IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

特表2023-518716アップサンプリングを用いたダブルトーク検出
<>
  • 特表-アップサンプリングを用いたダブルトーク検出 図1
  • 特表-アップサンプリングを用いたダブルトーク検出 図2
  • 特表-アップサンプリングを用いたダブルトーク検出 図3
  • 特表-アップサンプリングを用いたダブルトーク検出 図4
  • 特表-アップサンプリングを用いたダブルトーク検出 図5
  • 特表-アップサンプリングを用いたダブルトーク検出 図6
  • 特表-アップサンプリングを用いたダブルトーク検出 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-05-08
(54)【発明の名称】アップサンプリングを用いたダブルトーク検出
(51)【国際特許分類】
   H04R 3/02 20060101AFI20230426BHJP
   H04M 1/60 20060101ALI20230426BHJP
【FI】
H04R3/02
H04M1/60 C
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022554762
(86)(22)【出願日】2021-03-19
(85)【翻訳文提出日】2022-09-12
(86)【国際出願番号】 US2021023196
(87)【国際公開番号】W WO2021194881
(87)【国際公開日】2021-09-30
(31)【優先権主張番号】62/993,136
(32)【優先日】2020-03-23
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/153,522
(32)【優先日】2021-02-25
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ワーン,ニーン
【テーマコード(参考)】
5D220
5K127
【Fターム(参考)】
5D220CC04
5D220CC06
5K127AA03
5K127BA03
5K127MA02
(57)【要約】
ダブルトーク検出の方法が、アップサンプリングを使用することを含む。遠端から受領したオーディオ信号は、近端でラウドスピーカーによって出力される前にアップサンプリングされる。近端のマイクロフォンは、アップサンプリングされたレートでオーディオを捕捉し、ラウドスピーカーによるオーディオ出力は、アップサンプリングされた周波数帯域にエネルギーを有しないため、検出可能である。ダブルトーク検出器は、この情報を用いて、遠端に送信される捕捉されたオーディオ信号から、遠端オーディオのエコーを抑制するための信号を生成する。
【特許請求の範囲】
【請求項1】
コンピュータ実装されるオーディオ処理方法であって、当該方法は:
第1のオーディオ信号を受信するステップであって、前記第1のオーディオ信号は第1のサンプリング周波数を有する、ステップと;
前記第1のオーディオ信号をアップサンプリングして第2のオーディオ信号を生成するステップであって、前記第2のオーディオ信号は、前記第1のサンプリング周波数よりも大きい第2のサンプリング周波数を有する、ステップと;
前記第2のオーディオ信号に対応するラウドスピーカー出力をラウドスピーカーによって出力するステップと;
マイクロフォンによって第3のオーディオ信号を捕捉するステップであって、前記第3のオーディオ信号は、前記第1のサンプリング周波数よりも大きい第3のサンプリング周波数を有する、ステップと;
前記第3のオーディオ信号の信号パワーを決定するステップと;
前記第1のサンプリング周波数よりも大きな周波数帯域で決定された前記第3のオーディオ信号の信号パワーがある場合に、ダブルトークを検出するステップとを含む、
方法。
【請求項2】
ダブルトークが検出されたときに選択的に制御信号を生成するステップと;
前記制御信号に従って前記第3のオーディオ信号に対してエコー管理を実行するステップとをさらに含む、
請求項1に記載の方法。
【請求項3】
エコー管理を実行することが:
前記制御信号に従って前記第3のオーディオ信号に対してエコー打ち消しを実行することを含み、前記エコー打ち消しは前記第3のオーディオ信号に対して線形減衰を実行する、
請求項2に記載の方法。
【請求項4】
エコー管理を実行することが:
前記制御信号に従って前記第3のオーディオ信号に対してエコー抑制を実行することを含み、前記エコー抑制は、前記第3のオーディオ信号の特定の周波数帯域に対して非線形減衰を実行する、
請求項2または3に記載の方法。
【請求項5】
前記第3のオーディオ信号は、ローカル・オーディオおよび前記ラウドスピーカー出力を含み、前記ローカル・オーディオは、前記ラウドスピーカー出力以外のオーディオに対応し、前記ローカル・オーディオは、前記ラウドスピーカーによって出力されず、前記マイクロフォンによって捕捉される、請求項1ないし4のうちいずれか一項に記載の方法。
【請求項6】
前記第1のサンプリング周波数が8kHzであり、前記第2のサンプリング周波数が少なくとも16kHzであり、前記第3のサンプリング周波数が少なくとも16kHzである、請求項1ないし5のうちいずれか一項に記載の方法。
【請求項7】
前記第3のオーディオ信号をダウンサンプリングして第4のオーディオ信号を生成するステップであって、前記第4のオーディオ信号は、前記第3のサンプリング周波数よりも小さい第4のサンプリング周波数を有する、ステップと;
前記第4のオーディオ信号を遠端装置に送信するステップとをさらに含む、
請求項1ないし6のうちいずれか一項に記載の方法。
【請求項8】
前記第4のサンプリング周波数および前記第1のサンプリング周波数は、同じサンプリング周波数である、請求項7に記載の方法。
【請求項9】
前記第3のオーディオ信号の信号パワーを決定し、ダブルトークを検出することが:
前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の信号パワーを測定し;
前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の背景ノイズ・パワーを追跡し;
前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の信号パワーと、前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の背景ノイズ・パワーとを比較した結果として、ダブルトークを検出することを含む、
請求項1ないし8のうちいずれか一項に記載の方法。
【請求項10】
前記第3のオーディオ信号の信号パワーを決定し、ダブルトークを検出することが:
前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の信号パワーを測定し;
前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の背景ノイズ・パワーを追跡し;
前記第1のオーディオ信号の歪みパワーを測定し:
前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の信号パワーと、前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の背景ノイズ・パワーと、前記第1のオーディオ信号の前記歪みパワーとに基づいてダブルトークを検出することを含む、
請求項1ないし8のうちいずれか一項に記載の方法。
【請求項11】
前記第1のオーディオ信号の歪みパワーを測定することが:
前記第1のオーディオ信号に対して帯域通過フィルタリングを実行することによって、フィルタリングされた信号を生成し;
フィルタリングされた信号の信号パワーを測定し;
フィルタリングされた信号の信号パワーに対して非線形調節を実行することにより前記歪みパワーを決定することを含む、
請求項10に記載の方法。
【請求項12】
プロセッサによって実行されると、請求項1ないし11のうちいずれか一項に記載の方法を含む処理を実行するよう装置を制御するコンピュータ・プログラムを記憶している非一時的なコンピュータ読み取り可能媒体。
【請求項13】
ラウドスピーカー;
マイクロフォン;および
プロセッサを有する、オーディオ処理のための装置であって、
前記プロセッサは、第1のオーディオ信号を受信するよう当該装置を制御するように構成され、前記第1のオーディオ信号は第1のサンプリング周波数を有し;
前記プロセッサは、前記第1のオーディオ信号をアップサンプリングして第2のオーディオ信号を生成するよう当該装置を制御するように構成され、前記第2のオーディオ信号は、前記第1のサンプリング周波数よりも大きい第2のサンプリング周波数を有し;
前記プロセッサは、前記第2のオーディオ信号に対応するラウドスピーカー出力を前記ラウドスピーカーによって出力するよう当該装置を制御するように構成され;
前記プロセッサは、前記マイクロフォンによって第3のオーディオ信号を捕捉するよう当該装置を制御するように構成され、前記第3のオーディオ信号は、前記第1のサンプリング周波数よりも大きい第3のサンプリング周波数を有し;
前記プロセッサは、前記第3のオーディオ信号の信号パワーを決定するよう当該装置を制御するように構成され;
前記プロセッサは、前記第1のサンプリング周波数よりも大きな周波数帯域で決定された前記第3のオーディオ信号の信号パワーがある場合に、ダブルトークを検出するよう当該装置を制御するように構成されている、
装置。
【請求項14】
前記プロセッサが、ダブルトークが検出されたときに選択的に制御信号を生成するよう当該装置を制御するように構成され;
前記プロセッサが、前記制御信号に従って前記第3のオーディオ信号に対してエコー管理を実行するよう当該装置を制御するように構成されている、
請求項13に記載の装置。
【請求項15】
エコー管理を実行するよう当該装置を制御することが:
前記制御信号に従って前記第3のオーディオ信号に対してエコー打ち消しを実行するよう当該装置を制御することを含み、前記エコー打ち消しは前記第3のオーディオ信号に対して線形減衰を実行する、
請求項14に記載の装置。
【請求項16】
エコー管理を実行するよう当該装置を制御することが:
前記制御信号に従って前記第3のオーディオ信号に対してエコー抑制を実行するよう当該装置を制御することを含み、前記エコー抑制は、前記第3のオーディオ信号の特定の周波数帯域に対して非線形減衰を実行する、
請求項14または15に記載の装置。
【請求項17】
前記プロセッサは、前記第3のオーディオ信号をダウンサンプリングして第4のオーディオ信号を生成するよう当該装置を制御するように構成され、前記第4のオーディオ信号は、前記第3のサンプリング周波数よりも小さい第4のサンプリング周波数を有し;
前記プロセッサは、前記第4のオーディオ信号を遠端装置に送信するよう当該装置を制御するように構成されている、
請求項13ないし16のうちいずれか一項に記載の装置。
【請求項18】
前記第3のオーディオ信号の信号パワーを決定し、ダブルトークを検出するよう当該装置を制御することが:
前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の信号パワーを測定するよう当該装置を制御し;
前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の背景ノイズ・パワーを追跡するよう当該装置を制御し;
前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の信号パワーと、前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の背景ノイズ・パワーとを比較した結果として、ダブルトークを検出するよう当該装置を制御することを含む、
請求項13ないし17のうちいずれか一項に記載の装置。
【請求項19】
前記第3のオーディオ信号の信号パワーを決定し、ダブルトークを検出するよう当該装置を制御することが:
前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の信号パワーを測定するよう当該装置を制御し;
前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の背景ノイズ・パワーを追跡するよう当該装置を制御し;
前記第1のオーディオ信号の歪みパワーを測定するよう当該装置を制御し;
前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の信号パワーと、前記第1のサンプリング周波数よりも大きい前記周波数帯域における前記第3のオーディオ信号の背景ノイズ・パワーと、前記第1のオーディオ信号の前記歪みパワーとに基づいてダブルトークを検出するよう当該装置を制御することを含む、
請求項13ないし17のうちいずれか一項に記載の装置。
【請求項20】
前記第1のオーディオ信号の歪みパワーを測定するよう当該装置を制御することが:
前記第1のオーディオ信号に対して帯域通過フィルタリングを実行することによって、フィルタリングされた信号を生成するよう当該装置を制御し;
フィルタリングされた信号の信号パワーを測定するよう当該装置を制御し;
フィルタリングされた信号の信号パワーに対して非線形調節を実行することにより前記歪みパワーを決定するよう当該装置を制御することを含む、
請求項19に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2021年2月25日に出願された米国仮出願第63/153,522号、および2020年3月23日に出願された米国仮出願第62/993,136号に対する優先権を主張する。両出願は、参照により本明細書に組み込まれる。
【0002】
分野
本開示は、オーディオ処理に関し、特に、ダブルトーク検出に関する。
【背景技術】
【0003】
本明細書に別段の記載がない限り、本セクションに記載されたアプローチは、本願の請求項に対する先行技術ではなく、本セクションに含めることにより先行技術であると認められるものではない。
【0004】
オーディオ会議システムのような電気通信装置は、一般に、ラウドスピーカーとマイクロフォンの両方を含む。通信における2当事者は、近端当事者および遠端当事者と呼ばれることがある。近端当事者は、第1の電気通信装置に近接しており、遠端当事者は、近端当事者とは異なる位置におり、第2の電気通信装置を使用して、有線または無線の電気通信ネットワークを介して通信する。近端装置のマイクロフォンは、近端当事者の発話を捕らえるだけでなく、近端でラウドスピーカーから出力された遠端当事者の発話も捕らえることがある。マイクロフォンによって捕捉されるラウドスピーカーからの出力は、一般にエコーと呼ばれる。近端通信装置は、一般に、近端で捕捉されたオーディオを遠端に送信する前に該エコーを低減するためのエコー管理システムを含む。
【0005】
「ダブルトーク(double talk)」という用語は、一般に、会話における両当事者が同時に話している状況を表すために使用される。両当事者とも、ダブルトークはわずらわしいと考え、一般的には話すのをやめる。通信の質を向上させ、それによりユーザー体験を向上させるためには、ダブルトークが発生した場合に適切に対応できる装置を有することが有利であろう。
【発明の概要】
【発明が解決しようとする課題】
【0006】
ダブルトークが存在する場合、ダブルトークが発生しているという遠端に対する可聴的な手がかりを提供するために、あまり(または全く)エコー低減を実行することなく、遠端に近端の発話を送信することが望ましい。近端の電気通信装置は、ダブルトークを検出し、次いで、過度の減衰を実行しないようにエコー管理システムを制御するダブルトーク検出器を含むことがある。
【0007】
既存のダブルトーク検出システムの1つの問題は、音声信号の非定常的な性質がダブルトーク検出の高い偽陽性率をもたらすことである。さらに、ラウドスピーカーがマイクロフォンに近接しているラップトップコンピュータのような電気通信装置では、エコー管理システムは、デフォルトとして、より多くの減衰を実行する必要があり、そのため、会話において、ダブルトークの偽陽性検出が一層、望ましくないものとなる。上記を考慮すると、特にラウドスピーカーがマイクロフォンに近接している装置について、ダブルトーク検出を改善する必要がある。
【課題を解決するための手段】
【0008】
ある実施形態によると、コンピュータ実装されるオーディオ処理方法は、第1のオーディオ信号を受信することを含み、第1のオーディオ信号は第1のサンプリング周波数を有する。本方法はさらに、第1のオーディオ信号をアップサンプリングして第2のオーディオ信号を生成するステップを含み、第2のオーディオ信号は、第1のサンプリング周波数よりも大きい第2のサンプリング周波数を有する。本方法は、さらに、第2のオーディオ信号に対応するラウドスピーカー出力をラウドスピーカーによって出力することを含む。本方法は、さらに、マイクロフォンによって第3のオーディオ信号を捕捉することを含み、前記第3のオーディオ信号は、前記第1のサンプリング周波数よりも大きい第3のサンプリング周波数を有する。本方法は、さらに、第3のオーディオ信号の信号パワーを決定することを含む。本方法は、さらに、第1のサンプリング周波数よりも大きな周波数帯域で決定された第3のオーディオ信号の信号パワーがある場合に、ダブルトークを検出することを含む。
【0009】
本方法は、さらに、ダブルトークが検出されたときに選択的に制御信号を生成し、該制御信号に従って第3のオーディオ信号に対してエコー管理を実行することを含んでいてもよい。
【0010】
第3のオーディオ信号の信号パワーを決定し、ダブルトークを検出することは、第1のサンプリング周波数よりも大きい周波数帯域における第3のオーディオ信号の信号パワーを測定し;第1のサンプリング周波数よりも大きい周波数帯域における第3のオーディオ信号の背景ノイズ・パワーを追跡し;第1のサンプリング周波数よりも大きい周波数帯域における第3のオーディオ信号の信号パワーと、第1のサンプリング周波数よりも大きい周波数帯域における第3のオーディオ信号の背景ノイズ・パワーとを比較した結果としてダブルトークを検出することを含んでいてもよい。
【0011】
もう1つの実施形態によれば、装置は、ラウドスピーカー、マイクロフォン、およびプロセッサを含む。プロセッサは、本明細書に記載の方法の一つまたは複数を実施するように本装置を制御するように構成される。本装置は、さらに、本明細書に記載される方法の一つまたは複数と同様の詳細を含んでいてもよい。
【0012】
もう1つの実施形態によれば、非一時的なコンピュータ読み取り可能な媒体が、プロセッサによって実行されると本明細書に記載された方法の一つまたは複数を含む処理を実行するように装置を制御するコンピュータ・プログラムを記憶する。
【0013】
以下の詳細な説明および添付の図面は、さまざまな実装の性質および利点のさらなる理解を提供する。
【図面の簡単な説明】
【0014】
図1】オーディオ処理システム100のブロック図である。
【0015】
図2】オーディオ・コーデック・システム201(図1参照)の追加的な詳細を示すブロック図である。
【0016】
図3】A~Bは、2つの状況におけるアップサンプリングされた信号210と捕捉されたオーディオ信号211のパワースペクトルを示すグラフである。
【0017】
図4】ダブルトーク検出器401(図1図2も参照)の追加的な詳細を示すブロック図である。
【0018】
図5】ダブルトーク検出器501のブロック図である。
【0019】
図6】ある実施形態による、本明細書に記載される特徴およびプロセスを実施するための移動装置アーキテクチャー600である。
【0020】
図7】オーディオ処理方法700のフローチャートである。
【発明を実施するための形態】
【0021】
本明細書には、ダブルトーク検出に関する技法が記載されている。以下の説明において、説明の目的のために、本開示の十全な理解を提供するために、多数の例および個別的な詳細が記載される。しかしながら、特許請求の範囲によって定義される本開示は、これらの例における特徴の一部または全部をそれだけで、または以下に記載される他の特徴と組み合わせて含むことができ、さらに、本明細書に記載される特徴および概念の修正および均等物を含むことができることは、当業者にとって明らかであろう。
【0022】
以下の記述では、さまざまな方法、プロセスおよび手順が詳細に説明されている。具体的な段階がある順序で記述されることがあるが、そのような順序は、主として、便宜上、明確のためである。特定の段階が、2回以上繰り返されてもよく、他の段階の前または後に生起してもよく(たとえそれらの段階が別の順序で記載されていても)、他の段階と並列に行われてもよい。第2の段階は第1の段階の後にくることが要求されるのは、第2の段階が開始される前に第1の段階が完了しなければならない場合にのみである。そのような状況は、文脈から明確でない場合には、具体的に指摘されるであろう。
【0023】
本稿では、「および」、「または」および「および/または」という用語が使用される。そのような用語は、包括的な意味を有するものとして読まれる。たとえば、「AおよびB」は、少なくとも以下を意味し得る:「AおよびBの両方」、「少なくともAおよびBの両方」。別の例として、「AまたはB」は、少なくとも以下を意味し得る:「少なくともA」、「少なくともB」、「AおよびBの両方」、「少なくともAおよびBの両方」。別の例として、「Aおよび/またはB」は、少なくとも以下を意味し得る:「AおよびB」、「AまたはB」。排他的離接が意図される場合は、その旨が明記される(たとえば、「AまたはBのいずれか一方」、「AおよびBのうちの高々一つ」)。
【0024】
本稿は、ブロック、素子、コンポーネント、回路などの構造に関連するさまざまな処理機能について説明する。一般に、これらの構造は、一つまたは複数のコンピュータ・プログラムによって制御されるプロセッサによって実装されてもよい。
【0025】
図1は、オーディオ処理システム100のブロック図である。オーディオ処理システム100は、ラップトップコンピュータ、携帯電話、スピーカーホン、オーディオ会議システム、ビデオ会議システム等のようなさまざまな装置において実装されうる。たとえば、オーディオ処理システム100は、ラップトップコンピュータにおいて実装されてもよく、さまざまなコンポーネントは、ラップトップコンピュータが実行するコンピュータ・プログラムによって実装される。オーディオ処理システム100は、通信アプリケーション102、オーディオ・ドライバ・システム103、オーディオ・コーデック・システム201、ラウドスピーカー106、およびマイクロフォン108を含む。オーディオ処理システム100は、(簡潔のため)詳細には論じられない他の構成要素を含んでいてもよい。
【0026】
通信アプリケーション102は、一般に、オーディオ処理システム100を実装する装置のオーディオ入出力を制御する。たとえば、実装する装置がラップトップコンピュータである場合、通信アプリケーション102は、Microsoft Skype(商標)アプリケーション、Microsoft Teams(商標)アプリケーション、Zoom(商標)アプリケーションなどのコンピュータ・プログラムであってもよい。通信アプリケーション102は、ネットワーク(図示せず)と通信し、オーディオ処理システム100(近端装置とも呼ばれる)による出力のために遠隔装置(遠端装置とも呼ばれる)からオーディオを受信し、オーディオ処理システム100によって捕捉されたオーディオを遠隔装置に送信する。近端出力のためにネットワークから受信されるオーディオは、再生オーディオ信号120と呼ばれ、遠端出力のためにネットワークに送信されるオーディオは、捕捉オーディオ信号122と呼ばれる。
【0027】
オーディオ・ドライバ・システム103は、一般に、受信した信号に対してオーディオ処理を実行し、処理されたオーディオ信号を生成する。オーディオ・ドライバ・システム103は、再生オーディオ信号120を受信し、再生オーディオ信号124を生成し、捕捉されたオーディオ信号126を受信し、捕捉されたオーディオ信号122を生成する。通信アプリケーション102は、さまざまなオーディオ処理プロセスをオーディオ・ドライバ・システム103にオフロードすることができ、オーディオ・ドライバ・システム103は、通信アプリケーション102のコンポーネントであってもよい。オーディオ・ドライバ・システム103は、再生/捕捉スタック、オーディオ処理オブジェクト(audio processing object、APO)などと呼ばれてもよい。オーディオ・ドライバ・システム103の例は、ドルビー・ボイス(商標)通信システムである。オーディオ・ドライバ・システム103は、再生オーディオ信号124をオーディオ・コーデック・システム201に提供し、捕捉されたオーディオ信号126をオーディオ・コーデック・システム201から受信する。
【0028】
オーディオ・ドライバ・システム103は、エコー管理システム130を含むさまざまな処理モジュールを含む。エコー管理システム130は、一般に、マイクロフォン108によって捕捉された近端音声を保存しながら、ラウドスピーカー106から出力されマイクロフォン108によって捕捉された遠端音声のエコーを減衰させる。エコー管理システム130は、エコーキャンセラ132と、エコー抑制器134と、ダブルトーク検出器401とを含む。
【0029】
エコーキャンセラ132は、一般に、捕捉されたオーディオ信号126に対してエコー打ち消しを実行する。エコー打ち消しは、音響エコー打ち消しと呼ばれることもある。一般に、エコー打ち消しは、信号に線形減衰を適用する。エコーキャンセラは、適応フィルタを用いて実装されてもよい。適応フィルタは、ラウドスピーカー106とマイクロフォン108との組み合わされたシステムの室内応答をモデル化する。エコーキャンセラ132は、典型的には、20~25dBの間までの減衰を、捕捉されたオーディオ信号126に適用することができる。
【0030】
エコー抑制器134は、一般に、捕捉されたオーディオ信号126に対してエコー抑制を実行する。一般に、エコー抑制は、信号に非線形減衰を適用する。非線形減衰は、パワー帯域に基づいて実行されてもよく、エコー抑制器134は、異なる帯域に異なる抑制を適用してもよい。エコー抑制器134が特定の帯域においてエコーを検出する場合、エコー抑制器134は、それらの特定の帯域に抑制を適用する。エコー抑制器134は、典型的には、20~25dBの間までの減衰を、捕捉されたオーディオ信号126に適用してもよい。
【0031】
ダブルトーク検出器401は、一般に、エコーキャンセラ132およびエコー抑制器134を制御するための制御信号410を生成する。ダブルトークとは、一般に、ラウドスピーカー106がオーディオを出力するのと同時並行してマイクロフォン108が(近端で)オーディオを捕捉することをいう。ダブルトークがない場合、捕捉されたオーディオ信号126は、ラウドスピーカー106によって出力される遠端発話のエコーのみを含み、制御信号410は、エコー管理システム130を制御して、遠端に送信される捕捉されたオーディオ信号122中のエコーの量を減らす減衰を実行させる。ダブルトークがある場合、捕捉されたオーディオ信号126は、マイクロフォン108によって捕捉された遠端および近端発話のエコーを両方とも含み、制御信号410は、エコー抑制器134を制御して、遠端に送信される捕捉されたオーディオ信号122を生成する際に、ほとんど(または全く)減衰を実行しないようにする;制御信号410は、ダブルトークに起因する適応不良を低減するために、適応フィルタの更新を停止するようエコーキャンセラ132を制御してもよい。ダブルトーク検出器401のさらなる詳細は、図4を参照して以下に提供される。
【0032】
オーディオ・コーデック・システム201は、一般に、受信する信号に対してアナログ‐デジタル変換およびデジタル‐アナログ変換を実行する。オーディオ・コーデック・システム201はまた、図2を参照して以下にさらに詳述するように、アップサンプリングおよびダウンサンプリングを実行する。オーディオ・コーデック・システム201は、再生オーディオ信号124を受信し、デジタル‐アナログ変換を実行して、再生オーディオ信号140を生成する。オーディオ・コーデック・システム201は、捕捉されたオーディオ信号142を受信し、アナログ‐デジタル変換を実行し、捕捉されたオーディオ信号126を生成する。オーディオ・コーデック・システム201は、再生オーディオ信号140をラウドスピーカー106に提供し、捕捉されたオーディオ信号142をマイクロフォン108から受信する。オーディオ・コーデック・システム201のさらなる詳細は、図2を参照して以下に提供される。
【0033】
ラウドスピーカー106は、一般に、再生オーディオ信号140に対応する音を出力する。
【0034】
マイクロフォン108は、一般に、オーディオ処理システム100を実装する装置が存在する環境において音を捕捉し、捕捉されたオーディオ信号142を生成する。捕捉された音は、所望の音(たとえば、近端環境で話す人の発話)だけでなく、「エコー」と呼ばれるラウドスピーカー106から出力される音も含む。エコー管理システム130の1つの目標は、一般に、適切な状況において、捕捉されたオーディオ信号142からのエコーを低減する(または減衰させるまたは除去する)ことである。
【0035】
エコー管理システム130は、遠端発話と近端発話のいずれかまたは両方の組み合わせが存在することに基づいて、一般に3つの状況で動作可能である。(「発話(speech)」という用語が使われるのは、一般に、発話が関心対象の信号であるためである。しかしながら、近端および遠端で捕捉される信号は、一般に、発話と、音楽、環境ノイズなどの他の非発話オーディオの両方を含み、「発話」という用語は、非発話オーディオを除外することを意図されていない。)ラウドスピーカー106によって出力される遠端発話があり、近端発話がない場合、マイクロフォン108は、遠端発話のエコーのみを捕捉し、よって、エコー管理システム130は、捕捉されたオーディオ信号122を生成する際に、捕捉されたオーディオ信号126から遠端発話を打ち消すエコー管理を実行する(たとえば、大量の減衰)。ラウドスピーカー106によって出力される遠端発話と近端発話の両方がある場合、マイクロフォン108は遠端発話のエコーと近端発話の両方(「ダブルトーク」)を捕捉するので、エコー管理システム130は制御信号410に従って動作する。遠端発話がない場合、マイクロフォン108は近端発話のみを捕捉するので、エコー管理システム130は最小限の減衰を行う(または減衰を実行しない)。このようにして、制御信号410は、エコー管理システム130が3つの状況の間の区別をするのを助ける。
【0036】
要約すると、エコー管理システム130は、一般に、捕捉されたオーディオ信号122を生成するときに、捕捉されたオーディオ信号126から遠端発話を打ち消し、近端発話を残すように動作する。ダブルトーク検出器401は、一般に、近端発話があって遠端発話がない場合に積極的な減衰を適用することを回避するよう、エコー管理システム130を制御する。たとえば、理想的な状況では、エコー抑制器134は、近端発話があるときに最小限の減衰を実行する(または減衰を実行しない)。
【0037】
捕捉されたオーディオ信号142に存在するエコーの量は、オーディオ処理システム100を実装する装置の物理的属性に依存して変わることがある。たとえば、ラップトップ・デバイスについては、ラウドスピーカーとマイクロフォン108との間の物理的な離間は、約10dBの信号減衰を提供するだけでありうる。電気通信システムでは、ユーザー体験は、一般に、45~55dBの間のエコー打ち消しおよびエコー抑制を好み、よって、エコー管理システム130は、一般に、残りの35~45dBのエコー打ち消しおよびエコー抑制を提供するように動作する。
【0038】
図2は、オーディオ・コーデック・システム201(図1参照)の追加的な詳細を示すブロック図である。オーディオ・コーデック・システム201は、アップサンプラー220、信号変換器222、ダウンサンプラー224を含む。図2に示される他の構成要素は、同様の参照番号を有する、図1を参照して上述したもの(たとえば、オーディオ・ドライバ・システム103、ラウドスピーカー106、マイクロフォン108、ダブルトーク検出器401など)と同様である。オーディオ・コーデック・システム201は、(簡潔のため)詳細には説明されていない追加の構成要素を含んでいてもよい。
【0039】
アップサンプラー220は、再生オーディオ信号212を受信し、アップサンプリングを実行し、アップサンプリングされた信号210を生成する。再生オーディオ信号212は、一般に、オーディオ・ドライバ・システム103(図1参照)によって提供される再生オーディオ信号124に対応する。アップサンプリングとは、一般に、所与のサンプリング周波数の信号を、より高いサンプリング周波数に変換することをいう。たとえば、再生オーディオ信号212は、8kHz(たとえば、電話接続のため)、16kHz(たとえば、Microsoft Treams(商標)オーディオ信号)、24kHz(たとえば、Zoom(商標)オーディオ信号)などのサンプリング周波数を有してもよく、アップサンプリングされた信号210は、16kHz(たとえば、8kHz信号の2倍)、32kHz(たとえば、8kHz信号の4倍、16kHz信号の2倍、24kHz信号の1.333倍など)、48kHz(8kHz信号の6倍、16kHz信号の4倍、24kHz信号の2倍など)などのサンプリング周波数を有してもよい。低いほうのサンプリング周波数はfs0と呼ばれ、高いほうのサンプリング周波数はfs1と呼ばれる。
【0040】
信号変換器222は、一般に、信号に対してアナログ‐デジタル変換およびデジタル‐アナログ変換を実行する。信号変換器222は、アップサンプリングされた信号210を受信し、デジタル‐アナログ変換を実行し、ラウドスピーカー106による出力のために再生オーディオ信号140を生成する。信号変換器222は、マイクロフォン108によって捕捉された、捕捉されたオーディオ信号142を受信し、アナログ‐デジタル変換を実行し、捕捉されたオーディオ信号211を生成する。信号変換器222は一般に、高いほうのサンプリング周波数(たとえば、48kHz;再生オーディオ信号212の、低いほうのサンプリング周波数fs0より高いfs1に対応)で変換を実行するので、捕捉されたオーディオ信号211も、高いほうのサンプリング周波数(たとえば、48kHz)を有する。
【0041】
ダウンサンプラー224は、捕捉されたオーディオ信号211を受信し、ダウンサンプリングを実行し、ダウンサンプリングされた信号213を生成する。ダウンサンプリングされた信号213は、一般に、オーディオ・ドライバ・システム103(図1参照)に提供される、捕捉されたオーディオ信号126に対応する。ダウンサンプリングとは、一般に、所与のサンプリング周波数の信号を、より低いサンプリング周波数に変換することをいう。たとえば、捕捉されたオーディオ信号211は、8kHz(たとえば、電話接続のため)、16kHz(たとえば、Microsoft Teams(商標)オーディオ信号)、24kHz(たとえば、Zoom(商標)オーディオ信号)などのサンプリング周波数を有しうる。一般に、ダウンサンプリングされた信号213および再生オーディオ信号212は、同じサンプリング周波数を有する。
【0042】
ダブルトーク検出器401は、捕捉されたオーディオ信号211をオーディオ・コーデック・システム201から受信する。よって、図1の捕捉されたオーディオ信号126は、捕捉されたオーディオ信号211とダウンサンプリングされた信号213の両方に対応する。
【0043】
任意的に、ダブルトーク検出器401はまた、オーディオ・ドライバ・システム103がオーディオ・コーデック・システム201に提供する再生オーディオ信号212を受信してもよい。この任意的な構成は、図5を参照して以下により詳細に説明される。
【0044】
出力のためにラウドスピーカー106に提供されるアップサンプリングされた信号210は、再生オーディオ信号212をアップサンプリングすることの結果として生じるので、図3のA~Bを参照してさらに詳しく説明するように、マイクロフォン108によって捕捉されたアップサンプリングされた信号210のエコーは、再生オーディオ信号212のサンプリング周波数の半分より上の周波数の信号エネルギーを欠く。
【0045】
図3のA~Bは、2つの状況におけるアップサンプリングされた信号210と捕捉されたオーディオ信号211のパワースペクトルを示すグラフである。図3Aは、マイクロフォン108が、ラウドスピーカー106(図1~2参照)によって出力された遠端発話のみを捕捉し、捕捉される近端発話がない場合のパワースペクトルを示す。図3Bは、マイクロフォン108が、ラウドスピーカー106(図1図2参照)によって出力された遠端発話と近端発話の両方を捕捉するときのパワースペクトルを示す。これらの2つの状況は、マイクロフォン108が信号を捕捉したとき、オーディオ処理システム100は、ダブルトークが存在するかどうか(その場合、ほとんどまたは全く減衰を加える必要がない)、またはダブルトークが存在しないかどうか(その場合、遠端信号のエコーのため、比較的大量の減衰を加える必要がある)を判定する必要があることを示している。
【0046】
図3のAにおいて、y軸は信号パワーであり、x軸は周波数である。図示した周波数は1/2 fs0と1/2 fs1である。これは、ナイキスト・シャノンのサンプリング定理によれば、所与のサンプルレートSが、信号中に存在する最大周波数が1/2 Sである信号の正確な再構成を許容するからである。たとえば、fs0は24kHz、fs1は48kHzであってもよく、その場合、1/2 fs0は12kHz、1/2 fs1は24kHzである。マイクロフォン108が、ラウドスピーカー106によって出力された遠端発話のみを捕捉し、捕捉される近端発話がない場合、アップサンプリングされた信号210および捕捉されたオーディオ信号211は、両方とも、1/2 fs0未満の信号パワーのみを有する。これは、再生オーディオ信号212が、サンプリング周波数fs0を有し、よって、1/2 fs0より上で信号エネルギーを有さないので、アップサンプリングを行った結果も、同様に、アップサンプリングされた信号210が1/2 fs0より上の信号エネルギーを有さないことになるからである。よって、図3のAの状況では、1/2 fs0より上での信号パワーの不在は、ダブルトークの不在を示す。
【0047】
図3のBにおいて、マイクロフォン108が、ラウドスピーカー106(図1図2を参照)によって出力された遠端発話と近端発話の両方を捕捉する場合、アップサンプリングされた信号210は、1/2 fs0より下の信号パワーのみを有するが、捕捉されたオーディオ信号211は、1/2 fs0より上で信号パワーを有する(1/2 fs0より下と、1/2 fs0~1/2 fs1の間の両方)。これは、捕捉されたオーディオ信号211がfs1のサンプリング周波数を有し、よって、近端発話は1/2 fs1まで、捕捉されるエネルギーを有するが、再生オーディオ信号212は依然として1/2 fs0より上では信号エネルギーを有さないからである。よって、図3Bの状況では、1/2 fs0より上(たとえば、1/2 fs0から1/2 fs1までの間)での信号パワーの存在は、ダブルトークの存在を示す。
【0048】
図4は、ダブルトーク検出器401の追加的な詳細を示すブロック図である(図1図2も参照)。ダブルトーク検出器401は、パワー計(power meter)405と、最小フォロア404と、決定器406とを含む。ダブルトーク検出器401は、(簡潔のため)詳細には説明されていない他の構成要素を含んでいてもよい。
【0049】
パワー計405は、一般に、捕捉されたオーディオ信号211(図2を参照)を受領し、1/2 fs0~1/2 fs1の間のパワーを測定し、パワー信号402を生成する。パワー信号402は、一般に、1/2 fs0~1/2 fs1の間の帯域における二乗平均平方根(rms)パワーに対応し、これは、捕捉されたオーディオ信号211の瞬時パワーまたは平滑化されたパワーと呼ばれることもある。
【0050】
最小フォロア404は、一般にパワー信号402を受領し、背景ノイズ・パワーを追跡し、背景ノイズ・パワー信号403を生成する。背景ノイズ・パワー信号403は、一般に、パワー信号402の1/2 fs0~1/2 fs1の間の背景ノイズ・パワーに対応する。
【0051】
決定器406は、一般に、パワー信号402および背景ノイズ・パワー信号403を受信し、それらのレベルを比較し、制御信号410を生成する。決定器406は、ヒステリシス決定プロセスに従って動作することができ、たとえば、最近のシステム履歴を考慮に入れることによって、出力の反応がそれ以外の場合よりも急速でなくなるように入力をフィルタリングすることができる。ダブルトークがなく、パワー信号402のレベルが背景ノイズ・パワー信号403のレベルを第1の閾値量だけ超える場合は、決定器406が点灯する(fire)。ダブルトークがある場合は(すなわち、決定器406が点灯(fire)状態にあるとき)、決定器406は、パワー信号402が第2の閾値量を下回ったときのみ、オフ状態に変化する。
【0052】
図5は、ダブルトーク検出器501のブロック図である。ダブルトーク検出器501は、ダブルトーク検出器401(図4参照)に類似しているが、追加の構成要素をもち、再生オーディオ信号212(図2を参照)も受信する。ラップトップおよび携帯電話のような装置は、しばしばマイクロスピーカーを使用してラウドスピーカー106(図1を参照)を実装する。マイクロスピーカーについては、トランスデューサ・コンポーネントおよび装置の一般的な機械的歪みが、周波数範囲[1/2 fs0,1/2 fs1]において追加的なパワーを生成する可能性がある。そのような場合、誤警報率(たとえば、実際には近端音声がないときに近端音声が捕捉されることを検出することによる誤警報)を低減するために、ダブルトーク検出器501が使用されてもよい。
【0053】
ダブルトーク検出器501は、帯域通過フィルタ511、パワー計512、および非線形レギュレータ513を含む。ダブルトーク検出器501はまた、パワー計555、最小フォロア554、および決定器556を含む(これらは、図4のパワー計405、最小フォロア404、および決定器406と同様)。
【0054】
パワー計555は、一般に、パワー計405と同様の仕方で、捕捉されたオーディオ信号211(図2参照)を受信し、パワー信号552を生成する。最小フォロア554は、一般に、最小フォロア404と同様の仕方で、パワー信号552を受領し、背景ノイズ・パワー信号553を生成する。
【0055】
帯域通過フィルタ511は、一般に、再生オーディオ信号212を受領し、帯域通過フィルタリングを実行し、フィルタリングされた信号521を生成する。帯域通過フィルタ511の通過帯域は、共振周波数fresのまわりの帯域Bであってもよい。共振周波数fresは、一般に、ラウドスピーカー106を実装するために使用される特定の構成要素、およびオーディオ処理システム100を実装する装置の他の構成要素に対応し、経験的に測定されてもよい。帯域Bはまた、オーディオ処理システム100を実装する装置の他の構成要素に基づいて経験的に決定されてもよい。帯域Bの例示的な範囲は600Hzであり、その結果、帯域パスフィルタ511は[fres-300,fres+300]の通過帯域を有する。
【0056】
パワー計512は、一般に、フィルタリングされた信号521を受領し、信号パワーを測定し、共振パワー信号522を生成する。共振パワー信号(Pres)522は、フィルタリングされた信号521の信号パワー(たとえば、ラウドスピーカー106の機械的共振のパワー)に対応する。
【0057】
非線形レギュレータ513は、一般に、共振パワー信号522を受領し、非線形調節を実行し、歪みパワー信号(Pdist)514を生成する。歪みパワー信号514は、周波数範囲[1/2 fs0, 1/2 fs1]内の歪みパワーに対応する。非線形レギュレータ513は、歪みパワー信号Pdistを生成するために、以下のように非線形調節を実行してもよい:
【数1】
【0058】
上式において、th0は閾値パラメータであり、kはチューニング・パラメータである;これらのパラメータは、経験的測定に従って所望に応じて調整されうる。Presとth0の関係に依存するPdistの2つの関数のため、この調節は非線形と呼ばれる。Pdistの勾配は、Presとth0の間の差に適用されるチューニング・パラメータkによって制御され、Pdistがゼロから増加し始める開始点はPresとth0の間の関係によって制御される。
【0059】
決定器556は、一般に、パワー信号552、背景ノイズ・パワー信号553、および歪みパワー信号514を受領し、それらのレベルを比較し、制御信号410を生成する。一般に、決定器556は、エネルギーが主に捕捉された近端音声からか、デバイス歪みからかを判別することの一部として、歪みパワー信号514を使用する。より具体的には、決定器556は、歪みパワー信号514を使用して、パワー信号552および背景ノイズ・パワー信号553に適用されるヒステリシスの閾値(たとえば、決定器406に関して上述した第1の閾値)を増加させる。決定器556は、他の点では、決定器406と同様である。
【0060】
図6は、ある実施形態による、本明細書に記載される特徴およびプロセスを実装するための移動装置アーキテクチャー600である。アーキテクチャー600は、デスクトップコンピュータ、消費者のオーディオ/ビジュアル(AV)機器、ラジオ放送機器、モバイル機器(たとえば、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、ウェアラブルデバイス)などを含むが、これらに限定されない、任意の電子装置において実装されうる。示されている例示的な実施形態では、アーキテクチャー600はラップトップコンピュータについてのものであり、プロセッサ601、周辺機器インターフェース602、オーディオサブシステム603、ラウドスピーカー604、マイクロフォン605、センサー606(たとえば、加速度計、ジャイロ、気圧計、磁力計、カメラ)、位置プロセッサ607(たとえば、GNSS受信機)、無線通信サブシステム608(たとえば、Wi-Fi、Bluetooth、セルラー)およびI/Oサブシステム609を含み、これは、タッチコントローラ610および他の入力コントローラ611、タッチ表面612、および他の入力/制御装置613を含む。より多くの構成要素またはより少ない構成要素を有する他のアーキテクチャーも、開示された実施形態を実施するために使用できる。
【0061】
メモリインターフェース614は、プロセッサ601、周辺機器インターフェース602、およびメモリ615(たとえば、フラッシュ、RAM、ROM)に結合される。メモリ615は、オペレーティングシステム命令616、通信命令617、GUI命令618、センサー処理命令619、電話命令620、電子メッセージング命令621、ウェブブラウジング命令622、オーディオ処理命令623、GNSS/ナビゲーション命令624、およびアプリケーション/データ625を含むが、これらに限定されないコンピュータ・プログラム命令およびデータを記憶する。オーディオ処理命令623は、本明細書に記載されるオーディオ処理を実行するための命令を含む。
【0062】
図7は、オーディオ処理方法700のフローチャートである。方法700は、たとえば一つまたは複数のコンピュータ・プログラムを実行することによって、オーディオ処理システム100(図1を参照)、オーディオ・コーデック・システム201(図2を参照)、ダブルトーク検出器401(図4を参照)、ダブルトーク検出器501(図5を参照)などの機能を実現するために、図6のアーキテクチャー600の構成要素を有する装置(たとえばラップトップコンピュータ、携帯電話など)によって実行することができる。
【0063】
702では、第1のオーディオ信号が受領される。第1のオーディオ信号は、第1のサンプリング周波数を有する。たとえば、オーディオ・コーデック・システム201(図2参照)は、サンプリング周波数fs0を有する再生オーディオ信号212を受領してもよい。
【0064】
704では、第1のオーディオ信号はアップサンプリングされて、第2のオーディオ信号を生成する。第2のオーディオ信号は、第1のサンプリング周波数より大きい第2のサンプリング周波数を有する。たとえば、アップサンプラー220(図2参照)は、再生オーディオ信号212をアップサンプリングして、サンプリング周波数fs1を有するアップサンプリングされた信号210を生成することができる。特定の例として、fs0は24kHzであってもよく、fs1は48kHzであってもよい。
【0065】
706では、第2のオーディオ信号に対応するラウドスピーカー出力は、ラウドスピーカーによって出力されてもよい。たとえば、ラウドスピーカー106(図2参照)は、アップサンプリングされた信号210に対応するオーディオ出力を出力することができる。
【0066】
708では、第3のオーディオ信号は、マイクロフォンによって捕捉される。第3のオーディオ信号は、第1のサンプリング周波数より大きい第3のサンプリング周波数を有する。第3のサンプリング周波数は、第2のサンプリング周波数と同じであってもよい。たとえば、マイクロフォン108(図2参照)は、サンプリング周波数fs1を有する捕捉されたオーディオ信号211を捕捉してもよい。捕捉されたオーディオ信号211は、エコー(たとえば、第2のオーディオ信号に対応するラウドスピーカー出力のエコー)、捕捉された近端発話(たとえば、ローカルトーク)、方法700を実行する装置の機械的歪み(たとえば、他のローカル・オーディオ)などを含んでいてもよい。
【0067】
710では、第3のオーディオ信号の信号パワーが決定される。たとえば、ダブルトーク検出器401(図4参照)は、捕捉されたオーディオ信号211の信号パワーを決定してもよい。別の例として、ダブルトーク検出器501(図5参照)は、捕捉されたオーディオ信号211の信号パワーを決定してもよい。
【0068】
712では、第1のサンプリング周波数よりも大きな周波数帯域で決定された第3のオーディオ信号の信号パワーがあるときに、ダブルトークが検出される。たとえば、ダブルトーク検出器401は、周波数帯域[1/2 fs0,1/2 fs1]における信号パワーに基づいてダブルトークを検出してもよく;信号パワーがない場合(たとえば、図3Aに示されるように)、ダブルトークは検出されず、信号パワーがある場合(たとえば、図3Bに示されるように)、ダブルトークが検出される。
【0069】
714では、ダブルトークが検出されると、制御信号が選択的に生成される。たとえば、ダブルトーク検出器401(図4参照)は、ダブルトークが検出されたときに制御信号410を生成することができる。別の例として、ダブルトーク検出器501(図5参照)は、ダブルトークが検出されたときに制御信号410を生成することができる。
【0070】
716では、制御信号に従って、第3のオーディオ信号に対してエコー管理が実行される。たとえば、エコー管理システム130(図1参照)は、制御信号410に基づいて、捕捉されたオーディオ信号126に対してエコー打ち消し、エコー抑制などを実行して、捕捉されたオーディオ信号122を生成することができる。
【0071】
方法700は、本明細書に記載されるオーディオ処理システム100の他の機能に対応する追加的なステップを含んでいてもよい。
【0072】
追加的な応用
【0073】
上述のように、オーディオ処理システム100は、エコー管理プロセスの一部としてダブルトークを検出することができる。加えて、オーディオ処理システム100は、たとえば、装置を動かすことによる、あるいは、装置が触覚による相互作用を受けるときに、他のオーディオ歪みを検出することができる。そのような場合、エコー管理システム130は、たとえ近端発話や捕捉された遠端発話がなくても、エコー打ち消しを実行するよう、エコーキャンセラ132を適応させてもよい。
【0074】
実装の詳細
【0075】
実施形態は、ハードウェア、コンピュータ読み取り可能媒体上に記憶された実行可能モジュール、または両方の組み合わせ(たとえば、プログラマブル論理アレイ)で実装されてもよい。別段の規定がない限り、実施形態によって実行されるステップは、いかなる特定のコンピュータまたは他の装置にも本来的に関係している必要はないが、ある種の実施形態では関係していてもよい。特に、さまざまな汎用マシンが、本明細書の教示に従って書かれたプログラムとともに使用されてもよく、または、必要な方法ステップを実行するために、より特殊化された装置(たとえば、集積回路)を構築することがより便利であることがある。よって、実施形態は、それぞれが少なくとも1つのプロセッサ、少なくとも1つのデータ記憶システム(揮発性および不揮発性メモリおよび/または記憶素子を含む)、少なくとも1つの入力装置またはポート、および少なくとも1つの出力装置またはポートを有する、一つまたは複数のプログラマブルコンピュータシステム上で実行される一つまたは複数のコンピュータ・プログラムにおいて実装されてもよい。プログラムコードは、本明細書に記載の機能を実行し、出力情報を生成するために、入力データに適用される。出力情報は、公知の仕方で、一つまたは複数の出力装置に適用される。
【0076】
そのようなコンピュータ・プログラムのそれぞれは、好ましくは、本明細書に記載される手順を実行するためにコンピュータ・システムによって記憶媒体またはデバイスが読まれるときに、コンピュータを構成し、動作させるために、汎用または特殊目的のプログラム可能なコンピュータによって読み出し可能な記憶媒体またはデバイス(たとえば、固体メモリまたは媒体、または磁気または光学媒体)に記憶またはダウンロードされる。本発明のシステムは、コンピュータ・プログラムで構成されたコンピュータ読み取り可能な記憶媒体として実装されているとみなすこともでき、そのように構成された記憶媒体は、コンピュータ・システムに、本明細書に記載の機能を実行するよう、特定の、あらかじめ定義された仕方で動作させる。(ソフトウェア自体および無形または一時的な信号は、それらが特許性のない主題事項である限りにおいて、除外される。)
【0077】
本明細書に記載されるシステムの諸側面は、デジタルまたはデジタル化されたオーディオファイルを処理するための適切なコンピュータベースのサウンド処理ネットワーク環境において実装されてもよい。適応オーディオシステムの一部は、コンピュータ間で伝送されるデータをバッファリングおよびルーティングするはたらきをする一つまたは複数のルータ(図示せず)を含む、任意の所望の数の個々のマシンを含む一つまたは複数のネットワークを含んでいてもよい。そのようなネットワークは、さまざまな異なるネットワークプロトコル上に構築されてもよく、インターネット、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)、またはそれらの任意の組み合わせであってもよい。
【0078】
コンポーネント、ブロック、プロセス、または他の機能コンポーネントの一つまたは複数は、システムのプロセッサベースのコンピューティングデバイスの実行を制御するコンピュータ・プログラムを通じて実装されてもよい。また、本明細書に開示されたさまざまな機能は、ハードウェア、ファームウェア、および/またはさまざまな機械可読またはコンピュータ可読媒体において具現されたデータおよび/または命令の任意の数の組み合わせを使用して、それらの挙動、レジスタ転送、論理的構成要素、および/または他の特徴に関して記載されうることに注意しておくべきである。そのようなフォーマットされたデータおよび/または命令が具現されうるコンピュータ可読媒体は、光学、磁気または半導体記憶媒体のようなさまざまな形の物理的(非一時的)な不揮発性記憶媒体を含むが、これらに限定されない。
【0079】
上述の説明は、本開示の諸側面がどのように実装されうるかの例とともに、本開示のさまざまな実施形態を例示する。上記の例および実施形態は、唯一の実施形態とみなされるべきではなく、特許請求の範囲によって定義される本開示の柔軟性および利点を説明するために提示されてる。上述の開示および以下の特許請求の範囲に基づいて、他の構成、実施形態、実装および等価物が当業者には明らかであり、特許請求の範囲によって定義される本開示の精神および範囲から逸脱することなく使用することができる。
【先行技術文献】
【特許文献】
【0080】
【特許文献1】米国特許第7,764,783号
【特許文献2】米国特許第8,971,523号
【特許文献3】米国特許第6,496,795号
【特許文献4】米国特許第9,509,852号
【特許文献5】米国特許第8,811,601号
【特許文献6】米国特許第9,277,059号
【特許文献7】米国特許第9,538,299号
【特許文献8】米国特許第9,589,556号
【特許文献9】米国特許第7,046,794号
【非特許文献】
【0081】
【非特許文献1】A. Gilloire and M. Vetterli、"Adaptive filtering in subbands with critical sampling: analysis, experiments, and application to acoustic echo cancellation"、IEEE Transactions on Signal Processing, vol.40, no.8, pp.1862-1875, Aug. 1992, doi: 10.1109/78.149989
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】