IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ニートフレーム リミテッドの特許一覧

<>
  • 特表-オーディオ処理 図1
  • 特表-オーディオ処理 図2
  • 特表-オーディオ処理 図3
  • 特表-オーディオ処理 図4
  • 特表-オーディオ処理 図5
  • 特表-オーディオ処理 図6
  • 特表-オーディオ処理 図7
  • 特表-オーディオ処理 図8
  • 特表-オーディオ処理 図9
  • 特表-オーディオ処理 図10
  • 特表-オーディオ処理 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-26
(54)【発明の名称】オーディオ処理
(51)【国際特許分類】
   H04R 3/00 20060101AFI20240216BHJP
   G10L 21/0208 20130101ALI20240216BHJP
   H04R 1/32 20060101ALI20240216BHJP
【FI】
H04R3/00 320
G10L21/0208 100Z
G10L21/0208 100A
G10L21/0208 100B
H04R1/32 320
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023545316
(86)(22)【出願日】2022-02-03
(85)【翻訳文提出日】2023-07-26
(86)【国際出願番号】 EP2022052641
(87)【国際公開番号】W WO2022167553
(87)【国際公開日】2022-08-11
(31)【優先権主張番号】2101561.5
(32)【優先日】2021-02-04
(33)【優先権主張国・地域又は機関】GB
(31)【優先権主張番号】2106897.8
(32)【優先日】2021-05-14
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】522113475
【氏名又は名称】ニートフレーム リミテッド
(74)【代理人】
【識別番号】100107456
【弁理士】
【氏名又は名称】池田 成人
(74)【代理人】
【識別番号】100162352
【弁理士】
【氏名又は名称】酒巻 順一郎
(74)【代理人】
【識別番号】100123995
【弁理士】
【氏名又は名称】野田 雅一
(72)【発明者】
【氏名】ビルケネス, オイシュタイン
(72)【発明者】
【氏名】ブレニウス, レナート
(72)【発明者】
【氏名】リャオ, チャオ‐リン
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC05
(57)【要約】
オーディオ信号を処理するコンピュータ実装方法。方法は、2つ以上のマイクロフォンからそれぞれのオーディオ信号を受信すること、受信したオーディオ信号から、周波数によってインデックス付けされた複数の時間周波数信号を導出し、時間周波数信号のそれぞれについて、オーディオ信号のインビーム成分を判定すること、ならびに受信したオーディオ信号の後処理を実行することであって、後処理は、オーディオ信号に基づいて基準レベルを計算すること、オーディオ信号の判定されたインビーム成分に基づいてインビームレベルを計算すること、基準レベルとインビームレベルからインビーム成分に適用される後処理ゲインを計算すること、及び後処理ゲインをインビーム成分に適用することを含む、実行すること、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
オーディオ信号を処理するコンピュータ実装方法であって、
2つ以上のマイクロフォンからそれぞれのオーディオ信号を受信すること、
前記受信したオーディオ信号から、周波数によってインデックス付けされた複数の時間周波数信号を導出し、前記時間周波数信号のそれぞれについて、
前記オーディオ信号のインビーム成分を判定すること、ならびに
前記受信したオーディオ信号の後処理を実行することであって、前記後処理は、
前記オーディオ信号に基づいて基準レベルを計算すること、
前記オーディオ信号の前記判定されたインビーム成分に基づいてインビームレベルを計算すること、
前記基準レベルと前記インビームレベルから前記インビーム成分に適用される後処理ゲインを計算すること、及び
前記後処理ゲインを前記インビーム成分に適用することを含む、前記実行すること、を含む、コンピュータ実装方法。
【請求項2】
前記オーディオ信号のインビーム成分を判定することは、前記受信したオーディオ信号にビーム形成プロセスを適用することを含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記ビーム形成プロセスが、前記複数のマイクロフォンのそれぞれからの時間周波数信号の線形結合としてインビーム信号を推定することを含む、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記線形結合は、次の形式をとり、
【数1】

は複素結合重みである、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記2つ以上のマイクロフォンのうちの少なくとも1つのマイクロフォンは単一指向性マイクロフォンであり、前記2つ以上のマイクロフォンのうちの別のマイクロフォンは無指向性マイクロフォンであり、前記オーディオ信号のインビーム成分を判定することは、前記単一指向性マイクロフォンによって受信された前記オーディオ信号を空間フィルタとして利用することを含む、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記マイクロフォンがビデオ会議エンドポイント内に設置される、請求項1~5のいずれか一項に記載のコンピュータ実装方法。
【請求項7】
前記基準レベルが次のように計算され、
【数2】

式中、Lref(t,f)は前記基準レベル、γは平滑化係数、pは正の数、x(t,f)は前記受信したオーディオ信号の離散フーリエ変換から得られる時間周波数成分である、請求項1~6のいずれか一項に記載のコンピュータ実装方法。
【請求項8】
前記インビームレベルは、次のように計算され、
【数3】

式中LIB(t,f)は前記インビームレベル、γは平滑化係数、pは正の数、xIB(t,f)は前記受信したオーディオ信号の前記離散フーリエ変換器から得られる前記インビームの時間周波数成分である、請求項1~7のいずれか一項に記載のコンピュータ実装方法。
【請求項9】
前記後処理ゲインは、次のように計算され、
【数4】

式中Lref(t,f)は前記基準レベルで、LIB(t,f)が前記インビームレベルであり、hがスカッシング関数であり、前記後処理ゲインが0から1の間の値になるようにする、請求項1~8のいずれか一項に記載のコンピュータ実装方法。
【請求項10】
前記インビームレベルは、前記オーディオ信号の前記判定されたインビーム成分と前記受信したオーディオ信号との間の共分散c(t,f)を計算するために使用され、前記計算された共分散は、前記後処理ゲインの計算に使用される、請求項1~7のいずれか一項に記載のコンピュータ実装方法。
【請求項11】
前記後処理ゲインは、広範な線形フィルタを使用して計算される、請求項1~10のいずれか一項に記載のコンピュータ実装方法。
【請求項12】
前記後処理ゲインは、擬似基準レベル及び擬似共分散を使用して計算される、請求項10に記載のコンピュータ実装方法。
【請求項13】
前記スカッシング関数は、閾値Tを利用し、
【数5】

のとき前記後処理ゲインが次のように計算され、
【数6】

式中Lref(t,f)が前記基準レベルで、LIB(t,f)は前記インビームレベルで、αとβは正の実数で、それ以外の場合、前記後処理ゲインは次のように計算される
g(t,f)=1、請求項9~12のいずれかに一項に記載のコンピュータ実装方法。
【請求項14】
前記後処理ゲインを前記インビーム成分に適用することは、前記後処理ゲインに前記インビーム成分を乗算することを含む、請求項1~13のいずれか一項に記載のコンピュータ実装方法。
【請求項15】
前記複数の時間周波数信号のうちの1つまたは複数から共通ゲイン係数を計算すること、及び前記共通ゲイン係数を前記後処理ゲインとして他の時間周波数信号の1つまたは複数に適用することをさらに含む、請求項1~14のいずれか一項に記載のコンピュータ実装方法。
【請求項16】
前記受信したオーディオ信号からサンプルのフレームを入力として取得し、前記フレームに窓関数を乗算することを含む、請求項1~15のいずれか一項に記載のコンピュータ実装方法。
【請求項17】
離散フーリエ変換の適用を通じて前記窓化されたフレームを前記周波数領域に変換することをさらに含み、前記変換されたオーディオ信号は複数の時間周波数信号を含む、請求項16に記載のコンピュータ実装方法。
【請求項18】
前記オーディオ信号のインビーム成分を判定することは、ビデオカメラから視野を受信すること、及び前記ビデオカメラによってカバーされる前記視野に対応する前記空間領域としてインビームを定義することを含む、請求項1~17のいずれか一項に記載のコンピュータ実装方法。
【請求項19】
プロセッサとメモリを含むサーバであって、前記メモリが、前記プロセッサに、
複数のオーディオ信号を受信すること、
前記受信したオーディオ信号から、周波数によってインデックス付けされた複数の時間周波数信号を導出し、前記時間周波数信号のそれぞれについて、
前記オーディオ信号のインビーム成分を判定すること、
及び
前記受信したオーディオ信号の後処理を実行することであって、前記後処理は、
前記オーディオ信号に基づいて基準レベルを計算すること、
前記オーディオ信号の前記判定されたインビーム成分に基づいて インビームレベルを計算すること、
前記基準レベルと前記インビームレベルから前記インビーム成分に適用される後処理ゲインを計算すること、及び
前記後処理ゲインを前記インビーム成分に適用すること、を生起させる命令を含む、サーバ。
【請求項20】
前記メモリは、前記プロセッサに請求項1~18のいずれかに記載の方法を実行させる命令を含む、請求項19に記載のサーバ。
【請求項21】
ビデオ会議エンドポイントであって、
複数のマイクロフォン、
ビデオカメラ、
プロセッサ、及び
メモリを含み、前記メモリは、前記プロセッサにおいて実行されるとき、前記プロセッサに、
各マイクロフォンからそれぞれのオーディオ信号を受信すること、
前記受信したオーディオ信号から、周波数によってインデックス付けされた複数の時間周波数信号を導出し、前記時間周波数信号のそれぞれについて、
前記オーディオ信号のインビーム成分を判定すること、及び
前記受信したオーディオ信号の後処理を実行することであって、前記後処理は、
前記オーディオ信号に基づいて基準レベルを計算すること、
前記オーディオ信号の前記判定されたインビーム成分に基づいてインビームレベルを計算すること、
前記基準レベルと前記インビームレベルから前記インビーム成分に適用される後処理ゲインを計算すること、及び
前記後処理ゲインを前記インビーム成分に適用すること、を生起させる機械実行可能命令を含む、ビデオ会議エンドポイント。
【請求項22】
前記プロセッサは、請求項1~18のいずれかに記載の方法を実行するように構成されている、請求項21に記載のビデオ会議エンドポイント。
【請求項23】
プロセッサで実行されるとき、前記プロセッサに請求項1~18のいずれかに記載の方法を実行させるコンピュータ実行可能命令を含む、非一時的記憶媒体。
【請求項24】
プロセッサ及びメモリを含むコンピュータであって、前記メモリが、前記プロセッサで実行されるときに、前記プロセッサに請求項1~18のいずれかに記載の方法を実行させる機械実行可能命令を含む、前記コンピュータ。


【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータで実行される方法、サーバ、ビデオ会議エンドポイント、及び非一時的記憶媒体に関する。
【背景技術】
【0002】
ビデオ通話中、キッチンの騒音、犬の吠え声、または通話に参加していない他の人の会話の妨害などの音響ノイズは、通話参加者にとって迷惑で気を散らせ、会議を妨害する可能性がある。これは、視覚系によって同時に検出されないノイズを人間の聴覚系が相対的に除去できないため、カメラの視界において可視ではないノイズ源に特に当てはまる。
【0003】
この問題に対する既存の解決策は、複数のマイクロフォン信号を、ビーム外と言われる特定の方向、たとえば、カメラの視野の外側から来る音響信号をフィルタで除去することができる空間フィルタ(またはビームフォーマー)に結合することである。この技術は、ビデオシステムが屋外または音響的に非常に乾燥した部屋、つまり音響反射が非常に弱い部屋で使用される場合に、ビーム外ノイズ源を抑制するのに効果的である。しかし、ビデオ会議システムが使用されているほとんどの部屋では、ビーム外のノイズ源により、インビームにある方向からの大量の音響反射が発生する。ノイズ源のこれらのインビーム反射は空間フィルタによって除去されないため、減衰されずに遠端の参加者に送信される。したがって、理想的な空間フィルタを使用しても、ビーム外のノイズが依然として送信され、ビデオ会議が乱される可能性がある。
【0004】
US 2016/0066092 A1は、非線形アプローチを使用して、方向性フィルタ係数に基づいて出力からソース信号をフィルタリングすることによって、この問題にアプローチすることを提案している。Owens A., Efros A.A. (2018) Audio-Visual Scene Analysis with Self-Supervised Multisensory Features. 出典:In:Ferrari V., Hebert M., Sminchisescu C., Weiss Y. (eds) Computer Vision- ECCV 2018. ECCV 2018. Lecture Notes in Computer Science, vol 11210. Springer, Cham.は、深層学習ベースのモデルの適用を通じてこの問題にアプローチすることを提案している。
【発明の概要】
【0005】
したがって、第1の態様で、本発明の実施形態は、オーディオ信号を処理するコンピュータ実装方法を提供し、方法は、
2つ以上のマイクロフォンからそれぞれのオーディオ信号を受信すること、
受信したオーディオ信号から、周波数によってインデックス付けされた複数の時間周波数信号を導出し、
時間周波数信号のそれぞれについて、オーディオ信号のインビーム成分を判定すること、ならびに
受信したオーディオ信号の後処理を実行することであって、後処理は、
オーディオ信号に基づいて基準レベルを計算すること、
オーディオ信号の判定されたインビーム成分に基づいてインビームレベルを計算すること、
基準レベルとインビームレベルからインビーム成分に適用される後処理ゲインを計算すること、及び
後処理ゲインをインビーム成分に適用することを含む、実行すること、を含む。
【0006】
上記の方法により、ビーム外のノイズ源を抑制できるため、インビーム音源の明瞭度が向上する。
【0007】
ここで、本発明の任意の特徴が示される。これらは、単独で、または本発明の任意の態様との任意の組み合わせで適用可能である。
【0008】
本発明は態様及び記載された好ましい特徴の組み合わせを含むが、そのような組み合わせが、明らかに容認できないかまたは明らかに避けられる場合は除く。
【0009】
オーディオ信号のインビーム成分を判定することは、受信したオーディオ信号にビーム形成プロセスを適用することを含むことができる。ビーム形成プロセスは、複数のマイクロフォンのそれぞれからの時間周波数信号の線形結合としてインビーム信号を推定することを含むことができる。線形結合は
【数1】

の形式を取ることができ、式中wは複素結合重みであり、x(t,f)は時間周波数信号であり、nの各マイクロフォンに1つずつ対応する。
【0010】
一部の例では、インビーム信号xIB(t,f)(必ずしも上記の式を使用して計算されるわけではない)はインビームレベルに対応するため、インビームレベルを計算することは、インビーム信号を計算することを伴い、後処理ゲインを計算することは、インビームレベルを利用して、後処理ゲインで使用するさらなるパラメータを計算することを含むことができる。他の例では、インビームレベルはインビーム信号xIB(t,f)を使用して計算される。両方の変形例については、以下でより詳しく説明する。
【0011】
2つ以上のマイクロフォンのうちの少なくとも1つのマイクロフォンは単一指向性マイクロフォンであり得、2つ以上のマイクロフォンのうちの別のマイクロフォンは無指向性マイクロフォンであり得、オーディオ信号のインビーム成分を判定することは、単一指向性マイクロフォンによって受信されたオーディオ信号を空間フィルタとして利用することを含み得る。
【0012】
マイクロフォンはビデオ会議エンドポイント内に設置できる。
【0013】
基準レベルは次のように計算でき、
【数2】

式中、γは平滑化係数、pは1または2の値をとり得る正の数、x(t,f)は受信したオーディオ信号の離散フーリエ変換から得られる時間周波数成分である。平滑化係数は0と1の間の値を取ることができる。
【0014】
インビームレベルは次のように計算でき、
【数3】

式中、γは平滑化係数、pは1または2の値をとり得る正の数、xIB(t,f)は受信したオーディオ信号の離散フーリエ変換器から得られるインビーム時間周波数成分である。平滑化係数は0と1の間の値を取ることができる。
【0015】
後処理ゲインは
【数4】
【0016】
方法は、後処理ゲインが少なくとも0かつ1以下の値をとるように、後処理ゲインにスカッシング関数を適用することをさらに含むことができる。スカッシング関数は、閾値Tを利用することができ、また、以下の形態をとることができる、
s<0の場合h(s)=0
0≦s≦Tの場合h(s)=β・sα
s>Tの場合h(s)=1
式中、αとβは正の実数値である。一部の例では、α=1及びβ=1である。他の例では、スカッシング関数は一般化されたロジスティック関数の実装である。
【0017】
さらなる例では、LIB(t,f)≦T・Lref(t,f)の場合、後処理ゲインは次のように計算される、
【数5】

式中αとβは正の実数であり、それ以外の場合、後処理ゲインは次のように計算される
g(t,f)=1。
【0018】
後処理ゲインをインビーム成分に適用することは、後処理ゲインにインビーム成分を乗算することを含むことができる。
【0019】
さらなる例では、インビームレベルを使用して、オーディオ信号の判定されたインビーム成分と受信したオーディオ信号との間の共分散c(t,f)を計算することができ、計算された共分散は、後処理ゲインを計算するために使用される。たとえば、共分散は次のように計算できる、
【数6】

式中、x(t,f)は受信したオーディオ信号の離散フーリエ変換から得られる基準時間周波数成分、xIB(t,f)はインビームレベルに対応する受信したオーディオ信号の離散フーリエ変換から得られるインビーム時間周波数成分であり、
【数7】

は基準時間周波数信号の複素共役である。
【0020】
この場合、後処理ゲインは次のように計算できる。
【数8】
【0021】
後処理ゲインが0以上1以下の値をとるように、後処理ゲインのこの変形例にスカッシング関数を適用することもできる。したがって、後処理ゲインは次のようになる。
【数9】

ここで、h(s)はスカッシング関数である。たとえば、上記のh(s)で説明したように、閾値Tを使用する。共分散c(t,f)を使用すると、後処理フィルタのパフォーマンスを向上させることができる。これは、インビーム信号xIB(t,f)が、共分散c(t,f)に反映される受信したビーム外信号xOB(t,f)=x_i(t,f)-xIB(t,f)と相関している可能性があるためである。
【0022】
あるいは、後処理ゲインは、線形フィルタまたは広範な線形フィルタを使用して計算することもできる。これには、擬似参照レベルと擬似共分散を使用して後処理ゲインを計算することが伴い得る。たとえば、後処理ゲインは次のように計算できる。
【数10】

式中、g(t,f)は次のように計算される、
【数11】

1(t,f)は次のように計算される、
【数12】

Pref(t,f)は擬似参照レベルで、たとえば次のように計算される、
【数13】

(t,f)は擬似共分散であり、たとえば次のように計算される、
【数14】

hはスカッシング関数であり、後処理ゲインは0から1までの値をとる。
【0023】
方法は、複数の時間周波数信号のうちの1つまたは複数から共通ゲイン係数を計算すること、及び共通ゲイン係数を後処理ゲインとして他の時間周波数信号の1つまたは複数に適用することをさらに含んでもよい。共通ゲイン係数を適用することは、後処理ゲインを他の時間周波数信号の1つ以上に適用する前に、共通ゲイン係数に後処理ゲインを乗算することを含むことができる。
【0024】
方法はさらに、受信したオーディオ信号からサンプルのフレームを入力として取り込み、そのフレームに窓関数を乗算することを含んでもよい。方法は、離散フーリエ変換の適用を通じて窓化されたフレームを周波数領域に変換することをさらに含んでもよく、変換されたオーディオ信号は複数の時間周波数信号を含む。
【0025】
オーディオ信号のインビーム成分を判定することは、ビデオカメラから視野を受信し、ビデオカメラによってカバーされる視野に対応する空間領域としてインビームを定義することを含むことができる。
【0026】
第2の態様において、本発明の実施形態は、プロセッサとメモリを含むサーバを提供し、メモリは、プロセッサに、
複数のオーディオ信号を受信すること、
受信したオーディオ信号から、周波数によってインデックス付けされた複数の時間周波数信号を導出し、時間周波数信号のそれぞれについて、オーディオ信号のインビーム成分を判定すること、及び
受信したオーディオ信号の後処理を実行することであって、後処理は、
オーディオ信号に基づいて基準レベルを計算すること、
オーディオ信号の判定されたインビーム 成分に基づいてインビームレベルを計算すること、
基準レベルとインビームレベルからインビーム成分に適用される後処理ゲインを計算すること、
及び後処理ゲインをインビーム成分に適用すること、を生起させる命令を含む。
【0027】
第2の態様のメモリは、プロセッサによって実行されるとき、プロセッサに、参照しながら説明するオプション機能のいずれか1つ、または互換性がある限り任意の組み合わせを含む第1の態様の方法を実行させる機械実行可能命令を含んでもよい。
【0028】
第3の態様において、本発明の実施形態は、ビデオ会議エンドポイントを提供し、
複数のマイクロフォン、
ビデオカメラ、
プロセッサ、及び
メモリを含み、メモリは、プロセッサにおいて実行されるとき、プロセッサに、
各マイクロフォンからそれぞれのオーディオ信号を受信すること、
受信したオーディオ信号から、周波数によってインデックス付けされた複数の時間周波数信号を導出し、時間周波数信号のそれぞれについて、
オーディオ信号のインビーム成分を判定すること、及び受信したオーディオ信号の後処理を実行することであって、
後処理は、
オーディオ信号に基づいて基準レベル を計算すること、
オーディオ信号の判定されたインビーム成分に基づいてインビームレベルを計算すること、
基準レベルとインビームレベルからインビーム成分に適用される後処理ゲインを計算すること、及び
後処理ゲインをインビーム成分に適用すること、を生起させる機械可読命令を含む。
【0029】
第3の態様のメモリは、プロセッサによって実行されるとき、プロセッサに、参照しながら説明するオプション機能のいずれか1つ、または互換性がある限り任意の組み合わせを含む第1の態様の方法を実行させる機械実行可能命令を含んでもよい。
【0030】
第4の態様では、本発明の実施形態は、プロセッサ及びメモリを含むコンピュータを提供し、メモリは、プロセッサにおいて実行されるとき、プロセッサに、参照しながら説明するオプション機能のいずれか1つ、または互換性がある限り任意の組み合わせを含む第1の態様の方法を実行させる機械実行可能命令を含む。コンピュータは、例えばビデオ会議のエンドポイントであってもよく、ネットワークを介して複数のオーディオ信号を受信するように構成されてもよい。
【0031】
本発明のさらなる態様は、コンピュータ上で実行されると、コンピュータに第1の態様の方法を実行させるコードを含むコンピュータプログラム、コンピュータで実行されるとき、コンピュータに第1の態様の方法を実行させるコードを含むコンピュータプログラムを格納するコンピュータ可読媒体、及び第1の態様の方法を実行するようにプログラムされたコンピュータシステムを提供する。
【0032】
次に、本発明の実施形態は、例として以下の添付の図面を参照して説明される。
【図面の簡単な説明】
【0033】
図1】コンピュータネットワークの概略図を示している。
図2】本発明による方法を示す信号のフロー図である。
図3】本発明による変形例の方法を示す信号のフロー図である。
図4】さまざまなシナリオを示し、この方法がどのように適用されるかを示している。
図5】さまざまなシナリオを示し、この方法がどのように適用されるかを示している。
図6】さまざまなシナリオを示し、この方法がどのように適用されるかを示している。
図7】さまざまなシナリオを示し、この方法がどのように適用されるかを示している。
図8】さまざまなシナリオを示し、この方法がどのように適用されるかを示している。
図9】本発明による変形例の方法を示す信号のフロー図である。
図10】本発明によるさらなる変形例の方法を示す信号のフロー図である。
図11】本発明によるさらなる変形例の方法を示す信号のフロー図である。
【発明を実施するための形態】
【0034】
本発明の態様及び実施形態を、添付の図面を参照してここで説明する。さらなる態様及び実施形態は、当業者にとって明白である。本文において言及されるすべての文書は、参照により本明細書に援用される。
【0035】
図1は、コンピュータネットワークの概略図を示している。ネットワークは、複数のマイクロフォン、ビデオカメラ、プロセッサ、及びメモリを含むビデオ会議エンドポイント102を含む。メモリには、以下で詳細に説明するように、プロセッサに特定の動作を実行させる機械実行可能命令が含まれる。エンドポイント102はネットワーク104に接続され、これはワイドエリアネットワークまたはローカルエリアネットワークであり得る。また、サーバ106、ビデオ会議システム108、ラップトップ110、デスクトップ112、及びスマートフォン114もネットワークに接続されている。ここで説明する方法は、これらのデバイスのいずれにも適用できる。例えば、エンドポイント102のマイクロフォンによってキャプチャされた音声は、受信機に送信される前に、本明細書に開示される方法に従って集中処理するために、サーバ106に送信され得る。あるいは、マイクロフォンによってキャプチャされた音声は、方法が適用されることなく受信者に直接送信され得、受信者(例えば、システム108、ラップトップ110、デスクトップ112、及び/またはスマートフォン114)は、次いで、ローカルスピーカーにより、処理されたオーディオ信号を出力する前に、方法を実行することができる。
【0036】
図2は、本発明による方法を示す信号のフロー図である。便宜上、3つのマイクロフォンのみが示されているが、2つ以上の任意の数のマイクロフォンを使用できる。最初のステップでは、各アナログマイクロフォン信号がアナログデジタルコンバーター(ADC)を使用してデジタル化される。これは、各アナログ信号が16kHzなどの選択されたサンプリング周波数に合わせてサンプリングされ、次いで各回のサンプルが32ビット浮動小数点の数で表現できるように個別の値のセットに量子化されることを意味する。デジタルマイクロフォン(つまり、独自のADCを組み込んだもの)を使用する場合、個別のADCは必要ない。
【0037】
次に、デジタル化された各信号が分析フィルタバンクに供給される。このフィルタバンクは、それを時間周波数領域に変換する。より具体的には、一定の間隔(10ミリ秒ごとなど)で、分析フィルタバンクはサンプルのフレーム(たとえば40ミリ秒)を入力として受け取り、そのフレームを窓関数(たとえばハン窓関数)で乗算し、窓で囲まれたフレームを、離散フーリエ変換(DFT)を使用して、周波数領域に変換する。言い換えれば、たとえば10ミリ秒ごとに、各分析フィルタバンクはNの複素DFT係数のセットを出力する(たとえば、N=256)。これらの係数は、0Hzからサンプリング周波数の半分までの範囲の一連の周波数成分の振幅と位相として解釈できる(周波数の上半分はいずれの追加情報も含まれていないため無視される)。これらの信号は時間周波数信号と呼ばれ、各マイクロフォンに対して1つずつ、x(t,f),x(t,f),及びx(t,f),で示される。tは時間フレームインデックスで、整数の値0、1、2…などをとり、fは周波数インデックスで、整数の値0、1、…、N-1をとる。
【0038】
各周波数インデックスfの時間周波数信号は、次いで、他の周波数インデックスとは独立して処理される。したがって、簡単にするために、図1は、1つの周波数インデックスfに適用される処理の信号のフローのグラフを示している。ただし、他の周波数インデックスの信号のフローのグラフは同等である。
【0039】
各周波数インデックスfについて、空間フィルタを使用して、ビーム外方向と呼ばれる特定の方向から来る音声信号をフィルタで除去する。ビーム外方向は通常、カメラの視界に可視ではない方向として選択される。空間フィルタは、マイクロフォンの時間周波数信号の線形結合としてインビーム信号xIB(t,f)を計算する。時間インデックスtと周波数インデックスfのインビームの推定値は、すべてのマイクロフォンの時間周波数信号の線形結合である。つまり、次のようになる。
【数15】

式中、複素結合重みw(f)、w(f)、及びw(f)は時間に依存せず、当技術分野でそれ自体既知のビームフォーミング設計アプローチを使用して見つけることができる。
【0040】
この段階では、空間フィルタの出力であるインビーム信号には、1つ以上のビーム外音源によって生成された大量のインビーム反射が含まれ得る。これらの不要な反射は、以下で詳しく説明するポストプロセッサによって除去される。各周波数インデックスfの後処理後、合成フィルタバンクを使用して信号を時間領域に変換し直す。これは分析フィルタバンクの逆演算であり、Nの複素DFT係数を、たとえば10ミリ秒のサンプルから構成されるフレームに変換することになる。
【0041】
ポストプロセッサは2つの時間周波数信号を入力として受け取る。1つ目は基準信号で、ここでは最初の時間周波数信号x(t,f)として選択されているが、代わりに他の時間周波数信号のいずれかを基準信号として使用することもできる。2番目の入力はインビーム信号xIB(t,f)で、空間フィルタの出力である。これら2つの入力のそれぞれについて、指数平滑法を使用してレベルが計算される。つまり、基準レベルは次のとおりである。
【数16】

式中、γは平滑化係数、pは1または2の値を取り得る正の数である。γは0と1の間の値を取ることができる。同様に、この例のインビームレベルは次のようになる。
【数17】
【0042】
この例では指数平滑法が使用されているが、代わりに、スライディングウィンドウのサンプル分散など、別の式を使用してレベルを計算することもできる。たとえば、サンプルの最後の1ミリ秒である。次に、基準レベルとインビームレベルを使用して、インビーム信号xIB(t,f)に適用される後処理ゲインg(t,f)を計算する。このゲインg(t,f)は0から1までの数値であり、式中0は時間インデックスtと周波数インデックスfのインビーム信号が完全に抑制されることを示し、1は時間インデックスtと周波数インデックスfのインビーム信号が減衰されないままであることを示す。したがって、理想的には、時間インデックスt及び周波数インデックスfのインビーム信号がビーム外信号の音源からのノイズの多い反射によって支配されている場合には、ゲインが0に近く、時間インデックスtと周波数インデックスfのインビーム信号が、インビーム音源によって支配される場合、1に近づくべきである。このように、時間周波数表現が適切に選択されていれば、ビーム外の音源は大幅に抑制され、インビーム音源は大部分が減衰されずにポストプロセッサを通過する。これを実現するには、ゲインに対応するウィーナーフィルタの近似が使用できる。
【数18】
【0043】
式中SNR(t,f)は、時間インデックスt及び周波数インデックスfにおける推定信号対雑音比(SNR)である。このタイプのゲイン自体は、単一マイクロフォンのスペクトル減算などの従来のノイズリダクションで知られており、静止したバックグラウンド信号がノイズと見なされ、その他すべてが信号と見なされる。しかし、これを本方法に適用する場合、異なる定義が使用される。インビーム信号xIB(t,f)が信号とみなされ、ビーム外信号xOB(t,f)=x(t,f)-xIB(t,f)がノイズとみなされる。信号とノイズのこれらの定義をウィーナーフィルタの式に代入すると、次のようになる。
【数19】
【0044】
2つのレベルの計算方法により、比率LIB(t,f)/Lref(t,f)が1以下であることは保証されない。このため、また抑制パフォーマンスの調整をより柔軟にするために、スカッシング関数hが比率LIB(t,f)/Lref(t,f)に適用され、最終的な後処理ゲインは次のようになる。
【数20】

ここで、スカッシング関数は、実数の集合から集合[0,1]への非減少マッピングとして定義される。このようなスカッシング関数の例は次のとおりである。
s<0の場合h(s)=0
s≧0でs≦Tの場合h(s)=s
s>Tの場合h(s)=1
式中、T≦1は正の閾値である。これにより、後処理ゲインの次の式が得られる。
【数21】

それ以外の場合、g(t,f)=1
【0045】
図3は、インビーム時間周波数信号と基準時間周波数信号の間の短時間共分散の推定値を使用して後処理ゲインが計算される変形例を示している。共分散は、インビーム時間周波数信号と基準時間周波数信号との間の相互相関としても考慮され得る。2つの入力間の共分散は次のとおりである、
【数22】

式中、xIB(t,f)はこの例のインビームレベルに対応するインビーム時間周波数信号、γは平滑化係数、
【数23】

は基準時間周波数信号の複素共役であり、xIB(t,f)とx(t,f)はどちらも平均が0であると想定される。後処理ゲインは次のように計算できる。
【数24】

式中、v(t,f)は基準信号とそれ自体の共分散の短時間推定値である。これは基準信号の分散の推定値と同じであり、前の変形例のLref(t,f)と同じ式を使用して短時間の共分散を計算することができる。したがって、後処理ゲインは次のようになる。
【数25】
【0046】
この例では指数平滑法が使用されているが、代わりに、別の式を使用してスライディングウィンドウのサンプル共分散など、短時間共分散を計算することもできる。たとえば、サンプルの最後の1ミリ秒である。
【0047】
後処理ゲインがどのように機能するかを示すために、ビデオシステムの前で単一のビームを作成し、Tが0.5に設定されている空間フィルタを考察する。図4に示すシナリオでは、インビーム音源はマイクロフォンのすぐ近くにある。したがって、マイクロフォン信号はインビームの直接的な音と、おそらくその初期の反射によって支配される。他のすべての反射は、ビーム外の反射を含め、比較すると非常に小さいものになる。これは、空間フィルタがマイクロフォンアレイに当たる音響エネルギーのほぼすべてを通過させることを意味する。これは、やはりインビームレベル(LIB(t,f)またはxIB(t,f))が基準レベルLref(t,f)に近くなり、1に等しいまたは1に近い後処理ゲインに至ることを意味する。
【0048】
次に、図5に示すシナリオに移る。インビーム音源がマイクロフォンアレイから遠ざかるほど、直接的な音とおそらくはその初期の反射が弱まる。したがって、他の反射が同じ程度に弱められないため、マイクロフォンアレイに当たるエネルギーの大部分が空間フィルタによって抑制され、その結果、インビームレベルは基準レベルに比べて小さくなる。最終的に、インビームレベルが基準レベルの半分に減少すると、後処理ゲインは1から0.5に低下する。
【0049】
言い換えれば、ビデオシステムに近いインビーム音源はポストプロセッサによって減衰されない。ただし、ビデオシステムから一定の距離を超えると、インビーム音源は減衰する。この距離は、少なくとも部分的に室内音響によって決まる。音響的に乾燥した部屋は、湿った(たとえば、残響の多い)部屋よりも距離が長くなる。
【0050】
図6は、ビーム外の音源がマイクロフォンアレイに非常に近いシナリオを考慮している。マイクロフォン信号はビーム外の直接的な音と、おそらくその初期の反射によって支配される。他のすべての反射は、インビームの反射を含め、比較すると非常に小さいものになる。これは、空間フィルタがマイクロフォンアレイに当たる音響エネルギーのほぼすべてを抑制することを意味する。つまり、インビームレベル(LIB(t,f)またはxIB(t,f))が、0に近い後処理ゲインを与える基準レベルLref(t,f)よりもはるかに小さいことを意味する。ここで図7のシナリオに移ると、ビーム外の音源がマイクロフォンアレイから遠ざかるほど、直接的な音とおそらくはその初期の反射が弱まる。したがって、他の反射が同じ程度に弱められないため、マイクロフォンアレイに当たるエネルギーの少ない部分が空間フィルタによって抑制され、そのため、基準レベルはインビームレベルに比べて小さくなる。これは、LIB(t,f)/Lref(t,f)またはc(t,f)/Lref(t,f)によって駆られる後処理ゲインが約0からより大きな値まで増加することを意味する(ただし、通常0.5もの大きさになることはない)。
【0051】
言い換えれば、ビデオシステムに近いビーム外の音源は、ポストプロセッサによって大幅に減衰される。距離が離れていると、ビーム外の音源は依然として減衰するが、それほど大きくはない。
【0052】
図8は、近いインビームの音源と近いビーム外の音源の両方が存在するシナリオを示している。インビーム音源と、ビーム外音源のいずれかとの間に重なりがまったくまたはほとんどない時間周波数ビンは、上で説明した図4~7に示すシナリオのように機能する。これは、一部の時間周波数ビンのビーム外音源はポストプロセッサによって減衰されるが、一部の時間周波数ビンのインビーム音源は、ポストプロセッサの非減衰を経ることを意味する。インビーム音源と、ビーム外音源の1つ以上との間にかなりの重なりがある時間周波数ビンの場合、後処理ゲインによりインビーム音源が意図せずに減衰するか、またはすべてのビーム外音源を減衰させることができない可能性がある。ただし、時間周波数表現とスカッシング関数が適切に選択されている場合、全体的なエクスペリエンスによりインビーム音源が明確に拾われ、いずれかのビーム外音源は大幅に減衰する。一例では、40ミリ秒のフレームの長さ、10ミリ秒のフレームシフト、及び512の係数(16kHzのサンプリング周波数の場合)を有する短時間フーリエ変換フィルタバンクが使用された。上で説明したスカッシング関数hに加えて、閾値Tを0.5に設定した。
【0053】
特定の周波数インデックスfに対する上記の後処理ゲインは、その周波数インデックスのみで利用可能な情報に基づいて計算される。それが適切に機能するには、優れた空間フィルタを使用することが有益である。通常、非常に低い周波数と非常に高い周波数に対して優れた空間フィルタを設計することは困難である。これは、マイクロフォンを配置するための物理的な体積が限られており、マイクロフォンの数とそのペアごとの距離に、実際的な制限があるためである。したがって、追加の共通ゲイン係数は、良好な空間フィルタを有する周波数インデックスから計算することができ、その後、良好な空間フィルタを有さない周波数インデックスに適用され得る。たとえば、追加のゲイン係数は次のように計算できる。
【数26】

common(t)=1、それ以外の場合
式中、Tcommon(共通)≦1は正の閾値、Σは適切な空間フィルタを適用できるすべての周波数インデックスの合計である。この追加の係数が使用される場合、これらがインビーム信号に適用される前に、時間周波数ゲインg(t,f)が乗算される。この共通ゲイン係数はまた、インビーム音源を減衰させずに残しながら、ビーム外の音源をさらに抑制する効果的な方法として機能し得る。
【0054】
これらの後処理方法により、マイクロフォンアレイに近いインビーム音源を通過させることができると同時に、ビーム外音源も大幅に抑制される。ポストプロセッサのゲインを調整して、マイクロフォンアレイから遠く離れたインビーム音源を大幅に抑制することもできる。ビデオ会議のエンドポイントに適用するとき、ユーザは、泡がマイクロフォンアレイから拡張してカメラの前に達する、泡の形のマイクロフォンピックアップパターンを体験する。
【0055】
図9は、本発明による変形例の方法を示す信号のフロー図である。図2のように、空間フィルタを時間周波数領域に適用するのではなく、時間領域に適用する。時間領域の空間フィルタは通常、フィルタ及び合計ビームフォーマとして実装される。次に、基準信号に遅延が導入されて、後処理が実行される前にそれとインビーム信号を時間調整するようにする。
【0056】
図10は、本発明によるさらなる変形例の方法を示す信号のフロー図である。ここで、マイクロフォンアレイは、単一指向性マイクロフォンと無指向性マイクロフォンから構成される一対のマイクロフォンに置き換えられる。この変形例では、単一指向性マイクロフォン信号が空間フィルタ出力として機能し、無指向性マイクロフォン信号が基準信号として機能する。ここでは、2つのマイクロフォンを空間的に互いの近くに配置し、インビーム周波数応答が類似していることを確認することが有用である。2つのマイクロフォンのインビーム周波数応答が類似していない場合、等化フィルタを適用してそれらを類似させることができる。さらに、上で説明した方法と同様に、インビーム信号とビーム外信号間の線形分離が良好であればあるほど、後処理はより適切に機能する。
【0057】
図11は、本発明によるさらなる変形例の方法を示す信号のフロー図である。ここで、後処理ゲインは、例えば、B. Picinbono and P. Chevalier, “Widely linear estimation with complex data,” IEEE Trans. Signal Processing, vol. 43, pp. 2030-2033, Aug. 1995(参照によりその全体が本明細書に組み込まれる)に記載されているように、ウィーナーフィルタの代わりに性能を向上させることができる。これには、擬似参照レベル(擬似分散とも呼ばれる)と擬似共分散を使用して後処理ゲインを計算することが含まれる。この場合、後処理ゲインは次のようになる。
【数27】

式中、
【数28】

はyの複素共役であり、g(t,f)は次のように計算される。
【数29】

(t,f)は次のように計算される、
【数30】

Pref(t,f)は擬似参照レベルで、たとえば次のように計算される、
【数31】

(t,f)は擬似共分散であり、たとえば次のように計算される、
【数32】

hは、後処理ゲインが0と1の間の値を取るようなスカッシング関数である。あるいは、後処理ゲインは次のように計算できる、
【数33】
【0058】
説明、または以下の請求項、または添付の図面で開示され、特定の形態で、または開示する機能を実行するための手段、または開示する結果を得るための方法もしくはプロセスにおいて表される特徴は、多様な形態で本発明を実現するために、必要に応じて、別々に、またはこのような特徴を任意に組み合わせて利用してもよい。
【0059】
本発明を、上記の例示的な実施形態と併せて説明してきたが、本開示が与えられるときに、多くの均等の修正及び変形が、当業者にとって明らかであろう。したがって、上記の本発明の例示的な実施形態は、例示的であり限定的でないと判断される。記載される実施形態への様々な変更を、本発明の趣旨及び範囲から逸脱せずに行ってもよい。
【0060】
誤解を避けるために、本明細書に提供する理論的な説明は、読者の理解を深めることを目的として提供されている。本発明者らは、これらの理論的説明のいずれにも拘束されることを望むものではない。
【0061】
本明細書で使用される任意のセクションの見出しは構成の目的のみのためであり、記載される対象物の限定として解釈されるべきではない。
【0062】
以下の特許請求の範囲を含む本明細書を通して、文脈が特別に要求しない限り、「含む(comprise)」及び「含む(include)」という単語、ならびに変形、例えば、「含む(comprises)」、「含むこと(comprising)」及び「含むこと(including)」は、明示された構成要素もしくはステップ、または構成要素もしくはステップの群を包含するが、他の構成要素もしくはステップ、または構成要素もしくはステップの群を除外しないことを示唆すると理解される。
【0063】
本明細書及び添付の特許請求の範囲において使用される、単数形「a」、「an」、及び「the」は、文脈上明確にそうでないと示されない限り、複数の指示物を包含することに留意されたい。範囲は、「約」ある特定の値から及び/または「約」他の特定の値として、本明細書において表現され得る。そのような範囲が表現されるとき、別の実施形態は、1つの特定の値から及び/または他の特定の値までを含む。同様に、値が近似として表現される場合に、先行詞「約」の使用によって、特定の値が別の実施形態を形成することが理解されよう。数値に関連する「約」という用語は、随意であり、例えば10%±を意味する。

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
【国際調査報告】