(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024066473
(43)【公開日】2024-05-15
(54)【発明の名称】半適応性ビームフォーマ
(51)【国際特許分類】
G10L 21/0208 20130101AFI20240508BHJP
H04R 3/00 20060101ALI20240508BHJP
H04R 1/10 20060101ALI20240508BHJP
【FI】
G10L21/0208 100A
G10L21/0208 100B
H04R3/00 320
H04R1/10 101A
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023179988
(22)【出願日】2023-10-19
(31)【優先権主張番号】18/051,742
(32)【優先日】2022-11-01
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】502161508
【氏名又は名称】シナプティクス インコーポレイテッド
(74)【代理人】
【識別番号】100205350
【弁理士】
【氏名又は名称】狩野 芳正
(74)【代理人】
【識別番号】100117617
【弁理士】
【氏名又は名称】中尾 圭策
(72)【発明者】
【氏名】モサイエブプール・カスカリ、サイード
(72)【発明者】
【氏名】マスナディ‐シラジ、アリレザ
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BB04
(57)【要約】 (修正有)
【課題】半適応性ビームフォーミングの方法、デバイスおよびシステムを提供する。
【解決手段】半適応性ビームフォーマ300は、マイクロフォンアレイを介して受信したオーディオ信号302に基づき相対伝達関数(RTF)ベクトル(瞬時RTFベクトル304)を決定し、さらに瞬時RTFベクトルと固定RTFベクトル305との合成に基づきマイクロフォンアレイ用の最小分散無歪応答(MVDR)ビームフォーミングフィルタを決定する。固定RTFベクトルは、マイクロフォンアレイの任意のユーザ用の比較的精度の高いMVDRビームフォーミングフィルタを生成する既知のRTFセットを含んでもよい。また、瞬時RTFベクトルと固定RTFベクトルの重み付け平均に基づきMVDRビームフォーミングフィルタを決定する。重み付けは、受信したオーディオ信号の品質又は様々な他の条件に基づいて動的に調整される。
【選択図】
図3
【特許請求の範囲】
【請求項1】
複数のマイクロフォンを介してオーディオ信号を受信し、前記オーディオ信号が各自の音声成分と各自の雑音成分とをそれぞれ有する複数のフレームを含むことと、
前記複数のフレームの第1フレームに基づき、前記複数のマイクロフォンに関する複数の第1相対伝達関数(RTF)をそれぞれに決定することと、
前記複数の第1RTFと、前記複数のマイクロフォンに関する複数の固定RTFと、前記第1フレームの前記雑音成分の共分散との少なくとも一部分に基づき、前記第1フレームにおいて、前記音声成分をゆがませずに、前記雑音成分のパワーを減少する第1最小分散無歪応答(MVDR)ビームフォーミングフィルタを決定することと、
を含むオーディオ信号を処理する方法。
【請求項2】
前記複数のマイクロフォンを介して、音声成分と雑音成分とを有するトレーニング信号を受信することと、
前記トレーニング信号の前記音声成分の共分散と、前記トレーニング信号の前記雑音成分の共分散とに関する信号対雑音比(SNR)を増加する一般化固有値(GEV)ビームフォーミングフィルタを決定することと、
前記GEVビームフォーミングフィルタの少なくとも一部分に基づき、前記複数の固定RTFを決定することと、
をさらに含む請求項1の方法。
【請求項3】
前記複数の第1RTFを決定することは、
前記第1フレームの前記音声成分の共分散と、前記第1フレームの前記雑音成分の前記共分散とに関するSNRを増加する第1GEVビームフォーミングフィルタを決定すること
を含む請求項1の方法。
【請求項4】
前記複数の固定RTFと、前記複数の第1RTFと、第1相関係数とに基づき、複数の第1合成RTFを決定すること
をさらに含む請求項3の方法。
【請求項5】
前記複数の固定RTFと前記複数の第1RTFとの相関関係の少なくとも一部分に基づき、前記第1相関係数を決定すること
をさらに含む請求項4の方法。
【請求項6】
前記第1フレームの前記音声成分の前記共分散に関するSNRの少なくとも一部分に基づき、前記第1相関係数を決定すること
をさらに含む請求項4の方法。
【請求項7】
前記複数のフレームの第2フレームに基づき、前記複数のマイクロフォンに関する複数の第2RTFをそれぞれに決定することと、
前記複数の固定RTFと、前記複数の第2RTFと、第2相関係数とに基づき、複数の第2合成RTFを決定することと、
前記複数の第2合成RTFと、前記第2フレームの前記雑音成分の共分散とに基づき、第2MVDRビームフォーミングフィルタを決定することと、
をさらに含む請求項4の方法。
【請求項8】
前記複数の第2RTFを決定することは、
前記第2フレームの前記音声成分の共分散と、前記第2フレームの前記雑音成分の前記共分散とに関するSNRを増加する第2GEVビームフォーミングフィルタを決定すること
を含む請求項7の方法。
【請求項9】
前記第2フレームの前記音声成分の前記共分散に関する前記SNRは前記第1フレームの前記音声成分の前記共分散に関するSNRより高く、前記第2相関係数は前記第1相関係数より小さい
請求項8の方法。
【請求項10】
前記第2フレームの前記音声成分の前記共分散に関する前記SNRは前記第1フレームの前記音声成分の前記共分散に関する前記SNRより低く、前記第2相関係数は前記第1相関係数より大きい
請求項8の方法。
【請求項11】
処理システムと、
前記処理システムにより実行されるときに、
複数のマイクロフォンを介してオーディオ信号を受信し、オーディオ信号が各自の音声成分と各自の雑音成分とをそれぞれ有する複数のフレームを含むことと、
前記複数のフレームの第1フレームに基づき、前記複数のマイクロフォンに関する複数の第1相対伝達関数(RTF)をそれぞれに決定することと、
前記複数の第1RTFと、前記複数のマイクロフォンに関する複数の固定RTFと、前記第1フレームの前記雑音成分の共分散と少なくとも一部分に基づき、前記第1フレームにおいて、前記音声成分をゆがませずに、前記雑音成分のパワーを減少する第1最小分散無歪応答(MVDR)ビームフォーミングフィルタを決定することと、
を実行させる命令を格納するメモリと、
を備えるビームフォーマ。
【請求項12】
前記命令の実行は、前記ビームフォーマに
前記複数のマイクロフォンを介して、音声成分と雑音成分とを有するトレーニング信号を受信することと、
前記トレーニング信号の前記音声成分の共分散と、前記トレーニング信号の前記雑音成分の共分散とに関する信号対雑音比(SNR)を増加する一般化固有値(GEV)ビームフォーミングフィルタを決定することと、
前記GEVビームフォーミングフィルタの少なくとも一部分に基づき、前記複数の固定RTFを決定することと、
をさらにさせる請求項11のビームフォーマ。
【請求項13】
前記複数の第1RTFを決定することは、
前記第1フレームの前記音声成分の共分散と、前記第1フレームの前記雑音成分の前記共分散に関するSNRを増加する第1GEVビームフォーミングフィルタを決定すること
を含む請求項11のビームフォーマ。
【請求項14】
前記命令の実行は、ビームフォーマに
前記複数の固定RTFと、前記複数の第1RTFと、第1相関係数とに基づき、複数の第1合成RTFを決定すること
をさらにさせる請求項13のビームフォーマ。
【請求項15】
前記命令の実行は、前記ビームフォーマに、
前記複数の固定RTFと前記複数の第1RTFとの相関関係の少なくとも一部分に基づき、前記第1相関係数を決定すること
をさらにさせる請求項14のビームフォーマ。
【請求項16】
前記命令の実行は、前記ビームフォーマに、
前記第1フレームの前記音声成分の前記共分散に関する前記SNRの少なくとも一部分に基づき、前記第1相関係数を決定すること
をさらにさせる請求項14のビームフォーマ。
【請求項17】
前記命令の実行は、前記ビームフォーマに、
前記複数のフレームの第2フレームに基づき、前記複数のマイクロフォンに関する複数の第2RTFをそれぞれに決定することと、
前記複数の固定RTFと、前記複数の第2RTFと、第2相関係数とに基づき、複数の第2合成RTFを決定することと、
前記複数の第2合成RTFと、前記第2フレームの前記雑音成分の共分散に基づき、第2MVDRビームフォーミングフィルタを決定することと、
をさらにさせる請求項14のビームフォーマ。
【請求項18】
前記複数の第2RTFを決定することは、
前記第2フレームの前記音声成分の共分散と、前記第2フレームの前記雑音成分の前記共分散に関するSNRを増加する第2GEVビームフォーミングフィルタを決定すること
を含む請求項17のビームフォーマ。
【請求項19】
前記第2相関係数は、前記第1相関係数と異なる
請求項17のビームフォーマ。
【請求項20】
複数のマイクロフォンと、
ビームフォーマであって、
複数のマイクロフォンを介してオーディオ信号を受信し、前記オーディオ信号が各自の音声成分と各自の雑音成分とをそれぞれ有する複数のフレームを含み、
前記複数のフレームの第1フレームに基づき、相対伝達関数(RTF)ベクトルを決定し、前記RTFベクトルが前記複数のマイクロフォンのそれぞれと、前記複数のマイクロフォンの参照マイクロフォンとに関する複数のRTFを含み
決定された前記RTFベクトルと、固定RTFベクトルと、前記第1フレームの前記雑音成分の共分散との少なくとも一部分に基づき、前記第1フレームの前記音声成分をゆがませずに、前記第1フレームの前記雑音成分のパワーを減少する最小分散無歪応答(MVDR)ビームフォーミングフィルタを決定するように
構成された前記ビームフォーマと、
を備えるヘッドセット。
【発明の詳細な説明】
【技術分野】
【0001】
本実装は、一般に信号処理に関するものであり、特に、信号処理のための半適応性ビームフォーマに関する。
【背景技術】
【0002】
ビームフォーミングは、送受信される信号のエネルギーを空間方向に集束できる信号処理技術である。例えば、ビームフォーマは、マイクロフォンアレイによって検出される音声の品質をマイクロフォン出力での信号合成を通して向上できる。より具体的には、ビームフォーマは、オーディオ信号を合成するとき、信号強度が音声の方向において強化されるように(または、雑音の方向において抑制されるように)、マイクロフォンアレイの各マイクロフォンにより出力されるオーディオ信号に各々の重みを適用する場合がある。適応性ビームフォーマは、合成されたオーディオ信号の品質、または、信号対雑音比(SNR)を最適化するために、マイクロフォン出力の重みを動的に調整する能力がある。このように、適応性ビームフォーマは環境の変化に適応できる。適応性ビームフォーミング技術の例は、数ある他の例のうち、最小平均二乗誤差(MMSE)ビームフォーミング、最小分散無歪応答(MVDR)ビームフォーミング、一般化固有値(GEV)ビームフォーミングを含む。
【0003】
適応性ビームフォーマは、最適な重みセットに収束するための時間を要する。収束前、適応性ビームフォーマは、音声が到来する方向においてオーディオ信号をゆがませ、さらには抑制する場合がある。さらに、低SNR環境において、適応性ビームフォーマは、音声の方向以外の方向に(例えば主要な雑音源の方向に)収束する場合がある。したがって、ビームフォーマが間違った方向に収束することを防ぎつつ、適応性ビームフォーマが収束するために要求される遅延を減少する必要がある。
【発明の概要】
【0004】
この概要において、選択したコンセプトを簡略化された形式で紹介し、以下の詳細な説明でさらに説明する。この概要は、請求された主題の主な機能や不可欠な機能を同一のものとみなすことを意図せず、また請求された主題の範囲を限定することを意図しない。
【0005】
この開示における主題の革新的な一態様を、オーディオ信号処理の方法で実装できる。方法は、複数のマイクロフォンを介してオーディオ信号を受信し、オーディオ信号が、各自の音声成分と各自の雑音成分とをそれぞれ有する複数のフレームを含むことと、複数のフレームの第1フレームに基づき、複数のマイクロフォンに関する複数の第1相対伝達関数(RTF)をそれぞれに決定することと、複数の第1RTFと、複数のマイクロフォンに関する複数の固定RTFと、第1フレームの雑音成分の共分散との少なくとも一部分に基づき、第1フレームにおいて、音声成分をゆがめずに雑音成分のパワーを減少する第1最小分散無歪応答(MVDR)ビームフォーミングフィルタを決定することとを含む。
【0006】
この開示における主題の他の革新的な態様は、処理システムとメモリとを含むビームフォーマに実装され得る。メモリは、処理システムにより実行されるとき、ビームフォーマに、複数のマイクロフォンを介してオーディオ信号を受信させ、オーディオ信号が各自の音声成分と各自の雑音成分とをそれぞれ有する複数のフレームを含み、複数のフレームの第1フレームに基づき、複数のマイクロフォンに関する複数の第1RTFをそれぞれに決定させ、複数の第1RTFと、複数のマイクロフォンに関する複数の固定RTFと、第1フレームの雑音成分の共分散との少なくとも一部分に基づき、第1フレームにおいて、音声成分をゆがませずに雑音成分のパワーを減少する第1MVDRビームフォーミングフィルタを決定させる命令を格納する。
【0007】
この開示における主題の他の革新的な態様は、複数のマイクロフォンとビームフォーマとを含むヘッドセットに実装され得る。ビームフォーマは、複数のマイクロフォンを介してオーディオ信号を受信し、オーディオ信号が各自の音声成分と各自の雑音成分とをそれぞれ有する複数のフレームを含み、複数のフレームの第1フレームに基づき、複数のマイクロフォンに関する複数のRTFをそれぞれに決定し、複数のRTFと、複数のマイクロフォンに関する複数の固定RTFと、第1フレームの雑音成分の共分散との少なくとも一部分に基づき、第1フレームにおいて、音声成分をゆがめずに雑音成分のパワーを減少するMVDRビームフォーミングフィルタを決定するように構成されている。
【図面の簡単な説明】
【0008】
本実装は、例として示されており、添付図面の図によって限定されることを意図するものではない。
【0009】
【
図1】
図1は、ビームフォーミングを実装し得る環境の一例を示す。
【0010】
【
図2】
図2は、いくつかの実装による、ビームフォーミングとして構成可能なオーディオ受信器の一例を示す。
【0011】
【
図3】
図3は、いくつかの実装による、半適応性ビームフォーマの一例のブロック図を示す。
【0012】
【
図4】
図4は、いくつかの実装による、半適応性ビームフォーマの一例の他のブロック図を示す。
【0013】
【
図5】
図5は、いくつかの実装による、オーディオ信号を処理する作動の一例を表す説明上のフローチャートを示す。
【発明を実施するための形態】
【0014】
以下の説明において、本開示の詳細の完全な理解を提供するために、特定のコンポーネント、回路、処理の例などの具体的な詳細が多数記載されている。ここで使用される用語「接続された」は、直接接続されている、または仲介するコンポーネントや回路を1以上介して接続されていることを意味する。用語「電子システム」と「電子デバイス」とは、電子的に情報を処理できる任意のシステムを指す同じ意味で使用され得る。また、以下の説明において、説明の目的で、本開示の態様の完全な理解を提供するために、特定の名称が記載されている。しかし、これらの特別な詳細は例示的な実施形態を実施するために必要ないことは当業者には明らかだろう。他の例では、本開示を分かりにくくすることを避けるため、ブロック図の形式でよく知られた回路とデバイスとが示されている。以下の詳細な説明の一部は、コンピュータメモリ内のデータビットに対する作動の手順、論理ブロック、処理、その他の記号表現の点から記載されている。
【0015】
これらの説明と表現は、データ処理分野の当業者が他の当業者にその業務の内容を最も効果的に伝えるために使用する手段である。本開示において、手順、論理ブロック、処理等は、望ましい結果に導くステップまたは命令の自己矛盾のない順序を想像させる。ステップは、それらの要求する物理的量の物理的操作である。一般に、不必要にもかかわらず、これらの量は、コンピュータシステムにおいて、記録、伝達、合成、比較、その他の操作が可能な電気的または磁気的信号の形式をとる。しかし、これらと、これらに類似する用語のすべてが、適切な物理量に関連づけることができ、これらの量に適用された単なるラベルであることに留意すべきである。
【0016】
以下の議論から明らかなように、特に別段の記載がないかぎり、本出願の全体にわたって、「アクセスする」、「受け取る」、「送る」、「使用する」、「選択する」、「決定する」、「一般化する」、「かけ合わせる」、「平均化する」、「監視する」、「比較する」、「適用する」、「更新する」、「測定する」、「駆動する」などのような用語を利用する議論は、コンピュータシステムまたは類似の電子計算デバイスの実施と処理に関連していることを認識でき、このコンピュータシステムまたは類似の電子計算デバイスは、コンピュータシステムのレジスタとメモリとの中で物理(電子)量として表されるデータを、コンピュータシステムメモリまたはレジスタ、もしくは、その他のそのような情報ストレージ、通信、または表示デバイス内で物理量として類似して表される他のデータに操作し変換する。
【0017】
図において、1つのブロックは、1以上の機能を実行するものとして説明し得るが、事実上の実施において、そのブロックによって実行されるその機能は、1つのコンポーネントまたは複数のコンポーネント全体で実行されてもよく、または/および、ハードウェアを使用して、ソフトウェアを使用して、または、ハードウェアとソフトウェアの組み合わせを使用して実行されてもよい。ハードウェアとソフトウェアとのこの互換性を明確に表すため、様々な例示的なコンポーネント、ブロック、モジュール、回路、ステップは、これらの機能性の点から一般的に以下に説明されている。そのような機能性がハードウェアまたはソフトウェアとして実装されるかは、システム全体に課せられる特定の用途と仕様制約に依存する。熟練した職人は、それぞれの特定の用途ごとに様々な方法で説明された機能性を実装してもよく、そのような実装決定により本開示の範囲から逸脱すると解釈されるべきでない。また、入力デバイスの例は、演算装置、メモリなどのようなよく知られたコンポーネントを含むこれらに表される以外のコンポーネントを含んでもよい。
【0018】
ここに記載された技術は、特定の方法で実装されるとの特段の記載がない限り、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせで実装されてもよい。また、モジュールやコンポーネントとして記載された任意の複数の特徴も同様に、統合された論理デバイスとして一緒に、または、分離しているが互換性のある論理デバイスとして別々に実装されてもよい。ソフトウェアで実装されるとき、これらの技術は、実行されるときに上記の1以上の方法を処理する命令を含む非一時的なプロセッサ読み取り可能な記憶媒体により、少なくとも部分的に実現されてもよい。非一時的なプロセッサ読み取り可能なデータ記憶媒体は、パッケージ材料を含む場合のあるコンピュータプログラム製品の一部を形成してもよい。
【0019】
非一時的なプロセッサ読み取り可能な記憶媒体は、同期ダイナミックランダムアクセスメモリ(SDRAM)のようなランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、電気的消去可能プログラマブルリードオンリーメモリ(EEPROM)、フラッシュメモリ、その他の既知の記憶媒体等を備えてもよい。この技術は、追加的に、または代替的に、命令またはデータ構成の形式でコードを伝達または通信し、かつ、コンピュータまたは他のプロセッサによりアクセス、読み出し、および/または、実行可能なプロセッサ読み取り可能な通信媒体により少なくとも一部を実現してもよい。
【0020】
ここで開示された実施形態に関して記載された複数の例示的な論理ブロック、モジュール、回路、および、命令は、1以上のプロセッサ(または処理システム)により実行されてもよい。ここで使われる用語「プロセッサ」は、メモリに格納された1以上のソフトウェアプログラムのスクリプトまたは命令を実行可能な、任意の汎用プロセッサ、専用プロセッサ、従来のプロセッサ、コントローラ、マイクロコントローラ、および/または、ステートマシンを指してもよい。
【0021】
上記のように、ビームフォーマは、マイクロフォン出力で合成している信号を通して、マイクロフォンアレイにより検出された音声の品質を向上できる。例えば、ビームフォーマは、オーディオ信号が合成されたとき、信号強度が音声の方向において強化されるように(または雑音の方向において抑制されるように)、マイクロフォンアレイの各マイクロフォンにより出力されたオーディオ信号に個々の重みを適用してもよい。適応性ビームフォーマは、合成されたオーディオ信号の品質、または信号対雑音比(SNR)を最適化するためにマイクロフォン出力の重みを動的に調整できる。適応性ビームフォーミング技術の例は、数ある他の例のうち、最小平均二乗誤差(MMSE)ビームフォーミング、最小分散無歪応答(MVDR)ビームフォーミング、一般化固有値(GEV)ビームフォーミングを含む。
【0022】
MVRDビームフォーマは、受信されたオーディオ信号の雑音成分を、音声成分をゆがめずに減少または最小化する重みセット(MVDRビームフォーミングフィルタとも呼ばれる)を決定する。より具体的には、MVDRビームフォーミングフィルタ係数は、受信されたオーディオ信号の雑音成分の共分散と、マイクロフォンアレイのマイクロフォンの間の相対伝達関数(RTF)のセット(RTFベクトルとも呼ばれる)との関数として、決定され得る。対照的に、GEVビームフォーマは、受信されたオーディオ信号のSNRを最大化する重みセット(GEVビームフォーミングフィルタとも呼ばれる)を決定する。一般化固有値分解を通して、GEVビームフォーミングも同様に、マイクロフォンアレイに関連づけられたRTFベクトルを決定し得る。
【0023】
適応性ビームフォーマは、最適な重みセットに収束するための時間を要する。収束前、適応性ビームフォーマは、音声が到来する方向においてオーディオ信号をひずませ、さらには抑制する場合がある。さらに、低SNR環境において、適応性ビームフォーマは、音声の方向以外の方向に(例えば主要な雑音源の方向に)収束する場合がある。本開示の態様は、いくつかの実施形態において、マイクロフォンアレイの位置が目標オーディオ源に対して相対的に固定されてもよいことを受け入れる。例えば、ヘッドセットに取り付けられたマイクロフォンは、ヘッドセットがユーザ(または話し手)に着用されているとき、ほぼ同じ方向からの音声を検出してもよい。結果として、ヘッドセットに取り付けられたマイクロフォンアレイに関するRTFベクトルは、他のユーザから受信されるオーディオ信号に応じて、(あったとしても)変化をほとんど表さない場合がある。
【0024】
様々な態様は、一般的にビームフォーミングに関連し、より詳しくは、半適応性ビームフォーミング技術に関連する。いくつかの態様において、半適応性ビームフォーマは、マイクロフォンアレイを介して受信されたオーディオ信号に基づきRTFベクトル(「瞬時」RTFベクトルとも呼ばれる)を決定し、瞬時RTFベクトルと「固定」RTFベクトルとの合成に基づきマイクロフォンアレイのためのMVDRビームフォーミングフィルタをさらに決定してもよい。固定RTFベクトルは、マイクロフォンアレイの任意のユーザに対して、比較的精度の高いMVDRビームフォーミングフィルタを生成することが知られている(または「生成するように訓練されている」)RTFセットを含んでもよい。いくつかの実装において、半適応性ビームフォーマは、瞬時RTFベクトルと固定RTFベクトルとの重み付き平均に基づきMVDRビームフォーミングフィルタ係数を決定してもよい。この重み付けは、受信されたオーディオ信号の品質または様々な他の条件に基づき動的に調整され得る。例えば、重み付けは、受信されたオーディオ信号のSNRが相対的に高いときに瞬時RTFベクトルを強調してもよく、受信されたオーディオ信号のSNRが相対的に低いときに固定RTFベクトルを強調してもよい。
【0025】
本開示において記載された主題の特定の実装は、1以上の以下の可能な利点を実現するように実装され得る。本実装の半適応性ビームフォーマは、間違った方向への収束から制限しつつ、適切な重みセットに敏速に収束できる。例えば、各種のユーザから受信されたオーディオ信号に適用され得る固定RTFベクトルを訓練することにより、本開示の態様は、適応性ビームフォーミング手順を開始するための比較的精度の高い開始点を決定できる。瞬時RTFベクトルに固定RTFベクトルを合成することにより、本開示の態様はさらに、制御された方法で特定のユーザにビームフォーミング手順を適用できる場合がある。例えば、SNRが低いときに瞬時RTFベクトルを強調することにより、半適応性ビームフォーマは、目的の音声の方向をより正確に追跡するMVDRビームフォーミングフィルタを決定できる。これに対して、SNRが高いときに固定RTFベクトルを強調することにより、半適応性ビームフォーマは、主要な雑音源の方向への収束を防ぐ。
【0026】
図1は、ビームフォーミングが実装され得る環境100の一例を示す。環境100の例は、ヘッドセット110と、ユーザ120とを含む。いくつかの態様では、ヘッドセット110は、多数のマイクロフォン112-116(「マイクロフォンアレイ」とも呼ぶ)を含んでもよい。
図1の例において、ヘッドセット110は、3つのマイクロフォン112-116を含むように表される。しかし、いくつかの他の実装において、ヘッドセット110は、
図1に描かれたものより少数の、または、より多くのマイクロフォンを含んでもよい。
【0027】
マイクロフォン112-116は、ユーザ120の口から伝搬する(一連の音響波として検出される)音声122を検出するように配置されているか、他の方法で構成されている。例えば、各マイクロフォン112-116は、検出された音声122を、音響波形を表す電子信号(「オーディオ信号」とも呼ぶ)に変換してもよい。各オーディオ信号は、(ユーザ音声122を表す)音声成分と、(ヘッドセット110や周辺環境からの雑音を表す)雑音成分とを含んでもよい。マイクロフォン112-116の空間的な位置により、マイクロフォンアレイの中のマイクロフォンのいくつかにより検出される音声122は、マイクロフォンアレイの中の他のいくつかのマイクロフォンにより検出される音声122に対して、遅延し得る。言い換えると、マイクロフォン112-116は、異なる位相オフセットを持つ複数のオーディオ信号を生成し得る。
【0028】
いくつかの態様において、マイクロフォン112-116のそれぞれにより生成されるオーディオ信号は、音声成分を強調するように、または、雑音成分を抑制するように、重み付けされ、合成されてもよい。より具体的には、オーディオ信号に適用される重み付けは、音声122の方向において、信号強度を向上するように構成されてもよい。そのように信号処理技術は、「ビームフォーミング」と呼ばれる。いくつかの実装において、適応性ビームフォーマは、音声の方向における信号強度を強調するオーディオ信号に適用され得る重みセット(「ビームフォーミングフィルタ」とも呼ぶ)を推定(または予測)してもよい。結果として生じる信号における音声の品質は、ビームフォーミングフィルタ係数の精度に依存する。例えば、音声は、ビームフォーミングフィルタがユーザの口の方向に調整されるとき、強調され得る。一方、音声は、ビームフォーミングフィルタが雑音源の方向に調整されると、ゆがめられたり、抑制されたりする場合がある。
【0029】
適応性ビームフォーマは、合成されたオーディオ信号の品質、または信号対雑音比(SNR)を最適化するようにビームフォーミングフィルタ係数を動的に調整できる。適応性ビームフォーミング技術の例は、数ある他の例のうち、最小分散無歪応答(MVDR)ビームフォーミングと、一般化固有値(GEV)ビームフォーミングとを含む。MVDRビームフォーマは、音声成分をひずませることなくオーディオ信号の雑音成分を減少または最小化するビームフォーミングフィルタを決定する。MVDRビームフォーミングは、遅延のみの伝搬経路がマイクロフォン112-116とオーディオ源との間に存在することを前提とする。しかし、ヘッドセットに取り付けられたマイクロフォンアレイにおいて、マイクロフォン112-116により生成されたオーディオ信号は反響する壁またはヘッドセット110の筐体からの音響的な背景雑音を含み得る。そのような反響は、MVDRビームフォーマにより重要な音声の削除につながる可能性がある。
【0030】
対照的に、GEVビームフォーマはオーディオ信号の信号対雑音比(SNR)を最大化するビームフォーミングフィルタを決定する。より具体的には、GEVビームフォーミングは、マイクロフォン112-116により生成されたオーディオ信号の音声と雑音との成分と、雑音のみの成分とのクロスパワースペクトル密度行列を組み込んだ主要な固定ベクトルを適応的に引き出す。この適応性アルゴリズムは、マイクロフォン112-116またはオーディオ源の位置に関する任意の情報を要求しない。しかし、このアルゴリズムは最適なフィルタ係数セットに収束するための時間を要する。収束前に、GEVビームフォーミングフィルタは、音声が到来する方向においてオーディオ信号をゆがませ、さらには抑制する場合があるさらに、低SNR環境において、GEVビームフォーマは、(主要な雑音源の方向のような)音声の方向以外の方向に収束する場合がある。
【0031】
いくつかの態様において、ヘッドセット110は、間違った方向への収束から制限しつつ最適なビームフォーミングフィルタに敏速に収束できる半適応性ビームフォーマ(簡略化のため図示されていない)を含んでもよい。いくつかの実装において、半適応性ビームフォーマは、様々なユーザに対して比較的精度の高いビームフォーミングフィルタを決定するためのヘッドセット110の既知の性質を高めてもよい。例えば、
図1に示すように、ヘッドセット110は、ユーザの頭に装着されるように設計される。より具体的には、ヘッドセット110はユーザ120の耳を覆うように設計された一対のイヤーカップを含み、マイクロフォン112-116はヘッドセット110のイヤーカップに設けられる。本開示の態様は、ヘッドセット110の多くの対象ユーザにとって、耳と口との間の距離が実質的に同じであることを受け入れる。結果的に、半適応性ビームフォーマは、マイクロフォン112-116とユーザ120の口との相対的位置の事前情報の少なくも一部分に基づいて、ビームフォーミングフィルタを決定してもよい。
【0032】
図2は、いくつかの実装において、ビームフォーミング用に構成可能なオーディオ受信器200の例を示す。オーディオ受信器200は、マイクロフォンアレイに配列される数個(M個)のマイクロフォン210(1)-210(M)と、ビームフォーミングフィルタ220とを含む。いくつかの実装において、オーディオ受信器200は
図1のヘッドセット110の一例でもよい。例えば
図1を参照すると、マイクロフォン210(1)-210(M)のそれぞれは、マイクロフォン112-116のいずれかの一例でもよい。
【0033】
マイクロフォン210(1)-210(M)は、一連の音波201(「音響波」とも呼ぶ)をオーディオ信号202(1)-202(M)にそれぞれ変換するように構成されている。
図2に示すように、音波201は、マイクロフォン210(1)-210(M)に、ある角度(θ)で入射する。いくつかの実装において、音波201は、(ヘッドセットの壁から反響する雑音のような)雑音や干渉と混合された(
図1の音声122のような)ユーザの音声を含んでもよい。したがって、各オーディオ信号202(1)-202(M)は、音声成分(s)と雑音成分(u)とを含み得る。マイクロフォン210(1)-210(M)の空間的な位置により、各オーディオ信号202(1)-202(M)は、同じオーディオ信号の遅延されたバージョンを表し得る。例えば、第1オーディオ信号202(1)を参照オーディオ信号として使用して、他のオーディオ信号202(2)-202(M)のそれぞれを第1オーディオ信号202(1)の位相が遅延したバージョンとして、表すことができる。よって、オーディオ信号202(1)-202(M)は、ベクトル(y)としてモデル化され得る。
ここで、lはオーディオフレームの数(L)の1つを表すフレームインデックスであり、kは周波数区域の数(K)の1つを表す周波数インデックスであり、a(θ、k)はマイクロフォン210(1)-210(M)に入射した音波201による位相遅延セットを表すステアリングベクトルである。
【0034】
ビームフォーミングフィルタ220は、重みベクトルw=[w
1,...,w
M]
T(ここでw
1-w
Mをフィルタ係数と呼ぶ)をオーディオ信号202(1)-202(M)に適用して、重み付きオーディオ信号204(1)-204(M)をそれぞれ生成する。重み付きオーディオ信号204(1)-204(M)は、出力オーディオ信号206を生成するように(加算などによって)さらに合成される。よって、出力オーディオ信号206は、ベクトル(S^)としてモデル化され得る。
ここで、wはビームフォーミングフィルタ220(またはベクトル)を表す。いくつかの態様において、ビームフォーマ(簡略化のため図示されていない)は、1以上の状態について出力オーディオ信号206を最適化する重みベクトルwを決定してもよい。
【0035】
例えば、MVDRビームフォーマは、出力オーディオ信号206の音声成分をゆがませずに出力オーディオ信号206の様々な雑音成分を縮小または最小化する重みベクトルwを決定するように構成されている。言い換えると、重みベクトルwは、以下の条件を満足させ得る。
ここで、R
u(k)は、受信されるオーディオ信号y(l,k)の雑音成分u(l,k)の共分散である。結果として得られる重みベクトルwは、次式に表すことができるMVDRフォーミングフィルタ(w
MVDR(k))である。
【0036】
一方、GEVビームフォーマ(「最大化SNRビームフォーマ」とも呼ぶ)は、出力オーディオ信号206のSNRを増加または最大化する重みベクトルwを決定するように構成されている。例えば、SNRは、受信されたオーディオ信号y(l,k)の雑音成分R
u(k)の共分散と、音声成分(R
s(k))の共分散との関数として表される。
ここで、R
y(k)は、受信されたオーディオ信号y(l,k)の共分散である。結果として生じる重みベクトルwは、R
u
-1(k)R
y(k)の主要な固定ベクトル(v
max(k))と等しいGEVビームフォーミングフィルタ(w
GEV(k))である。
【0037】
一般化固有値分解を通して、GEVビームフォーマは、マイクロフォンアレイ内の各マイクロフォン210(1)-210(M)と(第1マイクロフォン210(1)のような)参照マイクロフォンとの間の相対伝達関数(RTF)を決定し得る。例えば、RTFは、RTFベクトル(h(k))としてモデル化され得る。
ここで、(R
y(k)w
GEV(k))
1はR
y(k)w
GEV(k)の第1要素である。
【0038】
上記のように、GEVビームフォーマは、受信されたオーディオ信号y(l,k)に基づき、重みベクトルwを適応的に決定し得る。しかし、GEVビームフォーマは、適切な重みベクトルwに収束するための時間を要し、さらにオーディオ信号y(l,k)のSNRがとても低いと間違った方向に収束する場合がある。対照的に、MVDRビームフォーマは、一般的に、重みベクトルwを決定する(ステアリングベクトルa(θ,k)のような)形状に依存する。MVDRビームフォーマが収束するための時間を要しないにもかかわらず、MVDRビームフォーミングフィルタw
MVDR(k)の精度は、様々なユーザに対して適応することが難しい場合があるステアリングベクトルa(θ,k)の推定の精度に依存する。本開示の態様は、ステアリングベクトルa(θ,k)もRTFベクトルh(k)として定義し得ることを受け入れる。よって、数式(3)のh(k)の代わりにa(θ,k)を用いて次式がもたらされる。
【0039】
いくつかの態様において、半適応性ビームフォーマは、固定RTFベクトルh*(k)の少なくとも一部分に基づき、ビームフォーミングフィルタ220のための重みベクトルwを決定してもよい。いくつかの実装において、固定RTFベクトルh*(k)は、マイクロフォン210(1)-210(M)を介して受信されるオーディオ信号202(1)-202(M)に基づき、訓練作動の一部として、学習されてもよい。よって、そのようなオーディオ信号も「トレーニング信号」と呼ぶ場合がある。例えば、トレーニング信号は、マイクロフォン210(1)-210(M)により検出された1以上の既知のユーザからの音声を表してもよい。いくつかの実装において、固定RTFベクトルh*(k)は、(数式(4)に従うような)GEVビームフォーミングを用いて決定されてもよい。例えば、GEVビームフォーマは、受信されたトレーニング信号のそれぞれに基づき、1以上のRTFベクトルh(k)を決定してもよく、固定RTFベクトルh*(k)をRTFベクトルh(k)の平均として決定してもよい。結果として、固定RTFベクトルh*(k)は、オーディオ受信器200の様々なユーザに適するように一般的に調整し得る。
【0040】
しかし、固定RTFベクトルh
*(k)は、オーディオ受信器200のある特定のユーザ向けに最適化されない場合がある。例えば
図1を参照すると、ヘッドセット100の各ユーザ120は、特有の頭の形状と頭のサイズを有している場合があり、結果として、ユーザごとに最適なRTFベクトルの違いをもたらす。いくつかの態様において、半適応性ビームフォーマは、フィルタ重みw
1-w
Mを決定するために使用されるRTFベクトルを微調整して、例えば、ビームフォーミングフィルタ220をオーディオ受信器200の実際のユーザに適応させてもよい。いくつかの実装において、半適応性ビームフォーマは、オーディオ受信器200の現在のユーザから受信されたオーディオ信号202(1)-202(M)に基づき瞬時RTFベクトルh^(k)を決定してもよく、固定RTFベクトルh
*(k)と瞬時RTFベクトルh^(k)との合成に基づきフィルタ重みw
1-w
Mをさらに決定してもよい。例えば、半適応性ビームフォーマは、数式(5)に基づき、フィルタ重みw
1-w
Mを決定してもよい。ここで、h(k)は、h*(k)とh^(k)との合成である。
【0041】
図3は、いくつかの実装において、半適応性ビームフォーマ300の一例のブロック図を表す。半適応性ビームフォーマ300は、マイクロフォンアレイを介して受信されるオーディオ信号302に基づきビームフォーミング(BF)フィルタ308を決定するように構成されている。いくつかの実装において、マイクロフォンアレイは、
図1のマイクロフォン112-116のいずれか、または、
図2のマイクロフォン210(1)-210(M)のいずれかを含んでもよい。例えば
図2を参照すると、オーディオ信号302は、マイクロフォン210(1)-210(M)を介して受信された(オーディオ信号202(1)-202(M)をそれぞれ含む)オーディオ信号y(l,k)の一例でもよく、ビームフォーミングフィルタ308は、ビームフォーミングフィルタ220の一例でもよい。
【0042】
半適応性ビームフォーマ300は、GEVビームフォーミングコンポーネント310と、動的RTF調整コンポーネント320と、MVDRビームフォーミングコンポーネント330とを含む。GEVビームフォーミングコンポーネント310は、受信されたオーディオ信号302の各フレームに基づき、各々の瞬時RTFベクトル304を生成するように構成されている。例えば、GEVビームフォーミングコンポーネント310は、(
図2を参照して説明したような)オーディオ信号302のSNRを最大化するGEVビームフォーミングフィルタw
GEV(簡略化のため以下では、周波数インデックスkは省略される)を決定してもよい。GEVビームフォーミングコンポーネント310は、さらに、瞬時RTFベクトル304を、(数式(4)に従うように)オーディオ信号302のGEVビームフォーミングフィルタw
GEVと共分散(R
y)との関数として決定してもよい。
【0043】
動的RTF調整コンポーネント320は、瞬時RTFベクトル304と固定RTFベクトル305とに基づき、合成RTFベクトル306を生成するように構成されている。例えば、固定RTFベクトル305は、マイクロフォンアレイの様々なユーザに(訓練手順の一部のような)無理なく適合するように決定されたRTFのセットを含んでもよい。いくつかの実装において、半適応性ビームフォーマ300は、(
図2を参照して説明したように)マイクロフォンアレイを介して前に受信されたオーディオ信号(またはトレーニング信号)に基づき、固定RTFベクトル305を学習してもよい。いくつかの態様において、動的RTF調整コンポーネント320は、オーディオ信号302のl番目のフレームのための合成RTFベクトル306(h
l)を、l番目のフレームのための瞬時RTFベクトル304(h^
l)と固定RTFベクトル305(h
*)との重み付き平均として決定してもよい。
ここで、μ
lは、オーディオ信号302のl番目のフレームに関する相関係数である。
【0044】
いくつかの実装において、動的RTF調整コンポーネント320は、相関係数μ
lを動的に調整して、瞬時RTFベクトルh^
lまたは固定RTFベクトルh
*のどちらかを強調してもよい。例えば、(μ
l>0.5のような)より高い相関係数μ
lが瞬時RTFベクトルh^
lと比較して固定RTFベクトルh
*を強調し得るのに対して、(μ
l<0,5のような)より低い相関係数μ
lが固定RTFベクトルh
*と比較して瞬時RTFベクトルh^
lを強調し得る。いくつかの態様において、動的RTF調整コンポーネント320は、固定RTFベクトルh
*におけるマイクロフォンの「デフォルト」位置と比較された、マイクロフォンアレイの中の1以上のマイクロフォンの(ユーザの口の位置との相対的な)移動量の少なくとも一部分に基づき、相関係数μ
lを選択してもよい。例えば、相関係数μ
lは次のように表すことができる。
ここで、K以下のFは、数式(7)において平均化に使用されている周波数区域の数である。数式(7)に示すように、固定RTFベクトルh
*が瞬時RTFベクトルh^
lと高い相関があるとき(ほとんどの周波数区域が0以上でF-1以下の範囲にある場合)、相関係数μ
lはより高い(1に近い)。
【0045】
いくつかの他の態様において、動的RTF調整コンポーネント320は、オーディオ信号302のSNRの少なくとも一部分に基づき、相関係数μ
lを動的に調整してもよい。
図2を参照して説明したように、GEVビームフォーミングコンポーネント310は、オーディオ信号302に関するSNR307を、GEVビームフォーミングフィルタw
GEV決定するための手順の一部として、決定する。よって、動的RTF調整コンポーネント320は、GEVビームフォーミングコンポーネント310からSNR307を受け取ってもよい。いくつかの実装において、動的RTF調整コンポーネント320は、(マイクロフォンアレイの現在のユーザへの適応をより高めるように)SNR307が相対的に高いときにより低い相関係数μ
lを選択してもよい。いくつかの他の実装において、動的RTF調整コンポーネント320は、SNR307が相対的に低いとき(合成RTFベクトル306が間違った方向に収束することを防ぐように)より高い相関係数μ
lを選択してもよい。
【0046】
MVDRビームフォーミングコンポーネント330は、受信されたオーディオ信号302と合成RTFベクトル306とに基づき、ビームフォーミングフィルタ308を生成するように構成されている。より具体的には、MVDRビームフォーミングコンポーネント330は、(
図2を参照して説明したように)受信されたオーディオ信号302のl番目のフレームにおいて、音声成分をゆがませずに、雑音成分のパワーを減少または最小化するMVDRビームフォーミングフィルタw
MVDRを決定してもよい。より具体的には、受信されたオーディオ信号302のl番目のフレームに関するMVDRビームフォーミングフィルタ(w
MVDR,l)は、数式(4)において、(数式(6)からの)h
lをhの代わりに用いることで決定され得る。
ここで、R
u,lは受信されたオーディオ信号302のl番目のフレームにおける雑音成分の共分散である。結果として生じるMVDRビームフォーミングフィルタw
MVDR,lは、(
図2のオーディオ信号202(1)-202(M)のような)マイクロフォンアレイの各マイクロフォンを介して受信されたオーディオ信号を重み付けするために使用され得る重みベクトルwを含む。
【0047】
上記のように、動的RTF調整コンポーネント320は、受信されたオーディオ信号302の各フレームに対する各々の相関係数μl(したがって、各々の合成RTFベクトルhl)を決定してもよい。例えば、オーディオ信号302のl番目のフレームにおいて、(l-1)番目のフレームより多くの雑音が検出されると、動的RTF調整コンポーネント320は、(数式(6)に関して)合成RTFベクトルhlにおいて固定RTFベクトルh*が瞬時RTFベクトルh^lより重く重み付けられるように、(μl>μl-1である点で)相関係数μlを増加し得る。一方、オーディオ信号302のl番目のフレームにおいて(l-1)番目のフレームより少ない雑音が検出されると、動的RTF調整コンポーネント320は、合成RTFベクトルhlにおいて瞬時RTFベクトルh^lが固定RTFベクトルh*より重く重み付けられるように、(μl<μl-1である点で)相関係数μlを減少し得る。結果として、半適応性ビームフォーマ300は、ユーザの口の位置、1以上のマイクロフォンの位置、または受信されたオーディオ信号302のSNRにおける実時間の変化に重みベクトルwが適応するように、フレームごとの基準でビームフォーミングフィルタ308を動的に調整してもよい。
【0048】
図4は、いくつかの実装に関して、半適応性ビームフォーマ400の一例の他のブロック図を表す。より具体的には、半適応性ビームフォーマ400は、マイクロフォンアレイを介して受信されたオーディオ信号に基づき、ビームフォーミングフィルタを決定してもよい。いくつかの実装において、半適応性ビームフォーマ400は、
図3の半適応性ビームフォーマ300の一例でもよい。半適応性ビームフォーマ400は、デバイスインタフェース410と、処理システム420と、メモリ430とを含む。
【0049】
デバイスインタフェース410は、(
図2のオーディオ受信器200のような)オーディオ受信器の1以上のコンポーネントと通信するように構成されている。いくつかの実装において、デバイスインタフェース410は、マイクロフォンアレイ内の複数のマイクロフォンを介してオーディオ信号を受信し、複数のマイクロフォンのそれぞれの出力に(フィルタ係数のセットを含む)ビームフォーミングフィルタを適用するように構成されたマイクロフォンインタフェース(I/F)412を含んでもよい。いくつかの実装において、受信されたオーディオ信号は、各自の音声成分と各自の雑音成分とをそれぞれ有する複数のフレームに一時的にさらに分割されてもよい。
【0050】
メモリ430は、マイクロフォンアレイに関する固定RTFベクトルを格納するように構成されたRTFデータストア432を含んでもよい。例えば、固定RTFベクトルは、マイクロフォンアレイの様々なユーザに(訓練手順の一部のような)無理なく適合するように決定されたRTFのセットを含んでもよい。また、メモリ430は、少なくとも以下のソフトウェア(SW)モジュールを格納し得る(数ある他の例のうち、EPROM、EEPROM、フラッシュメモリ、または、ハードドライブのような1以上の不揮発性メモリ素子を含む)非一時的コンピュータ読み取り可能な媒体を含んでもよい。
・複数のフレームの第1フレームに基づきRTFベクトルを決定し、RTFベクトルが複数のマイクロフォンのそれぞれと複数のマイクロフォンの参照マイクロフォンとに関する複数のRTFを含むRTF適応SWモジュール434
・RTFベクトルと、固定RTFベクトルと、第1フレームの雑音成分の共分散との少なくとも一部分に基づき、第1フレームの音声成分をゆがませずに第1フレームの雑音成分のパワーを減少するMVDRビームフォーミングフィルタを決定するビームフォーミングSWモジュール436
各ソフトウェアモジュールは、処理システム420により実行されるときに半適応性ビームフォーマ400に対応する機能を実行させる命令を含む。
【0051】
処理システム420は、半適応性ビームフォーマ400(例えばメモリ430)に格納された1以上のソフトウェアプログラムのスクリプトまたは命令を実行可能な適切な1以上の処理を含んでもよい。例えば、処理システム420は、複数のフレームの第1フレームに基づきRTFベクトルを決定し、RTFベクトルが複数のマイクロフォンのそれぞれと、複数のマイクロフォンの参照マイクロフォンとに関する複数のRTFを含むRTF適応SWモジュール434を実行してもよい。さらに、また、処理システム420は、RTFベクトルと、固定RTFベクトルと、第1フレームの雑音成分の共分散との少なくとも一部分に基づき、第1フレームの音声成分をゆがませずに、第1フレームの雑音成分のパワーを減少するMVDRビームフォーミングフィルタを決定するビームフォーミングSWモジュール436を実行してもよい。
【0052】
図5は、いくつかの実装に関して、オーディオ信号を処理するための手順500の一例を示す例示的なフローチャートを表す。いくつかの実装において、手順500の一例が、それぞれに、
図3と
図4との半適応性ビームフォーマ300、400のいずれかのようなビームフォーマにより実行されてもよい。
【0053】
ビームフォーマは、複数のマイクロフォンを介してオーディオ信号を受信し、オーディオ信号が各自の音声成分と各自の雑音成分とをそれぞれ有する複数のフレームを含んでもよい(510)。ビームフォーマは、複数のフレームの第1フレームに基づき、複数のマイクロフォンに関する複数の第1相対伝達関数(RTF)をそれぞれ決定してもよい(520)。ビームフォーマは、さらに、複数の第1RTFと、複数のマイクロフォンに関する複数の固定RTFと、第1フレームの雑音成分の共分散との少なくとも一部分に基づき、第1フレームにおいて、音声成分をゆがめずに、雑音成分のパワーを減少する第1MVDRビームフォーミングフィルタを決定してもよい(530)。
【0054】
いくつかの態様において、ビームフォーマは、さらに、音声成分と雑音成分とを有するトレーニング信号を複数のマイクロフォンを介して受信し、トレーニング信号の音声成分の共分散と、トレーニング信号の雑音成分の共分散とに関するSNRを増加するGEVビームフォーミングフィルタを決定し、GEVビームフォーミングフィルタの少なくとも一部分に基づき複数の固定RTFを決定してもよい。
【0055】
いくつかの態様において、複数の第1RTFを決定することは、第1フレームの音声成分の共分散と、第1フレームの雑音成分の共分散とに関するSNRを増加する第1GEVビームフォーミングフィルタを決定することを含んでもよい。
【0056】
いくつかの態様において、ビームフォーマは、さらに、複数の固定RTFと、複数の第1RTFと、第1相関係数とに基づき、複数の第1合成RTFを決定してもよい。いくつかの実装において、ビームフォーマは、複数の固定RTFと複数の第1RTFとの相関関係の少なくとも一部分に基づき、第1相関係数を決定してもよい。いくつかの他の実装において、ビームフォーマは、第1フレームの音声成分の共分散に関するSNRの少なくとも一部分に基づき、第1相関係数を決定してもよい。
【0057】
いくつかの態様において、ビームフォーマは、さらに、複数のフレームの第2フレームに基づき複数のマイクロフォンに関する複数の第2RTFをそれぞれ決定し、複数の固定RTFと、複数の第2RTFと、第2相関係数とに基づき複数の第2合成RTFを決定し、複数の第2合成RTFと第2フレームの雑音成分の共分散とに基づき第2MVDRビームフォーミングフィルタを決定してもよい。
【0058】
いくつかの態様において、複数の第2RTFを決定することは、第2フレームの音声成分の共分散と第2フレームの雑音成分の共分散とに関するSNRを増加する第2GEVビームフォーミングフィルタを決定することを含んでもよい。いくつかの実装において、第2フレームの音声成分の共分散に関するSNRは第1フレームの音声成分の共分散に関するSNRより高く、かつ、第2相関係数は第1相関係数より低くてもよい。いくつかの他の実装において、第2フレームの音声成分の共分散に関するSNRは第1フレームの音声成分の共分散に関するSNRより低く、かつ、第2相関係数は第1相関係数より大きくてもよい。
【0059】
当業者は、情報と信号とが様々な異なるテクノロジと技術とのいずれかを用いて表されることを認識するだろう。例えば、上記の説明にわたって参照され得るデータ、命令、コマンド、情報、信号、ビット、記号、および、チップは、電圧、電流、電磁波、磁場、磁性粒子、光場、光子、または、それらの組み合わせにより表されてもよい。
【0060】
さらに、当業者は、ここで開示された態様に関して説明された様々な例示的な論理ブロック、モジュール、回路、および、アルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または、両方の組み合わせとして実装されてもよいことを認識するだろう。ハードウェアとソフトウェアとのこの互換性を明確に表すため、様々な例示的なコンポーネント、ブロック、モジュール、回路、および、ステップは、これらの機能の点から一般的に上記に表されている。そのような機能性がハードウェアまたはソフトウェアで実装されるかは、システム全体に課せられる特定の用途と仕様制約に依存する。熟練した職人は、それぞれの特定の用途ごとに様々な方法で説明された機能性を実装してもよく、そのような実装決定により本開示の範囲から逸脱すると解釈されるべきでない。
【0061】
ここで開示された態様に関して説明された方法、順序、または、アルゴリズムは、直接ハードウェアで、プロセッサにより実行されるソフトウェアモジュールで、または、2つの組み合わせで具体化されてもよい。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバルディスク、CD―ROM、その分野で知られた記憶媒体のその他の形式に存在してもよい。記憶媒体の一例は、プロセッサが記憶媒体から情報を読み出せ、情報を書き込みできるように、プロセッサに接続される。代替的に、記憶媒体はプロセッサに組み込まれてもよい。
【0062】
前述の明細書では、実施の形態は、それらの特定の例を参照して説明されている。しかし、様々な修正と変更が、添付の特許請求の範囲に記載の本開示より広い範囲から逸脱することなく、それらに行われてもよいことは明らかだろう。明細書と図面とは、結果的に、限定的な意味ではなく、例示的な意味でみなされるべきである。
【外国語明細書】