IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヴァレオ、ノース、アメリカ、インコーポレイテッドの特許一覧

特許7572561マイクロホンアレイの音声出力を変調するための方法、装置、およびコンピュータ可読記憶媒体
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-15
(45)【発行日】2024-10-23
(54)【発明の名称】マイクロホンアレイの音声出力を変調するための方法、装置、およびコンピュータ可読記憶媒体
(51)【国際特許分類】
   H04R 3/00 20060101AFI20241016BHJP
【FI】
H04R3/00 320
【請求項の数】 20
(21)【出願番号】P 2023536140
(86)(22)【出願日】2021-12-07
(65)【公表番号】
(43)【公表日】2023-12-27
(86)【国際出願番号】 US2021062202
(87)【国際公開番号】W WO2022132498
(87)【国際公開日】2022-06-23
【審査請求日】2023-08-14
(31)【優先権主張番号】17/122,949
(32)【優先日】2020-12-15
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】516326748
【氏名又は名称】ヴァレオ、ノース、アメリカ、インコーポレイテッド
【氏名又は名称原語表記】VALEO NORTH AMERICA, INC.
(74)【代理人】
【識別番号】100120031
【弁理士】
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100127465
【弁理士】
【氏名又は名称】堀田 幸裕
(74)【代理人】
【識別番号】100208188
【弁理士】
【氏名又は名称】榎並 薫
(72)【発明者】
【氏名】ブランドン、フック
(72)【発明者】
【氏名】ダニエル、ソーバール
【審査官】松崎 孝大
(56)【参考文献】
【文献】特開2009-49998(JP,A)
【文献】特表2014-510481(JP,A)
【文献】国際公開第2012/160602(WO,A1)
【文献】国際公開第2014/199446(WO,A1)
【文献】国際公開第2016/076237(WO,A1)
【文献】国際公開第2018/167921(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
マイクロホンアレイの音声出力を変調するための方法であって、
前記マイクロホンアレイにおける2つ以上のマイクロホンカプセルから2つ以上の音声信号を受信するステップであって、各音声信号は、対応するマイクロホンカプセルの電気的ノイズと前記マイクロホンカプセルにより感知された環境中の音響刺激に対する応答とを含む、受信ステップと、
前記環境の音響寄与レベルを、受信した前記音声信号に基づいて推定する、推定ステップと、
処理回路により、前記マイクロホンアレイの前記音声出力の構成を、前記環境の推定された前記音響寄与レベルに基づいて決定するステップであって、前記構成は、少なくとも音響ノイズと複数のビームフォーマーの各々の指向性指数との関係に基づく、決定ステップと、
を備える方法。
【請求項2】
前記構成は、前記マイクロホンアレイの合計ノイズを最小化することにより、前記マイクロホンアレイの信号対ノイズ比を最大化する、
請求項1に記載の方法。
【請求項3】
前記推定ステップは、前記音響寄与レベルを、前記マイクロホンアレイの全方向性マイクロホンカプセルから受信した全方向性音声信号と、前記マイクロホンアレイにおける2つ以上の前記マイクロホンカプセルから受信した2つ以上の前記音声信号を指向性ビームフォーマーに従って処理することに基づくヌル発話信号とに基づいて推定し、前記指向性ビームフォーマーは、発話源に向けてヌルを生成して前記ヌル発話信号を生成する、
請求項1に記載の方法。
【請求項4】
前記推定ステップは、前記音響寄与レベルを、全方向性マイクロホンカプセルから受信した全方向性音声信号と音声活動検出器から受信した音声信号とに基づいて推定する、
請求項1に記載の方法。
【請求項5】
前記構成は、複数の前記ビームフォーマーのうちの1つ以上の出力の少なくとも一部を含む、
請求項1に記載の方法。
【請求項6】
前記処理回路により、複数の前記ビームフォーマーのうちの前記1つ以上の前記出力を、受信した前記音声信号の周波数分布に応じてフィルタリングする、フィルタリングステップをさらに備える、
請求項5に記載の方法。
【請求項7】
前記構成は、複数の前記ビームフォーマーのうちの前記1つ以上のフィルタリングされた前記出力に基づく、
請求項6に記載の方法。
【請求項8】
複数の前記ビームフォーマーのうちの前記1つ以上の前記出力のフィルタリングステップは、指向性指数および電気的ノイズにより規定されるカットオフ周波数に基づくものであり、前記電気的ノイズは、個々のビームフォーマーのセルフノイズである、
請求項7に記載の方法。
【請求項9】
前記マイクロホンアレイは、第1マイクロホンと第2マイクロホンとの間の距離が前記第2マイクロホンと第3マイクロホンとの間の距離に等しく、前記第1マイクロホンと前記第3マイクロホンとの間の距離が前記第3マイクロホンと第4マイクロホンとの間の距離に等しくなるように配置された4つのマイクロホンを含むマイクロホンの線形アレイである、
請求項1に記載の方法。
【請求項10】
処理回路を備える、マイクロホンアレイの音声出力を変調するための装置であって、
前記処理回路は、前記マイクロホンアレイにおける複数のマイクロホンカプセルのうちの2つ以上のマイクロホンカプセルから2つ以上の音声信号を受信するように構成され、各音声信号は、対応するマイクロホンカプセルの電気的ノイズと、対応する前記マイクロホンカプセルにより感知された環境中の音響刺激に対する応答と、を含み、
前記処理回路は、前記環境の音響寄与レベルを、受信した音声信号に基づいて推定するように構成され、
前記処理回路は、前記マイクロホンアレイの前記音声出力の構成を、前記環境の推定された前記音響寄与レベルに基づいて決定するように構成され、前記構成は、音響ノイズと複数のビームフォーマーの各々の指向性指数との関係に少なくとも基づく、
装置。
【請求項11】
前記構成は、前記マイクロホンアレイの合計ノイズを最小化することにより、前記マイクロホンアレイの信号対ノイズ比を最大化する、
請求項10に記載の装置。
【請求項12】
前記処理回路は、前記音響寄与レベルを、前記マイクロホンアレイの全方向性マイクロホンカプセルから受信した全方向性音声信号と、前記マイクロホンアレイにおける2つ以上の前記マイクロホンカプセルから受信した2つ以上の前記音声信号を指向性ビームフォーマーに従って処理することに基づくヌル発話信号とに基づいて推定するように構成され、前記指向性ビームフォーマーは、発話源に向けてヌルを生成して前記ヌル発話信号を生成する、
請求項10に記載の装置。
【請求項13】
前記処理回路は、前記音響寄与レベルを、全方向性マイクロホンカプセルから受信した全方向性音声信号と音声活動検出器から受信した音声信号とに基づいて推定するように構成される、
請求項10に記載の装置。
【請求項14】
前記構成は、複数の前記ビームフォーマーのうちの1つ以上の出力の少なくとも一部を含む、
請求項10に記載の装置。
【請求項15】
前記処理回路は、複数の前記ビームフォーマーのうちの前記1つ以上の前記出力を、受信した前記音声信号の周波数分布に応じて、指向性指数および電気的ノイズにより規定されるカットオフ周波数に基づいてフィルタリングするようにさらに構成され、前記電気的ノイズは、個々のビームフォーマーのセルフノイズである、
請求項14に記載の装置。
【請求項16】
前記構成は、複数の前記ビームフォーマーのうちの前記1つ以上のフィルタリングされた前記出力に基づく、
請求項15に記載の装置。
【請求項17】
前記処理回路は、複数の前記ビームフォーマーのうちの前記1つ以上の前記出力を指向性指数および電気的ノイズにより規定されるカットオフ周波数に基づいてフィルタリングするようにさらに構成され、前記電気的ノイズは、個々のビームフォーマーのセルフノイズである、
請求項16に記載の装置。
【請求項18】
前記マイクロホンアレイは、第1マイクロホンと第2マイクロホンとの間の距離が前記第2マイクロホンと第3マイクロホンとの間の距離に等しく、前記第1マイクロホンと前記第3マイクロホンとの間の距離が前記第3マイクロホンと第4マイクロホンとの間の距離に等しくなるように配置された4つのマイクロホンを含むマイクロホンの線形アレイである、
請求項10に記載の装置。
【請求項19】
コンピュータにより実行されると、マイクロホンアレイの音声出力を変調するための方法を前記コンピュータに実施させる、コンピュータ可読命令を記憶した非一時的なコンピュータ可読記憶媒体であって、前記方法は、
前記マイクロホンアレイにおける2つ以上のマイクロホンカプセルから2つ以上の音声信号を受信するステップであって、各音声信号は、対応するマイクロホンカプセルの電気的ノイズと前記マイクロホンカプセルにより感知された環境中の音響刺激に対する応答とを含む、受信ステップと、
前記環境の音響寄与レベルを、受信した前記音声信号に基づいて推定する、推定ステップと、
前記マイクロホンアレイの前記音声出力の構成を、前記環境の推定された前記音響寄与レベルに基づいて決定するステップであって、前記構成は、少なくとも音響ノイズと複数のビームフォーマーの各々の指向性指数との関係に基づく、決定ステップと、
を備える非一時的なコンピュータ可読記憶媒体。
【請求項20】
前記推定ステップは、前記音響寄与レベルを、前記マイクロホンアレイの全方向性マイクロホンカプセルから受信した全方向性音声信号と、前記マイクロホンアレイにおける2つ以上の前記マイクロホンカプセルから受信した2つ以上の前記音声信号を指向性ビームフォーマーに従って処理することに基づくヌル発話信号とに基づいて推定し、前記指向性ビームフォーマーは、発話源に向けてヌルを生成して前記ヌル発話信号を生成する、
請求項19に記載の非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、可変ノイズ環境におけるビームフォーマーの使用に関する。特に、本開示は、車両の車内通信システムの動作および制御に関する。
【背景技術】
【0002】
ビームフォーミングの実用性は、変動する音響環境において常に変化する多くの要因の影響を受ける。例えば、所定のマイクロホンアレイおよび特定のビームフォーマー設計を仮定すると、周囲の音響環境における変動するノイズレベルにより、ある時には不明瞭な電気的セルフノイズ(自己ノイズ、自己雑音)が導入されたり、また他の時には望ましくないビーム幅および空間エイリアシングが発生したりする場合がある。このように、特定の静的に定義されたビームフォーマー設計を実現しても、種々の音響条件をリアルタイムで正確に処理するには不十分なことがある。
【0003】
車両という文脈で考えると、特に中速または高速で走行中の車両の同乗者間での会話は、道路ノイズ、エンジンノイズ、オーディオノイズ、および他の典型的に上昇する環境音により困難になり得る。したがって、車内通信システムは、向上した通信特性を提供することにより自然な聴こえ方を補強しようとしてきた。しかしながら、高い音響ノイズ環境により、車内通信システムのマイクロホンアレイのノイズ中で意図された音声を最適に識別する能力は妨げられ続けている。より正確な発話プロセッサおよび信号対ノイズ比の向上を提供する努力において、新たなアプローチが検討されなければならない。
【0004】
したがって、最適な信号対ノイズ比を達成するために、汎用ならびに自動車環境に適用可能なビームフォーミングに対する実用的なアプローチを開発する必要がある。
【0005】
上述の背景技術の記載は、本開示の文脈を全体的に示すことを目的としている。当該背景技術の項に記載されている範囲における本発明者らの業績、ならびに出願時に先行技術としてみなされない可能性のある本明細書の態様は、明示的にも黙示的にも本発明に対する従来技術として認められない。
【発明の概要】
【0006】
本開示は、マイクロホンアレイの音声出力を変調するための方法を実施するように構成された処理回路を備える方法、装置、およびコンピュータ可読記憶媒体に関する。
【0007】
実施形態によれば、本開示は、マイクロホンアレイの音声出力を変調するための方法であって、前記マイクロホンアレイにおける2つ以上のマイクロホンカプセルから2つ以上の音声信号を受信するステップであって、各音声信号は、対応するマイクロホンカプセルの電気的ノイズと前記マイクロホンカプセルにより感知された環境中の音響刺激に対する応答とを備える、受信ステップと、前記環境の音響寄与レベルを、受信した前記音声信号に基づいて推定する、推定ステップと、処理回路により、前記マイクロホンアレイの前記音声出力の構成を、前記環境の推定された前記音響寄与レベルに基づいて決定するステップであって、前記構成は、少なくとも音響ノイズと複数のビームフォーマーの各々の指向性指数との関係に基づく、決定ステップと、を備える方法にさらに関する。
【0008】
実施形態によれば、本開示は、処理回路を備える、マイクロホンアレイの音声出力を変調するための装置であって、前記処理回路は、前記マイクロホンアレイにおける複数のマイクロホンカプセルのうちの2つ以上のマイクロホンカプセルから2つ以上の音声信号を受信するように構成され、各音声信号は、対応するマイクロホンカプセルの電気的ノイズと対応する前記マイクロホンカプセルにより感知された環境中の音響刺激に対する応答とを備え、前記環境の音響寄与レベルを、受信した音声信号に基づいて推定するように構成され、前記マイクロホンアレイの前記音声出力の構成を、前記環境の推定された前記音響寄与レベルに基づいて決定するように構成され、前記構成は、音響ノイズと複数のビームフォーマーの各々の指向性指数との関係に少なくとも基づく、装置にさらに関する。
【0009】
実施形態によれば、本開示は、コンピュータにより実行されると、マイクロホンアレイの音声出力を変調するための方法を前記コンピュータに実施させるコンピュータ可読命令を記憶した非一時的なコンピュータ可読記憶媒体であって、前記方法は、前記マイクロホンアレイにおける2つ以上のマイクロホンカプセルから2つ以上の音声信号を受信するステップであって、各音声信号は、対応するマイクロホンカプセルの電気的ノイズと前記マイクロホンカプセルにより感知された環境中の音響刺激に対する応答とを備える、受信ステップと、前記環境の音響寄与レベルを、受信した前記音声信号に基づいて推定する、推定ステップと、処理回路により、前記マイクロホンアレイの前記音声出力の構成を、前記環境の推定された前記音響寄与レベルに基づいて決定するステップであって、前記構成は、少なくとも音響ノイズと複数のビームフォーマーの各々の指向性指数との関係に基づく、決定ステップと、を備える非一時的なコンピュータ可読記憶媒体にさらに関する。
【0010】
前述の段落は、全体を紹介するために提供されたものであり、以下の特許請求の範囲を限定することを意図するものではない。記載された実施形態は、さらなる利点とともに、添付図面とともになされる以下の詳細な説明を参照することにより最も良好に理解され得る。
【0011】
本開示およびこれに付随する多くの利点についてのより完全な理解が、容易に得られるであろう。なぜならば、それらは、添付図面と併せて考慮される場合、以下の詳細な説明を参照することによってより良好に理解されるからである。
【図面の簡単な説明】
【0012】
図1図1は、本開示の例示的な実施形態による、車両の車内通信システムの説明図である。
図2A図2Aは、全方向性マイクロホンの例示的な極性パターンである。
図2B図2Bは、カーディオイドマイクロホンの例示的な極性パターンである。
図3図3は、本開示の例示的な実施形態による、マイクロホンアレイの音声出力を変調するプロセスのフロー図である。
図4A図4Aは、本開示の例示的な実施形態による、マイクロホンアレイの音声出力を変調するプロセスのサブプロセスの態様の図である。
図4B図4Bは、本開示の例示的な実施形態による、マイクロホンアレイの音声出力を変調するプロセスのサブプロセスのフロー図である。
図5図5は、本開示の例示的な実施形態による、マイクロホンアレイの音声出力を変調するプロセスのサブプロセスのフロー図である。
図6図6は、本開示の例示的な実施形態による、マイクロホンアレイの音声出力を変調するプロセスのサブプロセスのフロー図である。
図7図7は、本開示の例示的な実施形態による、任意の周波数におけるビームフォーミング構成のグラフ図である。
図8A図8Aは、本開示の例示的な実施形態による、マイクロホンアレイの配置の図である。
図8B図8Bは、本開示の例示的な実施形態による、マイクロホンアレイの配置の図である。
図8C図8Cは、本開示の例示的な実施形態による、マイクロホンアレイの配置の図である。
図8D図8Dは、本開示の例示的な実施形態による、マイクロホンアレイの配置の図である。
図8E図8Eは、本開示の例示的な実施形態による、マイクロホンアレイの配置の図である。
図9図9は、本開示の例示的な実施形態による、マイクロホンアレイの音声出力を変調するプロセスの低レベルフロー図である。
図10A図10Aは、本開示の例示的な実施形態による、マイクロホンアレイの音声出力を変調するプロセスの高レベルフロー図である。
図10B図10Bは、本開示の例示的な実施形態による、マイクロホンアレイの音声出力を変調するプロセスの低レベルフロー図である。
図10C図10Cは、本開示の例示的な実施形態による、マイクロホンアレイの音声出力を変調するプロセスのフロー図である。
図11図11は、本開示の例示的な実施形態による、車内通信システムを採用する車両のハードウェア構成の概略図である。
【発明を実施するための形態】
【0013】
本明細書で使用される用語「a」または「an」は、1つまたは1つより多いと定義される。本明細書で使用される「複数」という用語は、2つまたは2つより多いと定義される。本明細書で使用される用語「別の」は、少なくとも2つ目以上として定義される。本明細書で使用される用語「含む(including)」および/または「有する(having)」は、備える(comprising)(すなわち、オープン言語)として定義される。本明細書全体を通して、「一実施形態」、「特定の実施形態」、「実施形態」、「実施例」または同様の用語への言及は、実施形態に関連して説明される特定の特徴、構造、または特性が、本開示の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体を通して、このような語句または種々の箇所での出現は、必ずしもすべてが同じ実施形態に言及しているわけではない。さらに、特定の特徴、構造、または特性は、限定することなく、1つ以上の実施形態において任意の適切な方法で組み合わせられ得る。
【0014】
実施形態によれば、本開示は、マイクロホンアレイの出力を、その信号対ノイズ比を最適化するように変調するための方法について記載する。本明細書で説明する方法は、特にハンズフリー通話、ボイスオーバーインターネットプロトコル(voice over internet protocol(VoIP))、音声認識、およびゾーン車間会議(zonal vehicle-to-vehicle conferencing)を含む種々の設定において実現されることが理解されるであろう。特に、本開示の方法は、例示的な実施形態を参照しつつ以下に説明する車内通信の文脈において実現され得る。
【0015】
したがって、図1は、車両101の車内通信システム102の図である。車両101は、マイクロホンアレイの音声出力を変調する方法等の車内通信システム102の方法を実施するように構成された電子制御ユニット(ECU)160を含み得る。ECU160は、車両101の複数のマイクロホン106、および車両101の複数のスピーカ105と通信し得るとともに、これらを制御し得る。車両101の複数のマイクロホン106の各々は、図1の例示的な実施形態に示すように、車両101のヘッドライナを含む車両101の車室全体に装着され得る。実施形態において、車両101の複数のマイクロホン106の一部が、本開示の焦点であるように、マイクロホンアレイを形成し得る。図1に示すように、運転者103を含む複数の人(乗員)104が車両101内に存在し得る。「マイクロホン」および「マイクロホンカプセル」は、本開示を通じて互換的に使用される場合があること、およびそれらは音響信号を検出および伝達するための類似のデバイスを示唆することを意図していることに留意されたい。
【0016】
車両101の車内通信システム102の標準的な動作において、車両101の複数の乗員104の各々からの発話が向上され得るとともに、車両101の複数の乗員104のうちの他の乗員の各々に送信され得る。これにより、通信が妨げられないこと、およびすべての乗員が車両での会話に参加する機会を有することが確実とされる。
【0017】
しかしながら、実際には、車内通信システムのこのような動作は、車両の変動する音響ノイズ環境により妨げられて、性能が最適でなくなることがあり得る。実際に、上述のように、車内通信システムは、音響ノイズのレベルの変動を原因として車両での発話を最適に識別および向上できないことが多い。車両において、暖房/換気/空調システムによるノイズ、車両の外側に当たる風によるノイズ、タイヤと路面との接触によるノイズ、クラクションやサイレン等を含む車両の外部の事象によるノイズ、車両内の競合する話者(すなわち乗員)による音響ノイズが発生し得る。さらに、上述の音源からの音響ノイズの音量は、特に車速および外部の気象事象を含む多くの要因とともに変動する。種々の考えられ得る音響ノイズ源が存在する中で、これにより発生するノイズの音量がわからないことを考慮しつつ、音声信号をより良好に応答させるとともに信号からノイズを分離するようにマイクロホンおよび処理方法を調整する取り組みがなされてきた。
【0018】
当初、このような取り組みは、一般的に音響ノイズ環境に向けられていた。一例では、任意の個数のマイクロホン、マイクロホンカプセル、および一連の極性制約について、最大の信号対ノイズ比(SNR)を達成するための戦略として、最小ノルム解または同様の数学的最適化が、これらの取り組みに含まれていた。しかしながらこのアプローチは、周囲ノイズを効果的に除去する(それぞれの極性パターンの結果)が、ホワイトノイズの増幅を増大させる。別の例では、単一の空間起源に由来するノイズを最大限に低減させる戦略として、適応型到来方向(音源方向)技術、または主要なノイズ源に向けてヌルステアリングを可能にする同様の技術が、これらの取り組みに含まれていた。特に、このアプローチは、特定された指向性ノイズ源(イグニッションキーシリンダのエンジンキーのジャラジャラ音)に向けてヌル化(無効化)しつつ、所望の音源に向けて一定のメインローブを維持することができる。特定のノイズは分離されるが、このアプローチは、多数のマイクロホンがない場合、特定された指向性ノイズ源としての話者の正確な位置を捕捉するロバスト性が低いことを示している。さらに、このようなアプローチは、ノイズ自体が指向的にコヒーレントであり、および/または到来方向技術により良好に推定される音響ノイズ源からのノイズを低減するのにより効果的である。しかしながら、コヒーレントなノイズ源は、車両の走行中には皆無に等しい。例えば、道路ノイズは、上述のアプローチでは良好に捕捉できない拡散ノイズを発生させる。これらのアプローチは、最も望ましいビーム幅、およびエイリアシングのポイントまでの全周波数に亘って一貫性のあるビームを生成するアプローチが、周波数に反比例する電気的セルフノイズを最も多く発生させる、というパラドックスをもたらす。
【0019】
これらの最適ではないアプローチを考慮しつつ、本開示では、車両の種々の音響環境に対処可能である、マイクロホンアレイの音声出力を変調する装置および方法について説明する。実施形態において、本開示の装置および方法は、複数のマイクロホン(例えば3つ以上のマイクロホン)を含むマイクロホンアレイ内で実現され得る。本開示の装置及び方法は、本開示の以下の部分で詳述するように、低周波を含む拡散するノイズ音場において、高いSNR向上、ならびに空間エイリアシングを伴わない広い周波数範囲に亘る一定の極性パターンを生じさせることができる。
【0020】
実施形態によれば、本開示の装置および方法の利点は、上述のように、小型の形状因子パッケージにおいて達成され得る。
【0021】
さらに、このような利点は、車両の複雑な音響環境を理解することで達成できる。例えば、図1の車両が高速で走行している場合のように、高レベルの音響背景ノイズが存在する空間では、マイクロホンアレイの指向性が、目的の信号を捕捉する上で重要であり得る。車両の大音量環境において、後述する電気的ノイズの影響は無視できるほど小さくなるため、マイクロホンアレイの指向性を高める利点を生かすことができる。マイクロホンアレイの指向性を高くすると音響「ノイズ」は効果的に減少するが、指向性を高めることは、特に低周波数における電気的ノイズまたは電気的セルフノイズを同様に増大させる。図1の車両が中程度の速度で比較的静かな音響背景で走行している別の例において、マイクロホンアレイの各マイクロホンの電気的セルフノイズまたはセルフノイズの影響が顕著になる。この比較的低いノイズ環境では、セルフノイズと音響ノイズとのバランスを図って、マイクロホンアレイの指向性が緩和され得る。
【0022】
したがって、本開示では、電気的ノイズとマイクロホンアレイの指向性との関係を管理することを目的として、音響ノイズを能動的に測定するための装置および方法について説明する。この目的のために、本開示の装置および方法は、測定した音響ノイズに基づいて1つのビームフォーマーまたは組み合わせたビームフォーマーを実現することを含む。1つのビームフォーマーまたは組み合わせたビームフォーマーは、電気的セルフノイズおよび指向性を効果的に考慮するとともに、高いSNRを有する音声出力を提供する。さらに、このようにして、本開示による装置および方法は、マイクロホンアレイ内のマイクロホン間隔を最小にすることができる。これにより、電気的セルフノイズとエイリアシングのない帯域幅との典型的なバランスを回避しつつ、1つのビームフォーマーまたは組み合わせたビームフォーマーを小型の形状因子マイクロホンアレイに適用可能とする(例えば、小さいマイクロホンアレイは典型的に電気的セルフノイズまたはホワイトノイズ増幅を増大させるが、大きなアレイは典型的に空間エイリアシングを増大させる)。
【0023】
本開示の実施形態は、マルチエレメントマイクロホンアレイ用のビームフォーミングの開口(aperture)(すなわち指向性)により、ホワイトノイズ増幅とSNR向上のバランスを最適化する。
【0024】
ここで図面に戻ると、図2Aおよび図2Bは、本開示のマイクロホンアレイ内で採用され得るマイクロホンの例示的な極性パターンの図を示す。図2Aは、全方向性マイクロホン207の例示的な極性パターンの図である。灰色の線は極性プロット領域を表し、黒い線はマイクロホンの集音角度(acceptance angle)を示す。全方向性マイクロホン207の場合、マイクロホンの集音角度は、360度である。これにより、あらゆる角度から集音できる。ただし、異なるマイクロホンは変更可能な集音角度を有するため、応用の特定ニーズに応じてマイクロホンを選択することができる。例えば、図2Bは、指向性マイクロホン208(例えば、カーディオイドマイクロホン、双指向性マイクロホン)の例示的な極性パターンの図である。灰色の線は極性プロット領域を表し、黒い線はマイクロホンの集音角度を示す。指向性マイクロホン208の場合、マイクロホンの集音角度は、~130度である。このように、指向性マイクロホン208は、集音を制御することができる。これは、集音角度以外の領域が少なくとも減衰されるため、マイクロホンで受信されないからである。図2Bの指向性マイクロホン208は、集音角度を制御できる多数の指向性マイクロホンのうちの1つである。したがって、図2Bのカーディオイド極性パターンは、応用のニーズに基づく種々の適切な極性パターンのうちの1つに過ぎず、極性パターンを調整することにより集音角度が変調できることが理解され得る。このような極性パターンには、超カーディオイド、ハイパーカーディオイド、双方向性、ローバー等が含まれる。
【0025】
ただし現時点では、図2Aの全方向性マイクロホン等の全方向性マイクロホンエレメントが、システムが設計され得るロバストなプラットフォームを提供する。特に微小電気機械システムに基づく全方向性マイクロホンは、回路基板レベルの製造について堅牢なコンデンサ選択を提供し、特に周波数応答、感度、位相ドリフト、温度係数等においてより優れた公差を示す。
【0026】
さらに、上述の極性パターンは、全方向性マイクロホンから構成されるマイクロホンアレイアレイ内において1つ以上のビームフォーマー設計を実現することにより生成され得る。このようにして、マイクロホンアレイの集音角度を制御することができる。したがって、本開示の装置および方法は、実施形態において、複数の全方向性マイクロホンを含むマイクロホンアレイを対象とするビームフォーミング方策を採用する。
【0027】
上述のマルチエレメントマイクロホンアレイを用いたビームフォーミングは、音を通過させ得る、または遮断し得る「開口」を作製するために適用され得る信号処理技術である。換言すれば、望ましい角度からの音については「開口」を通過させ得るが、望ましくない角度からの音は遮断され得る。種々のビームフォーミングのアプローチが存在し、各々が「開口」に関する異なる利点を提供しつつ、異なる欠点をもたらす。例えば、特定のアプローチは、欠点としてセルフノイズ、または「ホワイトノイズ増幅」をもたらす。セルフノイズは、純粋に電気的領域におけるものであり、周波数に反比例する。別の例では、特定のアプローチは、電気的ノイズレベルは低いが、望ましくない開口および全体的なビーム幅(すなわち、周波数の関数としてのビームの一貫性)、ならびに空間エイリアシングを悩みとする。逆説的であるが、最も望ましいビーム幅と、エイリアシングが発生するまでの全周波数に亘って一貫性のあるビームを作り出すビームフォーミングのアプローチは、電気的セルフノイズが最も大きい。
【0028】
これらの条件は、自動車環境に適用された場合に誇張され得る。電気的セルフノイズにより、ノイズがビームフォーマー出力スペクトルの低周波数(例えば0.1~1kHz)に効果的に付加される。これは、自動車への適用において特にトラブルとなる事実である。なぜならば音響ノイズ密度の大部分は、周波数に反比例するからである。さらに、このセルフノイズ増幅メカニズムは、ビームパターンの指向性に正比例し、アレイのエレメント間の間隔に反比例する。したがって、このような高い指向性を有する同様のタイプのビームフォーマーは、通常採用されない。なぜならば、マイクロホンアレイのサイズが小さいほど、高いセルフノイズを有する良好なビームパターンが生成されるため、低音響ノイズの状況ではアレイがほとんど使用できなくなることが理解できるからである。
【0029】
上述のビームフォーマーについての説明および欠点は、本開示の装置および方法の動機となる。特に、上記から、理想的なビームフォーマーの目標は、特定の方向のみからの音を通過させて全体システムのSNRを向上させ得る適切に狭い開口を作製することであることが理解され得る。
【0030】
図面に戻ると、図3は、本開示の例示的な実施形態の方法を説明するプロセスのフロー図である。
【0031】
図3のプロセス315は、マイクロホンアレイの音声出力を変調する方法を説明する。本方法は、上述のものと同様の1つ以上のビームフォーマーを採用する。
【0032】
プロセス315のステップ320において、マイクロホンアレイのマイクロホンから、音声信号が受信され得る。マイクロホンアレイは、車両の車室全体または車両の外部に配置された複数のマイクロホンアレイのうちの1つであり得る。マイクロホンアレイは、上述のように、全方向性マイクロホンを含み得る。マイクロホンアレイは、線形アレイまたは非線形アレイであり得る。その例示的な配置を図8A図8Eに示す。
【0033】
プロセス315のサブプロセス325において、音響ノイズ寄与が、受信した音声信号に基づいて推定され得る。音場の音響ノイズ寄与は、プロセス315のサブプロセス330に対する音響ノイズ寄与のリアルタイム量を提供するように、継続的に推定され得る。推定された音響ノイズ寄与は、音声出力の構成を決定するために使用される。実施形態において、音響ノイズ分布は、発話とは無関係に推定される。この推定を可能にするため、図4A図4B図5図10A図10Bを参照して詳述する音声活動検出器(voice activity detectors、音声区画検出器)およびヌルトーカー(null talkers)を含むいくつかのアプローチが採用され得る。
【0034】
プロセス315のサブプロセス325で音響ノイズ寄与レベルを推定した後、プロセス315のサブプロセス330において、音声出力の構成が決定され得る。音響ノイズ寄与レベルに応じて、すべての周波数に亘って一貫した出力を提供することを目的として、1つ以上のビームフォーマー出力が組み合わせられて、SNRを最大化する最適な音声出力が生成され得る。
【0035】
簡単に説明すると、プロセス315のサブプロセス330は、2つのタイプのビームフォーマーを含む例を考慮して理解され得る。低い指向性を有するためセルフノイズが低いビームフォーマー「A」、および高い指向性を有するためセルフノイズが高いビームフォーマー「B」を想定する。いずれかのビームフォーマーを、音響ノイズ寄与レベルの範囲に亘って個別に使用することは賢明ではない。なぜならば、ビームフォーマー「B」の比較的高いホワイトノイズ増幅は、低音響ノイズ環境において邪魔になる一方で、ビームフォーマー「A」は、高音響ノイズ環境において十分に狭い開口を有さないからである。本開示の方法は、音響ノイズ寄与値の範囲に亘ってSNRを最大化する音声出力を提供するためにアレイのマイクロホンカプセルの表面で測定した音響ノイズ音場に基づいて、ビームフォーマー「A」の出力とビームフォーマー「B」の出力とを混合する方法を提供する。したがって、単純化した例において、音響ノイズ寄与のレベルが低い場合、ビームフォーマー「A」が合成出力を支配する可能性が高い。音響ノイズ寄与のレベルが中程度である場合、ビームフォーマー「A」およびビームフォーマー「B」が合成出力に等しく寄与する可能性が高い。音響ノイズ寄与のレベルが高い場合、ビームフォーマー「B」が合成出力を支配する可能性が高い。
【0036】
同様に、低い音響SNRが存在する場合、組み合わされたビームフォーマーは、指向性が高くなり得る。これにより、特に低周波数における全体的なSNRの改善が得られるが、セルフノイズの一致した増加により阻害される。全体的な効果は、最小音響ノイズ寄与と最小音響ノイズレベルに対するセルフノイズの許容寄与との合計よりも多くのセルフノイズを決して発生させない、合成ビームフォーマー出力または音声出力である。換言すれば、合成ビームフォーマー出力におけるノイズの合計量は、最小音響ノイズ寄与と、開口のノイズ低減効果とセルフノイズの寄与との和との差に由来する。
【0037】
上記の単純な2つのビームフォーマーの例は、必要に応じて、処理能力とSNRとのトレードオフを考慮しつつ、複数のビームフォーマーを含むように拡張できることが理解され得る。またさらに、上述の例は、最適なビームフォーマー構成の策定に際して、周波数依存性を考慮するように拡張され得る。上述のように、周波数は、電気的セルフノイズに反比例するため、音響周波数の可能なスペクトルに亘って同様に考慮する必要がある。
【0038】
プロセス315のサブプロセス330で決定された音声出力の構成は、プロセス315のステップ335における音声出力の生成において使用され得る。音声出力は、車内通信システムの場合、車両の1つ以上のスピーカに提供され得る。音響ノイズ寄与はリアルタイムで変化するため、組み合わされたビームフォーマーが更新されると、音声出力の構成も変化し得る。聞き取れるクリック音、ポップ音、または他のタイプのアーチファクトを回避するように、ビームフォーマータイプ間の遷移は、一例において、クロスフェードゲイン曲線(cross-fading gain curves)により容易化され得る。クロスフェードゲイン曲線は、調整可能な時定数を示し、推定された音響ノイズ寄与により変調される、あらかじめ設計されたビーム間の一定の変化を提供する。このようなクロスフェードゲイン曲線は、音響周波数スペクトルに亘って変化し得る。このように、推定された音響ノイズ寄与が変動するにつれて、前のビームフォーマーは、減衰「フェードアウト」プロファイルを受信し、後続のビームフォーマーは「フェードイン」プロファイルを受信する。クロスフェードゲイン曲線の時定数は、推定された音響ノイズ寄与のレベルが変化する速度に応じて調整され得る。例えば、時定数は、音響ノイズ環境が変化する速さに応じて短くても長くてもよい。このような時定数について、図10A図10Cを参照して詳述する。
【0039】
図4A図4Bおよび図5を参照すると、音響ノイズ寄与は、発話とは無関係に推定され得る。この目的のために、マイクロホンアレイは、任意のタイミングにおいて、道路ノイズ、車両ノイズ、乗員の発話を含む種々の音源により生成された音声信号を受信し得ることが理解され得る。複数のビームフォーマー設計が、マイクロホンアレイの受信した音響信号に対して、独立して、または同時に適用され得る。実施形態において、発話を分離してこれを音響ノイズ寄与の推定から除去するため、音響ノイズが、受信した音響信号に適用される指向性ビームフォーマーを使用することにより、直接発話から分離され得る。指向性ビームフォーマーは、図4Aに示すような、カーディオイドマイクロホンの極性パターンに類似したビームパターンを生成し得る。これにより、「ヌルトーカー」の生成が可能とされる。この目的のために、指向性ビームフォーマーのヌル427が、意図したスピーカ426の方向、または人間の発話の発生源に向けられ得る。これにより、結果としての極性パターン428が、発話の反射およびノイズを捕捉する音響ノイズ項を生成するように配置される。
【0040】
車両の文脈において、マイクロホンアレイにおけるマイクロホンにより生成された音声信号は、発話と発話の反射とノイズとの合計であり得る。マイクロホンアレイに指向性ビームフォーマーを実装することにより、図4Aに記載のように、指向性ビームフォーマーまたは設計された開口により生成された音声出力は、発話の反射およびノイズ、すなわちより一般的には音響ノイズを含むことがさらに理解され得る。
【0041】
具体的には、図4Bに記載のように、サブプロセス325のステップ436において、音声信号が、マイクロホンから受信され得る。サブプロセス325のステップ437’において、未処理の音声信号が分離され得る。一例では、未処理の音声信号は、人間の話者に最も近いマイクロホンアレイのマイクロホンから取得され得る。したがって、サブプロセス325のステップ325において受信した音声信号は、処理されて、サブプロセス325のステップ437”において、「ヌルトーカー」を生成し得る。処理には、特定の指向性ビームフォーマーの実現が含まれ得る。サブプロセス325のステップ437’において分離された全方向性音声信号、およびサブプロセス325のステップ437”において生成された「ヌルトーカー」に基づいて、発話信号対ノイズ比(sSNR)の推定値が、サブプロセス325のステップ438において決定され得る。サブプロセス325のステップ428において決定されたsSNRは、サブプロセス325のステップ429において推定される音響ノイズ寄与のベースとなり得るとともに、合成ビームフォーマー出力を更新するようにプロセス315のサブプロセス330に提供され得る。このようにして、合成ビームフォーマー出力は、指向性により最大化される。このようなアプローチにより、マイクロホンアレイの形状因子が、所定のマイクロホン数に応じて最小化され得る。そのセルフノイズは、全体の音響ノイズ最小値に対する許容寄与を超えない。
【0042】
別の実施形態において、図5を参照すると、音響ノイズ寄与は、音声活動検出器を使用することで、発話とは無関係に推定され得る。上述のように、音声活動検出器は、人間の発話の影響を伴わない音響環境を反映するノイズ値を分離するように使用され得る。したがって、サブプロセス325のステップ536において、音声信号は、マイクロホンアレイの全方向性マイクロホンから受信され得る。一例において、全方向性マイクロホンは、人間の話者に最も近いマイクロホンアレイのマイクロホンであり得る。サブプロセス325のステップ536において全方向性マイクロホンから受信した音声信号は、発話の存在についてサブプロセス325のステップ521において評価され得る。そして、サブプロセス325のステップ522において、発話が受信した全方向性マイクロホンの音声信号にあるかないかが決定され得る。音声信号中に発話があると決定された場合、サブプロセス325はステップ536に戻る。あるいは、発話が音声信号にないと決定された場合、サブプロセス325はステップ529に進み、ステップ536で受信した音声信号は、ステップ529において推定される音響ノイズ寄与に関するベースとして使用され得る。
【0043】
以上から、理想的な状況では、音声活動検出器およびヌルトーカーの利点が組み合わせられ得ることが理解され得る。例えば、音声活動検出器の有効性は音響ノイズレベルに反比例することを理解の上で、ヌルトーカー(すなわち人間の話者に向けられたヌルを有する指向性ビームフォーマー)と音声活動検出器との組み合わせにより、音響ノイズ寄与を分離および推定するための直接的なアプローチが提供され得る。この組み合わせにより、混合された検出器出力がもたらされ得る。ここでは、後述するように、音声活動検出器がより低い音響ノイズ寄与レベルで使用され、ヌルトーカーがより高い音響ノイズ寄与レベルで使用されて、組み合わされたビームフォーマーの混合構成の行く末が決定される。例えば、上述の検出よび推定は、いつ、どのような比率で組み合わされたビームフォーマーの混合構成を更新するかについての決定に情報を提供することができる。
【0044】
サブプロセス325において音響ノイズ寄与を推定した後、プロセス315は、サブプロセス330に進み得る。ここで、推定された音響ノイズ寄与は、ビームフォーマー出力の構成を決定するように使用され得る。図6のフロー図に記載のように、ビームフォーマー出力の構成は、推定された音響ノイズ寄与に部分的に従って、複数のビームフォーマーの各々について決定された合計ノイズ値に基づき得る。
【0045】
図6を参照すると、プロセス315のサブプロセス325において推定された音響ノイズ寄与は、プロセス315のサブプロセス330で使用されて、マイクロホンアレイの音声出力の構成が決定および生成され得る。推定された音響ノイズ寄与を受信した後、複数のビームフォーマーの各々の合計ノイズ値が、サブプロセス330のステップ631において決定され得る。一例において、図9図10Cに示すように、複数のビームフォーマーは、3つ以上のビームフォーマーを含み得る。当然ながら、ビームフォーマーの個数は、応用のニーズに基づくものであり、限定されないことが理解され得る。なぜならば、本開示の方法は、ビームフォーマー1、ビームフォーマー2、ビームフォーマー3…、ビームフォーマーiを含み得る複数のビームフォーマーのビームフォーマー数とは無関係に、常に実施され得るからである。
【0046】
サブプロセス330のステップ631において決定された複数のビームフォーマーの各々の合計ノイズ値(N(ω))は、図4A図5を参照して上述した音響ノイズ(N)からの寄与と、電気的セルフノイズ(N)との組み合わせであると単純に考えることができる。この関係は、任意の周波数(ω)または周波数帯域について、式(1)で表される。
【数1】
【0047】
各ビームフォーマーの合計ノイズ値に影響を与える追加要因を考慮することで、より完全な理解が得られる。例えば、Nは、ビームフォーマーの指向性指数(DI)により低減され得る。一方で、Nは、ビームフォーマーのポストフィルタ(H)およびマイクロアレイのマイクロホンの個数により、それらの統計的結合原理(M)により規定されるように増幅され得る。式(2)は、式(1)に基づくもので、以下のように記載される。
【数2】
【0048】
電気的セルフノイズ項(N)に着目すると、電気的セルフノイズは、熱ノイズ(例えば温度変動)、フリッカーノイズ、ショットノイズ、トランジットノイズ(遷移ノイズ)、バーストノイズ等の、電気部品内部のメカニズムに起因するタイプのノイズである。これらのメカニズムは音響領域から独立しているため、複数のマイクロホンの各マイクロホンからの電気的ノイズは無相関である。しかし、各マイクロホンからの電気的ノイズは、あらゆる音響ノイズ環境に亘る各マイクロホンの電気的セルフノイズ項を定義する基準マイクロホンの実験室測定に基づいている。これらのメカニズムからの合計電気的セルフノイズ寄与は、システムにおいて使用される回路全体を通じたセルフノイズの総和であり、マイクロホンアレイの合計電気的セルフノイズをもたらす。この目的のために、式(2)で示したように、ビームフォーミングは、向上した指向性と電気的セルフノイズ増幅とのバランスをとる。
【0049】
このバランスは、マイクロホンアレイ構造の順番(例えば、何層存在するか)により部分的に決定され得る。これは、ビームフォーマーのポストフィルタを決定する。ポストフィルタの前に存在する電気的セルフノイズを、ポストフィルタのスペクトルで乗じることができる。このアプローチは、原理的には、差分アレイの場合に、どのように電気的セルフノイズの低周波数が増幅されるかということである。しかしながら、遅延和ビームフォーマー(delay and sum beamformers)の場合、ポストフィルタは、1/Mに等しい。式中、Mは、使用されるマイクロホンの個数である。出力の電気的セルフノイズは減少する。このように、マイクロホンアレイの使用マイクロホンの個数は、ノイズ乗数を合計ノイズ式に付加する。2マイクロホン差分アレイの例では、ノイズ乗数は、√2である。3マイクロホン二次差分アレイ(2nd order differential array)の例では、ノイズ乗数は√6である。さらに、比較として、3マイクロホン遅延和ビームフォーマーの例では、ノイズ乗数は√3である。
【0050】
マイクロホンアレイにおける各マイクロホンについての電気的セルフノイズ項は無相関であるため、マイクロホンアレイの合計電気的セルフノイズ項を、式(3)に記載される倍数Mで乗じることができる。
【数3】
【0051】
上述のように、式(3)は、ビームフォーマーをレイヤーで記述できることを前提としている。各レイヤーは、特定数の有効入力信号Mを含む。例えば、二次差分アレイにおいて、2つの有効レイヤーが存在する。第1レイヤーは、3つの入力信号を含み得る一方で、第2レイヤーは2つの入力信号(すなわち第1レイヤーの結果)を含む。したがって、入力信号の個数は、M=√6と記載される。比較として、3つのマイクロホンを使用する遅延和ビームフォーマーは、√3の有効値Mを有し得る。いずれの場合も、ポストフィルタ応答に続く電気的セルフノイズ項、およびマイクロホンアレイのレイヤーおよび/または次数を含む各ビームフォーマーの合計ノイズ値は、無相関信号が加算される二乗平均平方根プロセスを介して、以下のように記述され得る。
【数4】
式(4)において、Nは合計ノイズ項であり、ωは周波数項であり、Hはビームフォーマーのポストフィルタであり、Lはビームフォーマーにおけるレイヤーの個数(すなわち、差分の次数)であり、Mはビームフォーマーの各レイヤーの設計における入力信号の個数であり、Nはアレイ内の単一の全方向性マイクロホンの電気的セルフノイズであり、Nは音響ノイズ寄与であり、DIはビームフォーマーの指向性指数である。
【0052】
式(4)は、サブプロセス330のステップ631において、複数のビームフォーマーの各ビームフォーマーの合計ノイズ値を決定するために使用され得る。サブプロセス330のステップ632において複数のビームフォーマーを組み合わせてミキサを介して単一のビームフォーマーにするために、各ビームフォーマーからの合計ノイズ値は、クロスフィルタ重量合計され得る。この結果が合成合計ノイズ値である。合成合計ノイズ値は、以下のように記述され得る。
【数5】
ここで、Nは合成合計ノイズ値であり、Nt,0は、ビームフォーマー0に対して決定された合計ノイズ値であり、Hはビームフォーマー0に適用されるフィルタ伝達関数であり、Nt,1は、ビームフォーマー1に対して決定された合計ノイズ値であり、Hはビームフォーマー1に適用されるフィルタ伝達関数であり、Nt,2はビームフォーマー2に対して決定された合計ノイズ値であり、Hはビームフォーマー2に適用されるフィルタ伝達関数であり、Nt,iはビームフォーマーiに対して決定された合計ノイズ値であり、Hはビームフォーマーiに適用されるフィルタ伝達関数である。組み合わされたビームフォーマーの指向性は、組み合わされたビームフォーマーの極性応答の設計や、特定の周波数範囲における1つ以上のビームフォーマーの特定の利点を利用することによって制御され得る。
【0053】
サブプロセス330のステップ632において、ミキサは、サブプロセス325で推定された音響ノイズ寄与に基づいて、ステップ631の異なるビームフォーマーからの寄与レベルを調整することにより、マイクロホンアレイの音声出力を変調し得る。このようにして、ミキサは、組み合わされたビームフォーマーにより変調された音声出力のSNRを最大化することができる。このような機能は、同時に、または別個に実施され得る。実施形態において、複数のビームフォーマーの各々の寄与レベルの調整は、任意の周波数において、推定された音響ノイズ寄与および/または各ビームフォーマー設計の合計ノイズ寄与に応じて、比率計量的に(ratio-metrically)定義され得る。一例において、調整は、マイクロホンアレイの変調された音声出力の構成と推定された音響ノイズ寄与との関係を規定する段階的機能に基づき得る。別の例において、調整は、マイクロホンアレイの変調された音声出力の構成と推定された音響ノイズ寄与との関係を規定する対数関数に基づき得る。以上のことから、ビームフォーマーの構成、音響ノイズ寄与、および/または各ビームフォーマー設計についての合計ノイズ寄与の関係を任意の周波数において規定する種々のアプローチが、本明細書に記載のアプローチから逸脱せずに開発可能であることが理解され得る。
【0054】
例えば、図7を参照すると、重み値が、音響ノイズの関数として、任意の周波数帯域における各ビームフォーマー設計に割り当てられ得る。図7のように、任意の周波数は、fn-1~f間の周波数帯域であり、各ビームフォーマー設計に、推定された音響ノイズの関数として0~1の加重値が割り当てられ得る。各ビームフォーマー設計が推定された音響ノイズの異なる音量で適切であることを認識し、統制された時定数(dB/secリミッタ)がビームフォーマー間のスムースなクロスフェードを保証することを理解することにより、中実度の高い変調された音声出力が、任意の周波数において、そして推定された音響ノイズのスペクトルに亘って確保される。
【0055】
実施形態において、図7に示すビームフォーマー設計の加重値は、音響ノイズ項の推定時にルックアップテーブルを介してアクセスすることができるため、音声出力の構成をリアルタイムで知ることができる。
【0056】
図6に戻ると、サブプロセス330のステップ632で決定された構成は、サブプロセス330のステップ633において音声出力として生成され得る。換言すれば、再び図3を参照すると、プロセス315のサブプロセス330で決定された音声出力の構成は、プロセス315のステップ335において変調された音声出力として生成され得る。
【0057】
ここで、図8A図8Eを参照すると、マイクロホンアレイは、電気的セルフノイズとビーム幅とのバランスを考慮した種々の構造配置を有し得る。本開示の実施形態によれば、このような配置には、図8A~8Dに示すような線形配置、または図8Eに示すような非線形配置が含まれる。
【0058】
例示的な実施形態において、マイクロホンアレイ811は、図8Dに示すように、直線上に配置された4つのマイクロホン(x0、x1、x2、およびx3)を含み得る。x0、x1、およびx2の各々の間の距離は等しくてもよく、x0とx2との間の距離は、x2とx3との間の距離と同様であってもよい。x0、x1、およびx2から出力される信号は、高周波音響に使用され得る。x0、x2、およびx3から出力される信号は、中周波音響に使用され得る。x0およびx3から出力される信号は低周波音響に使用され得る。
【0059】
例示的な実施形態において、マイクロホンアレイ812は、図8Eに示すように、対角線上に配置された7つのマイクロホン(x0、x1、x2、x3、x4、x5、およびx6)を含み得る。マイクロホンx0、x1、x2、およびx6は第1対角線に沿って配置され、マイクロホンx5、x2、x3、およびx4は第2の対角線に沿って配置され、対角線はx2で交差する。
【0060】
図3図6を参照して上述したように、本開示の装置および方法は、図9に示す例示的な実施形態において実現され得る。図9は、上述のように、本開示の例示的な実施形態による、マイクロホンアレイの音声出力を変調するプロセスの低レベルフロー図である。図9に記載のプロセスは、図3図6を参照して説明したプロセスの場合と同様に、車両(図1参照)のECUの処理回路により実施され得る。車両のECUの処理回路は、一例において、デジタル信号プロセッサであり得る。このようなECUについては、図11を参照して後述する。
【0061】
最初に、マイクロホンアレイの複数の全方向性マイクロホン905の各々で受信した音声信号が、音声入力コントローラを介して、例えば車両のECUのデジタル信号プロセッサに送信され得る。選択的に、空間エイリアシングコントローラおよび風緩衝コントローラ909が、受信した音声信号を分解するために適用され得る。そして、受信した音声信号は、複数のビームフォーマーおよび音声活動検出モダリティ940に従って処理され得る。複数のビームフォーマーおよび音声活動検出モダリティ940は、高DI、高セルフノイズビームフォーマー941、中DI、中セルフノイズビームフォーマー942、および低DI、低セルフノイズビームフォーマー943を含み得る。実施形態において、ビームフォーマー941、942、943の各々は、周波数依存性を有していてもよく、周波数に応じた1つ以上のビームフォーマーを含み得る。複数のビームフォーマーおよび音声活動検出モダリティ940は、2つの音声活動検出モダリティ、すなわち、第1モダリティとして、図4Aおよび図4Bを参照して説明したような全方向性低セルフノイズマイクロホン944およびヌルトーカー945、そして第2モダリティとして、図5を参照して説明したような音声活動検出器946のような2つの音声活動検出モダリティであり得る。ノイズおよび信号推定値950が、複数のビームフォーマーおよび音声活動検出モダリティ940から出力され得る。ビームフォーマーおよびセルフノイズ推定値の各々の出力は、信号/セルフノイズ推定器951を介して、音響ノイズ推定器962およびSNR最大化器957に提供され得る。音声活動検出モダリティの出力は、同時に、音響ノイズ推定器952に提供され得る。指向性ビームフォーマーが配備される実施形態において、ヌルトーカー945または音声活動検出器946の出力は、SNR最大化器957に直接的に提供され得る。音響ノイズ推定器952により推定された音響ノイズ寄与は、SNR最大化器957に提供され得る。推定された音響ノイズ寄与を音響ノイズ推定器952から受信し、ビームフォーマー信号およびセルフノイズ推定値を信号/セルフノイズ推定器951から受信した後、各ビームフォーマー941、942,943についての合計ノイズ値が、推定された音響ノイズに基づいて生成され得る。したがって、合成ビームフォーマー出力のSNRを最大化するように、合計ノイズ値は最小化され、その構成は、ミキサ956に利用されて、任意の周波数に対する合成音声出力958として、ビームフォーマー941、942、943の各々の出力が組み合わされる。
【0062】
さらに、図10A図10Cは、図9のミキサ956によるビームフォーマー出力の合成について全体的に説明する。図10Aは、マイクロホンアレイの音声出力を変調するためのシステムの単純化したブロック図を示す。図10Aの左側を始めとして、マイクロホンx′[n]~x′[n]で生成された信号は、変動パラメータ推定ブロックに送られ得ると同時に、指向性とセルフノイズのバランスをとるように選択された2つ以上のビームフォーマーに送られ得る。実施形態において、2つ以上のビームフォーマーは、高DIビームフォーマーおよび低DIビームフォーマーであり得る。ビームフォーミングは、[n]のサンプルごとに常に実施される、または計算される。各ビームフォーマー出力は、音声活動検出器(VAD)およびミキサ、または、変動パラメータの推定中に決定されたパラメータα[n]およびk[n]に基づいてビームフォーマー出力間を混合する役割を果たすクロスフェーダに送信される。実施形態において、VADおよび長期ノルムに依存するα[n]および短期ノルムに依存するk[n]の値は、リアルタイムで推定され得る。
【0063】
変動パラメータ推定ブロックの主要な機能は、ビームフォーマー出力の各々のミクシングまたはフェードをいつ、どのような速度で実施するかをクロスフェーダに知らせることである。この目的のために、変動パラメータ推定ブロックは、マイクロホンx′[n]~x′[n]からの出力信号の各々からの統計値を処理する。統計値には、とりわけ、各マイクロホンで捕捉された音響ノイズの音響音圧レベル(dB SPL)のリアルタイム値推定値を計算することが含まれる。この値は、VADが到着時間サンプルに発話が存在しないことを示す場合に限り、到着時間サンプルごとに更新され得る。
【0064】
リアルタイムの音響ノイズ(例えば、発話およびノイズ)の統計値(例えばノルム)は、各到着時間サンプルごとに計算され得るとともに更新され得る。ルックアップテーブル(LUT)を使用して、これらの統計値の各々が、ミキサにどのようにサンプル[n]ごとの特定ゲインをビームフォーマー出力の各々に適用するかを指示する個別の制御変数(例えば、α[n]およびk[n])にマッピングされ得る。実施形態において、LUTは、特定周波数帯域に関連付けられ、入念な調査と音質評価調整により設計される。その一例を図7に示す。各LUTの調整は、現実世界の環境におけるシステムの機能を決定する。
【0065】
図10Bは、図10Aの例示的な配置の低レベルフロー図を示す。図10Bに示すように、発話を除く音響ノイズ推定値、および発話を含む音響ノイズ推定値の統計値またはノルムは、それぞれ大バッファおよび小バッファに基づく。大バッファおよび小バッファの各々は、先入れ先出し(FIFO)バッファ、またはそれに相当するものであり得る。
【0066】
実施形態において、小FIFOバッファの計算されたノルム(例えば、ユークリッドL2‐ノルム、二乗平均平方根等)は、推定された音響ノイズの高速で変化する値を反映するように使用され得る。この高速で変化する値は、バイナリであり得る変数k[n]にマッピングされ得る。例えば、小FIFOバッファの計算されたノルムが、推定された音響ノイズが一定の閾値を超えることを示す場合には、k=1である。それ以外の時は、k=0である。
【0067】
実施形態において、大FIFOバッファの計算されたノルム(例えば、ユークリッドL2‐ノルム、二乗平均平方根等)は、発話がない場合、またはVADが偽に等しく音声活動が存在しないことが意味される場合のみ更新される。このようにして、発話寄与を除く音響ノイズが推定され得る。このようにして音響ノイズを推定することで、ゆっくりと変化する現実世界の事象を捕捉し、ゆっくりと変化する変数α[n]にマッピングされ得る値を生成する。この値の変化速度は、使用されるFIFOバッファの長さに依存し得るが、整流器やローパスフィルタ等の他の手段により実現してもよい。この場合、変数の変化速度は、ローパスフィルタの設計次数および周波数に依存する。
【0068】
このようにして、バイナリ変数kは、ミキサに、変調のためにビームフォーマー出力間で切り替わるように指示することが理解され得る。kは単に一方のビームフォーマー出力をオンにして、他方のビームフォーマー出力をオフにするものではないということを理解の上で、kは、ミキサに、所定の式に統制された固有のゲインを各到着ビームフォーマーサンプルについて適用するように指示するように作用する。図10Bのように、そしてここで繰り返されるように、一例における式は次の通りである。
【数6】
ここで、k[n]は、ミキサに、(1)ビームフォーマー出力をミクシングする、または(2)ビームフォーマー出力をミクシングしないことを指示するスイッチとして機能する。また、式は、発話を除く推定された音響ノイズのマッピングされた値(すなわち、0<α[n]<1)を説明する。これは、ミキサがk[n]に基づいてビームフォーマー出力をミクシングすることができる速度を制限する。
【0069】
実際には、音響ノイズが大きいと推定される場合、高DIビームフォーマーからの信号が優先されて、k[n]の影響は受けない。音響ノイズが小さいと推定される場合、短期音響エネルギー(例えば発話)が、k[n]を変調するのに十分である。したがって、α[n]が低く評価されるため、このような短期イベントにより、システムは、高DIビームフォーマーからの信号と低DIビームフォーマーからの信号とを迅速に混合する。例えば、これは、低音響ノイズ瞬間時の車両の車室における反響音を低減させると同時に、ソフトな発話および/または静かな車室の瞬間があるときには非常に低い電気的セルフノイズしか示さないことに有用である。この単純(かつ実用的な)例の場合、高DIビームフォーマーからの信号を、y[n]で乗じることができる。そして、低DIビームフォーマーからの信号を、z[n]で乗じることができる。そして、2つの結果としての乗算信号は、単純に合計され得る。これは、y[n]が0~1で有界であるため、許容される。
【0070】
図10Aおよび図10Bの記載について、非限定的な例示的シナリオを参照しつつさらに説明する。下記の各シナリオにおいて、所望の信号(例えば、運転者からの発話)および望ましくない信号(例えば、同時の乗員発話)を考察する。
【0071】
話者の口から出る発話エネルギーは、その周波数に応じて、球状および/または半球状の波面で大部分が放射状に広がることが理解され得る。この発話エネルギーは、口とマイクロホンとの間の直接経路(すなわち、所望の経路)および、マイクロホンに到達する前に波面が接触するすべての面を構成する間接経路または反射経路(すなわち望ましくない経路)を含む多くの経路をたどり得る。このように、無数の反射経路が存在する一方で、たった1つの直接経路しか存在しない。
【0072】
第1例において、車両の高速移動(例えば、毎時70マイル)中に、車両の運転者の発話が、マイクロホンアレイに捕捉され得る。したがって、上記の図面を参照すれば、高DIビームフォーマーが、反射経路を最小にしつつ直接発話経路を捕捉することが望まれる。また、このように、高DIビームフォーマーは、例えばエンジン、暖房/冷房/換気システム、道路、風、および競合する話者により生成される周囲ノイズの大部分を「ヌル化」するよう作用する。本開示から、高DIビームフォーマーは、高DIビームフォーマーはより高いセルフノイズも呈するが、リアルタイムで計算できる合計ノイズ推定を考慮すると、ノイズ分離の利点は価値があることが理解され得る。図10A図10Cに戻って第1例を考えると、k[n]の値は、音響ノイズレベルが大半の時間において閾値を実質的に上回っているため、主に1となる。音響ノイズレベルが増加した場合を想定すると、α[n]の値は大きくなるため(例えば、>0.95)、高DIビームフォーマーに有利になる。したがって、図10Bのミキサで観察されるように、y[n]の値は、音響ノイズのレベルに応じて、1に非常に近くなるように変化し、音響ノイズが増加するにつれて、より緩やかに変化するようになる。逆に、y[n]の値またはゲイン値をより迅速に変化させるためには、α[n]ひいては音響ノイズレベルをより低くする必要がある。
【0073】
第2例において、エンジンを切って停車した車両であるが、運転者からの発話は依然として捕捉している状態を考える。本例において、α[n]の値は、当然ながら第1例のものよりも低く(すなわち、<<0.95)、またk[n]は、“1”と“0”との間で急速に変動する。“1”では、各音節が捕捉される。“0”では、音節のエネルギーが閾値を下回る。
【0074】
k[n]の値の迅速な調整において、変動パラメータ推定ブロックは、ミキサに、新しい情報の方が古い情報よりも重要であることを伝える。これは、ミキサが、k[n]の値に応じて、ビームフォーマーの設計を迅速に切り替えようとすることを意味する。このような環境での発話に際して、音響ノイズがk[n]を誘発するのに十分に大きくなると、ビームフォーマー構成の迅速な変調により、発話反射経路が大幅に低減され得る。さらに、発話が存在しない場合、低DIビームフォーマーが完全に従事することで、マイクロホンアレイの電気的セルフノイズが大幅に低減され得る。これにより、背景ノイズが低いシナリオでは、より高い信号対ノイズ比となる印象が得られる。
【0075】
図10Aおよび図10Bに示す概念を拡張して、図10Cに示すように、複数の周波数帯域に亘って独自に実施する。図10Cのように、3つの周波数帯域が存在し得る。各周波数帯域において、固有の統計値が、k[n]およびα[n]を統制するように決定される。先の説明のように、VADが、高DIビームフォーマーから捕捉された信号に応じて動作し、各変動パラメータ推定ブロックの音響ノイズ推定内において各FIFOバッファのために機能する。
【0076】
図10Aおよび図10Bのフレームワークを複数の周波数帯域に拡張することにより、セルフノイズと指向性とのトレードオフが最適化され得る。これは、どれだけ多くの音響ノイズが複数の周波数帯域の各々において推定されるかに依存する。例えば、HVACシステムは、特定の他の車両のサブシステムの他に、非平坦なスペクトルコンテンツを有する音響ノイズを生成する。換言すれば、これらの音源により生成される音響ノイズは、限定された周波数帯域に集中し得る。実際に、周波数帯域を考慮していない図9の例の単純化されたバージョンは、複数の周波数帯域の各々の統計値についての追加情報について無知であるため、本例において最適でないかもしれない。しかしながら、各周波数帯域の統計値を考慮することにより、最適な周波数に依存したビームフォーマーの混合を設計することができる。
【0077】
これは、高DIビームフォーマーが特定の周波数区間において設計された場合に最適であることを考慮すると、さらに理解できる。高DIビームフォーマーは、高周波数および低周波数で同時に良好に機能し得ない。したがって、高周波数/高DIビームフォーマー用に設計された間隔の狭いマイクロホンカプセルからの出力信号と、より低い周波数に対応するように設計された間隔の広いマイクロホンカプセルからの出力信号とを混合することが必要であるかもしれない。
【0078】
したがって、ビームフォーミング機能を複数の周波数帯域に分割することが有利であり得る。これにより、設計の効率性が同様にビーム混合を各周波数帯域に組み込むことを示唆し、段階的なシステムが達成される。この周波数依存混合の結果、セルフノイズと指向性との最適なトレードオフが提供され得る。
【0079】
図10Cに戻ると、マイクロホン出力信号のサブセットを各周波数帯域に使用できることが理解され得る。一例として、間隔の狭いマイクロホン信号の一部が高周波数帯域に使用され得るとともに、徐々に間隔の広くなるマイクロホンが中周波数帯域および低周波数帯域にそれぞれ使用され得る。
【0080】
上述のように、本開示の方法は、車両のECUの文脈において実現され得る。したがって、図11は、実現され得る電子制御ユニット(ECU)1160の例示的な実施形態のハードウェア部品の概略図である。図11は、種々の部品の一般的な説明を提供するのみであり、それらの一部または全部が必要に応じて利用され得ることに留意されたい。いくつかの例において、図11に例示される部品は、単一の物理的デバイスにローカライズされ得ること、および/または、異なる物理的位置に配置され得る種々のネットワーク化されたデバイス間に分散配置され得ることに留意されたい。さらに、実施例において、ECU1160は、データ(すなわち音声信号)を処理するとともに、車内通信システムの動作を制御するように構成され得ることが理解され得る。別の実施形態において、ECU1160は、ECU1160とともにデータを処理して、車内通信システムの動作を制御するように構成された遠隔処理回路と通信するように構成され得る。遠隔処理回路は、車両のECU1160とは別個の集中型サーバまたは他の処理回路であり得る。ECU1160は、BUS1167を介して電気的に結合可能な(または、適宜通信可能な)ハードウェア要素を備え得ることが示されている。ハードウェア要素は、1つ以上のプロセッサ、1つ以上の特殊用途プロセッサ(デジタル信号処理(DSP)チップ、グラフィックアクセラレーションプロセッサ、特定用途向け集積回路(ASIC)等)、および/または他の処理構造または手段を含むがこれらに限定されない処理回路1161を含み得る。上述のプロセッサは、とりわけ画像処理及びデータ処理を含む動作を実施するように特別にプログラミングされ得る。いくつかの実施形態は、所望の機能に応じて別個のDSP1163を有し得る。本明細書で説明するプロセスは、DSP1163がない場合には、アナログ回路を介して実施され得ることも理解され得る。
【0081】
実施形態によれば、ECU1160は、車載タッチスクリーン、タッチパッド、マイクロホン、ボタン、ダイヤル、スイッチ、および/または同様のものを制御するがこれらに限定されない単数または複数の入力デバイスコントローラ1170を含み得る。実施形態において、1つ以上の入力デバイスコントローラ1170のうちの1つは、マイクロホンを制御するように構成され得るとともに、本開示のマイクロホンアレイの1つ以上のマイクロホンからの音声信号入力1168を受信するように構成され得る。したがって、ECU1160の処理回路1161は、受信した音声信号入力1168に応答して、本開示のプロセスのプロセスを実行し得る。
【0082】
実施形態において、マイクロホンアレイの各マイクロホンは、集中型デジタル信号プロセッサによりデジタル音声バスを介して制御され得る。一例において、各マイクロホンは、エレクトレットマイクロホン、MEMSマイクロホン、または他の同様のタイプのマイクロホンとすることができ、各マイクロホンの出力は、アナログまたはデジタルとすることができる。一例において、集中型デジタル信号プロセッサは音声装置の各々に配置された1つ以上の分散型ローカルデジタル信号プロセッサであり得る。一例において、デジタル音声バスは、受信した音声信号を送信するために使用され得る。したがって、デジタル音声バスは、アナログデバイセズ社のA2Bバス等のマイクロホンのデジタル音声信号の伝送を可能にするデジタル音声バスであり得る。
【0083】
実施形態によれば、ECU1160は、ディスプレイ、LED等の視覚インジケータ、スピーカ等を制御可能であるがこれらに限定されない1つ以上の出力デバイスコントローラ1162をも含み得る。例えば、1つ以上の出力デバイスコントローラ1162は、車両のスピーカの音声出力1175を制御するように構成され得る。これにより、音声出力1175のレベルが周囲の車両車室ノイズ、乗員の会話等に対して制御される。
【0084】
ECU1160は、モデム、ネットワークカード、赤外線通信デバイス、無線通信デバイス、および/またはチップセット(Bluetoothデバイス、IEEE 802.11デバイス、IEEE 802.16.4デバイス、WiFiデバイス、WiMaxデバイス、4G、5G等を含むセルラー通信設備等)等を含み得るがこれらに限定されない無線通信ハブ1164または接続ハブをも含み得る。無線通信ハブ1164により、部分的に説明したように、ネットワーク、無線アクセスポイント、他のコンピュータシステム、および/または本明細書で説明する任意の他の電子デバイスとデータを交換することが可能となり得る。通信は、無線信号1166を送信および/または受信する単数または複数の無線通信アンテナ1165を介して実施され得る。
【0085】
所望の機能に応じて、無線通信ハブ1164は、ベーストランシーバ局(例えば、セルラーネットワークの基地局)および/またはアクセスポイントと通信するための別個のトランシーバをも含み得る。これらの異なるデータネットワークは、様々なネットワークタイプを含み得る。さらに、ワイヤレス広域ネットワーク(WWAN)は、符号分割多重アクセス(CDMA)ネットワーク、時分割多重アクセス(TDMA)ネットワーク、周波数分割多重アクセス(FDMA)ネットワーク、直交周波数分割多重アクセス(OFDMA)ネットワーク、WiMax(IEEE 802.16)等であり得る。CDMAネットワークは、cdma2000、Wideband-CDMA(W-CDMA)等の1つ以上の無線アクセス技術(RAT)を実現し得る。cdma2000には、IS-95、IS-2000、および/またはIS-856規格が含まれる。TDMAネットワークは、GSM(Global System for Mobile Communications)、D-AMPS(Digital Advanced Mobile Phone System)、または他のRATを実現し得る。OFDMAネットワークは、4Gおよび5G技術を含むLTE、LTE Advanced等を採用し得る。
【0086】
ECU1160は、センサコントローラ1174をさらに含み得る。このようなコントローラは、とりわけ1つ以上の加速度計、ジャイロスコープ、カメラ、レーダー、LiDAR)、オドメトリックセンサ、および超音波センサ、ならびに磁力計、高度計、マイクロホン、近接センサ、光センサを含むがこれらに限定されない車両の1つ以上のセンサを制御し得る。一例において、1つ以上のセンサは、周囲車両車室ノイズを測定するように構成されたマイクロホンを含む。測定された周囲車両車室ノイズは、本開示の方法に組み込まれるように処理回路1161に提供される。
【0087】
ECU1160の実施形態は、衛星測位システム(SPS)受信機1171をも含み得る。SPS受信機1171は、SPSアンテナ1172を使用して1つ以上のSPS衛星から信号1173を受信することができる。SPS受信機1171は、種々の技術を利用して、全地球航法衛星システム(GNSS)(例えば、全地球測位システム(GPS))、欧州連合上のガリレオ、ロシア上の全地球航法衛星システム(GLONASS)、日本上の準天頂衛星システム(QZSS)、インド上のインド地域航法衛星システム(IRNSS)、中国上のCompass/BeiDou等のSPSシステムの衛星からデバイスの位置を抽出することができる。さらに、SPS受信機1171は、1つ以上の全地球航法衛星システムおよび/または地域航法衛星システムと関連付けられ、または他の方法で使用可能にされ得る様々な補強システム(例えば、衛星ベース補強システム(SBAS))により使用され得る。限定されない例として、SBASは、例えば、広域補強システム(WAAS)、欧州静止航法オーバレイサービス(EGNOS)、多機能衛星補強システム(MSAS)、GPS補助ジオ補強航法又はGPS及びジオ補強航法システム(GAGAN)等の完全性情報、差分補正等を提供する補強システムを含み得る。したがって、本明細書で使用される場合、SPSは、1つ以上のグローバルおよび/または地域ナビゲーション衛星システムおよび/または補強システムの任意の組み合わせを含むことができ、SPS信号は、SPS信号、SPSに類似する信号、および/またはそのような1つ以上のSPSに関連する他の信号を含み得る。
【0088】
ECU1160は、メモリ1269をさらに含み得る、および/またはこれと通信し得る。メモリ1169は、ローカルおよび/またはネットワークアクセス可能なストレージ、ディスクドライブ、ドライブアレイ、光学ストレージデバイス、プログラム可能、フラッシュ更新可能であるランダムアクセスメモリ(「RAM」)、および/またはリードオンリーメモリ(「ROM」)等のソリッドステートストレージデバイス等を含み得るが、これらに限定されない。このような記憶装置は、種々のファイルシステム、データベース構造等を含むがこれらに限定されない任意の適切なデータ記憶を実現するように構成され得る。
【0089】
ECU1160のメモリ1169は、オペレーティングシステム、デバイスドライバ、実行可能ライブラリ、および/または1つ以上のアプリケーションプログラム等のコンピュータ可読媒体に埋め込まれた他のコード、種々の実施形態により提供されるコンピュータプログラムを備え得る、および/または本明細書に記載のような他の実施形態により提供される方法および/または構成システムを実現するように設計され得る例えば1つ以上のアプリケーションプログラムを含むソフトウェア要素(図示せず)をも備え得る。一態様において、このようなコードおよび/または命令は、説明した方法に従って1つ以上の動作をする汎用コンピュータ(または他のデバイス)を構成および/または適合させるために使用することができ、これにより特殊用途コンピュータが得られる。
【0090】
当業者には、特定の要件に従って実質的な変形がなされ得ることが明らかであろう。例えば、カスタマイズされたハードウェアも使用され得る、および/または特定の要素がハードウェア、ソフトウェア(アプレット等のポータブルソフトウェアを含む)、またはその両方で実現され得る。さらに、ネットワーク入出力デバイス等の他の演算デバイスへの接続が採用され得る。
【0091】
添付図面を参照すると、メモリを含み得る部品は、非一時的な機械可読媒体を含み得る。本明細書で使用する「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械を特定の方法で動作させるデータの提供に関与する任意の記憶媒体を指す。上で提供した実施形態において、種々の機械可読媒体が、実行のための命令/コードを処理ユニットおよび/または他のデバイスに提供することに関与し得る。追加的または代替的に、機械可読媒体は、このような命令/コードを記憶および/または有するように使用され得る。多くの実施例において、コンピュータ可読媒体は、物理的および/または有形の記憶媒体である。このような媒体は、不揮発性媒体、揮発性媒体、および伝送媒体を含むがこれらに限定されない多くの形態をとり得る。コンピュータ可読媒体の一般的な形態としては、例えば、磁気媒体および/または光媒体、RAM、PROM、EPROM、FLASH-EPROM、他の任意のメモリチップまたはカートリッジ、以下に説明する搬送波、またはコンピュータが命令および/またはコードを読み取ることができる他の任意の媒体が挙げられる。
【0092】
本明細書で説明する方法、装置、およびデバイスは一例である。種々の実施形態では、種々の手順または部品を、適宜省略、代替、または追加することができる。例えば、特定の実施形態に関して説明した特徴は、他の様々な実施形態と組み合わせてもよい。実施形態の異なる態様および要素を同様に組み合わせてもよい。本明細書で提供される図面の種々の部品は、ハードウェアおよび/またはソフトウェアにおいて具現化され得る。また、技術は進化するため、要素の多くは、本開示の範囲をそれらの特定の例に限定しない例である。
【0093】
明らかに、上記の教示に照らして多数の修正および変形が可能である。したがって、添付の特許請求の範囲内において、本発明は、本明細書に具体的に記載した以外の方法で実施され得ることを理解されたい。
【0094】
また、本開示の実施形態は、以下の括弧書きの項目に記載され得る。
【0095】
(1)マイクロホンアレイの音声出力を変調するための方法であって、前記マイクロホンアレイにおける2つ以上のマイクロホンカプセルから2つ以上の音声信号を受信するステップであって、各音声信号は、対応するマイクロホンカプセルの電気的ノイズと前記マイクロホンカプセルにより感知された環境中の音響刺激に対する応答とを含む、受信ステップと、前記環境の音響寄与レベルを、受信した前記音声信号に基づいて推定する、推定ステップと、処理回路により、前記マイクロホンアレイの前記音声出力の構成を、前記環境の推定された前記音響寄与レベルに基づいて決定するステップであって、前記構成は、少なくとも音響ノイズと複数のビームフォーマーの各々の指向性指数との関係に基づく、決定ステップと、を備える方法。
【0096】
(2)前記構成は、前記マイクロホンアレイの合計ノイズを最小化することにより、前記マイクロホンアレイの信号対ノイズ比を最大化する、(1)に記載の方法。
【0097】
(3)前記推定ステップは、前記音響寄与レベルを、前記マイクロホンアレイの全方向性マイクロホンカプセルから受信した全方向性音声信号と、前記マイクロホンアレイにおける2つ以上の前記マイクロホンカプセルから受信した2つ以上の前記音声信号を指向性ビームフォーマーに従って処理することに基づくヌル発話信号とに基づいて推定し、前記指向性ビームフォーマーは、発話源に向けてヌルを生成して前記ヌル発話信号を生成する、(1)または(2)に記載の方法。
【0098】
(4)前記推定ステップは、前記音響寄与レベルを、全方向性マイクロホンカプセルから受信した全方向性音声信号と音声活動検出器から受信した音声信号とに基づいて推定する、(1)~(3)のいずれかに記載の方法。
【0099】
(5)前記構成は、複数の前記ビームフォーマーのうちの1つ以上の出力の少なくとも一部を含む、(1)~(4)のいずれかに記載の方法。
【0100】
(6)前記処理回路により、複数の前記ビームフォーマーのうちの前記1つ以上の前記出力を、受信した前記音声信号の周波数分布に応じてフィルタリングする、フィルタリングステップをさらに備える、(1)~(5)のいずれかに記載の方法。
【0101】
(7)前記構成は、複数の前記ビームフォーマーのうちの前記1つ以上のフィルタリングされた前記出力に基づく、(1)~(6)のいずれかに記載の方法。
【0102】
(8)複数の前記ビームフォーマーのうちの前記1つ以上の前記出力のフィルタリングステップは、指向性指数および電気的ノイズにより規定されるカットオフ周波数に基づくものであり、前記電気的ノイズは、個々のビームフォーマーのセルフノイズである、(1)~(7)のいずれかに記載の方法。
【0103】
(9)前記マイクロホンアレイは、第1マイクロホンと第2マイクロホンとの間の距離が前記第2マイクロホンと第3マイクロホンとの間の距離に等しく、前記第1マイクロホンと前記第3マイクロホンとの間の距離が前記第3マイクロホンと第4マイクロホンとの間の距離に等しくなるように配置された4つのマイクロホンを含むマイクロホンの線形アレイである、(1)~(8)のいずれかに記載の方法。
【0104】
(10)処理回路を備える、マイクロホンアレイの音声出力を変調するための装置であって、前記処理回路は、前記マイクロホンアレイにおける複数のマイクロホンカプセルのうちの2つ以上のマイクロホンカプセルから2つ以上の音声信号を受信するように構成され、各音声信号は、対応するマイクロホンカプセルの電気的ノイズと対応する前記マイクロホンカプセルにより感知された環境中の音響刺激に対する応答とを含み、前記処理回路は、前記環境の音響寄与レベルを、受信した音声信号に基づいて推定するように構成され、前記処理回路は、前記マイクロホンアレイの前記音声出力の構成を、前記環境の推定された前記音響寄与レベルに基づいて決定するように構成され、前記構成は、音響ノイズと複数のビームフォーマーの各々の指向性指数との関係に少なくとも基づく、装置。
【0105】
(11)前記構成は、前記マイクロホンアレイの合計ノイズを最小化することにより、前記マイクロホンアレイの信号対ノイズ比を最大化する、(11)に記載の装置。
【0106】
(12)前記処理回路は、前記音響寄与レベルを、前記マイクロホンアレイの全方向性マイクロホンカプセルから受信した全方向性音声信号と、前記マイクロホンアレイにおける2つ以上の前記マイクロホンカプセルから受信した2つ以上の前記音声信号を指向性ビームフォーマーに従って処理することに基づくヌル発話信号とに基づいて推定するように構成され、前記指向性ビームフォーマーは、発話源に向けてヌルを生成して前記ヌル発話信号を生成する、(10)または(11)に記載の装置。
【0107】
(13)前記処理回路は、前記音響寄与レベルを、全方向性マイクロホンカプセルから受信した全方向性音声信号と音声活動検出器から受信した音声信号とに基づいて推定するように構成される、(10)~(12)のいずれかに記載の装置。
【0108】
(14)前記構成は、複数の前記ビームフォーマーのうちの1つ以上の出力の少なくとも一部を含む、(10)~(13)のいずれかに記載の装置。
【0109】
(15)前記処理回路は、複数の前記ビームフォーマーのうちの前記1つ以上の前記出力を、受信した前記音声信号の周波数分布に応じて、指向性指数および電気的ノイズにより規定されるカットオフ周波数に基づいてフィルタリングするようにさらに構成され、前記電気的ノイズは、個々のビームフォーマーのセルフノイズである、(10)~(14)のいずれかに記載の装置。
【0110】
(16)前記構成は、複数の前記ビームフォーマーのうちの前記1つ以上のフィルタリングされた前記出力に基づく、(10)~(15)のいずれかに記載の装置。
【0111】
(17)前記処理回路は、複数の前記ビームフォーマーのうちの前記1つ以上の前記出力を指向性指数および電気的ノイズにより規定されるカットオフ周波数に基づいてフィルタリングするようにさらに構成され、前記電気的ノイズは、個々のビームフォーマーのセルフノイズである、(10)~(16)のいずれかに記載の装置。
【0112】
(18)前記マイクロホンアレイは、第1マイクロホンと第2マイクロホンとの間の距離が前記第2マイクロホンと第3マイクロホンとの間の距離に等しく、前記第1マイクロホンと前記第3マイクロホンとの間の距離が前記第3マイクロホンと第4マイクロホンとの間の距離に等しくなるように配置された4つのマイクロホンを含むマイクロホンの線形アレイである、(10)~(17)のいずれかに記載の装置。
【0113】
(19)コンピュータにより実行されると、マイクロホンアレイの音声出力を変調するための方法を前記コンピュータに実施させるコンピュータ可読命令を記憶した非一時的なコンピュータ可読記憶媒体であって、前記方法は、前記マイクロホンアレイにおける2つ以上のマイクロホンカプセルから2つ以上の音声信号を受信するステップであって、各音声信号は、対応するマイクロホンカプセルの電気的ノイズと前記マイクロホンカプセルにより感知された環境中の音響刺激に対する応答とを含む、受信ステップと、前記環境の音響寄与レベルを、受信した前記音声信号に基づいて推定する、推定ステップと、前記マイクロホンアレイの前記音声出力の構成を、前記環境の推定された前記音響寄与レベルに基づいて決定するステップであって、前記構成は、少なくとも音響ノイズと複数のビームフォーマーの各々の指向性指数との関係に基づく、決定ステップと、を備える非一時的なコンピュータ可読記憶媒体。
【0114】
(20)前記推定ステップは、前記音響寄与レベルを、前記マイクロホンアレイの全方向性マイクロホンカプセルから受信した全方向性音声信号と、前記マイクロホンアレイにおける2つ以上の前記マイクロホンカプセルから受信した2つ以上の前記音声信号を指向性ビームフォーマーに従って処理することに基づくヌル発話信号とに基づいて推定し、前記指向性ビームフォーマーは、発話源に向けてヌルを生成して前記ヌル発話信号を生成する、(19)に記載の非一時的なコンピュータ可読記憶媒体。
【0115】
したがって、上記説明は、本発明の単なる例示的な実施形態を開示し、説明するものである。当業者には理解されるように、本発明は、その精神または本質的な特徴から逸脱することなく、他の具体的な形態で具現化され得る。したがって、本発明の開示は、他の特許請求の範囲と同様に、例示であって本発明の範囲を限定するものではないことを意図している。本明細書における教示の容易に識別可能な変形を含む本開示は、発明的主題が公共に捧げられることがないように、前述の請求項の用語の範囲を部分的に定義する。
図1
図2A
図2B
図3
図4A
図4B
図5
図6
図7
図8A
図8B
図8C
図8D
図8E
図9
図10A
図10B
図10C
図11