(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-04
(45)【発行日】2024-06-12
(54)【発明の名称】システム及び方法
(51)【国際特許分類】
G10L 25/84 20130101AFI20240605BHJP
G10L 15/04 20130101ALI20240605BHJP
G10L 25/30 20130101ALI20240605BHJP
H04R 3/00 20060101ALI20240605BHJP
【FI】
G10L25/84
G10L15/04 300Z
G10L25/30
H04R3/00 320
【外国語出願】
(21)【出願番号】P 2019235490
(22)【出願日】2019-12-26
【審査請求日】2022-12-19
(32)【優先日】2019-01-07
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】502161508
【氏名又は名称】シナプティクス インコーポレイテッド
(74)【代理人】
【識別番号】100205350
【氏名又は名称】狩野 芳正
(74)【代理人】
【識別番号】100117617
【氏名又は名称】中尾 圭策
(72)【発明者】
【氏名】ネスタ フランチェスコ
(72)【発明者】
【氏名】マスナディ-シラジ アリレザ
【審査官】大野 弘
(56)【参考文献】
【文献】特開2017-090853(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/84
G10L 25/30
H04R 3/00
G10L 15/04
(57)【特許請求の範囲】
【請求項1】
マルチチャネルオーディオ入力信号のフレーム内の発話を検出し、前記フレームにおいて発話が検出されたか存在しないかを示す、対応する発話決定を出力するように構成された第1音声区間検出部と、
拘束付最小分散適応フィルタであって、前記マルチチャネルオーディオ入力信号と前記対応する発話決定とを受信し、非発話フレームについて前記拘束付最小分散適応フィルタの出力における信号分散を最小化する適応フィルタを推定し、これにより等化された対象発話信号を生成するように構成された拘束付最小分散適応フィルタと、
前記等化された対象発話信号と、前記マルチチャネルオーディオ入力信号と、前記発話決定とを受信し、前記マルチチャネルオーディオ入力信号におけるノイズ及び干渉発話から前記マルチチャネルオーディオ入力信号における対象発話を区別するスペクトル-時間マスクを生成するように構成されたマスク推定部と、
前記等化された対象発話信号に少なくとも部分的に基づいて前記マルチチャネルオーディオ入力信号の前記フレーム内の音声を検出するように構成されたフレームベースの空間音声区間検出部を備える第2音声区間検出部と、
を備えるシステム。
【請求項2】
複数のマイクロフォンを含むオーディオ入力センサアレイをさらに備え、各マイクロフォンが前記マルチチャネルオーディオ入力信号のチャネルを生成する請求項1に記載のシステム。
【請求項3】
前記チャネルのそれぞれを複数の周波数サブバンドに分割するように構成されたサブバンド解析モジュールをさらに備え、
前記拘束付最小分散適応フィルタと前記マスク推定部とが、受信された前記マルチチャネルオーディオ入力信号における前記複数の周波数サブバンドのそれぞれを処理するように構成された請求項2に記載のシステム。
【請求項4】
前記第1音声区間検出部は前記マルチチャネルオーディオ入力信号の前記フレーム内の前記発話
と非発話とを区別するようにトレーニングされたニューラルネットワークをさらに備える請求項1に記載のシステム。
【請求項5】
前記拘束付最小分散適応フィルタは、前記発話決定が前記フレーム内において発話の不存在を示すとき各周波数サブバンドの信号分散を最小化するように構成された請求項3に記載のシステム。
【請求項6】
前記拘束付最小分散適応フィルタは
、正規化最小平均二乗法を備える請求項1に記載のシステム。
【請求項7】
前記マスク推定部は、前記マルチチャネルオーディオ入力信号の選択されたチャネルの各サブバンドとフレームとについて前記マルチチャネルオーディオ入力信号と前記等化された対象発話信号とから基準特徴信号を生成するようにさらに構成された請求項2に記載のシステム。
【請求項8】
前記第2音声区間検出部は、前記マルチチャネルオーディオ入力信号と前記等化された対象発話信号とから生成された基準特徴に適用されるシングルチャネルのパワーに基づく音声区間検出部を含む請求項1に記載のシステム。
【請求項9】
前記システムはスピーカ、タブレット、モバイルフォン、および/または、ラップトップコンピュータを備える請求項1に記載のシステム。
【請求項10】
オーディオ信号プロセッサが、マルチチャネルオーディオ入力信号を受信することと、
前記オーディオ信号プロセッサが、第1音声区間検出部を用いて、前記マルチチャネルオーディオ入力信号のフレーム内の音声活性を検出して、前記第1音声区間検出部により、前記フレームにおい
て検出された発話又は前記フレームにおける発話の不存在を示す、対応する発話決定を生成することと、
前記オーディオ信号プロセッサが、非発話フレームについて拘束付最小分散適応フィルタの出力における信号分散を最小化する適応フィルタを推定することによって前記マルチチャネルオーディオ入力信号と前記対応する発話決定とに前記拘束付最小分散適応フィルタを適用し、これにより等化された対象発話信号を生成することと、
前記オーディオ信号プロセッサが、前記等化された対象発話信号と前記マルチチャネルオーディオ入力信号と前記発話決定とを用いてスペクトル-時間マスクを推定し、前記マルチチャネルオーディオ入力信号におけるノイズ及び干渉発話から前記マルチチャネルオーディオ入力信号における対象発話を区別することと、
前記オーディオ信号プロセッサが、フレームベースの音声区間検出部を備える第2音声区間検出部を用いて、前記等化された対象発話信号に少なくとも部分的に基づいて前記マルチチャネルオーディオ入力信号の前記フレーム内の音声活性を検出することと、
を含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書は、1以上の実施の形態に従い、全般的にオーディオ信号の検出と処理についてのシステムと方法とに関し、より詳細には、例えば音声区間検出(voice activity detection)システムと方法とに関する。
【背景技術】
【0002】
音声区間検出(Voice Activity Detection;VAD)は、音声認識システム、ノイズ低減システム、音源探査システムのような様々な音声通信システムに用いられている。多くの用途において、オーディオ信号は、ノイズの多い環境での音響活性を感知する1以上のマイクロフォンを介して受信される。感知されたオーディオ信号は、検出されるべき発話と、発話の明瞭度を低下させ、かつ/または、VAD性能を低下させるさまざまなノイズ信号(非対象発話を含む)とを含み得る。また、従来のVAD技術では、携帯電話、スマートスピーカ、ラップトップコンピュータなどの低電力、低コストのデバイスでのリアルタイム音声区間検出において、実用的でない比較的大きな処理またはメモリリソースが必要になる場合がある。上記に鑑みて、改善されたVADシステムと方法とが当技術分野において必要とされ続けている。
【発明の概要】
【0003】
雑音の多いオーディオ信号の中で対象者の声などの対象オーディオ信号を検出するための改善されたシステムと方法とが本明細書に開示される。1以上の実施の形態において、システムは、サブバンド解析モジュールと、入力音声区間検出部と、拘束付最小分散適用フィルタと、マスク推定部と、空間VADとを含む。
【0004】
本開示の範囲は、特許請求の範囲により定義され、特許請求の範囲は参照によりここに組み込まれる。以下の1以上の実施の形態の詳細な説明を考慮することで、その追加の利点の実現とともに、当業者は発明の実施の形態をより完全に理解できよう。最初に簡潔に記載された図面の添付シートを参照されよう。
【0005】
本開示の態様とそれらの利点は、以下の図面と後述の詳細な説明とを参照してよく理解することができる。類似の参照番号は1以上の図に示される類似の要素を識別するために使用され、その中の表示は、本開示の実施の形態を示すことを目的とし、その限定を目的とするものではないことは理解されよう。図面内のコンポーネントは必ずしも縮尺通りでなく、代わりに本開示の原理を明確に示すことに重点を置いている。
【図面の簡単な説明】
【0006】
【
図1】本開示の1以上の実施の形態において、適応空間音声区間検出システムの例示的なシステム構成を示す。
【0007】
【
図2】本開示の1以上の実施の形態において、適応空間音声区間検出システムのコンポーネントにより生成された例示的なオーディオ信号を示す。
【0008】
【
図3】本開示の1以上の実施の形態において、到来方位を含む例示的な対象発話処理を示す。
【0009】
【
図4】本開示の1以上の実施の形態における、適応空間音声検出の実装を含む例示的なシステムを示す。
【0010】
【
図5】本開示の1以上の実施の形態における、適応空間音声検出を実装した例示的なオーディオ信号処理システムを示す。
【0011】
【
図6】本開示の1以上の実施の形態における例示的な音声区間検出方法を示す。
【発明を実施するための形態】
【0012】
本明細書では、ノイズの多い環境で音声区間を検出するための改善されたシステムと方法とを開示する。
【0013】
最近の進歩にも関わらず、ノイズの多い状態での音声認識は未だ困難な課題である。マルチマイクロフォンの設定において、適応および非適応ビームフォーミング、独立成分分析または独立ベクトル分析に基づいたブラインド信号源分離、マルチチャネル非負値行列分解などのアルゴリズムを含む、いくつかのマルチチャネル音声強調アルゴリズムが提案されている。自動音声認識の分野における有望な方法の1つは、一般化固有値(GEV)ビームフォーマとも呼ばれる信号雑音比(SNR)最大化ビームフォーマであり、これは出力SNRを最大化するようにマルチチャネルフィルタを最適化することを目的とする。オンラインSN比最大ビームフォーマアルゴリズムを実装するために用いられる要素の1つは、ノイズと入力との共分分散行列の推定部である。推定は、一般に、音声区間検出によって、または、発話活性に相関するスペクトル‐時間マスクを予測するディープニューラルネットワーク(DNN)を通じて指示される。VAD(またはDNNマスク)には、ノイズを単独で観測する信頼性が高い信号の部分を識別し、ノイズ共分散行列を更新するという目標がある。入力ノイズ共分散行列を更新できるように、ノイズが対象の発話と重なる信号の部分を識別することも要求される。
【0014】
既存システムの欠点の1つは、VADとDNNマスク推定部が「非発話」ノイズから発話を区別するように設計されていることである。しかしながら、多くの現実世界のシナリオにおいて、ノイズ源(例えばテレビ、または、ラジオ)は、誤検出を発生させ、ついにはノイズ低減の全体性能を低下させるような発話部分を含んだ音も発し得る。本開示では、マルチチャネルVAD予測と、スペクトル‐時間マスクとを生成して、対象の発話とノイズ源により発せられる干渉発話とを区別する改善されたシステムと方法とが開示されている。例えば、干渉ノイズは、映画、ショー、またはオーディオコンテンツを含む他の番組を再生するテレビにより生成され得る。このシナリオにおけるノイズは、多くの場合、音楽やその他のオーディオ効果などの非発話音と発話との混合を含まれ得る。
【0015】
様々な実施の形態において、音声区間検出の方法は、対象発話方向を明示的に定義することなく出力分散の最小化を目的とする拘束付適応フィルタを推定することを含む。
このフィルタは、音が「発話」クラスに属しないと高い確信があるとき、トレーニングされる。この指示は、非発話音から発話を区別するようにトレーニングされたディープニューラルネットワークに基づく音声区間検出部を通じて取得され得る。このマルチチャネルフィルタの推定は、相対伝達関数(RTF)の推定に相当し得る。このフィルタ出力は、同じノイズ源により発せられた音について最小化されるため、ノイズ内に発話があるときも最小化され得る。したがって、対象発話と干渉発話との区別は可能である。いくつかの実施の形態において、この方法は、適応フィルタの出力においてパワーに基づくVADを実行することを含む。このフィルタの出力を、時間周波数ポイントを識別するサブバンドマスクを推測するためにも用いる場合があり、さらにノイズ低減方法を指示するために使用することができる。
【0016】
本明細書で開示される方法は、テレビのノイズはいくつかの発話を含む映画を再生して、‐10dB SNRの大音量のテレビでトリガーワードを発するスピーカなどの困難なノイズシナリオにおいて2チャネル音声強調(SSP)における観測にうまく適用されている。キーワード認識性能の改善により、平均ヒット率スコアが約30%(空間VADなし)から80%以上(空間VADあり)への変化が測定された。さらに、本明細書で開示される方法は、到来方位(DOA)推定の観測にうまく使用され、高い非定常ノイズを有する‐10dB SNR状況での対象スピーカの位置追跡を可能にしている。
【0017】
ここで、他の解決策に比較した技術的な違いと利点とを説明する。既存のシングルチャネルに基づいた方法は、入力フレームが発話を含むか、非発話ノイズのみを含むかの予測を生成するために、オーディオ信号内の音自体の性質に依存する。これらの方法は、対象発話と干渉発話とが同じサウンドクラスに属するため、対象発話と干渉発話とを区別できない。検出された任意の発話は、音声コマンドを提供する対象ユーザからであろうと干渉発話であろうと、これらのシステムでは発話としてクラス分けされ得る。
【0018】
既存のマルチチャネルに基づく方法は、従来、対象スピーカの位置の強い幾何学的仮定に基づいている。例えば、対象スピーカが、(i)1つのマイクロフォンの近くに、(ii)予め決められた空間領域にあり、および/または、(iii)よりコヒーレントな発話を生成すると仮定され得る。これらの仮定は、360度の遠距離音声制御や、コヒーレントなノイズ(例えばテレビやラジオからの発話)のある環境に置かれ得るスマートスピーカーアプリケーションなどの多くの用途では実用的でない。
【0019】
既存の音声区間検出と対照的に本明細書で開示されるシステムと方法とは、サウンドの性質と、3D空間での固有の空間フィンガープリント(unique spatial fingerprint)を活用して、高い発話/ノイズの区別を行う。加えて、本開示のシステムと方法とは、幾何学またはスピーカの位置に関する事前の仮定を必要とせず、既存のシステムよりも遠距離の用途に対して高い柔軟性を有する。様々な実施の形態において、教師付き適応空間音声区間検出部は、使用され、ノイズ源から発せられる発話音により引き起こされる誤検知の除去に特に適用される。
【0020】
ここで、
図1を参照して、様々な実施形態における例示的なシステム100を説明する。システム100は、サブバンド解析モジュール120を通じて処理されたマルチチャネルオーディオ入力信号110を受信する。いくつかの実施形態では、マルチチャネルオーディオ入力信号110は、複数のオーディオセンサ(例えばマイクロフォンアレイ)とオーディオ入力処理回路とを含むオーディオ入力コンポーネントから生成される。マルチチャネルオーディオ入力信号110は、フレームlのストリームに分割された複数のオーディオチャネルMを含む。サブバンド解析モジュール120は、オーディオチャネルの周波数スペクトルを複数の周波数サブバンドX
i(k、l)に(例えばフーリエ変換処理を使用して)分割する。さらに、システム100は、入力音声区間検出(VAD)130と、拘束付最小分散適応フィルタ140と、時間周波数(TF)マスク推定部152と、空間音声区間検出VAD154とを含む。
【0021】
入力VAD130は、サブバンド解析モジュール120の出力Xi(k,l)を受信して、ノイズのような非発話が単独で(例えば発話なしで)検出される瞬間(例えばオーディオフレーム)を識別する。いくつかの実施形態において、入力VAD130は、発話活性の誤棄却よりも誤検出を発生させるように調整される。言い換えると、入力VAD130の目的は、発話が存在しないという決定が高い信頼度でなされるフレームを識別することである。様々な実施の形態において、入力VAD130は、パワーに基づく発話検出技術を含んでもよく、この技術は、発話と非発話とを区別するようにトレーニングされたディープニューラルネットワーク、サポートベクターマシン、および/または、ガウス混合モデルのような機械学習データに基づいた分類部を含み得る。ある実施の形態では、入力VAD130は、同時出願継続中の出願番号15/832,709、名称「VOICE ACTIVITY DETECTION SYSTEMS AND METHODS」で提案された方法の実施の形態を実装されてもよく、そのすべてを参照によりここに取り込む。
【0022】
入力VAD130は、観測されたフレームlに対する入力VAD130の状態を定義する変数v(l)を出力する。ある実施の形態において、観測されたフレームに発話が含まれると決定されたことが「1」に等しい値で示され、観測されたフレームにおいて発話の不存在が「0」に等しい値で示される。他の実施の形態において、入力VAD130は、時間に基づく音声区間決定(voice activity determinations)を行うように作動できる他の従来のVADシステムと方法とを含んでもよく、このシステムと方法とは1以上のチャネル、サブバンド、および/または、マルチチャネル信号のフレームに基づいて音声区別決定の解析と実施とを行うVADを含む。
【0023】
拘束付最小分散適応フィルタ140は、マルチチャネルサブバンド信号X
i(k,l)と発話決定v(l)を受信し、出力するときの信号の分散を最小化する適応フィルタの推定を実施できる。本明細書において、周波数領域の実装を簡略化と有効化とのために開示するが、本開示はこのアプローチに限定されない。図示された実施の形態において、各チャネルiについて、本実施の形態の時間領域信号x
i(t)は、サブバンド解析モジュール120によりアンダーサンプリングされた時間周波数領域の表現に変換される。これは、サブバンド解析または短時間フーリエ変換を適用することで得ることができる。
【数1】
ここで、Mは入力チャネルの数(M>1)を表す。サブバンドkについて、フィルタの出力は次のように定義される。
【数2】
ここで、G(k)は、ノイズ源がアクティブのときのみに(例えばv(l)が発話を検知していないことを示すときに)、出力変数E[|Y(k)|
2]を最小化するように最適化される。
【数3】
ここで、|G
H(k)e
1|=1、e1=[1,・・・,0]
Tで拘束され、これは、いくつかの実施の形態において、
【数4】
がすべてゼロのベクトルになることを回避するために使用される。最適化のための閉形式の解は次のようになる。
【数5】
ここで、R
n(k)は算出されたノイズの共分散であり、次のようになる。
【数6】
【0024】
オンライン実装において、共分散行列は、フレームlで更新され、一次再帰的平滑化(first-order recursive smoothing)で次のように推定され得る。
【数7】
ここで、α(l)=max(α,v(l))であり、α(<1)は平滑化定数である。
【0025】
いくつかの実施の形態において、フィルタG(k)を推定する他の方法は、適応について一切の拘束を課すことなく、次の拘束付フィルタ構造を課して、
【数8】
次式により最適化する。
【数9】
この最適化問題に適応する解は、次のように定式化できる正規化最小平均二乗法(NLMS)を使用して取得できる。
【数10】
ここで、μは適応ステップサイズであり、Z(k,l)=[X
2(k,l),・・・,X
M(k,l)]
Tとβ|Y(k,l)|
2(β>1)とは学習を安定させ数値の発散を避けるために追加される。
【0026】
拘束付最小分散適応フィルタ|Y(k,l)|2の出力変数は、ノイズ源により発せられた音を含むフレームについて最小化される。フィルタの減衰は、音の性質に関係せず、空間共分散行列にのみに依存するため、干渉発話を含むノイズ部分に対する出力も小さくなり得る。一方、空間内の異なる点から発せられた音は、異なる空間共分散行列を持ち得るため、ノイズ源ほど減衰しない。NLMS公式に従って、M=2および1つのコヒーレンスノイズ源の場合、推定されるフィルタGi(k)(i>2)は、第1マイクロフォンと第iマイクロフォンとの間の相対伝達関数とみなすことができる。
【0027】
共分散Rn(k)のノイズは出力Y(k,l)で減衰され、開示される実施の形態において、この信号は対象発話の強調バージョンとして直接使用されない。様々な実施の形態において、対象スピーカ方向やそのRTFが事前に知られていないため、最小分散無歪応答(MVDR)ビームフォーマで通常行われているような「無歪み」の拘束は課されない。したがって、図示された実施の形態において、Y(k,l)は、対象発話の空間共分散とノイズの空間共分散との類似性に依存するスペクトル歪みを有する対象発話の等化バージョンを含み得る。出力Y(k,l)におけるSNR改善は、明示的に対象発話分散の推定に対処することなく、TFマスク推定部152を通じて発話関連TF活性マスクの推定を可能にするため十分大きい。
【0028】
最初に、各サブバンドkについて、次のように|X
1(k,l)|と|Y(k,l)|から基準特徴信号が算出される。
【数11】
様々な実施の形態において、F(k,l)についての可能な定式化は次のようにできる。
【数12】
これは、実際には、フィルタの振幅伝達関数(magnitude transfer function)により重みづけされた出力振幅である。ただし、他の公式化も可能である。
【0029】
各サブバンドkについて、対象発話の活性は、信号F(k,l)のパワーレベルを追跡し、非定常信号部分を検出することで、決定され得る。そこで、シングルチャネルのパワーに基づくVADを、各信号F(k,l)に適用してマスクを生成できる。
【数13】
この実施の形態において、例示的なサブバンドVADが示されているが、多くの他のアルゴリズムを利用可能であり、本開示がこの定式化に限定されるとみなされるべきでない。
【0030】
各サブバンドkについて、ノイズフロアは、次のようなデュアルレート平滑化により推定され得る。
【数14】
ここで、r
up>>r
downとなる平滑化定数である。
【0031】
次に対象発話マスクは、次のように算出される。
【数15】
ここで、SNR_thresholdは、調整可能なパラメータである。図示された実施の形態において、適応フィルタはノイズフロアの下でノイズ出力分散を減少できると仮定され、かくして安定的なノイズ残差が生成される。これは、ノイズがコヒーレントであり、かつ、サブバンドのシングル表現が正確に音響反射をモデル化するのに十分高い解像度を有している場合に可能である。他の実施の形態において、この仮定は緩和され、Ying,Dongwenなどによる「Voice activity detection based on an unsupervised learning framework」 IEEE Transactions on Audio,Speech and Language Processing 19.8(2011):2624‐2633に記載されたような、相対パワーレベルの分布の追跡に基づく方法が採用される。この文献を参照によりここに取り込む。
【0032】
フレームに基づく空間VADは、特徴信号F(k,l)(例えばTFマスク推定部152から)をシングル信号F(l)に統合することで算出され得る。
【数16】
ここで、Kは周波数のサブセットであり、F(l)にシングルチャネルVAD判断基準を適用して、バイナリフレームに基づく決定V(l)を得る。いくつかの実施の形態においてV(k,l)も次のように各サブバンドに直接適用できる。
【数17】
他の実施の形態において、全信号F(k,l)は予想V(l)を生成するために使用される場合があり、例えばF(k,l)から抽出されたハードエンジニアリング機能を使用するか、または、データに基づく最尤法(例えばディープニューラルネットワーク、ガウス混合モデル、サポートベクターマシンなど)を使用する。
【0033】
ここで、
図2を参照して、本開示の1以上の実施形態において、適応空間音声区間検出システムのコンポーネントにより生成される例示的なオーディオ信号200を説明する。動作中、マルチチャネルオーディオ信号は複数の入力センサを介して受信される。入力オーディオ信号210の第1チャネルは、図示され、対象発話とノイズ(非対象発話と非発話ノイズとの両方)とを含み得る。入力音声区間検出部(例えば入力VAD130)は、発話が存在しない尤度が高いフレームを検出し、例えば、信号220に図示されるように、非発話フレームに対して「0」を、発話フレームに対して「1」を出力する。次に、オーディオ処理は、非対象発話活性から対象発話活性を検出して、信号230に図示されるように、対象発話のない場合「0」の指標を、対象発話を検出した場合「1」の指標を出力するように行われる。いくつかの実施の形態において、オーディオ信号は、本明細書で前述したような空間VADにより非対称発話として認識され得る大音量の非定常ノイズ源(例えばテレビ信号)を含んでもよい。次に、入力オーディオ信号210は、強調された対象発話信号240を生成するように空間VAD(例えば信号230)からの検出情報を用いて処理される。
【0034】
図3は、本開示の1以上の実施の形態において、到来方位処理を含む例示的な対象発話処理を示す。チャート300は、ニューラルネットワークに基づく音声区間検出を使用する各フレームにおける発話源についての例示的な推定された到来方位を示す。発話の到来方位は、チャート310に図示され、対象発話(例えば音声コマンドを発する人)とノイズ源により生成される他の発話(例えばテレビから検出される発話)との両方を示す。VADは、チャート320に示されるように対応する音声区間決定を出力し、例えば、対象発話および/またはテレビにより生成される発話を含むすべての時間フレームにおいて検出された発話を示す。下部のチャート350は、大音量ノイズ(例えばテレビノイズ)が存在するときの対象発話の到来方位(DOA)推定のタスクに空間音声区間検出部を適用した例を示す。この場合、チャート360における対象発話は、非対称発話(例えばテレビノイズ)が無視されて検出され、例えばチャート370に示すように、改善された音声区間検出を提供する。
【0035】
図4は、本開示の様々な実施の形態による空間音声区間検出を含むオーディオ処理デバイス400を示す。オーディオ処理デバイス400は、オーディオセンサアレイ405と、オーディオ信号処理装置420と、ホストシステムコンポーネント450についての入力を含む。
【0036】
オーディオセンサアレイ405は、1以上のセンサを備え、センサの各々は音波をオーディオ信号に変換し得る。図示された環境において、オーディオセンサアレイ405は複数のマイクロフォン405a~405nを備え、各々がマルチチャネルオーディオ信号の1つのオーディオチャネルを生成する。
【0037】
オーディオ信号プロセッサ420は、オーディオ入力回路部422と、デジタル信号プロセッサ424と、オプションのオーディオ出力回路部426とを含む。様々な実施の形態において、オーディオ信号プロセッサ420は、アナログ回路を備える集積回路と、デジタル回路部と、ファームウェアに記録されたプログラム指示を実行するように動作できるデジタル信号プロセッサ424として実装されてもよい。オーディオ入力回路部422は、例えば、オーディオセンサアレイ405と、アンチエイリアシングフィルタと、アナログ‐デジタル変換回路部と、エコーキャンセル回路部と、他のオーディオ処理回路部と、ここで開示されたような部品とのインタフェースを含んでもよい。デジタル信号プロセッサ424は、マルチチャネルデジタルオーディオ信号を処理して、強調されたオーディオ信号を生成して、オーディオ信号を1以上のホストシステムコンポーネント450に出力するように作動できる。様々な実施の形態において、マルチチャネルオーディオ信号は、ノイズ信号と少なくとも1つの所望の対象オーディオ信号(例えば人の発話)との混合を含み、デジタル信号プロセッサ424は、不要のノイズ信号を減少させつつ、所望の対象信号を隔離または強調するように作動できる。デジタル信号プロセッサ424は、エコーキャンセルと、ノイズキャンセルと、対象信号の強調と、ポストフィルタリングと、他のオーディオ信号処理機能とを実行できるように作動できてもよい。デジタル信号プロセッサ424は、
図1~3、5~6において本明細書で開示されたシステムと方法との1以上の実施の形態を実装するように作動可能な、適応空間対象活性検出部(adaptive spatial target activity detector)と、マスク推定モジュール430とをさらに含んでもよい。
【0038】
デジタル信号プロセッサ424は、プロセッサ、マイクロプロセッサ、シングルコアプロセッサ、マルチコアプロセッサ、マイクロコントローラ、プログラマブルロジックデバイス(Programmable Logic Device;PLD)(例えばFPGA(Field Programmable Gate Array))、デジタルシグナルプロセッサ(Digital Signa Processing;DSP)デバイス、または他の論理デバイスを1以上備えてもよく、これらは、ハードウェア、ソフトウェア命令の実行、または、それらの組み合わせにより、本開示の実施の形態について本明細書で説明された様々な動作を実行するように構成されてもよい。デジタル信号プロセッサ424は、バスまたは他の電気通信インタフェースなどを通じて、ホストシステムコンポーネント450とインタフェースで接続し、通信するように作動できる。
【0039】
オプションのオーディオ出力回路部426は、デジタル信号プロセッサ424から受信されたオーディオ信号をスピーカ410aと410bのような少なくとも1つのスピーカに出力するように処理する。様々な実施の形態において、オーディオ出力回路部426は、1以上のデジタルオーディオ信号を対応するアナログ信号に変換するデジタル-アナログ変換部と、スピーカ410a~410bを駆動する1以上のアンプを含んでもよい。
【0040】
オーディオ処理デバイス400は、対象オーディオデータを受信し検出することができる任意のデバイス、例えばモバイルフォン、スマートスピーカ、タブレット、ラップトップパソコン、デスクトップパソコン、ボイスコントローラアプライアンス、自動車などに実装されてもよい。ホストシステムコンポーネント450は、オーディオ処理デバイス400を作動するための様々なハードウェアコンポーネントとソフトウェアコンポーネントとを備えてもよい。図示された実施の形態において、システムコンポーネント450は、プロセッサ452と、ユーザインタフェースコンポーネント454と、ネットワーク480(例えばインターネット、クラウド、ローカルエリアネットワーク、またはセルラーネットワーク)とモバイルデバイス484のような外部デバイスとネットワークと通信するための通信インタフェース456と、メモリ458とを含む。
【0041】
プロセッサ452は、プロセッサ、マイクロプロセッサ、シングルコアプロセッサ、マルチコアプロセッサ、マイクロコントローラ、プログラマブルロジックデバイス(PLD)(例えばFPGA(Field Programmable Gate Array))、デジタルシグナルプロセッサ(DSP)デバイス、または他の論理デバイスを1以上備えてもよく、これらは、ハードウェア、ソフトウェア命令の実行、またはそれらの組み合わせにより、本開示の実施の形態について本明細書で開示された様々な動作を実行するように構成されてもよい。ホストシステムコンポーネント450は、オーディオ信号プロセッサ420と、バスまたは他の電気通信インタフェースなどを通じて、他のシステムコンポーネント450とインタフェースで接続し、通信するように作動できる。
【0042】
オーディオ信号プロセッサ420とホストシステムコンポーネント450とは、いくつかの実施の形態において、ハードウェアコンポーネント、回路部、ソフトウェアの組み合わせを統合するように示されているにもかかわらず、ハードウェアコンポーネントと回路部とが実行するように作動できる少なくとも一部またはすべての機能性が、メモリ458またはデジタル信号プロセッサ424のファームウェアに格納されたソフトウェア命令および/または構成データに応じて、プロセッサ452および/またはデジタル信号プロセッサ424により実行されるソフトウェアモジュールとして、実装され得ることを理解できよう。
【0043】
メモリ458は、オーディオデータとプログラム命令とを含むデータと情報とを格納するように作動可能な1以上のメモリデバイスとして実装されてもよい。メモリ458は、RAM(Random Access Memory)、ROM(Read-Only Memory)、EEPROM(Electrically-Erasable Read-Only Memory)、フラッシュメモリ、ハードディスクドライブ、および/または他のタイプのメモリのような1以上の様々なタイプを備えてもよい。
【0044】
プロセッサ452はメモリ458に格納されたソフトウェア命令を実行するように作動できてもよい。様々な実施の形態において、音声認識エンジン460は、音声コマンドの認識と実行とを含み、オーディオ信号プロセッサ420から受信された強調されたオーディオ信号を処理するように作動できる。音声通信コンポーネント462は、モバイルネットワークまたはセルラー電話ネットワークを経由した通話、またはIP(Internet protocol)ネットワークを経由したVoIP通話などを通じて、モバイルデバイス484またはユーザデバイス486のような1以上の外部デバイスとの音声通信を容易するように作動できてもよい。様々な実施の形態において、音声通信は、外部通信デバイスへの強調されたオーディオ信号の送信を含む。
【0045】
ユーザインタフェースコンポーネント454は、ユーザがオーディオ処理デバイス400と直接情報を交換できるように作動可能なディスプレイ、タッチディスプレイ、キーボード、1以上のボタン、および/または、他の入力/出力コンポーネントを含んでもよい。
【0046】
通信インタフェース456は、オーディオ処理デバイス400と外部デバイスとの通信を容易にする。例えば、通信インタフェース456は、オーディオ処理デバイス400と、ネットワーク480などを通じてリモートサーバ482へのネットワークアクセスを提供するワイヤレスルータ、またはモバイルデバイス484などの1以上のローカルデバイスとのWi-Fi(例えば、802.11)またはブルートゥース(登録商標)接続を可能にし得る。様々な実施の形態において、通信インタフェース456は、オーディオ処理デバイス400と1以上の他のデバイスとの間の直接または間接通信を容易にする他の有線と無線との通信コンポーネントを含んでもよい。
【0047】
図5は、本開示の様々な実施形態におけるオーディオ信号プロセッサ500を示す。いくつかの実施の形態において、オーディオ信号プロセッサ500は、
図4のデジタル信号プロセッサ424のようなデジタル信号プロセッサによって実装されるアナログ回路とデジタル回路とファームウェア論理とを含む1以上の集積回路として具現化される。図示されるように、オーディオ信号プロセッサ500は、オーディオ入力回路部515と、サブバンド周波数解析部520と、適応空間対象活性検出部およびマスク推定モジュール530と、合成部535と含む。
【0048】
オーディオ信号プロセッサ500は、少なくとも1つのオーディオセンサ505a~nを備えるセンサアレイ505のような複数のオーディオセンサからマルチチャネル入力を受信する。オーディオセンサ505a~505nは、
図4のオーディオ処理デバイス400またはこれに接続された外部コンポーネントのようなオーディオ処理デバイスと一体化されたマイクロフォンを含んでもよい。
【0049】
オーディオ信号はオーディオ入力回路部515により最初に処理されてもよく、オーディオ入力回路部515はアンチアイリアシングフィルタ、アナログ‐デジタル変換部、および/または、オーディオ入力回路部を含んでもよい。様々な実施の形態において、オーディオ入力回路部515はMチャネルを有するデジタルのマルチチャネルの時間領域オーディオ信号を出力し、ここでMはセンサ(例えばマイクロフォン)入力の数である。マルチチャネルオーディオ信号はサブバンド周波数解析部520に入力され、サブバンド周波数解析部520は、マルチオーディオ信号を連続するフレームに分割し、各チャネルの各フレームを複数の周波数サブバンドに分解する。様々な実施の形態において、サブバンド周波数解析部520はフーリエ変換処理を含む。次に、分解されたオーディオ信号は、適応空間対象活性検出部およびマスク推定モジュール530に提供される。
【0050】
適応空間対象活性検出部およびマスク推定モジュール530は、1以上のオーディオチャネルのフレームを解析し、対象オーディオが現在のフレームに存在するかを示す信号を生成するように作動できる。本明細書で記載したように、対象オーディオは人の発話(例えば音声コマンドによる処理)でよく、適応空間対象活性検出部およびマスク推定モジュール530は非対象発話を含むノイズの多い環境で発話を検出し、さらなる処理、例えばホストシステムによる処理において強調された対象オーディオ信号を生成するように作動してもよい。いくつかの実施の形態において、強調された対象オーディオ信号は、1以上のチャネルのサブバンドを組み合わせることで各フレームを基準に再構成され、ホストシステム、他のシステムコンポーネント、または、音声コマンド処理のようなさらなる処理のための外部デバイスに送信される強調された時間領域オーディオ信号を形成する。
【0051】
ここで、
図6を参照して、本明細書で開示されたシステムを用いて対象音声活性を検出する方法600の実施の形態を説明する。ステップ610において、システムはマルチチャネルオーディオ信号を受信し、マルチチャネルオーディオ信号を複数のサブバンドに分解する。マルチチャネル入力信号は、例えば、対応する複数のオーディオセンサ(例えばマイクロフォンアレイ)により生成されてもよく、オーディオセンサはオーディオ入力回路部を通じて処理されるセンサ信号を生成する。いくつかの実施の形態において、各チャネルは複数の周波数サブバンドに分解される。ステップ620において、マルチチャネルオーディオ信号はフレームごとに解析され、音声活性を検出し、発話の検出または発話の不存在を示す各フレームにおける発話決定を生成する。ステップ630において、マルチチャネルオーディオ信号と対応する発話決定とを入力として用いて、拘束付最小分散適応フィルタが推定される。様々な実施の形態では、ステップ640において、最小分散適応フィルタは、出力において信号分散を最小化するための適応フィルタを推定し、等化された対象発話信号を生成する。ステップ650において、マルチチャネルオーディオ信号と等化された対象発話信号とのチャネルから特徴信号とノイズフロアとが算出される。ステップ660において、特徴信号とノイズフロアとを用いて、対象発話マスクが算出される。
【0052】
適用可能な場合、本開示により提供される様々な実施の形態は、ハードウェア、ソフトウェア、または、ハードウェアとソフトウェアとの組み合わせを用いて実装されてもよい。また、適用可能な場合、本明細書で説明した様々なハードウェアコンポーネント、および/または、ソフトウェアコンポーネントは、本開示の趣旨から逸脱することなくソフトウェア、ハードウェア、および/または、両方を備える複合コンポーネントに組み合わされてもよい。適用可能な場合、本明細書で説明した様々なハードウェアコンポーネント、および/または、ソフトウェアコンポーネントは、本開示の範囲を逸脱することなく、ソフトウェア、ハードウェア、または、両方を備えるサブコンポーネントに分けられてもよい。加えて、適用可能な場合、ソフトウェアコンポーネントはハードウェアコンポーネントとして実装されてもよく、その逆でもよいことは予期される。
【0053】
プログラムコードおよび/またはデータのような本開示によるソフトウェアは1以上の計算機の読み取り可能な媒体に格納されてもよい。また、本明細書で特定されるソフトウェアは1以上の一般用途または特定用途のコンピュータおよび/またはコンピュータシステム、ネットワーク化されたシステム、および/またはその他のシステムを用いて実装されてもよいことが予期される。適用可能な場合、本開示で説明された様々なステップの順番は変更され、複合ステップに組み合わされ、および/または、サブステップに分割されて、本明細書で説明された特徴を提供してもよい。
【0054】
前述の開示において、開示された厳密な形態または特定の使用分野に本開示を限定する意図はない。したがって、本開示に対する様々な他の実施の形態、および/または、変形が予期される。このように本開示の実施の形態を説明したが、本開示の範囲を逸脱することなく、形態および詳細に変更され得ることを当業者は認識されよう。よって、本開示は、特許請求の範囲のみに限定される。