(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-21
(45)【発行日】2024-01-04
(54)【発明の名称】システム、及び、方法
(51)【国際特許分類】
G10L 15/10 20060101AFI20231222BHJP
G10L 15/20 20060101ALI20231222BHJP
G10L 21/0272 20130101ALI20231222BHJP
【FI】
G10L15/10 200W
G10L15/20 380
G10L15/20 370E
G10L21/0272 100Z
【外国語出願】
(21)【出願番号】P 2019220476
(22)【出願日】2019-12-05
【審査請求日】2022-11-30
(32)【優先日】2018-12-06
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】502161508
【氏名又は名称】シナプティクス インコーポレイテッド
(74)【代理人】
【識別番号】100205350
【氏名又は名称】狩野 芳正
(74)【代理人】
【識別番号】100117617
【氏名又は名称】中尾 圭策
(72)【発明者】
【氏名】ネスタ フランチェスコ
(72)【発明者】
【氏名】カスカリ サイード モサイエブプール
【審査官】大石 剛
(56)【参考文献】
【文献】特開2011-248025(JP,A)
【文献】特表2016-517023(JP,A)
【文献】特表2016-524193(JP,A)
【文献】米国特許第09734822(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/10
G10L 15/20
G10L 21/0272
(57)【特許請求の範囲】
【請求項1】
マルチチャンネルオーディオ入力信号を分析し、複数の強調ターゲットストリームを生成するように作動可能なターゲット発話強調エンジンと、
前記ストリームの中の特定のターゲット発話の品質、及び/又は、存在の信頼性を決定するようにそれぞれが作動可能な複数のターゲット発話検出エンジンを備えるマルチストリームターゲット発話検出生成部であり、前記複数の強調ターゲットストリームに関する複数の重みを決定するように作動可能なマルチストリームターゲット発話検出生成部と、
前記複数の重みを前記強調ターゲットストリームに適用して、組合せ強調出力信号を生成するように作動可能な融合サブシステムと、
を備えるシステム。
【請求項2】
人間の発話と環境ノイズとを感知し、対応する前記マルチチャンネルオーディオ入力信号を生成するように作動可能なオーディオセンサアレーを更に備える、
請求項1に記載のシステム。
【請求項3】
前記ターゲット発話強調エンジンが、前記マルチチャンネルオーディオ入力信号を分析し、前記複数の強調ターゲットストリームの一つを出力するようにそれぞれが作動可能な複数の発話強調モジュールを備える、
請求項1に記載のシステム。
【請求項4】
前記複数の発話強調モジュールが、適応空間フィルタリングアルゴリズム、ビームフォーミングアルゴリズム、ブラインド音源分離アルゴリズム、シングルチャンネル強調アルゴリズム、及び/又は、ニューラルネットワーク、を備える、
請求項3に記載のシステム。
【請求項5】
前記ターゲット発話検出エンジンが、混合ガウスモデル、隠れマルコフモデル、及び/又は、ニューラルワーク、を備える、
請求項1に記載のシステム。
【請求項6】
各ターゲット発話検出エンジンが、入力オーディオストリームが前記特定のターゲット発話を含んでいる信頼性に相関する事後重みを作るように作動可能な、
請求項1に記載のシステム。
【請求項7】
各ターゲット発話検出エンジンが、クリーンな発話に対してはより高い事後を作るように作動可能な、
請求項6のシステム。
【請求項8】
前記強調出力信号が、前記強調ターゲットストリームの重み付き和である、
請求項1のシステム。
【請求項9】
前記マルチストリームターゲット発話検出生成部が、前記ストリームの中に特定のターゲット発話が検出される組合せ確率を決定するように更に作動可能であり、前記組合せ確率が検出閾値を超えている場合に前記ターゲット発話が検出される、
請求項1のシステム。
【請求項10】
ターゲット発話強調エンジンを用いて、マルチチャンネルオーディオ入力信号を解析し、複数の強調ターゲットストリームを生成し、
マルチストリームターゲット発話検出生成部を用いて前記ストリームにターゲット発話を検出する確率を決定し、
前記複数の強調ターゲットストリームのそれぞれについて重みを計算し、
計算した前記重みを前記複数の強調ターゲットストリームに適用して、強調出力信号を生成する、
方法。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2018年12月6日に出願され、MULTI-STREAM TARGET-SPEECH DETECTION AND CHANNEL FUSIONと題する米国特許仮出願第62/776,422号からの優先権を主張する。この出願全体が参照により本願に組み込まれる。
【0002】
本願は、1以上の実施形態において、一般にはオーディオ処理を行うシステム及び方法に関する。より詳しくは、例えば、キーワード検出のために1以上のオーディオターゲットを検出、追跡、及び/又は、強調することに関する。
【背景技術】
【0003】
音声対話に基づくヒューマンコンピューターインターフェース(HCI,human-computer interfaces)は、スマートフォンや音声制御式のデバイス、音声対話を含む他のデバイスの発展に伴い、近年非常に普及し始めている。音声起動式システムでは、対話は一般に2つのステージで取得される:(i)特定の起動キーワードを発言することで起動する、そして(ii)システムに処理させるための具体的な質問や音声コマンドを発言する。最初の段階は、ノイズを多く含むオーディオ信号の中に埋もれた特定のワードを認識するように、一般的に自動キーワードスポッティング(KWS,automatic keyword spotting)アルゴリズムで処理される。2番目の段階は、一般に自然言語及び自動発話認識システムにより処理される。既存のシステムは、一般的に、多くの現実世界の状況で許容可能な結果を出しているが、強いノイズが存在する環境では、結果に問題がしばしば生じる。同様に、遠距離VoIPアプリケーションでは、しばしば目的である特定のターゲット音声のみをストリーミング配信することが必要とされるが、これは大きなノイズや他の話者の干渉がある場合には困難な処理である。そのため、ASRとVoIPアプリケーションの両方について、ノイズが多い環境でのキーワードスポッティングと音声強調とが改善されたシステムと方法に対する継続的なニーズが存在する。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示は、ノイズが多いオーディオ信号における、例えば人の発話のようなターゲット音源を検出、追跡、及び/又は、強調するための方法、及び、システムを提供する。オーディオ処理システム、及び、方法は、マルチチャンネルオーディオ入力を受音すること及び対応するマルチチャンネルオーディオ信号を生成するように作動可能なオーディオセンサアレーと、ターゲット発話決定ロジックと、自動発話認識エンジンと、を含む。オーディオプロセッシングデバイスは、マルチチャンネルオーディオ入力信号を分析し、複数の強調ターゲットストリームを生成するように作動可能なターゲット発話強調エンジンと、ストリームの中の特定のターゲット発話の品質、及び/又は、存在の信頼性を決定するようにそれぞれが作動可能な複数の事前学習された検出エンジンを備えるマルチストリーム事前学習ターゲット発話検出生成部であって、複数の強調ターゲットストリームに関する複数の重みを決定するように作動可能なマルチストリームターゲット発話検出生成部と、複数の重みを前記強調ターゲットストリームに適用して、強調出力信号を生成するように作動可能な融合サブシステムと、を備える。
【0005】
本開示の範囲は、このセクションに参照として含まれている請求項により定義される。1以上の例についての後述する詳細な説明を考慮することで、当業者は、その追加的な利点の実現と同様に、本発明の実施形態の内容をより完全に理解し得る。最初に簡単に説明される、添付された複数枚の図が参照されよう。
【図面の簡単な説明】
【0006】
本開示の側面とその利点は、以下の図面と後述の詳細な説明とを参照することでより良く理解され得る。1以上の図で示されている同様の要素を示すために、同様の参照番号が用いられるが、そこで示すものは、本開示の例を図示することを目的としているのであり、同じものに限定することを目的とはしていないことが理解されなくてはならない。図の構成要素は必ずしも正寸ではなく、本開示の原理を明確に示すことがより重視される。
【0007】
【
図1】
図1は、1以上の実施形態に係る、マルチストリームターゲット発話スポッティングとストリーム信号融合の例を示す図である。
【0008】
【
図2】
図2は、1以上の実施形態に係る、マルチストリームキーワードスポッティングシステムの実装例を示す図である。
【0009】
【
図3】
図3は、1以上の実施形態に係る、キーワードスポッティングシステムの例を示す図である。
【0010】
【
図4】
図4は、1以上の実施形態に係る、キーワードスポッティングシステムのために用いられるオーディオ処理コンポーネントの例を示す図である。
【発明を実施するための形態】
【0011】
ノイズを多く含むオーディオ信号におけるターゲット音源(例えば人の発話)を検出、追跡、及び/又は、強調するための方法、及び、システムがここに開示される。本システム及び方法は、改善されたマルチストリームターゲット発話検出及びチャンネル融合を含む。
【0012】
様々な実施形態では、音声起動式システムは、ユーザが(i)特定の起動キーワードを発言することで起動する、そして(ii)システムに処理させるための具体的な質問や音声コマンドを発言する、ことによって作動する。最初の段階は、ノイズを多く含むオーディオ信号の中に埋もれた特定のワードを認識するように、機械学習法を用いた自動キーワードスポッティング(KWS,keyword spotting)アルゴリズムで処理される。第2の段階は、一般にはクラウドサーバー上で動作する自然言語及び自動発話認識システムにより処理される。ここに開示される実施形態は、KWSに供給する前に、クラウドのASRエンジンに送る前に、又は、VoIPアプリケーションを通じて配信する前に、オーディオ信号を事前処理する改善されたマルチチャンネル発話強調を含む。
【0013】
オーディオ信号からノイズを減少するためのオンラインのマルチチャンネル発話強調技術には、音声対応デバイスのユーザビリティを改善するために本開示において取り組まれる、いくつかの概念的な限界がある。例えば、オンラインのマルチチャンネル発話強調技術は、概して、何が強調されるターゲット発話を構成するかについて明確な定義を必要とする。この定義は、音声活性検出(VAD,voice activity detector)により、又は、予想される音源の到達方向(DOA,direction of arrival)といったいくつかの幾何学的な知識を活用することで、取得し得る。VADに基づくマルチチャンネルシステムは、一般に、発話を含まないノイズを低減させることが出来る。しかしながら、多くの状況で、ノイズ源は、テレビ又はラジオからの音声や、競合する話者の発話といった、音声活性としてとして同定される発話コンテンツを含む場合がある。一方で、幾何学的な知識に基づく強調法は、目的の話者の物理的な位置についての予備知識を必要とする。ハンズフリーな遠距離音声アプリケーションでは、この位置はしばしば未知であり、同じ環境に二人の話者がいるときには、曖昧性無く決定することは困難であり得る。オンラインのマルチチャンネル発話強調技術の他の制限は、その技術が、主として話者の位置がマイクに対して不変である場合に効果的であることである。話者の位置が大きく変化するときには、フィルタリングのパラメーターを新たな幾何学的な構成に適応させる必要があり、適用させている間に信号の品質が深刻に低下する恐れがある。
【0014】
VADに基づく強調の限界を部分的に解決する一つのアプローチは、マルチチャンネルブラインド音源分離(BBS,blind source separation)である。BBS法は、何が目的のターゲット音源であるか明確な定義抜きで、出力音源信号を推定し得る。実際に、それらは、例えば3D空間における異なる物理的な位置から伝わった個別の音源といった個別の空間成分に、混合物を分解しようとするのみである。このことが、BBSに複数の話者に関連する信号を分離させることを可能にする。しかしながら、特定のアプリケーションでは、依然として何が目的となる“ターゲット”の発話であるかを事後的に定義する必要がある。
【0015】
前述の問題を解決するため、マルチチャンネル音源強調/分離を並列の事前学習検出部と組合せた、目的となる特定の発話をスポットするシステム構成がここに開示される。マルチストリームが生成され、目的たる特定の信号/音源を認識するように学習された複数の検出部に供給される。そして、全てのストリームを、より検出の信頼性が高いストリームが含まれる、あるいは、優位を占める単一のストリームに組合せるために用いられる重みを生成するために、検出の尤度が用いられる。
【0016】
様々な実施形態において、ここに開示されたシステム構成は、発話と重複する継続的なノイズ源が存在する状況において、ASRアプリケーションのためのKWS検出の性能を改善し得る。この状況の例として、ユーザがシステムと対話しようとしている間に継続的に大きなオーディオ信号を発するTVが存在する、という場合が挙げられる。本システム構成は、ターゲット発話検出の反応に応じた最適な出力信号を組合せることにより、ASRエンジンにとって最適に強調された出力信号もまた生成し得る。
【0017】
図1を参照して、本願の1以上の実施形態におけるターゲット発話検出システム100の例が図示されている。システム100は、マルチストリーム信号生成サブシステム102と、マルチストリームターゲット発話検出部(TSD,target-speech detector)エンジン120と、(iii)融合サブシステム140と、を備える。
【0018】
マルチストリーム信号生成サブシステム102は、複数であるN個の異なる発話強調モジュールを備える。各発話強調モジュールは、異なる強調分離の基準を用いる。様々な実施形態では、強調分離の基準は、(i)目的方向が異なるように固定されたビームフォーミング(複数)、又は、目的方向が異なるように適応するビームフォーミング(複数)のような適応空間フィルタリングアルゴリズム(複数)、(ii)例えば、遅延和ビームフォーミングやカーディオイド形状のもの等といったような、固定ビームフォーミングアルゴリズム(複数)、(iii)独立した音源(複数)に対応する複数の出力を作るブラインド音源分離アルゴリズム(複数)、(iv)発話の統計モデル(複数)と信号ノイズ比(SNR,signal-to-noise ratio)追跡に基づく伝統的な単一チャンネル強調、(v)非負値行列因子分解(NMF,Non-Negative Matrix Factorization)やニューラルネットワークに基づくような、データ駆動方式の発話強調法(複数)、及び/又は、(vi)他のアプローチ、を含む場合がある。各モジュールは、発話強調に用いられる個々のアルゴリズムに依存し得る、異なる数の出力ストリームSNを作っても良い。
【0019】
マルチストリーム信号生成サブシステム102によって作られた出力ストリーム110(複数)は、複数の並列なTSDエンジン122に供給される。TSDエンジン122は、伝統的な混合ガウスモデルと隠れマルコフモデル、及び/又は、長・短期記憶型(LSTM,long short-term memory)、ゲート付き再帰型ユニット(gated recurrent unit,GRU)、あるいは、他のニューラルネットワークの技術といった再帰型ニューラルネットワークを含み、ターゲット発話/発話者又はキーワードスポッティング技術に基づき得る。各TSDエンジン122は、対応するTSDエンジン122への入力信号が特定の学習済みターゲット発話を含むことの信頼性に相関する事後重み124を作るように作動可能である。いくつかの実施形態では、TSDエンジン122は、クリーンな発話に対してより高い事後(例えば、学習データ内のノイズ量を限定することにより)を作るようなバイアスを持つように学習される。そのため、マルチストリーム信号を生成するステージに供給される入力信号104(複数)が同じであるため、高い事後は、対応する入力発話信号がクリーンで歪みがない状態に近いことを暗示する。様々な実施形態では、重み124は、個別のTSD事後確率
【数1】
を次のように標準化することで得られる。
【数2】
【0020】
融合サブシステム140は、重み124を用い、プログラム可能な発見的手法を適用して、出力ストリーム110を組合せる。組合せは、次のように信号の重み付き和で求められる。
【数3】
ここで、f(・)は重みの非線形関数(例えば、“max”演算や他のコントラスト関数)である。チャンネルの時間一致性を活用するといった、メモリを使った関数f(・)を用いて、より洗練された組合せが実現可能である。例えば、いくつかのストリームの重みが互いに同じであった場合に、融合サブシステムはこの同じチャンネルの寄与度を選択するようなバイアスを持つようにされても良い。これにより、チャンネルの不連続性が低減される。いくつかの実施形態では、優先度が動的に定義され得る。
【0021】
TSDエンジン120は、ターゲット発話検出d(l)のための組合せ事後を生成するように作動可能な、プログラム可能なロジックを更に備える。この事後は、次のように定義される最終検出に用いることができる。
【数4】
ここで、
【数5】
は出力である
【数6】
に接続された検出のための検出閾値であり、
【数7】
は、個々の検出から組合せ検出を計算する関数であり、論理演算子の組合せであると理解され得る。組合せ出力y(l)と組合せ検出d(l)とは、クラウド、ネットワークサーバー、又は、他のホストシステムで実装され得る自動発話認識エンジン150に供給される。
【0022】
前述の観点では、本開示の1以上の実施形態は、マルチチャンネルオーディオ入力信号を分析し、複数の強調ターゲットストリームを生成するように構成されたターゲット発話強調エンジンと、ストリームの中の特定のターゲット発話の品質の信頼性、及び/又は、存在の信頼性を決定するようにそれぞれが構成された複数のターゲット発話検出エンジンを備えるマルチストリームターゲット発話検出生成部であって、強調ターゲットストリームに関する複数の重みを決定するように構成されたマルチストリームターゲット発話検出生成部と、複数の重みを強調ターゲットストリームに適用して、組合せ強調出力信号を生成するように構成された融合サブシステムと、を備えるシステムを含む。
【0023】
本システムは、人間の発話と環境ノイズとを感知し、対応するマルチチャンネルオーディオ入力信号を生成するように構成されたオーディオセンアレーを更に備えても良い。いくつかの実施形態では、ターゲット発話強調エンジンが、マルチチャンネルオーディオ入力信号を分析し、前記複数の強調ターゲットストリームの一つを出力するようにそれぞれ構成された、適応空間フィルタリングアルゴリズム、ビームフォーミングアルゴリズム、ブラインド音源分離アルゴリズム、シングルチャンネル強調アルゴリズム、及び/又は、ニューラルネットワークを備える複数の発話強調モジュールを備える。いくつかの実施形態では、ターゲット発話検出エンジンが、混合ガウスモデル、隠れマルコフモデル、及び/又は、ニューラルワーク、を備え、入力オーディオストリームが特定のターゲット発話を含んでいる信頼性に相関する事後重みを作るように構成される。
【0024】
図2を参照して、システムの可能な特定の実装の例がここに説明される。図示された例は、特定の発話キーワードを含み、かつ、発話の品質が最も良いストリームを選択することを目的とする事例に対応する。キーワードスポッティングシステム200は、マルチストリーム信号生成サブシステム202と、マルチストリームKWS(MSKWS,Multi Stream KWS)エンジン220と、(iii)融合サブシステム240と、を備える。マルチストリーム信号生成サブシステム202は、複数の発話強調モジュール202a―gを備える。各発話強調モジュールは異なる強調分離の基準を用いる。マルチストリーム信号生成サブシステム202により生成された出力ストリーム210は、複数の並列のKWSエンジン222a―hに供給される。各KWSエンジン222a-hは、KWSエンジン222a-hに対応する入力信号に特定のターゲットキーワードが含まれることの信頼性に相関する、対応する事後重みである
【数8】
を作るように作動可能である。
【0025】
融合サブシステム240は、信号重みである
【数9】
を用い、出力ストリーム210を組合わせて、組合せ出力y(l)を作るようにプログラムされている。MSKWSエンジン220は、KWS検出d(l)のための組合せ事後を作るように作動可能なプログラム可能なロジック224を更に備える。組合せ出力y(l)と検出d(l)はその後、更なる処理のために自動発話認識エンジンへ供給される。
【0026】
この例では、4つの異なる“強調”アルゴリズムのカテゴリーが定義されている。第1のカテゴリーは、予め定められた異なる方向に指向されたビームフォーマー(強調ブロック202a、202b、202c、及び、202d)を用いて4つの強調出力ストリームを作る。各ビームフォーマーは、指向された方向に単一のゲインを維持する間、ノイズを抑制するために複数の入力信号を組合わせる。ビームフォーマーのアルゴリズムは、遅延和(D&S,Delay and Sum)のような固定フィルタアンドサム、又は、最小分散無歪応答(MVDR,Minimum Variance Distortionless Response)のような適応アルゴリズムであってよい。
【0027】
第2のカテゴリーは、方向θ(l)に指向された適応ビームフォーマー(強調ブロック202e)に代表される。この方向は入ってくるデータによりオンラインで適応される。例えば、音声活性検出(VAD,voice activity detection)が方向θ(l)の更新に用いられる。θ(l)は更に、ビデオキャプチャー、活性超音波イメージング、RFID勾配マップ、等といった他のマルチモーダル信号から取得され得る。この強調アルゴリズムの目的は、θ(l)の推定が信頼できる場合に、より正確な出力信号を供給することである。このカテゴリーは、複数の方向θ(l)が取得可能である場合に、より多くの出力ストリームを生成可能であることに注意されたい。例えば、複数の音源を追跡するためのシステムは、最も優位な音源の角度方向と仰角とを推測することが出来る。適応ビームフォーミングは、その後、それらの方向(複数)で強調されたストリームを複数生成し得る。しかし、システムのユーザの発話を含むストリームはただ一つであり得る。強調された信号それ自体は、MVDR又は広義固有値(又は最大SNR)ビームフォーマーにより取得され得る。
【0028】
第1及び第2カテゴリーのアルゴリズムに関しては空間手がかりが用いられるが、第3のカテゴリーはいかなる空間的手がかりにも依存しない強調方法(例えば、信号チャンネル強調ブロック202f)に代表される。この方法は、単一チャンネルの観測から取得され得るノイズのスペクトラル統計量のみを推定し、任意のノイズを強調することを目的とし得る。この方法は、従来のデータ非依存SNRに基づく発話強調(例えば、ウイナーフィルタリング)、又は、データ依存若しくはモデルベースアルゴリズム(例えば、ディープニューラルネットワーク又はNMFによるスペクトラムマスク推定)により実現され得る。
【0029】
第4のカテゴリーは、入力(複数)を統計的に独立な出力ストリーム(複数)に分解するBSSアルゴリズム(202g)に代表される。この方法は、ターゲット発話をノイズ又は他の干渉発話源から分離するものであり、独立ベクトル分析、独立成分分析、マルチチャンネルNMF、深層クラスタリング、又は、教師なし音源分離のための他の方法、をとして実装され得る。
【0030】
図示された実施形態では、強調の4つの異なるカテゴリーは、異なる現実の条件における異なる特定の動作でそれぞれに特徴づけられるように選択される。例えば、第1のカテゴリーにおける出力信号は、ユーザが、指向の方向に位置し、反響音が無視できる場合に、良好な出力信号を生成することが期待される。しかし、状況が適合しない場合には出力は目立って破壊される。一方で、第2のカテゴリーのアプローチでは、それらがデータにより更新されるにつれ、真なる音源の方向に適応することができる。一方で、ノイズがターゲット発話と同方向に位置する場合、指向性のビームフォーミングと比較して、BBSに基づく第4の方法がより良い分離されたストリームを供給し得る。同時に、音源が移動している、又は、断続的に活動する場合、指向性又はBBSフィルター推定を用いると本質的な不確実性が存在し得る。これらの状況では、音源の空間情報に完全に非依存であるため、第3のカテゴリーにより供給される信号が、より信頼性が高くなりえる。
【0031】
互いに直交するカテゴリー(複数)に属する技術(複数)により生成された出力ストリームを有することにより、システムは、観測された特定のシナリオにとって最適な出力ストリームを少なくとも1つ作ることが出来る。最終検出を生成し、かつ、自然言語ASRエンジンに送信される組合せ出力を生成するように、KWSエンジンが全てのストリームに適用されても良い。この例では、最大(正規化)検出事後重みを有するストリームが次のように選択される。
【数10】
【0032】
さらに、図示された実施形態の最終検出の状態が、全ての個別のトリガー検出の組合せ論理ORとして決定される。
図2で示されたシステムは、
図1や本明細書の他の場所で示された一般的な構成の範囲をより良く理解するために例示されたものであり、他のシステムの実装も本開示の範囲に含まれることが理解され得る。図示されたシステムでは、改善されたKWD検出とASRアプリケーションのためのチャンネル選択とを対象としているが、他の実施形態ではここで開示された構成が他のアプリケーションに変更され得る。例えば、
図2で示されたようなKWSエンジンを用いる代わりに、発話活性を予測し、又は、平均SNRに関連する正規化スコアを生成して信号の品質を予測し、そして、ボイスオーバーIP(VoIP,Voice-over-IP)アプリケーションのために使用可能な結合チャンネルを生成する再帰ニューラルネットワークが実装されても良い。そして、これらのネットワークの事後は、ストリームをどのように結合すればVoIPアプリケーションのためのSNRが最大化されるか、についての指標を与える。他の実施形態では、KWSは、特定の話者の発話を含むチャンネルのみに焦点を当てるために、音声認証(VA,voice authentication)システムに置き換えられ得る。
【0033】
図3は、本開示の様々な実施形態に係る、キーワードスポッティングサブシステムを実装し得るオーディオプロセッシングデバイス300を図示している。オーディオプロセッシングデバイス300は、オーディオセンサアレー305のようなオーディオ入力、オーディオ信号プロセッサ320、及び、ホストシステムコンポーネント350を備えている。オーディオセンサアレー305は、それぞれが音波をオーディオ信号に変換し得る1以上のセンサを備える。図示された環境では、オーディオセンサアレー305は、それぞれがマルチチャンネルオーディオ信号の一つのオーディオチャンネルを生成する複数のマイクロフォン305a~305nを備える。
【0034】
オーディオ信号プロセッサ320は、オーディオ入力回路部322と、デジタルシグナルプロセッサ324と、オプションとしてオーディオ出力回路部326と、を備える。様々な実施形態では、オーディオ信号プロセッサ320は、アナログ回路部と、デジタル回路部と、メモリに記憶されたプログラムの命令を実行するように作動可能なデジタルシグナルプロセッサ324と、を備える集積回路として実装され得る。オーディオ入力回路部322は、例えば、オーディオセンサアレー305とのインターフェースと、アンチエイリアシングフィルターと、アナログ―デジタル変換回路部と、エコー除去回路部と、他のオーディオプロセッシング回路部及びコンポーネントと、を備える場合がある。
【0035】
デジタルシグナルプロセッサ324は、本開示の実施形態としてここで議論された様々な演算を実行するような、1以上のプロセッサ、マイクロプロセッサ、シングルコアのプロセッサ、マルチコアのプロセッサ、マイクロコントローラ、プログラマブル論理デバイス(programmable logic device)(PLD)例えばフィールドプログラマブルゲートアレー(field programmable gate array)(FPGA)、デジタルシグナルプロセッサ(digital signal processing)(DSP)、又は、ハード配線、ソフトウェアの命令の実行、若しくは、両者の組合せ、により構成され得る他の論理デバイス、を含み得る。
【0036】
デジタルシグナルプロセッサ324は、マルチチャンネルデジタルオーディオ入力信号を処理して、1以上のホストシステムコンポーネント350に出力される強調オーディオ信号を生成するように作動可能である。1以上の実施形態では、デジタルシグナルプロセッサ324は、バス又は他の電気的通信インターフェースを介して、ホストシステム350とインターフェース及び通信を行うように作動可能である。様々な実施形態では、マルチチャンネルオーディオ信号は、ノイズ信号と、少なくとも1つの所望のターゲットオーディオ信号(例えば、人の発話)と、を混合したものを含み、デジタルシグナルプロセッサ324は、目的外のノイズ信号を低減又は除去して、所望のターゲット信号を分離又は強調するように作動可能である。デジタルシグナルプロセッサ324は、エコー除去と、ノイズ除去と、ターゲット信号強調と、ポストフィルタリングと、他のオーディオ信号処理と、を実行するように作動可能であり得る。
【0037】
オプションとしてのオーディオ出力回路部326は、少なくとも1つのスピーカー(例えばスピーカー310a及び310b)に出力するために、デジタルシグナルプロセッサ324から受信したオーディオ信号を処理する。様々な実施形態では、オーディオ出力回路部326は、1以上のデジタルオーディオ信号を対応するアナログ信号に変換するデジタル―アナログ変換器と、スピーカー310a及び310bを駆動するための1以上のアンプを備え得る。
【0038】
オーディオプロセッシングデバイス300は、ターゲットオーディオデータを受信及び検出するように作動可能な如何なるデバイス、例えば、携帯電話、スマートスピーカー、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、音声で制御可能な機器、又は、自動車、として実装されても良い。ホストシステムコンポーネント350は、オーディオプロセッシングデバイス300を作動されるための様々なハードウェア及びソフトウェアのコンポーネントを備え得る。図示された実施形態では、ホストシステムコンポーネント350は、プロセッサ352と、ユーザインターフェースコンポーネント354と、ネットワーク380(例えば、インターネット、クラウド、ロカールエリアネットワーク、又は、電話ネットワークなど)、モバイルデバイス384といった外部のデバイスやネットワークと通信するための通信インターフェース356と、メモリ358と、を備える。
【0039】
プロセッサ352は、本開示の実施形態としてここで議論された様々な演算を実行するような、1以上のプロセッサ、マイクロプロセッサ、シングルコアのプロセッサ、マルチコアのプロセッサ、マイクロコントローラ、プログラマブル論理デバイス(PLD)例えばフィールドプログラマブルゲートアレー(FPGA)、デジタルシグナルプロセッサ(DSP)、又は、ハード配線、ソフトウェアの命令の実行、若しくは、両者の組合せ、により構成され得る他の論理デバイスを含み得る。ホストシステムコンポーネント350は、バス又は他の電気的通信インターフェース等を介して、オーディオ信号プロセッサ320及び他のシステムコンポーネント350とインターフェース及び通信を行うように作動可能である。
【0040】
オーディオ信号プロセッサ320及びホストシステムコンポーネント350が、ハードウェアコンポーネントと、回路部と、ソフトウェアと、の組合せを組み込むように示されているが、いくつかの実施形態では、ハードウェアコンポーネント及び回路部が実行するように作動可能に設けられている機能の少なくとも一部またはすべてが、メモリ358又はデジタルシグナルプロセッサ324のファームウェアに記憶されたソフトウェアの命令及び/又は構成データに応じてプロセッサ352及び/又はデジタルシグナルプロセッサ324が実行するソフトウェアモジュールとして実装され得ることが理解され得る。
【0041】
メモリ358は、オーディオデータやプログラムの命令を含む、データ及び情報を記憶するように作動可能な1以上のメモリデバイスとして実装され得る。メモリ358は、RAM(Random Access Memory)、ROM(Read-Only Memory)、EEPROM(Electrically-Erasable Read-Only Memory)、フラッシュメモリ、ハードディスクドライブ、及び/又は、他の種類のメモリといった、揮発性及び不揮発性の1以上の様々な種類のメモリデバイスを含む、メモリデバイスを備え得る。
【0042】
プロセッサ352は、メモリ358に記憶されているソフトウェアの命令を実行するように作動可能であり得る。様々な実施形態では、発話認識エンジン360は、オーディオシグナルプロセッサ320から受信した強調オーディオ信号に対して、音声命令の同定及び実行を含む処理を実行可能に設けられている。音声コミュニケーションコンポーネント362は、モバイル若しくはセルラー方式の電話ネットワークを通じた音声通話、又は、IP(internet protocol)ネットワークを介したVoIP通話等を通じて、モバイルデバイス384又はユーザデバイス386といったような1以上の外部デバイスとの音声コミュニケーションを促進するように作動可能であり得る。様々な実施形態では、音声コミュニケーションは強調オーディオ信号を外部のコミュニケーションデバイスへ伝送することを含む。
【0043】
ユーザインターフェースコンポーネント354は、ディスプレイ、タッチパッドのディスプレイ、キーパッド、1以上のボタン、及び/又は、ユーザにオーディオプロセッシングデバイス300と直接情報交換を可能にする他の入力/出力コンポーネントを含み得る。
【0044】
通信インフェース356は、オーディオプロセッシングデバイス300と外部デバイスの通信を促進する。例えば、通信インターフェース356は、オーディオプロセッシングデバイス300と、モバイルデバイス384といった1以上のローカルデバイス、又は、(例えば、ネットワーク380を介した)リモートサーバ382とのネットワークアクセスを提供するワイヤレスルーターと、の(例えば、802.11といった)Wi-Fi又はブルートゥース(登録商標)接続を可能にする場合がある。様々な実施形態では、通信インターフェース356は、オーディオプロセッシングデバイス300と1以上の他のデバイスとの直接又は間接の通信を促進する他の有線及び無線通信コンポーネントを含み得る。
【0045】
図4は、本開示の様々な実施形態に係るオーディオ信号プロセッサ400を示している。いくつかの実施形態では、オーディオ信号プロセッサ400は、
図3のデジタルシグナルプロセッサ324のようなデジタルシグナルプロセッサとして実装された、アナログ及びデジタル回路部及びファームウェアロジックとを含む1以上の集積回路として具体化される。図示されているように、オーディオシグナルプロセッサ400はオーディオ入力回路部415と、サブバンド周波数アナライザ420と、ターゲット発話強調エンジン430と、キーワードスポッティングエンジン440と、融合エンジン450と、を備える。
【0046】
オーディオ信号プロセッサ400は、マルチチャンネルオーディオ入力を、複数のオーディオセンサ405a―nを備えるセンサアレー405のような複数のオーディオセンサから受信する。オーディオセンサ405a―405nは、
図3のオーディオプロセッシングデバイス300、それに対して接続された外部コンポーネント、又は、リアルタイムでマルチチャンネルオーディオ入力をオーディオ信号プロセッサ400に提供するための他の装置、といったオーディオプロセッシングデバイスと統合されたマイクロフォンを含み得る。
【0047】
オーディオ信号は、アンチエイリアシングフィルター、アナログ―デジタル変換器、及び/又は、他のオーディオ入力回路部を含み得るオーディオ入力回路部415によって初めに処理され得る。様々な実施形態では、オーディオ入力回路部415は、デジタルで、マルチチャンネルな、時間領域のNチャンネルを有するオーディオ信号を出力する。なお、Nはセンサ(例えば、マイクロフォン)入力の数である。マルチチャンネルオーディオ信号は、サブバンド周波数アナライザ420に入力される。サブバンド周波数アナライザ420は、マルチチャンネルオーディオ信号を連続するフレーム(複数)に区分し、各チャンネルの各フレームを複数の周波数サブバンドへ分解する。様々な実施形態では、サブバンド周波数アナライザ420は、フーリエ変換処理と、複数の周波数値域を含む出力と、を含む。分解されたオーディオ信号は、その後、ターゲット発話強調エンジン430に供給される。発話ターゲット強調エンジン430は、オーディオチャンネル(複数)のフレーム(複数)を分析し、所望の発話を含む信号を生成するように作動可能である。ターゲット発話強調エンジン430は、オーディオデータのフレームを受信し、フレーム内に人の発話が存在するかしないかを決定するように作動可能な音声活性検出部を含み得る。いくつかの実施形態では、発話ターゲット強調エンジンは、複数の音源を検出及び追跡し、1以上のターゲット音源から人の発話が存在するかしないかを同定する。ターゲット発話強調エンジン430は、サブバンド周波数アナライザ420からサブバンドのフレーム(複数)を受信し、マルチストリームキーワード検出と、チャンネル選択システムと、ここで開示された方法と、により、発話ターゲットであると決定されたオーディオ信号の部分を強調し、ノイズであると決定されたオーディオ信号の他の部分を抑制する。様々な実施形態では、ターゲット発話強調エンジン430は、一フレーム毎にマルチチャンネルオーディオ信号を復元して、複数の強調オーディオ信号を形成する。強調オーディオ信号は、キーワードスポッティングエンジン440と融合エンジン450とに伝達される。キーワードスポッティングエンジン440は、複数の強調オーディオ信号にそれぞれ適用される重みを計算し、強調オーディオ信号の中にキーワードが検出された確率を決定する。融合エンジン450は、複数の強調オーディオ信号に重みを適用して、さらなる処理のためにキーワードを強調した出力強調オーディオ信号を作る。
【0048】
適用可能な場合には、本開示の様々な実施形態は、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組合せ、を用いて実装され得る。さらに、適用可能な場合には、ここで示された様々なハードウェアのコンポーネント、及び/又は、ソフトウェアのコンポーネントは、本開示の精神から逸脱せず、ソフトウェア、ハードウェア、及び/又は、その組合せを備える複合コンポーネントに結合され得る。適用可能な場合には、ここで示された様々なハードウェアのコンポーネント、及び/又は、ソフトウェアのコンポーネントは、本開示の範囲から逸脱せず、ソフトウェア、ハードウェア、及び/又は、両者を備えるサブコンポーネントに分離され得る。加えて、適用可能な場合には、ソフトウェアのコンポーネントはハードウェアのコンポーネントとして実装され得ること、及びその逆も可能であることが理解される。
【0049】
プログラムコード、及び/又は、データといったソフトウェアは、本開示のとおり、1以上のコンピュータ読取り可能な媒体に記憶され得る。ここで示されたソフトウェアは、1以上の一般用途の又は専用のコンピュータで、及び/又は、コンピューターシステムで、ネットワーク上で、及び/又は、他の方法により、実装され得ることも更に理解される。適用可能な場合には、ここに記載された様々なステップの順序は、ここに記載された機能を供給するように、変更、複合ステップへの結合、及び/又は、サブステップに分割され得る。
【0050】
上述の開示は、開示されたそのままの形態や特定の用途分野に本開示を限定するように意図されたものではない。従って、ここに明示されたか暗示されたかにかかわらず、本開示に照らして、様々な代替例、及び/又は、修正が本開示に対して可能であることが理解される。ここまで本開示の例を説明してきたが、本開示の範囲を逸脱することなく形態や詳細を変更し得ることを当業者は認識し得る。よって、本開示は請求項のみによって限定される。