IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シナプティクス インコーポレイテッドの特許一覧

特許7742703平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出
<>
  • 特許-平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 図1
  • 特許-平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 図2
  • 特許-平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 図3
  • 特許-平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 図4
  • 特許-平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 図5A
  • 特許-平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 図5B
  • 特許-平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 図6
  • 特許-平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-09-11
(45)【発行日】2025-09-22
(54)【発明の名称】平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出
(51)【国際特許分類】
   G10L 21/0272 20130101AFI20250912BHJP
   G10L 25/84 20130101ALI20250912BHJP
【FI】
G10L21/0272 100A
G10L25/84
【請求項の数】 10
【外国語出願】
(21)【出願番号】P 2020212089
(22)【出願日】2020-12-22
(65)【公開番号】P2021110938
(43)【公開日】2021-08-02
【審査請求日】2023-12-12
(31)【優先権主張番号】16/740,297
(32)【優先日】2020-01-10
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】502161508
【氏名又は名称】シナプティクス インコーポレイテッド
(74)【代理人】
【識別番号】100205350
【弁理士】
【氏名又は名称】狩野 芳正
(74)【代理人】
【識別番号】100117617
【弁理士】
【氏名又は名称】中尾 圭策
(72)【発明者】
【氏名】マスナディ‐シラジ、アリレザ
(72)【発明者】
【氏名】ネスタ、フランチェスコ
【審査官】中村 天真
(56)【参考文献】
【文献】特開2012-048119(JP,A)
【文献】米国特許出願公開第2021/0390952(US,A1)
【文献】米国特許出願公開第2019/0385635(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
H04R 3/00- 3/14
(57)【特許請求の範囲】
【請求項1】
マルチ音源トラッキング及び発話区間検出によりマルチ音源音声を強調するための方法であり、
音声入力回路部を介して、1以上のマルチ音源音声信号をマイクロフォンアレイから受信することと、
前記マイクロフォンアレイからのいくつかのマイクロフォン対によって定義された多次元空間の内に構築されたTDOA軌跡情報に基づくステアード最小分散(STMV)ビームフォーマーにより、前記1以上のマルチ音源音声信号についてTDOA検出データを算定することと、
現在の時間ステップまでに算定された前記TDOA検出データに基づいて、複数の音声トラックを更新することと、
算定された前記TDOA検出データに基づいて、前記複数の音声トラックのそれぞれについて発話区間検出(VAD)データを構築することと、
更新された前記複数の音声トラック及び構成された前記VADデータを用いて、1以上の強調されたマルチ音源音声信号を生成することと、
を含み、
前記マイクロフォンアレイからのいくつかのマイクロフォン対によって定義された前記多次元空間が、
前記マイクロフォンアレイから第1マイクロフォンを基準マイクロフォンとして選択することと、
前記マイクロフォンアレイの残るマイクロフォンのそれぞれを前記基準マイクロフォンと対にすることと、
によって形成され、
前記TDOA軌跡情報が、
各マイクロフォン対について、それぞれの対に含まれる2個のマイクロフォンの間の距離と角度とに基づいて、入射レイの特定の方位角及び特定の仰角に対応するTDOA位置を算定することと、
マイクロフォン対の全てにわたって前記入射レイの前記特定の方位角及び前記特定の仰角を変更することによってTDOA位置ポイントのメッシュを形成することと、
によって、前記いくつかのマイクロフォン対の空間情報に基づいて、起動ステージにおいて1回算定される
方法。
【請求項2】
前記マイクロフォンアレイが実際には第2平面上に物理的に位置するときには、TDOA位置ポイントの前記メッシュが、マイクロフォン対の総数と同数の次元を有する前記多次元空間内の第1平面上に位置する、
請求項1の方法。
【請求項3】
前記1以上のマルチ音源音声信号について前記TDOA検出データを算定することが、各マイクロフォン対について、
それぞれのマイクロフォン対からの前記1以上のマルチ音源音声信号の時間周波数表現を用いて、全ての周波数バンドについての共分散行列を算定することと、
それぞれのマイクロフォン対に対応する方位角及び仰角の異なるスキャンについてのTDOA位置に基づいて、全ての周波数バンドについてステアリング行列を構築することと、
構築された前記ステアリング行列及び算定された前記共分散行列に基づいて、全ての周波数バンドにわたって整列された方位共分散行列を構築することと、
構築された前記方位共分散行列に基づいて、ビームのパワーを最小にする疑似尤度解を決定することと、
を更に含む、
請求項1の方法。
【請求項4】
マルチ音源トラッキング及び発話区間検出によりマルチ音源音声を強調するための音声処理デバイスであり、
1以上のマルチ音源音声信号をマイクロフォンアレイから受信するように構成された音声入力回路部と、
到達時差(TDOA)推定器であり、マイクロフォンアレイからのいくつかのマイクロフォン対によって定義された多次元空間の内に構築されたTDOA軌跡情報に基づくステアード最小分散(STMV)ビームフォーマーにより、前記1以上のマルチ音源音声信号についてTDOA検出データを算定するように構成されたTDOA推定器と、
現在の時間ステップまでに算定された前記TDOA検出データに基づいて、複数の音声トラックを更新し、算定された前記TDOA検出データに基づいて、前記複数の音声トラックのそれぞれについて発話区間検出(VAD)データを構築するように構成されたマルチ音源音声追跡器と、
更新された前記複数の音声トラック及び構築された前記VADデータを用いて、1以上の強調されたマルチ音源音声信号を生成するように構成された音声強調エンジンと、
を備え
前記マイクロフォンアレイからのいくつかのマイクロフォン対によって定義された前記多次元空間が、
前記マイクロフォンアレイから第1マイクロフォンを基準マイクロフォンとして選択することと、
前記マイクロフォンアレイの残るマイクロフォンのそれぞれを前記基準マイクロフォンと対にすることと、
によって形成され、
前記TDOA軌跡情報が、
各マイクロフォン対について、それぞれの対に含まれる2個のマイクロフォンの間の距離と角度とに基づいて、入射レイの特定の方位角及び特定の仰角に対応するTDOA位置を算定することと、
マイクロフォン対の全てにわたって前記入射レイの前記特定の方位角及び前記特定の仰角を変更することによってTDOA位置ポイントのメッシュを形成することと、
によって、前記いくつかのマイクロフォン対の空間情報に基づいて、起動ステージにおいて1回算定される、音声処理デバイス。
【請求項5】
前記マイクロフォンアレイが実際には第2平面上に物理的に位置するときには、TDOA位置ポイントの前記メッシュが、マイクロフォン対の総数と同数の次元を有する前記多次元空間内の第1平面上に位置する、
請求項4の音声処理デバイス。
【請求項6】
前記TDOA推定器が、各マイクロフォン対について、
それぞれのマイクロフォン対からの前記1以上のマルチ音源音声信号の時間周波数表現を用いて、全ての周波数バンドについての共分散行列を算定することと、
それぞれのマイクロフォン対に対応する方位角及び仰角の異なるスキャンについてのTDOA位置に基づいて、全ての周波数バンドについて、ステアリング行列を構築することと、
構築された前記ステアリング行列及び算定された前記共分散行列に基づいて、全ての周波数バンドにわたって整列された方位共分散行列を構築することと、
構築された前記方位共分散行列に基づいて、ビームのパワーを最小にする疑似尤度解を決定することと、
によって前記TDOA検出データを算定するように構成されている、
請求項の音声処理デバイス。
【請求項7】
前記TDOA推定器が、
全てのマイクロフォン対にわたって決定された全ての疑似尤度解の積を取ることで、STMV結合疑似尤度を算定することと、
前記STMV結合疑似尤度を最大にする方位角及び仰角の対を決定することと、
決定された方位角及び仰角の前記対を、前記TDOA検出データを示す極座標表現に変換することと、
によって前記TDOA検出データを算定するように更に構成されている、
請求項6の音声処理デバイス。
【請求項8】
前記TDOA推定器が、構築された前記ステアリング行列及び算定された前記共分散行列に基づいて前記全ての周波数バンドにわたって整列された方位共分散行列を構築するように更に構成されており、方位共分散行列の算定が前記マイクロフォン対の全て、及び、方位角及び仰角のスキャンの全てにわたって繰り返される、
請求項7の音声処理デバイス。
【請求項9】
前記マルチ音源音声追跡器が、
現在の時間ステップに対応するTDOA検出と、前記現在の時間ステップまでにあらかじめ確立された既存の音声トラックのセットと、を同定することと、
前記TDOA検出と、前記既存の音声トラックのゲートとの比較に基づいて、前記TDOA検出を前記既存の音声トラックの1つに組み込むか、新たな音声トラックを確立するか、を決定することと、
によって、現在の時間ステップまでに算定された前記TDOA検出データに基づいて、前記複数の音声トラックを更新するように構成されている、
請求項の音声処理デバイス。
【請求項10】
前記マルチ音源音声追跡器が、
それぞれの音声トラックが前記TDOA検出に最も近いときに、第1の値をそれぞれの音声トラックに割当てることと、
他の音声トラックに第2の値を割当てることと、
によって、算定された前記TDOA検出に基づいて、前記複数の音声トラックについてVADデータを構築するように構成されている、
請求項の音声処理デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、1以上の実施形態によれば、一般には、音声処理に関し、より詳細には、例えば、一般的な平面マイクロフォンアレイのための複数音源トラッキング及びマルチストリーム発話区間検出のためのシステム及び方法に関する。
【背景技術】
【0002】
スマートスピーカや、他の音声制御式のデバイス及び電子機器は、近年人気を得ている。スマートスピーカは、環境から音声入力(例えば、ユーザーの口頭のコマンド)を受信するために、マイクロフォンのアレイをしばしば備えている。ターゲット音声(例えば、口頭のコマンド)が音声入力において検出されたときに、スマートスピーカは検出されたターゲット音声を1以上のコマンドに変換し、当該コマンドに基づいて異なるタスクを実行し得る。
【0003】
これらのスマートスピーカの問題の一つとして、効率的かつ効果的に、ターゲット音声(例えば、口頭のコマンド)を作動環境のノイズや他のアクティブな話者から分離することが挙げられる。例えば、1以上の話者が、1以上のノイズ源の存在下でアクティブになり得る。特定の話者を強調することが目的であるときには、話者はターゲット話者と呼ばれる一方、残りの話者は干渉源と看做すことが出来る。既存の話者強調アルゴリズムは、主として、独立成分分析(independent component analysis)(ICA)に関連するブラインド音源分離(blind source separation)(BSS)法や、空間フィルタリング又はビームフォーミング法のような、複数の入力チャンネル(マイクロフォン)を用いて音源の空間情報を活用する。
【0004】
BSS法は、しかしながら、第1にはバッチ処理のためにデザインされたものであり、反応の遅延が大きいため、しばしば実際の応用には望ましくない、あるいは適用できない場合さえあり得る。空間フィルタリング又はビームフォーミング法は、一方で、最小化されるべきコスト関数としての発話区間検出(voice activity detection)(VAD)の下での監視をしばしば必要とするが、これは、ノイズ/干渉のみの区分に属する共分散行列の推定に過度に依存し得る。
【0005】
そのため、マルチストリーム音声環境内のターゲット音声信号を検出及び処理するために、改善されたシステム及び方法が必要とされている。
【図面の簡単な説明】
【0006】
以下の図面及び後述の詳細な説明を参照することで、本開示の態様とその利点がより良く理解され得る。同様の参照番号が、1以上の図面で示される同様の要素を識別するために用いられるが、その図示は本開示の実施形態を示すことを目的としているのであって、これを限定することを目的としていないことが理解されなくてはならない。図中の構成要素は必ずしも正寸ではなく、代わりに、本開示の原理を明確に示すことに重点が置かれている。
【0007】
図1図1は、本開示の1以上の実施形態に係る、音声処理デバイスの例示的な作動環境を示す。
【0008】
図2図2は、本開示の1以上の実施形態に係る、例示的な音声処理デバイスのブロック図である。
【0009】
図3図3は、本開示の1以上の実施形態に係る、マルチトラック音声強調のための例示的な音声処理プロセッサのブロック図である。
【0010】
図4図4は、本開示の様々な実施形態に係る、一般的なマイクロフォンアレイからの複数の音声信号を処理するための例示的なマルチトラックアクティビティ検出エンジンのブロック図である。
【0011】
図5A図5Aは、本開示の1以上の実施形態に係る、マイクロフォン対の例示的な幾何学的配置を示す図である。
【0012】
図5B図5Bは、本開示の1以上の実施形態に係る、異なるマイクロフォンアレイの幾何学的配置に対応する多次元空間上での例示的な到達時差(time difference of arrival)(TDOA)軌跡情報のメッシュを示す図である。
【0013】
図6図6は、本開示の様々な実施形態に係る、マルチ音源トラッキング及びアクティビティ検出によりマルチ音源音声信号を強調するための例示的な方法の論理フロー図である。
【0014】
図7図7は、本開示の様々な実施形態に係る、マイクロフォン対を用いて多次元空間上のTDOA軌跡情報を算定するための例示的な処理の論理フロー図である。
【発明を実施するための形態】
【0015】
本開示は、マルチストリーム音声環境内のターゲット音声信号を検出及び処理するために、改善されたシステム及び方法を提供する。
【0016】
発話区間検出(VAD)は、複数の入力チャンネルから得られた音源の空間情報を利用する処理でのターゲット音声の発話強調を監視するために用いられ得る。VADは、所望の話者がアクティブになったときに、ノイズ/干渉の影響が実質的にゼロにし得るように、所望の話者が沈黙している期間の間に干渉/ノイズ源の空間的な統計値をもたらす場合がある。例えば、各音源のVADは、いつ既存の追跡の近辺に検出があったかを決定することによってVADの検出の履歴を利用することで、音源の到達時差(TDOA)又は到達方向(Direction of Arrival)(DOA)の形での空間情報を追跡すると推測し得る。この処理は、一般に、測定値から追跡(Measurement-to-Track)(M2T)問題として知られている。このようにして、目的の音源すべてについて、複数のVADが推定され得る。
【0017】
具体的には、既存のDOA法は、通常、方位角及び仰角の閉形式マッピングに基づいて、マイクロフォンのアレイ全体について単一のステアリングベクトルを構築する。この方法は、線形又は円形のアレイの特別な配置を利用するために用いることが出来る。このようなDOA法は、マイクロフォンアレイの一般又は任意の配置に拡張することが出来ない。さらに、これらの閉形式マッピングに基づくDOA法は、しばしば多次元空間での広範囲な検索を必要とする。任意の配置については、既存のTDOAベースの方法を用いることが出来る。この方法は、特定のアレイの配置に限定されない場合があり、多次元のTDOAベクトル(各ペアについて1次元)を形成する各マイクロフォン対についてのステアリングベクトルを複数構築する場合がある。しかしながら、これらの既存の方法は、各TDOA対のスペクトラムにおけるピークが交差する交点によって形成されるTDOAゴーストを誘発するリスクを含む。その結果、特定のアレイ配置を含むTDOAゴーストを除去するために更なる後処理が、しばしば必要となる。
【0018】
特定のアレイの配置に制約されないマルチストリームVADの必要性に鑑みて、本明細書で説明される実施形態は、一般のアレイの配置(例えば、平面上に配置されたマイクロフォンアレイ)に適用可能なマルチ音源TDOAトラッキングとVADメカニズムとの組合せを提供する。マルチ音源TDOAトラッキングとVADメカニズムとの組合せは、TDOAの検索を各次元について別々に実行することで、従来のTDOAに通常含まれる計算の数を低減する場合がある。
【0019】
いくつかの実施形態では、不要なゴーストTDOAを回避する、平面上に配置された一般のアレイの配置のための多次元TDOA法が採用される。一実施形態では、一般的に構成されたマイクロフォンのデカルト座標が取得される。マイクロフォンの一つは、基準マイクロフォンとして選択される場合がある。マイクロフォンの方位角及び仰角が、スキャンされる場合があり、これに基づいて、物理的に可能なTODAの平面軌跡が、複数のマイクロフォン対の多次元TDOA空間上に形成可能となる。このように、形成された平面軌道によりゴーストTDOAを回避され、そのため、ゴーストTDOAを取り除くための更なる後処理は不要となる。さらに、完全にDOAスキャンする方法と比べて、本明細書で開示される多次元TDOA法は、完全な多次元空間上で検索するのではなく、対のTDOA領域上で各次元に関して別々に検索を実行することで、計算の複雑さを低減する。
【0020】
図1は、本開示の様々な実施形態に係る音声処理システムが作動し得る、例示的な作動環境100を示す。作動環境100は、音声処理デバイス105、ターゲット音源110、及び、1以上のノイズ源135-145を含む。図1で示された例では、作動環境100は部屋として示されている。しかし、作動環境は、車内、オフィスの会議室、家庭の部屋、屋外のスタジアム、又は、空港といった他の場所を含み得ると考えられる。本開示の様々な実施形態において、音声処理デバイス105は、2以上の音声感知コンポーネント(例えば、マイクロフォン)115a―115dと、オプションとして、1以上の音声出力コンポーネント(例えば、スピーカ)120a―120bと、備える場合がある。
【0021】
音声処理デバイス105は、音声感知コンポーネント115a―115dにより音を感知し、2以上の音声入力信号を含むマルチチャンネル音声入力信号を生成するように構成されている場合がある。音声処理デバイス105は、本明細書で開示される音声処理技術を用いて音声入力信号を処理して、ターゲット音源110から受信した音声信号を強調する場合がある。例えば、処理された音声信号は、発話認識エンジン、又は、音声コマンドプロセッサといった音声処理デバイス105内の他の構成要素、あるいは、外部デバイスに伝達される場合がある。従って、音声処理デバイス105は、音声信号を処理するスタンドアローンのデバイス、又は、外部デバイスと情報交換あるいは制御するために、処理された音声信号を他の信号(例えば、コマンド、命令、等)に変換するデバイス、である場合がある。他の実施形態では、音声処理デバイス105は、携帯電話やボイスオーバーIP(voice-over-IP)(VoIP)が使用可能なデバイス、といった通信デバイスである場合がある。そして、処理された音声信号は、遠隔のユーザーに対して出力するために、ネットワークを介して他のデバイスに伝達される場合がある。通信デバイスは、処理された音声信号を遠隔のデバイスから更に受信し、処理された音声信号を音声出力コンポーネント120a―120bを用いて出力する場合がある。
【0022】
ターゲット音源110は、音声処理デバイス105に検出可能な音を生成する如何なる音源であっても良い。システムに検出されるべきターゲット音声は、ユーザー又はシステムの要求によって指定される基準に基づいて定義され得る。例えば、ターゲット音声は、人間の発話、特定の動物又は機械によって作られた音、として定義され得る。図示の例では、ターゲット音声は人間の発話として定義され、ターゲット音源110は人間である。ターゲット音源110に加え、作動環境100は1以上のノイズ源135-145を含む場合がある。様々な実施形態では、ターゲット音声ではない音はノイズとして処理され得る。図示の例では、ノイズ源135-145は、音楽を流すラウドスピーカ135、テレビ番組・映画若しくはスポーツイベントを流すテレビ140、及び、ターゲットでない話者145間での背景の会話、を含み得る。様々な作動環境において、他のノイズ源が存在し得ることが理解されよう。
【0023】
なお、ターゲット音声及びノイズが、音声処理デバイス105の音声感知コンポーネント115a―115dに異なる方向から、異なる時刻に到達し得る。例えば、ノイズ源135-145は、作動環境100内の異なる位置でノイズを生じる場合がある。そして、ターゲット音源(人間)110は、作動環境100内の複数の位置間で移動しながら発話する場合がある。さらに、ターゲット音声、及び/又は、ノイズは作動環境100内の設備(例えば、壁)で反射する場合がある。例えば、ターゲット音声がターゲット音源110から音声感知コンポーネント115a―115dのそれぞれに進み得る経路を考える。矢印125a―125dで示すように、ターゲット音声はターゲット音源110から各音声感知コンポーネント115a―115dのそれぞれにまで、直接進む場合がある。さらに、ターゲット音声は、矢印130a―130bで示すように、壁150a及び150bに反射して、ターゲット音源110から音声感知コンポーネント115a―115dに間接的に到達する場合がある。様々な実施形態では、音声処理デバイス105は、部屋のインパルス応答を推定及び適用し、さらに、ターゲット音声を強調してノイズを抑制するために、1以上の音声処理技術を用いる場合がある。
【0024】
図2は、本開示の様々な実施形態に係る、例示的な音声処理デバイス200を示す。いくつかの実施形態では、音声処理デバイス200は、図1の音声処理デバイス105として実装される場合がある。音声処理デバイス200は、音声センサアレイ205と、音声信号プロセッサ220と、ホストシステムコンポーネント250と、を備える。
【0025】
音声センサアレイ205は、それぞれが音波の形態の音声入力を音声信号に変換するトランスデューサとして実装され得る、2以上のセンサを備える。図示された環境では、音声センサアレイ205は、それぞれが音声信号プロセッサ220の音声入力回路部222に供給される音声入力信号を生成する、複数のマイクロフォン205a―205nを備える。一実施形態では、音声センサアレイ205は、各チャンネルがマイクロフォン205a―nのうちの一つからの音声入力信号に対応するマルチチャンネル音声信号を生成する。
【0026】
音声信号プロセッサ220は、音声入力回路部222と、デジタルシグナルプロセッサ224と、オプションで音声出力回路部226と、を備える。様々な実施形態では、音声信号プロセッサ220は、アナログ回路部と、デジタル回路部と、ファームウェアに記憶されたプログラムの命令を実行するように作動可能であるデジタルシグナルプロセッサ224と、を備える集積回路として実装され得る。音声入力回路部222は、例えば、音声センサアレイ205へのインターフェースと、アンチエイリアシングフィルタと、アナログデジタルコンバータ回路部と、エコー消去回路部と、他の音声処理の回路部及びコンポーネントを備える場合がある。デジタルシグナルプロセッサ224はマルチチャンネルのデジタル音声信号を処理して、1以上のホストシステムコンポーネント250に出力される強調された音声信号を生成するように作動可能である。様々な実施形態では、デジタルシグナルプロセッサ224は、エコー消去、ノイズ消去、ターゲット信号強調、ポストフィルタリング、及び、他の音声信号処理機能、を実行するように作動可能である場合がある。
【0027】
オプションの音声出力回路部226は、スピーカ210a及び210bのような少なくとも1個のスピーカに出力するために、デジタルシグナルプロセッサ224から受信した音声信号を処理する。様々な実施形態では、音声出力回路部226は、1以上のデジタル音声信号をアナログに変換するデジタルアナログコンバータと、スピーカ210a―210bを駆動する1以上のアンプと、を含む場合がある。
【0028】
音声処理デバイス200は、例えば、携帯電話、スマートスピーカ、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、音声制御式の機器、又は、自動車のような、ターゲット音声のデータを受信及び強調するように作動可能な如何なるデバイスとして実装され得る。ホストシステムコンポーネント250は、音声処理デバイス200を作動させるための、ハードウェア及びソフトウェアの様々なコンポーネントを備える場合がある。図示された実施形態では、ホストシステムコンポーネント250は、プロセッサ252と、ユーザインターフェースコンポーネント254と、外部デバイス及びネットワーク280(例えば、インターネット、クラウド、ローカルエリアネットワーク、又は、電話回線網)のようなネットワークと通信する通信インターフェース256と、モバイルデバイス284と、メモリ258と、を備える。
【0029】
プロセッサ252及びデジタルシグナルプロセッサ224は、プロセッサ、マイクロプロセッサ、シングルコアのプロセッサ、マルチコアのプロセッサ、マイクロコントローラ、プログラマブル論理回路(programmable logic device)(PLD)(例えば、フィールドプログラマブルゲートアレイ(field programmable gate array)(FPGA))、デジタル信号処理(digital signal processing)(DSP)デバイス、又は、他の論理デバイスのうちの1以上を備える場合がある。ここで他の論理デバイスは、ハードウェアにより、ソフトウェアを実行することにより、又は、これら両方の組合せにより、本開示の実施形態において本明細書で議論される様々な処理を実行するように構成され得る。ホストシステムコンポーネント250は、例えばバス又は他の電子的な通信インターフェースを通して、音声信号プロセッサ220及び他のホストシステムコンポーネント250と接続及び通信するように構成される。
【0030】
音声信号プロセッサ220及びホストシステムコンポーネント250は、ハードウェアコンポーネント、回路部、及び、ソフトウェアを組合せたものを組み込んでいるとして示されている。しかし、いくつかの実施形態では、実行するように作動可能なハードウェアコンポーネント及び回路部の機能のうち少なくともいくつか、あるいは全ては、プロセッサ252及び/又はデジタルシグナルプロセッサ224によって、メモリ258又はデジタルシグナルプロセッサ224のファームウェアに記憶されたソフトウェアの命令及び/又は設定データに応答して実行可能なソフトウェアのモジュールとして実装されうることが理解されよう。
【0031】
メモリ258は、音声データとプログラムの命令を含むデータ及び情報を記憶するように作動可能な1以上のメモリデバイスとして実装され得る。メモリ258は、RAM(Random Access Memory)、ROM(Read-Only Memory)、EEPROM(Electrically-Erasable Read-Only Memory)、フラッシュメモリ、ハードディスクドライブ、及び/又は、他の種類のメモリ、といった揮発性及び不揮発性のメモリデバイスを含む、1以上の様々な種類のメモリデバイスを備える場合がある。
【0032】
プロセッサ252は、メモリ258に記憶されたソフトウェアの命令を実行するように作動可能である場合がある。様々な実施形態では、発話認識エンジン260は、音声信号プロセッサ220から受信した強調された音声信号を処理するように作動可能である。この処理は、音声コマンドを識別及び実行することを含む。音声通信コンポーネント262は、モバイルデバイス284又はユーザーデバイス286のような1以上の外部デバイスとの、モバイルフォン又はセルラーフォンの通信網又はIPネットワーク間のVoIP通話を用いた通話のような音声通信を容易にするように作動可能な場合がある。様々な実施形態では、音声通信は、強調された音声信号を外部の通信デバイスに伝達することを含む。
【0033】
ユーザインターフェースコンポーネント254は、ディスプレイ、タッチパッドディスプレイ、キーパッド、1以上のボタン、及び/又は、ユーザーに音声処理デバイス200と直接にやり取りすることを可能にするように作動可能な他の入力/出力コンポーネントを含む場合がある。
【0034】
通信インターフェース256は、音声処理デバイス200と外部デバイスとの間の通信を容易にする。例えば、通信インターフェース256は、音声処理デバイス200と、1以上のローカルデバイスと、の間の(例えば、802.11の)Wi-Fi(登録商標)、又は、ブルートゥース(登録商標)による接続を可能にする場合がある。ここで1以上のローカルデバイスは、例えば、モバイルデバイス284、又は、リモートサーバ282に(ネットワーク280を介するような)ネットワークアクセスを提供するワイヤレスルータ、といったものである。様々な実施形態では、通信インターフェース256は、音声処理デバイス200と1以上の他のデバイスの間の直接又は間接の通信を容易にする、他の有線又は無線の通信コンポーネントを含み得る。
【0035】
図3は、本開示の様々な実施形態に係る、例示的な音声信号プロセッサ300を示す。いくつかの実施形態では、音声信号プロセッサ300は、アナログ及びデジタル回路部と、図2の音声信号プロセッサ220のようなデジタルシグナルプロセッサによって実装されたファームウェアロジックと、を含む1以上の集積回路として具体化される。図示されているように、音声信号プロセッサ300は、音声入力回路部315と、サブバンド周波数解析器320と、マルチトラックVADエンジン325と、音声強調エンジン330と、シンセサイザ335と、を備える。
【0036】
音声信号プロセッサ300は、少なくとも2個の音声センサ305a―nを備えるセンサアレイ305のような、複数の音声センサからマルチチャンネル音声入力を受信する。音声センサ305a―305nは、例えば、図2の音声処理デバイス200のような音声処理デバイス、又は、それに接続された外部コンポーネントと統合された複数のマイクロフォンを含み得る。音声センサ305a―305nの配列は、本開示の様々な実施形態により、音声信号プロセッサ300にとって既知であっても未知であっても良い。
【0037】
音声信号は、アンチエイリアシングフィルタ、アナログデジタルコンバータ、及び/又は、他の音声入力回路を備える場合がある音声入力回路部315によって最初に処理される場合がある。様々な実施形態では、音声入力回路部315は、デジタルで、マルチチャンネルな、時間領域の音声信号を出力する。ここで、Mはセンサ(例えば、マイクロフォン)入力の数である。マルチチャンネル音声信号は、当該マルチチャンネル音声信号を連続する複数のフレームに分割し、各チャンネルの各フレームを複数の周波数サブバンドに分解するサブバンド周波数解析器320に入力される。様々な実施形態では、サブバンド周波数解析器320は、フーリエ変換処理を含み、複数の周波数ビンを出力する。分解された音声信号は、その後、マルチトラックVADエンジン325と、音声強調エンジン330と、に供給される。
【0038】
マルチトラックVADエンジン325は、1以上の音声トラックのフレームを解析し、ターゲット音声アクティビティが現在のフレーム内に存在するかを示すVAD出力を生成するように作動可能である。上記で議論したように、ターゲット音声は、音声システムによって認識されるべき如何なる音声であっても良い。ターゲット音声が人間の発話であるときには、マルチトラックVADエンジン325は、特に発話アクティビティの検出のために実装され得る。様々な実施形態では、マルチトラックVADエンジン325は、音声データのフレームを受信し、音声データのフレームに対応するそれぞれの音声トラックにおけるターゲット音声の存在又は非存在に関するVAD指標出力を各音声トラックについて生成するように作動可能である。マルチトラックVADエンジン325の詳細な構成要素及び処理は、図4の400に関連して更に示される。
【0039】
音声強調エンジン330は、サブバンドフレームをサブバンド周波数解析器320から、VAD指標をマルチトラックVADエンジン325から、受信する。本開示の様々な実施形態において、音声強調エンジン330は受信したマルチトラックVAD指標に基づいてサブバンドフレームを処理して、マルチトラック音声信号を強調するように構成されている。例えば、音声強調エンジン330は、音声信号のうちターゲット音源の方向からと決定された部分を強調し、音声信号のうちノイズであると決定された他の部分を抑制する場合がある。
【0040】
ターゲット音声信号を強調した後、音声強調エンジン330は処理された音声信号をシンセサイザ335に渡す場合がある。様々な実施形態では、シンセサイザ335は、サブバンドを組み合わせることで、1以上のマルチチャンネル音声信号をフレーム毎に再構成して、時間領域の強調された音声信号を形成する。強調された音声信号はその後、再び時間領域に変換され、さらなる処理のためにシステムの構成要素又は外部デバイスに送られる。
【0041】
図4は、本開示の様々な実施形態に係る、一般のマイクロフォンアレイから複数の音声信号を処理するための例示的なマルチトラックVADエンジン400を示す。マルチトラックVADエンジン400は、デジタル回路部とデジタルシグナルプロセッサによって実行されるロジックの組合せとして実現され得る。いくつかの実施形態では、マルチトラックVADエンジン400は、図3の300のような音声処理プロセッサにインストールされている場合がある。マルチトラックVADエンジン400は、図3のマルチトラックVADエンジン325に、構造的、及び、機能的な詳細を更に提供し得る。
【0042】
本開示の様々な実施形態では、マルチトラックVADエンジン400は、サブバンド解析モジュール405、ブロックベースTDOA推定モジュール410、TDOA軌跡算定モジュール420、及び、マルチ音源トラッキング及びマルチストリームVAD推定モジュール430を備える。
【0043】
サブバンド解析モジュール405は、複数の音声信号402を受信する。音声信号402は、x(t)、m=1、…、M、で示され、時間領域でサンプルされた、全部でM個のマイクロフォン(例えば、図3の音声センサ305a-nと同様)のうちm番目のマイクロフォンで録音された音声信号である。音声信号x(t)、m=1、…、Mは、図3の音声入力回路部315を介して受信される場合がある。
【0044】
サブバンド解析モジュール405は、音声信号402を取得し、音声信号402を時間周波数領域表現404に変換するように構成されている。時間周波数領域表現404は、オリジナルの時間領域の音声信号x(t)に対応して、X(l,k)で表される。ここで、lはサブバンド時間のインデックスを示し、kは周波数バンドのインデックスを示す。例えば、サブバンド解析モジュール405は、フーリエ変換を実行して入力された時間領域の音声信号を周波数領域表現に変換する図3のサブバンド周波数解析器320と同様である場合がある。サブバンド解析モジュール405は、その後、生成された時間周波数領域表現404をブロックベースTDOA推定モジュール410と、マルチ音源トラッキング及びマルチストリームVAD推定モジュール430と、に送ることがある。
【0045】
TDOA軌跡算定モジュール420は、一般のマイクロフォンアレイ(例えば、一般のアレイ配置を形成する音声センサ305a-n)をスキャンするように構成されている。例えば、平面上のマイクロフォンアレイの所与の任意の配置について、許容可能なTDOAの位置の軌跡が、システム起動時に一度算定される。このポイントの軌跡により、ゴーストの形成を回避することが出来る。
【0046】
M個のマイクロフォンの配列について、第1マイクロフォンが基準マイクロフォンとして選択される場合がある。これにより、すべてが第1マイクロフォンに関連する、M-1対のマイクロフォン対が順次に得られる。例えば、図5Aは、例示的なマイクロフォン対を示す。マイクロフォン対は、i-1番目の対としてインデックスが付されるが、遠方の音源(遠方場モデルを想定)から放出された方位角θ及び仰角ゼロの入射レイ505について、i番目のマイクロフォン502と1番目の基準マイクロフォン501が含まれる。501及び502のマイクロフォン対の間の距離は、2つのマイクロフォン間の角度と共に、di-1と、ψi-1と、でそれぞれに表される。これらは、i番目のマイクロフォン502のデカルト座標が与えられれば算定可能である。入射レイ505が方位角θと仰角φの角度を有する一般的なケースでは、(i-1)番目のマイクロフォン対のTDOAは、
【数1】
として算定可能である。ここで、cは伝播速度である。
【0047】
異なる方位角及び仰角をスキャンした後、TDOA軌跡算定モジュール420は、許容可能なTDOAのメッシュを構築する場合がある。M個のマイクロフォンの全てがある平面上に位置する場合、結果のTDOA軌跡(θ及びφの全てのスキャンについて、
【数2】
となる)もまた(M-1)次元空間上のある平面上に位置する。M個のマイクロフォンの配置が異なると、(M-1)次元空間上の平面が異なることになる。
【0048】
例えば、図5Bでは、異なる2つの例示的なマイクロフォンの配置が、それぞれのTDOAメッシュと共に示されている。M=4個のマイクロフォンのセットが、510で示されている。ここで、第1マイクロフォンと第3マイクロフォンの間の距離は8cmであり、許容可能なTDOAのメッシュの結果は、515で示されているM-1=3次元空間である。520で示されているように第1マイクロフォンと第3マイクロフォンの距離が16cmに増えた場合に許容可能なTDOAのメッシュの結果は、525で示される。
【0049】
図4に戻って、TDOA軌跡算定モジュール420は、その後、(M-1)次元のTDOA403をブロックベースTDOA推定モジュール410に送る場合がある。ブロックベースTDOA推定モジュール410は、マルチ音源音声の時間周波数表現404と、TDOA403と、を受信する。TDOA推定モジュール410は、マルチ音源音声の時間周波数表現404と、TDOA403と、に基づいて、連続するフレームから取得したデータを用いてソースのマイクロフォン(例えば、図3の音声センサ305a-n)のTDOA情報を抽出する。
【0050】
一実施形態では、ブロックベースTDOA推定モジュール410は、TDOA情報をマルチ音源音声の時間周波数領域表現404からTDOA情報を取得するために、ステアード最小分散(steered minimum variance)(STMV)ビームフォーマーを用いる。より詳しくは、ブロックベースTDOA推定モジュール410はあるマイクロフォンを基準マイクロフォンとして選択し、そして、残りのM-1個のマイクロフォンと基準マイクロフォンとをペアリングすることにより、総数M-1対のマイクロフォン対を指定する場合がある。マイクロフォン対は、p=1、…、M-1でインデックスが付される。
【0051】
例えば、第1マイクロフォンが基準マイクロフォンとして選択され、これに応じて、X(l,k)が基準マイクロフォンからの音声の時間周波数表現を示す場合がある。p番目のマイクロフォンの対について、ブロックベースTDOA推定モジュール410はp番目の対の周波数表現を、行列形式の
【数3】
として算定する。ここで、( )は転置を示す。ブロックベースTDOA推定モジュール410は、そして、各周波数バンドkについてp番目の入力信号対を
【数4】
で算定する。ここで、( )はエルミート転置を示す。
【0052】
いくつかの実装では、Rp(k)の算定における加算は、特定の数の連続するフレームのブロックにわたって行われる。簡潔にするために、ここではブロックのインデックスは省略されている。
【0053】
ブロックベースTDOA推定モジュール410は、続いて、各対と周波数バンドについてのステアリング行列を以下のように構築する場合がある。
【数5】
ここで、τは、θとφ(簡潔にするために省略)の異なるスキャンの後にTDOA軌跡算定モジュール420から取得したp番目の対についてのTDOAである。fはkのバンドにおける周波数である。diag([a,b])は対角要素がa及びbである2×2の対角行列を示す。
【0054】
各マイクロフォン対pについて、ブロックベースTDOA推定モジュール410は、全ての周波数バンドにわたってコヒーレントに整列された方位共分散行列を、次のように構築する。
【数6】
【0055】
方位共分散行列C(τ)の算定は、マイクロフォン対p全体、及び、τについての方位角/仰角(θ,φ)のスキャン全てにわたって繰り返される。全てのスキャンにわたる計算量を低減するために、p番目のマイクロフォン対に対応するp次元それぞれのTDOA空間は、q個のセグメントに線形量子化される。処理の開始時(システムの起動時)において、方位角及び仰角(θ,φ)のそれぞれのスキャンニングから取得したTDOA軌跡ポイントである
【数7】
は、各次元について量子化された最も近いポイントにマップされる。方位角/仰角(θ,φ)について、
【数8】
のマッピングがメモリにセーブされる。ここで、
【数9】
は、角度θ及びφのスキャンニングに係るp次元の量子化されたTDOAのインデックスである。
【0056】
例えば、M=4個のマイクロフォンが存在し、方位角と仰角のスキャンがそれぞれ
【数10】
であるとする。実行される必要があるC(τ)の個別の計算の数は、
【数11】
である。TDOA軌跡ポイントである
【数12】
が量子化されたときには、TDOAの次元のうちいくつかがq個の量子化されたセグメントの中で同じセグメントに量子化され得るため、全ての計算を実行する必要があるわけでは無い。そのため、q=50の例では、C(τ)を算定するために必要となる個別の計算の最大数は、
【数13】
に低減される。TDOA量子化を含むC(τ)の算定を実行するための疑似コードは、次のアルゴリズム1としてあらわされる場合がある。
【表1】
【0057】
次に、対pのそれぞれについて、無歪の基準に従って、その同等の疑似尤度解でビームのパワーを最小化する方向は、次のように算定される。
【数14】
ここで、
【数15】
である。ブロックベースTDOA推定モジュール410は、その後、マイクロフォンのM-1個の全ての対について、STMV結合疑似尤度を次のように算定し得る。
【数16】
【0058】
M-1個の対の最大STMV結合疑似尤度をもたらす方位角及び仰角が、その後、次のように同定される。
【数17】
方位角及び仰角である
【数18】
が、その後、マルチ音源トラッキング及びマルチストリームVAD推定のために用いられる場合がある。可能な解法の一つは、各マイクロフォン対の2つのマイクロフォンの間の角度を直接にトラッキングすることを含む場合がある。しかしながら、360度の方位角のラップアラウンド効果によって、対にされたマイクロフォンの間の角度を直接にトラッキングしたときには、マイクロフォンの音源が0°を360°に向かって横切る場合、及び、逆の場合、トラックロスが生じる場合がある。そこで、そのような混乱を避けるために、対にされたマイクロフォンの間の角度に基づいて、次の極座標変換を用いて検出zが循環的に算定される。
【数19】
ここで、
【数20】
はスケーリング定数である。スケーリング定数は、測定空間を拡張して、トラッキングを角度のような有意な概念に係るパラメータで実行できるようにする場合がある。
【0059】
ブロックベースTDOA推定モジュール410は、その後、算定された検出zをマルチ音源トラッキング及びマルチストリームVAD推定モジュール430に送る。トラックの最大数である
【数21】
が存在する場合には、ブロックベースTDOA推定モジュール410から取得されたTDOAは、先行するステップから取得されたトラックを再帰的に更新することでトラックされる。詳細には、ブロック(時間ステップ)n-1において取得された検出がzn-1で表され、それまでにtn-1個のトラックが存在する場合、時間ステップnにおいて出現する新たな検出z406について、マルチ音源トラッキング及びマルチストリームVAD推定モジュール430が新たな検出zを既存のトラックのゲートに基づいて以下のように処理する。
【0060】
が、先行のtn-1個のうち1個のトラックのゲートに含まれる場合には、その特定のトラックが、検出zを組込むために更新される。
【0061】
が、先行する(複数の)tn-1個のトラックの重複するゲートに含まれる場合には、検出zを組込むために、検出zに最も近いトラックが更新される。
【0062】
が、先行のtn-1個のトラックのゲートの何れにも含まれず、トラックの最大数である
【数22】
が到達しない(例えば、
【数23】
)場合には、そして、検出zを組込むために新たなトラックが開始され、既存のトラックの数が時間ステップn(例えば、t=tn-1+1)で更新される。
【0063】
が、先行のtn-1個のトラックのゲートの何れにも含まれず、トラックの最大数である
【数24】
が到達する(例えば、
【数25】
)場合には、既存の
【数26】
個のトラックのうちパワーが最小であるトラックがキルされ、検出zを組込むために、新たなトラックに置換えられる。
【0064】
他の全てのトラックは(先行するステップと同様に)更新、開始、又は、置き換えられていないため、次に、これらのトラックは同じ平均値で更新される。しかし、不確実性を計算に入れるために、例えば、ランダムウォークモデルに基づいて、各トラックのそれぞれの分散は増加する。将来に出現する音源が開始される機会があるように、それぞれのトラックのパワーもまた減衰される。このように、時間ステップnにおいて最新の検出406を組込んだトラッキング結果408が、モジュール430に出力され得る。トラッキング結果408は、
【数27】
によって示される。
【0065】
全ての音声トラックが更新されたときには、モジュール430は、最近傍のM2T割当てを用いて、マルチストリームVAD412を生成する。詳細には、時間ステップnにおいて、M2T割当ては、検出zに最も近いトラックに1を割当て、他のトラックに0を割当てることで実行される場合がある。いくつかの実装では、前の時間ステップにおいて1になった後にゼロが完全に割り当てられるより前に中間値(例えば、-1)を取るように、VADにハングオーバーが適用される場合がある。このようにして、それぞれのトラック内で発話アクティビティが検出されたかをそれぞれに示す、
【数28】
として表されるマルチストリームVAD412は、音声強調のためにモジュール430から、例えば、図3の音声強調エンジン330へと出力される。
【0066】
図6は、本開示の様々な実施形態に係る、マルチ音源トラッキング及びVADによりマルチ音源音声信号を強調するための例示的な方法600を示す。いくつかの実施形態では、方法600は、音声信号プロセッサ300の1以上のコンポーネントによって、及び/又は、マルチトラックVADエンジン400の1以上のコンポーネントによって実行される場合がある。
【0067】
方法600は、マイクロフォンアレイの空間情報に基づいてTDOA軌跡情報が算定され得るステップ602で開始される。例えば、TDOA軌跡情報は、マイクロフォンアレイを様々な方位角及び入射角を有する入射レイでスキャンすることにより、システムの起動時に一度算定される場合がある。算定は、図7を参照してさらに説明するように、マイクロフォンアレイからのマイクロフォンを対にすることで構築された多次元空間において、計算の複雑さが低減された状態で実行される得る。
【0068】
ステップ602についてさらに詳細なステップを提供する図7を参照して、ステップ702において、マイクロフォンアレイから第1マイクロフォンが基準マイクロフォンとして選択される場合がある。ステップ704において、マイクロフォンアレイの残るマイクロフォンが、それぞれ基準マイクロフォンと対にされる場合がある。ステップ706において、各マイクロフォン対について、入射レイの特定の方位角及び特定の仰角に対応するTDOA位置が、(例えば、図4を参照して説明された式(1)により)それぞれの対の中の2個のマイクロフォン間の距離及び角度に基づいて算定される場合がある。入射レイの特定の方位角及び特定の仰角を有する例示的なマイクロフォン対が、図5Aにおいても示されている。
【0069】
ステップ708において、処理されるべき更なるマイクロフォン対が存在する場合、本方法は、ステップ710において次のマイクロフォン対を抽出し、全てのマイクロフォン対についてのTDOA位置が算定されるまで、ステップ706を繰り返す。
【0070】
ステップ712において、方位角及び仰角の更なるスキャンが存在する場合、本方法はステップS714において方位角及び仰角の次のスキャンを抽出し、方位角及び仰角の全てのスキャンについてTDOA位置が算定されるまでステップ706を繰り返す。
【0071】
ステップ712において、(例えば、全てのマイクロフォン対について方位角及び仰角のスキャン全体にわたってTDOA位置が算定されたといったように)処理されるべき更なる方位角/仰角のスキャンが存在しない場合、ステップ716においてTDOA位置ポイントのメッシュが形成され得る。マイクロフォンアレイの異なる配置に対応するTDOA位置ポイントの例示的なメッシュが、図5Bで示されている。
【0072】
図6に戻って、システム起動時にTDOA位置情報を算定すると、方法600はステップ604に移行する。ステップ604において、1以上のマルチ音源音声信号がマイクロフォンアレイから受信される場合がある。例えば、図4のマルチ音源音声402の時間領域上のサンプルが、図3の音声入力回路部315を介して受信される。
【0073】
ステップ606において、1以上のマルチ音源音声信号が時間領域から時間周波数表現に変換される場合がある。例えば、図4に関連して説明したように、サブバンド解析モジュール405は時間領域信号を時間周波数表現に変換する場合がある。
【0074】
ステップ608において、算定されたTDOA軌跡に基づいて、STMVビームフォーマーにより、1以上のマルチ音源音声信号についてTDOA検出データが算定される場合がある。例えば、各マイクロフォン対について、それぞれのマイクロフォン対からの1以上のマルチ音源音声信号の時間周波数表現を用いて、全ての周波数バンドの共分散行列が(例えば、図4に関連して説明された式(2)により)算定される場合がある。そして、それぞれのマイクロフォン対に対応する方位角及び仰角の異なるスキャンについてのTDOA位置に基づいて、ステアリング行列が全ての周波数バンドについて(例えば、図4に関連して説明された式(3)により)構築される場合がある。方位共分散行列が、構築されたステアリング行列及び算定された共分散行列に基づいて、全ての周波数バンドにわたって(例えば、図4に関連して説明された式(4)により)整列されて構築される場合がある。ビームのパワーを最小化する疑似尤度解が、構築された方位共分散行列に基づいて、(例えば、図4を参照して説明された式(5)により)決定される場合がある。そして、SMTV結合疑似尤度が、全てのマイクロフォン対にわたって決定された全ての疑似尤度解の積をとることで(例えば、図4を参照して説明された式(6)により)算定される場合がある。STMV結合疑似尤度を最大化する方位角及び仰角の対が、(例えば、図4を参照して説明された式(7)により)決定される場合がある。決定された方位角及び仰角の対は、(例えば、図4を参照して説明された式(8)により)TDOA検出データを示す極座標表現に変換される場合がある。
【0075】
ステップ610において、複数の音声トラックが更新される場合があり、現在の時間ステップまでに算定されたTDOA検出データに基づいて、VADデータが構築される場合がある。例えば、現在の時間ステップに対応するTDOA検出と、現在の時間ステップまでに先行して確立された既存の音声トラックのセットと、が同定される場合がある。そして、方法600は、TDOA検出を既存の音声トラックの一つに組み込むか、新たな音声トラックを構築するかを、TDOA検出と既存の音声トラックのゲートの比較に基づいて(図4のモジュール430に関連して説明されたように)決定する場合がある。他の例として、方法600は、それぞれの音声トラックがTDOA検出に最も近いときに、それぞれの音声トラックのVADに第1の値を割当て、他の音声トラックのVADに第2の値を割当てる場合がある(図4のモジュール430に関連して説明されたように)。
【0076】
ステップ612において、更新された複数の音声トラック及び構築されたVADデータを用いて、1以上の強調されたマルチ音源音声信号が生成される場合がある。例えば、強調されたマルチ音源信号は、次に、様々なデバイス又はコンポーネントに伝達される場合がある。例えば、強調されたマルチ音源信号はパケット化され、ネットワークを超えて他の音声出力デバイス(例えば、スマートフォン、コンピュータ等)に伝達される場合がある。強調されたマルチ音源信号は、更なる処理のために、自動化された発話認識コンポーネントのような声処理回路部にもまた伝達される場合がある。
【0077】
前述の開示は、開示された正確な形態または特定の使用分野に本発明を限定することを意図したものでは無い。したがって、本開示に照らして、本明細書で明示的に説明された又は暗示されたかにかかわらず、本開示について様々な代替の実施形態、及び/又は、変形例が可能であると考えられる。例えば、本明細書で説明された実施形態は、ヒューマン・マシンインタラクションのタスクを管理する目的で、複数の音源の環境内での位置を提供されるために(例えば、ビデオストリーム、3Dカメラ、Lidar、等のような他の様式からの追加情報と組み合わせたアプリケーションで)用いられる場合がある。ここまで本開示の実施形態を説明したが、当業者は従来のアプローチに対する利点を認識し、本開示の範囲から逸脱することなく、形態および詳細が変更可能であることを認識するだろう。したがって、本開示は、特許請求の範囲によってのみ限定される。
図1
図2
図3
図4
図5A
図5B
図6
図7