特許第6042858号(P6042858)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ マイクロソフト テクノロジー ライセンシング,エルエルシーの特許一覧

<>
  • 特許6042858-マルチセンサ音源定位 図000049
  • 特許6042858-マルチセンサ音源定位 図000050
  • 特許6042858-マルチセンサ音源定位 図000051
  • 特許6042858-マルチセンサ音源定位 図000052
  • 特許6042858-マルチセンサ音源定位 図000053
  • 特許6042858-マルチセンサ音源定位 図000054
  • 特許6042858-マルチセンサ音源定位 図000055
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6042858
(24)【登録日】2016年11月18日
(45)【発行日】2016年12月14日
(54)【発明の名称】マルチセンサ音源定位
(51)【国際特許分類】
   G01S 5/30 20060101AFI20161206BHJP
【FI】
   G01S5/30
【請求項の数】8
【全頁数】22
(21)【出願番号】特願2014-220389(P2014-220389)
(22)【出願日】2014年10月29日
(62)【分割の表示】特願2009-547447(P2009-547447)の分割
【原出願日】2008年1月26日
(65)【公開番号】特開2015-42989(P2015-42989A)
(43)【公開日】2015年3月5日
【審査請求日】2014年10月29日
(31)【優先権主張番号】11/627,799
(32)【優先日】2007年1月26日
(33)【優先権主張国】US
【前置審査】
(73)【特許権者】
【識別番号】314015767
【氏名又は名称】マイクロソフト テクノロジー ライセンシング,エルエルシー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】チャ チャン
(72)【発明者】
【氏名】ジネイ フロレンチオ
(72)【発明者】
【氏名】チェンユー チャン
【審査官】 中村 説志
(56)【参考文献】
【文献】 特開2006−276020(JP,A)
【文献】 特開昭60−108779(JP,A)
【文献】 特開平04−238284(JP,A)
【文献】 特表2005−529350(JP,A)
【文献】 特開2005−249789(JP,A)
【文献】 特開2002−277228(JP,A)
【文献】 特開平09−021863(JP,A)
【文献】 特開平05−045439(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G01S 5/18− 5/30
(57)【特許請求の範囲】
【請求項1】
残響及び環境雑音を示す環境内の音源が発する音を拾うように配置した複数の音声センサを有するマイクロホンアレイにより出力される信号を用いて音源の位置を推定するコンピュータ実装型プロセスであって、コンピュータを用いて実施する以下のプロセス動作、すなわち、
前記音声センサの各々により出力される前記信号を入力するステップと、
最尤計算を用いて音源の位置を特定するステップであって、前記音源の位置は、前記音源の位置から音が発せられた場合に、前記音声センサにより出力される実際の信号に最も近似にマッチする、前記音声センサにより出力される前記信号をもたらすこととなる、前記音源の位置から前記音声センサの各々への、前記発せられた音の伝播時間を示す位置であり、前記最尤計算は、前記実際の信号に最も近似にマッチする前記信号を計算する際に、前記音声センサ毎の遅延副成分および振幅副成分を含む音声センサ応答の推定を用いるものであり、音声センサの前記センサ応答の遅延副成分は前記音源が発する音の前記音声センサへの伝播時間に依存する、特定するステップと、
前記特定された音源の位置を推定音源位置として指定するステップと
を備え
前記音源の位置を特定する前記プロセス動作は、
各センサ出力信号を、
前記音源が発する音に応答して前記音声センサにより生成され、前記遅延副成分と前記振幅副成分とを含む前記センサ応答により修正される音源信号と、
前記音源が発する前記音の残響に応答して前記音声センサにより生成される残響雑音信号と、
環境雑音に応答して前記音声センサにより生成される環境雑音信号と
を含む信号成分の組合せとして特徴付けるステップと、
各音声センサに関連する前記センサ応答の振幅副成分、残響雑音信号及び環境雑音信号を測定又は推定するステップと、
前記音声センサの各々に対する所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定するステップであって、各候補音源位置は前記音源の可能な位置を表すステップと、
前記センサの前記センサ応答により修正されていなければ前記音源が発する音に応答して各音声センサにより生成されることとなる推定音源信号を、各候補音源位置に対する各音声センサに関連する、測定又は推定したセンサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を用いて計算するステップと、
各音声センサに対する推定センサ応答出力信号を、各候補音源位置に対する各音声センサに関連する、測定又は推定した音源信号、センサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を用いて計算するステップと、
各音声センサに対する推定したセンサ出力信号を対応する実際のセンサ出力信号と比較し、どちらの候補音源位置が、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定するステップと、
前記最も近い組の推定センサ出力信号に関連する前記候補音源位置を、選択された音源位置として指定するステップと
の動作を備え
どちらの候補音源位置が、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定するステップの前記プロセス動作は、
ωは着目する周波数を示し、Pを音声センサiの総数、αi(ω)を前記音声センサ応答の前記振幅副成分、γを所定の雑音パラメータ、|Xi(ω)|2を前記センサ信号Xi(ω)に対する音声センサの出力信号電力スペクトル、E{|Ni(ω)|2}を前記信号Xi(ω)の期待される環境雑音電力スペクトルとし、*は複素共役を示し、及びτiを、前記音源が前記候補音源位置にあった場合の前記音源が発する音の前記音声センサiへの伝播時間とした場合、各候補音源位置に対して、式
【数1】
を計算するステップと、
前記式を最大化する前記候補音源位置を、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成する音源位置として指定するステップと
の動作を含むことを特徴とする
ンピュータ実装型プロセス。
【請求項2】
残響及び環境雑音を示す環境内の音源が発する音を拾うように配置した複数の音声センサを有するマイクロホンアレイにより出力される信号を用いて音源の位置を推定するコンピュータ実装型プロセスであって、コンピュータを用いて実施する以下のプロセス動作、すなわち、
前記音声センサの各々により出力される前記信号を入力するステップと、
最尤計算を用いて音源の位置を特定するステップであって、前記音源の位置は、前記音源の位置から音が発せられた場合に、前記音声センサにより出力される実際の信号に最も近似にマッチする、前記音声センサにより出力される前記信号をもたらすこととなる、前記音源の位置から前記音声センサの各々への、前記発せられた音の伝播時間を示す位置であり、前記最尤計算は、前記実際の信号に最も近似にマッチする前記信号を計算する際に、前記音声センサ毎の遅延副成分および振幅副成分を含む音声センサ応答の推定を用いるものであり、音声センサの前記センサ応答の遅延副成分は前記音源が発する音の前記音声センサへの伝播時間に依存する、特定するステップと、
前記特定された音源の位置を推定音源位置として指定するステップと
を備え、
前記音源の位置を特定する前記プロセス動作は、
各センサ出力信号を、
前記音源が発する音に応答して前記音声センサにより生成され、前記遅延副成分と前記振幅副成分とを含む前記センサ応答により修正される音源信号と、
前記音源が発する前記音の残響に応答して前記音声センサにより生成される残響雑音信号と、
環境雑音に応答して前記音声センサにより生成される環境雑音信号と
を含む信号成分の組合せとして特徴付けるステップと、
各音声センサに関連する前記センサ応答の振幅副成分、残響雑音信号及び環境雑音信号を測定又は推定するステップと、
前記音声センサの各々に対する所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定するステップであって、各候補音源位置は前記音源の可能な位置を表すステップと、
前記センサの前記センサ応答により修正されていなければ前記音源が発する音に応答して各音声センサにより生成されることとなる推定音源信号を、各候補音源位置に対する各音声センサに関連する、測定又は推定したセンサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を用いて計算するステップと、
各音声センサに対する推定センサ応答出力信号を、各候補音源位置に対する各音声センサに関連する、測定又は推定した音源信号、センサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を用いて計算するステップと、
各音声センサに対する推定したセンサ出力信号を対応する実際のセンサ出力信号と比較し、どちらの候補音源位置が、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定するステップと、
前記最も近い組の推定センサ出力信号に関連する前記候補音源位置を、選択された音源位置として指定するステップと
の動作を備え、
どちらの候補音源位置が、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定するステップの前記プロセス動作は、
ωは着目する周波数を示し、Pを音声センサiの総数、γを所定の雑音パラメータ、|Xi(ω)|2を前記センサ信号Xi(ω)に対する音声センサの出力信号電力スペクトル、E{|Ni(ω)|2}を前記信号Xi(ω)の期待される環境雑音電力スペクトル、及びτiを、前記音源が前記候補音源位置にあった場合の前記音源が発する音の前記音声センサiへの伝播時間とした場合、各候補音源位置に対して、式
【数2】
を計算するステップと、
前記式を最大化する前記候補音源位置を、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成する音源位置として指定するステップと
の動作を含むことを特徴とする
コンピュータ実装型プロセス。
【請求項3】
残響及び環境雑音を示す環境において音源の位置を推定するシステムであって、
前記音源が発する音を拾うように配置した2つ又は複数の音声センサを有するマイクロホンアレイと、
汎用目的コンピューティング装置と、
前記コンピューティング装置により実行可能なプログラムモジュールを含むコンピュータプログラムであって、前記コンピューティング装置は、前記コンピュータプログラムの前記プログラムモジュールにより、
前記音声センサの各々により出力される信号を入力し、
各音声センサ出力信号の周波数変換を計算し、
各々が前記音源の可能な位置を表す一組の候補音源位置を定め、
各候補音源位置及び各音声センサに対して、iがいずれかの音声センサを表すものとして、前記候補音源位置から前記音声センサまでの伝播時間τiを計算し、
各周波数変換した音声センサ出力信号の着目する各周波数に対して、
ωは着目するいずれかの周波数を表すものとし、前記信号に関連すると期待される環境雑音電力スペクトルである、前記信号Xi(ω)の期待される環境雑音電力スペクトルE{|Ni(ω)|2}を推定し、
前記信号Xi(ω)に対して音声センサ出力信号電力スペクトル|Xi(ω)|2を計算し、
前記信号Xi(ω)に関連する前記センサの音声センサ応答の振幅副成分αi(ω)を測定し、
Pを音声センサの総数とし、*は複素共役を示し、及びγを所定の雑音パラメータとした場合、各候補音源位置に対して式
【数3】
を計算し、
前記式を最大化する前記候補音源位置を推定音源位置として指定するように指示されるコンピュータプログラムと
を含むシステム。
【請求項4】
前記マイクロホンアレイにより出力される前記信号はデジタル信号であり、前記音声センサ出力信号の各々の着目する周波数、各信号の前記期待される環境雑音電力スペクトル、各信号の前記音声センサ出力信号電力スペクトル、及び前記信号に関連する前記音声センサ応答の前記振幅成分は、前記デジタル信号により定義される周波数ビンであり、前記式は、前記周波数に渡る積分としてではなく前記周波数ビンの全てに渡る総和として計算されることを特徴とする請求項に記載のシステム。
【請求項5】
各音声センサ出力信号の周波数変換を計算する前記プログラムモジュールは、前記周波数変換を、前記音源により示されることが分かっている周波数のみに限定するためのサブモジュールを含むことを特徴とする請求項に記載のシステム。
【請求項6】
前記所定の雑音パラメータγは0.1から0.5の間の範囲の値であることを特徴とする請求項に記載のシステム。
【請求項7】
残響及び環境雑音を示す環境において音源の位置を推定するシステムであって、
前記音源が発する音を拾うように配置した2つ又は複数の音声センサを有するマイクロホンアレイと、
汎用目的コンピューティング装置と、
前記コンピューティング装置により実行可能なプログラムモジュールを含むコンピュータプログラムであって、前記コンピューティング装置は、前記コンピュータプログラムの前記プログラムモジュールにより、
前記音声センサの各々により出力される信号を入力し、
各音声センサ出力信号の周波数変換を計算し、
各々が前記音源の可能な位置を表す一組の候補音源位置を定め、
iがいずれかの音声センサを表すものとした場合に、各候補音源位置及び各音声センサに対して、前記候補音源位置から前記音声センサまでの伝播時間τiを計算し、
各周波数変換した音声センサ出力信号の着目する各周波数に対して、
ωは着目するいずれかの周波数を表すものとし、前記信号に関連すると期待される環境雑音電力スペクトルである、前記信号Xi(ω)の期待される環境雑音電力スペクトルE{|Ni(ω)|2}を推定し、
前記信号Xi(ω)に対して音声センサ出力信号電力スペクトル|Xi(ω)|2を計算し、
Pを音声センサの総数、及びγを所定の雑音パラメータとした場合、各候補音源位置に対して、
【数4】
を計算し、
前記式を最大化する前記候補音源位置を推定音源位置として指定するように指示されるコンピュータプログラムと
を含むシステム。
【請求項8】
前記マイクロホンアレイにより出力される前記信号はデジタル信号であり、前記音声センサ出力信号の各々の着目する周波数、各信号の前記期待される環境雑音電力スペクトル、及び各信号の前記音声センサ出力信号電力スペクトルは、前記デジタル信号により定義されるところの周波数ビンであり、前記式は前記周波数に渡る積分としてではなく前記周波数ビンの全てに渡る総和として計算されることを特徴とする請求項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
マイクロホンアレイを用いる音源定位(SSL:sound source localization)が、人間とコンピュータの相互作用及びインテリジェントルームのような多くの重要な適用例で使用されている。多数のSSLアルゴリズムが、異なる程度の精度及び計算の複雑性で、提示されている。例えば、電話会議のような広帯域音源定位の適用例では、幾つかのSSL技術が普及している。これらには、制御型ビームフォーマ(SB:steered−beamfomer)、高解像度スペクトル推定、到着遅延時間(TDOA:time delay of arrival)、及び学習ベースの技術が含まれる。
【背景技術】
【0002】
TDOAアプローチに関して、大部分の既存のアルゴリズムでは、マイクロホンアレイ内の各音声センサ対を取り、その音声センサの相互相関関数を計算する。その環境内の残響と雑音を補償するために、しばしば相関を求める前に重み付け関数が使用される。幾つかの重み付け関数が試行されている。それらの中には最尤(ML)重み付け関数がある。
【0003】
しかし、これらの既存のTDOAアルゴリズムは、音声センサの対に対して最適な重みを見つけるように設計されている。複数のセンサ対がマイクロホンアレイに存在するときは、センサ対は独立で、それらの尤度を乗算できることが仮定される。センサ対が真に独立であることは一般にはないので、このアプローチは疑問である。従って、これらの既存のTDOAアルゴリズムは、複数の音声センサ対を有するマイクロホンアレイに対しては正確なMLアルゴリズムを表さない。
【発明の概要】
【課題を解決するための手段】
【0004】
本発明のマルチセンサ音源定位(SSL)技術では、複数の音声センサ対を有するマイクロホンアレイに対して正確な最尤(ML)処理を提供する。この技術は、残響及び環境雑音を示す環境内の音源が発する音を拾うように配置したマイクロホンアレイの各音声センサによって出力される信号を用いて、音源の位置を推定する。一般に、これは、アレイ内の全てのセンサから入力された音声センサ出力信号が同時に生成される尤度を最大化する、音源からアレイの音声センサへの伝播時間をもたらす音源の位置を選択することで実現される。尤度は、センサ各々の音源信号に対する未知の音声センサ応答を推定する一意の項を含む。
【0005】
「背景技術」の項で説明した既存のSSL技術における前述の欠点は、本発明によるマルチセンサSSL技術の特定の実装で解決することができるが、この実装は述べた欠点のいずれか又は全てを解決するだけの実装に限定されることは決してないことに留意されたい。そうではなく、後に続く説明から明らかになるように、本発明の技術の適用範囲はそれよりかなり広い。
【0006】
本「発明の概要」は、後の「発明を実施するための形態」でさらに説明する選択した概念を、簡潔な形で導入するために提供していることにも留意されたい。本「発明の概要」は、特許請求の範囲に記載されている主題の主要な機能又は本質的な機能を特定することは意図しておらず、特許請求の範囲に記載されている主題の範囲を決定する際の補助として使用することも意図していない。今説明した利益に加えて、本発明の他の利点は、添付の図面と併せて考慮するとき、後に続く発明を実施するための形態から明らかになるであろう。
【0007】
本発明の具体的な機能、態様、及び利点は、以下の説明、添付の特許請求の範囲、及び付属の図面に関してより良く理解されよう。
【図面の簡単な説明】
【0008】
図1】本発明を実装する例示的なシステムを構成する、汎用目的のコンピューティング装置を示す図である。
図2】マイクロホンアレイによって出力される信号を用いて音源の位置を推定する技術を一般的に概説する流れ図である。
図3】マイクロホンアレイの音声センサの出力を構成する信号成分の特徴付けを示すブロック図である。
図4A図2のマルチセンサ音源定位を実装する技術の実施形態を一般的に概説する連続的な流れ図である。
図4B図2のマルチセンサ音源定位を実装する技術の実施形態を一般的に概説する連続的な流れ図である。
図5A図4Aのマルチセンサ音源定位の数学的実装を一般的に概説する連続的な流れ図である。
図5B図4Bのマルチセンサ音源定位の数学的実装を一般的に概説する連続的な流れ図である。
【発明を実施するための形態】
【0009】
以下の本発明の実施形態の説明では、その説明の一部を構成する付属図面への参照がなされる。図面では、例として、本発明を実施できる具体的な実施形態を示してある。他の実施形態を利用してもよく、本発明の範囲を逸脱しなければ構造的な変更を加えてもよいことは理解されよう。
【0010】
1.0 コンピューティング環境
本発明のマルチセンサSSL技術の実施形態の説明を提供する前に、この実施形態の一部を実装できる適切なコンピューティング環境の、簡潔且つ一般的な説明を行う。本発明のマルチセンサSSL技術は、多数の汎用目的又は特殊目的のコンピューティングシステム環境又は構成で動作可能である。適切である可能性がある公知なコンピューティングシステム、環境、及び/又は構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド又はラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システム又は装置のいずれかを含む分散コンピューティング環境、等が含まれるが、これらに限らない。
【0011】
図1は、適切なコンピューティングシステム環境の例を示す。このコンピューティングシステム環境は、適切なコンピューティング環境の一例に過ぎず、本発明のマルチセンサSSL技術の使用範囲又は機能範囲に関するいかなる限定を示唆することも意図していない。また、このコンピューティング環境は、例示的な動作環境で示した構成要素のいずれか1つ又はその組合せに関していかなる依存性又は要件を有するとも解釈すべきではい。図1を参照すると、本発明のマルチセンサSSL技術を実装する例示的なシステムは、コンピューティング装置100のようなコンピューティング装置を含む。その最も基本的な構成では、コンピューティング装置100は、一般に少なくとも1つの処理装置102とメモリ104とを含む。コンピューティング装置の正確な構成と種類に応じて、メモリ104は、(RAMのような)揮発性、(ROM、フラッシュメモリ、等のような)不揮発性、又はその2つの何らかの組合せであることができる。この最も基本的な構成を図1では点線106で示す。さらに、装置100は追加の機能/機能性を有してもよい。例えば、装置100は、追加の(取外し可能及び/又は取外し不能な)記憶装置を含むこともできる。この記憶装置には、磁気ディスクもしくは光ディスク又はテープが含まれるがこれらに限らない。係る追加の記憶装置を、図1では取外し可能記憶装置108及び取外し不能記憶装置110で示す。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータのような情報を記憶するための任意の方法又は技術で実装した揮発性及び不揮発性媒体、取外し可能及び取外し不能媒体が含まれる。メモリ104、取外し可能記憶装置108及び取外し不能記憶装置110は全てコンピュータ記憶媒体の例である。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、DVD(dgital versatile disk)もしくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、又は所望の情報の記憶に使用可能で装置100がアクセス可能な他の任意の媒体が含まれるが、これらに限らない。係る任意のコンピュータ記憶媒体は装置100の一部であることができる。
【0012】
装置100は、この装置が他の装置と通信するのを可能にする通信接続112を含むこともできる。通信接続112は、通信媒体の例である。通信媒体は、一般にコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータを、搬送波又は他の伝送機構のような変調データ信号で具体化し、任意の情報配信媒体を含む。「変調データ信号」という用語は、その1つ又は複数の特性集合を有するか、又は信号内の情報を符号化するように変化した信号を意味する。限定ではなく例として、通信媒体には、有線ネットワーク又は直接有線接続のような有線媒体、ならびに音響、RF、赤外線及び他の無線媒体のような無線媒体が含まれる。本明細書で使用するコンピュータ可読媒体という用語は、記憶媒体と通信媒体の両方を含む。
【0013】
装置100は、キーボード、マウス、ペン、音声入力装置、タッチ入力装置、カメラ、等のような入力装置114も有することができる。ディスプレイ、スピーカ、プリンタ、等のような出力装置116も含めることができる。これらの装置は全て当分野で公知であり、ここで詳細に説明する必要はない。
【0014】
特筆すべきは、装置100が複数の音声センサを有するマイクロホンアレイ118を含み、その各々は音を捕捉し、捕捉した音を代表する出力信号を生成できることである。音声センサの出力信号は、適切なインタフェース(図示せず)を介して装置100に入力される。しかし、マイクロホンアレイの使用を必要とせずに、音声データを同様に任意のコンピュータ可読媒体から装置100へ入力することもできることに留意されたい。
【0015】
本発明のマルチセンサSSL技術を、プログラムモジュールのような、コンピュータ装置により実行されるコンピュータ実行可能命令の一般的な文脈で説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造、等が含まれる。本発明のマルチセンサSSL技術を、通信ネットワークを通して接続したリモート処理装置によりタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールを、メモリ記憶装置を含むローカルコンピュータの記憶媒体とリモートコンピュータの記憶媒体との両方に配置することができる。
【0016】
例示的な動作環境を説明してきたので、この発明を実施するための形態の残りの部分は、専ら、本発明のマルチセンサSSL技術を具体化するプログラムモジュールに関する説明に充てる。
【0017】
2.0 マルチセンサ音源定位(SSL)
本発明のマルチセンサ音源定位(SSL)技術は、残響及び環境雑音を示す環境内の音源が発する音を拾うように配置した複数の音声センサを有するマイクロホンアレイにより出力される信号を用いて、音源の位置を推定する。図2を参照すると、一般に本発明の技術は、このアレイ内の各音声センサからの出力信号をまず入力することを伴う(200)。次に、全ての入力した音声センサ出力信号が同時に生成される尤度を最大化する、音源から音声センサへの伝播時間をもたらすこととなる音源の位置を選択する(202)。次に、選択した位置を、推定音源位置として指定する(204)。
【0018】
本技術、及び特に前述の音源位置の選択方法を以下の節でより詳細に説明する。既存のアプローチの数学的説明から始める。
【0019】
2.1 既存のアプローチ
P個の音声センサからなるアレイを考える。音源s(t)が与えられると、これらのセンサで受信される信号を次のようにモデル化することができる。
【0020】
【数1】
【0021】
ここで、i=1,・・・,Pはセンサのインデックスであり、τiは音源位置からi番目のセンサ位置までの伝播時間であり、αiは信号の伝播エネルギー減衰、対応するセンサの利得、音源及びセンサの指向性、ならびに他の因子を含む音声センサの応答係数であり、ni(t)はi番目のセンサにより感知された雑音であり、
【0022】
【0023】
は、しばしば残響と呼ばれる、環境応答関数と音源信号との間の畳み込みを表す。通常は、周波数領域で作業をする方がより効率的である。周波数領域では上記モデルを次のように書き換えることができる。
【0024】
【数2】
【0025】
従って、図3に示すように、アレイ内の各センサに対して、音源が発する音に応答して音声センサにより生成され、遅延副成分e-jωτ304及び振幅副成分α(ω)306を含むセンサ応答により修正される音源信号S(ω)302と、音源が発する音の残響に応答して音声センサにより生成される残響雑音信号H(ω)308と、環境雑音に応答して音声センサにより生成される環境雑音信号N(ω)310との組合せとして、センサの出力X(ω)300を特徴付けることができる。
【0026】
最も分かりやすいSSL技術は、センサの各対を取って、このセンサの相互相関関数を計算することである。例えば、センサiとkで受信した信号間の相関は次のようになる。
【0027】
【数3】
【0028】
上の相関を最大化するτが2つの信号間の推定時間遅延である。実際には、次のように上の相互相関関数を周波数領域でより効率的に計算することができる。
【0029】
【数4】
【0030】
ここで、*は複素共役を表す。式(2)を式(4)に当てはめ、残響項を無視し、雑音と音源信号が独立であると仮定すると、上記相関を最大化するτはτi−τkとなり、これは2つのセンサ間の実際の遅延である。3つ以上のセンサを考えると、全ての可能なセンサの対に対して総和を取ると次式が得られる。
【0031】
【数5】
【0032】
一般的に行われることは、仮説検定を通して上記相関を最大化することである。この場合、sは仮定した音源位置であり、右辺のτiを決定する。式(6)はマイクロホンアレイの制御型応答電力(SRP:steered response power)としても知られている。
【0033】
SSLの精度に影響を及ぼす可能性のある残響及び雑音に対処するため、相関を求める前に重み付け関数を加えることが非常に有用であることが分かっている。従って、式(5)は次のように書き換えられる。
【0034】
【数6】
【0035】
幾つかの重み付け関数が試みられてきた。そのうち、次式で定義される経験則ベースのPHAT重み付けが、現実的な音響条件下で非常に良く動作することが分かっている。
【0036】
【数7】
【0037】
式(8)を式(7)に代入すると次式が得られる。
【0038】
【数8】
【0039】
このアルゴリズムはSRP-PHATと呼ばれている。重み付け及び総和の数が式(7)内のP2個からP個に減るので、SRP-PHATは計算するのに非常に効率的であることを留意されたい。
【0040】
より理論的に信頼できる重み付け関数は、最尤(ML)定式化であり、高い信号対雑音比と残響がないことが仮定される。センサ対の重み付け関数は次式のように定義される。
【0041】
【数9】
【0042】
式(10)を式(7)に代入してMLベースのアルゴリズムを得ることができる。このアルゴリズムは、環境雑音に対して堅牢であることが知られているが、残響がその導出中にモデル化されないため、実世界の適用では性能が比較的劣る。改良版では残響を明確に考慮している。この残響は、別の種類の雑音として扱われる。すなわち、
【0043】
【数10】
【0044】
である。ここで、
【0045】
【数11】
【0046】
は結合雑音又は総雑音である。次に、式(11)を式(10)に代入する(Ni(ω)を
【0047】
【数12】
【0048】
で置換して新規の重み付け関数を得る)。さらに式(11)を幾分近似すると、
【0049】
【数13】
【0050】
となる。この式の計算効率はSRP-PHATに近い。
【0051】
2.2 本発明の技術
式(10)から導出したアルゴリズムは正確なMLアルゴリズムではないことに留意されたい。これは、式(10)中の最適な重みが2つのセンサに対してしか導出されないからである。3つ以上のセンサを使用するときは、式(7)の採用はセンサ対が独立でありそれらの尤度を乗算できることを仮定するが、これは疑問である。本発明のマルチセンサSSL技術は複数の音声センサの場合に対して正確なMLアルゴリズムであり、これを次に説明する。
【0052】
前述のように、本発明のマルチセンサSSLは、入力された音声センサ出力信号を生成する尤度を最大化する、音源から音声センサへの伝播時間をもたらす音源の位置を選択することを伴う。このタスクを実行する技術の一実施形態を図4A-Bに概説する。本技術は、マイクロホンアレイ内の各音声センサからの信号出力を信号成分の組合せとして特徴付けることに基づく。これらの成分は、音源が発する音に応答して音声センサにより生成され、遅延副成分と振幅副成分とを含むセンサ応答により修正される音源信号を含む。また、音源が発した音の残響に応答して音声センサにより生成される残響雑音信号がある。さらに、環境雑音に応答して音声センサにより生成される環境雑音信号がある。
【0053】
前述の特徴づけが与えられると、本技術は、音声センサ出力信号の各々に対してセンサ応答の振幅副成分、残響雑音、及び環境雑音を測定又は推定することにより開始する(400)。環境雑音に関して、これを音響信号の無音期間に基づいて推定することができる。これらは、音源及び残響雑音の信号成分を含まないセンサ信号の部分である。残響雑音に関して、これを、推定した環境雑音信号より少ない所定の割合のセンサ出力信号として推定することができる。この所定の割合は一般に、典型的には環境内で遭遇する音の残響に起因するセンサ出力信号の割合であり、環境の状況に依存する。例えば、この所定の割合は、環境が音を吸収するときは小さく、音源がマイクロホンアレイ近傍にあると予想されるときは小さい。
【0054】
次に、一組の候補音源位置を定める(402)。この候補位置の各々は、可能な音源の位置を表す。この最後のタスクは、様々な方法で行うことができる。例えば、この位置を、マイクロホンアレイを取り囲んでいる標準的なパターンで選択することができる。1つの実装では、これを、アレイの音声センサにより定義される平面内に位置する、半径が増大していく一組の同心円の各々の周りの、一定間隔にある点を選択することで達成する。候補位置を定める方法の別の例では、音源が一般に存在することが分かっている、アレイを取り囲む環境の領域中で位置を選択することを伴う。例えば、マイクロホンアレイからの音源の方向を発見する従来の方法を使用することができる。いったん方向が決まると、環境内のその一般的な方向にある領域中で候補位置が選択される。
【0055】
本技術は、続いて以前に未選択であった候補音源位置を選択する(404)。次に、選択した候補位置が実際の音源位置であったならば現れたであろうセンサ応答遅延副成分を、音声センサ出力信号の各々に対して推定する(406)。音声センサの遅延副成分は音源からセンサまでの伝播時間に依存することに留意されたい。これは後でさらに詳細に説明する。この遅延副成分が与えられ、各音声センサの位置を前もって知っていると仮定すると、各候補音源位置から音声センサの各々への音の伝播時間を計算することができる。センサ応答遅延副成分を推定するために使用されるのは、この伝播時間である。
【0056】
センサ応答の副成分、すなわち、音声センサ出力信号の各々に関連する残響雑音及び環境雑音に対して測定値又は推定値が与えられると、(センサの応答により修正されていなければ)選択した候補位置にある音源が発する音に応答して各音声センサにより生成されるであろう音源信号を、前述した音声センサの出力信号の特徴付けに基づいて推定する(408)。次にこれらの測定及び推定した成分を使用して、選択した候補音源位置に対して各音声センサの推定センサ出力信号を計算する(410)。これを再度、前述の信号の特徴付けを用いて行う。次に、任意の残っている未選択の候補音源位置があるかどうかを判定する(412)。残っていれば、全ての候補位置が考慮され、推定される音声センサ出力信号が各センサ及び各候補音源位置に対して計算されるまで、動作404から412を繰り返す。
【0057】
推定される音声センサ出力信号を計算した後、どの候補音源位置がセンサの実際のセンサ出力信号に最も近い音声センサからの一組の推定センサ出力信号を生成するかを次に確認する(414)。この最も近い組を生成する位置を、入力された音声センサ出力信号を生成する尤度を最大化する前述の選択された音源位置として指定する(416)。
【0058】
数学的な表現では、上述の技術を以下のように記述することができる。まず、式(2)を次式のようにベクトル形に書き換える。
【0059】
【数14】
【0060】
ここで、
【0061】
【数15】
【0062】
【数16】
【0063】
【数17】
【0064】
【数18】
【0065】
である。
【0066】
これらの変数のうち、X(ω)は受信信号を表し、既知である。後で詳述するが、G(ω)をSSLプロセス中に推定又は仮定することができる。残響項S(ω)H(ω)は未知であり、別の種類の雑音として扱う。
【0067】
上記モデルを数学的に扱いやすくするため、結合総雑音(combined total noise)
【0068】
【数19】
【0069】
がゼロ平均の、周波数間で独立な、結合ガウシアン分布に従うと仮定する。すなわち、
【0070】
【数20】
【0071】
である。ここでρは定数であり、上付き文字Hはエルミート転置を表し、Q(ω)は共分散行列を表す。Q(ω)は次式で推定することができる。
【0072】
【数21】
【0073】
ここで、雑音及び残響が無相関であると仮定する。式(16)の第1項は、前述の音響信号の無音期間から直接推定することができる。すなわち、
【0074】
【数22】
【0075】
である。ここで、kは、無音である音声フレームのインデックスである。室内のコンピュータのファンにより生成されるもののような、異なるセンサで受信した背景雑音は相関してもよいことに留意されたい。この雑音が異なるセンサで独立であると考えられる場合、式(16)の第1項を対角行列としてさらに簡略化することができる。すなわち、
【0076】
【数23】
【0077】
である。
【0078】
式(16)の第2項は残響に関係する。この第2項は一般に未知である。近似として、第2項が対角行列、すなわち、
【0079】
【数24】
【0080】
とし、i番目の対角要素を
【0081】
【数25】
【0082】
と仮定する。ここで、0<γ<1は経験的な雑音パラメータである。検証された本技術の実施形態において、γは環境の残響特性に応じて約0.1から約0.5の間に設定したことに留意されたい。式(20)では残響エネルギーが総受信信号エネルギーと環境雑音エネルギーとの差分の一部であると仮定していることにも留意されたい。同じ仮定を式(11)でも使用した。通常は異なるセンサで受信した残響信号は相関し、行列はゼロでない非対角要素を有するはずであるので、式(19)は近似であることに再度留意されたい。残念ながら、現実の残響信号又はこれらの非対角要素を実際に推定することは一般に非常に難しい。以降の分析では、Q(ω)を使用して雑音共分散行列を表す。従って、行列がゼロでない非対角要素を含むときでもその導出が可能である。
【0083】
共分散行列Q(ω)を既知の信号から計算又は推定できるとき、受信信号の尤度を次のように書くことができる。
【0084】
【数26】
【0085】
ここで、
【0086】
【数27】
【0087】
かつ
【0088】
【数28】
【0089】
である。
【0090】
本発明のSSL技術は、観測結果X(ω)、センサ応答行列G(ω)及び雑音共分散行列Q(ω)が与えられれば、上記尤度を最大化する。センサ応答行列G(ω)には音源がどこから来るかに関する情報が必要であり、従って通常は仮説検定を通して最適化を解くことに留意されたい。すなわち、音源位置に関して仮説を立て、G(ω)を与える。次に尤度を測定する。最高の尤度をもたらす仮説をSSLアルゴリズムの出力と判定する。
【0091】
式(21)において尤度を最大化する代わりに、以下の負の対数尤度、すなわち、
【0092】
【数29】
【0093】
を最小化することができる。
【0094】
周波数上では確率は互いに独立であると仮定しているので、未知の変数S(ω)を変化させることで各J(ω)を別々に最小化することができる。Q-1(ω)がエルミート対称行列、すなわち、Q-1(ω)=Q-H(ω)であるとすると、S(ω)上でJ(ω)の微分を取ってゼロに設定すれば、次式が得られる。
【0095】
【数30】
【0096】
従って、
【0097】
【数31】
【0098】
である。次に、上のS(ω)をJ(ω)に代入すると、
【0099】
【数32】
【0100】
となる。ここで、
【0101】
【数33】
【0102】
【数34】
【0103】
である。
【0104】
1(ω)は仮説検定中に仮定した位置とは関係しないことに留意されたい。従って、本発明のMLベースのSSL技術は次式を最大化するのみである。
【0105】
【数35】
【0106】
式(26)により、J2を次式のように書き換えることができる。
【0107】
【数36】
【0108】
分母[GH(ω)Q-1(ω)G(ω)]-1をMVDRビーム形成後の残差雑音電力として示すことができる。従って、このMLベースのSSLは、複数のMVDRビームフォーマに複数の仮説方向に沿ってビーム形成させ、その出力方向を信号対雑音比が最大となる方向として取得させた場合と同様である。
【0109】
次に、センサ内の雑音が独立であり、従ってQ(ω)が対角行列であると仮定する。すなわち、
【0110】
【数37】
【0111】
であり、i番目の対角要素は
【0112】
【数38】
【0113】
のようになる。
【0114】
従って、式(30)は
【0115】
【数39】
【0116】
と書くことができる。
【0117】
幾つかの適用例では、センサ応答係数αi(ω)を正確に測定することができる。この係数が未知である適用例では、係数が正の実数であって次式のように推定できると仮定することができる。
【0118】
【数40】
【0119】
ここで、両辺は、結合雑音(雑音及び残響)がない、センサiで受信した信号の電力を表す。従って、
【0120】
【数41】
【0121】
となる。
【0122】
式(36)を式(34)に代入すると、
【0123】
【数42】
【0124】
が得られる。
【0125】
本技術は、周波数依存の重み付けが追加される点で式(10)のMLアルゴリズムとは異なることに留意されたい。本技術はより厳密な導出であり、複数のセンサ対に対して正確なML技術である。
【0126】
前述のように、本技術はどの候補音源位置が実際のセンサ出力信号に最も近い音声センサからの一組の推定センサ出力信号を生成するか確認することを伴う。式(34)及び(37)は、最も近い組を最大化技術の文脈で発見できる方法のうちの2つを表す。図5A-5Bはこの最大化技術を実装する一実施形態を示す。
【0127】
本技術は、音声センサ出力信号をマイクロホンアレイ内のセンサの各々から入力すること(500)及び信号の各々の周波数変換を計算すること(502)から開始する。任意の適切な周波数変換をこの目的に使用することができる。さらに、この周波数変換を、音源が示すことが分かっている周波数又は周波数域だけに限定することができる。このように、着目する周波数のみを扱うため、処理コストが削減される。前述のSSLを推定する一般的な手順と同様に、一組の候補音源位置を定める(504)。次に、以前に未選択であった周波数変換される音声センサ出力信号のうちの1つXi(ω)を選択する(506)。選択した出力信号Xi(ω)の期待される環境雑音電力スペクトルE{|Ni(ω)|2}を、着目する各周波数ωに対して推定する(508)。さらに、音声センサ出力信号の電力スペクトル|Xi(ω)|2を、着目する各周波数ωに対する選択した信号Xi(ω)に対して計算する(510)。任意的に、選択した信号Xi(ω)に関連する音声センサの応答の振幅副成分αi(ω)を、着目する各周波数ωに対して測定する(512)。この動作の任意性を図5Aの点線の箱により示したことに留意されたい。次に、任意の残っている未選択の音声センサ出力信号Xi(ω)があるかどうかを判定する(514)。残っていれば、動作(506)から(514)を繰り返す。
【0128】
図5Bを参照すると、残っている未選択の音声センサ出力信号がないと判定される場合、候補音源位置のうち以前に未選択であったものを選択する(516)。次に、選択した候補音源位置から選択した出力信号に関連する音声センサまでの伝播時間τiを計算する(518)。次に、振幅副成分αi(ω)を測定したかどうかを判定する(520)。測定した場合、式(34)を計算し(522)、測定しなかった場合、式(37)を計算する(524)。いずれの場合でも、J2に対する結果の値を記録する(526)。次に、未選択の任意の残っている候補音源位置があるかどうかを判定する(528)。残っている位置がある場合、動作(516)から(528)を繰り返す。選択すべき位置がない場合、J2の値は各候補音源位置で計算済みである。これが与えられれば、J2の最大値を生み出す候補音源位置が推定音源位置として指定される(530)。
【0129】
上述の技術の多数の実用的な適用例では、マイクロホンアレイの音声センサにより出力される信号はデジタル信号であることに留意されたい。その場合、音声センサの出力信号に関して着目する周波数、各信号の期待される環境雑音電力スペクトル、各信号の音声センサ出力信号電力スペクトル、及び各信号に関連する音声センサ応答の振幅成分は、デジタル信号により定義されるところの周波数ビンである。従って、式(34)及び(37)は、積分としてではなく着目する全ての周波数ビンに渡る総和として計算される。
【0130】
3.0 他の実施形態
以上の説明を通した前述の実施形態のいずれか又は全てを、追加の複合実施形態を形成することを望まれる任意の組合せで使用してもよいことに留意されたい。本発明の主題を構造的特徴及び/又は方法論的動作に固有な言葉で説明したが、添付の特許請求の範囲で定義した本発明の主題は、必ずしも上述した特定の特徴又は動作に限定されないことは理解されよう。そうではなく、上述の特定の特徴及び動作は添付の諸請求項を実施する形態の例として開示される。
図1
図2
図3
図4A
図4B
図5A
図5B