(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024082932
(43)【公開日】2024-06-20
(54)【発明の名称】音響処理装置、音響処理方法およびプログラム
(51)【国際特許分類】
H04R 3/00 20060101AFI20240613BHJP
G10L 21/0272 20130101ALN20240613BHJP
H04R 1/40 20060101ALN20240613BHJP
【FI】
H04R3/00 320
G10L21/0272 100A
H04R1/40 320A
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022197160
(22)【出願日】2022-12-09
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(71)【出願人】
【識別番号】304021417
【氏名又は名称】国立大学法人東京工業大学
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】糸山 克寿
(72)【発明者】
【氏名】中臺 一博
(72)【発明者】
【氏名】藤田 侑樹
【テーマコード(参考)】
5D018
5D220
【Fターム(参考)】
5D018BB21
5D220BA06
5D220BB04
5D220BC05
(57)【要約】
【課題】現実の音響環境において安定的に音響伝達関数を推定する。
【解決手段】音源方向推定部は各フレームについて、チャネルごとの音響信号の周波数領域における変換係数と第1音響伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、空間スペクトルが最大となる音源方向を推定音源方向として推定し、代表推定音源方向決定部は複数フレームからなる観測期間における推定音源方向の頻度分布に基づいて推定音源方向の代表値である代表推定音源方向を定め、外れ値除去部は推定音源方向が代表推定音源方向から予め定めた許容範囲の範囲外となるフレームの変換係数を除去し、音響伝達関数推定部は残されたフレームの音響信号の変換係数に基づいて、観測期間における音源から音響信号の収音部までの音響伝達関数の代表値を第2音響伝達関数として推定し、代表推定音源方向に対する第1音響伝達関数を、第2音響伝達関数を用いて更新する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
第1音響伝達関数を音源方向ごとに記憶する記憶部と、
各フレームについて、チャネルごとの音響信号の周波数領域における変換係数と前記第1音響伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、
前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部と、
複数フレームからなる観測期間における前記推定音源方向の頻度分布に基づいて前記推定音源方向の代表値である代表推定音源方向を定める代表推定音源方向決定部と、
前記推定音源方向が前記代表推定音源方向から予め定めた許容範囲の範囲外となるフレームの変換係数を除去する外れ値除去部と、
残されたフレームの前記音響信号の変換係数に基づいて、前記観測期間における音源から前記音響信号の収音部までの音響伝達関数の代表値を第2音響伝達関数として推定する音響伝達関数推定部と、
前記代表推定音源方向に対する第1音響伝達関数を、前記第2音響伝達関数を用いて更新する音響伝達関数更新部と、
を備える音響処理装置。
【請求項2】
前記音源方向推定部は、頻度が極大となる前記推定音源方向を前記代表推定音源方向として定める
請求項1に記載の音響処理装置。
【請求項3】
前記音響伝達関数更新部は、前記第1音響伝達関数と前記第2音響伝達関数の加重平均値を新たな第1音響伝達関数に更新する
請求項1に記載の音響処理装置。
【請求項4】
前記音響伝達関数更新部は、前記観測期間における前記推定音源方向が前記許容範囲の範囲内となる頻度に基づいて前記代表推定音源方向の信頼度を定め、
前記信頼度が高いほど前記第1音響伝達関数に対する前記第2音響伝達関数の比率を高くする
請求項3に記載の音響処理装置。
【請求項5】
前記許容範囲が前記代表推定音源方向と等しく、前記代表推定音源方向とは異なる方向を含まない
請求項1に記載の音響処理装置。
【請求項6】
前記音源方向推定部は、
チャネルごとの前記変換係数を含む入力ベクトルに、チャネルごとの前記第1音響伝達関数を含む音響伝達関数ベクトルの疑似逆行列を乗算して前記空間スペクトルを算出する
請求項1に記載の音響処理装置。
【請求項7】
コンピュータに請求項1に記載の音響処理装置として機能させるためのプログラム。
【請求項8】
第1音響伝達関数を音源方向ごとに記憶する記憶部を備える音響処理装置における音響処理方法であって、
前記音響処理装置が、
各フレームについて、チャネルごとの音響信号の周波数領域における変換係数と前記第1音響伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、
前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定ステップと、
複数フレームからなる観測期間における前記推定音源方向の頻度分布に基づいて前記推定音源方向の代表値である代表推定音源方向を定める代表音源方向決定ステップと、
前記推定音源方向が前記代表推定音源方向から所定の許容範囲の範囲外となるフレームの変換係数を除去する外れ値除去ステップと、
残されたフレームの前記音響信号の変換係数に基づいて、前記観測期間における音源から前記音響信号の収音部までの音響伝達関数の代表値を第2音響伝達関数として推定する音響伝達関数推定ステップと、
前記代表推定音源方向に対する第1音響伝達関数を、前記第2音響伝達関数を用いて更新する音響伝達関数更新ステップと、
を実行する音響処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響処理装置、音響処理方法およびプログラムに関する。
【背景技術】
【0002】
マイクロホンアレイ処理は、音響信号処理の要素技術である。マイクロホンアレイ処理は、マイクロホンアレイを用いて収音された複数チャネルの音響信号を用いた音響処理であり、例えば、音源定位(sound source localization)、音源分離(sound source separation)などが掲げられる。音源定位は、複数チャネルの音響信号から音源方向を推定する手法である。音源分離は、複数チャネルの音響信号から個々の音源から到来する成分を抽出する手法である。音源定位ならびに音源分離は、騒音下で発話がなされる場合、複数音源が存在する場合など、個々の音を識別する際に有用である。音源定位や音源分離は、ロボット聴覚(robot audition)をはじめ、スマートスピーカ、通信会議システム、議事録作成など、種々の用途に応用されている。
【0003】
マイクロホンアレイ処理では、音源から受音点への音の伝達特性を示す音響伝達関数が用いられる。音源伝達関数は、例えば、自由音場を仮定して数理モデルを用いて幾何的に計算されることや、予め実験室において多方向に設置された音源を用いて測定されることがある。しかしながら、かかる音響伝達関数は、マイクロホンアレイ処理が現実に使用される音響環境(本願では、「使用環境」と呼ぶことがある)で測定されるものとは異なる。そのため、音源定位または音源分離の性能が低下する原因となりうる。音源定位または音源分離の性能を確保するため使用環境において予め音響伝達関数を測定しておくことも考えられる。音響環境の変化に伴い音響伝達関数も測定時から変化するが、音響伝達関数の再測定には多くの時間と労力を要する。そのため、使用環境下での再測定は現実的ではない。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】中臺 一博、瀧ケ平 雅行、河合 熊輔、中島 弘史「伝達関数の常時オンライン適応による音源定位・分離の向上」人工知能学会第二種研究会資料 AIチャレンジ研究会 SIG-Challenge-058-07、<https://doi.org/10.11517/jsaisigtwo.2021.Challenge-058_07>、2021年12月16日公開
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1では、マイクロホンアレイで取得された音響信号を用いて音響伝達関数を推定し、逐次に更新する手法について記載されている。この手法によれば、再計測に係る機器の設営を伴わず、任意の音源を用いてオンラインで音響伝達関数を取得することができる。しかしながら、使用環境で取得される音響信号は、音響伝達関数を取得するうえで必ずしも好適とは限らない。例えば、音響信号には、顕著なノイズが一時的に混入されることがある。そのため、音響伝達関数が安定的に推定できないことがあった。
【0006】
本実施形態は上記の点に鑑みてなされたものであり、使用環境において安定的に音響伝達関数を推定することができる音響処理装置、音響処理方法およびプログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
(1)本願は上記の課題を解決するためになされたものであり、本実施形態の一態様は、第1音響伝達関数を音源方向ごとに記憶する記憶部と、各フレームについて、チャネルごとの音響信号の周波数領域における変換係数と前記第1音響伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部と、複数フレームからなる観測期間における前記推定音源方向の頻度分布に基づいて前記推定音源方向の代表値である代表推定音源方向を定める代表推定音源方向決定部と、前記推定音源方向が前記代表推定音源方向から予め定めた許容範囲の範囲外となるフレームの変換係数を除去する外れ値除去部と、残されたフレームの前記音響信号の変換係数に基づいて、前記観測期間における音源から前記音響信号の収音部までの音響伝達関数の代表値を第2音響伝達関数として推定する音響伝達関数推定部と、前記代表推定音源方向に対する第1音響伝達関数を、前記第2音響伝達関数を用いて更新する音響伝達関数更新部と、を備える音響処理装置である。
【0008】
(2)本実施形態の他の態様は、(1)の音響処理装置であって、前記音源方向推定部は、頻度が極大となる前記推定音源方向を前記代表推定音源方向として定めてもよい。
【0009】
(3)本実施形態の他の態様は、(1)の音響処理装置であって、前記音響伝達関数更新部は、前記第1音響伝達関数と前記第2音響伝達関数の加重平均値を新たな第1音響伝達関数に更新してもよい。
【0010】
(4)本実施形態の他の態様は、(1)の音響処理装置であって、前記音響伝達関数更新部は、前記観測期間における前記推定音源方向が前記許容範囲の範囲内となる頻度に基づいて前記代表推定音源方向の信頼度を定め、前記信頼度が高いほど前記第1音響伝達関数に対する前記第2音響伝達関数の比率を高くしてもよい。
【0011】
(5)本実施形態の他の態様は、(1)の音響処理装置であって、前記許容範囲が前記代表推定音源方向と等しく、前記代表推定音源方向とは異なる方向を含まなくてもよい。
【0012】
(6)本実施形態の他の態様は、(1)の音響処理装置であって、前記音源方向推定部は、チャネルごとの前記変換係数を含む入力ベクトルに、チャネルごとの前記第1音響伝達関数を含む音響伝達関数ベクトルの疑似逆行列を乗算して前記空間スペクトルを算出してもよい。
【0013】
(7)本実施形態の他の態様は、コンピュータに(1)の音響処理装置として機能させるためのプログラムであってもよい。
【0014】
(8)本実施形態の他の態様は、第1音響伝達関数を音源方向ごとに記憶する記憶部を備える音響処理装置における音響処理方法であって、前記音響処理装置が、各フレームについて、チャネルごとの音響信号の周波数領域における変換係数と前記第1音響伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定ステップと、複数フレームからなる観測期間における前記推定音源方向の頻度分布に基づいて前記推定音源方向の代表値である代表推定音源方向を定める代表音源方向決定ステップと、前記推定音源方向が前記代表推定音源方向から所定の許容範囲の範囲外となるフレームの変換係数を除去する外れ値除去ステップと、残されたフレームの前記音響信号の変換係数に基づいて、前記観測期間における音源から前記音響信号の収音部までの音響伝達関数の代表値を第2音響伝達関数として推定する音響伝達関数推定ステップと、前記代表推定音源方向に対する第1音響伝達関数を、前記第2音響伝達関数を用いて更新する音響伝達関数更新ステップと、を実行する音響処理方法である。
【発明の効果】
【0015】
本実施形態によれば、現実の音響環境において安定的に音響伝達関数を推定することができる。
上述した(1)、(7)、(8)の構成によれば、代表推定音源方向から所定の範囲内の推定音源方向を与える音響信号の変換係数に基づいて第2音響伝達関数が算出され、算出された第2音響伝達関数を用いて代表推定音源方向と対応付けて第1音響伝達関数を更新することができる。統計的に代表推定音源方向、または、これに近似する推定音源方向を与える音響信号に基づいて得られる音響伝達関数の代表値が第2音響伝達関数として代表推定音源方向と対応付けて更新されるので、音源方向との対応関係が安定した第1音響伝達関数が得られる。
【0016】
上述した(2)の構成によれば、観測期間内での頻度が極大となる推定音源方向が代表推定音源方向として定まるため、可能性が最も高い推定音源方向が代表推定音源方向として簡素に定まる。
【0017】
上述した(3)の構成によれば、観測期間の変更に伴い、第1音響伝達関数は更新により第2音響伝達関数に完全に置き換わらず、その一部の成分が残される。第1音響伝達関数の急激な変動が回避されるため、システムの安定性が図られる。
【0018】
上述した(4)の構成によれば、信頼度が高い推定音源方向を与える音響信号ほど重視して第2音響伝達関数を用いて第1音響伝達関数を更新することができる。そのため、更新される第1音響伝達関数の信頼性を向上させることができる。
【0019】
上述した(5)の構成によれば、推定音源方向が代表推定音源方向と等しいか否かにより、推定音源方向を与える音響信号の変換係数を簡素に排除するか否かを定めることができる。
【0020】
上述した(6)の構成によれば、簡素な行列演算により算出される空間スペクトルに基づいて音源方向を推定することができる。多くの演算資源を要しないため、経済的な実現を図ることができる。
【図面の簡単な説明】
【0021】
【
図1】本実施形態に係る音響処理システムの構成例を示す概略ブロック図である。
【
図2】本実施形態に係る音響伝達関数適応処理の一例を示すデータフローチャートである。
【
図7】第1音響伝達関数の種類ごとの成功率を例示する図である。
【
図8】本実施形態の第1変形例に係る音響処理システムの構成例を示す概略ブロック図である。
【
図9】本実施形態の第2変形例に係る音響処理システムの構成例を示す概略ブロック図である。
【発明を実施するための形態】
【0022】
(第1の実施形態)
図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音響処理システムS1の構成例を示す概略ブロック図である。
音響処理システムS1は、音響処理装置10と、収音部20と、を備える。
【0023】
音響処理装置10には、音源からの音の伝達特性を示す第1音響伝達関数を音源方向ごとに予め記憶させておく。本願では音響処理装置10に事前に、または一時的に記憶された音響伝達関数を「第1音響伝達関数」と呼び、収音部20から取得された音響信号に基づいて推定した音響伝達関数を「第2音響伝達関数」とは呼ぶことで、両者を区別する。
【0024】
音響処理装置10は、収音部20から複数チャネルの音響信号を取得する。音響処理装置10は、各フレームについてチャネルごとの音響信号の周波数領域における変換係数を算出し、算出した変換係数と第1音響伝達関数に基づいて音源方向ごとに空間スペクトルを算出する。音響処理装置10は、空間スペクトルが極大(local maximum)となる音源方向を推定音源方向として推定する(音源定位)。音響処理装置10は、フレームごとの推定音源方向と推定音源方向の推定に用いられた音響信号を集積し、複数フレームからなる観測期間における推定音源方向の頻度分布(ヒストグラム)を生成する。音響処理装置10は、推定音源方向の頻度分布に基づいて推定音源方向の代表値を代表推定音源方向として定める。
【0025】
音響処理装置10は、代表推定音源方向から予め定めた許容範囲の範囲外となる推定音源方向を与える音響信号のフレームを特定し、そのフレームの音響信号の変換係数を外れ値(outlier)として除去する。音響処理装置10は、除去されずに残された変換係数に基づいて音源から収音部20までの音響伝達関数を算出する。音響処理装置10は、観測期間における音響伝達関数の代表値を第2音響伝達関数として推定する。音響処理装置10は、定めた代表推定音源方向に対する第1音響伝達関数を推定した第2音響伝達関数を用いて更新する。
【0026】
音響処理装置10は、更新した第1音響伝達関数を用いてマイクロホンアレイ処理を行ってもよい。マイクロホンアレイ処理には、音源定位の他、音源分離などの処理も含まれうる。音源分離は、収音部20から取得される複数チャネルの音響信号から、推定した音源方向に基づいて個々の音源からの音の成分を音源成分として抽出する処理を含む。
【0027】
音響処理装置10は、音源定位を行って推定した音源方向と、音源分離を行って抽出した音源成分を示す音源信号の一方または両方を、自装置において他の処理に用いてもよいし、出力先となる他の装置(図示せず、本願では「出力先機器」と呼ぶことがある)に出力してもよい。音響処理装置10は、他の処理として、例えば、推定音源方向における物体の存在を推定してもよい。音響処理装置10は、特定の音源方向(話者)からの音源成分もしくは音源信号に対して音声認識処理を行い、発話内容を示す発話テキストを取得してもよいし、話者を推定してもよい。
【0028】
収音部20は、複数のマイクロホン20-1~20-Mを有し、マイクロホンアレイとして機能する。マイクロホン数Mは、2以上の整数である。マイクロホン数Mは、チャネル数に相当する。個々のマイクロホンは、それぞれ異なる位置に配置され、それぞれ自部に到来する音波を収音するアクチュエータを備える。アクチュエータは、到来した音波を音響信号に変換する。変換された音響信号は、音響処理装置10に無線または有線で出力される。個々のマイクロホンは、音響信号のチャネルに対応する。
【0029】
複数のマイクロホンの配置は、固定されてもよいし、可変であってもよい。複数のマイクロホンの位置は、互いに異なっていればよい。
図3に例示される収音部20は、8チャネルの円形マイクロホンアレイとして構成されている。
図3において、個々のマイクロホンは黒丸で示される。8個のマイクロホンは、円周上に等間隔となるように配置されている。8個のマイクロホンは、それぞれ垂直方向に平行な回転軸に対して回転対称性を有する回転体をなす筐体の側面に配置され、それぞれの位置関係が固定される。収音部20は、出力インタフェース(図示せず)を備える。出力インタフェースは、個々のマイクロホンが収録した8チャネルの音響信号を集約し、有線で並列に音響処理装置10に出力する。なお、マイクロホンの個数、配置は、これには限られない。マイクロホンの個数Mは、2個以上7個以下、または、9個以上であってもよい。個々のマイクロホンの位置は、
図4に例示されるように直線上に配置されてもよい。
【0030】
音響処理装置10は、PC(Personal Computer)、多機能携帯電話機、などの汎用の情報通信機器として構成されてもよいし、計測器、監視装置、など、専用の機器として構成されてもよい。
以下の説明では、収音部20は、音響処理装置10と別個に構成される場合を例にするが、音響処理装置10とは別体でもよい。
【0031】
次に、本実施形態に係る音響処理装置10の機能構成例について説明する。
音響処理装置10は、入出力部110と、制御部120と、記憶部150と、を含んで構成される。
入出力部110は、他の機器と各種のデータを入力および出力可能に無線または有線で接続する。入出力部110は、入力データとして、収音部20からMチャネルの音響信号を制御部120に出力する。入出力部110は、制御部120から出力データが入力される場合には、入力される出力データを出力先機器(図示せず)に出力することができる。出力データには、マイクロホンアレイ処理により得られる情報が含まれうる。かかる情報は、例えば、推定音源方向を示す推定音源方向情報、音源から到来する音源成分を示す音源信号などが該当する。入出力部110は、例えば、入出力インタフェース、通信インタフェースなどのいずれか、または、それらの組み合わせであってもよい。
【0032】
制御部120は、音響処理装置10の機能を実現するための処理、その機能を制御するための処理、などを実行する。制御部120は、全体として、もしくは、個々の機能に対して、専用の部材を用いて構成されてもよいが、CPU(Central Processing Unit)などのプロセッサと各種の記憶媒体を含んでコンピュータシステムとして構成されてもよい。プロセッサは、予め記憶媒体に記憶された所定のプログラムを読み出し、読み出したプログラムに記述された各種の命令で指示される処理を実行して制御部120の機能を実現する。制御部120の機能構成については、後述する。
【0033】
記憶部150は、各種のデータを一時的または恒常的に記憶する記憶媒体を含んで構成される。記憶部150は、制御部120により用いられる各種のデータ(パラメータ等を含む)、制御部120またはその他の機能部により取得された各種のデータ(外部から入力された入力データ、処理中の中間データ、処理結果として生成された生成データを含む)を記憶する。記憶部150には、音響伝達関数セットが記憶される。音響伝達関数セットは、音源方向ごとに、各周波数について個々のマイクロホン(チャネル)について第1音響伝達関数を含んで構成される。本願では、音響伝達関数セットにおいて、第1音響伝達関数と関連付けられる音源方向を「目標方向(target direction)」と呼ぶことがある。
【0034】
第1音響伝達関数の初期値HTとして、予め測定された音響伝達関数が用いられてもよいし、所定の幾何モデルを用いて予め計算された音響伝達関数が用いられてもよい。幾何モデルとして、自由音場における平面波の伝搬を仮定した平面波モデル、収音部20から所定の距離に存在する音源からの球面波の伝搬を仮定した球面波モデル、などが用いられてもよい。初期の音響伝達関数セットは、各チャネルおよび周波数について、音源方向ごとの第1音響伝達関数の初期値HT(θ1)~HT(θN)を要素として含む。初期値HT(θ1)等は、音源方向θ1等からの音波の到来を仮定して幾何モデルを用いて算出することができる。Nは、予め定めた音源方向の個数を示す。互いに隣接する音源方向の間隔は、音源定位により推定される音源方向の精度に直接的に影響する。音源方向の個数が多いほど音源方向の精度の向上が期待されるが、音源定位における空間スペクトルの算出に係る演算量が増大する。
【0035】
次に、本実施形態に係る制御部120の機能構成例について説明する。制御部120は、周波数分析部122、音源方向推定部124、代表推定音源方向決定部126、外れ値除去部128、代表音響信号決定部130、音響伝達関数推定部132および音響伝達関数更新部134を含んで構成される。特に断らない限り、音源方向推定部124、代表推定音源方向決定部126、外れ値除去部128、代表音響信号決定部130、音響伝達関数推定部132および音響伝達関数更新部134の処理は、それぞれ周波数ごとに独立に実行されてもよい。
【0036】
周波数分析部122には、収音部20から入出力部110を経由してMチャネルの音響信号が入力される。取得されるMチャネルの音響信号は、それぞれ時間領域におけるサンプル時刻ごとの振幅の時系列(波形)を表す。周波数分析部122は、各チャネルについて時間領域の音響信号に対して、所定の期間(例えば、20ms-100ms)のフレームごとに周波数分析を行い、周波数領域における周波数ごとの変換係数に変換する。個々のチャネルにおいて、変換係数の周波数間のセットは周波数スペクトルを示す。周波数分析部122は、周波数分析において、例えば、短時間フーリエ変換(STFT:Short Time Fourier Transform)、離散フーリエ変換(DFT:Discrete Fourier Transform)などの手法が利用可能である。周波数分析部122は、変換により得られた変換係数を示す入力信号情報を音源方向推定部124および音響伝達関数推定部132に出力する。
【0037】
音源方向推定部124は、記憶部150に記憶された音響伝達関数セットを参照し、周波数分析部122から入力される入力信号情報に示される各チャネルの変換係数を用いて、周波数ごとに空間スペクトルSsp(θ)を算出する。空間スペクトルSsp(θ)は、収音部20の位置を基準とする目標方向θごとに音源が存在する可能性の程度を示す指標とみることができる。音源方向推定部124は、第1音響伝達関数HEからなる音響伝達関数セット、目標方向θ、および、入力ベクトルXを用いて算出することができる。音源方向推定部124は、式(1)に例示されるように、空間スペクトルが最大となる方向を推定音源方向φとして推定することができる。空間スペクトルSsp(θ)を算出する手法の具体例については、後述する。音源方向推定部124は、推定した推定音源方向を示す推定音源方向情報を代表推定音源方向決定部126および外れ値除去部128に出力する。また、音源方向推定部124は、推定音源方向情報と対応付けて入力信号情報を外れ値除去部128に出力する。
【0038】
【0039】
代表推定音源方向決定部126には、音源方向推定部124から推定音源方向情報が入力される。代表推定音源方向決定部126は、予め設定された観測期間ごとに、推定音源方向情報に示される推定音源方向φの頻度分布を生成する。観測期間は、一度に代表推定音源方向を定める複数のフレームを含む期間である。より具体的には、代表推定音源方向決定部126は、観測期間に含まれるフレームごとに推定音源方向情報に示される推定音源方向を特定し、特定した推定音源方向に対するフレーム数に1ずつ加算することで(インクリメント)、推定音源方向ごとのフレーム数を計数する。代表推定音源方向決定部126は、当該観測期間において計数された推定音源方向ごとのフレーム数(頻度)を推定音源方向の頻度分布(ヒストグラム)として取得することができる。
【0040】
代表推定音源方向決定部126は、特定した区間のうちフレーム数が最多となる推定音源方向(最頻値、mode)を代表推定音源方向θ’として定める。代表推定音源方向決定部126は、定めた代表推定音源方向θ’を示す代表推定音源方向情報を外れ値除去部128に出力する。
【0041】
外れ値除去部128には、音源方向推定部124から推定音源方向情報と入力信号情報が入力され、代表推定音源方向決定部126から代表推定音源方向情報から入力される。外れ値除去部128は、例えば、推定音源方向が代表推定音源方向と等しいか否かを判定する。外れ値除去部128は、推定音源方向が代表推定音源方向から所定の範囲内であるとき、その推定音源方向を示す推定音源方向情報に対応する入力信号情報を採用する。外れ値除去部128は、推定音源方向が代表推定音源方向とは異なるとき、その推定音源方向を示す推定音源方向情報に対応する入力信号情報を外れ値として除去し、棄却する。これにより、外れ値除去部128は、最頻値フィルタ(mode filter)として機能する。外れ値除去部128は、採用した入力信号情報を代表音響信号決定部130に出力する。
【0042】
代表音響信号決定部130は、観測期間ごとに、外れ値除去部128から入力される入力信号情報に示されるチャネルごとの変換係数のフレーム間の代表値(例えば、平均値)を各周波数について代表変換係数として定める。代表音響信号決定部130は、定めた代表変換係数を示す代表入力信号情報を音響伝達関数推定部132に出力する。
【0043】
音響伝達関数推定部132には、代表音響信号決定部130から代表入力信号情報が入力される。音響伝達関数推定部132は、各周波数について、代表入力信号情報に示されるチャネルごとの代表変換係数に基づいて、音源からそのチャネルに対応するマイクロホンまでの音響伝達関数を第2音響伝達関数H’として推定する。第2音響伝達関数H’は、観測期間において推定される音響伝達関数の代表値に相当する。音響伝達関数推定部132は、第2音響伝達関数H’を推定する際、例えば、チャネルごとの代表変換係数の振幅と位相のそれぞれをチャネル間で正規化する。
【0044】
音響伝達関数推定部132は、例えば、式(2)に従って、第2音響伝達関数H’を算出することができる。式(2)の例では、代表入力ベクトルXは、そのノルム|X|で除算して、代表変換係数の振幅が正規化される。ノルムとして、例えば、二乗和の平方根が適用可能である。代表入力ベクトルXは、ある周波数における各チャネルmに対する代表変換係数Xmを要素として有するベクトルである。正規化された振幅は、0以上1以下の実数値となる。代表変換係数Xmのチャネル間の総和ΣmXmをその絶対値|ΣmXm|で除算して得られる商の複素共役を乗算することで、代表変換係数の位相が正規化される。位相の正規化により、各チャンネルの代表変換係数の振幅で重みを付けたチャネル間の位相の平均値が0となる。本実施形態では、音響伝達関数はチャネル間で振幅ならびに位相が相対化された値であってもよく、必ずしも絶対値でなくてもよい。音響伝達関数推定部132は、推定した第2音響伝達関数H’を示す第2音響伝達関数情報を音響伝達関数更新部134に出力する。
【0045】
【0046】
音響伝達関数更新部134には、音響伝達関数推定部132から第2音響伝達関数情報が入力され、代表推定音源方向決定部126から代表推定音源方向情報が入力される。音響伝達関数更新部134は、各周波数について、入力される第2音響伝達関数情報が示すチャネルごとの第2音響伝達関数H’を、代表推定音源方向情報に示される代表推定音源方向に対応する第2音響伝達関数として特定する。音響伝達関数更新部134、特定した第2音響伝達関数H’を用いて、記憶部150に記憶された音響伝達関数セットのうち代表推定音源方向に対応する第1音響伝達関数HEを更新する。
【0047】
音響伝達関数更新部134は、例えば、指数平滑法を用いて、その時点における第2音響伝達関数H’と更新対象とする代表推定音源方向θ’に係る第1音響伝達関数HE(θ’)を加重平均して、新たに更新される第1音響伝達関数HE(θ’)を算出する。式(3)の例では、第2音響伝達関数H’に乗算される重み係数βは、最大値が1となる所定の正の実数値である。更新前の第1音響伝達関数HE(θ’)には重み係数(1-β)が乗じられる。重み係数β、(1-β)は、それぞれ第2音響伝達関数H’、第1音響伝達関数HE(θ’)に対する比率に相当する。よって、重み係数βが大きいほど、第1音響伝達関数HE(θ’)として第2音響伝達関数H’ほど重視されるように音響伝達関数の時間平均値が得られる。重み係数βが1である場合には、第2音響伝達関数H’はフレームごとに第1音響伝達関数HEに置き換わる。即ち、重み係数βが大きいほど、第2音響伝達関数H’に含まれる音源からの音の提示の有無、音響環境の一時的な変化、音源方向の誤推定などによる影響が第1音響伝達関数HE(θ’)に含まれる。重み係数βが小さいほど、一時的な第2音響伝達関数H’の変動が平滑化される。
【0048】
音響伝達関数更新部134は、もとの更新前の第1音響伝達関数HE(θ’)に代え、新たな第1音響伝達関数HE(θ’)を推定音源方向θ’に対応付けて記憶部150に記憶する。
【0049】
【0050】
音響伝達関数更新部134は、代表推定音源方向θ’の信頼度が高いほど、大きくなるように第2音響伝達関数H’に対する重み係数βを定めてもよい。音響伝達関数更新部134は、推定音源方向φが代表推定音源方向θ’から所定範囲内となるフレーム数の全フレーム数に対する比率を代表推定音源方向θ’の信頼度として用いることができる。より具体的には、音響伝達関数更新部134は、重み係数βをL/2Kと定めることができる。Lは、観測期間における推定音源方向φが代表推定音源方向θ’となるフレーム数、Kは観測期間における全フレーム数を示す。L=Kとなるとき、重み係数βは最大値0.5となる。
【0051】
なお、代表推定音源方向決定部126は、計数されたフレーム数が予め設定されたフレーム数の下限よりも多い推定音源方向を有意な推定音源方向として特定し、互いに隣接する複数の有意な音源方向からなる区間を定めてもよい。代表推定音源方向決定部126は、特定した区間のうち、フレーム数が極大となる推定音源方向の代表値を代表推定音源方向として定めてもよい。これにより、特異的に孤立した推定音源方向が排除され、代表推定音源方向として選ばれなくなる。
【0052】
外れ値除去部128は、推定音源方向が代表推定音源方向から所定の許容範囲(例えば、±3~5°)の範囲内であるとき、その推定音源方向を示す推定音源方向情報に対応する入力信号情報を採用し、推定音源方向が代表推定音源方向から所定の範囲内を超えるとき、その推定音源方向を示す推定音源方向情報に対応する入力信号情報を外れ値として除去し、棄却してもよい。これにより、代表推定音源方向に近似した推定音源方向を与える音響信号に対する変換係数も第2音響伝達関数の推定に用いられる。許容範囲が0°である場合が、上記の最頻値フィルタに相当する。
【0053】
なお、一度に音が放射される音源の個数は、必ずしも1個に限られず、2個以上となることや、または、音源から一時的もしくは継続的に音が放射されないことがある。そこで、音源方向推定部124は、空間スペクトルSsp(θ)が極大となり、かつ、所定の空間スペクトルの閾値よりも大きくなる方向が1個検出される場合に限り、検出された1個の方向を推定音源方向θ’として示す推定音源方向情報を代表推定音源方向決定部126と外れ値除去部128に出力してもよい。音響伝達関数更新部134は、上述のように、音源方向推定部124から推定音源方向情報で通知される1個の推定音源方向θ’に係る第1音響伝達関数HE(θ’)を、第2音響伝達関数H’を用いて更新することができる。その場合、音響伝達関数更新部134は、重み係数βを定める際、観測期間における推定音源方向の個数が1個となるフレーム数をLとし、その1個の推定音源方向φが代表推定音源方向θ’(または許容範囲内となる)フレーム数をKとして、重み係数βを定めてもよい。
【0054】
言い換えれば、音源方向推定部124は、空間スペクトルSsp(θ)が極大となり、かつ、所定の空間スペクトルの閾値よりも大きくなる方向が2個以上検出される場合と、空間スペクトルSsp(θ)が極大となり、かつ、所定の空間スペクトルの閾値よりも大きくなる方向が検出されない場合には、推定音源方向情報を代表推定音源方向決定部126と外れ値除去部128に出力しない。そのため、第2音響伝達関数を定める際、推定音源方向の個数が2個以上となる場合、および、推定音源方向が検出されない場合に取得される入力信号情報は用いられない。他方、推定音源方向が2個以上検出される場合には、マイクロホンに複数の音源から到来した音が重畳されるため、チャネル間の変換係数の比が特定の1個の音源に係る音源方向に対する音響伝達関数の比を与えることにならない。音源方向が検出されない場合には、そもそも有意な音が音源からマイクロホンに到来しない。従って、検出される音源が1個の場合に音源定位、音響伝達関数の推定、更新を制限することで音響伝達関数の推定精度の劣化を抑えられる。
【0055】
二次元空間では、音源方向は収音部20の代表点(例えば、重心)からの方位角で定義されうる。その際には、音響伝達関数セットをなす個々の第1音響伝達関数に対応付けられる音源方向の配置は、例えば、収音部20の位置を中心とする水平面に平行な円周上に分布する一次元配列となりうる。三次元空間では、音源方向は方位角と仰角の組で定義されうる。音源方向の配置は、収音部20の位置を中心とする球面上に分布する二次元配列となりうる。音響伝達関数セットは、音源位置ごとに第1音響伝達関数を含んで構成されてもよい。その場合には、音源位置の配置は、三次元空間における三次元分布となる。音源位置は、収音部20の位置を基準とする三次元座標で表され、音源方向と基準位置からの距離との組み合わせに相当する。但し、本実施形態では主に音源位置の分布が一次元配列である場合を例にして説明するが、二次元配列または三次元配列である場合にも適用可能である。
【0056】
音響伝達関数セットが、音源位置ごとの第1音響伝達関数を含んで構成される場合には、音源方向推定部124は、推定対象とする情報として音源位置を推定することができる。音源方向推定部124は、音源方向に代え、音源位置ごとに空間スペクトルを算出し、空間スペクトルが極大(または最大)となる音源位置を特定すればよい。音響伝達関数更新部134は、特定された音源位置を推定音源位置とし、上記の手法を用いて音源方向推定部124が推定した第2音響伝達関数を用いて、推定音源位置に係る第1音響伝達関数を更新すればよい。
【0057】
(音源定位の例)
次に、音源定位の例について説明する。音源方向推定部124は、音源定位において、例えば、ビームフォーミング法(beam forming)を用いることができる。音源方向推定部124は、式(4)に例示される空間スペクトルSsp(θ)の極大値を与える音源方向θを推定音源方向として算出することができる。空間スペクトルSsp(θ)は、入力ベクトルXに音響伝達関数ベクトルH(θ)の疑似逆行列H(θ)+を乗算して得られる。音響伝達関数ベクトルH(θ)は、チャネルごとに音源からマイクロホンまでの伝達関数を各列の要素として有するベクトル[H1(θ),H2(θ),…,HM(θ)]Tである。
【0058】
【0059】
音源方向推定部124は、音源定位において、ビームフォーミング法以外の手法を用いてもよい。音源方向推定部124は、例えば、MUSIC(Multiple Signal Classification,多重信号分類)法、遅延和法、などの手法を用いてもよい。
【0060】
(音響伝達関数適応処理)
次に、本実施形態に係る音響伝達関数適応処理について説明する。
図2は、本実施形態に係る音響伝達関数適応処理の一例を示すデータフローチャートである。次の説明では、外れ値除去部が最頻値フィルタとして機能する場合を例にする。
(ステップS102)周波数分析部112には、収音部20からMチャネルの音響信号xが入力される。
(ステップS104)周波数分析部112は、各チャネルについてフレームごとに音響信号に対して周波数分析を行い周波数領域の変換係数を示す入力ベクトルX(入力信号情報)に変換する。観測期間におけるフレームごとの入力ベクトルの集合[X
1,X
2,…,X
K]が入力信号群Zを形成する。
【0061】
(ステップS106)音源方向推定部124は、音響伝達関数セットを参照し、フレームごとに入力ベクトルXに示される変換係数を用いて、周波数ごとに空間スペクトルSsp(θ)が最大となる音源方向を推定音源方向φとして算出する。観測期間におけるフレームごとの推定音源方向の集合[φ1,φ2,…,φK]が定位方向群Φを形成する。
(ステップS108)代表推定音源方向決定部126は、観測期間ごとに、推定音源方向ごとの頻度(フレーム数)を示す頻度分布を計数し、頻度が最も高い推定音源方向を代表推定音源方向θ’として定める。
【0062】
(ステップS110)外れ値除去部128は、フレームごとの入力ベクトルXのうち、代表推定音源方向θ’と異なる推定音源方向φを与えるフレームの入力ベクトルX”を外れ値として除去する。除去されずに残された入力ベクトルの集合[X1’,X2’,…,XL’]が外れ値除去入力信号群Z’を形成する。
【0063】
(ステップS112)代表音響信号決定部130は、観測区間において外れ値が除去されずに残されたフレームの入力ベクトルX’に示されるチャネルごとの変換係数の代表値を代表変換係数として示す代表入力ベクトル<X>を生成する。
(ステップS114)音響伝達関数推定部132は、各周波数について、代表入力信号情報に示されるチャネルごとの代表変換係数をチャネル間で正規化し、音源からそのチャネルに対応するマイクロホンまでの音響伝達関数を第2音響伝達関数H’として推定する。
(ステップS116)音響伝達関数更新部134は、周波数ごとに、代表推定音源方向θ’に係る第1音響伝達関数HEと第2音響伝達関数H’の加重平均値(1-β)HE+βH’を新たな第1音響伝達関数HEとして更新する。
【0064】
なお、
図2の処理は、観測期間ごとに繰り返されてもよいし、観測期間よりも短い周期、例えば、1フレームごとに繰り返されてもよい。
【0065】
(評価実験)
次に、上記の実施形態の有効性を評価するために実行した評価実験について説明する。評価実験は、一般的なオフィス環境と同様の音響環境を有する実験室内で行った。実験室内の形状は、ほぼ直方体である。実験室の大きさは、横(x方向)、縦(y方向)、高さ(z方向)が、それぞれ7.0、4.0、3.0[m]である(
図5参照)。実験室は、実験室の中央部、周縁部には、それぞれテーブルが設置され、テーブルの周囲には複数の椅子が設置された。中央部のテーブルには、収音部20として円形マイクロホンアレイ(
図3参照)を設置し、テーブルの床面からの高さを0.9[m]とした。周縁部のテーブルには、ノート型パーソナルコンピュータとその他の物品を配置した。
【0066】
評価実験に先立ち、音源信号を取得した。音源として日本語話し言葉コーパス(CSJ:Corpus of Spontaneous Japanese)から選択された男声を用いた。マイクロホンアレイの中央部からの距離が0.78mとなる円周上に沿ってスピーカを時計回りにゆっくり移動させながら、音源信号に従って放音させた。スピーカ中央部の床面からの高さを1.0mとした。その状況下で、音源から到来しマイクロホンアレイで収音される音を示す8チャネルの音響信号を20分間取得した。サンプリング周波数を16kHzとした。その間におけるスピーカは円周上を3周した。
また、第1音響伝達関数の初期値HTとして、自由音場モデルを仮定して、目標方向に設置されたスピーカとマイクロホンアレイとの位置関係に基づいて算出した音響伝達関数を予め設定した。
【0067】
周波数分析部122は、周波数分析においてSTFTを実行した。STFTにおいて、フレーム長、シフト幅をそれぞれ、512点、256点とした。窓関数として、ハン窓(ハニング窓)を用いた。平均音圧が-24dB以上となるフレームを有効フレームとし。有効フレームにおける音響信号を採用し、それ以外のフレームを無音区間として採用せずに、棄却した。観測期間に相当する時間が経過する都度、新たな観測期間を設定した。即ち、観測期間のシフト幅をその観測期間と同等の期間とした。
【0068】
評価実験は、2項目の検証から構成される。第1の検証では、最頻値フィルタの長さ(観測期間に相当)と音源定位性能との関係を調べた。第1の検証では、予め複数通りの観測期間のそれぞれに対して取得した音響信号を用いて
図2に例示される処理を実行して第1音響伝達関数を更新した。観測期間を、60フレーム(0.96秒)から600フレーム(9.6秒)までの60フレーム間隔の11通りとした。
【0069】
第1音響伝達関数に対する音源方向の方向分解能を5°とした。方向分解能は、個々の第1音響伝達関数に関連付けられた音源方向の間隔に相当する。処理対象とする周波数帯域の最大周波数、最小周波数を、それぞれ300Hz、6000Hzとした。そして、更新により得られた第1音響伝達関数を含む音響伝達関数セットを用いて音源定位を実行し、推定音源方向と目標音源方向を比較した。目標音源方向は、正解となる既知の音源方向に相当する。音源定位の手法として遅延和法を用いた。
【0070】
音源定位性能の評価指標として、成功率を算出した。成功率は、有効フレーム数に対する成功フレーム数の比率に相当する。成功フレームは、音源定位に成功したフレームに相当する。本検証では、推定音源方向が目標音源方向から所定範囲(例えば、5°)以内であるフレームを成功フレームとして計数した。従って、成功率が高いほど音源定位性能が良好であることを意味する。本検証では、有効フレーム数は4322フレームとなった。
【0071】
図6は、観測期間ごとの成功率を例示する図である。
図6によれば、観測期間が120フレーム(1.92秒に相当)となるとき成功率が90.42%と最高となった。本検証においてスピーカを移動していたことを鑑みても、約1.92秒間はスピーカが静止していると仮定しても音源定位の性能を低下させずに済むことを示す。また、全体として観測期間が短いほど成功率が高い傾向がある。観測期間が長いほど移動に伴う目標音源方向の変化により外れ値の発生頻度が高くなることと、第1音響伝達関数の更新頻度が低下することが原因として考えられる。他方、観測期間が短いと代表推定音源方向を定める際に用いられる推定音源方向の分布に対する統計的信頼性が低くなる。このことは、むしろ成功率が低下する要因となる。観測期間が120フレームとなるとき成功率が最高となる現象は、観測期間による増加と減少との表れとみることができる。
【0072】
第1の検証では、信頼度と第1音響伝達関数の種類との関係を調べた。第1音響伝達関数の種類として、次の3種類のそれぞれに対して成功率を定めた。(1)本実施形態:第1音響伝達関数と第2音響伝達関数の加重和を新たな第1音響伝達関数に更新、(2)既存手法(非特許文献1に記載の手法):フレームごとに第1音響伝達関数を更新、(3)更新なし:第1音響伝達関数を更新しない。但し、観測期間を120フレームとした。
【0073】
図7は、第1音響伝達関数の種類ごとの成功率を例示する図である。
図7は、更新無し、既存手法、本実施形態の順に成功率を示す。成功率は、既存手法、更新無し、本実施形態の順に高くなる。成功率は、更新無しでは、85.59%、既存手法では、80.63%、本実施形態では、90.42%となった。この結果は、本実施形態の有効性を裏付ける。既存手法での成功率が、更新無しでの成功率よりも低くなる現象は、フレームごとに一律に第1音響伝達関数を更新するため、外れ値が生じ信頼度が低い推定音源方向が得られるケースを棄却しないことが一因と推察される。
【0074】
(変形例)
次に、本実施形態の変形例について説明する。以下の説明では、上述の実施形態との差異を主とし、特に断らない限り、上述の実施形態と同一の符号を付してその説明を援用する。
図8は、本実施形態の第1変形例に係る音響処理システムS1の構成例を示す概略ブロック図である。本変形例に係る音響処理システムS1は、音源分離に応用される。音響処理システムS1において、音響処理装置10の制御部120は、周波数分析部122、音源方向推定部124、代表推定音源方向決定部126、外れ値除去部128、代表音響信号決定部130、音響伝達関数推定部132および音響伝達関数更新部134の他、さらに音源分離部136と音源信号生成部138を備える。
【0075】
周波数分析部122は、入力信号情報を音源方向推定部124、音響伝達関数推定部132の他、音源分離部136にも出力する。
音源方向推定部124は、推定音源方向情報を代表推定音源方向決定部126および外れ値除去部128の他、音源分離部136にも出力する。
音響伝達関数推定部132は、第2音響伝達関数情報を音響伝達関数更新部134の他、音源分離部136にも出力する。
【0076】
音源分離部136には、周波数分析部122から入力信号情報が入力され、音源方向推定部124から推定音源方向情報が入力される。音源分離部136は、入力信号情報に示されるチャネルごとの変換係数から推定音源方向から到来する音源成分を抽出する。音源分離部136は、例えば、記憶部150に記憶された音響伝達関数セットを参照し、推定音源方向θ’に係る第1音響伝達関数HEから分離行列W(HE,θ’)を算出する。音源分離部136は、式(5)に例示されるように、入力ベクトルXに分離行列W(HE,θ’)を乗じて、その推定音源方向θ’に存在する音源から到来する音源成分として推定される出力値を各周波数について示す出力ベクトルY(分離音源)を算出することができる。入力ベクトルXは、入力信号情報に示されるチャネルごとの変換係数を要素として含むベクトルである。推定音源方向が複数個検出される場合には、音源分離部136は、音源(推定音源方向)ごとに出力値を定めることができる。音源分離部136は、各音源について周波数ごとに定めた出力値を示す出力信号情報を音源信号生成部138に出力する。
【0077】
【0078】
音源信号生成部138は、各音源について音源分離部136から入力される出力信号情報に示される周波数ごとの出力値を時間領域におけるサンプル時刻ごとの振幅の時系列に変換する。音源信号生成部138は、周波数領域における周波数ごとの出力値を振幅の時系列に変換する際、周波数分析との逆処理、例えば、逆離散フーリエ変換を用いることができる。音源信号生成部138は、各音源についてフレームごとに得られた振幅の時系列をフレーム間で連結して音源信号を生成することができる。音源信号生成部138は、生成した音源信号を出力先機器に入出力部110を経由して出力してもよいし、記憶部150に記憶してもよい。
【0079】
なお、音源方向推定部124は、空間スペクトルSsp(θ)が極大となり、所定の空間スペクトルの閾値よりも大きくなる方向を複数個検出することがある。その場合には、音源方向推定部124は、複数個の音源方向をそれぞれ推定音源方向として示す推定音源方向情報を音源分離部136に出力してもよい。このような場合には、有意な音源が複数個存在すると推定されるためである。音源方向推定部124における音源定位と音源分離部136における音源分離は、音響伝達関数更新部134における第1音響電圧関数の更新と同時に実行されてもよいが、必ずしも同期しなくてもよい。即ち、検出される音源が2個以上となる場合に、推定音源方向情報を代表推定音源方向決定部126と外れ値除去部128に出力せず、代表推定音源方向決定部126から代表推定音源方向情報が音響伝達関数更新部134に入力されない場合でも音源分離部136における音源分離の実行は許容される。
【0080】
なお、音源分離部136は、音源分離の手法として、例えば、上記のビームフォーミング法を応用することができる。その場合、音源分離部136は、ビームフォーミング法を用いて推定された推定音源方向θ’に係る音響伝達関数ベクトルH(θ’)の疑似逆行列H+(θ’)を分離行列として採用すればよい。その他の音源分離の手法として、例えば、GHDSS(Geometric-contrained High-order Decorrelation-based Source Separation, 幾何制約高次相関除去音源分離)法を用いることができる。GHDSS法は、コスト関数J(W)が最小化するように分離行列Wを適応的に算出する過程を含む。コスト関数J(W)は、分離尖鋭度(Separation Sharpness)JSS(W)と幾何制約度(Geometric Constrain)JGC(W)との重み付き和となる。分離尖鋭度JSS(W)は、ある音源の音源成分Yに他の音源の成分が混入する度合いを示す指標値である。幾何制約度JGC(W)は、出力となる音源信号と音源から発されたもとの音源信号との誤差の度合いを表す指標値である。
【0081】
次に、本実施形態の第2変形例について説明する。以下の説明では、上述の実施形態ならびに変形例との差異を主とし、特に断らない限り、上述の実施形態と同一の符号を付してその説明を援用する。本変形例に係る音響処理システムS1は、ロボットシステム(図示せず)の一部をなす。
図9は、本変形例に係る音響処理システムS1の構成例を示す概略ブロック図である。音響処理システムS1をなす音響処理装置10と収音部20の一方または両方は、ロボットの筐体に内蔵されてもよい。
【0082】
音響処理装置10において、制御部120は、周波数分析部122、音源方向推定部124、代表推定音源方向決定部126、外れ値除去部128、代表音響信号決定部130、音響伝達関数推定部132、音響伝達関数更新部134、音源分離部136および音源信号生成部138の他、動作制御部140を備える。即ち、音響処理システムS1において、音源方向推定部124、音源分離部136および音源信号生成部138は、ロボット聴覚(robot audition)を実現するロボット聴覚機能ブロックとして機能してもよい。
【0083】
制御部120は、さらに音声認識処理部(図示せず)を備えてもよい。音声認識処理部は、個々の音源に係る音源成分に対して、公知の音声認識処理を実行して音源の種類を特定してもよい(音源同定)。音声認識処理部は、音源の種類として、人物である発話者が特定されてもよい。音源方向推定部124は、特定した種類の音源について、推定音源方向を示す推定音源方向情報を他の装置に通知してもよいし、特定した種類の音源について出力信号情報から変換された音源信号を他の装置に出力してもよい。
音源方向推定部124は、上記のように音源位置を推定可能とし、推定音源位置を示す推定音源方向情報を代表推定音源方向決定部126、外れ値除去部128および音源分離部136の他、動作制御部140に出力する。
【0084】
動作制御部140には、音源方向推定部124から推定音源方向情報が入力され、音源分離部136から音源成分を示す出力信号情報が入力される。動作制御部140は、推定音源位置と音源成分の一方または両方を用いて動作機構40の動作を制御する。動作制御部140は、例えば、推定音源位置と音源成分に基づいて、自己位置推定と環境地図作成を実行してもよい(SLAM:Simultaneous Localization and Mapping、同時定位地図作成)。動作制御部140は、音源同定を実行することで推定音源位置における音源となる物体(人物を含む)の存在を推定することができる。動作制御部140は、推定音源位置に近いほど高くなるように所定の密度関数モデルを用いて音源となる物体の存在確率を定めてもよい。動作制御部140は、例えば、物体ごとに存在する存在確率の空間分布を物体間で重畳して環境地図を作成することができる。動作制御部140は、経路計画において、物体の存在確率が所定の存在確率よりも高い領域を通過しないように進行経路を定めてもよい。進行経路は、時刻ごとの目標位置により表される。動作制御部140は、所定の種類の音源の推定方向をロボットの正面に相対する目標方向と定めてもよい。動作制御部140は、その時点における目標位置と目標方向の一方または両方を示す制御信号を動作機構40に出力する。
【0085】
動作機構40は、ロボットの筐体に内蔵され、動作制御部140から入力される制御信号に基づいてロボットの動作を制御する。動作機構40は、動力源となるモータ(図示せず)と自部の位置と方向を検出するエンコーダ(図示せず)を備える。モータは、制御信号で指示される目標位置または目標方向に近づくようにロボットを移動させる。エンコーダは、その時点において検出した位置と方向を動作状態として示す動作情報を逐次に動作制御部140に出力する。
【0086】
以上に説明したように、本実施形態に係る音響処理装置10は、第1音響伝達関数を音源方向ごとに記憶する記憶部150と、各フレームについて、チャネルごとの音響信号の周波数領域における変換係数と第1音響伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部124と、複数フレームからなる観測期間における推定音源方向の頻度分布に基づいて推定音源方向の代表値である代表推定音源方向を定める代表推定音源方向決定部126と、推定音源方向が代表推定音源方向から予め定めた許容範囲の範囲外となるフレームの変換係数を除去する外れ値除去部128と、残されたフレームの音響信号の変換係数に基づいて、観測期間における音源から音響信号の収音部までの音響伝達関数の代表値を第2音響伝達関数として推定する音響伝達関数推定部132と、代表推定音源方向に対する第1音響伝達関数を、第2音響伝達関数を用いて更新する音響伝達関数更新部134と、を備える。
この構成によれば、代表推定音源方向から所定の範囲内の推定音源方向を与える音響信号の変換係数に基づいて第2音響伝達関数が算出され、算出された第2音響伝達関数を用いて代表推定音源方向と対応付けて第1音響伝達関数を更新することができる。統計的に代表推定音源方向、または、これに近似する推定音源方向を与える音響信号に基づいて得られる音響伝達関数の代表値が第2音響伝達関数として代表推定音源方向と対応付けて更新されるので、音源方向との対応関係が安定した第1音響伝達関数が得られる。かかる第1音響伝達関数を用いることで、オンラインで任意の音響信号を用いて、音源定位、音源分離、その他のマイクロホンアレイ処理の信頼性を向上することができる。
【0087】
また、音源方向推定部124は、頻度が極大(例えば、最大)となる推定音源方向φを代表推定音源方向θ’として定めてもよい。
この構成によれば、観測期間内での頻度が極大となる推定音源方向が代表推定音源方向として定まるため、可能性が最も高い推定音源方向が代表推定音源方向として簡素に定まる。
【0088】
また、音響伝達関数更新部134は、第1音響伝達関数と第2音響伝達関数の加重平均値(例えば、βH’+(1-β)HE)を新たな第1音響伝達関数HEに更新してもよい。
この構成によれば、観測期間の変更に伴い、第1音響伝達関数は更新により第2音響伝達関数に完全に置き換わらず、その一部の成分が残される。第1音響伝達関数の急激な変動が回避されるため、システムの安定性が図られる。
【0089】
また、音響伝達関数更新部134は、観測期間における推定音源方向が許容範囲の範囲内となる頻度(例えば、フレーム数L)に基づいて代表推定音源方向の信頼度(例えば、L/K、Kは観測期間内のフレーム数)を定め、信頼度が高いほど第1音響伝達関数に対する第2音響伝達関数の比率βを高くしてもよい(例えば、L/2K)。
この構成によれば、信頼度が高い推定音源方向を与える音響信号ほど重視して第2音響伝達関数を用いて第1音響伝達関数を更新することができる。そのため、更新される第1音響伝達関数の信頼性を向上させることができる。
【0090】
また、推定音源方向の許容範囲は代表推定音源方向と等しく、前記代表推定音源方向とは異なる方向を含まなくてもよい。
この構成によれば、推定音源方向が代表推定音源方向と等しいか否かにより、推定音源方向を与える音響信号の変換係数を簡素に排除するか否かを定めることができる。
【0091】
また、音源方向推定部124は、チャネルごとの変換係数を含む入力ベクトルXに、チャネルごとの第1音響伝達関数を含む音響伝達関数ベクトルの疑似逆行列H+を乗算して空間スペクトルを算出してもよい。
この構成によれば、簡素な行列演算により算出される空間スペクトルに基づいて音源方向を推定することができる。そのため、多くの演算資源を要しないため、経済的な実現を図ることができる。
【0092】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0093】
S1…音響処理システム、10…音響処理装置、20…収音部、40…動作機構、110…入出力部、120…制御部、122…周波数分析部、124…音源方向推定部、126…代表推定音源方向決定部、128…外れ値除去部、130…代表音響信号決定部、132…音響伝達関数推定部、134…音響伝達関数更新部、136…音源分離部、138…音源信号生成部、140…動作制御部、150…記憶部