特許7599656 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧 ▶ 学校法人　工学院大学の特許一覧

特許7599656音響処理装置、音響処理方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-06

(45)【発行日】2024-12-16

(54)【発明の名称】音響処理装置、音響処理方法およびプログラム

(51)【国際特許分類】

H04R 3/00 20060101AFI20241209BHJP

【ＦＩ】

H04R3/00 320

【請求項の数】 8

(21)【出願番号】P 2021145441

(22)【出願日】2021-09-07

(65)【公開番号】P2023038627

(43)【公開日】2023-03-17

【審査請求日】2023-09-01

(73)【特許権者】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(73)【特許権者】

【識別番号】501241645

【氏名又は名称】学校法人工学院大学

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】中臺一博

(72)【発明者】

【氏名】瀧ケ平将行

(72)【発明者】

【氏名】中島弘史

【審査官】佐久聖子

(56)【参考文献】

【文献】特開２０１７－０６７９４８（ＪＰ，Ａ）

【文献】特開２０１５－０１９１２４（ＪＰ，Ａ）

【文献】特開２０１５－１１９３４３（ＪＰ，Ａ）

【文献】中国特許出願公開第１０８３７５７６３（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｒ３／００－３／０４

Ｈ０４Ｒ１／２０－１／４０

Ｇ１０Ｈ１／００－１７／００

(57)【特許請求の範囲】

【請求項1】

音源からの音の伝達特性を示す第１伝達関数を音源方向ごとに記憶する記憶部と、
複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第１伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、
前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部と、
前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第２伝達関数として推定する伝達関数推定部と、
前記音響信号から検出される音源数が１個であるとき、前記第２伝達関数を用いて前記推定音源方向に対する前記第１伝達関数を更新する伝達関数更新部と、
を備える
音響処理装置。

【請求項2】

音源からの音の伝達特性を示す第１伝達関数を音源方向ごとに記憶する記憶部と、
複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第１伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、
前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部と、
前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第２伝達関数として推定する伝達関数推定部と、
前記第２伝達関数を用いて前記推定音源方向に対する前記第１伝達関数を更新する伝達関数更新部と、を備え、
前記伝達関数推定部は、
前記チャネルごとの前記変換係数の振幅を、前記変換係数のチャネル間のノルムで正規化し、
前記チャネルごとの前記変換係数の位相を、前記変換係数のチャネル間の総和の位相で正規化する
音響処理装置。

【請求項3】

前記伝達関数更新部は、
所定時間ごとに、前記第１伝達関数の少なくとも一部の成分を前記第２伝達関数の前記成分で更新する
請求項１または請求項２に記載の音響処理装置。

【請求項4】

前記音源方向推定部は、
前記空間スペクトルとして、前記変換係数と前記第１伝達関数に基づいて多重信号分類スペクトルを算出する
請求項１から請求項３のいずれか一項に記載の音響処理装置。

【請求項5】

前記推定音源方向に対する第１伝達関数に基づいて、前記推定音源方向に対する分離行列を定め、
前記変換係数を要素として有する入力ベクトルに前記分離行列を作用して算出されるベクトルを、音源ごとに到来する音源成分を要素として有する出力ベクトルとして出力する音源分離部を備える
請求項１から請求項４のいずれか一項に記載の音響処理装置。

【請求項6】

コンピュータに請求項１から請求項５のいずれか一項に記載の音響処理装置として機能させるためのプログラム。

【請求項7】

音源からの音の伝達特性を示す第１伝達関数を音源方向ごとに記憶する記憶部を備える音響処理装置の方法であって、
複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第１伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、
前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定ステップと、
前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第２伝達関数として推定する伝達関数推定ステップと、
前記音響信号から検出される音源数が１個であるとき、前記第２伝達関数を用いて前記推定音源方向に対する前記第１伝達関数を更新する伝達関数更新ステップと、
を有する音響処理方法。

【請求項8】

音源からの音の伝達特性を示す第１伝達関数を音源方向ごとに記憶する記憶部を備える音響処理装置の方法であって、
複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第１伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、
前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定ステップと、
前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第２伝達関数として推定する伝達関数推定ステップと、
前記第２伝達関数を用いて前記推定音源方向に対する前記第１伝達関数を更新する伝達関数更新ステップと、を有し、
前記伝達関数推定ステップは、
前記チャネルごとの前記変換係数の振幅を、前記変換係数のチャネル間のノルムで正規化し、
前記チャネルごとの前記変換係数の位相を、前記変換係数のチャネル間の総和の位相で正規化することを特徴とする
音響処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音響処理装置、音響処理方法およびプログラムに関する。

【背景技術】

【0002】

音源定位（sound source localization）や音源分離（sound source separation）は、音響信号処理の要素技術である。音源定位は、マイクロホンアレイを用いて受音された複数チャネルの音響信号から音源方向を推定する手法である。音源分離は、複数チャネルの音響信号から個々の音源から到来する成分を抽出する手法である。騒音環境における発話など、同時に複数の音源が発音される場合、特定の音に注目する際に有用である。音源定位や音源分離は、ロボット聴覚（robot audition）をはじめ、スマートスピーカ、通信会議システム、議事録作成など、など種々の分野に応用されている。ロボット聴覚では、人との意思疎通または聴覚情景（auditory scene）の理解などに用いられることがある。

【0003】

音源定位や音源分離では、音源から受音点への伝達特性を示す伝達関数が用いられる。音源と受音点との位置関係は固定されているため、伝達関数は静的な関数として定義される。一般には現実の音響環境では伝達関数は知り得ないため、一連の伝達関数を予め取得しておくことが通例である。伝達関数は、例えば、自由音場を仮定した数理モデルを用いて算出することや（特許文献１）、実験室において異なる音源方向の伝達関数を測定すること、などの手段で取得される。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１６－１４４０４４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、予め取得した伝達関数は、現実の音響環境において測定される伝達関数と必然的に差を生ずる。そのため、音源定位や音源分離の性能が著しく低下することがある。他方、利用される音響環境が変更される都度、伝達関数を測定することで時間や作業に係る負担が生ずる。たとえ伝達関数を適切に測定できたとしても、音響環境における種々の物体の配置によって伝達関数が変化しがちである。また、伝達関数は、温度、気圧、湿度などの室内環境によっても異なりうる。

【0006】

本実施形態は上記の点に鑑みてなされたものであり、現実の音響環境において変動する伝達関数を推定することができる音響処理装置、音響処理方法およびプログラムを提供することを課題とする。

【課題を解決するための手段】

【0007】

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、音源からの音の伝達特性を示す第１伝達関数を音源方向ごとに記憶する記憶部と、複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第１伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部と、前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第２伝達関数として推定する伝達関数推定部と、前記音響信号から検出される音源数が１個であるとき、前記第２伝達関数を用いて前記推定音源方向に対する前記第１伝達関数を更新する伝達関数更新部と、を備える音響処理装置である。
（２）本発明の他の態様は、音源からの音の伝達特性を示す第１伝達関数を音源方向ごとに記憶する記憶部と、複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第１伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部と、前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第２伝達関数として推定する伝達関数推定部と、前記第２伝達関数を用いて前記推定音源方向に対する前記第１伝達関数を更新する伝達関数更新部と、を備え、前記伝達関数推定部は、前記チャネルごとの前記変換係数の振幅を、前記変換係数のチャネル間のノルムで正規化し、前記チャネルごとの前記変換係数の位相を、前記変換係数のチャネル間の総和の位相で正規化する音響処理装置である。

【0008】

（３）本発明の他の態様は、（１）または（２）の音響処理装置であって、前記伝達関数更新部は、所定時間ごとに、前記第１伝達関数の少なくとも一部の成分を前記第２伝達関数の前記成分で更新してもよい。

【0011】

（４）本発明の他の態様は、（１）から（３）のいずれかの音響処理装置であって、前記音源方向推定部は、前記空間スペクトルとして、前記変換係数と前記第１伝達関数に基づいて多重信号分類スペクトルを算出してもよい。

【0012】

（５）本発明の他の態様は、（１）から（４）のいずれかの音響処理装置であって、前記推定音源方向に対する第１伝達関数に基づいて、前記推定音源方向に対する分離行列を定め、前記変換係数を要素として有する入力ベクトルに前記分離行列を作用して算出されるベクトルを、音源ごとに到来する音源成分を要素として有する出力ベクトルとして出力する音源分離部を備えてもよい。

【0013】

（６）本発明の他の態様は、コンピュータに（１）から（５）のいずれかの音響処理装置として機能させるためのプログラムであってもよい。

【0014】

（７）本発明の他の態様は、音源からの音の伝達特性を示す第１伝達関数を音源方向ごとに記憶する記憶部を備える音響処理装置の方法であって、複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第１伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定ステップと、前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第２伝達関数として推定する伝達関数推定ステップと、前記音響信号から検出される音源数が１個であるとき、前記第２伝達関数を用いて前記推定音源方向に対する前記第１伝達関数を更新する伝達関数更新ステップと、を有する音響処理方法である。
（８）本発明の他の態様は、音源からの音の伝達特性を示す第１伝達関数を音源方向ごとに記憶する記憶部を備える音響処理装置の方法であって、複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第１伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定ステップと、前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第２伝達関数として推定する伝達関数推定ステップと、前記第２伝達関数を用いて前記推定音源方向に対する前記第１伝達関数を更新する伝達関数更新ステップと、を有し、前記伝達関数推定ステップは、前記チャネルごとの前記変換係数の振幅を、前記変換係数のチャネル間のノルムで正規化し、前記チャネルごとの前記変換係数の位相を、前記変換係数のチャネル間の総和の位相で正規化することを特徴とする音響処理方法である。

【発明の効果】

【0015】

上述した（１）、（２）、（６）－（８）の構成によれば、取得されるチャネルごとの音響信号から推定された推定音源方向に対する伝達関数が第２伝達関数として推定され、推定された第２伝達関数を用いて第１伝達関数が更新される。そのため、取得された音響信号に基づき現実の音響環境において変動する伝達関数を推定することができる。

【0016】

上述した（３）の構成によれば、一度に第１の伝達関数の一部の成分が更新されるので、第２伝達関数の変動や誤推定の影響が緩和される。

【0017】

上述した（１）、（７）の構成によれば、推定音源方向に対するチャネル間における相対的な伝達特性を示す第２伝達関数をより確実に推定することができる。

【0018】

上述した（２）、（８）の構成によれば、チャネル間において変換係数の振幅および位相を正規化して第２伝達関数を推定することができる。

【0019】

上述した（４）の構成によれば、現実の音響環境を反映した第１伝達関数を用いて算出した多重信号分類スペクトルを用いて音源方向を正確に推定することができる。

【0020】

上述した（５）の構成によれば、現実の音響環境を反映した第１伝達関数を用いて算出した分離行列を用いて推定音源方向から到来する音源成分を正確に抽出することができる。

【図面の簡単な説明】

【0021】

【図1】第１の実施形態に係る音響処理システムの構成例を示すブロック図である。

【図2】第１の実施形態に係る音響処理の一例を示すデータフローチャートである。

【図3】第２の実施形態に係る音響処理システムの構成例を示すブロック図である。

【図4】収音部の一例を示す図である。

【図5】収音部の他の例を示す図である。

【図6】伝達関数の評価結果の例を示す図である。

【図7】音源定位の評価結果の例を示す図である。

【図8】音源分離の評価結果の例を示す図である。

【図9】音源定位および音源分離の一実行例を示す図である。

【図10】音源定位および音源分離の他の実行例を示す図である。

【発明を実施するための形態】

【0022】

（第１の実施形態）
図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音響処理システムＳ１の構成例を示すブロック図である。
音響処理システムＳ１は、音響処理装置１０と、収音部２０と、を備える。

【0023】

音響処理装置１０には、音源からの音の伝達特性を示す伝達関数を音源方向ごとに記憶させておく。音響処理装置１０は、複数チャネルの音響信号を取得し、チャネルごとの音響信号の周波数領域における変換係数と記憶された伝達関数に基づいて音源方向ごとに空間スペクトルを算出する。音響処理装置１０は、空間スペクトルが最大となる音源方向を推定音源方向として推定する（音源定位、sound source localization）。他方、音響処理装置１０は、算出した変換係数をチャネル間で正規化して推定音源方向に対する伝達関数として推定し、推定した伝達関数を用いて推定音源方向に対する予め記憶された伝達関数を更新する。更新された伝達関数を含む伝達関数セットは、新たに取得した音響信号から音源方向を推定するために用いられる。よって、音源方向の推定と伝達関数の更新が逐次に繰り返される。

【0024】

音響処理装置１０は、推定した音源方向を用いて取得される複数チャネルの音響信号から、個々の音源からの音源成分を抽出する機能を備える（音源分離、sound source separation）。音響処理装置１０は、抽出した音源成分を有する音響信号を音源信号として生成してもよい。音源分離処理の手法によっては、音響処理装置１０は、伝達関数セットに含まれる伝達関数のうち、推定した音源方向に係る伝達関数を用いることがある。
なお、本願では音響処理装置１０に記憶された伝達関数を「第１伝達関数」と呼び、音響処理装置１０が推定した伝達関数を「第２伝達関数」と呼ぶことで、両者を区別することがある。

【0025】

音響処理装置１０は、推定した音源方向と、音源成分もしくは音源信号の一方または両方を、自装置において他の処理に用いてもよいし、出力先となる他の装置（図示せず、以下、「出力先機器」と呼ぶことがある）に出力してもよい。音響処理装置１０は、他の処理として、例えば、推定音源方向における物体の存在を推定してもよい。音響処理装置１０は、特定の音源方向（話者）からの音源成分もしくは音源信号に対して音声認識処理を行い、発話内容を示す発話テキストを取得してもよいし、話者を推定してもよい。出力先となる出力先機器は、ＰＣ（Personal Computer）、多機能携帯電話機、などの情報通信機器であってもよいし、計測器、監視装置、などであってもよい。

【0026】

収音部２０は、複数のマイクロホン２０－１～２０－Ｍを有し、マイクロホンアレイとして機能する。マイクロホンの数Ｍは、２以上の整数である。個々のマイクロホンは、それぞれ異なる位置に配置され、それぞれ自部に到来する音波を収音するアクチュエータを備える。アクチュエータは、到来した音波を音響信号に変換する。変換された音響信号は、音響処理装置１０に無線または有線で出力される。個々のマイクロホンは、音響信号のチャネルに対応する。

【0027】

複数のマイクロホンの配置は、固定されてもよいし、可変であってもよい。複数のマイクロホンの位置は、互いに異なっていればよい。図４に示す例では、８個のマイクロホンが水平面に平行な円周上に中心からの間隔が等間隔となるように配置されている。図４では、個々のマイクロホンは黒丸で示される。８個のマイクロホンは、筐体の側面に配置され、１個のマイクロホンアレイとして形成される。筐体は、垂直方向に向いた回転軸に対して回転対称性を有する形状、いわゆる卵型の形状を有する。マイクロホンアレイは、個々のマイクロホンにより収録された８チャネルの音響信号を集約し、有線で並列に音響処理装置１０に出力するための出力インタフェースを備える。

【0028】

次に、本実施形態に係る音響処理装置１０の機能構成例について説明する。
音響処理装置１０は、入出力部１１０と、制御部１２０と、記憶部１４０と、を含んで構成される。
入出力部１１０は、他の機器と各種のデータを入力および出力可能に無線または有線で接続する。入出力部１１０は、入力データとして、収音部２０からＭチャネルの音響信号を制御部１２０に出力する。入出力部１１０は、例えば、出力データとして、制御部１２０から入力される推定情報を出力先機器（図示せず）に出力しうる。入出力部１１０は、例えば、入出力インタフェース、通信インタフェースなどのいずれか、または、それらの組み合わせであってもよい。

【0029】

制御部１２０は、音響処理装置１０の機能を実現するための処理、その機能を制御するための処理、などを実行する。制御部１２０は、全体として、もしくは、個々の機能に対して、専用の部材を用いて構成されてもよいが、ＣＰＵ（Central Processing Unit）などのプロセッサと各種の記憶媒体を含んでコンピュータシステムとして構成されてもよい。プロセッサは、予め記憶媒体に記憶された所定のプログラムを読み出し、読み出したプログラムに記述された各種の命令で指示される処理を実行して制御部１２０の機能を実現する。

【0030】

制御部１２０は、周波数分析部１２２、伝達関数推定部１２４、伝達関数更新部１２６、音源方向推定部１３２、音源分離部１３４および音源信号生成部１３６を含んで構成される。なお、特に断らない限り、伝達関数推定部１２４、伝達関数更新部１２６、音源方向推定部１３２および音源分離部１３４の処理は、それぞれ周波数ごとに独立に実行される。

【0031】

周波数分析部１２２には、収音部２０から入出力部１１０を経由してＭチャネルの音響信号が入力される。取得されるＭチャネルの音響信号は、それぞれ時間領域におけるサンプル時刻ごとの振幅の時系列（波形）を表す。周波数分析部１２２は、各チャネルについて時間領域に対して、所定の期間（例えば、２０ｍｓ－１００ｍｓ）のフレームごとに周波数分析を行い、周波数領域における周波数ごとの変換係数に変換する。個々のチャネルの変換係数の周波数にわたるセットは周波数スペクトルを示す。周波数分析部１２２は、周波数分析において、例えば、離散フーリエ変換などの手法が利用可能である。周波数分析部１２２は、変換により得られた変換係数を示す入力情報を伝達関数推定部１２４、音源方向推定部１３２および音源分離部１３４に出力する。

【0032】

伝達関数推定部１２４には、周波数分析部１２２から入力情報が入力される。伝達関数推定部１２４は、各周波数について、入力情報に示されるチャネルごとの変換係数に基づいて、音源からそのチャネルに対応するマイクロホンまでの伝達関数を推定する。後述するように、推定される伝達関数は、第２伝達関数として音源方向推定部１３２において推定される推定音源方向と関連付けられる。伝達関数推定部１２４は、第２伝達関数を推定する際、例えば、チャネルごとの変換係数の振幅と位相のそれぞれをチャネル間で正規化する。式（１）に示す例では、入力ベクトルＸをそのノルム｜Ｘ｜で除算して、変換係数の振幅が正規化される。ノルムとして、例えば、二乗和の平方根が適用可能である。入力ベクトルＸは、ある周波数における各チャネルｍに対する変換係数Ｘ_ｍを要素として有するベクトルである。正規化された振幅は、０以上１以下の実数値となる。変換係数Ｘ_ｍのチャネル間の総和Σ_ｍＸ_ｍをその絶対値｜Σ_ｍＸ_ｍ｜で除算して得られる商の複素共役を乗算することで、変換係数の位相が正規化される。位相の正規化により、各チャンネルの変換係数の振幅で重みを付けたチャネル間の位相の平均値が０となる。本実施形態では、個々の伝達関数はチャネル間で相対化された値であってもよく、必ずしも絶対値でなくてもよい。伝達関数推定部１２４は、推定した第２伝達関数を示す第２伝達関数情報を伝達関数更新部１２６に出力する。

【0033】

【数1】

【0034】

伝達関数更新部１２６には、伝達関数推定部１２４から第２伝達関数情報が入力され、音源方向推定部１３２から推定音源方向情報が入力される。推定音源方向情報は、音源方向推定部１３２が推定した音源方向を示す情報である。伝達関数更新部１２６は、各周波数について、入力される第２伝達関数情報が示すチャネルごとの第２伝達関数を、推定音源方向情報に示される推定音源方向に対応する第２伝達関数として特定する。伝達関数更新部１２６は、特定した第２伝達関数を用いて、記憶部１４０に記憶された伝達関数セットのうち推定音源方向に対応する第１伝達関数を更新する。伝達関数更新部１２６は、例えば、更新対象とする周波数ならびにチャネルの第２伝達関数を、その周波数ならびにチャネルの第１伝達関数として置き換える。

【0035】

但し、第２伝達関数を単純にフレームごとに第１伝達関数に置き換えると、置き換わる第１伝達関数の変動が著しくなることがある。第１伝達関数は、例えば、音源からの音の提示の有無、音響環境の一時的な変化、音源方向の誤推定などによる影響を直接受けることがある。
そこで、伝達関数更新部１２６は、１回の演算において更新対象とする周波数ならびにチャネルの第１伝達関数の一部の成分が第２伝達関数の一部の成分に置き換わるように、更新後の第１伝達関数を定めてもよい。伝達関数更新部１２６は、例えば、指数平滑法を用いて、その時点における第２伝達関数Ｈ’と更新対象とする推定音源方向θ’に係る第１伝達関数Ｈ_Ｅ（θ’）を加重平均して、新たに更新される第１伝達関数Ｈ_Ｅ（θ’）を算出する。式（２）に示す例では、第２伝達関数Ｈ’に乗算される重み係数αは、０より大きく１より小さい所定の実数値である。更新前の第１伝達関数Ｈ_Ｅ（θ’）には重み係数（１－α）が乗じられる。よって、第１伝達関数Ｈ_Ｅ（θ’）として新しい第２伝達関数Ｈ’ほど重視されるように平滑化された伝達関数の時間平均値が得られる。伝達関数更新部１２６は、もとの更新前の第１伝達関数Ｈ_Ｅ（θ’）に代え、新たな第１伝達関数Ｈ_Ｅ（θ’）を推定音源方向θ’に対応付けて記憶部１４０に記憶する。

【0036】

【数2】

【0037】

音源方向推定部１３２は、記憶部１４０に記憶された伝達関数セットを参照し、周波数分析部１２２から入力される入力情報に示される各チャネルの変換係数を用いて、周波数ごとに空間スペクトルＳ_ｓｐ（θ）を算出する。空間スペクトルは、収音部２０の位置を基準とする方向ごとに音源が存在する可能性の程度を示す指標とみることができる。音源方向推定部１３２は、伝達関数セットＨ_Ｅ、音源方向θ、および、入力ベクトルＸを用いて算出することができる。音源方向推定部１３２は、式（３）に示すように、空間スペクトルが最大となる方向を推定音源方向θ’として推定する。空間スペクトルを算出する手法の具体例については、後述する。音源方向推定部１３２は、推定した推定音源方向を示す推定音源方向情報を伝達関数更新部１２６と音源分離部１３４に出力する。

【0038】

【数3】

【0039】

なお、音源方向推定部１３２は、空間スペクトルＳ_ｓｐ（θ）が極大となり、所定の空間スペクトルの閾値よりも大きくなる方向を複数個検出することがある。その場合には、音源方向推定部１３２は、複数個の音源方向をそれぞれ推定音源方向として示す推定音源方向情報を音源分離部１３４に出力してもよい。このような場合には、有意な音源が複数個存在すると推定されるためである。

【0040】

また、音源方向推定部１３２は、空間スペクトルＳ_ｓｐ（θ）が極大となり、かつ、所定の空間スペクトルの閾値よりも大きくなる方向が１個検出される場合に限り、検出された１個の方向を推定音源方向θ’として示す推定音源方向情報を伝達関数更新部１２６に出力してもよい。伝達関数更新部１２６は、上述のように、音源方向推定部１３２から推定音源方向情報で通知される１個の推定音源方向θ’に係る第１伝達関数Ｈ_Ｅ（θ’）を、第２伝達関数Ｈ’を用いて更新することができる。

【0041】

言い換えれば、音源方向推定部１３２は、空間スペクトルＳ_ｓｐ（θ）が極大となり、かつ、所定の空間スペクトルの閾値よりも大きくなる方向が２個以上検出される場合と、空間スペクトルＳ_ｓｐ（θ）が極大となり、かつ、所定の空間スペクトルの閾値よりも大きくなる方向が検出されない場合には、推定音源方向情報を伝達関数更新部１２６に出力しない。その場合、伝達関数更新部１２６は、音源方向推定部１３２から推定音源方向情報は入力されず、伝達関数推定部１２４により周波数分析部１２２からの入力情報から推定された第２伝達関数に基づく第１伝達関数の更新を停止する。空間スペクトルＳ_ｓｐ（θ）が極大となり、かつ、所定の空間スペクトルの閾値よりも大きくなる方向は、音源方向として推定されるが、音源方向が２個以上検出される場合には、マイクロホンに複数の音源から到来した音が重畳されるため、チャネル間の変換係数の比が特定の１個の音源に係る音源方向に対する伝達関数の比とならない。音源方向が検出されない場合には、そもそも有意な音が音源からマイクロホンに到来しない。従って、検出される音源が１個の場合に伝達関数の推定、更新を制限することで伝達関数の推定精度の劣化を抑えられる。検出される音源が２個以上となる場合でも、音源分離部１３４における音源分離の実行は許容される。

【0042】

音源分離部１３４には、周波数分析部１２２から入力情報が入力され、音源方向推定部１３２から推定音源方向情報が入力される。音源分離部１３４は、入力情報に示されるチャネルごとの変換係数から推定音源方向から到来する音源成分を抽出する。音源分離部１３４は、例えば、記憶部１４０に記憶された伝達関数セットＨ_Ｅを参照し、推定音源方向θ’に係る伝達関数から分離行列Ｗ（Ｈ_Ｅ，θ’）を算出する。音源分離部１３４は、式（４）に例示されるように、入力ベクトルＸに分離行列Ｗ（Ｈ_Ｅ，θ’）を乗じて、その推定音源方向θ’に存在する音源から到来する音源成分として推定される出力値Ｙ（分離音源）を周波数ごとに算出することができる。入力ベクトルＸは、入力情報に示されるチャネルごとの変換係数を要素として含む。推定音源方向が複数個検出される場合には、音源分離部１３４は、音源（推定音源方向）ごとに出力値を定めることができる。音源分離部１３４は、各音源について周波数ごとに定めた出力値を示す出力情報を音源信号生成部１３６に出力する。

【0043】

【数4】

【0044】

音源信号生成部１３６は、各音源について音源分離部１３４から入力される出力情報に示される周波数ごとの出力値を時間領域におけるサンプル時刻ごとの振幅の時系列に変換する。音源信号生成部１３６は、周波数領域における周波数ごとの出力値を振幅の時系列に変換する際、周波数分析との逆処理、例えば、逆離散フーリエ変換を用いることができる。音源信号生成部１３６は、各音源についてフレームごとに得られた振幅の時系列をフレーム間で連結して音源信号を生成することができる。音源信号生成部１３６は、生成した音源信号を出力先機器に入出力部１１０を経由して出力してもよいし、記憶部１４０に記憶してもよい。

【0045】

記憶部１４０は、各種のデータを一時的または恒常的に記憶する記憶媒体を含んで構成される。記憶部１４０は、制御部１２０により用いられる各種のデータ（パラメータ等を含む）、制御部１２０またはその他の機能部により取得された各種のデータ（外部から入力された入力データ、処理中の中間データ、処理結果として生成された生成データを含む）を記憶する。記憶部１４０には、伝達関数セットが記憶される。伝達関数セットは、音源方向ごとに、各周波数について個々のマイクロホン（チャネル）について第１伝達関数を含んで構成される。伝達関数セットの初期値として、予め測定された伝達関数が用いられてもよいし、所定の幾何モデルを用いて予め計算された伝達関数が用いられてもよい。幾何モデルとして、自由音場における平面波の伝搬を仮定した平面波モデル、収音部２０から所定の距離に存在する音源からの球面波の伝搬を仮定した球面波モデル、などが用いられてもよい。式（４）に例示される初期の伝達関数セットＨ_Ｔは、各チャネルおよび周波数について、音源方向ごとの第１伝達関数Ｈ_Ｔ（θ_１）～Ｈ_Ｔ（θ_Ｎ）を要素として含む。Ｈ_Ｔ（θ_１）等は、音源方向θ_１に係る幾何モデルに基づいて算出される伝達関数を示す。Ｎは、音源方向の個数を示す。互いに隣接する音源方向の間隔は、音源定位により推定される音源方向の精度に直接的に影響する。音源方向の個数が多いほど音源方向の精度の向上が期待されるが、音源定位における空間スペクトルの算出に係る演算量が増大する。

【0046】

【数5】

【0047】

伝達関数セットをなす個々の第１伝達関数に対応付けられる音源方向の配置は、例えば、収音部２０の位置を中心とする水平面に平行な円周上に分布する一次元配列であってもよい。その場合には、個々の音源方向は方位角で表される。音源方向の配置は、収音部２０の位置を中心とする球面上に分布する二次元配列でもよい。その場合には、音源方向は、方位角と仰角で表される。また、伝達関数セットは、音源位置ごとに第１伝達関数を含んで構成されてもよい。その場合には、音源位置の配置は、三次元空間において分布する三次元分布となる。音源位置は、収音部２０の位置を基準とする三次元座標で表され、音源方向と基準位置からの距離との組み合わせに相当する。但し、本実施形態では主に音源位置の分布が一次元配列である場合を例にして説明するが、二次元配列または三次元配列である場合にも適用可能である。

【0048】

伝達関数セットが、音源位置ごとの第１伝達関数を含んで構成される場合には、音源方向推定部１３２は、推定対象とする情報として音源位置を推定することができる。音源方向推定部１３２は、音源方向に代え、音源位置ごとに空間スペクトルを算出し、空間スペクトルが極大（または最大）となる音源位置を特定すればよい。伝達関数更新部１２６は、特定された音源位置を推定音源位置とし、上記の手法を用いて伝達関数推定部１２４が推定した第２伝達関数を用いて、推定音源位置に係る第１伝達関数を更新すればよい。

【0049】

（音源定位の例）
次に、音源定位の手法の一例としてＭＵＳＩＣ（Multiple Signal Classification,多重信号分類）法について説明する。ＭＵＳＩＣ法では、次に説明する手順を実行して空間スペクトルＳ_ｓｐ（θ）が算出される。
音源方向推定部１３２は、算出した変換係数を要素として含む入力ベクトルＸから式（６）に示すように入力相関行列Ｒ_ＸＸを算出する。

【0050】

【数6】

【0051】

式（６）において、Ｅ［…］は、…の期待値を示す。…^＊は、行列またはベクトル…の共役転置を示す。
音源方向推定部１３２は、各周波数について入力相関行列Ｒ_ＸＸの固有値δ_ｐおよび固有ベクトルξ_ｐを算出する。入力相関行列Ｒ_ＸＸ、固有値δ_ｐ、および、固有ベクトルξ_ｐは、式（７）に示す関係を有する。

【0052】

【数7】

【0053】

式（７）において、ｐは、１以上Ｍ以下の整数である。インデックスｐの順序は、固有値δ_ｐの降順である。
音源方向推定部１３２は、音源方向ごとに伝達関数ベクトルＨ（θ）と算出した固有ベクトルξ_ｐに基づいて、式（８）に例示される空間スペクトルＳ_ｓｐ（θ）を算出する。式（８）において、Ｄ_ｍは、検出可能とする音源の最大個数に相当し、Ｍよりも小さい予め定めた自然数である。伝達関数ベクトルＨ（θ）は、音源方向θに係るチャネルごとの第１伝達関数Ｈ_Ｅ（θ）を要素として含むＭ次元のベクトルである。
即ち、式（８）は、伝達関数ベクトルＨ（θ）のノルムの平方を、第Ｄ_ｍ＋１次～第ＤＭ次までの固有ベクトルξ_ｐのそれぞれとの内積の総和で正規化して空間スペクトルＳ_ｓｐ（θ）を算出することを示す。

【0054】

【数8】

【0055】

音源方向推定部１３２は、ＭＵＳＩＣ法に限らず、音源方向ごとの伝達関数を用いた空間スペクトルの演算を伴う音源定位の手法のその他の例として、ビームフォーミング（ＢＦ：Beam Forming）法などの手法を用いてもよい。ＢＦ法では、式（９）に例示されるように、入力ベクトルＸと伝達関数ベクトルＨ（θ）の疑似逆行列との積が空間スペクトルＳ_ｓｐ（θ）として算出される。式（９）において、…^＋は、ベクトルまたは行列…の疑似逆行列を示す。

【0056】

【数9】

【0057】

（音源分離の例）
次に、音源分離の手法の一例としてＧＨＤＳＳ（Geometric-contrained High-order Decorrelation-based Source Separation, 幾何制約高次相関除去音源分離）法について説明する。ＧＨＤＳＳ法は、コスト関数Ｊ（Ｗ）が減少するように分離行列Ｗを適応的に算出する過程を含む。コスト関数Ｊ（Ｗ）は、式（１０）に示すように分離尖鋭度（Separation Sharpness）Ｊ_ＳＳ（Ｗ）と幾何制約度（Geometric Constrain）Ｊ_ＧＣ（Ｗ）との重み付き和となる。

【0058】

【数10】

【0059】

式（１０）において、βは、分離尖鋭度Ｊ_ＳＳ（Ｗ）のコスト関数Ｊ（Ｗ）への寄与の度合いを示す予め定めた重み係数を示す。
分離尖鋭度Ｊ_ＳＳ（Ｗ）は、式（１１）に例示される指標値である。

【数11】

【0060】

｜…｜^２は、フロベニウスノルムを示す。フロベニウスノルムは、行列の各要素値の二乗和である。ｄｉａｇ（…）は、行列…の対角要素の総和を示す。即ち、分離尖鋭度Ｊ_ＳＳ（Ｗ）は、ある音源の音源成分Ｙに他の音源の成分が混入する度合いを示す指標値である。
幾何制約度Ｊ_ＧＣ（Ｗ）は、式（１２）に例示される指標値である。

【0061】

【数12】

【0062】

式（１２）において、Ｉは単位行列を示す。即ち、幾何制約度Ｊ_ＧＣ（Ｗ）は、出力となる音源信号と音源から発されたもとの音源信号との誤差の度合いを表す指標値である。

【0063】

音源分離部１３４は、記憶部１４０に記憶された伝達関数セットから、推定音源方向情報に示される各音源の音源方向に対応する伝達関数を抽出し、抽出した伝達関数を要素として、音源およびチャネル間で統合して伝達関数行列Ｄを生成する。ここで、各行、各列がが、それぞれチャネル、音源（音源方向）に対応する。音源分離部１３４は、生成した伝達関数行列Ｄに基づいて、式（１３）に例示される初期分離行列Ｗ_ｉｎｉｔを算出する。

【0064】

【数13】

【0065】

式（１３）において、…^－１は、行列…の逆行列を示す。従って、Ｄ^＊Ｄが、その非対角要素がすべてゼロである対角行列である場合、初期分離行列Ｗ_ｉｎｉｔは、伝達関数行列Ｄの疑似逆行列となる。
音源分離部１３４は、式（１４）に示すようにステップサイズμ_ＳＳ、μ_ＧＣによる複素勾配Ｊ’_ＳＳ（Ｗ_ｔ）、Ｊ’_ＧＣ（Ｗ_ｔ）の重み付け和を現時刻（フレーム）ｔにおける分離行列Ｗ_ｔ＋１から差し引いて、次の時刻ｔ＋１における分離行列Ｗ_ｔ＋１を算出する。

【0066】

【数14】

【0067】

式（１４）において分離行列Ｗ_ｔから差し引かれる成分μ_ＳＳＪ’_ＳＳ（Ｗ_ｔ）＋μ_ＧＣＪ’_ＧＣ（Ｗ_ｔ）が更新量ΔＷに相当する。複素勾配Ｊ’_ＳＳ（Ｗ_ｔ）は、分離尖鋭度Ｊ_ＳＳを入力ベクトルＸで微分して導出される。複素勾配Ｊ’_ＧＣ（Ｗ_ｔ）は、幾何制約度Ｊ_ＧＣを入力ベクトルＸで微分して導出される。

【0068】

音源分離部１３４は、分離行列Ｗ_ｔ＋１が収束したと判定するとき、この分離行列Ｗ_ｔ＋１を分離行列Ｗ（Ｈ_Ｅ，θ’）として定めることができる。音源分離部１３４は、例えば、更新量ΔＷのフロベニウスノルムが所定の閾値以下になったときに、分離行列Ｗ_ｔ＋１が収束したと判定する。または、音源分離部１３４は、更新量ΔＷのフロベニウスノルムに対する分離行列Ｗ_ｔ＋１のフロベニウスノルムに対する比が所定の比の閾値以下になったとき、分離行列Ｗ_ｔ＋１が収束したと判定してもよい。

【0069】

なお、音源分離部１３４は、ＧＨＤＳＳ法に限らず、その他の音源分離の手法として推定音源方向に係る伝達関数に基づく分離行列の演算を伴う手法、例えば、ＢＦ法を用いることができる。ＢＦ法は、音源方向推定部１３２により推定された推定音源方向θ’に係る伝達関数ベクトルＨ（θ’）の疑似逆行列Ｈ^＋（θ’）を分離行列として採用する手法である。

【0070】

（音響処理）
次に、本実施形態に係る音響処理について説明する。図２は、本実施形態に係る音響処理の一例を示すデータフローチャートである。本実施形態に係る音響処理装置１０は、伝達関数適応推定ブロックＢ１０と音響処理ブロックＢ１２に分類される。
以下に説明するステップのうち、ステップＳ１０２、Ｓ１０６、Ｓ１１０、Ｓ１２２は、伝達関数適応推定ブロックＢ１０に属する。ステップＳ１２２、Ｓ１２４は、音響処理ブロックＢ１２に属する。ステップＳ１２２は、伝達関数適応推定ブロックＢ１０と音響処理ブロックＢ１２に属し、各ブロックで独立に非同期で実行されてもよいし、ブロック間で同期して実行されてもよい。

【0071】

（ステップＳ１０２）制御部１２０は、伝達関数セットの初期値を予め取得しておき、取得した伝達関数セットを記憶部１４０に記憶する。制御部１２０は、例えば、所定の幾何モデルを用いて音源方向ごとに各チャネルおよび周波数について伝達関数を算出しておく。
（ステップＳ１０４）周波数分析部１２２は、Ｍチャネルの時間領域の音響信号のそれぞれに対し、フレームごとに周波数領域の変換係数に変換する。周波数分析部１２２は、各チャネルの変換係数を示す入力情報Ｘを伝達関数適応推定ブロックＢ１０に提供する。

【0072】

（ステップＳ１０６）伝達関数推定部１２４は、各周波数について、入力情報に示されるチャネルごとの変換係数に基づいて第２伝達関数（推定伝達関数Ｈ’）を推定する。第２伝達関数の推定において、例えば、式（１）に示す関係が用いられる。
（ステップＳ１１０）伝達関数更新部１２６は、第２伝達関数を用いて、伝達関数セットのうち推定音源方向θ’に対応する第１伝達関数（更新伝達関数Ｈ_Ｅ（θ’））を更新する。第１伝達関数の更新において、例えば、式（２）に示す関係が用いられる。
（ステップＳ１１２）伝達関数更新部１２６は、伝達関数セットのうち、更新前のもとの第１伝達関数に代え、更新後の第１伝達関数を推定音源方向θ’と関連付けて記憶部１４０部に記憶する。

【0073】

（ステップＳ１２２）音源方向推定部１３２は、伝達関数セットを参照して、入力情報に示される各チャネルの変換係数を用いて、周波数ごとに空間スペクトルを算出する。
音源方向推定部１３２は、空間スペクトルが最大となる音源方向を推定音源方向θ’として定める。推定音源方向の決定において、例えば、式（３）に示す関係が用いられる。
（ステップＳ１２４）音源分離部１３４は、伝達関数セットを参照し、推定音源方向θ’に係る伝達関数から分離行列を算出する。音源分離部１３４は、入力情報に基づく入力ベクトルに分離行列を乗じ、推定音源方向θ’から到来する音源成分として推定される出力値（分離音源）を周波数ごとに算出する。

【0074】

ステップＳ１０４－Ｓ１２４の処理をフレームごとに繰り返す都度、推定音源方向θ’と音源成分を示す出力値Ｙが得られる。推定音源方向θ’と出力値Ｙは、制御部１２０による他の処理に用いられてもよいし、出力先機器に出力し、出力先機器において用いられてもよい。推定音源方向θ’と出力値Ｙは、記憶部１４０に一時的にまたは恒常的に記憶されてもよい。
制御部１２０または出力先機器は、例えば、推定音源方向θ’を目標方向、または、死角としてＭチャネルの音響信号に対する指向性制御に用いてもよい。制御部１２０または出力先機器は、出力値Ｙまたは出力値Ｙに基づく音源信号に対して、例えば、音声認識処理を行って発話テキスト、音源の種類、話者のいずれか、またはいずれかを取得してもよい。制御部１２０または出力先機器は、音声認識結果として得られる発話テキストと話者の情報を用いて対話処理を行ってもよい。

【0075】

以上に説明したように、本実施形態によれば、次の効果を奏することができる。（１）伝達関数の推定のために所定の既知の試験信号（例えば、拍手（インパルス）、時間引き延ばしパルス（ＴＳＰ：Time Stretched Pulse）など）に限らず、あらゆる種類の音源が伝達関数の推定に利用可能となる。（２）音源と各マイクロホンの位置関係を校正せずに直接的に伝達関数を更新することができる。（３）校正などの事前の処理を伴わずにオンラインで伝達関数を適応学習することができる。（４）伝達関数の適応学習を音源定位や音源分離などのマイクロホンアレイ処理と並行することができる。

【0076】

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。以下の説明では、上述の実施形態との差異を主とし、特に断らない限り、上述の実施形態と同一の符号を付してその説明を援用する。本実施形態に係る音響処理システムＳ２は、動作機構４０を備えるロボット（図示せず）の制御システムもしくはサブシステムとして構成されている場合を例とする。

【0077】

図３は、本実施形態に係る音響処理システムＳ２の構成例を示すブロック図である。
音響処理システムＳ２は、音響処理装置１０ｂと収音部２０を含んで構成される。音響処理装置１０ｂと収音部２０の一方または両方は、ロボットの筐体に内蔵されてもよい。図５に示す例では、収音部２０とするマイクロホンアレイが人型ロボットの頭部に埋め込まれている。個々のマイクロホンは、黒丸で示される。この例では、マイクロホン数は１６個である。１６個のマイクロホンは、半径が異なる２つの同心円上に配置される。各８個のマイクロホンは、それぞれの同心円上に４５°間隔で配置される。一方の同心円上に配置される一群のマイクロホンは、他方の同心円上に配置される他のマイクロホンとは、２２．５°の方位角のずれを有する。音響処理装置１０、１０ｂは、収音部２０をなすマイクロホンのうち一部のマイクロホンから取得される音響信号がＭチャネル（例えば、１５チャネル）の音響信号として用いてもよい。

【0078】

図３に戻り、音響処理装置１０ｂは、入出力部１１０、制御部１２０ｂおよび記憶部１４０を含んで構成される。制御部１２０ｂは、周波数分析部１２２、伝達関数推定部１２４、伝達関数更新部１２６、音源方向推定部１３２、音源分離部１３４、音源信号生成部１３６および動作制御部１３８を含んで構成されてもよい。また、音源方向推定部１３２と音源分離部１３４により実現される音響処理ブロックＢ１２（図２）は、ロボット聴覚（robot audition）を実現するロボット聴覚機能ブロックとして機能してもよい。

【0079】

音響処理ブロックＢ１２は、個々の音源に係る音源成分に対して、公知の音声認識処理を実行して音源の種類を特定してもよい（音源同定）。音源の種類として、人物である発話者が特定されてもよい。音響処理ブロックＢ１２は、特定した種類の音源について、推定音源方向を示す推定音源方向情報を他の装置に通知してもよいし、特定した種類の音源について出力情報から変換された音源信号を他の装置に出力してもよい。

【0080】

音源方向推定部１３２は、上記のように音源位置を推定可能とし、動作制御部１３８には、音源方向推定部１３２から推定音源位置を示す推定音源方向情報が入力され、音源分離部１３４から音源成分を示す出力情報が入力される。動作制御部１３８は、推定音源位置と音源成分の一方または両方を用いて動作機構４０の動作を制御する。動作制御部１３８は、例えば、推定音源位置と音源成分に基づいて、自己位置推定と環境地図作成を実行してもよい（ＳＬＡＭ：Simultaneous Localization and Mapping、同時定位地図作成）。動作制御部１３８は、音源同定を実行することで推定音源位置における音源となる物体（人物を含む）の存在を推定することができる。動作制御部１３８は、推定音源位置に近いほど高くなるように所定の密度関数モデルを用いて音源となる物体の存在確率を定めてもよい。動作制御部１３８は、例えば、物体ごとに存在する存在確率の空間分布を物体間で重畳して環境地図を作成することができる。動作制御部１３８は、経路計画において、物体の存在確率が所定の存在確率よりも高い領域を通過しないように進行経路を定めてもよい。進行経路は、時刻ごとの目標位置により表される。動作制御部１３８は、所定の種類の音源の推定方向をロボットの正面に相対する目標方向と定めてもよい。動作制御部１３８は、その時点における目標位置と目標方向の一方または両方を示す制御信号を動作機構４０に出力する。

【0081】

動作機構４０は、ロボットの筐体に内蔵され、動作制御部１３８から入力される制御信号に基づいてロボットの動作を制御する。動作機構４０は、動力源となるモータ（図示せず）と自部の位置と方向を検出するエンコーダ（図示せず）を備える。モータは、制御信号で指示される目標位置または目標方向に近づくようにロボットを移動させる。エンコーダは、その時点において検出した位置と方向を動作状態として示す動作情報を逐次に動作制御部１３８に出力する。

【0082】

（評価実験）
次に、上記の実施形態の有効性を評価するために実行した評価実験について説明する。評価実験は、縦、横、高さが、それぞれ４、７、３［ｍ］となる直方体の空間をなす実験室内で行った。実験室の残響時間ＲＴ_６０は、０．３［ｓ］である。評価項目により、収音部２０として、図４に例示されるマイクロホンアレイ（以下、「卵型アレイ）と呼ぶ）と、図５に例示されるマイクロホンアレイ（以下、「ロボット内蔵アレイ」と呼ぶ）とを使い分けた。卵型アレイは床面からの高さが０．９［ｍ］となり実験室のほぼ中央部に設置された机上に、ノート型パーソナルコンピュータとその他の物品とともに設置した。ロボット内蔵アレイを用いる場合には、音源以外のその他の物品を除去し、ロボットのみを実験室の中央部に設置した。

【0083】

評価実験に先立ち、次のデータを準備した。収音部２０とする卵型アレイでは、チャネルごとにサンプリング周波数１６ｋＨｚ、サンプル当たりのビット幅２４ビットの音響信号が取得される。卵型アレイに対して、２種類の伝達関数セットＴＦ_Ｔ ^Ｌ、ＴＦ_Ｔ ^Ｍ、卵型アレイの周囲を移動中に録音したホワイトノイズＷ_Ｔ、卵型アレイの周囲を移動中に録音した発話音声Ｓ_Ｔ、および、混合音声Ｍ_Ｔを準備した。混合音声Ｍ_Ｔは、音源分離に用いられる。

【0084】

伝達関数セットＴＦ_Ｔ ^Ｌ（低位置、Low Position）を取得する際、音源方向ごとにＴＳＰ信号に基づいて再生した音を収音した。ここで、音源位置を卵型アレイの中心からの距離を０．７８ｍとし、床面からの高さが０．７８ｍとなるように水平面に平行な円周上において３０°間隔に設定した。この高さは、卵型アレイの中心から１５．８°下方に相当する。伝達関数セットＴＦ_Ｔ ^Ｍ（中間位置、Middle Position）も伝達関数セットＴＦ_Ｔ ^Ｌと同様な条件で取得した。但し、音源位置の床面からの高さを１．０ｍとした。この高さは、卵型アレイの中心から７．３°上方に相当し、椅子に着席した人物の口元の高さに相当する。

【0085】

ホワイトノイズＷ_Ｔを取得する際、人物にホワイトノイズを再生するスピーカを保持しながら卵型アレイの周囲を１回転時計回りに周回させ、その後、移動方向を反転し、１回転反時計回りに周回させるという動作を６回繰り返させた。ここで、スピーカの位置（音源位置）の卵型アレイの中心からの距離、床面からの高さを、それぞれ０．７８ｍ、１．０ｍとした。全録音時間は６．８分となった。

【0086】

発話音声Ｓ_Ｔを取得する際、日本語話し言葉コーパス（ＣＳＪ：Corpus of Spontaneous Japanese）から選択された男声をスピーカから再生した。スピーカの卵型アレイからの距離と床面からの高さを、ホワイトノイズＷ_Ｔを取得する際と同様に設定した。但し、男声の録音時間を２０分とし、３回に分けて人物に卵型アレイの周囲を時計回りに周回させた。

【0087】

混合音声Ｍ_Ｔを取得する際、２個のスピーカを卵型アレイから０．７８ｍの距離ならびに床面からの高さを０．７８ｍとして、それぞれ正面から０°、６０°の方位に設置した。
２個の音源としてＣＳＪから選択された２名の男声を選択し、それぞれ異なるスピーカに同時に再生させた。録音時間を１００秒とした。そして、２名の男声に対し、さらにホワイトノイズを加えた。但し、０°から再生した音声とのＳＮＲ（Signal-to-Noise Ratio、信号対雑音比）を２０ｄＢとした。

【0088】

ロボット内蔵アレイでは、チャネルごとにサンプリング周波数４８ｋＨｚ、１サンプル当たりのビット幅２４ビットの音響信号が取得される。ロボット内蔵アレイに対して、１種類の伝達関数セットＴＦ_Ｔ ^Ｈおよびロボットの周囲を移動中に録音したホワイトノイズＷ_Ｈを準備した。
伝達関数セットＴＦ_Ｔ ^Ｈ（高位置、High Position）を取得する際、音源方向ごとにＴＳＰ信号に基づいて再生した音を収音した。ここで、音源位置をロボット内蔵アレイの中心からの距離を１．５ｍとし、床面からの高さが１．５ｍとなるように水平面に平行な円周上において５°間隔に設定した。この高さは、直立した人物の口元の高さに相当する。

【0089】

ホワイトノイズＷ_Ｈを取得する際、人物にホワイトノイズを再生するスピーカを保持しながら卵型アレイの周囲を時計回りに繰り返し周回させる動作を２回行った。全録音時間は１５分となった。
その他、伝達関数セットＴＦ_Ｔ ^Ｇを準備した。伝達関数セットＴＦ_Ｔ ^Ｇは、音源方向ごとに幾何モデルを用いて予め計算された伝達関数を含んで構成される。

【0090】

次に、伝達関数の評価手法について説明する。本評価実験では、上記の実施形態において提案した提案法でホワイトノイズＷ_Ｔを用いて推定された伝達関数と、予め設定した伝達関数セットＴＦ_Ｔ ^Ｌ、ＴＦ_Ｔ ^Ｍ、ＴＦ_Ｔ ^Ｇのそれぞれに属する伝達関数とを平均二乗誤差（ＭＳＥ：Mean Squared Error）を用いて評価した。伝達関数の評価において、式（１５）を用いて、音源方向θごとに、２つの伝達関数セットＴＦ_ｉ、ＴＦ_ｊ間でＭＳＥを算出した。式（１５）において、Ｍ、Ｆは、それぞれマイクロホン数、周波数ビンの数を示す、ｍ、ｆは、それぞれマイクロホン（チャネル）、周波数のインデックスである。式（１５）に示す例では、個々のチャネル、周波数に係る推定誤差がチャネルおよび周波数間で平均化される。ここで、ホワイトノイズＷ_Ｔを用いて推定された伝達関数からなる伝達関数セットをＴＦ_ｉに代入し、伝達関数セットＴＦ_Ｔ ^Ｌ、ＴＦ_Ｔ ^Ｍ、ＴＦ_Ｔ ^ＧのそれぞれをＴＦ_ｊに代入した。

【0091】

【数15】

【0092】

図６は、伝達関数の評価結果の例を示す図である。図６は、推定された伝達関数セットと、伝達関数セットＴＦ_Ｔ ^Ｌ、ＴＦ_Ｔ ^Ｍ、ＴＦ_Ｔ ^Ｇのそれぞれについて音源方向ごとにＭＳＥを示す。伝達関数セットＴＦ_Ｔ ^Ｇに係るＭＳＥが他の伝達関数セットＴＦ_Ｔ ^Ｌ、ＴＦ_Ｔ ^Ｍに係るＭＳＥよりも大きい。このことは、推定された伝達関数が幾何モデルによる伝達関数よりも実測された伝達関数に近似していることを示す。つまり、本提案法により現実の音響環境に適応した伝達関数が推定されることが裏付けられる。但し、伝達関数セットＴＦ_Ｔ ^Ｌ、ＴＦ_Ｔ ^Ｍ間ではＭＳＥに有意差は認められない。人手で音源を移動させたために音源の高さが正確に制御できなかったことが一因と推認される。

【0093】

次に、音源定位の評価手法について説明する。本評価実験では、幾何モデルにより計算された伝達関数の伝達関数セット、本提案法によりホワイトノイズＷ_Ｈを用いて推定された伝達関数の伝達関数セット、測定された伝達関数の伝達関数セットＴＦ_Ｔ ^Ｈをそれぞれ用いて定位誤り率（localization error）Ｌ_Ｅを評価尺度として算出した。定位誤り率Ｌ_Ｅは、式（１６）に例示されるように評価に用いた有効な音響信号（パワーが所定の閾値（例えば、－５ｄＢ、－１０ｄＢ、など）を超える）の全フレーム数Ｎ_Ｔに対して、定位誤りが生じたフレーム数Ｎ_Ｅの比である。また、定位誤りの尺度として、音源定位において公知のＤＳ（Delay-and-Sum）法を用いて音源方向推定部１３２により音源方向を推定した。

【0094】

【数16】

【0095】

図７は、音源定位の評価結果の例を示す図である。図７は、幾何モデル、本提案法、伝達関数セットＴＦ_Ｔ ^Ｈのそれぞれについて、上段に平均定位誤り率を例示し、推定された音源方向を示す。平均定位誤り率は、幾何モデル、本提案法、伝達関数セットＴＦ_Ｔ ^Ｈの順に小さくなる。伝達関数セットＴＦ_Ｔ ^Ｈによれば、平均定位誤り率はほぼゼロとなる。伝達関数セットＴＦ_Ｔ ^Ｈによれば、推定される音源方向が現実の音源方向に忠実に追従する。本提案法で推定される音源方向は、幾何モデルよりもばらつきが抑えられる。このことは、本提案法により正確に伝達関数を推定することで音源定位の精度を向上できることを裏付ける。
また、本提案法と伝達関数セットＴＦ_Ｔ ^Ｈについては、閾値を－５ｄＢとした場合の方が、－１０ｄＢとした場合よりも平均定位誤り率が低い。このことは、十分な信号強度が確保されている場合に有意な信号成分が含まれるため、周囲雑音による影響を抑えられることを示す。

【0096】

次に、音源分離の評価手法について説明する。本評価実験では、音源分離部１３４は、混合音声Ｍ_Ｔに対して、ＧＨＤＳＳ法、ＤＳ法、ＬＣＭＶ（Linear Constrained Minimum Variance、線形拘束最小分散）法、ＮＵＬＬ法（ヌルビームフォーマ）、および、ＭＶＤＲ法（Minimum Variance Distortionless Response、最小分散無歪応答）法のそれぞれを用いて音源分離を実行した。これらの手法は、音源からの音源成分の抽出に利用されるビームフォーミングの特性により次のように分類される。ＤＳ法とＮＵＬＬ法は、完全に固定された（fully-fixed）ビームフォーミングを特徴とする。ＭＶＤＲ法は、半固定型（semi-fixed）ビームフォーミングを特徴とする。ＬＣＭＶ法とＧＨＤＳＳ法は、適応型（adaptive）ビームフォーミングを特徴とする。

【0097】

本評価実験では、各手法について、幾何モデルにより計算された伝達関数の伝達関数セット、ホワイトノイズＷ_Ｈを用いて推定された伝達関数の伝達関数セットと、卵型アレイに係る伝達関数セットＴＦ_Ｔ ^Ｍのそれぞれついて、信号歪比（ＳＤＲ：Signal-to-Distortion Ratio）と信号対干渉比（ＳＩＲ：Signal-to-Interference Ration）を評価尺度（metric）として用いた。ＳＤＲ、ＳＩＲは、それぞれ式（１７）、（１８）を用いて算出することができる。

【0098】

【数17】

【0099】

【数18】

【0100】

式（１７）、（１８）において、ｓ_{ｔａｒｇｅｔ}は、音源分離により得られた音源信号ｓのうち、クリーン音源の目標音源信号、つまり、もとの音源成分を示す。ｅ_{ｒｅｓｉｄｕｅ}は、音源分離により得られた音源信号ｓから目標音源信号を差し引いて得られる残留信号、つまり、残留ノイズ項（residual noise term）に相当する。ｅ_{ｉｎｔｅｒｆ}は、残留信号ｅ_{ｒｅｓｉｄｕｅ}に含まれる干渉成分を示す。本評価実験では、音源分離により得られた音源信号と収音された生の音響信号からそれぞれ得られるＳＤＲ、ＳＩＲの差分をＳＤＲ、ＳＩＲの改善度（improvement）として評価した。

【0101】

図８は、音源分離の評価結果の例を示す図である。図８は、幾何モデル、本提案法、伝達関数セットＴＦ_Ｔ ^Mのそれぞれについて、ＳＤＲ、ＳＩＲの改善度を音源分離の手法ごとに示す。ＳＤＲ、ＳＩＲの改善度は、伝達関数セットＴＦ_Ｔ ^Mが最も優れ、本提案法、幾何モデルの順に低下する。本提案法により推定された伝達関数によれば、いずれの音源分離の手法でも幾何モデルにより計算された伝達関数よりも品質の高い音源成分を抽出できることを示す。幾何モデルでは、むしろＳＤＲにおいて改善度が負となる。特に０°に設置された音源からの音声の成分が、６０°に設置された音源からの音声とホワイトノイズから十分に分離しない傾向がある。かかる傾向は、音源分離の手法によらず共通に生じる。

【0102】

次に、幾何モデル、本提案法、伝達関数セットＴＦ_Ｔ ^Mのそれぞれについて、音源定位および音源分離により推定された音源ごとの音源方向の例について説明する。図９、図１０は、２回の試行期間（lap）のそれぞれについて音源方向の時間変化を示す。図９に示す実行例では、本提案法について２回の試行期間を挟んで６．８秒間明示的にホワイトノイズＷ_Ｔを用いた校正期間を設けた。但し、音響処理装置１０には音源定位および音源分離の実行と同時に伝達関数を更新させず、伝達関数セットの初期値として幾何モデルによる推定音源方向を含む伝達関数セットを設定した。第１回目の試行期間においては、本提案法による推定音源方向の時間変化は、幾何モデルによる推定音源方向とほぼ同様の時間変化を示し、伝達関数セットＴＦ_Ｔ ^Mによる推定音源方向と有意な差を有する。
これに対し、第２回目の試行期間においては、本提案法による推定音源方向は、幾何モデルによる推定音源方向よりも伝達関数セットＴＦ_Ｔ ^Mによる推定音源方向の変化傾向に近似する。このことも現実の音響環境下で推定した伝達関数を用いることで、より正確な音源定位と音源分離を実現できることを示す。

【0103】

図１０に示す実行例では、２回の試行期間を挟んで校正期間を設けず、音響処理装置１０に音源定位と音源分離と並行して本提案法を用いて伝達関数を更新させた。但し、伝達関数セットの初期値として幾何モデルによる推定音源方向を含む伝達関数セットを設定した。第１回目の試行期間では、本提案法において幾何モデルと同様の音源方向が検出され、時間経過により幾何モデルでは検出されなくなった音源方向が検出される。但し、伝達関数セットＴＦ_Ｔ ^Mによる推定音源方向とは有意な差が生ずる。第２回目の試行期間では、本提案法による推定音源方向が伝達関数セットＴＦ_Ｔ ^Mによる推定音源方向とほぼ同様となる。このことは、伝達関数の適応学習が進むことで正確な音源定位ならびに音源分離が実現することを示す。

【0104】

以上に説明したように、本実施形態に係る音響処理装置１０、１０ｂは、音源からの音の伝達特性を示す第１伝達関数として音源方向ごとに記憶する記憶部１４０を備え、チャネルごとの音響信号の周波数領域における変換係数と第１伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部１３２を備える。音響処理装置１０、１０ｂは、変換係数をチャネル間で正規化して推定音源方向に対する伝達関数を第２伝達関数として推定する伝達関数推定部１２４と、第２伝達関数を用いて推定音源方向に対する第１伝達関数を更新する伝達関数更新部１２６を備える。
この構成により、取得されるチャネルごとの音響信号から推定された推定音源方向に対する伝達関数が第２伝達関数として推定され、推定された第２伝達関数を用いて第１伝達関数が更新される。そのため、取得された音響信号に基づき現実の音響環境において変動する伝達関数を推定することができる。

【0105】

また、伝達関数更新部１２６は、所定時間ごとに、第１伝達関数の少なくとも一部の成分を第２伝達関数の一部の成分で更新してもよい。
この構成により、一度に第１の伝達関数の一部の成分が更新されるので、第２伝達関数の変動や誤推定の影響が緩和される。

【0106】

また、伝達関数更新部１２６は、取得された音響信号から検出される音源数が１個であるとき、第１伝達関数を更新してもよい。
この構成により、推定音源方向に対するチャネル間における相対的な伝達特性を示す第２伝達関数をより確実に推定することができる。

【0107】

また、伝達関数推定部１２４は、チャネルごとの変換係数の振幅を、変換係数のチャネル間のノルムで正規化し、チャネルごとの変換係数の位相を、変換係数のチャネル間の総和の位相で正規化してもよい。
この構成により、チャネル間において変換係数の振幅および位相を正規化して第２伝達関数を推定することができる。

【0108】

また、音源方向推定部１３２は、空間スペクトルとして、変換係数と第１伝達関数に基づいて多重信号分類スペクトルを算出してもよい。
この構成により、現実の音響環境を反映した第１伝達関数を用いて算出した多重信号分類スペクトルを用いて音源方向を正確に推定することができる。

【0109】

また、音響処理装置１０、１０ｂは、推定音源方向に対する第１伝達関数に基づいて、推定音源方向に対する分離行列を定め、変換係数を要素として有する入力ベクトルに分離行列を作用して算出されるベクトルを、音源ごとに到来する音源成分を要素として有する出力ベクトルとして音源分離部１３４を備えてもよい。
この構成により、現実の音響環境を反映した第１伝達関数を用いて算出した分離行列を用いて推定音源方向から到来する音源成分を正確に抽出することができる。

【0110】

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

【符号の説明】

【0111】

Ｓ１、Ｓ２…音響処理システム、１０、１０ｂ…音響処理装置、２０…収音部、４０…動作機構、１１０…入出力部、１２０…制御部、１２２…周波数分析部、１２４…伝達関数推定部、１２６…伝達関数更新部、１３２…音源方向推定部、１３４…音源分離部、１３６…音源信号生成部、１３８…動作制御部、１４０…記憶部

【図1】