IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧 ▶ 学校法人 工学院大学の特許一覧

特許7599656音響処理装置、音響処理方法およびプログラム
<>
  • 特許-音響処理装置、音響処理方法およびプログラム 図1
  • 特許-音響処理装置、音響処理方法およびプログラム 図2
  • 特許-音響処理装置、音響処理方法およびプログラム 図3
  • 特許-音響処理装置、音響処理方法およびプログラム 図4
  • 特許-音響処理装置、音響処理方法およびプログラム 図5
  • 特許-音響処理装置、音響処理方法およびプログラム 図6
  • 特許-音響処理装置、音響処理方法およびプログラム 図7
  • 特許-音響処理装置、音響処理方法およびプログラム 図8
  • 特許-音響処理装置、音響処理方法およびプログラム 図9
  • 特許-音響処理装置、音響処理方法およびプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-06
(45)【発行日】2024-12-16
(54)【発明の名称】音響処理装置、音響処理方法およびプログラム
(51)【国際特許分類】
   H04R 3/00 20060101AFI20241209BHJP
【FI】
H04R3/00 320
【請求項の数】 8
(21)【出願番号】P 2021145441
(22)【出願日】2021-09-07
(65)【公開番号】P2023038627
(43)【公開日】2023-03-17
【審査請求日】2023-09-01
(73)【特許権者】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(73)【特許権者】
【識別番号】501241645
【氏名又は名称】学校法人 工学院大学
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】中臺 一博
(72)【発明者】
【氏名】瀧ケ平 将行
(72)【発明者】
【氏名】中島 弘史
【審査官】佐久 聖子
(56)【参考文献】
【文献】特開2017-067948(JP,A)
【文献】特開2015-019124(JP,A)
【文献】特開2015-119343(JP,A)
【文献】中国特許出願公開第108375763(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00- 3/04
H04R 1/20- 1/40
G10H 1/00-17/00
(57)【特許請求の範囲】
【請求項1】
音源からの音の伝達特性を示す第1伝達関数音源方向ごとに記憶する記憶部と、
複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第1伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、
前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部と、
前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第2伝達関数として推定する伝達関数推定部と、
前記音響信号から検出される音源数が1個であるとき、前記第2伝達関数を用いて前記推定音源方向に対する前記第1伝達関数を更新する伝達関数更新部と、
を備える
音響処理装置。
【請求項2】
音源からの音の伝達特性を示す第1伝達関数音源方向ごとに記憶する記憶部と、
複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第1伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、
前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部と、
前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第2伝達関数として推定する伝達関数推定部と、
前記第2伝達関数を用いて前記推定音源方向に対する前記第1伝達関数を更新する伝達関数更新部と、を備え、
前記伝達関数推定部は、
前記チャネルごとの前記変換係数の振幅を、前記変換係数のチャネル間のノルムで正規化し、
前記チャネルごとの前記変換係数の位相を、前記変換係数のチャネル間の総和の位相で正規化する
音響処理装置。
【請求項3】
前記伝達関数更新部は、
所定時間ごとに、前記第1伝達関数の少なくとも一部の成分を前記第2伝達関数の前記成分で更新する
請求項1または請求項2に記載の音響処理装置。
【請求項4】
前記音源方向推定部は、
前記空間スペクトルとして、前記変換係数と前記第1伝達関数に基づいて多重信号分類スペクトルを算出する
請求項1から請求項のいずれか一項に記載の音響処理装置。
【請求項5】
前記推定音源方向に対する第1伝達関数に基づいて、前記推定音源方向に対する分離行列を定め、
前記変換係数を要素として有する入力ベクトルに前記分離行列を作用して算出されるベクトルを、音源ごとに到来する音源成分を要素として有する出力ベクトルとして出力する音源分離部を備える
請求項1から請求項のいずれか一項に記載の音響処理装置。
【請求項6】
コンピュータに請求項1から請求項のいずれか一項に記載の音響処理装置として機能させるためのプログラム。
【請求項7】
音源からの音の伝達特性を示す第1伝達関数音源方向ごとに記憶する記憶部を備える音響処理装置の方法であって、
複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第1伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、
前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定ステップと、
前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第2伝達関数として推定する伝達関数推定ステップと、
前記音響信号から検出される音源数が1個であるとき、前記第2伝達関数を用いて前記推定音源方向に対する前記第1伝達関数を更新する伝達関数更新ステップと、
を有する音響処理方法。
【請求項8】
音源からの音の伝達特性を示す第1伝達関数音源方向ごとに記憶する記憶部を備える音響処理装置の方法であって、
複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第1伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、
前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定ステップと、
前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第2伝達関数として推定する伝達関数推定ステップと、
前記第2伝達関数を用いて前記推定音源方向に対する前記第1伝達関数を更新する伝達関数更新ステップと、を有し、
前記伝達関数推定ステップは、
前記チャネルごとの前記変換係数の振幅を、前記変換係数のチャネル間のノルムで正規化し、
前記チャネルごとの前記変換係数の位相を、前記変換係数のチャネル間の総和の位相で正規化することを特徴とする
音響処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響処理装置、音響処理方法およびプログラムに関する。
【背景技術】
【0002】
音源定位(sound source localization)や音源分離(sound source separation)は、音響信号処理の要素技術である。音源定位は、マイクロホンアレイを用いて受音された複数チャネルの音響信号から音源方向を推定する手法である。音源分離は、複数チャネルの音響信号から個々の音源から到来する成分を抽出する手法である。騒音環境における発話など、同時に複数の音源が発音される場合、特定の音に注目する際に有用である。音源定位や音源分離は、ロボット聴覚(robot audition)をはじめ、スマートスピーカ、通信会議システム、議事録作成など、など種々の分野に応用されている。ロボット聴覚では、人との意思疎通または聴覚情景(auditory scene)の理解などに用いられることがある。
【0003】
音源定位や音源分離では、音源から受音点への伝達特性を示す伝達関数が用いられる。音源と受音点との位置関係は固定されているため、伝達関数は静的な関数として定義される。一般には現実の音響環境では伝達関数は知り得ないため、一連の伝達関数を予め取得しておくことが通例である。伝達関数は、例えば、自由音場を仮定した数理モデルを用いて算出することや(特許文献1)、実験室において異なる音源方向の伝達関数を測定すること、などの手段で取得される。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2016-144044号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、予め取得した伝達関数は、現実の音響環境において測定される伝達関数と必然的に差を生ずる。そのため、音源定位や音源分離の性能が著しく低下することがある。他方、利用される音響環境が変更される都度、伝達関数を測定することで時間や作業に係る負担が生ずる。たとえ伝達関数を適切に測定できたとしても、音響環境における種々の物体の配置によって伝達関数が変化しがちである。また、伝達関数は、温度、気圧、湿度などの室内環境によっても異なりうる。
【0006】
本実施形態は上記の点に鑑みてなされたものであり、現実の音響環境において変動する伝達関数を推定することができる音響処理装置、音響処理方法およびプログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、音源からの音の伝達特性を示す第1伝達関数音源方向ごとに記憶する記憶部と、複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第1伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部と、前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第2伝達関数として推定する伝達関数推定部と、前記音響信号から検出される音源数が1個であるとき、前記第2伝達関数を用いて前記推定音源方向に対する前記第1伝達関数を更新する伝達関数更新部と、を備える音響処理装置である。
(2)本発明の他の態様は、音源からの音の伝達特性を示す第1伝達関数音源方向ごとに記憶する記憶部と、複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第1伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部と、前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第2伝達関数として推定する伝達関数推定部と、前記第2伝達関数を用いて前記推定音源方向に対する前記第1伝達関数を更新する伝達関数更新部と、を備え、前記伝達関数推定部は、前記チャネルごとの前記変換係数の振幅を、前記変換係数のチャネル間のノルムで正規化し、前記チャネルごとの前記変換係数の位相を、前記変換係数のチャネル間の総和の位相で正規化する音響処理装置である。
【0008】
(3)本発明の他の態様は、(1)または(2)の音響処理装置であって、前記伝達関数更新部は、所定時間ごとに、前記第1伝達関数の少なくとも一部の成分を前記第2伝達関数の前記成分で更新してもよい。
【0011】
(4)本発明の他の態様は、(1)から(3)のいずれかの音響処理装置であって、前記音源方向推定部は、前記空間スペクトルとして、前記変換係数と前記第1伝達関数に基づいて多重信号分類スペクトルを算出してもよい。
【0012】
(5)本発明の他の態様は、(1)から(4)のいずれかの音響処理装置であって、前記推定音源方向に対する第1伝達関数に基づいて、前記推定音源方向に対する分離行列を定め、前記変換係数を要素として有する入力ベクトルに前記分離行列を作用して算出されるベクトルを、音源ごとに到来する音源成分を要素として有する出力ベクトルとして出力する音源分離部を備えてもよい。
【0013】
(6)本発明の他の態様は、コンピュータに(1)から(5)のいずれかの音響処理装置として機能させるためのプログラムであってもよい。
【0014】
(7)本発明の他の態様は、音源からの音の伝達特性を示す第1伝達関数音源方向ごとに記憶する記憶部を備える音響処理装置の方法であって、複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第1伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定ステップと、前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第2伝達関数として推定する伝達関数推定ステップと、前記音響信号から検出される音源数が1個であるとき、前記第2伝達関数を用いて前記推定音源方向に対する前記第1伝達関数を更新する伝達関数更新ステップと、を有する音響処理方法である。
(8)本発明の他の態様は、音源からの音の伝達特性を示す第1伝達関数音源方向ごとに記憶する記憶部を備える音響処理装置の方法であって、複数のマイクロホンのそれぞれに対応するチャネルごとの音響信号の周波数領域における変換係数と前記第1伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、前記空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定ステップと、前記変換係数をチャネル間で正規化して得られた値を、前記推定音源方向に対する第2伝達関数として推定する伝達関数推定ステップと、前記第2伝達関数を用いて前記推定音源方向に対する前記第1伝達関数を更新する伝達関数更新ステップと、を有し、前記伝達関数推定ステップは、前記チャネルごとの前記変換係数の振幅を、前記変換係数のチャネル間のノルムで正規化し、前記チャネルごとの前記変換係数の位相を、前記変換係数のチャネル間の総和の位相で正規化することを特徴とする音響処理方法である。
【発明の効果】
【0015】
上述した(1)、(2)、(6)-(8)の構成によれば、取得されるチャネルごとの音響信号から推定された推定音源方向に対する伝達関数が第2伝達関数として推定され、推定された第2伝達関数を用いて第1伝達関数が更新される。そのため、取得された音響信号に基づき現実の音響環境において変動する伝達関数を推定することができる。
【0016】
上述した(3)の構成によれば、一度に第1の伝達関数の一部の成分が更新されるので、第2伝達関数の変動や誤推定の影響が緩和される。
【0017】
上述した(1)、(7)の構成によれば、推定音源方向に対するチャネル間における相対的な伝達特性を示す第2伝達関数をより確実に推定することができる。
【0018】
上述した(2)、(8)の構成によれば、チャネル間において変換係数の振幅および位相を正規化して第2伝達関数を推定することができる。
【0019】
上述した(4)の構成によれば、現実の音響環境を反映した第1伝達関数を用いて算出した多重信号分類スペクトルを用いて音源方向を正確に推定することができる。
【0020】
上述した(5)の構成によれば、現実の音響環境を反映した第1伝達関数を用いて算出した分離行列を用いて推定音源方向から到来する音源成分を正確に抽出することができる。
【図面の簡単な説明】
【0021】
図1】第1の実施形態に係る音響処理システムの構成例を示すブロック図である。
図2】第1の実施形態に係る音響処理の一例を示すデータフローチャートである。
図3】第2の実施形態に係る音響処理システムの構成例を示すブロック図である。
図4】収音部の一例を示す図である。
図5】収音部の他の例を示す図である。
図6】伝達関数の評価結果の例を示す図である。
図7】音源定位の評価結果の例を示す図である。
図8】音源分離の評価結果の例を示す図である。
図9】音源定位および音源分離の一実行例を示す図である。
図10】音源定位および音源分離の他の実行例を示す図である。
【発明を実施するための形態】
【0022】
(第1の実施形態)
図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音響処理システムS1の構成例を示すブロック図である。
音響処理システムS1は、音響処理装置10と、収音部20と、を備える。
【0023】
音響処理装置10には、音源からの音の伝達特性を示す伝達関数を音源方向ごとに記憶させておく。音響処理装置10は、複数チャネルの音響信号を取得し、チャネルごとの音響信号の周波数領域における変換係数と記憶された伝達関数に基づいて音源方向ごとに空間スペクトルを算出する。音響処理装置10は、空間スペクトルが最大となる音源方向を推定音源方向として推定する(音源定位、sound source localization)。他方、音響処理装置10は、算出した変換係数をチャネル間で正規化して推定音源方向に対する伝達関数として推定し、推定した伝達関数を用いて推定音源方向に対する予め記憶された伝達関数を更新する。更新された伝達関数を含む伝達関数セットは、新たに取得した音響信号から音源方向を推定するために用いられる。よって、音源方向の推定と伝達関数の更新が逐次に繰り返される。
【0024】
音響処理装置10は、推定した音源方向を用いて取得される複数チャネルの音響信号から、個々の音源からの音源成分を抽出する機能を備える(音源分離、sound source separation)。音響処理装置10は、抽出した音源成分を有する音響信号を音源信号として生成してもよい。音源分離処理の手法によっては、音響処理装置10は、伝達関数セットに含まれる伝達関数のうち、推定した音源方向に係る伝達関数を用いることがある。
なお、本願では音響処理装置10に記憶された伝達関数を「第1伝達関数」と呼び、音響処理装置10が推定した伝達関数を「第2伝達関数」と呼ぶことで、両者を区別することがある。
【0025】
音響処理装置10は、推定した音源方向と、音源成分もしくは音源信号の一方または両方を、自装置において他の処理に用いてもよいし、出力先となる他の装置(図示せず、以下、「出力先機器」と呼ぶことがある)に出力してもよい。音響処理装置10は、他の処理として、例えば、推定音源方向における物体の存在を推定してもよい。音響処理装置10は、特定の音源方向(話者)からの音源成分もしくは音源信号に対して音声認識処理を行い、発話内容を示す発話テキストを取得してもよいし、話者を推定してもよい。出力先となる出力先機器は、PC(Personal Computer)、多機能携帯電話機、などの情報通信機器であってもよいし、計測器、監視装置、などであってもよい。
【0026】
収音部20は、複数のマイクロホン20-1~20-Mを有し、マイクロホンアレイとして機能する。マイクロホンの数Mは、2以上の整数である。個々のマイクロホンは、それぞれ異なる位置に配置され、それぞれ自部に到来する音波を収音するアクチュエータを備える。アクチュエータは、到来した音波を音響信号に変換する。変換された音響信号は、音響処理装置10に無線または有線で出力される。個々のマイクロホンは、音響信号のチャネルに対応する。
【0027】
複数のマイクロホンの配置は、固定されてもよいし、可変であってもよい。複数のマイクロホンの位置は、互いに異なっていればよい。図4に示す例では、8個のマイクロホンが水平面に平行な円周上に中心からの間隔が等間隔となるように配置されている。図4では、個々のマイクロホンは黒丸で示される。8個のマイクロホンは、筐体の側面に配置され、1個のマイクロホンアレイとして形成される。筐体は、垂直方向に向いた回転軸に対して回転対称性を有する形状、いわゆる卵型の形状を有する。マイクロホンアレイは、個々のマイクロホンにより収録された8チャネルの音響信号を集約し、有線で並列に音響処理装置10に出力するための出力インタフェースを備える。
【0028】
次に、本実施形態に係る音響処理装置10の機能構成例について説明する。
音響処理装置10は、入出力部110と、制御部120と、記憶部140と、を含んで構成される。
入出力部110は、他の機器と各種のデータを入力および出力可能に無線または有線で接続する。入出力部110は、入力データとして、収音部20からMチャネルの音響信号を制御部120に出力する。入出力部110は、例えば、出力データとして、制御部120から入力される推定情報を出力先機器(図示せず)に出力しうる。入出力部110は、例えば、入出力インタフェース、通信インタフェースなどのいずれか、または、それらの組み合わせであってもよい。
【0029】
制御部120は、音響処理装置10の機能を実現するための処理、その機能を制御するための処理、などを実行する。制御部120は、全体として、もしくは、個々の機能に対して、専用の部材を用いて構成されてもよいが、CPU(Central Processing Unit)などのプロセッサと各種の記憶媒体を含んでコンピュータシステムとして構成されてもよい。プロセッサは、予め記憶媒体に記憶された所定のプログラムを読み出し、読み出したプログラムに記述された各種の命令で指示される処理を実行して制御部120の機能を実現する。
【0030】
制御部120は、周波数分析部122、伝達関数推定部124、伝達関数更新部126、音源方向推定部132、音源分離部134および音源信号生成部136を含んで構成される。なお、特に断らない限り、伝達関数推定部124、伝達関数更新部126、音源方向推定部132および音源分離部134の処理は、それぞれ周波数ごとに独立に実行される。
【0031】
周波数分析部122には、収音部20から入出力部110を経由してMチャネルの音響信号が入力される。取得されるMチャネルの音響信号は、それぞれ時間領域におけるサンプル時刻ごとの振幅の時系列(波形)を表す。周波数分析部122は、各チャネルについて時間領域に対して、所定の期間(例えば、20ms-100ms)のフレームごとに周波数分析を行い、周波数領域における周波数ごとの変換係数に変換する。個々のチャネルの変換係数の周波数にわたるセットは周波数スペクトルを示す。周波数分析部122は、周波数分析において、例えば、離散フーリエ変換などの手法が利用可能である。周波数分析部122は、変換により得られた変換係数を示す入力情報を伝達関数推定部124、音源方向推定部132および音源分離部134に出力する。
【0032】
伝達関数推定部124には、周波数分析部122から入力情報が入力される。伝達関数推定部124は、各周波数について、入力情報に示されるチャネルごとの変換係数に基づいて、音源からそのチャネルに対応するマイクロホンまでの伝達関数を推定する。後述するように、推定される伝達関数は、第2伝達関数として音源方向推定部132において推定される推定音源方向と関連付けられる。伝達関数推定部124は、第2伝達関数を推定する際、例えば、チャネルごとの変換係数の振幅と位相のそれぞれをチャネル間で正規化する。式(1)に示す例では、入力ベクトルXをそのノルム|X|で除算して、変換係数の振幅が正規化される。ノルムとして、例えば、二乗和の平方根が適用可能である。入力ベクトルXは、ある周波数における各チャネルmに対する変換係数Xを要素として有するベクトルである。正規化された振幅は、0以上1以下の実数値となる。変換係数Xのチャネル間の総和Σをその絶対値|Σ|で除算して得られる商の複素共役を乗算することで、変換係数の位相が正規化される。位相の正規化により、各チャンネルの変換係数の振幅で重みを付けたチャネル間の位相の平均値が0となる。本実施形態では、個々の伝達関数はチャネル間で相対化された値であってもよく、必ずしも絶対値でなくてもよい。伝達関数推定部124は、推定した第2伝達関数を示す第2伝達関数情報を伝達関数更新部126に出力する。
【0033】
【数1】
【0034】
伝達関数更新部126には、伝達関数推定部124から第2伝達関数情報が入力され、音源方向推定部132から推定音源方向情報が入力される。推定音源方向情報は、音源方向推定部132が推定した音源方向を示す情報である。伝達関数更新部126は、各周波数について、入力される第2伝達関数情報が示すチャネルごとの第2伝達関数を、推定音源方向情報に示される推定音源方向に対応する第2伝達関数として特定する。伝達関数更新部126は、特定した第2伝達関数を用いて、記憶部140に記憶された伝達関数セットのうち推定音源方向に対応する第1伝達関数を更新する。伝達関数更新部126は、例えば、更新対象とする周波数ならびにチャネルの第2伝達関数を、その周波数ならびにチャネルの第1伝達関数として置き換える。
【0035】
但し、第2伝達関数を単純にフレームごとに第1伝達関数に置き換えると、置き換わる第1伝達関数の変動が著しくなることがある。第1伝達関数は、例えば、音源からの音の提示の有無、音響環境の一時的な変化、音源方向の誤推定などによる影響を直接受けることがある。
そこで、伝達関数更新部126は、1回の演算において更新対象とする周波数ならびにチャネルの第1伝達関数の一部の成分が第2伝達関数の一部の成分に置き換わるように、更新後の第1伝達関数を定めてもよい。伝達関数更新部126は、例えば、指数平滑法を用いて、その時点における第2伝達関数H’と更新対象とする推定音源方向θ’に係る第1伝達関数H(θ’)を加重平均して、新たに更新される第1伝達関数H(θ’)を算出する。式(2)に示す例では、第2伝達関数H’に乗算される重み係数αは、0より大きく1より小さい所定の実数値である。更新前の第1伝達関数H(θ’)には重み係数(1-α)が乗じられる。よって、第1伝達関数H(θ’)として新しい第2伝達関数H’ほど重視されるように平滑化された伝達関数の時間平均値が得られる。伝達関数更新部126は、もとの更新前の第1伝達関数H(θ’)に代え、新たな第1伝達関数H(θ’)を推定音源方向θ’に対応付けて記憶部140に記憶する。
【0036】
【数2】
【0037】
音源方向推定部132は、記憶部140に記憶された伝達関数セットを参照し、周波数分析部122から入力される入力情報に示される各チャネルの変換係数を用いて、周波数ごとに空間スペクトルSsp(θ)を算出する。空間スペクトルは、収音部20の位置を基準とする方向ごとに音源が存在する可能性の程度を示す指標とみることができる。音源方向推定部132は、伝達関数セットH、音源方向θ、および、入力ベクトルXを用いて算出することができる。音源方向推定部132は、式(3)に示すように、空間スペクトルが最大となる方向を推定音源方向θ’として推定する。空間スペクトルを算出する手法の具体例については、後述する。音源方向推定部132は、推定した推定音源方向を示す推定音源方向情報を伝達関数更新部126と音源分離部134に出力する。
【0038】
【数3】
【0039】
なお、音源方向推定部132は、空間スペクトルSsp(θ)が極大となり、所定の空間スペクトルの閾値よりも大きくなる方向を複数個検出することがある。その場合には、音源方向推定部132は、複数個の音源方向をそれぞれ推定音源方向として示す推定音源方向情報を音源分離部134に出力してもよい。このような場合には、有意な音源が複数個存在すると推定されるためである。
【0040】
また、音源方向推定部132は、空間スペクトルSsp(θ)が極大となり、かつ、所定の空間スペクトルの閾値よりも大きくなる方向が1個検出される場合に限り、検出された1個の方向を推定音源方向θ’として示す推定音源方向情報を伝達関数更新部126に出力してもよい。伝達関数更新部126は、上述のように、音源方向推定部132から推定音源方向情報で通知される1個の推定音源方向θ’に係る第1伝達関数H(θ’)を、第2伝達関数H’を用いて更新することができる。
【0041】
言い換えれば、音源方向推定部132は、空間スペクトルSsp(θ)が極大となり、かつ、所定の空間スペクトルの閾値よりも大きくなる方向が2個以上検出される場合と、空間スペクトルSsp(θ)が極大となり、かつ、所定の空間スペクトルの閾値よりも大きくなる方向が検出されない場合には、推定音源方向情報を伝達関数更新部126に出力しない。その場合、伝達関数更新部126は、音源方向推定部132から推定音源方向情報は入力されず、伝達関数推定部124により周波数分析部122からの入力情報から推定された第2伝達関数に基づく第1伝達関数の更新を停止する。空間スペクトルSsp(θ)が極大となり、かつ、所定の空間スペクトルの閾値よりも大きくなる方向は、音源方向として推定されるが、音源方向が2個以上検出される場合には、マイクロホンに複数の音源から到来した音が重畳されるため、チャネル間の変換係数の比が特定の1個の音源に係る音源方向に対する伝達関数の比とならない。音源方向が検出されない場合には、そもそも有意な音が音源からマイクロホンに到来しない。従って、検出される音源が1個の場合に伝達関数の推定、更新を制限することで伝達関数の推定精度の劣化を抑えられる。検出される音源が2個以上となる場合でも、音源分離部134における音源分離の実行は許容される。
【0042】
音源分離部134には、周波数分析部122から入力情報が入力され、音源方向推定部132から推定音源方向情報が入力される。音源分離部134は、入力情報に示されるチャネルごとの変換係数から推定音源方向から到来する音源成分を抽出する。音源分離部134は、例えば、記憶部140に記憶された伝達関数セットHを参照し、推定音源方向θ’に係る伝達関数から分離行列W(H,θ’)を算出する。音源分離部134は、式(4)に例示されるように、入力ベクトルXに分離行列W(H,θ’)を乗じて、その推定音源方向θ’に存在する音源から到来する音源成分として推定される出力値Y(分離音源)を周波数ごとに算出することができる。入力ベクトルXは、入力情報に示されるチャネルごとの変換係数を要素として含む。推定音源方向が複数個検出される場合には、音源分離部134は、音源(推定音源方向)ごとに出力値を定めることができる。音源分離部134は、各音源について周波数ごとに定めた出力値を示す出力情報を音源信号生成部136に出力する。
【0043】
【数4】
【0044】
音源信号生成部136は、各音源について音源分離部134から入力される出力情報に示される周波数ごとの出力値を時間領域におけるサンプル時刻ごとの振幅の時系列に変換する。音源信号生成部136は、周波数領域における周波数ごとの出力値を振幅の時系列に変換する際、周波数分析との逆処理、例えば、逆離散フーリエ変換を用いることができる。音源信号生成部136は、各音源についてフレームごとに得られた振幅の時系列をフレーム間で連結して音源信号を生成することができる。音源信号生成部136は、生成した音源信号を出力先機器に入出力部110を経由して出力してもよいし、記憶部140に記憶してもよい。
【0045】
記憶部140は、各種のデータを一時的または恒常的に記憶する記憶媒体を含んで構成される。記憶部140は、制御部120により用いられる各種のデータ(パラメータ等を含む)、制御部120またはその他の機能部により取得された各種のデータ(外部から入力された入力データ、処理中の中間データ、処理結果として生成された生成データを含む)を記憶する。記憶部140には、伝達関数セットが記憶される。伝達関数セットは、音源方向ごとに、各周波数について個々のマイクロホン(チャネル)について第1伝達関数を含んで構成される。伝達関数セットの初期値として、予め測定された伝達関数が用いられてもよいし、所定の幾何モデルを用いて予め計算された伝達関数が用いられてもよい。幾何モデルとして、自由音場における平面波の伝搬を仮定した平面波モデル、収音部20から所定の距離に存在する音源からの球面波の伝搬を仮定した球面波モデル、などが用いられてもよい。式(4)に例示される初期の伝達関数セットHは、各チャネルおよび周波数について、音源方向ごとの第1伝達関数H(θ)~H(θ)を要素として含む。H(θ)等は、音源方向θに係る幾何モデルに基づいて算出される伝達関数を示す。Nは、音源方向の個数を示す。互いに隣接する音源方向の間隔は、音源定位により推定される音源方向の精度に直接的に影響する。音源方向の個数が多いほど音源方向の精度の向上が期待されるが、音源定位における空間スペクトルの算出に係る演算量が増大する。
【0046】
【数5】
【0047】
伝達関数セットをなす個々の第1伝達関数に対応付けられる音源方向の配置は、例えば、収音部20の位置を中心とする水平面に平行な円周上に分布する一次元配列であってもよい。その場合には、個々の音源方向は方位角で表される。音源方向の配置は、収音部20の位置を中心とする球面上に分布する二次元配列でもよい。その場合には、音源方向は、方位角と仰角で表される。また、伝達関数セットは、音源位置ごとに第1伝達関数を含んで構成されてもよい。その場合には、音源位置の配置は、三次元空間において分布する三次元分布となる。音源位置は、収音部20の位置を基準とする三次元座標で表され、音源方向と基準位置からの距離との組み合わせに相当する。但し、本実施形態では主に音源位置の分布が一次元配列である場合を例にして説明するが、二次元配列または三次元配列である場合にも適用可能である。
【0048】
伝達関数セットが、音源位置ごとの第1伝達関数を含んで構成される場合には、音源方向推定部132は、推定対象とする情報として音源位置を推定することができる。音源方向推定部132は、音源方向に代え、音源位置ごとに空間スペクトルを算出し、空間スペクトルが極大(または最大)となる音源位置を特定すればよい。伝達関数更新部126は、特定された音源位置を推定音源位置とし、上記の手法を用いて伝達関数推定部124が推定した第2伝達関数を用いて、推定音源位置に係る第1伝達関数を更新すればよい。
【0049】
(音源定位の例)
次に、音源定位の手法の一例としてMUSIC(Multiple Signal Classification,多重信号分類)法について説明する。MUSIC法では、次に説明する手順を実行して空間スペクトルSsp(θ)が算出される。
音源方向推定部132は、算出した変換係数を要素として含む入力ベクトルXから式(6)に示すように入力相関行列RXXを算出する。
【0050】
【数6】
【0051】
式(6)において、E[…]は、…の期待値を示す。…は、行列またはベクトル…の共役転置を示す。
音源方向推定部132は、各周波数について入力相関行列RXXの固有値δおよび固有ベクトルξを算出する。入力相関行列RXX、固有値δ、および、固有ベクトルξは、式(7)に示す関係を有する。
【0052】
【数7】
【0053】
式(7)において、pは、1以上M以下の整数である。インデックスpの順序は、固有値δの降順である。
音源方向推定部132は、音源方向ごとに伝達関数ベクトルH(θ)と算出した固有ベクトルξに基づいて、式(8)に例示される空間スペクトルSsp(θ)を算出する。式(8)において、Dは、検出可能とする音源の最大個数に相当し、Mよりも小さい予め定めた自然数である。伝達関数ベクトルH(θ)は、音源方向θに係るチャネルごとの第1伝達関数H(θ)を要素として含むM次元のベクトルである。
即ち、式(8)は、伝達関数ベクトルH(θ)のノルムの平方を、第D+1次~第DM次までの固有ベクトルξのそれぞれとの内積の総和で正規化して空間スペクトルSsp(θ)を算出することを示す。
【0054】
【数8】
【0055】
音源方向推定部132は、MUSIC法に限らず、音源方向ごとの伝達関数を用いた空間スペクトルの演算を伴う音源定位の手法のその他の例として、ビームフォーミング(BF:Beam Forming)法などの手法を用いてもよい。BF法では、式(9)に例示されるように、入力ベクトルXと伝達関数ベクトルH(θ)の疑似逆行列との積が空間スペクトルSsp(θ)として算出される。式(9)において、…は、ベクトルまたは行列…の疑似逆行列を示す。
【0056】
【数9】
【0057】
(音源分離の例)
次に、音源分離の手法の一例としてGHDSS(Geometric-contrained High-order Decorrelation-based Source Separation, 幾何制約高次相関除去音源分離)法について説明する。GHDSS法は、コスト関数J(W)が減少するように分離行列Wを適応的に算出する過程を含む。コスト関数J(W)は、式(10)に示すように分離尖鋭度(Separation Sharpness)JSS(W)と幾何制約度(Geometric Constrain)JGC(W)との重み付き和となる。
【0058】
【数10】
【0059】
式(10)において、βは、分離尖鋭度JSS(W)のコスト関数J(W)への寄与の度合いを示す予め定めた重み係数を示す。
分離尖鋭度JSS(W)は、式(11)に例示される指標値である。
【数11】
【0060】
|…|は、フロベニウスノルムを示す。フロベニウスノルムは、行列の各要素値の二乗和である。diag(…)は、行列…の対角要素の総和を示す。即ち、分離尖鋭度JSS(W)は、ある音源の音源成分Yに他の音源の成分が混入する度合いを示す指標値である。
幾何制約度JGC(W)は、式(12)に例示される指標値である。
【0061】
【数12】
【0062】
式(12)において、Iは単位行列を示す。即ち、幾何制約度JGC(W)は、出力となる音源信号と音源から発されたもとの音源信号との誤差の度合いを表す指標値である。
【0063】
音源分離部134は、記憶部140に記憶された伝達関数セットから、推定音源方向情報に示される各音源の音源方向に対応する伝達関数を抽出し、抽出した伝達関数を要素として、音源およびチャネル間で統合して伝達関数行列Dを生成する。ここで、各行、各列がが、それぞれチャネル、音源(音源方向)に対応する。音源分離部134は、生成した伝達関数行列Dに基づいて、式(13)に例示される初期分離行列Winitを算出する。
【0064】
【数13】
【0065】
式(13)において、…-1は、行列…の逆行列を示す。従って、DDが、その非対角要素がすべてゼロである対角行列である場合、初期分離行列Winitは、伝達関数行列Dの疑似逆行列となる。
音源分離部134は、式(14)に示すようにステップサイズμSS、μGCによる複素勾配J’SS(W)、J’GC(W)の重み付け和を現時刻(フレーム)tにおける分離行列Wt+1から差し引いて、次の時刻t+1における分離行列Wt+1を算出する。
【0066】
【数14】
【0067】
式(14)において分離行列Wから差し引かれる成分μSSJ’SS(W)+μGCJ’GC(W)が更新量ΔWに相当する。複素勾配J’SS(W)は、分離尖鋭度JSSを入力ベクトルXで微分して導出される。複素勾配J’GC(W)は、幾何制約度JGCを入力ベクトルXで微分して導出される。
【0068】
音源分離部134は、分離行列Wt+1が収束したと判定するとき、この分離行列Wt+1を分離行列W(H,θ’)として定めることができる。音源分離部134は、例えば、更新量ΔWのフロベニウスノルムが所定の閾値以下になったときに、分離行列Wt+1が収束したと判定する。または、音源分離部134は、更新量ΔWのフロベニウスノルムに対する分離行列Wt+1のフロベニウスノルムに対する比が所定の比の閾値以下になったとき、分離行列Wt+1が収束したと判定してもよい。
【0069】
なお、音源分離部134は、GHDSS法に限らず、その他の音源分離の手法として推定音源方向に係る伝達関数に基づく分離行列の演算を伴う手法、例えば、BF法を用いることができる。BF法は、音源方向推定部132により推定された推定音源方向θ’に係る伝達関数ベクトルH(θ’)の疑似逆行列H(θ’)を分離行列として採用する手法である。
【0070】
(音響処理)
次に、本実施形態に係る音響処理について説明する。図2は、本実施形態に係る音響処理の一例を示すデータフローチャートである。本実施形態に係る音響処理装置10は、伝達関数適応推定ブロックB10と音響処理ブロックB12に分類される。
以下に説明するステップのうち、ステップS102、S106、S110、S122は、伝達関数適応推定ブロックB10に属する。ステップS122、S124は、音響処理ブロックB12に属する。ステップS122は、伝達関数適応推定ブロックB10と音響処理ブロックB12に属し、各ブロックで独立に非同期で実行されてもよいし、ブロック間で同期して実行されてもよい。
【0071】
(ステップS102)制御部120は、伝達関数セットの初期値を予め取得しておき、取得した伝達関数セットを記憶部140に記憶する。制御部120は、例えば、所定の幾何モデルを用いて音源方向ごとに各チャネルおよび周波数について伝達関数を算出しておく。
(ステップS104)周波数分析部122は、Mチャネルの時間領域の音響信号のそれぞれに対し、フレームごとに周波数領域の変換係数に変換する。周波数分析部122は、各チャネルの変換係数を示す入力情報Xを伝達関数適応推定ブロックB10に提供する。
【0072】
(ステップS106)伝達関数推定部124は、各周波数について、入力情報に示されるチャネルごとの変換係数に基づいて第2伝達関数(推定伝達関数H’)を推定する。第2伝達関数の推定において、例えば、式(1)に示す関係が用いられる。
(ステップS110)伝達関数更新部126は、第2伝達関数を用いて、伝達関数セットのうち推定音源方向θ’に対応する第1伝達関数(更新伝達関数H(θ’))を更新する。第1伝達関数の更新において、例えば、式(2)に示す関係が用いられる。
(ステップS112)伝達関数更新部126は、伝達関数セットのうち、更新前のもとの第1伝達関数に代え、更新後の第1伝達関数を推定音源方向θ’と関連付けて記憶部140部に記憶する。
【0073】
(ステップS122)音源方向推定部132は、伝達関数セットを参照して、入力情報に示される各チャネルの変換係数を用いて、周波数ごとに空間スペクトルを算出する。
音源方向推定部132は、空間スペクトルが最大となる音源方向を推定音源方向θ’として定める。推定音源方向の決定において、例えば、式(3)に示す関係が用いられる。
(ステップS124)音源分離部134は、伝達関数セットを参照し、推定音源方向θ’に係る伝達関数から分離行列を算出する。音源分離部134は、入力情報に基づく入力ベクトルに分離行列を乗じ、推定音源方向θ’から到来する音源成分として推定される出力値(分離音源)を周波数ごとに算出する。
【0074】
ステップS104-S124の処理をフレームごとに繰り返す都度、推定音源方向θ’と音源成分を示す出力値Yが得られる。推定音源方向θ’と出力値Yは、制御部120による他の処理に用いられてもよいし、出力先機器に出力し、出力先機器において用いられてもよい。推定音源方向θ’と出力値Yは、記憶部140に一時的にまたは恒常的に記憶されてもよい。
制御部120または出力先機器は、例えば、推定音源方向θ’を目標方向、または、死角としてMチャネルの音響信号に対する指向性制御に用いてもよい。制御部120または出力先機器は、出力値Yまたは出力値Yに基づく音源信号に対して、例えば、音声認識処理を行って発話テキスト、音源の種類、話者のいずれか、またはいずれかを取得してもよい。制御部120または出力先機器は、音声認識結果として得られる発話テキストと話者の情報を用いて対話処理を行ってもよい。
【0075】
以上に説明したように、本実施形態によれば、次の効果を奏することができる。(1)伝達関数の推定のために所定の既知の試験信号(例えば、拍手(インパルス)、時間引き延ばしパルス(TSP:Time Stretched Pulse)など)に限らず、あらゆる種類の音源が伝達関数の推定に利用可能となる。(2)音源と各マイクロホンの位置関係を校正せずに直接的に伝達関数を更新することができる。(3)校正などの事前の処理を伴わずにオンラインで伝達関数を適応学習することができる。(4)伝達関数の適応学習を音源定位や音源分離などのマイクロホンアレイ処理と並行することができる。
【0076】
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。以下の説明では、上述の実施形態との差異を主とし、特に断らない限り、上述の実施形態と同一の符号を付してその説明を援用する。本実施形態に係る音響処理システムS2は、動作機構40を備えるロボット(図示せず)の制御システムもしくはサブシステムとして構成されている場合を例とする。
【0077】
図3は、本実施形態に係る音響処理システムS2の構成例を示すブロック図である。
音響処理システムS2は、音響処理装置10bと収音部20を含んで構成される。音響処理装置10bと収音部20の一方または両方は、ロボットの筐体に内蔵されてもよい。図5に示す例では、収音部20とするマイクロホンアレイが人型ロボットの頭部に埋め込まれている。個々のマイクロホンは、黒丸で示される。この例では、マイクロホン数は16個である。16個のマイクロホンは、半径が異なる2つの同心円上に配置される。各8個のマイクロホンは、それぞれの同心円上に45°間隔で配置される。一方の同心円上に配置される一群のマイクロホンは、他方の同心円上に配置される他のマイクロホンとは、22.5°の方位角のずれを有する。音響処理装置10、10bは、収音部20をなすマイクロホンのうち一部のマイクロホンから取得される音響信号がMチャネル(例えば、15チャネル)の音響信号として用いてもよい。
【0078】
図3に戻り、音響処理装置10bは、入出力部110、制御部120bおよび記憶部140を含んで構成される。制御部120bは、周波数分析部122、伝達関数推定部124、伝達関数更新部126、音源方向推定部132、音源分離部134、音源信号生成部136および動作制御部138を含んで構成されてもよい。また、音源方向推定部132と音源分離部134により実現される音響処理ブロックB12(図2)は、ロボット聴覚(robot audition)を実現するロボット聴覚機能ブロックとして機能してもよい。
【0079】
音響処理ブロックB12は、個々の音源に係る音源成分に対して、公知の音声認識処理を実行して音源の種類を特定してもよい(音源同定)。音源の種類として、人物である発話者が特定されてもよい。音響処理ブロックB12は、特定した種類の音源について、推定音源方向を示す推定音源方向情報を他の装置に通知してもよいし、特定した種類の音源について出力情報から変換された音源信号を他の装置に出力してもよい。
【0080】
音源方向推定部132は、上記のように音源位置を推定可能とし、動作制御部138には、音源方向推定部132から推定音源位置を示す推定音源方向情報が入力され、音源分離部134から音源成分を示す出力情報が入力される。動作制御部138は、推定音源位置と音源成分の一方または両方を用いて動作機構40の動作を制御する。動作制御部138は、例えば、推定音源位置と音源成分に基づいて、自己位置推定と環境地図作成を実行してもよい(SLAM:Simultaneous Localization and Mapping、同時定位地図作成)。動作制御部138は、音源同定を実行することで推定音源位置における音源となる物体(人物を含む)の存在を推定することができる。動作制御部138は、推定音源位置に近いほど高くなるように所定の密度関数モデルを用いて音源となる物体の存在確率を定めてもよい。動作制御部138は、例えば、物体ごとに存在する存在確率の空間分布を物体間で重畳して環境地図を作成することができる。動作制御部138は、経路計画において、物体の存在確率が所定の存在確率よりも高い領域を通過しないように進行経路を定めてもよい。進行経路は、時刻ごとの目標位置により表される。動作制御部138は、所定の種類の音源の推定方向をロボットの正面に相対する目標方向と定めてもよい。動作制御部138は、その時点における目標位置と目標方向の一方または両方を示す制御信号を動作機構40に出力する。
【0081】
動作機構40は、ロボットの筐体に内蔵され、動作制御部138から入力される制御信号に基づいてロボットの動作を制御する。動作機構40は、動力源となるモータ(図示せず)と自部の位置と方向を検出するエンコーダ(図示せず)を備える。モータは、制御信号で指示される目標位置または目標方向に近づくようにロボットを移動させる。エンコーダは、その時点において検出した位置と方向を動作状態として示す動作情報を逐次に動作制御部138に出力する。
【0082】
(評価実験)
次に、上記の実施形態の有効性を評価するために実行した評価実験について説明する。評価実験は、縦、横、高さが、それぞれ4、7、3[m]となる直方体の空間をなす実験室内で行った。実験室の残響時間RT60は、0.3[s]である。評価項目により、収音部20として、図4に例示されるマイクロホンアレイ(以下、「卵型アレイ)と呼ぶ)と、図5に例示されるマイクロホンアレイ(以下、「ロボット内蔵アレイ」と呼ぶ)とを使い分けた。卵型アレイは床面からの高さが0.9[m]となり実験室のほぼ中央部に設置された机上に、ノート型パーソナルコンピュータとその他の物品とともに設置した。ロボット内蔵アレイを用いる場合には、音源以外のその他の物品を除去し、ロボットのみを実験室の中央部に設置した。
【0083】
評価実験に先立ち、次のデータを準備した。収音部20とする卵型アレイでは、チャネルごとにサンプリング周波数16kHz、サンプル当たりのビット幅24ビットの音響信号が取得される。卵型アレイに対して、2種類の伝達関数セットTF 、TF 、卵型アレイの周囲を移動中に録音したホワイトノイズW、卵型アレイの周囲を移動中に録音した発話音声S、および、混合音声Mを準備した。混合音声Mは、音源分離に用いられる。
【0084】
伝達関数セットTF (低位置、Low Position)を取得する際、音源方向ごとにTSP信号に基づいて再生した音を収音した。ここで、音源位置を卵型アレイの中心からの距離を0.78mとし、床面からの高さが0.78mとなるように水平面に平行な円周上において30°間隔に設定した。この高さは、卵型アレイの中心から15.8°下方に相当する。伝達関数セットTF (中間位置、Middle Position)も伝達関数セットTF と同様な条件で取得した。但し、音源位置の床面からの高さを1.0mとした。この高さは、卵型アレイの中心から7.3°上方に相当し、椅子に着席した人物の口元の高さに相当する。
【0085】
ホワイトノイズWを取得する際、人物にホワイトノイズを再生するスピーカを保持しながら卵型アレイの周囲を1回転時計回りに周回させ、その後、移動方向を反転し、1回転反時計回りに周回させるという動作を6回繰り返させた。ここで、スピーカの位置(音源位置)の卵型アレイの中心からの距離、床面からの高さを、それぞれ0.78m、1.0mとした。全録音時間は6.8分となった。
【0086】
発話音声Sを取得する際、日本語話し言葉コーパス(CSJ:Corpus of Spontaneous Japanese)から選択された男声をスピーカから再生した。スピーカの卵型アレイからの距離と床面からの高さを、ホワイトノイズWを取得する際と同様に設定した。但し、男声の録音時間を20分とし、3回に分けて人物に卵型アレイの周囲を時計回りに周回させた。
【0087】
混合音声Mを取得する際、2個のスピーカを卵型アレイから0.78mの距離ならびに床面からの高さを0.78mとして、それぞれ正面から0°、60°の方位に設置した。
2個の音源としてCSJから選択された2名の男声を選択し、それぞれ異なるスピーカに同時に再生させた。録音時間を100秒とした。そして、2名の男声に対し、さらにホワイトノイズを加えた。但し、0°から再生した音声とのSNR(Signal-to-Noise Ratio、信号対雑音比)を20dBとした。
【0088】
ロボット内蔵アレイでは、チャネルごとにサンプリング周波数48kHz、1サンプル当たりのビット幅24ビットの音響信号が取得される。ロボット内蔵アレイに対して、1種類の伝達関数セットTF およびロボットの周囲を移動中に録音したホワイトノイズWを準備した。
伝達関数セットTF (高位置、High Position)を取得する際、音源方向ごとにTSP信号に基づいて再生した音を収音した。ここで、音源位置をロボット内蔵アレイの中心からの距離を1.5mとし、床面からの高さが1.5mとなるように水平面に平行な円周上において5°間隔に設定した。この高さは、直立した人物の口元の高さに相当する。
【0089】
ホワイトノイズWを取得する際、人物にホワイトノイズを再生するスピーカを保持しながら卵型アレイの周囲を時計回りに繰り返し周回させる動作を2回行った。全録音時間は15分となった。
その他、伝達関数セットTF を準備した。伝達関数セットTF は、音源方向ごとに幾何モデルを用いて予め計算された伝達関数を含んで構成される。
【0090】
次に、伝達関数の評価手法について説明する。本評価実験では、上記の実施形態において提案した提案法でホワイトノイズWを用いて推定された伝達関数と、予め設定した伝達関数セットTF 、TF 、TF のそれぞれに属する伝達関数とを平均二乗誤差(MSE:Mean Squared Error)を用いて評価した。伝達関数の評価において、式(15)を用いて、音源方向θごとに、2つの伝達関数セットTF、TF間でMSEを算出した。式(15)において、M、Fは、それぞれマイクロホン数、周波数ビンの数を示す、m、fは、それぞれマイクロホン(チャネル)、周波数のインデックスである。式(15)に示す例では、個々のチャネル、周波数に係る推定誤差がチャネルおよび周波数間で平均化される。ここで、ホワイトノイズWを用いて推定された伝達関数からなる伝達関数セットをTFに代入し、伝達関数セットTF 、TF 、TF のそれぞれをTFに代入した。
【0091】
【数15】
【0092】
図6は、伝達関数の評価結果の例を示す図である。図6は、推定された伝達関数セットと、伝達関数セットTF 、TF 、TF のそれぞれについて音源方向ごとにMSEを示す。伝達関数セットTF に係るMSEが他の伝達関数セットTF 、TF に係るMSEよりも大きい。このことは、推定された伝達関数が幾何モデルによる伝達関数よりも実測された伝達関数に近似していることを示す。つまり、本提案法により現実の音響環境に適応した伝達関数が推定されることが裏付けられる。但し、伝達関数セットTF 、TF 間ではMSEに有意差は認められない。人手で音源を移動させたために音源の高さが正確に制御できなかったことが一因と推認される。
【0093】
次に、音源定位の評価手法について説明する。本評価実験では、幾何モデルにより計算された伝達関数の伝達関数セット、本提案法によりホワイトノイズWを用いて推定された伝達関数の伝達関数セット、測定された伝達関数の伝達関数セットTF をそれぞれ用いて定位誤り率(localization error)Lを評価尺度として算出した。定位誤り率Lは、式(16)に例示されるように評価に用いた有効な音響信号(パワーが所定の閾値(例えば、-5dB、-10dB、など)を超える)の全フレーム数Nに対して、定位誤りが生じたフレーム数Nの比である。また、定位誤りの尺度として、音源定位において公知のDS(Delay-and-Sum)法を用いて音源方向推定部132により音源方向を推定した。
【0094】
【数16】
【0095】
図7は、音源定位の評価結果の例を示す図である。図7は、幾何モデル、本提案法、伝達関数セットTF のそれぞれについて、上段に平均定位誤り率を例示し、推定された音源方向を示す。平均定位誤り率は、幾何モデル、本提案法、伝達関数セットTF の順に小さくなる。伝達関数セットTF によれば、平均定位誤り率はほぼゼロとなる。伝達関数セットTF によれば、推定される音源方向が現実の音源方向に忠実に追従する。本提案法で推定される音源方向は、幾何モデルよりもばらつきが抑えられる。このことは、本提案法により正確に伝達関数を推定することで音源定位の精度を向上できることを裏付ける。
また、本提案法と伝達関数セットTF については、閾値を-5dBとした場合の方が、-10dBとした場合よりも平均定位誤り率が低い。このことは、十分な信号強度が確保されている場合に有意な信号成分が含まれるため、周囲雑音による影響を抑えられることを示す。
【0096】
次に、音源分離の評価手法について説明する。本評価実験では、音源分離部134は、混合音声Mに対して、GHDSS法、DS法、LCMV(Linear Constrained Minimum Variance、線形拘束最小分散)法、NULL法(ヌルビームフォーマ)、および、MVDR法(Minimum Variance Distortionless Response、最小分散無歪応答)法のそれぞれを用いて音源分離を実行した。これらの手法は、音源からの音源成分の抽出に利用されるビームフォーミングの特性により次のように分類される。DS法とNULL法は、完全に固定された(fully-fixed)ビームフォーミングを特徴とする。MVDR法は、半固定型(semi-fixed)ビームフォーミングを特徴とする。LCMV法とGHDSS法は、適応型(adaptive)ビームフォーミングを特徴とする。
【0097】
本評価実験では、各手法について、幾何モデルにより計算された伝達関数の伝達関数セット、ホワイトノイズWを用いて推定された伝達関数の伝達関数セットと、卵型アレイに係る伝達関数セットTF のそれぞれついて、信号歪比(SDR:Signal-to-Distortion Ratio)と信号対干渉比(SIR:Signal-to-Interference Ration)を評価尺度(metric)として用いた。SDR、SIRは、それぞれ式(17)、(18)を用いて算出することができる。
【0098】
【数17】
【0099】
【数18】
【0100】
式(17)、(18)において、stargetは、音源分離により得られた音源信号sのうち、クリーン音源の目標音源信号、つまり、もとの音源成分を示す。eresidueは、音源分離により得られた音源信号sから目標音源信号を差し引いて得られる残留信号、つまり、残留ノイズ項(residual noise term)に相当する。einterfは、残留信号eresidueに含まれる干渉成分を示す。本評価実験では、音源分離により得られた音源信号と収音された生の音響信号からそれぞれ得られるSDR、SIRの差分をSDR、SIRの改善度(improvement)として評価した。
【0101】
図8は、音源分離の評価結果の例を示す図である。図8は、幾何モデル、本提案法、伝達関数セットTF Mのそれぞれについて、SDR、SIRの改善度を音源分離の手法ごとに示す。SDR、SIRの改善度は、伝達関数セットTF Mが最も優れ、本提案法、幾何モデルの順に低下する。本提案法により推定された伝達関数によれば、いずれの音源分離の手法でも幾何モデルにより計算された伝達関数よりも品質の高い音源成分を抽出できることを示す。幾何モデルでは、むしろSDRにおいて改善度が負となる。特に0°に設置された音源からの音声の成分が、60°に設置された音源からの音声とホワイトノイズから十分に分離しない傾向がある。かかる傾向は、音源分離の手法によらず共通に生じる。
【0102】
次に、幾何モデル、本提案法、伝達関数セットTF Mのそれぞれについて、音源定位および音源分離により推定された音源ごとの音源方向の例について説明する。図9図10は、2回の試行期間(lap)のそれぞれについて音源方向の時間変化を示す。図9に示す実行例では、本提案法について2回の試行期間を挟んで6.8秒間明示的にホワイトノイズWを用いた校正期間を設けた。但し、音響処理装置10には音源定位および音源分離の実行と同時に伝達関数を更新させず、伝達関数セットの初期値として幾何モデルによる推定音源方向を含む伝達関数セットを設定した。第1回目の試行期間においては、本提案法による推定音源方向の時間変化は、幾何モデルによる推定音源方向とほぼ同様の時間変化を示し、伝達関数セットTF Mによる推定音源方向と有意な差を有する。
これに対し、第2回目の試行期間においては、本提案法による推定音源方向は、幾何モデルによる推定音源方向よりも伝達関数セットTF Mによる推定音源方向の変化傾向に近似する。このことも現実の音響環境下で推定した伝達関数を用いることで、より正確な音源定位と音源分離を実現できることを示す。
【0103】
図10に示す実行例では、2回の試行期間を挟んで校正期間を設けず、音響処理装置10に音源定位と音源分離と並行して本提案法を用いて伝達関数を更新させた。但し、伝達関数セットの初期値として幾何モデルによる推定音源方向を含む伝達関数セットを設定した。第1回目の試行期間では、本提案法において幾何モデルと同様の音源方向が検出され、時間経過により幾何モデルでは検出されなくなった音源方向が検出される。但し、伝達関数セットTF Mによる推定音源方向とは有意な差が生ずる。第2回目の試行期間では、本提案法による推定音源方向が伝達関数セットTF Mによる推定音源方向とほぼ同様となる。このことは、伝達関数の適応学習が進むことで正確な音源定位ならびに音源分離が実現することを示す。
【0104】
以上に説明したように、本実施形態に係る音響処理装置10、10bは、音源からの音の伝達特性を示す第1伝達関数として音源方向ごとに記憶する記憶部140を備え、チャネルごとの音響信号の周波数領域における変換係数と第1伝達関数に基づいて音源方向ごとに空間スペクトルを算出し、空間スペクトルが最大となる音源方向を推定音源方向として推定する音源方向推定部132を備える。音響処理装置10、10bは、変換係数をチャネル間で正規化して推定音源方向に対する伝達関数を第2伝達関数として推定する伝達関数推定部124と、第2伝達関数を用いて推定音源方向に対する第1伝達関数を更新する伝達関数更新部126を備える。
この構成により、取得されるチャネルごとの音響信号から推定された推定音源方向に対する伝達関数が第2伝達関数として推定され、推定された第2伝達関数を用いて第1伝達関数が更新される。そのため、取得された音響信号に基づき現実の音響環境において変動する伝達関数を推定することができる。
【0105】
また、伝達関数更新部126は、所定時間ごとに、第1伝達関数の少なくとも一部の成分を第2伝達関数の一部の成分で更新してもよい。
この構成により、一度に第1の伝達関数の一部の成分が更新されるので、第2伝達関数の変動や誤推定の影響が緩和される。
【0106】
また、伝達関数更新部126は、取得された音響信号から検出される音源数が1個であるとき、第1伝達関数を更新してもよい。
この構成により、推定音源方向に対するチャネル間における相対的な伝達特性を示す第2伝達関数をより確実に推定することができる。
【0107】
また、伝達関数推定部124は、チャネルごとの変換係数の振幅を、変換係数のチャネル間のノルムで正規化し、チャネルごとの変換係数の位相を、変換係数のチャネル間の総和の位相で正規化してもよい。
この構成により、チャネル間において変換係数の振幅および位相を正規化して第2伝達関数を推定することができる。
【0108】
また、音源方向推定部132は、空間スペクトルとして、変換係数と第1伝達関数に基づいて多重信号分類スペクトルを算出してもよい。
この構成により、現実の音響環境を反映した第1伝達関数を用いて算出した多重信号分類スペクトルを用いて音源方向を正確に推定することができる。
【0109】
また、音響処理装置10、10bは、推定音源方向に対する第1伝達関数に基づいて、推定音源方向に対する分離行列を定め、変換係数を要素として有する入力ベクトルに分離行列を作用して算出されるベクトルを、音源ごとに到来する音源成分を要素として有する出力ベクトルとして音源分離部134を備えてもよい。
この構成により、現実の音響環境を反映した第1伝達関数を用いて算出した分離行列を用いて推定音源方向から到来する音源成分を正確に抽出することができる。
【0110】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0111】
S1、S2…音響処理システム、10、10b…音響処理装置、20…収音部、40…動作機構、110…入出力部、120…制御部、122…周波数分析部、124…伝達関数推定部、126…伝達関数更新部、132…音源方向推定部、134…音源分離部、136…音源信号生成部、138…動作制御部、140…記憶部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10