(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-07
(45)【発行日】2022-11-15
(54)【発明の名称】音源定位装置、音源定位方法及びプログラム
(51)【国際特許分類】
H04R 3/00 20060101AFI20221108BHJP
H04R 1/40 20060101ALI20221108BHJP
G10L 25/51 20130101ALI20221108BHJP
【FI】
H04R3/00 320
H04R1/40 320A
G10L25/51 400
(21)【出願番号】P 2021569026
(86)(22)【出願日】2021-09-16
(86)【国際出願番号】 JP2021034092
(87)【国際公開番号】W WO2022075035
(87)【国際公開日】2022-04-14
【審査請求日】2021-11-19
(31)【優先権主張番号】P 2020168766
(32)【優先日】2020-10-05
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000128566
【氏名又は名称】株式会社オーディオテクニカ
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】金丸 真健
【審査官】大野 弘
(56)【参考文献】
【文献】特開2012-234150(JP,A)
【文献】特開平06-195097(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
H04R 1/40
G10K 11/34
G10L 25/51
G10L 25/18
G10L 21/0272
(57)【特許請求の範囲】
【請求項1】
音源が発した音を受けた複数のマイクロホンが出力した複数の電気信号に基づく音信号ベクトルを生成する音信号ベクトル生成部と、
前記音信号ベクトルに含まれる信号成分に対応する信号部分空間と、前記音信号ベクトルに含まれる雑音成分に対応する雑音部分空間とを特定する部分空間特定部と、
遅延和アレイ法を前記音信号ベクトルに適用することにより、前記音源の方向の複数の候補を示す一以上の候補ベクトルを特定する候補特定部と、
前記信号部分空間と前記雑音部分空間との内積の2乗和を含む最適化評価関数に基づいて、前記一以上の候補ベクトルのうち少なくともいずれかに基づく初期解を用いて探索した音源方向ベクトルが示す方向を前記音源の方向として特定する方向特定部と、
を有する音源定位装置。
【請求項2】
前記候補特定部は、遅延和アレイ法を前記音信号ベクトルに適用することにより特定した前記一以上の候補ベクトルのうち、前記信号部分空間に対応する信号部分空間ベクトルとの内積の2乗和が所定の信頼性条件を満たす前記初期解を特定する、
請求項1に記載の音源定位装置。
【請求項3】
前記候補特定部は、前記部分空間特定部が前記信号部分空間及び前記雑音部分空間を特定する処理と並行して前記一以上の候補ベクトルを特定する処理を実行する、
請求項1又は2に記載の音源定位装置。
【請求項4】
前記音信号ベクトル生成部は、前記複数の電気信号をフーリエ変換することにより前記音信号ベクトルを生成し、
前記方向特定部は、前記フーリエ変換のフレームごとに前記音源の方向を特定する、
請求項1又は3に記載の音源定位装置。
【請求項5】
前記方向特定部は、前記フーリエ変換により生成される複数の周波数ビンに対応する複数の前記音源方向ベクトルを平均化して得られる平均方向ベクトルに基づいて前記音源の方向を特定する、
請求項4に記載の音源定位装置。
【請求項6】
前記候補特定部は、前記複数の電気信号をフーリエ変換した際の1つのフレーム内で前記一以上の候補ベクトルの演算を完了できるように前記周波数ビンを間引くことにより、前記一以上の候補ベクトルを特定する、
請求項5に記載の音源定位装置。
【請求項7】
前記方向特定部は、以下の式で表される前記最適化評価関数を用いる確率的勾配降下法を用いることにより前記音源方向ベクトルを特定する、
請求項4から6のいずれか一項に記載の音源定位装置。
【数13】
ただし、(θ,φ)は方向、a
k(θ
L,φ
L)はθ、φ方向に目的音源があると仮定した場合の仮想的なステアリングベクトル、tはフレーム番号、kは周波数ビン番号、Q
N(t,k)は雑音部分空間ベクトルである。
【請求項8】
前記部分空間特定部は、前記音信号ベクトルと、当該音信号ベクトルを前記信号部分空間に射影したベクトルとの差に基づく直交性評価関数に基づいて前記信号部分空間を特定する、
請求項4から7のいずれか一項に記載の音源定位装置。
【請求項9】
前記部分空間特定部は、以下の式で表される前記直交性評価関数に基づいて前記信号部分空間を特定する、
請求項8に記載の音源定位装置。
【数14】
ただし、βは忘却関数、tはフレーム番号、kは周波数ビン番号、Q
S(t,k)は信号部分空間ベクトル、Q
PS
H(l-1,k)は前フレームでの信号部分空間ベクトルの推定結果、Xは音信号である。
【請求項10】
コンピュータが実行する、
音源が発した音を受けた複数のマイクロホンが出力した複数の電気信号に基づく音信号ベクトルを生成するステップと、
前記音信号ベクトルに含まれる信号成分に対応する信号部分空間と、前記音信号ベクトルに含まれる雑音成分に対応する雑音部分空間とを特定するステップと、
遅延和アレイ法を前記音信号ベクトルに適用することにより、前記音源の方向の複数の候補を示す複数の候補ベクトルを特定するステップと、
前記信号部分空間と前記雑音部分空間との内積の2乗和を含む第1評価関数に基づいて前記複数の候補ベクトルが示す方向から選択した音源方向ベクトルが示す方向を前記音源の方向として特定するステップと、
を有する音源定位方法。
【請求項11】
コンピュータに、
音源が発した音を受けた複数のマイクロホンが出力した複数の電気信号に基づく音信号ベクトルを生成するステップと、
前記音信号ベクトルに含まれる信号成分に対応する信号部分空間と、前記音信号ベクトルに含まれる雑音成分に対応する雑音部分空間とを特定するステップと、
遅延和アレイ法を前記音信号ベクトルに適用することにより、前記音源の方向の複数の候補を示す複数の候補ベクトルを特定するステップと、
前記信号部分空間と前記雑音部分空間との内積の2乗和を含む第1評価関数に基づいて前記複数の候補ベクトルが示す方向から選択した音源方向ベクトルが示す方向を前記音源の方向として特定するステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源の位置を特定するための音源定位装置、音源定位方法及びプログラムに関する。
【背景技術】
【0002】
従来、音源の方向を特定するための方法が研究されている。特許文献1には、音源方向の事後分布と変関数との間の差異を表す関数を目的関数として、変分推論法に基づいて目的関数を最小化するように各種のパラメータを推定することにより音源の位置を推定する方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の方法のように変分推論法を用いる場合、推定値とともに、推定値を求めるための変数も確率変数であるため、未知のパラメータが複数となる。これらの複数の変数を推定するには多くの計算量が必要になるため、変分推論法を用いる従来の方法は会議のような場でリアルタイムに音源を定位する用途に適していなかった。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、音源定位に要する時間を短縮することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様の音源定位装置は、音源が発した音を受けた複数のマイクロホンが出力した複数の電気信号に基づく音信号ベクトルを生成する音信号ベクトル生成部と、前記音信号ベクトルに含まれる信号成分に対応する信号部分空間と、前記音信号ベクトルに含まれる雑音成分に対応する雑音部分空間とを特定する部分空間特定部と、遅延和アレイ法を前記音信号ベクトルに適用することにより、前記音源の方向の複数の候補を示す一以上の候補ベクトルを特定する候補特定部と、前記信号部分空間と前記雑音部分空間との内積の2乗和を含む最適化評価関数に基づいて、前記一以上の候補ベクトルのうち少なくともいずれかに基づく初期解を用いて探索した音源方向ベクトルが示す方向を前記音源の方向として特定する方向特定部と、を有する。
【0007】
前記候補特定部は、遅延和アレイ法を前記音信号ベクトルに適用することにより特定した前記一以上の候補ベクトルのうち、前記信号部分空間に対応する信号部分空間ベクトルとの内積の2乗和が所定の信頼性条件を満たす前記初期解を特定してもよい。
【0008】
前記候補特定部は、前記部分空間特定部が前記信号部分空間及び前記雑音部分空間を特定する処理と並行して前記一以上の候補ベクトルを特定する処理を実行してもよい。
【0009】
前記音信号ベクトル生成部は、前記複数の電気信号をフーリエ変換することにより前記音信号ベクトルを生成し、前記方向特定部は、前記フーリエ変換のフレームごとに前記音源の方向を特定してもよい。
【0010】
前記方向特定部は、前記フーリエ変換により生成される複数の周波数ビンに対応する複数の前記音源方向ベクトルを平均化して得られる平均方向ベクトルに基づいて前記音源の方向を特定してもよい。
【0011】
前記候補特定部は、前記複数の電気信号をフーリエ変換した際の1つのフレーム内で前記一以上の候補ベクトルの演算を完了できるように前記周波数ビンを間引くことにより、前記一以上の候補ベクトルを特定してもよい。
【0012】
前記方向特定部は、以下の式で表される前記最適化評価関数を用いる確率的勾配降下法を用いることにより前記音源方向ベクトルを特定してもよい。
ただし、(θ,φ)は方向、a
k(θ
L,φ
L)はθ、φ方向に目的音源があると仮定した場合の仮想的なステアリングベクトル、tはフレーム番号、kは周波数ビン番号、Q
N(t,k)は雑音部分空間ベクトルである。
【0013】
前記部分空間特定部は、前記音信号ベクトルと、当該音信号ベクトルを前記信号部分空間に射影したベクトルとの差に基づく直交性評価関数に基づいて前記信号部分空間を特定してもよい。
【0014】
前記部分空間特定部は、以下の式で表される前記直交性評価関数に基づいて前記信号部分空間を特定してもよい。
ただし、βは忘却関数、tはフレーム番号、kは周波数ビン番号、Q
S(t,k)は信号部分空間ベクトル、Q
PS
H(l-1,k)は前フレームでの信号部分空間ベクトルの推定結果、Xは音信号である。
【0015】
本発明の第2の態様の音源定位方法は、コンピュータが実行する、音源が発した音を受けた複数のマイクロホンが出力した複数の電気信号に基づく音信号ベクトルを生成するステップと、前記音信号ベクトルに含まれる信号成分に対応する信号部分空間と、前記音信号ベクトルに含まれる雑音成分に対応する雑音部分空間とを特定するステップと、遅延和アレイ法を前記音信号ベクトルに適用することにより、前記音源の方向の複数の候補を示す複数の候補ベクトルを特定するステップと、前記信号部分空間と前記雑音部分空間との内積の2乗和を含む第1評価関数に基づいて前記複数の候補ベクトルが示す方向から選択した音源方向ベクトルが示す方向を前記音源の方向として特定するステップと、を有する。
【0016】
本発明の第3の態様のプログラムは、コンピュータに、音源が発した音を受けた複数のマイクロホンが出力した複数の電気信号に基づく音信号ベクトルを生成するステップと、前記音信号ベクトルに含まれる信号成分に対応する信号部分空間と、前記音信号ベクトルに含まれる雑音成分に対応する雑音部分空間とを特定するステップと、遅延和アレイ法を前記音信号ベクトルに適用することにより、前記音源の方向の複数の候補を示す複数の候補ベクトルを特定するステップと、前記信号部分空間と前記雑音部分空間との内積の2乗和を含む第1評価関数に基づいて前記複数の候補ベクトルが示す方向から選択した音源方向ベクトルが示す方向を前記音源の方向として特定するステップと、を実行させる。
【発明の効果】
【0017】
本発明によれば、音源定位に要する時間を短縮することができるという効果を奏する。
【図面の簡単な説明】
【0018】
【
図1】マイクロホンシステムの概要を説明するための図である。
【
図2】マイクロホンアレイの設計モデルを示す図である。
【
図4】音源定位装置が音源定位方法を実行する処理のフローチャートである。
【
図5】方向特定部が音源方向を特定する処理のフローチャートである。
【発明を実施するための形態】
【0019】
[マイクロホンシステムSの概要]
図1は、マイクロホンシステムSの概要を説明するための図である。マイクロホンシステムSは、マイクロホンアレイ1と、音源定位装置2と、ビームフォーミング装置3と、を備えている。マイクロホンシステムSは、会議室又はホール等の空間内で複数の話者H(
図1においては、話者H-1~H-4)が発した音声を収集するためのシステムである。
【0020】
マイクロホンアレイ1は、
図1において黒丸(●)で示す複数のマイクロホン11を有しており、話者Hが滞在する空間の天井、壁面又は床面に設置される。マイクロホンアレイ1は、複数のマイクロホン11に入力された音声に基づく複数の音信号(例えば電気信号)を音源定位装置2に入力する。
【0021】
音源定位装置2は、マイクロホンアレイ1から入力された音信号を解析することにより、音声を発した音源(すなわち話者H)の方向を特定する。詳細については後述するが、音源の方向は、マイクロホンアレイ1を中心とする方位により表される。音源定位装置2は、例えばプロセッサを有しており、プロセッサがプログラムを実行することにより音源の方向を特定する。
【0022】
ビームフォーミング装置3は、音源定位装置2が特定した音源の方向に基づいて複数のマイクロホン11に対応する複数の音信号の重み係数を調整することによりビームフォーミング処理を実行する。ビームフォーミング装置3は、例えば、話者Hが発する音声に対する感度を、話者Hがいる向き以外の向きから到来する音に対する感度よりも大きくする。音源定位装置2及びビームフォーミング装置3は、同一のプロセッサにより実現されてもよい。
【0023】
図1は、話者H-2が音声を発している状態を示している。
図1に示す状態において、音源定位装置2は、話者H-2の方向から音声が発せられていることを特定し、ビームフォーミング装置3は、マイクロホンアレイ1の指向特性におけるメインローブが話者H-2の向きになるようにビームフォーミング処理を行う。
【0024】
マイクロホンシステムSが会議での話者別の音声の分離又は音声の認識等に使用される場合、音源定位装置2は、話者の移り変わりや移動に応じて、発言中の話者の方向を短時間で特定する必要がある。したがって、音源定位装置2では、リアルタイム性を確保するために、音声信号をフーリエ変換した際の1つのフレーム内で音源定位処理を完了することが望ましい。また、多数の話者の音声を誤りなく分離するために、音源定位装置2には、高い精度で音源の方向を特定することも要求される。
【0025】
音源定位法の1つであるMUSIC(多重信号分類:MUltiple SIgnal Classification)は、信号部分空間と雑音部分空間の直交性に基づく高解像度定位法である。この手法は固有値分解を必要とし、マイクロホン11の数をMとすると、MUSICの演算オーダーはO(M3)となる。そのため、MUSICでは、リアルタイムでの高速処理を実現することが困難である。また、MUSICにより音源方向を特定する場合、音源が一つであっても、反射、残響及びエイリアシング等の影響で、正解方向とは異なる方向を音源方向として特定してしまう場合があり、MUSICは精度の点でも不十分である。
【0026】
このような課題を解決するために、本実施形態に係る音源定位装置2は、固有値分解をすることなく信号部分空間を算出するPAST(Projection Approximation Subspace Tracking)を用いることにより、大幅に演算量を削減する。この手法においては、RLS(Recursive Least Square)により、信号部分空間をフーリエ変換のフレームごとに逐次更新する。したがって、話者の移り変わりが発生したり話者が移動したりする場合であっても、音源定位装置2は、高速に信号部分空間を算出できる。
【0027】
また、音源定位装置2は、MUSICスペクトル分母項を評価関数とする最小化問題を解くことにより、演算量をO(M3)からO(M)まで削減する。具体的には、音源定位装置2は、確率的勾配降下法の1つであるNadam(Nesterov-accelerated adaptive moment estimation)を使用する。Nadamは、Adamにネステロフの加速法を組み込んだものであり、1回の反復処理後の勾配情報を用いることで解への収束速度を向上させる手法である。音源定位装置2は、Nadamの反復回数を削減するために、遅延和アレイ法(DSA:Delay-Sum Array Method)により探索した方向を初期解に使用することを特徴としている。
【0028】
具体的には、音源定位装置2は、遅延和アレイ法で求めた初期解候補を複数個求め、複数の初期解候補それぞれとPASTにより求めた信号部分空間との内積を算出する。音源定位装置2は、複数の初期解候補のうち、内積が最大になる初期解候補をNadamの初期解とすることで、音源の真の方向の周辺の範囲での解の探索を可能にする。音源定位装置2は、このように遅延和アレイ法により初期解となる方向の候補を算出することで、Nadamにおける処理の反復回数を削減し、短時間で最小化問題を収束させて音源の方向を特定する。
【0029】
[音源定位方法]
(設計モデル)
図2は、マイクロホンアレイ1の設計モデルを示す図である。
図2においては、(θ
L,φ
L)方向の固定音源s(n)からの信号をY字マイクロホンアレイで受音することが想定されている。
図2に示すように、各マイクロホン11は、中心点からそれぞれd1、d2の距離の位置に配置されている。マイクロホン11が配置されている3つの方向の間の角度は120度である。ここで、音源とマイクロホンアレイ1との距離が十分に大きい場合、音信号はマイクロホンアレイ1の付近で平面波であると見なすことができる。この場合、受信した音信号X(t,k)は周波数領域の音信号ベクトルとして次式で表すことができる。
【数1】
【数2】
【数3】
【0030】
上記の式において、tはフーリエ変換におけるフレーム番号、kは周波数ビン番号、τmはマイクロホンmにおける基準マイクロホン(例えばマイクロホン11-0)に対する到達時間差、S(t,k)は音源信号の周波数表示、Γ(t,k)は観測雑音の周波数表示、Tは転置を表す。音源定位は、あるフレームtにおいて受音信号X(t,k)から音源方向ベクトルz=[θL,φL]Tの推定値ze=[θe,φe]Tを求める処理である。
【0031】
(信号部分空間の算出)
本音源定位方法は、信号部分空間を算出するために、MUSIC及びPASTを使用する。MUSICは、音信号が到来している方向を推定する方法である。MUSICは、相関行列R(t,k)=E[X(t,k)X
H(t,k)]の固有値分解により算出される固有ベクトルで張られる信号部分空間ベクトルQ
s(t,k)=a
k(θ
L,φ
L)と雑音部分空間ベクトルQ
N(t,k)との直交性に基づいて行われる。E[・]は期待値演算、Hはエルミート転置を表す。MUSICは、式(4)で表されるMUSICスペクトルP
k(θ,φ)を評価関数として用いる。
【数4】
【0032】
ak(θL,φL)は(θ,φ)方向に目的音源があると仮定した場合の仮想的なステアリングベクトルである。信号部分空間と雑音部分空間の直交性から、ak(θ,φ)=ak(θL,φL)となった場合に式(4)の分母は0となり、Pk(θ,φ)は最大値(ピーク)を示す。
【0033】
式(4)の最大値はフレームごとに算出する必要がある。フレームごとに固有値分解をすると演算負荷が大きくなる。そこで、音源定位装置2は、PASTを用いることにより、固有値分解をすることなくQ
s(t,k)をフレームごとに逐次更新を行う。すなわち音源定位装置2は、演算負荷を低減しつつQ
s(t,k)を算出し、式(4)の分母を最小とするQ
N(t,k)を算出する。PASTは、式(5)のJ(Q
s(t,k))を最小とするQ
s(t,k)を求める処理である。
【数5】
【0034】
式(5)は、信号部分空間ベクトルと雑音部分空間ベクトルとの直交性が大きい場合に小さな値となる直交性評価関数である。式(5)において、βは忘却係数であり、QPS
H(l-1,k)は前フレームでの信号部分空間ベクトルの推定結果Qsである。X(l,k)は音信号ベクトルであり、QS(t,k)QPS
H(l-1,k)X(l,k)は、音信号ベクトルを信号部分空間に射影したベクトルである。音源定位装置2は、式(5)に基づいて推定したQs(t,k)を用いて、QN(t,k)QN
H(t,k)=I-QS(t,k)QS
H(t,k)を算出する。さらに音源定位装置2は、算出した値を式(4)に適用することで、MUSICスペクトルPk(θ,φ)を算出する。ここで、Iは単位行列を表す。
【0035】
音源定位装置2がPASTを用いてQN(t,k)QN
H(t,k)を算出することで、MUSICスペクトルを算出するために必要な演算オーダーは従来のO(M3)からO(2M)に減少する。したがって、音源定位装置は、信号部分空間ベクトルを特定するための処理時間を大幅に短縮することができる。
【0036】
音源定位装置2は、雑音部分空間ベクトルを特定した後に、確率的勾配降下法の一つであるNadamを用いる。Nadamの最適化評価関数には、次式を用いる。次式のJ
k(θ,φ)は、式(4)の分母であり、これを最小化する解が方向ベクトルz
eに対応する。
【数6】
【数7】
【0037】
音源定位装置2は、J
k(θ,φ)を最小化する解を探索する際の初期解候補を遅延和アレイ法で推定することにより、探索の反復回数を削減する。遅延和アレイ法による空間スペクトルQ
k(θ,φ)は式(8)により表される。
【数8】
【0038】
R
DS(t,k)=E[X
DS(t,k)X
DS
H(t,k)]は遅延和アレイ法で使用する相関行列、b
k(θ,φ)はステアリングベクトルである。音源定位装置2は、Q
k(θ,φ)を以下の式(9)に示すように統合した値が所定の値以上になる方向を初期解候補として特定する。
【数9】
【0039】
初期解候補には高い精度が求められない。したがって、音源定位装置2は、初期解候補の演算負荷を軽減するために、周波数ビンk及び方向(θ,φ)を間引いて、周波数ビンk及び方向(θ,φ)の粗さを1フレーム内で初期解候補の演算が完了する程度にしてもよい。
【0040】
ただし、式(9)の算出結果によって、真のピーク方向(θ
L,φ
L)から離れた位置にピークが現れる場合がある。この現象は、空間スペクトルQ
k(θ,φ)がエイリアシング、反射、又は残響等の影響を受けることにより発生する。そこで、音源定位装置2は、式(9)に基づくピークサーチ時に、初期解候補となるピークをR個求めて、式(10)により信頼度を算出してもよい。
【数10】
【0041】
式(10)は、初期解候補とPASTにより求めた信号部分空間ベクトルとの内積の2乗和である。式(10)から得られる結果は、大きい値を取る方向(θ
r,φ
r)において、Qs(t,k)が張る信号部分空間ベクトルと近いことを表す。音源定位装置2は、式(11)に示すように、最も信頼度が大きいピークを初期解z’として特定する。
【数11】
【0042】
音源定位装置2は、初期解をz’に決定した後にze=z’として、式(6)を用いたNadamの手法により、各周波数ビンに対応する(θk,φk)を算出する。音源定位装置2は、これらの各周波数ビンに対応する(θk,φk)を平均した値を新たな音源方向ベクトルzeとして推定する。Nadamを用いて解を探索する前に上記の方法で初期解z’を求めることにより、音源定位装置2は、音源信号が張る信号部分空間に近い解を短時間で探索することが可能になる。
【0043】
[音源定位装置2の構成]
図3は、音源定位装置2の構成を示す図である。以下、
図3を参照しながら、音源定位装置2が上記の音源定位方法を実施するための各部の動作を説明する。音源定位装置2は、音信号ベクトル生成部21と、部分空間特定部22と、候補特定部23と、方向特定部24と、を有する。候補特定部23は、遅延和アレイ処理部231と、信頼度算出部232と、初期解特定部233と、を有する。音源定位装置2は、メモリに記憶されたプログラムをプロセッサが実行することにより、音信号ベクトル生成部21、部分空間特定部22、候補特定部23、及び方向特定部24として機能する。
【0044】
音信号ベクトル生成部21は、音信号ベクトルを生成する。音信号ベクトルは、音源が発した音を受けた複数のマイクロホン11が出力した複数の電気信号に基づいて生成される。具体的には、音信号ベクトル生成部21は、複数のマイクロホン11から入力された複数の電気信号をフーリエ変換(例えば高速フーリエ変換)することにより、周波数領域の音信号ベクトルを生成する。音信号ベクトル生成部21は、生成した音信号ベクトルを部分空間特定部22及び候補特定部23に入力する。
【0045】
部分空間特定部22は、音信号ベクトルに含まれる信号成分に対応する信号部分空間と、音信号ベクトルに含まれる雑音成分に対応する雑音部分空間とを特定する。部分空間特定部22は、例えばPASTを用いることにより、信号部分空間ベクトル及び雑音部分空間ベクトルを特定する。信号部分空間ベクトル及び雑音部分空間ベクトルは、音信号ベクトルと、当該音信号ベクトルを信号部分空間に射影したベクトルとの差に基づく式(5)に示した直交性評価関数に基づいて特定される。
【0046】
候補特定部23は、遅延和アレイ法を音信号ベクトルに適用することにより、一以上の候補ベクトルを特定する。一以上の候補ベクトルは、音源の方向(すなわち音信号の到来方向)として想定される一以上の方向に対応する。そして、候補特定部23は、特定した一以上の候補ベクトルのうち、信号部分空間ベクトルとの内積の2乗和が所定の信頼性条件を満たす候補ベクトルを特定する。信頼性条件は、例えば、候補ベクトルと信号部分空間ベクトルとの内積の2乗和が閾値以上であることである。信頼性条件は、予見される方向から到来する音信号の確率分布と、候補ベクトルが示す方向との内積2乗和の尤度が相対的に大きいことである。特定された候補ベクトルは、方向特定部24が音源の方向を探索する処理を実行する際の初期解として用いられる。候補特定部23は、部分空間特定部22が実行する処理と並行して一以上の候補ベクトルを特定する動作を実行してもよく、部分空間特定部22が信号部分空間ベクトル及び雑音部分空間ベクトルを特定する処理を実行した後に一以上の候補ベクトルを特定する動作を実行してもよい。
【0047】
なお、候補特定部23は、初期解候補の演算負荷を軽減するために、音信号をフーリエ変換した際の1つのフレーム内で初期解候補となる一以上の候補ベクトルの演算を完了できるように周波数ビンk及び方向(θ,φ)を決定してもよい。候補特定部23は、例えば、音信号のフーリエ変換により生成される複数の周波数ビンを間引くことにより、周波数ビンk及び方向(θ,φ)を決定する。
【0048】
遅延和アレイ処理部231は、公知の遅延和アレイ法を用いて、マイクロホン11のそれぞれに音源が発した音信号が到達する時間の差に基づいて、音信号の到来方向の可能性がある複数の方向を示す複数の候補ベクトルを推定する。続いて、信頼度算出部232は、式(10)を用いて、遅延和アレイ処理部231が推定した複数の候補ベクトルに対応する方向それぞれの信頼度を算出する。初期解特定部233は、信頼度算出部232が算出した信頼度が最も高い候補ベクトルを、方向特定部24が実行する探索処理の初期解として方向特定部24に入力する。
【0049】
方向特定部24は、部分空間特定部22が特定した信号部分空間ベクトルと雑音部分空間ベクトルとの内積の2乗和を含む式(6)により表される最適化評価関数に基づいて、音源の方向を特定する。方向特定部24は、部分空間特定部22が特定した一以上の候補ベクトルのうち少なくともいずれかに基づく初期解を用いて探索した音源方向ベクトルが示す方向を音源の方向として特定する。具体的には、方向特定部24は、式(6)で表される最適化評価関数を用いる確率的勾配降下法を用いることにより音源方向ベクトルを特定する。
【0050】
方向特定部24は、フーリエ変換のフレームごとに音源の方向を特定する。そして、方向特定部24は、平均方向ベクトルに基づいて音源の方向を特定する。平均方向ベクトルは、フーリエ変換により生成される複数の周波数ビンに対応する複数の音源方向ベクトルを平均化して得られる。
【0051】
[音源定位装置2の処理フローチャート]
図4は、音源定位装置2が音源定位方法を実行する処理のフローチャートである。音信号ベクトル生成部21は、マイクロホンアレイ1から音信号X(t,k)に対応する電気信号を取得すると(S1)、各変数を初期化する(S2)。音信号ベクトル生成部21は、音信号X(t,k)を高速フーリエ変換することにより(S3)、周波数ビンk(kは自然数)により構成される周波数領域の音信号ベクトルを生成する(S4)。
【0052】
続いて、部分空間特定部22は、音信号ベクトルを信号部分空間に射影することにより射影ベクトルを作成する(S5)。部分空間特定部22は、式(5)に基づいて固有値を更新し(S6)、信号部分空間ベクトルQs(t,k)を更新する(S7)。部分空間特定部22は、規定の回数にわたってS5からS7までの処理を実行したか否かを判定する(S8)。部分空間特定部22は、規定の回数にわたって処理を実行したと判定した場合、最新の信号部分空間ベクトルを方向特定部24に入力する。
【0053】
S5からS8までの処理と並行して、候補特定部23は、相関行列R(t,k)=E[X(t,k)XH(t,k)]を作成し(S9)、式(9)を用いて周波数ビンごとの総和を算出する(S10)。候補特定部23は、算出した値が所定の条件を満たす方向(例えば閾値以上である方向)を示すベクトルを初期解の候補として特定する(S11)。さらに候補特定部23は、特定した初期解の候補の信頼度を式(10)により算出し(S12)、信頼度が最大となる初期解候補を初期解に決定する(S13)。
【0054】
候補特定部23は、決定した初期解を方向特定部24に通知する。方向特定部24は、部分空間特定部22から通知された信号部分空間ベクトル及び候補特定部23から通知された初期解に基づいて、式(6)に示した最適化評価関数を用いて音源の方向を特定する(S14)。
【0055】
図5は、方向特定部24が音源方向を特定する処理(S14)のフローチャートである。まず、方向特定部24は、Q
N(t,k)Q
N
H(t,k)=I-Q
S(t,k)Q
S
H(t,k)を算出し(S141)、算出した結果に基づいて、式(6)に示したJ
k(θ,φ)の勾配を算出する(S142)。続いて、方向特定部24は、Nadamの処理に用いる1次モーメントm
i及び2次モーメントn
iを算出し(S143)、Nesterov加速による適応学習率を算出する(S144)。方向特定部24は、算出した適応学習率に基づいて方向ベクトルの解を更新する(S145)。
【0056】
方向特定部24は、規定回数に達するまでS142からS145の処理を繰り返し、全ての周波数ビンに対して得られた方向ベクトルの解の平均値を算出することにより、音源の方向を特定する(S147)。
【0057】
[実環境実験の結果]
本実施形態に係る音源定位方法の有効性を示すため、実環境実験を行なった。音信号の収録環境は、株式会社オーディオテクニカ本社第1会議室と第2会議室である。第1会議室の大きさは、5.3[m]×4.7[m]×2.6[m]で、残響時間は0.17秒である。第2会議室の大きさは、12.9[m]×6.0[m]×4.0[m]で、残響時間は0.80秒である。環境雑音として、パーソナルコンピュータの排気音と空調音が存在していた。
【0058】
それぞれの会議室に設置したスピーカを音源とする男性の声を流しながら、マイクロホンアレイ1で声を録音した。表1に、音源方向の真値、及びマイクロホンアレイ1と話者間距離S
dを示す。
【表1】
【0059】
本実験においては、マイクロホン数M=7、d
1=15[mm]、d
2=43[mm]、サンプリング周波数f
s=12[kHz]、フレーム長K=128、50%オーバーラップ、使用周波数帯域2[kHz]~5[kHz]、PASTの忘却係数β=0.96、R=2とした。また、Nadamのステップサイズを0.1とした。処理時間の測定には、Intel Core(登録商標)i7-7700HQ CPU(2.80GHz),RAM16GBのコンピュータを使用した。推定した音源の方向と真値とのずれの値を、式(12)に示す平均値絶対誤差δ=[δ
θ,δ
φ]を用いて評価した。z=[θ
L,φ
L]
Tは音源の真値方向である。
【数12】
【0060】
音源定位方法として、本実施形態に係る音源定位方法(以下、「本方法」という。)と、比較方法1、比較方法2を用いた。比較方法1は、式(10)による信頼性の確認を行わない点を除いて本方法と同じ方法である。比較方法2は、固有値分解することによりMUSICスペクトルをピークサーチする方法である。なお、式(12)の評価値を演算する際、無音区間を除いて評価値を算出した。
【0061】
表2は、各方法を用いて測定した結果の平均値絶対誤差δを示す。表2から、本方法及び比較方法2を用いる場合、真値に対する誤差は5[°]未満であることが確認できる。一方、信頼性確認を実施しない比較方法1は本方法よりも誤差が大きかった。比較方法2は、MUSICスペクトルをそのままピークサーチしているため、本方法よりもわずかに誤差が小さいという傾向がある。
【表2】
【0062】
さらに、それぞれの方法の信号長1秒あたりの平均演算時間RTF=Sc/Slを比較した。ここで、Scは演算時間(秒)、Slは信号長(秒)である。平均演算時間が1(秒)未満になる場合、リアルタイムでの音源定位が可能である。
【0063】
表3は、それぞれの方法の平均演算時間を示す。本方法及び比較方法1では、平均演算時間が1(秒)を大きく下回っており、リアルタイム性を確保できることがわかる。一方、比較方法2では平均演算時間が1(秒)を大きく上回っており、リアルタイム性を確保できないことがわかる。
【表3】
【0064】
以上の実験結果から、本実施形態に係る音源定位方法を用いると、十分な精度を確保しつつ、リアルタイムで音源を定位することができることが明らかになった。
【0065】
[本実施形態に係る音源定位装置2による効果]
以上説明したように、本実施形態に係る音源定位装置2は、MUSICに用いる固有ベクトルの算出にPASTを用いることで、固有値分解をすることなく高速に信号部分空間を算出する。そして、音源定位装置2は、MUSICスペクトルの分母を評価関数とするNadamにより最適解を算出する前に、遅延和アレイ法で初期解候補を特定する。音源定位装置2は、遅延和アレイ法で特定した初期解候補の信頼度に基づいて初期解を決定することで、最適解の探索時間を短縮することができる。実環境実験により、音源定位装置2が実施する音源定位方法にはリアルタイム性があり、定位誤差を5°未満に抑えられることが確認できた。
【0066】
なお、以上の説明においては、固定音源を用いて動作を確認した。しかし、音源が移動する場合にも本実施形態に係る音源定位方法は適用することができる。本実施形態に係る音源定位方法は高速に最適解を探索することができる。そのため、本実施形態に係る音源定位方法は、高速・高精度の音源の追尾を可能にする。また、以上の説明においては、最適解を探索する手段としてNadamを例示したが、最適解を探索する手段はNadamに限らず、最小化問題を解くための他の手段が用いられてもよい。
【0067】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0068】
1 マイクロホンアレイ
2 音源定位装置
3 ビームフォーミング装置
11 マイクロホン
21 音信号ベクトル生成部
22 部分空間特定部
23 候補特定部
231 遅延和アレイ処理部
232 信頼度算出部
233 初期解特定部
24 方向特定部