(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-30
(45)【発行日】2024-10-08
(54)【発明の名称】モデル学習装置、到来方向推定装置、モデル学習方法、到来方向推定方法、プログラム
(51)【国際特許分類】
G10L 25/51 20130101AFI20241001BHJP
G10L 25/30 20130101ALI20241001BHJP
【FI】
G10L25/51 400
G10L25/30
(21)【出願番号】P 2023500171
(86)(22)【出願日】2021-02-17
(86)【国際出願番号】 JP2021005849
(87)【国際公開番号】W WO2022176045
(87)【国際公開日】2022-08-25
【審査請求日】2023-07-26
【新規性喪失の例外の表示】特許法第30条第2項適用 (1)ウェブサイトの掲載日 2020年4月9日 ウェブサイトのアドレス https://cmsworkshops.com/ICASSP2020/Papers/ViewPaper.asp?PaperNum=4972 https://ieeexplore.ieee.org/document/9054462 https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9054462
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】安田 昌弘
【審査官】浜岸 広明
(56)【参考文献】
【文献】国際公開第2020/255318(WO,A1)
【文献】国際公開第2020/217781(WO,A1)
【文献】安田 昌弘 Masahiro Yasuda,深層学習に基づく時間周波数マスクと音響強度ベクトルを利用した音響イベント定位 Sound event localization based on sound intensity vector with DNN-based denoising,日本音響学会 2020年 春季研究発表会講演論文集CD-ROM [CD-ROM],2020年03月18日,p.195-198
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 19/00-99/00
(57)【特許請求の範囲】
【請求項1】
音源到来方向が既知であって時刻毎の前記音源到来方向を示すラベルを有する音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するベクトル推定部と、
前記音響強度ベクトルを入力とし、雑音抑制及び音源分離を行わない状態で導出された方位角よりも大きい方位角をもつ時間周波数ビンを選び出す
第1の時間周波数マスク
を抽出する角度マスク抽出部と、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルと、前
記第1の時間周波数マスクを入力とし、雑音抑制および音源分離のための
第2の時間周波数マスクを出力する時間周波数マスク推定部と、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記
第2の時間周波数マスクを適用してなる音響強度ベクトルに基づいて
第1の音源到来方向を導出する第1音源到来方向導出部と、
前記残響成分を差し引き済みの前記音響強度ベクトルに前
記第1の時間周波数マスクを適用してなる音響強度ベクトルに基づいて
第2の音源到来方向を導出する第2音源到来方向導出部と、
前記導出された
第1と第2の音源到来方向と、前記ラベルに基づいてモデルのコスト関数を計算し、前記モデルのパラメータを更新するコスト関数計算部を含む
モデル学習装置。
【請求項2】
音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するベクトル推定部と、
前記音響強度ベクトルを入力とし、雑音抑制及び音源分離を行わない状態で導出された方位角よりも大きい方位角をもつ時間周波数ビンを選び出す
第1の時間周波数マスク
を抽出する角度マスク抽出部と、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルと、前
記第1の時間周波数マスクを入力とし、雑音抑制および音源分離のための
第2の時間周波数マスクを出力する時間周波数マスク推定部と、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記
第2の時間周波数マスクを適用してなる音響強度ベクトルに基づいて
第1の音源到来方向を導出する音源到来方向導出部を含む
到来方向推定装置。
【請求項3】
音源到来方向が既知であって時刻毎の前記音源到来方向を示すラベルを有する音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するステップと、
前記音響強度ベクトルを入力とし、雑音抑制及び音源分離を行わない状態で導出された方位角よりも大きい方位角をもつ時間周波数ビンを選び出す
第1の時間周波数マスク
を抽出するステップと、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルと、前
記第1の時間周波数マスクを入力とし、雑音抑制および音源分離のための
第2の時間周波数マスクを出力するステップと、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記
第2の時間周波数マスクを適用してなる音響強度ベクトルに基づいて
第1の音源到来方向を導出するステップと、
前記残響成分を差し引き済みの前記音響強度ベクトルに前
記第1の時間周波数マスクを適用してなる音響強度ベクトルに基づいて
第2の音源到来方向を導出するステップと、
前記導出された
第1と第2の音源到来方向と、前記ラベルに基づいてモデルのコスト関数を計算し、前記モデルのパラメータを更新するステップを含む
モデル学習方法。
【請求項4】
音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するステップと、
前記音響強度ベクトルを入力とし、雑音抑制及び音源分離を行わない状態で導出された方位角よりも大きい方位角をもつ時間周波数ビンを選び出す
第1の時間周波数マスク
を抽出するステップと、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルと、前
記第1の時間周波数マスクを入力とし、雑音抑制および音源分離のための
第2の時間周波数マスクを出力するステップと、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記
第2の時間周波数マスクを適用してなる音響強度ベクトルに基づいて
第1の音源到来方向を導出するステップを含む
到来方向推定方法。
【請求項5】
コンピュータを請求項1に記載のモデル学習装置として機能させるプログラム。
【請求項6】
コンピュータを請求項2に記載の到来方向推定装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源到来方向(DOA)推定に関し、モデル学習装置、到来方向推定装置、モデル学習方法、到来方向推定方法、プログラムに関する。
【背景技術】
【0002】
Sound Event Localization and Detection (SELD)は、マイクロホンアレイによって取得された音響信号から、いつ・どこで・どのような音響イベントが起きたのかを特定するタスクである(非特許文献1)。SELDは、AI(人工知能)が周囲の環境を理解するための基盤となる技術であり、自動運転車やドローンを用いた警備などへの応用が検討されている(非特許文献2,3,4)。
【0003】
音源到来方向(DOA)推定はSELDタスクの中で、音源のマイクに対する各時刻での相対位置を特定するために用いられる。近年のほとんどのDOA推定手法では、観測から方位角と仰角を直接推定するための回帰関数としてディープニューラルネットワーク(DNN)を使用する、データ駆動型アプローチが採用されている(非特許文献5,6,7,8)。このアプローチは、DNNの高い表現力により高精度を達成したが、重複音のDOA推定は完全にデータ駆動型のアプローチにとって依然として困難である(非特許文献5,6)。一方、物理ベースのアプローチのDOA推定精度は、単一音源に対してはDNNベースの手法よりも劣るものの、重複音に対する頑強性を持つという利点がある(非特許文献9)。
【0004】
これまでに物理ベースのDOA推定手法として、MUSIC法や音響強度ベクトル(IV)に基づく手法など、様々な手法が提案されている(非特許文献10,11,12)。MUSIC法(非特許文献11)は多重音に対する正確なDOA推定が可能であり、IVに基づく手法(非特許文献11,12)は良い時間角度分解能を持っている。これらの性質はSELDタスクに用いるDOA手法において重要な利点である。しかし、これらのDOA推定手法は定常雑音等による信号雑音比(SNR)の低下に伴い、精度低下することが知られている(非特許文献5)。
【0005】
<音響強度ベクトルに基づくDOA推定>
Ahonenらは、一次アンビソニックスBフォーマットから計算されたIVを用いたDOA推定法を提案した(非特許文献11)。一次アンビソニックスBフォーマットは4チャネルの信号で構成され、その短時間フーリエ変換(STFT)の出力Wf,t,Xf,t,Yf,t,Zf,tは、0次および1次の球面調和関数に対応する。ここで、f∈{1,...,F}とt∈{1,...,T}は、それぞれT-Fドメインの周波数と時間のインデックスである。0次のWf,tは無指向性音源に対応し、1次のXf,t,Yf,tおよびZf,tは、それぞれ各軸に沿った双極子に対応する。
【0006】
W
f,t,X
f,t,Y
f,tおよびZ
f,tの空間応答(ステアリングベクトル)はそれぞれ次のように定義される。
【数1】
ここで、φとθは、それぞれ方位角と仰角を表す。IVは、音響粒子速度v=[v
x,v
y,v
z]
Tおよび音圧p
f,tによって決まるベクトルであり、T-F空間においては次のように表される。
【数2】
ここで、R(・)は複素数の実部を表し、*は複素共役を表す。実際には、空間上の全ての点において音響粒子速度と音圧の測定を行うことは不可能なため、式(2)をそのまま適用してIVを求めることは難しい。そこで、一次アンビソニックスBフォーマットから得られた4チャネルのスペクトログラムを用いて、式(2)を次のように近似する(非特許文献13)。
【数3】
DOA推定に対して有効な時間周波数領域を選び出すため、AhonenらはIVに対して次のような時間周波数マスクM
t,fを適用した。
【数4】
このマスクは、信号強度であり大きな強度をもつ時間周波数ビンを選び出すものとなっている。したがって、目的信号が環境雑音よりも十分に大きな強度を持っていると仮定すれば、この時間周波数マスクはDOA推定に対して有効な時間周波数領域を選びだすものとなる。さらに、彼らは300-3400Hzの領域内の各バーク尺度ごとにIVの時系列を次のように計算している。
【数5】
ここで、f
l,f
hは各バーク尺度の上限と下限を表す。最後に各時間フレームtにおける目的音源の方位角および仰角は、次のように計算される。
【数6】
<DNNに基づくDOA推定>
DNNに基づくDOA推定の多くは、方位角と仰角を直接推定するための回帰関数としてDNNを使用している。DCASE Challenge 2019 Task3(非特許文献14)の多くの参加者は、DOA推定に完全にデータ駆動型のアプローチを使用し、良好な精度を達成した(非特許文献6,7,8)。これらの方法において、DNNの構造は多層CNNと双方向ゲートリカレントユニット(Bi-GRU)の組み合わせであり、高次の特徴の抽出と時間構造のモデリングを可能にしている。また、DNNモデルは真のDOAラベルと推定DOAラベルの間のMean Absolute Error (MAE)誤差などの損失関数を最小化するように学習される。ただし、このようなデータ駆動型DNNベースの方法では、重複音のDOA推定は困難であり、単一音源の場合よりも精度がはるかに低いことが報告されている(非特許文献5,6)。
【先行技術文献】
【非特許文献】
【0007】
【文献】S. Adavanne, A. Politis, J. Nikunen, and T. Virtanen, “Sound event localization and detection of overlapping sources using convolutional recurrent neural networks,” IEEE Journal of selected topics in signal processing, vol. 13.
【文献】Y. Xu, Q. Kong, W. Wang, and M. D. Plumbley, “Surrey-cvssp system for dcase 2017 challenge task4,”inTech. report of Detection and Classification of Acoustic Scenes and Events 2017(DCASE) Challange, 2017.
【文献】D. Lee, S. Lee, Y. Han, and K. Lee, “Ensemble of convolutional neural networks for weakly-supervised sound event detection using multiple scale input,”inTech. report of Detection and Classification of Acoustic Scenes and Events 2017 (DCASE) Challange, 2017.
【文献】X. Chang, C. Yang, X. Shi, P. Li, Z. Shi, and J. Chen, “Feature extracted doa estimation algorithm using acoustic array for drone surveillance,” in Proc. of IEEE 87th Vehicular Tech-nology Conference, 2018.
【文献】S. Adavanne, A. Politis, and T. Virtanen, “Direction of arrival estimation for multiple sound sources using convolutional recurrent neural network,” in Proc. of IEEE 26th European Signal Processing Conference, 2018.
【文献】S. Kapka and M. Lewandowski, “Sound source detection, localization and classification using consecutive ensemble of crnn models,”inTech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange,2019.
【文献】Y. Cao, T. Iqbal, Q. Kong, M. B. Galindo, W. Wang, and M. D.Plumbley, “Twostage sound event localization and detection using intensity vector and generalized crosscorrelation,” in Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.
【文献】K. Noh, J. Choi, D. Jeon, and J. Chang,“Three-stage approach for sound event localization and detection,” in Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.
【文献】T. N. T. Nguyen, D. L. Jones, R. Ranjan, S. Jayabalan, and W. S. Gan, “Dcase 2019 task 3: A two-step system for sound event localization and detection,” in Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.
【文献】R. O. Schmidt, “Multiple emitter location and signal parameter estimation,”IEEE Transactions On Antennas and propagation, vol. 34, pp. 276-280, 1986.
【文献】J. Ahonen, V. Pulkki, and T. Lokki, “Teleconference application and b-format microphone array for directional audiocoding,”in Proc. of AES 30th International Conference: Intelligent Audio Environments, 2007.
【文献】S. Kitic and A. Guerin, “Tramp: Tracking by a real-time ambisonic-based particle filter,” in Proc. of LOCATA Challenge Workshop, a satellite event of IWAENC, 2018.
【文献】D. P. Jarrett, E. S. P. Habets, and P. A. Naylor, “3d source localization in the spherical harmonic domain using a pseudo intensity vector,”in Proc. of European Signal Processing Conference, 2010.
【文献】"DCASE2019 Workshop Workshop on Detection and Classification of Acoustic Scenes and Events," [online], 25-26 October 2019, [令和3年2月8日検索]、インターネット<URL:http://dcase.community/workshop2019/>
【文献】O.Yilmaz and S.Rickard, “Blind separation of speech mixtures via time-frequency masking,” IEEE Trans. Signal Process., vol. 52, pp. 1830-1847, July. 2004.
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述のDOA推定をオフライン動作で行う場合、収録が終了してから推定を行うため、ある時刻の推定を行うためにそれ以降の未来の情報を使って推定を行うことも可能である。実際、深層学習に基づく音響イベント定位手法の多くでは、推定精度向上のため双方向リカレントニューラルネットワークと呼ばれる未来の情報を陽に用いたモデル構造を採用している。
【0009】
実用的な利用を見据えたオンライン動作化のためには、このような未来の情報を用いた推定を行うことはできない。未来の情報を利用できない状況では、情報の不足のために音響イベントの開始時刻付近において推定精度が劣化することが考えられる。また、過去の情報については原理上は際限なく利用可能であるが、実用的には、計算量を抑えるためなるべく短時間の入力情報のみで推定が行えることが好ましい。
【0010】
そこで本発明では、音源到来方向(DOA)推定をオンライン動作で行うことができるモデル学習装置を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明のモデル学習装置は、ベクトル推定部と、角度マスク抽出部と、時間周波数マスク推定部と、第1音源到来方向導出部と、第2音源到来方向導出部と、コスト関数計算部を含む。
【0012】
ベクトル推定部は、音源到来方向が既知であって時刻毎の音源到来方向を示すラベルを有する音響データの複素スペクトログラムから抽出された実数スペクトログラムと、複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された音響強度ベクトルの残響成分を出力する。角度マスク抽出部は、音響強度ベクトルを入力とし、雑音抑制及び音源分離を行わない状態で導出された方位角よりも大きい方位角をもつ時間周波数ビンを選び出す時間周波数マスクを角度マスクとして抽出する。時間周波数マスク推定部は、実数スペクトログラムと、残響成分が差し引かれた音響強度ベクトルと、角度マスクを入力とし、雑音抑制および音源分離のための時間周波数マスクを出力する。第1音源到来方向導出部は、残響成分を差し引き済みの音響強度ベクトルに時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する。第2音源到来方向導出部は、残響成分を差し引き済みの音響強度ベクトルに角度マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する。コスト関数計算部は、導出された音源到来方向と、ラベルに基づいてモデルのコスト関数を計算し、モデルのパラメータを更新する。
【発明の効果】
【0013】
本発明のモデル学習装置によれば、音源到来方向(DOA)推定をオンライン動作で行うことができる。
【図面の簡単な説明】
【0014】
【
図1】実施例1のモデル学習装置の機能構成を示すブロック図。
【
図2】実施例1のモデル学習装置の動作を示すフローチャート。
【
図3】実施例1の到来方向推定装置の機能構成を示すブロック図。
【
図4】実施例1の到来方向推定装置の動作を示すフローチャート。
【
図5】実施例1の到来方向推定装置を使って時系列DOA推定を行った結果を示す図。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例1】
【0016】
以下の実施例のモデル学習装置、到来方向推定装置は、DOA推定をオンライン動作可能な形に拡張したことを特徴とする。深層学習に基づくDOA推定の従来手法は、収録済みの音響信号に対して推論を実施するオフライン動作を前提としている。オフライン動作を前提にした場合、推論時刻よりも未来に得られる音響信号を用いてDOA推定を行うことが可能であり、実際多くのDNNに基づくDOA推定の多くでは、未来の情報を用いるモデル構造である双方向リカレントニューラルネットワーク(Bi-RNN)を時間構造のモデリングに利用している(非特許文献5,6,7,8)。
【0017】
従って、システムのオンライン動作化には、このBi-RNNを未来の情報を用いない単方向リカレントニューラルネットワーク(RNN)に置き換える必要がある。しかし、DNNに基づくDOA推定で一般に採用されている、データ駆動型アプローチにおいてこの置き換えを行うと、イベントの開始時刻付近において推定精度が大幅に劣化する。一方、物理に基づくDOA推定は主にオンライン動作を前提に検討されている。特に、IVに基づくDOA推定は良い時間角度分解能を持っており、非常に短い時間の入力から良い精度でDOAを推定できる点でオンライン化に適した手法と言える。
【0018】
そこで、オンライン動作化に頑健なIVに基づくDOA推定とDNNに基づく推定のハイブリッド方式をベースにオンライン拡張を行うことで、Bi-RNNをRNNに置き換えることによる精度低下を抑えられるのではないかとの仮説を立て、この仮説を検証した。実際、実施例では物理とDNNのハイブリッド方式のDOA推定方式において、Bi-RNNをRNNで置き換えたモデルでは、オンライン化による精度低下がわずか1度に抑えられることが確認された。
【0019】
以下、IVに基づくDOA推定を、DNNを用いた雑音抑制および音源分離を用いて精度改善するDOA推定手法を説明する。
【0020】
一般に、N個の音源が存在するときの時間領域の入力信号xは次のように表すことができる。
【数7】
ここで、s
iは音源i∈[1,...,N]の直接音、nは目的音源に無相関な雑音、εは目的音源に起因するその他の項(残響等)である。時間周波数領域においてもこれらの要素の和として目的信号は表せるので、この表現を式(3)に適用することにより、IVを次のように表すことができる。
【数8】
式(8)から分かるように、観測信号から得られるIVはある一つの音源iだけではなく、その他全ての成分を含んでいるため、ここから導出されるIVの時系列はこれらの項の影響を受ける。これが、IVに基づく従来法の欠点であるSNRの低下に弱い性質の要因の一つである。従来法の欠点を克服するため、時間周波数マスクの乗算とベクトル減算による雑音抑制および音源分離を行うことで、N個の重複音の中から音源s
iの音響強度ベクトルI
siを取り出すことを考える。式(8)の各要素が時間周波数空間上で十分に疎であり、重なりが少ないと考えれば、これらは時間周波数マスクによって分離できることが知られている(非特許文献15)。実際にはこれは強い仮定であり、雑音項nは時間周波数空間で十分に疎であると仮定することはできない。そこで本実施例では音源s
iを分離する時間周波数マスクM
si
f,tと、雑音項nを分離する時間周波数マスクM
n
f,tの組み合わせであるM
si
f,t(1-M
n
f,t)を用いた。この処理は雑音抑制と音源分離の二つの処理の組み合わせと考えることができる。 また、εの項が残響である場合には、目的信号と時間周波数上での重なりが大きく時間周波数マスクでは除去できない。そこで、本実施例では、I
ε
f,tを直接推定しベクトルとして元の音響強度ベクトルから差し引いた。これらの操作は次のように表すことができる。
【数9】
なお本発明の実施例においては同時刻に存在する目的音の重複数が2以下の場合を扱うため、M
s2
f,tの代わりに1-M
s1
f,tを用いることができる。そこで我々は、時間周波数マスクM
n
f,t,M
s1
f,tおよび、ベクトルI^
ε
f,tを2つのDNNを用いて推定する。
【0021】
本実施例において、雑音・多重音に頑健なDOA推定のためのIVの補正は式(9)で表される。ただし、時間周波数マスクMn
f,t,Ms1
f,tおよび、ベクトルI^ε
f,tを推定するためのDNNに用いられているBi-RNNの一種であるBi-LSTMではなく、未来の情報を使用しないLSTMに置き換える。RNNの前段には通常、高次特徴量抽出のために畳み込みニューラルネットワークが用いられるが、この部分については未来の情報を利用する構造ではないためそのまま利用できる。
【0022】
また、仮にBi-RNNによる未来の情報の利用を活用するため、推論を実行する音源ファイル全体を一度に入力して推論を実行することとすれば、オンライン動作化においては推論時刻までに得られている音響信号のうち推論に必要な時間フレーム数を任意に設定して推論に用いることになる。そこで、LSTMの持つ長期の時系列依存性を内部状態として記憶できる性質に着目し、一度に入力する時間フレームを瞬時的な特徴量の抽出に必要な最短のフレーム数にまで削減することで、一度の推論あたりにかかる計算量を低減する工夫をした。
【0023】
[モデル学習装置1]
以下、
図1を参照して本実施例のモデル学習装置1の機能構成を説明する。
図1に示すように本実施例のモデル学習装置1は、入力データ記憶部101と、ラベルデータ記憶部102と、短時間フーリエ変換部201と、スペクトログラム抽出部202と、音響強度ベクトル抽出部203と、角度マスク抽出部204と、ベクトル推定部301と、ベクトル差引処理部302と、時間周波数マスク推定部303と、時間周波数マスク乗算処理部304と、第1音源到来方向導出部305と、音源数推定部306と、角度マスク乗算処理部307と、第2音源到来方向導出部308と、音源到来方向ポスト処理部309と、第1音源到来方向出力部401と、音源数出力部402と、第2音源到来方向出力部403と、コスト関数計算部501を含む。以下、各構成要件の動作について説明する。
【0024】
<入力データ記憶部101>
入力データ記憶部101は、入力データとして、学習に用いる一次アンビソニックスBフォーマットの4チャネル音声データ(以下、音響データとも呼称する)を予め記憶している。本実施例においては、同時刻に存在する目的音の重複数が2以下のデータを用いた。
【0025】
<ラベルデータ記憶部102>
ラベルデータ記憶部102は、入力データ記憶部101に記憶された音響データに対応する各音響イベントの到来方向および時刻のラベルデータを予め記憶している。すなわち、学習時には音源到来方向は既知であって、時刻毎に音源到来方向を示すラベルがラベルデータ記憶部102に記憶されているものとする。
【0026】
<短時間フーリエ変換部201>
短時間フーリエ変換部201は、入力データ記憶部101に記憶された音響データを取得してSTFTを実行し、音響データの複素スペクトログラムを得る(S201)。
【0027】
<スペクトログラム抽出部202>
スペクトログラム抽出部202は、ステップS201で得られた複素スペクトログラムを用いて、DNNの入力特徴量として用いるための実数スペクトログラムを抽出する(S202)。本実施例では、対数メルスペクトログラムを用いた。
【0028】
<音響強度ベクトル抽出部203>
ステップS201で得られた複素スペクトログラムを用いて、DNNの入力特徴量として用いるための音響強度ベクトルを式(3)に従って抽出する。
【0029】
<角度マスク抽出部204>
角度マスク抽出部204は、ステップS203で得られた音響強度ベクトルを入力とし、雑音抑制および音源分離を行わない状態で式(6)によって方位角φaveを導出する。角度マスク抽出部204は、導出された方位角φaveより大きい方位角を持つ時間周波数ビンを選び出す時間周波数マスクを角度マスクMangle
f,tとして抽出する(S204)。入力音に含まれる主要な音源が2つの場合、これは粗い音源分離マスクとなっている。本実施例ではこの角度マスクをDNN(MaskNet)の入力特徴量および、コスト関数の正則化項の導出に用いた。
【0030】
<ベクトル推定部301>
ベクトル推定部301は、音響データの複素スペクトログラムから抽出された実数スペクトログラムと、複素スペクトログラムから抽出された音響強度ベクトルを入力とし、式(8)におけるIε
f,t項の推定、すなわち音響強度ベクトルの残響成分の推定を、DNNモデル(VevtorNet)によって行い、推定された音響強度ベクトルの残響成分を出力する(S301)。本実施例では多層CNNと長・短期記憶回帰型ニューラルネットワーク(LSTM)を組み合わせたDNNモデルを用いた。
【0031】
<ベクトル差引処理部302>
ベクトル差引処理部302は、ステップS301で推定されたI^ε
f,tを、ステップS203で得られた音響強度ベクトルから差し引いて、残響成分が差し引かれた音響強度ベクトルを得る(S302)。
【0032】
<時間周波数マスク推定部303>
時間周波数マスク推定部303は、実数スペクトログラムと残響成分が差し引かれた音響強度ベクトルと、角度マスクを入力とし、雑音抑制および音源分離のための時間周波数マスクMn
f,t,Ms1
f,tの推定を、DNNモデル(MaskNet)によって行い、当該時間周波数マスクを出力する(S303)。本実施例では、ベクトル推定部301と出力部以外は同様の構造を持つDNNモデルを用いた。
【0033】
<時間周波数マスク乗算処理部304>
時間周波数マスク乗算処理部304は、ステップS303で得られた時間周波数マスクMn
f,t,Ms1
f,tを、ステップS302で得られた残響差し引き済みの音響強度ベクトルに掛ける(S304)。ただし、ある時刻の音源数が1の場合はMs1
f,t=1とする。この音源数の情報は、学習時にはラベルデータ記憶部102に記憶済みのラベルデータから、推論時(後述する到来方向推定装置2の場合)には後述の音源数出力部402から得る。
【0034】
<第1音源到来方向導出部305>
第1音源到来方向導出部305は、ステップS304で得られた残響成分を差し引き済みの音響強度ベクトルに時間周波数マスクを適用してなる音響強度ベクトルを用いて、式(6)によって音源到来方向(DOA)を導出する(S305)。
【0035】
<音源数推定部306>
音源数推定部306は、有音源区間の推定を、DNNモデル(NoasNet)によって行う(S306)。本実施例では、時間周波数マスク推定部303のBi-LSTM層以下を分岐させてNoasNetとした。
【0036】
<角度マスク乗算処理部307>
角度マスク乗算処理部307は、ステップS204で得られた角度マスクMangle
f,tを、ステップS302で得られた残響成分を差し引き済みの音響強度ベクトルに掛ける(S307)。ただし、ある時刻の音源数が1の場合はMangle
f,t=1とする。この音源数の情報は、ラベルデータ記憶部102に記憶済みのラベルデータから得る。
【0037】
<第2音源到来方向導出部308>
第2音源到来方向導出部308は、残響成分を差し引き済みの音響強度ベクトルに角度マスクを適用してなる音響強度ベクトルを用いて、式(6)によって音源到来方向(DOA)を導出する(S308)。
【0038】
<音源到来方向ポスト処理部309>
音源到来方向ポスト処理部309は、ステップS305のDOA出力に対して式(10)に示すポスト処理を行なう(S309)。
【0039】
DOAdis=round(DOA/10°)*10°…(10)
<第1音源到来方向出力部401>
第1音源到来方向出力部401は、ステップS305で導出された音源到来方向であり、方位角φと仰角θの対の時系列データを出力する(S401)。
【0040】
<音源数出力部402>
音源数出力部402は、ステップS306で推定された有音源区間判定の結果を出力する(S402)。有音源区間判定の結果は、音源数の三つの状態0,1,2に対応する3次元のOne-Hotベクトルの形で表され、最も大きい値を持つ状態をその時刻の音源数で表される。
【0041】
<第2音源到来方向出力部403>
第2音源到来方向出力部403は、ステップS308で導出された音源到来方向であり、方位角φと仰角θの対の時系列データを出力する(S403)。ただし、ステップS401とは異なり、ステップS303の出力を使用せずに求められた音源到来方向(DOA)である。この出力は後述のステップS501において正則化項の導出に用いられる。
【0042】
<コスト関数計算部501>
コスト関数計算部501は、ステップS401,S403で出力された音源到来方向と、ステップS402で出力された有音源区間の推定結果と、ラベルデータ記憶部102に記憶されたラベルに基づいてDNNモデルのコスト関数を計算し、計算結果が小さくなる方向にDNNモデルのパラメータを更新する(S501)。本実施例では次のコスト関数を用いた。
【0043】
L=LDOA+λ1LNOAS+λ2LDOA’,…(11)
ここでLDOA,LNOAS,LDOA’はそれぞれ、DOA推定、Noas推定、および正則化項であり、λ1,λ2は正定数である。LDOAは、真のDOAとステップS401の出力として得られた推定DOAの間のMean Absolute Error (MAE)であり、LNOASは真のNoasとステップS402の出力として得られた推定Noasの間のBinary Cross Entropy(BCE)である。LDOA’は、ステップS401の出力の代わりにステップS403の出力を用いてLDOAと同様に計算される。
【0044】
≪ステップS501の停止条件≫
図2のフローチャートでは、停止条件を示していないが、本実施例では120000回DNNパラメータが更新された時に学習を停止するものとした。
【0045】
[到来方向推定装置2]
以下、
図3を参照して、上述のモデル学習装置1によって学習されたモデルを使用する到来方向推定装置2の機能構成を説明する。同図に示すように本実施例の到来方向推定装置2は、入力データ記憶部101と、短時間フーリエ変換部201と、スペクトログラム抽出部202と、音響強度ベクトル抽出部203と、角度マスク抽出部204と、ベクトル推定部301と、ベクトル差引処理部302と、時間周波数マスク推定部303と、時間周波数マスク乗算処理部304と、音源到来方向導出部305と、音源数推定部306と、音源到来方向ポスト処理部309と、音源到来方向出力部401と、音源数出力部402を含む。なお、音源到来方向導出部305、音源到来方向出力部401は、モデル学習装置1における第1音源到来方向導出部305、第1音源到来方向出力部401と同じ機能を有するが、この装置には、「第2~部」に該当する機能構成がないため、機能の名称から「第1」を割愛した。
【0046】
本実施例の到来方向推定装置2は、モデル学習装置1の機能構成からコスト関数の計算にのみ用いる機能構成、および学習に用いるラベルを記憶したラベルデータ記憶部102を割愛して構成されている。モデル学習装置1と共通する機能構成における動作は基本的に同じである。従って、到来方向推定装置2は、上述のステップS201,S202,S203,S204,S301,S302,S303,S306,S402,S304,S305,S309,S401を実行する(
図4)。なお、ステップS304の実行に必要な音源数の情報は、音源数出力部402から得る。
【0047】
<実験結果>
図5に、到来方向推定装置2を使って時系列DOA推定を行った実験結果を示す。同図のグラフは、各比較手法におけるイベント開始時刻付近における精度劣化の傾向を示している。(B)と(C)の比較からは、DNNに基づくデータ駆動型の従来手法(非特許文献1)において、(B)オフライン推定を(C)オンライン推定に拡張したときの精度劣化が確認できる。特にイベント開始時刻から1秒程度までの間で70%以上の精度劣化が見られる。一方、(D)と(E)の比較からは、DNNと物理のハイブリッド型のDOA推定手法において(D)オフライン推定を(E)オンライン推定に拡張したときに、精度劣化が抑えられていることが確認できる。イベント開始時刻付近では、わずかに性能劣化するがこれは(D),(E)に共通な傾向である。
【0048】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0049】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0050】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0051】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0052】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0053】
上述の各種の処理は、
図6に示すコンピュータ10000の記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。
【0054】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electrically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0055】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0056】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0057】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。