特許7563566 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7563566モデル学習装置、到来方向推定装置、モデル学習方法、到来方向推定方法、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-30

(45)【発行日】2024-10-08

(54)【発明の名称】モデル学習装置、到来方向推定装置、モデル学習方法、到来方向推定方法、プログラム

(51)【国際特許分類】

G10L 25/51 20130101AFI20241001BHJP

G10L 25/30 20130101ALI20241001BHJP

【ＦＩ】

G10L25/51 400

G10L25/30

【請求項の数】 6

(21)【出願番号】P 2023500171

(86)(22)【出願日】2021-02-17

(86)【国際出願番号】 JP2021005849

(87)【国際公開番号】W WO2022176045

(87)【国際公開日】2022-08-25

【審査請求日】2023-07-26

【新規性喪失の例外の表示】特許法第３０条第２項適用（１）ウェブサイトの掲載日２０２０年４月９日ウェブサイトのアドレスｈｔｔｐｓ：／／ｃｍｓｗｏｒｋｓｈｏｐｓ．ｃｏｍ／ＩＣＡＳＳＰ２０２０／Ｐａｐｅｒｓ／ＶｉｅｗＰａｐｅｒ．ａｓｐ？ＰａｐｅｒＮｕｍ＝４９７２ｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｄｏｃｕｍｅｎｔ／９０５４４６２ｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｓｔａｍｐ／ｓｔａｍｐ．ｊｓｐ？ｔｐ＝＆ａｒｎｕｍｂｅｒ＝９０５４４６２

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】100121706

【弁理士】

【氏名又は名称】中尾直樹

(74)【代理人】

【識別番号】100128705

【弁理士】

【氏名又は名称】中村幸雄

(74)【代理人】

【識別番号】100147773

【弁理士】

【氏名又は名称】義村宗洋

(72)【発明者】

【氏名】安田昌弘

【審査官】浜岸広明

(56)【参考文献】

【文献】国際公開第２０２０／２５５３１８（ＷＯ，Ａ１）

【文献】国際公開第２０２０／２１７７８１（ＷＯ，Ａ１）

【文献】安田昌弘 Masahiro Yasuda，深層学習に基づく時間周波数マスクと音響強度ベクトルを利用した音響イベント定位 Sound event localization based on sound intensity vector with DNN-based denoising，日本音響学会２０２０年春季研究発表会講演論文集ＣＤ－ＲＯＭ［ＣＤ－ＲＯＭ］，2020年03月18日，p.195-198

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－１３／１０

Ｇ１０Ｌ１９／００－９９／００

(57)【特許請求の範囲】

【請求項1】

音源到来方向が既知であって時刻毎の前記音源到来方向を示すラベルを有する音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するベクトル推定部と、
前記音響強度ベクトルを入力とし、雑音抑制及び音源分離を行わない状態で導出された方位角よりも大きい方位角をもつ時間周波数ビンを選び出す第１の時間周波数マスクを抽出する角度マスク抽出部と、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルと、前記第１の時間周波数マスクを入力とし、雑音抑制および音源分離のための第２の時間周波数マスクを出力する時間周波数マスク推定部と、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記第２の時間周波数マスクを適用してなる音響強度ベクトルに基づいて第１の音源到来方向を導出する第１音源到来方向導出部と、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記第１の時間周波数マスクを適用してなる音響強度ベクトルに基づいて第２の音源到来方向を導出する第２音源到来方向導出部と、
前記導出された第１と第２の音源到来方向と、前記ラベルに基づいてモデルのコスト関数を計算し、前記モデルのパラメータを更新するコスト関数計算部を含む
モデル学習装置。

【請求項2】

音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するベクトル推定部と、
前記音響強度ベクトルを入力とし、雑音抑制及び音源分離を行わない状態で導出された方位角よりも大きい方位角をもつ時間周波数ビンを選び出す第１の時間周波数マスクを抽出する角度マスク抽出部と、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルと、前記第１の時間周波数マスクを入力とし、雑音抑制および音源分離のための第２の時間周波数マスクを出力する時間周波数マスク推定部と、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記第２の時間周波数マスクを適用してなる音響強度ベクトルに基づいて第１の音源到来方向を導出する音源到来方向導出部を含む
到来方向推定装置。

【請求項3】

音源到来方向が既知であって時刻毎の前記音源到来方向を示すラベルを有する音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するステップと、
前記音響強度ベクトルを入力とし、雑音抑制及び音源分離を行わない状態で導出された方位角よりも大きい方位角をもつ時間周波数ビンを選び出す第１の時間周波数マスクを抽出するステップと、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルと、前記第１の時間周波数マスクを入力とし、雑音抑制および音源分離のための第２の時間周波数マスクを出力するステップと、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記第２の時間周波数マスクを適用してなる音響強度ベクトルに基づいて第１の音源到来方向を導出するステップと、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記第１の時間周波数マスクを適用してなる音響強度ベクトルに基づいて第２の音源到来方向を導出するステップと、
前記導出された第１と第２の音源到来方向と、前記ラベルに基づいてモデルのコスト関数を計算し、前記モデルのパラメータを更新するステップを含む
モデル学習方法。

【請求項4】

音響データの複素スペクトログラムから抽出された実数スペクトログラムと、前記複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された前記音響強度ベクトルの残響成分を出力するステップと、
前記音響強度ベクトルを入力とし、雑音抑制及び音源分離を行わない状態で導出された方位角よりも大きい方位角をもつ時間周波数ビンを選び出す第１の時間周波数マスクを抽出するステップと、
前記実数スペクトログラムと、前記残響成分が差し引かれた前記音響強度ベクトルと、前記第１の時間周波数マスクを入力とし、雑音抑制および音源分離のための第２の時間周波数マスクを出力するステップと、
前記残響成分を差し引き済みの前記音響強度ベクトルに前記第２の時間周波数マスクを適用してなる音響強度ベクトルに基づいて第１の音源到来方向を導出するステップを含む
到来方向推定方法。

【請求項5】

コンピュータを請求項１に記載のモデル学習装置として機能させるプログラム。

【請求項6】

コンピュータを請求項２に記載の到来方向推定装置として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音源到来方向（ＤＯＡ）推定に関し、モデル学習装置、到来方向推定装置、モデル学習方法、到来方向推定方法、プログラムに関する。

【背景技術】

【0002】

Sound Event Localization and Detection (SELD)は、マイクロホンアレイによって取得された音響信号から、いつ・どこで・どのような音響イベントが起きたのかを特定するタスクである（非特許文献１）。SELDは、AI(人工知能)が周囲の環境を理解するための基盤となる技術であり、自動運転車やドローンを用いた警備などへの応用が検討されている（非特許文献２，３，４）。

【0003】

音源到来方向(DOA)推定はSELDタスクの中で、音源のマイクに対する各時刻での相対位置を特定するために用いられる。近年のほとんどのDOA推定手法では、観測から方位角と仰角を直接推定するための回帰関数としてディープニューラルネットワーク(DNN)を使用する、データ駆動型アプローチが採用されている（非特許文献５，６，７，８）。このアプローチは、DNNの高い表現力により高精度を達成したが、重複音のDOA推定は完全にデータ駆動型のアプローチにとって依然として困難である（非特許文献５，６）。一方、物理ベースのアプローチのDOA推定精度は、単一音源に対してはDNNベースの手法よりも劣るものの、重複音に対する頑強性を持つという利点がある（非特許文献９）。

【0004】

これまでに物理ベースのDOA推定手法として、MUSIC法や音響強度ベクトル(IV)に基づく手法など、様々な手法が提案されている（非特許文献１０，１１，１２）。MUSIC法（非特許文献１１）は多重音に対する正確なDOA推定が可能であり、IVに基づく手法（非特許文献１１，１２）は良い時間角度分解能を持っている。これらの性質はSELDタスクに用いるDOA手法において重要な利点である。しかし、これらのDOA推定手法は定常雑音等による信号雑音比(SNR)の低下に伴い、精度低下することが知られている（非特許文献５）。

【0005】

＜音響強度ベクトルに基づくDOA推定＞
Ahonenらは、一次アンビソニックスBフォーマットから計算されたIVを用いたDOA推定法を提案した（非特許文献１１）。一次アンビソニックスＢフォーマットは４チャネルの信号で構成され、その短時間フーリエ変換（STFT）の出力W_f,t,X_f,t,Y_f,t,Z_f,tは、０次および１次の球面調和関数に対応する。ここで、f∈{1,...,F}とt∈{1,...,T}は、それぞれT-Fドメインの周波数と時間のインデックスである。0次のW_f,tは無指向性音源に対応し、1次のX_f,t,Y_f,tおよびZ_f,tは、それぞれ各軸に沿った双極子に対応する。

【0006】

W_f,t,X_f,t,Y_f,tおよびZ_f,tの空間応答（ステアリングベクトル）はそれぞれ次のように定義される。

【数1】

ここで、φとθは、それぞれ方位角と仰角を表す。IVは、音響粒子速度v=[v_x,v_y,v_z]^Tおよび音圧p_f,tによって決まるベクトルであり、T-F空間においては次のように表される。

【数2】

ここで、R(・)は複素数の実部を表し、*は複素共役を表す。実際には、空間上の全ての点において音響粒子速度と音圧の測定を行うことは不可能なため、式(2)をそのまま適用してIVを求めることは難しい。そこで、一次アンビソニックスＢフォーマットから得られた４チャネルのスペクトログラムを用いて、式(2)を次のように近似する（非特許文献１３）。

【数3】

DOA推定に対して有効な時間周波数領域を選び出すため、AhonenらはIVに対して次のような時間周波数マスクM_t,fを適用した。

【数4】

このマスクは、信号強度であり大きな強度をもつ時間周波数ビンを選び出すものとなっている。したがって、目的信号が環境雑音よりも十分に大きな強度を持っていると仮定すれば、この時間周波数マスクはDOA推定に対して有効な時間周波数領域を選びだすものとなる。さらに、彼らは300-3400Hzの領域内の各バーク尺度ごとにIVの時系列を次のように計算している。

【数5】

ここで、f_l,f_hは各バーク尺度の上限と下限を表す。最後に各時間フレームtにおける目的音源の方位角および仰角は、次のように計算される。

【数6】

＜DNNに基づくDOA推定＞
DNNに基づくDOA推定の多くは、方位角と仰角を直接推定するための回帰関数としてDNNを使用している。DCASE Challenge 2019 Task3（非特許文献１４）の多くの参加者は、DOA推定に完全にデータ駆動型のアプローチを使用し、良好な精度を達成した（非特許文献６，７，８）。これらの方法において、DNNの構造は多層CNNと双方向ゲートリカレントユニット（Bi-GRU）の組み合わせであり、高次の特徴の抽出と時間構造のモデリングを可能にしている。また、DNNモデルは真のDOAラベルと推定DOAラベルの間のMean Absolute Error (MAE)誤差などの損失関数を最小化するように学習される。ただし、このようなデータ駆動型DNNベースの方法では、重複音のDOA推定は困難であり、単一音源の場合よりも精度がはるかに低いことが報告されている（非特許文献５，６）。

【先行技術文献】

【非特許文献】

【0007】

【文献】S. Adavanne, A. Politis, J. Nikunen, and T. Virtanen, “Sound event localization and detection of overlapping sources using convolutional recurrent neural networks,” IEEE Journal of selected topics in signal processing, vol. 13.

【文献】Y. Xu, Q. Kong, W. Wang, and M. D. Plumbley, “Surrey-cvssp system for dcase 2017 challenge task4,”inTech. report of Detection and Classification of Acoustic Scenes and Events 2017(DCASE) Challange, 2017.

【文献】D. Lee, S. Lee, Y. Han, and K. Lee, “Ensemble of convolutional neural networks for weakly-supervised sound event detection using multiple scale input,”inTech. report of Detection and Classification of Acoustic Scenes and Events 2017 (DCASE) Challange, 2017.

【文献】X. Chang, C. Yang, X. Shi, P. Li, Z. Shi, and J. Chen, “Feature extracted doa estimation algorithm using acoustic array for drone surveillance,” in Proc. of IEEE 87th Vehicular Tech-nology Conference, 2018.

【文献】S. Adavanne, A. Politis, and T. Virtanen, “Direction of arrival estimation for multiple sound sources using convolutional recurrent neural network,” in Proc. of IEEE 26th European Signal Processing Conference, 2018.

【文献】S. Kapka and M. Lewandowski, “Sound source detection, localization and classification using consecutive ensemble of crnn models,”inTech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange,2019.

【文献】Y. Cao, T. Iqbal, Q. Kong, M. B. Galindo, W. Wang, and M. D.Plumbley, “Twostage sound event localization and detection using intensity vector and generalized crosscorrelation,” in Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.

【文献】K. Noh, J. Choi, D. Jeon, and J. Chang,“Three-stage approach for sound event localization and detection,” in Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.

【文献】T. N. T. Nguyen, D. L. Jones, R. Ranjan, S. Jayabalan, and W. S. Gan, “Dcase 2019 task 3: A two-step system for sound event localization and detection,” in Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.

【文献】R. O. Schmidt, “Multiple emitter location and signal parameter estimation,”IEEE Transactions On Antennas and propagation, vol. 34, pp. 276-280, 1986.

【文献】J. Ahonen, V. Pulkki, and T. Lokki, “Teleconference application and b-format microphone array for directional audiocoding,”in Proc. of AES 30th International Conference: Intelligent Audio Environments, 2007.

【文献】S. Kitic and A. Guerin, “Tramp: Tracking by a real-time ambisonic-based particle filter,” in Proc. of LOCATA Challenge Workshop, a satellite event of IWAENC, 2018.

【文献】D. P. Jarrett, E. S. P. Habets, and P. A. Naylor, “3d source localization in the spherical harmonic domain using a pseudo intensity vector,”in Proc. of European Signal Processing Conference, 2010.

【文献】"DCASE2019 Workshop Workshop on Detection and Classification of Acoustic Scenes and Events," [online], 25-26 October 2019, ［令和３年２月８日検索］、インターネット<URL:http://dcase.community/workshop2019/>

【文献】O.Yilmaz and S.Rickard, “Blind separation of speech mixtures via time-frequency masking,” IEEE Trans. Signal Process., vol. 52, pp. 1830-1847, July. 2004.

【発明の概要】

【発明が解決しようとする課題】

【0008】

上述のDOA推定をオフライン動作で行う場合、収録が終了してから推定を行うため、ある時刻の推定を行うためにそれ以降の未来の情報を使って推定を行うことも可能である。実際、深層学習に基づく音響イベント定位手法の多くでは、推定精度向上のため双方向リカレントニューラルネットワークと呼ばれる未来の情報を陽に用いたモデル構造を採用している。

【0009】

実用的な利用を見据えたオンライン動作化のためには、このような未来の情報を用いた推定を行うことはできない。未来の情報を利用できない状況では、情報の不足のために音響イベントの開始時刻付近において推定精度が劣化することが考えられる。また、過去の情報については原理上は際限なく利用可能であるが、実用的には、計算量を抑えるためなるべく短時間の入力情報のみで推定が行えることが好ましい。

【0010】

そこで本発明では、音源到来方向(DOA)推定をオンライン動作で行うことができるモデル学習装置を提供することを目的とする。

【課題を解決するための手段】

【0011】

本発明のモデル学習装置は、ベクトル推定部と、角度マスク抽出部と、時間周波数マスク推定部と、第１音源到来方向導出部と、第２音源到来方向導出部と、コスト関数計算部を含む。

【0012】

ベクトル推定部は、音源到来方向が既知であって時刻毎の音源到来方向を示すラベルを有する音響データの複素スペクトログラムから抽出された実数スペクトログラムと、複素スペクトログラムから抽出された音響強度ベクトルを入力とし、推定された音響強度ベクトルの残響成分を出力する。角度マスク抽出部は、音響強度ベクトルを入力とし、雑音抑制及び音源分離を行わない状態で導出された方位角よりも大きい方位角をもつ時間周波数ビンを選び出す時間周波数マスクを角度マスクとして抽出する。時間周波数マスク推定部は、実数スペクトログラムと、残響成分が差し引かれた音響強度ベクトルと、角度マスクを入力とし、雑音抑制および音源分離のための時間周波数マスクを出力する。第１音源到来方向導出部は、残響成分を差し引き済みの音響強度ベクトルに時間周波数マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する。第２音源到来方向導出部は、残響成分を差し引き済みの音響強度ベクトルに角度マスクを適用してなる音響強度ベクトルに基づいて音源到来方向を導出する。コスト関数計算部は、導出された音源到来方向と、ラベルに基づいてモデルのコスト関数を計算し、モデルのパラメータを更新する。

【発明の効果】

【0013】

本発明のモデル学習装置によれば、音源到来方向(DOA)推定をオンライン動作で行うことができる。

【図面の簡単な説明】

【0014】

【図1】実施例１のモデル学習装置の機能構成を示すブロック図。

【図2】実施例１のモデル学習装置の動作を示すフローチャート。

【図3】実施例１の到来方向推定装置の機能構成を示すブロック図。

【図4】実施例１の到来方向推定装置の動作を示すフローチャート。

【図5】実施例１の到来方向推定装置を使って時系列DOA推定を行った結果を示す図。

【図6】コンピュータの機能構成例を示す図。

【発明を実施するための形態】

【0015】

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

【実施例1】

【0016】

以下の実施例のモデル学習装置、到来方向推定装置は、DOA推定をオンライン動作可能な形に拡張したことを特徴とする。深層学習に基づくDOA推定の従来手法は、収録済みの音響信号に対して推論を実施するオフライン動作を前提としている。オフライン動作を前提にした場合、推論時刻よりも未来に得られる音響信号を用いてDOA推定を行うことが可能であり、実際多くのDNNに基づくDOA推定の多くでは、未来の情報を用いるモデル構造である双方向リカレントニューラルネットワーク(Bi-RNN)を時間構造のモデリングに利用している（非特許文献５，６，７，８）。

【0017】

従って、システムのオンライン動作化には、このBi-RNNを未来の情報を用いない単方向リカレントニューラルネットワーク(RNN)に置き換える必要がある。しかし、DNNに基づくDOA推定で一般に採用されている、データ駆動型アプローチにおいてこの置き換えを行うと、イベントの開始時刻付近において推定精度が大幅に劣化する。一方、物理に基づくDOA推定は主にオンライン動作を前提に検討されている。特に、IVに基づくDOA推定は良い時間角度分解能を持っており、非常に短い時間の入力から良い精度でDOAを推定できる点でオンライン化に適した手法と言える。

【0018】

そこで、オンライン動作化に頑健なIVに基づくDOA推定とDNNに基づく推定のハイブリッド方式をベースにオンライン拡張を行うことで、Bi-RNNをRNNに置き換えることによる精度低下を抑えられるのではないかとの仮説を立て、この仮説を検証した。実際、実施例では物理とDNNのハイブリッド方式のDOA推定方式において、Bi-RNNをRNNで置き換えたモデルでは、オンライン化による精度低下がわずか1度に抑えられることが確認された。

【0019】

以下、IVに基づくDOA推定を、DNNを用いた雑音抑制および音源分離を用いて精度改善するDOA推定手法を説明する。

【0020】

一般に、N個の音源が存在するときの時間領域の入力信号xは次のように表すことができる。

【数7】

ここで、s_iは音源i∈[1,...,N]の直接音、nは目的音源に無相関な雑音、εは目的音源に起因するその他の項(残響等)である。時間周波数領域においてもこれらの要素の和として目的信号は表せるので、この表現を式(3)に適用することにより、IVを次のように表すことができる。

【数8】

式(8)から分かるように、観測信号から得られるIVはある一つの音源iだけではなく、その他全ての成分を含んでいるため、ここから導出されるIVの時系列はこれらの項の影響を受ける。これが、IVに基づく従来法の欠点であるSNRの低下に弱い性質の要因の一つである。従来法の欠点を克服するため、時間周波数マスクの乗算とベクトル減算による雑音抑制および音源分離を行うことで、Ｎ個の重複音の中から音源s_iの音響強度ベクトルI^siを取り出すことを考える。式(8)の各要素が時間周波数空間上で十分に疎であり、重なりが少ないと考えれば、これらは時間周波数マスクによって分離できることが知られている（非特許文献１５）。実際にはこれは強い仮定であり、雑音項nは時間周波数空間で十分に疎であると仮定することはできない。そこで本実施例では音源s_iを分離する時間周波数マスクM^si _f,tと、雑音項nを分離する時間周波数マスクMⁿ _f,tの組み合わせであるM^si _f,t(1-Mⁿ _f,t)を用いた。この処理は雑音抑制と音源分離の二つの処理の組み合わせと考えることができる。また、εの項が残響である場合には、目的信号と時間周波数上での重なりが大きく時間周波数マスクでは除去できない。そこで、本実施例では、I^ε _f,tを直接推定しベクトルとして元の音響強度ベクトルから差し引いた。これらの操作は次のように表すことができる。

【数9】

なお本発明の実施例においては同時刻に存在する目的音の重複数が2以下の場合を扱うため、M^s2 _f,tの代わりに1-M^s1 _f,tを用いることができる。そこで我々は、時間周波数マスクMⁿ _f,t,M^s1 _f,tおよび、ベクトルI^^ε _f,tを2つのDNNを用いて推定する。

【0021】

本実施例において、雑音・多重音に頑健なDOA推定のためのIVの補正は式(9)で表される。ただし、時間周波数マスクMⁿ _f,t,M^s1 _f,tおよび、ベクトルI^^ε _f,tを推定するためのDNNに用いられているBi-RNNの一種であるBi-LSTMではなく、未来の情報を使用しないLSTMに置き換える。RNNの前段には通常、高次特徴量抽出のために畳み込みニューラルネットワークが用いられるが、この部分については未来の情報を利用する構造ではないためそのまま利用できる。

【0022】

また、仮にBi-RNNによる未来の情報の利用を活用するため、推論を実行する音源ファイル全体を一度に入力して推論を実行することとすれば、オンライン動作化においては推論時刻までに得られている音響信号のうち推論に必要な時間フレーム数を任意に設定して推論に用いることになる。そこで、LSTMの持つ長期の時系列依存性を内部状態として記憶できる性質に着目し、一度に入力する時間フレームを瞬時的な特徴量の抽出に必要な最短のフレーム数にまで削減することで、一度の推論あたりにかかる計算量を低減する工夫をした。

【0023】

［モデル学習装置１］
以下、図１を参照して本実施例のモデル学習装置１の機能構成を説明する。図１に示すように本実施例のモデル学習装置１は、入力データ記憶部１０１と、ラベルデータ記憶部１０２と、短時間フーリエ変換部２０１と、スペクトログラム抽出部２０２と、音響強度ベクトル抽出部２０３と、角度マスク抽出部２０４と、ベクトル推定部３０１と、ベクトル差引処理部３０２と、時間周波数マスク推定部３０３と、時間周波数マスク乗算処理部３０４と、第１音源到来方向導出部３０５と、音源数推定部３０６と、角度マスク乗算処理部３０７と、第２音源到来方向導出部３０８と、音源到来方向ポスト処理部３０９と、第１音源到来方向出力部４０１と、音源数出力部４０２と、第２音源到来方向出力部４０３と、コスト関数計算部５０１を含む。以下、各構成要件の動作について説明する。

【0024】

＜入力データ記憶部１０１＞
入力データ記憶部１０１は、入力データとして、学習に用いる一次アンビソニックスＢフォーマットの４チャネル音声データ（以下、音響データとも呼称する）を予め記憶している。本実施例においては、同時刻に存在する目的音の重複数が２以下のデータを用いた。

【0025】

＜ラベルデータ記憶部１０２＞
ラベルデータ記憶部１０２は、入力データ記憶部１０１に記憶された音響データに対応する各音響イベントの到来方向および時刻のラベルデータを予め記憶している。すなわち、学習時には音源到来方向は既知であって、時刻毎に音源到来方向を示すラベルがラベルデータ記憶部１０２に記憶されているものとする。

【0026】

＜短時間フーリエ変換部２０１＞
短時間フーリエ変換部２０１は、入力データ記憶部１０１に記憶された音響データを取得してSTFTを実行し、音響データの複素スペクトログラムを得る（Ｓ２０１）。

【0027】

＜スペクトログラム抽出部２０２＞
スペクトログラム抽出部２０２は、ステップＳ２０１で得られた複素スペクトログラムを用いて、DNNの入力特徴量として用いるための実数スペクトログラムを抽出する（Ｓ２０２）。本実施例では、対数メルスペクトログラムを用いた。

【0028】

＜音響強度ベクトル抽出部２０３＞
ステップＳ２０１で得られた複素スペクトログラムを用いて、DNNの入力特徴量として用いるための音響強度ベクトルを式(3)に従って抽出する。

【0029】

＜角度マスク抽出部２０４＞
角度マスク抽出部２０４は、ステップＳ２０３で得られた音響強度ベクトルを入力とし、雑音抑制および音源分離を行わない状態で式(6)によって方位角φ^aveを導出する。角度マスク抽出部２０４は、導出された方位角φ^aveより大きい方位角を持つ時間周波数ビンを選び出す時間周波数マスクを角度マスクM^angle _f,tとして抽出する（Ｓ２０４）。入力音に含まれる主要な音源が２つの場合、これは粗い音源分離マスクとなっている。本実施例ではこの角度マスクをDNN(MaskNet)の入力特徴量および、コスト関数の正則化項の導出に用いた。

【0030】

＜ベクトル推定部３０１＞
ベクトル推定部３０１は、音響データの複素スペクトログラムから抽出された実数スペクトログラムと、複素スペクトログラムから抽出された音響強度ベクトルを入力とし、式(8)におけるI^ε _f,t項の推定、すなわち音響強度ベクトルの残響成分の推定を、DNNモデル(VevtorNet)によって行い、推定された音響強度ベクトルの残響成分を出力する（Ｓ３０１）。本実施例では多層CNNと長・短期記憶回帰型ニューラルネットワーク(LSTM)を組み合わせたDNNモデルを用いた。

【0031】

＜ベクトル差引処理部３０２＞
ベクトル差引処理部３０２は、ステップＳ３０１で推定されたI^^ε _f,tを、ステップＳ２０３で得られた音響強度ベクトルから差し引いて、残響成分が差し引かれた音響強度ベクトルを得る（Ｓ３０２）。

【0032】

＜時間周波数マスク推定部３０３＞
時間周波数マスク推定部３０３は、実数スペクトログラムと残響成分が差し引かれた音響強度ベクトルと、角度マスクを入力とし、雑音抑制および音源分離のための時間周波数マスクMⁿ _f,t,M^s1 _f,tの推定を、DNNモデル(MaskNet)によって行い、当該時間周波数マスクを出力する（Ｓ３０３）。本実施例では、ベクトル推定部３０１と出力部以外は同様の構造を持つDNNモデルを用いた。

【0033】

＜時間周波数マスク乗算処理部３０４＞
時間周波数マスク乗算処理部３０４は、ステップＳ３０３で得られた時間周波数マスクMⁿ _f,t,M^s1 _f,tを、ステップＳ３０２で得られた残響差し引き済みの音響強度ベクトルに掛ける（Ｓ３０４）。ただし、ある時刻の音源数が1の場合はM^s1 _f,t=1とする。この音源数の情報は、学習時にはラベルデータ記憶部１０２に記憶済みのラベルデータから、推論時（後述する到来方向推定装置２の場合）には後述の音源数出力部４０２から得る。

【0034】

＜第１音源到来方向導出部３０５＞
第１音源到来方向導出部３０５は、ステップＳ３０４で得られた残響成分を差し引き済みの音響強度ベクトルに時間周波数マスクを適用してなる音響強度ベクトルを用いて、式(6)によって音源到来方向（DOA）を導出する（Ｓ３０５）。

【0035】

＜音源数推定部３０６＞
音源数推定部３０６は、有音源区間の推定を、DNNモデル(NoasNet)によって行う（Ｓ３０６）。本実施例では、時間周波数マスク推定部３０３のBi-LSTM層以下を分岐させてNoasNetとした。

【0036】

＜角度マスク乗算処理部３０７＞
角度マスク乗算処理部３０７は、ステップＳ２０４で得られた角度マスクM^angle _f,tを、ステップＳ３０２で得られた残響成分を差し引き済みの音響強度ベクトルに掛ける（Ｓ３０７）。ただし、ある時刻の音源数が1の場合はM^angle _f,t=1とする。この音源数の情報は、ラベルデータ記憶部１０２に記憶済みのラベルデータから得る。

【0037】

＜第２音源到来方向導出部３０８＞
第２音源到来方向導出部３０８は、残響成分を差し引き済みの音響強度ベクトルに角度マスクを適用してなる音響強度ベクトルを用いて、式(6)によって音源到来方向(DOA)を導出する（Ｓ３０８）。

【0038】

＜音源到来方向ポスト処理部３０９＞
音源到来方向ポスト処理部３０９は、ステップＳ３０５のDOA出力に対して式(10)に示すポスト処理を行なう（Ｓ３０９）。

【0039】

DOA_dis=round(DOA/10°)*10°…(10)
＜第１音源到来方向出力部４０１＞
第１音源到来方向出力部４０１は、ステップＳ３０５で導出された音源到来方向であり、方位角φと仰角θの対の時系列データを出力する（Ｓ４０１）。

【0040】

＜音源数出力部４０２＞
音源数出力部４０２は、ステップＳ３０６で推定された有音源区間判定の結果を出力する（Ｓ４０２）。有音源区間判定の結果は、音源数の三つの状態０，１，２に対応する３次元のOne-Hotベクトルの形で表され、最も大きい値を持つ状態をその時刻の音源数で表される。

【0041】

＜第２音源到来方向出力部４０３＞
第２音源到来方向出力部４０３は、ステップＳ３０８で導出された音源到来方向であり、方位角φと仰角θの対の時系列データを出力する（Ｓ４０３）。ただし、ステップＳ４０１とは異なり、ステップＳ３０３の出力を使用せずに求められた音源到来方向（DOA）である。この出力は後述のステップＳ５０１において正則化項の導出に用いられる。

【0042】

＜コスト関数計算部５０１＞
コスト関数計算部５０１は、ステップＳ４０１，Ｓ４０３で出力された音源到来方向と、ステップＳ４０２で出力された有音源区間の推定結果と、ラベルデータ記憶部１０２に記憶されたラベルに基づいてDNNモデルのコスト関数を計算し、計算結果が小さくなる方向にDNNモデルのパラメータを更新する（Ｓ５０１）。本実施例では次のコスト関数を用いた。

【0043】

L=L^DOA+λ₁L^NOAS+λ₂L^DOA’,…(11)
ここでL^DOA,L^NOAS,L^DOA’はそれぞれ、DOA推定、Noas推定、および正則化項であり、λ₁,λ₂は正定数である。L^DOAは、真のDOAとステップＳ４０１の出力として得られた推定DOAの間のMean Absolute Error (MAE)であり、L^NOASは真のNoasとステップＳ４０２の出力として得られた推定Noasの間のBinary Cross Entropy(BCE)である。L^DOA’は、ステップＳ４０１の出力の代わりにステップＳ４０３の出力を用いてL^DOAと同様に計算される。

【0044】

≪ステップＳ５０１の停止条件≫
図２のフローチャートでは、停止条件を示していないが、本実施例では120000回DNNパラメータが更新された時に学習を停止するものとした。

【0045】

［到来方向推定装置２］
以下、図３を参照して、上述のモデル学習装置１によって学習されたモデルを使用する到来方向推定装置２の機能構成を説明する。同図に示すように本実施例の到来方向推定装置２は、入力データ記憶部１０１と、短時間フーリエ変換部２０１と、スペクトログラム抽出部２０２と、音響強度ベクトル抽出部２０３と、角度マスク抽出部２０４と、ベクトル推定部３０１と、ベクトル差引処理部３０２と、時間周波数マスク推定部３０３と、時間周波数マスク乗算処理部３０４と、音源到来方向導出部３０５と、音源数推定部３０６と、音源到来方向ポスト処理部３０９と、音源到来方向出力部４０１と、音源数出力部４０２を含む。なお、音源到来方向導出部３０５、音源到来方向出力部４０１は、モデル学習装置１における第１音源到来方向導出部３０５、第１音源到来方向出力部４０１と同じ機能を有するが、この装置には、「第２～部」に該当する機能構成がないため、機能の名称から「第１」を割愛した。

【0046】

本実施例の到来方向推定装置２は、モデル学習装置１の機能構成からコスト関数の計算にのみ用いる機能構成、および学習に用いるラベルを記憶したラベルデータ記憶部１０２を割愛して構成されている。モデル学習装置１と共通する機能構成における動作は基本的に同じである。従って、到来方向推定装置２は、上述のステップＳ２０１，Ｓ２０２，Ｓ２０３，Ｓ２０４，Ｓ３０１，Ｓ３０２，Ｓ３０３，Ｓ３０６，Ｓ４０２，Ｓ３０４，Ｓ３０５，Ｓ３０９，Ｓ４０１を実行する（図４）。なお、ステップＳ３０４の実行に必要な音源数の情報は、音源数出力部４０２から得る。

【0047】

＜実験結果＞
図５に、到来方向推定装置２を使って時系列DOA推定を行った実験結果を示す。同図のグラフは、各比較手法におけるイベント開始時刻付近における精度劣化の傾向を示している。(B)と(C)の比較からは、DNNに基づくデータ駆動型の従来手法（非特許文献１）において、(B)オフライン推定を(C)オンライン推定に拡張したときの精度劣化が確認できる。特にイベント開始時刻から1秒程度までの間で70%以上の精度劣化が見られる。一方、(D)と(E)の比較からは、DNNと物理のハイブリッド型のDOA推定手法において(D)オフライン推定を(E)オンライン推定に拡張したときに、精度劣化が抑えられていることが確認できる。イベント開始時刻付近では、わずかに性能劣化するがこれは(D)，(E)に共通な傾向である。

【0048】

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

【0049】

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

【0050】

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

【0051】

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

【0052】

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

【0053】

上述の各種の処理は、図６に示すコンピュータ１００００の記録部１００２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部１００１０、入力部１００３０、出力部１００４０などに動作させることで実施できる。

【0054】

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electrically Erasable and Programmable-Read Only Memory）等を用いることができる。

【0055】

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

【0056】

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

【0057】

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版