IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人 東京大学の特許一覧

特許7450911音響解析装置、音響解析方法及び音響解析プログラム
<>
  • 特許-音響解析装置、音響解析方法及び音響解析プログラム 図1
  • 特許-音響解析装置、音響解析方法及び音響解析プログラム 図2
  • 特許-音響解析装置、音響解析方法及び音響解析プログラム 図3
  • 特許-音響解析装置、音響解析方法及び音響解析プログラム 図4
  • 特許-音響解析装置、音響解析方法及び音響解析プログラム 図5
  • 特許-音響解析装置、音響解析方法及び音響解析プログラム 図6
  • 特許-音響解析装置、音響解析方法及び音響解析プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-08
(45)【発行日】2024-03-18
(54)【発明の名称】音響解析装置、音響解析方法及び音響解析プログラム
(51)【国際特許分類】
   G10L 21/028 20130101AFI20240311BHJP
   G10L 21/0308 20130101ALI20240311BHJP
【FI】
G10L21/028 B
G10L21/0308 Z
【請求項の数】 8
(21)【出願番号】P 2019220584
(22)【出願日】2019-12-05
(65)【公開番号】P2021089388
(43)【公開日】2021-06-10
【審査請求日】2022-12-02
【新規性喪失の例外の表示】特許法第30条第2項適用 令和1年8月6日にプレプリントサーバに論文を発表
【新規性喪失の例外の表示】特許法第30条第2項適用 令和1年8月21日に日本音響学会2019年秋季研究発表会講演論文集に論文を発表
【新規性喪失の例外の表示】特許法第30条第2項適用 令和1年9月4日に日本音響学会2019年秋季研究発表会にて発表
【新規性喪失の例外の表示】特許法第30条第2項適用 令和1年11月19日にAsia-Pacific Signal and Information Processing Association Annual Summit and Conference 2019にて発表
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】猿渡 洋
(72)【発明者】
【氏名】久保 優騎
(72)【発明者】
【氏名】▲高▼宗 典玄
(72)【発明者】
【氏名】北村 大地
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2018-36332(JP,A)
【文献】特開2015-135437(JP,A)
【文献】特開2017-151226(JP,A)
【文献】特開2017-152825(JP,A)
【文献】久保優騎他,ランク制約付き空間共分散モデル推定法の逆行列展開による高速化,日本音響学会2019年秋季研究発表会講演論文集[CD-ROM],2019年09月,pp.287-290
【文献】北村大地他,独立低ランク行列分析に基づくブラインド音源分離,電子情報通信学会技術研究報告,2017年10月,Vol.117, No.255,pp.73-80
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00-25/93
(57)【特許請求の範囲】
【請求項1】
複数のマイクにより測定した音響信号を取得する取得部と、
前記音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する第1算出部と、
前記分離行列により定められ、周波数に関する空間相関行列、前記周波数に関する第1パラメータ並びに前記周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成する第1生成部と、
前記分離行列により定められ、前記周波数に関するステアリングベクトル並びに前記周波数及び前記時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する第2生成部と、
前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータの尤度を最大化するように決定する決定部と、を備え、
前記決定部は、前記周波数及び前記時間に関する行列の逆行列を、前記周波数に関する行列の逆行列に分解して、前記尤度を最大化するように、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを決定する、
音響解析装置。
【請求項2】
前記決定部は、前記周波数に関する行列の逆行列を、前記周波数に関する行列の疑似逆行列に分解して、前記尤度を最大化するように、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを決定する、
請求項1に記載の音響解析装置。
【請求項3】
前記周波数をiと表し、前記時間をjと表し、前記音響信号をxijと表し、前記分離行列をWiと表し、ランクM-1の前記空間相関行列をR′i (u)と表し、前記R′i (u)の直交補空間ベクトルをbiと表し、前記第1パラメータをλiと表し、前記第2パラメータをrij (u)と表すとき、
前記第1生成部は、以下の数式(1)により表される前記第1モデルによって、前記拡散性雑音の音響信号uijを生成する、
【数1】
請求項1又は2に記載の音響解析装置。
【請求項4】
前記周波数をiと表し、前記時間をjと表し、前記ステアリングベクトルをai (h)と表し、前記第3パラメータをrij (h)と表し、ハイパーパラメータα及びβで定められる逆ガンマ分布をIg(α,β)と表すとき、
前記第2生成部は、以下の数式(2)により表される前記第2モデルによって、前記目的音源から発せられた音響信号hijを生成する、
【数2】
請求項1から3のいずれか一項に記載の音響解析装置。
【請求項5】
前記決定部は、更新前の前記第1パラメータをチルダ付きのλiで表し、更新前の前記第2パラメータをチルダ付きのrij (u)で表し、更新前の前記第3パラメータをチルダ付きのrij (h)で表すとき、以下の数式(3)により、十分統計量rij (h)及びRij (u)を算出し、
【数3】
以下の数式(4)により、前記第1パラメータλi、前記第2パラメータrij (u)及び前記第3パラメータrij (h)を更新し、
【数4】
更新の際に、以下の数式(5)によって、前記周波数及び前記時間に関する行列Rij (x)の逆行列を、前記周波数に関する行列Ri (u)の逆行列に分解する、
【数5】
請求項3又は4に記載の音響解析装置。
【請求項6】
前記決定部は、更新の際に、以下の数式(6)によって、前記周波数に関する行列Ri (u)の逆行列を、前記周波数に関する行列の疑似逆行列(R′i (u)+に分解する、
【数6】
請求項5に記載の音響解析装置。
【請求項7】
音響解析装置に備えられたプロセッサによって、
複数のマイクにより測定した音響信号を取得することと、
前記音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出することと、
前記分離行列により定められ、周波数に関する空間相関行列、前記周波数に関する第1パラメータ並びに前記周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成することと、
前記分離行列により定められ、前記周波数に関するステアリングベクトル並びに前記周波数及び前記時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成することと、
前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータの尤度を最大化するように決定することと、を含み、
前記周波数及び前記時間に関する行列の逆行列を、前記周波数に関する行列の逆行列に分解して、前記尤度を最大化するように、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを決定する、
音響解析方法。
【請求項8】
音響解析装置に備えられたプロセッサを、
複数のマイクにより測定した音響信号を取得する取得部、
前記音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する第1算出部、
前記分離行列により定められ、周波数に関する空間相関行列、前記周波数に関する第1パラメータ並びに前記周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成する第1生成部、
前記分離行列により定められ、前記周波数に関するステアリングベクトル並びに前記周波数及び前記時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する第2生成部、及び
前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータの尤度を最大化するように決定する決定部、として機能させ、
前記決定部は、前記周波数及び前記時間に関する行列の逆行列を、前記周波数に関する行列の逆行列に分解して、前記尤度を最大化するように、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを決定する、
音響解析プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響解析装置、音響解析方法及び音響解析プログラムに関する。
【背景技術】
【0002】
従来、複数の音源から発せられ混合した音響信号を、複数のマイクロホンにより測定した場合に、音源や混合系の事前情報なしに元の信号へ分離する「ブラインド音源分離」が研究されている。ブラインド音源分離の手法の一つとして、非特許文献1及び2に記載の手法が知られている。
【0003】
非特許文献1及び2に記載の手法は、ILRMA(Independent Low-Rank Matrix Analysis)と略称され、比較的高い精度で、安定的に信号を分離することができる。
【先行技術文献】
【非特許文献】
【0004】
【文献】D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, "Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization," IEEE/ACM Trans. ASLP, vol. 24, no. 9, pp. 1626‐1641, 2016.
【文献】D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, "Determined blind source separation with independent low-rank matrix analysis," in Audio Source Separation, S. Makino, Ed. Cham: Springer, 2018, pp. 125‐155.
【発明の概要】
【発明が解決しようとする課題】
【0005】
ILRMAは、異なる方角から発せられる音響信号を分離することができる。しかしながら、1つの目的音源から発せられる音響信号と、全方位から発せられる雑音信号とが混合する場合、ILRMAでは、目的音源の音響信号と、その方位の雑音信号とが混合した信号が分離されるにとどまり、目的音源の音響信号のみを分離することはできない。
【0006】
そこで、本発明は、目的音源の音響信号をより高速に分離することができる音響解析装置、音響解析方法及び音響解析プログラムを提供する。
【課題を解決するための手段】
【0007】
本発明の一態様に係る音響解析装置は、複数のマイクにより測定した音響信号を取得する取得部と、音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する第1算出部と、分離行列により定められ、周波数に関する空間相関行列、周波数に関する第1パラメータ並びに周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成する第1生成部と、分離行列により定められ、周波数に関するステアリングベクトル並びに周波数及び時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する第2生成部と、第1パラメータ、第2パラメータ及び第3パラメータを、第1パラメータ、第2パラメータ及び第3パラメータの尤度を最大化するように決定する決定部と、を備え、決定部は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを決定する。
【0008】
この態様によれば、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解することで、演算量を削減して、目的音源の音響信号をより高速に分離することができる。
【0009】
本発明の他の態様に係る音響解析方法は、音響解析装置に備えられたプロセッサによって、複数のマイクにより測定した音響信号を取得することと、音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出することと、分離行列により定められ、周波数に関する空間相関行列、周波数に関する第1パラメータ並びに周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成することと、分離行列により定められ、周波数に関するステアリングベクトル並びに周波数及び時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成することと、第1パラメータ、第2パラメータ及び第3パラメータを、第1パラメータ、第2パラメータ及び第3パラメータの尤度を最大化するように決定することと、を含み、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを決定する、音響解析方法。
【0010】
この態様によれば、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解することで、演算量を削減して、目的音源の音響信号をより高速に分離することができる。
【0011】
本発明の他の態様に係る音響解析プログラムは、音響解析装置に備えられたプロセッサを、複数のマイクにより測定した音響信号を取得する取得部、音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する第1算出部、分離行列により定められ、周波数に関する空間相関行列、周波数に関する第1パラメータ並びに周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成する第1生成部、分離行列により定められ、周波数に関するステアリングベクトル並びに周波数及び時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する第2生成部、及び第1パラメータ、第2パラメータ及び第3パラメータを、第1パラメータ、第2パラメータ及び第3パラメータの尤度を最大化するように決定する決定部、として機能させ、決定部は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを決定する、音響解析プログラム。
【0012】
この態様によれば、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解することで、演算量を削減して、目的音源の音響信号をより高速に分離することができる。
【発明の効果】
【0013】
本発明によれば、目的音源の音響信号をより高速に分離することができる音響解析装置、音響解析方法及び音響解析プログラムを提供することができる。
【図面の簡単な説明】
【0014】
図1】本発明の実施形態に係る音響解析装置の機能ブロックを示す図である。
図2】本実施形態に係る音響解析装置の物理的構成を示す図である。
図3】本実施形態に係る音響解析装置により算出される分離行列の概要を示す図である。
図4】本実施形態に係る音響解析装置により目的音源から発せられる音響信号を分離する実験の構成を示す図である。
図5】本実施形態に係る音響解析装置により目的音源から発せられる音響信号を分離した場合の分離性能を示す図である。
図6】本実施形態に係る音響解析装置により目的音源から発せられる音響信号を分離した場合の演算時間を示す図である。
図7】本実施形態に係る音響解析装置により実行される音響分離処理のフローチャートである。
【発明を実施するための形態】
【0015】
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
【0016】
図1は、本発明の実施形態に係る音響解析装置10の機能ブロックを示す図である。音響解析装置10は、取得部11と、第1算出部12と、第1生成部13と、第2生成部14と、決定部15とを備える。
【0017】
取得部11は、複数のマイク20により測定した音響信号を取得する。取得部11は、複数のマイク20により測定され、記憶部に記憶された音響信号を、記憶部から取得してもよいし、複数のマイク20により測定している音響信号をリアルタイムで取得してもよい。
【0018】
第1算出部12は、音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する。分離行列については、図3を用いて説明する。
【0019】
第1生成部13は、分離行列により定められ、周波数に関する空間相関行列、周波数に関する第1パラメータ並びに周波数及び時間に関する第2パラメータを含む第1モデル13aによって、拡散性雑音の音響信号を生成する。第1モデル13aによって、拡散性雑音の音響信号を生成する処理については、後に詳細に説明する。
【0020】
第2生成部14は、分離行列により定められ、周波数に関するステアリングベクトル並びに周波数及び時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する。第2モデル14aによって、目的音源から発せられた音響信号を生成する処理については、後に詳細に説明する。
【0021】
第1生成部13は、拡散性雑音の音響信号uijを生成し、第2生成部14は、目的音源から発せられた音響信号hijを生成する。音響解析装置10は、マイク20で測定された音響信号xijと、生成した音響信号との関係がxij=hij+uijとなるように、第1モデル13aに含まれる第1パラメータ及び第2パラメータと、第2モデル14aに含まれる第3パラメータとを決定する。
【0022】
決定部15は、第1パラメータ、第2パラメータ及び第3パラメータを、第1パラメータ、第2パラメータ及び第3パラメータの尤度を最大化するように決定する。ここで、決定部15は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを決定する。決定部15による処理の詳細は、後に説明する。
【0023】
このように、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解することで、演算量を削減して、目的音源の音響信号をより高速に分離することができる。
【0024】
また、決定部15は、周波数に関する行列の逆行列を、周波数に関する行列の疑似逆行列に分解して、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを決定する。このように、周波数に関する行列の逆行列を、周波数に関する行列の疑似逆行列に分解することで、演算量をさらに削減して、目的音源の音響信号をさらに高速に分離することができる。
【0025】
図2は、本実施形態に係る音響解析装置10の物理的構成を示す図である。音響解析装置10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、音声出力部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では音響解析装置10が一台のコンピュータで構成される場合について説明するが、音響解析装置10は、複数のコンピュータが組み合わされて実現されてもよい。また、図2で示す構成は一例であり、音響解析装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。
【0026】
CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、複数のマイクで測定した音響信号から、対象音源の音響信号を分離するプログラム(音響解析プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を音声出力部10fで出力したり、RAM10bに格納したりする。
【0027】
RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、音響信号といったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
【0028】
ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば音響解析プログラムや、書き換えが行われないデータを記憶してよい。
【0029】
通信部10dは、音響解析装置10を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークに接続されてよい。
【0030】
入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。
【0031】
音声出力部10fは、CPU10aによる演算で得られた音声解析結果を出力するものであり、例えば、スピーカにより構成されてよい。音声出力部10fは、複数のマイクで測定された音響信号から分離された目的音源の音響信号を出力してよい。音声出力部10fは、他のコンピュータに音響信号を出力してもよい。
【0032】
音響解析プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。音響解析装置10では、CPU10aが音響解析プログラムを実行することにより、図1を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、音響解析装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
【0033】
図3は、本実施形態に係る音響解析装置10により算出される分離行列の概要を示す図である。複数の音源から発せられた音響信号(音源信号)は、周囲の環境やマイク20の配置に応じて定まる混合系によって混合される。周波数をi(i=1~I)と表し、時間をj(j=1~J)と表し、複数の音源から発せられる音響信号の複素時間周波数成分をN次元ベクトルでsijと表し、マイク20で測定される音響信号(観測信号)の複素時間周波数成分をM次元ベクトルでxijと表すとき、xij=Aiijと表される。ここで、Nは音源の数である。また、Ai=(ai,1,ai,2,…,ai,N)は混合行列と呼ばれ、M×Nの複素行列である。ai,nはステアリングベクトルと呼ばれ、M次元のベクトルである。ここで、Mはマイク20の数である。
【0034】
第1算出部12は、xijが与えられた場合に、分離行列Wi=Ai -1を推定する。ここで、推定信号は、yij=Wiijであり、yijによってsijを再現する。
【0035】
第1算出部12は、ILRMAを用いて、分離行列Wiを算出してよい。ILRMAでは、M=NかつAiが正則であることが条件となる。本実施形態に係る音響解析装置10では、M=NかつAiが正則であることを前提とする。
【0036】
ランクM-1の空間相関行列をR′i (u)と表し、R′i (u)の直交補空間ベクトルをbiと表し、第1パラメータをλiと表し、第2パラメータをrij (u)と表すとき、第1生成部13は、以下の数式(1)により表される第1モデル13aによって、拡散性雑音の音響信号uijを生成する。
【0037】
【数1】
【0038】
また、ステアリングベクトルをai (h)と表し、第3パラメータをrij (h)と表し、ハイパーパラメータα及びβで定められる逆ガンマ分布をIg(α,β)と表すとき、第2生成部14は、以下の数式(2)により表される第2モデル14aによって、目的音源から発せられた音響信号hijを生成する。ここで、ハイパーパラメータα,βは、例えば、α=1.1、β=10-16としてよい。
【0039】
【数2】
【0040】
更新前の第1パラメータをチルダ付きのλiで表し、更新前の第2パラメータをチルダ付きのrij (u)で表し、更新前の第3パラメータをチルダ付きのrij (h)で表すとき、決定部15は、以下の数式(3)により、十分統計量rij (h)及びRij (u)を算出する。数式(3)は、第1パラメータ、第2パラメータ及び第3パラメータをEM(expectation‐maximization)法で算出する場合のEステップに相当する。
【0041】
【数3】
【0042】
そして、決定部15は、以下の数式(4)により、第1パラメータλi、第2パラメータrij (u)及び第3パラメータrij (h)を更新する。数式(4)は、第1パラメータ、第2パラメータ及び第3パラメータをEM法で算出する場合のMステップに相当する。
【0043】
【数4】
【0044】
ここで、決定部15は、更新の際に、以下の数式(5)によって、周波数及び時間に関する行列Rij (x)の逆行列を、周波数に関する行列Ri (u)の逆行列に分解する。
【0045】
【数5】
【0046】
ij (x)は、時間jに関する成分を有するが、数式(5)の右辺は、Ri (u)の逆行列だけを含み、周波数に関する成分のみ有し、時間jに関する成分を有さない。これにより、演算量がO(IJM3)からO(IM3+IJM2)に削減される。
【0047】
決定部15は、更新の際に、以下の数式(6)によって、周波数に関する行列Ri (u)の逆行列を、周波数に関する行列の疑似逆行列(R′i (u)+に分解する。
【0048】
【数6】
【0049】
ここで、R′i (u)は、第1パラメータλi、第2パラメータrij (u)及び第3パラメータrij (h)に依存しない量であり、ILRMAによって空間相関行列Wiを算出することで定まる量である。また、R′i (u)の直交補空間ベクトルをbiもILRMAによって定まる量である。そのため、数式(6)の演算は、初回に計算したILRMAによって定まる量を用いることで高速に行うことができる。これにより、演算量がO(IJ)まで削減される。
【0050】
本実施形態では、第1モデル13a及び第2モデル14aとして正規分布を用いているが、マイク20で測定された音響信号xijを生成するモデルとして、例えば多変量複素一般化ガウス分布を用いてもよい。また、本実施形態では、パラメータの尤度を最大化するアルゴリズムとしてEM法を用いているが、ME(majorization-equalization)法を用いたり、MM(majorization-minimization)法を用いたりしてもよい。
【0051】
図4は、本実施形態に係る音響解析装置10により目的音源から発せられる音響信号を分離する実験の構成を示す図である。本実験では、雑音信号を発生させる複数のスピーカ50を、マイク20を中心とした半径1.5mの円周上に10°間隔で配置し、対象音源の音響信号を発生させるスピーカ51を、マイク20から1.0の距離に所定の方位で配置する。本本実験では、4つのマイク20を6.45cmの範囲に等間隔に配置している。なお、本実験における対象音源は、人の話し声であり、雑音も同様に人の話し声である。本実験は、多くの人が話している状況で特定の人の話し声を選択に聴取する、いわゆるカクテルパーティー効果を再現するタスクである。
【0052】
図5は、本実施形態に係る音響解析装置10により目的音源から発せられる音響信号を分離した場合の分離性能を示す図である。同図では、E. Vincent, R. Gribonval, and C. Fevotte, "Performance measurement in blind audio source separation," IEEE Trans. ASLP, vol. 14, no. 4, pp. 1462‐1469, 2006.により提案されたSDR(source-to-distortion ratio)を評価指標として縦軸に示し、横軸に経過時間を対数スケールで示している。SDRが高いほど、音声がより良く分離されていることを表す。
【0053】
同図では、ILRMAを用いた場合のグラフG0と、本実施形態に係る音響解析装置10を用いた場合のグラフG1と、本実施形態に係る音響解析装置10において逆行列の分解のみ行った場合(疑似逆行列の分解は行わなかった場合)のグラフG2と、本実施形態に係る音響解析装置10において逆行列の分解も疑似逆行列の分解も行わなかった場合のグラフG3とを示している。また、同図では、K. Sekiguchi, A. A. Nugraha, Y. Bando, and K. Yoshii, "Fast multichannel source separation based on jointly diagonalizable spatial covariance matrices," CoRR, vol. abs/1903.03237, 2019.で提案されたFastMNMFと呼ばれる手法及びILRMAを用いた場合のグラフG4と、FastMNMFのみ用いた場合のグラフG5とを示している。また、「ILRMA initialization」と記載された区間は、ILRMAのアルゴリズムの実行時間を示している。
【0054】
グラフG1によれば、本実施形態に係る音響解析装置10は、他のいずれの場合よりも早く最大のSDRを達成することができている。本実施形態に係る音響解析装置10によってSDRの最大値を達成するまでの時間は、ILRMAの実行時間よりも僅かに長いだけであり、第1パラメータ、第2パラメータ及び第3パラメータのEM法による算出は、すぐに収束していることが読み取れる。なお、グラフG2及びグラフG3は、疑似逆行列の分解を行わなかったり、逆行列の分解及び疑似逆行列の分解を行わなかったりする場合なので、計算に時間を要するが、本実施形態に係る音響解析装置10と同等のSDRを達成することができる。
【0055】
一方、FastMNMFを用いた場合を示すグラフG4及びグラフG5は、SDRの上昇に比較的長時間を要し、その最大値は本実施形態に係る音響解析装置10場合よりも低い。
【0056】
このように、本実施形態に係る音響解析装置10によれば、従来法よりも高速かつ高精度で対象音源を分離することができる。
【0057】
図6は、本実施形態に係る音響解析装置10により目的音源から発せられる音響信号を分離した場合の演算時間を示す図である。同図では、第1比較例、第2比較例、本実施形態(逆行列の分解)及び本実施形態(逆行列の分解及び疑似逆行列)の場合について、それぞれ目的音源から発せられる音響信号を分離した場合の演算時間を示している。
【0058】
第1比較例は、FastMNMFであり、演算時間は0.7秒程度である。また、第2比較例は、本実施形態に係る音響解析装置10において逆行列の分解も疑似逆行列の分解も行わない場合であり、演算時間は5秒程度である。
【0059】
一方、本実施形態に係る音響解析装置10において逆行列の分解のみ行う場合、演算時間は0.8秒程度であり、本実施形態に係る音響解析装置10において逆行列の分解及び疑似逆行列の分解を行う場合、演算時間は0.06秒程度となる。
【0060】
本実施形態に係る音響解析装置10において逆行列の分解も疑似逆行列の分解も行わない場合、演算量はO(IJM3)であり、逆行列の分解のみ行う場合、演算量はO(IM3+IJM2)であり、逆行列の分解及び疑似逆行列の分解を行う場合、演算量はO(IJ)となる。このように、本実施形態に係る音響解析装置10によれば、演算量をO(IJ)まで削減して音源の数(M=N)に依存しない量とすることができ、従来法よりも高速に対象音源を分離することができる。具体的には、本実施形態に係る音響解析装置10は、FastMNMFよりも約12倍高速に対象音源を分離することができ、その精度もFastMNMFより高い。
【0061】
図7は、本実施形態に係る音響解析装置10により実行される音響分離処理のフローチャートである。はじめに、音響解析装置10は、複数のマイク20により測定した音響信号を取得する(S10)。
【0062】
次に、音響解析装置10は、ILRMAにより、分離行列を算出し(S11)、分離行列に基づき、ランクM-1の空間相関行列及び直交補空間ベクトルを算出する(S12)。また、音響解析装置10は、空間相関行列、直交補空間ベクトル、第1パラメータ及び第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成し(S13)、ステアリングベクトル及び第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する(S14)。
【0063】
さらに、音響解析装置10は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解し、疑似逆行列に分解して、十分統計量を算出する(S15)。この処理は、EM法のEステップに相当する。
【0064】
また、音響解析装置10は、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを更新する(S16)。この処理は、EM法のMステップに相当する。
【0065】
第1パラメータ、第2パラメータ及び第3パラメータが収束していない場合(S17:NO)、音響解析装置10は、処理S15及びS16を再び実行する。収束は、パラメータを更新する前後における尤度の差が所定値以下であるかどうかによって判定してよい。
【0066】
第1パラメータ、第2パラメータ及び第3パラメータが収束した場合(S17:YES)、音響解析装置10は、第2モデルによって、目的音源から発せられた音響信号を生成し(S18)、最終的な音声出力とする。
【0067】
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
【符号の説明】
【0068】
10…音響解析装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…音声出力部、11…取得部、12…第1算出部、13…第1生成部、13a…第1モデル、14…第2生成部、14a…第2モデル、15…決定部、20…マイク、50,51…スピーカ
図1
図2
図3
図4
図5
図6
図7