(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-05
(45)【発行日】2024-11-13
(54)【発明の名称】音響信号強調装置、方法及びプログラム
(51)【国際特許分類】
G10L 21/0308 20130101AFI20241106BHJP
G10L 21/0232 20130101ALI20241106BHJP
【FI】
G10L21/0308 Z
G10L21/0232
(21)【出願番号】P 2023501919
(86)(22)【出願日】2021-02-25
(86)【国際出願番号】 JP2021007090
(87)【国際公開番号】W WO2022180741
(87)【国際公開日】2022-09-01
【審査請求日】2023-08-16
【新規性喪失の例外の表示】特許法第30条第2項適用 (1)ウェブサイトの掲載日 2020年10月19日 ウェブサイトのアドレス http://www.interspeech2020.org/index.php?m=content&c=index&a=show&catid=244&id=325 http://www.interspeech2020.org/uploadfile/pdf/Mon-1-2-9.pdf https://www.isca-speech.org/archive/interspeech_2020/nakatani20_interspeech.html https://www.isca-speech.org/archive/pdfs/interspeech_2020/nakatani20_interspeech.pdf (2)ウェブサイトの掲載日 2021年2月9日 ウェブサイトのアドレス https://arxiv.org/abs/2102.04696v1 https://arxiv.org/abs/2102.04696v1.pdf
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】中谷 智広
(72)【発明者】
【氏名】池下 林太郎
(72)【発明者】
【氏名】木下 慶介
(72)【発明者】
【氏名】澤田 宏
(72)【発明者】
【氏名】荒木 章子
【審査官】大野 弘
(56)【参考文献】
【文献】米国特許出願公開第2018/0350379(US,A1)
【文献】NAKATANI Tomohiro et al., Jointly Optimal Denoising, Dereverberation,and Source Separation, IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH,2020年,2020.07.31
【文献】BOEDDEKER Christoph et al.,JOINTLY OPTIMAL DEREVERBERATION AND BEAMFORMING,[online],2019年10月30日,インターネット:<URL:https://arxiv.org/pdf/1910.13707.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00-21/18
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
tは時間フレームの番号であり、fは周波数の番号であり、Mはマイクの個数であり、m=1,…,Mであり、音源には目的音と雑音があり、Jは目的音の個数であり、M>Jであり、j=1,…,J+1であり、1≦j≦Jのjが目的音に対応する音源を表し、J+1が雑音に対応する音源を表すとして、各音源j
(1≦j≦J+1)について、音源jのパワーλ
t
(j)と、マイクmの観測信号x
t,f
(m)から構成される観測信号ベクトルX
t,fとを用いて、時間空間共分散行列R
f
(j), P
f
(j)を推定する時間空間共分散行列推定部と、
各音源j
(1≦j≦J+1)について、前記推定された時間空間共分散行列R
f
(j), P
f
(j)を用いて、音源jの残響抑圧フィルタG
f
(j)を求め、求まった残響抑圧フィルタG
f
(j)と、前記観測信号ベクトルX
t,fとを用いて、残響抑圧信号ベクトルを生成する残響抑圧部と、
目的音に対応する各音源j(1≦j≦J)について、前記生成された残響抑圧信号ベクトルを用いて、音源jの強調音y
t,f
(j)及び音源jのパワーを求める音源分離部と、
前記時間空間共分散行列推定部の処理と、前記残響抑圧部の処理と、前記音源分離部の処理とを繰り返し行うように制御する制御部と、
を含む音響信号強調装置。
【請求項2】
請求項1の音響信号強調装置であって、
前記残響抑圧部は、各音源j
(1≦j≦J+1)について、前記推定された時間空間共分散行列R
f
(j), P
f
(j)を用いて、音源jの残響抑圧フィルタG
f
(j)を求め、求まった残響抑圧フィルタG
f
(j)と、前記観測信号ベクトルX
t,fとを用いて、音源jの強調音に関する、観測信号x
t,f
(m)に対応する残響抑圧信号ベクトルZ
t,f
(j)を生成し、
前記音源分離部は、目的音に対応する各音源j(1≦j≦J)について、前記生成された残響抑圧信号ベクトルZ
t,f
(j)を用いて、音源jの強調音y
t,f
(j)及び音源jのパワーを求める、
音響信号強調装置。
【請求項3】
請求項2の音響信号強調装置において、
前記音源分離部は、(1)前記生成された残響抑圧信号ベクトルZ
t,f
(j)及び音源jのパワーを用いて、音源jに対応する空間共分散行列Σ
f
(j)を求める処理と、(2)求まった空間共分散行列Σ
f
(j)を用いて、音源jに対応する分離フィルタQ
f
(j)を更新し、更新された分離フィルタQ
f
(j)及び前記生成された残響抑圧信号ベクトルZ
t,f
(j)を用いて音源jの強調音y
t,f
(j)を更新し、更新された強調音y
t,f
(j)を用いて音源jのパワーを更新する処理と、(3)更新された分離フィルタQ
f
(j)を用いて雑音分離行列Q
N,fを更新する処理とを繰り返すことで、最終的に音源jの強調音y
t,f
(j)を求める、
音響信号強調装置。
【請求項4】
請求項1の音響信号強調装置であって、
前記残響抑圧部は、各音源j
(1≦j≦J+1)について、前記推定された時間空間共分散行列R
f
(j), P
f
(j)を用いて、音源jの残響抑圧フィルタG
f
(j)を求め、求まった残響抑圧フィルタG
f
(j)から全音源に共通の残響抑圧フィルタG
fを求め、求まった残響抑圧フィルタG
fと、前記観測信号ベクトルX
t,fとを用いて、観測信号x
t,f
(m)に対応する残響抑圧信号z
t,f
(m)から構成される残響抑圧信号ベクトルZ
t,fを生成し、
前記音源分離部は、目的音に対応する各音源j(1≦j≦J)について、前記生成された残響抑圧信号ベクトルZ
t,fを用いて、音源jの強調音y
t,f
(j)及び音源jのパワーを求める、
音響信号強調装置。
【請求項5】
請求項4の音響信号強調装置において、
前記音源分離部は、(1)前記生成された残響抑圧信号ベクトルZ
t,f及び音源jのパワーを用いて、音源jに対応する空間共分散行列Σ
f
(j)を求める処理と、(2)求まった空間共分散行列Σ
f
(j)を用いて、音源jに対応する分離フィルタQ
f
(j)を更新し、更新された分離フィルタQ
f
(j)及び前記生成された残響抑圧信号ベクトルZ
t,fを用いて音源jの強調音y
t,f
(j)を更新し、更新された強調音y
t,f
(j)を用いて音源jのパワーを更新する処理と、(3)更新された分離フィルタQ
f
(j)を用いて雑音分離行列Q
N,fを更新する処理とを繰り返すことで、最終的に音源jの強調音y
t,f
(j)を求める、
音響信号強調装置。
【請求項6】
時間空間共分散行列推定部が、tは時間フレームの番号であり、fは周波数の番号であり、Mはマイクの個数であり、m=1,…,Mであり、音源には目的音と雑音があり、Jは目的音の個数であり、M>Jであり、j=1,…,J+1であり、1≦j≦Jのjが目的音に対応する音源を表し、J+1が雑音に対応する音源を表すとして、各音源j
(1≦j≦J+1)について、音源jのパワーと、マイクmの観測信号x
t,f
(m)から構成される観測信号ベクトルX
t,fとを用いて、時間空間共分散行列R
f
(j), P
f
(j)を推定する時間空間共分散行列推定ステップと、
残響抑圧部が、各音源j
(1≦j≦J+1)について、前記推定された時間空間共分散行列R
f
(j), P
f
(j)を用いて、音源jの残響抑圧フィルタG
f
(j)を求め、求まった残響抑圧フィルタG
f
(j)と、前記観測信号ベクトルX
t,fとを用いて、残響抑圧信号ベクトルを生成する残響抑圧ステップと、
音源分離部が、目的音に対応する各音源j(1≦j≦J)について、前記生成された残響抑圧信号ベクトルを用いて、音源jの強調音y
t,f
(j)及び音源jのパワーを求める音源分離ステップと、
制御部が、前記時間空間共分散行列推定部の処理と、前記残響抑圧部の処理と、前記音源分離部の処理とを繰り返し行うように制御する制御ステップと、
を含む音響信号強調方法。
【請求項7】
請求項1から5の何れかの音響信号強調装置の各部としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のマイクロホンで集音された、複数の音やその残響とその他の雑音とが混ざった音響信号から、各構成音に関する事前情報なしの状況で、個別の音に分離するとともに、同時に残響を抑圧する音響信号強調技術に関する。
【背景技術】
【0002】
従来から、各構成音に関する事前情報なしの状況で、すべての構成音に関する残響を同時に抑圧する残響抑圧法が知られている(例えば、非特許文献1参照。)。
【0003】
また、残響を含まない状況で、雑音抑圧と音源分離を同時に実現する方法が知られている(例えば、非特許文献2参照。)。
【0004】
したがって、
図6に示すように、これら2つの処理を、残響抑圧ステップ、音源分離雑音抑圧ステップとして順に適用することで、音源分離、残響抑圧、雑音抑圧を同時に実現することは可能であった。
【先行技術文献】
【非特許文献】
【0005】
【文献】Tomohiro Nakatani, et al. “Speech dereverberation based on variance-normalized delayed linear prediction”, IEEE Trans. Audio, Speech, and Language Processing, vol. 18, no. 7, pp. 1717-1731, 2010. [令和3年2月10日検索]、インターネット<URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5547558>
【文献】Rintaro Ikeshita, Tomohiro Nakatani, Shoko Araki, “Overdetermined independent vector analysis, Proc. IEEE ICASSP”, Trans. Audio, Speech, and Language Processing, pp. 591-595, 2020. [令和3年2月10日検索]、インターネット<URL:https://arxiv.org/pdf/2003.02458.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、背景技術の残響抑圧ステップでは、後段の音源分離ステップでどのような処理が行われるかということと独立して処理が行われるため、背景技術では残響抑圧と音源分離を同時に行う上で、全体として最適な処理が行えなかった。
【0007】
本発明は、全体として最適な処理を行う音響信号強調装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
この発明の一態様による音響信号強調装置は、tは時間フレームの番号であり、fは周波数の番号であり、Mはマイクの個数であり、m=1,…,Mであり、音源には目的音と雑音があり、Jは目的音の個数であり、M>Jであり、j=1,…,J+1であり、1≦j≦Jのjが目的音に対応する音源を表し、J+1が雑音に対応する音源を表すとして、各音源j(1≦j≦J+1)について、音源jのパワーと、マイクmの観測信号xt,f
(m)から構成される観測信号ベクトルXt,fとを用いて、時間空間共分散行列Rf
(j),Pf
(j)を推定する時間空間共分散行列推定部と、各音源j(1≦j≦J+1)について、推定された時間空間共分散行列Rf
(j),Pf
(j)を用いて、音源jの残響抑圧フィルタGf
(j)を求め、求まった残響抑圧フィルタGf
(j)と、観測信号ベクトルXt,fとを用いて、残響抑圧信号ベクトルを生成する残響抑圧部と、目的音に対応する各音源j(1≦j≦J)について、生成された残響抑圧信号ベクトルを用いて、音源jの強調音yt,f
(j)及び音源jのパワーを求める音源分離部と、時間空間共分散行列推定部の処理と、残響抑圧部の処理と、音源分離部の処理とを繰り返し行うように制御する制御部と、を備えている。
【発明の効果】
【0009】
個々の音源及び雑音のみに関する時間空間共分散行列を個別に求めて残響抑圧に用いることで、全体として最適な処理を行うことができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、第一実施形態の音響信号強調装置の機能構成の例を示す図である。
【
図2】
図2は、音響信号強調方法の処理手続きの例を示す図である。
【
図3】
図3は、第二実施形態の音響信号強調装置の機能構成の例を示す図である。
【
図4】
図4は、第一実施形態と第二実施形態の上位概念の音響信号強調装置の機能構成の例を示す図である。
【
図5】
図5は、コンピュータの機能構成例を示す図である。
【
図6】
図6は、背景技術を説明するための図である。
【発明を実施するための形態】
【0011】
以下、本発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0012】
[第一実施形態]
音響信号強調装置は、
図1に示すように、初期化部1、時間空間共分散行列推定部2、残響抑圧部3、音源分離部4及び制御部5を例えば備えている。
【0013】
第一実施形態の音響信号強調装置では、音源ごとに異なる残響抑圧フィルタを求めて利用するものである。
【0014】
音響信号強調方法は、音響信号強調装置の各構成部が、以下に説明する及び
図2に示すステップS1からステップS5の処理を行うことにより例えば実現される。
【0015】
なお、文中で使用する記号「
-」は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記載している。例えば、文中の「
-X」は、数式中では以下のように記載される。
【数1】
まず、記号の使い方について説明する。
【0016】
Mはマイクの数であり、m(1≦m≦M)はマイクの番号である。Mは、2以上の正の整数である。なお、マイクロホン番号は原則として右上添え字で表す。例えば、xt,f
(m)のように表される。
【0017】
Jは目的音の数である。
【0018】
jは音源番号である。1≦j≦Jのjは目的音である音源を示し、J+1は雑音である音源を示す。
【0019】
t, τ(1≦t,τ≦T)は、時間フレームの番号である。Tは、時間フレームの総数であり、2以上の正の整数である。
【0020】
f(1≦f≦F)は、周波数の番号である。なお、音源は右上添字、時間と周波数は右下添え字で表される。例えば、xt,f
(n)のように表される。Fは、最も高い周波数ビンに対応する周波数である。
【0021】
(・)Tは行列又はベクトルの非共役転置であり、(・)Hは行列又はベクトルの共役転置である。・は任意の行列又はベクトルである。
【0022】
アルファベットの小文字は、スカラー変数である。例えば、マイクmにおける時刻t、周波数fの観測信号xt,f
(m)は、スカラー変数である。
【0023】
アルファベットの大文字は、ベクトル又は行列を表す。例えば、Xt,f=[xt,f
(1), xt,f
(2),…,xt,f
(M)]T∈CM×1は、時刻t、周波数fでの、全マイクにおける観測信号ベクトルである。
【0024】
CM×Nは、M×N次元複素行列の全体集合である。X∈CM×Nは、その要素であることを示す記法である。すなわち、Xは、CM×Nの要素であることを示す。
【0025】
-Xt-D,f=[xt-D,f
T,…,xt-L+1,f
T]T∈CM(L-D)×1は、時刻t-L+1から時刻t-Dの過去の観測信号時系列ベクトルである。
【0026】
λt
(j)は、時刻tにおける音源jのパワーであり、スカラーである。
【0027】
yt,f
(j)は、時刻t、周波数fにおける音源jの強調音であり、スカラーである。
【0028】
Gf
(n)∈CM(L-D)×Mは、周波数fにおける音源jの残響抑圧フィルタである。Lは、フィルタ次数であり、2以上の正の整数である。Dは、予測遅延であり、1以上の正の整数である。
【0029】
Qf=[Qf
(1), Qf
(2),…, Qf
(M)]T∈CM×Mは、周波数fの分離行列である。Qf
(j)は、音源jの分離フィルタである。
【0030】
Rf
(j)∈CM(L-D)×M(L-D), Pf
(j)∈CM(L-D)×Mは、周波数fにおける、各音源に関する時間空間共分散行列である。
【0031】
以下、音響信号強調装置の各構成部について説明する。
【0032】
<初期化部1>
j=1,…,Jとして、初期化部1は、各音源jのパワーλt
(j)と、残響抑圧フィルタGf
(j)と、分離行列Qf=[Qf
(1), Qf
(2),…, Qf
(M)]T∈CM×Mとを初期化する。
【0033】
初期化された音源jのパワーλt
(j)は、時間空間共分散行列推定部2に出力される。初期化された残響抑圧フィルタGf
(j)は、残響抑圧部3に出力される。初期化された分離行列Qfは、音源分離部4に出力される。なお、必要に応じて、初期化された音源jのパワーλt
(j)は、音源分離部4に出力されてもよい。
【0034】
例えば、初期化部1は、音源jのパワーλt
(j)を観測信号xt,f
(m)のパワーとし、残響抑圧フィルタGf
(j)を全ての要素が0の行列とし、分離行列Qfを単位行列とすることで、これらの変数を初期化する。もちろん、初期化部1は、他の方法でこれらの変数の初期化を行ってもよい。
【0035】
<時間空間共分散行列推定部2>
時間空間共分散行列推定部2には、初期化部1で初期化された又は音源分離部4により更新された音源jのパワーλt
(j)と、マイクmの観測信号xt,f
(m)から構成される観測信号ベクトルXt,fとが入力される。
【0036】
時間空間共分散行列推定部2は、各音源jについて、音源jのパワーλt
(j)と、マイクmの観測信号xt,f
(m)から構成される観測信号ベクトルXt,fとを用いて、時間空間共分散行列Rf
(j), Pf
(j)を推定する(ステップS2)。
【0037】
すなわち、時間空間共分散行列推定部2は、目的音に対応する音源1,…,Jのそれぞれに対応する時間空間共分散行列Rf
(1), Pf
(1),…,Rf
(J), Pf
(J)を推定する。目的音に対応する音源1,…,Jごとに時間空間共分散行列Rf
(j), Pf
(j)を推定し、残響抑圧に用いることで、全体最適化を行いつつ計算効率の良い音響信号強調方法を実現することができる。
【0038】
また、時間空間共分散行列推定部2は、雑音に対応する音源J+1に対応する時間空間共分散行列Rf
(J+1), Pf
(J+1)を推定する。時間空間共分散行列推定部2は、雑音が複数あるとしても、これらの複数の雑音に共通の1個の時間空間共分散行列Rf
(J+1), Pf
(J+1)を推定する。これにより、各雑音に対応する時間空間共分散行列Rf
(J+1), Pf
(J+1)を推定する場合と比較して、計算量を削減することができる。
【0039】
推定された時間空間共分散行列Rf
(j), Pf
(j)は、残響抑圧部3に出力される。
【0040】
時間空間共分散行列推定部2は、例えば以下の式に基づいて時間空間共分散行列R
f
(j), P
f
(j)を推定する。
【数2】
ここで、例えば雑音のパワーλ
t
(J+1)=1であるとする。
【0041】
なお、第1回目の処理においては、時間空間共分散行列推定部2は、初期化部1で初期化された音源jのパワーλt
(j)を用いて処理を行う。第2回目以降の処理においては、時間空間共分散行列推定部2は、音源分離部4により更新された音源jのパワーλt
(j)を用いて処理を行う。
【0042】
<残響抑圧部3>
残響抑圧部3には、時間空間共分散行列推定部2で推定された時間空間共分散行列Rf
(j), Pf
(j)と、マイクmの観測信号xt,f
(m)から構成される観測信号ベクトルXt,fとが入力される。
【0043】
残響抑圧部3は、各音源jについて、推定された時間空間共分散行列Rf
(j), Pf
(j)を用いて、音源jの残響抑圧フィルタGf
(j)を求め、求まった残響抑圧フィルタGf
(j)と、観測信号ベクトルXt,fとを用いて、音源jの強調音に関する、観測信号xt,f
(m)に対応する残響抑圧信号ベクトルZt,f
(j)を生成する(ステップS3)。
【0044】
すなわち、残響抑圧部3は、目的音に対応する音源1,…,Jのそれぞれに対応する残響抑圧フィルタGf
(1),…,Gf
(J)及び残響抑圧信号ベクトルZt,f
(1),…,Zt,f
(J)を生成する。
【0045】
また、残響抑圧部3は、雑音に対応する音源J+1に対応する残響抑圧フィルタGf
(J+1)及び残響抑圧信号ベクトルZt,f
(J+1)を生成する。残響抑圧部3は、雑音が複数あるとしても、これらの複数の雑音に共通の1個の残響抑圧フィルタGf
(J+1)と、1個の雑音分離行列QN,fとを求める。雑音分離行列QN,fについては、後述する。
【0046】
生成された残響抑圧信号ベクトルZt,f
(j)は、音源分離部4に出力される。
【0047】
ここで、Zt,f
(j)=[z1,t,f
(j),…, zM,t,f
(j)]であり、m=1,…,Mとして、zm,t,f
(j)は、音源jの強調音に関する、観測信号xt,f
(m)に対応する残響抑圧信号である。
【0048】
残響抑圧部3は、例えば以下の式に基づいて残響抑圧フィルタG
f
(j)を生成する。
【数3】
また、残響抑圧部3は、例えば以下の式に基づいて残響抑圧信号ベクトルZ
t,f
(j)を生成する。
【数4】
<音源分離部4>
音源分離部4には、残響抑圧部3で生成された残響抑圧信号ベクトルZ
t,f
(j)が入力される。
【0049】
音源分離部4は、目的音に対応する各音源j(1≦j≦J)について、生成された残響抑圧信号ベクトルZt,f
(j)を用いて、音源jの強調音yt,f
(j)及び音源jのパワーλt
(j)を求める(ステップS4)。
【0050】
すなわち、残響抑圧部3は、目的音に対応する音源1,…,Jのそれぞれに対応する強調音yt,f
(1),…,yt,f
(J)及びパワーλt
(1),…,λt
(1)を生成する。
【0051】
求まった音源jの強調音yt,f
(j)は、音響信号強調装置から出力される。また、求まった音源jのパワーλt
(j)は、時間空間共分散行列推定部2に出力される。
【0052】
以下、音源分離部4の処理の例について説明する。なお、音源分離部4は、以下に説明する手法以外の既存の手法で、音源jの強調音yt,f
(j)及び音源jのパワーλt
(j)を求めてもよい。
【0053】
この例では、音源分離部4には、初期化部1で初期化された音源jのパワーλt
(j)が更に入力される。
【0054】
音源分離部4は、(1)j=1,…,J+1として、残響抑圧信号ベクトルZt,f
(j)及び音源jのパワーλt
(j)を用いて、音源jに対応する空間共分散行列Σf
(j)を求める処理と、(2)j=1,…,Jとして、求まった空間共分散行列Σf
(j)を用いて、音源jに対応する分離フィルタQf
(j)を更新し、更新された分離フィルタQf
(j)及び残響抑圧信号ベクトルZt,f
(j)を用いて音源jの強調音yt,f
(j)を更新し、更新された強調音yt,f
(j)を用いて音源jのパワーλt
(j)を更新する処理と、(3)j=1,…,Jとして、更新された分離フィルタQf
(j)を用いて雑音分離行列QN,fを更新する処理とを繰り返すことで、最終的に音源jの強調音yt,f
(j)を求める。
【0055】
すなわち、音源分離部4は、(1)残響抑圧信号ベクトルZt,f
(1),…,Zt,f
(J+1)及び音源1,…,J+1のパワーλt
(1),…,λt
(J+1)を用いて、音源1,…,J+1に対応する空間共分散行列Σf
(1),…,Σf
(J+1)を求める処理と、(2)求まった空間共分散行列Σf
(1),…,Σf
(J)を用いて、音源1,…,Jに対応する分離フィルタQf
(1),…,Qf
(J)を更新し、更新された分離フィルタQf
(1),…,Qf
(J)及び残響抑圧信号ベクトルZt,f
(1),…,Zt,f
(J)を用いて音源1,…,Jの強調音yt,f
(1),…,yt,f
(J)を更新し、更新された強調音yt,f
(1),…,yt,f
(J)を用いて音源1,…,Jのパワーλt
(1),…,λt
(J)を更新する処理と、(3)更新された分離フィルタQf
(1),…,Qf
(J)を用いて雑音分離行列QN,fを更新する処理とを繰り返すことで、最終的に音源1,…,Jの強調音yt,f
(1),…,yt,f
(J)を求める。
【0056】
なお、(1)から(3)の処理は、繰り返し行われる必要はない。すなわち、1回のステップS4の処理において、(1)から(3)の処理は、1回のみ行われてもよい。
【0057】
最終的に求まった音源jの強調音yt,f
(j)は、音響信号強調装置から出力される。また、最終的に更新された音源jのパワーλt
(j)は、時間空間共分散行列推定部2に出力される。さらに、更新された分離行列Qfは、残響抑圧部3に出力される。
【0058】
音源分離部4は、例えば以下の式に基づいて音源jに対応する空間共分散行列Σ
f
(j)を求める。
【数5】
音源分離部4は、例えば以下の式(1),(2)に基づいて分離フィルタQ
f
(j)を更新する。より詳細には、式(1)で得られたQ
f
(j)を式(2)の右辺に代入して式(2)で定義されるQ
f
(j)を計算することで、分離フィルタQ
f
(j)を更新する。
【数6】
【数7】
ここで、j=1,…,Jとして、e
jは、j番目の要素が1であり、他の要素が0であるJ次元ベクトルである。
【0059】
音源分離部4は、例えば以下の式に基づいて音源jの強調音y
t,f
(j)を更新する。
【数8】
音源分離部4は、例えば以下の式に基づいて音源jのパワーλ
t
(j)を更新する。
【数9】
音源分離部4は、例えば以下の式に基づいて雑音分離行列Q
N,fを更新する。すなわち、音源分離部4は、分離行列Q
fの中の雑音分離行列Q
N,fの部分を以下の式に基づいて更新することで、分離行列Q
fを更新する。
【数10】
ここで、Q
S,f=[Q
f
(1),…,Q
f
(J)],Q
N,f=[Q
f
(J+1),…,Q
f
(M)]であり、E
Sは、E
S∈R
M×Jであり、単位行列I
M∈R
M×Mの最初のJ列(すなわち、1番目からJ番目までの列)である。E
Nは、E
N∈R
M×(M-J)の行列であり、単位行列I
M∈R
M×Mの残りのM-J列(すなわち、J+1番目からM番目までの列)である。I
M-Jは、単位行列であり、I
M-J∈R
M-J×M-Jである。
【0060】
このように、雑音の個数によらず、1ステップで雑音分離行列QN,fを計算することで、計算量を削減することができる。
【0061】
<制御部5>
制御部5は、時間空間共分散行列推定部2の処理と、残響抑圧部3の処理と、音源分離部4の処理とを繰り返し行うように制御する(ステップS5)。
【0062】
例えば、制御部5は、所定の終了条件を満たすまで、繰り返し処理を行う。所定の終了条件の例は、音源jの強調音yt,f
(j)等の所定の変数が収束するというものである。所定の終了条件の他の例は、繰り返し処理を行った回数が所定の回数に達するというものである。
【0063】
このようにして、音源分離の結果を残響抑圧部3の処理にフィードバックして全ての処理を繰り返すことで、全体として最適な処理を行うことができる。また、音源jごとに時間空間共分散行列Rf
(j), Pf
(j)を推定することで、音源ごとに音源間の関係を考慮する必要がなくなるため、最適化に必要な行列のサイズを小さくすることができる。このため、全体の計算コストを削減できる。
【0064】
なお、第一実施形態においては、全体最適化を行うために、1つの最適化基準で全パラメータを最適化している。1つ最適化基準の例は、以下の式(3)により示される基準である。
【数11】
上記の処理は、例えば式(3)を最大化する各目的音の残響抑圧フィルタG
f
(j)、分離フィルタQ
f
(j)、分離音パワーλ
f
(j)、全雑音共通の残響抑圧フィルタG
f
(j+1)と雑音分離行列Q
N,fを求めることで最適化を実現していると言える。
【0065】
なお、式(3)は、以下の2個の仮定の下、式(A)及び式(B)による処理を考慮し、最尤法に基づき導出された基準である。
【0066】
1個目の仮定は、各目的音の分離音は、パワーλf
(j)が時間変化する複素ガウス分布に従うというものである。
【0067】
2個目の仮定は、雑音は、パワーが時不変の複素ガウス分布に従うというものである。
【0068】
一般的に、残響抑圧ステップ(ステップS3)と音源分離ステップ(ステップS4)を比較すると、前者が1回の繰り返しに要する計算コストが大きく、後者が収束までに多くの繰り返しを要する。第一実施形態では、1回の繰り返しの中に、音源分離ステップを複数回実行することで、全体として、計算コストを抑えつつ(=少ない残響抑圧ステップの更新で)、より早い収束が得られる(=音源分離雑音抑圧ステップの更新回数を増やす)という制御が可能である。
【0069】
なお、上記の例では、音源jのパワーλt
(j)を式(C)で計算していた。この式(C)は、周波数方向でパワー平均をとるため、それに基づき計算された時間空間共分散行列は周波数分解能が低くなる。このため、残響抑圧フィルタの推定精度が劣化する可能性がある。
【0070】
これを回避するために、残響抑圧フィルタの推定に用いる時間空間共分散行列の計算では、周波数ごとに異なる音源jのパワーλt,f
(j)を用いてもよい。
【0071】
具体的には、音源分離部4は、以下の式により、時間空間共分散行列の計算で用いる音源jのパワーλ
t,f
(j)を更に求めてもよい。
【数12】
この場合、音源jのパワーλ
t
(j)に代えて、周波数ごとに異なる音源jのパワーλ
t,f
(j)が、時間空間共分散行列推定部2に出力される。
【0072】
そして、時間空間共分散行列推定部2は、例えば以下の式に基づいて時間空間共分散行列R
f
(j), P
f
(j)を推定する。ここでも、例えば雑音のパワーλ
t
(J+1)=1であるとする。
【数13】
これにより、周波数分解能を下げずに残響抑圧フィルタの推定を行えるようになる。
【0073】
一方、音源分離部4の処理では、式(C)に基づいて計算された音源jのパワーλt
(j)が用いられる。
【0074】
また、ニューラルネットワークなどの他の手段を用いて求めた目的音のパワーλt,f
(j)を、事前情報として利用してもよい。
【0075】
具体的には、まず、目的音のパワーは、時間周波数点ごとに異なる値をとるものとし、λt,f
(j)で表す。そして、その事前分布を逆ガンマ分布でモデル化し、γt,f
(j)をそのスケールパラメータとする。例えば、γt,f
(j) はニューラルネットワークなどの他の手段だけを用いて求められた目的音のパワー(すわなち目的音のパワーの事前情報)とする。
【0076】
その結果、音源分離雑音抑圧ステップにおいて、目的音のパワーは、以下の式で更新できる。αは、逆ガンマ分布のシェイプパラメータであり、例えば、α=1とする。
【数14】
音源分離部4は、この式に基づいて音源jのパワーλ
t,f
(j)を求めてもよい。
【0077】
この場合、音源jのパワーλt
(j)に代えて、周波数ごとに異なる音源jのパワーλt,f
(j)が、時間空間共分散行列推定部2に出力される。
【0078】
そして、時間空間共分散行列推定部2は、例えば以下の式に基づいて時間空間共分散行列R
f
(j), P
f
(j)を推定する。ここでも、例えば雑音のパワーλ
t
(J+1)=1であるとする。
【数15】
また、この場合、音源分離部4は、例えば以下の式に基づいて音源jに対応する空間共分散行列Σ
f
(j)を求める。
【数16】
[第二実施形態]
第二実施形態の音響信号強調装置は、第一実施形態の音響信号強調装置とは異なり、全音源共通の残響抑圧フィルタG
fを用いて、全ての音源を同時に残響抑圧し、全音源共通の残響抑圧信号ベクトルZ
t,f∈C
M×1を求めるものである。
【0079】
以下、第一実施形態の音響信号強調装置とは異なる部分を中心に説明する。第一実施形態と同様の部分については重複説明を省略する。
【0080】
第二実施形態の音響信号強調装置は、第一実施形態の音響信号強調装置と同様に、
図3に示すように、初期化部1、時間空間共分散行列推定部2、残響抑圧部3、音源分離部4及び制御部5を例えば備えている。
【0081】
<初期化部1>
初期化部1の処理は、第一実施形態と同様である。
【0082】
<時間空間共分散行列推定部2>
時間空間共分散行列推定部2の処理は、第一実施形態と同様である。
【0083】
<残響抑圧部3>
残響抑圧部3には、第一実施形態と同様に、時間空間共分散行列推定部2で推定された時間空間共分散行列Rf
(j), Pf
(j)と、マイクmの観測信号xt,f
(m)から構成される観測信号ベクトルXt,fとが入力される。また、第二実施形態においては、残響抑圧部3には、初期化部1で初期化された分離行列Qf及び音源分離部4で更新された分離行列Qfが入力される。
【0084】
残響抑圧部3は、各音源jについて、推定された時間空間共分散行列Rf
(j),Pf
(j)を用いて、音源jの残響抑圧フィルタGf
(j)を求め、求まった残響抑圧フィルタGf
(j)から全音源に共通の残響抑圧フィルタGfを求め、求まった残響抑圧フィルタGfと、観測信号ベクトルXt,fとを用いて、観測信号xt,f
(m)に対応する残響抑圧信号zt,f
(m)から構成される残響抑圧信号ベクトルZt,fを生成する(ステップS3)。
【0085】
ここで、Zt,f=[zt,f
(1),…,zt,f
(M)]である。残響抑圧信号ベクトルZt,fは、全音源に共通の残響抑圧音ともいえる。
【0086】
生成された残響抑圧信号ベクトルZt,fは、音源分離部4に出力される。
【0087】
残響抑圧部3は、第一実施形態と同様にして、音源jの残響抑圧フィルタGf
(j)を求める。
【0088】
残響抑圧部3は、例えば以下の式に基づいて全音源に共通の残響抑圧フィルタG
fを求める。
【数17】
残響抑圧部3は、例えば以下の式に基づいて残響抑圧信号ベクトルZ
t,fを生成する。
【数18】
<音源分離部4>
音源分離部4には、残響抑圧部3で生成された残響抑圧信号ベクトルZ
t,fが入力される。
【0089】
音源分離部4は、目的音に対応する各音源j(1≦j≦J)について、残響抑圧部3で生成された残響抑圧信号ベクトルZt,fを用いて、音源jの強調音yt,f
(j)及び音源jのパワーλt
(j)を求める(ステップS4)。
【0090】
例えば、音源分離部4は、(1)生成された残響抑圧信号ベクトルZt,f及び音源jのパワーを用いて、音源jに対応する空間共分散行列Σf
(j)を求める処理と、(2)求まった空間共分散行列Σf
(j)を用いて、音源jに対応する分離フィルタQf
(j)を更新し、更新された分離フィルタQf
(j)及び生成された残響抑圧信号ベクトルZt,fを用いて音源jの強調音yt,f
(j)を更新し、更新された強調音yt,f
(j)を用いて音源jのパワーを更新する処理と、(3)更新された分離フィルタQf
(j)を用いて雑音分離行列QN,fを更新する処理とを繰り返すことで、最終的に音源jの強調音yt,f
(j)を求める。
【0091】
すなわち、音源分離部4は、(1)生成された残響抑圧信号ベクトルZt,f及び音源1,…,J+1のパワーλt
(1),…,λt
(J+1)を用いて、音源1,…,J+1に対応する空間共分散行列Σf
(1),…,Σf
(J+1)を求める処理と、(2)求まった空間共分散行列Σf
(1),…,Σf
(J)を用いて、音源1,…,Jに対応する分離フィルタQf
(1),…,Qf
(J)を更新し、更新された分離フィルタQf
(1),…,Qf
(J)及び残響抑圧信号ベクトルZt,fを用いて音源1,…,Jの強調音yt,f
(1),…,yt,f
(J)を更新し、更新された強調音yt,f
(1),…,yt,f
(J)を用いて音源1,…,Jのパワーλt
(1),…,λt
(J)を更新する処理と、(3)更新された分離フィルタQf
(1),…,Qf
(J)を用いて雑音分離行列QN,fを更新する処理とを繰り返すことで、最終的に音源1,…,Jの強調音yt,f
(1),…,yt,f
(J)を求める。
【0092】
第二実施形態の音源分離部4は、第一実施形態とは異なり、例えば以下の式に基づいて、空間共分散行列Σ
f
(j)を求める。
【数19】
また、第二実施形態の音源分離部4は、第一実施形態とは異なり、例えば以下の式に基づいて音源jの強調音y
t,f
(j)を更新する。
【数20】
【数21】
さらに、第二実施形態の音源分離部4は、第一実施形態とは異なり、更新した分離行列Q
fを残響抑圧部3に出力する。
【0093】
音源分離部4のこれら以外の処理は、第一実施形態と同様である。
【0094】
<制御部5>
制御部5の処理は、第一実施形態と同様である。
【0095】
[実験結果]
雑音、残響のある環境下で同時に話す二人の声を、8本のマイクで収録した観測信号から、第一実施形態の音響信号強調装置により、雑音抑圧、残響抑圧、音源分離を行った。
【0096】
音響信号強調の処理を行わなかった場合の音声認識の平均単語誤り率は、62.49 %であった。また、従来法による音響信号強調を行った場合の音声認識の平均単語誤り率は、19.54 %であった。
【0097】
これに対して、第一実施形態の音響信号強調装置により音響信号強調を行った場合の音声認識の平均単語誤り率は25.65 %であり、第一実施形態の第一変形例の音響信号強調装置により音響信号強調を行った場合の音声認識の平均単語誤り率は16.31 %であり、第一実施形態の第一変形例の音響信号強調装置により音響信号強調を行った場合の音声認識の平均単語誤り率は13.24 %であった。
【0098】
これらの結果から、上記の音響信号強調装置により、全体として最適な処理を行うことができ、従来よりも効率的に音響信号強調ができていることがわかる。
【0099】
[変形例]
以上、本発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、本発明に含まれることはいうまでもない。
【0100】
実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0101】
例えば、音響信号強調装置の構成部間のデータのやり取りは直接行われてもよいし、図示していない記憶部を介して行われてもよい。
【0102】
[プログラム、記録媒体]
上述した各装置の各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを
図5に示すコンピュータ1000の記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0103】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。
【0104】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0105】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部1020に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Applicatioj Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0106】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0107】
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。