(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-19
(45)【発行日】2022-08-29
(54)【発明の名称】信号処理装置、信号処理方法及び信号処理プログラム
(51)【国際特許分類】
G10L 25/51 20130101AFI20220822BHJP
G10L 21/0272 20130101ALI20220822BHJP
【FI】
G10L25/51
G10L21/0272 100A
(21)【出願番号】P 2019026899
(22)【出願日】2019-02-18
【審査請求日】2021-05-27
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】305027401
【氏名又は名称】東京都公立大学法人
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】荒木 章子
(72)【発明者】
【氏名】木下 慶介
(72)【発明者】
【氏名】デルクロア マーク
(72)【発明者】
【氏名】小野 順貴
【審査官】大野 弘
(56)【参考文献】
【文献】特開2014-174393(JP,A)
【文献】国際公開第2018/037643(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/51
(57)【特許請求の範囲】
【請求項1】
サンプリング周波数が異なる複数の録音端末により収録された音響信号を処理する信号処理装置であって、
基準となる参照端末において収録された参照信号と、サンプリング周波数のミスマッチ量の推定対象である対象端末において収録された1または複数の対象信号とを所定の時間間隔で切り出して周波数領域の信号に変換し、周波数領域変換後の参照信号及び対象信号を基に、収録した音源の空間的定常性が高い時間区間である空間的定常区間を推定する第1の推定部と、
前記空間的定常区間における周波数領域変換後の参照信号及び対象信号を用いて、サンプリング周波数のミスマッチ量を推定する第2の推定部と、
を有することを特徴とする信号処理装置。
【請求項2】
サンプリング周波数が異なる複数の録音端末により収録された音響信号を処理する信号処理装置であって、
基準となる参照端末において収録された参照信号、サンプリング周波数のミスマッチ量の推定
対象である対象端末において収録された1または複数の対象信号、または、その他の録音端末において収録されたサブアレイ信号を所定の時間間隔で切り出して周波数領域の信号に変換し、周波数領域変換後の参照信号、対象信号またはサブアレイ信号を基に、収録した音源の空間的定常性が高い時間区間である空間的定常区間を推定する第1の推定部と、
前記空間的定常区間における周波数領域変換後の参照信号及び対象信号を用いて、サンプリング周波数のミスマッチ量を推定する第2の推定部と、
を有することを特徴とする信号処理装置。
【請求項3】
前記第1の推定部は、所定の時間で切り出した各時間フレームを、空間的特徴量に基づいてクラスタリングするクラスタリング部を有することを特徴とする請求項1または2に記載の信号処理装置。
【請求項4】
前記第1の推定部は、前記クラスタリング部によってクラスタリングされたクラスのうち定常的な信号に対応するクラスを、尤度に基づいて推定する第3の推定部をさらに有することを特徴とする請求項3に記載の信号処理装置。
【請求項5】
サンプリング周波数が異なる複数の録音端末により収録された音響信号を処理する信号処理装置が実行する信号処理方法であって、
基準となる参照端末において収録された参照信号と、サンプリング周波数のミスマッチ量の推定対象である対象端末において収録された1または複数の対象信号とを所定の時間間隔で切り出して周波数領域の信号に変換し、周波数領域変換後の参照信号及び対象信号を基に、収録した音源の空間的定常性が高い時間区間である空間的定常区間を推定する第1の推定工程と、
前記空間的定常区間における周波数領域変換後の参照信号及び対象信号を用いて、サンプリング周波数のミスマッチ量を推定する第2の推定工程と、
を含んだことを特徴とする信号処理方法。
【請求項6】
サンプリング周波数が異なる複数の録音端末により収録された音響信号を処理する信号処理装置が実行する信号処理装置であって、
基準となる参照端末において収録された参照信号、サンプリング周波数のミスマッチ量の推定
対象である対象端末において収録された1または複数の対象信号、または、その他の録音端末において収録されたサブアレイ信号を所定の時間間隔で切り出して周波数領域の信号に変換し、周波数領域変換後の参照信号、対象信号またはサブアレイ信号を基に、収録した音源の空間的定常性が高い時間区間である空間的定常区間を推定する第1の推定工程と、
前記空間的定常区間における周波数領域変換後の参照信号及び対象信号を用いて、サンプリング周波数のミスマッチ量を推定する第2の推定工程と、
を含んだことを特徴とする信号処理方法。
【請求項7】
コンピュータを、請求項1~4のいずれか一つに記載の信号処理装置として機能させるための信号処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号処理装置、信号処理方法及び信号処理プログラムに関する。
【背景技術】
【0002】
音響信号分析の分野において、分散マイクロホンアレイ技術がある。分散マイクロホンアレイとは、例えば、ICレコーダーやスマートホンなどの収録用端末を複数台利用し、マイクロホンアレイとして利用するものである。一般に、分散マイクロホンアレイでは、端末ごとに異なるA/D変換を実施するため、サンプリングの同期がとれていない信号が収録される。さらに、全端末においてサンプリング周波数をf0kHz(例えば16kHz)などと設定しても、実際のサンプリング周波数は、機器ごとにわずかに異なる。
【先行技術文献】
【特許文献】
【0003】
【非特許文献】
【0004】
【文献】S. Miyabe, N. Ono and S. Makino, “BLIND COMPENSATION OF INTER-CHANNEL SAMPLING FREQUENCY MISMATCH WITH MAXIMUM LIKELIHOOD ESTIMATION IN STFT DOMAIN”, in Proc. ICASSP2013, pp. 674-678, 2013.
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、サンプリング周波数がわずかに異なる複数の録音端末により収録された音響信号があるとする。ここでは、すべての端末が同期する2マイクを有するステレオ録音端末であるとして説明する。なお、全ての端末が複数マイクを所持していれば、3マイク以上の場合にも一般化できる。そして、音響信号のうち、サンプリング周波数の基準となる端末での収録信号を参照信号とし、サンプリング周波数のミスマッチ量を求めたい対象端末での収録信号を対象信号とする。
【0006】
参照端末および対象端末は、それぞれステレオ信号とする。参照端末での収録信号(連続時間信号)である参照信号を、x1[t]=[x1L[t],x1R[t]]Tとする。対象端末での収録信号(連続時間信号)である対象信号を、x2[t]=[x2L[t],x2R[t]]Tとする。L,Rは、それぞれ左チャネル、右チャネルを表し、まとめてBと表す。
【0007】
なお、ここでは簡単のためLR2マイクの録音端末を考えるが、3マイク以上の録音端末にも一般化できる。また、対象信号は、x2の1個だけでなく、N個あってもよい(xd(d=2,・・・,N+1))が、ここでは簡単のため対象信号の数が1の場合について述べる。
【0008】
各端末のサンプリング周波数は時不変であると仮定すると、x1B(t)及びx2B(t)(B=LまたはR)の離散時間信号は、(1)式及び(2)式で示される。
【0009】
【0010】
Tは、録音開始時刻のずれを表すパラメータであり、εは、サンプリング周波数ミスマッチ量を表すパラメータである。また、以降の説明では、x1B(t)を参照信号とし、x2B(t)をミスマッチ量推定の対象信号とする。これらのパラメータのうち、録音開始時刻のずれTについては、x1B(t)とx2B(t)との相互相関のピーク値をとるTを用いるなどの方法によって、比較的容易に求められる。このため、Tは、既に与えられているものとする。
【0011】
そして、サンプリング周波数ミスマッチ量εを求めるための従来方法として、特許文献1に記載された方法や、非特許文献1に記載された方法がある。まず、従来方法では、x2B(t)について、窓関数w(i)を用いて短い時間区間で切り出し、切り出した対象信号を、(3)式のように、フーリエ変換を実行して周波数領域に変換する。
【0012】
【0013】
ここで、Iは窓関数の長さである。fは、離散周波数インデックスである。nは、窓の中心にあたる時間サンプルである。jは、虚数単位√-1である。窓で切り出した時間区間を、以後フレームと呼ぶ。従来方法では、x1B(t)とx2B(t)との時間差が、サンプリング周波数のミスマッチのみにより生じること、また、サンプリング周波数ミスマッチ量εは、フレーム内で一定であること、の2つを仮定し、サンプリング周波数ミスマッチを、短時間フーリエ変換(STFT:Short Time Fourier Transform)領域での線形位相シフトで補償することを考える((4)式参照)。
【0014】
【0015】
ここで、観測された音源は定常かつ位置移動がないと仮定すると、STFTを行った参照信号、および、εを用いてサンプリング周波数のミスマッチを補償した対象信号をまとめた観測信号ベクトルY(f,n;ε)は、各周波数で定常であると仮定できる。観測信号ベクトルY(f,n;ε)を、(5)式に示す。
【0016】
【0017】
正確なεで補償され定常性を回復した2端末の観測信号ベクトルY(f,n;ε)が、共分散行列VY(f)のゼロ平均多変量複素正規分布に従うと仮定すると、その対数尤度は、(6)式で与えられる。
【0018】
【0019】
ここで、Hは、複素共役転置である。VY(f)=ΣnY(f,n;ε)YH(f,n;ε)/|∀n|は、共分散行列の最尤推定量である。Dは、Yの次元(ここでは、D=4)である。|∀n|はフレーム数である。
【0020】
サンプリング周波数ミスマッチ量εは、上記の対数尤度関数を最大にするように求める。この尤度最大化は、解析的に解けないが、黄金比探索で効率的に最尤のεを求めることができる(特許文献1及び非特許文献1参照)。
【0021】
しかしながら、従来方法では、以下に述べる問題点があった。従来方法では、音源が移動しないと仮定して、x1B(t)とx2B(t)との時間差がサンプリング周波数のミスマッチのみにより生じることを仮定していた。したがって、従来方法では、録音時間中に音源が移動すると、この仮定が崩れ、サンプリング周波数ミスマッチ量εを正確に推定することができなかった。
【0022】
本発明は、上記に鑑みてなされたものであって、録音時間中に音源が移動する場合にも、機器間のサンプリング周波数のずれ量であるミスマッチ量を精度よく推定することができる信号処理装置、信号処理方法及び信号処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0023】
上述した課題を解決し、目的を達成するために、本発明に係る信号処理装置は、サンプリング周波数が異なる複数の録音端末により収録された音響信号を処理する信号処理装置であって、基準となる参照端末において収録された参照信号と、サンプリング周波数のミスマッチ量の推定対象である対象端末において収録された1または複数の対象信号とを所定の時間間隔で切り出して周波数領域の信号に変換し、周波数領域変換後の参照信号及び対象信号を基に、収録した音源の空間的定常性が高い時間区間である空間的定常区間を推定する第1の推定部と、空間的定常区間における周波数領域変換後の参照信号及び対象信号を用いて、サンプリング周波数のミスマッチ量を推定する第2の推定部と、を有することを特徴とする。
【0024】
また、本発明に係る信号処理装置は、サンプリング周波数が異なる複数の録音端末により収録された音響信号を処理する信号処理装置であって、基準となる参照端末において収録された参照信号、サンプリング周波数のミスマッチ量の推定である対象端末において収録された1または複数の対象信号、または、その他の録音端末において収録されたサブアレイ信号を所定の時間間隔で切り出して周波数領域の信号に変換し、周波数領域変換後の参照信号、対象信号またはサブアレイ信号を基に、収録した音源の空間的定常性が高い時間区間である空間的定常区間を推定する第1の推定部と、空間的定常区間における周波数領域変換後の参照信号及び対象信号を用いて、サンプリング周波数のミスマッチ量を推定する第2の推定部と、を有することを特徴とする。
【発明の効果】
【0025】
本発明によれば、録音時間中に音源が移動する場合にも、機器間のサンプリング周波数のずれ量であるミスマッチ量を精度よく推定することができる。
【図面の簡単な説明】
【0026】
【
図1】
図1は、実施の形態1に係る信号処理装置の機能を模式的に示す図である。
【
図2】
図2は、
図1に示す空間的定常区間推定部の機能を模式的に示す図である。
【
図3】
図3は、
図1に示すサンプリング周波数ミスマッチ量推定部の機能を模式的に示す図である。
【
図4】
図4は、実施の形態1に係る信号処理の処理手順を示すフローチャートである。
【
図5】
図5は、
図4に示す空間的定常区間推定処理の処理手順を示すフローチャートである。
【
図6】
図6は、実施の形態2に係る信号処理装置の機能を模式的に示す図である。
【
図7】
図7は、
図6に示す空間的定常区間推定部の機能を模式的に示す図である。
【
図8】
図8は、実施の形態2に係る信号処理の処理手順を示すフローチャートである。
【
図9】
図9は、評価実験における収録条件を示す図である。
【
図10】
図10は、シナリオ1の場合のクラスタリングの例を示す図である。
【
図11】
図11は、クラス1~5におけるサンプリング周波数ミスマッチ量推定の対数尤度関数J(ε)の形状を示す図である。
【
図12】
図12は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。
【発明を実施するための形態】
【0027】
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。また、以下、「“^A”を“Aの直上に^を付した記号”」と同等であるとする。
【0028】
[実施の形態1]
実施の形態1について説明する。実施の形態1として、例えば、雑音除去、残響除去、音源分離などを行うマイクロホンアレイ用の音声強調装置の前段に設けられる、サンプリング周波数ミスマッチ量を推定する信号処理装置について説明する。
【0029】
実際の録音では、音源は動き続けるわけではなく、止まっている時間区間があると期待できる。例えば、会議室では、話者が席間を移動する時間空間や話者がホワイトボードの前に移動する時間空間もあると考えられる一方、ある席やホワイトボードの前では話者が止まっている時間区間もあると考えられる。また、話者が話しながら移動することが多い場合でも、場所が固定されている雑音源(空調やプロジェクタなど)が存在する録音環境は多い。本実施の形態1では、そのような実用的に起こりうる空間的定常性を利用してサンプリング周波数ミスマッチ量を高精度に推定する。
【0030】
具体的には、本実施の形態1による信号処理では、録音区間の中で、空間的な定常性が仮定できる時間区間を推定し、その時間区間のみを利用してサンプリング周波数ミスマッチ量を推定し、録音中に音源が動く場合でも高精度にサンプリング周波数ミスマッチ量を推定する。本実施の形態1では、この空間的な定常性が仮定できる空間的定常な時間区間を推定する方法を提供する。
【0031】
[信号処理装置]
図1は、実施の形態1に係る信号処理装置の機能を模式的に示す図である。
図1に示すように、実施の形態1に係る信号処理装置10は、空間的定常区間推定部11(第1の推定部)及びサンプリング周波数ミスマッチ量推定部12(第2の推定部)を有する。信号処理装置10は、参照信号及び対象信号の入力を受け付けて、サンプリング周波数ミスマッチ量εを出力する。
【0032】
まず、信号処理装置10の処理対象である信号は、サンプリング周波数がわずかに異なる複数の録音端末により収録された音響信号である。説明の簡易化のため、本実施の形態1では、複数の録音端末のうちすべての端末が同期する2マイクを有するステレオ録音端末であるとして説明するが、全ての端末が、複数マイクを有していれば3マイク以上の場合にも一般化できる。収録された音響信号のうち、サンプリング周波数の基準となる参照端末での収録信号を参照信号とし、サンプリング周波数ミスマッチ量を求めたい対象端末での収録信号を対象信号とする。参照信号および対象信号は、それぞれステレオ信号とする。また、対象信号は複数あってもよい。
【0033】
空間的定常区間推定部11は、参照信号及び対象信号の入力を受け付ける。そして、空間的定常区間推定部11は、参照信号と対象信号とを所定の時間区間で切り出して周波数領域の信号に変換する。そして、空間的定常区間推定部11は、周波数領域変換後の信号において、収録した音源の空間的定常性が高い時間区間である空間的定常区間C^kを推定する。ここで、音源の空間的定常性が高くなるにしたがって、音源が定常かつ位置移動がなくなるといえる。
【0034】
サンプリング周波数ミスマッチ量推定部12は、空間的定常区間C^kにおける、周波数領域変換後の参照信号と対象信号とを用いて、サンプリング周波数ミスマッチ量εを推定する。サンプリング周波数ミスマッチ量推定部12は、推定したサンプリング周波数ミスマッチ量εを、例えば、マイクロホンアレイ用の音声強調装置に出力する。
【0035】
[空間的定常区間推定部]
次に、空間的定常区間推定部11について説明する。
図2は、
図1に示す空間的定常区間推定部11の機能を模式的に示す図である。
図2に示すように、空間的定常区間推定部11は、時間周波数領域変換部111、クラスタリング部112及び最尤クラス選択部113(第3の推定部)を有する。
【0036】
時間周波数領域変換部111は、入力された参照信号および対象信号を所定の短い時間区間で切り出して周波数領域の信号に変換する。対象信号は、1または複数である。時間周波数領域変換部111は、参照信号および対象信号をそれぞれ、例えば32msごとに窓関数で切り出した後、切り出した信号をフーリエ変換などで周波数領域に変換する。切り出した1区間をフレームと呼ぶ。
【0037】
クラスタリング部112は、切り出した時間フレームを、空間的特徴に基づいてクラスタリングする。
【0038】
最尤クラス選択部113は、クラスタリング部112によってクラスタリングされたクラスのうち、一番定常なクラスの区間を、空間的定常区間C^kとして推定する。最尤クラス選択部113は、クラスタリングされたクラスのうち定常的な信号に対応するクラスを、尤度に基づいて推定し、推定したクラスの区間を空間的定常区間C^kとする。
【0039】
次に、時間周波数領域変換部111、クラスタリング部112及び最尤クラス選択部113の処理の流れを説明する。まず、時間周波数領域変換部111は、参照信号と対象信号とを例えば、32msごとに窓関数で切り出し、切り出した信号をフーリエ変換などで周波数領域に変換する。d番目の端末の左チャネル・右チャネルの時間周波数(f,n)領域の観測信号Xd(f,n)を(7)式のように表記する。
【0040】
【0041】
d=1が参照信号であり、d=2が対象信号である。なお、本実施の形態1では、左右2チャネルの信号について説明するが、3チャネル以上でも同様の議論ができる。さらに、対象信号の数は2個以上あってもよい。言い換えると、d=2,・・・,N+1のN個の対象信号を用いてもよい。
【0042】
続いて、クラスタリング部112は、各時間フレームを、空間的に定常なクラスにクラスタリングする。これによって、各クラスを形成する時間フレームは、例えば、音源(雑音源を含む)が移動していない時間区間、移動音源ではあるが同じ位置にいると仮定できる時間区間、などに属すると考えることができる。クラスタリングのための尤度関数を作るため、まず、各信号Xd(f,n)がゼロ平均多変量複素正規分布に従うと仮定する。これに基づくと、ある時間フレームnがクラスkに属する対数尤度Lc(n;k)は、(8)式となる。
【0043】
【0044】
(8)式は、(6)式と異なり、各端末内の共分散行列のみから成っており、他の端末とのサンプリング周波数ミスマッチには影響されない。
【0045】
そして、クラスタリングのための目的関数は、(9)式のように与えられる。
【0046】
【0047】
(9)式において、Ckは、クラスkに属する時間フレームの集合である。クラスタリング部112は、始めにCkを初期化し、この目的関数を最大にするクラスタリング結果CkおよびVdkを、(10)式及び(11)式に示す更新式を数回反復することにより求める。(10)式は、共分散行列の更新式であり、(11)式は、クラスの更新式である。
【0048】
【0049】
そして、反復計算が収束した場合、最尤クラス選択部113は、(12-1)式に示すように、最も尤度の高いクラス^kを求め、求めたクラス^kを、最も空間的定常性の高いクラスとして選択する。または、最尤クラス選択部113は、(12-2)式に示すように、各時間フレーム単位の尤度のうち最も尤度の高いクラス^kを求め、求めたクラス^kを、最も空間的定常性の高いクラスとして選択する。
【0050】
【0051】
空間的定常区間推定部11は、最終的に、選択したクラス^kの時間区間C^kを、空間的定常区間として出力する。
【0052】
[サンプリング周波数ミスマッチ量推定部]
次に、サンプリング周波数ミスマッチ量推定部12について説明する。
図3は、
図1に示すサンプリング周波数ミスマッチ量推定部12の機能を模式的に示す図である。
図3に示すように、時間周波数領域変換部111と同様の機能を有する時間周波数領域変換部121及び最尤ε推定部122を有する。最尤ε推定部122は、空間的定常区間C
^kにおける、周波数領域変換後の参照信号と対象信号とを用いて、サンプリング周波数ミスマッチ量εを推定する。
【0053】
次に、時間周波数領域変換部121及び最尤ε推定部122の処理の流れを説明する。まず、時間周波数領域変換部121は、x2B(t)について、窓関数w(i)を用いて短い時間区間で切り出し、切り出した対象信号を、(13)式のように、フーリエ変換を実行して周波数領域に変換する。なお、Iは窓関数の長さである。fは、離散周波数インデックスである。nは、窓の中心にあたる時間サンプルである。jは、虚数単位√-1である。
【0054】
【0055】
本実施の形態1では、空間的定常区間C^kにおいては空間的定常性が高いため、音源が移動しないと仮定することができる。このため、x1B(t)とx2B(t)との時間差がサンプリング周波数のミスマッチのみにより生じること、また、サンプリング周波数ミスマッチ量εは、フレーム内で一定であること、の2つを仮定し、サンプリング周波数ミスマッチを、STFT領域での線形位相シフトで補償する((14)式参照)。
【0056】
【0057】
空間的定常区間C^kにおいては、観測された音源は空間的定常性が高く、位置移動がないと仮定できるため、STFTを行った参照信号、および、εを用いてサンプリング周波数のミスマッチを補償した対象信号をまとめた観測信号ベクトルY(f,n;ε)は、各周波数で定常であると仮定できる。観測信号ベクトルY(f,n;ε)を、(15)式に示す。
【0058】
【0059】
空間的定常区間C^kにおいて、正確なεで補償され定常性を回復した2端末の観測信号ベクトルY(f,n;ε)が、共分散行列VY(f)のゼロ平均多変量複素正規分布に従うと仮定すると、その対数尤度は、(16)式で与えられる。
【0060】
【0061】
ここで、Hは、複素共役転置である。VY(f)=ΣnY(f,n;ε)YH(f,n;ε)/|∀n|は、共分散行列の最尤推定量である。Dは、Yの次元(ここでは、D=4)である。|∀n|はフレーム数である。すなわち、サンプリング周波数ミスマッチ量推定部12は、最尤ε推定部122において、サンプリング周波数ミスマッチ量推定のための尤度関数である(16)式を、空間的定常性が高いクラスの時間フレームn∈C^kのみで計算する。
【0062】
最尤ε推定部122は、サンプリング周波数ミスマッチ量εを、(16)式に示す対数尤度関数を最大にするように求める。この尤度最大化は、黄金比探索で効率的に最尤εを求めることができる。
【0063】
[信号処理の処理手順]
次に、信号処理装置10による信号処理の処理手順について説明する。
図4は、実施の形態1に係る信号処理の処理手順を示すフローチャートである。
【0064】
図4に示すように、信号処理装置10では、参照信号、対象信号の入力を受け付けると(ステップS1)、空間的定常区間推定部11が、空間的定常区間C
^kを推定する空間的定常区間推定処理を実行する(ステップS2)。続いて、サンプリング周波数ミスマッチ量推定部12は、空間的定常区間C
^kにおける、周波数領域変換後の参照信号と対象信号とを用いて、(16)式を基にサンプリング周波数ミスマッチ量εを推定するサンプリング周波数ミスマッチ量推定処理を実行する(ステップS3)。サンプリング周波数ミスマッチ量推定部12は、推定したサンプリング周波数ミスマッチ量εを出力する(ステップS4)。
【0065】
[空間的定常区間推定処理の処理手順]
次に、
図4に示す空間的定常区間推定処理(ステップS2)について説明する。
図5は、
図4に示す空間的定常区間推定処理の処理手順を示すフローチャートである。
【0066】
図5に示すように、時間周波数領域変換部111は、入力された参照信号および対象信号の短い時間区間での切り出しと、周波数領域の信号に変換するためのフーリエ変換を行なう(ステップS11)。
【0067】
そして、クラスタリング部112は、クラスタリングCkの初期値を設定する(ステップS12)。クラスタリング部112は、(10)式を用いて、各クラスの共分散行列Vdkを計算する(ステップS13)。そして、クラスタリング部112は、(11)式を用いて、クラスのCkを更新する(ステップS14)。
【0068】
クラスタリング部112は、ステップS13,14を所定の回数繰り返したか、または、収束条件を満たすかを判定する(ステップS15)。収束条件は、例えば、前回と今回の対数尤度L((9)式参照)の差が所定の閾値以下になることである。クラスタリング部112は、ステップS13,14を所定の回数繰り返しておらず、収束条件を満たしていないと判定した場合(ステップS15:No)、ステップS13に戻り、ステップS13,14の演算処理を再度行う。
【0069】
一方、クラスタリング部112が、ステップS13,14を所定の回数繰り返したと判定した場合、または、収束条件を満たすと判定した場合(ステップS15:Yes)、最尤クラス選択部13は、(12)式に示すように、最も尤度の高いクラス^kを求め、求めたクラス^kを、最も空間的定常性の高いクラスとして選択する(ステップS16)。最尤クラス選択部13は、求めたクラス^kを基に、空間的定常区間C^kを出力する(ステップS17)。
【0070】
[実施の形態1の効果]
このように、本実施の形態1に係る信号処理装置10は、周波数領域変換後の参照信号及び対象信号を用いて、収録した音源の空間的定常性が高い時間区間である空間的定常区間C^kを推定する。そして、信号処理装置10は、この空間的定常区間C^kにおける、周波数領域変換後の参照信号と対象信号とを用いて、サンプリング周波数ミスマッチ量εを推定する。すなわち、信号処理装置10は、サンプリング周波数ミスマッチ量推定のための尤度関数である(16)式を、空間的定常性が高いクラスの時間フレームn∈C^kのみで計算する。
【0071】
したがって、信号処理装置10は、移動音源が有る場合であっても、高い精度で、機器間のわずかなサンプリング周波数のずれ(ミスマッチ)であるサンプリング周波数ミスマッチ量εを推定することが可能となる。すなわち、本実施の形態1に係る信号処理装置10は、録音中に音源が動く場合であっても、サンプリング周波数ミスマッチ量εの高精度での推定が可能である。このため、この推定結果を基に、サンプリング同期のない複数の録音端末による音響データの同期をとり、その同期のとれたデータに、同期のとれたマイクロホンアレイ用の音声強調技術を適用して、目的音声をクリアに抽出することが可能となる。
【0072】
[実施の形態2]
次に、実施の形態2について説明する。
図6は、実施の形態2に係る信号処理装置の機能を模式的に示す図である。
図7は、
図6に示す空間的定常区間推定部211の機能を模式的に示す図である。
【0073】
実施の形態2に係る信号処理装置210は、
図1に示す信号処理装置10と比して、空間的定常区間推定部211の入力として、参照信号を収録した端末及び対象信号を収録した端末とは別の端末で収録したサブアレイ信号を用いる。このサブアレイ信号は、参照信号や対象信号を含んでもよいし、含まなくてもよい。
【0074】
サブアレイ信号X´d(f,n)は、サンプリング周波数が同じ、或いは、互いにわずかに異なるS台(d=1,・・・,S)の録音端末を用いて収録したものである。S台の録音端末は、それぞれ2個以上の同期したマイクを有する。ここで、サブアレイ信号、参照信号、対象信号は、全て、STFTのフレーム分析でずれない程度にはゆるく同期がとれているものとする。
【0075】
具体的には、空間的定常区間推定部211は、参照信号及び対象信号に基づく観測信号Xd(f,n)に代えて、サブアレイ信号に基づくX´d(f,n)を用いて、空間的に定常な区間C^kを求めて出力する。具体的には、空間的定常区間推定部211では、時間周波数領域変換部2111が、各サブアレイ信号1~Sを、それぞれ窓関数で切り出し、切り出した信号をフーリエ変換などで周波数領域に変換する。クラスタリング部112は、実施の形態1と同様の処理を行って、各時間フレームを、空間的に定常なクラスにクラスタリングする。最尤クラス選択部113は、実施の形態1と同様の処理を行って、クラスタリングされたクラスのうち、最も尤度の高いクラス^kを、空間的定常区間C^kとして出力する。
【0076】
続いて、サンプリング周波数ミスマッチ量推定部12には、空間的定常区間推定部211がサブアレイ信号を用いて求めた空間的定常区間C^k、参照信号及び対象信号を入力として、実施の形態1と同様の処理を行って、サンプリング周波数ミスマッチ量εを推定し、出力する。なお、対象信号は複数あってもよい。
【0077】
[信号処理の処理手順]
次に、信号処理装置210による信号処理の処理手順について説明する。
図8は、実施の形態2に係る信号処理の処理手順を示すフローチャートである。
【0078】
図8に示すように、信号処理装置210では、サブアレイ信号の入力を受け付けると(ステップS21)、空間的定常区間推定部211が、ステップS2と同様の処理を行って、空間的定常区間C
^kを推定する(ステップS22)。続いて、サンプリング周波数ミスマッチ量推定部12は、参照信号、対象信号及び空間的定常区間C
^kの入力を受け付ける(ステップS23)。サンプリング周波数ミスマッチ量推定部12は、空間的定常区間C
^kにおける参照信号と対象信号とを用い、ステップS3と同様の処理を行って、サンプリング周波数ミスマッチ量εを推定し(ステップS24)、推定したサンプリング周波数ミスマッチ量εを出力する(ステップS25)。
【0079】
この実施の形態2に示すように、参照信号を収録した端末及び対象信号を収録した端末とは別の端末で収録したサブアレイ信号を用いて空間的定常区間C^kを推定することも可能である。
【0080】
[実施例1]
実施の形態1,2における信号処理装置10,210は、クラスタリングの特徴量として、共分散行列Vdk(f)に代えて、他の量を用いてもよい。例えば、信号処理装置10,210は、クラスタリングの特徴量として、各端末におけるLチャネルとRチャネルとのマイク間位相差φ(f,n)((17)式参照)、マイク間時間差τ(f,n)((18)式参照)、端末で推定した到来方向θ(f,n)((19)式参照)などを特徴量として、これを変量正規分布でモデル化してクラスタリングを行なってもよい。なお、(18)式において、Ffは、周波数インデックスfが示す周波数である。また、(19)式において、mは、マイク間距離である。
【0081】
【0082】
また、各端末が3チャネル以上ある場合は、それぞれの特徴量を各チャネル間で求めた個数分並べたベクトルを、3チャネル以上ある場合の特徴量として用いればよい。
【0083】
また、ノルム正規化した観測信号ベクトル^Xd(f,n)((20)式参照)などを特徴量として、ゼロ平均多変量複素正規分布でモデル化してクラスタリングを行なってもよい。
【0084】
【0085】
[実施例2]
実施の形態1,2では、(11)式に示すように、データが1つのクラスに属する形で出力するハードクラスタリング法を用いたが、データが複数のクラスに属することを許すソフトクラスタリング法を用いることもできる。ソフトクラスタリング法を用いた場合、クラスタリング部112は、データが各クラスに属する度合いを出力する。
【0086】
[実施例3]
サンプリング周波数ミスマッチ量推定部12は、サンプリング周波数ミスマッチ量推定方法として他の方法を用いてもよい。たとえば、サンプリング周波数ミスマッチ量推定部12は、X1Bと^X2Bとの相関を最大にするεを求めてもよい(例えば、L.Wang and S. Doclo, “Correlation Maximization Based Sampling Rate Offset Estimation for Distributed Microphone Arrays”, IEEE Trans. Audio, Speech and Language Processing, vol. 24, no. 3, pp.571-582, March 2016.参照)。
【0087】
また、サンプリング周波数ミスマッチ量推定部12は、フレーム毎に、X1Bと^X2Bとのコヒーレンス関数を求め、隣接フレームのコヒーレンス関数を複数フレームで平均し、その位相差を周波数方向にも平均をとってεを求めてもよい(例えば、S. Markovich-Golan, S. Gannot, and I. Cohen, “BLIND SAMPLING RATE OFFSET ESTIMATION AND COMPENSATION IN WIRELESS ACOUSTIC SENSOR NETWORKS WITH APPLICATION TO BEAMFORMING”, in Proc. of IWAENC2012, 2012.参照)。
【0088】
また、サンプリング周波数ミスマッチ量推定部12は、複数の隣接フレームのコヒーレンス関数の位相差から最小二乗法を用いてεを求めてもよい(例えば、M. H. Bahari, A. Bertrand, and M. Moonen, “Blind sampling rate offset estimation for wireless acoustic sensor networks through weighted least-squares coherence drift estimation”, IEEE Trans. Audio, Speech and Language Processing, vol. 25, no. 3, pp. 674-686, 2017.参照参照)。また、サンプリング周波数ミスマッチ量推定部12は、任意のサンプリング周波数ミスマッチ量推定方法を用いてもよい。
【0089】
[評価実験]
次に、実施の形態1を用いて評価実験を行った。
図9は、評価実験における収録条件を示す図である。
【0090】
図9に示すように、6台のICレコーダーA1-1,A1-2,A2-1,A2-2,B1-1,B1-2で移動音源を収録し、サンプリング周波数ミスマッチ量推定の実験を行なった。評価実験では、ICレコーダーA1-1によって収録された音響信号を参照信号とし、ICレコーダーA1-2,A2-1,A2-2,B1-1,B1-2によって収録された音響信号を対象信号とする。音源は、男性或いは女性の話者であり、以下の2つのシナリオで移動しながら音声を読み上げた。
シナリオ1:1方向に移動(ルートは4種類:A→B,B→A,C→D,D→C)
シナリオ2:ある直線上を2往復(ルートは4種類:A→B→A→B→A,B→A→B→A→B,C→D→C→D→C,D→C→D→C→D)
【0091】
そして、この評価実験では、各端末のサンプリング周波数を44.1kHzに設定した。また、評価実験では、STFTのフレーム長は4096、フレームシフト長を2048とした。ここで、評価実験は、参照信号及び対象信号に基づいて空間的定常区間C^kを推定する実施の形態1に係る信号処理方法と、空間的定常区間C^kの推定を行わずにサンプリング周波数ミスマッチ量を求める従来方法とを用いている。
【0092】
図10は、シナリオ1の場合のクラスタリングの例を示す図である。ここではクラス数5としてクラスタリングを行なった。
図10の(1)は、クラスタリングの初期値を示す。
図10の(2)は、クラスタリング結果を示す。
図10の(3)は、対象信号のLチャネルにおける観測波形を示す。
図11は。クラス1~5におけるサンプリング周波数ミスマッチ量推定の対数尤度関数J(ε)の形状を示す図である。
【0093】
空間的定常区間推定部11は、対数尤度Σn∈C^kLc(n;k)(k=1,・・・,5)の値として、それぞれ、-1.5e5,+1.9e4,-2.1e5,-1.4e5,+5.7e5を求め、このうち、最大尤度のクラス5を選択した。また、εの正解値-3.92(ppm)に対し、各クラスでのεの推定値は、それぞれ105.13,-2.98,17.23,-84.34,-3.90(ppm)であった。空間的定常区間推定部11において、選択したクラス5で、正確なεを求めることができていることを評価できた。
【0094】
次に、表1,2に、シナリオ1、シナリオ2の場合のεの推定結果を示す。
【0095】
【0096】
【0097】
シナリオ1では、ルート4種類×話者2名の8通り、シナリオ2では、ルート2種類×話者2名の4通りの実験の、それぞれ平均値を求めた。表1,2において、ε_oraは正解の値を示し、ε_convは従来方法での推定値を示し、ε_propは実施の形態1に係る信号処理方法による推定値を示す。表1,2に示すように、従来方法では、シナリオ1、シナリオ2とも、正しいεの推定ができていないことが分かる。これに対し実施の形態1に係る信号処理方法では、シナリオ1、シナリオ2のいずれに対しても、正解値に近いεを推定できており、音源移動がある場合であっても高精度なサンプリング周波数ミスマッチ量の推定ができていることが分かる。
【0098】
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0099】
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0100】
[プログラム]
図12は、プログラムが実行されることにより、信号処理装置10,210が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0101】
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0102】
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号処理装置10,210の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、信号処理装置10,210における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
【0103】
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
【0104】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0105】
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
【符号の説明】
【0106】
10,210 信号処理装置
11,211 空間的定常区間推定部
12 サンプリング周波数ミスマッチ量推定部
111,121,2111 時間周波数領域変換部
112 クラスタリング部
113 最尤クラス選択部
122 最尤ε推定部