IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 公立大学法人首都大学東京の特許一覧

特開2024-160451音源信号推定装置、音源信号推定方法、プログラム
<>
  • 特開-音源信号推定装置、音源信号推定方法、プログラム 図1
  • 特開-音源信号推定装置、音源信号推定方法、プログラム 図2
  • 特開-音源信号推定装置、音源信号推定方法、プログラム 図3
  • 特開-音源信号推定装置、音源信号推定方法、プログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024160451
(43)【公開日】2024-11-14
(54)【発明の名称】音源信号推定装置、音源信号推定方法、プログラム
(51)【国際特許分類】
   G10L 21/028 20130101AFI20241107BHJP
【FI】
G10L21/028 B
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023075445
(22)【出願日】2023-05-01
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り ウェブサイト掲載日:2023年3月1日(予稿日)(発表日2023年3月17日) ウェブサイトのアドレス:一般社団法人日本音響学会 日本音響学会第149回(2023年春季)研究発表会 https://acoustics.jp/annualmeeting/
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】305027401
【氏名又は名称】東京都公立大学法人
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】池下 林太郎
(72)【発明者】
【氏名】荒木 章子
(72)【発明者】
【氏名】中谷 智広
(72)【発明者】
【氏名】中嶋 大志
(72)【発明者】
【氏名】小野 順貴
(57)【要約】
【課題】マイクロホンの数が多くても高速に動作する音源追跡技術を提供する。
【解決手段】分離行列W(f, t-1)を用いて、観測信号x(f, t)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t)を計算する第1計算部と、近似分離信号^y(f, t)を用いて、値rk(t)を更新する第2計算部と、近似分離信号^y(f, t)と値rk(t)を用いて、k=λに対しては重みGλ(f, t)を更新し、k≠λに対しては重みGk(f, t)と重みgk(f, t)を更新する第3計算部と、重みGk(f, t)と重みgk(f, t)を用いて、分離行列W(f, t)と分離信号y(f, t)を更新する第4計算部とを含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
x(f, t)(f=1, …, F, t=T’+1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックス、T’は1以上の整数)をK個(ただし、Kは2以上の整数)のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、yk(f, t)(k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源からの信号(以下、第k音源信号という)の推定信号である第k分離信号、y(f, t)=[y1(f, t),…, yK(f, t)]T (f=1, …, F, t=T’+1, …,T)を分離信号、wk(f, t) (k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源信号を分離するためのフィルタである第k分離フィルタ、W(f, t)=[w1(f, t),…, wK(f, t)]H (f=1, …, F, t=T’+1, …,T)を分離行列とし、
K個の音源のうち、第λ音源(ただし、λは1≦λ≦Kを満たす)は移動し、第λ音源以外のK-1個の音源は移動しないものとし、
分離行列W(f, t)の初期値W(f, T’) (f=1, …, F)は得られているものとし、
時間フレームtをt<-T’+1により初期化する初期化部と、
分離行列W(f, t-1) (f=1, …, F)を用いて、観測信号x(f, t) (f=1, …, F)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する第1計算部と、
近似分離信号^y(f, t) (f=1, …, F)を用いて、値rk(t) (k=1, …, K)を更新する第2計算部と、
近似分離信号^y(f, t) (f=1, …, F)と値rk(t) (k=1, …, K)を用いて、k=λに対しては重みGλ(f, t) (f=1, …, F)を更新し、k≠λに対しては重みGk(f, t) (f=1, …, F)と重みgk(f, t) (f=1, …, F)を更新する第3計算部と、
重みGk(f, t) (k=1, …, K, f=1, …, F)と重みgk(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を用いて、分離行列W(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する第4計算部と、
時間フレームtをt<-t+1により更新し、t>Tを満たす場合は処理を終了し、それ以外の場合は第1計算部の処理に戻る終了条件判定部と、
を含む音源信号推定装置。
【請求項2】
請求項1に記載の音源信号推定装置であって、
前記第1計算部は、次式により、近似分離信号^y(f, t) (f=1, …, F)を計算するものであり、
【数40】

前記第2計算部は、次式により、値rk(t) (k=1, …, K)を更新するものであり、
【数41】

αを0<α≦1を満たす定数、φ(r)をφ(r)=ψ’(r)/2r(ただし、ψ(r)は0以上の実数の集合R≧0から実数の集合Rへの微分可能な関数であり、ψ’はψの微分を表す)により定義される音源の特性を表す関数とし、
前記第3計算部は、次式により、重みGk(f, t) (k=1, …, K, f=1, …, F), gk(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を更新するものであり、
【数42】

【数43】

前記第4計算部は、次式により、分離行列W(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新するものである
【数44】

【数45】

ことを特徴とする音源信号推定装置。
【請求項3】
x(f, t)(f=1, …, F, t=T’+1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックス、T’は1以上の整数)をK個(ただし、Kは2以上の整数)のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、yk(f, t)(k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源からの信号(以下、第k音源信号という)の推定信号である第k分離信号、y(f, t)=[y1(f, t),…, yK(f, t)]T (f=1, …, F, t=T’+1, …,T)を分離信号、wk(f, t) (k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源信号を分離するためのフィルタである第k分離フィルタ、W(f, t)=[w1(f, t),…, wK(f, t)]H (f=1, …, F, t=T’+1, …,T)を分離行列とし、
K個の音源のうち、第λ音源(ただし、λは1≦λ≦Kを満たす)は移動し、第λ音源以外のK-1個の音源は移動しないものとし、
分離行列W(f, t)の初期値W(f, T’) (f=1, …, F)は得られているものとし、
時間フレームtをt<-T’+1により初期化する初期化部と、
W(f, t-1)=~Q(f, t-1)W(f, T’)を満たす補助分離行列~Q(f, t-1) (f=1, …, F)を用いて、観測信号x(f, t) (f=1, …, F)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する第1計算部と、
近似分離信号^y(f, t) (f=1, …, F)を用いて、値rk(t) (k=1, …, K)を更新する第2計算部と、
近似分離信号^y(f, t) (f=1, …, F)と値rk(t) (k=1, …, K)を用いて、k=λに対しては重みGλ(f, t) (f=1, …, F)を更新し、k≠λに対しては重みGk(f, t) (f=1, …, F)と重みgk(f, t) (f=1, …, F)を更新する第3計算部と、
重みGk(f, t) (k=1, …, K, f=1, …, F)と重みgk(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を用いて、補助分離行列~Q(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する第4計算部と、
時間フレームtをt<-t+1により更新し、t>Tを満たす場合は処理を終了し、それ以外の場合は第1計算部の処理に戻る終了条件判定部と、
を含む音源信号推定装置。
【請求項4】
請求項3に記載の音源信号推定装置であって、
前記第1計算部は、次式により、近似分離信号^y(f, t) (f=1, …, F)を計算するものであり、
【数46】

前記第2計算部は、次式により、値rk(t) (k=1, …, K)を更新するものであり、
【数47】

αを0<α≦1を満たす定数、φ(r)をφ(r)=ψ’(r)/2r(ただし、ψ(r)は0以上の実数の集合R≧0から実数の集合Rへの微分可能な関数であり、ψ’はψの微分を表す)により定義される音源の特性を表す関数とし、
前記第3計算部は、次式により、重みGk(f, t) (k=1, …, K, f=1, …, F), gk(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を更新するものであり、
【数48】

【数49】

前記第4計算部は、次式により、補助分離行列~Q(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新するものである
【数50】

【数51】

(ただし、ekは第k要素が1、それ以外の要素は0である単位ベクトル)
【数52】

(ただし、~Q(f, T’)は単位行列)
【数53】

ことを特徴とする音源信号推定装置。
【請求項5】
x(f, t)(f=1, …, F, t=T’+1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックス、T’は1以上の整数)をK個(ただし、Kは2以上の整数)のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、yk(f, t)(k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源からの信号(以下、第k音源信号という)の推定信号である第k分離信号、y(f, t)=[y1(f, t),…, yK(f, t)]T (f=1, …, F, t=T’+1, …,T)を分離信号、wk(f, t) (k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源信号を分離するためのフィルタである第k分離フィルタ、W(f, t)=[w1(f, t),…, wK(f, t)]H (f=1, …, F, t=T’+1, …,T)を分離行列とし、
K個の音源のうち、第λ音源(ただし、λは1≦λ≦Kを満たす)は移動し、第λ音源以外のK-1個の音源は移動しないものとし、
分離行列W(f, t)の初期値W(f, T’) (f=1, …, F)は得られているものとし、
音源信号推定装置が、時間フレームtをt<-T’+1により初期化する初期化ステップと、
前記音源信号推定装置が、分離行列W(f, t-1) (f=1, …, F)を用いて、観測信号x(f, t) (f=1, …, F)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する第1計算ステップと、
前記音源信号推定装置が、近似分離信号^y(f, t) (f=1, …, F)を用いて、値rk(t) (k=1, …, K)を更新する第2計算ステップと、
前記音源信号推定装置が、近似分離信号^y(f, t) (f=1, …, F)と値rk(t) (k=1, …, K)を用いて、k=λに対しては重みGλ(f, t) (f=1, …, F)を更新し、k≠λに対しては重みGk(f, t) (f=1, …, F)と重みgk(f, t) (f=1, …, F)を更新する第3計算ステップと、
前記音源信号推定装置が、重みGk(f, t) (k=1, …, K, f=1, …, F)と重みgk(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を用いて、分離行列W(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する第4計算ステップと、
前記音源信号推定装置が、時間フレームtをt<-t+1により更新し、t>Tを満たす場合は処理を終了し、それ以外の場合は第1計算部の処理に戻る終了条件判定ステップと、
を含む音源信号推定方法。
【請求項6】
x(f, t)(f=1, …, F, t=T’+1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックス、T’は1以上の整数)をK個(ただし、Kは2以上の整数)のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、yk(f, t)(k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源からの信号(以下、第k音源信号という)の推定信号である第k分離信号、y(f, t)=[y1(f, t),…, yK(f, t)]T (f=1, …, F, t=T’+1, …,T)を分離信号、wk(f, t) (k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源信号を分離するためのフィルタである第k分離フィルタ、W(f, t)=[w1(f, t),…, wK(f, t)]H (f=1, …, F, t=T’+1, …,T)を分離行列とし、
K個の音源のうち、第λ音源(ただし、λは1≦λ≦Kを満たす)は移動し、第λ音源以外のK-1個の音源は移動しないものとし、
分離行列W(f, t)の初期値W(f, T’) (f=1, …, F)は得られているものとし、
音源信号推定装置が、時間フレームtをt<-T’+1により初期化する初期化ステップと、
前記音源信号推定装置が、W(f, t-1)=~Q(f, t-1)W(f, T’)を満たす補助分離行列~Q(f, t-1) (f=1, …, F)を用いて、観測信号x(f, t) (f=1, …, F)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する第1計算ステップと、
前記音源信号推定装置が、近似分離信号^y(f, t) (f=1, …, F)を用いて、値rk(t) (k=1, …, K)を更新する第2計算ステップと、
前記音源信号推定装置が、近似分離信号^y(f, t) (f=1, …, F)と値rk(t) (k=1, …, K)を用いて、k=λに対しては重みGλ(f, t) (f=1, …, F)を更新し、k≠λに対しては重みGk(f, t) (f=1, …, F)と重みgk(f, t) (f=1, …, F)を更新する第3計算ステップと、
前記音源信号推定装置が、重みGk(f, t) (k=1, …, K, f=1, …, F)と重みgk(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を用いて、補助分離行列~Q(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する第4計算ステップと、
前記音源信号推定装置が、時間フレームtをt<-t+1により更新し、t>Tを満たす場合は処理を終了し、それ以外の場合は第1計算部の処理に戻る終了条件判定ステップと、
を含む音源信号推定方法。
【請求項7】
請求項1ないし4のいずれか1項に記載の音源信号推定装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のマイクロホンを用いて観測された混合音響信号に含まれる混合前の音源からの信号を逐次的に分離するオンライン音源分離技術に関する。
【背景技術】
【0002】
補聴器に内蔵されているマイクロホンにより集音された信号には、複数の音声信号や音響信号が混入する。補聴器の利用者が複数の音声信号や音響信号を高精度かつリアルタイムに聞き分けることができるようにするために、オンライン音源分離技術が盛んに研究されている。オンライン音源分離技術とは、複数のマイクロホンを用いて観測された混合音響信号(以下、単に観測信号という)から混合前の音源からの信号(以下、音源信号という)を逐次的に分離する技術のことである。
【0003】
以下、オンライン音源分離を短時間フーリエ変換領域における問題として定式化し説明する。
【0004】
K個(Kは2以上の整数)のマイクロホンを用いてK個の音源からの信号が観測されている状況を考える。ただし、K個の音源は移動してもよいものとする。fを周波数ビンを表すインデックス、tを時間フレームを表すインデックスとして、短時間フーリエ変換領域における観測信号x(f, t)(f=1, …, F, t=1, …,T)は以下のように表される。
【数1】

【数2】

【数3】

ここで、Cは複素数の集合を表し、sk(f, t)∈C (k=1, …, K)は第k音源からの信号(以下、第k音源信号という)、ak(f, t)∈CK (k=1, …, K)は第k音源のステアリングベクトルである。また、式(2)のTは転置を表す。
【0005】
yk(f, t)を第k音源信号sk(f, t)の推定信号(以下、第k分離信号という)、y(f, t)を式(4)で定義されるベクトル(以下、分離信号という)とする。
【数4】

式(5)で定義される分離行列W(f, t)を用いると、分離信号y(f, t)は観測信号x(f, t)から式(6)により得られる。
【数5】

【数6】

ここで、wk(f, t)∈CK (k=1, …, K)は第k音源信号を分離するためのフィルタ(以下、第k分離フィルタという)である。また、式(5)のHはエルミート転置を表す。
【0006】
オンライン音源分離は、K個の音源が移動する場合において、現在の時間フレームにおける観測信号やそれより前の時間フレームにおける観測信号を用いて現在の時間フレームにおける分離行列を逐次的に推定する問題として定式化される。特に、1個の音源のみが移動し、その他のK-1個の音源が移動しない場合は、音源追跡という。移動する1個の音源のことを目的音源、移動しないK-1個の音源のことを非目的音源という。第λ音源(λは1≦λ≦Kを満たす)が目的音源であるものとすると、第λ音源のステアリングベクトルaλ(f, t)は時間的に変化するが、その他の音源のステアリングベクトルak(f, t) (k≠λ)は時間的に変化しない。したがって、非目的音源のステアリングベクトルak(f, t) (k≠λ)は既知としてもよい。
【0007】
オンライン音源分離及び音源追跡を実現するアルゴリズムとして、例えば非特許文献1に開示されているアルゴリズムがある。非特許文献1のアルゴリズムを以下に示す。
【0008】
<<非特許文献1のアルゴリズム>>
------------------------------------------------------------------
1: for t=1, …, T
2: 観測信号x(f, t) (f=1, …, F)を取得する
3: 次式により、分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する。
【数7】

4: 次式により、第k重み付き共分散行列Vk(f, t) (k=1, …, K, f=1, …, F)を更新する。
【数8】

(ただし、αは0<α≦1を満たす定数)
【数9】

5: if オンライン音源分離
6: for k=1, …, K
7: 次式により、第k分離フィルタwk(f, t) (f=1, …, F)を更新する。
【数10】

【数11】

【数12】

8: eise if 音源追跡
9: 次式により、第λ分離フィルタwλ(f, t) (f=1, …, F)を更新する。
【数13】

【数14】

------------------------------------------------------------------
ここで、ステップ4におけるφ(r)はφ(r)=ψ’(r)/2r(ただし、ψ(r)は0以上の実数の集合R≧0から実数の集合Rへの微分可能な関数であり、ψ’はψの微分を表す)により定義される音源の特性を表す関数である。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】T. Nakashima and N. Ono, “Inverse-free online independent vector analysis with flexible iterative source steering,” in Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA), pp.750-754, 2022.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、非特許文献1のアルゴリズムの計算量は、ステップ4における重み付き共分散行列の計算をみればわかるように、オンライン音源分離、音源追跡のいずれの場合もO(K3)となり、補聴器のように計算能力が限られる機器ではマイクロホンの数が増加するとリアルタイムでの動作を保証することが困難となる。
【0011】
そこで本発明では、マイクロホンの数が多くても高速に動作する音源追跡技術を提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明の一態様は、x(f, t)(f=1, …, F, t=T’+1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックス、T’は1以上の整数)をK個(ただし、Kは2以上の整数)のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、yk(f, t)(k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源からの信号(以下、第k音源信号という)の推定信号である第k分離信号、y(f, t)=[y1(f, t),…, yK(f, t)]T (f=1, …, F, t=T’+1, …,T)を分離信号、wk(f, t) (k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源信号を分離するためのフィルタである第k分離フィルタ、W(f, t)=[w1(f, t),…, wK(f, t)]H (f=1, …, F, t=T’+1, …,T)を分離行列とし、K個の音源のうち、第λ音源(ただし、λは1≦λ≦Kを満たす)は移動し、第λ音源以外のK-1個の音源は移動しないものとし、分離行列W(f, t)の初期値W(f, T’) (f=1, …, F)は得られているものとし、時間フレームtをt<-T’+1により初期化する初期化部と、分離行列W(f, t-1) (f=1, …, F)を用いて、観測信号x(f, t) (f=1, …, F)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する第1計算部と、近似分離信号^y(f, t) (f=1, …, F)を用いて、値rk(t) (k=1, …, K)を更新する第2計算部と、近似分離信号^y(f, t) (f=1, …, F)と値rk(t) (k=1, …, K)を用いて、k=λに対しては重みGλ(f, t) (f=1, …, F)を更新し、k≠λに対しては重みGk(f, t) (f=1, …, F)と重みgk(f, t) (f=1, …, F)を更新する第3計算部と、重みGk(f, t) (k=1, …, K, f=1, …, F)と重みgk(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を用いて、分離行列W(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する第4計算部と、時間フレームtをt<-t+1により更新し、t>Tを満たす場合は処理を終了し、それ以外の場合は第1計算部の処理に戻る終了条件判定部と、を含む。
【0013】
本発明の一態様は、x(f, t)(f=1, …, F, t=T’+1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックス、T’は1以上の整数)をK個(ただし、Kは2以上の整数)のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、yk(f, t)(k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源からの信号(以下、第k音源信号という)の推定信号である第k分離信号、y(f, t)=[y1(f, t),…, yK(f, t)]T (f=1, …, F, t=T’+1, …,T)を分離信号、wk(f, t) (k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源信号を分離するためのフィルタである第k分離フィルタ、W(f, t)=[w1(f, t),…, wK(f, t)]H (f=1, …, F, t=T’+1, …,T)を分離行列とし、K個の音源のうち、第λ音源(ただし、λは1≦λ≦Kを満たす)は移動し、第λ音源以外のK-1個の音源は移動しないものとし、分離行列W(f, t)の初期値W(f, T’) (f=1, …, F)は得られているものとし、時間フレームtをt<-T’+1により初期化する初期化部と、W(f, t-1)=~Q(f, t-1)W(f, T’)を満たす補助分離行列~Q(f, t-1) (f=1, …, F)を用いて、観測信号x(f, t) (f=1, …, F)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する第1計算部と、近似分離信号^y(f, t) (f=1, …, F)を用いて、値rk(t) (k=1, …, K)を更新する第2計算部と、近似分離信号^y(f, t) (f=1, …, F)と値rk(t) (k=1, …, K)を用いて、k=λに対しては重みGλ(f, t) (f=1, …, F)を更新し、k≠λに対しては重みGk(f, t) (f=1, …, F)と重みgk(f, t) (f=1, …, F)を更新する第3計算部と、重みGk(f, t) (k=1, …, K, f=1, …, F)と重みgk(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を用いて、補助分離行列~Q(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する第4計算部と、時間フレームtをt<-t+1により更新し、t>Tを満たす場合は処理を終了し、それ以外の場合は第1計算部の処理に戻る終了条件判定部と、を含む。
【発明の効果】
【0014】
本発明によれば、マイクロホンの数が多い場合において高速に音源信号を推定することが可能となる。
【図面の簡単な説明】
【0015】
図1】音源信号推定装置100/200の構成を示すブロック図である。
図2】音源信号推定装置100の動作を示すフローチャートである。
図3】音源信号推定装置200の動作を示すフローチャートである。
図4】本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0017】
各実施形態の説明に先立って、この明細書における表記方法について説明する。
【0018】
^(キャレット)は上付き添字を表す。例えば、xy^zはyzがxに対する上付き添字であり、xy^zはyzがxに対する下付き添字であることを表す。また、_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
【0019】
ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
【0020】
<技術的背景>
非特許文献1の音源追跡を実現するアルゴリズムにおいて重み付き共分散行列を計算しないようにすることにより、計算量を抑制することを考える。以下に示すアルゴリズム1、アルゴリズム2は、いずれも非特許文献1の音源追跡を実現するアルゴリズムと等価であり、重み付き共分散行列を陽に計算しないようにしたアルゴリズムである。アルゴリズム1、アルゴリズム2は、重み付き共分散行列を陽に計算しないため、計算量がO(K2)となっている。
【0021】
まず、アルゴリズム1を示す。なお、アルゴリズム1、アルゴリズム2のいずれにおいても分離行列W(f, T’) (f=1, …, F)は得られているものとする。
<<アルゴリズム1>>
------------------------------------------------------------------
1: for t=T’+1, …, T
2: 観測信号x(f, t) (f=1, …, F)を取得する
3: 次式により、近似分離信号^y(f, t) (f=1, …, F)を計算する。
【数15】

4: 次式により、値rk(t) (k=1, …, K)を更新する。
【数16】

5: for f=1, …, F
6: 次式により、重みGk(f, t) (k=1, …, K), gk(f, t) (k=1, …, λ-1, λ+1, …, K)を更新する。
【数17】

【数18】

ここで、*は複素共役を表す。
7: 次式により、第k分離フィルタwk(f, t) (k=1, …, K)と第k分離信号yk(f, t) (k=1, …, K)を更新する。
【数19】

【数20】

------------------------------------------------------------------
【0022】
次に、アルゴリズム2を示す。
<<アルゴリズム2>>
------------------------------------------------------------------
1: for t=T’+1, …, T
2: 観測信号x(f, t) (f=1, …, F)を取得する
3: 次式により、近似分離信号^y(f, t) (f=1, …, F)を計算する。
【数21】

ただし、~Q(f, t-1)に対してW(f, t-1)=~Q(f, t-1)W(f, T’)が成り立つ。
4: 次式により、値rk(t) (k=1, …, K)を更新する。
【数22】

5: for f=1, …, F
6: 次式により、重みGk(f, t) (k=1, …, K), gk(f, t) (k=1, …, λ-1, λ+1, …, K)を更新する。
【数23】

【数24】

7: 次式により、補助分離行列Q(f, t), ~Q(f, t)と分離信号y(f, t)を更新する。
【数25】

【数26】

(ただし、ekは第k要素が1、それ以外の要素は0である単位ベクトル)
【数27】

(ただし、~Q(f, T’)は単位行列)
【数28】

------------------------------------------------------------------
<第1実施形態>
本実施形態では、アルゴリズム1に基づく音源追跡の形態について説明する。
【0023】
音源信号推定装置100は、K個(ただし、Kは2以上の整数)のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号x(f, t)(f=1, …, F, t=T’+1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックス、T’は1以上の整数)から分離信号y(f, t)=[y1(f, t),…, yK(f, t)]T(f=1, …, F, t=T’+1, …,T)(ただし、yk(f, t)(k=1, …, K, f=1, …, F, t=T’+1, …,T)は第k音源からの信号(以下、第k音源信号という)の推定信号である第k分離信号である)を推定する。その際、音源信号推定装置100は、分離行列W(f, t)=[w1(f, t),…, wK(f, t)]H (f=1, …, F, t=T’+1, …,T)(ただし、wk(f, t) (k=1, …, K, f=1, …, F, t=T’+1, …,T)は第k音源信号を分離するためのフィルタである第k分離フィルタである)を用いる。なお、K個の音源のうち、第λ音源(ただし、λは1≦λ≦Kを満たす)は移動し、第λ音源以外のK-1個の音源は移動しないものとする。
【0024】
以下、図1図2を参照して音源信号推定装置100を説明する。図1は、音源信号推定装置100の構成を示すブロック図である。図2は、音源信号推定装置100の動作を示すフローチャートである。図1に示すように音源信号推定装置100は、初期化部110と、第1計算部120と、第2計算部130と、第3計算部140と、第4計算部150と、終了条件判定部160と、記録部190を含む。記録部190は、音源信号推定装置100の処理に必要な情報を適宜記録する構成部である。記録部190は、例えば、所定の推定方法によりあらかじめ得られている分離行列W(f, t)の初期値W(f, T’) (f=1, …, F)を記録しておく。
【0025】
図2に従い音源信号推定装置100の動作について説明する。
【0026】
S110において、初期化部110は、時間フレームtをt<-T’+1により初期化する。
【0027】
S120において、第1計算部120は、分離行列W(f, t-1) (f=1, …, F)を用いて、観測信号x(f, t) (f=1, …, F)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する。第1計算部120は、次式により、近似分離信号^y(f, t) (f=1, …, F)を計算する。
【数29】

なお、観測信号x(f, t)(f=1, …, F, t=T’+1, …, T)は、第1計算部120に入力として与える代わりに、あらかじめ記録部190に記録しておいてもよい。
【0028】
S130において、第2計算部130は、近似分離信号^y(f, t) (f=1, …, F)を用いて、値rk(t) (k=1, …, K)を更新する。第2計算部130は、次式により、値rk(t) (k=1, …, K)を更新する。
【数30】

S140において、第3計算部140は、近似分離信号^y(f, t) (f=1, …, F)と値rk(t) (k=1, …, K)を用いて、k=λに対しては重みGλ(f, t) (f=1, …, F)を更新し、k≠λに対しては重みGk(f, t) (f=1, …, F)と重みgk(f, t) (f=1, …, F)を更新する。第3計算部140は、次式により、重みGk(f, t) (k=1, …, K, f=1, …, F), gk(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を更新する。
【数31】

【数32】

ただし、αは0<α≦1を満たす定数、φ(r)はφ(r)=ψ’(r)/2r(ただし、ψ(r)は0以上の実数の集合R≧0から実数の集合Rへの微分可能な関数であり、ψ’はψの微分を表す)により定義される音源の特性を表す関数である。
【0029】
S150において、第4計算部150は、重みGk(f, t) (k=1, …, K, f=1, …, F)と重みgk(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を用いて、分離行列W(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する。第4計算部150は、次式により、分離行列W(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する。
【数33】

【数34】

S160において、終了条件判定部160は、時間フレームtをt<-t+1により更新し、t>Tを満たす場合は処理を終了し、それ以外の場合はS120の処理に戻り、S120~S150の処理を繰り返す。終了条件判定部160は、処理の終了に際して、分離信号y(f, t) (f=1, …, F, t=T’+1, …, T)を出力してもよい。
【0030】
本発明の実施形態によれば、マイクロホンの数が多い場合において高速に音源信号を推定することが可能となる。
【0031】
<第2実施形態>
本実施形態では、アルゴリズム2に基づく音源追跡の形態について説明する。
【0032】
音源信号推定装置200は、K個(ただし、Kは2以上の整数)のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号x(f, t)(f=1, …, F, t=T’+1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックス、T’は1以上の整数)から分離信号y(f, t)=[y1(f, t),…, yK(f, t)]T(f=1, …, F, t=T’+1, …,T)(ただし、yk(f, t)(k=1, …, K, f=1, …, F, t=T’+1, …,T)は第k音源からの信号(以下、第k音源信号という)の推定信号である第k分離信号である)を推定する。その際、音源信号推定装置200は、分離行列W(f, t)=[w1(f, t),…, wK(f, t)]H (f=1, …, F, t=T’+1, …,T)(ただし、wk(f, t) (k=1, …, K, f=1, …, F, t=T’+1, …,T)は第k音源信号を分離するためのフィルタである第k分離フィルタである)の代わりにW(f, t)=~Q(f, t)W(f, T’)を満たす補助分離行列~Q(f, t) (f=1, …, F, t=T’+1, …,T)を用いる。なお、K個の音源のうち、第λ音源(ただし、λは1≦λ≦Kを満たす)は移動し、第λ音源以外のK-1個の音源は移動しないものとする。
【0033】
以下、図1図3を参照して音源信号推定装置200を説明する。図1は、音源信号推定装置200の構成を示すブロック図である。図3は、音源信号推定装置200の動作を示すフローチャートである。図1に示すように音源信号推定装置200は、初期化部110と、第1計算部220と、第2計算部130と、第3計算部140と、第4計算部250と、終了条件判定部160と、記録部190を含む。記録部190は、音源信号推定装置200の処理に必要な情報を適宜記録する構成部である。記録部190は、例えば、所定の推定方法によりあらかじめ得られている分離行列W(f, t)の初期値W(f, T’) (f=1, …, F)を記録しておく。音源信号推定装置200は第1計算部120の代わりに第1計算部220を、第4計算部150の代わりに第4計算部250を含む点においてのみ音源信号推定装置100と異なる。
【0034】
図3に従い音源信号推定装置200の動作について説明する。ここでは、音源信号推定装置200が音源信号推定装置100と異なる第1計算部220と第4計算部250の動作についてのみ説明する。
【0035】
S220において、第1計算部220は、W(f, t-1)=~Q(f, t-1)W(f, T’)を満たす補助分離行列~Q(f, t-1) (f=1, …, F)を用いて、観測信号x(f, t) (f=1, …, F)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する。第1計算部220は、次式により、近似分離信号^y(f, t) (f=1, …, F)を計算する。
【数35】

なお、観測信号x(f, t)(f=1, …, F, t=T’+1, …, T)は、第1計算部220に入力として与える代わりに、あらかじめ記録部190に記録しておいてもよい。
【0036】
S250において、第4計算部250は、重みGk(f, t) (k=1, …, K, f=1, …, F)と重みgk(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を用いて、補助分離行列~Q(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する。第4計算部250は、次式により、補助分離行列~Q(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する。
【数36】

【数37】

(ただし、ekは第k要素が1、それ以外の要素は0である単位ベクトル)
【数38】

(ただし、~Q(f, T’)は単位行列)
【数39】

本発明の実施形態によれば、マイクロホンの数が多い場合において高速に音源信号を推定することが可能となる。
【0037】
<補記>
上述した各装置の各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図4に示すコンピュータ2000の記録部2020に読み込ませ、演算処理部2010、入力部2030、出力部2040、補助記録部2025などを動作させることにより、上記各装置における処理機能がコンピュータ上で実現される。
【0038】
本発明の装置は、例えば単一のハードウェアエンティティとして、ハードウェアエンティティの外部から信号を入力可能な入力部、ハードウェアエンティティの外部に信号を出力可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、演算処理部であるCPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0039】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0040】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行、処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成部)を実現する。つまり、本発明の実施形態の各構成部は、処理回路(Processing Circuitry)により構成されてもよい。
【0041】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0042】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク等である。
【0043】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0044】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部2025に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部2025に格納されたプログラムを記録部2020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記録部2020に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0045】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0046】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
図1
図2
図3
図4