(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-08
(45)【発行日】2022-11-16
(54)【発明の名称】PSD最適化装置、PSD最適化方法、プログラム
(51)【国際特許分類】
H04R 3/00 20060101AFI20221109BHJP
G10L 21/0208 20130101ALI20221109BHJP
G10L 21/0332 20130101ALI20221109BHJP
H04R 1/40 20060101ALI20221109BHJP
【FI】
H04R3/00 320
G10L21/0208 100B
G10L21/0332
H04R1/40 320A
(21)【出願番号】P 2021537535
(86)(22)【出願日】2019-08-08
(86)【国際出願番号】 JP2019031450
(87)【国際公開番号】W WO2021024475
(87)【国際公開日】2021-02-11
【審査請求日】2021-11-24
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】千葉 大将
(72)【発明者】
【氏名】丹羽 健太
(72)【発明者】
【氏名】原田 登
【審査官】渡邊 正宏
(56)【参考文献】
【文献】特表2012-523731(JP,A)
【文献】特表2017-503388(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 11/00-13/00
G10L 13/00-13/10
G10L 15/00-17/26
G10L 19/00-19/26
G10L 21/00-21/18
G10L 25/00-25/93
G10L 99/00
H04R 1/20- 1/40
H04R 3/00- 3/14
(57)【特許請求の範囲】
【請求項1】
u
Sを目的音PSDを表す変数、u
INを干渉雑音PSDを表す変数、u
BNを背景雑音PSDを表す変数とし、
目的音PSD入力値^φ
S(ω, τ)、干渉雑音PSD入力値^φ
IN(ω, τ)、背景雑音PSD入力値^φ
BN(ω, τ)を入力とし、変数u
S、変数u
IN、変数u
BNに関するコスト関数の最適化問題を解くことにより、目的音PSD出力値φ
S(ω, τ)、干渉雑音PSD出力値φ
IN(ω, τ)、背景雑音PSD出力値φ
BN(ω, τ)を生成するPSD更新部を含むPSD最適化装置であって、
前記コスト関数の最適化問題は、少なくとも、
目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか1つを用いて定義される
PSD最適化装置。
【請求項2】
請求項1に記載のPSD最適化装置であって、
前記目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、
目的音が支配的であるほど、変数u
Sの値が、ビームフォーマによる目的音到来方向の音源の強調信号のPSD推定値c、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた前記目的音PSD入力値^φ
S(ω, τ)、と近いものとなると仮定することにより導出される凸コスト項である
ことを特徴とするPSD最適化装置。
【請求項3】
請求項1に記載のPSD最適化装置であって、
前記周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、
中周波数帯域において、変数u
Sの値が、ビームフォーマによる目的音到来方向の音源の強調信号のPSD推定値c、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた前記目的音PSD入力値^φ
S(ω, τ)、と近いものとなると仮定することにより導出される凸コスト項である
ことを特徴とするPSD最適化装置。
【請求項4】
請求項1に記載のPSD最適化装置であって、
前記周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、
変数u
Sの値が、ビームフォーマによる目的音到来方向の音源の強調信号のPSD推定値cについて低周波数帯域と高周波数帯域の少なくとも何れかについて中周波数帯域のPSD推定値で置換したもの、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた前記目的音PSD入力値^φ
S(ω, τ)について低周波数帯域と高周波数帯域の少なくとも何れかについて中周波数帯域の前記目的音PSD入力値で置換したもの、と近いものとなると仮定することにより導出される凸コスト項である
ことを特徴とするPSD最適化装置。
【請求項5】
請求項1に記載のPSD最適化装置であって、
u=[u
S
T, u
IN
T, u
BN
T]
T、vを変数uの補助変数とし、
前記コスト関数の最適化問題は、変数u, vに関する線形制約のもとでinf
u,vF
1(u)+F
2(v) (ただし、F
1, F
2はそれぞれコスト関数を構成する凸関数)を解く問題と定義されるものであり、
前記変数u, vに関する線形制約が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約を含むものであるか、前記コスト関数F
1(u)+F
2(v)が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項を含むものである
ことを特徴とするPSD最適化装置。
【請求項6】
請求項5に記載のPSD最適化装置であって、
前記変数u, vに関する線形制約は、
【数53】
(ただし、A=[Λ 0 0], B=[I, I, I], cは目的音到来方向θ
Sの音源の強調信号のPSD推定値、Λ(∈R
Ω×Ω)は周波数重み付け行列Λ
w、I(∈R
Ω×Ω)は単位行列、Ωは周波数バンド数)
であり、
F
1(u), F
2(v)は、それぞれ
【数54】
(ただし、
【数55】
、μ, ρ(∈R
+)は重み付け係数、0<ω
L<ω
H<Ω-1)であり、
双対変数p, q, rに対して、関数D
p
・, D
q
・, D
r
・および双対変数~p, ~q, ~rは、それぞれ次式で定義されるものとし、
【数56】
前記PSD更新部は、
次式により、変数uのt+1回目の更新結果であるu
t+1を計算する第1変数計算部と、
【数57】
次式により、双対変数~pのt+1回目の中間更新結果である~p
t+1/2を計算する第1双対変数計算部と、
【数58】
次式により、双対変数~qのt+1回目の更新結果である~q
t+1を計算する第2双対変数計算部と、
【数59】
次式により、双対変数~rのt+1回目の中間更新結果である~r
t+1/2を計算する第3双対変数計算部と、
【数60】
次式により、補助変数vのt+1回目の更新結果であるv
t+1を計算する第2変数計算部と、
【数61】
次式により、双対変数~pのt+1回目の更新結果である~p
t+1を計算する第4双対変数計算部と、
【数62】
~r=[~r
1
T, ~r
2
T, ~r
3
T]
Tとし、
次式により、双対変数~rのt+1回目の更新結果である~r
t+1を計算する第5双対変数計算部と、
【数63】
を含む
ことを特徴とするPSD最適化装置。
【請求項7】
請求項1に記載のPSD最適化装置であって、
u=[u
S
T, u
IN
T, u
BN
T]
Tとし、
前記コスト関数の最適化問題は、変数uに関する線形制約のもとでinf
uF
1(u) (ただし、F
1は凸なコスト関数)を解く問題と定義されるものであり、
前記変数uに関する線形制約が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約を含むものであるか、前記コスト関数F
1(u)が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項を含むものである
ことを特徴とするPSD最適化装置。
【請求項8】
u
Sを目的音PSDを表す変数、u
INを干渉雑音PSDを表す変数、u
BNを背景雑音PSDを表す変数とし、
PSD最適化装置が、目的音PSD入力値^φ
S(ω, τ)、干渉雑音PSD入力値^φ
IN(ω, τ)、背景雑音PSD入力値^φ
BN(ω, τ)を入力とし、変数u
S、変数u
IN、変数u
BNに関するコスト関数の最適化問題を解くことにより、目的音PSD出力値φ
S(ω, τ)、干渉雑音PSD出力値φ
IN(ω, τ)、背景雑音PSD出力値φ
BN(ω, τ)を生成するPSD更新ステップを含むPSD最適化方法であって、
前記コスト関数の最適化問題は、少なくとも、
目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか1つを用いて定義される
PSD最適化方法。
【請求項9】
請求項1ないし7のいずれか1項に記載のPSD最適化装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マイクロホンアレイを用いて特定方向の音源の音を明瞭に抽出する音源強調技術に関する発明である。
【背景技術】
【0002】
非特許文献1には、リアルタイムでの目的音強調を実現する音源強調手法が開示されている。この手法は、ビームフォーミングによる線形フィルタリングとウィーナーフィルタによる非線形性フィルタリングを併用した低演算量の音源強調手法であり、この手法では、ビームフォーマによる目的音到来方向の音源の強調信号とそれ以外の方向の音源の強調信号とを用いて、目的音、干渉雑音、背景雑音のパワースペクトル密度(PSD: Power Spectral Density)を推定することで、目的音を強調するウィーナーフィルタを構築する。したがって、非特許文献1に記載の音源強調手法の性能は、PSDの推定精度に依存することになる。
【0003】
ここで、目的音とは、方向性を持つ、強調したい音源が発する音のことである。また、干渉雑音とは、目的音以外の音(以下、妨害音という)のうち、直接波や初期反射のような到来方向が特定できる音源が発する音(例えば、目的音到来方向以外の方向にいる話者の音声)のことであり、背景雑音とは、妨害音のうち、残響やデバイスのノイズなど到来方向が特定できない音源が発する音のことである。
【先行技術文献】
【非特許文献】
【0004】
【文献】K. Niwa, Y. Hioka, and K. Kobayashi, “Post-filter design for speech enhancement in various noisy environments”, 2014 14th International Workshop on Acoustic Signal Enhancement (IWAENC), IEEE, 2014.
【発明の概要】
【発明が解決しようとする課題】
【0005】
先述の通り、非特許文献1の手法では、干渉雑音を抑圧するためのビームフォーマを用いる。そのため、ビームフォーマにおける干渉雑音の抑圧性能に基づくPSD推定精度が原因となり、非特許文献1の音源強調により得られた目的音の品質が劣化してしまうことがある。
【0006】
そこで本発明では、干渉雑音を抑圧するためのビームフォーマを用いた構成における音源強調性能を向上させることができる音源強調技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様は、uSを目的音PSDを表す変数、uINを干渉雑音PSDを表す変数、uBNを背景雑音PSDを表す変数とし、目的音PSD入力値^φS(ω, τ)、干渉雑音PSD入力値^φIN(ω, τ)、背景雑音PSD入力値^φBN(ω, τ)を入力とし、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題を解くことにより、目的音PSD出力値φS(ω, τ)、干渉雑音PSD出力値φIN(ω, τ)、背景雑音PSD出力値φBN(ω, τ)を生成するPSD更新部を含むPSD最適化装置であって、前記コスト関数の最適化問題は、少なくとも、目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項のいずれか1つを用いて定義される。
【発明の効果】
【0008】
本発明によれば、干渉雑音を抑圧するためのビームフォーマを用いた構成における音源強調性能を向上させることが可能となる。
【図面の簡単な説明】
【0009】
【
図1】音源強調装置900の構成を示すブロック図である。
【
図2】音源強調装置900の動作を示すフローチャートである。
【
図3】PSD生成部950の構成を示すブロック図である。
【
図4】PSD生成部950の動作を示すフローチャートである。
【
図6】音源強調装置100の構成を示すブロック図である。
【
図7】音源強調装置100の動作を示すフローチャートである。
【
図8】PSD更新部150の構成を示すブロック図である。
【
図9】PSD更新部150の動作を示すフローチャートである。
【
図10】PSD最適化装置200の構成を示すブロック図である。
【
図11】本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0011】
各実施形態の説明に先立って、この明細書における表記方法について説明する。
【0012】
_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
【0013】
また、ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
【0014】
<技術的背景>
本発明の実施形態は、非特許文献1の手法により推定した目的音のPSD、干渉雑音のPSD、背景雑音のPSDに対して、音源強調性能が向上するように最適化処理を行うものである。そこで、まず、従来手法である非特許文献1の手法について説明する。
【0015】
《従来手法》
以下、
図1~
図2を参照して音源強調装置900について説明する。音源強調装置900は、ビームフォーミングとPSD推定とに基づく音源強調を実行する。
図1は、音源強調装置900の構成を示すブロック図である。
図2は、音源強調装置900の動作を示すフローチャートである。
図1に示すように音源強調装置900は、マイクロホンアレイ910と、周波数領域変換部920と、第1ビームフォーマ部930と、第2ビームフォーマ部940と、PSD生成部950と、音源強調部960と、時間領域変換部970と、記録部990を含む。記録部990は、音源強調装置900の処理に必要な情報を適宜記録する構成部である。
【0016】
図2に従い音源強調装置900の動作について説明する。
【0017】
S910において、M個(Mは2以上の整数)のマイクロホン素子によって構成されるマイクロホンアレイ910は、マイクロホン素子mで収音された時間領域観測信号xm(t)(m=0, 1, …, M-1)を生成し、出力する。したがって、mはどのマイクロホン素子で観測した信号であるかを示す番号となる。
【0018】
S920において、周波数領域変換部920は、S910で生成した時間領域観測信号xm(t)(m=0, 1, …, M-1)を入力とし、時間領域観測信号xm(t)(m=0, 1, …, M-1)それぞれを周波数領域に変換することにより周波数領域観測信号Xm(ω, τ)(m=0, 1, …, M-1)を生成し、出力する。周波数領域への変換には、例えば、離散フーリエ変換を用いることができる。
【0019】
以下、周波数領域観測信号Xm(ω, τ)を、目的音s(ω, τ)∈C、K個(Kは1以上の整数)の干渉雑音νk(ω, τ)∈C、背景雑音εm(ω, τ)∈Cを用いた次式によりモデル化する。
【0020】
【0021】
ここで、ω, τは、それぞれ角周波数ビン、時間フレーム番号を表す。また、hm
S(ω)∈Cは目的音の音源とマイクロホン素子mの間の伝達関数、hk,m
IN(ω)∈C(k=1, …, K)は干渉雑音源kそれぞれとマイクロホン素子mの間の伝達関数である。
【0022】
このモデルでは、目的音の到来方向(DOA:Direction of arrival)は既知である一方、例えば、干渉雑音の到来方向および数、背景雑音のノイズレベルのような雑音に関する情報は未知である問題を扱うことができる。
【0023】
S930において、第1ビームフォーマ部930は、S920で生成した周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を入力とし、周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を線形フィルタリングすることにより目的音到来方向θSの音源の強調信号Yθ_S(ω, τ)(以下、第1強調信号Yθ_S(ω, τ)という)を生成し、出力する。目的音到来方向θSの到来時間差が既知の場合、ビームフォーミングの線形フィルタ(つまり、目的音到来方向θSの到来時間差を用いて構築したビームフォーミングの線形フィルタ)wθ_S
H∈CMによって、第1強調信号Yθ_Sは、以下の式で算出される。
【0024】
【0025】
ここで、・Hは複素共役転置を表す。また、X(ω, τ)=[X0(ω, τ), …, XM-1(ω, τ)]Tである。
【0026】
S940において、第2ビームフォーマ部940は、S920で生成した周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を入力とし、周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を線形フィルタリングすることによりL-1個(L-1はK以上の整数)の目的音到来方向以外の方向θjの音源の強調信号Yθ_j(ω, τ) (j=1, …, L-1)(以下、第2強調信号Yθ_j(ω, τ)という)を生成し、出力する。第2ビームフォーマ部940は、第1ビームフォーマ部930と同様の方法で第2強調信号Yθ_j(ω, τ)を算出する。つまり、第2ビームフォーマ部940は、予め定めた、目的音到来方向以外の方向θjの到来時間差を用いて構築したビームフォーミングの線形フィルタによって第2強調信号Yθ_j(ω, τ)を算出する。
【0027】
S950において、PSD生成部950は、S930で生成した第1強調信号Yθ_S(ω, τ)とS940で生成した第2強調信号Yθ_j(ω, τ) (j=1, …, L-1)を入力とし、第1強調信号Yθ_S(ω, τ)と第2強調信号Yθ_j(ω, τ) (j=1, …, L-1)とを用いて、目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)を生成し、出力する。
【0028】
以下、
図3~
図4を参照してPSD生成部950を説明する。
図3は、PSD生成部950の構成を示すブロック図である。
図4は、PSD生成部950の動作を示すフローチャートである。
図3に示すようにPSD生成部950は、第1PSD推定部951と、第2PSD推定部952を含む。
【0029】
図4に従いPSD推定部950の動作について説明する。
【0030】
S951において、第1PSD推定部951は、S930で生成した第1強調信号Yθ_S(ω, τ)とS940で生成した第2強調信号Yθ_j(ω, τ) (j=1, …, L-1)を入力とし、第1強調信号Yθ_S(ω, τ)と第2強調信号Yθ_j(ω, τ) (j=1, …, L-1)とを用いて局所PSD推定を行うことにより、目的音PSD~φS(ω, τ)、干渉雑音PSD~φIN(ω, τ)を推定し、出力する。局所PSD推定とは、目的音および干渉雑音の空間的な位置に基づくゲイン差を利用した、目的音PSDと干渉雑音PSDの推定手法である。第1強調信号Yθ_S(ω, τ)とL-1個の第2強調信号Yθ_j(ω, τ)のPSDφBF(ω, τ)=[φ0
BF(ω, τ), φ1
BF(ω, τ), …, φL-1
BF(ω, τ)]T∈RLとN個(Nは2以上の整数)の方向でグループ化された目的音および干渉雑音のPSDφG(ω, τ)=[φ0
G(ω, τ), φ1
G(ω, τ), …, φN-1
G(ω, τ)]T∈RNの関係は、次式のような線形変換の形式で近似的に表すことができる。
【0031】
【0032】
ただし、φ0
BF(ω, τ)は第1強調信号Yθ_S(ω, τ)のPSDとする。したがって、φ0
BF(ω, τ)=|Yθ_S(ω, τ)|2となる。また、Dj,n(ω)∈RL×N×Ωは、角周波数ビンω、ビームフォーマjにおける方向nに対する感度である。ここで、ビームフォーマ0とは、目的音到来方向θSのビームフォーマ、ビームフォーマjとは、目的音到来方向以外の方向θjのビームフォーマのことである。
【0033】
この式を解くことにより、φG(ω, τ)∈RNを得ることができる。すなわち、まず、第1PSD推定部951は、この式を解くことにより、φG(ω, τ)∈RNを得る。
【0034】
【0035】
ここで、・*, [・]+は、それぞれ擬似逆行列、行列の各要素を非負値にする作用素を表す。
【0036】
なお、演算量削減のためには、周波数フィルタバンクをいくつかの周波数帯域に統合し、PSD推定を行うのが効果的である。
【0037】
上の式において、方向0に目的音到来方向θSの音源のPSDが、また、方向1から方向N-1には目的音とは異なる方向のグループのPSDが含まれると仮定すると、目的音PSD~φS(ω, τ)、干渉雑音PSD~φIN(ω, τ)は次式により推定される。すなわち、次に、第1PSD推定部951は、次式により目的音PSD~φS(ω, τ)と干渉雑音PSD~φIN(ω, τ)を推定する。
【0038】
【0039】
S952において、第2PSD推定部952は、S951で推定した目的音PSD~φS(ω, τ)と干渉雑音PSD~φIN(ω, τ)を入力とし、目的音PSD~φS(ω, τ)と干渉雑音PSD~φIN(ω, τ)とを用いて、目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)を推定し、出力する。以下、推定方法について説明する。背景雑音は定常的であると仮定できる。そこで、まず、第2PSD推定部952は、再帰的平滑演算により平滑化したPSD・φS(ω, τ), ・φIN(ω, τ)を用いて、ある区間Γにおける最小値として、2つの背景雑音PSDφBN_S(ω, τ), φBN_IN(ω, τ)を算出する。
【0040】
【0041】
ここで、βS, βINはそれぞれ忘却係数である。なお、βS, βINは、目的音、干渉雑音、背景雑音の時間的なエネルギー変動を考慮して決定される。
【0042】
そして、第2PSD推定部952は、次式により、目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)を推定する。
【0043】
【0044】
S960において、音源強調部960は、S930で生成した第1強調信号Yθ_S(ω, τ)とS950で生成した目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)とを入力とし、第1強調信号Yθ_S(ω, τ)と目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)とを用いて、周波数領域目的音信号Z(ω, τ)∈Cを生成し、出力する。具体的には、音源強調部960は、目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)から計算されるウィーナーフィルタを用いた次式により、周波数領域目的音信号Z(ω, τ)を算出する。
【0045】
【0046】
S970において、時間領域変換部970は、S960で生成した周波数領域目的音信号Z(ω, τ)を入力とし、周波数領域目的音信号Z(ω, τ)を時間領域に変換することにより時間領域目的音周波数領域観測信号z(t)∈Rを生成し、出力する。時間領域への変換には、例えば、離散フーリエ変換の逆変換を用いることができる。
【0047】
《PSDの最適化》
ここでは、非特許文献1の手法により生成したPSDを、ビームフォーマの特性を考慮して音源強調性能を向上させるように最適化する方法について説明する。
【0048】
この最適化方法には、以下の3つの特徴がある。
(1)目的音PSD、干渉雑音PSD、背景雑音PSDのうち、少なくとも1つのPSDを最適化する。
(2)(1)の最適化処理は、PSDに関する制約の下での、PSDを表す変数に関する、1つの凸コスト項または複数の凸コスト項の和として表されるコスト関数の最適化問題として定式化される。
(3)(2)の最適化問題は、例えば、以下の(a)の制約または凸コスト項、(b)の制約、(c)の制約または凸コスト項、(d)の制約または凸コスト項を用いて定義される。ただし、(c)の制約または凸コスト項、(d)の制約または凸コスト項については、それぞれ複数あってもよいものとする。また、(a)の制約または凸コスト項、(b)の制約、(c)の制約または凸コスト項を含むことは必須ではない。
【0049】
(a)従来のPSD推定(すなわち、PSD推定部950の出力)でもある程度の推定はできているとの仮定に基づく制約または凸コスト項
(b)PSDの非負制約
(c)音源の構造に基づく、PSDに関する制約または凸コスト項
【0050】
ここで、音源の構造とは、目的音、干渉雑音、背景雑音の周波数構造、時間構造、空間構造(チャネル間構造)を指す。
【0051】
(d)ビームフォーマの特性に基づく、PSDに関する制約または凸コスト項
【0052】
上記最適化問題では、PSDに関する制約は線形の等式または不等式により表現され、コスト関数はPSDを表す変数に関する凸コスト項(閉真凸関数であるコスト項)を1つ以上組み合わせた関数として表現される。つまり、最適化問題は線形制約付き凸最適化問題となる。そして、この最適化問題の解として最適化されたPSDが得られることになる。
【0053】
この線形制約付き凸最適化問題は、1つ以上の凸コスト項と、0個以上の制約を用いる。凸コスト項または制約を増やすと最適化問題は複雑になるが、後述するブレグマン単調作用素分解(B-MOS:Bregman Monotone Operator Splitting)を用いることで、リアルタイムでの音源強調処理を可能とする程度の低演算量で解くことができる。
【0054】
以下、第2PSD推定部952が推定した目的音PSDφS(ω, τ)、干渉雑音PSDφIN(ω, τ)、背景雑音PSDφBN(ω, τ)を、それぞれ^φS(ω, τ), ^φIN(ω, τ), ^φBN(ω, τ)と表すことにする。
【0055】
(1:制約、凸コスト項の具体例)
ここでは、(a)~(d)の制約や凸コスト項の具体例について説明する。(c)の制約または凸コスト項は、以下のように分類できる。
(c-1)音源の周波数構造に基づく制約または凸コスト項
(c-2)音源の時間構造に基づく制約または凸コスト項
(c-3)音源の空間構造(チャネル間構造)に基づく制約または凸コスト項
【0056】
また、(d)の制約または凸コスト項は、例えば、以下のように分類されるものである。
(d-1)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項
(d-2)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項
まず、最適化問題で最適化の対象となる変数について説明する。
【0057】
(1-1:変数の定義)
PSDは任意の周波数バンドにまとめられているものとする。このときの周波数バンド数をΩとする。
【0058】
時間フレームτにおける目的音PSDを表す変数、干渉雑音PSDを表す変数、背景雑音PSDを表す変数をそれぞれuS,τ, uIN,τ, uBN,τとする。また、時間フレームτにおける目的音PSD入力値、干渉雑音PSD入力値、背景雑音PSD入力値をそれぞれ^φS,τ, ^φIN,τ, ^φBN,τとする。つまり、
【0059】
【0060】
である。また、uτ=[uS,τ
T, uIN,τ
T, uBN,τ
T]T, ^φτ=[^φS,τ
T, ^φIN,τ
T, ^φBN,τ
T]Tとする。
【0061】
また、時間フレームτにおける第1強調信号(つまり、目的音到来方向θSにビームフォーミングした信号)Yθ_S(ω, τ)のPSDφY_θ_Sに対して、cτ∈RΩを次式で定義する。
【0062】
【0063】
したがって、cτは時間フレームτにおける目的音到来方向θSの音源の強調信号のPSD推定値である。
【0064】
以下、前後の時間フレームに依存しない制約や凸コスト項を記述する場合には、時間フレームインデックスτを省略することとする。
【0065】
(1-2:従来のPSD推定(すなわち、PSD推定部950の出力)でもある程度の推定はできているとの仮定に基づく制約または凸コスト項)
変数u=[uS
T, uIN
T, uBN
T]Tの値は、PSD入力値^φ=[^φS
T, ^φIN
T, ^φBN
T]Tに近い値であると仮定する。この仮定に対応する凸コスト項は、例えば、次式のような二次関数により表現することができる。
【0066】
【0067】
ここで、wi∈R+ (i∈{S, IN, BN})は凸コスト項の重みを調整するための係数(重み付け係数)である。なお、R+は、正の実数の集合を表す。
【0068】
また、これらの凸コスト項を組み合わせて用いてもよい。例えば、目的音、干渉雑音、背景雑音の3つのPSDを最適化する場合は、次式のような凸コスト項を用いることができる。
【0069】
【0070】
(1-3:PSDの非負制約)
PSDは非負値となる。そこで、uS≧0,uIN≧0,uBN≧0、すなわち、u≧0という不等式による制約を与えることができる。
【0071】
(1-4:音源の周波数構造に基づく制約または凸コスト項)
ここでは、一例として、目的音の周波数構造について説明する。
【0072】
目的音PSD入力値^φSには、分離しきれていない干渉雑音PSDや背景雑音PSDが小さな値として含まれている。例えば、目的音が音声である場合、目的音PSDは調波構造を仮定できるため、周波数方向にスパースであること、周波数方向の倍音構造があること、倍音に隣接する周波数帯域における共起関係があること、などの事前知識を用いることができる。したがって、これらの事前知識に基づく制約や凸コスト項を用いることで、目的音PSDを雑音のPSD(すなわち、干渉雑音PSDと背景雑音PSD)と分離できることが期待される。そこで、上記仮定に対応する凸コスト項を、L1ノルムを用いて表現することにする。ただし、小さな値であるが聴感上の重要な成分を削らないようにするため、Λ∈RΩ×Ωを用いて重み付けした領域でスパースな目的音PSDを推定する。また、最適化アルゴリズムの安定化のために、目的音PSD入力値^φSをΛで変換した信号との二乗誤差をコスト項に加えることとする。以上をまとめると、目的のコスト項は、次式で表すことができる。
【0073】
【0074】
ここで、μ, ρ(∈R+)は重み付け係数である。また、Λ(∈RΩ×Ω)は所定のスパースな行列である。
【0075】
Λ∈RΩ×Ωの具体例は下記の(α)、(β)であり、(α)と(β)を組み合わせてもよい。
(α)周波数重み付け行列Λw
【0076】
【0077】
(β)隣接周波数帯域との平滑化行列Λnb
左右それぞれ1つの帯域との移動平均をとる場合、行列Λnbは次式のようになる。
【0078】
【0079】
(1-5:音源の時間構造に基づく制約または凸コスト項)
ここでは、一例として、直前の時間フレームのPSDとの平滑化について説明する。
【0080】
前後の時間フレームにおいて、PSDの値は滑らかに変化することを仮定することで、歪みの抑制が期待される。この仮定に対応する凸コスト項は、例えば、次式のような二乗誤差を用いた項として表現できる。
【0081】
【0082】
ただし、^φBN,τ-1は、時間フレームτ-1における背景雑音PSD推定値である。また、γBN (∈R+)は重み付け係数である。
【0083】
当該凸コスト項を最小化することにより、時間方向に滑らかな背景雑音PSDの推定が可能となる。なお、例えば、目的音や干渉雑音が歌声や楽器音などの場合には、目的音や干渉雑音も時間方向に滑らかであるので、目的音や干渉雑音についても上記の背景雑音の式のような凸コスト項を用いることができる(次式参照)。
【0084】
【0085】
ただし、^φS,τ-1, ^φIN,τ-1は、それぞれ時間フレームτ-1における目的音PSD推定値、時間フレームτ-1における干渉雑音PSD推定値である。また、γS, γIN (∈R+)は重み付け係数である。
【0086】
(1-6:音源の空間構造に基づく制約または凸コスト項)
ここでは、一例として、PSDの加法性制約について説明する。
【0087】
周波数領域においてPSDの加法性を仮定すると、目的音PSD、干渉雑音PSD、背景雑音PSDの和は目的音到来方向θSの音源の強調信号のPSD推定値cと近いものとなる。この仮定に対応する制約は、例えば、以下の線形制約により表現することができる。
【0088】
【0089】
この制約を用いると、歪みの低減や、前段の処理で(すなわち、PSD生成部950の出力で)失われた成分の復元がされ、結果的にPSD推定精度が向上することが期待される。
【0090】
(1-7:目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項)
ビームフォーマは、目的音が支配的に含まれるほど音源強調の性能が高い。すなわち、目的音が支配的な時間フレームでは、目的音PSDはビームフォーマによる目的音到来方向θSの音源の強調信号のPSD推定値c(目的音到来方向にビームフォーミングした信号のPSDともいう)と近いものとなると仮定できる。したがって、目的音が支配的な時間フレームでは、変数uSの値をcに近づける凸コスト項がPSD推定精度の向上に有効であり、この仮定に対応する凸コスト項は、例えば、次式のような二次関数により表現することができる。
【0091】
【0092】
ここで、γ(∈R+)は重み付け係数である。なお、γは、目的音が支配的であるほど大きな値となるように設定すればよく、例えば、目的音PSD^φSが雑音のPSD(干渉雑音PSD^φIN、または、背景雑音PSD^φBN、または、干渉雑音PSD^φINと背景雑音PSD^φBNを合わせたもの)より大きいほど大きな値をγとして設定することが考えられる。または、例えば、目的音PSD^φSから雑音のPSDを減算した値や目的音PSD^φSを雑音のPSDで除算した値が所定の閾値を超える場合または所定の閾値以上である場合には式(1)の凸コスト項を用い、そうでない場合には式(1)の凸コスト項を用いないこと、が考えられる。
【0093】
また、目的音PSD^φSは、ビームフォーマによって目的音到来方向θSの音源を強調した信号に基づいて得られたPSD推定値である。したがって、目的音到来方向θSの音源の強調信号のPSD推定値cの代わりに、目的音PSD^φSを用いてもよい。目的音PSD^φSを用いると、式(1)に対応する凸コスト項は、例えば、次式のようになる。
【0094】
【0095】
ここで、γ’(∈R+)は重み付け係数である。
【0096】
(1-8:目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項)
ビームフォーマには、低周波数帯域(例えば500Hz以下)では指向性が鈍くなり、高周波数帯域(例えば4kHz以上)では空間エイリアシングによって目的音の方向以外にも焦点を形成してしまう、という性質がある。すなわち、ビームフォーマには、低周波数帯域および高周波数帯域では、低周波数帯域と高周波数帯域以外の帯域である中周波数帯域よりも、ビームフォーマの非到来方向音の抑圧性能が悪くなる。したがって、中周波数帯域のみにおいて変数uSの値をcに近づける凸コスト項を用いるのが、低周波数帯域や高周波数帯域のPSD推定精度の向上に有効であるので、例えば、目的音PSDを表す変数uSに対して定義される中周波数帯域に関する変数uS-Midと、目的音到来方向θSの音源の強調信号のPSD推定値cに対して定義される中周波数帯域に関するPSD推定値cMidを用いた、次式のような凸コスト項が考えられる。
【0097】
【0098】
ここで、γMid(∈R+)は重み付け係数である。また、ωL, ωHは0<ωL<ωH<Ω-1を満たす。
【0099】
したがって、周波数ビン番号ωLからωHまでの帯域が中周波数帯域に相当する。
【0100】
また、目的音到来方向θSの音源の強調信号のPSD推定値cの代わりに、目的音PSD^φSを用いてもよい。この場合、例えば、目的音PSDを表す変数uSに対して定義される中周波数帯域に関する変数uS-Midと、目的音PSD^φSに対して定義される中周波数帯域に関するPSD^φS-Midを用いた、次式のような凸コスト項が考えられる。
【0101】
【0102】
ここで、γ’Mid(∈R+)は重み付け係数である。
【0103】
(1-9:目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づき、更に音の調波構造にも基づく、制約または凸コスト項)
ビームフォーマでは、(1-8)で説明した通り、中周波数帯域での干渉雑音抑圧性能が高い。また、音声における母音のような調波構造を持つ音源は、中周波数帯域の調波構造と低周波数帯域の調波構造との相関、中周波数帯域の調波構造と高周波数帯域の調波構造との相関、が高い。そこで、例えば、目的音PSD^φSや、目的音到来方向θSの音源の強調信号のPSD推定値cに対して、雑音が少ない中周波数帯域の複製により雑音が多く含まれる低周波数帯域および/または高周波数帯域を置換した信号を生成し、当該信号に対して(1-7)と同様の凸コスト項で用いることで、低周波数帯域や高周波数帯域のPSD推定精度を向上させることを考える。
【0104】
例えば、目的音到来方向θSの音源の強調信号のPSD推定値cに対して、低周波数帯域を中周波数帯域の複製を用いて置換したPSD推定値cSBRは、次式で与えられる。
【0105】
【0106】
ここで、αtilt(∈R+)は、置換前の低周波数帯域のPSDとcMidの誤差が最小になるように調整する係数である。言い換えると、αtilt(∈R+)は、置換後のPSD推定値cSBRの大きさが、置換前のPSDと大きく異ならないようにするための係数である。
【0107】
このPSD推定値cSBRを用いると、凸コスト項は、例えば、次式のようになる。
【0108】
【0109】
ここで、γSBR-c(∈R+)は重み付け係数である。
【0110】
また、目的音到来方向θSの音源の強調信号のPSD推定値cの代わりに、目的音PSD^φSを用いてもよい。この場合、目的音PSD^φSに対して、低周波数帯域を中周波数帯域の複製を用いて置換したPSD推定値^φS-SBRは、次式で与えられる。
【0111】
【0112】
ここで、βtilt(∈R+)は、置換前の低周波数帯域のPSDと^φS -Midの誤差が最小になるように調整する係数である。
【0113】
このPSD推定値^φS-SBRを用いると、凸コスト項は、例えば、次式のようになる。
【0114】
【0115】
ここで、γSBR-^φ(∈R+)は重み付け係数である。
【0116】
(1-10:まとめ)
(1-7)から(1-9)で説明した凸コスト項がビームフォーマの特性に基づくPSDに関する制約または凸コスト項の例である。したがって、最適化問題は、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題であり、少なくとも、
(1)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
(2)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
(3)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
(4)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか1つを用いて定義されるものとなる。なお、最適化問題が、従来のPSD推定(すなわち、PSD推定部950の出力)でもある程度の推定はできているとの仮定に基づく制約または凸コスト項や、PSDの非負制約や、音源の構造に基づく制約または凸コスト項をあわせて用いる形で定義されてもよいのはもちろんである。また(2)の制約や凸コスト項は、更に音の調波構造にも基づくものであってもよい。
【0117】
(2:適用例)
ここでは、最適化問題の具体例と、当該具体例を解く最適化アルゴリズムについて説明する。
【0118】
最適化問題の具体例として、(b), (c-1), (c-3), (d-2)の制約および凸コスト項を用いて定義される問題を考える。
【0119】
【0120】
ここで、μ, ρ(∈R+)は重み付け係数である。また、ζは次式により定義される。
【0121】
【0122】
また、Λ(∈RΩ×Ω)を周波数重み付け行列Λw、I(∈RΩ×Ω)を単位行列とし、行列A, B、ベクトルc, ^v^φ_S、行列W, W1/2は次式で与えられる。
【0123】
【0124】
ここで、(d-2)の凸コスト項の定義で用いるγMidについては、γMid=wS
1/2としている。
【0125】
この最適化問題のコスト関数F1+F2は、潜在変数uの他、潜在変数uの補助変数vを用いている。また、この最適化問題の制約は、変数u, vに関する線形制約、つまり、Au=v, Bu=c, u≧0となっている。なお、F1, F2はいずれも凸関数となっている。
【0126】
上記最適化問題を解く代わりに、その双対問題を解くことを考える。双対問題は次式で表される。
【0127】
【0128】
双対変数p, q, rをξ=[p, q, r]Tとまとめると、双対問題は次式のように表すことができる。
【0129】
【0130】
ここで、F1
*, F2
*はF1, F2の凸共役関数であり、次式で表される。
【0131】
【0132】
また、I(r?0)(r)はrの非負性を保証する指示関数である。
【0133】
【0134】
以上からわかるように、双対問題のコスト関数は2つの閉真凸関数G1, G2の和として表されている。
【0135】
音源強調をリアルタイムで実現するためには、上記の双対問題infξG1(ξ)+G2(ξ)を高速に解くアルゴリズムが必要である。ここでは、参考非特許文献1で開示されているブレグマン単調作用素分解(B-MOS)を用いる。
(参考非特許文献1:K. Niwa and W. B. Kleijn, “Bregman monotone operator splitting”, https://arxiv.org/abs/1807.04871, 2018.)
【0136】
具体的には、Bregman-Peaceman-Rachfold(B-P-R)型最適化ソルバを用いる。B-P-R型最適化ソルバでは、0∈∂G1(ξ)+∂G2(ξ)となる不動点条件から得られる、再帰的な更新式が利用される。
【0137】
【0138】
この式は、以下のD-ケーリー作用素Ciを用いて構成されている。
【0139】
【0140】
ここで、・-1は逆写像を表す。また、Dはブレグマンダイバージェンスの定義に用いる関数である。関数Dとして、∇D(0)=0を満たし、∇Dが微分可能な強凸関数となるものを用いるものとする。
【0141】
また、Ri、IはそれぞれD-リゾルベント作用素と恒等作用素であり、D-リゾルベント作用素Riは次式により与えられる。
【0142】
【0143】
上記更新式から、
図3に示す最適化アルゴリズムが得られる。
図3をみると、(主)変数u、補助変数v、双対変数p, q, rをそれぞれ非線形変換することにより得られる双対変数~p=∇D
p(p), ~q=∇D
q(q), ~r=∇D
r(r)が交互に更新されていることがわかる。なお、強凸関数D
p, D
q, D
rは、それぞれ次式により与えられる。
【0144】
【0145】
したがって、∇Dp, ∇Dq, ∇Drは、それぞれ次式により得られる。
【0146】
【0147】
よって、強凸関数Dp, Dq, Drの零点での勾配は0となる。
【0148】
また、
図3のアルゴリズムにおける主変数uの更新における近接作用素の正則化項では、ブレグマンダイバージェンスを利用している(次式参照)。
【0149】
【0150】
ここで、Dp
・=Dp
-1である。
【0151】
一般に強凸関数Dの微分作用素に対して∇(D-1)=(∇D)-1が成り立つので、∇Dp
・=∇(Dp
-1)=(∇Dp)-1=(AWAT)*となる。∇Dq
・, ∇Dr
・についても同様である。したがって、∇Dp
・, ∇Dq
・, ∇Dr
・は次式で与えられる。
【0152】
【0153】
図3のアルゴリズムにおいて、Tは反復回数を表す定数であり、リアルタイムで処理する際には小さい値に設定する必要ある。
【0154】
以上、(b), (c-1), (c-3), (d-2)の制約及び凸コスト項を用いて定義される最適化問題について考えてきたが、最適化問題の定義に用いる制約や凸コスト項次第では、変数uに関する線形制約のもと、次式により定式化される場合もある。
【0155】
【0156】
ここで、コスト関数F1は凸関数である。
【0157】
この場合、uの補助変数を用いることなく最適化問題が定式化されており、比較的簡単に解くことができる。
【0158】
<第1実施形態>
以下、
図6~
図7を参照して音源強調装置100について説明する。
図6は、音源強調装置100の構成を示すブロック図である。
図7は、音源強調装置100の動作を示すフローチャートである。
図6に示すように音源強調装置100は、マイクロホンアレイ910と、周波数領域変換部920と、第1ビームフォーマ部930と、第2ビームフォーマ部940と、PSD生成部950と、PSD更新部150と、音源強調部960と、時間領域変換部970と、記録部990を含む。音源強調装置100は、更にPSD更新部150を含む点においてのみ、音源強調装置900と異なる。
【0159】
図7に従い音源強調装置100の動作について説明する。
【0160】
S910において、M個(Mは2以上の整数)のマイクロホン素子によって構成されるマイクロホンアレイ910は、マイクロホン素子mで収音された時間領域観測信号xm(t)(m=0, 1, …, M-1)を生成し、出力する。
【0161】
S920において、周波数領域変換部920は、S910で生成した時間領域観測信号xm(t)(m=0, 1, …, M-1)を入力とし、時間領域観測信号xm(t)(m=0, 1, …, M-1)それぞれを周波数領域に変換することにより周波数領域観測信号Xm(ω, τ)(m=0, 1, …, M-1)を生成し、出力する。
【0162】
S930において、第1ビームフォーマ部930は、S920で生成した周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を入力とし、周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を線形フィルタリングすることにより目的音到来方向θSの音源の強調信号Yθ_S(ω, τ)(以下、第1強調信号Yθ_S(ω, τ)という)を生成し、出力する。
【0163】
S940において、第2ビームフォーマ部940は、S920で生成した周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を入力とし、周波数領域観測信号Xm(ω, τ) (m=0, 1, …, M-1)を線形フィルタリングすることによりL-1個(L-1はK以上の整数)の目的音到来方向以外の方向θjの音源の強調信号Yθ_j(ω, τ) (j=1, …, L-1)(以下、第2強調信号Yθ_j(ω, τ)という)を生成し、出力する。
【0164】
S950において、PSD生成部950は、S930で生成した第1強調信号Y
θ_S(ω, τ)とS940で生成した第2強調信号Y
θ_j(ω, τ) (j=1, …, L-1)を入力とし、第1強調信号Y
θ_S(ω, τ)と第2強調信号Y
θ_j(ω, τ) (j=1, …, L-1)とを用いて、目的音PSD^φ
S(ω, τ)、干渉雑音PSD^φ
IN(ω, τ)、背景雑音PSD^φ
BN(ω, τ)を生成し、出力する。なお、ここでは目的音PSD、干渉雑音PSD、背景雑音PSDを表す記号に^を付してあるが、S950におけるPSD生成部950の動作は、<技術的背景>において
図3と
図4を用いて説明したものと同じである。
【0165】
以下、目的音PSD^φS(ω, τ)、干渉雑音PSD^φIN(ω, τ)、背景雑音PSD^φBN(ω, τ)のことを目的音PSD入力値^φS(ω, τ)、干渉雑音PSD入力値^φIN(ω, τ)、背景雑音PSD入力値^φBN(ω, τ)という。また、uSを目的音PSDを表す変数、uINを干渉雑音PSDを表す変数、uBNを背景雑音PSDを表す変数とする。
【0166】
S150において、PSD更新部150は、S950で生成した目的音PSD入力値^φS(ω, τ)、干渉雑音PSD入力値^φIN(ω, τ)、背景雑音PSD入力値^φBN(ω, τ)を入力とし、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題を解くことにより、目的音PSD出力値φS(ω, τ)、干渉雑音PSD出力値φIN(ω, τ)、背景雑音PSD出力値φBN(ω, τ)を生成し、出力する。つまり、PSD更新部150は、<技術的背景>で説明した最適化問題を解く構成部である。この最適化問題は、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題であり、少なくとも、
(1)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
(2)目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
(3)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
(4)目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか1つを用いて定義されるものとなる。
【0167】
以下、(1)~(4)の制約および凸コスト項の例について説明する。例えば、(2)の目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項として、目的音が支配的であるほど、変数uSの値が、ビームフォーマによる目的音到来方向の音源の強調信号のPSD推定値c、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた目的音PSD入力値^φS(ω, τ)、と近いものとなると仮定することにより導出される凸コスト項を用いることができる。具体的には、式(1)や式(1)’で定義される凸コスト項である。なお、ビームフォーマによる目的音到来方向とは、目的音到来方向θSのことである。
【0168】
また、例えば、(4)の周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、中周波数帯域において、変数uSの値が、ビームフォーマによる目的音到来方向の音源の強調信号のPSD推定値c、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた目的音PSD入力値^φS(ω, τ)、と近いものとなると仮定することにより導出される凸コスト項である。具体的には、式(2)や式(2)’で定義される凸コスト項である。
【0169】
また、例えば、(4)の周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、変数uSの値が、ビームフォーマによる目的音到来方向の音源の強調信号のPSD推定値cについて低周波数帯域と高周波数帯域の少なくとも何れかについて中周波数帯域のPSD推定値で置換したもの、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた目的音PSD入力値^φS(ω, τ)について低周波数帯域と高周波数帯域の少なくとも何れかについて中周波数帯域の目的音PSD入力値で置換したもの、と近いものとなると仮定することにより導出される凸コスト項である。具体的には、式(3)や式(3)’で定義される凸コスト項である。
【0170】
また、この変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題は、u=[uS
T, uIN
T, uBN
T]T、vを変数uの補助変数とし、変数u, vに関する線形制約のもとでinfu,vF1(u)+F2(v) (ただし、F1, F2はそれぞれコスト関数を構成する凸関数)を解く問題として定式化できる。ここで、変数u, vに関する線形制約が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約を含むものとなるか、コスト関数F1(u)+F2(v)が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項を含むものとなる。
【0171】
なお、最適化問題の定義に用いる制約や凸コスト項次第では、上記問題を簡略化した問題として定式化される場合もある。具体的には、変数uS、変数uIN、変数uBNに関するコスト関数の最適化問題は、u=[uS
T, uIN
T, uBN
T]Tとし、変数uに関する線形制約のもとでinfuF1(u) (ただし、F1は凸なコスト関数)を解く問題として定式化できる。ここで、変数uに関する線形制約が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約を含むものとなるか、コスト関数F1(u)が目的音到来方向にビームフォーミングした信号のPSDについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、または、目的音到来方向にビームフォーミングした信号のPSDについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項を含むものとなる。
【0172】
以下、変数uの補助変数vも用いて定式化される最適化問題の一例をあげる。
【0173】
変数u, vに関する線形制約は、以下の式により与えられる。
【0174】
【0175】
(ただし、A=[Λ 0 0], B=[I, I, I], cは目的音到来方向θSの音源の強調信号のPSD推定値、Λ(∈RΩ×Ω)は周波数重み付け行列Λw、I(∈RΩ×Ω)は単位行列、Ωは周波数バンド数)
【0176】
また、F1(u), F2(v)は、それぞれ以下の式により与えられる。
【0177】
【0178】
(ただし、
【0179】
【0180】
、μ, ρ(∈R+)は重み付け係数、0<ωL<ωH<Ω-1)
【0181】
以下、
図8~
図9を参照してこの最適化問題を解くPSD更新部150について説明する。
図8は、PSD更新部150の構成を示すブロック図である。
図9は、PSD更新部150の動作を示すフローチャートである。
図8に示すようにPSD更新部150は、初期化部151、第1変数計算部1521と、第1双対変数計算部1522と、第2双対変数計算部1523と、第3双対変数計算部1524と、第2変数計算部1525と、第4双対変数計算部1526と、第5双対変数計算部1527と、カウンタ更新部153と、終了条件判定部154を含む。
【0182】
図9に従いPSD更新部150の動作について説明する。ここで、双対変数p, q, rに対して次式で定義される、関数D
p
・, D
q
・, D
r
・および双対変数~p, ~q, ~rを用いる。
【0183】
【0184】
S151において、初期化部151は、カウンタtを初期化する。具体的には、t=0とする。また、初期化部151は、双対変数~p, ~q, ~rを初期化する。具体的には、双対変数~p, ~q, ~rの初期値(双対変数~p, ~q, ~rの0回目の更新結果)として~p0, ~q0, ~r0を設定する。
【0185】
S1521において、第1変数計算部1521は、次式により、変数uのt+1回目の更新結果であるut+1を計算する。
【0186】
【0187】
S1522において、第1双対変数計算部は、次式により、双対変数~pのt+1回目の中間更新結果である~p t+1/2を計算する。
【0188】
【0189】
S1523において、第2双対変数計算部は、次式により、双対変数~qのt+1回目の更新結果である~qt+1を計算する。
【0190】
【0191】
S1524において、第3双対変数計算部は、次式により、双対変数~rのt+1回目の中間更新結果である~rt+1/2を計算する。
【0192】
【0193】
S1525において、第2変数計算部は、次式により、補助変数vのt+1回目の更新結果であるvt+1を計算する。
【0194】
【0195】
S1526において、第4双対変数計算部は、次式により、双対変数~pのt+1回目の更新結果である~p t+1を計算する。
【0196】
【0197】
S1527において、第5双対変数計算部は、~r=[~r1
T, ~r2
T, ~r3
T]Tとし、次式により、双対変数~rのt+1回目の更新結果である~rt+1を計算する。
【0198】
【0199】
S153において、カウンタ更新部125は、カウンタtを1だけインクリメントする。具体的には、t←t+1とする。
【0200】
S154において、終了条件判定部154は、カウンタtが所定の更新回数T(Tは1以上の整数であり、リアルタイム性を考慮して設定される値である)に達した場合(つまり、t>T-1となり、終了条件が満たされた場合)は、そのときの変数uの値uTを出力して、処理を終了する。それ以外の場合、S1521の処理に戻る。つまり、PSD更新部150は、S1521~S154の処理を繰り返す。
【0201】
S960において、音源強調部960は、S930で生成した第1強調信号Yθ_S(ω, τ)とS150で生成した目的音PSD出力値φS(ω, τ)、干渉雑音PSD出力値φIN(ω, τ)、背景雑音PSD出力値φBN(ω, τ)とを入力とし、第1強調信号Yθ_S(ω, τ)と目的音PSD出力値φS(ω, τ)、干渉雑音PSD出力値φIN(ω, τ)、背景雑音PSD出力値φBN(ω, τ)とを用いて、周波数領域目的音信号Z(ω, τ)∈Cを生成し、出力する。
【0202】
S970において、時間領域変換部970は、S960で生成した周波数領域目的音信号Z(ω, τ)を入力とし、周波数領域目的音信号Z(ω, τ)を時間領域に変換することにより時間領域目的音周波数領域観測信号z(t)∈Rを生成し、出力する。
【0203】
なお、PSD更新部150を単独の装置(以下、PSD最適化装置200という)として構成することもできる。
図10は、PSD最適化装置200の構成を示すブロック図である。
図10に示すようにPSD最適化装置200は、PSD更新部150と、記録部990を含む。
【0204】
本実施形態の発明によれば、ビームフォーマの特性を考慮することにより、干渉雑音を抑圧するためのビームフォーマを用いた構成における音源強調性能を効率的に向上させることが可能となる。
【0205】
<補記>
図11は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
【0206】
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0207】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0208】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0209】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0210】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0211】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0212】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0213】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0214】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0215】
上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。