(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-24
(45)【発行日】2022-12-02
(54)【発明の名称】音情報処理装置及びプログラム
(51)【国際特許分類】
H04R 3/00 20060101AFI20221125BHJP
G10L 21/0208 20130101ALI20221125BHJP
H04R 1/40 20060101ALI20221125BHJP
【FI】
H04R3/00 320
G10L21/0208 100A
H04R1/40 320Z
(21)【出願番号】P 2019033034
(22)【出願日】2019-02-26
【審査請求日】2022-01-06
【新規性喪失の例外の表示】特許法第30条第2項適用 ▲1▼開催日:平成30年3月15日 集会名、開催場所:日本音響学会 2018年 春季研究発表会、日本工業大学 宮代キャンパス(埼玉県南埼玉郡宮代町学園台4-1) ▲2▼発行日:平成30年2月27日 刊行物:日本音響学会 2018年 春季研究発表会 講演論文集、第475頁~第478頁、一般社団法人 日本音響学会 ▲3▼開催日:平成30年9月12日 集会名、開催場所:日本音響学会 2018年 秋季研究発表会、大分大学 旦野原キャンパス(大分県大分市大字旦野原700番地) ▲4▼発行日:平成30年8月29日 刊行物:日本音響学会 2018年 秋季研究発表会 講演論文集、第407頁~第410頁、一般社団法人 日本音響学会 ▲5▼開催日:平成30年9月3日 集会名、開催場所:EUSIPCO2018(主催:The European Association for Signal Processing)(Centro Congressi di Confindustria-Auditorium della Tencica,Viale Umberto Tupini,65,00144,Rome,Italy) ▲6▼発行日:平成30年9月3日 刊行物:EUSIPCO2018予稿集、第1596頁~第1600頁、The European Association for Signal Processing(EURASIP)
(73)【特許権者】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(73)【特許権者】
【識別番号】305027401
【氏名又は名称】東京都公立大学法人
(74)【代理人】
【識別番号】100106909
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100188558
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100169764
【氏名又は名称】清水 雄一郎
(72)【発明者】
【氏名】牧野 昭二
(72)【発明者】
【氏名】山岡 洸瑛
(72)【発明者】
【氏名】山田 武志
(72)【発明者】
【氏名】小野 順貴
【審査官】冨澤 直樹
(56)【参考文献】
【文献】特開2011-123370(JP,A)
【文献】特開2018-128500(JP,A)
【文献】特開2000-047699(JP,A)
【文献】特開2007-151103(JP,A)
【文献】米国特許出願公開第2018/0374495(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
G10L 21/0208-21/0308
H04R 1/40
(57)【特許請求の範囲】
【請求項1】
複数の収音部が収音した音信号がそれぞれ時間周波数変換された複数の時間周波数信号を取得する信号取得部と、
前記信号取得部が取得する複数の前記時間周波数信号と、前記音信号に含まれる目的音源の前記収音部に対する方向を示す目的音源方向情報とに基づく空間フィルタを用いて、複数の前記時間周波数信号がそれぞれ変換された複数のビームフォーミング信号を生成するビームフォーミング演算部と、
前記ビームフォーミング演算部が生成する複数の前記ビームフォーミング信号どうしが統計演算された演算結果信号を出力する統計演算部と、
前記統計演算部が出力する前記演算結果信号を音波形信号に変換する波形変換部と、
を備える音情報処理装置。
【請求項2】
前記統計演算とは、
前記ビームフォーミング演算部が出力する複数の前記ビームフォーミング信号のうち、強度が相対的に弱い前記ビームフォーミング信号を選択することであり、
前記統計演算部は、
前記統計演算によって選択した前記ビームフォーミング信号を前記演算結果信号として出力する
請求項1に記載の音情報処理装置。
【請求項3】
前記統計演算とは、
前記ビームフォーミング演算部が出力する複数の前記ビームフォーミング信号をそれぞれ所定の重みによって重みづけして互いに積算することであり、
前記統計演算部は、
前記統計演算により、積算した前記ビームフォーミング信号を前記演算結果信号として出力する
請求項1に記載の音情報処理装置。
【請求項4】
前記ビームフォーミング演算部は、
前記音信号に含まれるノイズ音源の前記収音部に対する方向を示すノイズ音源方向情報にさらに基づく空間フィルタを用いて、前記ビームフォーミング信号を生成する
請求項1から請求項3のいずれか一項に記載の音情報処理装置。
【請求項5】
前記目的音源方向情報と、前記演算結果信号とに基づいて、前記ビームフォーミング演算部が変換に用いる空間フィルタの特性を更新する特性更新部
をさらに備える請求項1から請求項4のいずれか一項に記載の音情報処理装置。
【請求項6】
前記目的音源方向情報に基づいて、前記統計演算部が出力する前記演算結果信号に含まれる音情報が前記目的音源由来であるか否かを判定する判定部と、
前記判定部による判定結果に基づいて、前記統計演算部が出力する前記演算結果信号に対するマスキング演算を行い、マスキング演算後の信号を前記波形変換部に出力するマスキング演算部と、
をさらに備え、
前記波形変換部は、
前記統計演算部が出力する前記演算結果信号に代えて、前記マスキング演算部が出力する前記マスキング演算後の信号を音波形信号に変換する
請求項1から請求項5のいずれか一項に記載の音情報処理装置。
【請求項7】
コンピュータに、
複数の収音部が収音した音信号がそれぞれ時間周波数変換された複数の時間周波数信号を取得する信号取得ステップと、
前記信号取得ステップにおいて取得される複数の前記時間周波数信号と、前記音信号に含まれる目的音源の前記収音部に対する方向を示す目的音源方向情報とに基づく空間フィルタによって、複数の前記時間周波数信号がそれぞれ変換された複数のビームフォーミング信号を生成するビームフォーミング演算ステップと、
前記ビームフォーミング演算ステップにおいて生成される複数の前記ビームフォーミング信号どうしが統計演算された演算結果信号を出力する統計演算ステップと、
前記統計演算ステップにおいて出力される前記演算結果信号を音波形信号に変換する波形変換ステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音情報処理装置及びプログラムに関する。
【背景技術】
【0002】
従来、複数のマイクロフォンが収音した音信号に基づいて、目的音と雑音(干渉音)とを分離することにより、雑音抑制を行う技術が開示されている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した従来技術によると、例えば、雑音源が複数ある場合など、目的音と雑音との分離が困難となる場合があり、この場合には、雑音抑制の性能が低下してしまうという課題があった。
【課題を解決するための手段】
【0005】
本発明の一実施形態は、複数の収音部が収音した音信号がそれぞれ時間周波数変換された複数の時間周波数信号を取得する信号取得部と、前記信号取得部が取得する複数の前記時間周波数信号と、前記音信号に含まれる目的音源の前記収音部に対する方向を示す目的音源方向情報とに基づく空間フィルタを用いて、複数の前記時間周波数信号がそれぞれ変換された複数のビームフォーミング信号を生成するビームフォーミング演算部と、前記ビームフォーミング演算部が生成する複数の前記ビームフォーミング信号どうしが統計演算された演算結果信号を出力する統計演算部と、前記統計演算部が出力する前記演算結果信号を音波形信号に変換する波形変換部とを備える音情報処理装置である。
【0006】
本発明の一実施形態は、上述の音情報処理装置において、前記統計演算とは、前記ビームフォーミング演算部が出力する複数の前記ビームフォーミング信号のうち、強度が相対的に弱い前記ビームフォーミング信号を選択することであり、前記統計演算部は、前記統計演算によって選択した前記ビームフォーミング信号を前記演算結果信号として出力する。
【0007】
本発明の一実施形態は、上述の音情報処理装置において、前記統計演算とは、前記ビームフォーミング演算部が出力する複数の前記ビームフォーミング信号をそれぞれ所定の重みによって重みづけして互いに積算することであり、前記統計演算部は、前記統計演算により、積算した前記ビームフォーミング信号を前記演算結果信号として出力する。
【0008】
本発明の一実施形態は、上述の音情報処理装置において、前記ビームフォーミング演算部は、前記音信号に含まれるノイズ音源の前記収音部に対する方向を示すノイズ音源方向情報にさらに基づく空間フィルタを用いて、前記ビームフォーミング信号を生成する。
【0009】
本発明の一実施形態は、上述の音情報処理装置は、前記目的音源方向情報と、前記演算結果信号とに基づいて、前記ビームフォーミング演算部が変換に用いる空間フィルタの特性を更新する特性更新部をさらに備える。
【0010】
本発明の一実施形態は、上述の音情報処理装置は、前記目的音源方向情報に基づいて、前記統計演算部が出力する前記演算結果信号に含まれる音情報が前記目的音源由来であるか否かを判定する判定部と、前記判定部による判定結果に基づいて、前記統計演算部が出力する前記演算結果信号に対するマスキング演算を行い、マスキング演算後の信号を前記波形変換部に出力するマスキング演算部とをさらに備え、前記波形変換部は、前記統計演算部が出力する前記演算結果信号に代えて、前記マスキング演算部が出力する前記マスキング演算後の信号を音波形信号に変換する。
【0011】
本発明の一実施形態は、コンピュータに、複数の収音部が収音した音信号がそれぞれ時間周波数変換された複数の時間周波数信号を取得する信号取得ステップと、前記信号取得ステップにおいて取得される複数の前記時間周波数信号と、前記音信号に含まれる目的音源の前記収音部に対する方向を示す目的音源方向情報とに基づく空間フィルタによって、複数の前記時間周波数信号がそれぞれ変換された複数のビームフォーミング信号を生成するビームフォーミング演算ステップと、前記ビームフォーミング演算ステップにおいて生成される複数の前記ビームフォーミング信号どうしが統計演算された演算結果信号を出力する統計演算ステップと、前記統計演算ステップにおいて出力される前記演算結果信号を音波形信号に変換する波形変換ステップと、を実行させるためのプログラムである。
【発明の効果】
【0012】
本発明によれば、雑音抑圧性能を向上させることができる音情報処理装置及びプログラムを提供することができる。
【図面の簡単な説明】
【0013】
【
図1】本実施形態の目的音源と干渉音源と収音部との配置とビームフォーミングによる空間フィルタの一例を示す図である。
【
図2】本実施形態の空間フィルタの一例を示す図である。
【
図3】本実施形態の空間フィルタの組合せ結果の一例を示す図である。
【
図4】本実施形態の実環境実験の結果の一例を示す図である。
【
図5】本実施形態の実環境実験の結果の他の一例を示す図である。
【
図6】本実施形態のシミュレーションの結果の一例を示す図である。
【
図7】本実施形態の音情報処理装置の機能構成の一例を示す図である。
【
図8】本実施形態の空間フィルタの特性を更新動作の流れの一例を示す図である。
【
図9】本実施形態の音情報処理装置の動作の流れの一例を示す図である。
【発明を実施するための形態】
【0014】
[概要]
十分な数の収音部M(例えば、マイクロフォン)が使用できる時、ビームフォーミングは効果的な音声強調を達成する。音声強調を事前に適用することで音声認識性能が向上することが報告されており、そういった音声アプリケーションの前処理として音声強調は重要なタスクである。ところが、マイクロフォンアレイに基づく音声強調性能はマイクロフォンの数Mnに依存する。一般に1個の目的音源sとN-1個の干渉音源nとが存在する時、音源数Nと同数以上のマイクロフォンが必要となる。一方で近年普及しているICレコーダなどの小型機器は高々2個のマイクロフォンを持つことが多く、そういった小型機器でも効果的に音声強調を達成する手法の開発が求められている。従来の時間周波数マスキングやマルチチャネルWienerフィルタ、潜在変数を用いた観測信号の統計的モデリング、非負値行列因子分解などの手法は劣決定条件下(すなわち、Mn<N)においても音声強調が可能である。しかし、これらの手法はミュージカルノイズのような人工ノイズを生じさせやすく、後段のアプリケーションに好ましくない。また、時間周波数点毎にただ1つの音源のみが存在するというW-Disjoint orthogonality(W-DO)を仮定する時間周波数マスキングは、原理的に、複数の音源が同時に存在する時間周波数点を抑圧することはできない。そこで、本実施形態では、より高性能な音声強調を目指し、劣決定問題であっても、目的音声を歪ませずに高い雑音抑圧性能を達成する、新たな音声強調手法の開発について説明する。
【0015】
図1は、本実施形態の目的音源sと干渉音源nと収音部Mとの配置とビームフォーミングによる空間フィルタの一例を示す図である。本実施形態では、時間周波数マスキング及び線形信号処理の拡張として、複数のビームフォーマを組み合わせる新たな非線形音声強調手法を説明する。一般に、N個の音源と2個のマイクロフォンが存在する(すなわち、Mn=2である)時、従来の線形ビームフォーマはただ1つの干渉音源nのみを抑圧し、残りの干渉音源nは抑圧されない。ただし、干渉音源nとは、ある方向から到来する雑音の点音源をいう。しかし、N-1個の干渉音源nのそれぞれを抑圧するようなN-1個のビームフォーマが構成できれば、それらのビームフォーマを組み合わせることで音声強調性能を向上させることができる。
【0016】
本実施形態では、劣決定音声強調を目的とし、同一の目的音源sを強調し、互いに異なる干渉音源nを抑圧する複数のビームフォーマを組み合わせる。
従来、正方形マイクロフォンアレイを用いた複数の固定ビームフォーマの周波数方向の組み合わせとWienerフィルタによる音声強調手法が提案されているが、この手法は、目的音声に歪みを生じやすいことが問題点として知られている。また、ロボットの機械の駆動音(モータなど)の抑圧を目的とし、時間周波数点毎に最適な雑音共分散行列をクラスタリングにより選択し、ビームフォーミングを行う手法が提案されている。この手法は、ロボットの駆動音の種類が限られているという仮定のもと、事前に雑音をクラスタリングする必要があり、音声強調への適用は難しい。一方、本研究では劣決定条件下における音声強調のために、複数の適応ビームフォーマを組み合わせる。更に、目的音声の歪みを可能な限り排除することで、後段の音声アプリケーションにとって有利な信号処理である。
【0017】
本実施形態では複数ビームフォーマの組み合わせ方法として、
(1)複数ビームフォーマ出力の積の累乗根をとる複素値相乗平均(complex-valued geometric mean;CGM)と、
(2)出力の最小絶対値をとる最小値選択(minimum value selection;MIN)と
の2つの方法を示す。CGMは、観測信号がW-DOを満たす場合、すなわち単一の時間周波数点においては、ただ1つの音源のみが存在する場合に干渉音源nを抑圧することができる。MINは、上記に加え、単一の時間周波数点に1つの目的音源sと1つの干渉音源nが存在する場合にも干渉音源nを抑圧することができる。MINによる複数ビームフォーマの組み合わせを、時間周波数スイッチング(time-frequency-bin-wise switching;TFS)ビームフォーマと呼ぶ。
なお、複数の固定ヌルビームフォーマの最小値選択による雑音抑圧は、従来から提案されているが、本実施形態では、MaxSNR(maximum signal-to-noise ratio)ビームフォーマやMVDR(minimum variance distortionless response)ビームフォーマなどの適応ビームフォーマを複数組み合わせ、最小値選択を行う。
【0018】
[線形ビームフォーマ]
従来の音声強調手法の多くと同様に、本手法もマイクロフォン観測をSTFTにより時間周波数領域に変換し信号処理を行う。ここで、xi(ω,t)を周波数ω、t番目の時間フレームにおけるi番目のマイクロフォン観測とする。
簡単のため2マイクの場合(すなわち、Mn=2の場合)を考えると、線形ビームフォーマは一般に以下の式(1)~式(3)で与えられる。
【0019】
【0020】
【0021】
【0022】
ここでy(ω,t)はビームフォーマの出力であり、w(ω)は構成された空間フィルタである。w(ω)の設計にはMaxSNRビームフォーマやMVDRビームフォーマ、線形拘束付最小分散(linearly constrained minimum variance; LCMV)ビームフォーマなどを利用できる。しかし、一般にMn個のマイクロフォンではMn-1個の干渉音源nのみ抑圧が可能であり、線形音声強調は、音源数よりもマイクロフォンの数が少ない場合には(劣決定条件)、十分な音声強調性能を得ることができない。
【0023】
[複数ビームフォーマの組み合わせによる音声強調]
簡単のため、目的音源sと、干渉音源n1と、干渉音源n2とからなる3音源を2つのマイクロフォン(収音部M1及び収音部M2)で抑圧することを考える。この状況下では、2つの干渉音源nを同時に抑圧する空間フィルタは構成できない。ここで、もし目的音源sと干渉音源n1のみが観測されたならば、干渉音源n1のみを抑圧するビームフォーマ1を従来のビームフォーマの構成法を用いて構成することができる。同様に干渉音源n2のみを抑圧するビームフォーマ2も構成することができる。これらのビームフォーマを用いることで、3音源からなる観測信号x(ω,t)を用いて以下の2出力y1(ω,t)、y2(ω,t)を得る。
【0024】
【0025】
【0026】
図2は、本実施形態の空間フィルタの一例を示す図である。
図3は、本実施形態の空間フィルタの組合せ結果の一例を示す図である。
ここでw
1(ω)、w
2(ω)はそれぞれビームフォーマ1、2の空間フィルタである。x、y
1、y
2における支配的な音源を
図3の第1~第3列に示した。xの全ての時間周波数点において、支配的な音源は1列目に示した7パターンとなる。ここで音源が存在しないケースは自明であるため考慮しない。y
1及びy
2の列に着目すれば、目的音源sのみが支配的である場合、2つのビームフォーマは共に目的音(すなわち、目的音源sの音)を出力する(
図3;2行目参照)。干渉音源n
1のみが支配的な場合、ビームフォーマ1は抑圧された信号を出力するが、ビームフォーマ2は干渉音源n
1に対する制約を持たないため、何らかの影響が及ぼされた干渉音1(すなわち、干渉音源n
1の音)を出力する。目的音源sと干渉音源n
1が支配的な場合、ビームフォーマ1は目的音を出力するが、ビームフォーマ2は両方を出力する。
本実施形態の手法では、y
1とy
2の両方を組み合わせることで音声強調を行う。ここで重要な問題は、これらのビームフォーマをどのように組み合わせるか、である。W-DOの仮定下において、各時間周波数で支配的な音は目的音源s、干渉音源n
1、n
2のいずれかである。組み合わせ方法の要件は、
1)目的音源sのみが支配的な場合、組み合わせも目的音を劣化なく出力
2)干渉音源n
1もしくはn
2が支配的な場合、それぞれの干渉音源nを抑圧しなければならない
という2点である。本実施形態では、CGMとMINとの2つの方法を、上記要件を満たす手法として示す。
【0027】
[複素値相乗平均によるビームフォーマの組み合わせ]
干渉音源n1、n2が到来した時、ビームフォーマ1(又は2)の出力が0もしくはごく小さな値であれば、CGMの以下の式は組み合わせ方法の要件を満たす。
【0028】
【0029】
上式は複素値をもつ複数ビームフォーマ出力の相乗平均を計算する。ただし、複素数の平方根は一般に2個あるが、ここではy1(ω,t)、y2(ω,t)の位相に近い値、すわなち
【0030】
【0031】
が小さくなる位相の根を用いる。なお、一般には、K個の干渉音源が存在した場合、それぞれを抑圧するK個の空間フィルタであるwk(ω)(k=1、…、K)を用いて、
【0032】
【0033】
【0034】
となる。
目的音源sのみが支配的であれば、出力は目的音と目的音との相乗平均であるから、目的音そのものとなる。干渉音源n1のみが支配的な時間周波数点では、0もしくはごく小さな値と干渉音源n1との積を計算することになるため、その出力も0に近い値になる、すなわち抑圧されることが期待される。干渉音源n2に対しても同様に考えられるため、複素値相乗平均では、両方の干渉音源が抑圧されることが期待できる。
しかし、目的音源sと干渉音源n1が同時に支配的な時間周波数点においては、目的音源sと、目的音源sと干渉音源n1との積とが計算されるため抑圧されない。従って本手法は、従来の時間周波数マスキングなどと同様に、W-DOが成り立つ時間周波数点のみ抑圧することができる。性能面での従来法との違いは、ビームフォーマを用いているため歪みが少なくなると期待されることである。
【0035】
[時間周波数スイッチングビームフォーマ:最小値選択によるビームフォーマの組み合わせ]
干渉音源n1(又はn2)が到来した時、ビームフォーマ1(又は2)の出力はビームフォーマ1(又は2)よりも小さくなる。従って以下の式は組み合わせの要件を満たす。
【0036】
【0037】
式(10)のように最小値選択では振幅が小さい出力を選択する。ここで目的音源sの振幅が、目的音源sと1つの干渉音源nからなる信号の振幅よりも小さいと仮定する。これは、音源の統計的独立性により、有効な仮定であると考えられる。この仮定により、目的音源sと1つの干渉音源nからなる時間周波数点においても干渉音源nを抑圧することができると期待される(
図3の5~6行目を参照)。しかし、干渉音源n
1、n
2が同時に存在する時間周波数点では、出力として干渉音2もしくは1のどちらかが必ず選択される(
図3の7行目を参照)。その出力は干渉音源n
1、n
2の混合よりも小さくなるが、片方の音源は依然として抑圧されない。
なお、一般には、
【0038】
【0039】
【0040】
となる。ただし、(k′=1、…、K)かつ(k′≠k)である。
MINによる複数ビームフォーマの組み合わせと時間周波数マスキングとには似た点がある。時間周波数マスキングは、各時間周波数点の信号が目的音源sかどうかを決定するマスクを推定する。従って、W-DOの仮定が必要となる。一方でMINは、どちらのビームフォーマがより良く干渉音源を抑圧するかを選択する。従って、MINによるビームフォーマの組み合わせでは、目的音源sと1つの干渉音源nが存在する時間周波数点においても、すなわちW-DOが成り立たなくとも抑圧が可能である。以上より、MINによる複数ビームフォーマの組み合わせは従来のW-DOの仮定を必要とする時間周波数マスキングの拡張であると言える。また、時間周波数点毎にビームフォーマを切り替えていることから、MINによる組み合わせを、改めて時間周波数スイッチング(time-frequency-bin-wise switching;TFS)ビームフォーマと呼ぶ。
【0041】
[時間周波数スイッチングビームフォーマの特色]
TFSビームフォーマはいくつかの利点を有する。
1)まず、従来の時間周波数マスキングが仮定する各音源間のW-DOの仮定を必要としない点である。ステレオマイクロフォンを用いたTFSビームフォーマでは、単一の時間周波数点に複数の干渉音源nが存在しないことを必要とする。一般に、Mn個のマイクロフォンが利用可能な場合(ただしMn<N)、単一の時間周波数点には(Mn-1)個の干渉音源nが同時に存在できる。これは、従来のW-DOの仮定を緩和するものである。なお、本手法はビームフォーマを用いるため、目的音声の存在は全ての時間周波数点で許容される。従って、各時間周波数点には、最大で目的音声と(Mn-1)個の干渉音源nが同時に存在できる。
2)次に、空間フィルタw(ω)の構成には、任意の従来のヌルビームフォーマを利用することが可能な点である。本実施形態ではMaxSNRビームフォーマとMVDRビームフォーマを用いるが、その他にもMVDRビームフォーマの一般化であるLCMVビームフォーマなども利用可能である。
3)更に、適切なビームフォーマを用いた場合、目的音源sには理論的に歪みが生じない。この特色は、音声認識などのアプリケーションの前段の処理として音声強調を行う場合に極めて重要な利点だと言える。なお、使用するビームフォーマは、複数のビームフォーマの出力信号の振幅と位相が共に一致する場合に、適切であると言える。そのようなビームフォーマの代表例はMVDRビームフォーマである。
【0042】
[時間周波数マスキングとの併用による拡張]
最小値選択による音声強調はシンプルな組み合わせ方法でありながら、高い音声強調性能を示す。しかし、複数の雑音が同時に存在する時間周波数点においては、全てを抑圧することができない。もしも、そのような時間周波数点に目的音源sが存在しないのであれば、時間周波数マスキング同様に抑圧すべきである。
【0043】
【0044】
ここで、M(ω,t)は時間周波数マスクである。最小値選択の出力に時間周波数マスキングを適用することで、
図3の7行目についても抑圧が可能となる。なお、
図3の8行目の抑圧には高度なソフトマスクの構成が必要となる。M(ω,t)の構成のため、本実施形態ではDOA推定による音源のアクティビティ推定を行った。まず、既存手法を1マイクロフォンペアのみで行う。これにより時間周波数点毎にDOA推定値が得られる。この推定はW-DOの仮定下で有効に働く。次に周波数ビン方向に平均を取る形で、時間フレーム毎の音源のアクティビティ推定を行う。最終的に、W-DOが十分に成り立っている時間周波数点では時間周波数点毎の、成り立っていない点では時間フレーム毎の音源アクティビティ推定に基づいてマスクの構成を行う。
【0045】
[音源到来方向推定に基づく時間周波数マスキングの構成]
本実施形態でDOA推定に用いる手法は、広く知られた手法である。ここで、観測信号の相対的な位相差を表すrelative phase ratio (RPR)は式(14)で定義される。
【0046】
【0047】
RPRは、混合ガウス分布(Gaussian mixture model; GMM)フィッティングによりクラスタリングされる。推定された各複素ガウス分布Ncの平均k(k=1、…、K)は、事前に定義された解像度に従うDOAに関連付けられたRPRの推定値となる。ここで、Kはクラスタ数を表す。また、解像度は、何度おきにDOAを推定するかを表し、例えば0°~180°の間で、1°おきに推定する、などと設定する。各複素ガウス分布Ncの分散σ2は全てのガウス分布に対して共通とし、性能を低下させることなく、ユーザが定義することができる。
【0048】
【0049】
ここで、与えられた観測φ(ω,t)に対して尤度最大となる複素ガウス分布の平均は、時間周波数点毎のDOAの推定値となる。
【0050】
【0051】
以降、局所的な、すわなち、時間周波数点毎のDOAをDOALとし、大域的な、すなわち、時間フレーム毎のDOAをDOAGとする。ここで、DOALは各時間周波数点のDOAに関連付けられたRPRであることに注意する。この時DOALに基づくソフトマスクML(ω,t)は、以下で求められる。
【0052】
【0053】
ただし、μk=targetは目的音方向(目的音源方向情報Dsが示す方向、すなわち、収音部Mに対する目的音源sの方向)に対応するガウシアンの平均である。この時間周波数点毎の推定は、W-DOが成立している点において有効な推定となる。
次に、DOALの平均を取ることで、時間フレーム毎の音源アクティビティ推定(source activity estimation; SAE)を行う。
【0054】
【0055】
【0056】
【0057】
ここで、Nωは周波数ビンの数である。ここで、ηL
k(ω,t)は、時間周波数点(ω,t)に存在する音源が、クラスタkに所属するかどうかを表すブーリアン型の変数である。SAEk(t)は、以下で定義される線形重み付移動平均(linear weighted moving average;LWMA)を適用することでスムージングされる。
【0058】
【0059】
ここで、TはLWMAを適用する一定区間のフレーム数である。これを用いて、DOAG、すなわち、時間フレームに関連付けられたDOA推定値は、SAE推定値に固定閾値(threshold)による閾値処理により計算される。
【0060】
【0061】
【0062】
ここでηG
k(t)及びソフトマスクM(t)Gは、それぞれ局所的な推定値であるηL
k(ω,t)及びML(ω,t)の大域的な推定値に対応するものである。DOAGは、DOALの平均を取る形で求められる。そのため、各時間フレームにつき、いくつかの周波数ビンがW-DOを満たしていなかったとしても、有効な推定を行うことができる。例えば、ある時間フレームについて、5割(固定閾値に対応)の周波数ビンにおいてある音源(目的音源s)が存在するのであれば、(残りの5割の周波数ビンの推定が誤っていたとしても)当該時間フレームにおいて目的音源sは存在すると言える。最終的に、W-DOが十分に成立している時間周波数点においてはDOALが、それ以外の時間周波数点ではDOAGの値がDOA推定値として採用される。
【0063】
【0064】
ここで<・,・>は標準内積を意味する。これを用いて、式(13)のソフトマスクM(ω,t)は、
【0065】
【0066】
により、構成される。
【0067】
[評価結果]
本実施形態の手法の有効性を確認するため2種の実環境実験と1種のシミュレーションからなる、3種の評価実験を行った。実環境のデータベースとして、3話者のデータセットを利用した。データセットにはそれぞれ男性3名、女性3名の混合音が含まれており、各話者を目的音源として計6通りの音声強調を行った。シミュレーションでは、RIR generatorにより生成したインパルス応答とクリーン音声との畳込み演算により、各音源を生成した。
実環境実験1として、複数ビームフォーマの組み合わせ方法について、それぞれの性能を検証すると共に、使用するビームフォーマによる性能変化についても検証した。
実環境実験2として、時間周波数を用いたTFSビームフォーマの拡張の有効性について検証した。また、それぞれの実験において、
図2の1列目に示す7パターンの音源の組み合わせに対して音声強調実験を行うことで、各区間において、期待する効果が得られているかどうかも検証した。
シミュレーションとして、W-DOの緩和について、残響環境下における音声強調実験により検証した。
【0068】
[実環境実験1:複数ビームフォーマの組み合わせ方法及び使用するビームフォーマに関する検討]
実験条件を次表に示す。
【0069】
【0070】
実験では、MaxSNRビームフォーマ、MVDRビームフォーマを従来のビームフォーマとして利用した。それぞれのビームフォーマの事前情報として、目的音源区間と干渉音源区間を与えた。それぞれのビームフォーマに同一の事前情報を与えることで、条件を揃えている。目的音源区間ではなく、目的音源の伝達関数を必要とするMVDRビームフォーマにおいては、目的音源区間の空間相関行列に対して固有値分解を行い、最大固有値に対応する固有ベクトルを伝達関数の推定値として用いた。
比較のための従来法として、それぞれのビームフォーマを単体で用いた劣決定音声強調であるMaxSNR_SOL及びMVDR_SOL、また、2チャネルの時間周波数マスキングとしてDUETを用いた。更に、ヴァーチャルマイクロフォン技術を用いたMaxSNRビームフォーマも評価した。この手法では、実マイクロフォンとヴァーチャルマイクロフォンの両方を用いることで、劣決定条件を回避することができる。ヴァーチャルマイクロフォン合成のパラメータとしてα=0.5、β=2を用いた。手法として、“ビームフォーマ”_“CGM or MIN”と呼ぶ4種類を評価した。ここで“ビームフォーマ”はMaxSNRかMVDRである(例えばMaxSNR_CGM)。CGMとMIN計算のため、それぞれ干渉音源n
1、n
2を抑圧するビームフォーマ1、2を事前に構成した。そのため、目的音源区間と干渉音源n
1、n
2それぞれの区間が必要となる。本手法の有効性の調査のため、
図3の1列目に示す7パターンの区間を用意した。ここで、全ての音源は音声であるためスパースである。従って各時間周波数点においては、複数の音源からなる区間であっても常に同時に存在するとは限らない。評価尺度として、SDR、SIRを用いた。実験結果として、データセットに含まれる男性3名、女性3名、それぞれを目的音源とした計6通りの音声強調の結果を評価し、その平均を示す。なお、リファレンス信号としては、雑音を含まず、残響を含んだリファレンスマイクロフォンにおける目的音声を使用した。
【0071】
[実環境実験1:結果と考察]
図4は、本実施形態の実環境実験の結果の一例を示す図である。
SDRとSIRを
図4に示した。従来の単一ビームフォーマでは、周波数ビン毎に干渉音源n
1かn
2のどちらか一方のみが抑圧可能であり、十分な音声強調性能が得られていない。従来法であるDUETは時間周波数マスクにより音源分離を行うため歪みが生じやすく、SDRが低くなっている。一方で、雑音はよく抑圧できており、SIRは高い値となっている。一般に、時間周波数マスキングでは歪みと雑音抑圧性能がトレードオフとなっており、両者を同時に高めることは(W-DOがどの程度の時間周波数点で成り立っているかにも依存するが)困難である。一方で本実施形態の手法、特にMVDR_MINは、SDR、SIR共に高くなっており、少ない歪みで高い雑音抑圧性能を達成している。
CGMとMINのSIRを比べると、常にMINがCGMを上回っている。これはビームフォーマの指向特性から考察できる。目的音源sを強調し、干渉音源n
1のみを抑圧するビームフォーマ1は、干渉音源n
2の方向に対する制約を持たないため、その方向への応答は不明であり、ゲインが多少増加する可能性がある。例えばy
1に含まれる干渉音源n
1のゲインが-25dB、y
2では5dBである時、CGMの計算後は約(-25+5)/2=-10dBとなる。一般に、ある雑音に対して-20dB以下の応答を持つ時、ビームフォーマはその雑音を抑圧すると言える。従って、この時ビームフォーマ1は干渉音源n
1を抑圧しているが、CGMでは抑圧できていない。このように、CGMでは深いヌルを作ることができない。一方、MINでは、このような場合であってもビームフォーマ1を選択することで抑圧が可能である。なお、CGMの計算時に適した重みを設定することで、性能を向上させることも可能である。
MaxSNRビームフォーマとMVDRビームフォーマを比べると、MVDRビームフォーマが多くの場合に高い性能を示している。特にSDRにおいてはMVDR_MINが最高性能を示しており、必ずMaxSNRビームフォーマを上回っている。また、興味深いことにSIRでは僅差でMaxSNR_MINが最高性能を示している。これはそれぞれのビームフォーマの性質、及びMINの性質から考察できる。MaxSNRビームフォーマはSNRを最大化し、目的音源方向に対する制約は持たない。従って干渉音源nを良く抑圧しやすく、SIRが高くなる。しかし一方で、それぞれのビームフォーマ毎にSNRを最大化するため、2つのビームフォーマの出力において目的音の位相及びゲインが異なる可能性がある。これは本手法において無視できない極めて重要な問題である。
【0072】
TFSビームフォーマでは時間周波数点毎に2つのビームフォーマが頻繁に切り替わる。これにより、時間周波数点毎に最適なビームフォーマが選択され、音声強調性能を向上させている。しかし、2つのビームフォーマ出力の位相もしくはゲインが異なる場合、時間周波数マスキングのように、ビームフォーマの切り替えによって歪みが生じてしまう。MaxSNRビームフォーマに対し、MVDRビームフォーマは目的音源方向に対する制約をもち、2つのビームフォーマ出力の位相とゲインが(制約が満たされている限り)一致する。従って切り替えによる歪みは生じない。これが、MVDR_MINが高いSDRを示す理由である。そして、以上よりMINにとって、すわなち、TFSビームフォーマにとって適切なビームフォーマの要件は、複数ビームフォーマの出力信号の位相とゲインが一致すること、となる。
【0073】
[実環境実験2:TFSビームフォーマと時間周波数マスキングを用いたその拡張の有効性の検証]
実験条件を次表に示す。
【0074】
【0075】
なお、残響時間は、実験1よりも120ms長い250msのデータを使用した。また、サンプリング周波数を16kHzにしたことにより、高域においては空間的エイリアシングが生じることに注意する。サンプリング周波数の変更に伴い、STFTにおけるFFTフレーム長及びFFTフレームシフト幅を調整している。その他の実験条件は実験1と同一である。
実験では、MVDRビームフォーマがTFSビームフォーマにおける適切なビームフォーマの一つであることから、MVDRビームフォーマを従来のビームフォーマとして利用した。ビームフォーマの事前情報は実験1と同様とした。比較のための従来法として、こちらも実験1と同様に、MVDRビームフォーマを単体で用いた劣決定音声強調であるMVDR、2チャネルの時間周波数マスキングであるDUET、ヴァーチャルマイクロフォン技術(VM)を導入したMaxSNRビームフォーマも評価した。これらの手法に加え、空間的サブトラクションアレー(spatial subtraction array;SSA)を2チャネルで実行した場合の性能も示す。ここで参照パスの推定(雑音の推定)にはヌルビームフォーマや独立成分分析(independent component analysis;ICA)に基づく手法が提案されているが、本実施形態ではMaxSNRビームフォーマを用いた。なお、SSAで用いるパラメータは提案されている値とした。また、位相の補償にはDSビームフォーマの出力値が用いられているが、本稿ではMaxSNRビームフォーマの出力値を用いている。
MVDRビームフォーマを用いた時間周波数スイッチングビームフォーマと、時間周波数マスキングを用いたその拡張を検討し、以下ではそれぞれをTFS、TFS+TFMと省略する。各手法の計算のため、それぞれ干渉音源n
1、n
2を抑圧するビームフォーマ1、2を事前に構成した。そのため、目的音源区間と2つの干渉音それぞれの干渉音源区間が必要となる。時間周波数マスク構成のためのDOA推定のパラメータは以下の通りである。全ての複素ガウス分布の分散は10とした。ここで、音声のエネルギーが十分存在すると考えられる周波数帯域である1~4kHzの周波数ビンのみを用いてGMMを学習した。SAEでは、LWMAによるスムージングのために用いる区間をT=9(384ms)とした。
本手法の有効性の調査のため、実験1と同様に、
図3の1列目に示す7パターンの音源の組み合わせに対して実験を行った。評価尺度として、SDR、SIRに加え、SARを用いた。なお、実験1と同様に、データセットに含まれる男性3名、女性3名、それぞれを目的音源とした計6通りの音声強調の結果を評価し、その平均を実験結果として示す。リファレンス信号も同様に、雑音を含まず、残響を含んだリファレンスマイクロフォンにおける目的音声とした。
【0076】
[実環境実験2:結果と考察]
図5は、本実施形態の実環境実験の結果の他の一例を示す図である。
実験結果を
図5に示した。従来の単一ビームフォーマはただ1つの干渉音のみ抑圧できるため、音声強調性能は低いが、SARに示されるように人工的な雑音は生じにくい。本実施形態の手法は全ての評価尺度に置いて高い性能を示し、単一ビームフォーマだけでなく従来の時間周波数マスキング手法であるDUETも上回る結果となった。特にTFSを時間周波数マスキングを用いて拡張することで、SARを劣化させることなく、SIRを大きく向上させることに成功している。以上より、本実施形態の手法とその拡張は高い音声強調性能を示すと言える。SSAに関しては、特に音声認識の前段の処理として開発されており、位相情報を正しく保持しない。そのため、全ての評価尺度の値が低くなっていることに注意されたい。
DOA推定による本実施形態の手法の拡張の最大の利点は、時間周波数マスク適用によるSIRの向上である。TFSビームフォーマでは、干渉音源n
1、n
2が同時に存在する時間周波数点においては、その両方を同時に抑圧することはできない。そのような点はマスキングすることで、より効果的な雑音抑圧を達成している。以上より、DOA推定に基づくTFSビームフォーマの拡張は、雑音抑圧性能の向上に有効だと言える。
【0077】
[シミュレーション:TFSビームフォーマの残響環境における音声強調性能及びW-DOとの関係性]
実験で用いたFFTフレーム長を次表に示す。
【0078】
【0079】
その他の実験条件を次表に示す。
【0080】
【0081】
実験では、MVDRビームフォーマを用いたTFSビームフォーマを用いた(TFS)。ビームフォーマの事前情報は実験1と同様とした。ただし、TFSビームフォーマ自体の性質について議論するため、時間周波数マスキングによる後段の処理は行っていない。比較のための従来法として、こちらも実験1と同様に、MVDRビームフォーマを単体で用いた劣決定音声強調であるMVDR、2チャネルの時間周波数マスキングであるDUETを用いた。目的音源sは、日本語男性/女性、英語男性/女性の4種類の音声と、生成したインパルス応答との畳込み演算によりシミュレートし、そのDOAは90°とした。干渉音源nとしては、50°、120°、160°から到来する3種類の音声を用いた。目的音と各干渉音のSNRは0dBに設定した。従って観測信号に含まれる目的音と干渉音のSNRは負の値をとる。STFTで用いるFFTフレーム長は、各種法、各残響時間毎に最大のSDRをとる値を最適値として用いた。
評価尺度は、実験2と同様に、SDR、SIR、SARを用いた。リファレンス信号も同様に、雑音を含まず、残響を含んだリファレンスマイクロフォンにおける目的音声とした。実験結果は、4人の話者について音声を行った結果を評価し、その平均を示す。
【0082】
[シミュレーション: 結果と考察]
図6は、本実施形態のシミュレーションの結果の一例を示す図である。
SDR、SIR、SARの改善量(混合信号と強調信号の各評価尺度の値の差)を
図6に示す。音源s
i(ω,t)、(i=1、…、4)は、max|s
i(ω,t)|/10よりも大きな振幅値をとるときに存在するとした。単一の時間周波数点に複数の音源が存在した場合、そのような点ではW-DOが満たされていない。
図6によると、従来の単一ビームフォーマであるMVDRは一つの干渉音源しか抑圧できないが、一方で人工雑音は生成しにくい。従って、SARのみ高い数値を示し、これまでの結果と一致する。残響時間が120msの時、多くの時間周波数点でW-DOが満たされる。そのため、DUETは高い音声強調性能を達成している。しかし、残響時間が長い場合、混合信号はW-DOを満たしにくくなる。DUETの音声強調性能は、従って、大きく低下する。一方で、本実施形態の手法は、非常に長い780msという残響環境においても高い音声強調を保持している。従って、本実施形態の手法は残響環境においても有効であると言える。
本実施形態の手法と残響時間の関係に着目すると、残響が長くなるに連れて、本実施形態の手法の音声強調性能が少しずつ低下していく。しかし、一般に残響が長いほど音声強調は困難になることから、その低下は十分に少ないと言える。従って、本実施形態の手法は残響に対してロバストであると言える。残響時間が310msの場合、約20%の時間周波数点において、二つの音源が同時に存在した。このような時間周波数点は、DUETなどの時間周波数マスキングに基づく音声強調では、原理的に音声強調が行えない。一方で本実施形態の手法は、2チャネルのマイクロフォンアレイが利用可能な時、二つの音源が同時に存在する場合にも音声強調が可能である。ただし、二つの音源が共に干渉音の場合には、時間周波数マスキングによる後段の処理が必要である。310msの場合に比べ、780msではさらに多くの時間周波数点において、複数の音源が存在していた。同時に存在する音源が二つの場合は先述の通りである。音源が3以上の場合、本実施形態の手法は全ての干渉音源nを同時に抑圧することはできないが、少なくとも1つの干渉音源nはビームフォーマにより抑圧することができる。従って、本実施形態の手法は一定の音声強調性能を保証する。その一方で、時間周波数マスキングは、そのような時間周波数点においては、全ての音源を抑圧するか、全く抑圧しないかのどちらかである。
【0083】
本実施形態では、新たな劣決定音声強調手法としてTFSビームフォーマを示した。これは、事前に構成した複数のビームフォーマから時間周波数点毎に最適なビームフォーマを選択する手法であり、MVDRビームフォーマなどの適切なビームフォーマを用いることで、目的音声の歪みを抑えながら高い雑音抑圧性能を達成するという極めて重要な特色を持つ。また、本手法は時間周波数マスキングと併用することで、更に雑音抑圧性能を向上させることができる。本実施形態で用いた時間周波数マスキングは、時間周波数点毎のDOA推定、及び時間フレーム毎のSAEに基づき構成した。両者の手法は共にW-DOの成立を必要とせず、従来の時間周波数マスキングの拡張であると言える。実環境実験では、TFSビームフォーマ及びその拡張が、比較に用いた従来法を大きく上回る性能を達成することを確認した。
【0084】
[時間周波数スイッチング技術を用いた最小分散無歪応答ビームフォーマの劣決定拡張]
本実施形態では、TFSビームフォーマの更なる発展を説明する。上述したTFSビームフォーマは、複数のビームフォーマを事前構成するため、事前情報として、目的音源区間と各干渉音源区間が必要であった。しかし、実環境においてそれら全ての事前情報は通常得られない。そこで、本実施形態では、TFSビームフォーマを同時最適化問題として再定式化し、事前情報として目的音源sの伝達関数のみを必要とする手法へと拡張する。
【0085】
[時間周波数スイッチングビームフォーマの問題点]
TFSビームフォーマは、その利点の一つとして、任意のヌルビームフォーマを用いて空間フィルタw(ω)を構成できるという特徴を持つ。従って、MaxSNRビームフォーマなどの適応ビームフォーマの他、固定ビームフォーマを用いることも可能であり、高い拡張性があった。しかし、存在する干渉音源nそれぞれを抑圧するビームフォーマの構成のため、目的音源sの他に、それぞれのビームフォーマが抑圧したい干渉音源nの事前情報を必要とした。すなわち、K個の干渉音源nが存在する場合には、k番目の干渉音源(k=1、…、K)を抑圧するビームフォーマkの構成のために、目的音源sと干渉音源nkの事前情報が必要であった。ところが、実環境においてそのような事前情報が得られるという状況は考えにくく、本実施形態の手法の実用性を著しく損なってしまう。
そこで本実施形態では、TFSビームフォーマで用いるビームフォーマをMVDRビームフォーマに限定し、再定式化することで、上記の問題点を解決する。すでに多くの製品で実用化されているMVDRビームフォーマは、目的音源sの伝達関数のみを事前情報として必要とする。従って、本実施形態の手法が必要とする事前情報を、同様に目的音源sの伝達関数のみに限ることができれば、十分実用的であると言える。
【0086】
[従来の最小分散無歪応答(MVDR)ビームフォーマ]
i番目のマイクロフォンにおける観測信号のSTFT表現をxi(ω,t)とする。Mnチャネルのマイクロフォンアレイを用いて、1個の目的音とN-1個の干渉音源nを観測する時(すなわち、Mn=Nであり、決定系である)、従来のMVDRビームフォーマを用いて音声強調が行える。音声強調は、以下の方程式により、干渉音源nのDOAに対してヌルを形成することで行われる。
【0087】
【0088】
【0089】
【0090】
ここでy(ω,t)はビームフォーマの出力信号であり、w(ω)は空間フィルタである。空間フィルタw(ω)は以下の最適化問題を解くことで構成される。
【0091】
【0092】
【0093】
ここで、E[・]は期待値演算であり、a(ω)は目的音源sからマイクロフォンアレイへの伝達関数である。ただし、実際にはa1ですべての要素を割ることで、相対的な伝達関数を使用する。
【0094】
【数31】
式(29)は制約付き最適化問題であるから、ラグランジュの未定乗数法を用いることで、以下のコスト関数Jcを得る。
【0095】
【0096】
ここで、Re[・]は引数の実部を返す関数であり、λ*は複素値のラグランジュ乗数である。コスト関数(式32)を最小化することで、以下の閉形式の解を得る。
【0097】
【0098】
【0099】
MVDRビームフォーマは、目的音を無歪みで強調することが可能である。しかし、Mn個のマイクロフォンではMn-1個の干渉音源nのみが抑圧可能である。従って、Mn<Nとなるような劣決定条件の下では、MVDRビームフォーマを用いた線形音声強調の性能は十分でない。
【0100】
[最小分散無歪応答(MVDR)ビームフォーマの劣決定拡張]
簡単のため、以下ではステレオマイクロフォンの利用を考える(すなわちMn=2)。TFSビームフォーマは、1個の目的音源sとN-1個の干渉音源nからなるN音源に対して、K個の空間フィルタ(K=N-1)の組み合わせによって音声強調を行う。従って、TFSに基づくMVDRビームフォーマの最適化問題は、以下のように定式化される。
【0101】
【0102】
ここで、mk(ω,t)は、wk(ω)が使われるならば1、使われないならば0をとる時間周波数マスク(バイナリマスク)である。従って、式(35)は、k番目の空間フィルタと、時間周波数点(ω,t)において使用するビームフォーマを同時に最適化している。N=2の時、従ってK=1の時(すなわち決定系である)、本実施形態の最適化問題(式(35))は従来のMVDRビームフォーマの最適化問題(式(29))と一致することに注意されたい。式(35)は制約付き最適化問題であるから、ラグランジュの未定乗数法を用いることで、以下のコスト関数Jpを得る。
【0103】
【0104】
ここで、λ*
kはk番目の複素値のラグランジュ乗数である。Jpの最小化は同時最適化問題であり、wkとmkを同時に最適化することは困難である。しかし、それぞれを交互に最適化することは可能である。
wkを固定すると、mkに関するコスト関数は
【0105】
【0106】
となり、従って、
【0107】
【数38】
を得る。ここで、(k′=1、…、K)かつ(k′≠k)である。この最適化は、各時間周波数点において最適な空間フィルタを選択することに相当し、すなわち、MVDRビームフォーマの時間周波数点毎のスイッチング(すなわちTFS)を行っていることに相当する。
次に、m
kを固定すると、w
kに関するコスト関数は式(36)に一致する。
【0108】
【0109】
k番目の空間フィルタが使われる時間周波数点(すなわちmk(ω,t)=1)に着目すると、コスト関数(すなわち、式(39))は従来のMVDRビームフォーマのそれ(式(32))に一致する。従って、式(39)を最小化するという最適化問題は以下の閉形式の解を得る。
【0110】
【0111】
【0112】
mkとwkは、それぞれ式(38)と式(40)を用いて交互に更新される。mkもしくはwkは、それぞれ、固定ビームフォーマであるヌルビームフォーマなど、空間フィルタを構成する従来手法、DUETなど、時間周波数マスキング(バイナリマスク)を構成する従来す手法を用いて初期化することができる。このような初期値を用いることでパーミュテーション問題を回避することができる.すなわち、空間フィルタwkは全ての周波数ビンにおいて,干渉音源nkを抑圧する。一方で,ランダムな初期値を用いた場合には、周波数ビン毎に異なる干渉音源を抑圧する可能性がある。最終的に、十分な回数の更新の後、以下の式により音声強調が行われる。
【0113】
【0114】
ここで、空間フィルタの計算(式(40))と音声強調(式(42))を含む、以上の全ての式は、決定系において(N=2であり、すなわちK=1)、従来のMVDRビームフォーマの対応する式と完全に一致することに、再度注意されたい。
mk(ω,t)=1を満たす時間周波数点は、wk(ω)を構成する時に使用される。この時間周波数点の集合は、干渉音源nkが全ての干渉音源nの中で最も支配的な時間周波数点のクラスタとみなすことができる。干渉音源n間のW-DOを仮定することで、このクラスタは、干渉音源nk(及び目的音源s)のみが存在する時間周波数点のクラスタであると言い換えることができる。そのような時間周波数点に着目したビームフォーミングは、従って、決定系における音声強調であり、従来のMVDRビームフォーマによって解くことができる。このように、TFSに基づくMVDRビームフォーマは、最も支配的な干渉音源nのクラスタリングとMVDRビームフォーマの構成、という二つのステップにより音声強調を行っていると解釈することができる。
【0115】
[シミュレーションによる評価実験]
本実施形態の手法の有効性を確認するため、RIR generatorを用いたシミュレーションにより、インパルス応答を生成し、評価実験を行った。実験条件を次表に示す。
【0116】
【0117】
実験では、本実施形態の手法の有効性を以下の3手法と比較することで検証した。比較手法は、従来のMVDRビームフォーマを単独で用いた劣決定音声強調(MVDR)、2チャネルの時間周波数マスキングDUET、従来のTFSビームフォーマとした。
本実施形態の手法には事前情報として目的音源sの伝達関数を与えた。また、空間フィルタwk(ω)の初期化は、固定ビームフォーマであるヌルビームフォーマを利用した。ここで、ヌルビームフォーマは目的音源sのDOAを除くランダムな方向にヌルを形成した。ヌルを形成する方向は、少なくとも20°は離れるように制約した。実験では、5種類のランダム初期値に対して音声強調を行い、その平均を結果として示す。また、mkとwkは、それぞれ式(38)と式(40)とを用いて10回ずつ更新した。
本実施形態の手法の有効性を確認するため、6種類の干渉音源nA~nFを用意した。各干渉音源nのDOAは、それぞれ20°、40°、60°、110°、130°、150°である。干渉音源nの組み合わせとして、nA~nCから一つ、nD~nFから一つ選択し、計9通りの組み合わせに対して実験を行った。更に、干渉音源の組み合わせnAnCnE、nBnDnF、nCnDnEに対しても実験を行った。目的音源sとしては、日本語男性/女性、英語男性/女性の4種類の音声を使用し、そのDOAは90°とした。目的音と各干渉音のSNRは0dBに設定した。従って観測信号に含まれる目的音と干渉音のSNRは負の値をとる。評価尺度は、SDR、SIRを用いて、その改善量を示す。実験結果は、目的音声及び空間フィルタのランダム初期化に関して、平均値を示す。なお、リファレンス信号としては、雑音を含まず、残響を含んだリファレンスマイクロフォンにおける目的音声を使用した。
【0118】
[実験結果]
各干渉音源nの組み合わせに対するSDR及びSIRの改善量を示す。次表には、音源数N=3の場合の結果を示す。
【0119】
【0120】
次表には、N=4の場合の結果を示す。
【0121】
【0122】
従来法であるMVDRは一つの干渉音源のみが抑圧可能なため、劣決定系においては音声強調に失敗している。TFS-MVDRは、干渉音源のDOAにかかわらず、常にDUETを上回る結果となった。更に、本実施形態の手法は事前学習を必要としないにもかかわらず、事前学習を必要とする従来のTFS-MVDRに近い音声強調性能を達成した。以上より、本実施形態のTFS-MVDRは雑音環境下における劣決定音声強調に有効であると言える。
時間周波数平面において、選択されたビームフォーマは頻繁に切り替わる。しかし、TFS-MVDRは基本的に最適化問題(式(35))における線形拘束条件を満たす。従って、ビームフォーマの切り替えによる目的音声の歪みは生じない。強調信号y1及びy2の和である最終的な強調信号y(式(42)を参照)について、mk(ω,t)=1となる時間周波数点の集合は、目的音源sの存在によらず、干渉音源nk(それぞれ、k=1、k=2)を含む。Mn=2のとき、干渉音源間のW-DOを仮定すれば、それぞれの集合は目的音源s及び干渉音源nkのみからなる。そのような集合により表される信号に対するビームフォーミングは決定問題であり、目的音声と抑圧された干渉音源nkを含む強調信号ykを出力する。ここで、ykは、mk(ω,t)=1となる時間周波数点の集合を用いて計算されるため、目的音源sの一部のみを保持することに注意されたい。更に、yk及びそれ以外の強調信号yk′は、完全に異なる時間周波数点において、目的音源成分を持つ。ykの和である強調信号yは、従って両方の干渉音を抑圧し、かつ、目的音源sは完全に復元される。
本実施形態においては、時不変な空間フィルタw(ω)を用いていたが、適応ビームフォーマであるMVDRビームフォーマは、時変な空間フィルタw(ω,t)を構成することができる。従って、本実施形態の手法も同様に時変な空間フィルタwk(ω,t)を構成することができる。
【0123】
本実施形態では、新たな劣決定音声強調手法である時間周波数スイッチング(time-frequency-bin-wise switching; TFS)ビームフォーマを、より実用的な手法へと拡張した。本実施形態の手法は、従来のMVDRビームフォーマの自然な劣決定拡張である。更に、時間周波数マスキングの拡張でもあり、また、ビームフォーミングと時間周波数マスキングを組み合わせた手法ともみなすことができる。実験では、干渉音源nのDOAによらず、高い音声強調性能、すなわち、少ない歪みで高い雑音抑圧性能を示すことを確認した。
【0124】
[音情報処理装置10の機能構成]
次に、上述した新たな劣決定音声強調手法を実現するための音情報処理装置10の機能構成について説明する。
【0125】
図7は、本実施形態の音情報処理装置10の機能構成の一例を示す図である。
音情報処理装置10は、時間周波数変換部110と、信号取得部120と、ビームフォーミング演算部130と、統計演算部140と、判定部150と、マスキング演算部160と、波形変換部170と、特性更新部180と、音源方向情報記憶部190とを備える。
【0126】
音源方向情報記憶部190には、目的音源方向情報Dsが記憶されている。この目的音源方向情報Dsとは、収音部Mに対する目的音源sの方向を示す情報であり、例えば伝達関数などの情報である。目的音源方向情報Dsは、例えば、音情報処理装置10を利用する利用者の操作に基づいて、又は、収音部Mに対する目的音源sの方向を検出するセンサ類(不図示)の出力に基づいて生成される。
【0127】
時間周波数変換部110は、複数の収音部Mが収音した音信号SIをそれぞれ時間周波数変換することにより、音信号SIに対応する時間周波数信号TFを生成する。時間周波数変換部110は、生成した時間周波数信号TFを信号取得部120に出力する。
本実施形態の一例では、収音部M1及び収音部M2の2つの収音部Mがある。この場合、時間周波数変換部110は、収音部M1が収音した音信号SI1を時間周波数変換して時間周波数信号TF1を生成する。また、時間周波数変換部110は、収音部M2が収音した音信号SI2を時間周波数変換して時間周波数信号TF2を生成する。
【0128】
信号取得部120は、時間周波数変換部110が収音部M毎に生成した時間周波数信号TFを取得する。すなわち、信号取得部120は、複数の収音部Mが収音した音信号SIがそれぞれ時間周波数変換された複数の時間周波数信号TFを取得する。
【0129】
ビームフォーミング演算部130は、時間周波数信号TFを変換することにより、ビームフォーミング信号BFSを生成する。より具体的には、ビームフォーミング演算部130は、信号取得部120が取得する複数の時間周波数信号TFと、音信号SIに含まれる目的音源sの収音部Mに対する方向を示す目的音源方向情報Dsとに基づく空間フィルタを用いて、複数の時間周波数信号TFがそれぞれ変換された複数のビームフォーミング信号BFSを生成する。
【0130】
なお、ビームフォーミング演算部130は、目的音源方向情報Ds、すなわち、収音部Mに対する目的音源sの方向を示す情報に基づく空間フィルタを用いてビームフォーミング信号BFSを生成するとして説明したが、これに限られない。
ビームフォーミング演算部130は、目的音源方向情報Dsに加え、音信号SIに含まれるノイズ音源の収音部Mに対する方向を示すノイズ音源方向情報Dnにさらに基づく空間フィルタを用いて、ビームフォーミング信号BFSを生成してもよい。
このように構成された音情報処理装置10によれば、雑音抑圧性能をより向上させることができる。
【0131】
統計演算部140は、ビームフォーミング演算部130が生成する複数のビームフォーミング信号BFSどうしが統計演算された統計演算結果信号SSを出力する。
【0132】
波形変換部170は、統計演算部140が出力する統計演算結果信号SSを音波形信号SOに変換する。波形変換部170は、音波形信号SOを音情報利用装置20に出力する。
【0133】
特性更新部180は、目的音源方向情報Dsと、統計演算結果信号SSとに基づいて、ビームフォーミング演算部130が変換に用いる空間フィルタの特性を更新する。空間フィルタの特性の更新動作の一例について説明する。
【0134】
図8は、本実施形態の空間フィルタの特性更新動作の流れの一例を示す図である。
(ステップS01)ビームフォーミング演算部130は、現状の空間フィルタ(w
1(ω)、w
2(ω))によってビームフォーミング信号BFSを生成する。
(ステップS02)統計演算部140は、ステップS01において生成されたビームフォーミング信号BFSに基づいて、統計演算結果信号SSを生成する。これにより、k番目の干渉音信号に基づく、干渉音源nのクラスタリング結果が得られる。このクラスタリング結果をビームフォーママスクと呼ぶ。
(ステップS03)特性更新部180は、予め取得されている目的音源方向情報Dsと、ステップS02において得られたクラスタリング結果とに基づいて、空間フィルタ(w
1(ω)、w
2(ω))の特性を更新する。
ビームフォーミング演算部130と、統計演算部140と、特性更新部180とは、上述したステップS01~ステップS03を繰り返し実行することにより、雑音抑圧性能がより高い空間フィルタを生成する。
【0135】
図7に戻り、判定部150は、目的音源方向情報Dsに基づいて、統計演算部140が出力する統計演算結果信号SSに含まれる音情報が目的音源s由来であるか否かを判定する。
マスキング演算部160は、判定部150による判定結果に基づいて、統計演算部140が出力する統計演算結果信号SSに対するマスキング演算を行い、マスキング演算結果信号MS(マスキング演算後の信号)を波形変換部170に出力する。
この場合、波形変換部170は、統計演算部140が出力する統計演算結果信号SSに代えて、マスキング演算部160が出力するマスキング演算結果信号MSを波形変換対象の信号にして、音信号に変換する。
【0136】
[音情報処理装置10の動作]
図9は、本実施形態の音情報処理装置10の動作の流れの一例を示す図である。
(ステップS10)時間周波数変換部110は、複数の収音部Mから音信号SIをそれぞれ取得する。
(ステップS20)時間周波数変換部110は、取得した音信号SIをフーリエ変換(例えば、短時間フーリエ変換)することにより、音信号SIが時間周波数変換された信号、すなわち時間周波数信号TFを生成する。時間周波数変換部110は、生成した時間周波数信号TFを信号取得部120に出力する。
(ステップS30)信号取得部120は、時間周波数変換部110が生成した時間周波数信号TFを取得し、ビームフォーミング演算部130に出力する。
(ステップS40)
ビームフォーミング演算部130は、信号取得部120から時間周波数信号TFを取得する。また、ビームフォーミング演算部130は、音源方向情報記憶部190から目的音源方向情報Dsを取得する。ビームフォーミング演算部130は、取得した時間周波数信号TFと、目的音源方向情報Dsとに基づく空間フィルタを用いて、ビームフォーミング信号BFSを生成する。ビームフォーミング演算部130は、生成したビームフォーミング信号BFSを、統計演算部140に出力する。
【0137】
(ステップS50)統計演算部140は、ビームフォーミング演算部130が出力するビームフォーミング信号BFSを統計演算することにより、統計演算結果信号SSを生成する。
【0138】
なお、統計演算部140による統計演算には、次の2種類が含まれていてもよい。
(1)統計演算とは、ビームフォーミング演算部130が出力する複数のビームフォーミング信号BFSのうち、強度が相対的に弱いビームフォーミング信号BFSを選択することである。この場合、統計演算部140は、統計演算によって選択したビームフォーミング信号BFSを統計演算結果信号SSとして出力する。
(2)統計演算とは、ビームフォーミング演算部130が出力する複数のビームフォーミング信号BFSをそれぞれ所定の重みによって重みづけして互いに積算することである。この場合、統計演算部140は、統計演算により、積算したビームフォーミング信号BFSを統計演算結果信号SSとして出力する。
【0139】
(ステップS60)判定部150は、目的音源方向情報Dsに基づいて、統計演算結果信号SSに含まれる音情報が目的音源s由来であるか否かを判定する。
【0140】
ここで、統計演算結果信号SSに目的音源s由来の音情報が含まれている場合と、目的音源s由来の音情報が含まれていない場合とがある。例えば、
図3に示した一例の場合、
図3に示す表の2行目から6行目までの統計演算結果信号SS(つまり、統計演算結果信号SS1)には、目的音源s由来の音が含まれている。一方、
図3に示す表の7行目の統計演算結果信号SS(つまり、統計演算結果信号SS2)には、目的音源s由来の音が含まれていない。
例えば、
図3に示す表の7行目のように、時間周波数信号TFに目的音源s由来の音が含まれていない場合には、ビームフォーミング信号BFS1及びビームフォーミング信号BFS2を統計演算したとしても、統計演算結果信号SS2には、干渉音源n
1又は干渉音源n
2のいずれかの雑音成分が残ってしまう。
判定部150は、統計演算結果信号SSに含まれる音情報が目的音源s由来でないと判定した場合(つまり、統計演算結果信号SSが、統計演算結果信号SS2であると判定した場合)には、マスキング演算部160に対して、統計演算結果信号SSのマスキング演算を指示する。マスキング演算部160は、判定部150からマスキング演算を指示されると、当該統計演算結果信号SSをマスキングする。この結果、マスキング演算部160は、統計演算結果信号SS1に基づくマスキング演算結果信号MSを出力し、統計演算結果信号SS2にもとづくマスキング演算結果信号MSを出力しない。つまり、マスキング演算部160は、目的音源s由来でない統計演算結果信号SSをマスキングする。このように構成された音情報処理装置10によれば、雑音抑圧性能をより向上させることができる。
【0141】
(ステップS70)波形変換部170は、マスキング演算部160が出力するマスキング演算結果信号MSを音波形信号SOに変換して、変換した音波形信号SOを音情報利用装置20に出力し、一連の動作を終了する。
【0142】
以上説明したように、音情報処理装置10は、干渉音源nごとにビームフォーマ出力を得て、これら複数のビームフォーマ出力を組み合わせることにより、劣決定下条件においても雑音抑圧性能を向上させることができる。
【0143】
以上、本発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることができる。
【0144】
なお、上述の各装置は内部にコンピュータを有している。そして、上述した各装置の各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。
【0145】
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。
さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【符号の説明】
【0146】
10…音情報処理装置、110…時間周波数変換部、120…信号取得部、130…ビームフォーミング演算部、140…統計演算部、150…判定部、160…マスキング演算部、170…波形変換部、180…特性更新部、190…音源方向情報記憶部