IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 公立大学法人首都大学東京の特許一覧

特開2022-65565音響信号処理装置、音響信号処理方法及びプログラム
<>
  • 特開-音響信号処理装置、音響信号処理方法及びプログラム 図1
  • 特開-音響信号処理装置、音響信号処理方法及びプログラム 図2
  • 特開-音響信号処理装置、音響信号処理方法及びプログラム 図3
  • 特開-音響信号処理装置、音響信号処理方法及びプログラム 図4
  • 特開-音響信号処理装置、音響信号処理方法及びプログラム 図5
  • 特開-音響信号処理装置、音響信号処理方法及びプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022065565
(43)【公開日】2022-04-27
(54)【発明の名称】音響信号処理装置、音響信号処理方法及びプログラム
(51)【国際特許分類】
   G10L 21/0232 20130101AFI20220420BHJP
【FI】
G10L21/0232
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2020174241
(22)【出願日】2020-10-15
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和2年3月2日、日本音響学会2020年春季研究発表会(於:埼玉大学)の講演論文集
(71)【出願人】
【識別番号】305027401
【氏名又は名称】東京都公立大学法人
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100152272
【弁理士】
【氏名又は名称】川越 雄一郎
(74)【代理人】
【識別番号】100181722
【弁理士】
【氏名又は名称】春田 洋孝
(72)【発明者】
【氏名】小野 順貴
(72)【発明者】
【氏名】シャイブラー ロビン
(72)【発明者】
【氏名】若林 佑幸
(72)【発明者】
【氏名】河村 隆生
(72)【発明者】
【氏名】宮崎 亮一
(57)【要約】
【課題】モノラル録音された音声信号から雑音を除去する技術を提供すること。
【解決手段】モノラル録音された処理対象音を示す処理対象音時系列内の除去対象音が開始される開始位置と予め録音済みの除去対象音を示す参照時系列の時間原点とが一致という原点一致条件と処理対象音時系列のサンプリング周波数と参照時系列のサンプリング周波数とが一致というサンプリング周波数一致条件とを満たす処理対象スペクトログラムと原点一致条件及びサンプリング周波数一致条件を満たす参照スペクトログラムとを取得する補償済みスペクトログラム取得部と、処理対象スペクトログラムと周波数伝達関数が乗算された参照スペクトログラムとの同時刻における複素スペクトルの差として得られる目的複素スペクトログラムの予め定められた所定の確率分布に対する尤度を最大にする時系列を推定する目的複素スペクトログラム推定部とを備える音響信号処理装置。
【選択図】図1
【特許請求の範囲】
【請求項1】
モノラル録音された処理対象音を示す処理対象音時系列内の除去対象の除去対象音が開始される開始位置と予め録音済みの前記除去対象音を示す参照時系列の時間原点とが一致という原点一致条件と、前記処理対象音時系列のサンプリング周波数と前記参照時系列のサンプリング周波数とが一致というサンプリング周波数一致条件とを満たす前記処理対象音時系列の複素スペクトルの時系列である処理対象スペクトログラムと、前記原点一致条件及び前記サンプリング周波数一致条件を満たす前記参照時系列の複素スペクトルの時系列である参照スペクトログラムと、を取得する補償済みスペクトログラム取得部と、
前記処理対象スペクトログラムと周波数伝達関数が乗算された前記参照スペクトログラムとの同時刻における複素スペクトルの差として得られる目的複素スペクトログラムにおける複素スペクトルである目的複素スペクトルの、予め定められた所定の確率分布に対する尤度を最大にする時系列を推定する目的複素スペクトログラム推定部と、
を備える音響信号処理装置。
【請求項2】
前記目的複素スペクトログラム推定部により推定された前記目的複素スペクトログラムを有する音の時系列を生成する目的音時系列生成部、
を備える請求項1に記載の音響信号処理装置。
【請求項3】
前記補償済みスペクトログラム取得部は、前記処理対象音時系列の開始位置と前記参照時系列の時間原点を一致させてから原点一致条件を満たす前記処理対象音時系列の複素スペクトルの時系列である第1スペクトログラムと原点一致条件を満たす前記参照時系列の複素スペクトルの時系列である第2スペクトログラムとを取得し、前記第1スペクトログラム及び前記第2スペクトログラムを用いて前記処理対象スペクトログラム及び前記参照スペクトログラムを取得する、
請求項1又は2に記載の音響信号処理装置。
【請求項4】
モノラル録音された処理対象音を示す処理対象音時系列内の除去対象の除去対象音が開始される開始位置と予め録音済みの前記除去対象音を示す参照時系列の時間原点とが一致という原点一致条件と、前記処理対象音時系列のサンプリング周波数と前記参照時系列のサンプリング周波数とが一致というサンプリング周波数一致条件とを満たす前記処理対象音時系列の複素スペクトルの時系列である処理対象スペクトログラムと、前記原点一致条件及び前記サンプリング周波数一致条件を満たす前記参照時系列の複素スペクトルの時系列である参照スペクトログラムと、を取得する補償済みスペクトログラム取得ステップと、
前記処理対象スペクトログラムと周波数伝達関数が乗算された前記参照スペクトログラムとの同時刻における複素スペクトルの差として得られる目的複素スペクトログラムにおける複素スペクトルである目的複素スペクトルの、予め定められた所定の確率分布に対する尤度を最大にする時系列を推定する目的複素スペクトログラム推定ステップと、
を有する音響信号処理方法。
【請求項5】
請求項1から3のいずれか一項に記載の音響信号処理装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号処理装置、音響信号処理方法及びプログラムに関する。
【背景技術】
【0002】
目的の音を録音した際の音を示す時系列から目的の音以外の音(すなわち雑音)の影響が軽減された音を示す時系列を生成する技術が様々に提案されている(非特許文献1及び2)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】R. Martin, “Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics” IEEE Trans. on SAP, vol. 9, no. 5, pp.504-512, 2001.
【非特許文献2】T. Gerkmann, et al., “Unbiased MMSE-Based Noise Power Estimation With Low Complexity and Low Tracking Delay” IEEE/ACM Trans. on ASLP,vol. 20, no. 4, pp.1383|1393, 2012.
【発明の概要】
【発明が解決しようとする課題】
【0004】
このような提案にはモノラル録音から非定常な雑音を除去する技術の提案がある。しかしながら、その技術は充分に雑音を除去しているとは言えないものである。このように、1個のマイクで録音(すなわちモノラル録音)された音の時系列から雑音の影響が軽減された音の時系列を生成することは難しい。
【0005】
上記事情に鑑み、本発明は、モノラル録音された音の時系列から雑音の影響がより軽減された音の時系列を生成する技術を提供することを目的としている。
【課題を解決するための手段】
【0006】
本発明の一態様は、モノラル録音された処理対象音を示す処理対象音時系列内の除去対象の除去対象音が開始される開始位置と予め録音済みの前記除去対象音を示す参照時系列の時間原点とが一致という原点一致条件と、前記処理対象音時系列のサンプリング周波数と前記参照時系列のサンプリング周波数とが一致というサンプリング周波数一致条件とを満たす前記処理対象音時系列の複素スペクトルの時系列である処理対象スペクトログラムと、前記原点一致条件及び前記サンプリング周波数一致条件を満たす前記参照時系列の複素スペクトルの時系列である参照スペクトログラムと、を取得する補償済みスペクトログラム取得部と、前記処理対象スペクトログラムと周波数伝達関数が乗算された前記参照スペクトログラムとの同時刻における複素スペクトルの差として得られる目的複素スペクトログラムにおける複素スペクトルである目的複素スペクトルの、予め定められた所定の確率分布に対する尤度を最大にする時系列を推定する目的複素スペクトログラム推定部と、前記目的複素スペクトログラム推定部により推定された前記目的複素スペクトログラムを有する音の時系列を生成する目的音時系列生成部と、を備える音響信号処理装置である。
【発明の効果】
【0007】
本発明により、モノラル録音された音の時系列から雑音の影響がより軽減された音の時系列を生成することが可能となる。
【図面の簡単な説明】
【0008】
図1】実施形態の音響信号処理装置1の概要を説明する説明図。
図2】実施形態の音響信号処理装置1の機能構成の一例を示す図。
図3】実施形態における制御部10の機能構成の一例を示す図。
図4】実施形態の音響信号処理装置1が実行する処理の流れの一例を示すフローチャート。
図5】実施形態における評価実験の実験環境を説明する説明図。
図6】実施形態における評価実験の結果の一例を示す図。
【発明を実施するための形態】
【0009】
(実施形態)
図1は、実施形態の音響信号処理装置1の概要を説明する説明図である。音響信号処理装置1は、目的の音(以下「目的音」という。)がモノラル録音された際の録音された音(以下「処理対象音」という。)を示す時系列を用いて、雑音の影響が軽減された音の時系列を生成する。以下、処理対象音を示す時系列を処理対象音時系列という。モノラル録音とは1つのマイクで録音することを意味する。
【0010】
雑音とは、目的音以外の音である。雑音は、目的音以外の音であればどのような音であってもよい。雑音には、ランダムな音だけでなく、スピーカーから流れるクラシック曲の音であって目的音以外の音も含まれる。音の影響を軽減するとは、具体的には音の振幅を小さくすることを意味する。
【0011】
音響信号処理装置1は、具体的には、参照時系列を用いて、処理対象音時系列から除去対象音の影響を抑制した音を示す時系列(以下「目的音時系列」という。)を生成する。除去対象音は、処理対象音に含まれる音のうち目的音以外の音であって、処理対象音から除去する対象の音である。参照時系列は、参照音を示す時系列である。参照音は、コンパクトディスク等の音の記録媒体に予め録音済みの除去対象音である。MP3(MPEG-1 Audio Layer-3)等の所定のフォーマットの音楽データは、予め録音済みの音を示すので、参照音は、音楽データの形で予め録音済みの除去対象音であってもよい。
【0012】
処理対象音は、例えばコンパクトディスクに記録されたクラシックの曲がスピーカーから流れる中でモノラル録音された2人の話者の会話である。このような場合、目的音は2人の話者の会話であり、除去対象音はスピーカーから流れるクラシックの曲の音であり、参照音はコンパクトディスクに録音された音である。
【0013】
処理対象音時系列は、処理対象音を表すアナログ信号が所定のサンプリング周波数で離散化された信号である。そのため、処理対象音時系列は、図1においてx(n)は、処理対象音時系列のn番目のサンプルが示す振幅xを表す。
【0014】
参照時系列は、参照音を表すアナログ信号が所定のサンプリング周波数で離散化された信号である。そのため、参照時系列は、図1においてo(n)は、参照時系列のn番目のサンプルが示す振幅oを表す。
【0015】
処理対象音時系列と参照時系列とは、必ずしも同一のサンプリング周波数で離散化されたものとは限らない。むしろ一般に、処理対象音時系列と参照時系列とのサンプリング周波数は同一ではない。なぜなら、たとえ録音時の設定されたサンプリング周波数が同一であっても、振動子などの録音に用いるハードウェアの性能の環境に依る変化等によりサンプリング周波数が設定された値からずれるからである。このように、処理対象音時系列と参照時系列とは、必ずしもサンプリング周波数一致条件を満たさない。サンプリング周波数一致条件は、処理対象音時系列のサンプリング周波数と参照時系列のサンプリング周波数とが同一という条件である。
【0016】
また、除去対象音は必ずしも処理対象音の録音が開始されたタイミングから生じているわけではない。このため、処理対象音時系列内で除去対象音が開始される位置(以下「除去対象音開始位置」という。)は、必ずしも処理対象音時系列の時間原点(すなわちn=0)に一致するわけでは無い。そのため、処理対象音時系列と参照時系列とは、必ずしも原点一致条件を満たさない。原点一致条件は、除去対象音開始位置と参照時系列の時間原点とが一致しているという条件である。
【0017】
音響信号処理装置1が実行する処理のより詳細な流れを説明する。音響信号処理装置1は、補償済みスペクトログラム取得部110、目的複素スペクトログラム推定部120及び目的音時系列生成部130を備える。
【0018】
補償済みスペクトログラム取得部110は、処理対象音時系列及び参照時系列を取得し、処理対象音時系列及び参照時系列に基づき処理対象スペクトログラム及び参照スペクトログラムを取得する。処理対象スペクトログラムは、サンプリング周波数一致条件及び原点一致条件を満たす処理対象音時系列の複素スペクトルの時系列である。参照スペクトログラムは、サンプリング周波数一致条件及び原点一致条件を満たす参照時系列の複素スペクトルの時系列である。
【0019】
補償済みスペクトログラム取得部110は、例えば時間原点補償処理、振幅周波数変換処理及びサンプリング周波数補償処理を実行することで、処理対象スペクトログラム及び参照スペクトログラムを取得する。
【0020】
時間原点補償処理は、除去対象音開始位置と参照時系列の時間原点とを一致させる処理である。時間原点補償処理では、例えば処理対象音時系列と参照時系列との間の相互相関を最大化するように参照時系列の時間原点の時刻を移動させることで参照時系列の時間原点を除去対象音開始位置に一致させる(参考文献1参照)。このような場合、処理対象音時系列は変化せず参照時系列が変化する。時間原点補償処理の実行により、原点一致条件が満たされる。
【0021】
参考文献1:特開2014-174393号公報
【0022】
振幅周波数変換処理は、第1副振幅周波数変換処理と第2副振幅周波数変換処理とを含む。第1副振幅周波数変換処理は、原点一致条件を満たす処理対象音時系列について、複数の第1区分期間の1つの第1区分期間ごとに複素スペクトルを取得する処理である。第1区分期間は、処理対象音時系列の全期間の連続する一部の期間である。1つの第1区分期間は、他の第1区分期間を包含せず全ての第1区分期間の和集合は処理対象音時系列の全期間に等しい。複数の第1区分期間の1つの第1区分期間ごとに複素スペクトルを取得する処理は、例えば短時間フーリエ変換である。第1副振幅周波数変換処理の実行により、原点一致条件を満たす処理対象音時系列が、原点一致条件を満たす処理対象音時系列の複素スペクトルの時系列(以下「第1スペクトログラム」という。)に変換される。
【0023】
第2副振幅周波数変換処理は、時間原点一致条件を満たす参照時系列について、複数の第2区分期間の1つの第2区分期間ごとに複素スペクトルを取得する処理である。第2区分期間は、参照時系列の全期間の連続する一部の期間である。1つの第2区分期間は、他の第2区分期間を包含せず全ての第2区分期間の和集合は参照時系列の全期間に等しい。複数の第2区分期間の1つの第2区分期間ごとに複素スペクトルを取得する処理は、例えば短時間フーリエ変換である。第2副振幅周波数変換処理の実行により、原点一致条件を満たす参照時系列が、原点一致条件を満たす参照時系列の複素スペクトルの時系列(以下「第2スペクトログラム」という。)に変換される。
【0024】
サンプリング周波数補償処理は、第1スペクトログラム及び第2スペクトログラムに基づき、処理対象スペクトログラム及び参照スペクトログラムを取得する処理である。サンプリング周波数補償処理は、例えば第1スペクトログラム及び第2スペクトログラムに対するブラインド同期(参考文献1に記載のブラインド補償の音声信号処理方法)を適用する処理である。ブラインド同期では、参照時系列のサンプリング周波数が変化し、処理対象音時系列のサンプリング周波数は変化しない。
【0025】
このように、処理対象音時系列及び参照時系列の組に対して時間原点補償処理、振幅周波数変換処理及びサンプリング周波数補償処理をこの順番に実行することで、処理対象スペクトログラムと参照スペクトログラムとが得られる。
【0026】
図1における以下の式(1)の記号は、処理対象スペクトログラムを表す。
【0027】
【数1】
【0028】
式(1)の記号は、処理対象スペクトログラムのm番目の時間フレームが表す複素スペクトル中の周波数ωの周波数成分の振幅及び位相を表す(mは1以上の整数)。
【0029】
図1における以下の式(2)の記号は、参照スペクトログラムを表す。
【0030】
【数2】
【0031】
式(2)の記号は、参照スペクトログラムのm番目の時間フレームが表す複素スペクトル中の周波数ωの周波数成分の振幅及び位相を表す。式(2)の記号εは、処理対象音時系列と参照時系列との間のサンプリング周波数の差を表す。
【0032】
目的複素スペクトログラム推定部120は、処理対象スペクトログラムと参照スペクトログラムとに基づいて、予め定められた所定の確率分布(以下「基準確率分布」という。)に対する尤度を最大にする目的複素スペクトルの時系列を推定する。目的複素スペクトルは、処理対象スペクトログラムと周波数伝達関数が乗算された参照スペクトログラムとの同時刻における複素スペクトルの差として得られる複素スペクトルである。以下、目的複素スペクトルの時系列を目的複素スペクトログラムという。
【0033】
目的複素スペクトログラムのm番目の時間フレームが表す目的複素スペクトルは、例えば以下の式(3)で表される。式(3)の左辺の記号が目的複素スペクトルを表す。
【0034】
【数3】
【0035】
式(3)の右辺のH(ω)は、周波数伝達関数(すなわち参照音の再生録音環境の周波数応答を表す関数)を表す。
【0036】
基準確率分布は、例えば以下の式(4)で表される。式(4)は零平均一般化複素正規分布である。
【0037】
【数4】
【0038】
α及びβは、基準確率分布の形を決める助変数であり、予め定められた値である。特にαは、分散を表す。βは1以上の整数である。β=2のとき式(4)は正規分布を表し、β=1のとき式(4)はラプラス分布を表す。式(4)においてΓはガンマ関数を表す。
【0039】
以下、目的複素スペクトログラムにおける目的複素スペクトルの出現確率の分布を、目的複素スペクトル出現確率分布という。予め定められた所定の確率分布に対する尤度を最大にすることは、例えば基準確率分布が式(4)で表される場合には例えば以下の式(5)で表される周波数伝達関数の対数尤度関数を最大化することである。
【0040】
【数5】
【0041】
式(5)の左辺は、周波数伝達関数の対数尤度関数である。式(5)の右辺第2項は、所定の定数を表す。式(5)において左辺を大きくすることは、右辺第1項の負号をとったものの大きさを小さくすることを意味する。式(5)の右辺第1項の負号をとったものが小さくなることは、S(ω、m)の絶対値のβ乗の平均が小さくなることを意味する。処理対象音から除去対象音が除かれるほどS(ω、m)は小さくなるので、式(5)の右辺第1項が小さいほど、除去対象音の影響が抑制された処理対象音の時系列が取得されることを意味する。そのため、式(5)で表される周波数伝達関数の対数尤度関数を最大化する目的複素スペクトルを取得することは、除去対象音の影響を最大限抑制した処理対象音の時系列を取得することを意味する。
【0042】
目的音時系列生成部130は、目的複素スペクトログラム推定部120が推定した目的複素スペクトログラムに基づき、目的複素スペクトログラム推定部120が推定した目的複素スペクトログラムを有する音の時系列を目的音時系列として生成する。
【0043】
目的音時系列は、処理対象音時系列を用いて生成される時系列であって処理対象音時系列から参照時系列の成分が抑制された時系列である。参照音は予め録音済みの除去対象音であるため、目的音時系列は処理対象音から除去対象音の成分が抑制された音の時系列である。
【0044】
図2は、実施形態の音響信号処理装置1の機能構成の一例を示す図である。音響信号処理装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部10を備え、プログラムを実行する。音響信号処理装置1は、プログラムの実行によって制御部10、入力部11、通信部12、記憶部13及び出力部14を備える装置として機能する。より具体的には、プロセッサ91が記憶部13に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、音響信号処理装置1は、制御部10、入力部11、通信部12、記憶部13及び出力部14を備える装置として機能する。
【0045】
制御部10は、音響信号処理装置1が備える各種機能部の動作を制御する。制御部10は、例えば処理対象音時系列及び参照時系列を用いて目的音時系列を生成する。
【0046】
入力部11は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部11は、これらの入力装置を自装置に接続するインタフェースを含んで構成されてもよい。入力部11は、自装置に対する各種情報の入力を受け付ける。
【0047】
通信部12は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。通信部12は、有線又は無線を介して接続先の外部装置と通信する。通信部12は、例えば外部装置から参照時系列を取得する。通信部12は、例えば外部装置から処理対象音時系列を取得する。外部装置は例えば参照音の音楽データを再生するコンピュータであって音響信号処理装置1に再生中の時系列のデータを送信するコンピュータである。外部装置は例えば処理対象音時系列を送信するコンピュータである。外部装置は例えば処理対象音時系列をモノラル録音するマイクである。
【0048】
記憶部13は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部13は音響信号処理装置1に関する各種情報を記憶する。記憶部13は、例えば予め基準確率分布を示す情報を記憶する。記憶部13は、例えば予め周波数伝達関数を記憶する。
【0049】
出力部14は、各種情報を出力する。出力部14は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部14は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部14は、例えば入力部11に入力された情報を出力する。出力部14は、例えばスピーカー等の音の出力装置を含んで構成されてもよい。出力部14は、これらの音の出力装置を自装置に接続するインタフェースとして構成されてもよい。
【0050】
図3は、実施形態における制御部10の機能構成の一例を示す図である。制御部10は、補償済みスペクトログラム取得部110、目的複素スペクトログラム推定部120、目的音時系列生成部130、処理対象音時系列取得部140、参照時系列取得部150、通信制御部160、出力制御部170及び記録部180を備える。
【0051】
処理対象音時系列取得部140は、通信部12に入力された処理対象音時系列を取得する。処理対象音時系列取得部140は、処理対象音時系列が予め記憶部13に記憶済みの場合には、記憶部13から処理対象音時系列を読み出すことで処理対象音時系列を取得してもよい。
【0052】
参照時系列取得部150は、通信部12に入力された参照時系列を取得する。参照時系列取得部150は、参照時系列が予め記憶部13に記憶済みの場合には、記憶部13から参照時系列を読み出すことで参照時系列を取得してもよい。
【0053】
通信制御部160及は、通信部12の動作を制御する。出力制御部170は出力部14の動作を制御する。記録部180は、情報を記憶部13に記録する。
【0054】
補償済みスペクトログラム取得部110は、時間原点補償部111、振幅周波数変換部112及びサンプリング周波数補償部113を備える。
【0055】
時間原点補償部111は、処理対象音時系列取得部140が取得した処理対象音時系列と参照時系列取得部150が取得した参照時系列とに対して時間原点補償処理を実行する。
【0056】
振幅周波数変換部112は、原点一致条件を満たす処理対象音時系列と原点一致条件を満たす参照時系列とに対して振幅周波数変換処理を実行する。振幅周波数変換処理の実行により、原点一致条件を満たす処理対象音時系列が第1スペクトログラムに変換され、原点一致条件を満たす参照時系列が第2スペクトログラムに変換される。
【0057】
サンプリング周波数補償部113は、サンプリング周波数補償処理を実行する。サンプリング周波数補償処理の実行により、第1スペクトログラム及び第2スペクトログラムに基づき処理対象スペクトログラム及び参照スペクトログラムが生成される。
【0058】
図4は、実施形態の音響信号処理装置1が実行する処理の流れの一例を示すフローチャートである。通信部12に処理対象音時系列が入力され、入力された処理対象音時系列を処理対象音時系列取得部140が取得する(ステップS101)。次に通信部12に参照時系列が入力され、入力された参照時系列を参照時系列取得部150が取得する(ステップS102)。次に補償済みスペクトログラム取得部110が、処理対象音時系列及び参照時系列を取得し、処理対象音時系列及び参照時系列に基づき処理対象スペクトログラム及び参照スペクトログラムを取得する(ステップS103)。
【0059】
ステップS103では、補償済みスペクトログラム取得部110は例えば以下の補償済みスペクトログラム取得処理の実行により処理対象音時系列及び参照時系列に基づき処理対象スペクトログラム及び参照スペクトログラムを取得する。補償済みスペクトログラム取得処理では、まず時間原点補償部111が処理対象音時系列及び参照時系列に対して時間原点補償処理を実行し、処理対象音時系列の開始位置と参照時系列の時間原点を一致させる。これにより、時間原点補償部111は、原点一致条件を満たす処理対象音時系列と原点一致条件を満たす参照時系列とを取得する。
【0060】
補償済みスペクトログラム取得処理では、次に振幅周波数変換部112が、原点一致条件を満たす処理対象音時系列と原点一致条件を満たす参照時系列とに対して振幅周波数変換処理を実行する。振幅周波数変換処理の実行により、原点一致条件を満たす処理対象音時系列が第1スペクトログラムに変換され、原点一致条件を満たす参照時系列が第2スペクトログラムに変換される。
【0061】
補償済みスペクトログラム取得処理では、次にサンプリング周波数補償部113がサンプリング周波数補償処理を実行する。サンプリング周波数補償処理の実行により、第1スペクトログラム及び第2スペクトログラムに基づき処理対象スペクトログラム及び参照スペクトログラムが生成される。
【0062】
ステップS103の次に目的複素スペクトログラム推定部120は、処理対象スペクトログラム及び参照スペクトログラムに基づき基準確率分布に対する尤度を最大にする目的複素スペクトログラムを推定する(ステップS104)。
【0063】
次に目的音時系列生成部130が、目的複素スペクトログラム推定部120が推定した目的複素スペクトログラムに基づき、目的複素スペクトログラム推定部120が推定した目的複素スペクトログラムを有する音の時系列を目的音時系列として生成する(ステップS105)。
【0064】
次に出力制御部170が出力部14の動作を制御し、出力部14から目的音時系列が示す音を出力させる(ステップS106)。なお、ステップS105で生成された目的音時系列は、ステップS105以降に記録部180によって記憶部13に記録されてもよい。
【0065】
<実験結果>
実施形態の音響信号処理装置1を用いて雑音の影響が軽減された音の時系列を生成した実験(以下「評価実験」という。)結果の一例を示す。
【0066】
図5は、実施形態における評価実験の実験環境を説明する説明図である。評価実験のための処理対象音及び参照音は、4.1×3.8×2.8立方メートルの部屋であって2つのスピーカー901及び902とマイクロホン903が設置された部屋(以下「実験室」という。)でマイクロホン903によって録音された。実験室の吸音率は0.2であった。スピーカー901は目的音を出力する(鳴らす)音源であり、スピーカー902は参照音を出力する(鳴らす)音源であった。
【0067】
スピーカー902は、実験室の壁の1つ(以下「縦基準壁」という。)から100cmの位置に設置されており、スピーカー901は縦基準壁から140cmの位置に設置されていた。スピーカー901とスピーカー902との縦基準壁に垂直な方向の間隔は40cmであった。マイクロホン903は、縦基準壁から120cmの位置に設置されていた。
【0068】
スピーカー901とスピーカー902の横基準壁からの距離は120cmであった。横基準壁は、実験室の壁の1つであって縦基準壁に直交する壁である。マイクロホン903の横基準壁からの距離は、290cmであった。すなわち、マイクロホン903は、実験室の壁のうち横基準壁に対抗する壁から120cmの位置に設置されていた。
【0069】
実験室では、スピーカー901だけを動作させ目的音だけを出力した状態でマイクロホン903が録音すること(以下「目的音録音」という。)が行われた。目的音録音時のマイクロホン903のサンプリング周波数の設定値は、16000Hzであった。また実験室では、目的音録音とは別のタイミングに、スピーカー902だけを動作させ参照音だけを出力した状態でマイクロホン903が録音すること(以下「参照音録音」という。)が行われた。参照音録音時のマイクロホン903のサンプリング周波数の設定値は、(16000+1)Hzであった。評価実験では、目的音録音時のサンプリング周波数と参照音録音時のサンプリング周波数とを1だけずらすことでサンプリング周波数ミスマッチが模擬された。
【0070】
評価実験では、目的音録音で録音された音と参照音録音で録音された音とが、入力SNR(Signal to Noise Ratio)を-5、0、5、10デシベルになるように混合され評価実験において処理対象音として用いられた。なお、入力SNRを-5、0、5、10デシベルになるように混合され、とは、入力SNRを-5デシベル、0デシベル、5デシベル、10デシベルの4条件に変化させることを意味する。
【0071】
評価実験では、振幅周波数変換処理として短時間フーリエ変換が用いられた。評価実験における短時間フーリエ変換は窓長が4096点であり、シフト長が窓長の1/2でありゼロ詰めするという条件の元8192点で行われた。短時間フーリエ変換の窓はハミング窓が用いられた。
【0072】
評価実験では、スピーカー901及び902から出力した音をマイクロホン903で録音した音の時系列に代えて、入力SNR等も含め実験室と同様の環境をモデル化し有限要素法等の数値シミュレーションによって生成された時系列を用いて音響信号処理装置1を評価した。以下、評価実験のうちスピーカー901及び902から出力した音をマイクロホン903で録音した音の時系列を用いて音響信号処理装置1を評価する実験を実実験という。以下、評価実験のうち数値シミュレーションによって生成された時系列を用いて音響信号処理装置1を評価する実験をシミュレーション実験という。
【0073】
図6は、実施形態における評価実験の結果の一例を示す図である。結果R1~R3はそれぞれ、シミュレーション実験の実験結果の一例を示す。結果R4~R6はそれぞれ、実実験の実験結果の一例を示す。結果R1~R6の横軸は入力SNRを表し、縦軸は出力SNRを表す。出力SNRの定義は、(10×log10(σq /σ ))デシベルであった。σq は目的音時系列の分散であって除去対象音が存在した期間における目的音時系列の分散を表す。σ は、マイクロホン903によって録音された参照音の分散を表す。
【0074】
結果R1~R6における棒グラフはそれぞれ各グラフにおいて、左からβ=0.2、0.4、・・・、2.0の場合の結果である。また、塗りつぶし部分(Sync.(off))はブラインド同期を行なっていない場合の結果であり、色抜きのもの(Sync.(on))はブラインド同期を行なった場合の結果を示す。
【0075】
結果R1~R6は、サンプリング周波数のズレの補償を行うことで出力SNRが向上したことを示す。この理由の1つは、サンプリング周波数のズレが存在する場合は周波数応答(周波数伝達関数)が見かけ上時不変ではなくなってしまい、式(3)で表されるモデルが成り立たないということである。また、処理対象音の種類と入力SNRとに依存して出力SNRが最大となるβが異なる点も、理由の1つである。よって、音響信号処理装置1は、目的複素スペクトルの確率分布を正規分布やラプラス分布であると仮定するよりも柔軟なモデルであり、より高い出力SNRを得ることができる。
【0076】
<式(5)を用いて目的複素スペクトログラムを取得する方法>
ここで式(5)を用いて目的複素スペクトログラムを推定する方法の一例を説明する。目的複素スペクトログラムは、式(5)をH(ω)で微分し極大値を与えるS(ω、m)を推定結果として取得することで推定される。しかしながら、絶対値の冪乗の微分の値は解析的に得ることができない。
【0077】
もちろん、解析的な解を得ることができないだけなので、音響信号処理装置1は数値計算で式(5)をそのまま扱い近似値を取得するという地道な方法で目的複素スペクトログラムを推定してもよい。しかしながらこのような場合計算量が多いため丸め誤差等も発生しやすく、計算誤差が大きくなる可能性が高い。そこで、音響信号処理装置1は、式(5)そのままを数値計算することに代えて、式(5)を等価なより計算量の少ない式に変形して目的複素スペクトログラムを推定してもよい。
【0078】
音響信号処理装置1は、式(5)を等価なより計算量の少ない式に変形して目的複素スペクトログラムを推定する方法として、例えば以下の補助関数を適用して目的複素スペクトログラムを取得してもよい。補助関数法は、Majorization-Minimization Algorithm もしくはMM Algorithmとも呼称される(参考文献2及び3参照)。
【0079】
参考文献2:David R Hunter & Kenneth Lange “A Tutorial on MM Algorithms”, The American Statistician, 58:1, 30-37.
参考文献3:小野、「補助関数法による最適化アルゴリズ厶とその音響信号処理への応用」、日本音響学会誌68 巻11号、pp.566~571、2012年
【0080】
補助関数法では目的関数に対して適切な補助関数を見つける必要がある。ここで目的関数とは、最適化問題ごとに与えられる、最大化もしくは最小化したい関数である。補助関数法における適切な補助関数は、例えば参考文献4に記載の方法を用いることで見つけられる。
【0081】
参考文献4:Nobutaka Ono and Shigeki Miyabe, “Auxiliary-Function-Based Independent
Component Analysis for Super-Gaussian Sources”, V. Vigneron et al. (Eds.): LVA/ICA 2010, LNCS 6365, pp. 165-172, 2010, Springer-Verlag Berlin Heidelberg 2010
【0082】
ここで、振幅xで表現される連続で微分可能な関数であって振幅xの偶関数である関数G(x)の数学的な特性について考える。そこで、振幅xを負の値も有し得る変数xとして扱い、偶関数G(x)の数学的な特性を説明する。G(x)の変数xによる微分を変数xで割り算する関数が、定義域内で連続であり、x>0で正であり、なおかつ単調減少な関数であるならば、以下の式(6)が任意のxについて成り立つ。
【0083】
【数6】
【0084】
式(6)の等号条件は、以下の式(7)で表される。
【0085】
【数7】
【0086】
式(5)の第1項は、式(7)の条件を満たす。そこで、以下の式(8)で表される補助関数法における適切な補助関数Qは、以下の式(9)のように表される。
【0087】
【数8】
【0088】
【数9】
【0089】
【数10】
【0090】
(ω)は補助変数である。式(9)の右辺第2項は補助変数であるH(ω)のみに依存する項である。そのため、H(ω)の最適化には無関係な項である。式(9)はH(ω)の2次関数である。補助関数QをH(ω)で微分した式を0とおき、H(ω)=H(ω)(k)を代入して式変形することで、以下の更新式(11)が得られる。kは反復回数を表す。
【0091】
【数11】
【0092】
式(11)においてアスタリスクの記号は複素共役であることを示す。式(11)で推定された周波数伝達関数を式(3)に代入することで、目的複素スペクトログラムが推定される。このような式811)及び式(3)を用いた推定を所定の終了条件が満たされるまで繰り返し実行することで目的複素スペクトログラムを推定する方法が補助関数適用法である。なお、終了条件は、例えば所定の回数繰り返された、という条件である。繰り返しの初期値は、式(11)の分母を0にしない条件であればどのような条件であってもよい。例えば、H(ω)の初期値は1という条件の元、式(11)の分母を0にしない条件であってもよい。
【0093】
このように構成された実施形態の音響信号処理装置1は、処理対象スペクトログラムと参照スペクトログラムとに基づいて目的複素スペクトログラムにおける目的複素スペクトルの出現確率の分布と基準確率分布との違いを最小にする目的複素スペクトログラムを推定する。目的音時系列は、処理対象音時系列を用いて生成される時系列であって処理対象音時系列から参照時系列の成分が抑制された時系列である。そして、参照音は予め録音済みの除去対象音である。そのため、音響信号処理装置1は、目的音時系列は処理対象音から除去対象音の成分が抑制された音の時系列を生成することができる。すなわち、音響信号処理装置1は、モノラル録音された音の時系列から雑音の影響がより軽減された音の時系列を生成することができる。
【0094】
(変形例)
なお、音響信号処理装置1は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音響信号処理装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
【0095】
なお、音響信号処理装置1の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
【0096】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0097】
1…音響信号処理装置、 10…制御部、 11…入力部、 12…通信部、 13…記憶部、 14…出力部、 110…補償済みスペクトログラム取得部、 111…時間原点補償部、 112…振幅周波数変換部、 113…サンプリング周波数補償部、 120…目的複素スペクトログラム推定部、 130…目的音時系列生成部、 140…処理対象音時系列取得部、 150…参照時系列取得部、 160…通信制御部、 170…出力制御部、 180…記録部、 91…プロセッサ、 92…メモリ
図1
図2
図3
図4
図5
図6