特許第6623376号(P6623376)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特許6623376音源強調装置、その方法、及びプログラム
<>
  • 特許6623376-音源強調装置、その方法、及びプログラム 図000013
  • 特許6623376-音源強調装置、その方法、及びプログラム 図000014
  • 特許6623376-音源強調装置、その方法、及びプログラム 図000015
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6623376
(24)【登録日】2019年12月6日
(45)【発行日】2019年12月25日
(54)【発明の名称】音源強調装置、その方法、及びプログラム
(51)【国際特許分類】
   G10L 21/0272 20130101AFI20191216BHJP
   G10L 21/0208 20130101ALI20191216BHJP
【FI】
   G10L21/0272 100Z
   G10L21/0208 100Z
【請求項の数】8
【全頁数】14
(21)【出願番号】特願2016-165789(P2016-165789)
(22)【出願日】2016年8月26日
(65)【公開番号】特開2018-31967(P2018-31967A)
(43)【公開日】2018年3月1日
【審査請求日】2018年4月10日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504139662
【氏名又は名称】国立大学法人名古屋大学
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】丹羽 健太
(72)【発明者】
【氏名】武田 一哉
(72)【発明者】
【氏名】大谷 健登
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特開2009−210888(JP,A)
【文献】 国際公開第2008/133097(WO,A1)
【文献】 国際公開第2013/145578(WO,A1)
【文献】 特開2017−32905(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00−25/93
(57)【特許請求の範囲】
【請求項1】
Nを複数の音源の種類数とし、n=1,2,…,Nとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号Snを含む混合信号Xを入力とし、N種類の音響信号Snをそれぞれ強調したN個の強調信号^Snの総和と、前記混合信号Xと、の差分が小さくなるように、各音響信号Snに対する雑音抑圧量を推定する雑音抑圧量推定部と、
前記混合信号Xと雑音抑圧量の推定値Wnとを用いて、前記混合信号Xに含まれる音響信号Snを強調した強調信号^Snを求める音源強調部とを含む、
音源強調装置。
【請求項2】
請求項1の音源強調装置であって、
前記雑音抑圧量推定部において前記雑音抑圧量の推定値Wnを推定する際に用いるモデルのパラメータは、(i)N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号SL,nと、(ii)N種類の前記学習用音響信号SL,nを含む学習用混合信号XLと、(iii)前記学習用混合信号XLに含まれる雑音を抑圧する量を示す、N種類の前記学習用音響信号SL,nに対して付与される雑音抑圧量参照値とを用いて、事前に学習されたものである、
音源強調装置。
【請求項3】
請求項2の音源強調装置であって、
Cを2以上の整数の何れかとし、前記雑音抑圧量の推定値は、(i)C個の雑音抑圧量参照値と、(ii)前記混合信号Xと前記パラメータとに基づき得られる、前記音響信号Snの雑音抑圧量参照値に対する出力確率onと、の重み付け加算により表現される、
音源強調装置。
【請求項4】
請求項2または請求項3の音源強調装置であって、
前記モデルはニューラルネットワークにより表現されるものであり、
前記混合信号Xと、N種類の強調信号^Snの総和との二乗誤差を、ニューラルネットワークの出力層の値で微分することで、前記パラメータを最適化する、
音源強調装置。
【請求項5】
Nを複数の音源の種類数とし、n=1,2,…,Nとし、雑音抑圧量推定部が、N種類の、楽器の演奏または歌唱それぞれに係る音響信号Snを含む混合信号Xを入力とし、N種類の音響信号Snをそれぞれ強調したN個の強調信号^Snの総和と、前記混合信号Xと、の差分が小さくなるように、各音響信号Snに対する雑音抑圧量を推定する雑音抑圧量推定ステップと、
音源強調部が、前記混合信号Xと雑音抑圧量の推定値Wnとを用いて、前記混合信号Xに含まれる音響信号Snを強調した強調信号^Snを求める音源強調ステップとを含む、
音源強調方法。
【請求項6】
請求項5の音源強調方法であって、
前記雑音抑圧量推定ステップにおいて前記雑音抑圧量の推定値Wnを推定する際に用いるモデルのパラメータは、(i)N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号SL,nと、(ii)N種類の前記学習用音響信号SL,nを含む学習用混合信号XLと、(iii)前記学習用混合信号XLに含まれる雑音を抑圧する量を示す、N種類の前記学習用音響信号SL,nに対して付与される雑音抑圧量参照値とを用いて、事前に学習されたものである、
音源強調方法。
【請求項7】
請求項6の音源強調方法であって、
Cを2以上の整数の何れかとし、前記雑音抑圧量の推定値は、(i)C個の雑音抑圧量参照値と、(ii)前記混合信号Xと前記パラメータとに基づき得られる、前記音響信号Snの雑音抑圧量参照値に対する出力確率onと、の重み付け加算により表現される、
音源強調方法。
【請求項8】
請求項1から請求項4の何れかの音源強調装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、様々な音源の音を含む音響信号から特定の音源の音を強調する技術に関する。例えば、楽曲信号(1chにMIXされたものを想定する)から各楽器音(e.g.ギター、ベース、ドラム、キーボード)、歌声(ボーカル)を強調し、抽出する技術に関する。なお、抽出した音は、そのまま出力してもよいし、楽曲定位操作系において使用しユーザの好みに応じてリミックスして出力してもよい。
【背景技術】
【0002】
1chにMIXされた音響信号から特定の音源の音を強調し、抽出する従来技術として、非特許文献1が知られている。
【0003】
図1は、非特許文献1の機能ブロック図を示す。特定の音源の音信号(強調したい音響信号)をs(t)、強調したい音源以外の雑音の音信号(以下、雑音信号ともいう)をn(t)と表す。例えば、楽曲信号からギターの音だけを抽出したい場合には、ギターの音響信号をs(t)、雑音信号(その他の音源(ベース、ドラム、キーボード、ボーカルなど)が混合された音信号)をn(t)として扱うことを意味する。tは時間のインデックスを表す。s(t)、n(t)の周波数領域に展開された信号をS(τ,ω)、N(τ,ω)と表す。ここで、τ,ωは、時間フレーム、周波数のインデックスを表す。この時、強調前の音響信号(混合信号)X(τ,ω)は、以下のように表現される。
X(τ,ω) = S(τ,ω) + N(τ,ω) (1)
なお、混合信号X(τ,ω)の時間領域表現は、x(t)である。
【0004】
楽曲の場合にはステレオ信号であることが多いので、その場合、加算したり、重み付け加算してシングルチャネル化されたモノラル信号を利用する。
【0005】
周波数領域変換部部93は、時間領域の混合信号x(t)を入力として、周波数領域の混合信号X(τ,ω)に変換し、出力する。
【0006】
バイナリマスク推定部94では、混合信号X(τ,ω)を入力として、バイナリマスクI(τ,ω)を出力する。なお、バイナリマスクI(τ,ω)の推定方法については、例えば、DNN(Deep Neural Networks、CNN(Convolutional Neural Networks)、RNN(Recurrent Neural Networks)といった機械学習を利用することを前提としている。事前に教師あり学習を実施し、各音源ごとに最適化されたパラメータpをDNN、CNN、RNN等の機会学習において用いる。なお、ギターの音以外に、ベース、ドラム、キーボード、ボーカルなどをそれぞれ抽出し、強調する場合には、パラメータpは各音源(ベース、ドラム、キーボード、ボーカルなど)に対して、異なるものを用いる。つまり、各楽器についてパラメータpは最適化されているとする。
【0007】
音源強調部95は、混合信号X(τ,ω)とバイナリマスクI(τ,ω)とを入力として、次式により、特定の音源を強調した音響信号(強調信号)^S(τ,ω)を求め、出力する。
^S(τ,ω)=I(τ,ω)X(τ,ω) (2)
時間領域変換部96は、強調信号^S(τ,ω)を入力とし、時間領域の強調信号^s(t)に変換し、出力する。
【0008】
データベース部90には、学習用の混合信号XL(τ,ω)と、それを構成する強調したい学習用の音響信号SL(τ,ω)と、学習用の雑音信号NL(τ,ω)とが格納されている。なお、例えば、ギターの音を強調するようなバイナリマスクを推定する場合、学習用の音響信号SL(τ,ω)がギターの音のみが入った音響信号であり、学習用の雑音信号NL(τ,ω)はその他楽器/ボーカルの音響信号を加算した信号である。
【0009】
特徴量−ラベル生成部91では、学習用の音響信号SL(τ,ω)、学習用の雑音信号NL(τ,ω)を入力として、特徴量とラベルとを出力する。特徴量の設計方法は様々あるが、最も単純な例として、学習用の音響信号SL(τ,ω)のパワースペクトル|SL(τ,ω)|2、学習用の雑音信号NL(τ,ω)のパワースペクトル|NL(τ,ω)|2やそれを平滑化した値を利用する。また、ラベルの設計方法も様々あるが、最も単純な例として、バイナリマスクIL(τ,ω)を用意する。パワースペクトル|SL(τ,ω)|2、|NL(τ,ω)|2やバイナリマスクIL(τ,ω)は、各フレーム時間、各周波数ごとに用意する。バイナリマスクIL(τ,ω)は、以下のように計算する。
【0010】
【数1】
【0011】
ここで、SNRは観測時点のSN比であり、θはバイナリマスクの値(0 or 1)を決定する際に用いる閾値である。ラベル[0,1]は周波数ωごと、あるいは周波数帯域ごとに書かれることになる。閾値は例えばθ=0dBのように選択することが多い。これは、該当する周波数−時間フレームτで、目的とする音源(e.g. ギター)が最も主要な音源か否かを判断することに対応する。また、フロア値は、式(3)では0を利用したが、0<α<1を満たす値αを用いることが多い(例えば0.1〜0.3 程度の値)。なお、SNRは、以下のように計算される。
【0012】
【数2】
【0013】
事前学習部92は、特徴量とラベル(例えばパワースペクトル|SL(τ,ω)|2、|NL(τ,ω)|2とバイナリマスクIL(τ,ω))とを入力とし、DNN、CNN、RNN用のパラメータpを学習し、出力する。なお、パラメータpは、バイナリマスク推定部94で使用するためのパラメータであり、強調したい音源ごと(例えば、ギター、ベース、ドラム等)に事前に学習する。一実装として、DNNであれば、重み行列やバイアスを表すベクトルが格納される。
【先行技術文献】
【非特許文献】
【0014】
【非特許文献1】Y. Wang, A. Narayanan and D.L.Wang, "On training targets for supervised speech separation", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, pp. 1849-1858, 2014.
【発明の概要】
【発明が解決しようとする課題】
【0015】
しかしながら、従来技術には、以下の2つの問題がある。
【0016】
1.出力される強調信号の歪が大きくなってしまう。バイナリマスクを利用して音源の強調を行う場合、特定の時間周波数チャネルにおいて、音が存在するか(1)、または、存在しないか(0)の二択しか行うことができない。楽曲信号では、一つ時間周波数チャネルに、多くの音が混合していることが想定される。その場合、バイナリマスクでは、所望の音源だけを強調するために、十分な性能を得ることができない可能性が高い。
【0017】
2.強調信号群を再合成する際に、元の信号とかけ離れた音源になってしまうことがある。楽曲定位操作系のように、分離した後で再合成して受聴するような使い方をする場合、分離性能とともに、再合成した際の元の信号との歪が大きくないほうが好ましいと考えられる。個々の音源を独立に分離した場合、再合成した際の歪については考慮されていないため、合成後の信号が歪んでしまう可能性がある。
【0018】
本発明は、従来よりも適切に所望の音源だけを強調し、強調信号群を再合成したときに合成後の信号の歪みを低減することができる音源強調装置、その方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0019】
上記の課題を解決するために、本発明の一態様によれば、音源強調装置は、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号Snを含む混合信号Xを入力とし、混合信号Xと、N種類の音響信号Snの総和と、の差分が小さくなるように、各音響信号Snに対する雑音抑圧量を推定する雑音抑圧量推定部と、混合信号Xと雑音抑圧量の推定値Wnとを用いて、混合信号Xに含まれる音響信号Snを強調した強調信号^Snを求める音源強調部とを含む。
【0020】
上記の課題を解決するために、本発明の他の態様によれば、音源強調方法は、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、雑音抑圧量推定部が、N種類の、楽器の演奏または歌唱それぞれに係る音響信号Snを含む混合信号Xを入力とし、混合信号Xと、N種類の音響信号Snの総和と、の差分が小さくなるように、各音響信号Snに対する雑音抑圧量を推定する雑音抑圧量推定ステップと、音源強調部が、混合信号Xと雑音抑圧量の推定値Wnとを用いて、混合信号Xに含まれる音響信号Snを強調した強調信号^Snを求める音源強調ステップとを含む。
【発明の効果】
【0021】
本発明によれば、従来よりも適切に所望の音源だけを強調し、強調信号群を再合成したときに合成後の信号の歪みを低減することができるという効果を奏する。
【図面の簡単な説明】
【0022】
図1】従来技術を説明するための図。
図2】第一実施形態に係る音源強調装置の機能ブロック図。
図3】第一実施形態に係る音源強調装置の処理フローの例を示す図。
【発明を実施するための形態】
【0023】
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
【0024】
<第一実施形態のポイント>
第一実施形態では、以下2点において、従来技術と異なる。
【0025】
1.バイナリマスクではなく、雑音抑圧量を連続値で表現する。例えば、4段階程度に離散化された雑音抑圧量に対して重みづけ加算することで連続値を表現する。このような構成により、複数の音源が時間周波数チャネルに混在している場合でも、より高精度に目的音を雑音から分離し、強調できることが期待される。
【0026】
2.再合成時の信号(ギター、ベース、ドラム等の強調信号群を単純に加算した信号であり、以下、再合成信号とも言う)と、元の混合信号との二乗誤差を最小化するように雑音抑圧量を表現することで、再合成時の再現性を保つことが期待される。つまり、合成時の信号を受聴した際に、歪が少ないと考えられる。
【0027】
このような構成により、楽曲信号などといった、より一般的かつ多数の音が混合しているような音に対して特定の音源の強調精度が高まることが期待される。
【0028】
<第一実施形態>
図2は第一実施形態に係る音源強調装置の機能ブロック図を、図3はその処理フローを示す。
【0029】
音源強調装置100は、N種類の、楽器の演奏または歌唱それぞれに係る音源の音響信号sn(t)を含む混合信号x(t)を入力とし、N種類の音響信号sn(t)に対応するN個の強調信号^sn(t)を出力する。ただし、n=1,2,…,Nであり、Nは1以上の整数の何れかである。混合信号x(t)は、背景技術で説明した通りである。
【0030】
音源強調装置100は、周波数領域変換部102、雑音抑圧量推定部103、音源強調部104、時間領域変換部105、データベース部190、特徴量−ラベル生成部191及び事前学習部192を含む。
【0031】
<周波数領域変換部102>
周波数領域変換部102は、時間領域の混合信号x(t)を入力とし、時間領域の混合信号x(t)を周波数領域の混合信号X(τ,ω)に変換し(S102)、出力する。時間領域の信号を周波数領域の信号に変換する方法として、例えば、短時間フーリエ変換等を用いる。
【0032】
<データベース部190>
データベース部190には、学習用の混合信号XL(τ,ω)と、それを構成する強調したい学習用の音響信号SL,n(τ,ω)と、学習用の雑音信号NL,n(τ,ω)とが格納されている。なお、例えば、ギターの音を強調するような雑音抑圧量を推定する場合、学習用の音響信号SL,n(τ,ω)がギターの音のみが入った音響信号であり、学習用の雑音信号NL,n(τ,ω)はその他楽器/ボーカルの音響信号を加算した信号である。n=1,2,…,Nであり、N種類全ての、楽器の演奏または歌唱それぞれに係る音源に対して、学習用の音響信号SL,n(τ,ω)と学習用の雑音信号NL,n(τ,ω)とが用意され、格納されている。なお、XL(τ,ω)=SL,n(τ,ω)+NL,n(τ,ω)であり、データベース部190には、XL(τ,ω),SL,n(τ,ω),NL,n(τ,ω)のうちの何れか二つを記憶しておき、残りの1つをデータベース部190または特徴量−ラベル生成部191で計算により求めてもよい。
【0033】
<特徴量−ラベル生成部191>
特徴量−ラベル生成部191は、背景技術の特徴量−ラベル生成部91と同様の処理を行うが、以下の2点において異なる。
【0034】
(差異1)
従来方式では、周波数ごとに特徴量-ラベルを用意していた。本実施形態では、複数の周波数を集約化した周波数バンドごとに特徴量-ラベルを用意するような実装を行う。なお、ΩO個のバンドで構成されるとし、そのインデックス集合をΩ={1,…,ΩO}と表す。従来方式ではラベルを2値化しているため、周波数ごとにラベルを用意している。一方、本実施形態では、ラベルを2値以上のパターン(例えば4段階[1,0.5,0.3,0.1])となるように実装している。ラベルの値は、どの程度雑音を抑圧したらよいかを表している。2値以上のパターンでラベルの値を表すことになるので、以後、この値のことをマスクではなく雑音抑圧量と表現することにする。なお、ラベルの値を雑音抑圧量参照値ともいう。雑音抑圧量参照値のパターン数は、実験では4程度で利用しているが、これはパターン数が多くし過ぎると、どのパターンに属するかについての推定精度が悪くなる、または、学習データの量が膨大になることが想定されるためである。
【0035】
(差異2)
分離後の強調信号群(ギター、ベース、ドラム等)を再合成した際に、元の混合信号との歪を計算し、できるだけその歪を小さくなるようにしたい。よって、特徴量-ラベルのセットは、全ての音源分計算する必要がある。例えば、ボーカル、ギター、ベース、ドラム、キーボードの5つの音源に分類する場合には、音源数N=5であり、N=5組の特徴量-ラベルを用意する。
【0036】
特徴量−ラベル生成部191では、学習用の音響信号SL,n(τ,ω)、学習用の雑音信号NL,n(τ,ω)を入力として、特徴量とラベルとを出力する。特徴量の設計方法は様々あるが、最も単純な例として、学習用の音響信号SL,n(τ,ω)のパワースペクトル|SL,n(τ,ω)|2、学習用の雑音信号NL,n(τ,ω)のパワースペクトル|NL,n(τ,ω)|2やそれを平滑化した値を利用する。また、ラベルの設計方法も様々あるが、最も単純な例として、複数の離散値からなる学習用雑音抑圧量WL,n(τ,ω)を設定する方法がある。パワースペクトル|SL,n(τ,ω)|2、|NL,n(τ,ω)|2や学習用雑音抑圧量WL,n(τ,ω)は、各フレーム時間、各周波数ごとに用意する。学習用雑音抑圧量WL,n(τ,ω)は、以下のように計算する。
【0037】
【数3】
【0038】
ここで、SNRL,nは観測時点のSN比であり、θ1、θ2、…、θC-1は学習用雑音抑圧量WL,nの値(q1、q2、…、qC)を決定する際に用いる閾値であり、θ12<…<θC-1であり、0≦q1<q2<…<qC-1≦1である。ラベル[q1,q2,…,qC]は周波数ωごとに書かれる。閾値θ1、θ2、…、θC-1は実験等により適切な値を求めておく。これは、該当する周波数−時間フレームτで、目的とする音源(e.g. ギター)がどの程度の割合を示す音源かを示す。また、フロア値q1は、背景技術で示したように、0を利用してもよいし、0<q1<q2<…<qC-1≦1を満たす値q1を用いてもよい。例えばq1を0.1〜0.3 程度の値とする。フロア値q1を0より大きな値とすることで、「プッ」っと音が途切れるような音響信号が再生されるのを防ぐことができる。なお、SNRL,nは、以下のように計算される。
【0039】
【数4】
【0040】
このようにして、特徴量−ラベル生成部191は、特徴量(例えば、パワースペクトル|SL,n(τ,ω)|2、|NL,n(τ,ω)|2やそれを平滑化した値)とラベル(学習用雑音抑圧量WL,n(τ,ω))とを求め、出力する。
【0041】
<事前学習部192>
事前学習部192は、特徴量(例えば、パワースペクトル|SL,n(τ,ω)|2、|NL,n(τ,ω)|2やそれを平滑化した値)とラベル(学習用雑音抑圧量WL,n(τ,ω))とを入力とし、雑音抑圧量推定部103で雑音抑圧量を推定するために必要となるパラメータpを求め、出力する。(i)2値以上の値を利用して連続的な雑音抑圧量を表す点と、(ii)N個の強調信号群を再合成した際に、元の混合信号との歪が小さくなるように雑音抑圧量の最適設定できるという2点において、従来方式との差分がある。
【0042】
まず、(i)の連続的な雑音抑圧量を表す方式について簡潔に説明する。例えば、C段階の雑音抑圧量参照値(q=[q1,q2,…,qC]T)とn番目の音響信号Sn(τ,ω)(時間フレームτ、周波数ω)のC段階の雑音抑圧量参照値に対する出力確率をon(τ,ω)=[on,1(τ,ω),…,on,C(τ,ω)]Tとするとき、n番目の音響信号Sn(τ,ω)(時間フレームτ、周波数ω)に対する連続量で表した雑音抑圧量の推定値Wn(τ,ω)は、以下で書くことができる。
Wn(τ,ω)=qTon(τ,ω) (5)
よって、雑音抑圧量の推定値Wn(τ,ω)は、出力確率on(τ,ω)を重みとする2個以上の離散値(雑音抑圧量参照値(q=[q1,q2,…,qC]T))の重み付け加算により連続値で表現される。なお、出力確率on(τ,ω)は、雑音抑圧量推定部103を構成するニューラルネットワークの出力値であり、以下の関係が成立するように正規化されて出力される。
【0043】
【数5】
【0044】
次に、(ii)の再合成時の元の信号の再現性を保証するためのパラメータpを最適化する提案方式について説明する。まず、n番目の音源を強調した信号(以下、強調信号ともいう)を^Sn(τ,ω)と表す。強調信号^Sn(τ,ω)は、
^Sn(τ,ω)=Wn(τ,ω)X(τ,ω)=qTon(τ,ω)X(τ,ω) (7)
となる。
【0045】
N個の強調信号を単純加算した信号と、元の混合信号X(τ,ω)との二乗誤差E(τ)を以下で定義する。
【0046】
【数6】
【0047】
以下のように、二乗誤差E(τ)をニューラルネットの出力層の値on(τ,ω)で微分することで、再合成信号の再現性を考慮して、パラメータpを最適化できるのではないかと考えた。
【0048】
【数7】
【0049】
誤差逆伝搬法(参考文献1参照)に則って、ニューラルネットのパラメータを最適化する方法について簡略的に説明する。
(参考文献1)岡谷貴之, “深層学習,” 講談社, 2015, p.7-54.
【0050】
一つの例として、全結合型DNNをNN構築に用いた場合についてのみ説明する。なお、この部分は、従来のCNN、RNN等で置き換え可能である。まず、順方向のニューラルネットの計算について説明する。なお、この順方向のニューラルネットの計算は、最適化されたパラメータpと入力信号(上述の混合信号に相当)X(τ,ω)を入力として、雑音抑圧量推定部103にて行う演算に対応する。入力信号X(τ,ω)をΩO個の周波数バンドに分割し、式(10)のように特徴量化する。
q(1)=[|X(τ,1)|2,…,|X(τ,ΩO)|2]T (10)
【0051】
ここで、|X(τ,Ω)|2は、Ω番目の周波数バンド、時間フレームτにおける入力信号のバンドパワーを表す。Ω={1,…,ΩO}とする。ψ層目のノード数をJψと表すとき、J1Oである。つまり、1層目のノード数と周波数バンドの総数ΩOとが一致する。また、層の総数をΨとし、ψ=1,2,…,Ψとする。パラメータpは、ニューラルネットで用いられるパラメータであり、重み行列{P(2),…,P(Ψ)}とバイアス{b(2),…,b(Ψ)}とが含まれる。以下の計算をΨ-1回繰り返すことでパラメータpが得られる。
u(ψ)=P(ψ)q(ψ-1)+b(ψ) (11)
q(ψ)=f(ψ)(u(ψ)) (12)
ここで、各変数の次元は、u(ψ)∈RJ_ψ×1、q(ψ)∈RJ_ψ×1、P(ψ)∈RJ_ψ×J_(ψ-1)、b(ψ)∈RJ_ψ×1である。なお、上付き添え字X_YはXYを意味する。また、f(ψ)(・)はψ層目の活性化関数である。例えばΨ-1層目までの計算では、ランプ関数(ReLU)を用いることが多い。
f(ψ)(u(ψ))=max(0,u(ψ)) (ψ=2,…,Ψ-1) (13)
最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。周波数バンドΩに対応するノード(C種類の雑音抑圧量参照値に対する出現確率値)のインデックスをVi,1,…,Vi,Cとする。そして、u(ψ)の対応する要素をuV_i,1,…,uV_i,Cとする。ただし、下付き添え字X_YはXYを意味する。その場合、最終層の出力値はソフトマックス関数で表すことができる。
【0052】
【数8】
【0053】
なお、
on(τ,ω)=q(Ψ) (15)
である。また、JΨ=C×ΩOである。
【0054】
次に、誤差逆伝搬法に則って、パラメータpを最適化する計算について説明する。学習用のサンプル総数をDとする。つまり、Dフレーム分のデータを使用する。D個のサンプルに対して、式(11)、(12)の処理を実施する場合、以下のような行列形式で表される。
U(ψ)=P(ψ)Q(ψ-1)+b(ψ)1TD (16)
Q(ψ)=f(ψ)(U(ψ)) (17)
ここで、U(ψ)∈RJ_ψ×D、Q(ψ)∈RJ_ψ×Dである。ネットワークパラメータの勾配は、出力層から入力層の順に計算される。正解値に最も近いC種類の雑音抑圧量参照値にのみ1を立てたベクトルをΞとするとき、ψ層目の勾配Δ(ψ)は以下で計算される。
【0055】
【数9】
【0056】
ネットワークパラメータの勾配は、
【0057】
【数10】
【0058】
となるので、以下のように逐次的に更新される。
P(ψ)←P(ψ)+ΔP(ψ) (21)
b(ψ)←b(ψ)+Δb(ψ) (22)
ここで、
ΔP(ψ)=μΔP(ψ)*-γ(∂P(ψ)+λP(ψ)) (23)
Δb(ψ)=μΔb(ψ)*-γ∂b(ψ) (24)
であり、ΔP(ψ)*とΔb(ψ)*は前回の更新における摂動であり、γは学習係数、μはモメンタム、λは重み減衰である。
【0059】
よって、パラメータpは、(i)N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号SL,n(τ,ω)と、(ii)N種類の学習用音響信号SL,nを含む学習用混合信号XL(τ,ω)と、(iii)N種類の学習用音響信号SL,n(τ,ω)に対して付与される雑音抑圧量参照値(q=[q1,q2,…,qC]T))とを用いて、事前に学習されたものと言える。なお、雑音抑圧量参照値(q=[q1,q2,…,qC]T))は、学習用混合信号XL(τ,ω)に含まれる雑音を抑圧する量を示すものである。
【0060】
<雑音抑圧量推定部103>
雑音抑圧量推定部103は、混合信号X(τ,ω)とパラメータpとを入力とし、混合信号X(τ,ω)と、N種類の音響信号Sn(τ,ω)の総和と、の差分が小さくなるように、各音響信号Sn(τ,ω)に対する雑音抑圧量を推定し(S103)、推定値Wn(τ,ω)を出力する。なお、式(10)-(15)の計算と、式(5)を行うことで、推定値Wn(τ,ω)を得る。つまり、混合信号X(τ,ω)を用いて、
q(1)=[|X(τ,1)|2,…,|X(τ,ΩO)|2]T (10)
を求める。パラメータpに含まれる重み行列{P(2),…,P(Ψ)}とバイアス{b(2),…,b(Ψ)}とを用いて、
u(ψ)=P(ψ)q(ψ-1)+b(ψ) (11)
q(ψ)=f(ψ)(u(ψ)) (12)
を計算する。前述の通り、f(ψ)(・)はψ層目の活性化関数であり、例えば、Ψ-1層目までの計算では、ランプ関数(ReLU)を用いる。
f(ψ)(u(ψ))=max(0,u(ψ)) (ψ=2,…,Ψ-1) (13)
このようにして、q(2),q(3),…,q(Ψ-1)を求める。最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。その場合、最終層の出力値はソフトマックス関数で表すことができる。よって、
【0061】
【数11】
【0062】
なお、
on(τ,ω)=q(Ψ) (15)
である。以上の処理により、on(τ,ω)を求め、次式により、雑音抑圧量の推定値Wψ(τ,ω)を求め、音源強調部104に出力する。
Wn(τ,ω)=qTon(τ,ω) (5)
q=[q1,q2,…,qC]T
on(τ,ω)=[on,1(τ,ω),on,2(τ,ω),…,on,C(τ,ω)]T
なお、この演算はN個の音源nそれぞれに対して行う。
【0063】
よって、雑音抑圧量の推定値Wn(τ,ω)は、(i)C個の雑音抑圧量参照値q=[q1,q2,…,qC]Tと、(ii)音響信号Sn(τ,ω)の雑音抑圧量参照値qに対する出力確率on(τ,ω)と、の重み付け加算により表現されるものと言える。出力確率on(τ,ω)は、前述の通り、混合信号X(τ,ω)とパラメータpとに基づき得られる値である。
【0064】
<音源強調部104>
音源強調部104は、混合信号X(τ,ω)とN個の推定値Wn(τ,ω)とを入力とし、次式により、混合信号X(τ,ω)に含まれる音響信号Sn(τ,ω)を強調した強調信号^Sn(τ,ω)を求め(S104)、出力する。
^Sn(τ,ω)=Wn(τ,ω)X(τ,ω)
なお、この演算はN個の音源nそれぞれに対して行う。
【0065】
<時間領域変換部105>
時間領域変換部105は、強調信号^Sn(τ,ω)を入力とし、周波数領域の強調信号^Sn(τ,ω)を時間領域の強調信号^sn(t)に変換し(S105)、出力する。周波数領域の信号を時間領域の信号に変換する方法として、周波数領域変換部102に対応する方法を用いればよい。例えば、逆短時間フーリエ変換等を用いる。
【0066】
<効果>
以上の構成により、従来よりも適切に所望の音源だけを強調し、強調信号群を再合成したときに合成後の信号の歪みを低減することができる。楽曲信号に対して適用することで、楽器音を強調して抽出することができる。例えば、楽曲のリミックスやリマスタリングなどに応用することができる。また、特定の楽器音を強調することができるため、逆に特定の楽器音を抑圧することも可能であり、カラオケや楽器の練習といった応用も考えられる。
【0067】
<変形例>
本実施形態では、式(5),(6)-(9),(15)を周波数ωで行っているが、周波数バンドΩで同様の処理を行ってもよい。
【0068】
本実施形態では、パラメータpを求める際に用いるモデルとしてニューラルネットワークを利用しているが、他のモデル(例えば、混合ガウス分布(GMM))を利用してもよい。
【0069】
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0070】
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0071】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0072】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
【0073】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0074】
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3