(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024120098
(43)【公開日】2024-09-03
(54)【発明の名称】音源分離方法、音源分離装置、およびプログラム
(51)【国際特許分類】
G10L 21/028 20130101AFI20240827BHJP
【FI】
G10L21/028 B
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2024104541
(22)【出願日】2024-06-28
(62)【分割の表示】P 2022579288の分割
【原出願日】2021-02-08
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】牧島 直輝
(72)【発明者】
【氏名】増村 亮
(57)【要約】
【課題】音源分離の分離精度を向上させる。
【解決手段】複数の音源から発せられた音の混合音を表す混合音響信号と複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する。このモデルは、少なくとも、混合音響信号の教師データである教師混合音響信号と音源映像信号の教師データである教師音源映像信号とをモデルに適用して得られる、分離信号の特徴と、教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音源分離装置による音源分離方法であって、
複数の音源から発せられた音の混合音を表す混合音響信号と前記複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、前記複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する推定ステップを有し、
前記モデルは、少なくとも、前記混合音響信号の教師データである教師混合音響信号と前記音源映像信号の教師データである教師音源映像信号とを前記モデルに適用して得られる、前記分離信号の特徴と、前記教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである、音源分離方法。
【請求項2】
請求項1の音源分離方法であって、
前記モデルは、少なくとも、前記複数の音源のうち第1音源に対応する前記教師音源映像信号の特徴を表す要素と前記第1音源と異なる第2音源に対応する前記分離信号の特徴を表す要素との間の類似度が小さくなり、前記第1音源に対応する前記教師音源映像信号の特徴を表す要素と前記第1音源に対応する前記分離信号の特徴を表す要素との間の類似度が大きくなるように学習によって得られたものである、音源分離方法。
【請求項3】
請求項1または2の音源分離方法であって、
前記モデルは、さらに、前記教師混合音響信号と前記教師音源映像信号とを前記モデルに適用して得られる前記分離信号と、前記教師混合音響信号と前記教師音源映像信号とに対応する前記分離信号の教師データである教師音源信号と、の違いに基づいた学習によって得られたものである、音源分離方法。
【請求項4】
請求項1から3のいずれかの音源分離方法であって、
前記音源映像信号は、前記複数の音源それぞれの映像を表す、音源分離方法。
【請求項5】
請求項1から4のいずれかの音源分離方法であって、
前記複数の音源は互いに異なる複数の話者を含み、前記混合音響信号は音声信号を含み、前記音源映像信号は前記話者の映像を表す、音源分離方法。
【請求項6】
請求項5の音源分離方法であって、
前記音源映像信号は前記話者の顔映像を含む映像を表す、音源分離方法。
【請求項7】
請求項1から6のいずれかの音源分離方法であって、
前記分離信号は、前記複数の音源のうち或る音源から発せられた対象音を表す信号と他の音源から発せられた音を表す信号とを含む、音源分離方法。
【請求項8】
複数の音源から発せられた音の混合音を表す混合音響信号と前記複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、前記複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する推定部を有し、
前記モデルは、少なくとも、前記混合音響信号の教師データである教師混合音響信号と前記音源映像信号の教師データである教師音源映像信号とを前記モデルに適用して得られる、前記分離信号の特徴と、前記教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである、音源分離装置。
【請求項9】
請求項1から7のいずれかの音源分離方法の処理をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源分離技術に関し、特にマルチモーダル音源分離に関する。
【背景技術】
【0002】
単一マイクロホンで観測した複数話者の音声の混合信号から混合前の各話者の音声信号を推定するシングルチャネル音源分離技術では、ニューラルネットワークを利用して混合信号に含まれる全ての音源信号を同時に推定することが一般的である。推定された音源信号を分離信号と呼ぶ。この枠組みでは、分離信号に含まれる各話者に対応する信号の出力順序が任意であるため、ある特定の話者の音声を取り出す際には話者識別など後段の処理が必要となる。また、ニューラルネットワークのモデルパラメータを学習する際には、話者毎に分離信号と混合前の音源信号との誤差を計算し、それらから全体の誤差を評価する必要がある。ここでも各話者について分離信号と音源信号の対応が取れていないと誤差が定まらないという問題がある。この問題はパーミュテーション問題と呼ばれている。
【0003】
これに対して、各話者に対応する音源信号と分離信号の要素全ての対応に関して誤差を計算し、それらに基づく全体の誤差が最小になるようにネットワークのモデルパラメータ最適化を行うpermutation invariant training(PIT)が提案されている(例えば、非特許文献1等参照)。また、音声の混合信号と同時に各話者の顔映像を入力とし、各話者の映像から分離信号に含まれる各話者に対応する信号の出力順序を一意に決定するマルチモーダル音声分離も提案されている(例えば、非特許文献2,3等参照)。マルチモーダル音源分離では、各話者の映像を利用することで、パーミュテーション問題を解決しながら発話タイミングや発話内容を分離時に考慮し、音のみを利用する音声分離よりも高い性能を示すことが確認されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】D. Yu, M. Kolbak, Z. Tan, and J. Jensen, “Permutation invariant training of deep models for speaker-independent multitalker speech separation,” in Proc. ICASSP, 2017, pp. 241-245.
【非特許文献2】R. Lu, Z. Duan, and C. Zhang, “Audio-visual deep clustering for speech separation,” IEEE/ACM Trans. ASLP, vol. 27, no. 11, pp. 1697-1712, 2019.
【非特許文献3】A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W. T. Freeman, and M. Rubinstein, “Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation,” ACM Trans. Graph., vol. 37, no. 4, pp. 112:1-112:11, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、従来のPITやマルチモーダル音源分離では、音ドメインでの音源信号と分離信号との距離のみを考慮してモデルパラメータを学習する。このような学習方法では、分離信号に含まれる話者の特徴(例えば、話者性や音韻情報などの特徴)を直接考慮することができない。これは分離信号における他話者の音声の残留や音声の歪みにつながり、分離精度を劣化させてしまう。
【0006】
このような課題は音声の音源分離を行う場合に限定されるものではなく、任意の音の音源分離を行う場合に共通するものである。
【0007】
本発明はこのような点に鑑みてなされたものであり、音源分離の分離精度を向上させることを目的とする。
【課題を解決するための手段】
【0008】
複数の音源から発せられた音の混合音を表す混合音響信号と複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する。このモデルは、少なくとも、混合音響信号の教師データである教師混合音響信号と音源映像信号の教師データである教師音源映像信号とをモデルに適用して得られる、分離信号の特徴と、教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである。
【発明の効果】
【0009】
これにより、音源映像信号の特徴に表れる、分離信号に含まれる音源の特徴が音源分離に考慮され、音源分離の分離精度を向上させることができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は実施形態の音源分離装置の機能構成を例示したブロック図である。
【
図2】
図2は実施形態の学習装置の機能構成を例示したブロック図である。
【
図3】
図3は装置のハードウェア構成を例示したブロック図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して本発明の実施形態を説明する。
[第1実施形態]
本実施形態では、分離信号の特徴を考慮したマルチモーダル音源分離を行うための機能を導入する。これにより分離信号に含まれる歪みや残留妨害音などを減少させ、音源分離の分離精度を向上させることができる。本実施形態のポイントは、少なくとも、分離信号の特徴と、音源の映像を表す音源映像信号の教師データである教師音源映像信号の特徴と、の違いに基づき、分離信号を推定するためのモデルが学習される点である。音源の映像には、各音源から発せられる音の特徴と密接な関わりを持つ要素が含まれている。例えば、音源が話者である場合、話者の映像(例えば、話者の顔映像を含む映像)には、発話のタイミング、口元から推定される音韻情報、性別や年齢といった話者情報などの要素が含まれており、これらは音源信号の特徴と密接な関わりを持つ。さらに、音源の映像は周囲の音(例えば、雑音)の影響を受けず、高雑音下であってもそれらの要素は劣化しない。そこで、本実施形態では、教師音源映像信号の特徴に分離信号の特徴を対応させ、これらの特徴の違いに基づいて、分離信号を推定するためのモデルを学習し、そのモデルを用いて音源分離を行う。いいかえると、画像信号から得られる話者情報や発声するために用いられる喉の動きや口から、発せられている音声信号らしさを推定し、音源分離に用いる。音声信号が生成される過程を画像信号から取得して音源分離を行うと言い換えてもいい。
【0012】
すなわち、本実施形態では、複数の音源から発せられた音の混合音を表す混合音響信号と当該複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する。ただし、当該モデルは、少なくとも、混合音響信号の教師データである教師混合音響信号と音源映像信号の教師データである教師音源映像信号とをモデルに適用して得られる、分離信号の特徴と、教師音源映像信号の特徴と、の違いに基づいた学習によって得られるものである。このように、音源分離のためのモデル学習に、分離信号の特徴と音源の映像の特徴との関係を明示的に取り入れることで、例えば発話のタイミングや口元から推定される音韻情報、性別や年齢といった話者情報などの要素を考慮した音源分離を行うことが可能となる。それにより、マルチモーダル音源分離において従来扱えていなかった特徴を考慮することが可能となり、例えば分離信号中の歪みや残留妨害音を減少させ、音源分離の分離精度を向上させることができる。
【0013】
以下、本実施形態の詳細を説明する。本実施形態ではモデルがニューラルネットワークであり、音源が話者であり、音が音声である場合を例示する。しかし、これは本発明を限定するものではない。
<構成>
図1に例示するように、本実施形態の音源分離装置11は、記憶部110、音ストリーム処理部111、映像ストリーム処理部112、融合部113、分離信号推定部114、および制御部116を有し、制御部116の制御に基づき、後述の各処理を実行する。逐一説明は省略するが、音源分離処理で得られたデータは記憶部110に格納され、必要に応じて読み出されて使用される。
図2に例示するように、学習装置12は、記憶部120、音ストリーム処理部121、映像ストリーム処理部122、融合部123、分離信号推定部124、分離信号特徴推定部125、制御部126、およびパラメータ更新部127を有し、制御部126の制御に基づき、後述の各処理を実行する。逐一説明は省略するが、学習処理で得られたデータは記憶部120に格納され、必要に応じて読み出されて使用される。
【0014】
<音源分離処理(マルチモーダル音源分離処理)>
図1を用いて本実施形態の音源分離処理を説明する。
入力:混合音響信号X={x
1,...,x
T}
音源映像信号V={V
1,...,V
N}
モデルパラメータθ
a,θ
v,θ
f,θ
s
出力:分離信号Y={Y
1,...,Y
N}
本実施形態の音源分離装置11は、複数の音源から発せられた音の混合音を表す音響信号(複数の音源から発せられた音に対応する信号が混合した音響信号)である混合音響信号X={x
1,...,x
T}と、当該複数の音源の少なくとも一部の映像を表す音源映像信号V={V
1,...,V
N}と、モデルパラメータ(音ストリーム用モデルパラメータθ
a、映像ストリーム用モデルパラメータθ
v、融合用モデルパラメータθ
f、分離信号推定用モデルパラメータθ
s)とを入力とし、モデルパラメータθ
a,θ
v,θ
f,θ
sに基づいて定まるニューラルネットワーク(モデル)に当該混合音響信号Xと音源映像信号Vとを適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号Y={Y
1,...,Y
N}を推定して出力する。なお、当該ニューラルネットワークは、少なくとも、混合音響信号Xの教師データである教師混合音響信号X'と音源映像信号Vの教師データである教師音源映像信号V'とを当該ニューラルネットワークに適用して得られる、分離信号の特徴Yと、音響信号Sの教師データである教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである。(すなわち、当該ニューラルネットワークは、当該学習によって得られたモデルパラメータθ
a, θ
v, θ
f, θ
sに基づいて定まる。この学習処理の詳細は後述する。
【0015】
複数の音源は、発する音と相関を持った外観を呈する音源を含む。発する音と相関を持った外観を呈する音源の例は、話者、動物、植物、自然物、自然現象、機械などである。一例として、本実施形態では、複数の音源が互いに異なる複数の話者を含む場合を例示する。複数の音源のすべてが話者であってもよいし、その一部のみが話者であってもよい。音源が話者である場合、その話者から発せられた音は音声であり、混合音響信号Xは当該音声を表す音声信号を含み、音源映像信号Vは話者の映像を表す。
【0016】
混合音響信号Xは、例えば、マイクロホンなどの音響センサで混合音を観測して得られた音響信号をデジタル変換して得られる時間波形信号(すなわち、時間領域信号)であってもよいし、当該時間波形信号を所定の時間区間(例えば、当該時間波形信号に乗じられる窓関数によって定まる区間)ごとに周波数領域に変換して得られる時間周波数領域信号であってもよい。時間周波数領域信号の例は、時間波形を短時間フーリエ変換によって変換して得られた振幅スペクトログラムや対数メルフィルタバンク出力などである。振幅スペクトログラムや対数メルフィルタバンクは周知であるため、それらの説明は割愛する。本実施形態では混合音響信号XをX={x1,...,xT}と表す。ここで、Tは時間フレーム長を表す正整数であり、xtはt番目のフレームの混合音響信号Xの要素であり、t=1,...,Tはフレームのインデックスを表す正整数である。すなわち、混合音響信号Xは時系列の離散音響信号である。
【0017】
音源映像信号Vは、Webカメラやスマートフォンのカメラなどの映像センサで音源を撮影して得られた映像信号である。例えば、音源映像信号Vは複数の音源それぞれの映像を表す。音源映像信号Vは、上述した複数の音源のすべての映像を表していてもよいし、それらの一部の音源の映像のみを表していてもよい。例えば、音源映像信号Vは、上述した複数の音源のうち、対象音を発する1つまたは複数の音源の映像を表してもよいし、対象音を発する音源と他の音源との映像をそれぞれ表してもよい。例えば、音源が話者である場合、音源映像信号Vは、複数の話者のうち、対象音を発する1人または複数人の話者の映像を表してもよいし、対象音を発する話者と他の話者との映像をそれぞれ表してもよい。音源映像信号Vは、発する音と相関を持った外観を呈する音源の映像を表す。例えば、音源が話者である場合、音源映像信号Vは話者の顔映像を含む映像を表す。本実施形態では、音源映像信号VをV={V1,...,VN}と表す。ここで、Vn={vn1,...,vnF}はn番目の音源(例えば、話者)の映像信号を表し、vnfはn番目の音源のf番目のフレームの映像信号を表す。n=1,...,Nは音源のインデックスを表す正整数であり、Nは音源の個数を表す1以上の整数であり(例えば、音源分離処理として実用的なのはNが2以上の整数であるとき)、f=1,...,Fは映像のフレームのインデックスを表す正整数であり、Fは映像のフレーム数を表す正整数である。vnfのチャネル数、画素数、fpsは任意であるが、例えば、チャネル数1のグレースケール画像であって、顔全体の解像度が224 pixel×224 pixel、25 fpsの映像をvnfとする。なお、この例では、演算に使うリソースを削減するためにグレースケールとしたがRGB画像でも全く問題ない。
【0018】
本実施形態では、混合前の複数の音源から発せられた音を表す音響信号をS={S1,...,SN}と表す。ここで、Sn={sn1,...,snT}はn番目の音源から発せられた音の音響信号を表し、sntはn番目の音源から発せられた音のt番目のフレームの音響信号を表す。分離信号Yは音響信号Sの推定信号である。本実施形態では、分離信号YをY={Y1,...,YN}と表す。ここで、Yn={yn1,...,ynT}はn番目の音源から発せられた音の音響信号Sn={sn1,...,snT}の推定信号であり、yntはn番目の音源から発せられた音のt番目のフレームの音響信号sntの推定信号である。Y1,...,YNのいずれかまたはすべてが前述の「対象音を表す信号(複数の音源のうち或る音源から発せられた対象音を表す信号)」に相当する。Y1,...,YNのいずれが対象音を表す信号であるかは、分離信号の用途に依存する。なお、音響信号Sおよび分離信号Yは、時間波形信号(すなわち、時間領域信号)であってもよいし、振幅スペクトログラムや対数メルフィルタバンク出力などの時間周波数領域信号であってもよい。
【0019】
≪音源分離処理全体の流れ≫
図1に例示するように、記憶部110には、後述の学習処理によって得られたモデルパラメータθ
a,θ
v,θ
f,θ
sが格納される。音ストリーム用モデルパラメータθ
aは音ストリーム処理部111に入力され、映像ストリーム用モデルパラメータθ
vは映像ストリーム処理部112に入力され、融合用モデルパラメータθ
fは融合部113に入力され、分離信号推定用モデルパラメータθ
sは分離信号推定部114に入力される。音ストリーム処理部111は、音ストリーム用モデルパラメータθ
aに基づいて、入力の混合音響信号Xから混合音響信号の埋め込みベクトルC
aを得て出力する。映像ストリーム処理部112は、映像ストリーム用モデルパラメータθ
vに基づいて、入力の音源映像信号Vから音源映像信号の埋め込みベクトルC
vを得て出力する。融合部113は、融合用モデルパラメータθ
fに基づいて、入力の混合音響信号の埋め込みベクトルC
aおよび音源映像信号の埋め込みベクトルC
vから音源信号の埋め込みベクトルMを得て出力する。分離信号推定部114は、分離信号推定用モデルパラメータθ
sに基づいて、入力の音源信号の埋め込みベクトルMおよび混合音響信号Xから分離信号Yを得て出力する。以下、詳細に説明する。
【0020】
≪音ストリーム処理部111の処理(ステップS111)≫
入力:混合音響信号X={x
1,...,x
T}
音ストリーム用モデルパラメータθ
a
出力:混合音響信号の埋め込みベクトルC
a
音ストリーム処理部111には混合音響信号Xおよび音ストリーム用モデルパラメータθ
aが入力される。音ストリーム用モデルパラメータθ
aは予め音ストリーム処理部111に入力および設定されていてもよいし、混合音響信号Xが入力されるたびに入力されてもよい。音ストリーム処理部111は、混合音響信号Xおよび音ストリーム用モデルパラメータθ
aから、混合音響信号の埋め込みベクトルC
aを推定して出力する。この埋め込みベクトルC
aは混合音響信号Xの特徴を表し、例えば、人手で決定された1次元以上の任意の次元数k
aを持ち連続値または離散値をとるベクトルの系列として表される。次元数k
aは例えば1792などである。また埋め込みベクトルC
aの系列長は混合音響信号Xと同一のTである。すなわち埋め込みベクトルC
aは、例えばT×k
aまたはk
a×Tの行列として表現される。音ストリーム処理部111は、例えば、以下の式(1)に従って、この埋め込みベクトルC
aを推定する。
【数1】
ここで、AudioBlock()は、入力の混合音響信号Xと音ストリーム用モデルパラメータθ
aを用いて混合音響信号の埋め込みベクトルC
aを得て出力する関数である。この関数には、後述の学習方法を適用できるニューラルネットワークであれば任意のニューラルネットワークを用いることができ、例えばフィードフォワードニューラルネットワークやリカレントニューラルネットワークなどを用いることができる。音ストリーム用モデルパラメータθ
aをどのように得るかについては、後述の学習処理で説明する。
【0021】
≪映像ストリーム処理部112の処理(ステップS112)≫
入力:音源映像信号V={V
1,...,V
N}
映像ストリーム用モデルパラメータθ
v
出力:音源映像信号の埋め込みベクトルC
V={C
V
1,...,C
V
N}
映像ストリーム部112には音源映像信号Vおよび映像ストリーム用モデルパラメータθ
vが入力される。映像ストリーム用モデルパラメータθ
vは予め映像ストリーム処理部112に入力および設定されていてもよいし、音源映像信号Vが入力されるたびに入力されてもよい。映像ストリーム部112は、音源映像信号Vおよび映像ストリーム用モデルパラメータθ
vから、音源映像信号の埋め込みベクトルC
V={C
V
1,...,C
V
N}を推定して出力する。この埋め込みベクトルC
Vは音源映像信号Vの特徴を表し、C
V
n(ただしn=1,...,N)はn番目の音源(本実施形態では話者)の映像の特徴を表す。例えば、C
V
nは人手で決定された1次元以上の任意の次元数k
V
nを持ち連続値または離散値をとる。k
V
1,...,k
V
Nは互いに同一であってもよいし、少なくとも一部がその他の異なっていてもよい。次元数k
V
nは例えば1792などである。またC
V
nの系列長は混合音響信号と同一のTである。すなわちC
V
nは、例えばT×k
V
nまたはk
V
n×Tの行列として表現される。なお、「α
β
γ」と表記した場合の下付き添え字「γ」は本来上付き添え字「β」の真下にあるべきであるが、本明細書では記載表記の制約上、下付き添え字「γ」を上付き添え字「β」の右斜め下に表記する場合がある。映像ストリーム部112は、例えば、以下の式(2)に従って、この埋め込みベクトルC
Vを推定する。
【数2】
ここで、VideoBlock()は、入力の音源映像信号Vと映像ストリーム用モデルパラメータθ
vを用いて音源映像信号の埋め込みベクトルC
Vを得て出力する関数である。この関数には、後述の学習方法を適用できるニューラルネットワークであれば任意のニューラルネットワークを用いることができ、例えば3次元CNNやリカレントニューラルネットワークなどを用いることができる。映像ストリーム用モデルパラメータθ
vをどのように得るかについては、後述の学習処理で説明する。
【0022】
≪融合部113の処理(ステップS113)≫
入力:混合音響信号の埋め込みベクトルC
a
音源映像信号の埋め込みベクトルC
V
融合用モデルパラメータθ
f
出力:音源信号の埋め込みベクトルM={M
1,...,M
N}
融合部113には混合音響信号の埋め込みベクトルC
a、音源映像信号の埋め込みベクトルC
V、および融合用モデルパラメータθ
fが入力される。融合用モデルパラメータθ
fは予め融合部113に入力および設定されていてもよいし、混合音響信号の埋め込みベクトルC
aおよび音源映像信号の埋め込みベクトルC
Vが入力されるたびに入力されてもよい。融合部113は、混合音響信号の埋め込みベクトルC
a、音源映像信号の埋め込みベクトルC
V、および融合用モデルパラメータθ
fから、音源信号の埋め込みベクトルM={M
1,...,M
N}を推定して出力する。この埋め込みベクトルMは、混合音響信号の埋め込みベクトルC
aおよび音源映像信号の埋め込みベクトルC
Vの特徴を表す。ここで、M
n(ただしn=1,...,N)は音源信号の埋め込みベクトルMのn番目の音源(本実施形態では話者)に対応する要素を表す。例えば、M
nは人手で決定された1次元以上の任意の次元数k
m
nを持ち連続値または離散値をとる。k
m
1,...,k
m
Nは互いに同一であってもよいし、少なくとも一部がその他の異なっていてもよい。次元数k
m
nは例えば1792などである。また、M
nの系列長は混合音響信号と同一のTである。すなわちM
nは、例えばT×k
m
nまたはk
m
n×Tの行列として表現される。融合部113は、例えば、以下の式(3)に従って、この音源信号の埋め込みベクトルMを推定する。
【数3】
ここで、FusionBlock()は、入力の混合音響信号の埋め込みベクトルC
a、音源映像信号の埋め込みベクトルC
V、および融合用モデルパラメータθ
fから音源信号の埋め込みベクトルMを得て出力する関数である。この関数には、後述の学習方法を適用できるニューラルネットワークであれば任意のニューラルネットワークを用いることができ、例えばフィードフォワードニューラルネットワークを用いることができる。融合用モデルパラメータθ
fをどのように得るかについては、後述の学習処理で説明する。
【0023】
≪分離信号推定部114の処理(ステップS114)≫
入力:音源信号の埋め込みベクトルM={M
1,...,M
N}
混合音響信号X={x
1,...,x
T}
分離信号推定用モデルパラメータθ
s
出力:分離信号Y={Y
1,...,Y
N}
分離信号推定部114には音源信号の埋め込みベクトルM、混合音響信号X、および分離信号推定用モデルパラメータθ
sが入力される。分離信号推定用モデルパラメータθ
sは予め分離信号推定部114に入力および設定されていてもよいし、音源信号の埋め込みベクトルMおよび混合音響信号Xが入力されるたびに入力されてもよい。分離信号推定部114は、音源信号の埋め込みベクトルM、混合音響信号X、および分離信号推定用モデルパラメータθ
sから、分離信号Y={Y
1,...,Y
N}を推定して出力する。分離信号推定部114は、例えば、以下の式(4)に従って、この分離信号Yを推定する。
【数4】
ここで、Separation()は入力の音源信号の埋め込みベクトルMおよび混合音響信号Xから分離信号Yを推定して出力する関数である。この関数には、後述の学習方法を適用できるニューラルネットワークであれば任意のニューラルネットワークを用いることができ、例えばシグモイド関数などを用いることができる。
【0024】
<学習処理(マルチモーダル学習処理)>
図2を用いて本実施形態の学習処理を説明する。
入力:教師混合音響信号X'={x
1',...,x
T'}
教師音源映像信号V'={V
1',...,V
N'}
教師音源信号S={S
1,...,S
N}
出力:音ストリーム用モデルパラメータθ
a、映像ストリーム用モデルパラメータθ
v、融合用モデルパラメータθ
f、分離信号推定用モデルパラメータθ
s、および分離信号特徴推定用モデルパラメータθ
avc
本実施形態の学習装置12は、少なくとも、混合音響信号Xの教師データである教師混合音響信号X'={x
1',...,x
T'}と音源映像信号Vの教師データである教師音源映像信号V'={V
1',...,V
N'}とをニューラルネットワーク(モデル)に適用して得られる、分離信号Y'={Y
1',...,Y
N'}の特徴と、教師音源映像信号V'={V
1',...,V
N'}の特徴と、の違いに基づいた学習によってモデルパラメータθ
a,θ
v,θ
f,θ
s,θ
avcを得て出力する。例えば、学習装置12は、少なくとも、複数の音源のうち第1音源に対応する教師音源映像信号S
nの特徴を表す要素と第1音源と異なる第2音源に対応する分離信号Y
n'の特徴を表す要素との間の類似度が小さくなり、第1音源に対応する教師音源映像信号S
nの特徴を表す要素と第1音源に対応する分離信号Y
nの特徴を表す要素との間の類似度が大きくなるように学習を行う。本実施形態では、さらに分離信号Y'の特徴と、教師音源映像信号V'の特徴とに加え、さらに教師混合音響信号X'と教師音源映像信号V'とをニューラルネットワーク(モデル)に適用して得られる分離信号Y'と、教師混合音響信号X'と教師音源映像信号V'とに対応する分離信号の教師データである教師音源信号Sと、の違いに基づいた学習によってモデルパラメータθ
a,θ
v,θ
f,θ
s,θ
avcを得て出力する例を示す。ただし、これは本発明を限定するものではない。
【0025】
教師混合音響信号X'={x1',...,xT'}は、混合音響信号X={x1,...,xT}の教師データであり、教師混合音響信号X'={x1',...,xT'}のデータ形式は前述した混合音響信号X={x1,...,xT}のデータ形式と同一である。教師混合音響信号X'は複数存在し、当該複数の教師混合音響信号X'が音源分離処理の入力となる混合音響信号Xを含んでいてもよいし、含んでいなくてもよい。
【0026】
教師音源映像信号V'={V1',...,VN'}は、音源映像信号V={V1,...,VN}の教師データであり、教師音源映像信号V'={V1',...,VN'}のデータ形式は前述した音源映像信号V={V1,...,VN}のデータ形式と同じである。教師音源映像信号V'は複数存在し、当該複数の教師音源映像信号V'が音源分離処理の入力となる音源映像信号Vを含んでいてもよいし、含んでいなくてもよい。
【0027】
教師音源信号S={S1,...,SN}は、教師混合音響信号X'={x1',...,xT'}および教師音源映像信号V'={V1',...,VN'}に対応する複数の音源から発せられた混合前の音を表す音響信号である。教師音源信号S={S1,...,SN}は教師混合音響信号X'={x1',...,xT'}および教師音源映像信号V'={V1',...,VN'}に対応し、複数存在する。学習処理では、互いに対応する教師混合音響信号X'、教師音源映像信号V'および教師音源信号Sの組に対し、それぞれ以下に示す処理が行われる。
【0028】
≪学習処理の全体の流れ≫
図2に例示するように、学習装置12には、互いに対応する教師混合音響信号X'={x
1',...,x
T'}と教師音源映像信号V'={V
1',...,V
N'}と教師音源信号S={S
1,...,S
N}とが入力される。教師混合音響信号X'は音ストリーム処理部121および分離信号推定部124に入力され、教師音源映像信号V'は映像ストリーム処理部122に入力され、教師音源信号Sはパラメータ更新部127に入力される。音ストリーム処理部121は、音ストリーム用モデルパラメータθ
aの暫定モデルパラメータθ
a'に基づいて、入力の教師混合音響信号X'から混合音響信号の埋め込みベクトルC
a'を得て出力する。映像ストリーム処理部122は、映像ストリーム用モデルパラメータθ
vの暫定モデルパラメータθ
v'に基づいて、入力の教師音源映像信号V'から音源映像信号の埋め込みベクトルC
v'を得て出力する。融合部123は、融合用モデルパラメータθ
fの暫定モデルパラメータθ
f'に基づいて、入力の混合音響信号の埋め込みベクトルC
a'および音源映像信号の埋め込みベクトルC
v'から音源信号の埋め込みベクトルM'を得て出力する。分離信号推定部124は、分離信号推定用モデルパラメータθ
s'に基づいて、入力の音源信号の埋め込みベクトルM'および教師混合音響信号X'から分離信号Y'を得て出力する。分離信号特徴推定部125は、分離信号特徴推定用暫定モデルパラメータθ
avc'に基づいて、入力の音源信号の埋め込みベクトルM'から分離信号の埋め込みベクトルC
avcを得て出力する。パラメータ更新部127は、教師音源信号Sと分離信号Y'との誤差、および、音源映像信号の埋め込みベクトルC
v'と分離信号の埋め込みベクトルC
avcとのモーダル間対応誤差に基づく自己教師あり学習を行って、暫定モデルパラメータθ
a',θ
v',θ
f',θ
s',θ
avc'を更新する。これらを繰り返して所定の終了条件を満たした暫定モデルパラメータθ
a',θ
v',θ
f',θ
s',θ
avc'がモデルパラメータθ
a,θ
v,θ
f,θ
s,θ
avcとされる。以下、詳細に説明する。
【0029】
≪パラメータ更新部127の初期設定処理(ステップS1271)≫
パラメータ更新部127は、モデルパラメータθa,θv,θf,θs,θavcの暫定モデルパラメータθa',θv',θf',θs',θavc'の初期値を記憶部120に格納する。暫定モデルパラメータθa',θv',θf',θs',θavc'の初期値はどのようなものであってもよい。
【0030】
≪音ストリーム処理部121の処理(ステップS121)≫
入力:教師混合音響信号X'={x1',...,xT'}
音ストリーム用暫定モデルパラメータθa'
出力:混合音響信号の埋め込みベクトルCa’
音ストリーム処理部121には、入力された教師混合音響信号X'および記憶部120から読み出された音ストリーム用暫定モデルパラメータθa'が入力される。音ストリーム処理部121は、教師混合音響信号X'および音ストリーム用暫定モデルパラメータθa'から、混合音響信号の埋め込みベクトCa’を推定して出力する。この推定処理は、X,θa,CaがX',θa',Ca’に置換される以外、前述の音ストリーム処理部111の処理(ステップS111)のもの(式(1))と同一である。
【0031】
≪映像ストリーム処理部122の処理(ステップS122)≫
入力:教師音源映像信号V'={V1',...,VN'}
映像ストリーム用暫定モデルパラメータθv'
出力:音源映像信号の埋め込みベクトルCV'={CV
1',...,CV
N'}
映像ストリーム部122には、入力された教師音源映像信号V'および記憶部120から読み出された映像ストリーム用暫定モデルパラメータθv'が入力される。映像ストリーム部122は、教師音源映像信号V'および映像ストリーム用暫定モデルパラメータθv'から、音源映像信号の埋め込みベクトルCV'={CV
1',...,CV
N'}を推定して出力する。この推定処理は、V,θv,CVがV',θv',CV'にそれぞれ置換される以外、前述の映像ストリーム処理部112の処理(ステップS112)のもの(式(2))と同一である。
【0032】
≪融合部123の処理(ステップS123)≫
入力:混合音響信号の埋め込みベクトルCa'
音源映像信号の埋め込みベクトルCV'
融合用暫定モデルパラメータθf'
出力:音源信号の埋め込みベクトルM'={M1',...,MN'}
融合部123には混合音響信号の埋め込みベクトルCa'、音源映像信号の埋め込みベクトルCV'、および記憶部120から読み出された融合用暫定モデルパラメータθf'が入力される。融合部123は、混合音響信号の埋め込みベクトルCa'、音源映像信号の埋め込みベクトルCV'、および融合用モデルパラメータθf'から、音源信号の埋め込みベクトルM'={M1',...,MN'}を推定して出力する。音源信号の埋め込みベクトルM'のデータ形式は、前述の音源信号の埋め込みベクトルMのデータ形式と同一である。また、この推定処理は、Ca,CV,θf,M={M1,...,MN}がCa',CV',θf',M'={M1',...,MN'}に置換される以外、前述の融合部113の処理(ステップS113)のもの(式(3))と同一である。
【0033】
≪分離信号推定部124の処理(ステップS124)≫
入力:音源信号の埋め込みベクトルM'={M1',...,MN'}
教師混合音響信号X'={x1',...,xT'}
分離信号推定用暫定モデルパラメータθs'
出力:分離信号Y'={Y1',...,YN'}
分離信号推定部124には音源信号の埋め込みベクトルM'、教師混合音響信号X'、および記憶部120から読み出された分離信号推定用暫定モデルパラメータθs'が入力される。分離信号推定部114は、音源信号の埋め込みベクトルM'、教師混合音響信号X'、および分離信号推定用暫定モデルパラメータθs'から、分離信号Y'={Y1',...,YN'}を推定して出力する。分離信号Y'={Y1',...,YN'}のデータ形式は、前述の分離信号Y={Y1,...,YN}のデータ形式と同一である。この推定処理は、M={M1,...,MN},X={x1,...,xT},θs,Y={Y1,...,YN}がM'={M1',...,MN'},X'={x1',...,xT'},θs',Y'={Y1',...,YN'}に置換される以外、前述の分離信号推定部114の処理(ステップS114)のもの(式(4))と同一である。
【0034】
≪分離信号特徴推定部125の処理(ステップS125)≫
入力:音源信号の埋め込みベクトルM'={M
1',...,M
N'}
分離信号特徴推定用暫定モデルパラメータθ
avc'
出力:分離信号の埋め込みベクトルC
avc'={C
avc
1',...,C
avc
N'}
分離信号特徴推定部125には音源信号の埋め込みベクトルM'、および記憶部120から読み出された分離信号特徴推定用暫定モデルパラメータθ
avc'が入力される。分離信号特徴推定部125は、音源信号の埋め込みベクトルM'および分離信号特徴推定用暫定モデルパラメータθ
avc'から、分離信号の埋め込みベクトルC
avc'={C
avc
1',...,C
avc
N'}を推定して出力する。ここで、埋め込みベクトルC
avc'は分離信号Y'の特徴を表し、C
avc
n'(ただしn=1,...,N)はn番目の分離信号Y
n'の特徴を表す。例えば、C
avc
n'は人手で決定された1次元以上の任意の次元数k
avc
nを持ち連続値または離散値をとる。k
avc
1,...,k
avc
Nは互いに同一であってもよいし、少なくとも一部がその他の異なっていてもよい。次元数k
avc
nは例えば1792などである。またC
avc
n'の系列長は混合音響信号と同一のTである。すなわちC
avc
n'は、例えばT×k
avc
nまたはk
avc
n×Tの行列として表現される。分離信号特徴推定部125は、例えば、以下の式(5)に従って、この埋め込みベクトルC
avc'を推定する。
【数5】
ここで、AVCBlock()は入力の音源信号の埋め込みベクトルM'および分離信号特徴推定用暫定モデルパラメータθ
avc'から分離信号の埋め込みベクトルC
avc'を得て出力する関数である。この関数には、当該学習方法を適用できるニューラルネットワークであれば任意のニューラルネットワークを用いることができ、例えばフィードフォワードニューラルネットワークなどを用いることができる。
【0035】
≪パラメータ更新部127の処理(ステップS1272)≫
パラメータ更新部127には、入力の教師音源信号S={S
1,...,S
N}、ステップS124で得られた分離信号Y'={Y
1',...,Y
N'}、ステップS122で得られた音源映像信号の埋め込みベクトルC
V'={C
V
1',...,C
V
N'}、およびステップS125で得られた分離信号の埋め込みベクトルC
avc'={C
avc
1',...,C
avc
N'}が入力される。パラメータ更新部127は、教師音源信号Sと分離信号Y'との間の誤差(違い)、および音源映像信号の埋め込みベクトルC
V'と分離信号の埋め込みベクトルC
avc'との間の誤差(モーダル間誤差)(違い)に基づき、以下のように暫定モデルパラメータΘ={θ
a',θ
v',θ
f',θ
s',θ
avc'}を更新する。
【数6】
ここで、式(6)は{L
1(Y',S)+λL
2(C
V',C
avc')}を最小化する暫定モデルパラメータΘを表す。λは、教師音源信号Sと分離信号Y'との間の誤差に基づく分離学習と、音源映像信号の埋め込みベクトルC
V'と分離信号の埋め込みベクトルC
avc'との間の誤差に基づくモーダル間対応学習との重みを決定するハイパーパラメータである。例えば、λは0以上の実数である。式(6)の右辺第一項L
1(Y',S)は分離学習に対応しており、この分離学習では教師音源信号Sと分離信号Y'との間の誤差を最小化する。言い換えると、この分離学習では教師音源信号Sの特徴と音ドメインで分離された分離信号Y'の特徴との差を小さくする。教師音源信号Sと分離信号Y'との間の誤差の定義は、平均二乗誤差、平均平方二乗誤差、または平均絶対誤差などどのようなものであってもよい。例えば、教師音源信号Sと分離信号Y'が振幅スペクトログラムからなる時間周波数領域信号であり、L
1(Y',S)が教師音源信号Sと分離信号Y'との間の平均二乗誤差である場合、L
1(Y',S)は以下のように例示される。
【数7】
ここで、I,Jはそれぞれ振幅スペクトログラムの周波数ビンと時間フレームの総数を表し、|・|は絶対値を表し、∥・∥
FはFrobeniusノルムを表す。式(6)の右辺第二項L
2(C
V',C
avc')は音源(話者)の映像と分離信号Y'との対応を考慮するモーダル間対応学習に対応しており、このモーダル間対応学習では音源映像信号の埋め込みベクトルC
V'と分離信号Y'の埋め込みベクトルC
avc'との間の誤差を最小化する。言い換えると、このモーダル間対応学習では、同一の音源(話者)に対応する映像の映像ドメインの特徴(音源映像信号の埋め込みベクトルC
V')と分離信号Y'の音ドメインの特徴(分離信号の埋め込みベクトルC
avc')との差を小さくする。言い換えると、このモーダル間対応学習では、互いに異なる音源(話者)に対応する映像の映像ドメインの特徴(音源映像信号の埋め込みベクトルC
V')と分離信号Y'の音ドメインの特徴(分離信号の埋め込みベクトルC
avc')との差を大きくする。音源映像信号の埋め込みベクトルC
V'と分離信号の埋め込みベクトルC
avc'との間の誤差は、類似度を用いて表されるものであってもよいし、距離を用いて表されるものであってもよい。例えばL
2(C
V',C
avc')は、以下のようなC
V
n'とC
avc
n'の列ベクトル間のコサイン類似度d(・)を用いて表すことができる。
【数8】
【数9】
ここで、C
V
nj',C
avc
nj'はそれぞれC
V
n',C
avc
n'の第j列ベクトルであり、・
Tは・の転置であり、∥・∥はベクトル・のL2ノルムである。n'=1,...,Nであり、C
V
n'およびC
avc
n'の次元数は共にk
n'であり、C
V
n'およびC
avc
n'の系列長は共にTであり、C
V
n'およびC
avc
n'は共にT×k
n'またはk
n'×Tの行列であり、j=1,...,Tである。式(8)の右辺第一項d(C
V
nj',C
avc
n'j')は、n番目の音源の映像(話者映像)に対応する音源映像信号の埋め込みベクトルC
V'の要素C
V
nj'と当該n番目の音源に対応しない分離信号の埋め込みベクトルC
avc'の要素C
avc
n'j'とのコサイン類似度d(C
V
nj',C
avc
n'j')を最小化し、右辺第二項はn番目の音源の映像(話者映像)に対応する音源映像信号の埋め込みベクトルC
V'の要素C
V
nj'と当該n番目の音源に対応する分離信号の埋め込みベクトルC
avc'の要素C
avc
nj'とのコサイン類似度d(C
V
nj',C
avc
nj')を最大化する。すなわち、複数の音源のうちn番目の音源(第1音源)に対応する教師音源映像信号S
nの特徴を表す要素C
V
nj'とn’番目(n’≠n)の音源(第1音源と異なる第2音源)に対応する分離信号Y
n'の特徴を表す要素C
avc
n'j'との間の類似度が小さくなり、n番目の音源(第1音源)に対応する教師音源映像信号S
nの特徴を表す要素C
V
nj'とn番目の音源(第1音源)に対応する分離信号Y
nの特徴を表す要素C
avc
nj'との間の類似度が大きくなるように学習が行われる。暫定モデルパラメータΘ={θ
a',θ
v',θ
f',θ
s',θ
avc'}の推定問題は任意の方法で解くことができる。例えば誤差逆伝搬法を用いた最適化によって暫定モデルパラメータΘを求めることができる。更新された暫定モデルパラメータΘ={θ
a',θ
v',θ
f',θ
s',θ
avc'}は記憶部120に格納される。
【0036】
≪終了条件判定処理(ステップS126)≫
次に制御部126は、所定の終了条件を満たしたか否かを判定する。終了条件に限定はないが、例えば、暫定モデルパラメータΘの更新回数が所定回数に達したことや、暫定モデルパラメータΘの更新量が所定範囲以下であることなどを終了条件とすることができる。終了条件を満たしていないと判定された場合、学習装置12は、互いに対応する新たな教師混合音響信号X'={x
1',...,x
T'}と教師音源映像信号V'={V
1',...,V
N'}と教師音源信号S={S
1,...,S
N}を入力とし、ステップS121,S122,S123,S124,S125,S1272の処理を再び実行する。一方、終了条件を満たしていると判定された場合、更新された暫定モデルパラメータΘ={θ
a',θ
v',θ
f',θ
s',θ
avc'}のうちθ
a',θ
v',θ
f',θ
s'がそれぞれモデルパラメータθ
a,θ
v,θ
f,θ
sとして出力される。出力されたモデルパラメータθ
a,θ
v,θ
f,θ
sは、前述の音源分離装置11(
図1)の記憶部110に格納され、前述した音源分離処理に利用される。この学習によって得られたモデルパラメータθ
a,θ
v,θ
f,θ
sに基づく音源分離処理で得られる分離信号Y={Y
1,...,Y
N}は、各音源(話者)の映像と対応付けがなされ、音源の特徴(例えば、発話タイミングや音韻情報、性別や年齢といった話者情報など)を反映したものとなる。そのため、本実施形態では分離精度の高いマルチモーダル音源分離を実現できる。
【0037】
[ハードウェア構成]
各実施形態における音源分離装置11および学習装置12は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。すなわち、音源分離装置11および学習装置12は、それぞれが有する各部を実装するように構成された処理回路(processing circuitry)をそれぞれ有する。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
【0038】
図3は、各実施形態における音源分離装置11および学習装置12のハードウェア構成を例示したブロック図である。
図3に例示するように、この例の音源分離装置11および学習装置12は、CPU(Central Processing Unit)10a、入力部10b、出力部10c、RAM(Random Access Memory)10d、ROM(Read Only Memory)10e、補助記憶装置10f及びバス10gを有している。この例のCPU10aは、制御部10aa、演算部10ab及びレジスタ10acを有し、レジスタ10acに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部10bは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部10cは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだCPU10aによって制御されるLANカード等である。また、RAM10dは、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域10da及び各種データが格納されるデータ領域10dbを有している。また、補助記憶装置10fは、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域10fa及び各種データが格納されるデータ領域10fbを有している。また、バス10gは、CPU10a、入力部10b、出力部10c、RAM10d、ROM10e及び補助記憶装置10fを、情報のやり取りが可能なように接続する。CPU10aは、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置10fのプログラム領域10faに格納されているプログラムをRAM10dのプログラム領域10daに書き込む。同様にCPU10aは、補助記憶装置10fのデータ領域10fbに格納されている各種データを、RAM10dのデータ領域10dbに書き込む。そして、このプログラムやデータが書き込まれたRAM10d上のアドレスがCPU10aのレジスタ10acに格納される。CPU10aの制御部10aaは、レジスタ10acに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM10d上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部10abに順次実行させ、その演算結果をレジスタ10acに格納していく。このような構成により、音源分離装置11および学習装置12の機能構成が実現される。
【0039】
上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
【0040】
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0041】
各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0042】
なお、本発明は上述の実施形態に限定されるものではない。例えば、音源分離装置11と学習装置12が別々に構成され、それらがインターネット等のネットワークを介して接続され、当該ネットワークを介して学習装置12から音源分離装置11にモデルパラメータが提供されてもよいし、ネットワークを介することなくUSBメモリ等の可搬型記録媒体を介して学習装置12から音源分離装置11にモデルパラメータが提供されてもよい。あるいは、音源分離装置11と学習装置12が一体に構成され、学習装置12で得られたモデルパラメータが音源分離装置11に提供されてもよい。
【0043】
また、本実施形態ではモデルとしてニューラルネットワークが用いられた。しかし、これは本発明を限定するものではなく、モデルとして隠れマルコフモデルなどの確率モデルが用いられてもよいし、その他のモデルが用いられてもよい。
【0044】
また、本実施形態では、音源が話者であり、音が音声である場合を例示した。しかし、これは本発明を限定するものではなく、音源が人間以外の動物、植物、自然物、自然現象、機械などを含んでいてよいし、音が鳴き声、摩擦音、振動音、雨音、雷音、エンジン音などを含んでいてもよい。
【0045】
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【符号の説明】
【0046】
11 音源分離装置
12 学習装置
111,121 音ストリーム処理部
112,122 映像ストリーム処理部
113,123 融合部
114,124 分離信号推定部
125 分離信号特徴推定部