特開2024-120098 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特開2024-120098音源分離方法、音源分離装置、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024120098

(43)【公開日】2024-09-03

(54)【発明の名称】音源分離方法、音源分離装置、およびプログラム

(51)【国際特許分類】

G10L 21/028 20130101AFI20240827BHJP

【ＦＩ】

G10L21/028 B

【審査請求】有

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2024104541

(22)【出願日】2024-06-28

(62)【分割の表示】P 2022579288の分割

【原出願日】2021-02-08

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】100121706

【弁理士】

【氏名又は名称】中尾直樹

(74)【代理人】

【識別番号】100128705

【弁理士】

【氏名又は名称】中村幸雄

(74)【代理人】

【識別番号】100147773

【弁理士】

【氏名又は名称】義村宗洋

(72)【発明者】

【氏名】牧島直輝

(72)【発明者】

【氏名】増村亮

(57)【要約】

【課題】音源分離の分離精度を向上させる。
【解決手段】複数の音源から発せられた音の混合音を表す混合音響信号と複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する。このモデルは、少なくとも、混合音響信号の教師データである教師混合音響信号と音源映像信号の教師データである教師音源映像信号とをモデルに適用して得られる、分離信号の特徴と、教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである。
【選択図】図１

【特許請求の範囲】

【請求項1】

音源分離装置による音源分離方法であって、
複数の音源から発せられた音の混合音を表す混合音響信号と前記複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、前記複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する推定ステップを有し、
前記モデルは、少なくとも、前記混合音響信号の教師データである教師混合音響信号と前記音源映像信号の教師データである教師音源映像信号とを前記モデルに適用して得られる、前記分離信号の特徴と、前記教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである、音源分離方法。

【請求項2】

請求項１の音源分離方法であって、
前記モデルは、少なくとも、前記複数の音源のうち第１音源に対応する前記教師音源映像信号の特徴を表す要素と前記第１音源と異なる第２音源に対応する前記分離信号の特徴を表す要素との間の類似度が小さくなり、前記第１音源に対応する前記教師音源映像信号の特徴を表す要素と前記第１音源に対応する前記分離信号の特徴を表す要素との間の類似度が大きくなるように学習によって得られたものである、音源分離方法。

【請求項3】

請求項１または２の音源分離方法であって、
前記モデルは、さらに、前記教師混合音響信号と前記教師音源映像信号とを前記モデルに適用して得られる前記分離信号と、前記教師混合音響信号と前記教師音源映像信号とに対応する前記分離信号の教師データである教師音源信号と、の違いに基づいた学習によって得られたものである、音源分離方法。

【請求項4】

請求項１から３のいずれかの音源分離方法であって、
前記音源映像信号は、前記複数の音源それぞれの映像を表す、音源分離方法。

【請求項5】

請求項１から４のいずれかの音源分離方法であって、
前記複数の音源は互いに異なる複数の話者を含み、前記混合音響信号は音声信号を含み、前記音源映像信号は前記話者の映像を表す、音源分離方法。

【請求項6】

請求項５の音源分離方法であって、
前記音源映像信号は前記話者の顔映像を含む映像を表す、音源分離方法。

【請求項7】

請求項１から６のいずれかの音源分離方法であって、
前記分離信号は、前記複数の音源のうち或る音源から発せられた対象音を表す信号と他の音源から発せられた音を表す信号とを含む、音源分離方法。

【請求項8】

複数の音源から発せられた音の混合音を表す混合音響信号と前記複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、前記複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する推定部を有し、
前記モデルは、少なくとも、前記混合音響信号の教師データである教師混合音響信号と前記音源映像信号の教師データである教師音源映像信号とを前記モデルに適用して得られる、前記分離信号の特徴と、前記教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである、音源分離装置。

【請求項9】

請求項１から７のいずれかの音源分離方法の処理をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音源分離技術に関し、特にマルチモーダル音源分離に関する。

【背景技術】

【0002】

単一マイクロホンで観測した複数話者の音声の混合信号から混合前の各話者の音声信号を推定するシングルチャネル音源分離技術では、ニューラルネットワークを利用して混合信号に含まれる全ての音源信号を同時に推定することが一般的である。推定された音源信号を分離信号と呼ぶ。この枠組みでは、分離信号に含まれる各話者に対応する信号の出力順序が任意であるため、ある特定の話者の音声を取り出す際には話者識別など後段の処理が必要となる。また、ニューラルネットワークのモデルパラメータを学習する際には、話者毎に分離信号と混合前の音源信号との誤差を計算し、それらから全体の誤差を評価する必要がある。ここでも各話者について分離信号と音源信号の対応が取れていないと誤差が定まらないという問題がある。この問題はパーミュテーション問題と呼ばれている。

【0003】

これに対して、各話者に対応する音源信号と分離信号の要素全ての対応に関して誤差を計算し、それらに基づく全体の誤差が最小になるようにネットワークのモデルパラメータ最適化を行うpermutation invariant training（PIT）が提案されている（例えば、非特許文献１等参照）。また、音声の混合信号と同時に各話者の顔映像を入力とし、各話者の映像から分離信号に含まれる各話者に対応する信号の出力順序を一意に決定するマルチモーダル音声分離も提案されている（例えば、非特許文献２，３等参照）。マルチモーダル音源分離では、各話者の映像を利用することで、パーミュテーション問題を解決しながら発話タイミングや発話内容を分離時に考慮し、音のみを利用する音声分離よりも高い性能を示すことが確認されている。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】D. Yu, M. Kolbak, Z. Tan, and J. Jensen, “Permutation invariant training of deep models for speaker-independent multitalker speech separation,” in Proc. ICASSP, 2017, pp. 241-245.

【非特許文献2】R. Lu, Z. Duan, and C. Zhang, “Audio-visual deep clustering for speech separation,” IEEE/ACM Trans. ASLP, vol. 27, no. 11, pp. 1697-1712, 2019.

【非特許文献3】A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W. T. Freeman, and M. Rubinstein, “Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation,” ACM Trans. Graph., vol. 37, no. 4, pp. 112:1-112:11, 2018.

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかし、従来のPITやマルチモーダル音源分離では、音ドメインでの音源信号と分離信号との距離のみを考慮してモデルパラメータを学習する。このような学習方法では、分離信号に含まれる話者の特徴（例えば、話者性や音韻情報などの特徴）を直接考慮することができない。これは分離信号における他話者の音声の残留や音声の歪みにつながり、分離精度を劣化させてしまう。

【0006】

このような課題は音声の音源分離を行う場合に限定されるものではなく、任意の音の音源分離を行う場合に共通するものである。

【0007】

本発明はこのような点に鑑みてなされたものであり、音源分離の分離精度を向上させることを目的とする。

【課題を解決するための手段】

【0008】

複数の音源から発せられた音の混合音を表す混合音響信号と複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する。このモデルは、少なくとも、混合音響信号の教師データである教師混合音響信号と音源映像信号の教師データである教師音源映像信号とをモデルに適用して得られる、分離信号の特徴と、教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである。

【発明の効果】

【0009】

これにより、音源映像信号の特徴に表れる、分離信号に含まれる音源の特徴が音源分離に考慮され、音源分離の分離精度を向上させることができる。

【図面の簡単な説明】

【0010】

【図1】図１は実施形態の音源分離装置の機能構成を例示したブロック図である。

【図2】図２は実施形態の学習装置の機能構成を例示したブロック図である。

【図3】図３は装置のハードウェア構成を例示したブロック図である。

【発明を実施するための形態】

【0011】

以下、図面を参照して本発明の実施形態を説明する。
［第１実施形態］
本実施形態では、分離信号の特徴を考慮したマルチモーダル音源分離を行うための機能を導入する。これにより分離信号に含まれる歪みや残留妨害音などを減少させ、音源分離の分離精度を向上させることができる。本実施形態のポイントは、少なくとも、分離信号の特徴と、音源の映像を表す音源映像信号の教師データである教師音源映像信号の特徴と、の違いに基づき、分離信号を推定するためのモデルが学習される点である。音源の映像には、各音源から発せられる音の特徴と密接な関わりを持つ要素が含まれている。例えば、音源が話者である場合、話者の映像（例えば、話者の顔映像を含む映像）には、発話のタイミング、口元から推定される音韻情報、性別や年齢といった話者情報などの要素が含まれており、これらは音源信号の特徴と密接な関わりを持つ。さらに、音源の映像は周囲の音（例えば、雑音）の影響を受けず、高雑音下であってもそれらの要素は劣化しない。そこで、本実施形態では、教師音源映像信号の特徴に分離信号の特徴を対応させ、これらの特徴の違いに基づいて、分離信号を推定するためのモデルを学習し、そのモデルを用いて音源分離を行う。いいかえると、画像信号から得られる話者情報や発声するために用いられる喉の動きや口から、発せられている音声信号らしさを推定し、音源分離に用いる。音声信号が生成される過程を画像信号から取得して音源分離を行うと言い換えてもいい。

【0012】

すなわち、本実施形態では、複数の音源から発せられた音の混合音を表す混合音響信号と当該複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する。ただし、当該モデルは、少なくとも、混合音響信号の教師データである教師混合音響信号と音源映像信号の教師データである教師音源映像信号とをモデルに適用して得られる、分離信号の特徴と、教師音源映像信号の特徴と、の違いに基づいた学習によって得られるものである。このように、音源分離のためのモデル学習に、分離信号の特徴と音源の映像の特徴との関係を明示的に取り入れることで、例えば発話のタイミングや口元から推定される音韻情報、性別や年齢といった話者情報などの要素を考慮した音源分離を行うことが可能となる。それにより、マルチモーダル音源分離において従来扱えていなかった特徴を考慮することが可能となり、例えば分離信号中の歪みや残留妨害音を減少させ、音源分離の分離精度を向上させることができる。

【0013】

以下、本実施形態の詳細を説明する。本実施形態ではモデルがニューラルネットワークであり、音源が話者であり、音が音声である場合を例示する。しかし、これは本発明を限定するものではない。
＜構成＞
図１に例示するように、本実施形態の音源分離装置１１は、記憶部１１０、音ストリーム処理部１１１、映像ストリーム処理部１１２、融合部１１３、分離信号推定部１１４、および制御部１１６を有し、制御部１１６の制御に基づき、後述の各処理を実行する。逐一説明は省略するが、音源分離処理で得られたデータは記憶部１１０に格納され、必要に応じて読み出されて使用される。図２に例示するように、学習装置１２は、記憶部１２０、音ストリーム処理部１２１、映像ストリーム処理部１２２、融合部１２３、分離信号推定部１２４、分離信号特徴推定部１２５、制御部１２６、およびパラメータ更新部１２７を有し、制御部１２６の制御に基づき、後述の各処理を実行する。逐一説明は省略するが、学習処理で得られたデータは記憶部１２０に格納され、必要に応じて読み出されて使用される。

【0014】

＜音源分離処理（マルチモーダル音源分離処理）＞
図１を用いて本実施形態の音源分離処理を説明する。
入力：混合音響信号X={x₁,...,x_T}
音源映像信号V={V₁,...,V_N}
モデルパラメータθ^a,θ^v,θ^f,θ^s
出力：分離信号Y={Y₁,...,Y_N}
本実施形態の音源分離装置１１は、複数の音源から発せられた音の混合音を表す音響信号（複数の音源から発せられた音に対応する信号が混合した音響信号）である混合音響信号X={x₁,...,x_T}と、当該複数の音源の少なくとも一部の映像を表す音源映像信号V={V₁,...,V_N}と、モデルパラメータ（音ストリーム用モデルパラメータθ^a、映像ストリーム用モデルパラメータθ^v、融合用モデルパラメータθ^f、分離信号推定用モデルパラメータθ^s）とを入力とし、モデルパラメータθ^a，θ^v，θ^f，θ^sに基づいて定まるニューラルネットワーク（モデル）に当該混合音響信号Xと音源映像信号Vとを適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号Y={Y₁,...,Y_N}を推定して出力する。なお、当該ニューラルネットワークは、少なくとも、混合音響信号Xの教師データである教師混合音響信号X'と音源映像信号Vの教師データである教師音源映像信号V'とを当該ニューラルネットワークに適用して得られる、分離信号の特徴Yと、音響信号Sの教師データである教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである。（すなわち、当該ニューラルネットワークは、当該学習によって得られたモデルパラメータθ^a, θ^v, θ^f, θ^sに基づいて定まる。この学習処理の詳細は後述する。

【0015】

複数の音源は、発する音と相関を持った外観を呈する音源を含む。発する音と相関を持った外観を呈する音源の例は、話者、動物、植物、自然物、自然現象、機械などである。一例として、本実施形態では、複数の音源が互いに異なる複数の話者を含む場合を例示する。複数の音源のすべてが話者であってもよいし、その一部のみが話者であってもよい。音源が話者である場合、その話者から発せられた音は音声であり、混合音響信号Xは当該音声を表す音声信号を含み、音源映像信号Vは話者の映像を表す。

【0016】

混合音響信号Xは、例えば、マイクロホンなどの音響センサで混合音を観測して得られた音響信号をデジタル変換して得られる時間波形信号（すなわち、時間領域信号）であってもよいし、当該時間波形信号を所定の時間区間（例えば、当該時間波形信号に乗じられる窓関数によって定まる区間）ごとに周波数領域に変換して得られる時間周波数領域信号であってもよい。時間周波数領域信号の例は、時間波形を短時間フーリエ変換によって変換して得られた振幅スペクトログラムや対数メルフィルタバンク出力などである。振幅スペクトログラムや対数メルフィルタバンクは周知であるため、それらの説明は割愛する。本実施形態では混合音響信号XをX={x₁,...,x_T}と表す。ここで、Tは時間フレーム長を表す正整数であり、x_tはt番目のフレームの混合音響信号Xの要素であり、t=1,...,Tはフレームのインデックスを表す正整数である。すなわち、混合音響信号Xは時系列の離散音響信号である。

【0017】

音源映像信号Vは、Webカメラやスマートフォンのカメラなどの映像センサで音源を撮影して得られた映像信号である。例えば、音源映像信号Vは複数の音源それぞれの映像を表す。音源映像信号Vは、上述した複数の音源のすべての映像を表していてもよいし、それらの一部の音源の映像のみを表していてもよい。例えば、音源映像信号Vは、上述した複数の音源のうち、対象音を発する１つまたは複数の音源の映像を表してもよいし、対象音を発する音源と他の音源との映像をそれぞれ表してもよい。例えば、音源が話者である場合、音源映像信号Vは、複数の話者のうち、対象音を発する１人または複数人の話者の映像を表してもよいし、対象音を発する話者と他の話者との映像をそれぞれ表してもよい。音源映像信号Vは、発する音と相関を持った外観を呈する音源の映像を表す。例えば、音源が話者である場合、音源映像信号Vは話者の顔映像を含む映像を表す。本実施形態では、音源映像信号VをV={V₁,...,V_N}と表す。ここで、V_n={v_n1,...,v_nF}はn番目の音源（例えば、話者）の映像信号を表し、v_nfはn番目の音源のf番目のフレームの映像信号を表す。n=1,...,Nは音源のインデックスを表す正整数であり、Nは音源の個数を表す１以上の整数であり（例えば、音源分離処理として実用的なのはNが2以上の整数であるとき）、f=1,...,Fは映像のフレームのインデックスを表す正整数であり、Fは映像のフレーム数を表す正整数である。v_nfのチャネル数、画素数、fpsは任意であるが、例えば、チャネル数１のグレースケール画像であって、顔全体の解像度が224 pixel×224 pixel、25 fpsの映像をv_nfとする。なお、この例では、演算に使うリソースを削減するためにグレースケールとしたがRGB画像でも全く問題ない。

【0018】

本実施形態では、混合前の複数の音源から発せられた音を表す音響信号をS={S₁,...,S_N}と表す。ここで、S_n={s_n1,...,s_nT}はn番目の音源から発せられた音の音響信号を表し、s_ntはn番目の音源から発せられた音のt番目のフレームの音響信号を表す。分離信号Yは音響信号Sの推定信号である。本実施形態では、分離信号YをY={Y₁,...,Y_N}と表す。ここで、Y_n={y_n1,...,y_nT}はn番目の音源から発せられた音の音響信号S_n={s_n1,...,s_nT}の推定信号であり、y_ntはn番目の音源から発せられた音のt番目のフレームの音響信号s_ntの推定信号である。Y₁,...,Y_Nのいずれかまたはすべてが前述の「対象音を表す信号（複数の音源のうち或る音源から発せられた対象音を表す信号）」に相当する。Y₁,...,Y_Nのいずれが対象音を表す信号であるかは、分離信号の用途に依存する。なお、音響信号Sおよび分離信号Yは、時間波形信号（すなわち、時間領域信号）であってもよいし、振幅スペクトログラムや対数メルフィルタバンク出力などの時間周波数領域信号であってもよい。

【0019】

≪音源分離処理全体の流れ≫
図１に例示するように、記憶部１１０には、後述の学習処理によって得られたモデルパラメータθ^a,θ^v,θ^f,θ^sが格納される。音ストリーム用モデルパラメータθ^aは音ストリーム処理部１１１に入力され、映像ストリーム用モデルパラメータθ^vは映像ストリーム処理部１１２に入力され、融合用モデルパラメータθ^fは融合部１１３に入力され、分離信号推定用モデルパラメータθ^sは分離信号推定部１１４に入力される。音ストリーム処理部１１１は、音ストリーム用モデルパラメータθ^aに基づいて、入力の混合音響信号Xから混合音響信号の埋め込みベクトルC^aを得て出力する。映像ストリーム処理部１１２は、映像ストリーム用モデルパラメータθ^vに基づいて、入力の音源映像信号Vから音源映像信号の埋め込みベクトルC^vを得て出力する。融合部１１３は、融合用モデルパラメータθ^fに基づいて、入力の混合音響信号の埋め込みベクトルC^aおよび音源映像信号の埋め込みベクトルC^vから音源信号の埋め込みベクトルMを得て出力する。分離信号推定部１１４は、分離信号推定用モデルパラメータθ^sに基づいて、入力の音源信号の埋め込みベクトルMおよび混合音響信号Xから分離信号Yを得て出力する。以下、詳細に説明する。

【0020】

≪音ストリーム処理部１１１の処理（ステップＳ１１１）≫
入力：混合音響信号X={x₁,...,x_T}
音ストリーム用モデルパラメータθ^a
出力：混合音響信号の埋め込みベクトルC^a
音ストリーム処理部１１１には混合音響信号Xおよび音ストリーム用モデルパラメータθ^aが入力される。音ストリーム用モデルパラメータθ^aは予め音ストリーム処理部１１１に入力および設定されていてもよいし、混合音響信号Xが入力されるたびに入力されてもよい。音ストリーム処理部１１１は、混合音響信号Xおよび音ストリーム用モデルパラメータθ^aから、混合音響信号の埋め込みベクトルC^aを推定して出力する。この埋め込みベクトルC^aは混合音響信号Xの特徴を表し、例えば、人手で決定された１次元以上の任意の次元数ｋ^aを持ち連続値または離散値をとるベクトルの系列として表される。次元数ｋ^aは例えば1792などである。また埋め込みベクトルC^aの系列長は混合音響信号Xと同一のTである。すなわち埋め込みベクトルC^aは、例えばT×ｋ^aまたはｋ^a×Tの行列として表現される。音ストリーム処理部１１１は、例えば、以下の式(1)に従って、この埋め込みベクトルC^aを推定する。

【数1】

ここで、AudioBlock()は、入力の混合音響信号Xと音ストリーム用モデルパラメータθ^aを用いて混合音響信号の埋め込みベクトルC^aを得て出力する関数である。この関数には、後述の学習方法を適用できるニューラルネットワークであれば任意のニューラルネットワークを用いることができ、例えばフィードフォワードニューラルネットワークやリカレントニューラルネットワークなどを用いることができる。音ストリーム用モデルパラメータθ^aをどのように得るかについては、後述の学習処理で説明する。

【0021】

≪映像ストリーム処理部１１２の処理（ステップＳ１１２）≫
入力：音源映像信号V={V₁,...,V_N}
映像ストリーム用モデルパラメータθ^v
出力：音源映像信号の埋め込みベクトルC^V={C^V ₁,...,C^V _N}
映像ストリーム部１１２には音源映像信号Vおよび映像ストリーム用モデルパラメータθ^vが入力される。映像ストリーム用モデルパラメータθ^vは予め映像ストリーム処理部１１２に入力および設定されていてもよいし、音源映像信号Vが入力されるたびに入力されてもよい。映像ストリーム部１１２は、音源映像信号Vおよび映像ストリーム用モデルパラメータθ^vから、音源映像信号の埋め込みベクトルC^V={C^V ₁,...,C^V _N}を推定して出力する。この埋め込みベクトルC^Vは音源映像信号Vの特徴を表し、C^V _n（ただしn=1,...,N）はn番目の音源（本実施形態では話者）の映像の特徴を表す。例えば、C^V _nは人手で決定された１次元以上の任意の次元数ｋ^V _nを持ち連続値または離散値をとる。ｋ^V ₁,...,ｋ^V _Nは互いに同一であってもよいし、少なくとも一部がその他の異なっていてもよい。次元数ｋ^V _nは例えば1792などである。またC^V _nの系列長は混合音響信号と同一のTである。すなわちC^V _nは、例えばT×ｋ^V _nまたはｋ^V _n×Tの行列として表現される。なお、「α^β _γ」と表記した場合の下付き添え字「γ」は本来上付き添え字「β」の真下にあるべきであるが、本明細書では記載表記の制約上、下付き添え字「γ」を上付き添え字「β」の右斜め下に表記する場合がある。映像ストリーム部１１２は、例えば、以下の式(2)に従って、この埋め込みベクトルC^Vを推定する。

【数2】

ここで、VideoBlock()は、入力の音源映像信号Vと映像ストリーム用モデルパラメータθ^vを用いて音源映像信号の埋め込みベクトルC^Vを得て出力する関数である。この関数には、後述の学習方法を適用できるニューラルネットワークであれば任意のニューラルネットワークを用いることができ、例えば3次元CNNやリカレントニューラルネットワークなどを用いることができる。映像ストリーム用モデルパラメータθ^vをどのように得るかについては、後述の学習処理で説明する。

【0022】

≪融合部１１３の処理（ステップＳ１１３）≫
入力：混合音響信号の埋め込みベクトルC^a
音源映像信号の埋め込みベクトルC^V
融合用モデルパラメータθ^f
出力：音源信号の埋め込みベクトルM={M₁,...,M_N}
融合部１１３には混合音響信号の埋め込みベクトルC^a、音源映像信号の埋め込みベクトルC^V、および融合用モデルパラメータθ^fが入力される。融合用モデルパラメータθ^fは予め融合部１１３に入力および設定されていてもよいし、混合音響信号の埋め込みベクトルC^aおよび音源映像信号の埋め込みベクトルC^Vが入力されるたびに入力されてもよい。融合部１１３は、混合音響信号の埋め込みベクトルC^a、音源映像信号の埋め込みベクトルC^V、および融合用モデルパラメータθ^fから、音源信号の埋め込みベクトルM={M₁,...,M_N}を推定して出力する。この埋め込みベクトルMは、混合音響信号の埋め込みベクトルC^aおよび音源映像信号の埋め込みベクトルC^Vの特徴を表す。ここで、M_n（ただしn=1,...,N）は音源信号の埋め込みベクトルMのn番目の音源（本実施形態では話者）に対応する要素を表す。例えば、M_nは人手で決定された１次元以上の任意の次元数ｋ^ｍ _nを持ち連続値または離散値をとる。ｋ^ｍ ₁,...,ｋ^ｍ _Nは互いに同一であってもよいし、少なくとも一部がその他の異なっていてもよい。次元数ｋ^ｍ _nは例えば1792などである。また、M_nの系列長は混合音響信号と同一のTである。すなわちM_nは、例えばT×ｋ^ｍ _nまたはｋ^ｍ _n×Tの行列として表現される。融合部１１３は、例えば、以下の式(3)に従って、この音源信号の埋め込みベクトルMを推定する。

【数3】

ここで、FusionBlock()は、入力の混合音響信号の埋め込みベクトルC^a、音源映像信号の埋め込みベクトルC^V、および融合用モデルパラメータθ^fから音源信号の埋め込みベクトルMを得て出力する関数である。この関数には、後述の学習方法を適用できるニューラルネットワークであれば任意のニューラルネットワークを用いることができ、例えばフィードフォワードニューラルネットワークを用いることができる。融合用モデルパラメータθ^fをどのように得るかについては、後述の学習処理で説明する。

【0023】

≪分離信号推定部１１４の処理（ステップＳ１１４）≫
入力：音源信号の埋め込みベクトルM={M₁,...,M_N}
混合音響信号X={x₁,...,x_T}
分離信号推定用モデルパラメータθ^s
出力：分離信号Y={Y₁,...,Y_N}
分離信号推定部１１４には音源信号の埋め込みベクトルM、混合音響信号X、および分離信号推定用モデルパラメータθ^sが入力される。分離信号推定用モデルパラメータθ^sは予め分離信号推定部１１４に入力および設定されていてもよいし、音源信号の埋め込みベクトルMおよび混合音響信号Xが入力されるたびに入力されてもよい。分離信号推定部１１４は、音源信号の埋め込みベクトルM、混合音響信号X、および分離信号推定用モデルパラメータθ^sから、分離信号Y={Y₁,...,Y_N}を推定して出力する。分離信号推定部１１４は、例えば、以下の式(4)に従って、この分離信号Yを推定する。

【数4】

ここで、Separation()は入力の音源信号の埋め込みベクトルMおよび混合音響信号Xから分離信号Yを推定して出力する関数である。この関数には、後述の学習方法を適用できるニューラルネットワークであれば任意のニューラルネットワークを用いることができ、例えばシグモイド関数などを用いることができる。

【0024】

＜学習処理（マルチモーダル学習処理）＞
図２を用いて本実施形態の学習処理を説明する。
入力：教師混合音響信号X'={x₁',...,x_T'}
教師音源映像信号V'={V₁',...,V_N'}
教師音源信号S={S₁,...,S_N}
出力：音ストリーム用モデルパラメータθ^a、映像ストリーム用モデルパラメータθ^v、融合用モデルパラメータθ^f、分離信号推定用モデルパラメータθ^s、および分離信号特徴推定用モデルパラメータθ^avc
本実施形態の学習装置１２は、少なくとも、混合音響信号Xの教師データである教師混合音響信号X'={x₁',...,x_T'}と音源映像信号Vの教師データである教師音源映像信号V'={V₁',...,V_N'}とをニューラルネットワーク（モデル）に適用して得られる、分離信号Y'={Y₁',...,Y_N'}の特徴と、教師音源映像信号V'={V₁',...,V_N'}の特徴と、の違いに基づいた学習によってモデルパラメータθ^a，θ^v，θ^f，θ^s，θ^avcを得て出力する。例えば、学習装置１２は、少なくとも、複数の音源のうち第１音源に対応する教師音源映像信号S_nの特徴を表す要素と第１音源と異なる第２音源に対応する分離信号Y_n'の特徴を表す要素との間の類似度が小さくなり、第１音源に対応する教師音源映像信号S_nの特徴を表す要素と第１音源に対応する分離信号Y_nの特徴を表す要素との間の類似度が大きくなるように学習を行う。本実施形態では、さらに分離信号Y'の特徴と、教師音源映像信号V'の特徴とに加え、さらに教師混合音響信号X'と教師音源映像信号V'とをニューラルネットワーク（モデル）に適用して得られる分離信号Y'と、教師混合音響信号X'と教師音源映像信号V'とに対応する分離信号の教師データである教師音源信号Sと、の違いに基づいた学習によってモデルパラメータθ^a，θ^v，θ^f，θ^s，θ^avcを得て出力する例を示す。ただし、これは本発明を限定するものではない。

【0025】

教師混合音響信号X'={x₁',...,x_T'}は、混合音響信号X={x₁,...,x_T}の教師データであり、教師混合音響信号X'={x₁',...,x_T'}のデータ形式は前述した混合音響信号X={x₁,...,x_T}のデータ形式と同一である。教師混合音響信号X'は複数存在し、当該複数の教師混合音響信号X'が音源分離処理の入力となる混合音響信号Xを含んでいてもよいし、含んでいなくてもよい。

【0026】

教師音源映像信号V'={V₁',...,V_N'}は、音源映像信号V={V₁,...,V_N}の教師データであり、教師音源映像信号V'={V₁',...,V_N'}のデータ形式は前述した音源映像信号V={V₁,...,V_N}のデータ形式と同じである。教師音源映像信号V'は複数存在し、当該複数の教師音源映像信号V'が音源分離処理の入力となる音源映像信号Vを含んでいてもよいし、含んでいなくてもよい。

【0027】

教師音源信号S={S₁,...,S_N}は、教師混合音響信号X'={x₁',...,x_T'}および教師音源映像信号V'={V₁',...,V_N'}に対応する複数の音源から発せられた混合前の音を表す音響信号である。教師音源信号S={S₁,...,S_N}は教師混合音響信号X'={x₁',...,x_T'}および教師音源映像信号V'={V₁',...,V_N'}に対応し、複数存在する。学習処理では、互いに対応する教師混合音響信号X'、教師音源映像信号V'および教師音源信号Sの組に対し、それぞれ以下に示す処理が行われる。

【0028】

≪学習処理の全体の流れ≫
図２に例示するように、学習装置１２には、互いに対応する教師混合音響信号X'={x₁',...,x_T'}と教師音源映像信号V'={V₁',...,V_N'}と教師音源信号S={S₁,...,S_N}とが入力される。教師混合音響信号X'は音ストリーム処理部１２１および分離信号推定部１２４に入力され、教師音源映像信号V'は映像ストリーム処理部１２２に入力され、教師音源信号Sはパラメータ更新部１２７に入力される。音ストリーム処理部１２１は、音ストリーム用モデルパラメータθ^aの暫定モデルパラメータθ^a'に基づいて、入力の教師混合音響信号X'から混合音響信号の埋め込みベクトルC^a'を得て出力する。映像ストリーム処理部１２２は、映像ストリーム用モデルパラメータθ^vの暫定モデルパラメータθ^v'に基づいて、入力の教師音源映像信号V'から音源映像信号の埋め込みベクトルC^v'を得て出力する。融合部１２３は、融合用モデルパラメータθ^fの暫定モデルパラメータθ^f'に基づいて、入力の混合音響信号の埋め込みベクトルC^a'および音源映像信号の埋め込みベクトルC^v'から音源信号の埋め込みベクトルM'を得て出力する。分離信号推定部１２４は、分離信号推定用モデルパラメータθ^s'に基づいて、入力の音源信号の埋め込みベクトルM'および教師混合音響信号X'から分離信号Y'を得て出力する。分離信号特徴推定部１２５は、分離信号特徴推定用暫定モデルパラメータθ^avc'に基づいて、入力の音源信号の埋め込みベクトルM'から分離信号の埋め込みベクトルC^avcを得て出力する。パラメータ更新部１２７は、教師音源信号Sと分離信号Y'との誤差、および、音源映像信号の埋め込みベクトルC^v'と分離信号の埋め込みベクトルC^avcとのモーダル間対応誤差に基づく自己教師あり学習を行って、暫定モデルパラメータθ^a'，θ^v'，θ^f'，θ^s'，θ^avc'を更新する。これらを繰り返して所定の終了条件を満たした暫定モデルパラメータθ^a'，θ^v'，θ^f'，θ^s'，θ^avc'がモデルパラメータθ^a，θ^v，θ^f，θ^s，θ^avcとされる。以下、詳細に説明する。

【0029】

≪パラメータ更新部１２７の初期設定処理（ステップＳ１２７１）≫
パラメータ更新部１２７は、モデルパラメータθ^a，θ^v，θ^f，θ^s，θ^avcの暫定モデルパラメータθ^a'，θ^v'，θ^f'，θ^s'，θ^avc'の初期値を記憶部１２０に格納する。暫定モデルパラメータθ^a'，θ^v'，θ^f'，θ^s'，θ^avc'の初期値はどのようなものであってもよい。

【0030】

≪音ストリーム処理部１２１の処理（ステップＳ１２１）≫
入力：教師混合音響信号X'={x₁',...,x_T'}
音ストリーム用暫定モデルパラメータθ^a'
出力：混合音響信号の埋め込みベクトルC^a’
音ストリーム処理部１２１には、入力された教師混合音響信号X'および記憶部１２０から読み出された音ストリーム用暫定モデルパラメータθ^a'が入力される。音ストリーム処理部１２１は、教師混合音響信号X'および音ストリーム用暫定モデルパラメータθ^a'から、混合音響信号の埋め込みベクトC^a’を推定して出力する。この推定処理は、X，θ^a，C^aがX'，θ^a'，C^a’に置換される以外、前述の音ストリーム処理部１１１の処理（ステップＳ１１１）のもの（式(1)）と同一である。

【0031】

≪映像ストリーム処理部１２２の処理（ステップＳ１２２）≫
入力：教師音源映像信号V'={V₁',...,V_N'}
映像ストリーム用暫定モデルパラメータθ^v'
出力：音源映像信号の埋め込みベクトルC^V'={C^V ₁',...,C^V _N'}
映像ストリーム部１２２には、入力された教師音源映像信号V'および記憶部１２０から読み出された映像ストリーム用暫定モデルパラメータθ^v'が入力される。映像ストリーム部１２２は、教師音源映像信号V'および映像ストリーム用暫定モデルパラメータθ^v'から、音源映像信号の埋め込みベクトルC^V'={C^V ₁',...,C^V _N'}を推定して出力する。この推定処理は、V，θ^v，C^VがV'，θ^v'，C^V'にそれぞれ置換される以外、前述の映像ストリーム処理部１１２の処理（ステップＳ１１２）のもの（式(2)）と同一である。

【0032】

≪融合部１２３の処理（ステップＳ１２３）≫
入力：混合音響信号の埋め込みベクトルC^a'
音源映像信号の埋め込みベクトルC^V'
融合用暫定モデルパラメータθ^f'
出力：音源信号の埋め込みベクトルM'={M₁',...,M_N'}
融合部１２３には混合音響信号の埋め込みベクトルC^a'、音源映像信号の埋め込みベクトルC^V'、および記憶部１２０から読み出された融合用暫定モデルパラメータθ^f'が入力される。融合部１２３は、混合音響信号の埋め込みベクトルC^a'、音源映像信号の埋め込みベクトルC^V'、および融合用モデルパラメータθ^f'から、音源信号の埋め込みベクトルM'={M₁',...,M_N'}を推定して出力する。音源信号の埋め込みベクトルM'のデータ形式は、前述の音源信号の埋め込みベクトルMのデータ形式と同一である。また、この推定処理は、C^a，C^V，θ^f，M={M₁,...,M_N}がC^a'，C^V'，θ^f'，M'={M₁',...,M_N'}に置換される以外、前述の融合部１１３の処理（ステップＳ１１３）のもの（式(3)）と同一である。

【0033】

≪分離信号推定部１２４の処理（ステップＳ１２４）≫
入力：音源信号の埋め込みベクトルM'={M₁',...,M_N'}
教師混合音響信号X'={x₁',...,x_T'}
分離信号推定用暫定モデルパラメータθ^s'
出力：分離信号Y'={Y₁',...,Y_N'}
分離信号推定部１２４には音源信号の埋め込みベクトルM'、教師混合音響信号X'、および記憶部１２０から読み出された分離信号推定用暫定モデルパラメータθ^s'が入力される。分離信号推定部１１４は、音源信号の埋め込みベクトルM'、教師混合音響信号X'、および分離信号推定用暫定モデルパラメータθ^s'から、分離信号Y'={Y₁',...,Y_N'}を推定して出力する。分離信号Y'={Y₁',...,Y_N'}のデータ形式は、前述の分離信号Y={Y₁,...,Y_N}のデータ形式と同一である。この推定処理は、M={M₁,...,M_N}，X={x₁,...,x_T}，θ^s，Y={Y₁,...,Y_N}がM'={M₁',...,M_N'}，X'={x₁',...,x_T'}，θ^s'，Y'={Y₁',...,Y_N'}に置換される以外、前述の分離信号推定部１１４の処理（ステップＳ１１４）のもの（式(4)）と同一である。

【0034】

≪分離信号特徴推定部１２５の処理（ステップＳ１２５）≫
入力：音源信号の埋め込みベクトルM'={M₁',...,M_N'}
分離信号特徴推定用暫定モデルパラメータθ^avc'
出力：分離信号の埋め込みベクトルC^avc'={C^avc ₁',...,C^avc _N'}
分離信号特徴推定部１２５には音源信号の埋め込みベクトルM'、および記憶部１２０から読み出された分離信号特徴推定用暫定モデルパラメータθ^avc'が入力される。分離信号特徴推定部１２５は、音源信号の埋め込みベクトルM'および分離信号特徴推定用暫定モデルパラメータθ^avc'から、分離信号の埋め込みベクトルC^avc'={C^avc ₁',...,C^avc _N'}を推定して出力する。ここで、埋め込みベクトルC^avc'は分離信号Y'の特徴を表し、C^avc _n'（ただしn=1,...,N）はn番目の分離信号Y_n'の特徴を表す。例えば、C^avc _n'は人手で決定された１次元以上の任意の次元数ｋ^avc _nを持ち連続値または離散値をとる。ｋ^avc ₁,...,ｋ^avc _Nは互いに同一であってもよいし、少なくとも一部がその他の異なっていてもよい。次元数ｋ^avc _nは例えば1792などである。またC^avc _n'の系列長は混合音響信号と同一のTである。すなわちC^avc _n'は、例えばT×ｋ^avc _nまたはｋ^avc _n×Tの行列として表現される。分離信号特徴推定部１２５は、例えば、以下の式(5)に従って、この埋め込みベクトルC^avc'を推定する。

【数5】

ここで、AVCBlock()は入力の音源信号の埋め込みベクトルM'および分離信号特徴推定用暫定モデルパラメータθ^avc'から分離信号の埋め込みベクトルC^avc'を得て出力する関数である。この関数には、当該学習方法を適用できるニューラルネットワークであれば任意のニューラルネットワークを用いることができ、例えばフィードフォワードニューラルネットワークなどを用いることができる。

【0035】

≪パラメータ更新部１２７の処理（ステップＳ１２７２）≫
パラメータ更新部１２７には、入力の教師音源信号S={S₁,...,S_N}、ステップＳ１２４で得られた分離信号Y'={Y₁',...,Y_N'}、ステップＳ１２２で得られた音源映像信号の埋め込みベクトルC^V'={C^V ₁',...,C^V _N'}、およびステップＳ１２５で得られた分離信号の埋め込みベクトルC^avc'={C^avc ₁',...,C^avc _N'}が入力される。パラメータ更新部１２７は、教師音源信号Sと分離信号Y'との間の誤差（違い）、および音源映像信号の埋め込みベクトルC^V'と分離信号の埋め込みベクトルC^avc'との間の誤差（モーダル間誤差）（違い）に基づき、以下のように暫定モデルパラメータΘ={θ^a'，θ^v'，θ^f'，θ^s'，θ^avc'}を更新する。

【数6】

ここで、式(6)は{L₁(Y',S)+λL₂(C^V',C^avc')}を最小化する暫定モデルパラメータΘを表す。λは、教師音源信号Sと分離信号Y'との間の誤差に基づく分離学習と、音源映像信号の埋め込みベクトルC^V'と分離信号の埋め込みベクトルC^avc'との間の誤差に基づくモーダル間対応学習との重みを決定するハイパーパラメータである。例えば、λは０以上の実数である。式(6)の右辺第一項L₁(Y',S)は分離学習に対応しており、この分離学習では教師音源信号Sと分離信号Y'との間の誤差を最小化する。言い換えると、この分離学習では教師音源信号Sの特徴と音ドメインで分離された分離信号Y'の特徴との差を小さくする。教師音源信号Sと分離信号Y'との間の誤差の定義は、平均二乗誤差、平均平方二乗誤差、または平均絶対誤差などどのようなものであってもよい。例えば、教師音源信号Sと分離信号Y'が振幅スペクトログラムからなる時間周波数領域信号であり、L₁(Y',S)が教師音源信号Sと分離信号Y'との間の平均二乗誤差である場合、L₁(Y',S)は以下のように例示される。

【数7】

ここで、I，Jはそれぞれ振幅スペクトログラムの周波数ビンと時間フレームの総数を表し、｜・｜は絶対値を表し、∥・∥_FはFrobeniusノルムを表す。式(6)の右辺第二項L₂(C^V',C^avc')は音源（話者）の映像と分離信号Y'との対応を考慮するモーダル間対応学習に対応しており、このモーダル間対応学習では音源映像信号の埋め込みベクトルC^V'と分離信号Y'の埋め込みベクトルC^avc'との間の誤差を最小化する。言い換えると、このモーダル間対応学習では、同一の音源（話者）に対応する映像の映像ドメインの特徴（音源映像信号の埋め込みベクトルC^V'）と分離信号Y'の音ドメインの特徴（分離信号の埋め込みベクトルC^avc'）との差を小さくする。言い換えると、このモーダル間対応学習では、互いに異なる音源（話者）に対応する映像の映像ドメインの特徴（音源映像信号の埋め込みベクトルC^V'）と分離信号Y'の音ドメインの特徴（分離信号の埋め込みベクトルC^avc'）との差を大きくする。音源映像信号の埋め込みベクトルC^V'と分離信号の埋め込みベクトルC^avc'との間の誤差は、類似度を用いて表されるものであってもよいし、距離を用いて表されるものであってもよい。例えばL₂(C^V',C^avc')は、以下のようなC^V _n'とC^avc _n'の列ベクトル間のコサイン類似度d(・)を用いて表すことができる。

【数8】

【数9】

ここで、C^V _nｊ'，C^avc _nｊ'はそれぞれC^V _n'，C^avc _n'の第ｊ列ベクトルであり、・^Ｔは・の転置であり、∥・∥はベクトル・のL2ノルムである。n'=1,...,Nであり、C^V _n'およびC^avc _n'の次元数は共にｋ_n'であり、C^V _n'およびC^avc _n'の系列長は共にTであり、C^V _n'およびC^avc _n'は共にT×ｋ_n'またはｋ_n'×Tの行列であり、ｊ=1,...,Tである。式(8)の右辺第一項d(C^V _nｊ',C^avc _n'ｊ')は、ｎ番目の音源の映像（話者映像）に対応する音源映像信号の埋め込みベクトルC^V'の要素C^V _nｊ'と当該ｎ番目の音源に対応しない分離信号の埋め込みベクトルC^avc'の要素C^avc _n'ｊ'とのコサイン類似度d(C^V _nｊ',C^avc _n'ｊ')を最小化し、右辺第二項はｎ番目の音源の映像（話者映像）に対応する音源映像信号の埋め込みベクトルC^V'の要素C^V _nｊ'と当該ｎ番目の音源に対応する分離信号の埋め込みベクトルC^avc'の要素C^avc _nｊ'とのコサイン類似度d(C^V _nｊ',C^avc _nｊ')を最大化する。すなわち、複数の音源のうちｎ番目の音源（第１音源）に対応する教師音源映像信号S_nの特徴を表す要素C^V _nｊ'とｎ’番目（ｎ’≠ｎ）の音源（第１音源と異なる第２音源）に対応する分離信号Y_n'の特徴を表す要素C^avc _n'ｊ'との間の類似度が小さくなり、ｎ番目の音源（第１音源）に対応する教師音源映像信号S_nの特徴を表す要素C^V _nｊ'とｎ番目の音源（第１音源）に対応する分離信号Y_nの特徴を表す要素C^avc _nｊ'との間の類似度が大きくなるように学習が行われる。暫定モデルパラメータΘ={θ^a'，θ^v'，θ^f'，θ^s'，θ^avc'}の推定問題は任意の方法で解くことができる。例えば誤差逆伝搬法を用いた最適化によって暫定モデルパラメータΘを求めることができる。更新された暫定モデルパラメータΘ={θ^a'，θ^v'，θ^f'，θ^s'，θ^avc'}は記憶部１２０に格納される。

【0036】

≪終了条件判定処理（ステップＳ１２６）≫
次に制御部１２６は、所定の終了条件を満たしたか否かを判定する。終了条件に限定はないが、例えば、暫定モデルパラメータΘの更新回数が所定回数に達したことや、暫定モデルパラメータΘの更新量が所定範囲以下であることなどを終了条件とすることができる。終了条件を満たしていないと判定された場合、学習装置１２は、互いに対応する新たな教師混合音響信号X'={x₁',...,x_T'}と教師音源映像信号V'={V₁',...,V_N'}と教師音源信号S={S₁,...,S_N}を入力とし、ステップＳ１２１，Ｓ１２２，Ｓ１２３，Ｓ１２４，Ｓ１２５，Ｓ１２７２の処理を再び実行する。一方、終了条件を満たしていると判定された場合、更新された暫定モデルパラメータΘ={θ^a'，θ^v'，θ^f'，θ^s'，θ^avc'}のうちθ^a'，θ^v'，θ^f'，θ^s'がそれぞれモデルパラメータθ^a，θ^v，θ^f，θ^sとして出力される。出力されたモデルパラメータθ^a，θ^v，θ^f，θ^sは、前述の音源分離装置１１（図１）の記憶部１１０に格納され、前述した音源分離処理に利用される。この学習によって得られたモデルパラメータθ^a，θ^v，θ^f，θ^sに基づく音源分離処理で得られる分離信号Y={Y₁,...,Y_N}は、各音源（話者）の映像と対応付けがなされ、音源の特徴（例えば、発話タイミングや音韻情報、性別や年齢といった話者情報など）を反映したものとなる。そのため、本実施形態では分離精度の高いマルチモーダル音源分離を実現できる。

【0037】

［ハードウェア構成］
各実施形態における音源分離装置１１および学習装置１２は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）やＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。すなわち、音源分離装置１１および学習装置１２は、それぞれが有する各部を実装するように構成された処理回路（processing circuitry）をそれぞれ有する。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

【0038】

図３は、各実施形態における音源分離装置１１および学習装置１２のハードウェア構成を例示したブロック図である。図３に例示するように、この例の音源分離装置１１および学習装置１２は、ＣＰＵ（Central Processing Unit）１０ａ、入力部１０ｂ、出力部１０ｃ、ＲＡＭ（Random Access Memory）１０ｄ、ＲＯＭ（Read Only Memory）１０ｅ、補助記憶装置１０ｆ及びバス１０ｇを有している。この例のＣＰＵ１０ａは、制御部１０ａａ、演算部１０ａｂ及びレジスタ１０ａｃを有し、レジスタ１０ａｃに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部１０ｂは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部１０ｃは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだＣＰＵ１０ａによって制御されるＬＡＮカード等である。また、ＲＡＭ１０ｄは、ＳＲＡＭ (Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域１０ｄａ及び各種データが格納されるデータ領域１０ｄｂを有している。また、補助記憶装置１０ｆは、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域１０ｆａ及び各種データが格納されるデータ領域１０ｆｂを有している。また、バス１０ｇは、ＣＰＵ１０ａ、入力部１０ｂ、出力部１０ｃ、ＲＡＭ１０ｄ、ＲＯＭ１０ｅ及び補助記憶装置１０ｆを、情報のやり取りが可能なように接続する。ＣＰＵ１０ａは、読み込まれたＯＳ（Operating System）プログラムに従い、補助記憶装置１０ｆのプログラム領域１０ｆａに格納されているプログラムをＲＡＭ１０ｄのプログラム領域１０ｄａに書き込む。同様にＣＰＵ１０ａは、補助記憶装置１０ｆのデータ領域１０ｆｂに格納されている各種データを、ＲＡＭ１０ｄのデータ領域１０ｄｂに書き込む。そして、このプログラムやデータが書き込まれたＲＡＭ１０ｄ上のアドレスがＣＰＵ１０ａのレジスタ１０ａｃに格納される。ＣＰＵ１０ａの制御部１０ａａは、レジスタ１０ａｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭ１０ｄ上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部１０ａｂに順次実行させ、その演算結果をレジスタ１０ａｃに格納していく。このような構成により、音源分離装置１１および学習装置１２の機能構成が実現される。

【0039】

上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

【0040】

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

【0041】

各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【0042】

なお、本発明は上述の実施形態に限定されるものではない。例えば、音源分離装置１１と学習装置１２が別々に構成され、それらがインターネット等のネットワークを介して接続され、当該ネットワークを介して学習装置１２から音源分離装置１１にモデルパラメータが提供されてもよいし、ネットワークを介することなくUSBメモリ等の可搬型記録媒体を介して学習装置１２から音源分離装置１１にモデルパラメータが提供されてもよい。あるいは、音源分離装置１１と学習装置１２が一体に構成され、学習装置１２で得られたモデルパラメータが音源分離装置１１に提供されてもよい。

【0043】

また、本実施形態ではモデルとしてニューラルネットワークが用いられた。しかし、これは本発明を限定するものではなく、モデルとして隠れマルコフモデルなどの確率モデルが用いられてもよいし、その他のモデルが用いられてもよい。

【0044】

また、本実施形態では、音源が話者であり、音が音声である場合を例示した。しかし、これは本発明を限定するものではなく、音源が人間以外の動物、植物、自然物、自然現象、機械などを含んでいてよいし、音が鳴き声、摩擦音、振動音、雨音、雷音、エンジン音などを含んでいてもよい。

【0045】

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

【符号の説明】

【0046】

１１音源分離装置
１２学習装置
１１１，１２１音ストリーム処理部
１１２，１２２映像ストリーム処理部
１１３，１２３融合部
１１４，１２４分離信号推定部
１２５分離信号特徴推定部

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版