IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ ブルノ ユニバーシティー オブ テクノロジーの特許一覧

特許7605698抽出装置、抽出方法、学習装置、学習方法及びプログラム
<>
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図1
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図2
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図3
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図4
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図5
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図6
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図7
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図8
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図9
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図10
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図11
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図12
  • 特許-抽出装置、抽出方法、学習装置、学習方法及びプログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-16
(45)【発行日】2024-12-24
(54)【発明の名称】抽出装置、抽出方法、学習装置、学習方法及びプログラム
(51)【国際特許分類】
   G10L 21/0272 20130101AFI20241217BHJP
   G10L 25/30 20130101ALI20241217BHJP
【FI】
G10L21/0272 100Z
G10L25/30
【請求項の数】 10
(21)【出願番号】P 2021094322
(22)【出願日】2021-06-04
(65)【公開番号】P2022186212
(43)【公開日】2022-12-15
【審査請求日】2023-09-27
【新規性喪失の例外の表示】特許法第30条第2項適用 arXiv ウェブサイト https://arxiv.org/ (トップページ) https://arxiv.org/abs/2101.05516 (論文ページ) https://arxiv.org/pdf/2101.05516.pdf (論文PDF) ウェブサイトの掲載日 2021年1月14日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】516087908
【氏名又は名称】ブルノ ユニバーシティー オブ テクノロジー
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】デルクロア マーク
(72)【発明者】
【氏名】落合 翼
(72)【発明者】
【氏名】木下 慶介
(72)【発明者】
【氏名】中谷 智広
(72)【発明者】
【氏名】モリコバ カテリナ
【審査官】土井 悠生
(56)【参考文献】
【文献】国際公開第2021/054152(WO,A1)
【文献】特開2020-134567(JP,A)
【文献】国際公開第2021/033587(WO,A1)
【文献】国際公開第2019/171457(WO,A1)
【文献】特開2017-067813(JP,A)
【文献】特開2020-038315(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 19/00-99/00
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
混合音を補助NN(ニューラルネットワーク)に入力して得られる出力と、目的音源が音を発した時間を表すアクティビティ情報との重み付き和を生成する生成部と、
前記混合音と前記重み付き和とを抽出用のNNに入力することによって、前記混合音から前記目的音源の音を抽出する抽出部と、
を有することを特徴とする抽出装置。
【請求項2】
目的音源が音を発した時間を表す情報であって、ベクトルで表されたアクティビティ情報と、ベクトルで表された混合音と、を結合した結合ベクトルを生成する生成部と、
前記結合ベクトルを抽出用のNN(ニューラルネットワーク)に入力することによって、前記混合音から前記目的音源の音を抽出する抽出部と、
を有することを特徴とする抽出装置。
【請求項3】
前記生成部は、前記混合音を補助NNに入力して得られる出力と前記アクティビティ情報との重み付き和をさらに生成し、
前記抽出部は、前記結合ベクトルと前記重み付き和を前記抽出用のNNに入力することによって、前記混合音から前記目的音源の音を抽出することを特徴とする請求項に記載の抽出装置。
【請求項4】
抽出装置によって実行される抽出方法であって、
混合音を補助NN(ニューラルネットワーク)に入力して得られる出力と、目的音源が音を発した時間を表すアクティビティ情報との重み付き和を生成する生成工程と、
前記混合音と前記重み付き和とを抽出用のNNに入力することによって、前記混合音から前記目的音源の音を抽出する抽出工程と、
を含むことを特徴とする抽出方法。
【請求項5】
抽出装置によって実行される抽出方法であって、
目的音源が音を発した時間を表す情報であって、ベクトルで表されたアクティビティ情報と、ベクトルで表された混合音と、を結合した結合ベクトルを生成する生成工程と、
前記結合ベクトルを抽出用のNN(ニューラルネットワーク)に入力することによって、前記混合音から前記目的音源の音を抽出する抽出工程と、
を含むことを特徴とする抽出方法。
【請求項6】
混合音を補助NN(ニューラルネットワーク)に入力して得られる出力と、目的音源が音を発した時間を表すアクティビティ情報との重み付き和を生成する生成部と、
前記混合音と前記重み付き和とを抽出用のNNに入力することによって、前記混合音から前記目的音源の音を抽出する抽出部と、
前記抽出部によって抽出された音を基に計算される損失関数が最適化されるように、前記抽出用のNNのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
【請求項7】
目的音源が音を発した時間を表す情報であって、ベクトルで表されたアクティビティ情報と、ベクトルで表された混合音と、を結合した結合ベクトルを生成する生成部と、
前記結合ベクトルを抽出用のNN(ニューラルネットワーク)に入力することによって、前記混合音から前記目的音源の音を抽出する抽出部と、
前記抽出部によって抽出された音を基に計算される損失関数が最適化されるように、前記抽出用のNNのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
【請求項8】
学習装置によって実行される学習方法であって、
混合音を補助NN(ニューラルネットワーク)に入力して得られる出力と、目的音源が音を発した時間を表すアクティビティ情報との重み付き和を生成する生成工程と、
前記混合音と前記重み付き和とを抽出用のNNに入力することによって、前記混合音から前記目的音源の音を抽出する抽出工程と、
前記抽出工程によって抽出された音を基に計算される損失関数が最適化されるように、前記抽出用のNNのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。
【請求項9】
学習装置によって実行される学習方法であって、
目的音源が音を発した時間を表す情報であって、ベクトルで表されたアクティビティ情報と、ベクトルで表された混合音と、を結合した結合ベクトルを生成する生成工程と、
前記結合ベクトルを抽出用のNN(ニューラルネットワーク)に入力することによって、前記混合音から前記目的音源の音を抽出する抽出工程と、
前記抽出工程によって抽出された音を基に計算される損失関数が最適化されるように、前記抽出用のNNのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。
【請求項10】
コンピュータを、請求項1からのいずれか1項に記載の抽出装置、又は請求項6又は7に記載の学習装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、抽出装置、抽出方法、学習装置、学習方法及びプログラムに関する。
【背景技術】
【0002】
複数の話者の音声から得られる混合音声信号から、目的話者の音声を抽出する技術としてスピーカービーム(SpeakerBeam)が知られている(例えば、非特許文献1を参照)。
【0003】
例えば、非特許文献1に記載の手法は、混合音声信号を時間領域に変換し、時間領域の混合音声信号から目的話者の音声を抽出するメインNN(neural network:ニューラルネットワーク)と、目的話者の音声信号から特徴量を抽出する補助NNとを有し、メインNNの中間部分に設けられた適応層に補助NNの出力を入力することで、時間領域の混合音声信号に含まれる目的話者の音声信号を推定し、出力するものである。
【0004】
図13は、従来のスピーカービームを説明する図である。図13に示すように、従来のスピーカービームでは、混合音声yが抽出用ネットワークに入力される。また、目的話者の音声aが補助ネットワークに入力される。
【0005】
さらに、補助ネットワークの出力の時間平均e((1)式)が抽出用ネットワークの第1抽出ブロックと第2抽出ブロックとの間に入力される。そして、抽出用ネットワークから出力されるマスク^m(mの直上に^)によって、混合音声yから目的音声^xが抽出される。
【0006】
【数1】
【先行技術文献】
【非特許文献】
【0007】
【文献】Marc Delcroix, et al. “Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam”,https://arxiv.org/pdf/2001.08378.pdf
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、従来の手法には、混合音声から目的音声を精度良くかつ容易に抽出することができない場合があるという問題がある。
【0009】
例えば、非特許文献1に記載の手法は、目的話者の音声を事前に登録しておく必要がある。また、例えば、長時間の会議による疲労又は体調の変化等により、目的話者の音声の特徴が、事前に登録した音声の特徴とかい離してしまう場合がある。
【課題を解決するための手段】
【0010】
上述した課題を解決し、目的を達成するために、抽出装置は、目的音源が音を発した時間を表すアクティビティ情報と混合音とから所定の形式のデータを生成する生成部と、前記生成部によって生成されたデータ及び抽出用のNN(ニューラルネットワーク)を用いて、前記混合音から前記目的音源の音を抽出する抽出部と、を有することを特徴とする。
【0011】
また、学習装置は、目的音源が音を発した時間を表すアクティビティ情報と混合音とから所定の形式のデータを生成する生成部と、前記生成部によって生成されたデータ及び抽出用のNN(ニューラルネットワーク)を用いて、前記混合音から前記目的音源の音を抽出する抽出部と、前記抽出部によって抽出された音を基に計算される損失関数が最適化されるように、前記抽出用のNNのパラメータを更新する更新部と、を有することを特徴とする。
【発明の効果】
【0012】
本発明によれば、混合音声から目的音声を精度良くかつ容易に抽出することができる。
【図面の簡単な説明】
【0013】
図1図1は、第1の実施形態に係る抽出装置の構成例を示す図である。
図2図2は、ダイアライゼーションを説明する図である。
図3図3は、アクティビティ情報を説明する図である。
図4図4は、モデルの構成例を示す図である。
図5図5は、モデルの構成例を示す図である。
図6図6は、モデルの構成例を示す図である。
図7図7は、第1の実施形態に係る学習装置の構成例を示す図である。
図8図8は、第1の実施形態に係る抽出装置の処理の流れを示すフローチャートである。
図9図9は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。
図10図10は、実験結果を示す図である。
図11図11は、実験結果を示す図である。
図12図12は、プログラムを実行するコンピュータの一例を示す図である。
図13図13は、従来のスピーカービームを説明する図である。
【発明を実施するための形態】
【0014】
以下に、本願に係る抽出装置、抽出方法、学習装置、学習方法及びプログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
【0015】
[第1の実施形態]
図1は、第1の実施形態に係る抽出装置の構成例を示す図である。図1に示すように、抽出装置10は、インタフェース部11、記憶部12及び制御部13を有する。
【0016】
抽出装置10は、複数の音源からの音声を含む混合音声の入力を受け付ける。また、抽出装置10は、目的の音源の音声を混合音声から抽出し、出力する。
【0017】
本実施形態では、音源は話者であるものとする。この場合、混合音声は、複数の話者が発した音声を混合したものである。例えば、混合音声は、複数の話者が参加する会議の音声をマイクロホンで録音することによって得られる。以降の説明における「音源」は、適宜「話者」に置き換えられてよい。
【0018】
なお、本実施形態では、話者によって発せられる音声(voice)だけでなく、あらゆる音源からの音(sound)を扱うことができる。例えば、抽出装置10は、楽器の音、車のサイレン音等の音響イベントを音源とする混合音の入力を受け付け、目的音源の音を抽出し、出力することができる。また、以降の説明における「音声」は、適宜「音」に置き換えられてもよい。
【0019】
インタフェース部11は、データの入力及び出力のためのインタフェースである。例えば、インタフェース部11はNIC(Network Interface Card)である。また、インタフェース部11は、ディスプレイ等の出力装置及びキーボード等の入力装置に接続されていてもよい。
【0020】
記憶部12は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部12は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部12は、抽出装置10で実行されるOS(Operating System)や各種プログラムを記憶する。
【0021】
図1に示すように、記憶部12は、モデル情報121を記憶する。モデル情報121は、モデルを構築するためのパラメータ等である。例えば、モデル情報121は、後述する各ニューラルネットワークを構築するための重み及びバイアス等である。
【0022】
制御部13は、抽出装置10全体を制御する。制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部13は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。
【0023】
制御部13は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部13は、信号処理部131を有する。
【0024】
信号処理部131は、モデル情報121から構築されるモデルを用いて、混合音声から目的音声を抽出する。また、モデル情報121から構築されるモデルは、学習装置によって訓練されたモデルであるものとする。信号処理部131は、生成部131a及び抽出部131bを有する。
【0025】
生成部131aは、目的音源が音を発した時間を表すアクティビティ情報と混合音とから所定の形式のデータを生成する。
【0026】
ここで、アクティビティ情報について説明する。アクティビティ情報は目的音源が音を発した時間を表す情報である。
【0027】
例えば、アクティビティ情報は、visual-based voice activity detection (VAD)(参考文献1)、personal VAD(参考文献2)、ダイアライゼーション(参考文献3~5)といった既知の手法によって得られる。
参考文献1:P. Liu and Z. Wang, “Voice activity detection using visual information,” in Proc. of ICASSP’04, 2004, vol. 1, pp. I-609.
参考文献2:S. Ding, Q. Wang, S.-Y. Chang, L. Wan, and I. Lopez Moreno, “Personal VAD: Speaker-Conditioned Voice Activity Detection,” in Proc. of Odyssey’20, 2020, pp. 433-439.
参考文献3:D. Garcia-Romero, D. Snyder, G. Sell, D. Povey, and A. McCree, “Speaker diarization using deep neural network embeddings,” Proc. of ICASSP’17, pp. 4930-4934, 2017.
参考文献4:Z. Huang, S.Watanabe, Y. Fujita, P. Garcia, Y. Shao, D. Povey, and S. Khudanpur, “Speaker diarization with region proposal network,” Proc. of ICASSP’20, pp. 6514-6518, 2020.
参考文献5:I. Medennikov, M. Korenevsky, T. Prisyach, Y. Y. Khokhlov, M. Korenevskaya, I. Sorokin, T. V. Timofeeva, A. Mitrofanov, A. Andrusenko, I. Podluzhny, A. Laptev, and A. Romanenko, “Target-speaker voice activity detection: a novel approach for multi-speaker diarization in a dinner party scenario,” ArXiv, vol. abs/2005.07272, 2020.
【0028】
例えば、目的話者の映像がある場合は、visual-based VADが有効である。また、目的話者の音声がある場合は、personal VADが有効である。また、目的話者の映像及び音声がいずれも手に入らない場合は、ダイアライゼーションが使用される。
【0029】
特に、昨今の高精度なダイアライゼーションと本実施形態を組み合わせることで、オーバーラップが発生する会議等のシチュエーションにおいて実用的かつ簡易な音声認識精度を向上を図ることができる。
【0030】
ここで、オーバーラップとは、混合音声において、目的話者の音声と目的話者以外の音声が重複している状態である。アクティビティ情報における目的話者がアクティブに時間区間には、オーバーラップが含まれるケースとオーバーラップが含まれないケースが考えられる。
【0031】
図2は、ダイアライゼーションを説明する図である。図2に示すように、ダイアライゼーションによれば、話者A、話者B、話者Cのそれぞれが発話した時間帯を特定することができる。
【0032】
図3は、アクティビティ情報を説明する図である。図3に示すように、アクティビティ情報は、音源が音を発している時間区間においては1を取り、音源が音を発していない時間区間においては0を取るものであってもよい。この場合、p∈{0,1}となる。
【0033】
抽出部131bは、生成部131aによって生成されたデータ及び抽出用ネットワークを用いて、混合音から目的音源の音を抽出する。
【0034】
ここでは、モデル情報121を基に構築されるモデルをADEnet(a speaker activity driven speech extraction neural network)と呼ぶ場合がある。生成部131a及び抽出部131bは、ADEnetを用いて処理を行う。以下、ADEnetの複数のバリエーションについて説明する。
【0035】
なお、本実施形態のADEnetは、アクティビティ情報を入力とするが、アクティビティ情報の取得方法は特定の方法には限定されず、いかなる方法であってもよい。
【0036】
[ADEnet-auxiliary]
ADEnet-auxiliaryでは、生成部131aは、混合音を補助ネットワークに入力して得られる出力とアクティビティ情報との重み付き和を生成する。また、抽出部131bは、混合音と重み付き和とを抽出用ネットワークに入力することによって、混合音から目的音源の音を抽出する。
【0037】
図4は、モデルの構成例を示す図である。図4のモデル(ADEnet-auxiliary)では、抽出用ネットワークと補助ネットワークが用いられる。抽出用ネットワークと補助ネットワークはいずれもニューラルネットワークである。
【0038】
図4に示すように、生成部131aは、補助ネットワークに混合音声yを入力する。そして、生成部131aは、(2)式により、アクティビティ情報pを重みとして、補助ネットワークの出力の重み付き和eを計算する。
【0039】
【数2】
【0040】
さらに、抽出部131bは、混合音声yと重み付き和eを抽出用ネットワークに入力し、マスク^mを得る。そして、抽出部131bは、混合音声yとマスク^mとの要素ごとの積を目的音声^xとして計算する。
【0041】
[ADEnet-input]
ADEnet-inputでは、生成部131aは、いずれもベクトルで表されたアクティビティ情報と混合音とを結合した結合ベクトルを生成する。また、抽出部131bは、結合ベクトルを抽出用ネットワークに入力することによって、混合音から目的音源の音を抽出する。
【0042】
図5は、モデルの構成例を示す図である。図5のモデル(ADEnet-input)では、抽出用ネットワークが用いられる。
【0043】
図5に示すように、生成部131aは、混合音声yとアクティビティ情報pを結合(concatenate)し、[y T,pTを得る。
【0044】
そして、抽出部131bは、[y T,pTを抽出用ネットワークに入力し、マスク^mを得る。そして、抽出部131bは、混合音声yとマスク^mとの要素ごとの積を目的音声^xとして計算する。
【0045】
[ADEnet-mix]
ADEnet-mixでは、生成部131aは、結合ベクトルに加え、混合音を補助ネットワークに入力して得られる出力とアクティビティ情報との重み付き和をさらに生成する。また、抽出部131bは、結合ベクトルと重み付き和を抽出用ネットワークに入力することによって、混合音から目的音源の音を抽出する。
【0046】
図6は、モデルの構成例を示す図である。図6のモデル(ADEnet-mix)では、抽出用ネットワークと補助ネットワークが用いられる。
【0047】
図6に示すように、生成部131aは、混合音声yとアクティビティ情報pを結合(concatenate)し、[y T,pTを得る。
【0048】
そして、抽出部131bは、重み付き和eと、[y T,pTとを抽出用ネットワークに入力し、マスク^mを得る。そして、抽出部131bは、混合音声yとマスク^mとの要素ごとの積を目的音声^xとして計算する。
【0049】
ここで説明したように、抽出部131bはマスクを使って目的音声を計算することができる。一方で、抽出部131bは、マスクを使わずに、抽出用ネットワーク等を使って目的音声を直接計算してもよい。
【0050】
ここで、図7を用いて学習装置の構成について説明する。図7は、第1の実施形態に係る学習装置の構成例を示す図である。図7に示すように、学習装置20は、インタフェース部21、記憶部22及び制御部23を有する。
【0051】
インタフェース部21は、データの入力及び出力のためのインタフェースである。例えば、インタフェース部21はNICである。また、インタフェース部21は、ディスプレイ等の出力装置及びキーボード等の入力装置に接続されていてもよい。
【0052】
記憶部22は、HDD、SSD、光ディスク等の記憶装置である。なお、記憶部22は、RAM、フラッシュメモリ、NVSRAM等のデータを書き換え可能な半導体メモリであってもよい。記憶部22は、学習装置20で実行されるOSや各種プログラムを記憶する。
【0053】
図7に示すように、記憶部22は、モデル情報221を記憶する。モデル情報221は、モデルを構築するためのパラメータ等である。例えば、モデル情報221は、各ニューラルネットワークを構築するための重み及びバイアス等である。
【0054】
モデル情報221は、学習装置20によって更新され、抽出装置10に受け渡されてもよい。受け渡されたモデル情報221は、抽出装置10によってモデル情報121として記憶される。
【0055】
制御部23は、学習装置20全体を制御する。制御部23は、例えば、CPU、MPU、GPU等の電子回路や、ASIC、FPGA等の集積回路である。また、制御部23は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。
【0056】
制御部23は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部23は、信号処理部231、損失計算部232及び更新部233を有する。
【0057】
信号処理部231は、モデル情報221から構築されるモデルを用いて、混合音声から目的音声を抽出する。信号処理部231は、生成部231a及び抽出部231bを有する。
【0058】
生成部231aは、目的音源が音を発した時間を表すアクティビティ情報と混合音とから所定の形式のデータを生成する。また、抽出部231bは、生成部231aによって生成されたデータ及び抽出用ネットワークを用いて、混合音から目的音源の音を抽出する。
【0059】
生成部231a及び抽出部231bは、それぞれ生成部131a及び抽出部131bと同様の処理を行う。
【0060】
損失計算部232は、抽出部231bによって抽出された音を基に損失関数を計算する。例えば、損失関数は、抽出部231bによって抽出された音^xと、学習データに含まれる正解xtとの信号雑音比(signal-to-noise ratio:SiSNR)である。また、損失関数は信号雑音比に限られず、Signal-to-distortion ratio:SDR及びMSE(Mean square error)等であってもよい。
【0061】
更新部233は、抽出部231bによって抽出された音を基に計算される損失関数が最適化されるように、抽出用のNNのパラメータを更新する。更新部233は、誤差逆伝播法等の既知の手法によりパラメータを更新することができる。
【0062】
[第1の実施形態の処理の流れ]
図8は、第1の実施形態に係る抽出装置の処理の流れを示すフローチャートである。図8に示すように、まず、抽出装置10は、合音声とアクティビティ情報から所定の形式のデータを生成する(ステップS101)。
【0063】
次に、抽出装置10は、生成したデータ及び抽出用ネットワークを用いて混合音声から目的音声を抽出する(ステップS102)。
【0064】
図9は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図9に示すように、まず、学習装置20は、合音声とアクティビティ情報から所定の形式のデータを生成する(ステップS201)。
【0065】
次に、学習装置20は、生成したデータ及び抽出用ネットワークを用いて混合音声から目的音声を抽出する(ステップS202)。
【0066】
ここで、学習装置20は、ネットワークを最適化する損失関数を計算する(ステップS203)。そして、学習装置20は、損失関数が最適化されるようにネットワークのパラメータを更新する(ステップS204)。
【0067】
学習装置20は、パラメータが収束したと判定した場合(ステップS205、Yes)、処理を終了する。一方、学習装置20は、パラメータが収束していないと判定した場合(ステップS205、No)、ステップS201に戻り処理を繰り返す。
【0068】
[第1の実施形態の効果]
これまで説明してきたように、生成部131aは、目的音源が音を発した時間を表すアクティビティ情報と混合音とから所定の形式のデータを生成する。また、抽出部131bは、生成部131aによって生成されたデータ及び抽出用ネットワークを用いて、混合音から目的音源の音を抽出する。
【0069】
このように、抽出装置10は、アクティビティ情報を利用して目的音の抽出を行う。このため、例えば、抽出装置10による抽出処理では、目的話者の音声を事前に登録しておくことは不要である。また、抽出装置10による抽出処理は、目的話者の音声の特徴の変化から受ける影響を小さくすることができる。その結果、本実施形態によれば、混合音声から目的音声を精度良くかつ容易に抽出することができる。
【0070】
従来、話者分離のための手がかりとなるデータの態様には様々なものがあった。例えば、10秒程度の話者の音声、話者の顔を撮影した映像、音声と映像を合わせたもの等が手がかりとして用いられる。そして、各態様に合わせてモデルを用意する必要がある。
【0071】
これに対し、本実施形態では、手がかりとなるデータの形式にかかわらず、アクティビティ情報に対応したモデルを用意すればよい。
【0072】
生成部131aは、混合音を補助ネットワークに入力して得られる出力とアクティビティ情報との重み付き和を生成する。また、抽出部131bは、混合音と重み付き和とを抽出用ネットワークに入力することによって、混合音から目的音源の音を抽出する。この方法は、図4のADEnet-auxiliaryに相当する。
【0073】
ADEnet-auxiliaryは、特にオーバーラップを除外できれば、スピーカービームにおける混合音声と事前に登録される目的話者の音声との齟齬を取り除いたのと同等の性能を得ることができる。
【0074】
生成部131aは、いずれもベクトルで表されたアクティビティ情報と混合音とを結合した結合ベクトルを生成する。また、抽出部131bは、結合ベクトルを抽出用ネットワークに入力することによって、混合音から目的音源の音を抽出する。この方法は、図5のADEnet-inputに相当する。
【0075】
ADEnet-inputは、補助用ネットワークを必要としないため、ADEnet-auxiliaryと比べて簡易な構成を実現することができる。
【0076】
生成部131aは、混合音を補助ネットワークに入力して得られる出力とアクティビティ情報との重み付き和をさらに生成する。抽出部131bは、結合ベクトルと重み付き和を抽出用ネットワークに入力することによって、混合音から目的音源の音を抽出する。この方法は、図6のADEnet-mixに相当する。
【0077】
ADEnet-mixは、結合ベクトルと重み付き和の両方の特徴を抽出結果に反映させることができる。
【0078】
[実験結果]
本実施形態を用いて行った実験について説明する。実験では、教師データを基に推定したoracle speaker activityにノイズを加える方法で学習用のアクティビティ情報を用意した。なお、oracle speaker activityは、正解音声データ(教師データ)から、音声区間抽出方法(例えば、参考文献6)を使って推定(抽出)した目的音声のアクティビティである。
参考文献6:“https://github.com/wiseman/py-webrtcvad”
【0079】
具体的には、oracle speaker activityからオーバーラップした時間区間を除去し、目的話者がアクティブな各時間区間の始点及び終点を、-1秒から1秒の範囲からサンプリングした値で修正した。
【0080】
まず、oracle speaker activityをそのまま使った場合と、ノイズを加えた場合のSDR(signal to distortion ratio)の比較結果を図10に示す。図10は、実験結果を示す図である。
【0081】
Noisy activity trainingは、学習データにノイズを加えたか否かを示す。また、Activity signal at test timeは、抽出時のオーバーラップの有無、及びノイズを加えたか否か(Oracle又は+Noise)によるSDRである。
【0082】
図10に示すように、本実施形態の一部のモデルは、スピーカービームのSDRを超える場合がある。なお、スピーカービームのSDRは9.4である。また、図10の実験では、LibriSpeech corpus(V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: an asr corpus based on public domain audio books,” in Proc. of ICASSP’15, 2015, pp. 5206-5210.)が使用されている。
【0083】
また、図10からは、学習データにノイズを加えることで(Noisy activity trainingにチェック)、モデルのロバスト性が向上することがいえる。
【0084】
次に、会議のシチュエーションを模したデータ(Z. Chen, T. Yoshioka, L. Lu, T. Zhou, Z. Meng, Y. Luo, J. Wu, and J. Li, “Continuous speech separation: Dataset and analysis,” Proc. of ICASSP’20, pp. 7284-7288, 2020.)を使った実験の結果を図11に示す。図11は、実験結果を示す図である。
【0085】
図11の実験では、参考文献5に記載のTS-VADによるアクティビティ情報が用いられた。また、図11には、cpWER(concatenated minimum-permutation word error rate)、すなわちダイアライゼーションによる誤差を含む評価値が示されている。
【0086】
図11より、オーバーラップの割合が増加するほど、ADEnetを採用した方が、ADEnetを採用しない場合に比べて有利になることがいえる。
【0087】
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0088】
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0089】
[プログラム]
一実施形態として、抽出装置10及び学習装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声信号の抽出処理又は学習処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の抽出処理のためのプログラムを情報処理装置に実行させることにより、情報処理装置を抽出装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
【0090】
また、抽出装置10及び学習装置20は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の音声信号の抽出処理又は学習処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、混合音声信号を入力とし、目的話者の音声信号を抽出するサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによってサービスを提供するクラウドとして実装することとしてもかまわない。
【0091】
図12は、プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0092】
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0093】
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、抽出装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、抽出装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
【0094】
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
【0095】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【符号の説明】
【0096】
10 抽出装置
20 学習装置
11、21 インタフェース部
12、22 記憶部
13、23 制御部
121、221 モデル情報
131、231 信号処理部
131a、231a 生成部
131b、231b 抽出部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13