IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人 東京大学の特許一覧

特許7376895学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
<>
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図1
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図2
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図3
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図4
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図5
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図6
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図7
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図8
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図9
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図10
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図11
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図12
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図13
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図14
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図15
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図16
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図17
  • 特許-学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-31
(45)【発行日】2023-11-09
(54)【発明の名称】学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
(51)【国際特許分類】
   G10L 21/028 20130101AFI20231101BHJP
   G10L 25/30 20130101ALI20231101BHJP
【FI】
G10L21/028 Z
G10L25/30
【請求項の数】 11
(21)【出願番号】P 2020092462
(22)【出願日】2020-05-27
(65)【公開番号】P2021189246
(43)【公開日】2021-12-13
【審査請求日】2022-08-01
【新規性喪失の例外の表示】特許法第30条第2項適用 2020年 日本音響学会春季研究発表会 講演論文集 発行日 2020年3月2日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】柏野 邦夫
(72)【発明者】
【氏名】大石 康智
(72)【発明者】
【氏名】川西 隆仁
(72)【発明者】
【氏名】竹内 博俊
【審査官】堀 洋介
(56)【参考文献】
【文献】特開2012-234150(JP,A)
【文献】国際公開第2019/017403(WO,A1)
【文献】特開2020-034870(JP,A)
【文献】Andrew Rouditchenko, et al.,SELF-SUPERVISED AUDIO-VISUAL CO-SEGMENTATION,2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),2019年05月12日,pp. 2357-2360
【文献】Hang Zhao, et al.,Open Vocabulary Scene Parsing,2017 IEEE International Conference on Computer Vision (ICCV),2017,2017年10月22日,pp. 2021-2029
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00-25/72
(57)【特許請求の範囲】
【請求項1】
意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する第1の特徴量算出部と、
音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する第2の特徴量算出部と、
前記第1の特徴量及び前記第2の特徴量を基に生成される第1のマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出する指標算出部と、
前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
【請求項2】
前記第1の特徴量算出部は、文字列で表現されたラベルから作成されたベクトルを前記第1のモデルに入力して得られる出力を、前記第1の特徴量として算出することを特徴とする請求項1に記載の学習装置。
【請求項3】
前記第1の特徴量算出部は、第1の次元数の変数を少なくとも含む特徴量を前記第1の特徴量として算出し、
前記第2の特徴量算出部は、前記第1の次元数の変数と、時間に対応する変数と、周波数成分に対応する変数とを少なくとも含む特徴量を前記第2の特徴量として算出し、
前記指標算出部は、前記第1の特徴量と前記第2の特徴量の類似度を基に前記指標を算出することを特徴とする請求項1又は2に記載の学習装置。
【請求項4】
前記指標算出部は、前記音響信号に対応付けられたラベルから算出された前記第1の特徴量と前記第2の特徴量との類似度が大きいほど小さくなり、かつ、前記音響信号に対応付けられたラベルと異なるラベルから算出された前記第1の特徴量と前記第2の特徴量との類似度が大きいほど大きくなるような指標を算出し、
前記更新部は、前記指標が最小化されるように前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新することを特徴とする請求項1から3のいずれか1項に記載の学習装置。
【請求項5】
第1の特徴量算出部は、所定の単語を表すラベルから作成されたs次元(sはあらかじめ設定された単語数)のOne-hotベクトルを、前記第1のモデルであるニューラルネットワークに入力して得られる1×1×h(hはあらかじめ設定された任意の数)次元の特徴量を前記第1の特徴量として算出し、
前記第2の特徴量算出部は、前記音響信号から作成されたf(fは周波数ビンの数)×t(tは時間ビンの数)次元のスペクトログラムを、前記第2のモデルであるニューラルネットワークに入力して得られるf×t×h次元の特徴量を前記第2の特徴量として算出することを特徴とする請求項1から4のいずれか1項に記載の学習装置。
【請求項6】
ラベルを特定可能な情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する第1の特徴量算出部と、
音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する第2の特徴量算出部と、
前記第1の特徴量及び前記第2の特徴量を基に生成される第1のマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出する指標算出部と、
前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
【請求項7】
学習装置が実行する学習方法であって、
意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する第1の特徴量算出工程と、
音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する第2の特徴量算出工程と、
前記第1の特徴量及び前記第2の特徴量を基に生成される第1のマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出する指標算出工程と、
前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。
【請求項8】
コンピュータを、請求項1から6のいずれか1項に記載の学習装置として機能させるための学習プログラム。
【請求項9】
意味を解釈可能な態様でラベルを表現した第1の情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出し、第1の音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出し、前記第1の特徴量及び前記第2の特徴量を基に生成される第1のマスクであって、前記第1の音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出し、前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する方法によって学習済みの前記第1のモデル及び前記第2のモデルを用いる生成装置であって、
意味を解釈可能な態様でラベルを表現した第2の情報を前記第1の空間にマッピングした第の特徴量を、前記第1のモデルを用いて算出する第1の特徴量算出部と、
第2の音響信号を前記第1の空間にマッピングした第の特徴量を、前記第2のモデルを用いて算出する第2の特徴量算出部と、
前記第の特徴量及び前記第の特徴量を基に生成される第のマスクであって、前記第2の音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第のマスクの、周波数成分を集約した第のマスクを生成するマスク生成部と、
を有することを特徴とする生成装置。
【請求項10】
意味を解釈可能な態様でラベルを表現した第1の情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出し、第1の音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出し、前記第1の特徴量及び前記第2の特徴量を基に生成される第1のマスクであって、前記第1の音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出し、前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する方法によって学習済みの前記第1のモデル及び前記第2のモデルを用いる生成装置が実行する生成方法であって、
意味を解釈可能な態様でラベルを表現した第2の情報を前記第1の空間にマッピングした第の特徴量を、前記第1のモデルを用いて算出する第1の特徴量算出工程と、
第2の音響信号を前記第1の空間にマッピングした第の特徴量を、前記第2のモデルを用いて算出する第2の特徴量算出工程と、
前記第の特徴量及び前記第の特徴量を基に生成される第のマスクであって、前記第2の音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第のマスクの、周波数成分を集約した第のマスクを生成するマスク生成工程と、
を含むことを特徴とする生成方法。
【請求項11】
コンピュータを、請求項9に記載の生成装置として機能させるための生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラムに関する。
【背景技術】
【0002】
従来、目的音声の物理的な性質に基づき、音響信号から目的音声の信号を分離する音源分離という技術が知られている。音源分離では、例えば、目的音声の到来方向、音響的性質、音色、声質、音源の統計的な独立性、要素信号の共通性といった物理的な性質が利用される。
【0003】
例えば、音源分離として、目的話者が実際に発した音声を使って音源分離モデルを当該目的話者に適応させることにより、混合音声信号から目的話者の音声信号を分離する技術が知られている(例えば、非特許文献1を参照)。
【先行技術文献】
【非特許文献】
【0004】
【文献】Marc Delcroix, Katerina Zmolikova,木下 慶介,荒木 章子,小川 厚徳,中谷 智広, "SpeakerBeam: 聞きたい人の声に耳を傾けるコンピュータ──深層学習に基づく音声の選択的聴取" NTT技術ジャーナル 2018.9
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の技術には、目的音声の物理的性質が未知であったり、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれる場合、目的音声が出現している時間区間を精度良く推定できない場合があるという問題がある。
【0006】
例えば、非特許文献1に記載の技術では、実際に適応用の音声が得られた第1の音源からの音声を分離することはできるが、当該第1の音源と音声の物理的性質が類似する第2の音源については、当該第2の音源から適応用の音声を得ていない場合、音声を分離することができないため、第2の音源のからの音声が出現している時間区間を推定することは困難である。
【課題を解決するための手段】
【0007】
上述した課題を解決し、目的を達成するために、学習装置は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて特徴量算出する第1の特徴量算出部と、音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて特徴量算出する第2の特徴量算出部と、前記第1の特徴量及び前記第2の特徴量を基に生成される第1のマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出する指標算出部と、前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新部と、を有することを特徴とする。
【発明の効果】
【0008】
本発明によれば、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても目的音声が出現している時間区間を精度良く推定することができる。
【図面の簡単な説明】
【0009】
図1図1は、第1の実施形態に係る学習装置の構成例を示す図である。
図2図2は、第1の実施形態に係る学習処理の流れを示す模式図である。
図3図3は、Triplet Lossを説明する図である。
図4図4は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。
図5図5は、第2の実施形態に係る学習装置の構成例を示す図である。
図6図6は、第2の実施形態に係る学習処理の流れを示す模式図である。
図7図7は、第2の実施形態に係る学習装置の処理の流れを示すフローチャートである。
図8図8は、第3の実施形態に係る生成装置の構成例を示す図である。
図9図9は、第3の実施形態に係る生成処理の流れを示す模式図である。
図10図10は、第3の実施形態に係る生成装置の処理の流れを示すフローチャートである。
図11図11は、第4の実施形態に係る生成処理の流れを示す模式図である。
図12図12は、第4の実施形態に係る生成装置の処理の流れを示すフローチャートである。
図13図13は、実験におけるデータの結合について説明する図である。
図14図14は、実験における各パラメータの設定値を示す図である。
図15図15は、実験で得られたスペクトログラムを示す図である。
図16図16は、実験で得られたマスクを示す図である。
図17図17は、実験で得られたマスクを示す図である。
図18図18は、生成プログラムを実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0010】
以下に、本願に係る学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
【0011】
[第1の実施形態]
第1の実施形態に係る学習装置は、音源分離のための音源分離モデルの学習を行う。本実施形態における音源分離モデルは、ラベルを特定可能な情報及び音響信号の入力を受け付け、音響信号から目的音声の成分を抽出するためのマスクを推定する。なお、目的音声を発する音源を目的音源と呼ぶ。ラベルは、目的音源を識別するための情報である。また、ラベルを特定可能な情報を、ラベル情報と呼ぶ。
【0012】
本実施形態の音源分離モデルは、ラベル情報を基にラベルを特定することができる。ラベル情報は、意味を解釈可能な態様でラベルを表現した情報であればよい。例えば、意味を解釈可能な態様には、言語が含まれる。このため、ラベル情報は文字列で表現されたものであってもよい。
【0013】
例えば、「ヴァイオリン」という文字列については、楽器の一種であるヴァイオリンを意味するものと解釈可能である。このため、本実施形態の音源分離モデルは、「ヴァイオリン」という文字列がラベル情報として入力されれば、ラベルがヴァイオリンであることを特定する。つまり、音源分離モデルは、「ヴァイオリン」という文字列がラベル情報として入力されれば、ヴァイオリンの音を目的音声として分離するためのマスクを推定する。
【0014】
これに対し、例えば非特許文献1に記載の技術では、ヴァイオリンの音を目的音声として分離するためには、実際にヴァイオリンを演奏して得られた音声の信号をモデルに入力する必要があった。
【0015】
ラベル情報は、文字列で表現されたものに限られない。例えば、ラベル情報は、ラベルによって識別される物体が写った画像、ラベルに対応する単語列を含む発話の音声から得られる信号等であってもよい。なお、ラベル情報が音声信号である場合、本実施形態の音源分離モデルは、当該音声の信号の物理的性質ではなく、当該音声に含まれる言語的意味内容に基づきラベルを特定する。以下の説明では、音声を観測して得られる信号を音響信号と呼ぶ場合がある。
【0016】
[第1の実施形態の構成]
まず、図1を用いて、第1の実施形態に係る生成装置の構成について説明する。図1は、第1の実施形態に係る学習装置の構成例を示す図である。図1に示すように、学習装置10は、ラベル特徴量算出部101、スペクトログラム特徴量算出部102、マスク生成部103、指標算出部104、更新部105を有する。また、学習装置10は、ラベルエンコーダ情報111及びオーディオエンコーダ情報112を記憶する。
【0017】
ラベル特徴量算出部101は、ラベルを特定可能なラベル情報を入力とし、ラベル情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出し、出力する。ラベルエンコーダ情報111は、第1のモデルを構築するための情報である。第1のモデルがニューラルネットワークである場合、ラベルエンコーダ情報111は、各ユニットの重みやバイアス等のパラメータである。
【0018】
スペクトログラム特徴量算出部102は、音響信号を入力とし、入力された音響信号(以下、入力音響信号と記載)を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出し、出力する。オーディオエンコーダ情報112は、第2のモデルを構築するための情報である。第2のモデルがニューラルネットワークである場合、オーディオエンコーダ情報112は、各ユニットの重みやバイアス等のパラメータである。
【0019】
マスク生成部103は、第1の特徴量及び第2の特徴量を入力とし、第1の特徴量及び第2の特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成し、出力する。指標算出部104は、第1の特徴量及び第2の特徴量を基に生成されるマスクであって、音響信号からラベルに対応する成分を抽出するためのマスクを入力とし、マスクを評価するための指標を算出し、出力する。更新部105は、指標を入力とし、指標が最適化されるように、第1のモデルのパラメータ及び第2のモデルのパラメータを更新する。つまり、更新部105は、ラベルエンコーダ情報111及びオーディオエンコーダ情報112を更新し、出力する。
【0020】
なお、指標算出部104は、マスク生成部103によって生成されたマスクを使用せずに指標を算出してもよい。この場合、本実施形態では、マスク生成部103はマスクを生成しなくてもよい。
【0021】
図2を用いて、学習装置10による学習処理を詳細に説明する。図2は、第1の実施形態に係る学習処理の流れを示す模式図である。なお、図2に示す各手法は一例であり、適宜他の手法に置き換えられてもよい。
【0022】
図2に示すように、ラベル特徴量算出部101は、ラベル情報(Label input)を、ラベルエンコーダ(Label encoder)に入力する。ここでは、ラベル情報は、「Writing」、「Cough」等の文字列であるものとする。
【0023】
ラベル特徴量算出部101は、ラベル情報に対し、One-hot encodingを行い、s次元のバイナリベクトル(Binary vector)に変換する。さらに、ラベル特徴量算出部101は、3層の全結合型ニューラルネットワーク(Fully connected network)にs次元のバイナリベクトルを入力し、1×1×h次元のベクトルであるラベル特徴量(Label feature)を得る。
【0024】
このように、ラベルエンコーダによれば、ラベル情報はh次元の潜在空間にマッピングされる。h次元の潜在空間は、第1の空間の一例である。また、全結合型ニューラルネットワークを含むラベルエンコーダは、第1のモデルの一例である。また、ラベル特徴量は、第1の特徴量の一例である。また、hは、第1の次元数の一例である。
【0025】
なお、図2に示すような、One-hot encoding及び3層の全結合型ニューラルネットワークを含むラベルエンコーダは、ラベル情報からラベル特徴量を得る手段の一例に過ぎない。例えば、ラベルエンコーダは、word2vec等のベクトル化手段、及びLSTM(例えば、参考文献1を参照)等を用いたものであってもよい。
参考文献1:Shota Ikawa, Kunio Kashino, “Acoustic event search with an onomatopoeic query: measuring distance between onomatopoeic words and sounds,” In Proc. Detection and Classification of Acoustic Scenes and Events (DCASE), 2018.
【0026】
また、ラベルエンコーダの性能によっては、単語だけでなく、文章や擬音語等がラベル情報として用いられてもよい。例えば、word2vecによれば、単語を組み合わせた文章をベクトルに変換することができる。
【0027】
このように、ラベル特徴量算出部101は、意味を解釈可能な態様でラベルを表現した情報をh次元の潜在空間にマッピングしたラベル特徴量を、ラベルエンコーダを用いて算出する。また、ラベル特徴量算出部101は、文字列で表現されたラベルから作成されたベクトルをラベルエンコーダに入力して得られる出力を、ラベル特徴量として算出する。また、ラベル特徴量算出部101は、h次元の変数を少なくとも含む特徴量をラベル特徴量として算出する。
【0028】
特に、図2の例では、ラベル特徴量算出部101は、所定の単語を表すラベルから作成されたs次元(sはあらかじめ設定された単語数)のOne-hotベクトルを、ラベルエンコーダに含まれるニューラルネットワークに入力して得られる1×1×h(hはあらかじめ設定された任意の数)次元の特徴量をラベル特徴量として算出する。
【0029】
一方、スペクトログラム特徴量算出部102は、入力音響信号(Audio input)をオーディオエンコーダに入力する。まず、スペクトログラム特徴量算出部102は、入力音響信号の振幅スペクトログラムを算出する。例えば、スペクトログラム特徴量算出部102は、64msのハミング窓からなるフレームを8msずつずらしながらSTFT(短時間フーリエ変換)を行うことでf×tの振幅スペクトログラムを算出する。ただし、f及びtは、それぞれ周波数ビンの数及び時間ビンの数である。
【0030】
さらに、スペクトログラム特徴量算出部102は、振幅スペクトログラムをAudio U-Net(例えば、参考文献2を参照)に入力し、f×t×h次元のベクトルであるスペクトログラム特徴量(Spectrogram feature)を得る。
参考文献2:Rouditchenko, Andrew, et al. “Self-supervised Audio-visual Co-segmentation.” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019.
【0031】
ここで、振幅スペクトログラムは、各時間の振幅スペクトルを時間的につなげたものである。また、パワースペクトログラムは、振幅スペクトログラムを2乗したものである。例えば、スペクトログラム特徴量算出部102は、振幅スペクトログラムの代わりに、パワースペクトログラムの対数値をAudio U-Netに入力し、スペクトログラム特徴量を得るようにしてもよい。また、以降の説明では、振幅スペクトログラムを単にスペクトログラムと呼ぶ。
【0032】
スペクトログラム特徴量は、スペクトログラムのサイズf×tを保持したh次元の特徴ベクトルの集合ということができる。また、スペクトログラム特徴量算出部102は、入力音響信号から得られたスペクトログラムをミニバッチ処理するために、スペクトログラムの時間フレーム数がtより長い場合はt以降を切り捨て、tよりも短い場合は0埋めをしてもよい。
【0033】
このように、オーディオエンコーダによれば、入力音響信号はh次元の潜在空間にマッピングされる。また、Audio U-Netを含むオーディオエンコーダは、第2のモデルの一例である。また、スペクトログラム特徴量は、第2の特徴量の一例である。
【0034】
なお、図2に示すような、STFT及びAudio U-Netを含むオーディオエンコーダは、入力音響信号からスペクトログラム特徴量を得る手段の一例に過ぎない。例えば、オーディオエンコーダは、STFTの代わりに、MFCC(メル周波数ケプストラム係数;Mel Frequency Cepstrum Coefficients)、帯域フィルタバンク、CNN(畳み込みニューラルネットワーク)等を用いるものであってもよい。また、オーディオエンコーダは、Audio U-Netの代わりに、CNNを組み合わせたモデルを用いるものであってもよい。
【0035】
このように、スペクトログラム特徴量算出部102は、h次元の変数と、時間に対応する変数と、周波数成分に対応する変数とを少なくとも含む特徴量をスペクトログラム特徴量として算出する。
【0036】
特に、図2の例では、スペクトログラム特徴量算出部102は、入力音響信号から作成されたf(fは周波数ビンの数)×t(tは時間ビンの数)次元のスペクトログラムを、オーディオエンコーダに含まれるニューラルネットワークに入力して得られるf×t×h次元の特徴量をスペクトログラム特徴量として算出する。
【0037】
マスク生成部103は、ラベル特徴量及びスペクトログラム特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成する。図2に示すように、まず、マスク生成部103は、ラベル特徴量とスペクトログラム特徴量の内積(Dot product)を算出する。
【0038】
そして、マスク生成部103は、内積を活性化関数に通すことで、マスクを得る。活性化関数をReLu6とし、ラベル特徴量をx、時間周波数点(f,t)のスペクトログラム特徴量をyf,tとすると、マスク生成部103は、時間周波数点(f,t)のマスクmf,tをReLu6(xf,t)のように算出することができる。なお、第1の実施形態のマスク生成部103によって得られる、時間周波数点ごとの要素を持つマスクを、後に説明するタイムマスクと区別して、スペクトログラムマスクと呼ぶ場合がある。
【0039】
指標算出部104は、ラベル特徴量とスペクトログラム特徴量の類似度を基に指標を算出する。指標算出部104は、内積そのものを指標としてもよいし、マスクを指標としてもよいし、マスクから算出される類似度(Similarity score)を指標としてもよい。また、指標算出部104は、内積以外にもL1距離、L2距離、Lp距離及び各種の統計的ダイバージェンスを用いて指標を算出することができる。また、図2の例では、マスク生成部103が内積を算出しているが、指標算出部104が内積を算出してもよい。更新部105は、指標が最小化されるようにラベルエンコーダのパラメータ及びオーディオエンコーダのパラメータを更新する。
【0040】
学習装置10は、Triplet Lossによって各モデルの評価及び更新を行うことができる。図3は、Triplet Lossを説明する図である。図3において、関数f、関数gは、それぞれオーディオエンコーダ及びラベルエンコーダである。また、Aは入力音響信号である。また、Lは、positiveなラベル、すなわち音響信号Aに対応付けるためのラベルである。また、Lは、negativeなラベル、すなわちpositiveなラベル以外のラベルである。また、Simは類似度を求める関数である。ペアデータの組み合わせの選び方は膨大であるが、一例として、参考文献3に記載の方法のように、ミニバッチに含まれるデータの中から、効率的な学習に有用なデータ、すなわちハードポジティブ(positiveなラベルをもつデータの中でアンカーとのロスが大きいもの)、ハードネガティブ(negativeなラベルをもつデータの中でアンカーとのロスが小さいもの)、を選べばよい。
参考文献3:Schroff, Florian, Dmitry Kalenichenko, and James Philbin. "Facenet: A unified embedding for face recognition and clustering." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
【0041】
指標算出部104は、音響信号に対応付けられたラベルから算出されたラベル特徴量とスペクトログラム特徴量との類似度が大きいほど小さくなり、かつ、音響信号に対応付けられたラベルと異なるラベルから算出されたラベル特徴量とスペクトログラム特徴量との類似度が大きいほど大きくなるような指標を算出する。
【0042】
例えば、指標算出部104は、マスクのGMP(Global mean pooling)を類似度として算出することができる。GMPによれば、周波数成分と時間成分が集約されるため、指標算出部104は、f×t×1次元のマスクから、スカラである類似度を得ることができる。この場合、図3の関数Simは、GMPを得るための関数である。また、指標算出部104は、指標として、損失関数S-Sを算出することができる。
【0043】
また、指標算出部104は、参考文献4に記載された手法を用いて、(1)式のように損失関数を算出してもよい。
参考文献4:Yair Movshovitz-Attias, Alexander Toshev, Thomas K. Leung, Sergey Ioffe, and Saurabh Singh. No fuss distance metric learning using proxies. In ICCV, pages 360-368, 2017.
【0044】
【数1】
【0045】
(1)式において、Bはミニバッチサイズである。各ミニバッチには、入力音響信号及びラベル情報の組み合わせが含まれている。xは、ラベルエンコーダから出力されるラベル特徴量である。yは、オーディオエンコーダから出力されるスペクトログラム特徴量である。i,j,kは、ミニバッチ内の入力音響信号及びラベル情報を識別するための識別子である。また、識別子が一致するxとyはpositiveなペアデータである。また、識別子が一致しないxとyはnegativeなペアデータである。例えば、negativeなペアは、ミニバッチの中からランダムに選ばれたものであってもよい。
【0046】
なお、マスクの各時間周波数点の値を、入力音響信号のスペクトログラムの各時間周波数点に乗じることで正解ラベルに対応する成分が抽出される。このため、入力音響信号に正解ラベルに対応する成分が多く含まれているほど、マスクの各要素の値は大きくなる傾向にあり、さらにGMPの値も大きくなることが考えられる。本実施形態の指標算出部104は、このような性質を利用して類似度を算出する。
【0047】
なお、マスクは、目的外音の遮断又は減衰に使われる場合もある。そのような場合、positiveなペアとnegativeなペアの類似度の大小関係は逆転する場合がある。その場合、指標算出部104は、例えば損失関数の正負を逆転させる等の対応を行えばよい。
【0048】
更新部105は、誤差逆伝播法等の手法を用いて、損失関数が最小化されるように、ラベルエンコーダとオーディオエンコーダの両方のパラメータを更新する。損失関数を最小化することは、マスクを最適化することを意味する。
【0049】
[第1の実施形態の処理の流れ]
図4は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図4に示すように、まず、ラベル特徴量算出部101は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する(ステップS101)。次に、スペクトログラム特徴量算出部102は、オーディオエンコーダにより、入力音響信号からスペクトログラム特徴量を算出する(ステップS102)。ここで、ステップS101とステップS102が実行される順番は逆であってもよい。また、ステップS101とステップS102は並行して実行されてもよい。
【0050】
ここで、マスク生成部103は、ラベル特徴量とスペクトログラム特徴量の内積を算出する(ステップS103)。そして、マスク生成部103は、内積からスペクトログラムマスクを生成する(ステップS104)。さらに、指標算出部104は、スペクトログラムマスクを集約し類似度を算出する(ステップS105)。
【0051】
指標算出部104は、算出した類似度とnegativeペアデータの類似度を基に損失関数を算出する(ステップS106)。例えば、指標算出部104は、ステップS105とステップS106の間に、negativeペアデータの類似度を算出する処理を実行してもよい。そして、更新部105は、損失関数が最小化されるように各エンコーダのパラメータを更新する(ステップS107)。
【0052】
ここで、学習装置10は、終了条件が充足されている場合(ステップS108、Yes)、処理を終了する。一方、学習装置10は、終了条件が充足されていない場合(ステップS108、No)、ステップS101に戻り更新済みの各モデルを使って処理を繰り返す。なお、例えば、終了条件は、用意されたミニバッチ内の全てのデータについて処理が実行済みであること、規定回数だけ処理が繰り返されたこと、パラメータの更新幅が収束したこと等である。
【0053】
[第1の実施形態の効果]
これまで説明してきたように、ラベル特徴量算出部101は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する。スペクトログラム特徴量算出部102は、音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する。指標算出部104は、第1の特徴量及び第2の特徴量を基に生成されるマスクであって、音響信号からラベルに対応する成分を抽出するためのマスクを評価するための指標を算出する。更新部105は、指標が最適化されるように、第1のモデルのパラメータ及び第2のモデルのパラメータを更新する。このように、学習装置10は、意味を解釈可能な態様で目的音声の音源を識別可能なラベルが表現されていれば、各モデルの学習を行うことができる。このため、第1の実施形態によれば、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。
【0054】
また、ラベル特徴量算出部101は、文字列で表現されたラベルから作成されたベクトルを第1のモデルに入力して得られる出力を、第1の特徴量として算出する。このように、学習装置10は、目的音声の物理的性質が未知の場合であっても、文字列のような人間が認識可能な態様で表現されたラベルを基に、音源分離モデルの学習を行うことができる。
【0055】
また、ラベル特徴量算出部101は、第1の次元数の変数を少なくとも含む特徴量を第1の特徴量として算出する。スペクトログラム特徴量算出部102は、第1の次元数の変数と、時間に対応する変数と、周波数成分に対応する変数とを少なくとも含む特徴量を第2の特徴量として算出する。指標算出部104は、第1の特徴量と第2の特徴量の内積を基に指標を算出する。このように、学習装置10は、ラベルの特徴量と入力音響信号の特徴量を同一次元数の潜在空間にマッピングすることにより、容易に指標を算出することができる。
【0056】
また、指標算出部104は、音響信号に対応付けられたラベルから算出された第1の特徴量と第2の特徴量との類似度が大きいほど小さくなり、かつ、音響信号に対応付けられたラベルと異なるラベルから算出された第1の特徴量と第2の特徴量との類似度が大きいほど大きくなるような指標を算出する。更新部105は、指標が最小化されるように第1のモデルのパラメータ及び第2のモデルのパラメータを更新する。このように、学習装置10は、距離指標を使ったTriplet Lossによる学習を行うことができる。
【0057】
また、ラベル特徴量算出部101は、所定の単語を表すラベルから作成されたs次元(sはあらかじめ設定された単語数)のOne-hotベクトルを、第1のモデルであるニューラルネットワークに入力して得られる1×1×h(hはあらかじめ設定された任意の数)次元の特徴量を第1の特徴量として算出する。スペクトログラム特徴量算出部102は、音響信号から作成されたf(fは周波数ビンの数)×t(tは時間ビンの数)次元のスペクトログラムを、第2のモデルであるニューラルネットワークに入力して得られるf×t×h次元の特徴量を第2の特徴量として算出する。このように、学習装置10は、スペクトログラムの時間周波数方向の特徴を維持しつつ潜在空間にマッピングすることができる。
【0058】
[ラベルの付与方法について]
第1の実施形態では、学習用のデータとして、入力音響信号とラベル情報とを組み合わせたデータが入力される。第1の実施形態では、入力音響信号にラベルを付与する方法は任意の方法であってよい。例えば、専門家が入力音響信号を聴き、組み合わせるべきラベルを判断し付与することが考えられる。このように付与されたラベルを使った学習を、ここでは網羅的な教師あり学習と呼ぶ。
【0059】
しかしながら、網羅的な教師あり学習には、作業コストが大きいという問題がある。そこで、ラベルの付与を自動化する方法として、動画の音声と、当該動画に写っている物体を示すラベルとを対応付けることが考えられる。動画に写っている物体は、画像認識によって得ることができる。また、クラウドソーシング等を利用して大規模にラベル付与を行う方法が考えられる。
【0060】
また、学習用の入力音響信号としてdry sourceが手に入るとは限らない。このため、入力音響信号には多数の雑音や残響が含まれることになり、ラベルと一対一に対応しない場合がある。さらに、上記のクラウドソーシング等では、非専門家がラベルの付与を行うため、基準がばらつくことが考えられる。
【0061】
しかしながら、第1の実施形態では、ラベルを入力音響信号と必ずしも一対一で対応させる必要はない。例えば、入力音響信号に少なくとも「Writing」に対応する目的音声が含まれていれば、当該入力音響信号に「Writing」というラベルが付されていてもよい。そのような入力音響信号とラベルから算出された類似度は、少なくとも他のラベルから算出された類似度よりも、大きくなると考えられるためである。また、Triplet Lossは、このような網羅的な教師あり学習が行えない状況でも利用可能である。
【0062】
[第2の実施形態]
第1の実施形態では、学習装置10は、ラベル特徴量及びスペクトログラム特徴量の内積を基に損失関数を算出していた。一方で、内積を基に生成されたマスクによれば、ラベルに対応する目的音声の成分を実際に分離し、合成した音響信号を出力することができる。第2の実施形態では、学習装置10は、合成した音響信号が最適化されるように学習を行う。
【0063】
[第2の実施形態の構成]
図5を用いて、第2の実施形態に係る学習装置の構成について説明する。図5は、第2の実施形態に係る学習装置の構成例を示す図である。なお、図5において、第1の実施形態と同様の部分については、図1等と同様の符号を付し説明を省略する。図5に示すように、学習装置10aは、抽出部106、合成部107及び更新部108を有する。
【0064】
前述の通り、スペクトログラム特徴量算出部102は、入力音響信号からスペクトログラム特徴量を算出する過程で、スペクトログラムを算出する。第2の実施形態では、スペクトログラム特徴量算出部102は、スペクトログラムを抽出部106に対し出力する。抽出部106は、スペクトログラム及びマスク生成部103によって生成されるマスクを入力とする。
【0065】
抽出部106は、スペクトログラムにマスクを適用し、所定の成分を抽出し、出力する。例えば、抽出部106は、スペクトログラムの各時間周波数成分にマスクの値を重みとして乗じてもよいし、マスクの値に基づいて抽出する成分を選択してもよい。
【0066】
合成部107は、抽出部106によって抽出された成分を入力とし、抽出部106によって抽出された成分を基に、音響信号を合成し、出力する。例えば、合成部107は、時間周波数成分から正弦波パラメータを抽出し、正弦波加算合成を行うMcAulay-Quatieriの方法(例えば、参考文献5を参照)によって音響信号を合成してもよい。また、合成部107は、時間周波数成分に対して位相成分を反復処理により推定し復元するGriffin-Limの方法(例えば、参考文献6)によって音響信号を合成してもよい。
参考文献5:R. J. McAulay, T. F. Quatieri. Speech Analysis/Synthesis Based on a Sinusoidal Representation, IEEE Trans. ASSP, vol.34, no.4, pp.744-754, 1986.
参考文献6:D. W. Griffin and J. S. Lim. Signal estimation from modified short-time Fourier transform," IEEE Trans. ASSP, vol.32, no.2, pp. 236-243, 1984.
【0067】
更新部108は、入力音響信号、及び、合成部107によって合成された音響信号を入力とし、音響信号に関する損失関数が最小化されるように、各モデルを更新し、更新したパラメータを出力する。例えば、更新部108は、第1の実施形態と同様にTriplet Lossを採用し、positiveなペアデータから合成された音響信号、negativeなペアデータから合成された音響信号とを基に算出された損失関数を最適化してもよい。
【0068】
図6は、第2の実施形態に係る学習処理の流れを示す模式図である。図6に示すように、合成部107は、スペクトログラムとマスクとから出力音響信号(Audio output)を合成する。そして、更新部108は、Triplet Lossによりモデルを更新(Updating)する。
【0069】
[第2の実施形態の処理の流れ]
図7は、第2の実施形態に係る学習装置の処理の流れを示すフローチャートである。図7に示すように、まず、ラベル特徴量算出部101は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する(ステップS121)。次に、スペクトログラム特徴量算出部102は、オーディオエンコーダにより、入力音響信号からスペクトログラム特徴量を算出する(ステップS122)。ここで、ステップS121とステップS122が実行される順番は逆であってもよい。また、ステップS121とステップS122は並行して実行されてもよい。
【0070】
ここで、マスク生成部103は、ラベル特徴量とスペクトログラム特徴量の内積を算出する(ステップS123)。そして、マスク生成部103は、内積からスペクトログラムマスクを生成する(ステップS124)。そして、抽出部106は、入力音響信号にスペクトログラムマスクを適用し、所定の成分を抽出する(ステップS125)。また、合成部107は、抽出した成分を基に音響信号を合成する(ステップS126)。
【0071】
指標算出部104は、合成した音響信号を基に損失関数を算出する(ステップS127)。そして、指標算出部104は、損失関数が最小化されるように各エンコーダのパラメータを更新する(ステップS128)。
【0072】
ここで、学習装置10aは、終了条件が充足されている場合(ステップS129、Yes)、処理を終了する。一方、学習装置10aは、終了条件が充足されていない場合(ステップS129、No)、ステップS121に戻り更新済みの各モデルを使って処理を繰り返す。なお、例えば、終了条件は、用意されたミニバッチ内の全てのデータについて処理が実行済みであること、規定回数だけ処理が繰り返されたこと、パラメータの更新幅が収束したこと等である。
【0073】
[第2の実施形態の効果]
第2の実施形態の学習装置10aは、第1の実施形態の学習装置10と同様に、意味を解釈可能な態様で目的音声の音源を識別可能なラベルが表現されていれば、各モデルの学習を行うことができる。このため、第2の実施形態でも同様に、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。
【0074】
[第3の実施形態]
第3の実施形態に係る生成装置は、学習済みの音源分離モデルを使って、マスクの生成やマスクを使った目的音声の分離を行う。音源分離モデルには、ラベルエンコーダ及びオーディオエンコーダが含まれる。
【0075】
[第3の実施形態の構成]
まず、図8を用いて、第3の実施形態に係る生成装置の構成について説明する。図8は、第3の実施形態に係る学習装置の構成例を示す図である。図8に示すように、生成装置20は、ラベル特徴量算出部201、スペクトログラム特徴量算出部202、マスク生成部203、指標算出部204、抽出部206、合成部207を有する。また、生成装置20は、ラベルエンコーダ情報211及びオーディオエンコーダ情報212を記憶する。
【0076】
ラベル特徴量算出部201、スペクトログラム特徴量算出部202、マスク生成部203、指標算出部204、抽出部206、合成部207は、それぞれラベル特徴量算出部101、スペクトログラム特徴量算出部102、マスク生成部103、指標算出部104、抽出部106、合成部107と同様の機能を有する。また、ラベルエンコーダ情報211は、学習済みのラベルエンコーダの情報である。また、オーディオエンコーダ情報212は、学習済みのオーディオエンコーダの情報である。
【0077】
ラベル特徴量算出部201は、ラベルを特定可能なラベル情報を入力とし、当該ラベル情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出し、出力する。スペクトログラム特徴量算出部202は、入力音響信号を入力とし、入力音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出し、出力する。
【0078】
マスク生成部203は、第1の特徴量及び第2の特徴量を入力とし、第1の特徴量及び第2の特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成し、出力する。指標算出部204は、第1の特徴量及び第2の特徴量を基に生成されるマスクを入力として、マスクの類似度を算出する。
【0079】
抽出部206は、入力音響信号から得られるスペクトログラム及びマスクを入力とし、スペクトログラムに、マスクを適用し、所定の成分を抽出し、出力する。合成部207は、抽出部206によって抽出された成分を入力とし、成分を基に、音響信号を合成し、出力する。
【0080】
例えば、合成部207は、時間周波数成分から正弦波パラメータを抽出し、正弦波加算合成を行うMcAulay-Quatieriの方法(例えば、参考文献5を参照)によって音響信号を合成してもよい。また、合成部207は、時間周波数成分に対して位相成分を反復処理により推定し復元するGriffin-Limの方法(例えば、参考文献6)によって音響信号を合成してもよい。
【0081】
生成装置20は、合成部207によって合成された出力音響信号を出力する。また、図8に示すように、生成装置20は、出力音響信号だけでなく、指標算出部204によって算出された類似度を出力してもよいし、マスク生成部203によって生成されたマスクを出力してもよい。
【0082】
図9は、第3の実施形態に係る生成処理の流れを示す模式図である。図9に示すように、第3の実施形態の生成装置20は、第1の実施形態及び第2の実施形態の学習装置と異なり、学習済みのモデルをあらかじめ記憶装置等に記憶し、当該モデルを用いてマスクの生成を行うものである。そのため、生成装置20は、更新部を有しておらず、モデルの更新に関する処理は行わない。ただし、生成装置20に学習装置と同等の学習機能を追加し、モデルの更新に関する処理を行うように構成することは妨げられない。
【0083】
[第3の実施形態の処理の流れ]
図10は、第3の実施形態に係る生成装置の処理の流れを示すフローチャートである。図10に示すように、まず、ラベル特徴量算出部201は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する(ステップS201)。次に、スペクトログラム特徴量算出部202は、オーディオエンコーダにより、入力音響信号からスペクトログラム特徴量を算出する(ステップS202)。ここで、ステップS201とステップS202が実行される順番は逆であってもよい。また、ステップS201とステップS202は並行して実行されてもよい。
【0084】
ここで、マスク生成部203は、ラベル特徴量とスペクトログラム特徴量の内積を算出する(ステップS203)。そして、マスク生成部203は、内積からスペクトログラムマスクを生成する(ステップS204)。そして、抽出部206は、入力音響信号にスペクトログラムマスクを適用し、所定の成分を抽出する(ステップS205)。また、合成部207は、抽出した成分を基に音響信号を合成する(ステップS206)。
【0085】
生成装置20は、生成した音響信号を出力音響信号として出力する(ステップS207)。なお、生成装置20は、スペクトログラムマスクそのものを出力してもよいし、スペクトログラムマスクから算出された類似度を出力してもよい。
【0086】
[第3の実施形態の効果]
これまで説明してきたように、ラベル特徴量算出部201は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する。スペクトログラム特徴量算出部202は、音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する。マスク生成部203は、第1の特徴量及び第2の特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成する。このように、生成装置20は、意味を解釈可能な態様で目的音声の音源を識別可能なラベルが表現されていれば、当該ラベルに応じたマスクを生成することができる。このため、第3の実施形態によれば、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。
【0087】
[第4の実施形態]
これまでの実施形態では、マスクは、時間周波数点ごとの成分を抽出するためのものであった。一方で、マスクによって時間方向の音源分離を行いたい場合がある。特に、一定期間において、異なるラベルの音声が時間的に重複なく存在する場合、マスクによって各ラベルに対応する時間帯を特定できれば、各ラベルに対応する目的音声を分離することができると考えられる。
【0088】
そこで、第4の実施形態では、図11に示すように、時間周波数点ごとの成分が周波数方向に集約された時間方向のマスク、すなわちタイムマスクを生成する。図11は、第4の実施形態に係る生成処理の流れを示す模式図である。
【0089】
図11に示すように、スペクトログラム特徴量算出部202は、生成したスペクトログラム特徴量を周波数方向に集約する。このため、スペクトログラム特徴量の周波数方向のサイズは1となる。そして、マスク生成部203は、ラベル特徴量と集約済みのスペクトログラム特徴量の内積を算出する。
【0090】
なお、マスク生成部203は、時間周波数点ごとの成分を含むスペクトログラムマスクを、さらに周波数方向に集約することによりタイムマスクを生成してもよい。その場合、スペクトログラム特徴量算出部202は、スペクトログラム特徴量の集約を行わない。
【0091】
また、図11に示すように、指標算出部204は、タイムマスクをさらに時間方向に集約することで、類似度を算出することができる。なお、スペクトログラムマスクは、第1のマスクの一例である。また、タイムマスクは、第2のマスクの一例である。
【0092】
このように、タイムマスクは、スペクトログラムマスクの周波数成分を集約したマスクと言うことができる。例えば、タイムマスクの生成方法には、スペクトログラムマスクを実際に生成することなく、スペクトログラム特徴量をあらかじめ集約しておく第1の方法と、スペクトロマスクを実際に生成し集約を行う第2の方法がある。第1の方法には、計算量が削減されるという効果がある。一方、第2の方法には、スペクトログラムマスクとタイムマスクの両方を得ることができるという効果がある。
【0093】
[第4の実施形態の処理の流れ]
図12は、第4の実施形態に係る生成装置の処理の流れを示すフローチャートである。図12に示すように、まず、ラベル特徴量算出部201は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する(ステップS221)。次に、スペクトログラム特徴量算出部202は、オーディオエンコーダにより、入力音響信号から周波数成分を集約したスペクトログラム特徴量を算出する(ステップS222)。ここで、ステップS221とステップS222が実行される順番は逆であってもよい。また、ステップS221とステップS222は並行して実行されてもよい。
【0094】
ここで、マスク生成部203は、ラベル特徴量とスペクトログラム特徴量の内積を算出する(ステップS223)。そして、マスク生成部203は、内積からタイムマスクを生成する(ステップS224)。
【0095】
そして、生成装置20は、入力音響信号にタイムマスクを適用し、所定の成分を抽出する(ステップS225)。また、生成装置20は、抽出した成分を基に音響信号を合成する(ステップS226)。
【0096】
生成装置20は、生成した音響信号を出力音響信号として出力する(ステップS227)。なお、生成装置20は、タイムマスクそのものを出力してもよいし、タイムマスクから算出された類似度を出力してもよい。
【0097】
[第4の実施形態の効果]
これまで説明してきたように、ラベル特徴量算出部201は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する。スペクトログラム特徴量算出部202は、音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する。マスク生成部203は、第1の特徴量及び第2の特徴量を基に生成される第1のマスクであって、音響信号からラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを生成する。このため、第4の実施形態によれば、特に、異なるラベルの音声が時間的に重複なく存在する場合に、目的音声の分離を効率良く行うことができる。
【0098】
第4の実施形態によれば、例えば、ニュース番組では、政治コーナー、スポーツコーナーといったコーナーが時間で区切られている場合がある。例えば、各コーナーで読み上げられたニュースの原稿に、第3の実施形態で得られたタイムマスクを適用することで、特定のコーナーに対応する原稿の部分を特定することができる。
【0099】
ここで、第4の実施形態で用いられるラベルエンコーダ及びオーディオエンコーダは、例えば、タイムマスクによって抽出された成分から合成された音響信号を使ってTriplet Lossによって学習されたものであってもよい。これは、学習時に、マスク生成部103が、生成したスペクトログラムマスクの周波数成分を集約し、タイムマスクを生成することによって実現される。
【0100】
これより、以下のような実施形態が考えられる。ラベル特徴量算出部101は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する。スペクトログラム特徴量算出部102は、音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する。指標算出部104は、第1の特徴量及び第2の特徴量を基に生成される第1のマスクであって、音響信号からラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出する。更新部105は、指標が最適化されるように、第1のモデルのパラメータ及び第2のモデルのパラメータを更新する。
【0101】
[実験結果]
各実施形態を基に行った実験について説明する。実験は、2種の音源からなる時間的な重畳のない混合音に対して、スペクトログラムマスクを生成した。さらに、実験では、潜在変数の次元数hを音源クラス数l以下に設定することで、潜在変数を媒介にすることの有用性を検証した。
【0102】
実験では、作成した混合音からなるデータセットを用いて、第1の実施形態で説明した音源分離モデルの学習を行った。さらに、学習済みの音源分離モデルを用いて、第3の実施形態で説明した生成装置にテスト用の混合音と2ラベルのうちの片方のみを入力し、対応する領域にスペクトログラムが生成されるかを確認した。
【0103】
実験では、データセットとして、DCASE 2018 challenge task2(参考文献7:http://dcase.community/challenge2018/index)で公開されたFSD Kaggle 2018を用いた。FSD Kaggle 2018は、41クラスの環境音からなる9500個程度のデータセットである。
【0104】
データセットのうち、手動アノテーションデータを使用した。また、極端に時間の短いデータを避けるため3秒以上の長さを持つデータを使用した。また、上記を満たすデータから異なるクラスのデータを2種類抜き出し、図13のように、2つの信号(ラベルA及びラベルBの信号)を、無音を挟み結合した。図13は、実験におけるデータの結合について説明する図である。結合されたシングルチャネルデータに対応するクラスは常に2つである。
【0105】
図14は、実験における各パラメータの設定値を示す図である。図14に示すように、潜在変数の次元数hは32とした。また、2つの信号は、トランペットの音と、鍵をジャラジャラさせた音であり、それぞれラベルA及びラベルBに対応する。
【0106】
図15は、実験で得られたスペクトログラムを示す図である。また、図16及び図17は、実験で得られたマスクを示す図である。図16は、ラベルとしてトランペットを指定したときのマスクである。また、図17は、ラベルとして鍵をジャラジャラする音を指定したときのマスクである。これらの図から、実施形態によれば、各ラベルを分離可能なマスクが生成されていることが分かる。
【0107】
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0108】
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0109】
[プログラム]
一実施形態として、学習装置10及び生成装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理又は生成処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10又は生成装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
【0110】
また、学習装置10及び生成装置20は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理又は生成処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、ラベルと音響信号を入力とし、分離された目的音声の信号を出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
【0111】
図18は、学習プログラムを実行するコンピュータの一例を示す図である。なお、生成処理についても同様のコンピュータによって実行されてもよい。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0112】
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(BASIC Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0113】
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
【0114】
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
【0115】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【符号の説明】
【0116】
10、10a 学習装置
20 生成装置
101、201 ラベル特徴量算出部
102、202 スペクトログラム特徴量算出部
103、203 マスク生成部
104、204 指標算出部
105、108 更新部
106、206 抽出部
107、207 合成部
111、211 ラベルエンコーダ情報
112、212 オーディオエンコーダ情報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18