特開2023-79258 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-79258音抽出システム及び音抽出方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023079258

(43)【公開日】2023-06-08

(54)【発明の名称】音抽出システム及び音抽出方法

(51)【国際特許分類】

G10L 21/028 20130101AFI20230601BHJP

【ＦＩ】

G10L21/028 Z

【審査請求】未請求

【請求項の数】17

【出願形態】ＯＬ

(21)【出願番号】P 2021192632

(22)【出願日】2021-11-29

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001689

【氏名又は名称】青稜弁理士法人

(72)【発明者】

【氏名】川口洋平

(57)【要約】

【課題】ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出できる音抽出システム及び音抽出方法を提供する。
【解決手段】音抽出システムは、抽出対象の音に対応する信号を含む混合信号から抽出対象の音に対応する信号を抽出する音抽出装置を含む。音抽出装置は、抽出対象の音の範囲を表すテキスト及び混合信号に基づいて、混合信号から抽出対象の音に対応する信号を抽出するように構成される。
【選択図】図１

【特許請求の範囲】

【請求項1】

抽出対象の音に対応する信号を含む混合信号から前記抽出対象の音に対応する信号を抽出する音抽出装置を含む音抽出システムであって、
前記音抽出装置は、
前記抽出対象の音の範囲を表すテキスト及び前記混合信号に基づいて、前記混合信号から前記抽出対象の音に対応する信号を抽出する、
ように構成された、
音抽出システム。

【請求項2】

請求項１に記載の音抽出システムにおいて、
前記音抽出装置は、
前記混合信号及び前記抽出対象の音の範囲を表す前記テキストに基づいて、前記抽出対象の音に対応する信号を抽出するための時間周波数マスクを生成し、
前記時間周波数マスクを前記混合信号に適用して、前記混合信号から前記抽出対象の音に対応する信号を抽出する、
ように構成された、
音抽出システム。

【請求項3】

請求項２に記載の音抽出システムにおいて、
前記時間周波数マスクを生成するために使用する学習済みモデルを格納した記憶装置を更に含み、
前記音抽出装置は、
前記学習済みモデルを用いて、前記抽出対象の音の範囲を表す前記テキスト及び前記混合信号に基づいて、前記時間周波数マスクを生成する、
ように構成された、
音抽出システム。

【請求項4】

請求項３に記載の音抽出システムにおいて、
前記記憶装置は、前記学習済みモデルとして、前記抽出対象の音の範囲を表す前記テキストを前処理したデータから前記テキストの埋込ベクトルを出力するテキスト埋込抽出モデルと、前記テキストの埋込ベクトル及び前記混合信号の音の特徴量ベクトルから前記時間周波数マスクを生成する時間周波数マスク生成モデルと、を格納しており、
前記音抽出装置は、
前記混合信号から前記混合信号の前記音の特徴量ベクトルを計算し、
前記テキスト埋込抽出モデルを用いて、前記抽出対象の音の範囲を表す前記テキストから前記テキストの埋込ベクトルを計算し、
前記時間周波数マスク生成モデルを用いて、計算した前記テキストの埋込ベクトル及び前記混合信号の前記音の特徴量ベクトルから前記時間周波数マスクを生成する、
ように構成された、
音抽出システム。

【請求項5】

請求項３に記載の音抽出システムにおいて、
前記記憶装置は、前記学習済みモデルとして、前記混合信号から前記混合信号の音の特徴量ベクトルを出力する特徴量抽出モデルと、前記抽出対象の音の範囲を表す前記テキストを前処理したデータから前記テキストの埋込ベクトルを出力するテキスト埋込抽出モデルと、前記テキストの埋込ベクトル及び前記混合信号の前記音の特徴量ベクトルから前記時間周波数マスクを生成する時間周波数マスク生成モデルと、を格納しており、
前記音抽出装置は、
前記特徴量抽出モデルを用いて、前記混合信号から前記混合信号の前記音の特徴量ベクトルを計算し、
前記テキスト埋込抽出モデルを用いて、前記抽出対象の音の範囲を表す前記テキストから前記テキストの埋込ベクトルを計算し、
前記時間周波数マスク生成モデルを用いて、計算した前記テキストの埋込ベクトル及び前記混合信号の前記音の特徴量ベクトルから前記時間周波数マスクを生成する、
ように構成された、
音抽出システム。

【請求項6】

請求項２に記載の音抽出システムにおいて、
前記抽出対象の音に対応する対象信号、当該対象信号と前記抽出対象の音以外の騒音に対応する信号とを混合した学習用混合信号及び前記抽出対象の音に対応する学習用テキストを含む学習用データセットを用いて機械学習を実行することにより、前記時間周波数マスクを生成するために使用する学習済みモデルを生成する学習装置を更に含み、
前記音抽出装置は、
前記学習装置によって生成された前記学習済みモデルを用いて、前記抽出対象の音の範囲を表す前記テキスト及び前記混合信号に基づいて、前記時間周波数マスクを生成する、
ように構成された、
音抽出システム。

【請求項7】

請求項６に記載の音抽出システムにおいて、
前記学習装置は、前記学習済みモデルとして、
前記抽出対象の音の範囲を表す前記テキストを前処理したデータから前記テキストの埋込ベクトルを出力するテキスト埋込抽出モデルと、
前記混合信号の特徴量及び前記テキストの埋込ベクトルから前記時間周波数マスクを生成する時間周波数マスク生成モデルと、
を生成するように構成され、
前記音抽出装置は、
前記混合信号から前記混合信号の音の特徴量ベクトルを計算し、
前記学習装置によって生成された前記テキスト埋込抽出モデルを用いて、前記抽出対象の音の範囲を表す前記テキストから前記テキストの埋込ベクトルを計算し、
前記学習装置によって生成された前記時間周波数マスク生成モデルを用いて、計算した前記テキストの埋込ベクトル及び前記混合信号の前記音の特徴量ベクトルから前記時間周波数マスクを生成する、
ように構成された、
音抽出システム。

【請求項8】

請求項６に記載の音抽出システムにおいて、
前記学習装置は、前記学習済みモデルとして、
前記混合信号から前記混合信号の音の特徴量ベクトルを出力する特徴量抽出モデルと、
前記抽出対象の音の範囲を表す前記テキストを前処理したデータから前記テキストの埋込ベクトルを出力するテキスト埋込抽出モデルと、
前記混合信号の前記音の特徴量ベクトル及び前記テキストの埋込ベクトルから前記時間周波数マスクを生成する時間周波数マスク生成モデルと、
を生成するように構成され、
前記音抽出装置は、
前記学習装置によって生成された前記特徴量抽出モデルを用いて、前記混合信号から前記混合信号の前記音の特徴量ベクトルを計算し、
前記学習装置によって生成された前記テキスト埋込抽出モデルを用いて、前記抽出対象の音の範囲を表す前記テキストから前記テキストの埋込ベクトルを計算し、
前記学習装置によって生成された前記時間周波数マスク生成モデルを用いて、計算した前記テキストの埋込ベクトル及び前記混合信号の前記音の特徴量ベクトルから前記時間周波数マスクを生成する、
ように構成された、
音抽出システム。

【請求項9】

請求項２に記載の音抽出システムにおいて、
外部から初期の学習済みモデルを取得し、前記抽出対象の音に対応する対象信号、当該対象信号と前記抽出対象の音以外の騒音に対応する信号とを混合した学習用混合信号及び前記抽出対象の音に対応する学習用テキストを含む学習用データセットを用いて機械学習を実行することにより、前記初期の学習済みモデルを更新することによって、前記時間周波数マスクを生成するために使用する学習済みモデルを生成する学習装置を更に含み、
前記音抽出装置は、
前記学習装置によって生成された前記学習済みモデルを用いて、前記抽出対象の音の範囲を表す前記テキスト及び前記混合信号に基づいて、前記時間周波数マスクを生成する、
ように構成された、
音抽出システム。

【請求項10】

請求項１に記載の音抽出システムにおいて、
前記抽出対象の音の範囲を表す前記テキスト及び前記混合信号に基づいて、前記混合信号から前記抽出対象の音に対応する信号を抽出するために使用する学習済みモデルを格納した記憶装置を更に含み、
前記音抽出装置は、
前記学習済みモデルを用いて、前記抽出対象の音の範囲を表す前記テキスト及び前記混合信号に基づいて、前記混合信号から前記抽出対象の音に対応する信号を抽出する、
ように構成された、
音抽出システム。

【請求項11】

請求項１０に記載の音抽出システムにおいて、
前記記憶装置は、前記学習済みモデルとして、前記抽出対象の音の範囲を表す前記テキストを前処理したデータから前記テキストの埋込ベクトルを出力するテキスト埋込抽出モデルと、前記テキストの埋込ベクトル及び前記混合信号の時間波形から前記抽出対象の音に対応する信号の時間波形を生成する信号抽出モデルとを格納しており、
前記音抽出装置は、
前記テキスト埋込抽出モデルを用いて、前記抽出対象の音の範囲を表す前記テキストから前記テキストの埋込ベクトルを計算し、
前記信号抽出モデルを用いて、計算した前記テキストの埋込ベクトル及び前記混合信号の時間波形から前記抽出対象の音に対応する信号の時間波形を生成することにより、前記混合信号から前記抽出対象の音に対応する信号を抽出する、
ように構成された、
音抽出システム。

【請求項12】

請求項１０に記載の音抽出システムにおいて、
前記抽出対象の音に対応する対象信号、当該対象信号と前記抽出対象の音以外の騒音に対応する信号とを混合した学習用混合信号及び前記抽出対象の音に対応する学習用テキストを含む学習用データセットを用いて機械学習を実行することにより、前記抽出対象の音の範囲を表す前記テキスト及び前記混合信号に基づいて、前記混合信号から前記抽出対象の音に対応する信号を抽出するために使用する前記学習済みモデルを生成する学習装置を更に含み、
前記学習装置によって生成された前記学習済みモデルを用いて、前記抽出対象の音の範囲を表す前記テキスト及び前記混合信号に基づいて、前記混合信号から前記抽出対象の音に対応する信号を抽出する、
ように構成された、
音抽出システム。

【請求項13】

請求項１０に記載の音抽出システムにおいて、
外部から初期の学習済みモデルを取得し、前記抽出対象の音に対応する対象信号、当該対象信号と前記抽出対象の音以外の騒音に対応する信号とを混合した学習用混合信号及び前記抽出対象の音に対応する学習用テキストを含む学習用データセットを用いて機械学習を実行することにより、前記初期の学習済みモデルを更新することによって、前記抽出対象の音の範囲を表す前記テキスト及び前記混合信号に基づいて、前記混合信号から前記抽出対象の音に対応する信号を抽出するために使用する前記学習済みモデルを生成する学習装置を更に含み、
前記音抽出装置は、
前記学習装置によって生成された前記学習済みモデルを用いて、前記抽出対象の音の範囲を表す前記テキスト及び前記混合信号に基づいて、前記混合信号から前記抽出対象の音に対応する信号を抽出する、
ように構成された、
音抽出システム。

【請求項14】

請求項６、請求項９、請求項１２及び請求項１３の何れか一項に記載の音抽出システムにおいて、
前記抽出対象の音に対応する前記対象信号と、前記抽出対象の音以外の騒音に対応する信号とが格納された記憶装置を更に含み、
前記学習装置は、
前記抽出対象の音に対応する前記対象信号と前記抽出対象の音以外の騒音に対応する信号とを、前記記憶装置から読み出して、前記抽出対象の音に対応する前記対象信号と前記抽出対象の音以外の騒音に対応する信号とを混合することにより、前記学習用混合信号を生成する、
ように構成された、
音抽出システム。

【請求項15】

請求項１に記載の音抽出システムにおいて、
前記テキストは、擬音語を表すテキストである、
音抽出システム。

【請求項16】

請求項１に記載の音抽出システムにおいて、
前記テキストは、説明文を表すテキストである、
音抽出システム。

【請求項17】

抽出対象の音に対応する信号を含む混合信号から前記抽出対象の音に対応する信号を抽出する音抽出装置を用いた音抽出方法であって、
前記音抽出装置によって、
前記抽出対象の音の範囲を表すテキスト及び前記混合信号に基づいて、前記混合信号から前記抽出対象の音に対応する信号を抽出する、
音抽出方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音抽出システム及び音抽出方法に関する。

【背景技術】

【0002】

複数の音源が混ざった音の中から特定の特徴を有する音を抽出することは重要である。例えば、音を収録し、設備や機械の異常やその予兆を音（異音）から自動的に検知することが行われている。しかし、環境騒音が大きい場合があり、このような場合には異音検知の精度が著しく低下しうる。そのため、異音検知精度の向上や異音そのものの分析のため、収録音から対象の設備や機械の音を抽出する（強調するともいう）ことが求められる。

【0003】

また、監視カメラ、ドライブレコーダー、見守りロボット、スマートスピーカーなどのマイクロフォンで収録される音に基づいて周囲の状況を認識することも行われている。しかし、やはり環境騒音が大きい場合があり、このような場合には状況認識の精度が著しく低下しうる。そのため、状況認識精度の向上や収録音の分析のため、収録音から状況認識の手がかりとなる音を抽出することが求められる。

【0004】

音の抽出に関し、例えば、特許文献１及び非特許文献１に記載の技術が知られている。非特許文献１には、「The waveforms of mixed environmental sounds are transformed into spectrogram. By using this input, Mask U-Net consists of sound event detection CNN and segmentation U-Net predicts masks for separating out each class from the input spectrogram. Inverse STFT is applied to reconstruct the time domain signal.」と記載されている。この非特許文献１の技術（以下、「従来技術」とも称呼される。）は、音を予め定義した有限個の種類のイベントに分類し、イベントの種類ごとに音を抽出する。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１４－１７８８８６号公報

【非特許文献】

【0006】

【非特許文献1】Y.Sudo,“Environmental sound segmentation utilizing Mask U-Net,”in IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2019.

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、従来技術は、ユーザが抽出したい音の範囲と予め定義された種類のイベントが一致しない場合には、ユーザが抽出したい音を抽出できない。その一例として、従来技術は、予め定義されたイベントの種類よりもさらに細かい粒度で音を抽出することができない。例えば、金属が叩かれる音というイベントの種類が定義されていたとしても、「バーン」という音も「カンカン」という音も金属が叩かれる音に含まれうる。従って、例えば、ユーザが「金属が叩かれる音」として「バーン」という音を抽出したい場合に、「金属が叩かれる音」というイベントの分類だけでは、金属が叩かれる音として「カンカン」という音が抽出されてしまうことが、従来技術では生じ得る。

【0008】

このように、従来技術では、ユーザが抽出したい音を精度よく抽出できないことが生じ得る。本発明は上記課題を解決するためになされた。即ち、本発明の目的の一つは、ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出することができる音抽出システム及び音抽出方法を提供することにある。

【課題を解決するための手段】

【0009】

上記課題を解決するために、本発明の音抽出システムは、抽出対象の音に対応する信号を含む混合信号から前記抽出対象の音に対応する信号を抽出する音抽出装置を含む音抽出システムであって、前記音抽出装置は、前記抽出対象の音の範囲を表すテキスト及び前記混合信号に基づいて、前記混合信号から前記抽出対象の音に対応する信号を抽出する、ように構成されている。

【0010】

本発明の音抽出方法は、抽出対象の音に対応する信号を含む混合信号から前記抽出対象の音に対応する信号を抽出する音抽出装置を使用し、音抽出装置によって、前記抽出対象の音の範囲を表すテキスト及び前記混合信号に基づいて、前記混合信号から前記抽出対象の音に対応する信号を抽出する。

【発明の効果】

【0011】

本発明によれば、ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出することができる。

【図面の簡単な説明】

【0012】

【図1】図１は本発明の第１実施形態に係る音抽出システムの概略構成例を示すブロック構成図である。

【図2】図２は情報処理装置の構成例を示すブロック図である。

【図3】図３は学習サブシステムの構成例を機能毎に説明するためのブロック図である。

【図4】図４は学習サブシステムの処理フローの一例を示すフローチャートである。

【図5】図５は音抽出サブシステムの構成例を機能毎に説明するためのブロック図である。

【図6】図６は音抽出サブシステムの処理フローの一例を示すフローチャートである。

【図7】図７は音抽出システムによる抽出結果の例を示すデータである。

【図8】図８は本発明の第２実施形態に係る音抽出システムの概略構成例を示すブロック構成図である。

【図9】図９は本発明の第３実施形態に係る音抽出システムの概略構成例を示すブロック構成図である。

【図10】図１０は本発明の第４実施形態に係る音抽出システムの概略構成例を示すブロック構成図である。

【図11】図１１は学習サブシステムの構成例を機能毎に説明するためのブロック図である。

【図12】図１２は学習サブシステムの処理フローの一例を示すフローチャートである。

【図13】図１３は音抽出サブシステムの構成例を機能毎に説明するためのブロック図である。

【図14】図１４は音抽出サブシステムの処理フローの一例を示すフローチャートである。

【図15】図１５は本発明の第５実施形態に係る音抽出システムの概略構成例を示すブロック構成図である。

【図16】図１６は学習サブシステムの構成例を機能毎に説明するためのブロック図である。

【図17】図１７は学習サブシステムの処理フローの一例を示すフローチャートである。

【図18】図１８は音抽出サブシステムの構成例を機能毎に説明するためのブロック図である。

【図19】図１９は音抽出サブシステムの処理フローの一例を示すフローチャートである。

【図20】図２０は本発明の第６実施形態に係る音抽出システムの概略構成例を示すブロック構成図である。

【図21】図２１は本発明の第７実施形態に係る音抽出システムの概略構成例を示すブロック構成図である。

【図22】図２２は本発明の第８実施形態に係る音抽出システムの概略構成例を示すブロック構成図である。

【図23】図２３は学習サブシステムの構成例を機能毎に説明するためのブロック図である。

【図24】図２４は学習サブシステムの処理フローの一例を示すフローチャートである。

【図25】図２５は音抽出サブシステムの構成例を機能毎に説明するためのブロック図である。

【図26】図２６は音抽出サブシステムの処理フローの一例を示すフローチャートである。

【発明を実施するための形態】

【0013】

以下、図面を参照しながら、本発明の各実施形態に係る音抽出システムについて説明する。

【0014】

<<第１実施形態>>
＜本発明の概要＞
図１は、本発明の第１実施形態に係る音抽出システム１００の概略構成例を示すブロック構成図である。図１に示すように、音抽出システム１００は、学習サブシステム１１０と、特徴量抽出モデルデータベース１２０と、テキスト埋込抽出モデルデータベース１３０と、時間周波数マスク生成モデルデータベース１４０と、音抽出サブシステム１５０と、訓練用データセットデータベース１６０と、を含む。なお、学習サブシステム１１０は、「学習装置」とも称呼される場合がある。音抽出サブシステム１５０は、「音抽出装置」とも称呼される場合がある。

【0015】

音抽出システム１００は、まず、訓練用データセットデータベース１６０から、対象信号（抽出対象の音に対応する信号）の時間波形、「対象信号の時間波形（対象信号）と抽出対象の音以外の騒音（騒音に対応する信号の時間波形（騒音に対応する信号））とを混合した混合信号の時間波形」及び可変長の擬音語テキスト（抽出対象の音に対応する擬音語テキスト）の三つ組みの集合（「学習用データセット」とも称呼される場合がある。）を読み出し、学習サブシステム１１０に入力する。

【0016】

ここで、訓練用データセットデータベース１６０から「対象信号の時間波形（対象信号）と抽出対象の音以外の騒音（騒音に対応する信号の時間波形（騒音に対応する信号））とを混合した混合信号の時間波形」を読み出す代わりに、混合される前の「抽出対象の音以外の騒音（騒音に対応する信号の時間波形（騒音に対応する信号））」を読みだし、対象信号（抽出対象の音に対応する信号）の時間波形と混合することによって、「対象信号の時間波形（対象信号）と抽出対象の音以外の騒音（騒音に対応する信号の時間波形（騒音に対応する信号））とを混合した混合信号の時間波形」を生成し、三つ組みの集合を生成しても良い。このように、読み出し後に信号を混合する場合、二つのメリットがある。一つは、音抽出システム１００の使用時に想定される信号対雑音比で信号を混合して学習用データセットを作成することにより、使用シーン毎の信号対雑音比に適した抽出が可能となるようにモデルを学習できることである。もう一つは、訓練用データセットデータベース１６０に必要な記憶容量を小さく抑えられることである。

【0017】

このように訓練用データセットデータベース１６０から読み込んだ後に混合して生成した三つ組みの集合も含めて、以降では三つ組みの集合または学習用データセットと称呼する。

【0018】

学習サブシステム１１０は三つ組みの集合に基づいて学習処理を実行し、特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルを出力して、それぞれのデータベースに格納する。即ち、学習サブシステム１１０は、特徴量抽出モデルを特徴量抽出モデルデータベース１２０に格納し、テキスト埋込抽出モデルをテキスト埋込抽出モデルデータベース１３０に格納し、時間周波数マスク生成モデルを時間周波数マスク生成モデルデータベース１４０に格納する。

【0019】

音抽出サブシステム１５０は、特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルをデータベース（特徴量抽出モデルデータベース１２０、テキスト埋込抽出モデルデータベース１３０及び時間周波数マスク生成モデルデータベース１４０）から読み出し、それらに基づいて（それらを用いて）音抽出処理を実行する。これにより、音抽出サブシステム１５０は、混合信号の時間波形と可変長の擬音語テキストから、抽出信号の時間波形を抽出する。更に、音抽出サブシステム１５０は、抽出信号の時間波形を出力する。

【0020】

音抽出システム１００は、このような基本構成とすることで、ある種類のイベントとしてユーザが抽出したい音の範囲を予め厳密に定義することができない場合であっても、ユーザが抽出したい音に対応する信号を混合信号から精度よく抽出（抽出ないし強調）することができる。

【0021】

なお、上述した非特許文献１が用いるようなイベントの種類の定義は、適用現場に応じてイベントの種類の定義が異なり、ユーザが抽出したい音の範囲と予め定義された種類のイベントとが一致することはまれである。ユーザが抽出したい音の範囲と予め定義された種類のイベントとが一致しない場合、ユーザが抽出したい音が抽出できない。これに対して、擬音語は比較的汎用性が高いので、適用現場を横断して使用できる可能性が高い。

【0022】

更に、擬音語の入力に対して環境音を出力する処理としては、上述した特許文献１に記載の技術が知られている。この特許文献１には、「音声信号を入力する音声入力部と、音声入力部に入力された音声信号に対して音声認識処理を行い擬音語を生成する音声認識部と、環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第１の擬音語と第２の擬音語と第１の擬音語が音声認識部で認識されたときに第２の擬音語が与えられる頻度とが対応付けられた対応付け情報を保持する対応保持部と、対応付け情報を用いて音声認識部が認識した第１の擬音語に対応する第２の擬音語に変換する変換部と、変換部が変換した第２の擬音語に対応する環境音を音データ保持部から抽出し、抽出された複数の環境音の候補が与えられる頻度に基づいて、抽出された複数の環境音の候補をランク付けして提示する検索抽出部とを備える。」と記載されている。

【0023】

しかし、特許文献１の技術は、混合音から音を抽出することができない。特許文献１の「抽出」とは、データベースから検索して条件に合った環境音を取り出すという意味である。また、特許文献１の技術は、環境音から擬音語への写像を有するのみであり、擬音語から環境音への写像を持たないため、出力される音はデータベースに存在する音のみである。データベースに存在する音と全く同じ混合音が入力されない限り、混合音からの音の抽出はできない。本発明の課題である混合音からの音の抽出では、データベースに存在する音と全く同じ混合音が入力されることはほとんどありえない。従って、特許文献１は、混合音からの音を抽出することができない。

【0024】

＜ハードウェア構成＞
音抽出システム１００は、例えば、コンピュータ（情報処理装置）などで構成可能である。図２は、情報処理装置の構成の一例を示すブロック図である。図２に示すように、情報処理装置２００は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、データの読み出し及び書き込み可能な不揮発性の記憶装置（ＨＤＤ）２０４、ネットワークインタフェース２０５及び入出力インタフェース２０６などを含む。これらは、バス２０７を介して互いに通信可能に接続されている。ＣＰＵ２０１はＲＯＭ２０２及び／又は記憶装置２０４に格納された図示しない各種プログラムをＲＡＭ２０３にロードし、ＲＡＭ２０３にロードされたプログラムを実行することによって、各種機能を実現する。ＲＡＭ２０３には、上述したようにＣＰＵ２０１が実行する各種プログラムがロードされ、ＣＰＵ２０１が各種プログラムを実行する際に使用するデータが一時的に記憶される。ＲＯＭ２０２及び／又は記憶装置２０４は、不揮発性の記憶媒体であり、各種プログラムが記憶されている。ネットワークインタフェース２０５は、情報処理装置２００がネットワークに接続されるためのインタフェースである。入出力インタフェース２０６は、キーボード、マウスなどの操作装置、マイクロフォンなどの音響機器及びディスプレイなどの表示装置に接続されるためのインタフェースである。

【0025】

例えば、音抽出システム１００の訓練用データセットデータベース１６０は、情報処理装置２００が備える記憶装置２０４に格納されたデータベースで構成される。音抽出システム１００の学習サブシステム１１０は、情報処理装置２００で構成される。音抽出システム１００の特徴量抽出モデルデータベース１２０、テキスト埋込抽出モデルデータベース１３０及び時間周波数マスク生成モデルデータベース１４０は、情報処理装置２００が備える記憶装置２０４に格納されたデータベースで構成される。音抽出システム１００の音抽出サブシステム１５０は、情報処理装置２００で構成される。なお、一つのシステムなどを構成する情報処理装置２００は、複数の情報処理装置やクラウド上に構築される仮想的な情報処理装置であってもよい。

【0026】

＜学習サブシステム＞
（学習サブシステムの機能）
以下、学習サブシステム１１０の構成を、主として機能毎に説明する。図３は学習サブシステム１１０の構成例を機能毎に説明するためのブロック図である。図３に示すように、学習サブシステム１１０は、対象信号フレーム分割処理部１１１、対象信号窓関数乗算部１１２、対象信号周波数領域信号生成部１１３、混合信号フレーム分割処理部１１４、混合信号窓関数乗算部１１５、混合信号周波数領域信号生成部１１６、特徴量抽出部１１７、音素変換部１１８、テキスト埋込抽出部１１９、時間周波数マスク生成部１１９ａ、時間周波数マスク乗算部１１９ｂ及び学習部１１９ｃを含む。なお、対象信号フレーム分割処理部１１１、対象信号窓関数乗算部１１２、対象信号周波数領域信号生成部１１３、混合信号フレーム分割処理部１１４、混合信号窓関数乗算部１１５、混合信号周波数領域信号生成部１１６、特徴量抽出部１１７、音素変換部１１８、テキスト埋込抽出部１１９、時間周波数マスク生成部１１９ａ、時間周波数マスク乗算部１１９ｂ及び学習部１１９ｃは、情報処理装置２００のＲＯＭ２０２及び／又は記憶装置２０４に格納された図示しない各種プログラムによって構成される。

【0027】

対象信号フレーム分割処理部１１１は、対象信号の時間波形Ｄ１０のフレーム分割を行い、対象信号のフレーム分割信号（不図示）を出力する。対象信号窓関数乗算部１１２は、窓関数乗算を行い、対象信号のフレーム分割信号を対象信号の窓関数乗算信号（不図示）に変換する。

【0028】

対象信号周波数領域信号生成部１１３は、短時間フーリエ変換を行い、対象信号の窓関数乗算信号を対象信号の時間周波数領域表現Ｄ１１に変換する。なお、対象信号周波数領域信号生成部１１３は、短時間フーリエ変換の代わりに、「ｃｏｎｓｔａｎｔＱ変換（ＣＱＴ）」などの周波数変換手法を用いることもできる。

【0029】

混合信号フレーム分割処理部１１４は、混合信号の時間波形Ｄ２０のフレーム分割を行い、混合信号のフレーム分割信号（不図示）を出力する。

【0030】

混合信号窓関数乗算部１１５は、窓関数乗算を行い、混合信号のフレーム分割信号を混合信号の窓関数乗算信号（不図示）に変換する。混合信号周波数領域信号生成部１１６は、短時間フーリエ変換を行い、混合信号の窓関数乗算信号を混合信号の時間周波数領域表現Ｄ２１に変換する。なお、混合信号周波数領域信号生成部は、短時間フーリエ変換の代わりに、「ｃｏｎｓｔａｎｔＱ変換（ＣＱＴ）」などの周波数変換手法を用いることもできる。

【0031】

特徴量抽出部１１７は、混合信号の時間周波数領域表現Ｄ２１を音の特徴量ベクトルＤ２２に変換する。本例において、特徴量抽出部１１７は、重み係数パラメータが可変であるニューラルネットワークである特徴量抽出モデルを用いる。特徴量抽出部１１７は、直前の更新を経た最新の特徴量抽出モデルに対して、混合信号の時間周波数領域表現Ｄ２１を入力し、音の特徴量ベクトルＤ２２を出力する。特徴量抽出モデルは、例えば、複数の畳込み層、活性化関数、プーリング層が積層され、中間にスキップコネクションを挟むニューラルネットワークであってよい。

【0032】

なお、音の特徴量ベクトルＤ２２は時間周波数領域表現Ｄ２１の振幅スペクトログラムであってよい。この場合、特徴量抽出部１１７は、時間周波数領域表現Ｄ２１の振幅スペクトログラム（ベクトル）を計算する。この場合、計算に用いる重み係数パラメータは不変である。例えば、音の特徴量ベクトルは時間周波数領域表現Ｄ２１のパワースペクトログラムであってよい。この場合、特徴量抽出部１１７は、時間周波数領域表現Ｄ２１のパワースペクトログラム（ベクトル）を計算する。この場合、計算に用いる重み係数パラメータは不変である。例えば、音の特徴量ベクトルＤ２２は時間周波数領域表現Ｄ２１の対数メルパワースペクトログラムであってよい。この場合、特徴量抽出部１１７は、時間周波数領域表現Ｄ２１のパワースペクトログラムを計算し、得られるパワースペクトログラムにメルフィルタバンクを乗算してメルパワースペクトログラムを計算し、得られるメルパワースペクトログラムに対して対数を施すことにより、対数メルパワースペクトログラム（ベクトル）を出力する。この場合、計算に用いる重み係数パラメータは不変である。メルフィルタバンクの代わりに、１／３オクターブバンドフィルタなどのフィルタバンクを用いてもよい。

【0033】

更に、音の特徴量ベクトルＤ２２は、対数メルパワースペクトログラムの代わりに、メル周波数ケプストラム係数（ＭＦＣＣ）の時系列であってもよい。その場合、特徴量抽出部１１７は、パワースペクトログラムの対数値を計算し、フィルタバンクを乗算し、離散コサイン変換を施し、ＭＦＣＣの時系列（ベクトル）を出力する。この場合、計算に用いる重み係数パラメータは不変である。

【0034】

音の特徴量ベクトルＤ２２は、対数メルパワースペクトログラムやＭＦＣＣの時系列に対する時間差分、若しくは、時間微分の時系列（デルタ）又はそれらの連結ベクトルであってもよい。これらのいずれの場合も、計算に用いる重み係数パラメータは不変である。

【0035】

音素変換部１１８は、可変長の擬音語テキストＤ３０から音素変換処理により可変長の音素列Ｄ３１を出力する。例えば、擬音語テキストＤ３０が「カンカン」である場合、音素列Ｄ３１として、「／ｋａＮｋａＮ／」が出力される。擬音語テキストＤ３０が「カタカタドーン」である場合、音素列Ｄ３１として、「／ｋａｔａｋａｔａｄｏ：Ｎ／」が出力される。

【0036】

テキスト埋込抽出部１１９は、最新のテキスト埋込抽出モデルを用いて、音素列Ｄ３１からテキストの埋込ベクトルＤ３２（テキスト埋込ベクトルＤ３２）を出力する。テキスト埋込ベクトルＤ３２はある定めた次元数Ｄのベクトルである。まず、テキスト埋込抽出部１１９は入力された音素列Ｄ３１に対し、各音素にｏｎｅ－ｈｏｔベクトルを割り当て、ｏｎｅ－ｈｏｔベクトル系列とする。ここでのｏｎｅ－ｈｏｔベクトルは、変換対象の音素の種類（「／ａ／、／ｉ／、／ｕ／、／ｅ／、／ｏ／、／ｋ／、／ｓ／、／Ｎ／」など）に対応する次元のみに１、それ以外の次元に０を割り当てたベクトルである。

【0037】

次に、テキスト埋込抽出モデルにｏｎｅ－ｈｏｔベクトル系列を入力し、テキスト埋込ベクトルＤ３２を出力させる。テキスト埋込抽出モデルは公知のＴｒａｎｓｆｏｒｍｅｒモデル、あるいは、Ｌｏｎｇ－Ｓｈｏｒｔ－Ｔｅｒｍ－Ｍｅｍｏｒｙ（ＬＳＴＭ）、双方向ＬＳＴＭ、Ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔ（ＧＲＵ）、双方向ＧＲＵなどの層を有する再帰型ニューラルネットワークであってよい。

【0038】

時間周波数マスク生成部１１９ａは、最新の時間周波数マスク生成モデルを用いて、音の特徴量ベクトルＤ２２とテキスト埋込ベクトルＤ３２とから、時間周波数マスクを生成する。

【0039】

時間周波数マスクは、時間周波数領域表現の各時間周波数において、混合信号の振幅のうちのどれだけの割合が抽出信号であるかの推定値である。即ち、時間周波数マスクは、各時間周波数において０より大きく１より小さい値をとる。１に近いほど混合信号の振幅のうちの大部分が抽出信号であり、０に近いほど混合信号の振幅のうちの大部分が抽出信号以外の成分であることを意味する。

【0040】

時間周波数マスク生成モデルは、音の特徴量ベクトルＤ２２及びテキスト埋込ベクトルＤ３２を入力として時間周波数マスクを生成するニューラルネットワークである。例えば、複数の畳込み層、活性化関数、プーリング層が積層され、中間にスキップコネクションを挟むニューラルネットワークであってよい。特に、音の特徴量ベクトルＤ２２が振幅スペクトログラム又はパワースペクトログラムである場合、時間周波数マスク生成部１１９ａは、例えば条件付きＵ－Ｎｅｔでよい。即ち、振幅スペクトログラムあるいはパワースペクトログラムである音の特徴量ベクトルを画像と考え、それを入力としてＫ個の畳込み層を積層して構成されるＵ－Ｎｅｔエンコーダーに入力して、Ｕ－Ｎｅｔ特徴量マップを計算し、得られたＵ－Ｎｅｔ特徴量マップとテキスト埋込ベクトルＤ３２をＫ個の畳込み層を積層して構成されるＵ－Ｎｅｔデコーダーに入力して音の特徴量ベクトルＤ２２と同じ画素数の画像である時間周波数マスクを出力する。Ｕ－Ｎｅｔエンコーダーの各畳込み層ｋ＝１、・・・、Ｋはその層に対応する互いに異なる時間周波数解像度の特徴量マップＶ＿ｋを出力する。全畳込み層の特徴量マップＶ＿１、Ｖ＿２、・・・、Ｖ＿Ｋ、を連結したものがＵ－Ｎｅｔ特徴量マップである。Ｕ－Ｎｅｔデコーダーの各畳込み層ｋ＝１、・・・、Ｋは、Ｕ－Ｎｅｔ特徴量マップの中でＶ＿Ｋ－ｋ＋１とテキスト埋込ベクトルＤ３２を入力として受け付ける。

【0041】

あるいは、畳込み層ｋ＝１のみ特徴量マップＶ＿Ｋとテキスト埋込ベクトルＤ３２を入力とし、それ以外の畳込み層ｋ≠１はテキスト埋込ベクトルＤ３２を入力とせず特徴量マップＶ＿Ｋ－ｋ＋１のみを入力として受け付けてもよい。Ｕ－Ｎｅｔデコーダーの各畳込み層がテキスト埋込ベクトルＤ３２を入力として受け付けるのであれば、訓練データセットが潤沢であれば精度が高くなるというメリットがある。畳込み層ｋ＝１のみがテキスト埋込ベクトルＤ３２を入力として受け付ける場合は、ニューラルネットワークの重み係数の個数が小さく抑えられるというメリットがある。

【0042】

時間周波数マスク乗算部１１９ｂは、混合信号の時間周波数領域表現Ｄ２１に時間周波数マスクを乗算することによって、抽出信号の時間周波数領域表現Ｄ４１を生成する。

【0043】

学習部１１９ｃは、抽出信号の時間周波数領域表現Ｄ４１と対象信号の時間周波数領域表現Ｄ１１との距離で定義される損失関数の値を最小化することで、特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルの各パラメータを学習する。

【0044】

学習部１１９ｃは、更に、収束しているかどうかの判定に用いる収束判定用関数を計算する。例えば、収束判定用関数は、損失関数の値の前回の反復時（学習時）からの変化の大きさで定義される。また、収束判定用関数は、特徴量抽出モデルのパラメータの前回の反復時（学習時）からの変化の大きさ、テキスト埋込抽出モデルのパラメータの前回の反復時（学習時）からの変化の大きさ、時間周波数マスク生成モデルのパラメータの前回の反復時（学習時）からの変化の大きさ、あるいはこれらのそれぞれの積によって定義してもよい。十分変化が小さければ収束と判断される。例えば、収束判定用関数があらかじめ定められた閾値より小さければ収束と判断される。

【0045】

（作動の概要）
学習サブシステム１１０の作動の概要について説明する。学習サブシステム１１０は、訓練用データセットデータベース１６０から、「対象信号の時間波形Ｄ１０、対象信号の時間波形と対象信号以外の騒音に対応する信号とを混合した混合信号の時間波形Ｄ２０及び可変長の擬音語テキストＤ３０」の三つ組みの集合を読み出す。

【0046】

対象信号の時間波形Ｄ１０は、対象信号フレーム分割処理部１１１、対象信号窓関数乗算部１１２及び対象信号周波数領域信号生成部１１３に順に入力され、対象信号の時間周波数領域表現Ｄ１１に変換される。

【0047】

混合信号の時間波形Ｄ２０は、混合信号フレーム分割処理部１１４、混合信号窓関数乗算部１１５及び混合信号周波数領域信号生成部１１６に順に入力され、混合信号の時間周波数領域表現Ｄ２１に変換される。

【0048】

混合信号の時間周波数領域表現Ｄ２１は、特徴量抽出部１１７に入力され、音の特徴量ベクトルＤ２２に変換される。

【0049】

可変長の擬音語テキストＤ３０は、音素変換部１１８に入力され、可変長の音素列Ｄ３１に変換される。可変長の音素列Ｄ３１は、テキスト埋込抽出部１１９に入力され、テキスト埋込ベクトルＤ３２に変換される。

【0050】

音の特徴量ベクトルＤ２２及びテキスト埋込ベクトルＤ３２は、時間周波数マスク生成部１１９ａに入力され、時間周波数マスクが生成される。

【0051】

混合信号の時間周波数領域表現Ｄ２１及び時間周波数マスクは、時間周波数マスク乗算部１１９ｂにて乗算され、抽出信号の時間周波数領域表現Ｄ４１が生成される。抽出信号の時間周波数領域表現Ｄ４１は、学習部１１９ｃに入力される。

【0052】

対象信号の時間周波数領域表現Ｄ１１及び抽出信号の時間周波数領域表現Ｄ４１は、学習部１１９ｃに入力される。学習部１１９ｃにて、特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルの各パラメータが学習され、これらの各パラメータが更新される。各パラメータが更新された特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルは、特徴量抽出モデルデータベース１２０、テキスト埋込抽出モデルデータベース１３０及び時間周波数マスク生成モデルデータベース１４０のそれぞれに格納される。各パラメータが更新された特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルは、便宜上、「学習済みモデル」とも称呼される。

【0053】

（具体的作動）
学習サブシステム１１０の具体的作動について説明する。図４は学習サブシステム１１０の処理フローの一例である。学習サブシステム１１０は、図４の処理フローを実行する。学習サブシステム１１０は、訓練用データセットデータベース１６０から、対象信号の時間波形Ｄ１０、混合信号の時間波形Ｄ２０、可変長の擬音語テキストＤ３０の三つ組みの集合を読み出すと、図４のステップ４００から処理を開始してステップ４０１に進む。学習サブシステム１１０は、ステップ４０１に進むと、音素変換部１１８によって、可変長の擬音語テキストＤ３０から音素変換処理により可変長の音素列Ｄ３１を計算する（擬音語テキストＤ３０を音素列Ｄ３１に変換する。）。

【0054】

その後、学習サブシステム１１０は、ステップ４０２に進み、学習終了条件が成立しているか否かを判定する。学習終了条件は、以下に述べる条件１及び条件２の何れかの条件が成立する場合に成立する条件である。条件１は、所定の収束条件が成立する場合（例えば、収束判定用関数があらかじめ定められた閾値より小さい場合）、成立する条件である。条件２は、カウンタＣ１が閾値ＴｈＣより大きい（Ｃ１＞ＴｈＣ）場合に成立する条件である。なお、学習終了条件は、条件２のみであってもよい。

【0055】

学習終了条件が成立していない場合、学習サブシステム１１０は、ステップ４０２にて「ＮＯ」と判定して以下に述べるステップ４０３乃至ステップ４１５の処理を順に実行した後、ステップ４０２に戻る。

【0056】

ステップ４０３：学習サブシステム１１０は、テキスト埋込抽出部１１９によって、最新のテキスト埋込抽出モデルを用いて、音素列Ｄ３１からテキスト埋込ベクトルＤ３２を計算する（抽出する。）。

【0057】

ステップ４０４：学習サブシステム１１０は、混合信号フレーム分割処理部１１４によって、混合信号の時間波形Ｄ２０のフレーム分割を行い、混合信号のフレーム分割信号を計算する（出力する。）。

【0058】

ステップ４０５：学習サブシステム１１０は、混合信号窓関数乗算部１１５によって、窓関数乗算を行い、混合信号のフレーム分割信号を混合信号の窓関数乗算信号に変換する。

【0059】

ステップ４０６：学習サブシステム１１０は、混合信号周波数領域信号生成部１１６によって、混合信号の窓関数乗算信号を混合信号の時間周波数領域表現Ｄ２１に変換する。

【0060】

ステップ４０７：学習サブシステム１１０は、特徴量抽出部１１７によって、混合信号の時間周波数領域表現Ｄ２１から音の特徴量ベクトルＤ２２を計算する。本例では、学習サブシステム１１０は、特徴量抽出部１１７によって、最新の特徴量抽出モデルを用いて、混合信号の時間周波数領域表現Ｄ２１から音の特徴量ベクトルＤ２２を計算する。

【0061】

ステップ４０８：学習サブシステム１１０は、時間周波数マスク生成部１１９ａによって、最新の時間周波数マスク生成モデルを用いて、音の特徴量ベクトルＤ２２とテキスト埋込ベクトルＤ３２とから、時間周波数マスクを生成する。

【0062】

ステップ４０９：学習サブシステム１１０は、時間周波数マスク乗算部１１９ｂによって、混合信号の時間周波数領域表現Ｄ２１に時間周波数マスクを乗算することで、抽出信号の時間周波数領域表現Ｄ４１を生成する。

【0063】

ステップ４１０：学習サブシステム１１０は、対象信号フレーム分割処理部１１１によって、対象信号の時間波形Ｄ１０のフレーム分割を行い、対象信号のフレーム分割信号を計算する（出力する。）。

【0064】

ステップ４１１：学習サブシステム１１０は、対象信号窓関数乗算部１１２によって、窓関数乗算を行い、対象信号のフレーム分割信号を対象信号の窓関数乗算信号に変換する。

【0065】

ステップ４１２：学習サブシステム１１０は、対象信号周波数領域信号生成部１１３によって、短時間フーリエ変換を行い、対象信号の窓関数乗算信号を対象信号の時間周波数領域表現Ｄ１１に変換する。

【0066】

ステップ４１３：学習サブシステム１１０は、学習部１１９ｃによって、抽出信号の時間周波数領域表現Ｄ４１と対象信号の時間周波数領域表現Ｄ１１との距離で定義される損失関数の値を最小化することで、特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルの各パラメータ（ニューラルネットワーク（ＮＮ）の各パラメータ）を学習する（即ち、各モデルを更新する。）。

【0067】

ステップ４１４：学習サブシステム１１０は、学習部１１９ｃによって、収束しているかどうかを表す収束条件を計算する。なお、収束条件は、たとえば、損失関数の前回の反復時（学習時）からの変化の大きさにより定義される。もしくは、収束条件は、特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルの各パラメータの、前回の反復時（学習時）からの変化の大きさにより定義される。なお、十分変化が小さければ収束と判断される（ステップ４０２。）。

【0068】

ステップ４１５：学習サブシステム１１０は、現時点のカウンタＣ１の値を「１」だけ増加する。

【0069】

ステップ４０２にて、学習終了条件が成立している場合、学習サブシステム１１０は、ステップ４０２にて「ＹＥＳ」と判定してステップ４１６に進み、特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデル（ニューラルネットワーク（ＮＮ）の各パラメータ）を各データベース（特徴量抽出モデルデータベース１２０、テキスト埋込抽出モデルデータベース１３０及び時間周波数マスク生成モデルデータベース１４０）に保存する。その後、学習サブシステム１１０は、ステップ４９５に進んで本処理フローを一旦終了する。

【0070】

＜音抽出サブシステム＞
（音抽出サブシステムの機能）
音抽出サブシステム１５０の構成を、主として機能毎に説明する。図５は音抽出サブシステム１５０の構成例を機能毎に説明するためのブロック図である。

【0071】

図５に示すように、音抽出サブシステム１５０は、混合信号フレーム分割処理部１５１、混合信号窓関数乗算部１５２、混合信号周波数領域信号生成部１５３、特徴量抽出部１５４、時間周波数マスク生成部１５５、音素変換部１５６、テキスト埋込抽出部１５７、時間周波数マスク乗算部１５８及び位相復元部１５９を含む。なお、混合信号フレーム分割処理部１５１、混合信号窓関数乗算部１５２、混合信号周波数領域信号生成部１５３、特徴量抽出部１５４、時間周波数マスク生成部１５５、音素変換部１５６、テキスト埋込抽出部１５７、時間周波数マスク乗算部１５８及び位相復元部１５９は、情報処理装置２００のＲＯＭ２０２及び／又は記憶装置２０４に格納された図示しない各種プログラムによって構成される。

【0072】

混合信号フレーム分割処理部１５１は、混合信号の時間波形Ｄ５０のフレーム分割を行い、混合信号のフレーム分割信号（不図示）を計算する（出力する。）。混合信号窓関数乗算部１５２は、窓関数乗算を行い、混合信号のフレーム分割信号を混合信号の窓関数乗算信号（不図示）に変換する。

【0073】

混合信号周波数領域信号生成部１５３は、短時間フーリエ変換を行い、混合信号の窓関数乗算信号を混合信号の時間周波数領域表現Ｄ５１に変換する。短時間フーリエ変換の代わりにＣＱＴなどの周波数変換手法を用いることもできるが、学習サブシステム１１０と同じ処理を行う。

【0074】

本例において、学習サブシステム１１０と同様、特徴量抽出部１５４は、最新の特徴量抽出モデル（重み係数パラメータが可変であるニューラルネットワークである特徴量抽出モデル）を用いて、混合信号の時間周波数領域表現Ｄ５１を音の特徴量ベクトルに変換する。学習サブシステム１１０の直前の更新を経た最新の特徴量抽出モデルに対して、混合信号の時間周波数領域表現Ｄ５１を入力し、音の特徴量ベクトルを計算する。

【0075】

なお、学習サブシステム１１０で対数メルパワースペクトログラム、ＭＦＣＣの時系列、それらに対するデルタやデルタデルタの連結などが使用される場合、ここでの特徴量ベクトルは、学習サブシステム１１０で使用されるものと対応する対数メルパワースペクトログラム、ＭＦＣＣの時系列、それらに対するデルタやデルタデルタの連結などであってもよい。この場合、特徴量抽出部１５４は、学習サブシステム１１０の特徴量抽出部１１７と同様の処理を行う。

【0076】

音素変換部１５６は、可変長の擬音語テキストＤ６０から音素変換処理により可変長の音素列Ｄ６１を出力する（擬音語テキストＤ６０を音素列Ｄ６１に変換する。）。

【0077】

テキスト埋込抽出部１５７は、最新のテキスト埋込抽出モデルを用いて、音素列Ｄ６１からテキストの埋込ベクトルＤ６２（テキスト埋込ベクトルＤ６２）を計算する（抽出する。）。

【0078】

時間周波数マスク生成部１５５は、最新の時間周波数マスク生成モデルを用いて、音の特徴量ベクトルＤ５２とテキスト埋込ベクトルＤ６２とから、時間周波数マスクを生成する。

【0079】

時間周波数マスク乗算部１５８は、混合信号の時間周波数領域表現Ｄ５１に時間周波数マスクを乗算することによって、抽出信号の時間周波数領域表現Ｄ７１を生成する。

【0080】

位相復元部１５９は、公知のＧｒｉｆｆｉｎ－Ｌｉｍアルゴリズムなどを使用して、抽出信号の時間周波数領域表現Ｄ７１から、抽出信号の時間波形Ｄ７２を生成する。

【0081】

（作動の概要）
音抽出サブシステム１５０の作動の概要について説明する。図５に示すように、混合信号の時間波形Ｄ５０は、混合信号フレーム分割処理部１５１、混合信号窓関数乗算部１５２及び混合信号周波数領域信号生成部１５３に順に入力され、混合信号の時間周波数領域表現Ｄ５１に変換される。混合信号の時間周波数領域表現Ｄ５１は、特徴量抽出部１５４に入力され、音の特徴量ベクトルＤ５２に変換される。

【0082】

可変長の擬音語テキストＤ６０は、音素変換部１５６に入力され、可変長の音素列Ｄ６１に変換される。可変長の音素列Ｄ６１は、テキスト埋込抽出部１５７に入力され、テキスト埋込ベクトルＤ６２に変換される。音の特徴量ベクトルＤ５２及びテキスト埋込ベクトルＤ６２は、時間周波数マスク生成部１５５に入力され、時間周波数マスクが生成される。

【0083】

混合信号の時間周波数領域表現Ｄ５１及び時間周波数マスクは、時間周波数マスク乗算部１５８にて乗算され、抽出信号の時間周波数領域表現Ｄ７１が生成される。抽出信号の時間周波数領域表現Ｄ７１は位相復元部１５９に入力され、抽出信号の時間波形Ｄ７２が生成される。

【0084】

（具体的作動）
音抽出サブシステム１５０の具体的作動について説明する。図６は音抽出サブシステム１５０の処理フローの一例である。音抽出サブシステム１５０は、図６の処理フローを実行する。音抽出サブシステム１５０は、混合信号の時間波形Ｄ５０及び可変長の擬音語テキストＤ６０が入力されると、図６のステップ６００から処理を開始して以下に述べるステップ６０１乃至ステップ６０９の処理を順に実行した後、ステップ６９５に進み、本処理フローを一旦終了する。

【0085】

ステップ６０１：音抽出サブシステム１５０は、音素変換部１５６によって、可変長の擬音語テキストＤ６０から音素変換処理により可変長の音素列Ｄ６１を出力する（擬音語テキストＤ６０を音素列Ｄ６１に変換する。）。

【0086】

ステップ６０２：音抽出サブシステム１５０は、テキスト埋込抽出部１５７によって、最新のテキスト埋込抽出モデルを用いて、音素列Ｄ６１からテキスト埋込ベクトルＤ６２を計算する（抽出する。）。

【0087】

ステップ６０３：音抽出サブシステム１５０は、混合信号フレーム分割処理部１５１によって、混合信号の時間波形Ｄ５０のフレーム分割を行い、混合信号のフレーム分割信号を計算する（出力する。）。

【0088】

ステップ６０４：音抽出サブシステム１５０は、混合信号窓関数乗算部１５２によって、窓関数乗算を行い、混合信号のフレーム分割信号を混合信号の窓関数乗算信号に変換する。

【0089】

ステップ６０５：音抽出サブシステム１５０は、混合信号周波数領域信号生成部１５３によって、短時間フーリエ変換を行い、混合信号の窓関数乗算信号を混合信号の時間周波数領域表現Ｄ５１に変換する。

【0090】

ステップ６０６：音抽出サブシステム１５０は、特徴量抽出部１５４によって、混合信号の時間周波数領域表現Ｄ５１から音の特徴量ベクトルＤ５２を計算する。本例では、音抽出サブシステム１５０は、特徴量抽出部１５４によって、最新の特徴量抽出モデルを用いて、混合信号の時間周波数領域表現Ｄ５１から音の特徴量ベクトルＤ５２を計算する。

【0091】

ステップ６０７：音抽出サブシステム１５０は、時間周波数マスク生成部１５５によって、最新の時間周波数マスク生成モデルを用いて、音の特徴量ベクトルＤ５２とテキスト埋込ベクトルＤ６２とから、時間周波数マスクを生成する。

【0092】

ステップ６０８：音抽出サブシステム１５０は、時間周波数マスク乗算部１５８によって、混合信号の時間周波数領域表現Ｄ５１に時間周波数マスクを乗算することで、抽出信号の時間周波数領域表現Ｄ７１を生成する。

【0093】

ステップ６０９：音抽出サブシステム１５０は、位相復元部１５９によって、公知のＧｒｉｆｆｉｎ－Ｌｉｍアルゴリズムなどを使用して、抽出信号の時間周波数領域表現Ｄ７１から、抽出信号の時間波形Ｄ７２を生成する。

【0094】

＜実施例＞
図７に、音抽出システム１００による抽出結果の例を示す。最上段が混合信号のパワースペクトログラムである。横軸が時間（秒）、縦軸が周波数を表す（ｋＨｚ）。白色はパワーが大きい時間周波数を示し、黒色はパワーが小さい時間周波数を示す。実施例の効果が分かりやすくなるように、入力された混合信号はいずれも同一の種類の複数の音響イベントを混合した信号であり、ユーザが抽出したい音の範囲をある種類のイベントとして予め定義することができないため、従来のイベントの種類に基づく抽出方式（即ち、従来技術に対応する従来方式）では抽出ができない例となっている。

【0095】

１列目は複数の金属音を混合した混合信号から擬音語「ポッ」（／ｐｏｑ／）に対応する対象信号のみを抽出させるタスクを表す。２列目は複数のベルの音を混合した混合信号から擬音語「ピリリリリン」（／ｐｉｒｉｒｉｒｉｒｉＮ／）に対応する対象信号のみを抽出させるタスクを表す。３列目は複数の電話呼び出し音を混合した混合信号から擬音語「プルルルルルル」（／ｐｕｒｕｒｕｒｕｒｕｒｕｒｕ／）に対応する対象信号のみを抽出させるタスクを表す。４列目は複数の打撃音を混合した混合信号から擬音語「ティチチチチチ」（／ｔｉｃｈｉｃｈｉｃｈｉｃｈｉｃｈｉ／）に対応する対象信号のみを抽出させるタスクを表す。５列目はサイコロを転がした音を混合した混合信号から擬音語「トットゥトゥトゥ」（／ｔｏｑｔｕｔｕｔｕ／）に対応する対象信号のみを抽出させるタスクを表す。

【0096】

それぞれの列において、１行目（「Ｍｉｘｔｕｒｅｓｏｕｎｄ」）が入力された混合信号を示し、２行目（「Ｓｕｂｃｌａｓｓ－ｃｏｎｄｉｔｉｏｎｅｄｍｅｔｈｏｄ」）がイベントの種類に基づく抽出方式の結果を示し、３行目（「Ｏｎｏｍａｔｏｐｏｅｉａ－ｃｏｎｄｉｔｉｏｎｅｄｍｅｔｈｏｄ」）が本実施例の抽出方式の結果を示し、４行目（「Ｇｒｏｕｎｄｔｒｕｔｈ」）が正解と想定した対象信号を表す。混合信号（１行目）及び従来方式（２行目）と比較して、本実施例の抽出結果（３行目）は、正解の対象信号（４行目）と類似していることがわかる。したがって、本実施例は、ユーザが抽出したい音の範囲をある種類のイベントとして予め定義することができない場合であっても対象音を抽出することができる効果が示唆される。

【0097】

＜効果＞
以上説明したように、本発明の第１実施形態に係る音抽出システム１００は、ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出（抽出ないし強調）することができる。更に、第１実施形態に係る音抽出システム１００は、無限通りのテキストを与えることが可能であり、無限通りの音の範囲を指定できる。従って、第１実施形態に係る音抽出システム１００は、ある種類のイベントとしてユーザが抽出したい音の範囲を予め定義することができない場合であっても、ユーザが抽出したい音に対応するテキストを与えることによって、ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出することができる。

【0098】

<<第２実施形態>>
本発明の第２実施形態に係る音抽出システム８００について説明する。図８は、本発明の第２実施形態に係る音抽出システム８００の概略構成例を示すブロック構成図である。図８に示すように、音抽出システム８００は、以下の点のみにおいて、第１実施形態に係る音抽出システム１００と相違点を有する。音抽出システム８００では、第１実施形態に係る音抽出システム１００の学習サブシステム１１０が省略され、予め一般の環境音と擬音語の対応データベースに基づいて学習された特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルが格納された特徴量抽出モデルデータベース８２０、テキスト埋込抽出モデルデータベース８３０、時間周波数マスク生成モデルデータベース８４０が使用される。以下ではこの相違点を中心として説明する。

【0099】

図８に示すように、音抽出システム８００は、音抽出サブシステム１５０と、特徴量抽出モデルデータベース８２０と、テキスト埋込抽出モデルデータベース８３０と、時間周波数マスク生成モデルデータベース８４０と、を含む。音抽出サブシステム１５０は、混合信号の時間波形及び可変長擬音語テキストが入力されると、既存の特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルを用いて、抽出信号の時間波形を出力する。なお、この処理の詳細は、既存の特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルを用いること以外、第１実施形態と同様であるので、説明を省略する。

【0100】

＜効果＞
以上説明したように、本発明の第２実施形態に係る音抽出システム８００は、第１実施形態と同様、ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出（抽出ないし強調）することができる。更に、第２実施形態に係る音抽出システム８００は、あらかじめ一般の環境音と擬音語の対応データベースに基づいて学習された特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルが使えるので、第１実施形態に係る音抽出システム１００のような、学習サブシステム１１０による新規での学習処理は不要である。現場毎に新規での訓練データセットを構築する必要がないというメリットがある。

【0101】

<<第３実施形態>>
本発明の第３実施形態に係る音抽出システム９００について説明する。図９は、本発明の第３実施形態に係る音抽出システム９００の概略構成例を示すブロック構成図である。図９に示すように、音抽出システム９００では、学習サブシステム１１０が、あらかじめ一般の環境音と擬音語の対応データベースに基づいて学習された既存の特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルが格納された特徴量抽出モデルデータベース９２０、テキスト埋込抽出モデルデータベース９３０及び時間周波数マスク生成モデルデータベース９４０を使用する。学習サブシステム１１０は、現場毎の学習用データセット（訓練データセット）を用いて学習することで、現場に合わせてモデルを最適化し、精度を向上させる。以上の点のみにおいて、第３実施形態に係る音抽出システム９００は、第１実施形態に係る音抽出システム１００と相違点を有する。従って、以下ではこの相違点を中心として説明する。

【0102】

図９に示すように、音抽出システム９００は、第１実施形態に係る音抽出システム１００に対して、特徴量抽出モデルデータベース９２０と、テキスト埋込抽出モデルデータベース９３０と、時間周波数マスク生成モデルデータベース９４０とが追加された構成を有する。なお、特徴量抽出モデルデータベース９２０、テキスト埋込抽出モデルデータベース９３０及び時間周波数マスク生成モデルデータベース９４０のそれぞれに格納された既存の各モデルは、便宜上、「初期の特徴量抽出モデル、初期のテキスト埋込抽出モデル及び初期の時間周波数マスク生成モデル」とも称呼され、これらは「初期の学習済みモデル」とも称呼される。

【0103】

学習サブシステム１１０は、現場毎の学習用データセット（訓練データセット）を用いて学習することで、現場に合わせて、モデル（既存の特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデル）を最適化し（更新し）、最適化した各モデルを、特徴量抽出モデルデータベース１２０と、テキスト埋込抽出モデルデータベース１３０と、時間周波数マスク生成モデルデータベース１４０のそれぞれに格納する。

【0104】

音抽出サブシステム１５０は、混合信号の時間波形及び可変長擬音語テキストが入力されると、既存の特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルを最適化した各モデルを用いて、抽出信号の時間波形を出力する。なお、この処理の詳細は、既存のモデルを最適化した特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルを用いること以外、第１実施形態と同様であるので、説明を省略する。

【0105】

＜効果＞
以上説明したように、本発明の第３実施形態に係る音抽出システム９００は、第１実施形態と同様、ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出（抽出ないし強調）することができる。更に、第３実施形態に係る音抽出システム９００は、現場に応じて、モデルの精度を向上させつつ、既存のモデルを用いることで現場毎に新規で構築する訓練データセットは少数でよいというメリットがある。

【0106】

<<第４実施形態>>
本発明の第４実施形態に係る音抽出システム１０００について説明する。図１０は、本発明の第４実施形態に係る音抽出システム１０００の概略構成例を示すブロック構成図である。図１０に示すように、音抽出システム１０００は、音の範囲を表すテキストとして、擬音語の代わりに説明文（例えば、「カタカタの後にドーンと鳴る。」、「衝撃音の後にカタカタと鳴る。」等）のテキストを用いた点のみにおいて、第１実施形態に係る音抽出システム１００と相違点を有する。従って、以下ではこの相違点を中心として説明する。

【0107】

＜学習サブシステム＞
（学習サブシステムの機能）
図１１は音抽出システム１０００の学習サブシステム１１０の構成例を機能毎に説明するためのブロック図である。図１１に示すように、学習サブシステム１１０は、対象信号フレーム分割処理部１１１、対象信号窓関数乗算部１１２、対象信号周波数領域信号生成部１１３、混合信号フレーム分割処理部１１４、混合信号窓関数乗算部１１５、混合信号周波数領域信号生成部１１６、特徴量抽出部１１７、テキスト埋込抽出部１１９、時間周波数マスク生成部１１９ａ、時間周波数マスク乗算部１１９ｂ及び学習部１１９ｃを含む。

【0108】

（作動の概要）
学習サブシステム１１０の作動の概要を説明する。学習サブシステム１１０は、訓練用データセットデータベース１６０から、「対象信号（抽出対象の音に対応する信号）の時間波形Ｄ１０、対象信号の時間波形と対象信号以外の騒音（抽出対象の音以外の騒音）に対応する信号とを混合した混合信号の時間波形Ｄ２０及び可変長の説明文テキストＤ１１００（抽出対象の音に対応する説明文テキスト）」の三つ組みの集合を読み出す。

【0109】

【0110】

【0111】

混合信号の時間周波数領域表現Ｄ２１は、特徴量抽出部１１７に入力され、音の特徴量ベクトルＤ２２に変換される。

【0112】

可変長の説明文テキストＤ１１００は、テキスト埋込抽出部１１９に入力され、説明文テキストＤ１１００の埋込ベクトルＤ１１０１（テキスト埋込ベクトルＤ１１０１）に変換される。

【0113】

音の特徴量ベクトルＤ２２及びテキスト埋込ベクトルＤ１１０１は、時間周波数マスク生成部１１９ａに入力され、時間周波数マスクが生成される。

【0114】

混合信号の時間周波数領域表現Ｄ２１及び時間周波数マスクは、時間周波数マスク乗算部１１９ｂにて乗算され、抽出信号の時間周波数領域表現Ｄ４１が生成される。

【0115】

対象信号の時間周波数領域表現Ｄ１１及び抽出信号の時間周波数領域表現Ｄ４１が学習部１１９ｃに入力されると、特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルの各パラメータが学習され、これらの各パラメータが更新される。

【0116】

各パラメータが更新された特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルは、特徴量抽出モデルデータベース１２０、テキスト埋込抽出モデルデータベース１３０及び時間周波数マスク生成モデルデータベース１４０のそれぞれに格納される。

【0117】

（具体的作動）
学習サブシステム１１０の具体的作動について説明する。図１２は学習サブシステム１１０の処理フローの一例である。学習サブシステム１１０は、図１２の処理フローを実行する。学習サブシステム１１０は、訓練用データセットデータベース１６０から、対象信号の時間波形Ｄ１０、混合信号の時間波形Ｄ２０及び可変長の説明文テキストＤ１１００の三つ組みの集合を読み出すと、図１２のステップ１２００から処理を開始してステップ１２０１に進み、学習終了条件が成立しているか否かを判定する。学習終了条件は、以下に述べる条件１及び条件２の何れかの条件が成立する場合に成立する条件である。条件１は、所定の収束条件が成立する場合（例えば、収束判定用関数があらかじめ定められた閾値より小さい場合）、成立する条件である。条件２は、カウンタＣ１が閾値ＴｈＣより大きい（Ｃ１＞ＴｈＣ）場合に成立する条件である。なお、学習終了条件は、条件２のみであってもよい。

【0118】

学習終了条件が成立していない場合、学習サブシステム１１０は、ステップ１２０１にて「ＮＯ」と判定して以下に述べるステップ１２０２乃至ステップ１２１４の処理を順に実行した後、ステップ１２０１に戻る。

【0119】

ステップ１２０２：学習サブシステム１１０は、テキスト埋込抽出部１１９によって、最新のテキスト埋込抽出モデルを用いて、可変長の説明文テキストＤ１１００からテキスト埋込ベクトルＤ１１０１を計算する（抽出する。）。

【0120】

ステップ１２０３：学習サブシステム１１０は、混合信号フレーム分割処理部１１４によって、混合信号の時間波形のフレーム分割を行い、混合信号のフレーム分割信号を計算する（出力する。）。

【0121】

ステップ１２０４：学習サブシステム１１０は、混合信号窓関数乗算部１１５によって、窓関数乗算を行い、混合信号のフレーム分割信号を混合信号の窓関数乗算信号に変換する。

【0122】

ステップ１２０５：学習サブシステム１１０は、混合信号周波数領域信号生成部１１６によって、混合信号の窓関数乗算信号を混合信号の時間周波数領域表現Ｄ２１に変換する。

【0123】

ステップ１２０６：学習サブシステム１１０は、特徴量抽出部１１７によって、混合信号の時間周波数領域表現Ｄ２１から音の特徴量ベクトルＤ２２を計算する。本例では、学習サブシステム１１０は、特徴量抽出部１１７によって、最新の特徴量抽出モデルを用いて、混合信号の時間周波数領域表現Ｄ２１から音の特徴量ベクトルＤ２２を計算する。

【0124】

ステップ１２０７：学習サブシステム１１０は、時間周波数マスク生成部１１９ａによって、最新の時間周波数マスク生成モデルを用いて、音の特徴量ベクトルＤ２２とテキスト埋込ベクトルＤ１１０１とから、時間周波数マスクを生成する。

【0125】

ステップ１２０８：学習サブシステム１１０は、時間周波数マスク乗算部１１９ｂによって、混合信号の時間周波数領域表現Ｄ２１に時間周波数マスクを乗算することで、抽出信号の時間周波数領域表現Ｄ４１を生成する。

【0126】

ステップ１２０９：学習サブシステム１１０は、対象信号フレーム分割処理部１１１によって、対象信号の時間波形Ｄ１０のフレーム分割を行い、対象信号のフレーム分割信号を計算する（出力する。）。

【0127】

ステップ１２１０：学習サブシステム１１０は、対象信号窓関数乗算部１１２によって、窓関数乗算を行い、対象信号のフレーム分割信号を対象信号の窓関数乗算信号に変換する。

【0128】

ステップ１２１１：学習サブシステム１１０は、対象信号周波数領域信号生成部１１３によって短時間フーリエ変換を行い、対象信号の窓関数乗算信号を対象信号の時間周波数領域表現Ｄ１１に変換する。

【0129】

ステップ１２１２：学習サブシステム１１０は、学習部１１９ｃによって、抽出信号の時間周波数領域表現Ｄ４１と対象信号の時間周波数領域表現Ｄ１１との距離で定義される損失関数の値を最小化することで，特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデルの各パラメータ（ニューラルネットワーク（ＮＮ）の各パラメータ）を学習する（更新する。）。

【0130】

ステップ１２１３：学習サブシステム１１０は、収束しているかどうかを表す収束条件を計算する。なお、収束条件は、たとえば、損失関数の前回の反復時（学習時）からの変化の大きさにより定義される。もしくは、収束条件は、特徴量抽出モデル、テキスト埋込抽出モデル、時間周波数マスク生成モデルの各パラメータの、前回の反復時（学習時）からの変化の大きさにより定義される。なお、十分変化が小さければ収束と判断される（ステップ１２０１）。

【0131】

ステップ１２１４：学習サブシステム１１０は、現時点のカウンタＣ１の値を「１」だけ増加する。

【0132】

ステップ１２０１にて、学習終了条件が成立している場合、学習サブシステム１１０は、ステップ１２０１にて「ＹＥＳ」と判定してステップ１２１５に進み、特徴量抽出モデル、テキスト埋込抽出モデル及び時間周波数マスク生成モデル（ニューラルネットワーク（ＮＮ）の各パラメータ）を各データベースに保存する。その後、学習サブシステム１１０は、ステップ１２９５に進んで本処理フローを一旦終了する。

【0133】

＜音抽出サブシステム＞
（音抽出サブシステムの機能）
以下、音抽出サブシステム１５０の構成を、主として機能毎に説明する。図１３は音抽出サブシステム１５０の構成例を機能毎に説明するためのブロック図である。

【0134】

図１３に示すように、音抽出サブシステム１５０は、混合信号フレーム分割処理部１５１、混合信号窓関数乗算部１５２、混合信号周波数領域信号生成部１５３、特徴量抽出部１５４、時間周波数マスク生成部１５５、テキスト埋込抽出部１５７、時間周波数マスク乗算部１５８及び位相復元部１５９を含む。

【0135】

（作動の概要）
図１３に示すように、混合信号の時間波形Ｄ５０は、混合信号フレーム分割処理部１５１、混合信号窓関数乗算部１５２及び混合信号周波数領域信号生成部１５３に順に入力され、混合信号の時間周波数領域表現Ｄ５１に変換される。混合信号の時間周波数領域表現Ｄ５１は、特徴量抽出部１５４に入力され、音の特徴量ベクトルＤ５２に変換される。

【0136】

可変長の説明文テキストＤ１３００は、テキスト埋込抽出部１５７に入力され、説明文テキストＤ１３００の埋込ベクトルＤ１３０１（テキスト埋込ベクトルＤ１３０１）に変換される。音の特徴量ベクトルＤ５２及びテキスト埋込ベクトルＤ１３０１は時間周波数マスク生成部１５５に入力され、時間周波数マスクが生成される。

【0137】

混合信号の時間周波数領域表現Ｄ５１及び時間周波数マスクは、時間周波数マスク乗算部１５８にて乗算され、抽出信号の時間周波数領域表現Ｄ７１が生成される。抽出信号の時間周波数領域表現Ｄ７１が位相復元部１５９に入力され、抽出信号の時間波形Ｄ７２が生成される。

【0138】

（具体的作動）
図１４は音抽出サブシステム１５０の処理フローの一例である。音抽出サブシステム１５０は、図１４の処理フローを実行する。音抽出サブシステム１５０は、混合信号の時間波形Ｄ５０及び可変長の説明文テキストＤ１３００が入力されると、図１４のステップ１４００から処理を開始して以下に述べるステップ１４０１乃至ステップ１４０８の処理を順に実行した後、ステップ１４９５に進み、本処理フローを一旦終了する。

【0139】

ステップ１４０１：音抽出サブシステム１５０は、テキスト埋込抽出部１５７によって、最新のテキスト埋込抽出モデルを用いて、可変長の説明文テキストＤ１３００からテキスト埋込ベクトルＤ１３０１を計算する（抽出する。）。

【0140】

ステップ１４０２：音抽出サブシステム１５０は、混合信号フレーム分割処理部１５１によって、混合信号の時間波形のフレーム分割を行い、混合信号のフレーム分割信号を計算する（出力する。）。

【0141】

ステップ１４０３：音抽出サブシステム１５０は、混合信号窓関数乗算部１５２によって、窓関数乗算を行い、混合信号のフレーム分割信号を混合信号の窓関数乗算信号に変換する。

【0142】

ステップ１４０４：音抽出サブシステム１５０は、混合信号周波数領域信号生成部１５３によって、短時間フーリエ変換を行い、混合信号の窓関数乗算信号を混合信号の時間周波数領域表現Ｄ５１に変換する。

【0143】

ステップ１４０５：音抽出サブシステム１５０は、特徴量抽出部１５４によって、混合信号の時間周波数領域表現Ｄ５１から音の特徴量ベクトルＤ５２を計算する。本例では、音抽出サブシステム１５０は、特徴量抽出部１５４によって、最新の特徴量抽出モデルを用いて、混合信号の時間周波数領域表現Ｄ５１から音の特徴量ベクトルＤ５２を計算する。

【0144】

ステップ１４０６：音抽出サブシステム１５０は、時間周波数マスク生成部１５５によって、最新の時間周波数マスク生成モデルを用いて、音の特徴量ベクトルＤ５２及びテキスト埋込ベクトルＤ１３０１から、時間周波数マスクを生成する。

【0145】

ステップ１４０７：音抽出サブシステム１５０は、時間周波数マスク乗算部１５８によって、混合信号の時間周波数領域表現Ｄ５１に時間周波数マスクを乗算することで、抽出信号の時間周波数領域表現Ｄ７１を生成する。

【0146】

ステップ１４０８：音抽出サブシステム１５０は、公知のＧｒｉｆｆｉｎ－Ｌｉｍアルゴリズムなどを使用して、抽出信号の時間周波数領域表現Ｄ７１から、抽出信号の時間波形Ｄ７２を生成する。

【0147】

＜効果＞
以上説明したように、本発明の第４実施形態に係る音抽出システム１０００は、ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出（抽出ないし強調）することができる。第４実施形態に係る音抽出システム１０００は、このような基本構成とすることで、ある種類のイベントとしてユーザが抽出したい音の範囲を予め定義することができない場合であっても、音を抽出することが可能である。説明文は比較的汎用であり、適用現場を横断して使用されることができる。

【0148】

<<第５実施形態>>
本発明の第５実施形態に係る音抽出システム１５００について説明する。図１５は、本発明の第５実施形態に係る音抽出システム１５００の概略構成例を示すブロック構成図である。図１５に示すように、音抽出システム１５００は、学習サブシステム１１０と、信号抽出モデルデータベース１５１０と、テキスト埋込抽出モデルデータベース１３０と、音抽出サブシステム１５０と、訓練用データセットデータベース１６０と、を含む。図１に示す第１実施形態との相違点を説明する。学習サブシステム１１０は、学習処理を実行し、信号抽出モデルとテキスト埋込抽出モデルを出力して、それぞれのデータベースに格納する。即ち、学習サブシステム１１０は、信号抽出モデルを信号抽出モデルデータベース１５１０に格納し、テキスト埋込抽出モデルをテキスト埋込抽出モデルデータベース１３０に格納する。

【0149】

音抽出サブシステム１５０は、信号抽出モデル及びテキスト埋込抽出モデルをデータベース（信号抽出モデルデータベース１５１０及びテキスト埋込抽出モデルデータベース１３０）から読み出し、それらに基づいて（それらを用いて）音抽出処理を実行する。これにより、音抽出サブシステム１５０は、混合信号の時間波形と可変長の擬音語テキストから、抽出信号の時間波形を抽出する。更に、音抽出サブシステム１５０は、抽出信号の時間波形を出力する。

【0150】

＜学習サブシステム＞
（学習サブシステムの機能）
以下、学習サブシステム１１０の構成を、主として機能毎に説明する。図１６は学習サブシステム１１０の構成例を機能毎に説明するためのブロック図である。図１６に示すように、学習サブシステム１１０は、音素変換部１１８、テキスト埋込抽出部１１９、信号抽出部１６００及び学習部１１９ｃを含む。なお、音素変換部１１８、テキスト埋込抽出部１１９、信号抽出部１６００及び学習部１１９ｃは、情報処理装置２００のＲＯＭ２０２及び／又は記憶装置２０４に格納された図示しない各種プログラムによって構成される。

【0151】

信号抽出部１６００は、最新の信号抽出モデルを用いて、混合信号の時間波形Ｄ２０とテキスト埋込ベクトルＤ３２とから、抽出信号の時間波形Ｄ１６００を生成する。

【0152】

信号抽出モデルは、混合信号の時間波形Ｄ２０とテキスト埋込ベクトルＤ３２を入力として抽出信号の時間波形Ｄ１６００を出力するニューラルネットワークである。信号抽出モデルは、例えば、全結合層のみで構成されるニューラルネットワークであってもよく、複数の畳込み層、活性化関数、プーリング層が積層され、中間に自己注意層（Ｓｅｌｆ－ＡｔｔｅｎｔｉｏｎＬａｙｅｒ）やスキップコネクションを挟むニューラルネットワークであってもよい。第１実施形態のように時間周波数マスクを用いる場合、時間周波数表現が必要である。しかし、時間周波数表現は抽出精度の面で必ずしも適当ではない。それに対して、ここでの信号抽出モデルは、時間波形をニューラルネットワークに直接入力するため、訓練用データセットが十分大きければ、抽出精度が高い表現が得られるというメリットがある。

【0153】

また、全結合層のみで構成されるニューラルネットワークの場合、訓練用データセットの規模が大きい場合に抽出精度が高いというメリットがあり、複数の畳込み層、活性化関数、プーリング層が積層され、中間に自己注意層（Ｓｅｌｆ－ＡｔｔｅｎｔｉｏｎＬａｙｅｒ）やスキップコネクションを挟むニューラルネットワークの場合、訓練用データセットが小さくても抽出精度が高いというメリットがある。

【0154】

また、信号抽出モデルは、公知のＣｏｎｖ－ＴａｓＮｅｔのように、混合信号の時間波形Ｄ２０を入力して特徴量ベクトル時系列を出力するエンコーダと、特徴量ベクトル時系列と埋込ベクトルＤ３２を入力して時間軸と特徴量軸の２次元のマスク（時間特徴量マスク）を計算する時間特徴量マスク生成ニューラルネットワークと、時間特徴量マスクを特徴量ベクトル時系列に乗算して抽出後特徴量ベクトル時系列を計算する乗算機構と、抽出後特徴量ベクトル時系列を入力して抽出信号の時間波形Ｄ１６００を生成するデコーダとからなるモデルであっても構わない。エンコーダとデコーダはいずれも、たとえば、１次元畳込み層からなるニューラルネットワークである。また、時間特徴量マスク生成ニューラルネットワークは、全結合層のみで構成されるニューラルネットワークであってもよく、複数の畳込み層、活性化関数、プーリング層が積層され、中間に自己注意層（Ｓｅｌｆ－ＡｔｔｅｎｔｉｏｎＬａｙｅｒ）やスキップコネクションを挟むニューラルネットワークであってもよい。第１実施形態のように時間周波数マスクを用いる場合には、時間周波数表現が必要だが、時間周波数表現を用いると必ずしも高い抽出精度が期待できない。それに対して、ニューラルネットワークの内部で時間特徴量に変換する信号抽出モデルでは、抽出精度が高くなるように訓練した時間特徴量表現を用いるため、時間周波数表現を用いる場合よりも抽出精度が高くなるメリットがある。

【0155】

学習部１１９ｃは、抽出信号の時間波形Ｄ１６００と対象信号の時間波形Ｄ１０との距離で定義される損失関数の値を最小化することで、信号抽出モデル及びテキスト埋込抽出モデルの各パラメータを学習する。

【0156】

学習部１１９ｃは、更に、収束しているかどうかの判定に用いる収束判定用関数を計算する。例えば、収束判定用関数は、損失関数の値の前回の反復時（学習時）からの変化の大きさで定義される。また、収束判定用関数は、信号抽出モデルのパラメータの前回の反復時（学習時）からの変化の大きさ、テキスト埋込抽出モデルのパラメータの前回の反復時（学習時）からの変化の大きさ、あるいはこれらのそれぞれの積によって定義してもよい。十分変化が小さければ収束と判断される。例えば、収束判定用関数があらかじめ定められた閾値より小さければ収束と判断される。

【0157】

【0158】

【0159】

混合信号の時間波形Ｄ２０及びテキスト埋込ベクトルＤ３２は、信号抽出部１６００に入力され、抽出信号の時間波形Ｄ１６００が生成される。

【0160】

対象信号の時間波形Ｄ１０及び抽出信号の時間波形Ｄ１６００は、学習部１１９ｃに入力される。学習部１１９ｃにて、信号抽出モデル及びテキスト埋込抽出モデルの各パラメータが学習され、これらの各パラメータが更新される。各パラメータが更新された信号抽出モデル及びテキスト埋込抽出モデルは、信号抽出モデルデータベース１５１０及びテキスト埋込抽出モデルデータベース１３０のそれぞれに格納される。各パラメータが更新された信号抽出モデル及びテキスト埋込抽出モデルは、便宜上、「学習済みモデル」とも称呼される。

【0161】

（具体的作動）
学習サブシステム１１０の具体的作動について説明する。図１７は学習サブシステム１１０の処理フローの一例である。学習サブシステム１１０は、図１７の処理フローを実行する。学習サブシステム１１０は、訓練用データセットデータベース１６０から、対象信号の時間波形Ｄ１０、混合信号の時間波形Ｄ２０及び可変長の擬音語テキストＤ３０の三つ組みの集合を読み出すと、図１７のステップ１７００から処理を開始してステップ１７０１に進む。学習サブシステム１１０は、ステップ１７０１に進むと、音素変換部１１８によって、可変長の擬音語テキストＤ３０から音素変換処理により可変長の音素列Ｄ３１を計算する（擬音語テキストＤ３０を音素列Ｄ３１に変換する。）。

【0162】

その後、学習サブシステム１１０は、ステップ１７０２に進み、学習終了条件が成立しているか否かを判定する。学習終了条件は、以下に述べる条件１及び条件２の何れかの条件が成立する場合に成立する条件である。条件１は、所定の収束条件が成立する場合（例えば、収束判定用関数があらかじめ定められた閾値より小さい場合）、成立する条件である。条件２は、カウンタＣ１が閾値ＴｈＣより大きい（Ｃ１＞ＴｈＣ）場合に成立する条件である。なお、学習終了条件は、条件２のみであってもよい。

【0163】

学習終了条件が成立していない場合、学習サブシステム１１０は、ステップ１７０２にて「ＮＯ」と判定して以下に述べるステップ１７０３乃至ステップ１７０７の処理を順に実行した後、ステップ１７０２に戻る。

【0164】

ステップ１７０３：学習サブシステム１１０は、テキスト埋込抽出部１１９によって、最新のテキスト埋込抽出モデルを用いて、音素列Ｄ３１からテキスト埋込ベクトルＤ３２を計算する（抽出する。）。

【0165】

ステップ１７０４：学習サブシステム１１０は、信号抽出部１６００によって、最新の信号抽出モデルを用いて、混合信号の時間波形Ｄ２０とテキスト埋込ベクトルＤ３２とから、抽出信号の時間波形Ｄ１６００を生成する。

【0166】

ステップ１７０５：学習サブシステム１１０は、学習部１１９ｃによって、抽出信号の時間波形Ｄ１６００と対象信号の時間波形Ｄ１０との距離で定義される損失関数の値を最小化することで、信号抽出モデル及びテキスト埋込抽出モデルの各パラメータ（ニューラルネットワーク（ＮＮ）の各パラメータ）を学習する（即ち、各モデルを更新する。）。

【0167】

ステップ１７０６：学習サブシステム１１０は、学習部１１９ｃによって、収束しているかどうかを表す収束条件を計算する。なお、収束条件は、たとえば、損失関数の前回の反復時（学習時）からの変化の大きさにより定義される。もしくは、収束条件は、信号抽出モデル及びテキスト埋込抽出モデルの各パラメータの、前回の反復時（学習時）からの変化の大きさにより定義される。なお、十分変化が小さければ収束と判断される（ステップ１７０２。）。

【0168】

ステップ１７０７：学習サブシステム１１０は、現時点のカウンタＣ１の値を「１」だけ増加する。

【0169】

ステップ１７０２にて、学習終了条件が成立している場合、学習サブシステム１１０は、ステップ１７０２にて「ＹＥＳ」と判定してステップ１７０８に進み、信号抽出モデル及びテキスト埋込抽出モデル（ニューラルネットワーク（ＮＮ）の各パラメータ）を各データベース（信号抽出モデルデータベース１５１０及びテキスト埋込抽出モデルデータベース１３０）に保存する。その後、学習サブシステム１１０は、ステップ１７９５に進んで本処理フローを一旦終了する。

【0170】

＜音抽出サブシステム＞
（音抽出サブシステムの機能）
音抽出サブシステム１５０の構成を、主として機能毎に説明する。図１８は音抽出サブシステム１５０の構成例を機能毎に説明するためのブロック図である。

【0171】

図１８に示すように、音抽出サブシステム１５０は、音素変換部１５６、テキスト埋込抽出部１５７及び信号抽出部１８００を含む。なお、音素変換部１５６、テキスト埋込抽出部１５７及び信号抽出部１８００は、情報処理装置２００のＲＯＭ２０２及び／又は記憶装置２０４に格納された図示しない各種プログラムによって構成される。

【0172】

【0173】

【0174】

信号抽出部１８００は、最新の信号抽出モデルを用いて、混合信号の時間波形Ｄ５０とテキスト埋込ベクトルＤ６２とから、抽出信号の時間波形Ｄ７２を生成する。

【0175】

（具体的作動）
音抽出サブシステム１５０の具体的作動について説明する。図１９は音抽出サブシステム１５０の処理フローの一例である。音抽出サブシステム１５０は、図１９の処理フローを実行する。音抽出サブシステム１５０は、混合信号の時間波形Ｄ５０及び可変長の擬音語テキストＤ６０が入力されると、図１９のステップ１９００から処理を開始して以下に述べるステップ１９０１乃至ステップ１９０３の処理を順に実行した後、ステップ１９９５に進み、本処理フローを一旦終了する。

【0176】

ステップ１９０１：音抽出サブシステム１５０は、音素変換部１５６によって、可変長の擬音語テキストＤ６０から音素変換処理により可変長の音素列Ｄ６１を出力する（擬音語テキストＤ６０を音素列Ｄ６１に変換する。）。

【0177】

ステップ１９０２：音抽出サブシステム１５０は、テキスト埋込抽出部１５７によって、最新のテキスト埋込抽出モデルを用いて、音素列Ｄ６１からテキスト埋込ベクトルＤ６２を計算する（抽出する。）。

【0178】

ステップ１９０３：音抽出サブシステム１５０は、信号抽出部１８００によって、最新の信号抽出モデルを用いて、混合信号の時間波形Ｄ５０とテキスト埋込ベクトルＤ６２とから、抽出信号の時間波形Ｄ７２を生成する。

【0179】

＜効果＞
以上説明したように、本発明の第５実施形態に係る音抽出システム１５００は、ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出（抽出ないし強調）することができる。更に、第５実施形態に係る音抽出システム１５００は、無限通りのテキストを与えることが可能であり、無限通りの音の範囲を指定できる。従って、第５実施形態に係る音抽出システム１５００は、ある種類のイベントとしてユーザが抽出したい音の範囲を予め定義することができない場合であっても、ユーザが抽出したい音に対応するテキストを与えることによって、ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出することができる。更に、第５実施形態に係る音抽出システム１５００は、第１実施形態とは異なり、時間周波数表現を経由せず混合信号の時間波形Ｄ５０をニューラルネットワークに直接入力することで、時間周波数表現を用いることに伴う抽出精度低下を回避できる。また、第５実施形態に係る音抽出システム１５００は、位相復元処理を経由せずに抽出信号の時間波形Ｄ７２を生成するため、位相復元処理を経由することに伴う歪みが発生しない利点も有する。

【0180】

<<第６実施形態>>
本発明の第６実施形態に係る音抽出システム２０００について説明する。図２０は、本発明の第６実施形態に係る音抽出システム２０００の概略構成例を示すブロック構成図である。図２０に示すように、音抽出システム２０００は、以下の点のみにおいて、第５実施形態に係る音抽出システム１５００と相違点を有する。

【0181】

音抽出システム２０００では、第５実施形態に係る音抽出システム１５００の学習サブシステム１１０が省略され、予め一般の環境音と擬音語の対応データベースに基づいて学習された信号抽出モデル及びテキスト埋込抽出モデルが格納された信号抽出モデルデータベース２０１０及びテキスト埋込抽出モデルデータベース８３０が使用される。以下ではこの相違点を中心として説明する。

【0182】

図２０に示すように、音抽出システム２０００は、音抽出サブシステム１５０と、信号抽出モデルデータベース２０１０と、テキスト埋込抽出モデルデータベース８３０と、を含む。音抽出サブシステム１５０は、混合信号の時間波形及び可変長擬音語テキストが入力されると、既存の信号抽出モデル及びテキスト埋込抽出モデルを用いて、抽出信号の時間波形を出力する。なお、この処理の詳細は、既存の信号抽出モデル及びテキスト埋込抽出モデルを用いること以外、第５実施形態と同様であるので、説明を省略する。

【0183】

＜効果＞
以上説明したように、本発明の第６実施形態に係る音抽出システム２０００は、第５実施形態と同様、ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出（抽出ないし強調）することができる。また、第６実施形態に係る音抽出システム２０００は、時間周波数表現を経由せず混合信号の時間波形をニューラルネットワークに直接入力することで、時間周波数表現を用いることに伴う抽出精度低下を回避できる。また、第６実施形態に係る音抽出システム２０００は、位相復元処理を経由せずに抽出信号の時間波形を生成するため、位相復元処理を経由することに伴う歪みが発生しない利点も有する。更に、第６実施形態に係る音抽出システム２０００は、あらかじめ一般の環境音と擬音語の対応データベースに基づいて学習された信号抽出モデル及びテキスト埋込抽出モデルが使えるので、第５実施形態に係る音抽出システム１５００のような、学習サブシステム１１０による新規での学習処理は不要である。現場毎に新規での訓練データセットを構築する必要がないというメリットがある。

【0184】

<<第７実施形態>>
本発明の第７実施形態に係る音抽出システム２１００について説明する。図２１は、本発明の第７実施形態に係る音抽出システム２１００の概略構成例を示すブロック構成図である。図２１に示すように、音抽出システム２１００では、学習サブシステム１１０が、あらかじめ一般の環境音と擬音語の対応データベースに基づいて学習された既存の信号抽出モデル及びテキスト埋込抽出モデルが格納された信号抽出モデルデータベース２１１０及びテキスト埋込抽出モデルデータベース９３０を使用する。学習サブシステム１１０は、現場毎の学習用データセット（訓練データセット）を用いて学習することで、現場に合わせてモデルを最適化し、精度を向上させる。以上の点のみにおいて、第７実施形態に係る音抽出システム２１００は、第５実施形態に係る音抽出システム１５００と相違点を有する。従って、以下ではこの相違点を中心として説明する。

【0185】

図２１に示すように、音抽出システム２１００は、第５実施形態に係る音抽出システム１５００に対して、信号抽出モデルデータベース２１１０と、テキスト埋込抽出モデルデータベース９３０とが追加された構成を有する。なお、信号抽出モデルデータベース２１１０及びテキスト埋込抽出モデルデータベース９３０のそれぞれに格納された既存の各モデルは、便宜上、「初期の信号抽出モデル及び初期のテキスト埋込抽出モデル」とも称呼され、これらは「初期の学習済みモデル」とも称呼される。

【0186】

学習サブシステム１１０は、現場毎の学習用データセット（訓練データセット）を用いて学習することで、現場に合わせて、モデル（既存の信号抽出モデル及びテキスト埋込抽出モデル）を最適化し（更新し）、最適化した各モデルを、信号抽出モデルデータベース１５１０と、テキスト埋込抽出モデルデータベース１３０のそれぞれに格納する。

【0187】

音抽出サブシステム１５０は、混合信号の時間波形及び可変長擬音語テキストが入力されると、既存の信号抽出モデル及びテキスト埋込抽出モデルを最適化した各モデルを用いて、抽出信号の時間波形を出力する。なお、この処理の詳細は、既存のモデルを最適化した信号抽出モデル及びテキスト埋込抽出モデルを用いること以外、第５実施形態と同様であるので、説明を省略する。

【0188】

＜効果＞
以上説明したように、本発明の第７実施形態に係る音抽出システム２１００は、第５実施形態と同様、ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出（抽出ないし強調）することができる。また、第７実施形態に係る音抽出システム２１００は、時間周波数表現を経由せず混合信号の時間波形をニューラルネットワークに直接入力することで、時間周波数表現を用いることに伴う抽出精度低下を回避できる。また、第７実施形態に係る音抽出システム２１００は、位相復元処理を経由せずに抽出信号の時間波形を生成するため、位相復元処理を経由することに伴う歪みが発生しない利点も有する。更に、第７実施形態に係る音抽出システム２１００は、現場に応じて、モデルの精度を向上させつつ、既存のモデルを用いることで現場毎に新規で構築する訓練データセットは少数でよいというメリットがある。

【0189】

<<第８実施形態>>
本発明の第８実施形態に係る音抽出システム２２００について説明する。図２２は、本発明の第８実施形態に係る音抽出システム２２００の概略構成例を示すブロック構成図である。図２２に示すように、音抽出システム２２００は、音の範囲を表すテキストとして、擬音語の代わりに説明文（例えば、「カタカタの後にドーンと鳴る。」、「衝撃音の後にカタカタと鳴る。」等）のテキストを用いた点のみにおいて、第５実施形態に係る音抽出システム１５００と相違点を有する。従って、以下ではこの相違点を中心として説明する。

【0190】

＜学習サブシステム＞
（学習サブシステムの機能）
図２３は音抽出システム２２００の学習サブシステム１１０の構成例を機能毎に説明するためのブロック図である。図２３に示すように、学習サブシステム１１０は、テキスト埋込抽出部１１９、信号抽出部１６００及び学習部１１９ｃを含む。

【0191】

【0192】

【0193】

混合信号の時間波形Ｄ２０及びテキスト埋込ベクトルＤ１１０１は、信号抽出部１６００に入力され、抽出信号の時間波形Ｄ１６００が生成される。

【0194】

対象信号の時間波形Ｄ１０及び抽出信号の時間波形Ｄ１６００が学習部１１９ｃに入力されると、信号抽出モデル及びテキスト埋込抽出モデルの各パラメータが学習され、これらの各パラメータが更新される。

【0195】

各パラメータが更新された信号抽出モデル及びテキスト埋込抽出モデルは、信号抽出モデルデータベース１５１０及びテキスト埋込抽出モデルデータベース１３０のそれぞれに格納される。

【0196】

（具体的作動）
学習サブシステム１１０の具体的作動について説明する。図２４は学習サブシステム１１０の処理フローの一例である。学習サブシステム１１０は、図２４の処理フローを実行する。学習サブシステム１１０は、訓練用データセットデータベース１６０から、対象信号の時間波形Ｄ１０、混合信号の時間波形Ｄ２０及び可変長の説明文テキストＤ１１００の三つ組みの集合を読み出すと、図２４のステップ２４００から処理を開始してステップ２４０１に進み、学習終了条件が成立しているか否かを判定する。学習終了条件は、以下に述べる条件１及び条件２の何れかの条件が成立する場合に成立する条件である。条件１は、所定の収束条件が成立する場合（例えば、収束判定用関数があらかじめ定められた閾値より小さい場合）、成立する条件である。条件２は、カウンタＣ１が閾値ＴｈＣより大きい（Ｃ１＞ＴｈＣ）場合に成立する条件である。なお、学習終了条件は、条件２のみであってもよい。

【0197】

学習終了条件が成立していない場合、学習サブシステム１１０は、ステップ２４０１にて「ＮＯ」と判定して以下に述べるステップ２４０２乃至ステップ２４０６の処理を順に実行した後、ステップ２４０１に戻る。

【0198】

ステップ２４０２：学習サブシステム１１０は、テキスト埋込抽出部１１９によって、最新のテキスト埋込抽出モデルを用いて、可変長の説明文テキストＤ１１００からテキスト埋込ベクトルＤ１１０１を計算する（抽出する。）。

【0199】

ステップ２４０３：学習サブシステム１１０は、信号抽出部１６００によって、最新の信号抽出モデルを用いて、混合信号の時間波形Ｄ２０とテキスト埋込ベクトルＤ１１０１とから、抽出信号の時間波形Ｄ１６００を生成する。

【0200】

ステップ２４０４：学習サブシステム１１０は、学習部１１９ｃによって、抽出信号の時間波形Ｄ１６００と対象信号の時間波形Ｄ１０との距離で定義される損失関数の値を最小化することで、信号抽出モデル及びテキスト埋込抽出モデルの各パラメータ（ニューラルネットワーク（ＮＮ）の各パラメータ）を学習する（更新する。）。

【0201】

ステップ２４０５：学習サブシステム１１０は、収束しているかどうかを表す収束条件を計算する。なお、収束条件は、たとえば、損失関数の前回の反復時（学習時）からの変化の大きさにより定義される。もしくは、収束条件は、信号抽出モデル、テキスト埋込抽出モデルの各パラメータの、前回の反復時（学習時）からの変化の大きさにより定義される。なお、十分変化が小さければ収束と判断される（ステップ２４０１）。

【0202】

ステップ２４０６：学習サブシステム１１０は、現時点のカウンタＣ１の値を「１」だけ増加する。

【0203】

ステップ２４０１にて、学習終了条件が成立している場合、学習サブシステム１１０は、ステップ２４０１にて「ＹＥＳ」と判定してステップ２４０７に進み、信号抽出モデル及びテキスト埋込抽出モデル（ニューラルネットワーク（ＮＮ）の各パラメータ）を各データベースに保存する。その後、学習サブシステム１１０は、ステップ２４９５に進んで本処理フローを一旦終了する。

【0204】

＜音抽出サブシステム＞
（音抽出サブシステムの機能）
以下、音抽出サブシステム１５０の構成を、主として機能毎に説明する。図２５は音抽出サブシステム１５０の構成例を機能毎に説明するためのブロック図である。

【0205】

図２５に示すように、音抽出サブシステム１５０は、テキスト埋込抽出部１５７及び信号抽出部１８００を含む。

【0206】

（作動の概要）
図２５に示すように、可変長の説明文テキストＤ１３００は、テキスト埋込抽出部１５７に入力され、説明文テキストＤ１３００の埋込ベクトルＤ１３０１（テキスト埋込ベクトルＤ１３０１）に変換される。混合信号の時間波形Ｄ５０及びテキスト埋込ベクトルＤ１３０１は信号抽出部１８００に入力され、抽出信号の時間波形Ｄ７２が生成される。

【0207】

（具体的作動）
図２６は音抽出サブシステム１５０の処理フローの一例である。音抽出サブシステム１５０は、図２６の処理フローを実行する。音抽出サブシステム１５０は、混合信号の時間波形Ｄ５０及び可変長の説明文テキストＤ１３００が入力されると、図２６のステップ２６００から処理を開始して以下に述べるステップ２６０１及びステップ２６０２の処理を順に実行した後、ステップ２６９５に進み、本処理フローを一旦終了する。

【0208】

ステップ２６０１：音抽出サブシステム１５０は、テキスト埋込抽出部１５７によって、最新のテキスト埋込抽出モデルを用いて、可変長の説明文テキストＤ１３００からテキスト埋込ベクトルＤ１３０１を計算する（抽出する。）。

【0209】

ステップ２６０２：音抽出サブシステム１５０は、信号抽出部１８００によって、最新の信号抽出モデルを用いて、混合信号の時間波形Ｄ５０及びテキスト埋込ベクトルＤ１３０１から、抽出信号の時間波形Ｄ７２を生成する。

【0210】

＜効果＞
以上説明したように、本発明の第８実施形態に係る音抽出システム２２００は、ユーザが抽出したい音に対応する信号を、混合信号から精度よく抽出（抽出ないし強調）することができる。第８実施形態に係る音抽出システム２２００は、このような基本構成とすることで、ある種類のイベントとしてユーザが抽出したい音の範囲を予め定義することができない場合であっても、音を抽出することが可能である。説明文は比較的汎用であり、適用現場を横断して使用されることができる。また、第８実施形態に係る音抽出システム２２００は、時間周波数表現を経由せず混合信号の時間波形をニューラルネットワークに直接入力することで、時間周波数表現を用いることに伴う抽出精度低下を回避できる。また、第８実施形態に係る音抽出システム２２００は、位相復元処理を経由せずに抽出信号の時間波形を生成するため、位相復元処理を経由することに伴う歪みが発生しない利点も有する。

【0211】

<<変形例>>
本発明は上記各実施形態に限定されることなく、本発明の範囲内において種々の変形例を採用することができる。更に、上記各実施形態は、本発明の範囲を逸脱しない限り、互いに組み合わせることが可能である。更に、本発明の範囲内で、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能である。更に、本発明の範囲内で、ある実施形態の構成に他の実施形態の構成を加えることも可能である。更に、本発明の範囲内で、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

【0212】

更に、上記各実施形態において、音抽出サブシステム１５０に入力されるテキストは、キーボードなどの操作装置を操作することによって入力されるようにしてもよい。更に、上記各実施形態において、音抽出サブシステム１５０入力されるテキストは、音声認識技術によって、人の音声をテキストに変換することによって入力されるようにしてもよい。更に、上記各実施形態において、音抽出サブシステム１５０に入力される混合信号は、マイクロフォンなどの音響機器から入力されるようにしてもよい。

【符号の説明】

【0213】

１００…音抽出システム、１１０…学習サブシステム、１２０…特徴量抽出モデルデータベース、１３０…テキスト埋込抽出モデルデータベース、１４０…時間周波数マスク生成モデルデータベース、１５０…音抽出サブシステム、１６０…訓練用データセットデータベース

【図1】