特許7574760 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7574760目的信号抽出装置、目的信号抽出方法、学習装置、学習方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-21

(45)【発行日】2024-10-29

(54)【発明の名称】目的信号抽出装置、目的信号抽出方法、学習装置、学習方法及びプログラム

(51)【国際特許分類】

G10L 21/0272 20130101AFI20241022BHJP

G10L 25/30 20130101ALI20241022BHJP

【ＦＩ】

G10L21/0272 100Z

G10L25/30

【請求項の数】 7

(21)【出願番号】P 2021129604

(22)【出願日】2021-08-06

(65)【公開番号】P2023023781

(43)【公開日】2023-02-16

【審査請求日】2023-08-03

【新規性喪失の例外の表示】特許法第３０条第２項適用ａｒｘｉｖウェブサイトｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２１０６．０７１４４ウェブサイト掲載日２０２１年６月１４日

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】デルクロアマーク

(72)【発明者】

【氏名】落合翼

(72)【発明者】

【氏名】木下慶介

(72)【発明者】

【氏名】荒木章子

(72)【発明者】

【氏名】ホルヘヤコボベナサールヴァズケズ

【審査官】土井悠生

(56)【参考文献】

【文献】国際公開第２０１９／０１７４０３（ＷＯ，Ａ１）

【文献】国際公開第２０１１／０６４９３８（ＷＯ，Ａ１）

【文献】中国特許出願公開第１１１７８５２９１（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

【請求項2】

目的信号抽出装置によって実行される目的信号抽出方法であって、
抽出対象の目的音信号に対応付けられたクラスが既知のものであるか否かを判定する判定工程と、
前記判定工程によって前記クラスが既知のものでないと判定された場合は、登録済みの音信号を、第１のモデルにより埋め込み情報に変換し、前記判定工程によって前記クラスが既知のものであると判定された場合は、前記クラスを特定するための情報を、第２のモデルにより埋め込み情報に変換する変換工程と、
前記変換工程によって変換された埋め込み情報を用いて、抽出用のニューラルネットワークにより、混合音信号から目的音信号を抽出する抽出工程と、
を含むことを特徴とする目的信号抽出方法。

【請求項3】

抽出対象の目的音信号に対応付けられたクラスが既知のものであるか否かを判定する判定部と、
前記判定部によって前記クラスが既知のものでないと判定された場合は、登録済みの音信号を、第１のモデルにより埋め込み情報に変換し、前記判定部によって前記クラスが既知のものであると判定された場合は、前記クラスを特定するための情報を、第２のモデルにより埋め込み情報に変換する変換部と、
前記変換部によって変換された埋め込み情報を用いて、抽出用のニューラルネットワークにより、混合音信号から目的音信号を抽出する抽出部と、
前記判定部によって前記クラスが既知のものでないと判定された場合は、前記目的音信号を基に前記第１のモデル及び前記抽出用のニューラルネットワークのパラメータを更新し、前記判定部によって前記クラスが既知のものであると判定された場合は、前記目的音信号を基に前記第２のモデル及び前記抽出用のニューラルネットワークのパラメータを更新する更新部と、
を有することを特徴とする学習装置。

【請求項4】

前記更新部は、前記第１のモデルにより前記登録済みの音信号から変換された埋め込み情報と前記第２のモデルにより前記クラスを特定するための情報から変換された埋め込み情報とがかい離しているほど大きくなる項を含む損失関数が小さくなるように、各パラメータを更新することを特徴とする請求項３に記載の学習装置。

【請求項5】

前記変換部は、前記判定部によって前記クラスが既知のものでないと判定された場合は、前記第１のモデルにより、登録された音信号を第１のベクトルに変換し、前記判定部によって前記クラスが既知のものであると判定された場合は、前記第２のモデルに含まれる行列であって、前記第１のベクトルのサイズと列サイズが等しい行列により、前記クラスを特定する1-hotベクトルを前記第１のベクトルと同じサイズのベクトルに変換し、
前記更新部は、前記判定部によって前記クラスが既知のものでないと判定された場合は、前記目的音信号を基に前記第１のモデル及び前記抽出用のニューラルネットワークのパラメータを更新し、さらに前記行列に、前記第１のベクトルに基づき列を追加し、前記判定部によって前記クラスが既知のものであると判定された場合は、前記目的音信号を基に前記第２のモデル及び前記抽出用のニューラルネットワークのパラメータを更新することを特徴とする請求項３又は４に記載の学習装置。

【請求項6】

学習装置によって実行される学習方法であって、
抽出対象の目的音信号に対応付けられたクラスが既知のものであるか否かを判定する判定工程と、
前記判定工程によって前記クラスが既知のものでないと判定された場合は、登録済みの音信号を、第１のモデルにより埋め込み情報に変換し、前記判定工程によって前記クラスが既知のものであると判定された場合は、前記クラスを特定するための情報を、第２のモデルにより埋め込み情報に変換する変換工程と、
前記変換工程によって変換された埋め込み情報を用いて、抽出用のニューラルネットワークにより、混合音信号から目的音信号を抽出する抽出工程と、
前記判定工程によって前記クラスが既知のものでないと判定された場合は、前記目的音信号を基に前記第１のモデル及び前記抽出用のニューラルネットワークのパラメータを更新し、前記判定工程によって前記クラスが既知のものであると判定された場合は、前記目的音信号を基に前記第２のモデル及び前記抽出用のニューラルネットワークのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。

【請求項7】

コンピュータは、請求項１に記載の目的信号抽出装置、又は請求項３から５のいずれか１項に記載の学習装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、目的信号抽出装置、目的信号抽出方法、学習装置、学習方法及びプログラムに関する。

【背景技術】

【0002】

人の声、車の音、犬の鳴き声等、多数の種類（以下、音響クラス）の音の信号が混ざった混合音の信号（以下、混合音信号）から、ユーザが望む音響クラスの目的音の信号（以下、目的音信号）を抽出する技術が知られている。

【0003】

例えば、非特許文献１には、混合音から目的音を抽出するためのニューラルネットワーク（ＮＮ）であるメインＮＮと、補助入力から音響クラスの埋め込み情報を得るためのＮＮである補助ＮＮとを用いる技術が記載されている。

【0004】

非特許文献１に記載の方法では、補助入力として、あらかじめ録音（登録；Enrollment）された音信号が用いられ、Enrollment encoderが、補助入力を当該音信号の属する音響クラスに対応する埋め込み情報に変換する。さらに、非特許文献１に記載の方法では、当該埋め込み情報をメインＮＮで用いることで、入力の混合音信号から補助入力に類似する目的音信号が抽出される。

【0005】

また、例えば非特許文献２に記載の技術では、非特許文献１に記載の技術と同様にメインＮＮと補助ＮＮが用いられるが、補助入力として、ユーザ指定の音響クラスを表現する1-hotベクトルを用いられる。非特許文献２に記載の技術において、補助ＮＮは、線形変換を行う1-hot encoderで構成される。1-hot encoderは、1-hotベクトルである補助入力を埋め込み情報に変換する。

【0006】

非特許文献２に記載の技術では、当該補助入力である1-hotベクトルの要素のうち、ユーザが希望する音響クラスに対応する要素の値のみを１とすることで、当該音響クラスに対応する埋め込み情報が補助ＮＮで生成される。また、当該埋め込み情報をメインＮＮで用いることで、当該音響クラスに対応する目的音信号が入力の混合音信号から抽出される。

【先行技術文献】

【非特許文献】

【0007】

【文献】M. Delcroix, T. Ochiai, K. Zmolikova, K. Kinoshita, N. Tawara, T. Nakatani, and S. Araki, “Improving speaker discrimination of target speech extraction with time-domain speakerbeam,” in Proc.of ICASSP, 2020, pp. 691-695.

【文献】T. Ochiai, M. Delcroix, Y. Koizumi, H. Ito, K. Kinoshita, and S. Araki, “Listen to what you want: Neural network-based universal sound selector,” in Proc. Interspeech, pp. 2718-2722, 2020.

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかしながら、従来の技術には、未知の音響クラス及び既知の音響クラスの両方について、精度良く目的音を抽出することが難しい場合があるという問題がある。

【0009】

例えば非特許文献２の技術は、音響クラスを表現する1-hotベクトルを補助入力として用いているため、既知の音響クラスについては精度良く目的音信号を抽出することができるが、原理上、未知の音響クラスに対応する目的音信号を抽出することはできない。

【0010】

なお、未知の音響クラスは、補助入力の1-hotベクトルに対応する要素が存在しない音響クラスということができる。また、既知の音響クラスは、補助入力の1-hotベクトルに対応する要素が存在する音響クラスということができる。

【0011】

一方で、例えば非特許文献１に記載の技術は、補助入力の波形に類似する音を抽出するように学習されるため、学習データになかった未知の音響クラスについても目的音信号を抽出することができるが、学習時に音響クラスについての情報を陽に用いていないため、精度に限界がある。

【課題を解決するための手段】

【0012】

上述した課題を解決し、目的を達成するために、目的信号抽出装置は、抽出対象の目的音信号に対応付けられたクラスが既知のものであるか否かを判定する判定部と、前記判定部によって前記クラスが既知のものでないと判定された場合は、登録済みの音信号を、第１のモデルにより埋め込み情報に変換し、前記判定部によって前記クラスが既知のものであると判定された場合は、前記クラスを特定するための情報を、第２のモデルにより埋め込み情報に変換する変換部と、前記変換部によって変換された埋め込み情報を用いて、抽出用のニューラルネットワークにより、混合音信号から目的音信号を抽出する抽出部と、を有することを特徴とする。

【0013】

上述した課題を解決し、目的を達成するために、学習装置は、抽出対象の目的音信号に対応付けられたクラスが既知のものであるか否かを判定する判定部と、前記判定部によって前記クラスが既知のものでないと判定された場合は、登録済みの音信号を、第１のモデルにより埋め込み情報に変換し、前記判定部によって前記クラスが既知のものであると判定された場合は、前記クラスを特定するための情報を、第２のモデルにより埋め込み情報に変換する変換部と、前記変換部によって変換された埋め込み情報を用いて、抽出用のニューラルネットワークにより、混合音信号から目的音信号を抽出する抽出部と、前記判定部によって前記クラスが既知のものでないと判定された場合は、前記目的音信号を基に前記第１のモデル及び前記抽出用のニューラルネットワークのパラメータを更新し、前記判定部によって前記クラスが既知のものであると判定された場合は、前記目的音信号を基に前記第２のモデル及び前記抽出用のニューラルネットワークのパラメータを更新する更新部と、を有することを特徴とする。

【発明の効果】

【0014】

本発明によれば、未知の音響クラス及び既知の音響クラスの両方について、精度良く目的音を抽出することができる。

【図面の簡単な説明】

【0015】

【図1】図１は、第１の実施形態に係る目的信号抽出装置の構成例を示す図である。

【図2】図２は、モデルの構成例を示す図である。

【図3】図３は、モデルの構成の変形例を説明する図である。

【図4】図４は、第１の実施形態に係る目的信号抽出装置の処理の流れを示すフローチャートである。

【図5】図５は、第１の実施形態に係る学習装置の構成例を示す図である。

【図6】図６は、埋め込み行列の拡張方法を説明する図である。

【図7】図７は、埋め込み行列の拡張方法を説明する図である。

【図8】図８は、無音情報の出力による精度の変化を示す図である。

【図9】図９は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。

【図10】図１０は、実験結果を示す図である。

【図11】図１１は、実験結果を示す図である。

【図12】図１２は、実験結果を示す図である。

【図13】図１３は、プログラムを実行するコンピュータの一例を示す図である。

【発明を実施するための形態】

【0016】

以下に、本願に係る目的信号抽出装置、目的信号抽出方法、学習装置、学習方法及びプログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

【0017】

［第１の実施形態］
［目的信号抽出装置］
まず、図１を用いて、第１の実施形態に係る目的信号抽出装置の構成について説明する。図１は、第１の実施形態に係る目的信号抽出装置の構成例を示す図である。目的信号抽出装置１０は、混合音信号の入力を受け付け、目的音信号を出力する。

【0018】

前述の通り、混合音信号は、人の声、車の音、犬の鳴き声等、多数の種類（以下、音響クラス）の音の信号が混ざった混合音の信号である。また、目的音信号は、所定の音響クラスの音の信号である。

【0019】

例えば、混合音信号の入力とともに、音響クラスとして犬の鳴き声が指定された場合、目的信号抽出装置１０は、混合音信号の元となった混合音に含まれる犬の鳴き声に相当する信号を抽出する。

【0020】

図１に示すように、目的信号抽出装置１０は、インタフェース部１１、記憶部１２及び制御部１３を有する。

【0021】

インタフェース部１１は、データの入力及び出力のためのインタフェースである。例えば、インタフェース部１１はＮＩＣ（Network Interface Card）である。インタフェース部１１は他の装置との間でデータの送受信を行うことができる。

【0022】

また、インタフェース部１１は、マウスやキーボード等の入力装置と接続されていてもよい。また、インタフェース部１１は、ディスプレイ及びスピーカ等の出力装置と接続されていてもよい。

【0023】

記憶部１２は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスク等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random Access Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non Volatile Static Random Access Memory）等のデータを書き換え可能な半導体メモリであってもよい。

【0024】

記憶部１２は、目的信号抽出装置１０で実行されるＯＳ（Operating System）や各種プログラムを記憶する。例えば、記憶部１２はモデル情報１２１を記憶する。

【0025】

モデル情報１２１は、後述するモデルを構築するための情報である。モデル情報１２１には、ニューラルネットワークを構築するための重み等のパラメータが含まれる。

【0026】

制御部１３は、目的信号抽出装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の電子回路や、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等の集積回路である。

【0027】

また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。

【0028】

制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、判定部１３１、登録型変換部１３２、1-hot型変換部１３３及び抽出部１３４を有する。

【0029】

ここで、図２を用いて、モデルの構成例を示すとともに、制御部１３の各部の処理について説明する。図２は、モデルの構成例を示す図である。

【0030】

目的信号抽出装置１０は、モデル情報１２１を基に、図２に示すモデルを構築する。図２に示すように、モデルには、抽出用ＮＮ（Neural network）及び補助ＮＮが含まれる。

【0031】

なお、抽出用ＮＮ及び補助ＮＮは、少なくとも一部にＮＮを含むが、必ずしも全ての計算過程がＮＮによって実現される必要はない。

【0032】

図２に示すように、抽出用ＮＮは、エンコーダ５１、変換ブロック５２、変換ブロック５３及びデコーダ５４を含む。

【0033】

エンコーダ５１は、音信号を所定の特徴空間にマッピング、すなわち音信号を特徴量ベクトルに変換するニューラルネットワークである。

【0034】

変換ブロック５２及び変換ブロック５３は、１次元の畳み込み及び正規化等を行うための層の集合である。例えば、変換ブロック５２が１つの畳み込み層を含み、変換ブロック５３が３つの畳み込み層を含んでいてもよい。

【0035】

なお、変換ブロック５２及び変換ブロック５３は、畳み込み層の代わりに、ＢＬＳＴＭ（Bidirectional Long Short-Term Memory）及びTransformer等の他のネットワーク構造を用いて変換を行うものであってもよい。

【0036】

デコーダ５４は、所定の特徴空間上の特徴量を音信号の空間にマッピングする、すなわち特徴量ベクトルを音信号に変換するニューラルネットワークである。

【0037】

なお、エンコーダ５１及びデコーダ５４は、ニューラルネットワークに限られず、例えば、それぞれＳＴＦＴ（Short Time Fourier Transform）及びｉＳＴＦＴ（inverse Short Time Fourier Transform）を計算する処理部であってもよい。

【0038】

エンコーダ５１、デコーダ５４及び各変換ブロックの構成は、参考文献１（Y. Luo and N. Mesgarani, “Conv-TasNet: Surpassing ideal time-frequency magnitude masking for speech separation,” IEEE/ACM Trans. ASLP, vol. 27, no. 8, pp. 1256-1266, 2019.）に記載の構成と同様であってもよい。

【0039】

なお、抽出用ＮＮは、非特許文献１及び非特許文献２に記載の抽出用ネットワーク（例えば、Extraction net）と同様の構成を有するものであってもよい。

【0040】

図２に示すように、補助ＮＮは、登録エンコーダ６１及び1-hotエンコーダ６２を含む。

【0041】

登録エンコーダ６１は、音信号の入力を受け付け、埋め込み情報を出力する。例えば、登録エンコーダ６１は、エンコーダ及び畳み込み層を有し、畳み込み層の出力の時間平均を計算する。

【0042】

登録エンコーダ６１は、非特許文献１に記載の補助ネットワーク（例えば、Auxilary net）と同様の処理を行うものであってもよい。

【0043】

登録エンコーダ６１に入力される登録済みの音信号ａは、混合音から抽出される目的音の信号のサンプルということができる。

【0044】

例えば、混合音から目的音として犬の鳴き声を抽出する場合、登録エンコーダ６１には、犬の鳴き声の音信号が登録済みの音信号ａとして入力される。なお、登録済みの音信号ａに対応する鳴き声は、目的音の鳴き声を発する犬のものでなく、他の犬のものであってもよい。

【0045】

1-hotエンコーダ６２は、1-hotベクトルの入力を受け付け、埋め込み情報を出力する。例えば、1-hotエンコーダ６２は、モデル情報１２１に含まれる埋め込み行列と入力された1-hotベクトルを掛けることによりベクトルである埋め込み情報を計算する。

【0046】

1-hotエンコーダ６２は、非特許文献２に記載の埋め込み層（例えば、Embedding）と同様の処理を行うものであってもよい。

【0047】

1-hotベクトルは、各要素（次元）が音響クラスに対応し、抽出対象の音響クラスに対応する要素のみが１であり、他の要素が０であるベクトルである。

【0048】

例えば、1-hotベクトル[0_knock, 1_guitar, 0_cough]は、抽出対象の音響クラスが「guitar」であることを意味している。なお、上記の1-hotベクトルにおける各要素の下付きの文字は、対応する音響クラスを説明するために付されたラベルであり、実際の各要素の値は１又は０である。

【0049】

ここで、目的信号抽出装置１０が混合音信号ｙから目的音信号＾ｘ（ｘの直上に＾）を抽出する場合を考える。

【0050】

まず、判定部１３１は、抽出対象の目的音信号に対応付けられたクラス（音響クラス）が既知のものであるか否かを判定する。

【0051】

例えば、目的音信号に対応付けられた音響クラスは、ユーザが抽出することを所望する目的音信号の音響クラスである。

【0052】

【0053】

例えば、判定部１３１は、混合音信号ｙとともに、いずれかの要素が１であり他の要素が０である1-hotベクトルが与えられている場合、既知の音響クラスが抽出対象の目的音信号に対応付けられていると判定する。

【0054】

また、例えば、判定部１３１は、混合音信号ｙとともに、全ての要素が０である1-hotベクトルが与えられている場合、未知の音響クラスが抽出対象の目的音信号に対応付けられていると判定する。

【0055】

また、例えば、判定部１３１は、1-hotベクトルが与えられていない場合、未知の音響クラスが抽出対象の目的音信号に対応付けられていると判定する。

【0056】

また、例えば、判定部１３１は、1-hotベクトルとは別に与えられるフラグによって、抽出対象の目的音信号に対応付けられた音響クラスが既知のものであるか否かを判定してもよい。

【0057】

登録型変換部１３２は、判定部１３１によって音響クラスが既知のものでないと判定された場合は、登録済みの音信号ａを、登録エンコーダ６１により埋め込み情報ｅ^ｅｎｒｌに変換する。登録エンコーダ６１は、第１のモデルの一例である。

【0058】

1-hot型変換部１３３は、判定部１３１によってクラスが既知のものであると判定された場合は、クラスを特定するための情報、すなわち1-hotベクトルｏを、1-hotエンコーダ６２により埋め込み情報ｅ^{１－ｈｏｔ}に変換する。1-hotエンコーダ６２は、第２のモデルの一例である。

【0059】

抽出部１３４は、登録型変換部１３２又は1-hot型変換部１３３によって変換された埋め込み情報ｅを用いて、（１）式に示すように、抽出用ＮＮであるｆ（・）により、混合音信号ｙから目的音信号＾ｘを抽出する。登録型変換部１３２又は1-hot型変換部１３３を合わせて変換部と呼ぶ場合がある。

【0060】

【数1】

【0061】

埋め込み情報ｅは、埋め込み情報ｅ^{１－ｈｏｔ}又は埋め込み情報ｅ^ｅｎｒｌであり、ベクトルである。

【0062】

1-hot型変換部１３３は、（２）式により埋め込み情報ｅ^{１－ｈｏｔ}を計算することができる。

【0063】

【数2】

【0064】

Ｂ×Ｎの埋め込み行列Ｗは、（３）式のように表される。Ｂはベクトルである埋め込み情報のサイズであり、Ｎは既知の音響クラスの数である。

【0065】

【数3】

【0066】

また、登録型変換部１３２は、（４）式により埋め込み情報ｅ^ｅｎｒｌを計算することができる。ｇ（・）はニューラルネットワークである。

【0067】

【数4】

【0068】

また、抽出部１３４は、いずれもベクトルである変換ブロック５２の出力ｚと埋め込み情報ｅとの要素ごとの積を計算し、その結果を変換ブロック５３に入力する。これにより、抽出部１３４は、抽出用ＮＮを音響クラスに適応させる。

【0069】

目的音信号の抽出の際には、混合音信号ｙとともに、抽出対象の目的音信号の音響クラスを特定するための情報として、登録済みの音信号ａ及び1-hotベクトルｏのうちの少なくともいずれかが与えられるものとする。

【0070】

図３は、モデルの構成の変形例を説明する図である。図３に示すように、登録エンコーダ及び1-hotエンコーダは複数であってもよい。図３は、モデルの構成の変形例を説明する図である。

【0071】

例えば、登録型変換部１３２は、複数の登録エンコーダから出力されるベクトルを加算したベクトルを抽出用ＮＮに対して出力してもよい。

【0072】

例えば、1-hot型変換部１３３は、複数の1-hotエンコーダから出力されるベクトルを加算したベクトルを抽出用ＮＮに対して出力してもよい。例えば、互いに異なるｍ個の1-hotベクトルが入力されることは、m-hotベクトルが入力されることと等価である。

【0073】

図４は、第１の実施形態に係る目的信号抽出装置の処理の流れを示すフローチャートである。図４に示すように、目的信号抽出装置１０は、入力混合音信号、登録型補助入力、1-hot型補助入力、指定クラスの入力を受け付ける（ステップＳ１０１）。

【0074】

登録型補助入力及び1-hot型補助入力は、それぞれ登録済みの音信号ａ及び1-hotベクトルｏに相当し、いずれかが入力されればよい。

【0075】

また、指定クラスは、抽出対象の目的音信号に対応付けた音響クラスであり、目的信号抽出装置１０によって解釈可能であれば、どのような方法で指定されていてもよい。

【0076】

次に、目的信号抽出装置１０は、指定クラスが既知であるか否かを判定する（ステップＳ１０２）。

【0077】

指定クラスが既知である場合（ステップＳ１０２、Ｙｅｓ）、目的信号抽出装置１０は、1-hotエンコーダ６２により埋め込み情報を計算する（ステップＳ１０３）。すなわち、目的信号抽出装置１０は、1-hot型補助入力を埋め込み情報に変換する。

【0078】

指定クラスが既知でない場合（ステップＳ１０２、Ｎｏ）、目的信号抽出装置１０は、登録エンコーダ６１により埋め込み情報を計算する（ステップＳ１０４）。すなわち、目的信号抽出装置１０は、登録型補助入力を埋め込み情報に変換する。

【0079】

そして、目的信号抽出装置１０は、埋め込み情報を用いて抽出用ＮＮにより目的音信号を抽出する（ステップＳ１０５）。

【0080】

［学習装置］
ここで、目的信号抽出装置１０のモデル情報１２１を生成するための学習処理を行う学習装置について説明する。図５は、第１の実施形態に係る学習装置の構成例を示す図である。学習装置２０は、学習用の混合音信号等の入力を受け付け、更新済みのモデル情報を出力する。

【0081】

図５に示すように、学習装置２０は、インタフェース部２１、記憶部２２及び制御部２３を有する。

【0082】

インタフェース部２１は、データの入力及び出力のためのインタフェースである。例えば、インタフェース部２１はＮＩＣである。インタフェース部２１は他の装置との間でデータの送受信を行うことができる。

【0083】

また、インタフェース部２１は、マウスやキーボード等の入力装置と接続されていてもよい。また、インタフェース部２１は、ディスプレイ及びスピーカ等の出力装置と接続されていてもよい。

【0084】

記憶部２２は、ＨＤＤ、ＳＳＤ、光ディスク等の記憶装置である。なお、記憶部２２は、ＲＡＭ、フラッシュメモリ、ＮＶＳＲＡＭ等のデータを書き換え可能な半導体メモリであってもよい。

【0085】

記憶部２２は、目的信号抽出装置１０で実行されるＯＳや各種プログラムを記憶する。例えば、記憶部２２はモデル情報２２１を記憶する。

【0086】

モデル情報２２１は、図２に示すモデルを構築するための情報である。モデル情報２２１には、ニューラルネットワークを構築するための重み等のパラメータが含まれる。モデル情報２２１は、学習装置２０によって更新される。

【0087】

制御部２３は、目的信号抽出装置１０全体を制御する。制御部２３は、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ等の電子回路や、ＡＳＩＣ、ＦＰＧＡ等の集積回路である。

【0088】

また、制御部２３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。

【0089】

制御部２３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部２３は、判定部２３１、登録型変換部２３２、1-hot型変換部２３３、抽出部２３４及び更新部２３５を有する。

【0090】

判定部２３１、登録型変換部２３２、1-hot型変換部２３３、抽出部２３４は、それぞれ目的信号抽出装置１０の判定部２３１、登録型変換部２３２、1-hot型変換部２３３、抽出部２３４と同様の処理を行う。

【0091】

ただし、登録型変換部２３２及び1-hot型変換部２３３は、判定部２３１の判定結果によらず、学習処理における制御に従って適宜処理を行ってもよい。

【0092】

例えば、学習装置２０は、混合音信号、正解の目的音信号、目的音信号に対応する音響クラスの登録済みの音信号、目的音信号に対応する音響クラスを特定する1-hotベクトルを学習データとして用いる。なお、学習データには、登録済みの音信号及び1-hotベクトルのいずれかが含まれていればよい。

【0093】

更新部２３５は、あらかじめ定められた学習基準に従い、誤差伝搬法等の手法により、抽出用ＮＮ及び補助ＮＮのパラメータ、すなわちモデル情報２２１を更新する。

【0094】

更新部２３５は、判定部２３１によってクラスが既知のものでないと判定された場合は、目的音信号を基に登録エンコーダ６１及び抽出用ＮＮのパラメータを更新し（第１の更新処理）、判定部２３１によってクラスが既知のものであると判定された場合は、目的音信号を基に1-hotエンコーダ６２及び抽出用ＮＮのパラメータを更新する（第２の更新処理）。

【0095】

このように、更新部２３５は、登録エンコーダ６１及び1-hotエンコーダ６２のうち、埋め込み情報の計算に使用した方のパラメータを更新する。

【0096】

学習装置２０は、第１の更新処理及び第２の更新処理を交互に行ってもよいし、所定の回数ずつ行ってもよいし、学習基準値やその変動量が所定の閾値に達するごとに切り替えるようにしてもよい。

【0097】

また、更新部２３５は、登録エンコーダ６１により登録済みの音信号から変換された埋め込み情報と、1-hotエンコーダ６２により音響クラスを特定する1-hotベクトルから変換された埋め込み情報とがかい離しているほど大きくなる項を含む損失関数が小さくなるように、各パラメータを更新する。

【0098】

更新部２３５は、例えば（５）式の損失関数を用いる。なお、αはハイパーパラメータとして設定可能な係数である。

【0099】

【数5】

【0100】

（５）式の第１項及び第２の項のＬ^ｅｘｔは、例えば（６）式に示すように、抽出部２３４が抽出した目的音信号＾ｘと正解の目的音信号ｘとがかい離しているほど（差分が大きいほど）大きくなる項である。

【0101】

【数6】

【0102】

一方、（５）式の第３項のＬ^ｅｍｂは、登録エンコーダ６１により登録済みの音信号から変換された埋め込み情報ｅ^ｅｎｒｌと、1-hotエンコーダ６２により音響クラスを特定する1-hotベクトルから変換された埋め込み情報ｅ^{１－ｈｏｔ}とがかい離しているほど大きくなる項である。Ｌ^ｅｍｂは（７）式のように計算される。

【0103】

【数7】

【0104】

（７）式のｄ（ｕ，ｖ）は、例えばコサイン距離（cosine disimilarity、cosine distance）等であり、ベクトルｕとベクトルｖとの間の距離が大きいほど大きくなる。

【0105】

この場合、学習装置２０は、判定部２３１の判定結果を制御して登録型変換部２３２及び1-hot型変換部２３３に処理を実行させること等により、埋め込み情報ｅ^ｅｎｒｌと埋め込み情報ｅ^{１－ｈｏｔ}との両方を得るようにしてもよい。

【0106】

さらに、更新部２３５は、1-hotエンコーダ６２を構成する埋め込み行列Ｗを拡張することができる。Ｂ×Ｎの埋め込み行列Ｗは、（３）式のように表される。Ｂはベクトルである埋め込み情報のサイズであり、Ｎは既知の音響クラスの数である。

【0107】

登録型変換部２３２は、判定部２３１によってクラスが既知のものでないと判定された場合は、登録エンコーダ６１により、登録された音信号をサイズがＢである埋め込みベクトルに変換する。

【0108】

また、1-hot型変換部２３３は、判定部２３１によってクラスが既知のものであると判定された場合は、1-hotエンコーダ６２に含まれるＢ×Ｎの埋め込み行列Ｗにより、1-hotベクトルをサイズがＢである埋め込みベクトルに変換する。埋め込み行列Ｗは、埋め込みベクトルのサイズと列サイズが等しい行列である。

【0109】

さらに、更新部２３５は、判定部２３１によってクラスが既知のものでないと判定された場合は、埋め込み行列Ｗに、登録エンコーダ６１により変換された埋め込みベクトルに基づき列を追加する。

【0110】

図６は、埋め込み行列の拡張方法を説明する図である。図６に示すように、補助ＮＮでは登録エンコーダ６１が用いられるが、埋め込み行列Ｗの拡張により1-hotエンコーダ６２が更新されることになる。

【0111】

図７を用いて、埋め込み行列の拡張について具体例を挙げて説明する。図７は、埋め込み行列の拡張方法を説明する図である。

【0112】

図７に示すように、複数の登録済み音信号ａ_１，ａ_２，…，ａ_Ｋが与えられているものとする。Ｋは与えられた登録済み音信号の数である。

【0113】

登録型変換部２３２は、複数の登録済み音信号のそれぞれについて、例えば、ｇ（ａ_１），ｇ（ａ_２）_，…，ｇ（ａ_Ｋ）のように埋め込みベクトルを計算する。

【0114】

ここで、更新部２３５は、（８）式のように、計算された埋め込みベクトルの平均ｅ^ｎｅｗを計算する。

【0115】

【数8】

【0116】

そして、更新部２３５は、（９）式のように、埋め込み行列Ｗに埋め込みベクトルの平均ｅ^ｎｅｗを追加する。

【0117】

【数9】

【0118】

図７の例では、更新部２３５は、元々４１個の音響クラスに対応する要素を持っていた埋め込み行列Ｗの新たな列に、埋め込みベクトルの平均であるベクトル［１．０５３．６５７．２－５．３４ …］を追加して行列Ｗ´を得る。

【0119】

行列Ｗ´は、未知であった４２番目のクラスに対応した新たな埋め込み行列ということができる。

【0120】

なお、更新部２３５は、ｅ^ｎｅｗを、ｇ（ａ_１），ｇ（ａ_２）_，…，ｇ（ａ_Ｋ）の加算平均に限られず、調和平均、線形和等により計算してもよい。また、更新部２３５は、ｇ（ａ_１），ｇ（ａ_２）_，…，ｇ（ａ_Ｋ）のうちのいずれか１つをｅ^ｎｅｗとしてもよい。

【0121】

さらに、追加された列は初期値であり、以降の学習処理において適宜更新されていくことになる。例えば、モデル全体の学習が行われる場合、更新部２３５は、抽出用ＮＮ、登録エンコーダ６１及び1-hotエンコーダ６２を含むモデル全体のパラメータを更新する。

【0122】

また、追加された埋め込み行列の列に対応するクラス（例えば、上記の４２番目のクラス）の適応学習が行われる場合、更新部２３５は、当該追加された列のみを更新する。

【0123】

抽出用ＮＮの出力は、目的音信号そのものに限られない。例えば、混合音信号の中に、指定された音響クラスに対応する目的音が存在しない場合、抽出用ＮＮは、無音であることを示す無音情報を出力してもよい。

【0124】

抽出用ＮＮが無音情報を出力とすることを利用して、本実施形態を用いて、目的音信号の抽出だけでなく、有音及び無音の判定を行うことができる。

【0125】

ここで、混合音信号に対する目的音信号のパワー比が閾値を下回るか否かによって無音判定を行う場合を考える。

【0126】

例えば、目的信号抽出装置１０及び学習装置２０は、混合音信号ｙから抽出した出力した目的音信号＾ｘが（１０）式を満たす場合に無音と判定し、（１０）式を満たさない場合に有音と判定するものとする。

【0127】

【数10】

【0128】

この判定方法により実験を行った結果を図８に示す。図８は、無音情報の出力による精度の変化を示す図である。

【0129】

Mixed（Enroll）は登録エンコーダ６１を使ったことを意味する。Mixed（1-hot）は、1-hotエンコーダ６２を使ったことを意味する。また、+inactiveは、モデルの学習において、10%の無音のサンプルを追加したことを意味する。

【0130】

図８の縦軸は無音の誤検出率であり、横軸は無音の見逃し率である。図８に示す結果から、無音のサンプルを学習させることで、無音判定の精度が向上するということができる。

【0131】

図９は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図９に示すように、学習装置２０は、入力混合音信号、登録型補助入力、1-hot型補助入力、正解音信号の入力を受け付ける（ステップＳ２０１）。

【0132】

次に、学習装置２０は、登録型補助入力及び1-hot型補助入力のいずれを用いるかを判定する（ステップＳ２０２）。学習装置２０は、必要に応じて、同じ入力混合音信号に対して登録型補助入力を用いたときの計算結果、及び1-hot型補助入力を用いたときの計算結果を任意に得ることができる。

【0133】

学習装置２０は、登録型補助入力及び1-hot型補助入力のいずれを用いるかを、目的信号抽出装置１０と同様の方法で判定してもよい。

【0134】

1-hot型補助入力を用いる場合（ステップＳ２０２、1-hot型）、学習装置２０は、1-hotエンコーダ６２により埋め込み情報を計算する（ステップＳ２０３）。すなわち、学習装置２０は、1-hot型補助入力を埋め込み情報に変換する。

【0135】

登録型補助入力を用いる場合（ステップＳ２０２、登録型）、学習装置２０は、登録エンコーダ６１により埋め込み情報を計算する（ステップＳ２０４）。すなわち、学習装置２０は、登録型補助入力を埋め込み情報に変換する。

【0136】

そして、学習装置２０は、埋め込み情報を用いて抽出用ＮＮにより目的音信号を抽出する（ステップＳ２０５）。

【0137】

さらに、学習装置２０は、抽出用ＮＮ及び埋め込み情報を計算したエンコーダのパラメータを更新する（ステップＳ２０６）。

【0138】

これまで説明してきたように、目的信号抽出装置１０の判定部１３１は、抽出対象の目的音信号に対応付けられたクラスが既知のものであるか否かを判定する。変換部は、判定部１３１によってクラスが既知のものでないと判定された場合は、登録済みの音信号を、第１のモデルにより埋め込み情報に変換し、判定部１３１によってクラスが既知のものであると判定された場合は、クラスを特定するための情報を、第２のモデルにより埋め込み情報に変換する。抽出部１３４は、変換部によって変換された埋め込み情報を用いて、抽出用のニューラルネットワークにより、混合音信号から目的音信号を抽出する。

【0139】

このように、音響クラスが未知であるか既知であるかに応じてモデルを切り替えることで、未知の音響クラス及び既知の音響クラスの両方について、精度良く目的音を抽出することができる。

【0140】

学習装置２０の判定部２３１は、抽出対象の目的音信号に対応付けられたクラスが既知のものであるか否かを判定する。変換部は、判定部２３１によってクラスが既知のものでないと判定された場合は、登録済みの音信号を、第１のモデルにより埋め込み情報に変換し、判定部２３１によってクラスが既知のものであると判定された場合は、クラスを特定するための情報を、第２のモデルにより埋め込み情報に変換する。抽出部２３４は、変換部によって変換された埋め込み情報を用いて、抽出用のニューラルネットワークにより、混合音信号から目的音信号を抽出する。

【0141】

これにより、補助ＮＮのエンコーダのうち使用されなかった方には影響を与えることなくモデルの学習を行うことができる。

【0142】

更新部２３５は、登録エンコーダ６１により混合音信号から変換された埋め込み情報と登録エンコーダ６１により混合音信号から変換された埋め込み情報とがかい離しているほど大きくなる項を含む損失関数が小さくなるように、各パラメータを更新する。

【0143】

これにより、抽出用ＮＮだけでなく、補助ＮＮの登録エンコーダ６１及び1-hotエンコーダ６２を含むモデル全体のパラメータを同時に最適化することができる。

【0144】

変換部は、判定部２３１によってクラスが既知のものでないと判定された場合は、登録エンコーダ６１により、登録された音信号を第１のベクトルに変換し、判定部２３１によってクラスが既知のものであると判定された場合は、1-hotエンコーダ６２に含まれる行列であって、第１のベクトルのサイズと列サイズが等しい行列により、クラスを特定する1-hotベクトルを第１のベクトルと同じサイズのベクトルに変換する。更新部２３５は、判定部２３１によってクラスが既知のものでないと判定された場合は、行列に、第１のベクトルに基づき列を追加する。

【0145】

これにより、自動的に補助ＮＮを未知の音響クラスに対応させることができる。

【0146】

［実験結果］
ここで、実施形態と従来の手法とを比較するために行った実験の結果を説明する。図１０から図１２は、実験結果を示す図である。

【0147】

実験では、データセットとしてFSD50KとFSD Kaggleが用いられた。クラスは「Acoustic Guitar」から「Writing」までの４１個である。混合音信号は、３つの個別の音信号と雑音（ＳＮ比１５～２５ｄＢ）から作られた６秒の音信号であり、２～５秒の各音響クラスの音が含まれる。サンプリング周波数は８０００である。

【0148】

学習用のデータセットの数は５００００である。また、確認用のデータセットの数は１００００である。また、評価用のデータセットの数は３０００である。

【0149】

図１０は、既知の音響クラスについて実験を行った結果を、ＳＤＲ（signal-to-distortion ratio）によって評価した結果である。

【0150】

Modelのうち、1-hot及びEnrlは、それぞれ1-hotエンコーダ６２及び登録エンコーダ６１を単独で使った場合であり、従来技術に相当する。Mixedは本実施形態に相当し、各エンコーダの個別の損失関数（例えば、（５）式でα＝０とおいた場合）を使った場合の結果である。Mixed+ELは本実施形態に相当し、（５）式の損失関数でα＝３とおいた場合の結果である。

【0151】

図１０に示すように、Mixed又はMixed+ELのいずれかで、従来技術よりもＳＤＲが向上している。

【0152】

次に、未知の音響クラスがある場合の実験について説明する。未知の音響クラスは全部で１０であり、クラスごとに与えられるサンプルの数Ｋは、１、５又は１０とする。混合音信号の数は１０００であり、それぞれ既知の２つの音響クラスと未知の１つの音響クラスを含む。学習率は０．０００１である。バッチサイズは８である。最大エポック数は１０である。その他の条件は上記の実験と同様である。

【0153】

図１１は、既知又は未知の音響クラスについて実験を行った結果を、ＳＤＲ（signal-to-distortion ratio）によって評価した結果である。

【0154】

図１１のＮｅｗＡＥｓは、未知の音響クラスについて、Ｋ個の登録エンコーダの出力結果を基にｅ^ｎｅｗを決定した場合の結果である。

【0155】

Mixed+ELは、Ｋ個の登録エンコーダの出力の平均をｅ^ｎｅｗとした場合の結果である。また、+adapt（avg init）は、埋め込みベクトルの未知のクラスに対応する列の初期値をｅ^ｎｅｗとして再学習を行った場合の結果である。また、+adapt（rnd init）は、埋め込みベクトルの未知のクラスに対応する列の初期値をランダム初期化して再学習を行った場合の結果である。

【0156】

特にＫが５又は１０の場合に、+adapt（avg init）のＳＤＲが向上している。さらに、Ｋ＝１０の場合の結果を図１２に示す。

【0157】

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU（Central Processing Unit）及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

【0158】

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

【0159】

［プログラム］
一実施形態として、目的信号抽出装置１０及び学習装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の抽出処理又は学習処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を目的信号抽出装置１０又は学習装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS（Personal Handyphone System）等の移動体通信端末、さらには、PDA（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

【0160】

また、目的信号抽出装置１０及び学習装置２０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の抽出処理又は学習処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、混合音信号を入力とし、目的音信号を抽出する目的信号抽出サービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の抽出処理又は学習処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

【0161】

図１３は、プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、CPU１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

【0162】

メモリ１０１０は、ROM（Read Only Memory）１０１１及びRAM１０１２を含む。ROM１０１１は、例えば、BIOS（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

【0163】

ハードディスクドライブ１０９０は、例えば、OS１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、目的信号抽出装置１０又は学習装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、目的信号抽出装置１０抽出処理又は学習処理における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、SSDにより代替されてもよい。

【0164】

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、CPU１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてRAM１０１２に読み出して実行する。

【0165】

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してCPU１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（LAN（Local Area Network）、WAN（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してCPU１０２０によって読み出されてもよい。

【符号の説明】

【0166】

１０目的信号抽出装置
１１、２１インタフェース部
１２、２２記憶部
１３、２３制御部
２０学習装置
５１エンコーダ
５２、５３変換ブロック
５４デコーダ
６１登録エンコーダ
６２ 1-hotエンコーダ
１２１、２２１モデル情報
１３１、２３１判定部
１３２、２３２登録型変換部
１３３、２３３ 1-hot型変換部
１３４、２３４抽出部
２３５更新部

【図1】