(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-19
(45)【発行日】2024-08-27
(54)【発明の名称】学習装置、方法およびプログラム
(51)【国際特許分類】
G10L 17/18 20130101AFI20240820BHJP
G10L 17/00 20130101ALI20240820BHJP
G10L 17/04 20130101ALI20240820BHJP
【FI】
G10L17/18
G10L17/00 200C
G10L17/04
(21)【出願番号】P 2022545208
(86)(22)【出願日】2020-08-28
(86)【国際出願番号】 JP2020032631
(87)【国際公開番号】W WO2022044269
(87)【国際公開日】2022-03-03
【審査請求日】2023-02-15
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103090
【氏名又は名称】岩壁 冬樹
(74)【代理人】
【識別番号】100124501
【氏名又は名称】塩川 誠人
(72)【発明者】
【氏名】リー コン エイク
(72)【発明者】
【氏名】越仲 孝文
【審査官】渡部 幸和
(56)【参考文献】
【文献】米国特許出願公開第2019/0355366(US,A1)
【文献】GU, Bin, et al.,Gaussian speaker embedding learning for text-independent speaker verification,arXiv preprint,arXiv:2001.04585,[オンライン],2020年01月14日,インターネット:<URL: https://arxiv.org/ftp/arxiv/papers/2001/2001.04585.pdf>,[検索日:2020年9月28日]
【文献】OKABE, Koji, et al.,Attentive Statistics Pooling for Deep Speaker Embedding,Proc. Interspeech 2018,ISCA,2018年09月,pp. 2252-2256
(58)【調査した分野】(Int.Cl.,DB名)
G10L 17/00
(57)【特許請求の範囲】
【請求項1】
音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成する学習手段を備え、
前記話者埋め込み抽出用ニューラルネットワークは、第一乃至第四のネットワークが順次接続されたニューラルネットワークであって、
前記学習手段は、
第一のネットワークにおいて、前記音声信号からフレーム単位の特徴量を算出し、
第二のネットワークにおいて、前記フレーム単位の特徴量から第一の精度を算出し、
第三のネットワークにおいて、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出し、
第四のネットワークにおいて、前記事後分布の平均および前記第二の精度から話者埋め込みを算出し、前記音声信号の話者を分類する
ことを特徴とする学習装置。
【請求項2】
フレーム単位の特徴量は、隠れ変数および不確実性の分布の和で定義され、当該隠れ変数は、事前分布の平均および精度のガウス分布に従い、当該不確実性は、平均0および第一の精度のガウス分布に従う
請求項1記載の学習装置。
【請求項3】
音声信号の入力を受け付ける入力手段と、
入力された音声信号に対する話者埋め込みを出力する出力手段とを備え、
前記出力手段は、音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力し、
前記話者埋め込み抽出用ニューラルネットワークは、
前記音声信号からフレーム単位の特徴量を算出する第一のネットワークと、
前記第一のネットワークに接続され、前記フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、
前記第二のネットワークに接続され、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、
前記第三のネットワークに接続され、前記事後分布の平均および前記第二の精度から話者埋め込みを算出する第四のネットワークとを含み、
前記出力手段は、前記第一のネットワークの入力層に入力された音声信号に対し、学習された前記重み係数に基づく演算を行い、前記第四
のネットワークの中間層から前記話者埋め込みを抽出する
ことを特徴とする話者埋め込み抽出装置。
【請求項4】
出力手段は、前記事後分布の平均および前記第二の精度から前記音声信号の話者を示す出力値を出力する
請求項3記載の話者埋め込み抽出装置。
【請求項5】
コンピュータが、音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成し、
前記話者埋め込み抽出用ニューラルネットワークは、第一乃至第四のネットワークが順次接続されたニューラルネットワークであって、
前記コンピュータが、前記話者埋め込み抽出用ニューラルネットワークの生成の際、
第一のネットワークにおいて、前記音声信号からフレーム単位の特徴量を算出し、
第二のネットワークにおいて、前記フレーム単位の特徴量から第一の精度を算出し、
第三のネットワークにおいて、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出し、
第四のネットワークにおいて、前記事後分布の平均および前記第二の精度から話者埋め込みを算出し、前記音声信号の話者を分類する
ことを特徴とする学習方法。
【請求項6】
音声信号の入力を受け付け、
音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力し、
前記話者埋め込み抽出用ニューラルネットワークは、
前記音声信号からフレーム単位の特徴量を算出する第一のネットワークと、
前記第一のネットワークに接続され、前記フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、
前記第二のネットワークに接続され、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、
前記第三のネットワークに接続され、前記事後分布の平均および前記第二の精度から話者埋め込みを算出する第四のネットワークとを含み、
前記出力の際、前記第一のネットワークの入力層に入力された音声信号に対し、学習された前記重み係数に基づく演算を行い、前記第四
のネットワークの中間層から前記話者埋め込みを抽出する
ことを特徴とする話者埋め込み抽出方法。
【請求項7】
コンピュータに、
音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成する学習処理を実行させ、
前記話者埋め込み抽出用ニューラルネットワークは、第一乃至第四のネットワークが順次接続されたニューラルネットワークであって、
前記学習処理で、
第一のネットワークにおいて、前記音声信号からフレーム単位の特徴量を算出させ、
第二のネットワークにおいて、前記フレーム単位の特徴量から第一の精度を算出させ、
第三のネットワークにおいて、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出させ、
第四のネットワークにおいて、前記事後分布の平均および前記第二の精度から話者埋め込みを算出し、前記音声信号の話者を分類させる
ための学習プログラム。
【請求項8】
コンピュータに、
音声信号の入力を受け付ける入力処理、および、
入力された音声信号に対する話者埋め込みを出力する出力処理を実行させ、
前記出力処理で、音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力させ、
前記話者埋め込み抽出用ニューラルネットワークは、
前記音声信号からフレーム単位の特徴量を算出する第一のネットワークと、
前記第一のネットワークに接続され、前記フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、
前記第二のネットワークに接続され、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、
前記第三のネットワークに接続され、前記事後分布の平均および前記第二の精度から話者埋め込みを算出する第四のネットワークとを含み、
前記出力処理で、前記第一のネットワークの入力層に入力された音声信号に対し、学習された前記重み係数に基づく演算を行わせ、前記第四
のネットワークの中間層から前記話者埋め込みを抽出させる
ための話者埋め込み抽出プログラム。
【請求項9】
入力された音声信号に対する話者埋め込みを出力するよう、コンピュータを機能させるための学習済みモデルであって、
前記学習済みモデルは、音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークであり、
前記話者埋め込み抽出用ニューラルネットワークは、
前記音声信号からフレーム単位の特徴量を算出する第一のネットワークと、
前記第一のネットワークに接続され、前記フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、
前記第二のネットワークに接続され、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、
前記第三のネットワークに接続され、前記事後分布の平均および前記第二の精度から話者埋め込みを算出する第四のネットワークとを含み、
前記第一のネットワークの入力層に入力された音声信号に対し、学習された前記重み係数に基づく演算を行い、前記第四
のネットワークの中間層から前記話者埋め込みを抽出するよう、コンピュータを機能させる
ための学習済みモデル。
【請求項10】
フレーム単位の特徴量は、隠れ変数および不確実性の分布の和で定義され、当該隠れ変数は、事前分布の平均および精度のガウス分布に従い、当該不確実性は、平均0および第一の精度のガウス分布に従う
請求項9記載の学習済みモデル。
【発明の詳細な説明】
【技術分野】
【0001】
この開示は、話者埋め込みを学習する学習装置、学習方法および学習プログラム、話者埋め込みを抽出する話者埋め込み抽出装置、話者埋め込み抽出方法および話者埋め込み抽出プログラム、並びに、学習済みモデルに関する。
【背景技術】
【0002】
最先端の話者認識システムは、前段の話者埋め込みと、それに続く後段のスコアリングで構成される。近年の話者埋め込みのデファクトスタンダードは、x-vectorである(非特許文献1参照)。また、後段のスコアリング(類似度計算)には、確率的線形判別分析(PLDA:probabilistic linear discrimination analysis)が一般的に使用される。
【0003】
なお、非特許文献2には、x-vectorを利用した特徴量抽出方法が記載されている。非特許文献2に記載された方法では、x-vectorに注意機構と呼ばれる補助ネットワークを加えることで、個人の特徴がより適切に表れている箇所を選択する。
【先行技術文献】
【非特許文献】
【0004】
【文献】D. Snyder et al, “X-vectors: robust DNN embeddings for speaker recognition,” in Proc. IEEE ICASSP, 2018.
【文献】K. Okabe, T. Koshinaka, and K. Shinoda, "Attentive statistics pooling for deep speaker embedding", Proc. Interspeech 2018, pp. 2252-2256, Sep. 2018.
【発明の概要】
【発明が解決しようとする課題】
【0005】
ノイズの多いデータへのロバスト性を考慮し、大量のトレーニングデータを使用してネットワークを学習することで、抽出器の性能をより向上させることができる。また、種々のトレーニング(例えば、マルチクラスのクロスエントロピーコスト、角度マージンコスト、など)によっても、抽出器の性能をより向上させることができる。
【0006】
一方、非特許文献1に記載されているような一般的なx-vectorでは、フレームレベルの特徴をある一点の状態で推定する。すなわち、一般的なx-vectorでは、特徴の不確実性(分布)を考慮せずに推定を行う。そのため、音声に固有の特徴であるランダム摂動(すなわち、偶発する不確実性)に対するロバスト性が低いという問題がある。
【0007】
また、非特許文献2に記載された方法では、重要な特徴ベクトルには大きな重みを割り当て、重要度の低い特徴ベクトルには小さな重みを割り当てるような重み付けが行われる。しかし、非特許文献1に記載されたx-vectorと同様、非特許文献2に記載された方法でも、学習の際、音声データ固有の不確実性を考慮していない。そのため、現実の条件下で取得された音声データに対するロバスト性が低いという問題がある。
【0008】
そこで、この開示は、音声の不確実性を考慮して話者埋め込みを学習できる学習装置、学習方法および学習プログラム、その話者埋め込みを抽出する話者埋め込み抽出装置、話者埋め込み抽出方法および話者埋め込み抽出プログラム、並びに、学習済みモデルを提供することを目的とする。
【課題を解決するための手段】
【0009】
この開示による学習装置は、音声信号の入力を受け付ける入力層と、その音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、音声信号の話者を示す話者ラベルと出力層から出力される出力値との誤差を示す損失関数を最小化するように重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成する学習手段を備え、話者埋め込み抽出用ニューラルネットワークは、第一乃至第四のネットワークが順次接続されたニューラルネットワークであって、学習手段が、第一のネットワークにおいて、音声信号からフレーム単位の特徴量を算出し、第二のネットワークにおいて、フレーム単位の特徴量から第一の精度を算出し、第三のネットワークにおいて、事前分布の平均および精度、並びに、特徴量および第一の精度から、事後分布の平均および第二の精度を算出し、第四のネットワークにおいて、事後分布の平均および第二の精度から話者埋め込みを算出し、音声信号の話者を分類することを特徴とする。
【0010】
この開示による話者埋め込み抽出装置は、音声信号の入力を受け付ける入力手段と、入力された音声信号に対する話者埋め込みを出力する出力手段とを備え、出力手段が、音声信号の入力を受け付ける入力層と、その音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、音声信号の話者を示す話者ラベルと出力層から出力される出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力し、話者埋め込み抽出用ニューラルネットワークは、音声信号からフレーム単位の特徴量を算出する第一のネットワークと、第一のネットワークに接続され、フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、第二のネットワークに接続され、事前分布の平均および精度、並びに、特徴量および第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、第三のネットワークに接続され、事後分布の平均および第二の精度から話者埋め込みを算出する第四のネットワークとを含み、出力手段が、第一のネットワークの入力層に入力された音声信号に対し、学習された重み係数に基づく演算を行い、第四のネットワークの中間層から話者埋め込みを抽出することを特徴とする。
【0011】
この開示による学習方法は、コンピュータが、音声信号の入力を受け付ける入力層と、その音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、音声信号の話者を示す話者ラベルと出力層から出力される出力値との誤差を示す損失関数を最小化するように重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成し、話者埋め込み抽出用ニューラルネットワークは、第一乃至第四のネットワークが順次接続されたニューラルネットワークであって、コンピュータが、話者埋め込み抽出用ニューラルネットワークの生成の際、第一のネットワークにおいて、音声信号からフレーム単位の特徴量を算出し、第二のネットワークにおいて、フレーム単位の特徴量から第一の精度を算出し、第三のネットワークにおいて、事前分布の平均および精度、並びに、特徴量および第一の精度から、事後分布の平均および第二の精度を算出し、第四のネットワークにおいて、事後分布の平均および第二の精度から話者埋め込みを算出し、音声信号の話者を分類することを特徴とする。
【0012】
この開示による話者埋め込み抽出方法は、音声信号の入力を受け付け、音声信号の入力を受け付ける入力層と、その音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、音声信号の話者を示す話者ラベルと出力層から出力される出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力し、話者埋め込み抽出用ニューラルネットワークは、音声信号からフレーム単位の特徴量を算出する第一のネットワークと、第一のネットワークに接続され、フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、第二のネットワークに接続され、事前分布の平均および精度、並びに、特徴量および第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、第三のネットワークに接続され、事後分布の平均および第二の精度から話者埋め込みを算出する第四のネットワークとを含み、出力の際、第一のネットワークの入力層に入力された音声信号に対し、学習された重み係数に基づく演算を行い、第四のネットワークの中間層から話者埋め込みを抽出することを特徴とする。
【0013】
この開示による学習プログラムは、コンピュータに、音声信号の入力を受け付ける入力層と、その音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、音声信号の話者を示す話者ラベルと出力層から出力される出力値との誤差を示す損失関数を最小化するように重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成する学習処理を実行させ、話者埋め込み抽出用ニューラルネットワークは、第一乃至第四のネットワークが順次接続されたニューラルネットワークであって、学習処理で、第一のネットワークにおいて、音声信号からフレーム単位の特徴量を算出させ、第二のネットワークにおいて、フレーム単位の特徴量から第一の精度を算出させ、第三のネットワークにおいて、事前分布の平均および精度、並びに、特徴量および第一の精度から、事後分布の平均および第二の精度を算出させ、第四のネットワークにおいて、事後分布の平均および第二の精度から話者埋め込みを算出し、音声信号の話者を分類させることを特徴とする。
【0014】
この開示による話者埋め込み抽出プログラムは、コンピュータに、音声信号の入力を受け付ける入力処理、および、入力された音声信号に対する話者埋め込みを出力する出力処理を実行させ、出力処理で、音声信号の入力を受け付ける入力層と、その音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、音声信号の話者を示す話者ラベルと出力層から出力される出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力させ、話者埋め込み抽出用ニューラルネットワークは、音声信号からフレーム単位の特徴量を算出する第一のネットワークと、第一のネットワークに接続され、フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、第二のネットワークに接続され、事前分布の平均および精度、並びに、特徴量および第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、第三のネットワークに接続され、事後分布の平均および第二の精度から話者埋め込みを算出する第四のネットワークとを含み、出力処理で、第一のネットワークの入力層に入力された音声信号に対し、学習された重み係数に基づく演算を行わせ、第四のネットワークの中間層から話者埋め込みを抽出させることを特徴とする。
【0015】
この開示による学習済みモデルは、入力された音声信号に対する話者埋め込みを出力するよう、コンピュータを機能させるための学習済みモデルであって、学習済みモデルは、音声信号の入力を受け付ける入力層と、その音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、音声信号の話者を示す話者ラベルと出力層から出力される出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークであり、話者埋め込み抽出用ニューラルネットワークは、音声信号からフレーム単位の特徴量を算出する第一のネットワークと、第一のネットワークに接続され、フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、第二のネットワークに接続され、事前分布の平均および精度、並びに、特徴量および第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、第三のネットワークに接続され、事後分布の平均および第二の精度から話者埋め込みを算出する第四のネットワークとを含み、第一のネットワークの入力層に入力された音声信号に対し、学習された重み係数に基づく演算を行い、第四のネットワークの中間層から前記埋め込みを抽出するよう、コンピュータを機能させることを特徴とする。
【図面の簡単な説明】
【0016】
【
図1】この開示による学習装置の一実施形態の構成例を示すブロック図である。
【
図2】ネットワーク構造の一例を示す説明図である。
【
図3】ネットワーク構造の一例を示す説明図である。
【
図4】学習装置の動作例を示すフローチャートである。
【
図5】話者埋め込み抽出装置の一実施形態の構成例を示すブロック図である。
【
図6】この開示による学習装置の概要を示すブロック図である。
【
図7】この開示による話者埋め込み抽出装置の概要を示すブロック図である。
【
図8】少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
【発明を実施するための形態】
【0017】
まず初めに、一般的なx-vector抽出器の内容を説明する。一般的なx-vector抽出器は、以下に示す3つの機能ブロックを含むDNN(Deep Neural Network )である。第一のブロックは、複数層の時間遅延ニューラルネットワーク(TDNN:Time-Delay Neural Network )で実装されたフレームプロセッサである。第二のブロックは、TDNNによって生成されたフレームレベルの特徴ベクトルから平均および標準偏差を計算する統計プーリング層である。第三のブロックは、埋め込み抽出および発話分類を行うブロックである。
【0018】
上述するように、一般的なx-vector抽出器では、ノイズなど、何らかの分布を有するような不確実性を含む状態を考慮せず、フレームレベルの特徴を示すある一点の状態に基づいて推定を行う。そのため、ランダム摂動に対するロバスト性が低い。そこで、本実施形態では、一般的なx-vector抽出器の機能を拡張し、特徴の不確実性を考慮したロバスト性の高い話者埋め込みの学習方法を説明する。
【0019】
以下、この開示の実施形態を図面を参照して説明する。
【0020】
実施形態1.
図1は、この開示による学習装置の一実施形態の構成例を示すブロック図である。本実施形態の学習装置100は、記憶部10と、入力部20と、モデル学習部30と、出力部40とを備えている。
【0021】
記憶部10は、本実施形態の学習装置100が処理に用いる各種情報を記憶する。記憶部10は、事前に設計された学習に用いるニューラルネットワークの構造や、パラメータを記憶していてもよい。また、記憶部10は、後述するモデル学習部30が用いる学習データを記憶していてもよい。なお、学習データは、後述する入力部20が外部装置(図示せず)から入力を受け付けてもよい。記憶部10は、例えば、磁気ディスク等により実現される。
【0022】
入力部20は、本実施形態の学習装置100が処理に用いる各種情報の入力を受け付ける。入力部20は、上述する学習データの入力を受け付けてもよいし、ニューラルネットワークやパラメータを受け付けてもよい。以下、学習データとして入力される音声信号のことを入力信号と記すこともある。
【0023】
モデル学習部30は、特徴抽出および話者分類を行うモデル(具体的には、ニューラルネットワーク)を学習する。ニューラルネットワーク全体の学習は、一般的な学習方法(例えば、バックプロパゲーションなど)により実行される。モデル学習部30は、例えば、入力データの正解ラベルと、出力値との誤差を示す損失関数を最小化するように重み係数を学習して、ニューラルネットワークを生成する。なお、詳細については後述される。
【0024】
本実施形態では、モデル学習部30は、音声信号の入力を受け付ける入力層と、その音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークの重み係数を学習する。以下、本実施形態で学習されるニューラルネットワークを、大きく4つのネットワークに分類する。第一のネットワークは、入力信号からフレーム単位の特徴量を算出するネットワークである。第二のネットワークは、抽出された特徴量の確からしさ(精度)を算出するネットワークである。第三のネットワークは、統計処理を行うプーリング層に対応するネットワークである。第四のネットワークは、話者埋め込み抽出および発話分類を行うネットワークである。
【0025】
第一乃至第四のネットワークは、順次接続され、出力層を含む第四のネットワークは、話者埋め込み及び話者の分類結果を生成する。そこで、本実施形態で学習されるニューラルネットワークを、話者埋め込み抽出用ニューラルネットワークと言うことができる。
【0026】
まず、モデル学習部30は、入力信号xtを受け取り、各時刻(フレーム)t単位で精度行列Ltおよびフレーム特徴量otを生成する。なお、otはベクトルである。具体的には、モデル学習部30は、学習データとして入力信号(入力シーケンス){x1,x2,…,xτ}を受け取り、フレーム特徴量を示すシーケンス{o1,o2,…,oτ}および対応する精度行列{L1,L2,…,Lτ}を生成する。この処理は、上述する第一のネットワークおよび第二のネットワークで行われる処理である。
【0027】
なお、扱うデータの範囲を考慮し、精度行列を対数精度log(Lt)で表わしてもよい。すなわち、対数精度log(Lt)は、フレームxtごとに推定される精度である。otおよびlog(Lt)は、第一のネットワークおよび第二のネットワークで生成されることから、otおよびlog(Lt)を生成する式を、以下に例示する式1および式2で表すことができる。
【0028】
ot=fNeuralNet(xt) (式1)
log(Lt)=gNeuralNet(xt) (式2)
【0029】
otを生成する方法は、既存のx-vectorにおいてフレーム特徴量を抽出する方法と同様である。すなわち、モデル学習部30は、既存のx-vectorにおいて特徴量を抽出する枠組み(具体的には、ニューラルネットワークの層構造)を用いてotを生成すればよい。また、対数精度の算出には、フレーム単位の特徴量から精度を算出することが可能な任意の方法を適用可能である。以下の説明では、第一のネットワークで算出される精度のことを、第一の精度と記すこともある。
【0030】
図2は、フレーム特徴量o
tおよび対数精度(log-precision)を生成するネットワーク構造の一例を示す説明図である。
図2では、第一のネットワークNW1の一例および第二のネットワークNW2の一例をそれぞれ例示する。
【0031】
第一のネットワークNW1は、音声信号x
tからフレーム単位の特徴量o
tを算出するネットワークであり、3つのTDNNおよび2つの全結合(FC:Fully Connected )層を含む。TDNNは、非線形の活性化関数(例えば、ReLU:Rectified Linear Unit )が後に続く時間遅延ニューラルネットワーク(TDNN)ある。
図2では、非線形層を網掛けの矩形で示している。また、全結合層は、線形層であり、その後に非線形活性化関数が続く層である。なお、BN(Batch normalization )は、正規化の目的で使用されるバッチ正規化を示す。
【0032】
また、第二のネットワークNW2は、フレーム単位の特徴量から第一の精度を算出するネットワークであり、第一の線形層(lin-1:Linear Layer-1)および後続の非線形層(ReLU)から成るネットワーク、並びに、第二の線形層(lin-2:Linear Layer-2)を含む。
【0033】
ただし、
図2に例示するネットワーク構造は一例である。第一のネットワークNW1として、x-vectorの枠組みで使用される任意のネットワーク構造を適用可能である。また、第二のネットワークNW2として、フレーム特徴量o
tを入力とし、対数精度log(L
t)を出力する任意のネットワーク構造を適用可能である。
【0034】
次に、モデル学習部30は、事前分布の平均μpおよび精度Lp、並びに、生成された第一の精度(より具体的には、精度行列Lt)およびフレーム特徴量otから、事後分布の平均および精度を算出する。具体的には、モデル学習部30は、第三のネットワークにおいて事後分布の平均および精度の算出処理を行う。以下の説明では、第三のネットワークで算出される精度のことを、第二の精度と記すこともある。
【0035】
以下、事後分布の平均φsおよび精度Ls(すなわち、第二の精度)を算出する方法を具体的に説明する。まず、モデル学習部30は、フレーム特徴量otを、隠れ変数hおよび不確実性εtに基づいてモデル化する。本実施形態では、隠れ変数hおよび不確実性εtがガウス分布に従うと仮定し、以下に例示する式3のようにモデル化する。式3は、それぞれがガウス分布に従う隠れ変数hおよび不確実性εtの和で表されることから、線形ガウシアンモデルと言うことができる。
【0036】
【0037】
線形ガウシアンモデル、隠れ変数および不確実性の定義は、例えば、予め記憶部10に記憶され、モデル学習部30は、記憶部10からこれらの定義を読み取って、モデルを特定し、以降の処理を行ってもよい。また、初期状態では、事前分布の平均μpおよび精度Lpに任意の値が設定されればよい。
【0038】
ここで、隠れ変数hの事後分布(otが与えられた場合の隠れ変数hの条件付き確率)を、以下に例示する式4のように定義する。
【0039】
【0040】
この場合、モデル学習部30は、事後分布の平均φsおよび精度行列Lsを、それぞれ以下に例示する式5および式6のように算出する。なお、式5および式6は、式4から解析的に求めることが可能である。また、対数精度log(Lt)が算出されている場合、予め指数関数に変換しておけばよい。
【0041】
【0042】
次に、モデル学習部30は、算出された事後分布の平均φsおよび精度(より具体的には、分散σ)を入力として、話者埋め込みξsの算出、および、入力信号の話者の分類を行う。話者埋め込みの算出、および、話者の分類は、分類器として動作する第四のネットワークで行われる。そこで、分類結果をyとした場合、分類結果yを算出する式を、以下に例示する式7で表すことができる。なお、yは、話者を分類する情報であることから、話者ラベルと言うことができる。
【0043】
y=hNeuralNet(φs,σs) (式7)
【0044】
以下、第四のネットワークの構造の具体例を説明する。
図3は、第四のネットワーク構造の一例を示す説明図である。
図3では、第三のネットワークNW3と第三のネットワークNW3に接続された第四のネットワークNW4を例示する。
【0045】
図3に示す例では、モデル学習部30は、事後分布の平均φ
sおよび分散σ
sを入力とする第四のネットワークの隠れ層における活性化前(pre-activation)出力から話者埋め込みξ
sを取得する。また、モデル学習部30は、x-vectorと同様、例えば、分類したいクラスの数のニューロンを設定した出力層(lin-1)から分類結果を取得する。
【0046】
なお、学習済みのモデルをx-vectorとして用いる場合、lin-1およびFC-2層(および、FC-1層の非線形層)を取り除いたネットワーク構造が用いられればよい。
【0047】
なお、モデル学習部30が、ニューラルネットワーク全体を学習する方法は任意であり、既存のx-vectorと同様の方法を用いて学習してもよい。モデル学習部30は、例えば、損失関数を最小化するように最適化することで、ニューラルネットワークを学習してもよい。ここで、Nをミニバッチのサイズ、Lを分類損失(例えば、マルチクラスエントロピーなど)、y0を、one-hotベクトルの解とする。この場合、損失関数Jを以下に例示する式8で表わすことができる。
【0048】
【0049】
上述するように、モデル学習部30は、一般的なニューラルネットワークの学習法(例えば、バックプロパゲーションなど)により、全体のニューラルネットワークを学習すればよい。なお、上述する損失関数の内容は一例であり、他にも、クロスエントロピー誤差を用いて学習を行ってもよい。このようなニューラルネットワークを構築して学習することで、フレーム特徴量および精度の重み、並びに、事前分布の重みについて、同時に学習できるため、音声の不確実性を考慮した話者埋め込みを学習できる。
【0050】
出力部40は、生成されたニューラルネットワークを出力する。出力部40は、生成されたニューラルネットワークを記憶部10に記憶させてもよい。
【0051】
入力部20と、モデル学習部30と、出力部40とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit))によって実現される。
【0052】
例えば、プログラムは、記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部20、モデル学習部30および出力部40として動作してもよい。また、入力部20、モデル学習部30および出力部40の機能がSaaS(Software as a Service )形式で提供されてもよい。
【0053】
また、入力部20と、モデル学習部30と、出力部40とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
【0054】
また、入力部20、モデル学習部30および出力部40の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
【0055】
次に、本実施形態の学習装置100の動作を説明する。
図4は、本実施形態の学習装置100の動作例を示すフローチャートである。入力部20が、音声信号および話者ラベルの入力を受け付ける(ステップS11)。モデル学習部30は、ニューラルネットワークの重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成する(ステップS12)。そして、出力部40は、生成されたニューラルネットワークを出力する(ステップS13)。
【0056】
以上のように、本実施形態では、モデル学習部30が、損失関数を最小化するように重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成する。その際、モデル学習部30が、第一のネットワークにおいて、音声信号xtからフレーム単位の特徴量otを算出し、第二のネットワークにおいて、フレーム単位の特徴量otから第一の精度Ltを算出する。また、モデル学習部30が、第三のネットワークにおいて、事前分布の平均μpおよび精度(Lp)、並びに、特徴量otおよび第一の精度(log(Lt))から、事後分布の平均φsおよび第二の精度(σs
-1)を算出し、第四のネットワークにおいて、事後分布の平均φsおよび第二の精度(σs
-1)から話者埋め込みを算出し、音声信号の話者を分類する。よって、音声の不確実性を考慮して話者埋め込みを学習できる。
【0057】
例えば、既存のx-vectorの統計プーリング層は、不確定性を考慮していないことから、いわゆる平均プーリング層として機能する。一方、本実施形態では、不確定性(分布)Ltを考慮し、ガウス分布を仮定してプーリング層で分散を確率論的に計算する。よって、音声に固有の特徴であるランダム摂動に対するロバスト性を高めることが可能になる。
【0058】
また、本実施形態の学習装置100によって学習されたニューラルネットワーク(話者埋め込み抽出用ニューラルネットワーク)は、入力された音声信号に対する話者埋め込みを出力するよう、コンピュータを機能させるための学習済みモデルとも言える。上述の通り、この学習済みモデルは、音声信号の入力を受け付ける入力層と、その音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、音声信号の話者を示す話者ラベルと出力層から出力される出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークである。
【0059】
この話者埋め込み抽出用ニューラルネットワークは、第一乃至第四のネットワークが順次接続されたニューラルネットワークである。そして、この話者埋め込み抽出用ニューラルネットワークは、音声信号からフレーム単位の特徴量を算出する第一のネットワークと、フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、事前分布の平均および精度、並びに、特徴量および第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、事後分布の平均および第二の精度から話者埋め込みを算出する第四のネットワークとを含む。
【0060】
このような学習済みネットワークにより、第一のネットワークの入力層に入力された音声信号に対し、学習された重み係数に基づく演算を行い、第四のニューラルネットワークの中間層から話者埋め込みを抽出するよう、コンピュータを機能させる。このような学習済みモデルを用いることで、音声の不確実性を考慮して話者埋め込みの抽出および話者分類が可能になる。
【0061】
実施形態2.
次に、この開示の第二の実施形態を説明する。第二の実施形態では、第一の実施形態で学習されたニューラルネットワークを用いた装置の態様を説明する。
図5は、話者埋め込み抽出装置の一実施形態の構成例を示すブロック図である。本実施形態の話者埋め込み抽出装置200は、記憶部110と、信号入力部120と、結果出力部130とを備えている。
【0062】
記憶部110は、話者埋め込み抽出装置200が処理に用いる各種情報を記憶する。具体的には、本実施形態の記憶部110は、第一の実施形態の学習装置100が生成した学習済みモデル(話者埋め込み抽出用ニューラルネットワーク)を記憶する。また、記憶部110は、後述する結果出力部130が処理の対象とする音声信号を記憶していてもよい。記憶部110は、例えば、磁気ディスク等により実現される。
【0063】
信号入力部120は、処理の対象とする音声信号の入力を受け付ける。具体的には、信号入力部120は、話者埋め込みの抽出対象とする音声信号の入力を受け付けてもよく、話者分類の対象とする音声信号の入力を受け付けてもよい。
【0064】
結果出力部130は、話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力する。なお、処理に用いる事前分布の平均および精度は、予め記憶部110に記憶しておけばよい。また、話者分類を目的とした場合、結果出力部130は、話者埋め込み抽出用ニューラルネットワークを用いて、音声信号の話者を示す出力値を出力してもよい。
【0065】
信号入力部120と、結果出力部130とは、プログラム(話者埋め込み抽出プログラム)に従って動作するコンピュータのプロセッサによって実現される。
【0066】
以上のように、本実施形態では、信号入力部120が、音声信号の入力を受け付け、結果出力部130が、話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力する。これにより、入力された音声信号を特徴量として表わすことが可能になる。
【0067】
また、結果出力部130は、話者埋め込み抽出用ニューラルネットワークを用いて、事後分布の平均および第二の精度から音声信号の話者を示す出力値を出力してもよい。これにより、音声信号に対応する話者を推定することが可能になる。この場合、話者埋め込み抽出装置200は、話者分類装置として動作しているとも言える。
【0068】
次に、この開示の概要を説明する。
図6は、この開示による学習装置の概要を示すブロック図である。この開示による学習装置80(例えば、学習装置100)は、音声信号の入力を受け付ける入力層と、その音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、音声信号の話者を示す話者ラベルと出力層から出力される出力値との誤差を示す損失関数(例えば、上述する式8の損失関数J)を最小化するように重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成する学習手段81(例えば、モデル学習部30)を備えている。
【0069】
ここで、話者埋め込み抽出用ニューラルネットワークは、第一乃至第四のネットワークが順次接続されたニューラルネットワークである。そして、学習手段81は、第一のネットワーク(例えば、第一のネットワークNW1)において、音声信号(例えば、xt)からフレーム単位の特徴量(例えば、ot)を算出し、第二のネットワーク(例えば、第二のネットワークNW2)において、フレーム単位の特徴量から第一の精度(例えば、Lt、Log(Lt))を算出し、第三のネットワーク(例えば、第三のネットワークNW3)において、事前分布の平均(例えば、μp)および精度(例えば、Lp)、並びに、特徴量および第一の精度から、事後分布の平均(例えば、φs)および第二の精度(例えば、Ls)を算出し、第四のネットワーク(例えば、第四のネットワークNW4)において、事後分布の平均および第二の精度から話者埋め込み(例えば、ξs)を算出し、音声信号の話者を分類する。
【0070】
そのような構成により、音声の不確実性を考慮して話者埋め込みを学習できる。
【0071】
具体的には、フレーム単位の特徴量は、隠れ変数および不確実性の分布の和(例えば、上述する式3)で定義され、隠れ変数は、事前分布の平均および精度のガウス分布に従い、不確実性は、平均0および第一の精度のガウス分布に従う。
【0072】
図7は、この開示による話者埋め込み抽出装置の概要を示すブロック図である。この開示による話者埋め込み抽出装置90(例えば、話者埋め込み抽出装置200)は、音声信号の入力を受け付ける入力手段91(例えば、信号入力部120)と、入力された音声信号に対する話者埋め込みを出力する出力手段92(例えば、結果出力部130)とを備えている。
【0073】
出力手段92は、音声信号の入力を受け付ける入力層と、その音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、音声信号の話者を示す話者ラベルと出力層から出力される出力値との誤差を示す損失関数(例えば、上述する式8の損失関数J)を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力する。
【0074】
ここで、話者埋め込み抽出用ニューラルネットワークは、音声信号からフレーム単位の特徴量を算出する第一のネットワーク(例えば、第一のネットワークNW1)と、第一のネットワークに接続され、フレーム単位の特徴量から第一の精度を算出する第二のネットワーク(例えば、第二のネットワークNW2)と、第二のネットワークに接続され、事前分布の平均および精度、並びに、特徴量および第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワーク(例えば、第三のネットワークNW3)と、第三のネットワークに接続され、事後分布の平均および第二の精度から話者埋め込みを算出する第四のネットワーク(例えば、第四のネットワークNW4)とを含む。
【0075】
そして、出力手段92は、第一のネットワークの入力層に入力された音声信号に対し、学習された重み係数に基づく演算を行い、第四のニューラルネットワークの中間層から話者埋め込みを抽出する。
【0076】
そのような構成により、入力された音声信号を特徴量として表わすことが可能になる。
【0077】
また、出力手段92は、事後分布の平均および第二の精度から音声信号の話者を示す出力値を出力してもよい。そのような構成により、音声信号に対応する話者を推定することが可能になる。
【0078】
図8は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
【0079】
上述の学習装置80または話者埋め込み抽出装置90は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラムの形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
【0080】
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
【0081】
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0082】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0083】
(付記1)音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成する学習手段を備え、
前記話者埋め込み抽出用ニューラルネットワークは、第一乃至第四のネットワークが順次接続されたニューラルネットワークであって、
前記学習手段は、
第一のネットワークにおいて、前記音声信号からフレーム単位の特徴量を算出し、
第二のネットワークにおいて、前記フレーム単位の特徴量から第一の精度を算出し、
第三のネットワークにおいて、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出し、
第四のネットワークにおいて、前記事後分布の平均および前記第二の精度から話者埋め込みを算出し、前記音声信号の話者を分類することを特徴とする学習装置。
【0084】
(付記2)フレーム単位の特徴量は、隠れ変数および不確実性の分布の和で定義され、当該隠れ変数は、事前分布の平均および精度のガウス分布に従い、当該不確実性は、平均0および第一の精度のガウス分布に従う付記1記載の学習装置。
【0085】
(付記3)音声信号の入力を受け付ける入力手段と、
入力された音声信号に対する話者埋め込みを出力する出力手段とを備え、
前記出力手段は、音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力し、
前記話者埋め込み抽出用ニューラルネットワークは、
前記音声信号からフレーム単位の特徴量を算出する第一のネットワークと、
前記第一のネットワークに接続され、前記フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、
前記第二のネットワークに接続され、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、
前記第三のネットワークに接続され、前記事後分布の平均および前記第二の精度から話者埋め込みを算出する第四のネットワークとを含み、
前記出力手段は、前記第一のネットワークの入力層に入力された音声信号に対し、学習された前記重み係数に基づく演算を行い、前記第四のニューラルネットワークの中間層から前記話者埋め込みを抽出することを特徴とする話者埋め込み抽出装置。
【0086】
(付記4)出力手段は、前記事後分布の平均および前記第二の精度から前記音声信号の話者を示す出力値を出力する付記3記載の話者埋め込み抽出装置。
【0087】
(付記5)コンピュータが、音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成し、
前記話者埋め込み抽出用ニューラルネットワークは、第一乃至第四のネットワークが順次接続されたニューラルネットワークであって、
前記コンピュータが、前記話者埋め込み抽出用ニューラルネットワークの生成の際、
第一のネットワークにおいて、前記音声信号からフレーム単位の特徴量を算出し、
第二のネットワークにおいて、前記フレーム単位の特徴量から第一の精度を算出し、
第三のネットワークにおいて、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出し、
第四のネットワークにおいて、前記事後分布の平均および前記第二の精度から話者埋め込みを算出し、前記音声信号の話者を分類することを特徴とする学習方法。
【0088】
(付記6)音声信号の入力を受け付け、
音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力し、
前記話者埋め込み抽出用ニューラルネットワークは、
前記音声信号からフレーム単位の特徴量を算出する第一のネットワークと、
前記第一のネットワークに接続され、前記フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、
前記第二のネットワークに接続され、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、
前記第三のネットワークに接続され、前記事後分布の平均および前記第二の精度から話者埋め込みを算出する第四のネットワークとを含み、
前記出力の際、前記第一のネットワークの入力層に入力された音声信号に対し、学習された前記重み係数に基づく演算を行い、前記第四のニューラルネットワークの中間層から前記話者埋め込みを抽出することを特徴とする話者埋め込み抽出方法。
【0089】
(付記7)コンピュータに、
音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成する学習処理を実行させ、
前記話者埋め込み抽出用ニューラルネットワークは、第一乃至第四のネットワークが順次接続されたニューラルネットワークであって、
前記学習処理で、
第一のネットワークにおいて、前記音声信号からフレーム単位の特徴量を算出させ、
第二のネットワークにおいて、前記フレーム単位の特徴量から第一の精度を算出させ、
第三のネットワークにおいて、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出させ、
第四のネットワークにおいて、前記事後分布の平均および前記第二の精度から話者埋め込みを算出し、前記音声信号の話者を分類させるための学習プログラムを記憶するプログラム記憶媒体。
【0090】
(付記8)コンピュータに、
音声信号の入力を受け付ける入力処理、および、
入力された音声信号に対する話者埋め込みを出力する出力処理を実行させ、
前記出力処理で、音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力させ、
前記話者埋め込み抽出用ニューラルネットワークは、
前記音声信号からフレーム単位の特徴量を算出する第一のネットワークと、
前記第一のネットワークに接続され、前記フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、
前記第二のネットワークに接続され、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、
前記第三のネットワークに接続され、前記事後分布の平均および前記第二の精度から話者埋め込みを算出する第四のネットワークとを含み、
前記出力処理で、前記第一のネットワークの入力層に入力された音声信号に対し、学習された前記重み係数に基づく演算を行わせ、前記第四のニューラルネットワークの中間層から前記話者埋め込みを抽出させるための話者埋め込み抽出プログラムを記憶するプログラム記憶媒体。
【0091】
(付記9)入力された音声信号に対する話者埋め込みを出力するよう、コンピュータを機能させるための学習済みモデルであって、
前記学習済みモデルは、音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークであり、
前記話者埋め込み抽出用ニューラルネットワークは、
前記音声信号からフレーム単位の特徴量を算出する第一のネットワークと、
前記第一のネットワークに接続され、前記フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、
前記第二のネットワークに接続され、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、
前記第三のネットワークに接続され、前記事後分布の平均および前記第二の精度から話者埋め込みを算出する第四のネットワークとを含み、
前記第一のネットワークの入力層に入力された音声信号に対し、学習された前記重み係数に基づく演算を行い、前記第四のニューラルネットワークの中間層から前記話者埋め込みを抽出するよう、コンピュータを機能させるための学習済みモデル。
【0092】
(付記10)フレーム単位の特徴量は、隠れ変数および不確実性の分布の和で定義され、当該隠れ変数は、事前分布の平均および精度のガウス分布に従い、当該不確実性は、平均0および第一の精度のガウス分布に従う付記9記載の学習済みモデル。
【0093】
(付記11)コンピュータに、
音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数を学習して話者埋め込み抽出用ニューラルネットワークを生成する学習処理を実行させ、
前記話者埋め込み抽出用ニューラルネットワークは、第一乃至第四のネットワークが順次接続されたニューラルネットワークであって、
前記学習処理で、
第一のネットワークにおいて、前記音声信号からフレーム単位の特徴量を算出させ、
第二のネットワークにおいて、前記フレーム単位の特徴量から第一の精度を算出させ、
第三のネットワークにおいて、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出させ、
第四のネットワークにおいて、前記事後分布の平均および前記第二の精度から話者埋め込みを算出し、前記音声信号の話者を分類させるための学習プログラム。
【0094】
(付記12)コンピュータに、
音声信号の入力を受け付ける入力処理、および、
入力された音声信号に対する話者埋め込みを出力する出力処理を実行させ、
前記出力処理で、音声信号の入力を受け付ける入力層と、当該音声信号の話者を示す出力値を出力する出力層とを含むニューラルネットワークに対し、前記音声信号の話者を示す話者ラベルと前記出力層から出力される前記出力値との誤差を示す損失関数を最小化するように重み係数が学習された話者埋め込み抽出用ニューラルネットワークを用いて、入力された音声信号に対する話者埋め込みを出力させ、
前記話者埋め込み抽出用ニューラルネットワークは、
前記音声信号からフレーム単位の特徴量を算出する第一のネットワークと、
前記第一のネットワークに接続され、前記フレーム単位の特徴量から第一の精度を算出する第二のネットワークと、
前記第二のネットワークに接続され、事前分布の平均および精度、並びに、前記特徴量および前記第一の精度から、事後分布の平均および第二の精度を算出する第三のネットワークと、
前記第三のネットワークに接続され、前記事後分布の平均および前記第二の精度から話者埋め込みを算出する第四のネットワークとを含み、
前記出力処理で、前記第一のネットワークの入力層に入力された音声信号に対し、学習された前記重み係数に基づく演算を行わせ、前記第四のニューラルネットワークの中間層から前記話者埋め込みを抽出させるための話者埋め込み抽出プログラム。
【0095】
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0096】
10 記憶部
20 入力部
30 モデル学習部
40 出力部
100 学習装置
110 記憶部
120 信号入力部
130 結果出力部
200 話者埋め込み抽出装置