(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-22
(45)【発行日】2023-10-02
(54)【発明の名称】話者識別装置、話者識別方法、及び、プログラム
(51)【国際特許分類】
G10L 17/18 20130101AFI20230925BHJP
G10L 17/00 20130101ALI20230925BHJP
【FI】
G10L17/18
G10L17/00 200Z
(21)【出願番号】P 2019133958
(22)【出願日】2019-07-19
【審査請求日】2022-02-02
(32)【優先日】2018-11-19
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100109210
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】板倉 光佑
(72)【発明者】
【氏名】水野 耕
(72)【発明者】
【氏名】土井 美沙貴
【審査官】大野 弘
(56)【参考文献】
【文献】特開2017-097188(JP,A)
【文献】Maofan Yin, et al.,Discriminatively trained joint speaker and environment representations for adaptation of deep neural network acoustic models,2016 International Conference on Acoustics, Speech and Signal Processing,IEEE,2016年03月20日,pp. 5065-5069,http://ieeexplore.ieee.org/document/7472642
(58)【調査した分野】(Int.Cl.,DB名)
G10L 17/18
G10L 17/00
(57)【特許請求の範囲】
【請求項1】
取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算部と、
前記音響特徴量から、前記発話データの統計量を算出する統計量算出部と、
DNN(Deep Neural Network)を用いて、前記統計量から、前記発話データの話者に
ついての話者特徴量を抽出する話者特徴量抽出部と、
前記話者特徴量と、予め保持している1以上の登録話者の話者特徴量との類似度を算出する類似度算出部と、
前記類似度に基づいて、前記発話データの話者を識別する話者識別部と、を備え
、
前記統計量は、前記音響特徴量から前記発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる前記発話全体を通した統計量である、
話者識別装置。
【請求項2】
前記統計量算出部は、
前記音響特徴量のクラス分けを行い、前記統計量として前記クラス毎の平均を算出することで、前記統計量を抽出する、
請求項
1に記載の話者識別装置。
【請求項3】
前記統計量算出部は、不特定多数話者の発話の音声の音響特徴量をクラス分けして対応させたガウス分布を混合して得られる初期モデルであるUBM(Universal Background Model)から、前記発話の音声についての前記音響特徴量をクラス分けして対応させたガウス分布を混合して得られる、前記発話データの話者モデルであるGMM(Gaussian Mixture Model)を推定し、前記GMMの各ガウス分布の平均ベクトルを連結したスーパーベクトルと、前記UBMの各ガウス分布の平均ベクトルを連結したスーパーベクトルとの差分を、前記統計量として算出する、
請求項1
または2に記載の話者識別装置。
【請求項4】
前記DNNは、入力層と複数の中間層と出力層とを備え、
前記話者特徴量抽出部は、前記DNNの複数の中間層のうちのいずれかの層から話者特徴量を抽出する、
請求項1~
3のいずれか1項に記載の話者識別装置。
【請求項5】
前記DNNは、ボトルネックDNNであり、
前記複数の中間層のうち一つの中間層だけは、他の中間層よりもノード数が少ない、
請求項
4に記載の話者識別装置。
【請求項6】
コンピュータが行う話者識別方法であって、
取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算ステップと、
前記音響特徴量から、前記発話データの統計量を算出する統計量算出ステップと、
DNNを用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出ステップと、
前記話者特徴量と、予め保持している1以上の登録話者の話者特徴量との類似度を算出する類似度算出ステップと、
前記類似度に基づいて、前記発話データの話者を識別する話者識別ステップと、を含
み、
前記統計量は、前記音響特徴量から前記発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる前記発話全体を通した統計量である、
話者識別方法。
【請求項7】
取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算ステップと、
前記音響特徴量から、前記発話データの統計量を算出する統計量算出ステップと、
DNNを用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出ステップと、
前記話者特徴量と、予め保持している1以上の登録話者の話者特徴量との類似度を算出する類似度算出ステップと、
前記類似度に基づいて、前記発話データの話者を識別する話者識別ステップと、をコンピュータに実行させる、
前記統計量は、前記音響特徴量から前記発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる前記発話全体を通した統計量である、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、話者識別装置、話者識別方法、及び、プログラムに関し、特に、DNN(Deep Neural Network)を用いた話者識別装置、話者識別方法、及び、プログラムに関する。
【背景技術】
【0002】
話者識別技術は、登録対象の話者の発話の音声を予め収集し、収集した音声から算出した特徴量と、新たに取得する未知の話者の発話の音声から算出した特徴量との類似度に基づいて、未知の話者の発話が登録されたどの話者の発話であるかを推定する技術である。
【0003】
近年、深層学習を用いた話者識別技術の研究が盛んに行われている。例えば、画像処理及び音声認識などの様々な分野においてDNNを用いた技術が急速に発展していることを受け、DNNを用いた話者識別方法も数多く報告されている。
【0004】
DNNを用いた最も簡単な話者識別方法は、入力としてMel-Frequency Cepstrum Coefficients(MFCC)等の音響特徴量を用いて、DNNの最終層の出力を話者識別の結果とする方法である。
【0005】
しかし、この方法では、発話内容及び収録環境に関して過学習を起こしやすいということが知られている。
【0006】
そこで、過学習を防ぐため、DNNの最終層の出力を使わない方法が提案されている(例えば、非特許文献1参照)。非特許文献1では、DNNの中間層の出力を抽出し、抽出した出力を話者識別用の特徴量として、コサイン距離識別器またはPLDA等の識別器により過学習を防いで話者識別を行う方法が提案されている。
【0007】
また、本来、音響特徴量は、話者性だけでなく発話内容にも大きく依存することから、最終出力が話者識別の結果となっているDNNを用いない方法も提案されている(例えば、非特許文献2参照)。非特許文献2では、最終出力が音声認識の結果となっているDNNを用いて話者識別用の特徴量を抽出する方法が提案されている。
【0008】
これらの方法により、DNNを用いて話者識別用の特徴量を抽出することで、発話内容の違いを考慮した特徴量を抽出することができるので、発話内容の違いに頑健な話者識別方法を実現できる。
【先行技術文献】
【非特許文献】
【0009】
【文献】E. Variani et al. “Deep neural networks for small footprint text-dependent speaker verification.” In: Proc. ICASSP. 2014,pp. 4052‐4056.
【文献】F. Richardson et al. “Deep Neural Network Approaches to Speaker and Language Recognition”. In: IEEE SPL 22.10 (2015), pp. 1671‐1675.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、上記の非特許文献1及び非特許文献2で開示されるDNNを用いた話者識別方法では、5~10秒程度の短時間の発話に対しては精度の向上が見られるものの、1分以上の長時間の発話に対しては精度の向上が不十分であるとの課題がある。
【0011】
本開示は、上述の事情を鑑みてなされたもので、DNNを用いた話者識別の精度を向上することができる話者識別装置、話者識別方法、及び、プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
本開示の一態様に係る話者識別装置は、取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算部と、前記音響特徴量から、前記発話データの統計量を算出する統計量算出部と、DNN(Deep Neural Network)を用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出部と、前記話者特徴量と、予め保持している1以上の登録話者の話者特徴量との類似度を算出する類似度算出部と、前記類似度に基づいて、前記発話データの話者を識別する話者識別部と、を備える。
【0013】
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
【発明の効果】
【0014】
本開示の話者識別装置等によれば、DNNを用いた話者識別の精度を向上することができる。
【図面の簡単な説明】
【0015】
【
図1】実施の形態に係る話者識別システムの構成の一例を示すブロック図である。
【
図2】実施の形態に係る統計量算出部の具体的構成の一例を示すブロック図である。
【
図3】実施の形態に係る統計量算出部が統計量を算出する手順を概念的に示す図である。
【
図4】実施の形態に係る話者特徴量抽出部に用いられるDNNの構成の一例を示すブロック図である。
【
図5】実施の形態に係る話者特徴量抽出部に用いられるDNNの構成の別の一例を示すブロック図である。
【
図6】実施の形態に係る類似度算出部が算出した類似度の一例を示す図である。
【
図7】実施の形態に係る話者識別装置の動作の概要を示すフローチャートである。
【
図8】各発話の音響特徴量として計算されたMFCCを、時間方向の平均と分散とを用いて算出された統計量の一例を示す図である。
【
図9】各発話の音響特徴量として計算されたMFCCを、混合ガウスモデル(GMM)を用いて発話をモデル化することで算出された統計量の一例を示す図である。
【
図10】実施例に係る学習に用いられた学習用データセットの一例を示す図である。
【
図11】実施例に係る評価実験に用いられた評価用データセットの一例を示す図である。
【
図12】実施例に係る評価用データセットを用いて識別性能を評価した実験結果を示す図である。
【
図13】
図11に示す評価用データセットを用いて識別性能を評価した実験結果を示す図である。
【
図14】特定の発話と複数の登録話者それぞれとの類似度を示す図である。
【発明を実施するための形態】
【0016】
(本発明の一態様を得るに至った経緯)
従来、i-vectorと呼ばれる話者固有の特徴量を用いた話者識別技術が広く研究されてきた。
【0017】
ここで、i-vectorは、混合ガウスモデルを用いて、発話の統計的な特徴量をもとに、算出される。なお、混合ガウスモデルは、複数個のガウス分布の線形重ね合わせで表現され、複数のガウス分布(正規分布)によってクラスタリングを行う手法として知られている。より具体的には、まず、不特定多数話者の音声の平均のモデルすなわち一般的な音声らしいモデルを表すモデルであるUniversal Background Model(UBM)を不特定多数話者の音声データを用いて事前に学習する。次いで、UBMを、識別対象の話者に適応させて、当該話者のモデルであるGaussian Mixture Model(GMM)を推定する。そして、GMMの平均ベクトルをガウス分布の混合数分だけ結合して得られるGMMスーパーベクトルを話者固有の特徴量すなわちi-vectorとして算出する。例えば、識別対象の話者の一発話のデータを用いて、UBMを適応させて得たGMMの平均ベクトルを結合することで、当該一発話のデータのGMMスーパーベクトルすなわちi-vectorとして算出することができる。また、i-vectorを用いた話者識別方法では、発話が長いほど正確な統計量が得やすいため、長時間の発話においては話者識別の精度が高いという特長がある。
【0018】
一方、上述したように、近年、深層学習を用いた話者識別技術の研究が盛んに行われており、例えば、画像処理及び音声認識などの様々な分野においてDNNを用いた技術が急速に発展していることから、DNNを用いた話者識別方法も数多く報告されている。
【0019】
例えば非特許文献1では、上述したように、DNNの中間層の出力を抽出し、抽出した出力を話者識別用の特徴量として、コサイン距離識別器またはPLDA等の識別器により話者識別を行う方法が提案されている。また、例えば非特許文献2では、上述したように、最終出力が音声認識の結果となっているDNNを用いて話者識別用の特徴量を抽出する方法が提案されている。これらの方法により、DNNを用いて話者識別用の特徴量を抽出することで、発話内容の違いを考慮した特徴量を抽出することができるので、発話内容の違いに頑健な話者識別方法を実現できる。
【0020】
また、上記の非特許文献1及び非特許文献2で開示されるDNNを用いた話者識別方法では、i-vectorを用いた話者識別方法を上回る性能を達成している。
【0021】
しかしながら、発話長ごとの識別性能すなわち精度を評価すると、次の通りである。上記の非特許文献1及び非特許文献2で開示されるDNNを用いた話者識別方法では、5~10秒程度の短時間の発話については、i-vectorを用いた話者識別方法を上回る識別性能が達成されている。一方で、1分以上の長時間の発話については、i-vectorを用いた話者識別方法よりも識別性能が下回っているとの結果も報告されている。
【0022】
本発明者らは、鋭意検討の結果、DNNを用いた話者識別方法では、1分以上の長時間の発話において精度の向上が不十分であった原因を以下のように見出した。すなわち、DNNによる話者識別方法では、短時間の音響特徴量による話者識別を独立に繰り返し、それらの平均等を取ることにより発話全体の話者識別を行っている。通常、長時間の発話ほど発話全体の中に豊富な情報を含んでいる。しかし、DNNによる話者識別方法では、短時間ごとの平均という単純な処理を行っていることから、長時間の発話に含まれる豊富な情報が損なわれてしまい、長時間の発話に対する話者識別の精度が十分に向上しないと考えられる。
【0023】
つまり、本発明者らは、DNNによる話者識別方法では、各時間(短時間)の音響特徴量を独立に入力として用いているため、発話全体の特徴を考慮できないことが、長時間の発話に対する話者識別の精度が十分に向上しない原因の一つであることを見出した。
【0024】
なお、DNNへ入力する発話データの入力次元を大きくすると、発話全体の特徴量も用いることができるようになるが、教師データとして次元数を増加した発話データを用いたDNNの学習が極めて困難になってしまい、現実的でない。
【0025】
そこで、本発明者らは、鋭意検討の結果、発話データから算出した音響特徴量を、話者特徴量の抽出を行わせるDNNの入力として直接用いるのではなく、DNNの前段に音響特徴量に対する統計処理を新たに導入することを見出した。
【0026】
(本開示の概要)
本開示の一形態の概要は、以下の通りである。
【0027】
本開示の一態様に係る話者識別装置は、取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算部と、前記音響特徴量から、前記発話データの統計量を算出する統計量算出部と、DNN(Deep Neural Network)を用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出部と、前記話者特徴量と、予め保持している1以上の登録話者の話者特徴量との類似度を算出する類似度算出部と、前記類似度に基づいて、前記発話データの話者を識別する話者識別部と、を備える。
【0028】
本態様によれば、発話全体の情報を含む音響特徴量に相当する発話データの統計量を用いて、DNNにより話者特徴量の抽出を行うことで、長時間の発話においても話者識別の精度を向上することができる。よって、DNNを用いた話者識別の精度を向上することができる。
【0029】
また、例えば、前記統計量は、前記音響特徴量から前記発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる前記発話全体を通した統計量であるとしてもよい。
【0030】
これにより、DNNに、発話全体の特徴を考慮した話者特徴量の抽出を行わせることができる統計量を算出できるので、長時間の発話においても話者識別の精度を向上することができる。
【0031】
また、例えば、前記統計量算出部は、前記音響特徴量のクラス分けを行い、前記統計量として前記クラス毎の平均を算出することで、前記統計量を抽出するとしてもよい。
【0032】
これにより、DNNに、発話全体の特徴を考慮した話者特徴量の抽出を行わせることができる統計量を算出できるので、長時間の発話においても話者識別の精度を向上することができる。
【0033】
また、例えば、前記統計量算出部は、不特定多数話者の発話の音声の音響特徴量をクラス分けして対応させたガウス分布を混合して得られる初期モデルであるUBM(Universal Background Model)から、前記発話の音声についての前記音響特徴量をクラス分けして対応させたガウス分布を混合して得られる、前記発話データの話者モデルであるGMM(Gaussian Mixture Model)を推定し、前記GMMの各ガウス分布の平均ベクトルを連結したスーパーベクトルと、前記UBMの各ガウス分布の平均ベクトルを連結したスーパーベクトルとの差分を、前記統計量として算出するとしてもよい。
【0034】
これにより、一般的な話者の発話の音響特徴量と識別対象の話者の発話の音響特徴量との違いに基づき、発話全体の特徴を考慮した話者特徴量の抽出を行わせることができる統計量を算出できるので、長時間の発話においても話者識別の精度を向上することができる。
【0035】
また、例えば、前記DNNは、入力層と複数の中間層と出力層とを備え、前記話者特徴量抽出部は、前記DNNの複数の中間層のうちのいずれかの層から話者特徴量を抽出するとしてもよい。
【0036】
本態様によれば、DNNの学習時に用いた発話データの話者に依存しないで、DNNに話者特徴量の抽出を行わせることができる。これにより、DNNを用いた話者識別の精度を向上することができる。
【0037】
また、例えば、前記DNNは、ボトルネックDNNであり、前記複数の中間層のうち一つの中間層だけは、他の中間層よりもノード数が少ないとしてもよい。
【0038】
本態様によれば、話者識別に必要な情報を残しつつも、DNNに抽出させる話者特徴量の次元を減らすことができる。
【0039】
本開示の一態様に係る話者識別方法は、コンピュータが行う話者識別方法であって、取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算ステップと、前記音響特徴量から、前記発話データの統計量を算出する統計量算出ステップと、DNNを用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出ステップと、前記話者特徴量と、予め保持している1以上の登録話者の話者特徴量との類似度を算出する類似度算出ステップと、前記類似度に基づいて、前記発話データの話者を識別する話者識別ステップと、を含む。
【0040】
また、本開示の一態様に係るプログラムは、取得された発話の音声を示す発話データから、前記発話の音声についての音響特徴量を計算する音響特徴量計算ステップと、前記音響特徴量から、前記発話データの統計量を算出する統計量算出ステップと、DNNを用いて、前記統計量から、前記発話データの話者についての話者特徴量を抽出する話者特徴量抽出ステップと、前記話者特徴量と、予め保持している1以上の登録話者の話者特徴量との類似度を算出する類似度算出ステップと、前記類似度に基づいて、前記発話データの話者を識別する話者識別ステップと、をコンピュータに実行させる。
【0041】
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
【0042】
以下、本開示の実施の形態について、図面を参照しながら説明する。以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
【0043】
(実施の形態)
以下では、図面を参照しながら、本実施の形態に係るDNNを用いた話者識別方法等の説明を行う。
【0044】
[話者識別システム1]
図1は、本実施の形態に係る話者識別システム1の構成の一例を示すブロック図である。
【0045】
本実施の形態に係る話者識別システム1は、発話者が、登録されている話者のうちのどの話者であるかを識別するために用いられる。
【0046】
話者識別システム1は、
図1に示すように、音声取得部10と、話者識別装置11と、記憶部17とを備える。
【0047】
[音声取得部10]
音声取得部10は、例えばマイクロフォンからなり、話者の発話の音声を取得する。音声取得部10は、取得した音声を音声信号に変換して、音響特徴量計算部12に出力する。
【0048】
[話者識別装置11]
話者識別装置11は、例えば、プロセッサ(マイクロプロセッサ)、メモリ、通信インタフェース等を備えるコンピュータで実現される。話者識別装置11は、サーバに含まれて動作するとしてもよいし、話者識別装置11の一部構成がクラウドサーバに含まれ動作するとしてもよい。話者識別装置11は、識別対象の発話を行った話者が、どの登録話者であるかを識別する処理を行う。
【0049】
話者識別装置11は、
図1に示すように音響特徴量計算部12と、統計量算出部13と、話者特徴量抽出部14と、類似度算出部15と、話者識別部16とを備える。なお、話者識別装置11は、記憶部17をさらに備えるとしてもよいが、必須の構成でない。
【0050】
[音響特徴量計算部12]
音響特徴量計算部12は、取得された発話の音声を示す発話データから、発話の音声についての音響特徴量を計算する。本実施の形態では、音響特徴量計算部12は、音声取得部10により出力された発話の音声信号から、発話の音声の特徴量であるMFCCを、音響特徴量として計算する。MFCCは、発話者の声道特性を表す特徴量であり、音声認識でも一般的に使用される。より具体的には、MFCCは、音声の周波数スペクトルを人間の聴覚特性に基づいて分析した音響特徴量である。なお、音響特徴量計算部12は、発話の音響特徴量として、MFCCを計算する場合に限らず、発話の音声信号にメルフィルタバンクをかけたものを音響特徴量として計算してもよいし、発話の音声信号のスペクトログラムを音響特徴量として計算してもよい。また、音響特徴量計算部12は、DNNなど深層学習させたニューラルネットワークを用いて、発話の音声信号から、音声の特徴量を示す音響特徴量を計算してもよい。
【0051】
[統計量算出部13]
統計量算出部13は、話者特徴量抽出部14の前段に設けられ、音響特徴量計算部12で計算された音響特徴量に対して統計処理を行い、統計処理を行うことで得た、話者特徴量に関する統計量を、話者特徴量抽出部14に出力する。より具体的には、統計量算出部13は、音響特徴量計算部12で計算された音響特徴量から、発話データの統計量を算出する。
【0052】
ここで、統計量は、平均及び分散を統計処理として用いて算出されてもよい。すなわち、統計量は、各発話の音響特徴量として計算されたMFCCを、時間方向の平均と分散とを用いて算出されてもよい。これにより、話者ごとの各発話の統計量を算出することができる。
【0053】
また、統計量は、発話全体の情報を含む音響特徴量に相当する発話データの統計量であってもよい。より具体的には、統計量は、音響特徴量から発話を含む発話全体の特徴を抽出するための統計処理が行われることにより得られる発話全体を通した統計量であってもよい。このような発話全体の特徴を含む発話全体を通した統計量は、混合ガウスモデル(GMM)を用いて発話をモデル化することで算出される。
【0054】
本実施の形態では、統計量は、発話全体を通した発話データの統計量であるとして、以下説明する。
【0055】
図2は、本実施の形態に係る統計量算出部13の具体的構成の一例を示すブロック図である。
図3は、本実施の形態に係る統計量算出部13が統計量を算出する手順を概念的に示す図である。
【0056】
本実施の形態では、統計量算出部13は、
図2に示すように、データ取得部131と、UBM作成部132と、GMM推定部133と、スーパーベクトル算出部134とを備える。統計量算出部13は、音響特徴量計算部12で計算された音響特徴量のクラス分けを行い、発話データの統計量としてクラス毎の平均を算出する。
【0057】
<データ取得部131>
データ取得部131は、不特定多数話者の発話の音声についての音響特徴量を取得する。本実施の形態では、例えば
図3の(a)に示すように、データ取得部131は、事前に用意された不特定多数話者の全ての発話の音声についてのMFCCを、音響特徴量としてデータ収集する。データ取得部131は、音声取得部10により出力された不特定多数話者の全ての発話の音声信号から、MFCCを音響特徴量として計算することで取得してもよい。この場合、データ取得部131は、不特定多数話者の全ての発話の音声に対して時間フレームごとにMFCCを計算することで、不特定多数話者の発話の音声についての音響特徴量を取得する。
【0058】
<UBM作成部132>
UBM作成部132は、不特定多数話者の発話の音声の音響特徴量をクラス分けして対応させたガウス分布を混合して得られる初期モデルであるUBMを作成する。
【0059】
なお、ここでのUBMは、i‐vectorの抽出に用いられるUBMと同様の手法により作成されるモデルである。
【0060】
より具体的には、まず、UBM作成部132は、データ取得部131により取得された全ての発話の音声に対する全時間フレームのMFCCの時間微分(△MFCC)と、その時間微分(△MFCC)の時間微分(△△MFCC)を計算する。次に、UBM作成部132は、これらのMFCC、△MFCC、△△MFCCの値が、(式1)のように共通の混合ガウスモデル(GMM)から生成されるとして、その混合ガウスモデル(GMM)を推定する。
【0061】
【0062】
ただし、(式1)において、Xntは、発話n、時刻tにおけるMFCC、△MFCC及び△△MFCCの値を連結したベクトルである。発話n、時刻tにおけるMFCCのみだと、発話の前後がわからなくなるが、MFCCの2回微分した値まで用いることで、発話n、時刻tにおけるMFCCの前後を含めることができるからである。また、πi、mi、Σiはそれぞれ、GMMのi番目のガウス分布の混合比、平均、共分散行列である。なお、mi、Σiはひとつのガウス分布の山の形を表している。また、不特定多数話者の全発話に対して推定される混合ガウスモデル(GMM)は、不特定多数話者の音声の平均のモデルすなわち一般的な音声らしいモデルを表す初期モデルとなることから、UBMと呼ばれる。
【0063】
このため、UBM作成部132は、例えば
図3の(b)に示すように、不特定多数話者の全発話に対して推定した混合ガウスモデル(GMM)を、UBMとして作成する。なお、UBMにおいて、混合されているガウス分布のそれぞれは、不特定多数話者の音声の音響特徴量をクラス分けされたものに対応する。
【0064】
<GMM推定部133>
GMM推定部133は、UBM作成部132により作成された初期モデルであるUBMから、対象発話の音声についての音響特徴量をクラス分けして対応させたガウス分布を混合して得られる、対象発話の発話データの話者モデルであるGMMを推定する。
【0065】
より具体的には、GMM推定部133は、例えば
図3の(c)に示すように、UBM作成部132により作成されたUBMを、識別対象の話者の発話すなわち対象発話nに対して適応させることで、(式2)のような、対象発話nにおけるGMMを推定する。対象発話nにおけるGMMは、最大事後確率(MAP:Maximum A posteriori Probability)による推定を用いて、UBMを適応させることで得られる。
【0066】
【0067】
ただし、(式2)において、Xntは、発話n、時刻tにおけるMFCC、△MFCC及び△△MFCCの値を連結したベクトルである。また、πni、mni、Σniはそれぞれ、UBMのi番目のガウス分布を基点としてMAP推定により構成されたGMMのi番目のガウス分布の混合比、平均、共分散行列である。なお、mni、Σniはひとつのガウス分布の山の形を表している。
【0068】
このようにして、GMM推定部133は、UBM作成部132により作成されたUBMを基点として、最大事後確率による学習(推定)により、対象発話の音声のモデルを構成する発話nにおけるGMMを得ることができる。なお、対象発話nにおけるGMMにおいて、混合されているガウス分布のそれぞれは、対象発話nの音声についての音響特徴量をクラス分けされたものに対応する。
【0069】
<スーパーベクトル算出部134>
スーパーベクトル算出部134は、対象発話におけるGMMの各ガウス分布の平均ベクトルを連結したスーパーベクトルと、UBMの各ガウス分布の平均ベクトルを連結したスーパーベクトルとの差分を、統計量として算出する。
【0070】
より具体的には、まず、スーパーベクトル算出部134は、対象発話nにおけるGMMを構成する各ガウス分布の平均ベクトルを混合数分のすべて連結したスーパーベクトルと、UBMを構成する各ガウス分布の平均ベクトルを混合数分のすべて連結したスーパーベクトルとを算出する。ここで、UBM及びGMMを構成する各ガウス分布の平均ベクトルをすべて連結した高次元ベクトルは、スーパーベクトルと称される。
【0071】
次に、スーパーベクトル算出部134は、(式3)のように、UBMのスーパーベクトルと、発話nにおけるGMMのスーパーベクトルとの差分anを算出し、算出した差分anを統計量とする。(式3)において、Iは、ガウス分布の混合数を示す。
【0072】
【0073】
このように、統計量算出部13は、i‐vectorの抽出に用いられるUBMを利用することで、一般的な話者の音響特徴量と識別対象の話者の対象発話の音響特徴量との違いに基づいて、MFCC等の音響特徴量から発話全体を通じた統計量を算出する。
【0074】
[話者特徴量抽出部14]
図4は、本実施の形態に係る話者特徴量抽出部14に用いられるDNNの構成の一例を示すブロック図である。
図5は、本実施の形態に係る話者特徴量抽出部14に用いられるDNNの構成の別の一例を示すブロック図である。
【0075】
話者特徴量抽出部14は、DNNを用いて、統計量算出部13により算出された統計量から、発話データの話者についての話者特徴量を抽出する。
【0076】
ここで、DNNは、例えば学習済みである特徴抽出部と識別部とで構成されていてもよい。この場合、話者特徴量抽出部14は、統計量をこのDNNに入力することで、DNNに、識別対象の話者の発話を含む統計量を固定次元埋め込みにマッピングした特徴量である話者特徴量を出力させてもよい。DNNとして用意するモデル次第で発話が短くても性能が劣化しにくい話者特徴量を得ることができる。
【0077】
また、DNNは、例えば
図4等に示すように、入力層と複数の中間層と出力層とを備えるニューラルネットワークで構成されていてもよい。そして、話者特徴量抽出部14は、統計量をこのDNNに入力し、DNNの複数の中間層のうちのいずれかの層から話者特徴量を抽出してもよい。
【0078】
これにより、最終出力が話者識別結果となるように学習されているDNNを用いても、学習話者すなわち学習時に用いた話者データの話者に依存しないようにすることができる。
【0079】
また、DNNは、入力層と複数の中間層と出力層とを備え、複数の中間層のうち一つの中間層だけは、他の中間層よりもノード数が少ないボトルネックDNNで構成されていてもよい。より具体的には、ボトルネックDNNは、例えば
図5に示すように、複数の中間層(隠れ層)の内、一つだけノードの数が少ない隠れ層を持つDNNである。以下、複数の中間層の内のノード数の少ない中間層をボトルネック層と称する。
【0080】
さらに、話者特徴量抽出部14は、統計量をこのボトルネックDNNに入力し、ボトルネック層から話者特徴量を抽出してもよい。話者特徴量抽出部14は、ボトルネック層の出力を話者特徴量として抽出することで、話者識別に必要な情報を保持しつつも、より少ない次元で表現された話者特徴量を統計量から抽出することができる。
【0081】
なお、ボトルネック層は、より後ろの中間層に位置するほど適切な特徴量を抽出できること、最終の中間層の一つ手前の中間層にボトルネック層を置くことで最も良い性能が出ることが知られている。そこで、本実施の形態では、最終の中間層の一つ手前の中間層をボトルネック層としている。
【0082】
ところで、ボトルネックDNNを用いた話者識別については様々な研究がされている。例えばボトルネックDNNの学習タスクとして話者識別を設定することで、直接話者識別に必要な情報を抽出する手法がある。また、ボトルネックDNNの学習タスクとして音声認識または言語識別など話者識別とは異なるタスクを設定することで、発話者の特徴量を音素と関連付けて抽出する手法もある。
【0083】
本実施の形態では、前段の統計量算出部13により算出された統計量は、統計量が算出される際の統計処理により音素に関する情報が低減されている。このため、ボトルネックDNNの学習タスクとしては、音声認識ではなく話者識別が設定される。
【0084】
また、ボトルネックDNNでは、入力層のノードの数は統計量算出部13で算出される統計量の次元数に一致し、出力層のノードの数は、学習時に用いた学習用データに含まれる話者の数に一致する。したがって、学習時には、ボトルネックDNNは、ある話者の発話の音声を示す発話データの統計量が入力され、出力層におけるその発話データに対応する話者のノードに1、それ以外の話者のノードに0を出力させるよう学習する。
【0085】
なお、ボトルネックDNNでは、上述したように、ボトルネック層の出力が話者特徴量として用いられるため、ボトルネック層以降の最終中間層と出力層とは学習時にのみ使用し、話者特徴量の抽出時には使用しない。
【0086】
このようにして、話者特徴量抽出部14は、話者識別を学習タスクとしたDNNに統計量を入力し、そのDNNの中間層の出力を抽出することで、DNNを用いて統計量を話者識別に適した話者特徴量へ変換することができる。
【0087】
[類似度算出部15]
類似度算出部15は、話者特徴量抽出部14により抽出された話者特徴量と、予め保持している1以上の登録話者の話者特徴量との類似度を算出する。
【0088】
本実施の形態では、話者特徴量抽出部14により抽出された話者特徴量と、記憶部17に記憶されている登録話者情報171に含まれる1以上の登録話者の話者特徴量それぞれとの類似度を算出する。ここで、1以上の登録話者の話者特徴量は、予め記憶された登録話者情報171に含まれる。
【0089】
類似度算出部15は、例えばベクトル空間モデルにおいて内積を使って余弦を算出することで、類似度を算出してもよい。より具体的には、話者特徴量抽出部14により抽出された話者特徴量と、予め保持している1以上の登録話者の話者特徴量それぞれとのベクトル間角度を示すコサイン距離(コサイン類似度も称される)を、類似度として算出してもよい。
【0090】
図6は、本実施の形態に係る類似度算出部15が算出した類似度の一例を示す図である。より具体的には、
図6には、類似度算出部15が算出した類似度として、話者特徴量抽出部14により抽出された話者特徴量を示すベクトルS
1と、ある登録話者の話者特徴量を示すベクトルS
2とのコサイン距離の一例が示されている。ベクトル間角度θの数値が大きくなるほど類似度が低いことを意味する。
【0091】
なお、類似度算出部15は、類似度として、話者特徴量抽出部14により抽出された話者特徴量を示すベクトルと、予め保持している1以上の登録話者の話者特徴量それぞれを示すベクトルとの内積を用いて-1から1までの値をとるコサイン距離を算出してもよい。この場合、コサイン距離を示す数値が大きくなるほど類似度が高いことを意味する。
【0092】
本実施の形態では、類似度算出部15は、話者特徴量抽出部14により抽出された話者特徴量と、予め保持している1以上の登録話者の話者特徴量それぞれとにWithin-Class Covariance Normalization(WCCN)を適用してから、類似度を算出する。ここで、WCCNは、変換行列を用いることにより、クラス内のデータの分散を正規化する手法である。話者特徴量抽出部14により抽出された話者特徴量には、マイクロフォンのチャンネル情報など音声取得部10が話者の発話の音声を取得したときの収音環境に依存する情報も含まれているからである。このため、類似度算出部15は、WCCNを適用して、話者特徴量抽出部14により抽出された話者特徴量と、予め保持している1以上の登録話者の話者特徴量それぞれとの変換を行った後に、類似度としてコサイン距離を算出する。
【0093】
また、記憶部17に、学習済みの類似度算出モデルが記憶されている場合、類似度算出部15は、学習済みの類似度算出モデルを用いて、話者特徴量抽出部14により抽出された話者特徴量と、予め保持している1以上の登録話者の話者特徴量それぞれとの類似度を算出してもよい。より具体的には、類似度算出部15は、記憶部17に記憶されている学習済みの類似度算出モデルを用いて、話者特徴量抽出部14により抽出された話者特徴量から、確率的線形判別分析(Probabilistic Linear Discriminant Analysis:PLDA)により、類似度を算出してもよい。
【0094】
ここで、学習済みの類似度算出モデルは、話し方を含む1以上の登録話者それぞれの話者特徴量について学習された類似度算出用のモデルである。学習済みの類似度算出モデルは、同じ話者の発話でも、その話し方及び周りの環境等の収音条件でどのように特徴量が変化し得るかという分布を事前に学習しておくことで得られる。これにより、学習済みの類似度算出モデルは、音声取得部10で話者の発話の音声が入力されるときの収音条件が、類似度算出モデルの学習時のものと近いほど高性能となるモデルとなる。
【0095】
[話者識別部16]
話者識別部16は、類似度算出部15により算出された類似度に基づいて、発話データの話者を識別する。
【0096】
本実施の形態では、話者識別部16は、類似度算出部15により算出された類似度、すなわち、登録されている話者特徴量それぞれと識別対象の発話の話者特徴量と類似度を比較し、最も近いとされる登録話者を識別結果として出力する。
【0097】
[記憶部17]
記憶部17は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、1以上の登録話者それぞれの固有の特徴量である話者特徴量を記憶する。本実施の形態では、記憶部17は、
図1に示すように、登録話者情報171を記憶している。登録話者情報171は、上述したように、1以上の登録話者の話者特徴量を含む。1以上の登録話者の話者特徴量は、予め収集していた1以上の登録話者の発話の音声の音響特徴量から算出した発話全体を通した統計量が、話者特徴量抽出部14で使用されるDNNを用いて非線形変換された話者特徴量である。
【0098】
[話者識別装置11の動作]
次に、以上のように構成された話者識別装置11の動作について説明する。
【0099】
図7は、本実施の形態に係る話者識別装置11の動作の概要を示すフローチャートである。
【0100】
まず、話者識別装置11は、音声取得部10により取得された発話の音声を示す発話データから、発話の音声についての音響特徴量を計算する(S10)。次に、話者識別装置11は、ステップS10において計算した音響特徴量から、発話データの統計量を算出する(S11)。次に、話者識別装置11は、DNNを用いて、ステップS11において算出した統計量から、識別対象の発話データの話者についての話者特徴量を抽出する(S12)。次に、話者識別装置11は、ステップS12において抽出された話者特徴量と、予め保持している1以上の登録話者の話者特徴量それぞれとの類似度を算出する(S13)。次に、話者識別装置11は、ステップS13において算出された類似度に基づいて、識別対象の発話データの話者を識別する(S14)。ステップS14では、話者識別装置11は、識別対象の発話データの話者が、1以上の登録話者のうちのどの登録話者に該当するかを識別する。
【0101】
[効果等]
以上のように、本実施の形態では、識別対象の話者の対象発話の音声についての音響特徴量を、直接DNNの入力として用いない。より具体的には、当該対象発話の音声についての音響特徴量から発話全体の特徴を算出するための統計処理を新たに導入し、統計処理により算出した発話全体を通した統計量を、DNNの入力として用いて話者特徴量を抽出する。
【0102】
これにより、発話全体の情報を含む音響特徴量に相当する発話データの統計量を用いて、DNNにより話者特徴量の抽出を行うことができるので、長時間の発話においても話者識別の精度を向上することができる。よって、DNNを用いた話者識別の精度を向上することができる話者識別装置11を実現することができる。
【0103】
また、本実施の形態では、話者識別の対象となる発話である対象発話の発話データの音声についての音響特徴量のクラス分けを行い、統計量としてクラス毎の平均を算出してもよい。より具体的には、不特定多数話者の発話の音声の平均を表す初期モデルであるUBMから、対象発話の発話データの話者モデルであるGMMを推定し、推定したGMMの各ガウス分布の平均ベクトルを連結したスーパーベクトルと、UBMの各ガウス分布の平均ベクトルを連結したスーパーベクトルとの差分を、統計量として算出してもよい。
【0104】
これにより、一般的な話者の発話の音響特徴量と識別対象の話者の発話の音響特徴量との違いに基づき、発話全体の特徴を考慮した話者特徴量の抽出を行わせることができる統計量を算出でき、長時間の発話においても話者識別の精度を向上することができる。
【0105】
なお、統計量は、混合ガウスモデル(GMM)を用いて発話をモデル化し、一般的な話者の音響特徴量と識別対象の話者の発話の音響特徴量との違いに基づいて算出される場合に限らない。統計量は、統計処理として平均と分散とを用いて算出されてもよい。以下、平均と分散とを用いて算出された統計量と、混合ガウスモデル(GMM)を用いて発話をモデル化することで算出された統計量との有用性について図を用いて説明する。
【0106】
図8は、各発話の音響特徴量として計算されたMFCCを、時間方向の平均と分散とを用いて算出された統計量の一例を示す図である。
図8に示される各点は、F1~F3で示される3人の女性と、M1~M3で示される3人の男性とが話す各発話に対するMFCCの時間方向の平均及び分散を、Principal Component Analysis(PCA)で2次元に圧縮した値である。
【0107】
図9は、各発話の音響特徴量として計算されたMFCCを、上述したように混合ガウスモデル(GMM)を用いて発話をモデル化することで算出された統計量の一例を示す図である。
図9に示される各点は、F1~F3で示される3人の女性と、M1~M3で示される3人の男性とが話す各発話に対するMFCCを、混合ガウスモデル(GMM)を用いて発話をモデル化することで算出された統計量を、PCAで2次元に圧縮した値である。
【0108】
図8及び
図9では、多次元の統計量を2次元に変換したことから統計量が単純化されたものが示されているため、これらの傾向のみに着目して説明する。平均及び分散を用いた統計量では、
図8に示すように、各発話の統計量の分布が話者ごとに大きく重なっているのがわかる。一方、混合ガウスモデル(GMM)を用いて発話をモデル化することで算出された統計量では、
図9に示すように、一部の話者の分布が大きく重なっているものの、各発話の統計量の分布が話者ごとにおおよそ分かれているのがわかる。
【0109】
なお、統計量をPCAで2次元に圧縮することは、統計量を線形変換したことに相当する。このため、PCAのような線形変換を用いるのではなく、DNNのような非線形変換を用いると、統計量からより高次な話者特徴量を抽出することができるので、より正確に話者を識別することができる。
【0110】
これも併せて鑑みると、平均及び分散を用いた統計量を、DNNの入力として用いて話者特徴量を抽出する場合、統計量を入力で使わない場合より話者識別の精度を向上できたとしても軽微であることが推察される。一方、混合ガウスモデル(GMM)を用いて発話をモデル化することで算出された統計量を、DNNの入力として用いて話者特徴量を抽出する場合、統計量を入力で使わない場合及び平均及び分散を用いた統計量を使う場合よりも、話者識別の精度を向上できることが推察される。
【0111】
また、本実施の形態では、DNNは、入力層と複数の中間層と出力層とを備えるニューラルネットワークであり、DNNの複数の中間層のうちのいずれかの層から話者特徴量が抽出される。
【0112】
これにより、DNNの学習時に用いた発話データの話者に依存しないで、DNNに話者特徴量の抽出を行わせることができるので、DNNを用いた話者識別の精度を向上することができる。
【0113】
ここで、DNNは、ボトルネックDNNであり、複数の中間層のうち一つの中間層だけは、他の中間層よりもノード数が少なくてもよい。これにより、話者識別に必要な情報を残しつつも、DNNに抽出させる話者特徴量の次元を減らすことができるので、処理量を軽減できる。
【0114】
このようにして、本実施の形態に係る話者識別装置11は、DNNを用いた話者識別の精度を向上することができる。
【0115】
(実施例)
話者識別装置11の話者識別性能の評価を、コサイン距離による識別器を用いて行ったので、その評価実験とその結果を実施例として説明する。なお、比較例として、非特許文献1に示される話者特徴量の評価を、コサイン距離による識別器を用いて行った。なお、非特許文献1に示される話者特徴量、すなわち、短時間のフレーム単位で区切った発話の音声の音響特徴量を入力としてボトルネックDNNを用いて抽出された話者特徴量を、以下ではd-vectorと称する。また、話者識別装置11により抽出された話者特徴量を、以下ではs-vectorと称する。換言すると、s-vectorは、上述したように、発話の音声の音響特徴量を、混合ガウスモデルを利用して統計処理することで得た統計量を入力としてボトルネックDNNを用いて抽出された話者特徴量である。
【0116】
<評価条件>
図10は、本実施例に係る学習に用いられた学習用データセットの一例を示す図である。
図11は、本実施例に係る評価実験に用いられた評価用データセットの一例を示す図である。
【0117】
本実施例では、UBM及びボトルネックDNNの学習を、ATR音声データベースのAPP-BLAに含まれるデータを用いて、
図10に示した条件で行った。なお、
図10において、学習話者数は、学習時のボトルネックDNNの出力数すなわち出力層のノード数となる。また、ATR音声データベースのAPP-BLAに含まれる発話データは、短時間のフレーム単位で区切った発話の音声データからなり、当該音声データは音響特徴量に計算されて用いられる。
【0118】
また、本実施例では、
図11に示したNTT-AT日本語音声データベースに含まれる発話を用いて評価実験を行った。評価実験は、各登録話者それぞれに対して評価用データを3セットずつ用いて行った。評価実験では、実環境での使用を想定して、識別対象の発話の音声に対して、雑音を付与しないクリーンな音声と、工場内で収録された雑音を12dB、6dBで付与した音声とを用いてそれぞれ評価した。なお、学習用データ及び評価用データに含まれる発話の音声データはすべて、サンプリング周波数が16kHz、量子化ビット数が16bitである。
【0119】
s-vectorでは、20次元のMFCCを用いて音響特徴量が計算され、UBM及びGMMにおけるガウス分布の混合数は128とした。UBM及びGMMにおけるガウス分布の混合数の数が膨大であると、ボトルネックDNNの規模も膨大となり、学習が困難となるためである。
【0120】
また、s-vectorに用いたボトルネックDNNの構成は、次の通りとした。すなわち、入力を128×20×3=7680次元、出力を3285次元、中間層(隠れ層)を5層とし、中間層の4層目をボトルネック層とし、ボトルネック層の出力を抽出し、話者特徴量とした。ノード数については、ボトルネック層を2048、それ以外の層を4096とした。各層における活性化関数にはRectified Linear Unit(ReLU)を用いた。
【0121】
一方、d-vectorでは、学習話者数が、本評価実験と非特許文献1に記載される実験条件とで異なることから、d-vectorに用いたボトルネックDNNと、s-vectorに用いたボトルネックDNNとは規模が異なる。
【0122】
そこで、本評価実験に合わせるために、d-vectorに用いたボトルネックDNNの構成を、s-vectorに用いたボトルネックDNNと同程度の規模となるように、次の通りとした。すなわち、40次元のMFCCを40フレーム分連結して1600次元のベクトルとしたものをボトルネックDNNの入力として用いた。また、ボトルネックDNNの出力を3285次元、中間層(隠れ層)を5層とし、中間層の4層目をボトルネック層とし、ボトルネック層の出力を抽出し、話者特徴量とした。ノード数については、ボトルネック層を2048、それ以外の層を4096とした。各層における活性化関数にはRectified Linear Unit(ReLU)を用いた。
【0123】
<実験結果>
図12は、本実施例に係る評価用データセットを用いて識別性能を評価した実験結果を示す図である。
図12では、クリーンな音声、雑音環境下のいずれにおいても、s-vectorは、d-vectorよりも高い識別率(%)を示しており、高い識別性能を有するのがわかる。つまり、ボトルネックDNNを用いた話者識別において、本実施の形態に係る統計量を用いることの有効性が確認できた。
【0124】
以上のように、本開示に係る話者識別装置および話者識別方法では、時間ごとの音響特徴量を直接DNNの入力とするのではなく、発話全体の音響特徴量を含む統計量を抽出する手法を導入し、発話全体の特徴も用いて話者識別を行うことができる。また、実施例で説明したように、評価実験の結果、比較例における時間ごとの音響特徴量を直接DNNの入力として用いる手法と比べて、より高い話者識別精度を達成できることを確認できた。
【0125】
このように、本開示に係る話者識別装置および話者識別方法によれば、発話全体の特徴も用いて話者識別を行うことができるので、長時間の発話においても話者識別の精度を向上することができる。よって、DNNを用いた話者識別の精度を向上することができる。
【0126】
(変形例)
上記の実施の形態では、DNNにより抽出した話者特徴量(s-vector)を用いて、算出した類似度から、話者を識別するとして説明したが、これに限らない。DNNにより抽出した話者特徴量を用いて算出した類似度に加え、他の方法により算出した話者特徴量を用いて算出した類似度を利用して話者を識別するとしてもよい。
【0127】
なお、非特許文献1では、DNNにより抽出した話者特徴量による類似度と、i-vectorによる類似度との単純な和を取ることで、DNNにより抽出した話者特徴量による類似度のみを用いて話者識別を行うよりも高い識別性能を達成していることが開示されている。
【0128】
そこで、本変形例では、s-vectorとi‐vectorとの両方を用いて類似度を算出する場合について説明する。より具体的には、本変形例では、s-vectorとi‐vectorとのコサイン距離を算出し、算出したそれぞれのコサイン距離の加重和を算出して類似度として用いる。これは、s‐vectorとi‐vectorの次元が大きく異なるために行った処理である。コサイン距離の大きさは次元数の大きさにも影響を受けるものの、加重和を用いることでそれぞれの特徴量の次元の違いを考慮した類似度の算出が可能となるからである。
【0129】
<評価実験とその結果>
本変形例に係るs‐vectorによる類似度とi‐vectorによる類似度とを合成した合成類似度を用いた場合の話者識別性能の評価を行ったので、その評価実験とその結果を以下に説明する。
【0130】
図13は、
図11に示す評価用データセットを用いて識別性能を評価した実験結果を示す図である。
図13に示されるd-vector及びs-vectorは、上記の実施例で説明したものと同じ話者特徴量であり、同様の評価条件で評価実験を行ったため、詳細な説明は省略する。
【0131】
本変形例では、i‐vectorに用いるUBMの学習を、s‐vectorと同様に、ATR音声データベースのAPP-BLAに含まれるデータを用いて、
図10に示した条件で行っている。また、
図11に示したNTT-AT日本語音声データベースに含まれる発話を用いて評価実験を行っている。
【0132】
また、i-vectorでも、20次元のMFCCを用いて音響特徴量を計算したが、UBM及びGMMにおけるガウス分布の混合数は2048とした。i-vectorでは混合数が多い方ほど性能が良いとされるためである。
【0133】
図13に示すように、クリーンな音声、雑音環境下のいずれにおいても、本変形例における合成類似度を用いた場合、s-vectorよりも高い識別率(%)を示しており、より高い識別性能を有するのがわかる。
【0134】
i-vectorは統計量の線形変換で得られるのに対し、s-vectorは統計量の非線形変換により得られる。このため、本変形例のおける合成類似度を用いる場合、i-vectorの線形変換のみでは抽出できなかった特徴量を、s-vectorによる非線形変換で補うことができるなど、識別性能を補い合うことにより識別性能の向上につながったものと推察される。
【0135】
図14は、特定の発話と複数の登録話者それぞれとの類似度を示す図である。横軸は登録話者のID番号、縦軸は類似度を示す。
図14では、特定の発話すなわちある話者のテスト発話と登録話者それぞれとのi-vectorによる類似度と、ある話者のテスト発話と登録話者それぞれとのs-vectorによる類似度とが示されている。また、
図14では、正解話者の類似度が1になるように、類似度が正規化されている。
【0136】
図14に示すように、テスト発話に対して、s-vectorと i-vectorとのどちらにおいても正解話者よりも類似度が高くなっている話者が存在する。これは、単独の手法すなわちs-vectorによる類似度またはi-vectorによる類似度により話者識別を行うと誤識別が発生してしまう可能性を示唆する。
【0137】
一方、s-vectorによる類似度とi-vectorによる類似度との両方ともにおいて正解話者となる1より大きい類似度となる登録話者のIDは存在しない。このため、合成類似度を用いて話者識別を行うと、これらの誤認識を回避できることがわかる。
【0138】
つまり、本変形例によれば、合成類似度を用いることで、より正確に登録話者と一致するか否かを判定することができるので、DNNを用いた話者識別の精度をより向上することができる。
【0139】
(他の実施態様の可能性)
以上、実施の形態及び変形例等に係る話者識別装置について説明したが、本開示は、この実施の形態に限定されるものではない。
【0140】
例えば、上記実施の形態及び変形例等に係る話者識別装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。
【0141】
また、集積回路化はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、またはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
【0142】
また、本開示は、話者識別装置により実行される話者識別方法として実現されてもよい。
【0143】
また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
【0144】
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。
【0145】
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
【0146】
以上、一つまたは複数の態様に係る話者識別装置について、実施の形態及び変形例等に基づいて説明したが、本開示は、この実施の形態及び変形例等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態及び変形例等に施したものや、異なる実施の形態及び変形例等における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
【産業上の利用可能性】
【0147】
本開示は、話者識別装置、話者識別方法、及び、プログラムに利用でき、例えば、自動的に議事録を作成できる自動議事録作成システムなど、発話の音声から自動的に話者識別を行う話者識別装置、話者識別方法、及び、プログラムに利用できる。
【符号の説明】
【0148】
1 話者識別システム
10 音声取得部
11 話者識別装置
12 音響特徴量計算部
13 統計量算出部
14 話者特徴量抽出部
15 類似度算出部
16 話者識別部
17 記憶部
131 データ取得部
132 UBM作成部
133 GMM推定部
134 スーパーベクトル算出部