(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-20
(45)【発行日】2023-11-29
(54)【発明の名称】照合装置、照合方法、および、照合プログラム
(51)【国際特許分類】
G10L 17/18 20130101AFI20231121BHJP
G10L 15/06 20130101ALI20231121BHJP
G10L 17/04 20130101ALI20231121BHJP
G10L 15/16 20060101ALN20231121BHJP
【FI】
G10L17/18
G10L15/06 500P
G10L17/04
G10L15/16
(21)【出願番号】P 2020028867
(22)【出願日】2020-02-21
【審査請求日】2022-05-25
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】俵 直弘
(72)【発明者】
【氏名】小川 厚徳
(72)【発明者】
【氏名】岩田 具治
(72)【発明者】
【氏名】デルクロア マーク
(72)【発明者】
【氏名】小川 哲司
【審査官】中嶋 樹理
(56)【参考文献】
【文献】米国特許第10347241(US,B1)
【文献】特表2019-530888(JP,A)
【文献】特開2019-159824(JP,A)
【文献】特開2019-219574(JP,A)
【文献】Shuai WANG et al.,On the Usage of Phonetic Information for Text-Independent Speaker Embedding Extraction,Interspeech 2019,オーストリア,International Speech Communication Association,2019年09月19日,pp. 1148-1152,doi: 10.21437/Interspeech.2019-3036
【文献】Zhong MENG et al.,Adversarial Speaker Verification,ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing, [online],IEEE,2019年04月17日,第6216-6220ページ,[2023年3月16日検索], <URL: https://ieeexplore.ieee.org/document/8682488>
【文献】上西 遼大, 外2名,x-vectorに基づく話者照合における非線形帯域拡張法の評価,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2019年03月,第118巻、第497号,第347-352ページ,EA2018-158, SIP2018-164, SP2018-120
(58)【調査した分野】(Int.Cl.,DB名)
G10L 17/18
G10L 15/06
G10L 17/04
G10L 15/16
(57)【特許請求の範囲】
【請求項1】
音声信号をフレームごとの特徴量に変換する第1のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第2のニューラルネットワークとを備えた第1のモデルと、前記第1のモデルに第1の音声信号と第2の音声信号とを入力する入力部と、
前記第1のモデルにおける、前記第2のニューラルネットワークの中間層または前記第1のニューラルネットワークから出力される、前記第1の音声信号および前記第2の音声信号それぞれの特徴量
の類似度を計算し、前記計算した類似度が所定値以上である場合、前記第1の音声信号の話者が、前記第2の音声信号の話者と同じであると判定し、前記計算した類似度が所定値未満である場合、前記第1の音声信号の話者は、前記第2の音声信号の話者とは異なると判定し、前記判定の結果を照合結果として出力する照合部と
を備え、
前記第1のモデルは、前記第1のニューラルネットワークと、前記第2のニューラルネットワークと、前記第1のニューラルネットワークで変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第3のニューラルネットワークとを備える第2のモデルについて、学習用の音声信号と、前記学習用の音声信号の話者および当該音声信号に含まれる音素の正解データとを対応付けた教師データに基づき前記第2のモデルの学習を行う際、前記第2のニューラルネットワークによる
前記フレームごとの話者の認識結果と前記正解データとの距離が小さくなり、かつ、前記第3のニューラルネットワークによる
前記フレームごとの音素の認識結果と前記正解データとの距離が大きくなるよう、前記第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータが更新されたものであることを特徴とする照合装置。
【請求項2】
前記照合部は、
前記入力された第1の音声信号および前記第2の音声信号が複数のフレームから構成される音声信号である場合、前記第1の音声信号および前記第2の音声信号それぞれについてフレームごとの特徴量の平均ベクトルを算出し、前記算出した平均ベクトルを、当該音声信号の特徴量として用いる
ことを特徴とする請求項1に記載の照合装置。
【請求項3】
音声信号をフレームごとの特徴量に変換する第1のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第2のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第3のニューラルネットワークとを備える話者認識モデルについて、音声信号と、前記音声信号の示す音声の話者および当該音声信号の示す音素の正解データとを対応付けた教師データに基づき前記話者認識モデルの学習を行う際、前記第2のニューラルネットワークによる
前記フレームごとの話者の認識と前記正解データとの距離が小さくなり、かつ、前記第3のニューラルネットワークによる
前記フレームごとの音素の認識結果と前記正解データとの距離が大きくなるよう、前記第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータを更新することにより、前記話者認識モデルの学習を行う学習部と、
前記学習後の前記第1のニューラルネットワークと前記第2のニューラルネットワークとを有する第1のモデルに、第1の音声信号と第2の音声信号とを入力する入力部と、
前記学習後の第1のモデルにおける、前記第2のニューラルネットワークの中間層または前記第1のニューラルネットワークから出力される、前記第1の音声信号および前記第2の音声信号それぞれの特徴量
の類似度を計算し、前記計算した類似度が所定値以上である場合、前記第1の音声信号の話者が、前記第2の音声信号の話者と同じであると判定し、前記計算した類似度が所定値未満である場合、前記第1の音声信号の話者は、前記第2の音声信号の話者とは異なると判定し、前記判定の結果を照合結果として出力する照合部と
を備えることを特徴とする照合装置。
【請求項4】
照合装置により実行される照合方法であって、
音声信号をフレームごとの特徴量に変換する第1のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第2のニューラルネットワークとを備えた第1のモデルに、第1の音声信号と第2の音声信号とを入力する入力ステップと、
前記第1のモデルにおける、前記第2のニューラルネットワークの中間層または前記第1のニューラルネットワークから出力される、前記第1の音声信号および前記第2の音声信号それぞれの特徴量
の類似度を計算し、前記計算した類似度が所定値以上である場合、前記第1の音声信号の話者が、前記第2の音声信号の話者と同じであると判定し、前記計算した類似度が所定値未満である場合、前記第1の音声信号の話者は、前記第2の音声信号の話者とは異なると判定し、前記判定の結果を照合結果として出力する照合ステップと
を含み、
前記第1のモデルは、前記第1のニューラルネットワークと、前記第2のニューラルネットワークと、前記第1のニューラルネットワークで変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第3のニューラルネットワークとを備える第2のモデルについて、学習用の音声信号と、前記学習用の音声信号の話者および当該音声信号に含まれる音素の正解データとを対応付けた教師データに基づき前記第2のモデルの学習を行う際、前記第2のニューラルネットワークによる
前記フレームごとの話者の認識と前記正解データとの距離が小さくなり、かつ、前記第3のニューラルネットワークによる
前記フレームごとの音素の認識結果と前記正解データとの距離が大きくなるよう、前記第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータが更新されたものである
ことを特徴とする照合方法。
【請求項5】
音声信号をフレームごとの特徴量に変換する第1のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第2のニューラルネットワークとを備えた第1のモデルに、第1の音声信号と第2の音声信号とを入力する入力ステップと、
前記第1のモデルにおける、前記第2のニューラルネットワークの中間層または前記第1のニューラルネットワークから出力される、前記第1の音声信号および前記第2の音声信号それぞれの特徴量
の類似度を計算し、前記計算した類似度が所定値以上である場合、前記第1の音声信号の話者が、前記第2の音声信号の話者と同じであると判定し、前記計算した類似度が所定値未満である場合、前記第1の音声信号の話者は、前記第2の音声信号の話者とは異なると判定し、前記判定の結果を照合結果として出力する照合ステップと
をコンピュータに実行させ、
前記第1のモデルは、前記第1のニューラルネットワークと、前記第2のニューラルネットワークと、前記第1のニューラルネットワークで変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第3のニューラルネットワークとを備える第2のモデルについて、学習用の音声信号と、前記学習用の音声信号の話者および当該音声信号に含まれる音素の正解データとを対応付けた教師データに基づき前記第2のモデルの学習を行う際、前記第2のニューラルネットワークによる
前記フレームごとの話者の認識と前記正解データとの距離が小さくなり、かつ、前記第3のニューラルネットワークによる
前記フレームごとの音素の認識結果と前記正解データとの距離が大きくなるよう、前記第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータが更新されたものである
ことを特徴とする照合プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、照合装置、照合方法、および、照合プログラムに関する。
【背景技術】
【0002】
発話内容が異なる2つの音声発話が、同じ話者による音声か異なる話者による音声かを識別する話者照合のタスクは、音声認識を活用した自動議事録作成システムや、音声による認証等への応用が期待される。
【0003】
話者照合では、まず、入力音声および予め登録された照合用音声それぞれの特徴量(話者ベクトル)を抽出し、抽出した特徴量の類似度に基づいて、2つの音声発話が同じ話者による音声か、異なる話者による音声かを判定する。
【0004】
上記の話者照合と同様に、話者ベクトルを利用するタスクとして、話者認識が知られている。話者認識は、学習用に与えられた複数話者の音声から話者ベクトルを抽出し、その話者ベクトルを分類するモデルを学習させておき、学習後のモデルを用いて、入力された音声信号がどの話者によるものかを認識する。
【0005】
近年、ニューラルネットワーク(以下、適宜NNと略す)を用いた話者認識技術として、セグメント単位(発話単位)の話者認識の手法(非特許文献1参照)が知られている。上記の手法は、音声信号を話者ベクトルに変換するNNに、話者認識のNNと音素認識を行うNNとを連結し、話者認識NNの出力と音素認識NNの出力との両方が教師データに近づくように各NNのパラメータを同時に学習させる手法である。この手法によれば、話者認識性能が従来よりも高くなることが開示されている。
【先行技術文献】
【非特許文献】
【0006】
【文献】Liu et al., “Speaker Embedding Extraction with Phonetic Information”,arXivpreprint arXiv:1804.04862, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0007】
ここで、例えば、スマートスピーカを経由した音声による機器操作等においては、非常に短時間の発話から発話者の照合を行うことが要求される場合がある。非特許文献1等に記載の手法は、発話単位で話者ベクトルを抽出し、話者認識を行うことを前提とした手法であるので、充分に長い時間の発話については話者認識の性能が高まる一方で、短時間の発話については話者認識の性能が低下するという問題があった。そこで、本発明は、前記した問題を解決し、短時間の発話について話者照合の精度を向上させることを課題とする。
【課題を解決するための手段】
【0008】
前記した課題を解決するため、本発明は、音声信号をフレームごとの特徴量に変換する第1のニューラルネットワークと、変換された前記フレームの特徴量に基づき当該フレームの話者の認識結果を出力する第2のニューラルネットワークとを備えた第1のモデルと、前記第1のモデルに第1の音声信号と第2の音声信号とを入力する入力部と、前記第1のモデルにおける、前記第2のニューラルネットワークの中間層または前記第1のニューラルネットワークから出力される、前記第1の音声信号および前記第2の音声信号それぞれの特徴量に基づき、前記第1の音声信号の話者が、前記第2の音声信号の話者と同じか否かを示す照合結果を出力する照合部とを備え、前記第1のモデルは、前記第1のニューラルネットワークと、前記第2のニューラルネットワークと、前記第1のニューラルネットワークで変換された前記フレームの特徴量に基づき当該フレームの音素の認識結果を出力する第3のニューラルネットワークとを備える第2のモデルについて、学習用の音声信号と、前記学習用の音声信号の話者および当該音声信号に含まれる音素の正解データとを対応付けた教師データに基づき前記第2のモデルの学習を行う際、前記第2のニューラルネットワークによる出力結果は前記正解データに近づき、前記第3のニューラルネットワークによる出力結果は前記正解データに近づかないように学習させたものであることを特徴とする。
【発明の効果】
【0009】
本発明によれば、短時間の発話について話者照合の精度を向上させることができる。
【図面の簡単な説明】
【0010】
【
図2】
図2は、
図1の照合部による話者照合を説明するための図である。
【
図3】
図3は、照合装置の処理手順の例を示すフローチャートである。
【
図4】
図4は、
図3のS2の処理を詳細に説明するフローチャートである。
【
図9】
図9は、照合プログラムを実行するコンピュータの例を示す図である。
【発明を実施するための形態】
【0011】
以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、以下に説明する実施形態に限定されない。
【0012】
[構成]
図1を用いて本実施形態の照合装置の構成例を説明する。照合装置10は、入力部11と、出力部12と、記憶部13と、制御部14とを備える。
【0013】
入力部11は、制御部14が各種処理を行う際に用いるデータの入力を受け付ける。例えば、入力部11は、話者認識モデル(話者認識部141)の学習に用いる教師データの入力を受け付ける。出力部12は、制御部14が行った処理の結果を出力する。例えば、出力部12は、照合部146による音声の話者の照合結果等を出力する。
【0014】
記憶部13は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、照合装置10を動作させるプログラムや、当該プログラムの実行中に使用されるデータなどが記憶される。例えば、記憶部13は、話者認識部141の学習に用いる教師データを記憶する。また、記憶部13は、話者認識部141に設定されるパラメータの値等を記憶する。
【0015】
教師データは、複数の話者の音声信号について、当該音声信号の示す音素および当該音声信号の話者(正解データ)を対応付けたデータである。この教師データは、学習部145が話者認識部141の各NNの学習を行う際に用いられる。
【0016】
制御部14は、照合装置10全体の制御を司る。制御部14は、例えば、話者認識部141の学習等を行う。
【0017】
制御部14は、話者認識部141と、学習部145と、照合部146とを備える。
【0018】
話者認識部141は、話者認識モデルに基づき、入力された音声データの話者の認識を行う。話者認識部141は、第1のNN142と、第2のNN143と、第3のNN144とを備える。
【0019】
第1のNN142は、入力された音声信号を、当該音声信号を構成するフレームごとの中間特徴量に変換する。なお、フレームの長さは、例えば、10msである。
【0020】
第2のNN143は、第1のNN142から出力されたフレーム単位の中間特徴量に基づき、各フレームの話者の認識を行い、各フレームの話者の認識結果を出力する。例えば、第2のNN143は、第1のNN142から出力されたフレーム単位の中間特徴量に基づき、各フレームの話者がどの話者であるかを推定し、推定した話者のIDを出力する。
【0021】
第3のNN144は、第1のNN142から出力されたフレーム単位の中間特徴量に基づき、各フレームの音素の認識を行い、各フレームの音素の認識の結果を出力する。
【0022】
学習部145は、教師データを用いて話者認識部141を構成する第1のNN142、第2のNN143および第3のNN144の学習を行う。学習部145は、更新部1451と更新制御部1452とを備える。
【0023】
更新部1451は、教師データを用いて話者認識部141を構成する第1のNN142、第2のNN143および第3のNN144それぞれのパラメータを更新する。例えば、更新部1451は、第2のNN143の出力と教師データにおける正解データとの損失(距離)が小さくなり、かつ、第3のNN144の出力と教師データにおける正解データとの損失(距離)が大きくなるように、各NNのパラメータを更新する。更新された各NNのパラメータの値は、例えば、記憶部13に記憶される。
【0024】
例えば、更新部1451は、第2のNN143の出力と正解データとの損失(Ls)と、第3のNN144の出力と正解データとの損失(Lp)とを用いて、以下の式(1)に基づき更新対象のパラメータθfを更新する。
【0025】
【0026】
式(1)において、μとλは予め設定する学習重みであり、いずれも正の定数である。更新部1451が、上記の式(1)に基づき、パラメータを更新すると、結果として、パラメータは、Lsに対して減少し、Lpに対して増加する値で更新されることになる。
【0027】
更新制御部1452は、所定の条件を満たすまで、教師データを用いた第1のNN142、第2のNN143および第3のNN144による演算と、当該演算の結果に基づく更新部1451による各NNのパラメータの更新処理とを繰り返し実行させる。なお、上記の所定の条件は、例えば、各NNのパラメータの更新回数が所定の繰り返し回数に達したこと、各NNのパラメータの更新量が所定の閾値未満となったこと等である。所定の条件は、各NNの学習が充分に行われた状態になったことを示す条件であれば、上記の条件に限定されない。
【0028】
照合部146は、入力された音声信号の話者の照合を行う。例えば、照合部146は、学習部145による学習後の話者認識部141の第2のNN143の中間層から出力される特徴量を用いて、入力された音声信号の話者の照合を行う。
【0029】
上記の話者の照合処理を、
図2を用いて説明する。なお、
図2に示す第1のNN142および第2のNN143は、学習部145による学習後の話者認識部141における第1のNN142および第2のNN143である。まず、第1のNN142は、入力部11(
図1参照)経由で入力された音声信号(第1の音声信号)についてフレーム単位で中間特徴量に変換する。また、第1のNN142は、入力部11経由で入力された照合用の音声信号(第2の音声信号)についてフレーム単位で中間特徴量に変換する。
【0030】
第2のNN143は、第1のNN142から出力された、入力された音声信号の中間特徴量に基づき、入力された音声信号の話者の識別処理を行う。また、第2のNN143は、第1のNN142から出力された、照合用の音声信号の中間特徴量に基づき、照合用の音声信号の話者の識別処理を行う。
【0031】
ここで、照合部146は、上記の第2のNN143の中間層が出力する、入力された音声信号の特徴量と照合用の音声信号の特徴量とを取得する。このとき、入力された音声信号が複数のフレームからなる場合、照合部146は、上記の入力された音声信号の特徴量の平均ベクトルと照合用の音声信号の特徴量の平均ベクトルを算出し、それをそれぞれの音声信号の特徴量とする。そして、照合部146は、入力された音声信号の特徴量と、照合用の音声信号の特徴量との類似度に基づいて、入力された音声信号の話者と照合用音声信号の話者とが同じであるか否かを示す照合結果を出力する。例えば、上記の類似度が所定の閾値以上であれば、照合部146は、入力された音声信号の話者が、照合用の音声信号の話者と同じであると判定する。一方、類似度が所定の閾値未満であれば、照合部146は、入力された音声信号の話者が、照合用の音声信号の話者とは異なると判定する。そして、照合部146は、上記の判定結果を照合結果として出力する。
【0032】
[処理手順]
次に、
図3および
図4を用いて、照合装置10の処理手順を説明する。まず、照合装置10は、教師データを用いて話者認識モデルの学習を行う(S1)。つまり、照合装置10の学習部145は、教師データを用いて、話者認識部141の第2のNN143の出力と、教師データにおける正解データとの損失が小さくなり、かつ、話者認識部141の第3のNN144の出力と教師データにおける正解データとの損失が大きくなるように、話者認識部141の各NNのパラメータを更新する。その後、照合装置10は、学習後の話者認識モデルを用いた話者の照合を行う(S2)。例えば、照合装置10の照合部146は、学習後の話者認識部141における第2のNN143の中間層から出力される特徴量を用いて、話者の照合を行う。
【0033】
図4を用いて、
図3のS2における話者の照合処理を詳細に説明する。例えば、学習後の話者認識部141は、入力部11経由で入力された音声信号と照合用の音声信号の入力を受け付ける(
図4のS21)。その後、学習後の話者認識部141の第1のNN142は、入力された音声信号の中間特徴量を出力し、また、照合用の音声信号の中間特徴量を出力する。次に、学習後の話者認識部141の第2のNN143は、第1のNN142から出力された、入力された音声信号の中間特徴量に基づき、入力された音声信号の話者の認識処理を行う。また、第2のNN143は、第1のNN142から出力された照合用の音声信号の中間特徴量に基づき、照合用の音声信号の話者の認識処理を行う。ここで、照合部146は、第2のNN143が上記の話者の認識処理を行う際、第2のNN143の中間層から出力される、入力された音声信号の特徴量および照合用の音声信号の特徴量を取得する(S22)。
【0034】
S22の後、照合部146は、S22で取得した、入力された音声信号の特徴量と照合用の音声信号との類似度を計算する(S23)。そして、計算した類似度が所定の閾値以上であれば(S24でYes)、照合部146は、入力された音声信号の話者は照合用の音声信号の話者と同じと判定し、その判定の結果を出力する(S25)。一方、計算した類似度が所定の閾値未満であれば(S24でNo)、照合部146は、入力された音声信号の話者は照合用の音声信号の話者とは異なると判定し、その判定の結果を出力する(S26)。
【0035】
このようにすることで、照合装置10は、学習後の話者認識部141の第2のNN143の中間層から出力される特徴量を用いて、話者照合を行うことができる。
【0036】
[その他の実施形態]
なお、照合部146は、学習後の話者認識部141の第2のNN143の中間層から出力された音声信号の特徴量を用いて話者照合を行うこととしたがこれに限定されない。例えば、
図1の破線矢印に示すように学習後の話者認識部141の第1のNN142から出力された音声信号の特徴量を用いて話者照合を行ってもよい。
【0037】
また、照合装置10で学習された話者認識部141の第1のNN142および第2のNN143は、当該照合装置10により用いられてもよいし、他の装置により用いられてもよい。
【0038】
例えば、照合装置10で学習された第1のNN142および第2のNN143が、他の照合装置において用いられる場合、例えば、
図5に示す構成となる。
【0039】
図5に示す照合装置100は、入力部11と、出力部12と、制御部14aとを備える。制御部14aは、照合装置10により学習された第1のNN142および第2のNN143と、照合部146とを備える。
【0040】
照合装置100の入力部11において入力された音声信号と、照合用の音声信号とを受け付けると、学習後の第1のNN142がそれぞれの音声信号の特徴量を出力し、第2のNN143は第1のNN142から出力された音声信号の特徴量に基づき、それぞれの音声信号の話者の認識処理を行う。ここで照合部146は、第2のNN143が音声信号の話者の認識処理を行う際、当該第2のNN143の中間層から出力される音声信号の特徴量を用いて、入力された音声信号の話者が、照合用の音声信号の話者と同じか否かの照合を行う。そして、照合部146は照合の結果を出力部12へ出力する。
【0041】
上記のように学習後の第1のNN142および第2のNN143を照合装置100が用いる場合、照合装置10は照合部146を含まない構成としてもよい。
【0042】
[効果]
照合装置10が学習対象とする話者認識部141のNNの構成は、非特許文献1に記載のNNと同様に、音声信号を中間特徴量に変換するNN(第1NN)に、話者認識のNN(第2NN)と音素認識を行うNN(第3NN)とを連結したものである。しかし、照合装置10が学習対象とする話者認識部141と非特許文献1とでは、以下の点において相違する。
【0043】
第1に、照合装置10による学習対象の第1のNN142は、セグメント単位の音声信号をフレーム単位で中間特徴量に変換するのに対し、非特許文献1に記載の技術においては、セグメント単位で、つまり、第1のNN142よりも長い単位の音声信号を入力として中間特徴量に変換する点が異なる。
【0044】
第2に、非特許文献1では、話者認識のNNの出力と音素認識を行うNNの出力とが、いずれも正解データに近づくように学習する。これに対して、照合装置10は、第2のNN143については正解データとの損失(距離)が小さくなるが、第3のNN144と正解データとの損失(距離)が大きくなるように、つまり、音素認識のタスクについては不正解となる方向に、パラメータを学習させる点が異なる。
【0045】
非特許文献1に記載の技術は、話者認識モデルについて話者認識と音素認識の両方が正解データに近づくようにパラメータを学習させる。この結果、学習後の話者認識モデルの第1NNから出力される中間特徴量(話者ベクトル)は、話者認識に適した特徴を含み、かつ、音素認識にも適した特徴を含むようなものが抽出されるようになる。
【0046】
一方、照合装置10が目的とする話者照合のタスクは、入力される2つの音声信号が同じ話者によるものか否かを判定するタスクであり、これら2つの音声信号の内容が異なることが前提となる。ここで、音声信号の内容が異なるということは、各音声に含まれる「音素が何であるか」という情報は、話者照合においては不要な情報と言える。
【0047】
ところが、非特許文献1に記載の技術は、音素に係る情報が特徴として含まれるように第1NNを学習させてしまう。結果として、非特許文献1に記載の技術は、特に短い発話においては音素の特徴が強く表出され、話者の照合に必要な特徴が充分に得られないため、学習後のモデルの話者認識や話者照合の性能は低下すると考えられる。
【0048】
そこで、照合装置10では、学習部145において、音素の特徴が含まれにくくなるように、話者認識部141の各NNのパラメータを学習させる。これにより、学習後の話者認識部141の第1のNN142および第2のNN143は短い時間区間の発話から、話者の音素に依存しない特性を効率的に抽出することができるようになる。その結果、照合装置10は、話者照合タスクの精度向上に資する中間特徴量の抽出が可能となることが期待できる。
【0049】
[実験結果]
次に、照合装置10により学習された第1のNN142および第2のNN143を用いた話者照合の実験結果を説明する。本実験における実験条件は、
図6に示すとおり、教師データの発話者数は、2620人、発話数は2.8M、発話のトータル時間は960hであり、実験データの発話者数は、40人、発話数は2.6k、発話のトータル時間は5.3hである。それぞれのデータの特徴量は13次元のMFCCであり、音素は39音素である。また、評価方法は、各発話の音素セグメントの話者ベクトルを算出し、得られた話者ベクトル同士の類似度をProbabilistic Linear Discriminant Analysis(PLDA)で算出した。また、話者照合の精度はEqual Error Rate(EER)で評価した。
【0050】
図7および
図8に実験結果を示す。なお、以下における「マルチタスク学習」とは、話者認識モデルにおける、話者認識を行うNNおよび音素認識を行うNNそれぞれの出力データが教師データの示す正解データに近づくように学習を行うことである。また、「敵対的学習」とは、話者認識モデルにおける、話者認識を行うNNの出力データは教師データの示す正解データに近づくように学習するが、音素認識を行うNNの出力データは教師データの示す正解データに近づかないように学習することである。
【0051】
本実験では比較例として、
図7の(1)~(4)に示す話者認識モデルのNNを用いて話者照合を行った。なお、話者認識モデルはいずれも、音声信号から中間特徴量を出力するNN、当該中間特徴量に基づき話者認識を行うNNおよび当該音素認識を行うNNを備えるものとする。また、(5)フレーム単位で処理を行うNNに敵対的学習を実施(FRM-AT)は、本実施形態の照合装置10による学習を実施したモデルに相当する。
【0052】
(1)セグメント(発話)単位で処理を行うNNにマルチタスク学習を実施(SEG-MT)
(2)セグメント単位で処理を行うNNに敵対的学習を実施(SEG-AT)
(3)フレーム単位で処理を行うNN(FRM)
(4)フレーム単位で処理を行うNNにマルチタスク学習を実施(FRM-MT)
【0053】
図7に示すように、セグメント単位で処理を行うNNを備えるモデルよりも、フレーム単位で処理を行うNNを備えるモデルの方が、フレーム単位での話者照合の精度が高くなることが確認できた。また、フレーム単位で処理を行うNNに対し、マルチタスク学習を行うよりも、敵対的学習を行った方が、フレーム単位の話者照合が高くなることが確認できた。
【0054】
また、照合対象の音声信号の発話長と、上記の(1)~(5)に示すモデルによる話者照合の精度との関係を、
図8に示す。
図8に示すように、発話長が1400ms以下の発話について、(5)フレーム単位のNNに敵対的学習を実施したモデル(FRM-AT)の方が、(1)~(4)に示すモデルによりも話者照合の精度が高いことが確認できた。
【0055】
[プログラム]
図9を用いて、上記のプログラム(照合プログラム)を実行するコンピュータの一例を説明する。
図9に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
【0056】
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
【0057】
ここで、
図9に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。前記した実施形態で説明した記憶部13は、例えばハードディスクドライブ1090やメモリ1010に装備される。
【0058】
そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
【0059】
なお、上記の照合プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【符号の説明】
【0060】
10 照合装置
11 入力部
12 出力部
13 記憶部
14 制御部
141 話者認識部
142 第1のNN
143 第2のNN
144 第3のNN
145 学習部
146 照合部
1451 更新部
1452 更新制御部