【解決手段】音声辞書生成方法は、複数の不特定話者の音声を取得するステップ(S1)と、所定の場所における雑音を取得するステップ(S2)と、複数の不特定話者の音声に雑音を重畳するステップ(S3)と、雑音を重畳した複数の不特定話者の音声の特徴量に基づいて、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成するステップ(S4)とを含む。
【発明を実施するための形態】
【0009】
(本開示の基礎となった知見)
上記のように、従来、話者を識別する話者識別装置において、入力された話者の音声に雑音が含まれている場合、正しく話者を識別することが困難であった。そこで、例えば特許文献1では、ニューラルネットワークを用いた話者認識システムにおいて、学習パターンに雑音を重畳し、擬似的にパターンの数を増やすことにより認識率の向上を図っている。
【0010】
しかしながら、特許文献1の従来の話者認識システムでは、識別対象話者の音声に対して雑音を重畳した擬似的な学習パターンを生成し、生成した擬似的な学習パターンをニューラルネットワークの学習に用いているので、識別対象話者の音声を事前に取得する必要があり、識別対象話者の発話が少ない場合、データ量が不十分であるため、学習により最適なニューラルネットワークを生成することができず、話者を識別する精度が低下するという課題がある。
【0011】
このような課題を解決するため、本開示の一態様に係る音声辞書生成方法は、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成方法であって、複数の不特定話者の音声を取得し、所定の場所における雑音を取得し、前記複数の不特定話者の音声に前記雑音を重畳し、前記雑音を重畳した前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する。
【0012】
この構成によれば、複数の不特定話者の音声が取得され、雑音が取得される。複数の不特定話者の音声に雑音が重畳される。雑音が重畳された複数の不特定話者の音声の特徴量に基づいて、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書が生成される。
【0013】
したがって、雑音が重畳された複数の不特定話者の音声の特徴量に基づいて、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書が生成されるので、識別対象話者の音声に雑音が含まれていたとしても、正確な個人用音声辞書を生成することができ、話者識別の精度を向上させることができる。
【0014】
また、上記の音声辞書生成方法において、前記複数の不特定話者の音声の音圧に基づいて前記雑音の音圧を調整し、音圧を調整した前記雑音を前記複数の不特定話者の音声に重畳してもよい。
【0015】
この構成によれば、複数の不特定話者の音声の音圧に基づいて雑音の音圧が調整され、音圧が調整された雑音が複数の不特定話者の音声に重畳される。したがって、複数の不特定話者の音声に重畳される雑音の音圧が調整されるので、不特定話者音声辞書を生成する際に最適な音圧の雑音を重畳することができ、話者識別の精度を向上させることができる。
【0016】
また、上記の音声辞書生成方法において、前記複数の不特定話者の音声の平均音圧と前記雑音の音圧との音圧差が所定の値となるように前記雑音の音圧を調整してもよい。
【0017】
この構成によれば、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧が調整されるので、重畳する雑音の音圧が最適になるように容易に調整することができる。
【0018】
また、上記の音声辞書生成方法において、前記個人用音声辞書を学習する処理において、前記識別対象話者の音声を取得し、前記識別対象話者の音声と、生成した前記不特定話者音声辞書とを用いて前記個人用音声辞書を生成し、前記識別対象話者を識別する処理において、前記識別対象話者の音声を取得し、生成した前記個人用音声辞書と、取得した前記識別対象話者の音声とを用いて、前記識別対象話者を識別し、前記識別対象話者の識別に失敗した場合、前記所定の値が大きくなるように変更してもよい。
【0019】
この構成によれば、個人用音声辞書を学習する処理において、識別対象話者の音声が取得される。取得された識別対象話者の音声と、生成した不特定話者音声辞書とを用いて個人用音声辞書が生成される。識別対象話者を識別する処理において、識別対象話者の音声が取得される。生成された個人用音声辞書と、取得された識別対象話者の音声とが用いられて、識別対象話者が識別される。識別対象話者の識別に失敗した場合、所定の値が大きくなるように変更される。
【0020】
したがって、識別対象話者の識別に失敗した場合、所定の値が大きくなるように変更され、複数の不特定話者の音声に重畳される雑音の音圧が調整されるので、より良好な識別結果が得られるように雑音の音圧を変更することができ、話者識別の精度をより向上させることができる。
【0021】
また、上記の音声辞書生成方法において、前記複数の不特定話者の音声を予め格納する不特定話者音声格納部から前記複数の不特定話者の音声を取得し、前記雑音を予め格納する雑音格納部から前記雑音を取得してもよい。
【0022】
この構成によれば、複数の不特定話者の音声を予め格納する不特定話者音声格納部から複数の不特定話者の音声が取得され、雑音を予め格納する雑音格納部から雑音が取得されるので、複数の不特定話者の音声及び雑音を予め格納することにより、容易に不特定話者音声辞書を生成することができる。
【0023】
また、上記の音声辞書生成方法において、前記識別対象話者を識別する場所の周囲環境の雑音を収集し、収集した前記雑音を前記雑音格納部に格納してもよい。
【0024】
この構成によれば、識別対象話者を識別する場所の周囲環境の雑音が収集され、収集された雑音が雑音格納部に格納されるので、不特定話者音声辞書を生成する際に、実際に識別対象話者を識別する場所の周囲環境の雑音を、複数の不特定話者の音声に重畳することができ、話者識別の精度をより向上させることができる。
【0025】
また、上記の音声辞書生成方法において、周波数特性がそれぞれ異なる複数の雑音を取得し、前記複数の不特定話者の音声に前記複数の雑音を重畳してもよい。
【0026】
この構成によれば、周波数特性がそれぞれ異なる複数の雑音が取得され、複数の不特定話者の音声に複数の雑音が重畳される。したがって、周波数特性がそれぞれ異なる複数の雑音が複数の不特定話者の音声に重畳されるので、より汎用性の高い不特定話者音声辞書を生成することができる。
【0027】
本開示の他の態様に係る音声辞書生成装置は、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成装置であって、複数の不特定話者の音声を取得するとともに、所定の場所における雑音を取得し、前記複数の不特定話者の音声に前記雑音を重畳する重畳部と、前記雑音が重畳された前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する生成部と、を備える。
【0028】
この構成によれば、複数の不特定話者の音声が取得されるとともに、雑音が取得され、複数の不特定話者の音声に雑音が重畳される。雑音が重畳された複数の不特定話者の音声の特徴量に基づいて、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書が生成される。
【0029】
したがって、雑音が重畳された複数の不特定話者の音声の特徴量に基づいて、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書が生成されるので、識別対象話者の音声に雑音が含まれていたとしても、正確な個人用音声辞書を生成することができ、話者識別の精度を向上させることができる。
【0030】
本開示の他の態様に係る音声辞書生成プログラムは、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成プログラムであって、複数の不特定話者の音声を取得するとともに、所定の場所における雑音を取得し、前記複数の不特定話者の音声に前記雑音を重畳する重畳部と、前記雑音が重畳された前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する生成部としてコンピュータを機能させる。
【0031】
この構成によれば、複数の不特定話者の音声が取得されるとともに、雑音が取得され、複数の不特定話者の音声に雑音が重畳される。雑音が重畳された複数の不特定話者の音声の特徴量に基づいて、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書が生成される。
【0032】
したがって、雑音が重畳された複数の不特定話者の音声の特徴量に基づいて、識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書が生成されるので、識別対象話者の音声に雑音が含まれていたとしても、正確な個人用音声辞書を生成することができ、話者識別の精度を向上させることができる。
【0033】
以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。
【0034】
(実施の形態1)
図1は、本実施の形態1における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。
【0035】
図1に示す話者識別装置は、不特定話者音声格納部11、雑音格納部12、雑音重畳部13、UBM(Universal Background Model)生成部14、UBM格納部15、音声入力部16、個人モデル生成部17、個人モデル格納部18及び話者識別部19を備える。
【0036】
また、UBM生成処理部1は、不特定話者音声格納部11、雑音格納部12、雑音重畳部13、UBM生成部14及びUBM格納部15で構成される。学習処理部2は、UBM格納部15、音声入力部16、個人モデル生成部17及び個人モデル格納部18で構成される。話者識別処理部3は、UBM格納部15、音声入力部16、個人モデル生成部17、個人モデル格納部18及び話者識別部19で構成される。
【0037】
本実施の形態1における話者識別装置では、UBM生成処理、学習処理及び話者識別処理の3つの処理が行われる。
【0038】
UBM生成処理部1は、複数の不特定話者の音声の特徴量に基づいて、識別対象話者を識別するための個人用モデルを生成するために用いられるUBMを生成する。UBMは、不特定話者音声辞書の一例であり、個人用モデルは、個人用音声辞書の一例である。
【0039】
学習処理部2は、識別対象話者の音声と、UBM生成処理部1によって生成されたUBMとを用いて、識別対象話者を識別するための個人用モデルを生成し、生成した個人用モデルを格納する。
【0040】
話者識別処理部3は、識別対象話者の音声と、UBM生成処理部1によって生成されたUBMとを用いて、識別対象話者を識別するための個人用モデルを生成し、生成した個人用モデルと、格納されている個人用モデルとの類似度を判断することにより識別対象話者を識別する。
【0041】
本実施の形態1における話者識別装置は、i−vectorと呼ばれる話者識別方法で話者を識別する。i−vectorに基づく話者識別では、因子分析を利用して、話者に含まれる固有の特徴を抽出し、抽出した特徴量を比較することで話者を判別する。i−vectorでは、特徴抽出に因子分析を用いているため、次元を削減して特徴を表現することが可能であり、少量の発話データでも効率よく話者性を表現することができる。
【0042】
不特定話者音声格納部11は、複数の不特定話者の音声を予め格納する。雑音格納部12は、所定の場所における雑音を予め格納する。なお、雑音格納部12は、周波数特性がそれぞれ異なる複数の雑音を格納することが好ましい。
【0043】
雑音重畳部13は、複数の不特定話者の音声を取得するとともに、所定の場所における雑音を取得し、複数の不特定話者の音声に雑音を重畳する。なお、雑音格納部12に複数の雑音が格納されている場合、雑音重畳部13は、複数の雑音を平均化した平均雑音を算出し、算出した平均雑音を複数の不特定話者の音声のそれぞれに重畳してもよい。また、雑音重畳部13は、複数の不特定話者の音声のそれぞれに、複数の雑音のそれぞれを重畳してもよい。
【0044】
UBM生成部14は、雑音が重畳された複数の不特定話者の音声の特徴量からUBMを生成する。なお、複数の不特定話者の音声からUBMを生成する方法は、i−vectorと呼ばれる話者識別方法においてUBMを生成する方法と同じである。UBM格納部15は、UBM生成部14によって生成されたUBMを格納する。
【0045】
音声入力部16は、例えばマイクロホンで構成され、学習処理又は話者識別処理において、話者の音声を収集し、収集した音声を音声信号に変換して出力する。
【0046】
個人モデル生成部17は、学習処理において、音声入力部16によって入力された話者の音声と、UBM格納部15に格納されているUBMとを用いて、話者を識別するための個人用モデルを生成し、生成した個人用モデルを個人モデル格納部18に格納する。このとき、個人モデル生成部17は、音声を入力した話者を識別するための話者識別情報に対応付けて、生成した個人用モデルを個人モデル格納部18に格納する。話者識別情報は、例えば話者の名前であり、入力部(不図示)を用いて話者により入力される。なお、話者の音声とUBMとから個人用モデルを生成する方法は、i−vectorと呼ばれる話者識別方法において個人用モデルを生成する方法と同じである。
【0047】
また、個人モデル生成部17は、話者識別処理において、音声入力部16によって入力された話者の音声と、UBM格納部15に格納されているUBMとを用いて、話者を識別するための個人用モデルを生成し、生成した個人用モデルを話者識別部19へ出力する。
【0048】
個人モデル格納部18は、話者を識別するための話者識別情報と、個人モデル生成部17によって生成された個人用モデルを格納する。個人モデル格納部18は、予め登録された話者毎の個人用モデルを格納する。
【0049】
話者識別部19は、話者識別処理において、個人モデル生成部17によって出力された個人用モデルと、個人モデル格納部18に格納されている個人用モデルとに基づいて、音声入力部16によって音声が入力された話者を識別する。すなわち、話者識別部19は、話者識別処理において、個人モデル生成部17によって出力された個人用モデルと、個人モデル格納部18に格納されている個人用モデルとの類似度を算出する。そして、話者識別部19は、最も高い類似度が算出された個人用モデルの類似度が閾値より大きいか否かを判断し、類似度が閾値より大きいと判断した場合、最も類似度が高い個人用モデルに対応付けられている話者識別情報を識別結果として出力する。なお、話者識別部19は、最も高い類似度が閾値以下であると判断した場合、音声が入力された話者が未登録であることを示す情報を識別結果として出力する。
【0050】
なお、本実施の形態1において、テレビ又はスマートホンなどの端末装置が、音声入力部16を備え、話者識別装置が、音声入力部16以外の構成を備えてもよい。この場合、話者識別装置は、例えばサーバで構成され、ネットワークを介して端末装置と通信可能に接続される。サーバは、話者識別装置の機能の一部又は全部を備えてもよい。
【0051】
また、話者は、例えば、家庭内に配置された家電機器を操作するユーザであってもよい。
【0052】
また、本実施の形態1では、学習処理部2及び話者識別処理部3が、音声入力部16及び個人モデル生成部17を共有しているが、学習処理部2及び話者識別処理部3のそれぞれが、音声入力部16及び個人モデル生成部17を備えてもよい。
【0053】
続いて、本実施の形態1における話者識別装置のUBM生成処理(音声辞書生成処理)の動作について説明する。
図2は、本実施の形態1における話者識別装置のUBM生成処理の動作について説明するためのフローチャートである。
【0054】
まず、ステップS1において、雑音重畳部13は、複数の不特定話者の音声を不特定話者音声格納部11から取得する。
【0055】
次に、ステップS2において、雑音重畳部13は、雑音を雑音格納部12から取得する。
【0056】
次に、ステップS3において、雑音重畳部13は、複数の不特定話者の音声のそれぞれに雑音を重畳する。
【0057】
次に、ステップS4において、UBM生成部14は、雑音が重畳された複数の不特定話者の音声の特徴量からUBMを生成する。UBM生成部14は、雑音が重畳された複数の不特定話者の音声の特徴量を算出する。ここで、特徴量は、例えばMFCC(メル周波数ケプストラム係数)である。UBM生成部14は、算出した特徴量からUBMを生成する。なお、UBMの生成方法は、i−vectorにおけるUBMの生成方法と同じである。
【0058】
次に、ステップS5において、UBM生成部14は、生成したUBMをUBM格納部15に格納する。
【0059】
このように、雑音が重畳された複数の不特定話者の音声の特徴量から、識別対象話者を識別するための個人用モデルを生成するために用いられるUBMが生成されるので、識別対象話者の音声に雑音が含まれていたとしても、正確な個人用モデルを生成することができ、話者識別の精度を向上させることができる。
【0060】
また、UBMに使用する不特定話者の音声に雑音を付加するため、従来のように識別対象話者の音声そのものに雑音を付加する必要がなく、学習時及び話者識別時の処理が簡単になり、雑音環境下での話者識別精度を向上させることができる。
【0061】
また、不特定話者の音声に意図的に種々の雑音を付加することにより生成したUBMを用いて個人用モデルが生成されるので、雑音を付加しない音声により生成したUBMを使用するときよりも雑音下での話者識別の精度を向上させることができる。
【0062】
続いて、雑音のない理想的な環境で取得した複数の不特定話者の音声から生成されたUBMと、雑音のない理想的な環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第1の例、雑音のない理想的な環境で取得した複数の不特定話者の音声から生成されたUBMと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第2の例、及び雑音のある環境で取得した複数の不特定話者の音声から生成されたUBMと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第3の例について説明する。
【0063】
図3は、雑音のない理想的な環境で取得した複数の不特定話者の音声から生成されたUBMと、雑音のない理想的な環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第1の例について説明するための図であり、
図4は、雑音のない理想的な環境で取得した複数の不特定話者の音声から生成されたUBMと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第2の例について説明するための図であり、
図5は、雑音のある環境で取得した複数の不特定話者の音声から生成されたUBMと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する第3の例について説明するための図である。
【0064】
なお、本実施の形態1における個人用モデルは、例えばGMM(混合ガウス分布)である。
【0065】
図3に示す第1の例では、識別対象話者のGMM102は、UBM101に含まれているため、UBM101から識別対象話者の正確な個人用モデルを生成することが可能であることがわかる。
【0066】
また、
図4に示す第2の例では、識別対象話者のGMM102は、UBM101に含まれていないため、UBM101から識別対象話者の正確な個人用モデルを生成することができないことがわかる。
【0067】
さらに、
図5に示す第3の例では、識別対象話者のGMM102は、UBM101に含まれているため、UBM101から識別対象話者の正確な個人用モデルを生成することが可能であることがわかる。
【0068】
以上のことから、雑音のない理想的な環境で取得した複数の不特定話者の音声から生成されたUBMと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成した場合、正確な個人用モデルを生成することができないおそれがあるが、雑音のある環境で取得した複数の不特定話者の音声から生成されたUBMと、雑音のある環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成した場合、正確な個人用モデルを生成することができ、識別率を向上させることができる。
【0069】
なお、雑音のある環境で取得した複数の不特定話者の音声から生成されたUBMと、雑音のない理想的な環境で取得した識別対象話者の音声とに基づいて個人用モデルを生成する場合、識別対象話者のGMM102は、UBM101に含まれるため、UBM101から識別対象話者の正確な個人用モデルを生成することが可能となる。
【0070】
続いて、雑音が含まれるUBMと雑音が含まれないUBMとを用いて話者を識別したシミュレーション実験について説明する。
【0071】
シミュレーション実験では、雑音環境下における20人の話者(男性10人及び女性10人)を識別する。シミュレーション実験では、UBM生成処理において、雑音を重畳した複数の不特定話者の音声から第1のUBM(雑音が含まれるUBM)を生成するとともに、雑音を重畳していない複数の不特定話者の音声から第2のUBM(雑音が含まれないUBM)を生成した。そして、学習処理において、第1のUBMと学習用音声データとから第1の個人用モデルを生成するとともに、第2のUBMと学習用音声データとから第2の個人用モデルを生成した。また、話者識別処理において、第1のUBMと識別用音声データとから第3の個人用モデルを生成するとともに、第2のUBMと識別用音声データとから第4の個人用モデルを生成した。さらに、第3の個人用モデルと第1の個人用モデルとを比較するとともに、第4の個人用モデルと第2の個人用モデルとを比較し、第1のUBMを用いた場合の識別率と第2のUBMを用いた場合の識別率とを算出した。
【0072】
図6は、シミュレーション実験において用いられる雑音を取得した環境及び雑音の種類を示す図である。
【0073】
図6に示すように、雑音を取得した環境は、車内、屋外、半屋外、屋内及び演奏中の5種類であり、この5種類の環境は、それぞれ周波数特性の傾向が異なっている。UBMに含まれる雑音は、排気量が1000ccの自動車の車内の雑音、道路上での雑音、駅の構内での雑音、第1の工場内での雑音、及びピアノの音である。また、学習処理に用いられる学習用音声データ及び話者識別処理に用いられる識別用音声データに含まれる雑音は、排気量が2000ccの自動車の車内の雑音、人混みの中での雑音、駅のホーム内での雑音、第1の工場とは異なる第2の工場内での雑音、及びフルートの音である。
【0074】
このように、本シミュレーション実験では、UBMに含まれる雑音と、学習用音声データ及び識別用音声データに含まれる雑音とには、それぞれ異なる音源の雑音が用いられる。
【0075】
図7は、シミュレーション実験において、雑音を含むUBMを用いた場合の学習用音声データのSN比及び識別用音声データのSN比のそれぞれに対応する識別率と、雑音を含まないUBMを用いた場合の学習用音声データのSN比及び識別用音声データのSN比のそれぞれに対応する識別率とを示す表である。
図8は、
図7に示す表をグラフ化した図である。
図8において、縦軸は、識別率(%)を示し、横軸は、学習用音声データのSN比(dB)を示し、奥行き軸は、識別用音声データのSN比(dB)を示す。また、SN比は、音声と雑音との音圧差を示す。
【0076】
シミュレーション実験では、
図6に示す複数の雑音を平均化し、平均化した雑音を学習用音声データ及び識別用音声データに所定のSN比で混合している。学習用音声データのSN比及び識別用音声データのSN比は、それぞれ0dB、6dB、12dB、18dB、及び雑音が含まれない値(クリーン)に変化させた。
【0077】
学習処理において、雑音を含む第1のUBMと学習用音声データとから第1の個人用モデルを生成するとともに、雑音を含まない第2のUBMと学習用音声データとから第2の個人用モデルを生成した。また、話者識別処理において、雑音を含む第1のUBMと識別用音声データとから第3の個人用モデルを生成するとともに、雑音を含まない第2のUBMと識別用音声データとから第4の個人用モデルを生成した。さらに、第3の個人用モデルと第1の個人用モデルとを比較するとともに、第4の個人用モデルと第2の個人用モデルとを比較し、雑音を含む第1のUBMを用いた場合の識別率と雑音を含まない第2のUBMを用いた場合の識別率とを算出した。
【0078】
図7及び
図8に示すように、シミュレーション実験の結果、全てのSN比の条件で、雑音を含む第1のUBMを用いた場合の識別率が、雑音を含まない第2のUBMを用いた場合の識別率よりも高くなっている。特に、学習用音声データのSN比及び識別用音声データのSN比が6dB以上であり、雑音を含む第1のUBMを用いて話者識別した場合に、識別率は90%以上となっている。これにより、UBMに予め雑音含めることにより、雑音に対する頑健性が向上することが確認された。
【0079】
図9は、シミュレーション実験において、雑音を含むUBMを使用して学習及び話者識別した場合の識別率の平均値と、雑音を含まないUBMを使用して学習及び話者識別した場合の識別率の平均値とを示す図である。
【0080】
図9に示すように、雑音を含むUBMを使用して学習及び話者識別した場合の識別率の平均値は、87.2%であり、雑音を含まないUBMを使用して学習及び話者識別した場合の識別率の平均値は、74.2%であった。このことからも、雑音を含むUBMを使用して学習及び話者識別した方が、雑音を含まないUBMを使用して学習及び話者識別するよりも話者識別の精度を向上させることができることがわかる。
【0081】
(実施の形態2)
図10は、本実施の形態2における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。
【0082】
図10に示す話者識別装置は、不特定話者音声格納部11、雑音格納部12、雑音重畳部13、UBM生成部14、UBM格納部15、音声入力部16、個人モデル生成部17、個人モデル格納部18、話者識別部19及び音圧調整部20を備える。
【0083】
また、UBM生成処理部1は、不特定話者音声格納部11、雑音格納部12、雑音重畳部13、UBM生成部14、UBM格納部15及び音圧調整部20で構成される。学習処理部2は、UBM格納部15、音声入力部16、個人モデル生成部17及び個人モデル格納部18で構成される。話者識別処理部3は、UBM格納部15、音声入力部16、個人モデル生成部17、個人モデル格納部18及び話者識別部19で構成される。
【0084】
なお、実施の形態2において、実施の形態1と同じ構成については同じ符号を付し、説明を省略する。
【0085】
音圧調整部20は、複数の不特定話者の音声の音圧に基づいて雑音の音圧を調整する。例えば、音圧調整部20は、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧を調整する。雑音重畳部13は、音圧を調整した雑音を複数の不特定話者の音声に重畳する。
【0086】
なお、音圧調整部20は、複数の不特定話者の音声のそれぞれの音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧を調整してもよい。
【0087】
続いて、本実施の形態2における話者識別装置のUBM生成処理(音声辞書生成処理)の動作について説明する。
図11は、本実施の形態2における話者識別装置のUBM生成処理の動作について説明するためのフローチャートである。
【0088】
まず、ステップS11において、音圧調整部20は、複数の不特定話者の音声を不特定話者音声格納部11から取得する。
【0089】
次に、ステップS12において、音圧調整部20は、雑音を雑音格納部12から取得する。
【0090】
次に、ステップS13において、音圧調整部20は、複数の不特定話者の音声の音圧に基づいて雑音の音圧を調整する。上記のように、音圧調整部20は、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧を調整する。ここで、所定の値とは、不特定話者の音声と雑音との音圧差を変更して作成した複数のUBMを用いて話者識別した実験により算出された、識別率が所定の値以上となる音圧差であってもよい。
【0091】
次に、ステップS14において、雑音重畳部13は、複数の不特定話者の音声を不特定話者音声格納部11から取得する。
【0092】
次に、ステップS15において、雑音重畳部13は、複数の不特定話者の音声のそれぞれに、音圧調整部20によって音圧が調整された雑音を重畳する。
【0093】
なお、
図11に示すステップS16及びステップS17の処理は、
図2に示すステップS4及びステップS5の処理と同じであるので説明を省略する。
【0094】
このように、複数の不特定話者の音声に重畳される雑音の音圧が調整されるので、UBMを生成する際に最適な音圧の雑音を重畳することができ、話者識別の精度を向上させることができる。
【0095】
続いて、本実施の形態2の変形例における話者識別装置のUBM生成処理(音声辞書生成処理)の動作について説明する。上記の実施の形態2では、音圧調整部20は、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧を調整しているが、実施の形態2の変形例では、音圧調整部20は、識別対象話者の識別に失敗した場合、所定の値が大きくなるように変更してもよい。
【0096】
この場合、音声入力部16は、個人用モデル(個人用音声辞書)を学習する処理において、識別対象話者の音声を取得する。個人モデル生成部17は、取得した識別対象話者の音声と、生成したUBM(不特定話者音声辞書)とを用いて個人用モデル(個人用音声辞書)を生成する。音声入力部16は、識別対象話者を識別する処理において、識別対象話者の音声を取得する。話者識別部19は、生成した個人用モデル(個人用音声辞書)と、取得した識別対象話者の音声とを用いて、識別対象話者を識別する。音圧調整部20は、識別対象話者の識別に失敗した場合、所定の値が大きくなるように変更する。
【0097】
図12は、本実施の形態2の変形例における話者識別装置のUBM生成処理の動作について説明するためのフローチャートである。
【0098】
まず、ステップS41において、音圧調整部20は、話者識別が成功したか否かを示す識別評価結果を取得したか否かを判断する。ここで、話者識別装置は、話者識別が成功したか否かを示す識別評価結果の話者による入力を受け付ける評価結果入力部を備えてもよい。すなわち、評価結果入力部は、話者識別部19による識別結果に対して、話者識別が成功したか否かを示す識別評価結果の話者による入力を受け付ける。評価結果入力部は、識別評価結果を音圧調整部20に出力する。
【0099】
ここで、識別評価結果を取得していないと判断された場合(ステップS41でNO)、ステップS42の処理へ移行する。なお、
図12に示すステップS42〜ステップS48の処理は、
図11に示すステップS11〜ステップS17の処理と同じであるので説明を省略する。
【0100】
一方、識別評価結果を取得したと判断された場合(ステップS41でYES)、ステップS49において、音圧調整部20は、識別評価結果から話者識別が成功したか否かを判断する。ここで、話者識別が成功したと判断された場合(ステップS49でYES)、UBM生成処理を終了する。
【0101】
一方、話者識別が失敗したと判断された場合(ステップS49でNO)、ステップS50において、音圧調整部20は、複数の不特定話者の音声を不特定話者音声格納部11から取得する。
【0102】
次に、ステップS51において、音圧調整部20は、雑音を雑音格納部12から取得する。
【0103】
次に、ステップS52において、音圧調整部20は、複数の不特定話者の音声の音圧に基づいて雑音の音圧を再調整する。音圧調整部20は、話者識別が失敗したと判断された場合、所定の値が大きくなるように変更し、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が、変更した所定の値となるように雑音の音圧を再調整する。例えば、音圧調整部20は、話者識別が失敗したと判断された場合、所定の値が現在の音圧差よりも大きくなるように変更してもよい。すなわち、現在の音圧差が6dBであり、話者識別が失敗したと判断された場合、音圧調整部20は、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が現在の音圧差よりも大きい12dBになるように雑音の音圧を調整してもよい。
【0104】
このように、識別対象話者の識別に失敗した場合、所定の値が大きくなるように変更され、複数の不特定話者の音声に重畳される雑音の音圧が調整されるので、UBMを生成する際に最適な音圧の雑音を重畳することができ、話者識別の精度をより向上させることができる。
【0105】
(実施の形態3)
図13は、本実施の形態3における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。
【0106】
図13に示す話者識別装置は、不特定話者音声格納部11、雑音格納部12、雑音重畳部13、UBM生成部14、UBM格納部15、音声入力部16、個人モデル生成部17、個人モデル格納部18、話者識別部19及び雑音入力部21を備える。
【0107】
また、UBM生成処理部1は、不特定話者音声格納部11、雑音格納部12、雑音重畳部13、UBM生成部14、UBM格納部15及び雑音入力部21で構成される。学習処理部2は、UBM格納部15、音声入力部16、個人モデル生成部17及び個人モデル格納部18で構成される。話者識別処理部3は、UBM格納部15、音声入力部16、個人モデル生成部17、個人モデル格納部18及び話者識別部19で構成される。
【0108】
なお、実施の形態3において、実施の形態1と同じ構成については同じ符号を付し、説明を省略する。
【0109】
雑音入力部21は、例えばマイクロホンで構成され、UBM生成処理において、話者識別が行われる場所の周囲環境の雑音を収集し、収集した雑音を音声信号に変換して雑音格納部12に格納する。なお、話者識別が行われる場所に話者識別装置が配置されている場合、話者識別装置の周囲の雑音が収集される。
【0110】
なお、本実施の形態3では、話者識別装置は、音声入力部16と雑音入力部21とを備えているが、本開示は特にこれに限定されず、話者識別装置は、音声入力部16のみを備えてもよい。この場合、音声入力部16は、識別対象話者の音声と、周囲環境の雑音とを収集する。
【0111】
続いて、本実施の形態3における話者識別装置のUBM生成処理(音声辞書生成処理)の動作について説明する。
図14は、本実施の形態3における話者識別装置のUBM生成処理の動作について説明するためのフローチャートである。
【0112】
まず、ステップS21において、雑音入力部21は、話者識別が行われる場所の周囲環境の雑音を収集する。
【0113】
次に、ステップS22において、雑音入力部21は、収集した雑音を雑音格納部12に格納する。
【0114】
なお、
図14に示すステップS23〜ステップS27の処理は、
図2に示すステップS1〜ステップS5の処理と同じであるので説明を省略する。
【0115】
このように、識別対象話者を識別する場所の周囲環境の雑音が収集され、収集された雑音が雑音格納部12に格納されるので、UBMを生成する際に、実際に識別対象話者を識別する場所の周囲環境の雑音を、複数の不特定話者の音声に重畳することができ、話者識別の精度をより向上させることができる。
【0116】
(実施の形態4)
図15は、本実施の形態4における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。
【0117】
図15に示す話者識別装置は、不特定話者音声格納部11、雑音格納部12、雑音重畳部13、UBM生成部14、UBM格納部15、音声入力部16、個人モデル生成部17、個人モデル格納部18、話者識別部19、音圧調整部20及び雑音入力部21を備える。
【0118】
また、UBM生成処理部1は、不特定話者音声格納部11、雑音格納部12、雑音重畳部13、UBM生成部14、UBM格納部15、音圧調整部20及び雑音入力部21で構成される。学習処理部2は、UBM格納部15、音声入力部16、個人モデル生成部17及び個人モデル格納部18で構成される。話者識別処理部3は、UBM格納部15、音声入力部16、個人モデル生成部17、個人モデル格納部18及び話者識別部19で構成される。
【0119】
なお、実施の形態4において、実施の形態1〜3と同じ構成については同じ符号を付し、説明を省略する。
【0120】
雑音入力部21は、例えばマイクロホンで構成され、UBM生成処理において、話者識別が行われる場所の周囲環境の雑音を収集し、収集した雑音を音声信号に変換して雑音格納部12に格納する。なお、話者識別が行われる場所に話者識別装置が配置されている場合、話者識別装置の周囲の雑音が収集される。
【0121】
音圧調整部20は、複数の不特定話者の音声の音圧に基づいて雑音の音圧を調整する。例えば、音圧調整部20は、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧を調整する。
【0122】
雑音重畳部13は、音圧を調整した雑音を複数の不特定話者の音声に重畳する。
【0123】
なお、本実施の形態4では、話者識別装置は、音声入力部16と雑音入力部21とを備えているが、本開示は特にこれに限定されず、話者識別装置は、音声入力部16のみを備えてもよい。この場合、音声入力部16は、識別対象話者の音声と、周囲環境の雑音とを収集する。
【0124】
続いて、本実施の形態4における話者識別装置のUBM生成処理(音声辞書生成処理)の動作について説明する。
図16は、本実施の形態4における話者識別装置のUBM生成処理の動作について説明するためのフローチャートである。
【0125】
まず、ステップS31において、雑音入力部21は、話者識別が行われる場所の周囲環境の雑音を収集する。
【0126】
次に、ステップS32において、雑音入力部21は、収集した雑音を雑音格納部12に格納する。
【0127】
次に、ステップS33において、音圧調整部20は、複数の不特定話者の音声を不特定話者音声格納部11から取得する。
【0128】
次に、ステップS34において、音圧調整部20は、雑音を雑音格納部12から取得する。
【0129】
次に、ステップS35において、音圧調整部20は、複数の不特定話者の音声の音圧に基づいて雑音の音圧を調整する。上記のように、音圧調整部20は、複数の不特定話者の音声の平均音圧と雑音の音圧との音圧差が所定の値となるように雑音の音圧を調整する。ここで、所定の値とは、不特定話者の音声と雑音との音圧差を変更して作成した複数のUBMを用いて話者識別した実験により算出された、識別率が所定の値以上となる音圧差であってもよい。
【0130】
次に、ステップS36において、雑音重畳部13は、複数の不特定話者の音声を不特定話者音声格納部11から取得する。
【0131】
次に、ステップS37において、雑音重畳部13は、複数の不特定話者の音声のそれぞれに、音圧調整部20によって音圧が調整された雑音を重畳する。
【0132】
なお、
図16に示すステップS38及びステップS39の処理は、
図2に示すステップS4及びステップS5の処理と同じであるので説明を省略する。
【0133】
このように、識別対象話者を識別する場所の周囲環境の雑音が収集され、収集された雑音の音圧が調整されるので、UBMを生成する際に、実際に識別対象話者を識別する場所の周囲環境の雑音を最適な音圧に調整した後、複数の不特定話者の音声に重畳することができ、話者識別の精度をより向上させることができる。
【0134】
なお、本開示の実施の形態1〜4における話者識別装置は、i−vectorと呼ばれる話者識別方法で話者を識別しているが、本開示は特にこれに限定されず、GMM−UBM又はニューラルネットワークなどの他の話者識別方法で話者を識別してもよい。