IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2025-31170音声認識装置、音声認識方法及びプログラム
<>
  • 特開-音声認識装置、音声認識方法及びプログラム 図1
  • 特開-音声認識装置、音声認識方法及びプログラム 図2
  • 特開-音声認識装置、音声認識方法及びプログラム 図3A
  • 特開-音声認識装置、音声認識方法及びプログラム 図3B
  • 特開-音声認識装置、音声認識方法及びプログラム 図4
  • 特開-音声認識装置、音声認識方法及びプログラム 図5
  • 特開-音声認識装置、音声認識方法及びプログラム 図6
  • 特開-音声認識装置、音声認識方法及びプログラム 図7
  • 特開-音声認識装置、音声認識方法及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025031170
(43)【公開日】2025-03-07
(54)【発明の名称】音声認識装置、音声認識方法及びプログラム
(51)【国際特許分類】
   G10L 17/00 20130101AFI20250228BHJP
   G10L 17/04 20130101ALI20250228BHJP
   G10L 17/24 20130101ALI20250228BHJP
   G10L 15/22 20060101ALI20250228BHJP
   G06F 3/16 20060101ALI20250228BHJP
【FI】
G10L17/00 200C
G10L17/00 200D
G10L17/04
G10L17/24
G10L15/22 453
G06F3/16 650
G06F3/16 640
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023137211
(22)【出願日】2023-08-25
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】平山 直樹
(72)【発明者】
【氏名】菊川 裕作
(57)【要約】
【課題】特定の複数人の話者の音声を認識し、特定された話者と認識された音声とに応じて、機器を制御できるようにする。
【解決手段】実施形態の音声認識装置は、記憶部と音声認識部と分析部と切り出し部と埋め込みベクトル計算部と類似度計算部と判定部と機器制御部とを備える。記憶部は所与の1以上の登録話者の第1の話者埋め込みベクトルと、登録話者の個人設定とを記憶する。分析部は音響信号を分析し特徴量を抽出する。切り出し部は音声認識結果から発話区間に含まれる特徴量の系列を切り出す。埋め込みベクトル計算部は特徴量の系列を用いて第2の話者埋め込みベクトルを計算する。類似度計算部は、第2の話者埋め込みベクトルと、1以上の第1の話者埋め込みベクトルとの1以上の類似度を計算する。機器制御部は、1以上の類似度から判定された登録話者と、音声認識結果とに基づいて記憶部から読み出された個人設定により機器を制御する。
【選択図】図1
【特許請求の範囲】
【請求項1】
所与の1以上の登録話者の第1の話者埋め込みベクトルと、機器の制御に使用される前記登録話者の個人設定とを記憶する記憶部と、
音響信号から音声を認識し、音声認識結果を取得する音声認識部と、
前記音響信号を分析し、前記音響信号の波形の特徴を表す特徴量を抽出する分析部と、
前記音声認識結果から、発話区間に含まれる前記特徴量の系列を切り出す切り出し部と、
前記特徴量の系列を用いて第2の話者埋め込みベクトルを計算する埋め込みベクトル計算部と、
前記第2の話者埋め込みベクトルと、前記1以上の第1の話者埋め込みベクトルとの1以上の類似度を計算する類似度計算部と、
前記1以上の類似度に基づいて、前記1以上の登録話者のいずれの発話であるかを判定する判定部と、
前記1以上の類似度から判定された登録話者と、前記音声認識結果とに基づいて、前記記憶部から読み出された前記個人設定により、前記機器を制御する機器制御部と、
を備える音声認識装置。
【請求項2】
前記1以上の類似度から判定された登録話者を識別する情報を表示装置に表示し、前記1以上の類似度が、いずれも第1の閾値以下である場合、話者の識別精度の信頼度が前記第1の閾値以下であることを示す情報を前記表示装置に表示する表示制御部、
を更に備える請求項1に記載の音声認識装置。
【請求項3】
前記記憶部は、前記登録話者とキーワードとの組合せを更に記憶し、
前記類似度計算部は、前記音声認識結果に、前記キーワードが含まれている登録話者の第1の話者埋め込みベクトルとの類似度を計算し、前記音声認識結果に、前記キーワードが含まれていない登録話者の第1の話者埋め込みベクトルとの類似度は計算しない、
請求項1又は2に記載の音声認識装置。
【請求項4】
前記音声認識部は、前記音声認識結果を文字列に変換し、前記文字列から言語理解モデルに基づいて理解された言語理解結果を更に取得し、
前記類似度計算部は、前記言語理解結果に基づいて、類似度の計算対象となる1以上の第1の話者埋め込みベクトルを選択し、選択された1以上の第1の話者埋め込みベクトルとの類似度を計算する、
請求項1又は2に記載の音声認識装置。
【請求項5】
前記1以上の第1の話者埋め込みベクトルを前記記憶部に登録する登録部を更に備え、
前記登録部は、同一の話者によるN個の発話(N≧1)に対して、それぞれの第1の話者埋め込みベクトルを計算し、前記それぞれの第1の話者埋め込みベクトルの統計量を、前記同一の話者の第1の話者埋め込みベクトルとして、前記記憶部に登録する、
請求項1又は2に記載の音声認識装置。
【請求項6】
前記登録部は、同一の話者に繰り返し発話を促し、各発話に対して、それぞれの第1の話者埋め込みベクトルを計算し、前記それぞれの第1の話者埋め込みベクトルの分散が、第2の閾値以下になった場合に発話を停止するよう促す、
請求項5に記載の音声認識装置。
【請求項7】
前記登録部は、前記類似度が第3の閾値以上である第2の話者埋め込みベクトルを用いて、前記類似度が第3の閾値以上である第1の話者埋め込みベクトルを更新する、
請求項5に記載の音声認識装置。
【請求項8】
前記音声認識結果は、各時刻の音声が各音素に対応する確率を示す音響スコアを含み、
前記埋め込みベクトル計算部は、前記各時刻の音響スコアと、前記特徴量の系列に含まれる各時刻の特徴量と、から前記第2の話者埋め込みベクトルを計算する、
請求項1又は2に記載の音声認識装置。
【請求項9】
音声認識装置が、所与の1以上の登録話者の第1の話者埋め込みベクトルと、機器の制御に使用される前記登録話者の個人設定とを記憶部に記憶するステップと、
前記音声認識装置が、音響信号から音声を認識し、音声認識結果を取得するステップと、
前記音声認識装置が、前記音響信号を分析し、前記音響信号の波形の特徴を表す特徴量を抽出するステップと、
前記音声認識装置が、前記音声認識結果から、発話区間に含まれる前記特徴量の系列を切り出すステップと、
前記音声認識装置が、前記特徴量の系列を用いて第2の話者埋め込みベクトルを計算するステップと、
前記音声認識装置が、前記第2の話者埋め込みベクトルと、前記1以上の第1の話者埋め込みベクトルとの1以上の類似度を計算するステップと、
前記音声認識装置が、前記1以上の類似度に基づいて、前記1以上の登録話者のいずれの発話であるかを判定するステップと、
前記音声認識装置が、前記1以上の類似度から判定された登録話者と、前記音声認識結果とに基づいて、前記記憶部から読み出された前記個人設定により、前記機器を制御するステップと、
を含む音声認識方法。
【請求項10】
所与の1以上の登録話者の第1の話者埋め込みベクトルと、機器の制御に使用される前記登録話者の個人設定とを記憶する記憶部を備えるコンピュータを、
音響信号から音声を認識し、音声認識結果を取得する音声認識部と、
前記音響信号を分析し、前記音響信号の波形の特徴を表す特徴量を抽出する分析部と、
前記音声認識結果から、発話区間に含まれる前記特徴量の系列を切り出す切り出し部と、
前記特徴量の系列を用いて第2の話者埋め込みベクトルを計算する話者埋め込みベクトル計算部と、
前記第2の話者埋め込みベクトルと、前記1以上の第1の話者埋め込みベクトルとの1以上の類似度を計算する類似度計算部と、
前記1以上の類似度に基づいて、前記1以上の登録話者のいずれの発話であるかを判定する判定部と、
前記1以上の類似度から判定された登録話者と、前記音声認識結果とに基づいて、前記記憶部から読み出された前記個人設定により、前記機器を制御する機器制御部、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は音声認識装置、音声認識方法及びプログラム
に関する。
【背景技術】
【0002】
特定の話者の音声のみを認識する音声認識技術が従来から知られている。例えば、与えられた話者情報によって特定される話者の音声のみを認識する方法として、入力された音響特徴量に、話者埋め込みベクトルを結合することによって、当該話者の音声のみを認識するように学習する技術がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特表2022-539674号公報
【非特許文献】
【0004】
【非特許文献1】Wan et al., Generalized End-to-End Loss for Speaker Verification, ICASSP 2018, pp.4879-4883, 2018
【非特許文献2】Synder et al., X-Vectors: Robust DNN Embeddings for Speaker Recognition, ICASSP 2018, pp.5329-5333, 2018 2018
【非特許文献3】Ioffe, Probabilistic linear discriminant analysis, ECCV, Part IV, LNCS 3954, pp.531-542, 2006
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の技術では、特定の複数人の話者の音声を認識し、特定された話者と認識された音声とに応じて、機器を制御することが難しかった。
【課題を解決するための手段】
【0006】
実施形態の音声認識装置は、記憶部と音声認識部と分析部と切り出し部と埋め込みベクトル計算部と類似度計算部と判定部と機器制御部とを備える。記憶部は、所与の1以上の登録話者の第1の話者埋め込みベクトルと、機器の制御に使用される前記登録話者の個人設定とを記憶する。音声認識部は、音響信号から音声を認識し、音声認識結果を取得する。分析部は、前記音響信号を分析し、前記音響信号の波形の特徴を表す特徴量を抽出する。切り出し部は、前記音声認識結果から、発話区間に含まれる前記特徴量の系列を切り出す。埋め込みベクトル計算部は、前記特徴量の系列を用いて第2の話者埋め込みベクトルを計算する。類似度計算部は、前記第2の話者埋め込みベクトルと、前記1以上の第1の話者埋め込みベクトルとの1以上の類似度を計算する。判定部は、前記1以上の類似度に基づいて、前記1以上の登録話者のいずれの発話であるかを判定する。機器制御部は、前記1以上の類似度から判定された登録話者と、前記音声認識結果とに基づいて、前記記憶部から読み出された前記個人設定により、前記機器を制御する。
【図面の簡単な説明】
【0007】
図1図1は、実施形態の音声認識装置の機能構成の例を示す図である。
図2図2は、実施形態の識別部の機能構成の例を示す図である。
図3A図3Aは、実施形態の話者登録の全体フローの例を示すフローチャートである。
図3B図3Bは、実施形態のステップS2の詳細フローの例を示すフローチャートである。
図4図4は、実施形態の音声認識フローの例を示すフローチャートである。
図5図5は、実施形態の変形例1の識別部の機能構成の例を示す図である。
図6図6は、実施形態の変形例1のキーワード情報の例を示す図である。
図7図7は、実施形態の変形例2の音声認識装置の機能構成の例を示す図である。
図8図8は、実施形態の音声認識装置のハードウェア構成の例を示す図である。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、音声認識装置、音声認識方法及びプログラムの実施形態を詳細に説明する。
【0009】
実施形態の音声認識装置100は、キーワードスポッティングによりキーワードが検出された区間の音声に対し、音声認識モデルと独立に学習された話者埋め込みモデルを用いて話者埋め込みベクトルを計算する。実施形態の音声認識装置100は、事前に登録された各話者との類似度に基づいて話者識別を実施する。そして、実施形態の音声認識装置100は、検出されたキーワードと話者識別の結果とに基づき、例えば、音響装置、及び空調装置等の機器の制御を行う。これにより、複数話者を目的とする音声認識を行い、話者に応じた固有の制御を行うことが可能となる。
【0010】
[機能構成の例]
図1は、実施形態の音声認識装置100の機能構成の例を示す図である。実施形態の音声認識装置100は、マイクロフォン1、音声認識部2、識別部3、判定部4、表示制御部5、ディスプレイ6及び機器制御部7を備える。音声認識部2は、第1分析部21及び検出部22を備える。また、実施形態の音声認識装置100は、音声認識モデル記憶部101、埋め込みモデル記憶部102及び個人設定記憶部103を備える。
【0011】
マイクロフォン1は、1人以上の話者の音声を取得し、各時刻に取得された音響信号を第1分析部11及び識別部3に入力する。
【0012】
第1分析部21は、マイクロフォン1から各時刻に入力された音響信号から、音響信号の波形の特徴を表す特徴量を抽出する。抽出される特徴量は、例えば、MFCC(Mel-Frequency Cepstrum Coefficients)、及び、メルフィルタバンク特徴量などである。
【0013】
検出部22は、特徴量の系列からキーワードを検出し、キーワードの検出結果、キーワードの始端時刻、及び、キーワードの終端時刻を含むキーワード検出情報を、識別部3に入力する。
【0014】
図2は、実施形態の識別部3の機能構成の例を示す図である。実施形態の識別部3は、第2分析部31、切り出し部32、埋め込みベクトル計算部33、登録部34、類似度計算部35及び埋め込みベクトル記憶部104を備える。
【0015】
第2分析部31は、上述の第1分析部21と同様の特徴量抽出機能を有する。なお、第2分析部31で抽出される特徴量と、第1分析部21で抽出される特徴量とは同じでもよく、その場合には、識別部3は、第1分析部21から特徴量を受け付けてもよい。
【0016】
切り出し部32は、第2分析部31から特徴量を受け付け、検出部22からキーワード情報を受け付けると、キーワードの始端時刻、及び、キーワードの終端時刻の間(キーワード検出区間)に含まれる特徴量の系列を切り出す。
【0017】
埋め込みベクトル計算部33は、埋め込みモデル記憶部102から話者埋め込みモデルを読み込み、話者埋め込みモデルに基づき、話者埋め込みベクトルを計算する。話者埋め込みベクトルの計算方法としては、例えば、i-vector、d-vector(非特許文献1)、x-vector(非特許文献2)、及び、それらの派生手法等が用いられる。
【0018】
登録部34は、音声認識対象(登録対象)の話者について、事前に計算された所定の個数の話者埋め込みベクトルを平均し、平均された話者埋め込みベクトルを、埋め込みベクトル記憶部104に記憶する。
【0019】
類似度計算部35は、埋め込みベクトル計算部33により計算された話者埋め込みベクトルと、埋め込みベクトル記憶部104に記憶された登録話者の話者埋め込みベクトルと、の類似度を計算する。類似度の計算方法としては、例えば、コサイン類似度、及び、PLDA(非特許文献3)等が用いられる。
【0020】
図1に戻り、判定部4は、類似度計算部35により計算された類似度に基づき、キーワード検出区間に含まれる発話の話者を判定し、話者の判定結果(識別結果)を表示制御部5及び機器制御部7に入力する。
【0021】
表示制御部5は、判定部4から入力された判定結果に基づき、音声認識された話者を識別する情報をディスプレイ6に表示する。
【0022】
機器制御部7は、判定部4から入力された判定結果に基づき、識別された話者の個人設定を個人設定記憶部103から読み出し、個人設定に基づき、空調装置111及び音響装置112等の機器を制御する。
【0023】
例えば、機器制御部7は、話者識別結果と音声認識結果との組み合わせに応じて、機器制御を実施する。具体的には、例えば、機器制御部7は、音響装置112がカーオーディオである場合、話者が「お気に入りの曲をかけて」と発話すると、個人設定により定められた当該話者に応じたお気に入りの曲を再生する。また例えば、空調装置111に対しては、機器制御部7は、話者が「お好み設定」と発話すると、個人設定により定められた当該話者に応じた好みの温度・風量を設定する。
【0024】
図3Aは、実施形態の話者登録の全体フローの例を示すフローチャートである。はじめに、登録部34が、登録対象のK人の話者を識別する変数kを1に初期化する(ステップS1)。
【0025】
次に、登録部34は、話者kの話者登録を実行する(ステップS2)。ステップS2の詳細フローは、図3Bを参照して後述する。
【0026】
次に、登録部34は、k=Kであるか否かを判定する(ステップS3)。k=Kである場合(ステップS3,Yes)、話者登録の処理は終了する。
【0027】
k=Kでない場合(ステップS3,No)、登録部34は、kの値をインクリメントし(ステップS4)、話者登録の処理はステップS2に戻る。
【0028】
図3Bは、実施形態のステップS2の詳細フローの例を示すフローチャートである。はじめに、登録部34は、話者埋め込みベクトルの平均の計算に用いられるベクトルV及び変数nを0に初期化する(ステップS11)。
【0029】
次に、音声認識部2が、話者kの音声を認識する(ステップS12)。具体的には、第1分析部21が、マイクロフォン1から各時刻に入力された話者kの音響信号から、特徴量を抽出し、検出部22が、当該特徴量の系列からキーワードの検出を試みる。
【0030】
ステップS12の音声認識によって、キーワードが検出されなかった場合(ステップS13,No)、話者登録の処理は、ステップS12に戻り、話者kの音声認識を継続する。
【0031】
ステップS12の音声認識によって、キーワードが検出された場合(ステップS13,Yes)、切り出し部32が、キーワード検出区間に含まれる特徴量を切り出す(ステップS14)。
【0032】
次に、埋め込みベクトル計算部33が、ステップS14で切り出された特徴量から、話者埋め込みベクトルvを計算する(ステップS15)。
【0033】
次に、登録部34が、ベクトルVに、ステップS15で計算された話者埋め込みベクトルvを加え、変数nをインクリメントする(ステップS16)。次に、登録部34は、n=Nであるか否かを判定する(ステップS17)。n=Nでない場合(ステップS17,No)、話者登録の処理は、ステップS12に戻り、話者kの音声認識を継続する。
【0034】
n=Nである場合(ステップS17,Yes)、登録部34は、ベクトルVをNで除算することによって、ステップS15で計算された話者kの話者埋め込みベクトルvの平均を計算し、ベクトルV/Nを、話者kの話者埋め込みベクトルとして埋め込みベクトル記憶部104に登録する(ステップS18)。
【0035】
図3Bに示すように、登録部34は、同一の話者によるN個の発話(N≧1)に対して、それぞれの話者埋め込みベクトル(第1の話者埋め込みベクトル)を計算する。そして、登録部34は、それぞれの話者埋め込みベクトルの統計量(図3Bの例では、平均)を、同一の話者の話者埋め込みベクトルとして、埋め込みベクトル記憶部104に登録する。話者登録時に複数発話を入力させることによって、話者内の発話ごとの話者埋め込みベクトルのばらつきを抑えることができる。
【0036】
図4は、実施形態の音声認識フローの例を示すフローチャートである。はじめに、音声認識部2が、マイクロフォン1から入力された音声を認識する(ステップS21)。具体的には、第1分析部21が、マイクロフォン1から各時刻に入力された音響信号から、特徴量を抽出し、検出部22が、当該特徴量の系列からキーワードの検出を試みる。
【0037】
ステップS21の音声認識によって、キーワードが検出されなかった場合(ステップS22,No)、話者登録の処理は、ステップS21に戻り、話者kの音声認識を継続する。
【0038】
ステップS21の音声認識によって、キーワードが検出された場合(ステップS22,Yes)、切り出し部32が、キーワード検出区間に含まれる特徴量を切り出す(ステップS23)。
【0039】
次に、埋め込みベクトル計算部33が、ステップS23で切り出された特徴量から、話者埋め込みベクトルvを計算する(ステップS24)。次に、類似度計算部35は、ステップS24で計算された話者埋め込みベクトルvと、登録部34によって埋め込みベクトル記憶部104に事前に記憶された登録話者の話者埋め込みベクトルと、の類似度を計算する(ステップS25)。
【0040】
次に、判定部4が、ステップS25で計算された類似度に基づき、キーワード検出区間に含まれる発話の話者を判定し、機器制御部7が、話者の判定結果(識別結果)に基づき、識別された話者の個人設定により機器を制御する(ステップS26)。
【0041】
次に、表示制御部5が、ステップS21で音声認識された話者を識別する情報をディスプレイ6に表示する(ステップS27)。
【0042】
以上、説明したように、実施形態の音声認識装置100では、埋め込みモデル記憶部102及び個人設定記憶部103(記憶部の一例)が、所与の1以上の登録話者の第1の話者埋め込みベクトルと、機器の制御に使用される登録話者の個人設定とを記憶する。音声認識部2が、音響信号から音声を認識し、音声認識結果を取得する。第2分析部31が、音響信号を分析し、音響信号の波形の特徴を表す特徴量を抽出する。切り出し部32が、音声認識結果から、発話区間に含まれる特徴量の系列を切り出す。埋め込みベクトル計算部33が、特徴量の系列を用いて第2の話者埋め込みベクトルを計算する。類似度計算部35が、第2の話者埋め込みベクトルと、1以上の第1の話者埋め込みベクトルとの1以上の類似度を計算する。判定部4が、1以上の類似度に基づいて、1以上の登録話者のいずれの発話であるかを判定する。そして、機器制御部7が、1以上の類似度から判定された登録話者と、音声認識結果とに基づいて、個人設定記憶部103から読み出された個人設定により、機器を制御する。
【0043】
実施形態の音声認識装置100の構成によれば、音声認識に使用される音声認識モデルと独立な話者埋め込みモデル(所与の1以上の登録話者の第1の話者埋め込みベクトル)を用いて、特定の複数人の話者を対象とする音声認識が行われる。これにより、特定の複数人の話者の音声を認識し、特定された話者と認識された音声とに応じて、機器を制御することができる。
【0044】
なお、従来は、与えられた話者の音声のみを認識する仕組みであったため、話者Aの音声と話者Bの音声とを認識したい場合など、目的話者を複数人にすることができないという問題があった。また、音声認識モデルが話者埋め込みモデルに依存するため、環境変化及び経年変化などへの対応のためには両方のモデルの再学習が必要になるなど、環境に合わせたモデルのチューニングが煩雑になるという問題があった。
【0045】
(実施形態の変形例1)
次に実施形態の変形例1について説明する。変形例1の説明では、実施形態と同様の説明については省略し、実施形態と異なる箇所について説明する。
【0046】
図5は、実施形態の変形例1の識別部3の機能構成の例を示す図である。図5の例では、類似度計算部35は、キーワード情報記憶部105から、キーワード情報を更に読み込む。キーワード情報記憶部105は、登録話者とキーワードとの組合せを記憶する。
【0047】
図6は、実施形態の変形例1のキーワード情報の例を示す図である。変形例1のキーワード情報は、話者A及びBごとに、受付可能なキーワードのリストを表す。例えば、キーワードbは、話者Aでは受付可能であるが、話者Bでは受付できないことを示す。キーワード情報は、話者毎に、受付可能なキーワードを定めるフィルタとして使用される。
【0048】
類似度計算部35は、切り出し部32から、埋め込みベクトル計算部33を介して、キーワード検出区間の音声認識結果を受け取り、音声認識されたキーワードを入力可能な話者との類似度だけを計算してもよい。これにより類似度計算コストを削減することができる。
【0049】
すなわち、類似度計算部35は、音声認識結果に、図6のキーワード情報で定められた受付可能なキーワードが含まれている登録話者の第1の話者埋め込みベクトルと、埋め込みベクトル計算部33により計算された第2の話者埋め込みベクトルと、の類似度を計算する。すなわち、類似度計算部35は、音声認識結果に、図6のキーワード情報で定められた受付可能なキーワードが含まれていない登録話者の第1の話者埋め込みベクトルと、埋め込みベクトル計算部33により計算された第2の話者埋め込みベクトルと、の類似度は計算しない。
【0050】
また、埋め込みベクトル計算部33は、音声認識部2から切り出し部32を介してキーワード認識結果をさらに受け取り、音響特徴量とキーワード認識結果とから話者埋め込みベクトルを計算してもよい。キーワード認識結果は、発話に対応するキーワードID又は文字列でもよいし、各時刻の音響スコア等でもよい。音響スコアは、各時刻の音声が各音素に対応する確率を示す。
【0051】
すなわち、音声認識結果が、各時刻の音声が各音素に対応する確率を示す音響スコアを含み、埋め込みベクトル計算部33が、各時刻の音響スコアと、特徴量の系列に含まれる各時刻の特徴量と、から話者埋め込みベクトル(第2の話者埋め込みベクトル)を計算してもよい。これにより登録時と識別時とで発話内容が異なる場合に、識別性能の向上が期待される。
【0052】
また、判定部4は類似度の閾値(第1の閾値)に基づいて、どの登録話者の発話でもない旨の判定をさらに行ってもよい。この場合、表示制御部5が、1以上の類似度から判定された登録話者を識別する情報(例えば氏名等)をディスプレイ6に表示し、1以上の類似度が、いずれも第1の閾値以下である場合、話者の識別精度の信頼度が第1の閾値以下であることを示す情報をディスプレイ6に表示する。
【0053】
なお、この閾値は固定値でもよいし、判定部4がキーワード検出結果をさらに受け取り、キーワード検出結果に応じて異なる閾値が用いられてもよい。
【0054】
これにより、所定の登録話者以外の発話を棄却することができる。また、検出部22が環境雑音などの非音声に誤って反応し、検出結果を出力した場合に、このような検出結果を棄却することができる。
【0055】
また、入力された発話と、登録済の話者埋め込みベクトルとの類似度が閾値以下の場合に、再発話を促したり、背景雑音によって生じる音声認識結果の誤りを棄却したりすることができる。
【0056】
(実施形態の変形例2)
次に実施形態の変形例2について説明する。変形例2の説明では、実施形態と同様の説明については省略し、実施形態と異なる箇所について説明する。
【0057】
図7は、実施形態の変形例2の音声認識装置100-2の機能構成の例を示す図である。変形例2の音声認識部2では、実施形態の検出部22に代えて、自由発話認識部23と言語理解部24が備えられている。
【0058】
自由発話認識部23は、所定のキーワードに依らない自由発話の音声を認識し、音声認識結果を文字列に変換する。
【0059】
言語理解部24は、自由発話認識部23によって得られた文字列の解析を行う。例えば、言語理解部24は、文字列から言語理解モデルに基づいて理解された言語理解結果を取得する。
【0060】
類似度計算部35は、言語理解結果に基づいて、類似度の計算対象となる1以上の第1の話者埋め込みベクトルを選択し、選択された1以上の第1の話者埋め込みベクトルと、埋め込みベクトル計算部33により計算された第2の話者埋め込みベクトルとの類似度を計算する。
【0061】
図7に示す変形例2の構成によれば、特定のキーワードに制約されない、より高度な音声入力インタフェースに対しても対応できる。大語彙音声認識に対して話者識別を適用することで、より広範囲のタスクに対して話者情報に基づく音声インタフェースの動作を制御できるようになる。
【0062】
例えば、変形例2の音声認識装置100-2が、自動車の運転席と助手席にいる二人の発話を認識するときに、言語理解結果から自動車の運転支援に関する発話であることが特定できる。この場合、類似度計算部35は、例えば、自動車の運転者として登録されている登録話者の第1の話者埋め込みベクトルを、類似度の計算対象として選択できる。
【0063】
また、話者登録時には、固定個数の発話を用いる代わりに、各発話の話者埋め込みベクトルの分散が閾値以下となった場合に登録を終了してもよい。すなわち、登録部34が、同一の話者に繰り返し発話を促し、各発話に対して、それぞれの話者埋め込みベクトル(第1の話者埋め込みベクトル)を計算し、それぞれの話者埋め込みベクトルの分散が、第2の閾値以下になった場合に発話を停止するよう促してもよい。
【0064】
これにより、最低限の回数の発話で話者登録が行えるので、話者登録の労力を削減でき、話者識別精度を維持しつつユーザエクスペリエンスを高めることができる。
【0065】
また、判定時には、類似度が閾値以上となった発話を用いて、埋め込みベクトル記憶部の値を逐次更新してもよい。声質は経年変化するため、最初に登録された話者埋め込みベクトルを使い続けると話者識別精度が低下していき、再登録が必要となる場合がある。そのため、登録部34は、類似度が閾値(第3の閾値)以上である話者埋め込みベクトル(埋め込みベクトル計算部33により計算された第2の話者埋め込みベクトル)を用いて、類似度が閾値(第3の閾値)以上である登録話者の埋め込みベクトル(埋め込みベクトル記憶部104に登録される第1の話者埋め込みベクトル)を更新してもよい。
【0066】
登録部34による逐次更新によって、明示的な再登録作業(例えば、所定の年数ごとの再登録作業)を定期的に行う必要がなくなり、時間経過に対しても話者識別精度を維持することができる。
【0067】
最後に、実施形態の音声認識装置100のハードウェア構成の例について説明する。
【0068】
[ハードウェア構成の例]
図7は、実施形態の音声認識装置100のハードウェア構成の例を示す図である。実施形態の音声認識装置100は、プロセッサ201、主記憶装置202、補助記憶装置203、表示装置204、入力装置205及び通信装置206を備える。プロセッサ201、主記憶装置202、補助記憶装置203、表示装置204、入力装置205及び通信装置206は、バス210を介して接続されている。
【0069】
なお、音声認識装置100は、上記構成の一部が備えられていなくてもよい。例えば、音声認識装置100が、外部の装置の入力機能及び表示機能を利用可能な場合、音声認識装置100に表示装置204及び入力装置205が備えられていなくてもよい。
【0070】
プロセッサ201は、補助記憶装置203から主記憶装置202に読み出されたプログラムを実行する。主記憶装置202は、ROM及びRAM等のメモリである。補助記憶装置203は、HDD(Hard Disk Drive)及びメモリカード等である。
【0071】
表示装置204は、例えば液晶ディスプレイ(図1の例では、ディスプレイ6)等である。入力装置205は、音声認識装置100を操作するためのインタフェースである。なお、表示装置204及び入力装置205は、表示機能と入力機能とを有するタッチパネル等により実現されていてもよい。通信装置206は、他の装置と通信するためのインタフェースである。
【0072】
例えば、音声認識装置100で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルで、メモリカード、ハードディスク、CD-RW、CD-ROM、CD-R、DVD-RAM及びDVD-R等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
【0073】
また例えば、音声認識装置100で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
【0074】
また例えば、音声認識装置100で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。具体的には、サーバコンピュータから、プログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、音声認識処理を実行する構成としてもよい。
【0075】
また例えば、音声認識装置100のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
【0076】
音声認識装置100で実行されるプログラムは、上述の機能構成のうち、プログラムによっても実現可能な機能を含むモジュール構成となっている。当該各機能は、実際のハードウェアとしては、プロセッサ201が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置202上にロードされる。すなわち上記各機能ブロックは主記憶装置202上に生成される。
【0077】
なお上述した各機能の一部又は全部をソフトウェアにより実現せずに、IC(Integrated Circuit)等のハードウェアにより実現してもよい。
【0078】
また複数のプロセッサ201を用いて各機能を実現してもよく、その場合、各プロセッサ201は、各機能のうち1つを実現してもよいし、各機能のうち2以上を実現してもよい。
【0079】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0080】
1 マイクロフォン
2 音声認識部
3 識別部
4 判定部
5 表示制御部
6 ディスプレイ
7 機器制御部
21 第1分析部
22 検出部
23 自由発話認識部
24 言語理解部
31 第2分析部
32 切り出し部
33 埋め込みベクトル計算部
34 登録部
35 類似度計算部
100 音声認識装置
101 音声認識モデル記憶部
102 埋め込みモデル記憶部
103 個人設定記憶部
104 埋め込みベクトル記憶部
105 キーワード情報記憶部
111 空調装置
112 音響装置
201 プロセッサ
202 主記憶装置
203 補助記憶装置
204 表示装置
205 入力装置
206 通信装置
210 バス
図1
図2
図3A
図3B
図4
図5
図6
図7
図8