(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-01
(45)【発行日】2023-12-11
(54)【発明の名称】音声認識装置、方法およびプログラム
(51)【国際特許分類】
G10L 15/065 20130101AFI20231204BHJP
G10L 15/32 20130101ALI20231204BHJP
【FI】
G10L15/065 A
G10L15/32 200Z
(21)【出願番号】P 2020150802
(22)【出願日】2020-09-08
【審査請求日】2022-08-26
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】早川 大智
(72)【発明者】
【氏名】籠嶋 岳彦
(72)【発明者】
【氏名】岩田 憲治
【審査官】中村 天真
(56)【参考文献】
【文献】特開2005-301097(JP,A)
【文献】国際公開第2019/216414(WO,A1)
【文献】米国特許出願公開第2012/0130716(US,A1)
【文献】特開2000-181482(JP,A)
【文献】滝口哲也他,"雑音と残響のある環境下でのHMM合成によるハンズフリー音声認識法",電子情報通信学会論文誌(J79-D-II)第12号,1996年12月25日,pp.2047―2053
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
センサ情報に基づいて、前記センサ情報を取得した環境に関する環境情報を生成する環境情報生成部と、
前記環境情報および汎用音声データに基づいて、ベース音響モデルを前記環境に適応させた適応済み音響モデルを生成する適応部と、
前記環境下での音声を入力音声データとして取得する取得部と、
前記適応済み音響モデルを用いて前記入力音声データに音声認識処理を行う音声認識部と
を具備
し、
前記適応済み音響モデルの生成に関する所定の基準を満たさない場合、
前記音声認識部は、前記ベース音響モデルを用いて前記入力音声データに音声認識処理を行う、音声認識装置。
【請求項2】
センサ情報に基づいて、前記センサ情報を取得した環境に関する環境情報を生成する環境情報生成部と、
前記環境情報および汎用音声データに基づいて、ベース音響モデルを前記環境に適応させた適応済み音響モデルを生成する適応部と、
前記環境下での音声を入力音声データとして取得する取得部と、
前記適応済み音響モデルを用いて前記入力音声データに音声認識処理を行う音声認識部と
を具備
し、
前記音声認識部は、
前記ベース音響モデルを用いて前記入力音声データに音声認識処理を行うことによって第1の音声認識結果を生成し、
前記第1の音声認識結果に基づいて、前記第1の音声認識結果の第1の信頼度を計算し、
前記適応済み音響モデルを用いて前記入力音声データに音声認識処理を行うことによって第2の音声認識結果を生成し、
前記第2の音声認識結果に基づいて、前記第2の音声認識結果の第2の信頼度を計算し、
前記第1の信頼度と前記第2の信頼度とに基づいて、前記第1の音声認識結果または前記第2の音声認識結果を出力する、音声認識装置。
【請求項3】
前記適応部は、
前記環境情報および前記汎用音声データに基づいて、前記環境下での音声を擬似した疑似入力音声データを生成し、
前記疑似入力音声データを用いて前記適応済み音響モデルを生成する、
請求項1
または請求項2に記載の音声認識装置。
【請求項4】
前記適応部は、
前記環境情報に基づいて、前記音声の発生源と、前記音声を集音する集音デバイスとの間のインパルス応答を疑似した疑似インパルス応答を生成し、
前記汎用音声データと前記疑似インパルス応答とに基づいて前記疑似入力音声データを生成する、
請求項
3に記載の音声認識装置。
【請求項5】
前記環境情報は、前記インパルス応答を含み、
前記適応部は、前記インパルス応答に所定の演算を行うことで前記疑似インパルス応答を生成する、
請求項
4に記載の音声認識装置。
【請求項6】
前記所定の演算は、前記インパルス応答の波形の時間方向への拡大、前記波形の時間方向への縮小、および前記波形のピーク値の変更の少なくとも一つである、
請求項
5に記載の音声認識装置。
【請求項7】
前記環境情報は、前記環境における空間の広さの情報を含み、
前記適応部は、
前記入力音声データに基づいて前記空間の残響時間を算出し、
前記空間の広さの情報と前記残響時間とに基づいて、前記疑似インパルス応答を生成する、
請求項
4から請求項
6までのいずれか一項に記載の音声認識装置。
【請求項8】
前記適応部は、前記汎用音声データに対して、前記疑似インパルス応答を畳み込み演算することによって前記疑似入力音声データを生成する、
請求項
4から請求項
7までのいずれか一項に記載の音声認識装置。
【請求項9】
前記センサ情報は、前記環境下に設置された集音デバイスにより取得された音響データを含む、
請求項1から請求項
8までのいずれか一項に記載の音声認識装置。
【請求項10】
前記入力音声データは、前記集音デバイスによって取得される、
請求項
9に記載の音声認識装置。
【請求項11】
前記センサ情報は、前記環境下に設置された撮像デバイスにより取得された画像データおよび点群データの少なくともどちらかを含む、
請求項1から請求項
10までのいずれか一項に記載の音声認識装置。
【請求項12】
前記適応部は、前記ベース音響モデルのパラメータを最適化することによって前記適応済み音響モデルを生成する、
請求項1から請求項
11までのいずれか一項に記載の音声認識装置。
【請求項13】
前記汎用音声データは、前記ベース音響モデルの学習用データに含まれる音声データである、
請求項
12に記載の音声認識装置。
【請求項14】
前記所定の基準は、前記ベース音響モデルを前記環境に適応させるためにかかる時間である、
請求項
1と、請求項1を直接的あるいは間接的に引用する請求項3から請求項13までとのうちのいずれか一項に記載の音声認識装置。
【請求項15】
前記音声認識部は、前記第1の信頼度と前記第2の信頼度とのうち、信頼度が高い方に対応する音声認識結果を出力する、
請求項
2と、請求項2を直接的あるいは間接的に引用する請求項3から請求項13までとのうちのいずれか一項に記載の音声認識装置。
【請求項16】
前記音声認識部は、前記第1の信頼度と前記第2の信頼度との比率が所定の比率を満たした場合、信頼度が高い方に対応する音声認識結果を出力する、
請求項
2と、請求項2を直接的あるいは間接的に引用する請求項3から請求項13までと、請求項15とのうちのいずれか一項に記載の音声認識装置。
【請求項17】
センサ情報に基づいて、前記センサ情報を取得した環境に関する環境情報を生成する
第1の工程と、
前記環境情報および汎用音声データに基づいて、ベース音響モデルを前記環境に適応させた適応済み
音響モデルを生成する
第2の工程と、
前記環境下での音声を入力音声データとして取得する
第3の工程と、
前記適応済み音響モデルを用いて前記入力音声データに音声認識処理を行う
第4の工程と
を具備
し、
前記適応済み音響モデルの生成に関する所定の基準を満たさない場合、
前記第4の工程は、前記ベース音響モデルを用いて前記入力音声データに音声認識処理を行う、音声認識方法。
【請求項18】
センサ情報に基づいて、前記センサ情報を取得した環境に関する環境情報を生成する
第1の工程と、
前記環境情報および汎用音声データに基づいて、ベース音響モデルを前記環境に適応させた適応済み
音響モデルを生成する
第2の工程と、
前記環境下での音声を入力音声データとして取得する
第3の工程と、
前記適応済み音響モデルを用いて前記入力音声データに音声認識処理を行う
第4の工程と
を具備
し、
前記第4の工程は、
前記ベース音響モデルを用いて前記入力音声データに音声認識処理を行うことによって第1の音声認識結果を生成し、
前記第1の音声認識結果に基づいて、前記第1の音声認識結果の第1の信頼度を計算し、
前記適応済み音響モデルを用いて前記入力音声データに音声認識処理を行うことによって第2の音声認識結果を生成し、
前記第2の音声認識結果に基づいて、前記第2の音声認識結果の第2の信頼度を計算し、
前記第1の信頼度と前記第2の信頼度とに基づいて、前記第1の音声認識結果または前記第2の音声認識結果を出力する、音声認識方法。
【請求項19】
コンピュータを、
センサ情報に基づいて、前記センサ情報を取得した環境に関する環境情報を生成する
第1の手段と、
前記環境情報および汎用音声データに基づいて、ベース音響モデルを前記環境に適応させた適応済み
音響モデルを生成する
第2の手段と、
前記環境下での音声を入力音声データとして取得する
第3の手段と、
前記適応済み音響モデルを用いて前記入力音声データに音声認識処理を行う
第4の手段
として機能させ
、
前記適応済み音響モデルの生成に関する所定の基準を満たさない場合、
前記第4の手段は、前記ベース音響モデルを用いて前記入力音声データに音声認識処理を行う、プログラム。
【請求項20】
コンピュータを、
センサ情報に基づいて、前記センサ情報を取得した環境に関する環境情報を生成する
第1の手段と、
前記環境情報および汎用音声データに基づいて、ベース音響モデルを前記環境に適応させた適応済み
音響モデルを生成する
第2の手段と、
前記環境下での音声を入力音声データとして取得する
第3の手段と、
前記適応済み音響モデルを用いて前記入力音声データに音声認識処理を行う
第4の手段
として機能させ
、
前記第4の手段は、
前記ベース音響モデルを用いて前記入力音声データに音声認識処理を行うことによって第1の音声認識結果を生成し、
前記第1の音声認識結果に基づいて、前記第1の音声認識結果の第1の信頼度を計算し、
前記適応済み音響モデルを用いて前記入力音声データに音声認識処理を行うことによって第2の音声認識結果を生成し、
前記第2の音声認識結果に基づいて、前記第2の音声認識結果の第2の信頼度を計算し、
前記第1の信頼度と前記第2の信頼度とに基づいて、前記第1の音声認識結果または前記第2の音声認識結果を出力する、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声認識装置、方法およびプログラムに関する。
【背景技術】
【0002】
従来、大量の汎用音声データによってあらかじめ学習されたベース音響モデルを用いて、マイクで観測された認識対象の音声データ(対象音声データ)を音声認識する技術がある。上記対象音声データの集音環境は、雑音の種類や大きさ、残響の度合いが多様である。そのため、汎用音声データと対象音声データとの集音環境が異なることに起因する、音声認識性能の低下が問題となることがあった。
【0003】
上記問題を解決する手法の一つに、音響モデルを適応する手法がある。従来の音響モデルの適応では、対象音声データの集音環境で収録された音声データを新たに用意し、用意された音声データを用いてベース音響モデルを再学習し、適応済み音響モデルを得る。これにより、音声認識性能の低下を抑制することが可能である。しかし、音響モデルの適応の効果を得るためには、集音環境で収録された音声データを大量に用意する必要があり、時間コストが生じる。
【0004】
上記問題を解決する別の手法に、汎用音声データに基づいて疑似的に残響と雑音を含んだ音声を生成し、生成された音声データを音響モデルの学習用データに加えることで、音声認識性能の低下を抑制させる手法がある。例えば、部屋の環境情報(例えば、部屋の大きさ、残響時間、音声源と雑音源の位置、およびマイクの位置など)をランダムに設定し、音声源からの汎用音声データと雑音源からの雑音データを残響のある部屋で収録する状況をルームシミュレータで再現して、疑似対象音声データを生成することができる。しかし、上記別の手法では、疑似対象音声データを生成する際の部屋の環境情報をランダムに設定しているため、疑似対象音声データの生成で設定された環境情報と実際の集音環境とに乖離が生じたとき、音声認識性能が劣化する可能性がある。
【先行技術文献】
【非特許文献】
【0005】
【文献】C. Kim, et al., “Generation of large-scale simulated utterances in virtual rooms to train deep-neural networks for far-field speech recognition in Google Home,” Interspeech 2017.
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする課題は、音声認識性能を向上することができる音声認識装置、方法およびプログラムを提供することである。
【課題を解決するための手段】
【0007】
一実施形態に係る音声認識装置は、環境情報生成部と、適応部と、取得部と、音声認識部とを備える。環境情報生成部は、センサ情報に基づいて、センサ情報を取得した環境に関する環境情報を生成する。適応部は、環境情報および汎用音声データに基づいて、ベース音響モデルを上記環境に適応させた適応済み音響モデルを生成する。取得部は、上記環境下での音声を入力音声データとして取得する。処理部は、適応済み音響モデルを用いて入力音声データに音声認識処理を行う。
【図面の簡単な説明】
【0008】
【
図1】
図1は、第1の実施形態に係る音声認識装置を含む音声認識システムの構成を例示するブロック図である。
【
図2】
図2は、
図1の適応部の構成を例示するブロック図である。
【
図3】
図3は、
図1の音声認識装置の動作を例示するフローチャートである。
【
図4】
図4は、
図3のフローチャートの適応済み音響モデル生成処理を例示するフローチャートである。
【
図5】
図5は、第1の実施形態における疑似インパルス応答の生成方法を説明する図である。
【
図6】
図6は、第1の実施形態における疑似インパルス応答の別の生成方法を説明する図である。
【
図7】
図7は、第2の実施形態に係る音声認識装置を含む音声認識システムの構成を例示するブロック図である。
【
図8】
図8は、第2の実施形態に係る音声認識装置の音声認識部の構成を例示するブロック図である。
【
図9】
図9は、第2の実施形態に係る音声認識装置の動作例を説明する図である。
【
図10】
図10は、第2の実施形態における音声認識処理を例示するフローチャートである。
【
図11】
図11は、第3の実施形態に係る音声認識装置の音声認識部の構成を例示するブロック図である。
【
図12】
図12は、第3の実施形態における音声認識処理を例示するフローチャートである。
【
図13】
図13は、
図12のフローチャートの音響モデル選択処理を例示するフローチャートである。
【
図14】
図14は、第1の実施形態から第3の実施形態までに係る音声認識装置の使用例を示す図である。
【
図15】
図15は、第4の実施形態に係るスマートスピーカの構成を例示するブロック図である。
【
図18】
図18は、一実施形態に係るコンピュータのハードウェア構成を例示するブロック図である。
【発明を実施するための形態】
【0009】
初めに、マイクロフォンによる観測信号のモデル化について説明する。以下では、例えば、室内において、1個の音声源からの音声を1個のマイクロフォンで集音する状況を考える。このとき、マイクロフォンでの観測信号は、次の式(1)のようにモデル化できる。
【0010】
x(t)=s(t)*h(t) (1)
【0011】
式(1)において、tは時間のインデックス、s(t)は音声源の音声、x(t)はマイクでの観測信号、*は畳みこみ演算を示す。また、h(t)は、音声源とマイクロフォンとの間の伝達特性を示し、インパルス応答と呼ばれる。もし室内において残響がある場合、残響時間および残響の度合いなどの残響特性は、h(t)で表現される。また、h(t)は、音声源とマイクロフォンとの間の距離にも依存する。
【0012】
次に、上記インパルス応答を擬似的に生成する方法について説明する。以降では擬似的に生成されたインパルス応答を疑似インパルス応答と称する。疑似インパルス応答は、例えば、音響シミュレーションにより生成することができる。音響シミュレーションでは、例えば、室内の状況(例えば、部屋の大きさ、残響特性、音声源の位置、およびマイクロフォンの位置など)を任意に設定し、疑似インパルス応答が生成される。疑似インパルス応答の生成には、例えば、参考文献1(J. Allen and D. Berkeley, “Image method for efficiently simulating small-room acoustics”, J. Acoust. Soc. Am., 1979.)などに記載の手法(例えば、鏡像法など)を用いることができる。
【0013】
次に、上記室内の状況における音声データを擬似的に生成する方法について説明する。ここでの音声データは、例えば、残響を含まない汎用音声データが望ましい。以降では擬似的に生成された音声データを疑似音声データと称する。疑似音声データの生成には、まず任意の汎用音声データを選択し、これを音声源の音声とする。そして、上記の式(1)に基づいて、選択された汎用音声データと、音響シミュレーションによって生成された疑似インパルス応答とを畳み込み演算することにより、疑似音声データが生成される。
【0014】
以下、図面を参照しながら、音声認識装置の各実施形態について詳細に説明する。
【0015】
(第1の実施形態)
図1は、第1の実施形態に係る音声認識装置を含む音声認識システムの構成を例示するブロック図である。音声認識システム1は、音声認識装置100と、センサデバイス200と、集音デバイス300と、出力装置400とを備える。音声認識システム1を利用する際は、センサデバイス200および集音デバイス300は、同一環境下に設置される。同一環境下とは、例えば、同じ空間内を意味する。ここでの空間は、発生音に対して残響が発生する部屋および会場などである。尚、以降では、センサデバイス200および集音デバイス300は、同一環境下に設置されているものとする。また、「同一環境」は、「集音環境」に言い換えられてもよい。
【0016】
センサデバイス200は、設置された環境における空間内の情報をセンサ情報として取得する。センサ情報は、例えば、音響データ、画像データ、および点群データの少なくとも一つを含む。センサデバイス200は、取得したセンサ情報を音声認識装置100へと出力する。尚、音響データは、音声データが含まれていてもよい。また、「センサ情報を取得した環境」は、「集音環境」に言い換えられてもよい。
【0017】
具体的には、センサデバイス200は、例えば、マイクロフォン、カメラ、RGB-Dセンサ、およびLiDAR(Laser Imaging Detection and Ranging)などの少なくとも一つである。音響データを取得する場合、センサデバイス200は、マイクロフォンである。画像データを取得する場合、センサデバイス200は、カメラおよびRGB-Dセンサである。点群データを取得する場合、センサデバイス200は、LiDARである。尚、音響データを取得する場合、センサデバイス200は、カメラに付属のマイクロフォンでもよい。以降では、カメラ、RGB-Dセンサ、およびLiDARなど、空間内の可視化に用いられるデバイスを撮像デバイスと称する。
【0018】
集音デバイス300は、音声認識対象となる音声データを取得する。集音デバイス300は、例えば、マイクロフォンである。集音デバイス300は、取得した音声データを音声認識装置100へと出力する。以降では、集音デバイス300で取得された音声データを入力音声データと称する。尚、集音デバイス300は、音響データを取得してもよい。この場合、集音デバイス300は、センサデバイス200を兼ねてもよい。
【0019】
音声認識装置100は、環境情報生成部110と、汎用音声データ記憶部120と、ベース音響モデル記憶部130と、適応部140と、適応済み音響モデル記憶部150と、音声認識部160とを備える。尚、音声認識装置100は、入力音声データを取得する取得部および入力音声データを記憶する入力音声データ記憶部を備えてもよい。また、汎用音声データ記憶部120、ベース音響モデル記憶部130、および適応済み音響モデル記憶部150は、一つ以上の記憶部に統合されてもよいし、音声認識装置100の外部に設けられてもよい。
【0020】
環境情報生成部110は、センサデバイス200からセンサ情報を受け取る。環境情報生成部110は、センサ情報に基づいて環境情報を生成する。環境情報は、センサ情報を取得した環境に関する。環境情報生成部110は、生成した環境情報を適応部140へと出力する。
【0021】
具体的には、環境情報は、例えば、音声の発生源と、音声を集音する集音デバイスとの間のインパルス応答、および集音環境における空間の広さの情報などの少なくとも一つを含む。
【0022】
センサ情報が音響データの場合、環境情報生成部110は、音響データに基づいてインパルス応答を生成する。音響データに基づくインパルス応答の生成には、例えば、参考文献2(F. S. Pacheco and R. Seara, “A single-microphone approach for speech signal dereverberation,” EUSIPCO, 2005.)などに記載の手法を用いることができる。
【0023】
センサ情報が画像データまたは点群データの場合、環境情報生成部110は、画像データまたは点群データに基づいて空間の広さの情報を生成する。画像データまたは点群データに基づく空間の広さの情報の生成には、例えば、参考文献3(H. Kim, et al., “Room Layout Estimation with Object and Material Attributes Information Using a Spherical Camera,” 3DV, 2016.)、参考文献4(P. Kim, et al., “Linear RGB-D SLAM for Planar Environments,” ECCV, 2018.)、および参考文献5(J. Palacin, et al., “Mobile Robot Self-Localization with 2D Push-Broom LIDAR in a 2D Map,” Sensors 2020.)などに記載の手法を用いることができる。
【0024】
なお、環境情報生成部110は、インパルス応答および空間の広さの情報の両方を生成してもよい。
【0025】
汎用音声データ記憶部120は、汎用音声データを記憶している。汎用音声データは、例えば、残響が含まれていない音声データが望ましい。汎用音声データ記憶部120は、汎用音声データを適応部140へと出力する。
【0026】
ベース音響モデル記憶部130は、ベース音響モデルを記憶している。ベース音響モデルは、例えば、音声データによって予め学習された機械学習の学習済みモデルである。機械学習としては、例えば、DNN(Deep Neural Network)が用いられる。ベース音響モデル記憶部130は、ベース音響モデルを適応部140へと出力する。尚、ベース音響モデルが学習済みモデルの場合、汎用音声データとして、ベース音響モデルの学習用データに含まれる音声データが用いられてもよい。これにより、汎用音声データ記憶部120は省略されてもよい。
【0027】
適応部140は、環境情報生成部110から環境情報を受け取り、汎用音声データ記憶部120から汎用音声データを受け取り、ベース音響モデル記憶部130からベース音響モデルを受け取る。適応部140は、環境情報と汎用音声データとベース音響モデルとに基づいて適応済み音響モデルを生成する。適応部140は、生成した適応済み音響モデルを適応済み音響モデル記憶部150へと出力する。
【0028】
具体的には、適応済み音響モデルは、センサ情報を取得した環境(集音環境)に適応させた音響モデルである。適応部140は、環境情報および汎用音声データに基づいて、集音環境下での音声を模擬した疑似入力音声データを生成し、疑似入力音声データを用いて適応済み音響モデルを生成する。尚、適応部140は、入力音声データに基づいて集音環境における空間の残響時間を算出してもよい。次に、適応部140のより具体的な構成について、
図2を用いて説明する。
【0029】
図2は、
図1の適応部の構成を例示するブロック図である。適応部140は、疑似インパルス応答生成部141と、疑似入力音声データ生成部142と、適応学習部143とを備える。
【0030】
疑似インパルス応答生成部141は、環境情報生成部110から環境情報を受け取る。疑似インパルス応答生成部141は、環境情報に基づいて疑似インパルス応答を生成する。疑似インパルス応答生成部141は、疑似インパルス応答を疑似入力音声データ生成部142へと出力する。
【0031】
具体的には、疑似インパルス応答生成部141は、環境情報に基づいて、音声の発生源と、音声を収集する集音デバイスとの間のインパルス応答を模擬した疑似インパルス応答を生成する。環境情報がインパルス応答を含む場合、疑似インパルス応答生成部141は、インパルス応答に所定の演算を行うことで疑似インパルス応答を生成する。所定の演算は、例えば、インパルス応答の波形の時間方向への拡大、インパルス応答の波形の時間方向への縮小、およびインパルス応答の波形のピーク値の変更の少なくとも一つである。環境情報が集音環境における空間の広さの情報を含む場合、疑似インパルス応答生成部141は、空間の広さの情報と空間の残響時間とに基づいて、疑似インパルス応答を生成する。
【0032】
疑似入力音声データ生成部142は、汎用音声データ記憶部120から汎用音声データを受け取り、疑似インパルス応答生成部141から疑似インパルス応答を受け取る。疑似入力音声データ生成部142は、汎用音声データと疑似インパルス応答とに基づいて疑似入力音声データを生成する。疑似入力音声データ生成部142は、疑似入力音声データを適応学習部143へと出力する。
【0033】
具体的には、疑似入力音声データ生成部142は、汎用音声データに対して、疑似インパルス応答を畳み込み演算することによって疑似入力音声データを生成する。
【0034】
適応学習部143は、ベース音響モデル記憶部130からベース音響モデルを受け取り、疑似入力音声データ生成部142から疑似入力音声データを受け取る。適応学習部143は、疑似入力音声データをベース音響モデルに適応することによって適応済み音響モデルを生成する。適応学習部143は、適応済み音響モデルを適応済み音響モデル記憶部150へと出力する。
【0035】
ベース音響モデルがDNNで構成されている場合、適応済み音響モデルもDNNで構成される。よって、適応済み音響モデルは、ベース音響モデルのパラメータを初期値として、パラメータを最適化することによって生成される。パラメータの最適化には、例えば、参考文献6(P. J. Werbos, “Backpropagation Through Time: What It Does and How to Do It,” Proceedings of the IEEE, vol. 78, no. 10, 1990.)などに記載の手法を用いることができる。即ち、適応学習部143は、ベース音響モデルのパラメータを最適化することによって適応済み音響モデルを生成する。尚、「パラメータを最適化する」は、「パラメータを学習する」に言い換えられてもよい。
【0036】
適応済み音響モデル記憶部150は、適応部140から適応済み音響モデルを受け取り、記憶する。適応済み音響モデル記憶部150は、適応済み音響モデルを音声認識部160へと出力する。
【0037】
音声認識部160は、集音デバイス300から入力音声データを受け取り、適応済み音響モデル記憶部150から適応済み音響モデルを受け取る。音声認識部160は、適応済み音響モデルを用いて入力音声データに音声認識処理を行うことによって音声認識結果を生成する。音声認識部160は、生成した音声認識結果を出力装置400へと出力する。
【0038】
出力装置400は、音声認識部160から音声認識結果を受け取る。出力装置400は、音声認識結果を所望の表示形式、或いは音声形式に変換してユーザに提示する。
【0039】
図3は、
図1の音声認識装置の動作を例示するフローチャートである。
図3のフローチャートは、ステップST110からステップST130までの環境適応処理と、ステップST140からステップST160までの音声認識処理とに分けられている。尚、環境適応処理と音声認識処理とは一連の流れで行われなくてもよい。具体的には、環境適応処理の完了と共に一旦処理を中断させ、任意のタイミングで音声認識処理を開始させてもよい。任意のタイミングとは、ユーザの指示または所定時間の経過などである。
【0040】
(ステップST110)
音声認識装置100は、センサデバイス200からセンサ情報を取得する。
【0041】
(ステップST120)
センサ情報を取得した後、環境情報生成部110は、センサ情報に基づいて環境情報を生成する。
【0042】
(ステップST130)
環境情報を生成した後、適応部140は、環境情報と汎用音声データとベース音響モデルとに基づいて適応済み音響モデルを生成する。以降では、ステップST130の処理を「適応済み音響モデル生成処理」と称する。適応済み音響モデル生成処理の具体例について
図4のフローチャートを用いて説明する。
【0043】
図4は、
図3のフローチャートの適応済み音響モデル生成処理を例示するフローチャートである。
図4のフローチャートは、ステップST120から遷移する。
【0044】
(ステップST131)
環境情報を生成した後、疑似インパルス応答生成部141は、環境情報に基づいて疑似インパルス応答を生成する。以下、疑似インパルス応答の生成について、環境情報がインパルス応答を含む場合と、環境情報が集音環境における空間の広さの情報を含む場合とに分けて、詳細に説明する。
【0045】
環境情報がインパルス応答を含む場合、疑似インパルス応答生成部141は、このインパルス応答をそのまま疑似インパルス応答としてもよい。しかし、このインパルス応答が、センサデバイス200としてのマイクロフォンにより取得された音響データに基づくインパルス応答である場合、集音デバイス300で取得される入力音声データに基づくインパルス応答とは必ずしも対応しないことが考えられる。また、このインパルス応答が、集音デバイス300で取得された入力音声データに基づくインパルス応答であったとしても、音声を発する話者の向き、および話者の位置(音声の発生源)に僅かでも変動があると、インパルス応答も異なる値となる。よって、上記事情に対応するために、疑似インパルス応答生成部141は、インパルス応答に対して、微小な変動を加えた複数の疑似インパルス応答を作成することが望ましい。次に、インパルス応答から複数の疑似インパルス応答を生成する方法について
図5、6を用いて説明する。
【0046】
図5は、第1の実施形態における疑似インパルス応答の生成方法を説明する図である。
図5には、3つのインパルス応答の波形11から13までが例示されている。波形11は、例えば、環境情報として実際に得られたものである。波形11は、例えば、時間幅Tを有する。波形12は、波形11を時間方向に拡大したものである。波形13は、波形11を時間方向に縮小したものである。波形11から13までは、それぞれ通常波形、拡大波形、および縮小波形と呼ばれてもよい。
【0047】
疑似インパルス応答生成部141は、インパルス応答の波形11に対して、時間方向を拡大または縮小することによって、拡大波形または縮小波形を生成する。具体的には、疑似インパルス応答生成部141は、波形11の有する時間幅Tを時間方向に(1+R)倍することによって、時間幅T(1+R)を有する波形12を生成する。また、疑似インパルス応答生成部141は、波形11の有する時間幅Tを時間方向に(1-R)倍することによって、時間幅T(1-R)を有する波形13を生成する。このとき、Rは、例えば、「ゼロ」から「1」までの間のランダムな実数値である。また、Rは、「0.01」程度が望ましい。
【0048】
図6は、第1の実施形態における疑似インパルス応答の別の生成方法を説明する図である。
図6には、2つのインパルス応答の波形14および15が例示されている。波形14は、例えば、環境情報として実際に得られたものである。波形15は、波形14のピーク値を変更したものである。
【0049】
疑似インパルス応答生成部141は、インパルス応答の波形14に対して、ピーク値の変更をすることによって、ピーク値変更波形を生成する。具体的には、疑似インパルス応答生成部141は、波形14の時間t1におけるピーク値の振幅aを(1-m)倍することによって、振幅a(1-m)に変更する。また、疑似インパルス応答生成部141は、波形14の時間t2におけるピーク値の振幅bを(1+n)倍することによって、振幅b(1+n)に変更する。このとき、mおよびnは、例えば、「ゼロ」から「1」までの間のランダムな実数値である。また、nおよびmは、「0.01」程度が望ましい。
【0050】
次に、環境情報が集音環境における空間の広さの情報を含む場合に、空間の広さの情報と空間の残響時間とに基づいて、複数の疑似インパルス応答を生成する方法について説明する。まず、空間の広さの情報から、この空間内のランダムな位置に音声源とマイクロフォンとを配置する状況を仮想的に考える。疑似インパルス応答生成部141は、例えば参考文献2の手法により、予め入力音声データから残響時間を算出し、仮想的に配置した音声源とマイクロフォンとの位置から、参考文献1の手法により疑似インパルス応答を生成する。そして、音声源とマイクロフォンとの配置をそれぞれ様々に変化させることによって、疑似インパルス応答生成部141は、様々な種類の複数の疑似インパルス応答を生成することができる。
【0051】
(ステップST132)
疑似インパルス応答を生成した後、疑似入力音声データ生成部142は、汎用音声データと疑似インパルス応答とに基づいて疑似入力音声データを生成する。
【0052】
例えば、M個の汎用音声データ(複数の汎用音声データ)と、N個の疑似インパルス応答(複数の疑似インパルス応答)とが用意されている場合、最大でM×N個の疑似入力音声データ(複数の疑似入力音声データ)を生成することができる。このとき、複数の疑似入力音声データは、次の式(2)で表すことができる。
【0053】
xm,n(t)=sm,n(t)*hm,n(t) (1≦m≦M,1≦n≦N) (2)
【0054】
式(2)において、tは時間のインデックス、sm,n(t)は汎用音声データ、hm,n(t)は疑似インパルス応答、*は畳みこみ演算、xm,n(t)は疑似入力音声データを示す。よって、疑似入力音声データ生成部142は、複数の汎用音声データと複数の疑似インパルス応答とを各々の組み合わせで畳み込み演算することにより複数の疑似入力音声データを生成することができる。尚、演算対象となる汎用音声データと疑似インパルス応答とが、予め対応付けされていてもよい。
【0055】
(ステップST133)
疑似入力音声データを生成した後、適応学習部143は、疑似入力音声データをベース音響モデルに適応することによって適応済み音響モデルを生成する。ステップST133の後、処理は
図3のステップST140へと進む。
【0056】
(ステップST140)
音声認識装置100は、集音デバイス300から入力音声データを取得する。
【0057】
(ステップST150)
入力音声データを取得した後、音声認識部160は、入力音声データおよび適応済み音響モデルに基づいて音声認識結果を生成する。具体的には、音声認識部160は、適応済み音響モデルを用いて入力音声データに音声認識処理を行うことによって音声認識結果を生成する。
【0058】
(ステップST160)
音声認識結果を生成した後、音声認識装置100は、音声認識結果を出力装置400へと出力する。ステップST160の後、処理は終了する。
【0059】
尚、
図3のフローチャートにおいて、ST130(或いは、ステップST133)とステップST140との間に、任意のタイミングを判定するためのステップが設けられてもよい。
【0060】
以上説明したように、第1の実施形態に係る音声認識装置は、センサ情報に基づいて、センサ情報を取得した環境に関する環境情報を生成し、環境情報および汎用音声データに基づいて、ベース音響モデルを上記環境に適応させた適応済み音響モデルを生成し、上記環境下での音声を入力音声データとして取得し、適応済み音響モデルを用いて入力音声データに音声認識処理を行う。
【0061】
従って、第1の実施形態に係る音声認識装置は、認識対象となる音声データの集音環境で収録された音声データが少なくても、集音環境に適応した音響モデルを用いた音声認識が可能になる。よって、第1の実施形態に係る音声認識装置は、集音環境における音声認識性能を向上させることができる。
【0062】
(第2の実施形態)
第1の実施形態に係る音声認識装置は、環境適応処理の後、音声認識処理を実行していた。即ち、環境適応処理と音声認識処理とは別々に行われていた。他方、第2の実施形態に係る音声認識装置は、環境適応処理と音声認識処理とを共に実行する。
【0063】
具体的には、第2の実施形態に係る音声認識装置は、環境適応処理が完了するまでは、音声認識処理においてベース音響モデルを用いて音声認識を行い、環境適応処理が完了した後、音声認識処理において適応済み音響モデルを用いて音声認識を行う。このとき、第2の実施形態に係る音声認識装置は、環境適応処理の完了を判定するために、例えば、環境適応処理の実行に関する時間経過を用いる。
【0064】
図7は、第2の実施形態に係る音声認識装置を含む音声認識システムの構成を例示するブロック図である。音声認識システム1Aは、音声認識装置100Aと、センサデバイス200と、集音デバイス300と、出力装置400とを備える。
【0065】
音声認識装置100Aは、環境情報生成部110と、汎用音声データ記憶部120と、ベース音響モデル記憶部130Aと、適応部140と、適応済み音響モデル記憶部150と、音声認識部160Aとを備える。
【0066】
ベース音響モデル記憶部130Aは、ベース音響モデルを記憶している。ベース音響モデル記憶部130Aは、ベース音響モデルを適応部140および音声認識部160Aへと出力する。
【0067】
音声認識部160Aは、集音デバイス300から入力音声データを受け取り、ベース音響モデル記憶部130Aからベース音響モデルを受け取り、適応済み音響モデル記憶部150から適応済み音響モデルを受け取る。音声認識部160Aは、適応済み音響モデルの生成に関する所定の基準を満たさない場合、ベース音響モデルを用いて入力音声データに音声認識処理を行うことによって音声認識結果を生成する。音声認識部160Aは、適応済み音響モデルの生成に関する所定の基準を満たす場合、適応済み音響モデルを用いて入力音声データに音声認識処理を行うことによって音声認識結果を生成する。適応済み音響モデルの生成に関する所定の基準は、例えば、ベース音響モデルを集音環境に適応させるためにかかる時間である。音声認識部160Aは、生成した音声認識結果を出力装置400へと出力する。
【0068】
図8は、第2の実施形態に係る音声認識装置の音声認識部の構成を例示するブロック図である。第2の実施形態に係る音声認識装置は、音声認識部160の代わりに音声認識部160Aを備える。音声認識部160Aは、時間計測部161Aと、選択部162Aと、認識部163Aとを備える。
【0069】
時間計測部161Aは、集音デバイス300から入力音声データを入力する。時間計測部161Aは、入力音声データの入力が開始されてからの時間を計測する。時間計測を開始してから所定時間が経過した後、時間計測部161Aは、完了トリガを選択部162Aへと出力する。所定時間は、例えば、ベース音響モデルを集音環境に適応させるためにかかる時間であり、任意に設定されてよい。尚、時間計測部161Aは、無声時の時間を考慮し、実際に発声されている入力音声データが入力されている間の時間を計測してもよい。このことは、環境適応処理で用いられるセンサ情報が入力音声データに基づく場合に好適である。
【0070】
選択部162Aは、ベース音響モデル記憶部130Aからベース音響モデルを受け取り、適応済み音響モデル記憶部150から適応済み音響モデルを受け取り、時間計測部161Aから完了トリガを受け取る。選択部162Aは、完了トリガに基づいて所定時間が経過したか否かを判定し、ベース音響モデルまたは適応済み音響モデルを選択する。具体的には、選択部162Aは、完了トリガを受け取る前はベース音響モデルを選択し、完了トリガを受け取った後は適応済み音響モデルを選択する。選択部162Aは、ベース音響モデルまたは適応済み音響モデルを認識部163Aへと出力する。
【0071】
認識部163Aは、集音デバイス300から入力音声データを受け取り、選択部162Aからベース音響モデルまたは適応済み音響モデルを受け取る。認識部163Aは、ベース音響モデルまたは適応済み音響モデルを用いて入力音声データに音声認識処理を行うことによって音声認識結果を生成する。認識部163Aは、生成した音声認識結果を出力装置400へと出力する。尚、認識部163Aは、生成した音声認識結果と音響モデルに関する情報とを対応付けてもよい。音響モデルに関する情報は、例えば、生成した音声認識結果がベース音響モデルまたは適応済み音響モデルのどちらかに基づくものであるかを示す。
【0072】
図9は、第2の実施形態に係る音声認識装置の動作例を説明する図である。第2の実施形態に係る音声認識装置100Aは、例えば、開始時間において環境適応処理と音声認識処理とを共に開始する。所定時間が経過するまでは、音声認識装置100Aは、ベース音響モデルを用いて入力音声データに音声認識処理を行うことによって、ベース音響モデルを使用した音声認識結果を生成し、環境適応処理によりベース音響モデルのパラメータを学習し続ける。所定時間が経過した後、音声認識装置100Aは、ベース音響モデルのパラメータを学習した適応済み音響モデルを生成し、適応済み音響モデルを用いて入力音声データに音声認識処理を行うことによって、適応済み音響モデルを使用した音声認識結果を生成する。
【0073】
図10は、第2の実施形態における音声認識処理の動作を例示するフローチャートである。
図10のフローチャートは、例えば、
図3のフローチャートの環境適応処理(ステップST110からステップST130まで)と共に行われる。
【0074】
(ステップST210)
音声認識装置100Aは、集音デバイス300から入力音声データを取得する
(ステップST220)
入力音声データを取得した後、時間計測部161Aは、入力音声データの入力が開始されてからの時間を計測する。時間計測部161Aは、時間計測を開始してから所定時間が経過した後、完了トリガを出力する。
【0075】
(ステップST230)
選択部162Aは、所定の時間が経過したか否かを判定する。具体的には、選択部162Aは、完了トリガを受け取ることによって所定の時間が経過したと判定する。他方、選択部162Aは、完了トリガを受け取る前は、所定の時間が経過していないと判定する。所定の時間が経過したと判定された場合、処理はステップST240へと進む。所定の時間が経過していないと判定された場合、処理はステップST250へと進む。
【0076】
(ステップST240)
所定の時間が経過したと判定された後、認識部163Aは、入力音声データおよび適応済み音響モデルに基づいて音声認識結果を生成する。具体的には、認識部163Aは、適応済み音響モデルを用いて入力音声データに音声認識処理を行うことによって音声認識結果を生成する。
【0077】
(ステップST250)
所定の時間が経過していないと判定された後、認識部163Aは、入力音声データおよびベース音響モデルに基づいて音声認識結果を生成する。具体的には、認識部163Aは、ベース音響モデルを用いて入力音声データに音声認識処理を行うことによって音声認識結果を生成する。
【0078】
(ステップST260)
音声認識結果を生成した後、音声認識装置100Aは、音声認識結果を出力装置400へと出力する。ステップST260の後、処理は終了する。
【0079】
以上説明したように、第2の実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置と同様に、センサ情報に基づいて、センサ情報を取得した環境に関する環境情報を生成し、環境情報および汎用音声データに基づいて、ベース音響モデルを上記環境に適応させた適応済み音響モデルを生成し、上記環境下での音声を入力音声データとして取得し、適応済み音響モデルを用いて入力音声データに音声認識処理を行う。
【0080】
また、第2の実施形態に係る音声認識装置は、適応済み音響モデルの生成に関する所定の基準を満たさない場合、ベース音響モデルを用いて入力音声データに音声認識処理を行い、適応済み音響モデルの生成に関する所定の基準を満たす場合、適応済み音響モデルを用いて入力音声データに音声認識処理を行う。上記所定の基準は、ベース音響モデルを上記環境に適応させるためにかかる時間である。
【0081】
従って、第2の実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置と同様の効果が見込める。また、第2の実施形態に係る音声認識装置は、環境適応処理と音声認識処理とを共に実行するため、環境適応処理を実行している間においても音声認識を行うことができる。
【0082】
(第3の実施形態)
第2の実施形態に係る音声認識装置は、環境適応処理の完了を判定するために、環境適応処理の実行に関する時間経過を用いていた。他方、第3の実施形態に係る音声認識装置は、環境適応処理の完了を判定するために、音声認識処理における音声認識の信頼度を用いる。
【0083】
図11は、第3の実施形態に係る音声認識装置の音声認識部の構成を例示するブロック図である。第3の実施形態に係る音声認識装置は、第2の実施形態に係る音声認識部160Aの代わりに音声認識部160Bを備える。音声認識部160Bは、第1の認識部161Bと、第1の信頼度計算部162Bと、第2の認識部163Bと、第2の信頼度計算部164Bと、信頼度比較部165B、選択部166Bとを備える。
【0084】
音声認識部160Bは、集音デバイス300から入力音声データを受け取り、ベース音響モデル記憶部130Aからベース音響モデルを受け取り、適応済み音響モデル記憶部150から適応済み音響モデルを受け取る。音声認識部160Bは、ベース音響モデルを用いて入力音声データに音声認識処理を行うことによって第1の音声認識結果を生成し、適応済み音響モデルを用いて入力音声データに音声認識処理を行うことによって第2の音声認識結果を生成する。音声認識部160Bは、第1の音声認識結果または第2の音声認識結果を出力装置400へと出力する。
【0085】
第1の認識部161Bは、集音デバイス300から入力音声データを受け取り、ベース音響モデル記憶部130Aからベース音響モデルを受け取る。第1の認識部161Bは、ベース音響モデルを用いて入力音声データに音声認識処理を行うことによって第1の音声認識結果を生成する。第1の認識部161Bは、生成した第1の音声認識結果を、第1の信頼度計算部162Bおよび選択部166Bへと出力する。尚、第1の認識部161Bは、生成した音声認識結果と音響モデルに関する情報とを対応付けてもよい。
【0086】
第1の信頼度計算部162Bは、第1の認識部161Bから第1の音声認識結果を受け取る。第1の信頼度計算部162Bは、第1の音声認識結果に基づいて第1の信頼度を計算する。信頼度の計算には、例えば、音節モデルまたは競合音素モデルとの比較、N-Bestおよびワードグラフから得られた認識結果候補の事後確率を比較する手法などの一般的に知られている手法を用いることができる。第1の信頼度計算部162Bは、第1の信頼度を信頼度比較部165Bへと出力する。
【0087】
第2の認識部163Bは、集音デバイス300から入力音声データを受け取り、適応済み音響モデル記憶部150から適応済み音響モデルを受け取る。第2の認識部163Bは、適応済み音響モデルを用いて入力音声データに音声認識処理を行うことによって第2の音声認識結果を生成する。第2の認識部163Bは、生成した第2の音声認識結果を、第2の信頼度計算部164Bおよび選択部166Bへと出力する。尚、第2の認識部163Bは、生成した音声認識結果と音響モデルに関する情報とを対応付けてもよい。
【0088】
第2の信頼度計算部164Bは、第2の認識部163Bから第2の音声認識結果を受け取る。第2の信頼度計算部164Bは、第2の音声認識結果に基づいて第2の信頼度を計算する。第2の信頼度計算部164Bは、第2の信頼度を信頼度比較部165Bへと出力する。
【0089】
信頼度比較部165Bは、第1の信頼度計算部162Bから第1の信頼度を受け取り、第2の信頼度計算部164Bから第2の信頼度を受け取る。信頼度比較部165Bは、第1の信頼度と第2の信頼度とを比較することによって、選択信号を生成する。選択信号は、例えば、第1の音声認識結果または第2の音声認識結果のどちらかを出力するかに関する情報を含む。具体的には、信頼度比較部165Bは、第1の信頼度と第2の信頼度とのうち、信頼度が高い方に対応する音声認識結果を選択する情報を含む選択信号を生成する。信頼度比較部165Bは、生成した選択信号を選択部166Bへと出力する。尚、選択信号の生成は上記に限らない。例えば、信頼度比較部165Bは、一方の信頼度と他方の信頼度との比率に基づいて、所定の比率を満たした場合の信頼度が高い方に対応する音声認識結果を選択する選択信号を生成してもよい。この場合、例えば、所定の比率を満たすまでは、信頼度比較部165Bは、ベース音響モデルによる第1の音声認識結果を選択する情報を含む選択信号を生成してもよい。
【0090】
選択部166Bは、第1の認識部161Bから第1の音声認識結果を受け取り、第2の認識部163Bから第2の音声認識結果を受け取り、信頼度比較部165Bから選択信号を受け取る。選択部166Bは、選択信号に基づいて第1の音声認識結果または第2の音声認識結果を選択する。選択部166Bは、第1の音声認識結果または第2の音声認識結果を出力装置400へと出力する。尚、選択部166Bは、選択した音声認識結果と音響モデルに関する情報とを対応付けてもよい。
【0091】
図12は、第3の実施形態における音声認識処理を例示するフローチャートである。
図12のフローチャートは、例えば、
図3のフローチャートの環境適応処理(ステップST110からステップST130まで)と共に行われる。
【0092】
(ステップST310)
音声認識装置100Aは、集音デバイス300から入力音声データを取得する。
【0093】
(ステップST320)
入力音声データを取得した後、音声認識部160Bは、ベース音響モデルを用いて入力音声データに音声認識処理を行うことによって第1の音声認識結果を生成し、適応済み音響モデルを用いて入力音声データに音声認識処理を行うことによって第2の音声認識結果を生成し、第1の音声認識結果または第2の音声認識結果のいずれかを選択する。以降では、ステップST320の処理を「音響モデル選択処理」と称する。音響モデル選択処理の具体例について
図13のフローチャートを用いて説明する。
【0094】
図13は、
図12のフローチャートの音響モデル選択処理を例示するフローチャートである。
【0095】
(ステップST321)
入力音声データを取得した後、第1の認識部161Bは、入力音声データおよびベース音響モデルに基づいて第1の音声認識結果を生成する。具体的には、第1の認識部161Bは、ベース音響モデルを用いて入力音声データに音声認識処理を行うことによって第1の音声認識結果を生成する。
【0096】
(ステップST322)
第1の音声認識結果を生成した後、第1の信頼度計算部162Bは、第1の音声認識結果に基づいて第1の信頼度を計算する。
【0097】
(ステップST323)
第1の信頼度を計算した後、第2の認識部163Bは、入力音声データおよび適応済み音響モデルに基づいて第2の音声認識結果を生成する。具体的には、第2の認識部163Bは、適応済み音響モデルを用いて入力音声データに音声認識処理を行うことによって第2の音声認識結果を生成する。
【0098】
(ステップST324)
第2の音声認識結果を生成した後、第2の信頼度計算部164Bは、第2の音声認識結果に基づいて第2の信頼度を計算する。
【0099】
(ステップST325)
第2の信頼度を計算した後、信頼度比較部165Bは、第1の信頼度と第2の信頼度とを比較する。具体的には、信頼度比較部165Bは、第1の信頼度が第2の信頼度未満の場合、第2の音声認識結果を選択する情報を含む選択信号を生成する。他方、信頼度比較部165Bは、第1の信頼度が第2の信頼度未満でない場合、第1の音声認識結果を選択する情報を含む選択信号を生成する。第1の信頼度が第2の信頼度未満であると判定された場合、処理はステップST326へと進む。第1の信頼度が第2の信頼度未満でないと判定された場合、処理はステップST327へと進む。
【0100】
(ステップST326)
第1の信頼度が第2の信頼度未満であると判定された後、選択部166Bは、第2の音声認識結果を選択する情報を含む選択信号に基づいて、第2の音声認識結果を選択する。ステップST326の後、処理は
図12のステップST330へと進む。
【0101】
(ステップST327)
第1の信頼度が第2の信頼度未満でないと判定された後、選択部166Bは、第1の音声認識結果を選択する情報を含む選択信号に基づいて、第1の音声認識結果を選択する。ステップST327の後、処理は
図12のステップST330へと進む。
【0102】
(ステップST330)
第1の音声認識結果または第2の音声認識結果が選択された後、音声認識装置100Aは、第1の音声認識結果または第2の音声認識結果を出力装置400へと出力する。
【0103】
なお、ステップST323およびST324は、ステップST321およびST322と並列して行われてもよい。この場合、ステップST310からはステップST321およびステップST323に遷移し、ステップST322からはステップST325に遷移することとなる。
【0104】
以上説明したように、第3の実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置と同様に、センサ情報に基づいて、センサ情報を取得した環境に関する環境情報を生成し、環境情報および汎用音声データに基づいて、ベース音響モデルを上記環境に適応させた適応済み音響モデルを生成し、上記環境下での音声を入力音声データとして取得し、適応済み音響モデルを用いて入力音声データに音声認識処理を行う。
【0105】
また、第3の実施形態に係る音声認識装置は、ベース音響モデルを用いて入力音声データに音声認識処理を行うことによって第1の音声認識結果を生成し、第1の音声認識結果に基づいて第1の信頼度を計算し、適応済み音響モデルを用いて入力音声データに音声認識処理を行うことによって第2の音声認識結果を生成し、第2の音声認識結果に基づいて第2の信頼度を計算し、第1の信頼度と第2の信頼度とを比較し、信頼度が高い方の音声認識結果を出力する。
【0106】
従って、第3の実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置および第2の実施形態に係る音声認識装置と同様の効果が見込める。また、第3の実施形態に係る音声認識装置は、音声認識結果の信頼度を計算することにより、環境適応処理を実行する時間を最適化することができる。
【0107】
(音声認識装置の使用例)
図14は、第1の実施形態から第3の実施形態までに係る音声認識装置の使用例を示す図である。
図14は、講演会の会場Hを上方から見た様子を例示する。例えば、会場Hにおいて、講演台上に設置されたマイク310に対して話者Pが発話することを想定する。話者Pの発話は、マイク310を通して、入力音声データとして音声認識装置100(或いは、音声認識装置100A)へと出力される。また、話者Pの発話は、会場Hに配置されたスピーカSPを通して会場H内に放送される。これにより、入力音声データには、スピーカSPからの間接音や会場H内での反射音が残響として含まれることとなる。
【0108】
会場Hに配置されたセンサデバイス(
図14では例えば、マイク310とする)は、会場Hの環境についてのセンサ情報SI(音響データ)を取得し、音声認識装置100へと出力する。音声認識装置100は、マイク310から取得されたセンサ情報SIを用いて環境情報(インパルス応答)を生成する。音声認識装置100は、環境情報を用いて環境適応処理を行う。音声認識装置100は、環境適応処理により上記残響の影響を低減させた適応済み音声認識モデルを生成する。音声認識装置100は、生成した適応済み音声認識モデルを用いて入力音声データから音声認識結果を生成する。音声認識装置100は、音声認識結果を例えば字幕としてディスプレイ410へと出力する。
【0109】
(第4の実施形態)
第4の実施形態は、第1の実施形態から第3の実施形態までのいずれかに係る音声認識装置のスマートスピーカへの適用について説明する。
【0110】
図15は、第4の実施形態に係るスマートスピーカの構成を例示するブロック図である。スマートスピーカ500は、音声認識装置100(或いは、音声認識装置100A)と、LiDAR210と、マイク320と、スピーカ420とを備える。
【0111】
図16は、
図15のスマートスピーカの外観を例示する図である。スマートスピーカ500は、例えば縦型の円筒形の外観を有する。スマートスピーカ500の側面外周の少なくとも一部には、LiDAR210による出射光および反射光を透過させる窓が設けられる。スマートスピーカ500の上面には、マイク320としての第1のマイク320-1および第2のマイク320-2と、スピーカ420とが設けられる。尚、音声認識装置100は、スマートスピーカ500に内蔵されているため
図16には図示されていない。
【0112】
LiDAR210は、室内の環境についてのセンサ情報を取得し、音声認識装置100へと出力する。第1のマイク320-1は、入力音声データを取得する。第2のマイク320-2は、センサ情報(音響データ)を取得する。尚、第1のマイク320-1および第2のマイク320-2は、兼用されてもよい。また、センサ情報としての音響データは必ずしも取得されなくてよい。
【0113】
音声認識装置100は、第2のマイク320-2から取得されたセンサ情報およびLiDAR210から取得されたセンサ情報(点群データ)を用いて環境情報(インパルス応答および空間の広さ)を生成する。音声認識装置100は、環境情報を用いて環境適応処理を行う。音声認識装置100は、環境適応処理により適応済み音声認識モデルを生成し、入力音声データから音声認識結果を生成する。
【0114】
図17は、
図15のスマートスピーカの使用例を示す図である。
図17は、室内PCの隅にスマートスピーカ500が置いてある様子を例示する。例えば、室内PCにおいて、話者Pがスマートスピーカ500に対して発話することを想定する。スマートスピーカ500が起動されると、スマートスピーカ500に内蔵された音声認識装置100は、音声認識処理を開始すると共に、環境適応処理を開始する。環境適応処理では、音声認識装置100は、LiDAR210によって室内PCの平面の点群データをセンサ情報として取得する。具体的には、LiDAR210は、室内PCの右の壁、奥の壁、左の壁、床、および天井の点群データをセンサ情報S1からS5までとして取得する。説明の便宜上、手前の壁は省略する。音声認識装置100は、センサ情報S1からS5を用いて空間の大きさの情報を生成する。以降の処理は上述のため説明を省略する。
【0115】
以上説明したように、第4の実施形態に係る音声認識装置は、第1の実施形態から第3の実施形態に係る音声認識装置と同様の効果が見込める。
【0116】
図18は、一実施形態に係るコンピュータのハードウェア構成を例示するブロック図である。コンピュータ600は、ハードウェアとして、CPU(Central Processing Unit)610、RAM(Random Access Memory)620、プログラムメモリ630、補助記憶装置640、入出力インタフェース650を備える。CPU610は、バス660を介して、RAM620、プログラムメモリ630、補助記憶装置640、および入出力インタフェース650と通信する。
【0117】
CPU610は、汎用プロセッサの一例である。RAM620は、ワーキングメモリとしてCPU610に使用される。RAM620は、SDRAM(Synchronous Dynamic Random Access Memory)などの揮発性メモリを含む。プログラムメモリ630は、環境適応処理プログラムおよび音声認識処理プログラムを含む種々のプログラムを記憶する。プログラムメモリ630として、例えば、ROM(Read-Only Memory)、補助記憶装置640の一部、またはその組み合わせが使用される。補助記憶装置640は、データを非一時的に記憶する。補助記憶装置640は、HDDまたはSSDなどの不揮発性メモリを含む。
【0118】
入出力インタフェース650は、他のデバイスと接続するためのインタフェースである。入出力インタフェース650は、例えば、
図1および
図7に示されるセンサデバイス200、集音デバイス300、および出力装置400との接続、
図14に示されるマイク310およびディスプレイ410との接続、ならびに
図15のLiDAR210、マイク320(
図16のマイク310-1および310-2)、およびスピーカ420との接続に使用される。
【0119】
プログラムメモリ630に記憶されている各プログラムはコンピュータ実行可能命令を含む。プログラム(コンピュータ実行可能命令)は、CPU610により実行されると、CPU610に所定の処理を実行させる。例えば、作業推定プログラムは、CPU610により実行されると、CPU610に
図1、2、7、8、および11の各部に関して説明された一連の処理を実行させる。
【0120】
プログラムは、コンピュータで読み取り可能な記憶媒体に記憶された状態でコンピュータ600に提供されてよい。この場合、例えば、コンピュータ600は、記憶媒体からデータを読み出すドライブ(図示せず)をさらに備え、記憶媒体からプログラムを取得する。記憶媒体の例は、磁気ディスク、光ディスク(CD-ROM、CD-R、DVD-ROM、DVD-Rなど)、光磁気ディスク(MOなど)、半導体メモリを含む。また、プログラムを通信ネットワーク上のサーバに格納し、コンピュータ600が入出力インタフェース650を使用してサーバからプログラムをダウンロードするようにしてもよい。
【0121】
実施形態において説明される処理は、CPU610などの汎用ハードウェアプロセッサがプログラムを実行することにより行われることに限らず、ASIC(Application Specific Integrated Circuit)などの専用ハードウェアプロセッサにより行われてもよい。処理回路(処理部)という語は、少なくとも1つの汎用ハードウェアプロセッサ、少なくとも1つの専用ハードウェアプロセッサ、または少なくとも1つの汎用ハードウェアプロセッサと少なくとも1つの専用ハードウェアプロセッサとの組み合わせを含む。
図18に示す例では、CPU610、RAM620、およびプログラムメモリ630が処理回路に相当する。
【0122】
よって、以上の各実施形態によれば、音声認識性能を向上することができる。
【0123】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0124】
1,1A…音声認識システム、11,12,13,14,15…波形、100,100A…音声認識装置、110…環境情報生成部、120…汎用音声データ記憶部、130,130A…ベース音響モデル記憶部、140…適応部、141…疑似インパルス応答生成部、142…疑似入力音声データ生成部、143…適応学習部、150…音響モデル記憶部、160,160A,160B…音声認識部、161A…時間計測部、161B…第1の認識部、162A…選択部、162B…第1の信頼度計算部、163A…認識部、163B…第2の認識部、164B…第2の信頼度計算部、165B…信頼度比較部、166B…選択部、200…センサデバイス、210…LiDAR、300…集音デバイス、310,310-1,310-2,320…マイク、320-1…第1のマイク、320-2…第2のマイク、400…出力装置、410…ディスプレイ、420,SP…スピーカ、500…スマートスピーカ、600…コンピュータ、610…CPU、620…RAM、630…プログラムメモリ、640…補助記憶装置、650…入出力インタフェース、660…バス、H…会場、P…話者、PC…室内、S1,S2,S3,S4,S5,SI…センサ情報、SP…スピーカ、T,T(1+R),T(1-R)…時間幅、t1,t2…時間。