(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-08
(45)【発行日】2022-11-16
(54)【発明の名称】音声認識装置及び音声認識方法
(51)【国際特許分類】
G10L 25/51 20130101AFI20221109BHJP
G10L 15/00 20130101ALI20221109BHJP
G10L 15/28 20130101ALI20221109BHJP
G10L 15/22 20060101ALI20221109BHJP
【FI】
G10L25/51
G10L15/00 200J
G10L15/28 500
G10L15/22 300Z
(21)【出願番号】P 2018086720
(22)【出願日】2018-04-27
【審査請求日】2021-02-10
(73)【特許権者】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(74)【代理人】
【識別番号】110000486
【氏名又は名称】弁理士法人とこしえ特許事務所
(72)【発明者】
【氏名】寺口 剛仁
(72)【発明者】
【氏名】井上 裕史
(72)【発明者】
【氏名】西山 乘
(72)【発明者】
【氏名】大久保 翔太
(72)【発明者】
【氏名】志小田 雄宇
【審査官】大野 弘
(56)【参考文献】
【文献】特開2003-308079(JP,A)
【文献】特開2015-004928(JP,A)
【文献】特開2005-323139(JP,A)
【文献】国際公開第2014/141574(WO,A1)
【文献】特開2016-042293(JP,A)
【文献】杉山 貴昭,多人数対話ロボットのためのユーザの挙動を利用した応答義務の推定,第75回 言語・音声理解と対話処理研究会資料,日本,一般社団法人人工知能学会,2015年10月26日,pp7-14
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/51
G10L 15/00
G10L 15/28
G10L 15/22
(57)【特許請求の範囲】
【請求項1】
車両の乗員の発話データを入力する音声入力部と、
前記音声入力部に入力された発話データから
ピッチ周波数の時間的な変化を抽出するとともに、前記
ピッチ周波数の時間的な変化に基づいて、前記音声入力部に入力された発話データの発話対象が、対話装置であるか否かを解析する音声解析部と、
前記音声解析部により、入力された発話データの発話対象が前記対話装置であると解析された場合に限り、前記発話データに対する応答データを生成し、当該応答データを出力する出力制御部と、を備える音声認識装置。
【請求項2】
前記音声解析部は、前記
ピッチ周波数の時間的な変化に基づいて、前記音声入力部に入力された発話データの発話対象が、対話装置、発話者以外の乗員、又はこれら以外の孤立発話のいずれであるかを解析する請求項1に記載の音声認識装置。
【請求項3】
前記出力制御部は、前記音声解析部により、入力された発話データの発話対象が、前記発話者以外の乗員及び前記孤立発話であると解析された場合には、前記応答データを出力しない請求項2に記載の音声認識装置。
【請求項4】
前記音声解析部は、前記発話データに含まれる発話の時間的間隔が所定値より大きい場合には、前記対話装置に対する発話ではなく、孤立発話であると解析する請求項
1~3のいずれか一項に記載の音声認識装置。
【請求項5】
前記音声解析部は、前記発話データに含まれる発話の速度が所定値より遅い場合には、前記発話対象は前記対話装置であると解析する請求項
1~4のいずれか一項に記載の音声認識装置。
【請求項6】
前記音声解析部は、前記ピッチ周波数の
時間的な変化が所定の範囲内である場合には、前記発話対象は前記対話装置であると解析する請求項
1~5のいずれか一項に記載の音声認識装置。
【請求項7】
前記音声解析部は、第1の乗員による発話データが入力されてから所定時間内に、第2の乗員による発話データが入力された場合には、発話者以外の乗員に対する発話であると解析する請求項
1~6のいずれか一項に記載の音声認識装置。
【請求項8】
前記車両の乗員を検出する乗員検出部をさらに備え、
前記音声解析部は、複数の乗員が検出された場合に、一の乗員による発話データが検出されてから所定時間内に、他の乗員による発話データが入力された場合には、発話対象は発話者以外の乗員であると解析する請求項
1~6のいずれか一項に記載の音声認識装置。
【請求項9】
前記車両の乗員が電話機を使用しているか否かを検出する通話検出部をさらに備え、
前記音声解析部は、前記乗員が前記電話機を使用している場合に、一の乗員による発話データが検出されてから所定時間内に、他の乗員による発話データが入力された場合には、発話者以外の乗員に対する発話であると解析する請求項
1~6のいずれか一項に記載の音声認識装置。
【請求項10】
前記音声解析部は、前記音声入力部に入力された発話データの音量が所定値より大きい場合には、前記発話対象は前記対話装置であると解析する請求項
8又は9に記載の音声認識装置。
【請求項11】
複数の車両の、各音声入力部に入力された発話データと、各音声解析部により解析された発話対象との関係データを蓄積するデータベースをさらに備え、
前記
ピッチ周波数の時間的な変化は、前記関係データを機械学習モデルにより解析された特性を用いる請求項1~10のいずれか一項に記載の音声認識装置。
【請求項12】
プログラムにより動作するコンピュータを用いて音声を認識する方法であって、
前記コンピュータは、
車両の乗員の発話データを入力し、
前記入力された発話データから
ピッチ周波数の時間的な変化を抽出するとともに、前記
ピッチ周波数の時間的な変化に基づいて、前記入力された発話データの発話対象が、対話装置であるか否かを解析し、
前記入力された発話データの発話対象が前記対話装置であると解析された場合に限り、前記発話データに対する応答データを生成し、当該応答データを出力する音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置及び音声認識方法に関するものである。
【背景技術】
【0002】
ユーザが発話した発話フレーズを音声認識する音声認識装置として、ユーザの発話内容が動詞の命令形または体言止めの場合のみ、機械に向けての発言と判断する音声認識装置が知られている(特許文献1)。これにより、ユーザ同士の会話や独り言が、機械に向けた発言であると誤認識されるのを防止できるとされている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、乗員同士の会話の中にも、命令形または体言止めを用いることは少なくない。たとえば、「そういえば...」→「何?」→「この近くにコンビニはあるかなぁ?」→「近くのコンビニ?」といった場合の最後の発話は体言止めであり、「ちょっとお願い」→「何?」→「エアコンの温度を上げて」といった場合の最後の発話は命令形であるから、こうした乗員同士の会話がされると、機械に向けての発話であると誤認識してしまうという問題があった。
【0005】
本発明が解決しようとする課題は、対話装置などの機械に対する発話をそれ以外の発話から精度良く識別できる音声認識装置及び音声認識方法を提供することである。
【課題を解決するための手段】
【0006】
本発明は、音声入力部に入力された発話データからピッチ周波数の時間的な変化を抽出し、当該ピッチ周波数の時間的な変化に基づいて、入力された発話データの発話対象が対話装置であるか否かを解析し、対話装置に対する発話であると解析された場合に限り、発話データに対する応答データを生成し、当該応答データを出力することによって上記課題を解決する。
【発明の効果】
【0007】
本発明によれば、ピッチ周波数の時間的な変化に基づいて、入力された発話データの発話対象が対話装置であるか否かを解析するので、対話装置などの機械に対する発話をそれ以外の発話から精度良く識別することができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の音声認識装置の一実施の形態を示すブロック図である。
【
図2】
図1の音声解析部の構成例を示すブロック図である。
【
図3】
図2のピッチ周波数解析部で実行される処理例を示すフローチャートである。
【
図4】
図2の音声認識部及び第1記憶部で実行される処理例を示すフローチャートである。
【
図5】
図2の音声認識部、発話文章解析部及び第2記憶部で実行される処理例を示すフローチャートである。
【
図6】
図1の音声認識装置で実行される学習時の制御手順を示すフローチャートである。
【
図7】
図1の音声認識装置で実行される音声認識時の制御手順を示すフローチャートである。
【
図8】発話対象と、識別パラメータ及び解析条件との関係例を示す図である。
【
図9】
図1の音声認識装置の動作モード、その概要、動作モードの移行のトリガ条件の一例を示す図である。
【
図10】
図9に示す音声認識モードにおける移行処理の一例を示すフローチャートである。
【
図11】
図9に示す音声認識モードにおける移行処理の他例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態を図面に基づいて説明する。
図1は、本発明の音声認識装置1の一実施の形態を示すブロック図であり、本発明の音声認識方法を使用するものである。
図1において、自車両を含む車両Vの音声認識装置1と、自車両V1の音声認識装置1とを上下に並べて記載しているが、上図の自車両を含む車両Vの音声認識装置1は、後述する学習時に実行される制御を説明するために便宜的に示したブロック図であり(出力制御部13及び車載データベースDBVは使用しないため図示を省略した。)、各車両は、下図の自車両V1の音声認識装置1の構成を備えるものである。したがって、各車両の音声認識装置1については、下図のブロック図を参照して説明する。
【0010】
本実施形態の音声認識装置1は、たとえば対話能力を備える機器(以下、対話装置2という)が搭載されている車両の室内で、発話のキーワードをトリガにするのではなく、音声信号特性に基づいて、乗員の発話が当該対話装置2に対する発話か否かを識別するものである。より具体的には、ピッチ周波数の変化、発話の時間的間隔、発話の速度又は音量といった、言葉ではない音声信号特性の少なくともいずれかを解析することで、入力された発話データの発話対象が、対話装置、発話者以外の乗員、又はこれら以外の孤立発話のいずれであるかを解析する。また解析精度を高めるために,自車両における発話データの解析のみならず、自車両を含めた複数の車両における発話データを解析したデータも併用して乗員の発話データの発話対象を識別する。
【0011】
このため、本実施形態の音声認識装置1は、
図1の下図に示すように、自車両V1の乗員の発話データを入力する音声入力部11と、音声入力部11に入力された発話データから所定の音声信号特性を抽出するとともに、音声信号特性に基づいて、音声入力部11に入力された発話データの発話対象が、対話装置2であるか否かを解析する音声解析部12と、音声解析部12により、入力された発話データが対話装置2であると解析された場合に限り、発話データに対する応答データを生成し、当該応答データを対話装置2へ出力する出力制御部13と、自車両V1の乗員を検出する乗員検出部14と、自車両V1の乗員が電話機を使用しているか否かを検出する通話検出部15と、車載データベースDBVと、を備える。
【0012】
音声入力部11は、たとえば一又は複数のマイクロフォンなどを用いることができ、車室内の乗員の声が入力し易い位置に設置される。運転席であればステアリングコラムカバー上面やインストルメントパネル、助手席であればインストルメントパネル、後部座席であればコンソールボックスの後部や前部座席の背面などの適宜箇所に一又は複数のマイクロフォンを設置すればよい。上述したとおり、本実施形態の音声認識装置1では、入力された発話データが、発話者以外の乗員に対する発話であることも識別するため、複数の乗員からの発話データを入力し易くすることで識別精度を高めてもよい。
【0013】
音声解析部12は、音声入力部11に入力された発話データから所定の音声信号特性を抽出するとともに、音声信号特性に基づいて、音声入力部11に入力された発話データの発話対象が、対話装置2であるか否か、本実施形態では、入力された発話データの発話対象が、対話装置2か、発話者以外の乗員か、又はこれら以外の孤立発話のいずれであるかを解析する。ここでいう孤立発話とは、「暑いなぁ」、「眠いなぁ」といった発話者の独り言を意味する。また、孤立発話は、自分以外の人間や機械に対して返答を求めない発話を意味するということもできる。また、所定の音声信号特性は、ピッチ周波数の変化、発話の時間的間隔、発話の速度、又は音量の少なくともいずれかであり、特にキーワードなどの発話の言語を含まない趣旨である。これらピッチ周波数の変化、発話の時間的間隔、発話の速度、又は音量といった音声信号特性は、物理的又は電気的測定器により計測して解析することができるものでもある。
【0014】
図2は音声解析部12の構成例を示すブロック図である。図示する構成例では、ピッチ周波数解析部121と、音声認識部122と、発話文章解析部123と、第1記憶部124と、第2記憶部125と、第3記憶部126と、第4記憶部127と、を備える。なお、第1記憶部124と、第2記憶部125と、第3記憶部126と、第4記憶部127は、各機能を説明するために便宜的に別の記憶部として記載しているが、その幾つか又は全部をまとめた記憶部にしてもよい。
【0015】
ピッチ周波数解析部121は、音声入力部11に入力された発話データの音声信号のピッチ周波数を時間の経過に応じて計測し、そのピッチ周波数の時間的な変化を演算する。音声信号のピッチ周波数は、声の高さを示す信号特性であって、声帯の振動周期で決まり、声帯の振動周期が短いとピッチ周波数は大きくなり、振動周期が長いとピッチ周波数は小さくなる。そして、本実施形態のピッチ周波数解析部121は、ピッチ周波数の絶対値ではなく、ピッチ周波数の時間的な変化が所定の範囲内であるか否かを判定する。
【0016】
人間の発話は、他の人間に対する発話や、独り言のような孤立発話の場合は、感情移入する(すなわち抑揚をつける)ためにピッチ周波数の時間的な変化が大きくなるのに対し、対話装置2のような機械に対する発話は、抑揚をつけずに発話することが多い傾向がある。本実施形態のピッチ周波数解析部121は、この傾向を利用する。
図3は、ピッチ周波数解析部121で実行される処理例を示すフローチャートである。すなわち、ステップS31にて音声入力部11に入力された乗員の発話データのピッチ周波数を時間の経過に応じて計測し、ステップS32にて、ピッチ周波数の時間的な変化が所定の範囲内である(すなわち平坦である)場合には、ステップS33へ進み、対話装置2に対する発話であるとの解析データを出力制御部13に出力する。これに対して、ステップS32にて、ピッチ周波数の時間的な変化が所定の範囲内でない場合には、ステップS34へ進み、対話装置2に対する発話ではなく、他の乗員に対する発話か孤立発話であるとの解析データを出力する。この対話装置2に対する発話ではなく、他の乗員に対する発話か孤立発話であるとの解析データは、出力制御部13には出力せず、後述する学習時にデータセンタ3のホストデータベースDBHへ出力する。
【0017】
図2に戻り、音声認識部122は、音声入力部11に入力された信号が発話データか否か、すなわち人間の発話であるのか、それ以外の単なる音であるのかを認識する。そして、第1記憶部124を用いて、発話データであると判定した場合には発話データの時間的間隔を計測し、発話データの時間的間隔が所定値より大きいか否かにより、孤立発話であるか否かを判定する。独り言のような孤立発話は、連続して発話することはごく稀であるのに対し、他の乗員との会話データである場合には、時間的間隔が短い傾向がある。本実施形態の音声認識部122及び第1記憶部124は、この傾向を利用して孤立発話であるか否かを判定する。
【0018】
図4は、音声認識部122及び第1記憶部124で実行される処理例を示すフローチャートである。すなわち、ステップS41にて音声入力部11に入力された音声信号が人間の発話データであるか否かを認識し、人間の発話データである場合のみステップS42へ進んで第1記憶部124に発話時刻を記録する。次いでステップS43では、前回の発話時刻(初回の発話の場合は次のルーチンにて当該判定を実行する)との時間的間隔を算出し、ステップS44にて前回の発話時刻と今回の発話時刻との時間的間隔が所定値以上であるか否かを判定する。そして、前回の発話時刻と今回の発話時刻との時間的間隔が所定値以上である場合は、ステップS45へ進み、孤立発話である解析データを出力する。これに対して、前回の発話時刻と今回の発話時刻との時間的間隔が所定値以上でない場合は、ステップS46へ進み、孤立発話ではない解析データを出力する。これらの解析データは、対話装置2に対する発話ではないので出力制御部13には出力せず、後述する学習時にデータセンタ3のホストデータベースDBHへ出力する。
【0019】
図2に戻り、発話文章解析部123は、音声認識部122にて人間の発話であると判定された発話データを入力し、第2記憶部125を用いて、当該発話データに含まれる文章を解析することで、他の乗員との対話であるか否かを判定する。特に、ピッチ周波数解析部121によりピッチ周波数の時間的変化が所定の範囲内ではなく(平坦ではなく抑揚がある)場合に、発話の文章を解析することで他の乗員との対話であるのか、対話装置2に対する発話であるのかを判定する。これにより、ピッチ周波数解析部121で漏れた対話装置2に対する発話を拾うことができる。
【0020】
図5は、音声認識部122、発話文章解析部123及び第2記憶部125で実行される処理例を示すフローチャートである。すなわち、ステップS51にて音声認識部122にて人間の発話であると判定された発話データを入力し、ステップS52にて、当該発話データに含まれる文章データを解析して第2記憶部125に記録する。ステップS53では、第2記憶部125に前回の解析結果の記録があるか否かを判定し、記録されていない場合はステップS57へ進んで第2記憶部125に発話文章データの解析結果を記録してステップS51へ戻る。第2記憶部125に前回の解析結果が記録されている場合はステップS54へ進み、他の乗員(すなわち同乗者)が応答しているか否かを発話文章データの解析結果に基づいて判定する。この判定は、発話文章データの内容が対話になっているか否か、たとえば前回の発話データに対して今回の発話データがその応答内容になっているか否かを判定する。
【0021】
今回の発話データの内容が前回の発話データに対する応答であると判定した場合はステップS55へ進み、他の乗員に対する発話データであるとの解析データを出力する。この解析データは、対話装置2に対する発話ではないので出力制御部13には出力せず、後述する学習時にデータセンタ3のホストデータベースDBHへ出力する。これに対して、今回の発話データの内容が前回の発話データに対する応答ではないと判定した場合、すなわち2つの発話文章データが対話になっていないと判定した場合はステップS56へ進み、対話装置2に対する発話データであるとの解析データを出力制御部13へ出力する。ステップS58では、第2記憶部125から発話文章データの記録を削除する。
【0022】
図1及び
図2に戻り、本実施形態の音声認識装置1は、自車両V1の乗員を検出する乗員検出部14を備える。乗員検出部14としては、車室内を撮像するカメラや着座センサなどを用いることができる。乗員検出部14にて検出された乗員の数と着座位置は音声解析部12の第3記憶部126に記録される。また本実施形態の音声認識装置1は、自車両V1の乗員が電話機を使用しているか否かを検出する通話検出部15を備える。通話検出部15としては、車室内を撮像するカメラにより乗員が電話機を把持しているか否かを画像処理により判定したり、車載された電話通信用アプリケーションが作動しているか否かにより判定したりする。通話検出部15により検出された電話機の使用状況は第4記憶部127に記録される。これら乗員検出部14及び通話検出部15は、音声入力部11に入力された発話データが対話装置2に対するものか、他の乗員又は通話相手に対するものか、孤立発話であるのかを、より精度良く識別する場合に用いられる。
【0023】
《機器の操作の学習制御》
本実施形態の音声認識装置1は、当該音声認識装置1を搭載した自車両を含む複数の車両Vを用いて、対話装置2に対する発話データ、他の乗員(電話相手を含む)に対する発話データ、孤立発話データの解析結果をデータセンタ3のホストデータベースDBHに蓄積し、複数の車両の、各音声入力部11に入力された発話データと、各音声解析部12により解析された発話データの発話対象との関係を機械学習モデルにより解析する。そして、自車両V1は、データセンタ3のホストデータベースDBHから自車両V1の車載データベースDBVへ、ホストデータベースDBHに蓄積された学習データをダウンロードして定期的に更新する。
【0024】
図6は、本実施形態の音声認識装置1で実行される学習時の制御手順を示すフローチャートである。この学習時には、自車両V1が備える出力制御部13及び車載データベースDBVは使用しないので、
図1の上図と
図6を参照して学習制御手順を説明する。
【0025】
ステップS61では、音声入力部11により車室内の音声を取得し、ステップS62にて発話が開始されたか否かを判定する。発話が開始されていない場合はステップS61へ戻り発話が開始されるまでこれを繰り返す。ステップS62にて発話が開始されたと判定した場合には、ステップS63へ進み、上述した
図3~
図5に示す音声解析部12による音声解析を実行する。次いで、ステップS64にて、音声解析部12により解析された発話データの解析データと発話対象のデータをデータセンタ3のホストデータベースDBHへ送信し、ステップS65及びS66にてホストデータベースDBHへ蓄積し、機械学習モデルにより解析する。
【0026】
ステップS64にてホストデータベースDBHへ送信される発話データの解析データと発話対象のデータは、たとえば
図3に示すサブルーチンにより得られた、音声解析部12のピッチ周波数解析部121で解析されたピッチ周波数の時間的変化の値と発話対象(対話装置2に対する発話であるか否か)との関係のほか、
図4に示すサブルーチンにより得られた発話データの時間的間隔と発話対象(孤立発話であるか否か)や、
図5に示すサブルーチンにより得られた発話文章データに戻づく応答存否と発話対象(他の乗員に対する発話か対話装置2に対する発話か)が含まれる。またこれ以外にも、発話の速度や発話の音量と発話対象との関係を含めてもよい。対話装置2に対する発話では、他の乗員に対する発話や孤立発話に比べて、ゆっくり及び/又ははっきりと発話するのが一般的であるから、発話の速度が所定値より遅い場合や発話の音量が所定値より大きい場合には、対話装置2に対する発話であると解析してもよい。
【0027】
図8は、発話対象と、識別パラメータ及び解析条件との関係例を示す図である。音声解析部12における解析を、対話装置2に対する発話なのか、発話者以外の乗員(通話相手を含む)に対する発話なのか、又はこれら以外の孤立発話のいずれであるかを解析するものとした場合、対話装置2に対する発話データでは、上述したピッチ周波数の時間的な変化のほか、同乗者の有無を解析パラメータとすることができる。そして、同乗者がいない場合には、対話装置2に対する発話か、孤立発話のいずれかであるから、ピッチ周波数の時間的な変化に加えて同乗者の有無を乗員検出部14により検出し、これにより解析精度を高めるようにしてもよい。
【0028】
また、孤立発話では、
図4のサブルーチンに示す如く、前回の発話データと今回の発話データとの時間的間隔を解析パラメータとし、時間的間隔が長い場合には孤立発話であると解析する。さらに、同乗者や通話相手に対する発話データでは、乗員検出部14により検出される同乗者の有無、第1発話後の第2発話の会話の成立性、通話検出部15により検出される電話機の使用状況などを解析パラメータとし、同乗者がいる場合、第1発話後の第2発話の会話が成立している場合、電話機を使用している場合には、他の乗員に対する発話である可能性があるため、他の解析と共にこれらの解析パラメータを用いて解析精度を高めるようにしてもよい。
【0029】
《音声認識制御》
図7は、本実施形態の音声認識装置1で実行される音声認識時の制御手順を示すフローチャートである。この音声認識時には、自車両V1が備える出力制御部13及び車載データベースDBVも使用するので、
図1の下図と
図7を参照して制御手順を説明する。
【0030】
ステップS71では、音声入力部11により車室内の音声を取得し、ステップS72にて発話が開始されたか否かを判定する。発話が開始されていない場合はステップS71へ戻り発話が開始されるまでこれを繰り返す。ステップS72にて発話が開始されたと判定した場合には、ステップS73へ進み、上述した
図3~
図5に示す音声解析部12による音声解析を実行する。次いで、ステップS74にて、音声解析部12により解析された発話データの解析データを、車載データベースDBVに出力し、ステップS75及びS76にて車載データベースDBVに蓄積された機械学習モデルによる解析データと照合する。そして、ステップS76にて発話対象を特定し、ステップS77にて発話対象が対話装置2に対する発話データであるか否かを判定する。発話対象が対話装置2に対する発話データである場合には、ステップS78へ進み、出力制御部13により当該発話データに対する応答データを生成し、対話装置2へこれを出力する。ステップS76にて特定された発話対象が対話装置2でない場合は、ステップS78の処理を行うことなくルーチンを終了する。
【0031】
図9は、本実施形態の音声認識装置1の動作モード、その概要、動作モードの移行のトリガ条件の一例を示す図である。本実施形態の音声認識装置1は、対話装置2対して乗員の発話データ又は発話指令データを入力し、対話装置2は当該発話データ又は発話指令データに応答するものである。対話装置2は、特に限定されないが、乗員との対話のみを行う機能、乗員の発話指令データに対して車載機器(ナビゲーション装置、空調装置、マルチメディア装置、座席調整装置、ハンドル調整装置、ウィンドウ開閉装置、車内に持ち込んだ携帯端末装置)への操作を支援する機能を備えるものである。そのため、本実施形態の音声認識装置1は、音声認識モードに、待受モードと、指令受付モードと、会話モードとを備える。音声認識装置1のOFFスイッチを押した場合には、音声認識オフモードとなり音声認識は実行しないが、ONスイッチを押した場合には、待受モード、指令受付モード又は会話モードのいずれかのモードになる。
【0032】
そして、待受モードにおいては、音声認識機能がONすることにより、音声認識を行い、指示受付モード又は会話モードに移行するが、孤立発話データと判別された場合には待受モードを継続する。また、音声認識機能がONして孤立発話データではない場合に、予め設定された所定のキーワードを認識したときは指示受付モードに移行し、乗員からの具体的な指示を受け付け、上述した各種車載機器などの操作支援を実行する。また、音声認識機能がONして孤立発話データではない場合に、複数人による発話データを認識したときは、会話モードに移行し、会話を認識して、当該会話に対して所定の提案や応答会話を実行する。なお、
図1に示す実施形態では、音声認識装置1とは別に対話装置2を構成したが、対話装置2を音声認識装置1に含ませてもよい。
【0033】
図10は、
図9に示す音声認識モードにおける移行処理の一例を示すフローチャートである。まず待受モードにおいて、ステップS101にて音声入力部11が発話データを検知するとステップS102へ進み、
図3において説明したように、音声入力部11に入力された発話データのピッチ周波数を時間の経過に応じて計測し、ピッチ周波数の時間的な変化が所定の範囲内である(すなわち平坦である)場合には、ステップS103へ進み、対話装置2に対する発話であると認識して指示受付モードに移行する。そして、ステップS104にて、出力制御部13が発話内容に応じた応答データを生成し、対話装置2へ出力する。これにより、乗員の発話データ(たとえば車載機器に対する操作指令データなど)に対して対話装置2が対応する。
【0034】
ステップS102にて、音声入力部11に入力された発話データのピッチ周波数の時間的な変化が所定の範囲内でない場合(平坦ではない場合)には、ステップS105へ進み、
図4において説明したように、前回の発話時刻と今回の発話時刻との時間的間隔が所定値以上であるか否かを判定する。この時間的間隔が所定値以上に長い場合には、ステップS108へ進み、孤立発話であると認識して待受モードを継続し、ステップS101へ戻る。前回の発話時刻と今回の発話時刻との時間的間隔が所定値未満である場合には、ステップS106へ進み、他の乗員に対する発話であると認識して会話モードへ移行し、さらにステップS107にて、出力制御部13又は対話装置2は発話内容に応じた提案や応答会話を実行する。
【0035】
図11は、
図9に示す音声認識モードにおける移行処理の他例を示すフローチャートである。まず待受モードにおいて、ステップS111にて音声入力部11が発話データを検知するとステップS112へ進み、音声入力部11に入力された発話データが、車載データベースDBV(定期的にホストデータベースDBHから機械学習モデルによる解析データをダウンロードする)を用いて識別可能なものか否かを判定し、可能である場合は、上述した
図10のルーチンのステップS102へ進み、その後の処理を実行する。これに対して、音声入力部11に入力された発話データが、車載データベースDBVを用いて識別できないものである場合には、ステップS113へ進み、乗員検出部14又は通話検出部15により同乗者がいるか又は通話中であるかを判定する。
【0036】
ステップS113にて、同乗者がなく且つ通話中でもない場合はステップS114へ進み、音声入力部11に入力された発話データの音量が所定値以上か否かを判定する。そして、発話データの音量が所定値以上である場合は、対話装置2に対する発話であるとして車載データベースDBVに記録するか、出力制御部13により応答データを生成して対話装置2へ出力する。上述したとおり、対話装置2などの機器に対する発話は、はっきりと発話するのが一般的であることから、これを学習データに利用したり、対話装置2に対する発話であると判定したりする。これに対して、発話データの音量が所定値未満である場合は、孤立発話であるとして車載データベースDBVに記録するか、待受モードを継続する。
【0037】
ステップS113に戻り、同乗者がいるか又は通話中である場合にはステップS117へ進み、人物の応答があるか否かを判定し、応答がない場合はステップS114へ進むが、応答がある場合はステップS118へ進み、他の乗員又は通話であると認識して会話モードに移行する。
【0038】
以上のとおり、本実施形態の音声認識装置1及び音声認識方法によれば、音声入力部11に入力された発話データから所定の音声信号特性を抽出し、当該音声信号特性に基づいて、音声入力部11に入力された発話データの発話対象が、対話装置2か否かを解析し、入力された発話データが対話装置2に対する発話データであると解析された場合に限り、発話データに対する応答データを生成し、当該応答データを対話装置2へ出力するので、対話装置などの機械に対する発話をそれ以外の発話から精度良く識別することができる。
【0039】
また本実施形態の音声認識装置1及び音声認識方法によれば、音声信号特性に基づいて、音声入力部11に入力された発話データの発話対象が、対話装置2、発話者以外の乗員、又はこれら以外の孤立発話のいずれであるかを解析するので、対話装置2以外の発話に対しても解析することができ、音声認識装置1の待受モード、指示受付モード又は会話モードといった各種モードへの移行制御にも対応することができる。
【0040】
また本実施形態の音声認識装置1及び音声認識方法によれば、入力された発話データが、発話者以外の乗員に対する発話及び孤立発話であると解析された場合には、対話装置2へ応答データを出力しないので、対話装置2への誤った出力が防止できる。
【0041】
また本実施形態の音声認識装置1及び音声認識方法によれば、具体的には音声信号特性をピッチ周波数の変化、発話データの時間的間隔、発話の速度、又は音量の少なくともいずれかをパラメータにするので、対話装置などの機械に対する発話をそれ以外の発話から精度良く識別することができる。
【0042】
また本実施形態の音声認識装置1及び音声認識方法によれば、具体的には、発話データの時間的間隔が所定値より大きい場合には、対話装置2に対する発話ではなく孤立発話であると解析し、発話の速度が所定値より遅い場合には、対話装置2に対する発話であると解析し、ピッチ周波数の変化が所定の範囲内である場合には、対話装置2に対する発話であると解析し、第1の乗員による発話データが入力されてから所定時間内に、第2の乗員による発話データが入力された場合には、発話者以外の乗員に対する発話であると解析し、複数の乗員が乗車している場合に、一の乗員による発話データが入力されてから所定時間内に、他の乗員による発話データが入力された場合には、発話者以外の乗員に対する発話であると解析し、乗員が電話機を使用している場合に、一の乗員による発話データが入力されてから所定時間内に、他の乗員による発話データが入力された場合には、発話者以外の乗員に対する発話であると解析し、音声入力部に入力された発話データの音量が所定値より大きい場合には、前記対話装置に対する発話であると解析するので、対話装置2以外の発話に対しても精度良く識別することができる。
【0043】
また本実施形態の音声認識装置1及び音声認識方法によれば、複数の車両の、各音声入力部に入力された発話データと、各音声解析部12により解析された発話対象との関係データをデータベースDBHに蓄積し、音声信号特性は、関係データを機械学習モデルにより解析された特性を用いるので、自車両V1のみならず他車両についても、対話装置2などの機械に対する発話をそれ以外の発話から精度良く識別することができる。
【符号の説明】
【0044】
1…音声認識装置
11…音声入力部
12…音声解析部
121…ピッチ周波数解析部
122…音声認識部
123…発話文章解析部
124…第1記憶部
125…第2記憶部
126…第3記憶部
127…第4記憶部
13…出力制御部
14…乗員検出部
15…通話検出部
DBV…車載データベース
2…対話装置
3…データセンタ
DBH…ホストデータベース
V…自車両を含む車両
V1…自車両