(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-05
(45)【発行日】2024-01-16
(54)【発明の名称】マルチモーダル音声認識装置およびマルチモーダル音声認識方法
(51)【国際特許分類】
G10L 15/24 20130101AFI20240109BHJP
G10L 15/16 20060101ALI20240109BHJP
【FI】
G10L15/24 Z
G10L15/16
(21)【出願番号】P 2019129656
(22)【出願日】2019-07-11
【審査請求日】2022-07-06
(73)【特許権者】
【識別番号】000213297
【氏名又は名称】中部電力株式会社
(73)【特許権者】
【識別番号】504139662
【氏名又は名称】国立大学法人東海国立大学機構
(74)【代理人】
【識別番号】110003052
【氏名又は名称】弁理士法人勇智国際特許事務所
(74)【代理人】
【識別番号】100106725
【氏名又は名称】池田 敏行
(74)【代理人】
【識別番号】100105120
【氏名又は名称】岩田 哲幸
(72)【発明者】
【氏名】瀬川 修
(72)【発明者】
【氏名】林 知樹
(72)【発明者】
【氏名】武田 一哉
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2012-059121(JP,A)
【文献】特開2000-307916(JP,A)
【文献】特開2017-174172(JP,A)
【文献】特表2017-525002(JP,A)
【文献】国際公開第2016/163028(WO,A1)
【文献】ZHOU, Pan et al.,"MODALITY ATTENTION FOR END-TO-END AUDIO-VISUAL SPEECH RECOGNITION",Proc. of the ICASSP 2019,2019年05月12日,pp.6565-6569
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
マルチモーダル音声認識装置であって、
発話者の音声を示す音声情報を入力する音声情報入力手段と、
前記発話者が注視している注視点の周辺の注視点画像を示す注視点画像情報を入力する注視点画像情報入力手段と、
文字列情報を記憶している記憶手段と、
前記音声情報入力手段より入力された前記音声情報から、音声特徴情報を時系列に抽出する音声特徴情報抽出手段と、
前記注視点画像情報入力手段より入力された前記注視点画像情報から、注視点特徴情報を時系列に抽出する注視点特徴情報抽出手段と、
前記音声特徴情報抽出手段により抽出した前記時系列の音声特徴情報および前記注視点特徴情報抽出手段により抽出した前記時系列の注視点特徴情報に対応するテキスト情報を、前記記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する変換手段と、を備えていることを特徴とするマルチモーダル音声認識装置。
【請求項2】
請求項1に記載のマルチモーダル音声認識装置であって、
前記変換手段は、
前記音声特徴情報抽出手段により抽出した前記時系列の音声特徴情報それぞれを符号化して時系列の音声符号を出力する音声特徴情報符号化手段と、
前記音声特徴情報符号化手段から出力された前記時系列の音声符号それぞれに重みを付与して時系列の重み付き音声符号を出力する音声符号重み付け手段と、
前記注視点特徴情報抽出手段により抽出した前記時系列の注視点特徴情報それぞれを符号化して時系列の注視点符号を出力する注視点特徴情報符号化手段と、
前記注視点特徴情報符号化手段から出力された前記時系列の注視点符号それぞれに重みを付与して時系列の重み付き注視点符号を出力する注視点符号重み付け手段と、
前記音声符号重み付け手段から出力された時系列の重み付き音声符号と前記注視点符号重み付け手段から出力された前記時系列の重み付き注視点符号を統合した統合符号に対応するテキスト情報を、前記記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する復号化手段を有していることを特徴とするマルチモーダル音声認識装置。
【請求項3】
請求項2に記載のマルチモーダル音声認識装置であって、
前記音声符号重み付け手段および前記注視点符号重み付け手段としてニューラルネットワークで構成される系列変換モデルの注意機構が用いられていることを特徴とするマルチモーダル音声認識装置。
【請求項4】
請求項1~3のうちのいずれか一項に記載のマルチモーダル音声認識装置であって、
表示手段を備え、
前記注視点画像情報入力手段は、前記発話者の主観画像中における前記注視点の位置を示す注視点位置情報を入力可能であり、
前記テキスト情報を、前記注視点位置情報で示される前記発話者の注視点の位置に関連付けて前記表示手段に表示するように構成されていることを特徴とするマルチモーダル音声認識装置。
【請求項5】
請求項4に記載のマルチモーダル音声認識装置であって、
前記表示手段に表示されている前記テキスト情報が選択された場合、選択されたテキスト情報に対応する音声情報を出力するように構成されていることを特徴とするマルチモーダル音声認識装置。
【請求項6】
マルチモーダル音声認識方法であって、
発話者の音声を示す音声情報から、音声特徴情報を時系列に抽出する第1ステップと、
前記発話者が注視している注視点の周辺の注視点画像を示す注視点画像情報から、注視点特徴情報を時系列に抽出する第2ステップと、
前記抽出した時系列の音声特徴情報および前記抽出した時系列の注視点特徴情報に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する第3ステップと、を備えていることを特徴とするマルチモーダル音声認識方法。
【請求項7】
請求項6に記載のマルチモーダル音声認識方法であって、
前記第3ステップは、
前記抽出した時系列の音声特徴情報それぞれを符号化して時系列の音声符号を出力する第4ステップと、
前記時系列の音声符号それぞれに重みを付与して時系列の重み付き音声符号を出力する第5ステップと、
前記時系列の注視点特徴情報それぞれを符号化して時系列の注視点符号を出力する第6ステップと、
前記時系列の注視点符号それぞれに重みを付与して時系列の重み付き注視点符号を出力する第7ステップと、
前記時系列の重み付き音声符号と前記時系列の重み付き注視点符号を統合した統合符号に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する第8ステップと、を有していることを特徴とするマルチモーダル音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声と音声発声時における注視点画像を用いて音声を認識するマルチモーダル音声認識技術に関する。
【背景技術】
【0002】
センシング技術の発展に伴って、種々の信号を同時に取得することが可能となっている。このような背景のもと、音声認識の技術分野において、音声認識性能を向上させるために、音声と音声以外の情報を用いて音声を認識するマルチモーダル音声認識技術が提案されている。
例えば、音声と、音声発声時における口の動きを示す口唇画像を用いる音声認識技術が非特許文献1に開示されている。
また、ディープラーニング(ニューラルネットワークの深層学習)に基づくエンドツーエンド(End-to-End)音声認識技術が非特許文献2に開示されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】「口唇の深度画像を用いたマルチモーダル音声認識」,押尾翔平他2名,情報処理学会研究報告,Vol.2014-SLP-102-No.2,2014/7/24
【文献】「音声認識技術の変遷と最先端」,河原達也,日本音響学会誌,第74巻第7号(2018),pp.381-386
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献1には、口唇画像を併用することで音声認識性能が向上することは開示されているが、口唇以外の情報を用いることについては開示されてない。
非特許文献2に開示されている、ディープラーニングに基づくエンドツーエンド(End-to-End)音声認識技術は、音声から取得する特徴量系列(特徴ベクトル)を文字列に直接マッピングする系列変換モデル(Encoder-Decoder)を基本としている。近年、系列変換モデルに注意機構(Attention)を組み合わせ、特徴ベクトルに重みを付与することで、音声認識性能の向上を図る試みがなされている。しかしながら、非特許文献2には、マルチモーダル音声認識に、注意機構を組み合わることは開示されてない。
本発明者は、音声認識性能を向上させる技術について種々検討した結果、音声を発声しながら作業を行う際には、音声と注視点が相互に関連していること、すなわち、音声と注視点の相互関係を推定することによって、音声認識性能を向上させることができることが判明した。
本発明は、このような点に鑑みて創案されたものであり、音声と注視点の周辺の注視点画像を用いて音声を認識することによって音声認識性能を向上させたマルチモーダル音声認識技術を提供することを目的とする。
【課題を解決するための手段】
【0005】
第1発明は、マルチモーダル音声認識装置に関する。
第1発明は、音声情報入力手段、音声特徴情報抽出手段、注視点画像情報入力手段、注視点特徴情報抽出手段、記憶手段および変換手段を有している。
音声情報入力手段は、発話者の音声を示す音声情報を入力する。音声情報入力手段としては、音声情報を入力可能な種々の音声情報入力手段を用いることができる。好適には、音声を電気信号に変換するマイクを含む音声情報入力手段が用いられる。なお、音声情報が予め記憶されている記憶媒体を含む音声情報入力手段を用いることもできる。
音声特徴情報抽出手段は、音声情報入力手段より入力された音声情報から、音声特徴情報を時系列に抽出する。音声特徴情報抽出手段としては、好適には、畳み込み層とプーリング層を有する畳み込みニューラルネットワーク(CNN)が用いられる。
注視点画像情報入力手段は、発話者が音声発声時に注視している注視点の周辺の注視点画像を示す注視点画像情報を入力する。注視点画像情報入力手段としては、注視点画像を入力可能な種々の注視点画像情報入力手段を用いることができる。好適には、視線計測装置を含む注視点画像情報入力手段が用いられる。なお、好適には、装置内蔵のカメラで撮像される主観画像中における注視点の位置を示す注視点位置情報を出力可能な視線計測装置が用いられる。
注視点特徴情報抽出手段は、注視点画像情報入力手段より入力された注視点画像情報から、注視点特徴情報を時系列に抽出する。好適には、注視点画像情報は、音声特徴情報と同期して抽出される。注視点特徴情報抽出手段としては、音声特徴情報手出手段と同様に、多層ニューラルネットワーク(CNN)が用いられる。
記憶手段には、文字列情報が記憶されている。文字列情報には、文書等のテキスト情報を形成するひらがな、カタカナ、数字、常用漢字等が含まれる。
変換手段は、音声特徴情報抽出手段により抽出した時系列の音声特徴情報および注視点特徴情報抽出手段により抽出した時系列の注視点特徴情報に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する。好適には、テキスト情報は、表示手段等の出力手段から出力される。
時系列の音声特徴情報および時系列の注視点特徴情報に対応するテキスト情報を形成する方法としては、適宜の方法を用いることができる。
音声特徴情報抽出手段、注視点特徴情報抽出手段および変換手段は、1つのコンピューターによって構成することもできる、個別のコンピューターによって構成することもできる。また、遠方に配置し、インターネット等の通信回線を介して接続可能に構成することもできる。
第1発明は、時系列の音声特徴情報と時系列の注視点画像情報を用いて音声を認識しているため、音声認識性能を向上させることができる。
第1発明の異なる形態では、変換手段は、音声特徴情報符号化手段、音声符号重み付け手段、注視点特徴情報符号化手段、注視点符号重み付け手段および復号化手段を有している。
音声特徴情報符号化手段は、音声特徴情報抽出手段により抽出した時系列の音声特徴情報を符号化して時系列の音声符号を出力する。音声特徴情報符号化手段としては、好適には、再帰型ニューラルネットワーク(RNN: recurrent Neutral network)が用いられる。例えば、再帰型ニューラルネットワーク(RNN)の一形態である双方向長期短期記憶(BLSTM: Bi-directional Long Short Term Memory)が用いられる。
音声符号重み付け手段は、音声特徴情報符号化手段から出力された時系列の音声符号に重みを付与して時系列の重み付き音声符号を出力する。音声符号重み付け手段としては、時系列の音声符号に適切に重みを付与することができる種々の構成の音声符号重み付け手段を用いることができる。
注視点特徴情報符号化手段は、注視点特徴情報抽出手段により抽出した時系列の注視点特徴情報を符号化して時系列の注視点符号を出力する。注視点特徴情報符号化手段としては、音声特徴情報符号化手段と同様に、再帰型ニューラルネットワーク(RNN)の一形態である双方向長期短期記憶(BLSTM)等が用いられる。
注視点符号重み付け手段は、注視点特徴情報符号化手段から出力された時系列の注視点符号に重みを付与して時系列の重み付き注視点符号を出力する。注視点符号重み付け手段としては、時系列の注視点符号に適切に重みを付与することができる種々の構成の注視点符号重み付け手段を用いることができる。
復号化手段は、音声符号重み付け手段から出力された時系列の重み付き音声符号と注視点符号重み付け手段から出力された時系列の重み付き注視点符号を統合した統合符号(重み付き統合符号)に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する。
復号化手段としては、好適には、再帰型ニューラルネットワーク(RNN)が用いられる。例えば、再帰型ニューラルネットワーク(RNN)の一形態である長期短期記憶(LSTM)が用いられる。
音声特徴情報符号化手段、音声符号重み付け手段、注視点特徴情報符号化手段、注視点符号重み付け手段および復号化手段は、1つのコンピューターによって構成することもできる。また、個別のコンピューターによって構成することもできる。また、遠方に配置し、インターネット等の通信回線を介して接続可能に構成することもできる。
本形態では、音声情報と注視点画像情報との相関関係を正確に推定することができる。
第1発明の異なる形態では、音声符号重み付け手段および注視点符号重み付け手段としてニューラルネットワークで構成される系列変換モデルの注意機構(Attention)が用いられている。
本形態では、時系列の音声符号および時系列の注視点符号に適切な重みを付与することができ、音声認識性能を確実に向上させることができる。
第1発明の異なる形態では、注視点画像情報入力手段は、発話者の主観画像(注視点画像情報入力手段の撮像領域)中における注視点の位置を示す注視点位置情報を入力可能である。そして、テキスト情報を、注視点位置情報で示される発話者の注視点の位置に関連付けて表示手段に表示するように構成されている。例えば、表示手段に表示されている、注視点画像情報入力手段で撮像した主観画像中の、注視点の位置の近傍にテキスト情報を表示する。
本形態では、テキスト情報が、注視点の位置と関連付けて表示される表示手段に表示されるため、発話者が発声した音声および発話者の注視点を容易に確認することができる。
第1発明の異なる形態では、表示手段に表示されているテキスト情報が選択された場合、選択されたテキスト情報に対応する音声情報(テキスト情報を認識する際に入力された音声情報)を出力するように構成されている。
本形態では、発話者が発声した音声を容易に確認することができる。
第2発明は、マルチモーダル音声認識方法に関する。
本発明は、第1~第3ステップを有している。
第1ステップでは、発話者の音声を示す音声情報から、音声特徴情報を時系列に抽出する。第1ステップの処理は、例えば、第1発明の音声特徴情報抽出手段によって実行される。
第2ステップでは、発話者が注視している注視点の周辺の注視点画像を示す注視点画像情報から、注視点特徴情報を時系列に抽出する。第2ステップの処理は、例えば、第1発明の注視点特徴情報抽出手段によって実行される。
第3ステップでは、抽出した時系列の音声特徴情報および抽出した時系列の注視点特徴情報に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する。第3ステップの処理は、例えば、第1発明の変換手段によって実行される。好適には、テキスト情報は、表示手段等の出力手段から出力される。
第2発明は、第1発明と同様の効果を有する。
第2発明の異なる形態では、第3ステップは、第4~第8ステップを有している。
第4ステップでは、抽出した時系列の音声特徴情報を符号化して時系列の音声符号を出力する。第4ステップの処理は、例えば、第1発明の音声特徴情報符号化手段によって実行される。
第5ステップでは、時系列の音声符号に重みを付与して時系列の重み付き音声符号を出力する。第5ステップの処理は、例えば、第1発明の音声符号重み付け手段によって実行される。
第6ステップでは、時系列の注視点特徴情報を符号化して時系列の注視点符号を出力する。第6ステップの処理は、例えば、第1発明の注視点特徴情報符号化手段によって実行される。
第7ステップでは、時系列の注視点符号に重みを付与して時系列の重み付き注視点符号を出力する。第7ステップの処理は、例えば、第1発明の注視点符号重み付け手段によって実行される。
第8ステップでは、時系列の重み付き音声符号と時系列の重み付き注視点符号を統合した統合符号(重み付き統合符号)に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する。第8ステップの処理は、例えば、第1発明の復号化手段によって実行される。
好適には、第5ステップの音声符号重み付け処理および第7ステップの注視点符号重み付け処理は、ニューラルネットワークで構成される系列変換モデルの注意機構によって実行される。
本形態は、第1発明と同様の効果を有する。
【発明の効果】
【0006】
本発明のマルチモーダル音声認識装置およびマルチモーダル音声認識方法は、音声と注視点の周辺の注視点画像を用いて音声を認識することにより、音声認識性能を向上させることができる。
【図面の簡単な説明】
【0007】
【
図1】本発明のマルチモーダル音声認識装置の一実施形態のブロック図である。
【
図2】一実施形態のマルチモーダル音声認識装置の音声特徴量抽出手段の作用を説明する図である。
【
図3】一実施形態のマルチモーダル音声認識装置の音声特徴量符号化手段の作用を説明する図である。
【
図4】一実施形態のマルチモーダル音声認識装置の音声符号重み付け手段の作用を説明する図である。
【
図5】一実施形態のマルチモーダル音声認識装置の注視点画像特徴量抽出手段の作用を説明する図である。
【
図6】一実施形態のマルチモーダル音声認識装置の注視点画像特徴量符号化手段の作用を説明する図である。
【
図7】一実施形態のマルチモーダル音声認識装置の注視点符号重み付け手段の作用を説明する図である。
【
図8】一実施形態のマルチモーダル音声認識装置の復号化手段の作用を説明する図である。
【
図9】一実施形態のマルチモーダル音声認識装置の構成を説明する図である。
【
図10】一実施形態のマルチモーダル音声認識装置の音声符号重み付け手段の動作を説明する図である。
【
図11】一実施形態のマルチモーダル音声認識装置の注視点符号重み付け手段の動作を説明する図である。
【発明を実施するための形態】
【0008】
以下に、本発明の実施形態を、図面を参照して説明する。
本発明のマルチモーダル音声認識装置の一実施形態のブロック図が、
図1に示されている。
本実施形態のマルチモーダル音声認識装置は、ディープラーニングに基づくエンドツーエンド(End-to-End)音声認識の枠組みを用いている。そして、複数の注意機構(Attention)を有する系列変換モデルを用いて、発話者の音声を示す音声情報と音声を発声している発話者の注視点の周辺の注視点画像を統合し、両者の相関関係に基づいて、音声情報を、文字列情報により形成されるテキスト情報に変換している。
【0009】
本実施形態のマルチモーダル音声認識装置は、処理手段10、音声情報入力手段30、注視点画像情報入力手段40、記憶手段50および表示手段60等を有している。
【0010】
音声情報入力手段30は、発話者が発声した音声を示す音声情報を入力する。音声情報は、音声波形であってもよいしスペクトラム(周波数情報)であってもよい。好適には、音声情報入力手段30は、マイクとA-D変換手段により構成される。勿論、音声情報入力手段30としては、音声情報を入力可能な種々の音声情報入力手段を用いることができる。
注視点画像情報入力手段は、発話者が音声を発声しながら注視している注視点の周辺の注視点画像を示す注視点画像情報を入力する。注視点画像情報入力手段としては、例えば、発話者が装着可能な視線計測装置を用いることができる。注視点の周辺の注視点画像は、視線計測装置で撮像した主観画像中の、注視点の周辺(例えば、注視点を中心とする所定のピクセルサイズの矩形領域)の画像を用いることができる。この場合、好適には、視線計測装置で撮像した主観画像中から注視点の周辺の画像情報を抽出する画像情報抽出手段が設けられる。
なお、好適には、発話者に装着された視線計測装置で撮影した主観画像中における発話者の注視点の位置を示す注視点位置情報を出力可能な視線計測装置が用いられる。
視線計測装置で撮影した主観画像中における注視点の位置が、本発明の「発話者の注視点の位置」に対応する。
記憶手段50には、文字列情報が記憶されている。文字列情報には、文書等のテキスト情報を形成するひらがな、カタカナ、数字、常用漢字等が含まれる。
表示手段60は、音声認識結果等を表示する際に用いられる。
【0011】
処理手段10は、変換手段20、音声特徴量抽出手段110、注視点画像特徴量抽出手段140を有している。
音声特徴量抽出手段110は、
図2に示されているように、音声情報入力手段30から入力された音声情報から、時系列に音声特徴量(音声特徴量ベクトル)X1~Xnを抽出する。なお、音声情報の音声区間(意味的な単語や文単位と推定される区間)は、前後に無音区間が含まれていることにより判別することができる。音声特徴量抽出手段110は、音声特徴量系列(音声特徴量ベクトル系列){X1,X2,・・・,Xn}を出力する。
本実施形態では、音声特徴量抽出手段110として、畳み込み層とプーリング層を有する畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)が用いられている。
音声特徴量抽出手段110が、本発明の「音声特徴情報抽出手段」に対応し、音声特徴量系列(音声特徴量ベクトル系列){X1,X2,・・・,Xn}が、本発明の「時系列の音声特徴情報」に対応する。
【0012】
注視点画像特徴量抽出手段140は、
図5に示されているように、注視点画像情報入力手段40より入力された注視点画像情報から、時系列に注視点画像特徴量(注視点画像特徴量ベクトル)Y1~Ymを抽出する。注視点画像特徴量抽出手段140による時系列の注視点画像情報の抽出処理は、音声特徴量抽出手段110による時系列の音声特徴情報の抽出処理と同期して行われる。なお、発話者による音声の発声と注視動作がずれる場合もあるが、変換手段20の処理により対応関係が推定されるため完全に同期していなくてもよい。注視点画像特徴量抽出手段140は、注視点画像特徴量系列(注視点画像特徴量ベクトル系列){Y1,Y2,・・・,Ym}を出力する。
本実施形態では、注視点画像特徴量抽出手段140として、音声特徴量抽出手段110と同様に、畳み込みニューラルネットワーク(CNN)が用いられている。
注視点画像特徴量抽出手段140が、本発明の「注視点特徴情報抽出手段」に対応し、注視点画像特徴量系列(注視点画像特徴量ベクトル系列){Y1,Y2,・・・,Ym}が、本発明の「時系列の注視点特徴情報」に対応する。
【0013】
変換手段20は、音声特徴量系列{X1,X2,・・・,Xn}(時系列の音声特徴量)および注視点画像特徴量系列{Y1,Y2,・・・,Ym}(時系列の注視点画像特徴量)に基づいて、記憶手段50に記憶されている文字列の中から選択した文字列を用いて、音声認識結果であるテキスト情報を形成する。
本実施形態では、変換手段20は、音声特徴量符号化手段120、音声符号重み付け手段130、注視点画像特徴量符号化手段150、注視点符号重み付け手段160、統合手段170および復号化手段180を有している。
【0014】
音声特徴量符号化手段120は、
図3に示されているように、音声特徴量抽出手段110により抽出された時系列の音声特徴量X1~Xn(音声特徴量系列{X1,X2,・・・,Xn})を符号化して時系列の音声符号(音声符号ベクトル)h1~hnを出力する。すなわち、音声特徴量符号化手段120は、音声符号系列(音声符号ベクトル系列){h1,h2,・・・,hn}を出力する。
本実施形態では、音声特徴量符号化手段120として、
図9に示されているように、再帰型ニューラルネットワーク(RNN)の一形態である双方向長期短期記憶(BLSTM)が用いられている。
音声特徴量符号化手段120が、本発明の「音声特徴情報符号化手段」に対応し、音声符号系列(音声符号ベクトル系列){h1,h2,・・・,hn}が、本発明の「時系列の音声符号」に対応する。
【0015】
音声符号重み付け手段130は、音声特徴量符号化手段120から出力された時系列の音声符号h1~hn(音声符号系列{h1,h2,・・・,hn})に重みを付与して時系列の重み付き音声符号(重み付き音声符号ベクトル)(a1*h1)~(an*hn)を出力する。すなわち、音声符号重み付け手段130は、重み付き音声符号系列(重み付き音声符号ベクトル系列){a1*h1,a2*h2,・・・,an*hn}を出力する。なお、重みa1~anは、重みa1~anの総和が「1」となるように設定される。
本実施形態では、音声符号重み付け手段130として、再帰型ニューラルネットワーク(RNN)の一形態である双方向長期短期記憶(BLSTM)が用いられている。
音声符号重み付け手段130の動作は、後述する。
【0016】
注視点画像特徴量符号化手段150は、
図6に示されているように、注視点画像特徴量抽出手段140により抽出された時系列の注視点画像特徴量Y1~Ym(注視点画像特徴量系列{Y1,Y2,・・・,Ym})を符号化して時系列の注視点符号(注視点符号ベクトル)s1~smを出力する。すなわち、注視点画像特徴量符号化手段150は、注視点符号系列(注視点符号ベクトル系列){s1,s2,・・・,sm}を出力する。
本実施形態では、注視点画像特徴量符号化手段150として、再帰型ニューラルネットワーク(RNN)の一形態である双方向長期短期記憶(BLSTM)が用いられている。
注視点画像特徴量符号化手段150が、本発明の「注視点特徴情報符号化手段」に対応し、注視点符号系列(注視点符号ベクトル系列){s1,s2,・・・,sm}が、本発明の「時系列の注視点符号」に対応する。
【0017】
注視点符号重み付け手段160は、注視点画像特徴量符号化手段から出力された時系列の注視点符号s1~smに重みを付与して時系列の重み付き注視点符号(重み付き注視点符号ベクトル)(b1*s1)~(bm*sm)を出力する。すなわち、注視点符号重み付け手段160は、重み付き注視点符号系列(重み付き注視点符号ベクトル系列){b1*s1,b2*s2,・・・,bm*sm}を出力する。なお、重みb1~bmは、重みb1~bmの総和が「1」となるように設定される。
本実施形態では、注視点符号重み付け手段160として、ニューラルネットワークで構成される系列変換モデルの注意機構(Attention)が用いられている。
注視点符号重み付け手段160の動作は、後述する。
【0018】
統合手段170は、音声符号重み付け手段130から出力される時系列の重み付き音声符号(a1*h1)~(an*hn)(重み付き音声符号系列{a1*h1,a2*h2,・・・,an*hn})と注視点符号重み付け手段160から出力される重み付き注視点符号(b1*s1)~(bm*sm)(重み付き注視点符号系列{b1*s1,b2*s2,・・・,bm*sm})を統合して時系列の統合重み付き符号(a1*h1+b1*s1)~(an*hn+bm+sm)(重み付き符号系列{a1*h1+b1*s1,a2*h2+b2*s2,・・・,an*hn+bm*sm})を出力する。
【0019】
復号化手段は、
図9に示されているように、統合手段170から出力された時系列の統合重み付き符号(a1*h1+b1*s1)~(an*hn+bm+sm)(重み付き符号系列{a1*h1+b1*s1,a2*h2+b2*s2,・・・,an*hn+bm*sm})に対応するテキスト情報を、記憶手段50に記憶されている文字列情報の中から選択した文字列情報C1~Ciにより形成する。
文字列情報C1~Ciを選択する方法としては、例えば、各時刻において各LSTMの隠れ層から出力される符号を、Softmax関数により当該文字列の出力スコア(確率値)に換算する。そして、出力スコアが高い文字列を選択する方法が用いられる。
復号化手段180で複合されたテキスト情報(音声認識結果)は、表示手段60に表示される。
本実施形態では、復号化手段180として、再帰型ニューラルネットワーク(RNN)の一形態である長期短期記憶(LSTM: Long Short Term Memory)が用いられている。
【0020】
本実施形態は、音声情報を処理する音声チャネルと注視点画像を処理する注視点画像チャネルを有している。音声チャネルは、音声情報入力手段30、音声特徴量抽出手段110、音声特徴量符号化手段120、音声符号重み付け手段130により構成される。注視点画像チャネルは、注視点画像情報入力手段40、注視点画像特徴量抽出手段140、注視点画像特徴量符号化手段150、注視点符号重み付け手段160により構成される。
音声特徴量抽出手段110、音声特徴量符号化手段120、音声符号重み付け手段130、注視点画像特徴量抽出手段140、注視点画像特徴量符号化手段150、注視点符号重み付け手段160、統合手段170および復号化手段180は、共通のコンピューターで構成することもできるし、別々のコンピューターで構成することもできる。
また、1つの手段を他の手段に対して遠方に配置し、両手段間における情報の送受信を、インターネット等の通信回線を介して行うように構成することもできる。
【0021】
次に、本実施形態のマルチモーダル音声認識装置の学習動作について説明する。
学習では、事前に作成し記憶手段50に記憶した教師情報(入力である音声情報および注視点画像情報と、出力であるテキスト情報のペア)を用いて、誤差逆伝播法により、変換手段20(系列変換モデル)を構成するニューラルネットワークの各種重みパラメータを繰り返し学習する。例えば、「遮断器745選択」という音声情報と「遮断器745を選択する際の注視点画像情報系列」を入力する。そして、復号化手段180から出力されるテキスト情報と入力された「遮断器745選択」という音声情報との誤差が最小となるように、変換手段20の各種重みパラメータを学習する。
【0022】
次に、本実施形態のマルチモーダル音声認識装置の音声認識動作を説明する。
音声情報および注視点画像情報が入力されると、本発明の処理手段10の処理が開始される。処理手段10の処理動作は、前述した通りである。
ここで、音声符号重み付け手段130による重み付け動作を、
図10を参照して説明する。
ディープラーニングに基づくエンドツーエンド(End-to-End)音声認識技術は、音声から取得する音声特徴量系列(音声特徴量ベクトル)を文字列に復号化するデコーダ(decoder)を有している。エンコーダは、音声特徴量系列を隠れ状態ベクトルに変換し、デコーダは、符号系列を隠れ状態ベクトルを介して認識結果であるテキスト情報に変換する。
本実施形態では、
図9に示されているように、音声特徴量系列を符号化する音声エンコーダ、注視点画像特徴量系列(注視点画像特徴量ベクトル)を符号化する注視点エンコーダ、音声符号系列(音声符号ベクトル)と注視点符号系列(注視点符号ベクトル)を統合して文字列にマッピングするデコーダを有している。さらに、本実施形態では、デコーダにおいて、音声符号系列および注視点符号系列のそれぞれに対し、重み(Attention)を付与して統合重み付き符号系列を生成している。なお、音声エンコーダは、音声特徴量符号化手段120により構成されている。また、注視点エンコーダは、注視点画像特徴量符号化手段150により構成されている。また、デコーダは、音声符号重み付け手段130、注視点符号重み付け手段160、統合手段170、復号化手段180により構成されている。
図10に一点鎖線で示されている、復号化手段180の任意の時刻tの時間断面における音声符号重み(音声符号重みベクトル)は、音声特徴量符号化手段120のBLSTMの隠れ層から出力される隠れ状態ベクトル系列である{h(1),…,h(n)}と、復号化手段180の、1つ前の時刻(t-1)におけるLSTMの隠れ状態ベクトルu(t-1)とに基づいて動的に付与される。例えば、隠れ状態ベクトルu(t-1)と隠れ状態ベクトル系列{h(1),…,h(n)}の各要素との類似度a(i)(i=1,…,n)は、隠れ状態ベクトルu(t-1)と隠れ状態ベクトル系列{h(1),…,h(n)}の各要素との内積を取ることによりa(i)=u(t-1)・h(i)(i=1,…,n)のように数値的に求めることができる。ここで、音声符号重みa(i)は合計が「1」になるように正規化しておく。時刻(t)における音声エンコーダからデコーダへの入力は、音声符号重みa(i)(i=1,…,n)と隠れ状態ベクトル系列{h(1),…,h(n)}を用いて、[a(1)*h(1)+…+a(n)*h(n)]で表される。
なお、前記類似度の計算においては、種々の評価尺度を用いることができる。
【0023】
注視点符号重み付け手段160による重み付け動作を、
図11を参照して説明する。
図11に一点鎖線で示されている、復号化手段180の任意の時刻tの時間断面における注視点符号重み(注視点符号重みベクトル)は、注視点画像特徴量符号化手段150のBLSTMの隠れ層から出力される隠れ状態ベクトル系列である{s(1),…,s(m)}と、復号化手段180の、1つ前の時刻(t-1)におけるLSTMの隠れ状態ベクトルu(t-1)とに基づいて動的に付与される。例えば、隠れ状態ベクトルu(t-1)と隠れ状態ベクトル系列{s(1),…,s(m)}の各要素との類似度b(j)(j=1,…,m)は、隠れ状態ベクトルu(t-1)と隠れ状態ベクトル系列{s(1),…,s(m)}の各要素との内積を取ることよりb(j)=u(t-1)・s(j)(j=1,…,m)のように数値的に求めることができる。ここで、注視点符号重みb(j)は合計が「1」になるように正規化しておく。時刻(t)における注視点エンコーダからデコーダへの入力は、注視点符号重みb(j)(j=1,…,m)と隠れ状態ベクトル系列{s(1),…,s(m)}を用いて、[b(1)*s(1)+…+b(m)*s(m)]で表される。
なお、前記類似度の計算においては、種々の評価尺度を用いることができる。
【0024】
以上のようにして、音声エンコーダおよび注視点エンコーダからの出力符号に、動的に重みを付与することができる。
次に、統合手段170において、前記方法で求められた重み付き音声符号系列および注視点符号系列を、r(t)=[a(1)*h(1)+…+a(n)*h(n)]+[b(1)*s(1)+…+b(m)*s(m)]として統合化し、このr(t)を時刻tにおける復号化手段180(デコーダ)のLSTMへの入力とする。
そして、復号化手段180は、前述したように、各時刻において各LSTMから出力される文字列を、Softmax関数により当該文字列の出力スコア(確率値)に換算する。そして、出力スコアが高い文字列を選択してテキスト情報(音声認識結果)を形成する。
【0025】
以上のように、音声符号重み付け手段130による音声符号系列に対する重み付け(音声チャネルにおける符号重み付け)および注視点符号重み付け手段160による注視点符号系列に対する重み付け(注視点画像チャネルにおける重み付け)を行うことによって、復号化手段180に入力される統合重み付き符号系列に対応するテキスト情報(テキスト情報を構成する文字列情報)を、音声情報と注視点画像情報との相関関係を推定ながら形成することができる。
発話者が発声する音声と音声発声時における発話者の注視点は、相互に関連している。
このため、本実施形態では、発話者の音声と注視点との相互関係を推定して音声認識を行うことによって、音声認識性能を向上させることができる。
【0026】
本実施形態の効果を確認するために、音声情報のみを用いた(モデル1)と、音声情報と注視点画像情報を用いた(モデル2)について比較実験を行い、文字単位の誤り率であるCER(Character Error Rate)を求めた。なお、CERは、[CER=(S+D+I)*100/N]で表される。ここで、Sは置換誤り数、Dは脱落誤り数、Iは挿入誤り数、Nは正解文の文字数を表す。
実験の結果、(モデル1)ではCERが7.2%であったが、(モデル2)では6.9%に低減しており、本発明の構成の適用効果が確認された。
【0027】
以上の実施形態では、音声符号系列(音声符号ベクトル)hと注視点符号系列(注視点符号ベクトル)sを、同じ割合で統合した統合符号系列(統合符号ベクトル)r([r=a*h+b*s])を用いたが、音声符号系列hと注視点符号系列sの融合割合を変えることもできる。例えば、[r=a*h+g*(b*s)]で表される統合符号系列rを用いることができる。ここで、gは、注視点符号系列の融合割合を示す融合重み(融合重みベクトル)である。融合重みベクトルは、固定でもよいし、動的に割り当てることもできる。
【0028】
次に、音声認識結果の出力方法について説明する。
本実施形態では、復号化手段180で復号化したテキスト情報を表示手段60に表示している。
図12に、テキスト情報を表示する表示画面200の一例が示されている。
図12に示されている表示画面200には、遮断器やラインスイッチの投入および切断を行う操作盤300が表示されている。操作盤300には、遮断器740、742、745を選択する際に操作される遮断器選択ボタン311~313、ラインスイッチ740、742、745を選択する際に操作されるラインスイッチ選択ボタン314~316、投入する際に操作される入ボタン317、遮断する際に操作される切ボタン318が設けられている。
ここで、発話者が、「ラインスイッチ745選択操作」という音声を発声するとともに、操作盤300のラインスイッチ選択ボタン316を注視し、復号化手段180から「ラインスイッチ745選択操作」というテキスト情報が音声認識されたものとする。本実施形態では、操作盤300が表示されている表示画面200に、注視点に関連する位置、
図12では、ラインスイッチ選択ボタン316に対応する箇所に「ラインスイッチボタン745操作選択」というテキスト情報が表示される。
これにより、発話者の音声と注視点の位置を容易に判別することができる。
図12には、「ラインスイッチ745を選択操作」という音声を発声した後、「入れます」という音声を発声するとともに、操作盤300の入ボタン317を注視したことにともなって、注視点に関連する位置、
図12では、入ボタン317に対応する箇所に「入れます」というテキスト情報が表示される。
なお、表示画面200にテキスト情報が表示されている状態において、表示画面200に表示されているテキスト情報を選択する(例えば、タッチする)ことにより、表示されているテキスト情報に対応する音声情報、例えば、当該テキスト情報を認識させる際に入力された音声情報をスピーカ等の音声出力手段から出力するように構成することもできる。
テキスト情報を表示手段60に表示する処理や、テキスト情報に対応する音声情報を音声出力手段から出力する処理等は、例えば、処理手段10で実行される。
【0029】
以上では、マルチモーダル音声認識装置について説明したが、本発明は、マルチモーダル音声認識方法として構成することもできる。
(態様1)
マルチモーダル音声認識方法であって、
発話者の音声を示す音声情報から、音声特徴情報を時系列に抽出する第1ステップと、
前記発話者が注視している注視点の周辺の注視点画像を示す注視点画像情報から、注視点特徴情報を時系列に抽出する第2ステップと、
前記抽出した時系列の音声特徴情報および前記抽出した時系列の注視点特徴情報に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する第3ステップと、を備えていることを特徴とするマルチモーダル音声認識方法。
(態様2)
態様1のマルチモーダル音声認識方法であって、
前記第3ステップは、
前記抽出した時系列の音声特徴情報を符号化して時系列の音声符号を出力する第4ステップと、
前記時系列の音声符号に重みを付与して時系列の重み付き音声符号を出力する第5ステップと、
前記時系列の注視点特徴情報を符号化して時系列の注視点符号を出力する第6ステップと、
前記時系列の注視点符号に重みを付与して時系列の重み付き注視点符号を出力する第7ステップと、
前記時系列の重み付き音声符号と前記時系列の重み付き注視点符号を統合した統合符号に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する第8ステップと、を有していることを特徴とするマルチモーダル音声認識方法。
このようなマルチモーダル音声認識方法も、前述したマルチモーダル音声認識装置と同様の効果を有する。
【0030】
本発明は、実施形態で説明した構成に限定されず、種々の変更、追加、削除が可能である。
実施形態では、音声情報と注視点画像情報をマルチモーダル情報として用いたが、3以上の情報をマルチモーダル情報として用いることもできる。例えば、音声情報、注視点画像情報およびジェスチャー情報(身振りや手振り)をマルチモーダル情報として用いることもできる。
視線計測装置の可視光領域の撮像素子を用いて注視点画像情報を入力したが、赤外線センサや紫外線センサ等の種々のセンサを用いて注視点画像情報を入力することができる。
本発明のマルチモーダル音声認識装置およびマルチモーダル音声認識方法は、作業員の操作確認に限定されず、音声付き動画の字幕作成や映像検索、動画を用いた技能継承や教育訓練等の種々の分野で用いることができる。
音声情報入力手段としては、音声情報を入力可能な種々の構成の音声情報入力手段を用いることができる。また、音声情報を予め記憶している記憶手段等を音声情報入力手段として用いることもできる。
注視点画像情報入力手段としては、注視点の周辺の注視点画像情報を入力可能な種々の構成の注視点画像情報入力手段を用いることができる。また、注視点画像情報を予め記憶している記憶手段等を注視点画像情報入力手段として用いることもできる。
音声特徴量抽出手段(音声特徴情報抽出手段)、音声特徴量符号化手段(音声特徴情報符号化手段)、音声符号重み付け手段、注視点画像特徴量抽出手段(注視点特徴情報抽出手段)、注視点画像特徴量符号化手段(注視点特徴情報符号化手段)、注視点符号重み付け手段、統合手段、復号化手段の構成は、実施形態で説明した構成に限定されない。
音声認識結果等を表示手段に表示する方法は、実施形態で説明した方法に限定されない。
音声認識結果等を出力する方法は、表示手段に表示する方法に限定されない。例えば、通信回線を介して遠方の管理装置に送信する方法を用いることもできる。
【符号の説明】
【0031】
10 処理手段
20 変換手段
30 音声情報入力手段
40 注視点画像情報入力手段
50 記憶手段
60 表示手段
110 音声特徴量抽出手段(音声特徴情報抽出手段)
120 音声特徴量符号化手段(音声特徴情報符号化手段)
130 音声符号重み付け手段
140 注視点画像特徴量抽出手段(注視点特徴情報抽出手段)
150 注視点画像特徴量符号化手段(注視点特徴情報符号化手段)
160 注視点符号重み付け手段
170 統合手段
180 復号化手段
200 表示画面
300 操作盤
311~313 遮断器選択ボタン
314~316 ラインスイッチ選択ボタン
317 入ボタン
318 切ボタン
321、322 テキスト情報表示部