特許7414231 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 中部電力株式会社の特許一覧 ▶ 国立大学法人名古屋大学の特許一覧

特許7414231マルチモーダル音声認識装置およびマルチモーダル音声認識方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-05

(45)【発行日】2024-01-16

(54)【発明の名称】マルチモーダル音声認識装置およびマルチモーダル音声認識方法

(51)【国際特許分類】

G10L 15/24 20130101AFI20240109BHJP

G10L 15/16 20060101ALI20240109BHJP

【ＦＩ】

G10L15/24 Z

G10L15/16

【請求項の数】 7

(21)【出願番号】P 2019129656

(22)【出願日】2019-07-11

(65)【公開番号】P2021015189

(43)【公開日】2021-02-12

【審査請求日】2022-07-06

(73)【特許権者】

【識別番号】000213297

【氏名又は名称】中部電力株式会社

(73)【特許権者】

【識別番号】504139662

【氏名又は名称】国立大学法人東海国立大学機構

(74)【代理人】

【識別番号】110003052

【氏名又は名称】弁理士法人勇智国際特許事務所

(74)【代理人】

【識別番号】100106725

【弁理士】

【氏名又は名称】池田敏行

(74)【代理人】

【識別番号】100105120

【弁理士】

【氏名又は名称】岩田哲幸

(72)【発明者】

【氏名】瀬川修

(72)【発明者】

【氏名】林知樹

(72)【発明者】

【氏名】武田一哉

【審査官】菊池智紀

(56)【参考文献】

【文献】特開２０１２－０５９１２１（ＪＰ，Ａ）

【文献】特開２０００－３０７９１６（ＪＰ，Ａ）

【文献】特開２０１７－１７４１７２（ＪＰ，Ａ）

【文献】特表２０１７－５２５００２（ＪＰ，Ａ）

【文献】国際公開第２０１６／１６３０２８（ＷＯ，Ａ１）

【文献】ZHOU, Pan et al.，"MODALITY ATTENTION FOR END-TO-END AUDIO-VISUAL SPEECH RECOGNITION"，Proc. of the ICASSP 2019，2019年05月12日，pp.6565-6569

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

マルチモーダル音声認識装置であって、
発話者の音声を示す音声情報を入力する音声情報入力手段と、
前記発話者が注視している注視点の周辺の注視点画像を示す注視点画像情報を入力する注視点画像情報入力手段と、
文字列情報を記憶している記憶手段と、
前記音声情報入力手段より入力された前記音声情報から、音声特徴情報を時系列に抽出する音声特徴情報抽出手段と、
前記注視点画像情報入力手段より入力された前記注視点画像情報から、注視点特徴情報を時系列に抽出する注視点特徴情報抽出手段と、
前記音声特徴情報抽出手段により抽出した前記時系列の音声特徴情報および前記注視点特徴情報抽出手段により抽出した前記時系列の注視点特徴情報に対応するテキスト情報を、前記記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する変換手段と、を備えていることを特徴とするマルチモーダル音声認識装置。

【請求項2】

請求項１に記載のマルチモーダル音声認識装置であって、
前記変換手段は、
前記音声特徴情報抽出手段により抽出した前記時系列の音声特徴情報それぞれを符号化して時系列の音声符号を出力する音声特徴情報符号化手段と、
前記音声特徴情報符号化手段から出力された前記時系列の音声符号それぞれに重みを付与して時系列の重み付き音声符号を出力する音声符号重み付け手段と、
前記注視点特徴情報抽出手段により抽出した前記時系列の注視点特徴情報それぞれを符号化して時系列の注視点符号を出力する注視点特徴情報符号化手段と、
前記注視点特徴情報符号化手段から出力された前記時系列の注視点符号それぞれに重みを付与して時系列の重み付き注視点符号を出力する注視点符号重み付け手段と、
前記音声符号重み付け手段から出力された時系列の重み付き音声符号と前記注視点符号重み付け手段から出力された前記時系列の重み付き注視点符号を統合した統合符号に対応するテキスト情報を、前記記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する復号化手段を有していることを特徴とするマルチモーダル音声認識装置。

【請求項3】

請求項２に記載のマルチモーダル音声認識装置であって、
前記音声符号重み付け手段および前記注視点符号重み付け手段としてニューラルネットワークで構成される系列変換モデルの注意機構が用いられていることを特徴とするマルチモーダル音声認識装置。

【請求項4】

請求項１～３のうちのいずれか一項に記載のマルチモーダル音声認識装置であって、
表示手段を備え、
前記注視点画像情報入力手段は、前記発話者の主観画像中における前記注視点の位置を示す注視点位置情報を入力可能であり、
前記テキスト情報を、前記注視点位置情報で示される前記発話者の注視点の位置に関連付けて前記表示手段に表示するように構成されていることを特徴とするマルチモーダル音声認識装置。

【請求項5】

請求項４に記載のマルチモーダル音声認識装置であって、
前記表示手段に表示されている前記テキスト情報が選択された場合、選択されたテキスト情報に対応する音声情報を出力するように構成されていることを特徴とするマルチモーダル音声認識装置。

【請求項6】

マルチモーダル音声認識方法であって、
発話者の音声を示す音声情報から、音声特徴情報を時系列に抽出する第１ステップと、
前記発話者が注視している注視点の周辺の注視点画像を示す注視点画像情報から、注視点特徴情報を時系列に抽出する第２ステップと、
前記抽出した時系列の音声特徴情報および前記抽出した時系列の注視点特徴情報に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する第３ステップと、を備えていることを特徴とするマルチモーダル音声認識方法。

【請求項7】

請求項６に記載のマルチモーダル音声認識方法であって、
前記第３ステップは、
前記抽出した時系列の音声特徴情報それぞれを符号化して時系列の音声符号を出力する第４ステップと、
前記時系列の音声符号それぞれに重みを付与して時系列の重み付き音声符号を出力する第５ステップと、
前記時系列の注視点特徴情報それぞれを符号化して時系列の注視点符号を出力する第６ステップと、
前記時系列の注視点符号それぞれに重みを付与して時系列の重み付き注視点符号を出力する第７ステップと、
前記時系列の重み付き音声符号と前記時系列の重み付き注視点符号を統合した統合符号に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する第８ステップと、を有していることを特徴とするマルチモーダル音声認識方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声と音声発声時における注視点画像を用いて音声を認識するマルチモーダル音声認識技術に関する。

【背景技術】

【0002】

センシング技術の発展に伴って、種々の信号を同時に取得することが可能となっている。このような背景のもと、音声認識の技術分野において、音声認識性能を向上させるために、音声と音声以外の情報を用いて音声を認識するマルチモーダル音声認識技術が提案されている。
例えば、音声と、音声発声時における口の動きを示す口唇画像を用いる音声認識技術が非特許文献１に開示されている。
また、ディープラーニング（ニューラルネットワークの深層学習）に基づくエンドツーエンド(End-to-End)音声認識技術が非特許文献２に開示されている。

【先行技術文献】

【非特許文献】

【0003】

【文献】「口唇の深度画像を用いたマルチモーダル音声認識」，押尾翔平他２名，情報処理学会研究報告，Ｖｏｌ．２０１４－ＳＬＰ－１０２－Ｎｏ．２，２０１４／７／２４

【文献】「音声認識技術の変遷と最先端」，河原達也，日本音響学会誌，第７４巻第７号（２０１８），ｐｐ．３８１－３８６

【発明の概要】

【発明が解決しようとする課題】

【0004】

非特許文献１には、口唇画像を併用することで音声認識性能が向上することは開示されているが、口唇以外の情報を用いることについては開示されてない。
非特許文献２に開示されている、ディープラーニングに基づくエンドツーエンド(End-to-End)音声認識技術は、音声から取得する特徴量系列（特徴ベクトル）を文字列に直接マッピングする系列変換モデル(Encoder-Decoder)を基本としている。近年、系列変換モデルに注意機構(Attention)を組み合わせ、特徴ベクトルに重みを付与することで、音声認識性能の向上を図る試みがなされている。しかしながら、非特許文献２には、マルチモーダル音声認識に、注意機構を組み合わることは開示されてない。
本発明者は、音声認識性能を向上させる技術について種々検討した結果、音声を発声しながら作業を行う際には、音声と注視点が相互に関連していること、すなわち、音声と注視点の相互関係を推定することによって、音声認識性能を向上させることができることが判明した。
本発明は、このような点に鑑みて創案されたものであり、音声と注視点の周辺の注視点画像を用いて音声を認識することによって音声認識性能を向上させたマルチモーダル音声認識技術を提供することを目的とする。

【課題を解決するための手段】

【0005】

第１発明は、マルチモーダル音声認識装置に関する。
第１発明は、音声情報入力手段、音声特徴情報抽出手段、注視点画像情報入力手段、注視点特徴情報抽出手段、記憶手段および変換手段を有している。
音声情報入力手段は、発話者の音声を示す音声情報を入力する。音声情報入力手段としては、音声情報を入力可能な種々の音声情報入力手段を用いることができる。好適には、音声を電気信号に変換するマイクを含む音声情報入力手段が用いられる。なお、音声情報が予め記憶されている記憶媒体を含む音声情報入力手段を用いることもできる。
音声特徴情報抽出手段は、音声情報入力手段より入力された音声情報から、音声特徴情報を時系列に抽出する。音声特徴情報抽出手段としては、好適には、畳み込み層とプーリング層を有する畳み込みニューラルネットワーク(CNN)が用いられる。
注視点画像情報入力手段は、発話者が音声発声時に注視している注視点の周辺の注視点画像を示す注視点画像情報を入力する。注視点画像情報入力手段としては、注視点画像を入力可能な種々の注視点画像情報入力手段を用いることができる。好適には、視線計測装置を含む注視点画像情報入力手段が用いられる。なお、好適には、装置内蔵のカメラで撮像される主観画像中における注視点の位置を示す注視点位置情報を出力可能な視線計測装置が用いられる。
注視点特徴情報抽出手段は、注視点画像情報入力手段より入力された注視点画像情報から、注視点特徴情報を時系列に抽出する。好適には、注視点画像情報は、音声特徴情報と同期して抽出される。注視点特徴情報抽出手段としては、音声特徴情報手出手段と同様に、多層ニューラルネットワーク(CNN)が用いられる。
記憶手段には、文字列情報が記憶されている。文字列情報には、文書等のテキスト情報を形成するひらがな、カタカナ、数字、常用漢字等が含まれる。
変換手段は、音声特徴情報抽出手段により抽出した時系列の音声特徴情報および注視点特徴情報抽出手段により抽出した時系列の注視点特徴情報に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する。好適には、テキスト情報は、表示手段等の出力手段から出力される。
時系列の音声特徴情報および時系列の注視点特徴情報に対応するテキスト情報を形成する方法としては、適宜の方法を用いることができる。
音声特徴情報抽出手段、注視点特徴情報抽出手段および変換手段は、１つのコンピューターによって構成することもできる、個別のコンピューターによって構成することもできる。また、遠方に配置し、インターネット等の通信回線を介して接続可能に構成することもできる。
第１発明は、時系列の音声特徴情報と時系列の注視点画像情報を用いて音声を認識しているため、音声認識性能を向上させることができる。
第１発明の異なる形態では、変換手段は、音声特徴情報符号化手段、音声符号重み付け手段、注視点特徴情報符号化手段、注視点符号重み付け手段および復号化手段を有している。
音声特徴情報符号化手段は、音声特徴情報抽出手段により抽出した時系列の音声特徴情報を符号化して時系列の音声符号を出力する。音声特徴情報符号化手段としては、好適には、再帰型ニューラルネットワーク(RNN: recurrent Neutral network)が用いられる。例えば、再帰型ニューラルネットワーク(RNN)の一形態である双方向長期短期記憶(BLSTM: Bi-directional Long Short Term Memory)が用いられる。
音声符号重み付け手段は、音声特徴情報符号化手段から出力された時系列の音声符号に重みを付与して時系列の重み付き音声符号を出力する。音声符号重み付け手段としては、時系列の音声符号に適切に重みを付与することができる種々の構成の音声符号重み付け手段を用いることができる。
注視点特徴情報符号化手段は、注視点特徴情報抽出手段により抽出した時系列の注視点特徴情報を符号化して時系列の注視点符号を出力する。注視点特徴情報符号化手段としては、音声特徴情報符号化手段と同様に、再帰型ニューラルネットワーク(RNN)の一形態である双方向長期短期記憶(BLSTM)等が用いられる。
注視点符号重み付け手段は、注視点特徴情報符号化手段から出力された時系列の注視点符号に重みを付与して時系列の重み付き注視点符号を出力する。注視点符号重み付け手段としては、時系列の注視点符号に適切に重みを付与することができる種々の構成の注視点符号重み付け手段を用いることができる。
復号化手段は、音声符号重み付け手段から出力された時系列の重み付き音声符号と注視点符号重み付け手段から出力された時系列の重み付き注視点符号を統合した統合符号（重み付き統合符号）に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する。
復号化手段としては、好適には、再帰型ニューラルネットワーク(RNN)が用いられる。例えば、再帰型ニューラルネットワーク(RNN)の一形態である長期短期記憶(LSTM)が用いられる。
音声特徴情報符号化手段、音声符号重み付け手段、注視点特徴情報符号化手段、注視点符号重み付け手段および復号化手段は、１つのコンピューターによって構成することもできる。また、個別のコンピューターによって構成することもできる。また、遠方に配置し、インターネット等の通信回線を介して接続可能に構成することもできる。
本形態では、音声情報と注視点画像情報との相関関係を正確に推定することができる。
第１発明の異なる形態では、音声符号重み付け手段および注視点符号重み付け手段としてニューラルネットワークで構成される系列変換モデルの注意機構(Attention)が用いられている。
本形態では、時系列の音声符号および時系列の注視点符号に適切な重みを付与することができ、音声認識性能を確実に向上させることができる。
第１発明の異なる形態では、注視点画像情報入力手段は、発話者の主観画像（注視点画像情報入力手段の撮像領域）中における注視点の位置を示す注視点位置情報を入力可能である。そして、テキスト情報を、注視点位置情報で示される発話者の注視点の位置に関連付けて表示手段に表示するように構成されている。例えば、表示手段に表示されている、注視点画像情報入力手段で撮像した主観画像中の、注視点の位置の近傍にテキスト情報を表示する。
本形態では、テキスト情報が、注視点の位置と関連付けて表示される表示手段に表示されるため、発話者が発声した音声および発話者の注視点を容易に確認することができる。
第１発明の異なる形態では、表示手段に表示されているテキスト情報が選択された場合、選択されたテキスト情報に対応する音声情報（テキスト情報を認識する際に入力された音声情報）を出力するように構成されている。
本形態では、発話者が発声した音声を容易に確認することができる。
第２発明は、マルチモーダル音声認識方法に関する。
本発明は、第１～第３ステップを有している。
第１ステップでは、発話者の音声を示す音声情報から、音声特徴情報を時系列に抽出する。第１ステップの処理は、例えば、第１発明の音声特徴情報抽出手段によって実行される。
第２ステップでは、発話者が注視している注視点の周辺の注視点画像を示す注視点画像情報から、注視点特徴情報を時系列に抽出する。第２ステップの処理は、例えば、第１発明の注視点特徴情報抽出手段によって実行される。
第３ステップでは、抽出した時系列の音声特徴情報および抽出した時系列の注視点特徴情報に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する。第３ステップの処理は、例えば、第１発明の変換手段によって実行される。好適には、テキスト情報は、表示手段等の出力手段から出力される。
第２発明は、第１発明と同様の効果を有する。
第２発明の異なる形態では、第３ステップは、第４～第８ステップを有している。
第４ステップでは、抽出した時系列の音声特徴情報を符号化して時系列の音声符号を出力する。第４ステップの処理は、例えば、第１発明の音声特徴情報符号化手段によって実行される。
第５ステップでは、時系列の音声符号に重みを付与して時系列の重み付き音声符号を出力する。第５ステップの処理は、例えば、第１発明の音声符号重み付け手段によって実行される。
第６ステップでは、時系列の注視点特徴情報を符号化して時系列の注視点符号を出力する。第６ステップの処理は、例えば、第１発明の注視点特徴情報符号化手段によって実行される。
第７ステップでは、時系列の注視点符号に重みを付与して時系列の重み付き注視点符号を出力する。第７ステップの処理は、例えば、第１発明の注視点符号重み付け手段によって実行される。
第８ステップでは、時系列の重み付き音声符号と時系列の重み付き注視点符号を統合した統合符号（重み付き統合符号）に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する。第８ステップの処理は、例えば、第１発明の復号化手段によって実行される。
好適には、第５ステップの音声符号重み付け処理および第７ステップの注視点符号重み付け処理は、ニューラルネットワークで構成される系列変換モデルの注意機構によって実行される。
本形態は、第１発明と同様の効果を有する。

【発明の効果】

【0006】

本発明のマルチモーダル音声認識装置およびマルチモーダル音声認識方法は、音声と注視点の周辺の注視点画像を用いて音声を認識することにより、音声認識性能を向上させることができる。

【図面の簡単な説明】

【0007】

【図1】本発明のマルチモーダル音声認識装置の一実施形態のブロック図である。

【図2】一実施形態のマルチモーダル音声認識装置の音声特徴量抽出手段の作用を説明する図である。

【図3】一実施形態のマルチモーダル音声認識装置の音声特徴量符号化手段の作用を説明する図である。

【図4】一実施形態のマルチモーダル音声認識装置の音声符号重み付け手段の作用を説明する図である。

【図5】一実施形態のマルチモーダル音声認識装置の注視点画像特徴量抽出手段の作用を説明する図である。

【図6】一実施形態のマルチモーダル音声認識装置の注視点画像特徴量符号化手段の作用を説明する図である。

【図7】一実施形態のマルチモーダル音声認識装置の注視点符号重み付け手段の作用を説明する図である。

【図8】一実施形態のマルチモーダル音声認識装置の復号化手段の作用を説明する図である。

【図9】一実施形態のマルチモーダル音声認識装置の構成を説明する図である。

【図10】一実施形態のマルチモーダル音声認識装置の音声符号重み付け手段の動作を説明する図である。

【図11】一実施形態のマルチモーダル音声認識装置の注視点符号重み付け手段の動作を説明する図である。

【図12】表示手段の表示例を示す図である。

【発明を実施するための形態】

【0008】

以下に、本発明の実施形態を、図面を参照して説明する。
本発明のマルチモーダル音声認識装置の一実施形態のブロック図が、図１に示されている。
本実施形態のマルチモーダル音声認識装置は、ディープラーニングに基づくエンドツーエンド(End-to-End)音声認識の枠組みを用いている。そして、複数の注意機構(Attention)を有する系列変換モデルを用いて、発話者の音声を示す音声情報と音声を発声している発話者の注視点の周辺の注視点画像を統合し、両者の相関関係に基づいて、音声情報を、文字列情報により形成されるテキスト情報に変換している。

【0009】

本実施形態のマルチモーダル音声認識装置は、処理手段１０、音声情報入力手段３０、注視点画像情報入力手段４０、記憶手段５０および表示手段６０等を有している。

【0010】

音声情報入力手段３０は、発話者が発声した音声を示す音声情報を入力する。音声情報は、音声波形であってもよいしスペクトラム（周波数情報）であってもよい。好適には、音声情報入力手段３０は、マイクとＡ－Ｄ変換手段により構成される。勿論、音声情報入力手段３０としては、音声情報を入力可能な種々の音声情報入力手段を用いることができる。
注視点画像情報入力手段は、発話者が音声を発声しながら注視している注視点の周辺の注視点画像を示す注視点画像情報を入力する。注視点画像情報入力手段としては、例えば、発話者が装着可能な視線計測装置を用いることができる。注視点の周辺の注視点画像は、視線計測装置で撮像した主観画像中の、注視点の周辺（例えば、注視点を中心とする所定のピクセルサイズの矩形領域）の画像を用いることができる。この場合、好適には、視線計測装置で撮像した主観画像中から注視点の周辺の画像情報を抽出する画像情報抽出手段が設けられる。
なお、好適には、発話者に装着された視線計測装置で撮影した主観画像中における発話者の注視点の位置を示す注視点位置情報を出力可能な視線計測装置が用いられる。
視線計測装置で撮影した主観画像中における注視点の位置が、本発明の「発話者の注視点の位置」に対応する。
記憶手段５０には、文字列情報が記憶されている。文字列情報には、文書等のテキスト情報を形成するひらがな、カタカナ、数字、常用漢字等が含まれる。
表示手段６０は、音声認識結果等を表示する際に用いられる。

【0011】

処理手段１０は、変換手段２０、音声特徴量抽出手段１１０、注視点画像特徴量抽出手段１４０を有している。
音声特徴量抽出手段１１０は、図２に示されているように、音声情報入力手段３０から入力された音声情報から、時系列に音声特徴量（音声特徴量ベクトル）Ｘ１～Ｘｎを抽出する。なお、音声情報の音声区間（意味的な単語や文単位と推定される区間）は、前後に無音区間が含まれていることにより判別することができる。音声特徴量抽出手段１１０は、音声特徴量系列（音声特徴量ベクトル系列）｛Ｘ１，Ｘ２，・・・，Ｘｎ｝を出力する。
本実施形態では、音声特徴量抽出手段１１０として、畳み込み層とプーリング層を有する畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)が用いられている。
音声特徴量抽出手段１１０が、本発明の「音声特徴情報抽出手段」に対応し、音声特徴量系列（音声特徴量ベクトル系列）｛Ｘ１，Ｘ２，・・・，Ｘｎ｝が、本発明の「時系列の音声特徴情報」に対応する。

【0012】

注視点画像特徴量抽出手段１４０は、図５に示されているように、注視点画像情報入力手段４０より入力された注視点画像情報から、時系列に注視点画像特徴量（注視点画像特徴量ベクトル）Ｙ１～Ｙｍを抽出する。注視点画像特徴量抽出手段１４０による時系列の注視点画像情報の抽出処理は、音声特徴量抽出手段１１０による時系列の音声特徴情報の抽出処理と同期して行われる。なお、発話者による音声の発声と注視動作がずれる場合もあるが、変換手段２０の処理により対応関係が推定されるため完全に同期していなくてもよい。注視点画像特徴量抽出手段１４０は、注視点画像特徴量系列（注視点画像特徴量ベクトル系列）｛Ｙ１，Ｙ２，・・・，Ｙｍ｝を出力する。
本実施形態では、注視点画像特徴量抽出手段１４０として、音声特徴量抽出手段１１０と同様に、畳み込みニューラルネットワーク(CNN)が用いられている。
注視点画像特徴量抽出手段１４０が、本発明の「注視点特徴情報抽出手段」に対応し、注視点画像特徴量系列（注視点画像特徴量ベクトル系列）｛Ｙ１，Ｙ２，・・・，Ｙｍ｝が、本発明の「時系列の注視点特徴情報」に対応する。

【0013】

変換手段２０は、音声特徴量系列｛Ｘ１，Ｘ２，・・・，Ｘｎ｝（時系列の音声特徴量）および注視点画像特徴量系列｛Ｙ１，Ｙ２，・・・，Ｙｍ｝（時系列の注視点画像特徴量）に基づいて、記憶手段５０に記憶されている文字列の中から選択した文字列を用いて、音声認識結果であるテキスト情報を形成する。
本実施形態では、変換手段２０は、音声特徴量符号化手段１２０、音声符号重み付け手段１３０、注視点画像特徴量符号化手段１５０、注視点符号重み付け手段１６０、統合手段１７０および復号化手段１８０を有している。

【0014】

音声特徴量符号化手段１２０は、図３に示されているように、音声特徴量抽出手段１１０により抽出された時系列の音声特徴量Ｘ１～Ｘｎ（音声特徴量系列｛Ｘ１，Ｘ２，・・・，Ｘｎ｝）を符号化して時系列の音声符号（音声符号ベクトル）ｈ１～ｈｎを出力する。すなわち、音声特徴量符号化手段１２０は、音声符号系列（音声符号ベクトル系列）｛ｈ１，ｈ２，・・・，ｈｎ｝を出力する。
本実施形態では、音声特徴量符号化手段１２０として、図９に示されているように、再帰型ニューラルネットワーク(RNN)の一形態である双方向長期短期記憶(BLSTM)が用いられている。
音声特徴量符号化手段１２０が、本発明の「音声特徴情報符号化手段」に対応し、音声符号系列（音声符号ベクトル系列）｛ｈ１，ｈ２，・・・，ｈｎ｝が、本発明の「時系列の音声符号」に対応する。

【0015】

音声符号重み付け手段１３０は、音声特徴量符号化手段１２０から出力された時系列の音声符号ｈ１～ｈｎ（音声符号系列｛ｈ１，ｈ２，・・・，ｈｎ｝）に重みを付与して時系列の重み付き音声符号（重み付き音声符号ベクトル）（ａ１＊ｈ１）～（ａｎ＊ｈｎ）を出力する。すなわち、音声符号重み付け手段１３０は、重み付き音声符号系列（重み付き音声符号ベクトル系列）｛ａ１＊ｈ１，ａ２＊ｈ２，・・・，ａｎ＊ｈｎ｝を出力する。なお、重みａ１～ａｎは、重みａ１～ａｎの総和が「１」となるように設定される。
本実施形態では、音声符号重み付け手段１３０として、再帰型ニューラルネットワーク(RNN)の一形態である双方向長期短期記憶(BLSTM)が用いられている。
音声符号重み付け手段１３０の動作は、後述する。

【0016】

注視点画像特徴量符号化手段１５０は、図６に示されているように、注視点画像特徴量抽出手段１４０により抽出された時系列の注視点画像特徴量Ｙ１～Ｙｍ（注視点画像特徴量系列｛Ｙ１，Ｙ２，・・・，Ｙｍ｝）を符号化して時系列の注視点符号（注視点符号ベクトル）ｓ１～ｓｍを出力する。すなわち、注視点画像特徴量符号化手段１５０は、注視点符号系列（注視点符号ベクトル系列）｛ｓ１，ｓ２，・・・，ｓｍ｝を出力する。
本実施形態では、注視点画像特徴量符号化手段１５０として、再帰型ニューラルネットワーク(RNN)の一形態である双方向長期短期記憶(BLSTM)が用いられている。
注視点画像特徴量符号化手段１５０が、本発明の「注視点特徴情報符号化手段」に対応し、注視点符号系列（注視点符号ベクトル系列）｛ｓ１，ｓ２，・・・，ｓｍ｝が、本発明の「時系列の注視点符号」に対応する。

【0017】

注視点符号重み付け手段１６０は、注視点画像特徴量符号化手段から出力された時系列の注視点符号ｓ１～ｓｍに重みを付与して時系列の重み付き注視点符号（重み付き注視点符号ベクトル）（ｂ１＊ｓ１）～（ｂｍ＊ｓｍ）を出力する。すなわち、注視点符号重み付け手段１６０は、重み付き注視点符号系列（重み付き注視点符号ベクトル系列）｛ｂ１＊ｓ１，ｂ２＊ｓ２，・・・，ｂｍ＊ｓｍ｝を出力する。なお、重みｂ１～ｂｍは、重みｂ１～ｂｍの総和が「１」となるように設定される。
本実施形態では、注視点符号重み付け手段１６０として、ニューラルネットワークで構成される系列変換モデルの注意機構(Attention)が用いられている。
注視点符号重み付け手段１６０の動作は、後述する。

【0018】

統合手段１７０は、音声符号重み付け手段１３０から出力される時系列の重み付き音声符号（ａ１＊ｈ１）～（ａｎ＊ｈｎ）（重み付き音声符号系列｛ａ１＊ｈ１，ａ２＊ｈ２，・・・，ａｎ＊ｈｎ｝）と注視点符号重み付け手段１６０から出力される重み付き注視点符号（ｂ１＊ｓ１）～（ｂｍ＊ｓｍ）（重み付き注視点符号系列｛ｂ１＊ｓ１，ｂ２＊ｓ２，・・・，ｂｍ＊ｓｍ｝）を統合して時系列の統合重み付き符号（ａ１＊ｈ１＋ｂ１＊ｓ１）～（ａｎ＊ｈｎ＋ｂｍ＋ｓｍ）（重み付き符号系列｛ａ１＊ｈ１＋ｂ１＊ｓ１，ａ２＊ｈ２＋ｂ２＊ｓ２，・・・，ａｎ＊ｈｎ＋ｂｍ＊ｓｍ｝）を出力する。

【0019】

復号化手段は、図９に示されているように、統合手段１７０から出力された時系列の統合重み付き符号（ａ１＊ｈ１＋ｂ１＊ｓ１）～（ａｎ＊ｈｎ＋ｂｍ＋ｓｍ）（重み付き符号系列｛ａ１＊ｈ１＋ｂ１＊ｓ１，ａ２＊ｈ２＋ｂ２＊ｓ２，・・・，ａｎ＊ｈｎ＋ｂｍ＊ｓｍ｝）に対応するテキスト情報を、記憶手段５０に記憶されている文字列情報の中から選択した文字列情報Ｃ１～Ｃｉにより形成する。
文字列情報Ｃ１～Ｃｉを選択する方法としては、例えば、各時刻において各LSTMの隠れ層から出力される符号を、Softmax関数により当該文字列の出力スコア（確率値）に換算する。そして、出力スコアが高い文字列を選択する方法が用いられる。
復号化手段１８０で複合されたテキスト情報（音声認識結果）は、表示手段６０に表示される。
本実施形態では、復号化手段１８０として、再帰型ニューラルネットワーク(RNN)の一形態である長期短期記憶(LSTM: Long Short Term Memory)が用いられている。

【0020】

本実施形態は、音声情報を処理する音声チャネルと注視点画像を処理する注視点画像チャネルを有している。音声チャネルは、音声情報入力手段３０、音声特徴量抽出手段１１０、音声特徴量符号化手段１２０、音声符号重み付け手段１３０により構成される。注視点画像チャネルは、注視点画像情報入力手段４０、注視点画像特徴量抽出手段１４０、注視点画像特徴量符号化手段１５０、注視点符号重み付け手段１６０により構成される。
音声特徴量抽出手段１１０、音声特徴量符号化手段１２０、音声符号重み付け手段１３０、注視点画像特徴量抽出手段１４０、注視点画像特徴量符号化手段１５０、注視点符号重み付け手段１６０、統合手段１７０および復号化手段１８０は、共通のコンピューターで構成することもできるし、別々のコンピューターで構成することもできる。
また、１つの手段を他の手段に対して遠方に配置し、両手段間における情報の送受信を、インターネット等の通信回線を介して行うように構成することもできる。

【0021】

次に、本実施形態のマルチモーダル音声認識装置の学習動作について説明する。
学習では、事前に作成し記憶手段５０に記憶した教師情報（入力である音声情報および注視点画像情報と、出力であるテキスト情報のペア）を用いて、誤差逆伝播法により、変換手段２０（系列変換モデル）を構成するニューラルネットワークの各種重みパラメータを繰り返し学習する。例えば、「遮断器７４５選択」という音声情報と「遮断器７４５を選択する際の注視点画像情報系列」を入力する。そして、復号化手段１８０から出力されるテキスト情報と入力された「遮断器７４５選択」という音声情報との誤差が最小となるように、変換手段２０の各種重みパラメータを学習する。

【0022】

次に、本実施形態のマルチモーダル音声認識装置の音声認識動作を説明する。
音声情報および注視点画像情報が入力されると、本発明の処理手段１０の処理が開始される。処理手段１０の処理動作は、前述した通りである。
ここで、音声符号重み付け手段１３０による重み付け動作を、図１０を参照して説明する。
ディープラーニングに基づくエンドツーエンド(End-to-End)音声認識技術は、音声から取得する音声特徴量系列（音声特徴量ベクトル）を文字列に復号化するデコーダ(decoder)を有している。エンコーダは、音声特徴量系列を隠れ状態ベクトルに変換し、デコーダは、符号系列を隠れ状態ベクトルを介して認識結果であるテキスト情報に変換する。
本実施形態では、図９に示されているように、音声特徴量系列を符号化する音声エンコーダ、注視点画像特徴量系列（注視点画像特徴量ベクトル）を符号化する注視点エンコーダ、音声符号系列（音声符号ベクトル）と注視点符号系列（注視点符号ベクトル）を統合して文字列にマッピングするデコーダを有している。さらに、本実施形態では、デコーダにおいて、音声符号系列および注視点符号系列のそれぞれに対し、重み(Attention)を付与して統合重み付き符号系列を生成している。なお、音声エンコーダは、音声特徴量符号化手段１２０により構成されている。また、注視点エンコーダは、注視点画像特徴量符号化手段１５０により構成されている。また、デコーダは、音声符号重み付け手段１３０、注視点符号重み付け手段１６０、統合手段１７０、復号化手段１８０により構成されている。
図１０に一点鎖線で示されている、復号化手段１８０の任意の時刻ｔの時間断面における音声符号重み（音声符号重みベクトル）は、音声特徴量符号化手段１２０のＢＬＳＴＭの隠れ層から出力される隠れ状態ベクトル系列である{ｈ（１），…，ｈ（ｎ）}と、復号化手段１８０の、１つ前の時刻（ｔ－１）におけるＬＳＴＭの隠れ状態ベクトルｕ（ｔ－１）とに基づいて動的に付与される。例えば、隠れ状態ベクトルｕ（ｔ－１）と隠れ状態ベクトル系列{ｈ（１），…，ｈ（ｎ）}の各要素との類似度ａ（ｉ）（ｉ＝１，…，ｎ）は、隠れ状態ベクトルｕ（ｔ－１）と隠れ状態ベクトル系列{ｈ(１），…，ｈ（ｎ）}の各要素との内積を取ることによりａ（ｉ）＝ｕ（ｔ－１）・ｈ（ｉ）（ｉ＝１，…，ｎ）のように数値的に求めることができる。ここで、音声符号重みａ（ｉ）は合計が「１」になるように正規化しておく。時刻（ｔ）における音声エンコーダからデコーダへの入力は、音声符号重みａ（ｉ）（ｉ＝１，…，ｎ）と隠れ状態ベクトル系列｛ｈ（１），…，ｈ（ｎ）｝を用いて、［ａ（１）＊ｈ（１）＋…＋ａ（ｎ）＊ｈ（ｎ）］で表される。
なお、前記類似度の計算においては、種々の評価尺度を用いることができる。

【0023】

注視点符号重み付け手段１６０による重み付け動作を、図１１を参照して説明する。
図１１に一点鎖線で示されている、復号化手段１８０の任意の時刻ｔの時間断面における注視点符号重み（注視点符号重みベクトル）は、注視点画像特徴量符号化手段１５０のＢＬＳＴＭの隠れ層から出力される隠れ状態ベクトル系列である｛ｓ（１），…，ｓ（ｍ）｝と、復号化手段１８０の、１つ前の時刻（ｔ－１）におけるＬＳＴＭの隠れ状態ベクトルｕ（ｔ－１）とに基づいて動的に付与される。例えば、隠れ状態ベクトルｕ（ｔ－１）と隠れ状態ベクトル系列｛ｓ（１），…，ｓ（ｍ）｝の各要素との類似度ｂ（ｊ）（ｊ＝１，…，ｍ）は、隠れ状態ベクトルｕ（ｔ－１）と隠れ状態ベクトル系列｛ｓ（１），…，ｓ（ｍ）｝の各要素との内積を取ることよりｂ（ｊ）＝ｕ（ｔ－１）・ｓ（ｊ）（ｊ＝１，…，ｍ）のように数値的に求めることができる。ここで、注視点符号重みｂ（ｊ）は合計が「１」になるように正規化しておく。時刻（ｔ）における注視点エンコーダからデコーダへの入力は、注視点符号重みｂ（ｊ）（ｊ＝１，…，ｍ）と隠れ状態ベクトル系列｛ｓ（１），…，ｓ（ｍ）｝を用いて、［ｂ（１）＊ｓ（１）＋…＋ｂ（ｍ）＊ｓ（ｍ）］で表される。
なお、前記類似度の計算においては、種々の評価尺度を用いることができる。

【0024】

以上のようにして、音声エンコーダおよび注視点エンコーダからの出力符号に、動的に重みを付与することができる。
次に、統合手段１７０において、前記方法で求められた重み付き音声符号系列および注視点符号系列を、ｒ（ｔ）＝［ａ（１）＊ｈ（１）＋…＋ａ（ｎ）＊ｈ（ｎ）］＋［ｂ（１）＊ｓ（１）＋…＋ｂ（ｍ）＊ｓ（ｍ）］として統合化し、このｒ（ｔ）を時刻ｔにおける復号化手段１８０（デコーダ）のＬＳＴＭへの入力とする。
そして、復号化手段１８０は、前述したように、各時刻において各ＬＳＴＭから出力される文字列を、Softmax関数により当該文字列の出力スコア（確率値）に換算する。そして、出力スコアが高い文字列を選択してテキスト情報（音声認識結果）を形成する。

【0025】

以上のように、音声符号重み付け手段１３０による音声符号系列に対する重み付け（音声チャネルにおける符号重み付け）および注視点符号重み付け手段１６０による注視点符号系列に対する重み付け（注視点画像チャネルにおける重み付け）を行うことによって、復号化手段１８０に入力される統合重み付き符号系列に対応するテキスト情報（テキスト情報を構成する文字列情報）を、音声情報と注視点画像情報との相関関係を推定ながら形成することができる。
発話者が発声する音声と音声発声時における発話者の注視点は、相互に関連している。
このため、本実施形態では、発話者の音声と注視点との相互関係を推定して音声認識を行うことによって、音声認識性能を向上させることができる。

【0026】

本実施形態の効果を確認するために、音声情報のみを用いた（モデル１）と、音声情報と注視点画像情報を用いた（モデル２）について比較実験を行い、文字単位の誤り率であるＣＥＲ(Character Error Rate)を求めた。なお、ＣＥＲは、[ＣＥＲ＝（Ｓ＋Ｄ＋Ｉ）＊１００/Ｎ]で表される。ここで、Ｓは置換誤り数、Ｄは脱落誤り数、Ｉは挿入誤り数、Ｎは正解文の文字数を表す。
実験の結果、（モデル１）ではＣＥＲが７．２％であったが、（モデル２）では６．９％に低減しており、本発明の構成の適用効果が確認された。

【0027】

以上の実施形態では、音声符号系列（音声符号ベクトル）ｈと注視点符号系列（注視点符号ベクトル）ｓを、同じ割合で統合した統合符号系列（統合符号ベクトル）ｒ（［ｒ＝ａ＊ｈ＋ｂ＊ｓ］）を用いたが、音声符号系列ｈと注視点符号系列ｓの融合割合を変えることもできる。例えば、［ｒ＝ａ＊ｈ＋ｇ＊（ｂ＊ｓ）］で表される統合符号系列ｒを用いることができる。ここで、ｇは、注視点符号系列の融合割合を示す融合重み（融合重みベクトル）である。融合重みベクトルは、固定でもよいし、動的に割り当てることもできる。

【0028】

次に、音声認識結果の出力方法について説明する。
本実施形態では、復号化手段１８０で復号化したテキスト情報を表示手段６０に表示している。
図１２に、テキスト情報を表示する表示画面２００の一例が示されている。
図１２に示されている表示画面２００には、遮断器やラインスイッチの投入および切断を行う操作盤３００が表示されている。操作盤３００には、遮断器７４０、７４２、７４５を選択する際に操作される遮断器選択ボタン３１１～３１３、ラインスイッチ７４０、７４２、７４５を選択する際に操作されるラインスイッチ選択ボタン３１４～３１６、投入する際に操作される入ボタン３１７、遮断する際に操作される切ボタン３１８が設けられている。
ここで、発話者が、「ラインスイッチ７４５選択操作」という音声を発声するとともに、操作盤３００のラインスイッチ選択ボタン３１６を注視し、復号化手段１８０から「ラインスイッチ７４５選択操作」というテキスト情報が音声認識されたものとする。本実施形態では、操作盤３００が表示されている表示画面２００に、注視点に関連する位置、図１２では、ラインスイッチ選択ボタン３１６に対応する箇所に「ラインスイッチボタン７４５操作選択」というテキスト情報が表示される。
これにより、発話者の音声と注視点の位置を容易に判別することができる。
図１２には、「ラインスイッチ７４５を選択操作」という音声を発声した後、「入れます」という音声を発声するとともに、操作盤３００の入ボタン３１７を注視したことにともなって、注視点に関連する位置、図１２では、入ボタン３１７に対応する箇所に「入れます」というテキスト情報が表示される。
なお、表示画面２００にテキスト情報が表示されている状態において、表示画面２００に表示されているテキスト情報を選択する（例えば、タッチする）ことにより、表示されているテキスト情報に対応する音声情報、例えば、当該テキスト情報を認識させる際に入力された音声情報をスピーカ等の音声出力手段から出力するように構成することもできる。
テキスト情報を表示手段６０に表示する処理や、テキスト情報に対応する音声情報を音声出力手段から出力する処理等は、例えば、処理手段１０で実行される。

【0029】

以上では、マルチモーダル音声認識装置について説明したが、本発明は、マルチモーダル音声認識方法として構成することもできる。
（態様１）
マルチモーダル音声認識方法であって、
発話者の音声を示す音声情報から、音声特徴情報を時系列に抽出する第１ステップと、
前記発話者が注視している注視点の周辺の注視点画像を示す注視点画像情報から、注視点特徴情報を時系列に抽出する第２ステップと、
前記抽出した時系列の音声特徴情報および前記抽出した時系列の注視点特徴情報に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する第３ステップと、を備えていることを特徴とするマルチモーダル音声認識方法。
（態様２）
態様１のマルチモーダル音声認識方法であって、
前記第３ステップは、
前記抽出した時系列の音声特徴情報を符号化して時系列の音声符号を出力する第４ステップと、
前記時系列の音声符号に重みを付与して時系列の重み付き音声符号を出力する第５ステップと、
前記時系列の注視点特徴情報を符号化して時系列の注視点符号を出力する第６ステップと、
前記時系列の注視点符号に重みを付与して時系列の重み付き注視点符号を出力する第７ステップと、
前記時系列の重み付き音声符号と前記時系列の重み付き注視点符号を統合した統合符号に対応するテキスト情報を、記憶手段に記憶されている文字列情報の中から選択した文字列情報により形成する第８ステップと、を有していることを特徴とするマルチモーダル音声認識方法。
このようなマルチモーダル音声認識方法も、前述したマルチモーダル音声認識装置と同様の効果を有する。

【0030】

本発明は、実施形態で説明した構成に限定されず、種々の変更、追加、削除が可能である。
実施形態では、音声情報と注視点画像情報をマルチモーダル情報として用いたが、３以上の情報をマルチモーダル情報として用いることもできる。例えば、音声情報、注視点画像情報およびジェスチャー情報（身振りや手振り）をマルチモーダル情報として用いることもできる。
視線計測装置の可視光領域の撮像素子を用いて注視点画像情報を入力したが、赤外線センサや紫外線センサ等の種々のセンサを用いて注視点画像情報を入力することができる。
本発明のマルチモーダル音声認識装置およびマルチモーダル音声認識方法は、作業員の操作確認に限定されず、音声付き動画の字幕作成や映像検索、動画を用いた技能継承や教育訓練等の種々の分野で用いることができる。
音声情報入力手段としては、音声情報を入力可能な種々の構成の音声情報入力手段を用いることができる。また、音声情報を予め記憶している記憶手段等を音声情報入力手段として用いることもできる。
注視点画像情報入力手段としては、注視点の周辺の注視点画像情報を入力可能な種々の構成の注視点画像情報入力手段を用いることができる。また、注視点画像情報を予め記憶している記憶手段等を注視点画像情報入力手段として用いることもできる。
音声特徴量抽出手段（音声特徴情報抽出手段）、音声特徴量符号化手段（音声特徴情報符号化手段）、音声符号重み付け手段、注視点画像特徴量抽出手段（注視点特徴情報抽出手段）、注視点画像特徴量符号化手段（注視点特徴情報符号化手段）、注視点符号重み付け手段、統合手段、復号化手段の構成は、実施形態で説明した構成に限定されない。
音声認識結果等を表示手段に表示する方法は、実施形態で説明した方法に限定されない。
音声認識結果等を出力する方法は、表示手段に表示する方法に限定されない。例えば、通信回線を介して遠方の管理装置に送信する方法を用いることもできる。

【符号の説明】

【0031】

１０処理手段
２０変換手段
３０音声情報入力手段
４０注視点画像情報入力手段
５０記憶手段
６０表示手段
１１０音声特徴量抽出手段（音声特徴情報抽出手段）
１２０音声特徴量符号化手段（音声特徴情報符号化手段）
１３０音声符号重み付け手段
１４０注視点画像特徴量抽出手段（注視点特徴情報抽出手段）
１５０注視点画像特徴量符号化手段（注視点特徴情報符号化手段）
１６０注視点符号重み付け手段
１７０統合手段
１８０復号化手段
２００表示画面
３００操作盤
３１１～３１３遮断器選択ボタン
３１４～３１６ラインスイッチ選択ボタン
３１７入ボタン
３１８切ボタン
３２１、３２２テキスト情報表示部

【図1】