(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-02-26
(45)【発行日】2025-03-06
(54)【発明の名称】発話内容認識装置、方法及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20250227BHJP
G10L 15/25 20130101ALI20250227BHJP
G06F 3/16 20060101ALI20250227BHJP
【FI】
G06T7/00 350B
G10L15/25
G06F3/16 650
(21)【出願番号】P 2021024841
(22)【出願日】2021-02-19
【審査請求日】2023-04-06
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(73)【特許権者】
【識別番号】504139662
【氏名又は名称】国立大学法人東海国立大学機構
(74)【代理人】
【識別番号】100098626
【氏名又は名称】黒田 壽
(72)【発明者】
【氏名】田村 哲嗣
(72)【発明者】
【氏名】磯部 真之介
(72)【発明者】
【氏名】速水 悟
(72)【発明者】
【氏名】西脇 拓実
(72)【発明者】
【氏名】後藤 悠斗
(72)【発明者】
【氏名】能勢 将樹
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2020-126492(JP,A)
【文献】特開2004-240154(JP,A)
【文献】Stavros Petridis、Yujiang Wang、Zuwei Li、Maja Pantic,“End-to-End Multi-View Lipreading”,2017年
【文献】小梶 金志郎 外1名,CNNによる口元画像の正面変換を用いた斜め視点リップリーディングに関する検討,電子情報通信学会2020年総合大会講演論文集 基礎・境界/NOLTA,2020年03月03日
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G10L 15/25
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
話者の発話内容を認識する発話内容認識装置であって、
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、当該対応方向が2つ以上である複方向読唇部を含むことを特徴とする発話内容認識装置。
【請求項2】
話者の発話内容を認識する発話内容認識装置であって、
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記入力部に入力された口唇画像データの撮像方向および撮像方向ごとの確信度情報を複数推定する撮像方向推定部を有し、
前記統合生成部は、前記撮像方向推定部の複数の推定結果を用いて
前記各読唇処理結果を統合し、
当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とする発話内容認識装置。
【請求項3】
話者の発話内容を認識する発話内容認識装置であって、
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とする発話内容認識装置。
【請求項4】
話者の発話内容を認識する発話内容認識装置であって、
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記話者の音声データから該話者の発話内容候補と発話内容候補ごとの信頼度情報とを認識結果として出力する音声認識部を有し、
前記統合生成部は、前記複数の読唇部の読唇処理結果と前記音声認識部の認識結果
とを統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とする発話内容認識装置。
【請求項5】
請求項1乃至4のいずれか1項に記載の発話内容認識装置において、
前記複数の読唇部は、当該対応方向が1つである単方向読唇部を含むことを特徴とする発話内容認識装置。
【請求項6】
請求項1乃至5のいずれか1項に記載の発話内容認識装置において、
前記入力部に入力された口唇画像データに基づいて、撮像方向が前記複数の読唇部のうちの少なくとも1つの読唇部の対応方向になるように変換したデータを生成するデータ変換部を有し、
前記少なくとも1つの読唇部は、前記データ変換部で変換されたデータを用いて読唇処理を行うことを特徴とする発話内容認識装置。
【請求項7】
請求項1、2又は4に記載の発話内容認識装置において、
前記複数の読唇部は、発話内容候補を推定するための中間情報を読唇処理により読唇処理結果として生成し、
前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる中間情報を統合することを特徴とする発話内容認識装置。
【請求項8】
請求項1乃至7のいずれか1項に記載の発話内容認識装置において、
前記複数の読唇部は、話者の口唇画像データを含む学習データを用いて学習した機械読唇モデルをコンピュータに実行させることにより、前記入力部に入力された口唇画像データの読唇処理を行う読唇部を含むことを特徴とする発話内容認識装置。
【請求項9】
発話内容認識装置により話者の発話内容を認識する方法であって、
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、当該対応方向が2つ以上である複方向読唇部を含むことを特徴とする方法。
【請求項10】
発話内容認識装置により話者の発話内容を認識する方法であって、
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記入力工程で入力された口唇画像データの撮像方向および撮像方向ごとの確信度情報を複数推定する撮像方向推定工程を有し、
前記統合生成工程では、前記撮像方向推定工程の複数の推定結果を用いて
前記各読唇処理結果を統合し、
当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とする方法。
【請求項11】
発話内容認識装置により話者の発話内容を認識する方法であって、
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成工程では、前記複数の読唇部の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とする方法。
【請求項12】
発話内容認識装置により話者の発話内容を認識する方法であって、
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇部は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記話者の音声データから該話者の発話内容候補と発話内容候補ごとの信頼度情報とを認識結果として出力する音声認識工程を有し、
前記統合生成工程では、前記複数の読唇部の読唇処理結果と前記音声認識工程の認識結果
とを統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とする方法。
【請求項13】
話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段として、前記コンピュータを機能させるものであり、
前記複数の読唇手段のうちの少なくとも1つの読唇手段は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇手段は、当該対応方向が2つ以上である複方向読唇手段を含むことを特徴とするプログラム。
【請求項14】
話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段、及び、前記入力された口唇画像データの撮像方向および撮像方向ごとの確信度情報を複数推定する撮像方向推定手段として、前記コンピュータを機能させるものであり、
前記複数の読唇手段のうちの少なくとも1つの読唇手段は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記統合生成手段は、前記撮像方向推定手段の複数の推定結果を用いて
前記各読唇処理結果を統合し、
当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とするプログラム。
【請求項15】
話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段として、前記コンピュータを機能させるものであり、
前記複数の読唇手段のうちの少なくとも1つの読唇手段は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇手段は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成手段は、前記複数の読唇手段の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とするプログラム。
【請求項16】
話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段、及び、前記話者の音声データから該話者の発話内容候補と発話内容候補ごとの信頼度情報とを認識結果として出力する音声認識手段として、前記コンピュータを機能させるものであり、
前記複数の読唇手段のうちの少なくとも1つの読唇手段は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、
前記複数の読唇手段は、読唇処理により推定された1又は2以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成手段は、前記複数の読唇手段の読唇処理結果と前記音声認識手段の認識結果
とを統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成することを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話内容認識装置、方法及びプログラムに関するものである。
【背景技術】
【0002】
従来、話者の発話内容を認識する発話内容認識装置が知られている。例えば、話者の口唇画像データを入力し、対応方向から撮像された口唇画像データに対する読唇精度の高い読唇部を用いて、話者の発話内容を認識する装置が知られている。
【0003】
また、非特許文献1には、畳み込みニューラルネットワークを用いたエンコーダ・デコーダモデルによる「View2View」と呼ばれる手法が開示されている。この手法では、予め正面顔の画像データ(顔の正面方向から撮像された口唇画像データ)で学習した機械読唇モデルを用いて読唇結果を出力する。非正面顔の画像データが入力された場合には、正面顔の画像データに変換してから機械読唇モデルに入力し、読唇結果を出力する。
【0004】
また、非特許文献2には、双方向長短記憶と呼ばれる深層学習技術を用いたエンドツーエンドの読唇手法が開示されている。この非特許文献2には、正面顔と横顔など、複数の撮像角度から撮像した顔画像データを組み合わせて学習することで、読唇モデルの読唇性能が向上することが記載されている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の読唇部を備えた発話内容認識装置においては、特定の方向(対応方向)から撮像された口唇画像データでは正しい読唇結果が高い精度で得られるが、当該対応方向とは異なる方向から撮像された口唇画像データでは精度が落ちるという課題がある。
【課題を解決するための手段】
【0006】
上述した課題を解決するために、本発明は、話者の発話内容を認識する発話内容認識装置であって、話者の口唇画像データを入力する入力部と、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成され、前記複数の読唇部は、当該対応方向が2つ以上である複方向読唇部を含むことを特徴とする。
【発明の効果】
【0007】
本発明によれば、読唇部の対応方向とは一致しない方向から撮像された口唇画像データでも正しい読唇結果が高い精度で得られるので、対応方向の数を超える様々な種類(様々な撮像方向)の口唇画像データについて発話内容を高精度に認識できる。
【図面の簡単な説明】
【0008】
【
図1】実施形態1に係る読唇装置を示すブロック図。
【
図2】ニューラルネットワークを構成する1つのニューロンのモデルの一例を示す説明図。
【
図3】複数層構造のニューラルネットワークの一例を示す説明図。
【
図4】実施形態1における機械読唇モデル(学習済みモデル)の作成方法(学習モード)の概要を示す説明図。
【
図5】実施形態1に係る読唇装置の他の例を示すブロック図。
【
図6】実施形態1に係る読唇装置の更に他の例を示すブロック図。
【
図7】変形例1における読唇装置を示すブロック図。
【
図8】変形例2における読唇装置を示すブロック図。
【
図9】実施形態2に係るマルチモーダル音声認識装置を示すブロック図。
【
図10】実施形態3における学習データ収集システムの構成を示す説明図。
【
図11】同学習データ収集システムのカメラアレイを鉛直方向上方から見た説明図。
【発明を実施するための形態】
【0009】
〔実施形態1〕
以下、本発明を、発話内容認識装置としての読唇装置に適用した一実施形態(以下、本実施形態を「実施形態1」という。)について説明する。
本実施形態1の読唇装置は、口唇画像データとして話者の顔を撮像した顔画像データを入力し、入力された顔画像データの口唇部分を解析して当該話者が発話する発話内容の認識結果(読唇結果)を出力する。
【0010】
図1は、本実施形態1に係る読唇装置を示すブロック図である。
本実施形態1の読唇装置100は、主に、入力部としての画像入力部111と、複数の読唇部としての2つの単一角度対応読唇部131,132と、統合生成部としての読唇結果統合部141と、から構成されている。
【0011】
画像入力部111は、発話内容を認識する対象である話者の顔画像データ(口唇画像データ)の入力を受け付ける。本実施形態1の画像入力部111は、話者の顔を撮像する撮像装置であるカメラ1や、顔画像データを記憶した記憶媒体2に対し、有線または無線で通信可能に接続されている。カメラ1からは、現に話者が発話しているリアルタイムの顔画像データが画像入力部111に入力される。記憶媒体2は、過去に話者が発話したときの顔画像データを記憶しており、記憶媒体2からは、過去の顔画像データが画像入力部111に入力される。
【0012】
画像入力部111は、入力された顔画像データを、必要に応じ、前記2つの単一角度対応読唇部131,132の入力前に画像処理して、各単一角度対応読唇部131,132にそれぞれ受け渡す。例えば、入力された顔画像データ中の口唇画像部分を時系列に並べて抽出し、その口唇画像部分のデータを各単一角度対応読唇部131,132にそれぞれ受け渡す。
【0013】
画像入力部111に入力される口唇画像データは、話者の口唇を含むように撮像された画像データであれば、その撮像方向に特に制限はない。
また、画像入力部111に入力される口唇画像データは、画像データ形式のものであってもよいし、口唇画像データを加工又は演算して得られる非画像データ形式のものであってもよい。
また、口唇画像データは、通常、実在の話者を撮像装置等により撮像して得られる撮像画像データであるが、仮想の話者(コンピュータグラフィックス等により作成されたもの等)を所定の視点から見たときの画像データであってもよい。
【0014】
2つの単一角度対応読唇部131,132は、それぞれ、特定の方向(対応方向)から撮像された口唇画像データに対する読唇精度の高い読唇処理を行い、その読唇処理結果を生成する。2つの単一角度対応読唇部131,132は、それぞれの対応方向の中に、他方の単一角度対応読唇部における対応方向に含まれていない方向を含むように構成されている。
【0015】
本実施形態1では、上述した対応方向を、話者の顔の正面方向から撮像したときの撮像方向を基準(0°)にした鉛直軸回りの角度(以下「対応角度」という。)で表すものとする。このとき、第一単一角度対応読唇部131は、話者の顔の正面方向から撮像したときの顔画像データに対する読唇精度が高く(利用者の要求レベルを満たす精度閾値を超えている)、その対応角度(読唇精度の高い角度)は0°である。一方、第二単一角度対応読唇部132は、話者の顔の正面方向に対して30°だけ横にずれた方向から撮像したときの顔画像データに対する読唇精度が高く、その対応角度(読唇精度の高い角度)は30°である。
【0016】
本実施形態1の単一角度対応読唇部131,132は、所定の読唇処理プログラム(推定プログラム)をコンピュータで実行することにより、画像入力部111に入力された顔画像データに対する読唇処理を実行し、読唇処理結果を生成する。本実施形態1の読唇処理プログラムは、話者の顔画像データを含む学習データを用いて学習した機械読唇モデル(学習済みモデル)を用いるが、プログラマーによってプログラミングされた読唇処理プログラムを用いてもよい。
【0017】
本実施形態1における機械読唇モデル(学習済みモデル)は、入力されたデータ(顔画像データ)から話者の発話内容を推定するものであり、機械読唇モデルから出力される推定結果(読唇処理結果)の形式には特に制限はない。一例として、本実施形態1では、入力されたデータ(顔画像データ)に対し、1又は2以上の発話内容候補(1つの文字、1つの語又は語系列など)と、その発話内容候補ごとの信頼度情報(以下「信頼度スコア」という。)とを含むデータを読唇処理結果として出力する場合について説明する。
【0018】
所定の対応角度に特化した機械読唇モデル(当該対応角度の顔画像データに対する読唇精度の高い学習済みモデル)は、例えば、当該対応角度から撮像された大量の顔画像データを学習データとして機械学習や深層学習を行うことで作成することができる。例えば、このような学習データを用い、所定のモデルに対して教師あり学習を行わせることで、未知の顔画像データの入力に受けたときに、学習データから学習した特徴に従って、1又は2以上の発話内容候補と各発話内容候補の信頼度スコアとを含むデータを推定結果として出力する機械読唇モデル(学習済みモデル)を得ることができる。なお、本実施形態1では、所定のモデルとしては、ニューラルネットワークモデルを採用するが、他の機械学習モデルを使用することも可能である。
【0019】
「教師あり学習」では、一般に、ある入力と結果(ラベル)のデータの組を大量に機械学習装置に与えることで、それらのデータセットにある特徴を学習し、入力から結果を推定するモデル、すなわち、その関係性を帰納的に獲得することができる。これは、後述のニューラルネットワークやSVM(Support Vector Machine)などのアルゴリズムを用いて実現することができる。
【0020】
ニューラルネットワークは、例えば、
図2に示すようなニューロンのモデルを模したニューラルネットワークを実現する演算装置及びメモリ等で構成される。
図2に示すように、ニューロンは、複数の入力x(ここでは一例として、入力x1~入力x3としているが、その入力数は、より少ない数でもよいし、より多くの数でもよい。)に対する出力yを出力するものである。各入力x1~x3には、それぞれの入力xに対応する重みW(W1~W3)が乗算される。これにより、ニューロンは、次の式(1)及び(2)により表現される出力yを出力する。なお、式(1)及び(2)において、θはバイアスであり、fkは活性化関数である。
【0021】
y = fk(v) ・・・(1)
v=Σ(W×x)-θ ・・・(2)
【0022】
ニューラルネットワークの動作には、学習モードと評価モードとがあり、学習モードでは学習データを用いて重みWを学習し、評価モードではその重みWを用いて評価用データの入力に対する出力(本実施形態1では発話内容候補とそれぞれの信頼度スコア)を得る。重みW1~W3は、誤差逆伝搬法(バックプロパゲーション)等により学習可能である。誤差逆伝搬法は、入力xが入力されたときの出力yと正解の出力y(正解ラベル)との差分を小さくするように、各ニューロンについての重みを調整(学習)する手法である。
【0023】
ニューラルネットワークは、
図3に示すように、深層学習あるいはディープラーニングを呼ばれる複数層構造にすることが可能である。
図3の例は、中間層(隠れ層)が3層構造になっている例である。各層は複数のノード(ニューロン)で構成され、各層間のノードはそれぞれ異なる重みWで連結されている。入力層に投入された入力x1~x6は、重みWの異なる中間層内のノードを通過する中で、入力x1~x6が重みWによって重み付けされながら合成され、出力層を通過して出力yを導出する。
【0024】
本実施形態1では、
図3に示すような複数層構造のニューラルネットワークからなるニューラルネットワークモデルを採用し、既知の発話内容を発話する話者の顔画像データを含む学習データを用い、これに正しい発話内容を正解ラベルとして用いて、教師あり学習をさせることにより、機械読唇モデル(学習済みモデル)を作成する。
【0025】
図4は、本実施形態1における機械読唇モデル(学習済みモデル)の作成方法(学習モード)の概要を示す説明図である。
本実施形態1の学習モードでは、
図4に示すように、指示される発話内容を話者が発話し、これを、それぞれの対応角度(本実施形態1では0°と30°)から各収録用カメラ31-1,31-2によって撮像する。このように撮像された顔画像データは、対応角度ごとに学習データ記憶媒体32に記憶される。学習データ記憶媒体32に記憶される顔画像データは、時系列が特定できる形式で記憶される。そのため、学習データ記憶媒体32に記憶された顔画像データは、話者が発話した時期(各発話内容が発話された時期)と照らし合わせることで、話者の発話内容と対応づけられ、学習データとして用いることができる。
【0026】
このように学習データ記憶媒体32に蓄積された学習データは、対応角度が0°の顔画像データについては第一学習部33-1に用いられ、対応角度が30°の顔画像データについては第二学習部33-2に用いられる。なお、学習データには、より精度を高めるために、発話内容を特定(推定)するための特徴量として有用な他の情報を含めることができる。第一学習部33-1では、入力される学習データにより、対応角度が0°である機械読唇モデル(学習済みモデル)が生成され、生成された機械読唇モデルは、本実施形態1の第一単一角度対応読唇部131にインストールされる。同様に、第二学習部33-2では、入力される学習データにより、対応角度が30°である機械読唇モデル(学習済みモデル)が生成され、生成された機械読唇モデルは、本実施形態1の第二単一角度対応読唇部132にインストールされる。
【0027】
生成した機械読唇モデル(学習済みモデル)については、その学習済みモデルの作成(学習モード)を繰り返し試行して、パラメータチューニングを実行してもよい。パラメータチューニングで調整(チューニング)するパラメータとは、学習済みモデルにおける設定値や制限値(ハイパーパラメータ)などをいう。パラメータチューニングは、例えば、モデルが最適解を出せるパラメータを走査して設定する作業である。パラメータチューニングの種類としては、グリッドサーチ法やランダムサーチ法などがあり、これらを用いることができる。
【0028】
また、機械読唇モデル(学習済みモデル)に対してモデル評価を行ってもよい。このモデル評価には、例えば、クロスバリデーションやホールドアウト法などを用いることができる。ホールドアウト法とクロスバリデーションを併用してモデル評価を行うこともできる。
【0029】
具体的には、ホールドアウト法では、元データを、事前に、学習モードで使用する学習用データと、評価モードで使用するテストデータとに分割しておき、学習用データだけを用いて学習済みモデルの作成を試行する。その後、作成した学習済みモデルにテストデータを入力し、その出力結果と当該テストデータの正解ラベルとの比較(誤差=推定精度)を行ってモデル評価を行う。
【0030】
また、クロスバリデーションでは、元データを例えば5グループに分け、1回目は、そのうちの1つのグループをテストデータとし、それ以外のグループを学習用データとして、学習済みモデルの作成とモデル評価を行う。2回目は、1回目とは異なるグループをテストデータとし、3回目は1回目及び2回目とは異なるグループをテストデータとして、同様に学習済みモデルの作成とモデル評価を行う。これを5グループすべてについて行い、各回で評価したモデル評価(推定精度)の平均を取る。
【0031】
また、本実施形態1の推定プログラム(学習済みモデル)を蒸留して、新たに同様の機能を備えた推定プログラム(蒸留モデル)を作成することもできる。具体的には、本実施形態1の推定プログラム(学習済みモデル)に対し、蒸留用入力データとして、発話内容が既知である顔画像データを入力し、その信頼度スコアを出力させる。そして、出力された信頼度スコアを蒸留用入力データの正解ラベルとした蒸留用の学習データを作成し、この蒸留用の学習データを用いてモデルに学習させることにより、本実施形態1の推定プログラム(学習済みモデル)と同様の機能を備えた新たな推定プログラム(蒸留モデル)を作成する。このようにして作成される新たな推定プログラム(蒸留モデル)は、一般に、本実施形態1の推定プログラム(学習済みモデル)よりも軽量化される。また、蒸留用入力データを工夫するなどすることで、本実施形態1の推定プログラム(学習済みモデル)よりも推定精度を高めることも可能である。
【0032】
なお、本実施形態1の機械読唇モデルは、発話内容候補と各発話内容候補の信頼度スコアとを含むデータを読唇処理結果として用いる例であるが、後段の読唇結果統合部141で用いるデータ形式に合わせた中間表現のデータを読唇処理結果として用いてもよい。具体的には、読唇処理結果として、機械読唇モデルを用いて読唇処理を行った際の当該機械読唇モデルの内部状態を記録したベクトルデータを用いてもよい。
【0033】
本実施形態1においては、このように、特定の方向(対応方向)から撮像された口唇画像データに対する読唇精度の高い2つの単一角度対応読唇部131,132を用いて、口唇画像データに対する読唇処理を実行する。そして、本実施形態1で用いられる2つの単一角度対応読唇部131,132は、それぞれの対応角度(高い読唇精度が得られる角度)が、他方の単一角度対応読唇部における対応角度に含まれていない角度を含んでいる。そのため、これらの単一角度対応読唇部の対応角度(0°と30°)のいずれかの角度と一致する角度から撮像された口唇画像データであれば、これらの単一角度対応読唇部で高い読唇精度が得られ、その読唇処理結果から発話内容を高精度に認識可能である。したがって、本実施形態1によれば、0°と30°の角度から撮像された口唇画像データについて、発話内容を高精度に認識することができる。
【0034】
ここで、2つの単一角度対応読唇部131,132のいずれの対応角度とも一致しない角度(例えば15°や45°)から撮像された口唇画像データについては、個々の単一角度対応読唇部131,132の読唇処理では十分な読唇精度が得られない。そのため、いずれかの単一角度対応読唇部131,132の読唇処理結果だけを用いたのでは、このような口唇画像データについて発話内容を高精度に認識することはできない。
【0035】
そこで、本実施形態1では、読唇結果統合部141を設け、2つの単一角度対応読唇部131,132で得られた各読唇処理結果を統合し、その統合結果に基づいて話者の発話内容の認識結果を最終的な読唇結果として生成する。これにより、個々の単一角度対応読唇部131,132の各読唇処理結果は、正解である発話内容の確からしさ(信頼度スコア)が不正解である他の発話内容の確からしさと比較して有意に高くない又は逆に低いという結果である場合であっても、これらの読唇処理結果を統合することで、正解である発話内容の確からしさ(信頼度スコア)を際立たせ、不正解である他の発話内容の確からしさに対して有意に高くなるように処理することが可能となる。
【0036】
読唇結果統合部141が行う統合処理は、精度の高い認識結果が得られるように(本実施形態1であれば、正解の発話内容の信頼度スコアが相対的に高くなるように)、2つの単一角度対応読唇部131,132で得られた各読唇処理結果を統合する処理であれば、特に制限はない。
【0037】
読唇結果統合部141が行う統合処理の一例としては、例えば、2つの単一角度対応読唇部131,132で得られた読唇処理結果のいずれにも含まれる共通の発話内容候補(語や語系列など)の中で最も信頼度スコアの高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの高い順に2以上の発話内容候補を統合結果としてもよい。
また、例えば、2つの単一角度対応読唇部131,132で得られた読唇処理結果に含まれる発話内容候補ごとの信頼度スコアの合計値を算出し、合計値が最も高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの合計値が算出された2以上の発話内容候補を統合結果としてもよい。
【0038】
読唇結果統合部141が行う統合処理の別例としては、2つの単一角度対応読唇部131,132における中間表現から認識結果を得る学習済みモデル(統合モデル)を、例えばニューラルネットワークモデルによって予め学習しておく。そして、2つの単一角度対応読唇部131,132で得られた読唇処理結果に含まれる各中間表現(ベクトル等)を連結して1つの中間表現を生成し、読唇結果統合部141のコンピュータで学習済みの統合モデルを実行して、当該1つの中間表現から1又は2以上の発話内容の認識結果を得て、これを統合結果とする。あるいは、当該1つの中間表現から1又は2以上の発話内容の認識結果に、それぞれの信頼度スコアを含めてもよい。
【0039】
本実施形態1の読唇装置100によれば、2つの単一角度対応読唇部131,132の各読唇処理結果を読唇結果統合部141で統合することで、各単一角度対応読唇部131,132の読唇処理により高精度な読唇結果が得られる0°と30°の対応角度だけでなく、この対応角度から外れた角度(例えば15°や45°)の口唇画像データについても、発話内容を高精度に認識することが可能となる。その結果、2つの単一角度対応読唇部131,132における対応角度の数(0°と30°)を超える様々な角度からの口唇画像データについて、発話内容を高精度に認識することが可能となる。
【0040】
読唇結果統合部141で生成した認識結果は、話者の発話内容の認識結果を利用する後段の情報処理装置等へ出力したり、話者の発話内容の認識結果を蓄積する情報蓄積装置へ出力したりする。なお、出力態様に特に制限はなく、例えば、本実施形態1の読唇装置100に備わった表示部に認識結果を表示させたり、読唇装置100に備わった音声出力部から音声で出力したりしてもよい。
【0041】
なお、上述した実施形態1では、読唇部が2つの例であるが、読唇部が3以上の例であってもよい。例えば、
図5に示すように、話者の顔の正面方向に対して60°だけ横にずれた方向から撮像したときの顔画像データに対する読唇精度が高い第三単一角度対応読唇部133を追加した構成であってもよい。
【0042】
また、単一読唇部により2以上の対応角度で高精度な読唇結果を得ることが可能な複数角度対応読唇部を作成することが可能である。具体的には、例えば、
図4に示したように、2つの対応角度(0°と30°)から撮像した顔画像データが記憶された学習データ記憶媒体32を利用し、これらを学習データとして単一の学習部に入力して学習することで、0°と30°という2つの対応角度で高精度な読唇処理が可能な機械読唇モデル(学習済みモデル)を生成することが可能である。
【0043】
したがって、例えば、
図6に示すように、上述した第二単一角度対応読唇部132に代えて、0°と30°という2つの対応角度で高精度な読唇処理が可能な第一複数角度対応読唇部134を設けてもよい。更に、
図6に示すように、上述した第三単一角度対応読唇部133に代えて、0°と30°と60°という3つの対応角度で高精度な読唇処理が可能な第二複数角度対応読唇部135を設けてもよい。
【0044】
ただし、複数角度対応読唇部は、通常、その複数角度対応読唇部における複数の対応角度をそれぞれ対応角度とした複数の単一角度対応読唇部を作成する場合と比較して、より広範囲の角度について読唇精度が高まることが期待できるというメリットがある一方、学習コストが増大するデメリットがある。このデメリットについては、例えば、これらの読唇処理を実行する機械読唇モデルを構築するために必要となる学習データの必要量で比較することができる。複数の対応角度のいずれについても所定の高い精度(所定の精度閾値を超える精度)を得ようとする場合には、複数角度対応読唇部の機械読唇モデルでは、通常、複数の単一角度対応読唇部の各機械読唇モデルを構築するのに必要な学習データの合計量よりも、ずっと多くの学習データを必要とする。また、学習データの増大に伴い、パラメータチューニングなどのコストも増大する。
【0045】
一方で、複数角度対応読唇部が前記メリットを備えている点を考慮すると、
図6の例のように、単一角度対応読唇部と複数角度対応読唇部とを混在させた構成であることが好適である。これにより、例えば、入力される顔画像データ(口唇画像データ)において最も頻度の高い撮像角度及びその近傍の角度(高い読唇精度が得られる対応角度)については単一角度対応読唇部で対応し、それ以外の角度については複数角度対応読唇部で対応するようにし、これらの読唇処理結果を読唇結果統合部141で統合することで、より様々な角度からの口唇画像データについて発話内容を高精度に認識することが可能となる。
【0046】
また、この点で、理論上は、本実施形態1と同程度の様々な角度から撮像した口唇画像データに対し、発話内容を高精度に認識することが可能な単一の読唇部を構築することも可能といえる。しかしながら、このような単一の読唇部を、プログラマーによりプログラミングされた読唇プログラムによって実現することは極めて困難である。また、このような単一の読唇部を機械読唇モデル(学習済みモデル)によって実現するには、膨大な量の学習データが必要となり、そのような機械読唇モデルを構築することも実現的に困難である。
【0047】
これに対し、本実施形態1の読唇装置100で用いられる読唇部は、1つの対応角度に特化した読唇部(単一角度対応読唇部)又は複数(数個程度)の対応角度に特化した読唇部(複数角度対応読唇部)であり、これらの読唇部を構築することは比較的容易である。したがって、本実施形態1によれば、様々な角度からの口唇画像データについて発話内容を高精度に認識できる読唇装置を、より簡易に作成することができるというメリットもある。
【0048】
なお、読唇結果統合部141によって読唇処理結果が統合される読唇部間において、それぞれの対応角度が部分的に重複していてもよい。すなわち、複数角度対応読唇部における対応角度は、全く同じ組み合わせでなければ、他の単一角度対応読唇部や他の複数角度対応読唇部における対応角度の一部または全部を含んでも良い。例えば、
図6に示すように、0°については、すべての読唇部131,134,135の対応角度とし、30°については、2つの複数角度対応読唇部134,135の対応角度とするようにしてもよい。
【0049】
〔変形例1〕
次に、上述した実施形態1における読唇装置100の一変形例(以下、本変形例を「変形例1」という。)について説明する。
図7は、本変形例1における読唇装置100を示すブロック図である。
本変形例1における読唇装置100は、
図7に示すように、0°の対応角度で高精度な読唇処理が可能な第一単一角度対応読唇部131と、45°の対応角度で高精度な読唇処理が可能な第二単一角度対応読唇部136と、0°及び45°の2つの対応角度で高精度な読唇処理が可能な複数角度対応読唇部137という、3つの読唇部を備えている。
【0050】
そして、本変形例1における読唇装置100は、画像入力部111に入力された口唇画像データに基づいて、撮像方向が複数の読唇部131,136,137のうちの少なくとも1つの読唇部の対応角度になるように変換したデータを生成するデータ変換部としての角度変換部121,122,123を備えている。なお、
図7の例では、3つの読唇部131,136,137のすべてに対し、その前段の処理部として角度変換部121,122,123を設け、各角度変換部により、それぞれの読唇部131,136,137の対応角度のいずれかに撮像方向が一致するように、画像入力部111に入力された口唇画像データの変換処理を行う。すなわち、各角度変換部121,122,123は、画像入力部111に入力された口唇画像データの口唇画像が、それぞれの読唇部131,136,137の対応角度から撮像された口唇画像と擬似的に同等になるように、変換処理を行う。
【0051】
例えば、30°の角度から撮像された口唇画像データが画像入力部111に入力された場合、第一角度変換部121では、第一単一角度対応読唇部131の対応角度である0°に撮像方向が一致するように、画像入力部111に入力された口唇画像データの変換処理を行う。この場合、同様に、第二角度変換部122では、第二単一角度対応読唇部136の対応角度である45°に撮像方向が一致するように、画像入力部111に入力された口唇画像データの変換処理を行う。また、第三角度変換部123では、複数角度対応読唇部137の対応角度である0°と45°のうちのいずれか(ここでは0°)に撮像方向が一致するように、画像入力部111に入力された口唇画像データの変換処理を行う。
【0052】
各角度変換部121,122,123は、アフィン変換のような線形写像を用いて変換してもよいし、機械学習や深層学習に基づいた変換モデルを用いて変換してもよい。また、各角度変換部121,122,123が変換した変換後のデータは、それぞれの読唇部131,136,137の入力データ形式に対応していればよく、例えば、画像データの形式でもよいし、変換モデルの中間表現の形式でもよい。
【0053】
本変形例1によれば、各読唇部131,136,137に対し、それぞれの角度変換部121,122,123から受け取るデータ(画像データや中間表現)は、それぞれの読唇部131,136,137の対応角度に合致したものとなる。そのため、各読唇部131,136,137は、それぞれ高い精度で読唇処理を行うことができ、それぞれの読唇部131,136,137から高い精度の読唇処理結果を得ることができる。その結果、これらの読唇処理結果を読唇結果統合部141によって統合して得られる最終的な読唇結果(発話内容の認識結果)も高精度なものとなる。
【0054】
〔変形例2〕
次に、上述した実施形態1における読唇装置100の他の変形例(以下、本変形例を「変形例2」という。)について説明する。
図8は、本変形例2における読唇装置100を示すブロック図である。
本変形例2における読唇装置100は、
図8に示すように、0°の対応角度で高精度な読唇処理が可能な第一単一角度対応読唇部131と、45°の対応角度で高精度な読唇処理が可能な第二単一角度対応読唇部136と、0°及び30°の2つの対応角度で高精度な読唇処理が可能な複数角度対応読唇部134という、3つの読唇部を備えている。
【0055】
そして、本変形例2における読唇装置100は、画像入力部111に入力された口唇画像データの撮像方向を推定する撮像方向推定部としての角度推定部112を備えている。例えば、上述した学習データ記憶媒体32に記憶してある様々な角度から撮像された大量の顔画像データを利用して、機械学習や深層学習により、入力された顔画像データの撮像角度を推定するモデルを学習する。そして、これにより生成された角度推定モデルを角度推定部112のコンピュータにより実行することで、画像入力部111に入力された口唇画像データの撮像方向を推定する。
【0056】
本変形例2の角度推定部112は、画像入力部111から顔画像データを受け取ると、その顔画像データの撮像角度を推定し、予め設定された角度ごとに確からしさを示す確信度を角度推定結果として出力する。例えば、角度推定部112は、予め設定された角度が0°、30°、45°、60°であるとき、入力された顔画像データの撮像角度の推定結果として、0°の確信度が0.3、30°の確信度が0.4、45°の確信度が0.2、60°の確信度が0.1といった情報を出力する。
【0057】
本変形例2において、角度推定部112の角度推定結果は読唇結果統合部141に送られる。本変形例2の読唇結果統合部141は、角度推定部112から受け取った角度推定結果を用いて、3つの読唇部131,136,134で得られた各読唇処理結果を統合し、話者の発話内容の認識結果を最終的な読唇結果として生成する。
【0058】
本変形例2における統合処理の一例としては、例えば、3つの読唇部131,136,134で得られた各読唇処理結果の信頼度スコアに対し、角度推定部112の角度推定結果に含まれるそれぞれの読唇部の対応角度に合致した推定角度の確信度を乗じる。例えば、前記の例で説明すると、対応角度が0°である第一単一角度対応読唇部131については信頼度スコアを0.3倍し、対応角度が45°である第二単一角度対応読唇部136については信頼度スコアを0.2倍し、対応角度が0°と30°の2つである複数角度対応読唇部134については信頼度スコアを0°と30°の確信度のうちの高い方を用いて0.4倍するといった処理を行う。
【0059】
このように角度推定結果を用いた後、読唇結果統合部141は、上述した実施形態1と同様、3つの読唇部131,136,134で得られた読唇処理結果のいずれにも含まれる共通の発話内容候補の中で最も信頼度スコアの高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの高い順に2以上の発話内容候補を統合結果としてもよい。また、例えば、角度推定結果を用いた後、読唇結果統合部141は、3つの読唇部131,136,134で得られた読唇処理結果に含まれる発話内容候補ごとの信頼度スコアの合計値を算出し、合計値が最も高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの合計値が算出された2以上の発話内容候補を統合結果としてもよい。
【0060】
本変形例2によれば、画像入力部111から顔画像データの撮像角度を推定した角度推定結果を用いて、各読唇部131,136,134の読唇処理結果の重み付けを行うことができる。すなわち、角度推定部112での角度推定結果を用い、対応角度に合致する推定角度の確信度が高い読唇部の読唇処理結果ほど重み付けを大きくして、当該読唇部の読唇処理結果が発話内容の認識結果に与える影響度を高める。これにより、読唇結果統合部141によって得られる最終的な読唇結果(発話内容の認識結果)を、より高精度なものとすることができる。
【0061】
〔実施形態2〕
次に、本発明を、発話内容認識装置としてのマルチモーダル音声認識装置に適用した一実施形態(以下、本実施形態を「実施形態2」という。)について説明する。
本実施形態2のマルチモーダル音声認識装置は、読唇処理と音声認識処理という2種類の発話内容認識処理を用いて、話者が発話する発話内容の認識結果を出力する。
【0062】
図9は、本実施形態2に係るマルチモーダル音声認識装置を示すブロック図である。
本実施形態2のマルチモーダル音声認識装置300は、読唇認識処理部101と、音声認識処理部201と、認識結果統合部301とによって構成されている。
【0063】
読唇認識処理部101の構成は、上述した実施形態1の読唇装置100の構成を採用することができる。
図9の例は、
図1に示した読唇装置100の構成を採用したものである。
【0064】
音声認識処理部201は、主に、音声入力部211と音声認識部231とから構成されている。
【0065】
音声入力部211は、発話を行っている話者の音声データの入力を受け付ける。本実施形態2の音声入力部211は、話者の音声を集音するマイクロフォン3や、話者の音声データを記憶した記憶媒体2に対し、有線または無線で通信可能に接続されている。マイクロフォン3からは、現に話者が発話しているリアルタイムの音声データが音声入力部211に入力される。記憶媒体2は、過去に話者が発話したときの音声データを記憶しており、記憶媒体2からは、過去の音声データが音声入力部211に入力される。
【0066】
音声入力部211は、入力された音声データを、必要に応じて音声認識部231の入力に対応するようにデータ処理して、音声認識部231に受け渡す。例えば、入力された音声データからノイズを除去した音声信号を抽出し、その音声信号のデータを音声認識部231に受け渡す。
【0067】
本実施形態2の音声認識部231は、所定の音声認識プログラムをコンピュータで実行することにより、音声入力部211に入力された音声データに対する音声認識処理を実行し、音声認識結果を生成する。本実施形態2の音声認識プログラムは、話者の音声データを含む学習データを用いて学習した音声認識モデル(学習済みモデル)を用いるが、プログラマーによってプログラミングされた音声認識プログラムを用いてもよい。
【0068】
本実施形態2における音声認識モデル(学習済みモデル)は、入力されたデータ(音声データ)から話者の発話内容を推定するものであり、音声認識モデルから出力される推定結果(音声認識結果)の形式には、上述した機械読唇モデルの場合と同様、特に制限はない。一例として、本実施形態2では、読唇認識処理部101の形式に合わせて、入力されたデータ(音声データ)に対し、1又は2以上の発話内容候補(1つの語又は語系列など)と、その発話内容候補ごとの信頼度スコアとを含むデータを音声認識結果として出力する。
【0069】
認識結果統合部301は、読唇認識処理部101の読唇結果統合部141から出力される認識結果(読唇結果)と、音声認識処理部201の音声認識部231から出力される認識結果(音声認識結果)とを統合して、最終的な発話内容の認識結果を出力する。
【0070】
認識結果統合部301が行う統合処理は、精度の高い認識結果が得られるように(例えば、正解の発話内容の信頼度スコアが相対的に高くなるように)、読唇認識処理部101の認識結果(読唇結果)と、音声認識処理部201の認識結果(音声認識結果)とを統合する処理であれば、特に制限はない。
【0071】
認識結果統合部301が行う統合処理の一例としては、例えば、2つの認識処理部101,201の認識結果のいずれにも含まれる共通の発話内容候補の中で最も信頼度スコアの高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの高い順に2以上の発話内容候補を統合結果としてもよい。
また、例えば、2つの認識処理部101,201の認識結果に含まれる発話内容候補ごとの信頼度スコアの合計値を算出し、合計値が最も高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの合計値が算出された2以上の発話内容候補を統合結果としてもよい。
【0072】
認識結果統合部301が行う統合処理の別例としては、2つの認識処理部101,201における中間表現から認識結果を得る学習済みモデル(統合モデル)を、例えばニューラルネットワークモデルによって予め学習しておく。そして、2つの認識処理部101,201で得られた認識結果に含まれる各中間表現(ベクトル等)を連結して1つの中間表現を生成し、認識結果統合部301のコンピュータで学習済みの統合モデルを実行して、当該1つの中間表現から1又は2以上の発話内容の認識結果を得て、これを統合結果とする。あるいは、当該1つの中間表現から1又は2以上の発話内容の認識結果に、それぞれの信頼度スコアを含めてもよい。
【0073】
本実施形態2のマルチモーダル音声認識装置300は、読唇認識処理部101が上述した実施形態1の読唇装置100の構成を採用しているため、高い精度で読唇結果を得ることができる。
【0074】
加えて、本実施形態2のマルチモーダル音声認識装置300は、読唇装置と音声認識装置という互いに異なる2種類の発話内容認識方法を用いて認識結果を求め、これらの認識結果を統合して最終的な発話内容の認識結果を出力する。そのため、例えば、話者の発話内容を音声認識処理部201では高精度に認識困難な状況(例えば、雑音の多い環境、複数の話者が同時に発話することの多い会議環境など)であっても、読唇認識処理部101により当該発話内容を高精度に認識することが可能となる。また、例えば、話者の発話内容を読唇認識処理部101では高精度に認識困難な状況(例えば、低照明の暗い環境、話者の動き回る等により話者の口唇を撮像することが困難な環境など)であっても、音声認識処理部201により当該発話内容を高精度に認識することが可能となる。
【0075】
このように本実施形態2のマルチモーダル音声認識装置300によれば、話者の発話内容の認識精度が話者の環境に左右されにくい、ロバスト性に優れた発話内容認識装置を実現できる。このようなマルチモーダル音声認識装置300は、具体的には、会議室またはオンラインにおける会議録自動生成システム、スマートフォンにおける音声入力インタフェースとして、好適に利用することができる。
【0076】
〔実施形態3〕
次に、上述した実施形態2のマルチモーダル音声認識装置300における読唇認識処理部101で用いられる機械読唇モデル及び音声認識処理部201で用いられる音声認識モデルを構築するための学習データを収集する学習データ収集システムの一実施形態(以下、本実施形態を「実施形態3」という。)について説明する。
【0077】
図10は、本実施形態3における学習データ収集システムの構成を示す説明図である。
本実施形態3の学習データ収集システムは、複数の撮像装置を有するカメラアレイ31と、音声取得装置としての収録用マイクロフォン21と、指示装置としてのディスプレイ42と、制御装置43とを備えている。そのほか、本実施形態3の学習データ収集システムは、通報部41と、記憶装置としての学習データ記憶媒体32とを備えている。
【0078】
カメラアレイ31は、所定位置の話者を互いに異なる複数の撮像方向から撮像する複数のカメラ(撮像装置)31-1~31-10によって構成されている。本実施形態3では、
図11に示すように、10個の収録用カメラ31-1~31-10が等間隔で配置されている。具体的には、話者の顔の正面方向から撮像したときの撮像方向を基準(0°)にした鉛直軸回りの角度を撮像角度とすると、各収録用カメラ31-1~31-10は、0°~90°までの間を10°間隔で配置されている。このカメラアレイ31により、発話する話者の口唇画像を各収録用カメラ31-1~31-10によりそれぞれの撮像角度から同時に撮像することが可能である。
【0079】
カメラアレイ31は、学習データ記憶媒体32に接続されており、各収録用カメラ31-1~31-10によって撮像された話者の顔画像データ(口唇画像データ)は、学習データ記憶媒体32に記憶され、蓄積される。また、カメラアレイ31は、制御装置43に接続され、制御装置43により撮像動作が制御される。
【0080】
なお、カメラアレイ31を構成するカメラの数には特に制限はない。また、カメラアレイ31を構成するカメラの配置は、本実施形態3では鉛直軸回りの撮像角度が互いに異なるように複数の収録用カメラ31-1~31-10を水平面に沿って並べているが、これに限られない。例えば、水平軸回りや鉛直軸に対して傾斜した傾斜軸回りの撮像角度が互いに異なるように複数の収録用カメラ31-1~31-10を並べてもよい。
【0081】
収録用マイクロフォン21は、カメラアレイ31で撮像する対象である話者の音声を取得する。収録用マイクロフォン21は、学習データ記憶媒体32に接続されており、収録用マイクロフォン21によって集音した音声データは、学習データ記憶媒体32に記憶され、蓄積される。また、収録用マイクロフォン21は、制御装置43に接続され、制御装置43により動作が制御される。収録用マイクロフォン21は、例えば、ピンマイクを用いて話者の襟元などに設置しても良いし、スタンドマイクを話者の近傍に設置しても良い。このとき、カメラアレイ31の各収録用カメラ31-1~31-10によって話者の口唇画像を撮像するにあたり、収録用マイクロフォン21が邪魔にならないように設置することが望ましい。
【0082】
なお、カメラアレイ31を構成するカメラが音声取得装置としての機能を備えている場合には、収録用マイクロフォン21としてカメラの音声取得装置を利用してもよい。
【0083】
ディスプレイ42は、話者に指示する発話内容を表示する。ディスプレイ42は、有線または無線で接続された制御装置43によって表示内容が制御され、制御装置43の制御の下、話者に対して指示する発話内容や、発話やり直しの指示などを行う。
【0084】
通報部41は、有線または無線で接続された制御装置43によって動作が制御され、制御装置43の制御の下、発話の開始と終了のタイミングを光や音等によって話者に通報する。
【0085】
学習データ記憶媒体32は、上述したように、カメラアレイ31の各収録用カメラ31-1~31-10で撮像した話者の顔画像データと、収録用マイクロフォン21で集音した話者の音声データとを、時系列が特定できる形式で記憶する。具体的には、通報部41によって発せられる発話開始同期信号及び発話収容同期信号を、各収録用カメラ31-1~31-10で撮像した顔画像データ及び収録用マイクロフォン21で集音した音声データに埋め込む。これにより、学習データ記憶媒体32に記憶された顔画像データ及び音声データは、話者がディスプレイ42により指示された発話内容を発話した時期と照らし合わせることができる。よって、ディスプレイ42を介して話者に指示された発話内容と、その発話内容を発した時の話者の顔画像データ及び音声データとが対応づけられている。
【0086】
学習データ記憶媒体32は、カメラアレイ31の各収録用カメラ31-1~31-10及び収録用マイクロフォン21のそれぞれに接続される複数の記憶媒体から構成される分散型の記憶装置であってもよいし、一台の記憶装置(ファイルサーバ等)によって構成されてもよい。
【0087】
制御装置43は、パーソナルコンピュータ等の情報処理装置によって構成され、本システム全体を制御する。具体的には、制御装置43は、オペレータの指示操作により、カメラアレイ31及び収録用マイクロフォン21の収録を開始し、通報部41を通じて発話開始同期信号を発するとともに発話開始タイミングを話者に指示し、ディスプレイ42に発話内容を表示させて、話者に当該発話内容を発話させる。また、通報部41を通じて発話終了同期信号を発するとともに発話終了タイミングを話者に指示し、カメラアレイ31及び収録用マイクロフォン21の収録を終了する。また、制御装置43は、オペレータの指示操作により、ディスプレイ42を通じて話者に対して発話やり直しを指示する。
【0088】
本実施形態3の学習データ収集システムによれば、ディスプレイ42によって指示された発話内容を発話する話者の口唇画像を複数の収録用カメラ31-1~31-10によって互いに異なる撮像角度から同時に撮像するとともに、その時の話者の音声を収録用マイクロフォン21によって取得して、これらを学習データ記憶媒体32に記憶することができる。これにより、異なる撮像角度から撮像された顔画像データ(口唇画像データ)とこれに対応する音声データとを迅速かつ大量に収集することができる。よって、上述した実施形態2のマルチモーダル音声認識装置300における読唇認識処理部101で用いられる機械読唇モデル及び音声認識処理部201で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。
【0089】
なお、本実施形態3の学習データ収集システムは、上述した実施形態1の読唇装置100の読唇装置100で用いられる機械読唇モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することにも有益である。この場合、収録用マイクロフォン21による収録は必ずしも必要ではない。
【0090】
以上に説明したものは一例であり、本発明は、次の態様毎に特有の効果を奏する。
[第1態様]
第1態様は、話者の発話内容を認識する発話内容認識装置(例えば、読唇装置100、マルチモーダル音声認識装置300)であって、話者の口唇画像データ(例えば顔画像データ)を入力する入力部(例えば画像入力部111)と、対応方向(例えば対応角度)から撮像された口唇画像データに対する読唇精度の高い複数の読唇部(例えば、単一角度対応読唇部131,132,133,136、複数角度対応読唇部134,135,137)と、前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部(例えば読唇結果統合部141)とを有し、前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするものである。
一般に、入力部に入力された口唇画像データの読唇処理を行う読唇部は、入力される口唇画像データの撮像方向が特定の方向(対応方向)であるときに、高い精度(利用者の要求レベルを満たす精度)で読唇処理を行うことができ、発話内容の認識精度が高い。具体的には、例えば、対応方向が話者の顔の正面方向である読唇部は、話者の顔を正面から撮像したときの口唇画像データが入力されたときには読唇精度が高い。一方、この読唇部に対し、話者の顔を横や斜めから撮像したときの口唇画像データを入力したときには、読唇精度が落ち、高い読唇精度が得られない場合が多い。
本態様では、互いに異なる対応方向を有する複数の読唇部を用いて、入力部に入力された口唇画像データに対する読唇処理を実行する。このとき、本態様で用いられる複数の読唇部のうちの少なくとも1つの読唇部は、対応方向(高い読唇精度が得られる方向)が他のいずれかの読唇部における対応方向に含まれていない方向を含んでいる。そのため、これらの読唇部の対応方向のいずれかの方向と一致する方向から撮像された口唇画像データであれば、当該読唇部で高い読唇精度が得られ、その読唇処理結果から発話内容を高精度に認識することが可能である。したがって、本態様によれば、これらの複数の読唇部における対応方向の数の分だけ、発話内容を高精度に認識できる口唇画像データの撮像方向を増やすことができる。
ここで、複数の読唇部におけるいずれの対応方向とも一致しない方向から撮像された口唇画像データが入力部に入力された場合、個々の読唇部の読唇処理では十分な読唇精度が得られない。そのため、いずれかの読唇部の読唇処理結果だけを用いたのでは、このような口唇画像データについて発話内容を高精度に認識することはできない。
そこで、本態様では、統合生成部において、入力部に入力された口唇画像データに対する複数の読唇部の各読唇処理結果を統合し、その統合結果に基づいて発話内容の認識結果を生成するようにしている。これにより、個々の読唇部の各読唇処理結果は、正解である発話内容の確からしさ(信頼度)が不正解である他の発話内容の確からしさと比較して有意に高くない又は逆に低いという結果であっても、これらの読唇処理結果を統合することで、正解である発話内容の確からしさを際立たせ、不正解である他の発話内容の確からしさに対して有意な違いを出すことができる。例えば、個々の読唇部の各読唇処理結果に含まれる信頼度を発話内容候補ごとに積み上げることで、正解である発話内容について、不正解である他の発話内容に対して有意な違いをもった信頼度を導き出すことができる。したがって、上述した複数の読唇部の各読唇処理結果を統合し、その統合結果に基づいて発話内容の認識結果を生成することで、個々の読唇部の読唇処理では十分な読唇精度が得られない方向から撮像された口唇画像データについて発話内容を高精度に認識することができる。
よって、本態様によれば、上述した複数の読唇部における対応方向の数を超える、様々な種類(撮像方向)の口唇画像データについて発話内容を高精度に認識することができる。
【0091】
[第2態様]
第2態様は、第1態様において、前記複数の読唇部は、当該対応方向が1つである単方向読唇部(例えば、単一角度対応読唇部131,132,133,136)を含むことを特徴とするものである。
対応方向が1つである単方向読唇部は、対応方向が2つ以上である複方向読唇部よりも簡易に構築することが可能である。よって、発話内容認識装置を簡易に実現しやすい。
【0092】
[第3態様]
第3態様は、第1又は第2態様において、前記複数の読唇部は、当該対応方向が2つ以上である複方向読唇部(例えば、複数角度対応読唇部134,135,137)を含むことを特徴とするものである。
これによれば、読唇部の数を少なくでき、簡素な発話内容認識装置を実現しやすい。
【0093】
[第4態様]
第4態様は、第1乃至第3態様のいずれかにおいて、前記入力部に入力された口唇画像データに基づいて、撮像方向が前記複数の読唇部のうちの少なくとも1つの読唇部の対応方向になるように変換したデータを生成するデータ変換部(例えば角度変換部121~123)を有し、前記少なくとも1つの読唇部は、前記データ変換部で変換されたデータを用いて読唇処理を行うことを特徴とするものである。
これによれば、複数の読唇部には、それぞれの対応方向に合致した撮像方向の口唇画像データがそれぞれ入力されるので、各読唇部から高い精度の読唇処理結果を得ることができる。その結果、これらの読唇処理結果を統合生成部によって統合して得られる発話内容の認識結果も高精度なものとすることができる。
【0094】
[第5態様]
第5態様は、第1乃至第4態様のいずれかにおいて、前記入力部に入力された口唇画像データの撮像方向を推定する撮像方向推定部(例えば角度推定部112)を有し、前記統合生成部は、前記撮像方向推定部の推定結果を用いて、前記話者の発話内容の認識結果を生成することを特徴とするものである。
これによれば、入力部から顔画像データの撮像角度を撮像方向推定部により推定した推定結果を用いて、各読唇部の読唇処理結果の重み付けを行うことができる。すなわち、撮像方向推定部での推定結果を用い、対応方向に合致する推定角度の確信度が高い読唇部の読唇処理結果ほど重み付けを大きくして、当該読唇部の読唇処理結果が発話内容の認識結果に与える影響度を高めることができる。これにより、統合生成部によって得られる発話内容の認識結果を、より高精度なものとすることができる。
【0095】
[第6態様]
第6態様は、第1乃至第5態様のいずれかにおいて、前記複数の読唇部は、読唇処理により推定された1又は第2以上の発話内容候補と発話内容候補ごとの信頼度情報(例えば信頼度スコア)とを含む読唇処理結果を生成し、前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とするものである。
これによれば、簡易な方法で、統合生成部において発話内容の認識結果を高精度に得ることができる。
【0096】
[第7態様]
第7態様は、第1乃至第5態様のいずれかにおいて、前記複数の読唇部は、発話内容候補を推定するための中間情報(例えば中間表現)を読唇処理により読唇処理結果として生成し、前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる中間情報を統合することを特徴とするものである。
これによれば、中間情報の学習データによって学習した学習済みモデル(統合モデル)を用いて、複数の読唇部の各読唇処理結果を統合することができ、統合生成部において発話内容の認識結果を高精度に得ることができる。
【0097】
[第8態様]
第8態様は、第1乃至第7態様のいずれかにおいて、前記話者の音声データから該話者の発話内容を認識する音声認識部(例えば音声認識処理部201)を有し、前記統合生成部(例えば、読唇結果統合部141及び認識結果統合部301)は、前記音声認識部の認識結果を用いて、前記話者の発話内容の認識結果を生成することを特徴とするものである。
これによれば、読唇処理と音声認識処理という2種類の発話内容認識処理を用いて話者が発話する発話内容の認識結果を出力するマルチモーダルの発話内容認識装置(例えばマルチモーダル音声認識装置300)を実現できる。これにより、話者の発話内容の認識精度が話者の環境に左右されにくい、ロバスト性に優れた発話内容認識装置を実現できる。
【0098】
[第9態様]
第9態様は、第1乃至第8態様のいずれかにおいて、前記複数の読唇部は、話者の口唇画像データを含む学習データを用いて学習した機械読唇モデルをコンピュータに実行させることにより、前記入力部に入力された口唇画像データの読唇処理を行う読唇部を含むことを特徴とするものである。
これによれば、機械読唇モデルにより読唇処理を行うため、より高精度な読唇処理結果を得ることができる。
【0099】
[第10態様]
第10態様は、第9態様の発話内容認識装置で用いられる前記機械読唇モデルを構築するための学習データを収集する学習データ収集システムであって、所定位置の話者を互いに異なる複数の撮像方向から撮像する複数の撮像装置(例えば収録用カメラ31-1~31-10)と、前記話者の音声を取得する音声取得装置(例えば収録用マイクロフォン21)と、前記話者に発話内容を指示する指示装置(例えばディスプレイ42)と、前記指示装置に発話内容を指示させ、指示された発話内容を発話する前記話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置(例えば学習データ記憶媒体32)に記憶する制御を実行する制御装置43とを有することを特徴とするものである。
これによれば、指示装置によって指示された発話内容を発話する話者の口唇画像を複数の撮像装置によって互いに異なる撮像角度から同時に撮像するとともに、その時の話者の音声を音声取得装置によって取得して、これらを記憶装置に記憶することができる。これにより、異なる撮像角度から撮像された口唇画像データとこれに対応する音声データとを迅速かつ大量に収集することができる。よって、上述した第9態様のマルチモーダル発話内容認識装置における読唇処理で用いられる機械読唇モデル及び音声認識処理で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。
【0100】
[第11態様]
第11態様は、発話内容認識装置により話者の発話内容を認識する方法であって、話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするものである。
本態様によれば、上述した複数の読唇部における対応方向の数を超える、様々な種類(撮像方向)の口唇画像データについて発話内容を高精度に認識することができる。
【0101】
[第12態様]
第12態様は、話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段として、前記コンピュータを機能させるものであり、前記複数の読唇部のうちの少なくとも1つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするものである。
本態様によれば、上述した複数の読唇部における対応方向の数を超える、様々な種類(撮像方向)の口唇画像データについて発話内容を高精度に認識することができる。
【0102】
[第13態様]
第13態様は、第10態様の学習データ収集システムにより、前記発話内容認識装置で用いられる前記機械読唇モデルを構築するための学習データを収集する方法であって、前記指示装置に発話内容を指示させ、指示された発話内容を発話する話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置に記憶することを特徴とするものである。
本態様によれば、上述した第9態様のマルチモーダル発話内容認識装置における読唇処理で用いられる機械読唇モデル及び音声認識処理で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。
【0103】
[第14態様]
第14態様は、第10態様の学習データ収集システムにおける前記制御装置のコンピュータに実行されるプログラムであって、前記指示装置に発話内容を指示させ、指示された発話内容を発話する話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置に記憶する制御を実行する制御手段として、前記コンピュータを機能させることを特徴とするものである。
本態様によれば、上述した第9態様のマルチモーダル発話内容認識装置における読唇処理で用いられる機械読唇モデル及び音声認識処理で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。
【符号の説明】
【0104】
1 :カメラ
2 :記憶媒体
3 :マイクロフォン
21 :収録用マイクロフォン
31 :カメラアレイ
31-1~31-10:収録用カメラ
32 :学習データ記憶媒体
33-1 :第一学習部
33-2 :第二学習部
41 :通報部
42 :ディスプレイ
43 :制御装置
100 :読唇装置
101 :読唇認識処理部
111 :画像入力部
112 :角度推定部
121~123:角度変換部
131,132,133,136:単一角度対応読唇部
134,135,137:複数角度対応読唇部
141 :読唇結果統合部
201 :音声認識処理部
211 :音声入力部
231 :音声認識部
300 :マルチモーダル音声認識装置
301 :認識結果統合部
【先行技術文献】
【非特許文献】
【0105】
【文献】A. Koumparoulis et al., "Deep view2view mapping for view-invariant lipreading", IEEE SLT, 2018, p.588-594
【文献】S. Petridis et al., "End-to-end Multiview Lip Reading", IEEE ICASSP, 2018, p.6548-6552