(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-19
(45)【発行日】2023-10-27
(54)【発明の名称】読唇装置及び読唇方法
(51)【国際特許分類】
G06T 7/20 20170101AFI20231020BHJP
【FI】
G06T7/20 300B
(21)【出願番号】P 2019213234
(22)【出願日】2019-11-26
【審査請求日】2022-10-24
(73)【特許権者】
【識別番号】504174135
【氏名又は名称】国立大学法人九州工業大学
(74)【代理人】
【識別番号】100120086
【氏名又は名称】▲高▼津 一也
(74)【代理人】
【識別番号】100090697
【氏名又は名称】中前 富士男
(74)【代理人】
【識別番号】100176142
【氏名又は名称】清井 洋平
(74)【代理人】
【氏名又は名称】来田 義弘
(72)【発明者】
【氏名】齊藤 剛史
【審査官】真木 健彦
(56)【参考文献】
【文献】特開2013-045282(JP,A)
【文献】特開平11-175724(JP,A)
【文献】Masaya Iwasaki, Michiko Kubokawa, Takeshi Saitoh,Two Features Combination with Gated Recurrent Unit for Visual Speech Recognition,2017 Fifteenth IAPR International Conference on Machine Vision Applications (MVA),日本,IEEE,2017年05月12日,P.326-329
【文献】齊藤 剛史,読唇に有効な顔モデルの検討,電子情報通信学会技術研究報告 Vol.111 No.500,日本,社団法人電子情報通信学会,2012年03月22日,PRMU2011-275, HIP2011-103 (2012-3),P.217-222
【文献】間瀬 健二,オプティカルフローを用いた読唇,電子情報通信学会論文誌 D-II,日本,社団法人電子情報通信学会,1990年06月25日,Vol.J73-D-II No.6,P.796-803
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/20
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
学習時に、学習対象発話者の発話シーンが記録された学習対象画像を読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を読み込む画像取得部と、該画像取得部に読み込まれた前記学習対象画像及び前記評価対象画像をそれぞれ画像処理して学習対象データ及び評価対象データを抽出する画像処理部と、学習時に、前記学習対象データに基づいて読唇の機械学習を行い、
前記学習対象発話者の年齢及び/又は性別に対応して属性別に学習モデルを構築する学習処理部と、前記学習モデルを保存する読唇データベースと、評価時に、前記評価対象データと、前記読唇データベースに保存された前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する認識処理部とを備え、
前記画像処理部は、前記学習対象画像から前記学習対象発話者の顔領域を検出し、前記評価対象画像から前記評価対象発話者の顔領域を検出する顔検出手段と、該顔検出手段で検出された前記各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段と、該顔特徴点検出手段で検出された前記各顔領域の前記顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者
の口唇特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者
の口唇特徴を抽出する特徴抽出手段とを有することを特徴とする読唇装置。
【請求項2】
請求項1記載の読唇装置において
、前記認識処理部は、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された前記評価対象発話者の年齢及び/又は性別に対応した属性の前記学習モデルを選択して、発話内容の推定に利用することを特徴とする読唇装置。
【請求項3】
請求項1記載の読唇装置において、前記特徴抽出手段は、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の前記口唇特徴に加え前記学習対象発話者の表情特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の前記口唇特徴に加え前記評価対象発話者の表情特徴を抽出することを特徴とする読唇装置。
【請求項4】
請求項1
~3のいずれか1記載の読唇装置において、前記学習対象発話者及び前記評価対象発話者の発話シーンを撮影する撮影手段を備えたことを特徴とする読唇装置。
【請求項5】
請求項1~
4のいずれか1記載の読唇装置において、前記認識処理部で推定された前記評価対象発話者の発話内容を出力する認識結果出力部を備えたことを特徴とする読唇装置。
【請求項6】
請求項
5記載の読唇装置において、前記認識結果出力部は、前記認識処理部で推定された前記評価対象発話者の発話内容を文字で表示するディスプレイ及び/又は音声で出力するスピーカを備えたことを特徴とする読唇装置。
【請求項7】
学習対象発話者の発話シーンが記録された学習対象画像を読み込む学習時第1工程と、前記学習対象画像から前記学習対象発話者の顔領域を検出する学習時第2工程と、前記学習対象発話者の前記顔領域から前記学習対象発話者の顔特徴点を検出する学習時第3工程と、前記学習対象発話者の前記顔特徴点から前記学習対象発話者の口唇領域を検出する学習時第4工程と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出する学習時第5工程と、前記学習時第1工程~前記学習時第5工程を繰り返し、前記学習対象データに基づいて読唇の機械学習を行い、
前記学習対象発話者の年齢及び/又は性別に対応して属性別に学習モデルを構築する学習時第6工程と、前記学習モデルを保存する学習時第7工程と、保存された前記学習モデルを読み込む評価時第1工程と、評価対象発話者の発話シーンが記録された評価対象画像を読み込む評価時第2工程と、前記評価対象画像から前記評価対象発話者の顔領域を検出する評価時第3工程と、前記評価対象発話者の前記顔領域から前記評価対象発話者の顔特徴点を検出する評価時第4工程と、前記評価対象発話者の前記顔特徴点から前記評価対象発話者の口唇領域を検出する評価時第5工程と、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する評価時第6工程と、前記評価対象データと前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する評価時第7工程とを備えたことを特徴とする読唇方法。
【請求項8】
請求項7記載の読唇方法において、前記評価時第7工程では、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された年齢及び/又は性別に対応した属性の前記学習モデルを選択して、前記発話内容の推定に利用することを特徴とする読唇方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話者の口唇特徴に加え、表情特徴を考慮することにより、発話内容を高精度で推定することができる読唇装置及び読唇方法に関する。
【背景技術】
【0002】
従来、音声情報をテキストに変換する音声認識技術は、実験室等の低騒音の環境下では、十分な認識率が得られており、少しずつ普及しつつあるが、周囲の騒音の影響を受け易いオフィスや屋外等の騒音環境下、或いは声を出し難い電車や病院等の公共の場所では利用し難く、実用性に欠けるという問題があった。また、発話が困難な発話障害者は音声認識技術を利用することができず、汎用性に欠けるという問題もあった。
これに対して、読唇技術は、発話者の唇の動き等から発話内容を推定することができ、音声を発する必要がなく(音声情報を必要とせず)、映像のみでも発話内容を推定できるため、騒音環境下や公共の場所等でも利用が期待できるだけでなく、発話障害者も利用することができる。特に、コンピュータを用いた読唇技術であれば、特別な訓練を必要とせず、誰でも手軽に利用できるため、その普及が期待されている。
例えば、特許文献1には、口唇領域を含む顔画像を取得する撮像手段と、取得画像から口唇領域を抽出する領域抽出手段と、抽出された口唇領域より形状特徴量を計測する特徴量計測手段と、登録モードにおいて計測されたキーワード発話シーンの特徴量を登録するキーワードDBと、認識モードにおいて、登録されているキーワードの特徴量と、文章の発話シーンを対象として計測された特徴量とを比較することにより口唇の発話内容を認識する認識処理を行って、文章の中からキーワードを認識するワードスポッティング読唇を行う判断手段と、判断手段が行った認識結果を表示する表示手段とを備えたワードスポッティング読唇装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1をはじめとするコンピュータを用いた従来の読唇技術では、登録モード(学習モード、学習時)において、発話者の発話時の口唇を中心とする口唇周辺領域の動きの特徴を機械学習で学習している。しかし、発話内容は、発話者の表情全体に影響を与えるため、口唇周辺領域の動きの特徴のみを学習するだけでは、認識モード(評価時)において得られる認識率(発話内容の推定精度)に限界があった。また、従来は、登録モードにおいて、機械学習を行って識別器(学習モデル)を構築する際に、学習するデータ数を増やすため、年代及び性別が異なる様々な発話者のデータを区別することなく用いていた。しかし、発話内容が同一であっても、発話者の年代及び性別の違いにより、発話時の表情に違いが生じ(異なる特徴が現れ)、認識率に影響を及ぼす可能性があった。
本発明は、かかる事情に鑑みてなされたもので、発話者の口唇特徴に加え、表情特徴を考慮して機械学習を行うことにより、発話内容を高精度で推定することができ、必要に応じて、発話者の年代及び性別等の属性も考慮して、学習及び評価を行うことにより、さらに推定精度を高めることができる読唇装置及び読唇方法を提供することを目的とする。
【課題を解決するための手段】
【0005】
前記目的に沿う第1の発明に係る読唇装置は、学習時に、学習対象発話者の発話シーンが記録された学習対象画像を読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を読み込む画像取得部と、該画像取得部に読み込まれた前記学習対象画像及び前記評価対象画像をそれぞれ画像処理して学習対象データ及び評価対象データを抽出する画像処理部と、学習時に、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部と、前記学習モデルを保存する読唇データベースと、評価時に、前記評価対象データと、前記読唇データベースに保存された前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する認識処理部とを備え、
前記画像処理部は、前記学習対象画像から前記学習対象発話者の顔領域を検出し、前記評価対象画像から前記評価対象発話者の顔領域を検出する顔検出手段と、該顔検出手段で検出された前記各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段と、該顔特徴点検出手段で検出された前記各顔領域の前記顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する特徴抽出手段とを有する。
【0006】
第1の発明に係る読唇装置において、前記学習処理部で構築される前記学習モデルは、前記学習対象発話者の年齢及び/又は性別に対応して属性別に構築され、前記認識処理部は、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された前記評価対象発話者の年齢及び/又は性別に対応した属性の前記学習モデルを選択して、発話内容の推定に利用することが好ましい。
【0007】
第1の発明に係る読唇装置において、前記学習対象発話者及び前記評価対象発話者の発話シーンを撮影する撮影手段を備えてもよい。
【0008】
第1の発明に係る読唇装置において、前記認識処理部で推定された前記評価対象発話者の発話内容を出力する認識結果出力部を備えることができる。
【0009】
第1の発明に係る読唇装置において、前記認識結果出力部は、前記認識処理部で推定された前記評価対象発話者の発話内容を文字で表示するディスプレイ及び/又は音声で出力するスピーカを備えることが好ましい。
【0010】
前記目的に沿う第2の発明に係る読唇方法は、学習対象発話者の発話シーンが記録された学習対象画像を読み込む学習時第1工程と、前記学習対象画像から前記学習対象発話者の顔領域を検出する学習時第2工程と、前記学習対象発話者の前記顔領域から前記学習対象発話者の顔特徴点を検出する学習時第3工程と、前記学習対象発話者の前記顔特徴点から前記学習対象発話者の口唇領域を検出する学習時第4工程と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出する学習時第5工程と、前記学習時第1工程~前記学習時第5工程を繰り返し、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習時第6工程と、前記学習モデルを保存する学習時第7工程と、保存された前記学習モデルを読み込む評価時第1工程と、評価対象発話者の発話シーンが記録された評価対象画像を読み込む評価時第2工程と、前記評価対象画像から前記評価対象発話者の顔領域を検出する評価時第3工程と、前記評価対象発話者の前記顔領域から前記評価対象発話者の顔特徴点を検出する評価時第4工程と、前記評価対象発話者の前記顔特徴点から前記評価対象発話者の口唇領域を検出する評価時第5工程と、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する評価時第6工程と、前記評価対象データと前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する評価時第7工程とを備える。
【0011】
第2の発明に係る読唇方法において、前記学習時第6工程で構築される前記学習モデルは、前記学習対象発話者の年齢及び/又は性別に対応して属性別に構築されることが好ましい。
【0012】
第2の発明に係る読唇方法において、前記評価時第7工程では、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された年齢及び/又は性別に対応した属性の前記学習モデルを選択して、前記発話内容の推定に利用することができる。
【発明の効果】
【0013】
第1の発明に係る読唇装置及び第2の発明に係る読唇方法は、発話者(学習対象発話者及び評価対象発話者をまとめて発話者という)の口唇特徴に加え、表情特徴も考慮して機械学習を行うことにより、評価時に、発話内容を高精度で推定することができる。特に、発話者の年齢及び/又は性別も考慮して機械学習を行い、発話内容の推定を行った場合、認識率をさらに高めることができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の一実施の形態に係る読唇装置の構成を示すブロック図である。
【
図2】同読唇装置の画像処理部の機能を示すブロック図である。
【
図3】(A)、(B)はそれぞれ同読唇装置の顔特徴点検出手段で検出された顔特徴点を示す説明図である。
【
図4】本発明の一実施の形態に係る読唇方法の学習時の動作を示すフローチャートである。
【
図5】同読唇方法の評価時の動作を示すフローチャートである。
【発明を実施するための形態】
【0015】
続いて、本発明を具体化した実施の形態について説明し、本発明の理解に供する。
図1に示す本発明の一実施の形態に係る読唇装置10及び読唇方法は、発話内容が既知の学習対象発話者の発話時の口唇特徴及び表情特徴等を機械学習することにより、評価対象発話者の発話内容を高精度で推定するものである。
図1に示すように、読唇装置10は、学習対象発話者及び評価対象発話者の発話シーンを撮影(記録)する撮影手段11を備えている。そして、読唇装置10は、学習時に、学習対象発話者の発話シーンが記録された学習対象画像を撮影手段11から読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を撮影手段11から読み込む画像取得部13を備えている。また、読唇装置10は、画像取得部13に読み込まれた学習対象画像及び評価対象画像をそれぞれ画像処理して、機械学習に必要な学習対象データ及び評価対象データを抽出する画像処理部14を備えている。さらに、読唇装置10は、学習時に、学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部15と、学習モデルを保存する読唇データベース16を備えている。そして、読唇装置10は、評価時に、評価対象データと、読唇データベース16に保存された学習モデルから、機械学習により、評価対象発話者の発話内容を推定する認識処理部17を備えている。ここで、読唇装置10は、
図1に示すように、画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17を含んで構成されるが、読唇装置10に用いられる読唇方法を実行するプログラムがコンピュータ18にインストールされ、コンピュータ18のCPUがそのプログラムを実行することにより、コンピュータ18を上記の画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17として機能させることができる。コンピュータの形態としては、デスクトップ型又はノート型が好適に用いられるが、これらに限定されるものではなく、適宜、選択することができる。なお、画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17の一部又は全ては、クラウドコンピューティングにより、ネットワークを通じて利用することもできる。また、撮影手段としてはビデオカメラが好適に用いられるが、読唇装置が専用の撮影手段を備えている必要はなく、発話シーンを撮影した各種の撮影手段をコンピュータ(画像取得部)に接続して学習対象画像又は評価対象画像を読み込むことができる。よって、撮影手段として、動画撮影機能が搭載されたスマートフォン等を用いてもよい。なお、撮影手段をコンピュータ(画像取得部)に接続して画像を読み込む代わりに、撮影手段に内蔵されたメモリーカード等の記憶装置を撮影手段からコンピュータ(画像取得部)に挿し代えて画像を読み込むこともできる。
【0016】
また、読唇装置10は、認識処理部17で推定された評価対象発話者の発話内容を出力する認識結果出力部19を備えている。本実施の形態では、認識結果出力部19は、認識処理部17で推定された評価対象発話者の発話内容を文字で表示するディスプレイ20及び音声で出力するスピーカ21を備える構成としたが、読唇装置10の使用場所及び使用環境等に応じて、ディスプレイ20及びスピーカ21のいずれか一方又は双方を適宜、選択して使用することができる。なお、ディスプレイ及びスピーカは、コンピュータの付属品若しくは内蔵品でもよいし、別途、コンピュータに後付け(外付け)したものでもよい。また、認識結果出力部は、ディスプレイ又はスピーカの一方のみを備える構成としてもよい。
【0017】
次に、
図2により、画像処理部14の詳細について説明する。
画像処理部14は、学習時に、学習対象画像から学習対象発話者の顔領域を検出し、評価時に、評価対象画像から評価対象発話者の顔領域を検出する顔検出手段22を備えている。また、画像処理部14は、顔検出手段22で検出された各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段23と、顔特徴点検出手段23で検出された各顔領域の顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段24を備えている。そして、画像処理部14は、学習時に、学習対象発話者の顔領域、顔特徴点及び口唇領域から、学習対象データとなる学習対象発話者の表情特徴及び口唇特徴を抽出し、評価時に、評価対象発話者の顔領域、顔特徴点及び口唇領域から、評価対象データとなる評価対象発話者の表情特徴及び口唇特徴を抽出する特徴抽出手段25を備えている。
【0018】
顔特徴点検出手段23で検出される顔特徴点は、例えば
図3(A)、(B)に示すように、発話者の顔の輪郭並びに眉、目、鼻及び口の位置と形状を表すものである。本実施の形態では、特徴点数を68点としたが、特徴点数は、これに限定されることなく、適宜、増減させることができる。
コンピュータを用いた従来の読唇技術では、発話者の発話時の口唇を中心とする口唇周辺領域の動きの特徴のみを機械学習で学習していたが、読唇装置10では、発話者の顔領域、顔特徴点及び口唇領域から、表情特徴及び口唇特徴を抽出することにより、発話時の口唇周辺領域の動きだけでなく、発話者の顔全体の表情の特徴(例えば、眉、目及び口等の位置、形状及び角度等の変化)を併せて機械学習することができ、認識率(発話内容の推定精度)を向上させることができる。
【0019】
また、学習処理部15は、学習時に、学習対象データに基づいて学習対象発話者の年齢及び/又は性別も含めて読唇の機械学習を行い、学習対象発話者の年齢及び/又は性別に対応した属性別の学習モデルを構築することができる。そして、認識処理部17は、評価時に、評価対象データから、別途、属性認識の機械学習により、評価対象発話者の年齢及び/又は性別を推定し、推定された年齢及び/又は性別に対応した属性の学習モデルを選択して、評価対象発話者の発話内容の推定に利用することができる。このように、学習時及び評価時に、発話者の年齢及び/又は性別も考慮して機械学習を行うことにより、発話者の年代及び/又は性別の違いが発話時の表情に与える影響を取り除いて認識率をさらに向上させることができる。
【0020】
次に、
図4により、本発明の一実施の形態に係る読唇方法の学習時の動作について説明する。
まず、学習時第1工程で、学習対象発話者の発話シーンが記録された学習対象画像を画像取得部13に読み込む(S1)。次に、学習時第2工程で、画像処理部14の顔検出手段22により、学習対象画像から学習対象発話者の顔領域を検出する(S2)。続いて、学習時第3工程で、画像処理部14の顔特徴点検出手段23により、学習対象発話者の顔領域から学習対象発話者の顔特徴点を検出し(S3)、学習時第4工程で、画像処理部14の口唇領域検出手段24により、学習対象発話者の顔特徴点から学習対象発話者の口唇領域を検出する(S4)。さらに、学習時第5工程で、画像処理部14の特徴検出手段25により、学習対象発話者の顔領域、顔特徴点及び口唇領域から、学習対象データとなる学習対象発話者の表情特徴及び口唇特徴を抽出する(S5)。以上の学習時第1工程~学習時第5工程は、学習する発話シーンの数だけ繰り返し行われる。そして、学習時第6工程で、学習処理部15により、それぞれの発話シーンから抽出した学習対象データに基づいて読唇の機械学習を行う。このとき、学習対象発話者の年齢及び/又は性別等の属性認識も含めて機械学習を行うことにより、学習対象発話者の年齢及び/又は性別に対応した属性別の学習モデルを構築する(S6)。こうして構築された属性別の各学習モデルは、学習時第7工程において、読唇データベース16に保存される(S7)。
【0021】
続いて、
図5により、読唇方法の評価時の動作について説明する。
まず、評価時第1工程で、読唇データベース16に保存された属性別の各学習モデル(学習済みモデル)を読み込む(S1)。そして、評価時第2工程で、評価対象発話者の発話シーンが記録された評価対象画像を画像取得部13に読み込む(S2)。次に、評価時第3工程で、画像処理部14の顔検出手段22により、評価対象画像から評価対象発話者の顔領域を検出する(S3)。続いて、評価時第4工程で、画像処理部14の顔特徴点検出手段23により、評価対象発話者の顔領域から評価対象発話者の顔特徴点を検出し(S4)、評価時第5工程で、画像処理部14の口唇領域検出手段24により、評価対象発話者の顔特徴点から評価対象発話者の口唇領域を検出する(S5)。さらに、評価時第6工程で、画像処理部14の特徴検出手段25により、評価対象発話者の顔領域、顔特徴点及び口唇領域から、評価対象データとなる評価対象発話者の表情特徴及び口唇特徴を抽出する(S6)。そして、評価時第7工程で、評価対象データから、機械学習(属性認識)により、評価対象発話者の年齢及び/又は性別を推定し(S7)、評価対象データと、推定された年齢及び/又は性別に対応した属性の学習モデルから、機械学習(読唇処理)により、評価対象発話者の発話内容を推定する(S8)。推定された発話内容(評価結果)は、文字及び/又は音声に変換され、評価結果出力部19のディスプレイ20及び/又はスピーカ21から出力される(S9)。
【0022】
表情特徴の抽出には、顔の動作解析ツールとして知られているOpen FaceのAction Unitsの特徴量を利用することが好ましいが、これに限定されるものではない。また、機械学習では、深層学習の一種であるゲート付き回帰型ユニット(Gated Recurrent Unit、GRU)を利用し、表情特徴及び口唇特徴をそれぞれ学習してから融合(統合)するlate fusionを用いることにより、認識率(発話内容の推定精度)を向上させることができるが、これらに限定されることなく、様々なアルゴリズムを用いることができる。
【実施例】
【0023】
次に、本発明の作用効果を確認するために行った実施例について説明する。
(実施例1)
学習対象発話者を男性のみ16名、女性のみ16名及び男女8名ずつとして、それぞれ本発明の読唇方法の学習時第1工程~学習時第7工程を行い、属性別の3種類の学習モデルを構築した。そして、評価対象発話者を男性のみ8名又は女性のみ8名として、評価時第1工程~評価時第6工程を行い、評価時第7工程では、評価対象発話者の属性(性別)に関係なく、上記3種類の学習モデルをそれぞれ用いて発話内容を推定し、それぞれの認識率を求めた。その結果を表1に示す。なお、学習対象発話者及び評価対象発話者の年齢については考慮していない。
【0024】
【0025】
表1より、評価対象発話者が男性の場合、学習対象発話者を男性のみとした学習モデルを用いた時の認識率が最も高く、学習対象発話者を女性のみとした学習モデルを用いた時の認識率が最も低いことがわかった。また、評価対象発話者が女性の場合、学習対象発話者を女性のみとした学習モデルを用いた時の認識率が最も高く、学習対象発話者を男性のみとした学習モデルを用いた時の認識率が最も低いことがわかった。これにより、評価対象発話者の性別と学習対象発話者の性別を一致させることにより、高い認識率が得られることが確認された。
【0026】
(実施例2)
0~9の10種の数字を英語で発話した場合、10種の挨拶文を英語で発話した場合、及び0~9の10種の数字を日本語で発話した場合のそれぞれの発話内容につき、本発明の読唇方法を用いて学習と評価を行い、認識率を求めた。また、比較のため、口唇特徴のみを用いて学習と評価を行った時の認識率と、表情特徴のみを用いて学習と評価を行った時の認識率も求めた。その結果を表2に示す。なお、いずれの場合も、学習対象発話者及び評価対象発話者は男女混合とし、年齢についても考慮していない。つまり、ここでは、学習対象発話者及び評価対象発話者の属性認識は行わず、表情特徴と口唇特徴を組合せた効果のみを確認した。
【0027】
【0028】
表2より、発話内容に関わらず、表情特徴と口唇特徴を組合せて学習と評価を行った本発明の読唇方法の認識率が最も高く、表情特徴のみで学習と評価を行った読唇方法の認識率が最も低いことがわかった。これにより、表情特徴と口唇特徴を組合せて学習と評価を行う本発明の読唇方法により、高い認識率が得られることが確認された。
【0029】
以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載した構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。
【符号の説明】
【0030】
10:読唇装置、11:撮影手段、13:画像取得部、14:画像処理部、15:学習処理部、16:読唇データベース、17:認識処理部、18:コンピュータ、19:認識結果出力部、20:ディスプレイ、21:スピーカ、22:顔検出手段、23:顔特徴点検出手段、24:口唇領域抽出手段、25:特徴抽出手段