(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-23
(45)【発行日】2025-01-31
(54)【発明の名称】顔合成読唇装置及び顔合成読唇方法
(51)【国際特許分類】
G06T 7/20 20170101AFI20250124BHJP
【FI】
G06T7/20 300B
(21)【出願番号】P 2021045840
(22)【出願日】2021-03-19
【審査請求日】2024-02-13
(73)【特許権者】
【識別番号】504174135
【氏名又は名称】国立大学法人九州工業大学
(74)【代理人】
【識別番号】100120086
【氏名又は名称】▲高▼津 一也
(74)【代理人】
【識別番号】100090697
【氏名又は名称】中前 富士男
(74)【代理人】
【識別番号】100176142
【氏名又は名称】清井 洋平
(72)【発明者】
【氏名】齊藤 剛史
【審査官】佐田 宏史
(56)【参考文献】
【文献】特開2013-045282(JP,A)
【文献】特開2021-033394(JP,A)
【文献】特開2019-125927(JP,A)
【文献】白方 達也、齊藤 剛史,“表情特徴を用いた読唇”,FIT2020 第19回情報科学技術フォーラム 講演論文集 第3分冊,日本,一般社団法人電子情報通信学会、一般社団法人情報処理学会,2020年08月18日,pp.139-142
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,7/00-7/90
G06V 10/00-10/98
(57)【特許請求の範囲】
【請求項1】
学習時に、学習対象発話者の発話シーンが記録された学習対象画像を読み込み、認識時に、認識対象発話者の発話シーンが記録された認識対象画像を読み込む画像取得部と、該画像取得部に読み込まれた前記学習対象画像及び前記認識対象画像をそれぞれ画像処理して学習対象データ及び認識対象データを抽出する画像処理部と、学習時に、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部と、前記学習モデルを保存する読唇データベースと、認識時に、前記認識対象データと、前記読唇データベースに保存された前記学習モデルから、機械学習により、前記認識対象発話者の発話内容を推測する認識処理部とを備え、
前記画像処理部は、前記学習対象画像から前記学習対象発話者の学習時顔画像を検出し、前記認識対象画像から前記認識対象発話者の認識時顔画像を検出する顔検出手段と、該顔検出手段で検出された前記学習時顔画像及び前記認識時顔画像をそれぞれ特定発話者の顔画像を用いて学習時合成顔画像及び認識時合成顔画像に変換する顔合成手段と、該顔合成手段で作成された前記学習時合成顔画像及び前記認識時合成顔画像からそれぞれ学習時口唇領域及び認識時口唇領域を抽出する口唇領域抽出手段と、前記学習対象データとして、前記学習時口唇領域から学習時口唇特徴を抽出し、前記認識対象データとして、前記認識時口唇領域から認識時口唇特徴を抽出する特徴抽出手段とを有することを特徴とする顔合成読唇装置。
【請求項2】
請求項1記載の顔合成読唇装置において、前記画像処理部は、前記学習時合成顔画像及び前記認識時合成顔画像からそれぞれ学習時顔特徴点及び認識時顔特徴点を検出する顔特徴点検出手段を有し、前記口唇領域抽出手段は、前記学習時顔特徴点及び前記認識時顔特徴点からそれぞれ前記学習時口唇領域及び前記認識時口唇領域を抽出することを特徴とする顔合成読唇装置。
【請求項3】
請求項2記載の顔合成読唇装置において、前記特徴抽出手段は、前記学習対象データとして、前記学習時口唇特徴に加えて、前記学習時顔特徴点から学習時表情特徴を抽出し、前記認識対象データとして、前記認識時口唇特徴に加えて、前記認識時顔特徴点から認識時表情特徴を抽出することを特徴とする顔合成読唇装置。
【請求項4】
請求項1~3のいずれか1記載の顔合成読唇装置において、前記学習対象発話者及び前記認識対象発話者それぞれの発話シーンを撮影する撮影手段及び前記認識処理部で推測された前記認識対象発話者の発話内容を出力する認識結果出力部を備えたことを特徴とする顔合成読唇装置。
【請求項5】
請求項4記載の顔合成読唇装置において、前記認識結果出力部は、前記認識処理部で推測された前記認識対象発話者の発話内容を文字で表示するディスプレイ及び/又は音声で出力するスピーカを備えたことを特徴とする顔合成読唇装置。
【請求項6】
コンピュータによる機械学習を用いた顔合成読唇方法であって、
学習対象発話者の発話シーンが記録された学習対象画像を読み込む学習時第1工程と、前記学習対象画像から前記学習対象発話者の学習時顔画像を検出する学習時第2工程と、前記学習時顔画像を特定発話者の顔画像を用いて学習時合成顔画像に変換する学習時第3工程と、前記学習時合成顔画像から学習時口唇領域を抽出する学習時第4工程と、学習対象データとして、前記学習時口唇領域から学習時口唇特徴を抽出する学習時第5工程と、前記学習時第1工程~前記学習時第5工程を繰り返し、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習時第6工程と、前記学習モデルを保存する学習時第7工程と、保存された前記学習モデルを読み込む認識時第1工程と、認識対象発話者の発話シーンが記録された認識対象画像を読み込む認識時第2工程と、前記認識対象画像から前記認識対象発話者の認識時顔画像を検出する認識時第3工程と、前記認識時顔画像を特定発話者の顔画像を用いて認識時合成顔画像に変換する認識時第4工程と、前記認識時合成顔画像から認識時口唇領域を抽出する認識時第5工程と、認識対象データとして、前記認識時口唇領域から、認識時口唇特徴を抽出する認識時第6工程と、前記認識対象データと前記学習モデルから、機械学習により、前記認識対象発話者の発話内容を推測する認識時第7工程とを備えたことを特徴とする顔合成読唇方法。
【請求項7】
請求項6記載の顔合成読唇方法において、前記学習時第4工程では、前記学習時合成顔画像から学習時顔特徴点を検出して、該学習時顔特徴点から前記学習時口唇領域を抽出し、前記認識時第5工程では、前記認識時合成顔画像から認識時顔特徴点を検出して、該認識時顔特徴点から前記認識時口唇領域を抽出することを特徴とする顔合成読唇方法。
【請求項8】
請求項7記載の顔合成読唇方法において、前記学習時第5工程では、前記学習対象データとして、前記学習時口唇特徴に加えて、前記学習時顔特徴点から学習時表情特徴を抽出し、前記認識時第6工程では、前記認識対象データとして、前記認識時口唇特徴に加えて、前記認識時顔特徴点から認識時表情特徴を抽出することを特徴とする顔合成読唇方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習を用いて不特定の認識対象発話者の発話内容を高精度で推測することができる顔合成読唇装置及び顔合成読唇方法に関する。
【背景技術】
【0002】
従来、音声情報をテキストに変換する音声認識技術は、実験室等の低騒音の環境下では、十分な認識率が得られており、少しずつ普及しつつあるが、周囲の騒音の影響を受け易いオフィスや屋外等の騒音環境下、或いは声を出し難い電車や病院等の公共の場所では利用し難く、実用性に欠けるという問題があった。また、発話が困難な発話障害者は音声認識技術を利用することができず、汎用性に欠けるという問題もあった。
これに対して、読唇技術は、発話者の唇の動き等から発話内容を推測することができ、音声を発する必要がなく(音声情報を必要とせず)、映像のみでも発話内容を推測できるため、騒音環境下や公共の場所等でも利用が期待できるだけでなく、発話障害者も利用することができる。特に、コンピュータを用いた読唇技術であれば、特別な訓練を必要とせず、誰でも手軽に利用できるため、その普及が期待されている。
例えば、特許文献1には、口唇領域を含む顔画像を取得する撮像手段と、取得画像から口唇領域を抽出する領域抽出手段と、抽出された口唇領域より形状特徴量を計測する特徴量計測手段と、登録モードにおいて計測されたキーワード発話シーンの特徴量を登録するキーワードDBと、認識モードにおいて、登録されているキーワードの特徴量と、文章の発話シーンを対象として計測された特徴量とを比較することにより口唇の発話内容を認識(推測)する認識処理を行って、文章の中からキーワードを認識するワードスポッティング読唇を行う判断手段と、判断手段が行った認識結果を表示する表示手段とを備えたワードスポッティング読唇装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1をはじめとするコンピュータを用いた従来の読唇技術では、登録モード(学習モード、学習時)において、登録(学習)の対象となる発話者(学習対象発話者)の発話シーンを用いて機械学習によりモデルを学習し、認識モードにおいて、認識の対象となる発話者(認識対象発話者)の発話内容を推測している。この認識のタスクには、一般的に、認識対象発話者が学習対象発話者の中に含まれる特定話者認識と、認識対象発話者が学習対象発話者の中に含まれていない不特定話者認識の二つがある。特定話者認識では、学習対象発話者及び認識対象発話者が特定(限定)されるため、通常、不特定話者認識よりも認識精度が高くなるが、利用者(認識対象発話者)を学習対象発話者とする発話シーンの事前登録(学習)が必要であり、学習モデルの構築に手間がかかるという課題がある。これに対し、不特定話者認識では、特定話者認識のような事前登録は不要であり(学習対象発話者は誰でもよく)、不特定の学習対象発話者の発話シーンで(既存のデータベース等を利用して)学習を行うことができるため、学習モデルの構築が容易である反面、特定話者認識よりも認識の難易度が高くなるという課題がある。
本発明は、かかる事情に鑑みてなされたもので、発話者の顔画像を画像処理することにより、読唇の認識精度を向上させることができる実用性に優れた顔合成読唇装置及び顔合成読唇方法を提供することを目的とする。
【課題を解決するための手段】
【0005】
前記目的に沿う第1の発明に係る顔合成読唇装置は、学習時に、学習対象発話者の発話シーンが記録された学習対象画像を読み込み、認識時に、認識対象発話者の発話シーンが記録された認識対象画像を読み込む画像取得部と、該画像取得部に読み込まれた前記学習対象画像及び前記認識対象画像をそれぞれ画像処理して学習対象データ及び認識対象データを抽出する画像処理部と、学習時に、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部と、前記学習モデルを保存する読唇データベースと、認識時に、前記認識対象データと、前記読唇データベースに保存された前記学習モデルから、機械学習により、前記認識対象発話者の発話内容を推測する認識処理部とを備え、
前記画像処理部は、前記学習対象画像から前記学習対象発話者の学習時顔画像を検出し、前記認識対象画像から前記認識対象発話者の認識時顔画像を検出する顔検出手段と、該顔検出手段で検出された前記学習時顔画像及び前記認識時顔画像をそれぞれ特定発話者の顔画像を用いて学習時合成顔画像及び認識時合成顔画像に変換する顔合成手段と、該顔合成手段で作成された前記学習時合成顔画像及び前記認識時合成顔画像からそれぞれ学習時口唇領域及び認識時口唇領域を抽出する口唇領域抽出手段と、前記学習対象データとして、前記学習時口唇領域から学習時口唇特徴を抽出し、前記認識対象データとして、前記認識時口唇領域から認識時口唇特徴を抽出する特徴抽出手段とを有する。
【0006】
第1の発明に係る顔合成読唇装置において、前記画像処理部は、前記学習時合成顔画像及び前記認識時合成顔画像からそれぞれ学習時顔特徴点及び認識時顔特徴点を検出する顔特徴点検出手段を有し、前記口唇領域抽出手段は、前記学習時顔特徴点及び前記認識時顔特徴点からそれぞれ前記学習時口唇領域及び前記認識時口唇領域を抽出してもよい。
【0007】
第1の発明に係る顔合成読唇装置において、前記特徴抽出手段は、前記学習対象データとして、前記学習時口唇特徴に加えて、前記学習時顔特徴点から学習時表情特徴を抽出し、前記認識対象データとして、前記認識時口唇特徴に加えて、前記認識時顔特徴点から認識時表情特徴を抽出することもできる。
【0008】
第1の発明に係る顔合成読唇装置において、前記学習対象発話者及び前記認識対象発話者それぞれの発話シーンを撮影する撮影手段及び前記認識処理部で推測された前記認識対象発話者の発話内容を出力する認識結果出力部を備えることができる。
【0009】
第1の発明に係る顔合成読唇装置において、前記認識結果出力部は、前記認識処理部で推測された前記認識対象発話者の発話内容を文字で表示するディスプレイ及び/又は音声で出力するスピーカを備えることが好ましい。
【0010】
前記目的に沿う第2の発明に係る顔合成読唇方法は、学習対象発話者の発話シーンが記録された学習対象画像を読み込む学習時第1工程と、前記学習対象画像から前記学習対象発話者の学習時顔画像を検出する学習時第2工程と、前記学習時顔画像を特定発話者の顔画像を用いて学習時合成顔画像に変換する学習時第3工程と、前記学習時合成顔画像から学習時口唇領域を抽出する学習時第4工程と、学習対象データとして、前記学習時口唇領域から学習時口唇特徴を抽出する学習時第5工程と、前記学習時第1工程~前記学習時第5工程を繰り返し、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習時第6工程と、前記学習モデルを保存する学習時第7工程と、保存された前記学習モデルを読み込む認識時第1工程と、認識対象発話者の発話シーンが記録された認識対象画像を読み込む認識時第2工程と、前記認識対象画像から前記認識対象発話者の認識時顔画像を検出する認識時第3工程と、前記認識時顔画像を特定発話者の顔画像を用いて認識時合成顔画像に変換する認識時第4工程と、前記認識時合成顔画像から認識時口唇領域を抽出する認識時第5工程と、認識対象データとして、前記認識時口唇領域から、認識時口唇特徴を抽出する認識時第6工程と、前記認識対象データと前記学習モデルから、機械学習により、前記認識対象発話者の発話内容を推測する認識時第7工程とを備える。
【0011】
第2の発明に係る顔合成読唇方法において、前記学習時第4工程では、前記学習時合成顔画像から学習時顔特徴点を検出して、該学習時顔特徴点から前記学習時口唇領域を抽出し、前記認識時第5工程では、前記認識時合成顔画像から認識時顔特徴点を検出して、該認識時顔特徴点から前記認識時口唇領域を抽出してもよい。
【0012】
第2の発明に係る顔合成読唇方法において、前記学習時第5工程では、前記学習対象データとして、前記学習時口唇特徴に加えて、前記学習時顔特徴点から学習時表情特徴を抽出し、前記認識時第6工程では、前記認識対象データとして、前記認識時口唇特徴に加えて、前記認識時顔特徴点から認識時表情特徴を抽出することもできる。
【発明の効果】
【0013】
第1の発明に係る顔合成読唇装置及び第2の発明に係る顔合成読唇方法は、不特定の発話者(学習対象発話者及び認識対象発話者をまとめて発話者という)の顔画像を特定発話者の顔画像に変換して学習処理及び認識処理を行うことにより、認識時に、発話内容を高精度で推測することができ、認識精度の向上を図ることができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の一実施の形態に係る顔合成読唇装置の構成を示すブロック図である。
【
図2】同顔合成読唇装置の画像処理部の機能を示すブロック図である。
【
図3】本発明の一実施の形態に係る顔合成読唇方法の学習時の動作を示すフローチャートである。
【
図4】同顔合成読唇方法の認識時の動作を示すフローチャートである。
【発明を実施するための形態】
【0015】
続いて、本発明を具体化した実施の形態について説明し、本発明の理解に供する。
図1に示す本発明の一実施の形態に係る顔合成読唇装置10及び顔合成読唇方法は、コンピュータ(機械学習)を用いた読唇技術において、不特定の学習対象発話者及び不特定の認識対象発話者の顔画像を特定発話者の顔画像に変換して学習処理及び認識処理を行うことにより、不特定の認識対象発話者の発話内容を高精度で推測し、認識精度(読唇精度)の向上を図るものである。
図1に示すように、顔合成読唇装置10は、学習対象発話者及び認識対象発話者それぞれの発話シーンを撮影(記録)する撮影手段11を備えている。そして、顔合成読唇装置10は、学習時に、学習対象発話者の発話シーンが記録された学習対象画像を撮影手段11から読み込み、認識時に、認識対象発話者の発話シーンが記録された認識対象画像を撮影手段11から読み込む画像取得部13を備えている。また、顔合成読唇装置10は、画像取得部13に読み込まれた学習対象画像及び認識対象画像をそれぞれ画像処理して、機械学習に必要な学習対象データ及び認識対象データを抽出する画像処理部14を備えている。さらに、顔合成読唇装置10は、学習時に、学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部15と、学習モデルを保存する読唇データベース16を備えている。そして、顔合成読唇装置10は、認識時に、認識対象データと、読唇データベース16に保存された学習モデルから、機械学習により、認識対象発話者の発話内容を推測する認識処理部17を備えている。
【0016】
ここで、顔合成読唇装置10は、
図1に示すように、画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17を含んで構成されるが、顔合成読唇装置10に用いられる顔合成読唇方法を実行するプログラムがコンピュータ18にインストールされ、コンピュータ18のCPUがそのプログラムを実行することにより、コンピュータ18を上記の画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17として機能させることができる。コンピュータの形態としては、デスクトップ型又はノート型が好適に用いられるが、これらに限定されるものではなく、適宜、選択することができる。なお、画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17の一部又は全ては、クラウドコンピューティングにより、ネットワークを通じて利用することもできる。また、撮影手段としてはビデオカメラが好適に用いられるが、顔合成読唇装置が専用の撮影手段を備えている必要はなく、発話シーンを撮影した各種の撮影手段若しくは発話シーンが記録された各種の記憶手段(記憶媒体)をコンピュータ(画像取得部)に接続して学習対象画像又は認識対象画像を読み込むことができる。よって、撮影手段として、動画撮影機能が搭載されたスマートフォン等を用いてもよいし、撮影手段をコンピュータ(画像取得部)に接続して画像を読み込む代わりに、撮影手段に内蔵されたメモリーカード等の記憶媒体を撮影手段からコンピュータ(画像取得部)に挿し代えて画像を読み込むこともできる。
【0017】
また、顔合成読唇装置10は、認識処理部17で推測された認識対象発話者の発話内容を出力する認識結果出力部19を備えている。本実施の形態では、認識結果出力部19は、認識処理部17で推測された認識対象発話者の発話内容を文字で表示するディスプレイ20及び音声で出力するスピーカ21を備える構成としたが、顔合成読唇装置10の使用場所及び使用環境等に応じて、ディスプレイ20及びスピーカ21のいずれか一方又は双方を適宜、選択して使用することができる。なお、ディスプレイ及びスピーカは、コンピュータの付属品若しくは内蔵品でもよいし、別途、コンピュータに後付け(外付け)したものでもよい。また、認識結果出力部は、ディスプレイ又はスピーカの一方のみを備える構成としてもよい。
【0018】
次に、
図2により、画像処理部14の詳細について説明する。
画像処理部14は、学習時に、学習対象画像から学習対象発話者の学習時顔画像を検出し、認識時に、認識対象画像から認識対象発話者の認識時顔画像を検出する顔検出手段22を備えている。また、画像処理部14は、顔検出手段22で検出された学習時顔画像及び認識時顔画像をそれぞれ特定発話者の顔画像を用いて学習時合成顔画像及び認識時合成顔画像に変換する顔合成手段23と、顔合成手段23で作成された学習時合成顔画像及び認識時合成顔画像からそれぞれ学習時口唇領域及び認識時口唇領域を抽出する口唇領域抽出手段24を備えている。そして、画像処理部14は、学習対象データとして、学習時口唇領域から学習時口唇特徴を抽出し、認識対象データとして、認識時口唇領域から認識時口唇特徴を抽出する特徴抽出手段25を備えている。
【0019】
顔合成手段23では、不特定の人物の学習時顔画像及び認識時顔画像の発話時の動きに合わせて、ある特定の人物の顔画像(静止画)を動かす(動画化)ことができる。つまり、不特定発話者の学習時顔画像及び認識時顔画像を、特定発話者の顔画像を用いて学習時合成顔画像及び認識時合成顔画像に変換することができるので、読唇の認識精度の向上を図ることができる。特定発話者の顔画像としては、例えば既存のデータベース等に登録された人物の顔画像を用いてもよいし、その他の人物の顔画像を用いてもよい。また、実在する人物だけでなく、コンピュータグラフィックスやアニメーションで描かれた人物の顔画像でもよいし、例えば人物以外のロボット、車、動物、昆虫等を擬人化した顔画像でもよい。また、特定発話者は一人に限定されるものではなく、特定された少人数でもよい。学習対象データ及び認識対象データの対象が、多数の不特定発話者から、一人又は少人数の特定発話者に集約されることにより、認識精度が向上する。特定発話者を学習対象発話者又は認識対象発話者から選択した場合、特定発話者に選択された学習対象発話者又は認識対象発話者の顔画像は、他の学習対象発話者又は認識対象発話者と同様に特定発話者の顔画像に変換してもよいし、変換しなくてもよい。なお、顔合成手段23では、First Order Motion Model(FOMM)が好適に用いられるがこれに限定されない。
【0020】
画像処理部14は、口唇領域抽出手段24で、学習時合成顔画像及び認識時合成顔画像を画像処理することにより学習時口唇領域及び認識時口唇領域を抽出するが、学習時口唇領域及び認識時口唇領域を抽出する手段及び方法は、適宜、選択される。例えば、画像処理部14は、顔特徴点検出手段で、学習時合成顔画像及び認識時合成顔画像からそれぞれ学習時顔特徴点及び認識時顔特徴点を検出した上で、口唇領域抽出手段により、学習時顔特徴点及び認識時顔特徴点に基づいて、学習時口唇領域及び認識時口唇領域を抽出することができる。学習時顔特徴点及び認識時顔特徴点は、例えば、特定発話者の顔の輪郭並びに眉、目、鼻及び口の位置と形状を表すものであり、その特徴点数は、適宜、選択される。なお、本実施の形態のように、先に、顔合成手段23で、学習対象発話者の学習時顔画像及び認識対象発話者の認識時顔画像が、特定発話者の顔画像を用いて学習時合成顔画像及び認識時合成顔画像に変換される場合、学習時顔特徴点及び認識時顔特徴点の特徴点数を削減して顔特徴点検出手段での処理を高速化若しくは簡素化することもできるし、顔特徴点検出手段を省略して画像処理部での処理を簡素化することもできる。
【0021】
また、特徴抽出手段で、学習対象データとして、学習時口唇領域から学習時口唇特徴を抽出し、認識対象データとして、認識時口唇領域から認識時口唇特徴を抽出することにより、学習処理部及び認識処理部では、それぞれの口唇特徴(口唇周辺領域の動きの特徴)に基づいて機械学習を行い、学習モデルの構築及び発話内容の推測を行うことができる。なお、前述のように、画像処理部が、顔特徴点検出手段を有しており、学習時合成顔画像及び認識時合成顔画像からそれぞれ学習時顔特徴点及び認識時顔特徴点が検出されている場合、特徴抽出手段は、学習対象データとして、学習時口唇特徴に加えて、学習時顔特徴点から学習時表情特徴を抽出し、認識対象データとして、認識時口唇特徴に加えて、認識時顔特徴点から認識時表情特徴を抽出することができ、口唇特徴に加え、顔全体の表情特徴(例えば、眉、目及び口等の位置、形状及び角度等の変化)を考慮して機械学習を行うことにより、発話内容の認識精度(認識率)をさらに高めることも可能であるが、学習時口唇特徴及び認識時口唇特徴だけでも十分な認識精度が得られる。
【0022】
次に、
図3により、本発明の一実施の形態に係る顔合成読唇方法の学習時の動作について説明する。
まず、学習時第1工程で、学習対象発話者の発話シーンが記録された学習対象画像を画像取得部13に読み込む(S1)。次に、学習時第2工程で、画像処理部14の顔検出手段22により、学習対象画像から学習対象発話者の学習時顔画像を検出する(S2)。続いて、学習時第3工程で、画像処理部14の顔合成手段23により、学習時顔画像を特定発話者の顔画像を用いて学習時合成顔画像に変換し(S3)、学習時第4工程で、画像処理部14の口唇領域抽出手段24により、学習時合成顔画像から学習時口唇領域を抽出する(S4)。さらに、学習時第5工程で、画像処理部14の特徴抽出手段25により、学習対象データとして、学習時口唇領域から学習時口唇特徴を抽出する(S5)。以上の学習時第1工程~学習時第5工程は、学習する発話シーンの数だけ繰り返し行われる。そして、学習時第6工程で、学習処理部15により、それぞれの発話シーンから抽出した学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する(S6)。こうして構築された学習モデルは、学習時第7工程において、読唇データベース16に保存される(S7)。
なお、先に説明したように、学習時口唇領域を抽出する手段及び方法は、適宜、選択される。例えば、学習時第4工程において、画像処理部の顔特徴点検出手段で、学習時合成顔画像から学習時顔特徴点を検出した上で、口唇領域抽出手段により、学習時顔特徴点に基づいて、学習時口唇領域を抽出することができる。また、学習時顔特徴点が検出されていれば、学習時第5工程では、画像処理部の特徴抽出手段により、学習対象データとして、学習時口唇領域に加えて、学習時顔特徴点から学習時表情特徴を抽出し、口唇特徴に加え、顔全体の表情特徴を考慮して機械学習を行うことができる。
【0023】
続いて、
図4により、顔合成読唇方法の認識時の動作について説明する。
まず、認識時第1工程で、読唇データベース16に保存された学習モデル(学習済みモデル)を読み込む(S1)。そして、認識時第2工程で、認識対象発話者の発話シーンが記録された認識対象画像を画像取得部13に読み込む(S2)。次に、認識時第3工程で、画像処理部14の顔検出手段22により、認識対象画像から認識対象発話者の認識時顔画像を検出する(S3)。続いて、認識時第4工程で、画像処理部14の顔合成手段23により、認識時顔画像を特定発話者の顔画像を用いて認識時合成顔画像に変換し(S4)、認識時第5工程で、画像処理部14の口唇領域抽出手段24により、認識時合成顔画像から認識時口唇領域を抽出する(S5)。さらに、認識時第6工程で、画像処理部14の特徴抽出手段25により、認識対象データとして、認識時口唇領域から、認識時口唇特徴を抽出する(S6)。そして、認識時第7工程で、認識対象データと学習モデルから、機械学習(読唇処理)により、認識対象発話者の発話内容を推測する(S7)。推測された発話内容(評価結果)は、文字及び/又は音声に変換され、評価結果出力部19のディスプレイ20及び/又はスピーカ21から出力される(S8)。
なお、前述のように、画像処理部が、顔特徴点検出手段を有している場合、認識時第5工程では、認識時合成顔画像から認識時顔特徴点を検出した上で、認識時顔特徴点に基づいて認識時口唇領域を抽出することができる。また、認識時第6工程では、特徴抽出手段は、認識対象データとして、認識時口唇特徴に加えて、認識時顔特徴点から認識時表情特徴を抽出することができ、口唇特徴に加え、顔全体の表情特徴を考慮して機械学習を行うことができる。
【実施例】
【0024】
次に、本発明の作用効果を確認するために行った評価結果について説明する。
(比較例1)
読唇用に公開されたデータベースCUAVEを用いて従来の読唇方法の評価を行った。CUAVEには、36名(男性19名、女性17名)の登録発話者が、それぞれ0~9の10種の数字を英語で発話したシーンが収録されている。従来の読唇方法として、本発明の顔合成読唇方法の学習時第3工程と認識時第4工程を省略し、その後の工程で、学習時合成顔画像及び認識時合成顔画像の代わりに、学習時顔画像及び認識時顔画像をそのまま使用した。評価方法としては、既存手法の一人抜き法を用いた。つまり、36名の登録発話者の中から1名の認識対象発話者を選択し、残りの35名の登録発話者を学習対象発話者とする学習と評価を、認識対象発話者を変えて36回(1通り)の認識実験を行ったところ、平均認識精度は73%であった。
【0025】
(実施例1)
比較例1と同一のデータベースCUAVEを用いて、読唇方法として、本発明の顔合成読唇方法を使用した。まず、学習時第3工程及び認識時第4工程で使用する特定発話者の顔画像を選定するため、各登録発話者の発話シーンから1枚ずつフレーム画像を取り出して、36名の登録発話者の顔画像(静止画)を準備し、各登録発話者の顔画像の中から1名ずつ特定発話者の顔画像を選択して、特定発話者毎に、比較例1と同様の一人抜き法で36回(1通り)の認識実験を行った。36名の特定発話者に対する合計36通りの認識実験のうち、35通り(97%)の認識実験において、比較例1の認識実験よりも認識精度が向上し、平均認識精度は83%であった。また、36通り(36名の特定発話者)の認識実験のうち、最も認識精度が高かった1名の特定発話者に対する36回(1通り)の認識実験の結果を認識対象発話者毎に比較例1の認識実験の結果と比較したところ、36回の認識実験のうち、27回の認識実験、つまり、36名中27名の認識対象発話者(75%)の認識実験において、比較例1の認識実験よりも認識精度が向上した。
【0026】
(比較例2)
データベースとしてCUAVEの代わりにOuluVSを使用した。OuluVSには、20名(男性17名、女性3名)の登録発話者が、それぞれ10種の挨拶文を英語で発話したシーンが収録されている。登録発話者の人数が異なる以外は、比較例1と同様にして評価を行った。つまり、20名の登録発話者の中から1名の認識対象発話者を選択し、残りの19名の登録発話者を学習対象発話者とする学習と評価を、認識対象発話者を変えて20回(1通り)の認識実験を行ったところ、平均認識精度は81%であった。
【0027】
(実施例2)
比較例2と同一のデータベースOuluVSを用いた以外は、実施例1と同様にして評価を行った。つまり、準備した20名の登録発話者の顔画像(静止画)の中から1名ずつ特定発話者の顔画像を選択して、特定発話者毎に、一人抜き法で20回(1通り)の認識実験を行った。20名の特定発話者に対する合計20通りの認識実験のうち、17通り(85%)の認識実験において、比較例2の認識実験よりも認識精度が向上し、平均認識精度は87%であった。また、20通り(20名の特定発話者)の認識実験のうち、最も認識精度が高かった1名の特定発話者に対する20回(1通り)の認識実験の結果を認識対象発話者毎に比較例2の認識実験の結果と比較したところ、20回の認識実験のうち、12回の認識実験、つまり、20名中12名の認識対象発話者(60%)の認識実験において、比較例2の認識実験よりも認識精度が向上した。
【0028】
以上のことから、本発明の顔合成読唇方法を用いることにより、従来の読唇方法よりも読唇の認識精度が平均で6~7%程度向上することが判明し、本発明の顔合成読唇方法の有効性が確認された。なお、実施例1、2では、学習対象発話者及び認識対象発話者の全ての顔画像を1名の特定発話者の顔画像に変換して認識実験を行ったが、特定発話者の人数が複数名であっても、少なくとも学習対象発話者の人数よりも少なければ、認識精度を向上させることができると考えられる。
【0029】
以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載した構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。
例えば、本実施の形態では、機械学習に、深層学習の一種であるゲート付き回帰型ユニット(Gated Recurrent Unit、GRU)を利用したが、機械学習のアルゴリズムは、適宜、選択される。
【符号の説明】
【0030】
10:顔合成読唇装置、11:撮影手段、13:画像取得部、14:画像処理部、15:学習処理部、16:読唇データベース、17:認識処理部、18:コンピュータ、19:認識結果出力部、20:ディスプレイ、21:スピーカ、22:顔検出手段、23:顔合成手段、24:口唇領域抽出手段、25:特徴抽出手段