特許7299587 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧 ▶ 国立大学法人名古屋大学の特許一覧

特許7299587情報処理装置、発話認識システム及び発話認識プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-06-20

(45)【発行日】2023-06-28

(54)【発明の名称】情報処理装置、発話認識システム及び発話認識プログラム

(51)【国際特許分類】

G06T 7/20 20170101AFI20230621BHJP

G06T 7/00 20170101ALI20230621BHJP

G06F 3/01 20060101ALI20230621BHJP

G10L 15/25 20130101ALI20230621BHJP

【ＦＩ】

G06T7/20 300Z

G06T7/00 350B

G06F3/01 510

G10L15/25

【請求項の数】 8

(21)【出願番号】P 2019019139

(22)【出願日】2019-02-05

(65)【公開番号】P2020126492

(43)【公開日】2020-08-20

【審査請求日】2021-08-24

(73)【特許権者】

【識別番号】000006747

【氏名又は名称】株式会社リコー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(73)【特許権者】

【識別番号】504139662

【氏名又は名称】国立大学法人東海国立大学機構

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(72)【発明者】

【氏名】後藤悠斗

(72)【発明者】

【氏名】能勢将樹

(72)【発明者】

【氏名】速水悟

(72)【発明者】

【氏名】田村哲嗣

【審査官】笠田和宏

(56)【参考文献】

【文献】特開平１０－１８７１８６（ＪＰ，Ａ）

【文献】特開２０１５－０４５９１９（ＪＰ，Ａ）

【文献】国際公開第２０１３／１９１０６１（ＷＯ，Ａ１）

【文献】Jon Barker，外１名，Energetic and Informational Masking Effects in an Audiovisual Speech Recognition System，IEEE Transactions on Audio, Speech, and Language Processing，Volume 17，Issue 3，2009年03月，pp. 446-458

【文献】高橋昌平，外１名，複数画像特徴量を用いた読唇システムオプティカルフロー特徴・形状特徴・離散コサイン変換特徴の統合の検討，情報処理学会研究報告コンピュータビジョンとイメージメディア（ＣＶＩＭ）［ｏｎｌｉｎｅ］，情報処理学会，2014年02月24日，Vol. 2014-CVIM-191，No. 7

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／２０

Ｇ０６Ｔ７／００

Ｇ０６Ｆ３／０１

Ｇ１０Ｌ１５／２５

(57)【特許請求の範囲】

【請求項1】

撮像装置によって撮像された動画データが入力される入力部と、
前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する口唇領域抽出部と、
前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する認識モデル選択部と、
選択された認識モデルを用いて前記人物の発話内容を認識する発話認識部と、
前記発話内容の認識結果を出力する出力部と、
前記撮像装置と前記人物との距離を異ならせて前記人物を撮像した動画データから抽出された口唇領域画像データを用いて学習させた複数の認識モデルが格納された記憶部と、
前記撮像装置と前記人物との距離に応じて、前記複数の認識モデルの中から、発話内容の認識に使用する認識モデルを選択する認識モデル選択部と、を有し、
前記認識モデル選択部は、
前記連続した口唇画像の横幅の画素数の平均値が所定値未満である場合、発話内容の認識不可とし、
前記連続した口唇画像の横幅の画素数の平均値が前記所定値以上であり、且つ、前記所定値より大きい値である第一の値未満である場合に、前記複数の認識モデルの中から、遠距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第一の値以上であり、且つ、前記第一の値よりも大きい値である第二の値未満である場合に、前記複数の認識モデルの中から、中距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第二の値以上である場合に、前記複数の認識モデルの中から、近距離用の認識モデルを選択する情報処理装置。

【請求項2】

前記連続した口唇画像の横幅の画素数の平均値を算出する口唇画素数算出部を有し、
前記平均値を前記口唇領域画像データに付与された属性情報とする、請求項１記載の情報処理装置。

【請求項3】

前記動画データが示す動画におけるフレームレートを算出するフレームレート算出部を有し、
前記フレームレートを前記属性情報とする、請求項１記載の情報処理装置。

【請求項4】

前記複数の認識モデルは、
それぞれについて、異なるフレームレートで取得された、連続する口唇画像を示す口唇領域画像データを入力として学習させたモデルである、請求項３記載の情報処理装置。

【請求項5】

前記口唇領域画像データが、選択された認識モデルの入力データとなるように、前記連続した口唇画像の解像度を異なる解像度に変換する口唇画素数変換部を有する、請求項１乃至４の何れか一項に記載の情報処理装置。

【請求項6】

一定期間の前記連続した口唇画像の横幅の画素数と縦幅の画素数とが示す画像の８ビットのＲＧＢ値を特徴量として算出する特徴量算出部を有し、
前記発話認識部は、
選択された認識モデルと、前記特徴量とを用いて前記発話内容を認識する、請求項１乃至５の何れか一項に記載の情報処理装置。

【請求項7】

撮像装置と、情報処理装置とを有する発話認識システムであって、
前記情報処理装置は、
前記撮像装置によって撮像された動画データが入力される入力部と、
前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する口唇領域抽出部と、
前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する認識モデル選択部と、
選択された認識モデルを用いて前記人物の発話内容を認識する発話認識部と、
前記発話内容の認識結果を出力する出力部と、
前記撮像装置と前記人物との距離を異ならせて前記人物を撮像した動画データから抽出された口唇領域画像データを用いて学習させた複数の認識モデルが格納された記憶部と、
前記撮像装置と前記人物との距離に応じて、前記複数の認識モデルの中から、発話内容の認識に使用する認識モデルを選択する認識モデル選択部と、を有し、
前記認識モデル選択部は、
前記連続した口唇画像の横幅の画素数の平均値が所定値未満である場合、発話内容の認識不可とし、
前記連続した口唇画像の横幅の画素数の平均値が前記所定値以上であり、且つ、前記所定値より大きい値である第一の値未満である場合に、前記複数の認識モデルの中から、遠距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第一の値以上であり、且つ、前記第一の値よりも大きい値である第二の値未満である場合に、前記複数の認識モデルの中から、中距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第二の値以上である場合に、前記複数の認識モデルの中から、近距離用の認識モデルを選択する発話認識システム。

【請求項8】

情報処理装置に、
撮像装置によって撮像された動画データを入力する処理と、
前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する処理と、
前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する処理と、
選択された認識モデルを用いて前記人物の発話内容を認識する処理と、
前記発話内容の認識結果を出力する処理と、
記憶部に格納された、前記撮像装置と前記人物との距離を異ならせて前記人物を撮像した動画データから抽出された口唇領域画像データを用いて学習させた複数の認識モデルから、前記撮像装置と前記人物との距離に応じて、発話内容の認識に使用する認識モデルを選択する処理と、を実行させ、
前記認識モデルを選択する処理は、
前記連続した口唇画像の横幅の画素数の平均値が所定値未満である場合、発話内容の認識不可とし、
前記連続した口唇画像の横幅の画素数の平均値が前記所定値以上であり、且つ、前記所定値より大きい値である第一の値未満である場合に、前記複数の認識モデルの中から、遠距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第一の値以上であり、且つ、前記第一の値よりも大きい値である第二の値未満である場合に、前記複数の認識モデルの中から、中距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第二の値以上である場合に、前記複数の認識モデルの中から、近距離用の認識モデルを選択する、発話認識プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、発話認識システム及び音声認識プログラムに関する。

【背景技術】

【0002】

近年の音声認識システムでは、音声情報を補完するために、画像情報を使って発話者の口唇の動きから発話内容を認識する機械読唇技術(リップリーディング)が既に知られている。

【0003】

また、音声認識に画像情報を用いる技術の１つとして、広角撮影装置で撮像された顔画像を平面正則画像に変換し、参加者と広角撮影装置との距離に応じて、口唇領域を抽出する際の倍率を設定する技術が知られている。

【発明の概要】

【発明が解決しようとする課題】

【0004】

会議等では、話者が着席する位置や姿勢、話者の動き等によって、撮像装置と話者との距離が変化する。そのため、音声情報の補間として入力される画像情報では、話者の口唇領域の大きさが常に一定である保証はなく、認識器へ入力される画像情報の解像度にばらつきが生じ、発話内容の認識の精度を向上させることが困難であった。

【0005】

開示の技術は、発話内容の認識精度を向上させることを目的とする。

【課題を解決するための手段】

【0006】

開示の技術は、撮像装置によって撮像された動画データが入力される入力部と、前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する口唇領域抽出部と、前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する認識モデル選択部と、選択された認識モデルを用いて前記人物の発話内容を認識する発話認識部と、前記発話内容の認識結果を出力する出力部と、前記撮像装置と前記人物との距離を異ならせて前記人物を撮像した動画データから抽出された口唇領域画像データを用いて学習させた複数の認識モデルが格納された記憶部と、前記撮像装置と前記人物との距離に応じて、前記複数の認識モデルの中から、発話内容の認識に使用する認識モデルを選択する認識モデル選択部と、を有し、前記認識モデル選択部は、前記連続した口唇画像の横幅の画素数の平均値が所定値未満である場合、発話内容の認識不可とし、前記連続した口唇画像の横幅の画素数の平均値が前記所定値以上であり、且つ、前記所定値より大きい値である第一の値未満である場合に、前記複数の認識モデルの中から、遠距離用の認識モデルを選択し、前記連続した口唇画像の横幅の画素数の平均値が前記第一の値以上であり、且つ、前記第一の値よりも大きい値である第二の値未満である場合に、前記複数の認識モデルの中から、中距離用の認識モデルを選択し、前記連続した口唇画像の横幅の画素数の平均値が前記第二の値以上である場合に、前記複数の認識モデルの中から、近距離用の認識モデルを選択する情報処理装置である。

【発明の効果】

【0007】

発話内容の認識精度を向上させることができる。

【図面の簡単な説明】

【0008】

【図1】第一の実施形態の発話認識システムについて説明する図である。

【図2】第一の実施形態の情報処理装置のハードウェア構成の一例を示す図である。

【図3】第一の実施形態の情報処理装置の機能を説明する図である。

【図4】第一の実施形態の情報処理装置の処理を説明する第一のフローチャートである。

【図5】第一の実施形態の情報処理装置の処理を説明する第二のフローチャートである。

【図6】第一の実施形態の口唇画像を説明する図である。

【図7】第一の実施形態の認識モデルの選択について説明する図である。

【図8】第一の実施形態の認識モデルについて説明する第一の図である。

【図9】第一の実施形態の認識モデルについて説明する第二の図である。

【図10】第二の実施形態の情報処理装置の機能を説明する図である。

【図11】第二の実施形態の情報処理装置の処理を説明する第一のフローチャートである。

【図12】第二の実施形態の認識モデルについて説明する第一の図である。

【図13】第二の実施形態の認識モデルについて説明する第二の図である。

【図14】第三の実施形態の認識モデルの選択について説明する図である。

【発明を実施するための形態】

【0009】

（第一の実施形態）
以下に図面を参照して、第一の実施形態について説明する。図１は、第一の実施形態の発話認識システムについて説明する図である。

【0010】

本実施形態の発話認識システム１００は、情報処理装置２００と、撮像装置３００とを有する。発話認識システム１００において、情報処理装置２００と撮像装置３００とは、有線又は無線にて接続されている。

【0011】

図１では、３名の参加者Ａ、Ｂ、Ｃによる会議が開催されており、参加者Ａ、Ｂ、Ｃのそれぞれの発話内容を発話認識システム１００によって認識する例を示している。

【0012】

情報処理装置２００は、発話内容の認識を始めとする、システムの基本制御を行う。尚、情報処理装置２００は、例えば、ネットワークやインターネットに接続されており、ネットワーク上のサーバや、インターネット上のクラウドサーバへ、撮像装置３００が撮像したが画像データを送信しても良い。この場合、情報処理装置２００は、サーバやクラウドサーバにおいて行われた発話内容の認識結果を受信しても良い。

【0013】

本実施形態の情報処理装置２００は、参加者の発話内容の認識結果を、表示装置４００に表示させることで、発話内容を可視化する。また、本実施形態の情報処理装置２００は、発話内容の認識結果をテキストデータとして保持し、任意のタイミングで、テキストデータを議事録として出力しても良い。任意のタイミングとは、例えば、会議が終了したとき等である。

【0014】

表示装置４００は、例えば、電子黒板であっても良いし、ディスプレイであっても良い。また、図１の例では、表示装置４００は発話認識システム１００に含まれるものとしたが、これに限定されず、表示装置４００は、発話認識システム１００に含まれていなくても良い。

【0015】

本実施形態の発話認識システム１００では、参加者の音声認識に、撮像装置３００と参加者との距離に応じた認識モデル（認識器）を用いる。

【0016】

この認識モデルは、予め様々な距離で撮像された、解像度の異なる話者の口唇領域の画像データを用いて、距離毎に学習したものであり情報処理装置２００が有していてもよい。

【0017】

本実施形態の情報処理装置２００は、参加者と撮像装置３００との距離に応じた認識モデルを用いることで、その距離における発話内容の認識精度を向上させることができる。

【0018】

図２は、第一の実施形態の情報処理装置のハードウェア構成の一例を示す図である。本実施形態の情報処理装置２００は、それぞれバスＢで相互に接続されている入力装置２１、出力装置２２、ドライブ装置２３、補助記憶装置２４、メモリ装置２５、演算処理装置２６及びインターフェース装置２７を含む。

【0019】

入力装置２１は、各種の情報の入力を行うための装置であり、例えば、キーボードやポインティングデバイス等により実現される。また、入力装置２１は、撮像装置３００が撮像した画像データを入力させるインターフェース等であっても良い。

【0020】

出力装置２２は、各種の情報の出力を行うためものであり、例えばディスプレイ等であっても良いし、表示装置４００に情報を出力するためのインターフェースであっても良い。インターフェース装置２７は、ＬＡＮカード等を含み、ネットワークに接続する為に用いられる。

【0021】

本実施形態の発話認識プログラムは、情報処理装置２００を制御する各種プログラムの少なくとも一部である。発話認識プログラムは、例えば、記憶媒体２８の配布やネットワークからのダウンロード等によって提供される。発話認識プログラムを記録した記憶媒体２８は、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記憶媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記憶媒体を用いることができる。

【0022】

また、発話認識プログラムは、発話認識プログラムを記録した記憶媒体２８がドライブ装置２３にセットされると、記憶媒体２８からドライブ装置２３を介して補助記憶装置２４にインストールされる。ネットワークからダウンロードされた発話認識プログラムは、インターフェース装置２７を介して補助記憶装置２４にインストールされる。

【0023】

補助記憶装置２４は、インストールされた発話認識プログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置２５は、情報処理装置２００の起動時に補助記憶装置２４から発話認識プログラムを読み出して格納する。そして、演算処理装置２６はメモリ装置２５に格納された発話認識プログラムに従って、後述するような各種処理を実現している。

【0024】

次に、図３を参照して、本実施形態の情報処理装置２００の機能について説明する。図３は、第一の実施形態の情報処理装置の機能を説明する図である。

【0025】

本実施形態の情報処理装置２００は、映像入力部２１０、人物領域認識部２１１、画像補正部２１２、顔領域認識部２１３、口唇領域抽出部２１４、口唇画素数算出部２１５、認識モデル選択部２１６、口唇画素数変換部２１７、口唇特徴量算出部２１８、発話内容認識部２１９、テキスト出力部２２０を有する。

【0026】

これらの各部は、情報処理装置２００の演算処理装置２６が、メモリ装置２５に格納された発話認識プログラムを読み出して実行することで実現される。

【0027】

また、情報処理装置２００は、記憶部２３０を有する。記憶部２３０は、例えば、情報処理装置２００のメモリ装置２５や補助記憶装置２４等によって実現される。

【0028】

記憶部２３０には、認識モデル２３１、２３２、２３３が格納されている。認識モデル２３１は、撮像装置３００と話者との距離が近距離とされる場合に用いられる。認識モデル２３２は、撮像装置３００と話者との距離が中距離とされる場合に用いられる。認識モデル２３３は、撮像装置３００と話者との距離が遠距離とされる場合に用いられる。

【0029】

本実施形態の映像入力部２１０は、撮像装置３００によって撮像された映像データ（動画データ）を取得する。人物領域認識部２１１は、取得した映像データにおける連続したフレーム画像において、人物がいる領域を認識し、その領域を画像データとして抽出する。以下の説明では、人物領域認識部２１１によって抽出された画像データを人物領域画像データと呼び、人物領域画像データが示す画像を人物画像と呼ぶ。

【0030】

画像補正部２１２は、人物領域画像データが明るすぎたり、暗すぎたりした場合に、明度補正を行う。明度補正方法については既存の一般技術を用いればよい。

【0031】

また、撮像装置３００が全天球カメラである場合、２つのレンズによって取得した２枚の超広角画像を結合し、１枚の画像として扱うことが一般的である。その画像がEquirectangular形式であることも一般的であり、その場合、指定された補正位置を中心に遠近補正すれば、歪みのない画像として処理することができる。

【0032】

本実施形態の画像補正部２１２は、人物領域認識部２１１によって認識された座標を中心に遠近補正をすることで、人物領域画像データが示す画像を、人物の領域を歪みのない画像として取得する。

【0033】

顔領域認識部２１３は画像補正部２１２によって歪みが補正された人物領域画像データから、人物の顔を認識し、顔領域の画像データを抽出する。以下の説明では、顔領域認識部２１３によって抽出された画像データを顔画像データと呼び、顔画像データが示す画像を顔画像と呼ぶ。

【0034】

顔領域認識部２１３による顔認識のアルゴリズムとしては、Haar-Like特徴量分類器や、HOG特徴量を用いた識別器等、既存の様々な手法があるのでそれらを使用すればよい。

【0035】

口唇領域抽出部２１４は、顔画像データから、口唇領域の画像データを抽出する。以下の説明では、口唇領域抽出部２１４によって抽出された画像データを、口唇領域画像データと呼び、口唇領域画像データが示す画像を口唇画像と呼ぶ。尚、口唇領域画像データには、複数の口唇画像を示すデータであって良い。

【0036】

口唇領域抽出部２１４は、例えば、顔領域認識部２１３による顔認識に、口唇領域のランドマーク数箇所がわかるような識別器を用いることで、その認識結果から口唇領域画像データを抽出することができる。

【0037】

本実施形態では、上述した処理をフレーム毎に連続的に実行することで、映像入力部２１０に入力された映像データから、口唇画像を連続した画像として取得することができる。

【0038】

口唇画素数算出部２１５は、連続した口唇画像のそれぞれの横幅の画素数の平均値を算出し、この平均値を、口唇領域画像データの属性情報として、口唇領域画像データに付与する。つまり、口唇画素数算出部２１５は、口唇領域画像データに属性情報を付与する属性付与部として機能する。

【0039】

連続した口唇画像とは、映像データ（動画データ）のフレーム毎の画像から抽出された複数の口唇画像群である。

【0040】

認識モデル選択部２１６は、口唇画素数算出部２１５によって算出された平均値に応じて、記憶部２３０に格納された認識モデル２３１、２３２、２３３の中から、発話内容の認識に使用する認識モデルを選択する。言い換えれば、認識モデル選択部２１６は、口唇領域画像データに付与された属性情報に基づき、認識モデルを選択する。

【0041】

連続した口唇画像の横幅の画素数の平均値は、撮像装置３００と話者（参加者）との間の距離に相当する。したがって、認識モデル選択部２１６は、撮像装置３００と話者（参加者）との間の距離に応じて、認識モデルを選択している。

【0042】

口唇画素数変換部２１７は、認識モデル選択部２１６によって選択された認識モデルに合わせるように、連続した口唇画像の画素数を変換する。

【0043】

口唇特徴量算出部２１８は、連続する口唇画像から、空間的な情報、及び時間的な情報を特徴量として取得する。具体的には、本実施形態の特徴量は、一定期間の連続した口唇画像の横幅の画素数と縦幅の画像数とが示す画像の８ビットのＲＧＢ値とした。

【0044】

発話内容認識部２１９は、口唇特徴量算出部２１８が取得した特徴量と、認識モデル選択部２１６によって選択された認識モデルとに基づき、話者の発話内容を認識する。

【0045】

テキスト出力部２２０は、発話内容認識部２１９による認識結果をテキストデータとして、表示装置４００等に出力する。

【0046】

尚、図３の例では、認識モデル２３１、２３２、２３３は、情報処理装置２００の有する記憶部２３０に格納されるものとしたが、これに限定されない。認識モデル２３１、２３２、２３３は、情報処理装置２００以外の装置に格納されていても良い。

【0047】

次に、図４を参照して、第一の実施形態の情報処理装置２００の処理について説明する。図４は、第一の実施形態の情報処理装置の処理を説明する第一のフローチャートである。

【0048】

本実施形態の情報処理装置２００は、映像入力部２１０により、撮像装置３００が撮像した映像データを取得する（ステップＳ４０１）。

【0049】

続いて、情報処理装置２００は、ステップＳ４０３以降の処理をＮ回繰り返すループを開始する（ステップＳ４０２）。

【0050】

情報処理装置２００は、人物領域認識部２１１により、映像入力部２１０が取得した映像データから、１フレームの画像データを取得する（ステップＳ４０３）。続いて、人物領域認識部２１１は、１フレームの画像データから、人物がいる領域を認識し、人物領域画像データを抽出する（ステップＳ４０４）。

【0051】

尚、本実施形態の人物領域認識部２１１は、人物領域画像データの矩形領域の画像データとして抽出する。また、ここでは説明の簡略化のために１人分の認識処理のみについて説明するが、複数の人物が認識される場合も想定される。その場合、この一連の認識処理、及び抽出処理は人数分逐次的、もしくは並列に処理する。

【0052】

続いて、情報処理装置２００は、画像補正部２１２により、人物領域画像データの歪み等を補正する（ステップＳ４０５）。続いて、情報処理装置２００は、顔領域認識部２１３により、補正された人物領域画像データから、顔領域を認識し、顔領域画像データを抽出する（ステップＳ４０６）。

【0053】

続いて、情報処理装置２００は、口唇領域抽出部２１４により、顔領域画像データから、口唇領域を認識し、口唇領域画像データを抽出する（ステップＳ４０７）。続いて、口唇領域抽出部２１４は、口唇画像データをバッファに追加する（ステップＳ４０８）。

【0054】

情報処理装置２００は、ステップＳ４０３からステップＳ４０９の処理をＮ回繰り返す（ステップＳ４０９）。

【0055】

具体的には、例えば、情報処理装置２００は、ステップＳ４０３からステップＳ４０９の処理を１５０回程度繰り返す。この場合、例えば、フレームレートが３０ｆｐｓの場合、４秒分の連続した口唇領域画像データがバッファに格納されることになる。ステップＳ４０３からステップＳ４０９の処理の詳細は後述する。尚、本実施形態の口唇領域画像データは、複数の連続した口唇画像を示す複数の画像データを含む。

【0056】

続いて、情報処理装置２００は、口唇画素数算出部２１５により、バッファに格納された連続した口唇画像の横幅の画素数の平均値ｗを算出し、取得する（ステップＳ４１０）。

【0057】

続いて、情報処理装置２００は、認識モデル選択部２１６により、平均値ｗに応じた認識モデルを選択する処理を行う。

【0058】

つまり、本実施形態では、連続した口唇画像の横幅の画素数の平均値ｗは、認識モデル選択部２１６が認識モデルを選択する際に参照される属性情報である。この平均値ｗは、連続する口唇画像を示す口唇領域画像データに付与されて保持されても良い。

【0059】

具体的には、情報処理装置２００は、認識モデル選択部２１６により、平均値ｗが１０ピクセル未満であるか否かを判定する（ステップＳ４１１）。

【0060】

ステップＳ４１１において、平均値ｗが１０ピクセル未満である場合、認識モデル選択部２１６は、口唇画像が小さすぎるために、認識不可とし、連続した口唇画像を格納したバッファをリセット（ステップＳ４１２）して、ステップＳ４０２へ戻る。口唇画像が小さすぎる場合とは、話者が撮像装置３００から遠すぎる場合である。

【0061】

ステップＳ４１１において、平均値ｗが１０ピクセル未満である場合、認識モデル選択部２１６は、平均値ｗが１０ピクセル以上２５ピクセル未満であるか否かを判定する（ステップＳ４１３）。

【0062】

ステップＳ４１３において、平均値ｗが１０ピクセル以上２５ピクセル未満である場合、認識モデル選択部２１６は、記憶部２３０に格納された認識モデルのうち、認識モデル２３１を設定し（ステップＳ４１４）、後述するステップＳ４１８へ進む。言い換えれば、認識モデル選択部２１６は、バッファに格納された連続する口唇画像を示す口唇領域画像データに付与された属性情報である平均値ｗに応じて、認識モデル２３１を選択する。

【0063】

認識モデル２３１は、口唇領域の大きさが小さく、話者から撮像装置３００までの距離が遠いものの、認識可能である場合に選択される、遠距離用の認識モデルである。

【0064】

ステップＳ４１３において、平均値ｗが１０ピクセル以上２５ピクセル未満でない場合、つまり、平均値ｗが２５ピクセル以上である場合、認識モデル選択部２１６は、平均値ｗが２５ピクセル以上４０ピクセル未満であるか否かを判定する（ステップＳ４１５）。

【0065】

ステップＳ４１５において、平均値ｗが２５ピクセル以上４０ピクセル未満である場合、認識モデル選択部２１６は、記憶部２３０に格納された認識モデルのうち、認識モデル２３２を設定し（ステップＳ４１６）、後述するステップＳ４１８へ進む。

【0066】

認識モデル２３２は、口唇領域の大きさが中程度であり、話者から撮像装置３００までの距離が中程度である場合に選択される、中距離用の認識モデルである。

【0067】

ステップＳ４１５において、平均値ｗが１０ピクセル以上２５ピクセル未満でない場合、つまり、平均値ｗが４０ピクセル以上である場合、認識モデル選択部２１６は、認識モデル２３３を設定し（ステップＳ４１７）、後述するステップＳ４１８へ進む。

【0068】

認識モデル２３３は、口唇領域が大きく、話者から撮像装置３００までの距離が近い場合に選択される、近距離用の認識モデルである。

【0069】

続いて、情報処理装置２００は、口唇画素数変換部２１７により、選択された認識モデルに応じて、バッファに格納された連続する口唇画像をリサイズする（ステップＳ４１８）。

【0070】

本実施形態の認識モデル２３１、２３２、２３３は、それぞれが、遠距離画像、中距離画像、近距離画像を使って深層学習によって調整されたネットワークのパラメータである。

【0071】

遠距離用の認識モデル２３１へ入力される画像データが示す画像の横幅は１０ピクセルである必要がある。同様に、中距離用の認識モデル２３２へ入力される画像データが示す画像の横幅は３０ピクセル、認識モデル２３３へ入力される画像データが示す画像の横幅は５０ピクセルである必要がある。

【0072】

本実施形態の口唇画素数変換部２１７は、口唇画像を示す画像データを、選択された認識モデルに入力できるように、口唇画像のリサイズを行う。具体的には、口唇画素数変換部２１７は、口唇画像の解像度を変換すれば良い。

【0073】

続いて、情報処理装置２００は、口唇特徴量算出部２１８により、口唇画像の特徴量を取得する（ステップＳ４１９）。

【0074】

続いて、情報処理装置２００は、発話内容認識部２１９により、選択された認識モデルに、リサイズされた口唇画像データと、特徴量とを入力して発話内容の認識を行う（ステップＳ４２０）。

【0075】

続いて、情報処理装置２００は、テキスト出力部２２０により、認識結果をテキストデータとして、表示装置４００等に出力し（ステップＳ４２１）、バッファをリセットする（ステップＳ４２２）。

【0076】

続いて、情報処理装置２００は、処理の終了指示を受け付けたか否かを判定する（ステップＳ４２３）。ステップＳ４２３において、処理の終了指示を受け付けた場合、情報処理装置２００は、処理を終了する。ステップＳ４２３において、終了指示を受け付けない場合、情報処理装置２００は、ステップＳ４０２へ戻る。

【0077】

次に、図５を参照して、図４で示したループ処理について、さらに説明する。図５は、第一の実施形態の情報処理装置の処理を説明する第二のフローチャートである。

【0078】

本実施形態の情報処理装置２００は、認識モデルに入力するために必要な口唇画像の枚数をカウントするためのカウンタの値を初期化する（ステップＳ５０１）。

【0079】

続いて、情報処理装置２００は、映像入力部２１０により、撮像装置３００によって撮像された映像データを取得する（ステップＳ５０２）。

【0080】

続いて、情報処理装置２００は、人物領域認識部２１１により、１フレーム分の画像を取得し、画像内の人物を認識する（ステップＳ５０３）。

【0081】

続いて、情報処理装置２００は、ステップＳ５０３において、人物が認識されたか否かを判定する（ステップＳ５０４）。ステップＳ５０４において、人物が認識されない場合、人物領域認識部２１１は、話者最終位置情報の参照可能か否かを判定する（ステップＳ５０５）。話者最終位置情報とは、映像データに含まれる何れかの画像において、話者が最後に認識された位置を示す情報である。

【0082】

ステップＳ５０５において、話者最終位置情報が参照できない場合、つまり、話者最終位置情報が初期値であった場合、情報処理装置２００は、話者がその周辺にいないものとして、ステップＳ５０１へ戻る。

【0083】

ステップＳ５０５において、話者最終位置情報が参照できる場合、情報処理装置２００は、後述するステップＳ５０７へ進む。

【0084】

ステップＳ５０４において、人物が認識された場合、人物領域認識部２１１は、この人物と対応する話者最終位置情報を更新する（ステップＳ５０６）。

【0085】

続いて、人物領域認識部２１１は、画像データから、話者最終位置情報に基づき、人物領域を特定し、人物画像を示す人物領域画像データを抽出する（ステップＳ５０７）。尚、情報処理装置２００は、人物領域画像データを抽出した後に、画像補正部２１２により補正を行う。

【0086】

続いて、情報処理装置２００は、顔領域認識部２１３により、人物領域画像データに対して顔認識を行い（ステップＳ５０８）、顔が認識されたか否かを判定する（ステップＳ５０９）。

【0087】

ステップＳ５０９において、顔が認識されない場合、顔最終位置情報の参照が可能か否かを判定する（ステップＳ５１０）。顔最終位置情報とは、人物画像において、話者の顔が映っている最終位置を示す情報である。ステップＳ５１０において、顔最終位置情報が参照できない場合、情報処理装置２００は、ステップＳ５０１へ戻る。

【0088】

ステップＳ５１０において、顔最終位置情報の参照が可能な場合、情報処理装置２００は、後述するステップＳ５１２へ進む。

【0089】

ステップＳ５０９において、顔を認識した場合、顔領域認識部２１３は、顔最終位置情報に基づき、人物領域画像データから、顔画像を示す顔領域画像データを抽出する（ステップＳ５１２）。

【0090】

続いて、情報処理装置２００は、口唇領域抽出部２１４により、顔領域画像データから、口唇画像を示す口唇領域画像データを抽出する（ステップＳ５１３）。続いて、情報処理装置２００は、取得済みの現在のフレーム数を数えるために、カウンタの値に１を追加し（ステップＳ５１４）、口唇領域画像データをバッファに追加する（ステップＳ５１５）。

【0091】

続いて、情報処理装置２００は、取得済みのフレーム数が、認識モデルに入力するために必要なフレーム数に達したか否かを判定する（ステップＳ５１６）。言い換えれば、情報処理装置２００は、カウンタの値が、認識モデルに入力するために必要なフレーム数に達したか否かを判定する。尚、図５の例では、認識モデルに入力するために必要なフレーム数を１５０としが、これに限定されない。

【0092】

ステップＳ５１６において、必要なフレーム数に達していない場合、情報処理装置２００は、ステップＳ５０２へ戻る。

【0093】

ステップＳ５１６において、必要なフレーム数に達していた場合、情報処理装置２００は、次の話者のデータ揃えるために、話者最終位置情報を初期化する（ステップＳ５１７）。続いて、情報処理装置２００は、顔最終位置情報を初期化して（ステップＳ５１８）、一回の発話認識に対する処理を終了する。

【0094】

このように、本実施形態では、発話毎に、話者と撮像装置３００との距離を示す口唇画像の横幅に応じて、発話認識に用いる認識モデルを選択して発話認識を行うため、読唇による発話認識の精度を向上させることができる。また、本実施形態を、音声情報を用いた発話認識と組み合わせることで、発話認識の精度を向上させることができる。

【0095】

次に、図６を参照して、本実施形態の口唇画像について、さらに説明する。図６は、第一の実施形態の口唇画像を説明する図である。

【0096】

図６に示す画像６１は、全天球カメラである撮像装置３００によって撮像された画像の一例を示している。この画像６１は、Equirectangular形式の歪んだ画像である。

【0097】

画像６１では、会議の参加者（話者）Ａ、Ｂ、Ｃの３人がテーブルを囲んでおり、撮像装置３００から近い位置に参加者Ａ、中程度の位置に参加者Ｂ、遠い位置に参加者Ｃが着席している。

【0098】

本実施形態では、画像６１に対して、人物領域認識部２１１による人物領域認識処理を行うことで、矩形の人物画像６１１、６１２、６１３を示す人物領域画像データが抽出される。

【0099】

ここで、人物画像６１１、６１２、６１３は歪んだ画像であるため、画像補正部２１２は、人物画像の中心座標を元に遠近補正を行う。この補正によって、歪みのある人物画像６１１、６１２、６１３は、歪のない補正済み人物画像６１１Ａ、６１２Ａ、６１３Ａとなる。

【0100】

本実施形態では、この補正済み人物画像６１１Ａ、６１２Ａ、６１３Ａに対して、顔領域認識部２１３による顔領域認識処理を行って、顔画像を示す顔領域画像データを抽出し、さらに顔領域画像データに対して、口唇領域抽出部２１４による口唇領域認識処理を行う。

【0101】

その結果、口唇領域抽出部２１４は、口唇画像６２１、６２２、６２３を示す口唇領域画像データが抽出される。

【0102】

次に、図７を参照して、認識モデル選択部２１６による認識モデルの選択について説明する。図７は、第一の実施形態の認識モデルの選択について説明する図である。

【0103】

本実施形態では、連続する口唇画像の横幅の画素数の平均値が１０ピクセル未満の場合、認識不可として認識モデルの適用範囲外となる。

【0104】

また、本実施形態では、連続する口唇画像の横幅の画素数の平均値が１０ピクセル以上２５ピクセル未満である場合には、認識モデル選択部２１６は、遠距離用の認識モデル２３１を選択する。そして、本実施形態では、口唇画素数変換部２１７により、認識モデル２３１に入力される口唇領域画像データが示す口唇画像の横幅の画素数の平均値が１０ピクセルとなるように縮小する。

【0105】

尚、人の口唇は横長なので、縦方向の画素数は５ピクセルとしても良い。縦方向の画素数が５ピクセルである場合には、認識モデル２３１は、１０×５ピクセルの画像データを用いて学習されたものである。

【0106】

また、本実施形態では、認識モデル選択部２１６は、連続した口唇画像の横幅の画素数の平均値が、２５ピクセル以上５０ピクセル未満である場合には、中距離用の認識モデル２３２を選択する。そして、口唇画素数変換部２１７は、認識モデル２３２が選択されると、口唇画像を、３０×１５ピクセルとなるように、拡大、又は、縮小するリサイズを行う。

【0107】

また、本実施形態では、認識モデル選択部２１６は、連続した口唇画像の横幅の画素数の平均値が、５０ピクセル以上である場合には、近距離用の認識モデル２３３を選択する。そして、口唇画素数変換部２１７は、認識モデル２３３が選択されると、口唇画像を、５０×２５ピクセルとなるように、拡大、又は、縮小するリサイズを行う。

【0108】

尚、口唇画素数変換部２１７によるリサイズの方法は、最近傍法、バイリニア補間法、バイキュービック補間法等、既存の手法であって良い。

【0109】

次に、図８を参照して、本実施形態の認識モデルについて説明する。図８は、第一の実施形態の認識モデルについて説明する第一の図である。

【0110】

図８において、縦軸は認識の精度を示し、横軸は入力された連続する口唇画像の横幅の画素数の平均値を示す。

【0111】

図８では、横幅の画素数の平均値を１５０ピクセルとした連続した口唇画像を用いて学習した認識モデルに対し、横幅の画素数の平均値が１５０ピクセル以下の連続した口唇画像を示す口唇領域画像データを入力した場合の認識精度を示している。

【0112】

この結果からわかるように、入力される口唇領域画像データが示す口唇画像の横幅の画素数の平均値が５０ピクセル以上の場合は、口唇画像の横幅の画素数の平均値を５０ピクセルとして認識した場合と、認識の精度に差がない。

【0113】

しかし、口唇画像の横幅の画素数の平均値が５０ピクセル未満の口唇画像を示す口唇領域画像データを、この認識モデルに入力した場合には、画像データの特徴量が失われ、モデルとのギャップが生じ、認識の精度が下がっていることがわかる。

【0114】

そこで、口唇画像の横幅の画素数の平均値が５０ピクセル未満である口唇領域画像データが入力された場合について注目する。

【0115】

図９は、第一の実施形態の認識モデルについて説明する第二の図である。図９では、横幅の画素数の平均値が５０ピクセル未満の口唇画像を用いて学習した認識モデルに対して、横幅の画素数の平均値が異なる口唇画像を示す口唇領域画像データを入力した場合を示している。

【0116】

図９では、例えば、横幅の画素数の平均値が２５ピクセルの口唇画像を示す口唇領域画像データを入力とする場合には、横幅の画素数の平均値が２５ピクセルの口唇画像を用いて学習した認識モデルを使うと、最も認識の精度が高くなる。

【0117】

また、横幅の画素数の平均値が５０ピクセル以上の口唇画像を示す口唇領域画像データを入力とする場合には、横幅の画素数の平均値が５０ピクセルの口唇画像を用いて学習した認識モデルを使うと、最も認識の精度が高くなる。

【0118】

このように、本実施形態では、発話毎に、撮像装置３００と話者との距離に相当する口唇画像の横幅の画素数の平均値に応じて、発話内容の認識に用いる認識モデルを選択することで、例えば、会議の場等のように、話者とカメラとの距離が変化するような状況でも、リアルタイムで行われる発話内容の認識の精度を向上させることができる。

【0119】

（第二の実施形態）
以下に図面を参照して、第二の実施形態について説明する。第二の実施形態では、口唇領域画像データを取得する際のフレームレートに応じて認識モデルを選択する点が第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。

【0120】

図１０は、第二の実施形態の情報処理装置の機能を説明する図である。

【0121】

本実施形態の情報処理装置２００Ａは、映像入力部２１０、人物領域認識部２１１、画像補正部２１２、顔領域認識部２１３、口唇領域抽出部２１４、口唇画素数算出部２１５、認識モデル選択部２１６Ａ、口唇画素数変換部２１７、口唇特徴量算出部２１８、発話内容認識部２１９、テキスト出力部２２０に加え、フレームレート算出部２２１、フレーム補完部２２２を有する。

【0122】

また、本実施形態の情報処理装置２００Ａは、記憶部２３０Ａを有する。記憶部２３０Ａには、認識モデル２４１、２４２、２４３が格納されている。

【0123】

本実施形態のフレームレート算出部２２１は、時々刻々と変化するフレームレートの値を算出し、フレームレートを口唇領域画像データの属性情報として、付与する。つまり、フレームレート算出部２２１は、口唇領域画像データに属性情報を付与する属性付与部として機能する。

【0124】

フレームレートは、撮像装置３００が取得する動画において、単位時間あたりに処理させるフレーム数を示し、発話認識システム１００の全体の処理負荷や、情報処理装置２００Ａの仕様等に応じて変化している。

【0125】

認識モデル選択部２１６Ａは、フレームレート算出部２２１によって算出されたフレームレートに応じた認識モデルを選択する。言い換えれば、認識モデル選択部２１６Ａは、連続する口唇画像を示す口唇領域画像データに付与された属性情報に基づき、認識モデルを選択する。

【0126】

本実施形態のフレーム補完部２２２は、認識モデル選択部２１６によって選択された認識モデルに応じてフレームを補完する。フレーム補完部２２２が行う間引き方法、補完方法は、前のフレームを単純にコピーする、不要な分は除外する等の単純な方法が考えられる。また、フレーム補完部２２２は、前後フレーム画像のピクセル値の差分から中間値を求め、新たに尤もらしい中間フレームを生成する既存の手法等を用いても良い。

【0127】

本実施形態の記憶部２３０Ａに格納された認識モデル２４１、２４２、２４３は、異なるフレームレートで取得された、連続する口唇画像を示す口唇領域画像データを入力として学習された認識モデルである。

【0128】

具体的には、認識モデル２４１は、高いとされるフレームレートで取得された連続する口唇画像を示す口唇領域画像データを入力として学習された認識モデルである。また、認識モデル２４２は、中程度とされるフレームレートで取得された連続する口唇画像を示す口唇領域画像データを入力として学習された認識モデルである。また、認識モデル２４３は、低いとされるフレームレートで取得された連続する口唇画像を示す口唇領域画像データを入力として学習された認識モデルである。

【0129】

次に、図１１を参照して、本実施形態の情報処理装置２００Ａの処理について説明する。図１１は、第二の実施形態の情報処理装置の処理を説明する第一のフローチャートである。

【0130】

本実施形態の情報処理装置２００Ａは、映像入力部２１０により、撮像装置３００が撮像した映像データを取得する（ステップＳ１１０１）。

【0131】

続いて、情報処理装置２００Ａは、タイマをスタートさせる（ステップＳ１１０２）。本実施形態では、例えば、タイマで４秒間計測するその間に、後述するステップＳ１１０３からステップＳ１１１０までのループが繰り返された回数によって、フレームレートが算出される。例えば、ループが１５０回繰り返された場合には、フレームレートは３０ｆｐｓとなり、ループが５０回繰り返された場合には、フレームレートは１０ｆｐｓとなる。このフレームレートの計算は、後述するステップＳ１１１２で行われる。

【0132】

図１１のステップＳ１１０３からステップＳ１１１０までの処理は、図４のステップＳ４０２からステップＳ４０９までの処理と同様であるから、説明を省略する。

【0133】

ステップＳ１１１０に続いて、情報処理装置２００Ａは、タイマに設定された時間が経過すると、タイマを停止させる（ステップＳ１１１１）。

【0134】

続いて、情報処理装置２００Ａは、フレームレート算出部２２１により、上述したように、タイマが計測した時間内にループが繰り返された回数に基づいてフレームレートを算出し、取得する（ステップＳ１１１２）。

【0135】

フレームレート算出部２２１によって算出されたフレームレートは、認識モデル選択部２１６Ａが認識モデルを選択する際に参照される属性情報であり、口唇領域画像データに付与されて保持される。

【0136】

続いて、情報処理装置２００Ａは、認識モデル選択部２１６Ａにより、フレームレートが３ｆｐｓ未満であるか否かを判定する（ステップＳ１１１３）。

【0137】

ステップＳ１１１３において、フレームレートが３ｆｐｓ未満である場合、認識モデル選択部２１６Ａは、このフレームレートでの認識が不可であるものとし、タイマとバッファをリセットし（ステップＳ１１１４）、ステップＳ１１０１へ戻る。

【0138】

ステップＳ１１１３において、フレームレートが３ｆｐｓ未満でない場合、つまり、フレームレートが３ｆｐｓ以上である場合、認識モデル選択部２１６Ａは、フレームレートが３ｆｐｓ以上５ｆｐｓ未満であるか否かを判定する（ステップＳ１１１５）。

【0139】

ステップＳ１１１５において、フレームレートが３ｆｐｓ以上５ｆｐｓ未満である場合、認識モデル選択部２１６Ａは、フレームレートは低いとされるものとして認識モデル２４３を設定し（ステップＳ１１１６）、後述するステップＳ１１２０へ進む。

【0140】

ステップＳ１１１５において、フレームレートが３ｆｐｓ以上５ｆｐｓ未満でない場合、つまり、フレームレートが５ｆｐｓ以上である場合、認識モデル選択部２１６Ａは、フレームレートが５ｆｐｓ以上１０ｆｐｓ未満であるか否かを判定する（ステップＳ１１１７）。

【0141】

ステップＳ１１１７において、フレームレートが５ｆｐｓ以上１０ｆｐｓ未満である場合、認識モデル選択部２１６Ａは、フレームレートを中程度として認識モデル２４２を設定し（ステップＳ１１１８）、後述するステップＳ１１２０へ進む。

【0142】

ステップＳ１１１７において、フレームレートが５ｆｐｓ以上１０ｆｐｓ未満でない場合、つまり、フレームレートが１０ｆｐｓ以上である場合、認識モデル選択部２１６Ａは、フレームレートが高いものとして認識モデル２４１を設定し（ステップＳ１１１９）、後述するステップＳ１１２０へ進む。

【0143】

続いて、情報処理装置２００Ａは、口唇画素数変換部２１７により、選択された認識モデルに応じて、バッファに格納された連続する口唇画像をリサイズする（ステップＳ１１２０）。

【0144】

尚、本実施形態では、口唇画像をリサイズする際の解像度は、選択された認識モデルに関わらず一定であっても良いし、第一の実施形態の処理と組み合わせても良い。

【0145】

続いて、情報処理装置２００Ａは、フレーム補完部２２２により、バッファ内の連続した口唇画像を示す口唇領域画像データを、選択された認識モデル及び取得されたフレームレートに応じて補完し（ステップＳ１１２１）、ステップＳ１１２２へ進む。尚、本実施形態の補完には、画像データを間引く処理も含まれる。

【0146】

図１１のステップＳ１１２２からステップＳ１１２４の処理は、図４のステップＳ４１９からイベント４２１までの処理と同様であるから、説明を省略する。

【0147】

情報処理装置２００Ａは、ステップＳ１１２４に続いて、タイマとバッファをリセットし（ステップＳ１１２５）、処理の終了指示を受け付けたか否かを判定する（ステップＳ１１２６）。

【0148】

ステップＳ１１２６において、処理の終了指示を受け付けた場合、情報処理装置２００Ａは、処理を終了する。ステップＳ１１２６において、終了指示を受け付けない場合、情報処理装置２００Ａは、ステップＳ１１０１へ戻る。

【0149】

本実施形態の情報処理装置２００Ａは、図１１の処理を連続的に繰り返すことで、口唇画像を用いて連続的に発話内容を認識する。

【0150】

次に、図１２を参照して、本実施形態の認識モデルについて説明する。図１２は、第二の実施形態の認識モデルについて説明する第一の図である。

【0151】

図１２において、縦軸は認識の精度を示し、横軸は入力された連続する口唇画像を取得したときのフレームレートを示す。

【0152】

図１２では、フレームレートを３０ｆｐｓとして取得した、連続した口唇画像を用いて学習した認識モデルに対し、フレームレートが１０ｆｐｓ以下である場合の、連続した口唇画像を示す口唇領域画像データを入力した場合の認識精度を示している。

【0153】

図１２に示す認識モデルでは、入力される口唇領域画像データのフレームレートが１０ｆｐｓ以上である場合は、認識の精度に差がない。

【0154】

しかし、入力される口唇領域画像データのフレームレートを１０ｆｐｓ未満とした場合には、口唇領域画像データの特徴量や時間的情報が失われ、モデルとのギャップが生じ、認識の精度が下がる。

【0155】

そこで、入力される口唇領域画像データのフレームレートを１０ｆｐｓ未満とした場合について注目する。

【0156】

図１３は、第二の実施形態の認識モデルについて説明する第二の図である。図１３では、入力される口唇領域画像データのフレームレートを１０ｆｐｓ未満として学習した認識モデルに対して、フレームレートが異なる口唇領域画像データを入力した場合を示している。

【0157】

図１３では、例えば、フレームレートが５ｆｐｓである口唇領域画像データを入力とする場合には、フレームレートが５ｆｐｓである口唇領域画像データを用いて学習した認識モデルを使うと、最も認識の精度が高くなる。

【0158】

また、フレームレートが１０ｆｐｓ以上の口唇領域画像データを入力とする場合には、フレームレートが１０ｆｐｓであっても、３０ｆｐｓであっても、認識の精度に差はない。また、フレームレートが１０ｆｐｓである口唇領域画像データを用いて学習した認識モデルを使うと、最も認識の精度が高くなることがわかる。したがって、フレームレートが１０ｆｐｓ以上の口唇領域画像データを入力とする場合には、フレームレートが１０ｆｐｓである口唇領域画像データを用いて学習した認識モデルを使えば良い。

【0159】

また、フレームレートが１ｆｐｓ未満の口唇領域画像データを入力とする場合には、極めて認識精度が低いため、本実施形態では、認識不可としている。この場合には、音声情報で発話内容を認識すること等が考えられる。

【0160】

このように、本実施形態では、口唇画像を取得する際のフレームレートに応じて、発話内容の認識に用いる認識モデルを選択するため、発話認識システム１００の通信の状況に応じて、発話内容の認識の精度を向上させることができる。

【0161】

（第三の実施形態）
以下に図面を参照して、第三の実施形態について説明する。第三の実施形態では、話者の顔の向きに応じて認識モデルを選択する点が第一の実施形態と相違する。以下に図１４を参照して、第三の実施形態について説明する。

【0162】

図１４は、第三の実施形態の認識モデルの選択について説明する図である。

【0163】

話者は、必ずしも撮像装置３００の方向を向いて発話するわけではなく、表示装置４００や他の話者の方向を見て発話することが多々ある。

【0164】

その場合、口唇画像は、図１４に示す画像１４１や画像１４２のように、話者が撮像装置３００を向いている場合の画像１４３と比較して、横幅が狭くなる。この場合には、撮像装置３００と話者との距離が離れたことによって、横幅が狭くなるわけではない。

【0165】

したがって、本実施形態では、例えば、予め、右向き、左向きでの連続した口唇画像を用いて学習した認識モデルを用意し、顔領域認識部２１３による顔認識の際に、顔の向きを推定し、それぞれの向きに適した認識モデルを選択する。

【0166】

本実施形態では、このように、顔の向きに応じて認識モデルを選択することで、認識の精度の低下を抑制することができる。

【0167】

以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。

【符号の説明】

【0168】

１００発話認識システム
２００、２００Ａ情報処理装置
２１０映像入力部
２１１人物領域認識部
２１２画像補正部
２１３顔領域認識部
２１４口唇領域抽出部
２１５口唇画素数算出部
２１６、２１６Ａ認識モデル選択部
２１７口唇画素数変換部
２１８口唇特徴量算出部
２１９発話内容認識部
２２０テキスト出力部
２２１フレームレート算出部
２２２フレーム補完部
２３０、２３０Ａ記憶部
２３１、２３２、２３３、２４１、２４２、２４３認識モデル
３００撮像装置
４００表示装置

【先行技術文献】

【特許文献】

【0169】

【文献】特開２０１５－０１９１６２号公報

【図1】