特許7511374 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グローリー株式会社の特許一覧

特許7511374発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-27

(45)【発行日】2024-07-05

(54)【発明の名称】発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム

(51)【国際特許分類】

G10L 15/04 20130101AFI20240628BHJP

G10L 15/25 20130101ALI20240628BHJP

【ＦＩ】

G10L15/04 300Z

G10L15/25

【請求項の数】 5

(21)【出願番号】P 2020063344

(22)【出願日】2020-03-31

(65)【公開番号】P2021162685

(43)【公開日】2021-10-11

【審査請求日】2023-01-05

【前置審査】

(73)【特許権者】

【識別番号】000001432

【氏名又は名称】グローリー株式会社

(74)【代理人】

【識別番号】110000914

【氏名又は名称】弁理士法人ＷｉｓｅＰｌｕｓ

(72)【発明者】

【氏名】森藤健

(72)【発明者】

【氏名】中嶋康博

(72)【発明者】

【氏名】深田俊明

(72)【発明者】

【氏名】春山英児

【審査官】中村天真

(56)【参考文献】

【文献】特開２０１１－０５９１８６（ＪＰ，Ａ）

【文献】特開２０１３－１６０９３８（ＪＰ，Ａ）

【文献】国際公開第２０２０／１４４８５７（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１８／０１８２４１５（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－２５／９３

(57)【特許請求の範囲】

【請求項1】

発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知装置を備える音声認識装置であって、
前記発話区間検知装置は、発話者の口の動きを含む口唇画像に基づいて発話の確からしさの度合いを示す発話スコアを算出する発話スコア算出部と、
外部音に基づいて音声の確からしさの度合いを示す音声スコアを算出する音声スコア算出部と、
前記発話スコア及び前記音声スコアを用いて所定の演算処理を行う第１のスコア演算部と、
前記第１のスコア演算部による前記演算処理の結果に基づいて、発話者の発話区間を決定する発話区間決定部と、を備え、
前記音声認識装置は、前記発話区間決定部によって決定された前記発話区間における各音韻の確からしさの度合いを示す口唇音韻スコアを前記口唇画像に基づいて算出する口唇音韻スコア算出部と、
前記発話区間決定部によって決定された前記発話区間における各音韻の確からしさの度合いを示す音声音韻スコアを前記外部音に基づいて算出する音声音韻スコア算出部と、
前記口唇音韻スコアと前記音声音韻スコアとをそれぞれ重み付けして所定の演算処理を行う第２のスコア演算部と、
前記第２のスコア演算部による前記演算処理の結果から発話者が発話する音声の内容を決定する音声認識部と、を備え、
前記音声スコアの重みに対する前記発話スコアの重みの比率は、前記音声音韻スコアの重みに対する前記口唇音韻スコアの重みの比率より大きい
ことを特徴とする音声認識装置。

【請求項2】

前記第２のスコア演算部は、音環境に応じて前記口唇音韻スコアの重みと前記音声音韻スコアの重みとを変更する
ことを特徴とする請求項１記載の音声認識装置。

【請求項3】

前記第２のスコア演算部は、音環境がより悪いほど前記口唇音韻スコアの重みを増加させる一方で前記音声音韻スコアの重みを減少させる
ことを特徴とする請求項２記載の音声認識装置。

【請求項4】

前記第２のスコア演算部は、撮像環境に応じて前記口唇音韻スコアの重みと前記音声音韻スコアの重みとを変更する
ことを特徴とする請求項１～３のいずれかに記載の音声認識装置。

【請求項5】

前記第２のスコア演算部は、撮像環境がより悪いほど前記口唇音韻スコアの重みを減少させる一方で前記音声音韻スコアの重みを増加させる
ことを特徴とする請求項４記載の音声認識装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラムに関する。

【背景技術】

【0002】

音声認識は、人（発話者）が発話する音声をコンピュータに認識させる技術であり、音声を文字列に変換したり、音声の特徴をとらえて発話者を識別したりする技術である。

【0003】

音声認識では、一般的に、まず、入力された音声信号が音声か非音声かを判別する発話区間検知（ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、音声検出とも言う）を行い、そして、検知した発話区間において音声認識処理を行う。

【0004】

しかしながら、発話区間検知の性能は、通常、雑音（特に人声雑音）環境下において静音環境よりも大きく劣化してしまう。そこで、音声信号のみならず、発話者の口唇画像を用いて発話区間検知を行うバイモーダル発話区間検知が知られている。

【0005】

例えば、特許文献１には、音声に基づき発話区間を検知するとともに口唇画像に基づき発話区間を検知し、両方の発話区間を結合して最終的な発話区間を決定する手法（以下、２段ＶＡＤと言う）が開示されている。

【0006】

また、非特許文献１には、音声から音声特徴量を抽出するとともに口唇画像から口唇特徴量を抽出し、両方の特徴量を結合した音声口唇特徴量を生成し、その音声口唇特徴量に基づき発話区間を検知する手法（以下、ＦｅａｔｕｒｅＦｕｓｉｏｎと言う）が開示されている。

【先行技術文献】

【特許文献】

【0007】

【文献】特開２０１１－５９１８６号公報

【非特許文献】

【0008】

【文献】Ido Ariav, Israel Cohen, "An End-toEnd Multimodal Voice Activity Detection Using WaveNet Encoder and Residual Networks," IEEE Journal of Selected Topics in Signal Processing, 2019, volume 13, issue 2, pp. 265-274

【発明の概要】

【発明が解決しようとする課題】

【0009】

しかしながら、２段ＶＡＤは、発話区間検知の精度を更に向上するという点で改善の余地があった。

【0010】

また、ＦｅａｔｕｒｅＦｕｓｉｏｎは、音声と口唇画像が同期した学習データが必要なため、精度を出すための学習データベースの構築が困難であった。

【0011】

本発明は、上記現状に鑑みてなされたものであり、発話区間を高精度に検知可能な発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラムを提供することを目的とするものである。

【課題を解決するための手段】

【0012】

上述した課題を解決し、目的を達成するために、本発明は、発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知装置であって、前記発話区間検知装置は、発話者の口の動きを含む口唇画像に基づいて発話の確からしさの度合いを示す発話スコアを算出する発話スコア算出部と、外部音に基づいて音声の確からしさの度合いを示す音声スコアを算出する音声スコア算出部と、前記発話スコア及び前記音声スコアを用いて所定の演算処理を行うスコア演算部と、前記スコア演算部による前記演算処理の結果に基づいて、発話者の発話区間を決定する発話区間決定部と、を備えることを特徴とする。

【0013】

また、本発明は、上記発明において、前記スコア演算部は、前記発話スコアと前記音声スコアとをそれぞれ重み付けして前記所定の演算処理を行うことを特徴とする。

【0014】

また、本発明は、上記発明において、前記スコア演算部は、音環境に応じて前記発話スコアの重みと前記音声スコアの重みとを変更することを特徴とする。

【0015】

また、本発明は、上記発明において、前記スコア演算部は、音環境がより悪いほど前記発話スコアの重みを増加させる一方で前記音声スコアの重みを減少させることを特徴とする。

【0016】

また、本発明は、上記発明において、前記スコア演算部は、撮像環境に応じて前記発話スコアの重みと前記音声スコアの重みとを変更することを特徴とする。

【0017】

また、本発明は、上記発明において、前記スコア演算部は、撮像環境がより悪いほど前記発話スコアの重みを減少させる一方で前記音声スコアの重みを増加させることを特徴とする。

【0018】

また、本発明は、上記発明において、前記発話決定部は、前記スコア演算部による前記演算処理の結果を閾値と比較し、当該比較の結果に基づいて発話者の発話区間を決定することを特徴とする。

【0019】

また、本発明は、上記発明において、前記発話決定部は、音環境に応じて前記閾値を変更することを特徴とする。

【0020】

また、本発明は、上記発明において、前記発話決定部は、撮像環境に応じて前記閾値を変更することを特徴とする。

【0021】

また、本発明は、音声認識装置であって、前記音声認識装置は、前記発話区間検知装置を備えることを特徴とする。

【0022】

また、本発明は、音声認識装置であって、前記スコア演算部は、第１のスコア演算部であり、前記音声認識装置は、前記発話区間検知装置と、前記発話区間決定部によって決定された前記発話区間における各音韻の確からしさの度合いを示す口唇音韻スコアを前記口唇画像に基づいて算出する口唇音韻スコア算出部と、前記発話区間決定部によって決定された前記発話区間における各音韻の確からしさの度合いを示す音声音韻スコアを前記外部音に基づいて算出する音声音韻スコア算出部と、前記口唇音韻スコアと前記音声音韻スコアとをそれぞれ重み付けして所定の演算処理を行う第２のスコア演算部と、前記第２のスコア演算部による前記演算処理の結果から発話者が発話する音声の内容を決定する音声認識部と、を備え、前記音声スコアの重みに対する前記発話スコアに対する重みの比率は、前記音声音韻スコアの重みに対する前記口唇音韻スコアの重みの比率より大きいことを特徴とする。

【0023】

また、本発明は、上記発明において、前記第２のスコア演算部は、音環境に応じて前記口唇音韻スコアの重みと前記音声音韻スコアの重みとを変更することを特徴とする。

【0024】

また、本発明は、上記発明において、前記第２のスコア演算部は、音環境がより悪いほど前記口唇音韻スコアの重みを増加させる一方で前記音声音韻スコアの重みを減少させることを特徴とする。

【0025】

また、本発明は、上記発明において、前記第２のスコア演算部は、撮像環境に応じて前記口唇音韻スコアの重みと前記音声音韻スコアの重みとを変更することを特徴とする。

【0026】

また、本発明は、上記発明において、前記第２のスコア演算部は、撮像環境がより悪いほど前記口唇音韻スコアの重みを減少させる一方で前記音声音韻スコアの重みを増加させることを特徴とする。

【0027】

発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知システムであって、前記発話区間検知システムは、発話者の口の動きを含む口唇画像に基づいて口唇特徴量を算出する口唇特徴量算出部と、外部音に基づいて音声特徴量を算出する音声特徴量算出部と、前記口唇特徴量算出部にて算出された前記口唇特徴量に基づいて、発話の確からしさの度合いを示す発話スコアを出力する発話スコア出力部と、前記音声特徴量算出部にて算出された前記音声特徴量に基づいて、音声の確からしさの度合いを示す音声スコアを出力する音声スコア出力部と、前記発話スコア及び前記音声スコアを用いて所定の演算処理を行うスコア演算部と、前記スコア演算部による前記演算処理の結果に基づいて、発話者の発話区間を決定する発話区間決定部と、を備えることを特徴とする。

【0028】

また、本発明は、発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知方法であって、前記発話区間検知方法は、発話者の口の動きを含む口唇画像に基づいて発話の確からしさの度合いを示す発話スコアを算出するステップと、外部音に基づいて音声の確からしさの度合いを示す音声スコアを算出するステップと、前記発話スコア及び前記音声スコアを用いて所定の演算処理を行うステップと、前記演算処理の結果に基づいて、発話者の発話区間を決定するステップと、を含むことを特徴とする。

【0029】

また、本発明は、発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知プログラムであって、前記プログラムは、発話者の口の動きを含む口唇画像に基づいて発話の確からしさの度合いを示す発話スコアを算出する処理と、外部音に基づいて音声の確からしさの度合いを示す音声スコアを算出する処理と、前記発話スコア及び前記音声スコアを用いて所定の演算処理を行う処理と、前記演算処理の結果に基づいて、発話者の発話区間を決定する処理と、をコンピュータに実行させることを特徴とする。

【発明の効果】

【0030】

本発明の発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラムによれば、発話区間を高精度に検知することができる。

【図面の簡単な説明】

【0031】

【図1】実施形態１に係る発話区間検知装置及び音声認識装置のハードウェア構成を説明するブロック図である。

【図2】実施形態１に係る発話区間検知装置及び音声認識装置の全体構成を説明するブロック図である。

【図3】実施形態１に係る発話区間検知装置及び音声認識装置の構成を説明するブロック図である。

【図4】実施形態１に係る発話区間検知装置で行われる処理の手順の一例を示すフローチャートである。

【図5】実施形態１に係る音声認識エンジンで行われる処理の手順の一例を示すフローチャートである。

【図6】実施形態２に係る発話区間検知装置及び音声認識装置の構成を説明するブロック図である。

【図7】実施形態２に係る発話区間検知装置で行われる処理の手順の一例を示すフローチャートである。

【図8】実施形態２に係る音声認識エンジンで行われる処理の手順の一例を示すフローチャートである。

【図9】実施形態２における音声確率の重みの設定例を示すグラフであり、音声確率の重み（Ｗ＿ｓ）を騒音レベル（ｄＢＡ）に応じて変化させる場合を示す。

【図10】実施形態２における音声確率の重み及び音声音韻確率の重みの設定例を示すグラフであり、（ａ）は、音声確率の重み（Ｗ＿ｓｖ）を騒音レベル（ｄＢＡ）に応じて変化させる場合を示し、（ｂ）は、音声音韻確率の重み（Ｗ＿ｓｓ）を騒音レベル（ｄＢＡ）に応じて変化させる場合を示す。

【図11】変形形態に係る発話区間検知システム及び音声認識システムの全体構成を説明する模式図である。

【図12】変形形態に係る発話区間検知システム及び音声認識システムの構成を説明するブロック図である。

【発明を実施するための形態】

【0032】

以下、本発明に係る発話区間検知装置、音声認識装置、発話区間検知方法及び発話区間検知プログラムを、図面を参照しながら説明する。本発明に係る発話区間検知装置は、発話者の発話区間を検知するものであるが、ここで、「発話区間を検知する」とは、発話区間の始点及び終点の少なくとも一方を検知することを意味する。

【0033】

（実施形態１）
＜本実施形態の概要＞
まず、実施形態１における発話区間検知の手法の概要について説明する。本実施形態では、発話する音声を含む外部音から音声特徴量を抽出して音声確率を出力するとともに、発話者の口の動きを含む口唇画像から口唇特徴量を抽出して発話確率を出力する。そして、これらの音声確率及び発話確率を統合した結果から、発話区間を検知する。これにより、発話区間を高精度に検知でき、雑音（特に人声雑音）環境下における検知性能を優れたものとすることができる。

【0034】

また、本実施形態によれば、２段ＶＡＤに比べても、より高精度に発話区間を検知することが可能である。２段ＶＡＤは、音声と口唇画像からそれぞれ独立に発話区間を検知し、両方の発話区間を結合して最終的な発話区間を決定する。したがって、例えば、人声雑音下で発話を行った場合、音声の発話区間の検知結果は、発話者が発話を行っていない雑音区間も誤って発話区間としてしまう。また、雑音のほとんどない静音下で、発話者が発話せずに少し口を動かした場合、口唇画像の発話区間の検知結果は、この区間を誤って発話区間としてしまう。つまり、誤って検知した発話区間を統合するよりも発話区間検知を決定する前に音声と口唇画像の情報を統合する方が好ましい。本実施形態と２段ＶＡＤの発話区間検知性能の実験を、種々の環境にて同一条件で行った結果、本実施形態の方が２段ＶＡＤに比べて、総合的に、全発話区間の対する正解した発話区間の割合（正解率）が略１０％高い結果が得られている。

【0035】

＜発話区間検知装置及び音声認識装置の構成＞
次に、図１～３を用いて、実施形態１に係る発話区間検知装置及び音声認識装置の構成について説明する。本実施形態に係る音声認識装置１は、一般的なパーソナルコンピュータ相当の機能を有し、図１に示すように、発話者の口の動きを撮像する、カメラ等の撮像装置３１と、外部音を電気信号に変換するマイク３２と、音声認識装置１の各部を制御する制御部（演算処理部）３５と、制御部の動作に必要なソフトウェアプログラムやデータを記憶する記憶部３６と、を備えている。

【0036】

制御部３５は、例えば、各種の処理を実現するためのソフトウェアプログラムと、該ソフトウェアプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、該ＣＰＵによって制御される各種ハードウェア等によって構成されている。

【0037】

記憶部３６は、例えばハードディスク装置や不揮発性メモリ等の記憶装置から構成される。

【0038】

また、音声認識装置１は、制御部３５により発話区間検知プログラムが実行されると、発話区間検知に係る各部の機能を実現し、制御部３５により音声認識プログラムが実行されると、音声認識に係る各部の機能を実現する。すなわち、図２に示すように、音声認識装置１は、発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する、発話区間検知エンジンとしての発話区間検知装置１０と、発話区間検知装置１０によって検知された発話区間において、発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の音声を認識する音声認識エンジン２０と、を備えている。

【0039】

より詳細には、図３に示すように、発話区間検知装置１０は、発話者の口の動きを含む口唇画像に基づいて、発話の確からしさの度合いを示す発話スコアとして、発話確率を算出する発話スコア算出部１１と、外部音に基づいて、音声の確からしさの度合いを示す音声スコアとして、音声確率を算出する音声スコア算出部１２と、発話スコア算出部１１及び音声スコア算出部１２によってそれぞれ算出された発話確率及び音声確率を用いて、所定の演算処理を行う第１のスコア演算部１３と、第１のスコア演算部１３による演算処理の結果に基づいて、発話者の発話区間を決定する発話区間決定部１４と、を備えている。

【0040】

音声認識エンジン２０は、発話区間決定部１４によって決定された発話区間において、口唇画像に基づいて、各音韻の確からしさの度合いを示す口唇音韻スコアとして、口唇音韻確率を算出する口唇音韻スコア算出部２１と、発話区間決定部１４によって決定された発話区間において、外部音に基づいて、各音韻の確からしさの度合いを示す音声音韻スコアとして、音声音韻確率を算出する音声音韻スコア算出部２２と、口唇音韻スコア算出部２１及び音声音韻スコア算出部２２によってそれぞれ算出された口唇音韻確率及び音声音韻確率を用いて、所定の演算処理を行う第２のスコア演算部２３と、第２のスコア演算部２３による演算処理の結果から発話者が発話する音声の内容を決定する音声認識部２４と、を備えている。

【0041】

なお、図３に示した各部は、制御部３５で発話区間検知プログラムや音声認識プログラムを実行させることによって実現される。発話区間検知プログラム及び音声認識プログラムは、音声認識装置１に予め導入されてもよいし、汎用ＯＳ上で動作可能なアプリケーションプログラムとして、コンピュータ読み取り可能な記録媒体に記録して、又は、ネットワークを介して、利用者に提供されてもよい。

【0042】

＜発話区間検知装置及び音声認識装置（音声認識エンジン）の動作＞
次に、図４及び５を用いて、実施形態１に係る発話区間検知装置１０及び音声認識装置１（特に音声認識エンジン２０）の動作について説明する。まず、発話区間検知装置１０の動作について説明する。

【0043】

発話スコア算出部１１は、撮像装置３１で撮像された口唇画像に基づいて、発話確率を算出する。

【0044】

なお、ここで、口唇画像とは、発話者の口の動きを含む静止画像の時系列データ、すなわち、少なくとも発話者の口が撮像された動画である。口唇画像は、少なくとも発話者の口を含むものであればよいが、発話者の顔全体を含むものが好適である。

【0045】

より詳細には、図４に示すように、発話スコア算出部１１は、まず、口唇画像にて顔検出を行い、検出した顔領域から、目、眉、鼻、口、顔の輪郭等の特徴点（ランドマーク）を各静止画像の（Ｘ，Ｙ）座標として抽出する（ステップＳ１１）。そして、これらのランドマークから口の部分のランドマークを口唇情報として利用し、口唇情報から口唇特徴量を算出する（ステップＳ１２）。

【0046】

なお、ここでは、ランドマークから口唇特徴量を算出する場合について説明したが、発話スコア算出部１１による口唇特徴量の算出手法は特に限定されず、例えば、静止画像（例えばＢＭＰデータ）そのものから口唇特徴量を算出してもよい。

【0047】

続いて、発話スコア算出部１１は、ディープニューラルネットワーク（ＤＮＮ）を利用した学習済みモデルである口唇ＤＮＮ４１に口唇特徴量を入力し、発話の確率である発話確率（０以上、１以下の実数）と、非発話の確率である非発話確率（０以上、１以下の実数、ただし、発話確率＋非発話確率＝１の関係を満たす）とを出力する（ステップＳ１３）。

【0048】

なお、口唇ＤＮＮ４１は、発話／非発話のラベル付き口唇画像を用いて、ＤＮＮを事前に深層学習させることによって生成された学習済みモデルである。

【0049】

発話スコア算出部１１は、上述の処理を口唇画像のフレーム毎に行う。

【0050】

音声スコア算出部１２は、マイク３２で取得された外部音に基づいて音声確率を算出する。

【0051】

なお、ここで、外部音とは、音声波形の時系列データ、すなわち音声データであり、少なくとも発話者が発話する音声を含み得る音声データである。

【0052】

より詳細には、まず、音声スコア算出部１２は、外部音から一般的な手法により雑音を除去する（ステップＳ２１）。そして、雑音を除去した外部音から音声特徴量、具体的にはメル周波数ケプストラム係数（ＭＦＣＣ：Mel-Frequency Cepstrum Coefficients）を算出する（ステップＳ２２）。

【0053】

なお、ここでは、音声特徴量としてＭＦＣＣを算出する場合について説明したが、音声スコア算出部１２により算出される音声特徴量は特に限定されず、例えば、ケプストラム係数、フィルタバンク等を用いてもよい。また、これらの特徴量の動的特徴量（デルタパラメータやデルタデルタパラメータ）を用いてもよい。

【0054】

続いて、音声スコア算出部１２は、ＤＮＮを利用した学習済みモデルである音声ＤＮＮ４２に音声特徴量を入力し、音声の確率である音声確率（０以上、１以下の実数）と、非音声の確率である非音声確率（０以上、１以下の実数、ただし、音声確率＋非音声確率＝１の関係を満たす）とを出力する（ステップＳ２３）。

【0055】

なお、音声ＤＮＮ４２は、音声／非音声のラベル付き音声データを用いて、ＤＮＮを事前に深層学習させることによって生成された学習済みモデルである。

【0056】

音声スコア算出部１２は、外部音から一定時間長をもつフレームを一定時間ごとに抽出し、フレーム毎に上述の処理を行う。

【0057】

第１のスコア演算部１３は、発話区間検知に係る確率を統合する処理を行う。具体的には、発話スコア算出部１１及び音声スコア算出部１２によってそれぞれ算出された発話確率及び音声確率を用いて、所定の演算処理を行う。

【0058】

より詳細には、下記式（１）に示すように、対応するフレーム間で発話確率と音声確率とを乗算して（それぞれの対数確率値を加算して）統合スコア（総合スコア）を算出する（ステップＳ３１）。
log Pv(t) = log P_sv(t) + log P_Lv(t) （１）
Pv(t)：時刻ｔにおける統合スコア
P_sv(t)：時刻ｔにおける音声確率
P_Lv(t)：時刻ｔにおける発話確率

【0059】

なお、音声のフレームと口唇画像のフレームは一般的に異なっているため、上記式（１）の計算を行う際には、時間の同期処理を行う必要がある。例えば、音声は１秒間に１００フレーム、口唇画像は１秒間に２５フレームの場合、時刻ｔの発話確率P_Lv(t)を４回繰り返し用いることにより、１秒間あたりの音声のフレーム数と口唇画像のフレーム数を同じにすることができる。４回繰り返すのではなく、時刻ｔの発話確率P_Lv(t)の前後の発話確率を用いて線形補間した値を用いてもよい。

【0060】

また、上記式（１）に対して、音声確率と発話確率とを重み付けし、log Pv(t) = w × log P_sv(t) + (1-w) × log P_Lv(t)のように統合スコアを算出してもよい。ここで、wは、音声確率に対する重みであり、０以上、１以下の実数である。

【0061】

更に、統合スコアPv(t)の算出では、複数フレームの音声確率や発話確率を用いた平滑化処理を行ってもよい。例えば、音声確率及び発話確率を時刻ｔ－１，ｔ，ｔ＋１の３フレームの確率の平均とする場合、時刻ｔにおける音声確率及び発話確率は、それぞれ、log P_sv(t) = {log P_sv(t-1) + log P_sv(t) + log P_sv(t+1)}/3、及びlog P_Lv(t) = {log P_Lv(t-1) + log P_Lv(t) + log P_Lv(t+1)}/3 となる。

【0062】

また、第１のスコア演算部１３による発話確率及び音声確率を用いた演算処理の具体的な方法は、上述の乗算（対数確率値の加算）に特に限定されず、他の演算を行ってもよい。

【0063】

発話区間決定部１４は、第１のスコア演算部１３による演算処理の結果に基づいて、発話者の発話区間を決定する。これにより、発話区間を高精度に検知することができる。

【0064】

より詳細には、発話区間決定部１４は、第１のスコア演算部１３による演算処理の結果を閾値Ｔｈと比較し、当該比較の結果に基づいて発話者の発話区間を決定する。

【0065】

更に詳細には、まず、算出した各フレームの統合スコアを所定の閾値Ｔｈでバイナリ化し、各時刻の発話判定フラグ（１／０）を求める（ステップＳ３２）。閾値Ｔｈを超える場合は、発話フラグ（＝１）とし、閾値を超えない場合は、非発話フラグ（＝０）とする。そして、得られた発話判定フラグをハングオーバー処理（時間方向のまとめ処理）し（ステップＳ３３）、発話区間、ここでは発話の始点から終点までの区間を決定する。

【0066】

次に、音声認識エンジン２０の動作について説明する。

【0067】

図５に示すように、口唇音韻スコア算出部２１は、発話区間決定部１４によって決定された発話区間において、動画生成部によって生成された動画に含まれる口唇画像に基づいて、口唇音韻確率を算出する（ステップＳ４１）。より詳細には、口唇音韻スコア算出部２１は、発話スコア算出部１１と同様に、口唇画像から口唇特徴量を算出する。口唇音韻スコア算出部２１は、発話スコア算出部１１によって算出された口唇特徴量を使用してもよい。

【0068】

続いて、口唇音韻スコア算出部２１は、ＤＮＮを利用した学習済みモデルである口唇の音韻ＤＮＮに口唇特徴量を入力し、各音韻（例えば、日本語の場合、ａ，ｉ，ｕ，ｅ，ｏ等の２５音素）の確率である口唇音韻確率（０以上、１以下の実数）を出力する。

【0069】

なお、口唇の音韻ＤＮＮは、各音韻のラベル付き口唇画像を用いて、ＤＮＮを事前に深層学習させることによって生成された学習済みモデルである。例えば、トライフォンモデルを用いる場合は、音素と、その前後にある音素（音素の文脈）とを組み合わせたトライフォンラベルを用いてモデル化されている。

【0070】

口唇音韻スコア算出部２１は、上述の処理を口唇画像のフレーム毎に行う。

【0071】

音声音韻スコア算出部２２は、発話区間決定部１４によって決定された発話区間において、動画生成部によって生成された動画に含まれる外部音に基づいて、音声音韻確率を算出する（ステップＳ４２）。より詳細には、音声音韻スコア算出部２２は、音声スコア算出部１２と同様に、外部音から音声特徴量を算出する。音声音韻スコア算出部２２は、音声スコア算出部１２によって算出された音声特徴量を使用してもよい。

【0072】

続いて、音声音韻スコア算出部２２は、ＤＮＮを利用した学習済みモデルである音声の音韻ＤＮＮに音声特徴量を入力し、各音韻（例えば、日本語の場合、ａ，ｉ，ｕ，ｅ，ｏ等の２５音素）の確率である音声音韻確率（０以上、１以下の実数）を出力する。

【0073】

なお、音声の音韻ＤＮＮは、各音韻のラベル付き音声データを用いて、ＤＮＮを事前に深層学習させることによって生成された学習済みモデルである。例えば、トライフォンモデルを用いる場合は、音素と、その前後にある音素（音素の文脈）とを組み合わせたトライフォンラベルを用いてモデル化されている。

【0074】

音声音韻スコア算出部２２は、外部音から一定時間長をもつフレームを一定時間ごとに抽出し、フレーム毎に上述の処理を行う。

【0075】

第２のスコア演算部２３は、音韻に係る確率を統合する処理を行う。具体的には、口唇音韻スコア算出部２１及び音声音韻スコア算出部２２によってそれぞれ算出された口唇音韻確率及び音声音韻確率を用いて、所定の演算処理を行う。

【0076】

より詳細には、下記式（２）に示すように、対応するフレーム間で口唇音韻確率と音声音韻確率とを乗算して（それぞれの対数確率値を加算して）統合スコア（総合スコア）を算出する（ステップＳ４３）。
log Ps(t) = log P_ss(t) + log P_Ls(t) （２）
Ps(t)：時刻ｔにおける統合スコア
P_ss(t)：時刻ｔにおける音声音韻確率
P_Ls(t)：時刻ｔにおける口唇音韻確率

【0077】

なお、音声のフレームと口唇画像のフレームは一般的に異なっているため、上記式（２）の計算を行う際には、時間の同期処理を行う必要がある。例えば、音声は１秒間に１００フレーム、口唇画像は１秒間に２５フレームの場合、時刻ｔの口唇音韻確率P_Ls(t)を４回繰り返し用いることにより、１秒間あたりの音声のフレーム数と口唇画像のフレーム数を同じにすることができる。４回繰り返すのではなく、口唇音韻確率P_Ls(t)の前後の口唇音韻確率を用いて線形補間した値を用いてもよい。

【0078】

また、上記式（２）に対して、音声音韻確率と口唇音韻確率を重み付けし、log Ps(t) = w × log P_ss(t) + (1-w) × log P_Ls(t)のように統合スコアを算出してもよい。ここで、wは、音声音韻確率に対する重みであり、０以上、１以下の実数である。

【0079】

また、第２のスコア演算部２３による口唇音韻確率及び音声音韻確率を用いた演算処理の具体的な方法は、上述の乗算（対数確率値の加算）に特に限定されず、他の演算を行ってもよい。

【0080】

音声認識部２４は、第２のスコア演算部２３による演算処理の結果から発話者が発話する音声の内容を決定する。より詳細には、第２のスコア演算部２３にて算出された統合スコアが最大となる音素群を辞書でマッチングする検索処理を行い、単語として特定する（ステップＳ４４）。

【0081】

（実施形態２）
本実施形態は、外部音取得時の音環境や、口唇画像撮像時の撮像環境等の環境を考慮して発話区間検知及び音声認識を行うことを除いて、実施形態１と実質的に同じであるので、重複する内容については説明を省略する。

【0082】

＜発話区間検知装置及び音声認識装置の構成＞
図６を用いて、実施形態２に係る発話区間検知装置及び音声認識装置の構成について説明する。図６に示すように、本実施形態に係る音声認識装置２は、撮像装置３１による口唇画像の撮像時の撮像環境を測定する撮像環境測定部３３と、マイク３２による外部音の取得時の音環境を測定する音環境測定部３４と、を更に備えている。

【0083】

撮像環境測定部３３は、撮像環境として、照度、発話者の顔の左右及び／又は上下の照度比、発話者の顔の回転の有無（回転の大きさ）、発話者の顔の大きさ、人の顔の数等を一般的な手法により測定する。

【0084】

音環境測定部３４は、音環境として、雑音レベル、外部音のＳＮ比、マイク３２と発話者との距離、残響の有無（残響の大きさ）、発話者以外の人の音声等を一般的な手法により測定する。

【0085】

なお、雑音とは、発話者の音声以外の音を意味し、例えば、発話者の反響音も雑音に含まれる。また、外部音のＳＮ比とは、音声と非音声との比を意味する。

【0086】

また、本実施形態では、第１のスコア演算部１３は、発話スコア算出部１１及び音声スコア算出部１２によってそれぞれ算出された発話確率と音声確率とをそれぞれ重み付けして所定の演算処理を行う。これにより、音環境や撮像環境等の環境に応じて発話確率の重みと音声確率の重みとを適宜変更して演算処理を行うことが可能であることから、静音環境のみならず様々な環境において発話区間を高精度に検知することができる。

【0087】

また、本実施形態では、第２のスコア演算部２３は、口唇音韻スコア算出部２１及び音声音韻スコア算出部２２によってそれぞれ算出された口唇音韻確率と音声音韻確率とをそれぞれ重み付けして所定の演算処理を行う。これにより、音環境や撮像環境等の環境に応じて口唇音韻確率の重みと音声音韻確率の重みとを適宜変更して演算処理を行うことが可能であることから、静音環境のみならず様々な環境において高精度に音声認識することができる。

【0088】

＜発話区間検知装置及び音声認識装置の動作＞
次に、図７及び８を用いて、実施形態２に係る発話区間検知装置１０及び音声認識装置２（特に音声認識エンジン２０）の動作について説明する。

【0089】

図７及び８に示すように、撮像環境測定部３３は、撮像環境を一般的な手法により測定する（ステップＳ５１）。

【0090】

また、音環境測定部３４は、音環境を一般的な手法により測定する（ステップＳ５２）。

【0091】

図７に示すように、第１のスコア演算部１３は、ステップＳ３１において、下記式（３）に示すように、対応するフレーム間で発話確率と音声確率とをそれぞれ重み付けして演算し（それぞれの対数確率値に重みを乗算したものを加算して）、統合スコアを算出する。
log Pv(t) = w_sv × log P_sv(t) + w_Lv × log P_Lv(t) （３）
Pv(t)：時刻ｔにおける統合スコア
P_sv(t)：時刻ｔにおける音声確率
P_Lv(t)：時刻ｔにおける発話確率
w_sv：音声確率に対する重み（０以上、１以下の実数）
w_Lv：発話確率に対する重み（０以上、１以下の実数）
ただし、w_sv + w_Lv = 1

【0092】

また、第１のスコア演算部１３は、ステップＳ５２で測定された音環境に応じて発話確率の重みｗ＿Ｌｖと音声確率の重みｗ＿ｓｖとを変更する。これにより、音環境に応じて発話確率の重みｗ＿Ｌｖと音声確率の重みｗ＿ｓｖとを適宜変更して演算処理を行うことが可能であることから、様々な音環境において発話区間を高精度に検知することができる。

【0093】

また、第１のスコア演算部１３は、ステップＳ５２で測定された音環境がより悪いほど発話確率の重みｗ＿Ｌｖを増加させる一方で音声確率の重みｗ＿ｓｖを減少させる。一般的に音環境が悪ければ音声確率の信頼性は低下することから、この態様によれば、様々な音環境における発話区間検知の精度をより向上することができる。

【0094】

例えば、図９に示すように、雑音レベル（ｄＢＡ）が所定の閾値を超えると、音声確率の重みｗ＿ｓｖを徐々に減少させる。この結果、雑音レベルがその閾値を超えると、発話確率の重みｗ＿Ｌｖは反対に徐々に増加することになる。

【0095】

なお、音環境がより悪くなる状況としては、具体的には、例えば、雑音が大きくなる場合、外部音のＳＮ比が低下する場合、マイク３２と発話者との距離が大きくなる場合、残響が大きくなる場合、発話者以外の人の音声が大きくなる場合等が挙げられる。

【0096】

また、第１のスコア演算部１３は、ステップＳ５１で測定された撮像環境に応じて発話確率の重みｗ＿Ｌｖと音声確率の重みｗ＿ｓｖとを変更する。これにより、撮像環境に応じて発話確率の重みｗ＿Ｌｖと音声確率の重みｗ＿ｓｖとを適宜変更して演算処理を行うことが可能であることから、様々な撮像環境において発話区間を高精度に検知することができる。

【0097】

また、第１のスコア演算部１３は、ステップＳ５１で測定された撮像環境がより悪いほど発話確率の重みｗ＿Ｌｖを減少させる一方で音声確率の重みｗ＿ｓｖを増加させる。一般的に撮像環境が悪ければ発話確率の信頼性は低下することから、この態様によれば、様々な撮像環境における発話区間検知の精度をより向上することができる。

【0098】

なお、撮像環境がより悪くなる状況としては、具体的には、例えば、照度が低下する場合、発話者の顔の左右及び／又は上下の照度比が大きくなる場合、発話者の顔が回転する（回転角が大きくなる）場合、発話者の顔の大きさが小さい場合、人の顔の数が多くなる場合等が挙げられる。

【0099】

図８に示すように、第２のスコア演算部２３は、ステップＳ４３において、下記式（４）に示すように、対応するフレーム間で口唇音韻確率と音声音韻確率とをそれぞれ重み付けして演算し（それぞれの対数確率値に重みを乗算したものを加算して）、統合スコアを算出する。
log Ps(t) = w_ss × log P_ss(t) + w_Ls × log P_Ls(t) （４）
Ps(t)：時刻ｔにおける統合スコア
P_ss(t)：時刻ｔにおける音声音韻確率
P_Ls(t)：時刻ｔにおける口唇音韻確率
w_ss：音声音韻確率に対する重み（０以上、１以下の実数）
w_Ls：口唇音韻確率に対する重み（０以上、１以下の実数）
ただし、w_ss + w_Ls = 1

【0100】

また、第２のスコア演算部２３は、ステップＳ５２で測定された音環境に応じて口唇音韻確率の重みｗ＿Ｌｓと音声音韻確率の重みｗ＿ｓｓとを変更する。これにより、音環境に応じて口唇音韻確率の重みｗ＿Ｌｓと音声音韻確率の重みｗ＿ｓｓとを適宜変更して演算処理を行うことが可能であることから、様々な音環境において音声を高精度に認識することができる。

【0101】

また、第２のスコア演算部２３は、ステップＳ５２で測定された音環境がより悪いほど口唇音韻確率の重みｗ＿Ｌｓを増加させる一方で音声音韻確率の重みｗ＿ｓｓを減少させる。一般的に音環境が悪ければ音声音韻確率の信頼性は低下することから、この態様によれば、様々な音環境における音声認識の精度をより向上することができる。

【0102】

また、第２のスコア演算部２３は、ステップＳ５１で測定された撮像環境に応じて口唇音韻確率の重みｗ＿Ｌｓと音声音韻確率の重みｗ＿ｓｓとを変更する。これにより、撮像環境に応じて口唇音韻確率の重みｗ＿Ｌｓと音声音韻確率の重みｗ＿ｓｓとを適宜変更して演算処理を行うことが可能であることから、様々な撮像環境において音声を高精度に認識することができる。

【0103】

また、第２のスコア演算部２３は、ステップＳ５１で測定された撮像環境がより悪いほど口唇音韻確率の重みｗ＿Ｌｓを減少させる一方で音声音韻確率の重みｗ＿ｓｓを増加させる。一般的に撮像環境が悪ければ口唇音韻確率の信頼性は低下することから、この態様によれば、様々な撮像環境における音声認識の精度をより向上することができる。

【0104】

そして、本実施形態では、音声確率の重みｗ＿ｓｖに対する発話確率の重みｗ＿Ｌｖの比率が、音声音韻確率の重みｗ＿ｓｓに対する口唇音韻確率の重みｗ＿Ｌｓの比率より大きくなるように設定されている。一般的に音声認識に比べて発話区間検知の方が音声に対する口唇画像の比重（重要度）が大きいことから、この態様によれば、発話区間検知と音声認識の精度をそれぞれより高めることができる。

【0105】

例えば、図１０（ａ）及び（ｂ）に示すように、音声音韻確率の重みｗ＿ｓｓを音声確率の重みｗ＿ｓｖよりも大きくする。この結果、口唇音韻確率の重みｗ＿Ｌｓは発話確率の重みｗ＿Ｌｖよりも小さくなる。より詳細には、例えば、音声確率の重みｗ＿ｓｖ及び音声音韻確率の重みｗ＿ｓｓを、雑音レベルが所定の閾値まで一定とし（ただし、音声確率の重みｗ＿ｓｖ＜音声音韻確率の重みｗ＿ｓｓ）、雑音レベルがその閾値を超えると、音声確率の重みｗ＿ｓｖ＜音声音韻確率の重みｗ＿ｓｓの関係を維持しつつ音声確率の重みｗ＿ｓｖ及び音声音韻確率の重みｗ＿ｓｓを徐々に減少させる。この結果、発話確率の重みｗ＿Ｌｖ及び口唇音韻確率の重みｗ＿Ｌｓは、雑音レベルがその閾値までは一定となり（ただし、発話確率の重みｗ＿Ｌｖ＞口唇音韻確率の重みｗ＿Ｌｓ）、雑音レベルがその閾値を超えると、発話確率の重みｗ＿Ｌｖ＞口唇音韻確率の重みｗ＿Ｌｓの関係は維持しつつ発話確率の重みｗ＿Ｌｖ及び口唇音韻確率の重みｗ＿Ｌｓは徐々に増加することになる。

【0106】

本実施形態では、発話区間決定部１４は、第１のスコア演算部１３による演算処理の結果と比較する閾値Ｔｈを、ステップＳ５２で測定された音環境に応じて変更してもよい。これにより、音環境に応じて閾値Ｔｈを適宜変更して発話区間を決定することが可能であることから、様々な音環境において発話区間を高精度に検知することができる。

【0107】

この場合、発話区間決定部１４は、ステップＳ５２で測定された音環境がより悪いほど閾値Ｔｈを小さくすることが好ましい。一般的に音環境が悪ければ音声確率は低下することから、この態様によれば、様々な音環境における発話区間検知の精度をより向上することができる。

【0108】

また、発話区間決定部１４は、ステップＳ５１で測定された撮像環境に応じて閾値Ｔｈを変更してもよい。これにより、撮像環境に応じて閾値Ｔｈを適宜変更して発話区間を決定することが可能であることから、様々な撮像環境において発話区間を高精度に検知することができる。

【0109】

この場合、発話区間決定部１４は、ステップＳ５１で測定された撮像環境がより悪いほど閾値Ｔｈを小さくすることが好ましい。一般的に撮像環境が悪ければ発話確率は低下することから、この態様によれば、様々な撮像環境における発話区間検知の精度をより向上することができる。

【0110】

以上説明したように、上記実施形態では、発話者の口唇画像に基づいて発話確率（発話スコア）を算出し、外部音に基づいて音声確率（音声スコア）を算出し、発話確率及び音声確率を用いて所定の演算処理を行い、当該演算処理の結果に基づいて、発話者の発話区間を決定することから、発話区間を高精度に検知することができる。また、音声のみの学習データと口唇のみの学習データを結合させて学習せずとも別々に学習すればよいので、最低限の学習データで高精度な発話区間検知を実現することできる。

【0111】

また、上記実施形態では、高精度に検知された発話区間において音声認識を行うことが可能であることから、音声認識の精度を向上することができる。

【0112】

なお、上記実施形態では、各確率を算出するモデルがＤＮＮを利用したものである場合について説明したが、各モデルに用いるニューラルネットワークの構造は、機械学習（好ましくは深層学習）に利用されるものであれば特に限定されず、例えば、畳み込みニューラルネットワーク（ＣＮＮ）やLong short-term memory（ＬＳＴＭ）を利用するものであってもよい。

【0113】

また、上記実施形態では、各確率の重みが時刻に関わらず一定である場合を想定していたが、少なくとも一つの重みを時間の関数とし、時刻に応じて適宜変更しながら用いてもよい。この場合、撮像環境測定部３３による撮像環境の測定、及び／又は音環境測定部３４による音環境の測定についても、所定の時間間隔毎に行うことが好ましい。

【0114】

また、上記実施形態では、発話スコアとして発話確率を、音声スコアとして音声確率を、口唇音韻スコアとして口唇音声確率を、音声音韻スコアとして音声音韻確率をそれぞれ用いる場合について説明したが、これらのスコアは、確率に特に限定されず、他のスコア（例えば対数尤度）を用いてもよい。

【0115】

また、上記実施形態では、発話区間決定部１４が、第１のスコア演算部１３による演算処理の結果に基づいて、発話の始点から終点までの区間を決定する場合について説明したが、発話区間決定部１４は、第１のスコア演算部１３による演算処理の結果に基づいて、発話の始点又は終点の一方のみを決定してもよい。この場合、例えば、発話の始点と終点の一方（好ましくは始点）をユーザが直接指定するインターフェースを設け、発話区間決定部１４は、発話の始点と終点の他方（好ましくは終点）のみを決定してもよい。

【0116】

また、上記実施形態では、発話区間検知装置及び音声認識装置を一つの装置として構成する場合について説明したが、発話区間検知装置及び音声認識装置の各機能を適宜複数の装置に分散した分散処理システムにより実現してもよい。

【0117】

具体的には、例えば、図１１に示すように、パーソナルコンピュータ、スマートフォン、ロボット、カーナビゲーションシステム、現金自動預け払い機（ＡＴＭ）等の発話者が利用しているクライアント装置１１０と、クラウドやオンプレミス環境に設けられたサーバー装置１２０とから分散処理システム（発話区間検知システム及び音声認識システム）１００を構成してもよい。

【0118】

より詳細には、例えば、図１２に示すように、クライアント装置１１０は、撮像装置３１と、マイク３２と、制御部（演算処理部）１１１による口唇特徴量抽出部１１ａ及び音声特徴量抽出部１２ａとを備えている。サーバー装置１２０は、制御部（演算処理部）１２１による発話スコア出力部１１ｂ及び音声スコア出力部１２ｂを備えている。また、サーバー装置１２０の制御部１２１は、上記実施形態と同様に、第１のスコア演算部１３、発話区間決定部１４、口唇音韻スコア算出部２１、音声音韻スコア算出部２２、第２のスコア演算部２３及び音声認識部２４を備えている。

【0119】

口唇特徴量抽出部１１ａは、上述の発話スコア算出部１１と同様に、口唇画像（例えばランドマーク）に基づいて、口唇特徴量を算出する。例えば、ステップＳ１１及びＳ１２を行う。

【0120】

音声特徴量抽出部１２ａは、上述の音声スコア算出部１２と同様に、外部音から雑音を除去し、雑音を除去した外部音から音声特徴量を算出する。例えば、ステップＳ２１及びＳ２２を行う。

【0121】

クライアント装置１１０の制御部１１１は、算出したこれらの口唇特徴量及び音声特徴量をサーバー装置１２０に送信する。

【0122】

クライアント装置１１０から口唇特徴量及び音声特徴量を受信したサーバー装置１２０では、発話スコア出力部１１ｂが、上述の発話スコア算出部１１（ステップＳ１３）と同様に、例えば、口唇ＤＮＮ４１に口唇特徴量を入力し、発話確率（発話スコア）及び非発話確率を出力する。

【0123】

また、音声スコア出力部１２ｂが、上述の音声スコア算出部１２（ステップＳ２３）と同様に、例えば、音声ＤＮＮ４２に音声特徴量を入力し、音声確率（音声スコア）及び非音声確率を出力する。

【0124】

そして、サーバー装置１２０が、上記実施形態と同様に、ステップＳ３１以降（ステップＳ３１～Ｓ３３及びＳ４１～Ｓ４４）の処理を行い、音声認識の結果をクライアント装置１１０に送信する。このとき、口唇音韻スコア算出部２１及び音声音韻スコア算出部２２は、例えば、それぞれ、クライアント装置１１０から受信した口唇特徴量及び音声特徴量を口唇の音韻ＤＮＮ及び音声の音韻ＤＮＮに入力し、口唇音韻確率（口唇音韻スコア）及び音声音韻確率（音声音韻スコア）を出力する。

【0125】

音声や口唇の特徴量のデータ量は、音声や画像のデータ量より大幅に少ないため、このシステム１００によれば、クライアント装置１１０からサーバー装置１２０への通信量を少なくすることができる。また、計算量やメモリ使用量の多いステップＳ１３やステップＳ２３の処理をサーバー装置１２０で行うことから、発話者が利用しているクライアント装置１１０のＣＰＵやメモリを高性能なものとしなくてもよい。

【0126】

なお、サーバー装置１２０からクライアント装置１１０に送信される音声認識の結果としては、例えば、発話者の発話内容であってもよいし、発話者の発話内容に基づく処理の結果（例えば、発話者の質問に対する検索結果）であってもよい。

【0127】

また、図１２に示した例とは異なり、クライアント装置１１０にて発話区間検知に関する処理（ステップＳ１１～Ｓ１３、Ｓ２１～Ｓ２３及びＳ３１～Ｓ３３）を行い、サーバー装置１２０にて音声認識に関する処理（ステップＳ４１～Ｓ４４）を行ってもよい。

【0128】

以上、図面を参照しながら本発明の実施形態を説明したが、本発明は、上記実施形態に限定されるものではない。また、各実施形態の構成は、本発明の要旨を逸脱しない範囲において適宜組み合わされてもよいし、変更されてもよい。

【産業上の利用可能性】

【0129】

以上のように、本発明は、口唇画像と外部音から、発話区間を高精度に検知するのに有用な技術である。

【符号の説明】

【0130】

１、２：音声認識装置
１０：発話区間検知装置（発話区間検知エンジン）
１１：発話スコア算出部
１１ａ：口唇特徴量抽出部
１１ｂ：発話スコア出力部
１２：音声スコア算出部
１２ａ：音声特徴量抽出部
１２ｂ：音声スコア出力部
１３：第１のスコア演算部
１４：発話区間決定部
２０：音声認識エンジン
２１：口唇音韻スコア算出部
２２：音声音韻スコア算出部
２３：第２のスコア演算部
２４：音声認識部
３１：撮像装置
３２：マイク
３３：撮像環境測定部
３４：音環境測定部
３５、１１１、１２１：制御部
３６：記憶部
４１：口唇ＤＮＮ
４２：音声ＤＮＮ
１００：分散処理システム（発話区間検知システム及び音声認識システム）
１１０：クライアント装置
１２０：サーバー装置

【図1】