(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-27
(45)【発行日】2024-07-05
(54)【発明の名称】発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
(51)【国際特許分類】
G10L 15/04 20130101AFI20240628BHJP
G10L 15/25 20130101ALI20240628BHJP
【FI】
G10L15/04 300Z
G10L15/25
(21)【出願番号】P 2020063344
(22)【出願日】2020-03-31
【審査請求日】2023-01-05
【前置審査】
(73)【特許権者】
【識別番号】000001432
【氏名又は名称】グローリー株式会社
(74)【代理人】
【識別番号】110000914
【氏名又は名称】弁理士法人WisePlus
(72)【発明者】
【氏名】森藤 健
(72)【発明者】
【氏名】中嶋 康博
(72)【発明者】
【氏名】深田 俊明
(72)【発明者】
【氏名】春山 英児
【審査官】中村 天真
(56)【参考文献】
【文献】特開2011-059186(JP,A)
【文献】特開2013-160938(JP,A)
【文献】国際公開第2020/144857(WO,A1)
【文献】米国特許出願公開第2018/0182415(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
(57)【特許請求の範囲】
【請求項1】
発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知装置を備える音声認識装置であって、
前記発話区間検知装置は、発話者の口の動きを含む口唇画像に基づいて発話の確からしさの度合いを示す発話スコアを算出する発話スコア算出部と、
外部音に基づいて音声の確からしさの度合いを示す音声スコアを算出する音声スコア算出部と、
前記発話スコア及び前記音声スコアを用いて所定の演算処理を行う第1のスコア演算部と、
前記第1のスコア演算部による前記演算処理の結果に基づいて、発話者の発話区間を決定する発話区間決定部と、を備え、
前記音声認識装置は、前記発話区間決定部によって決定された前記発話区間における各音韻の確からしさの度合いを示す口唇音韻スコアを前記口唇画像に基づいて算出する口唇音韻スコア算出部と、
前記発話区間決定部によって決定された前記発話区間における各音韻の確からしさの度合いを示す音声音韻スコアを前記外部音に基づいて算出する音声音韻スコア算出部と、
前記口唇音韻スコアと前記音声音韻スコアとをそれぞれ重み付けして所定の演算処理を行う第2のスコア演算部と、
前記第2のスコア演算部による前記演算処理の結果から発話者が発話する音声の内容を決定する音声認識部と、を備え、
前記音声スコアの重みに対する前記発話スコア
の重みの比率は、前記音声音韻スコアの重みに対する前記口唇音韻スコアの重みの比率より大きい
ことを特徴とする音声認識装置。
【請求項2】
前記第2のスコア演算部は、音環境に応じて前記口唇音韻スコアの重みと前記音声音韻スコアの重みとを変更する
ことを特徴とする請求項
1記載の音声認識装置。
【請求項3】
前記第2のスコア演算部は、音環境がより悪いほど前記口唇音韻スコアの重みを増加させる一方で前記音声音韻スコアの重みを減少させる
ことを特徴とする請求項
2記載の音声認識装置。
【請求項4】
前記第2のスコア演算部は、撮像環境に応じて前記口唇音韻スコアの重みと前記音声音韻スコアの重みとを変更する
ことを特徴とする請求項
1~
3のいずれかに記載の音声認識装置。
【請求項5】
前記第2のスコア演算部は、撮像環境がより悪いほど前記口唇音韻スコアの重みを減少させる一方で前記音声音韻スコアの重みを増加させる
ことを特徴とする請求項
4記載の音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラムに関する。
【背景技術】
【0002】
音声認識は、人(発話者)が発話する音声をコンピュータに認識させる技術であり、音声を文字列に変換したり、音声の特徴をとらえて発話者を識別したりする技術である。
【0003】
音声認識では、一般的に、まず、入力された音声信号が音声か非音声かを判別する発話区間検知(VAD:Voice Activity Detection、音声検出とも言う)を行い、そして、検知した発話区間において音声認識処理を行う。
【0004】
しかしながら、発話区間検知の性能は、通常、雑音(特に人声雑音)環境下において静音環境よりも大きく劣化してしまう。そこで、音声信号のみならず、発話者の口唇画像を用いて発話区間検知を行うバイモーダル発話区間検知が知られている。
【0005】
例えば、特許文献1には、音声に基づき発話区間を検知するとともに口唇画像に基づき発話区間を検知し、両方の発話区間を結合して最終的な発話区間を決定する手法(以下、2段VADと言う)が開示されている。
【0006】
また、非特許文献1には、音声から音声特徴量を抽出するとともに口唇画像から口唇特徴量を抽出し、両方の特徴量を結合した音声口唇特徴量を生成し、その音声口唇特徴量に基づき発話区間を検知する手法(以下、Feature Fusionと言う)が開示されている。
【先行技術文献】
【特許文献】
【0007】
【非特許文献】
【0008】
【文献】Ido Ariav, Israel Cohen, "An End-toEnd Multimodal Voice Activity Detection Using WaveNet Encoder and Residual Networks," IEEE Journal of Selected Topics in Signal Processing, 2019, volume 13, issue 2, pp. 265-274
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、2段VADは、発話区間検知の精度を更に向上するという点で改善の余地があった。
【0010】
また、Feature Fusionは、音声と口唇画像が同期した学習データが必要なため、精度を出すための学習データベースの構築が困難であった。
【0011】
本発明は、上記現状に鑑みてなされたものであり、発話区間を高精度に検知可能な発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラムを提供することを目的とするものである。
【課題を解決するための手段】
【0012】
上述した課題を解決し、目的を達成するために、本発明は、発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知装置であって、前記発話区間検知装置は、発話者の口の動きを含む口唇画像に基づいて発話の確からしさの度合いを示す発話スコアを算出する発話スコア算出部と、外部音に基づいて音声の確からしさの度合いを示す音声スコアを算出する音声スコア算出部と、前記発話スコア及び前記音声スコアを用いて所定の演算処理を行うスコア演算部と、前記スコア演算部による前記演算処理の結果に基づいて、発話者の発話区間を決定する発話区間決定部と、を備えることを特徴とする。
【0013】
また、本発明は、上記発明において、前記スコア演算部は、前記発話スコアと前記音声スコアとをそれぞれ重み付けして前記所定の演算処理を行うことを特徴とする。
【0014】
また、本発明は、上記発明において、前記スコア演算部は、音環境に応じて前記発話スコアの重みと前記音声スコアの重みとを変更することを特徴とする。
【0015】
また、本発明は、上記発明において、前記スコア演算部は、音環境がより悪いほど前記発話スコアの重みを増加させる一方で前記音声スコアの重みを減少させることを特徴とする。
【0016】
また、本発明は、上記発明において、前記スコア演算部は、撮像環境に応じて前記発話スコアの重みと前記音声スコアの重みとを変更することを特徴とする。
【0017】
また、本発明は、上記発明において、前記スコア演算部は、撮像環境がより悪いほど前記発話スコアの重みを減少させる一方で前記音声スコアの重みを増加させることを特徴とする。
【0018】
また、本発明は、上記発明において、前記発話決定部は、前記スコア演算部による前記演算処理の結果を閾値と比較し、当該比較の結果に基づいて発話者の発話区間を決定することを特徴とする。
【0019】
また、本発明は、上記発明において、前記発話決定部は、音環境に応じて前記閾値を変更することを特徴とする。
【0020】
また、本発明は、上記発明において、前記発話決定部は、撮像環境に応じて前記閾値を変更することを特徴とする。
【0021】
また、本発明は、音声認識装置であって、前記音声認識装置は、前記発話区間検知装置を備えることを特徴とする。
【0022】
また、本発明は、音声認識装置であって、前記スコア演算部は、第1のスコア演算部であり、前記音声認識装置は、前記発話区間検知装置と、前記発話区間決定部によって決定された前記発話区間における各音韻の確からしさの度合いを示す口唇音韻スコアを前記口唇画像に基づいて算出する口唇音韻スコア算出部と、前記発話区間決定部によって決定された前記発話区間における各音韻の確からしさの度合いを示す音声音韻スコアを前記外部音に基づいて算出する音声音韻スコア算出部と、前記口唇音韻スコアと前記音声音韻スコアとをそれぞれ重み付けして所定の演算処理を行う第2のスコア演算部と、前記第2のスコア演算部による前記演算処理の結果から発話者が発話する音声の内容を決定する音声認識部と、を備え、前記音声スコアの重みに対する前記発話スコアに対する重みの比率は、前記音声音韻スコアの重みに対する前記口唇音韻スコアの重みの比率より大きいことを特徴とする。
【0023】
また、本発明は、上記発明において、前記第2のスコア演算部は、音環境に応じて前記口唇音韻スコアの重みと前記音声音韻スコアの重みとを変更することを特徴とする。
【0024】
また、本発明は、上記発明において、前記第2のスコア演算部は、音環境がより悪いほど前記口唇音韻スコアの重みを増加させる一方で前記音声音韻スコアの重みを減少させることを特徴とする。
【0025】
また、本発明は、上記発明において、前記第2のスコア演算部は、撮像環境に応じて前記口唇音韻スコアの重みと前記音声音韻スコアの重みとを変更することを特徴とする。
【0026】
また、本発明は、上記発明において、前記第2のスコア演算部は、撮像環境がより悪いほど前記口唇音韻スコアの重みを減少させる一方で前記音声音韻スコアの重みを増加させることを特徴とする。
【0027】
発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知システムであって、前記発話区間検知システムは、発話者の口の動きを含む口唇画像に基づいて口唇特徴量を算出する口唇特徴量算出部と、外部音に基づいて音声特徴量を算出する音声特徴量算出部と、前記口唇特徴量算出部にて算出された前記口唇特徴量に基づいて、発話の確からしさの度合いを示す発話スコアを出力する発話スコア出力部と、前記音声特徴量算出部にて算出された前記音声特徴量に基づいて、音声の確からしさの度合いを示す音声スコアを出力する音声スコア出力部と、前記発話スコア及び前記音声スコアを用いて所定の演算処理を行うスコア演算部と、前記スコア演算部による前記演算処理の結果に基づいて、発話者の発話区間を決定する発話区間決定部と、を備えることを特徴とする。
【0028】
また、本発明は、発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知方法であって、前記発話区間検知方法は、発話者の口の動きを含む口唇画像に基づいて発話の確からしさの度合いを示す発話スコアを算出するステップと、外部音に基づいて音声の確からしさの度合いを示す音声スコアを算出するステップと、前記発話スコア及び前記音声スコアを用いて所定の演算処理を行うステップと、前記演算処理の結果に基づいて、発話者の発話区間を決定するステップと、を含むことを特徴とする。
【0029】
また、本発明は、発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知プログラムであって、前記プログラムは、発話者の口の動きを含む口唇画像に基づいて発話の確からしさの度合いを示す発話スコアを算出する処理と、外部音に基づいて音声の確からしさの度合いを示す音声スコアを算出する処理と、前記発話スコア及び前記音声スコアを用いて所定の演算処理を行う処理と、前記演算処理の結果に基づいて、発話者の発話区間を決定する処理と、をコンピュータに実行させることを特徴とする。
【発明の効果】
【0030】
本発明の発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラムによれば、発話区間を高精度に検知することができる。
【図面の簡単な説明】
【0031】
【
図1】実施形態1に係る発話区間検知装置及び音声認識装置のハードウェア構成を説明するブロック図である。
【
図2】実施形態1に係る発話区間検知装置及び音声認識装置の全体構成を説明するブロック図である。
【
図3】実施形態1に係る発話区間検知装置及び音声認識装置の構成を説明するブロック図である。
【
図4】実施形態1に係る発話区間検知装置で行われる処理の手順の一例を示すフローチャートである。
【
図5】実施形態1に係る音声認識エンジンで行われる処理の手順の一例を示すフローチャートである。
【
図6】実施形態2に係る発話区間検知装置及び音声認識装置の構成を説明するブロック図である。
【
図7】実施形態2に係る発話区間検知装置で行われる処理の手順の一例を示すフローチャートである。
【
図8】実施形態2に係る音声認識エンジンで行われる処理の手順の一例を示すフローチャートである。
【
図9】実施形態2における音声確率の重みの設定例を示すグラフであり、音声確率の重み(W_s)を騒音レベル(dBA)に応じて変化させる場合を示す。
【
図10】実施形態2における音声確率の重み及び音声音韻確率の重みの設定例を示すグラフであり、(a)は、音声確率の重み(W_sv)を騒音レベル(dBA)に応じて変化させる場合を示し、(b)は、音声音韻確率の重み(W_ss)を騒音レベル(dBA)に応じて変化させる場合を示す。
【
図11】変形形態に係る発話区間検知システム及び音声認識システムの全体構成を説明する模式図である。
【
図12】変形形態に係る発話区間検知システム及び音声認識システムの構成を説明するブロック図である。
【発明を実施するための形態】
【0032】
以下、本発明に係る発話区間検知装置、音声認識装置、発話区間検知方法及び発話区間検知プログラムを、図面を参照しながら説明する。本発明に係る発話区間検知装置は、発話者の発話区間を検知するものであるが、ここで、「発話区間を検知する」とは、発話区間の始点及び終点の少なくとも一方を検知することを意味する。
【0033】
(実施形態1)
<本実施形態の概要>
まず、実施形態1における発話区間検知の手法の概要について説明する。本実施形態では、発話する音声を含む外部音から音声特徴量を抽出して音声確率を出力するとともに、発話者の口の動きを含む口唇画像から口唇特徴量を抽出して発話確率を出力する。そして、これらの音声確率及び発話確率を統合した結果から、発話区間を検知する。これにより、発話区間を高精度に検知でき、雑音(特に人声雑音)環境下における検知性能を優れたものとすることができる。
【0034】
また、本実施形態によれば、2段VADに比べても、より高精度に発話区間を検知することが可能である。2段VADは、音声と口唇画像からそれぞれ独立に発話区間を検知し、両方の発話区間を結合して最終的な発話区間を決定する。したがって、例えば、人声雑音下で発話を行った場合、音声の発話区間の検知結果は、発話者が発話を行っていない雑音区間も誤って発話区間としてしまう。また、雑音のほとんどない静音下で、発話者が発話せずに少し口を動かした場合、口唇画像の発話区間の検知結果は、この区間を誤って発話区間としてしまう。つまり、誤って検知した発話区間を統合するよりも発話区間検知を決定する前に音声と口唇画像の情報を統合する方が好ましい。本実施形態と2段VADの発話区間検知性能の実験を、種々の環境にて同一条件で行った結果、本実施形態の方が2段VADに比べて、総合的に、全発話区間の対する正解した発話区間の割合(正解率)が略10%高い結果が得られている。
【0035】
<発話区間検知装置及び音声認識装置の構成>
次に、
図1~3を用いて、実施形態1に係る発話区間検知装置及び音声認識装置の構成について説明する。本実施形態に係る音声認識装置1は、一般的なパーソナルコンピュータ相当の機能を有し、
図1に示すように、発話者の口の動きを撮像する、カメラ等の撮像装置31と、外部音を電気信号に変換するマイク32と、音声認識装置1の各部を制御する制御部(演算処理部)35と、制御部の動作に必要なソフトウェアプログラムやデータを記憶する記憶部36と、を備えている。
【0036】
制御部35は、例えば、各種の処理を実現するためのソフトウェアプログラムと、該ソフトウェアプログラムを実行するCPU(Central Processing Unit)と、該CPUによって制御される各種ハードウェア等によって構成されている。
【0037】
記憶部36は、例えばハードディスク装置や不揮発性メモリ等の記憶装置から構成される。
【0038】
また、音声認識装置1は、制御部35により発話区間検知プログラムが実行されると、発話区間検知に係る各部の機能を実現し、制御部35により音声認識プログラムが実行されると、音声認識に係る各部の機能を実現する。すなわち、
図2に示すように、音声認識装置1は、発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する、発話区間検知エンジンとしての発話区間検知装置10と、発話区間検知装置10によって検知された発話区間において、発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の音声を認識する音声認識エンジン20と、を備えている。
【0039】
より詳細には、
図3に示すように、発話区間検知装置10は、発話者の口の動きを含む口唇画像に基づいて、発話の確からしさの度合いを示す発話スコアとして、発話確率を算出する発話スコア算出部11と、外部音に基づいて、音声の確からしさの度合いを示す音声スコアとして、音声確率を算出する音声スコア算出部12と、発話スコア算出部11及び音声スコア算出部12によってそれぞれ算出された発話確率及び音声確率を用いて、所定の演算処理を行う第1のスコア演算部13と、第1のスコア演算部13による演算処理の結果に基づいて、発話者の発話区間を決定する発話区間決定部14と、を備えている。
【0040】
音声認識エンジン20は、発話区間決定部14によって決定された発話区間において、口唇画像に基づいて、各音韻の確からしさの度合いを示す口唇音韻スコアとして、口唇音韻確率を算出する口唇音韻スコア算出部21と、発話区間決定部14によって決定された発話区間において、外部音に基づいて、各音韻の確からしさの度合いを示す音声音韻スコアとして、音声音韻確率を算出する音声音韻スコア算出部22と、口唇音韻スコア算出部21及び音声音韻スコア算出部22によってそれぞれ算出された口唇音韻確率及び音声音韻確率を用いて、所定の演算処理を行う第2のスコア演算部23と、第2のスコア演算部23による演算処理の結果から発話者が発話する音声の内容を決定する音声認識部24と、を備えている。
【0041】
なお、
図3に示した各部は、制御部35で発話区間検知プログラムや音声認識プログラムを実行させることによって実現される。発話区間検知プログラム及び音声認識プログラムは、音声認識装置1に予め導入されてもよいし、汎用OS上で動作可能なアプリケーションプログラムとして、コンピュータ読み取り可能な記録媒体に記録して、又は、ネットワークを介して、利用者に提供されてもよい。
【0042】
<発話区間検知装置及び音声認識装置(音声認識エンジン)の動作>
次に、
図4及び5を用いて、実施形態1に係る発話区間検知装置10及び音声認識装置1(特に音声認識エンジン20)の動作について説明する。まず、発話区間検知装置10の動作について説明する。
【0043】
発話スコア算出部11は、撮像装置31で撮像された口唇画像に基づいて、発話確率を算出する。
【0044】
なお、ここで、口唇画像とは、発話者の口の動きを含む静止画像の時系列データ、すなわち、少なくとも発話者の口が撮像された動画である。口唇画像は、少なくとも発話者の口を含むものであればよいが、発話者の顔全体を含むものが好適である。
【0045】
より詳細には、
図4に示すように、発話スコア算出部11は、まず、口唇画像にて顔検出を行い、検出した顔領域から、目、眉、鼻、口、顔の輪郭等の特徴点(ランドマーク)を各静止画像の(X,Y)座標として抽出する(ステップS11)。そして、これらのランドマークから口の部分のランドマークを口唇情報として利用し、口唇情報から口唇特徴量を算出する(ステップS12)。
【0046】
なお、ここでは、ランドマークから口唇特徴量を算出する場合について説明したが、発話スコア算出部11による口唇特徴量の算出手法は特に限定されず、例えば、静止画像(例えばBMPデータ)そのものから口唇特徴量を算出してもよい。
【0047】
続いて、発話スコア算出部11は、ディープニューラルネットワーク(DNN)を利用した学習済みモデルである口唇DNN41に口唇特徴量を入力し、発話の確率である発話確率(0以上、1以下の実数)と、非発話の確率である非発話確率(0以上、1以下の実数、ただし、発話確率+非発話確率=1の関係を満たす)とを出力する(ステップS13)。
【0048】
なお、口唇DNN41は、発話/非発話のラベル付き口唇画像を用いて、DNNを事前に深層学習させることによって生成された学習済みモデルである。
【0049】
発話スコア算出部11は、上述の処理を口唇画像のフレーム毎に行う。
【0050】
音声スコア算出部12は、マイク32で取得された外部音に基づいて音声確率を算出する。
【0051】
なお、ここで、外部音とは、音声波形の時系列データ、すなわち音声データであり、少なくとも発話者が発話する音声を含み得る音声データである。
【0052】
より詳細には、まず、音声スコア算出部12は、外部音から一般的な手法により雑音を除去する(ステップS21)。そして、雑音を除去した外部音から音声特徴量、具体的にはメル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficients)を算出する(ステップS22)。
【0053】
なお、ここでは、音声特徴量としてMFCCを算出する場合について説明したが、音声スコア算出部12により算出される音声特徴量は特に限定されず、例えば、ケプストラム係数、フィルタバンク等を用いてもよい。また、これらの特徴量の動的特徴量(デルタパラメータやデルタデルタパラメータ)を用いてもよい。
【0054】
続いて、音声スコア算出部12は、DNNを利用した学習済みモデルである音声DNN42に音声特徴量を入力し、音声の確率である音声確率(0以上、1以下の実数)と、非音声の確率である非音声確率(0以上、1以下の実数、ただし、音声確率+非音声確率=1の関係を満たす)とを出力する(ステップS23)。
【0055】
なお、音声DNN42は、音声/非音声のラベル付き音声データを用いて、DNNを事前に深層学習させることによって生成された学習済みモデルである。
【0056】
音声スコア算出部12は、外部音から一定時間長をもつフレームを一定時間ごとに抽出し、フレーム毎に上述の処理を行う。
【0057】
第1のスコア演算部13は、発話区間検知に係る確率を統合する処理を行う。具体的には、発話スコア算出部11及び音声スコア算出部12によってそれぞれ算出された発話確率及び音声確率を用いて、所定の演算処理を行う。
【0058】
より詳細には、下記式(1)に示すように、対応するフレーム間で発話確率と音声確率とを乗算して(それぞれの対数確率値を加算して)統合スコア(総合スコア)を算出する(ステップS31)。
log Pv(t) = log P_sv(t) + log P_Lv(t) (1)
Pv(t):時刻tにおける統合スコア
P_sv(t):時刻tにおける音声確率
P_Lv(t):時刻tにおける発話確率
【0059】
なお、音声のフレームと口唇画像のフレームは一般的に異なっているため、上記式(1)の計算を行う際には、時間の同期処理を行う必要がある。例えば、音声は1秒間に100フレーム、口唇画像は1秒間に25フレームの場合、時刻tの発話確率P_Lv(t)を4回繰り返し用いることにより、1秒間あたりの音声のフレーム数と口唇画像のフレーム数を同じにすることができる。4回繰り返すのではなく、時刻tの発話確率P_Lv(t)の前後の発話確率を用いて線形補間した値を用いてもよい。
【0060】
また、上記式(1)に対して、音声確率と発話確率とを重み付けし、log Pv(t) = w × log P_sv(t) + (1-w) × log P_Lv(t)のように統合スコアを算出してもよい。ここで、wは、音声確率に対する重みであり、0以上、1以下の実数である。
【0061】
更に、統合スコアPv(t)の算出では、複数フレームの音声確率や発話確率を用いた平滑化処理を行ってもよい。例えば、音声確率及び発話確率を時刻t-1,t,t+1の3フレームの確率の平均とする場合、時刻tにおける音声確率及び発話確率は、それぞれ、log P_sv(t) = {log P_sv(t-1) + log P_sv(t) + log P_sv(t+1)}/3、及びlog P_Lv(t) = {log P_Lv(t-1) + log P_Lv(t) + log P_Lv(t+1)}/3 となる。
【0062】
また、第1のスコア演算部13による発話確率及び音声確率を用いた演算処理の具体的な方法は、上述の乗算(対数確率値の加算)に特に限定されず、他の演算を行ってもよい。
【0063】
発話区間決定部14は、第1のスコア演算部13による演算処理の結果に基づいて、発話者の発話区間を決定する。これにより、発話区間を高精度に検知することができる。
【0064】
より詳細には、発話区間決定部14は、第1のスコア演算部13による演算処理の結果を閾値Thと比較し、当該比較の結果に基づいて発話者の発話区間を決定する。
【0065】
更に詳細には、まず、算出した各フレームの統合スコアを所定の閾値Thでバイナリ化し、各時刻の発話判定フラグ(1/0)を求める(ステップS32)。閾値Thを超える場合は、発話フラグ(=1)とし、閾値を超えない場合は、非発話フラグ(=0)とする。そして、得られた発話判定フラグをハングオーバー処理(時間方向のまとめ処理)し(ステップS33)、発話区間、ここでは発話の始点から終点までの区間を決定する。
【0066】
次に、音声認識エンジン20の動作について説明する。
【0067】
図5に示すように、口唇音韻スコア算出部21は、発話区間決定部14によって決定された発話区間において、動画生成部によって生成された動画に含まれる口唇画像に基づいて、口唇音韻確率を算出する(ステップS41)。より詳細には、口唇音韻スコア算出部21は、発話スコア算出部11と同様に、口唇画像から口唇特徴量を算出する。口唇音韻スコア算出部21は、発話スコア算出部11によって算出された口唇特徴量を使用してもよい。
【0068】
続いて、口唇音韻スコア算出部21は、DNNを利用した学習済みモデルである口唇の音韻DNNに口唇特徴量を入力し、各音韻(例えば、日本語の場合、a,i,u,e,o等の25音素)の確率である口唇音韻確率(0以上、1以下の実数)を出力する。
【0069】
なお、口唇の音韻DNNは、各音韻のラベル付き口唇画像を用いて、DNNを事前に深層学習させることによって生成された学習済みモデルである。例えば、トライフォンモデルを用いる場合は、音素と、その前後にある音素(音素の文脈)とを組み合わせたトライフォンラベルを用いてモデル化されている。
【0070】
口唇音韻スコア算出部21は、上述の処理を口唇画像のフレーム毎に行う。
【0071】
音声音韻スコア算出部22は、発話区間決定部14によって決定された発話区間において、動画生成部によって生成された動画に含まれる外部音に基づいて、音声音韻確率を算出する(ステップS42)。より詳細には、音声音韻スコア算出部22は、音声スコア算出部12と同様に、外部音から音声特徴量を算出する。音声音韻スコア算出部22は、音声スコア算出部12によって算出された音声特徴量を使用してもよい。
【0072】
続いて、音声音韻スコア算出部22は、DNNを利用した学習済みモデルである音声の音韻DNNに音声特徴量を入力し、各音韻(例えば、日本語の場合、a,i,u,e,o等の25音素)の確率である音声音韻確率(0以上、1以下の実数)を出力する。
【0073】
なお、音声の音韻DNNは、各音韻のラベル付き音声データを用いて、DNNを事前に深層学習させることによって生成された学習済みモデルである。例えば、トライフォンモデルを用いる場合は、音素と、その前後にある音素(音素の文脈)とを組み合わせたトライフォンラベルを用いてモデル化されている。
【0074】
音声音韻スコア算出部22は、外部音から一定時間長をもつフレームを一定時間ごとに抽出し、フレーム毎に上述の処理を行う。
【0075】
第2のスコア演算部23は、音韻に係る確率を統合する処理を行う。具体的には、口唇音韻スコア算出部21及び音声音韻スコア算出部22によってそれぞれ算出された口唇音韻確率及び音声音韻確率を用いて、所定の演算処理を行う。
【0076】
より詳細には、下記式(2)に示すように、対応するフレーム間で口唇音韻確率と音声音韻確率とを乗算して(それぞれの対数確率値を加算して)統合スコア(総合スコア)を算出する(ステップS43)。
log Ps(t) = log P_ss(t) + log P_Ls(t) (2)
Ps(t):時刻tにおける統合スコア
P_ss(t):時刻tにおける音声音韻確率
P_Ls(t):時刻tにおける口唇音韻確率
【0077】
なお、音声のフレームと口唇画像のフレームは一般的に異なっているため、上記式(2)の計算を行う際には、時間の同期処理を行う必要がある。例えば、音声は1秒間に100フレーム、口唇画像は1秒間に25フレームの場合、時刻tの口唇音韻確率P_Ls(t)を4回繰り返し用いることにより、1秒間あたりの音声のフレーム数と口唇画像のフレーム数を同じにすることができる。4回繰り返すのではなく、口唇音韻確率P_Ls(t)の前後の口唇音韻確率を用いて線形補間した値を用いてもよい。
【0078】
また、上記式(2)に対して、音声音韻確率と口唇音韻確率を重み付けし、log Ps(t) = w × log P_ss(t) + (1-w) × log P_Ls(t)のように統合スコアを算出してもよい。ここで、wは、音声音韻確率に対する重みであり、0以上、1以下の実数である。
【0079】
また、第2のスコア演算部23による口唇音韻確率及び音声音韻確率を用いた演算処理の具体的な方法は、上述の乗算(対数確率値の加算)に特に限定されず、他の演算を行ってもよい。
【0080】
音声認識部24は、第2のスコア演算部23による演算処理の結果から発話者が発話する音声の内容を決定する。より詳細には、第2のスコア演算部23にて算出された統合スコアが最大となる音素群を辞書でマッチングする検索処理を行い、単語として特定する(ステップS44)。
【0081】
(実施形態2)
本実施形態は、外部音取得時の音環境や、口唇画像撮像時の撮像環境等の環境を考慮して発話区間検知及び音声認識を行うことを除いて、実施形態1と実質的に同じであるので、重複する内容については説明を省略する。
【0082】
<発話区間検知装置及び音声認識装置の構成>
図6を用いて、実施形態2に係る発話区間検知装置及び音声認識装置の構成について説明する。
図6に示すように、本実施形態に係る音声認識装置2は、撮像装置31による口唇画像の撮像時の撮像環境を測定する撮像環境測定部33と、マイク32による外部音の取得時の音環境を測定する音環境測定部34と、を更に備えている。
【0083】
撮像環境測定部33は、撮像環境として、照度、発話者の顔の左右及び/又は上下の照度比、発話者の顔の回転の有無(回転の大きさ)、発話者の顔の大きさ、人の顔の数等を一般的な手法により測定する。
【0084】
音環境測定部34は、音環境として、雑音レベル、外部音のSN比、マイク32と発話者との距離、残響の有無(残響の大きさ)、発話者以外の人の音声等を一般的な手法により測定する。
【0085】
なお、雑音とは、発話者の音声以外の音を意味し、例えば、発話者の反響音も雑音に含まれる。また、外部音のSN比とは、音声と非音声との比を意味する。
【0086】
また、本実施形態では、第1のスコア演算部13は、発話スコア算出部11及び音声スコア算出部12によってそれぞれ算出された発話確率と音声確率とをそれぞれ重み付けして所定の演算処理を行う。これにより、音環境や撮像環境等の環境に応じて発話確率の重みと音声確率の重みとを適宜変更して演算処理を行うことが可能であることから、静音環境のみならず様々な環境において発話区間を高精度に検知することができる。
【0087】
また、本実施形態では、第2のスコア演算部23は、口唇音韻スコア算出部21及び音声音韻スコア算出部22によってそれぞれ算出された口唇音韻確率と音声音韻確率とをそれぞれ重み付けして所定の演算処理を行う。これにより、音環境や撮像環境等の環境に応じて口唇音韻確率の重みと音声音韻確率の重みとを適宜変更して演算処理を行うことが可能であることから、静音環境のみならず様々な環境において高精度に音声認識することができる。
【0088】
<発話区間検知装置及び音声認識装置の動作>
次に、
図7及び8を用いて、実施形態2に係る発話区間検知装置10及び音声認識装置2(特に音声認識エンジン20)の動作について説明する。
【0089】
図7及び8に示すように、撮像環境測定部33は、撮像環境を一般的な手法により測定する(ステップS51)。
【0090】
また、音環境測定部34は、音環境を一般的な手法により測定する(ステップS52)。
【0091】
図7に示すように、第1のスコア演算部13は、ステップS31において、下記式(3)に示すように、対応するフレーム間で発話確率と音声確率とをそれぞれ重み付けして演算し(それぞれの対数確率値に重みを乗算したものを加算して)、統合スコアを算出する。
log Pv(t) = w_sv × log P_sv(t) + w_Lv × log P_Lv(t) (3)
Pv(t):時刻tにおける統合スコア
P_sv(t):時刻tにおける音声確率
P_Lv(t):時刻tにおける発話確率
w_sv:音声確率に対する重み(0以上、1以下の実数)
w_Lv:発話確率に対する重み(0以上、1以下の実数)
ただし、w_sv + w_Lv = 1
【0092】
また、第1のスコア演算部13は、ステップS52で測定された音環境に応じて発話確率の重みw_Lvと音声確率の重みw_svとを変更する。これにより、音環境に応じて発話確率の重みw_Lvと音声確率の重みw_svとを適宜変更して演算処理を行うことが可能であることから、様々な音環境において発話区間を高精度に検知することができる。
【0093】
また、第1のスコア演算部13は、ステップS52で測定された音環境がより悪いほど発話確率の重みw_Lvを増加させる一方で音声確率の重みw_svを減少させる。一般的に音環境が悪ければ音声確率の信頼性は低下することから、この態様によれば、様々な音環境における発話区間検知の精度をより向上することができる。
【0094】
例えば、
図9に示すように、雑音レベル(dBA)が所定の閾値を超えると、音声確率の重みw_svを徐々に減少させる。この結果、雑音レベルがその閾値を超えると、発話確率の重みw_Lvは反対に徐々に増加することになる。
【0095】
なお、音環境がより悪くなる状況としては、具体的には、例えば、雑音が大きくなる場合、外部音のSN比が低下する場合、マイク32と発話者との距離が大きくなる場合、残響が大きくなる場合、発話者以外の人の音声が大きくなる場合等が挙げられる。
【0096】
また、第1のスコア演算部13は、ステップS51で測定された撮像環境に応じて発話確率の重みw_Lvと音声確率の重みw_svとを変更する。これにより、撮像環境に応じて発話確率の重みw_Lvと音声確率の重みw_svとを適宜変更して演算処理を行うことが可能であることから、様々な撮像環境において発話区間を高精度に検知することができる。
【0097】
また、第1のスコア演算部13は、ステップS51で測定された撮像環境がより悪いほど発話確率の重みw_Lvを減少させる一方で音声確率の重みw_svを増加させる。一般的に撮像環境が悪ければ発話確率の信頼性は低下することから、この態様によれば、様々な撮像環境における発話区間検知の精度をより向上することができる。
【0098】
なお、撮像環境がより悪くなる状況としては、具体的には、例えば、照度が低下する場合、発話者の顔の左右及び/又は上下の照度比が大きくなる場合、発話者の顔が回転する(回転角が大きくなる)場合、発話者の顔の大きさが小さい場合、人の顔の数が多くなる場合等が挙げられる。
【0099】
図8に示すように、第2のスコア演算部23は、ステップS43において、下記式(4)に示すように、対応するフレーム間で口唇音韻確率と音声音韻確率とをそれぞれ重み付けして演算し(それぞれの対数確率値に重みを乗算したものを加算して)、統合スコアを算出する。
log Ps(t) = w_ss × log P_ss(t) + w_Ls × log P_Ls(t) (4)
Ps(t):時刻tにおける統合スコア
P_ss(t):時刻tにおける音声音韻確率
P_Ls(t):時刻tにおける口唇音韻確率
w_ss:音声音韻確率に対する重み(0以上、1以下の実数)
w_Ls:口唇音韻確率に対する重み(0以上、1以下の実数)
ただし、w_ss + w_Ls = 1
【0100】
また、第2のスコア演算部23は、ステップS52で測定された音環境に応じて口唇音韻確率の重みw_Lsと音声音韻確率の重みw_ssとを変更する。これにより、音環境に応じて口唇音韻確率の重みw_Lsと音声音韻確率の重みw_ssとを適宜変更して演算処理を行うことが可能であることから、様々な音環境において音声を高精度に認識することができる。
【0101】
また、第2のスコア演算部23は、ステップS52で測定された音環境がより悪いほど口唇音韻確率の重みw_Lsを増加させる一方で音声音韻確率の重みw_ssを減少させる。一般的に音環境が悪ければ音声音韻確率の信頼性は低下することから、この態様によれば、様々な音環境における音声認識の精度をより向上することができる。
【0102】
また、第2のスコア演算部23は、ステップS51で測定された撮像環境に応じて口唇音韻確率の重みw_Lsと音声音韻確率の重みw_ssとを変更する。これにより、撮像環境に応じて口唇音韻確率の重みw_Lsと音声音韻確率の重みw_ssとを適宜変更して演算処理を行うことが可能であることから、様々な撮像環境において音声を高精度に認識することができる。
【0103】
また、第2のスコア演算部23は、ステップS51で測定された撮像環境がより悪いほど口唇音韻確率の重みw_Lsを減少させる一方で音声音韻確率の重みw_ssを増加させる。一般的に撮像環境が悪ければ口唇音韻確率の信頼性は低下することから、この態様によれば、様々な撮像環境における音声認識の精度をより向上することができる。
【0104】
そして、本実施形態では、音声確率の重みw_svに対する発話確率の重みw_Lvの比率が、音声音韻確率の重みw_ssに対する口唇音韻確率の重みw_Lsの比率より大きくなるように設定されている。一般的に音声認識に比べて発話区間検知の方が音声に対する口唇画像の比重(重要度)が大きいことから、この態様によれば、発話区間検知と音声認識の精度をそれぞれより高めることができる。
【0105】
例えば、
図10(a)及び(b)に示すように、音声音韻確率の重みw_ssを音声確率の重みw_svよりも大きくする。この結果、口唇音韻確率の重みw_Lsは発話確率の重みw_Lvよりも小さくなる。より詳細には、例えば、音声確率の重みw_sv及び音声音韻確率の重みw_ssを、雑音レベルが所定の閾値まで一定とし(ただし、音声確率の重みw_sv<音声音韻確率の重みw_ss)、雑音レベルがその閾値を超えると、音声確率の重みw_sv<音声音韻確率の重みw_ssの関係を維持しつつ音声確率の重みw_sv及び音声音韻確率の重みw_ssを徐々に減少させる。この結果、発話確率の重みw_Lv及び口唇音韻確率の重みw_Lsは、雑音レベルがその閾値までは一定となり(ただし、発話確率の重みw_Lv>口唇音韻確率の重みw_Ls)、雑音レベルがその閾値を超えると、発話確率の重みw_Lv>口唇音韻確率の重みw_Lsの関係は維持しつつ発話確率の重みw_Lv及び口唇音韻確率の重みw_Lsは徐々に増加することになる。
【0106】
本実施形態では、発話区間決定部14は、第1のスコア演算部13による演算処理の結果と比較する閾値Thを、ステップS52で測定された音環境に応じて変更してもよい。これにより、音環境に応じて閾値Thを適宜変更して発話区間を決定することが可能であることから、様々な音環境において発話区間を高精度に検知することができる。
【0107】
この場合、発話区間決定部14は、ステップS52で測定された音環境がより悪いほど閾値Thを小さくすることが好ましい。一般的に音環境が悪ければ音声確率は低下することから、この態様によれば、様々な音環境における発話区間検知の精度をより向上することができる。
【0108】
また、発話区間決定部14は、ステップS51で測定された撮像環境に応じて閾値Thを変更してもよい。これにより、撮像環境に応じて閾値Thを適宜変更して発話区間を決定することが可能であることから、様々な撮像環境において発話区間を高精度に検知することができる。
【0109】
この場合、発話区間決定部14は、ステップS51で測定された撮像環境がより悪いほど閾値Thを小さくすることが好ましい。一般的に撮像環境が悪ければ発話確率は低下することから、この態様によれば、様々な撮像環境における発話区間検知の精度をより向上することができる。
【0110】
以上説明したように、上記実施形態では、発話者の口唇画像に基づいて発話確率(発話スコア)を算出し、外部音に基づいて音声確率(音声スコア)を算出し、発話確率及び音声確率を用いて所定の演算処理を行い、当該演算処理の結果に基づいて、発話者の発話区間を決定することから、発話区間を高精度に検知することができる。また、音声のみの学習データと口唇のみの学習データを結合させて学習せずとも別々に学習すればよいので、最低限の学習データで高精度な発話区間検知を実現することできる。
【0111】
また、上記実施形態では、高精度に検知された発話区間において音声認識を行うことが可能であることから、音声認識の精度を向上することができる。
【0112】
なお、上記実施形態では、各確率を算出するモデルがDNNを利用したものである場合について説明したが、各モデルに用いるニューラルネットワークの構造は、機械学習(好ましくは深層学習)に利用されるものであれば特に限定されず、例えば、畳み込みニューラルネットワーク(CNN)やLong short-term memory(LSTM)を利用するものであってもよい。
【0113】
また、上記実施形態では、各確率の重みが時刻に関わらず一定である場合を想定していたが、少なくとも一つの重みを時間の関数とし、時刻に応じて適宜変更しながら用いてもよい。この場合、撮像環境測定部33による撮像環境の測定、及び/又は音環境測定部34による音環境の測定についても、所定の時間間隔毎に行うことが好ましい。
【0114】
また、上記実施形態では、発話スコアとして発話確率を、音声スコアとして音声確率を、口唇音韻スコアとして口唇音声確率を、音声音韻スコアとして音声音韻確率をそれぞれ用いる場合について説明したが、これらのスコアは、確率に特に限定されず、他のスコア(例えば対数尤度)を用いてもよい。
【0115】
また、上記実施形態では、発話区間決定部14が、第1のスコア演算部13による演算処理の結果に基づいて、発話の始点から終点までの区間を決定する場合について説明したが、発話区間決定部14は、第1のスコア演算部13による演算処理の結果に基づいて、発話の始点又は終点の一方のみを決定してもよい。この場合、例えば、発話の始点と終点の一方(好ましくは始点)をユーザが直接指定するインターフェースを設け、発話区間決定部14は、発話の始点と終点の他方(好ましくは終点)のみを決定してもよい。
【0116】
また、上記実施形態では、発話区間検知装置及び音声認識装置を一つの装置として構成する場合について説明したが、発話区間検知装置及び音声認識装置の各機能を適宜複数の装置に分散した分散処理システムにより実現してもよい。
【0117】
具体的には、例えば、
図11に示すように、パーソナルコンピュータ、スマートフォン、ロボット、カーナビゲーションシステム、現金自動預け払い機(ATM)等の発話者が利用しているクライアント装置110と、クラウドやオンプレミス環境に設けられたサーバー装置120とから分散処理システム(発話区間検知システム及び音声認識システム)100を構成してもよい。
【0118】
より詳細には、例えば、
図12に示すように、クライアント装置110は、撮像装置31と、マイク32と、制御部(演算処理部)111による口唇特徴量抽出部11a及び音声特徴量抽出部12aとを備えている。サーバー装置120は、制御部(演算処理部)121による発話スコア出力部11b及び音声スコア出力部12bを備えている。また、サーバー装置120の制御部121は、上記実施形態と同様に、第1のスコア演算部13、発話区間決定部14、口唇音韻スコア算出部21、音声音韻スコア算出部22、第2のスコア演算部23及び音声認識部24を備えている。
【0119】
口唇特徴量抽出部11aは、上述の発話スコア算出部11と同様に、口唇画像(例えばランドマーク)に基づいて、口唇特徴量を算出する。例えば、ステップS11及びS12を行う。
【0120】
音声特徴量抽出部12aは、上述の音声スコア算出部12と同様に、外部音から雑音を除去し、雑音を除去した外部音から音声特徴量を算出する。例えば、ステップS21及びS22を行う。
【0121】
クライアント装置110の制御部111は、算出したこれらの口唇特徴量及び音声特徴量をサーバー装置120に送信する。
【0122】
クライアント装置110から口唇特徴量及び音声特徴量を受信したサーバー装置120では、発話スコア出力部11bが、上述の発話スコア算出部11(ステップS13)と同様に、例えば、口唇DNN41に口唇特徴量を入力し、発話確率(発話スコア)及び非発話確率を出力する。
【0123】
また、音声スコア出力部12bが、上述の音声スコア算出部12(ステップS23)と同様に、例えば、音声DNN42に音声特徴量を入力し、音声確率(音声スコア)及び非音声確率を出力する。
【0124】
そして、サーバー装置120が、上記実施形態と同様に、ステップS31以降(ステップS31~S33及びS41~S44)の処理を行い、音声認識の結果をクライアント装置110に送信する。このとき、口唇音韻スコア算出部21及び音声音韻スコア算出部22は、例えば、それぞれ、クライアント装置110から受信した口唇特徴量及び音声特徴量を口唇の音韻DNN及び音声の音韻DNNに入力し、口唇音韻確率(口唇音韻スコア)及び音声音韻確率(音声音韻スコア)を出力する。
【0125】
音声や口唇の特徴量のデータ量は、音声や画像のデータ量より大幅に少ないため、このシステム100によれば、クライアント装置110からサーバー装置120への通信量を少なくすることができる。また、計算量やメモリ使用量の多いステップS13やステップS23の処理をサーバー装置120で行うことから、発話者が利用しているクライアント装置110のCPUやメモリを高性能なものとしなくてもよい。
【0126】
なお、サーバー装置120からクライアント装置110に送信される音声認識の結果としては、例えば、発話者の発話内容であってもよいし、発話者の発話内容に基づく処理の結果(例えば、発話者の質問に対する検索結果)であってもよい。
【0127】
また、
図12に示した例とは異なり、クライアント装置110にて発話区間検知に関する処理(ステップS11~S13、S21~S23及びS31~S33)を行い、サーバー装置120にて音声認識に関する処理(ステップS41~S44)を行ってもよい。
【0128】
以上、図面を参照しながら本発明の実施形態を説明したが、本発明は、上記実施形態に限定されるものではない。また、各実施形態の構成は、本発明の要旨を逸脱しない範囲において適宜組み合わされてもよいし、変更されてもよい。
【産業上の利用可能性】
【0129】
以上のように、本発明は、口唇画像と外部音から、発話区間を高精度に検知するのに有用な技術である。
【符号の説明】
【0130】
1、2:音声認識装置
10:発話区間検知装置(発話区間検知エンジン)
11:発話スコア算出部
11a:口唇特徴量抽出部
11b:発話スコア出力部
12:音声スコア算出部
12a:音声特徴量抽出部
12b:音声スコア出力部
13:第1のスコア演算部
14:発話区間決定部
20:音声認識エンジン
21:口唇音韻スコア算出部
22:音声音韻スコア算出部
23:第2のスコア演算部
24:音声認識部
31:撮像装置
32:マイク
33:撮像環境測定部
34:音環境測定部
35、111、121:制御部
36:記憶部
41:口唇DNN
42:音声DNN
100:分散処理システム(発話区間検知システム及び音声認識システム)
110:クライアント装置
120:サーバー装置