(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023107552
(43)【公開日】2023-08-03
(54)【発明の名称】情報処理装置、音声認識方法、発話区間検出方法及びプログラム
(51)【国際特許分類】
G10L 15/25 20130101AFI20230727BHJP
G10L 15/32 20130101ALI20230727BHJP
G10L 15/04 20130101ALI20230727BHJP
【FI】
G10L15/25
G10L15/32 220Z
G10L15/04 300Z
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022008806
(22)【出願日】2022-01-24
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(71)【出願人】
【識別番号】504139662
【氏名又は名称】国立大学法人東海国立大学機構
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】田村 哲嗣
(72)【発明者】
【氏名】磯部 真之介
(72)【発明者】
【氏名】山▲崎▼ 圭祐
(72)【発明者】
【氏名】廣瀬 竜一
(72)【発明者】
【氏名】能勢 将樹
(72)【発明者】
【氏名】後藤 悠斗
(57)【要約】
【課題】マルチモーダル音声認識の計算コストを低減する。
【解決手段】情報処理装置は、話者の発話を収録した音声データから発話内容を認識する音声認識部と、話者の口唇動作を収録した動画データから発話内容を認識する読唇部と、音声データの収録状況に基づいて音声認識部及び読唇部の実行を制御する認識制御部と、音声データによる認識結果及び動画データによる認識結果に基づいて発話内容の認識結果を出力する認識結果統合部と、を備える。
【選択図】
図3
【特許請求の範囲】
【請求項1】
話者の発話を収録した音声データから発話内容を認識する音声認識部と、
前記話者の口唇動作を収録した動画データから前記発話内容を認識する読唇部と、
前記音声データの収録状況に基づいて前記読唇部の実行を制御する認識制御部と、
前記音声データによる認識結果及び前記動画データによる認識結果に基づいて前記発話内容の認識結果を出力する認識結果統合部と、
を備える情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記認識制御部は、前記動画データの収録状況に基づいて前記音声認識部の実行をさらに制御する、
情報処理装置。
【請求項3】
請求項2に記載の情報処理装置であって、
前記音声データの収録状況は、前記音声データの雑音レベルを含み、
前記認識制御部は、前記雑音レベルが低い場合、前記読唇部の実行を停止する、
情報処理装置。
【請求項4】
請求項3に記載の情報処理装置であって、
前記動画データの収録状況は、前記動画データの画質を含み、
前記認識制御部は、前記雑音レベルが高い、かつ、前記画質が高い場合、前記音声認識部の実行を停止する、
情報処理装置。
【請求項5】
話者の身体動作を収録した動画データから前記話者の口唇動作を表す口唇画像を抽出する口唇画像抽出部と、
前記話者の発話を収録した音声データから発話区間を検出する音声発話検出部と、
前記動画データから前記発話区間を検出する身体発話検出部と、
前記口唇画像から前記発話区間を検出する口唇発話検出部と、
前記音声データによる検出結果、前記動画データによる検出結果及び前記口唇画像による検出結果に基づいて前記発話区間の検出結果を出力する検出結果統合部と、
を備える情報処理装置。
【請求項6】
請求項5に記載の情報処理装置であって、
前記動画データは、前記話者の顔を含む上半身の一部の動作を収録したものである、
情報処理装置。
【請求項7】
コンピュータが、
話者の発話を収録した音声データから発話内容を認識する音声認識手順と、
前記話者の口唇動作を収録した動画データから前記発話内容を認識する読唇手順と、
前記音声データの収録状況に基づいて前記音声認識手順及び前記読唇手順の実行を制御する認識制御手順と、
前記音声データによる認識結果及び前記動画データによる認識結果に基づいて前記発話内容の認識結果を出力する認識結果統合手順と、
を実行する音声認識方法。
【請求項8】
コンピュータが、
話者の身体動作を収録した動画データから前記話者の口唇動作を表す口唇画像を抽出する口唇抽出手順と、
前記話者の発話を収録した音声データから発話区間を検出する音声発話検出手順と、
前記動画データから前記発話区間を検出する身体発話検出手順と、
前記口唇画像から前記発話区間を検出する口唇発話検出手順と、
前記音声データによる検出結果、前記動画データによる検出結果及び前記口唇画像による検出結果に基づいて前記発話区間の検出結果を出力する検出結果統合手順と、
を実行する発話区間検出方法。
【請求項9】
コンピュータに、
話者の発話を収録した音声データから発話内容を認識する音声認識手順と、
前記話者の口唇動作を収録した動画データから前記発話内容を認識する読唇手順と、
前記音声データの収録状況に基づいて前記音声認識手順及び前記読唇手順の実行を制御する認識制御手順と、
前記音声データによる認識結果及び前記動画データによる認識結果に基づいて前記発話内容の認識結果を出力する認識結果統合手順と、
を実行させるためのプログラム。
【請求項10】
コンピュータに、
話者の身体動作を収録した動画データから前記話者の口唇動作を表す口唇画像を抽出する口唇抽出手順と、
前記話者の発話を収録した音声データから発話区間を検出する音声発話検出手順と、
前記動画データから前記発話区間を検出する身体発話検出手順と、
前記口唇画像から前記発話区間を検出する口唇発話検出手順と、
前記音声データによる検出結果、前記動画データによる検出結果及び前記口唇画像による検出結果に基づいて前記発話区間の検出結果を出力する検出結果統合手順と、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、情報処理装置、音声認識方法、発話区間検出方法及びプログラムに関する。
【背景技術】
【0002】
発話された音声をテキストに変換する音声認識技術において、雑音環境下での性能低下を抑制する技術が知られている。例えば、特許文献1には、入力音に含まれる雑音を除去することで音声を検出した上で音声認識を行う技術が開示されている。しかしながら、雑音を正確かつ完全に除去することは困難である。
【0003】
発話時の口唇画像を用いて発話内容を推定する機械読唇、及び音声認識と機械読唇を統合したマルチモーダル音声認識の研究開発が進められている。例えば、特許文献2には、発話区間を同定した後、音声音韻スコア及び口唇音韻スコアを計算し、これらのスコアから所定の演算により発話内容を決定する技術が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来のマルチモーダル音声認識では、計算コストが高いという課題がある。従来のマルチモーダル音声認識では、音声認識で行う音声処理と機械読唇で行う画像処理とが常に発生する。特に、機械読唇で必要となる画像処理のオーバーヘッドが大きいことが課題である。
【0005】
本発明の一実施形態は、上記のような技術的課題に鑑みて、マルチモーダル音声認識の計算コストを低減することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、この発明の一実施形態である情報処理装置は、話者の発話を収録した音声データから発話内容を認識する音声認識部と、話者の口唇動作を収録した動画データから発話内容を認識する読唇部と、音声データの収録状況に基づいて読唇部の実行を制御する認識制御部と、音声データによる認識結果及び動画データによる認識結果に基づいて発話内容の認識結果を出力する認識結果統合部と、を備える。
【発明の効果】
【0007】
本発明の一実施形態によれば、マルチモーダル音声認識の計算コストを低減することができる。
【図面の簡単な説明】
【0008】
【
図1】一実施形態における発話認識システムの全体構成の一例を示す図である。
【
図2】一実施形態におけるコンピュータのハードウェア構成の一例を示す図である。
【
図3】第1実施形態における音声認識装置の機能構成の一例を示す図である。
【
図4】第1実施形態における音声認識方法の処理手順の一例を示す図である。
【
図5】第1実施形態における認識制御部の制御内容の一例を示す図である。
【
図6】第2実施形態における発話区間検出装置の機能構成の一例を示す図である。
【
図7】第2実施形態における発話区間検出方法の処理手順の一例を示す図である。
【
図8】第3実施形態におけるモデル学習装置の機能構成の一例を示す図である。
【
図9】第3実施形態におけるモデル学習方法の処理手順の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、図面を参照しながら、この発明の実施の形態について、詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0010】
<発話認識システムの全体構成>
まず、以下に説明する各実施形態における発話認識システムの全体構成について、
図1を参照しながら説明する。
図1は、一実施形態における発話認識システム100の全体構成の一例を示すブロック図である。
【0011】
図1に示されているように、一実施形態における発話認識システム100は、音声認識装置10、発話区間検出装置20及びモデル学習装置30を含む。一実施形態における音声認識装置10、発話区間検出装置20及びモデル学習装置30は、それぞれ通信ネットワークN1に接続している。
【0012】
通信ネットワークN1は、接続されている各装置が相互に通信可能となるように構成されている。通信ネットワークN1は、例えば、インターネット、LAN(Local Area Network)、又はWAN(Wide Area Network)などの有線通信によるネットワークによって構築されている。
【0013】
通信ネットワークN1は、有線通信だけでなく、例えば、無線LAN又は近距離無線通信等の無線通信、もしくはWiMAX(Worldwide Interoperability for Microwave Access)、LTE(Long Term Evolution)、又は5G(5th Generation)等の移動体通信によるネットワークが含まれていてもよい。
【0014】
音声認識装置10は、マルチモーダル音声認識を実行する情報処理装置である。音声認識装置10の一例は、PC(Personal Computer)、ワークステーション又はサーバ等のコンピュータである。
【0015】
音声認識装置10は、音声データ、動画データ及び発話区間を表す情報(以下、「発話区間情報」とも呼ぶ)を入力とし、発話内容の認識結果を出力する。音声データは、話者の発話を含むように収録した音声信号である。音声データは、発話が収録されている発話区間と、発話が収録されていない非発話区間を含む。動画データは、発話している話者を含むようにフレーム毎に撮影した画像の時系列である。動画データは、発話している話者が撮影されている発話区間と、話者が発話していない非発話区間を含む。音声認識装置10に入力される動画データは、少なくとも発話区間における話者の口唇動作が含まれている必要がある。発話区間情報は、発話開始時刻及び発話終了時刻を表す情報である。
【0016】
発話区間検出装置20は、マルチモーダル発話区間検出を実行する情報処理装置である。発話区間検出装置20の一例は、PC(Personal Computer)、ワークステーション又はサーバ等のコンピュータである。
【0017】
発話区間検出装置20は、音声データ及び動画データを入力とし、発話区間情報を出力する。発話区間検出装置20に入力される動画データは、少なくとも発話区間における話者の顔を含み、顔以外の上半身の一部が含まれている必要がある。発話区間検出装置20が出力する発話区間情報は、音声認識装置10に入力される。
【0018】
モデル学習装置30は、機械学習モデルを学習する情報処理装置である。モデル学習装置30の一例は、PC(Personal Computer)、ワークステーション又はサーバ等のコンピュータである。
【0019】
モデル学習装置30は、発話区間検出装置20及び音声認識装置10が用いるモデルを学習する。モデル学習には、予め収集した少量の学習データに基づいて生成した大量の学習データを用いる。モデル学習装置30が学習したモデルは、音声認識装置10又は発話区間検出装置20が備える記憶部に記憶される。
【0020】
なお、音声認識装置10、発話区間検出装置20及びモデル学習装置30は、通信機能を備えた装置であれば、コンピュータ等に限定されない。音声認識装置10、発話区間検出装置20及びモデル学習装置30は、例えば、PJ(Projector:プロジェクタ)、IWB(Interactive White Board:相互通信が可能な電子式の黒板機能を有する白板)、デジタルサイネージ等の出力装置、HUD(Head Up Display)装置、産業機械、撮像装置、集音装置、医療機器、ネットワーク家電、自動車(Connected Car)、ノートPC(Personal Computer)、携帯電話、スマートフォン、タブレット端末、ゲーム機、PDA(Personal Digital Assistant)、デジタルカメラ、ウェアラブルPCまたはデスクトップPC等であってもよい。
【0021】
<発話認識システムのハードウェア構成>
次に、一実施形態における発話認識システムのハードウェア構成について、
図2を参照しながら説明する。
図2は、音声認識装置10、発話区間検出装置20及びモデル学習装置30がコンピュータで実現される場合のハードウェア構成の一例を示すブロック図である。
【0022】
図2に示されているように、コンピュータは、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、HD(Hard Disk)504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)508、ネットワークI/F509、バスライン510、キーボード511、ポインティング機器512、DVD-RW(Digital Versatile Disk Rewritable)ドライブ514、メディアI/F516を備えている。
【0023】
これらのうち、CPU501は、コンピュータ全体の動作を制御する。ROM502は、IPL(Initial Program Loader)等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。HD504は、プログラム等の各種データを記憶する。HDDコントローラ505は、CPU501の制御にしたがってHD504に対する各種データの読み出し又は書き込みを制御する。
【0024】
ディスプレイ506は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F508は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USBメモリやプリンタ等である。ネットワークI/F509は、通信ネットワークを利用してデータ通信をするためのインターフェースである。バスライン510は、
図3に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0025】
キーボード511は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティング機器512は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ514は、着脱可能な記録媒体の一例としてのDVD-RW513に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F516は、フラッシュメモリ等の記録メディア515に対するデータの読み出し又は書き込み(記憶)を制御する。
【0026】
[第1実施形態]
本発明の第1実施形態では、発話認識システム100に含まれる音声認識装置10について説明する。
【0027】
<背景>
近年、携帯端末による音声入力や、会議における自動議事録作成等に、音声認識が用いられている。音声認識には雑音環境下で性能が低下する問題点がある。雑音環境下での性能低下を抑制するため、発話時の口唇画像を用いて発話内容を推定する機械読唇、及び音声認識と機械読唇を統合したマルチモーダル音声認識の研究開発が進められている。
【0028】
雑音下における音声認識については、例えば、入力音に含まれる雑音を除去し、音声を検出した後、音声認識を行う技術がある(特許文献1参照)。しかしながら、雑音を正確かつ完全に推定し除去することは困難であるという課題がある。
【0029】
マルチモーダル音声認識については、例えば、発話区間を同定した後、音声音韻スコア及び口唇音韻スコアを計算し、これらのスコアから所定の演算により発話内容を決定する技術がある(特許文献2参照)。しかしながら、音声から得られる情報と口唇画像から得られる情報とを常に利用する方式では、音声認識と比べて計算コストが高くなるという問題点がある。
【0030】
一般に、画像処理は音声処理と比べて計算量が大きい。このため、マルチモーダル音声認識は従来の音声認識と比べた際に、実時間処理や計算コストの面に課題がある。また、音声認識技術の発展に伴い、静寂環境もしくは低雑音環境では、マルチモーダル音声認識による精度改善は限定的となっている。
【0031】
本発明の一実施形態における音声認識装置は、マルチモーダル音声認識装置に、収録時の状況を推定する収録状況推定部を導入したものである。収録状況推定部は、例えば、音声信号における雑音有無又は雑音レベルを推定する。雑音がない静寂環境又は雑音の少ない低雑音環境であると推定した場合、音声認識装置は、音声認識のみを実行し、その結果を出力する。一方、雑音が大きい高雑音環境であると推定した場合、音声認識装置は、音声認識に加えて、画像情報を用いた読唇を行い、音声認識結果と読唇による認識結果とを統合し、その結果を出力する。
【0032】
<音声認識装置の機能構成>
次に、本実施形態における音声認識装置の機能構成について、
図3を参照しながら説明する。
図3は、本実施形態における音声認識装置の機能構成の一例を示すブロック図である。
【0033】
図3に示されているように、本実施形態における音声認識装置10は、発話区間入力部11、音声入力部12、画像入力部13、収録状況推定部14、認識制御部15、音声認識部16、読唇部17、認識結果統合部18及びモデル記憶部19を備える。
【0034】
発話区間入力部11、音声入力部12、画像入力部13、収録状況推定部14、認識制御部15、音声認識部16、読唇部17及び認識結果統合部18は、例えば、
図2に示されているHD504からRAM503上に展開されたプログラムがCPU501及びHDDコントローラ505に実行させる処理によって実現される。
【0035】
モデル記憶部19は、例えば、
図2に示されているHD504を用いて実現される。HD504が記憶するデータの読み込み又は書き込みは、例えば、HDDコントローラ505を介して行われる。
【0036】
発話区間入力部11は、発話区間検出装置20が出力した発話区間情報の入力を受け付ける。発話区間入力部11は、受け付けた発話区間情報を、音声入力部12及び画像入力部13に送る。
【0037】
音声入力部12は、発話区間入力部11から受け取った発話区間情報に基づいて、発話区間における音声データの入力を受け付ける。音声入力部12は、受け付けた音声データから音声信号を抽出する。音声入力部12は、抽出した音声信号を音声認識部16に送る。
【0038】
画像入力部13は、発話区間入力部11から受け取った発話区間情報に基づいて、発話区間における動画データの入力を受け付ける。画像入力部13は、受け付けた動画データから口唇画像の時系列を抽出する。画像入力部13は、抽出した口唇画像の時系列を読唇部17に送る。
【0039】
収録状況推定部14は、音声入力部12が抽出した音声信号から音声データの収録状況を推定する。音声信号から推定する収録状況は、例えば、雑音レベル又は雑音種類である。収録状況推定部14は、画像入力部13が抽出した口唇画像から収録状況を推定してもよい。口唇画像から推定する収録状況は、例えば、画質である。収録状況推定部14は、推定した収録状況を認識制御部15に送る。
【0040】
認識制御部15は、収録状況推定部14が推定した収録状況に基づいて、音声認識部16及び読唇部17の実行可否を制御する。
【0041】
音声認識部16は、音声入力部12が抽出した音声信号に対して音声認識を行う。音声認識部16は、発話内容の認識結果を認識結果統合部18に送る。
【0042】
読唇部17は、画像入力部13が抽出した口唇画像の時系列に対して読唇を行う。読唇部17は、発話内容の認識結果を認識結果統合部18に送る。
【0043】
認識結果統合部18は、音声認識部16及び読唇部17それぞれが出力する発話内容の認識結果を統合し、最終的な発話内容の認識結果(以下、「統合認識結果」とも呼ぶ)を出力する。
【0044】
モデル記憶部19は、音声認識装置10が用いる各モデルを記憶する。具体的には、モデル記憶部19は、音声認識部16が用いる音声認識モデル及び読唇部17が用いる読唇モデルを記憶する。モデル記憶部19が記憶する各モデルは、モデル学習装置30により学習済みのモデルである。
【0045】
<音声認識方法の処理手順>
続いて、本実施形態における音声認識装置が実行する音声認識方法について、
図4を参照しながら説明する。
図4は、本実施形態における音声認識装置10が実行する音声認識方法の処理手順の一例を示すフローチャートである。
【0046】
ステップS11において、発話区間入力部11は、発話区間検出装置20が出力した発話区間情報の入力を受け付ける。次に、発話区間入力部11は、受け付けた発話区間情報を、音声入力部12及び画像入力部13に送る。
【0047】
ステップS12において、音声入力部12は、発話区間入力部11から受け取った発話区間情報に基づいて、話者の発話を収録した音声データの入力を受け付ける。すなわち、音声入力部12は、発話区間入力部11から受け取った発話区間情報が表す発話区間において音声データの入力を受け付ける。次に、音声入力部12は、受け付けた音声データから音声信号を抽出する。続いて、音声入力部12は、抽出した音声信号を音声認識部16に送る。
【0048】
音声データは、音声認識装置10の外部機器接続I/F508に接続されたマイクロホンが現在行われている発話を収録した音声信号でもよいし、音声認識装置10のメディアI/F516に接続された記憶媒体に記憶されている、過去に行われた発話を収録した音声信号でもよい。
【0049】
ステップS13において、画像入力部13は、発話区間入力部11から受け取った発話区間情報に基づいて、発話している話者を撮影した動画データの入力を受け付ける。すなわち、画像入力部13は、発話区間入力部11から受け取った発話区間情報が表す発話区間において動画データの入力を受け付ける。次に、画像入力部13は、受け付けた動画データから口唇画像の時系列を抽出する。続いて、画像入力部13は、抽出した口唇画像の時系列を読唇部17に送る。
【0050】
画像入力部13に入力される動画データは、発話区間検出装置20の外部機器接続I/F508に接続されたカメラが現在発話している話者を撮影した動画データでもよいし、発話区間検出装置20のメディアI/F516に接続された記憶媒体に記憶されている、過去に発話していた話者を撮影した動画データでもよい。
【0051】
ステップS14において、収録状況推定部14は、音声入力部12から受け取った音声信号から音声データの収録状況を推定する。音声信号から推定する収録状況は、例えば、雑音レベル又は雑音種類である。次に、収録状況推定部14は、推定した収録状況を認識制御部15に送る。
【0052】
一例として、収録状況推定部14は、機械学習により学習した雑音環境推定モデルにより、音声入力部12から受け取った音声信号を、静寂環境、低雑音環境又は高雑音環境にクラス分類する。また、収録状況推定部14は、機械学習により学習した雑音レベル推定モデルにより、音声入力部12から受け取った音声信号から雑音レベルを推定し、雑音レベルの推定値を事前に設定した閾値と比較してクラス分類してもよい。
【0053】
収録状況推定部14は、画像入力部13が抽出した口唇画像から動画データの収録状況を推定してもよい。口唇画像から推定する収録状況は、例えば、画質である。
【0054】
一例として、収録状況推定部14は、機械学習により学習した画質推定モデルにより、画像入力部13から受け取った口唇画像を、低画質又は高画質にクラス分類する。
【0055】
ステップS15において、認識制御部15は、収録状況推定部14から受け取った収録状況に基づいて、音声認識部16及び読唇部17の実行可否を制御する。
【0056】
一例として、認識制御部15は、音声データの収録状況に基づいて、予め定めた実行規則に従って、音声認識部16及び読唇部17それぞれの実行可否を制御する。また、認識制御部15は、音声データ及び動画データの収録状況に基づいて、予め定めた実行規則に従って、音声認識部16及び読唇部17それぞれの実行可否を制御してもよい。
【0057】
ここで、本実施形態における認識制御部15が行う制御について、
図5を参照しながら説明する。
図5(A)は、音声データの収録状況に基づく実行規則の一例を示す概念図である。
図5(B)は、音声データ及び動画データの収録状況に基づく実行規則の一例を示す概念図である。
【0058】
図5(A)に示されているように、音声データの収録状況が静寂環境又は低雑音環境であれば、認識制御部15は、音声認識部16のみを実行し、読唇部17を実行しない(停止する)制御を行う。音声データの収録状況が高雑音環境であれば、音声認識部16及び読唇部17を実行する制御を行う。
【0059】
図5(B)に示されているように、音声データの収録状況が高雑音環境であり、動画データの収録状況が高画質である場合、読唇部17のみを実行し、音声認識部16を実行しない(停止する)制御を行う。音声データの収録状況が高雑音環境であり、動画データの収録状況が低画質である場合、音声認識部16及び読唇部17を実行する制御を行う。
【0060】
図4に戻って説明する。ステップS16において、音声認識部16は、音声入力部12が抽出した音声信号に対して音声認識を行う。次に、音声認識部16は、発話内容の認識結果を認識結果統合部18に送る。
【0061】
一例として、音声認識部16は、機械学習に基づいて予め学習した音声認識モデルにより、音声入力部12から受け取った音声信号に対して音声認識を行い、認識結果を出力する。音声認識部16が出力する認識結果は、発話内容として推定された単一の単語系列でもよいし、複数の単語系列候補でもよい。さらに、それぞれの単語系列又は単語に対し、信頼度スコアを出力してもよい。
【0062】
ステップS17において、読唇部17は、画像入力部13が抽出した口唇画像の時系列に対して読唇を行う。次に、読唇部17は、発話内容の認識結果を認識結果統合部18に送る。
【0063】
一例として、読唇部17は、機械学習に基づいて予め学習した読唇モデルにより、画像入力部13から受け取った口唇画像の時系列に対して読唇を行い、認識結果を出力する。読唇部17が出力する認識結果は、発話内容として推定された単一の単語系列でもよいし、複数の単語系列候補でもよい。さらに、それぞれの単語系列又は単語に対し、信頼度スコアを出力してもよい。
【0064】
ステップS18において、認識結果統合部18は、音声認識部16及び読唇部17それぞれが出力する発話内容の認識結果を統合し、統合認識結果を出力する。
【0065】
一例として、認識結果統合部18は、音声認識部16及び読唇部17それぞれから、複数の単語系列候補と信頼度スコアの組を受け取り、それらの中で最も信頼度スコアの高い単語系列候補を選択し出力する。他の一例として、認識結果統合部18は、音声認識部16及び読唇部17それぞれから、複数の単語系列候補を受け取り、それらの多数決により、単語系列候補を選択し出力する。
【0066】
認識制御部15が読唇部17を実行しなかった場合、認識結果統合部18は音声認識部16が出力する認識結果を統合認識結果として出力する。同様に、認識制御部15が音声認識部16を実行しなかった場合、認識結果統合部18は読唇部17が出力する認識結果を統合認識結果として出力する。
【0067】
<第1実施形態の効果>
本実施形態における音声認識装置は、音声データ及び動画データの少なくとも一方から推定した収録状況に基づいて、音声認識及び読唇の実行を制御する。すなわち、本実施形態における音声認識装置は、収録状況に応じて精度の高い認識結果が得られる認識のみを実行する制御を行う。
【0068】
例えば、音声データの雑音レベルが高ければ音声認識の精度は低下し、動画データの品質が低ければ読唇の精度は低下する。そのため、本実施形態における音声認識装置は、音声データの雑音レベルが低い場合には、音声認識のみを行い、読唇を実行しない。また、本実施形態における音声認識装置は、音声データの雑音レベルが高く、かつ、動画データの品質が高い場合には、読唇のみを行い、音声認識を実行しない。
【0069】
従来のマルチモーダル音声認識では、常に音声認識と読唇の両方を実行する。したがって、本実施形態における音声認識装置によれば、マルチモーダル音声認識の計算コストを低減することができる。
【0070】
[第2実施形態]
本発明の第2実施形態では、発話認識システム100に含まれる発話区間検出装置20について説明する。
【0071】
<背景>
発話が行われているか否かを判定する発話区間検出技術は、高精度な音声認識を実現するための前処理として重要である。発話区間検出においても、音声認識と同様に、口唇画像を用いた発話区間検出や、音声と口唇画像を組み合わせたマルチモーダル発話区間検出手法の研究事例が知られている。
【0072】
口唇画像を用いた発話区間検出については、例えば、音声及び口唇画像からそれぞれ発話の有無に関するスコアを計算し、それらのスコアから所定の演算により発話区間を決定する技術がある(特許文献2参照)。また、例えば、口の開き具合及び音声信号それぞれから発話尤度を求め、それらのスコアを組み合わせて発話の有無を推定する技術がある(下記参考文献1参照)。しかしながら、口唇画像を用いたマルチモーダル発話区間検出は、例えばマスクを着用する等により口唇が観測できない場合には、そのまま適用することができないという問題がある。
【0073】
〔参考文献1〕特許第6833147号公報
【0074】
本発明の一実施形態における発話区間検出装置は、人間同士の自然な会話では手振りなどの身体動作が伴うことを利用する。本実施形態における発話区間検出装置は、マルチモーダル発話検出装置に、話者全体の身体動作を用いて発話が行われているか否かを判定する身体発話検出部を導入したものである。身体発話検出部は、複数枚の身体画像を用いて話者が動いている箇所を求め、当該箇所に着目しつつ元の身体画像を利用する深層学習モデルを用いることで、話者の身体動作から発話の有無を検出する。発話区間検出装置は、音声を用いた検出結果と口唇画像を用いた検出結果と身体画像を用いた検出結果とを統合し、その結果を出力する。
【0075】
<発話区間検出装置の機能構成>
次に、本実施形態における発話区間検出装置の機能構成について、
図6を参照しながら説明する。
図6は、本実施形態における発話区間検出装置の機能構成の一例を示すブロック図である。
【0076】
図6に示されているように、本実施形態における発話区間検出装置20は、音声入力部21、画像入力部22、口唇画像抽出部23、音声発話検出部24、身体発話検出部25、口唇発話検出部26、検出結果統合部27及びモデル記憶部29を備える。
【0077】
音声入力部21、画像入力部22、口唇画像抽出部23、音声発話検出部24、身体発話検出部25、口唇発話検出部26及び検出結果統合部27は、例えば、
図2に示されているHD504からRAM503上に展開されたプログラムがCPU501及びHDDコントローラ505に実行させる処理によって実現される。
【0078】
モデル記憶部29は、例えば、
図2に示されているHD504を用いて実現される。HD504が記憶するデータの読み込み又は書き込みは、例えば、HDDコントローラ505を介して行われる。
【0079】
音声入力部21は、話者の発話を収録した音声データの入力を受け付ける。音声入力部21は、受け付けた音声データから音声信号を抽出する。音声入力部21は、抽出した音声信号を音声発話検出部24に送る。
【0080】
画像入力部22は、発話している話者を撮影した動画データの入力を受け付ける。画像入力部22は、受け付けた動画データから身体画像の時系列を抽出する。画像入力部22は、抽出した身体画像の時系列を身体発話検出部25に送る。
【0081】
口唇画像抽出部23は、画像入力部22が受け付けた動画データから口唇画像の時系列を抽出する。口唇画像抽出部23は、抽出した口唇画像の時系列を口唇発話検出部26に送る。
【0082】
音声発話検出部24は、音声入力部21が抽出した音声信号に対して発話区間検出を行い、発話の開始時刻と終了時刻を同定する。音声発話検出部24は、発話区間の検出結果を検出結果統合部27に送る。
【0083】
身体発話検出部25は、画像入力部22が抽出した身体画像の時系列に対して発話区間検出を行い、発話の開始時刻と終了時刻を同定する。身体発話検出部25は、発話区間の検出結果を検出結果統合部27に送る。
【0084】
口唇発話検出部26は、口唇画像抽出部23が抽出した口唇画像の時系列に対して発話区間検出を行い、発話の開始時刻と終了時刻を同定する。口唇発話検出部26は、発話区間の検出結果を検出結果統合部27に送る。
【0085】
検出結果統合部27は、音声発話検出部24、身体発話検出部25及び口唇発話検出部26それぞれが出力する発話区間の検出結果を統合し、最終的な発話区間の検出結果(以下、「統合検出結果」とも呼ぶ)を出力する。
【0086】
モデル記憶部29は、発話区間検出装置20が用いる各モデルを記憶する。具体的には、モデル記憶部29は、音声発話検出部24が用いる音声発話検出モデル、身体発話検出部25が用いる身体発話検出モデル及び口唇発話検出部26が用いる口唇発話検出モデルを記憶する。モデル記憶部29が記憶する各モデルは、モデル学習装置30により学習済みのモデルである。
【0087】
<発話区間検出方法の処理手順>
続いて、本実施形態における発話区間検出装置が実行する発話区間検出方法について、
図7を参照しながら説明する。
図7は、本実施形態における発話区間検出装置20が実行する発話区間検出方法の処理手順の一例を示すフローチャートである。
【0088】
ステップS21において、音声入力部21は、話者の発話を収録した音声データの入力を受け付ける。次に、音声入力部21は、受け付けた音声データから音声信号を抽出する。続いて、音声入力部21は、抽出した音声信号を音声発話検出部24に送る。
【0089】
ステップS22において、画像入力部22は、発話している話者を撮影した動画データの入力を受け付ける。次に、画像入力部22は、受け付けた動画データから身体画像の時系列を抽出する。続いて、画像入力部22は、抽出した身体画像の時系列を身体発話検出部25に送る。
【0090】
ステップS23において、口唇画像抽出部23は、画像入力部22が受け付けた動画データから口唇画像の時系列を抽出する。次に、口唇画像抽出部23は、抽出した口唇画像の時系列を口唇発話検出部26に送る。
【0091】
一例として、口唇画像抽出部23は、機械学習に基づいて予め学習した顔検出モデルにより、顔の輪郭や目、鼻、口の特徴点を検出し、口に関する特徴点を全て含有するよう、口唇画像を切り出す。
【0092】
ステップS24において、音声発話検出部24は、音声入力部21が抽出した音声信号に対して発話区間検出を行い、発話の開始時刻と終了時刻を同定する。次に、音声発話検出部24は、発話区間の検出結果を検出結果統合部27に送る。
【0093】
一例として、音声発話検出部24は、機械学習に基づいて予め学習した、音声らしさを評価する音声発話検出モデルにより、音声信号の時間区間ごとに発話か否かを判定することで発話区間を同定し、その開始時刻と終了時刻を出力する。
【0094】
音声発話検出部24は、発話区間の開始時刻と終了時刻に加えて信頼度スコアを出力してもよい。また、音声発話検出部24は、複数の発話区間候補を出力してもよい。
【0095】
ステップS25において、身体発話検出部25は、画像入力部22が抽出した身体画像の時系列に対して発話区間検出を行い、発話の開始時刻と終了時刻を同定する。次に、身体発話検出部25は、発話区間の検出結果を検出結果統合部27に送る。
【0096】
一例として、身体発話検出部25は、機械学習に基づいて予め学習した、話者の身体動作に着目して発話しているか否かを評価する身体発話検出モデルにより、身体画像ごとに発話か否かを判定することで発話区間を同定し、その開始時刻と終了時刻を出力する。
【0097】
身体発話検出部25は、発話区間の開始時刻と終了時刻に加えて信頼度スコアを出力してもよい。また、身体発話検出部25は、複数の発話区間候補を出力してもよい。
【0098】
ステップS26において、口唇発話検出部26は、口唇画像抽出部23が抽出した口唇画像の時系列に対して発話区間検出を行い、発話の開始時刻と終了時刻を同定する。次に、口唇発話検出部26は、発話区間の検出結果を検出結果統合部27に送る。
【0099】
一例として、口唇発話検出部26は、機械学習に基づいて予め学習した、話者の口唇動作に着目して発話しているか否かを評価する口唇発話検出モデルにより、口唇画像ごとに発話か否かを判定することで発話区間を同定し、その開始時刻と終了時刻を出力する。
【0100】
口唇発話検出部26は、発話区間の開始時刻と終了時刻に加えて信頼度スコアを出力してもよい。また、口唇発話検出部26は、複数の発話区間候補を出力してもよい。
【0101】
ステップS27において、検出結果統合部27は、音声発話検出部24、身体発話検出部25及び口唇発話検出部26それぞれが出力する発話区間の検出結果を統合し、統合検出結果を出力する。
【0102】
一例として、検出結果統合部27は、音声発話検出部24、身体発話検出部25及び口唇発話検出部26それぞれから、複数の発話区間候補と信頼度スコアの組を受け取り、それらの中で最も信頼度スコアの高い発話区間候補を選択し出力する。他の一例として、検出結果統合部27は、音声発話検出部24、身体発話検出部25及び口唇発話検出部26それぞれから、複数の発話区間候補を受け取り、それらの多数決により、発話区間候補を選択し出力する。
【0103】
<第2実施形態の効果>
本実施形態における発話区間検出装置は、音声及び口唇画像に加えて、身体画像による発話区間の検出を行い、それらの検出結果を統合して出力する。例えば、話者がマスクを着用している場合には、発話の音響特性が変化し、話者の口唇を観測できない。そのため、従来のマルチモーダル発話区間検出では、検出精度が大きく低下する。本実施形態における発話区間検出装置は、そのような場合であっても身体画像に基づいて発話区間を検出することができる。したがって、本実施形態における発話区間検出装置によれば、発話区間の検出精度が向上する。
【0104】
[第3実施形態]
本発明の第3実施形態では、発話認識システム100に含まれるモデル学習装置30について説明する。
【0105】
<背景>
近年、音声認識関連技術では、多層ニューラルネットワークを用いた深層学習と呼ばれる技術を用いることが一般的になっている。深層学習を利用するためには、学習データと呼ばれる人手で整備されたデータを大量に用意する必要がある。学習データを十分に用意できない場合、既存の学習データを用いて疑似的に学習データを生成するデータ増強が行われることがある。
【0106】
マルチモーダル音声認識装置の構築には、同期した音声と口唇画像からなる学習データが必要である。しかしながら、音声認識や読唇と比べた場合、利用できる学習データの量が少ないという問題がある。一般に、学習データの量は認識精度に直結する。
【0107】
本発明の一実施形態は、音声と顔画像からマルチモーダル音声認識の学習データを大量に生成できるデータ増強装置を、マルチモーダル音声認識に組み込み、高い精度を実現することにある。
【0108】
本発明の一実施形態におけるモデル学習装置は、発話動画像を生成するデータ増強部を利用して学習データを増強し、大量の学習データを用いてマルチモーダル音声認識装置及びマルチモーダル発話区間検出装置で用いるモデルを学習する。データ増強部は、例えば、音声データと静止顔画像データから深層学習により大量の発話動画像を生成する。
【0109】
<モデル学習装置の機能構成>
次に、本実施形態におけるモデル学習装置の機能構成について、
図8を参照しながら説明する。
図8は、本実施形態におけるモデル学習装置の機能構成の一例を示すブロック図である。
【0110】
図8に示されているように、本実施形態におけるモデル学習装置30は、データ増強部31、モデル学習部32及び学習データ記憶部39を備える。
【0111】
データ増強部31及びモデル学習部32は、例えば、
図2に示されているHD504からRAM503上に展開されたプログラムがCPU501及びHDDコントローラ505に実行させる処理によって実現される。
【0112】
学習データ記憶部39は、例えば、
図2に示されているHD504を用いて実現される。HD504が記憶するデータの読み込み又は書き込みは、例えば、HDDコントローラ505を介して行われる。
【0113】
学習データ記憶部39は、予め収集した複数の学習データを記憶する。学習データは、話者の発話を収録した音声データ、及び発話している話者を撮影した動画データが含まれる。なお、音声データと動画データは、同期していてもよいし、同期していなくてもよい。
【0114】
データ増強部31は、学習データ記憶部39に記憶されている学習データに基づいて、大量の学習データを生成する。データ増強部31が生成した学習データは、学習データ記憶部39に記憶される。
【0115】
モデル学習部32は、学習データ記憶部39に記憶されている学習データに基づいて、音声認識装置10及び発話区間検出装置20が用いるモデルを学習する。また、モデル学習部32は、学習済みのモデルを音声認識装置10及び発話区間検出装置20に送信する。
【0116】
<モデル学習方法の処理手順>
続いて、本実施形態におけるモデル学習装置が実行するモデル学習方法について、
図9を参照しながら説明する。
図9は、本実施形態におけるモデル学習装置30が実行するモデル学習方法の処理手順の一例を示すフローチャートである。
【0117】
ステップS31-1において、データ増強部31は、学習データ記憶部39に記憶されている学習データに含まれる音声データに基づいて、音声データを増強する。音声データの増強は、例えば、既存の音声データに対して雑音を重畳すればよい。次に、データ増強部31は、増強した音声データを学習データ記憶部39に記憶する。
【0118】
ステップS31-2において、データ増強部31は、学習データ記憶部39に記憶されている学習データに含まれる動画データに基づいて、動画データを増強する。動画データの増強は、例えば、既存の動画データの左右反転又は回転等による画像処理を施せばよい。また例えば、音声データの発話と合致するように、別の人物が発話している口唇画像に置換することで、動画データを疑似的に生成してもよい。次に、データ増強部31は、増強した動画データを学習データ記憶部39に記憶する。
【0119】
ステップS32において、モデル学習部32は、学習データ記憶部39に記憶されている学習データに基づいて、音声認識装置10及び発話区間検出装置20が用いるモデルを学習する。次に、モデル学習部32は、学習済みのモデルを音声認識装置10及び発話区間検出装置20に送信する。
【0120】
具体的には、モデル学習部32は、学習データに含まれる音声データに基づいて、音声認識装置10が用いる音声認識モデル及び発話区間検出装置20が用いる音声発話検出モデルを学習する。また、モデル学習部32は、学習データに含まれる動画データに基づいて、読唇部17が用いる読唇モデル、身体発話検出部25が用いる身体発話検出モデル及び口唇発話検出部26が用いる口唇発話検出モデルを学習する。
【0121】
次に、モデル学習部32は、学習済みの音声認識モデル及び読唇モデルを音声認識装置10に送信する。音声認識装置10は、受信した音声認識モデル及び読唇モデルをモデル記憶部19に記憶する。また、モデル学習部32は、学習済みの音声発話検出モデル、身体発話検出モデル及び口唇発話検出モデルを発話区間検出装置20に送信する。発話区間検出装置20は、受信した音声発話検出モデル、身体発話検出モデル及び口唇発話検出モデルをモデル記憶部29に記憶する。
【0122】
<第3実施形態の効果>
本実施形態におけるモデル学習装置は、予め収集した音声データ及び動画データそれぞれを増強した大量の学習データを用いて、音声認識装置及び発話区間検出装置が用いるモデルを学習する。したがって、本実施形態におけるモデル学習装置によれば、マルチモーダル音声認識及びマルチモーダル発話区間検出の精度が向上する。
【0123】
[変形例]
一実施形態における発話認識システムは、音声認識装置10と発話区間検出装置20とが別個の装置として構成した。音声認識装置10が備えるべき機能と発話区間検出装置20が備えるべき機能とを兼ね備えた1台の音声認識装置として構成してもよい。
【0124】
変形例における音声認識装置は、音声データ及び動画データを入力とし、発話内容の認識結果を出力する。変形例における音声認識装置に入力される音声データ及び動画データは、発話区間検出装置20に入力される音声データ及び動画データと同様である。
【0125】
変形例における音声認識装置は、例えば、音声入力部21、画像入力部22、口唇画像抽出部23、音声発話検出部24、身体発話検出部25、口唇発話検出部26、検出結果統合部27、収録状況推定部14、認識制御部15、音声認識部16、読唇部17、認識結果統合部18、モデル記憶部19及びモデル記憶部29を備える。
【0126】
変形例における音声認識装置は、モデル学習装置30が備えるべき機能を兼ね備えてもよい。この場合、変形例における音声認識装置は、データ増強部31、モデル学習部32及び学習データ記憶部39をさらに備える。
【0127】
[補足]
上記各実施形態で説明した発話認識システムは、会議室又はオンラインで行われる会議における議事録自動作成システムに適用することが可能である。議事録自動作成システムでは、会議においていつどのような内容が発話されたかを記録する。一実施形態における発話区間検出装置によれば、いつ発話されたかを推定することができる。一実施形態における音声認識装置によれば、どのような内容が発話されたかを推定することができる。
【0128】
上記各実施形態で説明した発話認識システムは、スマートフォン等への音声入力インターフェースとして適用することも可能である。スマートフォンのように携帯可能な機器では、音響環境又は撮影環境が大きく変動することが多く、また、利用可能な計算リソースが限定される。本実施形態における発話認識システムによれば、どのような収録環境であっても高精度に発話区間を検出することができ、かつ、収録環境に応じて少ない計算リソースで音声認識を実行することができる。
【0129】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0130】
実施形態に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。
【0131】
ある実施形態では、音声認識装置は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。同様に、発話区間検出装置は、互いに通信するように構成された複数のコンピューティングデバイスを含むことができる。
【0132】
さらに、音声認識装置及び発話区間検出装置は、開示された処理ステップを様々な組み合わせで共有するように構成できる。例えば、所定のユニットによって実行されるプロセスは、発話区間検出装置によって実行され得る。同様に、所定のユニットの機能は、発話区間検出装置によって実行することができる。また、音声認識装置及び発話区間検出装置の各要素は、1つのサーバ装置にまとめられていてもよいし、複数の装置に分けられていてもよい。
【0133】
以上、本発明の実施の形態について詳述したが、本発明はこれらの実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形又は変更が可能である。
【符号の説明】
【0134】
10 音声認識装置
11 発話区間入力部
12 音声入力部
13 画像入力部
14 収録状況推定部
15 認識制御部
16 音声認識部
17 読唇部
18 認識結果統合部
19 モデル記憶部
20 発話区間検出装置
21 音声入力部
22 画像入力部
23 口唇画像抽出部
24 音声発話検出部
25 身体発話検出部
26 口唇発話検出部
27 検出結果統合部
29 モデル記憶部
30 モデル学習装置
31 データ増強部
32 モデル学習部
39 学習データ記憶部
100 発話認識システム
【先行技術文献】
【特許文献】
【0135】
【特許文献1】特許第6265136号公報
【特許文献2】特開2021-162685号公報