(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023117068
(43)【公開日】2023-08-23
(54)【発明の名称】音声認識装置、音声認識方法、音声認識プログラム、音声認識システム
(51)【国際特許分類】
G10L 15/25 20130101AFI20230816BHJP
G10L 15/32 20130101ALI20230816BHJP
G10L 15/22 20060101ALI20230816BHJP
G06T 7/00 20170101ALI20230816BHJP
【FI】
G10L15/25
G10L15/32 220Z
G10L15/22 460Z
G06T7/00 660A
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022019554
(22)【出願日】2022-02-10
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】後藤 悠斗
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096DA02
5L096EA03
5L096EA13
5L096FA62
5L096FA66
5L096FA69
5L096HA08
5L096HA11
5L096JA11
(57)【要約】 (修正有)
【課題】映像データに含まれる画像から特定した音源となる発話者の発話内容を表示させる音声認識装置、音声認識方法、音声認識プログラム及び音声認識システムを提供する。
【解決手段】情報処理装置と、撮像装置と、表示装置とが、ネットワーク等を介して接続されている音声認識システムにおいて、情報処理装置である情報処理端末200Aの音声認識処理部230は、映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づいて注目話者を決定する注目話者決定部247と、映像データに含まれる音声データのうち、注目話者の音声データから変換されたテキストデータを表示装置に表示させる発話内容認識結果出力部233と、を有する。
【選択図】
図5
【特許請求の範囲】
【請求項1】
映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定する注目話者決定部と、
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを表示装置に表示させる発話内容認識結果出力部と、を有する音声認識装置。
【請求項2】
前記注目話者に特定された人物の顔画像から、前記人物の口唇部分の画像を含む口唇領域を検出する口唇領域抽出部と、
前記口唇領域内の画像を示す画像データと、前記注目話者の音声データとを用いて、前記注目話者の音声データをテキストデータに変換する第一の発話認識部を有する、請求項1記載の音声認識装置。
【請求項3】
前記顔画像から前記口唇領域が検出されない場合に、
前記注目話者の音声データを用いて、前記注目話者の音声データをテキストデータに変換する第二の発話認識部を有する、請求項2記載の音声認識装置。
【請求項4】
前記表示装置は、眼鏡型表示装置であって、前記眼鏡型表示装置には、前記眼鏡型表示装置を装着した装着者の視線方向の画像を撮像する撮像装置が設けられており、
前記映像データは、前記撮像装置により取得された映像データである、請求項1乃至3の何れか一項に記載の音声認識装置。
【請求項5】
前記注目話者決定部は、
前記映像データに含まれる画像データが示す画像から、複数の顔画像が検出された場合に、前記顔画像の一部の領域の中心点と、前記映像データに含まれる画像データが示す画像の中心点との距離が最も小さい顔画像を、前記注目話者の顔画像とする、請求項1乃至4の何れか一項に記載の音声認識装置。
【請求項6】
前記音声データを発話した人物を識別するための話者埋め込み情報を算出する話者埋め込み情報算出部と、
前記映像データに含まれる画像データが示す画像から、前記注目話者の顔画像が検出されない場合に、前記音声データの発話者を、前記音声データから算出した話者埋め込み情報に基づき推定する画面外話者推定部と、を有する、請求項1乃至5の何れか一項に記載の音声認識装置。
【請求項7】
前記画面外話者推定部は、
前記映像データに含まれる画像データが示す画像から、前記注目話者の顔画像が検出されない状態が継続している期間が所定の設定時間未満であり、且つ、前記注目話者の顔画像が検出されない状態において取得した音声データから算出された話者埋め込み情報と、前記注目話者の話者埋め込み情報と、が一致している場合に、前記音声データを前記注目話者の音声データと判定する、請求項6記載の音声認識装置。
【請求項8】
前記画面外話者推定部は、
前記映像データに含まれる画像データが示す画像から、前記注目話者の顔画像が検出されない状態が、前記所定の設定時間以上継続した場合に、前記注目話者の決定を解除する、請求項7記載の音声認識装置。
【請求項9】
情報処理装置と、前記情報処理装置と通信が可能な撮像装置と、前記情報処理装置と通信が可能な表示装置と、を有する音声認識システムであって、
前記情報処理装置は、
前記撮像装置によって取得された映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定する注目話者決定部と、
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを前記表示装置に表示させる発話内容認識結果出力部と、を有する、音声認識システム。
【請求項10】
コンピュータによる音声認識方法であって、前記コンピュータが、
映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定し、
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを表示装置に表示させる、音声認識方法。
【請求項11】
映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定し、
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを表示装置に表示させる、処理をコンピュータに実行させる、音声認識プログラム。
【請求項12】
情報処理端末と、前記情報処理端末と接続された撮像装置と、前記情報処理端末と接続された表示装置と、を有するスマートグラスであって、
前記情報処理端末は、
前記撮像装置によって取得された映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定する注目話者決定部と、
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを前記表示装置に表示させる発話内容認識結果出力部と、を有する、スマートグラス。
【請求項13】
情報処理端末と、前記情報処理端末と接続された撮像装置と、前記情報処理端末と接続された表示装置と、を有するスマートグラスと、前記スマートグラスと通信が可能な翻訳装置と、を含む翻訳システムであって
前記スマートグラスの有する前記情報処理端末は、
前記撮像装置によって取得された映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定する注目話者決定部と、
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換された第一の言語のテキストデータを前記翻訳装置に出力する発話内容認識結果出力部と、を有し、
前記翻訳装置において、前記第一の言語のテキストデータから翻訳された第二の言語のテキストデータを、前記表示装置に表示させる、翻訳システム。
【請求項14】
情報処理端末と、前記情報処理端末と接続された撮像装置と、前記情報処理端末と接続された表示装置と、を有するスマートグラスと、前記スマートグラスと通信が可能な発話内容記録装置と、を含む発話内容記録システムであって
前記スマートグラスの有する前記情報処理端末は、
前記撮像装置によって取得された映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定する注目話者決定部と、
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを前記表示装置に表示させ、且つ、前記テキストデータを前記発話内容記録装置に出力する発話内容認識結果出力部と、を有し、
前記発話内容記録装置は、
前記情報処理端末から出力された前記テキストデータを格納する記憶部を有する、発話内容記録システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置、音声認識方法、音声認識プログラム、音声認識システムに関する。
【背景技術】
【0002】
近年では、画像から音源となる発話者を特定し、特定した発話者が発している音声を文字画像に変換して表示部に表示させる技術が知られている。具体的には、例えば、画像において特定された人物が口を動かしている場合に、この人物の音声を文字に変換して表示させるシステムが知られている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
上述した従来の技術では、画像の中に、口を動かしている人物が複数存在する場合等には、注目すべき発話者を選択することができない。このため、従来の技術では、特定の人物に注目した場合に、注目した人物の発話内容が適切に表示されない可能性がある。
【0004】
開示の技術は、上記事情に鑑みたものであり、特定の発話者の発話内容を表示させることを目的とする。
【課題を解決するための手段】
【0005】
開示の技術は、映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定する注目話者決定部と、前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを表示装置に表示させる発話内容認識結果出力部と、を有する音声認識装置である。
【発明の効果】
【0006】
特定の発話者の発話内容を表示させることができる。
【図面の簡単な説明】
【0007】
【
図1】第一の実施形態の音声認識システムの一例を示す図である。
【
図2】第一の実施形態の音声認識の概要について説明する第一の図である。
【
図3】音声認識システムをスマートグラスに適用した場合について説明する図である。
【
図4】第一の実施形態の音声認識の概要について説明する第二の図である。
【
図5】スマートグラスの機能について説明する図である。
【
図6】第一の実施形態のスマートグラスの動作を説明する第一のフローチャートである。
【
図7】第一の実施形態のスマートグラスの動作を説明する第二のフローチャートである。
【
図8】第一の実施形態における注目話者の決定について説明する図である。
【
図9】第一の実施形態のスマートグラスの動作を説明する第三のフローチャートである。
【
図10】スマートグラスの動作の事例を説明する第一の図である。
【
図11】スマートグラスの動作の事例を説明する第二の図である。
【
図12】スマートグラスの動作の事例を説明する第三の図である。
【
図13】スマートグラスの動作の事例を説明する第四の図である。
【
図14】スマートグラスの動作の事例を説明する第五の図である。
【
図15】スマートグラスの動作の事例を説明する第六の図である。
【
図16】スマートグラスの動作の事例を説明する第七の図である。
【
図17】第一の実施形態の発話内容の認識について説明する図である。
【
図18】第二の実施形態の翻訳システムの一例を示す図である。
【
図19】第三の実施形態の発話内容記録システムの一例を示す図である。
【発明を実施するための形態】
【0008】
(第一の実施形態)
以下に図面を参照して、第一の実施形態について説明する。
図1は、第一の実施形態の音声認識システムの一例を示す図である。
【0009】
本実施形態の音声認識システム100は、情報処理装置200と、撮像装置300と、表示装置400とを含み、情報処理装置200と撮像装置300と表示装置400とは、ネットワーク等を介して接続されている。
【0010】
本実施形態の音声認識システム100において、情報処理装置200は、音声認識処理部230を有する。
【0011】
本実施形態の撮像装置300は、映像データを取得し、情報処理装置200へ送信する。映像データは、画像データ(動画データ)と音声データとを含む。
【0012】
本実施形態では、映像データは、音声認識システム100の利用者が、撮像装置300を用いて撮影し、情報処理装置200に送信したものであってよい。したがって、映像データに含まれる画像データには、利用者自身が注目する発話者が含まれる。
【0013】
本実施形態の情報処理装置200は、音声認識処理部230により、撮像装置300から取得した映像データに含まれる画像データに基づき、音声認識システム100の利用者が注目する発話者を特定する。そして、情報処理装置200は、音声認識処理部230により、利用者が注目した発話者の音声データのみを、テキストデータに変換して表示装置400に表示させる。なお、表示装置400は、例えば、情報処理装置200の有するディスプレイ等であってもよい。
【0014】
このように、本実施形態では、画像データから、利用者が注目した発話者を特定し、特定された発話者の音声データのみをテキストデータに変換して出力する。したがって、本実施形態によれば、利用者が注目した特定の発話者の発話内容を表示させることができる。
【0015】
以下に、
図2を参照して、本実施形態の情報処理装置200による音声認識の概要について説明する。
図2は、第一の実施形態の音声認識の概要について説明する第一の図である。
【0016】
図2に示す画像21は、撮像装置300により取得された画像データが示す画像の一例である。
【0017】
画像21には、人物Aの画像と、人物Bの画像とが含まれる。本実施形態の情報処理装置200は、画像21に含まれる人物の画像のうち、顔画像の位置が画像21の中心に近い位置にある人物の画像を、注目すべき人物に特定する。
【0018】
図2の例では、人物Aの顔画像は、人物Bの顔画像よりも、画像21の中心に近い。したがって、
図2では、人物Aが注目すべき発話者に特定される。
【0019】
なお、画像の中心とは、画像が示す矩形の対角線が交わる位置であってよい。また、以下の説明では、注目すべき発話者を、注目話者と表現する場合がある。注目すべき発話者とは、言い換えれば、音声認識システム100の利用者が注目している特定の発話者である。
【0020】
本実施形態では、人物Aが注目話者に特定されると、人物Aの口唇部分の動きを示す動画像と、撮像装置300が取得した音声データとかを用いて、注目話者である人物Aの音声データをテキストデータ23に変換して、表示させる。したがって、本実施形態によれば、注目話者の発話内容を高い精度でテキストデータに変換することができる。
【0021】
なお、このとき、本実施形態では、画像21と、テキストデータ23とが重畳されて表示されてもよい。
【0022】
次に、
図3を参照して、本実施形態の音声認識システム100を、スマートグラスに適用した場合について説明する。
【0023】
図3は、音声認識システムをスマートグラスに適用した場合について説明する図である。
図3では、音声認識システム100をスマートグラス100Aとして説明する。
【0024】
図3のスマートグラスのハードウェア構成の一例を示す図である。本実施形態のスマートグラス100Aは、眼鏡型表示装置300Aと、情報処理端末200Aと、ケーブル150とを含む眼鏡型ウェアラブル端末である。なお、
図3の例では、眼鏡型表示装置300Aと、情報処理端末200Aとがケーブル150によって接続されるものとしたが、これに限定されない。眼鏡型表示装置300Aと、情報処理端末200Aとは、無線通信を行ってもよい。
【0025】
眼鏡型表示装置300Aは、カメラ(撮像装置)110、マイク(集音装置)120、ディスプレイ(表示装置)130、操作部材140と、を含む。つまり、眼鏡型表示装置300Aは、撮像装置と表示装置とを含む。
【0026】
カメラ110は、スマートグラス100Aを装着した装着者の視線方向の画像データを取得する。マイク120は、スマートグラス100Aの周辺の音声データを取得する。ディスプレイ130は、情報処理端末200Aから出力されるテキストデータが表示される。なお、本実施形態のディスプレイ130は、光学シースルー型のディスプレイであってよい。操作部材140は、物理的なボタン等であってよく、眼鏡型表示装置300Aに対する各種の操作が行われる。
【0027】
また、本実施形態では、カメラ110とマイク120とが別々に設けられるものとしたが、これに限定されない。本実施形態のマイク120は、カメラ110に内蔵されていてもよい。この場合、カメラ110が、画像データと音声データとを含む映像データを取得することになる。
【0028】
ケーブル150は、カメラ110が取得した画像データと、マイク120が取得した音声データと、を情報処理端末200Aに送信する。また、ケーブル150は、情報処理端末200Aから眼鏡型表示装置300Aに対して各種の情報を送信する。
【0029】
情報処理端末200Aは、情報入出力インターフェイス(I/F)201、メモリ202、操作装置203、ストレージ204、電源205、CPU(Central Processing Unit)206、ネットワークインターフェイス(I/F)207を含む。
【0030】
情報入出力インターフェイス(I/F)201は、情報処理端末200Aと眼鏡型表示装置300Aとの間で各種データの送受信を行うためのインターフェイスである。メモリ202は、音声データや画像データ(動画データ)等の一時的な情報が格納される。操作装置203は、スマートグラス100Aの装着者によるアプリケーションの実行、電源のオン/オフ等の各種の操作が行われる。操作装置203は、例えば、タッチパネル等により実現されてよい。
【0031】
ストレージ204は、後述する各種のモデル等が格納される。電源205は、スマートグラス100Aの有する各装置に電力を供給する。CPU206は、各種の処理を実行し、スマートグラス100A全体の動作を制御する。
【0032】
情報処理端末200Aは、CPU206がストレージ204等に格納されたプログラムを読み出して実行することで、音声認識処理部230の機能を実現する。
【0033】
ネットワークインターフェイス207は、通信ネットワークにアクセスするためのインターフェイスである。
【0034】
なお、
図3に示すスマートグラス100Aは、眼鏡型表示装置300Aと情報処理端末200Aとを含むものとしたが、これに限定されない。スマートグラス100Aにおいて、眼鏡型表示装置300Aが、情報処理端末200Aの全ての構成を有していてもよい。
【0035】
次に、
図4を参照して、スマートグラス100Aによる音声認識の概要について説明する。
図4は、第一の実施形態の音声認識の概要について説明する第二の図である。
【0036】
本実施形態のスマートグラス100Aにおいて、情報処理端末200Aは、カメラ110から取得した画像データに基づき、注目話者を特定する。そして、情報処理端末200Aは、マイク120から取得した注目話者の音声データから変換したテキストデータをディスプレイ130に表示させる。
【0037】
図4の例では、スマートグラス100Aの装着者Pは、人物Aに注目している。また、
図4の例では、装着者Pの視線方向に人物Aと人物Bが存在する。この場合、スマートグラス100Aのカメラ110が撮像する画像は、装着者Pが注目する人物Aの画像が中心部分に位置する画像となる。
【0038】
したがって、スマートグラス100Aでは、人物Aを注目話者に特定し、注目話者の音声データのみをテキストデータに変換して、ディスプレイ130にテキストデータのみを表示させる。
【0039】
本実施形態では、このように、音声認識システム100をスマートグラス100Aに適用することで、スマートグラス100Aの装着者Pが注目する人物の方向を向くだけで、装着者Pが注目する人物が注目話者に特定される。
【0040】
また、本実施形態では、スマートグラス100Aのディスプレイ130を光学シースルー型としている。このため、本実施形態では、装着者Pの視界を妨げずに、テキストデータ23を装着者Pに視認させることができる。
【0041】
なお、ディスプレイ130は、光学シースルー型でなくてもよく、カメラ110が取得した画像データが示す画像と、テキストデータ23とが重畳されて表示されてもよい。
【0042】
また、スマートグラス100Aは、例えば、網膜走査型の眼鏡型投影装置であってよい。この場合には、ディスプレイ130が不要であり、装着者Pの網膜に、光学系により直接テキストデータ23を投影させればよい。
【0043】
次に、
図5を参照して、本実施形態のスマートグラス100Aの機能について説明する。
図5は、スマートグラスの機能について説明する図である。具体的には、
図5は、スマートグラス100Aの有する情報処理端末200Aの機能を示す。
【0044】
本実施形態の情報処理端末200Aは、音声認識処理部230を有する。音声認識処理部230は、映像入力部231、音声入力部232、注目話者特定部240、口唇特徴量取得部250、音響特徴量取得部260、人物識別部270、マルチモーダル認識部280(第一の発話認識部)、音声認識部290(第二の発話認識部)、発話内容認識結果出力部233を含む。
【0045】
映像入力部231は、カメラ110が撮像した画像データ(動画データ)を取得する。音声入力部232は、マイク120により集音された音声データを取得する。このとき、音声入力部232は、音声データを、所定の条件でサンプリングしたモノラルの非圧縮データとして取得してもよい。
【0046】
発話内容認識結果出力部233は、マルチモーダル認識部280による発話内容の認識結果であるテキストデータや、音声認識部290による発話内容の認識結果であるテキストデータを、ディスプレイ130に表示させる。
【0047】
注目話者特定部240は、映像入力部231が取得した動画データから、注目話者を特定する。注目話者特定部240は、画像変換部241、顔領域認識部242、顔領域検出モデル243、顔位置判定部244、口唇領域抽出部245、顔特徴点推定モデル246、注目話者決定部247を有する。
【0048】
画像変換部241は、動画データを時系列のフレーム画像に変換する。なお、画像変換部241は、処理の高速化のため、RGBの画像データをグレースケールの画像データに変換してもよいし、画素数を変換してもよい。
【0049】
顔領域認識部242は、顔領域検出モデル243を用いて、取得した時系列のフレーム画像において、顔画像を含む領域(顔領域)を認識する。顔領域検出モデル243は、画像から顔画像を検出するモデルであり、予め大量のデータを使用してニューラルネットワークを学習させたモデルである。なお、ここで検出された顔画像は、注目話者の候補となる人物の顔画像である。
【0050】
顔位置判定部244は、カメラ110が取得した画像データが示す画像における顔領域の位置を判定し、顔領域の位置を示す情報を取得する。
【0051】
口唇領域抽出部245は、顔特徴点推定モデル246を用いて、顔画像のうち、口唇部分の画像を含む口唇領域を検出し、顔領域内の顔画像から、口唇領域内の画像を抽出する。
【0052】
顔特徴点推定モデル246は、顔画像から、目や鼻、口唇の輪郭の座標を取得し、口唇周辺の座標を検出するモデルである。
【0053】
なお、本実施形態では、口唇領域抽出部245は、口唇領域の画像を抽出するものとしたが、これに限定されない。口唇領域抽出部245は、例えば、顔画像において、口唇部分の画像が、人物の手などによって隠されていた場合には、目や鼻等の顔のパーツと対応した領域の画像を抽出してもよい。目や鼻等の顔のパーツと対応した領域は、顔特徴点推定モデル246によって検出されてよい。
【0054】
注目話者決定部247は、画像における人物の顔領域の位置、及び、口唇領域内の画像(動画)が示す口の動きに基づき、注目話者を決定する。注目話者特定部240の処理の詳細は後述する。
【0055】
本実施形態の口唇特徴量取得部250は、カメラ110が取得した画像における、口唇領域内の画像から、口の動きを示す口唇特徴量を取得する。
【0056】
口唇特徴量取得部250は、口唇画素数変換部251、口唇特徴量算出部252、口唇特徴量算出モデル253を有する。
【0057】
口唇画素数変換部251は、抽出された口唇領域内の画像を、所定の大きさの画像に変換する。言い換えれば、口唇画素数変換部251は、カメラ110と、撮影された人物との距離によって大きさが異なる口唇領域内の画像を、一律の大きさの画像となるように、拡大、または縮小する。
【0058】
口唇特徴量算出部252は、口唇特徴量算出モデル253を用いて、口唇特徴量を算出する。具体的には、口唇特徴量算出部252は、大きさが変更された時系列の口唇領域内の画像を示す動画データを、口唇特徴量算出モデル253に入力し、発話内容の認識を行う際に効果的な口唇特徴量を算出する。唇特徴量とは、口唇領域内の動画データを口唇特徴量算出モデル253に入力して、口唇特徴量算出モデル253から出力される多次元のベクトルである。
【0059】
音響特徴量取得部260は、音声入力部232が取得した音声データから、人物による発話が行われている区間である発話区間を検出し、発話区間の音声データの音響特徴量を取得する。
【0060】
音響特徴量取得部260は、音声発話区間検出部261、音声発話区間検出モデル262、音響特徴量算出部263を有する。
【0061】
音声発話区間検出部261は、音声発話区間検出モデル262を用いて、入力された音声データから、発話区間を検出する。
【0062】
音響特徴量算出部263は、発話区間として検出された区間の音声波形から、音響特徴量を算出する。音響特徴量は、例えば、メル周波数ケプストラム係数(MFCC)や、対数メルフィルタバンク特徴量(FBANK)や対数メルフィルタ等であってよい。
【0063】
人物識別部270は、音響特徴量から、発話した人物を識別するための情報を取得する。人物識別部270は、話者埋め込み情報算出部271、話者埋め込み情報算出モデル272、画面外話者推定部273を有する。
【0064】
話者埋め込み情報算出部271は、話者埋め込み情報算出モデル272を用いて、発話者の声質をあらわす話者埋め込み情報(エンべディング)を算出する。話者埋め込み情報とは、発話者を特定するための情報であり、例えば、i-vectorやd-vector、x-vector等の方式によって抽出された一定次元数の特徴量であってよい。
【0065】
画面外話者推定部273は、スマートグラス100Aの装着者Pの顔の向きが変化し、注目話者の画像がカメラ110が取得した画像に含まれなくなった場合に、話者埋め込み情報を用いて発話者を推定する。画面外話者推定部273の処理の詳細は後述する。
【0066】
マルチモーダル認識部280は、口唇特徴量と音響特徴量とを用いて、注目話者の発話内容を認識する。マルチモーダル認識部280は、特徴量統合部281、マルチモーダル発話内容認識部282、マルチモーダル発話内容認識モデル283を有する。
【0067】
特徴量統合部281は、音響特徴量取得部260により取得された音響特徴量と、口唇特徴量取得部250により取得された口唇特徴量とを統合し、マルチモーダル特徴量とする。マルチモーダル特徴量とは、複数種類の特徴量を含む特徴量である。より具体的には、マルチモーダル特徴量とは、音響特徴量と口唇特徴量とを含む。
【0068】
マルチモーダル発話内容認識部282は、マルチモーダル発話内容認識モデル283を用いて、発話内容を認識する。より具体的には、本実施形態のマルチモーダル発話内容認識部282は、音声データから抽出された音響特徴量と、動画データから抽出された口唇特徴量とを用いて発話内容の認識を行う。
【0069】
音声認識部290は、音声入力部232が取得した音声データから、音響特徴量取得部260が取得した音響特徴量に基づき、発話内容を認識する。音声認識部290は、音声発話内容認識部291、音声発話内容認識モデル292を有する。
【0070】
音声発話内容認識部291は、注目話者とされた人物の口唇特徴量が取得されなかった場合に、音響特徴量を用いた発話内容の認識を行う。具体的には、音声発話内容認識部291は、音声発話内容認識モデル292を用いて、音声データに基づく発話内容の認識を行い、認識結果を発話内容認識結果出力部233に渡す。
【0071】
なお、本実施形態では、口唇領域抽出部245により抽出された画像が、口以外の顔のパーツの画像と対応した領域である場合には、口唇特徴量が算出されなかったものとしてもよい。
【0072】
なお、本実施形態において、顔領域検出モデル243、顔特徴点推定モデル246、音声発話区間検出モデル262、話者埋め込み情報算出モデル272は、公知技術を用いたモデルであってよい。
【0073】
次に、
図6を参照して、本実施形態のスマートグラス100Aの動作について説明する。
図6は、第一の実施形態のスマートグラスの動作を説明する第一のフローチャートである。
【0074】
図6の処理は、例えば、スマートグラス100Aの装着者Pにより、注目話者の発話内容の認識処理の開始を指示する操作が行われた場合に、実行される。
【0075】
本実施形態のスマートグラス100Aにおいて、情報処理端末200Aは、映像入力部231と音声入力部232とにより、画像データ(動画データ)と音声データとを取得する(ステップS601)。
【0076】
続いて、情報処理端末200Aは、音声発話区間検出部261により、発話区間を検出する処理を行う(ステップS602)。
【0077】
ステップS602において、発話区間が検出されない場合、情報処理端末200Aは、ステップS601へ戻る。
【0078】
ステップS602において、発話区間が検出されると、情報処理端末200Aは、ステップS605からステップS607までの処理を、顔画像が検出された人数分、繰り返す(ステップS604)。
【0079】
情報処理端末200Aは、顔領域認識部242により、映像入力部231が取得した画像データが示す画像において、顔画像が含まれる顔領域を検出する(ステップS605)。
【0080】
続いて、情報処理端末200Aは、口唇領域抽出部245により、顔領域の中から、口唇領域を検出する(ステップS606)。なお、口唇領域抽出部245は、顔領域において、口唇領域が検出されなかった場合には、口以外の顔のパーツ(目や鼻等)の画像と対応した領域を検出すればよい。つまり、口唇領域抽出部245は、顔領域から、顔の一部の画像と対応した領域を検出すればよい。
【0081】
また、本実施形態において、口唇領域を検出することとは、顔領域内の顔画像から、口唇領域内の口唇画像を抽出することと同義であってよい。
【0082】
続いて、情報処理端末200Aは、注目話者決定部247により、注目話者を選定する(ステップS607)。ステップS607の処理の詳細は後述する。
【0083】
情報処理端末200Aは、ステップS605からステップS607までの処理を人数分繰り返す(ステップS608)。本実施形態では、この処理を繰り返すことで、注目話者が決定される。
【0084】
続いて、情報処理端末200Aは、音響特徴量取得部260により、注目話者に特定された人物の音声データから、音響特徴量を算出する(ステップS609)。
【0085】
続いて、情報処理端末200Aは、話者埋め込み情報算出部271により、注目話者の話者埋め込み情報を算出する(ステップS610)。なお、話者埋め込み情報算出部271は、注目話者が決定された後は、注目話者の話者埋め込み情報を保持していてもよい。また、話者埋め込み情報算出部271は、注目話者が注目話者でなくなったときに、保持していた話者埋め込み情報を消去してもよい。
【0086】
続いて、情報処理端末200Aは、口唇特徴量取得部250により、口唇領域が検出されているか否かを判定する(ステップS611)。言い換えれば、情報処理端末200Aは、口唇領域抽出部245により抽出された画像が、口唇領域内の画像であるか否かを判定する。
【0087】
ステップS611において、口唇領域が検出されていない場合、情報処理端末200Aは、音声認識部290により、音声データによる発話内容の認識を行い(ステップS612)、後述するステップS615へ進む。
【0088】
ステップS611において、口唇領域が検出された場合、情報処理端末200Aは、口唇特徴量取得部250により、口唇領域内の画像から口唇特徴量を算出する(ステップS613)。
【0089】
続いて、情報処理端末200Aは、マルチモーダル認識部280により、ステップS609で算出した音響特徴量と、ステップS613で算出した口唇特徴量とを用いて、発話内容の認識を行う(ステップS614)。
【0090】
続いて、情報処理端末200Aは、発話内容認識結果出力部233により、認識結果のテキストデータを出力し(ステップS615)、処理を終了する。言い換えれば、発話内容認識結果出力部233は、認識結果のテキストデータをディスプレイ130に表示させて、処理を終了する。
【0091】
このように、本実施形態では、注目話者とされた人物の音声データのみを、発話内容の認識を行う音声データとする。
【0092】
次に、
図7を参照して、本実施形態の注目話者決定部247の処理について説明する。は、
図7は、第一の実施形態のスマートグラスの動作を説明する第二のフローチャートである。
図7では、
図6のステップS607の処理の詳細を示している。
【0093】
本実施形態の情報処理端末200Aにおいて、注目話者決定部247は、ステップS605において、複数の顔領域が検出されたか否かを判定する(ステップS701)。
【0094】
ステップS701において、複数の顔領域が検出されない場合、つまり、検出された顔領域が1つであった場合、注目話者決定部247は、後述するステップS704へ進む。
【0095】
ステップS701において、複数の領域が検出された場合、注目話者決定部247は、1の顔画像における口唇領域の中心のx座標と、映像入力部231が取得した画像データが示す画像の中心点のx座標との間の距離を算出する(ステップS702)。
【0096】
なお、口唇領域抽出部245により、口唇領域の代わりに、顔の一部の画像と対応する領域が抽出されている場合は、この領域の中心点のx座標を、口唇領域の中心のx座標の代わりに用いれば良い。
【0097】
続いて、注目話者決定部247は、算出した距離が、複数の顔領域について算出した距離のうち、最小であるか否かを判定する(ステップS703)。言い換えれば、注目話者決定部247は、算出した距離が前回算出した距離よりも小さいか否かを判定している。つまり、ここでは、カメラ110が撮像した画像の中心に最も近い人物を検出している。
【0098】
ステップS703において、距離が最小でない場合、注目話者決定部247は、この顔領域と対応する人物は、注目話者に該当しないものとし(ステップS705)、処理を終了する。
【0099】
ステップS703において、距離が最小であった場合、注目話者決定部247は、口唇領域抽出部245により抽出された領域内の画像から、口唇が動いているか否かを判定する(ステップS704)。つまり、ここでは、注目話者決定部247は、顔領域と対応する人物が、発話をしているか否かを判定している。
【0100】
ステップS704において、口唇が動いていない場合、注目話者決定部247は、ステップS705へ進む。口唇が動いていない場合とは、発話していないことを示す。
【0101】
ステップS704において、口唇が動いている場合、注目話者決定部247は、この顔領域を注目話者の顔領域に選定し(ステップS706)、処理を終了する。
【0102】
以下に、
図8を参照して、注目話者決定部247により注目話者の決定について、さらに説明する。
図8は、第一の実施形態における注目話者の決定について説明する図である。
【0103】
図8に示す画像81は、映像入力部231が取得した画像データが示す画像である。また、画像81における点oは、画像81の中心点であり、中心点の座標は、(x1,y1)である。なお、本実施形態の中心点oの座標は、例えば、画像81の左上の頂点を原点としたときの座標であってよい。
【0104】
図8では、
図6のステップS605において、人物Aの顔領域と、人物Bの顔領域とが検出された場合を示している。この場合、情報処理端末200Aは、
図6のステップS606において、各顔領域から口唇領域を検出する。
図8の例では、人物Aの顔領域から口唇領域Raが抽出され、人物Bの顔領域から口唇領域Rbが抽出されている。
【0105】
ここで、注目話者決定部247は、例えば、始めに人物Bの顔領域を選択し、口唇領域Rbの中心点のx座標と、中心点oのx座標との距離Lbを算出する。このとき、距離Lbは、最小であるため、人物Bの口唇が動いている場合には、人物Bを注目話者に選定する。
【0106】
次に、注目話者決定部247は、人物Aの顔領域を選択し、口唇領域Raの中心点のx座標と、中心点oのx座標との距離Laを算出する。このとき、距離Laは、距離Lbよりも小さい。したがって、注目話者決定部247は、人物Bを注目話者から除外し、人物Aの口唇が動いている場合には、人物Aを注目話者に決定する。
【0107】
このように、本実施形態では、カメラ110が撮像した画像の中心と最も近い位置に顔画像が検出された人物を、注目話者に特定する。カメラ110が撮像した画像の中心とは、言い換えれば、スマートグラス100Aの装着者の視線方向である。つまり、本実施形態では、スマートグラス100Aの装着者の視線方向に最も近い人物を、注目話者に決定する。そして、本実施形態では、注目話者による発話のみをテキストデータに変換する。
【0108】
したがって、本実施形態によれば、カメラ110による撮像された画像に複数の人物が含まれている場合であっても、スマートグラス100Aの利用者が注目している人物を特定し、特定された人物の発話内容のみをディスプレイ130に表示させることができる。言い換えれば、音声認識システム100の利用者が注目した特定の発話者の発話内容を、利用者の視界を妨げることなく、適切に表示させることができる。
【0109】
また、本実施形態では、注目話者の発話内容のみをディスプレイ130に表示させるため、ディスプレイ130に表示される情報の情報量が過剰になることを抑制できる。
【0110】
また、本実施形態では、注目話者の口唇特徴量と音響特徴量との両方を用いて発話内容の認識を行うため、発話内容の認識の精度を向上させることができる。
【0111】
さらに、本実施形態では、口唇領域が抽出されない場合には、顔の一部の画像と対応する領域を代用するため、顔領域から口唇領域が抽出されない場合であっても、注目話者を特定することができる。
【0112】
次に、
図9を参照して、注目話者が決定された後のスマートグラス100Aの動作について説明する。
図9は、第一の実施形態のスマートグラスの動作を説明する第三のフローチャートである。
図9に示す処理は、
図6の処理により、注目話者が決定された後に、定期的に実行される処理である。
【0113】
本実施形態のスマートグラス100Aにおいて、情報処理端末200Aは、音声発話区間検出部261により、発話区間を検出する処理を行う(ステップS901)。続いて、情報処理端末200Aは、音響特徴量算出部263により、発話区間において取得された音声データから、音響特徴量を算出する(ステップS902)。
【0114】
続いて、情報処理端末200Aは、話者埋め込み情報算出部271により、発話区間に発話した人物の話者埋め込み情報を算出する(ステップS903)。
【0115】
続いて、情報処理端末200Aは、画面外話者推定部273により、現在の注目話者の画像が、映像入力部231により取得された画像データが示す画像に含まれるか否かを判定する(ステップS904)。つまり、ここでは、注目話者が、装着者の視線方向に留まっているか否かを判定している。
【0116】
なお、このとき、画面外話者推定部273は、例えば、映像入力部231により取得された画像データが示す画像に対して顔認識処理を行い、注目話者の顔画像が含まれるか否かを判定してもよい。
【0117】
ステップS904において、注目話者の画像が含まれない場合、情報処理端末200Aは、後述するステップS909へ進む。
【0118】
注目話者の画像が含まれない場合とは、注目話者が移動したり、装着者が頭の向きを変えることにより、注目話者がスマートグラス100Aの装着者の視界から消える、又は、視界の隅へ移動することを示す。
【0119】
ステップS904において、注目話者の画像が含まれる場合、情報処理端末200Aは、口唇領域抽出部245により、注目話者の口唇領域が検出されたか否かを判定する(ステップS905)。ステップS905において、口唇領域が検出されない場合、情報処理端末200Aは、後述するステップS911へ進む。
【0120】
ステップS905において、口唇領域が検出された場合、情報処理端末200Aは、口唇特徴量取得部250により、口唇領域から抽出された画像から、口唇特徴量を算出し(ステップS906)、ステップS907へ進む。
【0121】
図9のステップS907とステップS908の処理は、
図6のステップS614とステップS615の処理と同様であるから、説明を省略する。
【0122】
ステップS904において、注目話者が画像に含まれない場合、情報処理端末200Aは、人物識別部270の画面外話者推定部273により、注目話者が画像に含まれなくなってから、10秒未満であるか否かを判定する(ステップS909)。なお、10秒は、予め設定される設定時間の一例であり、これに限定されるものではない。
【0123】
ステップS909において、10秒未満である場合、画面外話者推定部273は、ステップS903で算出した話者埋め込み情報が、注目話者の話者埋め込み情報と一致するか否かを判定する(ステップS910)。注目話者の話者埋め込み情報とは、
図6のステップS610で算出される話者埋め込み情報である。
【0124】
ここで、画面外話者推定部273は、例えば、2つの話者埋め込み情報のコサイン類似度等を算出し、算出した値が所定の閾値以上である場合に、両者が一致するものとしてもよい。
【0125】
ステップS910において、両者が一致している場合、情報処理端末200Aは、音声認識部290により、ステップS902で算出された音響特徴量を用いた音声発話認識を行い(ステップS911)、ステップS908へ進む。
【0126】
ステップS910において、両者が一致していない場合、情報処理端末200Aは、後述するステップS912に進む。
【0127】
ステップS909において、10秒未満でない場合、つまり、注目話者がスマートグラス100Aの装着者の視線方向から外れてから10秒以上が経過した場合、情報処理端末200Aは、注目話者の決定を解除し(ステップS912)、処理を終了する。
【0128】
言い換えれば、本実施形態では、映像入力部231により取得された画像データが示す画像から、注目話者の顔画像が検出されない状態が設定時間以上継続した場合に、注目話者の決定を解除する。
【0129】
注目話者の決定を解除することとは、言い換えれば、注目話者が決定された状態から、注目話者が選択されていない初期状態に戻ることを示す。
【0130】
本実施形態では、このように、注目話者がスマートグラス100Aの装着者の視線方向から一時的に外れた場合であっても、音声から注目話者の発話であるか否かを判定し、発話内容の認識結果をディスプレイ130に表示させることができる。
【0131】
以下に、
図10乃至
図17を参照し、スマートグラス100Aの動作の事例について説明する。
【0132】
図10は、スマートグラスの動作の事例を説明する第一の図である。
図10では、人物Aがスマートグラス100Aの装着者Pの視線方向に位置しており、カメラ110が撮像した画像において人物Aのみの顔領域が検出される状態を示す。
【0133】
この場合、スマートグラス100Aは、カメラ110が撮像した画像から1つの顔領域を検出し、この顔領域と対応する人物Aを注目話者に特定する。そして、スマートグラス100Aは、口唇領域22を検出し、音響特徴量と口唇特徴量とを用いたマルチモーダル発話認識処理を行い、認識結果のテキストデータ23をディスプレイ130に表示させる。
【0134】
図11は、スマートグラスの動作の事例を説明する第二の図である。
図11では、注目話者とされた人物Aがスマートグラス100Aの装着者Pの視線方向から外れてから、所定の設定時間内(例えば10秒)である状態を示す。
【0135】
この場合、スマートグラス100Aは、人物Aの音声データのみで、人物Aを注目話者と判定し、音声データから算出した音響特徴量を用いた音声認識処理を行い、認識結果のテキストデータ23aをディスプレイ130に表示させる。
【0136】
図12は、スマートグラスの動作の事例を説明する第三の図である。
図12では、注目話者とされた人物Aがスマートグラス100Aの装着者Pの視線方向から外れてから所定の設定時間以上が経過した状態を示す。
【0137】
この場合、スマートグラス100Aは、人物Aに対する注目話者の決定を解除し、注目話者が決定されていない初期状態に戻る。したがって、ディスプレイ130には何も表示されない。
【0138】
図13は、スマートグラスの動作の事例を説明する第四の図である。
図13では、人物Aがスマートグラス100Aの装着者Pの視線方向に位置しており、カメラ110が撮像した画像において人物Aのみの顔領域が検出され、且つ、人物Aの口唇領域が検出されない状態を示す。
【0139】
この場合、スマートグラス100Aは、カメラ110が撮像した画像から1つの顔領域を検出し、この顔領域と対応する人物Aを注目話者に特定する。また、スマートグラス100Aは、人物Aの口唇領域が検出されないため、音声データから算出した音響特徴量を用いた音声認識処理を行い、認識結果のテキストデータ23aをディスプレイ130に表示させる。
【0140】
図14は、スマートグラスの動作の事例を説明する第五の図である。
図14では、カメラ110が撮像した画像において人物Aと人物Bの顔領域が検出された状態を示す。
【0141】
この場合、スマートグラス100Aは、人物Aの口唇領域の中心点のx座標と、カメラ110が撮像した画像の中心点のx座標との距離と、人物Bの口唇領域の中心点のx座標と、カメラ110が撮像した画像の中心点のx座標との距離とを算出する。
【0142】
次に、スマートグラス100Aは、距離が小さい方の人物を注目話者に決定する。
図14では、人物Aを注目話者に決定する。そして、スマートグラス100Aは、人物Aの口唇領域22を検出し、音響特徴量と口唇特徴量とを用いたマルチモーダル発話認識処理を行い、認識結果のテキストデータ23をディスプレイ130に表示させる。
【0143】
図15は、スマートグラスの動作の事例を説明する第六の図である。
図15では、カメラ110が撮像した画像において人物Aと人物Bのうち、カメラ110が撮像した画像の中心点に近い人物が、装着者Pの頭の動き等により、人物Aから人物Bに変わった場合を示す。
【0144】
この場合、スマートグラス100Aは、人物Bの口唇領域22Bを検出し、音響特徴量と口唇特徴量とを用いたマルチモーダル発話認識処理を行い、認識結果のテキストデータ23Bをディスプレイ130に表示させる。
【0145】
図16は、スマートグラスの動作の事例を説明する第七の図である。
図16では、カメラ110が撮像した画像において人物Aと人物Bのうち、カメラ110が撮像した画像の中心点に近い人物Aの口元が隠されている状態を示す。
【0146】
この場合、スマートグラス100Aは、人物Aの口唇領域の中心点のx座標の代わりに、人物Aの顔画像の一部の領域の中心点のx座標を求め、このx座標と、カメラ110が撮像した画像の中心点のx座標との距離を算出する。次に、スマートグラス100Aは、この距離に基づき、人物Aを注目話者に決定する。
【0147】
そして、スマートグラス100Aは、人物Aの音声データから算出した音響特徴量を用いた音声認識処理を行い、認識結果のテキストデータ23aをディスプレイ130に表示させる。
【0148】
このように、本実施形態では、スマートグラス100Aの装着者の視線方向に複数の人物が存在する場合や、装着者が注目している人物の口元が隠れている場合等であっても、注目話者の発話内容を示すテキストデータをディスプレイ130に表示させることができる。
【0149】
次に、
図17を参照して、本実施形態のスマートグラス100Aの有する発話内容の認識について説明する。
図17は、第一の実施形態の発話内容の認識について説明する図である。
【0150】
本実施形態のスマートグラス100Aの音声認識処理部230は、注目話者として特定された人物の口唇領域内から抽出された動画を口唇特徴量算出部252に入力し、口唇特徴量171を取得する。また、本実施形態では、注目話者として特定された人物の音声波形を音響特徴量算出部263に入力し、音響特徴量172を取得する。
【0151】
そして、音声認識処理部230は、特徴量統合部281において、口唇特徴量171と、音響特徴量172とを結合させ、マルチモーダル特徴量173を得る。
【0152】
次に、音声認識処理部230は、マルチモーダル特徴量173をマルチモーダル発話内容認識部282に入力し、マルチモーダル発話内容認識モデル283を用いて、発話内容を示すテキストデータを生成し、テキストデータを発話内容認識結果出力部233に対して出力する。
【0153】
また、本実施形態では、口唇が隠れていたり、カメラ110が撮像した画像に注目話者の画像が含まれず、口唇領域内の画像を利用できない場合、音響特徴量算出部263で抽出した音響特徴量172を音声発話内容認識部291に入力する。音声発話内容認識部291は、音声発話内容認識モデル292を用いて、発話内容を示すテキストデータを生成し、テキストデータを発話内容認識結果出力部233に対して出力する。
【0154】
このように、本実施形態では、注目話者の口唇領域の検出の可否に応じて、発話内容の認識処理の方式を切り換えるため、音声認識の精度を向上させることができる。
【0155】
また、本実施形態において、口唇特徴量算出モデル253と、マルチモーダル発話内容認識モデル283と、音声発話内容認識モデル292とは、口唇領域の動画データと、音声データと、正解となるテキストデータと、を学習データとして、ニューラルネットワークを学習させた学習済みモデルである。
【0156】
また、本実施形態では、発話区間毎に、音声データを取得して発話内容の認識を行うものとしたが、これに限定されない。本実施形態では、例えば、同時に複数の人物の音声データが取得された場合には、画像データから検出された人物の顔画像に基づき、注目話者の音声データのみを選択するようにしてもよい。
【0157】
(第二の実施形態)
以下に、図面を参照して、第二の実施形態について説明する。第二の実施形態は、第一の実施形態のスマートグラス100Aを適用した翻訳システムである。
【0158】
図18は、第二の実施形態の翻訳システムのシステム構成の一例を示す図である。本実施形態の翻訳システム500は、スマートグラス100Aと、自動翻訳装置700とを含む。スマートグラス100Aと自動翻訳装置700とは、例えば、ネットワーク等を介して接続される。
【0159】
本実施形態の自動翻訳装置700は、第一の言語のテキストデータと、言語の選択とを受け付けると、第一の言語のテキストデータを、選択された言語(第二の言語)に翻訳し、第二の言語のテキストデータを出力する。
【0160】
図18に示す翻訳システム500では、スマートグラス100Aにおいて、画像データと音声データとに基づき、注目話者の発話内容を認識した結果のテキストデータを、第一の言語のテキストデータとして、自動翻訳装置700に送信する。このとき、スマートグラス100Aは、予め第二の言語の選択を受け付けていてもよい。その場合、スマートグラス100Aは、第一の言語のテキストデータと共に第二の言語を示す情報を自動翻訳装置700へ送信する。
【0161】
自動翻訳装置700は、第一の言語のテキストデータと第二の言語を示す情報とを受け付けて、第一の言語のテキストデータを第二の言語のテキストデータに変換し、スマートグラス100Aに送信する。
【0162】
スマートグラス100Aは、自動翻訳装置700から受信した第二の言語のテキストデータをディスプレイ130に表示させる。
【0163】
本実施形態では、このように、スマートグラス100Aと自動翻訳装置700とを連携させることで、スマートグラス100Aの装着者に対し、注目話者が使用する第一の言語とは異なる第二の言語で、注目話者の発話内容を表示させることができる。
【0164】
(第三の実施形態)
以下に、図面を参照して、第三の実施形態について説明する。第三の実施形態は、第一の実施形態のスマートグラス100Aを適用した議事録作成システムである。
【0165】
図19は、第三の実施形態の発話内容記録システムのシステム構成の一例を示す図である。本実施形態の発話内容記録システム600は、スマートグラス100Aと、発話内容記録装置700Aとを含む。スマートグラス100Aと発話内容記録装置700Aとは、例えば、ネットワーク等を介して接続される。
【0166】
本実施形態では、スマートグラス100Aは、例えば、教育機関の講義等において、教師の発話内容をテキストデータとして保持する用途等に用いられる。この場合、スマートグラス100Aの装着者は、講義を行っている教師Tに対して視線方向を向けるだけで、教師の発話内容をテキストデータとして発話内容記録装置700Aの有する記憶部に格納することができる。
【0167】
なお、本実施形態では、例えば、講堂等のようなスペースに設置された壇上に、複数の人物が存在する場合等に、特定の人物の発話内容をテキストデータとして保存する用途にも利用することができる。
【0168】
本実施形態では、このように、スマートグラス100Aを発話内容記録装置700Aと連携させることで、例えば、複数の人物がランダムな順番に発話するような場面であっても、注目話者の発話内容のみをテキストデータとして保存することができる。
【0169】
なお、スマートグラス100Aは、上述した実施形態以外にも適用することができる。例えば、スマートグラス100Aは、装着者Pの聴覚に障害がある場合等に有用である。
【0170】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0171】
また、実施形態に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。
【0172】
ある実施形態では、情報処理装置200(情報処理端末200A)は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。同様に、情報処理装置200は、互いに通信するように構成された複数のコンピューティングデバイスを含むことができる。
【0173】
さらに、情報処理装置200は、開示された処理ステップを様々な組み合わせで共有するように構成できる。例えば、情報処理装置200によって実行されるプロセスは、他の情報処理装置によって実行され得る。同様に、情報処理装置200の機能は、他の情報処理装置によって実行することができる。また、情報処理装置と他の情報処理装置の各要素は、1つの情報処理装置にまとめられていても良いし、複数の装置に分けられていても良い。
【0174】
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。
【符号の説明】
【0175】
100 音声認識システム
100A スマートグラス
110 カメラ
120 マイク
130 ディスプレイ
200 情報処理装置
200A 情報処理端末
230 音声認識処理部
231 映像入力部
232 音声入力部
233 発話内容認識結果出力部
240 注目話者特定部
250 口唇特徴量取得部
260 音響特徴量取得部
270 人物識別部
280 マルチモーダル認識部
290 音声認識部
【先行技術文献】
【特許文献】
【0176】