IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ AVITA株式会社の特許一覧

特開2024-102698アバター動作制御装置およびアバター動作制御方法
<>
  • 特開-アバター動作制御装置およびアバター動作制御方法 図1
  • 特開-アバター動作制御装置およびアバター動作制御方法 図2
  • 特開-アバター動作制御装置およびアバター動作制御方法 図3
  • 特開-アバター動作制御装置およびアバター動作制御方法 図4
  • 特開-アバター動作制御装置およびアバター動作制御方法 図5
  • 特開-アバター動作制御装置およびアバター動作制御方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024102698
(43)【公開日】2024-07-31
(54)【発明の名称】アバター動作制御装置およびアバター動作制御方法
(51)【国際特許分類】
   H04N 7/15 20060101AFI20240724BHJP
   G10L 15/22 20060101ALI20240724BHJP
   G10L 25/15 20130101ALI20240724BHJP
   H04N 7/14 20060101ALI20240724BHJP
   G06F 3/16 20060101ALI20240724BHJP
   G06F 3/01 20060101ALI20240724BHJP
   G06T 13/40 20110101ALI20240724BHJP
   G06T 13/20 20110101ALI20240724BHJP
【FI】
H04N7/15 170
G10L15/22 453
G10L25/15
H04N7/14 110
G06F3/16 620
G06F3/16 650
G06F3/01 510
G06T13/40
G06T13/20 500
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023006766
(22)【出願日】2023-01-19
(71)【出願人】
【識別番号】521413866
【氏名又は名称】AVITA株式会社
(74)【代理人】
【識別番号】100105784
【弁理士】
【氏名又は名称】橘 和之
(72)【発明者】
【氏名】西口 昇吾
(72)【発明者】
【氏名】三上 崇志
(72)【発明者】
【氏名】石黒 浩
【テーマコード(参考)】
5B050
5C164
5E555
【Fターム(参考)】
5B050BA12
5B050CA07
5B050DA10
5B050EA07
5B050EA12
5B050EA18
5B050EA19
5B050EA24
5B050FA02
5B050FA09
5B050GA08
5C164FA09
5C164PA44
5C164UB08S
5C164UB90S
5C164VA07P
5E555AA27
5E555AA46
5E555AA61
5E555BA13
5E555BB13
5E555BD08
5E555CA47
5E555CB64
5E555DA23
5E555DB32
5E555DC84
5E555DC85
5E555EA23
5E555FA00
(57)【要約】
【課題】ユーザの話者速度に合わせてアバター画像が対応する動きを行うことができるようにする。
【解決手段】所定単位ごとに定義したアバター画像の複数の動き情報を記憶するとともに、それぞれの動き情報に対応して予定されている発話の内容から特定される基準情報を記憶する情報記憶部15と、動き情報の再生中に話者の発話音声を解析し、その解析情報と基準情報との一致状態を所定単位ごとに検出する一致状態検出部14と、解析情報と基準情報との一致状態に応じて動き情報の再生を制御する動き制御部13とを備え、アバター画像の動きに対応付けられた発話予定内容と話者による実際の発話との内容とにズレが生じているときには動き情報の再生を制御することによってズレを低減することができるようにする。
【選択図】図2
【特許請求の範囲】
【請求項1】
所定単位ごとに定義したアバター画像の複数の動き情報を記憶するとともに、それぞれの動き情報に対応して予定されている発話の内容から特定される基準情報を記憶する情報記憶部と、
上記情報記憶部に記憶されている上記複数の動き情報を順次再生することにより、上記アバター画像の動きを制御する動き制御部と、
上記動き制御部による上記動き情報の再生中に話者の発話音声を解析し、その解析情報と上記基準情報との一致状態を上記所定単位ごとに検出する一致状態検出部とを備え、
上記動き制御部は、上記一致状態検出部により検出される上記一致状態に応じて、上記動き情報の再生を制御する
ことを特徴とするアバター動作制御装置。
【請求項2】
上記動き制御部は、上記一致状態検出部により検出される上記一致状態が、上記所定単位内において上記解析情報と上記基準情報とが前半部分のみで一致するか後半部分のみで一致するかに応じて、上記動き情報の再生速度を増減させることを特徴とする請求項1に記載のアバター動作制御装置。
【請求項3】
上記動き制御部は、上記一致状態検出部により検出される上記一致状態が、上記所定単位内において上記解析情報と上記基準情報とが前半部分のみで一致するか後半部分のみで一致するかに応じて、上記動き情報の再生数を増減させることを特徴とする請求項1に記載のアバター動作制御装置。
【請求項4】
上記一致状態検出部は、上記所定単位内において上記解析情報と上記基準情報とが全体として一致しないことが検出された場合に、当該不一致が検出された所定単位の前または後の所定単位の上記基準情報を対象として上記解析情報との一致状態を再検出することを特徴とする請求項1に記載のアバター動作制御装置。
【請求項5】
上記基準情報は、上記動き情報に対応して予定されている発話の内容を表すテキスト情報であり、
上記一致状態検出部は、上記動き情報の再生中における上記話者の発話音声を音声認識して発話内容をテキスト化し、当該話者の発話内容のテキスト情報と上記基準情報として記憶されている予定発話内容のテキスト情報との一致状態を上記所定単位ごとに検出する
ことを特徴とする請求項1~4の何れか1項に記載のアバター動作制御装置。
【請求項6】
上記基準情報は、上記動き情報に対応して予定されている発話音声のフォルマント情報であり、
上記一致状態検出部は、上記動き情報の再生中における上記話者の発話音声のフォルマント情報を解析し、当該話者の発話音声のフォルマント情報と上記基準情報として記憶されている予定発話音声のフォルマント情報との一致状態を上記所定単位ごとに検出する
ことを特徴とする請求項1~4の何れか1項に記載のアバター動作制御装置。
【請求項7】
コンピュータの動き制御部が、所定単位ごとに定義したアバター画像の複数の動き情報を記憶するとともに、それぞれの動き情報に対応して予定されている発話の内容から特定される基準情報を記憶する情報記憶部に記憶されている上記複数の動き情報を順次再生することにより、上記アバター画像の動きを制御するステップと、
上記コンピュータの一致状態検出部が、上記動き制御部による上記動き情報の再生中に話者の発話音声を解析し、その解析情報と上記基準情報との一致状態を上記所定単位ごとに検出するとステップとを有し、
上記動き制御部は、上記一致状態検出部により検出される上記一致状態に応じて、上記動き情報の再生を制御する
ことを特徴とするアバター動作制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アバター動作制御装置およびアバター動作制御方法に関し、特に、表示画面にユーザのアバター画像を表示し、ユーザの行動に合わせてアバター画像の動きを制御するシステムに用いて好適なものである。
【背景技術】
【0002】
従来、オンラインミーティングの表示画面や仮想空間画像の表示画面などにおいてユーザのアバター画像を表示し、ユーザの行動に合わせてアバター画像の動きを制御するようにした技術が知られている。例えば、ユーザの身体にモーションセンサを装着し、モーションセンサで検出されるユーザの動きに連動するアバター画像を生成して表示するようにした技術が知られている。
【0003】
また、電子文書内のオブジェクトを指定することにより、当該オブジェクトに関連付けられたアバター画像に所定の動きをさせるようにした技術も知られている(例えば、特許文献1参照)。特許文献1に記載の技術では、電子文書内のオブジェクトとアバター画像とをあらかじめ関連付けておき、アバター画像には所定の動き情報を定義しておく。そして、電子文書の読者がオブジェクトをマウスでクリックすると、アバター画像が定義された動きを行うように表示される。
【0004】
ところで、ユーザの発話に応じてアバター画像の動きを制御したいとするニーズが存在する。ユースケースの一例として、アバター画像を用いてオンラインミーティングやプレゼンテーションなどを行う際に、ユーザの発話に合わせてアバター画像の動きを制御することが挙げられる。
【0005】
これに対し、上記特許文献1に記載の技術を応用することが考えられる。例えば、話者が事前に用意した電子文書の複数箇所にそれぞれアバター画像の動き情報を関連付けておき、話者が電子文書を読み上げながら複数箇所をマウスで順にクリックしていけば、ユーザの発話に合わせてアバター画像の動きを制御することが可能である。しかしながら、このようにした場合、話者は電子文書内においてアバター画像の動き情報がリンクされた複数箇所を一々マウスでクリックしなければならず、発話に集中することができない。
【0006】
これに対し、電子文書の最初から最後までを通してアバター画像の一連の動きを動き情報として定義しておき、電子文書の読み上げ開始と同時にアバター画像の動き情報を再生するようにすることが考えられる。このようにすれば、電子文書を読み上げながらのマウス操作は不要となる。しかし、この場合は、視聴者の理解度やリアクションに合わせて話者が発話速度を調整したりすると、発話内容とアバター画像の動きが合わなくなってしまうという問題が生じる。
【0007】
なお、英会話の学習において、模範音声のうち口元の形に特徴が出る“m”の発音に対応した基準画像の再生タイミングと、発話をしているユーザの口元の連続撮影画像のうち基準画像との類似度が閾値以上となる画像の撮影タイミングとの時間差から発話の遅れを検出し、その遅れが少なくなるように模範音声の再生速度を調整する技術が知られている(例えば、特許文献2参照)。しかしながら、話者の口元が基準画像と同じように動くとは限らないため、口元の画像の解析では発話の遅れを正確に検出できないことがあるという問題があった。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開平11-312160 号公報
【特許文献2】特開2017-146402号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明は、このような問題を解決するために成されたものであり、ユーザがアバター画像の再生速度を制御するための操作を一々行うことなく、ユーザの話者速度に合わせてアバター画像が対応する動きを行うことができるようにすることを目的とする。
【課題を解決するための手段】
【0010】
上記した課題を解決するために、本発明では、所定単位ごとに定義したアバター画像の複数の動き情報を記憶するとともに、それぞれの動き情報に対応して予定されている発話の内容から特定される基準情報を記憶し、複数の動き情報を順次再生することによってアバター画像の動きを制御している際に話者の発話音声を解析し、その解析情報と基準情報との一致状態を所定単位ごとに検出し、検出される一致状態に応じて動き情報の再生を制御するようにしている。
【発明の効果】
【0011】
上記のように構成した本発明によれば、発話音声の解析情報と基準情報との一致状態の検出結果をもとに、アバター画像の動きに対応して発話することが予定されている内容と、話者による実際の発話の内容とのズレが所定単位ごとに逐次検出され、ズレが生じているときには動き情報の再生を制御することによってズレを低減することができる。これにより、話者はアバター画像の再生速度を制御するための操作を一々行う必要がなく、ただ発話を行うだけで話者の話者速度に合わせてアバター画像が対応する動きを行うようにすることができる。
【図面の簡単な説明】
【0012】
図1】本実施形態によるアバター動作制御装置を適用したオンライン対話システムの全体構成例を示す図である。
図2】本実施形態によるアバター動作制御装置の機能構成例を示すブロック図である。
図3】動き情報および基準情報の一例を模式的に示した図である。
図4】一致状態パターンの判定およびそれに基づく動き情報の再生制御の内容例を模式的に示す図である。
図5】本実施形態によるアバター動作制御装置の動作例を示すフローチャートである。
図6】本実施形態によるアバター動作制御装置の他の機能構成例を示すブロック図である。
【発明を実施するための形態】
【0013】
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態によるアバター動作制御装置を適用したオンライン対話システムの全体構成例を示す図である。図1に示すように、本実施形態のオンライン対話システムは、本実施形態のアバター動作制御装置を備える対話制御装置1が、話者が使用する話者端末2と聴者が使用する聴者端末3とをインターネットまたは携帯電話網などの通信ネットワーク100を介して接続し、オンライン(Web上)での対話を行うことを可能にしたシステムである。
【0014】
本実施形態では、話者端末2のユーザがプレゼンテーションまたは講義などを行い、それを聴者端末3のユーザが視聴するというユースケースを想定する。対話制御装置1は、プレゼンテーションや講義に供する資料画像の他に、話者の代わりとして使われるアバター画像を聴者端末3の画面に表示し、話者の発話に応じてアバター画像の動きを制御する。例えば、話者端末2の画面上に資料画像と共に読み上げ用の電子文書を表示し、話者はこの電子文書に記述されている文章を読み上げる。対話制御装置1は、話者により読み上げられた発話音声を解析することにより、アバター画像の動きを制御する。
【0015】
なお、聴者端末3に表示するのはアバター画像だけでもよく、資料画像を表示することを要するものではない。また、話者端末2に電子文書を表示することを要するものではなく、話者は手元に用意した紙文書を読み上げるようにしてもよい。また、必ずしも文章の読み上げを要するものではなく、話者があらかじめ覚えておいた内容を話すようにしてもよい。
【0016】
話者端末2は、例えばパーソナルコンピュータ、タブレット、スマートフォンなどであり、マイクおよびディスプレイが搭載または接続されている。聴者端末3は、例えばパーソナルコンピュータ、タブレット、スマートフォンなどであり、スピーカおよびディスプレイが搭載または接続されている。話者端末2のマイクで集音された話者の発話音声は、対話制御装置1を介して聴者端末3に送信され、接客者端末3のスピーカから出力される。また、話者端末2から対話制御装置1に送信された資料画像や対話制御装置1で生成されたアバター画像が聴者端末3に送信され、聴者端末3のディスプレイに表示される。
【0017】
なお、話者端末2がスピーカを更に備えるとともに、聴者端末3がマイクおよびカメラを更に備え、聴者端末3のマイクで集音された聴者の発話音声を、対話制御装置1を介して話者端末2に送信し、話者端末2のスピーカから出力するようにしてもよい。また、聴者端末3のカメラで撮影された聴者の映像を、対話制御装置1を介して話者端末2に送信し、話者端末2のディスプレイに表示するようにしてもよい。
【0018】
図2は、対話制御装置1が備える本実施形態によるアバター動作制御装置10の機能構成例を示すブロック図である。図2に示すように、本実施形態のアバター動作制御装置10は、機能構成として、情報記録部11、発話音声取得部12、動き制御部13および一致状態検出部14を備えている。一致状態検出部14は、具体的な機能構成として、音声認識部14Aおよび一致判定部14Bを備えている。また、本実施形態のアバター動作制御装置10は、記憶媒体として、情報記憶部15を備えている。
【0019】
上記機能ブロック11~14は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記機能ブロック11~14は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記憶媒体に記憶されたプログラムが動作することによって実現される。
【0020】
情報記憶部15は、所定単位ごとに定義したアバター画像の複数の動き情報を記憶するとともに、それぞれの動き情報に対応して予定されている発話の内容(以下、予定発話内容という)から特定される基準情報を記憶する。本実施形態において、基準情報は、予定発話内容を表すテキスト情報である。
【0021】
所定単位は、例えば所定の時間単位である。例えば、プレゼンテーションの最初から最後までの間に表示させるアバター画像の一連の動きを所定の時間単位(例えば、10秒単位)で複数に分割し、分割した時間単位ごとにアバター画像の動きを定義する動き情報を記憶する。アバター画像の動きとは、頭の動き、表情の動き、腕や手の動き、上半身の姿勢の動きなどのうち何れか1つまたは複数の組み合わせである。
【0022】
予定発話内容とは、話者が電子文書や紙文書あるいは事前の記憶をもとに発話することが予定されている内容である。この予定発話内容も複数に分割され、所定単位ごとに分割されたアバター画像の動き情報と個々に対応付けられている。この所定単位ごとに分割された予定発話内容のテキスト情報が、話者による実際の発話内容とのズレを検出するための基準情報として用いられる。
【0023】
なお、所定単位は、動きの区切り単位としてもよい。例えば、ある動きを行った後に静止状態があり、その後に別の動きを開始するといったことの連続でアバター画像の一連の動きを制御する場合、静止状態から次の静止状態までを1つの区切り単位として、アバター画像の一連の動きを複数に分割するようにしてもよい。また、所定単位を予定発話内容のセンテンス単位としてもよい。すなわち、センテンス単位で予定発話内容のテキスト情報を複数に分割し、分割した複数のテキスト情報に対してアバター画像の動き情報を対応付けるようにしてもよい。
【0024】
図3は、情報記憶部15に記憶される動き情報および基準情報の一例を模式的に示した図である。図3に示すように、情報記憶部15は、例えば所定の時間単位(10秒)ごとに分割して定義したアバター画像の複数の動き情報を記憶するとともに、それぞれの動き情報に対応付けて予定発話内容のテキスト情報を基準情報として記憶する。図3の例では、1つ目の動き情報に対して「あいうえお」の予定発話内容が対応付けられ、2つ目の動き情報に対して「かきくけこ」の予定発話内容が対応付けられ、3つ目の動き情報に対して「さしすせそ」の予定発話内容が対応付けられている。
【0025】
情報記録部11は、図3に例示した動き情報および予定発話内容の基準情報を情報記憶部15に記憶させる。例えば、情報記録部11は、動き情報および基準情報を編集可能に構成したユーザインタフェースを有するウェブページを話者端末2に提供し、当該ウェブページを通じて編集された動き情報および基準情報を情報記憶部15に記憶させる。編集の仕方は任意に設計可能である。
【0026】
例えば、アバター画像の動き情報については、プレゼンテーションの最初から最後までの間に表示させるアバター画像の一連の動きを定義する動き情報を話者が手動で生成した後に、それを10秒単位で複数に自動分割するようにしてもよい。また、予定発話内容のテキスト情報については、10秒単位ごとの動き情報が生成された後に、それぞれの時間単位の動き情報に対応する予定発話内容のテキスト情報を話者が手動で入力するようにしてもよい。
【0027】
予定発話内容のテキスト情報については、以下のように生成するようにしてもよい。すなわち、プレゼンテーションの最初から最後までのアバター画像の一連の動きを定義した動き情報を再生してアバター画像を話者端末2に表示しながら、それに合わせて話者が予定発話内容を発話し、その発話音声を音声認識してテキスト化する。そして、音声認識した発話内容のテキスト情報をそれぞれ10秒単位で複数に自動分割し、10秒単位ごとに分割した動き情報に対応付ける。
【0028】
あるいは、予定発話内容のテキスト情報を先に作成して10秒単位で複数に分割し、その後で10秒単位の動き情報を作成してそれぞれのテキスト情報に対応付けるようにしてもよい。
【0029】
発話音声取得部12は、話者によるプレゼンテーションや講義などの実行時に話者の発話音声を取得する。すなわち、発話音声取得部12は、話者端末2から送信される話者の発話音声を取得する。図2では図示していないが、上述したように、発話音声取得部12により取得された話者の発話音声は聴者端末3に送信され、聴者端末3のスピーカから出力される。
【0030】
動き制御部13は、情報記憶部15において所定単位ごとに分割した状態で記憶されている複数の動き情報を順次再生することにより、聴者端末3に表示させるアバター画像の動きを制御する。このとき動き制御部13は、一致状態検出部14により検出される話者の発話内容と予定発話内容との一致状態に応じて、動き情報の再生を制御する。この制御内容の詳細は後述する。
【0031】
一致状態検出部14は、動き制御部13による動き情報の再生中に発話音声取得部12により取得された話者の発話音声を解析し、その解析情報と、情報記憶部15に記憶されている予定発話内容の基準情報との一致状態を所定単位ごとに検出する。
【0032】
ここで、一致状態検出部14の音声認識部14Aは、動き情報の再生中における話者の発話音声を音声認識して発話内容をテキスト化する。一致判定部14Bは、音声認識部14Aにより音声認識された話者の発話内容のテキスト情報と、情報記憶部15に基準情報として記憶されている予定発話内容のテキスト情報との一致状態を所定単位ごとに検出する。なお、以下の説明において、話者の発話内容のテキスト情報を単に「話者の発話内容」と略し、予定発話内容のテキスト情報を単に「予定発話内容」と略すことがある。
【0033】
一致判定部14Bは、所定単位ごとに、話者の発話内容と予定発話内容とが全体として一致するパターン、前半部分のみで一致するパターン、後半部分のみで一致するパターン、全体として一致しないパターンの何れに該当するかを判定する。なお、話者の発話内容と予定発話内容とが全体として一致するパターンは、両者が完全に一致する場合に限らず、一致率が高側閾値(例えば、90%)以上となる場合を含めてもよい。また、全体として一致しないパターンは、両者が全く一致しない場合に限らず、一致率が低側閾値(例えば、10%)以下となる場合を含めてもよい。
【0034】
一致判定部14Bは、動き情報の所定単位の再生が終わるタイミングごとに、当該所定単位の間に音声認識部14Aにより音声認識された話者の発話内容と、当該所定単位で再生された動き情報に対応する基準情報として記憶されている予定発話内容との一致パターンを判定する。動き制御部13は、ある所定単位で一致判定部14Bにより判定された結果に基づいて、次の所定単位におけるアバター画像の動き情報の再生を制御する。
【0035】
図4は、一致判定部14Bによる一致状態パターンの判定およびそれに基づく動き制御部13による動き情報の再生制御の内容例を模式的に示す図である。図4では、図3と同様に定義された所定時間単位ごとの動き情報および予定発話内容の基準情報を示している。また、図4では、2つ目の時間単位の動き情報の再生が終わるタイミングで一致判定部14Bによる判定を行った例を示している。
【0036】
図4(a)は、2つ目の時間単位で動き制御部13により再生された動き情報に対応する基準情報として記憶されている予定発話内容「かきくけこ」と、2つ目の時間単位の間に音声認識部14Aにより音声認識された話者の発話内容「かきくけこ」とが全体として一致するパターンを示している。2つ目の時間単位で話者の発話内容と予定発話内容とが全体として一致すると一致判定部14Bにより判定された場合、動き制御部13は特別な制御は行わず、3つ目の時間単位でも動き情報を通常の再生速度で再生を続ける。
【0037】
図4(b)は、2つ目の時間単位での予定発話内容「かきくけこ」に対し、2つ目の時間単位の間に音声認識された話者の発話内容「うえおかき」が前半部分の「かき」のみで一致するパターンを示している。また、図4(c)は、2つ目の時間単位での予定発話内容「かきくけこ」に対し、2つ目の時間単位の間に音声認識された話者の発話内容「くけこさし」が後半部分の「くけこ」のみで一致するパターンを示している。
【0038】
動き制御部13は、一致判定部14Bにより判定される一致状態パターンが、所定単位内において話者の発話内容と予定発話内容とが前半部分のみで一致するパターンであるか後半部分のみで一致するパターンであるかに応じて、次の時間単位における動き情報の再生速度を増減させる。例えば、前半部分のみで一致するパターンであると一致判定部14Bにより判定された場合は、アバター画像の動き情報の再生に対して話者の発話が遅れている状態であるので、動き制御部13は3つ目の時間単位において動き情報の再生速度を遅くする。一方、後半部分のみで一致するパターンであると一致判定部14Bにより判定された場合は、アバター画像の動き情報の再生に対して話者の発話が進んでいる状態であるので、動き制御部13は3つ目の時間単位において動き情報の再生速度を速くする。
【0039】
再生速度の増減幅は、あらかじめ決められた値とすることが可能である。あるいは、話者の発話内容と予定発話内容との一致率に応じて増減幅を可変とするようにしてもよい。すなわち、一致率が低いほど増減幅を大きくし、一致率が高いほど増減幅を小さくするようにしてもよい。
【0040】
なお、動き制御部13は、一致判定部14Bにより判定される一致状態パターンが、所定単位内において話者の発話内容と予定発話内容とが前半部分のみで一致するパターンであるか後半部分のみで一致するパターンであるかに応じて、動き情報の再生速度を増減させることに代えて、動き情報の再生数を増減させるようにしてもよい。
【0041】
例えば、前半部分のみで一致するパターンであると一致判定部14Bにより判定された場合、動き制御部13は、3つ目の時間単位において再生する予定の動き情報を再生する前に、追加用の動き情報を挿入して再生する。一方、後半部分のみで一致するパターンであると一致判定部14Bにより判定された場合、動き制御部13は、3つ目の時間単位において再生する予定の動き情報をスキップして、4つ目の時間単位において再生する予定の動き情報を再生する。
【0042】
図4(d)は、2つ目の時間単位での予定発話内容「かきくけこ」と、2つ目の時間単位の間に音声認識された話者の発話内容「さしすせそ」とが全体として一致しないパターンを示している。このように、所定単位内において話者の発話内容と予定発話内容とが全体として一致しないことが検出された場合、一致状態検出部14は、当該不一致が検出された所定単位の前または後の所定単位の予定発話内容を対象として話者の発話内容との一致状態を再検出する。動き制御部13は、その再検出の結果に応じてアバター画像の動き情報の再生を制御する。
【0043】
例えば、2つ目の時間単位で話者の発話内容と予定発話内容とが全体として一致しないと判定された場合、一致状態検出部14は、2つ目よりも1つ前の1つ目の時間単位での予定発話内容「あいうえお」を対象として、2つ目の時間単位の間に音声認識された話者の発話内容「さしすせそ」との一致状態を検出する。また、一致状態検出部14は、2つ目よりも1つ後の3つ目の時間単位での予定発話内容「さしすせと」を対象として、2つ目の時間単位の間に音声認識された話者の発話内容「さしすせそ」との一致状態を検出する。1つ前の時間単位または1つ後の時間単位の何れか一方について一致状態の検出を行い、不一致が検出された場合に他方について一致状態の検出を行うようにしてもよい。
【0044】
そして、話者の発話内容の少なくとも一部が、1つ前の所定単位における予定発話内容の少なくとも一部と一致することが検出された場合は、アバター画像の動き情報の再生に対して話者の発話が遅れている状態であるので、動き制御部13は3つ目の時間単位において動き情報の再生速度を遅くする。この場合の再生速度の減少幅は、図4(b)の場合の減少幅より大きくしてもよい。あるいは、3つ目の時間単位において再生する予定の動き情報を再生する前に、追加用の動き情報を挿入して再生するようにしてもよい。
【0045】
一方、話者の発話内容の少なくとも一部が、1つ後の所定単位における予定発話内容の少なくとも一部と一致することが検出された場合は、アバター画像の動き情報の再生に対して話者の発話が進んでいる状態であるので、動き制御部13は3つ目の時間単位において動き情報の再生速度を速くする。この場合の再生速度の増加幅は、図4(c)の場合の増加幅より大きくしてもよい。あるいは、3つ目の時間単位において再生する予定の動き情報をスキップして、4つ目の時間単位において再生する予定の動き情報を再生するようにしてもよい。
【0046】
話者の発話内容が、1つ前および1つ後の所定単位の予定発話内容とも不一致であることが検出された場合は、話者が相当に大きくずれた時間単位の予定発話内容を発話しているか、予定発話内容とは全く異なる内容を発話している可能性がある。この場合に動き制御部13は、アバター画像の動き情報の再生を中断するようにしてもよい。ただし、一致状態検出部14の処理は継続する。そして、中断したときの予定発話内容と、その後に音声認識部14Aにより認識される話者の発話内容との一致状態が、全体としての一致、前半部の一致または後半部の一致の何れかのパターンに該当すると判定されたときに、動き情報の再生を再開するようにしてもよい。
【0047】
図5は、上記のように構成した本実施形態によるアバター動作制御装置10の動作例を示すフローチャートである。図5に示すフローチャートは、アバター画像の動き情報の再生が話者により指示されたときに開始する。
【0048】
まず、動き制御部13は、所定単位の動き情報を再生する(ステップS1)。また、動き情報の再生中に発話音声取得部12が話者の発話音声を取得し、一致状態検出部14の音声認識部14Aがその発話音声を音声認識することによって発話内容をテキスト化する(ステップS2)。
【0049】
その後、一致状態検出部14は、動き情報の所定単位の再生が終わったか否かを判定する(ステップS3)。所定単位の再生がまだ終わっていない場合、処理はステップS1に戻り、ステップS1,S2の処理を継続する。一方、動き情報の所定単位の再生が終わったと判定された場合、一致判定部14Bは、当該所定単位において音声認識部14Aにより音声認識された話者の発話内容のテキスト情報と、情報記憶部15に基準情報として記憶されている予定発話内容のテキスト情報との一致状態を検出する(ステップS4)。
【0050】
そして、一致判定部14Bは、話者の発話内容と予定発話内容とが全体として一致するパターンに該当するか否かを判定する(ステップS5)。ここで、全体として一致するパターンに該当すると判定された場合、処理はステップS16に進む。一方、全体として一致するパターンに該当しないと判定された場合、一致判定部14Bは、話者の発話内容と予定発話内容とが前半部分のみで一致するパターンに該当するか否かを判定する(ステップS6)。
【0051】
ここで、前半部分のみで一致するパターンに該当すると判定された場合、動き制御部13は、次の時間単位においてアバター画像の動き情報の再生速度を遅くすることを設定する(ステップS7)。その後、処理はステップS16に進む。一方、前半部分のみで一致するパターンに該当しないと判定された場合、一致判定部14Bは、話者の発話内容と予定発話内容とが後半部分のみで一致するパターンに該当するか否かを判定する(ステップS8)。
【0052】
ここで、後半部分のみで一致するパターンに該当すると判定された場合、動き制御部13は、次の時間単位においてアバター画像の動き情報の再生速度を速くすることを設定する(ステップS9)。その後、処理はステップS16に進む。一方、後半部分のみで一致するパターンにも該当しないと判定された場合、話者の発話内容と予定発話内容とが全体として一致しないパターンに該当することになるので、一致判定部14Bは、1つ前の時間単位の予定発話内容を対象として、現在の所定単位で音声認識された話者の発話内容との一致状態を検出する(ステップS10)。そして、1つ前の所定単位における予定発話内容の少なくとも一部と話者の発話内容の少なくとも一部とが一致するか否かを判定する(ステップS11)。
【0053】
ここで、1つ前の所定単位における予定発話内容の少なくとも一部と話者の発話内容の少なくとも一部とが一致すると判定された場合、動き制御部13は、次の時間単位においてアバター画像の動き情報の再生速度を遅くすることを設定する(ステップS12)。その後、処理はステップS16に進む。一方、1つ前の所定単位における予定発話内容と話者の発話内容とが全く一致しないと判定された場合、一致判定部14Bは、1つ後の時間単位の予定発話内容を対象として、現在の所定単位で音声認識された話者の発話内容との一致状態を検出する(ステップS13)。そして、1つ後の所定単位における予定発話内容の少なくとも一部と話者の発話内容の少なくとも一部とが一致するか否かを判定する(ステップS14)。
【0054】
ここで、1つ後の所定単位における予定発話内容の少なくとも一部と話者の発話内容の少なくとも一部とが一致すると判定された場合、動き制御部13は、次の時間単位においてアバター画像の動き情報の再生速度を速くすることを設定する(ステップS15)。その後、処理はステップS16に進む。
【0055】
ステップS16において、動き制御部13は、全ての所定単位の動き情報を再生し終わったか否かを判定する。まだ所定単位の動き情報を全て再生し終わっていないと判定された場合、処理はステップS1に戻る。このとき、上記ステップS7,S9,S12,S15の何れかで再生速度を増減することが設定されている場合は、ステップS1に戻って次の所定単位の動き情報を再生する際に、動き制御部13は設定された再生速度で動き情報の再生を行う。
【0056】
上記ステップS14において、1つ後の所定単位における予定発話内容と話者の発話内容とが全く一致しないと判定された場合、動き制御部13はアバター画像の動き情報の再生を中断する(ステップS17)。その後、音声認識部14Aは、発話音声取得部12により継続して話者端末2から取得される話者の発話音声を音声認識することにより、発話内容をテキスト化する(ステップS18)。
【0057】
そして、この音声認識を行いながら、一致状態検出部14は所定単位が経過したか否かを判定する(ステップS19)。所定単位が経過していない場合、処理はステップS19に戻り、音声認識を継続する。そして、所定単位が経過したと判定された場合、処理はステップS4に戻る。ここでは、ステップS17で動き情報の再生を中断したときの予定発話内容と、その後に音声認識部14Aにより認識された話者の発話内容との一致状態を検出する。以降、ステップS4~S15の処理を行い、何れかのパターンで一致が判定されると、ステップS1に戻って動き情報の再生が再開される。
【0058】
上記ステップS16において、全ての所定単位の動き情報を再生し終わったと判定されると、図5に示すフローチャートの処理は終了する。
【0059】
以上詳しく説明したように、本実施形態では、所定単位ごとに定義したアバター画像の複数の動き情報を記憶するとともに、それぞれの動き情報に対応して予定されている発話の内容から特定される基準情報を記憶し、複数の動き情報を順次再生することによってアバター画像の動きを制御している際に話者の発話音声を解析し、その解析情報と基準情報との一致状態を所定単位ごとに検出し、検出される一致状態に応じて動き情報の再生を制御するようにしている。
【0060】
このように構成した本実施形態によれば、発話音声の解析情報と基準情報との一致状態の検出結果をもとに、アバター画像の動きに対応して発話することが予定されている内容と、話者による実際の発話の内容とのズレが所定単位ごとに逐次検出され、ズレが生じているときには動き情報の再生を制御することによってズレを低減することができる。これにより、話者はアバター画像の再生速度を制御するための操作を一々行う必要がなく、ただ発話を行うだけで話者の話者速度に合わせてアバター画像が対応する動きを行うようにすることができる。
【0061】
なお、上記実施形態では、基準情報を予定発話内容のテキスト情報で構成し、話者の発話音声を音声認識することにより取得される発話内容のテキスト情報との一致状態を検出する例について説明したが、本発明はこれに限定されない。例えば、基準情報を予定発話音声のフォルマント情報で構成し、話者の発話音声を音響解析することにより取得されるフォルマント情報との一致状態を検出するようにしてもよい。フォルマントは、基本的には母音を特徴づけるような特徴量になっており、フォルマントから発話音声の母音を推定することが可能である。
【0062】
図6は、フォルマント情報を用いて予定発話音声と話者の発話音声との一致状態を検出する場合におけるアバター動作制御装置10’の機能構成例を示すブロック図である。この図6において、図2に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。図6に示すように、アバター動作制御装置10’は、一致状態検出部14および情報記憶部15に代えて一致状態検出部14’および情報記憶部15’を備えている。一致状態検出部14’は、具体的な機能構成として、音響解析部14A’および一致判定部14B’を備えている。
【0063】
音響解析部14A’は、動き制御部13による動き情報の再生中における話者の発話音声に対して公知の音響解析を行うことにより、発話音声のフォルマント情報を抽出する。ここでは、第1フォルマントおよび第2フォルマントを抽出する。一致判定部14B’は、音響解析部14A’により解析された発話音声のフォルマント情報と、情報記憶部15に基準情報として記憶されている予定発話音声のフォルマント情報との一致状態を所定単位ごとに検出する。
【0064】
一致判定部14B’は、所定単位ごとに、話者の発話音声の母音と予定発話音声の母音とが全体として一致するパターン、前半部分のみで一致するパターン、後半部分のみで一致するパターン、全体として一致しないパターンの何れに該当するかを判定する。テキストとしての一致ではなく、母音としての一致であっても、話者の発話内容と予定発話内容との一致状態パターンをある程度は判定することが可能である。
【0065】
なお、図2のようにテキスト情報に基づいて話者の発話内容と予定発話内容との一致状態パターンを判定する例において、基準情報を予定発話音声の母音のテキスト情報で構成し、話者の発話音声を音声認識することによって取得されるテキスト情報から母音を判定して、テキスト情報に基づいて母音の一致状態を検出するようにしてもよい。
【0066】
また、上記実施形態では、話者の発話内容が、1つ前および1つ後の所定単位の予定発話内容と不一致であることが検出された場合に、アバター画像の動き情報の再生を中断する例について説明したが、本発明はこれに限定されない。例えば、待機用の動き情報(デフォルトの無難な動きなど)を用意しておき、当該待機用の動き情報を再生するようにしてもよい。
【0067】
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【符号の説明】
【0068】
1 対話制御装置
2 話者端末
3 聴者端末
10,10’ アバター動作制御装置
13 動き制御部
14,14’ 一致状態検出部
14A 音声認識部
14A’ 音響解析部
14B,14B’ 一致判定部
15,15’ 情報記憶部
図1
図2
図3
図4
図5
図6