特開2024-152492 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特開2024-152492映像生成装置及び映像生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024152492

(43)【公開日】2024-10-25

(54)【発明の名称】映像生成装置及び映像生成方法

(51)【国際特許分類】

G06F 3/01 20060101AFI20241018BHJP

G06F 3/16 20060101ALI20241018BHJP

H04N 21/231 20110101ALI20241018BHJP

H04N 21/233 20110101ALI20241018BHJP

H04N 23/60 20230101ALI20241018BHJP

G10L 25/84 20130101ALI20241018BHJP

【ＦＩ】

G06F3/01 510

G06F3/16 620

H04N21/231

H04N21/233

H04N23/60

G10L25/84

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2023066719

(22)【出願日】2023-04-14

(71)【出願人】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】中村功大

(72)【発明者】

【氏名】神保靖

(72)【発明者】

【氏名】長沼立巳

(72)【発明者】

【氏名】糟谷純一

(72)【発明者】

【氏名】内田早紀

(72)【発明者】

【氏名】小林朋央

(72)【発明者】

【氏名】高橋真那夢

【テーマコード（参考）】

5C122

5C164

5E555

【Ｆターム（参考）】

5C122EA42

5C122FJ01

5C122FJ03

5C122FJ04

5C122FJ15

5C122GA24

5C122GA34

5C122HB01

5C164FA06

5C164PA41

5C164SB01S

5C164SB04P

5C164SB36P

5E555AA01

5E555AA47

5E555BA02

5E555BA38

5E555BA46

5E555BA73

5E555BA87

5E555BB02

5E555BB38

5E555BC18

5E555CB64

5E555DB57

5E555EA23

5E555FA00

(57)【要約】

【課題】１人のユーザが複数の仮想キャラクタを演じる場合に、より自然に相互的な会話を成立させる。
【解決手段】ユーザの発話音声を取得する音声取得部１６１と、ユーザの発話音声が対応する複数のキャラクタとユーザの発話音声とを対応付ける対応付け判断部１６２と、対応付け判断部１６２が判断した、複数のキャラクタに対応するユーザの発話音声を一時的に記憶する一時記憶制御部１６３と、ユーザにより、直前に発話が行われたキャラクタに対応し、一時記憶制御部１６３に一時的に記憶された発話音声を、ユーザに対して出力する出力制御部１６４と、ユーザにより発話が行われた複数のキャラクタに対応付けられた発話音声と、複数のキャラクタの映像と、を記録する記録制御部１６７と、を備え、記録制御部１６７は、出力制御部１６４により出力された一時的に記憶された発話音声を除いた発話音声を記録する。
【選択図】図１

【特許請求の範囲】

【請求項1】

ユーザの発話音声を取得する音声取得部と、
前記ユーザの発話音声が対応する複数のキャラクタと前記ユーザの発話音声とを対応付ける対応付け判断部と、
前記対応付け判断部が判断した、前記複数のキャラクタに対応する前記ユーザの発話音声を一時的に記憶する一時記憶制御部と、
前記ユーザにより直前に発話が行われたキャラクタに対応し、前記一時記憶制御部によって一時的に記憶された発話音声を、前記ユーザに対して出力する出力制御部と、
前記ユーザにより発話が行われた前記複数のキャラクタに対応付けられた発話音声と、前記複数のキャラクタの映像と、を記録する記録制御部と、を備え、
前記記録制御部は、前記出力制御部により出力された前記一時的に記憶された発話音声を除いた発話音声を記録する、
映像生成装置。

【請求項2】

前記対応付け判断部は、前記音声取得部が取得した前記ユーザの発話音声を解析し、前記ユーザの発話音声の区切りに基づいて、前記ユーザの発話音声が対応する複数のキャラクタと発話音声との対応付けを行い、
前記出力制御部は、前記ユーザにより発話が行われたキャラクタの発話の区切りを検出したときに、区切りが検出された直前に発話が行われ、前記一時記憶制御部によって一時的に記憶された発話音声を、前記ユーザに対して出力する、
請求項１に記載の映像生成装置。

【請求項3】

前記対応付け判断部は、前記複数のキャラクタに対応する発話時間を計測し、
前記出力制御部は、前記対応付け判断部による発話時間の計測に応じて、前記ユーザにより発話が行われたキャラクタの発話の開始から所定時間経過したときに、前記一時記憶制御部によって一時的に記憶された前記キャラクタの発話音声を、前記ユーザに対して出力する、
請求項１に記載の映像生成装置。

【請求項4】

前記記録制御部は、前記出力制御部によって前記ユーザに対して一時的に記憶された発話音声が出力されている期間に対応する前記複数のキャラクタの映像を含まない映像を記録する、
請求項１から３のいずれか１項に記載の映像生成装置。

【請求項5】

ユーザの発話音声を取得する音声取得ステップと、
前記ユーザの発話音声が対応する複数のキャラクタと前記ユーザの発話音声とを対応付ける対応付け判断ステップと、
前記対応付け判断ステップで判断された、前記複数のキャラクタに対応する前記ユーザの発話音声を一時的に記憶する一時記憶ステップと、
前記ユーザにより直前に発話が行われたキャラクタに対応し、前記一時記憶ステップで一時的に記憶された発話音声を、前記ユーザに対して出力する出力制御ステップと、
前記ユーザにより発話が行われた前記複数のキャラクタに対応付けられた発話音声における、前記出力制御ステップにより出力された前記一時記憶ステップで記憶された発話音声を除いた発話音声と前記複数のキャラクタの映像を記録する記録制御ステップと、
を映像生成装置が実行する映像生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像生成装置及び映像生成方法に関する。

【背景技術】

【0002】

近年、個人の動画配信が拡大している。このような動画では、例えば、１人の動画作成者（以下、ユーザ）が複数の仮想キャラクタを制御して動画を作成する場合がある。このような場合、ユーザは、複数の仮想キャラクタ毎に対応した動作や発話を行う。

【0003】

特許文献１には、ユーザが複数の仮想キャラクタの操作を行うことができる技術が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２２－０２５４６７号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１に開示されているように、１人のユーザが操作対象となる複数の仮想キャラクタを切り替えながら操作を行う場合であって、複数の仮想キャラクタ同士の会話となるような操作を行う場合に、仮想キャラクタ同士の会話が不自然となることがある。具体的には、仮想キャラクタ同士の会話を、１人のユーザが演じる場合、相手の発話内容を聞くことによって発話内容を変化させるような相互的な会話が困難であるため、あらかじめ決められたシナリオに基づく発話となることが多く、不自然な会話となってしまうことがある。そのため、１人のユーザが複数の仮想キャラクタを演じる場合であっても、より自然に相互的な会話を成立させることが望まれていた。

【0006】

本開示は、上記に鑑みてなされたものであり、１人のユーザが複数の仮想キャラクタを演じる場合に、より自然に相互的な会話を成立させることを目的とする。

【課題を解決するための手段】

【0007】

本開示に係る映像生成装置は、ユーザの発話音声を取得する音声取得部と、前記ユーザの発話音声が対応する複数のキャラクタと前記ユーザの発話音声とを対応付ける対応付け判断部と、前記対応付け判断部が判断した、前記複数のキャラクタに対応する前記ユーザの発話音声を一時的に記憶する一時記憶制御部と、前記ユーザにより直前に発話が行われたキャラクタに対応し、前記一時記憶制御部によって一時的に記憶された発話音声を、前記ユーザに対して出力する出力制御部と、前記ユーザにより発話が行われた前記複数のキャラクタに対応付けられた発話音声と、前記複数のキャラクタの映像と、を記録する記録制御部と、を備え、前記記録制御部は、前記出力制御部により出力された前記一時的に記憶された発話音声を除いた発話音声を記録する。

【0008】

本開示に係る映像生成方法は、ユーザの発話音声を取得する音声取得ステップと、前記ユーザの発話音声が対応する複数のキャラクタと前記ユーザの発話音声とを対応付ける対応付け判断ステップと、前記対応付け判断ステップで判断された、前記複数のキャラクタに対応する前記ユーザの発話音声を一時的に記憶する一時記憶ステップと、前記ユーザにより直前に発話が行われたキャラクタに対応し、前記一時記憶ステップで一時的に記憶された発話音声を、前記ユーザに対して出力する出力制御ステップと、前記ユーザにより発話が行われた前記複数のキャラクタに対応付けられた発話音声における、前記出力制御ステップにより出力された前記一時記憶ステップで記憶された発話音声を除いた発話音声と前記複数のキャラクタの映像を記録する記録制御ステップと、を映像生成装置が実行する。

【発明の効果】

【0009】

これにより、１人のユーザが複数の仮想キャラクタを演じる場合に、より自然に相互的な会話を成立させることができる。

【図面の簡単な説明】

【0010】

【図1】実施の形態１にかかる映像生成装置の構成を示すブロック図である。

【図2】実施の形態１にかかるキャラクタ映像生成部で生成された映像の例を示す図である。

【図3】実施の形態１にかかる映像生成装置が出力する出力音声とユーザの発話のタイミングの一例を示す図である。

【図4】実施の形態１にかかる映像生成装置が生成する映像と音声のタイミングの一例を示す図である。

【図5】実施の形態１にかかる映像生成装置の動作フローを示すフローチャートである。

【図6】実施の形態２にかかる映像生成装置が出力する出力音声とユーザの発話のタイミングの一例を示す図である。

【図7】実施の形態２にかかる映像生成装置が生成する映像と音声のタイミングの一例を示す図である。

【図8】実施の形態２にかかる映像生成装置の動作フローを示すフローチャートである。

【発明を実施するための形態】

【0011】

実施の形態１
以下、図面を参照して本発明の実施の形態について説明する。図１は、映像生成装置の構成の一例を示すブロック図である。

【0012】

映像生成装置１は、カメラ１１と、マイクロフォン１２と、第１音声出力部１３と、表示部１４と、第２音声出力部１５と、制御部１６と、操作部１７と、記録部１８と、を備える。なお、映像生成装置１は、パーソナルコンピュータ等の情報処理装置であって、ユーザの動作や発話を、複数の仮想キャラクタの動きや発話に反映させ、仮想キャラクタの映像を生成する装置である。

【0013】

以下の説明においては、キャラクタと称する対象は、コンピュータによって生成される仮想キャラクタとして説明するが、キャラクタの概念には、ユーザの動作や発話を反映して動作する実体を伴うロボットのようなキャラクタも含まれ、本発明は、実体を伴うキャラクタへの適用を除外するものではない。

【0014】

カメラ１１は、ユーザを撮影できるように配置され、撮影制御部１６１によって動作が制御されるカメラ１１は、撮影した映像を撮影制御部１６１に出力する。

【0015】

マイクロフォン１２は、ユーザの発話音声を収音できるように配置され、撮影制御部１６１によって動作が制御される。マイクロフォン１２は、収音したユーザの発話音声を、撮影制御部１６１に出力する。

【0016】

第１音声出力部１３は、ユーザが装着することのできるヘッドフォン等の音声出力機器である。第１音声出力部１３は、スピーカー等の他の音声出力機器を利用することも可能であるが、第１音声出力部１３から出力される音声が、マイクロフォン１２に収音されない状態で、ユーザに伝達できる構成のものとする。

【0017】

表示部１４は、ユーザにより目視可能であるように配置された表示モニタである。表示部１４には、ユーザの動作や発話などによって操作する対象の仮想キャラクタが表示される。すなわち、ユーザは、表示部１４の表示画面を見ながら、複数の仮想キャラクタの動作に反映される動作や発話などを行うことができる。

【0018】

第２音声出力部１５は、第１音声出力部１３と同様に、ユーザが装着することのできるヘッドフォンやスピーカー等の音声出力機器である。第２音声出力部１５では、表示部１４に表示される映像に対応した音声が出力される。なお、第２音声出力部１５には、第１音声出力部１３が音声を出力するヘッドフォン等と同一のものを用いることとしてもよい。

【0019】

制御部１６は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などを含んで構成された演算処理装置であり、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などの内部メモリを用いて、様々なプログラムを動作させることで、映像生成装置１の各部の動作制御を行う。制御部１６は、プログラムの実行によって実現する機能として、撮影制御部１６１と、対応付け判断部１６２と、一時記憶制御部１６３と、出力制御部１６４と、操作制御部１６５と、キャラクタ映像生成部１６６と、記録制御部１６７と、再生制御部１６８と、を備える。

【0020】

撮影制御部１６１は、カメラ１１制御と、マイクロフォン１２の制御を行う。具体的には、撮影制御部１６１は、カメラ１１に撮影を行わせ、カメラ１１が撮影した映像を取得する。このため、撮影制御部１６１は、映像取得部と言い換えることもできる。また、撮影制御部１６１は、マイクロフォン１２が収音したユーザの発話音声を取得する。このため、撮影制御部１６１は、音声取得部と言い換えることもできる。

【0021】

対応付け判断部１６２は、ユーザの発話音声が対応する複数のキャラクタと、ユーザの発話音声とを対応付ける処理を行う。対応付け判断部１６２は、後述する操作部１７によるユーザの操作、図示しない視線検出機能によるユーザの視線、ユーザの発話音声区切りなどに基づいて、ユーザの動作や発話音声を対応付けるキャラクタを判断し、切り替えを行う。

【0022】

より具体的には、対応付け判断部１６２は、ユーザの操作によってユーザの動作や発話音声を対応付けるキャラクタを切り替える場合には、操作部１７の入力結果に基づき、対応付けるキャラクタを切り替える。この場合、操作制御部１６５が、操作部１７の入力内容を受けて操作情報の制御を行うことにより、対応付け判断部１６２に対して対応付けるキャラクタを切り替えるように指示することができる。

【0023】

また、対応付け判断部１６２は、ユーザ視線の向きによってユーザの動作や発話音声を対応付けるキャラクタを切り替える場合には、撮影制御部１６１の制御に応じてカメラ１１により取得した映像からユーザの視線方向を検出し、ユーザが見ている側のキャラクタを、ユーザの動作や発話音声を対応付けるキャラクタと判断する。この場合、対応付け判断部１６２は、視線検出部としての機能を備える。

【0024】

また、対応付け判断部１６２は、ユーザの顔の向きによってユーザの動作や発話音声を対応付けるキャラクタを切り替える場合には、撮影制御部１６１の制御に応じてカメラ１１により取得した映像からユーザの顔と顔の向きを検出し、ユーザの顔が向いている側のキャラクタを、ユーザの動作や発話音声を対応付けるキャラクタと判断する。この場合、対応付け判断部１６２は、顔検出部としての機能を備える。

【0025】

また、対応付け判断部１６２は、ユーザの発話音声区切りの検出に基づいてユーザの動作や発話音声を対応付けるキャラクタを切り替える場合には、撮影制御部１６１の制御に応じてマイクロフォン１２で取得した発話音声から、所定時間以上（例えば２秒以上など）の発話の空白を区切りとして検出し、ユーザの動作や発話音声を対応付けるキャラクタを切り替える。

【0026】

一時記憶制御部１６３は、制御部１６が備える内部メモリ（図示せず）などに、発話音声を一時記憶させることができる。なお、一時記憶制御部１６３には、内部メモリとしてＲＡＭなどを用いる他、ＲＡＭに代えて、ＳＳＤ（Solid State Drive）や外部サーバなどの外部記憶装置等に発話音声を一時記憶させてもよいが、以下では内部メモリのＲＡＭを用いるものとして説明する。一時記憶制御部１６３では、対応付け判断部１６２が判断した、複数のキャラクタに対応する発話音声を一時的に記憶することができる。一時記憶制御部１６３は、複数のキャラクタに対応する発話音声として、対応するキャラクタの声に変換された発話音声を一時的に記憶する。

【0027】

出力制御部１６４は、第１音声出力部１３、表示部１４、及び第２音声出力部１５に対して、音声および映像の出力を行う。出力制御部１６４は、ユーザにより直前に発話が行われたキャラクタに対応し、一時記憶制御部１６３によって一時的に記憶された発話音声を、ユーザに対して、第１音声出力部１３を用いて出力する。出力制御部１６４は、キャラクタ映像生成部１６６によって生成され、記録部１８に記録されている映像が、再生制御部１６８によって再生されたとき、再生された映像を表示部１４および第２音声出力部１５に出力する。出力制御部１６４は、キャラクタ映像生成部１６６が、ユーザの動作および発話に基づいて仮想キャラクタの映像を生成しているとき、言い換えると、ユーザが仮想キャラクタに対応する動作および発話を行っているときに、ユーザの動作を反映した仮想キャラクタの映像を、表示部１４に出力する。

【0028】

操作制御部１６５は、ユーザによる操作部１７の操作入力に基づき、操作入力に対応した各種の動作制御を行う。なお、操作部１７は、ユーザにより操作可能である入力機器であって、マウスやキーボードを用いることができるが、これらに限られない。

【0029】

キャラクタ映像生成部１６６は、予め設定された仮想キャラクタの映像を生成する。具体的には、キャラクタ映像生成部１６６は、撮影制御部１６１により制御されたカメラ１１で取得されたたユーザの動作を解析し、キャラクタの動作に反映させる。この場合、キャラクタ映像生成部１６６は、撮影されたユーザを検出し、ユーザの動作を検出する動作検出部としての機能を備える。

【0030】

また、キャラクタ映像生成部１６６は、映像からの検出に代えて、ユーザが装着するトラッキングデバイスによる検出に応じて、顔の動き、顔の向き、手や足の動き等のユーザの動作をキャラクタに反映させてもよい。

【0031】

さらに、キャラクタ映像生成部１６６は、撮影制御部１６１により制御されたマイクロフォン１２が取得したユーザの発話音声を、キャラクタの発話音声として反映させる。この場合、キャラクタ映像生成部１６６は、ユーザの発話音声を検出する音声検出部としての機能を備える。キャラクタ映像生成部１６６は、ユーザの発話音声に対し、音源分離処理および音声認識処理を行い、音声認識結果に基づいた内容を、キャラクタの発話音声として生成することができる。つまり、ユーザが発話した内容を、対応するキャラクタの声に変換して、キャラクタに発話させる。

【0032】

さらに、キャラクタ映像生成部１６６は、複数のキャラクタの映像を生成する場合には、ユーザの動作やユーザの発話を、対応付け判断部１６２で対応付けが判断されたキャラクタに対して反映させることができる。図２に示すように、以下では、キャラクタ映像生成部１６６は、第１のキャラクタＣＨ１と、第２のキャラクタＣＨ２を生成するものとして説明する。なお以下では、第１のキャラクタＣＨ１をキャラクタ１、第２のキャラクタＣＨ２をキャラクタ２と記載する場合がある。

【0033】

具体的な１例として、キャラクタ映像生成部１６６は、表示部１４に図２のように第１のキャラクタＣＨ１と第２のキャラクタＣＨ２が表示された状態で、ユーザが第１のキャラクタＣＨ１の方向を向きながら動作や発話をした場合に、その発話は、第１のキャラクタＣＨ１の動作と発話として反映させることができる。同様に、キャラクタ映像生成部１６６は、ユーザが第２のキャラクタＣＨ２の方向を向きながら動作や発話をした場合に、その発話は、第２のキャラクタＣＨ２の動作と発話として反映させることができる。

【0034】

なお、キャラクタ映像生成部１６６により、第１のキャラクタＣＨ１や第２のキャラクタＣＨ２に反映された動作や発話について、一時記憶制御部１６３に応じて、制御部１６が備える内部メモリに一時記憶することができる。

【0035】

記録制御部１６７は、一時記憶制御部１６３に記憶された情報を利用して、キャラクタ映像生成部１６６により生成された映像を記録部１８に記憶するための制御を行う。

【0036】

再生制御部１６８は、記録部１８に記憶された映像の再生の制御を行う。

【0037】

記録部１８は、ＲＡＭや、ＳＳＤや外部サーバなどの外部記憶装置であって、キャラクタ映像生成部１６６により生成された映像を記憶することができる。なお、記録部１８は、キャラクタ映像生成部１６６により生成される最終的な映像するだけでなく、作成中の映像を一時的に記憶することに利用することもできる。

【0038】

次に、出力制御部１６４により、複数のキャラクタのうち、第１のキャラクタＣＨ１に対応する発話後に、一時的に記憶されている第１のキャラクタＣＨ１に対応する発話音声をユーザに対して出力しながら、映像の生成を行う手順の例について、図３、図４及び図５を参照しながら説明する。

【0039】

図３は、第１のキャラクタＣＨ１及び第２のキャラクタＣＨ２の２人の映像を生成する際に映像生成装置１から行う出力音声とユーザの発話のタイミングの一例を示した図である。

【0040】

具体的には、対応付け判断部１６２では、撮影制御部１６１の制御に応じてマイクロフォン１２で取得したユーザの発話音声を解析し、ユーザの発話音声の区切りに基づいて、ユーザの発話音声が対応する複数のキャラクタと発話音声との対応付けを行う。そして、出力制御部１６４は、複数のキャラクタのうち、第１のキャラクタＣＨ１に対応する発話後に、一時記憶制御部１６３が記憶している第１のキャラクタＣＨ１に対応する発話音声をユーザに対して出力する。図３は、これらのタイミングの一例を示した図である。以下では、発話にフォーカスして説明するが、同時にカメラ１１が撮影したユーザの動作についても、対応する複数のキャラクタ毎に対応付けされているものとする。

【0041】

図３に示すように、対応付け判断部１６２では、ユーザが第１のキャラクタＣＨ１に対応する発話（発話ＣＨ１－０１）をすることによって、時刻t11の前の区切りと時刻t12の後の区切りに基づき、時刻t11-t12の期間の発話と動作は、第１のキャラクタＣＨ１の発話と動作として対応付けられる。すなわち、キャラクタ映像生成部１６６では、この時刻t11-t12の期間の動作と発話を行う第１のキャラクタＣＨ１の映像が生成される。なお、一時記憶制御部１６３は、この期間の発話音声を内部メモリに記憶する。

【0042】

対応付け判断部１６２は、時刻t12において、生成対象とするキャラクタ切り替えを行う。

【0043】

ここで例えば、対応付け判断部１６２では、時刻t12において、一旦、第１のキャラクタＣＨ１の映像の生成は終了したものと判定して、対象とするキャラクタの切り替え準備を開始する。なお、キャラクタ映像生成部１６６は、時刻t11-t12の期間に第１のキャラクタＣＨ１の映像の生成を行うことが可能である。

【0044】

ここで、t12におけるキャラクタの切り替え準備とは、その後にいずれのキャラクタの映像の作成にも切り替えられることを示す。そのため、第１のキャラクタＣＨ１の映像の生成の後に、第２のキャラクタＣＨ２の映像の生成が可能となるようにするだけでなく、引き続き、第１のキャラクタＣＨ１の映像を生成が可能となるようにすることも含む。

【0045】

また、出力制御部１６４は、時刻t12-t13において、内部メモリに記憶された第１のキャラクタＣＨ１の発話音声ＣＨ１－０１ｔを、第１音声出力部１３から出力させる。これによりユーザは、時刻t11-t12において録音した発話音声を、時刻t12-t13で聞く状態となる。

【0046】

なお、この一時記憶された発話音声が出力されている時刻t12-t13において、ユーザの動作や音声は、いずれのキャラクタにも反映しないこととする。

【0047】

ユーザは、内部メモリに一時記憶された発話音声の出力開始後、任意のタイミングで切り替え後のキャラクタに反映させる発話と動作を開始することができる。ここでは、時刻t12から、キャラクタの切り替え準備が開始されて時刻t13までには準備が完了しており、時刻t14に、第２のキャラクタＣＨ２に対応する発話（発話ＣＨ２－０１）をすることとして説明する。

【0048】

すなわち、対応付け判断部１６２では、ユーザが第２のキャラクタＣＨ２に対応する発話（発話ＣＨ２－０１）をすることによって、時刻t14-t15の期間の発話と動作は、第２のキャラクタＣＨ２の発話と動作として対応付けられる。すなわち、キャラクタ映像生成部１６６では、この時刻t14-t15の期間の動作と発話を行う第２のキャラクタＣＨ２の映像が生成される。なお、一時記憶制御部１６３は、この期間の発話音声を内部メモリに記憶する。

【0049】

ここで例えば、対応付け判断部１６２では、時刻t15において、生成対象とするキャラクタ切り替えを行う。すなわち、対応付け判断部１６２は、時刻t15において、一旦、第２のキャラクタＣＨ２の映像の生成は終了したものとして、対象とするキャラクタの切り替え準備を開始する。なお、キャラクタ映像生成部１６６は、時刻t15-t16（図示せず）の期間に第２のキャラクタＣＨ２の映像の生成を行うことが可能である。

【0050】

また、出力制御部１６４は、時刻t15-t16において、内部メモリに記憶された第２のキャラクタＣＨ２の発話音声ＣＨ２－０１ｔを、第２音声出力部１５から出力させる。これによりユーザは、時刻t14-t15において録音した発話音声を、時刻t15-t16で聞く状態となる。

【0051】

ここで出力制御部１６４は、第１のキャラクタＣＨ１の発話音声ＣＨ１－０１ｔと、第２のキャラクタＣＨ２の発話音声ＣＨ２－０１ｔについて、第１のキャラクタＣＨ１と第２のキャラクタＣＨ２の生成画像における位置関係に対応するように、一時記憶された発話音声を出力することができる。

【0052】

具体的には、生成画像上で第１のキャラクタＣＨ１が生成画像の左側に存在し、第２のキャラクタＣＨ２が生成画像の右側に存在する場合、出力制御部１６４は、第１のキャラクタＣＨ１に対応する一時記憶された発話音声を、第１音声出力部１３の左チャンネル音声として出力し、第２のキャラクタＣＨ２に対応する一時記憶された発話音声を、第１音声出力部の右チャンネル音声として出力してもよい。

【0053】

また、出力制御部１６４は、第１音声出力部１３及び第２音声出力部１５による各キャラクタに対応する発話の一時記憶された発話音声の出力を、各キャラクタの声として生成された発話音声で出力するように制御することができる。なお、出力制御部１６４は、ユーザの声のまま出力するように制御することも可能であるが、各キャラクタの声で出力する方が効果的である。

【0054】

言い換えると、出力制御部１６４では、複数のキャラクタのうち直前に発話が入力されたキャラクタに対応する一時記憶制御部１６３に記憶されている発話音声を、ユーザに対して出力する。ここでは特に、対象とするキャラクタについて、一時記憶制御部１６３には、直前に入力された発話の内容が記憶されているものとして、出力制御部１６４では、直前に入力された発話の内容を出力することができる。

【0055】

ここでは、出力制御部１６４による発話の開始は、ユーザによる発話の入力の終了後である。したがって、第１のキャラクタＣＨ１に対応する発話の入力における区切りの後に、出力制御部１６４は、第１のキャラクタＣＨ１の発話音声を再生してユーザに対して出力することができる。第２のキャラクタＣＨ２の場合も同様である。

【0056】

ここで、キャラクタ映像生成部１６６では、最終的に生成される映像として、一時記録された発話音声を含まない映像を生成する。図４は、最終的に生成される映像に反映されるタイミングの一例を示した図である。すなわち図４に示すように、キャラクタ映像生成部１６６が、最終的に生成する際に映像に用いる発話音声は、時刻t11-t12や、時刻t14-t15に入力され、ユーザの発話音声を各キャラクタの声として生成した発話音声である。

【0057】

そのため、キャラクタ映像生成部１６６では、時刻t12-t13のように、一時記憶された発話音声がユーザに対して出力されている期間や映像は除いた映像を生成する。これにより、キャラクタ映像生成部１６６では、複数のキャラクタに対応する動作と発話に基づく適切な映像の生成が可能である。一時記録された発話音声の出力後であり、次のキャラクタの発話音声が開始される時刻t12-t13等の期間に対しては、最終的に生成される映像に含んでもよく、含まなくともよい。時刻t12-t13の期間を最終的に生成される映像に含む場合は、図４に記載されているt12はt13でもある。時刻t12-t13の期間を最終的に生成される映像に含まない場合は、図４におけるt12とt14は同一タイミングである。

【0058】

言い換えると、映像生成装置１では、出力制御部１６４によりユーザに対して発話音声が出力される期間の映像は、削除される期間である。そして、映像生成装置１では、映像全体からこの削除される期間の映像を削除する。これにより、記録制御部１６７は、出力制御部１６４により、一時的に記憶された発話音声が再生されている間の発話音声を除いた状態で、発話音声を記録部１８に記録することができる。

【0059】

図５は、これらの動作フローの一例を示したフローチャートである。図５に示す処理は、ユーザの操作等によって、仮想キャラクタを生成するためのアプリケーションが起動した場合や、アプリケーションにおける生成開始指示が行われることで開始される。また、図５に示す処理の終了も同様であり、ユーザの操作等によって、仮想キャラクタを生成するためのアプリケーションが終了された場合や、アプリケーションにおける生成終了指示が行われることで終了する。

【0060】

処理の開始により、撮影制御部１６１は、撮影を開始する（ステップＳ０１）。言い換えると、撮影制御部１６１は、映像取得部としてカメラ１１が撮影した映像を取得し、音声取得部としてマイクロフォン１２が収音した音声を取得する。

【0061】

対応付け判断部１６２は、カメラ１１及びマイクロフォン１２により取得されたユーザの動作や発話の解析を開始する（ステップＳ０２）。

【0062】

対応付け判断部１６２は、ユーザが第１のキャラクタＣＨ１に対応する発話を開始したか否かを判定する（ステップＳ０３）。ここで、対応付け判断部１６２が、第１のキャラクタＣＨ１に対応する発話を開始していると判定した場合には（ステップＳ０３でＹｅｓ）ステップＳ０４に進み、第１のキャラクタＣＨ１に対応する発話ではないと判定した場合には（ステップＳ０３でＮｏ）、ステップＳ０８に進む。

【0063】

一時記憶制御部１６３は、取得されたユーザの動作や発話を、内部メモリに一時記憶するように制御を行う（ステップＳ０４）。

【0064】

対応付け判断部１６２は、第１のキャラクタＣＨ１に対応する発話が終了したか否かを判定する（ステップＳ０５）。この対応付け判断部１６２による発話の終了の判定は、例えば、音声取得部であるマイクロフォン１２により取得したユーザの発話音声を解析し、ユーザの発話音声の区切りに基づいて行うことができる。

【0065】

発話が終了していないと判定した場合には（ステップＳ０５でＮｏ）、発話が終了するまで内部メモリへの一時記憶を続行したまま、発話が終了したか否かの判定を繰り返す。発話が終了したと判定した場合には（ステップＳ０５でＹｅｓ）、ステップＳ０６に進む。

【0066】

制御部１６は、撮影を終了するか否かを判定する（ステップＳ０６）。例えば、制御部１６では、ユーザが操作部１７を操作して撮影を終了する旨を選択することや、所定の時間、ユーザによる発話が未入力の場合に、撮影終了することを決定できる。撮影を終了すると判定されない場合には（ステップＳ０６でＮｏ）、ステップＳ０７に進む。撮影を終了すると判定された場合には（ステップＳ０６でＹｅｓ）、キャラクタ映像生成部１６６は、最終的に生成される映像を生成して、本処理を終了する。ステップＳ０６に示す撮影終了の判定はステップＳ０７の後に行われてもよい。

【0067】

出力制御部１６４は、第１のキャラクタＣＨ１の音声として、一時記憶された音声を、第１音声出力部１３から出力する（ステップＳ０７）。その後、ステップＳ０３に戻る。

【0068】

ステップＳ０３において、対応付け判断部１６２が、ユーザによる発話が第１のキャラクタＣＨ１に対応する発話ではないと判定した場合（ステップＳ０３でＮｏ）、第２のキャラクタＣＨ２に対応する発話であるか否かを判定する（ステップＳ０８）。

【0069】

ユーザによる発話が、第２のキャラクタＣＨ２に対応する発話ではない場合（ステップＳ０８でＮｏ）、いずれのキャラクタにも対応する発話をしていないこととなるので、処理を終了する。ユーザによる発話が、第２のキャラクタＣＨ２に対応する発話であれば（ステップＳ０８でＹｅｓ）、ステップＳ０９に進む。

【0070】

一時記憶制御部１６３は、取得されたユーザの動作や発話を、内部メモリに一時記憶するように制御を行う（ステップＳ０９）。

【0071】

対応付け判断部１６２は、第２のキャラクタＣＨ２に対応する発話が終了したか否かを判定する（ステップＳ１０）。この対応付け判断部１６２による発話の終了の判定は、例えば、音声取得部であるマイクロフォン１２により取得したユーザの発話音声を解析し、ユーザの発話音声の区切りに基づいて行うことができる。

【0072】

発話が終了していないと判定した場合には、（ステップＳ１０でＮｏ）発話が終了するまで内部メモリへの一時記憶を続行したまま、発話が終了したか否かの判定を繰り返す。発話が終了したと判定した場合には（ステップＳ１０でＹｅｓ）、ステップＳ１１に進む。

【0073】

制御部１６は、撮影を終了するか否かを判定する（ステップＳ１１）。例えば、制御部１６では、ユーザが操作部１７を操作して撮影を終了する旨を選択することや、所定の時間、ユーザによる発話が未入力の場合に、撮影終了することを決定できる。撮影を終了すると判定されない場合には（ステップＳ１１でＮｏ）、ステップＳ１２に進む。撮影を終了すると判定された場合には（ステップＳ１１でＹｅｓ）、キャラクタ映像生成部１６６は、最終的に生成される映像を生成して、本処理を終了する。ステップＳ１１に示す撮影終了の判定はステップＳ１２の後に行われてもよい。

【0074】

出力制御部１６４は、第２のキャラクタＣＨ２の音声として、一時記憶された音声を、第２音声出力部１５から出力する（ステップＳ１２）。その後、ステップＳ０３に戻る。

【0075】

ステップＳ０６でＮｏ，ステップＳ０８でＮｏ，ステップＳ１１でＹｅｓのいずれかの処理により撮影を終了した後に、キャラクタ映像生成部１６６では、図４に示すような最終的な映像を生成し、生成された最終的な映像は、記録制御部１６７によって記録部１８に記録される。あるいは、キャラクタ映像生成部１６６では、上述したステップＳ０１～ステップＳ１２のフローの実行と平行して、適宜、図４に示すような最終的な映像を生成してもよい。

【0076】

これにより、１人のユーザが複数の仮想キャラクタを演じる場合に、より自然に相互的な会話を成立させる状態で、映像を生成することができる。

【0077】

実施の形態２
実施の形態２に用いる映像生成装置は、実施の形態１に示した映像生成装置１と同様の構成とすることができるため、説明を省略する。

【0078】

実施の形態１では、ユーザにより、キャラクタに対応する発話の入力が終了した後に、ユーザに向けて出力音声の再生を行っていた。実施の形態２では、ユーザによる発話の入力の開始時からの経過時間を参照して、出力音声の再生を行う方法について説明する。

【0079】

図６に示すように、ユーザが時刻t21から第１のキャラクタＣＨ１に対応する発話を開始した場合に、出力制御部１６４では、時刻t21から所定期間（例えば１０秒など）経過した時刻t22から、一時記憶された時刻t21からの発話音声を第１音声出力部１３に出力する。

【0080】

なお、操作制御部１６５は、操作部１７からのユーザの操作により、この所定期間の長さを変更することができる。

【0081】

この方法によると、ユーザの発話が終了する前に、出力音声の再生を開始することができる。具体的には、映像生成装置１では、時刻t21-t23において、第１のキャラクタＣＨ１に対応する発話（発話ＣＨ１－０３）を行い、時刻t22-t24において、ユーザへの第１のキャラクタＣＨ１の発話音声（発話音声ＣＨ１－０３ｔ）の出力を行うことができる。すなわち、時刻t22-t23では、ユーザが発話を入力しながら、時刻t21から入力し始めた発話内容を、第１音声出力部１３から聞く状態とすることができる。なお、第２のキャラクタＣＨ２についても同様である。

【0082】

ここで図７は、最終的に生成される映像に反映されるタイミング図である。この場合には、キャラクタ映像生成部１６６が、最終的な映像を生成する際に、ユーザによる発話の時間は時刻t21-t23、及び時刻t25-t27に行われていることとなる。したがって、キャラクタ映像生成部１６６では、一時記憶された発話音声がユーザに対して出力されている期間である時刻t23-t24の映像は除いた映像を生成する。これにより、キャラクタ映像生成部１６６では、複数のキャラクタに対応する動作と発話に基づく適切な映像の生成が可能である。

【0083】

すなわち、ユーザによる発話の入力と、出力制御部１６４によりユーザに対して発話音声を出力している時刻が重複していても、再生されている一時的に記憶された発話音声を含まない映像を生成することができる。

【0084】

図８は、これらの動作フローの一例を示したフローチャートである。図８に示すステップＳ２１からステップＳ２４、ステップＳ２７、ステップＳ２８からステップＳ２９、およびステップＳ３２の処理は、図５に示すステップＳ０１からステップＳ０４、ステップＳ０６、ステップＳ０８からステップＳ０９、およびステップＳ１１の処理と同一であるため、説明を省略する。

【0085】

対応付け判断部１６２は、キャラクタに対応する発話時間を計測し、発話の開始から所定時間が経過したか否かを判定する（ステップＳ２５）。ここでは、対応付け判断部１６２は、第１のキャラクタＣＨ１に対応する、発話開始時からの時間経過を計測する。

【0086】

所定時間が経過していないと判定した場合には（ステップＳ２５でＮｏ）、発話が終了するまで内部メモリへの一時記憶を続行したまま、所定時間の経過の判定を繰り返す。所定時間が経過したと判定した場合には（ステップＳ２５でＹｅｓ）、ステップＳ２６に進む。

【0087】

ステップＳ２５で、発話開始から所定時間経過した後、出力制御部１６４は、第１のキャラクタＣＨ１の音声として、一時記憶された音声を、第１音声出力部１３から出力する（ステップＳ２６）。なおこのとき、ユーザによる第１のキャラクタＣＨ１に対応する発話の入力は、平行して行うことができる。すなわち、ユーザは、第１のキャラクタＣＨ１にかかる入力のための発話をしながら、一時記憶制御部１６３に記憶され第１音声出力部１３で出力される第１のキャラクタＣＨ１の発話音声を、聞く状態となる。

【0088】

対応付け判断部１６２は、キャラクタに対応する発話時間を計測し、発話の開始から所定時間が経過したか否かを判定する（ステップＳ３０）。ここでは、対応付け判断部１６２は、第２のキャラクタＣＨ２に対応する、発話開始時からの時間経過を計測する。

【0089】

所定時間が経過していないと判定した場合には（ステップＳ３０でＮｏ）、発話が終了するまで内部メモリへの一時記憶を続行したまま、所定時間の経過の判定を繰り返す。所定時間が経過したと判定した場合には（ステップＳ３０でＹｅｓ）、ステップＳ３１に進む。

【0090】

ステップＳ３０で、発話開始から所定時間経過した後、出力制御部１６４は、第２のキャラクタＣＨ２の音声として、一時記憶された音声を、第２音声出力部１５から出力する（ステップＳ３１）。なおこのとき、ユーザによる第２のキャラクタＣＨ２に対応する発話の入力は、平行して行うことができる。すなわち、ユーザは、第２のキャラクタＣＨ２にかかる入力のための発話をしながら、一時記憶制御部１６３に記憶され第２音声出力部１５で出力される第２のキャラクタＣＨ２の発話音声を、聞く状態となる。

【0091】

これにより、１人のユーザが複数の仮想キャラクタを演じる場合に、より自然に相互的な会話を成立させる状態で、映像を生成することができる。この際に、長めの発話の入力が行われた場合であっても、入力された発話をユーザが聞いているだけの時間を短縮することができるので、効率よく映像の生成を行うことができる。

【0092】

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

【符号の説明】

【0093】

１１カメラ
１２マイクロフォン
１３第１音声出力部
１４表示部
１５第２音声出力部
１６制御部
１７操作部
１８記録部
１６１撮影制御部
１６２判断部
１６３一時記憶制御部
１６４出力制御部
１６５操作制御部
１６６キャラクタ映像生成部
１６７記録制御部
１６８再生制御部

【図1】