(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024152492
(43)【公開日】2024-10-25
(54)【発明の名称】映像生成装置及び映像生成方法
(51)【国際特許分類】
G06F 3/01 20060101AFI20241018BHJP
G06F 3/16 20060101ALI20241018BHJP
H04N 21/231 20110101ALI20241018BHJP
H04N 21/233 20110101ALI20241018BHJP
H04N 23/60 20230101ALI20241018BHJP
G10L 25/84 20130101ALI20241018BHJP
【FI】
G06F3/01 510
G06F3/16 620
H04N21/231
H04N21/233
H04N23/60
G10L25/84
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023066719
(22)【出願日】2023-04-14
(71)【出願人】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】中村 功大
(72)【発明者】
【氏名】神保 靖
(72)【発明者】
【氏名】長沼 立巳
(72)【発明者】
【氏名】糟谷 純一
(72)【発明者】
【氏名】内田 早紀
(72)【発明者】
【氏名】小林 朋央
(72)【発明者】
【氏名】高橋 真那夢
【テーマコード(参考)】
5C122
5C164
5E555
【Fターム(参考)】
5C122EA42
5C122FJ01
5C122FJ03
5C122FJ04
5C122FJ15
5C122GA24
5C122GA34
5C122HB01
5C164FA06
5C164PA41
5C164SB01S
5C164SB04P
5C164SB36P
5E555AA01
5E555AA47
5E555BA02
5E555BA38
5E555BA46
5E555BA73
5E555BA87
5E555BB02
5E555BB38
5E555BC18
5E555CB64
5E555DB57
5E555EA23
5E555FA00
(57)【要約】
【課題】1人のユーザが複数の仮想キャラクタを演じる場合に、より自然に相互的な会話を成立させる。
【解決手段】ユーザの発話音声を取得する音声取得部161と、ユーザの発話音声が対応する複数のキャラクタとユーザの発話音声とを対応付ける対応付け判断部162と、対応付け判断部162が判断した、複数のキャラクタに対応するユーザの発話音声を一時的に記憶する一時記憶制御部163と、ユーザにより、直前に発話が行われたキャラクタに対応し、一時記憶制御部163に一時的に記憶された発話音声を、ユーザに対して出力する出力制御部164と、ユーザにより発話が行われた複数のキャラクタに対応付けられた発話音声と、複数のキャラクタの映像と、を記録する記録制御部167と、を備え、記録制御部167は、出力制御部164により出力された一時的に記憶された発話音声を除いた発話音声を記録する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ユーザの発話音声を取得する音声取得部と、
前記ユーザの発話音声が対応する複数のキャラクタと前記ユーザの発話音声とを対応付ける対応付け判断部と、
前記対応付け判断部が判断した、前記複数のキャラクタに対応する前記ユーザの発話音声を一時的に記憶する一時記憶制御部と、
前記ユーザにより直前に発話が行われたキャラクタに対応し、前記一時記憶制御部によって一時的に記憶された発話音声を、前記ユーザに対して出力する出力制御部と、
前記ユーザにより発話が行われた前記複数のキャラクタに対応付けられた発話音声と、前記複数のキャラクタの映像と、を記録する記録制御部と、を備え、
前記記録制御部は、前記出力制御部により出力された前記一時的に記憶された発話音声を除いた発話音声を記録する、
映像生成装置。
【請求項2】
前記対応付け判断部は、前記音声取得部が取得した前記ユーザの発話音声を解析し、前記ユーザの発話音声の区切りに基づいて、前記ユーザの発話音声が対応する複数のキャラクタと発話音声との対応付けを行い、
前記出力制御部は、前記ユーザにより発話が行われたキャラクタの発話の区切りを検出したときに、区切りが検出された直前に発話が行われ、前記一時記憶制御部によって一時的に記憶された発話音声を、前記ユーザに対して出力する、
請求項1に記載の映像生成装置。
【請求項3】
前記対応付け判断部は、前記複数のキャラクタに対応する発話時間を計測し、
前記出力制御部は、前記対応付け判断部による発話時間の計測に応じて、前記ユーザにより発話が行われたキャラクタの発話の開始から所定時間経過したときに、前記一時記憶制御部によって一時的に記憶された前記キャラクタの発話音声を、前記ユーザに対して出力する、
請求項1に記載の映像生成装置。
【請求項4】
前記記録制御部は、前記出力制御部によって前記ユーザに対して一時的に記憶された発話音声が出力されている期間に対応する前記複数のキャラクタの映像を含まない映像を記録する、
請求項1から3のいずれか1項に記載の映像生成装置。
【請求項5】
ユーザの発話音声を取得する音声取得ステップと、
前記ユーザの発話音声が対応する複数のキャラクタと前記ユーザの発話音声とを対応付ける対応付け判断ステップと、
前記対応付け判断ステップで判断された、前記複数のキャラクタに対応する前記ユーザの発話音声を一時的に記憶する一時記憶ステップと、
前記ユーザにより直前に発話が行われたキャラクタに対応し、前記一時記憶ステップで一時的に記憶された発話音声を、前記ユーザに対して出力する出力制御ステップと、
前記ユーザにより発話が行われた前記複数のキャラクタに対応付けられた発話音声における、前記出力制御ステップにより出力された前記一時記憶ステップで記憶された発話音声を除いた発話音声と前記複数のキャラクタの映像を記録する記録制御ステップと、
を映像生成装置が実行する映像生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像生成装置及び映像生成方法に関する。
【背景技術】
【0002】
近年、個人の動画配信が拡大している。このような動画では、例えば、1人の動画作成者(以下、ユーザ)が複数の仮想キャラクタを制御して動画を作成する場合がある。このような場合、ユーザは、複数の仮想キャラクタ毎に対応した動作や発話を行う。
【0003】
特許文献1には、ユーザが複数の仮想キャラクタの操作を行うことができる技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に開示されているように、1人のユーザが操作対象となる複数の仮想キャラクタを切り替えながら操作を行う場合であって、複数の仮想キャラクタ同士の会話となるような操作を行う場合に、仮想キャラクタ同士の会話が不自然となることがある。具体的には、仮想キャラクタ同士の会話を、1人のユーザが演じる場合、相手の発話内容を聞くことによって発話内容を変化させるような相互的な会話が困難であるため、あらかじめ決められたシナリオに基づく発話となることが多く、不自然な会話となってしまうことがある。そのため、1人のユーザが複数の仮想キャラクタを演じる場合であっても、より自然に相互的な会話を成立させることが望まれていた。
【0006】
本開示は、上記に鑑みてなされたものであり、1人のユーザが複数の仮想キャラクタを演じる場合に、より自然に相互的な会話を成立させることを目的とする。
【課題を解決するための手段】
【0007】
本開示に係る映像生成装置は、ユーザの発話音声を取得する音声取得部と、前記ユーザの発話音声が対応する複数のキャラクタと前記ユーザの発話音声とを対応付ける対応付け判断部と、前記対応付け判断部が判断した、前記複数のキャラクタに対応する前記ユーザの発話音声を一時的に記憶する一時記憶制御部と、前記ユーザにより直前に発話が行われたキャラクタに対応し、前記一時記憶制御部によって一時的に記憶された発話音声を、前記ユーザに対して出力する出力制御部と、前記ユーザにより発話が行われた前記複数のキャラクタに対応付けられた発話音声と、前記複数のキャラクタの映像と、を記録する記録制御部と、を備え、前記記録制御部は、前記出力制御部により出力された前記一時的に記憶された発話音声を除いた発話音声を記録する。
【0008】
本開示に係る映像生成方法は、ユーザの発話音声を取得する音声取得ステップと、前記ユーザの発話音声が対応する複数のキャラクタと前記ユーザの発話音声とを対応付ける対応付け判断ステップと、前記対応付け判断ステップで判断された、前記複数のキャラクタに対応する前記ユーザの発話音声を一時的に記憶する一時記憶ステップと、前記ユーザにより直前に発話が行われたキャラクタに対応し、前記一時記憶ステップで一時的に記憶された発話音声を、前記ユーザに対して出力する出力制御ステップと、前記ユーザにより発話が行われた前記複数のキャラクタに対応付けられた発話音声における、前記出力制御ステップにより出力された前記一時記憶ステップで記憶された発話音声を除いた発話音声と前記複数のキャラクタの映像を記録する記録制御ステップと、を映像生成装置が実行する。
【発明の効果】
【0009】
これにより、1人のユーザが複数の仮想キャラクタを演じる場合に、より自然に相互的な会話を成立させることができる。
【図面の簡単な説明】
【0010】
【
図1】実施の形態1にかかる映像生成装置の構成を示すブロック図である。
【
図2】実施の形態1にかかるキャラクタ映像生成部で生成された映像の例を示す図である。
【
図3】実施の形態1にかかる映像生成装置が出力する出力音声とユーザの発話のタイミングの一例を示す図である。
【
図4】実施の形態1にかかる映像生成装置が生成する映像と音声のタイミングの一例を示す図である。
【
図5】実施の形態1にかかる映像生成装置の動作フローを示すフローチャートである。
【
図6】実施の形態2にかかる映像生成装置が出力する出力音声とユーザの発話のタイミングの一例を示す図である。
【
図7】実施の形態2にかかる映像生成装置が生成する映像と音声のタイミングの一例を示す図である。
【
図8】実施の形態2にかかる映像生成装置の動作フローを示すフローチャートである。
【発明を実施するための形態】
【0011】
実施の形態1
以下、図面を参照して本発明の実施の形態について説明する。
図1は、映像生成装置の構成の一例を示すブロック図である。
【0012】
映像生成装置1は、カメラ11と、マイクロフォン12と、第1音声出力部13と、表示部14と、第2音声出力部15と、制御部16と、操作部17と、記録部18と、を備える。なお、映像生成装置1は、パーソナルコンピュータ等の情報処理装置であって、ユーザの動作や発話を、複数の仮想キャラクタの動きや発話に反映させ、仮想キャラクタの映像を生成する装置である。
【0013】
以下の説明においては、キャラクタと称する対象は、コンピュータによって生成される仮想キャラクタとして説明するが、キャラクタの概念には、ユーザの動作や発話を反映して動作する実体を伴うロボットのようなキャラクタも含まれ、本発明は、実体を伴うキャラクタへの適用を除外するものではない。
【0014】
カメラ11は、ユーザを撮影できるように配置され、撮影制御部161によって動作が制御されるカメラ11は、撮影した映像を撮影制御部161に出力する。
【0015】
マイクロフォン12は、ユーザの発話音声を収音できるように配置され、撮影制御部161によって動作が制御される。マイクロフォン12は、収音したユーザの発話音声を、撮影制御部161に出力する。
【0016】
第1音声出力部13は、ユーザが装着することのできるヘッドフォン等の音声出力機器である。第1音声出力部13は、スピーカー等の他の音声出力機器を利用することも可能であるが、第1音声出力部13から出力される音声が、マイクロフォン12に収音されない状態で、ユーザに伝達できる構成のものとする。
【0017】
表示部14は、ユーザにより目視可能であるように配置された表示モニタである。表示部14には、ユーザの動作や発話などによって操作する対象の仮想キャラクタが表示される。すなわち、ユーザは、表示部14の表示画面を見ながら、複数の仮想キャラクタの動作に反映される動作や発話などを行うことができる。
【0018】
第2音声出力部15は、第1音声出力部13と同様に、ユーザが装着することのできるヘッドフォンやスピーカー等の音声出力機器である。第2音声出力部15では、表示部14に表示される映像に対応した音声が出力される。なお、第2音声出力部15には、第1音声出力部13が音声を出力するヘッドフォン等と同一のものを用いることとしてもよい。
【0019】
制御部16は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などを含んで構成された演算処理装置であり、RAM(Random Access Memory)やROM(Read Only Memory)などの内部メモリを用いて、様々なプログラムを動作させることで、映像生成装置1の各部の動作制御を行う。制御部16は、プログラムの実行によって実現する機能として、撮影制御部161と、対応付け判断部162と、一時記憶制御部163と、出力制御部164と、操作制御部165と、キャラクタ映像生成部166と、記録制御部167と、再生制御部168と、を備える。
【0020】
撮影制御部161は、カメラ11制御と、マイクロフォン12の制御を行う。具体的には、撮影制御部161は、カメラ11に撮影を行わせ、カメラ11が撮影した映像を取得する。このため、撮影制御部161は、映像取得部と言い換えることもできる。また、撮影制御部161は、マイクロフォン12が収音したユーザの発話音声を取得する。このため、撮影制御部161は、音声取得部と言い換えることもできる。
【0021】
対応付け判断部162は、ユーザの発話音声が対応する複数のキャラクタと、ユーザの発話音声とを対応付ける処理を行う。対応付け判断部162は、後述する操作部17によるユーザの操作、図示しない視線検出機能によるユーザの視線、ユーザの発話音声区切りなどに基づいて、ユーザの動作や発話音声を対応付けるキャラクタを判断し、切り替えを行う。
【0022】
より具体的には、対応付け判断部162は、ユーザの操作によってユーザの動作や発話音声を対応付けるキャラクタを切り替える場合には、操作部17の入力結果に基づき、対応付けるキャラクタを切り替える。この場合、操作制御部165が、操作部17の入力内容を受けて操作情報の制御を行うことにより、対応付け判断部162に対して対応付けるキャラクタを切り替えるように指示することができる。
【0023】
また、対応付け判断部162は、ユーザ視線の向きによってユーザの動作や発話音声を対応付けるキャラクタを切り替える場合には、撮影制御部161の制御に応じてカメラ11により取得した映像からユーザの視線方向を検出し、ユーザが見ている側のキャラクタを、ユーザの動作や発話音声を対応付けるキャラクタと判断する。この場合、対応付け判断部162は、視線検出部としての機能を備える。
【0024】
また、対応付け判断部162は、ユーザの顔の向きによってユーザの動作や発話音声を対応付けるキャラクタを切り替える場合には、撮影制御部161の制御に応じてカメラ11により取得した映像からユーザの顔と顔の向きを検出し、ユーザの顔が向いている側のキャラクタを、ユーザの動作や発話音声を対応付けるキャラクタと判断する。この場合、対応付け判断部162は、顔検出部としての機能を備える。
【0025】
また、対応付け判断部162は、ユーザの発話音声区切りの検出に基づいてユーザの動作や発話音声を対応付けるキャラクタを切り替える場合には、撮影制御部161の制御に応じてマイクロフォン12で取得した発話音声から、所定時間以上(例えば2秒以上など)の発話の空白を区切りとして検出し、ユーザの動作や発話音声を対応付けるキャラクタを切り替える。
【0026】
一時記憶制御部163は、制御部16が備える内部メモリ(図示せず)などに、発話音声を一時記憶させることができる。なお、一時記憶制御部163には、内部メモリとしてRAMなどを用いる他、RAMに代えて、SSD(Solid State Drive)や外部サーバなどの外部記憶装置等に発話音声を一時記憶させてもよいが、以下では内部メモリのRAMを用いるものとして説明する。一時記憶制御部163では、対応付け判断部162が判断した、複数のキャラクタに対応する発話音声を一時的に記憶することができる。一時記憶制御部163は、複数のキャラクタに対応する発話音声として、対応するキャラクタの声に変換された発話音声を一時的に記憶する。
【0027】
出力制御部164は、第1音声出力部13、表示部14、及び第2音声出力部15に対して、音声および映像の出力を行う。出力制御部164は、ユーザにより直前に発話が行われたキャラクタに対応し、一時記憶制御部163によって一時的に記憶された発話音声を、ユーザに対して、第1音声出力部13を用いて出力する。出力制御部164は、キャラクタ映像生成部166によって生成され、記録部18に記録されている映像が、再生制御部168によって再生されたとき、再生された映像を表示部14および第2音声出力部15に出力する。出力制御部164は、キャラクタ映像生成部166が、ユーザの動作および発話に基づいて仮想キャラクタの映像を生成しているとき、言い換えると、ユーザが仮想キャラクタに対応する動作および発話を行っているときに、ユーザの動作を反映した仮想キャラクタの映像を、表示部14に出力する。
【0028】
操作制御部165は、ユーザによる操作部17の操作入力に基づき、操作入力に対応した各種の動作制御を行う。なお、操作部17は、ユーザにより操作可能である入力機器であって、マウスやキーボードを用いることができるが、これらに限られない。
【0029】
キャラクタ映像生成部166は、予め設定された仮想キャラクタの映像を生成する。具体的には、キャラクタ映像生成部166は、撮影制御部161により制御されたカメラ11で取得されたたユーザの動作を解析し、キャラクタの動作に反映させる。この場合、キャラクタ映像生成部166は、撮影されたユーザを検出し、ユーザの動作を検出する動作検出部としての機能を備える。
【0030】
また、キャラクタ映像生成部166は、映像からの検出に代えて、ユーザが装着するトラッキングデバイスによる検出に応じて、顔の動き、顔の向き、手や足の動き等のユーザの動作をキャラクタに反映させてもよい。
【0031】
さらに、キャラクタ映像生成部166は、撮影制御部161により制御されたマイクロフォン12が取得したユーザの発話音声を、キャラクタの発話音声として反映させる。この場合、キャラクタ映像生成部166は、ユーザの発話音声を検出する音声検出部としての機能を備える。キャラクタ映像生成部166は、ユーザの発話音声に対し、音源分離処理および音声認識処理を行い、音声認識結果に基づいた内容を、キャラクタの発話音声として生成することができる。つまり、ユーザが発話した内容を、対応するキャラクタの声に変換して、キャラクタに発話させる。
【0032】
さらに、キャラクタ映像生成部166は、複数のキャラクタの映像を生成する場合には、ユーザの動作やユーザの発話を、対応付け判断部162で対応付けが判断されたキャラクタに対して反映させることができる。
図2に示すように、以下では、キャラクタ映像生成部166は、第1のキャラクタCH1と、第2のキャラクタCH2を生成するものとして説明する。なお以下では、第1のキャラクタCH1をキャラクタ1、第2のキャラクタCH2をキャラクタ2と記載する場合がある。
【0033】
具体的な1例として、キャラクタ映像生成部166は、表示部14に
図2のように第1のキャラクタCH1と第2のキャラクタCH2が表示された状態で、ユーザが第1のキャラクタCH1の方向を向きながら動作や発話をした場合に、その発話は、第1のキャラクタCH1の動作と発話として反映させることができる。同様に、キャラクタ映像生成部166は、ユーザが第2のキャラクタCH2の方向を向きながら動作や発話をした場合に、その発話は、第2のキャラクタCH2の動作と発話として反映させることができる。
【0034】
なお、キャラクタ映像生成部166により、第1のキャラクタCH1や第2のキャラクタCH2に反映された動作や発話について、一時記憶制御部163に応じて、制御部16が備える内部メモリに一時記憶することができる。
【0035】
記録制御部167は、一時記憶制御部163に記憶された情報を利用して、キャラクタ映像生成部166により生成された映像を記録部18に記憶するための制御を行う。
【0036】
再生制御部168は、記録部18に記憶された映像の再生の制御を行う。
【0037】
記録部18は、RAMや、SSDや外部サーバなどの外部記憶装置であって、キャラクタ映像生成部166により生成された映像を記憶することができる。なお、記録部18は、キャラクタ映像生成部166により生成される最終的な映像するだけでなく、作成中の映像を一時的に記憶することに利用することもできる。
【0038】
次に、出力制御部164により、複数のキャラクタのうち、第1のキャラクタCH1に対応する発話後に、一時的に記憶されている第1のキャラクタCH1に対応する発話音声をユーザに対して出力しながら、映像の生成を行う手順の例について、
図3、
図4及び
図5を参照しながら説明する。
【0039】
図3は、第1のキャラクタCH1及び第2のキャラクタCH2の2人の映像を生成する際に映像生成装置1から行う出力音声とユーザの発話のタイミングの一例を示した図である。
【0040】
具体的には、対応付け判断部162では、撮影制御部161の制御に応じてマイクロフォン12で取得したユーザの発話音声を解析し、ユーザの発話音声の区切りに基づいて、ユーザの発話音声が対応する複数のキャラクタと発話音声との対応付けを行う。そして、出力制御部164は、複数のキャラクタのうち、第1のキャラクタCH1に対応する発話後に、一時記憶制御部163が記憶している第1のキャラクタCH1に対応する発話音声をユーザに対して出力する。
図3は、これらのタイミングの一例を示した図である。以下では、発話にフォーカスして説明するが、同時にカメラ11が撮影したユーザの動作についても、対応する複数のキャラクタ毎に対応付けされているものとする。
【0041】
図3に示すように、対応付け判断部162では、ユーザが第1のキャラクタCH1に対応する発話(発話CH1-01)をすることによって、時刻t11の前の区切りと時刻t12の後の区切りに基づき、時刻t11-t12の期間の発話と動作は、第1のキャラクタCH1の発話と動作として対応付けられる。すなわち、キャラクタ映像生成部166では、この時刻t11-t12の期間の動作と発話を行う第1のキャラクタCH1の映像が生成される。なお、一時記憶制御部163は、この期間の発話音声を内部メモリに記憶する。
【0042】
対応付け判断部162は、時刻t12において、生成対象とするキャラクタ切り替えを行う。
【0043】
ここで例えば、対応付け判断部162では、時刻t12において、一旦、第1のキャラクタCH1の映像の生成は終了したものと判定して、対象とするキャラクタの切り替え準備を開始する。なお、キャラクタ映像生成部166は、時刻t11-t12の期間に第1のキャラクタCH1の映像の生成を行うことが可能である。
【0044】
ここで、t12におけるキャラクタの切り替え準備とは、その後にいずれのキャラクタの映像の作成にも切り替えられることを示す。そのため、第1のキャラクタCH1の映像の生成の後に、第2のキャラクタCH2の映像の生成が可能となるようにするだけでなく、引き続き、第1のキャラクタCH1の映像を生成が可能となるようにすることも含む。
【0045】
また、出力制御部164は、時刻t12-t13において、内部メモリに記憶された第1のキャラクタCH1の発話音声CH1-01tを、第1音声出力部13から出力させる。これによりユーザは、時刻t11-t12において録音した発話音声を、時刻t12-t13で聞く状態となる。
【0046】
なお、この一時記憶された発話音声が出力されている時刻t12-t13において、ユーザの動作や音声は、いずれのキャラクタにも反映しないこととする。
【0047】
ユーザは、内部メモリに一時記憶された発話音声の出力開始後、任意のタイミングで切り替え後のキャラクタに反映させる発話と動作を開始することができる。ここでは、時刻t12から、キャラクタの切り替え準備が開始されて時刻t13までには準備が完了しており、時刻t14に、第2のキャラクタCH2に対応する発話(発話CH2-01)をすることとして説明する。
【0048】
すなわち、対応付け判断部162では、ユーザが第2のキャラクタCH2に対応する発話(発話CH2-01)をすることによって、時刻t14-t15の期間の発話と動作は、第2のキャラクタCH2の発話と動作として対応付けられる。すなわち、キャラクタ映像生成部166では、この時刻t14-t15の期間の動作と発話を行う第2のキャラクタCH2の映像が生成される。なお、一時記憶制御部163は、この期間の発話音声を内部メモリに記憶する。
【0049】
ここで例えば、対応付け判断部162では、時刻t15において、生成対象とするキャラクタ切り替えを行う。すなわち、対応付け判断部162は、時刻t15において、一旦、第2のキャラクタCH2の映像の生成は終了したものとして、対象とするキャラクタの切り替え準備を開始する。なお、キャラクタ映像生成部166は、時刻t15-t16(図示せず)の期間に第2のキャラクタCH2の映像の生成を行うことが可能である。
【0050】
また、出力制御部164は、時刻t15-t16において、内部メモリに記憶された第2のキャラクタCH2の発話音声CH2-01tを、第2音声出力部15から出力させる。これによりユーザは、時刻t14-t15において録音した発話音声を、時刻t15-t16で聞く状態となる。
【0051】
ここで出力制御部164は、第1のキャラクタCH1の発話音声CH1-01tと、第2のキャラクタCH2の発話音声CH2-01tについて、第1のキャラクタCH1と第2のキャラクタCH2の生成画像における位置関係に対応するように、一時記憶された発話音声を出力することができる。
【0052】
具体的には、生成画像上で第1のキャラクタCH1が生成画像の左側に存在し、第2のキャラクタCH2が生成画像の右側に存在する場合、出力制御部164は、第1のキャラクタCH1に対応する一時記憶された発話音声を、第1音声出力部13の左チャンネル音声として出力し、第2のキャラクタCH2に対応する一時記憶された発話音声を、第1音声出力部の右チャンネル音声として出力してもよい。
【0053】
また、出力制御部164は、第1音声出力部13及び第2音声出力部15による各キャラクタに対応する発話の一時記憶された発話音声の出力を、各キャラクタの声として生成された発話音声で出力するように制御することができる。なお、出力制御部164は、ユーザの声のまま出力するように制御することも可能であるが、各キャラクタの声で出力する方が効果的である。
【0054】
言い換えると、出力制御部164では、複数のキャラクタのうち直前に発話が入力されたキャラクタに対応する一時記憶制御部163に記憶されている発話音声を、ユーザに対して出力する。ここでは特に、対象とするキャラクタについて、一時記憶制御部163には、直前に入力された発話の内容が記憶されているものとして、出力制御部164では、直前に入力された発話の内容を出力することができる。
【0055】
ここでは、出力制御部164による発話の開始は、ユーザによる発話の入力の終了後である。したがって、第1のキャラクタCH1に対応する発話の入力における区切りの後に、出力制御部164は、第1のキャラクタCH1の発話音声を再生してユーザに対して出力することができる。第2のキャラクタCH2の場合も同様である。
【0056】
ここで、キャラクタ映像生成部166では、最終的に生成される映像として、一時記録された発話音声を含まない映像を生成する。
図4は、最終的に生成される映像に反映されるタイミングの一例を示した図である。すなわち
図4に示すように、キャラクタ映像生成部166が、最終的に生成する際に映像に用いる発話音声は、時刻t11-t12や、時刻t14-t15に入力され、ユーザの発話音声を各キャラクタの声として生成した発話音声である。
【0057】
そのため、キャラクタ映像生成部166では、時刻t12-t13のように、一時記憶された発話音声がユーザに対して出力されている期間や映像は除いた映像を生成する。これにより、キャラクタ映像生成部166では、複数のキャラクタに対応する動作と発話に基づく適切な映像の生成が可能である。一時記録された発話音声の出力後であり、次のキャラクタの発話音声が開始される時刻t12-t13等の期間に対しては、最終的に生成される映像に含んでもよく、含まなくともよい。時刻t12-t13の期間を最終的に生成される映像に含む場合は、
図4に記載されているt12はt13でもある。時刻t12-t13の期間を最終的に生成される映像に含まない場合は、
図4におけるt12とt14は同一タイミングである。
【0058】
言い換えると、映像生成装置1では、出力制御部164によりユーザに対して発話音声が出力される期間の映像は、削除される期間である。そして、映像生成装置1では、映像全体からこの削除される期間の映像を削除する。これにより、記録制御部167は、出力制御部164により、一時的に記憶された発話音声が再生されている間の発話音声を除いた状態で、発話音声を記録部18に記録することができる。
【0059】
図5は、これらの動作フローの一例を示したフローチャートである。
図5に示す処理は、ユーザの操作等によって、仮想キャラクタを生成するためのアプリケーションが起動した場合や、アプリケーションにおける生成開始指示が行われることで開始される。また、
図5に示す処理の終了も同様であり、ユーザの操作等によって、仮想キャラクタを生成するためのアプリケーションが終了された場合や、アプリケーションにおける生成終了指示が行われることで終了する。
【0060】
処理の開始により、撮影制御部161は、撮影を開始する(ステップS01)。言い換えると、撮影制御部161は、映像取得部としてカメラ11が撮影した映像を取得し、音声取得部としてマイクロフォン12が収音した音声を取得する。
【0061】
対応付け判断部162は、カメラ11及びマイクロフォン12により取得されたユーザの動作や発話の解析を開始する(ステップS02)。
【0062】
対応付け判断部162は、ユーザが第1のキャラクタCH1に対応する発話を開始したか否かを判定する(ステップS03)。ここで、対応付け判断部162が、第1のキャラクタCH1に対応する発話を開始していると判定した場合には(ステップS03でYes)ステップS04に進み、第1のキャラクタCH1に対応する発話ではないと判定した場合には(ステップS03でNo)、ステップS08に進む。
【0063】
一時記憶制御部163は、取得されたユーザの動作や発話を、内部メモリに一時記憶するように制御を行う(ステップS04)。
【0064】
対応付け判断部162は、第1のキャラクタCH1に対応する発話が終了したか否かを判定する(ステップS05)。この対応付け判断部162による発話の終了の判定は、例えば、音声取得部であるマイクロフォン12により取得したユーザの発話音声を解析し、ユーザの発話音声の区切りに基づいて行うことができる。
【0065】
発話が終了していないと判定した場合には(ステップS05でNo)、発話が終了するまで内部メモリへの一時記憶を続行したまま、発話が終了したか否かの判定を繰り返す。発話が終了したと判定した場合には(ステップS05でYes)、ステップS06に進む。
【0066】
制御部16は、撮影を終了するか否かを判定する(ステップS06)。例えば、制御部16では、ユーザが操作部17を操作して撮影を終了する旨を選択することや、所定の時間、ユーザによる発話が未入力の場合に、撮影終了することを決定できる。撮影を終了すると判定されない場合には(ステップS06でNo)、ステップS07に進む。撮影を終了すると判定された場合には(ステップS06でYes)、キャラクタ映像生成部166は、最終的に生成される映像を生成して、本処理を終了する。ステップS06に示す撮影終了の判定はステップS07の後に行われてもよい。
【0067】
出力制御部164は、第1のキャラクタCH1の音声として、一時記憶された音声を、第1音声出力部13から出力する(ステップS07)。その後、ステップS03に戻る。
【0068】
ステップS03において、対応付け判断部162が、ユーザによる発話が第1のキャラクタCH1に対応する発話ではないと判定した場合(ステップS03でNo)、第2のキャラクタCH2に対応する発話であるか否かを判定する(ステップS08)。
【0069】
ユーザによる発話が、第2のキャラクタCH2に対応する発話ではない場合(ステップS08でNo)、いずれのキャラクタにも対応する発話をしていないこととなるので、処理を終了する。ユーザによる発話が、第2のキャラクタCH2に対応する発話であれば(ステップS08でYes)、ステップS09に進む。
【0070】
一時記憶制御部163は、取得されたユーザの動作や発話を、内部メモリに一時記憶するように制御を行う(ステップS09)。
【0071】
対応付け判断部162は、第2のキャラクタCH2に対応する発話が終了したか否かを判定する(ステップS10)。この対応付け判断部162による発話の終了の判定は、例えば、音声取得部であるマイクロフォン12により取得したユーザの発話音声を解析し、ユーザの発話音声の区切りに基づいて行うことができる。
【0072】
発話が終了していないと判定した場合には、(ステップS10でNo)発話が終了するまで内部メモリへの一時記憶を続行したまま、発話が終了したか否かの判定を繰り返す。発話が終了したと判定した場合には(ステップS10でYes)、ステップS11に進む。
【0073】
制御部16は、撮影を終了するか否かを判定する(ステップS11)。例えば、制御部16では、ユーザが操作部17を操作して撮影を終了する旨を選択することや、所定の時間、ユーザによる発話が未入力の場合に、撮影終了することを決定できる。撮影を終了すると判定されない場合には(ステップS11でNo)、ステップS12に進む。撮影を終了すると判定された場合には(ステップS11でYes)、キャラクタ映像生成部166は、最終的に生成される映像を生成して、本処理を終了する。ステップS11に示す撮影終了の判定はステップS12の後に行われてもよい。
【0074】
出力制御部164は、第2のキャラクタCH2の音声として、一時記憶された音声を、第2音声出力部15から出力する(ステップS12)。その後、ステップS03に戻る。
【0075】
ステップS06でNo,ステップS08でNo,ステップS11でYesのいずれかの処理により撮影を終了した後に、キャラクタ映像生成部166では、
図4に示すような最終的な映像を生成し、生成された最終的な映像は、記録制御部167によって記録部18に記録される。あるいは、キャラクタ映像生成部166では、上述したステップS01~ステップS12のフローの実行と平行して、適宜、
図4に示すような最終的な映像を生成してもよい。
【0076】
これにより、1人のユーザが複数の仮想キャラクタを演じる場合に、より自然に相互的な会話を成立させる状態で、映像を生成することができる。
【0077】
実施の形態2
実施の形態2に用いる映像生成装置は、実施の形態1に示した映像生成装置1と同様の構成とすることができるため、説明を省略する。
【0078】
実施の形態1では、ユーザにより、キャラクタに対応する発話の入力が終了した後に、ユーザに向けて出力音声の再生を行っていた。実施の形態2では、ユーザによる発話の入力の開始時からの経過時間を参照して、出力音声の再生を行う方法について説明する。
【0079】
図6に示すように、ユーザが時刻t21から第1のキャラクタCH1に対応する発話を開始した場合に、出力制御部164では、時刻t21から所定期間(例えば10秒など)経過した時刻t22から、一時記憶された時刻t21からの発話音声を第1音声出力部13に出力する。
【0080】
なお、操作制御部165は、操作部17からのユーザの操作により、この所定期間の長さを変更することができる。
【0081】
この方法によると、ユーザの発話が終了する前に、出力音声の再生を開始することができる。具体的には、映像生成装置1では、時刻t21-t23において、第1のキャラクタCH1に対応する発話(発話CH1-03)を行い、時刻t22-t24において、ユーザへの第1のキャラクタCH1の発話音声(発話音声CH1-03t)の出力を行うことができる。すなわち、時刻t22-t23では、ユーザが発話を入力しながら、時刻t21から入力し始めた発話内容を、第1音声出力部13から聞く状態とすることができる。なお、第2のキャラクタCH2についても同様である。
【0082】
ここで
図7は、最終的に生成される映像に反映されるタイミング図である。この場合には、キャラクタ映像生成部166が、最終的な映像を生成する際に、ユーザによる発話の時間は時刻t21-t23、及び時刻t25-t27に行われていることとなる。したがって、キャラクタ映像生成部166では、一時記憶された発話音声がユーザに対して出力されている期間である時刻t23-t24の映像は除いた映像を生成する。これにより、キャラクタ映像生成部166では、複数のキャラクタに対応する動作と発話に基づく適切な映像の生成が可能である。
【0083】
すなわち、ユーザによる発話の入力と、出力制御部164によりユーザに対して発話音声を出力している時刻が重複していても、再生されている一時的に記憶された発話音声を含まない映像を生成することができる。
【0084】
図8は、これらの動作フローの一例を示したフローチャートである。
図8に示すステップS21からステップS24、ステップS27、ステップS28からステップS29、およびステップS32の処理は、
図5に示すステップS01からステップS04、ステップS06、ステップS08からステップS09、およびステップS11の処理と同一であるため、説明を省略する。
【0085】
対応付け判断部162は、キャラクタに対応する発話時間を計測し、発話の開始から所定時間が経過したか否かを判定する(ステップS25)。ここでは、対応付け判断部162は、第1のキャラクタCH1に対応する、発話開始時からの時間経過を計測する。
【0086】
所定時間が経過していないと判定した場合には(ステップS25でNo)、発話が終了するまで内部メモリへの一時記憶を続行したまま、所定時間の経過の判定を繰り返す。所定時間が経過したと判定した場合には(ステップS25でYes)、ステップS26に進む。
【0087】
ステップS25で、発話開始から所定時間経過した後、出力制御部164は、第1のキャラクタCH1の音声として、一時記憶された音声を、第1音声出力部13から出力する(ステップS26)。なおこのとき、ユーザによる第1のキャラクタCH1に対応する発話の入力は、平行して行うことができる。すなわち、ユーザは、第1のキャラクタCH1にかかる入力のための発話をしながら、一時記憶制御部163に記憶され第1音声出力部13で出力される第1のキャラクタCH1の発話音声を、聞く状態となる。
【0088】
対応付け判断部162は、キャラクタに対応する発話時間を計測し、発話の開始から所定時間が経過したか否かを判定する(ステップS30)。ここでは、対応付け判断部162は、第2のキャラクタCH2に対応する、発話開始時からの時間経過を計測する。
【0089】
所定時間が経過していないと判定した場合には(ステップS30でNo)、発話が終了するまで内部メモリへの一時記憶を続行したまま、所定時間の経過の判定を繰り返す。所定時間が経過したと判定した場合には(ステップS30でYes)、ステップS31に進む。
【0090】
ステップS30で、発話開始から所定時間経過した後、出力制御部164は、第2のキャラクタCH2の音声として、一時記憶された音声を、第2音声出力部15から出力する(ステップS31)。なおこのとき、ユーザによる第2のキャラクタCH2に対応する発話の入力は、平行して行うことができる。すなわち、ユーザは、第2のキャラクタCH2にかかる入力のための発話をしながら、一時記憶制御部163に記憶され第2音声出力部15で出力される第2のキャラクタCH2の発話音声を、聞く状態となる。
【0091】
これにより、1人のユーザが複数の仮想キャラクタを演じる場合に、より自然に相互的な会話を成立させる状態で、映像を生成することができる。この際に、長めの発話の入力が行われた場合であっても、入力された発話をユーザが聞いているだけの時間を短縮することができるので、効率よく映像の生成を行うことができる。
【0092】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【符号の説明】
【0093】
11 カメラ
12 マイクロフォン
13 第1音声出力部
14 表示部
15 第2音声出力部
16 制御部
17 操作部
18 記録部
161 撮影制御部
162 判断部
163 一時記憶制御部
164 出力制御部
165 操作制御部
166 キャラクタ映像生成部
167 記録制御部
168 再生制御部