(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-29
(45)【発行日】2024-06-06
(54)【発明の名称】仮想人物対話システム、映像生成方法、映像生成プログラム
(51)【国際特許分類】
G06T 13/80 20110101AFI20240530BHJP
【FI】
G06T13/80 B
(21)【出願番号】P 2020179082
(22)【出願日】2020-10-26
(62)【分割の表示】P 2019215306の分割
【原出願日】2019-11-28
【審査請求日】2022-11-25
(73)【特許権者】
【識別番号】520203356
【氏名又は名称】株式会社シルバコンパス
(74)【代理人】
【識別番号】100103872
【氏名又は名称】粕川 敏夫
(72)【発明者】
【氏名】安田 晴彦
【審査官】▲高▼橋 真之
(56)【参考文献】
【文献】特開2014-186744(JP,A)
【文献】特開平09-153145(JP,A)
【文献】特開2001-249949(JP,A)
【文献】特開2017-224190(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 13/80
(57)【特許請求の範囲】
【請求項1】
人が動作する映像モデルを複数種類記憶する映像モデルデータベースと、
前記映像モデルデータベース内のデータから、仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択部と、
前記仮想人物の顔データを前記使用映像モデルに統合する顔挿入部と、
前記仮想人物の声を生成する音声処理部と、
前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理部と、
人物の性格モデルを複数記憶する性格モデルデータベースと、
前記仮想人物の生成に使用する使用性格モデルを、前記性格モデルデータベース内のデータから選択する性格モデル選択部と、
前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージを生成する対話処理部と、
前記メッセージを受信可能な複数の端末から送信される前記メッセージに対する評価に基づいて、前記使用性格モデルを補正する性格モデル補正部と、
を備え、
前記対話処理部は、前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージに表れる喜怒哀楽を決定し、当該喜怒哀楽を含んだ前記メッセージを生成する、
仮想人物対話システム。
【請求項2】
前記性格モデル選択部は、前記仮想人物の生成対象となる人物が作成した記録に基づいて、前記使用性格モデルを前記性格モデルデータベース内のデータから選択する、
請求項1記載の仮想人物対話システム。
【請求項3】
前記性格モデル選択部は、ユーザが質問に答えていくことで、あらかじめ用意された性格の基本分類に基づいて、前記仮想人物の基本的な性格付けが行われ、前記仮想人物の生成に使用する使用性格モデルを前記性格モデルデータベースに含まれる性格のいずれかに分類する、
請求項1又は2記載の仮想人物対話システム。
【請求項4】
前記仮想人物への質問が入力される入力部と、前記仮想人物の返答を出力する出力部と、をさらに備え、
前記対話処理部は、前記質問に対する返答を生成し、前記出力部から前記返答を出力させる、
請求項1乃至3のいずれかに記載の仮想人物対話システム。
【請求項5】
人が動作する映像モデルを複数種類記憶する映像モデルデータベースと、人物の性格モデルを複数記憶する性格モデルデータベースと、を備える仮想人物対話システムにより、仮想人物の映像を生成する方法であって、
前記映像モデルデータベース内のデータから、前記仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択ステップと、
前記仮想人物の顔データを前記使用映像モデルに統合する顔挿入ステップと、
前記仮想人物の声を生成する音声処理ステップと、
前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理ステップと、
前記仮想人物の生成に使用する使用性格モデルを、前記性格モデルデータベース内のデータから選択する性格モデル選択ステップと、
前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージを生成する対話処理ステップと、
前記メッセージを受信可能な複数の端末から送信される前記メッセージに対する評価に基づいて、前記使用性格モデルを補正する性格モデル補正ステップと、
を含み、
前記対話処理ステップでは、前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージに表れる喜怒哀楽を決定し、当該喜怒哀楽を含んだ前記メッセージを生成する、
映像生成方法。
【請求項6】
人が動作する映像モデルを複数種類記憶する映像モデルデータベースと、人物の性格モデルを複数記憶する性格モデルデータベースと、を備える仮想人物対話システムにより、仮想人物の映像を生成するコンピュータプログラムであって、
前記映像モデルデータベース内のデータから、前記仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択命令と、
前記仮想人物の顔データを前記使用映像モデルに統合する顔挿入命令と、
前記仮想人物の声を生成する音声処理命令と、
前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理命令と、
前記仮想人物の生成に使用する使用性格モデルを、前記性格モデルデータベース内のデータから選択する性格モデル選択命令と、
前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージを生成する対話処理命令と、
前記メッセージを受信可能な複数の端末から送信される前記メッセージに対する評価に基づいて、前記使用性格モデルを補正する性格モデル補正命令と、
をコンピュータに実行させ、
前記対話処理命令では、前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージに表れる喜怒哀楽を決定し、当該喜怒哀楽を含んだ前記メッセージを生成する、
映像生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、仮想人物対話システム、仮想人物対話システムによる映像生成方法および仮想人物対話システムの映像生成プログラムに関する。
【背景技術】
【0002】
特許文献1には、指定された特定の顔画像データと、補正処理に利用された顔画像データとに基づいて、顔認識データ用メモリに記憶すべき顔画像データを補正し、正面以外の角度や方向の画像でも個人の顔の顔検出を行う撮像装置が開示されている。
【0003】
特許文献2には、あらかじめ作成されている会話テンプレートの中から、入力された文に対応する文を選択し、選択された文を仮想エージェントのエージェント情報に基づいて加工して応答文を生成する、会話文生成装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2011-76457号公報
【文献】特開2015-69455号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
故人や有名人等、実際にはそこに存在しない特定の仮想人物の動画を生成し、現実味のある対話を実現するためには、映像、音声、性格の特性等、仮想人物に関する膨大な情報が必要である。また、これらの情報を統合して仮想人物を生成するには、コンピュータグラフィックス等を用いて映像を生成するため、大規模な設備やコンテンツを購入する必要があり、個人レベルで使用するのは困難であった。そこで、簡易な構成で仮想人物の発話映像を生成できるシステムが必要とされている。
【0006】
本発明は、簡易な構成で仮想人物の発話映像を生成することを目的の1つとする。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明の一の観点に係る仮想人物対話システムは、人が動作する映像モデルを複数種類記憶する映像モデルデータベースと、前記映像モデルデータベース内のデータから、仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択部と、登録される情報ソースから、前記仮想人物の顔データを抽出する映像処理部と、前記顔データを前記使用映像モデルに統合する顔挿入部と、前記情報ソースから音声を抽出し、前記仮想人物の声を生成する音声処理部と、前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理部と、を備える。
【0008】
人物の性格モデルを複数記憶する性格モデルデータベースと、前記仮想人物の性格に関する質問を提示し、前記質問に対する回答に基づいて、前記仮想人物の生成に使用する使用性格モデルを前記性格モデルデータベース内のデータから選択する性格モデル選択部と、前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージを生成する対話処理部と、をさらに備えるものとしてもよい。
【0009】
前記性格モデル選択部は、前記仮想人物が作成した記録に基づいて前記使用性格モデルを選択するものとしてもよい。
【0010】
前記仮想人物への質問が入力される入力部と、前記仮想人物の返答を出力する出力部と、をさらに備え、前記対話処理部は、前記質問に対する返答を生成し、前記出力部から前記返答を出力させるものとしてもよい。
【0011】
前記メッセージに対する評価に基づいて前記使用性格モデルを補正する性格モデル補正部をさらに備えるものとしてもよい。
【0012】
上記目的を達成するため、本発明の別の観点に係る映像生成方法は、人が動作する映像モデルを複数種類記憶する映像モデルデータベースを備える仮想人物対話システムにより、仮想人物の映像を生成する方法であって、
前記映像モデルデータベース内のデータから、前記仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択ステップと、登録される情報ソースから、生成する仮想人物の顔データを抽出する映像処理ステップと、前記顔データを前記使用映像モデルに統合する顔挿入ステップと、前記情報ソースから音声を抽出し、前記仮想人物の声を生成する音声処理ステップと、前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理ステップと、を含む。
【0013】
上記目的を達成するため、本発明のさらに別の観点に係る映像生成プログラムは、人が動作する映像モデルを複数種類記憶する映像モデルデータベースを備える仮想人物対話システムにより、仮想人物の映像を生成するコンピュータプログラムであって、前記映像モデルデータベース内のデータから、前記仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択命令と、登録される情報ソースから、生成する仮想人物の顔データを抽出する映像処理命令と、前記顔データを前記使用映像モデルに統合する顔挿入命令と、前記情報ソースから音声を抽出し、前記仮想人物の声を生成する音声処理命令と、前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理命令と、をコンピュータに実行させる。
なお、コンピュータプログラムは、インターネット等のネットワークを介したダウンロードによって提供したり、CD-ROMなどのコンピュータ読取可能な各種の記録媒体に記録して提供したりすることができる。
【発明の効果】
【0014】
本発明によれば、簡易な構成で仮想人物の発話映像を生成できる。
【図面の簡単な説明】
【0015】
【
図1】本発明にかかる仮想人物対話システムの概略構成図である。
【
図2】上記仮想人物対話システムの機能ブロック図である。
【
図3】上記仮想人物対話システムが、仮想人物の生成に使用する使用映像モデルを決定する工程を示すシーケンス図である。
【
図4】上記仮想人物対話システムが、仮想人物の声を生成する工程を示すシーケンス図である。
【
図5】上記仮想人物対話システムが、仮想人物の性格モデルを決定する工程を示すシーケンス図である。
【
図6】ユーザが、上記仮想人物対話システムを用いて仮想人物と対話する工程を示すシーケンス図である。
【発明を実施するための形態】
【0016】
以下、本発明にかかる仮想人物対話システム、映像生成方法、および映像生成プログラムの実施の形態について、図面を参照しながら説明する。
【0017】
●仮想人物対話システムの概要
仮想人物対話システムは、実際にはそこにいない特定の仮想人物の動画、声を再生し、また発話内容を自動生成することで、ユーザが仮想人物との対話を疑似的に行うことができるシステムである。仮想人物の生成対象となる人物(以下、「対象人物」ともいう。)は、故人や有名人、戦争体験者等の語り手等、場所や時間の制限により話す機会が無い又は限られる人物が想定されるが、どのような人物であってもよい。仮想人物は、ユーザから登録される、対象人物に関する情報および後述するモデルデータに基づいて生成される。仮想人物は、ユーザ端末10(
図1参照)上において再生され、あたかも実際に存在しているかのように、動作し、発話し、ユーザに話しかけたり、ユーザからの質問に答えたりする。
【0018】
図1に示すように、ユーザUは、ユーザ端末10を介して、仮想人物対話システムの一部又は全部の構成を備えるクラウドコンピュータCと通信を行うことで、仮想人物Kと対話を行う。ユーザUがユーザ端末10を介してクラウドコンピュータCにログインすると(ステップs1)、クラウドコンピュータCから仮想人物Kの映像が送信される(ステップs2)。ユーザUが仮想人物Kに話しかけると(ステップs3)、クラウドコンピュータCは、入力されたメッセージの内容を解析し、あらかじめ決定されている仮想人物Kの性格に基づいて返答を生成し、ユーザ端末10上で映像と共に再生させる(ステップs4)。
【0019】
図2に示すように、本発明にかかる仮想人物対話システム1(以下、「本システム1」ともいう。)は、記憶装置20と、仮想人物生成装置30と、動画生成装置40と、がネットワークNWを介して接続されて構成されている。本システム1は、顧客が有するユーザ端末10とネットワークNWで接続され、相互に情報の送受信が可能である。
【0020】
ユーザ端末10、記憶装置20、仮想人物生成装置30および動画生成装置40の相互の接続は、それぞれ無線であっても有線であってもよい。なお、記憶装置20、仮想人物生成装置30および動画生成装置40は、1個の装置で構成されていてもよい。また、記憶装置20、仮想人物生成装置30および動画生成装置40の機能の一部又は全部がクラウドコンピュータC上に実現されていてもよい。
【0021】
ユーザ端末10は、仮想人物と対話するユーザが使用するコンピュータであり、入力部11、出力部12、表示部13、情報ソース登録部14、および通信処理部19を備える。ユーザ端末10は、例えばパーソナルコンピュータである。また、ユーザ端末10は、スマートホンやタブレットであってもよい。本システム1に接続されるユーザ端末10は、単数であっても複数であってもよい。
【0022】
入力部11は、ユーザから仮想人物へのメッセージを入力する機能部であり、キーボード、タッチパネルディスプレイおよびマイクロホン等により構成される。
【0023】
出力部12は、仮想人物のメッセージが出力される機能部である。出力部12は、メッセージを文字表示するディスプレイ、又はメッセージを音声出力するスピーカ等により構成される。
【0024】
ユーザ端末10の表示部13は、液晶画面等の平面的な再生機器の他、ヘッドマウントディスプレイ型のVR表示装置や、ホログラム(立体映像)表示装置等の、仮想人物の像を立体的に再生する機器であってもよい。ユーザ端末10が仮想人物の像を立体的に再生する装置である構成によれば、仮想人物との対話をより現実感のあるものとすることができる。また、表示部13は、複数のユーザが同時に1個の仮想人物の像を視認可能な投影装置であってもよい。
【0025】
表示部13は、本システム1独自のUIにより表示されてもよいし、本システム1がSKYPE(登録商標)等既存のチャットツールと連動して、仮想人物からのメッセージや動画が既存のツールに表示されてもよい。この構成によれば、実際の人物とチャットをしているような感覚を得ることができ、仮想人物との対話を現実感のあるものとすることができる。
【0026】
情報ソース登録部14は、対象人物に関する情報、すなわち対象人物の情報ソースを取得する機能部である。情報ソースは、例えば対象人物が含まれる動画、静止画および音源、ならびに対象人物が作成した日記等の記録文書、趣味嗜好を表す文書、SNS等の文字データを含む。また、情報ソースは、衣服等の所有物に関する情報を含む。情報ソースは、ユーザにより登録される他、インターネットを通じて取得してもよい。取得される情報ソースは、仮想人物生成装置30に送信される。
【0027】
通信処理部19は、ネットワークNWを介して本システム1と情報の授受を行う機能部であり、通信の形式は任意である。
【0028】
ユーザがユーザ端末10を通じて対象人物の情報を登録すると、仮想人物生成装置30は、当該情報を処理して、仮想人物の映像や声、性格等を決定づける。決定された仮想人物のデータは記憶装置20に格納され、動画生成装置40により適宜呼び出される。動画生成装置40は、仮想人物データに基づいて仮想人物の映像、声、メッセージを含む動画を生成し、ユーザ端末10上に表示させる。
【0029】
●記憶装置の構成
記憶装置20は、情報処理を実行するためのCPU(Central Processing Unit)などの演算装置、RAM(Random Access Memory)やROM(Read Only Memory)などの記憶装置を備え、これによりソフトウェア資源として少なくとも、映像モデルDB21、性格モデルDB22、仮想人物データ記憶部23、および通信処理部29を有する。なお、本明細書において「DB」は「データベース」の略である。
【0030】
映像モデルDB21は、人が動作する映像モデルを複数種類記憶する記憶部である。映像モデルは、仮想人物の像を生成するために用いられる、映像のテンプレートである。映像モデルは、特に胴体の形や動作を構成するデータである。また、映像モデルは、後述する顔データを統合して、統合した顔データを胴体の像と共に動作させるように構成されている。
【0031】
映像モデルには、身長、体重、年齢等に応じて、体格が異なる複数種類の人物の外観が含まれている。映像モデルには、各人物が着用して再生可能な、複数種類の服装が含まれている。さらに、映像モデルは、各外観の人物が動作する様々なデータを含んでおり、例えば、うなずく、腕を組む、手を挙げる、といった、対話の際によく行われる動作のデータが含まれている。映像モデルは、実際の人物を撮影した映像であってもよいし、CGでモデリングした映像であってもよく、両方が含まれていてもよい。
【0032】
性格モデルDB22は、人物の性格モデルが複数種類記憶されている記憶部である。性格モデルは、例えば、質問に対する回答の特性を含み、ポジティブな内容であるかネガティブな内容であるかといった回答の方針、および回答に表れる喜怒哀楽等を決定づける。また、性格モデルは、ユーザからの質問に対する回答に限らず、季節や時間帯等に応じたメッセージの特性であってもよい。性格モデルDB22には、各性格モデルに即した、あらかじめ想定される質問に対する返答が合わせて記憶されていてもよい。この構成によれば、定型的な質問に対して、性格モデルに応じた返答を生成する計算処理負担が軽減できる。
【0033】
仮想人物データ記憶部23は、仮想人物ごとに決定された映像モデル、性格モデル、および声の情報を格納する記憶部である。また、仮想人物データ記憶部23は、仮想人物が知っている情報、例えば対象人物のエピソードや、体験談等の情報が格納されている。仮想人物データは、仮想人物生成装置30により決定され、格納される。また、仮想人物データは、仮想人物の動画の再生時に、動画生成装置40により呼び出される。
【0034】
●仮想人物生成装置の構成
仮想人物生成装置30は、情報処理を実行するためのCPU(Central Processing Unit)などの演算装置、RAM(Random Access Memory)やROM(Read Only Memory)などの記憶装置を備え、これによりソフトウェア資源として少なくとも、映像処理部31、音声処理部32、性格処理部33および通信処理部39を備える。
【0035】
映像処理部31は、対象人物のデータから、仮想人物の生成に用いる外観データを抽出する機能部である。外観データは、対象人物の顔、体、髪型、服装などを含むデータである。また、映像処理部31は、仮想人物の生成に使用する映像モデルを選択し、仮想人物の映像に使用する映像データを決定する。なお、映像処理部31は、ユーザ端末10の情報ソース登録部14を介して登録される情報ソースの他、インターネット上から取得される情報ソースに基づいて、仮想人物の外観データを抽出してもよい。また、映像処理部31は、複数のユーザ端末10から登録される情報ソースに基づいて、1個の仮想人物の生成に用いる外観データを抽出してもよい。有名人など、多くのユーザが共通の仮想人物と対話する場合、各ユーザが1個の仮想人物の情報ソースを登録する。この構成によれば、より多くの情報ソースに基づいて仮想人物を生成することができ、より現実感のある対話が可能となる。
【0036】
映像処理部31は、動画取得部311、静止画取得部312、トリミング部313、画像補正部314、映像モデル選択部315および顔挿入部316を有する。
【0037】
動画取得部311は、動画データを取得する機能部である。動画取得部311は、ユーザ端末10に登録される情報ソースに含まれる動画を取得する。また、動画取得部311は、ユーザ端末10を通じてユーザに動画の撮影を促すこともできる。ユーザ端末10を通じて動画が撮影可能な状況として、例えば、対象人物がユーザの身近な人物であり、仮想人物を別のユーザ端末10に表示させる場合や、対象人物が亡くなった後にも対話可能とするために仮想人物を生成しておく場合などが考えられる。この場合、動画取得部311は、ユーザに動画を撮影させるためのチュートリアルをユーザ端末10に表示させてもよい。
【0038】
静止画取得部312は、静止画データを取得する機能部である。静止画取得部312は、ユーザ端末10に登録される情報ソースに含まれる静止画を取得する。また、静止画取得部312は、ユーザ端末10を通じてユーザに静止画の撮影を促すこともできる。この場合、静止画取得部312は、ユーザに静止画、すなわち写真を撮影させるためのチュートリアルをユーザ端末10に表示させてもよい。また、静止画取得部312は、動画データを静止画に変換し、取得する。静止画取得部312は、対象人物の様々な角度の画像や、様々な表情の画像を抽出し、静止画に変換する。
【0039】
トリミング部313は、静止画から対象人物のデータをトリミングして抽出する機能部である。トリミング部313は、顔認識機能を備え、対象人物の顔のみを自動で抽出可能であってもよい。
【0040】
画像補正部314は、抽出された画像の色調補正や、解像度補正を行い、抽出した画像の質を均一化する。また、画像補正部314は、抽出された画像が鮮明か否かを判別し、不鮮明な画像を抽出されたデータ群から除外してもよい。また、画像補正部314は、所定以下の解像度の画像を抽出されたデータ群から除外してもよい。
【0041】
映像モデル選択部315は、仮想人物の生成に使用する使用映像モデルを映像モデルDB21内のデータから選択する機能部である。映像モデル選択部315は、動画取得部311により取得される外観データに基づいて、対象人物に最も類似する映像モデルを選択してもよいし、ユーザ端末10に映像モデルを複数提示し、ユーザに使用する映像モデルを選択させてもよい。この構成によれば、仮想人物が動いている様子が表れている情報ソースを十分登録しなくても、映像モデルにより仮想人物の動画を構成することができる。
【0042】
また、映像モデル選択部315は、生成する仮想人物の服装を、外観データに基づいて決定してもよいし、情報ソースに含まれる所有物情報に基づいて決定してもよい。また、映像モデル選択部315は、映像モデルDB21から、仮想人物の服装を選択してもよい。すなわち、対象人物がその服装をしている情報ソースがあれば、当該情報ソースに基づいて仮想人物の映像を生成することができるし、対象人物の情報ソースがなくても、所有物情報に基づいて仮想人物の映像を生成可能である。また、映像モデルDB21から服装のデータを選択することもできるので、対象人物の服装に関するデータが不足していても、仮想人物の生成を簡便に行うことができる。なお、映像モデル選択部315は複数種類の服装をしている仮想人物の映像を構成しておき、時期や時間帯、又はユーザの選択に基づいて服装が変更可能になっていてもよい。
【0043】
映像モデル選択部315は、生成する仮想人物の髪型を、外観データに基づいて決定してもよいし、映像モデルDB21から、仮想人物の髪型を選択してもよい。さらに、映像モデル選択部315は、複数種類の髪型をしている仮想人物の映像を構成しておき、髪型が変更可能になっていてもよい。
【0044】
なお、ここまでの説明において、映像処理部31は対象人物自身の情報ソースに基づいて仮想人物のデータを抽出することを想定して説明したが、対象人物に似ている人物の動画や静止画を新たに撮影し、仮想人物の生成に用いてもよい。また、髪型や服装など、似ている人物の外観データを部分的に使用して、仮想人物の生成に用いてもよい。すなわち、外観データのうち仮想人物の生成に用いる要素を、ユーザが選択可能になっていてもよい。
【0045】
顔挿入部316は、動画取得部311、静止画取得部312、トリミング部313および画像補正部314により抽出された顔データを使用映像モデルに統合する機能部である。顔挿入部316により、使用映像モデルで構成される胴体に、顔データが統合され、仮想人物の全身像が構成される。
【0046】
音声処理部32は、仮想人物の話す声を人工的に生成する機能部である。音声処理部32は、音声抽出部321と音声生成部322とを備える。
【0047】
音声抽出部321は、情報ソースから対象人物の音声を抽出する機能部である。音声抽出部321は、例えば情報ソースに含まれる複数種類の声のうち、最も長時間含まれている人物の声を対象人物の声と同定してもよい。
【0048】
音声生成部322は、音声抽出部321により抽出された音声に基づいて、仮想人物の声を生成する機能部である。音声生成部322は、対象人物の音声をトリミングし、仮想人物の声として再生可能な状態に編集してもよい。また、音声生成部322は、あらかじめ用意された音声データの中から、対象人物の声に似た声を選んで仮想人物の声として決定することもできる。さらに、音声生成部322は、対象人物の音声に類似する人工音声を生成してもよい。なお、仮想人物からのメッセージをテキストで表示する場合は、音声の生成はなくてもよい。
【0049】
性格処理部33は、仮想人物の性格モデルを決定する機能部である。性格処理部33は、テキストデータ登録部331、性格モデル選択部332、および性格モデル補正部333を備える。
【0050】
テキストデータ登録部331は、情報ソースからテキストデータを抽出し、仮想人物データ記憶部23に格納する機能部である。テキストデータ登録部331は、対象人物のブログやSNS等の電子的なテキストデータを抽出し、所定のルールに従って仮想人物データ記憶部23に格納する。また、テキストデータ登録部331は、対象人物による手書きの文書、例えば日記等を読み込み、テキストデータに変換して仮想人物データ記憶部23に格納してもよい。さらに、テキストデータ登録部331は、音声や動画データに含まれる対象人物の声をテキストデータに変換し、仮想人物データ記憶部23に格納してもよい。
【0051】
性格モデル選択部332は、仮想人物の生成に使用する性格モデル(以下、「使用性格モデル」ともいう。)を性格モデルDB22から選択する機能部である。性格モデル選択部332は、ユーザ端末10を通じて仮想人物の性格に関する質問を提示する。ユーザ端末10から質問に対する回答が入力されると、当該回答に基づいて、仮想人物の生成に使用する使用性格モデルを性格モデルDB22内のデータから選択する。
【0052】
性格に関する質問は、複数提示されてもよい。また、入力される回答と次の質問とが紐づけられるチャートに沿って、質問が提示されてもよい。ユーザが質問に答えていくことで、あらかじめ用意された性格の基本分類に基づいて、仮想人物の基本的な性格付けが行われる。性格付けを、対象人物の実際の会話の情報から行うものとすると、膨大な量の会話の情報が必要である。本システム1によれば、性格に関する質問の回答に基づいてあらかじめ用意された性格のいずれかに分類することができるので、情報が不足していても簡易な構成で仮想人物の性格を決定することができる。
【0053】
なお、仮想人物の性格モデルは、ユーザからの質問のタイプに応じたシナリオパターンごとに定められていてもよい。シナリオパターンは、例えば日常会話、又は悩みごとの相談等である。一部のシナリオパターンに関して性格モデルが決定されれば、当該シナリオパターンに即した対話が可能に構成されていてもよい。この構成によれば、必要なシナリオパターンに関する性格モデルのみを決定すれば対話できるので、簡便である。
【0054】
性格モデル補正部333は、性格モデル選択部332が選択した使用性格モデルを補正する機能部である。性格モデル補正部333は、ユーザ端末10から、仮想人物が行った返答に対する評価を受信し、当該評価に基づいて使用性格モデルを補正する。例えば、ユーザは、返答に対し、対象人物の返答として適切な内容であったか否かを評価として入力する。また、返答とともになされる仮想人物の動作に対して評価をしてもよい。性格モデル補正部333は、AI等により自動学習を行い、性格モデルを補正する。この構成によれば、仮想人物の性格をより対象人物に近いものに補正することができる。なお、1個の仮想人物に対して複数のユーザ端末10が同時又は別の時点で対話を行う場合において、複数のユーザ端末10からの評価を1個の仮想人物の性格モデルの補正に使用してもよい。この構成によれば、仮想人物の性格モデルに多くのフィードバックを与えることができるため、仮想人物の性格モデルを対象人物の性格により近づけ、対話精度を上げることができる。
【0055】
また、性格モデル補正部333は、ユーザからの評価ではなく、仮想人物からのメッセージに対するユーザの返答に基づいて、当該メッセージが適していたか否かを判定し、性格モデルを補正してもよい。性格モデル補正部333は、ユーザの返答内容をテキストデータに変換して解析してもよいし、ユーザの声色から満足度を類推してもよい。
【0056】
通信処理部39は、ユーザ端末10、記憶装置20、および動画生成装置40と、ネットワークNWを通じて相互に通信する機能部である。
【0057】
●動画生成装置の構成
動画生成装置40は、仮想人物生成装置30により生成された仮想人物の動画を、ユーザ端末10上に表示させる装置である。動画生成装置40は、映像表示処理部41、対話処理部42、通信処理部49を備える。
【0058】
映像表示処理部41は、仮想人物が発話する発話映像を生成する機能部である。映像表示処理部41は、外観データから抽出された顔データをモデリング処理し、発話に合わせて動作させる。
【0059】
対話処理部42は、使用性格モデルに基づいて、仮想人物が発話するメッセージを生成する機能部である。メッセージの内容は、ユーザからの質問に対する返答であってもよいし、日付、季節、又は時間帯、もしくはインターネット上の天気予報やニュース等の外部情報に応じて生成される言葉であってもよい。また、ユーザへの返答にあたって、使用性格モデルに加えて、日付、季節、又は時間帯、もしくはインターネット上の天気予報やニュース等の外部情報に基づいて返答を生成してもよい。対話処理部42は、最適な回答をAIにより決定する。
【0060】
対話処理部42で生成されるメッセージは、音声処理部32で生成される声により発話され、映像表示処理部41で生成される発話映像と共にユーザ端末10で再生される。仮想人物の声は、音声抽出部321から抽出した対象人物の台詞を再生してもよい。また、あらかじめ決定した似た声の音源データに基づいて再生してもよい。さらに、人工の音声を生成し、再生してもよい。
【0061】
通信処理部49は、ユーザ端末10、記憶装置20、および仮想人物生成装置30と、ネットワークNWを通じて相互に通信する機能部である。
【0062】
●使用映像モデルを決定する流れ
図3を用いて、仮想人物生成装置30が使用映像モデルを決定する流れを説明する。同図に示すように、まず、ユーザ端末10から対象人物の情報ソースが登録され、仮想人物生成装置30に送信される(ステップS11)。次いで、仮想人物生成装置30は、情報ソースから外観データを抽出する(ステップS12)。外観データのうち、動画を静止画に変換する(ステップS13)。次いで、登録された静止画および動画から変換された静止画に対し、対象人物の画像をトリミングし、画像の色調および解像度を補正する(ステップS14)。トリミングおよび画像の補正は、順不同である。なお、このとき、補正してもデータの品質が所定以下である場合は、当該画像を後の工程に使用しないことを決定してもよい。
【0063】
次いで、仮想人物生成装置30は、トリミングおよび画像補正が施された画像を記憶装置20の仮想人物データ記憶部23に格納する(ステップS15)。仮想人物生成装置30は、格納される画像のうち主に体格に関する情報に基づいて、映像モデルDB21に格納されている映像モデルを参照し(ステップS16)、対象人物の外観に最も類似する映像モデルを選択し、ユーザ端末10に表示させる(ステップS17)。なお、このとき、映像モデルの候補がユーザ端末10に複数表示され、ユーザ端末10により使用映像モデルを選択可能にしてもよい。また、提示される映像モデルとは異なる映像モデルをユーザ端末10により選択可能になっていてもよい。
【0064】
次いで、ユーザ端末10は、使用映像モデルが有するパーツを個別に変更する入力を受け付ける(ステップS18)。パーツは、輪郭や、目、鼻又は口等の各このとき、仮想モデルの髪型や服装についての選択が入力されてもよい。使用映像モデルのパーツが適宜変更され、仮想人物の使用映像モデルが確定すると、当該使用映像モデルに、外観データから抽出された顔データを統合する(ステップS19)。次いで、顔データが統合された使用映像モデルを、記憶装置20の仮想人物データ記憶部23に格納する(ステップS20)。
【0065】
●仮想人物の声を生成する流れ
図4を用いて、仮想人物生成装置30が仮想人物の声を生成する流れを説明する。まず、ユーザ端末10から情報ソースが登録されると(ステップS21)、仮想人物生成装置30は、当該情報ソースから対象人物の音声データを抽出する(ステップS22)。仮想人物生成装置30は、当該音声データに基づいて、仮想人物の声を生成する。
【0066】
●仮想人物の性格モデルを決定する流れ
図5を用いて、仮想人物生成装置30が仮想人物の性格モデルを決定する流れを説明する。ユーザ端末10から情報ソースが登録されると(ステップS31)、仮想人物生成装置30は、当該情報ソースからブログやSNSなどのテキストデータを抽出する(ステップS32)。また、このとき、手書きの日記等の画像データを抽出し、テキストデータに変換する。さらに、音源データを抽出し、対象人物の声をテキストデータに変換する。抽出されたテキストデータは、所定のルールに基づいて仮想人物データ記憶部23に格納される(ステップS33)。
【0067】
次いで、仮想人物生成装置30は、対象人物の性格に関する質問を、ユーザ端末10に表示させる(ステップS34)。このとき、質問の内容は登録される情報ソースに基づいて決定されてもよい。また、登録したいシナリオパターンをユーザに選択させ、シナリオパターンに応じた質問を表示させてもよい。ユーザ端末10は、質問に対する回答の入力を受け付ける(ステップS35)。なおこのとき、1度に複数の質問が表示されてもよいし、ステップS34およびステップS35を繰り返してもよい。
【0068】
仮想人物生成装置30は、性格に関する質問への回答に基づいて、性格モデルDB22に格納されている性格モデルを参照し(ステップS36)、使用性格モデルを決定する(ステップS37)。次いで、決定した使用性格モデルを仮想人物データ記憶部23に格納する(ステップS38)。
【0069】
●仮想人物と対話する流れ
図6を用いて、ユーザが仮想人物対話システムを用いて仮想人物と対話する流れを説明する。ユーザ端末10にIDおよびパスワードが入力されると(ステップS41)、仮想人物生成装置30により認証され(ステップS42)、IDに紐づけられている仮想人物との対話が可能となる。このとき、仮想人物からチャットの着信がある、電話がかかってくる、メールが届く、といった演出がなされてもよい。次いで、記憶装置20の仮想人物データ記憶部23から、対話する仮想人物のデータが呼び出され、動画生成装置40により参照可能な状態となる(ステップS43)。すなわち、ユーザ端末10上に仮想人物の像が表示される。仮想人物は、表示された時点で発話してもよく、動作をしてもよい。
【0070】
ユーザ端末10から仮想人物への質問が入力されると(ステップS44)、動画生成装置40は、仮想人物のデータに基づいて、仮想人物が返答する動画を生成する。
【0071】
具体的には、まず、動画生成装置40は、仮想人物の性格モデルに基づいて、質問に対する返答テキストを生成する(ステップS45)。また、動画生成装置40は、当該返答テキストを仮想人物の声で再生する返答音声を生成する(ステップS46)。返答音声は、記憶されている対象人物の音源データでもよいし、人工的に生成した人工音声であってもよい。さらに、動画生成装置40は、返答音声を再生する際に再生される返答映像を生成する(ステップS47)。生成される返答音声および返答映像は、返答する動画としてユーザ端末10に送信される(ステップS48)。なお、返答音声および返答映像は、統合されて1個のデータファイルとしてユーザ端末10に送信されてもよいし、それぞれのデータファイルがユーザ端末10に送信されてもよい。次いで、ユーザ端末10上に、仮想人物の動画が表示される(ステップS49)。すなわち、ユーザからの質問に対し仮想人物が返答し、仮想人物との対話が成立する。ステップS44からステップS49までの工程は、複数回繰り返されてよい。この構成により、仮想人物との自然な対話が可能である。
【0072】
なお、
図6においては、ステップS44に示すユーザ端末10への質問の入力を契機に仮想人物の動画が生成される流れを説明したが、所定の日付や時間になったことに基づいて仮想人物の動画が生成され、ユーザ端末10に表示される構成であってもよい。また、インターネット上等からの外部情報に基づいて動画が生成されてもよいし、仮想人物対話システム1の管理者からの指令に基づいて、動画が生成されてもよい。動画が生成されると直ちにユーザ端末10に表示される構成であってもよいし、動画をあらかじめ生成しておき、ユーザからの質問、日付、時間、外部情報又は指令等を契機にユーザ端末10に表示させてもよい。
【0073】
ステップS49に次いで、ユーザ端末10から動画に対する評価が入力されると(ステップS50)、仮想人物生成装置30は性格モデルを補正し、記憶装置20の仮想人物データ記憶部23に記憶する(ステップS51)。
【0074】
このように、本発明にかかる仮想人物対話システムによれば、簡易な構成で仮想人物の発話映像を生成できる。
【符号の説明】
【0075】
1 仮想人物生成システム
10 ユーザ端末
20 記憶装置
21 映像モデルDB
30 仮想人物生成装置
31 映像処理部
40 動画生成装置
41 映像表示処理部