特許6993034 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＡＩインフルエンサー株式会社の特許一覧

特許6993034コンテンツ再生方法、及びコンテンツ再生システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2021-12-13

(45)【発行日】2022-01-13

(54)【発明の名称】コンテンツ再生方法、及びコンテンツ再生システム

(51)【国際特許分類】

G06T 13/80 20110101AFI20220105BHJP

G06F 3/16 20060101ALI20220105BHJP

G10L 13/033 20130101ALI20220105BHJP

G10L 13/10 20130101ALI20220105BHJP

【ＦＩ】

G06T13/80 C

G06F3/16 690

G10L13/033 102A

G10L13/10 112B

【請求項の数】 5

(21)【出願番号】P 2021082702

(22)【出願日】2021-05-14

【審査請求日】2021-05-19

【早期審査対象出願】

(73)【特許権者】

【識別番号】521209708

【氏名又は名称】ＡＩインフルエンサー株式会社

(74)【代理人】

【識別番号】100120868

【弁理士】

【氏名又は名称】安彦元

(72)【発明者】

【氏名】河合継

【審査官】片岡利延

(56)【参考文献】

【文献】特開２０２０－１８４１００（ＪＰ，Ａ）

【文献】特開２００３－２４８８３７（ＪＰ，Ａ）

【文献】国際公開第２０１８／１６８４２７（ＷＯ，Ａ１）

【文献】特開２００１－３５７４１３（ＪＰ，Ａ）

【文献】特開２００７－１８３４２１（ＪＰ，Ａ）

【文献】特表２０１０－５３１４７８（ＪＰ，Ａ）

【文献】特開２００３－２０２８８５（ＪＰ，Ａ）

【文献】k17trpsynth’s blog，音声認識と合成についてのまとめ，[online]，2018年01月30日，https://k17trpsynth.hatenablog.com/entry/2018/01/30/191338，[検索日：2021-08-20]

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１３／８０

Ｇ０６Ｆ３／１６

Ｇ１０Ｌ１３／０３３

Ｇ１０Ｌ１３／１０

(57)【特許請求の範囲】

【請求項1】

キャラクターの顔を含む顔画像データと、感情を示す感情データと、テキストデータとを取得する取得ステップと、
予め取得された参照用顔画像データと参照用感情データとを含む第１入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第１処理後顔画像データを含む第１出力データとを一組のデータセットとする第１処理用学習データを複数用いて、機械学習により生成された第１処理用データベースを参照して、前記取得ステップにより取得した顔画像データと感情データとに対する第１処理後顔画像データを生成する第１生成ステップと、
前記第１生成ステップにより生成された第１処理後顔画像データと、前記取得ステップにより取得したテキストデータとに基づいて、前記第１処理後顔画像データの一部を変化させた第２処理後顔画像データを生成する第２生成ステップとを
コンピュータに実行させ、
前記第２生成ステップは、予め取得された参照用第１処理後顔画像データと、参照用テキストデータとを含む第２入力データと、参照用第２処理後顔画像データを含む第２出力データとを一組のデータセットとする第２処理用学習データを複数用いて、機械学習により生成された第２処理用データベースを参照して、前記第１生成ステップにより生成された第１処理後顔画像データと、前記取得ステップにより取得したテキストデータとに基づいて、前記第２処理後顔画像データを生成すること
を特徴とするコンテンツ再生方法。

【請求項2】

前記取得ステップは、声質に関する声質データを取得し、
前記取得ステップにより取得した声質データと、テキストデータと、感情データとに基づいて、前記キャラクターの音声を示す音声データを生成する音声処理ステップと、
前記第２生成ステップにより生成された第２処理後顔画像データと、前記音声処理ステップにより生成された音声データとに基づいて、前記キャラクターの表現を示す表現データを生成する表現生成ステップとをさらにコンピュータに実行させること
を特徴とする請求項１に記載のコンテンツ再生方法。

【請求項3】

前記音声処理ステップは、予め取得された参照用声質データと、参照用テキストデータと、参照用感情データとを含む第３入力データと、参照用音声データを含む第３出力データとを一組のデータセットとする音声処理用学習データを複数用いて、機械学習により生成された音声処理用データベースを参照して、前記取得ステップにより取得した声質データと、テキストデータと、感情データとに対する前記音声データを生成すること
を特徴とする請求項２に記載のコンテンツ再生方法。

【請求項4】

前記取得ステップは、予め取得された参照用会話文データと前記参照用会話文データに対する返答データとの対応関係を示す返答モデルを参照し、ユーザが入力した会話文データに対する返答データを決定し、決定された返答データに基づく前記テキストデータを取得すること
を特徴とする請求項１～３の何れか１項に記載のコンテンツ再生方法。

【請求項5】

キャラクターの顔を含む顔画像データと、感情を示す感情データと、テキストデータとを取得する取得手段と、
予め取得された参照用顔画像データと参照用感情データとを含む第１入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第１処理後顔画像データを含む第１出力データとを一組のデータセットとする第１処理用学習データを複数用いて、機械学習により生成された第１処理用データベースを参照して、前記取得手段により取得した顔画像データと感情データとに対する第１処理後顔画像データを生成する第１生成手段と、
前記第１生成手段により生成された第１処理後顔画像データと、前記取得手段により取得したテキストデータとに基づいて、前記第１処理後顔画像データの一部を変化させた第２処理後顔画像データを生成する第２生成手段とを
備え、
前記第２生成手段は、予め取得された参照用第１処理後顔画像データと、参照用テキストデータとを含む第２入力データと、参照用第２処理後顔画像データを含む第２出力データとを一組のデータセットとする第２処理用学習データを複数用いて、機械学習により生成された第２処理用データベースを参照して、前記第１生成手段により生成された第１処理後顔画像データと、前記取得手段により取得したテキストデータとに基づいて、前記第２処理後顔画像データを生成すること
を特徴とするコンテンツ再生システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、コンテンツ再生方法、及びコンテンツ再生システムに関する。

【背景技術】

【0002】

近年、動画を配信する場合において、配信者のプライバシーを保護するため、又は配信者の好みの顔や声で配信ができるように、ユーザの見た目や声をユーザの好みのキャラクターの見た目や声で表現することが可能となる技術が必要とされている。そのため、キャラクターによる会話がユーザによる会話と比べて、違和感のない会話にするための、キャラクターの音声を表現するための技術が注目されており、例えば特許文献１の情報処理システムが知られている。

【0003】

上記特許文献１に記載された技術は、プロセッサが、ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの発話フレーズを通信部により送信し、受信したユーザのメッセージに基づいて、特定のキャラクターの音声に変換した変換メッセージを生成する。さらに特許文献１に記載された技術は、ユーザのメッセージに対応する特定のキャラクターの発話フレーズを生成し、生成した変換メッセージおよび発話フレーズをクライアント端末に返送する。これにより、キャラクターをユーザ自身が体験できるようにすることで娯楽性をさらに高めることが可能となる情報処理システムに関する技術が特許文献１に記載されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０２１－３９３７０号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

ここで、特許文献１では、受信したユーザのメッセージに基づいて、特定のキャラクターの音声に変換した変換メッセージを生成する。しかしながら、特許文献１では、特定のキャラクターの見た目をキャラクターの変換メッセージに反映させることを想定していない。このため、特許文献１では、ユーザの好みの見た目でユーザの配信を表現することができない。従って、ユーザの見た目をユーザの好みのキャラクターの見た目で表現することが可能となる技術が望まれている。

【0006】

そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、ユーザの見た目をユーザの好みのキャラクターの見た目で表現することが可能となるコンテンツ再生方法、及びコンテンツ再生システムを提供することにある。

【課題を解決するための手段】

【0007】

第１発明に係るコンテンツ再生方法は、キャラクターの顔を含む顔画像データと、感情を示す感情データと、テキストデータとを取得する取得ステップと、予め取得された参照用顔画像データと参照用感情データとを含む第１入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第１処理後顔画像データを含む第１出力データとを一組のデータセットとする第１処理用学習データを複数用いて、機械学習により生成された第１処理用データベースを参照して、前記取得ステップにより取得した顔画像データと感情データとに対する第１処理後顔画像データを生成する第１生成ステップと、前記第１生成ステップにより生成された第１処理後顔画像データと、前記取得ステップにより取得したテキストデータとに基づいて、前記第１処理後顔画像データの一部を変化させた第２処理後顔画像データを生成する第２生成ステップとをコンピュータに実行させ、前記第２生成ステップは、予め取得された参照用第１処理後顔画像データと、参照用テキストデータとを含む第２入力データと、参照用第２処理後顔画像データを含む第２出力データとを一組のデータセットとする第２処理用学習データを複数用いて、機械学習により生成された第２処理用データベースを参照して、前記第１生成ステップにより生成された第１処理後顔画像データと、前記取得ステップにより取得したテキストデータとに基づいて、前記第２処理後顔画像データを生成することを特徴とする。

【0011】

第２発明に係るコンテンツ再生方法は、第１発明において、前記取得ステップは、声質に関する声質データを取得し、前記取得ステップにより取得した声質データと、テキストデータと、感情データとに基づいて、前記キャラクターの音声を示す音声データを生成する音声処理ステップと、前記生成ステップにより生成された処理後顔画像データと、前記音声処理ステップにより生成された音声データとに基づいて、前記キャラクターの表現を示す表現データを生成する表現生成ステップとをさらにコンピュータに実行させることを特徴とする。

【0012】

第３発明に係るコンテンツ再生方法は、第２発明において、前記音声処理ステップは、予め取得された参照用声質データと、参照用テキストデータと、参照用感情データとを含む第３入力データと、参照用音声データを含む第３出力データとを一組のデータセットとする音声処理用学習データを複数用いて、機械学習により生成された音声処理用データベースを参照して、前記取得ステップにより取得した声質データと、テキストデータと、感情データとに対する前記音声データを生成することを特徴とする。

【0014】

第４発明に係るコンテンツ再生方法は、第１発明～第３発明のいずれかにおいて、予め取得された参照用会話文データと前記参照用会話文データに対する返答データとの対応関係を示す返答モデルを参照し、ユーザが入力した会話文データに対する返答データを決定し、決定された返答データに基づく前記テキストデータを取得することを特徴とする。

【0015】

第５発明に係るコンテンツ再生システムは、キャラクターの顔を含む顔画像データと、感情を示す感情データと、テキストデータとを取得する取得手段と、予め取得された参照用顔画像データと参照用感情データとを含む第１入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第１処理後顔画像データを含む第１出力データとを一組のデータセットとする第１処理用学習データを複数用いて、機械学習により生成された第１処理用データベースを参照して、前記取得手段により取得した顔画像データと感情データとに対する第１処理後顔画像データを生成する第１生成手段と、前記第１生成手段により生成された第１処理後顔画像データと、前記取得手段により取得したテキストデータとに基づいて、前記第１処理後顔画像データの一部を変化させた第２処理後顔画像データを生成する第２生成手段とを備え、前記第２生成手段は、予め取得された参照用第１処理後顔画像データと、参照用テキストデータとを含む第２入力データと、参照用第２処理後顔画像データを含む第２出力データとを一組のデータセットとする第２処理用学習データを複数用いて、機械学習により生成された第２処理用データベースを参照して、前記第１生成手段により生成された第１処理後顔画像データと、前記取得手段により取得したテキストデータとに基づいて、前記第２処理後顔画像データを生成することを特徴とする。

【発明の効果】

【0016】

第１発明～第４発明によれば、第１処理用データベースを参照して、顔画像データと感情データとに対する第１処理後顔画像データを生成する。これにより、ユーザの感情を反映した第１処理後顔画像データを生成することが可能となる。これによって、ユーザの感情が反映し、ユーザの見た目をユーザの好みのキャラクターの見た目で表現すること可能となる。また、第２処理用データベースを参照して、第１処理後顔画像データと、テキストデータとに基づいて、第２処理後顔画像データを生成する。これにより、入力されたテキストデータに適した精度の高い第２処理後顔画像データを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。

【0020】

特に、第２発明によれば、声質データと、テキストデータと、感情データとに基づいて、音声データを生成し、処理後顔画像データと、音声データとに基づいて、表現データを生成する。これにより、ユーザの感情が反映された音声データを生成することができるため、ユーザの感情が反映できるキャラクターの表現が可能となる。

【0021】

特に、第３発明によれば、機械学習により生成された音声処理用データベースを参照して、声質データと、テキストデータと、感情データとに基づいて、音声データを生成する。これにより、ユーザの感情が反映された精度の高い音声データを生成することができるため、ユーザの感情が反映できるキャラクターの表現が可能となる。

【0023】

第４発明によれば、返答モデルを参照し、ユーザが入力した会話文データに対する返答データを決定し、決定された返答データに基づくテキストデータを取得する。これにより、ユーザが入力した会話文データに対する返答データを自動的に取得することができるため、ユーザの会話に合わせたキャラクターの表現が可能となる。

【図面の簡単な説明】

【0024】

【図1】図１は、第１実施形態におけるコンテンツ再生システムの一例を示す模式図である。

【図2】図２は、第１実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。

【図3】図３は、第１処理用データベースの学習方法の一例を示す模式図である。

【図4】図４は、第１処理用データベースの連関性の一例を示す模式図である。

【図5】図５（ａ）は、第１実施形態におけるコンテンツ再生装置の構成の一例を示す模式図であり、図５（ｂ）は、第１実施形態におけるコンテンツ再生装置の機能の一例を示す模式図である。

【図6】図６は、第１実施形態におけるコンテンツ再生装置の動作の一例を示す図である。

【図7】図７は、第２実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。

【図8】図８は、第２処理用データベースの学習方法の一例を示す模式図である。

【図9】図９は、第２処理用データベースの連関性の一例を示す模式図である。

【図10】図１０は、第２実施形態におけるコンテンツ再生装置の動作の一例を示す図である。

【図11】図１１は、第３実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。

【図12】図１２は、第３実施形態における第１処理用データベースの学習方法の一例を示す模式図である。

【図13】図１３は、第３処理用データベースの連関性の一例を示す模式図である。

【図14】図１４は、第３実施形態におけるコンテンツ再生装置の動作の一例を示す図である。

【図15】図１５は、第４実施形態におけるコンテンツ再生装置の動作の一例を示す図である。

【図16】図１６は、音声処理用データベースの学習方法の一例を示す模式図である。

【図17】図１７は、音声処理用データベースの連関性の一例を示す模式図である。

【図18】図１８は、第５実施形態におけるコンテンツ再生装置の動作の一例を示す図である。

【図19】図１９は、第６実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。

【図20】図２０は、第６実施形態における第１処理用データベースの学習方法の一例を示す模式図である。

【図21】図２１は、第６処理用データベースの連関性の一例を示す模式図である。

【図22】図２２は、第６実施形態におけるコンテンツ再生装置の動作の一例を示す図である。

【発明を実施するための形態】

【0025】

以下、本発明を適用した実施形態におけるコンテンツ再生システムの一例について、図面を参照しながら説明する。

【0026】

（第１実施形態）
図を参照して、第１実施形態におけるコンテンツ再生システム１００、コンテンツ再生装置１、及び学習方法の一例について説明する。図１は、本実施形態におけるコンテンツ再生システム１００の一例を示す模式図である。図２は、本実施形態におけるコンテンツ再生システム１００の動作の一例を示す模式図である。

【0027】

＜コンテンツ再生システム１００＞
コンテンツ再生システム１００は、入力された任意の顔画像データと、感情データとに対し、第１処理後顔画像データを生成するために用いられる。コンテンツ再生システム１００は、例えば学習データを用いた機械学習により生成された第１処理用データベースを参照し、顔画像データと、感情データとに対し、第１処理後顔画像データを生成する。

【0028】

コンテンツ再生システム１００は、例えば図１に示すように、コンテンツ再生装置１を備える。コンテンツ再生システム１００は、例えば端末２及びサーバ３の少なくとも何れかを備えてもよい。コンテンツ再生装置１は、例えば通信網４を介して端末２やサーバ３と接続される。

【0029】

コンテンツ再生システム１００では、例えば図２に示すように、コンテンツ再生装置１が入力データを取得する。例えばコンテンツ再生装置１は、入力データを取得する。その後、第１処理用データベースを参照し、入力データに対し、第１処理後顔画像データを生成する。

【0030】

顔画像データは、キャラクターの顔を含む画像データである。顔画像データは、例えばコンテンツ再生システム１００によって出力される第１処理後顔画像データを生成する際に用いられる。画像データは、複数の画素の集合体を含むデータである。顔画像データは、例えば動画から抽出されたものであってもよく、動画データであってもよい。また、参照用顔画像データは、第１処理用学習データに用いられる顔画像データであり、顔画像データと同じ形式のものを用いてもよい。

【0031】

顔画像データは、例えば通信網４を介して取得したものであってもよい。顔画像データは、例えば公知の撮像装置等を用いて撮像された顔画像を示す他、例えば公知の技術で生成された擬似的な顔画像を示してもよい。顔画像データは、例えばコンテンツ再生装置１等を介して、ユーザ等により入力されてもよい。

【0032】

感情データは、感情を示すデータである。感情データは、例えば、怒り、喜び、悲しみなどの感情を示すテキストデータであってもよい。また、感情データは、怒り、喜び、悲しみ等が百分率等の３段階以上の評価で示されるテキストデータ又は数値データであってもよい。

【0033】

第１処理後顔画像データは、顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に当該顔画像データと異なる顔画像データである。第１処理後顔画像データは、例えば顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に当該顔画像データのキャラクターの顔と表情やしぐさ、向き等が異なるものであってもよい。

【0034】

なお、上述した「キャラクター」は、ユーザを模して擬似的に生成された人物又は動物、或いは実在する人物又は動物を模して擬似的に生成された人物又は動物のほか、アニメーション等のような、擬似的に生成された人物又は動物でもよい。

【0035】

第１処理用データベースは、機械学習により生成される。第１処理用データベースとして、例えば参照用顔画像データと参照用感情データとを含む第１入力データと、第１処理後顔画像データを含む第１出力データとを一組のデータセットとする第１処理用学習データを複数用いて、機械学習により生成された、第１入力データから第１出力データを生成するための学習済みモデルが用いられる。

【0036】

第１処理用データベースは、例えば図３に示すように、参照用顔画像データと参照用感情データと含むを第１入力データと、第１処理後顔画像データを含む第１出力データとを一組のデータセットとする第１処理用学習データを複数用いて、機械学習により生成される。

【0037】

第１処理用データベースは、例えばニューラルネットワークをモデルとした機械学習を用いて、生成される。第１処理用データベースは、例えばＣＮＮ（Convolution Neural Network）等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。

【0038】

第１処理用データベースには、例えば参照用顔画像データと参照用感情データとを含む第１入力データと、第１処理後顔画像データを含む第１出力データとの間における連関度を有する第１連関性が記憶される。連関度は、第１入力データと第１出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

【0039】

例えば連関性は、多対多の情報（複数の第１入力データ、対、複数の第１出力データ）の間における繋がりの度合いにより構築される。連関性は、機械学習の過程で適宜更新され、例えば複数の第１入力データ、及び複数の第１出力データに基づいて最適化された関数（分類器）を示す。なお、第１連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。

【0040】

このため、コンテンツ再生システム１００では、例えば分類器の判定した結果を全て踏まえた第１連関性を用いて、第１入力データに適した第１出力データを選択する。これにより、第１入力データが、第１出力データと同一又は類似である場合のほか、非類似である場合においても、第１入力データに適した第１出力データを定量的に選択することができる。

【0041】

第１連関性は、例えば図４に示すように、複数の第１出力データと、複数の第１入力データとの間における繋がりの度合いを示してもよい。この場合、第１連関性を用いることで、複数の第１出力データ（図４では「第１処理後顔画像データＡ」～「第１処理後顔画像データＣ」）のそれぞれに対し、複数の第１入力データ（図４では「顔画像データＡ＋感情データＡ」～「顔画像データＣ＋感情データＣ」）の関係の度合いを紐づけて記憶させることができる。このため、例えば第１連関性を介して、１つの第１出力データに対して、複数の第１入力データを紐づけることができる。これにより、第１入力データに対して多角的な第１出力データの選択を実現することができる。

【0042】

第１連関性は、例えば各第１出力データと、各第１入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、１０段階、又は５段階等の３段階以上で示され、例えば線の特徴（例えば太さ等）で示される。例えば、第１入力データに含まれる「顔画像データＡ＋感情データＡ」は、第１出力データに含まれる「第１処理後顔画像データＡ」との間の連関度ＡＡ「７３％」を示し、第１出力データに含まれる「第１処理後顔画像データＢ」との間の連関度ＡＢ「１２％」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。

【0043】

また、第１内部表象用データベースは、第１入力データと第１出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。第１入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。

【0044】

＜コンテンツ再生装置１＞
次に、図５、図６を参照して、本実施形態におけるコンテンツ再生装置１の一例を説明する。図５（ａ）は、本実施形態におけるコンテンツ再生装置１の構成の一例を示す模式図であり、図５（ｂ）は、本実施形態におけるコンテンツ再生装置１の機能の一例を示す模式図である。

【0045】

コンテンツ再生装置１として、例えばラップトップ（ノート）ＰＣ又はデスクトップＰＣ等の電子機器が用いられる。コンテンツ再生装置１は、例えば図５（ａ）に示すように、筐体１０と、ＣＰＵ（Central Processing Unit）１０１と、ＲＯＭ（Read Only Memory）１０２と、ＲＡＭ（Random Access Memory）１０３と、保存部１０４と、Ｉ／Ｆ１０５～１０７とを備える。各構成１０１～１０７は、内部バス１１０により接続される。

【0046】

ＣＰＵ１０１は、コンテンツ再生装置１全体を制御する。ＲＯＭ１０２は、ＣＰＵ１０１の動作コードを格納する。ＲＡＭ１０３は、ＣＰＵ１０１の動作時に使用される作業領域である。保存部１０４は、データベースや学習対象データ等の各種情報が記憶される。保存部１０４として、例えばＨＤＤ（Hard Disk Drive）のほか、ＳＳＤ（Solid State Drive）等のデータ保存装置が用いられる。なお、例えばコンテンツ再生装置１は、図示しないＧＰＵ（Graphics Processing Unit）を有してもよい。

【0047】

Ｉ／Ｆ１０５は、通信網４を介して、必要に応じて端末２、サーバ３、ウェブサイト等との各種情報の送受信を行うためのインターフェースである。Ｉ／Ｆ１０６は、入力部１０８との情報の送受信を行うためのインターフェースである。入力部１０８として、例えばキーボードが用いられ、コンテンツ再生装置１の使用者等は、入力部１０８を介して、各種情報、又はコンテンツ再生装置１の制御コマンド等を入力する。Ｉ／Ｆ１０７は、表示部１０９との各種情報の送受信を行うためのインターフェースである。表示部１０９は、保存部１０４に保存された各種情報、又はコンテンツ等を表示する。表示部１０９として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部１０８と一体に設けられる。また、表示部１０９は、スピーカが用いられてもよい。

【0048】

図５（ｂ）は、コンテンツ再生装置１の機能の一例を示す模式図である。コンテンツ再生装置１は、取得部１１と、処理部１２と、生成部１３と、出力部１４と、記憶部１５とを備え、例えばＤＢ生成部１６を有してもよい。なお、図５（ｂ）、に示した各機能は、ＣＰＵ１０１が、ＲＡＭ１０３を作業領域として、保存部１０４等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。

【0049】

＜＜取得部１１＞＞
取得部１１は、顔画像データと、感情データとを取得する。取得したデータは、上述した第１処理後顔画像データを生成する際に用いられる。取得部１１は、例えば入力部１０８から入力された顔画像データと、感情データとを取得するほか、例えば通信網４を介して、端末２等から顔画像データと、感情データとを取得してもよい。また、取得部１１は、予め取得された複数の顔画像データ、及び感情データの中からユーザが選択したデータを取得してもよい。

【0050】

取得部１１は、例えば上述したデータベースの生成に用いられる学習データを取得してもよい。取得部１１は、例えば入力部１０８から入力された学習データを取得するほか、例えば通信網４を介して、端末２等から学習データを取得してもよい。

【0051】

例えば、第１処理用データベースの生成に用いられる第１処理用学習データとして、過去の参照用顔画像データ及び参照用感情データが挙げられる。

【0052】

＜＜処理部１２＞＞
処理部１２は、例えば第１処理用データベースを参照し、顔画像データと感情データとに対する第１処理後顔画像データを生成する。

【0053】

＜＜生成部１３＞＞
生成部１３は、処理部１２で生成した顔画像データに基づき、少なくとも１つの擬似データを生成する。生成部１３は、例えば処理部１２で生成された第１処理後顔画像データに基づき、音声及び顔画像を含む擬似データを生成する。擬似データを生成することによって、記憶部１５に記憶されていないキャラクターの表現を出力することが可能となる。生成部１３は、擬似データを生成する際に、公知の技術を用いてもよい。

【0054】

＜＜出力部１４＞＞
出力部１４は、各種データを出力する。出力部１４は、例えば生成部１３で生成された擬似データを出力してもよい。出力部１４は、Ｉ／Ｆ１０７を介して表示部１０９に各種データを出力するほか、例えばＩ／Ｆ１０５を介して、複数の端末２等に各種データを出力する。

【0055】

＜＜記憶部１５＞＞
記憶部１５は、保存部１０４に保存されたデータベース等の各種データを必要に応じて取出す。記憶部１５は、各構成１１～１４、１６により取得又は生成された各種データを、必要に応じて保存部１０４に保存する。

【0056】

＜＜ＤＢ生成部１６＞＞
ＤＢ生成部１６は、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えばニューラルネットワーク等が用いられる。

【0057】

＜端末２＞
端末２は、例えばコンテンツ再生システム１００を用いたサービスのユーザ等が保有し、通信網４を介してコンテンツ再生装置１と接続される。端末２は、例えばデータベースを生成する電子機器を示してもよい。端末２は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末２は、例えばコンテンツ再生装置１の備える機能のうち、少なくとも一部の機能を備えてもよい。

【0058】

＜サーバ３＞
サーバ３は、通信網４を介してコンテンツ再生装置１と接続される。サーバ３は、過去の各種データ等が記憶され、必要に応じてコンテンツ再生装置１から各種データが送信される。サーバ３は、例えばコンテンツ再生装置１の備える機能のうち、少なくとも一部の機能を備えてもよく、例えばコンテンツ再生装置１の代わりに少なくとも一部の処理を行ってもよい。サーバ３は、例えばコンテンツ再生装置１の保存部１０４に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部１０４の代わりに用いられてもよい。

【0059】

＜通信網４＞
通信網４は、例えばコンテンツ再生装置１が通信回路を介して接続されるインターネット網等である。通信網４は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網４は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。

【0060】

（第１実施形態：コンテンツ再生システムの動作）
次に、本実施形態におけるコンテンツ再生システム１００の動作の一例について説明する。図６は、第１実施形態におけるコンテンツ再生装置の動作の一例を示す図である。

【0061】

＜取得ステップＳ１１０＞
取得ステップＳ１１０は、ユーザ等により入力された顔画像データと感情データとを取得する。取得ステップＳ１１０では、例えば取得部１１が、顔画像データと感情データとを取得する。取得部１１は、例えば端末２等から顔画像データと感情データとを取得するほか、例えば記憶部１５を介して、保存部１０４から取得してもよい。また、取得ステップＳ１１０は、例えば顔画像データとして、動画のように顔画像データと、顔画像データに紐づいた音声データを取得してもよい。

【0062】

＜第１処理ステップＳ１２０＞
第１処理ステップＳ１２０は、例えば第１処理用データベースを参照し、取得ステップＳ１１０で取得した顔画像データと感情データとに対する第１処理後顔画像データを生成する。第１処理ステップＳ１２０では、例えば第１処理部１２１は、第１処理用データベースを参照し、顔画像データと感情データとに対する第１処理後顔画像データを生成する。第１処理ステップＳ１２０は、例えば記憶部１５を介して、生成した第１処理後顔画像データを保存部１０４に保存してもよい。なお、生成した第１処理後顔画像データは、例えばサーバ３や他のコンテンツ再生装置１、又は複数のユーザ端末２に送信されてもよい。生成するデータは、ひとつの入力データに対して複数のデータを生成してもよい。これにより、ユーザの感情を反映した第１処理後顔画像データを生成することが可能となる。これによって、ユーザの感情が反映できるキャラクターの表現が可能となる。また、生成部１３により、疑似的に第１処理後顔画像データを生成してもよい。また、第１処理ステップＳ１２０は、例えば処理部１２に含まれる第１処理部１２１により、処理してもよい。

【0063】

＜出力ステップＳ１３０＞
出力ステップＳ１３０では、例えば出力部１４は、第１処理ステップＳ１２０により取得された第１処理後顔画像データを、表示部１０９や端末２等に出力する。

【0064】

上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム１００の動作が完了する。

【0065】

（第２実施形態）
以下、本発明の第２実施形態を適応したコンテンツ再生システム１００について説明する。本発明の第２実施形態は、第１処理後顔画像データとテキストデータに対する第２処理後顔画像データを生成する点で第１実施形態と異なる。また、第１実施形態と同様な構成の説明は省略する。

【0066】

＜コンテンツ再生システム１００＞
コンテンツ再生システム１００は、図７に示すように、第１処理用データベースを参照して生成された顔画像データと感情データとに対する第１処理後顔画像データと、テキストデータとに対する第２処理後顔画像データを生成するために用いられる。コンテンツ再生システム１００は、例えば学習データを用いた機械学習により生成された第２処理用データベースを参照し、第１処理後顔画像データと、テキストデータとに対する第２処理後顔画像データを生成する。かかる場合、コンテンツ再生システム１００は、例えば顔画像データと感情データとに対する第１処理後顔画像データとして、顔画像データに含まれるキャラクターの目元を変化させた第１処理後顔画像データを生成し、さらに第２処理用データベースを参照し、生成した第１処理後顔画像データと、テキストデータに対する第１処理後顔画像データに含まれるキャラクターの口元を変化させた第２処理後顔画像データを生成してもよい。

【0067】

テキストデータは、例えばコンテンツ再生システム１００によって生成される顔画像データを生成する際に用いられる。テキストデータは、例えばユーザが入力した会話文、又はキャラクターに話させたい会話文等であってもよい。テキストデータは、文字や文字コードによって表されるデータである。テキストデータは、例えば、モニタやプリンタなどの機器を制御するためのデータである制御文字を含む。制御文字は、例えば、改行を表す改行文字やタブ（水平タブ）などが含まれる。

【0068】

テキストデータは、例えば通信網４を介して、また、テキストデータは、音声を音声認識することによって抽出したものであってもよい。テキストデータは、例えばコンテンツ再生装置１等を介して、ユーザ等により入力されてもよい。

【0069】

第２処理後顔画像データは、第１処理後顔画像データの一部を変化させた顔画像データである。第２処理後顔画像データは、例えば第１処理後顔画像データに含まれるキャラクターの口等の画像データの一部を変化させたものであってもよい。

【0070】

第２処理用データベースは、例えば機械学習により生成されることが好ましいがこの限りではない。第２処理用データベースとして、例えば参照用第１処理後顔画像データと参照用テキストデータとを含む第２入力データと、参照用第２処理後顔画像データを含む第２出力データとを一組のデータセットとする第２処理用学習データを複数用いて、機械学習により生成された、第２入力データから第２出力データを生成するための学習済みモデルが用いられる。かかる場合、第２処理用データベースの生成方法は、入力データを第２入力データ、出力を第２出力データとする点で第１処理用データベースと異なる。

【0071】

第２処理用データベースは、例えば図８に示すように、参照用第１処理後顔画像データと参照用感情データと含むを第２入力データと、参照用第２処理後顔画像データを含む第２出力データとを一組のデータセットとする第２処理用学習データを複数用いて、機械学習により生成される。

【0072】

第２処理用データベースは、例えばニューラルネットワークをモデルとした機械学習を用いて、生成される。第２処理用データベースは、例えばＣＮＮ（Convolution Neural Network）等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。

【0073】

第２処理用データベースには、例えば図９に示すように第２入力データと、第２出力データとの間における連関度を有する第２連関性が記憶される。連関度は、第２入力データと第２出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

【0074】

（第２実施形態：コンテンツ再生システムの動作）
次に、第２実施形態におけるコンテンツ再生システム１００の動作の一例について説明する。図１０は、第２実施形態におけるコンテンツ再生装置の動作の一例を示す図である。

【0075】

＜取得ステップＳ２１０＞
取得ステップＳ２１０は、ユーザ等により入力された顔画像データと感情データとテキストデータとを取得する。取得ステップＳ２１０では、例えば取得部１１が、顔画像データと感情データとテキストデータとを取得する。また、取得ステップＳ２１０は、例えばテキストデータとして、動画のように顔画像データと、顔画像データに紐づいた音声データを取得して、取得した音声データを音声認識することにより取得してもよい。

【0076】

＜第２処理ステップＳ２４０＞
第２処理ステップＳ２４０は、例えば第２処理用データベースを参照し、第１処理ステップＳ１２０により生成された第１処理後顔画像データと、取得ステップＳ２１０で取得したテキストデータとに対する第２処理後顔画像データを生成する。第２処理ステップＳ２４０では、例えば第２処理部１２２は、第２処理用データベースを参照し、第１処理後顔画像データと、テキストデータとに対する第２処理後顔画像データを生成する。かかる場合、第２処理部１２２は、入力された第１処理後顔画像データを公知の画像解析技術により画像解析し、第１処理後顔画像データに含まれるキャラクターの顔の一部、例えば口を判定し、判定した部分をテキストデータに合わせて変化させた第２処理後顔画像データを生成してもよい。また、第２処理ステップＳ２４０は、第２処理用データベースを用いることなく、第２処理後顔画像データを生成してもよい。これにより、入力されたテキストデータに適した第２処理後顔画像データを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。また、生成部１３により、疑似的に第２処理後顔画像データを生成してもよい。また、第２処理ステップＳ２４０は、例えば処理部１２に含まれ、第１処理部１２１に接続される第２処理部１２２により、処理してもよい。

【0077】

上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム１００の動作が完了する。

【0078】

（第３実施形態）
以下、本発明の第３実施形態を適応したコンテンツ再生システム１００について説明する。本発明の第３実施形態は、顔画像データと感情データとテキストデータとに対する第１処理後顔画像データを生成する点で第１実施形態と異なる。また、第１実施形態と同様な構成の説明は省略する。

【0079】

＜コンテンツ再生システム１００＞
コンテンツ再生システム１００は、図１１に示すように入力された任意の顔画像データと、感情データと、テキストデータとに対し、第１処理後顔画像データを生成するために用いられる。コンテンツ再生システム１００は、例えば学習データを用いた機械学習により生成された第１処理用データベースを参照し、顔画像データと、感情データと、テキストデータに対する第１処理後顔画像データを生成する。

【0080】

第１処理用データベースは、機械学習により生成される。第１処理用データベースとして、例えば参照用顔画像データと参照用感情データと参照用テキストデータとを含む第１入力データと、参照用第１処理後顔画像データを含む第１出力データとを一組のデータセットとする第１処理用学習データを複数用いて、機械学習により生成された、第１入力データから第１出力データを生成するための学習済みモデルが用いられる。かかる場合、第１処理用データベースの生成方法は、第１入力データに参照用テキストデータが含まれている点で第１実施形態と異なる。

【0081】

第１処理用データベースは、例えば図１２に示すように、参照用第１処理後顔画像データと参照用感情データと参照用テキストデータとを含む第１入力データと、参照用第１処理後顔画像データを含む第１出力データとを一組のデータセットとする第１処理用学習データを複数用いて、機械学習により生成される。

【0082】

第２処理用データベースは、例えば図１３に示すように、ニューラルネットワークをモデルとした機械学習を用いて、生成される。第２処理用データベースは、例えばＣＮＮ（Convolution Neural Network）等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。

【0083】

第１処理用データベースには、例えば第１入力データと、第１出力データとの間における連関度を有する第１連関性が記憶される。連関度は、第１入力データと第１出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

【0084】

（第３実施形態：コンテンツ再生システムの動作）
次に、第３実施形態におけるコンテンツ再生システム１００の動作の一例について説明する。図１４は、第３実施形態におけるコンテンツ再生装置の動作の一例を示す図である。

【0085】

＜取得ステップＳ３１０＞
取得ステップＳ３１０は、ユーザ等により入力された顔画像データと感情データとテキストデータとを取得する。

【0086】

＜第１処理ステップＳ３２０＞
第１処理ステップＳ３２０は、例えば第１処理用データベースを参照し、取得ステップＳ３１０で取得した顔画像データと、感情データと、テキストデータとに対する第１処理後顔画像データを生成する。第１処理ステップＳ３２０では、例えば第１処理部１２１は、第１処理用データベースを参照し、顔画像データと、感情データと、テキストデータとに対する第１処理後顔画像データを生成する。これにより、入力されたテキストデータに適した第１処理後顔画像データを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。また、生成部１３により、擬似的に第１処理後顔画像データを生成してもよい。また、第１処理ステップＳ３２０は、例えば処理部１２に含まれる第１処理部１２１により、処理してもよい。

【0087】

上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム１００の動作が完了する。

【0088】

（第４実施形態）
以下、本発明の第４実施形態を適応したコンテンツ再生システム１００について説明する。本発明の第４実施形態は、返答モデルを参照し、ユーザが入力した会話文に対する返答を決定し、決定された返答に基づくテキストデータを取得する点で第３実施形態と異なる。また、第３実施形態と同様な構成の説明は省略する。

【0089】

＜コンテンツ再生システム１００＞
コンテンツ再生システム１００は、返答モデルを参照し、ユーザが入力した会話文に対する返答を決定し、決定された返答に基づくテキストデータを取得する。その後、コンテンツ再生システム１００は、入力された任意の顔画像データと、感情データと、テキストデータとに対し、第１処理後顔画像データを生成する。コンテンツ再生システム１００は、予め取得された参照用会話文と前記参照用会話文に対する返答との対応関係を示す返答モデルを参照し、ユーザが入力した会話文に対する返答を決定し、決定された返答に基づくテキストデータを取得する。

【0090】

返答モデルは、例えば表１のようにユーザが入力した会話文に対する返答が一義的に決定されるテーブルであってもよい。かかる場合、例えばユーザが「ただいま」という会話文を入力した場合、「おかえり」という会話文が返答として決定される。また、返答モデルは、ユーザが入力した日本語の会話文を英語に翻訳した会話文を返答として決定してもよい。また、返答モデルは機械学習により生成されてもよい。かかる場合、返答モデルは、参照用会話文を入力、参照用会話文に対する返答を出力とした複数の学習データを用いて機械学習により生成される。

【表1】

【0091】

（第４実施形態：コンテンツ再生システムの動作）
次に、第４実施形態におけるコンテンツ再生システム１００の動作の一例について説明する。図１５は、第４実施形態におけるコンテンツ再生装置の動作の一例を示す図である。

【0092】

＜取得ステップＳ４１０＞
取得ステップＳ４１０は、ユーザ等により入力された顔画像データと感情データとテキストデータとを取得する。

【0093】

＜返答処理ステップＳ４４０＞
返答処理ステップＳ４４０は、例えば返答モデルを参照し、取得ステップＳ４１０で取得したテキストデータに対する返答テキストデータを生成する。これにより、入力されたテキストデータに適した返答に基づくテキストデータを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。また、返答処理ステップＳ４４０は、例えば処理部１２に含まれる返答処理部１２３により、処理してもよい。

【0094】

上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム１００の動作が完了する。

【0095】

（第５実施形態）
以下、本発明の第５実施形態を適応したコンテンツ再生システム１００について説明する。本発明の第５実施形態は、音質データと感情データとテキストデータとに対する音声データを生成し、処理後顔画像データと音声データとに対する表現データを生成する点で第３実施形態と異なる。また、第３実施形態と同様な構成の説明は省略する。

【0096】

＜コンテンツ再生システム１００＞
コンテンツ再生システム１００は、顔画像データと、感情データとテキストデータと声質に関する声質データを取得し、テキストデータと、感情データと、音質データとに基づいて、キャラクターの音声を示す音声データを生成する。その後、コンテンツ再生システム１００は、生成された処理後顔画像データと、生成された音声データとに基づいて、キャラクターの表現を示す表現データを生成する。

【0097】

また、コンテンツ再生システム１００は、予め取得された参照用声質データと、参照用テキストデータと、参照用感情データとを含む第３入力データと、参照用音声データを含む第３出力データとを一組のデータセットとする音声処理用学習データを複数用いて、機械学習により生成された音声処理用データベースを参照して、取得した声質データと、テキストデータと、感情データとに基づいて、音声データを生成してもよい。

【0098】

音質データは音質を示すデータである。音質データは、例えば音の響きの特徴である音響特徴量を示すデータである。音響特徴量は、例えば、基本周波数、スペクトル包絡、非周期性指標、スペクトログラム、音声の大きさ、ケプストラム、単語の発音、イントネーション、音波の時間遅れ、音声の時間による増減の変化等を示したものである。音質データは、例えばコンテンツ再生装置１等を介して、ユーザ等により入力されてもよい。

【0099】

音声データは、音声を符号化したものである。音声の符号化には例えば、量子化ビット数とサンプリング周波数と時間とで定まる長さのビット列として表されるパルス符号変調（ＰＣＭ）方式に基づくものと、音声の波の疎密を１ｂｉｔで表現して一定の間隔で標本化するパルス密度変調（ＰＤＭ）方式に基づくものなどがある。

【0100】

音声データは、例えば動画データから抽出された音声に基づいたものであってもよい。音声データは、例えば公知の収音装置等を用いて収音された音声のデータを示すほか、例えば公知の技術で生成された擬似的な音声を示してもよい。

【0101】

表現データは、キャラクターを含む画像、及びキャラクターの音声によって構成されるキャラクターの表現を示すデータである。表現は、例えば映像的表現、音声的表現、身体的表現等がある。映像的表現は、視覚に働きかける表現であり、身振りや表情等がある。音声的表現は、聴覚に働きかける表現であり、言葉や発言、歌等がある。身体的表現は、触覚に働きかける表現であり、ボディタッチなどがある。表現データは、擬似的に生成された擬似データを含んでいてもよい。また、表現データはキャラクターを含む動画でもよい。

【0102】

音声処理用データベースは、機械学習により生成される。音声処理用データベースとして、例えば参照用音質データと参照用感情データと参照用テキストデータとを含む第３入力データと、参照用音声データを含む第３出力データとを一組のデータセットとする第３処理用学習データを複数用いて、機械学習により生成された、第３入力データから第３出力データを生成するための学習済みモデルが用いられる。かかる場合、音声処理用データベースの生成方法は、入力データを第３入力データ、出力を第３出力データとする点で第１処理用データベースと異なる。

【0103】

音声処理用データベースは、例えば図１６に示すように、参照用音質データと参照用感情データと参照用テキストデータとを含むを第３入力データと、参照用音声データを含む第３出力データとを一組のデータセットとする音声処理用学習データを複数用いて、機械学習により生成される。

【0104】

音声処理用データベースは、例えばニューラルネットワークをモデルとした機械学習を用いて、生成される。音声処理用データベースは、例えばＣＮＮ（Convolution Neural Network）等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。

【0105】

音声処理用データベースには、例えば図１７に示すように、第３入力データと、第３出力データとの間における連関度を有する第３連関性が記憶される。連関度は、第３入力データと第３出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

【0106】

（第５実施形態：コンテンツ再生システムの動作）
次に、第５実施形態におけるコンテンツ再生システム１００の動作の一例について説明する。図１８は、第５実施形態におけるコンテンツ再生装置の動作の一例を示す図である。

【0107】

＜取得ステップＳ５１０＞
取得ステップＳ５１０は、ユーザ等により入力された顔画像データと感情データとテキストデータと音質データとを取得する。

【0108】

＜音声処理ステップＳ５５０＞
音声処理ステップＳ５５０は、例えば音声処理用データベースを参照し、取得ステップＳ３１０で取得した音質データと、感情データと、テキストデータとに対する音声データを生成する。音声処理ステップＳ５５０では、例えば音声処理部１２４は、音声処理用データベースを参照し、音質データと、感情データと、テキストデータとに対する音声データを生成する。これにより、入力された音質データと、感情データと、テキストデータとに適した音声データを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。また、音声処理ステップＳ５５０は、例えば処理部１２に含まれる音声処理部１２４により、処理してもよい。

【0109】

＜表現生成ステップＳ５６０＞
表現生成ステップＳ５６０は、生成された音声データと処理後顔画像データとに基づいて表現データを生成する。処理後顔画像データは、例えば第１処理後顔画像データ、又は第２処理後顔画像データを含む。また、表現生成ステップＳ５６０は、例えば生成部１３により、処理してもよい。

【0110】

上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム１００の動作が完了する。

【0111】

（第６実施形態）
以下、本発明の第６実施形態を適応したコンテンツ再生システム１００について説明する。本発明の第６実施形態は、顔画像データとテキストデータに対する第１処理後顔画像データを生成する点で第１実施形態と異なる。また、第１実施形態と同様な構成の説明は省略する。

【0112】

＜コンテンツ再生システム１００＞
コンテンツ再生システム１００は、図１９に示すように、第１処理用データベースを参照して生成された顔画像データとテキストデータとに対する第１処理後顔画像データを生成するために用いられる。コンテンツ再生システム１００は、例えば学習データを用いた機械学習により生成された第１処理用データベースを参照し、顔画像データと、テキストデータとに対する第１処理後顔画像データを生成する。

【0113】

第１処理用データベースは、例えば機械学習により生成される。第１処理用データベースとして、例えば参照用顔画像データと参照用テキストデータとを含む第１入力データと、参照用第１処理後顔画像データを含む第１出力データとを一組のデータセットとする第１処理用学習データを複数用いて、機械学習により生成された、第１入力データから第１出力データを生成するための学習済みモデルが用いられる。かかる場合、第１処理用データベースの生成方法は、入力データに顔画像データとテキストデータが含まれる点で第１実施形態における第１処理用データベースと異なる。

【0114】

第１処理用データベースは、例えば図２０に示すように、参照用顔画像データと参照用テキストデータと含むを第１入力データと、参照用第１処理後顔画像データを含む第１出力データとを一組のデータセットとする第１処理用学習データを複数用いて、機械学習により生成される。

【0115】

【0116】

第１処理用データベースには、例えば図２１に示すように第１入力データと、第１出力データとの間における連関度を有する第１連関性が記憶される。連関度は、第１入力データと第１出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

【0117】

（第６実施形態：コンテンツ再生システムの動作）
次に、第６実施形態におけるコンテンツ再生システム１００の動作の一例について説明する。図２２は、第２実施形態におけるコンテンツ再生装置の動作の一例を示す図である。

【0118】

＜取得ステップＳ６１０＞
取得ステップＳ６１０は、ユーザ等により入力された顔画像データとテキストデータとを取得する。取得ステップＳ６１０では、例えば取得部１１が、顔画像データとテキストデータとを取得する。また、取得ステップＳ６１０は、例えば、動画のように顔画像データと、顔画像データに紐づいた音声データを取得して、取得した音声データを音声認識することによりテキストデータを取得してもよい。

【0119】

＜第１処理ステップＳ６２０＞
第１処理ステップＳ６２０は、例えば第１処理用データベースを参照し、取得ステップＳ６１０で取得した顔画像データと、テキストデータとに対する第１処理後顔画像データを生成する。第１処理ステップＳ６２０では、例えば第１処理部１２１は、第１処理用データベースを参照し、顔画像データと、テキストデータとに対する第１処理後顔画像データを生成する。これにより、入力されたテキストデータに適した第１処理後顔画像データを生成することが可能となり、ユーザの会話に合わせたキャラクターの表現が可能となる。また、生成部１３により、擬似的に第１処理後顔画像データを生成してもよい。また、第１処理ステップＳ６２０は、例えば処理部１２に含まれる第１処理部１２１により、処理してもよい。

【0120】

上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム１００の動作が完了する。

【0121】

本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0122】

１：コンテンツ再生装置
２：端末
３：サーバ
４：通信網
１０：筐体
１１：取得部
１２：処理部
１３：生成部
１４：出力部
１５：記憶部
１６：ＤＢ生成部
１００：コンテンツ再生システム
１０１：ＣＰＵ
１０２：ＲＯＭ
１０３：ＲＡＭ
１０４：保存部
１０５：Ｉ／Ｆ
１０６：Ｉ／Ｆ
１０７：Ｉ／Ｆ
１０８：入力部
１０９：表示部
１１０：内部バス
１２１：第１処理部
１２２：第２処理部
１２３：返答処理部
１２４：音声処理部
Ｓ１１０：取得ステップ
Ｓ１２０：第１処理ステップ
Ｓ１３０：出力ステップ
Ｓ２１０：取得ステップ
Ｓ２２０：第１処理ステップ
Ｓ２３０：出力ステップ
Ｓ２４０：第２処理ステップ
Ｓ３１０：取得ステップ
Ｓ３２０：第１処理ステップ
Ｓ３３０：出力ステップ
Ｓ４１０：取得ステップ
Ｓ４２０：第１処理ステップ
Ｓ４３０：出力ステップ
Ｓ４４０：返答処理ステップ
Ｓ５１０：取得ステップ
Ｓ５２０：第１処理ステップ
Ｓ５３０：出力ステップ
Ｓ５５０：音声処理ステップ
Ｓ５６０：表現生成ステップ
Ｓ６１０：取得ステップ
Ｓ６２０：第１処理ステップ
Ｓ６３０：出力ステップ

【要約】

【課題】ユーザの見た目をユーザの好みのキャラクターの見た目で表現すること可能となるコンテンツ再生方法、及びコンテンツ再生システムを提供する。
【解決手段】キャラクターの顔を含む顔画像データと、感情を示す感情データとを取得する取得ステップと、予め取得された参照用顔画像データと参照用感情データとを含む第１入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第１処理後顔画像データを含む第１出力データとを一組のデータセットとする第１処理用学習データを複数用いて、機械学習により生成された第１処理用データベースを参照して、前記取得ステップにより取得した顔画像データと感情データとに対する第１処理後顔画像データを生成する第１生成ステップとをコンピュータに実行させることを特徴とするコンテンツ再生方法。
【選択図】図２