IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ AIインフルエンサー株式会社の特許一覧

特許6993034コンテンツ再生方法、及びコンテンツ再生システム
<>
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図1
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図2
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図3
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図4
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図5
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図6
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図7
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図8
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図9
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図10
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図11
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図12
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図13
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図14
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図15
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図16
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図17
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図18
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図19
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図20
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図21
  • 特許-コンテンツ再生方法、及びコンテンツ再生システム 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2021-12-13
(45)【発行日】2022-01-13
(54)【発明の名称】コンテンツ再生方法、及びコンテンツ再生システム
(51)【国際特許分類】
   G06T 13/80 20110101AFI20220105BHJP
   G06F 3/16 20060101ALI20220105BHJP
   G10L 13/033 20130101ALI20220105BHJP
   G10L 13/10 20130101ALI20220105BHJP
【FI】
G06T13/80 C
G06F3/16 690
G10L13/033 102A
G10L13/10 112B
【請求項の数】 5
(21)【出願番号】P 2021082702
(22)【出願日】2021-05-14
【審査請求日】2021-05-19
【早期審査対象出願】
(73)【特許権者】
【識別番号】521209708
【氏名又は名称】AIインフルエンサー株式会社
(74)【代理人】
【識別番号】100120868
【弁理士】
【氏名又は名称】安彦 元
(72)【発明者】
【氏名】河合 継
【審査官】片岡 利延
(56)【参考文献】
【文献】特開2020-184100(JP,A)
【文献】特開2003-248837(JP,A)
【文献】国際公開第2018/168427(WO,A1)
【文献】特開2001-357413(JP,A)
【文献】特開2007-183421(JP,A)
【文献】特表2010-531478(JP,A)
【文献】特開2003-202885(JP,A)
【文献】k17trpsynth’s blog,音声認識と合成についてのまとめ,[online],2018年01月30日,https://k17trpsynth.hatenablog.com/entry/2018/01/30/191338,[検索日:2021-08-20]
(58)【調査した分野】(Int.Cl.,DB名)
G06T 13/80
G06F 3/16
G10L 13/033
G10L 13/10
(57)【特許請求の範囲】
【請求項1】
キャラクターの顔を含む顔画像データと、感情を示す感情データと、テキストデータとを取得する取得ステップと、
予め取得された参照用顔画像データと参照用感情データとを含む第1入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された第1処理用データベースを参照して、前記取得ステップにより取得した顔画像データと感情データとに対する第1処理後顔画像データを生成する第1生成ステップと
前記第1生成ステップにより生成された第1処理後顔画像データと、前記取得ステップにより取得したテキストデータとに基づいて、前記第1処理後顔画像データの一部を変化させた第2処理後顔画像データを生成する第2生成ステップと
コンピュータに実行させ
前記第2生成ステップは、予め取得された参照用第1処理後顔画像データと、参照用テキストデータとを含む第2入力データと、参照用第2処理後顔画像データを含む第2出力データとを一組のデータセットとする第2処理用学習データを複数用いて、機械学習により生成された第2処理用データベースを参照して、前記第1生成ステップにより生成された第1処理後顔画像データと、前記取得ステップにより取得したテキストデータとに基づいて、前記第2処理後顔画像データを生成すること
を特徴とするコンテンツ再生方法。
【請求項2】
前記取得ステップは、声質に関する声質データを取得し、
前記取得ステップにより取得した声質データと、テキストデータと、感情データとに基づいて、前記キャラクターの音声を示す音声データを生成する音声処理ステップと、
前記第2生成ステップにより生成された第2処理後顔画像データと、前記音声処理ステップにより生成された音声データとに基づいて、前記キャラクターの表現を示す表現データを生成する表現生成ステップとをさらにコンピュータに実行させること
を特徴とする請求項に記載のコンテンツ再生方法。
【請求項3】
前記音声処理ステップは、予め取得された参照用声質データと、参照用テキストデータと、参照用感情データとを含む第3入力データと、参照用音声データを含む第3出力データとを一組のデータセットとする音声処理用学習データを複数用いて、機械学習により生成された音声処理用データベースを参照して、前記取得ステップにより取得した声質データと、テキストデータと、感情データとに対する前記音声データを生成すること
を特徴とする請求項に記載のコンテンツ再生方法。
【請求項4】
前記取得ステップは、予め取得された参照用会話文データと前記参照用会話文データに対する返答データとの対応関係を示す返答モデルを参照し、ユーザが入力した会話文データに対する返答データを決定し、決定された返答データに基づく前記テキストデータを取得すること
を特徴とする請求項1~3の何れか1項に記載のコンテンツ再生方法。
【請求項5】
キャラクターの顔を含む顔画像データと、感情を示す感情データと、テキストデータとを取得する取得手段と、
予め取得された参照用顔画像データと参照用感情データとを含む第1入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された第1処理用データベースを参照して、前記取得手段により取得した顔画像データと感情データとに対する第1処理後顔画像データを生成する第1生成手段と
前記第1生成手段により生成された第1処理後顔画像データと、前記取得手段により取得したテキストデータとに基づいて、前記第1処理後顔画像データの一部を変化させた第2処理後顔画像データを生成する第2生成手段と
備え、
前記第2生成手段は、予め取得された参照用第1処理後顔画像データと、参照用テキストデータとを含む第2入力データと、参照用第2処理後顔画像データを含む第2出力データとを一組のデータセットとする第2処理用学習データを複数用いて、機械学習により生成された第2処理用データベースを参照して、前記第1生成手段により生成された第1処理後顔画像データと、前記取得手段により取得したテキストデータとに基づいて、前記第2処理後顔画像データを生成すること
を特徴とするコンテンツ再生システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツ再生方法、及びコンテンツ再生システムに関する。
【背景技術】
【0002】
近年、動画を配信する場合において、配信者のプライバシーを保護するため、又は配信者の好みの顔や声で配信ができるように、ユーザの見た目や声をユーザの好みのキャラクターの見た目や声で表現することが可能となる技術が必要とされている。そのため、キャラクターによる会話がユーザによる会話と比べて、違和感のない会話にするための、キャラクターの音声を表現するための技術が注目されており、例えば特許文献1の情報処理システムが知られている。
【0003】
上記特許文献1に記載された技術は、プロセッサが、ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの発話フレーズを通信部により送信し、受信したユーザのメッセージに基づいて、特定のキャラクターの音声に変換した変換メッセージを生成する。さらに特許文献1に記載された技術は、ユーザのメッセージに対応する特定のキャラクターの発話フレーズを生成し、生成した変換メッセージおよび発話フレーズをクライアント端末に返送する。これにより、キャラクターをユーザ自身が体験できるようにすることで娯楽性をさらに高めることが可能となる情報処理システムに関する技術が特許文献1に記載されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2021-39370号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、特許文献1では、受信したユーザのメッセージに基づいて、特定のキャラクターの音声に変換した変換メッセージを生成する。しかしながら、特許文献1では、特定のキャラクターの見た目をキャラクターの変換メッセージに反映させることを想定していない。このため、特許文献1では、ユーザの好みの見た目でユーザの配信を表現することができない。従って、ユーザの見た目をユーザの好みのキャラクターの見た目で表現することが可能となる技術が望まれている。
【0006】
そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、ユーザの見た目をユーザの好みのキャラクターの見た目で表現することが可能となるコンテンツ再生方法、及びコンテンツ再生システムを提供することにある。
【課題を解決するための手段】
【0007】
第1発明に係るコンテンツ再生方法は、キャラクターの顔を含む顔画像データと、感情を示す感情データと、テキストデータとを取得する取得ステップと、予め取得された参照用顔画像データと参照用感情データとを含む第1入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された第1処理用データベースを参照して、前記取得ステップにより取得した顔画像データと感情データとに対する第1処理後顔画像データを生成する第1生成ステップと、前記第1生成ステップにより生成された第1処理後顔画像データと、前記取得ステップにより取得したテキストデータとに基づいて、前記第1処理後顔画像データの一部を変化させた第2処理後顔画像データを生成する第2生成ステップとをコンピュータに実行させ、前記第2生成ステップは、予め取得された参照用第1処理後顔画像データと、参照用テキストデータとを含む第2入力データと、参照用第2処理後顔画像データを含む第2出力データとを一組のデータセットとする第2処理用学習データを複数用いて、機械学習により生成された第2処理用データベースを参照して、前記第1生成ステップにより生成された第1処理後顔画像データと、前記取得ステップにより取得したテキストデータとに基づいて、前記第2処理後顔画像データを生成することを特徴とする。
【0011】
発明に係るコンテンツ再生方法は、第1発明において、前記取得ステップは、声質に関する声質データを取得し、前記取得ステップにより取得した声質データと、テキストデータと、感情データとに基づいて、前記キャラクターの音声を示す音声データを生成する音声処理ステップと、前記生成ステップにより生成された処理後顔画像データと、前記音声処理ステップにより生成された音声データとに基づいて、前記キャラクターの表現を示す表現データを生成する表現生成ステップとをさらにコンピュータに実行させることを特徴とする。
【0012】
発明に係るコンテンツ再生方法は、第発明において、前記音声処理ステップは、予め取得された参照用声質データと、参照用テキストデータと、参照用感情データとを含む第3入力データと、参照用音声データを含む第3出力データとを一組のデータセットとする音声処理用学習データを複数用いて、機械学習により生成された音声処理用データベースを参照して、前記取得ステップにより取得した声質データと、テキストデータと、感情データとに対する前記音声データを生成することを特徴とする。
【0014】
発明に係るコンテンツ再生方法は、第発明~第発明のいずれかにおいて、予め取得された参照用会話文データと前記参照用会話文データに対する返答データとの対応関係を示す返答モデルを参照し、ユーザが入力した会話文データに対する返答データを決定し、決定された返答データに基づく前記テキストデータを取得することを特徴とする。
【0015】
発明に係るコンテンツ再生システムは、キャラクターの顔を含む顔画像データと、感情を示す感情データと、テキストデータとを取得する取得手段と、予め取得された参照用顔画像データと参照用感情データとを含む第1入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された第1処理用データベースを参照して、前記取得手段により取得した顔画像データと感情データとに対する第1処理後顔画像データを生成する第1生成手段と、前記第1生成手段により生成された第1処理後顔画像データと、前記取得手段により取得したテキストデータとに基づいて、前記第1処理後顔画像データの一部を変化させた第2処理後顔画像データを生成する第2生成手段と備え、前記第2生成手段は、予め取得された参照用第1処理後顔画像データと、参照用テキストデータとを含む第2入力データと、参照用第2処理後顔画像データを含む第2出力データとを一組のデータセットとする第2処理用学習データを複数用いて、機械学習により生成された第2処理用データベースを参照して、前記第1生成手段により生成された第1処理後顔画像データと、前記取得手段により取得したテキストデータとに基づいて、前記第2処理後顔画像データを生成することを特徴とする。
【発明の効果】
【0016】
第1発明~第発明によれば、第1処理用データベースを参照して、顔画像データと感情データとに対する第1処理後顔画像データを生成する。これにより、ユーザの感情を反映した第1処理後顔画像データを生成することが可能となる。これによって、ユーザの感情が反映し、ユーザの見た目をユーザの好みのキャラクターの見た目で表現すること可能となる。また、第2処理用データベースを参照して、第1処理後顔画像データと、テキストデータとに基づいて、第2処理後顔画像データを生成する。これにより、入力されたテキストデータに適した精度の高い第2処理後顔画像データを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。
【0020】
特に、第発明によれば、声質データと、テキストデータと、感情データとに基づいて、音声データを生成し、処理後顔画像データと、音声データとに基づいて、表現データを生成する。これにより、ユーザの感情が反映された音声データを生成することができるため、ユーザの感情が反映できるキャラクターの表現が可能となる。
【0021】
特に、第発明によれば、機械学習により生成された音声処理用データベースを参照して、声質データと、テキストデータと、感情データとに基づいて、音声データを生成する。これにより、ユーザの感情が反映された精度の高い音声データを生成することができるため、ユーザの感情が反映できるキャラクターの表現が可能となる。
【0023】
発明によれば、返答モデルを参照し、ユーザが入力した会話文データに対する返答データを決定し、決定された返答データに基づくテキストデータを取得する。これにより、ユーザが入力した会話文データに対する返答データを自動的に取得することができるため、ユーザの会話に合わせたキャラクターの表現が可能となる。
【図面の簡単な説明】
【0024】
図1図1は、第1実施形態におけるコンテンツ再生システムの一例を示す模式図である。
図2図2は、第1実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。
図3図3は、第1処理用データベースの学習方法の一例を示す模式図である。
図4図4は、第1処理用データベースの連関性の一例を示す模式図である。
図5図5(a)は、第1実施形態におけるコンテンツ再生装置の構成の一例を示す模式図であり、図5(b)は、第1実施形態におけるコンテンツ再生装置の機能の一例を示す模式図である。
図6図6は、第1実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
図7図7は、第2実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。
図8図8は、第2処理用データベースの学習方法の一例を示す模式図である。
図9図9は、第2処理用データベースの連関性の一例を示す模式図である。
図10図10は、第2実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
図11図11は、第3実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。
図12図12は、第3実施形態における第1処理用データベースの学習方法の一例を示す模式図である。
図13図13は、第3処理用データベースの連関性の一例を示す模式図である。
図14図14は、第3実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
図15図15は、第4実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
図16図16は、音声処理用データベースの学習方法の一例を示す模式図である。
図17図17は、音声処理用データベースの連関性の一例を示す模式図である。
図18図18は、第5実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
図19図19は、第6実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。
図20図20は、第6実施形態における第1処理用データベースの学習方法の一例を示す模式図である。
図21図21は、第6処理用データベースの連関性の一例を示す模式図である。
図22図22は、第6実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
【発明を実施するための形態】
【0025】
以下、本発明を適用した実施形態におけるコンテンツ再生システムの一例について、図面を参照しながら説明する。
【0026】
(第1実施形態)
図を参照して、第1実施形態におけるコンテンツ再生システム100、コンテンツ再生装置1、及び学習方法の一例について説明する。図1は、本実施形態におけるコンテンツ再生システム100の一例を示す模式図である。図2は、本実施形態におけるコンテンツ再生システム100の動作の一例を示す模式図である。
【0027】
<コンテンツ再生システム100>
コンテンツ再生システム100は、入力された任意の顔画像データと、感情データとに対し、第1処理後顔画像データを生成するために用いられる。コンテンツ再生システム100は、例えば学習データを用いた機械学習により生成された第1処理用データベースを参照し、顔画像データと、感情データとに対し、第1処理後顔画像データを生成する。
【0028】
コンテンツ再生システム100は、例えば図1に示すように、コンテンツ再生装置1を備える。コンテンツ再生システム100は、例えば端末2及びサーバ3の少なくとも何れかを備えてもよい。コンテンツ再生装置1は、例えば通信網4を介して端末2やサーバ3と接続される。
【0029】
コンテンツ再生システム100では、例えば図2に示すように、コンテンツ再生装置1が入力データを取得する。例えばコンテンツ再生装置1は、入力データを取得する。その後、第1処理用データベースを参照し、入力データに対し、第1処理後顔画像データを生成する。
【0030】
顔画像データは、キャラクターの顔を含む画像データである。顔画像データは、例えばコンテンツ再生システム100によって出力される第1処理後顔画像データを生成する際に用いられる。画像データは、複数の画素の集合体を含むデータである。顔画像データは、例えば動画から抽出されたものであってもよく、動画データであってもよい。また、参照用顔画像データは、第1処理用学習データに用いられる顔画像データであり、顔画像データと同じ形式のものを用いてもよい。
【0031】
顔画像データは、例えば通信網4を介して取得したものであってもよい。顔画像データは、例えば公知の撮像装置等を用いて撮像された顔画像を示す他、例えば公知の技術で生成された擬似的な顔画像を示してもよい。顔画像データは、例えばコンテンツ再生装置1等を介して、ユーザ等により入力されてもよい。
【0032】
感情データは、感情を示すデータである。感情データは、例えば、怒り、喜び、悲しみなどの感情を示すテキストデータであってもよい。また、感情データは、怒り、喜び、悲しみ等が百分率等の3段階以上の評価で示されるテキストデータ又は数値データであってもよい。
【0033】
第1処理後顔画像データは、顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に当該顔画像データと異なる顔画像データである。第1処理後顔画像データは、例えば顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に当該顔画像データのキャラクターの顔と表情やしぐさ、向き等が異なるものであってもよい。
【0034】
なお、上述した「キャラクター」は、ユーザを模して擬似的に生成された人物又は動物、或いは実在する人物又は動物を模して擬似的に生成された人物又は動物のほか、アニメーション等のような、擬似的に生成された人物又は動物でもよい。
【0035】
第1処理用データベースは、機械学習により生成される。第1処理用データベースとして、例えば参照用顔画像データと参照用感情データとを含む第1入力データと、第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された、第1入力データから第1出力データを生成するための学習済みモデルが用いられる。
【0036】
第1処理用データベースは、例えば図3に示すように、参照用顔画像データと参照用感情データと含むを第1入力データと、第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成される。
【0037】
第1処理用データベースは、例えばニューラルネットワークをモデルとした機械学習を用いて、生成される。第1処理用データベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。
【0038】
第1処理用データベースには、例えば参照用顔画像データと参照用感情データとを含む第1入力データと、第1処理後顔画像データを含む第1出力データとの間における連関度を有する第1連関性が記憶される。連関度は、第1入力データと第1出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0039】
例えば連関性は、多対多の情報(複数の第1入力データ、対、複数の第1出力データ)の間における繋がりの度合いにより構築される。連関性は、機械学習の過程で適宜更新され、例えば複数の第1入力データ、及び複数の第1出力データに基づいて最適化された関数(分類器)を示す。なお、第1連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
【0040】
このため、コンテンツ再生システム100では、例えば分類器の判定した結果を全て踏まえた第1連関性を用いて、第1入力データに適した第1出力データを選択する。これにより、第1入力データが、第1出力データと同一又は類似である場合のほか、非類似である場合においても、第1入力データに適した第1出力データを定量的に選択することができる。
【0041】
第1連関性は、例えば図4に示すように、複数の第1出力データと、複数の第1入力データとの間における繋がりの度合いを示してもよい。この場合、第1連関性を用いることで、複数の第1出力データ(図4では「第1処理後顔画像データA」~「第1処理後顔画像データC」)のそれぞれに対し、複数の第1入力データ(図4では「顔画像データA+感情データA」~「顔画像データC+感情データC」)の関係の度合いを紐づけて記憶させることができる。このため、例えば第1連関性を介して、1つの第1出力データに対して、複数の第1入力データを紐づけることができる。これにより、第1入力データに対して多角的な第1出力データの選択を実現することができる。
【0042】
第1連関性は、例えば各第1出力データと、各第1入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、第1入力データに含まれる「顔画像データA+感情データA」は、第1出力データに含まれる「第1処理後顔画像データA」との間の連関度AA「73%」を示し、第1出力データに含まれる「第1処理後顔画像データB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。
【0043】
また、第1内部表象用データベースは、第1入力データと第1出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。第1入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。
【0044】
<コンテンツ再生装置1>
次に、図5図6を参照して、本実施形態におけるコンテンツ再生装置1の一例を説明する。図5(a)は、本実施形態におけるコンテンツ再生装置1の構成の一例を示す模式図であり、図5(b)は、本実施形態におけるコンテンツ再生装置1の機能の一例を示す模式図である。
【0045】
コンテンツ再生装置1として、例えばラップトップ(ノート)PC又はデスクトップPC等の電子機器が用いられる。コンテンツ再生装置1は、例えば図5(a)に示すように、筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105~107とを備える。各構成101~107は、内部バス110により接続される。
【0046】
CPU101は、コンテンツ再生装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、データベースや学習対象データ等の各種情報が記憶される。保存部104として、例えばHDD(Hard Disk Drive)のほか、SSD(Solid State Drive)等のデータ保存装置が用いられる。なお、例えばコンテンツ再生装置1は、図示しないGPU(Graphics Processing Unit)を有してもよい。
【0047】
I/F105は、通信網4を介して、必要に応じて端末2、サーバ3、ウェブサイト等との各種情報の送受信を行うためのインターフェースである。I/F106は、入力部108との情報の送受信を行うためのインターフェースである。入力部108として、例えばキーボードが用いられ、コンテンツ再生装置1の使用者等は、入力部108を介して、各種情報、又はコンテンツ再生装置1の制御コマンド等を入力する。I/F107は、表示部109との各種情報の送受信を行うためのインターフェースである。表示部109は、保存部104に保存された各種情報、又はコンテンツ等を表示する。表示部109として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部108と一体に設けられる。また、表示部109は、スピーカが用いられてもよい。
【0048】
図5(b)は、コンテンツ再生装置1の機能の一例を示す模式図である。コンテンツ再生装置1は、取得部11と、処理部12と、生成部13と、出力部14と、記憶部15とを備え、例えばDB生成部16を有してもよい。なお、図5(b)、に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。
【0049】
<<取得部11>>
取得部11は、顔画像データと、感情データとを取得する。取得したデータは、上述した第1処理後顔画像データを生成する際に用いられる。取得部11は、例えば入力部108から入力された顔画像データと、感情データとを取得するほか、例えば通信網4を介して、端末2等から顔画像データと、感情データとを取得してもよい。また、取得部11は、予め取得された複数の顔画像データ、及び感情データの中からユーザが選択したデータを取得してもよい。
【0050】
取得部11は、例えば上述したデータベースの生成に用いられる学習データを取得してもよい。取得部11は、例えば入力部108から入力された学習データを取得するほか、例えば通信網4を介して、端末2等から学習データを取得してもよい。
【0051】
例えば、第1処理用データベースの生成に用いられる第1処理用学習データとして、過去の参照用顔画像データ及び参照用感情データが挙げられる。
【0052】
<<処理部12>>
処理部12は、例えば第1処理用データベースを参照し、顔画像データと感情データとに対する第1処理後顔画像データを生成する。
【0053】
<<生成部13>>
生成部13は、処理部12で生成した顔画像データに基づき、少なくとも1つの擬似データを生成する。生成部13は、例えば処理部12で生成された第1処理後顔画像データに基づき、音声及び顔画像を含む擬似データを生成する。擬似データを生成することによって、記憶部15に記憶されていないキャラクターの表現を出力することが可能となる。生成部13は、擬似データを生成する際に、公知の技術を用いてもよい。
【0054】
<<出力部14>>
出力部14は、各種データを出力する。出力部14は、例えば生成部13で生成された擬似データを出力してもよい。出力部14は、I/F107を介して表示部109に各種データを出力するほか、例えばI/F105を介して、複数の端末2等に各種データを出力する。
【0055】
<<記憶部15>>
記憶部15は、保存部104に保存されたデータベース等の各種データを必要に応じて取出す。記憶部15は、各構成11~14、16により取得又は生成された各種データを、必要に応じて保存部104に保存する。
【0056】
<<DB生成部16>>
DB生成部16は、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えばニューラルネットワーク等が用いられる。
【0057】
<端末2>
端末2は、例えばコンテンツ再生システム100を用いたサービスのユーザ等が保有し、通信網4を介してコンテンツ再生装置1と接続される。端末2は、例えばデータベースを生成する電子機器を示してもよい。端末2は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末2は、例えばコンテンツ再生装置1の備える機能のうち、少なくとも一部の機能を備えてもよい。
【0058】
<サーバ3>
サーバ3は、通信網4を介してコンテンツ再生装置1と接続される。サーバ3は、過去の各種データ等が記憶され、必要に応じてコンテンツ再生装置1から各種データが送信される。サーバ3は、例えばコンテンツ再生装置1の備える機能のうち、少なくとも一部の機能を備えてもよく、例えばコンテンツ再生装置1の代わりに少なくとも一部の処理を行ってもよい。サーバ3は、例えばコンテンツ再生装置1の保存部104に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部104の代わりに用いられてもよい。
【0059】
<通信網4>
通信網4は、例えばコンテンツ再生装置1が通信回路を介して接続されるインターネット網等である。通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網4は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。
【0060】
(第1実施形態:コンテンツ再生システムの動作)
次に、本実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図6は、第1実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
【0061】
<取得ステップS110>
取得ステップS110は、ユーザ等により入力された顔画像データと感情データとを取得する。取得ステップS110では、例えば取得部11が、顔画像データと感情データとを取得する。取得部11は、例えば端末2等から顔画像データと感情データとを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。また、取得ステップS110は、例えば顔画像データとして、動画のように顔画像データと、顔画像データに紐づいた音声データを取得してもよい。
【0062】
<第1処理ステップS120>
第1処理ステップS120は、例えば第1処理用データベースを参照し、取得ステップS110で取得した顔画像データと感情データとに対する第1処理後顔画像データを生成する。第1処理ステップS120では、例えば第1処理部121は、第1処理用データベースを参照し、顔画像データと感情データとに対する第1処理後顔画像データを生成する。第1処理ステップS120は、例えば記憶部15を介して、生成した第1処理後顔画像データを保存部104に保存してもよい。なお、生成した第1処理後顔画像データは、例えばサーバ3や他のコンテンツ再生装置1、又は複数のユーザ端末2に送信されてもよい。生成するデータは、ひとつの入力データに対して複数のデータを生成してもよい。これにより、ユーザの感情を反映した第1処理後顔画像データを生成することが可能となる。これによって、ユーザの感情が反映できるキャラクターの表現が可能となる。また、生成部13により、疑似的に第1処理後顔画像データを生成してもよい。また、第1処理ステップS120は、例えば処理部12に含まれる第1処理部121により、処理してもよい。
【0063】
<出力ステップS130>
出力ステップS130では、例えば出力部14は、第1処理ステップS120により取得された第1処理後顔画像データを、表示部109や端末2等に出力する。
【0064】
上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。
【0065】
(第2実施形態)
以下、本発明の第2実施形態を適応したコンテンツ再生システム100について説明する。本発明の第2実施形態は、第1処理後顔画像データとテキストデータに対する第2処理後顔画像データを生成する点で第1実施形態と異なる。また、第1実施形態と同様な構成の説明は省略する。
【0066】
<コンテンツ再生システム100>
コンテンツ再生システム100は、図7に示すように、第1処理用データベースを参照して生成された顔画像データと感情データとに対する第1処理後顔画像データと、テキストデータとに対する第2処理後顔画像データを生成するために用いられる。コンテンツ再生システム100は、例えば学習データを用いた機械学習により生成された第2処理用データベースを参照し、第1処理後顔画像データと、テキストデータとに対する第2処理後顔画像データを生成する。かかる場合、コンテンツ再生システム100は、例えば顔画像データと感情データとに対する第1処理後顔画像データとして、顔画像データに含まれるキャラクターの目元を変化させた第1処理後顔画像データを生成し、さらに第2処理用データベースを参照し、生成した第1処理後顔画像データと、テキストデータに対する第1処理後顔画像データに含まれるキャラクターの口元を変化させた第2処理後顔画像データを生成してもよい。
【0067】
テキストデータは、例えばコンテンツ再生システム100によって生成される顔画像データを生成する際に用いられる。テキストデータは、例えばユーザが入力した会話文、又はキャラクターに話させたい会話文等であってもよい。テキストデータは、文字や文字コードによって表されるデータである。テキストデータは、例えば、モニタやプリンタなどの機器を制御するためのデータである制御文字を含む。制御文字は、例えば、改行を表す改行文字やタブ(水平タブ)などが含まれる。
【0068】
テキストデータは、例えば通信網4を介して、また、テキストデータは、音声を音声認識することによって抽出したものであってもよい。テキストデータは、例えばコンテンツ再生装置1等を介して、ユーザ等により入力されてもよい。
【0069】
第2処理後顔画像データは、第1処理後顔画像データの一部を変化させた顔画像データである。第2処理後顔画像データは、例えば第1処理後顔画像データに含まれるキャラクターの口等の画像データの一部を変化させたものであってもよい。
【0070】
第2処理用データベースは、例えば機械学習により生成されることが好ましいがこの限りではない。第2処理用データベースとして、例えば参照用第1処理後顔画像データと参照用テキストデータとを含む第2入力データと、参照用第2処理後顔画像データを含む第2出力データとを一組のデータセットとする第2処理用学習データを複数用いて、機械学習により生成された、第2入力データから第2出力データを生成するための学習済みモデルが用いられる。かかる場合、第2処理用データベースの生成方法は、入力データを第2入力データ、出力を第2出力データとする点で第1処理用データベースと異なる。
【0071】
第2処理用データベースは、例えば図8に示すように、参照用第1処理後顔画像データと参照用感情データと含むを第2入力データと、参照用第2処理後顔画像データを含む第2出力データとを一組のデータセットとする第2処理用学習データを複数用いて、機械学習により生成される。
【0072】
第2処理用データベースは、例えばニューラルネットワークをモデルとした機械学習を用いて、生成される。第2処理用データベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。
【0073】
第2処理用データベースには、例えば図9に示すように第2入力データと、第2出力データとの間における連関度を有する第2連関性が記憶される。連関度は、第2入力データと第2出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0074】
(第2実施形態:コンテンツ再生システムの動作)
次に、第2実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図10は、第2実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
【0075】
<取得ステップS210>
取得ステップS210は、ユーザ等により入力された顔画像データと感情データとテキストデータとを取得する。取得ステップS210では、例えば取得部11が、顔画像データと感情データとテキストデータとを取得する。また、取得ステップS210は、例えばテキストデータとして、動画のように顔画像データと、顔画像データに紐づいた音声データを取得して、取得した音声データを音声認識することにより取得してもよい。
【0076】
<第2処理ステップS240>
第2処理ステップS240は、例えば第2処理用データベースを参照し、第1処理ステップS120により生成された第1処理後顔画像データと、取得ステップS210で取得したテキストデータとに対する第2処理後顔画像データを生成する。第2処理ステップS240では、例えば第2処理部122は、第2処理用データベースを参照し、第1処理後顔画像データと、テキストデータとに対する第2処理後顔画像データを生成する。かかる場合、第2処理部122は、入力された第1処理後顔画像データを公知の画像解析技術により画像解析し、第1処理後顔画像データに含まれるキャラクターの顔の一部、例えば口を判定し、判定した部分をテキストデータに合わせて変化させた第2処理後顔画像データを生成してもよい。また、第2処理ステップS240は、第2処理用データベースを用いることなく、第2処理後顔画像データを生成してもよい。これにより、入力されたテキストデータに適した第2処理後顔画像データを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。また、生成部13により、疑似的に第2処理後顔画像データを生成してもよい。また、第2処理ステップS240は、例えば処理部12に含まれ、第1処理部121に接続される第2処理部122により、処理してもよい。
【0077】
上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。
【0078】
(第3実施形態)
以下、本発明の第3実施形態を適応したコンテンツ再生システム100について説明する。本発明の第3実施形態は、顔画像データと感情データとテキストデータとに対する第1処理後顔画像データを生成する点で第1実施形態と異なる。また、第1実施形態と同様な構成の説明は省略する。
【0079】
<コンテンツ再生システム100>
コンテンツ再生システム100は、図11に示すように入力された任意の顔画像データと、感情データと、テキストデータとに対し、第1処理後顔画像データを生成するために用いられる。コンテンツ再生システム100は、例えば学習データを用いた機械学習により生成された第1処理用データベースを参照し、顔画像データと、感情データと、テキストデータに対する第1処理後顔画像データを生成する。
【0080】
第1処理用データベースは、機械学習により生成される。第1処理用データベースとして、例えば参照用顔画像データと参照用感情データと参照用テキストデータとを含む第1入力データと、参照用第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された、第1入力データから第1出力データを生成するための学習済みモデルが用いられる。かかる場合、第1処理用データベースの生成方法は、第1入力データに参照用テキストデータが含まれている点で第1実施形態と異なる。
【0081】
第1処理用データベースは、例えば図12に示すように、参照用第1処理後顔画像データと参照用感情データと参照用テキストデータとを含む第1入力データと、参照用第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成される。
【0082】
第2処理用データベースは、例えば図13に示すように、ニューラルネットワークをモデルとした機械学習を用いて、生成される。第2処理用データベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。
【0083】
第1処理用データベースには、例えば第1入力データと、第1出力データとの間における連関度を有する第1連関性が記憶される。連関度は、第1入力データと第1出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0084】
(第3実施形態:コンテンツ再生システムの動作)
次に、第3実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図14は、第3実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
【0085】
<取得ステップS310>
取得ステップS310は、ユーザ等により入力された顔画像データと感情データとテキストデータとを取得する。
【0086】
<第1処理ステップS320>
第1処理ステップS320は、例えば第1処理用データベースを参照し、取得ステップS310で取得した顔画像データと、感情データと、テキストデータとに対する第1処理後顔画像データを生成する。第1処理ステップS320では、例えば第1処理部121は、第1処理用データベースを参照し、顔画像データと、感情データと、テキストデータとに対する第1処理後顔画像データを生成する。これにより、入力されたテキストデータに適した第1処理後顔画像データを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。また、生成部13により、擬似的に第1処理後顔画像データを生成してもよい。また、第1処理ステップS320は、例えば処理部12に含まれる第1処理部121により、処理してもよい。
【0087】
上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。
【0088】
(第4実施形態)
以下、本発明の第4実施形態を適応したコンテンツ再生システム100について説明する。本発明の第4実施形態は、返答モデルを参照し、ユーザが入力した会話文に対する返答を決定し、決定された返答に基づくテキストデータを取得する点で第3実施形態と異なる。また、第3実施形態と同様な構成の説明は省略する。
【0089】
<コンテンツ再生システム100>
コンテンツ再生システム100は、返答モデルを参照し、ユーザが入力した会話文に対する返答を決定し、決定された返答に基づくテキストデータを取得する。その後、コンテンツ再生システム100は、入力された任意の顔画像データと、感情データと、テキストデータとに対し、第1処理後顔画像データを生成する。コンテンツ再生システム100は、予め取得された参照用会話文と前記参照用会話文に対する返答との対応関係を示す返答モデルを参照し、ユーザが入力した会話文に対する返答を決定し、決定された返答に基づくテキストデータを取得する。
【0090】
返答モデルは、例えば表1のようにユーザが入力した会話文に対する返答が一義的に決定されるテーブルであってもよい。かかる場合、例えばユーザが「ただいま」という会話文を入力した場合、「おかえり」という会話文が返答として決定される。また、返答モデルは、ユーザが入力した日本語の会話文を英語に翻訳した会話文を返答として決定してもよい。また、返答モデルは機械学習により生成されてもよい。かかる場合、返答モデルは、参照用会話文を入力、参照用会話文に対する返答を出力とした複数の学習データを用いて機械学習により生成される。
【表1】
【0091】
(第4実施形態:コンテンツ再生システムの動作)
次に、第4実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図15は、第4実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
【0092】
<取得ステップS410>
取得ステップS410は、ユーザ等により入力された顔画像データと感情データとテキストデータとを取得する。
【0093】
<返答処理ステップS440>
返答処理ステップS440は、例えば返答モデルを参照し、取得ステップS410で取得したテキストデータに対する返答テキストデータを生成する。これにより、入力されたテキストデータに適した返答に基づくテキストデータを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。また、返答処理ステップS440は、例えば処理部12に含まれる返答処理部123により、処理してもよい。
【0094】
上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。
【0095】
(第5実施形態)
以下、本発明の第5実施形態を適応したコンテンツ再生システム100について説明する。本発明の第5実施形態は、音質データと感情データとテキストデータとに対する音声データを生成し、処理後顔画像データと音声データとに対する表現データを生成する点で第3実施形態と異なる。また、第3実施形態と同様な構成の説明は省略する。
【0096】
<コンテンツ再生システム100>
コンテンツ再生システム100は、顔画像データと、感情データとテキストデータと声質に関する声質データを取得し、テキストデータと、感情データと、音質データとに基づいて、キャラクターの音声を示す音声データを生成する。その後、コンテンツ再生システム100は、生成された処理後顔画像データと、生成された音声データとに基づいて、キャラクターの表現を示す表現データを生成する。
【0097】
また、コンテンツ再生システム100は、予め取得された参照用声質データと、参照用テキストデータと、参照用感情データとを含む第3入力データと、参照用音声データを含む第3出力データとを一組のデータセットとする音声処理用学習データを複数用いて、機械学習により生成された音声処理用データベースを参照して、取得した声質データと、テキストデータと、感情データとに基づいて、音声データを生成してもよい。
【0098】
音質データは音質を示すデータである。音質データは、例えば音の響きの特徴である音響特徴量を示すデータである。音響特徴量は、例えば、基本周波数、スペクトル包絡、非周期性指標、スペクトログラム、音声の大きさ、ケプストラム、単語の発音、イントネーション、音波の時間遅れ、音声の時間による増減の変化等を示したものである。音質データは、例えばコンテンツ再生装置1等を介して、ユーザ等により入力されてもよい。
【0099】
音声データは、音声を符号化したものである。音声の符号化には例えば、量子化ビット数とサンプリング周波数と時間とで定まる長さのビット列として表されるパルス符号変調(PCM)方式に基づくものと、音声の波の疎密を1bitで表現して一定の間隔で標本化するパルス密度変調(PDM)方式に基づくものなどがある。
【0100】
音声データは、例えば動画データから抽出された音声に基づいたものであってもよい。音声データは、例えば公知の収音装置等を用いて収音された音声のデータを示すほか、例えば公知の技術で生成された擬似的な音声を示してもよい。
【0101】
表現データは、キャラクターを含む画像、及びキャラクターの音声によって構成されるキャラクターの表現を示すデータである。表現は、例えば映像的表現、音声的表現、身体的表現等がある。映像的表現は、視覚に働きかける表現であり、身振りや表情等がある。音声的表現は、聴覚に働きかける表現であり、言葉や発言、歌等がある。身体的表現は、触覚に働きかける表現であり、ボディタッチなどがある。表現データは、擬似的に生成された擬似データを含んでいてもよい。また、表現データはキャラクターを含む動画でもよい。
【0102】
音声処理用データベースは、機械学習により生成される。音声処理用データベースとして、例えば参照用音質データと参照用感情データと参照用テキストデータとを含む第3入力データと、参照用音声データを含む第3出力データとを一組のデータセットとする第3処理用学習データを複数用いて、機械学習により生成された、第3入力データから第3出力データを生成するための学習済みモデルが用いられる。かかる場合、音声処理用データベースの生成方法は、入力データを第3入力データ、出力を第3出力データとする点で第1処理用データベースと異なる。
【0103】
音声処理用データベースは、例えば図16に示すように、参照用音質データと参照用感情データと参照用テキストデータとを含むを第3入力データと、参照用音声データを含む第3出力データとを一組のデータセットとする音声処理用学習データを複数用いて、機械学習により生成される。
【0104】
音声処理用データベースは、例えばニューラルネットワークをモデルとした機械学習を用いて、生成される。音声処理用データベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。
【0105】
音声処理用データベースには、例えば図17に示すように、第3入力データと、第3出力データとの間における連関度を有する第3連関性が記憶される。連関度は、第3入力データと第3出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0106】
(第5実施形態:コンテンツ再生システムの動作)
次に、第5実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図18は、第5実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
【0107】
<取得ステップS510>
取得ステップS510は、ユーザ等により入力された顔画像データと感情データとテキストデータと音質データとを取得する。
【0108】
<音声処理ステップS550>
音声処理ステップS550は、例えば音声処理用データベースを参照し、取得ステップS310で取得した音質データと、感情データと、テキストデータとに対する音声データを生成する。音声処理ステップS550では、例えば音声処理部124は、音声処理用データベースを参照し、音質データと、感情データと、テキストデータとに対する音声データを生成する。これにより、入力された音質データと、感情データと、テキストデータとに適した音声データを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。また、音声処理ステップS550は、例えば処理部12に含まれる音声処理部124により、処理してもよい。
【0109】
<表現生成ステップS560>
表現生成ステップS560は、生成された音声データと処理後顔画像データとに基づいて表現データを生成する。処理後顔画像データは、例えば第1処理後顔画像データ、又は第2処理後顔画像データを含む。また、表現生成ステップS560は、例えば生成部13により、処理してもよい。
【0110】
上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。
【0111】
(第6実施形態)
以下、本発明の第6実施形態を適応したコンテンツ再生システム100について説明する。本発明の第6実施形態は、顔画像データとテキストデータに対する第1処理後顔画像データを生成する点で第1実施形態と異なる。また、第1実施形態と同様な構成の説明は省略する。
【0112】
<コンテンツ再生システム100>
コンテンツ再生システム100は、図19に示すように、第1処理用データベースを参照して生成された顔画像データとテキストデータとに対する第1処理後顔画像データを生成するために用いられる。コンテンツ再生システム100は、例えば学習データを用いた機械学習により生成された第1処理用データベースを参照し、顔画像データと、テキストデータとに対する第1処理後顔画像データを生成する。
【0113】
第1処理用データベースは、例えば機械学習により生成される。第1処理用データベースとして、例えば参照用顔画像データと参照用テキストデータとを含む第1入力データと、参照用第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された、第1入力データから第1出力データを生成するための学習済みモデルが用いられる。かかる場合、第1処理用データベースの生成方法は、入力データに顔画像データとテキストデータが含まれる点で第1実施形態における第1処理用データベースと異なる。
【0114】
第1処理用データベースは、例えば図20に示すように、参照用顔画像データと参照用テキストデータと含むを第1入力データと、参照用第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成される。
【0115】
第1処理用データベースは、例えばニューラルネットワークをモデルとした機械学習を用いて、生成される。第1処理用データベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。
【0116】
第1処理用データベースには、例えば図21に示すように第1入力データと、第1出力データとの間における連関度を有する第1連関性が記憶される。連関度は、第1入力データと第1出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0117】
(第6実施形態:コンテンツ再生システムの動作)
次に、第6実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図22は、第2実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
【0118】
<取得ステップS610>
取得ステップS610は、ユーザ等により入力された顔画像データとテキストデータとを取得する。取得ステップS610では、例えば取得部11が、顔画像データとテキストデータとを取得する。また、取得ステップS610は、例えば、動画のように顔画像データと、顔画像データに紐づいた音声データを取得して、取得した音声データを音声認識することによりテキストデータを取得してもよい。
【0119】
<第1処理ステップS620>
第1処理ステップS620は、例えば第1処理用データベースを参照し、取得ステップS610で取得した顔画像データと、テキストデータとに対する第1処理後顔画像データを生成する。第1処理ステップS620では、例えば第1処理部121は、第1処理用データベースを参照し、顔画像データと、テキストデータとに対する第1処理後顔画像データを生成する。これにより、入力されたテキストデータに適した第1処理後顔画像データを生成することが可能となり、ユーザの会話に合わせたキャラクターの表現が可能となる。また、生成部13により、擬似的に第1処理後顔画像データを生成してもよい。また、第1処理ステップS620は、例えば処理部12に含まれる第1処理部121により、処理してもよい。
【0120】
上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。
【0121】
本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0122】
1 :コンテンツ再生装置
2 :端末
3 :サーバ
4 :通信網
10 :筐体
11 :取得部
12 :処理部
13 :生成部
14 :出力部
15 :記憶部
16 :DB生成部
100 :コンテンツ再生システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部
109 :表示部
110 :内部バス
121 :第1処理部
122 :第2処理部
123 :返答処理部
124 :音声処理部
S110 :取得ステップ
S120 :第1処理ステップ
S130 :出力ステップ
S210 :取得ステップ
S220 :第1処理ステップ
S230 :出力ステップ
S240 :第2処理ステップ
S310 :取得ステップ
S320 :第1処理ステップ
S330 :出力ステップ
S410 :取得ステップ
S420 :第1処理ステップ
S430 :出力ステップ
S440 :返答処理ステップ
S510 :取得ステップ
S520 :第1処理ステップ
S530 :出力ステップ
S550 :音声処理ステップ
S560 :表現生成ステップ
S610 :取得ステップ
S620 :第1処理ステップ
S630 :出力ステップ
【要約】
【課題】ユーザの見た目をユーザの好みのキャラクターの見た目で表現すること可能となるコンテンツ再生方法、及びコンテンツ再生システムを提供する。
【解決手段】キャラクターの顔を含む顔画像データと、感情を示す感情データとを取得する取得ステップと、予め取得された参照用顔画像データと参照用感情データとを含む第1入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された第1処理用データベースを参照して、前記取得ステップにより取得した顔画像データと感情データとに対する第1処理後顔画像データを生成する第1生成ステップとをコンピュータに実行させることを特徴とするコンテンツ再生方法。
【選択図】図2
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22