(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022159632
(43)【公開日】2022-10-18
(54)【発明の名称】学習方法、及びコンテンツ再生装置
(51)【国際特許分類】
G06N 20/00 20190101AFI20221011BHJP
G06T 7/00 20170101ALI20221011BHJP
【FI】
G06N20/00
G06T7/00 350C
【審査請求】有
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021063937
(22)【出願日】2021-04-05
(11)【特許番号】
(45)【特許公報発行日】2021-09-01
(71)【出願人】
【識別番号】517198517
【氏名又は名称】クリスタルメソッド株式会社
(74)【代理人】
【識別番号】100120868
【弁理士】
【氏名又は名称】安彦 元
(72)【発明者】
【氏名】河合 継
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096HA11
5L096JA11
5L096JA16
5L096KA04
(57)【要約】 (修正有)
【課題】ユーザの多面的な感情が反映できるキャラクターの表現が可能となる学習方法及びコンテンツ再生装置を提供する。
【解決手段】学習方法は、ユーザのユーザデータを取得する入力データ取得ステップと、ユーザの内部表象を示す内部表象データとを取得する出力データ取得ステップと、ユーザデータを第1入力データとし、第1内部表象用データベースを生成する第1内部表象用データベース生成ステップと、ユーザデータを第2入力データとし、第1内部表象用データベース生成ステップにおける第1出力データと異なる種類のデータであり、内部表象データに含まれる1種類以上のデータを第2出力データとして、第2内部表象用データベースを生成する第2内部表象用データベース生成ステップと、を備える。
【選択図】
図14
【特許請求の範囲】
【請求項1】
キャラクターの表現を示す表現データを生成するために用いられるデータベースを生成する学習方法であって、
ユーザに関する情報が記載されたテキストデータと、前記ユーザの画像を含む画像データと、前記ユーザの音声に関する音声データとの中の何れか1以上を含むユーザデータを取得する入力データ取得ステップと、
前記ユーザの自己認識を示す自己認識データと、前記ユーザの事象に対する優先順位を示す優先順位データと、前記ユーザの事象に対する感情表現を示す感情表現データと、前記ユーザの事象に対する因果関係の推定を示す因果関係データと、の中の2種類以上のデータを含む、前記ユーザの内部表象を示す内部表象データとを取得する出力データ取得ステップと、
前記入力データ取得ステップにより取得したユーザデータを第1入力データとし、前記内部表象データに含まれる1種類以上のデータである第1内部表象データを第1出力データとして、前記第1入力データと前記第1出力データとを一組の第1内部表象用学習データとして、複数の前記第1内部表象用学習データを用いた機械学習により第1内部表象用データベースを生成する第1内部表象用データベース生成ステップと、
前記入力データ取得ステップにより取得したユーザデータを第2入力データとし、前記第1内部表象用データベース生成ステップにおける第1出力データと異なる種類のデータであり、前記内部表象データに含まれる1種類以上のデータである第2内部表象データを第2出力データとして、前記第2入力データと前記第2出力データとを一組の第2内部表象用学習データとして、複数の前記第2内部表象用学習データを用いた機械学習により第2内部表象用データベースを生成する第2内部表象用データベース生成ステップとを備えること
を特徴とする学習方法。
【請求項2】
前記第1内部表象用データベースを用いて生成された第1内部表象データと、前記第2内部表象用データベースを用いて生成された第2内部表象データとを入力として、前記キャラクターの表現を示す表現データを出力するための表現用データベースを生成する表現用データベース生成ステップをさらに備えること
を特徴とする請求項1に記載の学習方法。
【請求項3】
前記入力データ取得ステップは、質問に対して前記ユーザが回答した内容に関するテキスト形式のデータを含む前記テキストデータと、前記質問に対して前記ユーザが回答した内容に関する画像形式のデータを含む前記画像データと、前記質問に対して前記ユーザが回答した内容に関する音声形式のデータとの中の何れか1以上を含む前記ユーザデータを取得すること
を特徴とする請求項1又は2に記載の学習方法。
【請求項4】
前記ユーザデータは、前記テキストデータの特徴を示すテキスト特徴量データを有し、
前記入力データ取得ステップは、取得した前記テキストデータに基づき抽出された前記テキスト特徴量データを取得するテキスト特徴量データ取得ステップを含むこと
を特徴とする請求項1~3の何れか1項記載の学習方法。
【請求項5】
前記ユーザデータは、前記画像データの特徴を示す画像特徴量データを有し、
前記入力データ取得ステップは、取得した前記画像データに基づき抽出された前記画像特徴量データを取得する画像特徴量データ取得ステップを含むこと
を特徴とする請求項1~4の何れか1項記載の学習方法。
【請求項6】
前記ユーザデータは、前記音声データの特徴を示す音声特徴量データを有し、
前記入力データ取得ステップは、取得した前記音声データに基づき抽出された前記音声特徴量データを取得する音声特徴量データ取得ステップを含むこと
を特徴とする請求項1~5の何れか1項記載の学習方法。
【請求項7】
請求項2に記載の学習方法により生成された前記第1内部表象用データベースと、前記第2内部表象用データベースと、前記表現用データベースとを参照し、前記キャラクターの表現データを出力するコンテンツ再生装置であって、
任意のテキストデータと、画像データと、音声データとの中の何れか1以上のデータを含む刺激データを取得する取得部と、
前記第1内部表象用データベースを参照し、前記取得部により取得した刺激データに対応する前記第1内部表象データを取得する第1内部表象処理部と、
前記第2内部表象用データベースを参照し、前記取得部により取得した刺激データに対応する前記第2内部表象データを取得する第2内部表象処理部と、
前記表現用データベースを参照し、前記第1内部表象用データベースを用いて生成された第1内部表象データと、前記第2内部表象用データベースを用いて生成された第2内部表象データとに対応する前記表現データを出力する表現処理部と、を備えること
を特徴とするコンテンツ再生装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習方法、及びコンテンツ再生装置に関する。
【背景技術】
【0002】
近年、AI(Artificial Intelligence)によって生成された、外見や声や嗜好がユーザと類似するキャラクターを生成する技術が注目を集めている。例えば、出産や七五三や成人式や結婚式の記録を残すために写真を取るように、ユーザの記録をキャラクター化することによって、当時の知識や技術、思い出までもがデジタル上で生き続けることが可能となる。それと同時に、キャラクターとの会話がユーザとの会話と比べて、違和感のない会話にするための、キャラクターの表現を再生するための技術が注目されており、例えば特許文献1の話者変換技術が知られている。
【0003】
上記特許文献1に記載された技術は、ソース話者の発話を表す映像音声データをソース話者の感情に対応して発話を発声するターゲット話者を表す映像音声データに変換する学習済みニューラルネットワーク構造を格納し、ニューラルネットワークを介しソース話者の発話を表す映像データ及びソース話者の音声データをターゲット話者の発話を表す映像データ及び音声データに変換することで、映像処理及び音響処理の専門家などによる変換処理を必要とすることなく、映像データと音声データとを相互利用することによって話者変換を行うことができる話者変換装置に関する技術である。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、特許文献1では、ユーザの発話を表す映像音声データと、ユーザの感情に対応するキャラクターの発話を表す映像音声データとのペアから構成される訓練データをニューラルネットワーク構造に入力し、キャラクターの映像音声データを出力する。しかしながら、特許文献1では、訓練データとして、ユーザの発話を表す映像音声データと、ユーザの感情に対応するキャラクターの発話を表す映像音声データとを用いているため、ユーザの複雑な感情まで、映像音声データに反映することはできず、ユーザと会話する時と比べて、違和感が残るキャラクターの映像音声データができてしまう。例えば、ユーザの感情が怒りを示していても、表情が笑顔であった場合、特許文献1では、ユーザの感情として笑顔が選択されるため、キャラクターの映像音声データにユーザの感情の怒りを反映することができず、違和感の残るキャラクターの映像音声データができてしまう。従って、ユーザの多面的な感情が反映できるキャラクターの表現を再生するための技術が望まれている。
【0006】
そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、ユーザの多面的な感情が反映できるキャラクターの表現を再生できる学習方法、及びコンテンツ再生装置を提供することにある。
【課題を解決するための手段】
【0007】
第1発明に係る学習方法は、キャラクターの表現を示す表現データを生成するために用いられるデータベースを生成する学習方法であって、ユーザに関する情報が記載されたテキストデータと、前記ユーザの画像を含む画像データと、前記ユーザの音声に関する音声データとの中の何れか1以上を含むユーザデータを取得する入力データ取得ステップと、前記ユーザの自己認識を示す自己認識データと、前記ユーザの事象に対する優先順位を示す優先順位データと、前記ユーザの事象に対する感情表現を示す感情表現データと、前記ユーザの事象に対する因果関係の推定を示す因果関係データと、の中の2種類以上のデータを含む、前記ユーザの内部表象を示す内部表象データとを取得する出力データ取得ステップと、前記入力データ取得ステップにより取得したユーザデータを第1入力データとし、前記内部表象データに含まれる1種類以上のデータである第1内部表象データを第1出力データとして、前記第1入力データと前記第1出力データとを一組の第1内部表象用学習データとして、複数の前記第1内部表象用学習データを用いた機械学習により第1内部表象用データベースを生成する第1内部表象用データベース生成ステップと、前記入力データ取得ステップにより取得したユーザデータを第2入力データとし、前記第1内部表象用データベース生成ステップにおける第1出力データと異なる種類のデータであり、前記内部表象データに含まれる1種類以上のデータである第2内部表象データを第2出力データとして、前記第2入力データと前記第2出力データとを一組の第2内部表象用学習データとして、複数の前記第2内部表象用学習データを用いた機械学習により第2内部表象用データベースを生成する第2内部表象用データベース生成ステップとを備えることを特徴とする。
【0008】
第2発明に係る学習方法は、第1発明において、前記第1内部表象用データベースを用いて生成された第1内部表象データと、前記第2内部表象用データベースを用いて生成された第2内部表象データとを入力として、前記キャラクターの表現を示す表現データを出力するための表現用データベースを生成する表現用データベース生成ステップをさらに備えることを特徴とする。
【0009】
第3発明に係る学習方法は、第1発明又は第2発明において、前記入力データ取得ステップは、質問に対して前記ユーザが回答した内容に関するテキスト形式のデータを含む前記テキストデータと、前記質問に対して前記ユーザが回答した内容に関する画像形式のデータを含む前記画像データと、前記質問に対して前記ユーザが回答した内容に関する音声形式のデータとの中の何れか1以上を含む前記ユーザデータを取得することを特徴とする。
【0010】
第4発明に係る学習方法は、第1発明~第3発明のいずれかにおいて、前記ユーザデータは、前記テキストデータの特徴を示すテキスト特徴量データを有し、前記入力データ取得ステップは、取得した前記テキストデータに基づき抽出された前記テキスト特徴量データを取得するテキスト特徴量データ取得ステップを含むことを特徴とする。
【0011】
第5発明に係る学習方法は、第1発明~第4発明のいずれかにおいて、前記ユーザデータは、前記画像データの特徴を示す画像特徴量データを有し、前記入力データ取得ステップは、取得した前記画像データに基づき抽出された前記画像特徴量データを取得する画像特徴量データ取得ステップを含むことを特徴とする。
【0012】
第6発明に係る学習方法は、第1発明~第5発明のいずれかにおいて、前記ユーザデータは、前記音声データの特徴を示す音声特徴量データを有し、前記入力データ取得ステップは、取得した前記音声データに基づき抽出された前記音声特徴量データを取得する音声特徴量データ取得ステップを含むことを特徴とする。
【0013】
第7発明に係るコンテンツ再生装置は、第2発明の学習方法により生成された前記第1内部表象用データベースと、前記第2内部表象用データベースと、前記表現用データベースとを参照し、前記キャラクターの表現データを出力するコンテンツ再生装置であって、任意のテキストデータと、画像データと、音声データとの中の何れか1以上のデータを含む刺激データを取得する取得部と、前記第1内部表象用データベースを参照し、前記取得部により取得した刺激データに対応する前記第1内部表象データを取得する第1内部表象処理部と、前記第2内部表象用データベースを参照し、前記取得部により取得した刺激データに対応する前記第2内部表象データを取得する第2内部表象処理部と、前記表現用データベースを参照し、前記第1内部表象用データベースを用いて生成された第1内部表象データと、前記第2内部表象用データベースを用いて生成された第2内部表象データとに対応する前記表現データを出力する表現処理部と、を備えることを特徴とする。
【発明の効果】
【0014】
第1発明~第7発明によれば、第1内部表象用データベース生成ステップは、複数の第1内部表象用学習データを用いた機械学習により第1内部表象用データベースを生成し、第2内部表象用データベース生成ステップは、第2入力データと第2出力データとを一組の第2内部表象用学習データとして、複数の第2内部表象用学習データを用いた機械学習により第2内部表象用データベースを生成する。このため、一つのユーザデータから異なる種類のデータを含む内部表象データを生成することができる。これにより、ユーザの感情を多面的に学習することが可能となる。例えばユーザの感情が怒りであるが、表情が笑いであるようなユーザの感情を多面的に学習する。これによって、ユーザの多面的な感情が反映できるキャラクターの表現が可能となる。
【0015】
特に、第2発明によれば、内部表象データを入力として、キャラクターの表現を示す表現データを出力するための表現用データベースを生成する。これにより、キャラクターの表情を取得することができるため、多面的なユーザの感情に合わせたキャラクターの表現を学習することが可能となる。
【0016】
特に、第3発明によれば、入力データ取得ステップは、質問に対してユーザが回答した内容に関するテキスト形式のデータを含むテキストデータと、質問に対してユーザが回答した内容に関する画像形式のデータを含む画像データと、質問に対してユーザが回答した内容に関する音声形式のデータとの中の何れか1以上を含むユーザデータを取得する。これにより、例えばユーザの好みや価値観に関する質問に対する回答を学習に反映することが可能となり、よりユーザの性質にあった学習ができるため、多面的なユーザの感情を学習することができる。
【0017】
特に、第4発明によれば、入力データ取得ステップは、取得したテキストデータに基づき抽出されたテキスト特徴量データを取得する。これにより、取得したテキストデータからユーザの性質の傾向を学習することができるため、より精度の高い学習が可能となる。
【0018】
特に、第5発明によれば、入力データ取得ステップは、取得した画像データに基づき抽出された画像特徴量データを取得する。これにより、取得した画像データからユーザの性質の傾向を学習することができるため、より精度の高い学習が可能となる。
【0019】
特に、第6発明によれば、入力データ取得ステップは、取得した音声データに基づき抽出された音声特徴量データを取得する。これにより、取得した音声データからユーザの性質の傾向を学習することができるため、より精度の高い学習が可能となる。
【0020】
特に、第7発明によれば、第1内部表象用データベースと、第2内部表象用データベースと、表現用データベースとを参照し、刺激データに対するキャラクターの表現データを出力する。これにより、刺激データに対するユーザの内部表象を反映したキャラクターの表現データを出力することができるためユーザの多面的な感情をキャラクターで再生することが可能となる。
【図面の簡単な説明】
【0021】
【
図1】
図1は、第1実施形態におけるコンテンツ再生システムの一例を示す模式図である。
【
図2】
図2は、第1実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。
【
図3】
図3(a)は、第1内部表象用データベースの学習方法の一例を示す模式図であり、
図3(b)は、第2内部表象用データベースの学習方法の一例を示す模式図である。
【
図4】
図4(a)は、表現用データベースの学習方法の一例を示す模式図であり、
図4(a)は、sound学習モデルの学習方法の一例を示す模式図である。
【
図5】
図5(a)は、visual学習モデルの学習方法の一例を示す模式図であり、
図5(b)は、テキスト学習モデルの学習方法の一例を示す模式図である。
【
図6】
図6は、第1内部表象用データベースの一例を示す模式図である。
【
図7】
図7は、第2内部表象用データベースの一例を示す模式図である。
【
図8】
図8は、表現用データベースの一例を示す模式図である。
【
図9】
図9は、sound学習モデルの一例を示す模式図である。
【
図10】
図10は、visual学習モデルの一例を示す模式図である。
【
図11】
図11は、テキスト学習モデルの一例を示す模式図である。
【
図12】
図12(a)は、実施形態におけるコンテンツ再生装置の構成の一例を示す模式図であり、
図12(b)は、実施形態におけるコンテンツ再生装置の機能の一例を示す模式図であり、
図12(c)は、DB生成部の一例を示す模式図である。
【
図14】
図14は、実施形態における学習方法の一例を示すフローチャートである。
【
図15】
図15は、実施形態におけるコンテンツ再生システムの動作の一例を示すフローチャートである。
【発明を実施するための形態】
【0022】
以下、本発明を適用した実施形態における学習方法、コンテンツ再生装置、及びコンテンツ再生システムの一例について、図面を参照しながら説明する。
【0023】
(第1実施形態)
図1~
図5を参照して、第1実施形態におけるコンテンツ再生システム100、コンテンツ再生装置1、及び学習方法の一例について説明する。
図1は、本実施形態におけるコンテンツ再生システム100の一例を示す模式図である。
図2は、本実施形態におけるコンテンツ再生システム100の動作の一例を示す模式図である。
図3~
図5は、本実施形態における学習方法の一例を示す模式図である。
【0024】
<コンテンツ再生システム100>
コンテンツ再生システム100は、入力された任意のテキストデータと、画像データと、音声データとの中の何れか1以上のデータを含む刺激データに対し、キャラクターの表現を示す表現データを生成するために用いられる。コンテンツ再生システム100は、例えば学習データを用いた機械学習により生成されたデータベースを参照し、入力された刺激データに対し、キャラクターの音声データと画像データとテキストデータの中の何れか1以上のデータを含む表現データを生成する。
【0025】
コンテンツ再生システム100は、例えば
図1に示すように、コンテンツ再生装置1を備える。コンテンツ再生システム100は、例えば端末2及びサーバ3の少なくとも何れかを備えてもよい。コンテンツ再生装置1は、例えば通信網4を介して端末2やサーバ3と接続される。
【0026】
コンテンツ再生システム100では、例えば
図2に示すように、コンテンツ再生装置1が刺激データを取得する。例えばコンテンツ再生装置1は、刺激データを取得する。その後、コンテンツ再生装置1は、sound学習モデルを参照し、刺激データに含まれる音声データに対する音声特徴量データを、visual学習モデルを参照し、刺激データに含まれる画像データに対する画像特徴量データを、テキスト学習モデルを参照し、刺激データに含まれるテキストデータに対するテキスト特徴量データを、をそれぞれ取得する。その後、コンテンツ再生装置1は、第1内部表象用データベースを参照し、音声特徴量データと、画像特徴量データと、テキスト特徴量データとの中の何れか1以上のデータに対応する第1内部表象データと、第2内部表象用データベースを参照し、音声特徴量データと、画像特徴量データと、テキスト特徴量データとの中の何れか1以上のデータに対応する第2内部表象データとを取得する。そして、コンテンツ再生装置1は、取得した第1内部表象データ及び第2内部表象データに基づき、表現用データベースを参照し、キャラクターの音声データと画像データとテキストデータの中の何れか1以上のデータを含む表現データを生成する。これにより、コンテンツ再生システム100では、生成された表現データを出力することで、入力された任意の音声データと画像データとテキストデータの中の何れか1以上のデータを含む刺激データに対応する最適な表現データを再生させることができる。
【0027】
sound学習モデルは、入力された音声データから、音声特徴量データを出力するモデルである。sound学習モデルは、例えば機械学習により、生成されてもよい。sound学習モデルは、例えば一組の予め取得された過去の音声データと、過去の音声データに紐づけられた音声特徴量データとを学習データ(音声特徴量用学習データ)として、複数の学習データを用いた機械学習により構築された学習済みモデルが用いられてもよい。
【0028】
visual学習モデルは、入力された画像データから、画像特徴量データを出力するモデルである。visual学習モデルは、例えば機械学習により、生成されてもよい。visual学習モデルは、例えば一組の予め取得された過去の画像データと、過去の画像データに紐づけられた画像特徴量データとを学習データ(画像特徴量用学習データ)として、複数の学習データを用いた機械学習により構築された学習済みモデルが用いられてもよい。
【0029】
テキスト学習モデルは、入力されたテキストデータから、テキスト特徴量データを出力するモデルである。テキスト学習モデルは、例えば機械学習により、生成されてもよい。テキスト学習モデルは、例えば一組の予め取得された過去のテキストデータと、過去のテキストデータに紐づけられたテキスト特徴量データとを学習データ(テキスト特徴量用学習データ)として、複数の学習データを用いた機械学習により構築された学習済みモデルが用いられてもよい。
【0030】
第1内部表象用データベースは、機械学習により生成される。第1内部表象用データベースとして、例えばユーザデータを入力データとし、内部表象データに含まれる1種類以上のデータ(第1内部表象データ)を第1出力データとして、第1入力データと第1出力データを一組の学習データ(第1内部表象用学習データ)として、学習データを用いた機械学習により構築された、第1入力データから第1出力データを生成するための学習済みモデルが用いられる。また、第1出力データは、第1内部表象用学習データとして用いられる第1内部表象データである。また、第1内部表象データは、第1内部表象用データベースを用いて生成された内部表象データを含む。
【0031】
第2内部表象用データベースは、第1内部表象用データベースに用いられた第1出力データと異なる種類のデータを第2出力データとする点で、第1内部表象用データベースと異なる。第2内部表象用データベースは、機械学習により生成される。第2内部表象用データベースとして、例えばユーザデータを第2入力データとし、内部表象データに含まれる1種類以上のデータ(第2内部表象データ)を第2出力データとして、第2入力データと第2出力データを一組の学習データ(第2内部表象用学習データ)として、学習データを用いた機械学習により構築された、第2入力データから第2出力データを生成するための学習済みモデルが用いられる。また、第2出力データは、第2内部表象用学習データとして用いられる第2内部表象データである。また、第2内部表象データは、第2内部表象用データベースを用いて生成された内部表象データを含む。
【0032】
表現用データベースは、入力された第1内部表象データと第2内部表象データとに基づいて、表現データを出力する。表現用データベースは、例えば機械学習により生成されてもよい。表現用データベースとして、例えば予め取得された一対の第1内部表象データと第2内部表象データとを第3入力データとし、表現データを第3出力データとして、第3入力データと第3出力データを一組の学習データ(表現用学習データ)として、学習データを用いた機械学習により構築された、第3入力データから第3出力データを生成するための学習済みモデルが用いられてもよい。
【0033】
刺激データは、例えばコンテンツ再生システム100によって出力される内部表象データを生成する際に用いられる。刺激データは、任意の任意のテキストデータと、画像データと、音声データとの中の何れか1以上のデータを含む。刺激データは、例えば、画像データだけであってもよいし、画像データと音声データとであってもよい。また、刺激データは、任意のテキストデータに基づき抽出されたテキスト特徴量データと、任意の画像データに基づき抽出された画像特徴量データと、任意の音声データに基づき抽出された音声特徴量データとの中の何れか1以上を含んでいてもよい。
【0034】
テキストデータは、例えばコンテンツ再生システム100によって出力される内部表象データを生成する際に用いられる。テキストデータは、文字など文字コードによって表されるデータである。テキストデータは、例えば、モニタやプリンタなどの機器を制御するためのデータである制御文字を含む。制御文字は、例えば、改行を表す改行文字やタブ(水平タブ)などが含まれる。
【0035】
テキストデータは、例えば通信網4を介して、SNS等のサーバに記憶されたユーザが投稿した、又はユーザに関する情報が記載されたデータを含む。また、テキストデータは、音声データを音声認識することによって抽出したものであってもよい。テキストデータは、例えばコンテンツ再生装置1等を介して、ユーザ等により入力されてもよい。
【0036】
音声データは、例えばコンテンツ再生システム100によって出力される内部表象データを生成する際に用いられる。音声データは、音声を符号化したものである。音声の符号化には例えば、量子化ビット数とサンプリング周波数と時間とで定まる長さのビット列として表されるパルス符号変調(PCM)方式に基づくものと、音声の波の疎密を1bitで表現して一定の間隔で標本化するパルス密度変調(PDM)方式に基づくものなどがある。
【0037】
音声データは、例えば動画データから抽出された音声に基づいたものであってもよい。音声データは、例えば公知の収音装置等を用いて収音された音声のデータを示すほか、例えば公知の技術で生成された擬似的な音声を示してもよい。音声データは、例えば通信網4を介して、SNS等のサーバに記憶されたユーザが投稿した、又はユーザに関する情報が記載されたデータを含む。音声データは、例えばコンテンツ再生装置1等を介して、ユーザ等により入力されてもよい。
【0038】
画像データは、例えばコンテンツ再生システム100によって出力される内部表象データを生成する際に用いられる。画像データは、複数の画素の集合体を含むデータである。画像データは、例えば動画から抽出されたものであってもよく、動画データであってもよい。
【0039】
画像データは、例えば通信網4を介して取得したものであってもよい。画像データは、例えば公知の撮像装置等を用いて撮像された画像を示す他、例えば公知の技術で生成された擬似的な画像を示してもよい。画像データは、例えば通信網4を介して、SNS等のサーバに記憶されたユーザが投稿した、又はユーザに関する情報が記載されたデータを含む。画像データは、例えばコンテンツ再生装置1等を介して、ユーザ等により入力されてもよい。
【0040】
テキスト特徴量データは、テキストデータに含まれる特徴を示すデータである。テキストの特徴とは、例えばテキストを形態素解析し、得られた単語や文章の意味に基づいて算出した、類似する単語及び単語の意味の出現傾向等であってもよい。また、単語や文章の意味に基づいて、ベクトルや関数グラフ等であってもよい。また、テキスト特徴量データは、会話の内容から、推測した単語の意味が含まれてもよい。また、テキスト特徴量データは、公知の技術を用いて取得してもよい。
【0041】
音声特徴量データは、音声データに含まれる音声の特徴を示すデータである。音声の特徴とは、音の響きの特徴である音響特徴量と、音声の言語的意味に伴い、音声をテキストに変換しても損なわない意味特徴量を含む。音響特徴量は、例えば、基本周波数、スペクトル包絡、非周期性指標、スペクトログラム、音声の大きさ、ケプストラム、単語の発音、イントネーション、音波の時間遅れ、音声の時間による増減の変化等を示したものである。意味特徴量は、発言した単語の傾向、言葉使い等を示したものである。また、意味特徴量はテキスト特徴量と同じものであってもよい。また、音声特徴量データは、音響特徴量から取得された意味特徴量を含んでもよい。この場合、意味特徴量は、例えば音響特徴量に含まれる単語のアクセントから単語の意味特徴量を取得することで同音異義語の判断したものを含んでもよい。また、音声特徴量データは、公知の技術を用いて取得してもよい。
【0042】
画像特徴量データは、画像の特徴を示すデータである。画像の特徴とは、例えば画像認識により、認識した撮像対象であってもよい。また、複数の画像から共通して現れるデータであってもよい。共通して現れるデータは、例えばユーザを映した動画の中で、ユーザの笑顔が良く見られる傾向にあるとすれば、上述したユーザの笑顔を共通して現れるデータとしてもよい。また、画像の特徴は、例えば人の瞳の動きの特徴であってもよい。また、画像特徴量データは、撮像対象に基づく点群データであってもよい。点群データは、撮像対象に対する3次元構造の特徴を示し、例えばSIFT(Scale-Invariant Feature Transform)による画像解析又は3Dカメラ等の公知の撮像装置や処理技術によって取得してもよい。点群データは、例えば撮像対象の構造に基づく曲率情報や、位置情報を含んでもよい。なお、曲率情報、及び位置情報は、公知の撮像装置や処理技術によって取得してもよい。また、画像特徴量データは、公知の技術を用いて取得してもよい。
【0043】
ユーザデータは、ユーザに関する情報が記載されたテキストデータと、ユーザの画像を含む画像データと、ユーザの音声に関する音声データとの中の何れか1以上を含むデータである。また、ユーザデータは、ユーザに関する情報が記載されたテキストデータに基づき抽出されたテキスト特徴量データと、ユーザに関する情報が記載された画像データに基づき抽出された画像特徴量データと、ユーザに関する情報が記載された音声データに基づき抽出された音声特徴量データとの中の何れか1以上を含んでいてもよい。
【0044】
ユーザに関する情報が記載されたテキストデータは、例えばユーザの住所や氏名等の個人情報にが記載されたテキストデータ、又はユーザの好みや思い出等のユーザの嗜好について記載されたテキストデータ、又はユーザが自分で記載したテキストデータを含む。また、ユーザに関する情報が記載されたテキストデータは、ユーザに関する質問に対してユーザが回答した内容に関するテキスト形式のデータを含めてもよい。
【0045】
ユーザの画像を含む画像データは、ユーザの姿の全身、又は体の一部の画像を含む画像データである。また、ユーザの画像を含む画像データは、ユーザに関する質問に対してユーザが回答した内容に関する画像形式のデータでもよい。
【0046】
ユーザの音声に関する音声データは、ユーザの声を記録した音声データである。また、ユーザの音声に関する音声データは、ユーザに関する質問に対してユーザが回答した内容に関する音声形式のデータでもよい。
【0047】
内部表象データは、ユーザの自己認識を示す自己認識データと、ユーザの事象に対する優先順位を示す優先順位データと、ユーザの事象に対する感情表現を示す感情表現データと、ユーザの事象に対する因果関係の推定を示す因果関係データと、の中の何れか1種類以上のデータを含むデータである。
【0048】
自己認識データは、ユーザの自己認識を示すデータである。自己認識は、自身の社会の中での使命や役割、立場などから生まれる感情を指す。例えば、集団の中でリーダー立場であった場合、「リーダーとしてとるべき表現」が自己認識である。また、自己認識は、例えば集団の中で空気を乱さないようにするための感情なども含む。自己認識データは、例えば、例えば喜び、怒り、哀愁、楽しいなどがある。
【0049】
優先順位データは、ユーザの事象に対する優先順位を示すデータである。ユーザの事象に対する優先順位とは、事象に対してユーザがどのようなことを優先するかに順列をつけたものである。例えば、ユーザが感情表現の優先順位よりも自己認識の優先順位を上にしたならば、ユーザは自己認識からなる表現をする傾向であることを示す。優先順位データとして、例えば自己認識、モーダリティ、感情表現、因果関係等がある。
【0050】
感情表現データは、ユーザの事象に対する感情表現を示すデータである。ユーザの事象に対する感情表現は、事象に対してユーザがどのような感情を抱いたかを示すものである。感情表現データは、例えば喜び、怒り、哀愁、楽しいなどがある。
【0051】
因果関係データは、事象に対する因果関係の推定を示すデータである。事象に対する因果関係の推定とは、ユーザが事象に対してどのような事象を連想したかを示すものである。例えば、事故が起きたという事象に対して、渋滞という事象を連想することを指す。
【0052】
表現データは、キャラクターを含む画像、及びキャラクターの音声によって構成されるキャラクターの表現を示すデータである。表現は、例えば映像的表現、音声的表現、身体的表現等がある。映像的表現は、視覚に働きかける表現であり、身振りや表情等がある。音声的表現は、聴覚に働きかける表現であり、言葉や発言、歌等がある。身体的表現は、触覚に働きかける表現であり、ボディタッチなどがある。表現データは、擬似的に生成された擬似データを含んでいてもよい。
【0053】
なお、上述した「ユーザ」は、実在する人物又は動物のほか、アニメーション等のような、擬似的に生成された人物又は動物でもよい。
【0054】
なお、上述した「キャラクター」は、ユーザを模して擬似的に生成された人物又は動物、或いは実在する人物又は動物を模して擬似的に生成された人物又は動物のほか、アニメーション等のような、擬似的に生成された人物又は動物でもよい。
【0055】
<学習方法>
本実施形態における学習方法は、入力された刺激データに対し、キャラクターの表現を示す表現データを生成するために用いられるデータベース又は学習モデルを生成する際に用いられる。データベースは、例えば第1内部表象用データベース第2内部表象用データベースと、表現用データベースとを含む。学習モデルは、例えばsound学習モデル、visual学習モデル、テキスト学習モデルとを含む。
【0056】
学習方法は、例えば
図3(a)に示すように、第1内部表象用データベースを生成する。ユーザデータを第1入力データとし、内部表象データに含まれる1種類以上の第1内部表象データを第1出力データとして、第1入力データと第1出力データとを一組の第1内部表象用学習データとして、内部表象用学習データを用いた機械学習により、第1入力データから第1出力データを生成するための第1内部表象用データベースを生成する。
【0057】
また、学習方法は、例えば
図3(b)に示すように、第2内部表象用データベースを生成する。ユーザデータを第2入力データとし、内部表象データに含まれる1種類以上の第2内部表象データを第2出力データとして、第2入力データと第2出力データとを一組の第2内部表象用学習データとして、内部表象用学習データを用いた機械学習により、第2入力データから第2出力データを生成するための第2内部表象用データベースを生成する。第2内部表象用データベースの学習方法は、第1内部表象用データベースに用いられた第1出力データと異なる種類のデータを第2出力データとする点で、第1内部表象用データベースの学習方法と異なる。
【0058】
また、学習方法は、例えば
図4(a)に示すように、表現用データベースを生成してもよい。学習方法は、第1内部表象用データベースと、第2内部表象用データベースとを用いて生成された2種類以上のデータを含む内部表象データを入力として、キャラクターの表現を示す表現データを出力とした1組の表現用学習データとして、複数の表現用学習データを用いた機械学習により、2種類以上のデータを含む内部表象データを入力として、キャラクターの表現を示す表現データを出力するための表現用データベースを生成してもよい。
【0059】
また、学習方法は、例えば
図4(a)に示すように、sound学習モデルを生成してもよい。学習方法は、一組の予め取得された過去の音声データと、過去の音声データに紐づけられた音声特徴量データとを音声特徴量用学習データとして、複数の音声特徴量用学習データを用いた機械学習により、音声データを入力として、音声特徴量データを出力するためのsound学習モデルを生成してもよい。
【0060】
また、学習方法は、例えば
図5(a)に示すように、visual学習モデルを生成してもよい。学習方法は、一組の予め取得された過去の画像データと、過去の画像データに紐づけられた画像特徴量データとを画像特徴量用学習データとして、複数の画像特徴量用学習データを用いた機械学習により、画像データを入力として、画像特徴量データを出力するためのvisual学習モデルを生成してもよい。
【0061】
また、学習方法は、例えば
図5(b)に示すように、テキスト学習モデルを生成してもよい。学習方法は、一組の予め取得された過去のテキストデータと、過去のテキストデータに紐づけられたテキスト特徴量データとをテキスト特徴量用学習データとして、複数のテキスト特徴量用学習データを用いた機械学習により、テキストデータを入力として、テキスト特徴量データを出力するためのテキスト学習モデルを生成してもよい。
【0062】
学習方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、上述したデータベースを生成する。上述したデータベースは、例えばCNN(Convolution Neural Network) 等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。
【0063】
第1内部表象用データベースには、例えばユーザデータ(第1入力データ)と内部表象データに含まれる1種類以上の第1内部表象データ(第1出力データ)との間における連関度を有する第1連関性が記憶される。連関度は、第1入力データと第1出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0064】
例えば第1連関性は、多対多の情報(複数の第1入力データ、対、複数の第1出力データ)の間における繋がりの度合いにより構築される。第1連関性は、機械学習の過程で適宜更新され、例えば複数の第1入力データ、及び複数の第1出力データに基づいて最適化された関数(分類器)を示す。なお、第1連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
【0065】
このため、コンテンツ再生システム100では、例えば分類器の判定した結果を全て踏まえた第1連関性を用いて、第1入力データに適した第1出力データを選択する。これにより、第1入力データが、第1出力データと同一又は類似である場合のほか、非類似である場合においても、第1入力データに適した第1出力データを定量的に選択することができる。
【0066】
第1連関性は、例えば
図6に示すように、複数の第1出力データと、複数の第1入力データとの間における繋がりの度合いを示してもよい。この場合、第1連関性を用いることで、複数の第1出力データ(
図6では「第1出力データA」~「第1出力データC」)のそれぞれに対し、複数の第1入力データ(
図6では「第1出力データA」~「第1出力データC」)の関係の度合いを紐づけて記憶させることができる。このため、例えば第1連関性を介して、1つの第1出力データに対して、複数の第1入力データを紐づけることができる。これにより、第1入力データに対して多角的な第1出力データの選択を実現することができる。
【0067】
第1連関性は、例えば各第1出力データと、各第1入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、第1出力データに含まれる「第1出力データA」は、第1入力データに含まれる「第1出力データA」との間の連関度AA「73%」を示し、第1入力データに含まれる「第1出力データB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。
【0068】
また、第1内部表象用データベースは、第1入力データと第1出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。第1入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。
【0069】
第2内部表象用データベースには、例えばユーザデータ(第2入力データ)と内部表象データに含まれる1種類以上の第2内部表象データ(第2出力データ)との間における連関度を有する第2連関性が記憶される。連関度は、第2入力データと第2出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0070】
例えば第2連関性は、多対多の情報(複数の第2入力データ、対、複数の第2出力データ)の間における繋がりの度合いにより構築される。第2連関性は、機械学習の過程で適宜更新され、例えば複数の第2入力データ、及び複数の第2出力データに基づいて最適化された関数(分類器)を示す。なお、第2連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
【0071】
このため、コンテンツ再生システム100では、例えば分類器の判定した結果を全て踏まえた第2連関性を用いて、第2入力データに適した第2出力データを選択する。これにより、第2入力データが、第2出力データと同一又は類似である場合のほか、非類似である場合においても、第2入力データに適した第2出力データを定量的に選択することができる。
【0072】
第2連関性は、例えば
図7に示すように、複数の第2出力データと、複数の第2入力データとの間における繋がりの度合いを示してもよい。この場合、第2連関性を用いることで、複数の第2出力データ(
図7では「第2出力データA」~「第2出力データC」)のそれぞれに対し、複数の第2入力データ(
図7では「第2出力データA」~「第2出力データC」)の関係の度合いを紐づけて記憶させることができる。このため、例えば第2連関性を介して、1つの第2出力データに対して、複数の第2入力データを紐づけることができる。これにより、第2入力データに対して多角的な第2出力データの選択を実現することができる。
【0073】
第2連関性は、例えば各第2出力データと、各第2入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、第2出力データに含まれる「第2出力データA」は、第2入力データに含まれる「第2出力データA」との間の連関度AA「73%」を示し、第2入力データに含まれる「第2出力データB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。
【0074】
また、第2内部表象用データベースは、第2入力データと第2出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。第2入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。
【0075】
表現用データベースには、例えば2種類以上のデータを含む内部表象データ(第3入力データ)と表現データ(第3出力データ)との間における連関度を有する第3連関性が記憶される。連関度は、第3入力データと第3出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0076】
例えば第3連関性は、多対多の情報(複数の第3入力データ、対、複数の第3出力データ)の間における繋がりの度合いにより構築される。第3連関性は、機械学習の過程で適宜更新され、例えば複数の第3入力データ、及び複数の第3出力データに基づいて最適化された関数(分類器)を示す。なお、第3連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
【0077】
このため、コンテンツ再生システム100では、例えば分類器の判定した結果を全て踏まえた第3連関性を用いて、第3入力データに適した第3出力データを選択する。これにより、第3入力データが、第3出力データと同一又は類似である場合のほか、非類似である場合においても、第3入力データに適した第3出力データを定量的に選択することができる。
【0078】
第3連関性は、例えば
図8に示すように、複数の第3出力データと、複数の第3入力データとの間における繋がりの度合いを示してもよい。この場合、第3連関性を用いることで、複数の第3出力データ(
図8では「第3出力データA」~「第3出力データC」)のそれぞれに対し、複数の第3入力データ(
図8では「第3出力データA」~「第3出力データC」)の関係の度合いを紐づけて記憶させることができる。このため、例えば第3連関性を介して、1つの第3出力データに対して、複数の第3入力データを紐づけることができる。これにより、第3入力データに対して多角的な第3出力データの選択を実現することができる。
【0079】
第3連関性は、例えば各第3出力データと、各第3入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、第3出力データに含まれる「第3出力データA」は、第3入力データに含まれる「第3出力データA」との間の連関度AA「73%」を示し、第3入力データに含まれる「第3出力データB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。
【0080】
また、表現用データベースは、第3入力データと第3出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。第3入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。
【0081】
sound学習モデルには、例えば音声データを入力データとし、音声特徴量データを出力データとして、入力データと出力データとの間における連関度を有する音声連関性が記憶される。連関度は、入力データと出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0082】
例えば音声連関性は、多対多の情報(複数の入力データ、対、複数の出力データ)の間における繋がりの度合いにより構築される。音声連関性は、機械学習の過程で適宜更新され、例えば複数の入力データ、及び複数の出力データに基づいて最適化された関数(分類器)を示す。なお、音声連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
【0083】
このため、コンテンツ再生システム100では、例えば分類器の判定した結果を全て踏まえた音声連関性を用いて、入力データに適した出力データを選択する。これにより、入力データが、出力データと同一又は類似である場合のほか、非類似である場合においても、入力データに適した出力データを定量的に選択することができる。
【0084】
音声連関性は、例えば
図9に示すように、複数の出力データと、複数の入力データとの間における繋がりの度合いを示してもよい。この場合、音声連関性を用いることで、複数の出力データ(
図9では「音声特徴量データA」~「音声特徴量データC」)のそれぞれに対し、複数の入力データ(
図9では「音声データA」~「音声データC」)の関係の度合いを紐づけて記憶させることができる。このため、例えば音声連関性を介して、1つの出力データに対して、複数の入力データを紐づけることができる。これにより、入力データに対して多角的な出力データの選択を実現することができる。
【0085】
音声連関性は、例えば各出力データと、各入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、出力データに含まれる「音声特徴量データA」は、入力データに含まれる「音声特徴量データA」との間の連関度AA「73%」を示し、入力データに含まれる「音声特徴量データB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。
【0086】
また、sound学習モデルは、入力データと出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。
【0087】
visual学習モデルには、例えば画像データを入力データとし、画像特徴量データを出力データとして、入力データと出力データとの間における連関度を有する画像連関性が記憶される。連関度は、入力データと出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0088】
例えば画像連関性は、多対多の情報(複数の入力データ、対、複数の出力データ)の間における繋がりの度合いにより構築される。画像連関性は、機械学習の過程で適宜更新され、例えば複数の入力データ、及び複数の出力データに基づいて最適化された関数(分類器)を示す。なお、画像連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
【0089】
このため、コンテンツ再生システム100では、例えば分類器の判定した結果を全て踏まえた画像連関性を用いて、入力データに適した出力データを選択する。これにより、入力データが、出力データと同一又は類似である場合のほか、非類似である場合においても、入力データに適した出力データを定量的に選択することができる。
【0090】
画像連関性は、例えば
図10に示すように、複数の出力データと、複数の入力データとの間における繋がりの度合いを示してもよい。この場合、画像連関性を用いることで、複数の出力データ(
図10では「画像特徴量データA」~「画像特徴量データC」)のそれぞれに対し、複数の入力データ(
図10では「画像データA」~「画像データC」)の関係の度合いを紐づけて記憶させることができる。このため、例えば画像連関性を介して、1つの出力データに対して、複数の入力データを紐づけることができる。これにより、入力データに対して多角的な出力データの選択を実現することができる。
【0091】
画像連関性は、例えば各出力データと、各入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、出力データに含まれる「画像特徴量データA」は、入力データに含まれる「画像特徴量データA」との間の連関度AA「73%」を示し、入力データに含まれる「画像特徴量データB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。
【0092】
また、visual学習モデルは、入力データと出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。
【0093】
テキスト学習モデルには、例えばテキストデータを入力データとし、テキスト特徴量データを出力データとして、入力データと出力データとの間における連関度を有するテキスト連関性が記憶される。連関度は、入力データと出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0094】
例えばテキスト連関性は、多対多の情報(複数の入力データ、対、複数の出力データ)の間における繋がりの度合いにより構築される。テキスト連関性は、機械学習の過程で適宜更新され、例えば複数の入力データ、及び複数の出力データに基づいて最適化された関数(分類器)を示す。なお、テキスト連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
【0095】
このため、コンテンツ再生システム100では、例えば分類器の判定した結果を全て踏まえたテキスト連関性を用いて、入力データに適した出力データを選択する。これにより、入力データが、出力データと同一又は類似である場合のほか、非類似である場合においても、入力データに適した出力データを定量的に選択することができる。
【0096】
テキスト連関性は、例えば
図11に示すように、複数の出力データと、複数の入力データとの間における繋がりの度合いを示してもよい。この場合、テキスト連関性を用いることで、複数の出力データ(
図11では「テキスト特徴量データA」~「テキスト特徴量データC」)のそれぞれに対し、複数の入力データ(
図11では「テキストデータA」~「テキストデータC」)の関係の度合いを紐づけて記憶させることができる。このため、例えばテキスト連関性を介して、1つの出力データに対して、複数の入力データを紐づけることができる。これにより、入力データに対して多角的な出力データの選択を実現することができる。
【0097】
テキスト連関性は、例えば各出力データと、各入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、出力データに含まれる「テキスト特徴量データA」は、入力データに含まれる「テキスト特徴量データA」との間の連関度AA「73%」を示し、入力データに含まれる「テキスト特徴量データB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。
【0098】
また、テキスト学習モデルは、入力データと出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。
【0099】
<コンテンツ再生装置1>
次に、
図12、
図13を参照して、本実施形態におけるコンテンツ再生装置1の一例を説明する。
図12(a)は、本実施形態におけるコンテンツ再生装置1の構成の一例を示す模式図であり、
図12(b)は、本実施形態におけるコンテンツ再生装置1の機能の一例を示す模式図である。
図12(c)は、DB生成部16の一例を示す模式図である。
図13は、処理部12の一例を示す模式図である。
【0100】
コンテンツ再生装置1として、例えばラップトップ(ノート)PC又はデスクトップPC等の電子機器が用いられる。コンテンツ再生装置1は、例えば
図12(a)に示すように、筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105~107とを備える。各構成101~107は、内部バス110により接続される。
【0101】
CPU101は、コンテンツ再生装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、データベースや学習対象データ等の各種情報が記憶される。保存部104として、例えばHDD(Hard Disk Drive)のほか、SSD(Solid State Drive)等のデータ保存装置が用いられる。なお、例えばコンテンツ再生装置1は、図示しないGPU(Graphics Processing Unit)を有してもよい。
【0102】
I/F105は、通信網4を介して、必要に応じて端末2、サーバ3、ウェブサイト等との各種情報の送受信を行うためのインターフェースである。I/F106は、入力部108との情報の送受信を行うためのインターフェースである。入力部108として、例えばキーボードが用いられ、コンテンツ再生装置1の使用者等は、入力部108を介して、各種情報、又はコンテンツ再生装置1の制御コマンド等を入力する。I/F107は、表示部109との各種情報の送受信を行うためのインターフェースである。表示部109は、保存部104に保存された各種情報、又はコンテンツ等を表示する。表示部109として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部108と一体に設けられる。また、表示部109は、スピーカが用いられてもよい。
【0103】
図12(b)は、コンテンツ再生装置1の機能の一例を示す模式図である。コンテンツ再生装置1は、取得部11と、処理部12と、生成部13と、出力部14と、記憶部15とを備え、例えばDB生成部16を有してもよい。DB生成部16は、例えば
図12(c)に示すように、第1内部表象用データベース生成部161と、第2内部表象用データベース生成部162と、表現用データベース生成部163とを有する。なお、
図12(b)、
図12(c)、
図13に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。
【0104】
<<取得部11>>
取得部11は、刺激データを取得する。取得したデータは、上述した表現データを生成する際に用いられる。取得部11は、例えば入力部108から入力されたテキストデータ、画像データ、音声データを取得するほか、例えば通信網4を介して、端末2等からテキストデータ、画像データ、音声データを取得してもよい。
【0105】
取得部11は、例えば上述した各種データベースの生成に用いられる学習データを取得してもよい。取得部11は、例えば入力部108から入力された学習データを取得するほか、例えば通信網4を介して、端末2等から学習データを取得してもよい。
【0106】
例えば、第1内部表象用データベースの生成に用いられる第1内部表象用学習データとして、過去のユーザデータ及び内部表象データが挙げられる。また、例えば表現用データベースの生成に用いられる学習データ(表現用学習データ)として、表現データが挙げられる。
【0107】
<<処理部12>>
処理部12は、例えばsound学習モデル、visual学習モデル、テキスト学習モデル、第1内部表象用データベース、第2内部表象用データベース、表現用データベースを参照し、刺激データに対応する表現データを取得する。
【0108】
処理部12は、
図13に示すように、取得部11に接続される音声処理部121と、画像処理部122と、テキスト処理部123とを有する。また、処理部12は、音声処理部121と、画像処理部122と、テキスト処理部123に接続される第1内部表象処理部124と、第2内部表象処理部125とを有する。また、処理部12は、第1内部表象処理部124と、第2内部表象処理部125とに接続される表現処理部126を有する。
【0109】
音声処理部121は、例えばsound学習モデルを参照し、音声データに対応する音声特徴量データを取得する。音声処理部121は、例えば音声データに対し、音声連関性の最も高い音声特徴量データを、第1音声特徴量データとして選択するほか、例えば予め設定された閾値以上の連関度を有する複数の音声特徴量データを、第1音声特徴量データとして選択してもよい。また、選択される音声特徴量データの数については、任意に設定できる。
【0110】
画像処理部122は、例えばvisual学習モデルを参照し、画像データに対応する画像特徴量データを取得する。画像処理部122は、例えば画像データに対し、画像連関性の最も高い画像特徴量データを、第1画像特徴量データとして選択するほか、例えば予め設定された閾値以上の連関度を有する複数の画像特徴量データを、第1画像特徴量データとして選択してもよい。また、選択される画像特徴量データの数については、任意に設定できる。
【0111】
テキスト処理部123は、例えばテキスト学習モデルを参照し、テキストデータに対応するテキスト特徴量データを取得する。テキスト処理部123は、例えばテキストデータに対し、テキスト連関性の最も高いテキスト特徴量データを、第1テキスト特徴量データとして選択するほか、例えば予め設定された閾値以上の連関度を有する複数のテキスト特徴量データを、第1テキスト特徴量データとして選択してもよい。また、選択されるテキスト特徴量データの数については、任意に設定できる。
【0112】
第1内部表象処理部124は、例えば第1内部表象用データベースを参照し、音声特徴量データを含む音声データと、画像特徴量データを含む画像データと、テキスト特徴量データを含むテキストデータとの中の何れか1以上のデータを入力として、入力に対応する内部表象データに含まれる1種類以上のデータ(第1内部表象データ)を取得する。第1内部表象処理部124は、例えばテキストデータを入力データとし、第1内部表象用データベースを参照して演算された出力データを、第1内部表象データとして取得する。
【0113】
第1内部表象処理部124は、例えばテキストデータに対し、第1連関性の最も高い第1内部表象データを選択するほか、例えば予め設定された閾値以上の連関度を有する第1内部表象データを選択してもよい。また、選択される第1内部表象データの数については、任意に設定できる。
【0114】
第2内部表象処理部125は、例えば第2内部表象用データベースを参照し、音声特徴量データを含む音声データと、画像特徴量データを含む画像データと、テキスト特徴量データを含むテキストデータとの中の何れか1以上のデータを入力として、入力に対応する内部表象データに含まれる1種類以上のデータ(第2内部表象データ)を取得する。第2内部表象処理部125は、例えばテキストデータを入力データとし、第2内部表象用データベースを参照して演算された出力データを、第2内部表象データとして取得する。
【0115】
第2内部表象処理部125は、例えばテキストデータに対し、第2連関性の最も高い第2内部表象データを選択するほか、例えば予め設定された閾値以上の連関度を有する第2内部表象データを選択してもよい。また、選択される第2内部表象データの数については、任意に設定できる。
【0116】
表現処理部126は、例えば表現用データベースを参照し、第1内部表象データと、第2内部表象データを入力として、入力に対応する表現データを取得する。表現処理部126は、例えば第1内部表象データに含まれる自己認識データと、第2内部表象データに含まれる感情表現データとを入力データとし、表現用データベースを参照して演算された出力データを、表現データとして取得する。
【0117】
表現処理部126は、例えば自己認識データと、感情表現データとに対し、第3連関性の最も高い表現データを選択するほか、例えば予め設定された閾値以上の連関度を有する表現データを選択してもよい。また、選択される第2内部表象データの数については、任意に設定できる。
【0118】
<<生成部13>>
生成部13は、処理部12で取得した表現データに基づき、少なくとも1つの擬似データを生成する。生成部13は、例えば表現処理部126で取得された表現データに基づき、音声及び画像を含む擬似データを生成する。擬似データを生成することによって、記憶部15に記憶されていないキャラクターの表現を出力することが可能となる。生成部13は、擬似データを生成する際に、公知の技術を用いてもよい。
【0119】
<<出力部14>>
出力部14は、表現データを出力する。出力部14は、例えば生成部13で生成された擬似データを出力してもよい。出力部14は、I/F107を介して表示部109に表現データを出力するほか、例えばI/F105を介して、端末2等に表現データを出力する。
【0120】
<<記憶部15>>
記憶部15は、保存部104に保存されたデータベース等の各種データを必要に応じて取出す。記憶部15は、各構成11~14、16により取得又は生成された各種データを、必要に応じて保存部104に保存する。
【0121】
<<DB生成部16>>
DB生成部16は、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えば上述したニューラルネットワーク等が用いられる。
【0122】
DB生成部16は、例えば、第1内部表象用データベース生成部161と、第2内部表象用データベース生成部162と、表現用データベース生成部163とを有する。
【0123】
第1内部表象用データベース生成部161は、例えば一対のユーザデータと、第1内部表象データと、を第1内部表象用学習データとして、複数の第1内部表象用学習データを用いた機械学習により第1内部表象用データベースを生成する。
【0124】
第2内部表象用データベース生成部162は、例えば一対のユーザデータと、第2内部表象データと、を第2内部表象用学習データとして、複数の第2内部表象用学習データを用いた機械学習により第2内部表象用データベースを生成する。
【0125】
表現用データベース生成部163は、例えば一対の第1内部表象データと第2内部表象データと、表現データと、を表現用学習データとして、複数の表現用学習データを用いた機械学習により表現用データベースを生成する。
【0126】
<端末2>
端末2は、例えばコンテンツ再生システム100を用いたサービスのユーザ等が保有し、通信網4を介してコンテンツ再生装置1と接続される。端末2は、例えばデータベースを生成する電子機器を示してもよい。端末2は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末2は、例えばコンテンツ再生装置1の備える機能のうち、少なくとも一部の機能を備えてもよい。
【0127】
<サーバ3>
サーバ3は、通信網4を介してコンテンツ再生装置1と接続される。サーバ3は、過去の各種データ等が記憶され、必要に応じてコンテンツ再生装置1から各種データが送信される。サーバ3は、例えばコンテンツ再生装置1の備える機能のうち、少なくとも一部の機能を備えてもよく、例えばコンテンツ再生装置1の代わりに少なくとも一部の処理を行ってもよい。サーバ3は、例えばコンテンツ再生装置1の保存部104に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部104の代わりに用いられてもよい。
【0128】
<通信網4>
通信網4は、例えばコンテンツ再生装置1が通信回路を介して接続されるインターネット網等である。通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網4は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。
【0129】
(実施形態:学習方法)
次に、実施形態における学習方法の一例について説明する。
図14は、本実施形態における学習方法の一例を示すフローチャートである。
【0130】
学習方法は、取得ステップS110と、第1内部表象用データベース生成ステップS120と、第2内部表象用データベース生成ステップS130と、表現用データベース生成ステップS140を備える。
【0131】
<取得ステップS110>
取得ステップS110は、ユーザデータと、第1内部表象データと、第2内部表象データと、表現データを取得する。取得ステップS110は、例えばユーザデータとして、ユーザがユーザに関する質問がされたインタビュー動画を取得してもよい。また、取得ステップS110は、ユーザデータとして、例えばsound学習モデルを参照し、ユーザデータに含まれる音声データに対する音声特徴量データと、visual学習モデルを参照し、ユーザデータに含まれる画像データに対する画像特徴量データと、テキスト学習モデルを参照し、ユーザデータに含まれるテキストデータに対するテキスト特徴量データと、をそれぞれ取得してもよい。また、取得ステップS110は、主成分分析、形態素分析、ランダムフォレストによる分類等の公知の技術によって、テキスト学習モデルを用いることなく、ユーザデータとして、テキスト特徴量データを取得してもよい。また、取得ステップS110は、MFCC(Mel-Frequency Cepstrum Coefficient)等の公知の技術によって、sound学習モデルを用いることなく、ユーザデータとして、音声特徴量データを取得してもよい。また、取得ステップS110は、SIFT(Scale-Invariant Feature Transform)等の公知の技術によって、テキスト学習モデルを用いることなく、ユーザデータとして、テキスト特徴量データを取得してもよい。
【0132】
取得ステップS110は、ユーザデータとして、ユーザがソーシャルネットサービス等に投稿した画像データ、音声データ、テキストデータのいずれかを取得してもよい。取得ステップS110では、例えば取得部11が、上述した各データを取得する。取得部11は、例えば端末2等からユーザデータ、及び内部表象データに含まれる2種類以上のデータ及び表現データを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。ユーザデータとして、例えばユーザに関する情報が記載されたテキストデータのみを取得してもよいが、ユーザに関する情報が記載されたテキストデータと、ユーザの画像を含む画像データと、ユーザの音声に関する音声データとを取得することにより、例えば、ユーザの視覚的表現や、聴覚的表現を学習することが可能となるため、より精度の良い学習を行うことが可能となる。
【0133】
<第1内部表象用データベース生成ステップS120>
次に、第1内部表象用データベース生成ステップS120は、一対のユーザデータと、第1内部表象データとを第1内部表象用学習データとした機械学習により、第1内部表象用データベースを生成する。例えば、第1内部表象用データベース生成部161は、公知の機械学習により、第1内部表象用データベースを生成する。第1内部表象用データベース生成部161は、例えば記憶部15を介して、生成した第1内部表象用データベースを保存部104に保存する。なお、生成された第1内部表象用データベースは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。第1内部表象用学習データは、一対のユーザデータと内部表象データに含まれる1種類以上のデータとのデータを複数(例えば1000程度)含ませてもよい。
【0134】
<第2内部表象用データベース生成ステップS130>
次に、第2内部表象用データベース生成ステップS130は、一対のユーザデータと、第2内部表象データとを第2内部表象用学習データとした機械学習により、第2内部表象用データベースを生成する。例えば、第2内部表象用データベース生成部162は、公知の機械学習により、第2内部表象用データベースを生成する。第2内部表象用データベース生成部162は、例えば記憶部15を介して、生成した第2内部表象用データベースを保存部104に保存する。なお、生成された第2内部表象用データベースは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。第2内部表象用学習データは、一対のユーザデータと内部表象データに含まれる1種類以上のデータとのデータを複数(例えば1000程度)含ませてもよい。第1内部表象用データベースと、第2内部表象用データベースとを参照して、別々の種類のデータを含む内部表象データを独立して取得することにより、ユーザの多面的な感情を示した内部表象データを取得することが可能となる。例えば、第1内部表象用データベースを用いて、内部表象データに含まれる自己認識データとして、「笑い」を取得し、第2内部表象用データベースを用いて、内部表象データに含まれる感情表現データとして、「怒り」を取得することで、ユーザの多面的な感情を示した内部表象データを学習することができる。
【0135】
<表現用データベース生成ステップS140>
次に、表現用データベース生成ステップS140は、一組の第1内部表象データと、第2内部表象データと、表現データと、を表現用学習データとして、複数の表現用学習データを用いた機械学習により表現用データベースを生成する。例えば、表現用データベース生成部163は、公知の機械学習により、表現用データベースを生成する。表現用データベース生成部163は、例えば記憶部15を介して、生成した表現用データベースを保存部104に保存する。なお、生成された表現用データベースは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。表現用学習データは、一対の第1内部表象データと第2内部表象データと、表現データとのデータを複数(例えば1000程度)含ませてもよい。第1内部表象データと第2内部表象データを入力データとすることにより、多面的な感情に基づく表現データを取得することが可能となる。
【0136】
また、上述した学習方法は、一例であり、学習のタイミング及び学習のステップの手順等は任意のものであってもよい。また、第1内部表象用データベース及び第2内部表象用データベースと、出力データが異なる種類のデータを用いた点で異なる学習方法によって、内部表象データを出力するためのデータベースを1以上生成してもよい。これによって、多面的なユーザの感情をより多角的に評価することが可能となる。
【0137】
(第1実施形態:コンテンツ再生システムの動作)
次に、本実施形態におけるコンテンツ再生システム100の動作の一例について説明する。
図15は、本実施形態におけるコンテンツ再生システム100の動作の一例を示すフローチャートである。
【0138】
<取得手段S210>
取得手段S210は、ユーザ等により入力された刺激データを取得する。取得手段S210では、例えば取得部11が、刺激データを取得する。取得部11は、例えば端末2等から刺激データを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。また、取得手段S210は、例えば刺激データとして、任意の音声データのみを取得してもよいが、一つのデータに紐づいた複数種類のデータを取得してもよい。例えば刺激データとして、動画のように画像データと、画像データに紐づいた音声データを取得してもよい。
【0139】
<特徴量処理手段S220>
特徴量処理手段S220は、例えばsound学習モデル、visual学習モデル、テキスト学習モデルを参照し、取得手段S210で取得した刺激データに対応するテキスト特徴量データ、画像特徴量データ、音声特徴量データをそれぞれ取得する。特徴量処理手段S220は、例えばテキスト学習モデルを参照し、取得したテキストデータに対するテキスト特徴量データを取得する。また、特徴量処理手段S220は、例えばsound学習モデルを参照し、刺激データに含まれる音声データに対する音声特徴量データと、visual学習モデルを参照し、刺激データに含まれる画像データに対する画像特徴量データと、テキスト学習モデルを参照し、刺激データに含まれるテキストデータに対するテキスト特徴量データと、をそれぞれ取得してもよい。また、特徴量処理手段S220は、主成分分析、形態素分析、ランダムフォレストによる分類等の公知の技術によって、テキスト学習モデルを用いることなく、テキスト特徴量データを取得してもよい。また、特徴量処理手段S220は、MFCC(Mel-Frequency Cepstrum Coefficient)等の公知の技術によって、sound学習モデルを用いることなく、音声特徴量データを取得してもよい。また、特徴量処理手段S220は、SIFT(Scale-Invariant Feature Transform)等の公知の技術によって、テキスト学習モデルを用いることなく、テキスト特徴量データを取得してもよい。
【0140】
また、特徴量処理手段S220は、例えば記憶部15を介して、取得した音声データ及び特徴点データを保存部104に保存してもよい。なお、取得した各データは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。取得するデータは、擬似的に生成されたデータでもよい。取得するデータは、例えばひとつのテキストデータに対して複数のデータを取得してもよい。また、一つのデータに紐づいた複数種類のデータを入力データとすることにより、例えば複合的に特徴量を算出することが可能となり、より精度のよい表現データの取得ができる。
【0141】
<内部表象処理手段S230>
内部表象処理手段S230は、例えば第1内部表象用データベース及び第2内部表象用データベースを参照し、特徴量処理手段S220で取得したテキスト特徴量データを含むテキストデータ、画像特徴量データを含む画像データ、音声特徴量データを含む音声データに対応する第1内部表象データ及び第2内部表象データを取得する。内部表象処理手段S230では、例えば第1内部表象処理部124は、第1内部表象用データベースを参照し、テキスト特徴量データに対応する自己認識データを取得し、第2内部表象処理部125は、第2内部表象用データベースを参照し、テキスト特徴量データに対応する感情表現データをそれぞれ取得する。内部表象処理手段S230は、例えば記憶部15を介して、取得した内部表象データを保存部104に保存してもよい。なお、取得した内部表象データは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。取得するデータはひとつの入力データに対して複数のデータを取得してもよい。また、内部表象処理手段S230は、、第1内部表象用データベース及び第2内部表象用データベースと、出力データが異なる種類のデータを用いた点で異なる学習方法によって、内部表象データを出力するためのデータベースを1以上用いて、より多くの種類を含む内部表象データを取得してもよい。これにより、ユーザの感情をより多角的に判断することができる。
【0142】
<表現処理手段S240>
表現処理手段S240は、例えば表現用データベースを参照し、内部表象処理手段S230で取得した第1内部表象データと第2内部表象データとを入力として、入力に対応する表現データを取得する。表現処理手段S240では、表現処理部126は、例えば第1内部表象データに含まれる自己認識データと、第2内部表象データに含まれる感情表現データとを入力データとし、表現用データベースを参照して演算された出力データを、表現データとして取得する。例えば、第1内部表象データに含まれる自己認識データとして、「笑い」を、第2内部表象データに含まれる感情表現データとして、「怒り」と、優先順位データとして「自己認識」とが入力されたとすると、内心では怒りを感じているが、場の空気を優先して笑っているというような多面的な感情に基づく表現データを取得することができる。
【0143】
表現処理手段S240は、例えば記憶部15を介して、取得した表現データを保存部104に保存してもよい。なお、取得した表現データは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。取得するデータは擬似データでもよい。取得するデータはひとつの入力データに対して複数のデータを取得してもよい。
【0144】
<出力手段S250>
出力手段S250では、例えば出力部14は、表現処理手段S240により取得された表現データを、表示部109や端末2等に出力する。
【0145】
上述した各手段を行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。
【0146】
本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0147】
1 :コンテンツ再生装置
2 :端末
3 :サーバ
4 :通信網
10 :筐体
11 :取得部
12 :処理部
13 :生成部
14 :出力部
15 :記憶部
16 :DB生成部
100 :コンテンツ再生システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部
109 :表示部
110 :内部バス
121 :音声処理部
122 :画像処理部
123 :テキスト処理部
124 :第1内部表象処理部
125 :第2内部表象処理部
126 :表現処理部
161 :第1内部表象用データベース生成部
162 :第2内部表象用データベース生成部
163 :表現用データベース生成部
S110 :取得ステップ
S120 :第1内部表象用データベース生成ステップ
S130 :第2内部表象用データベース生成ステップ
S140 :表現用データベース生成ステップ
S210 :取得手段
S220 :特徴量処理手段
S230 :内部表象処理手段
S240 :表現処理手段
S250 :出力手段
【手続補正書】
【提出日】2021-07-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
キャラクターの表現を示す表現データを生成するために用いられるデータベースを生成する学習方法であって、
ユーザに関する情報が記載されたテキストデータと、前記ユーザの画像を含む画像データと、前記ユーザの音声に関する音声データとの中の何れか1以上を含むユーザデータを取得する入力データ取得ステップと、
前記ユーザの自己認識を示す自己認識データと、前記ユーザの事象に対する優先順位を示す優先順位データと、前記ユーザの事象に対する感情表現を示す感情表現データと、前記ユーザの事象に対する因果関係の推定を示す因果関係データと、の中の2種類以上のデータを含む、前記ユーザの内部表象を示す内部表象データとを取得する出力データ取得ステップと、
前記入力データ取得ステップにより取得したユーザデータを第1入力データとし、前記内部表象データに含まれる1種類以上のデータである第1内部表象データを第1出力データとして、前記第1入力データと前記第1出力データとを一組の第1内部表象用学習データとして、複数の前記第1内部表象用学習データを用いた機械学習により第1内部表象用データベースを生成する第1内部表象用データベース生成ステップと、
前記入力データ取得ステップにより取得したユーザデータを第2入力データとし、前記第1内部表象用データベース生成ステップにおける第1出力データと異なる種類のデータであり、前記内部表象データに含まれる1種類以上のデータである第2内部表象データを第2出力データとして、前記第2入力データと前記第2出力データとを一組の第2内部表象用学習データとして、複数の前記第2内部表象用学習データを用いた機械学習により第2内部表象用データベースを生成する第2内部表象用データベース生成ステップとを
コンピュータに実行させること
を特徴とする学習方法。
【請求項2】
前記第1内部表象用データベースを用いて生成された第1内部表象データと、前記第2内部表象用データベースを用いて生成された第2内部表象データとを入力として、前記キャラクターの表現を示す表現データを出力するための表現用データベースを生成する表現用データベース生成ステップを
さらにコンピュータに実行させること
を特徴とする請求項1に記載の学習方法。
【請求項3】
前記入力データ取得ステップは、質問に対して前記ユーザが回答した内容に関するテキスト形式のデータを含む前記テキストデータと、前記質問に対して前記ユーザが回答した内容に関する画像形式のデータを含む前記画像データと、前記質問に対して前記ユーザが回答した内容に関する音声形式のデータとの中の何れか1以上を含む前記ユーザデータを取得すること
を特徴とする請求項1又は2に記載の学習方法。
【請求項4】
前記ユーザデータは、前記テキストデータの特徴を示すテキスト特徴量データを有し、
前記入力データ取得ステップは、取得した前記テキストデータに基づき抽出された前記テキスト特徴量データを取得するテキスト特徴量データ取得ステップを含むこと
を特徴とする請求項1~3の何れか1項記載の学習方法。
【請求項5】
前記ユーザデータは、前記画像データの特徴を示す画像特徴量データを有し、
前記入力データ取得ステップは、取得した前記画像データに基づき抽出された前記画像特徴量データを取得する画像特徴量データ取得ステップを含むこと
を特徴とする請求項1~4の何れか1項記載の学習方法。
【請求項6】
前記ユーザデータは、前記音声データの特徴を示す音声特徴量データを有し、
前記入力データ取得ステップは、取得した前記音声データに基づき抽出された前記音声特徴量データを取得する音声特徴量データ取得ステップを含むこと
を特徴とする請求項1~5の何れか1項記載の学習方法。
【請求項7】
請求項2に記載の学習方法により生成された前記第1内部表象用データベースと、前記第2内部表象用データベースと、前記表現用データベースとを参照し、前記キャラクターの表現データを出力するコンテンツ再生装置であって、
任意のテキストデータと、画像データと、音声データとの中の何れか1以上のデータを含む刺激データを取得する取得部と、
前記第1内部表象用データベースを参照し、前記取得部により取得した刺激データに対応する前記第1内部表象データを取得する第1内部表象処理部と、
前記第2内部表象用データベースを参照し、前記取得部により取得した刺激データに対応する前記第2内部表象データを取得する第2内部表象処理部と、
前記表現用データベースを参照し、前記第1内部表象用データベースを用いて生成された第1内部表象データと、前記第2内部表象用データベースを用いて生成された第2内部表象データとに対応する前記表現データを出力する表現処理部と、を備えること
を特徴とするコンテンツ再生装置。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】
第1発明に係る学習方法は、キャラクターの表現を示す表現データを生成するために用いられるデータベースを生成する学習方法であって、ユーザに関する情報が記載されたテキストデータと、前記ユーザの画像を含む画像データと、前記ユーザの音声に関する音声データとの中の何れか1以上を含むユーザデータを取得する入力データ取得ステップと、前記ユーザの自己認識を示す自己認識データと、前記ユーザの事象に対する優先順位を示す優先順位データと、前記ユーザの事象に対する感情表現を示す感情表現データと、前記ユーザの事象に対する因果関係の推定を示す因果関係データと、の中の2種類以上のデータを含む、前記ユーザの内部表象を示す内部表象データとを取得する出力データ取得ステップと、前記入力データ取得ステップにより取得したユーザデータを第1入力データとし、前記内部表象データに含まれる1種類以上のデータである第1内部表象データを第1出力データとして、前記第1入力データと前記第1出力データとを一組の第1内部表象用学習データとして、複数の前記第1内部表象用学習データを用いた機械学習により第1内部表象用データベースを生成する第1内部表象用データベース生成ステップと、前記入力データ取得ステップにより取得したユーザデータを第2入力データとし、前記第1内部表象用データベース生成ステップにおける第1出力データと異なる種類のデータであり、前記内部表象データに含まれる1種類以上のデータである第2内部表象データを第2出力データとして、前記第2入力データと前記第2出力データとを一組の第2内部表象用学習データとして、複数の前記第2内部表象用学習データを用いた機械学習により第2内部表象用データベースを生成する第2内部表象用データベース生成ステップとをコンピュータに実行させることを特徴とする。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0008
【補正方法】変更
【補正の内容】
【0008】
第2発明に係る学習方法は、第1発明において、前記第1内部表象用データベースを用いて生成された第1内部表象データと、前記第2内部表象用データベースを用いて生成された第2内部表象データとを入力として、前記キャラクターの表現を示す表現データを出力するための表現用データベースを生成する表現用データベース生成ステップをさらにコンピュータに実行させることを特徴とする。