(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024172050
(43)【公開日】2024-12-12
(54)【発明の名称】予測システム、学習システム、予測方法、学習方法、予測プログラム及び学習プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20241205BHJP
G10L 15/22 20060101ALI20241205BHJP
G06T 7/20 20170101ALI20241205BHJP
【FI】
G06N20/00
G10L15/22 300Z
G06T7/20 300Z
【審査請求】未請求
【請求項の数】24
【出願形態】OL
(21)【出願番号】P 2023089475
(22)【出願日】2023-05-31
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和2年度、国立研究開発法人科学技術振興機構、事業名:ムーンショット型研究開発事業、テーマ名:ムーンショット目標1「2050年までに、人が身体、脳、空間、時間の制約から解放された社会を実現」、研究課題名:誰もが自在に活躍できるアバター共生社会の実現、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】503359821
【氏名又は名称】国立研究開発法人理化学研究所
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】中村 泰
(72)【発明者】
【氏名】岡留 有哉
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA05
5L096CA04
5L096DA01
5L096HA02
5L096HA11
5L096JA11
5L096JA18
5L096KA04
5L096KA15
(57)【要約】
【課題】人とコンピュータとのインタラクションを改善する。
【解決手段】予測システムは、複数の人のアクションの同時分布を学習することで生成された、学習済みモデルを格納する格納部と、アクションに関するデータの一部を欠損させて、前記学習済みモデルに入力することで、当該欠損させたデータを含むデータを予測する予測部と、前記予測されたデータの中から予測対象のデータを抽出し、アクションを制御する制御装置に対して、前記予測対象のデータまたは前記予測対象のデータに応じたデータを出力する出力部とを有する。
【選択図】
図12A
【特許請求の範囲】
【請求項1】
複数の人のアクションの同時分布を学習することで生成された、学習済みモデルを格納する格納部と、
アクションに関するデータの一部を欠損させて、前記学習済みモデルに入力することで、当該欠損させたデータを含むデータを予測する予測部と、
前記予測されたデータの中から予測対象のデータを抽出し、アクションを制御する制御装置に対して、前記予測対象のデータまたは前記予測対象のデータに応じたデータを出力する出力部と
を有する予測システム。
【請求項2】
前記制御装置により制御されるアクションの影響を受ける第1主体と、前記制御装置によりアクションが制御される第2主体との間のインタラクションにおいて、前記予測部は、
前記第1主体のアクションに関する複数種類のデータと、
前記第2主体のアクションに関する複数種類のデータの一部を欠損させた欠損データと、
を入力データとして前記学習済みモデルに入力することで、前記欠損させたデータを含むデータを予測する、請求項1に記載の予測システム。
【請求項3】
前記第2主体のアクションに関する複数種類のデータの一部を欠損させた欠損データは、
前記第2主体のアクションに関する複数種類のデータのうちの一部の種類のデータを欠損させた欠損データ、または、
前記第2主体のアクションに関する複数種類のデータのうちの一部の種類の一部の時間範囲のデータを欠損させた欠損データ、
である、請求項2に記載の予測システム。
【請求項4】
前記制御装置により制御されるアクションの影響を受ける第1主体と、前記制御装置によりアクションが制御される第2主体との間のインタラクションにおいて、前記予測部が、
前記第1主体のアクションに関する複数種類の未来のデータのうちの一部の種類の未来のデータを欠損させた欠損データと、
前記第2主体のアクションに関する複数種類の現在のデータと、
を入力データとして前記学習済みモデルに入力し、前記出力部が、前記予測対象のデータとして、前記第1主体のアクションに関する複数種類の未来のデータのうちの一部の種類の未来のデータを抽出した場合において、抽出された前記予測対象のデータが目標とするデータになるように、前記第2主体のアクションに関する複数種類のデータのうちの特定の種類の現在のデータを最適化する最適化部を更に有する、請求項3に記載の予測システム。
【請求項5】
前記出力部は、前記最適化部により最適化されたデータを、前記予測対象のデータに応じたデータとして、前記制御装置に出力する、請求項4に記載の予測システム。
【請求項6】
前記制御装置により制御されるアクションの影響を受ける第1主体と、前記制御装置によりアクションが制御される第2主体との間のインタラクションにおいて、前記予測部が、
前記第1主体のアクションに関する複数種類の未来のデータのうちの一部の種類の未来のデータを欠損させた欠損データと、
前記第2主体のアクションに関する複数種類の未来のデータと、
を入力データとして前記学習済みモデルに入力し、前記出力部が、前記予測対象のデータとして、前記第1主体のアクションに関する複数種類の未来のデータのうちの一部の種類の未来のデータを抽出した場合において、抽出された前記予測対象のデータが目標とするデータになるように、前記第2主体のアクションに関する複数種類の未来のデータのうちの特定の種類の未来のデータを最適化する最適化部を更に有する、請求項3に記載の予測システム。
【請求項7】
前記出力部は、前記最適化部により最適化されたデータを、前記予測対象のデータに応じたデータとして、前記制御装置に出力する、請求項6に記載の予測システム。
【請求項8】
前記アクションに関する複数種類のデータのうちの一部の種類のデータをマスクすることで、前記アクションに関する複数種類のデータのうちの一部の種類のデータを欠損させるマスク生成部を更に有する、請求項4または6に記載の予測システム。
【請求項9】
前記マスク生成部に、前記欠損させるデータの種類及び種類数を、マスク対象として設定し、前記出力部に、前記抽出するデータの種類及び種類数を、予測対象として設定する設定部を更に有する、請求項8に記載の予測システム。
【請求項10】
前記設定部は、前記学習済みモデルに入力する前記入力データの種類及び種類数を、入力対象として前記マスク生成部に設定する、請求項9に記載の予測システム。
【請求項11】
前記設定部は、前記最適化部が最適化する際の繰り返し回数を前記最適化部に設定する、請求項10に記載の予測システム。
【請求項12】
前記設定部は、前記予測部が予測するデータの時間長を前記予測部に設定する、請求項10に記載の予測システム。
【請求項13】
前記設定部は、
前記第2主体のアクションに関する複数種類のデータのうちの一部の種類のデータを欠損させるモード、
前記第2主体のアクションに関する複数種類のデータのうちの一部の種類の一部の時間範囲のデータを欠損させるモード、
前記第1主体のアクションに関する複数種類の未来のデータのうちの一部の種類の未来のデータを欠損させて予測しながら、前記第2主体のアクションに関する複数種類のデータのうちの特定の種類のデータを最適化するモード、
のうちのいずれかのモードを設定する、請求項9に記載の予測システム。
【請求項14】
前記第1主体のアクションに関する複数種類のデータには、
前記第1主体の音声データを処理することで生成される音声情報、
前記第1主体を撮影した画像データから抽出される画像特徴点情報、
前記第1主体に装着されたセンサにより測定されたセンサデータから抽出されるセンサ特徴点情報、
のいずれかが含まれ、
前記第2主体のアクションに関する複数種類のデータには、
前記第2主体の音声データを処理することで生成される音声情報、
前記第2主体を撮影した画像データから抽出される画像特徴点情報、
前記第2主体に装着されたセンサにより測定されたセンサデータから抽出されるセンサ特徴点情報、
のいずれかが含まれる、請求項2に記載の予測システム。
【請求項15】
前記音声情報は、音圧レベルに応じた値であり、
前記画像特徴点情報は、各部位の動きを特定する特徴点の位置または顔の表情を特定する特徴点の位置であり、
前記センサ特徴点情報は、各部位の動きを特定する特徴点の位置である、
請求項14に記載の予測システム。
【請求項16】
前記制御装置は、仮想空間内のアバタのアクションまたはロボットのアクションを制御する、請求項1に記載の予測システム。
【請求項17】
複数の人のアクションに関するデータの一部をマスクすることで、データの一部を欠損させるマスク生成部と、
前記データの一部を欠損させた欠損データをモデルに入力することで前記モデルより出力されるデータの中から、欠損させたデータを抽出した場合に、抽出した前記欠損させたデータが前記マスクする対象のデータに近づくよう、前記モデルのモデルパラメータを更新し、複数の人のアクションの同時分布を学習する学習部と
を有する学習システム。
【請求項18】
前記マスク生成部は、前記欠損データを入力データ、前記マスクする対象のデータを正解データとして、前記学習部に入力する、請求項17に記載の学習システム。
【請求項19】
前記複数の人のアクションに関するデータには、
前記複数の人それぞれの音声データを処理することで生成される音声情報、
前記複数の人それぞれを撮影した画像データから抽出される画像特徴点情報、
前記複数の人それぞれに装着されたセンサにより測定されたセンサデータから抽出されるセンサ特徴点情報、
のいずれかが含まれる、請求項18に記載の学習システム。
【請求項20】
前記音声情報は、音圧レベルに応じた値であり、
前記画像特徴点情報は、各部位の動きを特定する特徴点の位置または顔の表情を特定する特徴点の位置であり、
前記センサ特徴点情報は、各部位の動きを特定する特徴点の位置である、
請求項19に記載の学習システム。
【請求項21】
複数の人のアクションの同時分布を学習することで生成された、学習済みモデルを格納する格納部を有する予測システムのコンピュータが、
アクションに関するデータの一部を欠損させて、前記学習済みモデルに入力することで、当該欠損させたデータを含むデータを予測する予測工程と、
前記予測されたデータの中から予測対象のデータを抽出し、アクションを制御する制御装置に対して、前記予測対象のデータまたは前記予測対象のデータに応じたデータを出力する出力工程と
を実行する予測方法。
【請求項22】
複数の人のアクションに関するデータの一部をマスクすることで、データの一部を欠損させるマスク生成工程と、
前記データの一部を欠損させた欠損データをモデルに入力することで前記モデルより出力されるデータの中から、欠損させたデータを抽出した場合に、抽出した前記欠損させたデータが前記マスクする対象のデータに近づくよう、前記モデルのモデルパラメータを更新し、複数の人のアクションの同時分布を学習する学習工程と
をコンピュータが実行する学習方法。
【請求項23】
複数の人のアクションの同時分布を学習することで生成された、学習済みモデルを格納する格納部を有する予測システムのコンピュータに、
アクションに関するデータの一部を欠損させて、前記学習済みモデルに入力することで、当該欠損させたデータを含むデータを予測する予測工程と、
前記予測されたデータの中から予測対象のデータを抽出し、アクションを制御する制御装置に対して、前記予測対象のデータまたは前記予測対象のデータに応じたデータを出力する出力工程と
を実行させるための予測プログラム。
【請求項24】
複数の人のアクションに関するデータの一部をマスクすることで、データの一部を欠損させるマスク生成工程と、
前記データの一部を欠損させた欠損データをモデルに入力することで前記モデルより出力されるデータの中から、欠損させたデータを抽出した場合に、抽出した前記欠損させたデータが前記マスクする対象のデータに近づくよう、前記モデルのモデルパラメータを更新し、複数の人のアクションの同時分布を学習する学習工程と
をコンピュータに実行させるための学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、予測システム、学習システム、予測方法、学習方法、予測プログラム及び学習プログラムに関する。
【背景技術】
【0002】
人とコンピュータとのインタラクションにおいては、コンピュータにより制御されるロボット、あるいは、コンピュータにより制御される仮想空間内のアバタ等が、人間に近い自然なアクションを行うことが求められる。
【0003】
これに対して、従来のロボットやアバタは、例えば、人と対話するシーンにおいては、リップシンク等のように、発話する音声に応じて口元の動きを制御するといったアクションを行っていた。あるいは、対話相手の状態を観測し、観測結果に対応付けられた所定のリアクション(ジェスチャ、顔の表情等)に基づいて各部位の動きや顔の表情を制御するといったアクションを行っていた。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2019-145108号公報
【特許文献2】特開2021-86474号公報
【特許文献3】特許第7193015号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
一方で、人間同士は、全二重通信的なインタラクションを行っており、従来の制御方法のように半二重通信的なインタラクションでは、人間に近い自然なアクションを実現することが困難である。
【0006】
本開示は、人とコンピュータとのインタラクションを改善する。
【課題を解決するための手段】
【0007】
一態様によれば、予測システムは、
複数の人のアクションの同時分布を学習することで生成された、学習済みモデルを格納する格納部と、
アクションに関するデータの一部を欠損させて、前記学習済みモデルに入力することで、当該欠損させたデータを含むデータを予測する予測部と、
前記予測されたデータの中から予測対象のデータを抽出し、アクションを制御する制御装置に対して、前記予測対象のデータまたは前記予測対象のデータに応じたデータを出力する出力部とを有する。
【発明の効果】
【0008】
本開示によれば、人とコンピュータとのインタラクションを改善することができる。
【図面の簡単な説明】
【0009】
【
図1】インタラクション改善システムのシステム構成の一例を示す図である。
【
図2】インタラクション改善システムに含まれる各システムの処理の概要を示す図である。
【
図3A】予測対象のデータの第1の具体例を示す図である。
【
図3B】予測対象のデータの第2の具体例を示す図である。
【
図3C】予測対象のデータの第3の具体例を示す図である。
【
図3D】予測対象のデータの第4の具体例を示す図である。
【
図4】予測システムのハードウェア構成の一例を示す図である。
【
図5】データ収集システムのシステム構成の一例を示す図である。
【
図8】データ収集システムによる学習用データ収集処理の流れを示すフローチャートの一例である。
【
図9】学習システムの機能構成の一例を示す図である。
【
図11】学習システムによる学習処理の流れを示すフローチャートの一例である。
【
図12A】予測システムの機能構成の一例を示す第1の図である。
【
図12B】予測システムの機能構成の一例を示す第2の図である。
【
図14】予測システムによる予測処理の流れを示すフローチャートの一例である。
【
図15】予測システムの適用例の概要を示す図である。
【
図16】予測システムを適用した対話システムの一例を示す第1の図である。
【
図17】予測システムの印象評価を検証するための検証方法の一例を示す図である。
【
図18】予測システムの印象評価についての検証結果の一例を示す図である。
【
図19】予測システムを適用した対話システムの一例を示す第2の図である。
【
図20】予測システムを適用した対話システムの一例を示す第3の図である。
【発明を実施するための形態】
【0010】
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
【0011】
[第1の実施形態]
<インタラクション改善システムのシステム構成>
はじめに、第1の実施形態に係る学習システム及び予測システムを含む、インタラクション改善システムのシステム構成について説明する。
図1は、インタラクション改善システムのシステム構成の一例を示す図である。
【0012】
インタラクション改善システム100は、
・人とコンピュータとのインタラクションを改善する予測システム150を構築し、
・当該予測システム150を、インタラクティブなシーンに適用させるために、当該予測システム150に対して、適用シーンに応じた設定を行う、
システムである。
図1に示すように、インタラクション改善システム100は、データ収集システム110と、学習システム130と、予測システム150とを有する。
【0013】
データ収集システム110は、人間同士のインタラクションにおいて取得が可能なデータとして、人のアクション(人の動作(各部位の動き、表情の変化等を含む)、音声等)を示す複数種類のデータを取得し、予め定められた処理を行ったうえで、時系列に配列する。これにより、データ収集システム110は、人のアクションに関する複数種類のデータを生成し、収集データとして格納する。また、データ収集システム110は、格納した収集データを、学習用データ120と検証用データ(
図1において不図示)とに分類し、学習用データ120を学習システム130に提供する。
【0014】
学習システム130は、複数の人のアクションの同時分布を学習する生成モデルを有する。学習システム130は、データ収集システム110より提供された学習用データ120を用いて、生成モデルを学習することで、学習済み生成モデル140を生成する。なお、同時分布とは、複数の確率変数の組を確率要素とする確率の確率分布のことをいう。
【0015】
具体的には、学習システム130は、学習用データ120に含まれる、人のアクションに関する複数種類のデータの一部を欠損させて生成モデルに入力する。続いて、学習システム130は、当該生成モデルにより出力されたデータに含まれる予測対象のデータが、当該欠損させたデータに近づくように、当該生成モデルの学習を行う。これにより、学習システム130は、学習済み生成モデル140を生成する。なお、学習システム130により生成された学習済み生成モデル140は、予測システム150に格納される。
【0016】
予測システム150は、人とコンピュータとのインタラクションにおいて取得されるデータから生成した、アクションに関する複数種類のデータであって、一部を欠損させた欠損データを、学習済み生成モデル140に入力する。また、予測システム150は、学習済み生成モデル140よって予測されたデータから、予測対象のデータ(当該欠損させたデータ)を抽出する。なお、予測システム150に対しては、学習済み生成モデル140に入力されるデータの種類及び種類数、欠損させるデータの種類及び種類数等が、適用シーンに応じて予め設定されているものとする。
【0017】
また、予測システム150は、抽出した予測対象のデータに基づいてアクションが行われるよう、アクションを制御する制御装置に対して、予測対象のデータまたは予測対象のデータに応じたデータを出力する。
【0018】
なお、アクションを制御する制御装置とは、人とコンピュータとのインタラクションにおいて、実空間内でアクションを行うロボットを制御する制御装置、または、仮想空間内でアクションを行うアバタを制御する制御装置を指す。
【0019】
<インタラクション改善システムにおける処理の概要>
次に、インタラクション改善システム100に含まれる各システムの処理の概要について説明する。
図2は、インタラクション改善システムに含まれる各システムの処理の概要を示す図である。
【0020】
図2に示すように、人間同士のインタラクションは、全二重通信的である。具体的には、第2話者202のアクション212(第2話者202の動作(各部位の動き、表情の変化等を含む)、音声等)は、第1話者201のアクション211(第1話者201の動作(各部位の動き、表情の変化等を含む)、音声等)の影響を受ける。同様に、第1話者201のアクション211(第1話者201の動作(各部位の動き、表情の変化等を含む)、音声等)は、第2話者202のアクション212(第2話者202の動作(各部位の動き、表情の変化等を含む)、音声等)の影響を受ける。
【0021】
このため、上述したように、データ収集システム110では、人間同士のインタラクションにおいて取得が可能な、人のアクションを示す複数種類のデータを取得する。また、データ収集システム110では、取得した、人のアクションを示す複数種類のデータに対して、所定の処理を行ったうえで時系列に配列することで、アクションに関する複数種類のデータを生成する。
【0022】
図2に示すように、アクションに関する複数種類のデータには、第1話者201を撮影した画像データから抽出される特徴点情報(第1話者/画像特徴点情報)が含まれる。第1話者/画像特徴点情報とは、例えば、
・第1話者201の各時間における各部位の動きを特定する特徴点の位置、
・第1話者201の各時間における顔の表情を特定する特徴点の位置、
等を指す。
【0023】
また、
図2に示すように、アクションに関する複数種類のデータには、第1話者201に装着されたセンサが測定したセンサデータより抽出された特徴点情報(第1話者/センサ特徴点情報)が含まれる。第1話者/センサ特徴点情報とは、例えば、
・第1話者201の各時間における各部位の動きを特定する特徴点の位置、
等を指す。
【0024】
また、
図2に示すように、アクションに関する複数種類のデータには、第1話者201の音声を処理することで生成された音声情報(第1話者/音声情報)が含まれる。第1話者/音声情報とは、例えば、
・第1話者201の各時間における音声の音圧レベルに応じた値、
等を指す。
【0025】
同様に、
図2に示すように、アクションに関する複数種類のデータには、第2話者202を撮影した画像データから抽出される特徴点情報(第2話者/画像特徴点情報)が含まれる。第2話者/画像特徴点情報とは、例えば、
・第2話者202の各時間における各部位の動きを特定する特徴点の位置、
・第2話者202の各時間における顔の表情を特定する特徴点の位置、
等を指す。
【0026】
また、
図2に示すように、アクションに関する複数種類のデータには、第2話者202に装着されたセンサが測定したセンサデータより抽出された特徴点情報(第2話者/センサ特徴点情報)が含まれる。第2話者/センサ特徴点情報とは、例えば、
・第2話者202の各時間における各部位の動きを特定する特徴点の位置、
等を指す。
【0027】
また、
図2に示すように、アクションに関する複数種類のデータには、第2話者202の音声を処理することで生成された音声情報(第2話者/音声情報)が含まれる。第2話者/音声情報とは、例えば、
・第2話者202の各時間における音声の音圧レベルに応じた値、
等を指す。
【0028】
また、上述したように、学習システム130では、データ収集システム110により生成された、アクションに関する複数種類のデータのうち、所定の時間範囲のデータを学習用データとして取得する。また、学習システム130では、取得した学習用データのうち、
・アクションに関する複数種類のデータの一部をランダムに欠損させた欠損データを入力データとし、
・当該ランダムに欠損させたデータを正解データ、
とすることで、アクションに関する複数種類のデータの同時分布を学習し、全二重通信的なインタラクションを可能にする学習済み生成モデル140を生成する。
【0029】
また、上述したように、予測システム150は、学習システム130により生成された学習済み生成モデル140を用いて予測したデータの中から、予測対象のデータを抽出する。また、予測システム150は、抽出した予測対象のデータまたは抽出した予測対象のデータに応じたデータを制御装置に出力する。
【0030】
<予測対象のデータの具体例>
次に、予測対象のデータの具体例について説明する。上記学習済み生成モデル140を用いる場合、予測システム150では、様々なデータを予測対象のデータとすることができる。ここでは、予測対象のデータの具体例について説明する。
【0031】
(1)予測対象のデータの第1の具体例
図3Aは、予測対象のデータの第1の具体例を示す図である。
図3Aの例は、アクションに関する複数種類のデータのうち、
・第1主体301を撮影した画像データから抽出された、第1主体/画像特徴点情報と、
・第1主体301の音声を処理することで生成された、第1主体/音声情報と、
・第2主体302の音声を処理することで生成された、第2主体/音声情報と、
を入力データとし、
・第2主体302の動作を特定する第2主体/画像特徴点情報、
を"予測対象のデータ"とするケースを示している。つまり、"第2主体のアクションに関する複数種類のデータのうちの一部の種類のデータを欠損させて、予測するケース"を示している。
【0032】
なお、データ収集システム110がアクションに関する複数種類のデータを生成する際の、アクションの主体は人間に限られるため、
図2では、アクションの主体を、"第1話者"、"第2話者"と記載した。これに対して、予測システム150がアクションに関する複数種類のデータを生成する際の、アクションの主体は人間とは限らず、少なくとも一方は、ロボットや仮想空間内のアバタ等である。このため、
図3A~
図3D等の説明においては、アクションの主体を、"第1主体"、第2主体"と記載する。
【0033】
図3Aに示すケースは、例えば、
・第1主体301が、サービスを利用するユーザ、
・第2主体302が、サービスを提供する提供者または提供者のアバタ、
であって、ユーザ(第1主体301)からの音声による問い合わせに対して、提供者(第2主体302)が音声で回答する際に、ユーザに対して、提供者(第2主体302)の音声を出力し、提供者のアバタ(第2主体302)の顔を表示するシーン等に適用される。
【0034】
当該シーンにおいて、提供者(第2主体302)の音声は、ユーザ(第1主体301)の顔の表情及び音声の影響を受ける。更に、提供者のアバタ(第2主体302)の顔の表情は、ユーザ(第1主体301)の顔の表情及び音声、提供者(第2主体302)の音声の影響を受ける。
【0035】
そこで、
図3Aの例では、提供者のアバタ(第2主体302)の顔の表情を特定する「提供者のアバタ/画像特徴点情報」を"予測対象のデータ"とし、
・ユーザ(第1主体301)の顔の表情を撮影した画像データから抽出された、「ユーザ/画像特徴点情報」と、
・ユーザ(第1主体301)の音声を処理することで生成された、「ユーザ/音声情報」と、
・提供者(第2主体302)の音声を処理することで生成された、「提供者/音声情報」と、
を入力データとして学習済み生成モデル140に入力する。
【0036】
これにより、学習済み生成モデル140は、「提供者のアバタ/画像特徴点情報」を予測することが可能になる。また、制御装置は、当該「提供者のアバタ/画像特徴点情報」を用いて提供者のアバタ(第2主体302)の顔の表情を制御することが可能になる。この結果、提供者のアバタの顔の表情を、自然な表情にすることができる。
【0037】
(2)予測対象のデータの第2の具体例
図3Bは、予測対象のデータの第2の具体例を示す図である。
図3Bの例は、アクションに関する複数種類のデータのうち、
・第1主体301を撮影した画像データから抽出された、第1主体/画像特徴点情報と、
・第1主体301の音声を処理することで生成された、第1主体/音声情報と、
・第2主体302の動作を特定する第2主体/画像特徴点情報のうち、時間T
x、T
x+1での第2主体/画像特徴点情報と、
・第2主体302の音声を処理することで生成された、第2主体/音声情報と、
を入力データとし、
・第2主体302の動作を特定する第2主体/画像特徴点情報のうち、時間T
x-1までの第2主体/画像特徴点情報、
を"予測対象のデータ"とするケースを示している。つまり、"第2主体のアクションに関する複数種類のデータのうちの一部の種類の一部の時間範囲のデータを欠損させて、補間するケース"を示している。
【0038】
当該ケースは、上記(1)と同様のシーンに適用される。したがって、上記(1)と同様に、提供者(第2主体302)の音声は、ユーザ(第1主体301)の顔の表情及び音声の影響を受ける。更に、提供者のアバタ(第2主体302)の顔の表情は、ユーザ(第1主体301)の顔の表情及び音声、提供者(第2主体302)の音声の影響を受ける。
【0039】
一方で、当該ケースでは、提供者のアバタ(第2主体302)の時間Tx、Tx+1での顔の表情として、目標とする表情が定められている。このため、当該ケースでは、目標とする表情に違和感なく繋がるように、提供者のアバタ(第2主体302)の時間Tx-1までの特徴点情報である第2主体/画像特徴点情報を、適切に補間する必要がある。
【0040】
そこで、
図3Bの例では、提供者のアバタ(第2主体302)の顔の表情を特定する時間T
x-1までの「提供者のアバタ/画像特徴点情報」を"予測対象のデータ"とし、
・ユーザ(第1主体301)の顔の表情を撮影した画像データから抽出された、「ユーザ/画像特徴点情報」と、
・ユーザ(第1主体301)の音声を処理することで生成された、「ユーザ/音声情報」と、
・提供者のアバタ(第2主体302)の顔の表情を特定する「提供者のアバタ/画像特徴点情報」であって、時間T
x、T
x+1での「提供者のアバタ/画像特徴点情報」と、
・提供者(第2主体302)の音声を処理することで生成された、「提供者/音声情報」と、
を入力データとして学習済み生成モデル140に入力する。
【0041】
これにより、学習済み生成モデル140は、時間Tx-1までの「提供者のアバタ/画像特徴点情報」を予測することが可能になる。また、制御装置は、当該時間Tx-1までの「提供者のアバタ/画像特徴点情報」を用いて提供者のアバタ(第2主体302)の顔の表情を制御することが可能になる。この結果、提供者のアバタの顔の表情を、
・自然な表情にすることができる。
・目標とする表情に違和感なく繋げることができる。
【0042】
(3)予測対象のデータの第3の具体例
図3Cは、予測対象のデータの第3の具体例を示す図である。
図3Cの例は、アクションに関する複数種類のデータのうち、
・第1主体301を撮影した画像データから抽出された、第1主体/画像特徴点情報と、
・第1主体301の音声を処理することで生成された、第1主体/音声情報と、
・第2主体302の動作を特定する第2主体/画像特徴点情報であって、様々な動作を特定する様々な第2主体/画像特徴点情報と、
・第2主体302の音声を処理することで生成された、第2主体/音声情報と、
を入力データとし、
・第1主体301の未来の動作を特定する第1主体/画像特徴点情報と、
・第1主体301の未来の音声を処理することで生成される第1主体/音声情報と、
を"予測対象のデータ"として、第2主体/画像特徴点情報を最適化するケースを示している。つまり、"第1主体のアクションに関する複数種類の未来のデータのうちの一部の種類の未来のデータを欠損させて反応を予測しながら、第2主体のアクションに関する複数種類の現在のデータのうちの特定の種類の現在のデータを最適化するケース"を示している。
【0043】
当該ケースは、上記(1)と同様のシーンに適用される。当該シーンにおいて、提供者(第2主体302)の現在の音声及び提供者のアバタ(第2主体302)の現在の顔の表情は、ユーザ(第1主体301)の未来の顔の表情及び音声に影響を与える。一方で、ユーザ(第1主体301)の未来の顔の表情及び音声を、目標とする表情や目標とする音声にするには、提供者のアバタ(第2主体302)の現在の顔の表情を最適化する必要がある。
【0044】
具体的には、
・提供者のアバタ(第2主体302)の現在の様々な顔の表情を特定する様々な第2主体/画像特徴点情報を学習済み生成モデル140に順次入力し、
・ユーザ(第1主体301)の未来の顔の表情及び音声をそれぞれ予測し、
・予測した顔の表情及び音声が目標とする表情及び目標とする音声となる最適な第2主体/画像特徴点情報を探索する、
必要がある。
【0045】
そこで、
図3Cの例では、ユーザ(第1主体301)の未来の顔の表情を特定する「ユーザ/画像特徴点情報」と、ユーザ(第1主体301)の未来の音声を処理することで生成される「ユーザ/音声情報」とを"予測対象のデータ"とし、
・提供者(第2主体302)の現在の様々な顔の表情を特定する様々な「提供者のアバタ/画像特徴点情報」と、
・提供者(第2主体302)の現在の音声を処理することで生成された、「提供者/音声情報」と、
を入力データとして学習済み生成モデル140に入力する。
【0046】
これにより、学習済み生成モデル140は、様々な「ユーザ/画像特徴点情報」及び「ユーザ/音声情報」を予測することが可能になる。この結果、様々な「ユーザ/画像特徴点情報」及び「ユーザ/音声情報」により特定されるユーザ(第1主体301)の未来の様々な顔の表情及び音声の中から、目標とする表情及び音声となる「提供者のアバタ/画像特徴点情報」を探索することが可能になる。つまり、「提供者のアバタ/画像特徴点情報」を最適化することが可能になる。
【0047】
更に、制御装置は、最適化された「提供者のアバタ/画像特徴点情報」を用いて(つまり、予測対象のデータに応じたデータを用いて)、提供者のアバタ(第2主体302)の顔の表情を制御することが可能になる。
【0048】
つまり、本ケースによれば、上記シーンにおいて、ユーザ(第1主体301)の顔の表情及び音声を、目標とする表情及び目標とする音声に導くことができる。
【0049】
(4)予測対象のデータの第4の具体例
図3Dは、予測対象のデータの第4の具体例を示す図である。
図3Dの例は、アクションに関する複数種類のデータのうち、
・第2主体302の未来の様々な動作を特定する様々な第2主体/センサ特徴点情報、
を入力データとし、
・第1主体301の未来の動作を特定する第1主体/画像特徴点情報、
を"予測対象のデータ"とするケースを示している。つまり、"第1主体のアクションに関する複数種類の未来のデータのうちの一部の種類の未来のデータを欠損させて反応を予測しながら、第2主体のアクションに関する複数種類の未来のデータのうちの特定の種類の未来のデータを最適化するケース"を示している。
【0050】
図3Dに示すケースは、例えば、
・第1主体301が、対向して歩行する歩行者、
・第2主体302が、当該歩行者とすれ違うロボット、
であって、歩行者とロボットとが衝突することなくすれ違うように、ロボットのアクションを決定するシーン等に適用される。
【0051】
当該シーンでは、ロボット(第2主体302)の未来の各部位の動きが、歩行者(第1主体301)の未来の各部位の動きに影響を与える。一方で、歩行者(第1主体301)が避ける方向が、ロボット(第2主体302)が避ける方向と反対の方向となるように、ロボット(第2主体302)の未来の各部位の動きを最適化する必要がある。
【0052】
具体的には、
・ロボット(第2主体302)の未来の各部位の様々な動きを特定する様々な第2主体/センサ特徴点情報を学習済み生成モデル140に順次入力し、
・歩行者(第1主体301)の未来の各部位の動きをそれぞれ予測し、
・予測した各部位の動きが、目標とする各部位の動きとなる(つまり、ロボット(第2主体302)が避ける方向と反対の方向に避ける動きとなる)最適な第2主体/センサ特徴点情報を探索する、
必要がある。
【0053】
そこで、
図3Dの例では、歩行者(第1主体301)の未来の各部位の動きを特定する「歩行者/画像特徴点情報」を"予測対象のデータ"とし、
・ロボット(第2主体302)の未来の各部位の様々な動きを特定する様々な「ロボット/センサ特徴点情報」、
を入力データとして学習済み生成モデル140に入力する。
【0054】
これにより、学習済み生成モデル140は、様々な「歩行者/画像特徴点情報」を予測することが可能になる。この結果、様々な「歩行者/画像特徴点情報」により特定される、歩行者(第1主体301)の未来の各部位の様々な動きの中から、目標とする各部位の動きとなる「ロボット/センサ特徴点情報」を探索することが可能になる。つまり、「ロボット/センサ特徴点情報」を最適化することが可能になる。
【0055】
更に、制御装置は、最適された「ロボット/センサ特徴点情報」を用いて(つまり、予測対象のデータに応じたデータを用いて)、ロボット(第2主体302)の各部位の動きを制御することが可能になる。
【0056】
つまり、本ケースによれば、上記シーンにおいて、歩行者(第1主体301)の各部位の動きを、目標とする各部位の動きに導くことができ、ロボット(第2主体302)は、歩行者(第1主体301)との衝突を回避することができる。
【0057】
<各種システムのシステム構成>
次に、インタラクション改善システム100に含まれる各システム(データ収集システム110、学習システム130、予測システム150)のハードウェア構成について説明する。なお、インタラクション改善システムに含まれる各システムにおいて、
・データ収集システム110を構成する学習用データ収集装置(後述)、
・学習システム130、
・予測システム150、
は、互いに同様のハードウェア構成を有することから、ここでは、予測システム150のハードウェア構成について説明する。
【0058】
図4は、予測システムのハードウェア構成の一例を示す図である。
図4に示すように、予測システム150は、プロセッサ401、メモリ402、補助記憶装置403、I/F(Interface)装置404、通信装置405、ドライブ装置406を有する。なお、予測システム150に含まれる各ハードウェアは、バス407を介して相互に接続されている。
【0059】
プロセッサ401は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等の各種演算デバイスを有する。プロセッサ401は、各種プログラム(例えば、後述する予測プログラム等)をメモリ402上に読み出して実行する。
【0060】
メモリ402は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ401とメモリ402とは、いわゆるコンピュータを形成し、プロセッサ401が、メモリ402上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能部を実現する。
【0061】
補助記憶装置403は、各種プログラムや、各種プログラムがプロセッサ401によって実行される際に用いられる各種情報を格納する。例えば、後述する学習済みモデル格納部1280は、補助記憶装置403により実現される。
【0062】
I/F装置404は、外部装置410(例えば、操作装置、表示装置等)と接続する接続デバイスである。I/F装置404は、予測システム150に対する操作を、操作装置を介して受け付ける。また、I/F装置404は、予測システム150における処理の結果を出力し、表示装置を介して表示する。
【0063】
通信装置405は、ネットワーク420を介して外部装置430(例えば、情報処理装置、制御装置等)と通信するための通信デバイスである。
【0064】
ドライブ装置406は記録媒体440をセットするためのデバイスである。ここでいう記録媒体440には、CD-ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体440には、ROM、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
【0065】
なお、補助記憶装置403にインストールされる各種プログラムは、例えば、配布された記録媒体440がドライブ装置406にセットされ、該記録媒体440に記録された各種プログラムがドライブ装置406により読み出されることでインストールされる。あるいは、補助記憶装置403にインストールされる各種プログラムは、通信装置405を介してネットワーク420よりダウンロードされることで、インストールされてもよい。
【0066】
<データ収集システムのシステム構成>
次に、データ収集システム110のシステム構成について説明する。
図5は、データ収集システムのシステム構成の一例を示す図である。
【0067】
図5に示すように、データ収集システム110は、音声取得装置501、撮像装置502、センサデータ取得装置503、音声出力装置504を有する。また、データ収集システム110は、音声取得装置511、撮像装置512、センサデータ取得装置513、音声出力装置514を有する。更に、データ収集システム110は、学習用データ収集装置520を有する。
【0068】
なお、符号530は、データ収集システム110が、収集データを生成する様子を、模式的に表したものである。符号530に示すように、第1の実施形態において、データ収集システム110は、2人の話者が、互いに向き合って対話する際の、当該2人の話者のアクションを示す複数種類のデータに基づいて、アクションに関する複数種類のデータを生成する。
【0069】
音声取得装置501は、第1話者201の頭部に装着され、対話中の第1話者201の音声を取得し、音声データを学習用データ収集装置520に送信する。なお、対話中の第1話者201の音声は、第2話者202の音声出力装置514にも送信され、第2話者202に出力される。
【0070】
撮像装置502は、第1話者201の正面に配置され、対話中の第1話者201の動作を撮影し、画像データを学習用データ収集装置520に送信する。
【0071】
センサデータ取得装置503は、第1話者201の各部位に装着され、対話中の第1話者201の各部位の動きに伴って変化する各部位の位置を測定し、センサデータを学習用データ収集装置520に送信する。
【0072】
音声出力装置504は、第1話者201の頭部に装着され、第2話者202の音声を第1話者201に出力する。
【0073】
同様に、音声取得装置511は、第2話者202の頭部に装着され、対話中の第2話者202の音声を取得し、音声データを学習用データ収集装置520に送信する。なお、対話中の第2話者202の音声は、第1話者201の音声出力装置504にも送信され、第1話者201に出力される。
【0074】
撮像装置512は、第2話者202の正面に配置され、対話中の第2話者202の動作を撮影し、画像データを学習用データ収集装置520に送信する。
【0075】
センサデータ取得装置513は、第2話者202の各部位に装着され、対話中の第2話者202の各部位の動きに伴って変化する各部位の位置を測定し、センサデータを学習用データ収集装置520に送信する。
【0076】
音声出力装置514は、第2話者202の頭部に装着され、第1話者201の音声を第2話者202に出力する。
【0077】
学習用データ収集装置520には、学習用データ収集プログラムがインストールされており、当該プログラムが実行されることで、学習用データ収集装置520は、収集部521として機能する。
【0078】
収集部521は、音声取得装置501から送信された音声データを処理することで音声情報を生成し、収集データとして、学習用データ格納部522に格納する。同様に、収集部521は、音声取得装置511から送信された音声データを処理することで音声情報を生成し、収集データとして、学習用データ格納部522に格納する。
【0079】
収集部521は、撮像装置502から送信された画像データから、特徴点情報を抽出し、収集データとして、学習用データ格納部522に格納する。同様に、収集部521は、撮像装置512から送信された画像データから、特徴点情報を抽出し、収集データとして、学習用データ格納部522に格納する。
【0080】
収集部521は、センサデータ取得装置503から送信されたセンサデータから、特徴点情報を抽出し、収集データとして、学習用データ格納部522に格納する。同様に、収集部521は、センサデータ取得装置513から送信されたセンサデータから、特徴点情報を抽出し、収集データとして、学習用データ格納部522に格納する。
【0081】
<収集部の機能構成>
次に、学習用データ収集装置520の収集部521の詳細について説明する。
図6は、収集部の機能構成の一例を示す図である。
図6に示すように、収集部521は、第1話者用音声処理部601、第1話者用画像特徴点抽出部602、第1話者用センサ特徴点抽出部603を有する。また、収集部521は、第2話者用音声処理部611、第2話者用画像特徴点抽出部612、第2話者用センサ特徴点抽出部613を有する。
【0082】
第1話者用音声処理部601は、例えば、VAD(Voice Activity Detection)による処理を行う。具体的には、第1話者用音声処理部601は、第1話者201の音声データについて各時間における音圧レベルを検出し、所定の閾値以上の音圧レベルを1に変換し、所定の閾値未満の音圧レベルを0に変換する。これにより、第1話者用音声処理部601は、0または1の時系列データ(符号631)からなる音声情報を生成し、学習用データ格納部522に格納する。
【0083】
同様に、第2話者用音声処理部611は、例えば、VAD(Voice Activity Detection)による処理を行う。具体的には、第2話者用音声処理部611は、第2話者202の音声データについて各時間における音圧レベルを検出し、所定の閾値以上の音圧レベルを1に変換し、所定の閾値未満の音圧レベルを0に変換する。これにより、第2話者用音声処理部611は、0または1の時系列データ(符号641)からなる音声情報を生成し、学習用データ格納部522に格納する。
【0084】
第1話者用画像特徴点抽出部602は、第1話者201の各時間の画像データから、例えば、顔領域を抽出し、抽出した顔領域の画像データから、OpenFace等のアプリケーションを用いて、顔の表情を特定する特徴点を抽出する(符号632参照)。また、第1話者用画像特徴点抽出部602は、抽出した特徴点の位置を特徴点情報として、学習用データ格納部522に格納する。
【0085】
同様に、第2話者用画像特徴点抽出部612は、第2話者202の各時間の画像データから、例えば、顔領域を抽出し、抽出した顔領域の画像データから、OpenFace等のアプリケーションを用いて、表情を特定する特徴点を抽出する(符号642参照)。また、第2話者用画像特徴点抽出部612は、抽出した特徴点の位置を特徴点情報として、学習用データ格納部522に格納する。
【0086】
第1話者用センサ特徴点抽出部603は、第1話者201の各部位に装着されたセンサにより測定された各時間のセンサデータから、各部位の動きを特定する特徴点を抽出する(符号633参照)。また、第1話者用センサ特徴点抽出部603は、抽出した特徴点の位置を特徴点情報として、学習用データ格納部522に格納する。
【0087】
同様に、第2話者用センサ特徴点抽出部613は、第2話者202の各部位に装着されたセンサにより測定された各時間のセンサデータから、各部位の動きを特定する特徴点を抽出する(符号643参照)。また、第2話者用センサ特徴点抽出部613は、抽出した特徴点の位置を特徴点情報として、学習用データ格納部522に格納する。
【0088】
<収集データの一例>
次に、データ収集システム110により収集された収集データについて説明する。
図7は、収集データの一例を示す図である。
【0089】
図7に示すように、収集データ700には、情報の項目として"話者/データ種"が含まれる。"話者/データ種"には、収集されたデータが、第1話者201のアクションに関するデータか、第2話者202のアクションに関するデータかを示す情報と、収集されたデータの種類とが格納される。
【0090】
データ収集システム110の場合、
・第1話者用音声処理部601により生成された音声情報は、"第1話者/音声情報"の項目に、
・第1話者用画像特徴点抽出部602により抽出された特徴点情報は、"第1話者/画像特徴点情報"の項目に、
・第1話者用センサ特徴点抽出部603により抽出された特徴点情報は、"第1話者/センサ特徴点情報"の項目に、
それぞれ格納される。
【0091】
同様に、データ収集システム110の場合、
・第2話者用音声処理部611により生成された音声情報は、"第2話者/音声情報"の項目に、
・第2話者用画像特徴点抽出部612により生成された特徴点情報は、"第2話者/画像特徴点情報"の項目に、
・第2話者用センサ特徴点抽出部613により生成された特徴点情報は、"第2話者/センサ特徴点情報"の項目に、
それぞれ格納される。
【0092】
また、
図7に示すように、収集データ700には、情報の項目として"フレーム識別子"が含まれる。具体的には、"フレーム識別子"として、フレーム1、フレーム2、・・・フレームn、フレームn+1、・・・フレームn+mが含まれる。
【0093】
フレーム識別子は、撮像装置502及び撮像装置512により撮影された画像データの各フレームを識別するための識別子である。なお、撮像装置502と撮像装置512とは、各フレームの生成タイミングが同期しており、同じタイミングで生成されたフレームについては、同じフレーム識別子が付されているものとする。
【0094】
したがって、例えば、フレーム識別子="フレーム1"に対応づけて格納された画像特徴点情報1_1と、画像特徴点情報2_1とは、同じタイミングで生成されたフレームの画像データから抽出された特徴点情報である。
【0095】
なお、"フレーム1"に対応付けて格納されたセンサ特徴点情報1_1、センサ特徴点情報2_1も、"フレーム1"が生成されたタイミングで取得されたセンサデータに基づいて生成されたセンサ特徴点情報である。同様に、"フレーム1"に対応付けて格納された音声情報1_1、音声情報2_1も、"フレーム1"が生成されたタイミングで取得された音声データに基づいて生成された音声情報である。
【0096】
また、
図7に示すように、収集データ700において、フレーム識別子が"フレーム1"から"フレームn"の時間範囲に対応する収集データは、学習用データとして提供される。また、
図7に示すように、収集データ700において、フレーム識別子が"フレームn+1"から"フレームn+m"の時間範囲に対応する収集データは、検証用データとして提供される。
【0097】
<学習用データ収集処理の流れ>
次に、データ収集システム110による学習用データ収集処理の流れについて説明する。
図8は、データ収集システムによる学習用データ収集処理の流れを示すフローチャートの一例である。
【0098】
ステップS801において、撮像装置502、512は、撮影を開始し、撮影した画像データを学習用データ収集装置520に送信する。また、音声取得装置501、511は、音声データの取得を開始し、取得した音声データを学習用データ収集装置520に送信する。また、センサデータ取得装置503、513は、センサデータの取得を開始し、取得したセンサデータを学習用データ収集装置520に送信する。
【0099】
ステップS802において、第1話者201と第2話者202は、対話を開始する。
【0100】
ステップS803において、学習用データ収集装置520は、第1話者201と第2話者202との対話が開始されてから、所定時間が経過したか否かを判定する。ステップS803において所定時間が経過していないと判定した場合には(ステップS803においてNOの場合には)、所定時間が経過したと判定するまで待機する。
【0101】
一方、ステップS803において、所定時間が経過したと判定した場合には(ステップS803においてYESの場合には)、ステップS804に進む。
【0102】
ステップS804において、第1話者201と第2話者202は、対話を終了する。
【0103】
ステップS805において、撮像装置502、512は、撮影を終了する。また、音声取得装置501、511は、音声データの取得を終了する。更に、センサデータ取得装置503、513は、センサデータの取得を終了する。
【0104】
ステップS806において、学習用データ収集装置520は、第1話者201の画像データから画像特徴点情報を抽出する。また、学習用データ収集装置520は、第2話者202の画像データから画像特徴点情報を抽出する。
【0105】
ステップS807において、学習用データ収集装置520は、第1話者201のセンサデータからセンサ特徴点情報を抽出する。また、学習用データ収集装置520は、第2話者202のセンサデータからセンサ特徴点情報を抽出する。
【0106】
ステップS808において、学習用データ収集装置520は、第1話者201の音声データから音声情報を生成する。また、学習用データ収集装置520は、第2話者202の音声データから音声情報を生成する。
【0107】
ステップS809において、学習用データ収集装置520は、抽出または生成した画像特徴点情報、センサ特徴点情報、音声情報を、フレーム識別子に基づいて時系列に配列することで、収集データ(アクションに関する複数種類のデータ)を生成する。
【0108】
ステップS810において、学習用データ収集装置520は、生成した収集データを、学習用データと検証用データとに分類し、学習用データ格納部522に格納する。
【0109】
<学習システムの機能構成>
次に、学習システム130の機能構成について説明する。
図9は、学習システムの機能構成の一例を示す図である。学習システム130には、学習プログラムがインストールされており、当該プログラムが実行されることで、学習システム130は、学習用データ読み出し部910、マスク生成部920、学習部930、学習済み生成モデル出力部940として機能する。
【0110】
学習用データ読み出し部910は、学習用データ格納部522に格納された収集データから、学習用データ120を読み出し、マスク生成部920に通知する。
【0111】
マスク生成部920は、学習用データ120に含まれるアクションに関する複数種類のデータの一部をランダムにマスクすることで、アクションに関する複数種類のデータの一部を欠損させた欠損データを生成する。また、マスク生成部920は、生成した欠損データを入力データとして、学習部930に入力する。また、マスク生成部920は、欠損データを生成する際にマスクすることで欠損させたデータ(マスク対象データ)を正解データとして、学習部930に入力する。
【0112】
学習部930は、マスク生成部920により入力された入力データ及び正解データを用いることにより、人のアクションの同時分布を学習する生成モデルに対して学習を行い、学習済み生成モデル140を生成する。
【0113】
学習済み生成モデル出力部940は、学習部930により生成された学習済み生成モデル140を、予測システム150に格納する。
【0114】
なお、学習済み生成モデル出力部940が学習済み生成モデル140を予測システム150に格納するにあたっては、検証用データを用いて学習済み生成モデル140の予測精度の検証が行われるものとする。
【0115】
<学習部の機能構成の詳細>
次に、学習部930の機能構成の詳細について説明する。
図10は、学習部の機能構成の一例を示す図である。
図10に示すように、学習部930は、生成モデル1010と、マスク対象抽出部1020と、比較変更部1030とを有する。
【0116】
学習用データ120が通知されると、マスク生成部920は、学習用データ120に含まれるアクションに関する複数種類のデータの一部をランダムにマスクすることで、アクションに関する複数種類のデータの一部を欠損させた欠損データを生成する。
図10の例は、マスク生成部920が、学習用データ120のハッチング領域をマスクした様子を示している。
【0117】
マスク生成部920は、ハッチング領域のデータ(画像特徴点情報2_1~画像特徴点情報2_n)を除く学習用データ120である欠損データを、入力データとして、生成モデル1010に入力する。
【0118】
また、マスク生成部920は、ハッチング領域のデータ(画像特徴点情報2_1~画像特徴点情報2_n)であるマスク対象データを、正解データとして、比較変更部1030に入力する。
【0119】
生成モデル1010は、例えば、深層ニューラルネットワークなどにより構成されたモデルであって、マスクにより欠損された領域を復元するように学習が行われる生成モデルである。生成モデル1010は、欠損データが入力されることで、マスク対象データに対応するデータを含むデータを予測する。また、生成モデル1010は、予測したデータをマスク対象抽出部1020に出力する。
【0120】
マスク対象抽出部1020は、生成モデル1010により出力されたデータの中から、マスク生成部920によりマスクされたマスク対象データに対応するデータを抽出する。また、マスク対象抽出部1020は、抽出したデータを比較変更部1030に出力する。
【0121】
比較変更部1030は、マスク対象抽出部1020により出力されたデータが、マスク生成部920により正解データとして入力されたマスク対象データに近づくように、生成モデル1010のモデルパラメータを更新する。これにより、アクションに関する複数種類のデータの同時分布が学習され、学習済み生成モデル140が生成される。
【0122】
<学習システムによる学習処理の流れ>
次に、学習システム130による学習処理の流れについて説明する。
図11は、学習システムによる学習処理の流れを示すフローチャートの一例である。
【0123】
ステップS1101において、学習システム130は、学習用データ120を読み出す。
【0124】
ステップS1102において、学習システム130は、学習用データ120に含まれるアクションに関する複数種類のデータの一部をランダムにマスクすることで、欠損データとマスク対象データとを生成する。
【0125】
ステップS1103において、学習システム130は、欠損データを入力データ、マスク対象データを正解データとして、生成モデルの学習を行う。
【0126】
ステップS1104において、学習システム130は、学習により生成した学習済み生成モデルを、予測システム150に格納する。
【0127】
<予測システムの機能構成>
(1)
図3A、
図3Bのケースに対応する予測システムの機能構成
次に、予測システム150の機能構成について説明する。ここでは、
図3A、
図3Bのケースに対応する予測システム150の機能構成について説明する。
図12Aは、予測システムの機能構成の一例を示す第1の図である。上述したように、予測システム150には、予測プログラムがインストールされており、当該プログラムが実行されることで、予測システム150は、第1主体用音声データ取得部1201、第1主体用音声処理部1202として機能する。
【0128】
また、予測プログラムが実行されることで、予測システム150は、第1主体用画像データ取得部1211、第1主体用画像特徴点抽出部1212、第1主体用センサデータ取得部1221、第1主体用センサ特徴点抽出部1222として機能する。
【0129】
また、予測プログラムが実行されることで、予測システム150は、第2主体用音声データ取得部1231、第2主体用音声処理部1232として機能する。
【0130】
また、予測プログラムが実行されることで、予測システム150は、第2主体用画像データ取得部1241、第2主体用画像特徴点抽出部1242、第2主体用センサデータ取得部1251、第2主体用センサ特徴点抽出部1252として機能する。
【0131】
また、予測プログラムが実行されることで、予測システム150は、マスク生成部1261、予測部1262、予測対象出力部1264、設定部1270として機能する。
【0132】
第1主体用音声データ取得部1201は、予測システム150の外部から、第1主体の音声データを取得し、第1主体用音声処理部1202に入力する。第1主体用音声処理部1202の機能は、
図6に示した第1話者用音声処理部601と同じであるため、ここでは、説明を省略する。なお、第1主体用音声処理部1202により生成された音声情報は、マスク生成部1261に入力される。
【0133】
第1主体用画像データ取得部1211は、予測システム150の外部から、第1主体を撮影した画像データを取得し、第1主体用画像特徴点抽出部1212に入力する。第1主体用画像特徴点抽出部1212の機能は、
図6に示した第1話者用画像特徴点抽出部602と同じであるため、ここでは、説明を省略する。なお、第1主体用画像特徴点抽出部1212により抽出された画像特徴点情報は、マスク生成部1261に入力される。
【0134】
第1主体用センサデータ取得部1221は、予測システム150の外部から、第1主体に装着されたセンサにより測定されたセンサデータを取得し、第1主体用センサ特徴点抽出部1222に入力する。第1主体用センサ特徴点抽出部1222の機能は、
図6に示した第1話者用センサ特徴点抽出部603と同じであるため、ここでは、説明を省略する。なお、第1主体用センサ特徴点抽出部1222により抽出されたセンサ特徴点情報は、マスク生成部1261に入力される。
【0135】
第2主体用音声データ取得部1231は、予測システム150の外部から、第2主体の音声データを取得し、第2主体用音声処理部1232に入力する。第2主体用音声処理部1232の機能は、
図6に示した第2話者用音声処理部611と同じであるため、ここでは、説明を省略する。なお、第2主体用音声処理部1232により生成された音声情報は、マスク生成部1261に入力される。
【0136】
第2主体用画像データ取得部1241は、予測システム150の外部から、第2主体を撮影した画像データを取得し、第2主体用画像特徴点抽出部1242に入力する。第2主体用画像特徴点抽出部1242の機能は、
図6に示した第2話者用画像特徴点抽出部612と同じであるため、ここでは、説明を省略する。なお、第2主体用画像特徴点抽出部1242により抽出された画像特徴点情報は、マスク生成部1261に入力される。
【0137】
第2主体用センサデータ取得部1251は、予測システム150の外部から、第2主体に装着されたセンサにより測定されたセンサデータを取得し、第2主体用センサ特徴点抽出部1252に入力する。第2主体用センサ特徴点抽出部1252の機能は、
図6に示した第2話者用センサ特徴点抽出部613と同じであるため、ここでは、説明を省略する。なお、第2主体用センサ特徴点抽出部1252により抽出されたセンサ特徴点情報は、マスク生成部1261に入力される。
【0138】
マスク生成部1261は、アクションに関する複数種類のデータである、
・第1主体用音声処理部1202より入力された音声情報、
・第1主体用画像特徴点抽出部1212より入力された画像特徴点情報、
・第1主体用センサ特徴点抽出部1222より入力されたセンサ特徴点情報、
・第2主体用音声処理部1232より入力された音声情報、
・第2主体用画像特徴点抽出部1242より入力された画像特徴点情報、
・第2主体用センサ特徴点抽出部1252より入力されたセンサ特徴点情報、
のうち、設定部1270により設定された入力対象のデータを抽出する。入力対象のデータとは、アクションに関する複数種類のデータのうち、学習済み生成モデル140に入力されるデータである。なお、設定部1270は、予め、入力対象として、データの種類と種類数とを、マスク生成部1261に対して設定しているものとする。
【0139】
また、マスク生成部1261は、設定された入力対象に基づき抽出したアクションに関する複数種類のデータの一部を、設定部1270により設定されたマスク対象に基づいてマスクすることで欠損させる。これにより、マスク生成部1261は、アクションに関する複数種類のデータの一部を欠損させた欠損データを生成する。なお、設定部1270は、予めマスク対象として、データの種類と種類数とを、マスク生成部1261に対して設定しているものとする。
【0140】
予測部1262は、学習済みモデル格納部1280に格納された学習済み生成モデル140を読み出し、マスク生成部1261により生成された欠損データを入力する。また、予測部1262は、学習済み生成モデル140に欠損データを入力することで学習済み生成モデル140により予測されたデータを、予測対象出力部1264に出力する。
【0141】
予測対象出力部1264は、予測部1262により出力されたデータの中から、設定部1270により設定された予測対象のデータ(マスク対象のデータに対応するデータ)を抽出する。なお、設定部1270は、予め予測対象として、データの種類と種類数とを、予測対象出力部1264に対して設定しているものとする。
【0142】
また、予測対象出力部1264は、設定された予測対象のデータに基づいてアクションが行われるよう、アクションを制御する制御装置(不図示)に対して、抽出した予測対象のデータを出力する。
【0143】
設定部1270は、アクションに関する複数種類のデータに基づいて決定された予測対象を、予測対象出力部1264に設定する。また、設定部1270は、アクションに関する複数種類のデータに基づいて決定された、入力対象及びマスク対象を、マスク生成部1261に設定する。なお、設定部1270により提供される設定画面については、後述する。
【0144】
(2)
図3C、
図3Dのケースに対応する予測システムの機能構成
次に、
図3C、
図3Dのケースに対応する予測システム150の機能構成について説明する。
図12Bは、予測システムの機能構成の一例を示す第2の図である。
図12Aに示した機能構成との相違点は、
図12Bに示す機能構成の場合、最適化部1290を有する点である。
【0145】
最適化部1290は、予測対象出力部1264により抽出される予測対象のデータが、目標とするデータとなるように、第2主体のアクションに関する複数種類のデータのうちの特定の種類のデータを最適化する。
【0146】
最適化部1290は、設定部1270により設定される繰り返し回数分だけ、第2主体のアクションに関する複数種類のデータのうちの特定の種類の様々なデータを、学習済み生成モデル140に順次入力する。これにより、最適化部1290は、第2主体のアクションに関する複数種類のデータのうちの特定の種類のデータを最適化する。
【0147】
なお、この場合、制御装置に対しては、学習済み生成モデル140により予測され、予測対象出力部1264により抽出された予測対象のデータは出力されない。代わりに、制御装置1610に対しては、最適化された第2主体のアクションに関する複数種類のデータのうちの特定の種類のデータが出力される。つまり、予測対象出力部1264は、予測対象のデータに代えて、予測対象データに応じて最適化された第2主体のアクションに関する特定の種類のデータを、制御装置に対して出力する。
【0148】
<設定部により提供される設定画面の具体例>
次に、設定部1270により提供される設定画面の詳細について説明する。
図13は、設定画面の具体例を示す図である。
【0149】
図13に示すように、設定部1270により提供される設定画面1300には、パラメータ設定領域1310が含まれる。パラメータ設定領域1310には、設定すべきパラメータとして、"計算時間"、"自動作生成数"、"相手動作生成数"、"反復生成回数"、"パス生成長"、"生成結果無効期間"が含まれる。
【0150】
"自動作生成数"とは、予測対象(マスク対象)とするデータの種類数をマスク生成部1261及び予測対象出力部1264に設定するためのパラメータであり、第2主体のアクションに関する複数種類のデータに基づいて決定される。
【0151】
"相手動作生成数"とは、予測対象(マスク対象)とするデータの種類数をマスク生成部1261及び予測対象出力部1264設定するためのパラメータである。"相手動作生成数"は、第2主体のアクションに関する1つのデータに対して、第1主体のアクションに関する複数種類のデータのうちの何種類のデータを予測対象(マスク対象)とするかに基づいて決定される。なお、"相手動作生成数"は、第1主体のアクションに関する複数種類のデータが確定している場合には、設定が不要である。
【0152】
"反復生成回数"とは、繰り返し回数を最適化部1290に設定するためのパラメータである。ここでいう繰り返し回数とは、
・第2主体のアクションに関する複数種類のデータのうちの特定の種類の様々なデータを順次入力し、
・第1主体のアクションに関する複数種類のデータのうちの一部の種類のデータをそれぞれ予測する処理を繰り返し、
・第2主体のアクションに関する複数種類のデータのうちの特定の種類のデータを最適化する、
場合の繰り返し回数を指す。
【0153】
"パス生成長"とは、学習に用いた"アクションに関する複数種類のデータ"の時間長よりも長い時間長の"アクションに関する複数種類のデータ"について予測を行う場合に、予測対象のデータの時間長を予測部1262に設定するためのパラメータである。
【0154】
"生成結果無効期間"とは、センサ系、制御系の遅れに対処するために、予測したそれぞれのフレームの画像特徴点情報のうち、実際には制御装置によるアクションの制御に用いないフレームの数を予測対象出力部1264に設定するためのパラメータである。
【0155】
"計算時間"とは、処理を時間で打ち切る場合に最適化部1290に設定されるパラメータである。
【0156】
また、
図13に示すように、設定部1270により提供される設定画面1300には、モード選択領域1320が含まれる。モード選択領域1320には、"予測"モード、"補間"モード、"反応"モードが含まれる。
【0157】
"予測"モードは、第2主体のアクションに関する複数種類のデータのうちの一部の種類のデータを欠損させて、予測するケースにおいて選択される。例えば、"予測"モードは、
図3Aのケースにおいて選択される。"予測"モードが選択されることで、予測対象(マスク対象)とするデータの種類が設定可能になる。
【0158】
"補間"モードは、第2主体のアクションに関する複数種類のデータのうちの一部の種類の一部の時間範囲のデータを欠損させて、補間するケースにおいて選択される。例えば、"補間"モードは、
図3Bのケースにおいて選択される。"補間"モードが選択されることで、予測対象(マスク対象)とするデータの種類及び時間範囲が設定可能になる。
【0159】
"反応"モードは、第1主体のアクションに関する複数種類の未来のデータのうちの一部の種類の未来のデータを欠損させて反応を予測しながら、第2主体のアクションに関する複数種類のデータのうちの特定の種類のデータを最適化するケースにおいて選択される。例えば、"反応"モードは、
図3C、
図3Dのケースにおいて選択される。"反応"モードが選択されることで、予測対象(マスク対象)とするデータの種類、最適化されるデータの種類が設定可能になる。
【0160】
また、
図13に示すように、設定部1270により提供される設定画面1300には、生成動作プレビュー領域1330が含まれる。生成動作プレビュー領域1330には、第2主体のアクションに関する複数種類の未来のデータを表示する領域と、第1主体のアクションに関する複数種類の未来のデータを表示する領域とが含まれる。生成動作プレビュー領域1330には、生成動作プレビューボタン1340が押圧されることで、それぞれのデータが表示される。
【0161】
また、
図13に示すように、設定部1270により提供される設定画面1300には、評価基準領域1350が含まれる。評価基準領域1350には、指標として、"人らしさ"と"エントロピー"とが含まれる。
【0162】
"人らしさ"とは、特定の個人らしさを示す指標である。また、"エントロピー"とは、生成された第1主体のアクションに関する複数種類のデータのばらつきの大きさを示す指標である。例えば、対向して歩行する歩行者と、ロボットとがすれ違うシーンにおいて、右によける場合と左に避ける場合のいずれを選択するかを示す確率に、偏りがあるか否かを予測する指標である。
【0163】
<予測処理の流れ>
次に、予測システム150による予測処理の流れについて説明する。
図14は、予測システムによる予測処理の流れを示すフローチャートであるの一例である。
【0164】
ステップS1401において、予測システム150は、設定画面1300を介してパラメータの入力を受け付ける。
【0165】
ステップS1402において、予測システム150は、入力を受け付けたパラメータを設定する。
【0166】
ステップS1403において、予測システム150は、第1主体の音声データを取得し、音声情報を生成する。
【0167】
ステップS1404において、予測システム150は、第1主体の画像データを取得し、画像特徴点情報を抽出する。
【0168】
ステップS1405において、予測システム150は、第1主体のセンサデータを取得し、センサ特徴点情報を抽出する。
【0169】
ステップS1406において、予測システム150は、第2主体の音声データを取得し、音声情報を生成する。
【0170】
ステップS1407において、予測システム150は、第2主体の画像データを取得し、画像特徴点情報を抽出する。
【0171】
ステップS1408において、予測システム150は、第2主体のセンサデータを取得し、センサ特徴点情報を抽出する。
【0172】
ステップS1409において、予測システム150は、アクションに関する複数種類のデータの中から設定されたパラメータに応じたデータ(入力対象のデータ)を抽出する。また、予測システム150は、抽出したアクションに関する複数種類のデータの一部を、設定されたパラメータ(マスク対象)に基づいてマスクすることで欠損データを生成し、学習済み生成モデルに入力する。
【0173】
ステップS1410において、予測システム150は、学習済み生成モデルにより予測されたデータの中から、設定されたパラメータに応じたデータ(予測対象のデータ)を抽出し、制御装置に出力する。
【0174】
ステップS1411において、予測システム150は、予測処理を終了するか否かを判定する。ステップS1411において、予測処理を終了しないと判定した場合には(ステップS1411においてNOの場合には)、ステップS1403に戻る。
【0175】
一方、ステップS1411において、予測処理を終了すると判定した場合には(ステップS1411においてYESの場合には)、予測処理を終了する。
【0176】
<予測システムの適用例>
次に、予測システム150の具体的な適用例について説明する。
【0177】
(1)概要
はじめに、予測システム150の具体的な適用例について、概要を説明する。
図15は、予測システムの適用例の概要を示す図であり、予測システム150を対話システム1500に適用した場合の適用例の概要を示している。予測システム150が適用される対話システム1500は以下のとおりである。
・第1主体が、サービスを利用するユーザ1501である。
・第2主体が、サービスを提供する提供者1502及び提供者1502のアバタ1502'であって、ユーザ1501からの音声による問い合わせに、音声で回答する提供者1502及び提供者1502のアバタ1502'である。
・提供者1502のアバタ1502'の音声には、提供者1502自身の音声が用いられる。
・提供者1502のアバタ1502'の顔の表情は、ユーザ1501の顔の表情、ユーザ1501の音声、提供者1502の音声に基づいて制御される。
【0178】
このため、
図15に示すように、予測システム150は、マスク生成部1261が、ユーザ1501、提供者1502、提供者1502のアバタ1502'のアクションに関する複数種類のデータのうち、
・ユーザ1501を撮影した画像データから抽出された画像特徴点情報、
・ユーザ1501の音声を処理することで生成された音声情報、
・提供者1502のアバタ1502'の画像特徴点情報、
・提供者1502の音声を処理することで生成された音声情報、
を入力対象のデータとする。また、予測システム150は、マスク生成部1261が、更に、
・提供者1502のアバタ1502'の画像特徴点情報、
をマスク対象のデータとし、提供者1502のアバタ1502'の画像特徴点情報を欠損させた欠損データとして、
・ユーザ1501を撮影した画像データから抽出された画像特徴点情報と、
・ユーザ1501の音声を処理することで生成された音声情報と、
・提供者1502の音声を処理することで生成された音声情報と、
からなる欠損データを、学習済み生成モデル140に入力する。
【0179】
また、予測システム150は、学習済み生成モデル140が予測したデータの中から、提供者1502のアバタ1502'の画像特徴点情報を、予測対象のデータとして抽出する。これにより、予測システム150が適用される対話システムは、予測システム150により抽出された画像特徴点情報に基づいて、提供者1502のアバタ1502'の顔の表情を制御する。
【0180】
このように、予測システム150を対話システムに適用することで、提供者1502のアバタ1502'の顔の表情を、
・ユーザ1501の表情、
・ユーザ1501の音声、
・提供者1502の音声、
に応じた、自然な表情にすることができる。
【0181】
(2)詳細
次に、予測システム150を適用した対話システムの具体例について、詳細を説明する。
図16は、予測システムの適用例の詳細を示す第1の図である。なお、
図16の例では、予測システム150が有する機能部のうち、対話システム1500に適用するにあたって設定されたパラメータのもとで機能する機能部のみを示している。また、
図16の例では、パラメータ設定後の予測システムを、予測システム1600としている。
【0182】
図16に示すように、予測システム1600は、対話システム1500において、制御装置1610、情報処理装置1620、情報処理装置1630と接続される。
【0183】
また、予測システム1600は、第1主体用音声データ取得部1201、第1主体用音声処理部1202、第1主体用画像データ取得部1211、第1主体用画像特徴点抽出部1212を有する。また、予測システム1600は、第2主体用音声データ取得部1231、第2主体用音声処理部1232、予測部1262、予測対象出力部1264を有する。
【0184】
なお、予測システム1600が有するこれらの機能部は、
図12Aにおいて説明済みであるため、ここでは、対話システム1500に適用するにあたっての変更点のみを説明する。
【0185】
第1主体用音声データ取得部1201は、情報処理装置1620を介して、ユーザ1501の音声データを取得する。また、第1主体用音声データ取得部1201は、取得した音声データを、第1主体用音声処理部1202に通知するとともに、情報処理装置1630に通知する。これにより、提供者1502は、情報処理装置1630と接続されたヘッドフォンを介して、ユーザ1501の音声を聞くことができる。
【0186】
第1主体用画像データ取得部1211は、情報処理装置1620を介して、ユーザ1501を撮影した画像データを取得する。また、第1主体用画像データ取得部1211は、取得した画像データを、第1主体用画像特徴点抽出部1212に通知するとともに、情報処理装置1630に通知する。これにより、提供者1502は、情報処理装置1630の表示画面を介して、ユーザ1501の顔の表情を見ることができる。
【0187】
第2主体用音声データ取得部1231は、ユーザ1501の音声を聞き、ユーザ1501の顔の表情を見た提供者1502が、ユーザ1501の質問に回答するために発話した場合に、情報処理装置1630を介して、提供者1502の音声データを取得する。また、第2主体用音声データ取得部1231は、取得した音声データを、第2主体用音声処理部1232に通知するとともに、制御装置1610を介して情報処理装置1620に送信する。
【0188】
予測部1262は、ユーザ1501の音声情報と、ユーザ1501の画像特徴点情報と、提供者1502の音声情報とを、学習済み生成モデル140に入力することで、学習済み生成モデル140により予測されたデータを出力する。
【0189】
予測対象出力部1264は、予測部1262により予測されたデータの中から、提供者1502のアバタ1502'の画像特徴点情報を抽出する。また、予測対象出力部1264は、提供者1502のアバタ1502'の画像特徴点情報を、制御装置1610に出力する。
【0190】
制御装置1610は、提供者1502のアバタ1502'のアクションを制御する制御装置であり、
図16に示す適用例では、CGアバタ描画システム(例えば、Bi-layer model)により構成されている。なお、制御装置1610には、予め提供者1502のアバタ1502'の画像が設定されている。
【0191】
制御装置1610は、予測対象出力部1264から送信された、提供者1502のアバタ1502'の画像特徴点情報に基づいて、予め設定された提供者1502のアバタ1502'の画像を制御する。制御装置1610により制御された、提供者1502のアバタ1502'の画像は、情報処理装置1620に送信される。これにより、ユーザ1501は、情報処理装置1620を介して、提供者1502の音声を聞き、提供者1502のアバタ1502'の画像を見ることができる。
【0192】
このとき、ユーザ1501が見る提供者1502のアバタ1502'の画像の顔の表情は、ユーザ1501の顔の表情、ユーザ1501の音声、提供者1502の音声に基づいて生成されている。このため、ユーザ1501は、自然な表情のアバタ1502'と対話することができる。
【0193】
<予測システムの印象評価の検証>
次に、予測システム1600を対話システム1500に適用した場合の、予測システム1600の印象評価について検証する。
【0194】
(1)予測システムの印象評価の検証方法
はじめに、予測システム1600の印象評価についての検証方法について説明する。
図17は、予測システムの印象評価の検証方法の一例を示す図である。
図17の例は、予測システム1600のほかに、2通りのシステムを用いて対話システムを構築し、これら3通りの対話システムをそれぞれ利用したユーザ1501からアンケートをとることで、予測システム1600の印象評価について検証した様子を示している。
【0195】
図17において、符号1720(PROP条件)は、予測システム1600が適用される対話システム1500を再現して印象評価を検証したものである。具体的には、ユーザ1501の音声情報と、ユーザ1501の画像特徴点情報と、提供者1502の音声情報とを、学習済み生成モデル140に入力し、提供者1502のアバタ1502'の画像特徴点情報を出力する。そして、制御装置1610が、提供者1502のアバタ1502'の画像特徴点情報に基づいて、提供者1502のアバタ1502'の画像を制御し、情報処理装置1620に表示する。
【0196】
一方、
図17において、符号1710(REAL条件)は、提供者1502の顔画像に基づいて提供者1502のアバタ1502'の画像を制御するシステムである。具体的には、対話中の提供者1502を撮影した画像データから画像特徴点情報を抽出し、抽出した提供者1502の画像特徴点情報に基づいて、提供者1502のアバタ1502'の画像を制御し、情報処理装置1620に表示する。
【0197】
また、
図17において、符号1730(RAND条件)は、提供者1502のアバタ1502'の画像を、ランダムに生成した画像特徴点情報に基づいて制御するシステムである。具体的には、乱数ベクトルを生成システム1731に入力することで、提供者1502のアバタ1502'の画像特徴点情報を生成する。そして、制御装置1610が、提供者1502のアバタ1502'の画像特徴点情報に基づいて、提供者1502のアバタ1502'の画像を制御し、情報処理装置1620に表示する。
【0198】
なお、ユーザ1501に対するアンケートは、
"提供者のアバタの顔の動きは、実際の提供者の動きをトレースしたものだと思うか"
という質問に対して、"そう思う"から"そう思わない"までを5段階で回答する内容である。
【0199】
具体的には、実際の提供者1502の動きをトレースして、提供者1502のアバタ1502'の表情を制御したものを、情報処理装置1620に表示し、その表情に近いと思うかどうかを、5段階で回答するようにした。
【0200】
(2)予測システムの検証結果
続いて、上記検証方法により検証した予測システム1600の印象評価の検証結果について説明する。
図18は、予測システムの検証結果の一例を示す図である。
【0201】
このうち、
図18(a)は、アンケートの集計結果を示しており、符号1810は、
図17の符号1710のシステムを利用した場合の9人のユーザ1501による45回分の回答を集計したものである。また、符号1820は、
図17の符号1720の予測システム1600を利用した場合の9人のユーザ1501による45回分の回答を集計したものである。更に、符号1830は、
図17の符号1730のシステムを利用した場合の9人のユーザ1501による45回分の回答を集計したものである。
【0202】
また、
図18(b)は、アンケートの集計結果の割合を示しており、符号1811は、
図17の符号1710のシステムを利用した場合の9人のユーザ1501による45回分の集計結果の割合を示したものである。また、符号1821は、
図17の符号1720の予測システム1600を利用した場合の9人のユーザ1501による45回分の集計結果の割合を示したものである。更に、符号1831は、
図17の符号1730のシステムを利用した場合の9人のユーザ1501による45回分の集計結果の割合を示したものである。
【0203】
図18(a)、(b)に示すように、符号1720の予測システム1600の場合、符号1730のシステムと比較して、"5"または"4"と回答した数が多い結果となった。つまり、符号1720の予測システム1600の場合、符号1730のシステムと比較して、提供者1502のアバタ1502'が人間らしい傾聴(人間に近い自然なアクション)を行っているようにユーザ1501が感じているということが示唆された。
【0204】
<まとめ>
以上の説明から明らかなように、第1の実施形態に係る予測システム150は、
・複数の人のアクションの同時分布を学習することで生成された、学習済み生成モデルを格納する。
・アクションに関する複数種類のデータの一部を欠損させて、学習済み生成モデルに入力することで、欠損させたデータを含むデータを予測する。
・予測されたデータの中から予測対象のデータを抽出し、抽出した前記予測対象のデータに基づいてアクションが行われるよう、アクションを制御する制御装置に対して、予測対象のデータまたは予測対象のデータに応じたデータを出力する。
【0205】
このように、第1の実施形態では、アクションの同時分布を学習することで、全二重通信的なインタラクションを可能にする学習済み生成モデルを生成し、当該学習済み生成モデルを用いて予測したデータに基づいて、アクションを制御する構成とした。これにより、第1の実施形態によれば、より人間に近い自然なアクションを実現することが可能となる。
【0206】
つまり、第1の実施形態によれば、人とコンピュータとのインタラクションを改善することが可能になる。
【0207】
[第2の実施形態]
上記第1の実施形態では、予測システム150の適用例として、
図16に示す対話システム1500に適用する場合について説明した。しかしながら、予測システム150の適用例は、
図16に示す対話システム1500に限定されない。第2の実施形態では、予測システム150の適用例として、
図16に示す対話システム1500とは異なるシステムに適用する場合について説明する。
【0208】
(1)他の適用例1
図19は、予測システムの適用例の詳細を示す第2の図である。
図16に示した対話システム1500との相違点は、
図19に示す対話システム1500の場合、予測システム1900において、チャットボット1910が、提供者1502の代わりにユーザ1501の音声に応じて発話する点である。また、
図16に示した対話システム1500との相違点は、
図19に示す対話システム1500の場合、情報処理装置1630が接続されておらず、また、制御装置1610に、チャットボットのキャラクタ画像が設定される点である。
【0209】
(2)他の適用例2
図20は、予測システムの適用例の詳細を示す第3の図である。
図19に示した対話システム1500との相違点は、
図20に示す対話システム1500の場合、予測システム1900が、ロボット2020内において実現されている点である。また、
図19に示した対話システム1500との相違点は、
図20に示す対話システム1500の場合、制御装置2010が、ロボット2020のアクチュエータ及び音声出力装置を制御する点である。
【0210】
このように、予測システム150は、様々な適用例において適用されうる。
【0211】
[その他の実施形態]
上記各実施形態では、アクションの主体として、第1主体と第2主体とが含まれるものとして説明したが、主体の数は、2つに限定されない。例えば、第3主体、第4主体、・・・等、3つ以上の主体が含まれていてもよい。
【0212】
また、上記各実施形態では、インタラクション改善システムを複数のシステム(データ収集システム110、学習システム130、予測システム150)で実現するものとして説明したが、1つのシステムで実現してもよい。
【0213】
また、上記各実施形態では、インタラクション改善システムを構成するそれぞれのシステムを、一体の装置として実現するものとして説明したが、それぞれのシステムは、複数の別体の装置により実現されてもよい。
【0214】
また、上記各実施形態では、音声データの言語の種類について言及しなかったが、音声データの言語の種類は任意である。
【0215】
なお、上記各実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
【符号の説明】
【0216】
100 :インタラクション改善システム
110 :データ収集システム
130 :学習システム
150 :予測システム
501、511 :音声取得装置
502、512 :撮像装置
503、513 :センサデータ取得装置
504、514 :音声出力装置
520 :学習用データ収集装置
521 :収集部
601 :第1話者用音声処理部
611 :第2話者用音声処理部
602 :第1話者用画像特徴点抽出部
612 :第2話者用画像特徴点抽出部
603 :第1話者用センサ特徴点抽出部
613 :第2話者用センサ特徴点抽出部
910 :学習用データ読み出し部
920 :マスク生成部
930 :学習部
940 :学習済み生成モデル出力部
1201 :第1主体用音声データ取得部
1202 :第1主体用音声処理部
1211 :第1主体用画像データ取得部
1212 :第1主体用画像特徴点抽出部
1221 :第1主体用センサデータ取得部
1222 :第1主体用センサ特徴点抽出部
1231 :第2主体用音声データ取得部
1232 :第2主体用音声処理部
1241 :第2主体用画像データ取得部
1242 :第2主体用画像特徴点抽出部
1251 :第2主体用センサデータ取得部
1252 :第2主体用センサ特徴点抽出部
1261 :マスク生成部
1262 :予測部
140 :学習済み生成モデル
1264 :予測対象出力部
1270 :設定部
1290 :最適化部
1300 :設定画面
1500 :対話システム
1600 :予測システム
1610 :制御装置
1620、1630 :情報処理装置
1900 :予測システム
1910 :チャットボット
2010 :制御装置
2020 :ロボット