IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特開2024-119382感情取得装置、感情取得方法、およびプログラム
<>
  • 特開-感情取得装置、感情取得方法、およびプログラム 図1
  • 特開-感情取得装置、感情取得方法、およびプログラム 図2
  • 特開-感情取得装置、感情取得方法、およびプログラム 図3
  • 特開-感情取得装置、感情取得方法、およびプログラム 図4
  • 特開-感情取得装置、感情取得方法、およびプログラム 図5
  • 特開-感情取得装置、感情取得方法、およびプログラム 図6
  • 特開-感情取得装置、感情取得方法、およびプログラム 図7
  • 特開-感情取得装置、感情取得方法、およびプログラム 図8
  • 特開-感情取得装置、感情取得方法、およびプログラム 図9
  • 特開-感情取得装置、感情取得方法、およびプログラム 図10
  • 特開-感情取得装置、感情取得方法、およびプログラム 図11
  • 特開-感情取得装置、感情取得方法、およびプログラム 図12
  • 特開-感情取得装置、感情取得方法、およびプログラム 図13
  • 特開-感情取得装置、感情取得方法、およびプログラム 図14
  • 特開-感情取得装置、感情取得方法、およびプログラム 図15
  • 特開-感情取得装置、感情取得方法、およびプログラム 図16
  • 特開-感情取得装置、感情取得方法、およびプログラム 図17
  • 特開-感情取得装置、感情取得方法、およびプログラム 図18
  • 特開-感情取得装置、感情取得方法、およびプログラム 図19
  • 特開-感情取得装置、感情取得方法、およびプログラム 図20
  • 特開-感情取得装置、感情取得方法、およびプログラム 図21
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024119382
(43)【公開日】2024-09-03
(54)【発明の名称】感情取得装置、感情取得方法、およびプログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240827BHJP
   B25J 13/08 20060101ALI20240827BHJP
【FI】
G06N20/00
B25J13/08 A
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023026244
(22)【出願日】2023-02-22
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】ゴメス ランディ
【テーマコード(参考)】
3C707
【Fターム(参考)】
3C707AS34
3C707KT02
3C707KT04
3C707LW12
3C707LW15
3C707WL05
3C707WL16
(57)【要約】
【課題】人の正確な感情を取得することができる感情取得装置、感情取得方法、およびプログラムを提供することを目的とする。
【解決手段】感情取得装置は、人間の表情を取得する撮影部と、撮影部によって取得した人間の表情を人間の感情を表す連続的な値に変換する変換部と、変換部によって変換された連続的な値をマッピングし、対象人物の感情を推定する感情推定部と、を備える。
【選択図】図12
【特許請求の範囲】
【請求項1】
人間の表情を取得する撮影部と、
前記撮影部によって取得された前記人間の表情を、前記人間の感情を表す連続的な値に変換する変換部と、
前記変換部によって変換された連続的な値をマッピングし、対象人物の感情を推定する感情推定部と、
を備える感情取得装置。
【請求項2】
前記感情推定部は、Russellの感情円環モデルを用いて連続的な値をマッピングし、対象人物の感情を推定する、
請求項1に記載の感情取得装置。
【請求項3】
前記変換部は。前記取得した人間の表情の画像からCNNネットワークを用いて、連続的な値である前記画像の特徴量を抽出する、
請求項1または請求項2に記載の感情取得装置。
【請求項4】
前記感情推定部は、前記変換部が変換した前記人間の感情を表す連続的な値をRNNネットワークに入力して、前記対象人物の表情がポジティブであるかネガティブであるかに応じた報酬を求める、
請求項3に記載の感情取得装置。
【請求項5】
前記感情推定部は、前記人間の感情を取得する毎に次式を用いて、Q-learningにおけるQ値を更新し、
【数1】
上式において、sとaはそれぞれ時間ステップtにおけるロボットが検出した情動状態と選択した情動行動であり、αは学習率であり、Rは報酬であり予測された暗黙のフィードバック、s’は次の状態である、
請求項1または請求項2に記載の感情取得装置。
【請求項6】
前記報酬Rは、次式で算出され、
【数2】
Vは推定された価値(Valence)であり、Aは推定された覚醒度(Arousal)の値である、
請求項5に記載の感情取得装置。
【請求項7】
撮影部が、人間の表情を取得し、
変換部が、前記撮影部によって取得された前記人間の表情を、前記人間の感情を表す連続的な値に変換し、
感情推定部が、前記変換部によって変換された連続的な値をマッピングし、対象人物の感情を推定する、
感情取得方法。
【請求項8】
感情取得装置のコンピュータに、
人間の表情を取得させ、
前記取得された前記人間の表情を、前記人間の感情を表す連続的な値に変換させ、
前記変換された連続的な値をマッピングし、対象人物の感情を推定させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、感情取得装置、感情取得方法、およびプログラムに関する。
【背景技術】
【0002】
近年、人とコミュニケーションできるロボットの開発が進められている。このようなロボットでは、感情的な行動を学習することが求められている(例えば特許文献1参照)。従来技術では、例えば、人が実演したり(例えば非特許文献1参照)、キーボードのボタンやマウスのクリックによる明示的なフィードバックを用いて感情的な行動を学習することが提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2022-29599号公報
【非特許文献】
【0004】
【非特許文献1】M. E. Taylor, H. B. Suay, and S. Chernova, “Integrating reinforcement learning with human demonstrations of varying ability,” in Proceedingsof the 10th International Conference on Autonomous Agents and Multiagent Systems (AAMAS), pp. 617-624, Citeseer, 2011.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、人の正確な感情を取得することが困難であった。
【0006】
本発明は、上記の問題点に鑑みてなされたものであって、人の正確な感情を取得することができる感情取得装置、感情取得方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
(1)上記目的を達成するため、本発明の一態様に係る感情取得装置は、人間の表情を取得する撮影部と、前記撮影部によって取得された前記人間の表情を、前記人間の感情を表す連続的な値に変換する変換部と、前記変換部によって変換された連続的な値をマッピングし、対象人物の感情を推定する感情推定部と、を備える感情取得装置である。
【0008】
(2)上記(1)の感情取得装置において、前記感情推定部は、Russellの感情円環モデルを用いて連続的な値をマッピングし、対象人物の感情を推定するようにしてもよい。
【0009】
(3)上記(1)または(2)の感情取得装置において、前記変換部は。前記取得した人間の表情の画像からCNNネットワークを用いて、連続的な値である前記画像の特徴量を抽出するようにしてもよい。
【0010】
(4)上記(3)の感情取得装置において、前記感情推定部は、前記変換部が変換した前記人間の感情を表す連続的な値をRNNネットワークに入力して、前記対象人物の表情がポジティブであるかネガティブであるかに応じた報酬を求めるようにしてもよい。
【0011】
(5)上記(1)から(4)のうちのいずれか1つの感情取得装置において、前記感情推定部は、前記人間の感情を取得する毎に次式を用いて、Q-learningにおけるQ値を更新し、
【数1】
上式において、sとaはそれぞれ時間ステップtにおけるロボットが検出した情動状態と選択した情動行動であり、αは学習率であり、Rは報酬であり予測された暗黙のフィードバック、s’は次の状態であるようにしてもよい。
【0012】
(6)上記(5)の感情取得装置において、報酬Rは、次式で算出され、
【数2】
Vは推定された価値(Valence)であり、Aは推定された覚醒度(Arousal)の値であるようにしてもよい。
【0013】
(7)上記目的を達成するため、本発明の一態様に係る感情取得方法は、撮影部が、人間の表情を取得し、変換部が、前記撮影部によって取得された前記人間の表情を、前記人間の感情を表す連続的な値に変換し、感情推定部が、前記変換部によって変換された連続的な値をマッピングし、対象人物の感情を推定する、感情取得方法である。
【0014】
(8)上記目的を達成するため、本発明の一態様に係るプログラムは、感情取得装置のコンピュータに、人間の表情を取得させ、前記取得された前記人間の表情を、前記人間の感情を表す連続的な値に変換させ、前記変換された連続的な値をマッピングし、対象人物の感情を推定させる、プログラムである。
【発明の効果】
【0015】
(1)~(8)によれば、人の正確な感情を取得することができる。
【図面の簡単な説明】
【0016】
図1】第1実施形態に係る人間の表情から予測される暗黙のフィードバックによるロボットの学習過程を示す図である。
図2】実施形態に係るロボットの外形例を示す図である。
図3】実施形態に係るロボットの感情表現をアニメーションで提示する例を示す図である。
図4】第1実施形態に係る人間の反応的である表情による暗黙の評価フィードバックを予測するためのCNN-RNNモデルの構造の概要を示す図である。
図5】第1実施形態に係る感情取得装置を備えるロボットの構成例を示す図である。
図6】2つの評価条件における人間の感情状態と、それに対応するロボットが選択・実行可能な感情アクションの概要を示す図である。
図7】ジェスチャー表現と表情表現の例を示す図である。
図8】予測された暗黙の顔フィードバックからの学習曲線と、明示的およびランダムなフィードバックからの学習による学習曲線を示す図である。
図9】学習過程における、顔表現による人間の感情状態ごとの正規化された学習曲線を示す図である。
図10】学習過程における、ジェスチャー表現による人間の感情状態ごとの正規化された学習曲線を示す図である。
図11】Russellの感情円環モデルを示す図である。
図12】第2実施形態に係る感情取得装置を備えるロボットの構成例を示す図である。
図13】第2実施形態に係るロボットが行う学習時に処理手順例を示すである。
図14】インタラクションが40回のヒートマップと、インタラクションが80回のヒートマップである。
図15】インタラクションが120回のヒートマップと、インタラクションが160回のヒートマップである。
図16】第2実施形態に係る暗黙フィードバックモジュールの構成例を示す図である。
図17】トレーニング、検証データセット、テストデータセットにおいて、異なる数の潜在成分を保持した場合の暗黙のフィードバック予測の平均二乗誤差と共振相関係数を示す図である。
図18】明示的フィードバック、予測された暗黙的フィードバックおよびランダムフィードバックからの学習について最適な行動をとった感情状態の平均数とWelchのt検定の結果を示す図である。
図19】予測された暗黙のフィードバックから、表情とジェスチャーの情動状態をそれぞれ学習した学習曲線を示す図である。
図20】顔とジェスチャーの感情状態をそれぞれ用いた2つの条件における訓練過程でのポジティブおよびネガティブな暗黙のフィードバックの割合を示す図である。
図21】各条件の平均評価と標準偏差、平均絶対誤差、および波瑠の学習成績とのピアソン相関を示す図である。
【発明を実施するための形態】
【0017】
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「XXに基づいて」とは、「少なくともXXに基づく」ことを意味し、XXに加えて別の要素に基づく場合も含む。また、「XXに基づいて」とは、XXを直接に用いる場合に限定されず、XXに対して演算や加工が行われたものに基づく場合も含む。「XX」は、任意の要素(例えば、任意の情報)である。
【0018】
<第1実施形態>
まず、本実施形態における学習過程の概要を説明する。
図1は、本実施形態に係る人間の表情から予測される暗黙のフィードバックによるロボットの学習過程を示す図である。
本実施形態では、例えばロボット1が人の現在の感情状態を理解し、学習したポリシーに従って感情行動を選択し、ユーザに提示する。ロボット1は、例えばコミュニケーションロボットである。後述するように、ロボット1は、撮影装置、マイクロホン等を備えている。また、取得される環境には、撮影装置等の環境センサが備えられている。人は、ロボット1が提示した行動に対して、表情、ジャスチャート、声等で反応する。
そして、ロボット1は、ロボット1が提示した感情行動に対して人が行動した反応である表情情報を取得し、取得した表情情報を報酬に用いて更新していく。
【0019】
なお、ロボット1の学習では、リアルタイムに学習を行い、すなわち人との継続的なインタラクションから学習する。また、ロボット1の学習では、人がキーボード等を用いた従来のようなフィードバックを行う必要が無く、すなわち表情等の人の自然な反応を学習に用いる。
【0020】
(コミュニケーションロボットの外形例)
次に、ロボット1の外形例を説明する。
図2は、実施形態に係るロボットの外形例を示す図である。図2において、正面図g101、側面図g102は、実施形態に係るロボット1の外形例を示す図である。ロボット1は、例えば、3つの表示部111(目表示部111a、目表示部111b、口表示部111c)を備えている。また、図2の例では、撮影部102aは目表示部111aの上部に取り付けられ、撮影部102bは目表示部111bの上部に取り付けられている。目表示部111a、111bは、人の目に相当し、人の目に相当する画像や画像情報を提示する。目表示部111a、目表示部111bの画面の大きさは、例えば3インチである。スピーカー112は、筐体120の人の口に相当する画像を表示する口表示部111cの近傍に取り付けられている。口表示部111cは、例えば複数のLED(発光ダイオード)で構成され、各LEDはアドレス指定可能であり、個別に点灯消灯駆動できる。収音部103は、筐体120に取り付けられている。
【0021】
また、ロボット1は、ブーム121を備える。ブーム121は、筐体120に可動部131を介して可動可能に取り付けられている。ブーム121には、水平バー122が可動部132を介して回転可能に取り付けられている。
水平バー122には、目表示部111aが可動部133を介して回転可能に取り付けられ、目表示部111bが可動部134を介して回転可能に取り付けられている。なお、図2に示したロボット1の外形は一例であり、これに限らない。
【0022】
図3は、実施形態に係るロボットの感情表現をアニメーションで提示する例を示す図である。図3のように、ロボット1は、表示部111(目表示部111a、目表示部111b、口表示部111c)に表示させるアニメーションを変化させて、感情表現を提示する。
符号g11~g17それぞれのアニメーション例は、「怒り」(Angry)、「ご機嫌(有頂天)」(Ecstatic)、「無関心、軽蔑」(Disinterested)、「混乱している」(Confused)、「はにかんでいる」(Blushing)、「悲しい」(Sad)、「同情的な」(Sympathetic)である。
なお、図3に示した感情表現やアニメーションは一例であり、これに限らない。感情表現は図3以外にあってもよく、各感情表現のアニメーションは図3と異なっていてもよい。また、各感情表現の際、図3のように表示部111の角度や位置を変化させたり、ブーム121の角度を変えたり、音声信号を一緒に出力するようにしてもよい。
【0023】
(定義)
次に、本実施形態で用いる状態、行動、報酬等について定義する。
ほとんど全ての強化学習問題は、<S,A,T,R,γ>というタプル(tuple)によって表されるマルコフ決定過程としてモデル化できる。SとAは、エージェントの可能な状態と行動の集合である。Tは、遷移確率であり、エージェントが現在の状態sから次の状態s’へと遷移する確率である。Rは、報酬関数であり、エージェントが行動aを実行し、状態sからs’に遷移する際の報酬確率を表す。γは、割引係数であり、即時の報酬と将来の報酬の影響を表す。エージェントの行動は、ポリシーπ(s)で表される。S→Aは、状態を可能な行動に対応づける。強化学習エージェントの目標は、環境から受け取る総報酬を最大化する行動方針を学習することである。
【0024】
本実施形態では、強化学習アルゴリズムに、例えばQ-learningを使用する。ロボット1は、利用者の現在の感情状態(顔の感情やジェスチャー)を取得し、貪欲法(the greedy strategy)によりQ値が最も大きい行動を選択する。次に、ロボット1が選択した行動を実行した後、利用者は自分の好みに応じてフィードバックRを与える。ロボット1が選択した行動が望ましいものであれば、利用者は表情でポジティブな反応を示し、選択した行動のQ値が上昇する。ロボット1は、同じあるいは似たような人間の感情状態が検出されると、再びその行動を選択する可能性が高くなる。一方、ロボット1が選択した行動が望ましくないものであった場合、利用者は否定的なフィードバックを行い、選択した行動のQ値が減少する。ロボット1は、次回も同じような人間の感情状態が検出されれば、他の行動を試す可能性が高くなる。
【0025】
ロボット1は、人間からのフィードバックを受けるたびに、次式(1)を用いてQ値を更新する。
【0026】
【数3】
【0027】
式(1)において、sとaはそれぞれ時間ステップtにおけるロボット1が検出した情動状態と選択した情動行動、αは学習率、Rは予測された暗黙のフィードバック、s’は次の状態である。
次の時間ステップt+1において、ロボット1は、新しい人間の情動状態を検出すると、次式(2)のようにQ値が最も大きい情動ルーチン行動を行うことになる。
【0028】
【数4】
【0029】
式(2)において、Aはロボット1が実行可能な感情行動の集合であり、st+1は検出された次の感情状態である。このサイクルは、ロボット1が検出された全ての人間の感情状態に対して望ましい最適な行動を学習するまで繰り返される。
【0030】
(報酬の比較)
次に、報酬の比較を行う。従来技術では、事前に学習させた分類モジュールを用いて表情を分類するものもあるが、多くの場合、特定のカテゴリーに属さない表情も多く、人によって理解の異なる表情(例えば、怒りと嫌悪感)もある。
【0031】
(暗黙のフィードバック予測)
ロボット1が行動を起こすと、それに応じて利用者の表情が変化し、ロボット1の情動行動に対する利用者の満足度が示される。本実施形態では、この利用者の表情の情報を暗黙のフィードバックとして抽出し、利用者の好みに応じたロボット1の行動を学習させることができる。なお、この場合、専門家でない利用者が事前に複雑な学習ルールを学ぶ必要はない。
【0032】
ロボット1は、自然なインタラクションにより、利用者の好みに応じた感情的な振る舞いを学習することができる。本実施形態において、撮影された生の表情画像は、エンドツーエンドで人間の評価フィードバックに直接マッピングされ、利用者の好みに応じてロボット1の情動行動を形成するために使用する。本実施形態では、暗黙のフィードバックの予測に、例えばCNN(Convolutional Neural Network)-RNN(Recurrent Neural Network)を用いて、表情画像から感情を推定する。
【0033】
以下の例では、このモデルを、データ拡張後の15710枚の画像を持つGENKI-4k感情データセット(http://mplab.ucsd.edu,“The MPLab GENKI Database,GENKI-4K Subset”)を用いて学習・評価した。
データセットに含まれる全ての表情は、2つのカテゴリーに分けられる。
例えば、「笑顔」と「笑顔でない」の2つであえる。すべての「幸せ」な感情は、「笑顔」のグループに含まれ、「怒り」、「軽蔑」、「悲しみ」などの「不幸せ」な感情は「笑顔でない」グループに分類される。
【0034】
次に、モデルの構造の概要を説明する。図4は、本実施形態に係る人間の反応的である表情による暗黙の評価フィードバックを予測するためのCNN-RNNモデルの構造の概要を示す図である。
予測では、まず感情画像g31を前処理(g32)し(例えば切り出しや回転など)、設計されたCNNネットワーク(g33)に転送して、画像特徴を抽出する。そして、RNNネットワーク(g34)によって、抽出された特徴に従って対応する報酬を予測する。
なお、モデルを学習する場合、「笑顔」と「笑顔でない」グループの感情は、図5のようにそれぞれ「ポジティブ」「ネガティブ」なフィードバックとしてラベル付けされる。なお、トレーニングセットとテストセットの比率は、例えば4:1である。また、最終的な予測精度は80%であった。
【0035】
CNNネットワーク(g33)は、例えば、第1層のフィルタの次元が92×92×16と88×88×32の畳み込み層であり、第2層のフィルタの次元が40×40×64の畳み込み層であり、第3層のフィルタの次元が16×16×128の畳み込み層である。第4層の入力が2048の全結合であり、第5層の入力が300の全結合である。なお、上述した次元や入力数は一例であり、これに限らない。
【0036】
RNNネットワーク(g34)は、例えば、8ビット(256)の特徴マップ(feature map)、4ビット(128)の隠れ層(hidden layer)、1ビット(2)の出力層(output layer)である。なお、層の構成やビット数は一例であり、これに限らない。
このCNN-RNNモデルの出力は、報酬であり、ポジティブの報酬が例えば“+1”であり、ネガティブの報酬が例えば“-1”である。
感情取得装置11は、このようなCNN-RNNの部分の出力に基づいて、人の表情を推定する。例えば、感情取得装置11は、怒っていると推定してポジティブな出力が選れば推定が正しいと見なし、怒っていると推定してネガティブな出力が選れば推定が誤っていると見なすようにしてもよい。または、感情取得装置11は、第2実施形態で説明するように、Step3(図13)でQ値が最大となる行動を選択して評価して、繰り返すことで最適な行動を感情認識モジュールに学習させ、その後、学習済みの感情認識モジュールを用いて感情の推定と行動の選択を行うようにしてもよい。
【0037】
(ロボット、感情取得装置の構成例)
次に、感情取得装置を備えるロボット1の構成例を説明する。図5は、本実施形態に係る感情取得装置を備えるロボットの構成例を示す図である。
図5のように、ロボット1は、例えば、感情取得装置11と、収音部103と、生成部13と、表示部111と、スピーカー112と、制御部14と、駆動部15と、記憶部16を備える。
感情取得装置11は、例えば、撮影部102と、取得部22と、前処理部23と、モデル24と、行動選択部27を備える。なお、収音部103は、感情取得装置11が備えていてもよい。
【0038】
収音部103は、例えば、M個(Mは2以上の整数)のマイクロホンを備えるマイクロホンアレイである。
【0039】
表示部111は、図2を用いて説明したように、目表示部111a、目表示部111b、および口表示部111cを備える。表示部111は、生成部13が生成した画像またはアニメーションを表示する。
【0040】
スピーカー112は、生成部13が生成した音響信号を出力する。
【0041】
制御部14は、ロボット1の各部を、駆動部15を介して駆動する。
【0042】
駆動部15は、例えば、アクチュエータ、駆動回路を備える。駆動部15は、制御部14の制御に応じて、ロボット1の各部を駆動する。
【0043】
記憶部16は、例えば、感情取得装置11が用いる数式、閾値、プログラム、ロボット1の制御に用いられるプログラム等を記憶する。
【0044】
撮影部102は、ロボット1に取り付けられていてもよく、ロボット1と利用者がいる環境に接地されていてもよい。撮影部102は、例えば、RBGカメラ、または深度情報も得られるRGBDカメラ等である。なお、撮影部102が撮影する画像情報は、利用者の顔を含む画像である。なお、画像は、静止画、連続する静止画、あるいは動画のうちのいずれか1つであればよい。
【0045】
取得部22は、撮影部102が撮影した画像情報を取得する。取得部22は、収音部103が収音したMチャンネルの音響信号を取得する。
【0046】
前処理部23は、取得部22が取得した画像情報に対して所定の前処理を行う。前処理は、例えば、画像の切り出し、画像の回転、画像の輝度やコントラストの補正等である。
【0047】
モデル24は、例えば、ジェスチャー認識モジュール241と、表情認識モジュール242を備える。ジェスチャー認識モジュール241は、撮影部102が備える深度センサで追跡した利用者の関節位置を用い、学習済みのCNNネットワークを用いて関節特徴を分類する。表情認識モジュール242は、上述したCNN-RNNモデルである。表情認識モジュール242は、前処理された画像を、学習済みのCNNネットワークに入力して特徴量を抽出する。表情認識モジュール242は、抽出した特徴量を、学習済みのRNNネットワークに入力して利用者の表情がポジティブであるかネガティブであるかを推定する。
【0048】
行動選択部27は、感情取得装置11が推定したQ値を上述した式(1)を用いて更新する。行動選択部27は、更新したQ値と上述した式(2)を用いて、利用者の表情に対する行動を選択する。
【0049】
生成部13は、選択された行動に応じて、表示部111に表示させるアニメーションや画像を生成する。なお、記憶部16は、選択される行動と生成するアニメーションとが関連付けて記憶している。また、生成部13は、感情取得装置11が推定した推定結果に基づいて、スピーカー112から出力させる音響信号を生成するようにしてもよい。なお、ロボット1の提示する表情のアニメーションと、ロボット1の行う動作例については後述する。
【0050】
ここで、モデル24の学習方法例と、学習済みモデル24を用いた行動の選択性を説明する。
学習時、モデル24には、前処理部23から前処理された画像情報が入力される。モデル24の表情認識モジュール242は、入力された画像情報からCNNネットワークを用いて特徴量を抽出し、抽出した特徴量をRNNネットワークに入力して、ロボット1が行った行動に対する報酬(ネガティブな表情であったか、ポジティブな表情であったか)を求める。表情認識モジュール242は、求めた報酬と式(1)を用いてQ値を更新する。さらに、モデル24は、Q値が最大となる行動を選択することで、学習時の次回で提示する行動を選択する。このような処理を繰り返すことで、感情取得装置11は、モデル24の学習を行う。
行動選択時、感情取得装置11は、例えば利用者の発話内容を音声認識した結果に基づき、予め定められている提示行動を提示する。感情取得装置11は、提示した行動に対する利用者の表情画像を取得し、学習済みのモデル24を用いて利用者の暗黙のフィードバックがポジティブであったかネガティブであったかを示す報酬を求め、求めた報酬を用いて次に提示する行動を選択する。
【0051】
(評価、評価結果)
次に、本実施形態の手法を評価した結果を説明する。
なお、ロボット1が人間とのインタラクション(対話)を通じて、簡単な共感・情動行動を学習し、利用者の嗜好に適応できているか否かを評価するために、2つの評価条件を設定した。それぞれの評価条件では、人間の感情状態を表現するために1つのモダリティを使用した。人間の表情とジェスチャーの両方が感情を表すことができるため、第1の条件では、人間の表情を人間の感情状態の表現に用いた。第2の条件では、人間のジェスチャー表現を人間の感情状態の表現として利用した。
どちらの条件でも、利用者は反応的な顔のフィードバックを暗黙の評価フィードバックとして行い、ロボット1はこの評価フィードバックである表情を取得して感情行動を学習する。このとき、利用者の状態とフィードバックは、別々のモジュールによって検出・伝達される(すなわち、ロボット1は、利用者の顔の情動状態を暗黙の顔フィードバックとして利用しない)。
【0052】
表情認識モジュールは、あらかじめ学習させた畳み込みニューラルネットワークを用いて人間の顔の感情状態を認識する。ジェスチャー認識モジュールは、深度センサで追跡した利用者の関節位置を用いて、CNNアーキテクチャを用いて関節特徴を分類する。
利用者の現在の感情状態を理解するには、通常、大量の反復処理とデータが必要である。
このため評価では、図6のように、2つの条件の状態空間を数個の感情状態に限定した。図6は、2つの評価条件における人間の感情状態と、それに対応するロボットが選択・実行可能な感情アクションの概要を示す図である。図7は、ジェスチャー表現と表情表現の例を示す図である。図6のように、第1条件では、「喜び」(happiness)、「悲しみ」(sadness)、「驚き」(surprise)、「恐れ」(fear)、「怒り」(anger)、「中立」(neutral)、「嫌悪」(disgust)の7つの表情表現を人間の感情状態として使用した。第二条件では、ジェスチャー表現である「拍手」(applauding)、「拒否」(rejection)、「静粛(静かに)」(bequiet)、「顔を覆う」(facecover)、「肩をすくめる」(shrugging)の5つのジェスチャー表現を人間の感情状態として使用した。なお、ロボット1は、駆動を動かしたり音の感情表現も可能であるが、人間と人間の感情的なやりとりの常識に基づいて、各条件で10種類の感情ルーチン動作を設計した。
【0053】
次に評価結果例を説明する。
図8は、予測された暗黙の顔フィードバックからの学習曲線と、明示的およびランダムなフィードバックからの学習による学習曲線を示す図である。なお、それぞれの学習曲線は、ランダムなフィードバックのものを除き、各条件で10人の参加者から収集したデータの平均をとったものである。図8において、横軸はインタラクション回数、縦軸は最適な動作を行った回数である。また、線g61は明示的なフィードバックの学習曲線であり、線g62は暗黙のフィードバックの学習曲線であり、線g63はランダムなフィードバックの学習曲線である。また符号g51は顔の感情状態の場合、g52はジェスチャーの感情状態の場合である。
【0054】
図8の評価結果から、明示的なフィードバックの場合、学習性能は急激に上昇し、顔の感情状態の場合は約75回、ジェスチャーの感情状態の場合は約60回のインタラクションで安定した。
このように、評価の結果、7つの顔感情状態と5つのジェスチャー感情状態のすべてにおいて、それぞれ最適な感情行動が得られた。また、本実施形態のモデルでは、5つの表情と4つのジェスチャーの感情状態に対して、さらにインタラクションを増やしても最適な情動行動を獲得できた。
そして、本実施形態の手法では、予測された暗黙のフィードバックからの学習は、最悪のシナリオを表すランダムなフィードバック(予測精度50%)よりも、遙かに優れている。
【0055】
図9は、学習過程における、顔表現による人間の感情状態ごとの正規化された学習曲線を示す図である。横軸はインタラクション回数、縦軸は正規化された最適な動作を行った回数である。符号g81は「喜び」、符号g82は「悲しみ」、符号g83は「怒り」、符号g84は「恐れ」、符号g85は「驚き」、符号g86は「中立」、符号g87は「嫌悪」である。
【0056】
図10は、学習過程における、ジェスチャー表現による人間の感情状態ごとの正規化された学習曲線を示す図である。横軸はインタラクション回数、縦軸は正規化された最適な動作を行った回数である。符号g91は「拍手」、符号g92は「拒否」、符号g93は「静粛」、符号g94は「顔を覆う」、符号g95は「肩をすくめる」である。
なお、各条件で10人の参加者から収集したデータに対して、各学習曲線を平均化し正規化した。
【0057】
以上のように、本実施形態では、ロボット1に人との対話を通して適切な情動行動反応を学習させるようにした。ロボット1は、表情から得られる暗黙のフィードバックから学習し、利用者の好みに応じた最適な行動を選択することができる。そして、本実施形態によれば、明示的なフィードバックからの学習と同等の性能を達成しつつ、利用者が学習知識を事前に学習する必要性を排除することが可能である。
【0058】
<第2実施形態>
本実施形態では、人間中心の強化学習により、受け取った暗黙の表情のフィードバックに基づいて、継続的な報酬が予測されるロボットの感情行動を形成する。本実施形態では、受け取った暗黙の表情のフィードバックの価値や覚醒度をRussellの感情円環モデルを用いて推定する。これにより、本実施形態によれば、利用者の感情の強さやエージェントの行動に対する満足度をより正確に記述することができ、現実的なインタラクションシナリオとより一致させることができる。
【0059】
(Russellの感情円環モデル)
まず、Russellの感情円環モデルについて説明する。図11は、Russellの感情円環モデルを示す図である。Russellの円環構造モデルは、覚醒を1本の軸で表現している。Arousal(active)が覚醒または興奮であり、passiveが非覚醒または平静である。Valence(positive)が快であり、negativeが不快である。Russellの円環構造モデルは、このように中心(Neutral)を通る直線で対応する感情が、対向する感情を表している。
なお、価値とは、快・不快の度合いを表す。覚醒度とは、興奮・平静の度合いを表す。
【0060】
本実施形態では、取得した暗黙の表情フィードバックの価値(valence)と覚醒度(arousal)に基づいて、連続的な報酬を予測するモデル(CNN-RNNモデル)を学習させた。
【0061】
具体的には、MorphSetデータセット(参考文献1参照)を用いて予測モデルの学習を行った。このデータセットには、次元の一貫性が高いValence、Arousalのアノテーションを持つ166382枚の画像が含まれている。
【0062】
参考文献1;V. Vonikakis, N. Y. R. Dexter, and S. Winkler, “Morphset: Augmenting categorical emotion datasets with dimensional affect labels using face morphing,” in 2021 IEEE International Conference on Image Processing (ICIP), pp. 2713-2717, IEEE, 2021.
【0063】
データセット内の各画像の感情に対する報酬Rは、Russellの感情円環モデルを用いて推定したValenceとArousalに従って、次式(3)のように算出された。
【0064】
【数5】
【0065】
式(3)において、Vは推定された価値(Valence)であり、Aは推定された覚醒度(Arousal)の値である。ValenceとArousalが高いほど、報酬の値は大きくなる。式(1)を用いて計算された報酬は、予測モデルの学習において、データセット内の画像のラベルとして使用した。また、学習セット、検証セット、テストセットの比率は、7:2:1である。
【0066】
(ロボット、感情取得装置の構成例)
次に、感情取得装置を備えるロボット1Aの構成例を説明する。図12は、本実施形態に係る感情取得装置を備えるロボットの構成例を示す図である。
図12のように、ロボット1Aは、例えば、感情取得装置11Aと、収音部103と、生成部13と、表示部111と、スピーカー112と、制御部14と、駆動部15と、記憶部16を備える。
感情取得装置11Aは、例えば、撮影部102と、取得部22と、変換部25と、感情推定部26と、行動選択部27Aを備える。なお、収音部103は、感情取得装置11が備えていてもよい。
【0067】
変換部25は、撮影部102によって撮影された人間の表情を、人間の感情を表す連続的な値に変換する。
【0068】
感情推定部26は、変換部25が変換した連続的な値をマッピングし、対象人物の感情を推定する。なお、感情推定部26が推定する結果は、上述したように、例えば、「笑顔」、「笑顔でない」、「怒り」、「軽蔑」、「悲しみ」等である。
【0069】
行動選択部27Aは、式(2)を用いて、行動セレクタで行動(情動行動)を選択・実行する。これにより、行動選択部27Aは、状態sで可能な全ての行動の中からQ値が最大となる行動aを選択する。なお、Aは状態sで可能な全ての行動の集合である。なお、行動選択部27Aは、感情推定部26が備えていてもよい。
【0070】
ここで、変換部25と感情推定部26が行う処理について、さらに説明する。
変換部25は、撮影された画像情報を、取得部22を介して取得する。変換部25は、取得した画像情報に対して、前処理(例えば切り出しや回転など)を行う。変換部25は、CNNネットワークを用いて、前処理した画像の特徴量(人間の感情を表す連続的な値)を抽出する。
【0071】
感情推定部26は、変換部25が変換した連続的な値をRussellの感情円環モデルへマッピングすることで、価値、覚醒度を求める。
【0072】
(処理手順)
次に、感情取得装置11Aが学習時に行う処理手順例を説明する。図13は、本実施形態に係るロボットが行う学習時に処理手順例を示すである。
なお、以下の説明では、強化学習アルゴリズムとしてQ-learningを用いる例を説明するが、用いるアルゴリズムはこれに限らず他のアルゴリズムであってもよい。
【0073】
(ステップS1)感情取得装置11Aは、全ての行動のQ値をゼロに初期化するため、ランダムな行動を選択することから始める。
【0074】
(ステップS2)感情取得装置11Aは、時刻tにおいて、表情やジェスチャーで表される人間の現在の感情入力を取得し、取得した情報を人間の感情状態sとして前処理を行う。
【0075】
(ステップS3)感情取得装置11Aは、式(2)を用いて、行動セレクタで行動(情動行動)を選択・実行する。すなわち、感情取得装置11Aは、状態sで可能な全ての行動の中からQ値が最大となる行動aを選択する。
【0076】
(ステップS4)感情取得装置11Aは、利用者がロボット1Aの情動行動を観察し、利用者の好みに応じた表情で反応した結果を取得する。感情取得装置11Aは、取得した表情情報を暗黙フィードバックモジュール(Implict feedback module)に入力して、継続的な報酬Rを予測する。
【0077】
(ステップS5)感情取得装置11Aは、状態sにおいて実行された行動aのQ値Q(s,a)を、式(3)を用いて予測された暗黙の連続報酬Rで更新する。すなわち、感情取得装置11Aは、古いQ値Q(s,a)を予測された暗黙の連続報酬Rで更新することで、新しいQ値Q(s,a)を得る。
なお、ロボット1Aの感情行動が望ましいものであれば、利用者は表情を通じて肯定的なフィードバックを与える。この場合は、選択された感情行動のQ値は増加する。また、次回も同じ感情状態を検出した場合、ロボット1Aは高い確率でその行動を選択する。そうでない場合、利用者は否定的なフィードバックを行い、選択された行動のQ値は減少する。
【0078】
(ステップS6)感情取得装置11Aは、次の時刻t+1において、利用者の新しい感情状態st+1を検出し、その状態st+1において最もQ値の大きい行動を、式(2)を用いて選択する。Aは、感情取得装置11Aが、状態st+1において実行可能なすべての行動の集合である。
【0079】
(ステップS7)新しいサイクルが開始される。人間は、新しい感情状態st+1において、実行された行動に対して新しい暗黙の顔フィードバックを提供する。感情取得装置11Aは、連続報酬Rを予測し、状態st+1において選択された行動のQ値を更新し、更新されたQ値で検出された新しい状態において別の行動を選択する。
このサイクルは、感情取得装置11Aが検出されたすべての人間の感情状態に対して望ましい最適な行動を学習するまで繰り返される。このサイクルを繰り返すことで、検出された人間の感情状態に対して、望ましい最適行動を学習する。
【0080】
なお、上述した処理において、暗黙フィードバックモジュールは、例えば変換部25、感情推定部26が備える。
また、使用時、感情取得装置11Aは、上述した手順で学習した暗黙フィードバックモジュールに撮影された表情画像を入力することで、連続報酬Rを予測する。そして、感情取得装置11Aは、予測した連続報酬Rを用いて対象人物の感情を推定する。
【0081】
ここで、学習プロセスの実例をさらに説明する。
図14図15は、1人の利用者が学習したヒートマップで、学習過程における40回のインタラクションごとの顔の感情状態における学習モデル(すなわち、すべての感情行動のQ値)を可視化したものである。図14は、インタラクションが40回のヒートマップ(g200)と、インタラクションが80回のヒートマップ(g210)である。図15は、インタラクションが120回のヒートマップ(g220)と、インタラクションが160回のヒートマップ(g230)である。
【0082】
図14図15のヒートマップにおいて、横軸は人間ユーザの7個の顔(表情)の感情状態を表し、縦軸は各状態で可能な10個の感情ルーチン行動を表している。各ブロックは、1つの顔の状態における情動行動のQ値を示している。また、比較しやすいように、すべてのQ値は同じ尺度に正規化した。ブロックの色が濃いほど、Q値が大きい。
【0083】
なお、各インタラクションの間、利用者は暗黙のうちに顔のフィードバックを行い、ロボット1AはQ値を更新する。Q値が最も大きいルーチン動作が、ロボット1Aによって選択されることになる。しなわち、ロボット1Aが新しいサイクルで同じ状態を検出した場合、ヒートマップで最も濃い色を持つ行動を選択することになる。
【0084】
40回のインタラクションの後、ロボット1Aは、すべての顔の感情状態のうち2つについて最適な情動行動を学習していることが分かる(g200)。
80回のインタラクションの後、ロボット1Aは、7つの状態のうち5つの状態に対して最適な行動を既に学習していることが分かる(g210)。
120回のインタラクションの後、ロボット1Aは、7つの顔の状態すべてについて最終的な最適方針を学習していることが分かる(g220)。
160回のインタラクションの後、ロボット1Aは、各状態における最適行動のQ値が他の行動よりはるかに大きい(すなわち暗い)ため、暗黙のフィードバックの誤認識に頑健な安定した最適方針を学習していることが分かる(g230)。
なお、図14図15に示したヒートマップは一例であり、これに限らない。
【0085】
(暗黙フィードバックモジュール)
次に、暗黙フィードバックモジュールについて、さらに説明する。
図15は、本実施形態に係る暗黙フィードバックモジュールの構成例を示す図である。図16のように、暗黙フィードバックモジュール200は、例えば、幾何学的特徴抽出部201と、表情分析モジュール202を備える。
【0086】
幾何学的特徴抽出部201は、撮影された表情画像から幾何学的な特徴量を、例えば上述した学習済みのCNNネットワークを用いて抽出する。幾何学的特徴抽出部201は、変換部25が備える。
【0087】
表情分析モジュール202は、幾何学的特徴抽出部201によって抽出された幾何学的な特徴量を、例えば上述した学習済みのRNNネットワークに入力して、表情から利用者の感情を推定し、報酬を出力する。表情分析モジュール202は、例えば感情推定部26が備える。
【0088】
(評価、評価結果)
評価において、暗黙フィードバックモジュールの学習には、例えばMorphSetのデータセットを用いた。また、評価において、次元削減と予測モデルの学習には、PLS(Partial Least Squares)法を使用した。
さらに評価条件は、第1実施形態と同様であり、ここでは連続的な暗黙のフィードバックを用いる点が異なる。
【0089】
評価では、利用者に様々な感情状態において、ロボット1Aにどのような反応をさせたいかを想像してもらい、自分の好みに合わせて晴に学習させた。学習過程では、まずロボット1Aが人間の情動状態を検出し、学習した方針に従って、各条件で可能な行動の集合から情動行動を選択し、実行する。利用者は、ロボット1Aの行動を観察し、好みに応じて顔のフィードバックを行った。ロボット1Aは、受け取った顔のフィードバックに基づいて、暗黙の報酬を予測し、方針を更新する。
【0090】
そして、2つの条件(第1実施形態の評価参照)におけるすべての感情状態について、利用者が満足する最適な行動をロボット1Aが学習するまで、新たなサイクルが開始するようにした。時間の制約と人間の身体的耐久性のため、最大インタラクション数は、表情を感情状態とした第1条件では160回、ジェスチャー表現を感情状態とした第2条件では120回とした。全体の実験時間は約25分であった。
【0091】
各条件において、利用者に2つのエージェントを訓練してもらった。1つは予測された暗黙の顔フィードバックから学習するエージェント、もう1つは明示的なフィードバックから学習するエージェントである。両エージェントは、ランダムなフィードバックから学習する第3のエージェントと比較した。
明示的フィードバックによる学習は、予測された暗黙的な顔のフィードバックを用いて晴を100%の精度で学習させることに相当する。また、ランダムフィードバックからの学習は、予測された暗黙の顔のフィードバックを用いて、50%の精度でHaruを学習させることに相当する。
【0092】
明示的なフィードバックはキーボードのボタンを押すことによって行われた。評価では、「n」を押すと正の報酬が+0.5され、「v」を押すと負の報酬が-0.5されることを意味する。参加者は、波瑠の行動を観察した後、3秒以内にフィードバックを行うことが許された。暗黙のフィードバックとしては、センサで利用者の反応表情を取得し、連続する10フレーム(約0.4秒)の平均認識量を予測暗黙のフィードバックとした。
【0093】
(暗黙のフィードバック予測のための潜在的成分の選択)
潜在成分の数は、PLS(Partial Least Squares)法による連続的な暗黙のフィードバックの予測において重要な役割を果たす。潜在成分の数が多いと、現在のデータにはよく適合するが、オーバーフィッティングになる可能性があり、その結果、新しいデータに対するモデルの汎化がうまくいかなくなる。図17は、トレーニング、検証データセット、テストデータセットにおいて、異なる数の潜在成分を保持した場合の暗黙のフィードバック予測の平均二乗誤差(MSE)と共振相関係数(CCC)を示す図である。符号g241のグラフは、コンポーネント数に対する暗黙のフィードバック予測の平均二乗誤差の変化を示す。符号g242のグラフは、コンポーネント数に対する暗黙のフィードバック予測の共振相関係数の変化を示す。線g251はトレーニング、線g253は検証データセット、線g253はテストデータセットの結果である。なお、平均二乗誤差と共振相関係数は、次元感情認識手法の性能を測定するために広く用いられている指標である。共振相関係数値が高く、平均二乗誤差値が低ければ、性能が良いことを示す。また、なお、それぞれの学習曲線は、各条件で10人の利用者から収集したデータを平均したものである。
【0094】
目標は、良い予測精度を達成するために、最小限の潜在的な成分の数を選択することである。図17より、保持する潜在成分の数が増えるにつれて、トレーニングセット、検証セット、テストセットの平均二乗誤差は減少し、共振相関係数は増加することがわかる。また、図17より、潜在成分数が80個程度になると平均二乗誤差が最も低くなり、共振相関係数が頭打ちになることがわかる。このため、評価では、潜在的なフィードバック予測のために81個の潜在的な成分を選択した。
【0095】
(予測された暗黙の顔面フィードバックからの学習)
I.パフォーマンス
まず、2つの実験条件における学習パフォーマンスを、各条件の利用者から収集したデータを平均化することで分析した。2つの条件における3種類のフィードバックによる学習成績の違いの有意性を調べるために、Welchのt検定を行った。図18は、明示的フィードバック、予測された暗黙的フィードバックおよびランダムフィードバックからの学習について最適な行動をとった感情状態の平均数とWelchのt検定の結果を示す図である。なお、図18において、EFは明示的フィードバックを示し、IFは暗黙的フィードバックを示し、RFはランダムフィードバックを示す。
【0096】
図18に示すように、「最終成績」は、2つの条件における明示的フィードバック、暗黙的フィードバック、ランダムフィードバックからロボット1Aが学習した最適行動の平均数を表している。図18のように、明示的フィードバックと暗黙的フィードバックによる学習成績の差は、顔の情動状態を伴う条件では有意である(r=0.039)ことがわかる。しかし、両条件における明示的フィードバックと暗黙的フィードバックの両方からの学習成績は、ランダムフィードバックよりも有意に良好であった。
【0097】
図19は、予測された暗黙のフィードバックから、表情とジェスチャーの情動状態をそれぞれ学習した学習曲線を示す図である。図19から、明示的フィードバックからの学習では、顔の感情状態については約100回のインタラクション、ジェスチャーの感情状態については約70回のインタラクションで、晴の成績は急激に上昇し、安定した状態にあることが分かる。すなわち、評価の結果、7つの顔の情動状態と5つのジェスチャーの情動状態すべてにおいて、それぞれ最適な情動行動が得られていることがわかる。評価結果より、連続した暗黙のフィードバックによる学習を通じて、個人の傾向を素早く理解し動的に適応することで、明示的フィードバックによる学習と同様の性能を達成できることが示された。
【0098】
なお、ランダムなフィードバックから学習した場合、ロボット1Aの学習性能は大きく変動し、最悪のケース(予測精度50%)を表している。また、明示的フィードバックと暗黙的フィードバックからの学習は、いずれもランダムフィードバックからの学習より有意に優れていることが示された。
【0099】
次に、2つの条件の利用者がトレーニングの過程で行った暗黙のフィードバックの数を評価した結果を説明する。図20は、顔とジェスチャーの感情状態をそれぞれ用いた2つの条件における訓練過程でのポジティブおよびネガティブな暗黙のフィードバックの割合を示す図である。なお、各プロットは、各条件で10人の利用者から収集したデータの平均値である。また、符号g281は表情を用いた場合の訓練過程における結果であり、符号g282はジェスチャーを用いた場合の訓練過程における結果である。符号g281、g282において、横軸はインタラクション回数、縦軸はポジティブおよびネガティブな暗黙のフィードバックの割合を示す。また、符号g281、g282において、符号g291はネガティブな暗黙のフィードバックの割合、符号g292はぽじてぃ部な暗黙のフィードバックの割合を示す。
【0100】
図20から、利用者はトレーニングの初期段階において、ポジティブフィードバックよりもネガティブフィードバックを多く行う傾向があることがわかる。ロボット1Aの方針が改善された後は、ネガティブフィードバックの割合が減少し、ポジティブフィードバックの割合が徐々に増加している。このことは、明示的なフィードバックからの学習と一致し、暗黙的なフィードバックのほとんどが、本実施形態の予測モジュールによって正しく解釈されたことを示している。
【0101】
(連続的な暗黙のフィードバックとの相関性)
次に、連続的な暗黙のフィードバックの予測精度および平均絶対誤差(MAE)と波瑠の成績の関係をピアソン相関検定で評価した。図21は、各条件の平均評価と標準偏差、平均絶対誤差(MAE)、および波瑠の学習成績とのピアソン相関を示す図である。
【0102】
図21のように、暗黙の顔フィードバック予測の平均精度は、顔の感情状態でμ=0.888、ジェスチャーの感情状態でμ=0.833であり、両条件ともばらつきが小さい(第1条件ではσ=0.067、第2条件ではσ=0.074)。また、両条件における連続的な暗黙のフィードバックの予測の平均絶対誤差(MAE)も同程度である(それぞれ平均μ=0.011、標準偏差σ=0.008、μ=0.016、σ=0.009)。
また、図21から、ロボット1Aのパフォーマンスは、予測精度と正の相関があり(第1条件ではr=0.613、p=0.059、第2条件ではr=0.396、p=0.257)、MAEと負の相関が高い(顔の感情状態の第1条件ではr=0.909、p<0.001、仕草の感情状態の第2条件ではr=-0.552、p=0.098)ことがわかった。
【0103】
なお、図17図21を用いて説明した上述した評価結果は一例であり、これに限らない。
【0104】
以上のように、本実施形態では、人間中心強化学習により、受け取った暗黙の顔フィードバックに基づき、継続的な報酬を予測しながらロボット1Aの情動行動を形成するようにした。そして、本実施形態では、Russellの感情円環モデルを用いて、取得した暗黙の表情フィードバックの価値や覚醒度を推定することで、人間の微妙な心理変化をより正確に推定し、より効果的なロボット行動学習を実現することができた。そして、評価結果から、本実施形態の手法を用いることで、ロボット1Aは明示的なフィードバックから学習するのと同等の性能を得ることができ、人間ユーザが事前に学習インタフェースに慣れる必要がなく、控えめな学習プロセスを実現できることが確認できた。
【0105】
なお、本発明における感情取得装置11(または11A)の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより感情取得装置11(または11A)が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0106】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0107】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0108】
1,1A…ロボット、11,11A…感情取得装置、103…収音部、13…生成部、111…表示部、112…スピーカー、14…制御部、15…駆動部、16…記憶部、102…撮影部、22…取得部、23…前処理部、24…モデル、25…変換部、26…感情推定部、27,27A…行動選択部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21