特開2024-119382 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特開2024-119382感情取得装置、感情取得方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024119382

(43)【公開日】2024-09-03

(54)【発明の名称】感情取得装置、感情取得方法、およびプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240827BHJP

B25J 13/08 20060101ALI20240827BHJP

【ＦＩ】

G06N20/00

B25J13/08 A

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023026244

(22)【出願日】2023-02-22

(71)【出願人】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】ゴメスランディ

【テーマコード（参考）】

3C707

【Ｆターム（参考）】

3C707AS34

3C707KT02

3C707KT04

3C707LW12

3C707LW15

3C707WL05

3C707WL16

(57)【要約】

【課題】人の正確な感情を取得することができる感情取得装置、感情取得方法、およびプログラムを提供することを目的とする。
【解決手段】感情取得装置は、人間の表情を取得する撮影部と、撮影部によって取得した人間の表情を人間の感情を表す連続的な値に変換する変換部と、変換部によって変換された連続的な値をマッピングし、対象人物の感情を推定する感情推定部と、を備える。
【選択図】図１２

【特許請求の範囲】

【請求項1】

人間の表情を取得する撮影部と、
前記撮影部によって取得された前記人間の表情を、前記人間の感情を表す連続的な値に変換する変換部と、
前記変換部によって変換された連続的な値をマッピングし、対象人物の感情を推定する感情推定部と、
を備える感情取得装置。

【請求項2】

前記感情推定部は、Ｒｕｓｓｅｌｌの感情円環モデルを用いて連続的な値をマッピングし、対象人物の感情を推定する、
請求項１に記載の感情取得装置。

【請求項3】

前記変換部は。前記取得した人間の表情の画像からＣＮＮネットワークを用いて、連続的な値である前記画像の特徴量を抽出する、
請求項１または請求項２に記載の感情取得装置。

【請求項4】

前記感情推定部は、前記変換部が変換した前記人間の感情を表す連続的な値をＲＮＮネットワークに入力して、前記対象人物の表情がポジティブであるかネガティブであるかに応じた報酬を求める、
請求項３に記載の感情取得装置。

【請求項5】

前記感情推定部は、前記人間の感情を取得する毎に次式を用いて、Ｑ－ｌｅａｒｎｉｎｇにおけるＱ値を更新し、

【数1】

上式において、ｓ_ｔとａ_ｔはそれぞれ時間ステップｔにおけるロボットが検出した情動状態と選択した情動行動であり、αは学習率であり、Ｒ_ｈは報酬であり予測された暗黙のフィードバック、ｓ’は次の状態である、
請求項１または請求項２に記載の感情取得装置。

【請求項6】

前記報酬Ｒ_ｈは、次式で算出され、

【数2】

Ｖは推定された価値（Valence）であり、Ａは推定された覚醒度（Arousal）の値である、
請求項５に記載の感情取得装置。

【請求項7】

撮影部が、人間の表情を取得し、
変換部が、前記撮影部によって取得された前記人間の表情を、前記人間の感情を表す連続的な値に変換し、
感情推定部が、前記変換部によって変換された連続的な値をマッピングし、対象人物の感情を推定する、
感情取得方法。

【請求項8】

感情取得装置のコンピュータに、
人間の表情を取得させ、
前記取得された前記人間の表情を、前記人間の感情を表す連続的な値に変換させ、
前記変換された連続的な値をマッピングし、対象人物の感情を推定させる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、感情取得装置、感情取得方法、およびプログラムに関する。

【背景技術】

【0002】

近年、人とコミュニケーションできるロボットの開発が進められている。このようなロボットでは、感情的な行動を学習することが求められている（例えば特許文献１参照）。従来技術では、例えば、人が実演したり（例えば非特許文献１参照）、キーボードのボタンやマウスのクリックによる明示的なフィードバックを用いて感情的な行動を学習することが提案されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２２－２９５９９号公報

【非特許文献】

【0004】

【非特許文献1】M. E. Taylor, H. B. Suay, and S. Chernova, “Integrating reinforcement learning with human demonstrations of varying ability,” in Proceedingsof the 10th International Conference on Autonomous Agents and Multiagent Systems (AAMAS), pp. 617-624, Citeseer, 2011.

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来技術では、人の正確な感情を取得することが困難であった。

【0006】

本発明は、上記の問題点に鑑みてなされたものであって、人の正確な感情を取得することができる感情取得装置、感情取得方法、およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

（１）上記目的を達成するため、本発明の一態様に係る感情取得装置は、人間の表情を取得する撮影部と、前記撮影部によって取得された前記人間の表情を、前記人間の感情を表す連続的な値に変換する変換部と、前記変換部によって変換された連続的な値をマッピングし、対象人物の感情を推定する感情推定部と、を備える感情取得装置である。

【0008】

（２）上記（１）の感情取得装置において、前記感情推定部は、Ｒｕｓｓｅｌｌの感情円環モデルを用いて連続的な値をマッピングし、対象人物の感情を推定するようにしてもよい。

【0009】

（３）上記（１）または（２）の感情取得装置において、前記変換部は。前記取得した人間の表情の画像からＣＮＮネットワークを用いて、連続的な値である前記画像の特徴量を抽出するようにしてもよい。

【0010】

（４）上記（３）の感情取得装置において、前記感情推定部は、前記変換部が変換した前記人間の感情を表す連続的な値をＲＮＮネットワークに入力して、前記対象人物の表情がポジティブであるかネガティブであるかに応じた報酬を求めるようにしてもよい。

【0011】

（５）上記（１）から（４）のうちのいずれか１つの感情取得装置において、前記感情推定部は、前記人間の感情を取得する毎に次式を用いて、Ｑ－ｌｅａｒｎｉｎｇにおけるＱ値を更新し、

【数1】

上式において、ｓ_ｔとａ_ｔはそれぞれ時間ステップｔにおけるロボットが検出した情動状態と選択した情動行動であり、αは学習率であり、Ｒ_ｈは報酬であり予測された暗黙のフィードバック、ｓ’は次の状態であるようにしてもよい。

【0012】

（６）上記（５）の感情取得装置において、報酬Ｒ_ｈは、次式で算出され、

【数2】

Ｖは推定された価値（Valence）であり、Ａは推定された覚醒度（Arousal）の値であるようにしてもよい。

【0013】

（７）上記目的を達成するため、本発明の一態様に係る感情取得方法は、撮影部が、人間の表情を取得し、変換部が、前記撮影部によって取得された前記人間の表情を、前記人間の感情を表す連続的な値に変換し、感情推定部が、前記変換部によって変換された連続的な値をマッピングし、対象人物の感情を推定する、感情取得方法である。

【0014】

（８）上記目的を達成するため、本発明の一態様に係るプログラムは、感情取得装置のコンピュータに、人間の表情を取得させ、前記取得された前記人間の表情を、前記人間の感情を表す連続的な値に変換させ、前記変換された連続的な値をマッピングし、対象人物の感情を推定させる、プログラムである。

【発明の効果】

【0015】

（１）～（８）によれば、人の正確な感情を取得することができる。

【図面の簡単な説明】

【0016】

【図1】第１実施形態に係る人間の表情から予測される暗黙のフィードバックによるロボットの学習過程を示す図である。

【図2】実施形態に係るロボットの外形例を示す図である。

【図3】実施形態に係るロボットの感情表現をアニメーションで提示する例を示す図である。

【図4】第１実施形態に係る人間の反応的である表情による暗黙の評価フィードバックを予測するためのＣＮＮ－ＲＮＮモデルの構造の概要を示す図である。

【図5】第１実施形態に係る感情取得装置を備えるロボットの構成例を示す図である。

【図6】２つの評価条件における人間の感情状態と、それに対応するロボットが選択・実行可能な感情アクションの概要を示す図である。

【図7】ジェスチャー表現と表情表現の例を示す図である。

【図8】予測された暗黙の顔フィードバックからの学習曲線と、明示的およびランダムなフィードバックからの学習による学習曲線を示す図である。

【図9】学習過程における、顔表現による人間の感情状態ごとの正規化された学習曲線を示す図である。

【図10】学習過程における、ジェスチャー表現による人間の感情状態ごとの正規化された学習曲線を示す図である。

【図11】Ｒｕｓｓｅｌｌの感情円環モデルを示す図である。

【図12】第２実施形態に係る感情取得装置を備えるロボットの構成例を示す図である。

【図13】第２実施形態に係るロボットが行う学習時に処理手順例を示すである。

【図14】インタラクションが４０回のヒートマップと、インタラクションが８０回のヒートマップである。

【図15】インタラクションが１２０回のヒートマップと、インタラクションが１６０回のヒートマップである。

【図16】第２実施形態に係る暗黙フィードバックモジュールの構成例を示す図である。

【図17】トレーニング、検証データセット、テストデータセットにおいて、異なる数の潜在成分を保持した場合の暗黙のフィードバック予測の平均二乗誤差と共振相関係数を示す図である。

【図18】明示的フィードバック、予測された暗黙的フィードバックおよびランダムフィードバックからの学習について最適な行動をとった感情状態の平均数とＷｅｌｃｈのｔ検定の結果を示す図である。

【図19】予測された暗黙のフィードバックから、表情とジェスチャーの情動状態をそれぞれ学習した学習曲線を示す図である。

【図20】顔とジェスチャーの感情状態をそれぞれ用いた２つの条件における訓練過程でのポジティブおよびネガティブな暗黙のフィードバックの割合を示す図である。

【図21】各条件の平均評価と標準偏差、平均絶対誤差、および波瑠の学習成績とのピアソン相関を示す図である。

【発明を実施するための形態】

【0017】

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「ＸＸに基づいて」とは、「少なくともＸＸに基づく」ことを意味し、ＸＸに加えて別の要素に基づく場合も含む。また、「ＸＸに基づいて」とは、ＸＸを直接に用いる場合に限定されず、ＸＸに対して演算や加工が行われたものに基づく場合も含む。「ＸＸ」は、任意の要素（例えば、任意の情報）である。

【0018】

＜第１実施形態＞
まず、本実施形態における学習過程の概要を説明する。
図１は、本実施形態に係る人間の表情から予測される暗黙のフィードバックによるロボットの学習過程を示す図である。
本実施形態では、例えばロボット１が人の現在の感情状態を理解し、学習したポリシーに従って感情行動を選択し、ユーザに提示する。ロボット１は、例えばコミュニケーションロボットである。後述するように、ロボット１は、撮影装置、マイクロホン等を備えている。また、取得される環境には、撮影装置等の環境センサが備えられている。人は、ロボット１が提示した行動に対して、表情、ジャスチャート、声等で反応する。
そして、ロボット１は、ロボット１が提示した感情行動に対して人が行動した反応である表情情報を取得し、取得した表情情報を報酬に用いて更新していく。

【0019】

なお、ロボット１の学習では、リアルタイムに学習を行い、すなわち人との継続的なインタラクションから学習する。また、ロボット１の学習では、人がキーボード等を用いた従来のようなフィードバックを行う必要が無く、すなわち表情等の人の自然な反応を学習に用いる。

【0020】

（コミュニケーションロボットの外形例）
次に、ロボット１の外形例を説明する。
図２は、実施形態に係るロボットの外形例を示す図である。図２において、正面図ｇ１０１、側面図ｇ１０２は、実施形態に係るロボット１の外形例を示す図である。ロボット１は、例えば、３つの表示部１１１（目表示部１１１ａ、目表示部１１１ｂ、口表示部１１１ｃ）を備えている。また、図２の例では、撮影部１０２ａは目表示部１１１ａの上部に取り付けられ、撮影部１０２ｂは目表示部１１１ｂの上部に取り付けられている。目表示部１１１ａ、１１１ｂは、人の目に相当し、人の目に相当する画像や画像情報を提示する。目表示部１１１ａ、目表示部１１１ｂの画面の大きさは、例えば３インチである。スピーカー１１２は、筐体１２０の人の口に相当する画像を表示する口表示部１１１ｃの近傍に取り付けられている。口表示部１１１ｃは、例えば複数のＬＥＤ（発光ダイオード）で構成され、各ＬＥＤはアドレス指定可能であり、個別に点灯消灯駆動できる。収音部１０３は、筐体１２０に取り付けられている。

【0021】

また、ロボット１は、ブーム１２１を備える。ブーム１２１は、筐体１２０に可動部１３１を介して可動可能に取り付けられている。ブーム１２１には、水平バー１２２が可動部１３２を介して回転可能に取り付けられている。
水平バー１２２には、目表示部１１１ａが可動部１３３を介して回転可能に取り付けられ、目表示部１１１ｂが可動部１３４を介して回転可能に取り付けられている。なお、図２に示したロボット１の外形は一例であり、これに限らない。

【0022】

図３は、実施形態に係るロボットの感情表現をアニメーションで提示する例を示す図である。図３のように、ロボット１は、表示部１１１（目表示部１１１ａ、目表示部１１１ｂ、口表示部１１１ｃ）に表示させるアニメーションを変化させて、感情表現を提示する。
符号ｇ１１～ｇ１７それぞれのアニメーション例は、「怒り」（Angry）、「ご機嫌（有頂天）」（Ecstatic）、「無関心、軽蔑」（Disinterested）、「混乱している」（Confused）、「はにかんでいる」（Blushing）、「悲しい」（Sad）、「同情的な」（Sympathetic）である。
なお、図３に示した感情表現やアニメーションは一例であり、これに限らない。感情表現は図３以外にあってもよく、各感情表現のアニメーションは図３と異なっていてもよい。また、各感情表現の際、図３のように表示部１１１の角度や位置を変化させたり、ブーム１２１の角度を変えたり、音声信号を一緒に出力するようにしてもよい。

【0023】

（定義）
次に、本実施形態で用いる状態、行動、報酬等について定義する。
ほとんど全ての強化学習問題は、＜Ｓ，Ａ，Ｔ，Ｒ，γ＞というタプル（tuple）によって表されるマルコフ決定過程としてモデル化できる。ＳとＡは、エージェントの可能な状態と行動の集合である。Ｔは、遷移確率であり、エージェントが現在の状態ｓから次の状態ｓ’へと遷移する確率である。Ｒは、報酬関数であり、エージェントが行動ａを実行し、状態ｓからｓ’に遷移する際の報酬確率を表す。γは、割引係数であり、即時の報酬と将来の報酬の影響を表す。エージェントの行動は、ポリシーπ（ｓ）で表される。Ｓ→Ａは、状態を可能な行動に対応づける。強化学習エージェントの目標は、環境から受け取る総報酬を最大化する行動方針を学習することである。

【0024】

本実施形態では、強化学習アルゴリズムに、例えばＱ－ｌｅａｒｎｉｎｇを使用する。ロボット１は、利用者の現在の感情状態（顔の感情やジェスチャー）を取得し、貪欲法（the greedy strategy）によりＱ値が最も大きい行動を選択する。次に、ロボット１が選択した行動を実行した後、利用者は自分の好みに応じてフィードバックＲを与える。ロボット１が選択した行動が望ましいものであれば、利用者は表情でポジティブな反応を示し、選択した行動のＱ値が上昇する。ロボット１は、同じあるいは似たような人間の感情状態が検出されると、再びその行動を選択する可能性が高くなる。一方、ロボット１が選択した行動が望ましくないものであった場合、利用者は否定的なフィードバックを行い、選択した行動のＱ値が減少する。ロボット１は、次回も同じような人間の感情状態が検出されれば、他の行動を試す可能性が高くなる。

【0025】

ロボット１は、人間からのフィードバックを受けるたびに、次式（１）を用いてＱ値を更新する。

【0026】

【数3】

【0027】

式（１）において、ｓ_ｔとａ_ｔはそれぞれ時間ステップｔにおけるロボット１が検出した情動状態と選択した情動行動、αは学習率、Ｒ_ｈは予測された暗黙のフィードバック、ｓ’は次の状態である。
次の時間ステップｔ＋１において、ロボット１は、新しい人間の情動状態を検出すると、次式（２）のようにＱ値が最も大きい情動ルーチン行動を行うことになる。

【0028】

【数4】

【0029】

式（２）において、Ａはロボット１が実行可能な感情行動の集合であり、ｓ_ｔ＋１は検出された次の感情状態である。このサイクルは、ロボット１が検出された全ての人間の感情状態に対して望ましい最適な行動を学習するまで繰り返される。

【0030】

（報酬の比較）
次に、報酬の比較を行う。従来技術では、事前に学習させた分類モジュールを用いて表情を分類するものもあるが、多くの場合、特定のカテゴリーに属さない表情も多く、人によって理解の異なる表情（例えば、怒りと嫌悪感）もある。

【0031】

（暗黙のフィードバック予測）
ロボット１が行動を起こすと、それに応じて利用者の表情が変化し、ロボット１の情動行動に対する利用者の満足度が示される。本実施形態では、この利用者の表情の情報を暗黙のフィードバックとして抽出し、利用者の好みに応じたロボット１の行動を学習させることができる。なお、この場合、専門家でない利用者が事前に複雑な学習ルールを学ぶ必要はない。

【0032】

ロボット１は、自然なインタラクションにより、利用者の好みに応じた感情的な振る舞いを学習することができる。本実施形態において、撮影された生の表情画像は、エンドツーエンドで人間の評価フィードバックに直接マッピングされ、利用者の好みに応じてロボット１の情動行動を形成するために使用する。本実施形態では、暗黙のフィードバックの予測に、例えばＣＮＮ（Convolutional Neural Network）－ＲＮＮ（Recurrent Neural Network）を用いて、表情画像から感情を推定する。

【0033】

以下の例では、このモデルを、データ拡張後の１５７１０枚の画像を持つGENKI-4k感情データセット（http://mplab.ucsd.edu,“The MPLab GENKI Database,GENKI-4K Subset”）を用いて学習・評価した。
データセットに含まれる全ての表情は、２つのカテゴリーに分けられる。
例えば、「笑顔」と「笑顔でない」の２つであえる。すべての「幸せ」な感情は、「笑顔」のグループに含まれ、「怒り」、「軽蔑」、「悲しみ」などの「不幸せ」な感情は「笑顔でない」グループに分類される。

【0034】

次に、モデルの構造の概要を説明する。図４は、本実施形態に係る人間の反応的である表情による暗黙の評価フィードバックを予測するためのＣＮＮ－ＲＮＮモデルの構造の概要を示す図である。
予測では、まず感情画像ｇ３１を前処理（ｇ３２）し（例えば切り出しや回転など）、設計されたＣＮＮネットワーク（ｇ３３）に転送して、画像特徴を抽出する。そして、ＲＮＮネットワーク（ｇ３４）によって、抽出された特徴に従って対応する報酬を予測する。
なお、モデルを学習する場合、「笑顔」と「笑顔でない」グループの感情は、図５のようにそれぞれ「ポジティブ」「ネガティブ」なフィードバックとしてラベル付けされる。なお、トレーニングセットとテストセットの比率は、例えば４：１である。また、最終的な予測精度は８０％であった。

【0035】

ＣＮＮネットワーク（ｇ３３）は、例えば、第１層のフィルタの次元が９２×９２×１６と８８×８８×３２の畳み込み層であり、第２層のフィルタの次元が４０×４０×６４の畳み込み層であり、第３層のフィルタの次元が１６×１６×１２８の畳み込み層である。第４層の入力が２０４８の全結合であり、第５層の入力が３００の全結合である。なお、上述した次元や入力数は一例であり、これに限らない。

【0036】

ＲＮＮネットワーク（ｇ３４）は、例えば、８ビット（２５６）の特徴マップ（feature map）、４ビット（１２８）の隠れ層（hidden layer）、１ビット（２）の出力層（output layer）である。なお、層の構成やビット数は一例であり、これに限らない。
このＣＮＮ－ＲＮＮモデルの出力は、報酬であり、ポジティブの報酬が例えば“＋１”であり、ネガティブの報酬が例えば“－１”である。
感情取得装置１１は、このようなＣＮＮ－ＲＮＮの部分の出力に基づいて、人の表情を推定する。例えば、感情取得装置１１は、怒っていると推定してポジティブな出力が選れば推定が正しいと見なし、怒っていると推定してネガティブな出力が選れば推定が誤っていると見なすようにしてもよい。または、感情取得装置１１は、第２実施形態で説明するように、Ｓｔｅｐ３（図１３）でＱ値が最大となる行動を選択して評価して、繰り返すことで最適な行動を感情認識モジュールに学習させ、その後、学習済みの感情認識モジュールを用いて感情の推定と行動の選択を行うようにしてもよい。

【0037】

（ロボット、感情取得装置の構成例）
次に、感情取得装置を備えるロボット１の構成例を説明する。図５は、本実施形態に係る感情取得装置を備えるロボットの構成例を示す図である。
図５のように、ロボット１は、例えば、感情取得装置１１と、収音部１０３と、生成部１３と、表示部１１１と、スピーカー１１２と、制御部１４と、駆動部１５と、記憶部１６を備える。
感情取得装置１１は、例えば、撮影部１０２と、取得部２２と、前処理部２３と、モデル２４と、行動選択部２７を備える。なお、収音部１０３は、感情取得装置１１が備えていてもよい。

【0038】

収音部１０３は、例えば、Ｍ個（Ｍは２以上の整数）のマイクロホンを備えるマイクロホンアレイである。

【0039】

表示部１１１は、図２を用いて説明したように、目表示部１１１ａ、目表示部１１１ｂ、および口表示部１１１ｃを備える。表示部１１１は、生成部１３が生成した画像またはアニメーションを表示する。

【0040】

スピーカー１１２は、生成部１３が生成した音響信号を出力する。

【0041】

制御部１４は、ロボット１の各部を、駆動部１５を介して駆動する。

【0042】

駆動部１５は、例えば、アクチュエータ、駆動回路を備える。駆動部１５は、制御部１４の制御に応じて、ロボット１の各部を駆動する。

【0043】

記憶部１６は、例えば、感情取得装置１１が用いる数式、閾値、プログラム、ロボット１の制御に用いられるプログラム等を記憶する。

【0044】

撮影部１０２は、ロボット１に取り付けられていてもよく、ロボット１と利用者がいる環境に接地されていてもよい。撮影部１０２は、例えば、ＲＢＧカメラ、または深度情報も得られるＲＧＢＤカメラ等である。なお、撮影部１０２が撮影する画像情報は、利用者の顔を含む画像である。なお、画像は、静止画、連続する静止画、あるいは動画のうちのいずれか１つであればよい。

【0045】

取得部２２は、撮影部１０２が撮影した画像情報を取得する。取得部２２は、収音部１０３が収音したＭチャンネルの音響信号を取得する。

【0046】

前処理部２３は、取得部２２が取得した画像情報に対して所定の前処理を行う。前処理は、例えば、画像の切り出し、画像の回転、画像の輝度やコントラストの補正等である。

【0047】

モデル２４は、例えば、ジェスチャー認識モジュール２４１と、表情認識モジュール２４２を備える。ジェスチャー認識モジュール２４１は、撮影部１０２が備える深度センサで追跡した利用者の関節位置を用い、学習済みのＣＮＮネットワークを用いて関節特徴を分類する。表情認識モジュール２４２は、上述したＣＮＮ－ＲＮＮモデルである。表情認識モジュール２４２は、前処理された画像を、学習済みのＣＮＮネットワークに入力して特徴量を抽出する。表情認識モジュール２４２は、抽出した特徴量を、学習済みのＲＮＮネットワークに入力して利用者の表情がポジティブであるかネガティブであるかを推定する。

【0048】

行動選択部２７は、感情取得装置１１が推定したＱ値を上述した式（１）を用いて更新する。行動選択部２７は、更新したＱ値と上述した式（２）を用いて、利用者の表情に対する行動を選択する。

【0049】

生成部１３は、選択された行動に応じて、表示部１１１に表示させるアニメーションや画像を生成する。なお、記憶部１６は、選択される行動と生成するアニメーションとが関連付けて記憶している。また、生成部１３は、感情取得装置１１が推定した推定結果に基づいて、スピーカー１１２から出力させる音響信号を生成するようにしてもよい。なお、ロボット１の提示する表情のアニメーションと、ロボット１の行う動作例については後述する。

【0050】

ここで、モデル２４の学習方法例と、学習済みモデル２４を用いた行動の選択性を説明する。
学習時、モデル２４には、前処理部２３から前処理された画像情報が入力される。モデル２４の表情認識モジュール２４２は、入力された画像情報からＣＮＮネットワークを用いて特徴量を抽出し、抽出した特徴量をＲＮＮネットワークに入力して、ロボット１が行った行動に対する報酬（ネガティブな表情であったか、ポジティブな表情であったか）を求める。表情認識モジュール２４２は、求めた報酬と式（１）を用いてＱ値を更新する。さらに、モデル２４は、Ｑ値が最大となる行動を選択することで、学習時の次回で提示する行動を選択する。このような処理を繰り返すことで、感情取得装置１１は、モデル２４の学習を行う。
行動選択時、感情取得装置１１は、例えば利用者の発話内容を音声認識した結果に基づき、予め定められている提示行動を提示する。感情取得装置１１は、提示した行動に対する利用者の表情画像を取得し、学習済みのモデル２４を用いて利用者の暗黙のフィードバックがポジティブであったかネガティブであったかを示す報酬を求め、求めた報酬を用いて次に提示する行動を選択する。

【0051】

（評価、評価結果）
次に、本実施形態の手法を評価した結果を説明する。
なお、ロボット１が人間とのインタラクション（対話）を通じて、簡単な共感・情動行動を学習し、利用者の嗜好に適応できているか否かを評価するために、２つの評価条件を設定した。それぞれの評価条件では、人間の感情状態を表現するために１つのモダリティを使用した。人間の表情とジェスチャーの両方が感情を表すことができるため、第１の条件では、人間の表情を人間の感情状態の表現に用いた。第２の条件では、人間のジェスチャー表現を人間の感情状態の表現として利用した。
どちらの条件でも、利用者は反応的な顔のフィードバックを暗黙の評価フィードバックとして行い、ロボット１はこの評価フィードバックである表情を取得して感情行動を学習する。このとき、利用者の状態とフィードバックは、別々のモジュールによって検出・伝達される（すなわち、ロボット１は、利用者の顔の情動状態を暗黙の顔フィードバックとして利用しない）。

【0052】

表情認識モジュールは、あらかじめ学習させた畳み込みニューラルネットワークを用いて人間の顔の感情状態を認識する。ジェスチャー認識モジュールは、深度センサで追跡した利用者の関節位置を用いて、ＣＮＮアーキテクチャを用いて関節特徴を分類する。
利用者の現在の感情状態を理解するには、通常、大量の反復処理とデータが必要である。
このため評価では、図６のように、２つの条件の状態空間を数個の感情状態に限定した。図６は、２つの評価条件における人間の感情状態と、それに対応するロボットが選択・実行可能な感情アクションの概要を示す図である。図７は、ジェスチャー表現と表情表現の例を示す図である。図６のように、第１条件では、「喜び」（happiness）、「悲しみ」（sadness）、「驚き」（surprise）、「恐れ」（fear）、「怒り」（anger）、「中立」（neutral）、「嫌悪」（disgust）の７つの表情表現を人間の感情状態として使用した。第二条件では、ジェスチャー表現である「拍手」（applauding）、「拒否」（rejection）、「静粛（静かに）」（bequiet）、「顔を覆う」（facecover）、「肩をすくめる」（shrugging）の５つのジェスチャー表現を人間の感情状態として使用した。なお、ロボット１は、駆動を動かしたり音の感情表現も可能であるが、人間と人間の感情的なやりとりの常識に基づいて、各条件で１０種類の感情ルーチン動作を設計した。

【0053】

次に評価結果例を説明する。
図８は、予測された暗黙の顔フィードバックからの学習曲線と、明示的およびランダムなフィードバックからの学習による学習曲線を示す図である。なお、それぞれの学習曲線は、ランダムなフィードバックのものを除き、各条件で１０人の参加者から収集したデータの平均をとったものである。図８において、横軸はインタラクション回数、縦軸は最適な動作を行った回数である。また、線ｇ６１は明示的なフィードバックの学習曲線であり、線ｇ６２は暗黙のフィードバックの学習曲線であり、線ｇ６３はランダムなフィードバックの学習曲線である。また符号ｇ５１は顔の感情状態の場合、ｇ５２はジェスチャーの感情状態の場合である。

【0054】

図８の評価結果から、明示的なフィードバックの場合、学習性能は急激に上昇し、顔の感情状態の場合は約７５回、ジェスチャーの感情状態の場合は約６０回のインタラクションで安定した。
このように、評価の結果、７つの顔感情状態と５つのジェスチャー感情状態のすべてにおいて、それぞれ最適な感情行動が得られた。また、本実施形態のモデルでは、５つの表情と４つのジェスチャーの感情状態に対して、さらにインタラクションを増やしても最適な情動行動を獲得できた。
そして、本実施形態の手法では、予測された暗黙のフィードバックからの学習は、最悪のシナリオを表すランダムなフィードバック（予測精度５０％）よりも、遙かに優れている。

【0055】

図９は、学習過程における、顔表現による人間の感情状態ごとの正規化された学習曲線を示す図である。横軸はインタラクション回数、縦軸は正規化された最適な動作を行った回数である。符号ｇ８１は「喜び」、符号ｇ８２は「悲しみ」、符号ｇ８３は「怒り」、符号ｇ８４は「恐れ」、符号ｇ８５は「驚き」、符号ｇ８６は「中立」、符号ｇ８７は「嫌悪」である。

【0056】

図１０は、学習過程における、ジェスチャー表現による人間の感情状態ごとの正規化された学習曲線を示す図である。横軸はインタラクション回数、縦軸は正規化された最適な動作を行った回数である。符号ｇ９１は「拍手」、符号ｇ９２は「拒否」、符号ｇ９３は「静粛」、符号ｇ９４は「顔を覆う」、符号ｇ９５は「肩をすくめる」である。
なお、各条件で１０人の参加者から収集したデータに対して、各学習曲線を平均化し正規化した。

【0057】

以上のように、本実施形態では、ロボット１に人との対話を通して適切な情動行動反応を学習させるようにした。ロボット１は、表情から得られる暗黙のフィードバックから学習し、利用者の好みに応じた最適な行動を選択することができる。そして、本実施形態によれば、明示的なフィードバックからの学習と同等の性能を達成しつつ、利用者が学習知識を事前に学習する必要性を排除することが可能である。

【0058】

＜第２実施形態＞
本実施形態では、人間中心の強化学習により、受け取った暗黙の表情のフィードバックに基づいて、継続的な報酬が予測されるロボットの感情行動を形成する。本実施形態では、受け取った暗黙の表情のフィードバックの価値や覚醒度をＲｕｓｓｅｌｌの感情円環モデルを用いて推定する。これにより、本実施形態によれば、利用者の感情の強さやエージェントの行動に対する満足度をより正確に記述することができ、現実的なインタラクションシナリオとより一致させることができる。

【0059】

（Ｒｕｓｓｅｌｌの感情円環モデル）
まず、Ｒｕｓｓｅｌｌの感情円環モデルについて説明する。図１１は、Ｒｕｓｓｅｌｌの感情円環モデルを示す図である。Ｒｕｓｓｅｌｌの円環構造モデルは、覚醒を１本の軸で表現している。Ａｒｏｕｓａｌ（ａｃｔｉｖｅ）が覚醒または興奮であり、ｐａｓｓｉｖｅが非覚醒または平静である。Ｖａｌｅｎｃｅ（ｐｏｓｉｔｉｖｅ）が快であり、ｎｅｇａｔｉｖｅが不快である。Ｒｕｓｓｅｌｌの円環構造モデルは、このように中心（Ｎｅｕｔｒａｌ）を通る直線で対応する感情が、対向する感情を表している。
なお、価値とは、快・不快の度合いを表す。覚醒度とは、興奮・平静の度合いを表す。

【0060】

本実施形態では、取得した暗黙の表情フィードバックの価値（valence）と覚醒度（arousal）に基づいて、連続的な報酬を予測するモデル（ＣＮＮ－ＲＮＮモデル）を学習させた。

【0061】

具体的には、ＭｏｒｐｈＳｅｔデータセット（参考文献１参照）を用いて予測モデルの学習を行った。このデータセットには、次元の一貫性が高いＶａｌｅｎｃｅ、Ａｒｏｕｓａｌのアノテーションを持つ１６６３８２枚の画像が含まれている。

【0062】

参考文献１；V. Vonikakis, N. Y. R. Dexter, and S. Winkler, “Morphset: Augmenting categorical emotion datasets with dimensional affect labels using face morphing,” in 2021 IEEE International Conference on Image Processing (ICIP), pp. 2713-2717, IEEE, 2021.

【0063】

データセット内の各画像の感情に対する報酬Ｒ_ｈは、Ｒｕｓｓｅｌｌの感情円環モデルを用いて推定したＶａｌｅｎｃｅとＡｒｏｕｓａｌに従って、次式（３）のように算出された。

【0064】

【数5】

【0065】

式（３）において、Ｖは推定された価値（Valence）であり、Ａは推定された覚醒度（Arousal）の値である。ＶａｌｅｎｃｅとＡｒｏｕｓａｌが高いほど、報酬の値は大きくなる。式（１）を用いて計算された報酬は、予測モデルの学習において、データセット内の画像のラベルとして使用した。また、学習セット、検証セット、テストセットの比率は、７：２：１である。

【0066】

（ロボット、感情取得装置の構成例）
次に、感情取得装置を備えるロボット１Ａの構成例を説明する。図１２は、本実施形態に係る感情取得装置を備えるロボットの構成例を示す図である。
図１２のように、ロボット１Ａは、例えば、感情取得装置１１Ａと、収音部１０３と、生成部１３と、表示部１１１と、スピーカー１１２と、制御部１４と、駆動部１５と、記憶部１６を備える。
感情取得装置１１Ａは、例えば、撮影部１０２と、取得部２２と、変換部２５と、感情推定部２６と、行動選択部２７Ａを備える。なお、収音部１０３は、感情取得装置１１が備えていてもよい。

【0067】

変換部２５は、撮影部１０２によって撮影された人間の表情を、人間の感情を表す連続的な値に変換する。

【0068】

感情推定部２６は、変換部２５が変換した連続的な値をマッピングし、対象人物の感情を推定する。なお、感情推定部２６が推定する結果は、上述したように、例えば、「笑顔」、「笑顔でない」、「怒り」、「軽蔑」、「悲しみ」等である。

【0069】

行動選択部２７Ａは、式（２）を用いて、行動セレクタで行動（情動行動）を選択・実行する。これにより、行動選択部２７Ａは、状態ｓ_ｔで可能な全ての行動の中からＱ値が最大となる行動ａを選択する。なお、Ａは状態ｓで可能な全ての行動の集合である。なお、行動選択部２７Ａは、感情推定部２６が備えていてもよい。

【0070】

ここで、変換部２５と感情推定部２６が行う処理について、さらに説明する。
変換部２５は、撮影された画像情報を、取得部２２を介して取得する。変換部２５は、取得した画像情報に対して、前処理（例えば切り出しや回転など）を行う。変換部２５は、ＣＮＮネットワークを用いて、前処理した画像の特徴量（人間の感情を表す連続的な値）を抽出する。

【0071】

感情推定部２６は、変換部２５が変換した連続的な値をＲｕｓｓｅｌｌの感情円環モデルへマッピングすることで、価値、覚醒度を求める。

【0072】

（処理手順）
次に、感情取得装置１１Ａが学習時に行う処理手順例を説明する。図１３は、本実施形態に係るロボットが行う学習時に処理手順例を示すである。
なお、以下の説明では、強化学習アルゴリズムとしてＱ－ｌｅａｒｎｉｎｇを用いる例を説明するが、用いるアルゴリズムはこれに限らず他のアルゴリズムであってもよい。

【0073】

（ステップＳ１）感情取得装置１１Ａは、全ての行動のＱ値をゼロに初期化するため、ランダムな行動を選択することから始める。

【0074】

（ステップＳ２）感情取得装置１１Ａは、時刻ｔにおいて、表情やジェスチャーで表される人間の現在の感情入力を取得し、取得した情報を人間の感情状態ｓ_ｔとして前処理を行う。

【0075】

（ステップＳ３）感情取得装置１１Ａは、式（２）を用いて、行動セレクタで行動（情動行動）を選択・実行する。すなわち、感情取得装置１１Ａは、状態ｓ_ｔで可能な全ての行動の中からＱ値が最大となる行動ａを選択する。

【0076】

（ステップＳ４）感情取得装置１１Ａは、利用者がロボット１Ａの情動行動を観察し、利用者の好みに応じた表情で反応した結果を取得する。感情取得装置１１Ａは、取得した表情情報を暗黙フィードバックモジュール（Implict feedback module）に入力して、継続的な報酬Ｒ_ｈを予測する。

【0077】

（ステップＳ５）感情取得装置１１Ａは、状態ｓ_ｔにおいて実行された行動ａ_ｔのＱ値Ｑ（ｓ_ｔ，ａ_ｔ）を、式（３）を用いて予測された暗黙の連続報酬Ｒ_ｈで更新する。すなわち、感情取得装置１１Ａは、古いＱ値Ｑ（ｓ_ｔ，ａ_ｔ）を予測された暗黙の連続報酬Ｒ_ｈで更新することで、新しいＱ値Ｑ（ｓ_ｔ，ａ_ｔ）を得る。
なお、ロボット１Ａの感情行動が望ましいものであれば、利用者は表情を通じて肯定的なフィードバックを与える。この場合は、選択された感情行動のＱ値は増加する。また、次回も同じ感情状態を検出した場合、ロボット１Ａは高い確率でその行動を選択する。そうでない場合、利用者は否定的なフィードバックを行い、選択された行動のＱ値は減少する。

【0078】

（ステップＳ６）感情取得装置１１Ａは、次の時刻ｔ＋１において、利用者の新しい感情状態ｓ_ｔ＋１を検出し、その状態ｓ_ｔ＋１において最もＱ値の大きい行動を、式（２）を用いて選択する。Ａは、感情取得装置１１Ａが、状態ｓ_ｔ＋１において実行可能なすべての行動の集合である。

【0079】

（ステップＳ７）新しいサイクルが開始される。人間は、新しい感情状態ｓ_ｔ＋１において、実行された行動に対して新しい暗黙の顔フィードバックを提供する。感情取得装置１１Ａは、連続報酬Ｒ_ｈを予測し、状態ｓ_ｔ＋１において選択された行動のＱ値を更新し、更新されたＱ値で検出された新しい状態において別の行動を選択する。
このサイクルは、感情取得装置１１Ａが検出されたすべての人間の感情状態に対して望ましい最適な行動を学習するまで繰り返される。このサイクルを繰り返すことで、検出された人間の感情状態に対して、望ましい最適行動を学習する。

【0080】

なお、上述した処理において、暗黙フィードバックモジュールは、例えば変換部２５、感情推定部２６が備える。
また、使用時、感情取得装置１１Ａは、上述した手順で学習した暗黙フィードバックモジュールに撮影された表情画像を入力することで、連続報酬Ｒ_ｈを予測する。そして、感情取得装置１１Ａは、予測した連続報酬Ｒ_ｈを用いて対象人物の感情を推定する。

【0081】

ここで、学習プロセスの実例をさらに説明する。
図１４、図１５は、１人の利用者が学習したヒートマップで、学習過程における４０回のインタラクションごとの顔の感情状態における学習モデル（すなわち、すべての感情行動のＱ値）を可視化したものである。図１４は、インタラクションが４０回のヒートマップ（ｇ２００）と、インタラクションが８０回のヒートマップ（ｇ２１０）である。図１５は、インタラクションが１２０回のヒートマップ（ｇ２２０）と、インタラクションが１６０回のヒートマップ（ｇ２３０）である。

【0082】

図１４、図１５のヒートマップにおいて、横軸は人間ユーザの７個の顔（表情）の感情状態を表し、縦軸は各状態で可能な１０個の感情ルーチン行動を表している。各ブロックは、１つの顔の状態における情動行動のＱ値を示している。また、比較しやすいように、すべてのＱ値は同じ尺度に正規化した。ブロックの色が濃いほど、Ｑ値が大きい。

【0083】

なお、各インタラクションの間、利用者は暗黙のうちに顔のフィードバックを行い、ロボット１ＡはＱ値を更新する。Ｑ値が最も大きいルーチン動作が、ロボット１Ａによって選択されることになる。しなわち、ロボット１Ａが新しいサイクルで同じ状態を検出した場合、ヒートマップで最も濃い色を持つ行動を選択することになる。

【0084】

４０回のインタラクションの後、ロボット１Ａは、すべての顔の感情状態のうち２つについて最適な情動行動を学習していることが分かる（ｇ２００）。
８０回のインタラクションの後、ロボット１Ａは、７つの状態のうち５つの状態に対して最適な行動を既に学習していることが分かる（ｇ２１０）。
１２０回のインタラクションの後、ロボット１Ａは、７つの顔の状態すべてについて最終的な最適方針を学習していることが分かる（ｇ２２０）。
１６０回のインタラクションの後、ロボット１Ａは、各状態における最適行動のＱ値が他の行動よりはるかに大きい（すなわち暗い）ため、暗黙のフィードバックの誤認識に頑健な安定した最適方針を学習していることが分かる（ｇ２３０）。
なお、図１４、図１５に示したヒートマップは一例であり、これに限らない。

【0085】

（暗黙フィードバックモジュール）
次に、暗黙フィードバックモジュールについて、さらに説明する。
図１５は、本実施形態に係る暗黙フィードバックモジュールの構成例を示す図である。図１６のように、暗黙フィードバックモジュール２００は、例えば、幾何学的特徴抽出部２０１と、表情分析モジュール２０２を備える。

【0086】

幾何学的特徴抽出部２０１は、撮影された表情画像から幾何学的な特徴量を、例えば上述した学習済みのＣＮＮネットワークを用いて抽出する。幾何学的特徴抽出部２０１は、変換部２５が備える。

【0087】

表情分析モジュール２０２は、幾何学的特徴抽出部２０１によって抽出された幾何学的な特徴量を、例えば上述した学習済みのＲＮＮネットワークに入力して、表情から利用者の感情を推定し、報酬を出力する。表情分析モジュール２０２は、例えば感情推定部２６が備える。

【0088】

（評価、評価結果）
評価において、暗黙フィードバックモジュールの学習には、例えばＭｏｒｐｈＳｅｔのデータセットを用いた。また、評価において、次元削減と予測モデルの学習には、ＰＬＳ（ＰａｒｔｉａｌＬｅａｓｔＳｑｕａｒｅｓ）法を使用した。
さらに評価条件は、第１実施形態と同様であり、ここでは連続的な暗黙のフィードバックを用いる点が異なる。

【0089】

評価では、利用者に様々な感情状態において、ロボット１Ａにどのような反応をさせたいかを想像してもらい、自分の好みに合わせて晴に学習させた。学習過程では、まずロボット１Ａが人間の情動状態を検出し、学習した方針に従って、各条件で可能な行動の集合から情動行動を選択し、実行する。利用者は、ロボット１Ａの行動を観察し、好みに応じて顔のフィードバックを行った。ロボット１Ａは、受け取った顔のフィードバックに基づいて、暗黙の報酬を予測し、方針を更新する。

【0090】

そして、２つの条件（第１実施形態の評価参照）におけるすべての感情状態について、利用者が満足する最適な行動をロボット１Ａが学習するまで、新たなサイクルが開始するようにした。時間の制約と人間の身体的耐久性のため、最大インタラクション数は、表情を感情状態とした第１条件では１６０回、ジェスチャー表現を感情状態とした第２条件では１２０回とした。全体の実験時間は約２５分であった。

【0091】

各条件において、利用者に２つのエージェントを訓練してもらった。１つは予測された暗黙の顔フィードバックから学習するエージェント、もう１つは明示的なフィードバックから学習するエージェントである。両エージェントは、ランダムなフィードバックから学習する第３のエージェントと比較した。
明示的フィードバックによる学習は、予測された暗黙的な顔のフィードバックを用いて晴を１００％の精度で学習させることに相当する。また、ランダムフィードバックからの学習は、予測された暗黙の顔のフィードバックを用いて、５０％の精度でＨａｒｕを学習させることに相当する。

【0092】

明示的なフィードバックはキーボードのボタンを押すことによって行われた。評価では、「ｎ」を押すと正の報酬が＋０．５され、「ｖ」を押すと負の報酬が－０．５されることを意味する。参加者は、波瑠の行動を観察した後、３秒以内にフィードバックを行うことが許された。暗黙のフィードバックとしては、センサで利用者の反応表情を取得し、連続する１０フレーム（約０．４秒）の平均認識量を予測暗黙のフィードバックとした。

【0093】

（暗黙のフィードバック予測のための潜在的成分の選択）
潜在成分の数は、ＰＬＳ（ＰａｒｔｉａｌＬｅａｓｔＳｑｕａｒｅｓ）法による連続的な暗黙のフィードバックの予測において重要な役割を果たす。潜在成分の数が多いと、現在のデータにはよく適合するが、オーバーフィッティングになる可能性があり、その結果、新しいデータに対するモデルの汎化がうまくいかなくなる。図１７は、トレーニング、検証データセット、テストデータセットにおいて、異なる数の潜在成分を保持した場合の暗黙のフィードバック予測の平均二乗誤差（ＭＳＥ）と共振相関係数（ＣＣＣ）を示す図である。符号ｇ２４１のグラフは、コンポーネント数に対する暗黙のフィードバック予測の平均二乗誤差の変化を示す。符号ｇ２４２のグラフは、コンポーネント数に対する暗黙のフィードバック予測の共振相関係数の変化を示す。線ｇ２５１はトレーニング、線ｇ２５３は検証データセット、線ｇ２５３はテストデータセットの結果である。なお、平均二乗誤差と共振相関係数は、次元感情認識手法の性能を測定するために広く用いられている指標である。共振相関係数値が高く、平均二乗誤差値が低ければ、性能が良いことを示す。また、なお、それぞれの学習曲線は、各条件で１０人の利用者から収集したデータを平均したものである。

【0094】

目標は、良い予測精度を達成するために、最小限の潜在的な成分の数を選択することである。図１７より、保持する潜在成分の数が増えるにつれて、トレーニングセット、検証セット、テストセットの平均二乗誤差は減少し、共振相関係数は増加することがわかる。また、図１７より、潜在成分数が８０個程度になると平均二乗誤差が最も低くなり、共振相関係数が頭打ちになることがわかる。このため、評価では、潜在的なフィードバック予測のために８１個の潜在的な成分を選択した。

【0095】

（予測された暗黙の顔面フィードバックからの学習）
Ｉ．パフォーマンス
まず、２つの実験条件における学習パフォーマンスを、各条件の利用者から収集したデータを平均化することで分析した。２つの条件における３種類のフィードバックによる学習成績の違いの有意性を調べるために、Ｗｅｌｃｈのｔ検定を行った。図１８は、明示的フィードバック、予測された暗黙的フィードバックおよびランダムフィードバックからの学習について最適な行動をとった感情状態の平均数とＷｅｌｃｈのｔ検定の結果を示す図である。なお、図１８において、ＥＦは明示的フィードバックを示し、ＩＦは暗黙的フィードバックを示し、ＲＦはランダムフィードバックを示す。

【0096】

図１８に示すように、「最終成績」は、２つの条件における明示的フィードバック、暗黙的フィードバック、ランダムフィードバックからロボット１Ａが学習した最適行動の平均数を表している。図１８のように、明示的フィードバックと暗黙的フィードバックによる学習成績の差は、顔の情動状態を伴う条件では有意である（ｒ＝０．０３９）ことがわかる。しかし、両条件における明示的フィードバックと暗黙的フィードバックの両方からの学習成績は、ランダムフィードバックよりも有意に良好であった。

【0097】

図１９は、予測された暗黙のフィードバックから、表情とジェスチャーの情動状態をそれぞれ学習した学習曲線を示す図である。図１９から、明示的フィードバックからの学習では、顔の感情状態については約１００回のインタラクション、ジェスチャーの感情状態については約７０回のインタラクションで、晴の成績は急激に上昇し、安定した状態にあることが分かる。すなわち、評価の結果、７つの顔の情動状態と５つのジェスチャーの情動状態すべてにおいて、それぞれ最適な情動行動が得られていることがわかる。評価結果より、連続した暗黙のフィードバックによる学習を通じて、個人の傾向を素早く理解し動的に適応することで、明示的フィードバックによる学習と同様の性能を達成できることが示された。

【0098】

なお、ランダムなフィードバックから学習した場合、ロボット１Ａの学習性能は大きく変動し、最悪のケース（予測精度５０％）を表している。また、明示的フィードバックと暗黙的フィードバックからの学習は、いずれもランダムフィードバックからの学習より有意に優れていることが示された。

【0099】

次に、２つの条件の利用者がトレーニングの過程で行った暗黙のフィードバックの数を評価した結果を説明する。図２０は、顔とジェスチャーの感情状態をそれぞれ用いた２つの条件における訓練過程でのポジティブおよびネガティブな暗黙のフィードバックの割合を示す図である。なお、各プロットは、各条件で１０人の利用者から収集したデータの平均値である。また、符号ｇ２８１は表情を用いた場合の訓練過程における結果であり、符号ｇ２８２はジェスチャーを用いた場合の訓練過程における結果である。符号ｇ２８１、ｇ２８２において、横軸はインタラクション回数、縦軸はポジティブおよびネガティブな暗黙のフィードバックの割合を示す。また、符号ｇ２８１、ｇ２８２において、符号ｇ２９１はネガティブな暗黙のフィードバックの割合、符号ｇ２９２はぽじてぃ部な暗黙のフィードバックの割合を示す。

【0100】

図２０から、利用者はトレーニングの初期段階において、ポジティブフィードバックよりもネガティブフィードバックを多く行う傾向があることがわかる。ロボット１Ａの方針が改善された後は、ネガティブフィードバックの割合が減少し、ポジティブフィードバックの割合が徐々に増加している。このことは、明示的なフィードバックからの学習と一致し、暗黙的なフィードバックのほとんどが、本実施形態の予測モジュールによって正しく解釈されたことを示している。

【0101】

（連続的な暗黙のフィードバックとの相関性）
次に、連続的な暗黙のフィードバックの予測精度および平均絶対誤差（MAE）と波瑠の成績の関係をピアソン相関検定で評価した。図２１は、各条件の平均評価と標準偏差、平均絶対誤差（ＭＡＥ）、および波瑠の学習成績とのピアソン相関を示す図である。

【0102】

図２１のように、暗黙の顔フィードバック予測の平均精度は、顔の感情状態でμ＝０．８８８、ジェスチャーの感情状態でμ＝０．８３３であり、両条件ともばらつきが小さい（第１条件ではσ＝０．０６７、第２条件ではσ＝０．０７４）。また、両条件における連続的な暗黙のフィードバックの予測の平均絶対誤差（ＭＡＥ）も同程度である（それぞれ平均μ＝０．０１１、標準偏差σ＝０．００８、μ＝０．０１６、σ＝０．００９）。
また、図２１から、ロボット１Ａのパフォーマンスは、予測精度と正の相関があり（第１条件ではｒ＝０．６１３、ｐ＝０．０５９、第２条件ではｒ＝０．３９６、ｐ＝０．２５７）、ＭＡＥと負の相関が高い（顔の感情状態の第１条件ではｒ＝０．９０９、ｐ＜０．００１、仕草の感情状態の第２条件ではｒ＝－０．５５２、ｐ＝０．０９８）ことがわかった。

【0103】

なお、図１７～図２１を用いて説明した上述した評価結果は一例であり、これに限らない。

【0104】

以上のように、本実施形態では、人間中心強化学習により、受け取った暗黙の顔フィードバックに基づき、継続的な報酬を予測しながらロボット１Ａの情動行動を形成するようにした。そして、本実施形態では、Ｒｕｓｓｅｌｌの感情円環モデルを用いて、取得した暗黙の表情フィードバックの価値や覚醒度を推定することで、人間の微妙な心理変化をより正確に推定し、より効果的なロボット行動学習を実現することができた。そして、評価結果から、本実施形態の手法を用いることで、ロボット１Ａは明示的なフィードバックから学習するのと同等の性能を得ることができ、人間ユーザが事前に学習インタフェースに慣れる必要がなく、控えめな学習プロセスを実現できることが確認できた。

【0105】

なお、本発明における感情取得装置１１（または１１Ａ）の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより感情取得装置１１（または１１Ａ）が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

【0106】

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0107】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

【符号の説明】

【0108】

１，１Ａ…ロボット、１１，１１Ａ…感情取得装置、１０３…収音部、１３…生成部、１１１…表示部、１１２…スピーカー、１４…制御部、１５…駆動部、１６…記憶部、１０２…撮影部、２２…取得部、２３…前処理部、２４…モデル、２５…変換部、２６…感情推定部、２７，２７Ａ…行動選択部

【図1】