IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

<>
  • 特許-レコメンドシステム及びレコメンド方法 図1
  • 特許-レコメンドシステム及びレコメンド方法 図2
  • 特許-レコメンドシステム及びレコメンド方法 図3
  • 特許-レコメンドシステム及びレコメンド方法 図4
  • 特許-レコメンドシステム及びレコメンド方法 図5
  • 特許-レコメンドシステム及びレコメンド方法 図6
  • 特許-レコメンドシステム及びレコメンド方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-02-16
(45)【発行日】2022-02-25
(54)【発明の名称】レコメンドシステム及びレコメンド方法
(51)【国際特許分類】
   G06F 16/90 20190101AFI20220217BHJP
   G06F 16/903 20190101ALI20220217BHJP
【FI】
G06F16/90
G06F16/903
【請求項の数】 6
(21)【出願番号】P 2018197228
(22)【出願日】2018-10-19
(65)【公開番号】P2020064537
(43)【公開日】2020-04-23
【審査請求日】2020-12-02
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100124084
【弁理士】
【氏名又は名称】黒岩 久人
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】ダヒリ シャイマ
(72)【発明者】
【氏名】帆足 啓一郎
【審査官】松尾 真人
(56)【参考文献】
【文献】特開2014-098623(JP,A)
【文献】米国特許出願公開第2016/0055236(US,A1)
【文献】特開2016-048417(JP,A)
【文献】特開2017-224190(JP,A)
【文献】特開2018-124867(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
複数の人の行動内容と気分との関係を示すデータセットに基づいて、ユーザに推奨する行動内容を提示する汎用機械学習モデル作成する汎用モデル作成部と、
前記汎用機械学習モデルに基づいて、特定ユーザ用の個人機械学習モデルを作成する個人モデル作成部と、
前記特定ユーザの気分を特定する気分特定部と、
前記気分特定部が特定した前記特定ユーザの気分を示す気分情報を前記個人機械学習モデルに入力することにより前記個人機械学習モデルから出力される推奨行動をレコメンドするレコメンド部と、
前記特定ユーザが前記推奨行動を実行したことによる気分の変化内容の期待値と、実際の前記特定ユーザの気分の変化内容との差分の大きさに対して前記個人機械学習モデルを変化させる度合を示す指標である更新感度の設定を受け付ける設定受付部と、
を有し、
前記気分特定部は、前記特定ユーザが前記推奨行動を実行する前の前記特定ユーザの気分と、前記レコメンド部が前記特定ユーザにレコメンドした前記推奨行動の内容と、前記特定ユーザが前記推奨行動を実行した後の前記特定ユーザの気分とを示すフィードバック情報を前記個人モデル作成部に入力し、
前記個人モデル作成部は、前記フィードバック情報が示す、前記特定ユーザが前記推奨行動を実行する前の前記特定ユーザの気分と、前記レコメンド部がレコメンドした前記推奨行動の内容と、前記特定ユーザが前記推奨行動を実行した後の前記特定ユーザの気分との関係、及び前記特定ユーザが前記推奨行動を実行する前と後の前記特定ユーザの気分の差分に前記更新感度を乗算した値の大きさ、に基づいて、前記個人機械学習モデルを更新する、
レコメンドシステム。
【請求項2】
前記個人モデル作成部は、前記気分特定部が所定の数の前記フィードバック情報を生成するたびに前記個人機械学習モデルを更新する、
請求項1に記載のレコメンドシステム。
【請求項3】
前記個人モデル作成部は、前記特定ユーザの気分が変化したことを示す前記フィードバック情報に基づいて前記個人機械学習モデルを更新する、
請求項1又は2に記載のレコメンドシステム。
【請求項4】
前記気分特定部は、前記特定ユーザの行動履歴に基づいて前記特定ユーザの気分を推定することにより前記気分情報を特定する、
請求項1からのいずれか一項に記載のレコメンドシステム。
【請求項5】
前記汎用モデル作成部は、GAILを用いることにより前記汎用機械学習モデルを作成し、
前記個人モデル作成部は、GAILを用いることなく前記個人機械学習モデルを作成する、
請求項1からのいずれか一項に記載のレコメンドシステム。
【請求項6】
コンピュータが実行する、
複数の人の行動内容と気分との関係を示すデータセットに基づいて、ユーザに推奨する行動内容を提示する汎用機械学習モデルを作成するステップと、
前記汎用機械学習モデルに基づいて、特定ユーザ用の個人機械学習モデルを作成するステップと、
前記特定ユーザの気分を示す気分情報を取得するステップと、
取得した前記特定ユーザの気分情報を前記個人機械学習モデルに入力することにより前記個人機械学習モデルから出力される推奨行動をレコメンドするステップと、
前記特定ユーザが前記推奨行動を実行したことによる気分の変化内容の期待値と、実際の前記特定ユーザの気分の変化内容との差分の大きさに対して前記個人機械学習モデルを変化させる度合を示す指標である更新感度の設定を受け付けるステップと、
前記特定ユーザが前記推奨行動を実行する前の前記特定ユーザの気分と、前記特定ユーザにレコメンドした前記推奨行動の内容と、前記特定ユーザが前記推奨行動を実行した後の前記特定ユーザの気分とを示すフィードバック情報が示す、前記特定ユーザが前記推奨行動を実行する前の前記特定ユーザの気分と、レコメンドした前記推奨行動の内容と、前記特定ユーザが前記推奨行動を実行した後の前記特定ユーザの気分との関係、及び前記特定ユーザが前記推奨行動を実行する前と後の前記特定ユーザの気分の差分に前記更新感度を乗算した値の大きさに基づいて前記個人機械学習モデルを更新するステップと、
を有するレコメンド方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、推奨する行動をレコメンドするレコメンドシステム及びレコメンド方法に関する。
【背景技術】
【0002】
GAN(Generative Adversarial Network)を用いてユーザの嗜好を推定し、推定した結果に基づいてユーザが取るべき行動をレコメンドする方法が知られている(例えば、非特許文献1を参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】ジャエユーン ユー他「レコメンドのためのエネルギーベースシーケンスGANと模倣学習との関係(Energy-Based Sequence GANs for Recommendation and Their Connection to Imitation Learning)」、2017年7月
【発明の概要】
【発明が解決しようとする課題】
【0004】
GANを用いることにより、柔軟な学習環境を提供することができる。例えば多数の人の行動内容と気分との関係を示す大量の教師データを用いることにより、人の気分を示すデータを入力することにより推奨する行動を出力できる機械学習モデルを作成することができる。
【0005】
しかしながら、行動内容と気分との関係は人によって異なるので、特定の個人に合った推奨行動をレコメンドするためには、特定の個人の行動内容と気分との関係を示す教師データが必要である。しかしながら、このような特定の個人に関する教師データを大量に取得することは困難である。そこで、散発的で少量の教師データを用いて、効果的に特定の個人の状態を推定し、特定の個人に推奨される行動をレコメンドすることが求められている。
【0006】
そこで、本発明はこれらの点に鑑みてなされたものであり、特定の個人に推奨される行動をレコメンドすることができるレコメンドシステム及びレコメンド方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の第1の態様のレコメンドシステムは、複数の人の行動内容と気分との関係を示すデータセットに基づいて、ユーザに推奨する行動内容を提示する汎用機械学習モデルを作成する汎用モデル作成部と、前記汎用機械学習モデルに基づいて、特定ユーザ用の個人機械学習モデルを作成する個人モデル作成部と、前記特定ユーザの気分を特定する気分特定部と、前記気分特定部が特定した前記特定ユーザの気分を示す気分情報を前記個人機械学習モデルに入力することにより前記個人機械学習モデルから出力される推奨行動をレコメンドするレコメンド部と、を有し、前記気分特定部は、前記レコメンド部が前記特定ユーザに前記推奨行動をレコメンドした後の前記特定ユーザの満足度を示すフィードバック情報を前記個人モデル作成部に入力し、前記個人モデル作成部は、前記フィードバック情報に基づいて前記個人機械学習モデルを更新する。
【0008】
前記個人モデル作成部は、前記気分特定部が所定の数の前記フィードバック情報を生成するたびに前記個人機械学習モデルを更新してもよい。
【0009】
前記個人モデル作成部は、前記ユーザの気分が変化したことを示す前記フィードバック情報に基づいて前記個人機械学習モデルを更新してもよい。
【0010】
前記フィードバック情報は、前記特定ユーザが前記推奨行動を実行する前の前記特定ユーザの気分と、前記レコメンド部が前記特定ユーザにレコメンドした前記推奨行動の内容と、前記特定ユーザが前記推奨行動を実行した後の前記特定ユーザの気分と、を示す情報を含み、前記個人モデル作成部は、前記フィードバック情報が示す前記推奨行動を前記レコメンド部がレコメンドする前の前記特定ユーザの気分と、前記レコメンド部がレコメンドした前記推奨行動の内容と、前記特定ユーザが前記推奨行動を実行した後の前記特定ユーザの気分との関係とに基づいて、前記個人機械学習モデルを更新してもよい。
【0011】
前記ユーザが前記推奨行動を実行したことによる気分の変化内容の期待値と、実際の前記ユーザの気分の変化内容との差分の大きさに対して前記個人機械学習モデルを変化させる度合を示す指標である更新感度の設定を受け付ける設定受付部をさらに有し、前記個人モデル作成部は、前記差分に前記更新感度を乗算した値の大きさに基づいて、前記個人機械学習モデルを更新してもよい。
【0012】
前記気分特定部は、前記特定ユーザの行動履歴に基づいて前記特定ユーザの気分を推定することにより前記気分情報を特定してもよい。
【0013】
前記汎用モデル作成部は、GAILを用いることにより前記汎用機械学習モデルを作成し、前記個人モデル作成部は、GAILを用いることなく前記個人機械学習モデルを作成してもよい。
【0014】
本発明の第2の態様のレコメンド方法は、複数の人の行動内容と気分との関係を示すデータセットに基づいて、ユーザに推奨する行動内容を提示する汎用機械学習モデルを作成するステップと、前記汎用機械学習モデルに基づいて、特定ユーザ用の個人機械学習モデルを作成するステップと、前記特定ユーザの気分を示す気分情報を取得するステップと、取得した前記特定ユーザの気分情報を前記個人機械学習モデルに入力することにより前記個人機械学習モデルから出力される推奨行動をレコメンドするステップと、前記特定ユーザに前記推奨行動をレコメンドした後に取得した前記特定ユーザの満足度を示すフィードバック情報に基づいて前記個人機械学習モデルを更新するステップと、を有する。
【発明の効果】
【0015】
本発明によれば、特定の個人に推奨される行動をレコメンドすることができるレコメンドシステム及びレコメンド方法を提供することができるという効果を奏する。
【図面の簡単な説明】
【0016】
図1】本実施形態に係るレコメンドシステムの概要を示す図である。
図2】レコメンドシステムの機能構成を示すブロック図である。
図3】ユーザ端末に表示されるメッセージ送受信用の画面の一例を示す図である。
図4】汎用機械学習システムの構成例を示す図である。
図5】個人機械学習システムの構成例を示す図である。
図6】メタ学習アルゴリズムの概要を示す図である。
図7】ユーザの行動履歴データを概念的に示す図である。
【発明を実施するための形態】
【0017】
[レコメンドシステムSの概要]
図1は、本実施形態に係るレコメンドシステムSの概要を示す図である。レコメンドシステムSは、ユーザの気分を推定し、推定した気分の内容に基づいて、ユーザに推奨する行動をレコメンドすることができるシステムである。レコメンドシステムSは、例えば美味しい料理を食べることで元気になる傾向にあるユーザの気分が悪い状態であると推定した場合に、仲の良い友人と一緒にレストランに行くことをユーザに推奨する。
【0018】
レコメンドシステムSは、汎用機械学習システムS1と、個人機械学習システムS2とを備える。汎用機械学習システムS1は、複数の人の行動内容と気分との関係を示すデータセットに基づいて、ユーザに推奨する行動内容を提示する汎用機械学習モデルを作成する。汎用機械学習システムS1は、例えば、多数の人から取得したデータセットに基づいてGAIL(Generative Adversarial Imitation Learning)を用いて学習することにより、一般的なユーザの気分を推定し、推定した結果に基づいて推奨行動を決定する。
【0019】
個人機械学習システムS2は、汎用機械学習システムS1が作成した汎用機械学習モデルに基づいて、例えばGAILを用いることなく、特定のユーザ用の個人機械学習モデルを作成する。以下の説明において、個人機械学習システムS2が個人機械学習モデルを作成した対象の特定のユーザをユーザUとする。
【0020】
個人機械学習システムS2は、汎用機械学習システムS1から取得した汎用機械学習モデルを初期の個人機械学習モデルとする。その後、個人機械学習システムS2は、ユーザUが実行した行動と、行動を実行した後の満足度との関係を示す情報を教師データとして用いて学習することにより、個人機械学習モデルを更新する。
【0021】
以下、図1を参照しながら、レコメンドシステムSにおける処理の流れを説明する。まず、汎用機械学習システムS1は、多数のユーザに関するデータセット(例えば、多数のユーザの行動内容と気分との関係を示すデータセット)に基づいて作成した汎用機械学習モデルを個人機械学習システムS2に通知する(図1における(1))。汎用機械学習システムS1は、定期的に汎用機械学習モデルを個人機械学習システムS2に通知してもよく、汎用機械学習モデルを更新するたびに、更新後の汎用機械学習モデルを個人機械学習システムS2に通知してもよい。
【0022】
続いて、個人機械学習システムS2は、ユーザUが使用するユーザ端末15(例えばスマートフォン、タブレット又はコンピュータ)から、ユーザUの場所等を示すユーザ状態情報とユーザUの気分を示す気分情報とを関連付けて取得する(図1における(2))。個人機械学習システムS2は、取得したユーザUに関する情報に基づいて、初期の個人機械学習モデルを作成する(図1における(3))。
【0023】
その後、個人機械学習システムS2は、ユーザUの気分情報を取得すると、取得した気分情報を個人機械学習モデルに入力し、個人機械学習モデルから出力される推奨行動の内容をユーザUにレコメンドする(図1における(4))。個人機械学習システムS2は、ユーザUの気分情報を取得せず、ユーザUのユーザ状態情報に基づいてユーザUの気分を推定してもよい。
【0024】
続いて、個人機械学習システムS2は、推奨行動をレコメンドした後に、ユーザUの状態を示すユーザ状態情報又はユーザUの気分を示す気分情報をユーザUのユーザ端末から取得する(図1における(5))。個人機械学習システムS2は、ユーザ状態情報又は気分情報に基づいて、ユーザUの満足度を特定する。個人機械学習システムS2は、ユーザUに推奨行動をレコメンドする前のユーザUの気分と、レコメンドした推奨行動と、特定した満足度とを教師データとして個人機械学習モデルに入力することにより、個人機械学習モデルを更新する(図1における(6))。
【0025】
以上説明したように、個人機械学習システムS2は、汎用機械学習システムS1から提供された汎用機械学習モデルに基づいて作成した個人機械学習モデルを用いて、ユーザUの気分に応じた推奨行動をレコメンドする。そして、ユーザUにレコメンドした推奨行動の内容と、ユーザUに推奨行動をレコメンドした後のユーザUの満足度とに基づいて、個人機械学習モデルを更新する。個人機械学習システムS2は、ユーザUの満足度に基づいて、レコメンド前後のユーザの気分の変化を特定し、気分の変化に基づいて個人機械学習モデルを更新してもよい。
【0026】
個人機械学習システムS2は、例えば、推奨行動をレコメンドした後にユーザUの気分が改善した度合いが第1閾値よりも大きい場合、又は推奨行動をレコメンドした後にユーザUの気分が改善した度合いが第1閾値以下の第2閾値よりも小さい場合に、個人機械学習モデルを更新する。個人機械学習システムS2は、推奨行動をレコメンドした後にユーザUの気分が改善した度合いが想定範囲内(例えば第2閾値以上第1閾値以下の範囲内)である場合に、個人機械学習モデルを更新しない。レコメンドシステムSがこのような構成を有することで、特定の個人における推奨行動と気分との関係を示す教師データが大量にない場合であっても、短期間で精度の高い個人機械学習モデルを作成することができる。
【0027】
[レコメンドシステムSの構成]
図2は、レコメンドシステムSの機能構成を示すブロック図である。レコメンドシステムSは、汎用モデル作成部11と、個人モデル作成部12と、気分特定部13と、レコメンド部14と、ユーザ端末15と、設定受付部16とを有する。汎用モデル作成部11は、例えば図1における汎用機械学習システムS1に含まれている。個人モデル作成部12、気分特定部13及びレコメンド部14は、例えば図1における個人機械学習システムS2に含まれている。
【0028】
汎用モデル作成部11は、複数の人の行動内容と気分との関係を示すデータセットに基づいて、ユーザに推奨する行動内容を提示する汎用機械学習モデルを作成するとともに、作成した汎用機能学習モデルを記憶するユニットである。汎用モデル作成部11は、例えばGAILを用いることにより汎用機械学習モデルを作成する。汎用モデル作成部11は、記憶している汎用機械学習モデルを個人モデル作成部12に提供する。
【0029】
個人モデル作成部12は、汎用機械学習モデルに基づいて、ユーザU用の個人機械学習モデルを作成するとともに、作成した個人機械学習モデルを記憶するユニットである。個人モデル作成部12は、汎用モデル作成部11から提供された汎用機械学習モデルを更新することにより個人機械学習モデルを作成する。個人モデル作成部12は、例えばGAILを用いることなく個人機械学習モデルを作成する。個人モデル作成部12は、例えばLSTM(Long Short-term Memory)を用いたメタ学習により、汎用機械学習システムS1が作成した汎用機械学習モデルをユーザUに最適化して個人機械学習モデルを作成する。
【0030】
気分特定部13は、特定のユーザであるユーザUの気分を特定する。気分特定部13は、例えばユーザUが使用するユーザ端末15においてユーザUが入力した気分情報に基づいて、ユーザUの気分を特定する。気分特定部13は、ユーザ端末15から送信されたユーザ端末15の位置を示す情報、ユーザ端末15の周囲の天候を示す情報、及びユーザ端末15により撮影された画像等のように、ユーザUの行動履歴を示す情報に基づいてユーザUの気分を推定することにより、ユーザUの気分を特定してもよい。
【0031】
気分特定部13は、特定したユーザUの気分を個人モデル作成部12に入力する。気分特定部13は、例えば、レコメンド部14がユーザUに推奨行動をレコメンドした後に特定したユーザUの気分を示すフィードバック情報を個人モデル作成部12に入力する。
【0032】
なお、気分特定部13がユーザUの気分を特定するための方法としては、各種の方法を適用することができる。気分特定部13は、例えば、ワンホットエンコーダーモデル(OHE:One-Hot Encoder)又はカテゴリーベクターモデル(Cat2Vec)を使用して、ユーザUの行動の内容を数値化する。気分特定部13は、数値化した内容を、予めユーザの行動と感情との関係を学習した再帰型ニューラルネットワークにより構成される機械学習モデルに入力することにより、ユーザUの気分を特定することができる。
【0033】
レコメンド部14は、気分特定部13が特定したユーザUの気分を示す気分情報を個人機械学習モデルに入力することにより個人機械学習モデルから出力される推奨行動の内容をユーザUにレコメンドする。レコメンド部14は、例えばAIエージェントを含んでいる。レコメンド部14は、ユーザUの場所及びユーザUがいる場所の天候等のようにユーザUの状態を示すユーザ状態情報をさらに取得し、ユーザ状態情報及び気分情報を個人機械学習モデルに入力してもよい。レコメンド部14は、個人機械学習モデルから出力された推奨行動の内容をユーザ端末15に通知する。
【0034】
ユーザ端末15は、ユーザUが用いる情報端末であり、情報を表示するディスプレイ、情報を入力するための操作デバイス(例えばタッチパネル)、及び情報を送信するための通信デバイスを有する。ユーザ端末15は、ユーザUが気分を示す気分情報を入力するための画面を表示し、ユーザUが入力した気分情報をレコメンド部14に送信する。ユーザ端末15は、レコメンド部14との間で、チャット形式でメッセージをやり取りするメッセージ送受信アプリケーションソフトウェアにより気分情報の入力を受け付けて、入力された気分情報を送信してもよい。
【0035】
図3は、ユーザ端末15に表示されるメッセージ送受信用の画面の一例を示す図である。図3に示す例においては、レコメンド部14がチャットボット機能を有していることが想定されており、レコメンド部14がユーザ端末15に送信したメッセージと、ユーザUが入力したメッセージとが交互に表示されている。レコメンド部14は、ユーザUの気分が悪いことを気分特定部13が特定した場合に、気分を良くするための推奨行動の内容をユーザ端末15に送信する。図3に示す例においては、レコメンド部14は、ユーザUがたくさん働いて疲れていると推定したことにより、疲れを癒やすことにつながる推奨行動として、レストランXにAさんと行くことを推奨している。
【0036】
設定受付部16は、個人機械学習モデルの更新感度の設定を受け付ける。更新感度は、ユーザUが推奨行動を実行したことによる気分の変化内容の期待値と、実際のユーザUの気分の変化内容との差分の大きさに対して個人機械学習モデルを変化させる度合を示す指標である。設定受付部16は、受け付けた更新感度を個人モデル作成部12に通知する。個人モデル作成部12は、例えば、差分に更新感度を乗算した値の大きさに基づいて、個人機械学習モデルを更新する。
【0037】
更新感度が大きい場合、個人モデル作成部12は、上記の差分が小さくても個人機械学習モデルを更新するので、個人モデル作成部12は、個人機械学習モデルを頻繁に更新することができる。更新感度が小さい場合、個人モデル作成部12は個人機械学習モデルを頻繁に更新しないので、例外的な事象が発生したことにより個人機械学習モデルが不適切に更新されてしまうことを防止できる。
【0038】
[個人機械学習モデルの更新]
個人モデル作成部12は、気分特定部13から入力されるフィードバック情報に基づいて個人機械学習モデルを更新する。個人モデル作成部12は、例えば、気分特定部13が所定の数のフィードバック情報を生成するたびに個人機械学習モデルを更新する。フィードバック情報は、例えばユーザUが推奨行動を実行した後のユーザUの満足度を示す情報を含む。フィードバック情報は、ユーザUが推奨行動を実行する前のユーザUの気分と、レコメンド部14がユーザUにレコメンドした推奨行動の内容と、ユーザUが推奨行動を実行した後のユーザUの気分と、を示す情報を含んでもよい。フィードバック情報は、ユーザUが推奨行動を実行する前後のユーザUの気分の変化量を示す情報を含んでもよい。
【0039】
個人モデル作成部12は、推奨行動をレコメンド部14がレコメンドする前のユーザUの気分と、レコメンド部14がレコメンドした推奨行動の内容と、ユーザUが推奨行動を実行した後のユーザUの満足度との関係とに基づいて、個人機械学習モデルを更新する。個人モデル作成部12は、推奨行動をレコメンド部14がレコメンドする前のユーザUの気分と、ユーザUが実行した推奨行動の内容と、ユーザUが推奨行動を実行した後のユーザUの満足度との関係とに基づいて、個人機械学習モデルを更新してもよい。
【0040】
また、個人モデル作成部12は、ユーザUの気分が変化したことを示すフィードバック情報に基づいて個人機械学習モデルを更新してもよい。気分特定部13は、例えば、レコメンド部14が推奨行動をユーザ端末15に送信してから、推奨行動を実行するために要すると推定される時間が経過した後にユーザUの気分が変化したことを検出した場合、推奨行動を送信する前のユーザUの気分、推奨行動を送信した後のユーザUの気分、及び推奨行動の内容を教師データとして個人モデル作成部12に入力する。個人モデル作成部12は、入力された教師データに基づいて再学習することにより、個人機械学習モデルを更新する。
【0041】
個人モデル作成部12は、レコメンド部14が推奨行動をユーザ端末15に送信してから、推奨行動を実行するために要すると推定される時間が経過した後にユーザUの気分が変化した量が、予め想定される変化量よりも小さい場合に、個人機械学習モデルを更新してもよい。このようにするために、気分特定部13は、レコメンド部14が推奨行動を送信する前のユーザUの気分と推奨行動を送信した後のユーザUの気分との差が所定の量よりも小さい場合に、推奨行動を送信する前のユーザUの気分、推奨行動を送信した後のユーザUの気分、及び推奨行動の内容を教師データとして個人モデル作成部12に入力する。このようにすることで、ユーザUの気分を改善するために効果が大きい推奨行動を出力するように個人機械学習モデルを改善することができる。
【0042】
[汎用機械学習システムS1及び個人機械学習システムS2の構成例]
図4は、汎用機械学習システムS1の構成例を示す図である。図5は、個人機械学習システムS2の構成例を示す図である。汎用機械学習システムS1は、GAILアルゴリズムを使用する。一方、個人機械学習システムS2は、強化学習(RL:Reinforcement Learning)フレームワークにおいて、模倣学習(Imitation Learning)アルゴリズムを使用する。
【0043】
汎用機械学習システムS1は、一般的なユーザの気分(嬉しい、悲しい、普通)を特定のファクターとマッチングさせるための汎用ポリシーを学習することを目的としている。特定のファクターは、例えば、場所、社会環境、日時及び行動内容の少なくともいずれかである。汎用機械学習システムS1におけるポリシーは、GAILアルゴリズムを用いて、全てのユーザのデータ(C3)に基づいて学習される。
【0044】
汎用機械学習システムS1は、敵対的ゲーム(Adversarial Game)の判別器(Discriminator)(C5)及び汎用機械学習モデル(C4)という2つの主要な機能ブロックを有する。GAILの目標は、エキスパートのデモンストレーションを模倣することにより学習することである。デモンストレーションは、多数のユーザから集められた履歴データにより表される。履歴データは、例えば、過去の行動内容と気分との関係を示すデータセットである。GAILは、モデルが不要な模倣学習アルゴリズムであり、高次元環境における複雑なふるまいを模倣する従来のモデルが不要な方法に比べて、顕著にパフォーマンスが高い。
【0045】
個人機械学習システムS2の目的は、汎用機械学習システムS1から取得した汎用機械学習モデルを、特定のユーザUから得られる少数のサンプルに基づいて更新することである。個人機械学習システムS2は、主に4つの要素により構成されている。ユーザの少数の行動履歴データ(C8)は、汎用機械学習システムS1で学習されたネットワークを更新するために用いられる。個人機械学習モデル(C6)は、メタ学習を実行する模倣学習器(C7)を用いて、順次更新される。個人機械学習モデル(C6)及び模倣学習器(C7)は、図2に示した個人モデル作成部12に対応する。
【0046】
図6は、メタ学習アルゴリズムの概要を示す図である。図7は、ユーザの行動履歴データを概念的に示す図である。メタ学習モデルは、行動履歴データの微分と損失関数(Loss)により規定される。個人機械学習モデル(C6)が使用する深層ニューラルネットワークの学習に用いられる標準的な最適化アルゴリズムは、以下の式により表される。
θ=θt-1-α(∇θt-1)Lt-1
ここで、αは、上述の更新感度に対応する係数である。図6における白い四角は、上記の最適化処理をするオプティマイザである。
【0047】
ここで、行動履歴データ(C8)は、異なるコンテキストにおけるユーザUの履歴データである。ユーザUの気分をコンテキストだとすると、ユーザUの履歴データは、図7に示す構造を有する。それぞれの気分に対して、ユーザUがいる場所、ユーザUの行動内容、周囲の人々及び日時といった異なる項目に関係する少数のサンプルが関連付けられている。
【0048】
AIエージェント(C9)は、図2に示したレコメンド部14に対応しており、推奨行動を生成する。AIエージェント(C9)は、例えば、ユーザUの履歴データに含まれる一以上の項目(すなわち、場所、行動内容、周囲の人々及び日時)に関連付けられた複数の推奨行動候補のリストLから、レコメンドする推奨行動を選択する。複数の推奨行動候補のリストLは、個人機械学習モデル(C6)から送信される更新されたポリシーに基づいて決定される。AIエージェント(C9)は、ユーザUの気分が悪い状態であると予測した場合に、気分を改善することができる推奨行動候補を選択する。
【0049】
[レコメンドシステムSによる効果]
以上説明したように、レコメンドシステムSは、複数のユーザの気分に基づいて、取得した気分に基づいて推奨する行動内容を提示する汎用機械学習モデルを作成する汎用モデル作成部11と、汎用機械学習モデルに基づいて、特定ユーザ用の個人機械学習モデルを作成する個人モデル作成部12と、を有する。
【0050】
レコメンド部14は、気分特定部13が特定した特定ユーザの気分を示す気分情報を個人機械学習モデルに入力することにより個人機械学習モデルから出力される推奨行動をレコメンドする。個人モデル作成部12は、特定ユーザの満足度を示すフィードバック情報に基づいて個人機械学習モデルを更新する。レコメンドシステムSがこのように構成されていることにより、特定のユーザUの行動履歴を示すデータが大量にない場合であっても、個人に推奨される行動をレコメンドするために使用可能な個人機械学習モデルを作成することができる。
【0051】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
【符号の説明】
【0052】
11 汎用モデル作成部
12 個人モデル作成部
13 気分特定部
14 レコメンド部
15 ユーザ端末
16 設定受付部
図1
図2
図3
図4
図5
図6
図7