IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特開2024-129918状態情報の一部を推定しながら強化学習を実行するエージェントのプログラム、サーバ及び学習方法
<>
  • 特開-状態情報の一部を推定しながら強化学習を実行するエージェントのプログラム、サーバ及び学習方法 図1
  • 特開-状態情報の一部を推定しながら強化学習を実行するエージェントのプログラム、サーバ及び学習方法 図2
  • 特開-状態情報の一部を推定しながら強化学習を実行するエージェントのプログラム、サーバ及び学習方法 図3
  • 特開-状態情報の一部を推定しながら強化学習を実行するエージェントのプログラム、サーバ及び学習方法 図4
  • 特開-状態情報の一部を推定しながら強化学習を実行するエージェントのプログラム、サーバ及び学習方法 図5
  • 特開-状態情報の一部を推定しながら強化学習を実行するエージェントのプログラム、サーバ及び学習方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024129918
(43)【公開日】2024-09-30
(54)【発明の名称】状態情報の一部を推定しながら強化学習を実行するエージェントのプログラム、サーバ及び学習方法
(51)【国際特許分類】
   G16H 20/00 20180101AFI20240920BHJP
【FI】
G16H20/00
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023039309
(22)【出願日】2023-03-14
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】山崎 悠大
(72)【発明者】
【氏名】上坂 大輔
(72)【発明者】
【氏名】柏本 幸俊
(72)【発明者】
【氏名】曹 蓮
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA15
(57)【要約】      (修正有)
【課題】強化学習のエージェントエンティティは、環境エンティティから一部の状態情報及び報酬値しか受信できなくても、行動情報を推定するプログラム、サーバ及び強化学習方法を提供する。
【解決手段】エージェントとなる装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される強化学習エンジン10と、教師有り学習エンジン11と、判定部12と、第2の状態情報要求部13と、を有するエージェントエンティティ1であって、強化学習エンジン10は、第1のデータセットに含まれる「第1の状態情報」及び「第2の状態情報」と「報酬値」とによって強化学習モデルを訓練し、当該報酬値が最大となる「行動情報」を推定し、環境エンティティ2へ返信し、教師有り学習エンジン11は、訓練段階として、第1のデータセットに含まれる「第1の状態情報」と「報酬値」とを説明変数とし、「第2の状態情報」を目的変数として訓練する。
【選択図】図2
【特許請求の範囲】
【請求項1】
強化学習における環境エンティティと通信するエージェントエンティティとしてコンピュータを機能させるプログラムにおいて、
環境エンティティから、第1の状態情報及び第2の状態情報と報酬値とを含む第1のデータセットを受信した際に、
第1のデータセットに含まれる第1の状態情報及び第2の状態情報と報酬値とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定し、環境エンティティへ返信する強化学習エンジンと、
第1のデータセットに含まれる第1の状態情報と報酬値とを説明変数とし、第2の状態情報を目的変数として、教師有り学習モデルを訓練する教師有り学習エンジンと
して機能させ、
環境エンティティから、第1の状態情報と報酬値とを含む第2のデータセットを受信した際に、
教師有り学習エンジンは、第2のデータセットに含まれる第1の状態情報と報酬値とを入力し、第2の状態情報を推定し、
強化学習エンジンは、第2のデータセットに含まれる第1の状態情報と報酬値と、教師有り学習エンジンによって推定された第2の状態情報とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定し、環境エンティティへ返信する
ようにコンピュータを機能させることを特徴とするプログラム。
【請求項2】
教師有り学習エンジンによって推定された第2の状態情報と、第2のデータセットよりも前に受信した第1のデータセットに含まれる第2の状態情報との差が、所定閾値以下となるか否かを判定する判定手段と
して機能させ、
強化学習エンジンは、判定手段によって真と判定された際に、第2のデータセットに含まれる第1の状態情報と報酬値と、教師有り学習エンジンによって推定された第2の状態情報とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定する
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
【請求項3】
判定手段によって偽と判定された際に、環境エンティティへ、第2の状態情報を含む第1のデータセットの送信を要求する第2の状態情報要求手段と
して更にコンピュータを機能させることを特徴とする請求項2に記載のプログラム。
【請求項4】
エージェントエンティティは、1つ以上の環境エンティティと通信するものであり、
強化学習エンジンは、1つ以上の環境エンティティに対する共通の強化学習モデルを訓練し、
教師有り学習エンジンは、1つ以上の環境エンティティに対する共通の教師有り学習モデルを訓練する
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
【請求項5】
分散強化学習の方式として、複数のエージェントエンティティと通信するマスターエージェントエンティティを更に有し、
エージェントエンティティは、1つ以上の環境エンティティと通信すると共に、環境エンティティとの間で訓練した強化学習モデルを、マスターエージェントエンティティへ送信し、
マスターエージェントエンティティは、複数のエージェントエンティティから受信した強化学習モデルを統合したマスター強化学習モデルを生成し、当該マスター強化学習モデルを各エージェントエンティティへ配信する
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。

【請求項6】
環境エンティティは、端末であり、
エージェントエンティティは、サーバである
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
【請求項7】
端末は、ユーザに操作されるものであり、
第1の状態情報は、ユーザの身体的状態情報であり、
第2の状態情報は、ユーザの心理的状態情報であり、
報酬値は、ユーザの行動状態情報であり、
行動情報は、ユーザの行動変容に影響を与える介入情報である
ようにコンピュータを機能させることを特徴とする請求項6に記載のプログラム。
【請求項8】
身体的状態情報は、端末のセンサによって計測された移動距離であり、
心理的状態情報は、端末のディスプレイに表示された質問に対して回答されたアンケート結果であり、
行動状態情報は、端末のセンサによって計測された歩数である
ようにコンピュータを機能させることを特徴とする請求項7に記載のプログラム。
【請求項9】
身体的状態情報は、端末のセンサによって計測された第1の生体情報であり、
心理的状態情報は、端末のディスプレイに表示された質問に対して回答されたアンケート結果であり、
行動状態情報は、端末のセンサによって計測された第2の生体情報である
ようにコンピュータを機能させることを特徴とする請求項7に記載のプログラム。
【請求項10】
強化学習における環境エンティティとなる端末と通信する、エージェントエンティティとなるサーバにおいて、
端末から、第1の状態情報及び第2の状態情報と報酬値とを含む第1のデータセットを受信した際に、
第1のデータセットに含まれる第1の状態情報及び第2の状態情報と報酬値とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定し、端末へ返信する強化学習エンジンと、
第1のデータセットに含まれる第1の状態情報と報酬値とを説明変数とし、第2の状態情報を目的変数として、教師有り学習モデルを訓練する教師有り学習エンジンと
を有し、
端末から、第1の状態情報と報酬値とを含む第2のデータセットを受信した際に、
教師有り学習エンジンは、第2のデータセットに含まれる第1の状態情報と報酬値とを入力し、第2の状態情報を推定し、
強化学習エンジンは、第2のデータセットに含まれる第1の状態情報と報酬値と、教師有り学習エンジンによって推定された第2の状態情報とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定し、端末へ返信する
ことを特徴とするサーバ。
【請求項11】
環境エンティティとなる端末と通信する、エージェントエンティティとなるサーバの強化学習方法において、
サーバは、
端末から、第1の状態情報及び第2の状態情報と報酬値とを含む第1のデータセットを受信した際に、
強化学習エンジンを用いて、第1のデータセットに含まれる第1の状態情報及び第2の状態情報と報酬値とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定し、環境エンティティへ返信し、
教師有り学習エンジンを用いて、第1のデータセットに含まれる第1の状態情報と報酬値とを説明変数とし、第2の状態情報を目的変数として、教師有り学習モデルを訓練し、
端末から、第1の状態情報と報酬値とを含む第2のデータセットを受信した際に、
教師有り学習エンジンを用いて、第2のデータセットに含まれる第1の状態情報と報酬値とを入力し、第2の状態情報を推定し、
強化学習エンジンを用いて、第2のデータセットに含まれる第1の状態情報と報酬値と、教師有り学習エンジンによって推定された第2の状態情報とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定し、端末へ返信する
ことを特徴とするサーバの強化学習方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、強化学習(Reinforcement Learning)におけるエージェントの技術に関する。特に、エージェントエンティティとなるサーバが、環境エンティティとなる端末を操作するユーザに対して、その行動変容に影響を与える介入情報を送信する用途に適する。
【背景技術】
【0002】
強化学習とは、環境エンティティによって収集された経験に基づいて、エージェントエンティティが訓練及び推定を繰り返す技術をいう。具体的には、環境エンティティとエージェントエンティティとの間でやりとりを繰り返しながら、環境エンティティにおけるタスクの報酬値を最大化することができる。この技術は、教師有り学習や教師無し学習と異なって、データサンプルを事前に用意する必要がない。即ち、事前のデータサンプルの収集や、前処理、ラベル付けが不要になる。強化学習は、事実上の適切なインセンティブを与えることによって、人手を必要とせず、自ら学習を継続することができる。
【0003】
図1は、一般的な強化学習のフレームワークである。
【0004】
強化学習によれば、一般的に、環境エンティティは、検知した「状態情報」「報酬値」をエージェントエンティティへ送信する。これに対して、エージェントエンティティは、報酬値を最大化する「行動情報」を推定し、環境エンティティへ返信する。
環境エンティティは、その「行動情報」を実行した後、改めて検知した「状態情報」「報酬値」をエージェントエンティティへ送信する。これに対し、エージェントエンティティは、「行動情報」に対する結果となる「状態情報」及び「報酬値」で強化学習モデルを訓練しながら、報酬値を最大化する「行動情報」を新たに推定し、環境エンティティへ返信する。これを繰り返していく。
【0005】
従来、健康状態の目標値と、ユーザの健康状態の計測値とから、次に推奨すべき健康状態の目標値を出力する技術がある(例えば特許文献1参照)。この技術によれば、現在の健康状態と、予め設定された将来の理想的な健康状態とに基づいて、健康状態の次の目標値が決定される。更に効果的な健康状態の目標値を変位させながら、ユーザに適切な介入内容を提示していく。
【0006】
また、対象者の行動変容を支援するシステムの技術もある(例えば特許文献2参照)。この技術によれば、各ユーザに対して、行動変容要因毎に、行動変容テクニックが紐づけられた複数のメッセージを生成する。それらメッセージは、1回又は複数回に分けて、ユーザに出力される。そのメッセージにレスポンスしたユーザに対して、その行動変容要因に作用する行動変容テクニックを選択し、それに紐づけられたメッセージを生成する。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2020-035365号公報
【特許文献2】特許7062327号公報
【非特許文献】
【0008】
【非特許文献1】「強化学習」、[online]、[令和5年2月25日検索]、インターネット<URL:https://ja.wikipedia.org/wiki/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92>
【非特許文献2】「教師有り学習」、[online]、[令和5年2月25日検索]、インターネット<URL:https://ja.wikipedia.org/wiki/%E6%95%99%E5%B8%AB%E3%81%82%E3%82%8A%E5%AD%A6%E7%BF%92>
【発明の概要】
【発明が解決しようとする課題】
【0009】
前述した特許文献1によれば、推定装置は、ユーザの現在の健康状態を受信することによって、次の目標値を返信する。また、前述した特許文献2も、対象者からレスポンス情報を受信することによって、行動変容要因に応じたメッセージを返信する。
【0010】
これに対し、本願の発明者らは、強化学習について、環境エンティティが送信する一部の状態情報には、常に送信できないものがあるのではないか、と考えた。
例えば環境エンティティが、ユーザ操作可能な端末である場合を想定する。このとき、ユーザの身体的状態のような状態情報は、例えばセンサによって常に自動的に取得でき、エージェントエンティティへ送信可能であるであろう。一方で、ユーザの心理的状態のような状態情報は、例えばユーザへアンケートで問う必要があり、常に取得できるものではない。アンケートの場合、ユーザの回答負担が大きく、時間を要するためである。
本願の発明者らは、ユーザへの行動変容を促すシステムの場合、ユーザの身体的状態が同じであっても、ユーザの心理的状態の影響が大きいであろう、と考えた。
【0011】
また、強化学習のフレームワークによれば、一般的に、エージェントエンティティは、環境エンティティ毎に強化学習モデルを訓練している。
これに対し、本願の発明者らは、複数の環境エンティティに、状態情報及び報酬値に対応する行動情報は共通するのではないか、と考えた。
【0012】
そこで、本発明は、強化学習のエージェントエンティティとして、1つ以上の環境エンティティに共通の強化学習モデルを訓練し、環境エンティティから一部の状態情報及び報酬値しか受信できない場合であっても、行動情報を推定することができるプログラム、サーバ及び強化学習方法を提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明によれば、強化学習における環境エンティティと通信するエージェントエンティティとしてコンピュータを機能させるプログラムにおいて、
環境エンティティから、第1の状態情報及び第2の状態情報と報酬値とを含む第1のデータセットを受信した際に、
第1のデータセットに含まれる第1の状態情報及び第2の状態情報と報酬値とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定し、環境エンティティへ返信する強化学習エンジンと、
第1のデータセットに含まれる第1の状態情報と報酬値とを説明変数とし、第2の状態情報を目的変数として、教師有り学習モデルを訓練する教師有り学習エンジンと
して機能させ、
環境エンティティから、第1の状態情報と報酬値とを含む第2のデータセットを受信した際に、
教師有り学習エンジンは、第2のデータセットに含まれる第1の状態情報と報酬値とを入力し、第2の状態情報を推定し、
強化学習エンジンは、第2のデータセットに含まれる第1の状態情報と報酬値と、教師有り学習エンジンによって推定された第2の状態情報とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定し、環境エンティティへ返信する
ようにコンピュータを機能させることを特徴とする。
【0014】
本発明のプログラムにおける他の実施形態によれば、
教師有り学習エンジンによって推定された第2の状態情報と、第2のデータセットよりも前に受信した第1のデータセットに含まれる第2の状態情報との差が、所定閾値以下となるか否かを判定する判定手段と
して機能させ、
強化学習エンジンは、判定手段によって真と判定された際に、第2のデータセットに含まれる第1の状態情報と報酬値と、教師有り学習エンジンによって推定された第2の状態情報とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定する
ようにコンピュータを機能させることも好ましい。
【0015】
本発明のプログラムにおける他の実施形態によれば、
判定手段によって偽と判定された際に、環境エンティティへ、第2の状態情報を含む第1のデータセットの送信を要求する第2の状態情報要求手段と
して更にコンピュータを機能させることも好ましい。
【0016】
本発明のプログラムにおける他の実施形態によれば、
エージェントエンティティは、1つ以上の環境エンティティと通信するものであり、
強化学習エンジンは、1つ以上の環境エンティティに対する共通の強化学習モデルを訓練し、
教師有り学習エンジンは、1つ以上の環境エンティティに対する共通の教師有り学習モデルを訓練する
ようにコンピュータを機能させることも好ましい。
【0017】
本発明のプログラムにおける他の実施形態によれば、
分散強化学習の方式として、複数のエージェントエンティティと通信するマスターエージェントエンティティを更に有し、
エージェントエンティティは、1つ以上の環境エンティティと通信すると共に、環境エンティティとの間で訓練した強化学習モデルを、マスターエージェントエンティティへ送信し、
マスターエージェントエンティティは、複数のエージェントエンティティから受信した強化学習モデルを統合したマスター強化学習モデルを生成し、当該マスター強化学習モデルを各エージェントエンティティへ配信する
ようにコンピュータを機能させることも好ましい。
【0018】
本発明のプログラムにおける他の実施形態によれば、
環境エンティティは、端末であり、
エージェントエンティティは、サーバである
ようにコンピュータを機能させることも好ましい。
【0019】
本発明のプログラムにおける他の実施形態によれば、
端末は、ユーザに操作されるものであり、
第1の状態情報は、ユーザの身体的状態情報であり、
第2の状態情報は、ユーザの心理的状態情報であり、
報酬値は、ユーザの行動状態情報であり、
行動情報は、ユーザの行動変容に影響を与える介入情報である
ようにコンピュータを機能させることも好ましい。
【0020】
本発明のプログラムにおける他の実施形態によれば、
身体的状態情報は、端末のセンサによって計測された移動距離であり、
心理的状態情報は、端末のディスプレイに表示された質問に対して回答されたアンケート結果であり、
行動状態情報は、端末のセンサによって計測された歩数である
ようにコンピュータを機能させることも好ましい。
【0021】
本発明のプログラムにおける他の実施形態によれば、
身体的状態情報は、端末のセンサによって計測された第1の生体情報であり、
心理的状態情報は、端末のディスプレイに表示された質問に対して回答されたアンケート結果であり、
行動状態情報は、端末のセンサによって計測された第2の生体情報である
ようにコンピュータを機能させることも好ましい。
【0022】
本発明によれば、強化学習における環境エンティティとなる端末と通信する、エージェントエンティティとなるサーバにおいて、
端末から、第1の状態情報及び第2の状態情報と報酬値とを含む第1のデータセットを受信した際に、
第1のデータセットに含まれる第1の状態情報及び第2の状態情報と報酬値とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定し、端末へ返信する強化学習エンジンと、
第1のデータセットに含まれる第1の状態情報と報酬値とを説明変数とし、第2の状態情報を目的変数として、教師有り学習モデルを訓練する教師有り学習エンジンと
を有し、
端末から、第1の状態情報と報酬値とを含む第2のデータセットを受信した際に、
教師有り学習エンジンは、第2のデータセットに含まれる第1の状態情報と報酬値とを入力し、第2の状態情報を推定し、
強化学習エンジンは、第2のデータセットに含まれる第1の状態情報と報酬値と、教師有り学習エンジンによって推定された第2の状態情報とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定し、端末へ返信する
ことを特徴とする。
【0023】
本発明によれば、環境エンティティとなる端末と通信する、エージェントエンティティとなるサーバの強化学習方法において、
サーバは、
端末から、第1の状態情報及び第2の状態情報と報酬値とを含む第1のデータセットを受信した際に、
強化学習エンジンを用いて、第1のデータセットに含まれる第1の状態情報及び第2の状態情報と報酬値とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定し、環境エンティティへ返信し、
教師有り学習エンジンを用いて、第1のデータセットに含まれる第1の状態情報と報酬値とを説明変数とし、第2の状態情報を目的変数として、教師有り学習モデルを訓練し、
端末から、第1の状態情報と報酬値とを含む第2のデータセットを受信した際に、
教師有り学習エンジンを用いて、第2のデータセットに含まれる第1の状態情報と報酬値とを入力し、第2の状態情報を推定し、
強化学習エンジンを用いて、第2のデータセットに含まれる第1の状態情報と報酬値と、教師有り学習エンジンによって推定された第2の状態情報とによって強化学習モデルを訓練し、当該報酬値が最大となる行動情報を推定し、端末へ返信する
ことを特徴とするサーバ。
【発明の効果】
【0024】
本発明のプログラム、サーバ及び強化学習方法によれば、強化学習のエージェントエンティティとして、1つ以上の環境エンティティに共通の強化学習モデルを訓練し、環境エンティティから一部の状態情報及び報酬値しか受信できない場合であっても、行動情報を推定することができる。
【図面の簡単な説明】
【0025】
図1】一般的な強化学習のフレームワークである。
図2】本発明における強化学習の第1のエンティティ構成図である。
図3】本発明における強化学習の第2のエンティティ構成図である。
図4図2における歩行アシスタントの第1の説明図である。
図5図3における歩行アシスタントの第2の説明図である。
図6】本発明を分散強化学習の方式に適用したフレームワークである。
【発明を実施するための形態】
【0026】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0027】
図2は、本発明における強化学習の第1のエンティティ構成図である。
【0028】
図2によれば、強化学習の構成を表しており、エージェントエンティティ1と、1つ以上の環境エンティティ2とからなる。
本発明におけるエージェントエンティティ1は、強化学習エンジン10と、教師有り学習エンジン11と、判定部12と、第2の状態情報要求部13とを有する。これら機能構成部は、エージェントとなる装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、エージェントの装置における学習方法としても理解できる。
【0029】
エージェントエンティティ1は、環境エンティティ2から、以下の2つのパターンのデータセットを受信する。
第1のデータセット:第1の状態情報、第2の状態情報、報酬値
第2のデータセット:第1の状態情報、報酬値
【0030】
図2によれば、エージェントエンティティ1が、環境エンティティ2から、「第1のデータセット」を受信した場合を表す。第2の状態情報は、環境エンティティ2から常に受信可能なものではないとする。
【0031】
[強化学習エンジン10]
強化学習エンジン10は、第1のデータセットに含まれる「第1の状態情報」及び「第2の状態情報」と「報酬値」とによって強化学習モデルを訓練し、当該報酬値が最大となる「行動情報」を推定し、環境エンティティ2へ返信する。この機能は、一般的な強化学習に基づくものである(例えば非特許文献1参照)。
また、強化学習エンジン10は、環境エンティティ2毎に強化学習モデルを訓練するものではなく、1つ以上の環境エンティティ2に対する共通の強化学習モデルを訓練する。即ち、第1の状態情報及び報酬値の送信元の環境エンティティ2を識別しない。
【0032】
[教師有り学習エンジン11]
教師有り学習エンジン11は、訓練段階として、第1のデータセットに含まれる「第1の状態情報」と「報酬値」とを説明変数とし、「第2の状態情報」を目的変数として訓練する。この機能は、一般的な教師有り学習に基づくものである(例えば非特許文献2参照)。
教師有り学習エンジン11も、1つ以上の環境エンティティ2に対する共通の教師有り学習モデルを訓練する。即ち、第1の状態情報及び報酬値の送信元の環境エンティティ2を識別しない。
【0033】
[判定部12]
図2によれば、判定部12は、環境エンティティ2毎に、「第2の状態情報」を入力し、最後に受信した第2の状態情報を記憶していく。これについては、図3で後述する。
【0034】
図3は、本発明における強化学習の第2のエンティティ構成図である。
図3によれば、エージェントエンティティ1が、環境エンティティ2から、第1の状態情報と報酬値とを含む「第2のデータセット」を受信した場合を表す。
【0035】
[教師有り学習エンジン11]
教師有り学習エンジン11は、推定段階として、第2のデータセットに含まれる「第1の状態情報」と「報酬値」とを入力し、「第2の状態情報」を推定する。
【0036】
ここで、以下の2つの実施形態を有する。
(第1の実施形態)教師有り学習エンジン11は、推定した「第2の状態情報」をそのまま、強化学習エンジン10へ出力する。
そして、強化学習エンジン10は、第2のデータセットに含まれる「第1の状態情報」と「報酬値」と、教師有り学習エンジン11によって推定された「第2の状態情報」とによって強化学習モデルを訓練し、当該報酬値が最大となる「行動情報」を推定し、環境エンティティ2へ返信する。
【0037】
(第2の実施形態)教師有り学習エンジン11は、推定した「第2の状態情報」を、判定部12へ出力する。
[判定部12]
判定部12は、教師有り学習エンジン11によって推定された「第2の状態情報」と、第2のデータセットよりも前に受信した第1のデータセットに含まれる「第2の状態情報」との差が、所定閾値以下となるか否かを判定する。
【0038】
判定部12が、真(第2の状態情報同士の差が小さい)と判定した場合、教師有り学習エンジン11によって推定された「第2の状態情報」を、強化学習エンジン10へ出力する。これは、第2のデータセット(第1の状態情報及び報酬値)によって推定された第2の状態情報は、その第2のデータセットの前に受信した第1のデータセットの第2の状態情報と比較して類似することを意味する。判定部12は、前に受信した第2の状態情報を、図2によって予め記憶している。
そして、強化学習エンジン10は、第2のデータセットに含まれる「第1の状態情報」「報酬値」と、教師有り学習エンジン11によって推定された「第2の状態情報」とによって強化学習モデルを訓練し、当該報酬値が最大となる「行動情報」を推定する。
【0039】
判定部12が、偽(第2の状態情報同士の差が大きい)と判定した場合、その旨を第2の状態情報要求部13へ出力する。これは、第2のデータセット(第1の状態情報及び報酬値)によって推定された第2の状態情報は、その第2のデータセットの前に受信した第1のデータセットの第2の状態情報と比較して異なることを意味する。
[第2の状態情報要求部13]
第2の状態情報要求部13は、環境エンティティ2へ、第2の状態情報を含む第1のデータセットの送信を要求する。これによって、環境エンティティ2へ、第1データセット(第1の状態情報、第2の状態情報、報酬値)の送信を促す。
【0040】
図4は、図2における歩行アシスタントの第1の説明図である。
【0041】
図4によれば、本発明における強化学習のフレームワークを、ユーザの行動変容に適用したものである。エージェントエンティティ1を、サーバとし、環境エンティティ2を、ユーザに操作される端末として構成したものである。
【0042】
ここで、ユーザの行動変容への適用を想定して、サーバ1と端末2との間でやりとりされるデータセットに含まれる情報を、以下のように規定する。
第1の状態情報:ユーザの身体的状態情報
第2の状態情報:ユーザの心理的状態情報
報酬値 :ユーザの行動状態情報
行動情報 :ユーザの行動変容に影響を与える介入情報
【0043】
第1の状態情報(ユーザの身体的状態情報)と報酬値(ユーザの行動状態情報)とは、例えばセンサやデバイスによって常に検知可能なデータであるとする。そのために、端末2は、いつでも、第1の状態情報と報酬値とを、エージェントエンティティ1へ送信することができる。
これに対し、第2の状態情報(ユーザの心理的状態情報)は、例えばユーザに問い合わせて得られるアンケートのように、センサでは取得できない、ユーザの心理的内面のデータであるとする。ユーザの回答の負担を考慮すると、いつでも、第2の状態情報を、エージェントエンティティへ送信することができるものではない。
【0044】
また、環境エンティティの状態情報として、ユーザの身体的情報と心理的情報とを想定した場合、多数のユーザに共通して、身体的情報と心理的情報との間に何らかの相関性があると考えられる。そのために、教師有り学習エンジン11は、1つ以上のユーザに共通の教師有り学習モデルを訓練する。
【0045】
ここで、行動情報としての「介入情報」とは、ユーザの行動変容に影響を与えるべき強度に応じた、メッセージやその頻度であってもよい。強化学習エンジン10は、報酬値としてのユーザの「行動状態情報」を最大化するように、行動情報としての介入情報の強度を決定する。
【0046】
第1の具体例として、図4によれば、LX(Life Transformation)やヘルスケアのサービスを想定して、ユーザに歩行運動を勧めるために、以下のように規定する。
身体的状態情報:端末のセンサによって計測された移動距離
心理的状態情報:端末のディスプレイに表示された質問に対して回答された
アンケート結果
行動状態情報 :端末のセンサによって計測された歩数
介入情報 :歩行勧誘メッセージ
この具体例によれば、サーバ1は、強化学習エンジン10を用いて、端末2から受信した「ユーザの移動距離」と「ユーザからのアンケート結果」と「ユーザの歩数」とによって強化学習モデルを訓練する。そして、サーバ1は、ユーザの歩数を最大化する「歩行勧誘メッセージ」を推定し、端末2へ返信する。尚、移動距離及び歩数は、センサによって常時検知可能なものであるが、ユーザに対するアンケート結果は常時取得可能なものではない。
【0047】
図4によれば、強化学習エンジン10は、日時刻毎に、各ユーザにおける移動距離とアンケート結果と歩数とを入力し、介入情報を推定している。移動距離、アンケート結果、歩数、介入情報はそれぞれ、定量表現ではなく、正規化表現を用いている。所定範囲に正規化することによって、相対的な評価を可能としている。
また、介入情報は、その強度に応じて、メッセージの主張の強さを変更するものであってもよい。また、介入情報は、その強度に応じて、メッセージの送信回数を変更するものであってもよい。
【0048】
第2の具体例として、図4に限られず、以下のようなものであってもよい。
身体的状態情報:端末のセンサによって計測された第1の生体情報
心理的状態情報:端末のディスプレイに表示された質問に対して回答された
アンケート結果
行動状態情報 :端末のセンサによって計測された第2の生体情報
生体情報としては、例えば心拍数、血中酸素濃度、皮膚温、血圧、発汗量、活動量、ストレスレベル、脳波など、センサによって取得可能な情報であってもよい。端末2は、スマートウォッチやヘッドセットのようにユーザに装着させるデバイスから、これら生体情報を取得するものであってもよい。
【0049】
第1の具体例や第2の具体例であっても、心理的状態情報がアンケート結果である場合、ユーザに回答負荷がかかる。そのために、ユーザに対して、常にアンケートを問うこともできない。本発明によれば、ユーザに対するアンケートの回答回数が少なくても、強化学習エンジン10は、介入情報(行動情報)を、環境エンティティとなる端末2へ返信することができる。
【0050】
図5は、図3における歩行アシスタントの第2の説明図である。
【0051】
図5によれば、判定部12について、「所定閾値2」と規定したとする。また、移動距離、アンケート、歩数、介入情報それぞれの値は、0~15の範囲で正規化されているとする。
【0052】
15:00の時点で、ユーザ001については、以下のように受信している。
12:00: 移動距離10、 アンケート2 、歩数8
15:00: 移動距離13、 、歩数7
このとき、ユーザ001について、15:00に、教師有り学習エンジン11は、第2の状態情報としてアンケート3を推定したとする。
12:00: 移動距離10、 アンケート2 、歩数8
15:00: 移動距離13、推定(アンケート3)、歩数7
判定部12は、推定されたアンケート3と、第2のデータセットよりも前に受信した第1のデータセットに含まれるアンケート2との差が、所定閾値2以下となるか否かを判定する。ここで、差1(=3-2)は、所定閾値2以下であるために、推定されたアンケート3を、第2の状態情報として強化学習エンジン10へ入力する。これによって、強化学習エンジン10は、移動距離13と、アンケート3と、歩数7とから、介入情報を推定する。
【0053】
また、15:00の時点で、ユーザ002については、以下のように受信している。
12:00: 移動距離5、 アンケート5 、歩数5
15:00: 移動距離7、 、歩数3
このとき、ユーザ002について、15:00に、教師有り学習エンジン11は、第2の状態情報としてアンケート8を推定したとする。
12:00: 移動距離5、 アンケート5 、歩数5
15:00: 移動距離7、推定(アンケート8)、歩数3
判定部12は、推定されたアンケート8と、第2のデータセットよりも前に受信した第1のデータセットに含まれるアンケート5との差が、所定閾値2以下となるか否かを判定する。ここで、差3(=8-5)は、所定閾値2よりも大きいために、第2の状態情報要求部13からアンケート回答要求を、ユーザ002の端末2へ送信する。このとき、教師有り学習エンジン11が心理的状態(第2の状態情報)を推定した値と乖離している可能性が高い。ユーザ002の端末2は、アンケートを表示し、ユーザに回答を求める。そして、サーバ1としては、端末2からの第1のデータセット(移動距離、アンケート、歩数)を待ち、正確なアンケートの値によって、強化学習エンジン10を用いて訓練しようとする。
【0054】
更に、15:00の時点で、ユーザ003については、以下のように受信している。
12:00: 移動距離4、 アンケート4 、歩数5
15:00: 移動距離5、 、歩数6
このとき、ユーザ003について、15:00に、教師有り学習エンジン11は、第2の状態情報としてアンケート5を推定したとする。
12:00: 移動距離4、 アンケート4 、歩数5
15:00: 移動距離5、推定(アンケート5)、歩数6
判定部12は、推定されたアンケート5と、第2のデータセットよりも前に受信した第1のデータセットに含まれるアンケート4との差が、所定閾値2以下となるか否かを判定する。ここで、差1(=5-4)は、所定閾値2以下であるために、推定されたアンケート5を、第2の状態情報として強化学習エンジン10へ入力する。これによって、強化学習エンジン10は、移動距離5と、アンケート5と、歩数6とから、介入情報を推定する。
【0055】
図6は、本発明を分散強化学習の方式に適用したフレームワークである。
【0056】
エージェントエンティティ1は、1つ以上の環境エンティティ2と通信するものとし、強化学習エンジンのフレームワークを構成する。例えばエージェントエンティティ1及び環境エンティティ2が、ユーザ所持の端末(スマートフォン等)内で実行されているとする。この場合、端末は常に、ユーザに対して同期的な情報のやりとりによって実行される。
【0057】
図6によれば、分散強化学習の方式として、複数のエージェントエンティティ1と通信するマスターエージェントエンティティ3を更に有する。
エージェントエンティティ1は、1つ以上の環境エンティティ2との間で訓練した強化学習モデル(例えばパラメータ、勾配など)を、マスターエージェントエンティティ3へ送信する。
マスターエージェントエンティティ3は、複数のエージェントエンティティ2から受信した強化学習モデルを統合したマスター強化学習モデルを生成する。そして、そのマスター強化学習モデルを各エージェントエンティティ1へ配信し、強化学習モデルとして使用させる。
エージェントエンティティ1及び環境エンティティ2がユーザ所持の端末内で実行されている場合、サーバ内で実行されるマスターエージェントエンティティは、端末に対して非同期的にマスター強化学習モデルを生成していく。これによって、個別の強化学習のフレームワークとは異なり、広い知見に基づいたマスター強化学習モデルを構築することができる。
【0058】
以上、詳細に説明したように、本発明のプログラム、サーバ及び強化学習方法によれば、強化学習のエージェントエンティティとして、1つ以上の環境エンティティに共通の強化学習モデルを訓練し、環境エンティティから一部の状態情報及び報酬値しか受信できない場合であっても、行動情報を推定することができる。
【0059】
本発明によれば、ユーザに行動変容を促すサービスに適用可能となる。特に、LX(Life Transformation)やヘルスケアのサービスに適する。
具体的には、サーバが、強化学習のフレームワークを用いて、ユーザへの行動変容を促す介入情報(行動情報)を推定する際に、ユーザの身体的状態情報(第1の状態情報)に加えて、当該ユーザへのアンケートに対する心理的状態情報(第2の状態情報)も考慮することができる。一般に、心理的状態情報の収集には、ユーザの回答負担となるアンケートを実施する必要がある。これに対し、本発明によれば、常に心理的状態を取得することなく、身体的状態情報(第1の状態情報)と行動状態情報(報酬値)とから、心理的状態情報(第2の状態情報)を推定して、強化学習のフレームワークに取り込むことができる。
【0060】
また、本発明によれば、強化学習エンジンは、各環境エンティティを識別することなく、共通の強化学習モデルを訓練する。そのために、比較的より短い訓練期間で、複数のユーザに共通の強化学習モデルを訓練すると共に、その精度を向上させることができる。即ち、エージェントエンティティとのやりとりを始めたばかりの環境エンティティに対しても、比較的高い精度で、行動情報を推定することができる。
【0061】
尚、これにより、例えば「ユーザに行動変容を促すことができる」ことから、国連が主導する持続可能な開発目標(SDGs)の目標3「あらゆる年齢のすべての人々の健康的な生活を確保し、福祉を推進する」に貢献することが可能となる。
【0062】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0063】
1 エージェントエンティティ、サーバ
10 強化学習エンジン
11 教師有り学習エンジン
12 判定部
13 第2の状態情報要求部
2 環境エンティティ、端末
3 マスターエージェントエンティティ
図1
図2
図3
図4
図5
図6