IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7586188情報処理装置、情報処理方法、情報処理システム、および記憶媒体
<>
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図1
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図2
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図3
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図4
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図5
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図6
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図7
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図8
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図9
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図10
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図11
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図12
  • 特許-情報処理装置、情報処理方法、情報処理システム、および記憶媒体 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-11
(45)【発行日】2024-11-19
(54)【発明の名称】情報処理装置、情報処理方法、情報処理システム、および記憶媒体
(51)【国際特許分類】
   G06N 20/00 20190101AFI20241112BHJP
【FI】
G06N20/00 160
【請求項の数】 9
(21)【出願番号】P 2022556750
(86)(22)【出願日】2020-10-14
(86)【国際出願番号】 JP2020038769
(87)【国際公開番号】W WO2022079829
(87)【国際公開日】2022-04-21
【審査請求日】2023-04-06
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】竹村 慧
【審査官】渡辺 順哉
(56)【参考文献】
【文献】国際公開第2019/198408(WO,A1)
【文献】米国特許出願公開第2015/0051973(US,A1)
【文献】国際公開第2020/012589(WO,A1)
【文献】万代悠作 ほか,LinUCBのモンテカルロ木探索への応用,第19回ゲームプログラミングワークショップ2014,日本,一般社団法人 情報処理学会,2014年10月31日,pp.174-179,ISBN 978-4-907626-11-2
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
複数の選択肢の各々に紐付けられた関連情報を取得する取得手段と、
前記複数の選択肢のうち何れを選択するかを決定する決定手段と、
前記決定手段が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段と、を備え、
前記決定手段は、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器の各々を互いに独立して前記関係性を学習させ、学習させた当該複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記決定手段は、
(i)何れかの予測器を用いて、当該予測器が対象とする1以上の選択肢である選択肢群の各々について、前記利得の予測値に付随する予測誤差を予測し、
(ii)各予測誤差に関する判定条件が満たされない場合に、当該予測器が対象とする選択肢群のうち何れを選択するかを決定し、
(iii)前記判定条件が満たされる場合に、前記対象とする選択肢群から1以上の選択肢を抽出し、抽出した1以上の選択肢を他の予測器が対象とする選択肢群として、当該他の予測器を用いて各選択肢の前記予測誤差を予測し、
前記関連情報は、前記複数の選択肢の各々の特徴を示す特徴情報である、
ことを特徴とする情報処理装置。
【請求項2】
前記決定手段は、
前記判定条件として、各予測誤差が閾値以下であることを含む条件を用いる、
ことを特徴とする請求項に記載の情報処理装置。
【請求項3】
前記決定手段は、
前記判定条件として、前記関連情報の次元数に基づく条件を用いる、ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記蓄積手段は、
前記学習データを、前記決定手段が前記選択肢の決定に用いた予測器に関連付けて前記記憶装置に蓄積し、
前記複数の予測器の各々は、前記記憶装置に蓄積された学習データのうち、自身に関連付けられた学習データを参照して前記関係性を学習する、
ことを特徴とする請求項1からの何れか1項に記載の情報処理装置。
【請求項5】
各予測器は、前記関係性として線形な関係性を学習する、
ことを特徴とする請求項1からの何れか1項に記載の情報処理装置。
【請求項6】
情報処理装置が、
複数の選択肢の各々に紐付けられた関連情報を取得すること、
前記複数の選択肢のうち何れを選択するかを決定すること、および、
決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積することを含み、
前記複数の選択肢のうち何れを選択するかを決定することにおいて、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器の各々を互いに独立して前記関係性を学習させ、学習させた当該複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記複数の選択肢のうち何れを選択するかを決定することにおいて、
(i)何れかの予測器を用いて、当該予測器が対象とする1以上の選択肢である選択肢群の各々について、前記利得の予測値に付随する予測誤差を予測し、
(ii)各予測誤差に関する判定条件が満たされない場合に、当該予測器が対象とする選択肢群のうち何れを選択するかを決定し、
(iii)前記判定条件が満たされる場合に、前記対象とする選択肢群から1以上の選択肢を抽出し、抽出した1以上の選択肢を他の予測器が対象とする選択肢群として、当該他の予測器を用いて各選択肢の前記予測誤差を予測し、
前記関連情報は、前記複数の選択肢の各々の特徴を示す特徴情報である、
ことを特徴とする情報処理方法。
【請求項7】
コンピュータを情報処理装置として機能させるプログラムを記憶した記憶媒体であって、
前記プログラムは、前記コンピュータを、
複数の選択肢の各々に紐付けられた関連情報を取得する取得手段と、
前記複数の選択肢のうち何れを選択するかを決定する決定手段と、
前記決定手段が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段として機能させ、
前記決定手段は、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器の各々を互いに独立して前記関係性を学習させ、学習させた当該複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記決定手段は、
(i)何れかの予測器を用いて、当該予測器が対象とする1以上の選択肢である選択肢群の各々について、前記利得の予測値に付随する予測誤差を予測し、
(ii)各予測誤差に関する判定条件が満たされない場合に、当該予測器が対象とする選択肢群のうち何れを選択するかを決定し、
(iii)前記判定条件が満たされる場合に、前記対象とする選択肢群から1以上の選択肢を抽出し、抽出した1以上の選択肢を他の予測器が対象とする選択肢群として、当該他の予測器を用いて各選択肢の前記予測誤差を予測し、
前記関連情報は、前記複数の選択肢の各々の特徴を示す特徴情報である、
ことを特徴とするプログラムを記憶した記憶媒体。
【請求項8】
情報処理装置と、サーバとを含む情報処理システムであって、
前記情報処理装置は、
複数の選択肢の各々に紐付けられた関連情報を前記サーバから受信する取得手段と、
前記複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を示す情報を前記サーバに送信する決定手段と、
前記決定手段が決定した選択肢を選択して得られた利得の観測値を前記サーバから受信し、受信した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段と、を備え、
前記決定手段は、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器の各々を互いに独立して前記関係性を学習させ、学習させた当該複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記サーバは、
前記関連情報を取得して前記情報処理装置に送信する取得手段と、
前記情報処理装置から受信した情報が示す選択肢を選択する選択手段と、
前記選択手段による選択により得られる利得を観測し、観測した観測値を前記情報処理装置に送信する観測手段と、を備え、
前記関連情報は、前記複数の選択肢の各々の特徴を示す特徴情報である、
ことを特徴とする情報処理システム。
【請求項9】
情報処理装置が、
複数の選択肢の各々に紐付けられた関連情報をサーバから受信すること、
前記複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を示す情報を前記サーバに送信すること、および、
決定した選択肢を選択して得られた利得の観測値を前記サーバから受信し、受信した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積すること、を含み、
前記複数の選択肢のうち何れを選択するかを決定するために、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器の各々を互いに独立して前記関係性を学習させ、学習させた当該複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記サーバが、
前記関連情報を取得して前記情報処理装置に送信すること、
前記情報処理装置から受信した情報が示す選択肢を選択すること、および、
前記選択肢を選択して得られる利得を観測し、観測した観測値を前記情報処理装置に送信すること、を含み、
前記関連情報は、前記複数の選択肢の各々の特徴を示す特徴情報である、
ことを特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、利得の確率分布が未知の複数の選択肢から何れかを選択する技術に関する。
【背景技術】
【0002】
利得の確率分布が未知の複数の選択肢から何れかを選択する技術として、バンディットアルゴリズムが知られている。バンディットアルゴリズムは、複数の選択肢から何れかを選択して利得を観測する試行を繰り返し、各試行において、前回までの試行で得られた利得の観測値を参照することにより、選択すべき選択肢を決定する。バンディットアルゴリズムは、ある試行回数までに得られる観測値の累積を最大化するとともに、利得の期待値が最大となる選択肢を識別する。
【0003】
例えば、非特許文献1には、利得の観測値と、当該選択肢に紐づく情報(文脈)との間に関係性がある場合に適用可能な文脈付きバンディットアルゴリズムが記載されている。非特許文献1に記載されたアルゴリズムは、各試行において、前回までの試行で得られた観測値および文脈を学習データとして、観測値および文脈の関係性を学習する。また、当該アルゴリズムは、学習した関係性を用いて各選択肢の利得を予測することにより、選択すべき選択肢を決定する。
【先行技術文献】
【非特許文献】
【0004】
【文献】Y. Abbasi-Yadkori et. al. "Improved Algorithms for Linear Stochastic Bandits", In Advances in Neural Information Processing Systems 24, pages 2312-2320, 2011.
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1に記載されたアルゴリズムには、観測値の累積を増大させるという観点において改善の余地がある。その理由は、各試行において、観測値および文脈の本来の関係性と学習した関係性との間にずれがある場合、最適な選択肢とは異なる選択肢が選択され得るからである。
【0006】
本発明の一態様は、上記の問題に鑑みてなされたものである。すなわち、本発明の一態様は、確率分布が未知の複数の選択肢から何れかを選択する際に、観測値の累積をより増大させる技術を提供することを一目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様に係る情報処理装置は、複数の選択肢の各々に紐付けられた関連情報を取得する取得手段と、前記複数の選択肢のうち何れを選択するかを決定する決定手段と、前記決定手段が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段と、を備える。また、前記決定手段は、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定する。
【0008】
本発明の一態様に係る情報処理方法は、情報処理装置が、複数の選択肢の各々に紐付けられた関連情報を取得すること、前記複数の選択肢のうち何れを選択するかを決定すること、および、決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積することを含む。また、当該情報処理方法は、前記情報処理装置が、前記複数の選択肢のうち何れを選択するかを決定するために、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかの予測器を用いることを含む。
【0009】
本発明の一態様に係る記憶媒体は、コンピュータを情報処理装置として機能させるプログラムを記憶した記憶媒体である。前記プログラムは、前記コンピュータを、複数の選択肢の各々に紐付けられた関連情報を取得する取得手段と、前記複数の選択肢のうち何れを選択するかを決定する決定手段と、前記決定手段が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段として機能させる。前記決定手段は、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定する。
【0010】
本発明の一態様に係る情報処理システムは、情報処理装置と、サーバとを含む情報処理システムである。前記情報処理装置は、複数の選択肢の各々に紐付けられた関連情報を前記サーバから受信する取得手段と、前記複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を示す情報を前記サーバに送信する決定手段と、前記決定手段が決定した選択肢を選択して得られた利得の観測値を前記サーバから受信し、受信した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段と、を備える。また、前記決定手段は、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定する。また、前記サーバは、前記関連情報を取得して前記情報処理装置に送信する取得手段と、前記情報処理装置から受信した情報が示す選択肢を選択する選択手段と、前記選択手段による選択により得られる利得を観測し、観測した観測値を前記情報処理装置に送信する観測手段と、を備える。
【0011】
本発明の一態様に係る情報処理方法は、情報処理装置が、複数の選択肢の各々に紐付けられた関連情報をサーバから受信すること、前記複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を示す情報を前記サーバに送信すること、および、決定した選択肢を選択して得られた利得の観測値を前記サーバから受信し、受信した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積すること、を含む。また、当該情報処理方法は、前記情報処理装置が、前記複数の選択肢のうち何れを選択するかを決定するために、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定することを含む。また、当該情報処理方法は、前記サーバが、前記関連情報を取得して前記情報処理装置に送信すること、前記情報処理装置から受信した情報が示す選択肢を選択すること、および、前記選択肢を選択して得られる利得を観測し、観測した観測値を前記情報処理装置に送信すること、を含む。
【発明の効果】
【0012】
本発明の一態様によれば、観測値の累積をより増大させることができる。
【図面の簡単な説明】
【0013】
図1】本発明の例示的実施形態1に係る情報処理装置の構成を示すブロック図である。
図2】本発明の例示的実施形態1に係る情報処理装置が実行する情報処理方法の流れを示すフロー図である。
図3】本発明の例示的実施形態2に係る情報処理システムの構成を示すブロック図である。
図4】本発明の例示的実施形態2に係る情報処理システムが実行する情報処理方法の流れを示すフロー図である。
図5】本発明の例示的実施形態3に係る情報処理装置の構成を示すブロック図である。
図6】本発明の例示的実施形態3に係る情報処理装置が実行する情報処理方法を模式的に説明する図である。
図7】本発明の例示的実施形態3に係る情報処理装置が実行する情報処理方法の概略的な流れを示すフロー図である。
図8】本発明の例示的実施形態3に係る情報処理装置が実行する情報処理方法の一部の詳細な流れを示すフロー図である。
図9】本発明の例示的実施形態4に係る情報処理システムの構成を示すブロック図である。
図10】本発明の例示的実施形態4に係る情報処理システムが実行する情報処理方法の概略的な流れを示すフロー図である。
図11】本発明の例示的実施形態4に係る情報処理システムが実行する情報処理方法の一部の詳細な流れを示すフロー図である。
図12】本発明の例示的実施形態4に係る情報処理装置を用いた実施例を示すグラフである。
図13】本発明の各例示的実施形態における情報処理装置のハードウェア構成の一例を示すブロック図である。
【発明を実施するための形態】
【0014】
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
【0015】
<情報処理装置の概要>
情報処理装置1は、複数の選択肢の各々に紐付けられた関連情報を取得し、複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を選択して得られた観測値および関連情報を学習データとして蓄積する、という試行を繰り返す装置である。
【0016】
<情報処理装置の構成>
本例示的実施形態に係る情報処理装置1の構成について、図1を参照して説明する。図1は、情報処理装置1の構成を示すブロック図である。
【0017】
図1に示すように、情報処理装置1は、取得部11と、決定部12と、蓄積部13とを備える。取得部11は、本例示的実施形態において取得手段を実現する構成である。決定部12は、本例示的実施形態において決定手段を実現する構成である。蓄積部13は、本例示的実施形態において蓄積手段を実現する構成である。
【0018】
取得部11は、複数の選択肢の各々に紐付けられた関連情報を取得する。以降、選択肢に紐付けられた関連情報を、単に「選択肢の関連情報」とも記載する。例えば、取得部11は、入力装置(図示せず)を介して各選択肢の関連情報を取得してもよい。また、例えば、取得部11は、情報処理装置1と通信可能に接続された他の装置(図示せず)から各選択肢の関連情報を取得してもよい。
【0019】
決定部12は、複数の選択肢のうち何れを選択するかを決定する。具体的には、決定部12は、複数の予測器の何れかを用いて、複数の選択肢の何れを選択するかを決定する。ここで、各予測器は、記憶装置に記憶された学習データを参照して、関連情報と、利得の観測値との関係性を学習する。利得とは、選択肢を選択することにより得られる効能を定量的に表現したものである。観測値とは、選択肢を実際に選択して観測される利得である。また、各予測器は、互いに独立して当該関係性を学習する。ここで、互いに独立して学習するとは、例えば、各予測器が学習に用いる学習データの集合が互いに異なることであってもよい。
【0020】
蓄積部13は、決定部12が決定した選択肢を選択して得られた利得の観測値を取得する。また、蓄積部13は、取得した観測値と当該選択肢の関連情報とを、学習データとして記憶装置(図示せず)に蓄積する。記憶装置は、情報処理装置1に含まれていてもよいし、情報処理装置1と通信可能に接続されていてもよい。
【0021】
<情報処理方法の流れ>
以上のように構成された情報処理装置1が実行する情報処理方法S1の流れについて、図2を参照して説明する。図2は、情報処理方法S1の流れを示すフロー図である。情報処理装置1は、複数の選択肢から何れを選択するかを決定する各試行において、情報処理方法S1を実行する。
【0022】
図2に示すように、情報処理方法S1は、ステップS11~S13を含む。
【0023】
(ステップS11)
ステップS11において、取得部11は、複数の選択肢の各々の関連情報を取得する。
【0024】
(ステップS12)
ステップS12において、決定部12は、複数の予測器の何れかを用いて、複数の選択肢の何れを選択するかを決定する。
【0025】
(ステップS13)
ステップS13において、蓄積部13は、決定部12が決定した選択肢を選択して得られた利得の観測値を取得する。また、蓄積部13は、取得した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する。
【0026】
<本例示的実施形態の効果>
以上のように、本例示的実施形態では、複数の予測器のうち何れかを用いて、複数の選択肢の何れを選択するかを決定する構成が採用されている。各予測器は、学習データを参照して、互いに独立して関連情報および観測値の関係性を学習する。このため、複数の選択肢の何れを選択するかを決定するために、観測値および関連情報の関係性をより適切に学習した予測器を用いることが可能である。その結果、本例示的実施形態は、累積の利得をより増大させる選択肢を決定することができる。
【0027】
〔例示的実施形態2〕
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。
【0028】
<情報処理システムの概要>
本例示的実施形態に係る情報処理システム10Aは、例示的実施形態1を変形した情報処理装置1Aが、サーバ3Aと連携して機能するシステムである。
【0029】
<情報処理システムの構成>
情報処理システム10Aの構成について、図3を参照して説明する。図3は、情報処理システム10Aの構成を示すブロック図である。図3に示すように、情報処理システム10Aは、情報処理装置1Aと、サーバ3Aとを含む。情報処理装置1Aおよびサーバ3Aは、ネットワークN1を介して通信可能に接続される。ネットワークN1は、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせである。
【0030】
(情報処理装置1Aの構成)
図3に示すように、情報処理装置1Aは、取得部11Aと、決定部12Aと、蓄積部13Aとを含む。
【0031】
取得部11Aは、例示的実施形態1における取得部11とほぼ同様の構成であるが、関連情報をサーバ3Aから受信する点が異なる。その他の点については、取得部11と同様に構成される。
【0032】
決定部12Aは、例示的実施形態1における決定部12とほぼ同様の構成であるが、決定した選択肢を示す情報をサーバ3Aに送信する点が異なる。その他の点については、決定部12と同様に構成される。
【0033】
蓄積部13Aは、例示的実施形態1における蓄積部13とほぼ同様の構成であるが、観測値をサーバ3Aから受信する点が異なる。その他の点については、蓄積部13と同様に構成される。
【0034】
(サーバ3Aの構成)
図3に示すように、サーバ3Aは、取得部31Aと、選択部32Aと、観測部33Aとを含む。
【0035】
取得部31Aは、複数の選択肢の各々の関連情報を取得し、取得した関連情報を情報処理装置1Aに送信する。例えば、取得部31Aは、サーバ3Aと通信可能に接続された複数の端末(不図示)の各々から関連情報を取得してもよい。
【0036】
選択部32Aは、情報処理装置1Aから受信した情報が示す選択肢を選択する。例えば、選択部32Aは、当該選択肢を選択したことを示す情報を、当該選択肢の関連情報の取得元である端末に送信してもよい。
【0037】
観測部33Aは、選択部32Aによる選択により得られる利得を観測し、観測した観測値を情報処理装置1Aに送信する。例えば、観測部33Aは、選択部32Aが情報を送信した端末から情報を受信し、受信した情報を観測した結果を観測値として取得する。
【0038】
<情報処理方法の流れ>
以上のように構成された情報処理システム10Aが実行する情報処理方法S1Aの流れについて、図4を参照して説明する。図4は、情報処理方法S1Aの流れを示すフロー図である。情報処理システム10Aは、複数の選択肢から何れを選択するかを決定する各試行において、情報処理方法S1Aを実行する。
【0039】
図4に示すように、情報処理方法S1Aは、ステップS11A~S16Aを含む。
【0040】
(ステップS11A)
ステップS11Aにおいて、サーバ3Aの取得部31Aは、複数の選択肢の各々について関連情報を取得する。また、取得部31Aは、取得した各関連情報を情報処理装置1Aに送信する。
【0041】
(ステップS12A)
ステップS12Aにおいて、情報処理装置1Aの取得部11Aは、サーバ3Aから各選択肢の関連情報を受信する。
【0042】
(ステップS13A)
ステップS13Aにおいて、決定部12Aは、複数の予測器の何れかを用いて、複数の選択肢のうち何れを選択するかを決定する。決定する処理の詳細は、例示的実施形態1におけるステップS12で説明した通りである。また、決定部12Aは、決定した選択肢を示す情報をサーバ3Aに送信する。
【0043】
(ステップS14A)
ステップS14Aにおいて、サーバ3Aの選択部32Aは、情報処理装置1Aから受信した情報が示す選択肢を選択する。
【0044】
(ステップS15A)
ステップS15Aにおいて、観測部33Aは、選択部32Aによる選択により得られる利得を観測し、観測した観測値を情報処理装置1Aに送信する。
【0045】
(ステップS16A)
ステップS16Aにおいて、情報処理装置1Aの蓄積部13Aは、受信した観測値と、ステップS13Aで決定した選択肢の関連情報とを、学習データとして記憶装置に蓄積する。
【0046】
<本例示的実施形態の効果>
以上の構成により、本例示的実施形態は、情報処理装置1Aがサーバ3Aと連携することにより、例示的実施形態1と同様の効果を奏する。
【0047】
〔例示的実施形態3〕
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。ここで、本例示的実施形態は、[発明が解決しようとする課題]で述べた課題を解決することに加えて、非特許文献1に記載された関連技術における以下の問題点をさらに解決する。
【0048】
<関連技術の問題点>
上述した非特許文献1に記載されたアルゴリズムは、観測値と文脈との関係性として線形モデルを仮定する。そのため、当該アルゴリズムは、観測値と文脈との関係性が線形モデルで表せない場合、観測値の累積をより増大させる選択肢を選択できない可能性がある、という問題がある。その理由について説明する。当該アルゴリズムを用いた場合、観測値と文脈との本来の関係性と線形モデルとのずれに起因して、各試行において最適な選択肢とは異なる選択肢が選択され得る。その結果、各試行において、最適な選択肢から得られるはずの利得と観測値とを比較した損失が生じ得る。このため、試行回数が増えるほど損失の累積が増大するからである。
【0049】
また、他の文脈付きバンディットアルゴリズムが、以下の参考文献1に記載されているが、以下の問題がある。すなわち、参考文献1に記載されたアルゴリズムは、観測値および文脈の関係性において、線形モデルに対する差分を特定できることを仮定する。また、当該アルゴリズムは、各試行における選択肢の集合が変化しないことを仮定する。そのため、当該アルゴリズムは、線形モデルとの差分を特定できない場合、または、各試行において選択肢の集合が変化する場合には適用できないという問題がある。
【0050】
[参考文献1]Tor Lattimore et. al. "Learning with good feature representations in bandits and in RL with a generative model", arXiv preprint arXiv:1911.07676, 2019.
本例示的実施形態に係る情報処理装置1Bは、上述した関連技術の問題点を解決するために、以下に説明する構成を有する。
【0051】
<情報処理装置の概要>
情報処理装置1Bは、複数の選択肢の各々に紐付けられた関連情報を取得し、複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を選択して得られた観測値および関連情報を学習データとして蓄積する、という試行を繰り返す装置である。情報処理装置1Bは、各試行において、複数の予測器のうち1つ目の予測器から順に、選択肢の決定に適した予測器に到達するまで、各予測器を用いた処理を実行する。また、情報処理装置1Bは、決定した選択肢を選択して得られた利得の観測値を含む学習データを、当該選択肢の決定に用いた予測器に関連付けて蓄積する。
【0052】
<情報処理装置1Bの構成>
本例示的実施形態に係る情報処理装置1Bの構成について、図5を参照して説明する。図5は、情報処理装置1Bの構成を示すブロック図である。
【0053】
図5に示すように、情報処理装置1Bは、制御部110Bと、記憶部150Bとを備える。制御部110Bは、取得部11Bと、決定部12Bと、蓄積部13Bとを有する。記憶部150Bは、1以上の学習データからなる学習データ群Ψを記憶する。
【0054】
取得部11Bは、本例示的実施形態において取得手段を実現する構成である。決定部12Bは、本例示的実施形態において決定手段を実現する構成である。蓄積部13Bは、本例示的実施形態において蓄積手段を実現する構成である。記憶部150Bは、本例示的実施形態において記憶装置を実現する構成である。
【0055】
取得部11Bは、複数の選択肢の各々について関連情報を取得する。関連情報を取得する対象となる複数の選択肢の集合は、各試行において可変であってよい。すなわち、各試行において、対象となる選択肢の数は、他の試行において対象となる選択肢の数と異なり得る。また、各試行において、対象となる少なくとも1つの選択肢は、他の試行における選択肢と異なり得る。
【0056】
決定部12Bは、複数の予測器の何れかを用いて、複数の選択肢の何れを選択するかを決定する。決定部12Bの詳細については後述する。
【0057】
蓄積部13Bは、決定部12Bが決定した選択肢を選択して得られた利得の観測値を取得する。また、蓄積部13Bは、取得した観測値と、決定部12Bが決定した選択肢とを含む学習データを、選択肢の決定に用いた予測器に関連付けて記憶部150Bに蓄積する。
【0058】
(決定部の詳細な構成)
決定部12Bの詳細な構成について、図5および図6を参照して説明する。図5は、前述したように、情報処理装置1Bの構成を示すブロック図である。図6は、情報処理装置1Bが実行する情報処理方法を模式的に説明する図である。図5に示すように、決定部12Bは、管理部121Bと、予測部122Bと、第1決定部123Bと、進行部124Bとを含む。
【0059】
管理部121Bは、S個の予測器を管理する。ここで、Sは、2以上の整数である。管理部121Bは、S個の予測器を生成し、それぞれを初期化する。初期化するとは、後述する予測関数および予測誤差関数として、事前に定められた初期関数を生成することである。管理部121Bは、各試行において、各予測器を順に用いて、予測処理を実行し、判定条件が満たされる場合には進行処理を実行し、判定条件が満たされない場合には、第1決定処理を実行する。管理部121Bは、何れかの予測器を用いて第1決定処理を行った場合には、以降、当該試行においては、他の予測器を用いた各処理を実行しない。予測処理、第1決定処理、および進行処理の詳細については後述する。
【0060】
ここで、図6に示すように、S個の予測器は、管理部121Bによって用いられる順番が定められている。図6の例では、予測器1、予測器2、・・・予測器Sとの順番が定められている。換言すると、この例では、予測器に付した参照符号「s」(s=1,2,…,S)は、予測器に定められた順番を表している。また、管理部121Bが現在用いている予測器を、現在の予測器とも記載する。また、管理部121Bが、現在の予測器を用いた処理を終了して次の予測器を用いた処理を開始することを、次の予測器に処理を進める、または、次の予測器に処理が進行する、とも記載する。つまり、管理部121Bは、予測器1、予測器2、…の順に、現在の予測器を用いて上述した各処理を実行し、第1決定処理を行うまで次の予測器に処理を進める。
【0061】
(予測部の構成)
予測部122Bは、上述した予測処理を実行する。予測処理とは、現在の予測器を用いて、現在の予測器が対象とする選択肢群の各々について、予測値に付随する予測誤差を予測する処理である。具体的には、予測処理は、現在の予測器に、観測値および関連情報の関係性を学習させる学習処理と、当該関係性を用いて予測値および予測誤差を算出する算出処理とを含む。
【0062】
(対象とする選択肢群)
ここで、対象とする選択肢群とは、複数の選択肢のうち1以上の選択肢である。図6に示すように、予測器sは、試行t(t=1,2,…,T)において選択肢群It,sを対象とする。予測器1が対象とする選択肢群It,1は、取得部11Bが取得した各関連情報が紐付けられた選択肢からなる。予測器2が対象とする選択肢群It,2は、選択肢群It,1から抽出された1以上の選択肢である。このように、現在の予測器が対象とする選択肢群から、次の予測器が対象とする選択肢群が抽出される。選択肢群の抽出は、後述する進行部124Bが行う。
【0063】
(学習処理)
学習処理は、現在の予測器に、観測値と関連情報との関係性を学習させる処理である。ここで、当該関係性は一例として線形な関係であってもよい。現在の予測器による学習には、記憶部150Bに記憶された学習データ群Ψのうち、当該予測器に関連付けられた1以上の学習データが用いられる。1つの学習データは、選択肢の関連情報と、当該選択肢を選択して得られた利得の観測値とを含む。例えば、図6に示すように、予測器sには、学習データ群Ψt,sが関連付けられている。学習データ群Ψt,sは、記憶部150Bに記憶された学習データ群Ψに含まれる。学習データ群Ψt,sは、試行t-1までに、当該予測器sに関連付けられた学習データからなる。予測器sに対して学習データを関連付ける処理は、前述した蓄積部13Bが実行する。
【0064】
ここで、予測器sによる学習とは、学習データ群Ψt,sを用いた機械学習である。予測部122Bは、予測器sによる機械学習により、予測関数および予測誤差関数を構築する。予測関数とは、関連情報に基づき利得の観測値を予測する関数である。また、予測誤差関数は、当該予測関数による予測値に付随する予測誤差を算出する関数である。以降、予測器sによる機械学習により構築した予測関数および予測誤差関数を、単に、予測器sが構築した予測関数および予測誤差関数とも記載する。
【0065】
(算出処理)
算出処理は、現在の予測器が対象とする選択肢群の各々の関連情報に、現在の予測器が構築した予測関数および予測誤差関数を適用することにより、予測値および予測誤差を算出する処理である。
【0066】
(第1決定部の構成)
第1決定部123Bは、上述した第1決定処理を行う。第1決定処理とは、判定条件が満たされない場合に、現在の予測器が対象とする選択肢群のうち何れを選択するかを決定する処理である。
【0067】
(判定条件)
ここで、判定条件とは、予測処理により予測した各予測誤差に関する条件である。本例示的実施形態では、判定条件として、各予測誤差が第1閾値以下であるとの条件を用いる。なお、本例示的実施形態において、第1閾値は、請求の範囲に記載した「閾値」の一例である。つまり、判定条件が満たされない場合とは、少なくとも何れかの予測誤差が第1閾値より大きいことを指す。
【0068】
(進行部の構成)
進行部124Bは、上述した進行処理を行う。進行処理とは、判定条件が満たされる場合に、現在の予測器が対象とする選択肢群から次の予測器が対象とする選択肢群を抽出する処理であり、次の予測器に処理を進めるための処理である。具体的には、進行部124Bは、現在の予測器が対象とする選択肢群から、最適な選択肢である可能性が高いとの条件を満たすものを、次の予測器が対象とする選択肢群として抽出する。一例として、進行部124Bは、現在の予測器が対象とする選択肢群から、予測値および予測誤差の和が所定値以上の1以上の選択肢を、次の予測器が対象とする選択肢群として抽出する。その後、管理部121Bは、次の予測器に処理を進める。すなわち、管理部121Bは、次の予測器を用いて、予測処理と、第1決定処理または進行処理とを実行する。
【0069】
(予測器を用いて進行する処理の具体例)
このように、予測器1から順に進行する処理の具体例について、図6を参照して説明する。図6の例では、予測器1から順に処理が進行し、予測器sを用いて第1決定処理が実行される。また、これにより、予測器sを用いて、選択する選択肢が決定される。具体的には、予測器1を用いて予測処理が実行され、判定条件が満たされるので、予測器2に処理が進行する。次に、予測器2を用いて予測処理が実行され、判定条件が満たされるので、次の予測器に処理が進行する。そして、順次、次の予測器に処理が進行し、予測器sを用いて予測処理が実行され、判定条件が満たされない。そこで、予測器sが対象とする選択肢群It,sのうち何れかが、選択する選択肢として決定される。例えば、選択肢群It,sのうち予測誤差が第1閾値より大きい選択肢が決定される。また、当該選択肢を選択して得られた観測値を含む学習データが、学習データ群Ψt,sに追加される。
【0070】
<情報処理方法の流れ>
以上のように構成された情報処理装置1Bが実行する情報処理方法S1Bの流れについて、図7を参照して説明する。図7は、情報処理方法S1Bの流れを示すフロー図である。情報処理装置1Bは、複数の選択肢から何れを選択するかを決定する各試行において、情報処理方法S1Bを実行する。
【0071】
図7に示すように、情報処理方法S1Bは、ステップS11B~S15Bを含む。
【0072】
(ステップS11B)
ステップS11Bにおいて、取得部11Bは、複数の選択肢の各々について関連情報を取得する。
【0073】
(ステップS12B)
ステップS12Bにおいて、決定部12Bは、複数の予測器の何れかを用いて、何れの選択肢を選択するかを決定する。当該ステップの詳細については後述する。
【0074】
(ステップS13B)
ステップS13Bにおいて、決定部12Bは、決定した選択肢を示す情報を出力する。例えば、決定部12Bは、決定した選択肢を示す情報を、表示装置等に表示してもよい。
【0075】
(ステップS14B)
ステップS14Bにおいて、蓄積部13Bは、決定した選択肢を選択して得られた利得の観測値を取得する。例えば、蓄積部13Bは、当該観測値を、入力装置を介して取得してもよい。
【0076】
(ステップS15B)
ステップS15Bにおいて、蓄積部13Bは、観測値と、決定した選択肢の関連情報とを含む学習データを、ステップS12Bで選択肢の決定に用いた予測器に関連付けて、記憶部150Bに蓄積する。
【0077】
以上で、情報処理装置1Bは、情報処理方法S10を終了する。
【0078】
<決定する処理の詳細な流れ>
次に、ステップS12Bにおける処理の詳細な流れについて、図8を参照して説明する。図8は、何れの選択肢を選択するかを決定する処理の詳細な流れを示すフロー図である。図8に示すように、ステップS12Bは、ステップS21B~S27Bを含む。
【0079】
(ステップS21B)
ステップS21Bにおいて、管理部121Bは、最初の予測器を用いた処理を開始する。
【0080】
(ステップS22B)
ステップS22Bにおいて、予測部122Bは、現在の予測器に、観測値および関連情報の関係性を学習させる。具体的には、予測部122Bは、現在の予測器を用いて予測関数および予測誤差関数を構築する。
【0081】
(ステップS23B)
ステップS23Bにおいて、予測部122Bは、現在の予測器を用いて、現在の予測器が対象とする選択肢群の各々について、利得の予測値に付随する予測誤差を予測する。具体的には、予測部122Bは、各選択肢の関連情報に、ステップS22Bで構築した予測関数および予測誤差関数を適用することにより、予測値および予測誤差を算出する。
【0082】
(ステップS24B)
ステップS24Bにおいて、管理部121Bは、ステップS23Bで予測した各予測誤差に関する判定条件が満たされるか否かを判断する。ここでは、判定条件として、各予測誤差が第1閾値以下であるとの条件を適用する。
【0083】
(ステップS24BでYes:ステップS25B)
ステップS24BにおいてYesと判断した場合、ステップS25Bにおいて、進行部124Bは、現在の予測器が対象とする選択肢群から1以上の選択肢を、次の予測器が対象とする選択肢群として抽出する。例えば、進行部124Bは、ステップS23Bで予測した予測値および予測誤差の和が所定値より大きいものを抽出する。
【0084】
(ステップS26B)
ステップS26Bにおいて、管理部121Bは、次の予測器を用いた処理を開始し、ステップS22Bからの処理を繰り返す。
【0085】
(ステップS24BでNo:ステップS27B)
一方、ステップS24BでNoと判断した場合、ステップS27Bにおいて、第1決定部123Bは、現在の予測器が対象とする選択肢群のうち何れを選択するかを決定する。ここでは、第1決定部123Bは、予測誤差が第1閾値以上の選択肢を選択することを決定する。そして、情報処理装置1Bは、ステップS12Bにおける決定する処理を終了する。
【0086】
<本例示的実施形態の効果>
以上のように、本例示的実施形態に係る情報処理装置1Bおよび情報処理方法S1Bは、次の構成(i)~(iii)を採用している。構成(i)は、現在の予測器を用いて、当該予測器が対象とする選択肢群の各々について利得の予測値に付随する予測誤差を予測する構成である。構成(ii)は、各予測誤差に関する判定条件が満たされない場合に、当該予測器が対象とする選択肢群のうち何れを選択するかを決定する構成である。構成(iii)は、判定条件が満たされる場合に、対象とする選択肢群から1以上の選択肢を、他の予測器が対象とする選択肢群として抽出し、当該他の予測器を用いて各選択肢の前記予測誤差を予測する構成である。また、本例示的実施形態では、判定条件として、各予測誤差が第1閾値以下であるとの条件を採用している。
【0087】
また、本例示的実施形態は、さらに次の構成(iv)、(v)を採用している。構成(iv)は、決定した選択肢を選択して得られた観測値および当該選択肢の関連情報を含む学習データを、当該選択肢の決定に用いた予測器に関連付けて記憶部に蓄積する構成である。構成(v)は、複数の予測器の各々が、記憶部に蓄積された学習データのうち、自身に関連付けられた学習データを参照して、観測値および関連情報の関係性を学習する構成である。
【0088】
これらの構成により、本例示的実施形態は、予測誤差がより小さい予測器を用いて選択肢を絞り込んだ上で、少なくとも何れかの予測誤差が大きいためにさらなる学習をさせるべき他の予測器を用いて、何れの選択肢を選択するかを決定する。このため、本例示的実施形態は、より予測誤差が小さい選択肢を選択できる。
【0089】
また、本例示的実施形態は、選択肢の決定に用いた予測器のさらなる学習において、予測誤差が大きい選択肢を選択して得られた観測値を学習データとして用いる。このため、予測精度が充分でない予測器を、より効果的に学習させることができる。
【0090】
〔例示的実施形態4〕
本発明の第4の例示的実施形態について、図面を参照して詳細に説明する。
【0091】
<情報処理システムの概要>
本例示的実施形態に係る情報処理システム10Cは、情報処理装置1Cがサーバ3Cと連携して機能するシステムである。情報処理装置1Cは、例示的実施形態3に係る情報処理装置1Bを変形した態様である。サーバ3Cは、例示的実施形態2に係るサーバ3Aを変形した態様である。
【0092】
本例示的実施形態では、例示的実施形態2または3における選択肢の一例としてユーザを適用する。また、例示的実施形態2または3における関連情報の一例として、ユーザの特徴を示す特徴情報を適用する。また、例示的実施形態2または3において「選択肢を選択する」ことの一例として、「ユーザに商品のプロモーションを送付する」ことを適用する。また、例示的実施形態2または3における観測値の一例として、プロモーションの送付結果を適用する。以降、「例示的実施形態2または3と同様」等の記載は、例示的実施形態2または3の記載において、選択肢をユーザに、関連情報を特徴情報に、選択肢の選択をプロモーションの送付に、観測値を送付結果に読み替えることで同様に説明されることを意味する。
【0093】
具体的には、本例示的実施形態に係る情報処理システム10Cは、複数のユーザの何れかを選択し、選択したユーザに対してプロモーションを送付するシステムである。プロモーションとは、例えば、商品を販売するためのプロモーションである。プロモーションの種類は限定されないが、以下では、1種類であるものとして説明する。
【0094】
情報処理システム10Cは、複数のユーザ各々の特徴を示す特徴情報を取得し、複数のユーザのうち何れを選択するかを決定し、決定したユーザに対するプロモーションの送付結果および特徴情報を学習データとして蓄積する、という試行を繰り返す。送付結果とは、プロモーションを送付したユーザの商品に対する購買行動を示し、例えば、購買したか否かを示す。
【0095】
<情報処理システムの構成>
情報処理システム10Cの構成について、図9を参照して説明する。図9は、情報処理システム10Cの構成を示すブロック図である。図9に示すように、情報処理システム10Cは、情報処理装置1Cと、サーバ3Cとを含む。情報処理装置1Cおよびサーバ3Cは、ネットワークN1を介して通信可能に接続される。また、サーバ3Cは、ネットワークN2を介して、複数の端末9C-i(i=1,2,…,I:Iは2以上の整数)と通信可能に接続される。図9には、3つの端末9C-iを示しているが、サーバ3Cが接続される端末9C-iの数は、2つであってもよいし、4以上であってもよい。なお、ネットワークN1、N2は、それぞれ、無線LAN、有線LAN、WAN、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせである。
【0096】
(サーバ3Cの構成)
サーバ3Cは、各試行t(t=1,2,…,T:Tは2以上の整数)において、複数の端末9C-iの何れかに対してプロモーションを示す情報を送信する装置である。つまり、サーバ3Cが送信する情報は、何れかの端末9C-iのユーザiに提示される。以降、端末9C-iに対してプロモーションを示す情報を送信することを、ユーザiにプロモーションを送付する、とも記載する。ユーザiは、送付されたプロモーションに対して購買行動を行う。ここでは、購買行動は、商品を購入する、および購入しない、の何れかであるものとする。ただし、購買行動は、これら2種類の行動に限定されない。また、購買行動は、3種類以上の行動を含んでいてもよい。
【0097】
図9に示すように、サーバ3Cは、取得部31Cと、選択部32Cと、観測部33Cと、通信部34Cとを含む。
【0098】
取得部31Cは、各試行tにおいて、対象となる複数のユーザi各々の特徴情報を、端末9C-iから受信する。また、取得部31Cは、受信した各特徴情報を、情報処理装置1Cに送信する。なお、「各試行tにおいて、対象となる複数のユーザi(すなわち対象となる複数の端末9C-i)」の集合は可変である。すなわち、各試行tにおいて、対象となるユーザiの数は、他の試行において対象となるユーザの数と異なり得る。また、各試行tにおいて、対象となる少なくとも1人のユーザiは、他の試行におけるユーザと異なり得る。また、各試行において情報処理装置1Cが決定するユーザiの数は限定されないが、ここでは1であるものとする。
【0099】
選択部32Cは、情報処理装置1Cから受信した情報が示すユーザiに対して、プロモーションを送付する。
【0100】
観測部33Cは、選択部32Cによるプロモーションの送付結果を観測し、情報処理装置1Cに送信する。プロモーションの送付結果を観測するとは、例えば、プロモーションの送付先のユーザiの購買行動を観測することである。この場合、送付結果は、ユーザiが当該商品を購入したか否かを示す情報である。
【0101】
通信部34Cは、ネットワークN1を介して情報処理装置1Cとの間で情報を送受信する。
【0102】
(情報処理装置1Cの構成)
図9に示すように、情報処理装置1Cは、制御部110Cと、記憶部150Cと、通信部160Cとを備える。
【0103】
記憶部150Cは、学習データ群Ψを記憶する。学習データ群Ψを構成する学習データは、ユーザの特徴情報と、当該ユーザに対するプロモーションの送付結果とを含む。
【0104】
通信部160Cは、ネットワークN1を介してサーバ3Cとの間で情報を送受信する。
【0105】
制御部110Cは、取得部11Cと、決定部12Cと、蓄積部13Cとを有する。
【0106】
ここで、取得部11Cは、本例示的実施形態において取得手段を実現する構成である。決定部12Cは、本例示的実施形態において決定手段を実現する構成である。蓄積部13Cは、本例示的実施形態において蓄積手段を実現する構成である。記憶部150Cは、本例示的実施形態において記憶装置を実現する構成である。
【0107】
取得部11Cは、各試行tにおいて、複数のユーザi各々の特徴情報を、サーバ3Cから受信する。前述したように、特徴情報を取得する対象となる複数のユーザiの集合は、各試行において可変である。特徴情報は、ユーザiの特徴を示す情報であり、次元数dを有する。ここで、特徴情報の次元数とは、例えば、特徴情報をベクトルとして表現するために必要なベクトル空間の次元数のことを指す。一例として、特徴情報が複数の数値により表現される場合、その数値の個数が特徴情報の次元となる。具体例として、特徴情報が、ユーザiの識別情報、ユーザiに送付されたプロモーションの履歴、ユーザiが購入した商品の履歴、およびユーザiの年齢との4項目を含み得る例が挙げられる。この場合、特徴情報の次元数は4である。ただし、当該具体例は、特徴情報の構成および次元数dを限定するものではない。
【0108】
決定部12Cは、S個の予測器の何れかを用いて、複数のユーザiの何れを選択するかを決定する。ユーザiの決定に用いた予測器を、予測器s1と記載する。また、決定部12Cは、決定したユーザiを示す情報を、サーバ3Cに送信する。決定部12Cの詳細については後述する。
【0109】
蓄積部13Cは、サーバ3Cから、ユーザiに対するプロモーションの送付結果を受信する。また、蓄積部13Cは、受信した送付結果と、ユーザiの特徴情報とを含む学習データを、ユーザiの決定に用いた予測器s1に関連付けて記憶部150Bに蓄積する。
【0110】
(決定部の詳細な構成)
決定部12Cの詳細な構成について説明する。決定部12Cは、管理部121Cと、予測部122Cと、第1決定部123Cと、第2決定部125Cと、進行部124Cとを含む。
【0111】
管理部121Cは、例示的実施形態3における管理部121Bと同様に、S個の予測器を管理する。S個の予測器の詳細については、例示的実施形態3において説明した通りである。ただし、管理部121Cが各予測器を用いて実行する処理の詳細が、例示的実施形態3とは異なる。
【0112】
具体的には、管理部121Cは、各試行において、各予測器を順に用いて、予測処理を実行し、判定条件が満たされる場合には進行処理を実行し、判定条件が満たされない場合には、第1決定処理または第2決定処理を行う。管理部121は、何れかの予測器を用いて第1決定処理または第2決定処理を行った場合には、以降、当該試行においては、他の予測器を用いた各処理を実行しない。
【0113】
(判定条件)
管理部121Cが用いる判定条件は、例示的実施形態3における管理部121Bが用いる判定条件とは異なる。本例示的実施形態では、判定条件として、「各予測誤差が、第2閾値より大きく、かつ、第1閾値以下である」との条件を用いる。具体的には、第1閾値は、次式(1)で表される。また、第2閾値は、次式(2)で表される。
【0114】
【数1】
【0115】
【数2】
ここで、Tは、総試行回数を表す。sは、前述したように、予測器に定められた順番を示す。dは、試行tにおけるユーザiの特徴情報の次元数を表す。αおよびcは、0以上の係数である。
【0116】
(特徴情報の次元数)
ここで、判定条件は、特徴情報の次元数に基づく条件である。具体的には、上述した式(1)、(2)におけるαは、特徴情報の次元数dが大きいほど大きい値が設定される。例えば、αは、次式(3)、(4)により表される。
【0117】
【数3】
【0118】
【数4】
ここで、δは、予測の確からしさを表す。Tは、前述したように、総試行回数を表す。Sは、前述したように、予測器の総数を表す。Lは、特徴情報のノルムの上界を表す。λは、非負のチューニングパラメータを表す。Mは、特徴情報と観測の関係を表す関数の複雑さを表す。Rは、観測に加わるノイズの大きさの上界を表す。
【0119】
(予測部の構成)
予測部122Cは、上述した予測処理を実行する。予測処理とは、現在の予測器sを用いて、現在の予測器sが対象とするユーザ群の各々について、送付結果の予測値に付随する予測誤差を予測する処理である。具体的には、予測処理は、試行tにおいて、現在の予測器sに、送付結果の観測値および特徴情報の関係性θt,sを学習させる学習処理を含む。また、予測処理は、試行tにおいて、当該関係性θt,sを用いて、送付結果の予測値γt,s(i)および予測誤差wt,s(i)を算出する算出処理を含む。予測部122Cが算出処理に用いる予測関数および予測誤差関数は、次式(5)、(6)により表される。
【0120】
【数5】
【0121】
【数6】
ここで、x(i)は、試行tにおけるユーザiの特徴情報を表す。θは、機械学習により学習した線形な関係性を表す係数である。γt,s(i)は、試行tにおいて現在の予測器sを用いて予測した、ユーザiに対するプロモーションの送付結果の予測値である。また、Vt-1,sは、学習データΨt,sを用いた予測器sによる学習の過程で算出される。
【0122】
(第1決定部の構成)
第1決定部123Cは、上述した第1決定処理を行う。本例示的実施形態における第1決定処理は、例示的実施形態3における第1決定処理とは異なる。本例示的実施形態における第1決定処理は、判定条件が満たされない場合であって、かつ、次式(7)が満たされる場合に、現在の予測器sが対象とするユーザ群It,sのうち何れを選択するかを決定する処理である。
【0123】
【数7】
このように、第1決定部123Cは、少なくとも何れかのユーザiについて予測した予測誤差が第1閾値を超える場合に、現在の予測器sが対象とするユーザ群It,sのうち何れを選択するかを決定する。具体的には、第1決定部123Cは、予測誤差が第1閾値を超えたユーザiを選択することを決定する。
【0124】
(第2決定部の構成)
第2決定部125Cは、上述した第2決定処理を行う。第2決定処理とは、判定条件が満たされない場合であって、かつ、次式(8)が満たされる場合に、現在の予測器が対象とするユーザ群It,sのうち何れを選択するかを決定する処理である。
【0125】
【数8】
このように、第2決定部125Cは、全てのユーザiについて予測した予測誤差が第2閾値以下の場合に、現在の予測器sが対象とするユーザ群It,sのうち何れを選択するかを決定する。具体的には、第2決定部125Cは、予測値および予測誤差の和が最大となるユーザiを選択することを決定する。
【0126】
(進行部の構成)
進行部124Cは、上述した進行処理を行う。進行処理とは、判定条件が満たされる場合に、現在の予測器が対象とする選択肢群It,sから次の予測器s+1が対象とする選択肢群It,s+1を抽出するとともに、当該次の予測器s+1に処理を進める処理である。
【0127】
ここで、進行部124Cが抽出する選択肢群は、次式(9)で表される。
【0128】
【数9】
このように、進行部124Cは、現在の予測器sが対象とするユーザ群It,sのうち、予測値および予測誤差の和が第3閾値より大きいものを抽出する。ここでは、第3閾値は、式(9)に示すように、予測値および予測誤差の和の最大値から5αc-sを減算した値である。これにより、次の予測器s+1が対象とするユーザ群It,s+1は、現在の予測器sが対象とするユーザ群It,sのうち、最適な選択肢となる可能性がより高いユーザ群となる。
【0129】
このように、進行部124Cは、現在の予測器sが予測する各予測誤差が第2閾値より大きく第1閾値以下の場合には、現在の予測器sによる予測結果を参照して対象とするユーザ群It,sを絞り込んだ上で、次の予測器s+1に処理を進める。
【0130】
<情報処理方法の流れ>
以上のように構成された情報処理システム10Cが実行する情報処理方法S1Cの流れについて、図10を参照して説明する。図10は、情報処理方法S1Cの流れを示すフロー図である。情報処理システム10Cは、複数のユーザiから何れを選択するかを決定する各試行において、情報処理方法S1Cを実行する。
【0131】
図10に示すように、情報処理方法S1Cは、ステップS11C~S18Cを含む。
【0132】
(ステップS11C)
ステップS11Cにおいて、サーバ3Cの取得部31Cは、複数のユーザの各々について特徴情報を取得する。また、取得部31Cは、取得した各特徴情報を情報処理装置1Cに送信する。
【0133】
(ステップS12C)
ステップS12Cにおいて、情報処理装置1Cの取得部11Cは、サーバ3Cから各ユーザの特徴情報を受信する。
【0134】
(ステップS13C)
ステップS13Cにおいて、決定部12Cは、複数のユーザのうち何れを選択するかを決定する。決定する処理の詳細については後述する。
【0135】
(ステップS14C)
ステップS14Cにおいて、決定部12Cは、決定したユーザを示す情報をサーバ3Cに送信する。
【0136】
(ステップS15C)
ステップS15Cにおいて、サーバ3Cの選択部32Cは、情報処理装置1Cから受信した情報が示すユーザに対して、プロモーションを送付する。
【0137】
(ステップS16C)
ステップS16Cにおいて、観測部33Cは、選択部32Cによってプロモーションが送付されたユーザの購買行動を観測し、観測した送付結果を情報処理装置1Cに送信する。
【0138】
(ステップS17C)
ステップS17Cにおいて、情報処理装置1Cの蓄積部13Cは、受信した送付結果と、ステップS13Cで決定したユーザの特徴情報とを、学習データとして記憶部150Cに蓄積する。
【0139】
<決定する処理の詳細な流れ>
次に、ステップS13Cにおける処理の詳細な流れについて、図11を参照して説明する。図11は、何れのユーザを選択するかを決定する処理の詳細な流れを示すフロー図である。図11に示すように、ステップS13Cは、ステップS21C~S29Cを含む。
【0140】
(ステップS21C)
ステップS21Cにおいて、管理部121Cは、最初の予測器を用いた処理を開始する。
【0141】
(ステップS22C)
ステップS22Cにおいて、予測部122Cは、現在の予測器に、送付結果および特徴情報の関係性を学習させる。具体的には、予測部122Cは、現在の予測器を用いて予測関数および予測誤差関数を構築する。
【0142】
(ステップS23C)
ステップS23Cにおいて、予測部122Cは、現在の予測器を用いて、現在の予測器が対象とするユーザ群の各々について、送付結果の予測値に付随する予測誤差を予測する。具体的には、予測部122Cは、各ユーザの特徴情報を、ステップS22Cで構築した予測関数および予測誤差関数に適用することにより、予測値および予測誤差を算出する。
【0143】
(ステップS24C)
ステップS24Cにおいて、管理部121Cは、ステップS23Cで予測した各予測誤差が第2閾値以下であるか否かを判定する。
【0144】
(ステップS24CでYes:ステップS25C)
ステップS24CにおいてYesと判断した場合、ステップS25Cにおいて、第2決定部125Cは、ステップS23Cで予測した予測値および予測誤差の和が最大となるユーザを選択することを決定する。そして、第2決定部125Cは、決定したユーザを示す情報をサーバ3Cに送信し、決定する処理を終了する。
【0145】
(ステップS24CでNo:ステップS26C)
一方、ステップS24CにおいてNoと判断した場合、ステップS26Cにおいて、管理部121Cは、ステップS23Cで予測した各予測誤差が、第1閾値以下であるか否かを判定する。
【0146】
(ステップS26CでNo:ステップS27C)
ステップS26CにおいてNoと判断した場合、ステップS27Cにおいて、第1決定部123Cは、ステップS23Cで予測した予測誤差が第1閾値を超えるユーザを選択することを決定する。そして、第1決定部123Cは、決定したユーザを示す情報をサーバ3Cに送信し、決定する処理を終了する。
【0147】
(ステップS26CでYes:ステップS28C)
ステップS26CにおいてYesと判断した場合、ステップS28Cにおいて、進行部124Cは、現在の予測器が対象とする選択肢群から1以上の選択肢を、次の予測器が対象とする選択肢群として抽出する。
【0148】
(ステップS29C)
ステップS29Cにおいて、管理部121Cは、次の予測器を用いた処理を開始し、ステップS22Cからの処理を繰り返す。
【0149】
<実施例>
次に、本例示的実施形態における情報処理装置1Cを用いてシミュレーションを行った実施例について、図12を参照して説明する。図12は、シミュレーション結果を示すグラフである。
【0150】
図12において、横軸は総試行回数Tを示し、縦軸は損失の累積を示す。実施例G1は、情報処理装置1Cを用いたシミュレーション結果を示す。また、比較例G2~G4は、比較のために関連技術A~Cを用いて行ったシミュレーション結果である。ここで、関連技術A、B、およびCとしては、公知のバンディットアルゴリズムとして知られるGreedy、LinUCB、およびLinTSを用いた。
【0151】
また、実施例G1および比較例G2~G4におけるシミュレーションは、それぞれ以下の条件で実施した。すなわち、ユーザの数を2とした。つまり、iは1または2である。また、総試行回数Tの前半と後半とで、取得するユーザの特徴情報x(i)および観測値γ(i)を以下のように変化させた。つまり、本実施例では、ユーザの特徴情報x(i)および観測値γ(i)の関係性は、前半と後半とで大きく異なり、単独の線形モデルで表すことはできない。
【0152】
(前半:t<T/2)
(1)=(ε,0)、xt(2)=(ε,0)
γ(1)=-ε/2、γt(2)=-ε/2
ただし、0<ε≪1
(後半:t≧T/2)
(1)=(2,1)、xt(2)=(0,0)
γ(1)=1/2、γt(2)=0
その結果、図12に示すように、情報処理装置1Cを用いた実施例G1では、総試行回数Tに関わらず、累積の損失は0であった。これに対して、関連技術A~Cを用いた比較例G2~G4では、総試行回数Tが大きくなるほど累積の損失が増大した。
【0153】
このように、本実施例G1では、本例示的実施形態に係る情報処理装置1Cを用いることにより、比較例G2~G4で発生するような累積の損失を発生させない、との結果が得られた。
【0154】
<本例示的実施形態の効果>
本例示的実施形態では、例示的実施形態2、3と同様の効果に加えて、さらに観測値(送付結果)の累積を増大させることができる。その理由は、各予測器から次の予測器に処理を進行させるか否かを判定する判定条件として、ユーザの特徴情報の次元数に応じた条件を用いるからである。これにより、ユーザの特徴情報および観測値の本来の関係性と線形モデルとの差分をより充分に吸収することができるからである。
【0155】
〔変形例〕
上述した各例示的実施形態において、最初に生成する予測器の個数は1つであってもよい。例えば、各情報処理装置は、各試行において既に生成した予測器が何れも選択肢を決定するのに適切でないと判断した場合に、新しい予測器を生成する。例えば、例示的実施形態3~4では、決定部は、既に生成した1または複数の予測器が何れも判定条件を満たす場合に、新たに予測器を生成し、当該新たな予測器に処理を進行させる。
【0156】
〔ソフトウェアによる実現例〕
情報処理装置1、1A、1B、1Cの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
【0157】
後者の場合、情報処理装置1、1A、1B、1Cは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図13に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1、1A、1B、1Cとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1、1A、1B、1Cの各機能が実現される。
【0158】
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
【0159】
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
【0160】
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
【0161】
〔付記事項1〕
本発明は、上述した例示的実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した例示的実施形態に開示された技術的手段を適宜組み合わせて得られる例示的実施形態についても、本発明の技術的範囲に含まれる。
【0162】
〔付記事項2〕
上述した各例示的実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
【0163】
(付記1)
複数の選択肢の各々に紐付けられた関連情報を取得する取得手段と、
前記複数の選択肢のうち何れを選択するかを決定する決定手段と、
前記決定手段が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段と、を備え、
前記決定手段は、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定する、
ことを特徴とする情報処理装置。
【0164】
付記1の構成によれば、複数の予測器のうち何れかを用いて、複数の選択肢の何れを選択するかを決定する。また、各予測器は、学習データを参照して、互いに独立して関連情報および観測値の関係性を学習する。このため、複数の選択肢の何れを選択するかを決定するために、観測値および関連情報の関係性をより適切に学習した予測器を用いることが可能である。その結果、本例示的実施形態は、累積の利得をより増大させる選択肢を決定することができる。
【0165】
(付記2)
付記1に記載の情報処理装置であって、
前記決定手段は、
(i)何れかの予測器を用いて、当該予測器が対象とする1以上の選択肢である選択肢群の各々について、前記利得の予測値に付随する予測誤差を予測し、
(ii)各予測誤差に関する判定条件が満たされない場合に、当該予測器が対象とする選択肢群のうち何れを選択するかを決定し、
(iii)前記判定条件が満たされる場合に、前記対象とする選択肢群から1以上の選択肢を抽出し、抽出した1以上の選択肢を他の予測器が対象とする選択肢群として、当該他の予測器を用いて各選択肢の前記予測誤差を予測する、
ことを特徴とする情報処理装置。
【0166】
付記2の構成によれば、判定条件として、観測値および関連情報の関係性をある基準以上に高精度に予測するか否かを判定する条件を用いることが可能である。これにより、より高精度に学習済の予測器を用いて選択肢を絞り込んだ上で、さらに学習させるべき他の予測器を用いて何れの選択肢を選択するかを決定することができる。その結果、観測値および関連情報の関係性を単独の予測器では精度よく予測できない場合であっても、観測値の累積をより増大させる選択肢を選択することができる。
【0167】
(付記3)
付記2に記載の情報処理装置であって、
前記決定手段は、
前記判定条件として、各予測誤差が閾値以下であることを含む条件を用いる、
ことを特徴とする情報処理装置。
【0168】
付記3の構成によれば、予測誤差がより小さい予測器を用いて選択肢を絞り込んだ上で、予測誤差が閾値より大きいためにさらなる学習が必要な予測器を用いて何れの選択肢を選択するかを決定することができる。その結果、観測値および関連情報の関係性が単独の予測器では精度よく学習できない場合であっても、予測誤差がより小さい選択肢の中から学習に最適な選択肢を選択するができる。
【0169】
(付記4)
付記2または3に記載の情報処理装置であって、
前記決定手段は、
前記判定条件として、前記関連情報の次元数に基づく条件を用いる、ことを特徴とする情報処理装置。
【0170】
付記4の構成によれば、観測値および関連情報の本来の関係性と各予測器が学習する関係性とのずれをより精度よく吸収することができる。
【0171】
(付記5)
付記1から4の何れか1つに記載の情報処理装置であって、
前記蓄積手段は、
前記学習データを、前記決定手段が前記選択肢の決定に用いた予測器に関連付けて前記記憶装置に蓄積し、
前記複数の予測器の各々は、前記記憶装置に蓄積された学習データのうち、自身に関連付けられた学習データを参照して前記関係性を学習する、
ことを特徴とする情報処理装置。
【0172】
付記5の構成によれば、選択肢の決定に用いた予測器に対して、より精度よく観測値を予測できるようさらなる学習を行わせることができる。
【0173】
(付記6)
付記1から5の何れか1つに記載の情報処理装置であって、
各予測器は、前記関係性として線形な関係性を学習する、
ことを特徴とする情報処理装置。
【0174】
付記6の構成によれば、複数の選択肢の何れを選択するかを決定するために、観測値および関連情報の関係性としてより適切な線形性を学習した予測器を用いることが可能である。
【0175】
(付記7)
情報処理装置が、
複数の選択肢の各々に紐付けられた関連情報を取得すること、
前記複数の選択肢のうち何れを選択するかを決定すること、および、
決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積することを含み、
前記複数の選択肢のうち何れを選択するかを決定するために、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかの予測器を用いる、
ことを特徴とする情報処理方法。
【0176】
付記7の構成によれば、付記1に記載の情報処理装置と同様の効果を奏する。
【0177】
(付記8)
コンピュータを情報処理装置として機能させるプログラムを記憶した記憶媒体であって、
前記プログラムは、前記コンピュータを、
複数の選択肢の各々に紐付けられた関連情報を取得する取得手段と、
前記複数の選択肢のうち何れを選択するかを決定する決定手段と、
前記決定手段が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段として機能させ、
前記決定手段は、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定する、
ことを特徴とするプログラムを記憶した記憶媒体。
【0178】
付記8の構成によれば、付記1に記載の情報処理装置と同様の効果を奏する。
【0179】
(付記9)
情報処理装置と、サーバとを含む情報処理システムであって、
前記情報処理装置は、
複数の選択肢の各々に紐付けられた関連情報を前記サーバから受信する取得手段と、
前記複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を示す情報を前記サーバに送信する決定手段と、
前記決定手段が決定した選択肢を選択して得られた利得の観測値を前記サーバから受信し、受信した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段と、を備え、
前記決定手段は、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記サーバは、
前記関連情報を取得して前記情報処理装置に送信する取得手段と、
前記情報処理装置から受信した情報が示す選択肢を選択する選択手段と、
前記選択手段による選択により得られる利得を観測し、観測した観測値を前記情報処理装置に送信する観測手段と、を備える、
ことを特徴とする情報処理システム。
【0180】
付記9の構成によれば、付記1に記載の情報処理装置と同様の効果を奏する。
【0181】
(付記10)
情報処理装置が、
複数の選択肢の各々に紐付けられた関連情報をサーバから受信すること、
前記複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を示す情報を前記サーバに送信すること、および、
決定した選択肢を選択して得られた利得の観測値を前記サーバから受信し、受信した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積すること、を含み、
前記複数の選択肢のうち何れを選択するかを決定するために、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記サーバが、
前記関連情報を取得して前記情報処理装置に送信すること、
前記情報処理装置から受信した情報が示す選択肢を選択すること、および、
前記選択肢を選択して得られる利得を観測し、観測した観測値を前記情報処理装置に送信すること、を含む、
ことを特徴とする情報処理方法。
【0182】
付記10の構成によれば、付記1に記載の情報処理装置と同様の効果を奏する。
【0183】
〔付記事項3〕
上述した各例示的実施形態の一部又は全部は、更に、以下のように表現することもできる。
【0184】
少なくとも1つのプロセッサを備え、前記プロセッサは、複数の選択肢の各々に紐付けられた関連情報を取得する取得処理と、前記複数の選択肢のうち何れを選択するかを決定する決定処理と、前記決定処理が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積処理と、を実行し、前記決定処理は、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定する、情報処理装置。
【0185】
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記決定処理と、前記蓄積処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【符号の説明】
【0186】
1、1A、1B、1C 情報処理装置
10A、10C 情報処理システム
11、11A、11B、11C 取得部
12、12A、12B、12C 決定部
13、13A、13B、13C 蓄積部
110B、110C 制御部
121B、121C 管理部
122B、122C 予測部
123B、123C 第1決定部
124B、124C 進行部
125C 第2決定部
150B、150C 記憶部
160C 通信部
3、3A、3C サーバ
31A、31C 取得部
32A、32C 選択部
33A、33C 観測部
34C 通信部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13