特許7586188 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7586188情報処理装置、情報処理方法、情報処理システム、および記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-11

(45)【発行日】2024-11-19

(54)【発明の名称】情報処理装置、情報処理方法、情報処理システム、および記憶媒体

(51)【国際特許分類】

G06N 20/00 20190101AFI20241112BHJP

【ＦＩ】

G06N20/00 160

【請求項の数】 9

(21)【出願番号】P 2022556750

(86)(22)【出願日】2020-10-14

(86)【国際出願番号】 JP2020038769

(87)【国際公開番号】W WO2022079829

(87)【国際公開日】2022-04-21

【審査請求日】2023-04-06

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】110000338

【氏名又は名称】弁理士法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】竹村慧

【審査官】渡辺順哉

(56)【参考文献】

【文献】国際公開第２０１９／１９８４０８（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１５／００５１９７３（ＵＳ，Ａ１）

【文献】国際公開第２０２０／０１２５８９（ＷＯ，Ａ１）

【文献】万代悠作ほか，LinUCBのモンテカルロ木探索への応用，第１９回ゲームプログラミングワークショップ２０１４，日本，一般社団法人情報処理学会，2014年10月31日，pp.174-179，ISBN 978-4-907626-11-2

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

複数の選択肢の各々に紐付けられた関連情報を取得する取得手段と、
前記複数の選択肢のうち何れを選択するかを決定する決定手段と、
前記決定手段が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段と、を備え、
前記決定手段は、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器の各々を互いに独立して前記関係性を学習させ、学習させた当該複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記決定手段は、
（ｉ）何れかの予測器を用いて、当該予測器が対象とする１以上の選択肢である選択肢群の各々について、前記利得の予測値に付随する予測誤差を予測し、
（ｉｉ）各予測誤差に関する判定条件が満たされない場合に、当該予測器が対象とする選択肢群のうち何れを選択するかを決定し、
（ｉｉｉ）前記判定条件が満たされる場合に、前記対象とする選択肢群から１以上の選択肢を抽出し、抽出した１以上の選択肢を他の予測器が対象とする選択肢群として、当該他の予測器を用いて各選択肢の前記予測誤差を予測し、
前記関連情報は、前記複数の選択肢の各々の特徴を示す特徴情報である、
ことを特徴とする情報処理装置。

【請求項2】

前記決定手段は、
前記判定条件として、各予測誤差が閾値以下であることを含む条件を用いる、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記決定手段は、
前記判定条件として、前記関連情報の次元数に基づく条件を用いる、ことを特徴とする請求項１または２に記載の情報処理装置。

【請求項4】

前記蓄積手段は、
前記学習データを、前記決定手段が前記選択肢の決定に用いた予測器に関連付けて前記記憶装置に蓄積し、
前記複数の予測器の各々は、前記記憶装置に蓄積された学習データのうち、自身に関連付けられた学習データを参照して前記関係性を学習する、
ことを特徴とする請求項１から３の何れか１項に記載の情報処理装置。

【請求項5】

各予測器は、前記関係性として線形な関係性を学習する、
ことを特徴とする請求項１から４の何れか１項に記載の情報処理装置。

【請求項6】

情報処理装置が、
複数の選択肢の各々に紐付けられた関連情報を取得すること、
前記複数の選択肢のうち何れを選択するかを決定すること、および、
決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積することを含み、
前記複数の選択肢のうち何れを選択するかを決定することにおいて、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器の各々を互いに独立して前記関係性を学習させ、学習させた当該複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記複数の選択肢のうち何れを選択するかを決定することにおいて、
（ｉ）何れかの予測器を用いて、当該予測器が対象とする１以上の選択肢である選択肢群の各々について、前記利得の予測値に付随する予測誤差を予測し、
（ｉｉ）各予測誤差に関する判定条件が満たされない場合に、当該予測器が対象とする選択肢群のうち何れを選択するかを決定し、
（ｉｉｉ）前記判定条件が満たされる場合に、前記対象とする選択肢群から１以上の選択肢を抽出し、抽出した１以上の選択肢を他の予測器が対象とする選択肢群として、当該他の予測器を用いて各選択肢の前記予測誤差を予測し、
前記関連情報は、前記複数の選択肢の各々の特徴を示す特徴情報である、
ことを特徴とする情報処理方法。

【請求項7】

コンピュータを情報処理装置として機能させるプログラムを記憶した記憶媒体であって、
前記プログラムは、前記コンピュータを、
複数の選択肢の各々に紐付けられた関連情報を取得する取得手段と、
前記複数の選択肢のうち何れを選択するかを決定する決定手段と、
前記決定手段が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段として機能させ、
前記決定手段は、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器の各々を互いに独立して前記関係性を学習させ、学習させた当該複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記決定手段は、
（ｉ）何れかの予測器を用いて、当該予測器が対象とする１以上の選択肢である選択肢群の各々について、前記利得の予測値に付随する予測誤差を予測し、
（ｉｉ）各予測誤差に関する判定条件が満たされない場合に、当該予測器が対象とする選択肢群のうち何れを選択するかを決定し、
（ｉｉｉ）前記判定条件が満たされる場合に、前記対象とする選択肢群から１以上の選択肢を抽出し、抽出した１以上の選択肢を他の予測器が対象とする選択肢群として、当該他の予測器を用いて各選択肢の前記予測誤差を予測し、
前記関連情報は、前記複数の選択肢の各々の特徴を示す特徴情報である、
ことを特徴とするプログラムを記憶した記憶媒体。

【請求項8】

情報処理装置と、サーバとを含む情報処理システムであって、
前記情報処理装置は、
複数の選択肢の各々に紐付けられた関連情報を前記サーバから受信する取得手段と、
前記複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を示す情報を前記サーバに送信する決定手段と、
前記決定手段が決定した選択肢を選択して得られた利得の観測値を前記サーバから受信し、受信した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段と、を備え、
前記決定手段は、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器の各々を互いに独立して前記関係性を学習させ、学習させた当該複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記サーバは、
前記関連情報を取得して前記情報処理装置に送信する取得手段と、
前記情報処理装置から受信した情報が示す選択肢を選択する選択手段と、
前記選択手段による選択により得られる利得を観測し、観測した観測値を前記情報処理装置に送信する観測手段と、を備え、
前記関連情報は、前記複数の選択肢の各々の特徴を示す特徴情報である、
ことを特徴とする情報処理システム。

【請求項9】

情報処理装置が、
複数の選択肢の各々に紐付けられた関連情報をサーバから受信すること、
前記複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を示す情報を前記サーバに送信すること、および、
決定した選択肢を選択して得られた利得の観測値を前記サーバから受信し、受信した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積すること、を含み、
前記複数の選択肢のうち何れを選択するかを決定するために、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器の各々を互いに独立して前記関係性を学習させ、学習させた当該複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記サーバが、
前記関連情報を取得して前記情報処理装置に送信すること、
前記情報処理装置から受信した情報が示す選択肢を選択すること、および、
前記選択肢を選択して得られる利得を観測し、観測した観測値を前記情報処理装置に送信すること、を含み、
前記関連情報は、前記複数の選択肢の各々の特徴を示す特徴情報である、
ことを特徴とする情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、利得の確率分布が未知の複数の選択肢から何れかを選択する技術に関する。

【背景技術】

【0002】

利得の確率分布が未知の複数の選択肢から何れかを選択する技術として、バンディットアルゴリズムが知られている。バンディットアルゴリズムは、複数の選択肢から何れかを選択して利得を観測する試行を繰り返し、各試行において、前回までの試行で得られた利得の観測値を参照することにより、選択すべき選択肢を決定する。バンディットアルゴリズムは、ある試行回数までに得られる観測値の累積を最大化するとともに、利得の期待値が最大となる選択肢を識別する。

【0003】

例えば、非特許文献１には、利得の観測値と、当該選択肢に紐づく情報（文脈）との間に関係性がある場合に適用可能な文脈付きバンディットアルゴリズムが記載されている。非特許文献１に記載されたアルゴリズムは、各試行において、前回までの試行で得られた観測値および文脈を学習データとして、観測値および文脈の関係性を学習する。また、当該アルゴリズムは、学習した関係性を用いて各選択肢の利得を予測することにより、選択すべき選択肢を決定する。

【先行技術文献】

【非特許文献】

【0004】

【文献】Y. Abbasi-Yadkori et. al. "Improved Algorithms for Linear Stochastic Bandits", In Advances in Neural Information Processing Systems 24, pages 2312-2320, 2011.

【発明の概要】

【発明が解決しようとする課題】

【0005】

非特許文献１に記載されたアルゴリズムには、観測値の累積を増大させるという観点において改善の余地がある。その理由は、各試行において、観測値および文脈の本来の関係性と学習した関係性との間にずれがある場合、最適な選択肢とは異なる選択肢が選択され得るからである。

【0006】

本発明の一態様は、上記の問題に鑑みてなされたものである。すなわち、本発明の一態様は、確率分布が未知の複数の選択肢から何れかを選択する際に、観測値の累積をより増大させる技術を提供することを一目的とする。

【課題を解決するための手段】

【0007】

本発明の一態様に係る情報処理装置は、複数の選択肢の各々に紐付けられた関連情報を取得する取得手段と、前記複数の選択肢のうち何れを選択するかを決定する決定手段と、前記決定手段が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段と、を備える。また、前記決定手段は、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定する。

【0008】

本発明の一態様に係る情報処理方法は、情報処理装置が、複数の選択肢の各々に紐付けられた関連情報を取得すること、前記複数の選択肢のうち何れを選択するかを決定すること、および、決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積することを含む。また、当該情報処理方法は、前記情報処理装置が、前記複数の選択肢のうち何れを選択するかを決定するために、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかの予測器を用いることを含む。

【0009】

本発明の一態様に係る記憶媒体は、コンピュータを情報処理装置として機能させるプログラムを記憶した記憶媒体である。前記プログラムは、前記コンピュータを、複数の選択肢の各々に紐付けられた関連情報を取得する取得手段と、前記複数の選択肢のうち何れを選択するかを決定する決定手段と、前記決定手段が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段として機能させる。前記決定手段は、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定する。

【0010】

本発明の一態様に係る情報処理システムは、情報処理装置と、サーバとを含む情報処理システムである。前記情報処理装置は、複数の選択肢の各々に紐付けられた関連情報を前記サーバから受信する取得手段と、前記複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を示す情報を前記サーバに送信する決定手段と、前記決定手段が決定した選択肢を選択して得られた利得の観測値を前記サーバから受信し、受信した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段と、を備える。また、前記決定手段は、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定する。また、前記サーバは、前記関連情報を取得して前記情報処理装置に送信する取得手段と、前記情報処理装置から受信した情報が示す選択肢を選択する選択手段と、前記選択手段による選択により得られる利得を観測し、観測した観測値を前記情報処理装置に送信する観測手段と、を備える。

【0011】

本発明の一態様に係る情報処理方法は、情報処理装置が、複数の選択肢の各々に紐付けられた関連情報をサーバから受信すること、前記複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を示す情報を前記サーバに送信すること、および、決定した選択肢を選択して得られた利得の観測値を前記サーバから受信し、受信した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積すること、を含む。また、当該情報処理方法は、前記情報処理装置が、前記複数の選択肢のうち何れを選択するかを決定するために、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定することを含む。また、当該情報処理方法は、前記サーバが、前記関連情報を取得して前記情報処理装置に送信すること、前記情報処理装置から受信した情報が示す選択肢を選択すること、および、前記選択肢を選択して得られる利得を観測し、観測した観測値を前記情報処理装置に送信すること、を含む。

【発明の効果】

【0012】

本発明の一態様によれば、観測値の累積をより増大させることができる。

【図面の簡単な説明】

【0013】

【図1】本発明の例示的実施形態１に係る情報処理装置の構成を示すブロック図である。

【図2】本発明の例示的実施形態１に係る情報処理装置が実行する情報処理方法の流れを示すフロー図である。

【図3】本発明の例示的実施形態２に係る情報処理システムの構成を示すブロック図である。

【図4】本発明の例示的実施形態２に係る情報処理システムが実行する情報処理方法の流れを示すフロー図である。

【図5】本発明の例示的実施形態３に係る情報処理装置の構成を示すブロック図である。

【図6】本発明の例示的実施形態３に係る情報処理装置が実行する情報処理方法を模式的に説明する図である。

【図7】本発明の例示的実施形態３に係る情報処理装置が実行する情報処理方法の概略的な流れを示すフロー図である。

【図8】本発明の例示的実施形態３に係る情報処理装置が実行する情報処理方法の一部の詳細な流れを示すフロー図である。

【図9】本発明の例示的実施形態４に係る情報処理システムの構成を示すブロック図である。

【図10】本発明の例示的実施形態４に係る情報処理システムが実行する情報処理方法の概略的な流れを示すフロー図である。

【図11】本発明の例示的実施形態４に係る情報処理システムが実行する情報処理方法の一部の詳細な流れを示すフロー図である。

【図12】本発明の例示的実施形態４に係る情報処理装置を用いた実施例を示すグラフである。

【図13】本発明の各例示的実施形態における情報処理装置のハードウェア構成の一例を示すブロック図である。

【発明を実施するための形態】

【0014】

〔例示的実施形態１〕
本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

【0015】

＜情報処理装置の概要＞
情報処理装置１は、複数の選択肢の各々に紐付けられた関連情報を取得し、複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を選択して得られた観測値および関連情報を学習データとして蓄積する、という試行を繰り返す装置である。

【0016】

＜情報処理装置の構成＞
本例示的実施形態に係る情報処理装置１の構成について、図１を参照して説明する。図１は、情報処理装置１の構成を示すブロック図である。

【0017】

図１に示すように、情報処理装置１は、取得部１１と、決定部１２と、蓄積部１３とを備える。取得部１１は、本例示的実施形態において取得手段を実現する構成である。決定部１２は、本例示的実施形態において決定手段を実現する構成である。蓄積部１３は、本例示的実施形態において蓄積手段を実現する構成である。

【0018】

取得部１１は、複数の選択肢の各々に紐付けられた関連情報を取得する。以降、選択肢に紐付けられた関連情報を、単に「選択肢の関連情報」とも記載する。例えば、取得部１１は、入力装置（図示せず）を介して各選択肢の関連情報を取得してもよい。また、例えば、取得部１１は、情報処理装置１と通信可能に接続された他の装置（図示せず）から各選択肢の関連情報を取得してもよい。

【0019】

決定部１２は、複数の選択肢のうち何れを選択するかを決定する。具体的には、決定部１２は、複数の予測器の何れかを用いて、複数の選択肢の何れを選択するかを決定する。ここで、各予測器は、記憶装置に記憶された学習データを参照して、関連情報と、利得の観測値との関係性を学習する。利得とは、選択肢を選択することにより得られる効能を定量的に表現したものである。観測値とは、選択肢を実際に選択して観測される利得である。また、各予測器は、互いに独立して当該関係性を学習する。ここで、互いに独立して学習するとは、例えば、各予測器が学習に用いる学習データの集合が互いに異なることであってもよい。

【0020】

蓄積部１３は、決定部１２が決定した選択肢を選択して得られた利得の観測値を取得する。また、蓄積部１３は、取得した観測値と当該選択肢の関連情報とを、学習データとして記憶装置（図示せず）に蓄積する。記憶装置は、情報処理装置１に含まれていてもよいし、情報処理装置１と通信可能に接続されていてもよい。

【0021】

＜情報処理方法の流れ＞
以上のように構成された情報処理装置１が実行する情報処理方法Ｓ１の流れについて、図２を参照して説明する。図２は、情報処理方法Ｓ１の流れを示すフロー図である。情報処理装置１は、複数の選択肢から何れを選択するかを決定する各試行において、情報処理方法Ｓ１を実行する。

【0022】

図２に示すように、情報処理方法Ｓ１は、ステップＳ１１～Ｓ１３を含む。

【0023】

（ステップＳ１１）
ステップＳ１１において、取得部１１は、複数の選択肢の各々の関連情報を取得する。

【0024】

（ステップＳ１２)
ステップＳ１２において、決定部１２は、複数の予測器の何れかを用いて、複数の選択肢の何れを選択するかを決定する。

【0025】

（ステップＳ１３）
ステップＳ１３において、蓄積部１３は、決定部１２が決定した選択肢を選択して得られた利得の観測値を取得する。また、蓄積部１３は、取得した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する。

【0026】

＜本例示的実施形態の効果＞
以上のように、本例示的実施形態では、複数の予測器のうち何れかを用いて、複数の選択肢の何れを選択するかを決定する構成が採用されている。各予測器は、学習データを参照して、互いに独立して関連情報および観測値の関係性を学習する。このため、複数の選択肢の何れを選択するかを決定するために、観測値および関連情報の関係性をより適切に学習した予測器を用いることが可能である。その結果、本例示的実施形態は、累積の利得をより増大させる選択肢を決定することができる。

【0027】

〔例示的実施形態２〕
本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。

【0028】

＜情報処理システムの概要＞
本例示的実施形態に係る情報処理システム１０Ａは、例示的実施形態１を変形した情報処理装置１Ａが、サーバ３Ａと連携して機能するシステムである。

【0029】

＜情報処理システムの構成＞
情報処理システム１０Ａの構成について、図３を参照して説明する。図３は、情報処理システム１０Ａの構成を示すブロック図である。図３に示すように、情報処理システム１０Ａは、情報処理装置１Ａと、サーバ３Ａとを含む。情報処理装置１Ａおよびサーバ３Ａは、ネットワークＮ１を介して通信可能に接続される。ネットワークＮ１は、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせである。

【0030】

（情報処理装置１Ａの構成）
図３に示すように、情報処理装置１Ａは、取得部１１Ａと、決定部１２Ａと、蓄積部１３Ａとを含む。

【0031】

取得部１１Ａは、例示的実施形態１における取得部１１とほぼ同様の構成であるが、関連情報をサーバ３Ａから受信する点が異なる。その他の点については、取得部１１と同様に構成される。

【0032】

決定部１２Ａは、例示的実施形態１における決定部１２とほぼ同様の構成であるが、決定した選択肢を示す情報をサーバ３Ａに送信する点が異なる。その他の点については、決定部１２と同様に構成される。

【0033】

蓄積部１３Ａは、例示的実施形態１における蓄積部１３とほぼ同様の構成であるが、観測値をサーバ３Ａから受信する点が異なる。その他の点については、蓄積部１３と同様に構成される。

【0034】

（サーバ３Ａの構成）
図３に示すように、サーバ３Ａは、取得部３１Ａと、選択部３２Ａと、観測部３３Ａとを含む。

【0035】

取得部３１Ａは、複数の選択肢の各々の関連情報を取得し、取得した関連情報を情報処理装置１Ａに送信する。例えば、取得部３１Ａは、サーバ３Ａと通信可能に接続された複数の端末（不図示）の各々から関連情報を取得してもよい。

【0036】

選択部３２Ａは、情報処理装置１Ａから受信した情報が示す選択肢を選択する。例えば、選択部３２Ａは、当該選択肢を選択したことを示す情報を、当該選択肢の関連情報の取得元である端末に送信してもよい。

【0037】

観測部３３Ａは、選択部３２Ａによる選択により得られる利得を観測し、観測した観測値を情報処理装置１Ａに送信する。例えば、観測部３３Ａは、選択部３２Ａが情報を送信した端末から情報を受信し、受信した情報を観測した結果を観測値として取得する。

【0038】

＜情報処理方法の流れ＞
以上のように構成された情報処理システム１０Ａが実行する情報処理方法Ｓ１Ａの流れについて、図４を参照して説明する。図４は、情報処理方法Ｓ１Ａの流れを示すフロー図である。情報処理システム１０Ａは、複数の選択肢から何れを選択するかを決定する各試行において、情報処理方法Ｓ１Ａを実行する。

【0039】

図４に示すように、情報処理方法Ｓ１Ａは、ステップＳ１１Ａ～Ｓ１６Ａを含む。

【0040】

（ステップＳ１１Ａ）
ステップＳ１１Ａにおいて、サーバ３Ａの取得部３１Ａは、複数の選択肢の各々について関連情報を取得する。また、取得部３１Ａは、取得した各関連情報を情報処理装置１Ａに送信する。

【0041】

（ステップＳ１２Ａ）
ステップＳ１２Ａにおいて、情報処理装置１Ａの取得部１１Ａは、サーバ３Ａから各選択肢の関連情報を受信する。

【0042】

（ステップＳ１３Ａ）
ステップＳ１３Ａにおいて、決定部１２Ａは、複数の予測器の何れかを用いて、複数の選択肢のうち何れを選択するかを決定する。決定する処理の詳細は、例示的実施形態１におけるステップＳ１２で説明した通りである。また、決定部１２Ａは、決定した選択肢を示す情報をサーバ３Ａに送信する。

【0043】

（ステップＳ１４Ａ）
ステップＳ１４Ａにおいて、サーバ３Ａの選択部３２Ａは、情報処理装置１Ａから受信した情報が示す選択肢を選択する。

【0044】

（ステップＳ１５Ａ）
ステップＳ１５Ａにおいて、観測部３３Ａは、選択部３２Ａによる選択により得られる利得を観測し、観測した観測値を情報処理装置１Ａに送信する。

【0045】

（ステップＳ１６Ａ）
ステップＳ１６Ａにおいて、情報処理装置１Ａの蓄積部１３Ａは、受信した観測値と、ステップＳ１３Ａで決定した選択肢の関連情報とを、学習データとして記憶装置に蓄積する。

【0046】

＜本例示的実施形態の効果＞
以上の構成により、本例示的実施形態は、情報処理装置１Ａがサーバ３Ａと連携することにより、例示的実施形態１と同様の効果を奏する。

【0047】

〔例示的実施形態３〕
本発明の第３の例示的実施形態について、図面を参照して詳細に説明する。ここで、本例示的実施形態は、［発明が解決しようとする課題］で述べた課題を解決することに加えて、非特許文献１に記載された関連技術における以下の問題点をさらに解決する。

【0048】

＜関連技術の問題点＞
上述した非特許文献１に記載されたアルゴリズムは、観測値と文脈との関係性として線形モデルを仮定する。そのため、当該アルゴリズムは、観測値と文脈との関係性が線形モデルで表せない場合、観測値の累積をより増大させる選択肢を選択できない可能性がある、という問題がある。その理由について説明する。当該アルゴリズムを用いた場合、観測値と文脈との本来の関係性と線形モデルとのずれに起因して、各試行において最適な選択肢とは異なる選択肢が選択され得る。その結果、各試行において、最適な選択肢から得られるはずの利得と観測値とを比較した損失が生じ得る。このため、試行回数が増えるほど損失の累積が増大するからである。

【0049】

また、他の文脈付きバンディットアルゴリズムが、以下の参考文献１に記載されているが、以下の問題がある。すなわち、参考文献１に記載されたアルゴリズムは、観測値および文脈の関係性において、線形モデルに対する差分を特定できることを仮定する。また、当該アルゴリズムは、各試行における選択肢の集合が変化しないことを仮定する。そのため、当該アルゴリズムは、線形モデルとの差分を特定できない場合、または、各試行において選択肢の集合が変化する場合には適用できないという問題がある。

【0050】

［参考文献１］Tor Lattimore et. al. "Learning with good feature representations in bandits and in RL with a generative model", arXiv preprint arXiv:1911.07676, 2019.
本例示的実施形態に係る情報処理装置１Ｂは、上述した関連技術の問題点を解決するために、以下に説明する構成を有する。

【0051】

＜情報処理装置の概要＞
情報処理装置１Ｂは、複数の選択肢の各々に紐付けられた関連情報を取得し、複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を選択して得られた観測値および関連情報を学習データとして蓄積する、という試行を繰り返す装置である。情報処理装置１Ｂは、各試行において、複数の予測器のうち１つ目の予測器から順に、選択肢の決定に適した予測器に到達するまで、各予測器を用いた処理を実行する。また、情報処理装置１Ｂは、決定した選択肢を選択して得られた利得の観測値を含む学習データを、当該選択肢の決定に用いた予測器に関連付けて蓄積する。

【0052】

＜情報処理装置１Ｂの構成＞
本例示的実施形態に係る情報処理装置１Ｂの構成について、図５を参照して説明する。図５は、情報処理装置１Ｂの構成を示すブロック図である。

【0053】

図５に示すように、情報処理装置１Ｂは、制御部１１０Ｂと、記憶部１５０Ｂとを備える。制御部１１０Ｂは、取得部１１Ｂと、決定部１２Ｂと、蓄積部１３Ｂとを有する。記憶部１５０Ｂは、１以上の学習データからなる学習データ群Ψを記憶する。

【0054】

取得部１１Ｂは、本例示的実施形態において取得手段を実現する構成である。決定部１２Ｂは、本例示的実施形態において決定手段を実現する構成である。蓄積部１３Ｂは、本例示的実施形態において蓄積手段を実現する構成である。記憶部１５０Ｂは、本例示的実施形態において記憶装置を実現する構成である。

【0055】

取得部１１Ｂは、複数の選択肢の各々について関連情報を取得する。関連情報を取得する対象となる複数の選択肢の集合は、各試行において可変であってよい。すなわち、各試行において、対象となる選択肢の数は、他の試行において対象となる選択肢の数と異なり得る。また、各試行において、対象となる少なくとも１つの選択肢は、他の試行における選択肢と異なり得る。

【0056】

決定部１２Ｂは、複数の予測器の何れかを用いて、複数の選択肢の何れを選択するかを決定する。決定部１２Ｂの詳細については後述する。

【0057】

蓄積部１３Ｂは、決定部１２Ｂが決定した選択肢を選択して得られた利得の観測値を取得する。また、蓄積部１３Ｂは、取得した観測値と、決定部１２Ｂが決定した選択肢とを含む学習データを、選択肢の決定に用いた予測器に関連付けて記憶部１５０Ｂに蓄積する。

【0058】

（決定部の詳細な構成）
決定部１２Ｂの詳細な構成について、図５および図６を参照して説明する。図５は、前述したように、情報処理装置１Ｂの構成を示すブロック図である。図６は、情報処理装置１Ｂが実行する情報処理方法を模式的に説明する図である。図５に示すように、決定部１２Ｂは、管理部１２１Ｂと、予測部１２２Ｂと、第１決定部１２３Ｂと、進行部１２４Ｂとを含む。

【0059】

管理部１２１Ｂは、Ｓ個の予測器を管理する。ここで、Ｓは、２以上の整数である。管理部１２１Ｂは、Ｓ個の予測器を生成し、それぞれを初期化する。初期化するとは、後述する予測関数および予測誤差関数として、事前に定められた初期関数を生成することである。管理部１２１Ｂは、各試行において、各予測器を順に用いて、予測処理を実行し、判定条件が満たされる場合には進行処理を実行し、判定条件が満たされない場合には、第１決定処理を実行する。管理部１２１Ｂは、何れかの予測器を用いて第１決定処理を行った場合には、以降、当該試行においては、他の予測器を用いた各処理を実行しない。予測処理、第１決定処理、および進行処理の詳細については後述する。

【0060】

ここで、図６に示すように、Ｓ個の予測器は、管理部１２１Ｂによって用いられる順番が定められている。図６の例では、予測器１、予測器２、・・・予測器Ｓとの順番が定められている。換言すると、この例では、予測器に付した参照符号「ｓ」（ｓ＝１，２，…，Ｓ）は、予測器に定められた順番を表している。また、管理部１２１Ｂが現在用いている予測器を、現在の予測器とも記載する。また、管理部１２１Ｂが、現在の予測器を用いた処理を終了して次の予測器を用いた処理を開始することを、次の予測器に処理を進める、または、次の予測器に処理が進行する、とも記載する。つまり、管理部１２１Ｂは、予測器１、予測器２、…の順に、現在の予測器を用いて上述した各処理を実行し、第１決定処理を行うまで次の予測器に処理を進める。

【0061】

（予測部の構成）
予測部１２２Ｂは、上述した予測処理を実行する。予測処理とは、現在の予測器を用いて、現在の予測器が対象とする選択肢群の各々について、予測値に付随する予測誤差を予測する処理である。具体的には、予測処理は、現在の予測器に、観測値および関連情報の関係性を学習させる学習処理と、当該関係性を用いて予測値および予測誤差を算出する算出処理とを含む。

【0062】

（対象とする選択肢群）
ここで、対象とする選択肢群とは、複数の選択肢のうち１以上の選択肢である。図６に示すように、予測器ｓは、試行ｔ（ｔ＝１，２，…，Ｔ）において選択肢群Ｉ_ｔ，ｓを対象とする。予測器１が対象とする選択肢群Ｉ_ｔ，１は、取得部１１Ｂが取得した各関連情報が紐付けられた選択肢からなる。予測器２が対象とする選択肢群Ｉ_ｔ，２は、選択肢群Ｉ_ｔ，１から抽出された１以上の選択肢である。このように、現在の予測器が対象とする選択肢群から、次の予測器が対象とする選択肢群が抽出される。選択肢群の抽出は、後述する進行部１２４Ｂが行う。

【0063】

（学習処理）
学習処理は、現在の予測器に、観測値と関連情報との関係性を学習させる処理である。ここで、当該関係性は一例として線形な関係であってもよい。現在の予測器による学習には、記憶部１５０Ｂに記憶された学習データ群Ψのうち、当該予測器に関連付けられた１以上の学習データが用いられる。１つの学習データは、選択肢の関連情報と、当該選択肢を選択して得られた利得の観測値とを含む。例えば、図６に示すように、予測器ｓには、学習データ群Ψ_ｔ，ｓが関連付けられている。学習データ群Ψ_ｔ，ｓは、記憶部１５０Ｂに記憶された学習データ群Ψに含まれる。学習データ群Ψ_ｔ，ｓは、試行ｔ－１までに、当該予測器ｓに関連付けられた学習データからなる。予測器ｓに対して学習データを関連付ける処理は、前述した蓄積部１３Ｂが実行する。

【0064】

ここで、予測器ｓによる学習とは、学習データ群Ψ_ｔ，ｓを用いた機械学習である。予測部１２２Ｂは、予測器ｓによる機械学習により、予測関数および予測誤差関数を構築する。予測関数とは、関連情報に基づき利得の観測値を予測する関数である。また、予測誤差関数は、当該予測関数による予測値に付随する予測誤差を算出する関数である。以降、予測器ｓによる機械学習により構築した予測関数および予測誤差関数を、単に、予測器ｓが構築した予測関数および予測誤差関数とも記載する。

【0065】

（算出処理）
算出処理は、現在の予測器が対象とする選択肢群の各々の関連情報に、現在の予測器が構築した予測関数および予測誤差関数を適用することにより、予測値および予測誤差を算出する処理である。

【0066】

（第１決定部の構成）
第１決定部１２３Ｂは、上述した第１決定処理を行う。第１決定処理とは、判定条件が満たされない場合に、現在の予測器が対象とする選択肢群のうち何れを選択するかを決定する処理である。

【0067】

（判定条件）
ここで、判定条件とは、予測処理により予測した各予測誤差に関する条件である。本例示的実施形態では、判定条件として、各予測誤差が第１閾値以下であるとの条件を用いる。なお、本例示的実施形態において、第１閾値は、請求の範囲に記載した「閾値」の一例である。つまり、判定条件が満たされない場合とは、少なくとも何れかの予測誤差が第１閾値より大きいことを指す。

【0068】

（進行部の構成）
進行部１２４Ｂは、上述した進行処理を行う。進行処理とは、判定条件が満たされる場合に、現在の予測器が対象とする選択肢群から次の予測器が対象とする選択肢群を抽出する処理であり、次の予測器に処理を進めるための処理である。具体的には、進行部１２４Ｂは、現在の予測器が対象とする選択肢群から、最適な選択肢である可能性が高いとの条件を満たすものを、次の予測器が対象とする選択肢群として抽出する。一例として、進行部１２４Ｂは、現在の予測器が対象とする選択肢群から、予測値および予測誤差の和が所定値以上の１以上の選択肢を、次の予測器が対象とする選択肢群として抽出する。その後、管理部１２１Ｂは、次の予測器に処理を進める。すなわち、管理部１２１Ｂは、次の予測器を用いて、予測処理と、第１決定処理または進行処理とを実行する。

【0069】

（予測器を用いて進行する処理の具体例）
このように、予測器１から順に進行する処理の具体例について、図６を参照して説明する。図６の例では、予測器１から順に処理が進行し、予測器ｓを用いて第１決定処理が実行される。また、これにより、予測器ｓを用いて、選択する選択肢が決定される。具体的には、予測器１を用いて予測処理が実行され、判定条件が満たされるので、予測器２に処理が進行する。次に、予測器２を用いて予測処理が実行され、判定条件が満たされるので、次の予測器に処理が進行する。そして、順次、次の予測器に処理が進行し、予測器ｓを用いて予測処理が実行され、判定条件が満たされない。そこで、予測器ｓが対象とする選択肢群Ｉ_ｔ，ｓのうち何れかが、選択する選択肢として決定される。例えば、選択肢群Ｉ_ｔ，ｓのうち予測誤差が第１閾値より大きい選択肢が決定される。また、当該選択肢を選択して得られた観測値を含む学習データが、学習データ群Ψ_ｔ，ｓに追加される。

【0070】

＜情報処理方法の流れ＞
以上のように構成された情報処理装置１Ｂが実行する情報処理方法Ｓ１Ｂの流れについて、図７を参照して説明する。図７は、情報処理方法Ｓ１Ｂの流れを示すフロー図である。情報処理装置１Ｂは、複数の選択肢から何れを選択するかを決定する各試行において、情報処理方法Ｓ１Ｂを実行する。

【0071】

図７に示すように、情報処理方法Ｓ１Ｂは、ステップＳ１１Ｂ～Ｓ１５Ｂを含む。

【0072】

（ステップＳ１１Ｂ）
ステップＳ１１Ｂにおいて、取得部１１Ｂは、複数の選択肢の各々について関連情報を取得する。

【0073】

（ステップＳ１２Ｂ）
ステップＳ１２Ｂにおいて、決定部１２Ｂは、複数の予測器の何れかを用いて、何れの選択肢を選択するかを決定する。当該ステップの詳細については後述する。

【0074】

（ステップＳ１３Ｂ）
ステップＳ１３Ｂにおいて、決定部１２Ｂは、決定した選択肢を示す情報を出力する。例えば、決定部１２Ｂは、決定した選択肢を示す情報を、表示装置等に表示してもよい。

【0075】

（ステップＳ１４Ｂ）
ステップＳ１４Ｂにおいて、蓄積部１３Ｂは、決定した選択肢を選択して得られた利得の観測値を取得する。例えば、蓄積部１３Ｂは、当該観測値を、入力装置を介して取得してもよい。

【0076】

（ステップＳ１５Ｂ）
ステップＳ１５Ｂにおいて、蓄積部１３Ｂは、観測値と、決定した選択肢の関連情報とを含む学習データを、ステップＳ１２Ｂで選択肢の決定に用いた予測器に関連付けて、記憶部１５０Ｂに蓄積する。

【0077】

以上で、情報処理装置１Ｂは、情報処理方法Ｓ１０を終了する。

【0078】

＜決定する処理の詳細な流れ＞
次に、ステップＳ１２Ｂにおける処理の詳細な流れについて、図８を参照して説明する。図８は、何れの選択肢を選択するかを決定する処理の詳細な流れを示すフロー図である。図８に示すように、ステップＳ１２Ｂは、ステップＳ２１Ｂ～Ｓ２７Ｂを含む。

【0079】

（ステップＳ２１Ｂ）
ステップＳ２１Ｂにおいて、管理部１２１Ｂは、最初の予測器を用いた処理を開始する。

【0080】

（ステップＳ２２Ｂ）
ステップＳ２２Ｂにおいて、予測部１２２Ｂは、現在の予測器に、観測値および関連情報の関係性を学習させる。具体的には、予測部１２２Ｂは、現在の予測器を用いて予測関数および予測誤差関数を構築する。

【0081】

（ステップＳ２３Ｂ）
ステップＳ２３Ｂにおいて、予測部１２２Ｂは、現在の予測器を用いて、現在の予測器が対象とする選択肢群の各々について、利得の予測値に付随する予測誤差を予測する。具体的には、予測部１２２Ｂは、各選択肢の関連情報に、ステップＳ２２Ｂで構築した予測関数および予測誤差関数を適用することにより、予測値および予測誤差を算出する。

【0082】

（ステップＳ２４Ｂ）
ステップＳ２４Ｂにおいて、管理部１２１Ｂは、ステップＳ２３Ｂで予測した各予測誤差に関する判定条件が満たされるか否かを判断する。ここでは、判定条件として、各予測誤差が第１閾値以下であるとの条件を適用する。

【0083】

（ステップＳ２４ＢでＹｅｓ：ステップＳ２５Ｂ）
ステップＳ２４ＢにおいてＹｅｓと判断した場合、ステップＳ２５Ｂにおいて、進行部１２４Ｂは、現在の予測器が対象とする選択肢群から１以上の選択肢を、次の予測器が対象とする選択肢群として抽出する。例えば、進行部１２４Ｂは、ステップＳ２３Ｂで予測した予測値および予測誤差の和が所定値より大きいものを抽出する。

【0084】

（ステップＳ２６Ｂ）
ステップＳ２６Ｂにおいて、管理部１２１Ｂは、次の予測器を用いた処理を開始し、ステップＳ２２Ｂからの処理を繰り返す。

【0085】

（ステップＳ２４ＢでＮｏ：ステップＳ２７Ｂ）
一方、ステップＳ２４ＢでＮｏと判断した場合、ステップＳ２７Ｂにおいて、第１決定部１２３Ｂは、現在の予測器が対象とする選択肢群のうち何れを選択するかを決定する。ここでは、第１決定部１２３Ｂは、予測誤差が第１閾値以上の選択肢を選択することを決定する。そして、情報処理装置１Ｂは、ステップＳ１２Ｂにおける決定する処理を終了する。

【0086】

＜本例示的実施形態の効果＞
以上のように、本例示的実施形態に係る情報処理装置１Ｂおよび情報処理方法Ｓ１Ｂは、次の構成（ｉ）～（ｉｉｉ）を採用している。構成（ｉ）は、現在の予測器を用いて、当該予測器が対象とする選択肢群の各々について利得の予測値に付随する予測誤差を予測する構成である。構成（ｉｉ）は、各予測誤差に関する判定条件が満たされない場合に、当該予測器が対象とする選択肢群のうち何れを選択するかを決定する構成である。構成（ｉｉｉ）は、判定条件が満たされる場合に、対象とする選択肢群から１以上の選択肢を、他の予測器が対象とする選択肢群として抽出し、当該他の予測器を用いて各選択肢の前記予測誤差を予測する構成である。また、本例示的実施形態では、判定条件として、各予測誤差が第１閾値以下であるとの条件を採用している。

【0087】

また、本例示的実施形態は、さらに次の構成（ｉｖ）、（ｖ）を採用している。構成（ｉｖ）は、決定した選択肢を選択して得られた観測値および当該選択肢の関連情報を含む学習データを、当該選択肢の決定に用いた予測器に関連付けて記憶部に蓄積する構成である。構成（ｖ）は、複数の予測器の各々が、記憶部に蓄積された学習データのうち、自身に関連付けられた学習データを参照して、観測値および関連情報の関係性を学習する構成である。

【0088】

これらの構成により、本例示的実施形態は、予測誤差がより小さい予測器を用いて選択肢を絞り込んだ上で、少なくとも何れかの予測誤差が大きいためにさらなる学習をさせるべき他の予測器を用いて、何れの選択肢を選択するかを決定する。このため、本例示的実施形態は、より予測誤差が小さい選択肢を選択できる。

【0089】

また、本例示的実施形態は、選択肢の決定に用いた予測器のさらなる学習において、予測誤差が大きい選択肢を選択して得られた観測値を学習データとして用いる。このため、予測精度が充分でない予測器を、より効果的に学習させることができる。

【0090】

〔例示的実施形態４〕
本発明の第４の例示的実施形態について、図面を参照して詳細に説明する。

【0091】

＜情報処理システムの概要＞
本例示的実施形態に係る情報処理システム１０Ｃは、情報処理装置１Ｃがサーバ３Ｃと連携して機能するシステムである。情報処理装置１Ｃは、例示的実施形態３に係る情報処理装置１Ｂを変形した態様である。サーバ３Ｃは、例示的実施形態２に係るサーバ３Ａを変形した態様である。

【0092】

本例示的実施形態では、例示的実施形態２または３における選択肢の一例としてユーザを適用する。また、例示的実施形態２または３における関連情報の一例として、ユーザの特徴を示す特徴情報を適用する。また、例示的実施形態２または３において「選択肢を選択する」ことの一例として、「ユーザに商品のプロモーションを送付する」ことを適用する。また、例示的実施形態２または３における観測値の一例として、プロモーションの送付結果を適用する。以降、「例示的実施形態２または３と同様」等の記載は、例示的実施形態２または３の記載において、選択肢をユーザに、関連情報を特徴情報に、選択肢の選択をプロモーションの送付に、観測値を送付結果に読み替えることで同様に説明されることを意味する。

【0093】

具体的には、本例示的実施形態に係る情報処理システム１０Ｃは、複数のユーザの何れかを選択し、選択したユーザに対してプロモーションを送付するシステムである。プロモーションとは、例えば、商品を販売するためのプロモーションである。プロモーションの種類は限定されないが、以下では、１種類であるものとして説明する。

【0094】

情報処理システム１０Ｃは、複数のユーザ各々の特徴を示す特徴情報を取得し、複数のユーザのうち何れを選択するかを決定し、決定したユーザに対するプロモーションの送付結果および特徴情報を学習データとして蓄積する、という試行を繰り返す。送付結果とは、プロモーションを送付したユーザの商品に対する購買行動を示し、例えば、購買したか否かを示す。

【0095】

＜情報処理システムの構成＞
情報処理システム１０Ｃの構成について、図９を参照して説明する。図９は、情報処理システム１０Ｃの構成を示すブロック図である。図９に示すように、情報処理システム１０Ｃは、情報処理装置１Ｃと、サーバ３Ｃとを含む。情報処理装置１Ｃおよびサーバ３Ｃは、ネットワークＮ１を介して通信可能に接続される。また、サーバ３Ｃは、ネットワークＮ２を介して、複数の端末９Ｃ－ｉ（ｉ＝１，２，…，Ｉ：Ｉは２以上の整数）と通信可能に接続される。図９には、３つの端末９Ｃ－ｉを示しているが、サーバ３Ｃが接続される端末９Ｃ－ｉの数は、２つであってもよいし、４以上であってもよい。なお、ネットワークＮ１、Ｎ２は、それぞれ、無線ＬＡＮ、有線ＬＡＮ、ＷＡＮ、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせである。

【0096】

（サーバ３Ｃの構成）
サーバ３Ｃは、各試行ｔ（ｔ=１，２，…，Ｔ：Ｔは２以上の整数）において、複数の端末９Ｃ－ｉの何れかに対してプロモーションを示す情報を送信する装置である。つまり、サーバ３Ｃが送信する情報は、何れかの端末９Ｃ－ｉのユーザｉに提示される。以降、端末９Ｃ－ｉに対してプロモーションを示す情報を送信することを、ユーザｉにプロモーションを送付する、とも記載する。ユーザｉは、送付されたプロモーションに対して購買行動を行う。ここでは、購買行動は、商品を購入する、および購入しない、の何れかであるものとする。ただし、購買行動は、これら２種類の行動に限定されない。また、購買行動は、３種類以上の行動を含んでいてもよい。

【0097】

図９に示すように、サーバ３Ｃは、取得部３１Ｃと、選択部３２Ｃと、観測部３３Ｃと、通信部３４Ｃとを含む。

【0098】

取得部３１Ｃは、各試行ｔにおいて、対象となる複数のユーザｉ各々の特徴情報を、端末９Ｃ－ｉから受信する。また、取得部３１Ｃは、受信した各特徴情報を、情報処理装置１Ｃに送信する。なお、「各試行ｔにおいて、対象となる複数のユーザｉ（すなわち対象となる複数の端末９Ｃ－ｉ）」の集合は可変である。すなわち、各試行ｔにおいて、対象となるユーザｉの数は、他の試行において対象となるユーザの数と異なり得る。また、各試行ｔにおいて、対象となる少なくとも１人のユーザｉは、他の試行におけるユーザと異なり得る。また、各試行において情報処理装置１Ｃが決定するユーザｉの数は限定されないが、ここでは１であるものとする。

【0099】

選択部３２Ｃは、情報処理装置１Ｃから受信した情報が示すユーザｉに対して、プロモーションを送付する。

【0100】

観測部３３Ｃは、選択部３２Ｃによるプロモーションの送付結果を観測し、情報処理装置１Ｃに送信する。プロモーションの送付結果を観測するとは、例えば、プロモーションの送付先のユーザｉの購買行動を観測することである。この場合、送付結果は、ユーザｉが当該商品を購入したか否かを示す情報である。

【0101】

通信部３４Ｃは、ネットワークＮ１を介して情報処理装置１Ｃとの間で情報を送受信する。

【0102】

（情報処理装置１Ｃの構成）
図９に示すように、情報処理装置１Ｃは、制御部１１０Ｃと、記憶部１５０Ｃと、通信部１６０Ｃとを備える。

【0103】

記憶部１５０Ｃは、学習データ群Ψを記憶する。学習データ群Ψを構成する学習データは、ユーザの特徴情報と、当該ユーザに対するプロモーションの送付結果とを含む。

【0104】

通信部１６０Ｃは、ネットワークＮ１を介してサーバ３Ｃとの間で情報を送受信する。

【0105】

制御部１１０Ｃは、取得部１１Ｃと、決定部１２Ｃと、蓄積部１３Ｃとを有する。

【0106】

ここで、取得部１１Ｃは、本例示的実施形態において取得手段を実現する構成である。決定部１２Ｃは、本例示的実施形態において決定手段を実現する構成である。蓄積部１３Ｃは、本例示的実施形態において蓄積手段を実現する構成である。記憶部１５０Ｃは、本例示的実施形態において記憶装置を実現する構成である。

【0107】

取得部１１Ｃは、各試行ｔにおいて、複数のユーザｉ各々の特徴情報を、サーバ３Ｃから受信する。前述したように、特徴情報を取得する対象となる複数のユーザｉの集合は、各試行において可変である。特徴情報は、ユーザｉの特徴を示す情報であり、次元数ｄを有する。ここで、特徴情報の次元数とは、例えば、特徴情報をベクトルとして表現するために必要なベクトル空間の次元数のことを指す。一例として、特徴情報が複数の数値により表現される場合、その数値の個数が特徴情報の次元となる。具体例として、特徴情報が、ユーザｉの識別情報、ユーザｉに送付されたプロモーションの履歴、ユーザｉが購入した商品の履歴、およびユーザｉの年齢との４項目を含み得る例が挙げられる。この場合、特徴情報の次元数は４である。ただし、当該具体例は、特徴情報の構成および次元数ｄを限定するものではない。

【0108】

決定部１２Ｃは、Ｓ個の予測器の何れかを用いて、複数のユーザｉの何れを選択するかを決定する。ユーザｉの決定に用いた予測器を、予測器ｓ１と記載する。また、決定部１２Ｃは、決定したユーザｉを示す情報を、サーバ３Ｃに送信する。決定部１２Ｃの詳細については後述する。

【0109】

蓄積部１３Ｃは、サーバ３Ｃから、ユーザｉに対するプロモーションの送付結果を受信する。また、蓄積部１３Ｃは、受信した送付結果と、ユーザｉの特徴情報とを含む学習データを、ユーザｉの決定に用いた予測器ｓ１に関連付けて記憶部１５０Ｂに蓄積する。

【0110】

（決定部の詳細な構成）
決定部１２Ｃの詳細な構成について説明する。決定部１２Ｃは、管理部１２１Ｃと、予測部１２２Ｃと、第１決定部１２３Ｃと、第２決定部１２５Ｃと、進行部１２４Ｃとを含む。

【0111】

管理部１２１Ｃは、例示的実施形態３における管理部１２１Ｂと同様に、Ｓ個の予測器を管理する。Ｓ個の予測器の詳細については、例示的実施形態３において説明した通りである。ただし、管理部１２１Ｃが各予測器を用いて実行する処理の詳細が、例示的実施形態３とは異なる。

【0112】

具体的には、管理部１２１Ｃは、各試行において、各予測器を順に用いて、予測処理を実行し、判定条件が満たされる場合には進行処理を実行し、判定条件が満たされない場合には、第１決定処理または第２決定処理を行う。管理部１２１Ｃは、何れかの予測器を用いて第１決定処理または第２決定処理を行った場合には、以降、当該試行においては、他の予測器を用いた各処理を実行しない。

【0113】

（判定条件）
管理部１２１Ｃが用いる判定条件は、例示的実施形態３における管理部１２１Ｂが用いる判定条件とは異なる。本例示的実施形態では、判定条件として、「各予測誤差が、第２閾値より大きく、かつ、第１閾値以下である」との条件を用いる。具体的には、第１閾値は、次式（１）で表される。また、第２閾値は、次式（２）で表される。

【0114】

【数1】

【0115】

【数2】

ここで、Ｔは、総試行回数を表す。ｓは、前述したように、予測器に定められた順番を示す。ｄは、試行ｔにおけるユーザｉの特徴情報の次元数を表す。αおよびｃは、０以上の係数である。

【0116】

（特徴情報の次元数）
ここで、判定条件は、特徴情報の次元数に基づく条件である。具体的には、上述した式（１）、（２）におけるαは、特徴情報の次元数ｄが大きいほど大きい値が設定される。例えば、αは、次式（３）、（４）により表される。

【0117】

【数3】

【0118】

【数4】

ここで、δは、予測の確からしさを表す。Ｔは、前述したように、総試行回数を表す。Ｓは、前述したように、予測器の総数を表す。Ｌは、特徴情報のノルムの上界を表す。λは、非負のチューニングパラメータを表す。Ｍは、特徴情報と観測の関係を表す関数の複雑さを表す。Ｒは、観測に加わるノイズの大きさの上界を表す。

【0119】

（予測部の構成）
予測部１２２Ｃは、上述した予測処理を実行する。予測処理とは、現在の予測器ｓを用いて、現在の予測器ｓが対象とするユーザ群の各々について、送付結果の予測値に付随する予測誤差を予測する処理である。具体的には、予測処理は、試行ｔにおいて、現在の予測器ｓに、送付結果の観測値および特徴情報の関係性θ_ｔ，ｓを学習させる学習処理を含む。また、予測処理は、試行ｔにおいて、当該関係性θ_ｔ，ｓを用いて、送付結果の予測値γ_ｔ，ｓ（ｉ）および予測誤差ｗ_ｔ，ｓ（ｉ）を算出する算出処理を含む。予測部１２２Ｃが算出処理に用いる予測関数および予測誤差関数は、次式（５）、（６）により表される。

【0120】

【数5】

【0121】

【数6】

ここで、ｘ_ｔ（ｉ）は、試行ｔにおけるユーザｉの特徴情報を表す。θ_ｔは、機械学習により学習した線形な関係性を表す係数である。γ_ｔ，ｓ（ｉ）は、試行ｔにおいて現在の予測器ｓを用いて予測した、ユーザｉに対するプロモーションの送付結果の予測値である。また、Ｖ_{ｔ－１，ｓ}は、学習データΨｔ，ｓを用いた予測器ｓによる学習の過程で算出される。

【0122】

（第１決定部の構成）
第１決定部１２３Ｃは、上述した第１決定処理を行う。本例示的実施形態における第１決定処理は、例示的実施形態３における第１決定処理とは異なる。本例示的実施形態における第１決定処理は、判定条件が満たされない場合であって、かつ、次式（７）が満たされる場合に、現在の予測器ｓが対象とするユーザ群Ｉ_ｔ，ｓのうち何れを選択するかを決定する処理である。

【0123】

【数7】

このように、第１決定部１２３Ｃは、少なくとも何れかのユーザｉについて予測した予測誤差が第１閾値を超える場合に、現在の予測器ｓが対象とするユーザ群Ｉ_ｔ，ｓのうち何れを選択するかを決定する。具体的には、第１決定部１２３Ｃは、予測誤差が第１閾値を超えたユーザｉを選択することを決定する。

【0124】

（第２決定部の構成）
第２決定部１２５Ｃは、上述した第２決定処理を行う。第２決定処理とは、判定条件が満たされない場合であって、かつ、次式（８）が満たされる場合に、現在の予測器が対象とするユーザ群Ｉ_ｔ，ｓのうち何れを選択するかを決定する処理である。

【0125】

【数8】

このように、第２決定部１２５Ｃは、全てのユーザｉについて予測した予測誤差が第２閾値以下の場合に、現在の予測器ｓが対象とするユーザ群Ｉ_ｔ，ｓのうち何れを選択するかを決定する。具体的には、第２決定部１２５Ｃは、予測値および予測誤差の和が最大となるユーザｉを選択することを決定する。

【0126】

（進行部の構成）
進行部１２４Ｃは、上述した進行処理を行う。進行処理とは、判定条件が満たされる場合に、現在の予測器が対象とする選択肢群Ｉ_ｔ，ｓから次の予測器ｓ＋１が対象とする選択肢群Ｉ_{ｔ，ｓ＋１}を抽出するとともに、当該次の予測器ｓ＋１に処理を進める処理である。

【0127】

ここで、進行部１２４Ｃが抽出する選択肢群は、次式（９）で表される。

【0128】

【数9】

このように、進行部１２４Ｃは、現在の予測器ｓが対象とするユーザ群Ｉ_ｔ，ｓのうち、予測値および予測誤差の和が第３閾値より大きいものを抽出する。ここでは、第３閾値は、式（９）に示すように、予測値および予測誤差の和の最大値から５αｃ^－ｓを減算した値である。これにより、次の予測器ｓ＋１が対象とするユーザ群Ｉ_{ｔ，ｓ＋１}は、現在の予測器ｓが対象とするユーザ群Ｉ_ｔ，ｓのうち、最適な選択肢となる可能性がより高いユーザ群となる。

【0129】

このように、進行部１２４Ｃは、現在の予測器ｓが予測する各予測誤差が第２閾値より大きく第１閾値以下の場合には、現在の予測器ｓによる予測結果を参照して対象とするユーザ群Ｉ_ｔ，ｓを絞り込んだ上で、次の予測器ｓ＋１に処理を進める。

【0130】

＜情報処理方法の流れ＞
以上のように構成された情報処理システム１０Ｃが実行する情報処理方法Ｓ１Ｃの流れについて、図１０を参照して説明する。図１０は、情報処理方法Ｓ１Ｃの流れを示すフロー図である。情報処理システム１０Ｃは、複数のユーザｉから何れを選択するかを決定する各試行において、情報処理方法Ｓ１Ｃを実行する。

【0131】

図１０に示すように、情報処理方法Ｓ１Ｃは、ステップＳ１１Ｃ～Ｓ１８Ｃを含む。

【0132】

（ステップＳ１１Ｃ）
ステップＳ１１Ｃにおいて、サーバ３Ｃの取得部３１Ｃは、複数のユーザの各々について特徴情報を取得する。また、取得部３１Ｃは、取得した各特徴情報を情報処理装置１Ｃに送信する。

【0133】

（ステップＳ１２Ｃ）
ステップＳ１２Ｃにおいて、情報処理装置１Ｃの取得部１１Ｃは、サーバ３Ｃから各ユーザの特徴情報を受信する。

【0134】

（ステップＳ１３Ｃ）
ステップＳ１３Ｃにおいて、決定部１２Ｃは、複数のユーザのうち何れを選択するかを決定する。決定する処理の詳細については後述する。

【0135】

（ステップＳ１４Ｃ）
ステップＳ１４Ｃにおいて、決定部１２Ｃは、決定したユーザを示す情報をサーバ３Ｃに送信する。

【0136】

（ステップＳ１５Ｃ）
ステップＳ１５Ｃにおいて、サーバ３Ｃの選択部３２Ｃは、情報処理装置１Ｃから受信した情報が示すユーザに対して、プロモーションを送付する。

【0137】

（ステップＳ１６Ｃ）
ステップＳ１６Ｃにおいて、観測部３３Ｃは、選択部３２Ｃによってプロモーションが送付されたユーザの購買行動を観測し、観測した送付結果を情報処理装置１Ｃに送信する。

【0138】

（ステップＳ１７Ｃ）
ステップＳ１７Ｃにおいて、情報処理装置１Ｃの蓄積部１３Ｃは、受信した送付結果と、ステップＳ１３Ｃで決定したユーザの特徴情報とを、学習データとして記憶部１５０Ｃに蓄積する。

【0139】

＜決定する処理の詳細な流れ＞
次に、ステップＳ１３Ｃにおける処理の詳細な流れについて、図１１を参照して説明する。図１１は、何れのユーザを選択するかを決定する処理の詳細な流れを示すフロー図である。図１１に示すように、ステップＳ１３Ｃは、ステップＳ２１Ｃ～Ｓ２９Ｃを含む。

【0140】

（ステップＳ２１Ｃ）
ステップＳ２１Ｃにおいて、管理部１２１Ｃは、最初の予測器を用いた処理を開始する。

【0141】

（ステップＳ２２Ｃ）
ステップＳ２２Ｃにおいて、予測部１２２Ｃは、現在の予測器に、送付結果および特徴情報の関係性を学習させる。具体的には、予測部１２２Ｃは、現在の予測器を用いて予測関数および予測誤差関数を構築する。

【0142】

（ステップＳ２３Ｃ）
ステップＳ２３Ｃにおいて、予測部１２２Ｃは、現在の予測器を用いて、現在の予測器が対象とするユーザ群の各々について、送付結果の予測値に付随する予測誤差を予測する。具体的には、予測部１２２Ｃは、各ユーザの特徴情報を、ステップＳ２２Ｃで構築した予測関数および予測誤差関数に適用することにより、予測値および予測誤差を算出する。

【0143】

（ステップＳ２４Ｃ）
ステップＳ２４Ｃにおいて、管理部１２１Ｃは、ステップＳ２３Ｃで予測した各予測誤差が第２閾値以下であるか否かを判定する。

【0144】

（ステップＳ２４ＣでＹｅｓ：ステップＳ２５Ｃ）
ステップＳ２４ＣにおいてＹｅｓと判断した場合、ステップＳ２５Ｃにおいて、第２決定部１２５Ｃは、ステップＳ２３Ｃで予測した予測値および予測誤差の和が最大となるユーザを選択することを決定する。そして、第２決定部１２５Ｃは、決定したユーザを示す情報をサーバ３Ｃに送信し、決定する処理を終了する。

【0145】

（ステップＳ２４ＣでＮｏ：ステップＳ２６Ｃ）
一方、ステップＳ２４ＣにおいてＮｏと判断した場合、ステップＳ２６Ｃにおいて、管理部１２１Ｃは、ステップＳ２３Ｃで予測した各予測誤差が、第１閾値以下であるか否かを判定する。

【0146】

（ステップＳ２６ＣでＮｏ：ステップＳ２７Ｃ）
ステップＳ２６ＣにおいてＮｏと判断した場合、ステップＳ２７Ｃにおいて、第１決定部１２３Ｃは、ステップＳ２３Ｃで予測した予測誤差が第１閾値を超えるユーザを選択することを決定する。そして、第１決定部１２３Ｃは、決定したユーザを示す情報をサーバ３Ｃに送信し、決定する処理を終了する。

【0147】

（ステップＳ２６ＣでＹｅｓ：ステップＳ２８Ｃ）
ステップＳ２６ＣにおいてＹｅｓと判断した場合、ステップＳ２８Ｃにおいて、進行部１２４Ｃは、現在の予測器が対象とする選択肢群から１以上の選択肢を、次の予測器が対象とする選択肢群として抽出する。

【0148】

（ステップＳ２９Ｃ）
ステップＳ２９Ｃにおいて、管理部１２１Ｃは、次の予測器を用いた処理を開始し、ステップＳ２２Ｃからの処理を繰り返す。

【0149】

＜実施例＞
次に、本例示的実施形態における情報処理装置１Ｃを用いてシミュレーションを行った実施例について、図１２を参照して説明する。図１２は、シミュレーション結果を示すグラフである。

【0150】

図１２において、横軸は総試行回数Ｔを示し、縦軸は損失の累積を示す。実施例Ｇ１は、情報処理装置１Ｃを用いたシミュレーション結果を示す。また、比較例Ｇ２～Ｇ４は、比較のために関連技術Ａ～Ｃを用いて行ったシミュレーション結果である。ここで、関連技術Ａ、Ｂ、およびＣとしては、公知のバンディットアルゴリズムとして知られるＧｒｅｅｄｙ、ＬｉｎＵＣＢ、およびＬｉｎＴＳを用いた。

【0151】

また、実施例Ｇ１および比較例Ｇ２～Ｇ４におけるシミュレーションは、それぞれ以下の条件で実施した。すなわち、ユーザの数を２とした。つまり、ｉは１または２である。また、総試行回数Ｔの前半と後半とで、取得するユーザの特徴情報ｘ_ｔ（ｉ）および観測値γ_ｔ（ｉ）を以下のように変化させた。つまり、本実施例では、ユーザの特徴情報ｘ_ｔ（ｉ）および観測値γ_ｔ（ｉ）の関係性は、前半と後半とで大きく異なり、単独の線形モデルで表すことはできない。

【0152】

（前半：ｔ＜Ｔ／２）
ｘ_ｔ（１）＝（ε，０）、ｘｔ（２）＝（ε，０）
γ_ｔ（１）＝－ε／２、γｔ（２）＝－ε／２
ただし、０＜ε≪１
（後半：ｔ≧Ｔ／２)
ｘ_ｔ（１）＝（２，１）、ｘｔ（２）＝（０，０）
γ_ｔ（１）＝１／２、γｔ（２）＝０
その結果、図１２に示すように、情報処理装置１Ｃを用いた実施例Ｇ１では、総試行回数Ｔに関わらず、累積の損失は０であった。これに対して、関連技術Ａ～Ｃを用いた比較例Ｇ２～Ｇ４では、総試行回数Ｔが大きくなるほど累積の損失が増大した。

【0153】

このように、本実施例Ｇ１では、本例示的実施形態に係る情報処理装置１Ｃを用いることにより、比較例Ｇ２～Ｇ４で発生するような累積の損失を発生させない、との結果が得られた。

【0154】

＜本例示的実施形態の効果＞
本例示的実施形態では、例示的実施形態２、３と同様の効果に加えて、さらに観測値（送付結果）の累積を増大させることができる。その理由は、各予測器から次の予測器に処理を進行させるか否かを判定する判定条件として、ユーザの特徴情報の次元数に応じた条件を用いるからである。これにより、ユーザの特徴情報および観測値の本来の関係性と線形モデルとの差分をより充分に吸収することができるからである。

【0155】

〔変形例〕
上述した各例示的実施形態において、最初に生成する予測器の個数は１つであってもよい。例えば、各情報処理装置は、各試行において既に生成した予測器が何れも選択肢を決定するのに適切でないと判断した場合に、新しい予測器を生成する。例えば、例示的実施形態３～４では、決定部は、既に生成した１または複数の予測器が何れも判定条件を満たす場合に、新たに予測器を生成し、当該新たな予測器に処理を進行させる。

【0156】

〔ソフトウェアによる実現例〕
情報処理装置１、１Ａ、１Ｂ、１Ｃの一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

【0157】

後者の場合、情報処理装置１、１Ａ、１Ｂ、１Ｃは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１３に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを情報処理装置１、１Ａ、１Ｂ、１Ｃとして動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、情報処理装置１、１Ａ、１Ｂ、１Ｃの各機能が実現される。

【0158】

プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

【0159】

なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

【0160】

また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

【0161】

〔付記事項１〕
本発明は、上述した例示的実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した例示的実施形態に開示された技術的手段を適宜組み合わせて得られる例示的実施形態についても、本発明の技術的範囲に含まれる。

【0162】

〔付記事項２〕
上述した各例示的実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

【0163】

（付記１）
複数の選択肢の各々に紐付けられた関連情報を取得する取得手段と、
前記複数の選択肢のうち何れを選択するかを決定する決定手段と、
前記決定手段が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段と、を備え、
前記決定手段は、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定する、
ことを特徴とする情報処理装置。

【0164】

付記１の構成によれば、複数の予測器のうち何れかを用いて、複数の選択肢の何れを選択するかを決定する。また、各予測器は、学習データを参照して、互いに独立して関連情報および観測値の関係性を学習する。このため、複数の選択肢の何れを選択するかを決定するために、観測値および関連情報の関係性をより適切に学習した予測器を用いることが可能である。その結果、本例示的実施形態は、累積の利得をより増大させる選択肢を決定することができる。

【0165】

（付記２）
付記１に記載の情報処理装置であって、
前記決定手段は、
（ｉ）何れかの予測器を用いて、当該予測器が対象とする１以上の選択肢である選択肢群の各々について、前記利得の予測値に付随する予測誤差を予測し、
（ｉｉ）各予測誤差に関する判定条件が満たされない場合に、当該予測器が対象とする選択肢群のうち何れを選択するかを決定し、
（ｉｉｉ）前記判定条件が満たされる場合に、前記対象とする選択肢群から１以上の選択肢を抽出し、抽出した１以上の選択肢を他の予測器が対象とする選択肢群として、当該他の予測器を用いて各選択肢の前記予測誤差を予測する、
ことを特徴とする情報処理装置。

【0166】

付記２の構成によれば、判定条件として、観測値および関連情報の関係性をある基準以上に高精度に予測するか否かを判定する条件を用いることが可能である。これにより、より高精度に学習済の予測器を用いて選択肢を絞り込んだ上で、さらに学習させるべき他の予測器を用いて何れの選択肢を選択するかを決定することができる。その結果、観測値および関連情報の関係性を単独の予測器では精度よく予測できない場合であっても、観測値の累積をより増大させる選択肢を選択することができる。

【0167】

（付記３）
付記２に記載の情報処理装置であって、
前記決定手段は、
前記判定条件として、各予測誤差が閾値以下であることを含む条件を用いる、
ことを特徴とする情報処理装置。

【0168】

付記３の構成によれば、予測誤差がより小さい予測器を用いて選択肢を絞り込んだ上で、予測誤差が閾値より大きいためにさらなる学習が必要な予測器を用いて何れの選択肢を選択するかを決定することができる。その結果、観測値および関連情報の関係性が単独の予測器では精度よく学習できない場合であっても、予測誤差がより小さい選択肢の中から学習に最適な選択肢を選択するができる。

【0169】

（付記４）
付記２または３に記載の情報処理装置であって、
前記決定手段は、
前記判定条件として、前記関連情報の次元数に基づく条件を用いる、ことを特徴とする情報処理装置。

【0170】

付記４の構成によれば、観測値および関連情報の本来の関係性と各予測器が学習する関係性とのずれをより精度よく吸収することができる。

【0171】

（付記５）
付記１から４の何れか１つに記載の情報処理装置であって、
前記蓄積手段は、
前記学習データを、前記決定手段が前記選択肢の決定に用いた予測器に関連付けて前記記憶装置に蓄積し、
前記複数の予測器の各々は、前記記憶装置に蓄積された学習データのうち、自身に関連付けられた学習データを参照して前記関係性を学習する、
ことを特徴とする情報処理装置。

【0172】

付記５の構成によれば、選択肢の決定に用いた予測器に対して、より精度よく観測値を予測できるようさらなる学習を行わせることができる。

【0173】

（付記６）
付記１から５の何れか１つに記載の情報処理装置であって、
各予測器は、前記関係性として線形な関係性を学習する、
ことを特徴とする情報処理装置。

【0174】

付記６の構成によれば、複数の選択肢の何れを選択するかを決定するために、観測値および関連情報の関係性としてより適切な線形性を学習した予測器を用いることが可能である。

【0175】

（付記７）
情報処理装置が、
複数の選択肢の各々に紐付けられた関連情報を取得すること、
前記複数の選択肢のうち何れを選択するかを決定すること、および、
決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積することを含み、
前記複数の選択肢のうち何れを選択するかを決定するために、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかの予測器を用いる、
ことを特徴とする情報処理方法。

【0176】

付記７の構成によれば、付記１に記載の情報処理装置と同様の効果を奏する。

【0177】

（付記８）
コンピュータを情報処理装置として機能させるプログラムを記憶した記憶媒体であって、
前記プログラムは、前記コンピュータを、
複数の選択肢の各々に紐付けられた関連情報を取得する取得手段と、
前記複数の選択肢のうち何れを選択するかを決定する決定手段と、
前記決定手段が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段として機能させ、
前記決定手段は、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定する、
ことを特徴とするプログラムを記憶した記憶媒体。

【0178】

付記８の構成によれば、付記１に記載の情報処理装置と同様の効果を奏する。

【0179】

（付記９）
情報処理装置と、サーバとを含む情報処理システムであって、
前記情報処理装置は、
複数の選択肢の各々に紐付けられた関連情報を前記サーバから受信する取得手段と、
前記複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を示す情報を前記サーバに送信する決定手段と、
前記決定手段が決定した選択肢を選択して得られた利得の観測値を前記サーバから受信し、受信した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積手段と、を備え、
前記決定手段は、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記サーバは、
前記関連情報を取得して前記情報処理装置に送信する取得手段と、
前記情報処理装置から受信した情報が示す選択肢を選択する選択手段と、
前記選択手段による選択により得られる利得を観測し、観測した観測値を前記情報処理装置に送信する観測手段と、を備える、
ことを特徴とする情報処理システム。

【0180】

付記９の構成によれば、付記１に記載の情報処理装置と同様の効果を奏する。

【0181】

（付記１０）
情報処理装置が、
複数の選択肢の各々に紐付けられた関連情報をサーバから受信すること、
前記複数の選択肢のうち何れを選択するかを決定し、決定した選択肢を示す情報を前記サーバに送信すること、および、
決定した選択肢を選択して得られた利得の観測値を前記サーバから受信し、受信した観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積すること、を含み、
前記複数の選択肢のうち何れを選択するかを決定するために、
前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定し、
前記サーバが、
前記関連情報を取得して前記情報処理装置に送信すること、
前記情報処理装置から受信した情報が示す選択肢を選択すること、および、
前記選択肢を選択して得られる利得を観測し、観測した観測値を前記情報処理装置に送信すること、を含む、
ことを特徴とする情報処理方法。

【0182】

付記１０の構成によれば、付記１に記載の情報処理装置と同様の効果を奏する。

【0183】

〔付記事項３〕
上述した各例示的実施形態の一部又は全部は、更に、以下のように表現することもできる。

【0184】

少なくとも１つのプロセッサを備え、前記プロセッサは、複数の選択肢の各々に紐付けられた関連情報を取得する取得処理と、前記複数の選択肢のうち何れを選択するかを決定する決定処理と、前記決定処理が決定した選択肢を選択して得られた利得の観測値と当該選択肢の関連情報とを、学習データとして記憶装置に蓄積する蓄積処理と、を実行し、前記決定処理は、前記学習データを参照して前記関連情報と前記観測値との関係性を学習する複数の予測器であって、各予測器が互いに独立して前記関係性を学習する複数の予測器のうち何れかを用いて、前記複数の選択肢のうち何れを選択するかを決定する、情報処理装置。

【0185】

なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記決定処理と、前記蓄積処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

【符号の説明】

【0186】

１、１Ａ、１Ｂ、１Ｃ情報処理装置
１０Ａ、１０Ｃ情報処理システム
１１、１１Ａ、１１Ｂ、１１Ｃ取得部
１２、１２Ａ、１２Ｂ、１２Ｃ決定部
１３、１３Ａ、１３Ｂ、１３Ｃ蓄積部
１１０Ｂ、１１０Ｃ制御部
１２１Ｂ、１２１Ｃ管理部
１２２Ｂ、１２２Ｃ予測部
１２３Ｂ、１２３Ｃ第１決定部
１２４Ｂ、１２４Ｃ進行部
１２５Ｃ第２決定部
１５０Ｂ、１５０Ｃ記憶部
１６０Ｃ通信部
３、３Ａ、３Ｃサーバ
３１Ａ、３１Ｃ取得部
３２Ａ、３２Ｃ選択部
３３Ａ、３３Ｃ観測部
３４Ｃ通信部

【図1】