特許7658451 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7658451情報処理装置、情報処理方法、及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-03-31

(45)【発行日】2025-04-08

(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム

(51)【国際特許分類】

G06N 99/00 20190101AFI20250401BHJP

【ＦＩ】

G06N99/00 180

【請求項の数】 10

(21)【出願番号】P 2023552406

(86)(22)【出願日】2021-10-04

(86)【国際出願番号】 JP2021036579

(87)【国際公開番号】W WO2023058081

(87)【国際公開日】2023-04-13

【審査請求日】2024-04-01

【国等の委託研究の成果に係る記載事項】（出願人による申告）令和３年度、国立研究開発法人科学技術振興機構、個人型研究（ＡＣＴ－Ｉ）「部分的フィードバックに基づくオンライン凸最適化」に関する委託研究、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】110000338

【氏名又は名称】弁理士法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】伊藤伸志

【審査官】北川純次

(56)【参考文献】

【文献】特開２０１９－００３４０５（ＪＰ，Ａ）

【文献】ITO, Shinji，On Optimal Robustness to Adversarial Corruption in Online Decision Problems，arXiv.org [online]，2021年09月22日，pp. 1-14，[検索日 2021.11.10], インターネット：<URL:https://arxiv.org/pdf/2109.10963.pdf>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する選択手段と、
前記選択手段が選択した部分集合Ｘ_ｔ⊆［ｎ］を示す情報を出力する出力手段と、
を備えており、
前記選択手段は、
各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と比較対象解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ⊆［ｎ］を選択し、
前記出力手段がラウンドｔにおいて前記部分集合Ｘ _ｔを出力した後に、任意の部分集合Ｘ⊆［ｎ］に対する前記目的関数の観測値ｆ _ｔ（Ｘ）を取得可能な取得手段を更に備え、
前記選択手段は、前記取得手段が取得した前記目的関数の観測値ｆ _ｔ（Ｘ）を参照可能であり、
前記上限値Ａ（Δ，ｎ，Ｃ）は、

【数1】

と表現される
ことを特徴とする情報処理装置。

【請求項2】

前記ギャップ指標は、前記目的関数ｆ_ｔが確率分布Ｄに従うとした場合の当該目的関数ｆ_ｔの期待値

【数2】

を用いて、

【数3】

と表現され、
前記外乱指標Ｃは、前記目的関数ｆ_ｔと時間依存目的関数ｆ_ｔ’とを用いて

【数4】

と表現される
請求項１に記載の情報処理装置。

【請求項3】

前記選択手段は、
各ｉ∈［ｎ］に関し、学習率λ_ｔｉと累積劣勾配Ｇ_ｔｉとを用いて、ｎ次元ベクトルｘ_ｔ∈［０，１］^ｎを

【数5】

によって算出するベクトル算出ステップと、
全てのｉ∈［ｎ－１］に関し、ｘ_{ｔσ（ｉ）}≦ｘ_{ｔσ（ｉ＋１）}となる置換σ_ｔ：［ｎ］→［ｎ］を計算する置換算出ステップと
［０，１］上に一様分布する確率変数ｕ_ｔの値を決定する確率変数決定ステップと、
部分集合Ｘ_ｔを、Ｘ_ｔ＝｛ｉ∈［ｎ］｜ｘ_ｔｉ≧ｕ_ｔ｝を満たすように決定する部分集合決定ステップと、
目的関数の観測値ｆ_ｔ（Ｘ）を取得する取得ステップと、
目的関数ｆ_ｔの劣勾配ｇ_ｔ∈Ｒ^ｄを計算する劣勾配算出ステップと、
累積劣勾配Ｇ_ｔを、Ｇ_ｔ＋１＝Ｇ_ｔ＋ｇ_ｔによって更新する更新ステップと、
を各ラウンドにおいて実行する
請求項１に記載の情報処理装置。

【請求項4】

あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ _ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する選択手段と、
前記選択手段が選択した部分集合Ｘ _ｔ ⊆［ｎ］を示す情報を出力する出力手段と、
を備えており、
前記選択手段は、
各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ _ｔ（Ｘ _ｔ）と比較対象解Ｘ ^＊とを用いて表されるリグレットΣ _{ｔ∈［Ｔ］} ｆ _ｔ（Ｘ _ｔ）－Σ _{ｔ∈［Ｔ］} ｆ _ｔ（Ｘ ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ _ｔ ⊆［ｎ］を選択し、
前記出力手段がラウンドｔにおいて前記部分集合Ｘ_ｔを出力した後に、選択した部分集合Ｘ_ｔに対する前記目的関数の観測値ｆ_ｔ（Ｘ_ｔ）を取得可能な取得手段を更に備え、
前記選択手段は、
前記選択した部分集合Ｘ_ｔに対する前記目的関数の観測値ｆ_ｔ（Ｘ_ｔ）を参照することが可能であり、且つ、
前記選択した部分集合以外の部分集合Ｘ⊆［ｎ］に対する前記目的関数の観測値ｆ_ｔ（Ｘ）を参照することが不可能であり、
前記上限値Ａ（Δ，ｎ，Ｃ）は、

【数6】

と表現される情報処理装置。

【請求項5】

前記選択手段は、
各ｉ∈［ｎ］に関し、学習率λ_ｔと、累積劣勾配＾Ｇ_ｔｉと、関数ζ

【数7】

とを用いて、ｎ次元ベクトルｘ_ｔ∈［０，１］^ｎを、ｘ_ｔｉ＝ζ（＾Ｇ_ｔｉ／λ_ｔ）によって算出するベクトル算出ステップと、
全てのｉ∈［ｎ－１］に関し、ｘ_{ｔσ（ｉ）}≦ｘ_{ｔσ（ｉ＋１）}となる置換σ_ｔ：［ｎ］→［ｎ］を計算する置換算出ステップと、
確率

【数8】

【数9】

に従ってインデックスｉ_ｔ∈｛０，１，・・・，ｎ｝を選択するインデックス選択ステップと、
部分集合Ｘ_ｔを、Ｘ_ｔ＝｛σ_ｔ（ｊ）｜ｊ∈［ｉ_ｔ］｝を満たすように決定する部分集合決定ステップと、
目的関数の観測値ｆ_ｔ（Ｘ_ｔ）を取得するステップと、
目的関数ｆ_ｔの劣勾配＾ｇ_ｔ∈Ｒ^ｄを計算する劣勾配算出ステップと、
累積劣勾配＾Ｇ_ｔｉを、＾Ｇ_ｔ＋１＝＾Ｇ_ｔ＋＾ｇ_ｔによって更新する更新ステップと、
を各ラウンドにおいて実行する
請求項４に記載の情報処理装置。

【請求項6】

【数10】

によって算出するベクトル算出ステップと、
全てのｉ∈［ｎ－１］に関し、ｘ_{ｔσ（ｉ）}≦ｘ_{ｔσ（ｉ＋１）}となる置換σ_ｔ：［ｎ］→［ｎ］を計算する置換算出ステップと
［０，１］上に一様分布する確率変数ｕ_ｔの値を決定する確率変数決定ステップと、
部分集合Ｘ_ｔを、Ｘ_ｔ＝｛ｉ∈［ｎ］｜ｘ_ｔｉ≧ｕ_ｔ｝を満たすように決定する部分集合決定ステップと、
目的関数ｆ_ｔ（Ｘ）の値を取得する取得ステップと、
目的関数ｆ_ｔの劣勾配ｇ_ｔ∈Ｒ^ｄを計算する劣勾配算出ステップと、
累積劣勾配Ｇ_ｔを、Ｇ_ｔ＋１＝Ｇ_ｔ＋ｇ_ｔによって更新する更新ステップと、
を各ラウンドにおいて実行する情報処理装置。

【請求項7】

【数11】

【数12】

【数13】

に従ってインデックスｉ_ｔ∈｛０，１，・・・，ｎ｝を選択するインデックス選択ステップと、
部分集合Ｘ_ｔを、Ｘ_ｔ＝｛σ_ｔ（ｊ）｜ｊ∈［ｉ_ｔ］｝を満たすように決定する部分集合決定ステップと、
目的関数ｆ_ｔ（Ｘ_ｔ）の値を取得するステップと、
目的関数ｆ_ｔの劣勾配＾ｇ_ｔ∈Ｒ^ｄを計算する劣勾配算出ステップと、
累積劣勾配＾Ｇ_ｔｉを、＾Ｇ_ｔ＋１＝＾Ｇ_ｔ＋＾ｇ_ｔによって更新する更新ステップ
と、
を各ラウンドにおいて実行する情報処理装置。

【請求項8】

１又は複数のプロセッサが、
あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択することと、
前記選択した部分集合Ｘ_ｔ⊆［ｎ］を示す情報を出力することとを含んでおり、
前記選択する工程において、
各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と最適解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ⊆［ｎ］を選択し、
前記出力する工程においてラウンドｔにおいて前記部分集合Ｘ _ｔを出力した後に、任意の部分集合Ｘ⊆［ｎ］に対する前記目的関数の観測値ｆ _ｔ（Ｘ）を取得可能な取得工程を更に含み、
前記選択する工程では、前記取得工程にて取得した前記目的関数の観測値ｆ _ｔ（Ｘ）を参照可能であり、
前記上限値Ａ（Δ，ｎ，Ｃ）は、

【数14】

と表現される
ことを特徴とする情報処理方法。

【請求項9】

１又は複数のプロセッサが、
あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ _ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択することと、
前記選択した部分集合Ｘ _ｔ ⊆［ｎ］を示す情報を出力することとを含んでおり、
前記選択する工程において、
各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ _ｔ（Ｘ _ｔ）と最適解Ｘ ^＊とを用いて表されるリグレットΣ _{ｔ∈［Ｔ］} ｆ _ｔ（Ｘ _ｔ）－Σ _{ｔ∈［Ｔ］} ｆ _ｔ（Ｘ ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ _ｔ ⊆［ｎ］を選択し、
前記出力する工程においてラウンドｔにおいて前記部分集合Ｘ _ｔを出力した後に、選択した部分集合Ｘ _ｔに対する前記目的関数の観測値ｆ _ｔ（Ｘ _ｔ）を取得可能な取得工程を更に含み、
前記選択する工程では、
前記選択した部分集合Ｘ _ｔに対する前記目的関数の観測値ｆ _ｔ（Ｘ _ｔ）を参照することが可能であり、且つ、
前記選択した部分集合以外の部分集合Ｘ⊆［ｎ］に対する前記目的関数の観測値ｆ _ｔ（Ｘ）を参照することが不可能であり、
前記上限値Ａ（Δ，ｎ，Ｃ）は、

【数15】

と表現される
ことを特徴とする情報処理方法。

【請求項10】

コンピュータに
あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する処理と、
前記選択した部分集合Ｘ_ｔ⊆［ｎ］を示す情報を出力する処理と
を実行させ、
前記選択する処理において、
各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と最適解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ⊆［ｎ］を選択し、
前記出力する処理においてラウンドｔにおいて前記部分集合Ｘ _ｔを出力した後に、任意の部分集合Ｘ⊆［ｎ］に対する前記目的関数の観測値ｆ _ｔ（Ｘ）を取得可能な取得処理を更に実行させ、
前記選択する処理では、前記取得処理にて取得した前記目的関数の観測値ｆ _ｔ（Ｘ）を参照可能であり、
前記上限値Ａ（Δ，ｎ，Ｃ）は、

【数16】

と表現される
ことを特徴とする情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、オンライン最適化問題の解を提供する情報処理装置、情報処理方法、及び情報処理プログラムに関する。

【背景技術】

【0002】

最適化すべき指標を表現する関数が逐次的に変化し得る条件下での、当該指標の最適化（オンライン最適化とも呼ばれる）を実行するアルゴリズムが知られている（例えば非特許文献１）。

【先行技術文献】

【非特許文献】

【0003】

【文献】E. Hazan and S. Kale, 'Online Submodular Minimization', Journal of Machine Learning Research 13 (2012) 2903-2922

【発明の概要】

【発明が解決しようとする課題】

【0004】

非特許文献１に記載の方法においては、リグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－ｍｉｎ_Ｘ∈Ｓ｛Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ）｝の期待値をＯ（ｎＴ^１／２）以下に抑える部分集合Ｘ_１，Ｘ_２，…，Ｘ_Ｔが導出される。

【0005】

一方、オンライン最適化問題は、大別して以下の２つのモデルに分類されることが知られており、何れのモデルを仮定するかによって、好適な最適化アルゴリズムは異なり得る。
・目的関数が定常的な確率分布に従うと仮定する確率的モデル（stochastic model）
・目的関数が非定常的に（敵対的に）変動する敵対的モデル（adversarial model）
しかしながら、オンライン最適化問題においては、一般に、確率的モデル及び敵対的モデルの何れを仮定すべきかに関する先験的情報を取得することは難しい。このため、確率的モデル及び敵対的モデルの何れを仮定すべきかに関する先験的情報を参照することなく、確率的モデル及び敵対的モデルの双方に対して好適に最適化問題の解を提供できる技術が望まれていた。

【0006】

本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、確率的モデル及び敵対的モデルの何れを仮定すべきかに関する先験的情報を参照することなく、確率的モデル及び敵対的モデルの双方に対して好適に最適化問題の解を提供できる技術を実現することにある。

【課題を解決するための手段】

【0007】

本発明の一態様に係る情報処理装置は、あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する選択手段と、前記選択手段が選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力する出力手段と、を備えており、前記選択手段は、各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と比較対象解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ ⊆［ｎ］を選択する。

【0008】

【数1】

によって算出するベクトル算出ステップと、
全てのｉ∈［ｎ－１］に関し、ｘ_{ｔσ（ｉ）}≦ｘ_{ｔσ（ｉ＋１）}となる置換σ_ｔ：［ｎ］→［ｎ］を計算する置換算出ステップと
［０，１］上に一様分布する確率変数ｕ_ｔの値を決定する確率変数決定ステップと、
部分集合Ｘ_ｔを、Ｘ_ｔ＝｛ｉ∈［ｎ］｜ｘ_ｔｉ≧ｕ_ｔ｝を満たすように決定する部分集合決定ステップと、
目的関数ｆ_ｔ（Ｘ）の値を取得する取得ステップと、
目的関数ｆ_ｔの劣勾配ｇ_ｔ∈Ｒ^ｄを計算する劣勾配算出ステップと、
累積劣勾配Ｇ_ｔを、Ｇ_ｔ＋１＝Ｇ_ｔ＋ｇ_ｔによって更新する更新ステップと、
を各ラウンドにおいて実行する。

【0009】

【数2】

とを用いて、ｎ次元ベクトルｘ_ｔ ⊆［０，１］^ｎを、ｘ_ｔｉ＝ζ（＾Ｇ_ｔｉ／λ_ｔ）によって算出するベクトル算出ステップと、
全てのｉ∈［ｎ－１］に関し、ｘ_{ｔσ（ｉ）}≦ｘ_{ｔσ（ｉ＋１）}となる置換σ_ｔ：［ｎ］→［ｎ］を計算する置換算出ステップと、
確率

【数3】

【数4】

【0010】

本発明の一態様に係る情報処理方法は、あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択することと、前記選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力することとを含んでおり、前記選択する工程において、各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と最適解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ ⊆［ｎ］を選択する。

【0011】

本発明の一態様に係る情報処理プログラムは、コンピュータに、あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する処理と、前記選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力する処理とを実行させ、前記選択する処理において、各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と最適解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ ⊆［ｎ］を選択する。

【発明の効果】

【0012】

本発明の一態様によれば、確率的モデル及び敵対的モデルの何れを仮定すべきかに関する先験的情報を参照することなく、確率的モデル及び敵対的モデルの双方に対して好適に最適化問題の解を提供することができる。

【図面の簡単な説明】

【0013】

【図1】第１の例示的実施形態に係る情報処理装置の構成を示すブロック図である。

【図2】第１の例示的実施形態に係る情報処理方法の流れを示すフロー図である。

【図3】第１の例示的実施形態に係る情報処理装置による効果を説明するための図である。

【図4】第２の例示的実施形態に係る情報処理装置の構成を示すブロック図である。

【図5】第２の例示的実施形態に係る情報処理システムにおける処理の流れを示すフロー図である。

【図6】第２の例示的実施形態に係る情報処理装置が実行する処理例１を示すフロー図である。

【図7】第２の例示的実施形態に係る情報処理装置が実行する処理例２を示すフロー図である。

【図8】第２の例示的実施形態に係る情報処理装置が表示する表示画面例を示す図である。

【図9】各例示的実施形態に係る情報処理装置として機能するコンピュータの構成を示すブロック図である。

【発明を実施するための形態】

【0014】

〔例示的実施形態１〕
本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

【0015】

＜情報処理装置１の概要＞
本例示的実施形態に係る情報処理装置１は、概略的に言えば、最適化すべき指標を表現する関数が逐次的に変化し得る条件下での、当該指標の最適化（オンライン最適化とも呼ばれる）を実行する情報処理装置である。換言すれば、情報処理装置１は、オンライン最適化問題の解を提供する情報処理装置である。

【0016】

情報処理装置１は、一例として、あるラウンドにおいてある行動を決定し、その行動により得られた結果に関する観測値を取得する。そして、当該観測値の値を参照して次のラウンドにおいて実行すべき行動を決定する、という処理を繰り返す。ここで、行動と結果との関係は、一例として、行動を引数とし、結果を関数値とする未知の目的関数によって表現されると仮定する。したがって、あるラウンドにおいて決定した行動と、当該行動によって得られた結果とを参照することによって、情報処理装置１は、当該目的関数に関する（局所的な）情報を得ることになる。

【0017】

また、上記行動の一例としては、１又は複数の商品の価格設定が挙げられ、上記結果に関する観測値としては、当該価格設定によって得られた実際の売上高、または、当該価格設定によって生じた実際の損失額（目標売上高から実際の売上高を引いたもの）が挙げられるがこれは本例示的実施形態を限定するものではない。また、上記最適化すべき指標としては、一例として、
・実際の売上高の総和と、理想的な（最適な）行動をとったとした場合の売上高の総和との差（又はその期待値）であるリグレット、または
・実際の損失額の総和と、理想的な（最適な）行動をとったとした場合の損失額の総和との差（又はその期待値）であるリグレット
等が挙げられるがこれは本例示的実施形態を限定するものではない。

【0018】

また、本例示的実施形態において、情報処理装置１が解くオンライン最適化問題は、一例として、以下のように位置づけられる。

【0019】

（実行可能領域）
情報処理装置１が解くオンライン最適化問題は、一例として、組み合わせ集合（部分集合族）に分類されるオンライン最適化問題である。ここで、当該組み合わせ集合に分類されるオンライン最適化問題では、目的関数の性質として、重み付き和、又は劣モジュラ性が仮定される。また、組み合わせ集合に分類されるオンライン最適化問題では、複数の要素を有する組み合わせ集合を対象とするので、一例として、複数の商品の価格の組み合わせを取り扱うことができる。

【0020】

（フィードバック情報量）
情報処理装置１が解くオンライン最適化問題は、大別して以下の２つの設定に基づくオンライン最適化問題である。ここで、Full-Information設定は、Bandit-Feedback設定よりも、目的関数に関するフィードバック情報量が多い。
・Full-Information設定：あるラウンドｔにおいて部分集合Ｘ_ｔ（ある行動）を選択した後、任意の部分集合Ｘ（他の行動）に対する目的関数ｆ_ｔの値ｆ_ｔ（Ｘ）を参照することが可能である。
・Bandit-Feedback設定：ラウンドｔにおいて部分集合Ｘ_ｔ（ある行動）を選択した後、選択した部分集合Ｘ_ｔ（ある行動）に対する目的関数ｆ_ｔの値ｆ_ｔ（Ｘ_ｔ）を参照することが可能であり、且つ、選択した部分集合以外の部分集合Ｘ（他の行動）に対する目的関数ｆ_ｔの値ｆ_ｔ（Ｘ）を参照することが不可能である。

【0021】

（対象モデル）
オンライン最適化問題は、大別して以下の２つのモデルに分類される。
・目的関数が定常的な確率分布に従うと仮定する確率的モデル（stochastic model）
・目的関数が非定常的に（敵対的に）変動する敵対的モデル（adversarial model）
後述するように、情報処理装置１は、
・確率的モデルに対する敵対的外乱（stochastic model with adversarial corruption）
を外乱指標Ｃを用いて定量的に評価可能に構成されており、確率的モデル、敵対的モデル、及び確率的モデルに対する敵対的外乱の何れに対しても適用可能なアルゴリズムを実行する。

【0022】

このため、情報処理装置１は、確率的モデル及び敵対的モデルの何れを仮定すべきかに関する先験的情報を参照することなく、確率的モデル及び敵対的モデルの双方に好適に適用可能なハイブリッドアルゴリズム（Best of Both Worlds Algorithm）により、確率的モデル及び敵対的モデルの何れに対しても最適化問題を好適に解くことができる。

【0023】

＜情報処理装置１の構成＞
続いて、本例示的実施形態に係る情報処理装置１の構成について説明する。図１は、本例示的実施形態に係る情報処理装置１の構成を示すブロック図である。図１に示すように、情報処理装置１は、選択部１１、及び出力部１２を備えている。

【0024】

選択部１１は、あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する。

【0025】

出力部１２は、選択部１１が選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力する。

【0026】

ここで、部分集合Ｘ_ｔは、ラウンドｔにおける行動を規定する部分集合であり、一例として、商品の識別情報を要素として含む部分集合としての意味を有するが、これは本例示的実施形態を限定するものではない。また、上記目的関数の例として、行動と売上高との関係を規定する目的関数、又は、行動と損失額との関係を規定する目的関数が挙げられるが、これは本例示的実施形態を限定するものではない。

【0027】

また、本例示的実施形態に係る集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の各要素は、ｎ個の要素からなる任意の集合Ｓの各要素と一対一に対応する。したがって、本例示的実施形態において説明する処理は、ｎ個の要素からなる任意の集合Ｓに適用することができる。

【0028】

また、本例示的実施形態に係る選択部１１は、各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と比較対象解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ ⊆［ｎ］を選択する。なお、比較対象解は、一例として、損失を表す目的関数を最小化する最適解である。

【0029】

また、売上高を表す目的関数を用いる場合には、上記リグレットの符号を反対にしたものを用いてもよい。換言すれば、上記リグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の絶対値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ ⊆［ｎ］を選択するものであると表現してもよい。

【0030】

なお、本例示的実施形態において、目的関数ｆ_ｔは、一例として、劣モジュラ性を満たす関数（劣モジュラ関数）である。すなわち、目的関数ｆ_ｔは、Ｘ，Ｙ⊆［ｎ］を満たす任意の部分集合Ｘ，Ｙに対して、不等式
ｆ_ｔ（Ｘ∩Ｙ）＋ｆ_ｔ（Ｘ∪Ｙ）≦ｆ_ｔ（Ｘ）＋ｆ_ｔ（Ｙ）
を満たす。ただし、これは本例示的実施形態を限定するものではない。

【0031】

また、出力部１２による、部分集合Ｘ_ｔ ⊆［ｎ］を示す情報の出力先は本例示的実施形態を限定するものではないが、一例として、出力部１２が表示パネルを備え、当該表示パネルに当該部分集合Ｘ_ｔを示す情報を表示させる構成としてもよい。また、出力部１２が他の装置に部分集合Ｘ_ｔを示す情報を提供し、当該他の装置において当該情報を表示してもよいし、当該情報を参照して、商品などの価格を自動的に更新する構成としてもよい。

【0032】

また、前記ギャップ指標は、前記目的関数ｆ_ｔが確率分布Ｄに従うとした場合の当該目的関数ｆ_ｔの期待値

【数5】

を用いて、

【数6】

と表現される。

【0033】

また、前記外乱指標Ｃは、前記目的関数ｆ_ｔと時間依存目的関数ｆ_ｔ’とを用いて

【数7】

と表現される。

【0034】

上記のように構成された情報処理装置１では、リグレットの期待値が、上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられる。ここで、当該上限値は確率的モデル及び敵対的モデルの双方を包含するよう規定されるものであり、上述のように、確率的モデルの敵対的外乱を示す外乱指標Ｃを用いて表現される。したがって、上記のように構成された情報処理装置１によれば、確率的モデル及び敵対的モデルの何れに対しても最適化問題を好適に解くことができる。

【0035】

＜情報処理方法＞
続いて、図２を参照して情報処理装置１が実行する情報処理方法Ｓ１の流れについて説明する。図２は、情報処理装置１が実行する情報処理方法Ｓ１の流れを示すフロー図である。

【0036】

（ステップＳ１１）
ステップＳ１１において、選択部１１は、あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する。

【0037】

（ステップＳ１２）
ステップＳ１２において、出力部１２は、選択部１１が選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力する。

【0038】

ここで、ステップＳ１１において、選択部１１は、各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と比較対象解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ ⊆［ｎ］を選択する。なお、比較対象解は、上述のように、一例として、損失を表す目的関数を最小化する最適解である。

【0039】

上記のように構成された情報処理方法Ｓ１では、リグレットの期待値が、上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられる。ここで、当該上限値は確率的モデル及び敵対的モデルの双方を包含するよう規定されるものであり、上述のように、確率的モデルの敵対的外乱を示す外乱指標Ｃを用いて表現される。したがって、上記のような情報処理方法Ｓ１によれば、確率的モデル及び敵対的モデルの何れに対しても最適化問題を好適に解くことができる。

【0040】

（情報処理方法Ｓ１によるアルゴリズムと他のアルゴリズムとの比較）
図３は本例示的実施形態に係る情報処理方法Ｓ１によるアルゴリズムの効果を模式的に示す図である。図３の上から１段目は、確率的モデル（より具体的には確率的モデルが好適に適用される状況、以下同様）における損失（目的関数）と時刻（ラウンド）との関係を示す模式図であり、図３の上から２段目は、確率的モデルに適用した各アルゴリズム
・敵対的モデル専用アルゴリズム
・確率的モデル専用アルゴリズム
・アルゴリズムＳ１（情報処理方法Ｓ１によるアルゴリズム）
によるリグレットと時刻との関係を示す模式図である。

【0041】

図３の上から１段目に示すように、確率的モデルでは、目的関数が未知の分布に従うと仮定される。ここで、当該未知の分布は一例として、時間に依存しない（定常的な）一様な確率分布である。このような状況では、図３の上から１段目に示すように、敵対的モデル専用アルゴリズムによるリグレットは、確率的モデル専用アルゴリズムによりリグレットよりも大きくなる。一方で、アルゴリズムＳ１では、リグレットが上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるため、アルゴリズムＳ１によるリグレットは、敵対的モデル専用アルゴリズムによるリグレットよりも小さなものとなる。

【0042】

一方、図３の上から３段目は、敵対的モデル（より具体的には敵対的モデルが好適に適用される状況、以下同様）における損失（目的関数）と時刻（ラウンド）との関係を示す模式図であり、図３の上から４段目は、敵対的モデルに適用した各アルゴリズム
・敵対的モデル専用アルゴリズム
・確率的モデル専用アルゴリズム
・アルゴリズムＳ１（情報処理方法Ｓ１によるアルゴリズム）
によるリグレットと時刻との関係を示す模式図である。

【0043】

図３の上から３段目に示すように、敵対的モデルでは、目的関数が非定常的に振る舞うことが仮定される。より具体的に言えば、ラウンドｔにおける目的関数ｆ_ｔが、ラウンドｔ－１までの選択した部分集合のシーケンス（Ｘ_１，Ｘ_２，・・・，Ｘ_ｔ－１）に依存する。このような状況では、図３の上から４段目に示すように、確率的モデル専用アルゴリズムによるリグレットは、敵対的モデル専用アルゴリズムによりリグレットよりも大きくなる。一方で、アルゴリズムＳ１では、リグレットが上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるため、アルゴリズムＳ１によるリグレットは、確率的モデル専用アルゴリズムによるリグレットよりも小さなものとなる。

【0044】

このように、上記のような情報処理装置１及び情報処理方法Ｓ１によれば、確率的モデル及び敵対的モデルの何れに対しても最適化問題を好適に解くことができる。

【0045】

〔例示的実施形態２〕
本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

【0046】

＜情報処理システム１００Ａの概要＞
本例示的実施形態に係る情報処理システム１００Ａの構成について、図４を参照して説明する。図４は、情報処理システム１００Ａの構成を示すブロック図である。図４に示すように、情報処理システム１００Ａは、情報処理装置１Ａと、端末装置２Ａとを含んでいる。また、図４に示すように、情報処理装置１Ａと端末装置２ＡとはネットワークＮを介して通信可能に構成されている。ここで、ネットワークＮの具体的構成は本例示的実施形態を限定するものではないが、一例として、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせを用いることができる。

【0047】

＜情報処理装置１Ａの構成＞
図４に示すように、情報処理装置１Ａは、制御部１０Ａと、記憶部１７Ａと、通信部１９Ａとを備えている。

【0048】

記憶部１７Ａには、後述する端末装置２Ａから受信した目的関数の観測値ＯＢが格納される。また、記憶部１７Ａには、選択部１１によって選択された選択済の部分集合ＳＢが格納されている。

【0049】

通信部１９Ａは、情報処理装置１Ａの外部の装置と通信を行う。一例として通信部１９Ａは、端末装置２Ａと通信を行う。通信部１９Ａは、制御部１０Ａから供給されたデータを端末装置２Ａに送信したり、端末装置２Ａから受信したデータを制御部１０Ａに供給したりする。

【0050】

（制御部１０Ａ）
制御部１０Ａは、図４に示すように、選択部１１、出力部１２、及び取得部１３を備えている。

【0051】

取得部１３は、各ラウンドｔ∈［Ｔ］（Ｔは任意の自然数）における目的関数ｆ_ｔの観測値ＯＢを、通信部１９Ａを介して端末装置２Ａから取得する。取得部１３は、取得した目的関数の観測値ＯＢを、記憶部１７Ａに格納する。ここで、取得部１３が取得可能な情報は、Full-Information設定か、Bandit-Feedback設定かによって異なり得る。

【0052】

Full-Information設定では、取得部１３は、出力部１２がラウンドｔにおいて部分集合Ｘ_ｔを出力した後に得られる目的関数の観測値であって、任意の部分集合Ｘ⊆［ｎ］に対する目的関数の観測値ｆ_ｔ（Ｘ）を取得可能である。

【0053】

一方、Bandit-Feedback設定では、取得部１３は、出力部１２がラウンドｔにおいて部分集合Ｘ_ｔを出力した後に得られる目的関数の観測値であって、選択した部分集合Ｘ_ｔに対する目的関数の観測値ｆ_ｔ（Ｘ_ｔ）を取得可能であるが、前記選択した部分集合以外の部分集合Ｘ⊆［ｎ］に対する目的関数の観測値ｆ_ｔ（Ｘ）は取得可能ではない。

【0054】

ここで、部分集合Ｘ_ｔは、例示的実施形態１と同様に、ラウンドｔにおける行動を規定する部分集合であり、一例として、商品の識別情報を要素として含む部分集合としての意味を有するが、これは本例示的実施形態を限定するものではない。また、上記目的関数の例として、行動と売上高との関係を規定する目的関数、又は、行動と損失額との関係を規定する目的関数が挙げられるが、これは本例示的実施形態を限定するものではない。

【0055】

選択部１１は、あるラウンドにおいて、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する。

【0056】

ここで、本例示的実施形態に係る選択部１１は、各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と比較対象解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ ⊆［ｎ］を選択する。なお、上記比較対象解は、例示的実施形態１と同様に、一例として、損失を表す目的関数を最小化する最適解である。選択部１１によるより具体的処理については後述する。

【0057】

出力部１２は、選択部１１が選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力する。ここで、出力部１２による、部分集合Ｘ_ｔ ⊆［ｎ］を示す情報の出力先は本例示的実施形態を限定するものではないが、一例として、出力部１２は、通信部１９Ａを介して当該情報を端末装置２Ａに送信する構成とすることができる。また、出力部１２が表示パネルを備え、当該表示パネルに当該部分集合Ｘ_ｔを示す情報を表示させる構成としてもよい。

【0058】

＜端末装置２Ａの構成＞
端末装置２Ａは、図４に示すように、制御部２０Ａ、表示部２７Ａ、入力受付部２８Ａ、及び通信部２９Ａを備えている。端末装置は、一例として、店舗に配置された情報処理端末等として具体的に実現することができるが、これは本例示的実施形態を限定するものではない。

【0059】

通信部２９Ａは、端末装置２Ａの外部の装置と通信を行う。一例として通信部２９Ａは、情報処理装置１Ａと通信を行う。通信部２９Ａは、制御部２０Ａから供給されたデータを情報処理装置１Ａに送信したり、情報処理装置１Ａから受信したデータを制御部２０Ａに供給したりする。

【0060】

表示部２７Ａは、制御部２０Ａから供給される表示用データを表示する。一例として、表示部２７Ａは、情報処理装置１Ａの選択部１１によって選択され、端末装置２Ａに供給された部分集合Ｘ_ｔを示す情報を表示する。

【0061】

入力受付部２８Ａは、端末装置２Ａに対する各種の入力を受け付ける。一例として、入力受付部２８Ａは、各ラウンドｔにおける目的関数の観測値を受け付ける。そして、受け付けた観測値を制御部２０Ａに供給する。供給された当該観測値は、通信部２９Ａを介して情報処理装置１Ａに送信され、上述した取得部１３によって取得される。入力受付部２８Ａは、上記観測値をユーザによる操作を介して受け付ける構成としてもよいし、上記観測値を自動的に取得する構成としてもよい。

【0062】

入力受付部２８Ａの具体的構成は本例示的実施形態を限定するものではないが、一例として、入力受付部２８Ａは、キーボード及びタッチパッド等の入力デバイスを備える構成とすることができる。また、入力受付部２８Ａは、赤外線や電波等の電磁波を介してデータの読み取りを行うデータスキャナ等を備える構成としてもよい。

【0063】

（制御部２０Ａ）
制御部２０Ａは、図４に示すように、行動実行部２１、及び観測値取得部２２を備えている。

【0064】

行動実行部２１は、各ラウンドｔにおいて、情報処理装置１Ａの選択部１１によって選択された部分集合Ｘ_ｔを示す情報を取得し、取得した部分集合Ｘ_ｔに応じた行動を実行する。一例として、当該部分集合Ｘ_ｔを示す情報を参照して、当該部分集合Ｘ_ｔが示す１又は複数の商品の価格を更新する。また、行動実行部２１は、当該部分集合Ｘ_ｔを示す表示データを生成し、生成した表示データを表示部２７Ａに供給し、表示部２７Ａが当該表示データを表示する構成としてもよい。この構成の場合、表示部２７Ａが表示する表示データを参照してユーザが１又は複数の商品の価格を更新する。

【0065】

観測値取得部２２は、行動実行部２１が行動を実行した後の目的関数の観測値を、入力受付部２８を介して取得する。観測値取得部２２が取得した目的関数の観測値は、通信部２９Ａを介して情報処理装置１Ａに供給され、情報処理装置１Ａの取得部１３によって取得される。

【0066】

＜情報処理システム１００Ａによる処理の流れ＞
続いて、図５を参照して、本例示的実施形態に係る情報処理システム１００Ａによる情報処理方法Ｓ１００Ａ（アルゴリズム１とも呼ぶ）の流れについて説明する。以下の説明では、ラウンドｔ－１の各ステップには（ｔ－１）を付し、ラウンドｔの各ステップには（ｔ）を付すなどして、各ラウンドを区別している。

【0067】

（ステップＳ２３（ｔ－１））
図５に示すように、端末装置２Ａは、ステップＳ２３（ｔ－１）において、目的関数の観測値ｆ_ｔを、情報処理装置１Ａに提供する。ここで、端末装置２Ａが提供可能な観測値は、上述したFull-Information設定か、Bandit-Feedback設定かによって異なり得る。

【0068】

Full-Information設定では、ステップＳ２３（ｔ－１）において、端末装置２Ａは、出力部１２がラウンドｔ－１において部分集合Ｘ_ｔ－１を出力した後に得られる目的関数の観測値であって、任意の部分集合Ｘ⊆［ｎ］に対する目的関数の観測値ｆ_ｔ－１（Ｘ）を提供可能である。

【0069】

一方、Bandit-Feedback設定では、ステップＳ２３（ｔ－１）において、端末装置２Ａは、出力部１２がラウンドｔ－１において部分集合Ｘ_ｔ－１を出力した後に得られる目的関数の観測値であって、選択した部分集合Ｘ_ｔ－１に対する目的関数の観測値ｆ_ｔ－１（Ｘ_ｔ－１）を取得可能であるが、前記選択した部分集合以外の部分集合Ｘ⊆［ｎ］に対する目的関数の観測値ｆ_ｔ－１（Ｘ）は取得可能ではない。

【0070】

（ステップＳ１３（ｔ－１））
続いて、ステップＳ１３（ｔ－１）において、情報処理装置１Ａの取得部１３は、ステップＳ２３（ｔ－１）において、端末装置２Ａが提供した目的関数の観測値ｆ_ｔ－１を取得する。

【0071】

（ステップＳ１１（ｔ））
続いて、ステップＳ１１（ｔ）において、情報処理装置１Ａの選択部１１は、ステップＳ１３（ｔ－１）において取得部が取得した目的関数の観測値ｆ_ｔ－１を参照して、部分集合Ｘ_ｔ ⊆［ｎ］を選択する。選択部１１によるより具体的な処理については後述する。

【0072】

（ステップＳ１２（ｔ））
続いて、ステップＳ１２（ｔ）において、出力部１２は、ステップＳ１１（ｔ）において選択部１１が選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力する。出力された当該部分集合Ｘ_ｔ ⊆［ｎ］を示す情報は、通信部１９Ａを介して端末装置２Ａに送信される。

【0073】

（ステップＳ２１（ｔ））
続いて、ステップＳ２１（ｔ）において、端末装置２Ａの行動実行部２１は、ステップＳ１２（ｔ）において出力部１２が出力した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報に応じた行動を実行する。行動実行部２１による具体的な処理は上述したためここでは説明を省略する。

【0074】

（ステップＳ２２（ｔ））
続いて、ステップＳ２２（ｔ）において、端末装置２Ａの観測値取得部２２は、ステップＳ２１（ｔ）における行動実行部２１による行動の後に得られる目的関数の観測値を取得する。

【0075】

（ステップＳ２３（ｔ））
続いて、ステップＳ２３（ｔ）において、端末装置２Ａは、ステップＳ２２（ｔ）において取得した目的関数の観測値を、情報処理装置１Ａに提供する。

【0076】

以降、図５に示すように、上述した各ステップを実行するラウンドを繰り返す。

【0077】

＜情報処理装置１Ａによる処理例１：Full-Information設定＞
続いて、図６を参照して、情報処理装置１Ａによる処理例１（アルゴリズム１）の流れについて説明する。当該処理例１は、Full-Information設定における情報処理装置１Ａによる処理を示している。

【0078】

（ステップＳ１０１）
まず、ステップＳ１０１において、選択部１１は、処理に用いる各種のパラメータを初期化する。一例として、選択部１１は、１ラウンド目における累積劣勾配Ｇ_１を、
Ｇ_１ｉ＝０∈Ｒ^ｎ
によって初期化する。ここでｉは、ｉ∈［ｎ］を満たすインデックスであり、［ｎ］は、自然数の集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）である。

【0079】

（ステップＳ１０２）
ステップＳ１０２は、ループ変数ｔ（ｔ＝１，２，・・・，Ｔ）（Ｔは任意の自然数）によって表されるループ処理の始端である。ここで、ループ変数ｔは、ラウンド番号を示すインデックスである。

【0080】

（ステップＳ１１１Ａ）
ステップＳ１１１Ａにおいて、選択部１１は、ベクトルｘ_ｔ∈［０，１］^ｎを、

【数8】

によって算出する。ここで、λ_ｔｉは学習率を示すパラメータであり、以下の式によって定義される。

【数9】

ここでｈは、全てのｚ∈［０，１］及びｇ∈Ｒに対して、

【数10】

によって定義される。

【0081】

（ステップＳ１１２Ａ）
続いて、ステップＳ１１２Ａにおいて、選択部１１は、全てのｉ∈［ｎ－１］に関し、
ｘ_{ｔσ（ｉ）}≦ｘ_{ｔσ（ｉ＋１）}
となる置換σ_ｔ：［ｎ］→［ｎ］を計算する。

【0082】

（ステップＳ１１３Ａ）
続いて、ステップＳ１１３Ａにおいて、選択部１１は、［０，１］上に一様分布する確率変数ｕ_ｔの値を決定する。換言すれば、選択部１１は、［０，１］上の一様な確率分布に従って、変数ｕ_ｔの値を決定する。

【0083】

（ステップＳ１１４Ａ）
続いて、ステップＳ１１４Ａにおいて、選択部１１は、部分集合Ｘ_ｔを、
Ｘ_ｔ＝｛ｉ∈［ｎ］｜ｘ_ｔｉ≧ｕ_ｔ｝
を満たすように決定する。

【0084】

（ステップＳ１２）
続いて、ステップＳ１２において、出力部１２は、ステップＳ１１４Ａにおいて選択部１１が選択した部分集合Ｘ_ｔを出力する。出力された部分集合Ｘ_ｔは、一例として端末装置２Ａに供給され、端末装置２Ａ側の環境において、当該部分集合Ｘ_ｔに応じた行動が実行される。

【0085】

（ステップＳ１３）
続いて、ステップＳ１３において、取得部１３は、目的関数ｆ_ｔの観測値ｆ_ｔ（Ｘ）を取得する。本ステップでは、取得部１３は、ステップＳ１２において出力部１２が部分集合Ｘ_ｔを出力した後に得られる目的関数の観測値であって、任意の部分集合Ｘ⊆［ｎ］に対する目的関数の観測値ｆ_ｔ（Ｘ）を取得可能である。

【0086】

（ステップＳ１１５Ａ）
続いて、ステップＳ１１５Ａにおいて、選択部１１は、劣勾配ｇ_ｔ∈Ｒ^ｄを、

【数11】

によって算出する。ここで、ρ_ｉ（σ_ｔ）は、

【数12】

によって定義され、χ_ｉ∈｛０，１｝^ｎは、ｉの指標ベクトル（indicator vector）を表しており、ｉ＝ｊのときのみ、χ_ｉｊ＝１である。

【0087】

（ステップＳ１１６Ａ）
続いて、ステップＳ１１６Ａにおいて、選択部１１は、累積劣勾配Ｇ_ｔを、
Ｇ_ｔ＋１＝Ｇ_ｔ＋ｇ_ｔ
によって更新する。

【0088】

（ステップＳ１０３）
ステップＳ１０３は、ループ変数ｔによって表されるループ処理の終端である。

【0089】

（定理１）
本願発明者らは、上記処理例１（アルゴリズム１）によって得られるリグレット

【数13】

が、

【数14】

によって上からバウンドされること（定理１）を証明することに成功した。また、本願発明者らは、定理１の系として、上記リグレットＲ_Ｔが、

【数15】

のように上からバウンドされることを示した。換言すれば、上記リグレットＲ_Ｔが、Δ、ｎ、Ｃに依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられることを示した。

【0090】

ここで、パラメータΔ≧０は、確率的モデルにおける劣最適ギャップ（suboptimality gap）を表している。パラメータΔは、より具体的には、目的関数ｆ_ｔが未知の分布Ｄに従うとした場合の当該目的関数ｆ_ｔの期待値

【数16】

を用いて、

【数17】

【数18】

と表現される。

【0091】

また、パラメータＣは、外乱指標を表しており、当該外乱指標Ｃは、前記目的関数ｆ_ｔと時間依存目的関数ｆ_ｔ’とを用いて

【数19】

と表現される。ここで、時間依存目的関数ｆ_ｔ’は、ラウンドに依存しない未知の分布Ｄから選択される。

【0092】

上記のように構成された情報処理装置１Ａでは、Full-Information設定において、アルゴリズム１を実行することによって、リグレットの期待値が、Δ、ｎ、Ｃに依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられる。したがって、上記のように構成された情報処理装置１によれば、Full-Information設定において、確率的モデル及び敵対的モデルの何れに対しても最適化問題を好適に解くことができる。

【0093】

＜情報処理装置１Ａによる処理例２：Bandit-Feedback設定＞
続いて、図７を参照して、情報処理装置１Ａによる処理例２（アルゴリズム２）の流れについて説明する。当該処理例２は、Bandit-Feedback設定における情報処理装置１Ａによる処理を示している。

【0094】

（ステップＳ１０１）
まず、ステップＳ１０１において、選択部１１は、処理に用いる各種のパラメータを初期化する。一例として、選択部１１は、１ラウンド目における累積劣勾配＾Ｇ_１を、
＾Ｇ_１ｉ＝０∈Ｒ^ｎ
によって初期化する。ここでｉは、ｉ∈［ｎ］を満たすインデックスであり、［ｎ］は、自然数の集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）である。また、＾Ｇ_ｔｉは、ハット「＾」付きの「Ｇ_ｔｉ」を表している。

【0095】

【0096】

（ステップＳ１１１Ｂ）
ステップＳ１１１Ｂにおいて、選択部１１は、各ｉ∈［ｎ］に関し、学習率λ_ｔと、累積劣勾配＾Ｇ_ｔｉと、関数ζ

【数20】

とを用いて、ｎ次元ベクトルｘ_ｔ∈［０，１］^ｎを、
ｘ_ｔｉ＝ζ（＾Ｇ_ｔｉ／λ_ｔ）
によって算出する。ここで、学習率λ_ｔは、

【数21】

によって定義される。

【0097】

（ステップＳ１１２Ｂ）
続いて、ステップＳ１１２Ｂにおいて、選択部１１は、全てのｉ∈［ｎ－１］に関し、
ｘ_{ｔσ（ｉ）}≦ｘ_{ｔσ（ｉ＋１）}
となる置換σ_ｔ：［ｎ］→［ｎ］を計算する。

【0098】

（ステップＳ１１３Ｂ）
ステップＳ１１３Ｂにおいて、選択部１１は、確率

【数22】

【数23】

に従ってインデックスｉ_ｔ∈｛０，１，・・・，ｎ｝を選択する。

【0099】

（ステップＳ１１４Ｂ）
ステップＳ１１４Ｂにおいて、選択部１１は、部分集合Ｘ_ｔを、
Ｘ_ｔ＝σ_ｔ（［ｉ_ｔ］）＝｛σ_ｔ（ｊ）｜ｊ∈［ｉ_ｔ］｝
を満たすように決定する。

【0100】

（ステップＳ１２）
続いて、ステップＳ１２において、出力部１２は、ステップＳ１１４Ｂにおいて選択部１１が選択した部分集合Ｘ_ｔを出力する。出力された部分集合Ｘ_ｔは、一例として端末装置２Ａに供給され、端末装置２Ａ側の環境において、当該部分集合Ｘ_ｔに応じた行動が実行される。

【0101】

（ステップＳ１３）
続いて、ステップＳ１３において、取得部１３は、目的関数ｆ_ｔの観測値ｆ_ｔ（Ｘ）を取得する。本ステップでは、取得部１３は、ステップＳ１２において出力部１２が部分集合Ｘ_ｔを出力した後に得られる目的関数の観測値であって、選択した部分集合Ｘ_ｔに対する目的関数の観測値ｆ_ｔ（Ｘ_ｔ）を取得可能であるが、前記選択した部分集合以外の部分集合Ｘ⊆［ｎ］に対する目的関数の観測値ｆ_ｔ（Ｘ）は取得可能ではない。

【0102】

（ステップＳ１１５Ｂ）
続いて、ステップＳ１１５Ｂにおいて、選択部１１は、劣勾配＾ｇ_ｔ∈Ｒ^ｄを、

【数24】

によって算出する。ここで、＾ｇ_ｔは、ハット「＾」付きの「ｇ_ｔ」を表している。また、ρ_ｉ（σ_ｔ）は、上述のように、

【数25】

によって定義される。

【0103】

（ステップＳ１１６Ｂ）
続いて、ステップＳ１１６Ｂにおいて、選択部１１は、累積劣勾配＾Ｇ_ｔを、
＾Ｇ_ｔ＋１＝＾Ｇ_ｔ＋＾ｇ_ｔ
によって更新する。

【0104】

（ステップＳ１０３）
ステップＳ１０３は、ループ変数ｔによって表されるループ処理の終端である。

【0105】

（定理２）
本願発明者らは、上記処理例２（アルゴリズム２）によって得られるリグレット

【数26】

が、

【数27】

によって上からバウンドされること（定理２）を証明することに成功した。また、本願発明者らは、定理２の系として、上記リグレットＲ_Ｔが、

【数28】

のように上からバウンドされることを示した。換言すれば、上記リグレットＲ_Ｔが、Δ、ｎ、Ｃに依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられることを示した。ここで、パラメータΔは処理例１と同様に、劣最適ギャップ（suboptimality gap）を表しており、パラメータＣは、処理例１と同様に、外乱指標を表している。

【0106】

上記のように構成された情報処理装置１Ａでは、Bandit-Feedback設定において、アルゴリズム２を実行することによって、リグレットの期待値が、Δ、ｎ、Ｃに依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられる。したがって、上記のように構成された情報処理装置１によれば、Bandit-Feedback設定において、確率的モデル及び敵対的モデルの何れに対しても最適化問題を好適に解くことができる。

【0107】

（ロバース拡張との関係）
以下では、上述したアルゴリズム１及びアルゴリズム２と、ロバース拡張（Lovasz extention）との関係について述べる。

【0108】

関数ｆ：２^［ｎ］→Ｒ
が与えられたとき、関数ｆのロバース拡張
～ｆ：［０，１］ｎ→Ｒ
は以下のように与えられる。ここで、「～ｆ」は、チルダ付きの「ｆ」を表している。

【0109】

まず、
ｘ＝（ｘ_１，ｘ_２，・・・，ｘ_ｎ）^Ｔ∈［０，１］^ｎ
及び
ｕ∈［０，１］
に対して、ｘ_ｉ≧ｕとなるインデックスｉの集合をＨ_ｕ（ｘ）と表すことにする。すなわち、Ｈ_ｕ（ｘ）を、
Ｈ_ｕ（ｘ）＝｛ｉ∈［ｎ］｜ｘ_ｉ≧ｕ｝
によって定義する。このＨ_ｕ（ｘ）を用いて、ロバース拡張～ｆ（ｘ）は、

【数29】

によって定義される。ここで、Ｕｎｉｆ（［０，１］）は、［０，１］上の一様分布を表している。ロバース拡張～ｆ（ｘ）は、関数ｆが劣モジュラである場合に限って凸関数であることが知られている。

【0110】

上記の定義から、任意のｘ∈［０，１］^ｎ、及び、任意のｉ∈［ｎ－１］に対して、ｘ_σ（ｉ）≦ｘ_{σ（ｉ＋１）}を満たす任意の置換σ：［ｎ］→［ｎ］に対して、ロバース拡張～ｆ（ｘ）は、

【数30】

と表される。ここで、σ［ｉ］＝｛σ（ｊ）｜ｊ∈［ｉ］｝であり、例外的に、ｘ_σ（０）＝０、ｘ_{σ（ｎ＋１）}＝１と定義する。

【0111】

これにより、ロバース拡張～ｆ（ｘ）の劣勾配ｇ（σ）∈Ｒ^ｎは、

【数31】

によって定義される。ここで、ρ_ｉ（σ）は、アルゴリズム１及びアルゴリズム２において説明した通りである。

【0112】

上記ロバース拡張～ｆ（ｘ）の劣勾配は、上述したように、アルゴリズム１及びアルゴリズム２の双方において用いられている。

【0113】

（ＦＴＲＬアルゴリズムとの関係）
以下では、上述したアルゴリズム１及びアルゴリズム２と、ＦＴＲＬ（Follow The Regularized Leader）アルゴリズムとの関係について説明する。

【0114】

ＦＴＲＬアルゴリズムは、Ｒ^ｎの部分集合Ω上のオンライン凸最適化における一般的かつ洗練されたアプローチである。ＦＴＲＬアルゴリズムにおける更新ルールは、

【数32】

と表現される。ここで、ｇ_ｔは、ｘ_ｔにおける目的関数ｆ_ｔの劣勾配であり、ψ_ｔは、Ω上の凸関数である正規化項（regularizer）である。ＦＴＲＬアルゴリズムでは、ｘ_ｔ∈Ω、及び任意のｘ^＊∈Ωに対して、リグレットが以下のようにバウンドされることを示すことができる。

【数33】

ここで、Ｄｔは、ψ_ｔに付随するベルグマン情報量（Bergman divergence）である。

【0115】

上述したアルゴリズム１は、ＦＴＲＬアルゴリズムにおいて、正規化項ψ_ｔを以下のように定義したことに対応している。

【数34】

【数35】

ここで、λ_ｔｉは、上述した学習率である。上記のように定義された正規化項を有するＦＴＲＬアルゴリズムでは、ｘ_ｔｉ及び累積劣勾配Ｇ_ｔが、

【数36】

と表現されることを示すことができる。上記ｘ_ｔｉ及び累積劣勾配Ｇ_ｔは、上述したアルゴリズム１において用いられている。

【0116】

一方、アルゴリズム２は、ＦＴＲＬアルゴリズムにおいて、正規化項ψ_ｔを以下のように定義したことに対応している。

【数37】

上記のように定義された正規化項を有するＦＴＲＬアルゴリズムでは、ｘ_ｔｉが、

【数38】

と表されることを示すことができる。ここで、関数ζはアルゴリズム２において説明した通りである。上記ｘ_ｔｉ及び累積劣勾配＾Ｇ_ｔは、上述したアルゴリズム２において用いられている。

【0117】

（情報処理システム１Ａによる表示例）
続いて、図８を参照して、情報処理システム１Ａによる表示例を説明する。図８は、情報処理システム１Ａによる表示例を示す図である。図８に示す例は、目的関数として、複数の商品の売上額（の合計）を示す関数を用い、１ラウンドを１日に設定した場合の表示例である。すなわち、図８に示す例では、情報処理装置１Ａの選択部１１は、ある日（ラウンドｔ）における部分集合Ｘ_ｔを、当該ある日の前日（ラウンドｔ－１）までの目的関数の観測値（売上額）を参照して選択する。

【0118】

そして、図８に示すように、端末装置２Ａの表示部２７Ａが、目的関数の各観測値（図８における売上額）を、ラウンド（図８における日）毎に表示する。更に、図８に示す例では、端末装置２Ａの表示部２７Ａは、ラウンドｔにおいて選択した部分集合に関する情報（商品Ａ～Ｃの価格）を表示する。

【0119】

情報処理システム１Ａは、このような表示を行うことによって、ユーザに対して、売上額と商品の価格とを提示することができる。

【0120】

〔応用例〕
上述した情報処理装置１，１Ａは、各種問題に応用可能である。以下にその一例を挙げる。

【0121】

（最小時間経路問題）
ある地点から他の地点までの経路の選択を行動とするものとする。例えば、ある地点から他の地点までｎ－１か所の中継地点が存在し、各区間には、ｍ本の選択可能な経路が存在するとする。このような状況において行動施策（選択された部分集合）Ｘ_ｔ＝［０、２，１、・・・］である場合、第１区間において、経路０を選択し、第２区間において経路２を選択し、第３区間において経路１を選択することを示すものとする。

【0122】

そして、目的関数ｆ_ｔは、行動施策Ｘ_ｔを入力とし、当該行動施策によって示される経路を通過するのに要した時間を出力とする。この場合に、上述した最適化方法を適用することで、上記ある地点から他の地点になるべく短い時間で到達するための最適な経路設定を導出することができる。

【0123】

（リテール）
ある店舗における各社のビールの価格の割引を行動とするものとする。例えば、行動施策（選択された部分集合）Ｘ_ｔ＝［０、２，１、・・・］である場合、第１要素がＡ社のビール価格を定価とし、第２要素がＢ社のビール価格を定価から１０％割増とし、第３要素がＣ社のビール価格を定価から１０％割引とすることを示すものとする。

【0124】

そして、目的関数ｆ_ｔは、行動施策Ｘ_ｔを入力とし、各社のビールの価格に行動施策Ｘを適用して販売を行った結果を出力とする。この場合に、上述した最適化方法を適用することで、上記店舗における各社のビール価格の最適な価格設定を導出することができる。

【0125】

（投資ポートフォリオ）
投資家等における投資行動に適用した場合を説明する。この場合、投資家が保有する又は保有しようとする複数の金融商品（株式の銘柄等）に対する投資（購入、増資）、売却、保有を行動施策Ｘ_ｔとする。例えば、行動施策（選択された部分集合）Ｘ_ｔ＝［１、０、２、・・・］である場合、第１要素がＡ社の株式への追加投資、第２要素がＢ社の債権を保有（購入も売却もしない）、第３要素がＣ社の株式の売却を示すものとする。

【0126】

そして、目的関数ｆ_ｔは、行動施策Ｘ_ｔを入力とし、各社の金融商品に対する投資行動に行動施策Ｘ_ｔを適用した結果を出力とする。この場合に、上述した最適化方法を適用することで、上記投資家における各銘柄に対する最適な投資行動を導出することができる。

【0127】

（治験）
製薬会社におけるある薬品の治験のための投薬行動に適用した場合を説明する。この場合、投薬の分量や投薬を回避することを行動施策Ｘ_ｔとする。例えば、行動施策（選択された部分集合）Ｘ_ｔ＝［１、０、２、・・・］である場合、第１要素が被験者Ａに対して分量１の投薬を行い、第２要素が被験者Ｂに対して投薬を行わず、第３要素が被験者Ｃに対して分量２の投薬を行うことを示すものとする。

【0128】

そして、目的関数ｆ_ｔは、行動施策Ｘ_ｔを入力とし、各被験者に対する投薬行動に行動施策Ｘ_ｔを適用した結果を出力とする。この場合に、上述した最適化方法を適用することで、上記製薬会社の治験における各被験者に対する最適な投薬行動を導出することができる。

【0129】

（ウェブマーケティング）
ある電子商取引サイトの運営会社における広告行動（マーケティング施策）に適用した場合を説明する。この場合、運営会社が販売しようとする商品又はサービスに対する複数の顧客に対する広告（オンライン（バナー）広告、電子メールによる広告、ダイレクトメール、割引クーポンの電子メール送信等）を行動施策Ｘ_ｔとする。例えば、行動施策（選択された部分集合）Ｘ_ｔ＝［１、０、２、・・・］である場合、第１要素が顧客Ａに対するバナー広告、第２要素が顧客Ｂに対して広告を行わない、第３要素が顧客Ｃに対する割引クーポンの電子メール送信、を示すものとする。

【0130】

そして、目的関数ｆ_ｔは、行動施策Ｘ_ｔを入力とし、各顧客に対する広告行動に行動施策Ｘ_ｔを適用した結果を出力とする。ここで、実行結果としては、バナー広告をクリックしたか否か、購入額、購入確率、購入額の期待値であってもよい。この場合に、本実施形態の最適化方法を適用することで、上記運営会社における各顧客に対する最適な広告行動を導出することができる。

【0131】

〔ソフトウェアによる実現例〕
情報処理装置１，１Ａ、端末装置２Ａの一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

【0132】

後者の場合、情報処理装置１，１Ａ、端末装置２Ａは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図９に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを情報処理装置１，１Ａ、端末装置２Ａとして動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、情報処理装置１，１Ａ、端末装置２Ａの各機能が実現される。

【0133】

プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

【0134】

なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

【0135】

また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

【0136】

〔付記事項１〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

【0137】

〔付記事項２〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

【0138】

（付記１）
あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する選択手段と、
前記選択手段が選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力する出力手段と、
を備えており、
前記選択手段は、
各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と比較対象解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ ⊆［ｎ］を選択する
ことを特徴とする情報処理装置。

【0139】

（付記２）
前記ギャップ指標は、前記目的関数ｆ_ｔが確率分布Ｄに従うとした場合の当該目的関数ｆ_ｔの期待値

【数39】

を用いて、

【数40】

と表現され、
前記外乱指標Ｃは、前記目的関数ｆ_ｔと時間依存目的関数ｆ_ｔ’とを用いて

【数41】

と表現される
付記１に記載の情報処理装置。

【0140】

（付記３）
前記出力手段がラウンドｔにおいて前記部分集合Ｘ_ｔを出力した後に、任意の部分集合Ｘ⊆［ｎ］に対する前記目的関数の観測値ｆ_ｔ（Ｘ）を取得可能な取得手段を更に備え、
前記選択手段は、前記取得手段が取得した前記目的関数の観測値ｆ_ｔ（Ｘ）を参照可能であり、
前記上限値Ａ（Δ，ｎ，Ｃ）は、

【数42】

と表現される
付記１又は２に記載の情報処理装置。

【0141】

（付記４）
前記選択手段は、
各ｉ∈［ｎ］に関し、学習率λ_ｔｉと累積劣勾配Ｇ_ｔｉとを用いて、ｎ次元ベクトルｘ_ｔ∈［０，１］^ｎを

【数43】

【0142】

（付記５）
前出力手段がラウンドｔにおいて前記部分集合Ｘ_ｔを出力した後に、選択した部分集合Ｘ_ｔに対する前記目的関数の観測値ｆ_ｔ（Ｘ_ｔ）を取得可能な取得手段を更に備え、
前記選択手段は、
前記選択した部分集合Ｘ_ｔに対する前記目的関数の観測値ｆ_ｔ（Ｘ_ｔ）を参照することが可能であり、且つ、
前記選択した部分集合以外の部分集合Ｘ⊆［ｎ］に対する前記目的関数の観測値ｆ_ｔ（Ｘ）を参照することが不可能であり、
前記上限値Ａ（Δ，ｎ，Ｃ）は、

【数44】

と表現される
付記１又は２に記載の情報処理装置。

【0143】

（付記６）
前記選択手段は、
各ｉ∈［ｎ］に関し、学習率λ_ｔと、累積劣勾配＾Ｇ_ｔｉと、関数ζ

【数45】

【数46】

【数47】

【0144】

（付記７）
あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する選択手段と、
前記選択手段が選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力する出力手段と、
を備えており、
前記選択手段は、
各ｉ∈［ｎ］に関し、学習率λ_ｔｉと累積劣勾配Ｇ_ｔｉとを用いて、ｎ次元ベクトルｘ_ｔ∈［０，１］^ｎを

【数48】

によって算出するベクトル算出ステップと、
全てのｉ∈［ｎ－１］に関し、ｘ_{ｔσ（ｉ）}≦ｘ_{ｔσ（ｉ＋１）}となる置換σ_ｔ：［ｎ］→［ｎ］を計算する置換算出ステップと
［０，１］上に一様分布する確率変数ｕ_ｔの値を決定する確率変数決定ステップと、
部分集合Ｘ_ｔを、Ｘ_ｔ＝｛ｉ∈［ｎ］｜ｘ_ｔｉ≧ｕ_ｔ｝を満たすように決定する部分集合決定ステップと、
目的関数ｆ_ｔ（Ｘ）の値を取得する取得ステップと、
目的関数ｆ_ｔの劣勾配ｇ_ｔ∈Ｒ^ｄを計算する劣勾配算出ステップと、
累積劣勾配Ｇ_ｔを、Ｇ_ｔ＋１＝Ｇ_ｔ＋ｇ_ｔによって更新する更新ステップと、
を各ラウンドにおいて実行する情報処理装置。

【0145】

（付記８）
あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する選択手段と、
前記選択手段が選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力する出力手段と、
を備えており、
前記選択手段は、
各ｉ∈［ｎ］に関し、学習率λ_ｔと、累積劣勾配＾Ｇ_ｔｉと、関数ζ

【数49】

【数50】

【数51】

に従ってインデックスｉ_ｔ∈｛０，１，・・・，ｎ｝を選択するインデックス選択ステップと、
部分集合Ｘ_ｔを、Ｘ_ｔ＝｛σ_ｔ（ｊ）｜ｊ∈［ｉ_ｔ］｝を満たすように決定する部分集合決定ステップと、
目的関数ｆ_ｔ（Ｘ_ｔ）の値を取得するステップと、
目的関数ｆ_ｔの劣勾配＾ｇ_ｔ∈Ｒ^ｄを計算する劣勾配算出ステップと、
累積劣勾配＾Ｇ_ｔｉを、＾Ｇ_ｔ＋１＝＾Ｇ_ｔ＋＾ｇ_ｔによって更新する更新ステップと、
を各ラウンドにおいて実行する情報処理装置。

【0146】

（付記９）
あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択することと、
前記選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力することとを含んでおり、
前記選択する工程において、
各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と最適解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ ⊆［ｎ］を選択する
ことを特徴とする情報処理方法。

【0147】

（付記１０）
コンピュータに
あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する処理と、
前記選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力する処理と
を実行させ、
前記選択する処理において、
各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と最適解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ ⊆［ｎ］を選択する
ことを特徴とする情報処理プログラム。

【0148】

（付記１１）
付記１０に記載のプログラムが記録された、コンピュータ読み取り可能な記録媒体。

【0149】

（付記１２）
少なくとも１つのプロセッサを備え、前記プロセッサは、あるラウンドｔ∈［Ｔ］（Ｔは任意の自然数）において、集合［ｎ］＝｛１，２，・・・，ｎ｝（ｎは任意の自然数）の部分集合Ｘ_ｔ ⊆［ｎ］を、ラウンドｔ－１における目的関数の観測値を参照して選択する処理と、
前記選択した部分集合Ｘ_ｔ ⊆［ｎ］を示す情報を出力する処理と
を実行し、
前記選択する処理において、
各ラウンドｔ∈［Ｔ］における目的関数の観測値ｆ_ｔ（Ｘ_ｔ）と最適解Ｘ^＊とを用いて表されるリグレットΣ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ_ｔ）－Σ_{ｔ∈［Ｔ］}ｆ_ｔ（Ｘ^＊）の期待値の漸近挙動が、確率的モデルにおけるギャップ指標Δと確率的モデルの敵対的外乱を示す外乱指標Ｃとに少なくとも依存する上限値Ａ（Δ，ｎ，Ｃ）によって上から抑えられるように、前記部分集合Ｘ_ｔ ⊆［ｎ］を選択する情報処理装置。

【0150】

なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記選択する処理と、前記出力する処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

【符号の説明】

【0151】

１，１Ａ情報処理装置
１１選択部（選択手段）
１２出力部（出力手段）
１３取得部

【図1】