特開2023-128112 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-128112均衡解探索プログラム、均衡解探索方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023128112

(43)【公開日】2023-09-14

(54)【発明の名称】均衡解探索プログラム、均衡解探索方法および情報処理装置

(51)【国際特許分類】

G06Q 10/04 20230101AFI20230907BHJP

【ＦＩ】

G06Q10/04

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022032230

(22)【出願日】2022-03-03

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】檀隼人

(72)【発明者】

【氏名】小川雅俊

(72)【発明者】

【氏名】本間克己

(72)【発明者】

【氏名】石川菜月

【テーマコード（参考）】

5L049

【Ｆターム（参考）】

5L049AA04

(57)【要約】

【課題】均衡解探索における評価値計算の負荷を軽減する。
【解決手段】情報処理装置１０は、ノード１４ａ，１４ｂ，１４ｃに対応する行動集合１５ａ，１５ｂ，１５ｃを示すノード情報１３を用いて、行動集合１５ａ，１５，１５ｃの間の類似度に基づいて、ノード１４ａ，１４ｂを含むグループ１６を判定する。情報処理装置１０は、グループ１６に対して行動集合１７を割り当てる。情報処理装置１０は、ノード１４ａ，１４ｂに対応する行動集合１５ａ，１５ｂに含まれる行動に代えて、行動集合１７に含まれる行動それぞれの評価値を算出する。情報処理装置１０は、評価値に基づいて、行動集合１７に含まれる行動の確率分布１８を算出する。
【選択図】図１

【特許請求の範囲】

【請求項1】

選択し得る２以上の行動をそれぞれ含む、複数のノードに対応する複数の第１の行動集合を示すノード情報を用いて、前記複数の第１の行動集合の間の類似度に基づいて、前記複数のノードのうちの２以上のノードを含むグループを判定し、
前記グループに対して第２の行動集合を割り当て、
前記２以上のノードに対応する２以上の第１の行動集合に含まれる行動に代えて、前記第２の行動集合に含まれる行動それぞれの評価値を算出し、
前記評価値に基づいて、前記第２の行動集合に含まれる行動の確率分布を算出する、
処理をコンピュータに実行させる均衡解探索プログラム。

【請求項2】

前記グループの判定では、前記２以上の第１の行動集合が一定個数以上の同一の行動を含む場合に、前記２以上のノードを前記グループに分類する、
請求項１記載の均衡解探索プログラム。

【請求項3】

前記第２の行動集合は、前記２以上の第１の行動集合のうちの何れか１つである、
請求項１記載の均衡解探索プログラム。

【請求項4】

前記評価値の算出では、前記２以上のノードのうちの第１のノードに対して、前記第２の行動集合の中から前記評価値を算出する対象行動を選択し、前記２以上のノードのうちの第２のノードに対して、前記第２の行動集合の中からランダムに行動を選択する、
請求項１記載の均衡解探索プログラム。

【請求項5】

前記評価値の算出では、前記２以上のノードのうちの第１のノードに対して、前記第２の行動集合の中から前記評価値を算出する対象行動を選択し、前記２以上のノードのうちの第２のノードに対して、前記第２の行動集合の中からランダムに行動を選択する算出処理を繰り返し、前回の前記算出処理の結果と今回の前記算出処理の結果との変化量が所定の範囲内となる場合に、今回の前記算出処理の結果を前記評価値として出力する、
請求項１記載の均衡解探索プログラム。

【請求項6】

前記確率分布に基づいて、前記第２の行動集合に含まれる行動それぞれの前記評価値を更新し、更新された前記評価値に基づいて、前記第２の行動集合に含まれる行動の前記確率分布を更新する、処理を前記コンピュータに更に実行させる、
請求項１記載の均衡解探索プログラム。

【請求項7】

【請求項8】

選択し得る２以上の行動をそれぞれ含む、複数のノードに対応する複数の第１の行動集合を示すノード情報を記憶する記憶部と、
前記ノード情報を用いて、前記複数の第１の行動集合の間の類似度に基づいて、前記複数のノードのうちの２以上のノードを含むグループを判定し、前記グループに対して第２の行動集合を割り当て、前記２以上のノードに対応する２以上の第１の行動集合に含まれる行動に代えて、前記第２の行動集合に含まれる行動それぞれの評価値を算出し、前記評価値に基づいて、前記第２の行動集合に含まれる行動の確率分布を算出する処理部と、
を有する情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は均衡解探索プログラム、均衡解探索方法および情報処理装置に関する。

【背景技術】

【0002】

情報処理装置は、複数のノードそれぞれが複数の行動の候補の中から１つの行動を確率的に選択する状況について、それら複数の行動の確率分布の均衡解を探索することがある。上記のシミュレーション構造は、進化ゲーム理論と呼ばれることがある。ある確率分布のもとで組み合わされる複数の行動は、混合戦略と呼ばれることがある。

【0003】

例えば、レプリケータダイナミクスや後悔最小ダイナミクスなどのダイナミクス計算は、ある確率分布のもとで複数の行動それぞれの評価値を算出し、算出された評価値に基づいて確率分布を更新する。レプリケータダイナミクスは、平均評価値より大きい評価値をもつ行動の確率を増加させ、平均評価値より小さい評価値をもつ行動の確率を減少させる。後悔最小ダイナミクスは、ある行動の評価値と複数の行動の中の最大評価値との差を後悔と解釈し、平均後悔が減少するように確率分布を更新する。

【0004】

なお、ネットワークに接続された複数の計算機それぞれが、タスクを自身で実行するか他の計算機に依頼するかを、ゲーム理論を用いて自律的に判断する行動決定方法が提案されている。また、ミニマックス法とナッシュ均衡とを統合した戦略を用いてジョブのスケジューリングを行うスケジューリング方法が提案されている。また、競争相手の行動に関するデータをネットワークから収集し、ベイジアンゲーム理論に基づいて協調競争戦略を策定する戦略策定方法が提案されている。また、複数の応募者と複数の応募対象とのマッチングを、部分ゲーム完全均衡を求めることで行うマッチング方法が提案されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開平９－２９７６９０号公報

【特許文献2】米国特許出願公開第２０１２／０３１５９６６号明細書

【特許文献3】米国特許出願公開第２０１７／０１６９３７８号明細書

【特許文献4】特開２０１９－６７１５８号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

情報処理装置は、複数のノードが異なる行動集合をもつ状況について均衡解探索を行うことがある。その場合、情報処理装置は、全てのノードの全ての行動の候補それぞれに対して評価値を算出し、全てのノードの行動集合の確率分布を算出することが考えられる。しかし、その場合には、情報処理装置は、多数の行動の候補に対して評価値を算出することになり、評価値計算の負荷が高くなることがある。そこで、１つの側面では、本発明は、均衡解探索における評価値計算の負荷を軽減することを目的とする。

【課題を解決するための手段】

【0007】

１つの態様では、コンピュータに以下の処理を実行させる均衡解探索プログラムが提供される。選択し得る２以上の行動をそれぞれ含む、複数のノードに対応する複数の第１の行動集合を示すノード情報を用いて、複数の第１の行動集合の間の類似度に基づいて、複数のノードのうちの２以上のノードを含むグループを判定する。グループに対して第２の行動集合を割り当てる。２以上のノードに対応する２以上の第１の行動集合に含まれる行動に代えて、第２の行動集合に含まれる行動それぞれの評価値を算出する。評価値に基づいて、第２の行動集合に含まれる行動の確率分布を算出する。

【0008】

また、１つの態様では、コンピュータが実行する均衡解探索方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

【発明の効果】

【0009】

１つの側面では、均衡解探索における評価値計算の負荷が軽減される。

【図面の簡単な説明】

【0010】

【図1】第１の実施の形態の情報処理装置を説明するための図である。

【図2】情報処理装置のハードウェア例を示すブロック図である。

【図3】シミュレーション上のプレイヤーの例を示す図である。

【図4】戦略テーブルの例を示す図である。

【図5】グループ化後の戦略テーブルの例を示す図である。

【図6】確率テーブルの例を示す図である。

【図7】混合戦略からの戦略のサンプリング例を示す図である。

【図8】情報処理装置の機能例を示すブロック図である。

【図9】均衡解探索の手順例を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

【0012】

図１は、第１の実施の形態の情報処理装置を説明するための図である。
第１の実施の形態の情報処理装置１０は、複数のノードそれぞれが複数の行動の候補の中から１つの行動を確率的に選択する状況について、それら複数の行動の確率分布の均衡解を探索する。情報処理装置１０は、各行動の評価値を算出し、評価値に基づいて各行動が選択される確率を算出する。評価値から確率分布を算出するアルゴリズムとして、レプリケータダイナミクスまたは後悔最小ダイナミクスが用いられてもよい。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０が、コンピュータ、均衡解探索装置またはシミュレーション装置と呼ばれてもよい。

【0013】

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２が、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの電子回路を含んでもよい。プロセッサは、例えば、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

【0014】

記憶部１１は、ノード情報１３を記憶する。ノード情報１３は、ノード１４ａ，１４ｂ，１４ｃなどの複数のノードと、行動集合１５ａ，１５ｂ，１５ｃなどの複数の行動集合とを対応付ける。ノードは、シミュレーション上の意思決定主体を表し、プレイヤーと呼ばれることがある。ただし、ノードがコンピュータなどの物理装置に対応してもよい。行動集合は、ノードが選択し得る２以上の行動を含む。行動は戦略と呼ばれることがあり、行動集合は戦略集合と呼ばれることがある。

【0015】

行動集合１５ａは、ノード１４ａが選択し得る行動を示す。例えば、行動集合１５ａは行動Ａ，Ｂ，Ｃを含む。行動集合１５ｂは、ノード１４ｂが選択し得る行動を示す。例えば、行動集合１５ｂは行動Ａ，Ｂ，Ｄを含む。行動集合１５ｃはノード１４ｃが選択し得る行動を示す。例えば、行動集合１５ｃは行動Ａ，Ｅ，Ｆを含む。このように、異なる行動集合に同一の行動が含まれることがある。なお、行動集合１５ａ，１５ｂ，１５ｃに含まれる行動の個数は、同一であることが好ましい。

【0016】

処理部１２は、ノード情報１３が示すシミュレーション条件のもとで、ノード１４ａ，１４ｂ，１４ｃが選択する行動の確率分布の近似解を算出する。確率分布が付された行動集合は、混合戦略と呼ばれることがある。まず、処理部１２は、ノード情報１３が示す複数の行動集合の間の類似度に基づいて、複数のノードのうちの２以上のノードを含むグループ１６を判定する。例えば、処理部１２は、一定数以上の同一の行動を含む２以上の行動集合を検出し、検出された２以上の行動集合に対応する２以上のノードをグループ１６に分類する。図１の例では、処理部１２は、行動集合１５ａ，１５ｂが類似しているため、ノード１４ａ，１４ｂをグループ１６に分類する。

【0017】

処理部１２は、グループ１６に対して行動集合１７を割り当てる。割り当てられた行動集合１７は、ノード情報１３が示す行動集合１５ａ，１５ｂに代わって、グループ１６に含まれるノード１４ａ，１４ｂが共通に使用する行動集合である。これにより、ノード１４ａ，１４ｂが選択し得る行動が共通化される。行動集合１７は、行動集合１５ａ，１５ｂと同じ個数の行動を含むことが好ましい。

【0018】

行動集合１７は、グループ１６に含まれる何れか１つのノードの行動集合であってもよい。何れか１つのノードは、グループ１６に含まれる２以上のノードのうちの最も小さいノード番号をもつノードであってもよい。例えば、行動集合１７は、ノード１４ａの行動集合１５ａと同じである。その場合、行動集合１７は行動Ａ，Ｂ，Ｃを含む。これにより、ノード１４ｂが選択し得る行動が、ノード１４ａが選択し得る行動によって近似される。ただし、処理部１２は、グループ１６に含まれるノード１４ａ，１４ｂに対応する行動集合１５ａ，１５ｂを合成することで、行動集合１７を生成してもよい。

【0019】

処理部１２は、ノード１４ａ，１４ｂ，１４ｃが依拠する行動集合それぞれについて、その行動集合に含まれる２以上の行動それぞれの評価値を算出する。評価値は、事前に規定された評価関数に基づいて算出される。評価値は利得と呼ばれてもよく、評価関数は利得関数と呼ばれてもよい。このとき、グループ１６については、処理部１２は、行動集合１５ａ，１５ｂに含まれる行動それぞれの評価値を算出する代わりに、行動集合１７に含まれる行動それぞれの評価値を算出する。これにより、評価対象の行動集合が減少する。

【0020】

例えば、処理部１２は、ノード１４ａ，１４ｂ，１４ｃに対して１つずつ行動を選択し、選択されたノード１４ａ，１４ｂ，１４ｃの行動のもとで、ある行動の有利さを示す評価値を算出する。このとき、処理部１２は、行動集合１７の中から評価値を算出する対象行動を選択してノード１４ａに割り当て、行動集合１７の中からランダムに１つの行動を選択してノード１４ｂに割り当ててもよい。行動集合１７に対して確率分布が既に付与されている場合、処理部１２は、確率分布に従って１つの行動を選択してもよい。ランダムに１つの行動を選択することが、サンプリングと呼ばれてもよい。

【0021】

また、処理部１２は、グループ１６に含まれないノード１４ｃに対して、行動集合１５ｃの中からランダムに１つの行動を選択して割り当ててもよい。ただし、ノード１４ｃが別のグループに含まれていてもよく、処理部１２は、別のグループに対応する行動集合の中からランダムに１つの行動を選択してノード１４ｃに割り当ててもよい。上記の行動選択のもとで、処理部１２は、ノード１４ａが選択した対象行動の評価値を算出する。

【0022】

処理部１２は、行動集合１７に含まれる２以上の行動それぞれの評価値に基づいて、それら２以上の行動の確率を列挙した確率分布１８を算出する。２以上の行動の確率の和は１である。確率分布１８を算出するアルゴリズムとして、処理部１２は、レプリケータダイナミクスまたは後悔最小ダイナミクスを使用してもよい。

【0023】

例えば、処理部１２は、行動集合１７に含まれる２以上の行動の評価値の平均を算出する。平均評価値は、個々の評価値を確率で重み付けした加重平均評価値でもよい。処理部１２は、平均評価値より大きい評価値をもつ行動の確率を増加させ、平均評価値より小さい評価値をもつ行動の確率を減少させる。また、例えば、処理部１２は、ある行動の評価値と行動集合１７に含まれる２以上の行動の中の最大評価値との差を後悔と解釈し、平均後悔が減少するように各行動の確率を更新する。

【0024】

一例として、確率分布１８は、行動Ａの確率が６０％、行動Ｂの確率が３０％、行動Ｃの確率が１０％であることを示す。グループ１６に含まれるノード１４ａ，１４ｂは、確率分布１８に従って、行動集合１７の中から確率的に１つの行動を選択するものとみなされる。このとき、ノード情報１３が示す行動集合１５ａ，１５ｂに対応する確率分布は算出されなくてよい。処理部１２は、ノード１４ａに対して算出された確率分布１８を、ノード１４ｂにコピーしていると解釈することもできる。

【0025】

なお、処理部１２は、行動集合１７に含まれる行動それぞれの評価値の更新と、行動集合１７に対応する確率分布１８の更新とを、反復的に実行してもよい。また、処理部１２は、グループ１６に含まれないノード１４ｃが依拠する行動集合についても、各行動の評価値を算出して確率分布を算出してもよい。

【0026】

処理部１２は、ノード１４ａ，１４ｂ，１４ｃが選択する行動の確率分布の均衡解を出力する。グループ１６に含まれるノード１４ａ，１４ｂに対しては、同一の均衡解が算出される。処理部１２は、均衡解を表示装置に表示してもよいし、不揮発性ストレージに保存してもよいし、他の情報処理装置に送信してもよい。

【0027】

以上説明したように、第１の実施の形態の情報処理装置１０は、ノード情報１３が示す複数のノードを、行動集合の類似度に基づいてグループに分類する。情報処理装置１０は、同一のグループに含まれるノードに対して共通の行動集合を割り当てる。情報処理装置１０は、個別の行動集合に含まれる行動に代えて、グループ内で共通の行動集合に含まれる行動の評価値を算出し、共通の行動集合の確率分布を算出する。これにより、評価対象の行動集合が減少して評価値計算の負荷が軽減される。

【0028】

また、一定個数以上の同一の行動をもつノードなど、類似する行動集合をもつノードがグループ化されることで、グループ化を行わない場合の均衡解が高精度に近似される。また、グループに含まれる何れか１つのノードの行動集合がグループの行動集合として使用されることで、グループ内で行動集合が簡便的に共通化される。また、ある行動の評価値を算出する際に、他のノードの行動がサンプリング方式で行動集合の中から選択されることで、評価値の精度を維持しつつ評価関数の実行回数が抑制される。また、評価値の算出と確率分布の更新を繰り返すことで、高精度な均衡解が算出される。

【0029】

［第２の実施の形態］
次に、第２の実施の形態を説明する。
複数のプレイヤーがそれぞれ利得の最大化を目指して１つの戦略を確率的に選択する状況においては、競争を通じて各プレイヤーの混合戦略が一定の均衡解に収束することがある。第２の実施の形態の情報処理装置１００は、シミュレーションを通じてこの均衡解を探索する。情報処理装置１００が行う均衡解探索は、サプライチェーンのような大規模な社会システムの分析や制度設計に適用され得る。

【0030】

情報処理装置１００は、レプリケータダイナミクスや後悔最小ダイナミクスなどのダイナミクスアルゴリズムを実行して、混合戦略の均衡解を算出する。情報処理装置１００は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１００が、コンピュータ、均衡解探索装置またはシミュレーション装置と呼ばれてもよい。情報処理装置１００は、第１の実施の形態の情報処理装置１０に対応する。

【0031】

図２は、情報処理装置のハードウェア例を示すブロック図である。
情報処理装置１００は、バスに接続されたＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

【0032】

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムおよびデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。情報処理装置１００は、複数のプロセッサを有してもよい。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

【0033】

ＲＡＭ１０２は、ＣＰＵ１０１で実行されるプログラムおよびＣＰＵ１０１で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。情報処理装置１００は、ＲＡＭ以外の種類の揮発性メモリを有してもよい。

【0034】

ＨＤＤ１０３は、ＯＳ（Operating System）、ミドルウェア、アプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の不揮発性ストレージを有してもよい。

【0035】

ＧＰＵ１０４は、ＣＰＵ１０１と連携して画像処理を行い、情報処理装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイまたはプロジェクタである。なお、情報処理装置１００に、プリンタなどの他の種類の出力デバイスが接続されてもよい。

【0036】

また、ＧＰＵ１０４は、ＧＰＧＰＵ（General Purpose Computing on Graphics Processing Unit）として使用されてもよい。ＧＰＵ１０４は、ＣＰＵ１０１からの指示に応じてプログラムを実行し得る。情報処理装置１００は、ＲＡＭ１０２以外の揮発性半導体メモリを、ＧＰＵ１０４が使用するＧＰＵメモリとして有してもよい。

【0037】

入力インタフェース１０５は、情報処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２は、例えば、マウス、タッチパネルまたはキーボードである。情報処理装置１００に複数の入力デバイスが接続されてもよい。

【0038】

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムおよびデータを読み取る読み取り装置である。記録媒体１１３は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）およびＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）およびＤＶＤ（Digital Versatile Disc）が含まれる。媒体リーダ１０６は、記録媒体１１３から読み取られたプログラムおよびデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１によって実行されることがある。

【0039】

記録媒体１１３は、可搬型記録媒体であってもよい。記録媒体１１３は、プログラムおよびデータの配布に用いられることがある。また、記録媒体１１３およびＨＤＤ１０３が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

【0040】

通信インタフェース１０７は、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

【0041】

次に、シミュレーションの例としてサプライチェーンについて説明する。
図３は、シミュレーション上のプレイヤーの例を示す図である。
サプライチェーンは、プレイヤーとして製造業者３１，３２，３３および小売業者３４，３５，３６を含む。製造業者３１，３２，３３は、原料生産者から原料を仕入れて商品を製造し、小売業者３４，３５，３６に商品を販売する。小売業者３４，３５，３６は、製造業者３１，３２，３３から商品を仕入れ、消費者に商品を販売する。

【0042】

情報処理装置１００は、製造業者３１，３２，３３と小売業者３４，３５，３６との取引を通じて決まる取引価格および取引量を算出する。製造業者３１，３２，３３と小売業者３４，３５，３６との取引は、各プレイヤーが希望の取引価格および取引量を指定するダブルオークション方式によってモデル化される。製造業者３１，３２，３３は、希望販売価格および希望販売量を指定した売注文を送信する。小売業者３４，３５，３６は、希望購入価格および希望購入量を指定した買注文を送信する。

【0043】

製造業者３１，３２，３３および小売業者３４，３５，３６はそれぞれ、希望取引価格および希望取引量に関する混合戦略をもち、自身の混合戦略の中から確率的に１つの純粋戦略を選択する。各プレイヤーが選択し得る戦略は事前に規定される。各プレイヤーの混合戦略の確率分布は、レプリケータダイナミクスや後悔最小ダイナミクスなどのダイナミクスアルゴリズムによって算出される。

【0044】

あるプレイヤーの混合戦略を更新する場合、情報処理装置１００は、その時点の他プレイヤーの混合戦略を参照して、当該プレイヤーの混合戦略に含まれる複数の戦略それぞれの利得を算出する。利得は、その時点の他プレイヤーがもつ混合戦略のもとでの各戦略の有利さを示す。複数のプレイヤーが１つずつ戦略を選択して各プレイヤーの利得が１つ決まる利得計算は、１回のゲームとみなすことができる。情報処理装置１００は、算出された利得およびダイナミクスアルゴリズムに基づいて各戦略の確率を算出することで、混合戦略の確率分布を更新する。情報処理装置１００は、複数のプレイヤーについて、利得計算と確率分布の更新とを繰り返す。

【0045】

原料生産者および消費者は非プレイヤーである。ただし、原料生産者が販売する原料の原料価格は、事前に規定された正規分布に従ってランダムに変動しており、製造業者３１，３２，３３がコントロールしない外部環境に相当する。また、消費者が購入する商品の需要量は、事前に規定された正規分布に従ってランダムに変動しており、小売業者３４，３５，３６がコントロールしない外部環境に相当する。情報処理装置１００は、取引毎に原料価格および需要量を乱数で決定する。

【0046】

製造業者３１，３２，３３の利得は、小売業者３４，３５，３６に対する商品売上高と原料生産者からの原料仕入高との差である。小売業者３４，３５，３６の利得は、消費者に対する商品売上高と製造業者３１，３２，３３からの商品仕入高との差である。情報処理装置１００は、同一の戦略のもとで３０回の取引を連続して行った場合（例えば、１日１回の取引を３０日間行った場合）の利得を算出する。小売業者３４，３５，３６のもとには、需要不足によって商品在庫が残ることがある。商品在庫は翌日に繰り越される。

【0047】

図４は、戦略テーブルの例を示す図である。
戦略テーブル４１は、プレイヤーがもつ戦略集合を示す。異なるプレイヤーが同一の戦略集合をもつこともあるし、異なるプレイヤーが異なる戦略集合をもつこともある。また、異なるプレイヤーの戦略集合が同じ戦略を含むことがある。

【0048】

第２の実施の形態のサプライチェーンの例では、製造業者３１，３２，３３および小売業者３４，３５，３６はそれぞれ、５通りの価格と５通りの数量との組み合わせによって規定される２５個の戦略をもつ。各戦略は二次元ベクトルで表現される。製造業者３１，３２，３３および小売業者３４，３５，３６は、互いに異なる戦略集合をもつ。ただし、製造業者３１，３２，３３の戦略集合は同一の戦略を含んでおり、互いに類似する。また、小売業者３４，３５，３６の戦略集合は同一の戦略を含んでおり、互いに類似する。

【0049】

製造業者３１の戦略は、１００，１２５，１５０，１７５，２００の中から選択される販売価格と、６０，７０，８０，９０，１００の中から選択される販売量とを含む。製造業者３２の戦略は、１００，１２５，１５０，１７５，２００の中から選択される販売価格と、６０，７０，８０，９０，９９の中から選択される販売量とを含む。製造業者３３の戦略は、１００，１２５，１５０，１７５，２００の中から選択される販売価格と、６０，７０，８０，９０，１０１の中から選択される販売量とを含む。２５個の戦略のうち２０個は製造業者３１，３２，３３の間で共通である。

【0050】

小売業者３４の戦略は、１００，１２５，１５０，１７５，２００の中から選択される購入価格と、１００，１２０，１４０，１６０，１８０の中から選択される購入量とを含む。小売業者３５の戦略は、１００，１２５，１５０，１７５，２００の中から選択される購入価格と、１００，１２０，１４０，１６０，１９０の中から選択される購入量とを含む。小売業者３６の戦略は、１００，１２５，１５０，１７５，２００の中から選択される購入価格と、１００，１２０，１４０，１６０，１７０の中から選択される購入量とを含む。２５個の戦略のうち２０個は小売業者３４，３５，３６の間で共通である。小売業者３４，３５，３６の戦略集合は、製造業者３１と同じ戦略を５個含む。

【0051】

製造業者３１，３２，３３および小売業者３４，３５，３６がそれぞれ戦略を選択すると、オークションによって適正な取引価格および取引量が決定される。取引量はプレイヤーによって異なる一方、取引価格は複数のプレイヤーに共通な相場として決定される。相場は、証券取引の板寄せに準ずる方法で決定されてもよい。

【0052】

例えば、情報処理装置１００は、製造業者３１，３２，３３を希望販売価格の小さい順にソートし、小売業者３４，３５，３６を希望購入価格の大きい順にソートする。情報処理装置１００は、順位の高い製造業者から優先的に販売権利を付与し、順位の高い小売業者から優先的に購入権利を付与する。情報処理装置１００は、販売権利のある製造業者の希望販売価格と購入権利のある小売業者の希望購入価格とを比較し、希望販売価格が希望購入価格以下である場合に、その製造業者と小売業者との間の取引を成立させる。取引量は、希望販売量の未充足部分と希望購入量の未充足部分とのうちの小さい方である。

【0053】

情報処理装置１００は、販売権利のある製造業者の希望販売量が取引成立によって全て充足されると、販売権利を次の順位の製造業者に付与する。また、情報処理装置１００は、購入権利のある小売業者の希望購入量が取引成立によって全て充足されると、購入権利を次の順位の小売業者に付与する。情報処理装置１００は、製造業者３１，３２，３３全ての希望販売量が充足されるか、または、小売業者３４，３５，３６全ての希望購入量が充足されると、オークションを終了する。また、情報処理装置１００は、希望価格が合わずに取引が成立しなくなった場合、オークションを終了する。

【0054】

製造業者３１，３２，３３および小売業者３４，３５，３６の取引量は、上記の手順を通じてプレイヤー毎に成立した取引の取引量である。一方、製造業者３１，３２，３３および小売業者３４，３５，３６の取引価格は、取引の成立状況から算出される単一の相場である。製造業者３１，３２，３３の希望販売量の合計が小売業者３４，３５，３６の希望購入量の合計より小さい場合、取引価格は、最後に購入権利をもっていた小売業者の希望購入価格である。希望販売量の合計が希望購入量の合計より大きい場合、取引価格は、最後に販売権利をもっていた製造業者の希望販売価格である。

【0055】

上記の利得関数を用いて、情報処理装置１００は、製造業者３１，３２，３３および小売業者３４，３５，３６の競争を通じて到達する混合戦略の均衡解を探索する。この均衡解は、全てのプレイヤーにとって、自身の混合戦略を変更しても利得が向上しない均衡状態を示す。均衡解は、レプリケータダイナミクスにおける進化的に安定な戦略や、後悔最小ダイナミクスにおける粗相関均衡に相当する。

【0056】

レプリケータダイナミクスを用いる場合、情報処理装置１００は、戦略集合毎に、その戦略集合に含まれる複数の戦略の平均利得を算出する。平均利得は、各戦略の利得をその時点の確率で重み付けした加重平均利得である。なお、初期状態の確率分布は一様分布であり、複数の戦略が同じ確率をもつ。戦略数が２５個である場合、各戦略の確率の初期値は４％である。情報処理装置１００は、複数の戦略それぞれについて、平均利得に対する個別の利得の比を倍率として用いて確率を更新する。平均利得を超える利得をもつ戦略の確率が増大し、平均利得を下回る利得をもつ戦略の確率が減少する。

【0057】

後悔最小ダイナミクスを用いる場合、情報処理装置１００は、戦略集合毎に、その戦略集合に含まれる複数の戦略それぞれの後悔を算出する。後悔は、複数の戦略の中の最大利得と個別の利得との差であり、特定の戦略を選択することで生じる逸失利益に相当する。情報処理装置１００は、各戦略の確率を後悔に比例して減少させることで、複数の戦略の平均後悔が減少するように確率分布を更新する。

【0058】

ある世代における各戦略の利得を厳密に算出する場合、情報処理装置１００は、複数のプレイヤーが選択する戦略の組み合わせを網羅的に試行し、その世代において各組み合わせが生じる確率で利得を重み付けして期待利得を算出する。

【0059】

例えば、情報処理装置１００は、製造業者３１の１つの戦略の期待利得を算出する場合、製造業者３２，３３および小売業者３４，３５，３６に対して１つずつ戦略を選択し、その組み合わせのもとで１つの利得を算出する。また、情報処理装置１００は、製造業者３２，３３および小売業者３４，３５，３６が選択した５つの戦略の確率を乗じて、組み合わせの確率を算出する。情報処理装置１００は、上記のようにして製造業者３２，３３および小売業者３４，３５，３６の戦略の組み合わせを網羅的に試行し、組み合わせの確率で利得を重み付けして期待利得を算出する。情報処理装置１００は、製造業者３１，３２，３３および小売業者３４，３５，３６がもつ全ての戦略の期待利得を算出する。

【0060】

しかし、厳密に期待利得を算出すると、利得計算の回数が著しく多くなることがある。Ｎ人（Ｎは２以上の整数）のプレイヤーがそれぞれｎ個（ｎは２以上の整数）の戦略をもつ場合、１つの戦略の期待利得を算出するためのゲーム回数はｎ^Ｎ－１回である。全てのプレイヤーの全ての戦略の期待利得を算出するためのゲーム回数はＮ×ｎ^Ｎ回である。製造業者３１，３２，３３および小売業者３４，３５，３６はそれぞれ２５個の戦略をもつため、この場合のゲーム回数は６×２５^６＝１，４６４，８４３，７５０回になる。

【0061】

そこで、情報処理装置１００は、以下の２つの近似方法によって利得計算の回数を削減する。第１の近似方法として、情報処理装置１００は、複数のプレイヤーを戦略集合の類似度に基づいてグループ化し、同一グループに属するプレイヤーは同一の戦略集合をもつとみなす。これにより、利得を算出して確率分布を更新する対象となる混合戦略が減少し、その結果として利得計算の回数が減少する。

【0062】

また、第２の近似方法として、情報処理装置１００は、他プレイヤーの戦略の組み合わせを網羅的に抽出する代わりに、他プレイヤーの戦略を戦略集合から確率分布に従って複数回サンプリングする。情報処理装置１００は、サンプリング回数を、戦略の網羅的な組み合わせの個数より十分少ない回数に抑える。発生確率の小さい組み合わせは試行されない可能性が高い。これにより、１つの戦略の期待利得を算出するための利得計算の回数が減少する。なお、第１の近似方法は、自プレイヤーの戦略の選択回数を減らす近似方法であり、第２の近似方法は、他プレイヤーの戦略の選択回数を減らす近似方法である。

【0063】

図５は、グループ化後の戦略テーブルの例を示す図である。
戦略テーブル４２は、戦略テーブル４１に示す製造業者３１，３２，３３および小売業者３４，３５，３６をグループ化した結果を示す。前述のように、製造業者３１，３２，３３の戦略集合は２０個の同じ戦略を含んでおり、小売業者３４，３５，３６の戦略集合は２０個の同じ戦略を含んでいる。一方、小売業者３４，３５，３６の戦略集合は製造業者３１と同じ戦略を５個だけ含んでおり、製造業者３２，３３と同じ戦略を含んでいない。そこで、情報処理装置１００は、戦略集合の類似度に基づいて、製造業者３１，３２，３３を第１グループに分類し、小売業者３４，３５，３６を第２グループに分類する。

【0064】

情報処理装置１００は、グループ毎に１つの戦略集合を割り当てる。第２の実施の形態では、情報処理装置１００は、グループに含まれる何れか１つのプレイヤーの戦略集合を、そのグループの戦略集合として使用する。例えば、情報処理装置１００は、グループ内のプレイヤーのうち識別番号が最小のプレイヤーの戦略集合を使用する。戦略テーブル４２では、第１グループの戦略集合は製造業者３１の戦略集合であり、第２グループの戦略集合は小売業者３４の戦略集合である。

【0065】

これにより、情報処理装置１００は、製造業者３２，３３および小売業者３５，３６について利得計算を省略することができる。情報処理装置１００は、製造業者３１に対して混合戦略の確率分布を算出すると、その確率分布を製造業者３２，３３にコピーする。製造業者３２，３３は、製造業者３１と同じ確率分布に従って、製造業者３１と同じ戦略集合の中から確率的に戦略を選択することになる。また、情報処理装置１００は、小売業者３４に対して混合戦略の確率分布を算出すると、その確率分布を小売業者３５，３６にコピーする。小売業者３５，３６は、小売業者３４と同じ確率分布に従って、小売業者３４と同じ戦略集合の中から確率的に戦略を選択することになる。なお、第２の実施の形態では、戦略の個数はプレイヤー間で同一であることが好ましい。

【0066】

情報処理装置１００は、例えば、同じ戦略の個数に基づいて以下のように複数のプレイヤーをグループ化する。まず、情報処理装置１００は、ｍ＝１に初期化する（ｍは１以上の整数）。情報処理装置１００は、同じ戦略をｍ個以上もつ２以上のプレイヤーを同じグループに分類するという方針に従って、１以上のグループを生成する。例えば、情報処理装置１００は、全てのプレイヤーがもつ戦略を重複を除去して列挙し、全戦略の冪集合を生成する。情報処理装置１００は、冪集合からサイズがｍ以上の戦略の組み合わせを抽出し、その組み合わせを含むプレイヤーを抽出してグループ化する。情報処理装置１００は、生成されたグループの重複を除去して、ユニークな１以上のグループを特定する。

【0067】

情報処理装置１００は、２以上のグループに重複して含まれるプレイヤーが存在するか判定する。２以上のグループに含まれるプレイヤーが存在しない場合、情報処理装置１００は、そのｍによって分類されたグループを採用する。２以上のグループに含まれるプレイヤーが存在する場合、情報処理装置１００は、ｍを１つ大きくしてグループ化を再実行する。これにより、情報処理装置１００は、異なるグループの戦略集合が類似しない範囲で、できる限り少ない個数のグループにプレイヤーを分類することができる。

【0068】

図６は、確率テーブルの例を示す図である。
確率テーブル４３は、均衡解探索の途中で算出される確率分布を示す。第１グループは、価格＝１００，１２５，１５０，１７５，２００および数量＝６０，７０，８０，９０，１００によって規定される２５個の戦略をもつ。情報処理装置１００は、この２５個の戦略それぞれの確率を算出する。例えば、価格＝１００かつ数量＝６０の戦略の確率が１０％、価格１００＝かつ数量＝７０の戦略の確率が８％、価格＝２００かつ数量＝１００の戦略の確率が１％である。製造業者３１，３２，３３は、この戦略集合および確率分布によって規定される混合戦略を共有する。

【0069】

第２グループは、価格＝１００，１２５，１５０，１７５，２００および数量１００，１２０，１４０，１６０，１８０によって規定される２５個の戦略をもつ。情報処理装置１００は、この２５個の戦略それぞれの確率を算出する。例えば、価格＝１００かつ数量＝１００の戦略の確率が２％、価格１００＝かつ数量＝１２０の戦略の確率が１％、価格＝２００かつ数量＝１８０の戦略の確率が１０％である。小売業者３４，３５，３６は、この戦略集合および確率分布によって規定される混合戦略を共有する。

【0070】

図７は、混合戦略からの戦略のサンプリング例を示す図である。
ここでは、第１グループの１つの戦略の利得を算出する例を説明する。第１グループは混合戦略４４をもつ。混合戦略４４は、第１グループ内で共通化された戦略集合と、その戦略集合に含まれる各戦略の現世代における選択確率とを示す。第２グループは混合戦略４５をもつ。混合戦略４５は、第２グループ内で共通化された戦略集合と、その戦略集合に含まれる各戦略の現世代における選択確率とを示す。

【0071】

情報処理装置１００は、利得を算出する対象戦略を混合戦略４４から選択し、対象戦略を製造業者３１に割り当てる。例えば、情報処理装置１００は、価格＝１００かつ数量＝６０の戦略を製造業者３１に割り当てる。また、情報処理装置１００は、混合戦略４４からサンプリングによって１つずつ戦略を選択し、選択した戦略を製造業者３２，３３に割り当てる。例えば、情報処理装置１００は、価格＝１００かつ数量＝７０の戦略を製造業者３２に割り当て、価格＝１００かつ数量＝６０の戦略を製造業者３３に割り当てる。

【0072】

また、情報処理装置１００は、混合戦略４５からサンプリングによって１つずつ戦略を選択し、選択した戦略を小売業者３４，３５，３６に割り当てる。例えば、情報処理装置１００は、価格＝２００かつ数量＝１８０の戦略を小売業者３４，３５に割り当て、価格＝１００かつ数量＝１００の戦略を小売業者３６に割り当てる。

【0073】

サンプリングでは、確率分布に従ってランダムに１つの戦略が選択される。混合戦略４４からは、価格＝１００かつ数量＝６０の戦略が１０％の確率で選択され、価格＝１００かつ数量＝７０の戦略が８％の確率で選択され、価格＝２００かつ数量＝１００の戦略が１％の確率で選択される。混合戦略４５からは、価格＝１００かつ数量＝１００の戦略が２％の確率で選択され、価格＝１００かつ数量＝１２０の戦略が１％の確率で選択され、価格＝２００かつ数量＝１８０の戦略が１０％の確率で選択される。

【0074】

情報処理装置１００は、オークションを示す利得関数を用いて、製造業者３１，３２，３３および小売業者３４，３５，３６が選択した希望取引価格および希望取引量のもとで、製造業者３１の販売価格および販売量を算出する。情報処理装置１００は、算出した販売価格および販売量から、製造業者３１の利得を算出する。

【0075】

ここで、製造業者３２，３３および小売業者３４，３５，３６の戦略はサンプリングによって選択されるため、製造業者３１の１回の利得は偶然の影響を受ける。そこで、情報処理装置１００は、サンプリングを複数回繰り返し、複数回の利得を平均化した期待利得を算出する。情報処理装置１００は、算出された期待利得を、製造業者３１に割り当てた対象戦略の期待利得として保存する。例えば、情報処理装置１００は、価格＝１００かつ数量＝６０の戦略の期待利得を１１，２５０と算出する。

【0076】

情報処理装置１００は、混合戦略４４に含まれる全ての戦略の期待利得を、上記のように製造業者３１を自プレイヤーとして用いて算出する。同様に、情報処理装置１００は、混合戦略４５に含まれる全ての戦略の期待利得を、小売業者３４を自プレイヤーとして用いて算出する。この場合、他プレイヤーである製造業者３１，３２，３３および小売業者３５，３６の戦略は、サンプリングによって選択される。

【0077】

サンプリングによれば、他プレイヤーの戦略の組み合わせとして確率が大きい組み合わせは、複数回試行される可能性が高い。このため、全ての組み合わせを１回ずつ試行する場合よりも、個々の利得に対する乱数の影響が緩和され、期待利得の信頼性が向上する。

【0078】

ここで、グループ数をｇ、各グループの戦略数をｎ、サンプリングの最大繰り返し回数をＴとすると、全てのグループの全ての戦略の期待利得を算出するための最大ゲーム回数はｇ×ｎ×Ｔ回である。ｇ＝２，ｎ＝２５，Ｔ＝１００の場合、最大ゲーム回数は２×２５×１００＝５，０００回である。よって、グループ化およびサンプリングを行わない場合と比べて、ゲーム回数が３０万分の１に減少する。グループ化はゲーム回数を３分の１に削減し、サンプリングはゲーム回数を１０万分の１に削減する。

【0079】

次に、情報処理装置１００の機能および処理手順について説明する。
図８は、情報処理装置の機能例を示すブロック図である。
情報処理装置１００は、設定情報記憶部１２１、戦略記憶部１２２、グループ化部１２３、利得算出部１２４および確率更新部１２５を有する。設定情報記憶部１２１および戦略記憶部１２２は、例えば、ＲＡＭ１０２またはＨＤＤ１０３を用いて実装される。グループ化部１２３、利得算出部１２４および確率更新部１２５は、例えば、ＣＰＵ１０１およびプログラムを用いて実装される。

【0080】

設定情報記憶部１２１は、設定情報を記憶する。設定情報は、複数のプレイヤーそれぞれの当初の戦略集合と、利得を算出するための利得関数とを含む。例えば、戦略テーブル４１が設定情報記憶部１２１に記憶される。また、設定情報は、サンプリングの繰り返し回数の上限や混合戦略の世代の上限などのパラメータを含む。

【0081】

戦略記憶部１２２は、グループの情報と、各グループに割り当てられた戦略集合とを記憶する。例えば、戦略テーブル４２が戦略記憶部１２２に記憶される。また、戦略記憶部１２２は、グループの戦略それぞれに対して算出された利得と、各グループの混合戦略の確率分布とを記憶する。例えば、確率テーブル４３が戦略記憶部１２２に記憶される。

【0082】

グループ化部１２３は、期待利得を算出して確率を更新するイテレーションを開始する前に、複数のプレイヤーをグループ化する。グループ化部１２３は、設定情報に規定された戦略集合の類似度に基づいて複数のプレイヤーをグループに分類し、グループ毎に戦略集合を共通化する。同一グループ内のプレイヤーは同一の混合戦略に従って行動する。

【0083】

利得算出部１２４は、世代毎に、全てのグループの全ての戦略に対して期待利得を算出する。利得算出部１２４は、あるグループの１つの戦略の期待利得を算出する際、当該１つの戦略を１つのプレイヤーに割り当て、他プレイヤーに対しては確率分布に従ってサンプリングされた戦略を割り当てる。利得算出部１２４は、利得関数を用いて当該１つのプレイヤーの利得を算出する。このとき、外部環境を示す乱数が使用され得る。利得算出部１２４は、サンプリングを繰り返すことで当該１つの戦略の期待利得を算出する。

【0084】

確率更新部１２５は、世代毎に、利得算出部１２４によって算出された期待利得に基づいて、全てのグループの混合戦略を更新する。例えば、確率更新部１２５は、レプリケータダイナミクスに従って、期待利得が大きい戦略の確率が大きくなり期待利得が小さい戦略の確率が小さくなるように確率分布を調整する。確率更新部１２５は、全てのグループの混合戦略が収束したと判断するとイテレーションを停止し、最終世代の混合戦略を均衡解として出力する。確率更新部１２５は、均衡解を表示装置１１１に表示してもよいし、不揮発性ストレージに保存してもよいし、他の情報処理装置に送信してもよい。

【0085】

図９は、均衡解探索の手順例を示すフローチャートである。
（Ｓ１０）グループ化部１２３は、ｍ＝１に初期化する。
（Ｓ１１）グループ化部１２３は、複数のプレイヤーの当初の戦略集合を分析して、ｍ個以上の同一戦略をもつプレイヤーのグループを網羅的に抽出する。

【0086】

（Ｓ１２）グループ化部１２３は、ステップＳ１１で抽出されたグループのうち２以上のグループに含まれるプレイヤーが存在するか判断する。該当するプレイヤーが存在する場合、ステップＳ１３に処理が進む。該当するプレイヤーが存在しない場合、グループ化部１２３は直近のグループ分けを採用し、ステップＳ１４に処理が進む。

【0087】

（Ｓ１３）グループ化部１２３は、ｍを１だけ増加させる、すなわち、ｍ＝ｍ＋１に更新する。そして、ステップＳ１１に処理が戻る。
（Ｓ１４）グループ化部１２３は、グループ毎に、当該グループに含まれるプレイヤーの当初の戦略集合に基づいて当該グループの共通の戦略集合を決定する。例えば、グループ化部１２３は、グループ内の何れか１つのプレイヤーの戦略集合を、共通の戦略集合として採用する。確率更新部１２５は、各グループの確率分布を初期化する。初期の確率分布は一様分布であり、全ての戦略の確率が均一である。

【0088】

（Ｓ１５）利得算出部１２４は、１つのグループの１つの戦略を、期待利得を算出する対象戦略として選択する。利得算出部１２４は、当該グループに含まれる１つのプレイヤーを自プレイヤーとみなし、対象戦略を自プレイヤーに割り当てる。

【0089】

（Ｓ１６）利得算出部１２４は、他プレイヤーそれぞれの戦略を、当該他プレイヤーを含むグループの混合戦略の中から確率分布に従ってサンプリングする。利得算出部１２４は、サンプリングされた戦略を当該他プレイヤーに割り当てる。

【0090】

（Ｓ１７）利得算出部１２４は、複数のプレイヤーの戦略と事前に規定された利得関数とに基づいて、自プレイヤーの利得を算出する。
（Ｓ１８）利得算出部１２４は、ステップＳ１５の対象戦略に対してステップＳ１６，Ｓ１７のイテレーションによって算出された１以上の利得を平均化して、現時点の期待利得を算出する。利得算出部１２４は、前回からの期待利得の変化量が閾値未満であるか、または、ステップＳ１６，Ｓ１７の繰り返し回数が上限に達したか判断する。前者は、期待利得が収束したことを示す。条件を満たす場合はステップＳ１９に処理が進み、条件を満たさない場合はステップＳ１６に処理が戻る。

【0091】

（Ｓ１９）利得算出部１２４は、全てのグループの全ての戦略の期待利得を算出したか判断する。全ての戦略の期待利得を算出した場合はステップＳ２０に処理が進み、期待利得を算出していない戦略がある場合はステップＳ１５に処理が戻る。

【0092】

（Ｓ２０）確率更新部１２５は、グループ毎に、当該グループの戦略集合に含まれる２以上の戦略の期待利得に基づいて、それら２以上の戦略の確率分布を更新する。
（Ｓ２１）確率更新部１２５は、全てのグループの確率分布が収束したか判断する。例えば、確率更新部１２５は、確率分布を２以上の戦略の確率を列挙したベクトルとみなし、グループ毎に前回の確率分布と今回の確率分布との間のユークリッド距離を算出する。確率更新部１２５は、全てのグループについて距離が閾値未満である場合、確率分布が収束したと判断する。確率分布が収束した場合、確率更新部１２５は収束した確率分布をもつ混合戦略を均衡解として出力し、均衡解探索が終了する。

【0093】

確率分布が収束していない場合、ステップＳ１５に処理が戻り、利得算出部１２４は更新された確率分布に基づいて全ての戦略の利得を再計算する。ただし、確率更新部１２５は、世代数が上限に達した場合には確率分布の更新を停止してもよい。

【0094】

以上説明したように、第２の実施の形態の情報処理装置１００は、複数のプレイヤーを当初の戦略集合の類似度に基づいてグループ化し、同一グループ内のプレイヤーの戦略集合を統一する。そして、情報処理装置１００は、グループ毎に１つの混合戦略を算出し、グループ内のプレイヤーは同一の混合戦略に従って行動するものとみなす。これにより、各世代で更新される混合戦略が減少して利得計算の回数が減少する。また、情報処理装置１００は、類似する戦略集合をもつプレイヤーを同一グループに分類するため、グループ内で戦略集合を統一しても混合戦略の近似解を高精度に算出できる。

【0095】

また、情報処理装置１００は、ある戦略の利得を算出する際に、競争相手の戦略をその時点の確率分布に従ってランダムに選択する。情報処理装置１００は、相手戦略の組み合わせを網羅的に抽出する場合よりも少ないサンプリング回数で、戦略の期待利得を算出する。これにより、期待利得の精度を維持しつつ利得計算の回数が減少する。また、相手戦略が確率に従って選択されるため、選択確率の高い相手戦略に対しては利得が複数回算出されることが多い。このため、期待利得への乱数の影響が軽減されて、少ないサンプリング回数で効率的に、信頼度の高い期待利得が算出される。

【符号の説明】

【0096】

１０情報処理装置
１１記憶部
１２処理部
１３ノード情報
１４ａ，１４ｂ，１４ｃノード
１５ａ，１５ｂ，１５ｃ，１７行動集合
１６グループ
１８確率分布

【図1】