IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-128112均衡解探索プログラム、均衡解探索方法および情報処理装置
<>
  • 特開-均衡解探索プログラム、均衡解探索方法および情報処理装置 図1
  • 特開-均衡解探索プログラム、均衡解探索方法および情報処理装置 図2
  • 特開-均衡解探索プログラム、均衡解探索方法および情報処理装置 図3
  • 特開-均衡解探索プログラム、均衡解探索方法および情報処理装置 図4
  • 特開-均衡解探索プログラム、均衡解探索方法および情報処理装置 図5
  • 特開-均衡解探索プログラム、均衡解探索方法および情報処理装置 図6
  • 特開-均衡解探索プログラム、均衡解探索方法および情報処理装置 図7
  • 特開-均衡解探索プログラム、均衡解探索方法および情報処理装置 図8
  • 特開-均衡解探索プログラム、均衡解探索方法および情報処理装置 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023128112
(43)【公開日】2023-09-14
(54)【発明の名称】均衡解探索プログラム、均衡解探索方法および情報処理装置
(51)【国際特許分類】
   G06Q 10/04 20230101AFI20230907BHJP
【FI】
G06Q10/04
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022032230
(22)【出願日】2022-03-03
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002918
【氏名又は名称】弁理士法人扶桑国際特許事務所
(72)【発明者】
【氏名】檀 隼人
(72)【発明者】
【氏名】小川 雅俊
(72)【発明者】
【氏名】本間 克己
(72)【発明者】
【氏名】石川 菜月
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049AA04
(57)【要約】
【課題】均衡解探索における評価値計算の負荷を軽減する。
【解決手段】情報処理装置10は、ノード14a,14b,14cに対応する行動集合15a,15b,15cを示すノード情報13を用いて、行動集合15a,15,15cの間の類似度に基づいて、ノード14a,14bを含むグループ16を判定する。情報処理装置10は、グループ16に対して行動集合17を割り当てる。情報処理装置10は、ノード14a,14bに対応する行動集合15a,15bに含まれる行動に代えて、行動集合17に含まれる行動それぞれの評価値を算出する。情報処理装置10は、評価値に基づいて、行動集合17に含まれる行動の確率分布18を算出する。
【選択図】図1
【特許請求の範囲】
【請求項1】
選択し得る2以上の行動をそれぞれ含む、複数のノードに対応する複数の第1の行動集合を示すノード情報を用いて、前記複数の第1の行動集合の間の類似度に基づいて、前記複数のノードのうちの2以上のノードを含むグループを判定し、
前記グループに対して第2の行動集合を割り当て、
前記2以上のノードに対応する2以上の第1の行動集合に含まれる行動に代えて、前記第2の行動集合に含まれる行動それぞれの評価値を算出し、
前記評価値に基づいて、前記第2の行動集合に含まれる行動の確率分布を算出する、
処理をコンピュータに実行させる均衡解探索プログラム。
【請求項2】
前記グループの判定では、前記2以上の第1の行動集合が一定個数以上の同一の行動を含む場合に、前記2以上のノードを前記グループに分類する、
請求項1記載の均衡解探索プログラム。
【請求項3】
前記第2の行動集合は、前記2以上の第1の行動集合のうちの何れか1つである、
請求項1記載の均衡解探索プログラム。
【請求項4】
前記評価値の算出では、前記2以上のノードのうちの第1のノードに対して、前記第2の行動集合の中から前記評価値を算出する対象行動を選択し、前記2以上のノードのうちの第2のノードに対して、前記第2の行動集合の中からランダムに行動を選択する、
請求項1記載の均衡解探索プログラム。
【請求項5】
前記評価値の算出では、前記2以上のノードのうちの第1のノードに対して、前記第2の行動集合の中から前記評価値を算出する対象行動を選択し、前記2以上のノードのうちの第2のノードに対して、前記第2の行動集合の中からランダムに行動を選択する算出処理を繰り返し、前回の前記算出処理の結果と今回の前記算出処理の結果との変化量が所定の範囲内となる場合に、今回の前記算出処理の結果を前記評価値として出力する、
請求項1記載の均衡解探索プログラム。
【請求項6】
前記確率分布に基づいて、前記第2の行動集合に含まれる行動それぞれの前記評価値を更新し、更新された前記評価値に基づいて、前記第2の行動集合に含まれる行動の前記確率分布を更新する、処理を前記コンピュータに更に実行させる、
請求項1記載の均衡解探索プログラム。
【請求項7】
選択し得る2以上の行動をそれぞれ含む、複数のノードに対応する複数の第1の行動集合を示すノード情報を用いて、前記複数の第1の行動集合の間の類似度に基づいて、前記複数のノードのうちの2以上のノードを含むグループを判定し、
前記グループに対して第2の行動集合を割り当て、
前記2以上のノードに対応する2以上の第1の行動集合に含まれる行動に代えて、前記第2の行動集合に含まれる行動それぞれの評価値を算出し、
前記評価値に基づいて、前記第2の行動集合に含まれる行動の確率分布を算出する、
処理をコンピュータが実行する均衡解探索方法。
【請求項8】
選択し得る2以上の行動をそれぞれ含む、複数のノードに対応する複数の第1の行動集合を示すノード情報を記憶する記憶部と、
前記ノード情報を用いて、前記複数の第1の行動集合の間の類似度に基づいて、前記複数のノードのうちの2以上のノードを含むグループを判定し、前記グループに対して第2の行動集合を割り当て、前記2以上のノードに対応する2以上の第1の行動集合に含まれる行動に代えて、前記第2の行動集合に含まれる行動それぞれの評価値を算出し、前記評価値に基づいて、前記第2の行動集合に含まれる行動の確率分布を算出する処理部と、
を有する情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は均衡解探索プログラム、均衡解探索方法および情報処理装置に関する。
【背景技術】
【0002】
情報処理装置は、複数のノードそれぞれが複数の行動の候補の中から1つの行動を確率的に選択する状況について、それら複数の行動の確率分布の均衡解を探索することがある。上記のシミュレーション構造は、進化ゲーム理論と呼ばれることがある。ある確率分布のもとで組み合わされる複数の行動は、混合戦略と呼ばれることがある。
【0003】
例えば、レプリケータダイナミクスや後悔最小ダイナミクスなどのダイナミクス計算は、ある確率分布のもとで複数の行動それぞれの評価値を算出し、算出された評価値に基づいて確率分布を更新する。レプリケータダイナミクスは、平均評価値より大きい評価値をもつ行動の確率を増加させ、平均評価値より小さい評価値をもつ行動の確率を減少させる。後悔最小ダイナミクスは、ある行動の評価値と複数の行動の中の最大評価値との差を後悔と解釈し、平均後悔が減少するように確率分布を更新する。
【0004】
なお、ネットワークに接続された複数の計算機それぞれが、タスクを自身で実行するか他の計算機に依頼するかを、ゲーム理論を用いて自律的に判断する行動決定方法が提案されている。また、ミニマックス法とナッシュ均衡とを統合した戦略を用いてジョブのスケジューリングを行うスケジューリング方法が提案されている。また、競争相手の行動に関するデータをネットワークから収集し、ベイジアンゲーム理論に基づいて協調競争戦略を策定する戦略策定方法が提案されている。また、複数の応募者と複数の応募対象とのマッチングを、部分ゲーム完全均衡を求めることで行うマッチング方法が提案されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平9-297690号公報
【特許文献2】米国特許出願公開第2012/0315966号明細書
【特許文献3】米国特許出願公開第2017/0169378号明細書
【特許文献4】特開2019-67158号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
情報処理装置は、複数のノードが異なる行動集合をもつ状況について均衡解探索を行うことがある。その場合、情報処理装置は、全てのノードの全ての行動の候補それぞれに対して評価値を算出し、全てのノードの行動集合の確率分布を算出することが考えられる。しかし、その場合には、情報処理装置は、多数の行動の候補に対して評価値を算出することになり、評価値計算の負荷が高くなることがある。そこで、1つの側面では、本発明は、均衡解探索における評価値計算の負荷を軽減することを目的とする。
【課題を解決するための手段】
【0007】
1つの態様では、コンピュータに以下の処理を実行させる均衡解探索プログラムが提供される。選択し得る2以上の行動をそれぞれ含む、複数のノードに対応する複数の第1の行動集合を示すノード情報を用いて、複数の第1の行動集合の間の類似度に基づいて、複数のノードのうちの2以上のノードを含むグループを判定する。グループに対して第2の行動集合を割り当てる。2以上のノードに対応する2以上の第1の行動集合に含まれる行動に代えて、第2の行動集合に含まれる行動それぞれの評価値を算出する。評価値に基づいて、第2の行動集合に含まれる行動の確率分布を算出する。
【0008】
また、1つの態様では、コンピュータが実行する均衡解探索方法が提供される。また、1つの態様では、記憶部と処理部とを有する情報処理装置が提供される。
【発明の効果】
【0009】
1つの側面では、均衡解探索における評価値計算の負荷が軽減される。
【図面の簡単な説明】
【0010】
図1】第1の実施の形態の情報処理装置を説明するための図である。
図2】情報処理装置のハードウェア例を示すブロック図である。
図3】シミュレーション上のプレイヤーの例を示す図である。
図4】戦略テーブルの例を示す図である。
図5】グループ化後の戦略テーブルの例を示す図である。
図6】確率テーブルの例を示す図である。
図7】混合戦略からの戦略のサンプリング例を示す図である。
図8】情報処理装置の機能例を示すブロック図である。
図9】均衡解探索の手順例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本実施の形態を図面を参照して説明する。
[第1の実施の形態]
第1の実施の形態を説明する。
【0012】
図1は、第1の実施の形態の情報処理装置を説明するための図である。
第1の実施の形態の情報処理装置10は、複数のノードそれぞれが複数の行動の候補の中から1つの行動を確率的に選択する状況について、それら複数の行動の確率分布の均衡解を探索する。情報処理装置10は、各行動の評価値を算出し、評価値に基づいて各行動が選択される確率を算出する。評価値から確率分布を算出するアルゴリズムとして、レプリケータダイナミクスまたは後悔最小ダイナミクスが用いられてもよい。情報処理装置10は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置10が、コンピュータ、均衡解探索装置またはシミュレーション装置と呼ばれてもよい。
【0013】
情報処理装置10は、記憶部11および処理部12を有する。記憶部11は、RAM(Random Access Memory)などの揮発性半導体メモリでもよいし、HDD(Hard Disk Drive)やフラッシュメモリなどの不揮発性ストレージでもよい。処理部12は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)などのプロセッサである。ただし、処理部12が、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの電子回路を含んでもよい。プロセッサは、例えば、RAMなどのメモリ(記憶部11でもよい)に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。
【0014】
記憶部11は、ノード情報13を記憶する。ノード情報13は、ノード14a,14b,14cなどの複数のノードと、行動集合15a,15b,15cなどの複数の行動集合とを対応付ける。ノードは、シミュレーション上の意思決定主体を表し、プレイヤーと呼ばれることがある。ただし、ノードがコンピュータなどの物理装置に対応してもよい。行動集合は、ノードが選択し得る2以上の行動を含む。行動は戦略と呼ばれることがあり、行動集合は戦略集合と呼ばれることがある。
【0015】
行動集合15aは、ノード14aが選択し得る行動を示す。例えば、行動集合15aは行動A,B,Cを含む。行動集合15bは、ノード14bが選択し得る行動を示す。例えば、行動集合15bは行動A,B,Dを含む。行動集合15cはノード14cが選択し得る行動を示す。例えば、行動集合15cは行動A,E,Fを含む。このように、異なる行動集合に同一の行動が含まれることがある。なお、行動集合15a,15b,15cに含まれる行動の個数は、同一であることが好ましい。
【0016】
処理部12は、ノード情報13が示すシミュレーション条件のもとで、ノード14a,14b,14cが選択する行動の確率分布の近似解を算出する。確率分布が付された行動集合は、混合戦略と呼ばれることがある。まず、処理部12は、ノード情報13が示す複数の行動集合の間の類似度に基づいて、複数のノードのうちの2以上のノードを含むグループ16を判定する。例えば、処理部12は、一定数以上の同一の行動を含む2以上の行動集合を検出し、検出された2以上の行動集合に対応する2以上のノードをグループ16に分類する。図1の例では、処理部12は、行動集合15a,15bが類似しているため、ノード14a,14bをグループ16に分類する。
【0017】
処理部12は、グループ16に対して行動集合17を割り当てる。割り当てられた行動集合17は、ノード情報13が示す行動集合15a,15bに代わって、グループ16に含まれるノード14a,14bが共通に使用する行動集合である。これにより、ノード14a,14bが選択し得る行動が共通化される。行動集合17は、行動集合15a,15bと同じ個数の行動を含むことが好ましい。
【0018】
行動集合17は、グループ16に含まれる何れか1つのノードの行動集合であってもよい。何れか1つのノードは、グループ16に含まれる2以上のノードのうちの最も小さいノード番号をもつノードであってもよい。例えば、行動集合17は、ノード14aの行動集合15aと同じである。その場合、行動集合17は行動A,B,Cを含む。これにより、ノード14bが選択し得る行動が、ノード14aが選択し得る行動によって近似される。ただし、処理部12は、グループ16に含まれるノード14a,14bに対応する行動集合15a,15bを合成することで、行動集合17を生成してもよい。
【0019】
処理部12は、ノード14a,14b,14cが依拠する行動集合それぞれについて、その行動集合に含まれる2以上の行動それぞれの評価値を算出する。評価値は、事前に規定された評価関数に基づいて算出される。評価値は利得と呼ばれてもよく、評価関数は利得関数と呼ばれてもよい。このとき、グループ16については、処理部12は、行動集合15a,15bに含まれる行動それぞれの評価値を算出する代わりに、行動集合17に含まれる行動それぞれの評価値を算出する。これにより、評価対象の行動集合が減少する。
【0020】
例えば、処理部12は、ノード14a,14b,14cに対して1つずつ行動を選択し、選択されたノード14a,14b,14cの行動のもとで、ある行動の有利さを示す評価値を算出する。このとき、処理部12は、行動集合17の中から評価値を算出する対象行動を選択してノード14aに割り当て、行動集合17の中からランダムに1つの行動を選択してノード14bに割り当ててもよい。行動集合17に対して確率分布が既に付与されている場合、処理部12は、確率分布に従って1つの行動を選択してもよい。ランダムに1つの行動を選択することが、サンプリングと呼ばれてもよい。
【0021】
また、処理部12は、グループ16に含まれないノード14cに対して、行動集合15cの中からランダムに1つの行動を選択して割り当ててもよい。ただし、ノード14cが別のグループに含まれていてもよく、処理部12は、別のグループに対応する行動集合の中からランダムに1つの行動を選択してノード14cに割り当ててもよい。上記の行動選択のもとで、処理部12は、ノード14aが選択した対象行動の評価値を算出する。
【0022】
処理部12は、行動集合17に含まれる2以上の行動それぞれの評価値に基づいて、それら2以上の行動の確率を列挙した確率分布18を算出する。2以上の行動の確率の和は1である。確率分布18を算出するアルゴリズムとして、処理部12は、レプリケータダイナミクスまたは後悔最小ダイナミクスを使用してもよい。
【0023】
例えば、処理部12は、行動集合17に含まれる2以上の行動の評価値の平均を算出する。平均評価値は、個々の評価値を確率で重み付けした加重平均評価値でもよい。処理部12は、平均評価値より大きい評価値をもつ行動の確率を増加させ、平均評価値より小さい評価値をもつ行動の確率を減少させる。また、例えば、処理部12は、ある行動の評価値と行動集合17に含まれる2以上の行動の中の最大評価値との差を後悔と解釈し、平均後悔が減少するように各行動の確率を更新する。
【0024】
一例として、確率分布18は、行動Aの確率が60%、行動Bの確率が30%、行動Cの確率が10%であることを示す。グループ16に含まれるノード14a,14bは、確率分布18に従って、行動集合17の中から確率的に1つの行動を選択するものとみなされる。このとき、ノード情報13が示す行動集合15a,15bに対応する確率分布は算出されなくてよい。処理部12は、ノード14aに対して算出された確率分布18を、ノード14bにコピーしていると解釈することもできる。
【0025】
なお、処理部12は、行動集合17に含まれる行動それぞれの評価値の更新と、行動集合17に対応する確率分布18の更新とを、反復的に実行してもよい。また、処理部12は、グループ16に含まれないノード14cが依拠する行動集合についても、各行動の評価値を算出して確率分布を算出してもよい。
【0026】
処理部12は、ノード14a,14b,14cが選択する行動の確率分布の均衡解を出力する。グループ16に含まれるノード14a,14bに対しては、同一の均衡解が算出される。処理部12は、均衡解を表示装置に表示してもよいし、不揮発性ストレージに保存してもよいし、他の情報処理装置に送信してもよい。
【0027】
以上説明したように、第1の実施の形態の情報処理装置10は、ノード情報13が示す複数のノードを、行動集合の類似度に基づいてグループに分類する。情報処理装置10は、同一のグループに含まれるノードに対して共通の行動集合を割り当てる。情報処理装置10は、個別の行動集合に含まれる行動に代えて、グループ内で共通の行動集合に含まれる行動の評価値を算出し、共通の行動集合の確率分布を算出する。これにより、評価対象の行動集合が減少して評価値計算の負荷が軽減される。
【0028】
また、一定個数以上の同一の行動をもつノードなど、類似する行動集合をもつノードがグループ化されることで、グループ化を行わない場合の均衡解が高精度に近似される。また、グループに含まれる何れか1つのノードの行動集合がグループの行動集合として使用されることで、グループ内で行動集合が簡便的に共通化される。また、ある行動の評価値を算出する際に、他のノードの行動がサンプリング方式で行動集合の中から選択されることで、評価値の精度を維持しつつ評価関数の実行回数が抑制される。また、評価値の算出と確率分布の更新を繰り返すことで、高精度な均衡解が算出される。
【0029】
[第2の実施の形態]
次に、第2の実施の形態を説明する。
複数のプレイヤーがそれぞれ利得の最大化を目指して1つの戦略を確率的に選択する状況においては、競争を通じて各プレイヤーの混合戦略が一定の均衡解に収束することがある。第2の実施の形態の情報処理装置100は、シミュレーションを通じてこの均衡解を探索する。情報処理装置100が行う均衡解探索は、サプライチェーンのような大規模な社会システムの分析や制度設計に適用され得る。
【0030】
情報処理装置100は、レプリケータダイナミクスや後悔最小ダイナミクスなどのダイナミクスアルゴリズムを実行して、混合戦略の均衡解を算出する。情報処理装置100は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置100が、コンピュータ、均衡解探索装置またはシミュレーション装置と呼ばれてもよい。情報処理装置100は、第1の実施の形態の情報処理装置10に対応する。
【0031】
図2は、情報処理装置のハードウェア例を示すブロック図である。
情報処理装置100は、バスに接続されたCPU101、RAM102、HDD103、GPU104、入力インタフェース105、媒体リーダ106および通信インタフェース107を有する。CPU101は、第1の実施の形態の処理部12に対応する。RAM102またはHDD103は、第1の実施の形態の記憶部11に対応する。
【0032】
CPU101は、プログラムの命令を実行するプロセッサである。CPU101は、HDD103に記憶されたプログラムおよびデータの少なくとも一部をRAM102にロードし、プログラムを実行する。情報処理装置100は、複数のプロセッサを有してもよい。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。
【0033】
RAM102は、CPU101で実行されるプログラムおよびCPU101で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。情報処理装置100は、RAM以外の種類の揮発性メモリを有してもよい。
【0034】
HDD103は、OS(Operating System)、ミドルウェア、アプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。情報処理装置100は、フラッシュメモリやSSD(Solid State Drive)などの他の種類の不揮発性ストレージを有してもよい。
【0035】
GPU104は、CPU101と連携して画像処理を行い、情報処理装置100に接続された表示装置111に画像を出力する。表示装置111は、例えば、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイまたはプロジェクタである。なお、情報処理装置100に、プリンタなどの他の種類の出力デバイスが接続されてもよい。
【0036】
また、GPU104は、GPGPU(General Purpose Computing on Graphics Processing Unit)として使用されてもよい。GPU104は、CPU101からの指示に応じてプログラムを実行し得る。情報処理装置100は、RAM102以外の揮発性半導体メモリを、GPU104が使用するGPUメモリとして有してもよい。
【0037】
入力インタフェース105は、情報処理装置100に接続された入力デバイス112から入力信号を受け付ける。入力デバイス112は、例えば、マウス、タッチパネルまたはキーボードである。情報処理装置100に複数の入力デバイスが接続されてもよい。
【0038】
媒体リーダ106は、記録媒体113に記録されたプログラムおよびデータを読み取る読み取り装置である。記録媒体113は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク(FD:Flexible Disk)およびHDDが含まれる。光ディスクには、CD(Compact Disc)およびDVD(Digital Versatile Disc)が含まれる。媒体リーダ106は、記録媒体113から読み取られたプログラムおよびデータを、RAM102やHDD103などの他の記録媒体にコピーする。読み取られたプログラムは、CPU101によって実行されることがある。
【0039】
記録媒体113は、可搬型記録媒体であってもよい。記録媒体113は、プログラムおよびデータの配布に用いられることがある。また、記録媒体113およびHDD103が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。
【0040】
通信インタフェース107は、ネットワーク114を介して他の情報処理装置と通信する。通信インタフェース107は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。
【0041】
次に、シミュレーションの例としてサプライチェーンについて説明する。
図3は、シミュレーション上のプレイヤーの例を示す図である。
サプライチェーンは、プレイヤーとして製造業者31,32,33および小売業者34,35,36を含む。製造業者31,32,33は、原料生産者から原料を仕入れて商品を製造し、小売業者34,35,36に商品を販売する。小売業者34,35,36は、製造業者31,32,33から商品を仕入れ、消費者に商品を販売する。
【0042】
情報処理装置100は、製造業者31,32,33と小売業者34,35,36との取引を通じて決まる取引価格および取引量を算出する。製造業者31,32,33と小売業者34,35,36との取引は、各プレイヤーが希望の取引価格および取引量を指定するダブルオークション方式によってモデル化される。製造業者31,32,33は、希望販売価格および希望販売量を指定した売注文を送信する。小売業者34,35,36は、希望購入価格および希望購入量を指定した買注文を送信する。
【0043】
製造業者31,32,33および小売業者34,35,36はそれぞれ、希望取引価格および希望取引量に関する混合戦略をもち、自身の混合戦略の中から確率的に1つの純粋戦略を選択する。各プレイヤーが選択し得る戦略は事前に規定される。各プレイヤーの混合戦略の確率分布は、レプリケータダイナミクスや後悔最小ダイナミクスなどのダイナミクスアルゴリズムによって算出される。
【0044】
あるプレイヤーの混合戦略を更新する場合、情報処理装置100は、その時点の他プレイヤーの混合戦略を参照して、当該プレイヤーの混合戦略に含まれる複数の戦略それぞれの利得を算出する。利得は、その時点の他プレイヤーがもつ混合戦略のもとでの各戦略の有利さを示す。複数のプレイヤーが1つずつ戦略を選択して各プレイヤーの利得が1つ決まる利得計算は、1回のゲームとみなすことができる。情報処理装置100は、算出された利得およびダイナミクスアルゴリズムに基づいて各戦略の確率を算出することで、混合戦略の確率分布を更新する。情報処理装置100は、複数のプレイヤーについて、利得計算と確率分布の更新とを繰り返す。
【0045】
原料生産者および消費者は非プレイヤーである。ただし、原料生産者が販売する原料の原料価格は、事前に規定された正規分布に従ってランダムに変動しており、製造業者31,32,33がコントロールしない外部環境に相当する。また、消費者が購入する商品の需要量は、事前に規定された正規分布に従ってランダムに変動しており、小売業者34,35,36がコントロールしない外部環境に相当する。情報処理装置100は、取引毎に原料価格および需要量を乱数で決定する。
【0046】
製造業者31,32,33の利得は、小売業者34,35,36に対する商品売上高と原料生産者からの原料仕入高との差である。小売業者34,35,36の利得は、消費者に対する商品売上高と製造業者31,32,33からの商品仕入高との差である。情報処理装置100は、同一の戦略のもとで30回の取引を連続して行った場合(例えば、1日1回の取引を30日間行った場合)の利得を算出する。小売業者34,35,36のもとには、需要不足によって商品在庫が残ることがある。商品在庫は翌日に繰り越される。
【0047】
図4は、戦略テーブルの例を示す図である。
戦略テーブル41は、プレイヤーがもつ戦略集合を示す。異なるプレイヤーが同一の戦略集合をもつこともあるし、異なるプレイヤーが異なる戦略集合をもつこともある。また、異なるプレイヤーの戦略集合が同じ戦略を含むことがある。
【0048】
第2の実施の形態のサプライチェーンの例では、製造業者31,32,33および小売業者34,35,36はそれぞれ、5通りの価格と5通りの数量との組み合わせによって規定される25個の戦略をもつ。各戦略は二次元ベクトルで表現される。製造業者31,32,33および小売業者34,35,36は、互いに異なる戦略集合をもつ。ただし、製造業者31,32,33の戦略集合は同一の戦略を含んでおり、互いに類似する。また、小売業者34,35,36の戦略集合は同一の戦略を含んでおり、互いに類似する。
【0049】
製造業者31の戦略は、100,125,150,175,200の中から選択される販売価格と、60,70,80,90,100の中から選択される販売量とを含む。製造業者32の戦略は、100,125,150,175,200の中から選択される販売価格と、60,70,80,90,99の中から選択される販売量とを含む。製造業者33の戦略は、100,125,150,175,200の中から選択される販売価格と、60,70,80,90,101の中から選択される販売量とを含む。25個の戦略のうち20個は製造業者31,32,33の間で共通である。
【0050】
小売業者34の戦略は、100,125,150,175,200の中から選択される購入価格と、100,120,140,160,180の中から選択される購入量とを含む。小売業者35の戦略は、100,125,150,175,200の中から選択される購入価格と、100,120,140,160,190の中から選択される購入量とを含む。小売業者36の戦略は、100,125,150,175,200の中から選択される購入価格と、100,120,140,160,170の中から選択される購入量とを含む。25個の戦略のうち20個は小売業者34,35,36の間で共通である。小売業者34,35,36の戦略集合は、製造業者31と同じ戦略を5個含む。
【0051】
製造業者31,32,33および小売業者34,35,36がそれぞれ戦略を選択すると、オークションによって適正な取引価格および取引量が決定される。取引量はプレイヤーによって異なる一方、取引価格は複数のプレイヤーに共通な相場として決定される。相場は、証券取引の板寄せに準ずる方法で決定されてもよい。
【0052】
例えば、情報処理装置100は、製造業者31,32,33を希望販売価格の小さい順にソートし、小売業者34,35,36を希望購入価格の大きい順にソートする。情報処理装置100は、順位の高い製造業者から優先的に販売権利を付与し、順位の高い小売業者から優先的に購入権利を付与する。情報処理装置100は、販売権利のある製造業者の希望販売価格と購入権利のある小売業者の希望購入価格とを比較し、希望販売価格が希望購入価格以下である場合に、その製造業者と小売業者との間の取引を成立させる。取引量は、希望販売量の未充足部分と希望購入量の未充足部分とのうちの小さい方である。
【0053】
情報処理装置100は、販売権利のある製造業者の希望販売量が取引成立によって全て充足されると、販売権利を次の順位の製造業者に付与する。また、情報処理装置100は、購入権利のある小売業者の希望購入量が取引成立によって全て充足されると、購入権利を次の順位の小売業者に付与する。情報処理装置100は、製造業者31,32,33全ての希望販売量が充足されるか、または、小売業者34,35,36全ての希望購入量が充足されると、オークションを終了する。また、情報処理装置100は、希望価格が合わずに取引が成立しなくなった場合、オークションを終了する。
【0054】
製造業者31,32,33および小売業者34,35,36の取引量は、上記の手順を通じてプレイヤー毎に成立した取引の取引量である。一方、製造業者31,32,33および小売業者34,35,36の取引価格は、取引の成立状況から算出される単一の相場である。製造業者31,32,33の希望販売量の合計が小売業者34,35,36の希望購入量の合計より小さい場合、取引価格は、最後に購入権利をもっていた小売業者の希望購入価格である。希望販売量の合計が希望購入量の合計より大きい場合、取引価格は、最後に販売権利をもっていた製造業者の希望販売価格である。
【0055】
上記の利得関数を用いて、情報処理装置100は、製造業者31,32,33および小売業者34,35,36の競争を通じて到達する混合戦略の均衡解を探索する。この均衡解は、全てのプレイヤーにとって、自身の混合戦略を変更しても利得が向上しない均衡状態を示す。均衡解は、レプリケータダイナミクスにおける進化的に安定な戦略や、後悔最小ダイナミクスにおける粗相関均衡に相当する。
【0056】
レプリケータダイナミクスを用いる場合、情報処理装置100は、戦略集合毎に、その戦略集合に含まれる複数の戦略の平均利得を算出する。平均利得は、各戦略の利得をその時点の確率で重み付けした加重平均利得である。なお、初期状態の確率分布は一様分布であり、複数の戦略が同じ確率をもつ。戦略数が25個である場合、各戦略の確率の初期値は4%である。情報処理装置100は、複数の戦略それぞれについて、平均利得に対する個別の利得の比を倍率として用いて確率を更新する。平均利得を超える利得をもつ戦略の確率が増大し、平均利得を下回る利得をもつ戦略の確率が減少する。
【0057】
後悔最小ダイナミクスを用いる場合、情報処理装置100は、戦略集合毎に、その戦略集合に含まれる複数の戦略それぞれの後悔を算出する。後悔は、複数の戦略の中の最大利得と個別の利得との差であり、特定の戦略を選択することで生じる逸失利益に相当する。情報処理装置100は、各戦略の確率を後悔に比例して減少させることで、複数の戦略の平均後悔が減少するように確率分布を更新する。
【0058】
ある世代における各戦略の利得を厳密に算出する場合、情報処理装置100は、複数のプレイヤーが選択する戦略の組み合わせを網羅的に試行し、その世代において各組み合わせが生じる確率で利得を重み付けして期待利得を算出する。
【0059】
例えば、情報処理装置100は、製造業者31の1つの戦略の期待利得を算出する場合、製造業者32,33および小売業者34,35,36に対して1つずつ戦略を選択し、その組み合わせのもとで1つの利得を算出する。また、情報処理装置100は、製造業者32,33および小売業者34,35,36が選択した5つの戦略の確率を乗じて、組み合わせの確率を算出する。情報処理装置100は、上記のようにして製造業者32,33および小売業者34,35,36の戦略の組み合わせを網羅的に試行し、組み合わせの確率で利得を重み付けして期待利得を算出する。情報処理装置100は、製造業者31,32,33および小売業者34,35,36がもつ全ての戦略の期待利得を算出する。
【0060】
しかし、厳密に期待利得を算出すると、利得計算の回数が著しく多くなることがある。N人(Nは2以上の整数)のプレイヤーがそれぞれn個(nは2以上の整数)の戦略をもつ場合、1つの戦略の期待利得を算出するためのゲーム回数はnN-1回である。全てのプレイヤーの全ての戦略の期待利得を算出するためのゲーム回数はN×n回である。製造業者31,32,33および小売業者34,35,36はそれぞれ25個の戦略をもつため、この場合のゲーム回数は6×25=1,464,843,750回になる。
【0061】
そこで、情報処理装置100は、以下の2つの近似方法によって利得計算の回数を削減する。第1の近似方法として、情報処理装置100は、複数のプレイヤーを戦略集合の類似度に基づいてグループ化し、同一グループに属するプレイヤーは同一の戦略集合をもつとみなす。これにより、利得を算出して確率分布を更新する対象となる混合戦略が減少し、その結果として利得計算の回数が減少する。
【0062】
また、第2の近似方法として、情報処理装置100は、他プレイヤーの戦略の組み合わせを網羅的に抽出する代わりに、他プレイヤーの戦略を戦略集合から確率分布に従って複数回サンプリングする。情報処理装置100は、サンプリング回数を、戦略の網羅的な組み合わせの個数より十分少ない回数に抑える。発生確率の小さい組み合わせは試行されない可能性が高い。これにより、1つの戦略の期待利得を算出するための利得計算の回数が減少する。なお、第1の近似方法は、自プレイヤーの戦略の選択回数を減らす近似方法であり、第2の近似方法は、他プレイヤーの戦略の選択回数を減らす近似方法である。
【0063】
図5は、グループ化後の戦略テーブルの例を示す図である。
戦略テーブル42は、戦略テーブル41に示す製造業者31,32,33および小売業者34,35,36をグループ化した結果を示す。前述のように、製造業者31,32,33の戦略集合は20個の同じ戦略を含んでおり、小売業者34,35,36の戦略集合は20個の同じ戦略を含んでいる。一方、小売業者34,35,36の戦略集合は製造業者31と同じ戦略を5個だけ含んでおり、製造業者32,33と同じ戦略を含んでいない。そこで、情報処理装置100は、戦略集合の類似度に基づいて、製造業者31,32,33を第1グループに分類し、小売業者34,35,36を第2グループに分類する。
【0064】
情報処理装置100は、グループ毎に1つの戦略集合を割り当てる。第2の実施の形態では、情報処理装置100は、グループに含まれる何れか1つのプレイヤーの戦略集合を、そのグループの戦略集合として使用する。例えば、情報処理装置100は、グループ内のプレイヤーのうち識別番号が最小のプレイヤーの戦略集合を使用する。戦略テーブル42では、第1グループの戦略集合は製造業者31の戦略集合であり、第2グループの戦略集合は小売業者34の戦略集合である。
【0065】
これにより、情報処理装置100は、製造業者32,33および小売業者35,36について利得計算を省略することができる。情報処理装置100は、製造業者31に対して混合戦略の確率分布を算出すると、その確率分布を製造業者32,33にコピーする。製造業者32,33は、製造業者31と同じ確率分布に従って、製造業者31と同じ戦略集合の中から確率的に戦略を選択することになる。また、情報処理装置100は、小売業者34に対して混合戦略の確率分布を算出すると、その確率分布を小売業者35,36にコピーする。小売業者35,36は、小売業者34と同じ確率分布に従って、小売業者34と同じ戦略集合の中から確率的に戦略を選択することになる。なお、第2の実施の形態では、戦略の個数はプレイヤー間で同一であることが好ましい。
【0066】
情報処理装置100は、例えば、同じ戦略の個数に基づいて以下のように複数のプレイヤーをグループ化する。まず、情報処理装置100は、m=1に初期化する(mは1以上の整数)。情報処理装置100は、同じ戦略をm個以上もつ2以上のプレイヤーを同じグループに分類するという方針に従って、1以上のグループを生成する。例えば、情報処理装置100は、全てのプレイヤーがもつ戦略を重複を除去して列挙し、全戦略の冪集合を生成する。情報処理装置100は、冪集合からサイズがm以上の戦略の組み合わせを抽出し、その組み合わせを含むプレイヤーを抽出してグループ化する。情報処理装置100は、生成されたグループの重複を除去して、ユニークな1以上のグループを特定する。
【0067】
情報処理装置100は、2以上のグループに重複して含まれるプレイヤーが存在するか判定する。2以上のグループに含まれるプレイヤーが存在しない場合、情報処理装置100は、そのmによって分類されたグループを採用する。2以上のグループに含まれるプレイヤーが存在する場合、情報処理装置100は、mを1つ大きくしてグループ化を再実行する。これにより、情報処理装置100は、異なるグループの戦略集合が類似しない範囲で、できる限り少ない個数のグループにプレイヤーを分類することができる。
【0068】
図6は、確率テーブルの例を示す図である。
確率テーブル43は、均衡解探索の途中で算出される確率分布を示す。第1グループは、価格=100,125,150,175,200および数量=60,70,80,90,100によって規定される25個の戦略をもつ。情報処理装置100は、この25個の戦略それぞれの確率を算出する。例えば、価格=100かつ数量=60の戦略の確率が10%、価格100=かつ数量=70の戦略の確率が8%、価格=200かつ数量=100の戦略の確率が1%である。製造業者31,32,33は、この戦略集合および確率分布によって規定される混合戦略を共有する。
【0069】
第2グループは、価格=100,125,150,175,200および数量100,120,140,160,180によって規定される25個の戦略をもつ。情報処理装置100は、この25個の戦略それぞれの確率を算出する。例えば、価格=100かつ数量=100の戦略の確率が2%、価格100=かつ数量=120の戦略の確率が1%、価格=200かつ数量=180の戦略の確率が10%である。小売業者34,35,36は、この戦略集合および確率分布によって規定される混合戦略を共有する。
【0070】
図7は、混合戦略からの戦略のサンプリング例を示す図である。
ここでは、第1グループの1つの戦略の利得を算出する例を説明する。第1グループは混合戦略44をもつ。混合戦略44は、第1グループ内で共通化された戦略集合と、その戦略集合に含まれる各戦略の現世代における選択確率とを示す。第2グループは混合戦略45をもつ。混合戦略45は、第2グループ内で共通化された戦略集合と、その戦略集合に含まれる各戦略の現世代における選択確率とを示す。
【0071】
情報処理装置100は、利得を算出する対象戦略を混合戦略44から選択し、対象戦略を製造業者31に割り当てる。例えば、情報処理装置100は、価格=100かつ数量=60の戦略を製造業者31に割り当てる。また、情報処理装置100は、混合戦略44からサンプリングによって1つずつ戦略を選択し、選択した戦略を製造業者32,33に割り当てる。例えば、情報処理装置100は、価格=100かつ数量=70の戦略を製造業者32に割り当て、価格=100かつ数量=60の戦略を製造業者33に割り当てる。
【0072】
また、情報処理装置100は、混合戦略45からサンプリングによって1つずつ戦略を選択し、選択した戦略を小売業者34,35,36に割り当てる。例えば、情報処理装置100は、価格=200かつ数量=180の戦略を小売業者34,35に割り当て、価格=100かつ数量=100の戦略を小売業者36に割り当てる。
【0073】
サンプリングでは、確率分布に従ってランダムに1つの戦略が選択される。混合戦略44からは、価格=100かつ数量=60の戦略が10%の確率で選択され、価格=100かつ数量=70の戦略が8%の確率で選択され、価格=200かつ数量=100の戦略が1%の確率で選択される。混合戦略45からは、価格=100かつ数量=100の戦略が2%の確率で選択され、価格=100かつ数量=120の戦略が1%の確率で選択され、価格=200かつ数量=180の戦略が10%の確率で選択される。
【0074】
情報処理装置100は、オークションを示す利得関数を用いて、製造業者31,32,33および小売業者34,35,36が選択した希望取引価格および希望取引量のもとで、製造業者31の販売価格および販売量を算出する。情報処理装置100は、算出した販売価格および販売量から、製造業者31の利得を算出する。
【0075】
ここで、製造業者32,33および小売業者34,35,36の戦略はサンプリングによって選択されるため、製造業者31の1回の利得は偶然の影響を受ける。そこで、情報処理装置100は、サンプリングを複数回繰り返し、複数回の利得を平均化した期待利得を算出する。情報処理装置100は、算出された期待利得を、製造業者31に割り当てた対象戦略の期待利得として保存する。例えば、情報処理装置100は、価格=100かつ数量=60の戦略の期待利得を11,250と算出する。
【0076】
情報処理装置100は、混合戦略44に含まれる全ての戦略の期待利得を、上記のように製造業者31を自プレイヤーとして用いて算出する。同様に、情報処理装置100は、混合戦略45に含まれる全ての戦略の期待利得を、小売業者34を自プレイヤーとして用いて算出する。この場合、他プレイヤーである製造業者31,32,33および小売業者35,36の戦略は、サンプリングによって選択される。
【0077】
サンプリングによれば、他プレイヤーの戦略の組み合わせとして確率が大きい組み合わせは、複数回試行される可能性が高い。このため、全ての組み合わせを1回ずつ試行する場合よりも、個々の利得に対する乱数の影響が緩和され、期待利得の信頼性が向上する。
【0078】
ここで、グループ数をg、各グループの戦略数をn、サンプリングの最大繰り返し回数をTとすると、全てのグループの全ての戦略の期待利得を算出するための最大ゲーム回数はg×n×T回である。g=2,n=25,T=100の場合、最大ゲーム回数は2×25×100=5,000回である。よって、グループ化およびサンプリングを行わない場合と比べて、ゲーム回数が30万分の1に減少する。グループ化はゲーム回数を3分の1に削減し、サンプリングはゲーム回数を10万分の1に削減する。
【0079】
次に、情報処理装置100の機能および処理手順について説明する。
図8は、情報処理装置の機能例を示すブロック図である。
情報処理装置100は、設定情報記憶部121、戦略記憶部122、グループ化部123、利得算出部124および確率更新部125を有する。設定情報記憶部121および戦略記憶部122は、例えば、RAM102またはHDD103を用いて実装される。グループ化部123、利得算出部124および確率更新部125は、例えば、CPU101およびプログラムを用いて実装される。
【0080】
設定情報記憶部121は、設定情報を記憶する。設定情報は、複数のプレイヤーそれぞれの当初の戦略集合と、利得を算出するための利得関数とを含む。例えば、戦略テーブル41が設定情報記憶部121に記憶される。また、設定情報は、サンプリングの繰り返し回数の上限や混合戦略の世代の上限などのパラメータを含む。
【0081】
戦略記憶部122は、グループの情報と、各グループに割り当てられた戦略集合とを記憶する。例えば、戦略テーブル42が戦略記憶部122に記憶される。また、戦略記憶部122は、グループの戦略それぞれに対して算出された利得と、各グループの混合戦略の確率分布とを記憶する。例えば、確率テーブル43が戦略記憶部122に記憶される。
【0082】
グループ化部123は、期待利得を算出して確率を更新するイテレーションを開始する前に、複数のプレイヤーをグループ化する。グループ化部123は、設定情報に規定された戦略集合の類似度に基づいて複数のプレイヤーをグループに分類し、グループ毎に戦略集合を共通化する。同一グループ内のプレイヤーは同一の混合戦略に従って行動する。
【0083】
利得算出部124は、世代毎に、全てのグループの全ての戦略に対して期待利得を算出する。利得算出部124は、あるグループの1つの戦略の期待利得を算出する際、当該1つの戦略を1つのプレイヤーに割り当て、他プレイヤーに対しては確率分布に従ってサンプリングされた戦略を割り当てる。利得算出部124は、利得関数を用いて当該1つのプレイヤーの利得を算出する。このとき、外部環境を示す乱数が使用され得る。利得算出部124は、サンプリングを繰り返すことで当該1つの戦略の期待利得を算出する。
【0084】
確率更新部125は、世代毎に、利得算出部124によって算出された期待利得に基づいて、全てのグループの混合戦略を更新する。例えば、確率更新部125は、レプリケータダイナミクスに従って、期待利得が大きい戦略の確率が大きくなり期待利得が小さい戦略の確率が小さくなるように確率分布を調整する。確率更新部125は、全てのグループの混合戦略が収束したと判断するとイテレーションを停止し、最終世代の混合戦略を均衡解として出力する。確率更新部125は、均衡解を表示装置111に表示してもよいし、不揮発性ストレージに保存してもよいし、他の情報処理装置に送信してもよい。
【0085】
図9は、均衡解探索の手順例を示すフローチャートである。
(S10)グループ化部123は、m=1に初期化する。
(S11)グループ化部123は、複数のプレイヤーの当初の戦略集合を分析して、m個以上の同一戦略をもつプレイヤーのグループを網羅的に抽出する。
【0086】
(S12)グループ化部123は、ステップS11で抽出されたグループのうち2以上のグループに含まれるプレイヤーが存在するか判断する。該当するプレイヤーが存在する場合、ステップS13に処理が進む。該当するプレイヤーが存在しない場合、グループ化部123は直近のグループ分けを採用し、ステップS14に処理が進む。
【0087】
(S13)グループ化部123は、mを1だけ増加させる、すなわち、m=m+1に更新する。そして、ステップS11に処理が戻る。
(S14)グループ化部123は、グループ毎に、当該グループに含まれるプレイヤーの当初の戦略集合に基づいて当該グループの共通の戦略集合を決定する。例えば、グループ化部123は、グループ内の何れか1つのプレイヤーの戦略集合を、共通の戦略集合として採用する。確率更新部125は、各グループの確率分布を初期化する。初期の確率分布は一様分布であり、全ての戦略の確率が均一である。
【0088】
(S15)利得算出部124は、1つのグループの1つの戦略を、期待利得を算出する対象戦略として選択する。利得算出部124は、当該グループに含まれる1つのプレイヤーを自プレイヤーとみなし、対象戦略を自プレイヤーに割り当てる。
【0089】
(S16)利得算出部124は、他プレイヤーそれぞれの戦略を、当該他プレイヤーを含むグループの混合戦略の中から確率分布に従ってサンプリングする。利得算出部124は、サンプリングされた戦略を当該他プレイヤーに割り当てる。
【0090】
(S17)利得算出部124は、複数のプレイヤーの戦略と事前に規定された利得関数とに基づいて、自プレイヤーの利得を算出する。
(S18)利得算出部124は、ステップS15の対象戦略に対してステップS16,S17のイテレーションによって算出された1以上の利得を平均化して、現時点の期待利得を算出する。利得算出部124は、前回からの期待利得の変化量が閾値未満であるか、または、ステップS16,S17の繰り返し回数が上限に達したか判断する。前者は、期待利得が収束したことを示す。条件を満たす場合はステップS19に処理が進み、条件を満たさない場合はステップS16に処理が戻る。
【0091】
(S19)利得算出部124は、全てのグループの全ての戦略の期待利得を算出したか判断する。全ての戦略の期待利得を算出した場合はステップS20に処理が進み、期待利得を算出していない戦略がある場合はステップS15に処理が戻る。
【0092】
(S20)確率更新部125は、グループ毎に、当該グループの戦略集合に含まれる2以上の戦略の期待利得に基づいて、それら2以上の戦略の確率分布を更新する。
(S21)確率更新部125は、全てのグループの確率分布が収束したか判断する。例えば、確率更新部125は、確率分布を2以上の戦略の確率を列挙したベクトルとみなし、グループ毎に前回の確率分布と今回の確率分布との間のユークリッド距離を算出する。確率更新部125は、全てのグループについて距離が閾値未満である場合、確率分布が収束したと判断する。確率分布が収束した場合、確率更新部125は収束した確率分布をもつ混合戦略を均衡解として出力し、均衡解探索が終了する。
【0093】
確率分布が収束していない場合、ステップS15に処理が戻り、利得算出部124は更新された確率分布に基づいて全ての戦略の利得を再計算する。ただし、確率更新部125は、世代数が上限に達した場合には確率分布の更新を停止してもよい。
【0094】
以上説明したように、第2の実施の形態の情報処理装置100は、複数のプレイヤーを当初の戦略集合の類似度に基づいてグループ化し、同一グループ内のプレイヤーの戦略集合を統一する。そして、情報処理装置100は、グループ毎に1つの混合戦略を算出し、グループ内のプレイヤーは同一の混合戦略に従って行動するものとみなす。これにより、各世代で更新される混合戦略が減少して利得計算の回数が減少する。また、情報処理装置100は、類似する戦略集合をもつプレイヤーを同一グループに分類するため、グループ内で戦略集合を統一しても混合戦略の近似解を高精度に算出できる。
【0095】
また、情報処理装置100は、ある戦略の利得を算出する際に、競争相手の戦略をその時点の確率分布に従ってランダムに選択する。情報処理装置100は、相手戦略の組み合わせを網羅的に抽出する場合よりも少ないサンプリング回数で、戦略の期待利得を算出する。これにより、期待利得の精度を維持しつつ利得計算の回数が減少する。また、相手戦略が確率に従って選択されるため、選択確率の高い相手戦略に対しては利得が複数回算出されることが多い。このため、期待利得への乱数の影響が軽減されて、少ないサンプリング回数で効率的に、信頼度の高い期待利得が算出される。
【符号の説明】
【0096】
10 情報処理装置
11 記憶部
12 処理部
13 ノード情報
14a,14b,14c ノード
15a,15b,15c,17 行動集合
16 グループ
18 確率分布
図1
図2
図3
図4
図5
図6
図7
図8
図9