(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-12
(45)【発行日】2024-11-20
(54)【発明の名称】電子ゲーム評価装置、電子ゲーム評価プログラム及び電子ゲーム評価方法
(51)【国際特許分類】
A63F 13/58 20140101AFI20241113BHJP
A63F 13/57 20140101ALI20241113BHJP
A63F 13/5375 20140101ALI20241113BHJP
【FI】
A63F13/58
A63F13/57
A63F13/5375
(21)【出願番号】P 2020037247
(22)【出願日】2020-03-04
【審査請求日】2022-12-26
(73)【特許権者】
【識別番号】599115217
【氏名又は名称】株式会社 ディー・エヌ・エー
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】甲野 佑
(72)【発明者】
【氏名】田中 一樹
【審査官】三村 拓哉
(56)【参考文献】
【文献】特開2019-197592(JP,A)
【文献】強化学習等による『逆転オセロニア』対戦環境バランス設計支援,DeNA Engineering Blog[online],2020年09月24日,[検索日:2023年11月28日], <URL: https://engineering.dena.com/blog/2020/09/cedec2020-othellonia-ai/>,特に本文を参照
【文献】(CEDEC2019)人工知能にテストプレイを丸投げできるか? ,モリカトロンAIラボ[online],2019年09月24日,[検索日:2023年11月28日], <URL: https://morikatron.ai/2019/09/cedec2019_gree/>,特に本文を参照
【文献】AIによる汎用的バランス調整とその可視化 グリムノーツRepage,スクウェアエニックス ウェブサイト[online],2018年08月23日,[検索日:2023年11月28日], <URL: http://www.jp.square-enix.com/tech/library/pdf/cedec2018_manabe_awaji_protected.pdf>,特に本文を参照
(58)【調査した分野】(Int.Cl.,DB名)
A63F 9/24、13/00-13/98
(57)【特許請求の範囲】
【請求項1】
オブジェクトを用いた対戦型の電子ゲームを評価する電子ゲーム評価装置であって、
複数の既存のオブジェクトを示す特徴ベクトルをクラスタリングし
た集合
の中から前記既存のオブジェクト
とは異なる
ベクトルを代表ベクトル
として決定し、前記代表ベクトルに対応するオブジェクトを電子ゲームで使用したときに電子ゲームで得られる所定の種類の報酬についての期待報酬の確率を示す期待報酬分布に基づいて最も高い期待報酬を有する前記代表ベクトルを代替ベクトルとして選択し、前記代替ベクトルに対応するオブジェクトを新たなオブジェクトとする表現ベクトル探索手段と、
既存の戦略学習器を利用して前記新たなオブジェクトを含むデッキと前記新たなオブジェクトを含まないデッキとの間で電子ゲームの対戦を行う対戦評価手段と、
前記対戦における結果として得られた前記所定の種類の報酬に応じて前記代替ベクトルとして選択された前記代表ベクトルに対する前記所定の種類の報酬についての期待報酬分布を更新する期待報酬分布更新手段と、
を備え、
前記代表ベクトルに対して前記所定の種類の報酬について前記期待報酬分布の初期値を設定し、前記代表ベクトルの1つを前記代替ベクトルとして選択し、
前記対戦評価手段において、選択された前記代替ベクトルに対応するオブジェクトを前記新たなオブジェクトとして、前記新たなオブジェクトを含むデッキと前記新たなオブジェクトを含まないデッキとの間で電子ゲームの対戦を行い、
前記期待報酬分布更新手段において、当該対戦における結果として得られた前記所定の種類の報酬に応じて前記代替ベクトルとして選択された前記代表ベクトルに対する前記所定の種類の報酬についての期待報酬分布を更新し、
前記表現ベクトル探索手段において、当該更新された前記代表ベクトルに対する前記所定の種類の報酬についての期待報酬分布に基づいて最も高い期待報酬を有する前記代表ベクトルを新たな前記代替ベクトルとして選択する、
という処理を繰り返すことによって、前記新たなオブジェクトを加えた際の電子ゲームのバランスの変化を評価することを特徴とする電子ゲーム評価装置。
【請求項2】
請求項1に記載の電子ゲーム評価装置であって、
前記対戦評価手段において得られた対戦評価の結果に基づく統計値をユーザに提示する評価手段を備えることを特徴とする電子ゲーム評価装置。
【請求項3】
請求項1又は2に記載の電子ゲーム評価装置であって、
前記所定の種類の報酬は、電子ゲームにおける勝率であり、前記期待報酬は、電子ゲームにおける期待勝率であり、
前記期待報酬分布更新手段は、前記対戦評価手段における対戦の勝敗に応じて前記代表ベクトルに対する期待報酬分布を更新することを特徴とする電子ゲーム評価装置。
【請求項4】
請求項1~3のいずれか1項に記載の電子ゲーム評価装置であって、
前記オブジェクトは、電子ゲームにおいて使用されるキャラクタであり、
前記対戦評価手段は、前記新たなオブジェクトとして新たなキャラクタと既存のキャラクタとを組み合わせた電子ゲーム上のデッキと、前記新たなキャラクタを含まず、既存のキャラクタを組み合わせた電子ゲーム上のデッキと、を対戦させたときの対戦評価を行うことを特徴とする電子ゲーム評価装置。
【請求項5】
オブジェクトを用いた対戦型の電子ゲームを評価する電子ゲーム評価プログラムであって、
コンピュータを、
複数の既存のオブジェクトを示す特徴ベクトルをクラスタリングし
た集合
の中から前記既存のオブジェクト
とは異なる
ベクトルを代表ベクトル
として決定し、前記代表ベクトルに対応するオブジェクトを電子ゲームで使用したときに電子ゲームで得られる所定の種類の報酬についての期待報酬の確率を示す期待報酬分布に基づいて最も高い期待報酬を有する前記代表ベクトルを代替ベクトルとして選択し、前記代替ベクトルに対応するオブジェクトを新たなオブジェクトとする表現ベクトル探索手段と、
既存の戦略学習器を利用して前記新たなオブジェクトを含むデッキと前記新たなオブジェクトを含まないデッキとの間で電子ゲームの対戦を行う対戦評価手段と、
前記対戦における結果として得られた前記所定の種類の報酬に応じて前記代替ベクトルとして選択された前記代表ベクトルに対する前記所定の種類の報酬についての期待報酬分布を更新する期待報酬分布更新手段と、
として機能させ、
前記代表ベクトルに対して前記所定の種類の報酬について前記期待報酬分布の初期値を設定し、前記代表ベクトルの1つを前記代替ベクトルとして選択し、
前記対戦評価手段において、選択された前記代替ベクトルに対応するオブジェクトを前記新たなオブジェクトとして、前記新たなオブジェクトを含むデッキと前記新たなオブジェクトを含まないデッキとの間で電子ゲームの対戦を行い、
前記期待報酬分布更新手段において、当該対戦における結果として得られた前記所定の種類の報酬に応じて前記代替ベクトルとして選択された前記代表ベクトルに対する前記所定の種類の報酬についての期待報酬分布を更新し、
前記表現ベクトル探索手段において、当該更新された前記代表ベクトルに対する前記所定の種類の報酬についての期待報酬分布に基づいて最も高い期待報酬を有する前記代表ベクトルを新たな前記代替ベクトルとして選択する、
という処理を繰り返すことによって、前記新たなオブジェクトを加えた際の電子ゲームのバランスの変化を評価することを特徴とする電子ゲーム評価プログラム。
【請求項6】
オブジェクトを用いた対戦型の電子ゲームを評価する電子ゲーム評価方法であって、
複数の既存のオブジェクトを示す特徴ベクトルをクラスタリングし
た集合
の中から前記既存のオブジェクト
とは異なる
ベクトルを代表ベクトル
として決定し、前記代表ベクトルに対して前記所定の種類の報酬について前記期待報酬分布の初期値を設定し、前記代表ベクトルの1つを前記代替ベクトルとして選択し、前記代替ベクトルに対応するオブジェクトを新たなオブジェクトとし、
既存の戦略学習器を利用して前記新たなオブジェクトを含むデッキと前記新たなオブジェクトを含まないデッキとの間で電子ゲームの対戦を行う対戦評価ステップと、
前記対戦における結果として得られた前記所定の種類の報酬に応じて前記代替ベクトルとして選択された前記代表ベクトルに対する前記所定の種類の報酬についての期待報酬分布を更新する期待報酬分布更新ステップと、
当該更新された前記代表ベクトルに対する前記所定の種類の報酬についての期待報酬分布に基づいて最も高い期待報酬を有する前記代表ベクトルを新たな前記代替ベクトルとして選択する表現ベクトル探索ステップと、
を繰り返すことによって、前記新たなオブジェクトを加えた際の電子ゲームのバランスの変化を評価する電子ゲーム評価方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子ゲーム評価装置、電子ゲーム評価プログラム及び電子ゲーム評価方法に関する。
【背景技術】
【0002】
異なるゲーム上のパラメータを有する複数種のキャラクタを用いて進行される電子ゲームが知られている。このような電子ゲームでは、キャラクタに割り当てられたゲーム上のパラメータがゲームの進行を決定する大きな要因となっている。したがって、極端に強いキャラクタが存在することによって、電子ゲームの進行のバランスが崩れてしまうおそれがある。
【0003】
そこで、電子ゲームに新たなキャラクタを投入したときには、当該キャラクタの投入による電子ゲームへの影響を評価する必要がある。例えば、新たなキャラクタを実際に電子ゲームで使用可能にしてプレイさせ、プレイログを蓄積して、当該プレイログを用いた教師あり学習によりキャラクタの評価を行う方法が用いられている。また、強化学習を用いてキャラクタを用いて電子ゲームをプレイする人工知能エージェントを学習する方法が用いられている(特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、従来技術では、新しいキャラクタを実際にゲームに投入しなければ評価ができない。また、強化学習を用いた場合、学習の精度が上がりにくく、学習に膨大な時間が掛かるおそれがある。したがって、新たなキャラクタを投入する前に当該キャラクタの特性を効果的に評価する技術が必要とされている。
【課題を解決するための手段】
【0006】
本発明の1つの態様は、対戦型の電子ゲームを評価する電子ゲーム評価装置であって、評価対象とするオブジェクトを示す特徴ベクトルをクラスタリングし、クラスタリングされた特徴ベクトルの集合から代表ベクトルを決定し、前記代表ベクトルに対応するオブジェクトに対して電子ゲームで得られる期待報酬の確率を示す期待報酬分布に基づいて前記代表ベクトルの1つを代替ベクトルとして選択し、前記代替ベクトルに対応するオブジェクトを新たなオブジェクトとする表現ベクトル探索手段と、既存の戦略学習器を利用して前記新たなオブジェクトを含む電子ゲーム上の状態と前記新たなオブジェクトを含まない電子ゲーム上の状態と対戦評価を行う対戦評価手段と、前記対戦評価手段による対戦評価の結果に応じて前記代替ベクトルとして選択された前記代表ベクトルに対する期待報酬分布を更新する期待報酬分布更新手段と、を備え、上記表現ベクトル探索手段、前記対戦評価手段及び前記期待報酬分布更新手段における処理を繰り返すことを特徴とする電子ゲーム評価装置である。
【0007】
本発明の別の態様は、対戦型の電子ゲームを評価する電子ゲーム評価プログラムであって、コンピュータを、評価対象とするオブジェクトを示す特徴ベクトルをクラスタリングし、クラスタリングされた特徴ベクトルの集合から代表ベクトルを決定し、前記代表ベクトルに対応するオブジェクトに対して電子ゲームで得られる期待報酬の確率を示す期待報酬分布に基づいて前記代表ベクトルの1つを代替ベクトルとして選択し、前記代替ベクトルに対応するオブジェクトを新たなオブジェクトとする表現ベクトル探索手段と、既存の戦略学習器を利用して前記新たなオブジェクトを含む電子ゲーム上の状態と前記新たなオブジェクトを含まない電子ゲーム上の状態と対戦評価を行う対戦評価手段と、前記対戦評価手段による対戦評価の結果に応じて前記代替ベクトルとして選択された前記代表ベクトルに対する期待報酬分布を更新する期待報酬分布更新手段と、として機能させ、上記表現ベクトル探索手段、前記対戦評価手段及び前記期待報酬分布更新手段における処理を繰り返すことを特徴とする電子ゲーム評価プログラムである。
【0008】
本発明の別の態様は、対戦型の電子ゲームを評価する電子ゲーム評価方法であって、評価対象とするオブジェクトを示す特徴ベクトルをクラスタリングし、クラスタリングされた特徴ベクトルの集合から代表ベクトルを決定し、前記代表ベクトルに対応するオブジェクトに対して電子ゲームで得られる期待報酬の確率を示す期待報酬分布に基づいて前記代表ベクトルの1つを代替ベクトルとして選択し、前記代替ベクトルに対応するオブジェクトを新たなオブジェクトとする表現ベクトル探索ステップと、既存の戦略学習器を利用して前記新たなオブジェクトを含む電子ゲーム上の状態と前記新たなオブジェクトを含まない電子ゲーム上の状態と対戦評価を行う対戦評価ステップと、前記対戦評価ステップによる対戦評価の結果に応じて前記代替ベクトルとして選択された前記代表ベクトルに対する期待報酬分布を更新する期待報酬分布更新ステップと、を備え、上記表現ベクトル探索ステップ、前記対戦評価ステップ及び前記期待報酬分布更新ステップにおける処理を繰り返すことを特徴とする電子ゲーム評価方法である。
【0009】
ここで、前記対戦評価手段において得られた対戦評価の結果に基づく統計値をユーザに提示する評価手段を備えることが好適である。
【0010】
また、前記期待報酬は、電子ゲームにおける期待勝率であり、前記期待報酬分布更新手段は、前記対戦評価手段における対戦の勝敗に応じて前記代表ベクトルに対する期待報酬分布を更新することが好適である。
【0011】
また、前記オブジェクトは、電子ゲームにおいて使用されるキャラクタであり、前記対戦評価手段は、前記新たなオブジェクトとして新たなキャラクタと既存のキャラクタとを組み合わせた電子ゲーム上のデッキと、前記新たなキャラクタを含まず、既存のキャラクタを組み合わせた電子ゲーム上のデッキと、を対戦させたときの対戦評価を行うことが好適である。
【発明の効果】
【0012】
本発明の実施の形態は、新たなキャラクタを投入する前に当該キャラクタの特性を効果的に評価することができる電子ゲーム評価装置、電子ゲーム評価プログラム及び電子ゲーム評価方法を実現することを目的の1つとする。本発明の実施の形態の他の目的は、本明細書全体を参照することにより明らかになる。
【図面の簡単な説明】
【0013】
【
図1】本発明の実施の形態における電子ゲーム評価装置の構成を示す図である。
【
図2】本発明の実施の形態における表現学習部及び戦略学習器(対戦AI)を説明する図である。
【
図3】本発明の実施の形態における電子ゲーム評価方法を示すフローチャートである。
【
図4】本発明の実施の形態における各キャラクタの表現ベクトルの例を示す図である。
【
図5】本発明の実施の形態における代表ベクトルの期待報酬分布の例を示す図である。
【
図6】本発明の実施の形態における代替ベクトルの選択処理を説明する図である。
【
図7】本発明の実施の形態におけるデッキの探索処理を説明する図である。
【
図8】本発明の実施の形態における新たなキャラクタを含むデッキを構成する処理を説明する図である。
【
図9】本発明の実施の形態における期待報酬分布の更新処理を説明する図である。
【
図10】本発明の実施の形態における電子ゲームの評価例を示す図である。
【
図11】本発明の実施の形態における電子ゲームの評価例を示す図である。
【
図12】本発明の実施の形態における電子ゲームの評価例を示す図である。
【
図13】本発明の実施の形態における電子ゲームの評価例を示す図である。
【発明を実施するための形態】
【0014】
[装置構成]
本発明の実施の形態における電子ゲーム評価装置100は、
図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。処理部10は、CPU等の演算処理を行う手段を含む。処理部10は、記憶部12に記憶されている電子ゲーム評価プログラムを実行することによって、本実施の形態における電子ゲームにおける評価処理を実現する。記憶部12は、半導体メモリやメモリカード等の記憶手段を含む。記憶部12は、処理部10とアクセス可能に接続され、電子ゲーム評価プログラム、その処理に必要な情報を記憶する。入力部14は、情報を入力する手段を含む。入力部14は、例えば、管理者からの入力を受けるキーボード、タッチパネル、ボタン等を備える。出力部16は、管理者から入力情報を受け付けるためのユーザインターフェース画面(UI)等の電子ゲーム評価装置100での処理結果を出力する手段を含む。出力部16は、例えば、管理者に対して画像を呈示するディスプレイを備える。通信部18は、ネットワーク102を介して、外部のユーザ端末等との情報の通信を行うインターフェースを含んで構成される。通信部18による通信は有線及び無線を問わない。
【0015】
[電子ゲーム評価処理]
本実施の形態では、対戦型の電子ゲームに新しいキャラクタを導入したときに当該電子ゲームに対してどのような影響を及ぼす可能性があるかを適切に評価することを可能にする電子ゲームの評価処理について説明する。具体的には、電子ゲーム評価装置100において下記に示す処理を実行する電子ゲーム評価プログラムを実行することによって、多腕バンディット法を用いて電子ゲームに対する新しいキャラクタによる影響をゲームの企画者等に提示する処理を行う。
【0016】
また、電子ゲームとして、プレイヤ毎に複数のキャラクタをグループにしたデッキを構成し、複数のプレイヤがそれぞれのデッキを構成するキャラクタ同士を対戦させて勝敗を決定するゲームを例に説明を行う。ただし、本実施の形態における電子ゲーム評価方法の適用範囲は、これに限定されるものではない。
【0017】
電子ゲーム評価装置100では、複数のキャラクタを使用する電子ゲームをプレイするための人工知能エージェントを用いる。人工知能エージェントは、例えば特開2019-197592号公報に記載された情報処理装置を適用することができる。具体的には、
図2に示すように、過去に電子ゲームで行われたゲームの進行履歴を示すデータであるプレイログ(対戦ログ)に基づいて表現学習を行う。これによって、電子ゲームで使用される各キャラクタのゲーム上のパラメータを入力することによって各キャラクタの特徴を示す特徴ベクトル(以下、表現ベクトルという)を出力する表現学習部を得ることができる。また、表現学習部が学習した各キャラクタの特徴ベクトルを用いながら、各キャラクタの使用(又は、各キャラクタを含むデッキの使用)に関する電子ゲームの戦略の学習を行う。これによって、各キャラクタを使用(又は、各キャラクタを含むデッキを使用)したときの電子ゲームでの好ましい戦略や勝敗率等を出力する戦略学習部(対戦AI)を得ることができる。本実施の形態の電子ゲーム評価装置100では、このような表現学習部及び戦略学習部を用いて電子ゲームに新しいキャラクタを導入したときの影響について評価するための情報を生成して出力する。
【0018】
以下、
図3のフローチャートを参照しつつ、電子ゲーム評価装置100で実行される電子ゲーム評価方法について説明する。
【0019】
ステップS10では、新しいキャラクタの表現ベクトルの探索処理が行われる。本ステップにおける処理によって、電子ゲーム評価装置100は表現ベクトル探索手段として機能する。
【0020】
処理部10は、過去のプレイログ(対戦ログ)に対する表現学習で得られた既存のキャラクタに対する表現ベクトルをクラスタリングする。表現ベクトルのクラスタリング処理には、例えば、k-means処理を適用することができる。ただし、これに限定されるものではなく、他のクラスタリング処理方法を適用してもよい。
【0021】
図4は、既存の表現学習部を用いて電子ゲームにおける既存の複数のキャラクタをそれぞれの表現ベクトルで表現した例を示す。
図4は、それぞれのキャラクタの表現ベクトルを2次元の表現ベクトル(図中のドット)で表した例を示している。ただし、表現ベクトルを表すベクトルの次元はこれに限定されるものではない。
【0022】
表現ベクトルをクラスタリングした後、それぞれのクラスタから代表ベクトルを決定する。代表ベクトルは、例えば、各クラスタのセントロイド(重心ベクトル)とすることが好適である。なお、代表ベクトルを各クラスタからランダムなキャラクタの選出、あるいはクラスタ内のキャラクタからバンディットアルゴリズムなどを利用して選出することも可能である。
【0023】
図4には、電子ゲームにおける既存の複数のキャラクタの表現ベクトルをクラスタリングした結果を併せて示す。
図4では、各クラスタを楕円で囲んで示している。また、各クラスタのセントロイド(重心ベクトル)を星型のマークで示している。したがって、各クラスタの代表ベクトルは星型のマークで示した表現ベクトルとして表される。
【0024】
次ぎに、代表ベクトル毎に、期待報酬分布を生成する。期待報酬分布は、各クラスタの代表ベクトル毎の電子ゲームに関する期待報酬に対して電子ゲームで生じる確率を示す分布である。例えば、期待報酬を期待勝率とした場合、各クラスタの代表ベクトルを有するキャラクタを電子ゲームにおいて使用した際にその期待勝率を有する確率を示す分布である。期待報酬は、電子ゲームに関する値であれば特に限定されるものではないが、期待勝率の他に期待最大攻撃力、期待最大防御力、何らかのゲーム上のスキルの期待発生率等とすることができる。
【0025】
以下、
図5に示すように、本実施の形態では期待要素値を期待勝率とした例について説明する。
図5では、各クラスタにおける代表ベクトルに対する期待勝率が得られる確率がそれぞれの山形の確率分布で示されている。
【0026】
確率分布は、適宜設定すればよいが、数式(1)で示されるベータ分布(β分布)を適用することが好適である。ベータ分布は、パラメータα及びパラメータβの初期値を1とする。また、期待報酬分布は、後述する更新処理によって変更される。ただし、具体的な期待報酬分布と更新処理はこれに限定されず、二項分布や試行結果に基づく頻度回数や頻度分布を適用してもよい。
【数1】
【0027】
続いて、クラスタ毎に期待報酬分布からそれぞれの代表ベクトルに対する期待報酬を求め、最も高い期待報酬を有する代表ベクトルを新たに導入するキャラクタに対する代替ベクトルとして選択する。選択は期待報酬を参照してBoltzmann分布やベータ分布に基づき確率的で行われる場合がある。他にもUCB1やその派生の評価関数を用いて決定的に行われる場合がある。
図6は、
図4に示した表現ベクトルの各クラスタにおける代表ベクトルについてその期待報酬を求めた例を示す。この場合、期待報酬が最大である代表ベクトル1が新たなキャラクタに対する代替ベクトルとして選択される。
【0028】
なお、電子ゲームの評価の対象とする期待報酬において、どのような期待報酬を示すような新たなキャラクタを評価するのかによって期待報酬と選択条件を決定すればよい。本実施の形態の場合、勝率を代表的な評価の対象として、勝率が高くなるような新たなキャラクタを導入したときの電子ゲームの変化を評価することを目的としているので、期待報酬を勝率として、期待報酬が最大である代表ベクトルを新たなキャラクタに対する代替ベクトルとして選択する条件としている。例えば、敵キャラクタに与えるダメージを代表的な評価の対象として、当該ダメージが高くなるような新たなキャラクタを導入したときの電子ゲームの変化を評価することを目的とした場合、期待報酬として当該ダメージを与える確率を示す期待報酬分布に基づいてダメージが最大となる代表ベクトルを代替ベクトルとして選択する条件としてもよい。
【0029】
ステップS12では、新しいキャラクタを含むデッキの探索処理が行われる。本ステップにおける処理によって、電子ゲーム評価装置100はデッキ探索手段として機能する。
【0030】
当該ステップでは、まず、ステップS10で選択された代替ベクトルで表される新たなキャラクタを組み入れるデッキを準備する処理が行われる。準備されるデッキは、既存のキャラクタを複数組み合わせて構成したデッキとする。本実施の形態では、
図7に示すように、新たなキャラクタを組み入れる候補となる複数のデッキを準備する。
【0031】
例えば、電子ゲームの企画者の意図にしたがって既存のキャラクタを組み合わせたデッキを複数準備する。また、企画者が想定する電子ゲームにおける新たなキャラクタの使用の意図(電子ゲームにおける新たなキャラクタを用いた戦略等)にしたがって、新たなキャラクタに近いと思われる既存のキャラクタを含むデッキを複数準備する。また、電子ゲームにおけるプレイログから過去に使用されたデッキから複数のデッキを選択してもよい。この場合、例えば、プレイログにおける特徴から勝率が高いデッキや所定の戦略に使用され易いデッキを抽出してもよい。
【0032】
次ぎに、
図7に示すように、準備された各デッキを構成する既存のキャラクタ毎に期待報酬分布を生成する。続いて、準備されたデッキのうち1つをランダムに選択する。そして、
図8に示すように、選択されたデッキを構成する既存のキャラクタ毎に生成された期待報酬分布からキャラクタ毎の期待報酬を算出し、最も期待報酬が高いキャラクタとステップS10で選択した新たなキャラクタとを入れ替えて新たなキャラクタを含むデッキを生成する。
図8の例では、ランダムに選択されたデッキ1に含まれるキャラクタ1~キャラクタkにおいてキャラクタ1の期待報酬が0.9で最高値であるので、デッキ1においてキャラクタ1と新たなキャラクタとを入れ替えて新たなデッキを構成する。
【0033】
なお、電子ゲームにおいて、複数のキャラクタを組み合わせたデッキを利用せず、個々のキャラクタ同士を対戦させるような場合には当該ステップは省略してもよい。
【0034】
ステップS14では、新たなキャラクタを含むデッキと他のデッキとの対戦評価処理が行われる。本ステップにおける処理によって、電子ゲーム評価装置100は対戦評価手段として機能する。
【0035】
処理部10は、ステップS12において準備されたデッキから新たなキャラクタを含まないデッキを1つ選択する。当該デッキは、ステップS12において準備されたデッキからランダムに選択すればよい。そして、過去のプレイログを用いて機会学習された戦略学習部(対戦AI)を用いて、ここで選択されたデッキとステップS12において生成された新たなキャラクタを含むデッキとを対戦させ、その対戦結果を取得する。
【0036】
対戦結果としては、対戦のデッキ同士の勝敗結果、キャラクタ同士の勝敗結果、対戦終了時の各キャラクタのパラメータの値(例えば、ヒットポイント、攻撃力、防御力等のパラメータの値)、各キャラクタが相手のキャラクタに与えたダメージ、各キャラクタが与えられたダメージ等、電子ゲームの対戦を実際に行ったときに得られるあらゆる情報が含まれる。
【0037】
なお、デッキを構成せず、キャラクタ同士の対戦が行われる電子ゲームの場合には、ステップS10において選択された新たなキャラクタと既存のキャラクタとの対戦を行わせて、対戦結果を取得する。
【0038】
ステップS16では、期待報酬分布の更新処理が行われる。本ステップにおける処理によって、電子ゲーム評価装置100は期待報酬分布更新手段として機能する。
【0039】
処理部10は、ステップS14における対戦結果を用いて、新しいキャラクタを含むデッキを構成するキャラクタについて期待報酬分布を更新する。具体的には、ステップS10において新しいキャラクタとして選択した代替ベクトルに対応するクラスタについてその代表ベクトルに対する期待報酬分布を更新する。例えば、ステップS10において期待報酬が最大である代表ベクトル1を新たなキャラクタに対する代替ベクトルとして選択した場合、当該代表ベクトル1に対する期待報酬分布を更新する処理を行う。
【0040】
また、新しいキャラクタを含むデッキを構成する他のキャラクタについても、新しいキャラクタとシナジー効果をうむ可能性を考慮して、当該キャラクタに対する表現ベクトルに対する期待報酬分布を更新する場合もある。また、ステップS14における対戦結果を用いて、ステップS12において準備された新しいキャラクタを含むデッキで入れ替えた元のデッキのキャラクタに対する期待報酬分布を更新する場合もある。
【0041】
このとき、ステップS14における対戦結果が勝利である場合、期待報酬分布における期待報酬が増加するような確率分布となるように期待報酬分布を更新する。また、ステップS14における対戦結果が敗戦である場合、期待報酬分布における期待報酬が減少するような確率分布となるように期待報酬分布を更新する。
【0042】
期待報酬分布がベータ分布で表現される場合、ステップS14における対戦結果に応じてベータ分布のパラメータα及びパラメータβを変更することで期待報酬分布を更新する。ステップS14における対戦結果が勝利である場合、パラメータαを所定の調整値だけ増加させる処理を行う。当該所定の調整値は、例えば1とすることができる。また、ステップS14における対戦結果が敗戦である場合、パラメータβを所定の調整値だけ減少させる処理を行う。当該所定の調整値は、例えば+1とすることができる。これによって、対戦結果が勝利である場合には期待報酬分布における期待報酬が増加し、対戦結果が敗戦である場合には期待報酬分布における期待報酬が減少するように期待報酬分布を更新することができる。
【0043】
なお、デッキを構成せず、キャラクタ同士の対戦が行われる電子ゲームの場合には、新たなキャラクタの代替ベクトルに対応する代表ベクトルの期待報酬分布のみを更新すればよい。
【0044】
ステップS18では、終了判定処理が行われる。本ステップにおける処理によって、電子ゲーム評価装置100は終了判定手段として機能する。
【0045】
処理部10は、上記ステップS10~ステップS16の処理の繰り返しを終了する条件が満たされたか否かを判定し、終了条件が満たされた場合にはステップS20へ処理を移行させ、終了条件が満たされてない場合にはステップS10に処理を戻す。ステップS10に処理が戻された場合、ステップS16において更新された期待報酬分布に基づいて、クラスタ毎に期待報酬分布からそれぞれの代表ベクトルに対する期待報酬を求め、最も高い期待報酬を有する代表ベクトルを新しいキャラクタに対する代替ベクトルとして新たに選択する。そして、新たに選択された新しいキャラクタについてステップS12~ステップS16の処理を再度行う。
【0046】
このようにステップS10~ステップS16の処理を複数回繰り返すことによって、毎回選択し直される新たなキャラクタを含むデッキに対するステップS14の対戦評価の結果に基づいて新たなキャラクタの代替ベクトルに対応する代表ベクトルの期待報酬分布が更新される。すなわち、
図9に示すように、期待報酬分布のパラメータが変化して、期待報酬分布が更新される。対戦評価が繰り返されるにつれて、期待報酬分布の分散は小さくなり、期待勝率が上がると期待報酬分布のピークの位置は期待報酬が高い方に移動し、期待勝率が下がると期待報酬分布のピークの位置は期待報酬が低い方に移動する。そして、期待報酬分布のピークの位置が期待報酬の高い方へ移動するほど、ステップS10における代替ベクトルとして選択され易くなり、対戦評価される回数が増加する。なお、勝敗結果が五分五分の場合、期待報酬分布は中間部分(
図9の例では0.5付近)にピークが位置し、期待報酬の値に対して大きく拡がった分布を示すようになる。したがって、そのような期待報酬分布を有する代表ベクトルは期待報酬のピークの位置が高い期待報酬分布が存在しはじめるとステップS10において代替ベクトルとして選択され難くなる。
【0047】
また、当該ステップにおける終了条件は、ステップS10~ステップS16の処理を繰り返した時間や回数に上限値を設けて、その上限値を超えると終了するという上限とすればよい。ただし、終了条件は、これらに限定されるものではない。
【0048】
ステップS20では、新しいキャラクタの評価に関する処理が行われる。本ステップにおける処理によって、電子ゲーム評価装置100は評価手段として機能する。ここで、上記ステップS10~ステップS18によって実現される多碗バンディットを適用して得られた統計指標を用いて評価に関する処理を行う。例えば、得られた統計指標(統計値)を企画者等のユーザに提示したり、得られた統計指標が所定の基準値を超える場合に警告を示したりする処理を行う。
【0049】
例えば、
図10に示すように、事前に準備された各デッキを構成する各キャラクタを新たなキャラクタと置き換えたデッキを構成したときに、電子ゲームにおいて最も勝率が高くなったデッキの評価値をユーザに提示することができる。
【0050】
また、例えば、
図11に示すように、事前に準備された各デッキを構成する各キャラクタを新たなキャラクタと置き換えたデッキを構成したときに電子ゲームにおいて勝率が高くなったデッキを縦軸とし、新たなキャラクタを含まず、既存のキャラクタのみで構成されたデッキを横軸として、それぞれ組み合わせに対して勝率を表した情報をユーザに提示することができる。
図11では、既存のキャラクタのみのデッキに対する新たなキャラクタを含むデッキの勝率が高い組み合わせの輝度を低く、勝率が低い組み合わせの輝度を高く示している。
【0051】
この情報によって、新たなキャラクタを含まないデッキに対して満遍なく高い勝率を示す新たなキャラクタを含むデッキを抽出することができる。このようなデッキは電子ゲームにおけるバランスを崩すおそれがあるので、このようなデッキの構成を可能とする新たなキャラクタは導入しないようにした方がよい等の判断を行うことができる。
【0052】
また、
図12に示すように、勝率が高くなる新たなキャラクタの利用方法を抽出することもできる。例えば、既存のキャラクタのみで構成されるデッキにおいて所定の利用順でキャラクタを利用したときの勝率に対して、新たなキャラクタに入れ替えたデッキにおけるキャラクタの利用順の違いによってどのように勝率が変化するか等の情報を知ることができる。
【0053】
また、
図13に示すように、新たなキャラクタを含んだ場合に平均の勝率が高くなるデッキを事前に特定することもできる。
【0054】
なお、上記の評価では、デッキ同士の組み合わせに対する勝率を示したが、対戦後の残りのヒットポイント差、最大の攻撃力の差等、ステップS14における対戦評価において得ることができる電子ゲームの評価の対象となる情報であれば特に限定されるものではない。
【0055】
また、デッキを構成せず、キャラクタ同士の対戦が行われる電子ゲームの場合には、新たなキャラクタと他の既存のキャラクタとの電子ゲームにおける勝率の違い等を評価の対象とすることができる。
【0056】
本実施の形態では、電子ゲームにおいて使用されるキャラクタを評価対象としたが、電子ゲームにおいて使用される他のオブジェクトを評価対象とすることもできる。例えば、電子ゲームにおけるキャラクタのスキル(攻撃力、防御力、その他のゲーム上の効果を与えるパラメータ)、電子ゲームにおけるアイテム等、電子ゲームで利用されるオブジェクトであれば評価の対象とすることができる。この場合、上記説明においてキャラクタの代わりに評価対象とするオブジェクトを適用して処理すればよい。
【0057】
また、本実施の形態における電子ゲーム評価装置100では、1つのコンピュータシステムにおいて表現ベクトル探索手段、デッキ探索手段、対戦評価手段、期待報酬分布更新手段、終了判定手段及び評価手段を実現する構成とした。しかしながら、これらの手段を異なる装置や異なる実行主体にて分散させて実現するようにしてもよい。例えば、これらの手段のうち幾つかを互いに情報伝達可能な複数のコンピュータで分担して実現するようにしてもよい。
【符号の説明】
【0058】
10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、100 電子ゲーム評価装置、102 ネットワーク。