(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0009】
以下に、本発明に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。さらに、以下に記載した構成要素は適宜組み合わせることが可能である。
【0010】
〔1.情報処理装置の一例〕
図1は、実施形態に係る評価装置の一例を説明する説明図である。実施形態に係る情報処理装置の一例である情報処理装置10は、
図1に示すように、離散的に位置が定義づけられた盤面に基づく離散データ17のパラメータXを連続化して連続データ18を取得し、連続データ18が有する特徴をモデル19に学習させ、学習したモデル19を用いて評価値Yを算出して最適値を得て、得られた最適値を表示装置21または駆動装置22に出力する。
【0011】
(離散データ17について)
離散データ17は、具体的には、二者の戦いに関するデータが例示される。離散データ17は、詳細には、囲碁の棋譜、将棋の棋譜、チェスの棋譜等の升目で区切られた盤面における有効領域を競うゲームに関するデータが例示される。離散データ17は、その他にも、升目で区切られた空間において有効領域を競うシミュレーションゲームに関するデータであってもよい。離散データ17は、後述する連続化処理部14(
図2参照)に使用される。
【0012】
離散データ17は、例えば、
図1に示すように、データ点D1,D2,D3,D4,D5を有する。データ点D1,D2,D3,D4,D5は、いずれも、離散的に定義づけられた位置情報に基づくパラメータXに基づいて、情報処理装置10において種々の処理が施される。なお、パラメータXは、
図1において、グラフの横軸で示されている。
【0013】
(連続データ18について)
連続データ18は、離散データ17において、パラメータXの間隙部分を圧縮センシングにより復元することで連続化されたデータである。連続データ18は、後述する連続化処理部14(
図2参照)によって、離散データ17に基づいて生成される。また、連続データ18が有する特徴は、後述する学習処理部15(
図2参照)によってモデル19に学習される。
【0014】
連続データ18は、例えば、
図1に示すように、データ群CDを有する。データ群CDは、データ点D1,D2,D3,D4,D5のそれぞれのパラメータXの間隙部分を復元することで、データ点D1,D2,D3,D4,D5に基づいて連続化したデータである。
【0015】
(モデル19について)
モデル19は、入力されたデータに基づいて評価値Yを算出する電算処理に関する分類機である。モデル19は、例えば、離散データ17の入力に応じて、入力された離散データ17における有効領域に基づいて、所定の盤面に対する評価値Yを算出する。また、モデル19は、連続データ18が有する特徴を学習した後、連続データ18における有効領域に基づいて、所定の盤面に対する評価値Yを算出する。モデル19は、後述する評価処理部16(
図2参照)によって、評価値Yを算出する処理を実行させられる。
【0016】
モデル19は、二者の戦いに関する離散データ17または連続データ18の入力に応じて評価値Yを算出する分類機である場合には、離散データ17または連続データ18における一方側の有効領域と他方側の有効領域との比較に基づいて評価値Yを算出する。モデル19は、このような場合において、例えば、一方側の方が他方側よりも有効領域が広い場合には評価値Yを正の値で、他方側の方が一方側よりも有効領域が広い場合には評価値Yを負の値で算出し、有効領域の差分を評価値Yの数値の大きさで算出する。
【0017】
モデル19は、囲碁の棋譜に関する離散データ17または連続データ18の入力に応じて評価値Yを算出する分類機である場合には、離散データ17または連続データ18における一方側の陣と他方側の陣との比較に基づいて評価値Yを算出する。モデル19は、囲碁の棋譜に関する離散データ17または連続データ18の入力に応じて評価値Yを算出する分類機である場合には、より詳細には、非特許文献1「http://airesearch.com/wp-content/uploads/2016/01/deepmind-mastering-go.pdf」及び非特許文献2「https://www.slideshare.net/yuk1yoshida/alphago-61311712」に記載されているポリシーネットワーク等の碁石の関係性を考慮した陣の評価方法に基づく電算処理に関するものが好適なものとして例示される。
【0018】
モデル19は、将棋の棋譜及びチェスの棋譜のいずれかに関する離散データ17または連続データ18の入力に応じて評価値Yを算出する分類機である場合には、離散データ17または連続データ18における一方側と他方側との駒の配置及び利きに応じて算出する有効領域の比較に基づいて評価値Yを算出する。具体的には、モデル19は、所定の升目に配置された駒、利いている駒の数の大小及びその差等に応じて、一方側と他方側とのうちいずれ側の有効領域であるかを判定し、全ての升目における有効領域の判定結果に基づいて、評価値Yを算出する。
【0019】
モデル19は、升目で区切られた空間において有効領域を競うシミュレーションゲームに関する離散データ17または連続データ18の入力に応じて評価値Yを算出する分類機である場合には、離散データ17または連続データ18における一方側と他方側との各升目への影響度等に応じて各升目の比重を考慮して算出する有効領域の比較に基づいて、評価値Yを算出する。
【0020】
モデル19は、また、連続データ18に基づいて算出した評価値Yが最大となる所定の単位動作である最適値を求める。モデル19は、後述する評価処理部16(
図2参照)によって、最適値を求める処理を実行させられる。
【0021】
最適値は、囲碁、将棋、チェス等の棋譜に関する離散データ17または連続データ18に基づいて取得される場合には、いわゆる最善手のことである。最適値は、
図1に示す例では、連続データ18に基づいて算出した評価値Yを連続化したパラメータXの関数とみなして、パラメータXで微分処理することで求められる評価値Yの極大値A1,A2のうち、最大である極大値A2を取る際のパラメータX2に基づいて求められる。
【0022】
〔2.情報処理システム1の一例〕
情報処理システム1は、
図1に示すように、情報処理装置10と、表示装置21または駆動装置22を含んで構成される。情報処理システム1では、情報処理装置10と表示装置21または駆動装置22とは、有線または無線により情報通信可能に接続される。なお、情報処理システム1は、
図1に示す装置を含む構成に限定されず、その他の装置や端末を含んでもよく、通信ネットワーク等を介して互いに情報通信可能に接続されていてもよい。
【0023】
表示装置21は、情報処理装置10から出力された最適値を、文字、画像、動画等により表示する。
【0024】
駆動装置22は、情報処理装置10から出力された最適値に基づく駆動をする装置である。駆動装置22は、情報処理装置10から出力された最適値に応じて種々の様態のものを好適に用いることができる。駆動装置22は、この最適値が囲碁の最善手であれば囲碁を打つ装置が例示され、この最適値が将棋の最善手であれば将棋を指す装置が例示され、この最適値がチェスの最善手であればチェスを指す装置が例示される。
【0025】
〔3.情報処理装置の構成〕
図2は、
図1の情報処理装置の制御ブロック図である。情報処理装置10は、
図2に示すように、処理部11と、記憶部12と、情報通信インターフェイス13と、を有する。
【0026】
(処理部11について)
処理部11は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置10内部の記憶装置である記憶部12に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAM(Random Access Memory)を作業領域として実行されることにより実現される。また、処理部11は、例えば、コントローラであり、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。処理部11は、表示装置21または駆動装置22に最適値等の情報の出力を行ったりする情報通信インターフェイス13が接続されている。
【0027】
処理部11は、
図2に示すように、記憶部12及び情報通信インターフェイス13と、互いに情報通信可能に電気的に接続されており、これらの各構成要素をそれぞれ制御する制御部として機能する。すなわち、処理部11は、記憶部12とともに、制御部として機能して、本発明の実施形態に係る情報処理方法を情報処理装置10に実行させるものである。
【0028】
処理部11は、
図2に示すように、連続化処理部14と、学習処理部15と、評価処理部16と、を有する。
【0029】
連続化処理部14は、離散的に位置が定義づけられた盤面に基づく離散データ17を圧縮センシングにより連続化する。連続化処理部14は、具体的には、離散データ17におけるデータ点D1,D2,D3,D4,D5の間のパラメータXの間隙部分を圧縮センシングにより復元することで、パラメータXについて連続化した連続データ18を生成する。
【0030】
連続化処理部14は、本実施形態では、より詳細には、非特許文献3「http://www.ieice.org/~netsci/wp-content/uploads/2016/05/NetSci201605_Kabashima.pdf」に記載されているようなスパースに表現できる信号に対して少数の計測結果からの再構成を可能にする枠組みを適用して、離散データ17におけるパラメータXの間隙部分を圧縮センシングにより復元することが好ましい。
【0031】
学習処理部15は、連続化処理部14が連続化した連続データ18が有する特徴をモデル19に学習させる。学習処理部15は、具体的には、離散データ17から直接得られないパラメータXに関する特徴をモデル19に取得させることで、すなわち、連続データ18のうち離散データ17に基づいて連続化処理部14が復元した部分に関するパラメータXに関する特徴をモデル19に取得させることで、モデル19に学習させる。
【0032】
学習処理部15は、学習処理部15がモデル19に学習させた学習内容を離散データ17または連続データ18に組み込んで、自動で、逐次学習することができる。
【0033】
評価処理部16は、モデル19を用いて、所定の盤面に対する評価値Yを算出する。具体的には、評価処理部16は、モデル19を用いて、離散データ17の入力に応じて、入力された離散データ17における有効領域に基づいて、所定の盤面に対する評価値Yを算出する。また、評価処理部16は、学習処理部15により学習されたモデル19を用いて、連続化処理部14が連続化した連続データ18における有効領域に基づいて所定の盤面に対する評価値Yを算出する。
【0034】
評価処理部16は、具体的には、連続データ18が二者の戦いに関するものである場合には、相応のモデル19を用いて、一方側の有効領域と他方側の有効領域との比較に基づいて評価値Yを算出する。また、評価処理部16は、連続データ18が囲碁の棋譜に関する場合には、相応のモデル19を用いて、一方側の陣と他方側の陣との比較に基づいて評価値Yを算出する。評価処理部16は、連続データ18が囲碁の棋譜に関する場合には、相応のモデル19として、上記した非特許文献1及び非特許文献2に記載されているように、ポリシーネットワーク等の碁石の関係性を考慮した陣の評価方法を適用するモデル19を用いて、評価値Yを算出することが好ましいが、本発明ではこれに限定されることなく、その他の評価方法を適用して、評価値Yを算出してもよい。
【0035】
評価処理部16は、連続データ18が将棋の棋譜またはチェスの棋譜に関する場合には、相応のモデル19を用いて、一方側と他方側との駒の配置及び利きに応じて有効領域を算出し、算出した一方側と他方側との有効領域の比較に基づいて評価値Yを算出する。評価処理部16は、連続データ18が将棋の棋譜またはチェスの棋譜に関する場合には、本実施形態では、より詳細には、相応のモデル19として、連続データ18が囲碁の棋譜に関する場合と同様に、周知の駒の特性と位置関係等を考慮した有効領域の評価方法を適用するモデル19を用いて、評価値Yを算出することが好ましい。
【0036】
評価処理部16は、また、学習処理部15が連続データ18の特徴を学習させたモデル19を用いて、連続データ18に基づいて算出した評価値Yが最大となる所定の単位動作である最適値を求める。具体的には、評価処理部16は、まず、相応のモデル19を用いて、連続データ18に基づいて算出した評価値Yを連続化したパラメータXの関数とみなして、パラメータXで微分処理することで評価値Yの極大値A1,A2を求める。評価処理部16は、次に、極大値A1,A2のうち最大である極大値A2を選択し、選択した極大値A2を取る際のパラメータX2に基づいて、最適値を求める。
【0037】
評価処理部16は、求めた最適値を、情報通信インターフェイス13を介して表示装置21または駆動装置22に出力する。
【0038】
処理部11に含まれる各部、すなわち、連続化処理部14、学習処理部15及び評価処理部16は、いずれも、処理部11が情報処理プログラムを実行することにより、実現される機能部である。
【0039】
(記憶部12について)
記憶部12は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部12は、離散的に位置が定義づけられた盤面に基づく離散データ17を記憶して保存する。また、記憶部12は、入力されたデータに基づいて評価値Yを算出する電算処理に関するモデル19を記憶して保存する。記憶部12は、連続化処理部14が離散データ17を連続化処理して取得した連続データ18、評価処理部16が連続データ18に基づいて算出した評価値Y、及び、評価値Yに基づいて取得した最適値を、記憶して保存する。
【0040】
(情報通信インターフェイス13について)
情報通信インターフェイス13は、処理部11と表示装置21または駆動装置22とを有線または無線で互いに情報通信可能に接続している。情報通信インターフェイス13は、処理部11で生成される各情報、例えば、離散データ17、連続データ18、評価値Y及び最適値を処理部11から受信し、表示装置21または駆動装置22に向けて送信する。
【0041】
なお、本実施形態では、情報処理装置10は、本発明の実施形態に係る情報処理方法を実行する際に使用する離散データ17を記憶部12から取得する形態について説明しているが、本発明はこれに限定されることなく、情報通信インターフェイス13に有線または無線で互いに情報通信可能に接続した外部記憶装置から取得する形態も好適に採用することができる。
【0042】
〔4.評価処理の一例〕
本発明の実施形態に係る情報処理装置10の作用について以下に説明する。
図3は、実施形態に係る情報処理方法のフローチャートである。情報処理装置10によって実行される本発明の実施形態に係る情報処理方法について、
図3を用いて説明する。実施形態に係る情報処理方法は、
図3に示すように、連続化ステップS11と、学習ステップS12と、評価ステップS13と、を有する。
【0043】
処理部11は、まず、連続化ステップS11を実行する前に、実施形態に係る情報処理方法に用いるのに最適な離散データ17を抽出する。処理部11は、例えば、抽出したい離散データ17が囲碁の棋譜に関する場合には、上記した非特許文献1及び非特許文献2に記載されている好適な抽出方法を適用して実行する。処理部11は、抽出したい離散データ17が、将棋の棋譜またはチェスの棋譜に関する場合等のその他の場合にも、抽出したい離散データ17が囲碁の棋譜に関する場合と同様に、周知の好適な抽出方法を適用して実行する。
【0044】
連続化ステップS11は、連続化処理部14が、離散的に位置が定義づけられた盤面に基づく離散データ17を圧縮センシングにより連続化するステップである。連続化ステップS11では、連続化処理部14が、例えば、離散データ17におけるデータ点D1,D2,D3,D4,D5の間のパラメータXの間隙部分を、非特許文献1に記載されている好適な圧縮センシングの方法を適用することにより復元することで、パラメータXについて連続化した連続データ18を生成する。
【0045】
学習ステップS12は、学習処理部15が、連続化ステップS11で連続化した連続データ18が有する特徴をモデル19に学習させるステップである。学習ステップS12では、学習処理部15が、具体的には、離散データ17から直接得られないパラメータXに関する特徴をモデル19に取得させることで、モデル19に学習させる。学習ステップS12では、学習処理部15が、より詳細には、連続データ18のうち離散データ17に基づいて連続化処理部14が復元した部分に関するパラメータXに関する特徴をモデル19に取得させることで、モデル19に学習させる。
【0046】
学習ステップS12では、また、学習処理部15が、学習処理部15がモデル19に学習させた学習内容を離散データ17または連続データ18に組み込むことで、自動で、モデル19を逐次学習させることができる。
【0047】
評価ステップS13は、評価処理部16が、学習ステップS12により学習されたモデル19を用いて、連続データ18における有効領域に基づいて所定の盤面に対する評価値Yを算出するステップである。評価ステップS13では、評価処理部16が、例えば、連続データ18が二者の戦いに関するものである場合には、相応のモデル19を用いて、一方側の有効領域と他方側の有効領域との比較に基づいて評価値Yを算出する。評価ステップS13では、評価処理部16が、囲碁の棋譜、将棋の棋譜、チェスの棋譜等の場合にも、上記したように、相応のモデル19を用いて、一方側の有効領域と他方側の有効領域との比較に基づいて評価値Yを算出する。
【0048】
評価ステップS13では、評価処理部16が、さらに、学習ステップS12により学習されたモデル19を用いて、連続データ18に基づいて算出された評価値Yが最大値をとる際の所定の単位動作である最適値を求める。評価ステップS13では、評価処理部16が、具体的には、まず、相応のモデル19を用いて、連続データ18に基づいて算出した評価値Yを連続化したパラメータXの関数とみなして、パラメータXで微分処理することで評価値Yの極大値A1,A2を求める。評価ステップS13では、評価処理部16が、次に、極大値A1,A2のうち最大である極大値A2を選択し、選択した極大値A2を取る際のパラメータX2に基づいて、最適値を求める。
【0049】
評価ステップS13では、評価処理部16が、さらに、評価処理部16が求めた最適値を、情報通信インターフェイス13を介して表示装置21または駆動装置22に出力してもよい。
【0050】
〔5.ハードウェア構成〕
上述してきた実施形態に係る情報処理装置10は、例えば
図4に示すような構成のコンピュータ1000によって実現される。
図4は、情報処理装置10の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
【0051】
CPU1100は、ROM1300又はHDD1400に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を記憶する。
【0052】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網500を介して他の機器へ送信する。
【0053】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
【0054】
メディアインターフェイス1700は、記録媒体1800に記憶されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0055】
例えば、コンピュータ1000が実施形態に係る情報処理装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、処理部11の機能を実現する。また、HDD1400には、記憶部12内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
【0056】
〔6.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0057】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、
図2に示した記憶部12に記憶される情報は、情報通信インターフェイス13等のネットワークを介して、外部に備えられた所定の記憶装置に記憶されてもよい。
【0058】
また、上記実施形態では、情報処理装置10が、例えば、離散的に位置が定義づけられた盤面に基づく離散データ17を圧縮センシングにより連続化する連続化ステップS11と、連続化ステップS11で連続化した連続データ18が有する特徴をモデル19に学習させる学習ステップS12と、学習ステップS12により学習されたモデル19を用いて、所定の盤面に対する評価値Yを算出する評価ステップS13と、を行う例を示した。しかし、上述した情報処理装置10は、連続化ステップS11を行う連続化処理装置と、学習ステップS12を行う学習処理装置と、評価ステップS13を行う評価処理装置とに分離されてもよい。そして、上記の情報処理装置10による処理は、連続化処理装置と、学習処理装置と、評価処理装置との各装置を有する情報処理システムによって実現される。
【0059】
上述した学習内容は、あくまで一例であり、情報処理装置10は、任意の態様でモデルの学習を行ってよい。すなわち、どのような態様でモデルに連続値の特徴を学習させるかについては、任意の態様が採用可能である。例えば、情報処理装置10は、学習時においては、連続値の一部を入力した際に、それらの連続値に続く値を出力するようにモデルを学習し、評価時(測定時)においては、それまでの棋譜を連続化した連続値を入力することで、将来の手を評価してもよい。
【0060】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0061】
〔7.効果〕
上述してきたように、実施形態に係る情報処理装置10は、連続化処理部14と、学習処理部15と、評価処理部16と、を有する。連続化処理部14は、離散的に位置が定義づけられた盤面に基づく離散データ17を圧縮センシングにより連続化する。学習処理部15は、連続化処理部14が連続化した連続データ18が有する特徴をモデル19に学習させる。評価処理部16は、学習処理部15により学習されたモデル19を用いて、所定の盤面に対する評価値Yを算出する。
【0062】
このように、実施形態に係る情報処理装置10は、離散データ17を圧縮センシングにより連続化することで、離散データ17から直接得られないデータを復元して、この復元したデータをモデル19に取得させることで学習させるため、盤面に基づくデータに基づいて、モデル19を自己学習させることができる。また、実施形態に係る情報処理装置10は、学習させたモデル19を用いて評価値Yを算出するので、より適切な評価をすることができる。また、実施形態に係る情報処理装置10は、離散データ17を圧縮センシングにより連続化するので、微分を用いて評価することで最適値を求めることができる。
【0063】
また、評価処理部16は、連続データ18における有効領域に基づいて評価値Yを算出する。
【0064】
このように、実施形態に係る情報処理装置10は、盤面に基づく離散データ17を目的に応じて適切に評価することができ、目的に応じた自己学習をすることができる。
【0065】
また、連続化処理部14は、二者の戦いに関する離散データ17を連続化し、評価処理部16は、連続データ18における一方側の有効領域と他方側の有効領域との比較に基づいて評価値Yを算出する。
【0066】
このように、実施形態に係る情報処理装置10は、特に二者の戦いに関する離散データ17を、有利、不利、勝勢、負勢、互角等といったより明確な目的に応じて適切に評価することができ、目的に応じた自己学習をすることができる。
【0067】
また、連続化処理部14は、囲碁の棋譜に関する離散データ17を連続化し、評価処理部16は、一方側と他方側との陣に関する有効領域の比較に基づいて評価値Yを算出する。
【0068】
このように、実施形態に係る情報処理装置10は、特に囲碁の棋譜に関する離散データ17について、囲碁の目的に沿った適切な評価をすることができ、囲碁の目的に応じた自己学習をすることができる。
【0069】
また、連続化処理部14は、将棋の棋譜及びチェスの棋譜のいずれかに関する離散データ17を連続化し、評価処理部16は、一方側と他方側との駒の配置及び利きに応じた有効領域の比較に基づいて評価値Yを算出する。
【0070】
このように、実施形態に係る情報処理装置10は、特に将棋の棋譜及びチェスの棋譜のいずれかに関する離散データ17について、将棋またはチェスの目的に沿った適切な評価をすることができ、将棋またはチェスの目的に応じた自己学習をすることができる。
【0071】
また、実施形態に係る情報処理方法は、連続化ステップS11と、学習ステップS12と、評価ステップS13と、を有する。連続化ステップS11は、離散的に位置が定義づけられた盤面に基づく離散データ17を圧縮センシングにより連続化するステップである。学習ステップS12は、連続化ステップS11で連続化した連続データ18が有する特徴をモデル19に学習させるステップである。評価ステップS13は、学習ステップS12により学習されたモデル19を用いて、所定の盤面に対する評価値Yを算出するステップである。
【0072】
このように、実施形態に係る情報処理方法は、離散データ17を圧縮センシングにより連続化することで、離散データ17から直接得られないデータを復元して、この復元したデータをモデル19に取得させることで学習させるため、盤面に基づくデータに基づいて、モデル19を自己学習させることができる。また、実施形態に係る情報処理方法は、学習させたモデル19を用いて評価値Yを算出するので、より適切な評価をすることができる。また、実施形態に係る情報処理方法は、離散データ17を圧縮センシングにより連続化するので、微分を用いて評価することで最適値を求めることができる。
【0073】
また、実施形態に係る情報処理プログラムは、コンピュータ1000に、連続化手順と、学習手順と、評価手順と、を実行させるためのものである。連続化手順は、離散的に位置が定義づけられた盤面に基づく離散データ17を圧縮センシングにより連続化する手順である。学習手順は、連続化手順で連続化した連続データ18が有する特徴をモデル19に学習させる手順である。評価手順は、学習手順により学習されたモデル19を用いて、所定の盤面に対する評価値Yを算出する手順である。
【0074】
このように、実施形態に係る情報処理プログラムは、コンピュータ1000に、離散データ17を圧縮センシングにより連続化させことで、離散データ17から直接得られないデータを復元させて、この復元させたデータをモデル19に取得させることで学習させるため、盤面に基づくデータに基づいて、モデル19を自己学習させることができる。また、実施形態に係る情報処理プログラムは、コンピュータ1000に、学習させたモデル19を用いて評価値Yを算出させるので、より適切な評価をさせることができる。また、実施形態に係る情報処理プログラムは、コンピュータ1000に、離散データ17を圧縮センシングにより連続化させるので、微分を用いて評価することで最適値を求めさせることができる。
【0075】
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0076】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。