(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-04-14
(54)【発明の名称】断熱発展経路の予測方法、装置、機器及びコンピュータプログラム
(51)【国際特許分類】
G06N 99/00 20190101AFI20220407BHJP
G06N 3/02 20060101ALI20220407BHJP
G06N 3/08 20060101ALI20220407BHJP
G06N 10/00 20220101ALI20220407BHJP
【FI】
G06N99/00 180
G06N3/02
G06N3/08
G06N10/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021550058
(86)(22)【出願日】2020-10-28
(85)【翻訳文提出日】2021-08-26
(86)【国際出願番号】 CN2020124440
(87)【国際公開番号】W WO2021139333
(87)【国際公開日】2021-07-15
(31)【優先権主張番号】202010027656.8
(32)【優先日】2020-01-10
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514187420
【氏名又は名称】テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】チェン,ユィチン
(72)【発明者】
【氏名】シェ,チャンユィ
(72)【発明者】
【氏名】チェン,ユィ
(72)【発明者】
【氏名】ジャン,ションユィ
(57)【要約】
本出願は、断熱発展経路の予測方法、装置、機器及び記憶媒体を提供しており、人工知能の分野に関する。前記方法は、量子計算問題のターゲットハミルトニアンH1を取得し;前記ターゲットハミルトニアンH1に基づいて、初期ハミルトニアンH0及びターゲット基底状態エネルギーE1を決定し;前記初期ハミルトニアンH0から前記ターゲット基底状態エネルギーE1までの断熱発展経路に対してのサーチをボードゲームに変換し;ニューラルネットワークと組み合わせたモンテカルロ木探索を用いて、前記ボードゲームの最適ボード経路を求め;及び、前記最適ボード経路に基づいて前記断熱発展経路を出力するステップを含む。本出願は、断熱発展経路における各状態の候補アクションが比較的多いときにでも、依然として、安定的に収束し得る断熱発展経路を迅速かつ効率的に求めることができる。
【特許請求の範囲】
【請求項1】
コンピュータ装置が実行する断熱発展経路の予測方法であって、
量子計算問題のターゲットハミルトニアンH1を取得するステップ;
前記ターゲットハミルトニアンH1に基づいて、初期ハミルトニアンH0及びターゲット基底状態エネルギーE1を決定するステップ;
前記初期ハミルトニアンH0から前記ターゲット基底状態エネルギーE1までの断熱発展経路をサーチすることをボードゲームに変換するステップ;
ニューラルネットワークと組み合わせたモンテカルロ木探索を用いて、前記ボードゲームの最適ボード経路を求めるステップ;及び
前記最適ボード経路に基づいて前記断熱発展経路を出力するステップを含む、方法。
【請求項2】
請求項1に記載の方法であって、
前記の、ニューラルネットワークと組み合わせたモンテカルロ木探索を用いて、前記ボードゲームの最適ボード経路を求めるステップは、
前記ニューラルネットワークと組み合わせた前記モンテカルロ木探索を用いて、前記ボードゲームの予測ボード経路をサーチするステップ;
前記予測ボード経路に基づいて予測断熱発展経路を得るステップ;
量子計算環境に基づいて、前記予測断熱発展経路が終態に発展するときのエネルギー固有値Eを計算することによって取得するステップ;
前記エネルギー固有値Eが勝利条件を満足しないことに応じて、今回の予測過程に基づいて前記ニューラルネットワークにおけるパラメータを更新し、そして、更新した後に、再び、前記の、前記ニューラルネットワークと組み合わせた前記モンテカルロ木探索を用いて、前記ボードゲームの予測ボード経路をサーチするステップを実行するステップ;及び
前記エネルギー固有値Eが前記勝利条件を満足していることに応じて、前記予測ボード経路を前記ボードゲームの最適ボード経路と決定するステップを含み、
前記勝利条件は、前記エネルギー固有値Eと前記ターゲット基底状態エネルギーE1との間の差が閾値よりも小さいことを含む、方法。
【請求項3】
請求項2に記載の方法であって、
前記ニューラルネットワークはポリシーネットワーク及びバリューネットワークを含み、
前記の、前記ニューラルネットワークと組み合わせた前記モンテカルロ木探索を用いて、前記ボードゲームの予測ボード経路をサーチするステップは、
前記ボードゲームに対応するゲーム木において、前記モンテカルロ木探索を用いてサーチを行い、各層のノードのアクション確率分布πを出力するステップであって、前記各層のノードのアクション確率分布πは次の一手の駒の候補駒置き位置及び確率分布を表す、ステップ;及び
各層のノードの下で前記アクション確率分布πが最も高いターゲット駒置き位置に基づいて、前記ボードゲームの予測ボード経路を得るステップを含み、
前記の、前記エネルギー固有値Eが勝利条件を満足しないことに応じて、今回の予測過程に基づいて前記ニューラルネットワークにおけるパラメータを更新することは、
前記エネルギー固有値Eが前記勝利条件を満足したいことに応じて、前記予測ボード経路を前記ニューラルネットワークの入力とし、前記ポリシーネットワークにより出力されるポリシーベクトルp及び前記バリューネットワークにより出力されるバリュー収益vを取得するステップ;及び
前記ポリシーベクトルpと前記アクション確率分布πとの間の類似性を最大化し、かつ前記バリュー収益vと未勝利時の報酬値zとの間の誤差を最小化することを目標とし、前記ニューラルネットワークにおけるパラメータを更新するステップを含む、方法。
【請求項4】
請求項3に記載の方法であって、
前記の、前記ボードゲームに対応するゲーム木において、前記モンテカルロ木探索を用いてサーチを行い、各層のノードのアクション確率分布πを出力するステップは、
前記ボードゲームの第i層のターゲットノードb
iの下で、前記ポリシーネットワークにより第i+1層のノードb
i+1の候補駒置き位置a
i+1及び駒置き確率p
i+1を出力するステップであって、前記第i層のターゲットノードb
iは第i層のノードのターゲット駒置き位置に対応し、iはm-1以下の整数である、ステップ;
前記候補駒置き位置a
i+1に基づいて前記第i+1層のノードb
i+1を展開し、前記バリューネットワークにより前記第i+1層のノードb
i+1に対して評価を行い、各前記候補駒置き位置a
i+1のバリュー収益v
i+1を得るステップ;
前記駒置き確率p
i+1、前記バリュー収益v
i+1、及び信頼度上限Uに基づいて、前記第i+1層のノードb
i+1のうちのターゲットノードを決定するステップ;
前記第i+1層のノードが第m層のノードでないときに、前記第i+1層のターゲットノードを新しい第i層のターゲットノードとし、上述の3つのステップを実行するステップ;及び
前記第i+1層のノードが第m層のノードであるときに、前記各層のノードのアクション確率分布πを出力するステップを含む、方法。
【請求項5】
請求項4に記載の方法であって、
前記信頼度上限Uは、前記候補駒置き位置の過去サーチ回数に関連している、方法。
【請求項6】
請求項1乃至5の何れか1項に記載の方法であって、
前記の、前記初期ハミルトニアンH0から前記ターゲット基底状態エネルギーE1までの断熱発展経路をサーチすることをボードゲームに変換するステップは、
前記初期ハミルトニアンH0から前記ターゲット基底状態エネルギーE1までの断熱発展経路を断熱発展関数s(t)と表すステップ;
フーリエ変換により、前記断熱発展関数s(t)を周波数領域の状態ベクトルシーケンスbに変換するステップであって、前記状態ベクトルシーケンスbはm個のベクトル次元を含み、各ベクトル次元の数値範囲は2Lである、ステップ;及び
前記ベクトル次元の次元数m及び前記各ベクトル次元の数値範囲2Lに基づいて変換することによって前記ボードゲームを得るステップであって、前記ボードゲームに対応するボードは2L/△行及びm列を含み、各列は1つの駒の駒置き位置に対応し、△は離散化するためのステップ長である、ステップを含む、方法。
【請求項7】
断熱発展経路の予測装置であって、
量子計算問題のターゲットハミルトニアンH1を取得するための取得モジュール;
前記ターゲットハミルトニアンH1に基づいて、初期ハミルトニアンH0及びターゲット基底状態エネルギーE1を決定するための決定モジュール;
前記初期ハミルトニアンH0から前記ターゲット基底状態エネルギーE1までの断熱発展経路をサーチすることをボードゲームに変換するための変換モジュール;
ニューラルネットワークと組み合わせたモンテカルロ木探索を用いて、前記ボードゲームの最適ボード経路を求めるための木探索モジュール;及び
前記最適ボード経路に基づいて前記断熱発展経路を出力するための出力モジュールを含む、装置。
【請求項8】
請求項7に記載の装置であって、
前記木探索モジュールは、
前記ニューラルネットワークと組み合わせた前記モンテカルロ木探索を用いて、前記ボードゲームの予測ボード経路をサーチするステップ;
前記予測ボード経路に基づいて予測断熱発展経路を取得するステップ;
量子計算環境に基づいて、前記予測断熱発展経路が終態に発展するときのエネルギー固有値Eを計算することによって取得するステップ;
前記エネルギー固有値Eが勝利条件を満足しないことに応じて、今回の予測過程に基づいて前記ニューラルネットワークにおけるパラメータを更新し、そして、更新した後に、再び、前記の、前記ニューラルネットワークと組み合わせた前記モンテカルロ木探索を用いて、前記ボードゲームの予測ボード経路をサーチするステップを実行するステップ;及び
前記エネルギー固有値Eが前記勝利条件を満足していることに応じて、前記予測ボード経路を前記ボードゲームの最適ボード経路と決定するステップを実行するために用いられ、
前記勝利条件は、前記エネルギー固有値Eと前記ターゲット基底状態エネルギーE1との間の差が閾値よりも小さいことを含む、装置。
【請求項9】
請求項8に記載の装置であって、
前記ニューラルネットワークはポリシーネットワーク及びバリューネットワークを含み、
前記木探索モジュールは、
前記ボードゲームに対応するゲーム木において、前記モンテカルロ木探索を用いてサーチを行い、各層のノードのアクション確率分布πを出力するステップであって、前記各層のノードのアクション確率分布πは次の一手の駒の候補駒置き位置及び確率分布を表す、ステップ;及び
各層のノードの下で前記アクション確率分布πが最も高いターゲット駒置き位置に基づいて、前記ボードゲームの予測ボード経路を取得するために用いられ、
前記木探索モジュールは、さらに、
前記エネルギー固有値Eが前記勝利条件を満足しないことに応じて、前記予測ボード経路を前記ニューラルネットワークの入力とし、前記ポリシーネットワークにより出力されるポリシーベクトルp及び前記バリューネットワークにより出力されるバリュー収益vを取得するステップ;及び、
前記ポリシーベクトルpと前記アクション確率分布πとの間の類似性を最大化し、かつ前記バリュー収益vと未勝利時の報酬値zとの間の誤差を最小化することを目標とし、前記ニューラルネットワークにおけるパラメータを更新するステップを実行するために用いられる、装置。
【請求項10】
請求項9に記載の装置であって、
前記木探索モジュールは、
前記ボードゲームの第i層のターゲットノードb
iの下で、前記ポリシーネットワークにより第i+1層のノードb
i+1の候補駒置き位置a
i+1及び駒置き確率p
i+1を出力するステップであって、前記第i層のターゲットノードb
iは第i層のノードのターゲット駒置き位置に対応し、iはm-1以下の整数である、ステップ;
前記候補駒置き位置a
i+1に基づいて前記第i+1層のノードb
i+1を展開し、前記バリューネットワークにより前記第i+1層のノードb
i+1に対して評価を行い、各前記候補駒置き位置a
i+1のバリュー収益v
i+1を得るステップ;
前記駒置き確率p
i+1、前記バリュー収益v
i+1、及び信頼度上限Uに基づいて、前記第i+1層のノードb
i+1のうちのターゲットノードを決定するステップ;
前記第i+1層のノードが第m層のノードでないときに、前記第i+1層のターゲットノードを新しい第i層のターゲットノードとし、上述の3つのステップを実行するステップ;及び
前記第i+1層のノードが第m層のノードであるときに、前記各層のノードのアクション確率分布πを出力するステップを実行するために用いられる、装置。
【請求項11】
請求項10に記載の装置であって、
前記信頼度上限Uは、前記候補駒置き位置の過去サーチ回数に関連している、装置。
【請求項12】
請求項7乃至11のうちの何れか1項に記載の装置であって、
前記変換モジュールは、
前記初期ハミルトニアンH0から前記ターゲット基底状態エネルギーE1までの断熱発展経路を断熱発展関数s(t)と表すステップ;
フーリエ変換により、前記断熱発展関数s(t)を周波数領域の状態ベクトルシーケンスbに変換するステップであって、前記状態ベクトルシーケンスbはm個のベクトル次元を含み、各ベクトル次元の数値範囲は2Lである、ステップ;及び
前記ベクトル次元の次元数m及び前記各ベクトル次元の数値範囲2Lに基づいて変換することによって前記ボードゲームを得るステップであって、前記ボードゲームに対応するボードは2L/△行及びm列を含み、各列は1つの駒の駒置き位置に対応し、△は離散化するためのステップ長である、ステップを実行するために用いられる、装置。
【請求項13】
コンピュータ装置であって、
処理器;及び
前記処理器に接続される記憶器を含み、
前記記憶器には、コンピュータプログラムが記憶されており、
前記コンピュータプログラムは、前記処理器によって実行されることで、請求項1乃至6のうちの何れか1項に記載の断熱発展経路の予測方法を実現する、コンピュータ装置。
【請求項14】
請求項1乃至6のうちの何れか1項に記載の断熱発展経路の予測方法により予測される断熱発展経路を用いて断熱発展を行う、量子コンピュータ。
【請求項15】
コンピュータに、請求項1乃至6のうちの何れか1項に記載の断熱発展経路の予測方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2020年01月10日に中国専利局に出願した、出願番号が202010027656.8、発明の名称が「断熱発展経路の予測方法、装置、機器及び記憶媒体」である中国特許出願に基づく優先権を主張するものであり、その全内容を参照によりここに援用する。
【0002】
本出願の実施例は、人工知能の機械学習分野に関し、特に、断熱発展(evolution)経路の予測方法、装置、機器及び記憶媒体に関する。
【背景技術】
【0003】
断熱量子計算が量子コンピュータを実現する理論モデルの1つである。断熱量子計算は1つの計算問題を物理プロセスに変換し、そのオリジナル問題の答えは1つのターゲットハミルトニアンの基底状態にマッピングすることができる。
【0004】
断熱量子計算の計算過程は、基底状態が準備されやすい初期ハミルトニアン(H0)から始まり、ターゲットハミルトニアン(H1)に断熱発展するものであり、該発展過程は断熱発展経路とも称される。断熱発展過程全体の時間Tが十分に長い(発展が十分に遅い)場合、量子コンピュータが準備する量子状態はずっと、瞬間ハミルトニアンの基底状態に保つことができる。関連技術では、強化学習におけるQ-learningを採用して最適な断熱発展経路を見つける。
【0005】
断熱発展経路における1つのシステム状態が次の1つのシステム状態に発展する選択可能なアクション(action)が多くなるときに、Q-learningの効率が低下し、収束が不安定になる傾向がある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本出願の実施例は、少なくとも、最適な断熱発展経路を予測するときの効率及び収束性を向上させることができる断熱発展経路の予測方法、装置、機器及び記憶媒体を提供することを課題とする。
【課題を解決するための手段】
【0007】
本出願の1つの側面によれば、本出願は断熱発展経路の予測方法を提供し、前記方法は、
量子計算問題のターゲットハミルトニアンH1を取得し;
前記ターゲットハミルトニアンH1に基づいて、初期ハミルトニアンH0及びターゲット基底状態エネルギーE1を決定し;
前記初期ハミルトニアンH0から前記ターゲット基底状態エネルギーE1までの断熱発展経路に対してのサーチ(探索)をボードゲームに変換し;
ニューラルネットワークと組み合わせたモンテカルロ木探索を用いて、前記ボードゲームの最適ボード経路を求め;及び
前記最適ボード経路に基づいて前記断熱発展経路を得るステップを含む。
【0008】
本出願の1つの側面によれば、本出願は断熱発展経路の予測装置を提供し、前記装置は、
量子計算問題のターゲットハミルトニアンH1を取得するための取得モジュール;
前記ターゲットハミルトニアンH1に基づいて、初期ハミルトニアンH0及びターゲット基底状態エネルギーE1を決定するための決定モジュール;
前記初期ハミルトニアンH0から前記ターゲット基底状態エネルギーE1までの断熱発展経路に対してのサーチをボードゲームに変換するための変換モジュール;
ニューラルネットワークと組み合わせたモンテカルロ木探索を用いて、前記ボードゲームの最適ボード経路を求めるための木探索モジュール;
前記最適ボード経路に基づいて前記断熱発展経路を出力するための出力モジュールを含む。
【0009】
本出願のもう1つの側面によれば、本出願の実施例はコンピュータ装置を提供し、前記コンピュータ装置は処理器及び記憶器を含み、前記記憶器には少なくとも1つの指令、少なくとも1つのプログラム、コードセット又は指令セットが記憶されおり、前記少なくとも1つの指令、前記少なくとも1つのプログラム、前記コードセット又は指令セットは前記処理器によりロード及び実行されることで上述の断熱発展経路の予測方法を実現する。
【0010】
本出願のもう1つの側面によれば、本出願の実施例は量子コンピュータを提供し、前記量子コンピュータは、上述のような方法により予測された断熱発展経路を用いて断熱発展を行うように構成される。
【0011】
本出願のもう1つの側面によれば、本出願の実施例はコンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体には少なくとも1つの指令、少なくとも1つのプログラム、コードセット又は指令セットが記憶されおり、前記少なくとも1つの指令、前記少なくとも1つのプログラム、前記コードセット又は指令セットは前記処理器によりロード及び実行されることで上述の断熱発展経路の予測方法を実現する。
【0012】
本出願のもう1つの側面によれば、本出願の実施例はコンピュータプログラムプロダクトを提供し、前記コンピュータプログラムプロダクトは処理器により実行されるときに上述の断熱発展経路の予測方法を実現するために用いられる。
【0013】
本出願の1つの側面によれば、本出願の実施例はコンピュータプログラムプロダクトを提供し、該コンピュータプログラムプロダクトはコンピュータ指令を含み、該コンピュータ指令はコンピュータ可読記憶媒体に記憶されている。コンピュータ装置の処理器はコンピュータ可読記憶媒体から該コンピュータ指令を読み取り、処理器は該コンピュータ指令を実行することにより、該コンピュータ装置に、上述の断熱発展経路の予測方法を実行させる。
【発明の効果】
【0014】
本出願の実施例により提供される技術案は少なくとも以下の有利な効果を有する。
【0015】
先に断熱発展経路のサーチ問題をボードゲームに変換し、そして、ニューラルネットワークと組み合わせたモンテカルロ木探索を用いてボードゲームの最適ボード経路を求め、最適ボード経路に基づいて最適な断熱発展経路を逆推論することができるため、断熱発展経路における各状態の候補アクションが比較的多いときにでも、依然として、安定的に収束し得る断熱発展経路を迅速かつ効率的に見つけ、断熱量子計算システムの断熱発展効率を向上させ、ターゲット基底状態を準備する時間を短縮することができる。
【図面の簡単な説明】
【0016】
本出願の実施例における技術案をより明確に説明するために、以下、実施例を説明するに用いる必要のある図面について簡単に紹介する。明らかのように、以下の説明における図面は本出願の幾つかの実施例のみであり、当業者は、創造の労働をせずに、これらの図面に基づいて他の図面を得ることもできる。
【
図1】本出願の1つの実施例により提供される計算システムのブロック図である。
【
図2】本出願の1つの実施例により提供される断熱発展経路の予測方法のフローチャートである。
【
図3】本出願の1つの実施例により提供される、断熱発展経路をボードゲームに変換するフローチャートである。
【
図4】本出願の1つの実施例により提供されるボードゲームのボードを示す図である。
【
図5】本出願のもう1つの実施例により提供される断熱発展経路の予測方法のフローチャートである。
【
図6】本出願の1つの実施例により提供される、ボードゲームに対応するゲーム木を示す図である。
【
図7】本出願の1つの実施例により提供されるモンテカルロ木探索の4つの段階を示す図である。
【
図8】本出願の1つの実施例により提供されるモンテカルロ木探索及びニューラルネットワークの原理を示す図である。
【
図9】本出願の1つの実施例により提供される断熱発展経路の予測方法のフローチャートである。
【
図10】本出願の1つの実施例により提供される、モンテカルロ木探索のサーチ過程におけるフローチャートである。
【
図11】本出願の1つの実施例により提供されるニューラルネットワークの訓練時における原理を示す図である。
【
図12】本出願の1つの実施例により提供される断熱発展経路の予測方法のフローチャートである。
【
図13】本出願により予測された断熱発展経路と、従来の断熱発展経路との効果の対比図である。
【
図14】本出願により予測された断熱発展経路と、従来の断熱発展経路との効果の対比図である。
【
図15】本出願により予測された断熱発展経路と、従来の断熱発展経路との効果の対比図である。
【
図16】本出願により予測された断熱発展経路と、従来の断熱発展経路との効果の対比図である。
【
図17】本出願により予測された断熱発展経路と、従来の断熱発展経路との効果の対比図である。
【
図18】本出願の1つの実施例により提供される断熱発展経路の予測装置のブロック図である。
【
図19】本出願の1つの実施例により提供されるコンピュータ装置の構成図である。
【発明を実施するための形態】
【0017】
本出願の目的、技術案及び利点をより明らかにするために、以下、図面と併せて本出願の実施形態についてさらに詳細に説明する。
【0018】
まず、本出願の幾つかの名詞(用語)を簡単に紹介する。
【0019】
1、量子計算:量子論理に基づいて計算を行う計算方式であり、データを記憶する基本単位はqubit、即ち、量子ビットである。
【0020】
2、量子ビット(Qubit):量子計算の基本ユニットである。従来のコンピュータが0及び1をバイナリの基本ユニットとして使用する。これとは異なるのは、量子計算は0及び1を同時に計算することができ、量子システム(システムと略称される)は0及び1の線形重ね合わせ状態、即ち、
【0021】
【数1】
にあり得る。ここ、α及びβはシステムの0及び1における確率振幅を示し、1つの複素数である。それらのモジュラー二乗|α|
2及び|β|
2は、0及び1にある確率を表す。1つの例において、|α|
2+|β|
2=1である。
【0022】
3、ハミルトニアン:量子システムの総エネルギーを記述する1つのエルミート共役の行列Hである。
【0023】
4、固有状態:1つのハミルトニアン行列Hについて、方程式
【0024】
【0025】
【0026】
5、基底状態:エネルギーが最も低い固有状態である。
【0027】
6、分離可能状態及びエンタングル状態:A及びBの2つの部分からなる1つの量子システムについて、その量子状態が
【0028】
【0029】
【0030】
【数6】
に分解することができれば、それは分離可能状態と称され、そうでなければ、それはエンタングル状態と称される。
【0031】
7、断熱量子計算:量子コンピュータを実現する理論モデルの1つであり、1つの計算問題を1つの物理プロセスに変換し、そのオリジナル問題の答えは、1つのターゲットハミルトニアンの基底状態にマッピングすることができる。断熱量子計算の計算過程は、基底状態が準備されやすい初期ハミルトニアン(H0)から始まり、ターゲットハミルトニアン(H1)に断熱発展するものである。断熱発展過程全体の時間Tが十分に長い(発展が十分に遅い)場合、量子コンピュータが準備する量子状態はずっと、瞬間ハミルトニアンの基底状態に保つすることができる。古典的な断熱量子計算過程におけるハミルトニアンは、以下のように、初期ハミルトニアン及びターゲットハミルトニアンが時間の経過に伴って変化する組み合わせ形式として記述することができる。
【0032】
【数7】
断熱発展の(schedule)関数はs(t):[0,T]→[0,1]と定義される。
【0033】
8、忠実度:2つ量子純粋状態
【0034】
【0035】
【数9】
について、このベクトルの内積のモジュラー二乗
【0036】
【数10】
と定義される。断熱量子計算過程の出力状態と、ターゲットハミルトニアンH1の基底状態との間の類似度を表すために用いられ、出力状態がターゲットハミルトニアンH1の基底状態に近いほど、忠実度が高くなる。
【0037】
9、最適な断熱経路:固定したTについて、最適な断熱経路は以下の最適化問題の解である。
【0038】
【0039】
【0040】
【0041】
10、量子アニーリング:断熱発展は1つの比較的理想的な量子計算理論モデルである。実際の量子ハードウェアがノイズによる干渉を受けることがあり、又は、断熱発展時間Tが十分に長くないため、量子コンピュータが準備する量子状態は、理論上の断熱発展のように、ずっと、瞬間ハミルトニアンの基底状態に保つことができない。このような計算モードは量子アニーリングである。
【0042】
11、強化学習:機械学習の1つのブランチであり、AIアルゴリズムは、環境とのインタラクティブなプロセスによって次のようなことを得ることができ、即ち、如何に1つのタスクのフィードバックを完了し、その中から如何に効率的にタスクを完了するかを学習することである。
【0043】
12、意思決定ポリシーπ:強化学習フレームワークにおける1つの特定のニューラルネットワークである。1つのシステムの状態を入力として与えると、ポリシーネットワークは、実行する必要のあるアクションを出力する。
【0044】
本出願は、“モンテカルロ木探索プラスニューラルネットワーク”の強化学習フレームワークを使用することにより、最適な断熱発展経路を自動設計し、量子アニーリング及び断熱量子計算が量子計算問題を高効率に解決するように支援するための技術案を提供する。ここでの“高効率”とは、(1)ターゲットハミルトニアンの基底状態に対しての量子状態の忠実度を向上させ;(2)量子計算によって与えられるエネルギーを低減することを指す。
【0045】
図1は、本出願の1つの例示的な実施例に示す計算システム100のアーキテクチャを示す図である。該計算システム100は電子コンピュータ120及び量子コンピュータ140を含む。
【0046】
電子コンピュータ120では、ニューラルネットワーク122と組み合わせたモンテカルロ木探索(Monte Carlo Tree Search、MCTS)124が実行されている。例示として、本出願では、ニューラルネットワーク122及びモンテカルロ木探索124と組み合わせた強化学習フレームワークを“量子ゼロ”(量子Goと略称される)と称し得る。該モンテカルロ木探索124は、ニューラルネットワーク122によりガイド(指導)されることで、最適な断熱発展経路s(t)を予測するために用いられる。
【0047】
電子コンピュータ120は量子コンピュータ140に接続される。
【0048】
量子コンピュータ140は、モンテカルロ木探索124が出力する予測断熱発展経路s(t)を実行し、予測断熱発展経路s(t)に従って終態(最終状態)に発展するときのエネルギー固有値Eを出力し、そして、該エネルギー固有値Eを電子コンピュータ120に提供するために用いられる。
【0049】
勝利条件を「エネルギー固有値Eがターゲット基底状態エネルギーE1以下である」とすると、該エネルギー固有値Eが勝利条件に達しない(勝利条件を満足しない)ときに、電子コンピュータ120は、エネルギー固有値Eに基づいてニューラルネットワーク122におけるパラメータを更新し、即ち、強化学習を行う。電子コンピュータ120は、強化学習後のニューラルネットワークを得たら、再び、強化学習後のニューラルネットワークを使用して、モンテカルロ木探索124が最適な断熱発展経路s(t)を予測するように指導する。該エネルギー固有値Eが勝利条件に達した(勝利条件を満足した)ときに、該予測断熱発展経路s(t)は最適な断熱発展経路として出力される。
【0050】
図2は、本出願の1つの例示的な実施例に示す断熱発展経路の予測方法のフローチャートである。本実施例では、該方法が
図1に示す電子コンピュータ120に応用されることを例にとって説明を行う。該方法は以下のステップを含む。
【0051】
ステップ201:量子計算問題のターゲットハミルトニアンH1を取得する。
【0052】
1つの量子計算問題について、計算過程は、基底状態が準備されやすい初期ハミルトニアンH0から始まり、ターゲットハミルトニアンH1に断熱発展するものである。断熱発展過程全体の時間Tが十分に長い(即ち、発展が十分に遅い)場合、量子コンピュータによって準備される量子状態はずっと、瞬間ハミルトニアンの基底状態に保つことができる。
【0053】
オプションとして、量子計算問題は次のような問題のうちの少なくとも1つを含み、即ち、A:シミュレーション待ちの化学分子システム、B:基底状態が求められる(計算される)量子多体物理モデル、及びC:量子物理問題に変換される組み合わせ最適化問題、例えば、3AT、MaxCut、MaxQPなどの組み合わせ最適化問題である。
【0054】
断熱量子計算過程におけるハミルトニアンは、以下のように、初期ハミルトニアンH0及びターゲットハミルトニアンH1が時間の経過に伴って変化する組み合わせ形式として表すことができる。
【0055】
【数14】
ここで、H0は初期ハミルトニアンであり、H1はターゲットハミルトニアンである。s(t)は断熱発展の(schedule)関数であり、s(t):[0,T]→[0,1]と定義される。Tは事前設定の断熱発展時間長であり、tは時間である。
【0056】
ステップ202:ターゲットハミルトニアンH1に基づいて、初期ハミルトニアンH0及びターゲット基底状態エネルギーE1を決定する。
【0057】
初期ハミルトニアンH0は準備されやすいハミルトニアンである。ターゲット基底状態エネルギーE1は期待されるエネルギー閾値である。ターゲット基底状態エネルギーE1は、初期ハミルトニアンH0が終態に断熱発展するときの期待エネルギーの量子状態(エネルギーが最も低い量子状態と理解されても良い)である。
【0058】
量子計算問題のターゲットハミルトニアンH1に基づいて、初期ハミルトニアンH0及びターゲット基底状態エネルギーE1を設定することができる。例えば、初期ハミルトニアンH0及びターゲット基底状態エネルギーE1は作業員により設定されても良く、又は、初期ハミルトニアンH0及びターゲット基底状態エネルギーE1はプログラムにより設定されても良い。
【0059】
ステップ203:初期ハミルトニアンH0からターゲット基底状態エネルギーE1までの断熱発展経路に対してのサーチ(探索)をボードゲームに変換する。
【0060】
断熱発展経路(断熱経路と略称される)は、初期ハミルトニアンH0からターゲット基底状態エネルギーE1までの発展経路である。断熱発展経路のサーチ問題は、数学における次元から、1つのボードゲーム、即ち、Board Game問題とシミュレーションすることができる。該変換過程は、
図3に示すように、少なくとも以下のステップを含む。
【0061】
203a:初期ハミルトニアンH0からターゲット基底状態エネルギーE1までの断熱発展経路を断熱発展関数s(t)と表し、ここで、断熱発展関数はs(t):[0,T]→[0,1]である。
【0062】
203b:フーリエ変換を用いて、断熱発展関数s(t)を周波数領域の状態ベクトルシーケンス
【0063】
【数15】
(本出願では、bと略称する場合がある)に変換し、状態ベクトルシーケンス
【0064】
【数16】
はm個のベクトル次元を含み、各ベクトル次元の数値範囲は2Lである。
【0065】
フーリエ変換を用いて、断熱発展関数s(t)は以下の公式2のように周波数領域内で表すことができる。
【0066】
【数17】
ここで、tは時間であり、Tは事前設定の断熱発展時間長であり、b
iは状態ベクトルであり、iはM以下の整数である。これにより、断熱発展経路のサーチ問題は、断熱発展により得られる終態
【0067】
【数18】
のエネルギーができるだけ低くなるように状態ベクトルシーケンス(b
1,b
2,…,b
M)を見つける問題に変換することができる。即ち、最適な状態ベクトルシーケンス
【0068】
【数19】
を見つける必要がある。各b
iの値はすべて、所定範囲内の離散値に事前設定されており、即ち、
【0069】
【0070】
ここで、Δは離散化ステップ長(離散化するためのステップ長)であり、-l及びlはbiの値の下限及び上限である。
【0071】
203c:ベクトル次元の次元数m及び各ベクトル次元の数値範囲2Lに基づいて変換することによりボードゲームを取得する。
【0072】
図4に示す例示的なボードのように、変換することにより得られたボードゲームに対応するボードは2L/△行及びm列を含み、各列は1つの駒の駒置き位置に対応し、△は離散化ステップ長である。即ち、ボードの左側からボードの右側へ順次駒を置き、各列にはちょうど1つの駒(ジャスト)が置かれており、各列における駒の候補駒置き位置は2L/△個ある。M個の駒がすべて置かれたボードレイアウトは、1つの明確な状態ベクトルシーケンス
【0073】
【数21】
に直接対応する。異なる実施例において、△は他の英語の変数を用いて表されても良いが、本出願ではこれについて限定しない。
【0074】
ステップ204:ニューラルネットワークと組み合わせたモンテカルロ木探索を用いて、ボードゲームの最適ボード経路を求める。
【0075】
ボードゲームのゲーム過程は数学上、ゲーム木と表すことができる。本実施例では、ゲーム木はm層のノードを含み、各ノードの下位層のノードは2L/△個あり、第i層のノードは第i列のボードにおける駒の駒置き位置に対応する。ゲーム木における最上位層のノードをルートノードとすると、最下位層のノードがリーフノード(leaf node)とされる。最適ボード経路は、ゲーム木におけるルートノードからリーフノードまでの間の1つの経路である。
【0076】
モンテカルロ木探索は、人工知能の問題において最適な決定を下す方法の1つであり、一般的には、組み合わせゲームにおけるアクション(move)計画形式である。それは、ランダムシミュレーションの一般性と木探索の正確性を組み合わせ、ゲーム木での応用が優れており、例えば、囲碁問題におけるアルファ碁(Go)(Alpha Zero)もこのような計算アーキテクチャを採用している。例示的に、モンテカルロ木探索は次のような4つの段階(ステップ)、即ち、1、選択(Selection);2、展開(expansion);3、シミュレーション(Simulation);及び4、バックプロパゲーション(Backpropagation)を含む。4つの段階は複数回実行することができる。
【0077】
ニューラルネットワークと組み合わせたモンテカルロ木探索の強化学習フレームワークは、ニューラルネットワーク補助(支援)モンテカルロ木探索(即ち、ニューラルネットワークにより支援されるモンテカルロ木探索)を採用する機械学習アーキテクチャである。例示として、ニューラルネットワークはモンテカルロ木探索における選択段階及びシミュレーション段階を支援することができる。該ニューラルネットワークは、畳み込みニューラルネットワーク、例えば、残差(Residual)アーキテクチャを採用する残差ネットワークResNetであっても良いい。
【0078】
1つの例において、ニューラルネットワークはポリシーネットワーク及びバリューネットワークを含む。ポリシーネットワークは、モンテカルロ木探索におけるノードの選択を支援することで、サーチ時のサーチ空間を効率的に減少させるために用いられ、バリューネットワークは、モンテカルロ木探索におけるシミュレーション段階を補助することで、シミュレーション段階の正確性及び速度を向上させるために用いられる。
【0079】
ニューラルネットワークと組み合わせたモンテカルロ木探索を用いて、ボードゲームの最適ボード経路を迅速に求めることができる。
【0080】
ステップ205:最適ボード経路に基づいて断熱発展経路を取得する。
【0081】
ボードゲームにおける最適ボード経路は、最適な状態ベクトルシーケンス
【0082】
【数22】
に対応する。最適な状態ベクトルシーケンス
【0083】
【数23】
に基づいて最適な断熱発展経路s(t)を得ることができる。
【0084】
要約すると、本実施例により提供される方法では、先に断熱発展経路のサーチ問題をボードゲームに変換し、そして、ニューラルネットワークと組み合わせたモンテカルロ木探索を用いてボードゲームの最適ボード経路を求め、最適ボード経路に基づいて最適な断熱発展経路を逆推論することができるため、断熱発展経路における各状態の候補アクションが比較的多いときにでも、依然として、安定的に収束し得る断熱発展経路を迅速かつ効率的に見つけ、断熱量子計算システムの断熱発展効率を向上させ、ターゲット基底状態を準備する時間を短縮することができる。
【0085】
強化学習(Reinforcement Learning)は機械学習の1つのブランチである。簡単に言えば、強化学習とは、最終的な報酬を最大化するために、1つの環境状態に基づいてどのように行動するかを決定する方法を学習することである。本出願では、ニューラルネットワークと組み合わせたモンテカルロ木探索により断熱発展経路を予測することができ、該断熱発展経路を量子コンピュータ(即ち、環境)に入力して実際に実行してもらうことで、量子コンピュータが終態に発展するときのエネルギー固有値Eを取得し、そして、該エネルギー固有値Eを報酬としてニューラルネットワークに対して強化学習を行うことができる。複数回繰り返して試行することにより、最終的には、モンテカルロ木探索は該ボードゲームにおける駒の最適な配置をまとめることができ、これは、最適な断熱発展経路を見つけたことを意味する。
【0086】
図2に基づく選択可能な実施例において、ステップ204は、
図5に示すように、少なくとも以下のステップを含む。
【0087】
ステップ204a:ニューラルネットワークと組み合わせたモンテカルロ木探索を用いて、ボードゲームの予測ボード経路を探索(サーチ)する。
【0088】
既知のニューラルネットワークにおけるパラメータθの下で、ニューラルネットワークと組み合わせたモンテカルロ木探索を用いて、ボードゲームに対応するゲーム木に対してサーチを行い、ボードゲームの予測ボード経路を取得する。それは、現在の予測能力下の最適ボード経路である。
【0089】
ステップ204b:予測ボード経路に基づいて予測断熱発展経路を取得する。
【0090】
電子コンピュータは予測ボード経路を状態ベクトルシーケンス
【0091】
【数24】
にマッピングし、状態ベクトルシーケンス
【0092】
【数25】
に基づいて予測断熱発展経路s(t)を取得する。
【0093】
ステップ204c:量子計算環境に基づいて、予測断熱発展経路が終態に発展するときのエネルギー固有値Eを計算することにより取得する。
【0094】
電子コンピュータは予測断熱発展経路s(t)を量子コンピュータに伝送し、量子コンピュータは、該予測断熱発展経路s(t)に基づいて断熱発展を、終態に発展するように実行し、終態に発展した後の量子状態及び対応するエネルギー固有値Eを測定する。
【0095】
1つの代替的な実現として、電子コンピュータは、固定した断熱発展時間長Tの下で、予測断熱発展経路s(t)に基づいて量子シュレディンガー方程式を解き、そして、その結果に基づいて終態に発展した後の量子状態及び対応するエネルギー固有値Eを取得する。
【0096】
ステップ204d:エネルギー固有値Eがターゲット基底状態エネルギーE1よりも大きいかを判断する。
【0097】
1つの例において、勝利条件は、エネルギー固有値Eとターゲット基底状態エネルギーE1との間の差が閾値よりも小さいことである。閾値が0のときに、エネルギー固有値Eがターゲット基底状態エネルギーE1以下であることを勝利条件とする。本実施例では、エネルギー固有値Eがターゲット基底状態エネルギーE1以下であることを勝利条件とするケースを例にとって説明を行う。
【0098】
エネルギー固有値Eがターゲット基底状態エネルギーE1よりも大きいことに応じて、判定結果が「勝利条件を満足しない」であり、ステップ204eを実行し、エネルギー固有値Eがターゲット基底状態エネルギーE1以下であることに応じて、判定結果が「勝利条件を満足した」であり、ステップ204fを実行する。
【0099】
ステップ204e:今回の予測過程に基づいてニューラルネットワークにおけるパラメータを更新し、更新後、再びステップ204aを実行する。
【0100】
エネルギー固有値Eがターゲット基底状態エネルギーE1よりも大きいときに、最適な断熱発展経路をまだ見つけていないことを表し、今回の予測過程に基づいて、未勝利(勝てなかったこと)の報酬値z=-1を決定し、報酬値z=-1(及びモンテカルロ木探索が今回出力した予測ボード経路b及びアクションポリシー確率π)に基づいて、ニューラルネットワークにおけるパラメータθに対して更新を行い、より良いパフォーマンスを有するパラメータを取得することができる。ニューラルネットワークのパラメータθを更新した後に、ステップ204a乃至ステップ204dを再実行する。
【0101】
ステップ204f:予測ボード経路をボードゲームの最適ボード経路と決定する。
【0102】
エネルギー固有値Eがターゲット基底状態エネルギーE1以下であるときに、最適な断熱発展経路を見つけたことを表し、電子コンピュータは、モンテカルロ木探索が今回出力した予測ボード経路をボードゲームの最適ボード経路と決定する。
【0103】
なお、本出願における“最適ボード経路”は、必ずしも理論上の最適ボード経路ではなく、勝利条件が満足されたときの比較的最適なボード経路である。即ち、本出願における“最適”は、狭義の理論上の限界値と理解されるべきではない。
【0104】
要約すると、本実施例により提供される方法では、AIアルゴリズム(モンテカルロ木探索+ニューラルネットワーク)により現在の能力下で最適な予測ボード経路を予測した後に、量子計算環境からフィードバックされたエネルギー固有値Eを報酬として採用し、エネルギー固有値Eが勝利条件を満足しないときに、報酬に基づいて、ニューラルネットワークの中のパラメータを更新し、より優れたニューラルネットワークを取得することができる。これにより、複数回の訓練又は更新過程を経た後に、AIアルゴリズムは、勝利条件が満足された最適ボード経路を出力することができる。
【0105】
以下、“モンテカルロ木探索+ニューラルネットワーク”の実行過程を容易に理解するために、
1、ゲーム木;
2、モンテカルロシミュレーション;
3、基本的なモンテカルロ木探索;及び
4、ニューラルネットワークと組み合わせたモンテカルロ木探索
という流れに従って説明を行う。
【0106】
1、ゲーム木
ゲーム木はツリー形式のデータ構造であり、そのうち、各ノードはゲームの決定状態を表す。1つのノードからそのサブノードへの変換は1つのアクション(action)と称される。ノードのサブノード数は分岐係数(branching
factor)と称される。ゲーム木のルートノードはゲームの初期状態を表す。ゲーム木のリーフノード(leaf
node)は、サブノードを有しないノードであり、ゲームを続行できないことを表す。リーフノードの状態を評価することができ、また、こののラウンドのゲームの結果(勝ち又は負け)をまとめることができる。
【0107】
図4から分かるように、本出願におけるボードゲームに対応するゲーム木はm+1層のノードを含み、ルートノードは第0層のノードであり、第i層のノードはi番目の状態b
iの駒置き位置に対応し、各層のノードの分岐係数は2L/△であり、即ち、ゲーム木の層数は、ボードの列数m+1に等しく、各層のノードの分岐個数はボードの行数に等しい。
図6は、m=5及び2L/△2=5のゲーム木の例を示している。初期状態で、ルートノードはボード上の空(ブランク)のボードレイアウトに対応し;第1層のノードのうちの左から右への5つのノードはボードの第1列の上から下への5つ候補駒置き位置に対応し、b1の状態で、5番目の候補駒置き位置の後で第2層のノードを展開し;第2層のノードのうちの左から右への5つのノードはボードの第2列の上から下への5つの候補駒置き位置に対応し、b2の状態で、2番目の候補駒置き位置の後で第3層のノードを展開し;第3層のノードのうちの左から右への5つのノードはボードの第3列の上から下への5つの候補駒置き位置に対応し、b3の状態で、5番目の候補駒置き位置の後で第4層のノードを展開し;第4層のノードのうちの左から右への5つのノードはボードの第4列の上から下への5つの候補駒置き位置に対応し、b4の状態で、5番目の候補駒置き位置の後で第5層のノードを展開し;第5層のノードのうちの左から右への5つのノードはボードの第5列の上から下への5つの補駒置き位置に対応し、b5の状態で、3番目の候補駒置き位置の後で今回のゲームを終了する。
【0108】
ルートノードから第5層における3番目のリーフノードのツリートラバーサル(経路)は、ワンゲーム(1局のゲーム)の過程を表す。ワンゲームが終わった後に、第5層における3番目のノードについて評価することができ、つまり、今回のゲームが勝利条件を満足しているかを評価することができる。
【0109】
2、モンテカルロシミュレーション(Monte Carlo simulations)
モンテカルロシミュレーションは確率・統計理論に基づくシミュレーション方法である。モンテカルロシミュレーションの名前は、モナコのカジノに由来している。1つの簡単なグラフィックス問題を以ってモンテカルロシミュレーションの思想(idea)を説明する。即ち、地面上の1つの不規則な図形の面積を求めようとする場合、地面上の該不規則な図形を含む矩形の中に1つの小さなボールをランダムにドロップし、ボールをドロップする度に、ボールドロップカウント(計数)Nを1増やし、小さなボールが不規則な図形に入ったときに、成功カウント(計数)Wを1増やす。ボールを複数回ドロップした後に、不規則な図形の面積がW/Nに等しいと見なす。
【0110】
言い換えると、不規則な図形の面積の求め方が分からないときに、確率・統計学における確率を用いて不規則な図形の面積を予測することができる。
【0111】
なお、モンテカルロシミュレーション及びモンテカルロ木探索は2つの異なるプロセスであるが、考え方は似ている。
【0112】
3、基本的なモンテカルロ木探索
モンテカルロ木探索に戻り、モンテカルロ木探索の主な概念はサーチであり、即ち、ゲーム木を下るの1組(一連)のトラバーサルプロセスである。1回トラバーサルする経路は、ルートノード(初期ゲーム状態又は現在のゲーム状態)から、今回のゲームが終わるまで、完全に展開されていないノードに延伸し得る。モンテカルロツリーにおける各ノードは1つのボードレイアウトを表し、ノードの属性“W/N”は、このノードがN回アクセスされ、W回勝ったことを表す。例えば、最初のルートノードが12/21である場合、合計21回のシミュレーションをし、且つ12回勝ったことを意味する。そのうち、Wは総シミュレーション報酬、Nは総アクセス回数と見なすことができる。
【0113】
基本的なモンテカルロ木探索は
図7に示すように4つのステップを含む。
【0114】
1)選択
ルートノードから下へ、1つの“未展開のサブノードが存在する”ノードbiが到来するまで、各回1つの“最も価値のあるサブノード”を選択する。“未展開のサブノードが存在する”とは、このボードレイアウトには駒を置いたことのない駒置き方が存在することを指す。なな、如何に1つの“最も価値のあるサブノード”を選択するかについては後述する。
【0115】
2)展開
ノードbiについて、属性が“0/0”の1つのサブノード(bi+1層に位置する)を増やし、それは、1つ前のテップにおける“未展開のサブノード”に対応し、即ち、試したことのない1つの駒置き方である。
【0116】
3)シミュレーション
1つ前のステップで新しく増やされたサブノードから、ランダム駒置きポリシーを用いて最後のステップ(一手)に移動し、1つの勝負結果を取得する。一般的な意見によると、ランダム駒置きポリシーは、パワーがかなり弱いが、動きが速いポリシーである。
【0117】
4)バックプロパゲーション
シミュレーション結果(勝利又は失敗)を、新たに増加したサブノードのすべての親ノードに加える。即ち、すべての親ノードについてN+1になり、シミュレーション結果が勝利である場合、すべての親ノードについてW+1になる。
【0118】
シミュレーションを複数回行った後に、各層のノードのうち、最大シミュレーション報酬(又は最大アクセス回数)を有するノードにより形成される経路を最適ボード経路として選択する。
【0119】
4、ニューラルネットワークと組み合わせたモンテカルロ木探索
図6及び
図7から分かるように、ゲーム木の深さ(層数)及び広さ(各層のノード数)が比較的小さい場合、各分岐を列挙する形で、ゲーム木は比較的正しい最適ボード経路を求めることができる。しかし、ゲーム木の深さ及び広さが比較的大きい場合、上述の計算過程におけるサーチ空間が非常に大きいため、計算は難しくなる。
【0120】
本出願の実施例では、ニューラルネットワークを用いてゲーム木のサーチ空間の深さ及び広さを小さくする。主に以下のような操作が含まれる。
【0121】
1)ポリシーネットワークPを提供し、現在のノードbiについて、次のステップ(一手)の駒置き過程において、駒置き可能性が最も高い幾つかの候補駒置き位置ai+1、及び各候補駒置き位置ai+1の駒置き確率p(ai+1,bi)を予測することができる。
【0122】
このように、現在のノードbiについて、モンテカルロ木探索は、すべての下位層のサブノードをサーチする必要がなく、下位層の中で駒置き可能性が最も高い幾つかのサブノードをサーチするだけで良いので、広さの面で、ゲーム木のサーチ空間を小さくすることができる。
【0123】
しかし、ニューラルネットワークにより予測することができない駒置き方を取るために、モンテカルロ木探索は、選択過程において、ポリシーネットワークPにより予測された駒置き確率p(ポリシーベクトルpとも言う)のみを頼りにして予測を行うのではなく、さらに候補駒置き位置の過去アクセス回数と併せて総合的な選択を行う。即ち、モンテカルロ木探索は、下位層のサブノードのうち、“駒置き確率が高く、かつ過去アクセス回数が低い”サブノードを優先的に選択してターゲットサブノードとする。
【0124】
2)バリューネットワークVを提供し、候補駒置き位置ai+1に対応するサブノードbi+1のゲーム結果が勝利である確率vを予測することができる。
【0125】
このように、未展開のサブノードbi+1について、ランダム駒置きポリシーに従って最後のステップ(一手)に到着するシミュレーションを行う必要がなく、直接、バリューネットワークVによりゲーム結果vを予測し得るので、深さの面で、ゲーム木のサーチ空間を小さくすることができる。
【0126】
ニューラルネットワークにおけるポリシーネットワークP及びバリューネットワークVの指導の下で、モンテカルロ木探索はゲーム木の最適ボード経路を迅速にサーチすることができる。
【0127】
図8に示すような例において、ニューラルネットワークは、特徴抽出ネットワーク、ポリシーネットワークP及びバリューネットワークVを含む。予測過程では、現在のボードレイアウトb(前のi個のb
i)を特徴抽出ネットワークに入力して特徴抽出を行ってもらい、そして、抽出された特徴をポリシーネットワークP及びバリューネットワークVに提供して予測を行ってもらう。ポリシーネットワークPは、次の一手の駒の候補駒置き位置及び駒置き確率(ポリシーベクトルpと略称する)を予測するために用いられ、バリューネットワークVは、次の一手の駒に対応するボードレイアウト全体のバリュー収益v(勝つ可能性)を予測するために用いられる。そのため、モンテカルロ木探索は、ポリシーネットワークP及びバリューネットワークVの指導の下で、縮小されたサーチ空間内で、現在の予測能力下の最適ボード経路を迅速に見つけ、予測ボード経路として出力することができる。オプションとして、該予測ボード経路は、各状態で最も高いアクション確率分布πを有するアクションにより得られたものである。
【0128】
量子計算環境(例えば、リアルな断熱量子コンピュータ)は、該予測ボード経路に従って断熱発展を行い、そして、終態に発展するときのエネルギー固有値Eを得ることができる。エネルギー固有値Eが勝利条件を満足しない場合、該予測ボード経路に対応する報酬値がz=-1であり、(b,π,z)を用いてニューラルネットワークのパラメータθに対して更新を行う。そのうち、bは今回予測した予測ボード経路であり、πはモンテカルロ木探索が出力したアクション確率分布であり、zは未勝利(勝たなかったとき)の報酬値である。訓練の目標は、ポリシーベクトルpとアクション確率分布πとの間の類似性を最大化し、かつバリュー収益vと未勝利時の報酬値zとの間の誤差を最小化することである。
【0129】
図9は、本出願の1つの例示的な実施例に示す断熱発展経路の発展方法のフローチャートである。本実施例では、該方法が電子コンピュータ又はコンピュータ装置により実行されることを例にとって説明を行う。該方法は以下のステップを含む。
【0130】
ステップ204a-1:ボードゲームに対応するゲーム木において、モンテカルロ木探索を用いてサーチを行い、各層のノードのアクション確率分布πを出力し、各層のノードのアクション確率分布πは、次の一手の駒の候補駒置き位置及び駒置き確率分布を表す。
【0131】
本出願では、ボードゲームに対応するゲーム木はM+1層のノードを有する。ルートノード(又は或る層のノードのうちのターゲットノード)から、モンテカルロ木探索を用いてサーチを行う。例示として、
図10に示すように、本ステップは以下のサブステップを含む。
【0132】
S1:ボードゲームの第i層のターゲットノードbiの下で、ポリシーネットワークを用いて第i+1層のノードbi+1の候補駒置き位置ai+1及び駒置き確率pi+1を出力する。
【0133】
第i層のターゲットノードbiは第i層のノードのターゲット駒置き位置に対応し、iはm-1以下の整数である。ターゲット駒置き位置は今回予測した最適駒置き位置である。
【0134】
下位層の候補駒置き位置ai+1は通常複数あり、各候補駒置き位置ai+1は各自の駒置き確率pi+1を有する。よって、複数の候補駒置き位置ai+1及び駒置き確率pi+1はポリシーベクトルp(又は駒置き確率分布)と総称することができる。
【0135】
S2:候補駒置き位置ai+1に基づいて第i+1層のノードbi+1を展開し、バリューネットワークを用いて第i+1層のノードbi+1を評価し、各候補駒置き位置ai+1のバリュー収益vi+1を取得する。
【0136】
展開された第i+1層のノードbi+1について、実際のシミュレーションを行う必要がない。バリューネットワークにより、第i+1層のノードbi+1のバリュー収益vi+1を直接予測し得る。各候補駒置き位置ai+1のバリュー収益vi+1は、予測した該候補駒置き位置での勝利確率を表し、即ち、該候補駒置き位置でのゲーム結果である。
【0137】
オプションとして、バリュー収益vi+1は1又は-1により表され、1は勝利を表し、-1は失敗を表す。言い換えれば、-1は、予測結果が「エネルギー固有値Eがターゲット基底状態エネルギーE1よりも大きい」を表し、1は、予測結果が「エネルギー固有値Eがターゲット基底状態エネルギーE1よりも小さく又はそれに等しい(以下である)」を表す。
【0138】
S3:駒置き確率pi+1、バリュー収益vi+1、及び信頼度上限Uに基づいて、第i+1層のノードbi+1のうちのターゲットノードを決定する。
【0139】
例示として、モンテカルロツリーの選択段階において、“開発-探査”トレードオフ(exploitation-exploration
trade-off)の思想に基づいて、以下の公式3のように、第i+1層のターゲットノードの選択を行う。
【0140】
【数26】
そのうち、b
i+1は、第i層のノード選択が実行された後の現在のボード状態であり、aは、次のステップで実行するアクション(即ち、第i+1ステップの駒置き)であり、Qの値は、現在のボード状態b
i+1で、第i+1層でサーチされたノードのバリュー収益v
i+1の平均累積値であり、pは、第i+1層のノードにおいて各候補駒置き位置の駒置き確率p
i+1の確率分布であり、N(b
i+1,a)は、現在の第i+1層のノードにおいて或るリーフノードaの過去サーチ回数であり、
【0141】
【数27】
は、第i+1層のノードのすべてのノードの過去サーチ回数の合計であり、cの値は、サーチ済みのノードと未サーチのノードとのバランスを取るためのパラメータである。
【0142】
また、公式3の中で、プラス記号「+」の左の部分Qは、駒置き確率pi+1及びバリュー収益vi+1に関連しており、右の部分は信頼度上限Uであり、信頼度上限Uは過去サーチ回数に関連している。
【0143】
S4:第i+1層のノードが第m層のノードでないときに、第i+1層のターゲットノードを新しい第i層のターゲットノードとし、再び上述の3つのステップを実行する。
【0144】
S5:第i+1層のノードが第m層のノードであるときに、各層のノードのアクション確率分布πを出力する。
【0145】
ステップ204a-2:各層のノードの下でアクション確率分布πが最も高いターゲット駒置き位置に基づいて、ボードゲームの予測ボード経路を取得する。
【0146】
ステップ204b:予測ボード経路に基づいて予測断熱発展経路を取得する。
【0147】
ステップ204c:量子計算環境に基づいて、予測断熱発展経路が終態に発展するときのエネルギー固有値Eを計算することで取得する。
【0148】
ステップ204d:エネルギー固有値Eがターゲット基底状態エネルギーE1よりも大きいかを判断する。
【0149】
1つの例において、勝利条件は、エネルギー固有値Eとターゲット基底状態エネルギーE1との間の差が閾値よりも小さいことである。閾値が0であるときに、エネルギー固有値Eがターゲット基底状態エネルギーE1以下であることを勝利条件とする。本実施例では、エネルギー固有値Eがターゲット基底状態エネルギーE1以下であることを勝利条件とするケースを例にとって説明する。
【0150】
エネルギー固有値Eがターゲット基底状態エネルギーE1よりも大きいことに応じて、判定結果が「勝利条件を満足しない」であり、ステップ204e-1を実行し、エネルギー固有値Eがターゲット基底状態エネルギーE1以下であることに応じて、判定結果が「勝利条件を満足している」であり、ステップ204fを実行する。
【0151】
ステップ204e-1:エネルギー固有値Eが勝利条件を満たさないことに応じて、予測ボード経路をニューラルネットワークの入力とし、ポリシーネットワークが出力するポリシーベクトルp及びバリューネットワークが出力するバリュー収益vを取得する。
【0152】
ステップ204e-2:ポリシーベクトルpとアクション確率分布πとの間の類似性を最大化し、かつバリュー収益vと未勝利時の報酬値zとの間の誤差を最小化することを目標とし、ニューラルネットワークにおけるパラメータに対して更新を行う。
【0153】
例示として、以下の損失関数に基づいて、ニューラルネットワークにおけるパラメータを調整する。
【0154】
【数28】
ここで、zは未勝利時の報酬値-1であり、vはバリューネットワークが予測したバリュー収益である。πはモンテカルロ木探索が出力したアクションポリシー確率であり、pはポリシーネットワークが予測したポリシーベクトルであり、c’は制御パラメータL2の正規項の1つの係数であり、θはニューラルネットワークのパラメータである。
【0155】
図11に示すように、木探索段階で、各層のノードb1、b2及びb3について、ニューラルネットワークf
θはすべて、対応するポリシーベクトルp及び評価バリューvを出力することができ、ポリシーベクトルp及び評価バリューvは、モンテカルロ木探索を指導するために用いられる。訓練段階で、各層のノードb1、b2及びb3について、モンテカルロ木探索が出力するアクション確率分布π1、π2及びπ3、並びに未勝利時の報酬値Zはサンプルデータとされ、これにより、ニューラルネットワークf
θに対して訓練を行う。
【0156】
ステップ204f:エネルギー固有値Eが勝利条件を満たしたことに応じて、予測ボード経路をボードゲームの最適ボード経路と決定する。
【0157】
要約すると、本実施例により提供される方法では、ニューラルネットワークの指導により、モンテカルロ木探索が、範囲が縮小されたサーチ空間において、最適な予測ボード経路を迅速にサーチし得るようにさせ、サーチの効率を向上させることができる。
【0158】
<適用シナリオ>
1、カナダのD-waveシステムは断熱量子計算に根ざしている。本出願によるアルゴリズムは、このような計算システムの発展効率を向上させ、ターゲット基底状態の準備時間を短縮することができる。非常に不安定な量子システムについて言えば、より短い準備時間は、本出願により、発展過程全体をより良く保護し、量子の利点を維持し、断熱量子コンピュータの開発を加速化できることを意味する。
【0159】
2、汎用量子計算の回路設計をスピードアップする。現在、量子コンピュータの開発を阻んでいる大きな障害は、システム全体のコヒーレンス時間が非常に短いことであり、ハードウェアの観点から、科学者の操作や設計の難しさを増加させている。科学者は、断熱量子計算と回路量子計算の等価性(同等性)を証明しており、また、量子近似最適化(Quantum Approximate Optimization Algorithm、QAOA)アルゴリズムは、1つの断熱経路を量子回路に変換するのを助けることができる。本出願のアルゴリズムが断熱量子の効率を向上させることは、本出願がより短い経路を見つけて従来の意味での量子計算を実現し得ることと同等である。
【0160】
3、パスワードクラッキング:断熱量子計算を使用して、現在の主流の暗号化技術をクラッキングすることができる。本出願のアルゴリズムも同様に、元の最も簡単な線形断熱経路をもとに、プロセス全体を高速化し、パスワード解読の効率を大幅に向上させることができる。
【0161】
近年、強化学習アルゴリズムはタスク経路設計において広く使用されている。特に、アルファ碁(Alpha Zero)アルゴリズムは、囲碁などのゲームで大きな進歩を遂げた。本出願の発明者は次のようなことを発見した。即ち、“モンテカルロ木探索プラスニューラルネットワーク”に基づく強化学習フレームワークを調整及び改良することにより、最適な断熱経路s(t)を設計し、量子アニーリング及び断熱量子計算が計算問題をより効率的に解決できるように支援することができる。
【0162】
本出願では、断熱発展のschedule関数s(t)が、異なる周波数のsin関数の重ね合わせに展開される。即ち、以下のように、フーリエ変換を用いてs(t)を周波数領域内で表す。
【0163】
【0164】
【数30】
のエネルギーをできるだけ低くするために、b
1,b
2,…,b
Mを見つける必要がある。
【0165】
本出願では、最適な断熱発展経路の設計問題は、最適な
【0166】
【数31】
状態ベクトルシーケンスを見つけることに変換される。本出願では、この順列と組み合わせの問題を1つの完全等価の“シングルプレイヤーゲーム”に変換し、また、アルファ碁(Alpha
Zero)の囲碁アルゴリズムを修正して最適な“シングルプレイヤーゲーム”ポリシーをサーチする。毎回、AIアルゴリズムは、1つの発展経路を設計し、断熱量子コンピュータ/量子アニーリング機(強化学習フレームワークにおける環境とされる)を用いて1遍実行することで、この発展経路の有効性、例えば、1つのターゲットハミルトニアンの基底状態(エネルギーが最も低い量子状態)をスムーズに準備することができるかどうかを検証する。本出願では、量子ハードウェアにより提供されるエネルギー測定を使用して、今回のAIアルゴリズムにより設計される経路の良し悪しを評価することができる。自己定義の基準により、本出願では、このラウンドの設計AIが勝ったかどうかを判断することができる。量子コンピュータとの絶え間ない相互作用を通じて(AIは断熱量子計算の発展を指導し、また、その中からリアルタイムのエネルギー測定フィードバックを取得する)、強化学習に基づくAIアルゴリズムは、そのゲームポリシーを、パフォーマンスが満足のいくレベルに達するまで常に調整することができる。
【0167】
本出願では、最適な状態ベクトル
【0168】
【数32】
を見つける必要がある。各b
iの値はすべて所定範囲内の離散値に事前設定されており、即ち、bi∈[-l,-l+Δ,…,l-Δ,l]である。よって、1組の最適なパラメータ
【0169】
【数33】
の選択は、
図4に示すように、1つの2lM/Δの大小(サイズ)のボード上での駒置き点の選択に変換することができる。
【0170】
このシングルプレイヤーゲームのルールは必ず各列に1つのみの駒(これ以上でもそれ以下でもない)を置くことである。駒が置かれたボードは、1つの明確な状態ベクトル
【0171】
【数34】
に直接対応する。公式(2)により1つの断熱発展経路を取得し得る。公式(1)に基づいて、本出願では、1台の量子断熱コンピュータでこの設計を実行し、そして、計算終了時に、量子システムに対してエネルギー測定を行うことで、今回の設計がゲームに勝つかどうかを判断することができる。繰り返しゲームを試みることで、最終的には、AIアルゴリズムはこのボード上での最適な駒置き点を決定することができる。これは同時に、このアルゴリズムにより最適な断熱経路を見つけ得ることを意味する。本出願では、このような、最初からから学習した、量子断熱発展経路設計に用いられる、MCTS及びネットワークと組み合わせたゲームアーキテクチャに基づく方法を“量子ゼロ”(Quantum Zero)と称する。
【0172】
図12を参照する。本出願により提供される断熱発展経路の予測方法は3つの部分、即ち、量子計算環境、ボード空間及び量子ゼロ処理を含む。
【0173】
<量子計算環境について>
ステップ1201:ターゲットハミルトニアンH1に基づいて、初期ハミルトニアンH0及びターゲット基底状態エネルギーE1を設定し;
ステップ1202:固定した断熱発展時間長Tの下で、予測した断熱発展経路s(t)に基づいて、量子シュレディンガー方程式を解き、又は、量子断熱コンピュータで発展を実行し、終態システムを測定することで、発展の終態の量子状態及び対応するエネルギー固有値Eを取得する。
【0174】
<ボード空間について>
ステップ1203:フーリエ変換により断熱発展経路s(t)を周波数領域のパラメータシーケンスbに変換することで、最適断熱発展経路のサーチの問題を最適パラメータシーケンスbのサーチに変換し;
ステップ1204:最適パラメータシーケンスbのサーチを離散化し、ボード空間にマッピングし、そして、量子セロ(Quantum Zero)に基づくシングルプレイヤーゲームにより最適なボードレイアウトを見つける。
【0175】
<量子ゼロ処理について>
ステップ1205:ポリシーネットワーク及びバリューネットワークが或るボード状態でポリシーベクトルp及び評価バリューvを生成し、そして、モンテカルロ木探索のフィードバック(b,π,z)に基づいてネットワークパラメータを更新する。
【0176】
ポリシーネットワーク及びバリューネットワークは或るボード状態でポリシーベクトルp及び評価バリューvを生成し、ポリシーベクトルp及び評価バリューvを用いてモンテカルロ木探索を指導する。勝利条件を満足しないときに、モンテカルロ木探索が(b、π、z)を訓練サンプルとしてフィードバックし、これにより、ニューラルネットワーク(ポリシーネットワーク及びバリューネットワーク)のネットワークパラメータを更新する。
【0177】
ステップ1206:モンテカルロ木探索は、ポリシーネットワーク及びバリューネットワークの指導の下で、開発及び探査の原則に従って新しいアクション分布確率πを生成し、そして、該ボード状態での断熱発展結果に基づいて、勝ったかどうかを判断し、新しいバリュー報酬zを生成する。
【0178】
本出願で開発された新AIアルゴリズムは、断熱量子計算の効率(より短い運算時間で結果を得る)及び正確率(より高い確率でターゲットハミルトニアンの基底状態を得る)を同時に向上させることができる。本出願では、以下の2つの例によりこの2つのポイントを証左する。
【0179】
<例一>
量子計算の古典的な問題であるGroverサーチについて考えてみる。n個のビットがあるとする場合、このn個のビットにより2n個の物体(object)を符号化することができ、古典的なアルゴリズムは、最悪のとき、2n回試す必要がある。しかし、量子コンピュータは、二次加速を実現することができ、つまり、本出願では、2n/2回の計算のみが要される。断熱のGroverサーチとは、以下のように与えられた2つのハミルトニアンH0及びH1について最適な断熱経路を設計することである。
【0180】
【0181】
【0182】
【0183】
モンテカルロ木探索及び強化学習を使用する量子ゼロにより設計される断熱経路と、従来の断熱経路(線形サーチ)とがT時間内でターゲットの基底状態に到達する成功確率を対比することにより、量子ゼロが断熱量子発展の最適経路の設計において重要な作用を発揮しているかどうかははっきりとわかる。
【0184】
<例二>
コンピュータサイエンスでよく議論される3-SAT問題を考慮すると、さまざまな適用シナリオもある。この順列最適化組み合わせ問題を、1つの断熱量子計算が処理し得る問題に変換するために、本出願では、以下のように、1つのターゲットハミルトニアンH1及び1つの初期ハミルトニアンH0を与える必要がある。
【0185】
【数38】
このターゲットハミルトニアンH
1はN
c個の論理ステートメントからなり、各ステートメントαは3つのバイナリビット
【0186】
【数39】
により制限条件を決定する。この問題を解くことは、N
c個の論理ステートメントを同時に満足し得る1つのnビットの値を見つけることである。本出願では、断熱発展に挑戦し得るタイプの3-SAT問題が意図的に選択され、即ち、ターゲットハミルトニアンは1つのみの基底状態及び複数の第一励起状態がある。断熱発展過程では、システムが局所的な最適解に閉じ込められやすいため、断熱発展効率が低すぎになる恐れがある。モンテカルロ木探索及び強化学習を使用する量子ゼロにより設計される断熱経路と、従来の断熱経路(線形サーチ)とがT時間内でターゲットの基底状態に到達する成功確率を対比することにより、量子ゼロが断熱量子発展の最適経路の設計において重要な役割を発揮しているかどうかははっきりとわかる。
【0187】
図13は、量子ゼロにより設計された4量子ビットのGrover Searchの発展時間T=45時における断熱量子発展経路の結果である。
図13における左側の図において、下寄りの1組の波線は、ポリシーネットワークPが出力した、エントロピーが量子ゼロゲームのラウンド数に伴う変化である。上寄りの1組の波線は、ポリシーネットワークP及びバリューネットワークVが出力した、損失関数が量子ゼロゲームのラウンド数に伴う変化である。
図13における右側の図は、量子ゼロにより設計された発展経路の下で発展した終態エネルギーである。これで分かるように、量子ゼロが次第に訓練を完了するにつれて、設定された発展時間の下での最適経路が見つかり、ターゲットハミルトニアン基底状態がえら得ている。
【0188】
図13のGrover searchの例に続き、本出願では、続いて、量子ゼロにより設計される断熱発展経路をさらに深く検討し、最も一般的な線形との比較を行う。
図14の(a)の部分は、量子ゼロが4量子ビットのGrover searchの発展時間T=45時について設計した断熱量子発展経路s(t)である。
図14の(b)の部分における点線は、断熱発展時間t~(0,T)に伴って量子ゼロにより設計された経路に従って発展し、ターゲットハミルトニアンの基底状態の準備が成功した確率である。実線は、断熱発展時間t~(0,T)に伴って線形経路に従って発展し、ターゲットハミルトニアンの基底状態の準備が成功した確率である。
図14の(c)の部分は、量子ゼロが6量子ビットのGrover searchの発展時間T=60時について設計した断熱量子発展経路s(t)である。
図14の(d)の部分における点線は、断熱発展時間t~(0,T)に伴って量子ゼロにより設計された経路に従って発展し、ターゲットハミルトニアンの基底状態の準備が成功した確率である。実線は、断熱発展時間t~(0,T)に伴って線形経路に従って発展し、ターゲットハミルトニアンの基底状態の準備が成功した確率である。明らかのように、量子ゼロにより設計された経路は、高成功率を保証することができる。これに対して、良く用いられている従来の線形経路は、ビット数の増加に伴って、要求された時間Tの範囲内でターゲットHamiltonianの基底状態を準備できないことが明らかである。
【0189】
図15は、異なる発展時間長について6量子ビットのGrover searchのターゲットハミルトニアン基底状態準備の成功確率である。丸い点は、量子ゼロが設計した発展経路の下でのターゲットハミルトニアン基底状態準備の成功確率であり、×で示される点は、線形発展経路の下でのターゲットハミルトニアン基底状態準備の成功確率である。明らかのように、量子ゼロにより設計された発展経路は、量子断熱発展によるターゲットハミルトニアン基底状態準備の成功確率を大幅に向上させることができる。
【0190】
前述の例二、即ち、量子ゼロの3-SAT問題における断熱発展経路設計への応用について、本出願では、断熱発展に挑戦し得るタイプの3-SAT問題が研究されており、即ち、ターゲットハミルトニアンは1つのみの基底状態及び複数の第一励起状態がある。断熱発展過程では、システムが局所的な最適解に閉じ込められやすいため、断熱発展効率が低すぎになる可能性がある。本出願では、上述の条件が満足された7量子ビット21clauseの3-SAT問題及び11量子ビット33clauseの3-SAT問題を例としており、これにより、量子ゼロの訓練の漸進に伴って、設定された発展時間の下での最適経路を安定的に見つけることを示している。また、量子ゼロにより設計された断熱経路は、従来の断熱経路(線形サーチ)に比較して、T時間内でターゲットの基底状態に到達した成功率が明らかに高い。
【0191】
図16の(a)は、量子ゼロが7量子ビットの3-sat問題の発展時間T=85時について設計した断熱量子発展経路s(t)である。
図16の(b)における点線は、断熱発展時間t~(0,T)に伴って、量子ゼロにより設計された経路に従って発展し、ターゲットハミルトニアンの基底状態の準備が成功した確率である。実線は、断熱発展時間t~(0,T)に伴って、線形経路に従って発展し、ターゲットハミルトニアンの基底状態の準備が成功した確率である。明らかのように、量子ゼロにより設計された経路の結果は比較的に良いである。
【0192】
図17における(a)の図及び(b)の図はそれぞれ、異なる発展時間長について7量子ビット及び11量子ビットの3-sat問題のターゲットハミルトニアン基底状態準備の成功確率である。丸い点は、量子ゼロにより設計された発展経路の下でのターゲットハミルトニアン基底状態準備の成功確率であり、×で示される点は、線形発展経路の下でのターゲットハミルトニアン基底状態準備の成功確率である。明らかのように、量子ゼロにより設計される発展経路は、量子断熱発展によるターゲットハミルトニアン基底状態準備の成功確率を大幅に向上させることができる。
【0193】
図18は、本出願の1つの例示的な実施例に示す断熱発展経路の予測装置のブロック図である。該装置は、電子コンピュータの全部又は一部として実現することができ、又は、電子コンピュータに適用することができる。前記装置は以下のものを含む。
【0194】
取得モジュール1810:量子計算問題のターゲットハミルトニアンH1を取得するために用いられ;
決定モジュール1820:前記ターゲットハミルトニアンH1に基づいて、初期ハミルトニアンH0及びターゲット基底状態エネルギーE1を決定するために用いられ;
変換モジュール1830:前記初期ハミルトニアンH0から前記ターゲット基底状態エネルギーE1までの断熱発展経路をサーチすることをボードゲームに変換するために用いられ;
木探索モジュール1840:ニューラルネットワークと組み合わせたモンテカルロ木探索を用いて、前記ボードゲームの最適ボード経路を求めるために用いられ;
出力モジュール1850:前記最適ボード経路に基づいて前記断熱発展経路を出力するために用いられる。
【0195】
1つの選択可能な実施例において、前記木探索モジュール1840は、前記ニューラルネットワークと組み合わせた前記モンテカルロ木探索を用いて、前記ボードゲームの予測ボード経路をサーチし;前記予測ボード経路に基づいて、予測断熱発展経路を取得し;量子計算環境に基づいて、前記予測断熱発展経路が終態に発展するときのエネルギー固有値Eを計算することで取得し;前記エネルギー固有値Eが勝利条件を満たさないことに応じて、今回の予測過程に基づいて、前記ニューラルネットワークにおけるパラメータを更新し、更新した後に、再び、前記ニューラルネットワークと組み合わせた前記モンテカルロ木探索を用いて、前記ボードゲームの予測ボード経路をサーチするステップを実行し;前記エネルギー固有値Eが前記勝利条件を満たしていることに応じて、前記予測ボード経路を前記ボードゲームの最適ボード経路と決定するために用いられ、そのうち、前記勝利条件は、前記エネルギー固有値Eと前記ターゲット基底状態エネルギーE1との間の差が閾値よりも小さいことを含む。
【0196】
1つの選択可能な実施例において、前記ニューラルネットワークはポリシーネットワーク及びバリューネットワークを含む。
【0197】
前記木探索モジュール1840は、前記ボードゲームに対応するゲーム木において、前記モンテカルロ木探索を用いてサーチを行い、各層のノードのアクション確率分布πを出力し、前記各層のノードのアクション確率分布πは次の一手の駒の候補駒置き位置及び駒置き確率分布を表し;各層のノードの下で前記アクション確率分布πが最も高いターゲット駒置き位置に基づいて、前記ボードゲームの予測ボード経路を取得し;及び
前記木探索モジュール1840はさらに、前記エネルギー固有値Eが前記勝利条件を満たさないことに応じて、前記予測ボード経路を前記ニューラルネットワークの入力とし、前記ポリシーネットワークが出力するポリシーベクトルp及び前記バリューネットワークが出力するバリュー収益vを取得し;前記ポリシーベクトルpと前記アクション確率分布πとの間の類似性を最大化し、かつ前記バリュー収益vと未勝利時の報酬値zとの間の誤差を最小化することを目標とし、前記ニューラルネットワークにおけるパラメータを更新するために用いられる。
【0198】
1つの選択可能な実施例において、前記木探索モジュール1840は、前記ボードゲームの第i層のターゲットノードbiの下で、前記ポリシーネットワークを用いて第i+1層のノードbi+1の候補駒置き位置ai+1及び駒置き確率pi+1を出力し、前記第i層のターゲットノードbiは第i層のノードのターゲット駒置き位置に対応し、iはm-1以下の整数であり;前記候補駒置き位置ai+1に基づいて、前記第i+1層のノードbi+1を展開し、前記バリューネットワークを用いて、前記第i+1層のノードbi+1を評価し、各前記候補駒置き位置ai+1のバリュー収益vi+1を取得し;前記駒置き確率pi+1、前記バリュー収益vi+1、及び信頼度上限Uに基づいて、前記第i+1層のノードbi+1のうちのターゲットノードを決定し;前記第i+1層のノードが第m層のノードでないときに、前記第i+1の層ターゲットノードを新しい第i層のターゲットノードとし、再び上述の3つのステップを実行し;前記第i+1層のノードが第m層のノードであるときに、前記各層ノードのアクション確率分布πを出力するために用いられる。
【0199】
1つの選択可能な実施例において、前記信頼度上限は前記候補駒置き位置の過去サーチ回数に関連している。
【0200】
1つの選択可能な実施例において、前記変換モジュール1830は、前記初期ハミルトニアンH0から前記ターゲット基底状態エネルギーE1までの断熱発展経路を断熱発展関数s(t)と表し;フーリエ変換を用いて前記断熱発展関数s(t)を周波数領域の状態ベクトルシーケンスbに変換し、前記状態ベクトルシーケンスbはm個のベクトル次元を含み、各ベクトル次元の数値範囲は2Lであり;前記ベクトル次元の次元数m及び前記各ベクトル次元の数値範囲2Lに基づいて変換することでボードゲームを取得するために用いられ、前記ボードゲームのボードは2L/△行及びm列を含み、各列は1つの駒の駒置き位置に対応し、△は離散化ステップ長である。
【0201】
なお、上述の実施例により提供される装置は、その機能を実現するときに、上述のような各機能モジュールの分割を例として説明したが、実際の応用では、ニーズにおいて、上述の機能を異なる機能モジュールに完了してもらうように割り当てても良く、即ち、装置の内部構成を異なる機能モジュールを分割することで、上述の全部又は一部の機能を完了して良い。また、上述の実施例により提供される装置は方法の実施例と同じ構想に属し、その具体的な実現過程は、方法の実施例を参照することができ、ここではその詳しい説明を省略する。
【0202】
図19は、本出願の1つの実施例により提供されるコンピュータ装置1900の構成ブロック図である。該コンピュータ装置1900は、携帯電話、タブレットコンピュータ、ウェアラブルデバイス、マルチメディア再生デバイス、カメラなどの電子デバイスであり得る。量子コンピュータとは異なり、コンピュータ装置1900は電子コンピュータとも呼ばれる。
【0203】
コンピュータ装置1900は通常、処理器1901及び記憶器1902を含む。
【0204】
処理器1901は1つ又は複数の処理コア、例えば、4コア処理器、19コア処理器などを含んでも良い。処理器1901は、DSP(Digital
Signal Processing、デジタル信号処理)、FPGA(Field Programmable Gate Array、フィールドプログラマブルゲートアレイ)、PLA(Programmable Logic Array、プログラマブルロジックアレイ)のうちの少なくとも1つのハードウェアの形で実現され得る。プロセッサ1901はまた、メインプロセッサ及びコプロセッサを含み得る。メインプロセッサは、アウェイク状態でデータを処理するために使用されるプロセッサであり、CPU(中央処理装置)とも呼ばれる。コプロセッサは、低電力プロセッサであり、スタンバイ状態でデータを処理するために使用される。いくつかの実施例では、プロセッサ1901は、GPU(グラフィックスプロセッシングユニット、画像プロセッサ)と統合され得る。GPUは、表示画面に表示される必要のあるコンテンツをレンダリング及び描画するために使用される。いくつかの実施例では、プロセッサ1901は、AI(人工知能)プロセッサをさらに含み得る。AIプロセッサは、機械学習に関連する計算操作を処理するために使用される。
【0205】
記憶器1902は、1つの又は複数のコンピュータ可読記憶媒体を含んでも良く、該コンピュータ可読記憶媒体は非一時的であり得る。記憶器1902はさらに高速ランダムアクセス記憶器及び不揮発性記憶器、例えば1つの又は複数の磁気ディスク記憶装置やフラッシュメモリ記憶装置を含んでも良い。幾つかの実施例において、記憶器1902のうちの非一時的コンピュータ可読記憶媒体は、少なくとも1つの指令、少なくとも1つのプログラム、コードセット又は指令セットを記憶するために用いられ、該少なくとも1つの指令、少なくとも1つのプログラム、コードセット又は指令セットは、処理器1901により実行されることで、本出願における方法の実施例により提供される断熱発展経路の予測方法を実現するために用いられる。
【0206】
幾つかの実施例において、コンピュータ装置1900はオプションとして、周辺デバイスインターフェース1903及び少なくとも1つの周辺デバイスを含み得る。処理器1901、記憶器1902及び周辺デバイスインターフェース1903の間はバス又は信号線により接続され得る。各周辺デバイスはバス、信号線又は回路板を介して周辺デバイスインターフェース1903に接続され得る。具体的には、周辺デバイスはRF回路1904、タッチ表示パネル1905、カメラヘッドコンポーネント1906、音声回路1907、ポジショニングコンポーネント1908及び電源1909のうちの少なくとも1つを含む。
【0207】
そのうち、カメラヘッドコンポーネント1906はカラーカメラヘッド+深度カメラヘッドにより形成される3次元カメラヘッドであっても良い。
【0208】
当業者が理解すべきは、
図19に示す構成はコンピュータ装置1900を限定せず、図示よりも多い又は少ないアセンブリを含んでも良く、又は、幾つかのアセンブリを組み合わせても良く、又は、異なるアセンブリレイアウトを採用しても良い。
【0209】
例示的な実施例において、コンピュータ可読記憶媒体がさらに提供され、前記コンピュータ可読記憶媒体には少なくとも1つの指令、少なくとも1つのプログラム、コードセット又は指令セットが記憶されており、前記少なくとも1つの指令、前記少なくとも1つのプログラム、前記コードセット又は前記指令セットはコンピュータ装置の処理器により実行されるときに上述の断熱発展経路の予測方法を実現することができる。
【0210】
例示的な実施例において、コンピュータ可読記憶媒体がさらに提供され、前記コンピュータ可読記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムはコンピュータ装置の処理器により実行されるときに上述の断熱発展経路の予測方法を実現することができる。
【0211】
オプションとして、該コンピュータ可読記憶媒体はROM、RAM、SSD(Solid State Drives)、光ディスクなどを含み得る。そのうち、ランダムアクセス記憶体はReRAM(Resistance Random Access Memory、抵抗式ランダムアクセス記憶体)、DRAM(Dynamic Random Access Memory、動的ランダムアクセス記憶器)を含んでも良い。
【0212】
例示的な実施例において、コンピュータプログラムプロダクトがさらに提供され、前記コンピュータプログラムプロダクトはコンピュータ装置の処理器により実行されるときに、上述の断熱発展経路の予測方法を実現するために用いられる。
【0213】
例示的な実施例において、コンピュータプログラムプロダクトが提供され、前記コンピュータプログラムプロダクトは端末の処理器により実行されるときに、上述の断熱発展経路の予測方法を実現するために用いられる。
【0214】
なお、本文で言及される「複数」は、2つ以上を指すことを理解されたい。「及び/又は」は、関連付けられたオブジェクトの関連付け関係を説明し、例えば、A及び/又はBの3つのタイプの関係があり得ることを示し、これは、Aのみが存在し、A及びBが同時に存在し、そして、Bのみが存在することを意味し得る。文字「/」は通常、前後の関連オブジェクトが「又は」の関係にあることを示す。さらに、本文で説明されるステップの番号は、ステップ間の実行可能な順序を例示的に示すためのものにすぎない。他の幾つかの実施例では、上記のステップは、番号の順序で実行されなくても良く、例えば、番号が異なる2つのステップが同時に実行されても良く、番号が異なる2つのステップが図示とは逆の順序で実行されても良いが、本出願の実施例はこれについて限定しない。
【0215】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。
【国際調査報告】