特許第6646763号(P6646763)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 1キュービー インフォメーション テクノロジーズ インコーポレイテッドの特許一覧

特許6646763確率制御問題に対する方策を改善する方法及びシステム
<>
  • 特許6646763-確率制御問題に対する方策を改善する方法及びシステム 図000041
  • 特許6646763-確率制御問題に対する方策を改善する方法及びシステム 図000042
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6646763
(24)【登録日】2020年1月15日
(45)【発行日】2020年2月14日
(54)【発明の名称】確率制御問題に対する方策を改善する方法及びシステム
(51)【国際特許分類】
   G06N 10/00 20190101AFI20200203BHJP
【FI】
   G06N10/00
【請求項の数】30
【全頁数】51
(21)【出願番号】特願2018-558696(P2018-558696)
(86)(22)【出願日】2017年5月9日
(65)【公表番号】特表2019-515397(P2019-515397A)
(43)【公表日】2019年6月6日
(86)【国際出願番号】IB2017052702
(87)【国際公開番号】WO2017195114
(87)【国際公開日】20171116
【審査請求日】2018年12月27日
(31)【優先権主張番号】62/333,707
(32)【優先日】2016年5月9日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】518300652
【氏名又は名称】1キュービー インフォメーション テクノロジーズ インコーポレイテッド
【氏名又は名称原語表記】1QB INFORMATION TECHNOLOGIES INC.
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100169823
【弁理士】
【氏名又は名称】吉澤 雄郎
(72)【発明者】
【氏名】ダニエル クロフォード
(72)【発明者】
【氏名】プーヤ ロナー
(72)【発明者】
【氏名】アンナ レヴィット
【審査官】 塚田 肇
(56)【参考文献】
【文献】 特開2015−125198(JP,A)
【文献】 米国特許第09015093(US,B1)
【文献】 米国特許出願公開第2009/0306866(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 10/00
(57)【特許請求の範囲】
【請求項1】
確率制御問題に対する方策を改善する方法であって、該確率制御問題は、一組の行動、一組の状態、状態及び行動の関数としての報酬構造、及び複数の決定エポックによって特徴付けられ、基になる確率的状態過程の進行は、該方策における複数の行動に依存し、前記方法は:
デジタルコンピュータ及びサンプリング装置制御システムに結合されたサンプリング装置を用いるステップであって、該サンプリング装置は、ボルツマンマシンのサンプル形態を表すデータを取得し、該ボルツマンマシンは:
複数のノードと、
複数のカプラと、
各々が前記複数のノードのうちの1つのノードに対応する複数のバイアスと、
各々が前記複数のカプラのうちの1つのカプラに対応する複数の結合の重み値と、
横磁場強度とを具えているステップと;
前記デジタルコンピュータを用いて、前記一組の行動、前記一組の状態、前記確率制御問題の前記報酬構造、及び前記確率制御問題に対する初期の方策を含む初期化データを得るステップであって、該初期の方策は状態毎に少なくとも1つの行動の選定を含むステップと;
前記デジタルコンピュータ及び前記サンプリング装置制御システムを用いて、前記ボルツマンマシンの前記カプラの各々及び前記ノードの各々の、それぞれ初期の前記重み値、及び前記バイアスを表すデータ、及び前記ボルツマンマシンの前記横磁場強度を表すデータを、前記サンプリング装置に割り当てるステップと;
停止基準を満たすまで:
前記デジタルコンピュータを用いて、現在エポックの状態−行動の対を、ランダムに、あるいは前記基になる確率的状態過程を用いて、かつ現在の前記方策を用いて生成し、
適切な場合に、前記デジタルコンピュータ及び前記サンプリング装置制御システムを用いて、少なくとも1つの前記カプラを表し、かつ少なくとも1つの前記バイアスを表すデータを、前記生成した現在エポックの状態−行動の対を用いて修正し、
前記現在エポックの状態−行動の対に対応するサンプリングを実行して、1回目のサンプリングにおける経験的平均値を得て、
前記1回目のサンプリングにおける経験的平均値を用い、かつ前記デジタルコンピュータを用いて、前記現在エポックの状態−行動におけるQ関数の値の近似値を生成し、該Q関数の値は前記現在エポックの状態−行動の対の有用性を表し、
前記デジタルコンピュータを用いて、将来エポックの状態−行動の対を生成し、該状態は確率的状態過程により得られ、さらに、前記行動を生成することは、前記将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行し、これにより、前記将来エポックにおける行動を提供することを含み、
前記将来エポックの状態に対して前記現在の方策を更新し、
適切な場合に、前記デジタルコンピュータ及び前記サンプリング装置制御システムを用いて、少なくとも1つの前記カプラを表し、かつ少なくとも1つの前記バイアスを表すデータを、前記生成した将来エポックの状態−行動の対を用いて修正し、
前記将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングにおける経験的平均値を得て、
前記2回目のサンプリングにおける経験的平均値を用い、かつ前記デジタルコンピュータを用いて、前記将来エポックの状態−行動におけるQ関数の値の近似値を生成し、該Q関数の値は前記将来エポックの状態−行動の対の有用性を表し、
前記デジタルコンピュータを用いて、前記ボルツマンマシンの前記カプラの各々及び前記ノードの各々の、それぞれ前記重み値の各々及び前記バイアスの各々を更新し、該更新は、前記生成したQ関数の値の近似値、及び前記現在エポックの状態−行動の対における前記1回目のサンプリングにおける経験的平均値、及び前記報酬構造を用いて得られた前記現在エポックの状態−行動の対における対応する報酬を用いて行うステップと;
前記停止基準を満たした際に、前記デジタルコンピュータを用いて前記方策を提供するステップと
を含む方法。
【請求項2】
前記サンプリング装置が量子プロセッサを具え、前記サンプリング装置制御システムが量子デバイス制御システムを具え、さらに、該量子プロセッサは前記デジタルコンピュータ及び該量子デバイス制御システムに結合され、さらに、該量子プロセッサは複数の量子ビット及び複数のカプラを具え、該カプラの各々が2つの前記量子ビットの交点における通信結合を提供する、請求項1に記載の方法。
【請求項3】
前記サンプリング装置が光学装置及び複数の結合装置を具え、該光学装置は、光エネルギー源からエネルギーを受けて複数の光パラメトリック発振器を生成するように構成され、該結合装置の各々は、前記複数の光パラメトリック発振器のうちの1つの光パラメトリック発振器を制御可能な様式で結合する、請求項1に記載の方法。
【請求項4】
前記サンプリング装置が、中央処理装置、及び該中央処理装置に結合されたメモリ装置を具えて前記ボルツマンマシンを実現し、前記実現されるボルツマンマシンは従来型ボルツマンマシンであり、0の値の前記横磁場強度によって特徴付けられ、さらに、前記メモリ装置は、前記従来型ボルツマンマシンの前記カプラの各々及び前記ノードの各々の、それぞれ前記重み値の各々及び前記バイアスの各々を表すデータを得るためのアプリケーションを含み、さらに、該アプリケーションは、前記従来型ボルツマンマシンの、シミュレーションによる量子アニーリングを実行するように構成されている、請求項1に記載の方法。
【請求項5】
前記サンプリング装置が、中央処理装置、及び該中央処理装置に結合されたメモリ装置を具えて前記ボルツマンマシンを実現し、前記実現されるボルツマンマシンは量子ボルツマンマシンであり、0でない値の前記横磁場強度によって特徴付けられ、さらに、前記メモリ装置は、前記量子ボルツマンマシンの前記カプラの各々及び前記ノードの各々の、それぞれ前記重み値の各々及び前記バイアスの各々を表すデータを得るためのアプリケーションを含み、さらに、該アプリケーションは、前記量子ボルツマンマシンの、シミュレーションによる量子アニーリングを実行するように構成されている、請求項1に記載の方法。
【請求項6】
前記量子ボルツマンマシンの、前記シミュレーションによる量子アニーリングを実行することによって、前記量子ボルツマンマシンを表現する有効ハミルトニアンの複数のサンプル形態がもたらされる、請求項5に記載の方法。
【請求項7】
前記サンプリング装置が、中央処理装置、及び該中央処理装置に結合されたメモリ装置を具えて前記ボルツマンマシンを実現し、前記実現されるボルツマンマシンは従来型ボルツマンマシンであり、0の値の前記横磁場強度によって特徴付けられ、さらに、前記メモリ装置は、前記従来型ボルツマンマシンの前記カプラの各々及び前記ノードの各々の、それぞれ前記重み値の各々及び前記バイアスの各々を表すデータを得るためのアプリケーションを含み、該アプリケーションは、前記従来型ボルツマンマシンに対応するフォルトゥン−カステレイン・ランダムクラスタ表現の複数のインスタンスをサンプリングし、これにより、該フォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数の近似値を提供するように構成されている、請求項1に記載の方法。
【請求項8】
前記サンプリング装置が、中央処理装置、及び該中央処理装置に結合されたメモリ装置を具えて前記ボルツマンマシンを実現し、前記実現されるボルツマンマシンは量子ボルツマンマシンであり、0でない前記横磁場強度によって特徴付けられ、さらに、前記メモリ装置は、前記量子ボルツマンマシンの前記カプラの各々及び前記ノードの各々の、それぞれ前記重み値の各々及び前記バイアスの各々を表すデータを得るためのアプリケーションを含み、さらに、該アプリケーションは、前記量子ボルツマンマシンに対応するフォルトゥン−カステレイン・ランダムクラスタ表現の複数のインスタンスをサンプリングし、これにより、該フォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数の近似値を提供するように構成されている、請求項1に記載の方法。
【請求項9】
前記現在エポック及び前記将来エポックの両方における前記Q関数の値の近似値を生成することが、前記サンプリング装置から、測定値軸に沿った、前記ボルツマンマシンの形態の複数のサンプルを得ること、及び前記デジタルコンピュータを用いて、前記ボルツマンマシンの自由エネルギーの経験的近似値を計算することを含む、請求項2、3、4、5のいずれかに記載の方法。
【請求項10】
前記現在エポック及び前記将来エポックの両方における前記Q関数の値の近似値を生成することが、前記サンプリング装置から、測定値軸に沿った、前記ボルツマンマシンの複数のサンプル形態を得ること、前記得られたサンプル形態から、前記量子ボルツマンマシンを表現する有効ハミルトニアンの形態の複数のサンプルを構成すること、及び前記デジタルコンピュータを用いて、前記量子ボルツマンマシンの自由エネルギーの経験的近似値を計算することを含む、請求項2または5に記載の方法。
【請求項11】
前記現在エポック及び前記将来エポックの両方における前記Q関数の値の近似値を生成することが、前記サンプリング装置から、前記量子ボルツマンマシンを表現する有効ハミルトニアンの形態の複数のサンプルを得ること、及び前記デジタルコンピュータを用いて、前記量子ボルツマンマシンの自由エネルギーの経験的近似値を計算することを含む、請求項6に記載の方法。
【請求項12】
前記現在エポック及び前記将来エポックの両方における前記Q関数の値の近似値を生成することが、前記サンプリング装置から、前記量子ボルツマンマシンに対応する前記フォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数の近似値を得ること、及び前記デジタルコンピュータを用いて、前記量子ボルツマンマシンの自由エネルギーの経験的近似値を計算することを含む、請求項8に記載の方法。
【請求項13】
前記ノードに対応する前記1回目の経験的平均値及び前記2回目の経験的平均値の両方を計算することが、前記サンプリング装置から、測定値軸に沿った、前記量子ボルツマンマシン及び前記従来型ボルツマンマシンの一方の形態の複数のサンプルを得ること、及び前記デジタルコンピュータを用いて、前記ノードにおける前記経験的平均値の近似値を計算することを含む、請求項2、3、4、5のいずれかに記載の方法。
【請求項14】
前記ノードに対応する前記1回目の経験的平均値及び前記2回目の経験的平均値の両方を計算することが、前記サンプリング装置から、前記ボルツマンマシンの有効ハミルトニアンの形態の複数のサンプルを得ること、及び前記デジタルコンピュータを用いて、前記ノードにおける前記経験的平均値の近似値を計算することを含む、請求項6に記載の方法。
【請求項15】
前記すべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行することが:
適切な場合に、前記デジタルコンピュータ及び前記サンプリング装置制御システムを用いて、少なくとも1つの前記カプラを表し、かつ少なくとも1つの前記バイアスを表すデータを、前記将来エポックの状態に対応する状態−行動の対の各々を用いて修正することと、
前記将来エポックの状態に対応する状態−行動の対の各々に対応するサンプリングを実行して、前記経験的平均値を提供することと、
前記デジタルコンピュータを用いて、前記将来エポックの状態に対応する状態−行動の対の各々における前記Q関数の値の近似値を生成することと、
前記将来エポックの状態に対応する状態−行動の対の各々に対応する前記Q関数値のすべての近似値を用い、かつ前記デジタルコンピュータを用いて、対応する分布からサンプリングして、前記将来エポックの状態に対して前記方策を更新することと、
を含む、請求項1に記載の方法。
【請求項16】
前記すべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行することが:
温度パラメータを得ることと;
前記将来エポックの状態を得ることと;
前記将来エポックの状態に固定された状態変数及び提供された前記温度により、前記Q関数の値の近似値に関連するボルツマン分布をサンプリングすることと
を含む、請求項1に記載の方法。
【請求項17】
前記量子プロセッサの前記複数の量子ビットが:
第1グループの量子ビット;及び
第2グループの量子ビットを含み、
前記量子プロセッサの前記複数のカプラが:
少なくとも1つのカプラ、及び
他の複数のカプラを含み、
前記少なくとも1つのカプラの各々は、前記第1グループの量子ビットのうちの1つの量子ビットと、前記第2グループの量子ビットのうちの少なくとも1つの量子ビットとの交点における通信結合を提供し、
前記他の複数のカプラの各々は、前記第2グループの量子ビットのうちの1つの量子ビットと前記第2グループの量子ビットのうちの他の量子ビットとの交点における通信結合を提供する、
請求項2に記載の方法。
【請求項18】
前記第1グループの量子ビットが、前記確率制御問題における前記一組の行動を表す、請求項17に記載の方法。
【請求項19】
少なくとも1つの前記カプラを表し、かつ少なくとも1つの前記バイアスを表すデータを、前記生成した現在エポックの状態−行動の対を用いて修正することが:
前記第1グループの量子ビットうちの1つの量子ビットと前記第2グループの量子ビットとの交点における通信結合を提供するすべての前記カプラをオフ状態に切り換えること、及び
前記第2グループの量子ビットにおける少なくとも1つの前記バイアスを、前記生成した現在エポックの状態−行動の対を用いて修正すること
を含む、請求項17に記載の方法。
【請求項20】
少なくとも1つの前記カプラを表し、かつ少なくとも1つの前記バイアスを表すデータを、前記生成した将来エポックの状態−行動の対を用いて修正することが:
前記第1グループの量子ビットうちの1つの量子ビットと前記第2グループの量子ビットとの交点における通信結合を提供するすべての前記カプラをオフ状態に切り換えること、及び、
前記第2グループの量子ビットにおける少なくとも1つの前記バイアスを、前記生成した将来エポックの状態−行動の対を用いて修正すること
を含む、請求項17に記載の方法。
【請求項21】
前記将来エポックの状態及びあり得るすべての行動を含む前記すべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行することが:
前記第1グループの量子ビットのうちの1つの量子ビットと前記第2グループの量子ビットとの交点における通信結合を提供するすべての前記カプラをオン状態に切り換えることと;
前記第2グループの量子ビットにおける少なくとも1つの前記バイアスを、前記将来エポックの状態−行動の対に対応する前記将来エポックの状態を用いて修正することと;
量子サンプリングを実行して、前記第1グループの量子ビットに対応する前記経験的平均値を得ることと;
前記デジタルコンピュータを用いて、前記第1グループの量子ビットに対応する前記得られた経験的平均値の分布に応じた行動を、前記将来エポックの状態に割り当てることによって、前記将来エポックの状態に対する前記方策を更新することと
を含む、請求項17に記載の方法。
【請求項22】
前記停止基準が、学習ステップの最大数に達することを含む、請求項1〜21のいずれかに記載の方法。
【請求項23】
前記停止基準が、最大実行時間に達することを含む、請求項1〜21のいずれかに記載の方法。
【請求項24】
前記停止基準が、前記結合及び前記局所場の、それぞれ前記重み値及び前記バイアスの関数の収束を含む、請求項1〜21のいずれかに記載の方法。
【請求項25】
前記方策が固定の方策に収束することを含む、請求項1〜21のいずれかに記載の方法。
【請求項26】
前記方策を提供するステップが、前記デジタルコンピュータと対話するユーザに対して前記方策を表示すること;前記方策を前記デジタルコンピュータ内に記憶すること;及び前記方策を、前記デジタルコンピュータに動作的に接続された他の処理装置へ送信すること、のうちの少なくとも1つを含む、請求項1〜25のいずれかに記載の方法。
【請求項27】
前記デジタルコンピュータがメモリ装置を具え;さらに、前記デジタルコンピュータの該メモリ装置から前記初期化データを得る、請求項1〜26のいずれかに記載の方法。
【請求項28】
前記初期化データを、前記デジタルコンピュータと対話するユーザ、及び前記デジタルコンピュータに動作的に接続されたリモート処理装置の一方から得る、請求項1〜26のいずれかに記載の方法。
【請求項29】
デジタルコンピュータであって、
中央処理装置と;
表示装置と;
当該デジタルコンピュータを、1つ以上のデジタルコンピュータに結合されたサンプリング装置、及びサンプリング装置制御システムに動作的に接続するための通信ポートと;
確率制御問題に対する方策を改善するためのアプリケーションを含むメモリ装置とを具え、該確率制御問題は、一組の行動、一組の状態、状態及び行動の関数としての報酬構造、及び複数の決定エポックによって特徴付けられ、基になる確率的状態過程の進行は、該方策における複数の行動に依存し、前記アプリケーションは:
前記1つ以上のデジタルコンピュータ及び前記サンプリング装置制御システムに結合されたサンプリング装置を用いるための命令であって、該サンプリング装置は、ボルツマンマシンのサンプル形態を表すデータを取得し、該ボルツマンマシンは、複数のノードと、複数のカプラと、各々が前記複数のノードのうちの1つのノードに対応する複数のバイアスと、各々が前記複数のカプラのうちの1つのカプラに対応する複数の結合の重み値と、横磁場強度とを具えている命令と;
前記デジタルコンピュータを用いて、前記一組の行動、前記一組の状態、前記確率制御問題の報酬構造、及び前記確率制御問題に対する初期の方策を含む初期化データを得るための命令であって、該初期の方策は状態毎に少なくとも1つの行動の選定を含む命令と;
前記デジタルコンピュータ及び前記サンプリング装置制御システムを用いて、前記ボルツマンマシンの前記カプラの各々及び前記ノードの各々の、それぞれ初期の前記重み値及び前記バイアスを表すデータ、及び前記ボルツマンマシンの前記横磁場強度を表すデータを、前記サンプリング装置に割り当てるための命令と;
停止基準を満たすまで:
前記デジタルコンピュータを用いて、現在エポックの状態−行動の対を、ランダムに、あるいは前記基になる確率的状態過程を用いて、かつ現在の前記方策を用いて生成し、
適切な場合に、前記デジタルコンピュータ及び前記サンプリング装置制御システムを用いて、少なくとも1つの前記カプラを表し、かつ少なくとも1つの前記バイアスを表すデータを、前記生成した現在エポックの状態−行動の対を用いて修正し、
前記現在エポックの状態−行動の対に対応するサンプリングを実行して、1回目のサンプリングにおける経験的平均値を得て、
前記1回目のサンプリングにおける経験的平均値を用い、かつ前記デジタルコンピュータを用いて、前記現在エポックの状態−行動におけるQ関数の値の近似値を生成し、該Q関数の値は前記現在エポックの状態−行動の対の有用性を表し、
前記デジタルコンピュータを用いて、将来エポックの状態−行動の対を生成し、該状態は確率的状態過程により得られ、さらに、前記行動を生成することは、前記将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行し、これにより、前記将来エポックにおける行動を提供することを含み、
前記将来エポックの状態に対して前記現在の方策を更新し、
適切な場合に、前記デジタルコンピュータ及び前記サンプリング装置制御システムを用いて、少なくとも1つの前記カプラを表し、かつ少なくとも1つの前記バイアスを表すデータを、前記生成した将来エポックの状態−行動の対を用いて修正し、
前記将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングにおける経験的平均値を得て、
前記2回目のサンプリングにおける経験的平均値を用い、かつ前記デジタルコンピュータを用いて、前記将来エポックの状態−行動におけるQ関数の値の近似値を生成し、該Q関数の値は前記将来エポックの状態−行動の対の有用性を表し、
前記将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングにおける経験的平均値を得て、
前記2回目のサンプリングにおける経験的平均値を用い、かつ前記デジタルコンピュータを用いて、前記将来エポックの状態−行動におけるQ関数の値の近似値を生成し、該Q関数の値は前記将来エポックの状態−行動の対の有用性を表し、
前記デジタルコンピュータを用いて、前記ボルツマンマシンの前記カプラの各々及び前記ノードの各々の、それぞれ前記重み値の各々及び前記バイアスの各々を更新し、該更新は、前記生成したQ関数の値の近似値、及び前記現在エポックの状態−行動の対における前記1回目のサンプリングにおける経験的平均値、及び前記報酬構造を用いて得られた前記現在エポックの状態−行動の対における対応する報酬を用いて行うための命令と;
前記停止基準を満たした際に、前記デジタルコンピュータを用いて前記方策を提供するための命令と
を含むデジタルコンピュータ。
【請求項30】
コンピュータで実行可能な命令を記憶するための非一時的なコンピュータ可読記憶媒体であって、該命令は、デジタルコンピュータにより実行されると、該デジタルコンピュータに、確率制御問題に対する方策を改善する方法を実行させ、該確率制御問題は、一組の行動、一組の状態、状態及び行動の関数としての報酬構造、及び複数の決定エポックによって特徴付けられ、基になる確率的状態過程の進行は、方策における複数の行動に依存し、前記方法は:
デジタルコンピュータ及びサンプリング装置制御システムに結合されたサンプリング装置を用いるステップであって、該サンプリング装置は、ボルツマンマシンのサンプル形態を表すデータを取得し、該ボルツマンマシンは:
複数のノードと、
複数のカプラと、
各々が前記複数のノードのうちの1つのノードに対応する複数のバイアスと、
各々が前記複数のカプラのうちの1つのカプラに対応する複数の結合の重み値と、
横磁場強度とを具えているステップと;
前記デジタルコンピュータを用いて、前記一組の行動、前記一組の状態、前記確率制御問題の前記報酬構造、及び前記確率制御問題に対する初期の方策を含む初期化データを得るステップであって、該初期の方策は状態毎に少なくとも1つの行動の選定を含むステップと;
前記デジタルコンピュータ及び前記サンプリング装置制御システムを用いて、前記ボルツマンマシンの前記カプラの各々及び前記ノードの各々の、それぞれ初期の前記重み値、及び前記バイアスを表すデータ、及び前記ボルツマンマシンの前記横磁場強度を表すデータを、前記サンプリング装置に割り当てるステップと;
停止基準を満たすまで:
前記デジタルコンピュータを用いて、現在エポックの状態−行動の対を、ランダムに、あるいは前記基になる確率的状態過程を用いて、かつ現在の前記方策を用いて生成し、
適切な場合に、前記デジタルコンピュータ及び前記サンプリング装置制御システムを用いて、少なくとも1つの前記カプラを表し、かつ少なくとも1つの前記バイアスを表すデータを、前記生成した現在エポックの状態−行動の対を用いて修正し、
前記現在エポックの状態−行動の対に対応するサンプリングを実行して、1回目のサンプリングにおける経験的平均値を得て、
前記1回目のサンプリングにおける経験的平均値を用い、かつ前記デジタルコンピュータを用いて、前記現在エポックの状態−行動におけるQ関数の値の近似値を生成し、該Q関数の値は前記現在エポックの状態−行動の対の有用性を表し、
前記デジタルコンピュータを用いて、将来エポックの状態−行動の対を生成し、該状態は確率的状態過程により得られ、さらに、前記行動を生成することは、前記将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行し、これにより、前記将来エポックにおける行動を提供することを含み、
前記将来エポックの状態に対して前記現在の方策を更新し、
適切な場合に、前記デジタルコンピュータ及び前記サンプリング装置制御システムを用いて、少なくとも1つの前記カプラを表し、かつ少なくとも1つの前記バイアスを表すデータを、前記生成した将来エポックの状態−行動の対を用いて修正し、
前記将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングにおける経験的平均値を得て、
前記2回目のサンプリングにおける経験的平均値を用い、かつ前記デジタルコンピュータを用いて、前記将来エポックの状態−行動におけるQ関数の値の近似値を生成し、該Q関数の値は前記将来エポックの状態−行動の対の有用性を表し、
前記デジタルコンピュータを用いて、前記ボルツマンマシンの前記カプラの各々及び前記ノードの各々の、それぞれ前記重み値の各々及び前記バイアスの各々を更新し、該更新は、前記生成したQ関数の値の近似値、及び前記現在エポックの状態−行動の対における前記1回目のサンプリングにおける経験的平均値、及び前記報酬構造を用いて得られた前記現在エポックの状態−行動の対における対応する報酬を用いて行うステップと;
前記停止基準を満たした際に、前記デジタルコンピュータを用いて前記方策を提供するステップと
を含む、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本特許出願は、米国特許仮出願第62/333707号、2016年5月9日出願に基づいて優先権を主張する。
【背景技術】
【0002】
分野
本発明はコンピュータ計算に関するものである。より正確には、本発明は、確率制御問題に対する方策を改善する方法及びシステムに関連するものである。
【0003】
背景
マルコフ決定過程
確率制御問題は、確率過程により進行するシステムの状態を制御して実用性を最大にするための方策を設計することを目標とする。
【0004】
マルコフ決定過程(MDP:Markov Decision Process)は、マルコフ性を満足する特定種類の確率制御問題である。
【0005】
マルコフ決定過程は、不確定性の下での逐次的意思決定をモデル化するために広く用いられている。
【0006】
多数の問題にマルコフ決定過程が関与し、こうした問題は、例えばポピュレーション・ハーベスティング、水資源を灌漑及び発電向けに制御すること、あらゆる産業における機器取替、金融及び投資におけるポートフォリオ最適化、待ち行列理論及びオペレーションズ・リサーチ、与信及び保険の方針を策定すること、オーバーブッキング(過剰予約)管理、健康及び医薬品用途における検疫及び治療レベル、スポーツ戦略の策定、緊急対応自動車の位置探索である。
【0007】
実際に、何らかの固有の確率的進行を有するシステムがあれば、意思決定がシステムに影響を与え得る際に、多数のエポックにわたってあるシステム依存性の効用関数を最大にするために、意思決定者はこれらの意思決定をどのように行うことができるであろうか?
【0008】
形式的には、マルコフ決定過程は次の4つの構成要素によって定義することができる。
【0009】
1.一組の決定エポックT={n, n+1,...,m}、ここにmは有限にも無限にもすることができる。この一組の決定エポックは、当該時刻に決定を行わなければならない一組の時刻を表すことは明らかである。例えば、マルコフ決定過程が関与する問題が機器取替である場合には、一組の決定エポックは、その機器を連続して使用する毎日とすることができる。
【0010】
2.状態の空間S。状態空間内のあらゆる状態が、システムの実現を表すデータを含むことは明らかである。例えば、マルコフ決定過程が関与する問題が機器取替問題である場合には、状態空間は機器の状態を表す一組の数値とすることができる。
【0011】
3.行動の空間A。行動空間内のあらゆる行動が、システムの可能な制御を表すデータを含むことは明らかである。例えば、マルコフ決定過程が関与する問題が機器取替問題である場合には、行動空間は、機器を取り替えるか取り替えないかの2つの行動から成る。
【0012】
4.瞬時報酬
。瞬時報酬は、システムが所定の決定エポックにおいて所定状態にある間に、ある行動をとることの結果を表すことは明らかである。例えば、マルコフ決定過程が関与する問題が機器取替問題である場合には、瞬時報酬は、その行動が機器を取り替えることである場合には負であり、機器の取り替えのコストを表し、そうでなければ正である数値とすることができる。機器が良い状態で動作しているほど正の数値が大きい。
【0013】
遷移確率
は、所定状態から他の所定状態へ遷移する確率であることは明らかである。マルコフ決定過程のマルコフ性は次式のように書くことができる:
【数1】
【0014】
例えば、マルコフ決定過程が関与する問題が機器取替問題であり、機器が次の3つの状態(故障、不良、良好)を有する場合には、遷移確率は時間と独立にすることができ、次の遷移確率行列で与えられる:
【数2】
かつ
【数3】
【0015】
5.割引係数
。割引係数は、将来の報酬と現在の報酬との重要度の差を表すことは明らかである。
【0016】
方策は関数α:S×T→Aとして定義される。従って、方策が、各決定エポックにおけるシステムの状態に行動を割り当てることであることは明らかである。例えば、マルコフ決定過程が関与する問題が機器取替問題である場合には、方策は、機器が故障状態である際にのみ機器を取り替え、そうでなければ機器を取り替えない。
【0017】
効用関数は、次式:
【数4】
のように定義することができ、加数は、所定の初期状態sn及び方策αに合わせた条件付きの将来の報酬の割引期待値であることも、当業者にとって明らかである。従って、意思決定者が効用関数を最大にしたいこと、即ち、
を見つけたいことがあることは当業者にとって明らかであり、このことは、最適な方策:α*=argmaxαn(Sn, α)を見つけることを意味する。
【0018】
現在の決定エポックにおいてとるべき行動全体にわたって効用関数を最大にして最適な方策を用い続ける際に、この効用関数はQ関数と称され、
として書くことができ、αn全体にわたってQ(Sn, αn)を最大にすると最適な状態−行動の対が得られるることは、当業者にとって明らかである。
【0019】
最適な方策を見つけることが非常に面倒になり得ることは明らかである。実際に、状態、行動、及び/または決定のエポック集合が大きくなり過ぎると、あるいは遷移確率が未知であると、マルコフ決定問題に対する解を見つけることが課題になり得る。
【0020】
文字通り、アルゴリズムの計算の複雑性の下限が問題の次元に対して指数関数的に増大するアルゴリズムは、「次元の呪い」の問題があると言われている。マルコフ決定過程問題を解決する一般的方法は価値反復法であり[Richard Bellman, “A Markovian Decision Process”, Journal of Mathematics and Mechanics, Vol.6, No.5 (1957)(非特許文献1)]、一般的な場合に指数関数的な複雑性;即ちΩ(2d)を有し、ここにdはマルコフ決定過程問題の次元を表す。
【0021】
Q学習型の方法のような、「次元の呪い」の問題を克服するための多数の方法が存在する[Richard S. Sutton, Andrew G. Barto]。しかし、これらの方法は、あり得るすべての状態−行動の対についてQ関数の値を記憶することを必要とし、このことは特定サイズの問題については実現不可能である。この欠点を克服するために、ニューラル・ネットワークによるQ関数のパラメータ化が提案されているが(例えば[Sallans, B., Hinton, G. E., “Reinforcement Learning with Factored States and Actions”, Journal of Machine Learning Research 5, 1063-1088, 2004(非特許文献2)])、このことはニューラル・ネットワークを学習させることを伴い、この学習はニューラル・ネットワークを適合させることを必要とし、この適合は独立した未解決の問題であり、ニューラル・ネットワークを学習させる必要もあり、一部の場合には「NP困難」な問題を解決することを必要とする。
【0022】
従って、上記の欠点のうちの少なくとも1つを克服する方策を改善する方法の必要性が存在する。
【0023】
人工ニューラル・ネットワーク
人工ニューラル・ネットワーク(ANN:Artificial Neural Network)は、生体ニューラル・ネットワーク(神経回路網)によって閃いた計算モデルであり、関数の近似に用いられている。人工ニューラル・ネットワークはグラフ理論表現を有し、グラフのノードはニューロンとも称され、そのエッジはシナプスとしても知られている。
【0024】
一般ボルツマンマシン(GBM:General Boltzmann Machine)は人工ニューラル・ネットワークの一種であり、ここではニューロンが、線形のバイアスを付加されたランダム変数を表し、2つのニューロン間のシナプスのすべてが、そのニューロンに関連するランダム変数を含む二次項を表す。特に、すべての線形項及び二次項からの寄与分から成る一般ボルツマンマシンに関連するグローバル(総)エネルギー関数が存在する。
【0025】
従って、一般ボルツマンマシンは、従属変数の結合分布を近似するために用いられるグラフモデルである。対応するグラフは、可視ノード(または入力変数)と称されるノード、及び隠れノード(または潜在的変数)と称される不可視ノードを含む。一般ボルツマンマシンは、特定の組合せ問題を表現し解決するために開発され、確率的マシンの学習ツールとして用いることができる。一般ボルツマンマシンの用途は、可視物体及び音声の認識、分類、回帰タスク、次元の低減、情報検索、及び画像認識を含むが、それに限定されない。一般ボルツマンマシンの概要については、D. Ackley, G. Hinton, T. Sejnowski, “A Learning Algorithm for Boltzmann Machines”, Cognitive Science 9, 147-169 (1985)(非特許文献3)を参照されたい。
【0026】
一般ボルツマンマシンにおける分布近似は、関心事の従属変数をより大きなグラフのノードとして符号化することによって実行される。これらのノードは可視ノードであり、他のすべてのノードは隠れノードである。グラフ内のそれぞれ全ノード及び全エッジに割り当てられた重み値及びバイアスが存在し、これらの重み値及びバイアスに依存するエネルギー関数がこのグラフに割り当てられている。
【0027】
任意の接続を有する一般ボルツマンマシンは、機械学習の意味で特に有用であることが証明されていない。このことは近似学習法が低速であることに起因する。隠れノード間の接続に特定の制限を加えると、一般ボルツマンマシンのニューラル・ネットワークはより容易に学習させられるようになり、機械学習タスクによって有用になる。隠れノード間に接続が許容されず、かつ可視ノード間に接続が許容されないと、結果的なニューラル・ネットワークは制限ボルツマンマシン(RBM:Restricted Boltzmann Machine)と称され、可視層及び隠れ層の一方のみから成る。
【0028】
内部で可視の、あるいは内部で隠れるノード接続がなければ、可視層上への入力の集合全体にわたる確率分布を学習することの容易さにより、制限ボルツマンマシンを機械学習の領域における良好な実行者にする効率的な学習アルゴリズムが開発されている。用途、アルゴリズム、及び理論については、Y. Bengio et al. “Representation Learning: A Review and New Perspectives”, arXiv 2014 - (http://www.cl.uni-heidelberg.de/courses/ws14/deepl/BengioETAL12.pdf)(非特許文献4)の第6節を参照されたい。
【0029】
制限ボルツマンマシンの思想は、ディープ・ビリーフ(真相信念)ネットワーク(DBN:Deep Belief Network)と称されるより効果的なニューラル・ネットワークを作り出すために複数形にされている。ディープ・ビリーフ・ネットワークは、制限ボルツマンマシンどうしを積み重ねて、第1制限ボルツマンマシンの隠れ層を第2制限ボルツマンマシンにとっての可視層として用い、第2制限ボルツマンマシンの隠れ層が第3制限ボルツマンマシンにとっての可視層として機能する、等々のようにすることによって作り出される。この構造が専ら検討され、ディープ・ラーニング(深層学習)の基礎である。この構造の利点は、ネットワークの重み値及びバイアスを制限ボルツマンマシン毎に、上から下へ、スタンドアロン(独立型)の制限ボルツマンマシン用に開発された同じ学習アルゴリズムを用いて学習させることができることにある。ディープ・ビリーフ・ネットワークの背後にある用途、アルゴリズム、及び理論については、http://neuralnetworksanddeeplearning.com/chap6.htmlを参照されたい。
【0030】
ディープ・ビリーフ・ネットワークを学習させるための、制限ボルツマンマシン毎のやり方は、誤差を蓄積させるという犠牲を払って成り立ち、これらの誤差は、制限ボルツマンマシン毎の分布の近似から生じる。このニューラル・ネットワークを学習させる代案の方法は、ニューラル・ネットワークを一般ボルツマンマシンとして扱い、全部の重み値を層毎ではなく同じ反復回に更新することによるものである。こうした構造に適用されるこうした方法はディープ(深層)ボルツマン・マシン(DBM:Deep Boltzmann Machine)と称される。
【0031】
量子プロセッサ
量子プロセッサは、複数の量子ビットの量子力学系であり、この量子力学系全体にわたる測定値は、システムの総エネルギーによって定義されるボルツマン分布からのサンプルを生じさせる
【0032】
量子ビットは、ヒルベルト空間上に表現される量子力学系の物理的実現であり、明らかに区別される少なくとも2つの固有状態を実現し、これらの固有状態は量子ビットの2つの状態を表す。量子ビットはデジタルビットの類似物であり、周辺記憶装置は、二状態の量子情報である1つの状態|0>及び|1>を記憶することができるが、これら2つの状態の重ね合わせα|0>+β|1>の形でも記憶することができる。種々の具体例では、こうした系が3つ以上の固有状態を有することができ、この場合、追加的な固有状態を用いて2つの論理状態を縮退測定値によって表す。量子ビットの実現の種々の具体例が提案されており、例えば:電子的に、あるいは核磁気共鳴によって測定及び制御される固体核スピン、トラップ内のイオン、光キャビティ内の原子(キャビティ量子電磁力学)、液相核スピン、量子ドットにおける電荷またはスピン自由度、ジョセフソン接合に基づく超電導量子回路[Barone and Patermo, 1982, “Physics and Applications of the Josephson Effect”, John Wiley and Sons, New York(非特許文献5);Martinis et al., 2002, “Physical Review Letters 89, 117901”(非特許文献6)]、及びヘリウム上の電子である。
【0033】
各量子ビットに、局所場バイアスと称されるバイアス源が結合されている。一具体例では、バイアス源が電磁装置であり、量子ビットに磁束を通して量子ビットの状態の制御を行う(米国特許出願公開第2006/0225165号(特許文献1))。
【0034】
量子ビットに対する局所場バイアスはプログラム可能であり、かつ制御可能である。一具体例では、デジタル処理装置を具えた量子ビット制御システムが、量子ビットのシステムに接続され、量子ビットに対する局所場バイアスをプログラムして調整することができる。
【0035】
量子プロセッサは、複数の量子ビットの複数対間の複数の結合部(カップリング)をさらに具えることができる。2つの量子ビット間の結合部は、両量子ビットに近接した装置であり、両量子ビットに磁束を通す。一具体例では、結合部を、化合物ジョセフソン接合によって断続される超電導回路で構成することができる。磁束を化合物ジョセフソン接合に通すことができ、その結果、両量子ビット上に磁束を通すことができる[特許文献1]。この磁束の強度は、量子プロセッサのエネルギーに二次関数的に寄与する。一具体例では、両量子ビットに近接した上記結合装置を調整することによって結合強度を強化する。
【0036】
この結合強度は制御可能かつプログラム可能である。一具体例では、デジタル処理装置を具えた量子デバイス制御装置が、上記複数の結合部に接続されて、量子プロセッサの結合強度をプログラムすることができる。
【0037】
量子アニーラ(annealer:焼きなまし器)は、例えばFarhi, E. et al., “Quantum Adiabatic Evolution Algorithms versus Simulated Annealing”, arXiv.org: quant ph/0201031 (2002), pp. 1-16(非特許文献7)に記載されている量子アニーリング(焼きなまし、徐冷)を実行する量子プロセッサである。
【0038】
量子アニーラは、量子プロセッサにおける初期設定から最終設定への変換を実行する。量子プロセッサの初期設定及び最終設定は、それぞれに対応する初期ハミルトニアン(ハミルトン関数)及び最終ハミルトニアンによって記述される量子系を提供する。上述した局所場バイアス及び結合部を有する量子アニーラについては、最終ハミルトニアンは二次関数f(x)=Σiii+Σ(i,j)(i,j)ijで表すことができ、ここで1番目の総和は量子アニーラの量子ビットを表す添え字iの全体にわたって実行し、2番目の総和は量子ビットiとjとの間に結合部が存在する対(i,j)の全体にわたって実行する。
【0039】
上述した二次関数では、各変数xiがi番目の量子ビットのスピン値−1及び1の一方をとり、この二次関数はイジング(Ising)モデル(模型)とも称される。この場合、イジングモデルは
でも表される。ここで、上付き文字zは、量子ビットiのスピンσiがその三軸のうちの1つだけに寄与することを示す。従って、この軸zは測定軸または測定基線とも称される。
【0040】
より一般的な具体例では、イジングモデルのハミルトニアンが、量子ビットのスピンの他の基線での寄与分をさらに含むことができる。例えば、ハミルトニアン
は横磁場イジングモデルと称され、このモデルでは各スピンがx軸に沿った0でない横磁場によって影響を与えられる。
【0041】
量子アニーラは、そのエネルギー関数の発見的最適化装置として用いることができる。こうしたアナログプロセッサの具体例は、McGeoch, Catherine C. and Cong Wang, (2013), “Experimental Evolution of an Adiabatic Quantum System for Combinational Optimization”, Computing Frontiers, May 14 16, 2013(http://www.cs.amherst.edu/ccm/cf14-mcgeoch.pdf)(非特許文献8)に開示され、特許文献1にも開示されている。
【0042】
量子アニーリングプロセスに少しの修正を加えることにより、量子プロセッサを代わりに用いて、最終温度における量子プロセッサのイジングモデルのボルツマン分布からサンプルを提供することができる。読者は次の技術報告書:Bian, Z., Chudak, F., Macready, W. G. and Rose, G. (2010), “The Ising model; teaching an old problem new tricks”(非特許文献9)、そしてAmin, M. H., Andriyash, E., Rolfe, J. Kulchytskyy, B., and Melko, R. (2016), “Quantum Boltzmann machine”, arXiv:1601.02036(非特許文献10)も参照されたい。
【0043】
こうしたサンプリングの方法を量子サンプリングと称する。
【0044】
局所場バイアス及び結合部を有する量子プロセッサについては、量子サンプリングが、当該量子サンプリングが表すイジングモデルのボルツマン分布とは少し異なる分布からのサンプルをもたらす。
【0045】
非特許文献10は、量子サンプリングがボルツマン・サンプリングとどの程度異なるかを検討している。
【0046】
光結合デバイス
平衡状態に近いイジングモデルのボルツマン分布からのサンプリングを実行することができるアナログシステムの他の具体例は、光デバイスである。
【0047】
一具体例では、上記光デバイスが、特許出願米国特許出願公開第2016/0162798号(特許文献2)及び国際公開第2015/006494号(特許文献3)に開示されている光パラメトリック発振器(オシレータ)(OPO:Optical Parametric Oscillator)を具えている。
【0048】
この具体例では、イジングモデルの各スピンを、縮退状態で動作する光パラメトリック発振器によってシミュレート(模擬)している。
【0049】
縮退した光パラメトリック発振器は開放型の散逸系であり、発振閾値において二次の位相遷移が生じる。位相敏感な増幅により、縮退光パラメトリック発振器は、上記閾値を上回る振幅については、ポンプ位相に対して0またはπのいずれかの位相で発振することができる。この位相は、発振立上り中の光パラメトリック・ダウンコンバージョンに伴う量子雑音によって影響を与えられてランダムになる。従って、縮退光パラメトリック発振器は、その出力位相によって指定される二進数を必然的に表す。この特性に基づいて、縮退光パラメトリック発振器システムをイジングマシンとして利用することができる。各縮退光パラメトリック発振器の位相はイジングスピンとして識別され、その振幅及び位相は、関連するスピン間のイジング結合の強度及び符号によって決まる。
【0050】
縮退光パラメトリック発振器は、強力なポンプ源によってポンピング(励起)されると、イジングモデルにおけるスピン1または−1に対応する2つの位相状態のうちの1つをとる。互いの結合を有するN個のほぼ同一の光パラメトリック発振器のネットワークは、同じポンプ源でポンピングされて、イジングスピン系をシミュレートする。ポンプの導入からの過渡期後に、この光パラメトリック発振器のネットワークは、熱平衡に近い定常状態に近づく。
【0051】
位相状態選択プロセスは、光パラメトリック発振器の真空ゆらぎ及び相互の結合に依存する。一部の実現では、ポンプが一定振幅のパルスを与えられ、他の実現では、ポンプの出力が二次関数的に増加し、さらに他の実現では、ポンプが他の方法で制御される。
【0052】
光デバイスの一具体例では、イジングモデルにおける複数の結合部を、光パラメトリック発振器間の光場どうしを結合するために用いられる複数の設定可能な結合部によってシミュレートする。これらの設定可能な結合は、オフ状態であるように設定することができ、あるいはオン状態であるように設定することができる。これらの結合部をオン状態及びオフ状態に切り換えることは、徐々に、あるいは急激に実行することができる。オン状態に設定されると、この設定は、イジング問題における結合強度に依存する任意の位相または振幅を与えることができる。
【0053】
各光パラメトリック発振器の出力は、位相基準と干渉し、その結果は光検知器(フォトディテクタ)によって捕捉される。光パラメトリック発振器の出力はイジングモデルの設定を表す。例えば、0の位相はイジングモデルにおける−1のスピン状態を表すことができ、πの位相はイジングモデルにおける1のスピン状態を表すことができる。
【0054】
N個のスピンを有するイジングモデルについては、そして一具体例によれば、複数の光パラメトリック発振器の共鳴キャビティが、ポンプ源からのN個のパルスの周期のN倍に等しいラウンドトリップタイム(周回時間)を有するように構成されている。本明細書中に用いる「ラウンドトリップタイム」とは、上述した再帰的(周回)経路の1回の通過において光が伝搬する時間を示す。共鳴キャビティのラウンドトリップタイムの1/Nに等しい周期Pを有するパルス列のN個のパルスは、互いに干渉することのないN個の光パラメトリック発振器を通って同時に伝搬することができる。
【0055】
一具体例では、光パラメトリック発振器どうしの結合部が、共鳴キャビティに沿って割り当てられた複数の遅延線によって提供される。
【0056】
これら複数の遅延線は複数の変調器(モジュレータ)を具え、これらの変調器が同期して結合の強度及び位相を制御して、上記光デバイスのプログラミングがイジングモデルをシミュレートすることを可能にする。
【0057】
N個の光パラメトリック発振器のネットワークでは、2つ一組にしたすべての組の2つの光パラメトリック発振器間の結合の振幅及び位相を制御するのに、N−1本の遅延線及びそれぞれに対応する変調器で十分である。
【0058】
一具体例では、特許文献2に開示されているように、イジングモデルからサンプリングすることができる光デバイスを、光パラメトリック発振器のネットワークとして製造することができる。
【0059】
一具体例では、光パラメトリック発振器、及び光パラメトリック発振器の結合部を、市販のモードロック・レーザー、及び通信用ファイバ遅延線、変調器のような光学素子、及び他の光学装置を用いて実現することができる。その代わりに、光パラメトリック発振器及び光パラメトリック発振器の結合部のネットワークを、電気通信用途向けに開発されたファイバ技術のような光ファイバ技術を用いて実現することができる。これらの結合は、ファイバで実現して、光カー(Kerr)シャッタによって制御することができる。
【0060】
Q−学習
最適値関数U*及び最適方策α*を近似する方法を、ニューロダイナミック(神経力学)プログラミングまたはQ−学習アルゴリズムと称する。非特許文献2は、ボルツマンマシンの使用によるQ学習の方法を提案している。特に、一般ボルツマンマシンを用いて、最適な確率制御設定における状態と行動との結合分布を近似する
【0061】
本発明の特徴は、以下の本発明の開示、図面、及び説明を検討することにより明らかになる。
【先行技術文献】
【特許文献】
【0062】
【特許文献1】米国特許出願公開第2006/0225165号明細書
【特許文献2】米国特許出願公開第2016/0162798号明細書
【特許文献3】国際公開第2015/006494号パンフレット
【特許文献4】米国特許第8421053号明細書
【特許文献5】米国特許出願公開第2015/0046681号明細書
【非特許文献】
【0063】
【非特許文献1】Richard Bellman, “A Markovian Decision Process”, Journal of Mathematics and Mechanics, Vol.6, No.5 (1957)
【非特許文献2】Sallans, B., Hinton, G. E., “Reinforcement Learning with Factored States and Actions”, Journal of Machine Learning Research 5, 1063-1088, 2004
【非特許文献3】D. Ackley, G. Hinton, T. Sejnowski, “A Learning Algorithm for Boltzmann Machines”, Cognitive Science 9, 147-169 (1985)
【非特許文献4】Y. Bengio et al. “Representation Learning: A Review and New Perspectives”, arXiv 2014
【非特許文献5】Barone and Patermo, 1982, “Physics and Applications of the Josephson Effect”, John Wiley and Sons, New York
【非特許文献6】Martinis et al., 2002, “Physical Review Letters 89, 117901”
【非特許文献7】Farhi, E. et al., “Quantum Adiabatic Evolution Algorithms versus Simulated Annealing”, arXiv.org: quant ph/0201031 (2002), pp. 1-16
【非特許文献8】McGeoch, Catherine C. and Cong Wang, (2013), “Experimental Evolution of an Adiabatic Quantum System for Combinational Optimization”, Computing Frontiers, May 14 16, 2013
【非特許文献9】Bian, Z., Chudak, F., Macready, W. G. and Rose, G. (2010), “The Ising model; teaching an old problem new tricks”
【非特許文献10】Amin, M. H., Andriyash, E., Rolfe, J. Kulchytskyy, B., and Melko, R. (2016), “Quantum Boltzmann machine”, arXiv:1601.02036
【発明の概要】
【課題を解決するための手段】
【0064】
概要
広義の態様によれば、確率制御問題に対する方策を改善する方法を開示し、この確率制御問題は、一組の行動、一組の状態、これらの状態及び行動の関数としての報酬構造、及び複数の決定エポックによって特徴付けられ、基になる確率的状態過程の進行は、方策における複数の行動に依存し、この方法は、デジタルコンピュータ及びサンプリング装置制御システムに結合されたサンプリング装置を用いるステップであって、このサンプリング装置は、ボルツマンマシンのサンプル形態を表すデータを取得し、このボルツマンマシンは、複数のノード、複数のカプラ(結合器)、各々がこれら複数のノードのうちの1つのノードに対応する複数のバイアス、各々がこれら複数のカプラのうちの1つのカプラに対応する複数の結合の重み値、及び横磁場強度を具えているステップと;上記デジタルコンピュータを用いて、上記一組の行動、上記一組の状態、上記確率制御問題の報酬構造、及び上記確率制御問題に対する初期方策を含む初期化データを得るステップであって、この方策は状態毎に少なくとも1つの行動の選定を含むステップと;上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ初期重み値及びバイアスを表すデータ、及び上記ボルツマンマシンの横磁場強度を表すデータを、上記サンプリング装置に割り当てるステップと;停止基準を満たすまで:上記デジタルコンピュータを用いて現在エポックの状態−行動の対を生成し、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、生成した現在エポックの状態−行動の対を用いて修正し、現在エポックの状態−行動の対に対応するサンプリングを実行して、1回目のサンプリングにおける経験的平均値を得て、1回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、現在エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は現在エポックの状態−行動の対の有用性を表し、上記デジタルコンピュータを用いて将来エポックの状態−行動の対を生成し、状態は確率的状態過程により得られ、さらに、行動を得ることは、将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行し、これにより、将来エポックにおける行動を提供して将来エポックの状態に対して方策を更新することを含み、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、上記生成した将来エポックの状態−行動の対を用いて修正し、将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングにおける経験的平均値を得て、2回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、将来エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は将来エポックの状態−行動の対の有用性を表し、上記デジタルコンピュータを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを更新し、この更新は、生成したQ関数の値の近似値、及び現在エポックの状態−行動の対における1回目のサンプリングにおける経験的平均値、及び上記報酬構造を用いて得られた現在エポックの状態−行動の対における対応する報酬を用いて行うステップと;上記停止基準を満たした際に、上記デジタルコンピュータを用いて方策を提供するステップとを含む。
【0065】
1つの好適例によれば、上記サンプリング装置が量子プロセッサを具え、上記サンプリング装置制御システムが量子デバイス制御システムを具え、この量子プロセッサは上記デジタルコンピュータ及びこの量子デバイス制御システムに結合され、さらに、この量子プロセッサは複数の量子ビット及び複数のカプラを具え、各カプラは2つの量子ビットの交点における通信結合を提供する。
【0066】
1つの好適例によれば、上記サンプリング装置が光学装置及び結合装置を具え、光学装置は、光エネルギー源からエネルギーを受けて複数の光パラメトリック発振器を生成するように構成され、各結合装置は、複数の光パラメトリック発振器のうちの1つの光パラメトリック発振器を制御可能な様式で結合する。
【0067】
1つの好適例によれば、上記サンプリング装置が、中央処理装置、及びこの中央処理装置に結合されたメモリ装置を具えて上記ボルツマンマシンを実現し、実現されるボルツマンマシンは従来型ボルツマンマシンであり、0の値の横磁場強度によって特徴付けられ、上記メモリ装置は、この従来型ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを表すデータを得るためのアプリケーションを含み、このアプリケーションは、この従来型ボルツマンマシンの、シミュレーションによる量子アニーリング(擬似量子徐冷)を実行するように構成されている。
【0068】
1つの好適例によれば、上記サンプリング装置が、中央処理装置、及びこの中央処理装置に結合されたメモリ装置を具えて上記ボルツマンマシンを実現し、実現されるボルツマンマシンは量子ボルツマンマシンであり、0でない値の横磁場強度によって特徴付けられ、このメモリ装置は、この量子ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを表すデータを得るためのアプリケーションを含み;さらに、このアプリケーションは、この量子ボルツマンマシンの、シミュレーションによる量子アニーリングを実行するように構成されている。
【0069】
1つの好適例によれば、上記量子ボルツマンマシンの、シミュレーションによる量子アニーリングを実行することによって、この量子ボルツマンマシンを表現する有効ハミルトニアンの複数のサンプル形態がもたらされる。
【0070】
1つの好適例によれば、上記サンプリング装置が、中央処理装置、及びこの中央処理装置に結合されたメモリ装置を具えて上記ボルツマンマシンを実現し、実現されるボルツマンマシンは従来型ボルツマンマシンであり、0の値の横磁場強度によって特徴付けられ;さらに、このメモリ装置は、この従来型ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを表すデータを得るためのアプリケーションを含み、このアプリケーションは、この従来型ボルツマンマシンに対応するフォルトゥン−カステレイン(Fortuin-Kasteleyn)ランダムクラスタ表現の複数のインスタンスをサンプリングし、これにより、フォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数の近似値を提供するように構成されている。
【0071】
1つの好適例によれば、上記サンプリング装置が、中央処理装置、及びこの中央処理装置に結合されたメモリ装置を具えて上記ボルツマンマシンを実現し、実現されるボルツマンマシンは量子ボルツマンマシンであり、0でない横磁場強度によって特徴付けられ、このメモリ装置は、この量子ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを表すデータを得るためのアプリケーションを含み、このアプリケーションは、上記量子ボルツマンマシンに対応するフォルトゥン−カステレイン・ランダムクラスタ表現の複数のインスタンスをサンプリングし、これにより、フォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数の近似値を提供するように構成されている。
【0072】
1つの好適例によれば、現在エポック及び将来エポックの両方における上記Q関数の値の近似値を生成することが、上記サンプリング装置から、測定値軸に沿った上記ボルツマンマシンの形態の複数のサンプルを得ること、及び上記デジタルコンピュータを用いて、上記ボルツマンマシンの自由エネルギーの経験的近似値を計算することを含む。
【0073】
1つの好適例によれば、現在エポック及び将来エポックの両方における上記Q関数の値の近似値を生成することが、上記サンプリング装置から、測定値軸に沿った、上記ボルツマンマシンの複数のサンプル形態を得ること、得られたサンプル形態から、上記量子ボルツマンマシンを表現するハミルトニアンの形態の複数のサンプルを構成すること、及び上記デジタルコンピュータを用いて、上記量子ボルツマンマシンの自由エネルギーの経験的近似値を計算することを含む。
【0074】
1つの好適例によれば、現在エポック及び将来エポックの両方における上記Q関数の値の近似値を生成することが、上記サンプリング装置から、上記量子ボルツマンマシンを表現する有効ハミルトニアンの形態の複数のサンプルを得ること、及び上記デジタルコンピュータを用いて、上記量子ボルツマンマシンの自由エネルギーの経験的近似値を計算することを含む。
【0075】
1つの好適例によれば、現在エポック及び将来エポックの両方における上記Q関数の値の近似値を生成することが、上記サンプリング装置から、上記量子ボルツマンマシンに対応するフォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数の近似値を得ること、及び上記デジタルコンピュータを用いて、上記量子ボルツマンマシンの自由エネルギーの経験的近似値を計算することを含む。
【0076】
1つの好適例によれば、上記ノードに対応する1回目及び2回目の上記経験的平均値の両方を計算することが、上記サンプリング装置から、測定値軸に沿った、上記量子ボルツマンマシン及び上記従来型ボルツマンマシンの一方の形態の複数のサンプルを得ること、及び上記デジタルコンピュータを用いて、上記ノードにおける経験的平均値の近似値を計算することを含む。
【0077】
1つの好適例によれば、上記ノードに対応する1回目及び2回目の上記経験的平均値の両方を計算することが、上記サンプリング装置から、上記ボルツマンマシンの有効ハミルトニアンの形態の複数のサンプルを得ること、及び上記デジタルコンピュータを用いて、上記ノードにおける経験的平均値の近似値を計算することを含む。
【0078】
1つの好適例によれば、上記すべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行することが、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、将来エポックの状態に対応する状態−行動の対の各々を用いて修正すること、将来エポックの状態に対応する状態−行動の対の各々に対応するサンプリングを実行して、経験的平均値を提供すること、上記デジタルコンピュータを用いて、将来エポックの状態に対応する状態−行動の対の各々における上記Q関数の値の近似値を生成すること、将来エポックの状態に対応する状態−行動の対の各々に対応するQ関数値のすべての近似値を用い、かつ上記デジタルコンピュータを用いて、対応する分布からサンプリングして、将来エポックの状態に対して方策を更新することを含む。
【0079】
1つの好適例によれば、上記すべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行することが、温度パラメータを得ること;将来エポックの状態を得ること;将来エポックの状態に固定された状態変数及び提供された温度により、上記Q関数の値の近似値に関連するボルツマン分布をサンプリングすることを含む。
【0080】
1つの好適例によれば、上記量子プロセッサの上記複数の量子ビットが、第1グループの量子ビット;第2グループの量子ビットを含み、上記量子プロセッサの上記複数のカプラは、少なくとも1つのカプラ、及び他の複数のカプラを含み、少なくとも1つのカプラの各々は、第1グループの量子ビットのうちの1つの量子ビットと、第2グループの量子ビットのうちの少なくとも1つの量子ビットとの交点における通信結合を提供し、上記他の複数のカプラの各々は、第2グループの量子ビットのうちの1つの量子ビットと第2グループの量子ビットのうちの他の量子ビットとの交点における通信結合を提供する。
【0081】
1つの好適例によれば、上記第1グループの量子ビットが上記確率制御問題における一組の行動を表す。
【0082】
1つの好適例によれば、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、生成した現在エポックの状態−行動の対を用いて修正することが、上記第1グループの量子ビットうちの1つの量子ビットと上記第2グループの量子ビットとの交点における通信結合を提供するすべてのカプラをオフ状態に切り換えること、及び上記第2グループの量子ビットにおける少なくとも1つのバイアスを、上記生成した現在エポックの状態−行動の対を用いて修正することを含む。
【0083】
1つの好適例によれば、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、生成した将来エポックの状態−行動の対を用いて修正することが、上記第1グループの量子ビットうちの1つの量子ビットと上記第2グループの量子ビットとの交点における通信結合を提供するすべてのカプラをオフ状態に切り換えること、及び、上記第2グループの量子ビットにおける少なくとも1つのバイアスを、上記生成した将来エポックの状態−行動の対を用いて修正することを含む。
【0084】
1つの好適例によれば、将来エポックの状態及びあり得るすべての行動を含む上記すべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行することが、上記第1グループの量子ビットのうちの1つの量子ビットと上記第2グループの量子ビットとの交点における通信結合を提供するすべてのカプラをオン状態に切り換えること;上記第2グループの量子ビットにおける少なくとも1つのバイアスを、将来エポックの状態−行動の対に対応する将来エポックの状態を用いて修正すること;量子サンプリングを実行して、上記第1グループの量子ビットに対応する経験的平均値を得ること;及び上記デジタルコンピュータを用いて、上記第1グループの量子ビットに対応する得られた経験的平均値の分布に応じた行動を、将来エポックの状態に割り当てることによって、将来エポックの状態に対して方策を更新することを含む。
【0085】
1つの好適例によれば、上記停止基準が、学習ステップの最大数に達することを含む。
【0086】
1つの好適例によれば、上記停止基準が、最大実行時間に達することを含む。
【0087】
1つの好適例によれば、上記停止基準が、上記結合及び局所場の重み値及びバイアスの関数の収束を含む。
【0088】
1つの好適例によれば、上記停止基準が、上記方策が固定の方策に収束することを含む。
【0089】
1つの好適例によれば、上記方策を提供するステップが、上記デジタルコンピュータと対話するユーザに対して上記方策を表示すること;上記方策を上記デジタルコンピュータ内に記憶すること;及び上記方策を、上記デジタルコンピュータに動作的に接続された他の処理装置へ送信すること、のうちの少なくとも1つを含む。
【0090】
1つの好適例によれば、上記デジタルコンピュータがメモリ装置を具え;さらに、上記デジタルコンピュータのこのメモリ装置から上記初期化データを得る。
【0091】
1つの好適例によれば、上記初期化データを、上記デジタルコンピュータと対話するユーザ、及び上記デジタルコンピュータに動作的に接続されたリモート処理装置の一方から得る。
【0092】
広義の態様によれば、デジタルコンピュータを開示し、このデジタルコンピュータは、中央処理装置と;表示(ディスプレイ)装置と;当該デジタルコンピュータを、あるデジタルコンピュータに結合されたサンプリング装置、及びサンプリング装置制御システムに動作的に接続するための通信ポートと;確率制御問題に対する方策を改善するためのアプリケーションを含むメモリ装置とを具え、この確率制御問題は、一組の行動、一組の状態、これらの状態及び行動の関数としての報酬構造、及び複数の決定エポックによって特徴付けられ、基になる確率的状態過程の進行は、方策における複数の行動に依存し、このアプリケーションは、デジタルコンピュータ及びサンプリング装置制御システムに結合されたサンプリング装置を用いるための命令であって、このサンプリング装置は、ボルツマンマシンのサンプル形態を表すデータを取得し、このボルツマンマシンは、複数のノード、複数のカプラ、各々がこれら複数のノードのうちの1つのノードに対応する複数のバイアス、各々がこれら複数のカプラのうちの1つのカプラに対応する複数の結合の重み値、及び横磁場強度を具えている命令と;上記デジタルコンピュータを用いて、上記一組の行動、上記一組の状態、上記確率制御問題の報酬構造、及び上記確率制御問題に対する初期方策を含む初期化データを得るための命令であって、この方策は状態毎に少なくとも1つの行動の選定を含む命令と;上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ初期重み値及びバイアスを表すデータ、及び上記ボルツマンマシンの横磁場強度を表すデータを、上記サンプリング装置に割り当てるための命令と;停止基準を満たすまで:上記デジタルコンピュータを用いて現在エポックの状態−行動の対を生成し、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、生成した現在エポックの状態−行動の対を用いて修正し、現在エポックの状態−行動の対に対応するサンプリングを実行して、1回目のサンプリングにおける経験的平均値を得て、1回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、現在エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は現在エポックの状態−行動の対の有用性を表し、上記デジタルコンピュータを用いて将来エポックの状態−行動の対を生成し、状態は確率的状態過程により得られ、さらに、行動を得ることは、将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行し、これにより、将来エポックにおける行動を提供して将来エポックの状態に対して方策を更新することを含み、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、上記生成した将来エポックの状態−行動の対を用いて修正し、将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングにおける経験的平均値を得て、2回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、将来エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は将来エポックの状態−行動の対の有用性を表し、上記デジタルコンピュータを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを更新し、この更新は、生成したQ関数の値の近似値、及び現在エポックの状態−行動の対における1回目のサンプリングにおける経験的平均値、及び上記報酬構造を用いて得られた現在エポックの状態−行動の対における対応する報酬を用いて行うための命令と;上記停止基準を満たした際に、上記デジタルコンピュータを用いて方策を提供するための命令とを含む。
【0093】
広義の態様によれば、コンピュータで実行可能な命令を記憶するための非一時的なコンピュータ可読記憶媒体を開示し、これらの命令は、デジタルコンピュータにより実行されると、このデジタルコンピュータに、確率制御問題に対する方策を改善する方法を実行させ、この確率制御問題は、一組の行動、一組の状態、これらの状態及び行動の関数としての報酬構造、及び複数の決定エポックによって特徴付けられ、基になる確率的状態過程の進行は、方策における複数の行動に依存し、上記方法は、デジタルコンピュータ及びサンプリング装置制御システムに結合されたサンプリング装置を用いるステップであって、このサンプリング装置は、ボルツマンマシンのサンプル形態を表すデータを取得し、このボルツマンマシンは、複数のノード、複数のカプラ、各々がこれら複数のノードのうちの1つのノードに対応する複数のバイアス、各々がこれら複数のカプラのうちの1つのカプラに対応する複数の結合の重み値、及び横磁場強度を具えているステップと;上記デジタルコンピュータを用いて、上記一組の行動、上記一組の状態、上記確率制御問題の報酬構造、及び上記確率制御問題に対する初期方策を含む初期化データを得るステップであって、この方策は状態毎に少なくとも1つの行動の選定を含むステップと;上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ初期重み値及びバイアスを表すデータ、及び上記ボルツマンマシンの及び横磁場強度を表すデータを、上記サンプリング装置に割り当てるステップと;停止基準を満たすまで:上記デジタルコンピュータを用いて現在エポックの状態−行動の対を生成し、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、生成した現在エポックの状態−行動の対を用いて修正し、現在エポックの状態−行動の対に対応するサンプリングを実行して、1回目のサンプリングにおける経験的平均値を得て、1回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、現在エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は現在エポックの状態−行動の対の有用性を表し、上記デジタルコンピュータを用いて将来エポックの状態−行動の対を生成し、状態は確率的状態過程により得られ、さらに、行動を得ることは、将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行し、これにより、将来エポックにおける行動を提供して将来エポックの状態に対して方策を更新することを含み、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、上記生成した将来エポックの状態−行動の対を用いて修正し、将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングにおける経験的平均値を得て、2回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、将来エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は将来エポックの状態−行動の対の有用性を表し、上記デジタルコンピュータを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを更新し、この更新は、生成したQ関数の値の近似値、及び現在エポックの状態−行動の対における1回目のサンプリングにおける経験的平均値、及び上記報酬構造を用いて得られた現在エポックの状態−行動の対における対応する報酬を用いて行うステップと;上記停止基準を満たした際に、上記デジタルコンピュータを用いて方策を提供するステップとを含む。
【発明の効果】
【0094】
本明細書中に開示する方法の1つの利点は、マルコフ決定問題を解決するための数値反復法における「次元の呪い」の問題を克服することにある。
【0095】
本明細書中に開示する方法の他の利点は、マルコフ決定問題を解決するための一般的なQ学習法におけるメモリ記憶の問題を克服することにある。
【0096】
本明細書中に開示する方法の他の利点は、量子サンプリングを用いて、系の量子ビットにおける経験的平均値を見出す効率的方法を提供し、これにより、ニューラル・ネットワークを学習させるための効率的方法を提供することにある。
【0097】
本明細書中に開示する方法の他の利点は、1つの好適例においてフォルトゥン−カステレイン・ランダムクラスタ表現からのサンプリングを用いて、系の量子ビットにおける経験的平均値を見出すための効率的方法を提供し、これにより、ニューラル・ネットワークを学習させるための効率的な方法を提供することにある。
【0098】
本明細書中に開示する方法の他の利点は、量子プロセッサまたは光学装置の量子ビットの特定の図形的配置に限定されないことにある。
【0099】
本発明を容易に理解することができるために、本発明の実施形態を、一例として、添付した図面中に図示する。
【図面の簡単な説明】
【0100】
図1】アナログコンピュータに結合されたデジタルシステムを具えたシステムの実施形態を示す図である。
図2】確率制御問題に対する方策を改善する方法の実施形態を示すフローチャートである。
【発明を実施するための形態】
【0101】
本発明のさらなる詳細及びその利点は、以下に含める詳細な説明より明らかになる。
【0102】
詳細な説明
以下の実施形態の説明では、添付した図面の参照は、本発明を実施することができる一例を説明する目的である。
【0103】
用語
「発明」等とは、特に断りのない限り「本願中に開示する1つ以上の発明」を意味する。
【0104】
「態様」、「ある実施形態」、「実施形態」、「(複数の)実施形態」、「その実施形態」、「その(複数の)実施形態」、「1つ以上の実施形態」、「一部の実施形態」、「特定実施形態」、「一実施形態」、「他の実施形態」等とは、特に断りのない限り「開示する発明の(全部ではないが)1つ以上の実施形態」を意味する。
【0105】
ある実施形態を説明するに当たっての「他の実施形態」または「他の態様」の参照は、特に断りのない限り、参照される実施形態が他の実施形態(例えば、参照される実施形態の前に記載された実施形態)と互いに排他的であることを意味しない。
【0106】
「含む」、「具える」及びそれらの変化形は、特に断りのない限り「含むが、それに限定されない」ことを意味する。
【0107】
「ある」、「1つの」、「その」及び「少なくとも1つの」とは、特に断りのない限り「1つ以上の」を意味する。
【0108】
「複数の」とは、特に断りのない限り「2つ以上の」を意味する。
【0109】
「本明細書中に」とは、特に断りのない限り「参照することによって含めることができるあらゆるものを含む本願中に」を意味する。
【0110】
「これにより(それにより)」とは、本明細書中では、その前に、かつ明示的に記載した何かの意図した結果、目的、帰結のみを表現する節、あるいは他の一組の語に先行するためだけに用いる。従って、「これにより」を請求項中に用いる際には、「これにより」が修飾する節または他の文言が、その請求項の特定の追加的限定を定めないか、さもなければ、その請求項の意味または範囲を限定する。
【0111】
「例えば(e.g.)」及びその類語は、「例えば」を意味し、従って、これらの語が説明する語句を限定しない。例えば、「コンピュータがデータ(例えば、命令、データ構造)をインターネット上で送信する」という一例では、「例えば」は、「命令」が、コンピュータがインターネット上で送信することができる「データ」の一例であることを説明し、また、「データ構造」が、コンピュータがインターネット上で送信することができる「データ」の一例であることも説明する。しかし、「命令」及び「データ構造」は共に「データ」の例に過ぎず、「命令」及び「データ構造」以外の他のものも「データ」であり得る。
【0112】
「即ち(i.e.)」等とは「即ち(つまり)」を意味し、従って、これらの語が説明する語句を制限する。
【0113】
一具体例では、「アナログコンピュータ」は、量子プロセッサ、量子ビットの制御システム、結合装置、及び読出しシステムを具えたシステムを参照し、これらのすべてが通信バスを通して互いに接続されている。
【0114】
代わりの具体例では、「アナログコンピュータ」は、光パラメトリック発振器、光パラメトリック発振器の制御システム、遅延線及び変調器を具えた1つまたは複数の結合装置、及び1つまたは複数の光検出器を具えた読出しシステムのネットワークを具えた光学装置を含むシステムを参照する。
【0115】
発明の名称も要約も、開示する発明の範囲を多少なりとも限定するものとして解釈するべきでない。本願の発明の名称及び本願中に提供する節の表題は利便性のために過ぎず、開示を多少なりとも限定するものとして解釈するべきでない。
【0116】
本願中には多数の実施形態が記載され、これらの実施形態は例示目的で提示するに過ぎない。記載する実施形態は、いかなる意味でも限定的ではなく、限定的であることを意図していない。本明細書に開示する発明は、多数の具体例に広く適用可能であり、そのことは本開示より明らかである。開示する発明は、構造的及び論理的修正のような種々の修正及び変更を伴って実施することができることは、当業者の認める所である。開示する発明の特定の特徴を、1つ以上の特定の実施形態及び/または図面を参照して説明しているが、こうした特徴は、その特徴を説明するために参照する1つ以上の特定の実施形態または図面における使用法に限定されないことは明らかである。
【0117】
本発明は多数の方法で実現することができることは明らかである。本明細書では、これらの実現、あるいは本発明がとり得る他のあらゆる形態をシステムまたは技術と称することがある。あるタスクを実行するように構成されているものとして記載されているプロセッサまたはメモリは、所定時刻にそのタスクを実行するように一時的に構成される汎用的構成要素も、そのタスクを実行するように製造された特定構成要素も含む。
【0118】
このことをすべて念頭に置いて、本発明は、確率制御問題に対する方策を改善するための方法及びシステムに指向している。
【0119】
上述したように、確率制御問題は種々の種類のものとすることができる。一実施形態では、確率制御問題は金融及び投資におけるポートフォリオ最適化である。
【0120】
代案の実施形態では、確率制御問題は機器取替問題である。
【0121】
代案の実施形態では、確率制御問題は待ち行列理論及びオペレーションズ・リサーチにおけるスケジューリング(スケジュール作成)である。
【0122】
代案の実施形態では、確率制御問題がスポーツ戦略を作成することを含む問題である。
【0123】
ここで図1を参照すれば、確率制御問題に対する方策を改善する方法を実現するために用いることができるシステムの実施形態が示されている。
【0124】
図1に開示する実施形態では、量子プロセッサを用いることは明らかである。
【0125】
その代わりに、量子のシミュレータ(模擬装置)または従来型のイジングモデル、あるいは光パラメトリック発振器のネットワークを具えた光学装置のような他のサンプリング装置を用いることができることは明らかである。
【0126】
より具体的には、このシステムは、アナログコンピュータ10に結合されたデジタルシステム8を具えている。
【0127】
デジタルコンピュータ8はあらゆる種類のデジタルコンピュータとすることができることは明らかである。
【0128】
一実施形態では、デジタルコンピュータ8は、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット型PC(Personal Computer:パーソナルコンピュータ)、サーバー、スマートホン、等から成るグループから選択したものである。以上では、デジタルコンピュータ8を広い意味でのプロセッサと称することもできることも明らかである。
【0129】
図1に示す実施形態では、デジタルコンピュータ8が、マイクロプロセッサとも称される中央処理装置、表示装置14、入力装置16、通信ポート20、データバス18、及びメモリ装置22を具えている。
【0130】
中央処理装置12は、コンピュータ命令を処理するために使用される。中央処理装置12の種々の具体例を提供することができることは、当業者にとって明らかである。
【0131】
一実施形態では、中央処理装置12が、2.5GHzで動作するインテル(登録商標)社製のCPU(Central Processing Unit:中央処理装置)コアi5 3210を具えている。
【0132】
表示装置14は、データをユーザに対して表示するために使用される。多種多様な表示装置14を用いることができることは、当業者にとって明らかである。
【0133】
一実施形態では、表示装置14が標準的な液晶ディスプレイ(LCD:Liquid Crystal Display)モニターである。
【0134】
入力装置16は、データをデジタルコンピュータ8に入力するために用いることができる。
【0135】
通信ポート20は、データをデジタルコンピュータ8と共用するために用いることができる。
【0136】
通信ポート20は、例えば、キーボード及びマウスをデジタルコンピュータ8に接続するためのユニバーサル・シリアル・バス(USB:Universal Serial Bus)を具えることができる。
【0137】
通信ポート20は、デジタルコンピュータ8とアナログコンピュータ10との接続を可能にするための、IEEE 802.3ポートのようなデータネットワーク通信ポートをさらに具えることができる。
【0138】
通信ポート20の種々の代わりの具体例を用意することができることは、当業者にとって明らかである。
【0139】
メモリ装置22は、コンピュータで実行可能な命令を記憶するために用いられる。
【0140】
メモリ装置22は、システム制御プログラム(例えば、BIOS(Basic Input/Output System:基本入出力システム)、オペレーティングシステム・モジュール、アプリケーション、等)を記憶するための、高速ランダムアクセスメモリ(RAM:Random Access Memory)のようなシステムメモリ、及び読出し専用メモリ(ROM:Read-Only Memory)を具えることができる。
【0141】
一実施形態では、メモリ装置22がオペレーティングシステム・モジュールを含むことは明らかである。
【0142】
オペレーティングシステム・モジュールは多種多様なものとすることができることは明らかである。
【0143】
一実施形態では、オペレーティングシステム・モジュールが、アップル(登録商標)社製のOS X Yosemiteである。
【0144】
メモリ装置22は、確率制御問題に対する方策を改善するためのアプリケーションをさらに含む。
【0145】
メモリ装置22は、アナログコンピュータ10を使用するためのアプリケーションをさらに含むことができる。
【0146】
メモリ装置22は、量子プロセッサ28のカプラ毎の対応する重み値、及び量子プロセッサ28の量子ビット毎の対応するバイアスのような量子プロセッサデータをさらに含むことができる。
【0147】
アナログコンピュータ10は、量子ビット制御システム24、読出し制御システム26、量子プロセッサ28、及び結合装置制御システム30を具えている。
【0148】
量子プロセッサ28は多種多様なものとすることができる。一実施形態では、量子プロセッサが超電導量子ビットを具えている。
【0149】
読出し制御システム26は、量子プロセッサ28の量子ビットを読み出すために用いることができる。実際には、本明細書中に開示する方法において量子プロセッサを用いるためには、量子システムの量子力学的状態にある量子ビットを測定する読出しシステムが必要であることは明らかである。複数の測定値が量子ビットの状態のサンプルを提供する。読出しの結果はデジタルコンピュータ8に供給される。量子プロセッサ28の量子ビットのバイアスは、量子ビット制御システム24により制御される。上記カプラは結合装置制御システム30により制御される。
【0150】
読出し制御システム26は多種多様なものとすることができることは明らかである。例えば、読出し制御システム26は複数のDC−SQUID(Direct Current-Superconducting Quantum Interference Device:直流型超電導量子干渉素子)磁力計を具えることができ、各磁力計は量子プロセッサ28の異なる量子ビットに誘導接続されている。読出し制御システム26は、電圧また電流値を提供することができる。一実施形態では、上記DC−SQUID磁力計が、少なくとも1つのジョセフソン接合によって断続される超電導材料のループを具え、これは現在技術において周知である。
【0151】
結合装置制御システム30は、「カプラ」とも称される上記結合装置用の1つ以上の結合コントローラを具えることができる。各結合コントローラは、対応する結合装置の結合の重み値を0から最大値まで調整するように構成することができる。結合装置は、例えば、量子プロセッサ28の量子ビット間の強磁性結合または反強磁性結合をもたらすように調整することができることは明らかである。こうしたアナログコンピュータの例は、米国特許第8421053号明細書(特許文献4)及び米国特許出願公開第2015/0046681号明細書(特許文献5)に開示されている。
【0152】
図1の実施形態では、上記デジタルコンピュータに結合された上記サンプリング装置が量子プロセッサである。
【0153】
代案の実施形態では、上記サンプリング装置が、光パラメトリック発振器のネットワークを具えた光学装置である。
【0154】
第3の実施形態では、上記サンプリング装置が、中央処理装置、及びこの中央処理装置に結合されたメモリ装置を具え、このメモリ装置は、ボルツマンマシンの横磁界強度を表し、かつボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを表すデータを得るため、及びボルツマンマシンの、シミュレーションによる量子アニーリングを実行し、これにより、測定値軸に沿った、上記ボルツマンマシンの複数のサンプル形態を提供するためのアプリケーションを含み、ここで0の値の横磁場強度は従来型ボルツマンマシンに対応し、0でない値の横磁場強度は量子ボルツマンマシン(QBM:Quantum Boltzmann Machine)に対応する。
【0155】
第4の実施形態では、サンプリング装置が、中央処理装置、及びこの中央処理装置に結合されたメモリ装置を具え、このメモリ装置は、上記デジタルコンピュータから、ボルツマンマシンの横磁界強度を表し、かつボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを表すデータを得るための、及び量子ボルツマンマシンの、シミュレーションによる量子アニーリングを実行し、これにより、この量子ボルツマンマシンを表現する有効ハミルトニアンの複数のサンプル形態を提供するためのアプリケーションを含み、上記横磁場強度は上記量子ボルツマンマシンに対応する0でない値を有する。
【0156】
第5の実施形態では、上記サンプリング装置が、中央処理装置、及びこの中央処理装置に結合されたメモリ装置を具え、このメモリ装置は、上記デジタルコンピュータから、ボルツマンマシンの横磁場強度を表すデータ、及びこのボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを表すデータを得るための、及び量子ボルツマンマシンに対応するフォルトゥン−カステレイン・ランダムクラスタ表現の複数のインスタンスをサンプリングし、これにより、このフォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数の近似値を提供するためのアプリケーションを含み、上記横磁場強度は上記量子ボルツマンマシンに対応する0でない値を有する。
【0157】
ここで、図2を参照すれば、確率制御問題に対する方策を改善する方法の実施形態が示されている。
【0158】
以上に説明したように、上記確率制御問題は、一組の行動、一組の状態、割引係数、これらの状態及び行動の関数としての報酬構造、及び複数の決定エポックによって特徴付けられ、基になる確率状態過程の進行は、方策における複数の行動に依存する。
【0159】
サンプリング装置を使用する。より正確には、デジタルコンピュータ及びサンプリング装置制御システムに結合されたサンプリング装置を用いてデータを取得する。取得したデータは、複数のノード、複数のカプラ、複数のバイアス、複数の結合の重み値、及び横磁場強度を具えたボルツマンマシンのサンプル形態を表し、各バイアスは上記複数のノードのうちの1つのノードに対応し、各結合の重み値は上記複数のカプラのうちの1つのカプラに対応する。
【0160】
処理ステップ52によれば、初期化データを得る。初期化データは、デジタルコンピュータ8を用いて得ることができることは明らかである。さらに、初期化データは、一組の行動、一組の状態、割引係数、上記確率制御問題の報酬構造、及びこの確率制御問題に対する初期方策を含むことは明らかであり、この方策は、状態毎に少なくとも1つの行動の選定を含む。
【0161】
一実施形態では、初期化データをデジタルコンピュータ8のメモリ装置22に記憶することができることは明らかである。
【0162】
代案の実施形態では、デジタルコンピュータ8と対話するユーザが初期化データを提供することができる。
【0163】
他の代案の実施形態では、初期化データを、デジタルコンピュータ8と動作的に結合されたリモート処理装置から得ることができる。
【0164】
図2を引き続き参照し、処理ステップ54によれば、ボルツマンマシンの各カプラ及び各ノードに対応する、それぞれ初期重み値及びバイアス、及び横磁場強度をサンプリング装置に割り当てる。サンプリング装置が量子プロセッサを具えている実施形態では、上記初期重み値及びバイアスを表すデータを、この量子プロセッサのそれぞれ各カプラ及び各量子ビットに割り当て、横磁界強度の値は上記制御システムを用いて割り当てる。
【0165】
上記サンプリング装置が光パラメトリック発振器パルスのネットワークを具えている実施形態では、初期重み値及びバイアス代表値を表すデータをエネルギー源及び変調器に伝達する。上記サンプリング装置が、量子アニーリング・アプリケーションをシミュレートするアプリケーションを含む実施形態では、初期重み値及びバイアスデータ代表値をパラメータとしてアプリケーションに渡す。
【0166】
上記量子プロセッサは多種多様なものとすることができることは明らかである。
【0167】
一実施形態では、上記量子プロセッサが、第1グループの量子ビット及び第2グループの量子ビットを具えている。本実施形態では、この量子プロセッサがカプラのグループを具えている。この量子プロセッサのカプラのグループは少なくとも1つのカプラを具え、これら少なくとも1つのカプラの各々は、第1グループの量子ビットのうちの1つの量子ビットと第2グループの量子ビットのうちの少なくとも1つの量子ビットとの交点における通信結合を提供する。上記カプラのグループは、複数のカプラを追加的に具え、これら複数のカプラの各々は、第2グループの量子ビットのうちの1つの量子ビットと第2グループの量子ビット中の他の量子ビットとの交点における通信結合を提供する。
【0168】
本実施形態では、第1グループの量子ビットを、上記確率制御問題の一組の行動用に用いる。
【0169】
他の実施形態では、上記量子プロセッサがD-Wave Systems社製のD-Wave 2Xシステムである。
【0170】
上記量子プロセッサの各カプラ及び各量子ビットの、それぞれ上記初期重み値及び上記バイアスを、デジタルコンピュータ8及び上記量子デバイス制御システムを用いて割り当てることができることは明らかである。
【0171】
この量子デバイス制御システムは、量子ビット制御システム24及び結合装置制御システム30を具えている。
【0172】
上記初期重み値及び上記バイアスは、デジタルコンピュータ8のメモリ装置22に記憶することができることは明らかである。
【0173】
代案の実施形態では、上記初期重み値及び上記バイアスを、デジタルコンピュータ8と対話するユーザが提供する。
【0174】
他の実施形態では、上記初期重み値及び上記バイアスを、デジタルコンピュータ8と動作的に結合されたリモート処理装置によって提供する。
【0175】
一実施形態では、上記初期重み値及び上記バイアスをランダムに生成することは明らかである。
【0176】
サンプリング装置の設定
量子プロセッサをサンプリング装置として用いる実施形態では、量子プロセッサの量子ビットが、対応する一般ボルツマンマシン(GBM)の対応する複数のノードを表すことは明らかである。
【0177】
サンプリング装置が光学装置を具えている実施形態では、上記光パラメトリック発振器のネットワークが一般ボルツマンマシンを表現する。
【0178】
一般ボルツマンマシンの可視ノードは、2つのグループのノードで構成される。第1グループのノードは、上記確率制御問題における状態を表す。第2グループのノードは、上記確率制御問題における行動を表す。一般ボルツマンマシンの隠れノードは、第1グループのノードにも第2グループのノードにも含まれないすべてのノードで構成される。
【0179】
量子プロセッサをサンプリング装置として用いる一実施形態では、量子プロセッサが、一般ボルツマンマシンの隠れノードを表す複数の量子ビットを具えている。本実施形態では、量子プロセッサが複数の量子ビット及び複数のカプラを具え、各カプラは2つの量子ビットの交点における通信結合を提供する。
【0180】
光学装置をサンプリング装置として用いる実施形態では、上記光パラメトリック発振器が一般ボルツマンマシンの隠れノードを表す。
【0181】
シミュレーションによる量子アニーリングをサンプリング装置として用いる他の実施形態では、スピンの模擬が一般ボルツマンマシンの隠れノードを表す。
【0182】
シミュレーションによる量子アニーリングをサンプリング装置として用いる他の実施形態では、シミュレーションによる量子プロセッサのスピンの第1グループが一般ボルツマンマシンの行動ノードを表し、シミュレーションによる量子プロセッサのスピンの第2グループが一般ボルツマンマシンの隠れノードを表す。
【0183】
量子プロセッサをサンプリング装置として用いる他の実施形態では、量子プロセッサの第1グループの量子ビットが一般ボルツマンマシンの行動ノードを表し、量子プロセッサの第2グループの量子ビットは一般ボルツマンマシンの隠れノードを表す。本実施形態では、量子プロセッサがカプラのグループを具えている。この量子プロセッサのカプラのグループは少なくとも1つのカプラを含み、これら少なくとも1つのカプラの各々は、第1グループの量子ビットのうちの1つの量子ビットと、第2グループの量子ビットのうちの少なくとも1つの量子ビットとの交点における通信結合を提供する。上記カプラのグループは複数のカプラを追加的に含み、これら複数のカプラの各々が、第2グループの量子ビットのうちの1つの量子ビットと、第2グループの量子ビット中の他の量子ビットとの交点における通信結合を提供する。本実施形態では、第1グループの量子ビットを上記確率制御問題の一組の行動用に用い、第2グループの量子ビットを一般ボルツマンマシンの隠れノードの集合用に用いる。
【0184】
一般ボルツマンマシンの各ノードは、上記確率制御問題の一組の状態または行動用に用いられない限り、{0, 1}内の値をとる。
【0185】
上記確率制御問題の一組の状態または行動を表すために用いる、一般ボルツマンマシンの複数のノードは、{0, 1}内の値、あるいは離散値の有限個または無限個の集合、あるいは浮動小数点のデータ型によって表される実数値をとることができる。
【0186】
量子プロセッサをサンプリング装置として用いる実施形態では、任意の2つの量子ビット間のオン状態の結合を、一般ボルツマンマシンンの対応する2つのノード間の重み値として考える。
【0187】
同じ実施形態では、上記オン状態の結合の各々が、対応する重み値の近似値である浮動小数点値の強度を有する。2つのノード間の0でない重み値は、これらのノードどうしの接続性を示す。
【0188】
同じ実施形態ではさらに、オフ状態の結合の各々が、実質的に0の値の強度を有し、一般ボルツマンマシンにおける任意の2つのノード間の分断の指示である。
【0189】
学習
処理ステップ56によれば、現在エポックの状態−行動の対を生成する。
【0190】
現在エポックの状態−行動の対は、状態及びそれに対応する行動から成ることは明らかである。
【0191】
一実施形態では、現在エポックの状態−行動の対を、デジタルコンピュータ8を用いてランダムに生成する。
【0192】
代案の実施形態では、現在エポックの状態−行動の対を環境から生成する。
代案の実施形態では、現在エポックの状態−行動の対を方策から生成する。
【0193】
処理ステップ58によれば、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、上記生成した現在エポックの状態−行動の対を用いて修正する。カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、デジタルコンピュータ8を用いて修正することは明らかである。
【0194】
サンプリング装置が量子プロセッサを具えている場合には、この量子プロセッサの量子ビットのいずれかが行動ノードを表す場合、この処理ステップは、行動ノードを表すあらゆる量子ビットと他のあらゆる量子ビットとの間のすべての結合をオフ状態に切り換えることを含む。次に、一般ボルツマンマシンの隠れノードのうち可視ノードに接続された隠れノードに対応する量子ビットのバイアスを、上記生成した現在エポックの状態−行動の対を用いて更新する。
【0195】
サンプリング装置が、シミュレーションによる量子アニーリングのアプリケーションを含む場合には、シミュレーションによる量子アニーリングのアプリケーションにおけるスピンのいずれかが行動ノードを表す場合、この処理ステップは、行動ノードを表すあらゆるスピンと他のあらゆるスピンとの間の重み値を0に設定することを含む。次に、一般ボルツマンマシンの隠れノードのうち可視ノードに接続されている隠れノードに対応するスピンのバイアスを、上記生成した現在エポックの状態−行動の対を用いて更新する。
【0196】
現在エポックの状態−行動の対が、可視ノード上のベクトルv=(s, a)によって表され、状態ノードiを隠れノードjに接続する接続の重み値がwi,jである場合、隠れノードj上のバイアスは、Wijiをこのバイアスに加算することによって修正する。行動ノードkを隠れノードjに接続する接続の重み値がwkjである場合、隠れノードj上のバイアスは、wkjkをこのバイアスに加算することによって修正する。
【0197】
サンプリング装置が光学装置を具えている場合、上述したように修正した、重み値及びバイアス代表値を表すデータを、上記エネルギー源及び変調器に伝達する。
【0198】
サンプリング装置が量子プロセッサを具えている実施形態では、量子プロセッサの上記結合部及びバイアスを、デジタルコンピュータ8、及び量子ビット制御システム24と結合装置制御システム30を具えた量子デバイス制御システムを用いて修正することは明らかである。
【0199】
処理ステップ60によれば、サンプリングを実行する。サンプリング装置が量子プロセッサまたは光学装置を具えている場合には、サンプリングはこれらの装置の性質により量子であることは明らかである。
【0200】
現在エポックの状態−行動の対に対応するサンプリングを実行して、1回目のサンプリングにおける経験的平均値を得ることは明らかである。
【0201】
サンプリング装置が量子プロセッサを具えている場合には、現在エポックの状態−行動の対に対応するサンプリングを実行して、量子プロセッサの量子ビットに対応する1回目の量子サンプリングにおける経験的平均値を得る。
【0202】
サンプリング装置が光学装置を具えている場合には、現在エポックの状態−行動の対に対応するサンプリングを実行して、光学装置の光パラメトリック発振器に対応する1回目のサンプリングにおける経験的平均値を得る。
【0203】
より正確には、1回目のサンプリングにおける経験的平均値は3組の値を含む。
【0204】
サンプリング装置が量子プロセッサを具えている場合には、第1組の値は、量子サンプリングにおいて隠れノードに対応する各量子ビットが有する状態の平均値の集合である。サンプリング装置が光学装置を具えている場合には、第1組の値は、上記光パラメトリック発振器の位相の測定値に対応するスピンの平均値の集合である。サンプリング装置がシミュレーションによる量子アニーリングのアプリケーションを含む場合には、第1組の値はスピンの値の平均値の集合である。隠れノードjについては、この値は<hjvで表すことができ、ここにv=(s, a)は、現在エポックの状態−行動の対に対応する可視ノードを表すベクトルであることは、当業者にとって明らかである。
【0205】
サンプリング装置が量子プロセッサを具えている場合には、第2組の値は、一対の隠れノードに対応する量子ビット対の各々が量子サンプリングにおいて有する状態の積の平均値の集合である。サンプリング装置が光学装置を具えている場合には、第2組の値は、上記光パラメトリック発振器の位相の測定値に対応するスピンの値の積の平均値の集合である。サンプリング装置がシミュレーションによる量子アニーリングのアプリケーションを含む場合には、第2組の値は、スピンの値の積の平均値の集合である。隠れノードj及びkの対については、この値は<hjkvによって表すことができることは、当業者にとって明らかである。
【0206】
サンプリング装置が量子プロセッサを具えている場合には、第3組の値は、量子プロセッサの量子ビットの各形態の発生頻度の集合であり、
で表され、ここにhは、量子サンプリングの各サンプルにおいてすべての量子ビットに生じた状態を表すバイナリベクトルである。
【0207】
サンプリング装置が、従来型ボルツマンマシン用のシミュレーションによる量子アニーリングのアプリケーションを含む場合には、第3組の値は、スピンの各形態の発生頻度の集合であり、
で表され、ここにhは、サンプリングの各サンプルにおいてすべてのスピンに生じた状態を表すバイナリベクトルである。
【0208】
サンプリング装置が光学装置を具えている場合には、第3組の値は、上記光パラメトリック発振器の位相に対応するスピンの各形態の発生頻度の集合であり、
で表され、ここにhは、サンプリングの各サンプルにおける上記光パラメトリック発振器の位相の測定値に対応するスピンの値を表すバイナリベクトルである。
【0209】
サンプリング装置が量子プロセッサを具え、この量子プロセッサが、量子ボルツマンマシンを表現する量子ハミルトニアンからのサンプリングを実行する場合には、第3組の値は、量子ボルツマンマシンを表現する従来型の有効ハミルトニアンの各サンプル形態の発生頻度の集合であり、
で表され、ここにcはすべての有効なスピンの状態を表すバイナリベクトルである。
【0210】
一実施形態では、量子ボルツマンマシンを表現する量子ハミルトニアンが次式であり:
【数5】
n通りのスピンσ1,...,σnを有する。
【0211】
他の実施形態では、従来型の有効ハミルトニアンが、量子ボルツマンマシンの量子ハミルトニアンのスピンのm個のレプリカ(複製)を含む。
【0212】
横磁界を有する量子ボルツマンマシンに対応する従来型の有効ハミルトニアンのm個のレプリカを用意する。
【0213】
一実施形態では、有効な従来型のイジングモデルのm個のレプリカを、デジタルコンピュータ8を用いて、より正確にはデジタルコンピュータ8のメモリ22を用いて用意する。
【0214】
代案の実施形態では、有効な従来型のイジングモデルのm個のレプリカを、デジタルコンピュータ8に動作的に結合されたリモート(遠隔)処理装置によってデジタルコンピュータ8に用意する。
【0215】
各スピンσiに、
として表されるm個のスピンが関連する。i=1,...,n及びk=1,...,mについてのすべてのスピン

に設定する。
について、すべての2つのスピン

との間の結合を、
に設定する。すべてのk=1,...,m−1について、すべての2つのスピン

との間の結合を、
に設定する。従って、一次元高い有効ハミルトニアンは次式のようになる:
【数6】
【0216】
サンプリング装置が、量子ボルツマンマシンを表現する量子ハミルトニアンからのサンプリングを実行する量子プロセッサを具えている場合には、従来型の有効ハミルトニアンのサンプル形態は、量子ビットの測定値を有効なスピンに付け加えることによって構成され、測定した量子ビットの形態の各々が有効ハミルトニアン内の1つのレプリカに対応する。
【0217】
サンプリング装置が、シミュレーションによる量子アニーリングのアプリケーションを含み、このアプリケーションが、量子ボルツマンマシンを表現する量子ハミルトニアンからのサンプリングを実行する場合には、上記第3組の数は、有効ハミルトニアンの有効なスピンの各形態の発生頻度の集合であり、
で表され、ここにcはすべての有効なスピンを表すバイナリベクトルである。
【0218】
図2を引き続き参照し、処理ステップ62によれば、Q関数の値の近似を実行する。
【0219】
Q関数の値の近似値の決定は、現在エポックの状態−行動の対において、上記のように得られた1回目のサンプリングにおける経験的平均値を用いて実行することは明らかである。
【0220】
サンプリング装置が量子プロセッサを具えている場合には、Q関数の値の近似値の決定は、現在エポックの状態−行動の対において、上記のように得られた1回目の量子サンプリングにおける経験的平均値を用いて実行することは明らかである。
【0221】
さらに、Q関数の値の近似値は、デジタルコンピュータ8を用いて決定することは明らかである。
【0222】
Q関数の値が、現在エポックの状態−行動の対の有用性を表すことは、当業者にとって明らかである。
【0223】
処理ステップ64によれば、将来エポックの状態を得る。この状態は確率的状態過程により得られることは明らかである。
【0224】
一実施形態では、将来エポックの状態を、既知のマルコフ遷移確率が関与する確率的テストにより得る。他の実施形態では、将来エポックの状態を、環境からの観測により得る。他の実施形態では、将来エポックの状態を、提供された学習データから得る。
【0225】
将来エポックの状態は、デジタルコンピュータ8を用いて得られることは明らかである。
【0226】
一実施形態では、将来エポックの状態を、デジタルコンピュータ8を用いて、より正確にはデジタルコンピュータ8のメモリ22を用いて得る。
【0227】
代案の実施形態では、将来エポックの状態を、デジタルコンピュータ8に動作的に結合されたリモート処理装置によってデジタルコンピュータ8に提供する。
【0228】
処理ステップ66によれば、将来エポックの行動を得る。この行動を得ることは、将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数のものに対して確率的最適化のテストを実行し、これにより将来エポックにおける行動を提供することを含む。
【0229】
一実施形態では、すべての状態−行動の対のうちの複数のものに対して確率的最適化のテストを実行することが、温度パラメータを得ること、将来エポックの状態を得ること、及び将来エポックの状態及び提供された温度に固定された状態変数を有するQ関数の値の近似値に関連するボルツマン分布をサンプリングすることを含む。
【0230】
一実施形態では、上記ボルツマン分布を、行動ノードに対応してサンプリングする。本実施形態では、現在エポックの状態s、及び各行動
について、対応するQ関数を近似してQiで表す。次に、行動
を分布
【数7】
からサンプリングする。結果的な行動を、現在エポックの状態sに対する最適な行動であるものと仮定する。
【0231】
サンプリング装置が量子プロセッサを具え、第1グループの量子ビットが上記確率制御問題の一組の行動を表し、第2グループの量子ビットが、対応する一般ボルツマンマシンの隠れノードを表す他の実施形態では、現在エポックの状態に対する方策を更新することを、量子サンプリングによって実行することができる。一実施形態では、将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数のものに対して確率的最適化のテストを実行することが、第1グループの量子ビットのうちの1つの量子ビットと、第2グループの量子ビットのうちの複数の量子ビットとの交点における通信結合を提供するすべてのカプラをオン状態に切り換えること、将来エポックの状態−行動の対に対応する将来エポックの状態を用いて、第2グループの量子ビットにおける少なくとも1つのバイアスを修正すること、量子サンプリングを実行して、第1グループの量子ビットに対応する経験的平均値を得ること、及びデジタルコンピュータ8を用いて、第1グループの量子ビットに対応する上記得られた経験的平均値の分布に応じた行動を、将来エポックの状態に割り当てることによって、将来エポックの状態に対して方策を更新することを含む。
【0232】
図2を引き続き参照し、処理ステップ68によれば、将来エポックの状態に対する方策を、処理ステップ66において得られた行動で更新する。
【0233】
処理ステップ70によれば、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、上記生成した将来エポックの状態−行動の対を用いて修正する。カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、デジタルコンピュータ8を用いて修正することは明らかである。
【0234】
サンプリング装置が量子プロセッサを具えている場合には、量子プロセッサの量子ビットのいずれかが行動ノードを表す場合、この処理ステップは、ある行動ノードを表すあらゆる量子ビットと他のあらゆる量子ビットとの間のすべての結合をオフ状態に切り換えることを含む。次に、一般ボルツマンマシンの隠れノードのうち可視のノードに接続された隠れノードに対応する量子ビットのバイアスを、上記生成した将来エポックの状態−行動の対を用いて更新する。
【0235】
サンプリング装置がシミュレーションによる量子アニーリングのアプリケーションを含む場合には、シミュレーションによる量子アニーリングのアプリケーションにおけるスピンのいずれかが行動ノードを表す場合、この処理ステップは、ある行動ノードを表すあらゆるスピンと、他のあらゆるスピンとの間の(結合)重み値を0に設定することを含む。次に、一般ボルツマンマシンの隠れノードのうち可視ノードに接続された隠れノードに対応するスピンのバイアスを、上記生成した将来エポックの状態−行動の対を用いて更新する。
【0236】
将来エポックの状態−行動の対が可視ノード上のベクトルv=(s, a)によって表され、かつ状態ノードiを隠れノードjに接続する接続の重み値がwijであれば、隠れノードj上のバイアスを、このバイアスにwijiを加算することによって修正する。行動ノードkを隠れノードjに接続する接続の重み値がwkjであれば、隠れノードj上のバイアスを、このバイアスにwkjkを加算することによって修正する。
【0237】
サンプリング装置が光学装置を具えている場合には、上述したように修正した結合の重み値及びバイアス代表値を表すデータを上記エネルギー源及び変調器に伝える。
【0238】
サンプリング装置が量子プロセッサを具えている実施形態では、量子プロセッサの結合部及びバイアスを、デジタルコンピュータ8、及び量子ビット制御システム24と結合装置制御システム30を具えた量子デバイス制御システムを用いて修正することは明らかである。
【0239】
処理ステップ72によれば、サンプリングを実行する。サンプリング装置が量子プロセッサまたは光学装置を具えている場合には、これらの装置の性質により、サンプリングが量子であることは明らかである。将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングの経験的平均値を得ることは明らかである。
【0240】
サンプリング装置が量子プロセッサを具えている場合には、将来エポックの状態−行動の対に対応するサンプリングを実行して、量子プロセッサの量子ビットに対応する2回目の量子サンプリングの経験的平均値を得る。
【0241】
サンプリング装置が光学装置である場合には、将来エポックの状態−行動の対に対応するサンプリングを実行して、光学装置の光パラメトリック発振器に対応する2回目のサンプリングの経験的平均値を得る。
【0242】
より正確には、2回目のサンプリングの経験的平均値は3組の値を含む。
【0243】
サンプリング装置が量子プロセッサを具えている場合には、第1組の値は、隠れノードに対応する各量子ビットが有する状態の平均値の集合である。サンプリング装置が光学装置を具えている場合には、第1組の値は、上記光パラメトリック発振器の位相の測定値に対応するスピンの平均値の集合である。サンプリング装置がシミュレーションによる量子アニーリングのアプリケーションを含む場合には、第1組の値はスピンの値の平均値の集合である。隠れノードjについては、この値を<hjvで表すことができ、ここにv=(s, a)は、現在エポックの状態−行動の対に対応する可視ノードを表すベクトルであることは、当業者にとって明らかである。
【0244】
サンプリング装置が量子プロセッサを具えている場合には、第2組の値は、一対の隠れノードに対応する量子ビット対の各々が量子サンプリングにおいて有する状態の積の平均値の集合である。サンプリング装置が光学装置を具えている場合には、第2組の値は、上記光パラメトリック発振器の位相の測定値に対応するスピンの値の積の平均値の集合である。サンプリング装置がシミュレーションによる量子アニーリングのアプリケーションを含む場合には、第2組の値は、スピンの値の平均値の集合である。隠れノードjとkの対については、この値を<hjkvで表すことができることは、当業者にとって明らかである。
【0245】
サンプリング装置が量子プロセッサを具えている場合には、第3組の値は、量子プロセッサの量子ビットの各形態の発生頻度の集合であり、
で表され、ここにhは、量子サンプリングの各サンプルにおいてすべての量子ビットが有する状態を表すバイナリベクトルである。
【0246】
サンプリング装置が、従来型ボルツマンマシン用のシミュレーションによる量子アニーリングのアプリケーションを含む場合には、第3組の値は、スピンの各形態の発生頻度の集合であり、
で表され、ここにhは、サンプリングの各サンプルにおいてすべてのスピンが有する状態を表すバイナリベクトルである。
【0247】
サンプリング装置が光学装置を具えている場合には、第3組の値は、上記光パラメトリック発振器の位相に対応するスピンの各形態の発生頻度の集合であり、
で表され、ここにhは、サンプリングの各サンプルにおける上記パラメトリック発振器の位相の測定値に対応するスピンの値を表すバイナリベクトルである。
【0248】
量子ボルツマンマシンの実施形態においてサンプリング装置が量子プロセッサを具えている場合には、第3組の値は、量子ボルツマンマシンを表現する従来型の有効ハミルトニアンの各サンプル形態の発生頻度の集合であり、
で表される。
【0249】
さらに、量子ボルツマンマシンの実施形態においてサンプリング装置が量子プロセッサを具えている場合には、有効ハミルトニアンのサンプル形態は、量子ビットの測定値を有効なスピンに付け加えることによって構成され、測定した量子ビットの形態の各々が有効ハミルトニアン内の1つのレプリカに対応するることは明らかである。
【0250】
量子ボルツマンマシンについては、サンプリング装置がシミュレーションによる量子アニーリングのアプリケーションを含む場合には、第3組の値は、有効ハミルトニアンの有効なスピンの各形態の発生頻度の集合である。
【0251】
図2を引き続き参照し、処理ステップ74によれば、Q関数の値の新たな近似値を決定する。こうしたQ関数の値の新たな近似は、将来エポックの状態−行動の対について、上記のように得られた2回目のサンプリングの経験的平均値を用いて実行することは明らかである。このQ関数が将来エポックの状態−行動の対を表すことは明らかである。サンプリング装置が量子プロセッサを具えている場合には、Q関数の値の近似は、将来エポックの状態−行動の対について、上記のように得られた、量子プロセッサの量子ビットに対応する、2回目の量子サンプリングの経験的平均値を用いて実行する。
【0252】
Q関数の値の近似を、デジタルコンピュータ8を用いて実行することは明らかである。
【0253】
一実施形態では、Q関数の値の近似を、デジタルコンピュータ8に動作的に接続されたリモート処理装置を用いて実行する。
【0254】
一実施形態では、そしてサンプリング装置が量子プロセッサを具えている場合には、現在エポック及び将来エポックの両方におけるQ関数の値の近似値を生成することが、サンプリング装置から、測定値軸に沿った、ボルツマンマシンの複数のサンプル形態を得ること、得られたサンプル形態から、上述した量子ボルツマンマシンを表現する有効ハミルトニアンの形態の複数のサンプルを構成すること、及びデジタルコンピュータ8を用いて、次式:
【数8】
によって与えられる量子ボルツマンマシンの負の自由エネルギーの経験的近似値を計算することを含むことは明らかである。
【0255】
一実施形態では、そしてサンプリングマシンが、量子ボルツマンマシン用のシミュレーションによる量子アニーリングを含む場合には、現在エポック及び将来エポックの両方におけるQ関数の値の近似値を生成することが、サンプリング装置から、上述した量子ボルツマンマシンを表現する有効ハミルトニアンの複数のサンプル形態を得ること、及び上記デジタルコンピュータを用いて、次式:
【数9】
によって与えられる量子ボルツマンマシンの負の自由エネルギーの経験的近似値を計算することを含むことは明らかである。
【0256】
他の実施形態では、そしてサンプリング装置が量子プロセッサまたは光学装置を具えている場合、あるいはシミュレーションによる量子アニーリングを含む場合には、現在エポック及び将来エポックの両方におけるQ関数の値の近似値を生成することが、サンプリング装置から、測定値軸に沿った従来型ボルツマンマシンの複数のサンプル形態を得ること、及びデジタルコンピュータ8を用いて、次式:
【数10】
によって与えられる従来型ボルツマンマシンの負の自由エネルギーの経験的近似値を計算することを含むことは明らかである。
【0257】
他の実施形態では、現在エポック及び将来エポックの両方におけるQ関数の値の近似値を生成することが、サンプリング装置から、上記ボルツマンマシンに対応するフォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数の近似値を得ること、及びデジタルコンピュータ8を用いて、上記ボルツマンマシンの負の自由エネルギーの経験的近似値を、上記フォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数の近似値を用いて計算することを含むことは明らかである。この負の自由エネルギーは、次式:
【数11】
によって与えられる。ここで、従来型ボルツマンマシンの場合には、定数ρはこのボルツマンマシンの重み値及びバイアスに依存し、量子ボルツマンマシンの場合には、定数ρはこのボルツマンマシンの重み値、バイアス、及び横磁界強度に依存する。指数#cは、上記フォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数を表す。
【0258】
図2を引き続き参照し、処理ステップ76によれば、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを、上記のように生成したQ関数の値の近似値、及び現在エポックの状態−行動の対における1回目のサンプリングの経験的平均値、及び上記報酬構造を用いて得られた現在エポックの状態−行動の対における対応する報酬を用いて更新する。サンプリング装置が量子プロセッサを具えている場合には、量子プロセッサの各重み値及び各バイアスを更新する。
【0259】
より正確には、量子プロセッサの各カプラ及び各量子ビットの、それぞれ各重み値及び各バイアスを、上記のように生成したQ関数の値の近似値、及び現在エポックの状態−行動の対における1回目の経験的平均値、及び上記報酬構造を用いて得られた現在エポックの状態−行動の対の対応する報酬を用いて更新する。
【0260】
rが現在エポックの状態−行動の対の報酬を表すならば、可視ノードiを隠れノードkに接続する(接続の)重み値は:
Δwik=εn(r+γQ2−Q1)vi<hkv
により更新する。
【0261】
隠れノードkを隠れノードjに接続する(接続の)重み値は:
Δukj=εn(r+γQ2−Q1)<hkjv
により更新する。
【0262】
そして、隠れノードk上のバイアスは:
Δbk=εn(r+γQ2−Q1)<hkv
により更新する。
【0263】
ここに、Q1は現在エポックの状態−行動の対におけるQ関数の近似値であり、Q2は将来エポックの状態−行動の対におけるQ関数の近似値である。
【0264】
同じ処理ステップによれば、量子プロセッサのあらゆる量子ビット上のバイアスを、当該量子ビットが表す隠れノードに対する更新量だけ更新する。
【0265】
同じ処理ステップによれば、量子プロセッサのあらゆるカプラの重み値を、当該カプラが表す重み値ukjまたはwikの更新量だけ更新する。
【0266】
一実施形態では、量子プロセッサの各重み値及び各バイアスを、デジタルコンピュータ8を用いて更新する。
【0267】
図2を引き続き参照し、処理ステップ78によれば、停止基準を満たすか否かを見出すためのテストを実行する。停止基準は多種多様なものとすることができることは、当業者にとって明らかである。
【0268】
一実施形態では、停止基準が、学習ステップの最大回数に達することを含むことができることは明らかである。
【0269】
代案の実施形態では、停止基準が、最大実行時間に達することを含むことができることは明らかである。
【0270】
1つの代案実施形態では、停止基準が、上記結合及び局所場の重み値及びバイアスの関数の収束を含むことができることは明らかである。
【0271】
1つの代案実施形態では、停止基準が、方策が固定の方策に収束することを含むことができることは明らかである。
【0272】
1つの代案実施形態では、上記テストが少なくとも1つの停止基準を含む。
【0273】
上記少なくとも1つの停止基準を満たさない場合に、処理ステップ56によれば、現在エポックの状態−行動の対を、提供された学習データまたは環境のいずれかから生成する。
【0274】
上記少なくとも1つの停止基準を持たす場合には、処理ステップ80により方策を提供する。
【0275】
方策は種々の具体例により提供することができることは明らかである。実際には、最も良く知られている方策は、デジタルコンピュータ8を用いて提供されることは明らかである。
【0276】
一実施形態では、方策をデジタルコンピュータ8内に記憶し、より正確には、デジタルコンピュータ8のメモリ22に記憶する。
【0277】
代案の実施形態では、方策を、デジタルコンピュータ8と対話するユーザに対して、表示装置14により表示する。
【0278】
他の代案実施形態では、方策を、デジタルコンピュータ8と動作的に結合されたリモート処理装置へ送信する。
【0279】
コンピュータで実行可能な命令を記憶する非一時的なコンピュータ可読記憶媒体をさらに開示し、これらの命令は、実行されると、デジタルコンピュータに、確率制御問題に対する方策を改善する方法を実行させ、この確率制御問題は、一組の行動、一組の状態、これらの状態及び行動の関数としての報酬構造、及び複数の決定エポックによって特徴付けられ、基になる確率的状態の進行は、方策における複数の行動に依存し、この方法は、デジタルコンピュータ及びサンプリング装置制御システムに結合されたサンプリング装置を用いるステップであって、このサンプリング装置は、ボルツマンマシンのサンプル形態を表すデータを取得し、このボルツマンマシンは、複数のノード、複数のカプラ、各々がこれら複数のノードのうちの1つのノードに対応する複数のバイアス、各々がこれら複数のカプラのうちの1つのカプラに対応する複数の結合の重み値、及び横磁場強度を具えているステップと;上記デジタルコンピュータを用いて、上記一組の行動、上記一組の状態、上記確率制御問題の報酬構造、及び上記確率制御問題に対する初期方策を含む初期化データを得るステップであって、この方策は状態毎に少なくとも1つの行動の選定を含むステップと;上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ初期重み値及びバイアスを表すデータ、及び上記ボルツマンマシンの横磁場強度を表すデータを、上記サンプリング装置に割り当てるステップと;停止基準を満たすまで:上記デジタルコンピュータを用いて現在エポックの状態−行動の対を生成し、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、生成した現在エポックの状態−行動の対を用いて修正し、現在エポックの状態−行動の対に対応するサンプリングを実行して、1回目のサンプリングにおける経験的平均値を得て、1回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、現在エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は現在エポックの状態−行動の対の有用性を表し、上記デジタルコンピュータを用いて将来エポックの状態−行動の対を生成し、状態は確率的状態過程により得られ、さらに、行動を得ることは、将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行し、これにより、将来エポックにおける行動を提供して将来エポックの状態に対して方策を更新することを含み、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、上記生成した将来エポックの状態−行動の対を用いて修正し、将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングにおける経験的平均値を得て、2回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて将来エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は将来エポックの状態−行動の対の有用性を表し、上記デジタルコンピュータを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを更新し、この更新は、生成したQ関数の値の近似値、及び現在エポックの状態−行動の対における1回目のサンプリングにおける経験的平均値、及び上記報酬構造を用いて得られた現在エポックの状態−行動の対における対応する報酬を用いて行うステップと;上記停止基準を満たした際に、上記デジタルコンピュータを用いて方策を提供するステップとを含むことは明らかである。
【0280】
一実施形態では、メモリ装置22内に含まれる、確率制御問題に対する方策を改善するためのアプリケーションが、デジタルコンピュータ及びサンプリング装置制御システムに結合されたサンプリング装置を用いるための命令を含み、このサンプリング装置は、ボルツマンマシンのサンプル形態を表すデータを取得し、このボルツマンマシンは、複数のノード、複数のカプラ、各々がこれら複数のノードのうちの1つのノードに対応する複数のバイアス、各々がこれら複数のカプラのうちの1つのカプラに対応する複数の結合の重み値、及び横磁場強度を具えていることは明らかである。メモリ装置22内に含まれる、確率制御問題に対する方策を改善するための上記アプリケーションは、上記デジタルコンピュータを用いて、上記一組の行動、上記一組の状態、上記確率制御問題の報酬構造、及び上記確率制御問題に対する初期方策を含む初期化データを得るための命令をさらに含み、この方策は状態毎に少なくとも1つの行動の選定を含む。メモリ装置22内に含まれる、確率制御問題に対する方策を改善するための上記アプリケーションは、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ初期重み値及びバイアスを表すデータ、及び上記ボルツマンマシンの横磁場強度を表すデータを、上記サンプリング装置に割り当てるための命令をさらに含む。メモリ装置22内に含まれる、確率制御問題に対する方策を改善するための上記アプリケーションは、停止基準を満たすまで:上記デジタルコンピュータを用いて現在エポックの状態−行動の対を生成し、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、生成した現在エポックの状態−行動の対を用いて修正し、現在エポックの状態−行動の対に対応するサンプリングを実行して、1回目のサンプリングにおける経験的平均値を得て、1回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、現在エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は現在エポックの状態−行動の対の有用性を表し、上記デジタルコンピュータを用いて将来エポックの状態−行動の対を生成し、状態は確率的状態過程により得られ、さらに、行動を得ることは、将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行し、これにより、将来エポックにおける行動を提供して将来エポックの状態に対して方策を更新することを含み、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、カプラを表さないか少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、上記生成した将来エポックの状態−行動の対を用いて修正し、将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングにおける経験的平均値を得て、2回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、将来エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は将来エポックの状態−行動の対の有用性を表し、上記デジタルコンピュータを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを更新し、この更新は、生成したQ関数の値の近似値、及び現在エポックの状態−行動の対における1回目のサンプリングにおける経験的平均値、及び上記報酬構造を用いて得られた現在エポックの状態−行動の対における対応する報酬を用いて行うための命令をさらに含む。メモリ装置22内に含まれる、確率制御問題に対する方策を改善するための上記アプリケーションは、上記停止基準を満たした際に、上記デジタルコンピュータを用いて方策を提供するための命令をさらに含む。
【0281】
本明細書中に開示する方法の利点は、行動ノード及び隠れノードについての経験的平均値、Q関数を近似するに当たり関与する要素、量子ビット間の重み値を更新するに当たり関与する要素、及びこれらの量子ビットを更新するに当たり関与する要素を、量子サンプリングを用いて計算し、従って、より高速なQ学習の方法を提供することにあることは明らかである。
【0282】
さらに、本明細書中に開示する方法の他の利点は、この方法が、マルコフ決定過程に対する従来の解決策の方法において生じる「次元の呪い」を克服することにあることは明らかである。
【0283】
以上の説明は、発明者が現在目論む特定実施形態に関係するが、本発明は、その広義の態様において、本明細書中に開示する要素の機能的等価物を含むことは明らかである。
【0284】
項1.確率制御問題に対する方策を改善する方法であって、この確率制御問題は、一組の行動、一組の状態、状態及び行動の関数としての報酬構造、及び複数の決定エポックによって特徴付けられ、基になる確率的状態過程の進行は、方策における複数の行動に依存し、この方法は:
デジタルコンピュータ及びサンプリング装置制御システムに結合されたサンプリング装置を用いるステップであって、このサンプリング装置は、ボルツマンマシンのサンプル形態を表すデータを取得し、このボルツマンマシンは:
複数のノードと、
複数のカプラと、
各々がこれら複数のノードのうちの1つのノードに対応する複数のバイアスと、
各々がこれら複数のカプラのうちの1つのカプラに対応する複数の結合の重み値と、
横磁場強度とを具えているステップと;
上記デジタルコンピュータを用いて、上記一組の行動、上記一組の状態、上記確率制御問題の報酬構造、及び上記確率制御問題に対する初期方策を含む初期化データを得るステップであって、この方策は状態毎に少なくとも1つの行動の選定を含むステップと;
上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ初期重み値及びバイアスを表すデータ、及び上記ボルツマンマシンの横磁場強度を表すデータを、上記サンプリング装置に割り当てるステップと;
停止基準を満たすまで:
上記デジタルコンピュータを用いて、現在エポックの状態−行動の対を、ランダムに、あるいは上記基になる確率的状態過程を用いて、かつ現在の方策を用いて生成し、
適切な場合に、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、生成した現在エポックの状態−行動の対を用いて修正し、
現在エポックの状態−行動の対に対応するサンプリングを実行して、1回目のサンプリングにおける経験的平均値を得て、
1回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、現在エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は現在エポックの状態−行動の対の有用性を表し、
上記デジタルコンピュータを用いて、将来エポックの状態−行動の対を生成し、状態は確率的状態過程により得られ、さらに、行動を得ることは、将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行し、これにより、将来エポックにおける行動を提供することを含み、
将来エポックの状態に対して現在の方策を更新し、
適切な場合に、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、上記生成した将来エポックの状態−行動の対を用いて修正し、
将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングにおける経験的平均値を得て、
2回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、将来エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は将来エポックの状態−行動の対の有用性を表し、
上記デジタルコンピュータを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを更新し、この更新は、生成したQ関数の値の近似値、及び現在エポックの状態−行動の対における1回目のサンプリングにおける経験的平均値、及び上記報酬構造を用いて得られた現在エポックの状態−行動の対における対応する報酬を用いて行うステップと;
上記停止基準を満たした際に、上記デジタルコンピュータを用いて方策を提供するステップと
を含む方法。
【0285】
項2.項1に記載の方法であって、上記サンプリング装置が量子プロセッサを具え、上記サンプリング装置制御システムが量子デバイス制御システムを具え;さらに、この量子プロセッサは上記デジタルコンピュータ及びこの量子デバイス制御システムに結合され、さらに、この量子プロセッサは複数の量子ビット及び複数のカプラを具え、各カプラは2つの量子ビットの交点における通信結合を提供する方法。
【0286】
項3.項1に記載の方法であって、上記サンプリング装置が光学装置及び複数の結合装置を具え、この光学装置は、光エネルギー源からエネルギーを受けて複数の光パラメトリック発振器を生成するように構成され、各結合装置は、複数の光パラメトリック発振器のうちの1つの光パラメトリック発振器を制御可能な様式で結合する方法。
【0287】
項4.項1に記載の方法であって、上記サンプリング装置が、中央処理装置、及びこの中央処理装置に結合されたメモリ装置を具えて上記ボルツマンマシンを実現し、実現されるボルツマンマシンは従来型ボルツマンマシンであり、0の値の横磁場強度によって特徴付けられ;さらに、上記メモリ装置は、この従来型ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを表すデータを得るためのアプリケーションを含み、さらに、このアプリケーションは、この従来型ボルツマンマシンの、シミュレーションによる量子アニーリングを実行するように構成されている方法。
【0288】
項5.項1に記載の方法であって、上記サンプリング装置が、中央処理装置、及びこの中央処理装置に結合されたメモリ装置を具えて上記ボルツマンマシンを実現し、実現されるボルツマンマシンは量子ボルツマンマシンであり、0でない値の横磁場強度によって特徴付けられ;さらに、上記メモリ装置は、この量子ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを表すデータを得るためのアプリケーションを含み;さらに、このアプリケーションは、この量子ボルツマンマシンの、シミュレーションによる量子アニーリングを実行するように構成されている方法。
【0289】
項6.項5に記載の方法であって、上記量子ボルツマンマシンの、シミュレーションによる量子アニーリングを実行することによって、この量子ボルツマンマシンを表現する有効ハミルトニアンの複数のサンプル形態がもたらされる方法。
【0290】
項7.項1に記載の方法であって、上記サンプリング装置が、中央処理装置、及びこの中央処理装置に結合されたメモリ装置を具えて上記ボルツマンマシンを実現し、実現されるボルツマンマシンは従来型ボルツマンマシンであり、0の値の横磁場強度によって特徴付けられ;さらに、このメモリ装置は、この従来型ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを表すデータを得るためのアプリケーションを含み、このアプリケーションは、この従来型ボルツマンマシンに対応するフォルトゥン−カステレイン・ランダムクラスタ表現の複数のインスタンスをサンプリングし、これにより、フォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数の近似値を提供するように構成されている方法。
【0291】
項8.項1に記載の方法であって、上記サンプリング装置が、中央処理装置、及びこの中央処理装置に結合されたメモリ装置を具えて上記ボルツマンマシンを実現し、実現されるボルツマンマシンは量子ボルツマンマシンであり、0でない横磁場強度によって特徴付けられ;さらに、このメモリ装置は、この量子ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを表すデータを得るためのアプリケーションを含み;さらに、このアプリケーションは、上記量子ボルツマンマシンに対応するフォルトゥン−カステレイン・ランダムクラスタ表現の複数のインスタンスをサンプリングし、これにより、フォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数の近似値を提供するように構成されている方法。
【0292】
項9.項2、3、4及び5のいずれかに記載の方法であって、現在エポック及び将来エポックの両方における上記Q関数の値の近似値を生成することが、上記サンプリング装置から、測定値軸に沿った上記ボルツマンマシンの形態の複数のサンプルを得ること、及び上記デジタルコンピュータを用いて、上記ボルツマンマシンの自由エネルギーの経験的近似値を計算することを含む方法。
【0293】
項10.項2〜5のいずれかに記載の方法であって、現在エポック及び将来エポックの両方における上記Q関数の値の近似値を生成することが、上記サンプリング装置から、測定値軸に沿った、上記ボルツマンマシンの複数のサンプル形態を得ること、得られたサンプル形態から、上記量子ボルツマンマシンを表現する有効ハミルトニアンの形態の複数のサンプルを構成すること、及び上記デジタルコンピュータを用いて、上記量子ボルツマンマシンの自由エネルギーの経験的近似値を計算することを含む方法。
【0294】
項11.項6に記載の方法であって、現在エポック及び将来エポックの両方における上記Q関数の値の近似値を生成することが、上記サンプリング装置から、上記量子ボルツマンマシンを表現する有効ハミルトニアンの形態の複数のサンプルを得ること、及び上記デジタルコンピュータを用いて、上記量子ボルツマンマシンの自由エネルギーの経験的近似値を計算することを含む方法。
【0295】
項12.項8に記載の方法であって、現在エポック及び将来エポックの両方における上記Q関数の値の近似値を生成することが、上記サンプリング装置から、上記量子ボルツマンマシンに対応するフォルトゥン−カステレイン・ランダムクラスタ表現中のクラスタ数の近似値を得ること、及び上記デジタルコンピュータを用いて、上記量子ボルツマンマシンの自由エネルギーの経験的近似値を計算することを含む方法。
【0296】
項13.項2、3、4及び5のいずれかに記載の方法であって、上記ノードに対応する1回目及び2回目の上記経験的平均値の両方を計算することが、上記サンプリング装置から、測定値軸に沿った、上記量子ボルツマンマシン及び上記従来型ボルツマンマシンの一方の形態の複数のサンプルを得ること、及び上記デジタルコンピュータを用いて、上記ノードにおける経験的平均値の近似値を計算することを含む。
【0297】
項14.項6に記載の方法であって、上記ノードに対応する1回目及び2回目の上記経験的平均値の両方を計算することが、上記サンプリング装置から、上記ボルツマンマシンの有効ハミルトニアンの形態の複数のサンプルを得ること、及び上記デジタルコンピュータを用いて、上記ノードにおける経験的平均値の近似値を計算することを含む方法。
【0298】
項15.項1に記載の方法であって、上記すべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行することが:
、適切な場合に、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、将来エポックの状態に対応する状態−行動の対の各々を用いて修正することと、
将来エポックの状態に対応する状態−行動の対の各々に対応するサンプリングを実行して、経験的平均値を提供することと、
上記デジタルコンピュータを用いて、将来エポックの状態に対応する状態−行動の対の各々における上記Q関数の値の近似値を生成することと、
将来エポックの状態に対応する状態−行動の対の各々に対応するQ関数値のすべての近似値を用い、かつ上記デジタルコンピュータを用いて、対応する分布からサンプリングして、将来エポックの状態に対して方策を更新することと
を含む方法。
【0299】
項16.項1に記載の方法であって、上記すべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行することが:
温度パラメータを得ることと;
将来エポックの状態を得ることと;
将来エポックの状態に固定された状態変数及び提供された温度により、上記Q関数の値の近似値に関連するボルツマン分布をサンプリングすることと
を含む方法。
【0300】
項17.項2に記載の方法であって、上記量子プロセッサの上記複数の量子ビットが:
第1グループの量子ビット;
第2グループの量子ビットを含み;
上記量子プロセッサの上記複数のカプラが:
少なくとも1つのカプラ、及び
他の複数のカプラを含み、
少なくとも1つのカプラの各々は、第1グループの量子ビットのうちの1つの量子ビットと、第2グループの量子ビットのうちの少なくとも1つの量子ビットとの交点における通信結合を提供し、
上記他の複数のカプラの各々は、第2グループの量子ビットのうちの1つの量子ビットと第2グループの量子ビットのうちの他の量子ビットとの交点における通信結合を提供する、
方法。
【0301】
項18.項17に記載の方法であって、上記第1グループの量子ビットが、上記確率制御問題における一組の行動を表す方法。
【0302】
項19.項17に記載の方法であって、少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、生成した現在エポックの状態−行動の対を用いて修正することが:
上記第1グループの量子ビットうちの1つの量子ビットと上記第2グループの量子ビットとの交点における通信結合を提供するすべてのカプラをオフ状態に切り換えること、及び
上記第2グループの量子ビットにおける少なくとも1つのバイアスを、上記生成した現在エポックの状態−行動の対を用いて修正すること
を含む方法。
【0303】
項20.項17に記載の方法であって、少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、生成した将来エポックの状態−行動の対を用いて修正することが:
上記第1グループの量子ビットうちの1つの量子ビットと上記第2グループの量子ビットとの交点における通信結合を提供するすべてのカプラをオフ状態に切り換えること、及び、
上記第2グループの量子ビットにおける少なくとも1つのバイアスを、上記生成した将来エポックの状態−行動の対を用いて修正すること
を含む方法。
【0304】
項21.項17に記載の方法であって、将来エポックの状態及びあり得るすべての行動を含む上記すべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行することが:
上記第1グループの量子ビットのうちの1つの量子ビットと上記第2グループの量子ビットとの交点における通信結合を提供するすべてのカプラをオン状態に切り換えることと;
上記第2グループの量子ビットにおける少なくとも1つのバイアスを、将来エポックの状態−行動の対に対応する将来エポックの状態を用いて修正することと;
量子サンプリングを実行して、上記第1グループの量子ビットに対応する経験的平均値を得ることと;
上記デジタルコンピュータを用いて、上記第1グループの量子ビットに対応する得られた経験的平均値の分布に応じた行動を、将来エポックの状態に割り当てることによって、将来エポックの状態に対して方策を更新することと
を含む方法。
【0305】
項22.項1〜21のいずれかに記載の方法であって、上記停止基準が、学習ステップの最大数に達することを含む方法。
【0306】
項23.項1〜21のいずれかに記載の方法であって、上記停止基準が、最大実行時間に達することを含む方法。
【0307】
項24.項1〜21のいずれかに記載の方法であって、上記停止基準が、上記結合装置及び局所場の、それぞれ重み値及びバイアスの関数の収束を含む方法。
【0308】
項25.項1〜21のいずれかに記載の方法であって、上記方策が固定の方策に収束することを含む方法。
【0309】
項26.項1〜25のいずれかに記載の方法であって、上記方策を提供するステップが、上記デジタルコンピュータと対話するユーザに対して上記方策を表示すること;上記方策を上記デジタルコンピュータ内に記憶すること;及び上記方策を、上記デジタルコンピュータに動作的に接続された他の処理装置へ送信すること、のうちの少なくとも1つを含む方法。
【0310】
項27.項1〜26のいずれかに記載の方法であって、上記デジタルコンピュータがメモリ装置を具え;さらに、上記デジタルコンピュータのこのメモリ装置から上記初期化データを得る方法。
【0311】
項28.項1〜26のいずれかに記載の方法であって、上記初期化データを、上記デジタルコンピュータと対話するユーザ、及び上記デジタルコンピュータに動作的に接続されたリモート処理装置の一方から得る方法。
【0312】
項29.デジタルコンピュータであって、
中央処理装置と;
表示装置と;
当該デジタルコンピュータを、あるデジタルコンピュータに結合されたサンプリング装置、及びサンプリング装置制御システムに動作的に接続するための通信ポートと;
確率制御問題に対する方策を改善するためのアプリケーションを含むメモリ装置とを具え、この確率制御問題は、一組の行動、一組の状態、状態及び行動の関数としての報酬構造、及び複数の決定エポックによって特徴付けられ、基になる確率的状態過程の進行は、方策における複数の行動に依存し、このアプリケーションは:
デジタルコンピュータ及びサンプリング装置制御システムに結合されたサンプリング装置を用いるための命令であって、このサンプリング装置は、ボルツマンマシンのサンプル形態を表すデータを取得し、このボルツマンマシンは、複数のノード、複数のカプラ、各々がこれら複数のノードのうちの1つのノードに対応する複数のバイアス、各々がこれら複数のカプラのうちの1つのカプラに対応する複数の結合の重み値、及び横磁場強度を具えている命令と;
上記デジタルコンピュータを用いて、上記一組の行動、上記一組の状態、上記確率制御問題の報酬構造、及び上記確率制御問題に対する初期方策を含む初期化データを得るための命令であって、この方策は状態毎に少なくとも1つの行動の選定を含む命令と;
上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ初期重み値及びバイアスを表すデータ、及び上記ボルツマンマシンの横磁場強度を表すデータを、上記サンプリング装置に割り当てるための命令と;
停止基準を満たすまで:
上記デジタルコンピュータを用いて、現在エポックの状態−行動の対を、ランダムに、あるいは上記基になる確率的状態過程を用いて、かつ現在の方策を用いて生成し、
適切な場合に、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、生成した現在エポックの状態−行動の対を用いて修正し、
現在エポックの状態−行動の対に対応するサンプリングを実行して、1回目のサンプリングにおける経験的平均値を得て、
1回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、現在エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は現在エポックの状態−行動の対の有用性を表し、
上記デジタルコンピュータを用いて、将来エポックの状態−行動の対を生成し、状態は確率的状態過程により得られ、さらに、行動を得ることは、将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行し、これにより、将来エポックにおける行動を提供することを含み、
将来エポックの状態に対して現在の方策を更新し、
適切な場合に、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、上記生成した将来エポックの状態−行動の対を用いて修正し、
将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングにおける経験的平均値を得て、
2回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、将来エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は将来エポックの状態−行動の対の有用性を表し、
上記デジタルコンピュータを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを更新し、この更新は、生成したQ関数の値の近似値、及び現在エポックの状態−行動の対における1回目のサンプリングにおける経験的平均値、及び上記報酬構造を用いて得られた現在エポックの状態−行動の対における対応する報酬を用いて行うための命令と、
上記停止基準を満たした際に、上記デジタルコンピュータを用いて方策を提供するための命令と
を含むデジタルコンピュータ。
【0313】
項30.コンピュータで実行可能な命令を記憶するための非一時的なコンピュータ可読記憶媒体であって、これらの命令は、デジタルコンピュータにより実行されると、このデジタルコンピュータに、確率制御問題に対する方策を改善する方法を実行させ、この確率制御問題は、一組の行動、一組の状態、状態及び行動の関数としての報酬構造、及び複数の決定エポックによって特徴付けられ、基になる確率的状態過程の進行は、方策における複数の行動に依存し、上記方法は:
デジタルコンピュータ及びサンプリング装置制御システムに結合されたサンプリング装置を用いるステップであって、このサンプリング装置は、ボルツマンマシンのサンプル形態を表すデータを取得し、このボルツマンマシンは:
複数のノードと;
複数のカプラと;
各々がこれら複数のノードのうちの1つのノードに対応する複数のバイアスと;
各々がこれら複数のカプラのうちの1つのカプラに対応する複数の結合の重み値と;
横磁場強度とを具えているステップと;
上記デジタルコンピュータを用いて、上記一組の行動、上記一組の状態、上記確率制御問題の報酬構造、及び上記確率制御問題に対する初期方策を含む初期化データを得るステップであって、この方策は状態毎に少なくとも1つの行動の選定を含むステップと;
上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ初期重み値及びバイアスを表すデータ、及び上記ボルツマンマシンの及び横磁場強度を表すデータを、上記サンプリング装置に割り当てるステップと;
停止基準を満たすまで:
上記デジタルコンピュータを用いて、現在エポックの状態−行動の対を、ランダムに、あるいは上記基になる確率的状態過程を用いて、かつ現在の方策を用いて生成し、
適切な場合に、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、生成した現在エポックの状態−行動の対を用いて修正し、
現在エポックの状態−行動の対に対応するサンプリングを実行して、1回目のサンプリングにおける経験的平均値を得て、
1回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、現在エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は現在エポックの状態−行動の対の有用性を表し、
上記デジタルコンピュータを用いて、将来エポックの状態−行動の対を生成し、状態は確率的状態過程により得られ、さらに、行動を得ることは、将来エポックの状態及びあらゆる可能な行動を含むすべての状態−行動の対のうちの複数の対に対する確率的最適化のテストを実行し、これにより、将来エポックにおける行動を提供することを含み、
将来エポックの状態に対して現在の方策を更新し、
適切な場合に、上記デジタルコンピュータ及び上記サンプリング装置制御システムを用いて、少なくとも1つのカプラを表し、かつ少なくとも1つのバイアスを表すデータを、上記生成した将来エポックの状態−行動の対を用いて修正し、
将来エポックの状態−行動の対に対応するサンプリングを実行して、2回目のサンプリングにおける経験的平均値を得て、
2回目のサンプリングにおける経験的平均値を用い、かつ上記デジタルコンピュータを用いて、将来エポックの状態−行動におけるQ関数の値の近似値を生成し、Q関数の値は将来エポックの状態−行動の対の有用性を表し、
上記デジタルコンピュータを用いて、上記ボルツマンマシンの各カプラ及び各ノードの、それぞれ各重み値及び各バイアスを更新し、この更新は、生成したQ関数の値の近似値、及び現在エポックの状態−行動の対における1回目のサンプリングにおける経験的平均値、及び上記報酬構造を用いて得られた現在エポックの状態−行動の対における対応する報酬を用いて行うステップと;
上記停止基準を満たした際に、上記デジタルコンピュータを用いて方策を提供するステップと
を含む方法。
図1
図2