IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

<>
  • 特許-強化学習を通した量子計算 図1
  • 特許-強化学習を通した量子計算 図2A
  • 特許-強化学習を通した量子計算 図2B
  • 特許-強化学習を通した量子計算 図3
  • 特許-強化学習を通した量子計算 図4
  • 特許-強化学習を通した量子計算 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-19
(45)【発行日】2024-12-27
(54)【発明の名称】強化学習を通した量子計算
(51)【国際特許分類】
   G06N 10/40 20220101AFI20241220BHJP
   G06N 3/092 20230101ALI20241220BHJP
【FI】
G06N10/40
G06N3/092
【請求項の数】 20
【外国語出願】
(21)【出願番号】P 2023188010
(22)【出願日】2023-11-01
(62)【分割の表示】P 2021183504の分割
【原出願日】2018-01-31
(65)【公開番号】P2023184629
(43)【公開日】2023-12-28
【審査請求日】2023-11-08
(73)【特許権者】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ユエゼン・ニウ
(72)【発明者】
【氏名】ハルトムート・ネーフェン
(72)【発明者】
【氏名】ヴァディム・スメリャンスキー
(72)【発明者】
【氏名】セルジオ・バイショ・カストリージョ
【審査官】山本 俊介
(56)【参考文献】
【文献】米国特許出願公開第2017/0351967(US,A1)
【文献】BUKOV Marin et al.,Reinforcement Learning in Different Phases of Quantum Control,arXiv,2017年09月08日,<URL:https://aps.arxiv.org/pdf/170.00565v2>
【文献】GHOSH Joydip et al.,Pulse sequences for suppressing leakage in single-qubit gate operations,arXiv,2017年06月30日,<URL:https://arxiv.org/pdf/162.00568>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
量子ゲートのシーケンスを含むゲートモデル量子計算を実行するための方法であって、
前記ゲートモデル量子計算に含まれる量子ゲートについて、
前記量子ゲートを実装し、前記量子ゲートの漏れ、非忠実度、または総実行時間の1つまたは複数を低減するあらかじめ決定された量子制御軌跡を識別するステップと、
前記あらかじめ決定された量子制御軌跡を使用して前記量子ゲートを実装するステップとを含み、
前記量子制御軌跡は、前記量子ゲートを表す制御アクションのシーケンスにおける各制御アクションを反復的に調整する強化学習モデルを使用して決定されており、前記反復的に調整することは、各反復について、
エージェントによって、i)強化学習割引将来報酬関数として、漏れ、非忠実度、または総ゲート実行時間の1つまたは複数にペナルティを科すユニバーサル制御コスト関数、およびii)トレーニング環境から受け取った前記反復のための量子システムの状態を使用して、割引将来報酬を決定するステップと、
前記エージェントによって、および前記割引将来報酬に基づいて、前記反復のための1つまたは複数の制御軌跡パラメータの値を調整するステップと、
前記反復のための1つまたは複数の制御軌跡パラメータの前記値を前記トレーニング環境に提供するステップとを含む、方法。
【請求項2】
前記制御アクションのシーケンスにおける各制御アクションを反復的に調整することが、各反復について、
エージェントによって、前記量子システムの現在の状態に基づいて、前記反復のための制御アクションを決定するステップと、
トレーニング環境によって、前記制御アクションおよびサンプル制御ノイズを使用して、前記量子システムの前記現在の状態を前記量子システムの後続の状態に更新するステップとを含む、
請求項1に記載の方法。
【請求項3】
前記エージェントが、第1のニューラルネットワークを備え、
量子ハードウェア中に含まれた量子システムの現在の状態に基づいて、前記反復のための制御アクションを決定するステップが、
前記第1のニューラルネットワークへの入力として、前記量子システムの前記現在の状態を表すパラメータ値のベクトルを提供するステップと、
前記第1のニューラルネットワークからの出力として、前記制御アクションを表すパラメータ値のベクトルを取得するステップとを含む、
請求項2に記載の方法。
【請求項4】
前記第1のニューラルネットワークが、複数の完全に接続されたニューラルネットワーク層を備える、請求項3に記載の方法。
【請求項5】
前記制御アクションを表す前記パラメータ値が、前記エージェントによってサンプリングされると、前記制御アクションを定義する、前記制御アクションの各構成要素のためのそれぞれの確率分布を表す値を備える、
請求項3に記載の方法。
【請求項6】
前記エージェントによって、および前記決定された割引将来報酬に基づいて、1つまたは複数の制御軌跡パラメータの値を調整するステップが、
前記第1のニューラルネットワークを調整するステップであって、前記第1のニューラルネットワークを調整するステップが、前記決定された割引将来報酬に基づいて、第1のニューラルネットワークパラメータの値を調整するステップを含む、ステップと、
前記調整された第1のニューラルネットワークを使用して、前記反復のための調整された制御アクションを決定するステップと、
前記反復のための前記調整された制御アクションを使用して、前記反復のための前記制御軌跡パラメータの前記値を調整するステップとを含む、
請求項3、4、または5に記載の方法。
【請求項7】
前記第1のニューラルネットワークパラメータの前記値を調整するステップが、前記決定された割引将来報酬によって決定された学習率とともに、勾配降下法を適用するステップを含む、
請求項6に記載の方法。
【請求項8】
前記エージェントが、前記割引将来報酬を決定するように構成された第2のニューラルネットワークを備える、
請求項3から7のいずれか一項に記載の方法。
【請求項9】
前記第2のニューラルネットワークが、複数の完全に接続されたニューラルネットワーク層を備える、請求項8に記載の方法。
【請求項10】
i)強化学習割引将来報酬関数として、漏れ、非忠実度、または総ゲート実行時間の1つまたは複数にペナルティを科すユニバーサル制御コスト関数、およびii)前記量子システムの前記状態を使用して、前記割引将来報酬を決定するステップが、
更新されたユニバーサル制御コスト関数に基づいて、前記制御アクションのシーケンスにおける将来の位置のための重み付けされたユニバーサル制御コスト関数の和を評価するステップを含む、
請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記強化学習モデルを適用するステップが、
前記エージェントから、および異なる可能な制御軌跡から、i)異なる制御軌跡の下の量子状態の完全なシーケンス、およびii)異なる制御軌跡のためのユニバーサル制御コスト関数値の完全なシーケンスをサンプリングするステップと、
前記サンプリングされた量子状態およびユニバーサル制御コスト関数値に対応する、サンプリングされた割引将来報酬を決定するステップと、
前記サンプリングされた割引将来報酬に、前記第2のニューラルネットワークを適合させるステップと、
前記割引将来報酬を符号化する前記第2のニューラルネットワークによって決定された学習率とともに、前記サンプリングから推定された勾配に従って、前記第1のニューラルネットワークを適合させるステップとによって、
各反復において、前記第1のニューラルネットワークおよび前記第2のニューラルネットワークをトレーニングするステップをさらに含む、
請求項8に記載の方法。
【請求項12】
前記制御アクションのシーケンスにおける各制御アクションを調整して、前記量子ゲートを実装する量子制御軌跡を決定するために、強化学習モデルを適用するステップが、
方策勾配法を実行するステップを含む、
請求項1から11のいずれか一項に記載の方法。
【請求項13】
1つまたは複数のエージェントパラメータの調整された値が、あらかじめ定義された制限内に収束するまで、各反復が、複数回繰り返される、
請求項1から12のいずれか一項に記載の方法。
【請求項14】
前記トレーニング環境によって、前記決定された制御アクションおよびサンプル制御ノイズを使用して、前記量子システムの前記現在の状態を前記量子システムの後続の状態に更新するステップが、
ランダムにサンプリングされた量子ハードウェアノイズに基づいて、前記制御アクションを表すパラメータ値のベクトルを調整するステップと、
前記調整されたパラメータ値のベクトルを使用して、前記現在の制御アクションを実現する時間依存ハミルトニアン発展を解くステップと、
前記解かれた時間依存ハミルトニアン発展を使用して、前記量子システムの前記状態を更新するステップとを含む、
請求項2に記載の方法。
【請求項15】
ランダムにサンプリングされた量子ハードウェアノイズに基づいて、前記制御アクションを表す前記パラメータ値のベクトルを調整するステップが、
前記サンプル制御ノイズをランダムにサンプリングするステップと、
前記パラメータ値のベクトルの各エントリに、前記ランダムにサンプリングされたノイズを追加するステップとを含む、
請求項14に記載の方法。
【請求項16】
前記サンプル制御ノイズをランダムにサンプリングするステップが、あらかじめ決定された分散をもつゼロ平均ガウス分布に従って、異なる制御振幅のための振幅変動をサンプリングするステップを含む、
請求項15に記載の方法。
【請求項17】
量子ハードウェアが、1つまたは複数の量子ビットを備え、
制御ノイズが、i)量子ビット非調和性、ii)量子ビット離調振幅、iii)マイクロ波制御振幅、およびiv)2量子ビット結合パルス振幅のうちの1つまたは複数から生じるランダム量子ハードウェアノイズを備える、
請求項1から16のいずれか一項に記載の方法。
【請求項18】
前記調整されたパラメータ値のベクトルを使用して、前記現在の制御アクションを実現する時間依存ハミルトニアン発展を解くステップが、
前記調整されたパラメータ値のベクトルを使用して、シュレディンガー方程式を評価するステップを含む、
請求項14に記載の方法。
【請求項19】
1つまたは複数のコンピュータと、命令を記憶する1つまたは複数の記憶デバイスとを備えたシステムであって、前記命令が、請求項1から18のいずれか一項に記載の方法を含む動作を、前記1つまたは複数のコンピュータに実行させる、
システム。
【請求項20】
処理デバイスによって実行可能である命令を記憶しているコンピュータ可読記憶媒体であって、前記命令が、請求項1から18のいずれか一項に記載の方法を含む動作を、前記処理デバイスに実行させる、
コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書は、量子コンピューティングに関する。
【背景技術】
【0002】
大規模な量子コンピュータは、いくつかの部類の困難な問題に対する高速な解決法を提供する可能性を有する。ゲートモデル量子コンピュータでは、計算タスクが、ユニバーサル量子ゲートのシーケンスを実装することによって実行され、ユニバーサル量子ゲートの各々が、量子コンピュータの発展の軌跡を指定する。量子ゲートが高速で実行するほど、所与の量子デバイスが有する計算能力が高くなる。
【発明の概要】
【課題を解決するための手段】
【0003】
本明細書は、強化学習を使用して、量子制御軌跡(quantum control trajectory)を設計するための方法およびシステムについて説明する。
【0004】
概して、本明細書で説明する主題の1つの発明的態様は、量子ハードウェアを使用して、量子ゲートを実装するための量子制御軌跡を設計するための方法において実装され得、この方法は、量子ゲートを制御アクションのシーケンスとして表すアクションと、制御アクションのシーケンスにおける各制御アクションを反復的に調整して、量子ゲートを実装し、反復調整の間に量子ゲートの漏れ、非忠実度、および総実行時間を低減する、量子制御軌跡を決定するために強化学習モデルを適用するアクションであって、各反復について、エージェントによって、量子ハードウェア中に含まれた量子システムの現在の状態に基づいて、反復のための制御アクションを決定するアクションと、トレーニング環境によって、決定された制御アクションおよびサンプル制御ノイズを使用して、量子システムの現在の状態を量子システムの後続の状態に更新するアクションと、エージェントによって、i)強化学習割引将来報酬関数(reinforcement learning discounted future reward function)として、漏れ、非忠実度、および総ゲート実行時間にペナルティを科すユニバーサル制御コスト関数(universal control cost function)、およびii)量子システムの更新された状態を使用して、割引将来報酬(discounted future reward)を決定するアクションと、エージェントによって、および決定された割引将来報酬に基づいて、反復のための1つまたは複数の制御軌跡(control trajectory)パラメータの値を調整するアクションとを含む、アクションとを含む。
【0005】
この態様の他の実装形態は、方法のアクションを実行するように各々構成された、対応する古典的または量子コンピュータシステム、装置、および1つまたは複数のコンピュータ記憶デバイス上に記録されたコンピュータプログラムを含む。1つまたは複数のコンピュータのシステムは、動作中にシステムにアクションを実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せを、システム上にインストールしていることによって、特定の動作またはアクションを実行するように構成され得る。1つまたは複数のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実行させる命令を含むことによって、特定の動作またはアクションを実行するように構成され得る。
【0006】
上記および他の実装形態は、各々、場合によっては、以下の特徴のうちの1つまたは複数を単独で、または組み合わせて含み得る。いくつかの実装形態では、エージェントが、第1のニューラルネットワークを備え、量子ハードウェア中に含まれた量子システムの現在の状態に基づいて、反復のための制御アクションを決定するステップが、第1のニューラルネットワークへの入力として、量子システムの現在の状態を表すパラメータ値のベクトルを提供するステップと、第1のニューラルネットワークからの出力として、制御アクションを表すパラメータ値のベクトルを取得するステップとを含む。
【0007】
いくつかの実装形態では、制御アクションを表すパラメータ値が、エージェントによってサンプリングされると、制御アクションを定義する、制御アクションの各構成要素のためのそれぞれの確率分布を表す値を備える。
【0008】
いくつかの実装形態では、エージェントによって、および決定された割引将来報酬に基づいて、1つまたは複数の制御軌跡パラメータの値を調整するステップが、第1のニューラルネットワークを調整するステップであって、決定された割引将来報酬に基づいて、第1のニューラルネットワークパラメータの値を調整するステップを含む、ステップと、調整された第1のニューラルネットワークを使用して、反復のための調整された制御アクションを決定するステップと、反復のための調整された制御アクションを使用して、反復のための制御軌跡パラメータの値を調整するステップとを含む。
【0009】
いくつかの実装形態では、第1のニューラルネットワークパラメータの値を調整するステップが、決定された割引将来報酬によって決定された学習率とともに、勾配降下法を適用するステップを含む。
【0010】
いくつかの実装形態では、エージェントが、割引将来報酬を決定するように構成された第2のニューラルネットワークを備える。
【0011】
いくつかの実装形態では、i)強化学習割引将来報酬関数として、漏れ、非忠実度、および総ゲート実行時間にペナルティを科すユニバーサル制御コスト関数、およびii)量子システムの更新された状態を使用して、割引将来報酬を決定するステップが、更新されたユニバーサル制御コスト関数に基づいて、制御アクションのシーケンスにおける将来の位置のための重み付けされたユニバーサル制御コスト関数の和を評価するステップを含む。
【0012】
いくつかの実装形態では、強化学習モデルを適用するステップが、エージェントから、および異なる可能な制御軌跡から、i)異なる制御軌跡の下の量子状態の完全なシーケンス、およびii)異なる制御軌跡のためのユニバーサル制御コスト関数値の完全なシーケンスをサンプリングするステップと、サンプリングされた量子状態およびユニバーサル制御コスト関数値に対応する、サンプリングされた割引将来報酬を決定するステップと、サンプリングされた割引将来報酬に、第2のニューラルネットワークを適合させるステップと、割引将来報酬を符号化する、第2のニューラルネットワークによって決定された学習率とともに、サンプリングから推定された勾配に従って、第1のニューラルネットワークを適合させるステップとによって、各反復において、第1のニューラルネットワークおよび第2のニューラルネットワークをトレーニングするステップをさらに含む。
【0013】
いくつかの実装形態では、制御アクションのシーケンスにおける各制御アクションを調整して、量子ゲートを実装する量子制御軌跡を決定するために、強化学習モデルを適用するステップが、方策勾配法を実行するステップを含む。
【0014】
いくつかの実装形態では、エージェントパラメータの調整された値が、あらかじめ定義された制限内に収束するまで、各反復が、複数回繰り返される。
【0015】
いくつかの実装形態では、トレーニング環境によって、決定された制御アクションおよびサンプル制御ノイズを使用して、量子システムの現在の状態を量子システムの後続の状態に更新するステップが、ランダムにサンプリングされた量子ハードウェアノイズに基づいて、制御アクションを表すパラメータ値のベクトルを調整するステップと、調整されたパラメータ値のベクトルを使用して、現在の制御アクションを実現する、時間依存ハミルトニアン発展(time dependent Hamiltonian evolution)を解くステップと、解かれた時間依存ハミルトニアン発展を使用して、量子システムの状態を更新するステップとを含む。
【0016】
いくつかの実装形態では、ランダムにサンプリングされた量子ハードウェアノイズに基づいて、制御アクションを表すパラメータ値のベクトルを調整するステップが、制御ノイズをランダムにサンプリングするステップと、パラメータ値のベクトルの各エントリに、ランダムにサンプリングされたノイズを追加するステップとを含む。
【0017】
いくつかの実装形態では、制御ノイズをランダムにサンプリングするステップが、あらかじめ決定された分散をもつゼロ平均ガウス分布(zero mean Gaussian distribution)に従って、異なる制御振幅のための振幅変動をサンプリングするステップを含む。
【0018】
いくつかの実装形態では、量子ハードウェアが、1つまたは複数の量子ビットを備え、制御ノイズが、i)量子ビット非調和性、ii)量子ビット離調振幅(detuning amplitude)、iii)マイクロ波制御振幅、およびiv)2量子ビット結合パルス振幅のうちの1つまたは複数から生じるランダム量子ハードウェアノイズを備える。
【0019】
いくつかの実装形態では、調整されたパラメータ値のベクトルを使用して、現在の制御アクションを実現する時間依存ハミルトニアン発展を解くステップが、調整されたパラメータ値のベクトルを使用して、シュレディンガー方程式を評価するステップを含む。
【0020】
いくつかの実装形態では、第1のニューラルネットワークが、複数の完全に接続されたニューラルネットワーク層を備える。
【0021】
いくつかの実装形態では、第2のニューラルネットワークが、複数の完全に接続されたニューラルネットワーク層を備える。
【0022】
いくつかの実装形態では、方法は、設計された量子制御軌跡を使用して、量子ゲートを実装するステップをさらに含む。
【0023】
本明細書で説明する主題は、以下の利点のうちの1つまたは複数を実現するように、特定の方法において実装され得る。
【0024】
本明細書で説明するような、強化学習を通した量子計算を実装するシステムは、量子コンピューティングデバイス、またはハイブリッドの古典的-量子コンピューティングデバイスの性能および計算効率を向上させ得る。たとえば、本明細書で説明する技法を実行する量子コンピューティングデバイスは、低減されたエラーおよび実行時間、高められた量子ゲート忠実度、ならびに計算プロセスの量子ダイナミクスにおける未知の変動を引き起こす、不可避の量子ハードウェア制御ノイズに対する、向上したロバストネスをもつ、量子ゲートを実装し得る。
【0025】
別の例として、量子ゲートの実行時間と忠実度の間のバランスが、決定され得る。加えて、短縮されたゲート実行時間において高忠実度量子ゲートを実装することによって、近々の量子コンピューティングデバイスは、古典的コンピュータの力の及ばない困難な問題を解くために使用され得る。さらに、本明細書で説明する技法の一般性は、量子デバイスの向上した制御可能性を提供する。
【0026】
本明細書で説明するような、強化学習を通した量子計算を実装するシステムは、汎用時間依存ハミルトニアン発展(generic time-dependent Hamiltonian evolution)の間の異なる周波数領域にわたるあらゆる種類の漏れエラー(leakage error)を抑制することができ、単一の原因からの漏れエラーの抑制に制限されない。さらに、あらゆる種類の漏れエラーが、量子制御の一般性を損なう、ハミルトニアン変調(Hamiltonian modulation)の許容可能な形態における困難な制約を必要とすることなしに抑制される。
【0027】
本明細書で説明するような、強化学習を通した量子計算を実装するシステムは、環境の物理モデルの完全な知識が利用可能である設定に限定されない。
【0028】
本明細書で説明するような、強化学習を通した量子計算を実装するシステムは、任意のユニタリ単一およびマルチ量子ビットゲートを実装し得る。
【0029】
便宜上、本明細書で説明する技法について、1つまたは複数の量子ビット上で単一の量子ゲートを実装するものとして説明する。しかしながら、説明するシステムおよび技法の適用可能性は、完全にスケーラブルであり、量子ゲートのシーケンスの実装形態に拡張することができ、その場合、ゲートのシーケンスを実装するために使用されるそれぞれの制御を、単一の制御にまとめて、ゲートシーケンス忠実度を高めながら、計算時間の加速をもたらすことができる。
【0030】
本明細書の主題の1つまたは複数の実装形態の詳細が、添付の図面および以下の説明において記載される。主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0031】
図1】量子制御軌跡を設計および実装するための例示的なシステムを示す図である。
図2A】従来の強化学習モデルの図である。
図2B】量子ゲート制御方式を設計するための強化学習モデルの図である。
図3】量子ハードウェアを使用して、量子ゲートを実装するための量子制御軌跡を設計するための例示的なプロセスの流れ図である。
図4】量子制御軌跡を決定するための強化学習モデルを適用する例示的な反復の流れ図である。
図5】決定された制御アクションおよびサンプル制御ノイズを使用して、量子システムの現在の状態を更新するための例示的なプロセスの流れ図である。
【発明を実施するための形態】
【0032】
様々な図面における同様の参照番号および名称は、同様の要素を示す。
【0033】
ゲートモデル量子計算では、計算タスクが、ユニバーサル量子ゲートのシーケンスによって実行され、ユニバーサル量子ゲートの各々が、量子コンピュータの発展の軌跡を指定する。一般に、量子ゲートまたは量子ゲートのシーケンスが高速で実行するほど、量子コンピュータが有する計算能力が高くなる。
【0034】
高速の高忠実度量子ゲートの実現の主な障害物は、漏れエラーである。漏れエラーは、あらかじめ定義された計算部分空間から非計算部分空間への、量子ビットの状態において符号化された量子情報の漏れとして定義され得る。2つの別個の漏れエラーの原因、すなわち、コヒーレント漏れエラーおよびインコヒーレント漏れエラーがある。コヒーレント漏れエラーは、量子ビットの計算部分空間と非計算部分空間との間の直接結合から生じる。インコヒーレント漏れエラーは、断熱性のための条件によって可能にされるよりも短い時間間隔における、システムハミルトニアン(system Hamiltonian)の変調から生じる。高速の高忠実度量子ゲートを実現するための制御軌跡を設計するための既存の手法は、典型的には漏れの両方の原因を考慮するのではなく、異なるタイプの漏れを別個に考慮する。
【0035】
高速の高忠実度量子ゲートの実現の別の主な障害物は、計算プロセスの量子ダイナミクスにおける未知の変動を引き起こす、不可避の量子ハードウェア制御ノイズである。量子ハードウェア制御ノイズは、量子ビット非調和性、量子ビット離調振幅、マイクロ波制御振幅、および/または量子ビット結合パルス振幅のうちの1つまたは複数から生じるノイズとして定義され得る。高速の高忠実度量子ゲートを実現するための制御シーケンスを設計するための既存の手法は、典型的にはそのようなランダム制御ノイズを考慮せず、したがって、現実的な実験的設定に直接適用することができない。代わりに、ランダムノイズに対する量子制御シーケンスのロバストネスの向上に向けた取り組みは、閉ループフィードバック制御最適化に集中している。これらの手法は、量子システムの頻繁な測定を必要とし、それによって、既存の量子コンピューティングアーキテクチャにおいて実現するには高価になり得る。代替的に、既存の開ループ最適化方法は、制御ヘシアン(control Hessian)の算出を必要とする制御曲率(control curvature)の解析によって、制御のロバストネスに対処し、マルチ量子ビット制御問題を解くためには扱いにくい。
【0036】
本明細書は、近々の量子コンピュータのための量子ゲート制御方式を設計するために、強化学習技法を適用するための方法およびシステムについて説明する。漏れエラーを最小限に抑えるために、強化学習モデルは、報酬関数として、完全な漏れエラー、非忠実度、および現実的な制御制約にペナルティを科す、ユニバーサル量子制御コスト関数(universal quantum control cost function)を適用する。ノイズに対する全体的な忠実度のロバストネスを提供するために、強化学習モデルは、制御振幅にランダムノイズを組み込む確率的トレーニング環境を含む。これらの方法およびシステムは、一般に任意の量子ゲートおよびマルチ量子ビットシステムに適用され得る。
【0037】
例示的な動作環境
図1は、量子制御軌跡を設計および実装するための例示的なシステム100を示す。例示的なシステム100は、それにおいて以下で説明するシステム、構成要素、および技法が実装され得る、1つまたは複数のロケーションにおける1つまたは複数の古典的コンピュータまたは量子コンピューティングデバイス上で、古典的または量子コンピュータプログラムとして実装されるシステムの一例である。
【0038】
システム100は、古典的プロセッサ104とデータ通信している量子ハードウェア102を含む。システム100は、古典的プロセッサ104および量子ハードウェア102を使用して、量子計算と組み合わせて古典的な計算を実行するように構成される。
【0039】
量子ハードウェア102は、1つまたは複数の量子ビット106を含む。量子ビット106は、初期状態において効率的に準備され、量子ゲートの適用を介して動作され得る、量子ビットを含み得る。量子ハードウェア102中に含まれた量子ビットの物理的な実現のタイプは、異なり得る。たとえば、いくつかの実装形態では、量子ハードウェア102は、超伝導量子ビット、たとえば、超伝導電荷量子ビット、超伝導磁束量子ビット、または超伝導相量子ビットを含み得る。他の実装形態では、量子ハードウェア102は、スピン、たとえば、電子スピン、核スピン、または原子スピンによって実現された量子ビットを含み得る。一般に、量子ビット106は、周波数同調可能であり得る。
【0040】
量子ハードウェア102は、量子ビット周波数制御ラインのセットを含み得、たとえば、その場合、各量子ビット周波数制御ラインが個々の量子ビットに対応する。量子ビット周波数制御ラインは、量子ビット106の周波数を制御し、たとえば、その場合、各量子ビット周波数制御ラインが、その対応する量子ビットの周波数を制御する。
【0041】
量子ハードウェア102は、1つまたは複数の励起駆動ラインを含み得る。便宜上、1つの駆動ライン、たとえば、駆動ライン108が図1に示されているが、いくつかの実装形態では、量子ハードウェアは、たとえば、1つの駆動ラインが量子ビット106の各々に対応する、複数の駆動ラインを含み得る。1つまたは複数の励起駆動ラインは、量子ビット106の励起制御を提供する。1つまたは複数の励起駆動ラインは、異なる周波数における異なる量子ゲートを用いて、励起パルス(本明細書では、制御パルスとも呼ぶ)、たとえば、制御パルス108を流すように構成され得る。各量子ビットは、1つまたは複数の励起駆動ライン上でこれらの周波数のほうへ、またはこれらの周波数から離れるように同調され得る。
【0042】
量子ハードウェア102は、結合器のセットを含み得る。結合器のセットにおける各結合器は、対応する量子ビットを励起駆動ラインに結合する。結合器は、任意のタイプの結合器、たとえば、容量結合器であり得る。容量結合を達成するために、マイクロ波ラインが、量子ビットキャパシタに隣接して走るようにされ得る。
【0043】
量子ハードウェア102は、量子ビット制御デバイス110を含む。制御デバイス110は、1つまたは複数の量子ビット106上で動作するように構成されたデバイスを含む。たとえば、制御デバイス110は、量子論理ゲートを実装するためのハードウェア、たとえば、1つまたは複数の励起駆動ライン上で流されることになる励起パルスを発生させる、制御パルス発生器112を含み得る。いくつかの実装形態では、制御パルス発生器112は、マイクロ波制御デバイスであり得る。加えて、制御デバイス110は、1つまたは複数の量子ビット106上で測定を実行するためのハードウェア、たとえば、発振器を含み得る。
【0044】
古典的プロセッサ104は、量子制御最適化手順を実行するように構成される。具体的には、古典的プロセッサ104は、それぞれの量子ゲートを実装するための制御パルスのシーケンスの制御軌跡を設計するように構成される。たとえば、古典的プロセッサ104は、特定のユニタリ量子ゲート、または複数のユニタリ量子ゲートのシーケンスを指定するデータ、たとえば、入力データ114を受信し得る。次いで、古典的プロセッサ104は、量子ビット制御デバイス110、たとえば、制御パルス発生器112によって発生され、量子ビット106のうちの1つまたは複数に適用され得る、制御軌跡を設計し得る。
【0045】
古典的プロセッサ104によって設計された制御軌跡は、ハードウェア制御ノイズに対してロバストでありながら、低減された漏れエラー、ゲート非忠実度、および総ゲート実行時間をもつ、任意のユニタリ量子ゲートを実装するために使用され得る。
【0046】
そのような制御軌跡を設計するために、古典的プロセッサ104は、量子ゲートを制御アクションのシーケンスとして表す。古典的プロセッサ104は、制御アクションのシーケンスにおける各制御アクションを反復的に調整して、量子ゲートを実装する、かつ反復調整の間に量子ゲートの漏れ、非忠実度、および総実行時間を低減する、量子制御軌跡を決定する、強化学習モデル118を含む。強化学習モデル118によって決定された量子制御軌跡を表すデータ、たとえば、出力データ116が、古典的プロセッサ104から量子ハードウェア102に送信され得る。例示的な強化学習モデルについては、図2Aおよび図2Bを参照しながら以下で詳細に説明する。量子ハードウェアを使用して、量子ゲートを実装するための量子制御軌跡を設計するための例示的なプロセスについては、図3図5を参照しながら以下で詳細に説明する。
【0047】
図2Aは、例示的な従来の強化学習モデル200の図である。例示的な従来の強化学習モデル200は、エージェント202と、エージェント202と対話するトレーニング環境204とを含む。トレーニング環境は、完全に観測可能な環境である。ステップのシーケンスにおける各ステップにおいて、エージェント202は、トレーニング環境204から観測206および報酬208を受信する。次いで、エージェント202は、受信された観測206および報酬208に基づいて、取るべき利用可能なアクションのセットから、適切なアクション210を選択する。
【0048】
エージェント202は、選択されたアクション210をトレーニング環境204に提供する。トレーニング環境204は、その状態を更新し、状態更新に関連付けられた報酬212を決定する。トレーニング環境は、アクション210を使用する、ステップのシーケンスにおける次のステップのために、後続の観測214とともに、決定された報酬212をエージェント202に与える。
【0049】
例示的な従来の強化学習モデル200は、ステップのシーケンスの最後に全体的な報酬を最大にする目的で、アクション、たとえば、アクション210を取るようにエージェント202に教えるために、強化学習技法を実行し-エージェント202は、各ステップにおいて報酬を受信しないか、または最大報酬を受信することがある。ほぼ最適に作動するために、エージェント202は、これの即時の報酬が負であり得る場合でも、そのアクションの長期的結果を判断しなければならない。エージェント202は、受信する報酬に基づいて、適切なアクションを取ることを学習し-監督者は存在しない。
【0050】
図2Bは、量子ゲート制御方式を設計するための例示的な強化学習モデル250の図である。例示的な強化学習モデル250は、トレーニング環境254とデータ通信しているエージェント252を含む。エージェント252は、方策ニューラルネットワーク253と、価値関数ニューラルネットワーク258とを含む。トレーニング環境254は、制御ノイズインテグレータ256と、時間依存ハミルトニアン発展ソルバ270とを含む。制御アクションのシーケンスが対応する量子ゲートを表す、制御アクションのシーケンスにおける各制御アクションについて、エージェント252は、量子状態を表すデータを受信する。データは、状態を定義する状態変数の値を表すデータを含み得る。エージェント252は、方策ニューラルネットワーク253および価値関数ニューラルネットワーク258を使用して、受信されたデータを処理する。
【0051】
方策ニューラルネットワーク253は、たとえば、1つまたは複数の完全に接続された層をもつ、ディープニューラルネットワークである。方策ニューラルネットワーク253は、量子状態を表す受信された入力を処理するように、および、ハミルトニアン制御の制御アクションを表すそれぞれの出力を生成するように構成される。すなわち、方策ニューラルネットワーク253は、量子制御軌跡を符号化し、従来の制御最適化技法が検出不可能であるランダム制御ノイズの下での最適な制御アクションの規則性を取り込む。そのような規則性は、より効率的な最適化を容易にし、また、古いターゲットから新しいターゲットへの転移学習も可能にすることが多い。
【0052】
エージェント252は、トレーニング環境254に、生成された制御アクション262を表すデータと、量子状態260を表す受信されたデータとを提供する。トレーニング環境254は、生成された制御アクション262を表すデータを、制御ノイズインテグレータ256に提供する。制御ノイズインテグレータ256は、ノイズをランダムにサンプリングし、ランダムにサンプリングされたノイズを、更新された量子状態260を表すデータを生成する時間依存ハミルトニアン発展ソルバに提供する。トレーニング環境254は、更新された量子状態260を表すデータを使用して、ユニバーサル量子制御コスト関数を更新する。更新された量子状態260を表すデータ、および更新された制御コスト関数264が、価値関数ニューラルネットワーク258と方策ニューラルネットワーク253の両方を更新するために、エージェント252に提供される。
【0053】
価値関数ニューラルネットワーク258は、受信された入力を処理して、割引将来報酬、たとえば、割引将来報酬266を表すそれぞれの出力を生成するように構成される。すなわち、価値関数ニューラルネットワーク258は、方策ニューラルネットワーク253の過剰適合を回避するために、および方策ニューラルネットワーク253上で最適化を実行するために、将来軌跡上のサンプリングを容易にするために、確率的環境との予測される将来対話を符号化する。
【0054】
ハードウェアのプログラミング
図3は、量子ハードウェアを使用して、量子ゲートを実装するための量子制御軌跡を設計するための例示的なプロセス300の流れ図である。便宜上、プロセス300について、1つまたは複数のロケーションに位置する1つまたは複数の古典的または量子コンピューティングデバイスのシステムによって実行されるものとして説明する。たとえば、本明細書に従って適切にプログラムされた図1のシステム100は、プロセス300を実行することができる。
【0055】
システムは、量子ゲートを制御アクションのシーケンスとして表す(ステップ302)。量子ゲートは、1つの量子ビット上で動作する単一の量子ビットゲート、または複数の量子ビット上で動作するマルチ量子ビットゲートであり得る。量子ゲートを制御アクションのシーケンスとして表すことは、量子ゲートをユニタリ変換のシーケンスとして表すことであって、ただし、ユニタリ変換のシーケンスにおける各要素が、それぞれの制御アクションによって決定される、ことを含む。例示的な制御アクションは、対応するユニタリ変換を実装するために、量子ハードウェアに適用され得るマイクロ波制御パルスを含む。
【0056】
システムは、制御アクションのシーケンスにおける制御アクションを反復的に調整して、量子ゲートを実装する、かつ反復調整の間に量子ゲートの漏れ、非忠実度、および総実行時間を低減する、量子制御軌跡を決定するために、強化学習モデルを適用する(ステップ304)。強化学習モデルを適用することは、方策勾配法を適用することを含み得る。例示的な強化学習モデルについては、図2Bを参照しながら上記で説明している。量子制御軌跡を決定するための強化学習モデルを適用する例示的な反復については、図4および図5を参照しながら以下で詳細に説明する。
【0057】
システムは、設計された量子制御軌跡を使用して、量子ゲートを実装する。
【0058】
図4は、量子制御軌跡を決定するための強化学習モデルを適用する例示的な反復400の流れ図である。便宜上、プロセス400について、1つまたは複数のロケーションに位置する1つまたは複数の古典的または量子コンピューティングデバイスのシステムによって実行されるものとして説明する。たとえば、本明細書に従って適切にプログラムされた図1のシステム100は、プロセス400を実行することができる。
【0059】
システムは、強化学習エージェントによって、量子ハードウェア中に含まれた量子システムの現在の状態に基づいて、反復のための制御アクションを決定する(ステップ402)。図1および図2を参照しながら上記で説明したように、いくつかの実装形態では、エージェントは、量子状態を表す入力を処理して、ステップ404を参照しながら以下で説明するように、量子状態を更新するために使用され得る、制御アクションを表す出力を生成するように構成される、方策ニューラルネットワーク(第1のニューラルネットワーク)を含み得る。これらの実装形態では、システムは、第1のニューラルネットワークへの入力として、量子システムの現在の状態を表すパラメータ値、たとえば、状態変数のベクトルを提供すること、および、第1のニューラルネットワークからの出力として、制御アクションを表すパラメータ値のベクトルを取得することによって、反復のための制御アクションを決定し得る。
【0060】
いくつかの実装形態では、第1のニューラルネットワークによって生成された出力は、エージェントによってサンプリングされると、制御アクションを定義する、制御アクションの各構成要素のための確率分布を表す値のベクトルを含み得る。制御アクションの例示的な構成要素には、システムハミルトニアン非調和性、モード結合強度、離調、またはマイクロ波パルス強度が含まれる。
【0061】
システムは、トレーニング環境によって、決定された制御アクションおよびサンプル制御ノイズを使用して、量子システムの現在の状態を量子システムの後続の状態に更新する(ステップ404)。量子システムの現在の状態を更新することについては、図5を参照しながら以下で詳細に説明する。
【0062】
システムは、量子システムの更新された状態を使用して、強化学習割引将来報酬関数としてトレーニング環境によって使用されたユニバーサル量子制御コスト関数を更新する。ユニバーサル制御コスト関数は、反復のための制御アクションによって決定されたユニタリ変換の形式においてペナルティ項を含み、量子システムの状態に依存する。そのようなペナルティ項は、量子システムの制御可能性の向上および量子ゲートの実装形態をシステムに提供する。
【0063】
量子情報が環境に失われることを引き起こす全漏れエラーを抑制するために、ユニバーサル量子制御コスト関数は、時間依存ハミルトニアン発展の間のコヒーレント量子ビット漏れとインコヒーレント量子ビット漏れの両方を表す、量子ビット漏れ(qubit leakage)ペナルティ項LTSWTLBを含む。
【0064】
各ハミルトニアン発展の開始および終了において、計算基底における量子ビットを好都合に準備および測定するために、量子ビット計算部分空間内の時間依存ハミルトニアン結合を表す項、およびより高いエネルギー部分空間との量子ビット計算部分空間の制御パルス結合を表す項が、両方の境界において消失することが必要とされる。そのような制御制約は、総コスト関数に境界制御制約ペナルティ項を追加することによって実施され得る。たとえば、gmonハミルトニアンの場合には、システムは、ユニバーサル量子制御コスト関数を、境界制御制約ペナルティ項[δ(t)2|t=0.T+f(t)2|t=0.T]を含むものとして定義し得る。
【0065】
総ユニタリ量子ゲート実行時間Tを低減すること-近々の量子デバイスのための望ましい性質-のために、ユニバーサル量子制御コスト関数は、総実行時間ペナルティ項をさらに含み得る。
【0066】
ユニタリ変換U(T)の非忠実度-その最大値1からの実際のユニタリ変換の忠実度の間の差-を低減するために、ユニバーサル量子制御コスト関数は、忠実度ペナルティ項1-F(U(T))をさらに含み得る。
【0067】
gmonハミルトニアンのための例示的なユニバーサル量子コスト関数が、以下で式(1)において与えられる。
C(α,β,γ,κ)=α[1-F(U(T))]+βLTSMTLB+γ[δ(t)2|t=0.T+f(t)2|t=0.T]+κT (1)
【0068】
式(1)では、1-F(U(T))は、
【0069】
【数1】
【0070】
によって与えられる忠実度をもつ非忠実度ペナルティ項を表し、ただし、U(T)はユニタリ変換を表し、Utargetは、たとえば、漏れエラーまたは制御ノイズの不在下でのユニタリ変換の所期のアクションを表す。
【0071】
式(1)では、LTSMTLBは、量子ビット漏れペナルティ項を表し、
【0072】
【数2】
【0073】
によって与えられ、ただし、Tは総ゲート実行時間を表し、Δは、2つの最低エネルギー固有状態の間のエネルギーギャップを表し、
【0074】
【数3】
【0075】
は、所与の次数まで抑制された直接結合漏れエラーをもつ量子システムのための有効ハミルトニアンのブロック非対角成分(block-off-diagonal component)を表す。
【0076】
漏れペナルティ項は、一般化された時間依存Schrieffer-Wolff変換(TSWT:time-dependent Schrieffer-Wolff transformation)の展開を通して公式化される。漏れ限界(leakage bound)は、時間依存ハミルトニアン発展の全体にわたって、共振オン(on-resonant)結合と共振オフ(off-resonant)結合の両方によって引き起こされる直接結合(コヒーレント)漏れエラーと非断熱(インコヒーレント)漏れエラーの両方に上限を設けながら、計算部分空間と望ましくないより高いエネルギー部分空間との間の有益な仮想遷移を活用する。
【0077】
漏れ限界を導出するために、一般時間依存Schrieffer-Wolff変換(TSWT)が公式化され、その解が、任意の所与の次数、たとえば、2次まで与えられる。一般化されたTSWTは、直接結合漏れエラーが所与の次数に抑制される、より高次元の部分空間においてサポートされる、回転された基底を提供する。この回転された基底は、好都合な状態初期化および読出しを可能にするために、量子制御手順の開始および終了において、量子ビット基底と一致する。直接結合漏れに対応する第1の漏れ限界は、一般化されたTSWTを使用して公式化される。
【0078】
第2の漏れ限界は、純粋状態からエネルギー部分空間までの断熱定理の一般化を通して公式化される。これによって、時間依存ハミルトニアン発展が、異なる部分空間内とその間の両方で発生することが可能になる。一般化された断熱定理は、汎用時間依存ハミルトニアン発展の間のTSWT基底における非断熱(インコヒーレント)漏れエラーの上限を設ける。
【0079】
直接結合漏れエラーが共振オフ周波数成分で占められ、非断熱漏れエラーが共振オン周波数成分で占められるので、第1の漏れ限界および第2の漏れ限界が、ユニバーサルコスト関数漏れペナルティ項において結合されて、共振オフ漏れ寄与と共振オン漏れ寄与の両方によって引き起こされる漏れエラーのすべての原因に対して上限が設けられ得る。
【0080】
式(1)では、[δ(t)2|t=0.T+f(t)2|t=0.T]は、制御制約ペナルティ項を表し、δが離調を表し、fがマイクロ波パルス強度を表す。
【0081】
式(1)では、Tは総ゲート実行時間を表し、αは、ゲート非忠実度にペナルティを科し、βは、漏れ限界からの漏れエラーのすべての原因にペナルティLTSMTLBを科し、γは、ゼロ値境界制約の違反にペナルティを科し、κはゲート時間にペナルティを科す。
【0082】
システムは、強化学習エージェントによって、i)更新されたユニバーサル制御コスト関数、およびii)ステップ404を参照しながら説明したような量子システムの更新された状態を使用して、割引将来報酬を決定する(ステップ406)。割引将来報酬を決定することは、更新されたユニバーサル制御コスト関数に基づいて、制御アクションのシーケンスにおける将来の位置のための重み付けされたユニバーサル制御コスト関数の和を評価することを含む。たとえば、N回の反復のシーケンスのうちのn番目の反復について、システムは、制御アクションのシーケンスの位置n+1、n+2、...、Nのための重み付けされたユニバーサル制御コスト関数の和を評価することによって、割引将来報酬を決定する。割引将来報酬は、強化学習エージェントによって決定された制御アクションのための予測される総制御コスト、すなわち、現在のステップnまでのユニタリ変換の部分的シーケンスの忠実度を示す測定値、およびその将来の予測を提供する。
【0083】
システムは、エージェントによって、および決定された割引将来報酬に基づいて、反復のための1つまたは複数の制御軌跡パラメータの値を調整する(ステップ408)。エージェントが、方策ニューラルネットワークを含む場合には、反復のための1つまたは複数の制御軌跡パラメータの値を調整することは、決定された割引将来報酬に基づいて、方策ニューラルネットワークのパラメータを調整することによって、方策ニューラルネットワークを調整することを含む。このことは、方策勾配法を適用することを含み得る。たとえば、このことは、決定された割引将来報酬によって定義された学習率とともに、勾配降下法を適用することを含み得る。次いで、反復のための調整された制御アクションが、調整された方策ニューラルネットワークによって決定され得る。次いで、システムは、反復のための調整された制御アクションに基づいて、制御軌跡パラメータを調整する。
【0084】
システムはまた、各反復において価値関数ニューラルネットワーク(第2のニューラルネットワーク)を調整し得、すなわち、強化学習モデルを適用することは、各反復において、方策ニューラルネットワークと価値関数ニューラルネットワークの両方をトレーニングすることを含み得る。このことは、エージェントから、および異なる可能な制御軌跡から、i)異なる制御軌跡の下の量子状態の完全なシーケンス、およびii)異なる制御軌跡のためのユニバーサル制御コスト関数値の完全なシーケンスをサンプリングすることによって達成され得る。次いで、システムは、サンプリングされた量子状態およびユニバーサル制御コスト関数値に対応する、サンプリングされた割引将来報酬を決定し得る。次いで、システムは、サンプリングされた割引将来報酬に第2のニューラルネットワークを適合させ、割引将来報酬を符号化する、第2のニューラルネットワークによって決定された学習率とともに、サンプリングから推定された勾配に従って、第1のニューラルネットワークを適合させ得る。
【0085】
決定された割引将来報酬を使用して、強化学習エージェントをトレーニングすることによって、エージェントは、低減された漏れ、非忠実度、および総実行時間をもつ量子ゲートを実装するために使用され得る量子制御軌跡、すなわち、最適量子制御軌跡を生じる制御アクションを出力することに対して、報酬を受けることができる。プロセス400を複数回繰り返すことによって、強化学習エージェントは、出力する制御アクションを向上させ、すなわち、割引将来報酬を増加させる制御アクションを生成し得る。
【0086】
いくつかの実装形態では、プロセス400は、エージェントパラメータの調整された値があらかじめ定義された制限内に収束するまで、繰り返され得る。すなわち、各反復は、強化エージェントパラメータを、初期値、たとえば、ランダムに初期化された値からトレーニングされた値に調整するために、繰り返され得る。エージェントパラメータがあらかじめ定義された制限内に収束するか否かを決定することは、量子軌跡の設計に関連付けられた満足条件、たとえば、ゲートの忠実度がしきい値に達し、ユニバーサル制御コスト関数を参照しながら上記で説明した境界制約が、あらかじめ定義された精度内であるときに基づいて、トレーニング環境によって実行され得る。
【0087】
図5は、決定された制御アクションおよびサンプル制御ノイズを使用して、量子システムの現在の状態を更新するための例示的なプロセス500の流れ図である。便宜上、プロセス500について、1つまたは複数のロケーションに位置する1つまたは複数の古典的または量子コンピューティングデバイスのシステムによって実行されるものとして説明する。たとえば、本明細書に従って適切にプログラムされた図1のシステム100は、プロセス500を実行することができる。
【0088】
システムは、ランダムにサンプリングされた量子ハードウェアノイズδに基づいて、制御アクションを表すパラメータ値のベクトル
【0089】
【数4】
【0090】
を調整する(ステップ502)。たとえば、システムは、あらかじめ決定された分散をもつゼロ平均ガウス分布に従って、異なる制御振幅のための振幅変動をサンプリングすることによって、制御ノイズをランダムにサンプリングし得る。次いで、システムは、パラメータ値のベクトルの各エントリに、ランダムにサンプリングされた制御ノイズを追加し得る。
【0091】
たとえば、回転波近似における以下のハミルトニアン
【0092】
【数5】
【0093】
によって与えられるように、2つの対話するgmon回路を含む量子システムでは、システムは、ある離散化された時間ステップtkについて、0.1~3.5Mhzの分散の範囲のゼロ平均ガウス分布からサンプリングされた振幅変動を、制御振幅に追加することη→η+δη、g(tk)→g(tk)+δg(tk)、δj(tk)→δj(tk)+δδj(tk)、fj(tk)→fj(tk)+δfj(tk)によって、制御アクションを表すパラメータ値のベクトルを調整し得、ただし、ηは非調和性を表し、gは2モード結合を表し、δjは離調を表し、fjはマイクロ波パルス強度を表す。
【0094】
システムは、調整されたパラメータ値のベクトルを使用して、現在の制御アクションを実現する、時間依存ハミルトニアン発展を解く(ステップ504)。このことは、調整されたパラメータ値のベクトルを使用して、シュレディンガー方程式を評価すること、たとえば、
【0095】
【数6】
【0096】
を評価することを含み得、ただし、Unは、量子システムの現在の状態を表す。
【0097】
システムは、解かれた時間依存ハミルトニアン発展を使用して、量子システムの状態を更新する(ステップ506)。すなわち、システムは、
【0098】
【数7】
【0099】
を設定する。次いで、更新された量子状態Un+1が、図4を参照しながら上記で説明したように、処理のためにエージェント中に含まれた価値関数ニューラルネットワーク(第2のニューラルネットワーク)に提供され得る。
【0100】
本明細書で説明するデジタルおよび/または量子の主題、ならびにデジタル機能的動作および量子演算の実装形態は、本明細書で開示する構造およびそれらの構造的均等物を含む、デジタル電子回路、好適な量子回路、またはより一般には量子計算システムにおいて、有形に実施されたデジタルおよび/または量子コンピュータソフトウェアまたはファームウェアにおいて、デジタルおよび/または量子コンピュータハードウェアにおいて、あるいはそれらのうちの1つまたは複数の組合せにおいて実装され得る。「量子計算システム」という用語は、限定はしないが、量子コンピュータ、量子情報処理システム、量子暗号システム、または量子シミュレータを含み得る。
【0101】
本明細書で説明するデジタルおよび/または量子の主題の実装形態は、1つまたは複数のデジタルおよび/または量子コンピュータプログラム、すなわち、データ処理装置による実行のために、またはデータ処理装置の動作を制御するために、有形の非一時的記憶媒体上に符号化されたデジタルおよび/または量子コンピュータプログラム命令の1つまたは複数のモジュールとして実装され得る。デジタルおよび/または量子コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムもしくは順次アクセスメモリデバイス、1つもしくは複数の量子ビット、またはそれらのうちの1つもしくは複数の組合せであり得る。代替または追加として、プログラム命令は、デジタルおよび/または量子情報を符号化することが可能である、人工的に生成された伝搬信号、たとえば、データ処理装置による実行のために好適な受信機装置に送信するためのデジタルおよび/または量子情報を符号化するために生成される、機械により生成された電気信号、光信号、または電磁信号上で符号化され得る。
【0102】
量子情報および量子データという用語は、量子システムによって搬送されるか、量子システムにおいて保持または記憶される情報またはデータを指し、そこで、最小の非自明なシステムが量子ビット、すなわち、量子情報の単位を定義するシステムである。「量子ビット」という用語は、対応する文脈において二準位系として好適に近似され得る、すべての量子システムを包含することは理解されよう。そのような量子システムは、たとえば、2つ以上の準位をもつ、多準位系を含み得る。例として、そのようなシステムは、原子、電子、光子、イオン、または超伝導量子ビットを含み得る。多数の実装形態では、計算基底状態は、基底状態および第1の励起状態を用いて識別されるが、計算状態がより高い準位の励起状態を用いて識別される、他のセットアップが可能であることは理解されよう。「データ処理装置」という用語は、デジタルおよび/または量子データ処理ハードウェアを指し、例として、プログラマブルデジタルプロセッサ、プログラマブル量子プロセッサ、デジタルコンピュータ、量子コンピュータ、複数のデジタルおよび量子プロセッサまたはコンピュータ、ならびにそれらの組合せを含む、デジタルおよび/または量子データを処理するためのすべての種類の装置、デバイス、および機械を包含する。装置はまた、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)、ASIC(特定用途向け集積回路)、または量子シミュレータ、すなわち、特定の量子システムについての情報をシミュレートもしくは作成するように設計される量子データ処理装置であり得るか、またはそれをさらに含み得る。具体的には、量子シミュレータは、ユニバーサル量子計算を実行するための能力を有していない専用量子コンピュータである。装置は、場合によっては、ハードウェアに加えて、デジタルおよび/または量子コンピュータプログラムのための実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つもしくは複数の組合せを構成するコードを含み得る。
【0103】
プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードと呼ばれることもあるか、またはそのように説明されることもある、デジタルコンピュータプログラムは、コンパイラ型言語もしくはインタープリタ型言語、または宣言型言語もしくは手続き型言語を含む、任意の形式のプログラミング言語において記述され得、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはデジタルコンピューティング環境において使用するのに好適な他のユニットとして、を含む、任意の形態において展開され得る。プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードと呼ばれることもあるか、またはそのように説明されることもある、量子コンピュータプログラムは、コンパイラ型言語もしくはインタープリタ型言語、または宣言型言語もしくは手続き型言語を含む、任意の形式のプログラミング言語において記述され得、好適な量子プログラミング言語に変換されるか、または、量子プログラミング言語、たとえば、QCLもしくはQuipperにおいて記述され得る。
【0104】
デジタルおよび/または量子コンピュータプログラムは、ファイルシステムにおけるファイルに対応し得るが、そうである必要はない。プログラムは、他のプログラムもしくはデータ、たとえば、マークアップ言語文書中に記憶された1つもしくは複数のスクリプトを保持するファイルの一部分において、問題のプログラム専用の単一のファイルにおいて、または、複数の協調されたファイル、たとえば、1つもしくは複数のモジュール、サブプログラム、もしくはコードの部分を記憶するファイルにおいて記憶され得る。デジタルおよび/または量子コンピュータプログラムは、1つのデジタルまたは1つの量子コンピュータ上で、あるいは1つのサイトに位置するか、または複数のサイトにわたって分散され、デジタルおよび/もしくは量子データ通信ネットワークによって相互接続される、複数のデジタルおよび/または量子コンピュータ上で実行されるように展開され得る。量子データ通信ネットワークは、量子システム、たとえば、量子ビットを使用して、量子データを送信し得るネットワークであると理解される。一般に、デジタルデータ通信ネットワークは、量子データを送信することができないが、量子データ通信ネットワークは、量子データとデジタルデータの両方を送信し得る。
【0105】
本明細書で説明するプロセスおよび論理フローは、1つまたは複数のデジタルおよび/または量子プロセッサとともに動作する、1つまたは複数のプログラマブルなデジタルおよび/または量子コンピュータが、適宜、入力デジタルおよび量子データにおいて動作すること、ならびに出力を生成することによって、機能を実行するために、1つまたは複数のデジタルおよび/または量子コンピュータプログラムを実行することによって実行され得る。プロセスおよび論理フローは、専用論理回路、たとえば、FPGAもしくはASIC、または量子シミュレータとして、あるいは、専用論理回路または量子シミュレータと、1つまたは複数のプログラムされたデジタルおよび/または量子コンピュータとの組合せによっても実行され得、装置は、それらとしても実装され得る。
【0106】
1つまたは複数のデジタルおよび/または量子コンピュータのシステムが、特定の動作またはアクションを実行する「ように構成される」ことは、システムが、動作中に動作またはアクションをシステムに実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せをインストールしていることを意味する。1つまたは複数のデジタルおよび/または量子コンピュータプログラムが、特定の動作またはアクションを実行するように構成されることは、1つまたは複数のプログラムが、デジタルおよび/または量子データ処理装置によって実行されると、動作またはアクションを装置に実行させる命令を含むことを意味する。量子コンピュータは、量子コンピューティング装置によって実行されると、動作またはアクションを装置に実行させる、デジタルコンピュータからの命令を受信し得る。
【0107】
デジタルおよび/または量子コンピュータプログラムの実行に好適なデジタルおよび/または量子コンピュータは、汎用もしくは専用のデジタルおよび/もしくは量子プロセッサ、または両方、あるいは任意の他の種類の中央デジタルおよび/または量子処理ユニットに基づき得る。一般に、中央デジタルおよび/または量子処理ユニットは、読取り専用メモリ、ランダムアクセスメモリ、もしくは、量子データ、たとえば、光子を送信するのに好適な量子システム、またはそれらの組合せから、命令ならびにデジタルおよび/または量子データを受信することになる。
【0108】
デジタルおよび/または量子コンピュータの本質的な要素は、命令を実施または実行するための中央処理ユニットと、命令ならびにデジタルおよび/または量子データを記憶するための1つまたは複数のメモリデバイスとである。中央処理ユニットおよびメモリは、専用論理回路もしくは量子シミュレータによって補足されるか、または専用論理回路もしくは量子シミュレータ中に組み込まれ得る。一般に、デジタルおよび/または量子コンピュータはまた、デジタルおよび/または量子データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気ディスク、光磁気ディスク、光ディスク、または量子情報を記憶するのに好適な量子システムを含むか、あるいはそれからデジタルおよび/もしくは量子データを受信するため、またはそれにデジタルおよび/もしくは量子データを転送するため、またはその両方のために動作可能に結合されることになる。ただし、デジタルおよび/または量子コンピュータは、そのようなデバイスを有する必要はない。
【0109】
デジタルおよび/または量子コンピュータプログラム命令、ならびにデジタルおよび/または量子データを記憶するのに好適な、デジタルおよび/または量子コンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、CD-ROMおよびDVD-ROMディスク、ならびに量子システム、たとえば、トラップ原子または電子を含む、すべての形態の不揮発性デジタルおよび/または量子メモリ、媒体、およびメモリデバイスを含む。量子メモリは、量子データを高い忠実度および効率で長期間にわたって記憶することができるデバイス、たとえば、光が送信のために使用され、物質が重ね合わせまたは量子コヒーレンスなど、量子データの量子特徴を記憶し、保存するために使用される、光-物質インターフェースであることが理解されよう。
【0110】
本明細書で説明する様々なシステム、またはそれらの一部の制御は、1つまたは複数の非一時的機械可読記憶媒体上に記憶され、1つまたは複数のデジタルおよび/または量子処理デバイス上で実行可能である命令を含む、デジタルおよび/または量子コンピュータプログラム製品において実装され得る。本明細書で説明するシステム、またはそれらの一部は、それぞれ、1つまたは複数のデジタルおよび/または量子処理デバイスと、本明細書で説明する動作を実行するための実行可能命令を記憶するためのメモリとを含み得る、装置、方法、またはシステムとして実装され得る。
【0111】
本明細書は、多数の特定の実装詳細を含むが、これらは、請求され得るものの範囲の限定として解釈されるべきではなく、むしろ、特定の実装形態に固有であり得る特徴の説明として解釈されるべきである。別個の実装形態との関連で本明細書で説明するいくつかの特徴はまた、単一の実装形態において組み合わせて実装され得る。逆に、単一の実装形態との関連で説明する様々な特徴もまた、複数の実装形態において別個に、または任意の好適な部分組合せにおいて実装され得る。その上、特徴は、いくつかの組合せにおいて作用するとして上記で説明されることがあり、最初にそのようなものとして請求されることさえあるが、請求される組合せからの1つまたは複数の特徴は、場合によっては、その組合せから削除され得、請求される組合せは、部分組合せ、または部分組合せの変形形態を対象とし得る。
【0112】
同様に、動作は、特定の順序で図面において図示されるが、これは、望ましい結果を達成するために、そのような動作が図示された特定の順序で、もしくは順番に実行されること、またはすべての図示された動作が実行されることを必要とするものとして理解されるべきではない。いくつかの状況では、マルチタスキングおよび並列処理が有利であり得る。その上、上記で説明した実装形態における様々なシステムモジュールおよび構成要素の分離は、すべての実装形態においてそのような分離を必要とするものとして理解されるべきではなく、説明したプログラム構成要素およびシステムは、一般に単一のソフトウェア製品にともに統合され得るか、または、複数のソフトウェア製品にパッケージ化され得ることを理解されたい。
【0113】
主題の特定の実装形態について説明した。他の実装形態は、以下の特許請求の範囲の範囲内である。たとえば、特許請求の範囲に記載されているアクションは、異なる順序で実行され、なお、望ましい結果を達成することが可能である。一例として、添付の図面に図示されたプロセスは、望ましい結果を達成するために、必ずしも図示された特定の順序、または順番を必要とするとは限らない。場合によっては、マルチタスキングおよび並列処理が有利であり得る。
【符号の説明】
【0114】
100 例示的なシステム、システム
102 量子ハードウェア
104 古典的プロセッサ
106 量子ビット
108 駆動ライン、制御パルス
110 量子ビット制御デバイス、制御デバイス
112 制御パルス発生器
114 入力データ
116 出力データ
118 強化学習モデル
200 例示的な従来の強化学習モデル
202、252 エージェント
204、254 トレーニング環境
206、214 観測
208、212 報酬
210 アクション
250 例示的な強化学習モデル
253 方策ニューラルネットワーク(第1のニューラルネットワーク)
256 制御ノイズインテグレータ
258 価値関数ニューラルネットワーク(第2のニューラルネットワーク)
260 量子状態、更新された量子状態
262 生成された制御アクション
264 更新された制御コスト関数
266 割引将来報酬
270 時間依存ハミルトニアン発展ソルバ
図1
図2A
図2B
図3
図4
図5