IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ディープマインド テクノロジーズ リミテッドの特許一覧

特表2024-529851ニューラルネットワークを使用した磁気閉じ込めデバイスの磁場の制御
<>
  • 特表-ニューラルネットワークを使用した磁気閉じ込めデバイスの磁場の制御 図1
  • 特表-ニューラルネットワークを使用した磁気閉じ込めデバイスの磁場の制御 図2
  • 特表-ニューラルネットワークを使用した磁気閉じ込めデバイスの磁場の制御 図3
  • 特表-ニューラルネットワークを使用した磁気閉じ込めデバイスの磁場の制御 図4
  • 特表-ニューラルネットワークを使用した磁気閉じ込めデバイスの磁場の制御 図5
  • 特表-ニューラルネットワークを使用した磁気閉じ込めデバイスの磁場の制御 図6
  • 特表-ニューラルネットワークを使用した磁気閉じ込めデバイスの磁場の制御 図7A
  • 特表-ニューラルネットワークを使用した磁気閉じ込めデバイスの磁場の制御 図7B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-14
(54)【発明の名称】ニューラルネットワークを使用した磁気閉じ込めデバイスの磁場の制御
(51)【国際特許分類】
   G21B 1/05 20060101AFI20240806BHJP
   G06N 3/092 20230101ALI20240806BHJP
   H05H 1/04 20060101ALI20240806BHJP
【FI】
G21B1/05
G06N3/092
H05H1/04
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024500372
(86)(22)【出願日】2022-07-08
(85)【翻訳文提出日】2024-01-30
(86)【国際出願番号】 EP2022069047
(87)【国際公開番号】W WO2023281048
(87)【国際公開日】2023-01-12
(31)【優先権主張番号】63/219,601
(32)【優先日】2021-07-08
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】517030789
【氏名又は名称】ディープマインド テクノロジーズ リミテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ジョナス・デグレーヴ
(72)【発明者】
【氏名】フェデリコ・アルベルト・アルフレード・フェリーチ
(72)【発明者】
【氏名】ヨーナス・ブフリ
(72)【発明者】
【氏名】ミヒャエル・ペーター・ノイネルト
(72)【発明者】
【氏名】ブレンダン・ダニエル・トレイシー
(72)【発明者】
【氏名】フランチェスコ・カルパネーゼ
(72)【発明者】
【氏名】ティモ・ヴィクター・エワルズ
(72)【発明者】
【氏名】ローラント・ハフナー
(72)【発明者】
【氏名】マルティン・リードミラー
【テーマコード(参考)】
2G084
【Fターム(参考)】
2G084AA21
2G084FF27
2G084HH02
2G084HH53
(57)【要約】
磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるための磁場を制御するための制御信号を生成するための、コンピュータストレージ媒体に符号化されたコンピュータプログラムを含む方法、システム、および装置。方法のうちの1つは、複数の時間ステップの各々に関して、磁気閉じ込めデバイスのチャンバ内のプラズマの現在の状態を特徴付ける観測結果を取得するステップと、磁気閉じ込めデバイスの磁場を制御するための制御信号を特徴付ける磁気制御出力を生成するために、プラズマ閉じ込めニューラルネットワークを使用して、観測結果を含む入力を処理するステップと、磁気制御出力に基づいて、磁気閉じ込めデバイスの磁場を制御するための制御信号を生成するステップとを含む。
【特許請求の範囲】
【請求項1】
磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるための磁場を制御するための制御信号を生成するために1つまたは複数のデータ処理装置によって実行される方法であって、複数の時間ステップの各々において、
前記磁気閉じ込めデバイスの前記チャンバ内の前記プラズマの現在の状態を特徴付ける観測結果を取得するステップと、
プラズマ閉じ込めニューラルネットワークを使用して、前記磁気閉じ込めデバイスの前記チャンバ内の前記プラズマの前記現在の状態を特徴付ける前記観測結果を含む入力を処理するステップであって、前記プラズマ閉じ込めニューラルネットワークが、複数のネットワークパラメータを有し、前記磁気閉じ込めデバイスの前記磁場を制御するための制御信号を特徴付ける磁気制御出力を生成するために前記ネットワークパラメータに従って前記観測結果を含む前記入力を処理するように構成される、ステップと、
前記磁気制御出力に基づいて、前記磁気閉じ込めデバイスの前記磁場を制御するための前記制御信号を生成するステップとを含む、方法。
【請求項2】
前記磁気制御出力が、前記磁気閉じ込めデバイスの複数の制御コイルの各々に印加されるそれぞれの電圧を特徴付ける、請求項1に記載の方法。
【請求項3】
前記磁気制御出力が、前記磁気閉じ込めデバイスの前記複数の制御コイルの各々に関して、前記制御コイルに印加され得る可能な電圧のセット上のそれぞれのスコア分布を定義する、請求項2に記載の方法。
【請求項4】
前記磁気制御出力に基づいて前記磁気閉じ込めデバイスの前記磁場を制御するための制御信号を生成するステップが、前記磁気閉じ込めデバイスの前記複数の制御コイルの各々に関して、
前記制御コイルに印加され得る可能な電圧の前記セット上の前記それぞれのスコア分布から電圧を選択するステップと、
サンプリングされた電圧を前記制御コイルに印加させるための制御信号を生成するステップとを含む、請求項3に記載の方法。
【請求項5】
前記複数の時間ステップの各々に関して、(i)前記プラズマの前記現在の状態と、(ii)前記プラズマの目標状態との間の誤差を特徴付ける前記時間ステップの報酬を決定するステップと、
強化学習技術を使用して、前記報酬で前記プラズマ閉じ込めニューラルネットワークのニューラルネットワークパラメータを訓練するステップとをさらに含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記複数の時間ステップのうちの1つまたは複数に関して、前記時間ステップの前記報酬を決定するステップが、
前記プラズマを特徴付ける1つまたは複数のプラズマの特徴の各々に関して、(i)前記時間ステップにおける前記プラズマの特徴の現在の値と、(ii)前記時間ステップにおける前記プラズマの特徴の目標値との間の差を測定するそれぞれの誤差を決定するステップと、
前記時間ステップにおける前記1つまたは複数のプラズマの特徴の各々に対応する前記それぞれの誤差に少なくとも部分的に基づいて前記時間ステップの前記報酬を決定するステップとを含む、請求項5に記載の方法。
【請求項7】
前記複数の時間ステップのうちの1つまたは複数に関して、前記時間ステップにおける前記プラズマの特徴の各々に対応する前記それぞれの誤差に基づいて前記時間ステップの前記報酬を決定するステップが、
前記時間ステップにおける前記プラズマの特徴に対応する前記それぞれの誤差の重み付き線形結合として前記時間ステップの前記報酬を決定するステップを含む、請求項6に記載の方法。
【請求項8】
前記プラズマの特徴のうちの1つまたは複数の各々のそれぞれの目標値が、時間ステップ間で変化する、請求項6または7に記載の方法。
【請求項9】
前記複数の時間ステップの各々において、前記プラズマ閉じ込めニューラルネットワークへの前記入力が、前記時間ステップの前記観測結果に加えて、前記時間ステップにおける前記プラズマの特徴の各々のそれぞれの目標値を定義するデータを含む、請求項6から8のいずれか一項に記載の方法。
【請求項10】
前記プラズマの特徴が、前記プラズマの安定性、前記プラズマのプラズマ電流、前記プラズマの形状、前記プラズマの位置、前記プラズマの面積、前記プラズマのドメインの数、プラズマのドロップレット間の距離、前記プラズマの伸長、プラズマ中心の半径方向位置、前記プラズマの半径、前記プラズマの三角度、または前記プラズマの限界点のうちの1つまたは複数を含む、請求項6から9のいずれか一項に記載の方法。
【請求項11】
前記複数の時間ステップのうちの1つまたは複数に関して、前記時間ステップの前記報酬を決定するステップが、
前記磁気閉じ込めデバイスの現在の状態を特徴付ける1つまたは複数のデバイスの特徴の各々のそれぞれの現在の値を決定するステップと、
前記時間ステップにおける前記1つまたは複数のデバイスの特徴の前記それぞれの現在の値に少なくとも部分的に基づいて前記時間ステップの前記報酬を決定するステップとを含む、請求項5から10のいずれか一項に記載の方法。
【請求項12】
前記デバイスの特徴が、前記磁気閉じ込めデバイスの前記チャンバ内のX点の数、前記磁気閉じ込めデバイスの1つもしくは複数の制御コイルの各々のそれぞれの電流、または前記磁気閉じ込めデバイスの前記チャンバ内のX点の前記数と、前記磁気閉じ込めデバイスの前記1つもしくは複数の制御コイルの各々の前記それぞれの電流との両方を含む、請求項11に記載の方法。
【請求項13】
前記磁気閉じ込めデバイスが、磁気閉じ込めデバイスのシミュレーションであり、前記方法が、前記複数の時間ステップの最後の時間ステップにおいて、
前記磁気閉じ込めデバイスの物理的な実行可能性の制約が前記時間ステップにおいて破られると判定するステップと、
前記磁気閉じ込めデバイスの前記物理的な実行可能性の制約が前記時間ステップにおいて破られるとの判定に応答して、前記磁気閉じ込めデバイスの前記シミュレーションを終了するステップとをさらに含む、請求項1から12のいずれか一項に記載の方法。
【請求項14】
前記磁気閉じ込めデバイスの前記物理的な実行可能性の制約が前記時間ステップにおいて破られると判定するステップが、前記時間ステップにおける前記プラズマの密度が閾値を満たさないと判定するステップ、前記時間ステップにおける前記プラズマのプラズマ電流が閾値を満たさないと判定するステップ、または前記制御コイルのうちの1つもしくは複数の各々のそれぞれの電流が閾値を満たさないと判定するステップのうちの1つまたは複数を含む、請求項13に記載の方法。
【請求項15】
前記強化学習技術が、アクター・クリティック強化学習技術であり、前記報酬で前記プラズマ閉じ込めニューラルネットワークの前記ネットワークパラメータを訓練するステップが、
前記アクター・クリティック強化学習技術を使用して前記報酬で前記プラズマ閉じ込めニューラルネットワークおよびクリティックニューラルネットワークを共同で訓練するステップであって、前記クリティックニューラルネットワークが、時間ステップの後に受け取られると予測される報酬の累積的な尺度を特徴付ける出力を生成するために、前記時間ステップのクリティック観測結果を含む入力を処理するように構成される、ステップを含む、請求項5から14のいずれか一項に記載の方法。
【請求項16】
前記アクター・クリティック強化学習技術が、最大事後方策最適化(MPO)技術である、請求項15に記載の方法。
【請求項17】
前記アクター・クリティック強化学習技術が、分散型アクター・クリティック強化学習技術である、請求項15または16に記載の方法。
【請求項18】
前記プラズマ閉じ込めニューラルネットワークが、出力を生成するために前記クリティックニューラルネットワークによって必要とされるよりも少ない計算リソースを使用して出力を生成する、請求項15から17のいずれか一項に記載の方法。
【請求項19】
前記プラズマ閉じ込めニューラルネットワークが、出力を生成するために前記クリティックニューラルネットワークによって必要とされるよりも低いレイテンシで出力を生成する、請求項15から18のいずれか一項に記載の方法。
【請求項20】
前記プラズマ閉じ込めニューラルネットワークが、前記クリティックニューラルネットワークよりも少ないネットワークパラメータを有する、請求項15から19のいずれか一項に記載の方法。
【請求項21】
前記プラズマ閉じ込めニューラルネットワークが、順伝播型ニューラルネットワークであり、前記クリティックニューラルネットワークが、リカレントニューラルネットワークである、請求項15から20のいずれか一項に記載の方法。
【請求項22】
前記クリティックニューラルネットワークが、前記プラズマ閉じ込めニューラルネットワークによって処理される観測結果よりも高い次元を有し、より多くのデータを含むクリティック観測結果を処理するように構成される、請求項15から21のいずれか一項に記載の方法。
【請求項23】
前記複数の時間ステップの各々において、前記磁気閉じ込めデバイスの前記チャンバ内の前記プラズマの前記現在の状態を特徴付ける前記観測結果が、1つもしくは複数のワイヤーループの各々から取得されたそれぞれの磁束測定値、1つもしくは複数の磁場プローブの各々から取得されたそれぞれの磁場測定値、または前記磁気閉じ込めデバイスの1つもしくは複数の制御コイルの各々からのそれぞれの電流測定値のうちの1つまたは複数を含む、請求項1から22のいずれか一項に記載の方法。
【請求項24】
前記磁気閉じ込めデバイスが、シミュレーションされた磁気閉じ込めデバイスである、請求項1から23のいずれか一項に記載の方法。
【請求項25】
前記プラズマ閉じ込めニューラルネットワークを使用して前記シミュレーションされた磁気閉じ込めデバイスを制御することに基づいて前記プラズマ閉じ込めニューラルネットワークを訓練した後、
実世界の磁気閉じ込めデバイスの1つまたは複数のセンサーから生成された観測結果を処理し、前記プラズマ閉じ込めニューラルネットワークによって生成された磁気制御出力を使用して、前記実世界の磁気閉じ込めデバイスの磁場を制御するための実世界の制御信号を生成することによって、前記実世界の磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるための前記磁場を制御するために前記プラズマ閉じ込めニューラルネットワークを使用するステップをさらに含む、請求項24に記載の方法。
【請求項26】
前記磁気閉じ込めデバイスが、トカマクであり、前記磁気閉じ込めデバイスの前記チャンバが、トロイダル形状を有する、請求項1から25のいずれか一項に記載の方法。
【請求項27】
前記プラズマが、核融合によって電力を生成するために使用される、請求項1から26のいずれか一項に記載の方法。
【請求項28】
1つまたは複数のコンピュータによって実行されるときに前記1つまたは複数のコンピュータに請求項1から27のいずれか一項に記載のそれぞれの方法の動作を実行させる命令を記憶する、1つまたは複数の非一時的コンピュータストレージ媒体。
【請求項29】
1つまたは複数のコンピュータと、
前記1つまたは複数のコンピュータに通信可能なように結合された1つまたは複数のストレージデバイスであって、前記1つまたは複数のコンピュータによって実行されるときに前記1つまたは複数のコンピュータに請求項1から27のいずれか一項に記載のそれぞれの方法の動作を実行させる命令を記憶する、1つまたは複数のストレージデバイスとを含む、システム。
【請求項30】
磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるための磁場を制御するための制御信号を生成するために1つまたは複数のデータ処理装置によって実行される方法であって、複数の時間ステップの各々において、
前記磁気閉じ込めデバイスの前記チャンバ内の前記プラズマの現在の状態を特徴付ける観測結果を取得するステップと、
訓練されたプラズマ閉じ込めニューラルネットワークを使用して、前記磁気閉じ込めデバイスの前記チャンバ内の前記プラズマの前記現在の状態を特徴付ける前記観測結果を含む入力を処理するステップであって、前記訓練されたプラズマ閉じ込めニューラルネットワークが、複数のネットワークパラメータを有し、前記磁気閉じ込めデバイスの前記磁場を制御するための制御信号を特徴付ける磁気制御出力を生成するために前記ネットワークパラメータに従って前記観測結果を含む前記入力を処理するように構成される、ステップと、
前記磁気制御出力に基づいて、前記磁気閉じ込めデバイスの前記磁場を制御するための前記制御信号を生成するステップとを含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書は、機械学習モデルを使用してデータを処理することに関する。
【背景技術】
【0002】
機械学習モデルは、入力を受け取り、受け取られた入力に基づいて出力、たとえば、予測される出力を生成する。一部の機械学習モデルは、パラメトリックモデルであり、受け取られた入力およびモデルのパラメータの値に基づいて出力を生成する。
【0003】
一部の機械学習モデルは、受け取られた入力に関する出力を生成するためにモデルの複数の層を使用する深層モデルである。たとえば、深層ニューラルネットワークは、出力を生成するために受け取られた入力に非線形変換をそれぞれ適用する出力層および1つまたは複数の隠れ層を含む深層機械学習モデルである。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Abdolmalekiら、「Maximum a Posteriori Policy Optimisation」、arXiv:1806.06920、2018
【非特許文献2】Volodymyr Minhら、「Asynchronous methods for deep reinforcement learning」、arXiv:1602.01783v2、2016
【非特許文献3】Degrave, J.、Felici, F.、Buchli, J.ら、「Magnetic control of tokamak plasmas through deep reinforcement learning」、Nature 602、414~419頁 (2022)
【発明の概要】
【課題を解決するための手段】
【0005】
本明細書は、概して、磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるために磁場を制御するための制御信号を生成するためにプラズマ閉じ込めニューラルネットワーク(plasma confinement neural network)を使用する、1つまたは複数の場所の1つまたは複数のコンピュータ上でコンピュータプログラムとして実装されるシステムを説明する。磁気閉じ込めデバイスは、たとえば、トロイダル形状のチャンバを有するトカマクであることが可能である。
【0006】
一態様においては、磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるための磁場を制御するための制御信号を生成するために1つまたは複数のデータ処理装置によって実行される方法が説明される。方法は、複数の時間ステップの各々において、磁気閉じ込めデバイスのチャンバ内のプラズマの現在の状態を特徴付ける観測結果を取得するステップと、プラズマ閉じ込めニューラルネットワークを使用して、磁気閉じ込めデバイスのチャンバ内のプラズマの現在の状態を特徴付ける観測結果を含む入力を処理するステップとを含む。プラズマ閉じ込めニューラルネットワークは、複数のネットワークパラメータを有し、磁気閉じ込めデバイスの磁場を制御するための制御信号を特徴付ける磁気制御出力を生成するためにネットワークパラメータに従って観測結果を含む入力を処理するように構成される。方法は、磁気制御出力に基づいて、磁気閉じ込めデバイスの磁場を制御するための制御信号を生成するステップをさらに含む。
【0007】
一部の実装において、磁気制御出力は、磁気閉じ込めデバイスの複数の制御コイルの各々に印加されるそれぞれの電圧を特徴付ける。
【0008】
一部の実装において、磁気制御出力は、磁気閉じ込めデバイスの複数の制御コイルの各々に関して、制御コイルに印加され得る可能な電圧のセット上のそれぞれのスコア分布を定義する。
【0009】
一部の実装において、磁気制御出力に基づいて磁気閉じ込めデバイスの磁場を制御するための制御信号を生成するステップは、磁気閉じ込めデバイスの複数の制御コイルの各々に関して、制御コイルに印加され得る可能な電圧のセット上のそれぞれのスコア分布から電圧を選択するステップと、サンプリングされた電圧を制御コイルに印加させるための制御信号を生成するステップとを含む。
【0010】
方法は、複数の時間ステップの各々に関して、(i)プラズマの現在の状態と、(ii)プラズマの目標状態との間の誤差を特徴付ける時間ステップの報酬を決定するステップと、強化学習技術を使用して、報酬でプラズマ閉じ込めニューラルネットワークのニューラルネットワークパラメータを訓練するステップとをさらに含んでもよい。
【0011】
一部の実装において、複数の時間ステップのうちの1つまたは複数に関して、時間ステップの報酬を決定するステップは、プラズマを特徴付ける1つまたは複数のプラズマの特徴の各々に関して、(i)時間ステップにおけるプラズマの特徴の現在の値と、(ii)時間ステップにおけるプラズマの特徴の目標値との間の差を測定するそれぞれの誤差を決定するステップを含む。方法は、時間ステップにおける1つまたは複数のプラズマの特徴の各々に対応するそれぞれの誤差に少なくとも部分的に基づいて時間ステップの報酬を決定するステップをさらに含む。
【0012】
方法は、複数の時間ステップのうちの1つまたは複数に関して、時間ステップにおけるプラズマの特徴の各々に対応するそれぞれの誤差に基づいて時間ステップの報酬を決定するステップが、時間ステップにおけるプラズマの特徴に対応するそれぞれの誤差の重み付き線形結合として時間ステップの報酬を決定するステップを含むことを伴う。
【0013】
一部の実装において、プラズマの特徴のうちの1つまたは複数の各々のそれぞれの目標値は、時間ステップ間で変化する。
【0014】
一部の実装において、複数の時間ステップの各々において、プラズマ閉じ込めニューラルネットワークへの入力は、時間ステップの観測結果に加えて、時間ステップにおけるプラズマの特徴の各々のそれぞれの目標値を定義するデータを含む。
【0015】
一部の実装において、プラズマの特徴は、プラズマの安定性、プラズマのプラズマ電流、プラズマの形状、プラズマの位置、プラズマの面積、プラズマのドメイン(domain)の数、プラズマのドロップレット(droplet)間の距離、プラズマの伸長(elongation)、プラズマ中心の半径方向位置、プラズマの半径、プラズマの三角度(triangularity)、またはプラズマの限界点のうちの1つまたは複数を含む。
【0016】
一部の実装において、複数の時間ステップのうちの1つまたは複数に関して、時間ステップの報酬を決定するステップは、磁気閉じ込めデバイスの現在の状態を特徴付ける1つまたは複数のデバイスの特徴の各々のそれぞれの現在の値を決定するステップと、時間ステップにおける1つまたは複数のデバイスの特徴のそれぞれの現在の値に少なくとも部分的に基づいて時間ステップの報酬を決定するステップとを含む。
【0017】
一部の実装において、デバイスの特徴は、磁気閉じ込めデバイスのチャンバ内のX点(x-point)の数、磁気閉じ込めデバイスの1つもしくは複数の制御コイルの各々のそれぞれの電流、または磁気閉じ込めデバイスのチャンバ内のX点の数と、磁気閉じ込めデバイスの1つもしくは複数の制御コイルの各々のそれぞれの電流との両方を含む。
【0018】
一部の実装において、磁気閉じ込めデバイスは、磁気閉じ込めデバイスのシミュレーションである。方法は、複数の時間ステップの最後の時間ステップにおいて、磁気閉じ込めデバイスの物理的な実行可能性の制約が時間ステップにおいて破られると判定するステップと、磁気閉じ込めデバイスの物理的な実行可能性の制約が時間ステップにおいて破られるとの判定に応答して、磁気閉じ込めデバイスのシミュレーションを終了するステップとをさらに含んでもよい。
【0019】
一部の実装において、磁気閉じ込めデバイスの物理的な実行可能性の制約が時間ステップにおいて破られると判定するステップは、時間ステップにおけるプラズマの密度が閾値を満たさないと判定するステップ、時間ステップにおけるプラズマのプラズマ電流が閾値を満たさないと判定するステップ、または制御コイルのうちの1つもしくは複数の各々のそれぞれの電流が閾値を満たさないと判定するステップのうちの1つまたは複数を含む。
【0020】
一部の実装において、強化学習技術は、アクター・クリティック強化学習技術である。さらなる実装において、報酬でプラズマ閉じ込めニューラルネットワークのネットワークパラメータを訓練するステップは、アクター・クリティック強化学習技術を使用して報酬でプラズマ閉じ込めニューラルネットワークおよびクリティックニューラルネットワークを共同で訓練するステップを含む。クリティックニューラルネットワークは、時間ステップの後に受け取られると予測される報酬の累積的な尺度を特徴付ける出力を生成するために、時間ステップのクリティック観測結果(critic observation)を含む入力を処理するように構成される。
【0021】
一部の実装において、アクター・クリティック強化学習技術は、最大事後方策最適化(MPO: maximum a posteriori policy optimization)技術である。
【0022】
一部の実装において、アクター・クリティック強化学習技術は、分散型アクター・クリティック強化学習技術である。
【0023】
一部の実装において、プラズマ閉じ込めニューラルネットワークは、出力を生成するためにクリティックニューラルネットワークによって必要とされるよりも少ない計算リソースを使用して出力を生成する。
【0024】
一部の実装において、プラズマ閉じ込めニューラルネットワークは、出力を生成するためにクリティックニューラルネットワークによって必要とされるよりも低いレイテンシで出力を生成する。
【0025】
一部の実装において、プラズマ閉じ込めニューラルネットワークは、クリティックニューラルネットワークよりも少ないネットワークパラメータを有する。
【0026】
一部の実装において、プラズマ閉じ込めニューラルネットワークは、順伝播型ニューラルネットワークであり、クリティックニューラルネットワークは、リカレントニューラルネットワークである。
【0027】
一部の実装において、クリティックニューラルネットワークは、プラズマ閉じ込めニューラルネットワークによって処理される観測結果よりも高い次元を有し、より多くのデータを含むクリティック観測結果を処理するように構成される。
【0028】
一部の実装において、複数の時間ステップの各々において、磁気閉じ込めデバイスのチャンバ内のプラズマの現在の状態を特徴付ける観測結果は、1つもしくは複数のワイヤーループの各々から取得されたそれぞれの磁束測定値、1つもしくは複数の磁場プローブの各々から取得されたそれぞれの磁場測定値、または磁気閉じ込めデバイスの1つもしくは複数の制御コイルの各々からのそれぞれの電流測定値のうちの1つまたは複数を含む。
【0029】
一部の実装において、磁気閉じ込めデバイスは、シミュレーションされた磁気閉じ込めデバイスである。
【0030】
方法は、プラズマ閉じ込めニューラルネットワークを使用してシミュレーションされた磁気閉じ込めデバイスを制御することに基づいてプラズマ閉じ込めニューラルネットワークを訓練した後、実世界の磁気閉じ込めデバイスの1つまたは複数のセンサーから生成された観測結果を処理し、プラズマ閉じ込めニューラルネットワークによって生成された磁気制御出力を使用して、実世界の磁気閉じ込めデバイスの磁場を制御するための実世界の制御信号を生成することによって、実世界の磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるための磁場を制御するためにプラズマ閉じ込めニューラルネットワークを使用するステップをさらに含んでもよい。
【0031】
一部の実装において、磁気閉じ込めデバイスは、トカマクであり、磁気閉じ込めデバイスのチャンバは、トロイダル形状を有する。
【0032】
一部の実装において、プラズマは、核融合によって電力を生成するために使用される。
【0033】
第2の態様においては、1つまたは複数のコンピュータによって実行されるときに1つまたは複数のコンピュータに上述の方法の動作を実行させる命令を記憶する1つまたは複数の非一時的コンピュータストレージ媒体が提供される。
【0034】
第3の態様においては、1つまたは複数のコンピュータと、1つまたは複数のコンピュータに通信可能なように結合された1つまたは複数のストレージデバイスであって、1つまたは複数のコンピュータによって実行されるときに1つまたは複数のコンピュータに上述の方法の動作を実行させる命令を記憶する、1つまたは複数のストレージデバイスとを含むシステムが提供される。
【0035】
第4の態様においては、磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるための磁場を制御するための制御信号を生成するために1つまたは複数のデータ処理装置によって実行される方法が提供される。方法は、複数の時間ステップの各々において、磁気閉じ込めデバイスのチャンバ内のプラズマの現在の状態を特徴付ける観測結果を取得するステップと、訓練されたプラズマ閉じ込めニューラルネットワークを使用して、磁気閉じ込めデバイスのチャンバ内のプラズマの現在の状態を特徴付ける観測結果を含む入力を処理するステップとを含む。訓練されたプラズマ閉じ込めニューラルネットワークは、複数のネットワークパラメータを有し、磁気閉じ込めデバイスの磁場を制御するための制御信号を特徴付ける磁気制御出力を生成するためにネットワークパラメータに従って観測結果を含む入力を処理するように構成される。方法は、磁気制御出力に基づいて、磁気閉じ込めデバイスの磁場を制御するための制御信号を生成するステップをさらに含む。
【0036】
訓練されたプラズマ閉じ込めニューラルネットワークは、実世界の磁気閉じ込めデバイスを制御するために使用されてもよい。より詳細には、訓練されたプラズマ閉じ込めニューラルネットワークは、実世界の磁気閉じ込めデバイスの1つまたは複数のセンサーから生成された観測結果を処理し、プラズマ閉じ込めニューラルネットワークによって生成された磁気制御出力を使用して、実世界の磁気閉じ込めデバイスの磁場を制御するための実世界の制御信号を生成することによって、実世界の磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるための磁場を制御するために使用されてもよい。一部の実装において、磁気制御出力は、各制御コイルに関して、制御コイルに印加され得る可能な電圧のセット上のそれぞれのスコア分布を定義する。そして、制御コイルに印加される電圧が、スコア分布からサンプリングされてもよい。
【0037】
一部の実装において、プラズマ閉じ込めニューラルネットワークは、シミュレーションされた磁気閉じ込めデバイスを使用して、すなわち、実世界の磁気閉じ込めデバイスのシミュレーションを使用して、少なくとも部分的に訓練される。
【0038】
本明細書に記載の対象は、以下の利点のうちの1つまたは複数を実現するように特定の実施形態に実装され得る。
【0039】
トカマクなどの磁気閉じ込めデバイスは、核融合による持続可能な電力の生成のための有力な候補である。効率的な発電は、磁気閉じ込めデバイスのチャンバ内のプラズマの形状を制御するために、磁気閉じ込めデバイスの磁場の精密な操作を必要とする。プラズマの形状を制御することは、たとえば、プラズマの潜在的な不安定性が原因で困難な問題となり得る。
【0040】
本明細書において説明されるシステムは、プラズマ閉じ込めニューラルネットワークを使用して、磁気閉じ込めデバイスの磁場を制御するための制御信号を選択するための制御方策を実施する。プラズマ閉じ込めニューラルネットワークは、たとえば、プラズマ閉じ込めニューラルネットワークの制御下のシミュレーションされた磁気閉じ込めデバイスの挙動を特徴付けるシミュレーションされた軌跡(trajectory)に基づいて、効果的な制御方策を学習するために強化学習技術を使用して訓練され得る。システムは、たとえば、プラズマの所望の特徴(たとえば、プラズマの形状)および/または磁気閉じ込めデバイスに対する動作の制約(たとえば、制御コイルの最大許容電流)を特徴付ける、制御目的によって指定された報酬に基づいてプラズマ閉じ込めニューラルネットワークを訓練することができる。これらの報酬に基づいてプラズマ閉じ込めニューラルネットワークを訓練することによって、システムは、プラズマ閉じ込めニューラルネットワークが制御目的を達成するための新規の解決策を自律的に発見することを可能にする。
【0041】
本明細書において説明されるシステムは、厳密な目標のプラズマの状態が指定され、制御装置の組合せが、最初にプラズマを安定させ、それから所望のプラズマの状態を追跡するために設計され、逐次的なループの閉鎖によってチューニングされる、既存の制御装置の設計からの大きな逸脱を表す。多大な開発時間と、手動による微調整とを必要とする既存の制御装置の設計とは対照的に、システムは、効果的な制御策を学習するために強化学習によってプラズマ閉じ込めニューラルネットワークを自律的に訓練することができる。本明細書において説明されるシステムは、ニューラルネットワークが訓練されると、リソース(たとえば、計算リソース)のより効率的な使用を可能にしながら、既存の制御装置に匹敵するかまたはそれよりも優れた性能を達成することができる。システムは、新しい磁場制御方策を生成するプロセスを(つまり、強化学習を使用して制御方策を自律的に学習することによって)大幅に短縮し、簡素化することができる。
【0042】
本明細書において説明されたシステムは、アクター・クリティック強化学習技術を使用して、プラズマ閉じ込めニューラルネットワークをクリティックニューラルネットワークと一緒に共同で訓練することができる。プラズマ閉じ込めニューラルネットワークのアーキテクチャの複雑さは、たとえば、低レイテンシで(たとえば、10kHz以上のレートで)磁気制御出力を生成するための動作要件によって制約される。対照的に、クリティックニューラルネットワークは、訓練中にのみ使用され、したがって、同じ動作の制約を満たさなくてもよい。したがって、システムは、クリティックニューラルネットワークが磁気閉じ込めデバイスのダイナミクス(dynamics)をより正確に学習することを可能にし、したがって、プラズマ閉じ込めニューラルネットワークが訓練されるだけでなく、向上した性能でより少ない訓練の反復で訓練されることを可能にする、さらに著しく複雑なニューラルネットワークアーキテクチャを持つクリティックニューラルネットワークを実装することができる。
【0043】
本明細書の対象の1つまたは複数の実施形態の詳細が、添付の図面および以下の説明に記載されている。対象のその他の特徴、態様、および利点は、説明、図面、および請求項から明らかになるであろう。
【図面の簡単な説明】
【0044】
図1】例示的な磁場制御システムを示す図である。
図2】プラズマ閉じ込めニューラルネットワークを使用して制御信号を生成し、報酬でネットワークパラメータを訓練するための例示的なプロセスの流れ図である。
図3】プラズマ閉じ込めニューラルネットワークのネットワークパラメータを訓練するために使用され得る報酬を決定するための例示的なプロセスを示す図である。
図4】プラズマ閉じ込めニューラルネットワークの訓練中に使用され得る磁場閉じ込めデバイスのシミュレーションの例の図である。
図5】アクター・クリティック強化学習技術を使用する例示的な訓練エンジンの図である。
図6】Tokamak a Configuration Variable(TCV)の図である。
図7A】TCVにデプロイされた磁場制御システムを使用する複数のプラズマの特徴の制御を示す実験データの図である。
図7B】TCVにデプロイされた磁場制御システムを使用する複数のプラズマの特徴の制御を示す実験データの図である。
【発明を実施するための形態】
【0045】
様々な図面における同様の参照番号および参照指示は、同様の要素を示す。
【0046】
図1は、プラズマ閉じ込めニューラルネットワーク102を使用して磁気閉じ込めデバイス110の磁場を制御することができる例示的な磁場制御システム100を示す。磁場制御システム100は、以下で説明されるシステム、コンポーネント、および技術が実装される、1つまたは複数の場所の1つまたは複数のコンピュータ上のコンピュータプログラムとして実装されるシステムの例である。
【0047】
核融合炉の背後にある基本的なプロセスである制御核融合(controlled nuclear fusion)は、持続可能なエネルギーのための有望な解決策である。核融合炉は、高温プラズマの中で起こる核融合反応によって生成される熱を使用して、放射性廃棄物をほとんど出さずに電力を生み出すことができる。非中性子核融合炉(aneutronic fusion reactor)は、プラズマから放出される荷電粒子から直接電力を生み出すことができるので、より一層高い効率を実現する可能性を有する。とはいえ、制御核融合を実現する上で最も困難な問題の1つは、高温高圧のプラズマを適切なチャンバ内に閉じ込めることである。極端な温度(たとえば、摂氏数千万度から数億度)のため、プラズマは、チャンバのどの表面とも直接接触することができず、チャンバ内の真空中に浮遊させられなければならず、これは、プラズマの固有の不安定性によってさらに複雑化される。
【0048】
しかし、プラズマは、電気を通す電離ガスであるので、強い磁場を生成し、ひいては強い磁場によって操作され得る。トカマクのような磁気閉じ込めデバイス110は、磁場の時間とともに変化する配置を利用して、プラズマを様々なプラズマ配位(configuration)に成形し、閉じ込める。Tokamak a Configuration Variable(TCV)およびITERのようなトカマクにおいて、プラズマは、通常、チャンバのトロイダル形状に合うトロイダル配位(たとえば、ドーナツ状の形状)に閉じ込められる。核融合炉閉じ込めデバイス110のいくつかのその他の有力な候補は、とりわけ、球形トカマク(たとえば、Mega Ampere Spherical Tokamak(MAST))、ステラレータ(たとえば、Wendelstein 7-X)、磁場反転配位(たとえば、Princeton Field-Reversed Configuration(PFRC))、スフェロマックである。
【0049】
概して、磁気閉じ込めデバイス110のチャンバ形状は、可能なプラズマ配位を制約する。制御システム100の最終的な目標は、閉じ込めデバイス110内の磁場を調節して、所望のプラズマ電流、位置、および形状を持つ安定したプラズマ配位を確立する、すなわち、プラズマ平衡を確立することである。平衡状態では、持続的な核融合が進行し得る。プラズマおよび閉じ込めデバイス110自体のいくつかの点、たとえば、プラズマの安定性およびエネルギー排出(energy exhaust)、閉じ込めデバイスのセンサーの劣化などが、平衡状態において研究されることが可能であり、それらは、研究開発のための極めて重要な情報となり得る。
【0050】
通常の磁気制御装置は、プラズマの様々な特徴を調整する独立した単一入力単一出力の比例・積分・微分(PID)制御装置のセットを使用して、プラズマ閉じ込めの高次元、高周波数、非線形の問題に取り組むことが普通であった。PID制御装置のセットは、相互の干渉を避けるように設計されなければならず、プラズマ平衡のリアルタイムの推定を実施する外部制御ループ(outer control loop)によってさらに強化されることが多い。非線形制御装置だけでなくその他の種類の線形制御装置も、採用されてきた。これらの磁気制御装置は、特定の状況では成功してきたが、目標プラズマ配位が変更されるたびに、多大なエンジニアリングの労力および専門知識を必要とする。さらに、磁気制御装置は、各閉じ込めデバイス110およびその制御の特有のセット(たとえば、制御コイルのセット)用に設計されなければならず、これは、連続する世代の閉じ込めデバイス110が稼働を開始するとき、骨の折れる作業となり得る。
【0051】
逆に、制御システム100は、ニューラルネットワークアーキテクチャを利用するので、任意の閉じ込めデバイス110の非線形フィードバック制御装置として構成され得る。すなわち、プラズマ閉じ込めニューラルネットワーク102は、制御のセットを効率的に指令するための準最適な制御方策を自律的に学習し、通常の磁気制御装置と比較して設計の労力の顕著な削減をもたらすことができる。単一の計算コストの低い制御システム100が、磁気制御装置の複雑なネストされた制御アーキテクチャを置き換えることができる。この手法は、高レベルで制御目的を規定することにより前例のない柔軟性および一般性を持つことができ、これは、閉じ込めデバイス110がどのように実現され得るかではなく、閉じ込めデバイス110が何を実現すべきかに焦点を移す。磁場制御システム100の概要が、以下で概説される。
【0052】
図1の要素を参照すると、プラズマ閉じ込めニューラルネットワーク102は、ニューラルネットワーク102がどのようにデータを処理するかを指示するネットワークパラメータ104のセットを含む。プラズマ閉じ込めは、初期プラズマ形成フェーズ、それに続くプラズマ平衡への安定化、および最終的なプラズマブレイクダウン(plasma-breakdown)フェーズなどの、複数の過渡期を含み得るので、高度な時間的手順である。プラズマの固有の不安定性が原因で、ニューラルネットワーク102は、これらの不安定性を修正するために短いタイムスケールで応答する必要がある場合もある。制御システム100は、プラズマ閉じ込めに関わるすべての段階のために利用され得るが、一部の実装において、制御システム100は、特定の段階に制約される。たとえば、従来の磁気制御装置が、初期のプラズマ形成フェーズを扱うことができ、制御が、所定の時間に制御システム100に切り替えられ得る(「ハンドオーバ」)。
【0053】
したがって、プラズマ閉じ込めニューラルネットワーク102は、複数の時間ステップの各々においてデータを繰り返し処理するように構成されることが可能であり、時間ステップは、通常、閉じ込めデバイス110の特定の制御レートに対応する。制御レートは、本質的に、閉じ込めデバイス110の動作速度(たとえば、レイテンシ)である。概して、ニューラルネットワーク102は、任意の所望の制御レート、可変で一様でない制御レートのためにさえ構成され得る。より詳細に説明されるように、制御システム100は、高速実行のために特定のニューラルネットワークアーキテクチャを利用し、制御システム100をリアルタイム制御装置としてのデプロイにうまく適するようにすることができる。
【0054】
各時間ステップにおいて、制御システム100は、制御ループを実行する。ニューラルネットワーク102は、磁気閉じ込めデバイス110のチャンバ内のプラズマの現在の状態112を特徴付ける観測結果114を受け取る。報酬308が、現在のプラズマの状態112に基づいて時間ステップに関して決定され得る。概して、制御システム100は、時間ステップ間で変化し得るプラズマの目標状態118に対して現在のプラズマの状態112を評価することによって報酬308を決定する。この場合、目標のプラズマの状態118は、特定の時間ステップにおける制御システム100の設定点(set point)としても働き得る。
【0055】
それから、観測結果114が、磁気制御出力106を生成するためにネットワークパラメータ104に従ってニューラルネットワーク102によって処理される。磁気制御出力106は、磁気閉じ込めデバイス110の磁場を調節するための制御信号108を特徴付ける。結果として、磁場は、時間ステップにおける観測結果114に応答して制御信号108によって制御されることが可能であり、これは、現在のプラズマの状態112の発展に直接影響を与える。そして、制御システム100は、次の時間ステップのために制御ループを繰り返す。時間ステップの報酬は、たとえば、強化学習技術を使用してニューラルネットワーク102のネットワークパラメータ104を訓練するために訓練エンジン116によって利用され得る。
【0056】
一部の実装において、制御システム100は、(図4に描かれた)シミュレーションされた磁気閉じ込めデバイス110のための制御信号108を生成する。すなわち、制御システム100は、シミュレーションされた閉じ込めデバイス110の挙動を特徴付けるシミュレーションされた軌跡に基づいてプラズマ閉じ込めニューラルネットワーク102を訓練する。プラズマ閉じ込めニューラルネットワーク102がシミュレーションされた軌跡に基づいて訓練された後、制御システム100は、実世界の磁気閉じ込めデバイス110を制御するためにデプロイされ得る(たとえば、実行可能ファイルにコンパイルされ得る)。特に、制御システム100は、訓練後にニューラルネットワーク102のチューニングが必要とされないように、実世界のハードウェア上で「ゼロショット(zero-shot)」で実行され得る。
【0057】
任意で、制御システム100は、実世界の磁気閉じ込めデバイス110の挙動を特徴付ける実世界の軌跡に基づいてプラズマ閉じ込めニューラルネットワーク102のさらなる訓練を実行することができる。シミュレーションされた閉じ込めデバイス110を(すなわち、実世界の閉じ込めデバイスの代わりに)制御することによって生成されたシミュレーションされた軌跡に基づいてニューラルネットワーク102を訓練することは、実世界の閉じ込めデバイス110を動作させるために必要とされるリソース(たとえば、エネルギーリソース)を節約することができる。シミュレーションされた軌跡に基づいてニューラルネットワーク102を訓練することは、不適切な制御信号108の結果として実世界の閉じ込めデバイス110が損傷を受ける見込みを小さくすることもできる。訓練に必要な制御信号108および報酬308を生成する詳細なプロセスは、下で説明される。
【0058】
図2は、複数のネットワークパラメータを有するプラズマ閉じ込めニューラルネットワークを使用して制御信号を生成するための例示的なプロセス200の流れ図である。制御信号は、磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるための磁場を制御する。プラズマ閉じ込めニューラルネットワークのネットワークパラメータを訓練するために使用され得る報酬を決定するための例示的なプロセス300を示す図3も、参照される。便宜上、プロセス200および300は、1つまたは複数の場所に置かれた1つまたは複数のコンピュータのシステムによって実行されるものとして説明される。たとえば、本明細書に従って適切にプログラミングされた磁場制御システム、たとえば、図1の磁場制御システム100が、プロセス200および300を実行し得る。
【0059】
図2を参照すると、システムは、磁気閉じ込めデバイスのチャンバ内のプラズマの現在の状態を特徴付ける観測結果を取得する(202)。概して、観測結果は、磁気閉じ込めデバイスの様々なセンサーおよび機器から獲得された測定値のセットを含む。高度な閉じ込めデバイスは、極めて多くのセンサー、たとえば、磁場センサー、電流センサー、光学センサーおよびカメラ、応力/ひずみセンサー、ボロメーター、温度センサーなどを備え付けられることが可能であり、それらのセンサーの多くは、互いに強い相関がある場合がある。利用可能な測定値は、現在のプラズマの状態を直接的および/または間接的に特徴付けるためにシステムによって使用され得る。特定のセンサーおよび/または機器の制限が原因で、システムがすべての測定値をリアルタイムで取得することができない場合があることに留意されたい。とはいえ、これらの測定値は、性能を評価するために、特定の時間ステップにおけるリアルタイムの測定値と併せて、ポストプロセスのために(たとえば、最後の時間ステップの後に)使用され得る。いくつかの特定の例として、観測結果は、磁気閉じ込めデバイス内の磁場もしくは磁束の測定値、または制御コイルからの(すなわち、制御コイルの電流の)電流測定値を含む場合がある。
【0060】
システムは、少なくともプラズマの現在の状態に基づいて時間ステップの報酬を決定する(204)。報酬は、所望の結果を達成するための最大限の柔軟性をシステムに与えるために、最小限に指定され得る。報酬は、システムが閉じ込めデバイスの動作限界、たとえば、最大制御コイル電流/電圧、エッジ安全係数(edge safety factor)などから外れた望ましくない最終状態に達する場合に、システムにペナルティを与えることもできる。
【0061】
図3を参照すると、報酬308は、現在のプラズマの状態112のプラズマの特徴がプラズマの目標状態118のプラズマの特徴と同等であるかどうかを示し得る。たとえば、プラズマの特徴は、プラズマ安定性、プラズマ電流、プラズマ伸長などを含み得る。プラズマ安定性は、位置の安定性、たとえば、垂直位置の安定性を指す場合があり、時間の経過にともなう位置の変化率によって測定される場合がある。プラズマ電流は、プラズマ内の電流を指す。たとえば、トカマクにおけるプラズマ伸長は、プラズマの高さをプラズマの幅で割った値として定義される場合がある。その他のプラズマの特徴は、プラズマの形状、たとえば、プラズマの垂直断面の形状、プラズマの位置、たとえば、プラズマの軸または中心の垂直方向または半径方向の位置、プラズマの面積、たとえば、断面積、プラズマのドメインまたはドロップレットの数、プラズマのドロップレット間の距離の尺度(複数のドロップレットが存在する場合)、プラズマの断面の幅、たとえば、半径方向の幅の半分として定義される場合があるプラズマ(の断面)の半径、半径方向中央位置に対する最高点の半径方向位置(上側三角度)として、または半径方向中央位置に対する最下点の半径方向位置(下側三角度)として、または上側三角度および下側三角度の平均として定義される場合があるプラズマの三角度、ならびにプラズマの限界点、より詳細には、閉じ込めデバイスの壁またはX点などの実際の限界点と目標限界点との間の距離を含む。
【0062】
報酬308は、概して、現在のプラズマの状態112と目標のプラズマの状態118との間のそれぞれの誤差416を特徴付ける数値として表され得る。一部の実装において、それぞれの誤差416は、プラズマの特徴の1つまたは複数の現在の値410とプラズマの特徴の1つまたは複数の目標値412との間の差を測定する。それぞれのプラズマの特徴の現在の値410と目標値412との間の誤差は、任意の適切な誤差測定基準、たとえば、平均二乗誤差、絶対差などによって特徴付けられ得る。さらに、報酬308は、プラズマの特徴に対応するそれぞれの誤差416の重み付き線形結合であることが可能である。報酬308において誤差416を適切に重み付けすることは、システムが特定のプラズマの特徴をその他の特徴、たとえば、プラズマ電流、プラズマの位置などよりも強調することを可能にする。
【0063】
現在のプラズマの状態112の現在の値410は、観測結果114に含まれる測定値のセットから決定され得る。プラズマとチャンバ内の磁場との間の強い結合が原因で、リアルタイムの磁場測定値は、現在のプラズマの状態112を特徴付けるのに特に効果的であり得る。たとえば、ワイヤーループが、閉じ込めデバイス内の磁束を測定することができ、磁場プローブが、デバイス内の局所的な磁場を測定することができ、電流が、アクティブ制御コイルにおいて測定され得る。しかし、現在のプラズマの状態112の特定の特徴は、特定の閉じ込めデバイスに関して直接的に観測可能でない場合があることに留意されたい(たとえば、プラズマの形状および位置)。これらの特徴は、たとえば、関連する量から特徴を再構成することによって、利用可能な測定値から推測されてもよい。一部の実装において、システムは、(たとえば、最小二乗の意味で)特定の時間ステップにおける磁場測定値に最もよく一致する力の釣り合い(たとえば、Grad-Shafranov方程式)を尊重するプラズマ電流分布を求める逆問題を解く磁気平衡再構築(たとえば、LIUQEコード)を使用する。
【0064】
一方、目標のプラズマの状態118の目標値412は、時間とともに変化するおよび/または静的な特徴の目標304から直接指定され得る。目標304は、システムが到達不可能な状態に向かって駆動されないことを保証するために、物理的に実現可能な限度内で指定され得る。
【0065】
目標のプラズマの状態118に関連する目標値412は、プラズマ閉じ込めニューラルネットワークへの入力データとして含まれることも可能である。上述のように、目標値412は、各時間ステップにおけるシステムの設定点として働くことができる。したがって、システムは、現在のプラズマの状態112がそれらの特定の値を持つプラズマの状態に向かって駆動されるように、各時間ステップにおいて目標値412を変化させることによってプラズマの発展を制御することができる。各時間ステップにおける目標値412は、予め指定されたルーチンに対応することが可能であり、またはオンザフライで指定されることが可能であり、システムがデプロイされるときにユーザがプラズマの発展を手動で制御することを可能にし得る。
【0066】
報酬308は、また、磁気閉じ込めデバイス110の現在の状態を特徴付ける1つまたは複数のデバイスの特徴の現在の値408に少なくとも部分的に基づくこともできる。たとえば、デバイスの特徴は、チャンバ内のX点の数、1つまたは複数の制御コイル内のそれぞれの電流などを含み得る。概して、現在のデバイスの値408は、観測結果114に含まれる測定値から取得され得る。
【0067】
現在のデバイスの特徴の値408に対応する報酬308の構成要素は、高度に非線形のプロセスから決定され得る。たとえば、現在のデバイスの特徴の値408に基づく報酬308の部分は、たとえば、制御コイルの電流が限度を超えるまではゼロである可能性があり、電流が限度を超える時点では大きな負の値であるといった場合がある。したがって、報酬308は、閉じ込めデバイスが所望の動作範囲から外れた場合にシステムにペナルティを与えることができる。
【0068】
図2に戻ると、システムは、磁気制御出力を生成するために、ネットワークパラメータに従ってプラズマ閉じ込めニューラルネットワークを使用して観測結果(および場合によっては目標のプラズマの状態に関連する目標値)を処理する(206)。磁気制御出力は、磁気閉じ込めデバイスの磁場を制御するための制御信号を特徴付ける。
【0069】
それから、システムは、磁気制御出力に基づいて磁場を制御するための制御信号を生成する(208)。
【0070】
プラズマ閉じ込めニューラルネットワークは磁気制御出力として制御信号を直接出力することもできるので、ステップ(206)および(208)は、必ずしも独立したプロセスではないことに留意されたい。
【0071】
その他の方法も考えられるが、ほとんどの最先端の磁気閉じ込めデバイスは、磁場を操作するために制御コイルのセットに電流を流す。この場合、システムは、電圧を印加することによって制御コイルを作動させることができ、それが電流の量を変え、したがって、結果として生じる磁場を変える。電圧は、適切な電源によって提供され得る。
【0072】
たとえば、磁気制御出力は、制御コイルの各々に印加されるそれぞれの電圧を指定することができる。そして、システムは、それぞれの電圧を制御コイルに印加する適切な制御信号を生成することができる。
【0073】
一部の実装において、磁気制御出力は、制御コイルの各々に印加され得る可能な電圧のセット上のそれぞれのスコア分布を特徴付ける。この場合、磁気制御出力は、ガウス分布としてモデル化された各スコア分布の電圧の平均および標準偏差を指定することができる。そのとき、システムは、それぞれのスコア分布から電圧をサンプリングし、サンプリングされた電圧をシステムのそれぞれの制御コイルに印加する適切な制御信号を生成することができる。
【0074】
さらなる実装において、システムは、スコア分布の電圧の平均をシステムのそれぞれの制御コイルに印加する制御信号を、すなわち、決定的な(deterministic)方法で生成する。スコア分布からサンプリングされた電圧を使用する確率的な手順は、システムが成功する制御オプションを探索することができるように、訓練目的にのみ望ましい場合がある。この手順は、システムが欠陥のあるオプションを探索する場合に閉じ込めデバイスを損傷する危険性がない(図4に描かれた)シミュレーションされた磁気閉じ込めデバイス上で実行するのに特に適している。スコア分布の電圧の平均を使用する決定的な手順は、予測可能であり、したがって、実世界の磁気閉じ込めデバイスにデプロイするのにより適している場合がある。さらに、訓練中に、決定的手順は、システムが最終的に実世界の閉じ込めデバイスにデプロイされるときに最適な性能を保証するために並列的に監視され得る。
【0075】
上の例は電圧作動手法を説明しているが、磁気制御出力は、制御コイルのためのそれぞれの電流を指定する可能性もある。そのとき、システムは、電流制御装置として電流を追跡する可能性がある。
【0076】
制御コイルの厳密な数、配置、および範囲は、閉じ込めデバイスの特定の設計に依存することに留意されたい。トカマクに関して、これらは、ポロイダル磁場およびトロイダル磁場を制御するポロイダルコイルおよびトロイダルコイル、プラズマを加熱および変調するオーミックトランスフォーマコイル(ohmic transformer coil)、高周波磁場(high-frequency field)を生成する高速コイル(fast coil)、ならびに多くの異なる目的のために使用され得る様々なその他のコイルを含み得る。とはいえ、プラズマ閉じ込めニューラルネットワークの多用途性のおかげで、制御目的が高レベルで、すなわち、目標のプラズマの状態の目標に関して指定され得るので、システムは、いかなる閉じ込めデバイスに関しても準最適な制御方策を自律的に学習することができる。
【0077】
システムは、強化学習技術を使用して、報酬でプラズマ閉じ込めニューラルネットワークのネットワークパラメータを訓練する(210)。システムは、ネットワークパラメータを訓練するために任意の適切な強化学習技術を利用することができる。概して、システムは、プラズマおよび磁気閉じ込めデバイスの軌跡を特徴付ける報酬に関して制御方策を最適化するためにネットワークパラメータを更新する。一部の実装において、プラズマ閉じ込めニューラルネットワークは、(図5に描かれた)報酬に基づくアクター・クリティック強化学習技術を使用して、クリティックニューラルネットワークと一緒に共同で訓練される。特に、システムは、たとえば、逆伝播を使用して、報酬に依存する強化学習の目的関数の勾配を(プラズマ閉じ込めニューラルネットワークおよびクリティックニューラルネットワークのパラメータに関して)決定することができる。それから、システムは、勾配を使用して、たとえば、適切な勾配降下最適化技術、たとえば、RMSpropまたはAdamの更新規則を使用して、プラズマ閉じ込めニューラルネットワークおよびクリティックニューラルネットワークの現在のパラメータ値を調整することができる。
【0078】
上述のように、システムは、磁気閉じ込めデバイスのシミュレーションされた軌跡でニューラルネットワークのネットワークパラメータを訓練することができる。その後、システムは、実際の磁気閉じ込めデバイス、たとえば、トカマクの制御信号を生成することができる。
【0079】
図4は、磁場制御システム、たとえば、図1の磁場制御システム100の訓練に使用するための磁気閉じ込めデバイス110の軌跡をシミュレーションすることができる例示的なシミュレータ500を示す。シミュレータ500は、以下で説明されるシステム、コンポーネント、および技術が実装される、1つまたは複数の場所の1つまたは複数のコンピュータ上のコンピュータプログラムとして実装されたシステムの例である。
【0080】
シミュレータ500は、訓練のために計算が実行可能なままでありながら、各時間ステップにおける現在のプラズマの状態112の発展を記述するのに十分な物理的忠実性を有する。これは、実世界のハードウェアへのゼロショット転移を可能にする。制御レートが、観測結果114に応答して制御信号108を生成する際のレイテンシに対応するので、シミュレータ500は、閉じ込めデバイス110の制御レートよりも短いタイムスケールでプラズマを発展させることができることに留意されたい。シミュレータ500のタイムスケールは、通常、収束(convergence)、精度、数値的安定性などの数値的考察に基づいて指定される。
【0081】
一部の実装において、シミュレータ500は、自由境界プラズマ発展モデルを使用して、たとえば、FGEソフトウェアパッケージを使用して、プラズマに対する制御コイル電圧の影響をモデル化する。上述のように、制御コイル電圧は、制御信号108によって調節されることが可能であり、これは、シミュレータ500との磁場制御システム100のインタラクションを容易にする。自由境界モデルにおいて、制御コイルおよび受動導体(passive conductor)内の電流は、電源からの外部印加電圧と、その他の導体およびプラズマ自体の中の時間とともに変化する電流による誘導電圧との影響下で発展する。導体は、抵抗が知られている定数であり、相互インダクタンスが解析的に計算されることが可能な回路モデルによって記述され得る。
【0082】
軸対称プラズマ配位を仮定すると、シミュレータ500は、ローレンツ力
【0083】
【数1】
【0084】
、すなわち、プラズマ電流密度
【0085】
【数2】
【0086】
と磁場
【0087】
【数3】
【0088】
との間の相互作用と、プラズマ内の圧力の勾配∇pとの間の釣り合いから生じるGrad-Shafranov方程式を用いてプラズマをモデル化することができる。総プラズマ電流Ipの発展は、磁気流体力学のための一般化されたオームの法則に基づく集中パラメータ方程式(lumped-parameter equation)を使用してシミュレータ500によってモデル化され得る。このモデルに関して、総プラズマ抵抗Rpおよび総プラズマ自己インダクタンスLpは、自由パラメータである。
【0089】
一部の実装において、シミュレータ500は、熱源および電流駆動源(current drive source)からの半径方向の圧力および電流密度の輸送をモデル化しないが、より洗練されたフレームワークは、これらの効果を含む可能性がある。その代わりに、シミュレータ500は、プラズマ電流Ipならびに2つの自由パラメータ、すなわち、(i)正規化されたプラズマ圧力βp、すなわち、運動論的圧力と磁気圧との比、および(ii)電流密度のピークの鋭さ(peakedness)を制御するプラズマ軸における安全係数qAによって係数が制約される多項式としてプラズマの半径方向のプロファイルをモデル化することができる。
【0090】
プラズマ発展パラメータRp、Lp、βp、およびqAは、実世界の磁気閉じ込めデバイス110における制御不可能な実験条件を考慮するために適切な範囲にわたって変化することが可能であり、変化は、実験データから特定され得る。必要に応じて、その他のパラメータも変化し得る。たとえば、各訓練シミュレーションの始めに、シミュレータ500は、それぞれの対数一様分布からパラメータを独立してサンプリングすることができる。これは、システム100がこれらのパラメータのすべての組合せを扱う制御方策を学習することを強制されるので、性能を保証しながら制御システム100に堅牢性を提供する。
【0091】
シミュレータ500は、実世界の磁気閉じ込めデバイス110からの測定値を模倣するシミュレーションされたセンサー測定値の形態で合成観測結果114を生成することができる。それから、制御システム100は、観測結果114を処理して、時間ステップの制御ループを完成させることができる。たとえば、シミュレータ500は、シミュレーションに含まれるそれぞれのワイヤーループ、磁場プローブ、および制御コイルから合成磁場測定値を生成することができる。特定の実世界の閉じ込めデバイス110を特徴付ける十分なデータが提供されると、シミュレータ500は、たとえば、時間遅延およびガウス雑音モデルを使用してセンサーの遅延および雑音を記述することもでき、たとえば、決まったバイアスおよび決まった時間遅延を使用して電源のダイナミクスに起因する制御電圧のオフセットを記述することもできる。
【0092】
シミュレータ500は概して正確であるが、現在のプラズマの状態112のダイナミクスが不十分に表現される場合がある、またはシミュレーションが閉じ込めデバイス110の動作限界を外れている領域が存在する。制御システム100は、適切な報酬および終了条件を使用することによってシミュレータ500のこれらの領域を回避することができる。たとえば、各時間ステップにおいて、シミュレータ500は、現在のプラズマの状態112および閉じ込めデバイス110が物理的に実行可能であるかどうか(502)、すなわち、それらが特定の制約を満たすかどうかを判定することができる。これらの物理的な実行可能性の制約が破られる場合、シミュレータ500は、時間ステップにおけるシミュレーションを終了することができる(504)。シミュレータ500は、これらの領域を回避することをシステム100に教えるために、制御システム100が終了条件に達する場合、大きな負の報酬によって制御システム100にペナルティを与えることもできる。
【0093】
一部の実装において、実行可能性の制約は、プラズマ密度、プラズマ電流、または1つもしくは複数の制御コイルの各々のそれぞれの電流が特定の閾値を満たさないと判定することを含み得る。たとえば、そのような閾値は、最小値を示す場合があり、その最小値未満では、制御システムが「立ち往生」する場合がある。その他の制約も、簡単に実装され得る。
【0094】
図5は、プラズマ閉じ込めニューラルネットワーク102およびクリティックニューラルネットワーク306を共同で訓練するためにアクター・クリティック強化学習技術を使用する例示的な訓練エンジン116である。
【0095】
訓練エンジン116は、「収益」312を増加させる制御信号108を生成するようにプラズマ閉じ込めニューラルネットワーク102を訓練することができる。収益312は、プラズマ閉じ込めニューラルネットワーク102のクリティック観測結果310を処理することによって、クリティックニューラルネットワーク306により生成され得る。クリティック観測結果310は、下で詳細に説明されるように、報酬308に基づいて観測結果114に応答して生成される制御信号108を特徴付ける。この場合、収益312は、報酬の累積的な尺度、たとえば、報酬の時間割引された合計などの報酬の割引された期待される将来の尺度を指す。アクター・クリティック強化学習技術は、プラズマ閉じ込めニューラルネットワーク102を訓練するために、クリティックニューラルネットワーク306の出力、すなわち、収益312を直接的または間接的に使用することができる。クリティックニューラルネットワーク306は、訓練中にのみ必要とされることに留意されたい。
【0096】
プラズマ物理学が信じられないほど複雑であるので、シミュレータ500が閉じ込めデバイス110をモデル化するために使用されるとき、訓練エンジン116の計算要件は通常高くなる。これは、典型的な強化学習環境、たとえば、コンピューターゲームと比較して、データレートを著しく遅くし得る。データの不足を克服するために、訓練エンジン116は、最大事後方策最適化(MPO)技術(Abdolmalekiら、「Maximum a Posteriori Policy Optimisation」、arXiv:1806.06920、2018、またはその変形)を使用することができる。MPOは、複数の並列ストリームにわたってデータを収集することができる分散型アーキテクチャをサポートする。概して、分散型アーキテクチャは、たとえば、中央メモリにおいて、プラズマ閉じ込めニューラルネットワーク102およびクリティックニューラルネットワーク306のためにネットワークパラメータのグローバルなセットが定義されることを可能にする。複数の並列ストリーム(たとえば、独立スレッド、GPU、TPU、CPUなど)は、ネットワークパラメータの現在のセットを使用してローカルの訓練エンジン116を実行することができる。それから、各ストリームは、ローカルの訓練エンジン116の結果を用いてグローバルなネットワークパラメータを更新することができる。この手法は、制御システム100の訓練プロセスを大幅に高速化することができる。
【0097】
プラズマ閉じ込めニューラルネットワーク102およびクリティックニューラルネットワーク306は、それらがそれらの説明された機能を実行することを可能にする任意の適切なニューラルネットワークアーキテクチャをそれぞれ有することができる。たとえば、それらのそれぞれのアーキテクチャは、任意の適切な構成で(たとえば、層の直線的なシーケンス(linear sequence)として)接続された、任意の適切な数(たとえば、3層、10層、または100層)の任意の適切な種類のニューラルネットワーク層(たとえば、全結合層、畳み込み層、リカレント層、またはアテンション層)をそれぞれ含み得る。例として、プラズマ閉じ込めニューラルネットワーク102は、多層パーセプトロン(MLP)などの順伝播型ニューラルネットワークであることが可能であり、クリティックニューラルネットワーク306は、たとえば、LSTM(長期短期記憶(Long Short Term Memory))層を含むリカレントニューラルネットワークであることが可能である。
【0098】
しかし、リアルタイム制御装置として好適であるために、ニューラルネットワーク102/306は、訓練されたプラズマ閉じ込めニューラルネットワーク102が一旦デプロイされると迅速で効率的に実行されることを保証するために、アクター・クリティックアーキテクチャにおける固有の非対称性を利用することができる。この非対称特性は、クリティックニューラルネットワーク306が訓練中にのみ必要とされるという事実のために特に有益であり、クリティック306が測定値から基礎となる状態を推測し、異なるタイムスケールにわたる複雑な状態遷移のダイナミクスを扱い、システムの測定およびアクションの遅延の影響を評価することを可能にする。
【0099】
たとえば、低レイテンシの出力を保証するために、プラズマ閉じ込めニューラルネットワーク102は、限られた数の層、たとえば、4つの層を持つ順伝播型ニューラルネットワークであることが可能である。一方、訓練中は、クリティック306のより高レイテンシの出力が許容され得るので、クリティックニューラルネットワーク306は、より大きなリカレントニューラルネットワークであることが可能である。その結果、クリティックニューラルネットワーク306は、プラズマ閉じ込めニューラルネットワーク102よりもずっと多くのネットワークパラメータを持ち得る。さらに、クリティックニューラルネットワーク306は、プラズマ閉じ込めニューラルネットワーク102によって処理される観測結果114よりも高次元で、より多くのデータを持つクリティック観測結果310を処理することができる。その結果、クリティックニューラルネットワーク306は、プラズマ閉じ込めニューラルネットワーク102よりも多くの計算リソースを消費するように構成され得る。
【0100】
クリティック観測結果310は、時間ステップの磁場制御システム100の制御ループに関わるすべてのデータ、すなわち、観測結果114、目標304、および制御信号108を含み得る。クリティック306は、時間ステップに関して決定された報酬308と一緒にクリティック観測結果310を処理して、収益312を生成することができる。収益312は、特定の時間ステップにおける制御システム100の累積的な将来の報酬を予測する。
【0101】
軌跡を完成した後、訓練エンジン116は、各時間ステップにおける収益312を実際の累積的な将来の報酬と比較することができる。訓練エンジン116は、積み重なった将来の報酬を正確に予測する収益312を生成するように、クリティックニューラルネットワーク306を、すなわち、ネットワークパラメータを更新することによって訓練することができる。逆に、訓練エンジン116は、クリティック306から生成される収益312を最大化する制御信号108を生成するようにプラズマ閉じ込めニューラルネットワーク102を訓練することができる。アクター・クリティック強化学習技術の例は、Volodymyr Minhら、「Asynchronous methods for deep reinforcement learning」、arXiv:1602.01783v2、2016に関連してより詳細に記載されている。
【0102】
図6は、Tokamak a Configuration Variable(TCV)600のレンダリングされた画像である。TCV 600は、大半径0.88m、チャンバの高さ1.50m、およびチャンバの幅0.512mの、Swiss Plasma Centerの研究用トカマクである。TCV 600は、幅広いプラズマ配位を可能にする制御コイルの用途の広い集合を有する。チャンバ601は、16個のポロイダル磁場コイル(8個の内側ポロイダルコイル603-1...8および8個の外側ポロイダルコイル604-1...8)、7個のオーミックトランスフォーマコイル(6個の直列オーミックコイル(ohmic coils in series)605-1...6および中央オーミックコイル606)、ならびに高速Gコイル(fast G coil)607によって囲まれている。TCV 600のすべての制御コイルが図6に描かれているわけではないことに留意されたい。
【0103】
TCV 600は、デバイスのチャンバ601内にプラズマ602を閉じ込めるための磁場制御システム100の実験的実証を行うために利用された。実験の綿密なレビューおよび異なるプラズマ配位を含む実験は、Degrave, J.、Felici, F.、Buchli, J.ら、「Magnetic control of tokamak plasmas through deep reinforcement learning」、Nature 602、414~419 (2022)によって提供される。
【0104】
図7Aおよび図7Bは、磁場制御システム100を使用した複数のプラズマの特徴の制御を示すTCV#70915の実験データである。
【0105】
図7Aは、実験後の平衡再構築(実線)と比較した、半径2cmの目標形状の点(ドット)を示す。図7Bは、そらされたプラズマ(diverted plasma)の窓が印を付けられた(網掛けの長方形)、再構築された観測結果と比較した目標の時間トレースを示す。初期の制限されたフェーズ(limited phase)(0.1sから0.45s)において、Ipの二乗平均平方根誤差(RMSE: root-mean-square error)は、0.71kA(目標の0.59%)であり、形状のRMSEは、0.78cm(容器の半分の幅の3%)である。そらされたフェーズ(diverted phase)(0.55sから0.8s)において、Ipおよび形状のRMSEは、それぞれ0.28kAおよび0.53cm(0.2%および2.1%)であり、0.62kAおよび0.75cm(0.47%および2.9%)の窓全体(0.1秒から1.0秒)のRMSEをもたらす。
【0106】
制御システム100は、磁束を測定する34個のワイヤーループ、局所磁場を測定する38個のプローブ、および(オーミックコイル間の電流の差の明示的な尺度で増強された)アクティブ制御コイルの電流の19個の測定値を使用した。16個のポロイダルコイル603-1...8および604-1...8と3個のオーミックコイル605-2、605-3、および606とを含む19個のアクティブ制御コイルが、プラズマ602を操作するために作動させられた。制御システム100は、TCV 600の磁気センサーおよび電流センサーを10kHzの制御レートで消費する。制御方策は、アクティブ制御コイルのために各時間ステップにおいて基準電圧コマンド(reference voltage command)を生成する。
【0107】
TCV 600を制御することを学習する際に使用された報酬の構成要素の例が、下のTable 1(表1)に示される。TCVの構成(特徴的なプラズマの形状)は、使用される報酬の組合せに依存する。これらの報酬の構成要素のうちの1つまたは複数が、その他の磁気閉じ込めデバイス、たとえば、その他のトカマクの磁場を制御するようにプラズマ閉じ込めニューラルネットワークを訓練するための報酬を決定するために同様に組み合わされてもよい。
【0108】
【表1】
【0109】
図7Aのプラズマの形状を取得するために使用される報酬の例示的な組合せは、LCFS Distance(良い=0.005、悪い=0.05)、Limit Point(良い=0.1、悪い=0.2)、OH Current Diff(良い=50、悪い=1050)、Plasma Current(良い=500、悪い=20000)、X-point Distance(良い=0.01、悪い=0.15)、X-point Far(良い=0.3、悪い=0.1)、X-point Flux Gradient(良い=0、悪い=3)、X-point Normalized Flux(良い=0、悪い=0.08)を組み合わせ、これらの構成要素の各々は、たとえば、シグモイド関数を使用して、「良い」値と「悪い」値との間の範囲にマッピングされる(重み0.5を有するX-point Flux Gradient以外は、組合せにおいて重み1を用いる)。報酬のその他の組合せが、その他の形状を取得するために使用され得る(および、異なる位置の複数のドロップレットが、たとえば、RおよびZに関して複数の目標を定義することによって取得され得る)。
【0110】
本明細書は、用語「構成される」をシステムおよびコンピュータプログラムのコンポーネントに関連して使用する。1つまたは複数のコンピュータのシステムが特定の動作またはアクションを実行するように構成されることは、システムが、動作中にシステムに動作またはアクションを実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せをそのシステム上にインストール済みであることを意味する。1つまたは複数のコンピュータプログラムが特定の動作またはアクションを実行するように構成されることは、1つまたは複数のプログラムが、データ処理装置によって実行されるときに装置に動作またはアクションを実行させる命令を含むことを意味する。
【0111】
本明細書に記載の対象の実施形態および機能的動作は、本明細書において開示された構造およびそれらの構造的均等物を含むデジタル電子回路、有形で具現化されたコンピュータソフトウェアもしくはファームウェア、コンピュータハードウェア、またはそれらのうちの1つもしくは複数の組合せで実装されることが可能である。本明細書に記載の対象の実施形態は、1つまたは複数のコンピュータプログラム、すなわち、データ処理装置による実行のために、またはデータ処理装置の動作を制御するために有形の非一時的ストレージ媒体上に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実装されることが可能である。コンピュータストレージ媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらのうちの1つもしくは複数の組合せであることが可能である。代替的にまたは追加的に、プログラム命令は、データ処理装置による実行のために好適な受信機装置に送信するために情報を符号化するように生成される人為的に生成される伝播信号、たとえば、機械によって生成される電気的信号、光学的信号、または電磁的信号上に符号化され得る。
【0112】
用語「データ処理装置」は、データ処理ハードウェアを指し、例として、1つのプログラミング可能なプロセッサ、1台のコンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての種類の装置、デバイス、およびマシンを包含する。装置は、専用の論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)であることも可能であり、またはそのような専用論理回路をさらに含むことも可能である。任意で、装置は、ハードウェアに加えて、コンピュータプログラムのための実行環境を作成するコード、たとえば、プロセッサのファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つもしくは複数の組合せを構成するコードを含み得る。
【0113】
プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、モジュール、ソフトウェアモジュール、スクリプト、またはコードと呼ばれるまたは記載される場合もあるコンピュータプログラムは、コンパイラ型言語もしくはインタープリタ型言語、または宣言型言語もしくは手続き型言語を含む任意の形態のプログラミング言語で記述されることが可能であり、独立型プログラムとしての形態、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境内での使用に適したその他のユニットとしての形態を含む任意の形態でデプロイされることが可能である。プログラムは、ファイルシステム内のファイルに対応する場合があるが、必ずそうであるとは限らない。プログラムは、その他のプログラムもしくはデータを保持するファイルの一部、たとえば、マークアップ言語のドキュメントに記憶された1つもしくは複数のスクリプトに、問題にしているプログラムに専用の単一のファイルに、または複数の組織されたファイル、たとえば、1つもしくは複数のモジュール、サブプログラム、もしくはコードの一部を記憶するファイルに記憶され得る。コンピュータプログラムは、1台のコンピュータ上で、または1つの場所に置かれるか、もしくは複数の場所に分散され、データ通信ネットワークによって相互に接続される複数のコンピュータ上で実行されるようにデプロイされ得る。
【0114】
本明細書において、用語「エンジン」は、1つまたは複数の特定の機能を実行するようにプログラミングされるソフトウェアに基づくシステム、サブシステム、またはプロセスを指すために広く使用される。概して、エンジンは、1つまたは複数の場所の1つまたは複数のコンピュータにインストールされた1つまたは複数のソフトウェアモジュールまたはコンポーネントとして実装される。場合によっては、1つまたは複数のコンピュータが、特定のエンジンに専用であり、その他の場合、複数のエンジンが、同じ1台のコンピュータまたは複数のコンピュータにインストールされ、実行されていることが可能である。
【0115】
本明細書に記載のプロセスおよび論理フローは、入力データに対して演算を行い、出力を生成することによって機能を実行するために1つまたは複数のコンピュータプログラムを1つまたは複数のプログラミング可能なコンピュータが実行することによって実行され得る。また、プロセスおよび論理フローは、専用論理回路、たとえば、FPGAもしくはASICによって、または専用論理回路と1つもしくは複数のプログラミングされたコンピュータとの組合せによって実行され得る。
【0116】
コンピュータプログラムの実行に好適なコンピュータは、汎用マイクロプロセッサもしくは専用マイクロプロセッサもしくはそれら両方、または任意のその他の種類の中央演算処理装置に基づくことが可能である。概して、中央演算処理装置は、読み出し専用メモリ、またはランダムアクセスメモリ、またはそれら両方から命令およびデータを受け取る。コンピュータの必須の要素は、命令を遂行または実行するための中央演算処理装置、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。中央演算処理装置およびメモリは、専用論理回路によって補完されるか、または専用論理回路に組み込まれることが可能である。また、概して、コンピュータは、データを記憶するための1つもしくは複数の大容量ストレージデバイス、たとえば、磁気ディスク、光磁気ディスク、もしくは光ディスクを含むか、またはそれらの大容量ストレージデバイスからデータを受信するか、もしくはそれらの大容量ストレージデバイスにデータを転送するか、もしくはその両方を行うために動作可能なように結合される。しかし、コンピュータは、そのようなデバイスを有していなくてもよい。さらに、コンピュータは、別のデバイス、たとえば、ほんのいくつか例を挙げるとすれば、モバイル電話、携帯情報端末(PDA)、モバイルオーディオもしくはビデオプレーヤー、ゲームコンソール、全地球測位システム(GPS)受信機、またはポータブルストレージデバイス、たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブに組み込まれることが可能である。
【0117】
コンピュータプログラム命令およびデータを記憶するのに好適なコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD-ROMディスクおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。
【0118】
ユーザとのインタラクションを提供するために、本明細書に記載の対象の実施形態は、ユーザに対して情報を表示するためのディスプレイデバイス、たとえば、CRT(ブラウン管)またはLCD(液晶ディスプレイ)モニタ、ならびにユーザがコンピュータに入力を与えることができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールを有するコンピュータ上に実装されることが可能である。その他の種類のデバイスが、ユーザとのインタラクションを提供するためにやはり使用されることが可能であり、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることが可能であり、ユーザからの入力は、音響、スピーチ、または触覚による入力を含む任意の形態で受け取られることが可能である。加えて、コンピュータは、ユーザによって使用されるデバイスにドキュメントを送信し、そのデバイスからドキュメントを受信することによって、たとえば、ウェブブラウザから受信された要求に応答してユーザのデバイスのウェブブラウザにウェブページを送信することによってユーザとインタラクションすることができる。また、コンピュータは、メッセージングアプリケーションを実行しているパーソナルデバイス、たとえば、スマートフォンにテキストメッセージまたはその他の形態のメッセージを送信し、返報としてユーザから応答メッセージを受信することによってユーザとインタラクションすることができる。
【0119】
機械学習モデルを実装するためのデータ処理装置は、たとえば、機械学習の訓練または生成、つまり、推論の作業負荷のよくある計算量の多い部分を処理するための専用ハードウェアアクセラレータユニットも含み得る。
【0120】
機械学習モデルは、機械学習フレームワーク、たとえば、TensorFlowフレームワークを使用して実装され、デプロイされ得る。
【0121】
本明細書に記載の対象の実施形態は、バックエンドコンポーネントを、たとえば、データサーバとして含むか、またはミドルウェアコンポーネント、たとえば、アプリケーションサーバを含むか、またはフロントエンドコンポーネント、たとえば、ユーザが本明細書に記載の対象の実装とインタラクションすることができるグラフィカルユーザインターフェース、ウェブブラウザ、もしくはアプリを有するクライアントコンピュータを含むか、または1つもしくは複数のそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムに実装されることが可能である。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信、たとえば、通信ネットワークによって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(LAN)および広域ネットワーク(WAN)、たとえば、インターネットを含む。
【0122】
コンピューティングシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは、概して互いに離れており、通常は通信ネットワークを通じてインタラクションする。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行されており、互いにクライアント-サーバの関係にあるコンピュータプログラムによって生じる。一部の実施形態において、サーバは、たとえば、クライアントとして働くデバイスとインタラクションするユーザに対してデータを表示し、そのようなユーザからユーザ入力を受け取る目的でユーザデバイスにデータ、たとえば、HTMLページを送信する。ユーザデバイスにおいて生成されたデータ、たとえば、ユーザインタラクションの結果が、サーバにおいてデバイスから受信されることが可能である。
【0123】
本明細書は多くの特定の実装の詳細を含むが、これらは、いかなる発明の範囲または特許請求される可能性があるものの範囲に対する限定ともみなされるべきでなく、むしろ、特定の発明の特定の実施形態に固有である可能性がある特徴の説明とみなされるべきである。別々の実施形態の文脈で本明細書において説明されている特定の特徴が、単一の実施形態に組み合わせて実装されることも可能である。反対に、単一の実施形態の文脈で説明されている様々な特徴が、複数の実施形態に別々にまたは任意の好適な部分的組合せで実装されることも可能である。さらに、特徴は、特定の組合せで働くものとして上で説明されている場合があり、最初にそのように主張されてさえいる場合があるが、主張された組合せの1つまたは複数の特徴は、場合によっては組合せから削除されることが可能であり、主張された組合せは、部分的組合せ、または部分的組合せの変形を対象とする場合がある。
【0124】
同様に、動作が特定の順序で図面に示され、請求項に記載されているが、これは、そのような動作が示された特定の順序でもしくは逐次的順序で実行されること、または所望の結果を達成するために示されたすべての動作が実行されることを必要とするものと理解されるべきでない。特定の状況においては、マルチタスクおよび並列処理が有利である場合がある。さらに、上述の実施形態における様々なシステムモジュールおよびコンポーネントの分割は、すべての実施形態においてそのような分割を必要とするものと理解されるべきでなく、説明されたプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品に一緒に統合されるか、または複数のソフトウェア製品にパッケージングされることが可能であることが理解されるべきである。
【0125】
対象の特定の実施形態が説明された。その他の実施形態は、添付の請求項の範囲内にある。たとえば、請求項に記載のアクションは、異なる順序で実行され、それでも所望の結果を達成することができる。一例として、添付の図に示されたプロセスは、所望の結果を達成するために、必ずしも、示された特定の順序または逐次的順序を必要としない。場合によっては、マルチタスクおよび並列処理が有利である可能性がある。
【符号の説明】
【0126】
100 磁場制御システム
102 プラズマ閉じ込めニューラルネットワーク
104 ネットワークパラメータ
106 磁気制御出力
108 制御信号
110 磁気閉じ込めデバイス、融合炉閉じ込めデバイス
112 プラズマの現在の状態、現在のプラズマの状態
114 観測結果
116 訓練エンジン
118 プラズマの目標状態、目標のプラズマの状態
200 プロセス
300 プロセス
304 特徴の目標
306 クリティックニューラルネットワーク
308 報酬
310 クリティック観測結果
312 収益
408 デバイスの特徴の現在の値、現在のデバイスの値
410 プラズマの特徴の1つまたは複数の現在の値
412 プラズマの特徴の1つまたは複数の目標値
416 誤差
500 シミュレータ
600 Tokamak a Configuration Variable(TCV)
603-1...8 内側ポロイダルコイル
604-1...8 外側ポロイダルコイル
605-1...6 直列オーミックコイル
606 中央オーミックコイル
607 高速Gコイル
図1
図2
図3
図4
図5
図6
図7A
図7B
【手続補正書】
【提出日】2024-01-30
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるための磁場を制御するための制御信号を生成するために1つまたは複数のデータ処理装置によって実行される方法であって、複数の時間ステップの各々において、
前記磁気閉じ込めデバイスの前記チャンバ内の前記プラズマの現在の状態を特徴付ける観測結果を取得するステップと、
プラズマ閉じ込めニューラルネットワークを使用して、前記磁気閉じ込めデバイスの前記チャンバ内の前記プラズマの前記現在の状態を特徴付ける前記観測結果を含む入力を処理するステップであって、前記プラズマ閉じ込めニューラルネットワークが、複数のネットワークパラメータを有し、前記磁気閉じ込めデバイスの前記磁場を制御するための制御信号を特徴付ける磁気制御出力を生成するために前記ネットワークパラメータに従って前記観測結果を含む前記入力を処理するように構成される、ステップと、
前記磁気制御出力に基づいて、前記磁気閉じ込めデバイスの前記磁場を制御するための前記制御信号を生成するステップとを含む、方法。
【請求項2】
前記磁気制御出力が、前記磁気閉じ込めデバイスの複数の制御コイルの各々に印加されるそれぞれの電圧を特徴付ける、請求項1に記載の方法。
【請求項3】
前記磁気制御出力が、前記磁気閉じ込めデバイスの前記複数の制御コイルの各々に関して、前記制御コイルに印加され得る可能な電圧のセット上のそれぞれのスコア分布を定義する、請求項2に記載の方法。
【請求項4】
前記磁気制御出力に基づいて前記磁気閉じ込めデバイスの前記磁場を制御するための制御信号を生成するステップが、前記磁気閉じ込めデバイスの前記複数の制御コイルの各々に関して、
前記制御コイルに印加され得る可能な電圧の前記セット上の前記それぞれのスコア分布から電圧を選択するステップと、
サンプリングされた電圧を前記制御コイルに印加させるための制御信号を生成するステップとを含む、請求項3に記載の方法。
【請求項5】
前記複数の時間ステップの各々に関して、(i)前記プラズマの前記現在の状態と、(ii)前記プラズマの目標状態との間の誤差を特徴付ける前記時間ステップの報酬を決定するステップと、
強化学習技術を使用して、前記報酬で前記プラズマ閉じ込めニューラルネットワークのニューラルネットワークパラメータを訓練するステップとをさらに含む、請求項1に記載の方法。
【請求項6】
前記複数の時間ステップのうちの1つまたは複数に関して、前記時間ステップの前記報酬を決定するステップが、
前記プラズマを特徴付ける1つまたは複数のプラズマの特徴の各々に関して、(i)前記時間ステップにおける前記プラズマの特徴の現在の値と、(ii)前記時間ステップにおける前記プラズマの特徴の目標値との間の差を測定するそれぞれの誤差を決定するステップと、
前記時間ステップにおける前記1つまたは複数のプラズマの特徴の各々に対応する前記それぞれの誤差に少なくとも部分的に基づいて前記時間ステップの前記報酬を決定するステップとを含む、請求項5に記載の方法。
【請求項7】
前記複数の時間ステップのうちの1つまたは複数に関して、前記時間ステップにおける前記プラズマの特徴の各々に対応する前記それぞれの誤差に基づいて前記時間ステップの前記報酬を決定するステップが、
前記時間ステップにおける前記プラズマの特徴に対応する前記それぞれの誤差の重み付き線形結合として前記時間ステップの前記報酬を決定するステップを含む、請求項6に記載の方法。
【請求項8】
前記プラズマの特徴のうちの1つまたは複数の各々のそれぞれの目標値が、時間ステップ間で変化する、請求項6に記載の方法。
【請求項9】
前記複数の時間ステップの各々において、前記プラズマ閉じ込めニューラルネットワークへの前記入力が、前記時間ステップの前記観測結果に加えて、前記時間ステップにおける前記プラズマの特徴の各々のそれぞれの目標値を定義するデータを含む、請求項6に記載の方法。
【請求項10】
前記プラズマの特徴が、前記プラズマの安定性、前記プラズマのプラズマ電流、前記プラズマの形状、前記プラズマの位置、前記プラズマの面積、前記プラズマのドメインの数、プラズマのドロップレット間の距離、前記プラズマの伸長、プラズマ中心の半径方向位置、前記プラズマの半径、前記プラズマの三角度、または前記プラズマの限界点のうちの1つまたは複数を含む、請求項6に記載の方法。
【請求項11】
前記複数の時間ステップのうちの1つまたは複数に関して、前記時間ステップの前記報酬を決定するステップが、
前記磁気閉じ込めデバイスの現在の状態を特徴付ける1つまたは複数のデバイスの特徴の各々のそれぞれの現在の値を決定するステップと、
前記時間ステップにおける前記1つまたは複数のデバイスの特徴の前記それぞれの現在の値に少なくとも部分的に基づいて前記時間ステップの前記報酬を決定するステップとを含む、請求項5に記載の方法。
【請求項12】
前記デバイスの特徴が、前記磁気閉じ込めデバイスの前記チャンバ内のX点の数、前記磁気閉じ込めデバイスの1つもしくは複数の制御コイルの各々のそれぞれの電流、または前記磁気閉じ込めデバイスの前記チャンバ内のX点の前記数と、前記磁気閉じ込めデバイスの前記1つもしくは複数の制御コイルの各々の前記それぞれの電流との両方を含む、請求項11に記載の方法。
【請求項13】
前記磁気閉じ込めデバイスが、磁気閉じ込めデバイスのシミュレーションであり、前記方法が、前記複数の時間ステップの最後の時間ステップにおいて、
前記磁気閉じ込めデバイスの物理的な実行可能性の制約が前記時間ステップにおいて破られると判定するステップと、
前記磁気閉じ込めデバイスの前記物理的な実行可能性の制約が前記時間ステップにおいて破られるとの判定に応答して、前記磁気閉じ込めデバイスの前記シミュレーションを終了するステップとをさらに含む、請求項12に記載の方法。
【請求項14】
前記磁気閉じ込めデバイスの前記物理的な実行可能性の制約が前記時間ステップにおいて破られると判定するステップが、前記時間ステップにおける前記プラズマの密度が閾値を満たさないと判定するステップ、前記時間ステップにおける前記プラズマのプラズマ電流が閾値を満たさないと判定するステップ、または前記制御コイルのうちの1つもしくは複数の各々のそれぞれの電流が閾値を満たさないと判定するステップのうちの1つまたは複数を含む、請求項13に記載の方法。
【請求項15】
前記強化学習技術が、アクター・クリティック強化学習技術であり、前記報酬で前記プラズマ閉じ込めニューラルネットワークの前記ネットワークパラメータを訓練するステップが、
前記アクター・クリティック強化学習技術を使用して前記報酬で前記プラズマ閉じ込めニューラルネットワークおよびクリティックニューラルネットワークを共同で訓練するステップであって、前記クリティックニューラルネットワークが、時間ステップの後に受け取られると予測される報酬の累積的な尺度を特徴付ける出力を生成するために、前記時間ステップのクリティック観測結果を含む入力を処理するように構成される、ステップを含む、請求項5に記載の方法。
【請求項16】
前記アクター・クリティック強化学習技術が、最大事後方策最適化(MPO)技術である、請求項15に記載の方法。
【請求項17】
前記アクター・クリティック強化学習技術が、分散型アクター・クリティック強化学習技術である、請求項15に記載の方法。
【請求項18】
前記プラズマ閉じ込めニューラルネットワークが、出力を生成するために前記クリティックニューラルネットワークによって必要とされるよりも少ない計算リソースを使用して出力を生成する、請求項15に記載の方法。
【請求項19】
前記プラズマ閉じ込めニューラルネットワークが、出力を生成するために前記クリティックニューラルネットワークによって必要とされるよりも低いレイテンシで出力を生成する、請求項15に記載の方法。
【請求項20】
前記プラズマ閉じ込めニューラルネットワークが、前記クリティックニューラルネットワークよりも少ないネットワークパラメータを有する、請求項15に記載の方法。
【請求項21】
前記プラズマ閉じ込めニューラルネットワークが、順伝播型ニューラルネットワークであり、前記クリティックニューラルネットワークが、リカレントニューラルネットワークである、請求項15に記載の方法。
【請求項22】
前記クリティックニューラルネットワークが、前記プラズマ閉じ込めニューラルネットワークによって処理される観測結果よりも高い次元を有し、より多くのデータを含むクリティック観測結果を処理するように構成される、請求項15に記載の方法。
【請求項23】
前記複数の時間ステップの各々において、前記磁気閉じ込めデバイスの前記チャンバ内の前記プラズマの前記現在の状態を特徴付ける前記観測結果が、1つもしくは複数のワイヤーループの各々から取得されたそれぞれの磁束測定値、1つもしくは複数の磁場プローブの各々から取得されたそれぞれの磁場測定値、または前記磁気閉じ込めデバイスの1つもしくは複数の制御コイルの各々からのそれぞれの電流測定値のうちの1つまたは複数を含む、請求項1に記載の方法。
【請求項24】
前記磁気閉じ込めデバイスが、シミュレーションされた磁気閉じ込めデバイスである、請求項1に記載の方法。
【請求項25】
前記プラズマ閉じ込めニューラルネットワークを使用して前記シミュレーションされた磁気閉じ込めデバイスを制御することに基づいて前記プラズマ閉じ込めニューラルネットワークを訓練した後、
実世界の磁気閉じ込めデバイスの1つまたは複数のセンサーから生成された観測結果を処理し、前記プラズマ閉じ込めニューラルネットワークによって生成された磁気制御出力を使用して、前記実世界の磁気閉じ込めデバイスの磁場を制御するための実世界の制御信号を生成することによって、前記実世界の磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるための前記磁場を制御するために前記プラズマ閉じ込めニューラルネットワークを使用するステップをさらに含む、請求項24に記載の方法。
【請求項26】
前記磁気閉じ込めデバイスが、トカマクであり、前記磁気閉じ込めデバイスの前記チャンバが、トロイダル形状を有する、請求項1に記載の方法。
【請求項27】
前記プラズマが、核融合によって電力を生成するために使用される、請求項1に記載の方法。
【請求項28】
1つまたは複数のコンピュータによって実行されるときに前記1つまたは複数のコンピュータに請求項1から27のいずれか一項に記載のそれぞれの方法の動作を実行させる命令を記憶する、1つまたは複数の非一時的コンピュータストレージ媒体。
【請求項29】
1つまたは複数のコンピュータと、
前記1つまたは複数のコンピュータに通信可能なように結合された1つまたは複数のストレージデバイスであって、前記1つまたは複数のコンピュータによって実行されるときに前記1つまたは複数のコンピュータに請求項1から27のいずれか一項に記載のそれぞれの方法の動作を実行させる命令を記憶する、1つまたは複数のストレージデバイスとを含む、システム。
【請求項30】
磁気閉じ込めデバイスのチャンバ内にプラズマを閉じ込めるための磁場を制御するための制御信号を生成するために1つまたは複数のデータ処理装置によって実行される方法であって、複数の時間ステップの各々において、
前記磁気閉じ込めデバイスの前記チャンバ内の前記プラズマの現在の状態を特徴付ける観測結果を取得するステップと、
訓練されたプラズマ閉じ込めニューラルネットワークを使用して、前記磁気閉じ込めデバイスの前記チャンバ内の前記プラズマの前記現在の状態を特徴付ける前記観測結果を含む入力を処理するステップであって、前記訓練されたプラズマ閉じ込めニューラルネットワークが、複数のネットワークパラメータを有し、前記磁気閉じ込めデバイスの前記磁場を制御するための制御信号を特徴付ける磁気制御出力を生成するために前記ネットワークパラメータに従って前記観測結果を含む前記入力を処理するように構成される、ステップと、
前記磁気制御出力に基づいて、前記磁気閉じ込めデバイスの前記磁場を制御するための前記制御信号を生成するステップとを含む、方法。
【国際調査報告】