IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧

特表2024-541746学習中のロバストなフィードバック制御のポリトピックポリシー最適化のためのシステムおよび方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-11
(54)【発明の名称】学習中のロバストなフィードバック制御のポリトピックポリシー最適化のためのシステムおよび方法
(51)【国際特許分類】
   G05B 13/04 20060101AFI20241101BHJP
   G05B 13/02 20060101ALI20241101BHJP
   G06N 20/00 20190101ALI20241101BHJP
【FI】
G05B13/04
G05B13/02 L
G06N20/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024550931
(86)(22)【出願日】2022-09-09
(85)【翻訳文提出日】2024-05-22
(86)【国際出願番号】 JP2022034658
(87)【国際公開番号】W WO2023105879
(87)【国際公開日】2023-06-15
(31)【優先権主張番号】17/643,604
(32)【優先日】2021-12-10
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】ジャー,デベシュ
(72)【発明者】
【氏名】チャクラバルティ,アンクシュ
【テーマコード(参考)】
5H004
【Fターム(参考)】
5H004GA17
5H004GB16
5H004HA07
5H004HB07
5H004KA72
5H004KD61
5H004LA12
(57)【要約】
システムの力学を学習することによって、システムを制御するポリシーを生成するためのコントローラが提供される。コントローラはステップを実行するように構成され、ステップは、システム上に配置されたセンサから測定データを取得するステップと、システムの力学の既知の部分と、システムの力学の未知の部分とによって表される非線形システムモデルを、メモリに提供するステップと、システムの状態に関する公称ポリシーとノイズ項とに基づいて、システムのセンサを使用してシステムの力学を測定することによって、状態を収集するステップと、システムのデータを収集することによって、システムの状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、データは、システム状態の集合と、適用される制御入力と、システム状態の変化とを含み、制御入力の各々は、公称ポリシーと追加のノイズ項とによって計算され、ステップはさらに、線形確率回帰モデルを使用してシステムの力学の未知の部分を近似するためにシステムの収集されたデータを使用して、ポリトピックシステムを学習するステップと、終端状態の近傍の状態をサンプリングし、教師あり学習により終端コントローラのアトラクタベイスンを推定することによって、アトラクタベイスンを推定するステップと、システムを、初期状態から終端コントローラのアトラクタベイスンに進めるために、推定されたポリトピックシステムを使用してポリトピックポリシーを生成するステップとを含む。
【特許請求の範囲】
【請求項1】
システムの力学を学習することによって、前記システムを制御するポリシーを生成するためのコントローラであって、
前記システム上に配置されたセンサから測定データを取得するインターフェイスコントローラと、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによって実行されると、前記コントローラにステップを実行させるモデル学習モジュールおよびポリシー学習モジュールを含むコンピュータ実装命令を格納するメモリとを備え、前記ステップは、
前記システムの前記力学の既知の部分と、前記システムの前記力学の未知の部分とによって表される非線形システムモデルを、前記メモリに提供するステップと、
前記システムの状態に関する公称ポリシーとノイズ項とに基づいて、前記システムの前記センサを使用して前記システムの前記力学を測定することによって、前記状態を収集するステップと、
前記システムのデータを収集することによって、前記システムの状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、前記データは、システム状態の集合と、適用される制御入力と、システム状態の変化とを含み、適用される前記制御入力の各々は、前記公称ポリシーと前記追加のノイズ項とによって計算され、前記ステップはさらに、
線形確率回帰モデルを使用して前記システムの前記力学の前記未知の部分を近似するために前記システムの収集された前記データを使用して、ポリトピックシステムを学習するステップと、
終端状態の近傍の状態をサンプリングし、教師あり学習により終端コントローラのアトラクタベイスンを推定することによって、前記アトラクタベイスンを推定するステップと、
前記システムを、初期状態から前記終端コントローラの前記アトラクタベイスンに進めるために、推定された前記ポリトピックシステムを使用してポリトピックポリシーを生成するステップとを含む、コントローラ。
【請求項2】
前記システムを前記終端コントローラのアトラクタベイスンに進め、前記終端コントローラを用いて前記システムを所望の終端状態に進めるロバストポリトピックポリシーを含むハイブリッド制御ポリシーを実装するステップをさらに含む、請求項1に記載のコントローラ。
【請求項3】
前記コントローラはさらに、前記システムの前記既知のシステムモデルを使用して探索ポリシーを生成する、請求項1に記載のコントローラ。
【請求項4】
前記コントローラはさらに、前記システム上で探索ポリシーを実装し、状態軌道と入力軌道とを収集することによって、前記システムからデータを収集する、請求項1に記載のコントローラ。
【請求項5】
前記コントローラはさらに、前記システムと前記システムの力学の前記既知のシステムモデルとの間の残差力学を学習する、請求項1に記載のコントローラ。
【請求項6】
前記コントローラはさらに、前記システムと前記既知のシステムモデルとの間の所与の制御軌道についての状態軌道の差として、残差力学に関するデータを収集する、請求項1に記載のコントローラ。
【請求項7】
前記コントローラはさらに、ベイズ最適化を使用する残差力学の確率的機械学習モデルを使用する、請求項1に記載のコントローラ。
【請求項8】
前記コントローラはさらに、ベイズモデルと所定の信頼区間とを使用して、残差力学のポリトピックシステムを推定する、請求項1に記載のコントローラ。
【請求項9】
前記コントローラはさらに、前記ポリトピックシステムと半正定値計画とを使用して、ロバストポリトピックコントローラを生成する、請求項1に記載のコントローラ。
【請求項10】
前記システムの前記終端状態における前記終端コントローラは、前記システムを前記所望の終端状態に進めるために生成される、請求項1に記載のコントローラ。
【請求項11】
前記コントローラはさらに、機械学習ベースの分類技術を使用して、前記終端コントローラの前記アトラクタベイスンを推定する、請求項1に記載のコントローラ。
【請求項12】
システムの力学を学習することによって、前記システムを制御するポリシーを生成するための、コンピュータに実装される方法であって、
前記システム上に配置されたセンサから測定データを取得するステップと、
前記システムの前記力学の既知の部分と、前記システムの前記力学の未知の部分とによって表される非線形システムモデルを、前記メモリに提供するステップと、
前記システムの状態に関する公称ポリシーとノイズ項とに基づいて、前記システムの前記センサを使用して前記システムの前記力学を測定することによって、前記状態を収集するステップと、
前記システムのデータを収集することによって、前記システムの状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、前記データは、システム状態の集合と、適用される制御入力と、システム状態の変化とを含み、前記制御入力の各々は、前記公称ポリシーと前記追加のノイズ項とによって計算され、前記方法はさらに、
線形確率回帰モデルを使用して前記システムの前記力学の前記未知の部分を近似するために前記システムの収集された前記データを使用して、ポリトピックシステムを学習するステップと、
終端状態の近傍の初期状態をサンプリングし、教師あり学習により終端コントローラのアトラクタベイスンを推定することによって、前記アトラクタベイスンを推定するステップと、
前記システムを、初期状態から前記終端コントローラの前記アトラクタベイスンに進めるために、推定された前記ポリトピックシステムを使用してポリトピックポリシーを生成するステップとを含む、方法。
【請求項13】
前記システムを前記終端コントローラのアトラクタベイスンに進め、前記終端コントローラを用いて前記システムを所望の終端状態に進めるロバストポリトピックポリシーを含むハイブリッド制御ポリシーを実装するステップをさらに含む、請求項12に記載のコンピュータに実装される方法。
【請求項14】
前記コントローラはさらに、前記システムの前記既知のシステムモデルを使用して探索ポリシーを生成する、請求項12に記載のコンピュータに実装される方法。
【請求項15】
前記コントローラはさらに、前記システム上で探索ポリシーを実装し、状態軌道と入力軌道とを収集することによって、前記システムからデータを収集する、請求項12に記載のコンピュータに実装される方法。
【請求項16】
前記コントローラはさらに、前記システムと前記システムの力学の前記既知のシステムモデルとの間の残差力学を学習する、請求項12に記載のコンピュータに実装される方法。
【請求項17】
前記コントローラはさらに、前記システムと前記既知のシステムモデルとの間の所与の制御軌道についての状態軌道の差として、残差力学に関するデータを収集する、請求項12に記載のコンピュータに実装される方法。
【請求項18】
前記コントローラはさらに、ベイズ最適化を使用する残差力学の確率的機械学習モデルを使用する、請求項12に記載のコンピュータに実装される方法。
【請求項19】
前記コントローラはさらに、ベイズモデルと所定の信頼区間とを使用して、残差力学のポリトピックシステムを推定する、請求項12に記載のコンピュータに実装される方法。
【請求項20】
前記コントローラはさらに、前記ポリトピックシステムと半正定値計画とを使用して、ロバストポリトピックコントローラを生成する、請求項12に記載のコンピュータに実装される方法。
【請求項21】
前記システムの前記終端状態における前記終端コントローラは、前記システムを前記所望の終端状態に進めるために生成される、請求項12に記載のコンピュータに実装される方法。
【請求項22】
前記コントローラはさらに、機械学習ベースの分類技術を使用して、前記終端コントローラの前記アトラクタベイスンを推定する、請求項12に記載のコンピュータに実装される方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概してシステム制御に関し、より特定的には、学習中の部分的に既知の力学を有するシステムのロバストな最適化およびフィードバック制御のための方法および装置に関する。
【背景技術】
【0002】
機械学習および人工知能の分野は過去10年間に画期的に向上したが、物理システムまたはロボットシステムに関しては、これらの技術の応用は限られている。たとえば、ほとんどのロボットシステムは、複雑なプロセスを制御するために、古典的なモデルベースのアプローチを依然として使用している。これは、ロバスト性の欠如またはサンプル効率の悪さなど、ほとんどの既存の学習アプローチを特徴付けるいくつかの望ましくない特徴に起因し得る。物理力学を正確に表現する(学習)モデルは稀であるため、物理システムの制御のための学習中のロバスト性を保証することは重要である。
【0003】
強化学習(reinforcement learning:RC)は、逐次的な意思決定問題を扱う学習フレームワークであり、「エージェント」または意思決定者が、典型的に未知の環境と相互作用することによって、長期的な報酬を最適化するポリシーを学習する。各反復または時間ステップにおいて、RLエージェントは、その行動の長期的なパフォーマンスに関する評価フィードバック(報酬またはコストと呼ばれる)を取得して、その後の動作のパフォーマンスを向上させることができる。
【0004】
モデルフリー強化学習(RL)法は、複雑な力学モデルを必要とせずに制御ポリシーを構築できることから、広く普及している。しかしながら、モデルフリーRLアルゴリズムの大半は、重要なシステム特性、たとえば外乱に対するロバスト性または漸近安定性でさえ、組み込むことができない。逆に、モデルベースのRL(mode-based RL:MBRL)は、このような所望の特性を組み込むことができるが、基礎となる力学モデルに大きく依存しており、モデルの不一致が大きいと性能が低下し、時には壊滅的な失敗に至ることさえある。この問題は、真の力学を知ることが非常に困難な多くの異なるシナリオに非常に関連している。これは、ロボットが実行中に新しいオブジェクトと相互作用することが想定され、そのため相互作用の事前モデルを持つことができない多くのロボットシステムに当てはまる。
【0005】
MBRL技術のポリシー最適化段階では、最適化法は学習されたモデルに不確実性を組み込むことを可能にし、部分的に既知のシステムを制御するために、結果として得られるコントローラのロバスト性を保証する必要がある。これは、一般的に実現が困難である。これは、システム力学に存在する不確実性の知識および表現と、ポリシー最適化ステップにおける不確実性の利用とを必要とする問題である。しかしながら、これはロボット工学、自律走行などの分野における学習コントローラへの多くの異なる応用に必要である。
【発明の概要】
【発明が解決しようとする課題】
【0006】
学習ベースのコントローラ設計のための技術のほとんどは、学習中にシステムが所望のシステム状態に収束することを原則として保証できないため、システムに実装した場合のパフォーマンスの低さに苦労している。非線形システムの安定化コントローラの設計における先行研究では、非線形システムの収束と安定性とを保証するために、コントローラの吸引ベイスン(または領域)の概念が使用されてきた。たとえば、 Tedrake, Russ, et al. 「LQR-trees: Feedback motion planning via sums-of-squares verification.」The International Journal of Robotics Research 29.8 (2010): 1038-1052 を参照。非線形コントローラの吸引領域を計算することは、学習されたモデルの不確実性が原因で、学習段階では実行不可能である可能性がある。しかしながら、ロボットの状態空間全体をカバーするような吸引領域を設計する必要はないかもしれない。既知の吸引領域を有する終端コントローラを設計すれば十分な場合もある。その場合、制御問題は、システムを終端コントローラのアトラクタベイスン(attractor basin)までロバストに移動させるタスクに分割することができ、終端コントローラは、システムの状態を所望の終端状態に調整することができる。
【0007】
これを理解した上で、コントローラ設計時にシステム力学の不確実性を取り込み、システムを初期状態から終端コントローラのアトラクタベイスンまで確実に移動させることができるコントローラを設計可能であることが重要である。しかしながら、コントローラ設計中に不確実性を組み込むには、コントローラの計算に適した方法で不確実性を推定し、表現しなければならない。
【0008】
力学系が常に所望の終端状態に収束することを保証するために、システムがシステムの終端ベイスンに到達すると、所望の終端状態へのシステムの調整を保証する終端コントローラを設計する必要がある。一般に、非線形システムのコントローラについてアトラクタベイスンを推定することは、計算的にもアルゴリズム的にも非常に難しい問題である。しかしながら、コントローラのアトラクタベイスンを効率的に推定することで、所望の振る舞いを安定させ、素早く学習することができる。
【0009】
したがって、モデル学習中の不確実性の適切な表現を利用し、学習中に所望の性能を得るためにシステムをロバストに制御するコントローラを設計することが可能な、ロバストなポリシー最適化技術およびコントローラ設計技術が必要とされている。
【課題を解決するための手段】
【0010】
いくつかの実施形態の目的は、学習中に、部分的に既知の力学を有するシステムの制御ポリシーのデータ駆動ロバスト最適化のためのシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の目的は、部分的に既知のシステムについて不確実性のポリトピック表現を学習することが可能なシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の目的は、局所安定性が保証されたポリトピック不確実性表現を使用してロバスト最適化を実行して、ロバストポリトピックコントローラを計算することが可能なシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の目的は、基礎となるシステムの終端コントローラの吸引領域を学習可能なシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の目的は、終端コントローラとポリトピックコントローラとの吸引領域などにおいて、終端コントローラを用いて基礎となる力学系を制御するシステムおよび方法を提供することである。
【0011】
本開示のいくつかの実施形態では、残差(真の力学のモデル化されていない成分)システムが存在する可能性が高いポリトープを学習することによって、モデルの不一致に取り組むことが可能な、新規なロバストポリシー最適化メカニズムを提供する。ベイズ回帰に基づくこの残差力学のポリトピック過剰近似によって、扱いやすい半正定値計画(semidefinite program:SDP)を解くことによるロバストポリシーの構築が可能になる。
【0012】
本開示のいくつかの実施形態によれば、データから直接学習されるベイズポリトープ(Bayesian polytope)を用いてモデルの不確実性を表現することにより、モデルベースの強化学習用のロバストなポリシーを学習するための、新規なコンピュータに実装される方法が提供される。この方法のアルゴリズムは、入力制約と状態制約とを満たす。さらに、新規な方法は、学習されたベイズポリトープの仮定の下で、局所安定性を保証したポリトープコントローラに整理される。本開示では、ロバストポリトピックコントローラの設計例として、終端コントローラのキャッチベイスンを推定することによって、より優れたデータ効率と保証された安定性とがもたらされることについて説明する。
【0013】
このようなスローポリシー(throw policy)はシステムの出力データから学習され、その役割は、指定された目標状態に向けてシステム力学を伝播させることである。目標状態では、キャッチポリシー(catch policy)を採用し、教師あり学習を活用して、どのような状態も目標状態に安定可能になることが(高確率で)保証される、対応するキャプチャベイスンを推定する。したがって、スローポリシーが状態をこのキャプチャベイスン内に導くと、キャッチポリシーはシステムを目標態に進める。我々のアプローチの大きな利点は、状態制約および入力制約も組み込めることである。提案されたアルゴリズムを、倒立振子および劣駆動アクロボットシステムで実証する。
【0014】
いくつかの実施形態は、システムの力学モデルの不正確さが、力学系のコントローラを設計するために使用される力学系の予測における複合誤差につながるという認識に基づいている。不正確な力学モデルで力学系の所望の挙動を実現するために、一般に、不正確さを定量化し、次に、動作中にこれらの不正確さを補償できるようにするために、コントローラ設計において不正確さの推定を使用する必要がある。
【0015】
本開示のいくつかの実施形態は、ほとんどの物理モデルについて、予測モデルが専門知識を使用して利用可能であるか、または物理エンジンを使用して作成可能であるという認識に基づいている。これらのモデルは一般に不正確であり、実システムからの物理的観測と正確に一致しない。しかしながら、これらのモデルは、実システムを制御するための初期コントローラを計算するために使用することができる。いくつかの実施形態は、このようなコントローラは、実システムでは性能が劣るが、実システムからデータを収集するために使用可能であるという認識に基づいている。このデータは、実システムの予測モデルを改善するために使用することができる。
【0016】
本開示のいくつかの実施形態は、コントローラを用いて実システムから収集されたデータを使用して、実システムとシステムのモデルとの間の観測値の差を計算可能であるという認識に基づいている。実システムとシステムの既知のモデルとの差は、機械学習モデルを使用して、収集されたデータから学習することができる。本開示のいくつかの実施形態は、機械学習モデルの不確実性を、同じものについて異なる表現を使用して異なる方法で定量化することが可能であるという認識に基づいている。
【0017】
本開示のいくつかの実施形態は、不確実性について線形表現またはポリトピック表現を使用することにより、既知の不確実性を有する力学モデルのロバストなフィードバックコントローラを設計するために、半正定値計画(Semi-Definite Programming:SDP)からツールを使用することができるという認識に基づいている。このようなロバストコントローラは、モデルの不確実性に対する局所的なロバスト性を保証しつつ設計することができる。本開示のいくつかの実施形態は、線形ベイズ最適化とベイズ回帰法による予測についての所定の信頼区間とを使用して、学習済みモデルにおける不確実性についてのポリトピック表現を得ることができるという認識に基づいている。
【0018】
本開示のいくつかの実施形態は、システムが到達できない状態空間の部分において、システムの力学モデルを修正することができない場合があるという認識に基づいている。計算された制御軌道を実装すると、観測された状態と計算された公称軌道との間の誤差は、軌道のホライズンと共に増大する。その結果、システムは所望の終端状態近傍に到達することはない。いくつかの実施形態はこの認識に基づくものであり、それゆえ、システムが終端コントローラのアトラクタベイスンに入ると、システム状態を所望のシステム状態へ、そして終端状態へと調整する終端コントローラを設計する。
【0019】
本開示のいくつかの実施形態は、力学系が調整可能であり、システムの所望の終端状態に留まることを保証するために、ほとんどの力学系は安定した終端コントローラを必要とするという認識に基づいている。しかしながら、終端コントローラとは別に、終端コントローラが安定であることが保証される終端コントローラのアトラクタベイスンを推定する必要がある。本開示のいくつかの実施形態は、システムの終端状態におけるモデルが既知であるかどうかに応じて、力学系の終端コントローラが、モデルフリーまたはモデルベースの方法を使用して設計され得るという認識に基づいている。終端状態におけるモデルが既知でない場合、終端コントローラは、比例・積分・微分(proportional, integral and derivative:PID)コントローラのようなモデルフリーアプローチを使用して計算することもできる。
【0020】
本開示のいくつかの実施形態は、終端状態の近傍から状態をサンプリングし、サンプリングされた状態が所望の終端状態に調整され得るかどうかを予測する分類器を訓練することによって、終端コントローラのアトラクタベイスンが推定され得るという認識に基づいている。このような学習プロセスは、最初に終端状態の近傍の状態をサンプリングし、次に、所望の終端状態へのシステムの定常状態の収束挙動を観察することによって、設計することができる。初期状態からデータと収束ラベルとを収集した後、任意の初期状態からの収束を予測するように分類器を訓練して、終端コントローラのアトラクタベイスンの推定値を提供することができる。
【0021】
本開示のいくつかの実施形態は、最終的なコントローラ設計が、ロバストなSDPベースのコントローラを用いてシステム状態をコントローラのアトラクタベイスンに進め、その後、学習された分類器によって予測された終端コントローラを使用するという認識に基づいている。
【0022】
本発明のいくつかの実施形態によれば、システムの力学を学習することによって、システムを制御するポリシーを生成するためのコントローラが提供される。コントローラは、システム上に配置されたセンサから測定データを取得するインターフェイスコントローラと、少なくとも1つのプロセッサと、少なくとも1つのプロセッサによって実行されると、コントローラにステップを実行させるモデル学習モジュールおよびポリシー学習モジュールを含み、コンピュータ実装命令を格納するメモリとを備え得る。ステップは、システムの力学の既知の部分と、システムの力学の未知の部分とによって表される非線形システムモデルを、メモリに提供するステップと、システムの状態に関する公称ポリシーとノイズ項とに基づいて、システムのセンサを使用してシステムの力学を測定することによって、状態を収集するステップと、システムのデータを収集することによって、システムの状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、データは、システム状態の集合と、適用される制御入力と、システム状態の変化とを含み、制御入力の各々は、公称ポリシーと追加のノイズ項とによって計算され、ステップはさらに、線形確率回帰モデルを使用してシステムの力学の未知の部分を近似するためにシステムの収集されたデータを使用して、ポリトピックシステムを学習するステップと、終端状態の近傍の初期状態をサンプリングし、教師あり学習により終端コントローラのアトラクタベイスンを推定することによって、アトラクタベイスンを推定するステップと、システムを、初期状態から終端コントローラのアトラクタベイスンに進めるために、推定されたポリトピックシステムを使用してポリトピックポリシーを生成するステップとを含む。
【0023】
さらに、いくつかの実施形態によれば、システムの力学を学習することによって、システムを制御するポリシーを生成するための、コンピュータに実装される方法が提供される。コンピュータに実装される方法に基づいて実行されるステップは、システム上に配置されたセンサから測定データを取得するステップと、システムの力学の既知の部分と、システムの力学の未知の部分とによって表される非線形システムモデルを、メモリに提供するステップと、システムの状態に関する公称ポリシーとノイズ項とに基づいて、システムのセンサを使用してシステムの力学を測定することによって、状態を収集するステップと、システムのデータを収集することによって、システムの状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、データは、システム状態の集合と、適用される制御入力と、システム状態の変化とを含み、制御入力の各々は、公称ポリシーと追加のノイズ項とによって計算され、方法はさらに、線形確率回帰モデルを使用してシステムの力学の未知の部分を近似するためにシステムの収集されたデータを使用して、ポリトピックシステムを学習するステップと、終端状態の近傍の初期状態をサンプリングし、教師あり学習により終端コントローラのアトラクタベイスンを推定することによって、アトラクタベイスンを推定するステップと、システムを、初期状態から終端コントローラのアトラクタベイスンに進めるために、推定されたポリトピックシステムを使用してポリトピックポリシーを生成するステップとを含む。
【0024】
本開示の実施形態は、添付の図面を参照してさらに説明される。図示された図面は、必ずしも縮尺通りではなく、一般に、本開示の実施形態の原理を説明することに重点が置かれている。
【図面の簡単な説明】
【0025】
図1A】本開示のいくつかの実施形態に係る、提案されたポリシー最適化方法の例を示す図である。
図1B】本開示のいくつかの実施形態に係る、システムの状態空間におけるシステム力学の既知の部分および未知の部分とデータ収集プロセスとを示す図である。
図2】本開示のいくつかの実施形態に係る、制御方法を使用したスローキャッチコントローラの計算に関与するステップのシーケンスを示す図である。
図3】本開示のいくつかの実施形態に係る、実システムおよび既知のシステムのシステム軌道を示す図である。
図4】システム力学の未知の部分に起因する、システムの設計された軌道と観測された軌道との差を示す図である。
図5】本開示のいくつかの実施形態に係る、実システムおよびシミュレートされたシステムを使用して収集されたデータから学習されたベイズシステムを示す図である。
図6】本開示のいくつかの実施形態に係る、制御されたシステムの下でシステム状態をサンプリングし、分類器モデルをサンプリングされたデータに適合させることによって、所与のコントローラについてシステムの吸引領域を学習することに関与するステップのシーケンスを示す図である。
図7】本開示のいくつかの実施形態に係る、システムの終端コントローラの吸引領域を示す図である。
図8】本開示のいくつかの実施形態に係る、スローキャッチ(Throw-Catch)コントローラの計算時のシステムの動作を示す図である。
図9】本開示のいくつかの実施形態に係る、システムが終端コントローラのアトラクタベイスンに入ると終端コントローラが実装される、システム上の計算されたロバスト制御の実装を示す図である。
図10A】本開示のいくつかの実施形態に係る、データ収集およびより多くのデータを用いたコントローラの学習の異なるモジュールを示す、フィードバック学習システムを示す概略図である。
図10B】本開示のいくつかの実施形態に係る、データ収集およびより多くのデータを用いたコントローラの学習の異なるモジュールを含むコントローラを示すブロック図である。
図11】本開示のいくつかの実施形態に係る、初期状態から所望の軌道を追跡するマニピュレータの例を示す、ロボットシステムの例を示す図である。
図12A】本開示のいくつかの実施形態に係る、1つのワークを操作するロボットシステムのマニピュレータを示す図である。
図12B】本発明のいくつかの実施形態に係る、異なるワークを操作するロボットシステムのマニピュレータを示す図である。
【発明を実施するための形態】
【0026】
本発明の様々な実施形態について、図を参照して以下で説明する。図は縮尺通りに描かれておらず、同様の構造または機能を有する要素は、図全体を通して同様の参照数字で表されていることに留意されたい。また、図は、本発明の特定の実施形態の説明を容易にすることのみを意図していることに留意されたい。これらは、本発明の網羅的な説明であることを意図したものでもなければ、本発明の範囲を限定することを意図したものでもない。くわえて、本発明の特定の実施形態と併せて説明する態様は、必ずしもその実施形態に限定されるものではなく、本発明の他の任意の実施形態において実施することができる。
【0027】
本開示のいくつかの実施形態によれば、不確実性を有する機械学習モデルのロバスト最適化は、物理システムにおけるロバストコントローラの学習および設計にとって重要である。機械学習および人工知能が過去10年間に多大な進歩を遂げたにもかかわらず、学習に基づく制御の進歩は、ロボット工学および古典的な制御システムにはほとんど及んでいない。強化学習は、物理学からモデルを作成することが困難な物理システムについて、高性能コントローラを学習するための強力なパラダイムを提供する。このようなタスクは、ロボットがその環境を操作するために摩擦相互作用を行う必要がある場合、またはロボットが感覚的な観察に基づいて環境の変化に反応する必要がある場合に、ロボット操作では一般的である。このようなタスクのモデル作成は、数学的モデルがない、または既知のモデルのパラメータが不確実である、といった理由で困難である。
【0028】
本開示のいくつかの実施形態によれば、モデルフリー強化学習アルゴリズムのほとんどは、古典的なモデルベースの制御アプローチが提供し得る安定性および漸近収束の望ましい理論的保証に欠けている。一方、モデルベースの強化学習アプローチの性能は、制御に利用可能なモデルの精度によって決まる。高精度の予測モデルを学習することは難しい場合があるが、最近の機械学習モデルでは、予測モデルの不確実性の学習が可能である。これらの不確実性は、作動ノイズ、観測誤差、または基礎となるシステムの既知の物理学における誤差に起因する、システムの発展において観測されるノイズを捕捉する。これらの不確実性は、適切に設計されたオプティマイザによって使用されて、ロバストなコントローラを、システム状態を所望の軌道に近づくように調整して、最終的に所望の終端状態に収束させるように設計することができる。しかしながら、学習されたモデルに関連する不確実性を使用するために、不確実性を適切に表現し、それをオプティマイザが使用できるようにする必要がある。このように、部分的に既知のシステムにおけるロバストコントローラの設計には、不確実性の推定、不確実性の表現、および最適化中の不確実性制約の充足の3つの重要なステップがある。
【0029】
本開示のいくつかの実施形態では、未知のシステムに関するコントローラ学習問題を2つの部分に分割する。図1Aは、本開示のいくつかの実施形態に係る、提案されたポリシー最適化方法100の例を示す図である。この場合、実システムの力学は、実システムから収集されたデータを使用して、既知の力学と学習されたベイズポリトープとによって記述される。システムは、システムの終端コントローラの吸引領域に到達すると終端コントローラを用いて動作し、その外側になるとスローコントローラを使用する。コントローラの第1の部分は、システム状態を終端コントローラの既知の終端領域まで進める。この部分は、スローコントローラ130として知られている。システムは常に固定された初期状態から開始し、所望の終端状態(または目標状態)に調整されなければならないことに留意されたい。コントローラの第2の部分140は、システムが終端コントローラのアトラクタベイスンに入ると起動される終端コントローラである。完全な学習プロセスは、スローキャッチポリトピックポリシー最適化(Throw-Catch Polytopic Policy Optimization:TCPPO)と表記される。110のシステムの軌道114の例は、初期状態111から開始する、システムが終端領域113に到達するために通過する状態112のシーケンスである。本開示のいくつかの実施形態は、ロバストコントローラの設計に使用することが可能なシステム力学のポリトピック表現122を学習する。本開示のいくつかの実施形態では、システムを終端領域113に進めるためのロバストポリトピックコントローラ130を学習する。本開示のいくつかの実施形態では、所望の終端状態へのシステム状態の収束を確実にするために終端コントローラ140を学習する。
【0030】
本明細書に開示されるいくつかの例示的な実施形態は、力学系の未知の力学を学習する問題に関する。図1Bは、本開示のいくつかの実形態に係る、システムの状態空間におけるシステム力学180の既知の部分および未知の部分とデータ収集プロセス161とを説明する図である。この場合、システムの発展180は、既知の部分160と未知の部分170とから構成される。力学170の未知の部分は、複雑なシステムにおけるモデル化されていない現象、システムのいくつかのサブモジュールの変化、または力学モデルのパラメータの不確実性に起因する場合がある。真の力学と既知の力学との間の残差の学習は、現在の状態とシステムへの制御入力とが与えられた場合に残差を予測する機械学習モジュールを使用して実現することができる。
【0031】
本開示のいくつかの実施形態では、部分的に既知の力学を有するシステムのコントローラを学習する方法を実装する。図2は、システム状態、目標状態、および既知のシステムモデル160からなるデータを収集するためにコンピュータに実装される方法(またはプログラムモジュール)200であり得る制御方法200を使用して、スローキャッチコントローラを計算することに関与する一連のステップについて説明する図である。このコンピュータに実装される方法200では、実システムからデータを収集する(213)ために、既知のシステムを使用して初期探索ポリシーを受け付ける(212)。この収集されたデータを用いて、システム力学(システムの力学)の未知の部分のベイズモデルを学習する(214)。この学習されたモデルを用いて、半正定値計画を使用して、システムを終端コントローラの終端領域に進めるためのロバストポリシーを計算す(215)。本開示の特定の実施形態では、終端コントローラを設計し(216)、サンプリングと機械学習法とを使用して、そのアトラクタベイスンを推定する(217)。
【0032】
【数1】
【0033】
【数2】
【0034】
【数3】
【0035】
本発明に開示されるいくつかの実施形態は、学習された残差システム力学の予測における不確実性を推定する問題に関する。学習された残差力学の不確実性を推定することにより、真のシステム力学と既知のシステム力学との間の最悪の残差力学を考慮することによって、ロバストなコントローラを設計(生成)することができる。学習された残差力学に関連する不確実性は、残差を入力変数の確率的関数としてモデル化することによって推定可能である。そして、確率的機械学習モデルは、残差力学の予測における不確実性を表現するために使用することができる。
【0036】
【数4】
【0037】
【数5】
【0038】
【数6】
【0039】
【数7】
【0040】
【数8】
【0041】
図4は、システム力学の未知の部分に起因する、システム400の設計された軌道と観測された軌道との差を説明する図であり、図5は、本開示のいくつかの実施形態に係る、実システムとシミュレートされたシステムとを用いて収集されたデータから学習されたベイズシステム500を説明する図である。
【0042】
【数9】
【0043】
システム400は、システムを終端セット413に進めるためのロバストポリトピックポリシーを生成/計算するために、システム力学のこの学習されたポリトピック表現を使用する。力学の未知の部分と、機械学習モデルから得られる推定値の不完全性とを考慮すると、ロバストでないコントローラは、システム400を、初期状態410から終端状態412の所望の終端セット413まで進めることができない。不確実性を考慮しないコントローラは逸脱して、終端領域に到達不可能な軌道414をもたらす。
【0044】
【数10】
【0045】
【数11】
【0046】
【数12】
【0047】
【数13】
【0048】
力学系の状態を所望の終端状態に調整するために、本開示のいくつかの実施形態では、システム状態の終端状態への収束を保証することが可能な終端コントローラを設計する。コントローラのこのような部分は、キャッチコントローラと呼ばれる。しかしながら、どのような調整コントローラも、その吸引領域内でしか収束を保証することができない。一般的な非線形システムについての吸引領域の推定は、数値的にもアルゴリズム的にも困難である。本開示で説明するロバストコントローラを実装するために、終端コントローラの吸引領域を推定する必要がある。この認識に基づいて、本開示のいくつかの実施形態では、終端コントローラの吸引領域700を推定する。コントローラの吸引領域(またはアトラクタベイスン)700は、任意の軌道720を経由してコントローラを適用すると、終端状態710まで進めることができる力学系の状態のセットである。このセット内の任意の状態にコントローラが作用すると、このセット内のシステム状態は、常に状態xT710に収束する。
【0049】
【数14】
【0050】
図6は、本開示のいくつかの実施形態に係る、制御されたシステムの下でシステム状態をサンプリングし、サンプリングされたデータに分類器モデルを適合させることによって、所与のコントローラのシステムの吸引領域を学習することに関与するステップのシーケンス(コンピュータに実装される方法)600を説明する図である。さらに、図7は、本開示のいくつかの実施形態に係る、システムの終端コントローラ700の吸引領域を説明する図である。
【0051】
【数15】
【0052】
【数16】
【0053】
図8は、本開示のいくつかの実施形態に係るスローキャッチコントローラの計算時にシステムで使用されるポリシー800の動作を説明する図である。
【0054】
【数17】
【0055】
本開示のいくつかの実施形態では、モデルの不一致があるシステムのスローキャッチポリシーを実装するための、コンピュータに実装される方法を提供する。本実施形態は、動作中にシステム状態を受け付ける(810)。訓練された分類器モデルは、現在の状態が終端(キャッチ)コントローラの吸引領域内にあるかどうかを判断することができる(820)。状態が終端領域内にある場合(840)、終端コントローラはシステムにおいて実装される。そうでなければ、ロバストポリトピックコントローラ(またはスローコントローラ)が実装される(830)。式(10)が示唆するように、システムの最終的な制御ポリシーは、状態空間の異なる部分で異なるコントローラを使用するハイブリッド制御ポリシーであることに留意されたい。
【0056】
図9は、本開示のいくつかの実施形態に係る、システムが終端コントローラのアトラクタベイスンに入ると終端コントローラが実装される、システム上での計算されたロバスト制御900の実装を示す図である。
【0057】
システム挙動は、計算されたロバスト制御900において見ることができ、設計された公称軌道は、初期状態910からの911である。システム力学の未知の部分に起因して、観測されたシステム軌道912は設計された軌道から散逸する。しかしながら、ロバストポリトピックコントローラによって、システムは終端コントローラ930のアトラクタベイスンに進められる。システムは、軌道913を経由して終端コントローラを用いて終端状態920に進められる。
【0058】
図10Aは、本開示のいくつかの実施形態に係る、フィードバック学習システムの概略図であり、データ収集およびより多くのデータを用いたコントローラの学習の異なるモジュールを示す図である。
【0059】
この場合、フィードバック学習システムは、モータコントローラ1000の設計および制御に使用される。このシステムは、コントローラ1020に提供されるコマンド(所望の目標である)1010を受け付ける。このコントローラは、公称ポリシーを使用して調査データ1031を収集する。このデータは、新しいコントローラを計算するために、TCPPO学習法1040によって使用される。そして、これは、マシンを制御するための制御則を更新するコントローラ1020に送り返される。このプロセスは収束するまで繰り返される。
【0060】
図10Bは、本開示のいくつかの実施形態に係る、データ収集およびより多くのデータを用いたコントローラの学習の異なるモジュールを含むコントローラ(ロボット制御システム)50を表すブロック図である。ロボット制御システム50は、ロボットのアクチュエータシステム1203を制御するように構成されている。場合によっては、コントローラ50に含まれるロボットコントローラ100Bは、ロボットの動作を制御するためのアクチュエータコントローラ150Bに接続するように構成されたハードウェアであり得る。モデル学習モジュール1300Bおよびポリシー学習モジュール1400Bを含むロボットコントローラ100Bは、アクチュエータコントローラ150Bおよびロボットと、ロボットの動作を測定するセンサ1201とに接続され、センサ1201は、ロボットの個々のアクチュエータの状態を検出するようにロボットに配置されている。さらに、ロボットコントローラ100Bは、ロボットの動作の測定データに基づいてポリシーパラメータを生成し、ロボットコントローラ100Bは、ポリシーパラメータをロボットのアクチュエータコントローラ150Bに提供して、アクチュエータコントローラのポリシーユニット151Bを更新する。
【0061】
ハードウェア回路であり得るロボットコントローラ100Bは、インターフェイスコントローラ110Bと、プロセッサ120と、メモリユニット130Bとを含み得る。プロセッサ120は、1つまたは複数のプロセッサユニットであってもよく、メモリユニット130Bは、メモリデバイス、データ記憶デバイスなどであってもよい。インターフェイスコントローラ110Bは、インターフェイス回路であってよく、ロボットのセンサ1201および動作コントローラ150Bと信号/データ通信を行うためのアナログ/デジタル(analogue/digital:A/D)コンバータおよびデジタル/アナログ(digital/analogue:D/A)コンバータを含み得る。さらに、インターフェイスコントローラ110Bは、A/DコンバータまたはD/Aコンバータによって使用されるデータを格納するためのメモリを含み得る。センサ1201は、ロボットの統計値を測定するために、ロボット(ロボットアーム(複数可))の関節またはピッキングオブジェクト機構(指など)に配置されている。ロボットはアクチュエータコントローラ(装置/回路)150Bを含み、アクチュエータコントローラ(装置/回路)150Bは、関節またはハンドリングフィンガの数に応じて、ロボットアーム、ハンドリング機構、またはアームとハンドリング機構との組み合わせ1203-1,1203-2,1203-3,1203-#nを制御するロボットシステム1203を制御するための操作パラメータを生成するポリシーユニット151Bを含む。たとえば、センサ1201は、ロボットの動作状態を測定するための加速度センサ、位置決めセンサ、トルクセンサ、角度センサ、全地球測位システム(global positioning system:GPS)装置、カメラ、深度カメラ、距離カメラ、レンジスキャナ等を含み得る。
【0062】
また、インターフェイスコントローラ110Bは、ロボットに搭載されたロボットの動作の状態を測定/取得するセンサ1201に接続されている。場合によっては、アクチュエータが電気モータである場合、アクチュエータコントローラ150Bは、ロボットアームの角度またはハンドリング機構によるオブジェクトのハンドリングを駆動する個々の電気モータを制御してもよい。場合によっては、アクチュエータコントローラ150Bは、ポリシー学習モジュール1400Bから生成されたポリシーパラメータに応答して、ロボットの動作を滑らかに加速または安全に減速するために、アームに配置された個々のモータの回転を制御してもよい。さらに、オブジェクトハンドリング機構の設計に応じて、アクチュエータコントローラ150Bは、ポリシー学習モジュール1400Bから生成されたポリシーパラメータに応答して、アクチュエータの長さを制御してもよい。
【0063】
メモリユニット130Bは、モデル学習モジュール1300Bとポリシー学習モジュール1400Bとを含む、コンピュータによって実行可能なプログラムモジュールを格納することができる。プロセッサ120は、プログラムモジュール1300Bおよび1400Bのステップを実行するように構成されている。この場合、ステップは、モデル学習モジュール1300Bを用いて、ロボットの操作状態(動作状態)とセンサ1201からの測定状態とに基づいてオフライン学習状態を生成するオフラインモデリングを含み得る。ステップはさらに、ポリシーパラメータを生成するために、オフライン状態をポリシー学習モジュール1400Bに提供することと、ポリシーパラメータに基づいてアクチュエータシステム1203を動作させるために、ロボットの動作コントローラ150Bのポリシー151Bを更新することとを実行する。
【0064】
たとえば、測定データは、マニピュレータアームの関節の角度位置、ロボットのエンドエフェクタの姿勢、またはマニピュレータアームによって操作されるオブジェクトの姿勢で構成することができる。システムの力学は、ロボットの個々の関節にトルクを加えることによって得られる関節の角度位置の変化の関係によって定義することができる。また、マニピュレータによるオブジェクトへの力の印加によるオブジェクトの姿勢の変化の関係によって定義することもできる。システムの状態は、ロボットによって操作されているオブジェクトを付加することができる関節角度位置と速度とによって表すことができる。システムの状態は、エンコーダを使用して、またはロボットの環境内のオブジェクトを追跡するように設計可能な視覚システム(カメラ、深度カメラ、レンジスキャナなど)を使用して、測定することができる。制御入力のセットは、関節またはエンドエフェクタの位置を動かすために個々の関節でモータによって加えられるトルクである。終端コントローラのアトラクタベイスンは、終端コントローラによって調整可能な終端状態近傍のシステム状態のセットによって定義することができる。オブジェクトを操作するロボットマニピュレータの場合、終端状態はオブジェクトの所望の姿勢である。終端コントローラは、オブジェクトの状態が所望の状態に収束することを保証する古典的な制御方法を用いて計算することができる。終端コントローラのアトラクタベイスンは、終端コントローラが収束を保証できる終端状態近傍の状態のセットである。
【0065】
図11は、本開示のいくつかの実施形態に係る、初期状態から所望の軌道を追跡するマニピュレータを示す、ロボットシステム1100の例を示す図である。図12Aおよび図12Bは、本発明のいくつかの実施形態に係る、1つのワーク1210および異なるワーク1220を操作するロボットシステム1100のマニピュレータを示す図である。提案されたコントローラ50は、追加の未知の負荷1101を有するロボットシステム1100のマニピュレータアームの動きを制御するように構成されている。マニピュレータコントローラ50は、所望の軌道1120に従うように荷重を制御するために、センサのセンサフィードバックに基づいて制御コマンドを送信する。しかしながら、設計された軌道1120と比較した場合、未知の負荷に起因して、観測された軌道1130には若干の誤差がある。この問題は、ロボットが異なる未知のオブジェクト1210および1220を正確に移動できるように、マニピュレータコントローラ50においてTCPPOコントローラを使用することによって解決される。
図1A
図1B
図2
図3
図4
図5
図6
図7
図8
図9
図10A
図10B
図11
図12A
図12B
【手続補正書】
【提出日】2024-05-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
システムの力学を学習することによって、前記システムを制御するポリシーを生成するためのコントローラであって、前記コントローラは、
前記システム上に配置されたセンサから測定データを取得するインターフェイスコントローラと、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにステップを実行させるモデル学習モジュールおよびポリシー学習モジュールを含むコンピュータ実装命令を格納するメモリとを備え、前記ステップは、
前記システムの前記力学の既知の部分と、前記システムの前記力学の未知の部分とによって表される非線形システムモデルを、前記メモリに提供するステップと、
前記システムのシステム状態に関する公称ポリシーとノイズ項とに基づいて、前記システムの前記測定データを使用して前記システムの前記力学を測定することによって、前システム状態を収集するステップと、
前記システムのデータを収集することによって、前記システム状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、前記データは、前記システム状態の集合と、適用される制御入力と、前記システム状態の変化とを含み、適用される前記制御入力の各々は、前記公称ポリシーと前記ノイズ項とによって計算され、前記ステップはさらに、
線形確率回帰モデルを使用して前記システムの前記力学の前記未知の部分を近似するために前記システムの収集された前記データを使用して、ポリトピックシステムを学習するステップと、
終端状態の近傍の前記システム状態をサンプリングし、教師あり学習により前記システムの終端コントローラのアトラクタベイスンを推定することによって、前記アトラクタベイスンを推定するステップと、
前記システムを、初期状態から前記終端コントローラの前記アトラクタベイスンに進めるために、推定された前記ポリトピックシステムを使用してポリトピックポリシーを生成するステップとを含む、コントローラ。
【請求項2】
前記システムを前記終端コントローラの前記アトラクタベイスンに進め、前記終端コントローラを用いて前記システムを所望の終端状態に進めるロバストポリトピックポリシーを含むハイブリッド制御ポリシーを実装するステップをさらに含む、請求項1に記載のコントローラ。
【請求項3】
前記コントローラはさらに、前記システムの前記既知のシステムモデルを使用して探索ポリシーを生成する、請求項1に記載のコントローラ。
【請求項4】
前記コントローラはさらに、前記システム上で探索ポリシーを実装し、状態軌道と入力軌道とを収集することによって、前記システムからデータを収集する、請求項1に記載のコントローラ。
【請求項5】
前記コントローラはさらに、前記システムと前記システムの力学の前記既知のシステムモデルとの間の残差力学を学習する、請求項1に記載のコントローラ。
【請求項6】
前記コントローラはさらに、前記システムと前記既知のシステムモデルとの間の所与の制御軌道についての状態軌道の差として、残差力学に関するデータを収集する、請求項1に記載のコントローラ。
【請求項7】
前記コントローラはさらに、ベイズ最適化を使用する残差力学の確率的機械学習モデルを使用する、請求項1に記載のコントローラ。
【請求項8】
前記コントローラはさらに、ベイズモデルと所定の信頼区間とを使用して、残差力学の前記ポリトピックシステムを推定する、請求項1に記載のコントローラ。
【請求項9】
前記コントローラはさらに、前記ポリトピックシステムと半正定値計画とを使用して、ロバストポリトピックコントローラを生成する、請求項1に記載のコントローラ。
【請求項10】
前記システムの前記終端状態における前記終端コントローラは、前記システムを所望の終端状態に進めるために生成される、請求項1に記載のコントローラ。
【請求項11】
前記コントローラはさらに、機械学習ベースの分類技術を使用して、前記終端コントローラの前記アトラクタベイスンを推定する、請求項1に記載のコントローラ。
【請求項12】
システムの力学を学習することによって、前記システムを制御するポリシーを生成するための、コンピュータに実装される方法であって、
前記システム上に配置されたセンサから測定データを取得するステップと、
前記システムの前記力学の既知の部分と、前記システムの前記力学の未知の部分とによって表される非線形システムモデルを、メモリに提供するステップと、
前記システムのシステム状態に関する公称ポリシーとノイズ項とに基づいて、前記システムの前記センサの前記測定データを使用して前記システムの前記力学を測定することによって、前記システム状態を収集するステップと、
前記システムのデータを収集することによって、前システム状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、前記データは、前記システム状態の集合と、適用される制御入力と、前記システム状態の変化とを含み、前記制御入力の各々は、前記公称ポリシーと前記ノイズ項とによって計算され、前記方法はさらに、
線形確率回帰モデルを使用して前記システムの前記力学の前記未知の部分を近似するために前記システムの収集された前記データを使用して、ポリトピックシステムを学習するステップと、
終端状態の近傍の前記システム状態をサンプリングし、教師あり学習により前記システムの終端コントローラのアトラクタベイスンを推定することによって、前記アトラクタベイスンを推定するステップと、
前記システムを、初期状態から前記終端コントローラの前記アトラクタベイスンに進めるために、推定された前記ポリトピックシステムを使用してポリトピックポリシーを生成するステップとを含む、方法。
【請求項13】
前記システムを前記終端コントローラの前記アトラクタベイスンに進め、前記終端コントローラを用いて前記システムを所望の終端状態に進めるロバストポリトピックポリシーを含むハイブリッド制御ポリシーを実装するステップをさらに含む、請求項12に記載のコンピュータに実装される方法。
【請求項14】
前記コンピュータはさらに、前記システムの前記既知のシステムモデルを使用して探索ポリシーを生成する、請求項12に記載のコンピュータに実装される方法。
【請求項15】
前記コンピュータはさらに、前記システム上で探索ポリシーを実装し、状態軌道と入力軌道とを収集することによって、前記システムからデータを収集する、請求項12に記載のコンピュータに実装される方法。
【国際調査報告】