(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023129360
(43)【公開日】2023-09-14
(54)【発明の名称】技術システムによって実行される安全行動を決定するためのデバイス及び方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20230907BHJP
G05B 9/02 20060101ALI20230907BHJP
【FI】
G06N20/00
G05B9/02 A
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023031538
(22)【出願日】2023-03-02
(31)【優先権主張番号】22159967
(32)【優先日】2022-03-03
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】フィリップ ガイガー
(72)【発明者】
【氏名】クリストフ-ニコラス シュトレーレ
【テーマコード(参考)】
5H209
【Fターム(参考)】
5H209AA07
5H209GG20
5H209HH12
5H209JJ05
(57)【要約】 (修正有)
【課題】技術システムが実行する行動を特徴付ける制御信号を決定する機械学習システムをトレーニングする方法、トレーニングシステム、制御システム、コンピュータプログラム及び記憶媒体を提供する。
【解決手段】トレーニングする方法において、技術システムによって実行される安全行動を取得するステップは、環境の状態を特徴付ける状態信号を取得し101、機械学習システムのパラメータ化されたポリシーモジュールによって、技術システムによって実行され得る潜在的不安全行動の分布を決定し102、分布から潜在的不安全行動をサンプリングし103、機械学習システムの安全モジュールにより、安全行動を取得する104。方法は、状態信号及び安全行動に基づいて損失値を決定するステップ105及びパラメータに対する損失値の勾配に従ってポリシーモジュールのパラメータを更新することによって機械学習システムをトレーニングするステップ106を含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
技術システム(40,100,200)によって実行される行動を特徴付ける制御信号(A)を決定するように構成されている機械学習システム(60)をトレーニングするためのコンピュータ実装された方法(100)であって、
・前記技術システム(100,200)によって実行される安全行動
【数1】
を取得するステップであって、前記安全行動
【数2】
を取得するステップは、
環境の状態を特徴付ける状態信号(s)を取得するステップ(101)と、
前記機械学習システム(60)のパラメータ化されたポリシーモジュール(61)により、前記技術システム(100,200)によって実行され得る潜在的不安全行動の分布を決定するステップ(102)であって、前記ポリシーモジュール(61)が、取得された前記状態信号(s)に基づいて前記分布を決定する、ステップと、
前記分布から潜在的不安全行動
【数3】
をサンプリングするステップ(103)と、
前記機械学習システム(60)の安全モジュール(62)により、前記安全行動
【数4】
を取得するステップ(104)であって、前記安全行動
【数5】
は、サンプリングされた前記潜在的不安全行動
【数6】
と、前記技術システム(40,100,200)の現在の環境に関する安全行動の集合
【数7】
とに基づいて取得される、ステップと、
を含む、ステップと、
・前記状態信号(s)及び前記安全行動
【数8】
に基づいて損失値を決定するステップ(105)であって、前記損失値は、前記安全行動
【数9】
に基づいて取得された報酬を特徴付ける、ステップと、
・パラメータ(Φ)に対する損失値の勾配に従って前記ポリシーモジュール(61)のパラメータ(Φ)を更新することによって、前記機械学習システム(60)をトレーニングするステップ(106)と、
を含む方法(100)。
【請求項2】
前記安全モジュール(62)により前記安全行動
【数10】
を取得すること(104)は、前記潜在的不安全行動
【数11】
が前記安全行動の集合
【数12】
内にない場合に、前記潜在的不安全行動
【数13】
を前記安全行動の集合
【数14】
からの行動へと写像することを含み、前記写像は、区分的微分同相写像によって実行される、請求項1に記載の方法(100)。
【請求項3】
前記潜在的不安全行動
【数15】
を前記安全行動の集合
【数16】
からの行動へと写像することは、
・行動の空間の可算パーティション(M)を決定することと、
・前記可算パーティション(M)の各集合(u,k)について、集合(u,k)が安全な集合(k)であるか又は不安全な集合(u)であるかを判定することであって、集合が前記安全行動の集合
【数17】
からの行動のみを含む場合、及び、安全行動のみを含む将来の状態についての行動の軌跡が存在する場合、集合は安全な集合(k)として判定され、そうでない場合、前記集合は不安全な集合(u)として判定される、ことと、
・前記潜在的不安全行動
【数18】
が不安全な集合(u)内にある場合、
前記潜在的不安全行動の分布に基づいて、前記パーティション(M)から安全な集合(k)を決定し、
前記潜在的不安全行動
【数19】
を前記安全な集合(k)からの行動へと写像し、
前記行動を安全行動
【数20】
として提供することと、
・そうでない場合、前記潜在的不安全行動
【数21】
を安全行動
【数22】
として提供することと、
を含む、請求項2に記載の方法(100)。
【請求項4】
前記安全な集合(k)を決定することは、前記パーティション内の各安全な集合について、前記潜在的不安全行動の分布に関するパーティションのそれぞれの安全な集合の代表的行動の確率密度を決定することを含み、最も高い確率密度値を有する代表的行動を含む安全な集合が、決定済みの安全な集合(k)として提供される、請求項3に記載の方法(100)。
【請求項5】
前記安全な集合(k)を決定することは、前記パーティション内の各安全な集合について、前記潜在的不安全行動の分布に関するパーティションのそれぞれの安全な集合の代表的行動の確率密度を決定することを含み、決定された前記確率密度に基づいて安全な集合がサンプリングされ、サンプリングされた前記安全な集合が決定済みの安全な集合(k)として提供される、請求項3に記載の方法(100)。
【請求項6】
前記安全な集合(k)は、安全であるとみなされかつ前記潜在的不安全行動
【数23】
までの最小距離を有するパーティションから集合を選択することによって決定される、請求項3に記載の方法(100)。
【請求項7】
前記潜在的不安全行動
【数24】
を前記安全な集合(k)からの行動へと写像し、前記行動を安全行動
【数25】
として提供することは、前記不安全な集合(u)内の前記潜在的不安全行動
【数26】
の相対位置を決定し、前記安全な集合(k)内の前記相対位置における行動を安全行動
【数27】
として提供することを含む、請求項3乃至6のいずれか一項に記載の方法(100)。
【請求項8】
前記潜在的不安全行動
【数28】
を前記安全な集合(k)からの行動へと写像し、前記行動を安全行動
【数29】
として提供することは、前記潜在的不安全行動
【数30】
までの最小距離を有する安全な集合(k)からの行動を決定し、当該行動を安全行動
【数31】
として提供することを含む、請求項3乃至6のいずれか一項に記載の方法(100)。
【請求項9】
前記損失値は、弁別器によって決定され、前記機械学習システム(60)をトレーニングすることは、敵対的生成模倣学習に従って前記ポリシーモジュール(61)及び前記弁別器をトレーニングすることを含む、請求項1乃至7のいずれか一項に記載の方法(100)。
【請求項10】
技術システム(100,200)のアクチュエータ(10)を制御するための制御信号(A)を決定するためのコンピュータ実装された方法であって、
・請求項1乃至10のいずれか一項に記載の方法を使用して機械学習システム(60)をトレーニングするステップと、
・トレーニング済みの前記機械学習システム(60)により、環境の状態信号(s)に基づいて制御信号(A)を決定するステップと、
を含む方法。
【請求項11】
請求項1に従って構成された機械学習システム(60)。
【請求項12】
請求項11に記載の機械学習システム(60)をトレーニングするためのコンピュータ実装された方法であって、前記ポリシーモジュールは、強化学習パラダイム又は模倣学習パラダイムに従ってトレーニングされ、前記機械学習システム(60)の推論中に、前記ポリシーモジュール(61)によって提供される潜在的不安全行動
【数32】
が、前記機械学習システム(60)の前記安全モジュール(62)により、請求項1乃至9のいずれか一項に記載の安全行動
【数33】
を取得するステップ(104)に従って、安全行動
【数34】
へと写像される、方法。
【請求項13】
請求項1乃至9又は請求項12のいずれか一項に記載のトレーニング方法を実施するように構成されたトレーニングシステム(140)。
【請求項14】
コンピュータプログラムであって、プロセッサ(45,145)によって実行されるときに、請求項1乃至10又は請求項12のいずれか一項に記載の方法をその全てのステップを含めてコンピュータに実施させるために構成されたコンピュータプログラム。
【請求項15】
請求項14に記載のコンピュータプログラムが記憶された機械可読記憶媒体(46,146)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、制御システムをトレーニングするためのコンピュータ実装された方法、トレーニングシステム、制御システム、コンピュータプログラム、及び、機械可読記憶媒体に関する。
【背景技術】
【0002】
背景技術
Bhattacharyyaら著、2020年、「Modeling Human Driving Behavior through Generative Adversarial Imitation Learning」、https://arxiv.org/abs/2006.06412v1には、学習に基づくドライバモデリングのための敵対的生成模倣学習の使用方法が開示されている。
【0003】
発明の背景
現代の技術デバイスは、しばしば、特定の行動(action)を実行することによって、その環境との対話を行っている。例えば、ロボットアームは、ある点から他の点へ移動することができ、この移動により行動を構成することができる。少なくとも部分的に自動化された車両は、例えば、車輪のステアリング及び/又は加速によって、縦方向及び/又は横方向の加速を実行することができる。製造ロボットは、ロボットに取り付けられたツールに、特有の行動、例えば把持、切断、溶接又ははんだ付けをさらに実行させることができる。
【0004】
技術システムによって実行される行動は、典型的には制御システムによって決定される。最新のシステムにおいては、行動は制御システムによって抽象的に定式化することができ、技術システムのさらなる構成要素は、行動が実行されるように、抽象的な行動をアクチュエータコマンドへと変換することができる。例えば、上記の製造ロボットの制御システムは、行動「把持(gripping)」を実行することを決定し、行動「把持」を特徴付ける制御信号を他の構成要素へ送信し、他の構成要素は、抽象的な行動を、例えばロボットの油圧のポンプ又はロボットのグリッパを制御するためのモータ、例えばサーボモータのための電流に変換することができる。
【0005】
概して、ロボットによって実行される行動は、いくつかの所望の安全目標及び/又は所望の挙動に関して安全であるとみなすことができる。自律的な車両は、例えば、制御システムによって決定された行動が他の道路利用者及び/又は環境エンティティとの車両衝突につながらない場合、安全行動を実行しているとみなすことができる。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Bhattacharyyaら著、2020年、「Modeling Human Driving Behavior through Generative Adversarial Imitation Learning」、https://arxiv.org/abs/2006.06412v1
【発明の概要】
【発明が解決しようとする課題】
【0007】
通常、技術システムのための安全行動を決定することは重要な問題である。これは、部分的には、安全行動(例えば緊急車線での停止)が必ずしも技術システムの所望の挙動(例えば所望の目的地への移動)に貢献するとは限らず、実際には、所望の挙動の達成に有害でさえあり得るという事実に起因している。
【0008】
したがって、技術システムによって実行される行動を決定可能な技術システム用の制御システムが取得され、ここで、行動が1つ又は複数の安全目標に関して安全であり、行動が所望の挙動を達成することにさらに貢献することが望ましい。
【0009】
有利には、独立請求項1の特徴を有する方法は、技術システムによって実行される安全行動を特徴付ける制御信号を提供するように構成された機械学習システムを決定することを可能にする。安全であることに加えて、機械学習システムによって決定された行動は、有利には、所望の挙動が安全である限り、安全であることに加えて所望の挙動を達成することを可能にする。
【課題を解決するための手段】
【0010】
発明の概要
第1の態様においては、本発明は、技術システムによって実行される行動を特徴付ける制御信号を決定するように構成されている機械学習システムをトレーニングするためのコンピュータ実装された方法に関し、トレーニングするための方法は、
・技術システムによって実行される安全行動を取得するステップであって、安全行動を取得するステップは、
環境の状態を特徴付ける状態信号を取得するステップと、
機械学習システムのパラメータ化されたポリシーモジュールによって、技術システムによって実行され得る潜在的不安全行動の分布を決定するステップであって、ポリシーモジュールは、取得された状態信号に基づいて分布を決定する、ステップと、
分布から潜在的不安全行動をサンプリングするステップと、
機械学習システムの安全モジュールにより、安全行動を取得するステップであって、安全行動は、サンプリングされた潜在的不安全行動と、技術システムの現在の環境に関する安全行動の集合とに基づいて取得される、ステップと、
を含む、ステップと、
・状態信号及び安全行動に基づいて損失値を決定するステップであって、損失値は、安全行動に基づいて取得された報酬を特徴付ける、ステップと、
・パラメータに対する損失値の勾配に従ってポリシーモジュールのパラメータを更新することによって、機械学習システムをトレーニングするステップと、
を含む。
【0011】
本方法を用いてトレーニングされた機械学習システムは、ロボット、例えば、少なくとも部分的に自動化された車両、ドローン、他の自律エージェント、又は、製造機械などの技術システムを制御するための制御システムの一部として理解され得る。制御信号は、実行される高レベルの行動(例えば、車線変更を実行すること、ワークピースを把持すること)を特徴付けることができ、次いで制御信号は、技術システムのアクチュエータを制御して技術システムが制御信号によって特徴付けられた行動を実行するようにさらに処理され得る。
【0012】
トレーニング方法は、強化学習に有利に適用可能であると理解され得る。例えば、損失値は、潜在的不安全行動の分布の対数尤度を特徴付けることができ、トレーニングは、一般的な強化学習戦略、例えば、バニラポリシー勾配、信頼領域ポリシー最適化、又は、近接ポリシー最適化を使用して実施することができ、機械学習システムは、パラメータ化されたポリシー及び損失値をポリシー最適化のための主成分として特徴付ける。
【0013】
好ましくは、方法は、敵対的生成模倣学習のためのフレームワーク内で使用可能であり、機械学習システムは、再び、パラメータ化されたポリシーとして機能可能である。例えば、損失値は、弁別器によって決定されるものとしてよく、機械学習システムをトレーニングすることは、敵対的生成模倣学習に従ってポリシーモジュール及び弁別器をトレーニングすることを含むものとしてよい。したがって、この場合の損失値は、弁別器を騙すために取得される報酬として理解され得る。
【0014】
有利には、機械学習システムは、機械学習システムが技術システムの環境に対して安全行動を提供することを保証し得るように本発明者らが設計した安全モジュールを備える。
【0015】
内部的には、機械学習システムは、安全であり得るかどうかが不明な行動、したがって潜在的不安全行動を最初に提供するものとして理解され得る。この場合、当該行動は、安全モジュールによって処理可能であり、安全モジュールが、潜在的不安全行動を、提供された安全行動の集合に対して安全であるとみなさない場合、安全行動に変換される。
【0016】
機械学習システムから決定される行動は、特に、連続的な行動であり得る。したがって、機械学習システムの出力は、実数値スカラー又は実数値ベクトルであり得る。
【0017】
機械学習システムには、状態信号の形態の入力として、技術システムの環境の観察が提供される。状態信号は、可動又は固定エンティティの位置、環境又は環境のエンティティの物理的特性(例えば、速度、加速度、温度、又は、圧力)などの環境のある態様の測定を提供することによって、環境を特徴付けることができる。状態信号は、特に、実数値スカラー又は実数値ベクトルであり得る。例えば、技術システムは、画像を提供する光学センサ(例えば、LiDARセンサ、カメラ、超音波センサ、又は、サーマルカメラ)によって環境を検知することができ、画像は、画像及びこれにより環境を特徴付ける特徴ベクトルを決定するために、他の機械学習システム、例えば、畳み込みニューラルネットワーク又は変換器によって処理することができる。次いで、特徴ベクトルは、状態信号として機械学習システムに提供することができる。選択的に、状態信号は、意味情報、例えば、人間、他のロボット、不動の構造物などの環境の他の要素までの距離、ロボットの所望の経路、又は、街路などに沿って移動する道の曲率を特徴付けることも可能である。
【0018】
機械学習システムは、状態信号に基づいて潜在的不安全行動を決定するためのポリシーモジュールを備える。ポリシーモジュールは、状態信号に基づいて潜在的不安全行動を決定するように構成されるものとして理解され得る。ポリシーモジュールは、好ましくは、条件付き正規化フローであるものとしてよく又は条件付き正規化フローを含むものとしてよく、ポリシーモジュールは、状態信号を条件付け入力として使用して条件付き正規化フローからサンプリングすることによって行動を決定する。選択的に、ポリシーモジュールとして、ガウスモデル、例えば条件付きガウス混合モデルを使用することも可能である。
【0019】
この潜在的不安全行動は、次いで、安全モジュールによって処理される。好ましくは、潜在的不安全行動が、提供された安全行動の集合に対して安全であるとみなされた場合、潜在的不安全行動は、安全モジュールから安全行動として提供され得る。そうでない場合、潜在的不安全行動は安全行動へと写像することができる。
【0020】
有利には、トレーニング時に安全モジュールを機械学習モデルに統合することにより、損失関数によって特徴付けられる最大報酬を達成するための安全行動を提供するように機械学習システムをトレーニングしながら、安全モジュールによって安全行動に変更され得る行動を提供するようにポリシーモジュールをトレーニングすることが可能となる。具体的な例を使用すると、「緊急車線に駐車する」という行動は、少なくとも部分的に自動化された車両によって安全行動として常に選択され得るが、この行動は、所望の目的地まで走行する車両の所望の目標を達成しない場合がある。本発明者らによって提案されるような安全層を統合することで、両方の目標を考慮することができる。
【0021】
好ましくは、安全モジュールによって安全行動を取得することは、潜在的不安全行動が安全行動の集合内にない場合に、潜在的不安全行動を安全行動の集合からの行動へと写像することを含み、写像は、区分的微分同相写像によって実行される。概して、関数
【数1】
は、gの定義域の可算パーティション(countable partition)(A
k)
kが存在し、
【数2】
であるような(内部上の)微分可能な単射
【数3】
が存在する場合、区分的に微分可能な単射(微分同相写像)として理解され得る。
【0022】
有利には、安全モジュールに区分的微分同相写像を用いて写像を実行させることは、潜在的不安全行動に対して提供される密度に基づいて安全行動に対する正確な密度を算出することを可能にし、その逆も同様である。次に、安全行動についての密度及び潜在的不安全行動の密度から正確な写像を決定することが可能であることにより、不連続又は近似なしにポリシーのパラメータに関する損失関数の勾配を決定することが可能となる。本発明者らは、これが、安全行動のみを決定しながら、トレーニング後の機械学習システムの改善された性能を可能にすることを見出しており、性能は、強化学習又は模倣学習に関して所望の報酬を集めるための機械学習システムの提供された行動の能力として理解され得る。
【0023】
好ましくは、潜在的不安全行動を安全行動の集合からの行動へと写像することは、
行動の空間の可算パーティションを決定することと、
可算パーティションの各集合について、集合が安全な集合であるか不安全な集合であるかを判定することであって、集合が安全行動の集合からの行動のみを含む場合、安全行動のみを含む将来の状態についての行動の軌跡が存在する場合、集合は、安全な集合と判定され、そうでない場合、集合は、不安全な集合と判定される、ことと、
潜在的不安全行動が不安全な集合内にある場合、
潜在的不安全行動の分布に基づいて、パーティションから安全な集合を決定し、
潜在的不安全行動を安全な集合からの行動へと写像し、
行動を安全行動として提供することと、
そうでない場合、潜在的不安全行動を安全行動として提供することと、を含む。
【0024】
換言すれば、行動の空間(例えば、スカラーについて
【数4】
及びベクトルについて
【数5】
)は、可算集合へ分割することができ、この場合、区分的微分同相写像がパーティションの集合に作用し得る。これにより、変数の変化の式、即ち、
【数6】
に従って安全行動の正確な密度を決定することが可能となる。ここで、g
kは区分的微分同相写像であり、
【数7】
は潜在的不安全行動であり、
【数8】
は安全行動であり、Jはヤコビアンであり、
【数9】
は潜在的不安全行動についての確率密度関数であり、
【数10】
は安全行動についての確率密度関数である。
【0025】
好ましくは、パーティション要素は行動空間内の超立方体であり得る。例えば2次元行動空間の場合、パーティション要素は、非重複型の矩形、例えば正方形であるものとしてよい。超立方体は、概して、例えば、連続的な行動空間について、行動の部分集合のみが技術システムを制御することに関連する場合、行動空間の部分空間のみに及ぶものとしてよい。
【0026】
パーティション要素(即ち、パーティションの集合)及び安全行動の集合が与えられると、各パーティション要素について、それぞれのパーティション要素が安全行動のみを含むかどうかを判定することが可能となる。その場合、パーティション要素は、安全であるとみなすことができ、安全行動を含むだけでない場合、不安全であるとみなすことができる。このように、行動空間は、(安全なパーティション要素によって示される)安全な領域と、(不安全なパーティション要素によって示される)不安全な領域とに分割することができる。
【0027】
加えて、パーティション要素は、好ましくは、各行動が安全行動の軌跡を可能にする場合にのみ、安全であるとマーキングすることができる。換言すれば、追加の要件は、行動が安全であるとみなされるためには、行動が、安全であり、機械学習システムによって決定され得る安全行動がもはや存在しない状況に至らない将来の行動(即ち、軌跡に沿った行動)を可能にする必要があることを示すことができる。将来の行動はまた、他のエージェント(例えば、少なくとも部分的に自動化された車両の場合の他の道路利用者)からの行動を考慮することができる。好ましくは、状態sについての安全行動の集合は、
【数11】
のように定義することができる。式中、aは、行動空間Aからの行動であり、π
t+1:Tは、ポリシーπに対する時点tから開始する将来の軌跡であり、φ
t:Tは、環境内の他のエージェントの軌跡(他のエージェントが環境内に存在する場合、他のエージェントのポリシー)であり、s
t’は、上記のポリシーによって暗示されるダイナミクスの下でのt’における状態であり、dは、安全コストを特徴付ける関数である。安全コストは、例えば、ゼロよりも大きい安全コストを有する潜在的に危険な状況を特徴付けることができる(例えば、技術システムとその環境の要素との衝突が起こる可能性がある状態、又は、不可避であるが、まだ起こっていない状態には、ゼロよりも大きい安全コストを割り当てることができる)。同様に、安全目標の違反(例えば、環境の要素との衝突、予期しない操縦)を特徴付ける状態には、ゼロより大きい安全コストを割り当てることができる。
【0028】
好ましくは、所与の状態に対し、式、即ち、全てのtについて、
【数12】
によって特徴付けられる最適化により、0以下の安全コストを有する将来の軌跡が存在するかどうかを判定することができる。w
tの定義から、安全行動の集合は、
【数13】
のように表すこともできる。
【0029】
特定の限定されたシナリオにおいては、安全行動の集合を分析的に算出することが可能であり得るが、本発明者らは、これが一般的な場合ではない場合があることを見出した。有利には、本発明者らは、保証を与えながら、集合全体を分析的に明示的に決定する必要性を回避することが可能であることを見出した。これは、aの有限サンプルだけについて状態sについてw
t(s,a)をチェックし、次いで、リプシッツ連続性又は極値性/凸性引数を使用して、サンプリングされたaの近傍についてw
t(s,・)の値を結論付けることによって達成することができる。このようにして、安全行動
【数14】
の集合の内部近似
【数15】
を取得することができる。内部近似は、
【数16】
の部分集合である
【数17】
として理解され得る。次いで、内側近似は、提案する方法における安全行動の集合として使用することができる。
【0030】
選択的に、内部近似は、パーティション要素全体が安全行動のみを含むかどうかを評価することを有利に可能にする、パーティション要素に及ぶコーナー又は極値点の有限集合の安全コストを知ることに基づいて取得することができる。
【0031】
したがって、安全行動の集合を決定する好ましい方法は、行動の空間を規則的なボックス(超長方形)
【数18】
に分割し、次いで、各ボックスA
kについてそれぞれのボックスの中心におけるいずれかの行動aによる最悪の場合の総安全コストw
t(s
t,a)を評価し、次いで、ボックスA
k全体について又はボックスA
kのコーナーにおける行動aによってw
t(s
t,・)≦0であるかどうかをチェックするためにリプシッツ連続性引数を使用し、全てのコーナーにおいてw
t(s
t,・)≦0である場合にボックスが安全であると判定することによって、定式化することができる。
【0032】
好ましくは、安全行動の集合には、フェールセーフ行動が含まれ、当該フェールセーフ行動は、他の安全行動を見出すことができない場合に技術システムによって実行することができる。フェールセーフ行動には、例えば、技術システムを安全な位置(例えば、緊急車線)に向けることによって、緊急操作(例えば、緊急ブレーキ)を実行することによって、又は、技術システムに電力を供給することによって、技術システムをフェールセーフ状態にするための行動が含まれ得る。
【0033】
他の実施形態においては、安全な集合を決定するステップ、潜在的不安全行動を安全な集合からの行動へと写像するステップ、及び、行動を安全行動として提供するステップは、潜在的不安全行動が既に安全な集合内にある場合であっても実施することができる。即ち、ステップはいずれの場合にも実行されることが可能である。これは、提案する方法の実装形態の好みに起因し得る。しかしながら、潜在的不安全行動が行動空間のパーティションの安全な集合に存在する場合であっても、安全行動が潜在的不安全行動よりもさらに安全であるとみなすことも可能である。より安全な行動は、例えば、他の行動と比較して、環境の他の要素までのさらにより大きい距離を保つことを可能にする行動であると理解することができる。
【0034】
好ましくは、潜在的不安全行動を写像する安全な集合を決定することは、パーティション内の各安全な集合について、潜在的不安全行動の分布に関するパーティションのそれぞれの安全な集合の代表的行動の確率密度を決定することを含み、最も高い確率密度値を有する代表的行動を含む安全な集合は、決定済みの安全な集合として提供される。
【0035】
代表的行動は、パーティションのそれぞれの集合からの行動として理解することができ、その集合は、安全であるとみなされる。この行動は、代表的行動について決定された確率密度が集合自体の確率密度の近似として作用し得るという意味で代表的であるとみなすことができる。
【0036】
代表的行動は、例えば、代表的行動がそれぞれのパーティション要素の中心に位置するように選択され得る。例えば、行動のユークリッド空間を考慮すると、代表的行動は、集合の平均であるものとしてよい。
【0037】
好ましくは、代表的行動は、潜在的不安全行動に基づいて選択することもできる。例えば、その不安全な集合内の潜在的不安全行動の相対位置が決定されるものとしてよく、次いで、安全な集合についての代表的行動が、不安全な集合内の潜在的不安全行動を有した安全な集合内の同様の相対位置にあるように選択されるものとしてよい。
【0038】
潜在的不安全行動を写像するための安全な集合を決定するために、複数の代表的行動を使用することも可能である。例えば、複数の代表的行動が、予め定義された位置、及び/又は、不安全な集合に対する潜在的不安全行動の相対位置を含む位置において選択され、次いで、これらの代表的行動の平均確率密度値がそれぞれの安全な集合の確率密度を特徴付けるために使用され得る。
【0039】
有利には、これにより、安全性の維持を可能にしつつ、潜在的不安全行動をポリシーモジュールによって依然として実現可能であるとみなされる行動へと写像することが可能になる。これは、安全行動のみを実行しながら、所望の目標(例えば、最大報酬、最大模倣精度)を達成するためにポリシーモジュールによって最良であるとみなされる行動の間の最良の妥協点を見出すこととして理解され得る。
【0040】
選択的に、安全な集合を決定することが、パーティション内の各安全な集合について、潜在的不安全行動の分布に関するパーティションのそれぞれの安全な集合の代表的行動の確率密度を決定することを含むものとすることも可能であり、ここで、安全な集合は、決定された確率密度に基づいてサンプリングされ、サンプリングされた安全な集合は、決定済みの安全な集合として提供される。
【0041】
この実施形態は、安全行動の空間にわたって混合モデルを決定し、次いで、混合モデルからサンプリングするものとして理解され得る。有利には、これにより、本方法は、潜在的不安全行動の分布に関して最も高い密度に関連付けられていない可能性がある行動も探索することが可能になる。本発明者らは、この探索特性が、トレーニング中の極小値を克服することを可能にし、これにより、トレーニング後の機械学習システムの性能の向上を可能にすることを見出した。
【0042】
選択的に、安全な集合はまた、安全であるとみなされかつ潜在的不安全行動までの最小距離を有するパーティションから集合を選択することによって決定され得る。
【0043】
パーティション要素からの距離は、潜在的不安全行動までのパーティション要素の任意の行動の最小距離として理解することができる。同様に、行動までの最小距離を有するパーティション要素を選択することにより、最大を達成するためにポリシーモジュールによって最良であるとみなされる行動と、安全性を維持することとの間の良好な妥協点を取得することが可能になる。
【0044】
写像先の安全な集合を決定し、潜在的不安全行動を安全な集合からの行動へと写像し、行動を安全行動として提供することは、好ましくは、不安全な集合内の潜在的不安全行動の相対位置を決定し、安全な集合内の相対位置における行動を安全行動として提供することを含み得る。
【0045】
換言すれば、元のパーティション要素における潜在的不安全行動の相対位置が決定され、次いで、例えば、不安全な集合における潜在的不安全行動があったのと同様の、安全な集合における相対位置にある、決定済みの安全な集合における行動を選択することによって、この相対距離に従って安全行動が選択され得る。
【0046】
選択的に、潜在的不安全行動を安全な集合からの行動へと写像し、行動を安全行動として提供することは、潜在的不安全行動までの最小距離を有する安全な集合からの行動を決定し、その行動を安全行動として提供することを含むものとすることも可能である。
【0047】
好ましくは、ポリシーモジュールは、条件付き正規化フローであり又は条件付き正規化フローを含み、潜在的不安全行動は、状態信号を条件とする条件付き正規化フローからサンプリングすることによって決定される。
【0048】
選択的に、ポリシーモジュールは、条件付き混合モデルであるものとしてもよく又は条件付き混合モデルを含むものとしてもよく、潜在的不安全行動は、状態信号を条件とする条件付き混合モデルからサンプリングすることによって決定される。
【0049】
他の態様においては、本発明は、前述の実施形態のいずれか1つに従って構成された機械学習システムに関する。特に、機械学習システムは、上述したようなポリシーモジュール及び安全モジュールを備えることができる。
【0050】
機械学習システムの利点は、安全モジュールが(上述したように)ポリシーモジュールと組み合わせてトレーニングされ得ることである。有利には、これにより、機械学習システムは、技術システムによって実行される行動を決定することに関して、より良好な性能を達成することが可能になる。
【0051】
さらなる態様において、本発明は、技術システムのアクチュエータを制御するための制御信号を決定するためのコンピュータ実装された方法に関し、当該方法は、
上記で提案されたトレーニング方法を用いて機械学習システムをトレーニングするステップと、
トレーニング済みの機械学習システムによって、環境の状態信号に基づいて制御信号を決定するステップと、
を含む。
【0052】
これは、最初に機械学習システムをトレーニングし、次いで機械学習システムに対して推論を実行することとして理解され得る。推論中、潜在的不安全行動は、(例えば、上記で提示したように)トレーニング中に実行可能な安全行動へと写像することができる。
【0053】
さらなる態様においては、本発明は、上記のような機械学習システムをトレーニングするためのコンピュータ実装された方法に関し、ポリシーモジュールは、強化学習パラダイム又は模倣学習パラダイムに従ってトレーニングされ、機械学習システムの推論中に、ポリシーモジュールによって提供される潜在的不安全行動は、機械学習システムの安全モジュールによって、上記のような安全行動を取得するステップに従って、安全行動へと写像される。
【0054】
換言すれば、機械学習システムに含まれる安全モジュールは、推論中にのみ使用され得る。即ち、ポリシーモジュールは、(例えば、ポリシー勾配などの強化学習アルゴリズム、又は、敵対的生成模倣学習などの模倣学習アルゴリズムを使用して)個々にトレーニングすることができ、安全モジュールは、推論中に「追跡」することができる。概して、潜在的不安全行動に基づいて安全モジュールから安全行動を推論するために、トレーニング中に使用されたものと同様のステップが使用され得る。即ち、前述及び以下の実施形態で開示される潜在的不安全行動から安全行動へと写像するためのステップは、推論中にも適用可能である。
【0055】
本発明の実施形態は、以下の図面を参照してより詳細に説明される。
【図面の簡単な説明】
【0056】
【
図2】機械学習システムをトレーニングするための方法のステップを示す図である。
【
図3】潜在的不安全行動の安全行動への写像を例示的に示す図である。
【
図4】その環境においてアクチュエータを制御する機械学習システムを備える制御システムを示す図である。
【
図5】少なくとも部分的に自律的なロボットを制御する制御システムの図である。
【
図6】製造機械を制御する制御システムを示す図である。
【
図7】機械学習システムをトレーニングするためのトレーニングシステムを示す図である。
【発明を実施するための形態】
【0057】
実施形態の説明
図1は、安全行動
【数19】
を決定するための機械学習システム(60)を示しており、安全行動
【数20】
は、技術システムを制御するために使用される。機械学習システム(60)は、機械学習システム(60)に提供された状態信号(s)に基づいて安全行動
【数21】
を決定する。状態信号(s)は、機械学習システムのパラメータ化されたポリシーモジュール(61)によって処理され、ポリシーモジュール(61)は、技術システムによって実行される行動についての確率分布を提供するように構成される。ポリシーモジュール(61)は、好ましくは、状態信号(s)を条件として使用する条件付き生成モデルを含むものとしてよく又は条件付き生成モデルであるものとしてよい。好ましくは、生成モデルは、条件付き正規化フロー又は条件付きガウスモデル、例えば条件付きガウス混合モデルであるものとしてよい。
【0058】
次いで、潜在的不安全行動
【数22】
をポリシーモジュール(61)からサンプリングすることができ、潜在的不安全行動
【数23】
は、次いで機械学習システム(60)の安全モジュール(62)によって処理される。安全モジュール(62)は、自身が潜在的不安全行動
【数24】
を実際に不安全であるとみなした場合に、潜在的不安全行動
【数25】
を安全行動
【数26】
へと写像するように構成されている。安全モジュール(62)は、環境内の技術システムによって安全に実行され得る、提供された安全行動の集合
【数27】
に基づいて、潜在的不安全行動
【数28】
の安全性を判定する。潜在的不安全行動
【数29】
が不安全であると判定された場合、安全モジュール(62)は、区分的微分同相写像を用いて、不安全行動
【数30】
から安全行動
【数31】
への写像を実行する。決定された安全行動
【数32】
は、その後、機械学習システム(60)によって出力される。
【0059】
図2は、機械学習システム(60)をトレーニングするための方法(100)のフローチャートを示している。本方法は、第1のステップ(101)から開始し、第1のステップ(101)においては、状態信号(s)が技術システムの環境から決定される。
【0060】
次いで、第2のステップ(102)において、機械学習システム(60)のポリシーモジュール(61)が、好ましくは連続的な行動空間から行動の確率分布を決定する。
【0061】
第3のステップ(103)においては、潜在的不安全行動
【数33】
が確率分布からサンプリングされる。
【0062】
第4のステップ(104)においては、機械学習システム(60)の安全モジュール(62)が、微分同相写像を用いて、潜在的不安全行動
【数34】
に基づき、安全行動
【数35】
を取得する。
【0063】
ステップ1(101)からステップ4(104)は、好ましくは、状態信号(s)及び安全行動
【数36】
の軌跡を決定するために繰り返すことができる。軌跡は、次いで、行動に関する損失値を決定するために、方法(100)の第5のステップ(105)において使用され得る。損失値は、好ましくは、達成すべき所望の目標を特徴付けることができる。例えば、損失値は、期待リターンを特徴付けることができる。好ましくは、損失値は、敵対的生成模倣学習のフレームワークに従って、即ち、決定された軌跡を専門家によって決定された軌跡と比較することによって決定され、この比較は、弁別器に基づいて実行される。
【0064】
次いで、第6のステップ(106)で、ポリシーモジュール(61)のパラメータが更新される。好ましくは、これは勾配降下によって達成され、ポリシーモジュール(61)のパラメータに対する損失値の勾配が決定される。
【0065】
好ましくは、ステップ1(101)乃至ステップ6(106)は、所望の反復回数が達成されるまで、及び/又は、損失値若しくは検証集合に関する損失値が所定の閾値以下になるまで、反復的に繰り返される。説明した終了基準のうちのいずれかが満たされた場合、方法(100)は終了する。
【0066】
図3は、トレーニングのための方法(100)の第4のステップ(104)をより詳細に示している。行動空間はパーティション(M)に分割され、パーティション要素はボックスである。図は、2次元行動空間の一実施形態を示している。好ましくはボックスが正方形となるように選択され、ボックスの辺長は方法(100)のハイパーパラメータとみなすことができる。パーティションが可能な行動空間全体に及ぶ必要はないことに留意されたい。例えば、事前情報によって、行動空間の部分空間のみを分割することも可能である。
【0067】
概して、ボックスの形状(例えば、幾何学的図形、辺の長さ、パーティション要素を定義する多角形内の点の数)は、方法(100)のハイパーパラメータとみなすことができる。この場合、パーティション要素、即ち、行動空間のそれぞれ異なる部分集合は、安全な集合(k)(図中の影付きの正方形によって示される)及び不安全な集合(u)(図中の白い正方形によって示される)のいずれかとして分類することができる。パーティション要素(即ち、行動空間の部分集合)が安全であるか否かを判定することは、前述したように、最悪の場合の安全コストwt(st,a)を決定することによって達成され得る。例えば、ボックスの中心における行動を使用して、ボックス内の全ての行動が安全であるかどうか、また、安全な選択肢についてのみ将来の軌跡が存在するかどうかを推論することができる。
【0068】
図3に示す実施形態においては、潜在的不安全行動
【数37】
は、行動空間の不安全な領域に入る(即ち、パーティション(M)の不安全な集合(u)の一部である)と判定されている。したがって、潜在的不安全行動
【数38】
は、安全な集合(k)へ写像される。安全な集合(k)は、行動空間上の距離尺度、例えばL
pノルムに関して、潜在的不安全行動
【数39】
に最も近いパーティション(M)のパーティション要素を選択することによって決定することができる。選択的に、各パーティション要素の代表として作用する行動、例えば各ボックスの中心における行動の密度を決定することも可能である。例えば、安全であると判定されたパーティション要素ごとに、ポリシーモジュール(61)から決定された密度に基づいて、中心におけるそれぞれの行動の密度を決定することができ、最も高い密度を有するパーティション要素を安全な集合(k)として選択することができる。
【0069】
この実施形態においては、潜在的不安全行動
【数40】
を安全行動
【数41】
へと写像することは、次いで、水平軸及び垂直軸に沿った不安全な集合(u)内の潜在的不安全行動
【数42】
の相対位置を決定し、安全な集合(k)内の水平軸及び垂直軸に沿って同様の相対位置を有する安全行動
【数43】
として安全な集合(k)からの行動を提供することによって達成される。
【0070】
図4は、環境(20)内の技術システムのアクチュエータ(10)を制御するための制御信号(A)を決定する機械学習システム(60)を備えた制御システム(40)を示している。アクチュエータ(10)は、制御システム(40)と相互作用する。アクチュエータ(10)及びその環境(20)は、まとめてアクチュエータシステムと称される。好ましくは等間隔の時点で、センサ(30)がアクチュエータシステムの状態を検知する。センサ(30)は、複数のセンサを含み得る。好ましくは、センサ(30)は、環境(20)の画像を撮影する光学センサである。検知された状態を符号化するセンサ(30)の出力信号(S)(又はセンサ(30)が複数のセンサを含む場合には、センサの各々に対する出力信号(S))が、制御システム(40)へ伝送される。
【0071】
これにより、制御システム(40)は、センサ信号(S)のストリームを受信する。そして、センサ信号(S)のストリームに応じて一連の制御信号(A)を算出し、次いでアクチュエータ(10)へ伝送する。
【0072】
制御システム(40)は、任意選択手段としての受信ユニット(50)においてセンサ(30)のセンサ信号(S)のストリームを受信する。受信ユニット(50)は、センサ信号(S)を状態信号(s)に変換する。選択的に、受信ユニット(50)がない場合、各センサ信号(S)は、状態信号(s)として直接に取得可能である。
【0073】
状態信号(s)は、次いで、機械学習システム(60)に渡される。
【0074】
機械学習システム(60)は、パラメータ記憶装置(P)に記憶されてパラメータ記憶装置(P)により提供されるパラメータ(Φ)によってパラメータ化される。
【0075】
機械学習システム(60)は、状態信号(s)から安全行動
【数44】
を決定する。安全行動
【数45】
は、安全行動
【数46】
を制御信号(A)に変換する任意の変換ユニット(80)へと伝送される。次に、これに応じて、制御信号(A)が、アクチュエータ(10)を制御するためにアクチュエータ(10)へ伝送される。選択的に、安全行動
【数47】
が既に制御信号(A)を特徴付けるものであって、アクチュエータ(10)に直接に送信可能である。
【0076】
アクチュエータ(10)は、制御信号(A)を受信し、これに応じて制御され、制御信号(A)に対応する安全行動
【数48】
を実行する。アクチュエータ(10)は、制御信号(A)をその後のアクチュエータ(10)の制御に使用される他の制御信号に変換する制御ロジックを備えることができる。
【0077】
さらなる実施形態においては、制御システム(40)は、センサ(30)を備えることができる。さらに他の実施形態においては、制御システム(40)は、選択的に又は付加的に、アクチュエータ(10)を備えることができる。
【0078】
さらに他の実施形態においては、制御システム(40)が、アクチュエータ(10)に代えて又はアクチュエータ(10)に加えて、ディスプレイ(10a)を制御することが想定され得る。
【0079】
さらに、制御システム(40)は、少なくとも1つのプロセッサ(45)と、実行された場合に制御システム(40)に本発明の一態様による方法を実行させる命令が記憶された少なくとも1つの機械可読記憶媒体(46)とを備えることができる。
【0080】
図5は、制御システム(40)が、少なくとも部分的に自律的なロボット、例えば少なくとも部分的に自律的な車両(100)を制御するために使用される一実施形態を示している。
【0081】
センサ(30)は、1つ以上のビデオセンサ、及び/又は1つ以上のレーダセンサ、及び/又は、1つ以上の超音波センサ、及び/又は、1つ以上のLiDARセンサを備えることができる。これらのセンサの一部又は全部は、車両(100)に統合されることが好ましいが、必ずしもそうである必要はない。センサ信号(S)から導出された状態信号(s)は、車両の環境に関する情報、例えば車両(100)が現在走行している道路の曲率、及び/又は、他の交通参加者及び/又は樹木、家屋若しくは交通コーンなどの固定環境エンティティまでの距離に関する情報、及び/又は、道路の車線若しくは車線マークに関する情報を特徴付けることができる。選択的に、状態信号(s)は、環境の画像を特徴付けることもできる。
【0082】
機械学習システム(60)は、車両(100)によって実行される行動、例えば、縦方向及び/又は横方向の加速度を決定するように構成され得る。行動は、車両(100)がその環境の他の要素、例えば道路利用者と衝突することなく所定の経路を辿るように、機械学習システム(60)によって選択され得る。1つ以上のフェールセーフ行動として、機械学習システム(60)によって決定された行動は、緊急ブレーキ、及び/又は、緊急回避ステアリング、及び/又は、緊急車線への車線変更を特徴付けることができる。
【0083】
好ましくは、車両(100)に統合されるアクチュエータ(10)は、車両(100)のブレーキ、推進システム、エンジン、ドライブトレイン又はステアリングによって与えられ得る。
【0084】
選択的に又は付加的に、制御信号(A)は、例えば、機械学習システム(60)によって決定された安全行動
【数49】
を表示するために、及び/又は、安全行動のパーティションを表示するために、ディスプレイ(10a)を制御するために使用されるものとしてもよい。
【0085】
さらなる実施形態においては、少なくとも部分的に自律的なロボットは、例えば、飛行、泳行、潜行又は歩行によって移動し得る他の移動ロボット(図示せず)によって与えられ得る。移動ロボットは、特に、少なくとも部分的に自律的な草刈り機、又は、少なくとも部分的に自律的な掃除ロボットであるものとしてもよい。上記の実施形態の全てにおいて、制御信号(A)は、移動ロボットが識別された対象物との衝突を回避することができるように、移動ロボットの推進ユニット及び/又はステアリング部及び/又はブレーキが制御されるように決定可能である。
【0086】
さらなる実施形態においては、少なくとも部分的に自律的なロボットは、環境(20)内の植物の状態を決定するためにセンサ(30)、好ましくは光学センサを使用する園芸ロボット(図示せず)によって与えられ得る。アクチュエータ(10)は、液体を噴霧するためのノズル、及び/又は、剪定デバイス、例えばブレードを制御することができる。植物の識別された種、及び/又は、植物の識別された状態に応じて、制御信号(A)は、アクチュエータ(10)に適当な液体を植物に適量噴霧させるように、及び/又は、植物を剪定させるように決定され得る。この実施形態においては、安全行動
【数50】
は、所望のノズル開口度を特徴付けることができる。
【0087】
さらなる実施形態においては、少なくとも部分的に自律的なロボットは、例えば、洗濯機、ストーブ、オーブン、電子レンジ又は食器洗浄機のような家電装置(図示せず)によって与えられ得る。センサ(30)、例えば光学センサは、家電装置によって処理される対象物の状態を検出することができる。例えば、家電装置が洗濯機である場合、センサ30は、洗濯機内の洗濯物の状態を検出することができる。この場合、制御信号(A)は、洗濯物の検出された材料に応じて決定され得る。
【0088】
図6は、制御システム(40)が、例えば生産ラインの一部として、製造システム(200)の製造機械(11)、例えば、パンチカッタ、カッタ、ガンドリル、又は、グリッパを制御するために使用される一実施形態を示している。製造機械は、製造品(12)を移動させる搬送デバイス、例えばコンベヤベルト又は組立ラインを備えることができる。制御システム(40)はアクチュエータ(10)を制御し、アクチュエータ(10)は製造機械(11)を制御する。
【0089】
センサ(30)は、例えば製造品(12)の特性を捕捉する光学センサによって与えられ得る。
【0090】
画像機械学習システム(60)は、搬送デバイスに対する製造品(12)の位置を判定することができる。この場合、アクチュエータ(10)は、製造品(12)の後続の製造ステップのために、製造品(12)の判定された位置に応じて制御可能となる。例えば、アクチュエータ(10)は、製造品自体の特定の位置で製造品を切断するように制御され得る。選択的に、画像機械学習システム(60)は、製造品が故障しているかどうか又は欠陥を有するかどうかを分類することが想定され得る。次いで、アクチュエータ(10)は、製造品を輸送デバイスから取り除くように制御され得る。
【0091】
図7は、トレーニングデータセット(T)によって制御システム(40)の機械学習システム(60)をトレーニングするためのトレーニングシステム(140)の一実施形態を示している。トレーニングデータセット(T)には、機械学習システム(60)をトレーニングするために使用される複数の状態信号(x
i)が含まれる。
【0092】
トレーニングのために、トレーニングデータユニット(150)は、コンピュータ実装データベース(St2)にアクセスし、データベース(St2)はトレーニングデータセット(T)を提供する。トレーニングデータユニット(150)は、トレーニングデータセット(T)から好ましくはランダムに少なくとも1つの状態信号(xi)を決定し、状態信号(xi)を機械学習システム(60)に伝送する。機械学習システム(60)は、状態信号(xi)に基づいて安全行動(yi)を決定する。
【0093】
決定された安全行動(yi)は、修正ユニット(180)へ伝送される。
【0094】
決定された安全行動(yi)に基づいて、修正ユニット(180)は、次に、機械学習システム(60)のための新たなパラメータ(Φ’)を決定する。これは、バニラポリシー勾配、信頼領域ポリシー最適化、近接ポリシー最適化、深層決定論的ポリシー勾配、又は、アクタークリティック(actor-critic)法などの既知の強化学習方法に従って達成され得る。好ましくは、新しいパラメータは、敵対的生成模倣学習の方法に従って決定することができる。
【0095】
修正ユニット(180)は、損失値に基づいて新しいパラメータ(Φ’)を決定する。所与の実施形態においては、これは、勾配上昇法、好ましくは、確率的勾配降下法、Adam法、又は、AdamW法を使用して行われる。さらなる実施形態においては、トレーニングはまた、ニューラルネットワークをトレーニングするための進化的アルゴリズム又は2次的方法に基づき得る。
【0096】
他の好ましい実施形態においては、説明されるトレーニングは、所定の数の反復ステップについて反復的に繰り返され、又は、損失値が所定の閾値を下回るまで反復的に繰り返される。選択的に又は付加的に、テストデータセット又は検証データセットに関する平均損失値が所定の閾値を下回った場合に、トレーニングを終了することも考えられる。反復のうちの少なくとも1つにおいて、過去の反復において決定された新しいパラメータ(Φ’)が、さらなる反復のための機械学習システム(60)のパラメータ(Φ)として使用される。
【0097】
さらに、トレーニングシステム(140)は、少なくとも1つのプロセッサ(145)と、プロセッサ(145)によって実行されるときに、トレーニングシステム(140)に本発明の態様のうちの1つによるトレーニング方法を実施させるための命令を含む少なくとも1つの機械可読記憶媒体(146)とを備えることができる。
【0098】
「コンピュータ」なる用語は、予め定義された計算規則を処理するための任意のデバイスを網羅するものとして理解され得る。これらの計算規則は、ソフトウェア、ハードウェア、又は、ソフトウェアとハードウェアとの混合の形態とすることができる。
【0099】
全体として複数の個物にはインデクスが付されていると理解することができ、即ち、好ましくは複数含まれる要素に連続する整数を割り当てることによって、複数の各要素に一意のインデクスが割り当てられる。好ましくは、複数の個物はN個の要素を含み、Nが複数の要素の数である場合、要素には1からNまでの整数が割り当てられる。複数の要素は、そのインデクスによってアクセスされ得ることも理解され得る。
【手続補正書】
【提出日】2023-05-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
技術システム(40,100,200)によって実行される行動を特徴付ける制御信号(A)を決定するように構成されている機械学習システム(60)をトレーニングするためのコンピュータ実装された方法(100)であって、
・前記技術システム(
40,100,200)によって実行される安全行動
【数1】
を取得するステップであって、前記安全行動
【数2】
を取得するステップは、
環境の状態を特徴付ける状態信号(s)を取得するステップ(101)と、
前記機械学習システム(60)のパラメータ化されたポリシーモジュール(61)により、前記技術システム(100,200)によって実行され得る潜在的不安全行動の分布を決定するステップ(102)であって、前記ポリシーモジュール(61)が、取得された前記状態信号(s)に基づいて前記分布を決定する、ステップと、
前記分布から潜在的不安全行動
【数3】
をサンプリングするステップ(103)と、
前記機械学習システム(60)の安全モジュール(62)により、前記安全行動
【数4】
を取得するステップ(104)であって、前記安全行動
【数5】
は、サンプリングされた前記潜在的不安全行動
【数6】
と、前記技術システム(40,100,200)の現在の環境に関する安全行動の集合
【数7】
とに基づいて取得される、ステップと、
を含む、ステップと、
・前記状態信号(s)及び前記安全行動
【数8】
に基づいて損失値を決定するステップ(105)であって、前記損失値は、前記安全行動
【数9】
に基づいて取得された報酬を特徴付ける、ステップと、
・パラメータ(Φ)に対する損失値の勾配に従って前記ポリシーモジュール(61)のパラメータ(Φ)を更新することによって、前記機械学習システム(60)をトレーニングするステップ(106)と、
を含む方法(100)。
【請求項2】
前記安全モジュール(62)により前記安全行動
【数10】
を取得すること(104)は、前記潜在的不安全行動
【数11】
が前記安全行動の集合
【数12】
内にない場合に、前記潜在的不安全行動
【数13】
を前記安全行動の集合
【数14】
からの行動へと写像することを含み、前記写像は、区分的微分同相写像によって実行される、請求項1に記載の方法(100)。
【請求項3】
前記潜在的不安全行動
【数15】
を前記安全行動の集合
【数16】
からの行動へと写像することは、
・行動の空間の可算パーティション(M)を決定することと、
・前記可算パーティション(M)の各集合(u,k)について、集合(u,k)が安全な集合(k)であるか又は不安全な集合(u)であるかを判定することであって、集合が前記安全行動の集合
【数17】
からの行動のみを含む場合、及び、安全行動のみを含む将来の状態についての行動の軌跡が存在する場合、集合は安全な集合(k)として判定され、そうでない場合、前記集合は不安全な集合(u)として判定される、ことと、
・前記潜在的不安全行動
【数18】
が不安全な集合(u)内にある場合、
前記潜在的不安全行動の分布に基づいて、前記パーティション(M)から安全な集合(k)を決定し、
前記潜在的不安全行動
【数19】
を前記安全な集合(k)からの行動へと写像し、
前記行動を安全行動
【数20】
として提供することと、
・そうでない場合、前記潜在的不安全行動
【数21】
を安全行動
【数22】
として提供することと、
を含む、請求項2に記載の方法(100)。
【請求項4】
前記安全な集合(k)を決定することは、前記パーティション内の各安全な集合について、前記潜在的不安全行動の分布に関するパーティションのそれぞれの安全な集合の代表的行動の確率密度を決定することを含み、最も高い確率密度値を有する代表的行動を含む安全な集合が、決定済みの安全な集合(k)として提供される、請求項3に記載の方法(100)。
【請求項5】
前記安全な集合(k)を決定することは、前記パーティション内の各安全な集合について、前記潜在的不安全行動の分布に関するパーティションのそれぞれの安全な集合の代表的行動の確率密度を決定することを含み、決定された前記確率密度に基づいて安全な集合がサンプリングされ、サンプリングされた前記安全な集合が決定済みの安全な集合(k)として提供される、請求項3に記載の方法(100)。
【請求項6】
前記安全な集合(k)は、安全であるとみなされかつ前記潜在的不安全行動
【数23】
までの最小距離を有するパーティションから集合を選択することによって決定される、請求項3に記載の方法(100)。
【請求項7】
前記潜在的不安全行動
【数24】
を前記安全な集合(k)からの行動へと写像し、前記行動を安全行動
【数25】
として提供することは、前記不安全な集合(u)内の前記潜在的不安全行動
【数26】
の相対位置を決定し、前記安全な集合(k)内の前記相対位置における行動を安全行動
【数27】
として提供することを含む、請求項
3に記載の方法(100)。
【請求項8】
前記潜在的不安全行動
【数28】
を前記安全な集合(k)からの行動へと写像し、前記行動を安全行動
【数29】
として提供することは、前記潜在的不安全行動
【数30】
までの最小距離を有する安全な集合(k)からの行動を決定し、当該行動を安全行動
【数31】
として提供することを含む、請求項
3に記載の方法(100)。
【請求項9】
前記損失値は、弁別器によって決定され、前記機械学習システム(60)をトレーニングすることは、敵対的生成模倣学習に従って前記ポリシーモジュール(61)及び前記弁別器をトレーニングすることを含む、請求項1に記載の方法(100)。
【請求項10】
技術システム(100,200)のアクチュエータ(10)を制御するための制御信号(A)を決定するためのコンピュータ実装された方法であって、
・請求項1に記載の方法を使用して機械学習システム(60)をトレーニングするステップと、
・トレーニング済みの前記機械学習システム(60)により、環境の状態信号(s)に基づいて制御信号(A)を決定するステップと、
を含む方法。
【請求項11】
請求項1に記載の方法(100)を使用してトレーニングされた機械学習システム(60)。
【請求項12】
請求項11に記載の機械学習システム(60)をトレーニングするためのコンピュータ実装された方法であって、前記ポリシーモジュールは、強化学習パラダイム又は模倣学習パラダイムに従ってトレーニングされ、前記機械学習システム(60)の推論中に、前記ポリシーモジュール(61)によって提供される潜在的不安全行動
【数32】
が、前記機械学習システム(60)の前記安全モジュール(62)により、請求項
1に記載の
方法(100)における、安全行動
【数33】
を取得するステップ(104)に従って、安全行動
【数34】
へと写像される、方法。
【請求項13】
請求項1に記載の方法(100)を実施するように構成されたトレーニングシステム(140)。
【請求項14】
コンピュータプログラムであって、トレーニングシステム(140)に備えられたプロセッサ(45,145)によって実行されるときに、請求項1に記載の方法(100)を前記トレーニングシステム(140)に実施させるために構成されたコンピュータプログラム。
【請求項15】
請求項14に記載のコンピュータプログラムが記憶された機械可読記憶媒体(46,146)。
【外国語明細書】