(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022174734
(43)【公開日】2022-11-24
(54)【発明の名称】建設現場用のオフロード車両のための方策を学習するための装置および方法
(51)【国際特許分類】
E02F 3/85 20060101AFI20221116BHJP
E02F 9/20 20060101ALI20221116BHJP
G06Q 50/08 20120101ALI20221116BHJP
【FI】
E02F3/85 C
E02F9/20 N
G06Q50/08
【審査請求】未請求
【請求項の数】10
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022077382
(22)【出願日】2022-05-10
(31)【優先権主張番号】10 2021 204 797.1
(32)【優先日】2021-05-11
(33)【優先権主張国・地域又は機関】DE
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】チャナ ロス
(72)【発明者】
【氏名】ドータン ディ カストロ
(72)【発明者】
【氏名】ヤコフ ミロン
【テーマコード(参考)】
2D003
5L049
【Fターム(参考)】
2D003AA02
2D003BA02
2D003DA04
2D003DB03
2D003DB04
2D003DB05
2D003DC07
5L049CC07
(57)【要約】 (修正有)
【解決手段】強化学習を使用して、好ましくはデジタルツインによって方策を学習するためのコンピュータ実装方法であって、学習された方策は、オフロード車両を制御するように構成されており、オフロード車両は、粒状材料と相互作用するように構成されている、方法。
【効果】エージェント(オフロード車両)と環境との間の相互作用が未知である(モデルなし)が、現実世界のデータを収集するための可能性が制限されている場合に、強化学習アルゴリズムを訓練する完全なパイプラインを可能にするものである。したがって、手動での相互作用を必要としない自動化された学習パイプラインが提案される。
【選択図】
図2
【特許請求の範囲】
【請求項1】
オフロード車両を制御するように構成された方策(60)を学習するためのコンピュータ実装方法(20)であって、
前記オフロード車両は、粒状材料と相互作用するように構成されており、
前記方法は、
i.パラメータ化された、オフロード車両の環境のモデルを初期化するステップ(S21)であって、前記モデルは、可能な行動の集合のうちの、前記オフロード車両の少なくとも1つの入力された行動に依存して出力を決定するために適しており、前記出力のパラメータは、少なくとも、入力された行動および報酬(Rt)が実行された後の前記環境(St+1)を特徴付ける、ステップ(S21)と、
ii.オフロード車両の取得された実際の軌道と、環境の状態と、軌道内の注釈付きの行動とを、タプル([St;At;Rt;St+1])に変換するステップ(S22)であって、前記タプルは、前記環境の状態(St)と、前記オフロード車両によって実行される行動(At)と、報酬(Rt)と、それぞれの時間刻みごとの前記環境の次の状態(St+1)とを含み、前記環境の次の状態は、注釈に基づいて前記行動が実行された後の前記環境を特徴付ける、ステップ(S22)と、
iii.前記タプルに依存して前記モデルが前記車両と前記環境との間の相互作用を最良にエミュレートするように、環境の前記モデルのパラメータ(デジタルツイン)を最適化するステップ(S23)と、
iv.報酬が最適化されるように、前記モデルとの相互作用に基づいて強化学習によって最適な方策(π(St))を学習するステップ(S24)と、
v.前記最適な方策(60)を出力するステップ(S25)と
を含む、方法。
【請求項2】
前記環境の状態(St)は、車両状態をさらに含み、
前記環境の状態は、行列によって特徴付けられ、ここで、行および列は、前記環境内の位置の座標(x,y)を表し、
前記行列のそれぞれのエントリ(S(x;y)=h)は、それぞれの位置での所定の高さ(h)における粒状材料を特徴付ける、
請求項1記載の方法。
【請求項3】
収集された前記実際の軌道と、前記環境の状態と、注釈付きの行動とが、人間の操作者によって駆動される前記オフロード車両の行動を記録することによって収集され、
前記行動の記録中に、環境高さマップが記録され、
前記環境の状態は、記録された前記環境高さマップに依存して決定される、
請求項1または2記載の方法。
【請求項4】
前記粒状材料は、土または砂である、
請求項3記載の方法。
【請求項5】
前記環境の前記モデルは、ニューラルネットワークであり、
前記タプルの次の状態(St+1)と、前記ニューラルネットワークによって出力された次の状態との間の距離を最小化することにより、前記ニューラルネットワークが最適化される、
請求項1から4までのいずれか1項記載の方法。
【請求項6】
前記環境の前記モデルは、前記環境と、前記オフロード車両とのデジタルツインである、
請求項1から4までのいずれか1項記載の方法。
【請求項7】
学習された方策に基づいた、かつ最適化された方策(π(St))に基づく環境の状態に依存した、オフロード車両の制御であって、
前記最適化された方策は、請求項1から6までのいずれか1項記載の方法によって取得される、オフロード車両の制御。
【請求項8】
請求項1から6までのいずれか1項記載の方法を実施するように構成されている、装置。
【請求項9】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサ(45)によって実行された場合に、請求項1から6までのいずれか1項記載の方法を、その全てのステップとともにコンピュータに実行させるように構成されている、コンピュータプログラム。
【請求項10】
請求項9記載のコンピュータプログラムが記憶されている、機械可読記憶媒体(46)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、(1)デジタルツインに適用される強化学習を用いて建設現場でのオフロード車両のための方策を学習するための方法と、(2)オフロード車両のアクチュエータを動作させるための方法と、コンピュータプログラムと、機械可読記憶媒体と、訓練システムとに関する。
【0002】
従来技術
米国特許第10481603号明細書は、オフロード車両のための軌道計画アルゴリズムを開示している。
【0003】
この軌道を学習するための1つのアプローチは、強化学習によるものであり、ここでは、車両の状態および/または環境の状態が与えられると、車両のための次の行動を選択する方策が作成される。
【0004】
オフロードの軌道計画のために強化学習を使用する場合には、現実世界からのデータを収集しなければならない。データが収集されると、2つのアプローチに従うことができ、すなわち、所与のデータに基づいて訓練する(「モデルなし」)アプローチか、または車両と環境との相互作用をエミュレートするシミュレーションを作成して(「モデルベース」)、検証のためにデータを使用するアプローチのいずれかに従うことができる。
【0005】
これらのシミュレーションは、収集されたデータと、好ましくは単純化された物理学とに基づいて車両および車両と環境との相互作用をモデル化して、強化学習アルゴリズムのモデルベースの訓練を可能にする。
【0006】
発明の利点
多くのシミュレーションは、非常に複雑な物理方程式を用いて環境をモデル化し、計算コストのかかる数値シミュレーションを必要とする。シミュレーションによって相互作用を模倣しなければならない一方で、複数の軌道も迅速に計算して効率的に算出しなければならないような強化学習の訓練にとっては、この種のシミュレーションは有用ではない。
【0007】
本発明は、エージェント(オフロード車両)と環境との間の相互作用が未知である(モデルなし)が、現実世界のデータを収集するための可能性が制限されている場合に、強化学習アルゴリズムを訓練する完全なパイプラインを可能にするものである。したがって、手動での相互作用を必要としない自動化された学習パイプラインが提案される。
【0008】
さらなる利点は、データを収集するため、かつ強化学習アルゴリズムを訓練するための現実世界との相互作用が低減されることである。このことは、現実世界を再現することはできないかもしれないが、例えば車両と土壌との間に政策に影響を与える主要な相互作用を含んでいるような、シミュレートされた環境に基づいて訓練する能力のおかげである。したがって、本発明によれば、収束のために使用されるデータ量が顕著に少なくなる。したがって、データ効率および計算効率のより高いアプローチが開示されている。さらに、高速な収束を達成することが可能である。
【0009】
発明の開示
第1の態様では、オフロード車両を制御するように構成された方策を学習するためのコンピュータ実装方法が提案される。オフロード車両は、例えば建設現場において粒状材料と相互作用するように構成されている。この相互作用は、オフロード車両が粒状材料を分配することができるという意味で理解可能である。例えば、オフロード車両は、粒状材料を取り上げ、搬送して、降ろすことができるか、またはそうでなければ、粒状材料を別の位置へと移動させることができる。
【0010】
当該方法は、以下のステップを含む:
【0011】
当該方法は、φによってパラメータ化された、オフロード車両の環境のモデルを初期化することから始まる。このモデルは、可能な行動の集合のうちの、オフロード車両の少なくとも1つの入力された行動に依存して出力を決定するために適しており、この出力は、少なくとも、入力された行動および報酬(Rt)が実行された後の環境(St+1)を特徴付ける。
【0012】
続いて、オフロード車両の取得された実際の軌道と、環境の状態と、軌道内の注釈付きの行動とを、タプル([St;At;Rt;St+1])に変換することが実施される。当該ステップは、データの収集と、環境のモデルを構築するためのデータセットの作成とに関連すると言ってもよい。
【0013】
続いて、タプルに依存してモデルが車両と環境との間の相互作用を最良にエミュレートするように、モデルのパラメータφを最適化することが実施される。換言すれば、モデルは、経験豊富な現実世界の運転者の方策に基づいて収集されたタプルのタプルをシミュレートするように訓練される。
【0014】
続いて、累積された報酬が最適化されるように、モデルとの相互作用に基づいて強化学習によって方策が学習される。好ましくは、この相互作用は、上記のモデルのみと実施されるものである。
【0015】
オフロード車両は、ブルドーザ、圧縮機、ダンパ、または環境との相互作用を含んでいる多数の割り当てを有する任意の他の種類の車両であってもよい。これらの割り当ての種類についての例は、地ならし、砂の廃棄、地面の突固め、粒状材料の除去等であってもよい。
【0016】
環境の状態Stが、車両状態をさらに含むことが提案される。車両状態は、例えば6つの自由度によって、すなわちユークリッド空間内の位置である(x,y,z)と、このデカルト空間に対する車両姿勢のオイラー角の表現としての(ψ,θ,φ)とによってモデル化可能である。好ましくは、操縦可能なツール、例えばブルドーザのブレードを有するオフロード車両の場合には、車両に対する別の2つの自由度、すなわちブレードの高さと、懸架装置に対する角度とを追加することができる。精度と最小計算負荷との間の良好なトレードオフを達成するために、自由度は、(x,y,z,ψ)のみによって定義される。好ましくは、環境は、行列によって特徴付けられ、ここで、行および列は、環境内の位置の座標(x,y)を表し、上記の行列のそれぞれのエントリS(x;y)=hは、それぞれの位置での所定の高さ(h)における粒状材料を特徴付ける。
【0017】
さらに、収集された実際の軌道と、環境の状態と、注釈付きの行動とが、人間の操作者によって駆動されるオフロード車両の行動を記録することによって収集され、行動の記録中に、環境高さマップも記録されるようにすることが提案される。その場合、例えば、環境の状態は、記録された環境高さマップに依存して決定される。
【0018】
さらに、環境高さマップが、特に車両と粒状材料とが相互作用する領域を特徴付けることが提案される。例えば、オフロード車両がブルドーザである場合には、環境高さマップは、ブルドーザのブレードが粒状材料と接触する領域である。
【0019】
環境高さマップは、LiDAR、カメラ、または任意の他のセンサを使用して記録可能であり、これらから、経時的な環境高さマップを導出することができ、速度、位置、オイラー角、角速度、加速度、および車両位置に関する任意の他の重要な情報のような車両センサを、車両状態のために使用することができる。
【0020】
さらに、粒状材料が、土または砂であることが提案される。粒状材料のシミュレーションは非常に複雑であるので、このことは、好ましい実施形態を呈している。環境は、車両の行動に基づいて変化するので、粒状材料は、動的な相互作用と、続いて生じる相互作用後の粒状材料の動的な形状変化という点でシミュレーションすることが困難である。したがって、物理的なシミュレーションによってではなくモデルによって環境をシミュレーションすることにより、シミュレーション速度が顕著に増加され、方策の学習速度が顕著に増加される。
【0021】
さらに、環境のモデルが、ニューラルネットワークであることが提案される。タプルの次の状態(S
t+1)と、ニューラルネットワークによって出力された次の状態
【数1】
との間の距離を最小化することにより、ニューラルネットワークが最適化される。
【0022】
教師あり学習モデルの損失は、
【数2】
となるであろう。ここで、S
t+1は、実際の状態であり、
【数3】
は、モデルによってシミュレートされた状態である。ニューラルネットワークの最適化は、機械学習アルゴリズム、例えば勾配降下法によって実施可能である。
【0023】
本発明の実施形態について、以下の図面を参照しながらより詳細に説明する。
【図面の簡単な説明】
【0024】
【
図1】オフロード車両、特にブルドーザの概略図である。
【
図2】オフロード車両を制御するための方策を訓練するためのフローチャートである。
【
図3】方策を訓練するための訓練システムを示す図である。
【0025】
実施形態の説明
図1には、オフロード車両、特にブルドーザ100の1つの実施形態が示されている。ブルドーザ100は、制御システム40と相互作用するアクチュエータ10を含む。センサ30は、好ましくは等間隔の距離を置いて、アクチュエータシステムの状況、および/またはブルドーザ100の周囲の環境の状態を検知する。センサ30は、複数のセンサを含むことができる。好ましくは、センサ30は、環境20の画像を撮影する光学センサである。検知された状況を符号化するセンサ30の出力信号(またはセンサ30が複数のセンサを含む場合には、センサの各々についての出力信号S)が、制御システム40に送信される。
【0026】
考えられるセンサは、限定するわけではないが、ジャイロスコープ、加速度計、力センサ、カメラ、レーダ、LiDAR、角度エンコーダ等を含む。センサは、システムの状態を直接的に測定するのではなく、むしろ状態の結果を観察することが多く、例えばカメラは、別のオブジェクトに対する車両の相対位置を直接的に測定する代わりに、画像を検出するということに留意されたい。しかしながら、画像またはLiDAR測定値のような高次元の観察結果から、状態をフィルタリングすることが可能である。
【0027】
さらに、システムは、撮影されたシステムの状態および行動の品質を指示する報酬信号rを供給しなければならない。典型的に、この報酬信号は、学習アルゴリズムの挙動を操縦するように構成されている。一般的に、報酬信号は、望ましい状態/行動に対して大きな値を帰属させるべきであり、システムによって回避されるべき状態/行動に対して小さな(または負の)値を帰属させるべきである。
【0028】
考えられる報酬信号は、限定するわけではないが、いくつかの基準状態信号に対する負の追従誤差、特定のタスクの成功に対する指示関数、負の二次コスト項(最適制御からの方法に類似)等を含む。学習アルゴリズムが複数の目標に向けて同時に努力すべき場合には、他の報酬信号のうちの重み付けされたいくつかの報酬信号として、別の報酬信号を構成することも可能である。正の報酬の1つの例は、エージェントが(a)満足のいく性能を有するタスクを(b)迅速に完了した場合には「+1」であってもよい。負の報酬の1つの例は、エージェントがタスクを完了したが緩慢であった場合には「-1」であってもよい。大きな負の報酬の別の例は、信用されている許可領域から車両が離れた場合には「-100」であってもよい。
【0029】
これにより、制御システム40は、センサ信号のストリームを受信する。次いで、制御システム40は、センサ信号のストリームに依存して一連のアクチュエータ制御命令Aを計算し、これらの制御命令Aは、その後、アクチュエータ10に送信される。
【0030】
制御システム40は、オブションの受信ユニットにおいてセンサ30のセンサ信号Sのストリームを受信する。受信ユニットは、センサ信号Sを現在の状態信号Stに変換する。代替的に、受信ユニットが存在しない場合には、それぞれのセンサ信号を現在の状態信号Stとして直接的に受信してもよい。
【0031】
次いで、状態信号Stは、最適化された方策60に伝達され、この最適化された方策60は、例えば人工ニューラルネットワークによって提供可能である。
【0032】
最適化された方策60は、パラメータ記憶装置に記憶され、かつパラメータ記憶装置によって提供されるパラメータφによってパラメータ化される。
【0033】
最適化された方策60は、現在の状態信号Stから出力される行動信号Atを決定する。行動信号Atは、オプションの変換ユニットに送信され、この変換ユニットは、行動信号Atを制御命令Aに変換する。次いで、アクチュエータ制御命令Aは、アクチュエータ10を相応に制御するためにアクチュエータ10に送信される。代替的に、出力信号yを制御命令Aとして直接的に受信してもよい。
【0034】
アクチュエータ10は、アクチュエータ制御命令Aを受信し、相応に制御されて、アクチュエータ制御命令Aに対応する行動を実行する。アクチュエータ10は、制御ロジックを含むことができ、この制御ロジックは、アクチュエータ制御命令Aをさらなる制御命令に変換し、このさらなる制御命令は、次いで、アクチュエータ10を制御するために使用される。
【0035】
さらに、制御システム40は、プロセッサ45(または複数のプロセッサ)と、少なくとも1つの機械可読記憶媒体46とを含むことができ、この機械可読記憶媒体46には、実行された場合に、最適化された方策に依存してブルドーザ100を制御するための方法を制御システム40に実行させるための命令が記憶されている。
【0036】
好ましくは、オフロード車両は、方策によって部分的に制御される少なくとも部分的に自律的な車両である。
【0037】
図2には、オフロード車両を制御するための最適化された方策60を取得するための方法20の1つの実施形態が示されている。
【0038】
方法20は、パラメータφによってパラメータ化された、オフロード車両の環境のモデルを初期化すること(S21)から始まる。モデル自体は、可能な行動の集合のうちの、オフロード車両の少なくとも1つの入力された行動に依存して出力を決定するために適しており、この出力は、少なくとも、入力された行動および報酬(Rt)が実行された後の環境(St+1)を特徴付ける。
【0039】
ステップS21の後、オフロード車両の取得された実際の軌道と、環境の割り当てられた状態と、軌道内の注釈付きの行動とを、タプル([St;At;Rt;St+1])に変換すること(S22)が実施される。代替的に、タプルが既に提供されている場合には、ステップS22をスキップしてもよいことに留意されたい。
【0040】
その後、タプルに依存してモデルが車両と環境との間の相互作用を最良にエミュレートするように、環境のモデルのパラメータ(デジタルツイン)を最適化すること(S23)が続く。
【0041】
その後、報酬が最適化されるように、モデルとの相互作用のみに基づいて強化学習によって最適な方策60を学習すること(S24)が続く。
【0042】
最後のステップは、最適な方策(60)を出力する(S25)。
【0043】
ステップS25の後のオプションのステップでは、オフロード車両、特にブルドーザ100を制御するために、最適な方策が利用される。
【0044】
図3には、方策60を訓練するための訓練システムの1つの実施形態が示されている。
【0045】
データベース300は、記録された軌道の、記録されたタプル[St;At;Rt;St+1]を含む。これらのタプルは、環境と、好ましくはオフロード車両とのデジタルツイン302を構築するために、教師あり学習アルゴリズム301によって利用される。
【0046】
デジタルツイン302は、決定されたタプル([St;At;Rt;St+1])を返し、この決定されたタプル([St;At;Rt;St+1])は、教師あり学習アルゴリズム301によって分析される。続いて、教師あり学習アルゴリズム301は、改善されたパラメータφをデジタルツイン302に返す。これにより、デジタルツインの性能が改善される。教師あり学習アルゴリズム301とデジタルツイン302との間のこれら2つの相互作用は、複数回繰り返される。
【0047】
次いで、デジタルツイン302との相互作用に基づいて方策60を最適化するために、強化学習アルゴリズム303が使用される。強化学習アルゴリズム303および方策60を介して行動Atが決定され、デジタルツイン302に提出される。デジタルツインは、上記の行動Atに依存して報酬Rtを強化学習アルゴリズム303に返し、強化学習アルゴリズム303は、報酬が最大化されるように方策を調整する。強化学習アルゴリズム303とデジタルツイン302との間のこれら2つの相互作用は、複数回繰り返される。
【手続補正書】
【提出日】2022-06-10
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オフロード車両を制御するように構成された方策(60)を学習するためのコンピュータ実装方法(20)であって、
前記オフロード車両は、粒状材料と相互作用するように構成されており、
前記方法は、
i.パラメータ化された、オフロード車両の環境のモデルを初期化するステップ(S21)であって、前記モデルは、可能な行動の集合のうちの、前記オフロード車両の少なくとも1つの入力された行動に依存して出力を決定するために適しており、前記出力のパラメータは、少なくとも、入力された行動および報酬(Rt)が実行された後の前記環境(St+1)を特徴付ける、ステップ(S21)と、
ii.オフロード車両の取得された実際の軌道と、環境の状態と、軌道内の注釈付きの行動とを、タプル([St;At;Rt;St+1])に変換するステップ(S22)であって、前記タプルは、前記環境の状態(St)と、前記オフロード車両によって実行される行動(At)と、報酬(Rt)と、それぞれの時間刻みごとの前記環境の次の状態(St+1)とを含み、前記環境の次の状態は、注釈に基づいて前記行動が実行された後の前記環境を特徴付ける、ステップ(S22)と、
iii.前記タプルに依存して前記モデルが前記オフロード車両と前記環境との間の相互作用を最良にエミュレートするように、環境の前記モデルのパラメータ(デジタルツイン)を最適化するステップ(S23)と、
iv.報酬が最適化されるように、前記モデルとの相互作用に基づいて強化学習によって最適な方策(π(St))を学習するステップ(S24)と、
v.前記最適な方策(60)を出力するステップ(S25)と
を含む、方法。
【請求項2】
前記環境の状態(St)は、車両状態をさらに含み、
前記環境の状態は、行列によって特徴付けられ、ここで、行および列は、前記環境内の位置の座標(x,y)を表し、
前記行列のそれぞれのエントリ(S(x;y)=h)は、それぞれの位置での所定の高さ(h)における粒状材料を特徴付ける、
請求項1記載の方法。
【請求項3】
収集された前記実際の軌道と、前記環境の状態と、注釈付きの行動とが、人間の操作者によって駆動される前記オフロード車両の行動を記録することによって収集され、
前記行動の記録中に、環境高さマップが記録され、
前記環境の状態は、記録された前記環境高さマップに依存して決定される、
請求項1または2記載の方法。
【請求項4】
前記粒状材料は、土または砂である、
請求項3記載の方法。
【請求項5】
前記環境の前記モデルは、ニューラルネットワークであり、
前記タプルの次の状態(St+1)と、前記ニューラルネットワークによって出力された次の状態との間の距離を最小化することにより、前記ニューラルネットワークが最適化される、
請求項1または2記載の方法。
【請求項6】
前記環境の前記モデルは、前記環境と、前記オフロード車両とのデジタルツインである、
請求項1または2記載の方法。
【請求項7】
学習された方策に基づいた、かつ最適化された方策(π(St))に基づく環境の状態に依存した、オフロード車両の制御方法であって、
前記最適化された方策は、請求項1または2記載の方法によって取得される、オフロード車両の制御方法。
【請求項8】
請求項1または2記載の方法を実施するように構成されている、装置。
【請求項9】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサ(45)によって実行された場合に、請求項1または2記載の方法を、その全てのステップとともにコンピュータに実行させるように構成されている、コンピュータプログラム。
【請求項10】
請求項9記載のコンピュータプログラムが記憶されている、機械可読記憶媒体(46)。
【外国語明細書】