(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024012269
(43)【公開日】2024-01-30
(54)【発明の名称】デバイスを制御するように設計されて、トレーニングされている機械学習エージェントを提供するための装置及びコンピュータ実装された方法、デバイスを制御するための装置及び方法、並びに、車両
(51)【国際特許分類】
G06N 20/00 20190101AFI20240123BHJP
【FI】
G06N20/00
【審査請求】有
【請求項の数】10
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023115834
(22)【出願日】2023-07-14
(31)【優先権主張番号】10 2022 207 286.3
(32)【優先日】2022-07-18
(33)【優先権主張国・地域又は機関】DE
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】チャナ ロス
(72)【発明者】
【氏名】ヤコフ ミロン
(72)【発明者】
【氏名】ユヴァル ゴルドフラハト
(72)【発明者】
【氏名】チェン テスラー
(72)【発明者】
【氏名】ドータン ディ カストロ
(57)【要約】 (修正有)
【課題】作業環境内でタスクを解決するデバイスを制御する機械学習エージェント、方法及びプログラムを提供する。
【解決手段】車両100において、装置105は、予めトレーニングされている状態の元の機械学習エージェント112と、タスクを解決するエージェント112、135のためのイベントに基づくシミュレーション114とを初期化し、イベントに基づくシミュレーションと時間に基づく位置特定シミュレーションとを組み合わせ、ハイブリッドシミュレーション122を生成する。(時間に基づく位置特定シミュレーションは、センサモデルとエラーモデルとを含む。装置はさらに、トレーニングされている機械学習エージェント135を提供するために、ハイブリッドシミュレーションを使用して元の機械学習エージェントをトレーニングする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
作業環境内でタスクを解決するように設計されたデバイス(100)を制御するように設計されて、トレーニングされている機械学習エージェント(135)を提供するためのコンピュータ実装された方法(200)であって、
予めトレーニングされている状態の元の機械学習エージェント(112)と、前記タスクを解決するエージェント(112,135)のためのイベントに基づくシミュレーション(114)とを初期化するステップ(210)であって、前記イベントに基づくシミュレーション(114)は、前記作業環境とのエージェント相互作用に関する情報を提供するように設計されている、ステップ(210)と、
前記イベントに基づくシミュレーション(114)と、時間に基づく位置特定シミュレーションとを組み合わせることにより、ハイブリッドシミュレーション(122)を生成するステップ(220)であって、前記時間に基づく位置特定シミュレーションは、センサモデルとエラーモデルとを含み、前記センサモデルは、前記イベントに基づくシミュレーション(114)から抽出されるエージェントポーズに関連して予め定められた時間間隔でシミュレートされたセンサによって得られるシミュレートされた測定データを表し、前記エラーモデルは、前記シミュレートされたセンサに作用するシミュレートされたノイズを表す、ステップ(220)と、
前記トレーニングされている機械学習エージェント(135)を提供するために、前記ハイブリッドシミュレーション(122)を使用して前記元の機械学習エージェント(112)をトレーニングするステップ(230)と、
を含む方法(200)。
【請求項2】
前記生成するステップ(220)において、前記イベントに基づくシミュレーション(114)からの軌道から時間に基づく軌道を生成し、シミュレートされたセンサのサンプリング周波数に対応する予め定められた時間間隔に従って時間に基づく軌道からエージェントポーズを補間することにより、前記エージェントポーズが前記イベントに基づくシミュレーション(114)から抽出され、前記シミュレートされた測定データは、前記エージェントポーズから外挿され、前記エラーモデルは、時間間隔ごとにシミュレートされた測定データにシミュレートされたノイズを追加することによってセンサモデルに適用される、請求項1に記載の方法(200)。
【請求項3】
前記トレーニングするステップ(230)において、前記元の機械学習エージェント(112)の意思決定能力は、前記イベントに基づくシミュレーション(114)に基づくエージェント挙動と、前記ハイブリッドシミュレーション(122)に基づくエージェント挙動とを考察することによって評価される、請求項1又は2に記載の方法(200)。
【請求項4】
作業環境内でタスクを解決するように設計されたデバイス(100)を制御するための方法(300)であって、
請求項1乃至3のいずれか一項に記載の方法(200)に従ってトレーニングされている機械学習エージェント(135)を提供するステップ(335)と、
前記トレーニングされている機械学習エージェント(135)を使用して制御信号(145)を決定する(340)ステップと、
前記デバイス(100)を制御するために、前記デバイス(100)の少なくとも1つのアクチュエータ(102)に制御信号(145)を出力するステップ(350)と、
を含む方法(300)。
【請求項5】
前記デバイス(100)は、オフロード車両であり、前記解決すべきタスクは、前記作業環境における粒状材料(501)との前記オフロード車両の相互作用を含む、請求項1乃至4のいずれか一項に記載の方法(200,300)。
【請求項6】
請求項1乃至5のいずれか一項に記載の方法(200;300)のステップを、対応するユニット(110,120,130;140,150)において実行及び/又は制御するように設計されている装置(105)。
【請求項7】
請求項6に記載の装置(105)を含む車両(100)。
【請求項8】
前記車両(100)は、オフロード車両であり、タスクが、作業環境における粒状材料(501)との前記オフロード車両の相互作用を含む、請求項7に記載の車両(100)。
【請求項9】
コンピュータプログラムであって、当該コンピュータプログラムがコンピュータによって実行されるときに、請求項1乃至5のいずれか一項に記載の方法のステップを前記コンピュータに実施させるための命令を含むコンピュータプログラム。
【請求項10】
請求項9に記載のコンピュータプログラムが記憶されている機械可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
従来技術
本発明は、独立請求項による装置又は方法に関する。その他に、コンピュータプログラムも、本発明の対象である。
【背景技術】
【0002】
例えば、シミュレータ又はシミュレーションは、機械学習モデルのトレーニングに頻繁に使用される。大雑把に言えば、シミュレーションは、イベント駆動型と時間駆動型との2つのタイプに分けることができる。イベント駆動型シミュレーションは、シミュレーション内の各トランザクションがイベントによって引き起こされるシミュレーションである。時間駆動型シミュレーションは、いくつかのセンサが自身に設置されているシステムをシミュレートする。このタイプのシミュレーションにおいては、シミュレーション内の各トランザクションは、割り当てられたタイムスタンプとシミュレートされたセンサ情報の記録とによって引き起こされる。
【0003】
Eldabi T.著による文献「Systemic Characteristics to Support Hybrid Simulation Modeling. In:Proceedings of the 2021 Winter Simulation Conference, 2021, 1-10. https://ieeexplore. ieee.org/stamp/stamp.jsp?tp=&arnumber=9715534&tag=1」では、ハイブリッドシミュレーションモデルの開発を改善し、加速するためには、ハイブリッド化のための決定は、可及的に早期の時点において、即ち、システムの研究段階及び問題の決定段階において行うべきであることが提案されている。
【0004】
Popovic, R. Kliment M., Trebuna P., Pekarcikova M.著による文献「Simulation as a Tool for Process Optimization of Logistic Systems. In: International Scientific Journal about Logistics, https://www.actalogistica.eu/issues/2015/111_2015 01 Popovic_Kliment_ Trebuna_Pekarcikova.pdf,」では、生産プロセスのシミュレーション、特にTecnomatixソフトウェアが取り扱われている。このTecnomatixプロセスシミュレーションは、新たな生産プロセスの構築や既存の生産プロセスの修正のために構想されている。
【0005】
Wischnewski R.,Rossmann J.著による文献「A New Hybrid Time-Based / Event-Based Simulation Method for Transport Systems Considering Physical Effects. in: IEEE Conference on Robotics, Automation and Mechatronics, 2010, 470-475. https://ieeexplore. ieee. org/sta m p/stamp .jsp?tp=&a rnumber=5513149&tag= 1」では、両方の構想の利点を組み合わせた、時間及びイベントに基づくハイブリッド階層手法が提示されている。この新たな手法は、支持体質量のモデル化を必要とすることなく物理的効果を含めた3次元シミュレーションを可能にしている。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Eldabi T.著、「Systemic Characteristics to Support Hybrid Simulation Modeling. In:Proceedings of the 2021 Winter Simulation Conference, 2021, 1-10. https://ieeexplore. ieee.org/stamp/stamp.jsp?tp=&arnumber=9715534&tag=1」
【非特許文献2】Popovic, R. Kliment M., Trebuna P., Pekarcikova M.著、「Simulation as a Tool for Process Optimization of Logistic Systems. In: International Scientific Journal about Logistics, https://www.actalogistica.eu/issues/2015/111_2015 01 Popovic_Kliment_ Trebuna_Pekarcikova.pdf,」
【非特許文献3】Wischnewski R.,Rossmann J.著、「A New Hybrid Time-Based / Event-Based Simulation Method for Transport Systems Considering Physical Effects. in: IEEE Conference on Robotics, Automation and Mechatronics, 2010, 470-475. https://ieeexplore. ieee. org/sta m p/stamp .jsp?tp=&a rnumber=5513149&tag= 1」
【発明の概要】
【発明が解決しようとする課題】
【0007】
発明の概要
これらの従来技術に比較して、本明細書に示されている取り組みにおいては、主要請求項による方法、この方法を使用する装置、及び、対応するコンピュータプログラムが提供される。独立請求項において特定された対象の好適な実施形態及び改善形態は、従属請求項に示された特徴を用いることにより可能となる。
【課題を解決するための手段】
【0008】
実施形態によれば、例えば、自律型の車両、ブルドーザなどのようなデバイスを制御するように設計された機械学習エージェントをトレーニングするための、イベント駆動型及び時間駆動型であり得るハイブリッドシミュレーションを提供することができる。特に、本明細書において提案するそのようなハイブリッドシミュレーションは、イベントに基づくシミュレーションに埋め込まれた時間に基づくシステムの考察を検査する手段を提供することができ、この場合、これら2種類のシミュレーションのもつれの解消を維持し続けることができる。そのようなもつれの解消は有利である。なぜなら、イベントに基づくシミュレーションが、エージェントと環境との相互作用の捕捉を意図するものであるのに対して、時間に基づくシミュレーションは、特定の測定デバイスをシミュレートし、シミュレートされたエピソードの時間記録ごとのセンサ情報及びタイムスタンプの提供を意図するものだからである。
【0009】
ここでは、作業環境内でタスクを解決するように設計されたデバイスを制御するように設計されて、トレーニングされている機械学習エージェントを提供するためのコンピュータ実装された方法が提供され、本方法は、以下のステップ、即ち、
予めトレーニングされている状態の元の機械学習エージェントと、タスクを解決するエージェントのためのイベントに基づくシミュレーションとを初期化するステップであって、イベントに基づくシミュレーションは、作業環境とのエージェント相互作用に関する情報を提供するように設計されている、ステップと、
イベントに基づくシミュレーションと、時間に基づく位置特定シミュレーションとを組み合わせることにより、ハイブリッドシミュレーションを生成するステップであって、時間に基づく位置特定シミュレーションは、センサモデルとエラーモデルとを含み、センサモデルは、イベントに基づくシミュレーションから抽出されるエージェントポーズに関連して予め定められた時間間隔でシミュレートされたセンサによって得られるシミュレートされた測定データを表し、エラーモデルは、シミュレートされたセンサに作用するシミュレートされたノイズを表す、ステップと、
トレーニングされている機械学習エージェントを提供するために、ハイブリッドシミュレーションを使用して元の機械学習エージェントをトレーニングするステップと、
を含む。
【0010】
デバイスは、少なくとも部分的に自律的な方法によりタスクを解決するように設計されるものとしてよい。デバイスは、例えば、車両、ロボットなどであるものとしてよい。機械学習エージェント又はMLエージェントは、例えば、強化学習エージェント又はRLエージェントであるものとしてよい。機械学習エージェントは、一連の動作、軌道、及び/又は、そのようなものを表すストラテジを含み得るものであり及び/又は引き起こし得るものである。イベントに基づくシミュレーションは、機械学習に基づくシミュレーションであるものとしてよい。少なくともトレーニングするステップは、繰り返し実行することができ、ここで、元の機械学習エージェントは、トレーニングされている機械学習エージェントを提供するために、ハイブリッドシミュレーションを使用して繰り返しトレーニングされる。特に、本方法の全てのステップは、繰り返し実行することができ、ここでは、本方法のステップの先行する反復のトレーニングされている機械学習エージェントが、本方法のステップの後続する反復の元の機械学習エージェントになる。トレーニングされている機械学習エージェントは、デバイスのための少なくとも1つの軌道を計画するように設計することができる。元の機械学習エージェントの予めトレーニングされている状態は、提供するための本方法をトレーニングするステップによるトレーニング前の状態であるものとしてよい。元の機械学習エージェントは、既に他の方法によってトレーニングされているものとしてもよい。
【0011】
一実施形態によれば、生成するステップにおいて、イベントに基づくシミュレーションからの軌道から時間に基づく軌道を生成し、シミュレートされたセンサのサンプリング周波数に対応する予め定められた時間間隔に従って時間に基づく軌道からエージェントポーズを補間することにより、エージェントポーズをイベントに基づくシミュレーションから抽出することができ、ここで、シミュレートされた測定データは、エージェントポーズから外挿され、ここで、エラーモデルは、時間間隔ごとにシミュレートされた測定データにシミュレートされたノイズを追加することにより、センサモデルに適用される。そのような実施形態は、この場合、エラーモデルが反映する不確定性も考慮に入れながら、時間に基づく能力を現実的な方法により、イベントに基づくシミュレーションに追加できるという利点を有する。
【0012】
一実施形態によれば、トレーニングするステップにおいて、元の機械学習エージェントの意思決定能力は、イベントに基づくシミュレーションに基づくエージェント挙動と、ハイブリッドシミュレーションに基づくエージェント挙動とを考察することによって評価することができる。この評価は、イベントに基づくシミュレーションに基づくエージェント挙動をハイブリッドシミュレーションに基づくエージェント挙動と比較することによって行うことができる。そのような実施形態は、ハイブリッドシミュレーションでも提供される不確定性の下における意思決定能力に基づいて、不確定性の下における機械学習エージェントの意思決定能力を検査できるという利点を有する。
【0013】
その他に、本明細書においては、作業環境内でタスクを解決するように設計されたデバイスを制御するための方法が提示され、本方法は、以下のステップ、即ち、
請求項1乃至3のいずれか一項に記載の方法に従ってトレーニングされている機械学習エージェントを提供するステップと、
トレーニングされている機械学習エージェントを使用して制御信号を決定するステップと、
デバイスを制御するために、デバイスの少なくとも1つのアクチュエータに制御信号を出力するステップと、
を含む。
【0014】
トレーニングされている機械学習エージェント、従って、制御信号は、タスクを解決するために適した方法によりデバイスを挙動させるように案内可能である。
【0015】
本明細書に示されている方法の任意の一実施形態によれば、デバイスは、オフロード車両であるものとしてよく、ここで解決すべきタスクは、作業環境における粒状材料とのオフロード車両の相互作用を含む。本車両又はオフロード車両は、ドーザ、ブルドーザ、コンパクタ(転圧機)、ダンプ、土木機械、建設車両、重機、大型車両、又は、環境との相互作用、特に粒状材料との相互作用を含む複数の割り当てを有する他のタイプの車両であるものとしてもよい。これらのタイプの割り当て又は動作についての例は、平坦にすること、粒状材料を敷くこと、路面を圧縮すること、粒状材料を除去することなどであるものとしてよい。粒状材料は、土、砂、雪、瓦礫、岩、及び/又は、同様の粒子状物質を含み得る。エージェントは、車両のために計画された追従すべき少なくとも1つの軌道を含み得る。
【0016】
本明細書に示されているいずれの方法も、例えば、ソフトウェア若しくはハードウェア、又は、ソフトウェアとハードウェアとの混合物、例えば、装置又は制御部に実装することができる。
【0017】
本明細書に示されている取り組みは、本明細書に示されている方法の変形形態のステップを実行若しくは制御するように、又は、対応する手段によって実装するように設計されている装置も提供する。本発明の基礎となる課題は、装置形態における本発明の当該実施形態を用いても迅速かつ効率的に解決することができる。
【0018】
この目的のために、本装置は、信号又はデータを処理するための少なくとも1つの計算ユニットと、信号又はデータを記憶するための少なくとも1つの記憶ユニットと、センサからセンサ信号を読み取るための又はアクチュエータにデータ若しくは制御信号を出力するためのセンサ若しくはアクチュエータに対する少なくとも1つのインタフェース、及び/又は、通信プロトコルに埋め込まれたデータを読み取る若しくは出力するための少なくとも1つの通信インタフェースとを含み得る。例えば、計算ユニットは、信号プロセッサ、マイクロコントローラ等であるものとしてよく、ここで、記憶ユニットは、フラッシュメモリ、EEPROM又は磁気記憶ユニットであるものとしてよい。通信インタフェースは、データを無線方式及び/又は有線方式で読み取る又は出力するように設計されるものとしてよく、ここで、有線データの読み取り又は出力が可能である通信インタフェースは、データを対応するデータ伝送線路から電気的若しくは光学的に読み取ることができ、又は、データを例えば対応するデータ伝送線路に出力することができる。
【0019】
本装置は、センサ信号を処理し、それに依存して制御信号及び/又はデータ信号を出力する電気的デバイスとして理解することができる。本装置は、ハードウェア及び/又はソフトウェアにより実現されるインタフェースを含み得る。ハードウェアにより実現される場合、インタフェースは、例えば、装置の様々な機能を含むいわゆるシステムASICの一部であるものとしてよい。しかしながら、インタフェースは、様々な集積回路であるものとしてもよいし、少なくとも部分的にディスクリート部品からなるものとしてもよい。ソフトウェアにより実現される場合、インタフェースは、例えば、他のソフトウェアモジュールとともにマイクロコントローラ上において実現されるソフトウェアモジュールであるものとしてよい。
【0020】
本明細書に示されている取り組みは、車両も提供し、ここで、本車両は、本明細書に示されている装置を含む。
【0021】
車両は、少なくとも1つのアクチュエータも含み得る。このアクチュエータは、車両の挙動に影響を与えるために、車両の少なくとも1つのコンポーネントを動作させるように設計されるものとしてよい。本装置及び少なくとも1つのアクチュエータは、信号通信又はデータ通信のために接続されるものとしてよい。
【0022】
一実施形態によれば、本車両は、オフロード車両であるものとしてよく、ここで、タスクは、作業環境における粒状材料とのオフロード車両の相互作用を含み得る。本車両又はオフロード車両は、ドーザ、ブルドーザ、コンパクタ、ダンプ、土木機械、建設車両、重機、大型車両、又は、環境との相互作用、特に粒状材料との相互作用を含む複数の割り当てを有する他のタイプの車両であるものとしてもよい。これらのタイプの割り当て又は動作についての例は、平坦にすること、粒状材料を敷くこと、路面を圧縮すること、粒状材料を除去することなどであるものとしてよい。粒状材料は、土、砂、雪、瓦礫、岩、及び/又は、同様の粒子状物質を含み得る。エージェントは、車両のために計画された追従すべき少なくとも1つの軌道を含み得る。
【0023】
その他に好適には、コンピュータプログラム製品又はコンピュータプログラムがプログラムコードを有し、当該プログラムコードは、例えば、半導体記憶装置、ハードディスク記憶装置又は光学的記憶装置などの機械可読担体又は記憶媒体上に記憶されるものとしてよく、特にコンピュータプログラム製品又はコンピュータプログラムがコンピュータ又は装置上において実行されるときに、前述した実施形態のいずれかによる方法のステップを実行、実装及び/又は制御するために使用される。
【0024】
一実施形態は、機械学習ツール連鎖における上流側部分として使用することができる。デバイスを制御するように設計されて、トレーニングされている機械学習エージェントを提供するための本方法は、学習のためのデータ品質を向上させることができる中核的な機械学習アルゴリズムを表すことができる。また、後述する用途に用いることができる機械学習システムのトレーニングのための方法として使用することもできる。従って、このようにしてトレーニングされた後、機械学習システムは、以下において描くような下流側の用途に用いることができる。換言すれば、例えば、自律的な走行、ロボット工学、制御など(ただし、これらに限定されるものではない)のようなタスクを解決又は実行する際に、人間と同様に動作するアルゴリズムエージェントをトレーニングするために使用することができる。例えば、ここでは、オフロード車両、ロボットなどのコンピュータ制御機械、車両又は任意の他のデバイスなどの物理的なシステムを制御するための制御信号を計算又は生成することができる。
【0025】
本明細書に示されている取り組みの実施形態は、図面に示され、以下の明細書においてより詳細に説明される。
【図面の簡単な説明】
【0026】
【
図1】車両内の装置の一実施形態を示す概略図である。
【
図2】デバイスを制御するように設計されトレーニングされている機械学習エージェントを提供するための方法の一実施形態を示すフローチャートである。
【
図3】デバイスを制御するための方法の一実施形態を示すフローチャートである。
【
図4】作業環境内でタスクを解決するデバイスの一連の動作のシミュレーションを示す概略図である。
【
図5】作業環境内でタスクを解決するデバイスの一連の動作の1つのシミュレーションを示す概略図である。
【発明を実施するための形態】
【0027】
本発明の好適な実施形態の以下の説明において、様々な図面に示されている同様に作用する要素には、同一又は類似の参照符号が付されており、それらの要素に関する説明の繰り返しは省略される。
【0028】
図1は、車両100における装置105の一実施形態の概略図を示している。この装置105は、デバイス、ここでは車両100を制御するように、及び/又は、デバイス、ここでは車両100を操縦するように設計されて、トレーニングされている機械学習エージェント135を提供するように設計されている。換言すれば、装置105は、
図2に記載のような方法のステップ及び/又は
図3に記載のような方法のステップを、対応するユニットにおいて実行及び/又は制御するように設計されている。デバイス、ここでは車両100は、作業環境内においてタスクを解決するように設計されている。
【0029】
特に、デバイスを例示的に表す車両100は、ここではオフロード車両、例えば、ドーザ、ブルドーザ、コンパクタ、ダンプ、土木機械、建設車両、重機、大型車両、又は、環境との相互作用、特に粒状材料との相互作用を含む複数の割り当てを有する他のタイプの車両であるものとしてよい。他の実施形態においては、デバイスは、例えばロボットなどのコンピュータ制御機械、他のタイプの車両、又は、任意の他のデバイスであるものとしてもよい。
【0030】
車両100は、装置105を含む、さらに、この車両100は、車両100の動作を引き起こす又は実行するための少なくとも1つのアクチュエータ102を含む。装置105及びアクチュエータ102は、信号通信又はデータ通信のために相互に接続されている。
【0031】
装置105は、装置105の提供部を表す初期化ユニット110と、生成ユニット120と、トレーニングユニット130とを含み、場合によっては、装置105の制御部を表す決定ユニット140及び出力ユニット150も含む。
図1の描写によれば、初期化ユニット110、生成ユニット120、トレーニングユニット130、並びに、任意選択的な決定ユニット140及び出力ユニット150は、装置105の部品として実現されており、これらは全て車両100内に配置されている。他の実施形態によれば、初期化ユニット110、生成ユニット120及びトレーニングユニット130、即ち、提供部は、物理的に車両100の外部に配置された装置105の一部として実現されるものとしてもよい。
【0032】
初期化ユニット110は、予めトレーニングされている状態の元の機械学習エージェント112と、例えばタスクを解決するエージェント112及び/又は135などのエージェントのためのイベントに基づくシミュレーション114とを初期化するように設計されている。イベントに基づくシミュレーション114は、作業環境とのエージェント相互作用に関する情報を提供するように設計されている。初期化ユニット110は、元の機械学習エージェント112と、イベントに基づくシミュレーション114とを生成ユニット120に転送するようにも設計されている。生成ユニット120は、イベントに基づくシミュレーション114と、時間に基づく位置特定シミュレーションとを組み合わせることによって、ハイブリッドシミュレーション122を生成するように設計されている。時間に基づく位置特定シミュレーションは、センサモデル及びエラーモデルを含む。センサモデルは、イベントに基づくシミュレーション114から抽出されたエージェントポーズに関連して予め定められた時間間隔でシミュレートされたセンサによって得られるシミュレートされた測定データを表す。エラーモデルは、シミュレートされたセンサに作用するシミュレートされたノイズを表す。生成ユニット120は、ここでは、時間に基づく位置特定シミュレーション又はイベントに基づくシミュレーション140からシミュレートされた測定データを生成するように設計されている。生成ユニット120は、元の機械学習エージェント112及びハイブリッドシミュレーション122をトレーニングユニット130に転送するようにも設計されている。このトレーニングユニット130は、トレーニングされている機械学習エージェント135を提供するために、ハイブリッドシミュレーション122を使用して元の機械学習エージェント112をトレーニングするように設計されている。
【0033】
決定ユニット140は、装置105の提供部によって提供される、トレーニングされている機械学習エージェント135を受信又は読み取るように設計されている。決定ユニット140は、その他に、トレーニングされている機械学習エージェント135を使用して制御信号145を決定するように設計されている。さらに、決定ユニット140は、制御信号145を出力ユニット150に転送するように設計されている。出力ユニット150は、デバイス、ここでは車両100を制御するために、制御信号145を少なくとも1つのアクチュエータ102に出力するように設計されている。一実施形態によれば、制御部は、装置105とは異なる部品であるものとしてもよい。
【0034】
図2は、デバイスを制御するように設計されて、トレーニングされている機械学習エージェントを提供するための方法200の一実施形態のフローチャートを示している。提供するための方法200は、コンピュータ実装された方法である。デバイスは、作業環境内でタスクを解決するように設計されている。提供するための方法200は、装置1若しくは同様の装置を用いて、又は、それらと連動して実行可能である。一実施形態によれば、デバイスは、
図1の車両又は同様の車両である。例えば、デバイスはオフロード車両であり、解決すべき課題は、オフロード車両と作業環境内の粒状材料との相互作用を含む。提供するための方法200は、初期化するステップ210と、生成するステップ220と、トレーニングするステップ230とを含む。初期化するステップ210においては、予めトレーニングされている状態の元の機械学習エージェントと、タスクを解決するエージェントのためのイベントに基づくシミュレーションとが初期化される。イベントに基づくシミュレーションは、作業環境とのエージェント相互作用に関する情報を提供するように設計されている。その後、生成するステップ220においては、イベントに基づくシミュレーションと、時間に基づく位置特定シミュレーションとを組み合わせることによって、ハイブリッドシミュレーションが生成される。時間に基づく位置特定シミュレーションは、センサモデル及びエラーモデルを含む。センサモデルは、イベントに基づくシミュレーションから抽出されたエージェントポーズに関連して予め定められた時間間隔でシミュレートされたセンサによって得られたシミュレートされた測定データを表す。エラーモデルは、シミュレートされたセンサに作用するシミュレートされたノイズを表す。その後、トレーニングするステップ230においては、トレーニングされている機械学習エージェントを提供するために、ハイブリッドシミュレーションを使用して元の機械学習エージェントがトレーニングされる。
【0035】
一実施形態によれば、生成するステップ220において、イベントに基づくシミュレーションからの軌道から時間に基づく軌道を生成し、シミュレートされたセンサのサンプリング周波数に対応する予め定められた時間間隔に従って時間に基づく軌道からエージェントポーズを補間することにより、エージェントポーズがイベントに基づくシミュレーションから抽出される。その他に、シミュレートされた計測データは、エージェントポーズから外挿される。さらに、エラーモデルは、時間間隔ごとにシミュレートされた測定データにシミュレートされたノイズを追加することによってセンサモデルに適用される。一実施形態によれば、トレーニングするステップ230において、元の機械学習エージェントの意思決定能力は、イベントに基づくシミュレーションに基づくエージェント挙動と、ハイブリッドシミュレーションに基づくエージェント挙動とを考察することによって評価される。
【0036】
図3は、デバイスを制御するための方法300の一実施形態のフローチャートを示している。このデバイスは、作業環境内でタスクを解決するように設計されている。生成するための方法300は、
図1の装置若しくは同様の装置を用いて、又は、それらと連動して実行可能である。一実施形態によれば、デバイスは、
図1の車両又は同様の車両である。生成するための方法300は、提供するステップ335と、決定するステップ340と、出力するステップ350とを含む。
【0037】
提供するステップ335においては、
図2に示されているように提供される方法又は同様の方法のステップを実行することによってトレーニングされている機械学習エージェントが提供される。その後、決定するステップ340においては、トレーニングされている機械学習エージェントを使用して制御信号が決定される。出力するステップ350においては、デバイスを制御するために、デバイスの少なくとも1つのアクチュエータに制御信号が出力される。
【0038】
一実施形態によれば、デバイスはオフロード車両であり、解決すべき課題は、オフロード車と作業環境内の粒状材料との相互作用を含む。
【0039】
図4は、作業環境内でタスクを解決するデバイスの一連の動作401A及び401Bのシミュレーションの概略
図400A及び400Bを示している。これらのシミュレーションは、
図1に示されているような装置又は同様の装置によって、及び/又は、
図2及び/又は
図3に示されているような方法又は同様の方法を実行することによって生成される。デバイスは、
図1に示されているようなデバイス又は同様のデバイスである。デバイスは、ここでは自律型のドーザであり、そのタスクは、粒状材料を作業環境内で均等に分配することである。粒状材料は例えば砂の山として提供され、そのうちの3つが
図4に例示的に示されている。描写400A及び400Bの各々は、作業環境のマップとして用いられるデカルト座標系として示されており、ここでは、寸法X及びYがセンチメートル[cm]単位で横軸及び縦軸に割り当てられている。
図4の左方及び右方に示されている描写は、それぞれ第1の描写400A及び第2の描写400Bと称される。
【0040】
第1の描写400Aにおけるシミュレーションは、先行する任意の図面において言及したイベントに基づくシミュレーションである。換言すれば、第1の描写400Aにおけるシミュレーションは、「実際の」データを表す。第1の描写400Aは、イベントに基づくシミュレーションに基づいてデバイスによって行われた第1の一連の動作401Aの後の終端状態を示す。第2の描写400Bにおけるシミュレーションは、先行する任意の図面において言及したハイブリッドシミュレーションである。換言すれば、第2の描写400Bにおけるシミュレーションは、「測定された」データを表す。第2の描写400Bは、ハイブリッドシミュレーションに基づいてデバイスによって行われた第2の一連の動作401Bの後の終端状態を示す。
【0041】
特に換言すれば、
図4は2つの状態を示している。左方の画像、即ち、第1の描写400Aは、イベントに基づくシミュレーションから得られたものである。これは、特定の環境において作用する際の、即ち、ポーズがエージェントに完全に既知であり、観測状態がエラーなしで投影されるときのエピソードの終端状態を示している。右方の画像、即ち、第2の描写400Bは、組合せのシミュレーション又はハイブリッドシミュレーションから得られたものである。そのようなシミュレーションについては、以下のプロセスが実行された:高いレベルで部分動作が与えられ、その結果として観測に移行した動作の場合にエージェントポーズが抽出された。与えられたエージェントポーズを用いてセンサ情報、即ち、「実際の」測定値が外挿された。与えられた「実際の」測定値及びエラーモデルを用いて、タイムスタンプごとに「エラーを含む」センサ測定値が生成された。ここではエージェントポーズにおける不確定性を考察することができる。これらの不確定性の下における意思決定能力を検査することができる。このようなプロセスが起きた場合、この画像は、所定のエラーモデルとともに時間に基づくシミュレーションに挿入された不確定性の下において作用するときのエピソードの終端状態を示す。この場合の状態から観測への投影は、低いレベルの時間に基づくシミュレーションにおける各タイムスタンプで計算された誤差を用いて行われた。これらの2つの描写400A及び400Bを比較する目的は、どちらのシミュレーションもユーザにとっては同様に見えるであろうこと、即ち、全ての計算は、例えば内部エラーを含みながらの機械学習の相互作用シミュレーションであるため、高いレベルのインタフェースを有するであろうことを強調するためある。この場合において、不確定性の下において作業するエージェント(第2の描写400B参照)は、不確定性の下において作業したこと、及び、砂の一部がその視野外にあったことのために、全ての領域を平坦にするという自身のタスクを完了しなかった。そのような比較が可能であるのは、2つのシミュレーションを組み合わせることができるために他ならない。
【0042】
図5は、作業環境内でタスクを解決するデバイス100の一連の動作のうちの1つのシミュレーションの概略
図500A及び500Bを示している。このシミュレーションは、
図1に示されているような装置又は同様の装置によって、及び/又は、
図2及び/又は
図3に示されているような方法又は同様の方法によって使用及び/又は生成される。デバイス100は、
図1に示されているようなデバイス又は同様のデバイスである。デバイス100は、ここでは自律型のドーザであり、そのタスクは、粒状材料501を作業環境内で均等に分配することである。粒状材料501は、例えば砂の山として提供され、そのうちの3つが
図5に例示的に示されている。描写500A及び500Bの各々は、作業環境のマップとして用いられるデカルト座標系として示されており、ここでは、寸法X及びYがセンチメートル[cm]単位で横軸及び縦軸に割り当てられている。
図5の左方及び右方に示されている描写は、それぞれ第1の描写500A又は第2の描写500Bと称される。第1の描写500Aは、第1の時点Tnでのシミュレーションにおける第1の状態を示す。第2の描写500Bは、第2の時点Tn+1でのシミュレーションにおける後続する第2の状態を示す。
【0043】
換言すれば、
図5は、イベントに基づくシミュレーションにおける2つの順次連続した状態を示している。遅延ごとに上述の時間に基づくシミュレーションが起動された。イベントに基づくシミュレーションと、検査すべきセンサモデル及び望ましいエラーモデルとが与えられると、イベントに基づくシミュレーションの高いレベルの特性を維持しながら、低いレベルの記録を可能にする組合せのシミュレーション又はハイブリッドシミュレーションが作成される。そのようなもつれの解消は、機械学習の相互作用としてのシミュレーションの性質を維持するために非常に大きい価値がある。例えば、2つ以上の、例えばN個の副次的遅延動作が与えられると、上述した動作が繰り返される。
図5は、2つの順次連続した高いレベルの遅延を示している。遅延ごとに同様の処理が実施された。
【0044】
以下においては、前述の図面を参照して、本発明の実施形態、実施形態の背景、及び、実施形態の利点を換言して要約する。
【0045】
イベント駆動型シミュレーション114は、シミュレーション内の各トランザクションがイベントによって引き起こされるシミュレーションである。イベントについての一例には、自律型の走行用途において制動操作する自動車が挙げられる。他の一例には、庭の中の全ての草を刈って自身の目的を達成した芝刈り機が挙げられる。時間駆動型シミュレーションは、いくつかのセンサが自身に設置されているシステムをシミュレートする。これらのセンサのうちの1つは「一次センサ」とみなすことができる。そのようなセンサは、所定のサンプリング周波数で活動させることができる。このタイプのシミュレーションにおいては、シミュレーション内の各トランザクションは、割り当てられたタイムスタンプとシミュレートされたセンサの情報の記録とによって引き起こされる。一例には、複数のサンプル値、例えば毎秒20個のサンプル値(SPS)を提供するように設計されているIMU(慣性測定ユニット)が挙げられる。このようなシミュレーションにおいては、各エントリーを50ミリ秒ごとに提供し、実際の測定装置が記録装置に接続された場合に記録されたであろう情報を含み得る。
【0046】
本発明の場合においては、シミュレーションは、例えば、エージェント112のような強化学習又はRLエージェントをトレーニングするように設計されているため、イベントに基づくものである。一般に、RLエージェントをトレーニングするために、シミュレータ又はシミュレーションは、エージェントと環境との相互作用に関する情報の提供を意図するものであり、特定のセンサ情報を含まないためイベント駆動型である。従って、タイムスタンプと結合されるセンサ情報は供給されない。その他に、RLシミュレーションは、一般に高速でなければならない。なぜなら、RLエージェント112をトレーニングするために何度も実行されるからである。既述したように、シミュレーションは、RLエージェントをトレーニングし、エージェントと環境との間の相互作用に関する情報の捕捉を意図するものであるため、イベントに基づくものである。不確定性の下における意思決定能力を追加するために、時間に基づく能力が付加される。従って、トレーニングエピソード内の副次的遅延ごとに、エージェントのポーズ、即ち、位置と姿勢とが記録される。次いで、これらのポーズは、特定のIMUの望ましいサンプリング周波数に補間される。次いで、これらのポーズからIMUのシミュレートされた測定値が計算される。これらの「実際の」IMU測定値には、典型的なノイズが付加される。その結果として、エラーを含むポーズが記録され、エージェントのポーズに関する不確定性を考察することができ、これらの不確定性の下においてエージェントの能力を考察することができる。
【0047】
上述したプロセスによって得られるハイブリッド又は組合せのシミュレーション122は、イベントに基づくシミュレーション114内に埋め込まれたシステムの時間に基づく考察を検査する手段として提供することができるという意味では独特である。これらの2つのタイプのシミュレーションは、ここではもつれの解消を維持する。そのようなもつれの解消は望ましい。なぜなら、イベントに基づくシミュレーション114が、エージェントと環境との相互作用の捕捉を意図するものであるのに対して、時間に基づくシミュレーションは、特定の測定デバイスをシミュレートし、シミュレートされたエピソードの時間記録ごとのセンサ情報及びタイムスタンプの提供を意図するものだからである。エージェントと環境との相互作用の場合、環境から観測値otが得られ、環境に関連して動作atが実行され、それに対する応答として報酬r1が得られる。
【0048】
例えば、
図5の第1の描写500Aに示されているような、イベントに基づくシミュレーション114からの副次的軌道に基づいて、そこからの時間に基づく軌道が抽出され、又は、換言すれば、高いレベルの動作(イベント)の終了時の状態が抽出され、又は、RLシミュレーション内の高いレベルのイベントから軌道が生成される。そのような副次的エピソードの遅延が与えられると、ポーズデータは高レベルのイベントに基づくシミュレーション114から補間され、時間に基づくシミュレーションが考察される場合に生成された可能性のあるポーズのリストが得られる。この軌道から、「実際の」センサ情報、例えば、タイムスタンプを含む加速度及び/又は角速度が計算される。
【0049】
図1に示されているような装置又は同様の装置によって、及び/又は、
図2及び/又は
図3に示されているような方法又は同様の方法によって実行される2つのタイプのシミュレーションを組み合わせるこのプロセスは、(イベントに基づく)RLシミュレーションと(時間に基づく)位置特定シミュレーションとの文脈において使用される。これは、自律的なオフロード走行のための不確定性の下におけるRLエージェントの意思決定の検査を意図して行われる。このことは、これらの2つのタイプのシミュレータ又はシミュレーションを組み合わせてデモンストレーションから軌道計画を学習することが望ましい、あらゆる機械学習用途又はML用途に適用可能である。
【0050】
1つの実施形態が、第1の特徴と第2の特徴との間に「及び/又は」結合を含む場合には、常にこれは、当該実施形態が、第1の変化形態においては、第1の特徴及び第2の特徴のいずれも含み、さらなる変化形態においては、第1の特徴又は第2の特徴のいずれかを含むことを意味すべきものである。
【手続補正書】
【提出日】2023-08-28
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
作業環境内でタスクを解決するように設計されたデバイス(100)を制御するように設計されて、トレーニングされている機械学習エージェント(135)を提供するためのコンピュータ実装された方法(200)であって、
予めトレーニングされている状態の元の機械学習エージェント(112)と、前記タスクを解決するエージェント(112,135)のためのイベントに基づくシミュレーション(114)とを初期化するステップ(210)であって、前記イベントに基づくシミュレーション(114)は、前記作業環境とのエージェント相互作用に関する情報を提供するように設計されている、ステップ(210)と、
前記イベントに基づくシミュレーション(114)と、時間に基づく位置特定シミュレーションとを組み合わせることにより、ハイブリッドシミュレーション(122)を生成するステップ(220)であって、前記時間に基づく位置特定シミュレーションは、センサモデルとエラーモデルとを含み、前記センサモデルは、前記イベントに基づくシミュレーション(114)から抽出されるエージェントポーズに関連して予め定められた時間間隔でシミュレートされたセンサによって得られるシミュレートされた測定データを表し、前記エラーモデルは、前記シミュレートされたセンサに作用するシミュレートされたノイズを表す、ステップ(220)と、
前記トレーニングされている機械学習エージェント(135)を提供するために、前記ハイブリッドシミュレーション(122)を使用して前記元の機械学習エージェント(112)をトレーニングするステップ(230)と、
を含む方法(200)。
【請求項2】
前記生成するステップ(220)において、前記イベントに基づくシミュレーション(114)からの軌道から時間に基づく軌道を生成し、シミュレートされたセンサのサンプリング周波数に対応する予め定められた時間間隔に従って時間に基づく軌道からエージェントポーズを補間することにより、前記エージェントポーズが前記イベントに基づくシミュレーション(114)から抽出され、前記シミュレートされた測定データは、前記エージェントポーズから外挿され、前記エラーモデルは、時間間隔ごとにシミュレートされた測定データにシミュレートされたノイズを追加することによってセンサモデルに適用される、請求項1に記載の方法(200)。
【請求項3】
前記トレーニングするステップ(230)において、前記元の機械学習エージェント(112)の意思決定能力は、前記イベントに基づくシミュレーション(114)に基づくエージェント挙動と、前記ハイブリッドシミュレーション(122)に基づくエージェント挙動とを考察することによって評価される、請求項1に記載の方法(200)。
【請求項4】
作業環境内でタスクを解決するように設計されたデバイス(100)を制御するための方法(300)であって、
請求項1に記載の方法(200)に従ってトレーニングされている機械学習エージェント(135)を提供するステップ(335)と、
前記トレーニングされている機械学習エージェント(135)を使用して制御信号(145)を決定する(340)ステップと、
前記デバイス(100)を制御するために、前記デバイス(100)の少なくとも1つのアクチュエータ(102)に制御信号(145)を出力するステップ(350)と、
を含む方法(300)。
【請求項5】
前記デバイス(100)は、オフロード車両であり、前記解決すべきタスクは、前記作業環境における粒状材料(501)との前記オフロード車両の相互作用を含む、請求項1に記載の方法(200)。
【請求項6】
請求項1に記載の方法(200)のステップを、対応するユニット(110,120,130;140,150)において実行及び/又は制御するように設計されている装置(105)。
【請求項7】
請求項6に記載の装置(105)を含む車両(100)。
【請求項8】
前記車両(100)は、オフロード車両であり、タスクが、作業環境における粒状材料(501)との前記オフロード車両の相互作用を含む、請求項7に記載の車両(100)。
【請求項9】
コンピュータプログラムであって、当該コンピュータプログラムがコンピュータによって実行されるときに、請求項1に記載の方法のステップを前記コンピュータに実施させるための命令を含むコンピュータプログラム。
【請求項10】
請求項9に記載のコンピュータプログラムが記憶されている機械可読記憶媒体。
【外国語明細書】