特開2024-12269 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト　ボツシユ　ゲゼルシヤフト　ミツト　ベシユレンクテル　ハフツングの特許一覧

特開2024-12269デバイスを制御するように設計されて、トレーニングされている機械学習エージェントを提供するための装置及びコンピュータ実装された方法、デバイスを制御するための装置及び方法、並びに、車両

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024012269

(43)【公開日】2024-01-30

(54)【発明の名称】デバイスを制御するように設計されて、トレーニングされている機械学習エージェントを提供するための装置及びコンピュータ実装された方法、デバイスを制御するための装置及び方法、並びに、車両

(51)【国際特許分類】

G06N 20/00 20190101AFI20240123BHJP

【ＦＩ】

G06N20/00

【審査請求】有

【請求項の数】10

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2023115834

(22)【出願日】2023-07-14

(31)【優先権主張番号】10 2022 207 286.3

(32)【優先日】2022-07-18

(33)【優先権主張国・地域又は機関】DE

(71)【出願人】

【識別番号】390023711

【氏名又は名称】ローベルトボツシユゲゼルシヤフトミツトベシユレンクテルハフツング

【氏名又は名称原語表記】ＲＯＢＥＲＴＢＯＳＣＨＧＭＢＨ

【住所又は居所原語表記】Ｓｔｕｔｔｇａｒｔ，Ｇｅｒｍａｎｙ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】チャナロス

(72)【発明者】

【氏名】ヤコフミロン

(72)【発明者】

【氏名】ユヴァルゴルドフラハト

(72)【発明者】

【氏名】チェンテスラー

(72)【発明者】

【氏名】ドータンディカストロ

(57)【要約】（修正有）

【課題】作業環境内でタスクを解決するデバイスを制御する機械学習エージェント、方法及びプログラムを提供する。
【解決手段】車両１００において、装置１０５は、予めトレーニングされている状態の元の機械学習エージェント１１２と、タスクを解決するエージェント１１２、１３５のためのイベントに基づくシミュレーション１１４とを初期化し、イベントに基づくシミュレーションと時間に基づく位置特定シミュレーションとを組み合わせ、ハイブリッドシミュレーション１２２を生成する。（時間に基づく位置特定シミュレーションは、センサモデルとエラーモデルとを含む。装置はさらに、トレーニングされている機械学習エージェント１３５を提供するために、ハイブリッドシミュレーションを使用して元の機械学習エージェントをトレーニングする。
【選択図】図１

【特許請求の範囲】

【請求項1】

作業環境内でタスクを解決するように設計されたデバイス（１００）を制御するように設計されて、トレーニングされている機械学習エージェント（１３５）を提供するためのコンピュータ実装された方法（２００）であって、
予めトレーニングされている状態の元の機械学習エージェント（１１２）と、前記タスクを解決するエージェント（１１２，１３５）のためのイベントに基づくシミュレーション（１１４）とを初期化するステップ（２１０）であって、前記イベントに基づくシミュレーション（１１４）は、前記作業環境とのエージェント相互作用に関する情報を提供するように設計されている、ステップ（２１０）と、
前記イベントに基づくシミュレーション（１１４）と、時間に基づく位置特定シミュレーションとを組み合わせることにより、ハイブリッドシミュレーション（１２２）を生成するステップ（２２０）であって、前記時間に基づく位置特定シミュレーションは、センサモデルとエラーモデルとを含み、前記センサモデルは、前記イベントに基づくシミュレーション（１１４）から抽出されるエージェントポーズに関連して予め定められた時間間隔でシミュレートされたセンサによって得られるシミュレートされた測定データを表し、前記エラーモデルは、前記シミュレートされたセンサに作用するシミュレートされたノイズを表す、ステップ（２２０）と、
前記トレーニングされている機械学習エージェント（１３５）を提供するために、前記ハイブリッドシミュレーション（１２２）を使用して前記元の機械学習エージェント（１１２）をトレーニングするステップ（２３０）と、
を含む方法（２００）。

【請求項2】

前記生成するステップ（２２０）において、前記イベントに基づくシミュレーション（１１４）からの軌道から時間に基づく軌道を生成し、シミュレートされたセンサのサンプリング周波数に対応する予め定められた時間間隔に従って時間に基づく軌道からエージェントポーズを補間することにより、前記エージェントポーズが前記イベントに基づくシミュレーション（１１４）から抽出され、前記シミュレートされた測定データは、前記エージェントポーズから外挿され、前記エラーモデルは、時間間隔ごとにシミュレートされた測定データにシミュレートされたノイズを追加することによってセンサモデルに適用される、請求項１に記載の方法（２００）。

【請求項3】

前記トレーニングするステップ（２３０）において、前記元の機械学習エージェント（１１２）の意思決定能力は、前記イベントに基づくシミュレーション（１１４）に基づくエージェント挙動と、前記ハイブリッドシミュレーション（１２２）に基づくエージェント挙動とを考察することによって評価される、請求項１又は２に記載の方法（２００）。

【請求項4】

作業環境内でタスクを解決するように設計されたデバイス（１００）を制御するための方法（３００）であって、
請求項１乃至３のいずれか一項に記載の方法（２００）に従ってトレーニングされている機械学習エージェント（１３５）を提供するステップ（３３５）と、
前記トレーニングされている機械学習エージェント（１３５）を使用して制御信号（１４５）を決定する（３４０）ステップと、
前記デバイス（１００）を制御するために、前記デバイス（１００）の少なくとも１つのアクチュエータ（１０２）に制御信号（１４５）を出力するステップ（３５０）と、
を含む方法（３００）。

【請求項5】

前記デバイス（１００）は、オフロード車両であり、前記解決すべきタスクは、前記作業環境における粒状材料（５０１）との前記オフロード車両の相互作用を含む、請求項１乃至４のいずれか一項に記載の方法（２００，３００）。

【請求項6】

請求項１乃至５のいずれか一項に記載の方法（２００；３００）のステップを、対応するユニット（１１０，１２０，１３０；１４０，１５０）において実行及び／又は制御するように設計されている装置（１０５）。

【請求項7】

請求項６に記載の装置（１０５）を含む車両（１００）。

【請求項8】

前記車両（１００）は、オフロード車両であり、タスクが、作業環境における粒状材料（５０１）との前記オフロード車両の相互作用を含む、請求項７に記載の車両（１００）。

【請求項9】

コンピュータプログラムであって、当該コンピュータプログラムがコンピュータによって実行されるときに、請求項１乃至５のいずれか一項に記載の方法のステップを前記コンピュータに実施させるための命令を含むコンピュータプログラム。

【請求項10】

請求項９に記載のコンピュータプログラムが記憶されている機械可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

従来技術
本発明は、独立請求項による装置又は方法に関する。その他に、コンピュータプログラムも、本発明の対象である。

【背景技術】

【0002】

例えば、シミュレータ又はシミュレーションは、機械学習モデルのトレーニングに頻繁に使用される。大雑把に言えば、シミュレーションは、イベント駆動型と時間駆動型との２つのタイプに分けることができる。イベント駆動型シミュレーションは、シミュレーション内の各トランザクションがイベントによって引き起こされるシミュレーションである。時間駆動型シミュレーションは、いくつかのセンサが自身に設置されているシステムをシミュレートする。このタイプのシミュレーションにおいては、シミュレーション内の各トランザクションは、割り当てられたタイムスタンプとシミュレートされたセンサ情報の記録とによって引き起こされる。

【0003】

Eldabi T.著による文献「Systemic Characteristics to Support Hybrid Simulation Modeling. In:Proceedings of the 2021 Winter Simulation Conference, 2021, 1-10. https://ieeexplore. ieee.org/stamp/stamp.jsp?tp=&arnumber=9715534&tag=1」では、ハイブリッドシミュレーションモデルの開発を改善し、加速するためには、ハイブリッド化のための決定は、可及的に早期の時点において、即ち、システムの研究段階及び問題の決定段階において行うべきであることが提案されている。

【0004】

Popovic, R. Kliment M., Trebuna P., Pekarcikova M.著による文献「Simulation as a Tool for Process Optimization of Logistic Systems. In: International Scientific Journal about Logistics, https://www.actalogistica.eu/issues/2015/111_2015 01 Popovic_Kliment_ Trebuna_Pekarcikova.pdf,」では、生産プロセスのシミュレーション、特にＴｅｃｎｏｍａｔｉｘソフトウェアが取り扱われている。このＴｅｃｎｏｍａｔｉｘプロセスシミュレーションは、新たな生産プロセスの構築や既存の生産プロセスの修正のために構想されている。

【0005】

Wischnewski R.,Rossmann J.著による文献「A New Hybrid Time-Based / Event-Based Simulation Method for Transport Systems Considering Physical Effects. in: IEEE Conference on Robotics, Automation and Mechatronics, 2010, 470-475. https://ieeexplore. ieee. org/sta m p/stamp .jsp?tp=&a rnumber=5513149&tag= 1」では、両方の構想の利点を組み合わせた、時間及びイベントに基づくハイブリッド階層手法が提示されている。この新たな手法は、支持体質量のモデル化を必要とすることなく物理的効果を含めた３次元シミュレーションを可能にしている。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】Eldabi T.著、「Systemic Characteristics to Support Hybrid Simulation Modeling. In:Proceedings of the 2021 Winter Simulation Conference, 2021, 1-10. https://ieeexplore. ieee.org/stamp/stamp.jsp?tp=&arnumber=9715534&tag=1」

【非特許文献2】Popovic, R. Kliment M., Trebuna P., Pekarcikova M.著、「Simulation as a Tool for Process Optimization of Logistic Systems. In: International Scientific Journal about Logistics, https://www.actalogistica.eu/issues/2015/111_2015 01 Popovic_Kliment_ Trebuna_Pekarcikova.pdf,」

【非特許文献3】Wischnewski R.,Rossmann J.著、「A New Hybrid Time-Based / Event-Based Simulation Method for Transport Systems Considering Physical Effects. in: IEEE Conference on Robotics, Automation and Mechatronics, 2010, 470-475. https://ieeexplore. ieee. org/sta m p/stamp .jsp?tp=&a rnumber=5513149&tag= 1」

【発明の概要】

【発明が解決しようとする課題】

【0007】

発明の概要
これらの従来技術に比較して、本明細書に示されている取り組みにおいては、主要請求項による方法、この方法を使用する装置、及び、対応するコンピュータプログラムが提供される。独立請求項において特定された対象の好適な実施形態及び改善形態は、従属請求項に示された特徴を用いることにより可能となる。

【課題を解決するための手段】

【0008】

実施形態によれば、例えば、自律型の車両、ブルドーザなどのようなデバイスを制御するように設計された機械学習エージェントをトレーニングするための、イベント駆動型及び時間駆動型であり得るハイブリッドシミュレーションを提供することができる。特に、本明細書において提案するそのようなハイブリッドシミュレーションは、イベントに基づくシミュレーションに埋め込まれた時間に基づくシステムの考察を検査する手段を提供することができ、この場合、これら２種類のシミュレーションのもつれの解消を維持し続けることができる。そのようなもつれの解消は有利である。なぜなら、イベントに基づくシミュレーションが、エージェントと環境との相互作用の捕捉を意図するものであるのに対して、時間に基づくシミュレーションは、特定の測定デバイスをシミュレートし、シミュレートされたエピソードの時間記録ごとのセンサ情報及びタイムスタンプの提供を意図するものだからである。

【0009】

ここでは、作業環境内でタスクを解決するように設計されたデバイスを制御するように設計されて、トレーニングされている機械学習エージェントを提供するためのコンピュータ実装された方法が提供され、本方法は、以下のステップ、即ち、
予めトレーニングされている状態の元の機械学習エージェントと、タスクを解決するエージェントのためのイベントに基づくシミュレーションとを初期化するステップであって、イベントに基づくシミュレーションは、作業環境とのエージェント相互作用に関する情報を提供するように設計されている、ステップと、
イベントに基づくシミュレーションと、時間に基づく位置特定シミュレーションとを組み合わせることにより、ハイブリッドシミュレーションを生成するステップであって、時間に基づく位置特定シミュレーションは、センサモデルとエラーモデルとを含み、センサモデルは、イベントに基づくシミュレーションから抽出されるエージェントポーズに関連して予め定められた時間間隔でシミュレートされたセンサによって得られるシミュレートされた測定データを表し、エラーモデルは、シミュレートされたセンサに作用するシミュレートされたノイズを表す、ステップと、
トレーニングされている機械学習エージェントを提供するために、ハイブリッドシミュレーションを使用して元の機械学習エージェントをトレーニングするステップと、
を含む。

【0010】

デバイスは、少なくとも部分的に自律的な方法によりタスクを解決するように設計されるものとしてよい。デバイスは、例えば、車両、ロボットなどであるものとしてよい。機械学習エージェント又はＭＬエージェントは、例えば、強化学習エージェント又はＲＬエージェントであるものとしてよい。機械学習エージェントは、一連の動作、軌道、及び／又は、そのようなものを表すストラテジを含み得るものであり及び／又は引き起こし得るものである。イベントに基づくシミュレーションは、機械学習に基づくシミュレーションであるものとしてよい。少なくともトレーニングするステップは、繰り返し実行することができ、ここで、元の機械学習エージェントは、トレーニングされている機械学習エージェントを提供するために、ハイブリッドシミュレーションを使用して繰り返しトレーニングされる。特に、本方法の全てのステップは、繰り返し実行することができ、ここでは、本方法のステップの先行する反復のトレーニングされている機械学習エージェントが、本方法のステップの後続する反復の元の機械学習エージェントになる。トレーニングされている機械学習エージェントは、デバイスのための少なくとも１つの軌道を計画するように設計することができる。元の機械学習エージェントの予めトレーニングされている状態は、提供するための本方法をトレーニングするステップによるトレーニング前の状態であるものとしてよい。元の機械学習エージェントは、既に他の方法によってトレーニングされているものとしてもよい。

【0011】

一実施形態によれば、生成するステップにおいて、イベントに基づくシミュレーションからの軌道から時間に基づく軌道を生成し、シミュレートされたセンサのサンプリング周波数に対応する予め定められた時間間隔に従って時間に基づく軌道からエージェントポーズを補間することにより、エージェントポーズをイベントに基づくシミュレーションから抽出することができ、ここで、シミュレートされた測定データは、エージェントポーズから外挿され、ここで、エラーモデルは、時間間隔ごとにシミュレートされた測定データにシミュレートされたノイズを追加することにより、センサモデルに適用される。そのような実施形態は、この場合、エラーモデルが反映する不確定性も考慮に入れながら、時間に基づく能力を現実的な方法により、イベントに基づくシミュレーションに追加できるという利点を有する。

【0012】

一実施形態によれば、トレーニングするステップにおいて、元の機械学習エージェントの意思決定能力は、イベントに基づくシミュレーションに基づくエージェント挙動と、ハイブリッドシミュレーションに基づくエージェント挙動とを考察することによって評価することができる。この評価は、イベントに基づくシミュレーションに基づくエージェント挙動をハイブリッドシミュレーションに基づくエージェント挙動と比較することによって行うことができる。そのような実施形態は、ハイブリッドシミュレーションでも提供される不確定性の下における意思決定能力に基づいて、不確定性の下における機械学習エージェントの意思決定能力を検査できるという利点を有する。

【0013】

その他に、本明細書においては、作業環境内でタスクを解決するように設計されたデバイスを制御するための方法が提示され、本方法は、以下のステップ、即ち、
請求項１乃至３のいずれか一項に記載の方法に従ってトレーニングされている機械学習エージェントを提供するステップと、
トレーニングされている機械学習エージェントを使用して制御信号を決定するステップと、
デバイスを制御するために、デバイスの少なくとも１つのアクチュエータに制御信号を出力するステップと、
を含む。

【0014】

トレーニングされている機械学習エージェント、従って、制御信号は、タスクを解決するために適した方法によりデバイスを挙動させるように案内可能である。

【0015】

本明細書に示されている方法の任意の一実施形態によれば、デバイスは、オフロード車両であるものとしてよく、ここで解決すべきタスクは、作業環境における粒状材料とのオフロード車両の相互作用を含む。本車両又はオフロード車両は、ドーザ、ブルドーザ、コンパクタ（転圧機）、ダンプ、土木機械、建設車両、重機、大型車両、又は、環境との相互作用、特に粒状材料との相互作用を含む複数の割り当てを有する他のタイプの車両であるものとしてもよい。これらのタイプの割り当て又は動作についての例は、平坦にすること、粒状材料を敷くこと、路面を圧縮すること、粒状材料を除去することなどであるものとしてよい。粒状材料は、土、砂、雪、瓦礫、岩、及び／又は、同様の粒子状物質を含み得る。エージェントは、車両のために計画された追従すべき少なくとも１つの軌道を含み得る。

【0016】

本明細書に示されているいずれの方法も、例えば、ソフトウェア若しくはハードウェア、又は、ソフトウェアとハードウェアとの混合物、例えば、装置又は制御部に実装することができる。

【0017】

本明細書に示されている取り組みは、本明細書に示されている方法の変形形態のステップを実行若しくは制御するように、又は、対応する手段によって実装するように設計されている装置も提供する。本発明の基礎となる課題は、装置形態における本発明の当該実施形態を用いても迅速かつ効率的に解決することができる。

【0018】

この目的のために、本装置は、信号又はデータを処理するための少なくとも１つの計算ユニットと、信号又はデータを記憶するための少なくとも１つの記憶ユニットと、センサからセンサ信号を読み取るための又はアクチュエータにデータ若しくは制御信号を出力するためのセンサ若しくはアクチュエータに対する少なくとも１つのインタフェース、及び／又は、通信プロトコルに埋め込まれたデータを読み取る若しくは出力するための少なくとも１つの通信インタフェースとを含み得る。例えば、計算ユニットは、信号プロセッサ、マイクロコントローラ等であるものとしてよく、ここで、記憶ユニットは、フラッシュメモリ、ＥＥＰＲＯＭ又は磁気記憶ユニットであるものとしてよい。通信インタフェースは、データを無線方式及び／又は有線方式で読み取る又は出力するように設計されるものとしてよく、ここで、有線データの読み取り又は出力が可能である通信インタフェースは、データを対応するデータ伝送線路から電気的若しくは光学的に読み取ることができ、又は、データを例えば対応するデータ伝送線路に出力することができる。

【0019】

本装置は、センサ信号を処理し、それに依存して制御信号及び／又はデータ信号を出力する電気的デバイスとして理解することができる。本装置は、ハードウェア及び／又はソフトウェアにより実現されるインタフェースを含み得る。ハードウェアにより実現される場合、インタフェースは、例えば、装置の様々な機能を含むいわゆるシステムＡＳＩＣの一部であるものとしてよい。しかしながら、インタフェースは、様々な集積回路であるものとしてもよいし、少なくとも部分的にディスクリート部品からなるものとしてもよい。ソフトウェアにより実現される場合、インタフェースは、例えば、他のソフトウェアモジュールとともにマイクロコントローラ上において実現されるソフトウェアモジュールであるものとしてよい。

【0020】

本明細書に示されている取り組みは、車両も提供し、ここで、本車両は、本明細書に示されている装置を含む。

【0021】

車両は、少なくとも１つのアクチュエータも含み得る。このアクチュエータは、車両の挙動に影響を与えるために、車両の少なくとも１つのコンポーネントを動作させるように設計されるものとしてよい。本装置及び少なくとも１つのアクチュエータは、信号通信又はデータ通信のために接続されるものとしてよい。

【0022】

一実施形態によれば、本車両は、オフロード車両であるものとしてよく、ここで、タスクは、作業環境における粒状材料とのオフロード車両の相互作用を含み得る。本車両又はオフロード車両は、ドーザ、ブルドーザ、コンパクタ、ダンプ、土木機械、建設車両、重機、大型車両、又は、環境との相互作用、特に粒状材料との相互作用を含む複数の割り当てを有する他のタイプの車両であるものとしてもよい。これらのタイプの割り当て又は動作についての例は、平坦にすること、粒状材料を敷くこと、路面を圧縮すること、粒状材料を除去することなどであるものとしてよい。粒状材料は、土、砂、雪、瓦礫、岩、及び／又は、同様の粒子状物質を含み得る。エージェントは、車両のために計画された追従すべき少なくとも１つの軌道を含み得る。

【0023】

その他に好適には、コンピュータプログラム製品又はコンピュータプログラムがプログラムコードを有し、当該プログラムコードは、例えば、半導体記憶装置、ハードディスク記憶装置又は光学的記憶装置などの機械可読担体又は記憶媒体上に記憶されるものとしてよく、特にコンピュータプログラム製品又はコンピュータプログラムがコンピュータ又は装置上において実行されるときに、前述した実施形態のいずれかによる方法のステップを実行、実装及び／又は制御するために使用される。

【0024】

一実施形態は、機械学習ツール連鎖における上流側部分として使用することができる。デバイスを制御するように設計されて、トレーニングされている機械学習エージェントを提供するための本方法は、学習のためのデータ品質を向上させることができる中核的な機械学習アルゴリズムを表すことができる。また、後述する用途に用いることができる機械学習システムのトレーニングのための方法として使用することもできる。従って、このようにしてトレーニングされた後、機械学習システムは、以下において描くような下流側の用途に用いることができる。換言すれば、例えば、自律的な走行、ロボット工学、制御など（ただし、これらに限定されるものではない）のようなタスクを解決又は実行する際に、人間と同様に動作するアルゴリズムエージェントをトレーニングするために使用することができる。例えば、ここでは、オフロード車両、ロボットなどのコンピュータ制御機械、車両又は任意の他のデバイスなどの物理的なシステムを制御するための制御信号を計算又は生成することができる。

【0025】

本明細書に示されている取り組みの実施形態は、図面に示され、以下の明細書においてより詳細に説明される。

【図面の簡単な説明】

【0026】

【図1】車両内の装置の一実施形態を示す概略図である。

【図2】デバイスを制御するように設計されトレーニングされている機械学習エージェントを提供するための方法の一実施形態を示すフローチャートである。

【図3】デバイスを制御するための方法の一実施形態を示すフローチャートである。

【図4】作業環境内でタスクを解決するデバイスの一連の動作のシミュレーションを示す概略図である。

【図5】作業環境内でタスクを解決するデバイスの一連の動作の１つのシミュレーションを示す概略図である。

【発明を実施するための形態】

【0027】

本発明の好適な実施形態の以下の説明において、様々な図面に示されている同様に作用する要素には、同一又は類似の参照符号が付されており、それらの要素に関する説明の繰り返しは省略される。

【0028】

図１は、車両１００における装置１０５の一実施形態の概略図を示している。この装置１０５は、デバイス、ここでは車両１００を制御するように、及び／又は、デバイス、ここでは車両１００を操縦するように設計されて、トレーニングされている機械学習エージェント１３５を提供するように設計されている。換言すれば、装置１０５は、図２に記載のような方法のステップ及び／又は図３に記載のような方法のステップを、対応するユニットにおいて実行及び／又は制御するように設計されている。デバイス、ここでは車両１００は、作業環境内においてタスクを解決するように設計されている。

【0029】

特に、デバイスを例示的に表す車両１００は、ここではオフロード車両、例えば、ドーザ、ブルドーザ、コンパクタ、ダンプ、土木機械、建設車両、重機、大型車両、又は、環境との相互作用、特に粒状材料との相互作用を含む複数の割り当てを有する他のタイプの車両であるものとしてよい。他の実施形態においては、デバイスは、例えばロボットなどのコンピュータ制御機械、他のタイプの車両、又は、任意の他のデバイスであるものとしてもよい。

【0030】

車両１００は、装置１０５を含む、さらに、この車両１００は、車両１００の動作を引き起こす又は実行するための少なくとも１つのアクチュエータ１０２を含む。装置１０５及びアクチュエータ１０２は、信号通信又はデータ通信のために相互に接続されている。

【0031】

装置１０５は、装置１０５の提供部を表す初期化ユニット１１０と、生成ユニット１２０と、トレーニングユニット１３０とを含み、場合によっては、装置１０５の制御部を表す決定ユニット１４０及び出力ユニット１５０も含む。図１の描写によれば、初期化ユニット１１０、生成ユニット１２０、トレーニングユニット１３０、並びに、任意選択的な決定ユニット１４０及び出力ユニット１５０は、装置１０５の部品として実現されており、これらは全て車両１００内に配置されている。他の実施形態によれば、初期化ユニット１１０、生成ユニット１２０及びトレーニングユニット１３０、即ち、提供部は、物理的に車両１００の外部に配置された装置１０５の一部として実現されるものとしてもよい。

【0032】

初期化ユニット１１０は、予めトレーニングされている状態の元の機械学習エージェント１１２と、例えばタスクを解決するエージェント１１２及び／又は１３５などのエージェントのためのイベントに基づくシミュレーション１１４とを初期化するように設計されている。イベントに基づくシミュレーション１１４は、作業環境とのエージェント相互作用に関する情報を提供するように設計されている。初期化ユニット１１０は、元の機械学習エージェント１１２と、イベントに基づくシミュレーション１１４とを生成ユニット１２０に転送するようにも設計されている。生成ユニット１２０は、イベントに基づくシミュレーション１１４と、時間に基づく位置特定シミュレーションとを組み合わせることによって、ハイブリッドシミュレーション１２２を生成するように設計されている。時間に基づく位置特定シミュレーションは、センサモデル及びエラーモデルを含む。センサモデルは、イベントに基づくシミュレーション１１４から抽出されたエージェントポーズに関連して予め定められた時間間隔でシミュレートされたセンサによって得られるシミュレートされた測定データを表す。エラーモデルは、シミュレートされたセンサに作用するシミュレートされたノイズを表す。生成ユニット１２０は、ここでは、時間に基づく位置特定シミュレーション又はイベントに基づくシミュレーション１４０からシミュレートされた測定データを生成するように設計されている。生成ユニット１２０は、元の機械学習エージェント１１２及びハイブリッドシミュレーション１２２をトレーニングユニット１３０に転送するようにも設計されている。このトレーニングユニット１３０は、トレーニングされている機械学習エージェント１３５を提供するために、ハイブリッドシミュレーション１２２を使用して元の機械学習エージェント１１２をトレーニングするように設計されている。

【0033】

決定ユニット１４０は、装置１０５の提供部によって提供される、トレーニングされている機械学習エージェント１３５を受信又は読み取るように設計されている。決定ユニット１４０は、その他に、トレーニングされている機械学習エージェント１３５を使用して制御信号１４５を決定するように設計されている。さらに、決定ユニット１４０は、制御信号１４５を出力ユニット１５０に転送するように設計されている。出力ユニット１５０は、デバイス、ここでは車両１００を制御するために、制御信号１４５を少なくとも１つのアクチュエータ１０２に出力するように設計されている。一実施形態によれば、制御部は、装置１０５とは異なる部品であるものとしてもよい。

【0034】

図２は、デバイスを制御するように設計されて、トレーニングされている機械学習エージェントを提供するための方法２００の一実施形態のフローチャートを示している。提供するための方法２００は、コンピュータ実装された方法である。デバイスは、作業環境内でタスクを解決するように設計されている。提供するための方法２００は、装置１若しくは同様の装置を用いて、又は、それらと連動して実行可能である。一実施形態によれば、デバイスは、図１の車両又は同様の車両である。例えば、デバイスはオフロード車両であり、解決すべき課題は、オフロード車両と作業環境内の粒状材料との相互作用を含む。提供するための方法２００は、初期化するステップ２１０と、生成するステップ２２０と、トレーニングするステップ２３０とを含む。初期化するステップ２１０においては、予めトレーニングされている状態の元の機械学習エージェントと、タスクを解決するエージェントのためのイベントに基づくシミュレーションとが初期化される。イベントに基づくシミュレーションは、作業環境とのエージェント相互作用に関する情報を提供するように設計されている。その後、生成するステップ２２０においては、イベントに基づくシミュレーションと、時間に基づく位置特定シミュレーションとを組み合わせることによって、ハイブリッドシミュレーションが生成される。時間に基づく位置特定シミュレーションは、センサモデル及びエラーモデルを含む。センサモデルは、イベントに基づくシミュレーションから抽出されたエージェントポーズに関連して予め定められた時間間隔でシミュレートされたセンサによって得られたシミュレートされた測定データを表す。エラーモデルは、シミュレートされたセンサに作用するシミュレートされたノイズを表す。その後、トレーニングするステップ２３０においては、トレーニングされている機械学習エージェントを提供するために、ハイブリッドシミュレーションを使用して元の機械学習エージェントがトレーニングされる。

【0035】

一実施形態によれば、生成するステップ２２０において、イベントに基づくシミュレーションからの軌道から時間に基づく軌道を生成し、シミュレートされたセンサのサンプリング周波数に対応する予め定められた時間間隔に従って時間に基づく軌道からエージェントポーズを補間することにより、エージェントポーズがイベントに基づくシミュレーションから抽出される。その他に、シミュレートされた計測データは、エージェントポーズから外挿される。さらに、エラーモデルは、時間間隔ごとにシミュレートされた測定データにシミュレートされたノイズを追加することによってセンサモデルに適用される。一実施形態によれば、トレーニングするステップ２３０において、元の機械学習エージェントの意思決定能力は、イベントに基づくシミュレーションに基づくエージェント挙動と、ハイブリッドシミュレーションに基づくエージェント挙動とを考察することによって評価される。

【0036】

図３は、デバイスを制御するための方法３００の一実施形態のフローチャートを示している。このデバイスは、作業環境内でタスクを解決するように設計されている。生成するための方法３００は、図１の装置若しくは同様の装置を用いて、又は、それらと連動して実行可能である。一実施形態によれば、デバイスは、図１の車両又は同様の車両である。生成するための方法３００は、提供するステップ３３５と、決定するステップ３４０と、出力するステップ３５０とを含む。

【0037】

提供するステップ３３５においては、図２に示されているように提供される方法又は同様の方法のステップを実行することによってトレーニングされている機械学習エージェントが提供される。その後、決定するステップ３４０においては、トレーニングされている機械学習エージェントを使用して制御信号が決定される。出力するステップ３５０においては、デバイスを制御するために、デバイスの少なくとも１つのアクチュエータに制御信号が出力される。

【0038】

一実施形態によれば、デバイスはオフロード車両であり、解決すべき課題は、オフロード車と作業環境内の粒状材料との相互作用を含む。

【0039】

図４は、作業環境内でタスクを解決するデバイスの一連の動作４０１Ａ及び４０１Ｂのシミュレーションの概略図４００Ａ及び４００Ｂを示している。これらのシミュレーションは、図１に示されているような装置又は同様の装置によって、及び／又は、図２及び／又は図３に示されているような方法又は同様の方法を実行することによって生成される。デバイスは、図１に示されているようなデバイス又は同様のデバイスである。デバイスは、ここでは自律型のドーザであり、そのタスクは、粒状材料を作業環境内で均等に分配することである。粒状材料は例えば砂の山として提供され、そのうちの３つが図４に例示的に示されている。描写４００Ａ及び４００Ｂの各々は、作業環境のマップとして用いられるデカルト座標系として示されており、ここでは、寸法Ｘ及びＹがセンチメートル［ｃｍ］単位で横軸及び縦軸に割り当てられている。図４の左方及び右方に示されている描写は、それぞれ第１の描写４００Ａ及び第２の描写４００Ｂと称される。

【0040】

第１の描写４００Ａにおけるシミュレーションは、先行する任意の図面において言及したイベントに基づくシミュレーションである。換言すれば、第１の描写４００Ａにおけるシミュレーションは、「実際の」データを表す。第１の描写４００Ａは、イベントに基づくシミュレーションに基づいてデバイスによって行われた第１の一連の動作４０１Ａの後の終端状態を示す。第２の描写４００Ｂにおけるシミュレーションは、先行する任意の図面において言及したハイブリッドシミュレーションである。換言すれば、第２の描写４００Ｂにおけるシミュレーションは、「測定された」データを表す。第２の描写４００Ｂは、ハイブリッドシミュレーションに基づいてデバイスによって行われた第２の一連の動作４０１Ｂの後の終端状態を示す。

【0041】

特に換言すれば、図４は２つの状態を示している。左方の画像、即ち、第１の描写４００Ａは、イベントに基づくシミュレーションから得られたものである。これは、特定の環境において作用する際の、即ち、ポーズがエージェントに完全に既知であり、観測状態がエラーなしで投影されるときのエピソードの終端状態を示している。右方の画像、即ち、第２の描写４００Ｂは、組合せのシミュレーション又はハイブリッドシミュレーションから得られたものである。そのようなシミュレーションについては、以下のプロセスが実行された：高いレベルで部分動作が与えられ、その結果として観測に移行した動作の場合にエージェントポーズが抽出された。与えられたエージェントポーズを用いてセンサ情報、即ち、「実際の」測定値が外挿された。与えられた「実際の」測定値及びエラーモデルを用いて、タイムスタンプごとに「エラーを含む」センサ測定値が生成された。ここではエージェントポーズにおける不確定性を考察することができる。これらの不確定性の下における意思決定能力を検査することができる。このようなプロセスが起きた場合、この画像は、所定のエラーモデルとともに時間に基づくシミュレーションに挿入された不確定性の下において作用するときのエピソードの終端状態を示す。この場合の状態から観測への投影は、低いレベルの時間に基づくシミュレーションにおける各タイムスタンプで計算された誤差を用いて行われた。これらの２つの描写４００Ａ及び４００Ｂを比較する目的は、どちらのシミュレーションもユーザにとっては同様に見えるであろうこと、即ち、全ての計算は、例えば内部エラーを含みながらの機械学習の相互作用シミュレーションであるため、高いレベルのインタフェースを有するであろうことを強調するためある。この場合において、不確定性の下において作業するエージェント（第２の描写４００Ｂ参照）は、不確定性の下において作業したこと、及び、砂の一部がその視野外にあったことのために、全ての領域を平坦にするという自身のタスクを完了しなかった。そのような比較が可能であるのは、２つのシミュレーションを組み合わせることができるために他ならない。

【0042】

図５は、作業環境内でタスクを解決するデバイス１００の一連の動作のうちの１つのシミュレーションの概略図５００Ａ及び５００Ｂを示している。このシミュレーションは、図１に示されているような装置又は同様の装置によって、及び／又は、図２及び／又は図３に示されているような方法又は同様の方法によって使用及び／又は生成される。デバイス１００は、図１に示されているようなデバイス又は同様のデバイスである。デバイス１００は、ここでは自律型のドーザであり、そのタスクは、粒状材料５０１を作業環境内で均等に分配することである。粒状材料５０１は、例えば砂の山として提供され、そのうちの３つが図５に例示的に示されている。描写５００Ａ及び５００Ｂの各々は、作業環境のマップとして用いられるデカルト座標系として示されており、ここでは、寸法Ｘ及びＹがセンチメートル［ｃｍ］単位で横軸及び縦軸に割り当てられている。図５の左方及び右方に示されている描写は、それぞれ第１の描写５００Ａ又は第２の描写５００Ｂと称される。第１の描写５００Ａは、第１の時点Ｔｎでのシミュレーションにおける第１の状態を示す。第２の描写５００Ｂは、第２の時点Ｔｎ＋１でのシミュレーションにおける後続する第２の状態を示す。

【0043】

換言すれば、図５は、イベントに基づくシミュレーションにおける２つの順次連続した状態を示している。遅延ごとに上述の時間に基づくシミュレーションが起動された。イベントに基づくシミュレーションと、検査すべきセンサモデル及び望ましいエラーモデルとが与えられると、イベントに基づくシミュレーションの高いレベルの特性を維持しながら、低いレベルの記録を可能にする組合せのシミュレーション又はハイブリッドシミュレーションが作成される。そのようなもつれの解消は、機械学習の相互作用としてのシミュレーションの性質を維持するために非常に大きい価値がある。例えば、２つ以上の、例えばＮ個の副次的遅延動作が与えられると、上述した動作が繰り返される。図５は、２つの順次連続した高いレベルの遅延を示している。遅延ごとに同様の処理が実施された。

【0044】

以下においては、前述の図面を参照して、本発明の実施形態、実施形態の背景、及び、実施形態の利点を換言して要約する。

【0045】

イベント駆動型シミュレーション１１４は、シミュレーション内の各トランザクションがイベントによって引き起こされるシミュレーションである。イベントについての一例には、自律型の走行用途において制動操作する自動車が挙げられる。他の一例には、庭の中の全ての草を刈って自身の目的を達成した芝刈り機が挙げられる。時間駆動型シミュレーションは、いくつかのセンサが自身に設置されているシステムをシミュレートする。これらのセンサのうちの１つは「一次センサ」とみなすことができる。そのようなセンサは、所定のサンプリング周波数で活動させることができる。このタイプのシミュレーションにおいては、シミュレーション内の各トランザクションは、割り当てられたタイムスタンプとシミュレートされたセンサの情報の記録とによって引き起こされる。一例には、複数のサンプル値、例えば毎秒２０個のサンプル値（ＳＰＳ）を提供するように設計されているＩＭＵ（慣性測定ユニット）が挙げられる。このようなシミュレーションにおいては、各エントリーを５０ミリ秒ごとに提供し、実際の測定装置が記録装置に接続された場合に記録されたであろう情報を含み得る。

【0046】

本発明の場合においては、シミュレーションは、例えば、エージェント１１２のような強化学習又はＲＬエージェントをトレーニングするように設計されているため、イベントに基づくものである。一般に、ＲＬエージェントをトレーニングするために、シミュレータ又はシミュレーションは、エージェントと環境との相互作用に関する情報の提供を意図するものであり、特定のセンサ情報を含まないためイベント駆動型である。従って、タイムスタンプと結合されるセンサ情報は供給されない。その他に、ＲＬシミュレーションは、一般に高速でなければならない。なぜなら、ＲＬエージェント１１２をトレーニングするために何度も実行されるからである。既述したように、シミュレーションは、ＲＬエージェントをトレーニングし、エージェントと環境との間の相互作用に関する情報の捕捉を意図するものであるため、イベントに基づくものである。不確定性の下における意思決定能力を追加するために、時間に基づく能力が付加される。従って、トレーニングエピソード内の副次的遅延ごとに、エージェントのポーズ、即ち、位置と姿勢とが記録される。次いで、これらのポーズは、特定のＩＭＵの望ましいサンプリング周波数に補間される。次いで、これらのポーズからＩＭＵのシミュレートされた測定値が計算される。これらの「実際の」ＩＭＵ測定値には、典型的なノイズが付加される。その結果として、エラーを含むポーズが記録され、エージェントのポーズに関する不確定性を考察することができ、これらの不確定性の下においてエージェントの能力を考察することができる。

【0047】

上述したプロセスによって得られるハイブリッド又は組合せのシミュレーション１２２は、イベントに基づくシミュレーション１１４内に埋め込まれたシステムの時間に基づく考察を検査する手段として提供することができるという意味では独特である。これらの２つのタイプのシミュレーションは、ここではもつれの解消を維持する。そのようなもつれの解消は望ましい。なぜなら、イベントに基づくシミュレーション１１４が、エージェントと環境との相互作用の捕捉を意図するものであるのに対して、時間に基づくシミュレーションは、特定の測定デバイスをシミュレートし、シミュレートされたエピソードの時間記録ごとのセンサ情報及びタイムスタンプの提供を意図するものだからである。エージェントと環境との相互作用の場合、環境から観測値ｏ_ｔが得られ、環境に関連して動作ａ_ｔが実行され、それに対する応答として報酬ｒ_１が得られる。

【0048】

例えば、図５の第１の描写５００Ａに示されているような、イベントに基づくシミュレーション１１４からの副次的軌道に基づいて、そこからの時間に基づく軌道が抽出され、又は、換言すれば、高いレベルの動作（イベント）の終了時の状態が抽出され、又は、ＲＬシミュレーション内の高いレベルのイベントから軌道が生成される。そのような副次的エピソードの遅延が与えられると、ポーズデータは高レベルのイベントに基づくシミュレーション１１４から補間され、時間に基づくシミュレーションが考察される場合に生成された可能性のあるポーズのリストが得られる。この軌道から、「実際の」センサ情報、例えば、タイムスタンプを含む加速度及び／又は角速度が計算される。

【0049】

図１に示されているような装置又は同様の装置によって、及び／又は、図２及び／又は図３に示されているような方法又は同様の方法によって実行される２つのタイプのシミュレーションを組み合わせるこのプロセスは、（イベントに基づく）ＲＬシミュレーションと（時間に基づく）位置特定シミュレーションとの文脈において使用される。これは、自律的なオフロード走行のための不確定性の下におけるＲＬエージェントの意思決定の検査を意図して行われる。このことは、これらの２つのタイプのシミュレータ又はシミュレーションを組み合わせてデモンストレーションから軌道計画を学習することが望ましい、あらゆる機械学習用途又はＭＬ用途に適用可能である。

【0050】

１つの実施形態が、第１の特徴と第２の特徴との間に「及び／又は」結合を含む場合には、常にこれは、当該実施形態が、第１の変化形態においては、第１の特徴及び第２の特徴のいずれも含み、さらなる変化形態においては、第１の特徴又は第２の特徴のいずれかを含むことを意味すべきものである。

【図1】

【図2】

【図3】

【図4】

【図5】

【手続補正書】

【提出日】2023-08-28

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

前記トレーニングするステップ（２３０）において、前記元の機械学習エージェント（１１２）の意思決定能力は、前記イベントに基づくシミュレーション（１１４）に基づくエージェント挙動と、前記ハイブリッドシミュレーション（１２２）に基づくエージェント挙動とを考察することによって評価される、請求項１に記載の方法（２００）。

【請求項4】

作業環境内でタスクを解決するように設計されたデバイス（１００）を制御するための方法（３００）であって、
請求項１に記載の方法（２００）に従ってトレーニングされている機械学習エージェント（１３５）を提供するステップ（３３５）と、
前記トレーニングされている機械学習エージェント（１３５）を使用して制御信号（１４５）を決定する（３４０）ステップと、
前記デバイス（１００）を制御するために、前記デバイス（１００）の少なくとも１つのアクチュエータ（１０２）に制御信号（１４５）を出力するステップ（３５０）と、
を含む方法（３００）。

【請求項5】

前記デバイス（１００）は、オフロード車両であり、前記解決すべきタスクは、前記作業環境における粒状材料（５０１）との前記オフロード車両の相互作用を含む、請求項１に記載の方法（２００）。

【請求項6】

請求項１に記載の方法（２００）のステップを、対応するユニット（１１０，１２０，１３０；１４０，１５０）において実行及び／又は制御するように設計されている装置（１０５）。

【請求項7】

請求項６に記載の装置（１０５）を含む車両（１００）。

【請求項8】

【請求項9】

コンピュータプログラムであって、当該コンピュータプログラムがコンピュータによって実行されるときに、請求項１に記載の方法のステップを前記コンピュータに実施させるための命令を含むコンピュータプログラム。

【請求項10】

請求項９に記載のコンピュータプログラムが記憶されている機械可読記憶媒体。

【外国語明細書】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版