(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-28
(54)【発明の名称】軌道最適化方法
(51)【国際特許分類】
B60W 30/10 20060101AFI20240621BHJP
B60W 40/04 20060101ALI20240621BHJP
B60W 40/107 20120101ALI20240621BHJP
B60W 40/109 20120101ALI20240621BHJP
G08G 1/13 20060101ALI20240621BHJP
G08G 1/00 20060101ALI20240621BHJP
【FI】
B60W30/10
B60W40/04
B60W40/107
B60W40/109
G08G1/13
G08G1/00 D
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023573577
(86)(22)【出願日】2022-06-21
(85)【翻訳文提出日】2023-11-29
(86)【国際出願番号】 DE2022200136
(87)【国際公開番号】W WO2022268274
(87)【国際公開日】2022-12-29
(31)【優先権主張番号】102021206588.0
(32)【優先日】2021-06-25
(33)【優先権主張国・地域又は機関】DE
(81)【指定国・地域】
(71)【出願人】
【識別番号】522296653
【氏名又は名称】コンチネンタル・オートモーティヴ・テクノロジーズ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング
(74)【代理人】
【識別番号】100069556
【氏名又は名称】江崎 光史
(74)【代理人】
【識別番号】100111486
【氏名又は名称】鍛冶澤 實
(74)【代理人】
【識別番号】100191835
【氏名又は名称】中村 真介
(74)【代理人】
【識別番号】100221981
【氏名又は名称】石田 大成
(74)【代理人】
【識別番号】100191938
【氏名又は名称】高原 昭典
(72)【発明者】
【氏名】シュタイン・ニコラス
(72)【発明者】
【氏名】ドイシュ・ヘンドリク
【テーマコード(参考)】
3D241
5H181
【Fターム(参考)】
3D241BA15
3D241BA22
3D241BA49
3D241BA62
3D241BB03
3D241CD11
3D241CD12
3D241CE01
3D241CE05
3D241CE07
3D241CE08
3D241DA52Z
3D241DB05Z
3D241DB09Z
5H181AA01
5H181BB04
5H181BB20
5H181CC03
5H181CC04
5H181CC11
5H181CC14
5H181FF03
5H181FF10
5H181MC12
5H181MC18
5H181MC27
(57)【要約】
本発明は、再帰的な走行状況について走行軌道を算出する方法であって、
-出発位置(SP)から目標位置(ZP)までの走行ルート(FS)を、人間の運転者により、車両(F)を用いて走行するステップ(S10)と、
-走行ルート(FS)の走行中に車両(F)のセンサ装置により周辺環境情報をキャプチャするステップ(S11)と、
-周辺環境情報に基づいて走行可能な走行道に関する情報を保存するステップ(S12)と、
-強化学習の戦略を行う車両(F)の計算装置を用いて、走行可能な走行道に関する情報に基づいて走行軌道を算出するステップ(S13)と、
-算出した走行軌道を保存するステップ(S14)とを備える方法に関する。
【特許請求の範囲】
【請求項1】
再帰的な走行状況について走行軌道を算出する方法であって、
-出発位置(SP)から目標位置(ZP)までの走行ルート(FS)を、人間の運転者により、車両(F)を用いて走行するステップ(S10)と、
-前記走行ルート(FS)の走行中に前記車両(F)のセンサ装置により周辺環境情報をキャプチャするステップ(S11)と、
-前記周辺環境情報に基づいて走行可能な走行道に関する情報を保存するステップ(S12)と、
-強化学習の戦略を行う前記車両(F)の計算装置を用いて、走行可能な走行道に関する情報に基づいて走行軌道を算出するステップ(S13)と、
-前記算出した走行軌道を保存するステップ(S14)とを備える方法。
【請求項2】
前記計算装置にエージェントおよび評価システムが実装されていることと、前記エージェントが計算した走行軌道を前記評価システムにより軌道特性に基づいて評価し、評価結果に応じて新規走行軌道を計算することを特徴とする、請求項1に記載の方法。
【請求項3】
軌道を評価するために複数の異なる軌道特性が用いられ、新規走行軌道の計算を、1つまたは複数の基準の下に行い、1つまたは複数の軌道特性を改善するように行うことを特徴とする、請求項1または2に記載の方法。
【請求項4】
評価結果が改善されるように前記エージェントが反復的に新規走行軌道を計算することを特徴とする、請求項2または3に記載の方法。
【請求項5】
前記評価システムが報酬機能を有し、前記報酬機能は計算した走行軌道に関してポジティブまたはネガティブな報酬を計算することを特徴とする、請求項2~4の何れか1項に記載の方法。
【請求項6】
前記エージェントによりその後の走行軌道をその報酬の高さに基づいて選択することを特徴とする、請求項5に記載の方法。
【請求項7】
走行軌道を評価するために用いられる軌道特性が、前記走行軌道の走行時間、前記走行軌道の距離、操舵角調整に関する情報、前後加速度に関する情報および/または横加速度に関する情報を含むことを特徴とする、請求項1~6の何れか1項に記載の方法。
【請求項8】
前記出発位置(SP)から前記目標位置(ZP)までの前記走行ルート(FS)を複数回走行し、その際に周辺環境情報を前記車両(F)のセンサ装置によりキャプチャし、走行可能な走行道に関する情報を算出して保存することを特徴とする、請求項1~7の何れか1項に記載の方法。
【請求項9】
複数の時間的に連続して算出した、走行可能な走行道に関する情報を組み合わせて、これら組み合わされた、走行可能な走行道に関する情報を、走行軌道を算出するために用いることを特徴とする、請求項8に記載の方法。
【請求項10】
出発地点から目標地点までの走行ルートを走行する際に連続的に周辺環境情報をキャプチャし、前記キャプチャした周辺環境情報に基づいて、走行可能な走行道に関する情報が静的物体により変更されたことを検出可能である場合には強化学習による走行軌道の算出を新規に行うことを特徴とする、請求項1~9の何れか1項に記載の方法。
【請求項11】
前記算出した走行軌道に基づいて前記出発位置(SP)から前記目標位置(ZP)までの前記走行ルート(FS)を自動走行し、前記算出した走行軌道において妨害が検出される場合には前記算出した走行軌道を回避することを特徴とする、請求項1~10の何れか1項に記載の方法。
【請求項12】
前記計算装置が強化学習の戦略を用いて複数の異なる最適化された走行軌道を算出し、この最適化された走行軌道のうちの1つの走行軌道を1つまたは複数の目標基準に基づいて選択することを特徴とする、請求項1~11の何れか1項に記載の方法。
【請求項13】
車両(F)に設けられた計算装置を備える、再帰的な走行状況について走行軌道を算出するシステムであって、方法が、
-出発位置(SP)から目標位置(ZP)までの走行ルート(FS)の人間の運転者による走行中に前記車両(F)のセンサ装置により周辺環境情報をキャプチャするステップと、
-前記周辺環境情報に基づいて走行可能な走行道に関する情報を保存するステップと、
-強化学習の戦略を行う前記計算装置を用いて、走行可能な走行道に関する情報に基づいて走行軌道を算出するステップと、
-前記算出した走行軌道を記憶装置に保存するステップとを備える、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、再帰的な走行状況、特に、再帰的な駐車状況における軌道最適化方法に関する。
【背景技術】
【0002】
部分自動または自動の車両駐車機能は既に周知である。その際、例えば、入庫操作を含む、出発位置から目標位置としての駐車場所までの人間の運転者により手動で走行する軌道と、検出された周辺環境を保存する。この保存された情報に基づいて、その後のある時点において、保存されている軌道を走行することができる。
【0003】
この場合の不利な点は、軌道が元々保存されていたようにしか軌道を走行することができないことである。人間の運転者により走行する軌道は、多くの場合、長さ、時間および/または操舵角に関して最適ではなく、これら手動により走行する軌道は自動走行プロセスの基礎を構成するものであるため、自動で走行した軌道についても、多くの場合、上記軌道特性に関して最適ではない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
従って、本発明の課題は、自動で走行する走行ルートについて改善された軌道特性を提供する、再帰的な走行状況について走行軌道を算出する方法を提供することである。
【課題を解決するための手段】
【0005】
本課題は独立請求項1の特徴を備える方法により解決される。好ましい実施形態が従属請求項の主題である。再帰的な走行状況について走行軌道を算出するシステムが並置独立請求項15の主題である。
【0006】
第1の態様によると、本発明は、再帰的な走行状況について走行軌道を算出する方法に関する。本方法は以下のステップを備える。
【0007】
まず、出発位置から目標位置までの走行ルートを、人間の運転者により、車両を用いて走行する。この走行ルートは、再帰的な走行状況に関するものであり、つまり、その後に、例えば、家、仕事場等での駐車プロセスとして頻繁に走行するものである。
【0008】
走行ルートの走行中に車両のセンサ装置により周辺環境情報をキャプチャする。センサ装置は任意の車両センサ装置により構成されてよく、この車両センサ装置により走行ルートの周辺環境をキャプチャすることができ、これに基づいて衝突が回避される走行可能な走行道を算出することができる。例えば、センサ装置は、1つまたは複数の超音波センサ、少なくとも1つのカメラ、少なくとも1つのレーダセンサおよび/または少なくとも1つのライダセンサを含んでよい。
【0009】
周辺環境情報をキャプチャした後、この周辺環境情報に基づいて走行可能な走行道に関する情報を生成して保存する。これにより、軌道計画を行うことができる領域または走行経路を決定する。
【0010】
車両の計算装置を用いて、走行可能な走行道に関する情報に基づいて走行軌道を算出する。ここで、計算装置は強化学習の戦略を行い、つまり、複数の反復的な試行軌道に関して、試行軌道を評価し、現在計算した試行軌道の軌道特性がそれ以前の試行軌道よりも改善したか否かを学習システムにフィードバックし、改善された軌道特性を有する走行軌道が求められる。
【0011】
最後に、算出した走行軌道を保存し、この走行軌道に基づいてその後に走行ルートを自動または部分自動で運転支援システムを用いて走行することができる。その際、運転者は車両外であってよく、つまり、車両が、例えば、独立して駐車位置に走行する。
【0012】
本発明に係る方法の技術的に有利な点は、強化学習プロセスにより最適化された走行軌道を生成するための複雑な訓練データを必要とせず、走行可能な走行道を特定するためには、出発位置から目標位置までの走行ルートを人間の運転者により少なくとも1回走行するだけでよいことにある。その際、最適化された走行道の決定は強化学習を介して行われる。このことは、最適化により特定すべき走行軌道を訓練データの品質により限定するのではなく、人間の運転者が走行する走行軌道よりも良好な走行軌道を強化学習により算出できるという有利な点を有する。
【0013】
1つの実施形態例によると、計算装置にエージェントおよび評価システムが実装されている。エージェントは、訓練データを用いずに、所定の軌道特性に関して最適化されている走行軌道を特定するように構成されている。エージェントが計算した走行軌道を評価システムにより軌道特性に基づいて評価し、評価結果に応じて新規走行軌道を計算する。これにより、評価結果を受けて新規走行軌道を計算し、このようにしてより良好な軌道特性を有する走行軌道を生成することができる。
【0014】
1つの実施形態例によると、軌道を評価するために複数の異なる軌道特性が用いられる。好ましくは、異なる軌道特性を異なって重み付けしてよい。新規軌道の計算を、1つまたは複数の基準の下に行い、1つまたは複数の軌道特性を改善するように行ってよい。これは、例えば、1つまたは複数の軌道特性が改善され、別の軌道特性が改悪されるように行われてよい。このようにして、例えば、目標位置により早く到着するように軌道長さを短縮化することで、非常に長い軌道を改善することができる。
【0015】
1つの実施形態例によると、評価結果が改善されるようにエージェントが反復的に新規走行軌道を計算する。その際、好ましくは、例えば、異なる重み付けを有する複数の異なる軌道特性が評価に入る。これにより、複数の反復ステップにより軌道を改善することができる。
【0016】
1つの実施形態例によると、評価システムが報酬機能を有し、報酬機能は計算した走行軌道に関してポジティブまたはネガティブな報酬を計算する。この報酬は、その後の軌道計算に影響を及ぼすエージェントへのフィードバック情報である。これにより、より良好な軌道特性と、従ってより良好な評価結果を有する軌道を連続的に計算するようにエージェントに影響を及ぼすことができる。
【0017】
1つの実施形態例によると、その後の走行軌道がその前の走行軌道よりも高いポジティブな報酬を得るようにエージェントは反復的に走行軌道を計算する。これにより、連続的に走行軌道の品質を改善し、強化学習プロセスにより十分に良好な軌道特性を有する最終的な走行軌道を算出することができる。
【0018】
1つの実施形態例によると、走行軌道を評価するために用いられる軌道特性が、走行軌道の走行時間、走行軌道の距離、操舵角調整に関する情報、前後加速度に関する情報および/または横加速度に関する情報を含む。これらの軌道特性を用いて走行軌道を、客観的に、人間の運転者の知覚に基づいて、評価することができる。
【0019】
1つの実施形態例によると、出発位置から目標位置までの走行ルートを複数回走行する。これは、複数の、人間の運転者により行われる走行プロセスであってよく、または少なくとも部分的に自動で行われる走行プロセスであってもよい。その際に周辺環境情報を車両のセンサ装置によりキャプチャし、走行可能な走行道に関する情報を算出して保存する。走行ルートを複数回走行することにより、より包括的な周辺環境情報を取得することができるため、軌道特定を改善することができる。
【0020】
1つの実施形態例によると、複数の時間的に連続して算出した周辺環境情報および/または走行可能な走行道に関する情報を組み合わせて、これら組み合わされた、走行可能な走行道に関する情報を、走行軌道を算出するために用いる。周辺環境情報または走行道情報のこの融合により、修正された、特に、より大きな走行道を得ることができる。この修正された走行道に基づいて、走行軌道の計算のためにより大きなフリースペースが得られる。
【0021】
1つの実施形態例によると、出発地点から目標地点までの走行ルートを走行する際に連続的に周辺環境情報をキャプチャし、キャプチャした周辺環境情報に基づいて、走行可能な走行道に関する情報が静的物体により変更されたことを検出可能である場合には強化学習による走行軌道の算出を新規に行う。これにより、走行軌道を、例えば、構造的な変化に起因する、走行可能な走行道の静的な変化に対して連続的に調整することを確実にすることができる。
【0022】
1つの実施形態例によると、算出した走行軌道に基づいて出発位置から目標位置までの走行ルートを自動走行する。算出した走行軌道において妨害が検出される場合には算出した走行軌道を回避する。これにより、状況に応じて、走行可能な走行道の一時的な変化に対応し、回避することにより衝突を防止することができる。
【0023】
1つの実施形態例によると、計算装置が強化学習の戦略を用いて複数の異なる最適化された走行軌道を算出し、この最適化された走行軌道のうちの1つの走行軌道を1つまたは複数の目標基準に基づいて選択する。これにより、複数の異なる最適化された走行軌道を算出できる場合には所定の評価基準を最も良く満たす最適化された走行軌道を用いることを達成することができる。
【0024】
さらなる態様によると、本発明は、車両に設けられた計算装置を備える、再帰的な走行状況について走行軌道を算出するシステムに関する。本方法は、
-出発位置から目標位置までの走行ルートの人間の運転者による走行中に車両のセンサ装置により周辺環境情報をキャプチャするステップと、
-周辺環境情報に基づいて走行可能な走行道に関する情報を保存するステップと、
-強化学習の戦略を行う計算装置を用いて、走行可能な走行道に関する情報に基づいて走行軌道を算出するステップと、
-算出した走行軌道を記憶装置に保存するステップとを備える。
【0025】
「約」、「本質的に」または「略」という表現は、本発明において、それぞれ正確な値から±10%、好ましくは±5%の偏差および/または機能について重要ではない変更の形態の偏差を意味している。
【0026】
本発明の発展形態、有利な点および応用可能性は、以下の実施形態例の説明と図面からも明らかである。その際、記載および/または図示される全ての特徴は、それ自体または任意の組み合わせにおいて基本的に本発明の対象であり、請求項またはその引用におけるまとめに依存しない。また、請求項の内容は、本明細書の一部である。
【0027】
以下、図面を参照して、実施形態例に基づいて本発明をより詳細に説明する。
【図面の簡単な説明】
【0028】
【
図1】
図1は、再帰的な走行状況の走行ルートの例示的な上面図である。
【
図2】
図2は、再帰的な走行状況について走行軌道を算出する方法ステップを説明する例示的なブロック図である。
【発明を実施するための形態】
【0029】
図1は、出発位置SPから目標位置ZPまでの走行ルートFSにより示される再帰的な走行状況の開始時における車両Fの例示的な概略図を示す。そのような走行ルートFSは、例えば、敷地車道と、敷地に設けられている駐車位置、例えば、ガレージ駐車場との間のルートであってよい。
【0030】
この走行ルートFSを自動走行可能とするためには、車両Fの計算装置を用いて、車両Fが走行する出発位置SPから目標位置ZPまでの走行軌道を計算する必要がある。
【0031】
走行軌道の計算には、走行ルートFSの領域の周辺環境に関する情報が利用可能である必要があり、この情報に基づいて、以下において走行経路とも称される、自由に走行可能な領域を識別する。
【0032】
走行経路を特定するために、車両Fはセンサ装置を備え、このセンサ装置を用いて周辺環境情報をキャプチャすることができる。センサ装置は、例えば、超音波センサ、1つまたは複数のカメラ、1つまたは複数のレーダセンサおよび/または1つまたは複数のライダセンサを含んでよい。
【0033】
走行ルートFSに沿って周辺環境情報をまず特定することができるように、最初に走行ルートFS、つまり、出発位置SPから目標位置ZPまでを、少なくとも1回、人間の運転者により走行することが必要である。この走行の際、周辺環境情報を車両Fのセンサ装置によりキャプチャすることができ、これにより、走行可能な走行経路を算出することができる。
【0034】
走行可能な走行経路を特定した後、出発位置SPから目標位置ZPまでの走行軌道の計算を行うことができる。このことは、好ましくは、車両の計算装置に実装されている軌道計画装置により行われる。
【0035】
計算装置は機械学習用、特に、強化学習(英語ではReinforcement learning)の原理に従って構成されている。この場合、計算装置はエージェントを備え、このエージェントは訓練データを用いずに、所定の軌道特性に関して最適化されている走行軌道を特定することができる。つまり、計算装置は、訓練データセットに基づく教師あり学習プロセスを実行しない。
【0036】
また、所定の軌道特性に基づいて計算した走行軌道を評価するように構成されている評価システムが設けられている。計算した走行軌道が所定の軌道特性を満たしている程度に応じて、評価システムによりポジティブまたはネガティブな報酬が供給される。特に、新規に計算した走行軌道の軌道特性がその前に計算した軌道の軌道特性よりも良好である場合、評価システムはポジティブな報酬を生成する。反対に、例えば、新規に計算した走行軌道の軌道特性がその前に計算した軌道の軌道特性よりも不良である場合、評価システムはネガティブな報酬を生成する。ここで、その前に計算した軌道とは、各々、直前に計算した軌道であってよく、または既にそれよりも前に計算した軌道に遡ってよい。
【0037】
ポシティブまたはネガティブな報酬に基づいて、エージェントは、ポジティブな報酬を獲得するためにはどのように走行軌道を変更する必要があるかを独立して学習する。報酬に基づいて、軌道特性はポジティブな報酬の獲得に関してどのような値を有するかを示す効用関数を算出することができる。これにより、軌道特性の好適な改善を達成することができる。
【0038】
好ましくは、反復的な走行状況に関して走行可能な走行経路が利用可能になると、まず走行軌道を算出するプロセスを開始する。例えば、目標位置ZPへの到達直後に計算が開始されてよい。好ましくは、十分に良好な走行軌道を算出するまで走行軌道の計算が行われる。この場合、1つまたは複数の終了基準が定義されてよく、この終了基準に基づいて反復的な軌道最適化は終了する。
【0039】
軌道特性に基づいて走行軌道の評価が行われ、軌道特性は、例えば、走行軌道の走行時間、走行軌道の距離、操舵角調整に関する情報、前後加速度に関する情報および/または横加速度に関する情報であってよい。
【0040】
好ましくは、出発位置SPと目標位置ZPとの間の走行ルートFSを複数回走行し、その際に周辺環境情報をキャプチャする。このようにして、時間的に連続して異なる周辺環境情報をキャプチャすることができる。これらの情報を互いに組み合わせるかまたは融合してよく、これに基づいて走行可能な走行道に関する改善された情報をキャプチャすることができる。その後、これらの改善された情報を走行軌道の計算の基礎として用いることができる。有利な点は、さらなる走行した軌道の各々、特に、手動で走行した軌道の各々を用いて走行可能な走行経路を拡大することができ、また、これにより、強化学習による走行軌道の最適化についてより高いポテンシャルを有することにある。
【0041】
また、走行ルートFSの自動走行の際、その前に計算した走行軌道に基づいて周辺環境をキャプチャする。一方では、走行軌道に位置する妨害物体をキャプチャし、車両がこれを回避可能であるかその前で停車可能であるようにすることを目的として周辺環境をキャプチャする。また、他方では、その前に走行可能として検出された走行経路上で静的物体を検出し、この場合に強化学習による新規の軌道最適化を走行経路の変更を考慮して行うことができるように、自動走行の際に周辺環境をキャプチャする。言い換えれば、このように走行可能な走行道を変更した場合には走行軌道の計算を再度行い、変更された周辺環境状況に基づいて最適化された走行軌道を算出する。
【0042】
強化学習による走行軌道の最適化により、走行軌道の大域的最適化が得られるのではなく、単に走行軌道の局所的最適化が得られる場合がある。従って、好ましくは、複数の異なる最適化された走行軌道を得るために、軌道最適化を、例えば、別の最適化基準に基づいて複数回行ってよい。その後、これら異なる最適化された走行軌道を互いに比較してよい。特に、異なる最適化された走行軌道を所定の基準、例えば、走行軌道の走行時間、走行軌道の距離、操舵角調整に関する情報、前後加速度に関する情報および/または横加速度に関する情報に基づいて互いに比較して、最終的な走行軌道を特定してよく、この最終的な走行軌道を、その後、自律走行機能に用いてよい。自律走行機能は、特に、再帰的な駐車状況における「訓練された駐車」であってよい。
【0043】
図2は、走行軌道を算出する方法ステップを説明する図を示す。
【0044】
まず、出発位置から目標位置までの走行ルートを、人間の運転者により、車両を用いて走行する(S10)。
【0045】
走行ルートの走行中に車両のセンサ装置により周辺環境情報をキャプチャする(S11)。
【0046】
その次に、車両の周辺環境情報に基づいて走行可能な走行道に関する情報を保存する(S12)。
【0047】
その後、車両の計算装置を用いて、走行可能な走行道に関する情報に基づいて走行軌道を算出する(S13)。ここで、計算装置は強化学習の戦略を行ってよく、強化学習においては、計算した走行軌道を軌道特性に基づいて評価して、反復ステップにより走行軌道の軌道特性を連続的に改善することを試みるように反復的に最適化する。
【0048】
最後に、算出した走行軌道を保存する(S14)。これにより、算出した走行軌道を再帰的な走行状況の自動走行に用いることができる。
【0049】
以上、実施形態例に基づいて本発明を説明した。特許請求の範囲により定義される保護範囲から逸脱することなく多数の変更および変形が可能であることは明らかである。
【符号の説明】
【0050】
F 車両
FS 走行ルート
SP 出発位置
ZP 目標位置
【手続補正書】
【提出日】2023-11-29
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0049
【補正方法】変更
【補正の内容】
【0049】
以上、実施形態例に基づいて本発明を説明した。特許請求の範囲により定義される保護範囲から逸脱することなく多数の変更および変形が可能であることは明らかである。
なお、本願は、特許請求の範囲に記載の発明に関するものであるが、他の観点として以下も含む。
1.
再帰的な走行状況について走行軌道を算出する方法であって、
-出発位置(SP)から目標位置(ZP)までの走行ルート(FS)を、人間の運転者により、車両(F)を用いて走行するステップ(S10)と、
-前記走行ルート(FS)の走行中に前記車両(F)のセンサ装置により周辺環境情報をキャプチャするステップ(S11)と、
-前記周辺環境情報に基づいて走行可能な走行道に関する情報を保存するステップ(S12)と、
-強化学習の戦略を行う前記車両(F)の計算装置を用いて、走行可能な走行道に関する情報に基づいて走行軌道を算出するステップ(S13)と、
-前記算出した走行軌道を保存するステップ(S14)とを備える方法。
2.
前記計算装置にエージェントおよび評価システムが実装されていることと、前記エージェントが計算した走行軌道を前記評価システムにより軌道特性に基づいて評価し、評価結果に応じて新規走行軌道を計算することを特徴とする、上記1に記載の方法。
3.
軌道を評価するために複数の異なる軌道特性が用いられ、新規走行軌道の計算を、1つまたは複数の基準の下に行い、1つまたは複数の軌道特性を改善するように行うことを特徴とする、上記1または2に記載の方法。
4.
評価結果が改善されるように前記エージェントが反復的に新規走行軌道を計算することを特徴とする、上記2または3に記載の方法。
5.
前記評価システムが報酬機能を有し、前記報酬機能は計算した走行軌道に関してポジティブまたはネガティブな報酬を計算することを特徴とする、上記2~4の何れか1つに記載の方法。
6.
前記エージェントによりその後の走行軌道をその報酬の高さに基づいて選択することを特徴とする、上記5に記載の方法。
7.
走行軌道を評価するために用いられる軌道特性が、前記走行軌道の走行時間、前記走行軌道の距離、操舵角調整に関する情報、前後加速度に関する情報および/または横加速度に関する情報を含むことを特徴とする、上記1~6の何れか1つに記載の方法。
8.
前記出発位置(SP)から前記目標位置(ZP)までの前記走行ルート(FS)を複数回走行し、その際に周辺環境情報を前記車両(F)のセンサ装置によりキャプチャし、走行可能な走行道に関する情報を算出して保存することを特徴とする、上記1~7の何れか1つに記載の方法。
9.
複数の時間的に連続して算出した、走行可能な走行道に関する情報を組み合わせて、これら組み合わされた、走行可能な走行道に関する情報を、走行軌道を算出するために用いることを特徴とする、上記8に記載の方法。
10.
出発地点から目標地点までの走行ルートを走行する際に連続的に周辺環境情報をキャプチャし、前記キャプチャした周辺環境情報に基づいて、走行可能な走行道に関する情報が静的物体により変更されたことを検出可能である場合には強化学習による走行軌道の算出を新規に行うことを特徴とする、上記1~9の何れか1つに記載の方法。
11.
前記算出した走行軌道に基づいて前記出発位置(SP)から前記目標位置(ZP)までの前記走行ルート(FS)を自動走行し、前記算出した走行軌道において妨害が検出される場合には前記算出した走行軌道を回避することを特徴とする、上記1~10の何れか1つに記載の方法。
12.
前記計算装置が強化学習の戦略を用いて複数の異なる最適化された走行軌道を算出し、この最適化された走行軌道のうちの1つの走行軌道を1つまたは複数の目標基準に基づいて選択することを特徴とする、上記1~11の何れか1つに記載の方法。
13.
車両(F)に設けられた計算装置を備える、再帰的な走行状況について走行軌道を算出するシステムであって、方法が、
-出発位置(SP)から目標位置(ZP)までの走行ルート(FS)の人間の運転者による走行中に前記車両(F)のセンサ装置により周辺環境情報をキャプチャするステップと、
-前記周辺環境情報に基づいて走行可能な走行道に関する情報を保存するステップと、
-強化学習の戦略を行う前記計算装置を用いて、走行可能な走行道に関する情報に基づいて走行軌道を算出するステップと、
-前記算出した走行軌道を記憶装置に保存するステップとを備える、システム。
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
再帰的な走行状況について走行軌道を算出する方法であって、
-出発位置(SP)から目標位置(ZP)までの走行ルート(FS)を、人間の運転者により、車両(F)を用いて走行するステップ(S10)と、
-前記走行ルート(FS)の走行中に前記車両(F)のセンサ装置により周辺環境情報をキャプチャするステップ(S11)と、
-前記周辺環境情報に基づいて走行可能な走行道に関する情報を保存するステップ(S12)と、
-強化学習の戦略を行う前記車両(F)の計算装置を用いて、走行可能な走行道に関する情報に基づいて走行軌道を算出するステップ(S13)と、
-前記算出した走行軌道を保存するステップ(S14)とを備える方法。
【請求項2】
前記計算装置にエージェントおよび評価システムが実装されていることと、前記エージェントが計算した走行軌道を前記評価システムにより軌道特性に基づいて評価し、評価結果に応じて新規走行軌道を計算することを特徴とする、請求項1に記載の方法。
【請求項3】
軌道を評価するために複数の異なる軌道特性が用いられ、新規走行軌道の計算を、1つまたは複数の基準の下に行い、1つまたは複数の軌道特性を改善するように行うことを特徴とする、請求項1または2に記載の方法。
【請求項4】
評価結果が改善されるように前記エージェントが反復的に新規走行軌道を計算することを特徴とする、請求項
2に記載の方法。
【請求項5】
前記評価システムが報酬機能を有し、前記報酬機能は計算した走行軌道に関してポジティブまたはネガティブな報酬を計算することを特徴とする、請求項
2に記載の方法。
【請求項6】
前記エージェントによりその後の走行軌道をその報酬の高さに基づいて選択することを特徴とする、請求項5に記載の方法。
【請求項7】
走行軌道を評価するために用いられる軌道特性が、前記走行軌道の走行時間、前記走行軌道の距離、操舵角調整に関する情報、前後加速度に関する情報および/または横加速度に関する情報を含むことを特徴とする、請求項1
または2に記載の方法。
【請求項8】
前記出発位置(SP)から前記目標位置(ZP)までの前記走行ルート(FS)を複数回走行し、その際に周辺環境情報を前記車両(F)のセンサ装置によりキャプチャし、走行可能な走行道に関する情報を算出して保存することを特徴とする、請求項1
または2に記載の方法。
【請求項9】
複数の時間的に連続して算出した、走行可能な走行道に関する情報を組み合わせて、これら組み合わされた、走行可能な走行道に関する情報を、走行軌道を算出するために用いることを特徴とする、請求項8に記載の方法。
【請求項10】
出発地点から目標地点までの走行ルートを走行する際に連続的に周辺環境情報をキャプチャし、前記キャプチャした周辺環境情報に基づいて、走行可能な走行道に関する情報が静的物体により変更されたことを検出可能である場合には強化学習による走行軌道の算出を新規に行うことを特徴とする、請求項1
または2に記載の方法。
【請求項11】
前記算出した走行軌道に基づいて前記出発位置(SP)から前記目標位置(ZP)までの前記走行ルート(FS)を自動走行し、前記算出した走行軌道において妨害が検出される場合には前記算出した走行軌道を回避することを特徴とする、請求項1
または2に記載の方法。
【請求項12】
前記計算装置が強化学習の戦略を用いて複数の異なる最適化された走行軌道を算出し、この最適化された走行軌道のうちの1つの走行軌道を1つまたは複数の目標基準に基づいて選択することを特徴とする、請求項1
または2に記載の方法。
【請求項13】
車両(F)に設けられた計算装置を備える、再帰的な走行状況について走行軌道を算出するシステムであって、方法が、
-出発位置(SP)から目標位置(ZP)までの走行ルート(FS)の人間の運転者による走行中に前記車両(F)のセンサ装置により周辺環境情報をキャプチャするステップと、
-前記周辺環境情報に基づいて走行可能な走行道に関する情報を保存するステップと、
-強化学習の戦略を行う前記計算装置を用いて、走行可能な走行道に関する情報に基づいて走行軌道を算出するステップと、
-前記算出した走行軌道を記憶装置に保存するステップとを備える、システム。
【国際調査報告】