IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧

特開2022-75526自動運転のための速度計画方法、装置、デバイス、媒体及び車両
<>
  • 特開-自動運転のための速度計画方法、装置、デバイス、媒体及び車両 図1
  • 特開-自動運転のための速度計画方法、装置、デバイス、媒体及び車両 図2
  • 特開-自動運転のための速度計画方法、装置、デバイス、媒体及び車両 図3
  • 特開-自動運転のための速度計画方法、装置、デバイス、媒体及び車両 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022075526
(43)【公開日】2022-05-18
(54)【発明の名称】自動運転のための速度計画方法、装置、デバイス、媒体及び車両
(51)【国際特許分類】
   B60W 30/18 20120101AFI20220511BHJP
   B60W 60/00 20200101ALI20220511BHJP
【FI】
B60W30/18
B60W60/00
【審査請求】有
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2021164470
(22)【出願日】2021-10-06
(31)【優先権主張番号】202011231666.X
(32)【優先日】2020-11-06
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】秦 文▲闖▼
【テーマコード(参考)】
3D241
【Fターム(参考)】
3D241BA42
3D241BA57
3D241BA62
3D241CD11
3D241CE02
3D241CE08
3D241DB02Z
3D241DB05Z
3D241DC33Z
3D241DD11Z
(57)【要約】
【課題】本願は、自動運転のための速度計画方法、装置、デバイス及び媒体を開示し、自動運転及び深層学習などの人工知能技術に関する。
【解決手段】具体的な実現形態は、少なくとも残余の走行距離及び現在速度を含む車両の現在状態を取得することと、前記現在状態及び予め定められた状態テーブルに基づいて、少なくとも加速度を含む動作に対して補間を行い、前記現在状態の目標動作を得て、前記状態テーブルは強化学習方法に基づいて決定され、複数の状態及び各状態で実行される動作を含むことと、を含む。本願はニューラルネットワークの代わりにテーブルルックアップの方式を使用し、先ずオフラインで状態テーブルを決定し、次にオンライン照会の方式で現在状態の目標動作を決定ことができるため、大量の計算リソースを占用せずに、速度計画の全過程の最適解を得ることを確保できる。
【選択図】図1
【特許請求の範囲】
【請求項1】
少なくとも残余の走行距離及び現在速度を含む車両の現在状態を取得することと、
前記現在状態及び予め定められた状態テーブルに基づいて、少なくとも加速度を含む動作に対して補間を行い、前記現在状態の目標動作を得て、前記状態テーブルは、強化学習方法に基づいて決定され、複数の状態及び各状態で実行される動作を含むことと、を含む自動運転のための速度計画方法。
【請求項2】
前記状態テーブルの決定方法は、
離散化された状態に基づいて、複数のサブメッシュを含む状態メッシュを作成し、サブメッシュの頂点のそれぞれが1つの状態を示すことと、
離散化された動作に基づいて、前記状態メッシュにおける状態に対して補間を行い、前記状態メッシュにおける状態に対して動作を与えて得られた次の状態を示す状態補間情報を得ることと、
値反復アルゴリズムを使用し、予め定められた最適化目標に対応する目標コスト関数によって、前記状態メッシュにおける状態及び前記状態補間情報が示す状態に基づいて値反復を行い、前記状態メッシュにおける各状態に対応する計画動作を決定することと、
前記状態メッシュにおける各状態及びそれに対応する計画動作を前記状態テーブルとすることと、を含む請求項1に記載の自動運転のための速度計画方法。
【請求項3】
前記離散化された動作に基づいて、前記状態メッシュにおける状態に対して補間を行い、状態補間情報を得ることは、
離散化された動作に基づいて、前記状態メッシュにおける状態に対して重心補間を行い、状態補間情報を得ること、を含む請求項2に記載の自動運転のための速度計画方法。
【請求項4】
前記目標コスト関数は、状態コスト関数及び動作コスト関数を含む請求項2に記載の自動運転のための速度計画方法。
【請求項5】
前記現在状態及び予め定められた状態テーブルに基づいて、動作に対して補間を行い、前記現在状態の目標動作を得ることは、
予め定められた状態テーブルにおいて前記現在状態が所属する状態範囲を決定することと、
前記状態範囲内の各状態に対応する動作に対して重心補間を行い、前記現在状態の目標動作を得ることと、を含む請求項1に記載の自動運転のための速度計画方法。
【請求項6】
少なくとも残余の走行距離及び現在速度を含む車両の現在状態を取得するために用いられる状態取得モジュールと、
前記現在状態及び予め定められた状態テーブルに基づいて、少なくとも加速度を含む動作に対して補間を行い、前記現在状態の目標動作を得て、前記状態テーブルは、強化学習方法に基づいて決定され、複数の状態及び各状態で実行される動作を含む補間モジュールと、を含む自動運転のための速度計画装置。
【請求項7】
状態テーブル決定モジュールをさらに備え、当該状態テーブル決定モジュールは、
離散化された状態に基づいて、複数のサブメッシュを含む状態メッシュを作成するために用いられ、サブメッシュの頂点のそれぞれが1つの状態を示す状態メッシュ作成ユニットと、
離散化された動作に基づいて、前記状態メッシュにおける状態に対して補間を行い、前記状態メッシュにおける状態に対して動作を与えて得られた次の状態を示す状態補間情報を得るために用いられる状態補間ユニットと、
値反復アルゴリズムを使用し、予め定められた最適化目標に対応する目標コスト関数によって、前記状態メッシュにおける状態及び前記状態補間情報が示す状態に基づいて値反復を行い、前記状態メッシュにおける各状態に対応する計画動作を決定するために用いられる値反復ユニットと、
前記状態メッシュにおける各状態及びそれに対応する計画動作を前記状態テーブルとするために用いられる状態テーブル決定ユニットと、を含む請求項6に記載の自動運転のための速度計画装置。
【請求項8】
前記状態補間ユニットは、離散化された動作に基づいて、前記状態メッシュにおける状態に対して重心補間を行い、状態補間情報を得るために用いられる請求項7に記載の自動運転のための速度計画装置。
【請求項9】
前記目標コスト関数は、状態コスト関数及び動作コスト関数を含む請求項7に記載の自動運転のための速度計画装置。
【請求項10】
前記補間モジュールは、
予め定められた状態テーブルにおいて前記現在状態が所属する状態範囲を決定するために用いられるテーブルルックアップユニットと、
前記状態範囲内の各状態に対応する動作に対して重心補間を行い、前記現在状態の目標動作を得るために用いられる動作補間ユニットと、を含む請求項6に記載の自動運転のための速度計画装置。
【請求項11】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行される命令が記憶され、前記命令は、前記少なくとも一つのプロセッサが請求項1~5のいずれか1項に記載の自動運転のための速度計画方法を実行することができるように、前記少なくとも1つのプロセッサにより実施される、電子デバイス。
【請求項12】
請求項1~5のいずれか1項に記載の自動運転のための速度計画方法をコンピュータに実行させるコンピュータ命令が記憶されている非一時的コンピュータ読み取り可能な記憶媒体。
【請求項13】
請求項11に記載の電子デバイスが設けられている車体を備える車両。
【請求項14】
請求項1~5のいずれか1項に記載の自動運転のための速度計画方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、人工知能技術分野、特に、自動運転及び深層学習技術に関し、具体的には、自動運転のための速度計画方法、装置、デバイス、媒体及び車両に関する。
【背景技術】
【0002】
自動運転の分野において、自動運転車両に対して速度計画を実行する必要がある。従来技術の速度計画アルゴリズムは、一般的に、単一時刻制御と複数時刻計画の2種類に分けられる。
【0003】
ここで、単一時刻制御とは、現在時刻の距離及び速度情報に基づいて、達成する必要がある所望の速度を計算するものである。但し、当該方法は、速度の全過程が最適であることを保証できず、終点近傍でのブレーキが過度であるなどの潜在的なリスクが存在する。複数時刻計画方法は、最適化アルゴリズム又はオンラインでの軌跡スクリーニングなどのアルゴリズムを使用する必要がある。しかしながら、これらのアルゴリズムの計算量は大きく、計算時間が制限される場合があり、同様に、速度のグローバル最適解を得ることを保証できない。
【発明の概要】
【0004】
本願は、自動運転のための速度計画方法、装置、デバイス、媒体及び車両を提供し、大量の計算リソースを占用せずに、速度計画のグローバル最適解を得ることを保証する。
【0005】
第1態様によれば、本願は、自動運転のための速度計画方法を提供し、当該方法は、
少なくとも残余の走行距離及び現在速度を含む車両の現在状態を取得することと、
前記現在状態及び予め定められた状態テーブルに基づいて、少なくとも加速度を含む動作に対して補間を行うことで、前記現在状態の目標動作を得て、前記状態テーブルは強化学習方法に基づいて決定されて、複数の状態及び各状態で実行される動作を含むことと、を含む。
【0006】
第2態様によれば、本願は、自動運転のための速度計画装置をさらに提供し、当該装置は、
少なくとも残余の走行距離及び現在速度を含む車両の現在状態を取得するために用いられる状態取得モジュールと、
前記現在状態及び予め定められた状態テーブルに基づいて、少なくとも加速度を含む動作に対して補間を行うことで、前記現在状態の目標動作を得るために用いられ、前記状態テーブルが強化学習方法に基づいて決定されて、複数の状態及び各状態で実行される動作を含む補間モジュールと、を備える。
【0007】
第3態様によれば、本願は、電子デバイスをさらに提供し、当該電子デバイスは、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能な命令が記憶され、前記命令は、前記少なくとも一つのプロセッサが本願のいずれかの実施例に記載の自動運転のための速度計画方法を実行することができるように、前記少なくとも1つのプロセッサにより実施される。
【0008】
第4態様によれば、本願は、本願のいずれかの実施例に記載の自動運転のための速度計画方法を前記コンピュータに実行させるためのコンピュータ命令が記憶されている非一時的コンピュータ読み取り可能な記憶媒体をさらに提供する。
【0009】
第5態様によれば、本願は、本願のいずれかの実施例に記載の電子デバイスが設けられている車体を備える車両をさらに提供する。
【0010】
本願の技術案によれば、ニューラルネットワークの代わりにテーブルルックアップの方式を使用し、先ず強化学習方法に基づいてオフラインで状態テーブルを決定し、次にオンライン照会の方式で現在状態の目標動作を決定できるため、大量の計算リソースを占用せずに、速度計画のグローバル最適解を得ることを保証できる。
【0011】
なお、この部分に記載された内容は、本願の主要な特徴又は重要な特徴を標記することを意図するものではなく、本願の範囲を制限するために用いられるものでもないことを理解すべきである。本願の他の特徴は、以下の明細書から容易に理解されるであろう。本願上記の選択可能な方式が有する他の効果については、以下で具体的な実施例と合わせて説明する。
【図面の簡単な説明】
【0012】
図面は、本技術案がよりよく理解されるために用いられ、本願を限定するものではない。
図1】本願の実施例に係る自動運転のための速度計画方法のフローチャートである。
図2】本願の実施例に係る自動運転のための速度計画方法のフローチャートである。
図3】本願の実施例に係る自動運転のための速度計画装置の構造概略図である。
図4】本願の実施例に係る自動運転のための速度計画方法を実現するための電子デバイスのブロック図である。
【発明を実施するための形態】
【0013】
以下、図面を参照しながら、本願の例示的な実施例について説明する。この中には、理解を助けるために本願の実施例の様々な詳細が含まれているが、それらは単なる例示的なものと考えるべきである。したがって、当業者は、本願の範囲及び精神を逸脱しない範囲において本明細書に記載の実施例に対して様々な変更及び修正を実行することができることを認識すべきである。同様に、明確かつ簡潔にするために、以下の説明においては公知の機能及び構造についての説明を省略する。
【0014】
図1は本願の実施例に係る自動運転のための速度計画方法のフローチャートであり、本実施例は、例えば、走行加速度を計画するなど自動運転装置に速度計画を提供する場合に適用可能であり、自動運転及び深層学習などの人工知能技術に関する。当該方法は、自動運転のための速度計画装置により実行されることができる。当該装置は、ソフトウェア及び/又はハードウェアの方式で実現され、コンピュータデバイスなどの電子デバイスに配置されることが好ましい。図1に示すように、当該方法は、具体的に、以下のことを含む。
【0015】
S101において、少なくとも残余の走行距離及び現在速度を含む車両の現在状態を取得する。
【0016】
自動運転の速度計画とは、一般的に、加速度に対する計画であってもよく、加速度計画を行う時、車両の現在状態、すなわち、残余の走行距離及び現在速度に基づいて加速度計画を行う必要があり、グローバル計画の観点から言えば、状態によって速度計画も異なる。
【0017】
ここで、残余の走行距離は、自動運転車両が前方の定点(目的地)まで走行する距離であってもよく、この時の状態における速度は絶対速度、すなわち、自動運転車両の現在の走行速度である。また、自動運転車両の前方の障害物を感知した上で、残余の走行距離は、前方の障害物との相対距離であってもよく、前方の障害物も走行中の車両である場合、この時の状態における速度は相対速度、すなわち、前方に現れた障害物車両に対する、自動運転車両と当該障害物車両との相対速度である。従って、具体的な適用場面に応じて、自動運転車両の現在状態を柔軟に決定することができる。
【0018】
また、状態には道路の勾配という次元が含まれていてもよく、勾配を有する路面に適用するために、勾配を有する路面においても正確な速度計画を実現することができるように、残余の走行距離、現在速度及び勾配に従って後続のテーブルルックアップを行う。もちろん、適用場面に応じて、より複雑な道路状況で走行する場合は、実際の状況に応じて状態に他の次元を追加してもよく、これに対して、本願の実施例は何ら限定されない。
【0019】
S102において、現在状態及び予め定められた状態テーブルに基づいて、少なくとも加速度を含む動作に対して補間を行い、現在状態の目標動作を得て、状態テーブルは強化学習方法に基づいて決定され、複数の状態及び各状態で実行される動作を含む。
【0020】
具体的に、状態テーブルは、オフラインで予め定められたものでもよく、これにより、オンラインでリアルタイムの速度計画を行う場合に、過剰な計算リソースを占用することを回避できる。状態テーブルには複数の状態及び各状態で実行される動作が含まれ、すなわち、強化学習方法に基づいて、先ずグローバル計画における異なる状態で実行された最適な動作を決定し、状態テーブルを形成し、当該動作には加速度が含まれてもよく、このように、オンラインではリアルタイムにテーブルルックアップの方式により現在状態でのこの選択における最適な動作を決定することができる。
【0021】
なお、実際の場面における状態は連続的なものであり、オフラインで決定された状態テーブルにおける各状態は離散的なものであるため、補間の手段によって目標動作を決定する必要がある。具体的には、先ずテーブルルックアップによって、状態テーブルにおける現在状態の位置を決定し、次に現在状態の近接状態に対応する動作を決定し、最終的にこれらの動作に対して補間を行って現在状態に対応する目標動作を決定する。
【0022】
従って、本願の実施例は、従来のニューラルネットワークの代わりに、強化学習の方法に基づいてオフラインで状態テーブルを計算し、オンラインでテーブルルックアップによって速度計画を行い、これは、計算リソースを低減させただけでなく、ニューラルネットワークの訓練不足による予測結果を予想できないという問題を回避した。また、状態テーブルは可視であるため、実際の適用において、解釈可能性が高く、技術者はいつでも修正を行うことができ、その制御可能性及び設計可能性がいずれも強く、適用範囲がより広い。
【0023】
本願の実施例に係る技術案は、先ず強化学習方法に基づいてオフラインでグローバル計画の状態テーブルを決定し、従来方法におけるニューラルネットワークの代わりにテーブルルックアップの方式を使用し、次にオンラインでテーブルルックアップを実行して動作に対する補間を行うことで、現在状態の目標動作を決定でき、これにより、過剰な計算リソースを占用することなく、速度計画の全過程最適解を得ることを確保できるとともに、解釈可能性を保証して量産化することができる。
【0024】
図2は、本願の実施例に係る自動運転のための速度計画方法のフローチャートであり、本実施例は上記実施例に基づいてさらに最適化を行うものである。図2に示すように、当該方法は、具体的に、以下のことを含む。
【0025】
S201において、離散化された状態に基づいて、複数のサブメッシュを含む状態メッシュを作成し、各サブメッシュの頂点は1つの状態を示す。
【0026】
具体的には、距離境界及び速度境界を事前に取得し、当該境界で構成される距離区間及び速度区間で、それぞれ距離及び速度を離散化し、これらの離散化された距離及び速度で複数の離散化された状態を構成し、その後これらの離散化された状態で状態メッシュを構成する。例えば、横軸は距離を表し、縦軸は速度を表し、離散化された後、横軸及び縦軸における離散化されたポイントにより1つのメッシュを構成することができ、メッシュ内のポイントのそれぞれが1つの状態を表すことができ、隣接する4つのポイント毎に1つのサブメッシュを構成することができる。
【0027】
さらに、実際の使用において、アルゴリズムによる計算の利便性のために、状態メッシュを2次元状態行列に処理してもよく、1つの次元は距離であり、もう1つの次元は速度である。
【0028】
S202において、離散化された動作に基づいて、状態メッシュにおける状態に対して補間を行い、状態メッシュにおける状態に対して動作を与えて得られた次の状態を示す状態補間情報を得る。
【0029】
具体的には、同様に、動作境界を事前に取得し、当該動作境界に対応する動作区間内で動作を離散化し、複数の離散化された動作を得る。その後、状態メッシュにおける各離散状態にそれぞれ全ての離散動作を与えると、与えられた各離散動作に対して、状態メッシュにおける全ての状態の次の状態を得ることができる。当該次の状態は、状態メッシュにおける状態に対して補間を行って状態補間情報を決定することで記録されるため、状態補間情報は、状態メッシュにおける状態に動作を与えて得られた次の状態を示すことができ、各離散動作が与えられた後、それぞれに状態補間情報が記録される。初期の離散化された状態メッシュに対して補間を行うことで、より連続的な状態を得ることができ、後続において、これを基礎として、さらに値反復アルゴリズムを実行して最適動作を決定することで、計画する動作の連続性を保証し、続いて速度計画の正確性を確保できる。
【0030】
一実施形態において、離散化された動作に基づいて、状態メッシュにおける状態に対して重心補間を行い、状態補間情報を得ることができる。重心補間は、補間多項式を計算する必要がなく、計算の複雑性が低く、且つ補間の精度が高く、補間の連続性を保証することができる。例えば、ある動作を与えて得られた次の状態は、一般的に状態メッシュ内又は状態メッシュ上、すなわち、状態メッシュにおけるサブメッシュ内又はサブメッシュ上に入るが、1つのサブメッシュが4つの頂点を有する場合、重心補間に基づいて、左上隅の3つの頂点を選択することができ、この3つの頂点の状態によって重心補間を行い、次の状態の状態補間情報を得るとともに、この3つの頂点の状態の全ての状態におけるインデックス及び当該次の状態のポイントとこの3つの頂点との位置関係を状態補間情報に記録することができる。
【0031】
S203において、値反復アルゴリズムを使用し、予め定められた最適化目標に対応する目標コスト関数によって、状態メッシュにおける状態及び状態補間情報が示す状態に基づいて値反復を行い、状態メッシュにおける各状態に対応する計画動作を決定する。
【0032】
ここで、値反復の最適化目標とは、反復によって状態メッシュにおける離散状態に対応する最適動作を得ることである。目標コスト関数は、状態コスト関数及び動作コスト関数を含み、例えば、両方を重み付け加算し、最終的な目標コスト関数を得ることができる。また、コスト関数の設置は、2次関数に限定されるものでなく、高次関数又はtanh関数などの非線形のコスト関数であってもよい。
【0033】
全体として、反復過程において、離散状態s(n)のそれぞれに全ての離散動作a(n)を与えて全ての状態の次の状態s(n+1)を得るとともに、目標コスト関数に従って次の状態の評価値を計算し、その後反復により、全ての評価値のうちの最適値(例えば、最大値)に対応する動作a(n+1)を選択し、a(n)をa(n+1)で置き換えて更新する。2回の反復における評価値の差が1e-6より小さくなれば、最適な評価値及び対応する動作が得られると考えられる。値反復の具体的なアルゴリズム及び過程について、ここでは詳細な説明を省略する。
【0034】
S204において、状態メッシュにおける各状態及びそれに対応する計画動作を状態テーブルとする。
【0035】
値反復のアルゴリズムによって、グローバル計画の動作、すなわち、状態メッシュにおける各状態で実行される最適動作を得ることができる。
【0036】
S205において、少なくとも残余の走行距離及び現在速度を含む車両の現在状態を取得する。
【0037】
S206において、予め定められた状態テーブルにおいて現在状態が所属する状態範囲を決定する。
【0038】
S207において、状態範囲内の各状態に対応する動作に対して重心補間を行い、現在状態の目標動作を得る。
【0039】
状態テーブルにおける状態及び動作は離散的なものであるが、実際の適用における状態は連続的なものであるため、動作に対して補間を行うことで、リアルタイムの状態のそれぞれに対応する目標動作を決定する必要がある。具体的に、テーブルルックアップによって状態テーブルにおける現在状態の位置を決定でき、例えば、現在状態が状態テーブル内のどのサブメッシュに入るかを決定し、当該サブメッシュの4つの頂点に従って現在状態が所属する状態範囲を決定することができる。その後、当該サブメッシュにおける現在状態の位置及び当該サブメッシュにおける左上隅の3つの頂点の状態に対応する動作に基づいて、動作に対して重心補間を行うことで、現在状態での最適な目標動作を得ることができる。
【0040】
本願の実施例に係る技術案は、従来のネットワークモデルによる強化学習方法を放棄して、ニューラルネットワークの代わりにテーブルルックアップの方式を使用し、オフラインで状態テーブルを計算し、オンラインでテーブルルックアップの方式で速度計画を行うことができるため、大量の計算リソースを占用せずに、速度計画の全過程の最適解を得ることを確保するとともに、解釈可能性を保証して量産化することができる。また、値反復のアルゴリズムを実行する際、初期の状態メッシュを補間し、より連続的な状態を得る。これを基礎として、値反復のアルゴリズムを実行して最適動作を決定することで、計画する動作の連続性を保証でき、速度計画の正確性を確保できる。
【0041】
図3は、本願の実施例に係る自動運転のための速度計画装置の構造概略図であり、本実施例は、例えば、走行加速度を計画するなど自動運転装置のために速度計画を提供する場合に適用可能であり、自動運転及び深層学習などの人工知能技術に関する。当該装置は、本願のいずれかの実施例に記載の自動運転のための速度計画方法を実現できる。図3に示すように、当該装置300は、具体的に、少なくとも残余の走行距離及び現在速度を含む車両の現在状態を取得するために用いられる状態取得モジュール301と、前記現在状態及び予め定められた状態テーブルに基づいて、少なくとも加速度を含む動作に対して補間を行い、前記現在状態の目標動作を得るために用いられ、前記状態テーブルは、強化学習方法によって決定されて、複数の状態及び各状態で実行される動作を含む補間モジュール302と、を備える。
【0042】
好ましくは、前記装置は状態テーブル決定モジュールをさらに備え、当該状態テーブル決定モジュールは、具体的に、離散化された状態に基づいて、複数のサブメッシュを含む状態メッシュを作成するために用いられ、サブメッシュの頂点のそれぞれが一つの状態を示す状態メッシュ作成ユニットと、離散化された動作に基づいて、前記状態メッシュにおける状態に対して補間を行い、前記状態メッシュにおける状態に対して動作を与えて得られた次の状態を示す状態補間情報を得るために用いられる状態補間ユニットと、値反復アルゴリズムを使用し、予め定められた最適化目標に対応する目標コスト関数によって、前記状態メッシュにおける状態及び前記状態補間情報が示す状態に基づいて値反復を行い、前記状態メッシュにおける各状態に対応する計画動作を決定するために用いられる値反復ユニットと、前記状態メッシュにおける各状態及びそれに対応する計画動作を前記状態テーブルとするために用いられる状態テーブル決定ユニットと、を備える。
【0043】
好ましくは、前記状態補間ユニットは、具体的に、離散化された動作に基づいて、前記状態メッシュにおける状態に対して重心補間を行い、状態補間情報を得るために用いられる。
【0044】
好ましくは、前記目標コスト関数は、状態コスト関数及び動作コスト関数を含む。
【0045】
好ましくは、前記補間モジュール302は、予め定められた状態テーブルにおいて前記現在状態が所属する状態範囲を決定するために用いられるテーブルルックアップユニットと、前記状態範囲内の各状態に対応する動作に対して重心補間を行い、前記現在状態の目標動作を得るために用いられる動作補間ユニットと、を備える。
【0046】
本願の実施例が提供する自動運転のための速度計画装置300は、本願のいずれかの実施例が提供する自動運転のための速度計画方法を実行することができ、実行方法に対応する機能モジュール及び有益な効果を有する。本実施例で詳細に説明されていない内容については、本願のいずれかの方法の実施例における説明を参照してもよい。
【0047】
本願の実施例によれば、本願は電子デバイス及び読み取り可能な記憶媒体をさらに提供する。
【0048】
図4は、本願の実施例に係る自動運転のための速度計画方法的電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及びその他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図している。電子デバイスは、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス及びその他の類似的なコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書に記載の構成要素、それらの接続及び関係、ならびにそれらの機能は、単に例示的なものであり、本明細書に記載及び/又は要求される本願の実現を制限することを意図するものではない。
【0049】
図4に示すように、当該電子デバイスは、1つ又は複数のプロセッサ401と、メモリ402と、高速インターフェース及び低速インターフェースを含めて各構成要素の接続に用いられるインターフェースと、を備える。各構成要素は、異なるバスにより互いに接続され、且つ、共通のマザーボードに実装され、或いは必要に応じて他の方式で実装されてもよい。プロセッサは電子デバイスで実行される命令を処理することができ、メモリに記憶されて外部入力/出力装置(例えば、インターフェースに結合された表示装置)にGUIの図形情報を表示させる命令を含む。他の実施形態において、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと共に使用することができる。同様に、複数の電子デバイスを接続することができ、各デバイスは一部の必要な操作(例えば、サーバアレイ、一組のブレードサーバ、又はマルチプロセッサシステムとして)を提供する。図4は、1つのプロセッサ401を例とする。
【0050】
メモリ402は、本願が提供する非一時的コンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも1つのプロセッサに本願が提供する自動運転のための速度計画方法を実行させるために、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されている。本願の非一時的コンピュータ読み取り可能な記憶媒体には、コンピュータに本願が提供する自動運転のための速度計画方法を実行させるためのコンピュータ命令が記憶されている。
【0051】
メモリ402は、非一時的コンピュータ読み取り可能な記憶媒体として、本願の実施例に係る自動運転のための速度計画方法に対応するプログラム命令/モジュール(例えば、図3に示す状態取得モジュール301及び補間モジュール302)などの非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを記憶するために用いることができる。プロセッサ401は、メモリ402に記憶されている非一時的ソフトウェアプログラム、命令及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施例に係る自動運転のための速度計画方法を実現する。
【0052】
メモリ402は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域にはオペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムが記憶されてもよい。データ記憶領域には、本願の実施例に係る自動運転のための速度計画方法を実現する電子デバイスの使用によって作成されたデータなどが記憶されてもよい。また、メモリ402には、高速ランダムアクセスメモリが含まれてもよく、非一時的メモリ、例えば、少なくとも1つのディスク記憶装置、フラッシュメモリデバイス又は他の非一時的固体記憶装置が含まれてもよい。いくつかの実施例において、メモリ402は、好ましくは、プロセッサ401に対して遠隔設定されたメモリを含み、これらの遠隔メモリがネットワークを介して本願の実施例に係る自動運転のための速度計画方法を実現する電子デバイスに接続されてもよい。上記のネットワークの例は、インターネット、企業内部ネットワーク、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むが、それらに限定されない。
【0053】
本願の実施例に係る自動運転のための速度計画方法を実現する電子デバイスは、入力装置403及び出力装置404をさらに備えることができる。プロセッサ401、メモリ402、入力装置403及び出力装置404は、バス又は他の方式で接続されてもよく、図4では、バスによる接続を例とする。
【0054】
入力装置403は、入力されたデータ又は文字情報を受信することができ、本願の実施例に係る自動運転のための速度計画方法を実現する電子デバイスのユーザ設定及び機能制御に関するキー信号の入力を生成することもでき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置404には、表示装置、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などが含まれてもよい。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含んでもよいが、それらに限定されない。いくつかの実施形態において、表示装置はタッチスクリーンであってもよい。
【0055】
ここに記載されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア及び/又はそれらの組み合わせにおいて実現可能である。これらの様々な実施形態は以下のことを含む。1つ又は複数のコンピュータプログラムにおいて実施され、当該1つ又は複数のコンピュータプログラムが少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも1つの入力装置及び当該少なくとも1つの出力装置に伝送することができる。
【0056】
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも称呼される)には、プログラマブルプロセッサの機械命令が含まれて、高級過程及び/又はオブジェクト指向のプログラミング言語及び/又はアセンブリ言語/機械言語を通じてこれらの計算プログラムを実施することができる。本明細書で使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス及び/又は装置(例えば、ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD))であり、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号である。
【0057】
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施することができる。該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザが入力をコンピュータに提供するために用いられるキーボード及びポインティング装置(例えば、マウス又はトラックボール)と、を有する。他の種類の装置もユーザとのインタラクションを提供するために用いられ、例えば、ユーザに提供されたフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
【0058】
ここに記載されたシステム及び技術は、バックグラウンド構成要素を含む計算システム(例えば、データサーバとして)、又は、ミドルウェア構成要素を含む計算システム(例えば、アプリケーションサーバ)、又は、フロントエンド構成要素を含む計算システム(例えば、グラフィカルユーザインターフェース、又は、ネットワークブラウザを有するユーザコンピュータ、ユーザは当該グラフィカルユーザインターフェース又は当該ネットワークブラウザを介してここに記載されたシステム及び技術の実施形態とのインタラクションを行ってもよい)、又は、これらのバックグラウンド構成要素、ミドルウェア構成要素、フロントエンド構成要素の任意の組み合わせを含む計算システムで実施されてもよい。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって互いに接続されてもよい。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット及びブロックチェーンネットワークが含まれる。
【0059】
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバは一般的に、互いに遠く離れており、且つ通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント‐サーバ関係を有するコンピュータプログラムによってクライアントとサーバの関係を生成する。サーバは、クラウドサーバであってもよく、クラウド計算サーバ又はクラウドホストと呼ばれ、クラウド計算サービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPSサービスに存在する、管理の難易度が高く、業務の拡張性が弱いという欠点を解決した。
【0060】
また、本願の実施例は、本願のいずれかの実施例に記載の電子デバイスが設けられている車体を備える車両、例えば、自動運転車両をさらに提供する。本願の実施例に係る自動運転車両は、当該電子デバイスを通じて、本願の実施例に係る速度計画方法によって速度計画を行い、例えば、ポイント・ツー・ポイント(point-to-point)走行タスクの実行中にグローバル速度計画を行う。また、車体には、車両感知のための任意の一種又は複数種のセンサ及び感知モジュールが設けられてもよく、周囲の環境及び障害物に対して感知を行うことで、本願の実施形態に係る速度計画方法と合わせてグローバル速度計画を行い、自動運転車両の安全運転を実現する。
【0061】
本願の実施例に係る技術案によれば、従来のネットワークモデルによる強化学習方法を放棄して、ニューラルネットワークの代わりにテーブルルックアップの方式を使用し、オフラインで状態テーブルを計算し、オンラインでテーブルルックアップの方式で速度計画を行うことができるため、大量の計算リソースを占用せずに、速度計画の全過程の最適解を得ることを確保するとともに、解釈可能性を保証して量産化することができる。また、値反復のアルゴリズムを実行する際、初期の状態メッシュを補間し、より連続的な状態を得る。これを基礎として、値反復のアルゴリズムを実行して最適動作を決定することで、計画する動作の連続性を保証でき、速度計画の正確性を確保できる。
【0062】
なお、上記に示した様々な形態のプロセスを使用して、ステップを並べ替えたり、追加又は削除できることを理解すべきである。例えば、本願に記載された各ステップは、並行的に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよい。本願に開示された技術案の所望の結果を達成することができれば、本明細書はここでは制限しない。
【0063】
上記具体的な実施形態は、本願の保護範囲を限定するものではない。当業者は、設計要件及び他の要因に従って様々な修正、組み合わせ、サブ組み合わせ及び代替を行うことができることを理解すべきである。本願の精神と原則の範囲内で行われた任意の修正、同等置換及び改良等などは、いずれも本願の保護範囲に含まれるべきである。
図1
図2
図3
図4