IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ センスタイム グループ リミテッドの特許一覧 ▶ 本田技研工業株式会社の特許一覧

特許7513726軌道予測方法、装置、機器、記憶媒体およびプログラム
<>
  • 特許-軌道予測方法、装置、機器、記憶媒体およびプログラム 図1
  • 特許-軌道予測方法、装置、機器、記憶媒体およびプログラム 図2
  • 特許-軌道予測方法、装置、機器、記憶媒体およびプログラム 図3A
  • 特許-軌道予測方法、装置、機器、記憶媒体およびプログラム 図3B
  • 特許-軌道予測方法、装置、機器、記憶媒体およびプログラム 図4A
  • 特許-軌道予測方法、装置、機器、記憶媒体およびプログラム 図4B
  • 特許-軌道予測方法、装置、機器、記憶媒体およびプログラム 図4C
  • 特許-軌道予測方法、装置、機器、記憶媒体およびプログラム 図4D
  • 特許-軌道予測方法、装置、機器、記憶媒体およびプログラム 図5
  • 特許-軌道予測方法、装置、機器、記憶媒体およびプログラム 図6
  • 特許-軌道予測方法、装置、機器、記憶媒体およびプログラム 図7
  • 特許-軌道予測方法、装置、機器、記憶媒体およびプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-01
(45)【発行日】2024-07-09
(54)【発明の名称】軌道予測方法、装置、機器、記憶媒体およびプログラム
(51)【国際特許分類】
   G06T 7/20 20170101AFI20240702BHJP
   G06T 7/00 20170101ALI20240702BHJP
   G08G 1/16 20060101ALI20240702BHJP
【FI】
G06T7/20
G06T7/00 350C
G08G1/16 C
【請求項の数】 15
(21)【出願番号】P 2022546580
(86)(22)【出願日】2021-07-30
(65)【公表番号】
(43)【公表日】2023-03-22
(86)【国際出願番号】 CN2021109871
(87)【国際公開番号】W WO2022022721
(87)【国際公開日】2022-02-03
【審査請求日】2022-08-01
(31)【優先権主張番号】202010763409.4
(32)【優先日】2020-07-31
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520018428
【氏名又は名称】センスタイム グループ リミテッド
(73)【特許権者】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(74)【代理人】
【識別番号】110001427
【氏名又は名称】弁理士法人前田特許事務所
(72)【発明者】
【氏名】ジャン シーチュエン
(72)【発明者】
【氏名】リー イーニン
(72)【発明者】
【氏名】ジアン チンホン
(72)【発明者】
【氏名】シー ジエンピン
(72)【発明者】
【氏名】ジョウ ボーレイ
【審査官】松浦 功
(56)【参考文献】
【文献】米国特許出願公開第2019/0367020(US,A1)
【文献】米国特許出願公開第2018/0126985(US,A1)
【文献】中国特許出願公開第110210417(CN,A)
【文献】特開2019-008460(JP,A)
【文献】国際公開第2020/058740(WO,A1)
【文献】米国特許出願公開第2018/0074505(US,A1)
【文献】特表2019-527862(JP,A)
【文献】中国特許出願公開第110796856(CN,A)
【文献】中国特許出願公開第109801508(CN,A)
【文献】中国特許出願公開第111401233(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G08G 1/16
G06T 1/00
G06V 10/00 -20/90
(57)【特許請求の範囲】
【請求項1】
電子機器によって実行される、軌道予測方法であって、
対象の時系列位置情報と前記対象の時系列姿勢情報内の向き情報とに従って、世界地図を区切って前記対象が配置されている環境のローカル地図領域を決定することによって、前記対象が配置されている環境の環境情報を決定し、前記時系列位置情報、前記時系列姿勢情報、及び前記環境情報に従って、前記対象の移動意図を決定することであって、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、所定の期間の異なる時点での前記対象の姿勢情報であり、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の前記向き情報を含むことと、
前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定することと、を含む、前記軌道予測方法。
【請求項2】
記時系列位置情報、前記時系列姿勢情報、及び前記環境情報に従って、前記対象の移動意図を決定することは
前記環境情報、前記時系列位置情報および時系列姿勢情報を融合して、融合特徴を取得することと、
前記融合特徴に従って、前記対象の移動意図を決定することと、を含み、
前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定することは、
前記融合特徴および前記移動意図に従って、前記対象の将来軌道を決定することを含む、
請求項1に記載の軌道予測方法。
【請求項3】
前記対象は、人体対象と非人体対象のうちの少なくとも1つを含み、
前記対象が、前記人体対象を含む場合、前記異なる時点での姿勢情報は、前記人体対象の部位の、前記異なる時点の向き情報を含み、前記部位は、肢体、顔のうちの少なくとも1つを含み、
前記対象が、前記非人体対象を含む場合、前記非人体対象は、車両、移動可能な機器のうちの少なくとも1つを含み、
前記異なる時点での姿勢情報は、前記非人体対象の、前記異なる時点での向き情報および走行指示情報を含む、
請求項2に記載の軌道予測方法。
【請求項4】
記時系列位置情報、前記時系列姿勢情報、及び前記環境情報に従って、前記対象の移動意図を決定する前に、前記軌道予測方法は、
現在の時刻からの期間が特定の期間より小さいか等しい少なくとも2つの履歴時刻を決定することと、
前記少なくとも2つの履歴時刻における前記対象の時系列位置情報および時系列姿勢情報を取得することと、をさらに含む、
請求項2に記載の軌道予測方法。
【請求項5】
前記対象の時系列位置情報と前記対象の時系列姿勢情報内の向き情報とに従って、世界地図を区切って前記対象が配置されている環境のローカル地図領域を決定することによって、前記対象が配置されている環境の環境情報を決定することは、
任意の1つの履歴時刻における前記対象の前記位置情報および前記向き情報に従って、前記環境情報を決定することを含み、前記環境情報は、少なくとも、道路情報、歩行者情報または信号機情報のうちの少なくとも1つを含む、
請求項2ないし4のいずれか一項に記載の軌道予測方法。
【請求項6】
任意の1つの履歴時刻における前記対象の前記位置情報および前記向き情報に従って、前記環境情報を決定することは、
前記位置情報を中心として、前記向き情報に従って、世界地図を区切って前記対象が配置されている環境のローカル地図領域を決定することと、
前記ローカル地図領域内の要素をエンコードして、前記環境情報を取得することと、を含む、
請求項5に記載の軌道予測方法。
【請求項7】
前記環境情報、前記時系列位置情報および時系列姿勢情報を融合して、融合特徴を取得することは、
第1ニューラルネットワークを介して、前記時系列位置情報および時系列姿勢情報に従って、将来の期間内の時系列位置情報および時系列姿勢情報を予測することと、
前記将来の期間内の時系列位置情報、時系列姿勢情報および前記環境情報を、所定の方式に従って繋ぎ合わせて、前記融合特徴を取得することと、を含む、
請求項2、5および6のいずれか一項に記載の軌道予測方法。
【請求項8】
前記融合特徴に従って、前記対象の移動意図を決定することは、
第2ニューラルネットワークを介して、前記融合特徴が、意図カテゴリライブラリのうちの各意図カテゴリの信頼度であることを決定することと、
最も高い信頼度を有する意図カテゴリを、前記対象の移動意図に決定することと、を含む、
請求項7に記載の軌道予測方法。
【請求項9】
前記融合特徴および前記移動意図に従って、前記対象の将来軌道を決定することは、
前記将来の期間の長さに従って、反復ステップサイズを決定することと、
前記反復ステップサイズに従って、前記第1ニューラルネットワークを採用して、前記移動意図および前記融合特徴を反復して、各反復ステップサイズにおける前記対象の座標を取得することと、
各反復ステップサイズにおける前記対象の座標に従って、前記将来軌道を決定することと、を含む、
請求項7又は8に記載の軌道予測方法。
【請求項10】
前記第1ニューラルネットワークのトレーニング方法は、
前記対象の時系列位置情報および時系列姿勢情報を、トレーニングされる第1ニューラルネットワークに入力して、前記将来の期間内の前記対象の時系列位置情報および時系列姿勢情報を予測することと、
前記将来の期間内の時系列位置情報、時系列姿勢情報および前記環境情報と融合して、融合予測特徴を取得することと、
少なくとも前記融合予測特徴に従って、前記将来の期間における前記対象の将来軌道を予測することと、
前記対象の真の値の軌道に従って、前記トレーニングされる第1ニューラルネットワークの前記将来軌道に関する第1予測損失を決定することと、
前記第1予測損失に従って、前記トレーニングされる第1ニューラルネットワークのネットワークパラメータを調整して、前記第1ニューラルネットワークを取得することと、を含む、
請求項8又は9に記載の軌道予測方法。
【請求項11】
前記第2ニューラルネットワークのトレーニング方法は、
前記融合特徴を、トレーニングされる第2ニューラルネットワークに入力して、前記対象の移動意図が、意図カテゴリライブラリのうちの各意図カテゴリである信頼度を予測することと、
前記対象の真の値の意図に従って、前記トレーニングされる第2ニューラルネットワークの前記各意図カテゴリの信頼度に関する第2予測損失を決定することと、
前記第2予測損失に従って、前記トレーニングされる第2ニューラルネットワークのネットワークパラメータを調整して、前記第2ニューラルネットワークを取得することと、を含む、
請求項8に記載の軌道予測方法。
【請求項12】
軌道予測装置であって、
対象の時系列位置情報と前記対象の時系列姿勢情報内の向き情報とに従って、世界地図を区切って前記対象が配置されている環境のローカル地図領域を決定することによって、前記対象が配置されている環境の環境情報を決定し、前記時系列位置情報、前記時系列姿勢情報、及び前記環境情報に従って、前記対象の移動意図を決定するように構成される、意図決定モジュールであって、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、所定の期間の異なる時点での前記対象の姿勢情報であり、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の前記向き情報を含む、意図決定モジュールと、
前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定するように構成される、将来軌道決定モジュールと、を備える、前記軌道予測装置。
【請求項13】
コンピュータに請求項1ないし11のいずれか一項に記載の軌道予測方法を実行させるコンピュータ実行可能命令を記憶した、コンピュータ記憶媒体。
【請求項14】
メモリとプロセッサとを備える、コンピュータ機器であって、前記メモリにコンピュータ実行可能命令が記憶され、前記プロセッサは、前記メモリ内のコンピュータ実行可能命令を実行するとき、請求項1ないし11のいずれか一項に記載の軌道予測方法を実現することができる、前記コンピュータ機器。
【請求項15】
電子機器のプロセッサに、請求項1ないし11のいずれか一項に記載の軌道予測方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2020年7月31日に中国特許局に提出された、出願番号が202010763409.4であり、出願人がセンスタイムグループ株式会社および本田技研工業株式会社であり、発明の名称が「軌道予測方法、装置、機器および記憶媒体」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容は、引用によって本願に組み込まれる。
【0002】
本発明の実施例は、スマート運転技術分野に関し、軌道予測方法、装置、機器、記憶媒体およびプログラムに関するが、これに限定されない。
【背景技術】
【0003】
歩行者または車両の移動軌道を予測する過程において、主に、歩行者または車両の軌道の履歴移動の内部相関が考慮され、例えば、歩行者または車両の履歴軌道位置情報を使用して、将来軌道を予測する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の実施例は、軌道予測方法、装置、機器、記憶媒体およびプログラムを提供する。
【課題を解決するための手段】
【0005】
本発明の実施例は、電子機器によって実行される、軌道予測方法を提供し、前記方法は、
対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定することであって、ここで、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、所定の期間の異なる時点での前記対象の姿勢情報であり、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の複数の部位の向き情報を含むことと、
前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定することと、を含む。
【0006】
対象のより豊富な入力情報を考慮することにより、対象の移動意図をより正確に決定することができ、その後、推定された移動意図、時系列位置情報および時系列姿勢情報を入力とすることに基づいて、対象の将来軌道を予測し、予測の過程で関する対象の向き情報を使用して、時系列位置情報、時系列姿勢情報および移動意図を組み合わせることを介して、且つ、対象の向き情報を考慮して、予測対象の将来軌道の精度を効果的に向上させることができる。
【0007】
本発明の実施例は、軌道予測装置を提供し、前記装置は、
対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定するように構成される、意図決定モジュールであって、ここで、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、所定の期間の異なる時点での前記対象の姿勢情報であり、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の複数の部位の向き情報を含む、意図決定モジュールと、
前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定するように構成される、将来軌道決定モジュールと、を備える。
【0008】
本発明の実施例は、コンピュータ実行可能命令を記憶する、コンピュータ記憶媒体を提供し、当該コンピュータ実行可能命令は実行された後、上記の軌道予測方法を実現することができる。
【0009】
本発明の実施例は、メモリとプロセッサとを備える、コンピュータ機器を提供し、前記メモリには、コンピュータ実行可能命令が記憶され、前記プロセッサは、前記メモリ内のコンピュータ実行可能命令を実行するとき、上記の軌道予測方法を実現することができる。
【0010】
本発明の実施例は、さらに、コンピュータ可読コードを含む、コンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器のプロセッサは、上記の軌道予測方法を実現するために実行する。
【発明の効果】
【0011】
本発明の実施例は、軌道予測方法、装置、機器、記憶媒体およびプログラムを提供し、対象の時系列位置情報および時系列姿勢情報を入力として使用して、対象の移動意図を推定し、このようにして、対象のより豊富な入力情報を考慮することにより、対象の移動意図をより正確に決定することができ、その後、推定された移動意図、時系列位置情報および時系列姿勢情報を入力とすることに基づいて、対象の将来軌道を予測し、予測の過程で関する対象の向き情報を使用して、時系列位置情報、時系列姿勢情報および移動意図を組み合わせることを介して、且つ、対象の向き情報を考慮して、予測対象の将来軌道の精度を効果的に向上させることができる。
【0012】
上記した一般的な説明及び後述する詳細な説明は、単なる例示及び説明に過ぎず、本発明の実施例を限定するものではないことを理解されたい。以下、図面を参照した例示的な実施例に対する詳細な説明によれば、本発明の他の特徴および態様は明らかになる。
【図面の簡単な説明】
【0013】
図1】本発明の実施例の軌道予測方法の実現プロセスの概略図である。
図2】本発明の実施例の軌道予測方法を適用できるシステムアーキテクチャの概略図である。
図3A】本発明の実施例の軌道予測方法の別の実現プロセスの概略図である。
図3B】本発明の実施例の軌道予測方法の別の実現プロセスの概略図である。
図4A】本発明の実施例のデータセット内の対象分布および各対象タイプの意図分布の概略図である。
図4B】本発明の実施例のデータセット内の対象分布および各対象タイプの別の意図分布の概略図である。
図4C】本発明の実施例のデータセット内の対象分布および各対象タイプのさらに別の意図分布の概略図である。
図4D】本発明の実施例のデータセット内の対象分布および各対象タイプのさらに別の意図分布の概略図である。
図5】本発明の実施例による軌道予測システムのフレームワークの概略図である。
図6】本発明の実施例の軌道予測方法の実現フレームワークの構造図である。
図7】本発明の実施例の軌道予測装置の例示的な構造構成図である。
図8】本発明の実施例のコンピュータ機器の構成の例示的な構造図である。
【発明を実施するための形態】
【0014】
ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示すものであり、明細書とともに本発明の実施例の技術的解決策を説明するために使用される。
【0015】
本発明の実施例の目的、技術的解決策及び利点をより明確にするために、以下は、本発明の実施例における図面を参照して、発明の具体的な技術的解決策をさらに詳細に説明する。以下の実施例は、本発明を説明するために使用されるが、本発明の範囲を制限するものではない。
【0016】
本実施例は、コンピュータ機器に適用される軌道予測方法を提案し、前記コンピュータ機器は、対象または非対象を含み得、当該方法によって実現される機能は、コンピュータ機器内のプロセッサが、プログラムコードを呼び出すことにより実現でき、もちろん、プログラムコードは、コンピュータ記憶媒体に保存でき、これから分かるように、当該コンピュータ機器は、少なくともプロセッサと記憶媒体を備える。
【0017】
図1は、本発明の実施例の軌道予測方法の実現プロセスの概略図であり、図1に示されたように、図1に示される方法を参照して説明する。
【0018】
ステップS101において、対象の時系列位置情報および時系列姿勢情報に従って、対象の移動意図を決定する。
【0019】
本発明のいくつかの実施例において、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、所定の期間における異なる時点での前記対象の姿勢情報である。ここで、対象は、歩行者または自転車に乗る人などの人体対象を含む交通環境内の移行可能な対象である。非人体対象も含み、前記非人体対象は、様々な機能を備えた車両(トラック、自動車、オートバイ、自転車など)、様々な輪数の車両(四輪車、二輪車など)および、ロボット、航空機、ブラインドガイドデバイス、スマートトイ、トイ自動車などの任意の移動可能な機器のうち少なくとも1つを含むがこれに限定されない。対象が、人体対象を含む場合、異なる時点での姿勢情報は、前記異なる時点での前記人体対象の1つまたは複数の部位の向き情報を含む。所定の期間内の異なる時点で、対象の1つまたは複数の異なる部位の向き情報および位置情報を考慮することにより、対象の移動意図を推定して、予測される移動意図の精度を提供することができる。
【0020】
ステップS102において、前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定する。
【0021】
本発明のいくつかの実施例において、移動意図は、対象の将来の期間内の移動傾向であり、例えば、対象が歩行者であれば、移動意図は、将来の期間内に信号機を通過することを意図するかどうか、または直進することを意図するかどうか等である。時系列位置情報、前記時系列姿勢情報および前記移動意図を組み合わせて、1つの全体として、ニューラルネットワークに入力して、対象の将来軌道を予測する。例えば、時系列位置情報および時系列姿勢情報を、所定の方式に応じて繋ぎ合わせて、融合特徴として使用し、当該融合特徴および移動意図を共同に参照して、対象の将来軌道を予測する。
【0022】
本発明の実施例において、対象の時系列位置情報および時系列姿勢情報を学習モデルの入力として使用して、歩行者の意図(例えば、道を横断することを意図するかどうかなど)を推定して、このようにして、移動対象のより豊富な時系列位置情報および時系列姿勢情報を考慮することにより、移動対象の移動意図をより正確に決定することができる。その後、推定された対象意図および学習モデルの出力に基づいて、対象の将来軌道を予測し、さらに、対象の意図を推定するときに、対象の複数の部分のそれぞれの方向に関する時間シーケンス情報を使用する。このようにして、位置および姿勢の時間シーケンス情報および移動意図を組み合わせることを介して、移動対象の将来軌道を予測し、それにより、将来軌道を予測する精度を効果的に向上させることができる。
【0023】
図2は、本発明の実施例の軌道予測方法を適用できるシステムアーキテクチャの概略図を示し、図2に示されたように、当該システムアーキテクチャは、取得端末201、ネットワーク202および軌道予測端末203を備える。一例示的な適用を支持するために、取得端末201および軌道予測端末203が、ネットワーク202を介して通信接続を確立するとき、取得端末201は、ネットワーク202を介して、軌道予測端末203に対象の時系列位置情報および時系列姿勢情報を報告する。軌道予測端末203は、対象の時系列位置情報および時系列姿勢情報に応答して、まず、対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定し、その後、前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定する。同時に、軌道予測端末203は、対象の将来軌道をネットワーク202にアップロードし、ネットワーク202を介して取得端末201に送信する。
【0024】
一例として、取得端末201は、画像収集機器を備えることができ、軌道予測端末203は、視覚情報処理機能を備える視覚処理機器または遠隔サーバを備えることができる。ネットワーク202は、有線または無線の接続方式を採用することができる。ここで、軌道予測端末203が、視覚処理機器である場合、取得端末201は、バスを介してデータ通信を実行するなど、有線接続の方式を介して、視覚処理機器と通信接続することができ、軌道予測端末203が、遠隔サーバである場合、取得端末201は、無線ネットワークを介して、遠隔サーバとデータ対話を実行することができる。
【0025】
または、いくつかのシナリオにおいて、取得端末201が、ビデオ収集コンポーネントを備える視覚処理機器であり得る場合、カメラを備えるコンソールであり得る。この場合、本発明の実施例の軌道予測方法は、取得端末201によって実行されることができ、上記のシステムアーキテクチャは、ネットワーク202および軌道予測端末203を含まなくてもよい。
【0026】
本発明のいくつかの実施例において、地図情報を位置情報および姿勢情報に融入して、移動意図を予測して、予測の精度を向上させることができる。ステップS101は、以下のステップを介して実現でき、図3Aに示されたように、図3Aを参照して次のように説明する。
【0027】
ステップS11において、前記時系列位置情報および前記時系列姿勢情報に従って、前記対象が配置されている環境の環境情報を取得する。
【0028】
本発明のいくつかの実施例において、前記環境情報は、少なくとも、道路情報、歩行者情報または信号機情報のうちの少なくとも1つを含む。対象の時系列位置情報および時系列姿勢情報内の向き情報を参照することにより、世界地図をインターセプトして、対象が配置されている環境のローカル地図領域を取得し、それにより、当該対象のローカル地図情報を取得して、当該ローカル地図情報を前記環境情報に決定する。履歴時刻における対象の時系列位置情報および時系列姿勢情報は、まず、現在の時刻からの期間が、所定の期間の少なくとも2つの履歴時刻より小さいか等しいと決定し、その後、少なくとも2つの履歴時刻における前記対象の時系列位置情報および時系列姿勢情報を取得する過程を介して取得することができる。取得されるのは、現在の時刻からの期間が所定の期間より小さい、複数の履歴時刻の時系列位置情報および時系列姿勢情報であることを理解できる。このようにして、異なる履歴時刻における時系列位置情報および時系列姿勢情報を取得して、将来軌道の入力情報として使用することにより、予測された将来軌道の精度を向上させることができる。
【0029】
本発明のいくつかの実施例において、現在の時刻が、10:05:20であり、現在の時刻から5秒以内の対象の時系列位置情報および時系列姿勢情報を取得し、即ち、10:05:15ないし10:05:20間の対象の時系列位置情報および時系列姿勢情報を取得する。ここで、時系列位置情報および時系列姿勢情報は、対象の属性に関連する。例えば、対象が、歩行者または自転車に乗る人であり、時系列位置情報および時系列姿勢情報は、少なくとも、人の時系列位置情報、体の向きおよび顔の向きを含み、この履歴期間の間、一グループの時系列位置情報および時系列姿勢情報を1秒ごとに取得すると仮定し、例えば、前記時系列位置情報および前記時系列姿勢情報が、対象の体の向き、顔の向きおよび前記対象の配置されている位置を含む場合、各時刻ポイントの対象の体の向き、顔の向きおよび前記対象の配置されている位置を決定する。例えば、時刻10:05:15ないし10:05:20で、一グループの時系列位置情報および時系列姿勢情報を1秒ごとに取得し、即ち、5個の時刻ポイントの距離があると、5グループの対象の体の向き、顔の向きおよび前記対象の配置されている位置を決定する。
【0030】
本発明のいくつかの実施例において、対象が、車両などの移動機器である場合、時系列位置情報および時系列姿勢情報は、少なくとも、当該移動機器の時系列位置情報、機器の頭向きおよび前記移動機器の走行指示情報を含む。車両を例として説明すると、時系列位置情報および時系列姿勢情報は、車両の時系列位置、車両フロントの向きおよび車両の走行指示情報を含み、ここで、走行指示情報は、走行方向、走行速度およびライト状態(例えば、方向指示灯の状態)などのうちの少なくとも1つを含むがこれに限定されない。このようにして、取得されたこれらの豊富な時系列位置情報および時系列姿勢情報を、世界地図をインターセプトするための基礎として、対象が配置されている環境の環境情報を取得する。つまり、環境情報は、時系列位置情報および時系列姿勢情報内の対象の位置情報および対象の向き情報を介して、世界地図をインターセプトして、当該対象の現在位置しているローカル地図内の道路構造、歩道情報および道路上の信号機情報などを決定することであり得、このようにして、対象の豊富な時系列位置情報および時系列姿勢情報を取得することにより、対象の現在位置している道路構造などの環境情報を予測して、地図分割の精度を向上させることができる。観測点が少ない場合でも(観測データが一フレームしかない場合でも)、依然として、合理的な予測結果を与えることができる。
【0031】
ステップS12において、前記環境情報、前記時系列位置情報および時系列姿勢情報を融合して、融合特徴を取得する。
【0032】
本発明のいくつかの実施例において、対象の時系列位置情報および時系列姿勢情報を取得した後、時系列位置情報および時系列姿勢情報内の各特徴に対して独立した時間モデリングを実行する。例えば、人体を例として説明すると、時系列位置情報および時系列姿勢情報は、体の向き、顔の向きおよび対象の位置を含み、体の向き、顔の向きおよび対象の位置を、3つの独立した第1ニューラルネットワークに別々に入力して、体の向き、顔の向きおよび対象の位置の時間的変化状況を表すための時系列位置情報および時系列姿勢情報をそれぞれ取得し、時系列位置情報および時系列姿勢情報を第2ニューラルネットワークに入力して、調整された時系列位置情報および調整された時系列姿勢情報を取得し、複数の異なる距離を第3ニューラルネットワーク(例えば、全結合モデル)に入力して、当該距離での体の向き、顔の向きおよび対象の位置に対応する重みを取得し、当該重みと、調整された時系列位置情報および調整された時系列姿勢情報を乗算して、乗算結果を取得し、乗算結果を、ローカル地図領域をエンコードした後に取得された環境情報と繋ぎ合わせて、融合特徴を取得する。
【0033】
本発明のいくつかの実施例において、時系列位置情報、時系列姿勢情報および環境情報は、同じ時点で取得される。例えば、すべて、履歴期間内の5つの時点に対することであるため、乗算結果を、ローカル地図領域をエンコードした後に取得された環境情報と繋ぎ合わせることは、乗算結果を表す行列と環境情報を表す行列を、行または列に応じて繋ぎ合わせて、1つの行列を組み合わせ、即ち、融合特徴を取得する方式を介して実現できる。乗算結果を表す行列が、3行5列の行列であり、環境情報を表す行列が、6行5列の行列であると、2つの行列を列に応じて繋ぎ合わせて、9行5列の行列を取得し、即ち、融合特徴を取得する。
【0034】
ステップS13において、融合特徴に従って、対象の移動意図を決定する。
【0035】
本発明のいくつかの実施例において、移動意図は、移動過程における対象の移動傾向として理解でき、対象が、人体対象を含む場合、意図分類は、左折、右折、直進、静止、方向転換、加速、減速、道路の横断、赤信号の待機および後ろ向きの歩きなどのうちの1つまたは複数を含むがこれに限定されない。対象が、非人体対象を含む場合、意図分類は、左折、右折、直進、静止、左車線変更、右車線変更、加速、減速、追い越し、後進および赤信号の待機などのうちの1つまたは複数を含むがこれに限定されない。
【0036】
本発明のいくつかの実施例において、全結合層ネットワークを採用して融合特徴をデコードすることにより、当該融合特徴が、所定のカテゴリライブラリ内の各カテゴリである確率を取得し、確率が最も大きいカテゴリを、当該融合特徴の最も可能性の高いカテゴリとして使用し、このような最も可能性の高いカテゴリに基づいて、対象の移動意図を予測することにより、予測意図の精度を向上させることができる。
【0037】
対応的に、本発明の実施例において、ステップS102は、以下の方式で実現できる。
【0038】
ステップS14において、前記融合特徴および前記移動意図に従って、前記対象の将来軌道を決定する。
【0039】
本発明のいくつかの実施例において、融合特徴および移動意図を介して、対象の将来の期間内の将来軌道を予測することができ、さらに、対象の移動意図を予測しなく、第1ニューラルネットワークのみを使用して、融合特徴を複数回反復して、将来の期間内の対象の将来軌道を予測することができる。例えば、第2調整時系列位置情報および時系列姿勢情報をデコードして、予測される対象の将来軌道を取得することができ、このように複数の時系列位置情報および時系列姿勢情報を介して軌道予測を実行することにより、観測点が少ない場合でも(観測データが一フレームしかない場合でも)、または対象が、急加速、急減速、急旋回などのシナリオでも、将来軌道予測の精度を保証することができる。
【0040】
本発明の実施例において、地図情報を時系列位置情報および時系列姿勢情報に融入して、移動意図を予測して、移動意図に対する予測の精度を向上させることができ、その後、当該移動意図に基づいて、対象の将来軌道を予測することにより、軌道予測の精度を向上させることができる。
【0041】
いくつかの実施例において、将来軌道を予測する入力情報の豊富さを向上させるために、対象の位置情報および対象の向き情報を介して、世界地図をインターセプトして、対象の現在の環境のローカル地図領域を決定することができ、即ち、ステップS11は、以下の過程を介して実現できる。
【0042】
ステップS111において、履歴時刻における対象の位置情報および向き情報に従って、世界地図をインターセプトして、対象が配置されている環境のローカル地図領域を取得する。
【0043】
本発明のいくつかの実施例において、時系列姿勢情報内の向き情報および位置情報は、対になって表示され、即ち、ある履歴時刻で対象の位置情報、および当該位置での向き情報を決定する。例えば、対象が、人体(例えば、歩行者または自転車に乗る人)であると、人の位置情報および人の体の向きに従って、人が位置する現在の道路構造を決定し、それにより、世界地図をインターセプトして、歩行者の現在位置するローカル地図領域を決定する。対象が、車両などの移動機器であると、車両の位置情報および車両フロントの向きに従って、車両の配置されている現在の道路を決定し、それにより、世界地図をインターセプトして、車両の現在位置するローカル地図領域を決定する。
【0044】
本発明のいくつかの実施例において、履歴時刻が複数であるため、各履歴時刻の時系列位置情報および時系列姿勢情報を取得した後、複数のグループの時系列位置情報および時系列姿勢情報も取得され、さらに、各グループの時系列位置情報および時系列姿勢情報に対して、すべて、対応するローカル地図領域をインターセプトすることができる。世界地図をインターセプトすることは、前記複数の時系列位置情報内の各位置および対象が当該位置に配置されているときの向きに従って、前記対象が配置されている環境のローカル地図領域を決定して、複数のローカル地図領域を取得する方式を介して実現することができる。対象が当該位置に位置するときの向きは、対象がこの位置に配置されているときの複数の部位の向きとして理解することができる。このようにして、対象が、1つの位置での複数の部位の向きを参照して、当該対象のローカル地図領域を区切り、決定された環境情報の精度を向上させ、それにより、将来軌道予測の精度を向上させることができる。
【0045】
本発明のいくつかの実施例において、前記位置情報を中心として、前記向き情報に応じて、世界地図で前記対象が配置されている環境のローカル地図領域を区切る。例えば、当該位置を中心として、向き方向に沿って、1つの長方形領域を区切って、対象が配置されている環境のローカル地図領域とする。このようにして、複数の位置および各位置での複数の向き情報は、複数のローカル地図領域を決定することができる。前記複数のローカル地図領域をエンコードして、複数のエンコードされた地図、即ち、環境情報を取得する。このようにして、位置を中心とし、向き情報を参照して、ローカル地図領域を区切って、区切ったローカル地図領域に含まれた地図情報と対象の関連性を比較的に高くし、即ち、環境情報の有効性を向上させることができる。
【0046】
ステップS112において、前記ローカル地図領域内の要素をエンコードして、前記環境情報を取得する。
【0047】
本発明のいくつかの実施例において、各要素は、対応する領域の地図情報を示し、前記地図情報は、少なくとも、道路構造情報、歩道または道路信号機のうちの少なくとも1つを含む。例えば、このローカル地図領域の要素をマスクにエンコードすると、各コードワードは、対応する領域の地図情報を示す。例えば、環境情報が1と0を含む行列であり、ここで、1は、歩道を示し、0は、道路危険領域を示す。最後に、前記複数の環境情報と、対応する時系列位置情報および時系列姿勢情報を融合して、マルチグループの融合特徴を取得し、融合特徴を分類することにより、対象の移動意図を予測する。
【0048】
本発明のいくつかの実施例において、第1ニューラルネットワークの構造は限定されなく、畳み込みニューラルネットワーク、長短期記憶ネットワーク(LSTM:Long Short-Term Memory)などを含むがこれに限定されない。以下は、LSTMを例として説明する。複数の履歴時刻の時系列位置情報および時系列姿勢情報(例えば、対象が歩行者であることを例として、複数の体の向き、複数の顔の向きおよび対象の配置されている複数の位置をそれぞれ)双方向LSTMネットワークに入力して、それぞれ、これらの時系列位置情報および時系列姿勢情報の時間上の変化状況を表す時系列位置情報および時系列姿勢情報を取得し、時系列位置情報および時系列姿勢情報を別の双方向LSTMネットワークに入力して、出力結果を取得し、前記距離を全結合モデルに入力して、当該距離での体の向き、顔の向きおよび対象の位置に対応する重みを取得し、当該重みを、調整された時系列位置情報および時系列姿勢情報と乗算して、複数の乗算結果を取得する。その後、複数の乗算結果を複数のエンコードされた地図と繋ぎ合わせて、融合特徴を形成し、最後に、融合特徴をデコードおよび分類して、対象の移動意図を予測し、または、LSTMネットワークを使用して、融合特徴を複数回反復し、毎回の反復によって取得された座標を予測することにより、将来の期間内の対象の将来軌道を取得する。このようにして、世界地図をインターセプトすることにより、ローカル地図領域を取得し、そのうちの道路情報をエンコードし、それにより、地図情報を、後続の融合特徴に対して使用して、将来軌道を予測するための入力情報の豊富さを向上させる。
【0049】
本発明の実施例において、対象の位置および向きに従って、対象のローカル地図領域を区切り、当該ローカル地図領域に対してマスクエンコードを実行して、環境情報を取得し、各コードワードは、当該領域の地図情報を示す。このようにして、対象の時系列位置情報および時系列姿勢情報とエンコードされた地図を組み合わせて、対象の意図を予測し、さらに、対象の将来軌道を予測して、取得される将来軌道の精度を向上させることができる。
【0050】
いくつかの実施例において、抽出された対象の時系列位置情報および時系列姿勢情報に対して、それぞれタイミングモデリングを実行して、各時系列位置情報および時系列姿勢情報のタイミング上の変化状況を取得し、その後、各時系列位置情報および時系列姿勢情報における時系列位置情報、時系列姿勢情報、環境情報と融合して、融合特徴を取得し、即ち、ステップS12は、以下の過程を介して実現することができる。図3Bに示されたように、図3Bは、本発明の実施例の軌道予測方法の別の実現プロセスの概略図であり、図3Aおよび図3B示されるステップを参照して説明する。
【0051】
ステップS201において、第1ニューラルネットワークを介して、前記時系列位置情報および時系列姿勢情報に従って、将来の期間内の時系列位置情報および時系列姿勢情報を予測する。
【0052】
本発明のいくつかの実施例において、履歴期間内の時系列位置情報および時系列姿勢情報を、第1ニューラルネットワークの入力として、将来の時系列位置情報および時系列姿勢情報を予測する。ステップS201は、以下の過程を介して実現することができる。
【0053】
まず、各履歴時刻の時系列位置情報および時系列姿勢情報(即ち、複数の時系列位置情報および時系列姿勢情報)に対して、時間順序に応じて配列し、その後、配列された複数の時系列位置情報および時系列姿勢情報を、第1ニューラルネットワークに入力して、複数の時系列位置情報および時系列姿勢情報を取得する。ここで、第1ニューラルネットワークは、双方向LSTMネットワークであり得、第1ニューラルネットワークの数は、時系列位置情報および時系列姿勢情報に含まれるタイプとマッチングする。例えば、対象が歩行者であり、時系列位置情報および時系列姿勢情報は、対象の体の向き、顔の向きおよび前記対象の位置を含むと、第1ニューラルネットワークは、3つの独立した双方向LSTMネットワークである。対象が車両であり、時系列位置情報および時系列姿勢情報は、対象の車両フロントの向き、ライト状態および対象の位置を含むと、第1ニューラルネットワークは、3つの独立した双方向LSTMネットワークである。
【0054】
本発明のいくつかの実施例において、複数の時系列位置情報および時系列姿勢情報を当該双方向LSTMネットワークに入力して、対応する時系列位置情報および時系列姿勢情報を取得する。例えば、対象が歩行者であると、異なる時刻での歩行者の体の向き、顔の向きおよび前記歩行者の位置を、3つの独立した双方向LSTMネットワークにそれぞれ入力して、異なる時刻の体の向きに対応する複数の時系列位置情報および時系列姿勢情報(体の向きの時間上の変化状況を表す)、異なる時刻の顔の向きに対応する複数の時系列位置情報および時系列姿勢情報(顔の向きの時間上の変化状況を表す)および、異なる時刻の歩行者の位置に対応する複数の時系列位置情報および時系列姿勢情報(対象の位置の時間上の変化状況を表す)をそれぞれ取得する。
【0055】
本発明のいくつかの実施例において、対象が車両であると、異なる時刻における車両フロントの向き、ライト状態および車両の位置を3つの独立した双方向LSTMネットワークにそれぞれ入力して、異なる時刻の車両フロントの向きに対応する複数の時系列位置情報および時系列姿勢情報(車両フロントの向きの時間上の変化状況を表す)、異なる時刻のライト状態に対応する複数の時系列位置情報および時系列姿勢情報(ライト状態の時間上の変化状況を表す)および、異なる時刻の車両の位置に対応する複数の時系列位置情報および時系列姿勢情報(車両の位置の時間上の変化状況を表す)をそれぞれ取得する。
【0056】
本発明のいくつかの実施例において、当該第1ニューラルネットワークは、トレーニングされたニューラルネットワークであり、以下の方式を採用してトレーニングして得られることができる。
【0057】
まず、前記履歴時刻における対象の時系列位置情報および時系列姿勢情報を、トレーニングされる第1ニューラルネットワークに入力して、前記将来の期間内の前記対象の時系列位置情報および時系列姿勢情報を予測する。
【0058】
本発明のいくつかの実施例において、履歴時刻における対象の時系列位置情報および時系列姿勢情報を第1ニューラルネットワークの入力として、各グループの時系列位置情報および時系列姿勢情報に基づいて、当該対象の将来の期間内に対応する予測時系列位置情報および時系列姿勢情報を予測して、予測された時系列位置情報および時系列姿勢情報を取得する。いくつかの実施例において、ここでの対象は、所定のデータセットのサンプル画像内の歩行者または動物などのようなサンプル対象として理解することができる。前記所定のデータセットには、少なくとも、サンプル画像内のサンプル対象の時系列位置情報および時系列姿勢情報が含まれる。例えば、サンプル対象が歩行者であることを例として説明すると、当該所定のデータセットは、少なくとも、サンプル画像内のサンプル対象の体の向き、顔の向きまたは前記サンプル対象の位置を含む。このようにデータセットの規模が大きく、且つ、より豊富な時系列位置情報および時系列姿勢情報を含むデータセットから、履歴時刻における対象の時系列位置情報および時系列姿勢情報を取得することにより、取得されたサンプルデータの豊富さを向上させることができる。
【0059】
次に、前記将来の期間内の時系列位置情報、時系列姿勢情報を、前記対象が配置されている環境の環境情報と融合して、融合予測特徴を取得する。
【0060】
本発明のいくつかの実施例において、トレーニングされる第1ニューラルネットワークによって予測された時系列位置情報および時系列姿勢情報を環境情報と融合して、融合予測特徴を取得する。
【0061】
次に、少なくとも融合予測特徴に従って、将来の期間内の対象の軌道を予測する。
【0062】
本発明のいくつかの実施例において、当該第1ニューラルネットワークを使用して、融合予測特徴を反復し、それにより、将来の期間内の対象の軌道を予測する。または、融合予測特徴に対して、トレーニングされた全結合ネットワークを使用して分類して、対象の移動意図を予測し、移動意図と融合予測特徴を組み合わせて、対象の将来軌道を予測する。
【0063】
さらに、対象の真の値の軌道に従って、トレーニングされる第1ニューラルネットワークの将来軌道に関する第1予測損失を決定する。
【0064】
本発明のいくつかの実施例において、第1ニューラルネットワーク、将来軌道および対象の真の値の軌道に従って、第1予測損失を決定する。例えば、第1予測損失は、少なくとも、長さが所定の閾値より長い将来軌道の平均予測失敗回数、異なる距離に対応する誤差閾値における将来軌道の成功率または将来軌道の終点位置と、真の値の軌道の終点位置との誤差のうちの少なくとも1つを含む。ここで、長さが所定の閾値より長い将来軌道の平均予測失敗回数は、軌道長さが所定の閾値より長い将来軌道(例えば、将来5秒の将来軌道を予測する)に対して、当該将来軌道のうちの各時刻ポイントをすべて予測し、当該時刻の前5秒の履歴軌道を入力として、将来5秒の将来軌道を予測すると、当該移動の軌道予測は、複数回実行する必要があり、それにより、複数回予測した結果を取得し、複数回予測した結果のうちの失敗回数を統計し、その後、当該失敗回数を当該将来軌道の長さで除算して、正規化を実現し、軌道長さが所定の閾値より長い将来軌道が複数あるため、各軌道の予測失敗の回数を当該将来軌道の長さで除算して、複数の正規化値を取得し、最後に、これらの複数の正規化値を平均して、各軌道の平均失敗予測回数を取得すること、として理解することができる。
【0065】
異なる距離に対応する誤差閾値での予測された将来軌道の成功率は、異なる距離に対して、異なる誤差閾値を事前に設定することとして理解することができる。例えば、距離が大きいほど、設定された誤差閾値も大きく、ある距離で、取得された将来軌道の誤差が、誤差閾値より小さい場合、今回の予測に成功したと決定する。このようにして、予測された将来軌道の異なる誤差閾値でのパフォーマンスを特徴付けて、これに基づいて、ニューラルネットワークの詳細な効果を向上させることができる。
【0066】
将来軌道の終点位置と真の値の軌道の終点位置との誤差は、将来軌道の終了と真の値の軌道の終了との差として理解することができる。
【0067】
最後に、第1予測損失に従って、第1ニューラルネットワークのネットワークパラメータを調整して、前記第1ニューラルネットワークをトレーニングする。
【0068】
本発明のいくつかの実施例において、第1予測損失を直接に使用して、ネットワークパラメータを調整することができる。例えば、長さが所定の閾値より長い予測された将来軌道の平均予測失敗回数、予測された将来軌道の異なる距離に対応する誤差閾値での成功率または将来軌道の終点位置と真の値の軌道の終点位置との誤差のうちの少なくとも1つを採用して、ネットワークパラメータを調整する。本発明の実施例において、豊富な情報をトレーニングサンプルとして使用することにより、トレーニングして得られた第1ニューラルネットワークの性能を向上させる。
【0069】
上記の参照調整過程は、以下の方式を介して実現することができる。まず、前記成功率と前記平均予測失敗回数のサイズ状況を判断し、前記成功率が、前記平均予測失敗回数より小さい場合、今回の将来軌道の予測に失敗したと決定し、その後、前記平均位置誤差、前記平均予測失敗回数、前記成功率または前記誤差のうちの少なくとも1つを使用して、前記ニューラルネットワークのネットワークパラメータを調整する。このように、複数の評価基準を介して、トレーニング過程のうちの予測される将来軌道を評価し、それにより、ニューラルネットワークのネットワークパラメータをより正確に調整して、調整された第1ニューラルネットワークによって予測される将来軌道の精度がより高くなる。
【0070】
ステップS202において、前記将来の期間内の時系列位置情報、時系列姿勢情報および前記環境情報を、所定の方式に従って繋ぎ合わせて、前記融合特徴を取得する。
【0071】
本発明のいくつかの実施例において、時系列位置情報および時系列姿勢情報と、対応するローカル地図は、一グループの時系列位置情報および時系列姿勢情報に属する時系列位置情報および時系列姿勢情報と、この一グループの時系列位置情報および時系列姿勢情報内の位置情報および向き情報に従ってインターセプトしたローカル地図として理解されることができる。複数の時系列位置情報および時系列姿勢情報を、ローカル地図と一対一に対応させ、所定の方式に従って繋ぎ合わせて、融合特徴を取得し、前記所定の方式は、時系列位置情報および時系列姿勢情報をニューラルネットワークに入力する順序に応じて、時系列位置情報および時系列姿勢情報と、対応するローカル地図を繋ぎ合わせることであり得る。例えば、対象が、歩行者または非モーター車両に乗る人であることを例として、この3つの時系列位置情報および時系列姿勢情報を、歩行者の体の向き、顔の向きおよび前記対象の位置の順序に応じて、ニューラルネットワーク(例えば、LSTMネットワーク)に順次に入力し、そうすると、歩行者の体の向き、顔の向きから歩行者の位置への順序に応じて、時系列位置情報および時系列姿勢情報と、対応するローカル地図を繋ぎ合わせて、融合特徴を取得する。その後、全結合ネットワークを使用して前記融合特徴をデコードして、歩行者の移動意図、即ち、歩行者が、左折、右折、直進、静止または方向転換などをしようとするかどうかを予測する。
【0072】
本発明のいくつかの実施例において、対象が、車両などの移動機器である場合、時系列位置情報および時系列姿勢情報は、車両フロントの時系列位置情報および時系列姿勢情報、位置時系列位置情報および時系列姿勢情報および、ライト状態時系列位置情報および時系列姿勢情報を含み、この3つの時系列位置情報および時系列姿勢情報を、車両フロントの時系列位置情報および時系列姿勢情報、位置時系列位置情報および時系列姿勢情報、およびライト状態時系列位置情報および時系列姿勢情報の順序に応じて、ニューラルネットワーク(例えば、LSTMネットワーク)に順次に入力すると、車両フロントの時系列位置情報および時系列姿勢情報、位置時系列位置情報および時系列姿勢情報からライト状態時系列位置情報および時系列姿勢情報の順序に応じて、時系列位置情報および時系列姿勢情報と、対応するローカル地図を繋ぎ合わせて、融合特徴を取得する。その後、全結合ネットワークを使用して、前記融合特徴をデコードして、車両の移動意図、即ち、車両が、左折、右折、直進、静止、左車線変更、右車線変更、追い越しまたは後進などをしようとするかどうかを予測する。
【0073】
上記のステップS201およびステップS202は、「前記環境情報と前記時系列位置情報および前記時系列姿勢情報を融合して、融合特徴を取得する」ことを実現する方式を提供し、当該方式において、時系列位置情報および時系列姿勢情報をニューラルネットワークに入力する順序に応じて、時系列位置情報および時系列姿勢情報を環境情報とするローカル地図を融合することにより、ローカル地図領域を分割する精度を向上させることができる。
【0074】
ステップS203において、第2ニューラルネットワークを介して、前記融合特徴が、意図カテゴリライブラリのうちの各意図カテゴリの信頼度であることを決定する。
【0075】
本発明のいくつかの実施例において、第2ニューラルネットワークは、全結合ネットワークであり得、融合特徴を分類するために使用される。例えば、全結合ネットワークを使用して、融合特徴が、意図カテゴリライブラリ内の各意図カテゴリである可能性を予測して、各意図カテゴリの信頼度を取得することができる。本発明のいくつかの実施例において、対象が歩行者であることを例として、対応する意図カテゴリライブラリは、左折、右折、直進、静止または方向転換などを含み、全結合ネットワークを使用して、融合特徴が、左折、右折、直進、静止または方向転換などのうちの各意図カテゴリである可能性がある信頼度、例えば、各意図カテゴリの確率を予測する。
【0076】
本発明のいくつかの実施例において、当該第2ニューラルネットワークは、トレーニングされたニューラルネットワークであり、以下の方式を採用してトレーニングして得られることができる。
【0077】
まず、前記融合特徴を、トレーニングされる第2ニューラルネットワークに入力して、前記対象の移動意図が、意図カテゴリライブラリのうちの各意図カテゴリである信頼度を予測する。
【0078】
例えば、トレーニングされる第2ニューラルネットワークは、トレーニングされる全結合ネットワークであり得、融合特徴を、トレーニングされる第2ニューラルネットワークに入力して、当該対象の移動意図が、カテゴリライブラリ内の各カテゴリである確率を予測する。ここで、対象は、サンプル対象であり得、サンプル対象の融合特徴を、トレーニングされる第2ニューラルネットワークに入力して、当該サンプル対象の移動意図を分類する。
【0079】
次に、対象の真の値の意図に従って、第2ニューラルネットワークの各意図カテゴリの信頼度に関する第2予測損失を決定する。
【0080】
ここで、第2予測損失は、分類されたクロスエントロピー損失関数であり得る。
【0081】
最後に、第2予測損失に従って、トレーニングされる第2ニューラルネットワークのネットワークパラメータを調整して、トレーニングされる第2ニューラルネットワークをトレーニングして、第2ニューラルネットワークを取得する。
【0082】
例えば、分類されたクロスエントロピー損失関数を採用して、トレーニングされる第2ニューラルネットワークのネットワークパラメータを調整して、トレーニングされる第2ニューラルネットワークをトレーニングして、トレーニングされた第2ニューラルネットワークを取得する。
【0083】
すべての将来軌道予測システムにとって、損失関数は、第1予測損失と第2予測損失との合計である。このようにして、前記将来の期間における対象の将来の時系列位置情報および時系列姿勢情報を融合し、融合特徴を第2ニューラルネットワークをトレーニングするサンプルとすることにより、トレーニングして得られた第2ニューラルネットワークの分類性能を向上させる。
【0084】
ステップS204において、最も高い信頼度を有する意図カテゴリに従って、対象の移動意図を決定する。
【0085】
本発明のいくつかの実施例において、確率の最も大きいカテゴリを選択し、確率の最も大きいカテゴリを対象の移動意図に決定する。例えば、全結合ネットワークを使用して、融合特徴が、左折、右折、直進、静止または方向転換などの各カテゴリである可能性がある確率が、それぞれ、0.1、0.2、0.2、0.1および0.4であると予測すると、確率の最も大きいカテゴリは、方向転換であり、当該対象は、最も可能性の高い移動意図は、方向転換であることを示し、最終的に、決定対象の移動意図は、方向転換である。このようにして、ニューラルネットワークを使用して、融合特徴に対して意図カテゴリの分類を実行することにより、最も可能性の高い移動意図を正確に予測することができる。
【0086】
上記のステップS203およびステップS204は、「前記融合特徴に従って、前記対象の移動意図を決定うる」ことを実現する方式を提供し、当該方式において、全結合ネットワークを使用して融合特徴を分類することにより、対象の将来時刻内の移動意図を正確に予測することができる。
【0087】
ステップS205において、将来の期間の長さに従って、反復ステップサイズを決定する。
【0088】
例えば、将来の期間の長さが、3秒であると、反復ステップサイズは、0.3秒であると決定する。
【0089】
ステップS206において、前記反復ステップサイズに従って、第1ニューラルネットワークを採用して、移動意図および融合特徴を反復して、各反復ステップサイズにおける前記対象の座標を取得する。
【0090】
本発明のいくつかの実施例において、まず、当該反復ステップサイズおよび将来の期間の長さに従って、反復する必要のある回数を決定し、その後、第1ニューラルネットワークを使用して、移動意図および融合特徴を反復して、毎回の反復された座標を取得する。本発明のいくつかの実施例において、将来の期間の長さが、3秒であり、反復ステップサイズが0.3秒であると決定すると、反復する必要のある回数は、10回であり、第1ニューラルネットワークを使用して、移動意図および融合特徴を順次に反復して、最後に、10個の座標値を取得する。
【0091】
ステップS207において、各反復ステップサイズにおける対象の座標に従って、将来軌道を決定する。
【0092】
例えば、上記の例に基づいて、10回の反復を実行して、10個の座標値を取得すると、この10個の座標値に基づいて、対象の将来軌道を推定することができる。
【0093】
本発明の実施例において、対象の意図予測および軌道予測を1つのシステムに組み合わせ、段階的に反復することにより各ステップサイズでの座標を取得して、将来軌道を予測して、最終的に予測された将来軌道の効率と予測効果を向上させることができる。
【0094】
他の実施例において、第1ニューラルネットワークを介して、時系列位置情報および時系列姿勢情報に対して時系列位置情報および時系列姿勢情報の抽出を実行した後、以下の過程をさらに含む。
【0095】
まず、他のLSTMネットワークを使用して、各時系列位置情報および時系列姿勢情報を調整して、第1調整時系列位置情報および時系列姿勢情報を取得する。
【0096】
本発明のいくつかの実施例において、時系列位置情報および時系列姿勢情報を調整するために、双方向LSTMネットワークまたは全結合層のモデルを使用して、時系列位置情報および時系列姿勢情報内の各時系列位置情報および時系列姿勢情報を、双方向LSTMネットワークまたは全結合層のモデルに入力して、1つの重み行列を取得し、その後、重み行列を、時系列位置情報および時系列姿勢情報のタイプと同じ部分に分けて、各部分を、それぞれ対応する時系列位置情報および時系列姿勢情報内の各時系列位置情報および時系列姿勢情報と乗算して、複数の第1調整時系列位置情報および時系列姿勢情報を取得する。例えば、対象が歩行者であることを例として説明すると、時系列位置情報および時系列姿勢情報は、対象の体の向き、顔の向きおよび前記対象の位置を含み、この3つの特徴を、3つの独立した双方向LSTMネットワークに一対一に対応するように入力した後、3つの特徴に対応する3つの時系列位置情報および時系列姿勢情報を取得し、その後、この3つの時系列位置情報および時系列姿勢情報を、対象の体の向き、顔の向きおよび前記対象の位置の順序に応じて、第2ニューラルネットワークに順次に入力して、1つの重み行列を取得し、当該重み行列を3つの部分に分け、第1部分を、異なる時刻の時系列位置情報および時系列姿勢情報と乗算し、第2部分を異なる時刻の時系列位置情報および時系列姿勢情報と乗算し、第3部分を、異なる時刻対象の時系列位置情報および時系列姿勢情報と乗算して、3つの特徴を含む第1調整時系列位置情報および時系列姿勢情報を取得する。
【0097】
次に、各時系列位置情報および時系列姿勢情報内の位置情報を第3ニューラルネットワークに入力することにより、重みベクトルを取得し、さらに、当該重みベクトルを使用して、各第1調整時系列位置情報および時系列姿勢情報を調整して、第2調整時系列位置情報および時系列姿勢情報を取得する。
【0098】
本発明のいくつかの実施例において、全結合モデルを使用して、入力された複数の距離に対して、当該複数の位置における各タイプの時系列位置情報および時系列姿勢情報に対応する重みベクトルを出力する。さらに、取得された各タイプの時系列位置情報および時系列姿勢情報に対応する重みベクトルを、当該タイプの時系列位置情報および時系列姿勢情報に対応する第1調整時系列位置情報および時系列姿勢情報を乗算して、第2調整時系列位置情報および時系列姿勢情報を取得し、それにより、第2調整時系列位置情報および時系列姿勢情報を取得する。
【0099】
最後に、第2調整時系列位置情報および時系列姿勢情報を環境情報と繋ぎ合わせて、当該融合特徴を取得する。
【0100】
本発明のいくつかの実施例において、まず、第2調整時系列位置情報および時系列姿勢情報内の第2調整時系列位置情報および時系列姿勢情報を、前記複数エンコードされた地図と、所定の方式に応じて繋ぎ合わせて、融合特徴を取得する。例えば、対象が歩行者であることを例として、この3つの時系列位置情報および時系列姿勢情報を、歩行者の体の向き、顔の向きおよび前記対象の位置の順序に応じて、ニューラルネットワーク(例えば、LSTMネットワーク)に順次に入力すると、取得される第2調整時系列位置情報および時系列姿勢情報もこの3つの特徴を含み、歩行者の体の向き、顔の向き、前記歩行者の位置からローカル地図の順序に応じて、第2調整時系列位置情報および時系列姿勢情報と、対応するローカル地図を繋ぎ合わせて、融合特徴を取得する。その後、全結合ネットワークを使用して前記融合特徴をデコードして、歩行者の移動意図、即ち、歩行者が、左折、右折、直進、静止または方向転換などをしようとするかどうかを予測する。
【0101】
本発明の実施例は、軌道予測方法を提供し、運転シナリオにおいて、車両、歩行者または非モーター車両は、突然の旋回、突然の左折または右折、歩くことなどの、複雑な行動を有する可能性がある。車両、歩行者または非モーター車両の履歴軌道のみでは、このような複雑な行動を容易に予測または希望することができない。同時に、センシング機能を有する自律システムは、自然により豊富な情報を抽出して、より多くの情報を決定することができる。
【0102】
本発明の実施例は、対象の向きを使用して、対象移動およびローカル地図領域を説明して、周囲の静的環境を説明する。当該位置は、水平面で、点(x,y)として表示されるが、対応する赤緑青(RGB:Red Green Blue)画像から体方向および面方向を抽出した後、水平面に投影して、単位ベクトル(d,d)として表示される。ローカル地図領域は、高解像度地図から取得され、横断歩道、車線、交差点または歩道などの複数の道路情報を含む。
【0103】
本発明の実施例は、データ収集車両を使用して、都市運転シナリオで対象軌道データを收集する。当該車両は、カメラ、64ラインライダー、レーダー、全地球測位システム(GPS:Global Positioning System)または慣性測定ユニット(IMU:Inertial measurement unit)を備える。本発明の実施例は、注釈された高解像度地図を使用し、センシング機能を介して、対象の将来軌道を検出、分析および追跡し生成する。本発明の実施例は、10ヘルツ(HZ)のとき、歩行者の将来軌道および元のデータを提供し、ここで、元のデータは、元の画像、点群、自車の車両姿勢および高解像度地図を含む。対象の時系列位置情報および時系列姿勢情報に対して、本発明の実施例は、第1ニューラルネットワークおよび第2ニューラルネットワーク(ここで、第1ニューラルネットワークおよび第2ニューラルネットワークは、深度ニューラルネットワークアルゴリズムのモデルを採用して実現できる)を使用して、出力を取得する。本発明の実施例による所定のデータセットは、歩行者の顔の向き、体の向きおよび歩行者の位置、ライト情報、車両フロントの向き情報などを含む。このようにして、このように豊富な情報を含むデータセットを採用して、第1ニューラルネットワークおよび第2ニューラルネットワークをトレーニングして、トレーニングされた第1ニューラルネットワークおよび第2ニューラルネットワークの一般化を向上させる。
【0104】
本発明の実施例は、10Hzの周波数で元のセンサデータを收集し、正面RGB画像(800×1762)、LiDAR点群および車両の姿勢および移動情報を含む。道路構造をよりよく説明するために、本発明の実施例は、高精細鳥瞰図(HDMap:High Definition Maps)に道路カテゴリ(即ち、車線、交差点、横断歩道、歩道など)のセマンティック注釈を提供する。道路カテゴリは、多角形または重複領域のない線に表示される。HDMapは、トリミングされ、各データフレームの車両に合わせられる。センシング機能の助力を得て、検出および追跡を介して対象の実行軌道を生成することができる。本発明のいくつかの実施例において、より適した密度を得るために、軌道をフレームあたり0.3秒にサンプリングする。本発明の実施例は、12000分を超える元のデータを收集し、車両、歩行者および自転車に乗る人のために、300000以上の異なる軌道をサンプリングする。
【0105】
交通シナリオに対する全体的な説明を構築するために、本発明の実施例は、收集された軌道内の対象のために、セマンティック属性および意図を手動で注釈した。本発明の実施例は、その機能をよりよく捕捉するために、各対象カテゴリに異なる属性設定を使用する。本発明のいくつかの実施例において、歩行者および自転車に乗る人などの脆弱な道路使用者(VRU:Vulnerable Road Users)に対して、本発明の実施例は、年齢(成人/少年)、性別(女性/男性)、顔の向き(角度)および体の向きを示し、車両に対して、本発明の実施例は、方向指示灯状態(左折/右折/ブレーキ)および前進方向を注釈する。意図は、対象が、観察点の特定の時間(本発明の実施例の設定は、1sである)後の将来での動きに理解できる。当該属性と類似して、本発明の実施例は、図4Aないし図4Dに示されたように、車両、歩行者および自転車に乗る人に異なる意図空間を定義し、ここで、図4Aは、異なる対象、即ち、車両401、歩行者402および自転車に乗る人403を示し、ここで、車両401の数は、334696で、58%を占め、歩行者402の数は、178343で、31%を占め、自転車に乗る人403の数は、61934で、11%を占める。
【0106】
図4Bは、車両に実行された意図予測の結果を示し、ここで、直進421は、38.9%(即ち、当該車両が直進する意図は38.9%である)を占め、左折422は、2%を占め、右折423は、1%を占め、左車線変更424は、1.6%を占め、右車線変更425は、2%を占め、左に追い越し426は、0.1%を占め、右に追い越し427は、0.1%を占め、静止428は、54%を占め、他429は、0.2%を占める。
【0107】
図4Cは、歩行者に実行された意図予測の結果を示し、ここで、直進431は、48.6%を占め、左折432は、16.8%を占め、右折433は、23.6%を占め、静止434は、6.8%を占め、方向転換435は、0.4%を占め、他436は、3.7%を占める。
【0108】
図4Dは、自転車に乗る人に実行された意図予測の結果を示し、ここで、直進441は、37.5%を占め、左折442は、13.5%を占め、右折443は、17.9%を占め、静止444は、24%を占め、方向転換は、0.1%を占め、他445は、7%を占める。
【0109】
ほどんどの軌道予測データセットと比べて、本発明の実施例のデータセットは、より多くの対象カテゴリを網羅し、豊富なコンテキスト注釈を提供し、道路情報および属性注釈を含む。本発明の実施例のデータセットは、より幅広い意図定義を使用し、データ規模は比較的に大きい。
【0110】
本発明の実施例において、統一なフレームワークを使用して、対象の将来軌道および潜在的な意図を共同に予測する。本発明の実施例によって使用される第1ニューラルネットワークおよび第2ニューラルネットワークのうちの少なくとも1つは、LSTMのエンコーダ-デコーダアーキテクチャに基づいて実現されることを含み得るがこれに限定されなく、第1ニューラルネットワークおよび第2ニューラルネットワークのうちの少なくとも1つに基づいて、当該フレームワークの直接性および汎用性を向上させることができる。まず、エンコーダを使用して、対象の履歴移動軌道および豊富なコンテキスト情報から対象特徴を抽出し、対象特徴は、セマンティック対象属性およびローカル道路構造を含む。その後、デコーダを使用して意図分布を推定し、将来の位置に回帰する。図5に示されたように、図5は、本発明の実施例による軌道予測システムのフレームワークの概略図であり、図5に参照して説明する。
【0111】
まず、履歴時刻で収集された複数画像のうち、歩行者501の時系列位置情報および時系列姿勢情報を取得し、位置情報502、体の向き503、顔の向き504および現在の時刻の道路構造505を含む。
【0112】
その後、各時系列位置情報および時系列姿勢情報に対して、時系列モデルを確立し、即ち、各時系列位置情報および時系列姿勢情報を第1ニューラルネットワーク(ここでの第1ニューラルネットワークをLSTMネットワーク506を使用して実現できる)に入力して、対応する時系列特徴を取得する。
【0113】
例えば、位置情報502をLSTMネットワーク506に入力して、位置時系列特徴を取得し、体の向き503をLSTMネットワーク506に入力して体の向き時系列特徴を取得し、顔の向き504をLSTMネットワーク506に入力して顔の向き時系列特徴を取得し、最後に、道路構造505を第2ニューラルネットワーク(ここでの第2ニューラルネットワークは、CNNネットワーク507を使用して実現できる)に入力して、道路構造をエンコードして、道路時系列位置情報および時系列姿勢情報を取得する。
【0114】
最後に、道路時系列位置情報および時系列姿勢情報を時系列特徴と融合して、融合特徴を取得し、融合特徴を第1ニューラルネットワーク(ここでの第1ニューラルネットワークは、MLPネットワーク508を使用して実現できる)に入力して、意図予測を実行して、道路を横断すること509である意図予測の結果を取得する。その後、意図予測の結果である道路を横断すること509と融合特徴を組み合わせてLSTMネットワーク506に入力して、複数回の反復を実行し、歩行者の実行軌道を予測して、予測される将来軌道510を取得し、図5では、歩行者501の履歴軌道511、予測の将来軌道510および真の値の軌道512を比較することにより、本発明の実施例による軌道予測方法を使用して取得される予測された将来軌道510の精度は非常に高いことをわかることができる。
【0115】
図5では、各データ項目の特定の形に従って、一グループのLSTMまたはCNNネットワークを使用して、対象の移動履歴およびマルチモードのコンテキスト入力をエンコードする。エンコードされた特徴は、融合特徴に繋ぎ合わせた後、デコーダに提供され、将来軌道および潜在的な意図を共同に予測する。
【0116】
本発明の実施例において、各時間ステップサイズt(例えば、tの値は、0より大きく、Tより小さいことができる)に対して、第i個の対象の観察結果は、
に表示され、ここで、
は、位置情報であり、
は、コンテキスト情報である。離散時間間隔
での観察を与えると、本発明の実施例は、
および意図ITにおける予測対象の将来の位置を実現することができる。ここで、Tは、最後の観察時間(例えば、Tの値は、0より大きく、且つ5分より小さいことができる)であり、n、mは、それぞれ、観察期間と予測期間である(例えば、n、mの値は、0より大きく且つ5分より小さい実数であり得る)。
【0117】
本発明の実施例は、一グループの双方向LSTMネットワークを第1ニューラルネットワークとして使用して、マルチソース入力データをエンコードする。対象pT-m:Tの履歴軌道をLSTMに直接に入力して、時間Tでの隠し状態(
に示す)を取得して、移動履歴特徴とする。コンテキスト情報は、その特定の形に従って処理する。VRUの場合、本発明の実施例は、
を設定し、ここで、ft/btは、二次元単位ベクトルで示される顔/体の方向であり、rは、自車を中心として回転した部分的な道路構造図であり、y軸が、自車フロントの方向に合わせる。車両の場合、本発明の実施例は、
を設定し、ここで、lは、三次元バイナリベクトルでのライトの状態であり、hは、車両フロントの向きであり、rは、VRU設定と同じである。本発明の実施例において、顔の向きおよびライト状態などのセマンティック属性は、対象意図および将来の移動と密接に関連し、対象の固有特性を反映し、これらの特性は、移動履歴から取得できない。ローカル地図は、道路構造を提供して軌道予測を標準化する。本発明の実施例の実現において、移動履歴エンコードの過程と類似して、方向(即ち、顔、体および車両の前進方向)シーケンスおよびライトの状態シーケンスをそれぞれ、独立した双方向LSTMに直接に入力する。本発明の実施例は、観察時間T内でローカル地図に一回使用されて、冗長を低減する。本発明の実施例は、まず、元の地図をラスタライズ(rasterize)し、その後、ラスタライズされた地図をCNNモデルに入力して、地図の時系列位置情報および時系列姿勢情報を抽出する。最後に、すべてのエンコードされたベクトルを、時間Tに嵌め込まれた融合特徴として接続し、式(1)の通りである。
【0118】
式(1)
【0119】
ここで、
は、すべてのエンコーダの変換関数を示す。
【0120】
本発明の実施例は、意図予測を1つの分類問題としてモデリングする。ここで、モデルは、特定の対象の融合特徴eに従って、有限インテントセットの事後確率分布を予測する。本発明の実施例は、多層パーセプトロン(MLP:Multilayer perceptron)を使用して、softmax層を接続して意図分類器として使用する。トレーニング過程において、本発明の実施例は、クロスエントロピー損失を最小化し、式(2)に示された通りである。
【0121】
式(2)
【0122】
ここで、
は、時間Tでの真の意図の予測確率(インデックスは、kとして示される)である。
【0123】
本発明の実施例は、軌道予測をシーケンスに見なしてタスクを生成し、LSTMデコーダを使用して、各将来の時間ステップサイズでの対象移動を予測する。eに嵌め込まれた特徴は、最初からデコーダに供給される。特に、本発明の実施例は、意図分類器の出力を、別の全結合層を介して意図嵌め込み特徴
を決定し、意図嵌め込み特徴を、軌道デコーダの補助入力として使用することにより、軌道予測に良好な条件を提供する。本発明の実施例は、トレーニング過程でガウス損失関数を最小化する。
【0124】
式(3)
【0125】
ここで、
は、時間tでのグラウンドトゥルース位置であり、
は、軌道予測の予測ガウス分布パラメータを表す。グローバル損失関数L=LTraj+LIntを最適化することにより、本発明の実施例のニューラルネットワークは、マルチタスク方式でエンドツーエンドトレーニングを実行することができる。いくつかの実施例において、さらに、ガウス平均を予測される軌道位置として使用することができる。
【0126】
他の実施例において、以下は、対象が歩行者であることを例として、説明する。
【0127】
表1は、異なる収集距離で収集された体の向きおよび顔の向きの精度である。表1から分かるように、歩行者の位置、体の向きおよび顔の向きは、歩行者の動的状況を示すために使用され、ローカル地図領域は、静的周囲環境を示すために使用される。本発明の実施例において、位置、体の向き、顔の向き、即ち、歩行者の時系列位置情報および時系列姿勢情報は、動的特徴として見なされることができ、ローカル地図領域は、静的特徴として見なされることができる。
【0128】
【表1】
【0129】
表1に示されたように、顔の向き(Face direction)および体の向き(Body direction)の精度は、歩行者から車両への距離に関連する。距離が長いほど、特徴の精度は低い。そのため、異なる距離の異なる時系列位置情報および時系列姿勢情報で時系列位置情報および時系列姿勢情報の重みを調整する。本発明の実施例は、嵌め込み関数
を使用してこのような関係を説明する。
【0130】
式(4)
【0131】
ここで、
は、時間ステップサイズtでの第i個の歩行者と車両との距離を示し、Wdisは、第2ニューラルネットワークの入力から出力への変換パラメータを示し、
は、第2ニューラルネットワークに異なる距離を入力した後、位置、顔の向きおよび体の向きに対して出力された対応する重みベクトルである。
【0132】
歩行者は、基本的な交通ルールに従い、これらのルールは、それに対応する地方の道路構造に関する。ローカル地図領域は、歩行者の将来軌道予測の基本的な静的環境である。
【0133】
各車線内の領域は、歩行者の「危険空間」として見なされる。図6は、本発明の実施例の軌道予測方法の実現フレームワークの構造図であり、図6に示されたように、まず、画像601ないし画像60nから、顔の向き
、体の向き
および歩行者61の位置
、および体の向きおよび位置に従って決定されたローカル地図領域
などの、歩行者61の時系列位置情報および時系列姿勢情報を抽出する。
【0134】
次に、歩行者61の位置
、体の向き
および顔の向き
を3つの独立した第1ニューラルネットワーク62、63および64(例えば、双方向LSTMネットワーク)に独立して入力し、それぞれ、体の向きを表す時系列特徴(即ち、時系列位置情報および時系列姿勢情報)、顔の向きを表す時系列特徴およびサンプル対象の位置の時間における変化状況を表す時系列特徴を取得し、さらに、時系列特徴を別の第2ニューラルネットワーク65(例えば、双方向LSTMネットワーク)に入力して、第1調整時系列特徴を取得する。異なる距離を全結合モデル68に入力して、当該距離での体の向き、顔の向きおよび移動対象の位置に対応する重みを取得し、当該重みを第1調整時系列特徴と乗算して、第2調整時系列特徴を取得する。
【0135】
次に、エンコードされた地図602を一次元特徴ベクトルに展開し、当該一次元特徴ベクトルをエンコードし、別の双方向LSTMネットワーク、即ち、第1ニューラルネットワーク66に入力して、当該一次元特徴ベクトルに対応する時系列特徴を取得し、その後、当該時系列特徴を歩行者61の時系列位置情報および時系列姿勢情報に対応する時系列特徴の補助特徴として、これらの特徴を繋ぎ合わせて、融合特徴を取得し、その後、デコードされたニューラルネットワーク67を介して、融合特徴をデコードして、予測された歩行者の将来軌道、即ち、点線69を取得し、実線70は、当該歩行者61の真の値将来軌道であり、これから分かるように、本発明の実施例によって採用されるネットワークモデルの予測結果は、非常に正確である。
【0136】
本発明の実施例は、ローカル地図領域に対してマスクエンコードを採用して、エンコードされた地図602を取得し、ここで、各コードワードは、そのセマンティック道路構造クラスに関連付けられた特定の整数で充填される。時間ステップサイズtでの第i個の歩行者に対して、まず、当該歩行者の位置および体の向きに従って、当該歩行者に対応するローカル地図領域を決定する。その後、ローカル地図領域をグリッドに均等に離散化し、ここで、各グリッドは、主なセマンティック道路構造クラスの構造特定数によって表示される。例えば、「横断歩道」および「歩道」は、数字「1」に表示され、「危険地点」は、「-1」に表示され、他は、数字「0」に表示され、危険または安全領域を分割するためのグリッド603を取得する。
【0137】
本発明のいくつかの実施例において、エンコードされた動的特徴(即ち、歩行者の時系列位置情報および時系列姿勢情報)とエンコードされた静的特徴(即ち、ローカル地図領域)を接続して予測する。単純なLSTMネットワークを使用して、歩行者の将来軌道を予測する。
【0138】
本発明の実施例による履歴データの所定のデータセットは、大規模および情報化された軌道データセットであり、自律運転における歩行者の軌道予測タスクを促進する。同時に、当該データセットは、複数の評価基準があり、長さが所定の閾値より長い将来軌道の平均予測失敗回数、異なる距離に対応する誤差閾値における将来軌道の成功率または将来軌道の終点位置と、真の値の軌道の終点位置との誤差で、予測モデルの精度およびロバスト性を査定し、それにより、非常に複雑なシナリオでも、当該ニューラルネットワークを使用して、仍然として、歩行者の将来軌道を比較的に正確に予測できる。
【0139】
本発明の実施例は、軌道予測装置を提供し、図7は、本発明の実施例の軌道予測装置の例示的な構造的構成図であり、図7に示されたように、前記装置700は、
対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定するように構成される、意図決定モジュール701であって、ここで、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、所定の期間の異なる時点での前記対象の姿勢情報であり、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の向き情報を含む、意図決定モジュール701と、
前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定するように構成される、将来軌道決定モジュール702と、を備える。
【0140】
上記の装置において、意図決定モジュール701は、前記時系列位置情報および前記時系列姿勢情報に従って、前記対象が配置されている環境の環境情報を取得するように構成される、地図インターセプトサブモジュールと、前記環境情報、前記時系列位置情報および時系列姿勢情報を融合して、融合特徴を取得するように構成される、特徴融合サブモジュールと、前記融合特徴に従って、前記対象の移動意図を決定するように構成される、意図予測サブモジュールと、を備え、前記将来軌道決定モジュール702は、前記融合特徴および前記移動意図に従って、前記対象の将来軌道を決定するように構成される、軌道予測サブモジュールを備える。
【0141】
上記の装置において、前記対象は、人体対象および非人体対象のうちの少なくとも1つを含み、前記対象が、前記人体対象を含む場合、前記異なる時点での姿勢情報は、前記異なる時点での前記人体対象の部位の向き情報を含み、前記部位は、肢体、顔のうちの少なくとも1つを含み、前記対象が、前記非人体対象を含む場合、前記非人体対象は、車両、動物、移動可能な機器のうちの少なくとも1つを含み、前記異なる時点での姿勢情報は、前記非人体対象が、前記異なる時点での向き情報および走行指示情報を含む。
【0142】
上記の装置において、前記装置は、さらに、現在の時刻からの期間が特定の期間より小さいか等しい少なくとも2つの履歴時刻を決定するように構成される、履歴時刻決定モジュールと、少なくとも2つの履歴時刻における前記対象の時系列位置情報および時系列姿勢情報を取得する過程を介して取得するように構成される、特徴情報取得モジュールと、を備える。
【0143】
上記の装置において、前記地図インターセプトサブモジュールは、任意の1つの履歴時刻における前記対象の位置情報および向き情報に従って、前記環境情報を決定するように構成される、地図インターセプトユニットを備え、ここで、前記環境情報は、少なくとも、道路情報、歩行者情報または信号機情報のうちの少なくとも1つを含む。
【0144】
上記の装置において、前記地図インターセプトユニットは、さらに、前記位置情報を中心として、前記向き情報に従って、世界地図で前記対象が配置されている環境のローカル地図領域を区切り、前記ローカル地図領域内の要素をエンコードして、前記環境情報を取得するように構成される。
【0145】
上記の装置において、前記特徴融合サブモジュールは、第1ニューラルネットワークを介して、前記時系列位置情報および時系列姿勢情報に従って、将来の期間内の時系列位置情報および時系列姿勢情報を予測するように構成される、時系列位置情報および時系列姿勢情報決定ユニットと、前記将来の期間内の時系列位置情報、時系列姿勢情報および前記環境情報を、所定の方式に従って繋ぎ合わせて、前記融合特徴を取得するように構成される、特徴繋ぎ合わせユニットと、を備える。
【0146】
上記の装置において、前記意図予測サブモジュールは、第2ニューラルネットワークを介して、前記融合特徴が、意図カテゴリライブラリのうちの各意図カテゴリの信頼度であることを決定するように構成される、信頼度決定ユニットと、最も高い信頼度を有する意図カテゴリを、前記対象の移動意図に決定するように構成される、意図予測ユニットと、を備える。
【0147】
上記の装置において、前記軌道予測サブモジュールは、前記将来の期間の長さに従って、反復ステップサイズを決定するように構成される、反復ステップサイズユニットと、前記反復ステップサイズに従って、前記第1ニューラルネットワークを採用して、前記移動意図および前記融合特徴を反復して、各反復ステップサイズにおける前記対象の座標を取得するように構成される、特徴反復ユニットと、各反復ステップサイズにおける前記対象の座標に従って、前記将来軌道を決定するように構成される、将来軌道決定ユニットと、を備える。
【0148】
上記の装置において、前記装置は、さらに、第1ニューラルネットワークをトレーニングするように構成される、第1トレーニングモジュールを備え、
第1トレーニングモジュールは、前記対象の時系列位置情報および時系列姿勢情報を、トレーニングされる第1ニューラルネットワークに入力して、前記将来の期間内の前記対象の時系列位置情報および時系列姿勢情報を予測するように構成される、時系列位置情報および時系列姿勢情報を予測するための予測サブモジュールと、前記将来の期間内の時系列位置情報、時系列姿勢情報を、前記対象が配置されている環境の環境情報と融合して、融合予測特徴を取得するように構成される、予測特徴融合サブモジュールと、少なくとも前記融合予測特徴に従って、前記将来の期間における前記対象の将来軌道を予測するように構成される、予測将来軌道サブモジュールと、前記対象の真の値の軌道に従って、前記トレーニングされる第1ニューラルネットワークの前記将来軌道に関する第1予測損失を決定するように構成される、第1予測損失決定サブモジュールと、前記第1予測損失に従って、前記トレーニングされる第1ニューラルネットワークのネットワークパラメータを調整して、前記第1ニューラルネットワークを取得するように構成される、第1ニューラルネットワークパラメータ調整サブモジュールと、を備える。
【0149】
上記の装置において、前記装置は、さらに、第2ニューラルネットワークをトレーニングするように構成される、第2トレーニングモジュールを備え、
第2トレーニングモジュールは、前記融合特徴を、トレーニングされる第2ニューラルネットワークに入力して、前記対象の移動意図が、意図カテゴリライブラリのうちの各意図カテゴリである信頼度を予測するように構成される、カテゴリ信頼度決定サブモジュールと、前記対象の真の値の意図に従って、前記トレーニングされる第2ニューラルネットワークの前記各意図カテゴリの信頼度に関する第2予測損失を決定するように構成される、第2予測損失決定サブモジュールと、前記第2予測損失に従って、前記トレーニングされる第2ニューラルネットワークのネットワークパラメータを調整して、前記第2ニューラルネットワークを取得するように構成される、第2ニューラルネットワークパラメータ調整サブモジュールと、を備える。
【0150】
対応的に、本発明の実施例は、さらに、コンピュータ実行可能命令を含む、コンピュータプログラム製品を提供し、当該コンピュータ実行可能命令が実行された後、本発明の実施例による軌道予測方法を実現できる。
【0151】
それに対応して、本発明の実施例は、さらに、コンピュータ実行可能命令が記憶される、コンピュータ記憶媒体を提供し、前記コンピュータ実行可能命令がプロセッサによって実行されるとき、上記の実施例による軌道予測方法を実現する。
【0152】
本発明の実施例は、さらに、コンピュータ可読コードを含む、コンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器のプロセッサは、上記の実施例による軌道予測方法を実現するために実行する。
【0153】
それに対応して、本発明の実施例は、コンピュータ機器を提供し、図8は、本発明の実施例のコンピュータ機器の構成の例示的な構造図であり、図8に示されたように、前記機器800は、1つのプロセッサ801、少なくとも1つの通信バス、通信インターフェース802、少なくとも1つの外部通信インターフェースおよびメモリ803を備える。ここで、通信インターフェース802は、これらのアセンブリ間の接続通信を実現するように構成される。ここで、通信インターフェース802は、スクリーンを備えることができ、外部通信インターフェースは、標準の有線インターフェースおよび無線インターフェースを含み得る。ここで前記プロセッサ801は、メモリ内の画像処理プログラムを実行して、上記の実施例による軌道予測方法を実現するように構成される。
【0154】
実際の適用において、前記メモリは、ランダムアクセメモリ(RAM:Random-Access Memory)などの揮発性メモリ(volatile memory)であり得、または、読み取り専用第1メモリ(ROM:Read-Only Memory)、フラッシュメモリ(flash memory)、ハードディスク(Hard Disk Drive、HDD)またはソリッドステートハードディスク(SSD:Solid-State Drive)などの、不揮発性メモリ(non-volatile memory)であり得、または上記のタイプのメモリの組み合わせであり得、プロセッサに命令およびデータを提供する。
【0155】
前記プロセッサは、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、デジタル信号処理機器(DSPD:Digital Signal Processor Device)、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)、中央プロセッサ(CPU:Central Processing Unit)、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであり得る。異なる機器に対して、前記プロセッサの機能を実現するために使用される電子デバイスは、他でもあり得、本発明の実施例は、限定しないことを理解されたい。
【0156】
以上の軌道予測装置、コンピュータ機器および記憶媒体実施例の説明は、上記の方法実施例の説明と類似しており、対応する方法実施例と類似する技術的説明と有利な効果は、スペースの制限により、上記の方法実施例の記載を参照できる。本発明の軌道予測装置、コンピュータ機器および記憶媒体実施例で開示されていない技術的詳細は、本発明の方法実施例の説明を参照して理解されたい。
【0157】
明細書の全篇に言及された「1つの実施例」または「一実施例」は、実施例に関連する特定の特徴、構造または特性は、本発明の少なくとも1つの実施例に含まれることを意味することを理解されたい。そのため、明細書の全様々な場所での「1つの実施例において」または「一実施例において」は、必ずしも同じ実施例を指すことは限らない。なお、これらの特定の特徴、構造または特性は、任意の適した方式で1つまたは複数の実施例に組み合わせることができる。本発明の様々な実施例において、前記各プロセスの番号の大きさは実行する前後順番を意味せず、各プロセスの実行順番は、その機能と内部論理によって決定されるべきであり、本発明の実施例の実施プロセスに対してあらゆる制限を構成してはならないことを理解されたい。上記の本発明の実施例の番号は、実施例の優劣を表すものではなく、説明の便宜を図るためのものである。
【0158】
本願実施例において、「備える」、「含む」またはその任意の他の変形の用語は、非排他的な含みを覆われることを意図し、それにより、一連の要素を含むプロセス、方法、アイテムまたは装置は、それらの要素を含むだけでなく、さらに、明示的に列挙されない他の要素を含み、または、これらのプロセス、方法、アイテムまたは装置の固有の要素も含むことに留意されたい。より多くの制限なしに、「1つの…を含む」という文で限定される要素は、当該要素を含むプロセス、方法、アイテムまたは装置に、別の関連要素の存在を排除しない。
【0159】
本発明で提供するいくつかの実施例において、開示された機器および方法は、他の方式で実現されてもよいことを理解されたい。上記で説明された機器の実施例は単なる例示的であり、例えば、前記ユニットの分割は論理的な機能の分割に過ぎない。実際の実現では、例えば、複数のユニットまたはアセンブリを組み合わせたり、別のシステムに統合したり、一部の特徴を無視したり、実行しないなど、別の分割方法があることができる。なお、表示または議論される各構成要素間の相互結合または直接結合または通信接続は、いくつかのインターフェース、機器またはユニットを介した間接な結合または通信接続であり得、電気的、機械的または他の形態であり得る。
【0160】
上記の分離部材として説明されたユニットは、物理的に分離されている場合とされていない場合があり、ユニットとして表示された部材は、物理ユニットである場合もそうでない場合もあり、1箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もあり、実際の必要に応じて、その一部またはすべてのユニットを選択して、本実施例の技術案の目的を具現することができる。
【0161】
なお、本発明の各実施例における各機能ユニットは、1つの処理ユニットにすべて統合してもよいし、各ユニットを1つのユニットとして別々に使用してもよいし、2つ以上のユニットを1つのユニットに統合してもよい。上記の統合されたユニットは、ハードウェアの形態で、またはハードウェアおよびソフトウェア機能ユニットの形態で具現することができる。当業者は、上記した方法の実施例の全てまたは一部のステップは、プログラム命令に関連するハードウェアによって完了することができ、前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されることができ、前記プログラムが実行されるとき、上記の方法の実施例のステップを実行し、前記記憶媒体は、リムーバブルストレージ、読み取り専用メモリ(ROM:Read-Only Memory)、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる媒体を含む。
【0162】
または、本発明の上記の統合されたユニットがソフトウェア機能モジュールの形で実現され、スタンドアロン製品として販売または使用される場合、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づいて、本発明の実施例の技術的解決策は、本質的に、または既存の技術に貢献する部分は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶されて、一台のコンピュータ機器(パーソナルコンピュータ、サーバ、またはネットワーク機器などであリ得る)が本発明の各実施例に記載の方法の全部または一部を実行するようにするためのいくつかの命令を含む。前述した記憶媒体は、リムーバブルストレージ、ROM、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる様々な媒体を含む。以上は、本発明の具体的な実施形態に過ぎないが、本発明の保護範囲はこれに限定されず、当業者は、本発明に開示された技術的範囲内で容易に想到し得る変更または置換は、すべて本発明の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、特許請求の保護範囲を基準とするべきである。
【産業上の利用可能性】
【0163】
本発明の実施例は、軌道予測方法、装置、機器、記憶媒体およびプログラムを提供し、ここで、対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定し、ここで、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、前記対象が、所定の期間の異なる時点での姿勢情報であり、ここで、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の複数の部位の向き情報を含み、前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定する。
図1
図2
図3A
図3B
図4A
図4B
図4C
図4D
図5
図6
図7
図8