特表2023-511765 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ センスタイム　グループ　リミテッドの特許一覧 ▶ 本田技研工業株式会社の特許一覧

特表2023-511765軌道予測方法、装置、機器、記憶媒体およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4A
4B
4C
4D
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-03-22

(54)【発明の名称】軌道予測方法、装置、機器、記憶媒体およびプログラム

(51)【国際特許分類】

G06T 7/20 20170101AFI20230314BHJP

G06T 7/00 20170101ALI20230314BHJP

G08G 1/16 20060101ALI20230314BHJP

【ＦＩ】

G06T7/20

G06T7/00 350C

G08G1/16 C

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022546580

(86)(22)【出願日】2021-07-30

(85)【翻訳文提出日】2022-08-01

(86)【国際出願番号】 CN2021109871

(87)【国際公開番号】W WO2022022721

(87)【国際公開日】2022-02-03

(31)【優先権主張番号】202010763409.4

(32)【優先日】2020-07-31

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】520018428

【氏名又は名称】センスタイムグループリミテッド

(71)【出願人】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(74)【代理人】

【識別番号】110001427

【氏名又は名称】弁理士法人前田特許事務所

(72)【発明者】

【氏名】ジャンシーチュエン

(72)【発明者】

【氏名】リーイーニン

(72)【発明者】

【氏名】ジアンチンホン

(72)【発明者】

【氏名】シージエンピン

(72)【発明者】

【氏名】ジョウボーレイ

【テーマコード（参考）】

5H181

5L096

【Ｆターム（参考）】

5H181AA01

5H181AA05

5H181AA21

5H181CC04

5H181LL01

5H181LL04

5L096BA04

5L096BA08

5L096DA02

5L096FA67

5L096FA69

5L096HA03

5L096HA11

5L096JA22

5L096KA04

5L096KA15

(57)【要約】

本発明の実施例は、軌道予測方法、装置、機器、記憶媒体およびプログラムを提供し、ここで、対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定し、ここで、前記時系列位置情報は、前記対象が、所定の期間の異なる時点での位置情報であり、前記時系列姿勢情報は、前記対象が、所定の期間の異なる時点での姿勢情報であり、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の複数の部位の向き情報を含み、前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定する。時系列位置情報、時系列姿勢情報および移動意図を組み合わせることを介して、且つ、対象の向き情報を考慮して、予測対象の将来軌道の精度を効果的に向上させることができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

電子機器によって実行される、軌道予測方法であって、
対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定することであって、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、所定の期間の異なる時点での前記対象の姿勢情報であり、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の向き情報を含むことと、
前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定することと、を含む、前記軌道予測方法。

【請求項2】

前記対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定することは、
前記時系列位置情報および前記時系列姿勢情報に従って、前記対象が配置されている環境の環境情報を取得することと、
前記環境情報、前記時系列位置情報および時系列姿勢情報を融合して、融合特徴を取得することと、
前記融合特徴に従って、前記対象の移動意図を決定することと、を含み、
前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定することは、
前記融合特徴および前記移動意図に従って、前記対象の将来軌道を決定することを含む、
請求項１に記載の軌道予測方法。

【請求項3】

前記対象は、人体対象と非人体対象のうちの少なくとも１つを含み、
前記対象が、前記人体対象を含む場合、前記異なる時点での姿勢情報は、前記人体対象の部位が、前記異なる時点の向き情報を含み、前記部位は、肢体、顔のうちの少なくとも１つを含み、
前記対象が、前記非人体対象を含む場合、前記非人体対象は、車両、移動可能な機器のうちの少なくとも１つを含み、
前記異なる時点での姿勢情報は、前記非人体対象が、前記異なる時点での向き情報および走行指示情報を含む、
請求項１または２に記載の軌道予測方法。

【請求項4】

前記対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定する前に、前記軌道予測方法は、
現在の時刻からの期間が特定の期間より小さいか等しい少なくとも２つの履歴時刻を決定することと、
前記少なくとも２つの履歴時刻における前記対象の時系列位置情報および時系列姿勢情報を取得することと、をさらに含む、
請求項１または２に記載の軌道予測方法。

【請求項5】

前記時系列位置情報および前記時系列姿勢情報に従って、前記対象が配置されている環境の環境情報を取得することは、
任意の１つの履歴時刻における前記対象の位置情報および向き情報に従って、前記環境情報を決定することを含み、前記環境情報は、少なくとも、道路情報、歩行者情報または信号機情報のうちの少なくとも１つを含む、
請求項２ないし４のいずれか一項に記載の軌道予測方法。

【請求項6】

任意の１つの履歴時刻における前記対象の位置情報および向き情報に従って、前記環境情報を決定することは、
前記位置情報を中心として、前記向き情報に従って、世界地図で前記対象が配置されている環境のローカル地図領域を区切ることと、
前記ローカル地図領域内の要素をエンコードして、前記環境情報を取得することと、を含む、
請求項５に記載の軌道予測方法。

【請求項7】

前記環境情報、前記時系列位置情報および時系列姿勢情報を融合して、融合特徴を取得することは、
第１ニューラルネットワークを介して、前記時系列位置情報および時系列姿勢情報に従って、将来の期間内の時系列位置情報および時系列姿勢情報を予測することと、
前記将来の期間内の時系列位置情報、時系列姿勢情報および前記環境情報を、所定の方式に従って繋ぎ合わせて、前記融合特徴を取得することと、を含む、
請求項２、５および６のいずれか一項に記載の軌道予測方法。

【請求項8】

前記融合特徴に従って、前記対象の移動意図を決定することは、
第２ニューラルネットワークを介して、前記融合特徴が、意図カテゴリライブラリのうちの各意図カテゴリの信頼度であることを決定することと、
最も高い信頼度を有する意図カテゴリを、前記対象の移動意図に決定することと、を含む、
請求項２、５ないし７のいずれか一項に記載の軌道予測方法。

【請求項9】

前記融合特徴および前記移動意図に従って、前記対象の将来軌道を決定することは、
前記将来の期間の長さに従って、反復ステップサイズを決定することと、
前記反復ステップサイズに従って、前記第１ニューラルネットワークを採用して、前記移動意図および前記融合特徴を反復して、各反復ステップサイズにおける前記対象の座標を取得することと、
各反復ステップサイズにおける前記対象の座標に従って、前記将来軌道を決定することと、を含む、
請求項２、５ないし８のいずれか一項に記載の軌道予測方法。

【請求項10】

前記第１ニューラルネットワークのトレーニング方法は、
前記対象の時系列位置情報および時系列姿勢情報を、トレーニングされる第１ニューラルネットワークに入力して、前記将来の期間内の前記対象の時系列位置情報および時系列姿勢情報を予測することと、
前記将来の期間内の時系列位置情報、時系列姿勢情報および前記環境情報と融合して、融合予測特徴を取得することと、
少なくとも前記融合予測特徴に従って、前記将来の期間における前記対象の将来軌道を予測することと、
前記対象の真の値の軌道に従って、前記トレーニングされる第１ニューラルネットワークの前記将来軌道に関する第１予測損失を決定することと、
前記第１予測損失に従って、前記トレーニングされる第１ニューラルネットワークのネットワークパラメータを調整して、前記第１ニューラルネットワークを取得することと、を含む、
請求項７ないし９のいずれか一項に記載の軌道予測方法。

【請求項11】

前記第２ニューラルネットワークのトレーニング方法は、
前記融合特徴を、トレーニングされる第２ニューラルネットワークに入力して、前記対象の移動意図が、意図カテゴリライブラリのうちの各意図カテゴリである信頼度を予測することと、
前記対象の真の値の意図に従って、前記トレーニングされる第２ニューラルネットワークの前記各意図カテゴリの信頼度に関する第２予測損失を決定することと、
前記第２予測損失に従って、前記トレーニングされる第２ニューラルネットワークのネットワークパラメータを調整して、前記第２ニューラルネットワークを取得することと、を含む、
請求項８ないし１０のいずれか一項に記載の軌道予測方法。

【請求項12】

軌道予測装置であって、
対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定するように構成される、意図決定モジュールであって、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、所定の期間の異なる時点での前記対象の姿勢情報であり、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の向き情報を含む、意図決定モジュールと、
前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定するように構成される、将来軌道決定モジュールと、を備える、前記軌道予測装置。

【請求項13】

コンピュータ実行可能命令を記憶する、コンピュータ記憶媒体であって、当該コンピュータ実行可能命令が実行された後、請求項１ないし１１のいずれか一項に記載の軌道予測方法を実現することができる、前記コンピュータ記憶媒体。

【請求項14】

メモリとプロセッサとを備える、コンピュータ機器であって、前記メモリにコンピュータ実行可能命令が記憶され、前記プロセッサは、前記メモリ内のコンピュータ実行可能命令を実行するとき、請求項１ないし１１のいずれか一項に記載の軌道予測方法を実現することができる、前記コンピュータ機器。

【請求項15】

コンピュータ可読コードを含む、コンピュータプログラムであって、前記コンピュータ可読コードが、電子機器で実行される場合、前記電子機器のプロセッサは、請求項１ないし１１のいずれか一項に記載の軌道予測方法を実行する、前記コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、２０２０年７月３１日に中国特許局に提出された、出願番号が２０２０１０７６３４０９．４であり、出願人がセンスタイムグループ株式会社および本田技研工業株式会社であり、発明の名称が「軌道予測方法、装置、機器および記憶媒体」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容は、引用によって本願に組み込まれる。

【0002】

本発明の実施例は、スマート運転技術分野に関し、軌道予測方法、装置、機器、記憶媒体およびプログラムに関するが、これに限定されない。

【背景技術】

【0003】

歩行者または車両の移動軌道を予測する過程において、主に、歩行者または車両の軌道の履歴移動の内部相関が考慮され、例えば、歩行者または車両の履歴軌道位置情報を使用して、将来軌道を予測する。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明の実施例は、軌道予測方法、装置、機器、記憶媒体およびプログラムを提供する。

【課題を解決するための手段】

【0005】

本発明の実施例は、電子機器によって実行される、軌道予測方法を提供し、前記方法は、
対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定することであって、ここで、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、所定の期間の異なる時点での前記対象の姿勢情報であり、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の複数の部位の向き情報を含むことと、
前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定することと、を含む。

【0006】

対象のより豊富な入力情報を考慮することにより、対象の移動意図をより正確に決定することができ、その後、推定された移動意図、時系列位置情報および時系列姿勢情報を入力とすることに基づいて、対象の将来軌道を予測し、予測の過程で関する対象の向き情報を使用して、時系列位置情報、時系列姿勢情報および移動意図を組み合わせることを介して、且つ、対象の向き情報を考慮して、予測対象の将来軌道の精度を効果的に向上させることができる。

【0007】

本発明の実施例は、軌道予測装置を提供し、前記装置は、
対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定するように構成される、意図決定モジュールであって、ここで、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、所定の期間の異なる時点での前記対象の姿勢情報であり、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の複数の部位の向き情報を含む、意図決定モジュールと、
前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定するように構成される、将来軌道決定モジュールと、を備える。

【0008】

本発明の実施例は、コンピュータ実行可能命令を記憶する、コンピュータ記憶媒体を提供し、当該コンピュータ実行可能命令は実行された後、上記の軌道予測方法を実現することができる。

【0009】

本発明の実施例は、メモリとプロセッサとを備える、コンピュータ機器を提供し、前記メモリには、コンピュータ実行可能命令が記憶され、前記プロセッサは、前記メモリ内のコンピュータ実行可能命令を実行するとき、上記の軌道予測方法を実現することができる。

【0010】

本発明の実施例は、さらに、コンピュータ可読コードを含む、コンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器のプロセッサは、上記の軌道予測方法を実現するために実行する。

【発明の効果】

【0011】

本発明の実施例は、軌道予測方法、装置、機器、記憶媒体およびプログラムを提供し、対象の時系列位置情報および時系列姿勢情報を入力として使用して、対象の移動意図を推定し、このようにして、対象のより豊富な入力情報を考慮することにより、対象の移動意図をより正確に決定することができ、その後、推定された移動意図、時系列位置情報および時系列姿勢情報を入力とすることに基づいて、対象の将来軌道を予測し、予測の過程で関する対象の向き情報を使用して、時系列位置情報、時系列姿勢情報および移動意図を組み合わせることを介して、且つ、対象の向き情報を考慮して、予測対象の将来軌道の精度を効果的に向上させることができる。

【0012】

上記した一般的な説明及び後述する詳細な説明は、単なる例示及び説明に過ぎず、本発明の実施例を限定するものではないことを理解されたい。以下、図面を参照した例示的な実施例に対する詳細な説明によれば、本発明の他の特徴および態様は明らかになる。

【図面の簡単な説明】

【0013】

【図1】本発明の実施例の軌道予測方法の実現プロセスの概略図である。

【図2】本発明の実施例の軌道予測方法を適用できるシステムアーキテクチャの概略図である。

【図3A】本発明の実施例の軌道予測方法の別の実現プロセスの概略図である。

【図3B】本発明の実施例の軌道予測方法の別の実現プロセスの概略図である。

【図4A】本発明の実施例のデータセット内の対象分布および各対象タイプの意図分布の概略図である。

【図4B】本発明の実施例のデータセット内の対象分布および各対象タイプの別の意図分布の概略図である。

【図4C】本発明の実施例のデータセット内の対象分布および各対象タイプのさらに別の意図分布の概略図である。

【図4D】本発明の実施例のデータセット内の対象分布および各対象タイプのさらに別の意図分布の概略図である。

【図5】本発明の実施例による軌道予測システムのフレームワークの概略図である。

【図6】本発明の実施例の軌道予測方法の実現フレームワークの構造図である。

【図7】本発明の実施例の軌道予測装置の例示的な構造構成図である。

【図8】本発明の実施例のコンピュータ機器の構成の例示的な構造図である。

【発明を実施するための形態】

【0014】

ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示すものであり、明細書とともに本発明の実施例の技術的解決策を説明するために使用される。

【0015】

本発明の実施例の目的、技術的解決策及び利点をより明確にするために、以下は、本発明の実施例における図面を参照して、発明の具体的な技術的解決策をさらに詳細に説明する。以下の実施例は、本発明を説明するために使用されるが、本発明の範囲を制限するものではない。

【0016】

本実施例は、コンピュータ機器に適用される軌道予測方法を提案し、前記コンピュータ機器は、対象または非対象を含み得、当該方法によって実現される機能は、コンピュータ機器内のプロセッサが、プログラムコードを呼び出すことにより実現でき、もちろん、プログラムコードは、コンピュータ記憶媒体に保存でき、これから分かるように、当該コンピュータ機器は、少なくともプロセッサと記憶媒体を備える。

【0017】

図１は、本発明の実施例の軌道予測方法の実現プロセスの概略図であり、図１に示されたように、図１に示される方法を参照して説明する。

【0018】

ステップＳ１０１において、対象の時系列位置情報および時系列姿勢情報に従って、対象の移動意図を決定する。

【0019】

本発明のいくつかの実施例において、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、所定の期間における異なる時点での前記対象の姿勢情報である。ここで、対象は、歩行者または自転車に乗る人などの人体対象を含む交通環境内の移行可能な対象である。非人体対象も含み、前記非人体対象は、様々な機能を備えた車両（トラック、自動車、オートバイ、自転車など）、様々な輪数の車両（四輪車、二輪車など）および、ロボット、航空機、ブラインドガイドデバイス、スマートトイ、トイ自動車などの任意の移動可能な機器のうち少なくとも１つを含むがこれに限定されない。対象が、人体対象を含む場合、異なる時点での姿勢情報は、前記異なる時点での前記人体対象の１つまたは複数の部位の向き情報を含む。所定の期間内の異なる時点で、対象の１つまたは複数の異なる部位の向き情報および位置情報を考慮することにより、対象の移動意図を推定して、予測される移動意図の精度を提供することができる。

【0020】

ステップＳ１０２において、前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定する。

【0021】

本発明のいくつかの実施例において、移動意図は、対象の将来の期間内の移動傾向であり、例えば、対象が歩行者であれば、移動意図は、将来の期間内に信号機を通過することを意図するかどうか、または直進することを意図するかどうか等である。時系列位置情報、前記時系列姿勢情報および前記移動意図を組み合わせて、１つの全体として、ニューラルネットワークに入力して、対象の将来軌道を予測する。例えば、時系列位置情報および時系列姿勢情報を、所定の方式に応じて繋ぎ合わせて、融合特徴として使用し、当該融合特徴および移動意図を共同に参照して、対象の将来軌道を予測する。

【0022】

本発明の実施例において、対象の時系列位置情報および時系列姿勢情報を学習モデルの入力として使用して、歩行者の意図（例えば、道を横断することを意図するかどうかなど）を推定して、このようにして、移動対象のより豊富な時系列位置情報および時系列姿勢情報を考慮することにより、移動対象の移動意図をより正確に決定することができる。その後、推定された対象意図および学習モデルの出力に基づいて、対象の将来軌道を予測し、さらに、対象の意図を推定するときに、対象の複数の部分のそれぞれの方向に関する時間シーケンス情報を使用する。このようにして、位置および姿勢の時間シーケンス情報および移動意図を組み合わせることを介して、移動対象の将来軌道を予測し、それにより、将来軌道を予測する精度を効果的に向上させることができる。

【0023】

図２は、本発明の実施例の軌道予測方法を適用できるシステムアーキテクチャの概略図を示し、図２に示されたように、当該システムアーキテクチャは、取得端末２０１、ネットワーク２０２および軌道予測端末２０３を備える。一例示的な適用を支持するために、取得端末２０１および軌道予測端末２０３が、ネットワーク２０２を介して通信接続を確立するとき、取得端末２０１は、ネットワーク２０２を介して、軌道予測端末２０３に対象の時系列位置情報および時系列姿勢情報を報告する。軌道予測端末２０３は、対象の時系列位置情報および時系列姿勢情報に応答して、まず、対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定し、その後、前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定する。同時に、軌道予測端末２０３は、対象の将来軌道をネットワーク２０２にアップロードし、ネットワーク２０２を介して取得端末２０１に送信する。

【0024】

一例として、取得端末２０１は、画像収集機器を備えることができ、軌道予測端末２０３は、視覚情報処理機能を備える視覚処理機器または遠隔サーバを備えることができる。ネットワーク２０２は、有線または無線の接続方式を採用することができる。ここで、軌道予測端末２０３が、視覚処理機器である場合、取得端末２０１は、バスを介してデータ通信を実行するなど、有線接続の方式を介して、視覚処理機器と通信接続することができ、軌道予測端末２０３が、遠隔サーバである場合、取得端末２０１は、無線ネットワークを介して、遠隔サーバとデータ対話を実行することができる。

【0025】

または、いくつかのシナリオにおいて、取得端末２０１が、ビデオ収集コンポーネントを備える視覚処理機器であり得る場合、カメラを備えるコンソールであり得る。この場合、本発明の実施例の軌道予測方法は、取得端末２０１によって実行されることができ、上記のシステムアーキテクチャは、ネットワーク２０２および軌道予測端末２０３を含まなくてもよい。

【0026】

本発明のいくつかの実施例において、地図情報を位置情報および姿勢情報に融入して、移動意図を予測して、予測の精度を向上させることができる。ステップＳ１０１は、以下のステップを介して実現でき、図３Ａに示されたように、図３Ａを参照して次のように説明する。

【0027】

ステップＳ１１において、前記時系列位置情報および前記時系列姿勢情報に従って、前記対象が配置されている環境の環境情報を取得する。

【0028】

本発明のいくつかの実施例において、前記環境情報は、少なくとも、道路情報、歩行者情報または信号機情報のうちの少なくとも１つを含む。対象の時系列位置情報および時系列姿勢情報内の向き情報を参照することにより、世界地図をインターセプトして、対象が配置されている環境のローカル地図領域を取得し、それにより、当該対象のローカル地図情報を取得して、当該ローカル地図情報を前記環境情報に決定する。履歴時刻における対象の時系列位置情報および時系列姿勢情報は、まず、現在の時刻からの期間が、所定の期間の少なくとも２つの履歴時刻より小さいか等しいと決定し、その後、少なくとも２つの履歴時刻における前記対象の時系列位置情報および時系列姿勢情報を取得する過程を介して取得することができる。取得されるのは、現在の時刻からの期間が所定の期間より小さい、複数の履歴時刻の時系列位置情報および時系列姿勢情報であることを理解できる。このようにして、異なる履歴時刻における時系列位置情報および時系列姿勢情報を取得して、将来軌道の入力情報として使用することにより、予測された将来軌道の精度を向上させることができる。

【0029】

本発明のいくつかの実施例において、現在の時刻が、１０：０５：２０であり、現在の時刻から５秒以内の対象の時系列位置情報および時系列姿勢情報を取得し、即ち、１０：０５：１５ないし１０：０５：２０間の対象の時系列位置情報および時系列姿勢情報を取得する。ここで、時系列位置情報および時系列姿勢情報は、対象の属性に関連する。例えば、対象が、歩行者または自転車に乗る人であり、時系列位置情報および時系列姿勢情報は、少なくとも、人の時系列位置情報、体の向きおよび顔の向きを含み、この履歴期間の間、一グループの時系列位置情報および時系列姿勢情報を１秒ごとに取得すると仮定し、例えば、前記時系列位置情報および前記時系列姿勢情報が、対象の体の向き、顔の向きおよび前記対象の配置されている位置を含む場合、各時刻ポイントの対象の体の向き、顔の向きおよび前記対象の配置されている位置を決定する。例えば、時刻１０：０５：１５ないし１０：０５：２０で、一グループの時系列位置情報および時系列姿勢情報を１秒ごとに取得し、即ち、５個の時刻ポイントの距離があると、５グループの対象の体の向き、顔の向きおよび前記対象の配置されている位置を決定する。

【0030】

本発明のいくつかの実施例において、対象が、車両などの移動機器である場合、時系列位置情報および時系列姿勢情報は、少なくとも、当該移動機器の時系列位置情報、機器の頭向きおよび前記移動機器の走行指示情報を含む。車両を例として説明すると、時系列位置情報および時系列姿勢情報は、車両の時系列位置、車両フロントの向きおよび車両の走行指示情報を含み、ここで、走行指示情報は、走行方向、走行速度およびライト状態（例えば、方向指示灯の状態）などのうちの少なくとも１つを含むがこれに限定されない。このようにして、取得されたこれらの豊富な時系列位置情報および時系列姿勢情報を、世界地図をインターセプトするための基礎として、対象が配置されている環境の環境情報を取得する。つまり、環境情報は、時系列位置情報および時系列姿勢情報内の対象の位置情報および対象の向き情報を介して、世界地図をインターセプトして、当該対象の現在位置しているローカル地図内の道路構造、歩道情報および道路上の信号機情報などを決定することであり得、このようにして、対象の豊富な時系列位置情報および時系列姿勢情報を取得することにより、対象の現在位置している道路構造などの環境情報を予測して、地図分割の精度を向上させることができる。観測点が少ない場合でも（観測データが一フレームしかない場合でも）、依然として、合理的な予測結果を与えることができる。

【0031】

ステップＳ１２において、前記環境情報、前記時系列位置情報および時系列姿勢情報を融合して、融合特徴を取得する。

【0032】

本発明のいくつかの実施例において、対象の時系列位置情報および時系列姿勢情報を取得した後、時系列位置情報および時系列姿勢情報内の各特徴に対して独立した時間モデリングを実行する。例えば、人体を例として説明すると、時系列位置情報および時系列姿勢情報は、体の向き、顔の向きおよび対象の位置を含み、体の向き、顔の向きおよび対象の位置を、３つの独立した第１ニューラルネットワークに別々に入力して、体の向き、顔の向きおよび対象の位置の時間的変化状況を表すための時系列位置情報および時系列姿勢情報をそれぞれ取得し、時系列位置情報および時系列姿勢情報を第２ニューラルネットワークに入力して、調整された時系列位置情報および調整された時系列姿勢情報を取得し、複数の異なる距離を第３ニューラルネットワーク（例えば、全結合モデル）に入力して、当該距離での体の向き、顔の向きおよび対象の位置に対応する重みを取得し、当該重みと、調整された時系列位置情報および調整された時系列姿勢情報を乗算して、乗算結果を取得し、乗算結果を、ローカル地図領域をエンコードした後に取得された環境情報と繋ぎ合わせて、融合特徴を取得する。

【0033】

本発明のいくつかの実施例において、時系列位置情報、時系列姿勢情報および環境情報は、同じ時点で取得される。例えば、すべて、履歴期間内の５つの時点に対することであるため、乗算結果を、ローカル地図領域をエンコードした後に取得された環境情報と繋ぎ合わせることは、乗算結果を表す行列と環境情報を表す行列を、行または列に応じて繋ぎ合わせて、１つの行列を組み合わせ、即ち、融合特徴を取得する方式を介して実現できる。乗算結果を表す行列が、３行５列の行列であり、環境情報を表す行列が、６行５列の行列であると、２つの行列を列に応じて繋ぎ合わせて、９行５列の行列を取得し、即ち、融合特徴を取得する。

【0034】

ステップＳ１３において、融合特徴に従って、対象の移動意図を決定する。

【0035】

本発明のいくつかの実施例において、移動意図は、移動過程における対象の移動傾向として理解でき、対象が、人体対象を含む場合、意図分類は、左折、右折、直進、静止、方向転換、加速、減速、道路の横断、赤信号の待機および後ろ向きの歩きなどのうちの１つまたは複数を含むがこれに限定されない。対象が、非人体対象を含む場合、意図分類は、左折、右折、直進、静止、左車線変更、右車線変更、加速、減速、追い越し、後進および赤信号の待機などのうちの１つまたは複数を含むがこれに限定されない。

【0036】

本発明のいくつかの実施例において、全結合層ネットワークを採用して融合特徴をデコードすることにより、当該融合特徴が、所定のカテゴリライブラリ内の各カテゴリである確率を取得し、確率が最も大きいカテゴリを、当該融合特徴の最も可能性の高いカテゴリとして使用し、このような最も可能性の高いカテゴリに基づいて、対象の移動意図を予測することにより、予測意図の精度を向上させることができる。

【0037】

対応的に、本発明の実施例において、ステップＳ１０２は、以下の方式で実現できる。

【0038】

ステップＳ１４において、前記融合特徴および前記移動意図に従って、前記対象の将来軌道を決定する。

【0039】

本発明のいくつかの実施例において、融合特徴および移動意図を介して、対象の将来の期間内の将来軌道を予測することができ、さらに、対象の移動意図を予測しなく、第１ニューラルネットワークのみを使用して、融合特徴を複数回反復して、将来の期間内の対象の将来軌道を予測することができる。例えば、第２調整時系列位置情報および時系列姿勢情報をデコードして、予測される対象の将来軌道を取得することができ、このように複数の時系列位置情報および時系列姿勢情報を介して軌道予測を実行することにより、観測点が少ない場合でも（観測データが一フレームしかない場合でも）、または対象が、急加速、急減速、急旋回などのシナリオでも、将来軌道予測の精度を保証することができる。

【0040】

本発明の実施例において、地図情報を時系列位置情報および時系列姿勢情報に融入して、移動意図を予測して、移動意図に対する予測の精度を向上させることができ、その後、当該移動意図に基づいて、対象の将来軌道を予測することにより、軌道予測の精度を向上させることができる。

【0041】

いくつかの実施例において、将来軌道を予測する入力情報の豊富さを向上させるために、対象の位置情報および対象の向き情報を介して、世界地図をインターセプトして、対象の現在の環境のローカル地図領域を決定することができ、即ち、ステップＳ１１は、以下の過程を介して実現できる。

【0042】

ステップＳ１１１において、履歴時刻における対象の位置情報および向き情報に従って、世界地図をインターセプトして、対象が配置されている環境のローカル地図領域を取得する。

【0043】

本発明のいくつかの実施例において、時系列姿勢情報内の向き情報および位置情報は、対になって表示され、即ち、ある履歴時刻で対象の位置情報、および当該位置での向き情報を決定する。例えば、対象が、人体（例えば、歩行者または自転車に乗る人）であると、人の位置情報および人の体の向きに従って、人が位置する現在の道路構造を決定し、それにより、世界地図をインターセプトして、歩行者の現在位置するローカル地図領域を決定する。対象が、車両などの移動機器であると、車両の位置情報および車両フロントの向きに従って、車両の配置されている現在の道路を決定し、それにより、世界地図をインターセプトして、車両の現在位置するローカル地図領域を決定する。

【0044】

本発明のいくつかの実施例において、履歴時刻が複数であるため、各履歴時刻の時系列位置情報および時系列姿勢情報を取得した後、複数のグループの時系列位置情報および時系列姿勢情報も取得され、さらに、各グループの時系列位置情報および時系列姿勢情報に対して、すべて、対応するローカル地図領域をインターセプトすることができる。世界地図をインターセプトすることは、前記複数の時系列位置情報内の各位置および対象が当該位置に配置されているときの向きに従って、前記対象が配置されている環境のローカル地図領域を決定して、複数のローカル地図領域を取得する方式を介して実現することができる。対象が当該位置に位置するときの向きは、対象がこの位置に配置されているときの複数の部位の向きとして理解することができる。このようにして、対象が、１つの位置での複数の部位の向きを参照して、当該対象のローカル地図領域を区切り、決定された環境情報の精度を向上させ、それにより、将来軌道予測の精度を向上させることができる。

【0045】

本発明のいくつかの実施例において、前記位置情報を中心として、前記向き情報に応じて、世界地図で前記対象が配置されている環境のローカル地図領域を区切る。例えば、当該位置を中心として、向き方向に沿って、１つの長方形領域を区切って、対象が配置されている環境のローカル地図領域とする。このようにして、複数の位置および各位置での複数の向き情報は、複数のローカル地図領域を決定することができる。前記複数のローカル地図領域をエンコードして、複数のエンコードされた地図、即ち、環境情報を取得する。このようにして、位置を中心とし、向き情報を参照して、ローカル地図領域を区切って、区切ったローカル地図領域に含まれた地図情報と対象の関連性を比較的に高くし、即ち、環境情報の有効性を向上させることができる。

【0046】

ステップＳ１１２において、前記ローカル地図領域内の要素をエンコードして、前記環境情報を取得する。

【0047】

本発明のいくつかの実施例において、各要素は、対応する領域の地図情報を示し、前記地図情報は、少なくとも、道路構造情報、歩道または道路信号機のうちの少なくとも１つを含む。例えば、このローカル地図領域の要素をマスクにエンコードすると、各コードワードは、対応する領域の地図情報を示す。例えば、環境情報が１と０を含む行列であり、ここで、１は、歩道を示し、０は、道路危険領域を示す。最後に、前記複数の環境情報と、対応する時系列位置情報および時系列姿勢情報を融合して、マルチグループの融合特徴を取得し、融合特徴を分類することにより、対象の移動意図を予測する。

【0048】

本発明のいくつかの実施例において、第１ニューラルネットワークの構造は限定されなく、畳み込みニューラルネットワーク、長短期記憶ネットワーク（ＬＳＴＭ：ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）などを含むがこれに限定されない。以下は、ＬＳＴＭを例として説明する。複数の履歴時刻の時系列位置情報および時系列姿勢情報（例えば、対象が歩行者であることを例として、複数の体の向き、複数の顔の向きおよび対象の配置されている複数の位置をそれぞれ）双方向ＬＳＴＭネットワークに入力して、それぞれ、これらの時系列位置情報および時系列姿勢情報の時間上の変化状況を表す時系列位置情報および時系列姿勢情報を取得し、時系列位置情報および時系列姿勢情報を別の双方向ＬＳＴＭネットワークに入力して、出力結果を取得し、前記距離を全結合モデルに入力して、当該距離での体の向き、顔の向きおよび対象の位置に対応する重みを取得し、当該重みを、調整された時系列位置情報および時系列姿勢情報と乗算して、複数の乗算結果を取得する。その後、複数の乗算結果を複数のエンコードされた地図と繋ぎ合わせて、融合特徴を形成し、最後に、融合特徴をデコードおよび分類して、対象の移動意図を予測し、または、ＬＳＴＭネットワークを使用して、融合特徴を複数回反復し、毎回の反復によって取得された座標を予測することにより、将来の期間内の対象の将来軌道を取得する。このようにして、世界地図をインターセプトすることにより、ローカル地図領域を取得し、そのうちの道路情報をエンコードし、それにより、地図情報を、後続の融合特徴に対して使用して、将来軌道を予測するための入力情報の豊富さを向上させる。

【0049】

本発明の実施例において、対象の位置および向きに従って、対象のローカル地図領域を区切り、当該ローカル地図領域に対してマスクエンコードを実行して、環境情報を取得し、各コードワードは、当該領域の地図情報を示す。このようにして、対象の時系列位置情報および時系列姿勢情報とエンコードされた地図を組み合わせて、対象の意図を予測し、さらに、対象の将来軌道を予測して、取得される将来軌道の精度を向上させることができる。

【0050】

いくつかの実施例において、抽出された対象の時系列位置情報および時系列姿勢情報に対して、それぞれタイミングモデリングを実行して、各時系列位置情報および時系列姿勢情報のタイミング上の変化状況を取得し、その後、各時系列位置情報および時系列姿勢情報における時系列位置情報、時系列姿勢情報、環境情報と融合して、融合特徴を取得し、即ち、ステップＳ１２は、以下の過程を介して実現することができる。図３Ｂに示されたように、図３Ｂは、本発明の実施例の軌道予測方法の別の実現プロセスの概略図であり、図３Ａおよび図３Ｂ示されるステップを参照して説明する。

【0051】

ステップＳ２０１において、第１ニューラルネットワークを介して、前記時系列位置情報および時系列姿勢情報に従って、将来の期間内の時系列位置情報および時系列姿勢情報を予測する。

【0052】

本発明のいくつかの実施例において、履歴期間内の時系列位置情報および時系列姿勢情報を、第１ニューラルネットワークの入力として、将来の時系列位置情報および時系列姿勢情報を予測する。ステップＳ２０１は、以下の過程を介して実現することができる。

【0053】

まず、各履歴時刻の時系列位置情報および時系列姿勢情報（即ち、複数の時系列位置情報および時系列姿勢情報）に対して、時間順序に応じて配列し、その後、配列された複数の時系列位置情報および時系列姿勢情報を、第１ニューラルネットワークに入力して、複数の時系列位置情報および時系列姿勢情報を取得する。ここで、第１ニューラルネットワークは、双方向ＬＳＴＭネットワークであり得、第１ニューラルネットワークの数は、時系列位置情報および時系列姿勢情報に含まれるタイプとマッチングする。例えば、対象が歩行者であり、時系列位置情報および時系列姿勢情報は、対象の体の向き、顔の向きおよび前記対象の位置を含むと、第１ニューラルネットワークは、３つの独立した双方向ＬＳＴＭネットワークである。対象が車両であり、時系列位置情報および時系列姿勢情報は、対象の車両フロントの向き、ライト状態および対象の位置を含むと、第１ニューラルネットワークは、３つの独立した双方向ＬＳＴＭネットワークである。

【0054】

本発明のいくつかの実施例において、複数の時系列位置情報および時系列姿勢情報を当該双方向ＬＳＴＭネットワークに入力して、対応する時系列位置情報および時系列姿勢情報を取得する。例えば、対象が歩行者であると、異なる時刻での歩行者の体の向き、顔の向きおよび前記歩行者の位置を、３つの独立した双方向ＬＳＴＭネットワークにそれぞれ入力して、異なる時刻の体の向きに対応する複数の時系列位置情報および時系列姿勢情報（体の向きの時間上の変化状況を表す）、異なる時刻の顔の向きに対応する複数の時系列位置情報および時系列姿勢情報（顔の向きの時間上の変化状況を表す）および、異なる時刻の歩行者の位置に対応する複数の時系列位置情報および時系列姿勢情報（対象の位置の時間上の変化状況を表す）をそれぞれ取得する。

【0055】

本発明のいくつかの実施例において、対象が車両であると、異なる時刻における車両フロントの向き、ライト状態および車両の位置を３つの独立した双方向ＬＳＴＭネットワークにそれぞれ入力して、異なる時刻の車両フロントの向きに対応する複数の時系列位置情報および時系列姿勢情報（車両フロントの向きの時間上の変化状況を表す）、異なる時刻のライト状態に対応する複数の時系列位置情報および時系列姿勢情報（ライト状態の時間上の変化状況を表す）および、異なる時刻の車両の位置に対応する複数の時系列位置情報および時系列姿勢情報（車両の位置の時間上の変化状況を表す）をそれぞれ取得する。

【0056】

本発明のいくつかの実施例において、当該第１ニューラルネットワークは、トレーニングされたニューラルネットワークであり、以下の方式を採用してトレーニングして得られることができる。

【0057】

まず、前記履歴時刻における対象の時系列位置情報および時系列姿勢情報を、トレーニングされる第１ニューラルネットワークに入力して、前記将来の期間内の前記対象の時系列位置情報および時系列姿勢情報を予測する。

【0058】

本発明のいくつかの実施例において、履歴時刻における対象の時系列位置情報および時系列姿勢情報を第１ニューラルネットワークの入力として、各グループの時系列位置情報および時系列姿勢情報に基づいて、当該対象の将来の期間内に対応する予測時系列位置情報および時系列姿勢情報を予測して、予測された時系列位置情報および時系列姿勢情報を取得する。いくつかの実施例において、ここでの対象は、所定のデータセットのサンプル画像内の歩行者または動物などのようなサンプル対象として理解することができる。前記所定のデータセットには、少なくとも、サンプル画像内のサンプル対象の時系列位置情報および時系列姿勢情報が含まれる。例えば、サンプル対象が歩行者であることを例として説明すると、当該所定のデータセットは、少なくとも、サンプル画像内のサンプル対象の体の向き、顔の向きまたは前記サンプル対象の位置を含む。このようにデータセットの規模が大きく、且つ、より豊富な時系列位置情報および時系列姿勢情報を含むデータセットから、履歴時刻における対象の時系列位置情報および時系列姿勢情報を取得することにより、取得されたサンプルデータの豊富さを向上させることができる。

【0059】

次に、前記将来の期間内の時系列位置情報、時系列姿勢情報を、前記対象が配置されている環境の環境情報と融合して、融合予測特徴を取得する。

【0060】

本発明のいくつかの実施例において、トレーニングされる第１ニューラルネットワークによって予測された時系列位置情報および時系列姿勢情報を環境情報と融合して、融合予測特徴を取得する。

【0061】

次に、少なくとも融合予測特徴に従って、将来の期間内の対象の軌道を予測する。

【0062】

本発明のいくつかの実施例において、当該第１ニューラルネットワークを使用して、融合予測特徴を反復し、それにより、将来の期間内の対象の軌道を予測する。または、融合予測特徴に対して、トレーニングされた全結合ネットワークを使用して分類して、対象の移動意図を予測し、移動意図と融合予測特徴を組み合わせて、対象の将来軌道を予測する。

【0063】

さらに、対象の真の値の軌道に従って、トレーニングされる第１ニューラルネットワークの将来軌道に関する第１予測損失を決定する。

【0064】

本発明のいくつかの実施例において、第１ニューラルネットワーク、将来軌道および対象の真の値の軌道に従って、第１予測損失を決定する。例えば、第１予測損失は、少なくとも、長さが所定の閾値より長い将来軌道の平均予測失敗回数、異なる距離に対応する誤差閾値における将来軌道の成功率または将来軌道の終点位置と、真の値の軌道の終点位置との誤差のうちの少なくとも１つを含む。ここで、長さが所定の閾値より長い将来軌道の平均予測失敗回数は、軌道長さが所定の閾値より長い将来軌道（例えば、将来５秒の将来軌道を予測する）に対して、当該将来軌道のうちの各時刻ポイントをすべて予測し、当該時刻の前５秒の履歴軌道を入力として、将来５秒の将来軌道を予測すると、当該移動の軌道予測は、複数回実行する必要があり、それにより、複数回予測した結果を取得し、複数回予測した結果のうちの失敗回数を統計し、その後、当該失敗回数を当該将来軌道の長さで除算して、正規化を実現し、軌道長さが所定の閾値より長い将来軌道が複数あるため、各軌道の予測失敗の回数を当該将来軌道の長さで除算して、複数の正規化値を取得し、最後に、これらの複数の正規化値を平均して、各軌道の平均失敗予測回数を取得すること、として理解することができる。

【0065】

異なる距離に対応する誤差閾値での予測された将来軌道の成功率は、異なる距離に対して、異なる誤差閾値を事前に設定することとして理解することができる。例えば、距離が大きいほど、設定された誤差閾値も大きく、ある距離で、取得された将来軌道の誤差が、誤差閾値より小さい場合、今回の予測に成功したと決定する。このようにして、予測された将来軌道の異なる誤差閾値でのパフォーマンスを特徴付けて、これに基づいて、ニューラルネットワークの詳細な効果を向上させることができる。

【0066】

将来軌道の終点位置と真の値の軌道の終点位置との誤差は、将来軌道の終了と真の値の軌道の終了との差として理解することができる。

【0067】

最後に、第１予測損失に従って、第１ニューラルネットワークのネットワークパラメータを調整して、前記第１ニューラルネットワークをトレーニングする。

【0068】

本発明のいくつかの実施例において、第１予測損失を直接に使用して、ネットワークパラメータを調整することができる。例えば、長さが所定の閾値より長い予測された将来軌道の平均予測失敗回数、予測された将来軌道の異なる距離に対応する誤差閾値での成功率または将来軌道の終点位置と真の値の軌道の終点位置との誤差のうちの少なくとも１つを採用して、ネットワークパラメータを調整する。本発明の実施例において、豊富な情報をトレーニングサンプルとして使用することにより、トレーニングして得られた第１ニューラルネットワークの性能を向上させる。

【0069】

上記の参照調整過程は、以下の方式を介して実現することができる。まず、前記成功率と前記平均予測失敗回数のサイズ状況を判断し、前記成功率が、前記平均予測失敗回数より小さい場合、今回の将来軌道の予測に失敗したと決定し、その後、前記平均位置誤差、前記平均予測失敗回数、前記成功率または前記誤差のうちの少なくとも１つを使用して、前記ニューラルネットワークのネットワークパラメータを調整する。このように、複数の評価基準を介して、トレーニング過程のうちの予測される将来軌道を評価し、それにより、ニューラルネットワークのネットワークパラメータをより正確に調整して、調整された第１ニューラルネットワークによって予測される将来軌道の精度がより高くなる。

【0070】

ステップＳ２０２において、前記将来の期間内の時系列位置情報、時系列姿勢情報および前記環境情報を、所定の方式に従って繋ぎ合わせて、前記融合特徴を取得する。

【0071】

本発明のいくつかの実施例において、時系列位置情報および時系列姿勢情報と、対応するローカル地図は、一グループの時系列位置情報および時系列姿勢情報に属する時系列位置情報および時系列姿勢情報と、この一グループの時系列位置情報および時系列姿勢情報内の位置情報および向き情報に従ってインターセプトしたローカル地図として理解されることができる。複数の時系列位置情報および時系列姿勢情報を、ローカル地図と一対一に対応させ、所定の方式に従って繋ぎ合わせて、融合特徴を取得し、前記所定の方式は、時系列位置情報および時系列姿勢情報をニューラルネットワークに入力する順序に応じて、時系列位置情報および時系列姿勢情報と、対応するローカル地図を繋ぎ合わせることであり得る。例えば、対象が、歩行者または非モーター車両に乗る人であることを例として、この３つの時系列位置情報および時系列姿勢情報を、歩行者の体の向き、顔の向きおよび前記対象の位置の順序に応じて、ニューラルネットワーク（例えば、ＬＳＴＭネットワーク）に順次に入力し、そうすると、歩行者の体の向き、顔の向きから歩行者の位置への順序に応じて、時系列位置情報および時系列姿勢情報と、対応するローカル地図を繋ぎ合わせて、融合特徴を取得する。その後、全結合ネットワークを使用して前記融合特徴をデコードして、歩行者の移動意図、即ち、歩行者が、左折、右折、直進、静止または方向転換などをしようとするかどうかを予測する。

【0072】

本発明のいくつかの実施例において、対象が、車両などの移動機器である場合、時系列位置情報および時系列姿勢情報は、車両フロントの時系列位置情報および時系列姿勢情報、位置時系列位置情報および時系列姿勢情報および、ライト状態時系列位置情報および時系列姿勢情報を含み、この３つの時系列位置情報および時系列姿勢情報を、車両フロントの時系列位置情報および時系列姿勢情報、位置時系列位置情報および時系列姿勢情報、およびライト状態時系列位置情報および時系列姿勢情報の順序に応じて、ニューラルネットワーク（例えば、ＬＳＴＭネットワーク）に順次に入力すると、車両フロントの時系列位置情報および時系列姿勢情報、位置時系列位置情報および時系列姿勢情報からライト状態時系列位置情報および時系列姿勢情報の順序に応じて、時系列位置情報および時系列姿勢情報と、対応するローカル地図を繋ぎ合わせて、融合特徴を取得する。その後、全結合ネットワークを使用して、前記融合特徴をデコードして、車両の移動意図、即ち、車両が、左折、右折、直進、静止、左車線変更、右車線変更、追い越しまたは後進などをしようとするかどうかを予測する。

【0073】

上記のステップＳ２０１およびステップＳ２０２は、「前記環境情報と前記時系列位置情報および前記時系列姿勢情報を融合して、融合特徴を取得する」ことを実現する方式を提供し、当該方式において、時系列位置情報および時系列姿勢情報をニューラルネットワークに入力する順序に応じて、時系列位置情報および時系列姿勢情報を環境情報とするローカル地図を融合することにより、ローカル地図領域を分割する精度を向上させることができる。

【0074】

ステップＳ２０３において、第２ニューラルネットワークを介して、前記融合特徴が、意図カテゴリライブラリのうちの各意図カテゴリの信頼度であることを決定する。

【0075】

本発明のいくつかの実施例において、第２ニューラルネットワークは、全結合ネットワークであり得、融合特徴を分類するために使用される。例えば、全結合ネットワークを使用して、融合特徴が、意図カテゴリライブラリ内の各意図カテゴリである可能性を予測して、各意図カテゴリの信頼度を取得することができる。本発明のいくつかの実施例において、対象が歩行者であることを例として、対応する意図カテゴリライブラリは、左折、右折、直進、静止または方向転換などを含み、全結合ネットワークを使用して、融合特徴が、左折、右折、直進、静止または方向転換などのうちの各意図カテゴリである可能性がある信頼度、例えば、各意図カテゴリの確率を予測する。

【0076】

本発明のいくつかの実施例において、当該第２ニューラルネットワークは、トレーニングされたニューラルネットワークであり、以下の方式を採用してトレーニングして得られることができる。

【0077】

まず、前記融合特徴を、トレーニングされる第２ニューラルネットワークに入力して、前記対象の移動意図が、意図カテゴリライブラリのうちの各意図カテゴリである信頼度を予測する。

【0078】

例えば、トレーニングされる第２ニューラルネットワークは、トレーニングされる全結合ネットワークであり得、融合特徴を、トレーニングされる第２ニューラルネットワークに入力して、当該対象の移動意図が、カテゴリライブラリ内の各カテゴリである確率を予測する。ここで、対象は、サンプル対象であり得、サンプル対象の融合特徴を、トレーニングされる第２ニューラルネットワークに入力して、当該サンプル対象の移動意図を分類する。

【0079】

次に、対象の真の値の意図に従って、第２ニューラルネットワークの各意図カテゴリの信頼度に関する第２予測損失を決定する。

【0080】

ここで、第２予測損失は、分類されたクロスエントロピー損失関数であり得る。

【0081】

最後に、第２予測損失に従って、トレーニングされる第２ニューラルネットワークのネットワークパラメータを調整して、トレーニングされる第２ニューラルネットワークをトレーニングして、第２ニューラルネットワークを取得する。

【0082】

例えば、分類されたクロスエントロピー損失関数を採用して、トレーニングされる第２ニューラルネットワークのネットワークパラメータを調整して、トレーニングされる第２ニューラルネットワークをトレーニングして、トレーニングされた第２ニューラルネットワークを取得する。

【0083】

すべての将来軌道予測システムにとって、損失関数は、第１予測損失と第２予測損失との合計である。このようにして、前記将来の期間における対象の将来の時系列位置情報および時系列姿勢情報を融合し、融合特徴を第２ニューラルネットワークをトレーニングするサンプルとすることにより、トレーニングして得られた第２ニューラルネットワークの分類性能を向上させる。

【0084】

ステップＳ２０４において、最も高い信頼度を有する意図カテゴリに従って、対象の移動意図を決定する。

【0085】

本発明のいくつかの実施例において、確率の最も大きいカテゴリを選択し、確率の最も大きいカテゴリを対象の移動意図に決定する。例えば、全結合ネットワークを使用して、融合特徴が、左折、右折、直進、静止または方向転換などの各カテゴリである可能性がある確率が、それぞれ、０．１、０．２、０．２、０．１および０．４であると予測すると、確率の最も大きいカテゴリは、方向転換であり、当該対象は、最も可能性の高い移動意図は、方向転換であることを示し、最終的に、決定対象の移動意図は、方向転換である。このようにして、ニューラルネットワークを使用して、融合特徴に対して意図カテゴリの分類を実行することにより、最も可能性の高い移動意図を正確に予測することができる。

【0086】

上記のステップＳ２０３およびステップＳ２０４は、「前記融合特徴に従って、前記対象の移動意図を決定うる」ことを実現する方式を提供し、当該方式において、全結合ネットワークを使用して融合特徴を分類することにより、対象の将来時刻内の移動意図を正確に予測することができる。

【0087】

ステップＳ２０５において、将来の期間の長さに従って、反復ステップサイズを決定する。

【0088】

例えば、将来の期間の長さが、３秒であると、反復ステップサイズは、０．３秒であると決定する。

【0089】

ステップＳ２０６において、前記反復ステップサイズに従って、第１ニューラルネットワークを採用して、移動意図および融合特徴を反復して、各反復ステップサイズにおける前記対象の座標を取得する。

【0090】

本発明のいくつかの実施例において、まず、当該反復ステップサイズおよび将来の期間の長さに従って、反復する必要のある回数を決定し、その後、第１ニューラルネットワークを使用して、移動意図および融合特徴を反復して、毎回の反復された座標を取得する。本発明のいくつかの実施例において、将来の期間の長さが、３秒であり、反復ステップサイズが０．３秒であると決定すると、反復する必要のある回数は、１０回であり、第１ニューラルネットワークを使用して、移動意図および融合特徴を順次に反復して、最後に、１０個の座標値を取得する。

【0091】

ステップＳ２０７において、各反復ステップサイズにおける対象の座標に従って、将来軌道を決定する。

【0092】

例えば、上記の例に基づいて、１０回の反復を実行して、１０個の座標値を取得すると、この１０個の座標値に基づいて、対象の将来軌道を推定することができる。

【0093】

本発明の実施例において、対象の意図予測および軌道予測を１つのシステムに組み合わせ、段階的に反復することにより各ステップサイズでの座標を取得して、将来軌道を予測して、最終的に予測された将来軌道の効率と予測効果を向上させることができる。

【0094】

他の実施例において、第１ニューラルネットワークを介して、時系列位置情報および時系列姿勢情報に対して時系列位置情報および時系列姿勢情報の抽出を実行した後、以下の過程をさらに含む。

【0095】

まず、他のＬＳＴＭネットワークを使用して、各時系列位置情報および時系列姿勢情報を調整して、第１調整時系列位置情報および時系列姿勢情報を取得する。

【0096】

本発明のいくつかの実施例において、時系列位置情報および時系列姿勢情報を調整するために、双方向ＬＳＴＭネットワークまたは全結合層のモデルを使用して、時系列位置情報および時系列姿勢情報内の各時系列位置情報および時系列姿勢情報を、双方向ＬＳＴＭネットワークまたは全結合層のモデルに入力して、１つの重み行列を取得し、その後、重み行列を、時系列位置情報および時系列姿勢情報のタイプと同じ部分に分けて、各部分を、それぞれ対応する時系列位置情報および時系列姿勢情報内の各時系列位置情報および時系列姿勢情報と乗算して、複数の第１調整時系列位置情報および時系列姿勢情報を取得する。例えば、対象が歩行者であることを例として説明すると、時系列位置情報および時系列姿勢情報は、対象の体の向き、顔の向きおよび前記対象の位置を含み、この３つの特徴を、３つの独立した双方向ＬＳＴＭネットワークに一対一に対応するように入力した後、３つの特徴に対応する３つの時系列位置情報および時系列姿勢情報を取得し、その後、この３つの時系列位置情報および時系列姿勢情報を、対象の体の向き、顔の向きおよび前記対象の位置の順序に応じて、第２ニューラルネットワークに順次に入力して、１つの重み行列を取得し、当該重み行列を３つの部分に分け、第１部分を、異なる時刻の時系列位置情報および時系列姿勢情報と乗算し、第２部分を異なる時刻の時系列位置情報および時系列姿勢情報と乗算し、第３部分を、異なる時刻対象の時系列位置情報および時系列姿勢情報と乗算して、３つの特徴を含む第１調整時系列位置情報および時系列姿勢情報を取得する。

【0097】

次に、各時系列位置情報および時系列姿勢情報内の位置情報を第３ニューラルネットワークに入力することにより、重みベクトルを取得し、さらに、当該重みベクトルを使用して、各第１調整時系列位置情報および時系列姿勢情報を調整して、第２調整時系列位置情報および時系列姿勢情報を取得する。

【0098】

本発明のいくつかの実施例において、全結合モデルを使用して、入力された複数の距離に対して、当該複数の位置における各タイプの時系列位置情報および時系列姿勢情報に対応する重みベクトルを出力する。さらに、取得された各タイプの時系列位置情報および時系列姿勢情報に対応する重みベクトルを、当該タイプの時系列位置情報および時系列姿勢情報に対応する第１調整時系列位置情報および時系列姿勢情報を乗算して、第２調整時系列位置情報および時系列姿勢情報を取得し、それにより、第２調整時系列位置情報および時系列姿勢情報を取得する。

【0099】

最後に、第２調整時系列位置情報および時系列姿勢情報を環境情報と繋ぎ合わせて、当該融合特徴を取得する。

【0100】

本発明のいくつかの実施例において、まず、第２調整時系列位置情報および時系列姿勢情報内の第２調整時系列位置情報および時系列姿勢情報を、前記複数エンコードされた地図と、所定の方式に応じて繋ぎ合わせて、融合特徴を取得する。例えば、対象が歩行者であることを例として、この３つの時系列位置情報および時系列姿勢情報を、歩行者の体の向き、顔の向きおよび前記対象の位置の順序に応じて、ニューラルネットワーク（例えば、ＬＳＴＭネットワーク）に順次に入力すると、取得される第２調整時系列位置情報および時系列姿勢情報もこの３つの特徴を含み、歩行者の体の向き、顔の向き、前記歩行者の位置からローカル地図の順序に応じて、第２調整時系列位置情報および時系列姿勢情報と、対応するローカル地図を繋ぎ合わせて、融合特徴を取得する。その後、全結合ネットワークを使用して前記融合特徴をデコードして、歩行者の移動意図、即ち、歩行者が、左折、右折、直進、静止または方向転換などをしようとするかどうかを予測する。

【0101】

本発明の実施例は、軌道予測方法を提供し、運転シナリオにおいて、車両、歩行者または非モーター車両は、突然の旋回、突然の左折または右折、歩くことなどの、複雑な行動を有する可能性がある。車両、歩行者または非モーター車両の履歴軌道のみでは、このような複雑な行動を容易に予測または希望することができない。同時に、センシング機能を有する自律システムは、自然により豊富な情報を抽出して、より多くの情報を決定することができる。

【0102】

本発明の実施例は、対象の向きを使用して、対象移動およびローカル地図領域を説明して、周囲の静的環境を説明する。当該位置は、水平面で、点（ｘ,ｙ）として表示されるが、対応する赤緑青（ＲＧＢ：ＲｅｄＧｒｅｅｎＢｌｕｅ）画像から体方向および面方向を抽出した後、水平面に投影して、単位ベクトル（ｄ_ｘ,ｄ_ｙ）として表示される。ローカル地図領域は、高解像度地図から取得され、横断歩道、車線、交差点または歩道などの複数の道路情報を含む。

【0103】

本発明の実施例は、データ収集車両を使用して、都市運転シナリオで対象軌道データを收集する。当該車両は、カメラ、６４ラインライダー、レーダー、全地球測位システム（ＧＰＳ：ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）または慣性測定ユニット（ＩＭＵ：Ｉｎｅｒｔｉａｌｍｅａｓｕｒｅｍｅｎｔｕｎｉｔ）を備える。本発明の実施例は、注釈された高解像度地図を使用し、センシング機能を介して、対象の将来軌道を検出、分析および追跡し生成する。本発明の実施例は、１０ヘルツ（ＨＺ）のとき、歩行者の将来軌道および元のデータを提供し、ここで、元のデータは、元の画像、点群、自車の車両姿勢および高解像度地図を含む。対象の時系列位置情報および時系列姿勢情報に対して、本発明の実施例は、第１ニューラルネットワークおよび第２ニューラルネットワーク（ここで、第１ニューラルネットワークおよび第２ニューラルネットワークは、深度ニューラルネットワークアルゴリズムのモデルを採用して実現できる）を使用して、出力を取得する。本発明の実施例による所定のデータセットは、歩行者の顔の向き、体の向きおよび歩行者の位置、ライト情報、車両フロントの向き情報などを含む。このようにして、このように豊富な情報を含むデータセットを採用して、第１ニューラルネットワークおよび第２ニューラルネットワークをトレーニングして、トレーニングされた第１ニューラルネットワークおよび第２ニューラルネットワークの一般化を向上させる。

【0104】

本発明の実施例は、１０Ｈｚの周波数で元のセンサデータを收集し、正面ＲＧＢ画像（８００×１７６２）、ＬｉＤＡＲ点群および車両の姿勢および移動情報を含む。道路構造をよりよく説明するために、本発明の実施例は、高精細鳥瞰図（ＨＤＭａｐ：ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＭａｐｓ）に道路カテゴリ（即ち、車線、交差点、横断歩道、歩道など）のセマンティック注釈を提供する。道路カテゴリは、多角形または重複領域のない線に表示される。ＨＤＭａｐは、トリミングされ、各データフレームの車両に合わせられる。センシング機能の助力を得て、検出および追跡を介して対象の実行軌道を生成することができる。本発明のいくつかの実施例において、より適した密度を得るために、軌道をフレームあたり０．３秒にサンプリングする。本発明の実施例は、１２０００分を超える元のデータを收集し、車両、歩行者および自転車に乗る人のために、３０００００以上の異なる軌道をサンプリングする。

【0105】

交通シナリオに対する全体的な説明を構築するために、本発明の実施例は、收集された軌道内の対象のために、セマンティック属性および意図を手動で注釈した。本発明の実施例は、その機能をよりよく捕捉するために、各対象カテゴリに異なる属性設定を使用する。本発明のいくつかの実施例において、歩行者および自転車に乗る人などの脆弱な道路使用者（ＶＲＵ：ＶｕｌｎｅｒａｂｌｅＲｏａｄＵｓｅｒｓ）に対して、本発明の実施例は、年齢（成人／少年）、性別（女性／男性）、顔の向き（角度）および体の向きを示し、車両に対して、本発明の実施例は、方向指示灯状態（左折／右折／ブレーキ）および前進方向を注釈する。意図は、対象が、観察点の特定の時間（本発明の実施例の設定は、１ｓである）後の将来での動きに理解できる。当該属性と類似して、本発明の実施例は、図４Ａないし図４Ｄに示されたように、車両、歩行者および自転車に乗る人に異なる意図空間を定義し、ここで、図４Ａは、異なる対象、即ち、車両４０１、歩行者４０２および自転車に乗る人４０３を示し、ここで、車両４０１の数は、３３４６９６で、５８％を占め、歩行者４０２の数は、１７８３４３で、３１％を占め、自転車に乗る人４０３の数は、６１９３４で、１１％を占める。

【0106】

図４Ｂは、車両に実行された意図予測の結果を示し、ここで、直進４２１は、３８．９％（即ち、当該車両が直進する意図は３８．９％である）を占め、左折４２２は、２％を占め、右折４２３は、１％を占め、左車線変更４２４は、１．６％を占め、右車線変更４２５は、２％を占め、左に追い越し４２６は、０．１％を占め、右に追い越し４２７は、０．１％を占め、静止４２８は、５４％を占め、他４２９は、０．２％を占める。

【0107】

図４Ｃは、歩行者に実行された意図予測の結果を示し、ここで、直進４３１は、４８．６％を占め、左折４３２は、１６．８％を占め、右折４３３は、２３．６％を占め、静止４３４は、６．８％を占め、方向転換４３５は、０．４％を占め、他４３６は、３．７％を占める。

【0108】

図４Ｄは、自転車に乗る人に実行された意図予測の結果を示し、ここで、直進４４１は、３７．５％を占め、左折４４２は、１３．５％を占め、右折４４３は、１７．９％を占め、静止４４４は、２４％を占め、方向転換は、０．１％を占め、他４４５は、７％を占める。

【0109】

ほどんどの軌道予測データセットと比べて、本発明の実施例のデータセットは、より多くの対象カテゴリを網羅し、豊富なコンテキスト注釈を提供し、道路情報および属性注釈を含む。本発明の実施例のデータセットは、より幅広い意図定義を使用し、データ規模は比較的に大きい。

【0110】

本発明の実施例において、統一なフレームワークを使用して、対象の将来軌道および潜在的な意図を共同に予測する。本発明の実施例によって使用される第１ニューラルネットワークおよび第２ニューラルネットワークのうちの少なくとも１つは、ＬＳＴＭのエンコーダ－デコーダアーキテクチャに基づいて実現されることを含み得るがこれに限定されなく、第１ニューラルネットワークおよび第２ニューラルネットワークのうちの少なくとも１つに基づいて、当該フレームワークの直接性および汎用性を向上させることができる。まず、エンコーダを使用して、対象の履歴移動軌道および豊富なコンテキスト情報から対象特徴を抽出し、対象特徴は、セマンティック対象属性およびローカル道路構造を含む。その後、デコーダを使用して意図分布を推定し、将来の位置に回帰する。図５に示されたように、図５は、本発明の実施例による軌道予測システムのフレームワークの概略図であり、図５に参照して説明する。

【0111】

まず、履歴時刻で収集された複数画像のうち、歩行者５０１の時系列位置情報および時系列姿勢情報を取得し、位置情報５０２、体の向き５０３、顔の向き５０４および現在の時刻の道路構造５０５を含む。

【0112】

その後、各時系列位置情報および時系列姿勢情報に対して、時系列モデルを確立し、即ち、各時系列位置情報および時系列姿勢情報を第１ニューラルネットワーク（ここでの第１ニューラルネットワークをＬＳＴＭネットワーク５０６を使用して実現できる）に入力して、対応する時系列特徴を取得する。

【0113】

例えば、位置情報５０２をＬＳＴＭネットワーク５０６に入力して、位置時系列特徴を取得し、体の向き５０３をＬＳＴＭネットワーク５０６に入力して体の向き時系列特徴を取得し、顔の向き５０４をＬＳＴＭネットワーク５０６に入力して顔の向き時系列特徴を取得し、最後に、道路構造５０５を第２ニューラルネットワーク（ここでの第２ニューラルネットワークは、ＣＮＮネットワーク５０７を使用して実現できる）に入力して、道路構造をエンコードして、道路時系列位置情報および時系列姿勢情報を取得する。

【0114】

最後に、道路時系列位置情報および時系列姿勢情報を時系列特徴と融合して、融合特徴を取得し、融合特徴を第１ニューラルネットワーク（ここでの第１ニューラルネットワークは、ＭＬＰネットワーク５０８を使用して実現できる）に入力して、意図予測を実行して、道路を横断すること５０９である意図予測の結果を取得する。その後、意図予測の結果である道路を横断すること５０９と融合特徴を組み合わせてＬＳＴＭネットワーク５０６に入力して、複数回の反復を実行し、歩行者の実行軌道を予測して、予測される将来軌道５１０を取得し、図５では、歩行者５０１の履歴軌道５１１、予測の将来軌道５１０および真の値の軌道５１２を比較することにより、本発明の実施例による軌道予測方法を使用して取得される予測された将来軌道５１０の精度は非常に高いことをわかることができる。

【0115】

図５では、各データ項目の特定の形に従って、一グループのＬＳＴＭまたはＣＮＮネットワークを使用して、対象の移動履歴およびマルチモードのコンテキスト入力をエンコードする。エンコードされた特徴は、融合特徴に繋ぎ合わせた後、デコーダに提供され、将来軌道および潜在的な意図を共同に予測する。

【0116】

本発明の実施例において、各時間ステップサイズｔ（例えば、ｔの値は、０より大きく、Ｔより小さいことができる）に対して、第ｉ個の対象の観察結果は、

に表示され、ここで、

は、位置情報であり、

は、コンテキスト情報である。離散時間間隔

での観察を与えると、本発明の実施例は、

および意図ＩＴにおける予測対象の将来の位置を実現することができる。ここで、Ｔは、最後の観察時間（例えば、Ｔの値は、０より大きく、且つ５分より小さいことができる）であり、ｎ、ｍは、それぞれ、観察期間と予測期間である（例えば、ｎ、ｍの値は、０より大きく且つ５分より小さい実数であり得る）。

【0117】

本発明の実施例は、一グループの双方向ＬＳＴＭネットワークを第１ニューラルネットワークとして使用して、マルチソース入力データをエンコードする。対象ｐＴ－ｍ：Ｔの履歴軌道をＬＳＴＭに直接に入力して、時間Ｔでの隠し状態（

に示す）を取得して、移動履歴特徴とする。コンテキスト情報は、その特定の形に従って処理する。ＶＲＵの場合、本発明の実施例は、

を設定し、ここで、ｆｔ／ｂｔは、二次元単位ベクトルで示される顔／体の方向であり、ｒ_ｔは、自車を中心として回転した部分的な道路構造図であり、ｙ軸が、自車フロントの方向に合わせる。車両の場合、本発明の実施例は、

を設定し、ここで、ｌ_ｔは、三次元バイナリベクトルでのライトの状態であり、ｈ_ｔは、車両フロントの向きであり、ｒ_ｔは、ＶＲＵ設定と同じである。本発明の実施例において、顔の向きおよびライト状態などのセマンティック属性は、対象意図および将来の移動と密接に関連し、対象の固有特性を反映し、これらの特性は、移動履歴から取得できない。ローカル地図は、道路構造を提供して軌道予測を標準化する。本発明の実施例の実現において、移動履歴エンコードの過程と類似して、方向（即ち、顔、体および車両の前進方向）シーケンスおよびライトの状態シーケンスをそれぞれ、独立した双方向ＬＳＴＭに直接に入力する。本発明の実施例は、観察時間Ｔ内でローカル地図に一回使用されて、冗長を低減する。本発明の実施例は、まず、元の地図をラスタライズ（ｒａｓｔｅｒｉｚｅ）し、その後、ラスタライズされた地図をＣＮＮモデルに入力して、地図の時系列位置情報および時系列姿勢情報を抽出する。最後に、すべてのエンコードされたベクトルを、時間Ｔに嵌め込まれた融合特徴として接続し、式（１）の通りである。

【0118】

式（１）

【0119】

ここで、

は、すべてのエンコーダの変換関数を示す。

【0120】

本発明の実施例は、意図予測を１つの分類問題としてモデリングする。ここで、モデルは、特定の対象の融合特徴ｅ_Ｔに従って、有限インテントセットの事後確率分布を予測する。本発明の実施例は、多層パーセプトロン（ＭＬＰ：Ｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ）を使用して、ｓｏｆｔｍａｘ層を接続して意図分類器として使用する。トレーニング過程において、本発明の実施例は、クロスエントロピー損失を最小化し、式（２）に示された通りである。

【0121】

式（２）

【0122】

ここで、

は、時間Ｔでの真の意図の予測確率（インデックスは、ｋ_Ｔとして示される）である。

【0123】

本発明の実施例は、軌道予測をシーケンスに見なしてタスクを生成し、ＬＳＴＭデコーダを使用して、各将来の時間ステップサイズでの対象移動を予測する。ｅ_Ｔに嵌め込まれた特徴は、最初からデコーダに供給される。特に、本発明の実施例は、意図分類器の出力を、別の全結合層を介して意図嵌め込み特徴

を決定し、意図嵌め込み特徴を、軌道デコーダの補助入力として使用することにより、軌道予測に良好な条件を提供する。本発明の実施例は、トレーニング過程でガウス損失関数を最小化する。

【0124】

式（３）

【0125】

ここで、

は、時間ｔでのグラウンドトゥルース位置であり、

は、軌道予測の予測ガウス分布パラメータを表す。グローバル損失関数Ｌ＝Ｌ_Ｔｒａｊ＋Ｌ_Ｉｎｔを最適化することにより、本発明の実施例のニューラルネットワークは、マルチタスク方式でエンドツーエンドトレーニングを実行することができる。いくつかの実施例において、さらに、ガウス平均を予測される軌道位置として使用することができる。

【0126】

他の実施例において、以下は、対象が歩行者であることを例として、説明する。

【0127】

表１は、異なる収集距離で収集された体の向きおよび顔の向きの精度である。表１から分かるように、歩行者の位置、体の向きおよび顔の向きは、歩行者の動的状況を示すために使用され、ローカル地図領域は、静的周囲環境を示すために使用される。本発明の実施例において、位置、体の向き、顔の向き、即ち、歩行者の時系列位置情報および時系列姿勢情報は、動的特徴として見なされることができ、ローカル地図領域は、静的特徴として見なされることができる。

【0128】

【表1】

【0129】

表１に示されたように、顔の向き（Ｆａｃｅｄｉｒｅｃｔｉｏｎ）および体の向き（Ｂｏｄｙｄｉｒｅｃｔｉｏｎ）の精度は、歩行者から車両への距離に関連する。距離が長いほど、特徴の精度は低い。そのため、異なる距離の異なる時系列位置情報および時系列姿勢情報で時系列位置情報および時系列姿勢情報の重みを調整する。本発明の実施例は、嵌め込み関数

を使用してこのような関係を説明する。

【0130】

式（４）

【0131】

ここで、

は、時間ステップサイズｔでの第ｉ個の歩行者と車両との距離を示し、Ｗ_ｄｉｓは、第２ニューラルネットワークの入力から出力への変換パラメータを示し、

は、第２ニューラルネットワークに異なる距離を入力した後、位置、顔の向きおよび体の向きに対して出力された対応する重みベクトルである。

【0132】

歩行者は、基本的な交通ルールに従い、これらのルールは、それに対応する地方の道路構造に関する。ローカル地図領域は、歩行者の将来軌道予測の基本的な静的環境である。

【0133】

各車線内の領域は、歩行者の「危険空間」として見なされる。図６は、本発明の実施例の軌道予測方法の実現フレームワークの構造図であり、図６に示されたように、まず、画像６０１ないし画像６０ｎから、顔の向き

、体の向き

および歩行者６１の位置

、および体の向きおよび位置に従って決定されたローカル地図領域

などの、歩行者６１の時系列位置情報および時系列姿勢情報を抽出する。

【0134】

次に、歩行者６１の位置

、体の向き

および顔の向き

を３つの独立した第１ニューラルネットワーク６２、６３および６４（例えば、双方向ＬＳＴＭネットワーク）に独立して入力し、それぞれ、体の向きを表す時系列特徴（即ち、時系列位置情報および時系列姿勢情報）、顔の向きを表す時系列特徴およびサンプル対象の位置の時間における変化状況を表す時系列特徴を取得し、さらに、時系列特徴を別の第２ニューラルネットワーク６５（例えば、双方向ＬＳＴＭネットワーク）に入力して、第１調整時系列特徴を取得する。異なる距離を全結合モデル６８に入力して、当該距離での体の向き、顔の向きおよび移動対象の位置に対応する重みを取得し、当該重みを第１調整時系列特徴と乗算して、第２調整時系列特徴を取得する。

【0135】

次に、エンコードされた地図６０２を一次元特徴ベクトルに展開し、当該一次元特徴ベクトルをエンコードし、別の双方向ＬＳＴＭネットワーク、即ち、第１ニューラルネットワーク６６に入力して、当該一次元特徴ベクトルに対応する時系列特徴を取得し、その後、当該時系列特徴を歩行者６１の時系列位置情報および時系列姿勢情報に対応する時系列特徴の補助特徴として、これらの特徴を繋ぎ合わせて、融合特徴を取得し、その後、デコードされたニューラルネットワーク６７を介して、融合特徴をデコードして、予測された歩行者の将来軌道、即ち、点線６９を取得し、実線７０は、当該歩行者６１の真の値将来軌道であり、これから分かるように、本発明の実施例によって採用されるネットワークモデルの予測結果は、非常に正確である。

【0136】

本発明の実施例は、ローカル地図領域に対してマスクエンコードを採用して、エンコードされた地図６０２を取得し、ここで、各コードワードは、そのセマンティック道路構造クラスに関連付けられた特定の整数で充填される。時間ステップサイズｔでの第ｉ個の歩行者に対して、まず、当該歩行者の位置および体の向きに従って、当該歩行者に対応するローカル地図領域を決定する。その後、ローカル地図領域をグリッドに均等に離散化し、ここで、各グリッドは、主なセマンティック道路構造クラスの構造特定数によって表示される。例えば、「横断歩道」および「歩道」は、数字「１」に表示され、「危険地点」は、「－１」に表示され、他は、数字「０」に表示され、危険または安全領域を分割するためのグリッド６０３を取得する。

【0137】

本発明のいくつかの実施例において、エンコードされた動的特徴（即ち、歩行者の時系列位置情報および時系列姿勢情報）とエンコードされた静的特徴（即ち、ローカル地図領域）を接続して予測する。単純なＬＳＴＭネットワークを使用して、歩行者の将来軌道を予測する。

【0138】

本発明の実施例による履歴データの所定のデータセットは、大規模および情報化された軌道データセットであり、自律運転における歩行者の軌道予測タスクを促進する。同時に、当該データセットは、複数の評価基準があり、長さが所定の閾値より長い将来軌道の平均予測失敗回数、異なる距離に対応する誤差閾値における将来軌道の成功率または将来軌道の終点位置と、真の値の軌道の終点位置との誤差で、予測モデルの精度およびロバスト性を査定し、それにより、非常に複雑なシナリオでも、当該ニューラルネットワークを使用して、仍然として、歩行者の将来軌道を比較的に正確に予測できる。

【0139】

本発明の実施例は、軌道予測装置を提供し、図７は、本発明の実施例の軌道予測装置の例示的な構造的構成図であり、図７に示されたように、前記装置７００は、
対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定するように構成される、意図決定モジュール７０１であって、ここで、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、所定の期間の異なる時点での前記対象の姿勢情報であり、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の向き情報を含む、意図決定モジュール７０１と、
前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定するように構成される、将来軌道決定モジュール７０２と、を備える。

【0140】

上記の装置において、意図決定モジュール７０１は、前記時系列位置情報および前記時系列姿勢情報に従って、前記対象が配置されている環境の環境情報を取得するように構成される、地図インターセプトサブモジュールと、前記環境情報、前記時系列位置情報および時系列姿勢情報を融合して、融合特徴を取得するように構成される、特徴融合サブモジュールと、前記融合特徴に従って、前記対象の移動意図を決定するように構成される、意図予測サブモジュールと、を備え、前記将来軌道決定モジュール７０２は、前記融合特徴および前記移動意図に従って、前記対象の将来軌道を決定するように構成される、軌道予測サブモジュールを備える。

【0141】

上記の装置において、前記対象は、人体対象および非人体対象のうちの少なくとも１つを含み、前記対象が、前記人体対象を含む場合、前記異なる時点での姿勢情報は、前記異なる時点での前記人体対象の部位の向き情報を含み、前記部位は、肢体、顔のうちの少なくとも１つを含み、前記対象が、前記非人体対象を含む場合、前記非人体対象は、車両、動物、移動可能な機器のうちの少なくとも１つを含み、前記異なる時点での姿勢情報は、前記非人体対象が、前記異なる時点での向き情報および走行指示情報を含む。

【0142】

上記の装置において、前記装置は、さらに、現在の時刻からの期間が特定の期間より小さいか等しい少なくとも２つの履歴時刻を決定するように構成される、履歴時刻決定モジュールと、少なくとも２つの履歴時刻における前記対象の時系列位置情報および時系列姿勢情報を取得する過程を介して取得するように構成される、特徴情報取得モジュールと、を備える。

【0143】

上記の装置において、前記地図インターセプトサブモジュールは、任意の１つの履歴時刻における前記対象の位置情報および向き情報に従って、前記環境情報を決定するように構成される、地図インターセプトユニットを備え、ここで、前記環境情報は、少なくとも、道路情報、歩行者情報または信号機情報のうちの少なくとも１つを含む。

【0144】

上記の装置において、前記地図インターセプトユニットは、さらに、前記位置情報を中心として、前記向き情報に従って、世界地図で前記対象が配置されている環境のローカル地図領域を区切り、前記ローカル地図領域内の要素をエンコードして、前記環境情報を取得するように構成される。

【0145】

上記の装置において、前記特徴融合サブモジュールは、第１ニューラルネットワークを介して、前記時系列位置情報および時系列姿勢情報に従って、将来の期間内の時系列位置情報および時系列姿勢情報を予測するように構成される、時系列位置情報および時系列姿勢情報決定ユニットと、前記将来の期間内の時系列位置情報、時系列姿勢情報および前記環境情報を、所定の方式に従って繋ぎ合わせて、前記融合特徴を取得するように構成される、特徴繋ぎ合わせユニットと、を備える。

【0146】

上記の装置において、前記意図予測サブモジュールは、第２ニューラルネットワークを介して、前記融合特徴が、意図カテゴリライブラリのうちの各意図カテゴリの信頼度であることを決定するように構成される、信頼度決定ユニットと、最も高い信頼度を有する意図カテゴリを、前記対象の移動意図に決定するように構成される、意図予測ユニットと、を備える。

【0147】

上記の装置において、前記軌道予測サブモジュールは、前記将来の期間の長さに従って、反復ステップサイズを決定するように構成される、反復ステップサイズユニットと、前記反復ステップサイズに従って、前記第１ニューラルネットワークを採用して、前記移動意図および前記融合特徴を反復して、各反復ステップサイズにおける前記対象の座標を取得するように構成される、特徴反復ユニットと、各反復ステップサイズにおける前記対象の座標に従って、前記将来軌道を決定するように構成される、将来軌道決定ユニットと、を備える。

【0148】

上記の装置において、前記装置は、さらに、第１ニューラルネットワークをトレーニングするように構成される、第１トレーニングモジュールを備え、
第１トレーニングモジュールは、前記対象の時系列位置情報および時系列姿勢情報を、トレーニングされる第１ニューラルネットワークに入力して、前記将来の期間内の前記対象の時系列位置情報および時系列姿勢情報を予測するように構成される、時系列位置情報および時系列姿勢情報を予測するための予測サブモジュールと、前記将来の期間内の時系列位置情報、時系列姿勢情報を、前記対象が配置されている環境の環境情報と融合して、融合予測特徴を取得するように構成される、予測特徴融合サブモジュールと、少なくとも前記融合予測特徴に従って、前記将来の期間における前記対象の将来軌道を予測するように構成される、予測将来軌道サブモジュールと、前記対象の真の値の軌道に従って、前記トレーニングされる第１ニューラルネットワークの前記将来軌道に関する第１予測損失を決定するように構成される、第１予測損失決定サブモジュールと、前記第１予測損失に従って、前記トレーニングされる第１ニューラルネットワークのネットワークパラメータを調整して、前記第１ニューラルネットワークを取得するように構成される、第１ニューラルネットワークパラメータ調整サブモジュールと、を備える。

【0149】

上記の装置において、前記装置は、さらに、第２ニューラルネットワークをトレーニングするように構成される、第２トレーニングモジュールを備え、
第２トレーニングモジュールは、前記融合特徴を、トレーニングされる第２ニューラルネットワークに入力して、前記対象の移動意図が、意図カテゴリライブラリのうちの各意図カテゴリである信頼度を予測するように構成される、カテゴリ信頼度決定サブモジュールと、前記対象の真の値の意図に従って、前記トレーニングされる第２ニューラルネットワークの前記各意図カテゴリの信頼度に関する第２予測損失を決定するように構成される、第２予測損失決定サブモジュールと、前記第２予測損失に従って、前記トレーニングされる第２ニューラルネットワークのネットワークパラメータを調整して、前記第２ニューラルネットワークを取得するように構成される、第２ニューラルネットワークパラメータ調整サブモジュールと、を備える。

【0150】

対応的に、本発明の実施例は、さらに、コンピュータ実行可能命令を含む、コンピュータプログラム製品を提供し、当該コンピュータ実行可能命令が実行された後、本発明の実施例による軌道予測方法を実現できる。

【0151】

それに対応して、本発明の実施例は、さらに、コンピュータ実行可能命令が記憶される、コンピュータ記憶媒体を提供し、前記コンピュータ実行可能命令がプロセッサによって実行されるとき、上記の実施例による軌道予測方法を実現する。

【0152】

本発明の実施例は、さらに、コンピュータ可読コードを含む、コンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器のプロセッサは、上記の実施例による軌道予測方法を実現するために実行する。

【0153】

それに対応して、本発明の実施例は、コンピュータ機器を提供し、図８は、本発明の実施例のコンピュータ機器の構成の例示的な構造図であり、図８に示されたように、前記機器８００は、１つのプロセッサ８０１、少なくとも１つの通信バス、通信インターフェース８０２、少なくとも１つの外部通信インターフェースおよびメモリ８０３を備える。ここで、通信インターフェース８０２は、これらのアセンブリ間の接続通信を実現するように構成される。ここで、通信インターフェース８０２は、スクリーンを備えることができ、外部通信インターフェースは、標準の有線インターフェースおよび無線インターフェースを含み得る。ここで前記プロセッサ８０１は、メモリ内の画像処理プログラムを実行して、上記の実施例による軌道予測方法を実現するように構成される。

【0154】

実際の適用において、前記メモリは、ランダムアクセメモリ（ＲＡＭ：Ｒａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ）などの揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であり得、または、読み取り専用第１メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）、ハードディスク（ＨａｒｄＤｉｓｋＤｒｉｖｅ、ＨＤＤ）またはソリッドステートハードディスク（ＳＳＤ：Ｓｏｌｉｄ－ＳｔａｔｅＤｒｉｖｅ）などの、不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であり得、または上記のタイプのメモリの組み合わせであり得、プロセッサに命令およびデータを提供する。

【0155】

前記プロセッサは、特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、デジタル信号処理機器（ＤＳＰＤ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒＤｅｖｉｃｅ）、プログラマブルロジックデバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、中央プロセッサ（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも１つであり得る。異なる機器に対して、前記プロセッサの機能を実現するために使用される電子デバイスは、他でもあり得、本発明の実施例は、限定しないことを理解されたい。

【0156】

以上の軌道予測装置、コンピュータ機器および記憶媒体実施例の説明は、上記の方法実施例の説明と類似しており、対応する方法実施例と類似する技術的説明と有利な効果は、スペースの制限により、上記の方法実施例の記載を参照できる。本発明の軌道予測装置、コンピュータ機器および記憶媒体実施例で開示されていない技術的詳細は、本発明の方法実施例の説明を参照して理解されたい。

【0157】

明細書の全篇に言及された「１つの実施例」または「一実施例」は、実施例に関連する特定の特徴、構造または特性は、本発明の少なくとも１つの実施例に含まれることを意味することを理解されたい。そのため、明細書の全様々な場所での「１つの実施例において」または「一実施例において」は、必ずしも同じ実施例を指すことは限らない。なお、これらの特定の特徴、構造または特性は、任意の適した方式で１つまたは複数の実施例に組み合わせることができる。本発明の様々な実施例において、前記各プロセスの番号の大きさは実行する前後順番を意味せず、各プロセスの実行順番は、その機能と内部論理によって決定されるべきであり、本発明の実施例の実施プロセスに対してあらゆる制限を構成してはならないことを理解されたい。上記の本発明の実施例の番号は、実施例の優劣を表すものではなく、説明の便宜を図るためのものである。

【0158】

本願実施例において、「備える」、「含む」またはその任意の他の変形の用語は、非排他的な含みを覆われることを意図し、それにより、一連の要素を含むプロセス、方法、アイテムまたは装置は、それらの要素を含むだけでなく、さらに、明示的に列挙されない他の要素を含み、または、これらのプロセス、方法、アイテムまたは装置の固有の要素も含むことに留意されたい。より多くの制限なしに、「１つの…を含む」という文で限定される要素は、当該要素を含むプロセス、方法、アイテムまたは装置に、別の関連要素の存在を排除しない。

【0159】

本発明で提供するいくつかの実施例において、開示された機器および方法は、他の方式で実現されてもよいことを理解されたい。上記で説明された機器の実施例は単なる例示的であり、例えば、前記ユニットの分割は論理的な機能の分割に過ぎない。実際の実現では、例えば、複数のユニットまたはアセンブリを組み合わせたり、別のシステムに統合したり、一部の特徴を無視したり、実行しないなど、別の分割方法があることができる。なお、表示または議論される各構成要素間の相互結合または直接結合または通信接続は、いくつかのインターフェース、機器またはユニットを介した間接な結合または通信接続であり得、電気的、機械的または他の形態であり得る。

【0160】

上記の分離部材として説明されたユニットは、物理的に分離されている場合とされていない場合があり、ユニットとして表示された部材は、物理ユニットである場合もそうでない場合もあり、１箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もあり、実際の必要に応じて、その一部またはすべてのユニットを選択して、本実施例の技術案の目的を具現することができる。

【0161】

なお、本発明の各実施例における各機能ユニットは、１つの処理ユニットにすべて統合してもよいし、各ユニットを１つのユニットとして別々に使用してもよいし、２つ以上のユニットを１つのユニットに統合してもよい。上記の統合されたユニットは、ハードウェアの形態で、またはハードウェアおよびソフトウェア機能ユニットの形態で具現することができる。当業者は、上記した方法の実施例の全てまたは一部のステップは、プログラム命令に関連するハードウェアによって完了することができ、前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されることができ、前記プログラムが実行されるとき、上記の方法の実施例のステップを実行し、前記記憶媒体は、リムーバブルストレージ、読み取り専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる媒体を含む。

【0162】

または、本発明の上記の統合されたユニットがソフトウェア機能モジュールの形で実現され、スタンドアロン製品として販売または使用される場合、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づいて、本発明の実施例の技術的解決策は、本質的に、または既存の技術に貢献する部分は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、１つの記憶媒体に記憶されて、一台のコンピュータ機器（パーソナルコンピュータ、サーバ、またはネットワーク機器などであリ得る）が本発明の各実施例に記載の方法の全部または一部を実行するようにするためのいくつかの命令を含む。前述した記憶媒体は、リムーバブルストレージ、ＲＯＭ、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる様々な媒体を含む。以上は、本発明の具体的な実施形態に過ぎないが、本発明の保護範囲はこれに限定されず、当業者は、本発明に開示された技術的範囲内で容易に想到し得る変更または置換は、すべて本発明の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、特許請求の保護範囲を基準とするべきである。

【産業上の利用可能性】

【0163】

本発明の実施例は、軌道予測方法、装置、機器、記憶媒体およびプログラムを提供し、ここで、対象の時系列位置情報および時系列姿勢情報に従って、前記対象の移動意図を決定し、ここで、前記時系列位置情報は、所定の期間の異なる時点での前記対象の位置情報であり、前記時系列姿勢情報は、前記対象が、所定の期間の異なる時点での姿勢情報であり、ここで、前記異なる時点での姿勢情報は、前記異なる時点での前記対象の複数の部位の向き情報を含み、前記時系列位置情報、前記時系列姿勢情報および前記移動意図に従って、前記対象の将来軌道を決定する。

【図1】