IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人慶應義塾の特許一覧 ▶ 本田技研工業株式会社の特許一覧

特開2024-120710処理装置及び処理装置で実行される方法
<>
  • 特開-処理装置及び処理装置で実行される方法 図1
  • 特開-処理装置及び処理装置で実行される方法 図2
  • 特開-処理装置及び処理装置で実行される方法 図3A
  • 特開-処理装置及び処理装置で実行される方法 図3B
  • 特開-処理装置及び処理装置で実行される方法 図3C
  • 特開-処理装置及び処理装置で実行される方法 図4
  • 特開-処理装置及び処理装置で実行される方法 図5
  • 特開-処理装置及び処理装置で実行される方法 図6
  • 特開-処理装置及び処理装置で実行される方法 図7A
  • 特開-処理装置及び処理装置で実行される方法 図7B
  • 特開-処理装置及び処理装置で実行される方法 図7C
  • 特開-処理装置及び処理装置で実行される方法 図8
  • 特開-処理装置及び処理装置で実行される方法 図9
  • 特開-処理装置及び処理装置で実行される方法 図10
  • 特開-処理装置及び処理装置で実行される方法 図11
  • 特開-処理装置及び処理装置で実行される方法 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024120710
(43)【公開日】2024-09-05
(54)【発明の名称】処理装置及び処理装置で実行される方法
(51)【国際特許分類】
   G06T 7/70 20170101AFI20240829BHJP
【FI】
G06T7/70 A
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023027703
(22)【出願日】2023-02-24
(71)【出願人】
【識別番号】598121341
【氏名又は名称】慶應義塾
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】青木 義満
(72)【発明者】
【氏名】吉川 建太郎
(72)【発明者】
【氏名】森 巧磨
(72)【発明者】
【氏名】名取 洋一
(72)【発明者】
【氏名】西宮 憲治
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA09
5L096EA33
5L096FA32
5L096FA69
5L096HA05
(57)【要約】
【課題】任意の時刻に入力される2次元画像情報及び3次元センサ情報の少なくとも一方が欠損している場合でも、欠損している2次元画像情報又は3次元センサ情報を補間できる処理装置を提供すること。
【解決手段】処理装置は任意の時刻に入力される2次元画像情報及び3次元センサ情報の少なくとも一方が欠損している場合に当該欠損している2次元画像情報又は3次元センサ情報を補間し、補間した2次元画像情報及び3次元センサ情報に基づく物体検出結果を物体追跡装置へ出力する処理部を備え、処理部は、当該欠損している2次元画像情報又は3次元センサ情報の一方を、2次元画像情報及び3次元センサ情報の他方を変換したものによって、又は当該欠損している時刻の2次元画像情報又は3次元センサ情報を、他の時刻の2次元画像情報又は3次元センサ情報に基づいて推測したものによって補間する。
【選択図】図2
【特許請求の範囲】
【請求項1】
任意の時刻に入力される2次元画像情報及び3次元センサ情報の少なくとも一方が欠損している場合に、当該欠損している2次元画像情報又は3次元センサ情報を補間し、欠損している前記2次元画像情報又は前記3次元センサ情報を補間した2次元画像情報及び3次元センサ情報に基づく物体検出結果を物体追跡装置へ出力する処理部
を備え、
前記処理部は、当該欠損している2次元画像情報又は3次元センサ情報の一方を、2次元画像情報及び3次元センサ情報の他方を変換したものによって補間する、又は当該欠損している時刻の2次元画像情報又は3次元センサ情報を、他の時刻の2次元画像情報又は3次元センサ情報に基づいて推測したものによって補間する、処理装置。
【請求項2】
3次元センサ情報が欠損している場合に、当該欠損している3次元センサ情報間近の3次元センサ情報に含まれる3次元物体を検出する3次元物体検出部と、
前記3次元物体検出部が検出した前記3次元物体の位置に基づいて補間する3次元物体の位置を推測する位置推測部と
をさらに備え、
前記処理部は、前記位置推測部が推測した補間する前記3次元物体の位置情報に基づいて、欠損している前記3次元センサ情報を補間する、請求項1に記載の処理装置。
【請求項3】
前記3次元物体検出部は、欠損している前記3次元センサ情報より前の複数の3次元センサ情報の各々に含まれる3次元物体を検出し、
前記位置推測部は、前記3次元物体検出部が検出した前記3次元物体の複数の位置の平均値に基づいて、補間する3次元物体の位置を推測する、請求項2に記載の処理装置。
【請求項4】
前記3次元物体検出部は、欠損している前記3次元センサ情報より前の複数の3次元センサ情報の各々に含まれる3次元物体を検出し、
前記位置推測部は、前記3次元物体検出部が検出した前記3次元物体の複数の位置から、移動速度及び加速度を導出し、導出した前記移動速度及び前記加速度に基づいて、補間する3次元物体の位置を推測する、請求項2に記載の処理装置。
【請求項5】
前記位置推測部は、前記3次元物体検出部が検出した前記3次元物体の位置から、欠損している前記3次元センサ情報より後の前記3次元物体の位置を推測し、推測した前記3次元物体の前記位置に基づいて、補間する3次元物体の位置を推測する、請求項2に記載の処理装置。
【請求項6】
3次元センサ情報が欠損している場合に、当該欠損している3次元センサ情報間近の2次元画像情報から、3次元物体を検出する3次元物体検出部
をさらに備え、
前記処理部は、欠損している3次元センサ情報を、前記3次元物体検出部が検出した前記3次元物体によって補間する、請求項1に記載の処理装置。
【請求項7】
2次元画像情報が欠損している場合に、当該欠損している2次元画像情報間近の2次元画像情報に含まれる2次元物体を検出する2次元物体検出部と、
前記2次元物体検出部が検出した前記2次元物体の位置に基づいて補間する2次元物体の位置を推測する位置推測部と
をさらに備え、
前記処理部は、前記位置推測部が推測した補間する前記2次元物体の位置情報に基づいて、欠損している前記2次元画像情報を補間する、請求項1に記載の処理装置。
【請求項8】
前記2次元物体検出部は、欠損している前記2次元画像情報より前の複数の2次元画像情報の各々に含まれる2次元物体を検出し、
前記位置推測部は、前記2次元物体検出部が検出した前記2次元物体の複数の位置の平均値に基づいて、補間する2次元物体の位置を推測する、請求項7に記載の処理装置。
【請求項9】
前記2次元物体検出部は、欠損している前記2次元画像情報より前の複数の2次元画像情報の各々に含まれる2次元物体を検出し、
前記位置推測部は、前記2次元物体検出部が検出した前記2次元物体の複数の位置から、移動速度及び加速度を導出し、導出した前記移動速度及び前記加速度に基づいて、補間する2次元物体の位置を推測する、請求項7に記載の処理装置。
【請求項10】
前記位置推測部は、前記2次元物体検出部が検出した前記2次元物体の位置から、欠損している前記2次元画像情報より後の前記2次元物体の位置を推測し、推測した前記2次元物体の前記位置に基づいて、補間する2次元物体の位置を推測する、請求項7に記載の処理装置。
【請求項11】
2次元画像情報が欠損している場合に、当該欠損している2次元画像情報間近の3次元センサ情報から、2次元物体を検出する2次元物体検出部
をさらに備え、
前記処理部は、欠損している2次元画像情報を、前記2次元物体検出部が検出した前記2次元物体によって補間する、請求項1に記載の処理装置。
【請求項12】
任意の時刻に入力される2次元画像情報及び3次元センサ情報の少なくとも一方が欠損している場合に、当該欠損している2次元画像情報又は3次元センサ情報を補間し、
欠損している前記2次元画像情報又は前記3次元センサ情報を補間した2次元画像情報及び3次元センサ情報に基づく物体検出結果を物体追跡装置へ出力し、
当該欠損している2次元画像情報又は3次元センサ情報を補間する場合に、当該欠損している2次元画像情報又は3次元センサ情報の一方を、2次元画像情報及び3次元センサ情報の他方を変換したものによって補間する、又は当該欠損している時刻の2次元画像情報又は3次元センサ情報を、他の時刻の2次元画像情報又は3次元センサ情報に基づいて推測したものによって補間する、処理装置が実行する方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、処理装置及び処理装置で実行される方法に関する。
【背景技術】
【0002】
3次元での物体検出は車の自動運転やロボットでの応用に期待されており研究が盛んである。3次元空間で物体を検出する上で重要な働きをしているのが、捉えた周囲の状況を点群データとして取得するLiDAR(Light Detection And Ranging)と、画像として取得するカメラのセンシング技術である。近年ではLiDARからの点群データに加え、カメラから得られるRGB画像も利用するマルチセンサによる手法の登場も盛んである。なぜなら、マルチセンサによる手法は、対象までの絶対距離を疎に計測するLiDARと、物体の見え方を多くの画素で密に捉えるカメラが、互いに長所短所を補い、一層の効果を発揮するからである。
【0003】
物体を検出する技術に関して、物体の画面上での位置を特定する技術が知られている(例えば特許文献1参照)。この技術は、光照射に応じた反射光を受光素子が検出することにより得られる距離情報を含む反射光画像、反射光に対する背景光を受光素子にて検出する輝度情報を含む背景光画像、及び受光素子とは異なるカメラ素子にて撮像されるカメラ画像を取得し、反射光画像、背景光画像及びカメラ画像に共通して検出される被写対象の情報を用いて、推定対象の移動量を推定する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2021-67649号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
マルチセンサにおいて、複数のセンサの各々が周囲を捉えるタイミング、及び検出した情報から特徴抽出する時間は異なる。そのためマルチセンサの各々が抽出した特徴を融合する際、各々のセンサからの情報が欠損するタイミングが生じる。
また、複数のセンサ及び計算機(演算装置)の状態や、各センサと計算機(演算装置)との間の通信状況等に起因して、任意(不定)のタイミングで各々のセンサからの情報が欠損する可能性がある。
【0006】
本発明の目的は、任意の時刻に入力される2次元画像情報及び3次元センサ情報の少なくとも一方が欠損している場合でも、欠損している2次元画像情報又は3次元センサ情報を補間した2次元画像情報及び3次元センサ情報に基づく物体検出結果を物体追跡装置へ出力できる処理装置及び処理装置で実行される方法を提供することを目的の一つとする。
【課題を解決するための手段】
【0007】
この発明に係る処理装置は、以下の構成を採用した。
(1):この発明の一態様に係る処理装置は、任意の時刻に入力される2次元画像情報及び3次元センサ情報の少なくとも一方が欠損している場合に、当該欠損している2次元画像情報又は3次元センサ情報を補間し、欠損している前記2次元画像情報又は前記3次元センサ情報を補間した2次元画像情報及び3次元センサ情報に基づく物体検出結果を物体追跡装置へ出力する処理部を備え、前記処理部は、当該欠損している2次元画像情報又は3次元センサ情報の一方を、2次元画像情報及び3次元センサ情報の他方を変換したものによって補間する、又は当該欠損している時刻の2次元画像情報又は3次元センサ情報を、他の時刻の2次元画像情報又は3次元センサ情報に基づいて推測したものによって補間する、処理装置である。
【0008】
(2):上記(1)の態様において、3次元センサ情報が欠損している場合に、当該欠損している3次元センサ情報間近の3次元センサ情報に含まれる3次元物体を検出する3次元物体検出部と、前記3次元物体検出部が検出した前記3次元物体の位置に基づいて補間する3次元物体の位置を推測する位置推測部とをさらに備え、前記処理部は、前記位置推測部が推測した補間する前記3次元物体の位置情報に基づいて、欠損している前記3次元センサ情報を補間する。
【0009】
(3):上記(2)の態様において、前記3次元物体検出部は、欠損している前記3次元センサ情報より前の複数の3次元センサ情報の各々に含まれる3次元物体を検出し、前記位置推測部は、前記3次元物体検出部が検出した前記3次元物体の複数の位置の平均値に基づいて、補間する3次元物体の位置を推測する。
【0010】
(4):上記(2)の態様において、前記3次元物体検出部は、欠損している前記3次元センサ情報より前の複数の3次元センサ情報の各々に含まれる3次元物体を検出し、前記位置推測部は、前記3次元物体検出部が検出した前記3次元物体の複数の位置から、移動速度及び加速度を導出し、導出した前記移動速度及び前記加速度に基づいて、補間する3次元物体の位置を推測する。
【0011】
(5):上記(2)の態様において、前記位置推測部は、前記3次元物体検出部が検出した前記3次元物体の位置から、欠損している前記3次元センサ情報より後の前記3次元物体の位置を推測し、推測した前記3次元物体の前記位置に基づいて、補間する3次元物体の位置を推測する。
【0012】
(6):上記(1)の態様において、3次元センサ情報が欠損している場合に、当該欠損している3次元センサ情報間近の2次元画像情報から、3次元物体を検出する3次元物体検出部をさらに備え、前記処理部は、欠損している3次元センサ情報を、前記3次元物体検出部が検出した前記3次元物体によって補間する。
【0013】
(7):上記(1)の態様において、2次元画像情報が欠損している場合に、当該欠損している2次元画像情報間近の2次元画像情報に含まれる2次元物体を検出する2次元物体検出部と、前記2次元物体検出部が検出した前記2次元物体の位置に基づいて補間する2次元物体の位置を推測する位置推測部とをさらに備え、前記処理部は、前記位置推測部が推測した補間する前記2次元物体の位置情報に基づいて、欠損している前記2次元画像情報を補間する。
【0014】
(8):上記(7)の態様において、前記2次元物体検出部は、欠損している前記2次元画像情報より前の複数の2次元画像情報の各々に含まれる2次元物体を検出し、前記位置推測部は、前記2次元物体検出部が検出した前記2次元物体の複数の位置の平均値に基づいて、補間する2次元物体の位置を推測する。
【0015】
(9):上記(7)の態様において、前記2次元物体検出部は、欠損している前記2次元画像情報より前の複数の2次元画像情報の各々に含まれる2次元物体を検出し、前記位置推測部は、前記2次元物体検出部が検出した前記2次元物体の複数の位置から、移動速度及び加速度を導出し、導出した前記移動速度及び前記加速度に基づいて、補間する2次元物体の位置を推測する。
【0016】
(10):上記(7)の態様において、前記位置推測部は、前記2次元物体検出部が検出した前記2次元物体の位置から、欠損している前記2次元画像情報より後の前記2次元物体の位置を推測し、推測した前記2次元物体の前記位置に基づいて、補間する2次元物体の位置を推測する。
【0017】
(11):上記(1)の態様において、2次元画像情報が欠損している場合に、当該欠損している2次元画像情報間近の3次元センサ情報から、2次元物体を検出する2次元物体検出部をさらに備え、前記処理部は、欠損している2次元画像情報を、前記2次元物体検出部が検出した前記2次元物体によって補間する。
【0018】
この発明に係る処理装置で実行される方法は、以下の構成を採用した。
(12):任意の時刻に入力される2次元画像情報及び3次元センサ情報の少なくとも一方が欠損している場合に、当該欠損している2次元画像情報又は3次元センサ情報を補間し、欠損している前記2次元画像情報又は前記3次元センサ情報を補間した2次元画像情報及び3次元センサ情報に基づく物体検出結果を物体追跡装置へ出力し、当該欠損している2次元画像情報又は3次元センサ情報を補間する場合に、当該欠損している2次元画像情報又は3次元センサ情報の一方を、2次元画像情報及び3次元センサ情報の他方を変換したものによって補間する、又は当該欠損している時刻の2次元画像情報又は3次元センサ情報を、他の時刻の2次元画像情報又は3次元センサ情報に基づいて推測したものによって補間する、処理装置が実行する方法である。
【発明の効果】
【0019】
(1)から(12)によれば、任意の時刻に入力される2次元画像情報及び3次元センサ情報の少なくとも一方が欠損している場合でも、欠損している2次元画像情報又は3次元センサ情報を補間した2次元画像情報及び3次元センサ情報に基づく物体検出結果を物体追跡装置へ出力できる。
【図面の簡単な説明】
【0020】
図1】本実施形態に係る物体追跡システムの一例を示す図である。
図2】本実施形態に係る物体追跡システムの処理装置の例1を示す図である。
図3A】本実施形態に係る物体追跡システムの処理装置の動作の例1を説明するための図である。
図3B】本実施形態に係る物体追跡システムの処理装置の動作の例2を説明するための図である。
図3C】本実施形態に係る物体追跡システムの処理装置の動作の例3を説明するための図である。
図4】本実施形態に係る物体追跡システムの処理装置の例2を示す図である。
図5】本実施形態に係る物体追跡システムの処理装置の動作の例4を説明するための図である。
図6】本実施形態に係る物体追跡システムの処理装置の例3を示す図である。
図7A】本実施形態に係る物体追跡システムの処理装置の動作の例5を説明するための図である。
図7B】本実施形態に係る物体追跡システムの処理装置の動作の例6を説明するための図である。
図7C】本実施形態に係る物体追跡システムの処理装置の動作の例7を説明するための図である。
図8】本実施形態に係る物体追跡システムの処理装置の例8を示す図である。
図9】本実施形態に係る物体追跡システムの処理装置の動作の例8を説明するための図である。
図10】本実施形態に係る物体追跡システムの動作の一例を示す図である。
図11】本実施形態に係る物体追跡システムの効果の例1を示す図である。
図12】本実施形態に係る物体追跡システムの効果の例2を示す図である。
【発明を実施するための形態】
【0021】
次に、本実施形態の処理装置及び処理装置で実行される方法を、図面を参照しつつ説明する。以下で説明する実施形態は一例に過ぎず、本発明が適用される実施形態は、以下の実施形態に限られない。なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
【0022】
また、本願でいう「XXに基づいて」とは、「少なくともXXに基づく」ことを意味し、XXに加えて別の要素に基づく場合も含む。また、「XXに基づいて」とは、XXを直接に用いる場合に限定されず、XXに対して演算や加工が行われたものに基づく場合も含む。「XX」は、任意の要素(例えば、任意の情報)である。
【0023】
[実施形態]
以下、図面を参照して本発明の実施形態を詳細に説明する。図1は、本実施形態に係る物体追跡システムの一例を示す図である。
本実施形態に係る物体追跡システム100は、2次元物体追跡(2D Multi-Object Tracking)及び3次元物体追跡(3D Multi-Object Tracking)を行う。物体追跡システム100は、処理装置10及び物体追跡装置20を備える。
【0024】
処理装置10には、2次元画像情報のフレーム(以下「2次元画像フレーム」という)が第1周期で入力され、3次元センサ情報のフレーム(以下「3次元センサフレーム」という)が第2周期で入力される。第1周期と第2周期とは同じであってもよいし、異なっていてもよい。以下、一例として、第1周期と第2周期とが異なる場合について説明する。2次元画像情報の一例は、カメラによって撮像された画像データである。2次元画像は例えばRGB画像であり、細かなテクスチャと色情報を保持している。3次元センサ情報の一例は、LiDARによって計測された対象物体までの3次元距離から抽出された点群データである。3次元センサ情報は、広範囲の点群を含んでいる。2次元画像は、点群と比較して物体認識に優位である。
【0025】
処理装置10は、第1周期で入力される2次元画像フレーム及び第2周期で入力される3次元センサフレームに対して物体検出を行う。処理装置10は、物体検出を行った結果を、物体追跡装置20へ出力する。具体的には、処理装置10は、2次元画像フレーム上にバウンディングボックスを作成する。ここで、バウンディングボックスとは、2次元画像に撮像された物体の領域(オブジェクト領域)を囲む矩形の枠である。バウンディングボックスによって物体の2次元での位置、大きさが分かる。バウンディングボックスの作成は、2次元画像上の物体を認識する物体認識技術等の既知のバウンディングボックスを作成する技術によって行われてもよい。
【0026】
また、処理装置10は、3次元センサフレーム上にバウンディングボックスを作成する。ここで、バウンディングボックスとは、3次元センサに計測された物体までの3次元距離から抽出された点群データからオブジェクト領域を囲む矩形の枠である。バウンディングボックスによって物体の3次元での位置、大きさ、向き(ある基準に対する向き(方向))が分かる。バウンディングボックスの作成は、3次元センサに計測された物体までの3次元距離から抽出された点群データ上の物体を認識する物体認識技術等の既知のバウンディングボックスを作成する技術によって行われてもよい。
【0027】
次に、処理装置10は、2次元画像フレーム上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加する。また、処理装置10は、3次元センサフレーム上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加する。物体の種類を示す情報の付加は、既知の物体の分類を示す情報を付加するアルゴリズムを処理装置10が実行することによって行われてもよい。
【0028】
次に、処理装置10は、2次元画像フレーム上に作成したバウンディングボックスに囲われた物体のうち、所定の物体の分類を示す情報が付加された物体の物体検出結果を取得する。処理装置10は、取得した物体検出結果(以下「2次元画像物体検出結果」という)を物体追跡装置20へ出力する。2次元画像物体検出結果は、物体の分類を示す情報が付加されたバウンディングボックスを特定する情報である。また、処理装置10は、3次元センサフレーム上に作成したバウンディングボックスに囲われた物体のうち、所定の物体の分類を示す情報が付加された物体の物体検出結果(以下「3次元センサ物体検出結果」という)を取得する。3次元画像物体検出結果は、物体の分類を示す情報が付加されたバウンディングボックスを特定する情報である。処理装置10は、取得した2次元画像物体検出結果及び3次元センサ物体検出結果を物体追跡装置20へ出力する。
【0029】
処理装置10は、第1周期で入力される2次元画像フレーム及び第2周期で入力される3次元センサフレームの少なくとも一方が欠損している場合、その欠損している2次元画像フレームの2次元画像情報又は3次元センサフレームの点群データを補間する。具体的には、処理装置10は、欠損している2次元画像フレームを、3次元センサフレームの点群データを変換したものによって補間し、又は欠損している3次元センサフレームを、2次元画像フレームの2次元画像情報を変換したものによって補間する。又は処理装置10は、欠損している時刻の2次元画像フレーム又は3次元センサフレームを、他の時刻の2次元画像フレームの2次元画像情報又は3次元センサフレームの点群データに基づいて推測したものによって補間する。
【0030】
処理装置10は、欠損している2次元画像フレームを補間した2次元画像フレーム(以下「補間2次元画像フレーム」という)、又は欠損している3次元センサフレームを補間した3次元センサフレーム(以下「補間3次元センサフレーム」という)に対して物体検出を行う。処理装置10は、物体検出を行った結果を、物体追跡装置20へ出力する。具体的には、処理装置10は、補間2次元画像フレーム上にバウンディングボックスを作成する。また、処理装置10は、補間3次元センサフレーム上にバウンディングボックスを作成する。
【0031】
次に、処理装置10は、補間2次元画像フレーム上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加する。また、処理装置10は、補間3次元センサフレーム上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加する。
【0032】
次に、処理装置10は、補間2次元画像フレーム上に作成したバウンディングボックスに囲われた物体のうち、所定の物体の分類を示す情報が付加された2次元画像物体検出結果を取得する。処理装置10は、取得した2次元画像物体検出結果を物体追跡装置20へ出力する。また、処理装置10は、補間3次元センサフレーム上に作成したバウンディングボックスに囲われた物体のうち、所定の物体の分類を示す情報が付加された3次元センサ物体検出結果を取得する。処理装置10は、取得した2次元画像物体検出結果及び3次元センサ物体検出結果を物体追跡装置20へ出力する。
【0033】
物体追跡装置20は、処理装置10が出力した2次元画像物体検出結果及び3次元センサ物体検出結果を取得する。物体追跡装置20は、取得した2次元画像物体検出結果及び3次元センサ物体検出結果を使用して、2次元画像上での物体追跡である2次元物体追跡又は3次元点群上での物体追跡である3次元物体追跡を行う。
【0034】
以下、処理装置10について詳細に説明する。処理装置10は、処理装置10-1から10-4を含んで構成される。処理装置10-1は、3次元センサフレームが欠損した場合に欠損した3次元センサフレーム以外の3次元センサフレームの点群データを使用して補間する。処理装置10-2は、3次元センサフレームが欠損した場合に2次元画像フレームの2次元画像情報を使用して補間する。処理装置10-3は、2次元画像フレームが欠損した場合に欠損した2次元画像フレーム以外の2次元画像フレームの2次元画像情報を使用して補間する。処理装置10-4は、2次元画像フレームが欠損した場合に3次元センサフレームの点群データを使用して補間する。以下、処理装置10-1~10-4について順次説明する。
【0035】
図2は、本実施形態に係る物体追跡システムの処理装置の例1を示す図である。処理装置10-1は、3次元センサフレームが欠損した場合に欠損した3次元センサフレーム以外の3次元センサフレームの点群データを使用して補間する。処理装置10-1は、3次元物体検出部11-1と、位置推測部12-1と、処理部13-1と、2次元物体検出部14-1とを備える。
【0036】
3次元物体検出部11-1には3次元センサフレームが入力される。3次元物体検出部11-1は、入力された3次元センサフレーム上にバウンディングボックスを作成する。3次元物体検出部11-1は、3次元センサフレーム上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加する。3次元物体検出部11-1は、3次元センサフレーム上に作成したバウンディングボックスに囲われた物体のうち、所定の物体の分類を示す情報が付加された物体の3次元センサ物体検出結果を取得する。3次元物体検出部11-1は、取得した3次元センサ物体検出結果を物体追跡装置20へ出力する。例えば、3次元物体検出部11-1は、3D Object Detector(3次元物体検出装置)によって構成され、R-CNNを利用して3次元センサフレーム上にバウンディングボックスを作成する。
【0037】
3次元物体検出部11-1は、3次元センサフレームが欠損している場合に、欠損している3次元センサフレーム間近の一又は複数の3次元センサフレームを取得し、取得した一又は複数の3次元センサフレームの各々上にバウンディングボックスを作成する。3次元物体検出部11-1は、一又は複数の3次元センサフレームの各々上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加する。
【0038】
位置推測部12-1は、3次元物体検出部11-1が一又は複数の3次元センサフレーム上に作成したバウンディングボックの位置に基づいて補間する物体の位置を推測する。例えば、位置推測部12-1は、IoU(Intersection over Union)を利用して補間する物体の位置を推測する。ここで、IoUは、物体検出で利用できる評価指標の一つである。IoUは、画像の重なりの割合を表す指標であり、IoUが大きいほど画像が重なっていることを示す。補間する物体の位置を推測する処理の詳細については後述する。
【0039】
処理部13-1は、3次元物体検出部11-1から一又は複数の3次元センサフレームの各々上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加した結果を取得し、位置推測部12-1から補間する物体の位置の推測結果を取得する。処理部13-1は、取得した補間する物体の位置の推測結果に基づいて、3次元センサフレームを補間する。例えば、処理部13-1は、3次元カルマンフィルタを含んで構成され、3次元カルマンフィルタは物体の位置情報を内部状態として有する。3次元カルマンフィルタは、補間する物体の位置の推測結果に基づいて内部状態を更新することによって物体の特徴を出力する。処理部13-1は、3次元カルマンフィルタが出力した物体の特徴によって3次元センサフレームを補間する。処理部13-1は、物体の特徴によって3次元センサフレームを補間した結果にバウンディングボックスを作成する。処理部13-1は、作成したバウンディングボックスに囲われた物体のうち、所定の物体の分類を示す情報が付加された物体の3次元センサ物体検出結果を取得する。処理部13-1は、取得した3次元センサ物体検出結果を、物体追跡装置20へ出力する。
【0040】
2次元物体検出部14-1には2次元画像フレームが入力される。2次元物体検出部14-1は、入力された2次元画像フレーム上にバウンディングボックスを作成する。2次元物体検出部14-1は、2次元画像フレーム上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加する。2次元物体検出部14-1は、2次元画像フレーム上に作成したバウンディングボックスに囲われた物体のうち、所定の物体の分類を示す情報が付加された物体の2次元物体検出結果を取得する。2次元物体検出部14-1は、取得した2次元物体検出結果を物体追跡装置20へ出力する。例えば、2次元物体検出部14-1は、2D Object Detector(2次元物体検出装置)によって構成され、Track RCNNを利用して2次元画像フレームから2次元物体検出結果を作成する。
【0041】
物体追跡装置20は、処理部13-1が出力した3次元センサ物体検出結果を取得し、2次元物体検出部14-1が出力した2次元物体検出結果を取得する。物体追跡装置20は、取得した3次元センサ物体検出結果及び2次元物体検出結果に基づいて、物体を追跡する。例えば、物体追跡装置20は、DeepFusionMOT(Multi-Object Tracking)を利用して物体を追跡する。DeepFusionMOTは、各センサで独立に抽出した特徴量を融合する手法である。物体追跡装置20は、2次元物体追跡の結果又は3次元物体追跡の結果を、位置推測部12-1へ出力するようにしてもよい。このように構成することによって、位置推測部12-1は、物体追跡装置20が出力した2次元物体追跡の結果又は3次元物体追跡の結果に基づいて、前フレームまでのトラック情報(追跡情報)を取得できるため、取得した前フレームまでのトラック情報を位置情報の更新(位置の推測)に使用できる。
【0042】
(位置を推測する処理)
位置推測部12-1が補間する物体の位置を推測する処理の詳細について説明する。位置推測部12-1は、欠損している3次元センサフレームの間近の一又は複数の3次元センサフレームに基づいて補間する物体の位置を推測する。一例として、位置推測部12-1が、欠損している3次元センサフレームの前に取得した2個の3次元センサフレームに基づいて補間する物体の位置を推測する場合について、平均値によって補間する場合、線形運動を仮定して補間する場合及びカルマンフィルタを使用する場合に分けて説明する。
【0043】
図3Aは、本実施形態に係る物体追跡システムの処理装置の動作の例1を説明するための図である。図3Aを参照して、平均値によって補間する場合について説明する。図3Aにおいて、横方向は時間を示し、黒丸は従来通り扱えるフレームを示し、白丸は補間するフレームを示す。2Ddetectionの横に並ぶ黒丸は2次元物体検出部14-1によって物体の検出が行われる2次元画像フレームを示し、3Ddetectionの横に並ぶ黒丸は3次元物体検出部11によって物体の検出が行われる3次元センサフレームを示す。3Ddetectionの横に並ぶ白丸は欠損した3次元センサフレームを示す。
【0044】
時刻T0での3次元物体検出部11-1による物体の検出の結果によって、処理部13-1において、3Dカルマンフィルタが状態遷移ベクトルF1に更新される(1)。位置推測部12-1は、時刻T2での3次元物体検出部11-1による物体の検出の結果を取得する。位置推測部12-1は、時刻T3での3次元センサフレームが欠損していた場合に、時刻T0のトラッキングの情報と時刻T2のトラッキングの情報とを使って、時刻T0の位置と時刻T2の位置とを導出する。
【0045】
位置推測部12-1は、時刻T2の位置と時刻T0の位置とから、時刻T3の位置を推測する。例えば、位置推測部12-1は、時刻T0の位置と時刻T2の位置との差分を求め、求めた差分を2で除算したものを時刻T2の位置に加えることによって時刻T3の位置を推測する(2)。
【0046】
時刻T3の位置の推測結果は、処理部13-1において、3次元カルマンフィルタに入力され、物体の特徴が取得される。処理部13-1は、3次元カルマンフィルタが出力した物体の特徴によって補間する(3)。
【0047】
時刻T5での3次元センサフレームが欠損していた場合においても、時刻T2のトラッキングの情報と時刻T4のトラッキングの情報とを使って同様の処理が行われ、時刻T5の位置の推測結果は、処理部13-1において、3次元カルマンフィルタに入力され、物体の特徴が取得される。処理部13-1は、3次元カルマンフィルタが出力した物体の特徴によって補間する(3)。
【0048】
図3Bは、本実施形態に係る物体追跡システムの処理装置の動作の例2を説明するための図である。図3Bを参照して、線形運動を仮定して補間する場合について説明する。図3Bにおいて、横方向は時間を示し、黒丸は従来通り扱えるフレームを示し、白丸は補間するフレームを示す。2Dtrackingの横に並ぶ黒丸は2次元物体検出部14-1によって物体の検出が行われる2次元画像フレームを示し、3Dtrackingの横に並ぶ黒丸は3次元物体検出部11によって物体の検出が行われる3次元センサフレームを示す。3Ddetectionの横に並ぶ白丸は欠損した3次元センサフレームを示す。
【0049】
位置推測部12-1は、時刻T2での3次元物体検出部11-1による物体の検出の結果を取得する。位置推測部12-1は、時刻T4での3次元物体検出部11-1による物体の検出の結果を取得する。位置推測部12-1は、時刻T5での3次元センサフレームが欠損していた場合に、時刻T2のトラッキングの情報と時刻T4のトラッキングの情報とを使って、時刻T2の位置と時刻T4の位置とを導出する(1)。位置推測部12-1は、時刻T2の位置と時刻T4の位置とを用いて、線形運動を仮定し、時刻T0の位置と時刻T2の位置とから時刻T0から時刻T2までの速さを導出し、時刻T2の位置と時刻T4の位置とから時刻T2から時刻T4までの速さを導出する。
【0050】
位置推測部12-1は、時刻T0から時刻T2までの速さと時刻T2から時刻T4までの速さとの差分から加速度を導出する。位置推測部12-1は、導出した加速度を使用して時刻T5の位置を推測する。時刻T5の位置の推測結果は、処理部13-1において、3次元カルマンフィルタに入力され、物体の特徴が取得される(2)。処理部13-1は、3次元カルマンフィルタが出力した物体の特徴によって補間する(3)。
【0051】
図3Cは、本実施形態に係る物体追跡システムの処理装置の動作の例3を説明するための図である。図3Cを参照して、カルマンフィルタを使用する場合について説明する。図3Cにおいて、横方向は時間を示し、黒丸は従来通り扱えるフレームを示し、白丸は補間するフレームを示す。2Dtrackingの横に並ぶ黒丸は2次元物体検出部14によって物体の検出が行われる2次元画像フレームを示し、3Dtrackingの横に並ぶ黒丸は3次元物体検出部11-1によって物体の検出が行われる3次元センサフレームを示す。3Ddetectionの横に並ぶ白丸は欠損した3次元センサフレームを示す。
【0052】
位置推測部12-1は、時刻T2での3次元物体検出部11-1による物体の検出の結果を取得する。位置推測部12-1は、時刻T3での3次元センサフレームが欠損していた場合に、時刻T2のトラッキングの情報を使って、時刻T2の位置を導出する。
【0053】
位置推測部12-1は、時刻T2の位置情報を、処理部13の3次元カルマンフィルタに入力し、3次元カルマンフィルタが出力した時刻T4の位置情報を取得する((1)、(2))。位置推測部12-1は、取得した時刻T4の位置情報と時刻T2の位置情報とに基づいて、時刻T4の位置と時刻T2の位置との差を2で除算することによって時刻T2から時刻T4の間の位置の変化量を導出する。位置推測部12-1は、導出した位置の変化量から時刻T3の位置を推測する。時刻T3の位置の推測結果は、処理部13-1において、3次元カルマンフィルタに入力され、物体の特徴が取得される。処理部13-1は、3次元カルマンフィルタが出力した物体の特徴によって補間する(3)。
【0054】
時刻T5での3次元センサフレームが欠損していた場合においても、時刻T2のトラッキングの情報を使って同様の処理が行われることによって時刻T5の位置が推測される。時刻T5の位置の推測結果は、処理部13-1において、3次元カルマンフィルタに入力され、物体の特徴が取得される。処理部13-1は、3次元カルマンフィルタが出力した物体の特徴によって補間する。
【0055】
図4は、本実施形態に係る物体追跡システムの処理装置の例2を示す図である。処理装置10-2は、3次元センサフレームが欠損した場合に2次元画像フレームの2次元画像情報を使用して補間する。処理装置10-2は、3次元物体検出部11-2と、処理部13-2と、2次元物体検出部14-2と、3次元物体検出部15-2とを備える。
【0056】
3次元物体検出部11-2は、3次元物体検出部11-1を適用できる。ただし、3次元物体検出部11-2は、3次元センサフレームが欠損している場合には、処理部13-2に、3次元センサ物体検出結果を、物体追跡装置20へ出力するように指示する。
2次元物体検出部14-2は、2次元物体検出部14-1を適用できる。
【0057】
3次元物体検出部15-2には2次元画像フレームが入力される。3次元物体検出部15-2は、入力された2次元画像フレーム上にバウンディングボックスを作成する。3次元物体検出部15-2は、2次元画像フレーム上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加する。処理部13-2は、2次元画像フレーム上に作成したバウンディングボックスに囲われた物体のうち、所定の物体の分類を示す情報が付加された物体の3次元センサ物体検出結果を取得する。
【0058】
処理部13-2は、取得した3次元センサ物体検出結果を、3次元物体検出部11-2から、3次元センサ物体検出結果を物体追跡装置20へ出力する指示が入力された場合に、物体追跡装置20へ出力する。例えば、3次元物体検出部15-2は、Monocular 3D Object Detection(単眼3次元物体検出)を利用して、バウンディングボックスを作成する。処理部13-2は、3次元物体検出部11-2から、3次元センサ物体検出結果を物体追跡装置20へ出力する指示が入力された場合に、欠損した3次元センサフレームを、その3次元センサフレームが入力される時刻と同時刻に3次元物体検出部15-2に入力された2次元画像フレームで補間し、その2次元画像フレームから作成された3次元センサ物体検出結果を物体追跡装置20へ出力する。
【0059】
図5は、本実施形態に係る物体追跡システムの処理装置の動作の例4を説明するための図である。図5において、横方向は時間を示し、黒丸は従来通り扱えるフレームを示し、白丸は補間するフレームを示す。2Dtrackingの横に並ぶ黒丸は2次元物体検出部14-2によって物体の検出が行われる2次元画像フレームを示し、3Dtrackingの横に並ぶ黒丸は3次元物体検出部11-2によって物体の検出が行われる3次元センサフレームを示す。3Dtrackingの横に並ぶ白丸は欠損した3次元センサフレームを示す。
【0060】
2次元画像フレームのうち3次元センサフレームと同数のフレームは2次元物体検出部14-2に入力され、残りが3次元物体検出部15-2に入力される。3次元物体検出部15-2は、Monocular 3D Object Detectionを利用して3D特徴の補間を行う。例えば、3次元物体検出部15-2は、2次元画像フレームの2次元画像情報に含まれるピクセルからヒートマップを抽出し、物体の中心点のピクセルの推測することによって物体の3次元位置、大きさ、向き、物体の種類を推測する。3次元物体検出部15-2は、物体の3次元位置、大きさ、向き、物体の種類を推測した結果を、バウンディングボックスに回帰する。3次元物体検出部15は、2次元画像フレームの2次元画像情報から物体の深度情報まで抽出し、3次元特徴の補間を行う。
【0061】
図6は、本実施形態に係る物体追跡システムの処理装置の例3を示す図である。処理装置10-3は、2次元画像フレームが欠損した場合に欠損した2次元画像フレーム以外の2次元画像フレームの2次元画像情報を使用して補間する。処理装置10-3は、3次元物体検出部11-3と、位置推測部12-3と、処理部13-3と、2次元物体検出部14-3とを備える。
【0062】
3次元物体検出部11-3は、3次元物体検出部11-1又は3次元物体検出部11-2を適用できる。2次元物体検出部14-3は、2次元物体検出部14-1を適用できる。ただし、2次元物体検出部14-3は、2次元画像フレームが欠損している場合に、欠損している2次元画像フレーム間近の一又は複数の2次元画像フレームを取得し、取得した一又は複数の2次元画像フレームの各々上にバウンディングボックスを作成する。2次元物体検出部14-1は、一又は複数の2次元画像フレームの各々上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加する。
【0063】
位置推測部12-3は、2次元物体検出部14-3が一又は複数の2次元画像フレーム上に作成したバウンディングボックの位置に基づいて補間する物体の位置を推測する。例えば、位置推測部12-3は、IoUを利用して補間する物体の位置を推測する。補間する物体の位置を推測する処理の詳細については後述する。
【0064】
処理部13-3は、2次元物体検出部14-3から一又は複数の2次元画像フレームの各々上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加した結果を取得し、位置推測部12-3から補間する物体の位置の推測結果を取得する。処理部13-3は、取得した補間する物体の位置の推測結果に基づいて、2次元画像フレームを補間する。例えば、処理部13-3は、2次元カルマンフィルタを含んで構成され、2次元カルマンフィルタは物体の位置情報を内部状態として有する。2次元カルマンフィルタは、補間する物体の位置の推測結果に基づいて内部状態を更新することによって物体の特徴を出力する。処理部13-3は、2次元カルマンフィルタが出力した物体の特徴によって2次元画像フレームを補間する。処理部13-3は、物体の特徴によって2次元画像フレームを補間した結果にバウンディングボックスを作成する。処理部13-3は、作成したバウンディングボックスに囲われた物体のうち、所定の物体の分類を示す情報が付加された物体の2次元画像物体検出結果を取得する。処理部13-3は、取得した2次元画像物体検出結果を、物体追跡装置20へ出力する。
【0065】
物体追跡装置20は、3次元物体検出部11-1が出力した3次元センサ物体検出結果を取得し、処理部13-3が出力した2次元画像物体検出結果を取得する。物体追跡装置20は、取得した3次元センサ物体検出結果及び2次元物体検出結果に基づいて、物体を追跡する。物体追跡装置20は、2次元物体追跡の結果又は3次元物体追跡の結果を、位置推測部12-3へ出力するようにしてもよい。このように構成することによって、位置推測部12-3は、物体追跡装置20が出力した2次元物体追跡の結果又は3次元物体追跡の結果に基づいて、前フレームまでのトラック情報(追跡情報)を取得できるため、取得した前フレームまでのトラック情報を位置情報の更新(位置の推測)に使用できる。
【0066】
(位置を推測する処理)
位置推測部12-3が補間する物体の位置を推測する処理の詳細について説明する。位置推測部12-3は、欠損している2次元センサフレームの間近の一又は複数の2次元センサフレームに基づいて保管する物体の位置を推測する。一例として、位置推測部12-3が、欠損している2次元センサフレームの前に取得した2個の2次元画像フレームに基づいて保管する物体の位置を推測する場合について説明する。
【0067】
図7Aは、本実施形態に係る物体追跡システムの処理装置の動作の例5を説明するための図である。図7Aを参照して、平均値によって補間する場合について説明する。図7Aにおいて、横方向は時間を示し、黒丸は従来通り扱えるフレームを示し、白丸は補間するフレームを示す。2Ddetectionの横に並ぶ黒丸は2次元物体検出部14-3によって物体の検出が行われる2次元画像フレームを示し、3Ddetectionの横に並ぶ黒丸は3次元物体検出部11によって物体の検出が行われる3次元センサフレームを示す。2Ddetectionの横に並ぶ白丸は欠損した2次元画像フレームを示す。
【0068】
時刻T0での2次元物体検出部14-3による物体の検出の結果によって、処理部13-3において、2Dカルマンフィルタが状態遷移ベクトルF1に更新される(1)。位置推測部12-3は、時刻T2での2次元物体検出部14-3による物体の検出の結果を取得する。位置推測部12-3は、時刻T3での2次元画像フレームが欠損していた場合に、時刻T0のトラッキングの情報と時刻T2のトラッキングの情報とを使って、時刻T0の位置と時刻T2の位置とを導出する。
位置推測部12-3は、時刻T2の位置と時刻T0の位置とから、時刻T3の位置を推測する。例えば、位置推測部12-3は、時刻T0の位置と時刻T2の位置との差分を求め、求めた差分を2で除算したものを時刻T2の位置に加えることによって時刻T3の位置を推測する(2)。
【0069】
時刻T3の位置の推測結果は、処理部13-3において、2次元カルマンフィルタに入力され、物体の特徴が取得される。処理部13-3は、2次元カルマンフィルタが出力した物体の特徴によって補間する(3)。
【0070】
時刻T5での2次元画像フレームが欠損していた場合においても、時刻T2のトラッキングの情報と時刻T4のトラッキングの情報とを使って同様の処理が行われ、時刻T5の位置の推測結果は、処理部13-3において、2次元カルマンフィルタに入力され、物体の特徴が取得される。処理部13-3は、2次元カルマンフィルタが出力した物体の特徴によって補間する(3)。
【0071】
図7Bは、本実施形態に係る物体追跡システムの処理装置の動作の例6を説明するための図である。図7Bを参照して、線形運動を仮定して補間する場合について説明する。図7Bにおいて、横方向は時間を示し、黒丸は従来通り扱えるフレームを示し、白丸は補間するフレームを示す。2Dtrackingの横に並ぶ黒丸は2次元物体検出部14-3によって物体の検出が行われる2次元画像フレームを示し、3Dtrackingの横に並ぶ黒丸は3次元物体検出部11によって物体の検出が行われる3次元センサフレームを示す。2Ddetectionの横に並ぶ白丸は欠損した2次元画像フレームを示す。
【0072】
位置推測部12-3は、時刻T2での2次元物体検出部14-3による物体の検出の結果を取得する。位置推測部12-3は、時刻T4での2次元物体検出部14-3による物体の検出の結果を取得する。位置推測部12-3は、時刻T5での2次元画像フレームが欠損していた場合に、時刻T2のトラッキングの情報と時刻T4のトラッキングの情報とを使って、時刻T2の位置と時刻T4の位置とを導出する(1)。位置推測部12-3は、時刻T2の位置と時刻T4の位置とを用いて、線形運動を仮定し、時刻T0の位置と時刻T2の位置とから時刻T0から時刻T2までの速さを導出し、時刻T2の位置と時刻T4の位置とから時刻T2から時刻T4までの速さを導出する。
【0073】
位置推測部12-3は、時刻T0から時刻T2までの速さと時刻T2から時刻T4までの速さとの差分から加速度を導出する。位置推測部12-3は、導出した加速度を使用して時刻T5の位置を推測する。時刻T5の位置の推測結果は、処理部13-3において、2次元カルマンフィルタに入力され、物体の特徴が取得される(2)。処理部13-3は、2次元カルマンフィルタが出力した物体の特徴によって補間する(3)。
【0074】
図7Cは、本実施形態に係る物体追跡システムの処理装置の動作の例7を説明するための図である。図7Cを参照して、カルマンフィルタを使用する場合について説明する。図7Cにおいて、横方向は時間を示し、黒丸は従来通り扱えるフレームを示し、白丸は補間するフレームを示す。2Dtrackingの横に並ぶ黒丸は2次元物体検出部14によって物体の検出が行われる2次元画像フレームを示し、3Dtrackingの横に並ぶ黒丸は3次元物体検出部11-3によって物体の検出が行われる3次元センサフレームを示す。2Dtrackingの横に並ぶ白丸は欠損した2次元画像フレームを示す。
【0075】
位置推測部12-3は、時刻T2での2次元物体検出部14-3による物体の検出の結果を取得する。位置推測部12-3は、時刻T3での2次元センサフレームが欠損していた場合に、時刻T2のトラッキングの情報を使って、時刻T2の位置を導出する。
【0076】
位置推測部12-3は、時刻T2の位置情報を、処理部13の2次元カルマンフィルタに入力し、2次元カルマンフィルタが出力した時刻T4の位置情報を取得する((1)、(2))。位置推測部12-3は、取得した時刻T4の位置情報と時刻T2の位置情報とに基づいて、時刻T4の位置と時刻T2の位置との差を2で除算することによって時刻T2から時刻T4の間の位置の変化量を導出する。位置推測部12-3は、導出した位置の変化量から時刻T3の位置を推測する。時刻T3の位置の推測結果は、処理部13-3において、2次元カルマンフィルタに入力され、物体の特徴が取得される。処理部13-3は、2次元カルマンフィルタが出力した物体の特徴によって補間する(3)。
【0077】
時刻T5での2次元画像フレームが欠損していた場合においても、時刻T2のトラッキングの情報を使って同様の処理が行われることによって時刻T5の位置が推測される。時刻T5の位置の推測結果は、処理部13-3において、2次元カルマンフィルタに入力され、物体の特徴が取得される。処理部13-3は、2次元カルマンフィルタが出力した物体の特徴によって補間する。
【0078】
図8は、本実施形態に係る物体追跡システムの処理装置の例8を示す図である。処理装置10-4は、2次元画像フレームが欠損した場合に3次元センサフレームの3次元センサ情報を使用して補間する。処理装置10-4は、3次元物体検出部11-4と、処理部13-4と、2次元物体検出部14-4と、2次元物体検出部16-4とを備える。
【0079】
3次元物体検出部11-4は、3次元物体検出部11-1又は3次元物体検出部11-3を適用できる。2次元物体検出部14-4は、2次元物体検出部14-1又は2次元物体検出部14-3を適用できる。ただし、2次元物体検出部14-4は、2次元画像フレームが欠損している場合には、処理部13-4に、2次元画像物体検出結果を、物体追跡装置20へ出力するように指示する。
【0080】
2次元物体検出部16-4には3次元センサフレームが入力される。2次元物体検出部16-4は、入力された3次元センサフレーム上に3D Object Detectionによってバウンディングボックスを作成する。2次元物体検出部16-4は、3次元センサフレーム上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加する。
【0081】
処理部13-4は、3次元センサフレーム上に作成したバウンディングボックスに囲われた物体点群のうち、所定の物体の分類を示す情報が付加された物体点群から2次元画像物体検出結果を取得する。処理部13-4は、取得した2次元画像物体検出結果を、2次元物体検出部14-4から、2次元画像物体検出結果を物体追跡装置20へ出力する指示が入力された場合に、物体追跡装置20へ出力する。
【0082】
例えば、2次元物体検出部16-4は、Point-GNNを利用して2次元の物体の特徴の補間を行う。Point-GNNは点群を繋ぎ合わせグラフ化し、2次元の物体の特徴の抽出を行う手法である。グラフによる特徴抽出で点群のサンプリングとグルーピングの回数を節約し計算量を増やさないようにできる。軽量かつ、点群の情報を多く利用できるこの手法を用いることによって、点群から2次元の物体検出の情報(2D特徴)を抽出できるため、2次元特徴を補間できる。
【0083】
図9は、本実施形態に係る物体追跡システムの処理装置の動作の例8を説明するための図である。図9において、横方向は時間を示し、黒丸は従来通り扱えるフレームを示し、白丸は補間するフレームを示す。2Dtrackingの横に並ぶ黒丸は2次元物体検出部14-4によって物体の検出が行われる2次元画像フレームを示し、3Dtrackingの横に並ぶ黒丸は3次元物体検出部11-4によって物体の検出が行われる3次元センサフレームを示す。2Dtrackingの横に並ぶ白丸は欠損した2次元画像フレームを示す。
3次元センサフレームのうち2次元画像フレームと同数のフレームは3次元物体検出部11-4に入力され、残りが2次元物体検出部16-4に入力される。2次元物体検出部16-4は、Point-GNNを利用して2次元特徴の補間を行う。
【0084】
3次元物体検出部11-1~11-4、位置推測部12-1、12-3、処理部13-1~13-4、2次元物体検出部14-1~14-4、3次元物体検出部15-2及び2次元物体検出部16-4の全部または一部は、例えば、CPU(Central Processing Unit)などのプロセッサが記憶部(図示なし)に格納されたプログラムを実行することにより実現される機能部(以下、ソフトウェア機能部と称する)である。
なお、3次元物体検出部11-1~11-4、位置推測部12-1、12-3、処理部13-1~13-4、2次元物体検出部14-1~14-4、3次元物体検出部15-2及び2次元物体検出部16-4の全部または一部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などのハードウェアにより実現されてもよく、ソフトウェア機能部とハードウェアとの組み合わせによって実現されてもよい。
【0085】
(物体追跡システムの動作)
図10は、本実施形態に係る物体追跡システムの動作の一例を示す図である。図10を参照して、物体追跡システム100が物体を追跡する処理について説明する。以下、3次元物体検出部11-1~11-4のうち任意の3次元物体検出部を3次元物体検出部11と記載し、処理部13-1~13-4のうち任意の処理部を処理部13と記載し、2次元物体検出部14-1~14-4のうち任意の2次元物体検出部を2次元物体検出部14と記載する。
【0086】
(ステップS1)
処理装置10において、3次元物体検出部11及び2次元物体検出部14は、それぞれ3次元センサフレーム及び2次元画像フレームが揃っているか否かを判定する。
【0087】
(ステップS2)
処理装置10において、3次元物体検出部11及び2次元物体検出部14が、それぞれ3次元センサフレーム及び2次元画像フレームが揃っていると判定した場合(ステップS1:YES)、処理部13は、補間処理を行わない。
【0088】
(ステップS3)
処理装置10において、3次元物体検出部11及び2次元物体検出部14の少なくとも一方が、それぞれ3次元センサフレーム及び2次元画像フレームが揃っていないと判定した場合(ステップS1:NO)、3次元物体検出部11及び2次元物体検出部14は、欠損データの種類を判定する。
【0089】
(ステップS4)
処理装置10において、2次元物体検出部14が、2次元画像フレームが揃っていないと判定した場合(ステップS3:2D)、以下の処理が行われる。処理部13-3は、2次元物体検出部14-3から一又は複数の2次元画像フレームの各々上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加した結果を取得し、位置推測部12-3から補間する物体の位置の推測結果を取得する。処理部13-3は、取得した補間する物体の位置の推測結果に基づいて、2次元画像フレームを補間する。又は処理部13-4は、3次元センサフレーム上に作成したバウンディングボックスに囲われた物体のうち、所定の物体の分類を示す情報が付加された物体の2次元画像物体検出結果を取得する。処理部13-4は、取得した2次元画像物体検出結果を、2次元物体検出部14-4から、2次元画像物体検出結果を物体追跡装置20へ出力する指示が入力された場合に、物体追跡装置20へ出力する。
【0090】
(ステップS5)
処理装置10において、3次元物体検出部11が、3次元センサフレームが揃っていないと判定した場合(ステップS3:3D)、以下の処理が行われる。処理部13-1は、3次元物体検出部11-1から一又は複数の3次元センサフレームの各々上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加した結果を取得し、位置推測部12-1から補間する物体の位置の推測結果を取得する。処理部13-1は、取得した補間する物体の位置の推測結果に基づいて、3次元センサフレームを補間する。又は、処理部13-2は、取得した3次元センサ物体検出結果を、3次元物体検出部11-2から、3次元センサ物体検出結果を物体追跡装置20へ出力する指示が入力された場合に、物体追跡装置20へ出力する。
【0091】
(ステップS6)
処理装置10において、2次元物体検出部14が、2次元画像フレームが揃っていないと判定し、3次元物体検出部11が、3次元センサフレームが揃っていないと判定した場合(ステップS3:2D及び3D)、以下の処理が行われる。処理部13-1は、3次元物体検出部11-1から一又は複数の3次元センサフレームの各々上に作成したバウンディングボックス内の物体に対して、当該物体の種類を示す情報を付加した結果を取得し、位置推測部12-1から補間する物体の位置の推測結果を取得する。処理部13-1は、取得した補間する物体の位置の推測結果に基づいて、3次元センサフレームを補間する。又は、処理部13-2は、取得した3次元センサ物体検出結果を、3次元物体検出部11-2から、3次元センサ物体検出結果を物体追跡装置20へ出力する指示が入力された場合に、物体追跡装置20へ出力する。
【0092】
さらに、処理部13-3は、取得した補間する物体の位置の推測結果に基づいて、2次元画像フレームを補間する。又は処理部13-4は、3次元センサフレーム上に作成したバウンディングボックスに囲われた物体のうち、所定の物体の分類を示す情報が付加された物体の2次元画像物体検出結果を取得する。処理部13-4は、取得した2次元画像物体検出結果を、2次元物体検出部14-4から、2次元画像物体検出結果を物体追跡装置20へ出力する指示が入力された場合に、物体追跡装置20へ出力する。
【0093】
(ステップS7)
処理装置10は、2次元画像物体検出結果及び3次元センサ物体検出結果を、物体追跡装置20へ出力する。物体追跡装置20は、処理装置10から取得した2次元画像物体検出結果及び3次元センサ物体検出結果を使用して2次元物体追跡又は3次元物体追跡を行う。
【0094】
本実施形態に係る物体追跡システムの効果について、欠損した3次元センサフレームを補間する場合と欠損した2次元画像フレームを補間する場合とに分けて説明する。
【0095】
データセットについて説明する。欠損した3次元センサフレームを補間する場合について説明する。データセットは、一例として自動運転用として広く用いられているKITTIを利用したが、これに限定されず、他のデータセットを利用することができる。KITTIデータセットには7480枚のDetection用の画像と8008枚、21シーンに分けられたTracking用画像が用意されている。物体のクラスとしては自動車、歩行者及び自転車の3つあり、物体の検出難易度ごとにもクラス分けがされている。学習・評価用にDetection用の画像及び点群データとその物体検出の教師データを利用し、テスト用にTracking用の画像及び点群データとその物体検出の教師データを利用した。また、物体のクラスは自動車のみを扱った。検出の難易度に関しては分類せず、全ての難易度のデータを学習・評価・テストに用いた。
【0096】
欠損した3次元センサフレームを想定し、KITTIデータセットにおける3次元センサフレームの入力を5FPS、2次元画像フレームの入力を10FPSとした。3次元センサフレームが欠損した場合に欠損した3次元センサフレーム以外の3次元センサフレームの3次元センサ情報を使用して補間する方法、及び3次元センサフレームが欠損した場合に2次元画像フレームの2次元画像情報を使用して補間する方法で実験を行った。比較用に、3次元センサフレームを5FPS、2次元画像フレームを10FPSにして入力するが補間を全く行わない手法と、3次元センサフレーム及び2次元画像フレームを10FPSの入力で補間を全く行わない手法についても実験を行った。
【0097】
評価指標について説明する。評価指標にはバウンディングボックスの検出精度を測る際に用いるMOTA(Multiple Object Tracking Accuracy)、それを積分したsAMOTA(scaled Average MOTA)、平均値を取ったAMOTA(Average MOTA)を利用した。MOTAは正解のバウンディングボックスに対して推測のバウンディングボックスが何個あるかの割合を示す。sAMOTAはMOTAの関数を積分して、それが0(最小)から1(最大)となるように調整した評価指標である。AMOTAはMOTAの平均値を表す。
【0098】
図11は、本実施形態に係る物体追跡システムの効果の例1を示す図である。図11では、欠損した3次元センサフレームを想定しているので、2次元画像フレームの入力を10FPSで固定し、3次元センサフレームの入力FPSを変更した。
【0099】
図11において、一番上と一番下の行を除く間の4行(2行目から5行目)が、補間とともにTrackingを行った手法である。2行目は平均値によって補間する場合であり、3行目は線形運動を仮定して補間する場合であり、4行目はカルマンフィルタを使用する場合であり、5行目はMonoFlexを使用する場合である。2行目から4行目の3Dから3D情報補間を行う手法に関しては、手法による精度の差は大きく見られなかった。2Dから3D情報補間を行う手法では、画像の有効活用に成功し、5FPSの入力でも10FPSのLiDARを使用する際に匹敵していることが分かった。
【0100】
欠損した2次元画像フレームを想定し、KITTIデータセットにおける2次元画像フレームの入力を5FPS、3次元センサフレームの入力を10FPSとした。2次元画像フレームが欠損した場合に欠損した2次元画像フレーム以外の2次元画像フレームの2次元画像情報を使用して補間する方法、及び2次元画像フレームが欠損した場合に3次元センサフレームの2次元画像情報を使用して補間する方法で実験を行った。比較用に、3次元センサフレームを5FPS、2次元画像フレームを10FPSにして入力するが補間を全く行わない手法と、3次元センサフレーム及び2次元画像フレームを10FPSの入力で補間を全く行わない手法についても実験を行った。
【0101】
図12は、本実施形態に係る物体追跡システムの効果の例2を示す図である。図12では、欠損した2次元画像フレームを想定しているので、3次元センサフレームの入力を10FPSで固定し、3次元センサフレームの入力FPSを変更した。
【0102】
図12において、一番上と一番下の行を除く間の4行(2行目から5行目)が、補間とともにTrackingを行った手法である。2行目は平均値によって補間する場合であり、3行目は線形運動を仮定して補間する場合であり、4行目はカルマンフィルタを使用する場合であり、5行目はPoint-GNNを使用する場合である。2行目から4行目の2Dから2D情報補間を行う手法に関しては、手法による精度の差は大きく見られなかった。3Dから2D情報補間を行う手法では、LiDARフレームの有効活用に成功し、5FPSの入力でも10FPSのカメラを使用する際に匹敵しており、MOTAのスコアに関しては、10FPSのカメラを利用する際よりも高い数値となった。
【0103】
本実施形態に係る物体追跡システム100によれば、処理装置10は、任意の時刻に入力される2次元画像情報及び3次元センサ情報の少なくとも一方が欠損している場合に、当該欠損している2次元画像情報又は3次元センサ情報を補間し、欠損している前記2次元画像情報又は前記3次元センサ情報を補間した2次元画像情報及び3次元センサ情報に基づく物体検出結果を物体追跡装置へ出力する処理部(13-1、13-2、13-3、13-4)を備える。処理部は、当該欠損している2次元画像情報又は3次元センサ情報の一方を、2次元画像情報及び3次元センサ情報の他方を変換したものによって補間する、又は当該欠損している時刻の2次元画像情報又は3次元センサ情報を、他の時刻の2次元画像情報又は3次元センサ情報に基づいて推測したものによって補間する。このように構成することによって、任意の時刻に入力される2次元画像情報及び3次元センサ情報の少なくとも一方が欠損している場合でも、欠損している2次元画像情報又は3次元センサ情報を補間した2次元画像情報及び3次元センサ情報に基づく物体検出結果を物体追跡装置20へ出力できるため、物体追跡装置20において3次元センサ情報と2次元画像情報とを統合し、周囲環境を認識できる。
【0104】
また、3次元センサ情報が欠損している場合に、当該欠損している3次元センサ情報間近の3次元センサ情報に含まれる3次元物体を検出する3次元物体検出部11-1と、3次元物体検出部11-1が検出した3次元物体の位置に基づいて補間する3次元物体の位置を推測する位置推測部12-1とをさらに備え、処理部13-1は、位置推測部12-1が推測した補間する3次元物体の位置情報に基づいて、欠損している3次元センサ情報を補間する。このように構成することによって、3次元センサ情報が欠損している場合に、当該欠損している3次元センサ情報間近の3次元センサ情報に基づいて補間する3次元物体の位置を推測できるため、補間する3次元物体の位置情報に基づいて、欠損している3次元センサ情報を補間できる。
【0105】
また、3次元物体検出部11-1は、欠損している3次元センサ情報より前の複数の3次元センサ情報の各々に含まれる3次元物体を検出し、位置推測部12-1は、3次元物体検出部11-1が検出した3次元物体の複数の位置の平均値に基づいて、補間する3次元物体の位置を推測する。このように構成することによって、欠損している3次元センサ情報より前の複数の3次元センサ情報の各々に含まれる3次元物体の複数の位置の平均値に基づいて、補間する3次元物体の位置を推測できる。
【0106】
また、3次元物体検出部11-1は、欠損している3次元センサ情報より前の複数の3次元センサ情報の各々に含まれる3次元物体を検出し、位置推測部12-1は、3次元物体検出部11-1が検出した3次元物体の複数の位置から、移動速度及び加速度を導出し、導出した移動速度及び加速度に基づいて、補間する3次元物体の位置を推測する。このように構成することによって、欠損している3次元センサ情報より前の複数の3次元センサ情報の各々に含まれる3次元物体の複数の位置から移動速度及び加速度を導出できるため、導出された移動速度及び加速度に基づいて、補間する3次元物体の位置を推測できる。
【0107】
また、位置推測部12-1は、3次元物体検出部11-1が検出した3次元物体の位置から、欠損している3次元センサ情報より後の3次元物体の位置を推測し、推測した3次元物体の位置に基づいて、補間する3次元物体の位置を推測する。このように構成することによって、3次元物体の位置から、欠損している3次元センサ情報より後の3次元物体の位置を推測できるため、推測した3次元物体の位置に基づいて、補間する3次元物体の位置を推測できる。
【0108】
また、3次元センサ情報が欠損している場合に、当該欠損している3次元センサ情報間近の2次元画像情報から、3次元物体を検出する3次元物体検出部15-2をさらに備え、処理部13-2は、欠損している3次元センサ情報を、3次元物体検出部15-2が検出した3次元によって補間する。このように構成することによって、3次元センサ情報が欠損している場合に、当該欠損している3次元センサ情報間近の2次元画像情報から、3次元物体を検出できるため、欠損している3次元センサ情報を、3次元物体検出部15-2が検出した3次元物体によって補間できる。
【0109】
また、2次元画像情報が欠損している場合に、当該欠損している2次元画像情報間近の2次元画像情報に含まれる2次元物体を検出する2次元物体検出部14-3と、2次元物体検出部14-3が検出した2次元物体の位置に基づいて補間する2次元物体の位置を推測する位置推測部12-3とをさらに備え、処理部13-3は、位置推測部12-3が推測した補間する2次元物体の位置情報に基づいて、欠損している2次元画像情報を補間する。このように構成することによって、2次元画像情報が欠損している場合に、当該欠損している2次元画像情報間近の2次元画像情報に基づいて補間する2次元物体の位置を推測できるため、補間する2次元物体の位置情報に基づいて、欠損している2次元画像情報を補間できる。
【0110】
また、2次元物体検出部14-3は、欠損している2次元画像情報より前の複数の2次元画像情報の各々に含まれる2次元物体を検出し、位置推測部12-3は、2次元物体検出部14-3が検出した2次元物体の複数の位置の平均値に基づいて、補間する2次元物体の位置を推測する。このように構成することによって、欠損している2次元画像情報より前の複数の2次元画像情報の各々に含まれる2次元物体の複数の位置の平均値に基づいて、補間する2次元物体の位置を推測できる。
【0111】
また、2次元物体検出部14-3は、欠損している2次元画像情報より前の複数の2次元画像情報の各々に含まれる2次元物体を検出し、位置推測部12-3は、2次元物体検出部14-3が検出した2次元物体の複数の位置から、移動速度及び加速度を導出し、導出した移動速度及び前記加速度に基づいて、補間する2次元物体の位置を推測する。このように構成することによって、欠損している2次元画像情報より前の複数の2次元画像情報の各々に含まれる2次元物体の複数の位置から移動速度及び加速度を導出できるため、導出された移動速度及び加速度に基づいて、補間する2次元物体の位置を推測できる。
【0112】
また、位置推測部12-3は、2次元物体検出部14-3が検出した2次元物体の位置から、欠損している2次元画像情報より後の2次元物体の位置を推測し、推測した2次元物体の位置に基づいて、補間する2次元物体の位置を推測する。このように構成することによって、2次元物体の位置から、欠損している2次元画像情報より後の2次元物体の位置を推測できるため、推測した2次元物体の位置に基づいて、補間する2次元物体の位置を推測できる。
【0113】
また、2次元画像情報が欠損している場合に、当該欠損している2次元画像情報間近の3次元センサ情報から、2次元物体を検出する2次元物体検出部16-4をさらに備え、処理部13-4は、欠損している2次元画像情報を、2次元物体検出部16-4が検出した2次元物体によって補間する。このように構成することによって、2次元画像情報が欠損している場合に、当該欠損している2次元画像情報間近の2次元画像情報から、2次元物体を検出できるため、欠損している2次元画像情報を、2次元物体検出部16-4が検出した2次元物体によって補間できる。
【0114】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0115】
10、10-1、10-2、10-3、10-4…処理装置
20…物体追跡装置
11-1、11-2、11-3、11-4…3次元物体検出部
12-1、12-3…位置推測部
13-1、13-2、13-3、13-4…処理部
14-1、14-2、14-3、14-4…2次元物体検出部
15-2…3次元物体検出部
16-4…2次元物体検出部
100…物体追跡システム
図1
図2
図3A
図3B
図3C
図4
図5
図6
図7A
図7B
図7C
図8
図9
図10
図11
図12