(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-31
(45)【発行日】2024-02-08
(54)【発明の名称】車両追跡方法、装置及び電子機器
(51)【国際特許分類】
G06T 7/00 20170101AFI20240201BHJP
G06T 7/246 20170101ALI20240201BHJP
G06V 10/44 20220101ALI20240201BHJP
G06V 20/56 20220101ALI20240201BHJP
G08G 1/00 20060101ALI20240201BHJP
【FI】
G06T7/00 650B
G06T7/246
G06V10/44
G06V20/56
G08G1/00 A
(21)【出願番号】P 2022545432
(86)(22)【出願日】2020-10-30
(86)【国際出願番号】 CN2020125446
(87)【国際公開番号】W WO2021238062
(87)【国際公開日】2021-12-02
【審査請求日】2022-07-26
(31)【優先権主張番号】202010478496.9
(32)【優先日】2020-05-29
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100114557
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】ジャン,ウェイ
(72)【発明者】
【氏名】タン,シャオ
(72)【発明者】
【氏名】スン,ハオ
(72)【発明者】
【氏名】ウェン,シーレイ
(72)【発明者】
【氏名】ジャン,ホンウー
(72)【発明者】
【氏名】ディン,アールイ
【審査官】松浦 功
(56)【参考文献】
【文献】特開2011-118450(JP,A)
【文献】特開2017-111654(JP,A)
【文献】米国特許出願公開第2014/0336848(US,A1)
【文献】中国特許出願公開第109389671(CN,A)
【文献】VOIGTLAENDER, P. et al.,MOTS: Multi-Object Tracking and Segmentation,2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) [online],IEEE,2019年,pp. 7934-7943,[検索日 2023.08.08], インターネット,URL:https://ieeexplore.ieee.org/abstract/document/8953401
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 -20/90
G08G 1/00 - 1/16
G06T 1/00
H04N 7/18
(57)【特許請求の範囲】
【請求項1】
車両の走行中に収集されたビデオストリームから、現時点でのターゲット画像を抽出するステップと、
前記ターゲット画像に対してインスタンスセグメンテーションを行って、前記ターゲット画像内の各車両に対応する検出フレームを取得するステップと、
各前記車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出するステップと、
前記各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理して、前記ターゲット画像内の各車両の特徴を決定するステップと、
前記ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、前記ターゲット画像内の各車両の走行軌跡を決定するステップであって、前記履歴画像は、前記ビデオストリームにおける前記ターゲット画像に隣接する前のnフレームの画像であり、nは正の整数であるステップと、を含
み、
各車両に対応する検出フレームはマスク領域及び非マスク領域を含み、
前記各車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出するステップは、
各車両に対応する検出フレーム内のマスク領域から第1のピクセルポイントのサブセットを抽出するステップと、
各車両に対応する検出フレーム内の非マスク領域から第2のピクセルポイントのサブセットを抽出するステップと、を含み、
前記各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理するステップは、
予め設定されたポイントクラウドモデルの第1のエンコーダを使用して、各車両に対応する第1のピクセルポイントのサブセット内の各ピクセルポイントの画像特徴をエンコードして、各車両に対応する第1のベクトルを決定するステップと、
前記予め設定されたポイントクラウドモデルの第2のエンコーダを使用して、各車両に対応する第2のピクセルポイントのサブセット内の各ピクセルポイントの画像特徴をエンコードして、各車両に対応する第2のベクトルを決定するステップと、
前記予め設定されたポイントクラウドモデルのデコーダーを使用して、各車両に対応する第1のベクトル及び第2のベクトルをデコードして、各車両の特徴を決定するステップと、を含む、
ことを特徴とする車両追跡方法。
【請求項2】
前記第1のピクセルポイントのサブセットに含まれるピクセルポイントの数は、前記第2のピクセルポイントのサブセットに含まれるピクセルポイントの数と同じである、
ことを特徴とする請求項
1に記載の方法。
【請求項3】
前記ターゲット画像に対してインスタンスセグメンテーションを行って、前記ターゲット画像内の各車両に対応する検出フレームを取得するステップは、
前記ターゲット画像内の各ピクセルポイントの特徴に基づいて、前記ターゲット画像内のピクセルポイントをクラスタリングし、クラスタリング結果に基づいて前記ターゲット画像内の各車両に対応する検出フレームを決定するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、前記ターゲット画像内の各車両の走行軌跡を決定するステップは、
前記ターゲット画像内の第1の車両の特徴と、履歴画像内の第2の車両の特徴との一致度が閾値よりも大きい場合、前記ターゲット画像の取得位置と取得時間とに基づいて、前記第2の車両の走行軌跡を更新するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項5】
車両の走行中に収集されたビデオストリームから、現時点でのターゲット画像を抽出するための第1の抽出モジュールと、
前記ターゲット画像に対してインスタンスセグメンテーションを行って、前記ターゲット画像内の各車両に対応する検出フレームを取得するためのインスタンスセグメンテーションモジュールと、
各前記車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出するための第2の抽出モジュールと、
前記各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理して、前記ターゲット画像内の各車両の特徴を決定するための第1の決定モジュールと、
前記ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、前記ターゲット画像内の各車両の走行軌跡を決定するための第2の決定モジュールであって、前記履歴画像は、前記ビデオストリームにおける前記ターゲット画像に隣接する前のnフレームの画像であり、nは正の整数である第2の決定モジュールと、を含
み、
各車両に対応する検出フレームはマスク領域及び非マスク領域を含み、
第2の抽出モジュールが、
各車両に対応する検出フレーム内のマスク領域から第1のピクセルポイントのサブセットを抽出するための第1の抽出ユニットと、
各車両に対応する検出フレーム内の非マスク領域から第2のピクセルポイントのサブセットを抽出するための第2の抽出ユニットと、を含み、
前記第1の決定モジュールが、
予め設定されたポイントクラウドモデルの第1のエンコーダを使用して、各車両に対応する第1のピクセルポイントのサブセット内の各ピクセルポイントの画像特徴をエンコードして、各車両に対応する第1のベクトルを決定するための第1の決定ユニットと、
前記予め設定されたポイントクラウドモデルの第2のエンコーダを使用して、各車両に対応する第2のピクセルポイントのサブセット内の各ピクセルポイントの画像特徴をエンコードして、各車両に対応する第2のベクトルを決定するための第2の決定ユニットと、
前記予め設定されたポイントクラウドモデルのデコーダーを使用して、各車両に対応する第1のベクトル及び第2のベクトルをデコードして、各車両の特徴を決定するための第3の決定ユニットと、を含む、
ことを特徴とする車両追跡装置。
【請求項6】
前記第1のピクセルポイントのサブセットに含まれるピクセルポイントの数は、前記第2のピクセルポイントのサブセットに含まれるピクセルポイントの数と同じである、
ことを特徴とする請求項
5に記載の装置
。
【請求項7】
前記インスタンスセグメンテーションモジュールが、
前記ターゲット画像内の各ピクセルポイントの特徴に基づいて、前記ターゲット画像内のピクセルポイントをクラスタリングし、クラスタリング結果に基づいて前記ターゲット画像内の各車両に対応する検出フレームを決定するためのクラスタリング処理ユニットを含む、
ことを特徴とする請求項
5又は6に記載の装置
。
【請求項8】
前記第2の決定モジュールが、
前記ターゲット画像内の第1の車両の特徴と履歴画像内の第2の車両の特徴との一致度が閾値よりも大きい場合、前記ターゲット画像の取得位置と取得時間とに基づいて、前記第2の車両の走行軌跡を更新するための更新ユニットを含む、
ことを特徴とする請求項
5又は6に記載の装置。
【請求項9】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1~
4のいずれかに記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
ことを特徴とする電子機器。
【請求項10】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~
4のいずれかに記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項11】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項1~
4のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【関連出願の相互参照】
【0001】
本願は、バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッドが2020年05月29日に提出した、発明の名称が「車両追跡方法、装置及び電子機器」であり、中国特許出願番号が「202010478496.9」であるものの優先権を主張する。
【技術分野】
【0002】
本願は、コンピュータ技術の分野に関し、特に人工知能コンピュータビジョンおよび高度道路交通技術の分野に関し、車両追跡方法、装置及び電子機器を提供する。
【背景技術】
【0003】
道路交通のビデオの構造化分析、画像内の車両の決定、および車両の追跡は、インテリジェントな交通の視覚的感知の重要な技術的能力である。
【0004】
関連技術では、通常、検出モデルによって画像フレーム内の物体を検出し、画像フレームに含まれる検出フレームを決定し、検出フレームに対して特徴抽出を行って、車両の特徴を決定し、現在の画像フレームの車両特徴と履歴検出結果との一致度に基づいて、車両を追跡する。しかしながら、このような追跡方法では、車両に対応する検出フレームを2段階で決定する必要があるため、時間がかかり、リアルタイム性能が低下する。
【発明の概要】
【0005】
車両追跡方法、装置、電子機器及び記憶媒体を提供する。
【0006】
第1の態様によれば、車両追跡方法を提供し、車両の走行中に収集されたビデオストリームから、現時点でのターゲット画像を抽出するステップと、前記ターゲット画像に対してインスタンスセグメンテーションを行って、前記ターゲット画像内の各車両に対応する検出フレームを取得するステップと、各前記車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出するステップと、前記各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理して、前記ターゲット画像内の各車両の特徴を決定するステップと、前記ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、前記ターゲット画像内の各車両の走行軌跡を決定するステップであって、ここで、前記履歴画像は、前記ビデオストリームにおける前記ターゲット画像に隣接する前のnフレームの画像であり、nは正の整数であるステップと、を含む。
【0007】
第2の態様によれば、車両追跡装置を提供し、車両の走行中に収集されたビデオストリームから、現時点でのターゲット画像を抽出するための第1の抽出モジュールと、前記ターゲット画像に対してインスタンスセグメンテーションを行って、前記ターゲット画像内の各車両に対応する検出フレームを取得するためのインスタンスセグメンテーションモジュールと、各前記車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出するための第2の抽出モジュールと、前記各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理して、前記ターゲット画像内の各車両の特徴を決定するための第1の決定モジュールと、前記ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、前記ターゲット画像内の各車両の走行軌跡を決定するための第2の決定モジュールであって、前記履歴画像は、前記ビデオストリームにおける前記ターゲット画像に隣接する前のnフレームの画像であり、nは正の整数である第2の決定モジュールと、を含む。
【0008】
第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが上記の車両追跡方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
【0009】
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに上記の車両追跡方法を実行させる。
第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、上記の車両追跡方法が実現される。
【発明の効果】
【0010】
本願の技術案によれば、ビデオストリーム内の現時点でのターゲット画像に対してインスタンスセグメンテーションを行うことで、ターゲット画像内の各車両に対応する検出フレームを直接取得し、各車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出し、そして各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理して、ターゲット画像内の各車両の特徴を決定し、ひいてはターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、ターゲット画像内の各車両の走行軌跡を決定する。これにより、ターゲット画像に対してインスタンスセグメンテーションを行って、ターゲット画像に含まれる他の物体を直接除外し、ターゲット画像内の車両に対応する検出フレームをリアルタイムで取得して後処理することにより、車両追跡の效率を向上させ、優れたリアルタイム性を実現する。
【0011】
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本願の他の特徴は下記の明細書の記載を通して理解しやすくなる。
【図面の簡単な説明】
【0012】
図面は、本願をより良く理解するためのものであり、本開示を限定するものではない。
【
図1】本願の実施例によって提供される車両追跡方法の概略フローチャートである。
【
図2】ターゲット画像内の各車両をマークする概略図である。
【
図3】本願の実施例によって提供される別の車両追跡方法の概略フローチャートである。
【
図4】本願の実施例によって提供されるさらなる車両追跡方法の概略フローチャートである。
【
図5】本願の実施例によって提供される車両追跡装置の概略構成図である。
【
図6】本願の実施例によって提供される電子機器の概略構成図である。
【発明を実施するための形態】
【0013】
以下、図面と組み合わせて本願の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0014】
本願の実施例は、関連技術では、車両に対応する検出フレームを2段階で決定する必要のある車両追跡方法が、時間がかかり、リアルタイム性能が低下するという問題に対して、車両追跡方法を提供する。
【0015】
以下、図面を参照して、本願によって提供される車両追跡方法、装置、電子機器及び記憶媒体を詳細に説明する。
【0016】
図1は、本願の実施例によって提供される車両追跡方法の概略フローチャートである。
【0017】
図1に示すように、この車両追跡方法、以下のステップ101~105を含む。
【0018】
ステップ101では、車両の走行中に収集されたビデオストリームから、現時点でのターゲット画像を抽出する。
【0019】
なお、実際の使用において、本願の実施例の車両追跡方法は、本願の実施例の車両追跡装置によって実行され得る。本願の実施例の車両追跡装置は、本願の実施例の車両追跡方法を実行するように、任意の電子機器に構成され得る。
【0020】
例えば、本願の実施例の車両追跡装置は、、車両走行道路上の車両を追跡して、車両の周囲環境を視覚的に感知し、車両運転の安全性を向上させるように、車両(自動運転車両など)に構成され得、または、本願の実施例の車両追跡装置は、交通監視交差点での車両の違反認識、交通流統計などを実行するように、交通管理システムのサーバに構成され得る。
【0021】
なお、本願の実施例のビデオストリームの取得方法は、本願の実施例の車両追跡方法の適用シナリオに関連している。例えば、本願の実施例の車両追跡方法が車両自動運転、運転支援などの分野に適用される場合、車両のプロセッサは、車両のビデオ収集機器との通信接続を確立して、ビデオ収集機器によって収集されたビデオストリームをリアルタイムで取得することができる。また例えば、本願の実施例の車両追跡方法が交通管理シナリオに適用されて、違反認識、車両統計などの目的を達成する場合、交通管理システムのサーバは、交通交差点での監視機器によって収集されたビデオストリームをリアルタイムで取得することができる。
【0022】
ここで、ターゲット画像は、ビデオ収集機器がビデオを収集するときに、最新に収集した1フレームの画像であり得る。
【0023】
可能な一実施形態として、ビデオ収集機器によって収集されたビデオストリームをリアルタイムで取得することができ、また、ビデオストリームの新しい画像フレームが取得されるたびに、取得された新しい画像フレームを、現時点でのターゲット画像として決定することができる。
【0024】
別の可能な実施形態として、車両追跡のデータ処理量を削減し、車両追跡のリアルタイム性をさらに改善するために、フレームを挿入することで、収集されたビデオストリームから、現時点でのターゲット画像を抽出することもできる。例えば、収集されたビデオストリームから、現時点でのターゲット画像を、2フレームごとに抽出することができ、即ち、ビデオストリームの1フレーム目、3フレーム目、5フレーム目、および7フレーム目などの奇数のフレームの画像が取得されるとき、各奇数のフレームの画像がそれぞれターゲット画像として決定され得る。
【0025】
なお、本願の実施例の車両追跡方法は、所与のビデオデータを分析して特定の車両の運転軌跡を決定するなど、非リアルタイムの車両追跡シナリオにも適用できる。従って、本願の実施例の車両追跡装置は、撮影されたビデオデータの一部を直接取得し、ビデオデータを分析し、ビデオデータに含まれる各フレームの画像をターゲット画像として順番に決定してもよいし、フレームを挿入することで、ビデオデータの画像フレームの一部をターゲット画像として順番に決定してもよく、例えば、ビデオデータ内の奇数のフレームの画像を、ターゲット画像として順番に決定することができる。
【0026】
ステップ102では、ターゲット画像に対してインスタンスセグメンテーションを行って、ターゲット画像内の各車両に対応する検出フレームを取得する。
【0027】
本願の実施例では、任意のインスタンスセグメンテーションアルゴリズムを使用して、ターゲット画像に対してインスタンスセグメンテーションを行って、ターゲット画像に含まれる各車両を決定し、各車両に対応する検出フレームを生成することができる。ここで、ターゲット画像内の各車両はすべて対応する検出フレームに位置するか、または車両のほとんどの領域が、対応する検出フレームに位置する。
【0028】
なお、実際の使用において、実際のニーズまたは電子機器のコンピューティング性能に基づいて、適合なインスタンスセグメンテーションアルゴリズムを選択し、ターゲット画像に対してインスタンスセグメンテーションを行うことができるが、本願の実施例は、これを限定しない。例えば、空間埋め込みに基づくインスタンスセグメンテーションアルゴリズム、K-means(K-平均)クラスタリングアルゴリズムなどを採用することができる。
【0029】
ステップ103では、各車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出する。
【0030】
ここで、車両に対応するピクセルポイントのセットとは、この車両に対応する検出フレーム内のターゲット画像領域から抽出されたピクセルポイントからなるセットを指す。
【0031】
本願の実施例では、ターゲット画像に対してインスタンスセグメンテーションを行って、ターゲット画像内の各車両に対応する検出フレームを決定した後、各車両に対応する検出フレーム内のピクセルポイントのほとんどが、車両に対応するピクセルポイントであるため、車両に対応する検出フレーム内のピクセルポイントは、車両の特徴を正確に表すことができる。従って、本願の実施例では、各車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットをそれぞれ抽出して、各車両の特徴を表すことができる。
【0032】
可能な一実施形態として、車両に対応するピクセルポイントのセットを抽出する場合、この車両に対応する検出フレームを、平均して複数のサブ領域(例えば、N×N領域に分割され、Nは1より大きい正の整数である)に分割し、この車両に対応する検出フレームの各サブ領域から一定数のピクセルポイントをランダムに抽出して、車両に対応するピクセルポイントのセットを構成することができる。例えば、車両に対応する検出フレームの各サブ領域から、予め設定された数(100など)のピクセルポイントまたは予め設定された比率(80%など)のピクセルポイントをランダムに抽出して、この車両に対応するピクセルポイントのセットを構成することができ、本願の実施例は、これを限定しない。
【0033】
別の可能な実施形態として、車両に対応するピクセルポイントは通常、検出フレームの中央に位置するため、車両に対応する検出フレームを、中央領域とエッジ領域に分割して、検出フレームの中央領域から一定数のピクセルをランダムに抽出して、車両に対応するピクセルポイントのセットを構成することもできる。
【0034】
例えば、車両Aに対応する検出フレームのサイズが500×500ピクセルである場合、検出フレームの中央にある領域の80%を中央領域として、即ち、検出フレームの中央にある400×400ピクセルの領域を中央領域として決定し、ここで、中央領域の中心点の位置は検出フレームの中心点の位置と同じであり、検出フレーム内の他の領域をエッジ領域として決定し、400×400ピクセルの中央領域から、ピクセルポイントの80%をランダムに抽出して、車両Aに対応するピクセルポイントのセットを構成することができる。
【0035】
さらに、別の可能な実施形態として、車両に対応する検出フレームが中央領域とエッジ領域に分割される場合、検出フレームの中心領域とエッジ領域から、一定数のピクセルポイントをそれぞれランダムに抽出して、車両に対応するピクセルポイントのセットを構成することもでき、これにより、車両に対応するピクセルポイントのセットは、車両に対応するピクセルポイントも、車両の近くの背景に対応するピクセルポイントも含むため、車両の特徴をよりよく説明し、車両追跡の精度を向上させることができる。
【0036】
例えば、車両Aに対応する検出フレームのサイズが500×500ピクセルである場合、検出フレームの中心点を円心とし、400ピクセルを半径とする円形領域を検出フレームの中央領域として決定し、検出フレーム内の他の領域をエッジ領域として決定し、ひいては、中央領域からピクセルポイントの80%をランダムに抽出し、エッジ領域からピクセルポイントの80%をランダムに抽出して、車両Aに対応するピクセルポイントのセットを構成することができる。
【0037】
なお、上記の例は例示的なものにすぎず、本願に対する限定と見なされるべきではない。実際の使用において、実際のニーズと具体的な適用シナリオに基づいて、検出フレームの中央領域を決定する方法、およびピクセルポイントの抽出数または比率を選択することができ、本願の実施例ではこれに限定されない。
【0038】
ステップ104では、各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理して、ターゲット画像内の各車両の特徴を決定する。
【0039】
ここで、ピクセルポイントの画像特徴は、ピクセルポイントのピクセル値、ピクセルポイントの近傍のピクセル値、ピクセルポイントとピクセルポイントのセット内の他のピクセルポイントとの位置関係、およびピクセル値の差などを含み得る。実際の使用において、使用されるピクセルポイントの画像特徴は、必要に応じて選択され得るが、これは、本願の実施例に限定されない。
【0040】
ここで、車両の特徴とは、車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を計算または学習することによって決定された、ターゲット認識に使用可能な特徴を指す。例えば、車両の特徴は、ReID(Person re-identification、歩行者の再認識)特徴、HOG(Histogram of Oriented Gradient、勾配ヒストグラム)特徴、Haar(Haar-like、ハウル)特徴などであってもよい。
【0041】
本願の実施例では、各車両に対応するピクセルポイントのセットが抽出された後、予め設定されたアルゴリズムを使用して、各車両に対応するピクセルポイントのセット内の各ピクセルの画像特徴を計算または学習して、ピクセルポイントのセット内の各像素の画像特徴によって車両を説明し、ターゲット画像内の各車両の特徴を生成することができる。
【0042】
なお、実際の使用において、実際のニーズと具体的な適用シナリオに基づいて、車両の特徴タイプ、および車両の特徴を決定するための対応するアルゴリズムを選択することができ、本願の実施例では限定されない。例えば、リアルタイム性と計算効率を向上させるために、効率的な深層学習アルゴリズムまたは画像特徴抽出アルゴリズムを選択して、ターゲット画像内の各車両の特徴を決定することができる。
【0043】
ステップ105では、ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、ターゲット画像内の各車両の走行軌跡を決定し、ここで、履歴画像は、ビデオストリームにおけるターゲット画像に隣接する前のnフレームの画像であり、nは正の整数である。
【0044】
本願の実施例では、ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度は、メトリック学習によって決定することができる。具体的には、ターゲット画像内の車両の1つについて、メトリック学習によってこの車両と履歴画像内の各車両の特徴との間の距離を決定することができる。特徴間の距離が小さいほど、特徴は類似しているため、この車両と履歴画像内の各車両の特徴との間の距離の逆数を、この車両と履歴画像内の各車両の特徴との一致度として決定することができる。
【0045】
可能な一実施形態として、nの値は1にすることができ、すなわち、ターゲット画像内の各車両を、ビデオストリームにおけるターゲット画像に隣接する前のフレーム画像とのみ比較して、ターゲット画像内の各車両の走行軌跡を決定することができる。選択的に、ターゲット画像内の車両Aについて、履歴画像における車両Aの特徴との一致度が閾値よりも大きい車両を車両Aとして決定し、次に、履歴画像内の車両Aの走行軌跡とターゲット画像の収集位置とに基づいて、ターゲット画像内の車両Aの走行軌跡を決定し、履歴画像内の車両Aの識別子をターゲット画像内の車両Aの識別子として決定し、車両Aをマークするように、ターゲット画像内に車両Aの識別子を表示することができる。例えば、履歴画像内の車両Aの識別子が「Car1」である場合、車両Aの上部に車両Aの識別子「Car1」を表示することができる。
図2は、ターゲット画像内の各車両をマークする概略図である。
【0046】
それに応じて、履歴画像に車両Aの特徴との一致度が閾値よりも大きい車両がない場合、車両Aが、ビデオストリームに初めて現れる新しい車両であると決定することができ、ターゲット画像の収集位置を車両Aの走行軌跡の開始点として決定し、車両Aに新しい車両識別子を割り当て、車両Aをマークするようにターゲット画像に車両Aの識別子を表示することができる。
【0047】
別の可能な実施形態として、nの値は1より大きい整数にすることができ、即ち、ターゲット画像内の各車両を、ターゲット画像の前にあり、かつターゲット画像に隣接するビデオストリーム内の複数のフレームの画像と比較して、ターゲット画像内の各車両の走行軌跡を決定することにより、車両追跡の精度を向上させることができる。選択的に、ターゲット画像内の車両Aについて、履歴画像内の車両Aの特徴との一致度が閾値よりも大きい候補車両を最初に決定することができる。履歴画像の1フレームのみが候補車両を含む場合、この候補車両を車両Aとして決定し、さらに、履歴画像内の車両Aの走行軌跡とターゲット画像の収集位置とに基づいて、ターゲット画像内の車両Aの走行軌跡を決定し、履歴画像内の車両Aの識別子を、ターゲット画像内の車両Aの識別子として決定することができる。複数のフレームの画像に候補車両がある場合、各フレームの履歴画像の候補車両が同じ車両であるか否かを決定することができ、同じである場合、収集時間がターゲット画像の収集時間に最も近い履歴画像内の候補車両を車両Aとして決定し、ターゲット画像の収集時間に最も近い履歴画像内の車両Aの走行軌跡と、ターゲット画像の収集位置とに基づいて、ターゲット画像内の車両Aの走行軌跡を決定することができる。
【0048】
それに応じて、各フレームの履歴画像に車両Aの特徴との一致度が閾値よりも大きい車両がない場合、車両Aがビデオストリームに初めて現れる新しい車両であると決定することができ、ターゲット画像の収集位置を車両Aの走行軌跡の開始点として決定し、車両Aに新しい車両識別子を割り当て、車両Aをマークするようにターゲット画像に車両Aの識別子を表示することができる。
【0049】
本願の実施例では、車両の特徴に基づいて、ターゲット画像内の各車両と一致する履歴画像内の車両を決定する場合、ターゲット画像内の特定の車両の特徴と履歴画像内の複数の車両の特徴との一致度が閾値よりも大きい場合がある。
【0050】
選択的に、本願の実施例の可能な一実施形態では、ターゲット画像内の特定の車両の特徴と履歴画像内の複数の車両の特徴との一致度が閾値よりも大きい場合、この車両の特徴との一致度が最も高い車両をこの車両として決定することができる。
【0051】
選択的に、本願の実施例の別の可能な実施形態では、まず、ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度をそれぞれ決定し、そして、ターゲット画像内の各車両の特徴との一致度が閾値よりも大きい各候補車両を決定して、ターゲット画像内の各車両と履歴画像内の各車両との一致関係を決定し、ひいては、ハンガリーアルゴリズムを使用して、ターゲット画像内の車両と履歴画像内の各車両との一致関係を分析し、ターゲット画像内の各車両と一意に一致する履歴画像内の車両を決定することができる。
【0052】
なお、実際の使用において、nの値は、実際のニーズおよび特定の適用シナリオに基づいて決定され得るが、本願の実施例では限定されない。例えば、本願の実施例の車両追跡方法が交通管理シナリオに適用される場合、交差点の監視機器が固定されているため、ターゲット画像に隣接する前のフレーム画像のみと比較して、ターゲット画像内の各車両の走行軌跡を決定することができ、nの値は1であってもよく、または、本願の実施例の車両追跡方法が車両の自動運転、運転支援などのシナリオに適用される場合、車両の走行中にビデオ収集機器の位置が絶えずに変化し、かつ車両の走行中に追い越しおよび追い越されることが発生する場合があるため、ターゲット画像に隣接する前のフレーム画像のみと比較すると、車両追跡の結果が不正確になりやすくなるため、nを1より大きい整数に決定することで、車両追跡の精度を向上させることができる。
【0053】
本願の実施例に係る技術案によれば、ビデオストリーム内の現時点でのターゲット画像に対してインスタンスセグメンテーションを行うことで、ターゲット画像内の各車両に対応する検出フレームを直接取得し、各車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出し、そして各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理して、ターゲット画像内の各車両の特徴を決定し、ひいてはターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、ターゲット画像内の各車両の走行軌跡を決定する。これにより、ターゲット画像に対してインスタンスセグメンテーションを行って、ターゲット画像に含まれる他の物体を直接除外し、ターゲット画像内の車両に対応する検出フレームをリアルタイムで取得して後処理することにより、車両追跡の效率を向上させ、優れたリアルタイム性を実現する。
【0054】
本願の可能な一実施形態では、ポイントクラウドモデルを使用して、検出フレーム内の前景領域のピクセルポイント(即ち、検出フレーム内の車両に対応するピクセルポイント)および背景領域のピクセルポイントを処理して、ターゲット画像内の各車両の特徴を決定することにより、車両の特徴を正確かつ効率的に抽出し、車両追跡のリアルタイム性と精度をさらに向上させることができる。
【0055】
以下、
図3と組み合わせて、本願の実施例によって提供される車両追跡方法をさらに説明する。
【0056】
図3は、本願の実施例によって提供される別の車両追跡方法の概略フローチャートである。
【0057】
図3に示すように、この車両追跡方法は、以下のステップ201~208を含む。
【0058】
ステップ201では、車両の走行中に収集されたビデオストリームから、現時点でのターゲット画像を抽出する。
【0059】
ステップ202では、ターゲット画像に対してインスタンスセグメンテーションを行って、ターゲット画像内の各車両に対応する検出フレームを取得する。
【0060】
上記のステップ201-202の具体的な実現プロセスおよび原理については、上記の実施例の詳細な説明を参照することができ、ここでは説明を省略する。
【0061】
ステップ203では、各車両に対応する検出フレーム内のマスク領域から第1のピクセルポイントのサブセットを抽出する。
【0062】
ここで、検出フレーム内のマスク領域とは、この検出フレーム内の車両の検出フレーム内の対応する領域を指す。車両に対応する第1のピクセルポイントのサブセットとは、車両に対応する検出フレーム内のマスク領域から抽出された、車両を表す対応するピクセルのセットを指す。
【0063】
可能な一実施形態として、タターゲット画像に対してインスタンスセグメンテーションを行う結果は、ターゲット画像内の各車両に対応する検出フレームおよび検出フレーム内のマスク領域を同時に出力することであり得る。つまり、インスタンスセグメンテーションアルゴリズムを使用して、ターゲット画像内の各車両を認識し、各車両に対応する検出フレームと、各検出フレーム内の車両に対応するマスク領域を生成することができ、各検出フレーム内のマスク領域以外の領域は、背景領域に対応する非マスク領域であり、即ち、各車両に対応する検出フレームは、マスク領域および非マスク領域を含むことができる。
【0064】
なお、実際の使用において、ターゲット画像に対してインスタンスセグメンテーションを行うアルゴリズムは、特定のタイプのターゲットを直接認識できるとともに、特定のタイプのターゲットに対応する検出フレームとマスク領域を同時に出力できる任意のインスタンスセグメンテーションアルゴリズムであってもよいが、本願の実施例では限定されない。例えば、それは、空間埋め込みに基づくインスタンスセグメンテーションアルゴリズム、K-meansクラスタリングアルゴリズムなどのような、クラスタリングに基づくインスタンスセグメンテーションアルゴリズムであり得る。
【0065】
本願の実施例では、車両に対応する検出フレーム内のマスク領域は、検出フレーム内の車両の対応する領域を表すことができるため、車両に対応する検出フレーム内のマスク領域のピクセルポイントは、この車両自体の特徴を正確に表すことができる。これにより、各車両に対応する検出フレーム内のマスク領域から一定数のピクセルポイントをランダムに抽出して、各車両に対応する第1のピクセルポイントのサブセットをそれぞれ構成することで、各車両自体の特徴(色の特徴、形状の特徴、およびブランドの特徴など)を正確に表すことができる。
【0066】
可能な一実施形態として、第1のピクセルポイントのサブセットに含まれるピクセルポイントの数を予め設定することができるため、各車両に対応する検出フレーム内のマスク領域から、予め設定された数のピクセルポイントをランダムに抽出して、車両に対応する第1のピクセルポイントのサブセットをそれぞれ構成することができる。例えば、予め設定された数が500である場合、各車両に対応する検出フレーム内のマスク領域から500個のピクセルポイントをランダムに抽出して、各車両に対応する第1のピクセルポイントのサブセットをそれぞれ構成することができる。
【0067】
別の可能な実施形態として、第1のピクセルポイントのサブセット内のピクセルポイントの数に対するマスク領域のピクセルポイントの数の比率を予め設定することもでき、これにより、各車両に対応する検出フレーム内のマスク領域から、予め設定された比率のピクセルポイントをランダムに抽出して、各車両に対応する第1のピクセルポイントのサブセットをそれぞれ構成する。例えば、予め設定された比率が80%であり、車両Aに対応する検出フレーム内のマスク領域のピクセルポイントの数が1000である場合、車両に対応する検出フレーム内のマスク領域から800個のピクセルポイントをランダムに抽出して、車両Aに対応する第1のピクセルポイントのサブセットを構成することができる。
【0068】
なお、マスク領域から第1のピクセルポイントのサブセットを抽出する方法には、上記の状況が含まれ得るが、これらに限定されない。実際の使用において、実際のニーズおよび具体的な適用シナリオに基づいて、適切な抽出方法を選択することができ、これは、本願の実施例では限定されない。
【0069】
ステップ204では、各車両に対応する検出フレーム内の非マスク領域から第2のピクセルポイントのサブセットを抽出する。
【0070】
ここで、検出フレーム内の非マスク領域とは、この検出フレーム内の車両以外の背景領域の検出フレーム内の対応する領域を指す。車両に対応する第2のピクセルポイントのサブセットとは、車両に対応する検出フレーム内の非マスク領域から抽出された、車両の背景を表すピクセルポイントのセットを指す。
【0071】
可能な一実施形態として、ターゲット画像に対してインスタンスセグメンテーションを行う結果は、ターゲット画像内の各車両に対応する検出フレームと検出フレーム内のマスク領域を同時に出力することができるため、各検出フレーム内のマスク領域以外の領域を各検出フレームの非マスク領域として直接決定することができる。
【0072】
本願の実施例では、車両の色と形状は非常に類似しているため、車両自体のピクセルポイントの特徴だけで車両の特徴を表す場合、異なる車両を同じ車両として判別しやすく、車両追跡の結果が不正確になっている。従って、本願の実施例の可能な一実施形態では、各検出フレーム内の背景領域のピクセルによって、車両の特徴を補助的に表すことで、車両の背景領域の特徴によって、車両の特徴間の差異を高め、車両追跡の精度を改善することができる。これにより、各車両に対応する検出フレーム内の非マスク領域から一定数のピクセルポイントをランダムに抽出して、各車両に対応する第2のピクセルポイントのサブセットをそれぞれ構成することで、各車両の背景特徴を正確に表すことができる。
【0073】
可能な一実施形態として、第1のピクセルポイントのサブセットに含まれるピクセルポイントの数は、第2のピクセルポイントのサブセットに含まれるピクセルポイントの数と同じにすることで、車両の特徴に車両自体の特徴と車両の背景特徴をバランスよく融合させ、車両の特徴をより正確に表し、車両追跡の精度を向上させることができる。従って、第1のピクセルポイントのサブセットおよび第2のピクセルポイントのサブセットに含まれるピクセルポイントの数を予め設定することができ、各車両に対応する検出フレーム内のマスク領域から、予め設定された数のピクセルポイントをランダムに抽出して、各車両に対応する第1のピクセルポイントのサブセットをそれぞれ構成し、各車両に対応する検出フレーム内の非マスク領域から、予め設定された数のピクセルポイントをランダムに抽出して、各車両に対応する第2のピクセルポイントのサブセットをそれぞれ構成することができる。
【0074】
例えば、予め設定された数が500である場合、ターゲット画像内の車両Aについて、車両Aに対応する検出フレーム内のマスク領域から500個のピクセルポイントをランダムに抽出して、車両Aに対応する第1のピクセルポイントのサブセットを構成し、車両Aに対応する検出フレーム内の非マスク領域から、500個のピクセルポイントをランダムに抽出して、車両Aに対応する第2のピクセルポイントのサブセットを構成することができる。
【0075】
別の可能な実施形態として、抽出されたピクセルポイントのセットのうち、車両の特徴を表すのに大きく寄与するピクセルが多く、車両の特徴を表すのに小さく寄与するピクセルが少なくなるように、第1のピクセルポイントのサブセットと第2のピクセルポイントのサブセットに異なる重みを割り当てることもできる。なお、第1のピクセルポイントのサブセットおよび第2のピクセルポイントのサブセットの重みは、大量の実験データに基づいて較正され得るが、本願の実施例では限定されない。
【0076】
例えば、予め設定された数が500で、実験データによって較正された第1のピクセルポイントのサブセットの重みが1で、第2のピクセルポイントのサブセットの重みが0.8である場合、ターゲット画像内の車両Aについて、車両Aに対応する検出フレーム内のマスク領域から500個のピクセルポイントをランダムに抽出して、車両Aに対応する第1のピクセルポイントのサブセットを構成し、車両Aに対応する検出フレーム内の非マスク領域から400個のピクセルポイントをランダムに抽出して、車両Aに対応する第2のピクセルポイントのサブセットを構成することができる。
【0077】
さらなる可能な実施形態として、第2のピクセルポイントのサブセットに含まれるピクセルポイントの数は、第1のピクセルポイントのサブセットに含まれるピクセルポイントの数とは無関係であってもよく、即ち、第2のピクセルポイントのサブセットに含まれるピクセルポイントの数、まはた、第2のピクセルポイントのサブセットのピクセルポイントの数に対する非マスク領域のピクセルポイントの数の比率を個別に予め設定することができる。その後、第1のピクセルポイントのサブセットを抽出するステップ204と同じ方法で、非マスク領域から第2のピクセルポイントのサブセットを抽出し、具体的な実現プロセスおよび原理については、ステップ204の詳細な説明を参照することができ、ここでは説明を省略する。
【0078】
ステップ205では、予め設定されたポイントクラウドモデルの第1のエンコーダを使用して、各車両に対応する第1のピクセルポイントのサブセット内の各ピクセルポイントの画像特徴をエンコードして、各車両に対応する第1のベクトルを決定する。
【0079】
ここで、予め設定されたポイントクラウドモデルとは、入力されたポイントセットを処理して、ポイントセットに対応する特徴表現を生成できる事前にトレーニングされたモデルを指す。
【0080】
ここで、車両に対応する第1のベクトルとは、車両自体のピクセルポイントの特徴表現を指し得、車両自体の特徴を表すことができる。
【0081】
ここで、ピクセルポイントの画像特徴は、ピクセルポイントのRGBピクセル値などを含み得る。
【0082】
本願の実施例では、ポイントクラウドモデルは、入力された無秩序なポイントセットデータに基づいてポイントセットデータの特徴表現を直接生成することができるため、ポイントクラウドモデルを使用して車両の特徴を生成することで、車両の特徴を効率的に抽出することができる。可能な一実施形態として、車両の特徴タイプを事前に決定することができ、例えば、車両の特徴タイプをReID特徴とし、車両を含む大量のサンプル画像を取得し、次に、各サンプル画像に対して、インスタンスセグメンテーションを行って、各サンプル画像内の各車両に対応する検出フレームとマスク領域を生成し、ひいてはReID特徴抽出アルゴリズムを使用して、各サンプル画像内の各車両に対応するマスク領域のサンプルの第1のReID特徴を決定し、検出フレーム内のマスク領域から、サンプルの第1のピクセルポイントのサブセットを抽出し、最後に初期ポイントクラウドモデルを使用して、各車両に対応するサンプルの第1のReID特徴と、サンプルの第1のピクセルポイントのサブセットとの対応関係を学習して、予め設定されたポイントクラウドモデルの第1のエンコーダを生成することができる。これにより、予め設定されたポイントクラウドモデルの第1のエンコーダが車両の第1のReID特徴と第1のピクセルポイントのサブセットとの関連関係を学習するため、車両に対応する第1のピクセルポイントのサブセット内の各ピクセルポイントの画像特徴を、予め設定されたポイントクラウドモデルの第1のエンコーダに入力することで、、第1のエンコーダーが、第1のピクセルポイントのサブセット内の各ピクセルポイントのRGBピクセル値をエンコードして、車両に対応する第1のベクトル、即ち、車両自体のReID特徴を生成することができる。
【0083】
ステップ206では、予め設定されたポイントクラウドモデルの第2のエンコーダを使用して、各車両に対応する第2のピクセルポイントのサブセット内の各ピクセルポイントの画像特徴をエンコードして、各車両に対応する第2のベクトルを決定する。
【0084】
ここで、車両に対応する第2のベクトルとは、車両の背景ピクセルポイントの特徴表現を指し得、車両の背景特徴を表すことができる。
【0085】
なお、車両に対応する第1のピクセルポイントのサブセットが車両自体の特徴を表し、車両に対応する第2のピクセルポイントのサブセットが車両の背景特徴を表すため、ポイントクラウドモデルでは、トレーニングによって第1のエンコーダとは異なる第2のエンコーダを生成し、第2のピクセルポイントのサブセットをエンコードすることで、生成された第2のベクトルが車両の背景特徴をより正確に表すようにすることができる。
【0086】
本願の実施例では、各サンプル画像に対して、インスタンスセグメンテーションを行って、各サンプル画像内の各車両に対応する検出フレームとマスク領域を生成した後、ReID特徴抽出アルゴリズムを使用して、各サンプル画像内の各車両に対応する検出フレーム内の非マスク領域のサンプルの第2のReID特徴を決定し、検出フレーム内の非マスク領域から、サンプルの第2のピクセルポイントのサブセットを抽出し、そして、初期ポイントクラウドモデルを使用して、各車両に対応するサンプルの第2のReID特徴と、サンプルの第2のピクセルポイントのサブセットとの対応関係を学習して、予め設定されたポイントクラウドモデルの第2のエンコーダを生成する。これにより、予め設定されたポイントクラウドモデルの第2のエンコーダが車両の第2のReID特徴と第2のピクセルポイントのサブセットとの関連関係を学習するため、車両に対応する第2のピクセルポイントのサブセット内の各ピクセルポイントの画像特徴を、予め設定されたポイントクラウドモデルの第2のエンコーダに入力することで、第2のエンコーダーが、第2のピクセルポイントのサブセット内の各ピクセルポイントのRGBピクセル値をエンコードして、車両に対応する第2のベクトル、即ち、車両の背景領域のReID特徴を生成することができる。
【0087】
ステップ207では、予め設定されたポイントクラウドモデルのデコーダーを使用して、各車両に対応する第1のベクトル及び第2のベクトルをデコードして、各車両の特徴を決定する。
【0088】
本願の実施例では、予め設定されたポイントクラウドモデルにおける異なるネットワーク分岐を使用して、車両自体の特徴のベクトル表現および車両の背景特徴のベクトル表現をそれぞれ決定するため、予め設定されたポイントクラウドモデルのデコーダーを使用して、各車両に対応する第1のベクトルと第2のベクトルを融合させて、各車両の特徴を生成することもできる。
【0089】
選択的に、本願の可能な一実現形態では、予め設定されたポイントクラウドモデルのデコーダーを使用して、各車両に対応する第1のベクトルと第2のベクトルに対して最大プーリング処理を行うことにより、各車両の第1ベクトルと第2ベクトルを融合させて、各車両の特徴を生成することができる。
【0090】
ステップ208では、ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、ターゲット画像内の各車両の走行軌跡を決定し、ここで、履歴画像は、ビデオストリームにおけるターゲット画像に隣接する前のnフレームの画像であり、nは正の整数である。
【0091】
上記のステップ208の具体的な実現プロセスおよび原理については、上記の実施例の詳細な説明を参照することができ、ここでは説明を省略する。
【0092】
本願の実施例に係る技術案によれば、ビデオストリーム内の現時点でのターゲット画像に対してインスタンスセグメンテーションを行うことで、ターゲット画像内の各車両に対応する検出フレーム及びマスク領域を直接取得し、各車両に対応する検出フレーム内のマスク領域から、第1のピクセルポイントのサブセットを抽出して、車両の前景特徴を表し、非マスク領域内から第2のピクセルポイントのサブセットを抽出して、車両の背景特徴を表し、ひいては予め設定されたポイントクラウドモデルを使用して、抽出されたピクセルポイントのセットに基づいて車両の特徴を生成し、ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、ターゲット画像内の各車両の走行軌跡を決定する。これにより、ポイントクラウドモデルを使用して車両の前景特徴と背景特徴を融合させることにより、車両特徴を正確かつ効率的に抽出し、車両追跡のリアルタイム性と精度をさらに向上させることができる。
【0093】
本願の可能な一実施形態では、クラスタリングアルゴリズムを使用して、ターゲット画像のインスタンスセグメンテーションを実現し、車両に対応する検出フレームを直接生成し、車両追跡のリアルタイム性を改善することができる。
【0094】
図4と組み合わせて、本願の実施例によって提供される車両追跡方法をさらに説明する。
【0095】
図4は、本願の実施例によって提供されるさらなる車両追跡方法の概略フローチャートである。
【0096】
図4に示すように、この車両追跡方法は、以下のステップ301~305を含む。
【0097】
ステップ301では、車両の走行中に収集されたビデオストリームから、現時点でのターゲット画像を抽出する。
【0098】
上記のステップ301の具体的な実現プロセスおよび原理については、上記の実施例の詳細な説明を参照することができ、ここでは説明を省略する。
【0099】
ステップ302では、ターゲット画像内の各ピクセルポイントの特徴に基づいて、ターゲット画像内のピクセルポイントをクラスタリングし、クラスタリング結果に基づいてターゲット画像内の各車両に対応する検出フレームを決定する。
【0100】
ここで、ピクセルポイントの特徴は、ピクセルポイントのピクセル値、隣接ピクセル、隣接ピクセルのピクセル値などの特徴を含み得る。実際の使用において、使用されるピクセルの特徴を必要に応じて選択することができるが、本願の実施例では限定されない。
【0101】
本願の実施例では、クラスタリングアルゴリズムを使用して、ターゲット画像内の各ピクセルポイントの特徴をクラスタリングして、ターゲット画像内の各ピクセルポイントを分類し、ターゲット画像内の各ピクセルポイントが車両に対応するピクセルポイントであるか否か、同じ車両に対応するピクセルポイントであるか否かを決定することができる。ひいては、各車両に対応するピクセルポイントに基づいて、各車両に対応する検出フレームを生成し、即ち、各検出フレームは、同じ車両に対応するすべてのピクセルポイントを含み得る。
【0102】
可能な一実施形態として、空間埋め込みに基づくインスタンスセグメンテーションアルゴリズムを使用して、ターゲット画像内の各ピクセルポイントの特徴を分析して、ターゲット画像内の各ピクセルポイントをクラスタリングし、ひいては直接ピクセルポイントのクラスタリング結果に基づいて、各車両に対応する検出フレームを生成することができ、1つのステップでインスタンスのセグメンテーションを完了するため、優れたリアルタイム性を実現する。さらに、空間埋め込みに基づくインスタンスセグメンテーションアルゴリズムは、さまざまなタイプのインスタンスに対してさまざまなクラスタリング半径を学習することができ、インスタンスセグメンテーションの精度が高い。
【0103】
ステップ303では、各車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出する。
【0104】
ステップ304では、各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理して、ターゲット画像内の各車両の特徴を決定する。
【0105】
上記のステップ303-304の具体的な実現プロセスおよび原理については、上記の実施例の詳細な説明を参照することができ、ここでは説明を省略する。
【0106】
ステップ305では、ターゲット画像内の第1の車両の特徴と、履歴画像内の第2の車両の特徴との一致度が閾値よりも大きい場合、ターゲット画像の取得位置と取得時間とに基づいて、第2の車両の走行軌跡を更新する。
【0107】
ここで、第1の車両とは、ターゲット画像内のいずれかの車両を指し、第2の車両とは、履歴画像内にもターゲット画像内にも存在する車両を指す。
【0108】
本願の実施例では、メトリック学習によって、ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度を決定することができる。具体的には、ターゲット画像内の特定の車両について、メトリック学習によって、この車両と履歴画像内の各車両との特徴間の距離を決定することができる。特徴間の距離が小さいほど、特徴は類似しているため、この車両と履歴画像内の各車両との特徴間の距離の逆数を、この車両と履歴画像内の各車両との特徴間の一致度として決定することができる。
【0109】
可能な一実施形態として、ターゲット画像内の特定の第1の車両について、履歴画像内の第1の車両の特徴との一致度が閾値よりも大きい車両を第2の車両として決定し、履歴画像内の第2の車両の走行軌跡とターゲット画像の収集位置とに基づいて、ターゲット画像の収集位置を第2の車両の走行軌跡の新たに追加されたポイントとして、第2の車両の走行軌跡に追加して、第2の車両の走行軌跡を更新することができる。
【0110】
別の可能な実施形態として、車両の走行軌跡は、車両の位置情報だけでなく、車両が走行軌跡の各ポイントまで走行している時間情報も含み得る。従って、本願の実施例では、ターゲット画像の収集位置を第2の車両の走行軌跡の新たに追加されたポイントとして第2の車両の走行軌跡に追加する場合、ターゲット画像の収集時間を新たに追加されたポイントの時間情報として走行軌跡に追加することで、車両追跡情報の精度と豊富さを向上させることもできる。
【0111】
例えば、ターゲット画像の収集位置を第2の車両の走行軌跡の新たに追加されたポイントとして、第2の車両の走行軌跡に追加する場合、新たに追加されたポイントを強調表示させ、新たに追加されたポイントと、前の隣接した時間に走行軌跡に追加されたポイントとを接続し、新たに追加されたポイントの近くに新たに追加されたポイントの時間情報(即ち、ターゲット画像の収集時間)を表示することができる。
【0112】
それに応じて、履歴画像には第1の車両の特徴との一致度が閾値よりも大きい第2の車両がない場合、第1の車両がビデオストリームに初めて現れる新しい車両であると決定することができ、これにより、ターゲット画像の収集位置を第1の車両の走行軌跡の開始点として決定し、ターゲット画像の収集時間を開始点の時間情報として第1の車両の走行軌跡に追加することができる。
【0113】
本願の実施例に係る技術案によれば、ターゲット画像内のピクセルポイントをクラスタリングすることで、ターゲット画像内の各車両に対応する検出フレームを直接取得し、各車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出し、そして各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理して、ターゲット画像内の各車両の特徴を決定し、ひいてはターゲット画像内の第1の車両の特徴と履歴画像内の第2の車両の特徴との一致度が閾値よりも大きい場合、ターゲット画像の取得位置と取得時間とに基づいて、第2の車両の走行軌跡を更新する。これにより、ターゲット画像のインスタンスセグメンテーションは、クラスタリングアルゴリズムによって実現され、ターゲット画像内に含まれる他のオブジェクトを直接除外し、ターゲット画像内の車両に対応する検出フレームをリアルタイムで取得し、時間情報を車両の走行軌跡に統合することにより、車両追跡のリアルタイム性を向上させるとともに、車両追跡情報の精度と豊富さをさらに向上させる。
【0114】
上記実施例を実現するために、本願は、車両追跡装置をさらに提供する。
【0115】
図5は、本願の実施例によって提供される車両追跡装置の概略構成図である。
【0116】
図5に示すように、この車両追跡装置40は、車両の走行中に収集されたビデオストリームから、現時点でのターゲット画像を抽出するための第1の抽出モジュール41と、ターゲット画像に対してインスタンスセグメンテーションを行って、ターゲット画像内の各車両に対応する検出フレームを取得するためのインスタンスセグメンテーションモジュール42と、各車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出するための第2の抽出モジュール43と、各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理して、ターゲット画像内の各車両の特徴を決定するための第1の決定モジュール44と、ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、ターゲット画像内の各車両の走行軌跡を決定するための第2の決定モジュール45であって、履歴画像は、ビデオストリームにおけるターゲット画像に隣接する前のnフレームの画像であり、nは正の整数である第2の決定モジュール45と、を含む。
【0117】
実際の使用において、本願の実施例によって提供される車両追跡装置、上記の車両追跡方法を実行するように、任意の電子機器に配置され得る。
【0118】
本願の実施例に係る技術案によれば、ビデオストリーム内の現時点のターゲット画像に対してインスタンスセグメンテーションを実行することで、ターゲット画像内の各車両に対応する検出フレームを直接取得し、各車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出して、各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理して、ターゲット画像内の各車両の特徴を決定し、ひいてはターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、ターゲット画像内の各車両の走行軌跡を決定する。これにより、ターゲット画像に対してインスタンスセグメンテーションを行って、ターゲット画像に含まれる他の物体を直接除外し、ターゲット画像内の車両に対応する検出フレームをリアルタイムで取得して後処理することにより、車両追跡の效率を向上させ、優れたリアルタイム性を実現する。
【0119】
本願の可能な一実施形態では、上記の各車両に対応する検出フレームはマスク領域及び非マスク領域を含み、ここで、第2の抽出モジュール43は、各車両に対応する検出フレーム内のマスク領域から第1のピクセルポイントのサブセットを抽出するための第1の抽出ユニットと、各車両に対応する検出フレーム内の非マスク領域から第2のピクセルポイントのサブセットを抽出するための第2の抽出ユニットと、を含む。
【0120】
さらに、本願の別の可能な実施形態では、上記の第1の決定モジュール44は、予め設定されたポイントクラウドモデルの第1のエンコーダを使用して、各車両に対応する第1のピクセルポイントのサブセット内の各ピクセルポイントの画像特徴をエンコードして、各車両に対応する第1のベクトルを決定するための第1の決定ユニットと、
予め設定されたポイントクラウドモデルの第2のエンコーダを使用して、各車両に対応する第2のピクセルポイントのサブセット内の各ピクセルポイントの画像特徴をエンコードして、各車両に対応する第2のベクトルを決定するための第2の決定ユニットと、予め設定されたポイントクラウドモデルのデコーダーを使用して、各車両に対応する第1のベクトル及び第2のベクトルをデコードして、各車両の特徴を決定するための第3の決定ユニットと、を含む。
【0121】
さらに、本願のさらなる可能な実施形態では、上記の第1のピクセルポイントのサブセットに含まれるピクセルの数は、上記の第2のピクセルポイントのサブセットに含まれるピクセルの数と同じである。
【0122】
さらに、本願のさらなる可能な実施形態では、上記のインスタンスセグメンテーションモジュール42は、ターゲット画像内の各ピクセルポイントの特徴に基づいて、ターゲット画像内のピクセルポイントをクラスタリングし、クラスタリング結果に基づいてターゲット画像内の各車両に対応する検出フレームを決定するためのクラスタリング処理ユニットを含む。
【0123】
さらに、本願のさらなる可能な実施形態では、上記の第2の決定モジュール45は、ターゲット画像内の第1の車両の特徴と履歴画像内の第2の車両の特徴との一致度が閾値よりも大きい場合、ターゲット画像の取得位置及び取得時間に基づいて、第2の車両の走行軌跡を更新するための更新ユニットを含む。
【0124】
なお、
図1、
図3、および
図4に示される車両追跡方法の実施例の前述の説明は、この実施例の車両追跡装置40にも適用可能であり、ここでは説明を省略する。
【0125】
本願の実施例に係る技術案によれば、ビデオストリーム内の現時点でのターゲット画像に対してインスタンスセグメンテーションを行うことで、ターゲット画像内の各車両に対応する検出フレーム及びマスク領域を直接取得し、各車両に対応する検出フレーム内のマスク領域から、第1のピクセルポイントのサブセットを抽出して、車両の前景特徴を表し、非マスク領域内から第2のピクセルポイントのサブセットを抽出して、車両の背景特徴を表し、ひいては予め設定されたポイントクラウドモデルを使用して、抽出されたピクセルポイントのセットに基づいて車両の特徴を生成し、ターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、ターゲット画像内の各車両の走行軌跡を決定する。これにより、ポイントクラウドモデルを使用して車両の前景特徴と背景特徴を融合させることにより、車両特徴を正確かつ効率的に抽出し、車両追跡のリアルタイム性と精度をさらに向上させることができる。
【0126】
本願の実施例によれば、本願は、電子機器、及び読み取り可能な記憶媒体をさらに提供する。
本願の実施例によれば、本願は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本願によって提供される車両追跡方法が実現される。
【0127】
図6に示すように、それは本開示の実施例に係る車両追跡方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目のとする。電子機器は、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び /または求められる本願の実現を限定することを意図しない。
【0128】
図6に示すように、この電子機器は、1つ又は複数のプロセッサ501と、メモリ502と、及び高速インターフェースと低速インターフェースを含む、様々なコンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスを介して互いに接続され、共通のマザーボードに取り付けられ、又は必要に応じて他の形態で取り付けられ得る。プロセッサは電子機器内で実行される命令を処理でき、この命令には、メモリ内に格納される又はメモリ上に格納されて外部入力 /出力装置(例えば、インターフェースに結合された表示機器など)にGUIのグラフィック情報を表示する命令が含まれる。他の実施形態では、複数のプロセッサ及び /又は複数のバスを、必要に応じて、複数のメモリ及び複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は必要な操作の一部(例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして)を提供する。
図6では、1つのプロセッサ501を例とする。
【0129】
メモリ502は、本願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも1つのプロセッサが本願に係る車両追跡方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が格納されている。本願の非一時的なコンピュータ読み取り可能な記憶媒体には、本願に係る車両追跡方法をコンピュータに実行させるためのコンピュータ命令が格納されている。
【0130】
非一時的なコンピュータ読み取り可能な記憶媒体としてのメモリ502は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば、本願の実施例における車両追跡方法に対応するプログラム命令/モジュール(例えば、
図5に示される第1の抽出モジュール41、インスタンスセグメンテーションモジュール42、第2の抽出モジュール43、第1の決定モジュール44および第2の決定モジュール45)を格納することができる。プロセッサ501は、メモリ502に格納された非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法実施例における車両追跡方法を実現する。
【0131】
メモリ502は、プログラム記憶領域及びデータ記憶領域を含むことができ、プログラム記憶領域は、オペレーティングシステム、及び少なくとも1つの機能に必要なアプリケーションプログラムを格納し、データ記憶領域は、車両追跡方法の電子機器の使用に従って作成されたデータなどを格納する。さらに、メモリ502は、高速ランダムアクセスメモリを含み、さらに、例えば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ502は、プロセッサ501に対して遠隔に設置されるメモリを選択的に含んでもよく、これらの遠隔メモリは、ネットワークを介して車両追跡方法の電子機器に接続され得る。上記ネットワークの例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
【0132】
車両追跡方法の電子機器は、入力装置503及び出力装置504をさらに含んでもよい。プロセッサ501、メモリ502、入力装置503及び出力装置504はバス又はその他の方式で接続してもよく、
図6には、バスによる接続が例示されている。
【0133】
入力装置503は、入力された数字又は文字情報を受信し、車両追跡方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインタ、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、表示機器、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含む。この表示機器は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであり得る。
【0134】
ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び /又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び /又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に送信することができる。
【0135】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)には、プログラム可能なプロセッサの機械命令が含まれ、プロセス及び /又はオブジェクト指向のプログラミング言語、及び /又はアセンブリ /機械言語を用いてこれらのコンピュータプログラムを実施できる。例えば、本明細書で使用される「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び /又はデータをプログラム可能なプロセッサに提供する任意のコンピュータプログラム製品、機器、及び /又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック機器(PLD))を指し、機械読み取り可能な信号としての機械命令を受信するための機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラム可能なプロセッサに機械命令及び /又はデータを提供するために使用される任意の信号を指す。
【0136】
ユーザとのインタラクションを提供するように、ここで説明するシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線チューブ)又はLCD(液晶ディスプレイ)モニター)、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置(例えば、マウスやトラックボール)を有する。他の種類の装置も、ユーザとの対話を提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、そして、ユーザからの入力は、任意の形式(音響入力、音声入力、又は触覚入力を含む)で受信できる。
【0137】
ここで説明するシステム及び技術は、バックエンドコンポーネントを含むコンピュータシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピュータシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピュータシステム(例えば、グラフィカルユーザインターフェース又はWEBブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのWEBブラウザーを介してここで説明するシステム及び技術の実施形態と対話できる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントを含む任意の組み合わせコンピュータシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して互いに接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
【0138】
コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに離れており、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータで実行され、互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。
【0139】
本願の実施例の技術案によれば、ビデオストリーム内の現時点でのターゲット画像に対してインスタンスセグメンテーションを行うことで、ターゲット画像内の各車両に対応する検出フレームを直接取得し、各車両に対応する検出フレームから、各車両に対応するピクセルポイントのセットを抽出し、そして各車両に対応するピクセルポイントのセット内の各ピクセルポイントの画像特徴を処理して、ターゲット画像内の各車両の特徴を決定し、ひいてはターゲット画像内の各車両の特徴と履歴画像内の各車両の特徴との一致度に基づいて、ターゲット画像内の各車両の走行軌跡を決定する。これにより、ターゲット画像に対してインスタンスセグメンテーションを行って、ターゲット画像に含まれる他の物体を直接除外し、ターゲット画像内の車両に対応する検出フレームをリアルタイムで取得して後処理することにより、車両追跡の效率を向上させ、優れたリアルタイム性を実現する。
【0140】
なお、上記の様々な形式のプロセスを用いて、ステップを並べ替え、追加、または削除することができる。例えば、本願に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
【0141】
上記具体的な実施形態は、本願の特許範囲に対する制限を構成するものではない。当業者にとって明らかなように、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本願の精神及び原則の範囲内で行われた任意の修正、同等の置換、及び改善などは、いずれも本願の特許範囲に含まれるべきである。