(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024035128
(43)【公開日】2024-03-13
(54)【発明の名称】ターゲット追跡のための方法、装置及び記憶媒体
(51)【国際特許分類】
G06T 7/292 20170101AFI20240306BHJP
【FI】
G06T7/292
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023134967
(22)【出願日】2023-08-22
(31)【優先権主張番号】202211046789.5
(32)【優先日】2022-08-30
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ジャン・ホォイガン
(72)【発明者】
【氏名】王 平
(72)【発明者】
【氏名】汪 留安
(72)【発明者】
【氏名】孫 俊
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA02
5L096CA04
5L096CA05
5L096FA52
5L096FA67
5L096GA51
5L096HA05
5L096MA07
(57)【要約】 (修正有)
【課題】マルチターゲット追跡のための方法、装置及び記憶媒体を提供する。
【解決手段】方法は、複数のカメラにより撮影された複数の画像シーケンスに基づいて複数のターゲットの複数のトラックレットを抽出することと、各トラックレットの特徴を抽出することと、ターゲットのカメラへの向きに基づいて、複数のトラックレットの向きを決定することと、決定された向きに基づいて複数のトラックレットを複数のグループに分け、同一のターゲットに対応するトラックレットが初期集合に集められるように、抽出された特徴に基づいて各グループ内のトラックレットをクラスタリングことと、同一のターゲットに対応し、且つ異なる向きを有するトラックレットが最終集合に併合されるように、複数のグループのクラスタリングを夫々実行して得られた複数の初期集合を併合することと、最終集合のトラックレットを対応するターゲットの追跡情報として使用することと、を含む。
【選択図】
図4
【特許請求の範囲】
【請求項1】
マルチターゲットマルチカメラ追跡のための方法であって、
異なるシーンをそれぞれ撮影する複数のカメラの各カメラにより撮影された画像シーケンスに対してマルチターゲット追跡を実行し、前記画像シーケンスに出現する各ターゲットのトラックレットを抽出することによって、前記複数のカメラにより撮影された複数の画像シーケンスに基づいて複数のターゲットの複数のトラックレットを抽出するステップと、
各トラックレットの特徴を抽出するステップと、
各トラックレットにおけるターゲットのカメラへの向きに基づいて、前記トラックレットの向きを決定するステップと、
決定された向きに基づいて前記複数のトラックレットを複数のグループに分けるステップであって、各グループにおけるトラックレットは同一の向きを有し、異なるグループにおけるトラックレットは異なる向きを有する、ステップと、
同一のターゲットに対応するトラックレットが初期集合に集められるように、抽出された特徴に基づいて各グループにおけるトラックレットに対してクラスタリングを実行するステップと、
同一のターゲットに対応し、且つ異なる向きを有するトラックレットが最終集合に併合されるように、前記複数のグループについてクラスタリングをそれぞれ実行して得られた複数の初期集合を併合するステップと、
前記最終集合におけるトラックレットを、対応するターゲットについての追跡情報として使用するステップと、を含む、方法。
【請求項2】
前記ターゲットのカメラへの向きは、正面向き、背後向き及び横向きのうちの1つである、請求項1に記載の方法。
【請求項3】
各トラックレットは、画像シーケンスの複数のフレームにおいてターゲットをそれぞれ識別するための複数のターゲットボックスの集合であり、
前記方法は、
前記複数のターゲットボックスのうちの各ターゲットボックスにおけるターゲットのカメラへの向きを決定するステップと、
ターゲットの向きが特定の向きであるターゲットボックスの数が第1の閾値より大きい場合、前記トラックレットの向きが前記特定の向きであると決定し、或いは、ターゲットの向きが特定の向きであるターゲットボックスの数が、ターゲットの向きが他の向きであるターゲットボックスの数よりも多い場合、前記トラックレットの向きが前記特定の向きであると決定するステップと、をさらに含む、請求項1に記載の方法。
【請求項4】
各トラックレットが1つ又は複数の向きを有すると決定することができ、
前記各トラックレットが前記複数のグループのうちの1つ又は複数のグループに含まれることができる、請求項3に記載の方法。
【請求項5】
行列を構築するステップであって、前記行列の要素値は、i番目の初期集合とj番目の初期集合とに共通して含まれる同一のトラックレットの数であり、前記i番目の初期集合は、第1の向きに対応する第1のグループに対してクラスタリングを実行して得られ、前記j番目の初期集合は、第2の向きに対応する第2のグループに対してクラスタリングを実行して得られ、i=1,2,…,M,j=1,2,…,Nであり、M及びNは自然数である、ステップ、をさらに含む、請求項4に記載の方法。
【請求項6】
前記行列の要素値のうちの最大値を決定するステップと、
前記最大値がゼロである場合、初期集合の併合を実行しないステップと、をさらに含む、請求項5に記載の方法。
【請求項7】
前記行列の要素値のうちの最大値を決定するステップと、
前記最大値がゼロでない場合、
a)前記最大値に対応する前記第1のグループからの初期集合と前記第2のグループからの初期集合を一つの集合に併合し、
b)前記行列における前記最大値が所在する行及び列の要素値をゼロに設定し、
c)修正された行列の要素値のうちの最大値を決定し、
d)行列の要素値のうちの最大値がゼロになるまで、ステップa)乃至ステップc)を反復的に実行するステップと、をさらに含む、請求項5に記載の方法。
【請求項8】
第3の向きに対応する第3のグループに対してクラスタリングを実行してK個の初期集合を取得し、
前記方法は、
前記第1のグループからのM個の初期集合と前記第2のグループからのN個の初期集合とを併合した後、併合された集合と前記第3のグループからのK個の初期集合とを併合するステップ、をさらに含む、請求項7に記載の方法。
【請求項9】
マルチターゲットマルチカメラ追跡のための装置であって、
コンピュータプログラムが記憶されたメモリと、
プロセッサと、を含み、
前記プロセッサは、前記コンピュータプログラムを実行することによって、
異なるシーンをそれぞれ撮影する複数のカメラの各カメラにより撮影された画像シーケンスに対してマルチターゲット追跡を実行し、前記画像シーケンスに出現する各ターゲットのトラックレットを抽出することによって、前記複数のカメラにより撮影された複数の画像シーケンスに基づいて複数のターゲットの複数のトラックレットを抽出するステップと、
各トラックレットの特徴を抽出するステップと、
各トラックレットにおけるターゲットのカメラへの向きに基づいて、前記トラックレットの向きを決定するステップと、
決定された向きに基づいて前記複数のトラックレットを複数のグループに分けるステップであって、各グループにおけるトラックレットは同一の向きを有し、異なるグループにおけるトラックレットは異なる向きを有する、ステップと、
同一のターゲットに対応するトラックレットが初期集合に集められるように、抽出された特徴に基づいて各グループにおけるトラックレットに対してクラスタリングを実行するステップと、
同一のターゲットに対応し、且つ異なる向きを有するトラックレットが最終集合に併合されるように、前記複数のグループについてクラスタリングをそれぞれ実行して得られた複数の初期集合を併合するステップと、
前記最終集合におけるトラックレットを、対応するターゲットについての追跡情報として使用するステップと、を実行するように構成される、装置。
【請求項10】
プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに請求項1乃至8の何れかに記載のマルチターゲットマルチカメラ追跡のための方法を実行させる、記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、ターゲット追跡技術に関し、より具体的には、マルチターゲットマルチカメラ追跡の技術に関する。
【背景技術】
【0002】
マルチターゲットマルチカメラ追跡(Multi-Target Multi-Camera Tracking)技術は、現在監視ビデオ領域の非常に重要な研究トピックである。該技術は、異なるシーンをそれぞれ撮影する複数のカメラにより撮影されたビデオにおいて複数の追跡ターゲットが出現する時間及び空間位置を発見し、同一の追跡ターゲットが出現する時間及び空間情報と該追跡ターゲットとを関連付ける。マルチターゲットマルチカメラ追跡技術は、歩行者検出、ターゲット検出、歩行者再認識、ターゲット追跡などの様々なコンピュータビジョン技術を統合している。
【0003】
実際の応用では、マルチターゲットマルチカメラ追跡技術は、依然として多くの問題及び挑戦に直面している。例えば、ビデオにおけるターゲットのカメラへの向きは、同一のターゲットのトラックレットの関連付けに影響を与える可能性がある。具体的には、異なるカメラにより撮影されたビデオにおいて、同一のターゲットはカメラへの異なる向き(例えば、正面向き、横向き、又は背後向き)を有する可能性があり、異なる向きにより該ターゲットの外観特徴が異なる可能性がある。これによって、異なる外観特徴により、同一のターゲットに実際に対応する全てのトラックレットを互いに関連付けることが困難であるため、特徴に基づいてトラックレットを関連付ける従来の方法に不利である。
【0004】
例えば、以下の状況が存在する可能性がある。ターゲットが正面向きであるトラックレットをターゲットに関連付けてもよいが、ターゲットが横向きである場合の外観特徴と、ターゲットが正面向きである場合の外観特徴との差異が大きいため、ターゲットが横向きであるトラックレットとターゲットが正面向きであるトラックレットとを対応付けることは困難である。これによって、ターゲットが正面向きであるトラックレットだけを追跡情報として取得でき、追跡情報の正確性及び完全性を低下してしまう。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記の技術的問題に対して、本開示は、同一のターゲットの異なる方向による外観の差異のターゲット関連付けへの不利な影響を除去又は軽減し、マルチターゲットマルチカメラ追跡の性能を著しく向上させる、向きの推定に基づくマルチカメラのターゲット関連付け技術を提供する。
【課題を解決するための手段】
【0006】
本開示の1つの態様では、マルチターゲットマルチカメラ追跡のための方法であって、異なるシーンをそれぞれ撮影する複数のカメラの各カメラにより撮影された画像シーケンスに対してマルチターゲット追跡を実行し、前記画像シーケンスに出現する各ターゲットのトラックレットを抽出することによって、前記複数のカメラにより撮影された複数の画像シーケンスに基づいて複数のターゲットの複数のトラックレットを抽出するステップと、各トラックレットの特徴を抽出するステップと、各トラックレットにおけるターゲットのカメラへの向きに基づいて、前記トラックレットの向きを決定するステップと、決定された向きに基づいて前記複数のトラックレットを複数のグループに分けるステップであって、各グループにおけるトラックレットは同一の向きを有し、異なるグループにおけるトラックレットは異なる向きを有する、ステップと、同一のターゲットに対応するトラックレットが初期集合に集められるように、抽出された特徴に基づいて各グループにおけるトラックレットに対してクラスタリングを実行するステップと、同一のターゲットに対応し、且つ異なる向きを有するトラックレットが最終集合に併合されるように、前記複数のグループについてクラスタリングをそれぞれ実行して得られた複数の初期集合を併合するステップと、前記最終集合におけるトラックレットを、対応するターゲットについての追跡情報として使用するステップと、を含む、方法を提供する。
【0007】
本開示のもう1つの態様では、マルチターゲットマルチカメラ追跡のための装置であって、コンピュータプログラムが記憶されたメモリと、プロセッサと、を含み、前記プロセッサは、前記コンピュータプログラムを実行することによって、異なるシーンをそれぞれ撮影する複数のカメラの各カメラにより撮影された画像シーケンスに対してマルチターゲット追跡を実行し、前記画像シーケンスに出現する各ターゲットのトラックレットを抽出することによって、前記複数のカメラにより撮影された複数の画像シーケンスに基づいて複数のターゲットの複数のトラックレットを抽出するステップと、各トラックレットの特徴を抽出するステップと、各トラックレットにおけるターゲットのカメラへの向きに基づいて、前記トラックレットの向きを決定するステップと、決定された向きに基づいて前記複数のトラックレットを複数のグループに分けるステップであって、各グループにおけるトラックレットは同一の向きを有し、異なるグループにおけるトラックレットは異なる向きを有する、ステップと、同一のターゲットに対応するトラックレットが初期集合に集められるように、抽出された特徴に基づいて各グループにおけるトラックレットに対してクラスタリングを実行するステップと、同一のターゲットに対応し、且つ異なる向きを有するトラックレットが最終集合に併合されるように、前記複数のグループについてクラスタリングをそれぞれ実行して得られた複数の初期集合を併合するステップと、前記最終集合におけるトラックレットを、対応するターゲットについての追跡情報として使用するステップと、を実行するように構成される、装置を提供する。
【0008】
本開示のもう1つの態様では、プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに上記のマルチターゲットマルチカメラ追跡のための方法を実行させる、記憶媒体を提供する。
【図面の簡単な説明】
【0009】
【
図1】本開示に係るマルチターゲットマルチカメラ追跡技術を概略的に示す概念図である。
【
図2】トラックレットをグループ分けするプロセスを示すフローチャートである。
【
図3】初期集合を併合するプロセスを示すフローチャートである。
【
図4】本開示に係るマルチターゲットマルチカメラ追跡方法を示すフローチャートである。
【
図5】該マルチターゲットマルチカメラ追跡方法を実現する機能モジュールを示す図である。
【
図6】本開示を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。
【発明を実施するための形態】
【0010】
図1は、本開示に係るマルチターゲットマルチカメラ追跡技術を概略的に示す概念図である。まず、複数のカメラCAM1~CAMnにより撮影されたビデオを受信し、該複数のカメラCAM1~CAMnは異なるシーンをそれぞれ撮影する。単一のカメラからのビデオについて、マルチターゲット追跡技術(MOT)を使用して、該ビデオに出現する各ターゲットのトラックレット(tracklet)を抽出してもよい。このように、カメラCAM1~CAMnにより撮影されたビデオから複数のターゲットの複数のトラックレットを抽出してもよい。
【0011】
特に、同一のオブジェクトは異なるシーンに出現し、異なるカメラにより撮影される可能性があるため、異なるカメラのビデオから抽出されたトラックレットは同一のオブジェクトに対応する可能性がある。
【0012】
あるターゲットに基づく複数のトラックレットは、該ターゲットの一定時間内の行動軌跡を形成し、これによって、該ターゲットの追跡情報を取得することができる。ターゲットの行動軌跡は、通常、複数のビデオフレームに分散されるため、該トラックレットは、複数のフレームにおいてターゲットを認識することによって得られた複数のターゲットボックスの集合であってもよい。一例として、本開示では、複数のターゲットボックスを含む1つのトラックレットを1つの画像フォルダに保存してもよい。
【0013】
単一のカメラにより撮影されたビデオについてのマルチターゲット追跡(MOT)技術は、本技術分野において既知の技術であるため、本開示ではその詳細な説明を省略し、当業者は適切なMOT技術を使用してトラックレットを抽出してもよい。一例として、本開示では、ByteTrackモデルを使用する。Bytetrackモデルは、Zhang, Y., Sun, P.らの論文「Bytetrack:Multi-Object Tracking by Associating Every Detection Box」、arXiv preprint arXiv:2110.06864 (2021)に詳細に記述されており、その内容は参照により本明細書に組み込まれる。
【0014】
得られた複数のトラックレットの各トラックレットについて、その特徴(
図1には示されていない)を抽出してもよい。例えば、歩行者再認識(Re-ID)技術を適用することで、各の視覚的特徴を抽出してもよい。1つのトラックレットは複数のターゲットボックスの集合であってもよいため、Re-ID技術を使用して、各ターゲットボックスの視覚的特徴を抽出することができる。従って、トラックレットの特徴は、各ターゲットボックスの特徴により構成された集合であってもよい。
【0015】
Re-ID技術は本技術分野において既知の技術であるため、本開示ではその詳細な説明を省略し、当業者は適切なRe-ID技術を用いて特徴を抽出してもよい。一例として、本開示では、OSNetモデルを使用する。OSNetモデルは、K.Zhou,Y.Yangらの論文「Omni-Scale Feature Learning for Person Re-Identification」、ICCV、2019,第3702~3712頁に詳細に記述されており、その内容は参照により本明細書に組み込まれる。
【0016】
次に、
図1に示すように、得られた複数のトラックレットを複数のグループ、例えば、正面向きグループ、背後向きグループ及び横向きグループに分けてもよい。各グループにおけるトラックレットは同一の向きを有し、異なるグループにおけるトラックレットは異なる向きを有する。
【0017】
以下は、
図2を参照しながらグループ分けのプロセスを具体的に説明する。
図2は、トラックレットをグループ分けするプロセスを示すフローチャートである。まず、ステップS210において、各トラックレットにおけるターゲットのカメラへの向きを決定し、より具体的には、該トラックレットにおける各ターゲットボックス内のターゲットのカメラへの向きを決定する。このステップにおいて、様々な方法を使用して、ターゲットボックス内のターゲットの向きを推定してもよい。例えば、教師付きトレーニング方法又は事前にトレーニングされたモデルに基づいて微調整する方法を使用してもよく、この2つの方法は、何れも、モデルのトレーニングを実行するために、事前にデータをラベル付けする必要がある。また、ゼロサンプル方法を採用してもよく、即ち、トレーニングされた大きなモデルを直接使用して向きの推定を行ってもよく、この方法は、データのラベル付け及びトレーニングのプロセスを必要としない。さらに、属性認識技術を使用して、ターゲットボックス内のターゲットの向きを推定してもよい。一例として、本開示では、「Improving pedestrian attribute recognition with weakly-supervised multi-scale attribute-specific localization」、Tang C、Sheng Lら、IEEE/CVF コンピュータビジョン国際会議論文集、2019:4997~5006に記述されている属性認識技術が使用される。
【0018】
そして、ステップS220において、各ターゲットボックス内のターゲットの向きに基づいてトラックレットの向きを決定する。具体的には、その中のターゲットの向きが特定の向きであるターゲットボックスの数が所定の閾値より大きい場合、トラックレットの向きが該特定の向きであると決定してもよい。この規則に基づいてトラックレットの向きを決定できない場合、例えば、いずれの向きにも対応するターゲットボックスの数が所定の閾値を超えない場合、数が最も多いターゲットボックスに対応する向きをトラックレットの向きとして選択してもよい。
【0019】
特に、このように各トラックレットについて決定された向きは、1つ又は複数の向きであってもよい。例えば、1つのトラックレットにおける正面向きに対応するターゲットボックス及び横向きに対応するターゲットボックスの数が何れも閾値よりも大きい場合、該トラックレットの向きが正面向き及び横向きの両方であると決定してもよい。
【0020】
そして、ステップS230において、トラックレットの向きに基づいてトラックレットをグループ分けする。
図1には、正面向きグループ、背後向きグループ及び横向きグループが概略的に示されている。特に、上述したように、1つのトラックレットが複数の向きを有すると決定されてもよいため、該トラックレットが複数のグループに同時に分類されてもよい。
【0021】
なお、本開示は、
図1に示される3つのグループに限定されず、当業者は、より多い数のグループ又はより少ない数のグループを設定してもよく、正面向き、背後向き及び横向き以外の他の向きを使用してもよい。
【0022】
図1に戻り、グループ分けの後に、同一のターゲットに対応するトラックレットが1つの初期集合に集められるように、トラックレットの特徴に基づいて各グループにおけるトラックレットに対してクラスタリングを実行してもよい。クラスタリングの結果に応じて、1つの初期集合におけるトラックレットは、単一のカメラにより撮影された1つのターゲットのトラックレットであってもよいし、異なるカメラにより撮影された同一のターゲットのトラックレットであってもよい。言い換えれば、初期集合は、同一のターゲットに対応するマルチカメラのトラックレットを含み、これらのトラックレットは同一の向きを有する。一例として、本開示では階層的クラスタリング(agglomerative clustering)方法を採用し、当業者は他の既知の方法を使用してクラスタリングを実行してもよい。
【0023】
図1は、グループ毎のクラスタリング結果を概略的に示しており、正面向きグループにおけるトラックレットに基づいて3つの初期集合(円形で示す)が得られ、背後向きグループにおけるトラックレットに基づいて2つの初期集合(正方形で示す)が得られ、横向きグループにおけるトラックレットに基づいて2つの初期集合(三角形で示す)が得られることが分かる。また、黒い形状で示す3つの初期集合は、実際に同一のターゲットに対応し、他の形状(異なるパターンで塗りつぶされている)で示す初期集合は、異なるターゲットにそれぞれ対応する。
【0024】
そして、同一のターゲットに対応し、且つ異なる向きを有するトラックレットが1つの集合に併合されるように、得られた複数の初期集合を併合する。併合のプロセスでは、まず、2つのグループの初期集合を併合し、そして、併合された集合と他のグループの初期集合とを併合してもよい。
図1に概略的に示すように、まず、正面向きグループの初期集合と背後向きグループの初期集合とを併合し、そして、併合された集合と横向きグループの初期集合とを併合する。また、
図1は、黒い形状で示す3つの初期集合におけるトラックレットが1つの最終集合に併合され、他の初期集合がそれぞれ異なるターゲットに対応するため、併合されていないことを示している。
【0025】
従って、異なるカメラが同一のターゲットの異なる向きのトラックレットを撮影した場合、従来の方法では、ターゲットの向きの差異による外観の差異により、これらのトラックレットを互いに関連付けることができない場合がある。本開示は、この欠点を克服し、同一のターゲットに属する異なる向きのトラックレットを該ターゲットに関連付けることで、より正確、且つ完全な追跡情報を得ることができる。
【0026】
以下は、
図3を参照しながら併合プロセスを具体的に説明する。
図3は、2つのグループからの初期集合を併合するプロセスを示すフローチャートである。まず、ステップS310において、M×N行列を構築する。該行列の要素値は、i番目の初期集合とj番目の初期集合とに共通して含まれる同一のトラックレットの数である。該i番目の初期集合は、第1のグループ(正面向きグループ)に対してクラスタリングを実行して得られ、該j番目の初期集合は、第2のグループ(背後向きグループ)に対してクラスタリングを実行して得られる。ここで、i=1,2,…,M,j=1,2,…,Nであり、M及びNは自然数である。
【0027】
そして、ステップS320において、該行列の要素値のうちの最大値を決定し、ステップS330において、該最大値がゼロであるか否かを決定する。最大値がゼロであると決定された場合、第1のグループからのM個の初期集合(M個のターゲットに対応する)と第2のグループからのN個の初期集合(N個のターゲットに対応する)とが互いに無関係であり、即ち、それらが同一のターゲットに対応するものではないことを意味する。従って、併合プロセスを終了してもよい。
【0028】
ステップS330において最大値がゼロではないと決定された場合、最大値の行列における位置が(a,b)であると仮定すると、ステップS340において、該最大値に対応する第1のグループからのa番目の初期集合と第2のグループからのb番目の初期集合とを1つの集合に併合し、ステップS350において、行列における該最大値が所在するa行目及びb列目の両方の要素値をゼロに設定してもよい。そして、ステップS360において、要素値が修正された後の行列について最大値を再度決定する。
【0029】
最大値がゼロではない場合、ステップS340~S360を繰り返して実行してもよい。現在の行列における最大値がゼロであると決定された場合、併合処理を終了してもよい。
【0030】
以下は、
図4及び
図5を参照しながら、本開示に係るマルチターゲットマルチカメラ追跡方法及び該方法を実現する機能モジュールを説明する。
【0031】
図4及び
図5に示すように、ステップS410において、異なるシーンをそれぞれ撮影する複数のカメラから撮影されたビデオを受信し、そして、ステップS420において、マルチターゲット追跡(MOT)モジュール510は、各カメラにより撮影されたビデオに対してマルチターゲット追跡を実行し、該ビデオに出現する各ターゲットのトラックレットを抽出する。このよう、MOTモジュール510は、複数のカメラにより撮影された複数のビデオについて、複数のターゲットの複数のトラックレットを抽出することができる。
【0032】
そして、ステップS430において、特徴抽出モジュール520は、MOTモジュール510により抽出された複数のトラックレットの各トラックレットについて特徴を抽出する。
【0033】
そして、ステップS440において、向き決定モジュール530は、各トラックレットについて、該トラックレットにおける各ターゲットボックス内のターゲットのカメラへの向きを決定し、各ターゲットボックス内のターゲットの向きに基づいて該トラックレットの向きを決定する。
【0034】
そして、ステップS450において、グループ分けモジュール540は、トラックレットの向きに基づいて、抽出された複数のトラックレットを複数のグループに分ける。各グループにおけるトラックレットは同一の向きを有し、異なるグループにおけるトラックレットは異なる向きを有する。
【0035】
そして、ステップS460において、クラスタリングモジュール550は、同一のターゲットに対応するトラックレットが1つの初期集合に集められるように、トラックレットの特徴に基づいて、各グループにおけるトラックレットに対してクラスタリングを実行する。
【0036】
そして、ステップS470において、併合モジュール560は、同一のターゲットに対応し、且つ異なる向きを有するトラックレットが1つの最終集合に併合されるように、複数のグループについてクラスタリングをそれぞれ実行して得られた複数の初期集合を併合する。該最終集合におけるトラックレットは、対応するターゲットの追跡情報として使用されてもよい。
【0037】
なお、本開示に係る方法は、
図4に示す順序に限定されない。該方法は、技術的に可能な限り、異なる順序で実行されてもよい。例えば、ステップS430は、ステップS450の後に実行されてもよく、或いは、ステップS440及びS450と並行して実行されてもよい。
【0038】
以上は、具体的な実施形態を参照しながら本開示に係る内容を説明した。本開示に係るマルチターゲットマルチカメラ追跡技術は、従来技術の欠点を克服し、同一のターゲットに属する様々なトラックレットを認識することで、より正確、且つ完全な追跡情報を得ることができる。
【0039】
以上は具体的な実施例を参照しながら本開示の実施形態を説明した。上記の実施例に係る方法は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアに含まれるプログラムは、装置の内部又は外部に設置された記憶媒体に予め記憶されてもよい。一例として、実行中に、これらのプログラムはランダムアクセスメモリ(RAM)に書き込まれ、プロセッサ(例えばCPU)により実行されることで、本明細書で説明された各処理を実現する。
【0040】
図6は、本開示を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。本開示に係るマルチターゲットマルチカメラ追跡のための装置は、該コンピュータのハードウェアにより実現されてもよい。
【0041】
図6に示すように、コンピュータ600では、中央処理装置(CPU)601、読み出し専用メモリ(ROM)602及びランダムアクセスメモリ(RAM)603がバス604により相互に接続されている。
【0042】
入力/出力インターフェース605は、バス604にさらに接続されている。入力/出力インターフェース605には、キーボード、マウス、マイクロフォンなどにより構成された入力部606、ディスプレイ、スピーカなどにより構成された出力部607、ハードディスク、不揮発性メモリなどにより構成された記憶部608、ネットワークインターフェースカード(ローカルエリアネットワーク(LAN)カード、モデムなど)により構成された通信部609、及び移動可能な媒体611をドライブするドライバ610が接続されている。移動可能な媒体611は、例えば磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリである。
【0043】
上記の構成を有するコンピュータにおいて、CPU601は、記憶部608に記憶されているプログラムを、入力/出力インターフェース605及びバス604を介してRAM603にロードし、プログラムを実行することにより、上記の方法を実行する。
【0044】
コンピュータ(CPU601)により実行されるプログラムは、パッケージ媒体である移動可能な媒体611に記録されてもよい。該パッケージ媒体は、例えば磁気ディスク(フロッピーディスクを含む)、光ディスク(コンパクトディスクリードオンリーメモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)などを含む)、光磁気ディスク、又は半導体メモリにより形成される。また、コンピュータ(CPU601)により実行されるプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送の有線又は無線の伝送媒体を介して提供されてもよい。
【0045】
移動可能な媒体611がドライバ610にインストールされると、プログラムは、入力/出力インターフェース605を介して記憶部608にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して通信部609で受信され、記憶部608にインストールされる。或いは、プログラムは、ROM602又は記憶部608に予めインストールされてもよい。
【0046】
コンピュータにより実行されるプログラムは、本明細書で説明する順序に従って処理を実行するプログラムであってもよいし、処理を並列的に実行し、或いは必要に応じて(例えば呼び出しの時に)処理を実行するプログラムであってもよい。
【0047】
本明細書で説明されている装置又はユニットは論理的なものであり、物理的な装置又はエンティティに限定されない。例えば、本明細書で説明されている各ユニットの機能は複数の物理エンティティにより実現されてもよいし、本明細書で説明される複数のユニットの機能は単一の物理エンティティにより実現されてもよい。また、1つの実施例で説明される特徴、構成要素、要素、ステップなどは、該実施例に限定されず、例えば、他の実施例に適用されてもよく、例えば他の実施例の特定の特徴、構成要素、要素、ステップなどの代わりに用いてもよいし、それと組み合わせてもよい。
【0048】
本開示の範囲は、本明細書に記載の具体的な実施例に限定されない。当業者により理解できるように、設計要求及び他の要因に応じて、本開示の原理及び要旨から逸脱することなく、本明細書の実施例に対して様々な修正又は変更を行ってもよい。本開示の範囲は、添付の特許請求の範囲及びその均等物により制限される。
【0049】
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
マルチターゲットマルチカメラ追跡のための方法であって、
異なるシーンをそれぞれ撮影する複数のカメラの各カメラにより撮影された画像シーケンスに対してマルチターゲット追跡を実行し、前記画像シーケンスに出現する各ターゲットのトラックレットを抽出することによって、前記複数のカメラにより撮影された複数の画像シーケンスに基づいて複数のターゲットの複数のトラックレットを抽出するステップと、
各トラックレットの特徴を抽出するステップと、
各トラックレットにおけるターゲットのカメラへの向きに基づいて、前記トラックレットの向きを決定するステップと、
決定された向きに基づいて前記複数のトラックレットを複数のグループに分けるステップであって、各グループにおけるトラックレットは同一の向きを有し、異なるグループにおけるトラックレットは異なる向きを有する、ステップと、
同一のターゲットに対応するトラックレットが初期集合に集められるように、抽出された特徴に基づいて各グループにおけるトラックレットに対してクラスタリングを実行するステップと、
同一のターゲットに対応し、且つ異なる向きを有するトラックレットが最終集合に併合されるように、前記複数のグループについてクラスタリングをそれぞれ実行して得られた複数の初期集合を併合するステップと、
前記最終集合におけるトラックレットを、対応するターゲットについての追跡情報として使用するステップと、を含む、方法。
(付記2)
前記ターゲットのカメラへの向きは、正面向き、背後向き及び横向きのうちの1つである、付記1に記載の方法。
(付記3)
各トラックレットは、画像シーケンスの複数のフレームにおいてターゲットをそれぞれ識別するための複数のターゲットボックスの集合であり、
前記方法は、
前記複数のターゲットボックスのうちの各ターゲットボックスにおけるターゲットのカメラへの向きを決定するステップと、
ターゲットの向きが特定の向きであるターゲットボックスの数が第1の閾値より大きい場合、前記トラックレットの向きが前記特定の向きであると決定し、或いは、ターゲットの向きが特定の向きであるターゲットボックスの数が、ターゲットの向きが他の向きであるターゲットボックスの数よりも多い場合、前記トラックレットの向きが前記特定の向きであると決定するステップと、をさらに含む、付記1に記載の方法。
(付記4)
各トラックレットが1つ又は複数の向きを有すると決定することができ、
前記各トラックレットが前記複数のグループのうちの1つ又は複数のグループに含まれることができる、付記3に記載の方法。
(付記5)
行列を構築するステップであって、前記行列の要素値は、i番目の初期集合とj番目の初期集合とに共通して含まれる同一のトラックレットの数であり、前記i番目の初期集合は、第1の向きに対応する第1のグループに対してクラスタリングを実行して得られ、前記j番目の初期集合は、第2の向きに対応する第2のグループに対してクラスタリングを実行して得られ、i=1,2,…,M,j=1,2,…,Nであり、M及びNは自然数である、ステップ、をさらに含む、付記4に記載の方法。
(付記6)
前記行列の要素値のうちの最大値を決定するステップと、
前記最大値がゼロである場合、初期集合の併合を実行しないステップと、をさらに含む、付記5に記載の方法。
(付記7)
前記行列の要素値のうちの最大値を決定するステップと、
前記最大値がゼロでない場合、
a)前記最大値に対応する前記第1のグループからの初期集合と前記第2のグループからの初期集合を一つの集合に併合し、
b)前記行列における前記最大値が所在する行及び列の要素値をゼロに設定し、
c)修正された行列の要素値のうちの最大値を決定し、
d)行列の要素値のうちの最大値がゼロになるまで、ステップa)乃至ステップc)を反復的に実行するステップと、をさらに含む、付記5に記載の方法。
(付記8)
第3の向きに対応する第3のグループに対してクラスタリングを実行してK個の初期集合を取得し、
前記方法は、
前記第1のグループからのM個の初期集合と前記第2のグループからのN個の初期集合とを併合した後、併合された集合と前記第3のグループからのK個の初期集合とを併合するステップ、をさらに含む、付記7に記載の方法。
(付記9)
マルチターゲットマルチカメラ追跡のための装置であって、
コンピュータプログラムが記憶されたメモリと、
プロセッサと、を含み、
前記プロセッサは、前記コンピュータプログラムを実行することによって、
異なるシーンをそれぞれ撮影する複数のカメラの各カメラにより撮影された画像シーケンスに対してマルチターゲット追跡を実行し、前記画像シーケンスに出現する各ターゲットのトラックレットを抽出することによって、前記複数のカメラにより撮影された複数の画像シーケンスに基づいて複数のターゲットの複数のトラックレットを抽出するステップと、
各トラックレットの特徴を抽出するステップと、
各トラックレットにおけるターゲットのカメラへの向きに基づいて、前記トラックレットの向きを決定するステップと、
決定された向きに基づいて前記複数のトラックレットを複数のグループに分けるステップであって、各グループにおけるトラックレットは同一の向きを有し、異なるグループにおけるトラックレットは異なる向きを有する、ステップと、
同一のターゲットに対応するトラックレットが初期集合に集められるように、抽出された特徴に基づいて各グループにおけるトラックレットに対してクラスタリングを実行するステップと、
同一のターゲットに対応し、且つ異なる向きを有するトラックレットが最終集合に併合されるように、前記複数のグループについてクラスタリングをそれぞれ実行して得られた複数の初期集合を併合するステップと、
前記最終集合におけるトラックレットを、対応するターゲットについての追跡情報として使用するステップと、を実行するように構成される、装置。
(付記10)
前記ターゲットのカメラへの向きは、正面向き、背後向き及び横向きのうちの1つである、付記9に記載の装置。
(付記11)
各トラックレットは、画像シーケンスの複数のフレームにおいてターゲットをそれぞれ識別するための複数のターゲットボックスの集合であり、
前記プロセッサは、
前記複数のターゲットボックスのうちの各ターゲットボックスにおけるターゲットのカメラへの向きを決定するステップと、
ターゲットの向きが特定の向きであるターゲットボックスの数が第1の閾値より大きい場合、前記トラックレットの向きが前記特定の向きであると決定し、或いは、ターゲットの向きが特定の向きであるターゲットボックスの数が、ターゲットの向きが他の向きであるターゲットボックスの数よりも多い場合、前記トラックレットの向きが前記特定の向きであると決定するステップと、をさらに実行するように構成される、付記9に記載の装置。
(付記12)
各トラックレットが1つ又は複数の向きを有すると決定することができ、
前記各トラックレットが前記複数のグループのうちの1つ又は複数のグループに含まれることができる、付記11に記載の装置。
(付記13)
前記プロセッサは、
行列を構築するステップであって、前記行列の要素値は、i番目の初期集合とj番目の初期集合とに共通して含まれる同一のトラックレットの数であり、前記i番目の初期集合は、第1の向きに対応する第1のグループに対してクラスタリングを実行して得られ、前記j番目の初期集合は、第2の向きに対応する第2のグループに対してクラスタリングを実行して得られ、i=1,2,…,M,j=1,2,…,Nであり、M及びNは自然数である、ステップ、をさらに実行するように構成される、付記12に記載の装置。
(付記14)
前記プロセッサは、
前記行列の要素値のうちの最大値を決定するステップと、
前記最大値がゼロである場合、初期集合の併合を実行しないステップと、をさらに実行するように構成される、付記13に記載の装置。
(付記15)
前記プロセッサは、
前記行列の要素値のうちの最大値を決定するステップと、
前記最大値がゼロでない場合、
a)前記最大値に対応する前記第1のグループからの初期集合と前記第2のグループからの初期集合を一つの集合に併合し、
b)前記行列における前記最大値が所在する行及び列の要素値をゼロに設定し、
c)修正された行列の要素値のうちの最大値を決定し、
d)行列の要素値のうちの最大値がゼロになるまで、ステップa)乃至ステップc)を反復的に実行するステップと、をさらに実行するように構成される、付記13に記載の装置。
(付記16)
第3の向きに対応する第3のグループに対してクラスタリングを実行してK個の初期集合を取得し、
前記プロセッサは、
前記第1のグループからのM個の初期集合と前記第2のグループからのN個の初期集合とを併合した後、併合された集合と前記第3のグループからのK個の初期集合とを併合するステップ、をさらに実行するように構成される、付記15に記載の装置。
(付記17)
プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに付記1乃至8の何れかに記載のマルチターゲットマルチカメラ追跡のための方法を実行させる、記憶媒体。