特開2023-51196 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 田中　成典の特許一覧 ▶ 中村　健二の特許一覧 ▶ 山本　雄平の特許一覧 ▶ Ｉｎｔｅｌｌｉｇｅｎｔ　Ｓｔｙｌｅ株式会社の特許一覧 ▶ アジア航測株式会社の特許一覧 ▶ クロスセンシング株式会社の特許一覧

特開2023-51196対象物追跡装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023051196

(43)【公開日】2023-04-11

(54)【発明の名称】対象物追跡装置

(51)【国際特許分類】

G06T 7/215 20170101AFI20230404BHJP

G06T 7/00 20170101ALI20230404BHJP

【ＦＩ】

G06T7/215

G06T7/00 350C

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2021161728

(22)【出願日】2021-09-30

(71)【出願人】

【識別番号】500063228

【氏名又は名称】田中成典

(71)【出願人】

【識別番号】502235692

【氏名又は名称】中村健二

(71)【出願人】

【識別番号】517305883

【氏名又は名称】山本雄平

(71)【出願人】

【識別番号】519113745

【氏名又は名称】ＩｎｔｅｌｌｉｇｅｎｔＳｔｙｌｅ株式会社

(71)【出願人】

【識別番号】591074161

【氏名又は名称】アジア航測株式会社

(71)【出願人】

【識別番号】521429018

【氏名又は名称】クロスセンシング株式会社

(74)【代理人】

【識別番号】100092956

【弁理士】

【氏名又は名称】古谷栄男

(74)【代理人】

【識別番号】100101018

【弁理士】

【氏名又は名称】松下正

(72)【発明者】

【氏名】田中成典

(72)【発明者】

【氏名】中村健二

(72)【発明者】

【氏名】山本雄平

(72)【発明者】

【氏名】姜文渊

(72)【発明者】

【氏名】鳴尾丈司

(72)【発明者】

【氏名】田中ちひろ

(72)【発明者】

【氏名】坂本一磨

(72)【発明者】

【氏名】政木英一

(72)【発明者】

【氏名】松林豊

(72)【発明者】

【氏名】新名恭仁

(72)【発明者】

【氏名】山田貴之

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096DA02

5L096EA33

5L096FA72

5L096HA05

5L096HA08

5L096HA11

5L096JA11

5L096KA04

5L096KA15

(57)【要約】

【課題】システムの構築が容易でありながら正確な追跡を行うシステムを提供する。
【解決手段】対象物認識手段２は、動画データの各フレームにおいて、人や自動車などの対象物を認識する。関連追跡手段４は、隣接フレームにおける同一対象物を関連づけて追跡を行う。対象物画像記録手段６は、関連追跡手段４によって関連づけられた各フレームにおける対象物画像に基づいて、各対象物を特定した対象物画像を記録部に記録する。対象物同定モデル生成手段７は、生成された各対象物を特定した対象物画像を学習データとして、対象物を同定する学習済対象物同定モデル８を生成する。同定追跡手段９は、オクルージョンなどによって関連追跡手段４による対象物の追跡が途切れると、当該対象物を対象物同定モデル８によって同定し、関連づけを行う。このようにして、対象物について正確な追跡を行うことができる。なお、同定追跡手段９によって関連づけが回復できた後は、再び関連追跡手段４によって対象物の追跡を行う。
【選択図】図１

【特許請求の範囲】

【請求項1】

動画のフレームにおいて対象物を認識する対象物認識手段と、
隣接するフレームにおける同一対象物を関連づけて追跡を行う関連追跡手段と、
前記動画の所定数のフレームについて、前記関連追跡手段による追跡結果に基づいて、各対象物を特定した対象物画像を記録する対象物画像記録手段と、
前記各対象物を特定した対象物画像を学習データとして、前記各対象物を同定する対象物同定モデルを生成する対象物同定モデル生成手段と、
所定フレームにおいて前記関連追跡手段による関連づけができなくなると、前記対象物同定モデルを用いて、前記所定フレーム以降において当該関連づけができなくなった対象物を同定し、関連付けを行う同定追跡手段と、
を備えた対象物追跡装置。

【請求項2】

対象物追跡装置をコンピュータによって実現するための対象物追跡プログラムであって、コンピュータを、
動画のフレームにおいて対象物を認識する対象物認識手段と、
隣接するフレームにおける同一対象物を関連づけて追跡を行う関連追跡手段と、
前記動画の所定数のフレームについて、前記関連追跡手段による追跡結果に基づいて、各対象物を特定した対象物画像を記録する対象物画像記録手段と、
前記各対象物を特定した対象物画像を学習データとして、前記各対象物を同定する対象物同定モデルを生成する対象物同定モデル生成手段と、
所定フレームにおいて前記関連追跡手段による関連づけができなくなると、前記対象物同定モデルを用いて、前記所定フレーム以降において当該関連づけができなくなった対象物を同定し、関連付けを行う同定追跡手段として機能するための対象物追跡プログラム。

【請求項3】

請求項１の装置またはプログラムにおいて、
前記同定追跡手段による関連づけがなされると、再び関連追跡手段による追跡を行うことを特徴とする装置またはプログラム。

【請求項4】

請求項１～３のいずれかの装置またはプログラムにおいて、
前記対象物同定モデルは、複数の対象物が撮像されている画像から、対象物を見いだして対象物の種類を同定することを特徴とする装置またはプログラム。

【請求項5】

請求項１～３のいずれかの装置またはプログラムにおいて、
前記対象物同定モデルは、１つの対象物が主として撮像されている画像から、当該対象物の種類を同定することを特徴とする装置またはプログラム。

【請求項6】

請求項４または５の装置またはプログラムにおいて、
前記対象物は人物であり、
前記対象物の種類は、個々の人物であることを特徴とする装置またはプログラム。

【請求項7】

動画のフレームにおいて対象物を認識し、隣接するフレームにおける同一対象物を関連づけて追跡を行う認識関連追跡手段と、
前記動画の所定数のフレームについて、前記認識関連追跡手段による追跡結果に基づいて、各対象物を特定した対象物画像を記録する対象物画像記録手段と、
前記各対象物を特定した対象物画像を学習データとして、前記各対象物を同定する対象物同定モデルを生成する対象物同定モデル生成手段と、
前記対象物同定モデルが生成されると、当該対象物同定モデルによって対象物を同定し、前記認識関連追跡手段に代わって対象物を追跡する同定追跡手段と、
を備えた対象物追跡装置。

【請求項8】

対象物追跡装置をコンピュータによって実現するための対象物追跡プログラムであって、コンピュータを、
動画のフレームにおいて対象物を認識し、隣接するフレームにおける同一対象物を関連づけて追跡を行う認識関連追跡手段と、
前記動画の所定数のフレームについて、前記認識関連追跡手段による追跡結果に基づいて、各対象物を特定した対象物画像を記録する対象物画像記録手段と、
前記各対象物を特定した対象物画像を学習データとして、前記各対象物を同定する対象物同定モデルを生成する対象物同定モデル生成手段と、
前記対象物同定モデルが生成されると、当該対象物同定モデルによって対象物を同定し、前記認識関連追跡手段に代わって対象物を追跡する同定追跡手段として機能させるための対象物追跡プログラム。

【請求項9】

請求項７の装置または請求項８のプログラムにおいて、
前記対象物同定モデルの生成後は、前記認識関連追跡手段と前記同定追跡手段の双方により、対象物の追跡を行うことを特徴とする装置またはプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、動画中の対象物を追跡する技術に関するものである。

【背景技術】

【0002】

動画中の人や車などの対象物を追跡する手法として、Deep SORTが用いられている。Deep SORTにおいては、次のようにして対象物の追跡を行っている。

【0003】

ＣＮＮ（コンボリューショナル・ニューラル・ネットワーク）などのニューラルネットワークを学習させることにより、画像中から人物などの対象物を抽出する。たとえばYOLO(You Only Look Once)のような物体検知モデルによって、撮像画像に映し出された対象物を認識し、バウンダリーボックスにて当該対象物を囲って出力する。

【0004】

フレーム画像中のバウンダリーボックスのそれぞれにＩＤを付す。隣接するフレームのバウンダリーボックスの位置、大きさ等と、隣接するフレームのバウンダリーボックス内の対象物間の画像としての類似度（たとえば、バウンダリーボックス内の画像をCNNに与えたときの隠れ層からの出力を特徴ベクトルとし、ReIDによって算出した特徴ベクトルの距離に基づいて判断する）等に基づいて、同一対象物のバウンダリーボックスを追跡する。上記のようにして、動画中の対象物の動きを追跡することができる。

【0005】

ところで、上記のようなDeep SORTでは、対象物の重なり（オクルージョン）等によって、追跡が途絶えてしまうこと（ロスト）があった。このような場合に対応するため、特許文献１には、隣接するフレーム間での人物の類似度だけでなく、各フレームにおいて各人物を同定し、これも加味して追跡を行うシステムが開示されている。このシステムによれば、オクルージョンなどによる追跡不能が生じにくくなるというメリットがある。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０２０－９１６６４

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、上記のような従来技術では、人物を同定するための学習済モデルが別途必要であり、学習データを用意しなければならずその構築が容易ではなかった。

【0008】

また、フレーム間における対象物の類似性と、フレームにおける対象物の同定の双方を行っているので、正確性は高いものの処理速度が遅くなるという問題があった。

【0009】

この発明は、上記のいずれかの問題を解決して、システムの構築が容易でありながら正確な追跡を行うシステムを提供することを目的とする。また、正確な追跡を行いつつ処理速度の速いシステムを提供することを目的とする。

【課題を解決するための手段】

【0010】

この発明の独立して適用可能な特徴を以下に列挙する。

【0011】

(1)(2)この発明に係る対象物追跡装置は、動画のフレームにおいて対象物を認識する対象物認識手段と、隣接するフレームにおける同一対象物を関連づけて追跡を行う関連追跡手段と、前記動画の所定数のフレームについて、前記関連追跡手段による追跡結果に基づいて、各対象物を特定した対象物画像を生成する対象物画像記録手段と、前記各対象物を特定した対象物画像を学習データとして、前記各対象物を同定する対象物同定モデルを生成する対象物同定モデル生成手段と、所定フレームにおいて前記関連追跡手段による関連づけができなくなると、前記対象物同定モデルを用いて、前記所定フレーム以降において当該関連づけができなくなった対象物を同定し、関連付けを行う同定追跡手段とを備えている。

【0012】

したがって、フレーム間類似による対象物の追跡によって蓄積された学習データに基づいて対象物同定モデルを生成し、追跡不能となった場合に、当該対象物同定モデルによって再び追跡を続けることができる。

【0013】

(3)この発明に係る対象物追跡装置は、同定追跡手段による関連づけがなされると、再び関連追跡手段による追跡を行うことを特徴としている。

【0014】

したがって、関連追跡手段による迅速な処理を基本とし、追跡不能となった場合にのみ同定追跡手段を用いることができる。

【0015】

(4)この発明に係る対象物追跡装置は、対象物同定モデルが、複数の対象物が撮像されている画像から、対象物を見いだして対象物の種類を同定することを特徴としている。

【0016】

したがって、複数の対象物が撮像されている画像から対象物を認識して種類を特定することができる。

【0017】

(5)この発明に係る対象物追跡装置は、対象物同定モデルが、１つの対象物が主として撮像されている画像から、当該対象物の種類を同定することを特徴としている。

【0018】

したがって、１つの対象物が主として撮像されている画像から、対象物の種類を特定することができる。

【0019】

(6)この発明に係る対象物追跡装置は、対象物が人物であり、対象物の種類が、個々の人物であることを特徴としている。

【0020】

したがって、人物を対象物とし、個々の人物を特定することができる。

【0021】

(7)(8)この発明に係る対象物追跡装置は、動画のフレームにおいて対象物を認識し、隣接するフレームにおける同一対象物を関連づけて追跡を行う認識関連追跡手段と、前記動画の所定数のフレームについて、前記認識関連追跡手段による追跡結果に基づいて、各対象物を特定した対象物画像を記録する対象物画像記録手段と、前記各対象物を特定した対象物画像を学習データとして、前記各対象物を同定する対象物同定モデルを生成する対象物同定モデル生成手段と、前記対象物同定モデルが生成されると、当該対象物同定モデルによって対象物を同定し、前記認識関連追跡手段に代わって対象物を追跡する同定追跡手段とを備えている。

【0022】

したがって、フレーム間類似による対象物の追跡によって蓄積された学習データに基づいて対象物同定モデルを生成し、当該対象物同定モデル生成後は、対象物同定モデルを用いて正確に追跡を続けることができる。

【0023】

(9)この発明に係る対象物追跡装置は、対象物同定モデルの生成後は、前記認識関連追跡手段と前記同定追跡手段の双方により、対象物の追跡を行うことを特徴としている。

【0024】

したがって、より正確に追跡を行うことができる。

【0025】

「対象物認識手段」は、実施形態においては、ステップＳ６がこれに対応する。

【0026】

「関連追跡手段」は、実施形態においては、ステップＳ７がこれに対応する。

【0027】

「対象物画像記録手段」は、実施形態においては、ステップＳ１７がこれに対応する。

【0028】

「対象物同定モデル生成手段」は、実施形態においては、ステップＳ１１がこれに対応する。

【0029】

「同定追跡手段」は、実施形態においては、ステップＳ１５やステップＳ２３、Ｓ２４がこれに対応する。

【0030】

「認識関連追跡手段」は、実施形態においては、ステップＳ６、Ｓ７がこれに対応する。

【0031】

「装置」とは、１台のコンピュータによって構成されるものだけでなく、ネットワークなどを介して接続された複数のコンピュータによって構成されるものも含む概念である。したがって、本発明の手段（あるいは手段の一部でもよい）が複数のコンピュータに分散されている場合、これら複数のコンピュータが装置に該当する。

【0032】

「プログラム」とは、ＣＰＵにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む概念である。

【図面の簡単な説明】

【0033】

【図1】第１の実施形態による対象物追跡装置の機能構成である。

【図2】対象物追跡装置のハードウエア構成である。

【図3】対象物追跡プログラム３２のフローチャートである。

【図4】対象物追跡プログラム３２のフローチャートである。

【図5】競技フィールドを撮像した画像例である。

【図6】YOLOのアーキテクチャを示す図である。

【図7】YOLOを学習するための学習データの例である。

【図8】図５の画像に対して、YOLOによって選手が認知されバウンダリーボックスが形成された画像例である。

【図9】選手ＩＤに対応付けて入力されて記録されたチーム、選手名などである。

【図10】図１０Ａはオクルージョンの発生によって選手認識ができなくなった例を示す図である。図１０Ｂは選手同定モデルによって選手を同定した例である。

【図11】第１の実施形態による選手追跡を模式的に示す図である。

【図12】他の例による対象物追跡プログラム３２のフローチャートである。

【図13】第２の実施形態による対象物追跡装置の機能構成である。

【図14】対象物追跡プログラム３２のフローチャートである。

【図15】対象物追跡プログラム３２のフローチャートである。

【発明を実施するための形態】

【0034】

１．第１の実施形態
1.1機能構成
図１に、この発明の一実施形態による対象物追跡装置の機能構成を示す。対象物認識手段２は、動画データの各フレームにおいて、人や自動車などの対象物を認識する。関連追跡手段４は、隣接フレームにおける同一対象物を関連づけて追跡を行う。たとえば、対象物のバウンダリーボックスの位置・大きさや対象物画像の類似度などに基づいて、同一対象物を探し出して関連づけるようにする。

【0035】

対象物画像記録手段６は、関連追跡手段４によって関連づけられた各フレームにおける対象物画像に基づいて、各対象物を特定した対象物画像を記録部に記録する。対象物同定モデル生成手段７は、生成された各対象物を特定した対象物画像を学習データとして、対象物を同定する学習済対象物同定モデル８を生成する。

【0036】

同定追跡手段９は、オクルージョンなどによって関連追跡手段４による対象物の追跡が途切れると、当該対象物を対象物同定モデル８によって同定し、関連づけを行う。

【0037】

このようにして、対象物について正確な追跡を行うことができる。なお、同定追跡手段９によって関連づけが回復できた後は、再び関連追跡手段４によって対象物の追跡を行う。

【0038】

図１１に、対象物をフィールド上の選手とした場合の対象物追跡の例を模式的に示す。関連追跡手段４によって、フレーム間の関連性に基づいて選手の追跡が行われる。図１１においては、player5とplaye17についてその追跡を示している。一方、追跡がなされて選手が特定された画像に基づいて、選手同定モデルが形成される。このように、選手同定モデルを学習するためのデータとして関連追跡手段４の結果データを用いているので、別途、学習データを用意する必要がない。

【0039】

オクルージョンなどによって、関連追跡手段４による関連づけが失敗すると、同定追跡手段９により、選手同定モデルを用いて関連づけを復帰させる。関連づけがなされると、以後は、再び、関連追跡手段４による関連づけと追跡が行われる。

【0040】

1.2ハードウエア構成
図２に、対象物追跡装置のハードウエア構成を示す。ＣＰＵ１０には、メモリ１２、ディスプレイ１４、ＳＳＤ１６、ＤＶＤ－ＲＯＭドライブ１８、キーボード／マウス２０、通信回路２２が接続されている。

【0041】

通信回路２２は、インターネットに接続するための回路である。ＳＳＤ１６には、オペレーティングシステム３０、対象物追跡プログラム３２が記録されている。対象物追跡プログラム３２は、オペレーティングシステム３０と協働してその機能を発揮するものである。これらプログラムは、ＤＶＤ－ＲＯＭ３６に記録されていたものを、ＤＶＤ－ＲＯＭドライブ１８を介してＳＳＤ１６にインストールしたものである。

【0042】

1.3対象物追跡処理
図３、図４に、対象物追跡プログラム３２のフローチャートを示す。この実施形態では、サッカーなどのフィールド競技の選手を対象物としている。ＳＳＤ１６には、試合中の選手を撮像した動画が予め記録されている。

【0043】

ＣＰＵ１０は、この動画の先頭フレームの画像を取り出す（ステップＳ１）。取得した画像の例を図５に示す。

【0044】

次に、ＣＰＵ１０は、物体検知モデルである学習済ＹＯＬＯを用いて、取得した画像中から選手を検知する（ステップＳ２）。ＹＯＬＯのアーキテクチャを図６に示す。コンボリューション層、マックスプーリング層を複数層経た後、全結合層によって、検出した選手の領域を示すバウンダリーボックスの情報（たとえば、左上、右下の２点の座標）および物体のラベル（この例では選手）を出力するものである。

【0045】

この学習済ＹＯＬＯ物体検知モデルは、図７Ａや図７Ｂに示すように、撮像画像に、選手を示すバウンダリーボックス（作業者がマウスなどを用いて入力することができる）を付した学習画像を多数用意し、これら学習画像にて学習したものである。なお、多種類の物体を検知するように学習され公開配布されている学習済ＹＯＬＯモデルを用いるようにしてもよい。

【0046】

学習済ＹＯＬＯ物体検知モデルにて、図５の画像から選手を抽出した例を図８に示す。検知された選手を囲うようにバウンダリーボックスが形成されている。図８に示すように、各バウンダリーボックスにはＩＤが付されている。なお、この実施形態では、予め撮像画像に対して操作者が競技フィールドの領域を囲う線を指定しておき、その領域内の選手（審判を含む）のみを検知するようにしている。

【0047】

次に、キーボード２０を用いて、作業者が各バウンダリーボックスに対応付けてチーム名、選手名などを入力する。ＣＰＵ１０は、図９に示すように、選手ＩＤとチーム名、選手名などを対応付けてＳＳＤ１６に記録する。

【0048】

以上のようにして、各選手をトラッキングするための準備が整う。ＣＰＵ１０は、ＳＳＤ１６に記録されている動画から、次のフレームの画像を取得する（ステップＳ５）。続いて、当該フレーム画像から、学習済ＹＯＬＯ物体検知モデルにて選手を抽出する（ステップＳ６）。これにより、図８の状態から少し選手が移動した状態の画像について、ＩＤの付された選手のバウンダリーボックスを得ることができる。

【0049】

ＣＰＵ１０は、前のフレームのバウンダリーボックスと、現在のフレームのバウンダリーボックスを比較し、所定の距離以内であって大きさが近似するバウンダリーボックス同士を関連づける（ステップＳ７）。また、この際、前フレームの選手の画像と、現在フレームの選手の画像との類似度（たとえばReIDにて算出した特徴ベクトルの距離に基づいて判断することができる）も考慮して、関連づけを行うようにしている。このような関連づけは、Deep SORTのアルゴリズムを用いることができる。

【0050】

このように隣接するフレーム間での選手の関連づけを行うことにより、各選手ごとにその移動をトラッキングすることができる。たとえば、同一選手のバウンダリーボックスの下辺中央点（足元の位置）をフレームごとに線で結び、選手の移動軌跡を得ることができる。

【0051】

次に、ＣＰＵ１０は、オクルージョンなどによって前フレームの選手と関連づけができなくなった選手がいるかどうかを判断する（ステップＳ８）。

【0052】

フレーム画像中の全ての選手について関連づけができた場合、ＣＰＵ１０は、選手ＩＤ付きのバウンダリーボックスの付されたフレーム画像を、学習データとしてＳＳＤ１６に記録する（ステップＳ１７）。

【0053】

上記の処理が終了すると、ＣＰＵ１０は、次のフレーム画像を取得しステップＳ５～Ｓ１７の処理を繰り返す（ステップＳ４、Ｓ１８）。

【0054】

ステップＳ８において、前フレームの選手との関連付けができない選手があった場合、ＣＰＵ１０はステップＳ９以下を実行する。たとえば、図１０Ａに示すように、２人の選手が重なっており、選手が検出できない（バウンダリーボックスが形成されない）場合などにこのような事態が生じる。また、選手は検出できる（バウンダリーボックスは形成される）ものの類似性のある選手を見いだすことができない場合などにも生じる。この実施形態では、関連づけができない選手については、選手ＩＤを付さないようにしている。

【0055】

ＣＰＵ１０は、前フレームの選手との関連付けができない選手があると、選手同定モデルが、既に生成済であるか否かを判断する（ステップＳ９）。まだ生成されていなければ、選手同定モデル生成のために必要な所定数のフレーム（たとえば１万フレーム）の学習データ（ステップＳ１７にて記録したデータ）が蓄積されているか否かを判断する（ステップＳ１０）。未蓄積であれば選手同定モデルを形成することはできず、この段階では関連づけができない選手に対する対応はできない。したがって、関連づけのできた選手について、選手ＩＤ付きのバウンダリーボックスの付されたフレーム画像を、学習データとしてＳＳＤ１６に記録する（ステップＳ１７）。

【0056】

なお、関連づけのなされていない選手については、次以降のフレームの処理で、ステップＳ７において、直前のフレームだけでなく、所定数のフレーム（１０フレームなど）をさかのぼって関連づけを行うようにする。

【0057】

ステップＳ１０において、所定フレーム数（ここでは１万フレーム）の学習データが蓄積されると、ＣＰＵ１０は、上記の選手を検知するＹＯＬＯ物体検知モデルとは別に、個々の選手を区別して（すなわち個々の選手を別のクラスとして区別して）検知する選手同定のためのＹＯＬＯ物体検知モデルを形成する（ステップＳ１１）。すなわち、未学習ＹＯＬＯモデルを、上記学習データ（選手ＩＤ付きのバウンダリーボックスの付された画像）を用いて、学習済ＹＯＬＯ物体検知モデル（選手同定モデル）を得る。

【0058】

選手同定モデルが形成されると、ＣＰＵ１０は、関連づけのなされていない選手が含まれるフレーム画像について、当該選手同定モデルにて各選手を同定する。ＣＰＵ１０は、前フレーム画像の選手との関連づけができなかった選手について、選手同定モデルにて同定ができたかどうかを判断する（ステップＳ１３）。

【0059】

たとえば、図１０Ｂに示すように、選手ＩＤ（player5とplayer17）を特定できたとする。この場合、ＣＰＵ１０は、直前のフレーム画像において当該選手が現れていれば関連づけを行う。また、直前のフレーム画像においても当該選手が現れていなければ、当該選手が現れるところまでさらに前のフレームに順次さかのぼり関連づけを行う（ステップＳ１４、Ｓ１５）。

【0060】

上記のようにして関連づけを行うと、ＣＰＵ１０は、選手ＩＤ付きのバウンダリーボックスの付されたフレーム画像を、学習データとしてＳＳＤ１６に記録する（ステップＳ１７）。

【0061】

また、ステップＳ１２において選手同定モデルを用いても特定できない場合（たとえば、選手が他の選手の後ろに完全に隠れている場合など）には、関連づけができた選手について、選手ＩＤ付きのバウンダリーボックスの付されたフレーム画像を、学習データとしてＳＳＤ１６に記録する（ステップＳ１７）。

【0062】

なお、この実施形態では、選手同定モデルが形成された後も、学習データを蓄積するようにしている。これは、選手同定モデルを追加学習してその精度を高めるためである。追加学習の必要がなければ、選手同定モデルの形成後は、学習データを蓄積しなくともよい。

【0063】

以上のようにして、選手同定モデルが生成された後は、選手の関連づけができなくなると、選手同定モデルを用いて関連づけを行うようにしている。したがって、従来のように、関連づけができなくなった選手について新たな選手ＩＤを付してトラッキングを行うために、トラッキングが途切れてしまうということがない。

【0064】

1.4その他
(1)上記実施形態では、関連づけが不能となった場合に選手同定モデルを形成するようにしている。しかし、学習のために必要な画像が蓄積された時点で選手同定モデルを形成するようにしてもよい。

【0065】

(2)上記実施形態では、バウンダリーボックスの位置・大きさとフレーム間の選手画像の類似度とに基づいて追跡を行う処理を関連追跡手段として用いている。しかし、いずれか一方のみを用いた追跡を行うようにしてもよい。

【0066】

(3)上記実施形態では、ステップＳ３において、作業者が選手名などを入力するようにしている。

【0067】

しかし、試合開始時には、選手のポジションによっておおよその位置が決まっているので、位置関係に基づいて、予め用意されているメンバー表（ポジションと選手名が記載されている）のデータから、自動的に選手名などを取り込むようにしてもよい。また、選手名等を入力しないようにしてもよい。

【0068】

(4)上記実施形態では、選手同定モデルとして、複数の選手が含まれた画像から各選手を同定するようなモデルを形成するようにしている。

【0069】

しかし、選手同定モデルとして、ステップＳ６にて用いた選手を認識するための学習済ＹＯＬＯ物体検知モデルにて切り出した、個々の選手の画像（バウンダリーボックス内の画像）から選手を同定するモデルを用いるようにしてもよい。この場合、ステップＳ１７においては、バウンダリーボックスにて切り出した選手画像（当該選手のみが映し出されているか、または他の選手が含まれていたとしても当該選手が主として映し出されている画像）と当該選手ＩＤを学習データとして記録する。この学習データに基づいて、個々の選手の画像から選手を同定する学習済モデルを形成する。

【0070】

この場合の対象物追跡プログラム３２のフローチャートを図１２に示す。図３は上記と同様の処理であるので、図４に代わる図１２のみを示す。図３のステップＳ８において、関連づけ不能の選手があると、当該選手のバウンダリーボックスに基づいて選手画像の切り出しを行う（ステップＳ２０）。

【0071】

次に、選手同定モデルを用いて切り出した選手画像の選手を同定する（ステップＳ１２）。同定できた場合、ＣＰＵ１０は、直前のフレーム画像において当該選手ＩＤが現れていれば関連づけを行う。また、直前のフレーム画像においても当該選手ＩＤが現れていなければ、当該選手ＩＤが現れるところまでさらに前のフレームに順次さかのぼり関連づけを行う（ステップＳ１４、Ｓ１５）。

【0072】

ステップＳ１７では、選手ごとの画像に選手ＩＤを付して学習データとして記録する。

【0073】

(5)上記実施形態では、ステップＳ１２において同定した選手について、ステップＳ７において関連づけて追跡してきた選手との関係において矛盾が生じないものとして説明した。

【0074】

しかし、ステップＳ１２において同定した選手が既に追跡済の選手と矛盾を生じる場合もある。たとえば、ステップＳ７において関連づけできなかった選手のＩＤがplayer1であるのに、ステップＳ１２において同定した選手がplayer3であるような場合である。

【0075】

このような事態が生じた場合には、現在のフレームとそれ以前の所定数のフレームについて、選手の同定を行い、当該同定に基づいて関連づけを再構築するようにしてもよい。

【0076】

(6)上記実施形態では、フィールド上の選手を対象物として追跡を行う例を説明した。しかし、自動車、動物、ボール、歩行者などの移動物を対象物として追跡を行うようにしてもよい。

【0077】

(7)上記実施形態では、対象物追跡装置を１台のコンピュータによって構成したが、複数台のコンピュータによって構成してもよい。また、図１に示された一部の機能をサーバ装置において、他の機能をネットワーク接続された端末装置においてもよい。

【0078】

(8)上記変形例は、その本質に反しない限り、他の実施形態においても適用可能である。

【0079】

２．第２の実施形態
2.1機能構成
図１３に、第２の実施形態による対象物追跡装置の機能構成を示す。認識関連追跡手段３は、動画データの各フレームにおいて、人や自動車などの対象物を認識し、隣接フレームにおける同一対象物を関連づけて追跡を行う。たとえば、対象物のバウンダリーボックスの位置・大きさや対象物画像の類似度などに基づいて、同一対象物を探し出して関連づけるようにする。

【0080】

対象物画像記録手段６は、認識関連追跡手段３によって関連づけられた各フレームにおける対象物画像に基づいて、各対象物を特定した対象物画像を記録部に記録する。対象物同定モデル生成手段７は、生成された各対象物を特定した対象物画像を学習データとして、対象物を同定する学習済対象物同定モデル８を生成する。

【0081】

同定追跡手段９は、対象物同定モデル８に基づいて対象物を認識して同定し関連づけを行う。

【0082】

対象物同定モデル８が形成された後は、認識関連追跡手段３に代えて同定追跡手段９によって関連づけを行って追跡を行う。

【0083】

対象物同定モデル８によって対象物を同定しながら関連づけを行うので、対象物の関連づけが途切れても正確に関連づけを復帰させることができる。

【0084】

2.2ハードウエア構成
ハードウエア構成は、第１の実施形態において示した図２と同様である。

【0085】

2.3対象物追跡処理
図１４、図１５に、第２の実施形態による対象物追跡プログラムのフローチャートを示す。ステップＳ１～Ｓ１８は、第１の実施形態におけるフレーム間類似による選手の追跡処理と同様である。なお、オクルージョンなどによって追跡が途切れた場合には、当該フレームを飛ばして次以降のフレームにおける対応付けを行うようにしている。また、ステップＳ１７においては、関連づけのできた選手のバウンダリーボックスのみ（すなわち選手ＩＤの付されたもののみ）を学習データとして記録するようにしている。

【0086】

学習データが所定フレーム数（たとえば１万フレーム）蓄積されると、ＣＰＵ１０は、ステップＳ２１を実行する（ステップＳ４、Ｓ１８）。ＣＰＵ１０は、ステップＳ６における選手を検知するＹＯＬＯ物体検知モデルとは別に、個々の選手を区別して（すなわち個々の選手を別のクラスとして区別して）検知する選手同定のためのＹＯＬＯ物体検知モデルを形成する（ステップＳ２１）。すなわち、未学習ＹＯＬＯモデルを、上記学習データ（選手ＩＤ付きのバウンダリーボックスの付された画像）を用いて、学習済ＹＯＬＯ物体検知モデル（選手同定モデル）を得る。

【0087】

次に、ＣＰＵ１０は、次のフレームについて上記生成した同定モデルを用いて、各選手を同定する（ステップＳ２３）。この同定結果に基づいて、直前のフレームの選手と関連づけを行う（ステップＳ２４）。

【0088】

上記の処理を残りの全てのフレームについて行う（ステップＳ２２、Ｓ２５）。このようにして、選手同定モデルが形成されるまではフレーム間類似によって選手を追跡し、選手同定モデルが形成されると以後は選手同定によって選手を追跡することができる。

【0089】

なお、選手同定モデルによる追跡において、隣接するフレーム間での選手の最大移動距離を設定し、当該範囲を超える場合には関連づけを行わないようにしてもよい。誤った選手同定により、異常な選手移動とならないようにするためである。

【0090】

2.4その他
(1)上記実施形態では、選手同定モデルが形成された後は、フレーム間類似による追跡は行わず選手同定モデルによる追跡を行うようにしている。しかし、フレーム間類似と選手同定モデルの双方を用いて追跡を行うようにしてもよい。

【0091】

(2)上記変形例は、その本質に反しない限り、他の実施形態においても適用可能である。

【図1】