IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特許7542331学習装置、物体分類装置、学習方法、物体分類方法及びコンピュータプログラム
<>
  • 特許-学習装置、物体分類装置、学習方法、物体分類方法及びコンピュータプログラム 図1
  • 特許-学習装置、物体分類装置、学習方法、物体分類方法及びコンピュータプログラム 図2
  • 特許-学習装置、物体分類装置、学習方法、物体分類方法及びコンピュータプログラム 図3
  • 特許-学習装置、物体分類装置、学習方法、物体分類方法及びコンピュータプログラム 図4
  • 特許-学習装置、物体分類装置、学習方法、物体分類方法及びコンピュータプログラム 図5
  • 特許-学習装置、物体分類装置、学習方法、物体分類方法及びコンピュータプログラム 図6
  • 特許-学習装置、物体分類装置、学習方法、物体分類方法及びコンピュータプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-22
(45)【発行日】2024-08-30
(54)【発明の名称】学習装置、物体分類装置、学習方法、物体分類方法及びコンピュータプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240823BHJP
【FI】
G06T7/00 350B
【請求項の数】 7
(21)【出願番号】P 2020097105
(22)【出願日】2020-06-03
(65)【公開番号】P2021189958
(43)【公開日】2021-12-13
【審査請求日】2023-01-27
(73)【特許権者】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】田良島 周平
【審査官】鈴木 圭一郎
(56)【参考文献】
【文献】中国特許出願公開第110533087(CN,A)
【文献】特開2004-046647(JP,A)
【文献】国際公開第2017/022852(WO,A1)
【文献】特開2006-285878(JP,A)
【文献】特開2008-165636(JP,A)
【文献】特許第4764362(JP,B2)
【文献】米国特許出願公開第2010/0177969(US,A1)
【文献】米国特許出願公開第2018/0293736(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
入力されたフレームに撮影されている複数の物体を検出する物体検出部と、
検出された前記複数の物体を分類することによって各クラスタに対応するモデルを構築するモデル構築部と、
前記モデルの分類対象に関するラベルであって、少なくとも前記複数の物体が向かう方向を示す方向情報に基づいて決定される前記ラベルを前記モデルに与えることによって学習済みモデルを生成する割当部と、
を備え
前記フレームには、複数のチームで行われる競技を行っている人物が前記複数の物体として撮影されており、
前記割当部は、前記フレームに撮影されている各チームの向かう方向を示す方向情報と、複数の人物の位置情報とに基づいて決定されるラベルを前記モデルに与える、
学習装置。
【請求項2】
入力されたフレームに撮影されている複数の物体を検出する物体検出部と、
検出された前記複数の物体の位置情報と、請求項1に記載の学習装置によって生成された前記学習済みモデルとを用いて、前記複数の物体それぞれを分類する分類部と、
を備える物体分類装置。
【請求項3】
前記分類部の分類結果に基づいて前記学習済みモデルの評価が閾値未満である場合、前記学習済みモデルを更新するモデル更新部をさらに備える、
請求項に記載の物体分類装置。
【請求項4】
前記モデル更新部は、少なくとも前記学習済みモデルの評価が閾値未満と評価された時点より前のフレームと、前記学習済みモデルとに基づいて前記学習済みモデルを更新する、
請求項に記載の物体分類装置。
【請求項5】
入力されたフレームに撮影されている複数の物体を検出する物体検出ステップと、
検出された前記複数の物体を分類することによって各クラスタに対応するモデルを構築するモデル構築ステップと、
前記モデルの分類対象に関するラベルであって、少なくとも前記複数の物体が向かう方向を示す方向情報に基づいて決定される前記ラベルを前記モデルに与えることによって学習済みモデルを生成する割当ステップと、
を有し、
前記フレームには、複数のチームで行われる競技を行っている人物が前記複数の物体として撮影されており、
前記割当ステップにおいて、前記フレームに撮影されている各チームの向かう方向を示す方向情報と、複数の人物の位置情報とに基づいて決定されるラベルを前記モデルに与える、
学習方法。
【請求項6】
入力されたフレームに撮影されている複数の物体を検出する物体検出ステップと、
検出された前記複数の物体の位置情報と、請求項に記載の学習方法で得られた前記学習済みモデルとを用いて、前記複数の物体それぞれを分類する分類ステップと、
を有する物体分類方法。
【請求項7】
入力されたフレームに撮影されている複数の物体を検出する物体検出ステップと、
検出された前記複数の物体を分類することによって各クラスタに対応するモデルを構築するモデル構築ステップと、
前記モデルの分類対象に関するラベルであって、少なくとも前記複数の物体が向かう方向を示す方向情報に基づいて決定される前記ラベルを前記モデルに与えることによって学習済みモデルを生成する割当ステップと、
をコンピュータに実行させ
前記フレームには、複数のチームで行われる競技を行っている人物が前記複数の物体として撮影されており、
前記割当ステップにおいて、前記フレームに撮影されている各チームの向かう方向を示す方向情報と、複数の人物の位置情報とに基づいて決定されるラベルを前記モデルに与えるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体の分類技術に関する。
【背景技術】
【0002】
従来、サッカー・ラグビー・バスケットボール・アイスホッケー等の集団スポーツ映像を解析してチームの戦術や各選手のパフォーマンスを分析することは戦術の立案や将来性の高い選手のリクルーティングにつながる。
視聴体験の観点においても、解析結果を映像と同時に視聴者に提示したり、あるいは映像に重畳表示したりすることで、視聴者の試合に対する理解を深め、視聴体験の質を向上させることが期待できる。スポーツ映像解析の産業応用の素地は広く、その価値は極めて高いと考えられる。
【0003】
集団スポーツ映像解析の中でも、スポーツ映像に写る各選手の検出及び検出した選手が所属するチームを分類する技術(以下「人物検出分類技術」という。)は注目されている。人物検出分類を実現する最も単純な方法の一つとして、以下の方法が挙げられる。まず事前に、分類対象のチーム毎にユニフォーム等の見えの情報に基づいて、学習済みモデルを公知の技術で構築する(例えば、非特許文献1参照)。そして、推論時には、公知の人物検出方法で検出された人物の検出領域の情報を入力として、学習済みモデルで分類するというアプローチが考えられる(例えば、非特許文献2参照)。
【0004】
上記の方法では、学習済みモデルを構築するために、事前に分類対象毎の学習データを人手で用意しておく必要がある。一般に、学習データの用意には無視できないコストがかかるという問題がある。特に、一つのチームであっても、見た目の異なるユニフォームを複数所持していることが一般的であり、ユニフォーム自体も断続的に更新され続けてゆくことが多い。そのため、事前に学習データを用意して学習済みモデルを構築することを踏まえると、全体のコストは甚大であると考えられる。
【先行技術文献】
【非特許文献】
【0005】
【文献】Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Deep Residual Learning for Image Recognition”, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
【文献】Joseph Redmon, Ali Farhadi, “YOLOv3: An Incremental Improvement”, April 2018 with 6,664 Reads, arXiv:1804.02767
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記の課題を解決する方法として、複数フレームで構成される映像の一部区間のフレームを学習用に用いるというアプローチが考えられる。このアプローチでは、まず学習用に用いられるフレームから検出された人物領域の集合を、見えの情報に基づいてクラスタリングする。次に、得られた各クラスタに属する人物領域を学習データとして学習済みモデルを構築する。そして、推論時には、学習済みモデルを用いて、対象となるフレームに適用するというものである。
【0007】
しかしながら、このアプローチには大きく2点の問題がある。まず1点目として、k平均法やスペクトラルクラスタリングを代表とする公知のクラスタリング方法を直接適用するのみでは、得られた各クラスタに対して、そのクラスタが意味する内容を自動で割り当てることができない点が挙げられる。より具体的には、人物検出分類を行うにあたり、各クラスタがどのチームのモデルに相当するのかが、クラスタリングのみでは自動判定できない。そのため、各クラスタと、チーム名との対応付けに関する人手でのアノテーションが必要となる。このように人手の介入が必要であるという点では、この方法は上述の方法と変わりなく、クラスタとチーム名の対応付けに関する人手でのアノテーション操作に伴う遅れは避けることができない。なお、ユニフォームの大まかな色情報に基づいて自動判定する方法も考えうるが、映像中での色情報は照明や反射等の影響を受けやすいため極めて不安定である。
【0008】
2点目として、学習用のフレームにおける選手の見えの情報が、推論時に用いるフレームに写る選手を全て網羅しているとは限らない点が挙げられる。スポーツでは特に、運動の強度やプレイの内容によって全貌の見え情報が時間によって大きく異なると考えられる。学習用のフレームで構築した学習済みモデルを推論時に適用するアプローチでは、学習時に用いたフレームと推論時に用いるフレームとで対象の見え方が概ね一致していることを暗黙に仮定している。そのため、この前提が成立しない場合には分類精度が大きく低下してしまう。特にリアルタイム処理を想定し、映像の先頭区間に対応するフレームを学習用のフレーム、それ以降のフレームを推論用のフレームと分けたような場合にはこの問題は特に顕著となる。
【0009】
以上のように、公知の人物検出分類技術では、学習済みモデルの構築において人手の介入が必要となってしまう。また、選手の見えの情報が時刻によって大きく変化する場合には分類精度が大きく低下してしまう。そのため、効率的に人物を分類することができないという問題があった。
【0010】
上記事情に鑑み、本発明は、効率的に物体を分類することができる技術の提供を目的としている。
【課題を解決するための手段】
【0011】
本発明の一態様は、入力されたフレームに撮影されている複数の物体を検出する物体検出部と、検出された前記複数の物体を分類することによって各クラスタに対応するモデルを構築するモデル構築部と、前記モデルの分類対象に関するラベルを前記モデルに与えることによって学習済みモデルを生成する割当部と、を備える学習装置である。
【0012】
本発明の一態様は、上記の学習装置であって、前記フレームには、複数のチームで行われる競技を行っている人物が前記複数の物体として撮影されており、前記割当部は、前記フレームに撮影されている各チームの向かう方向を示す方向情報と、複数の人物の位置情報とに基づいて決定されるラベルを前記モデルに与える。
【0013】
本発明の一態様は、入力されたフレームに撮影されている複数の物体を検出する物体検出部と、検出された前記複数の物体の位置情報と、上記の学習装置によって生成された前記学習済みモデルとを用いて、前記複数の物体それぞれを分類する分類部と、を備える物体分類装置である。
【0014】
本発明の一態様は、上記の物体分類装置であって、前記分類部の分類結果に基づいて前記学習済みモデルの評価が閾値未満である場合、前記学習済みモデルを更新するモデル更新部をさらに備える。
【0015】
本発明の一態様は、上記の物体分類装置であって、前記モデル更新部は、少なくとも前記学習済みモデルの評価が閾値未満と評価された時点より前のフレームと、前記学習済みモデルとに基づいて前記学習済みモデルを更新する。
【0016】
本発明の一態様は、入力されたフレームに撮影されている複数の物体を検出する物体検出ステップと、検出された前記複数の物体を分類することによって各クラスタに対応するモデルを構築するモデル構築ステップと、前記モデルの分類対象に関するラベルを前記モデルに与えることによって学習済みモデルを生成する割当ステップと、を有する学習方法である。
【0017】
本発明の一態様は、入力されたフレームに撮影されている複数の物体を検出する物体検出ステップと、検出された前記複数の物体の位置情報と、上記の学習方法で得られた前記学習済みモデルとを用いて、前記複数の物体それぞれを分類する分類ステップと、を有する物体分類方法である。
【0018】
本発明の一態様は、入力されたフレームに撮影されている複数の物体を検出する物体検出ステップと、検出された前記複数の物体を分類することによって各クラスタに対応するモデルを構築するモデル構築ステップと、前記モデルの分類対象に関するラベルを前記モデルに与えることによって学習済みモデルを生成する割当ステップと、をコンピュータに実行させるためのコンピュータプログラムである。
【発明の効果】
【0019】
本発明により、効率的に物体を分類することが可能となる。
【図面の簡単な説明】
【0020】
図1】第1の実施形態における学習装置の機能構成を表す概略ブロック図である。
図2】第1の実施形態における学習部の機能構成を表す概略ブロック図である。
図3】学習装置の処理を説明するための図である。
図4】第1の実施形態における物体分類装置の機能構成を表す概略ブロック図である。
図5】第1の実施形態における表示部が表示する情報の一例を示す図である。
図6】第1の実施形態における学習装置が行う学習処理の流れを示すフローチャートである。
図7】第1の実施形態における物体分類装置が行う人物分類処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0021】
以下、本発明の一実施形態を、図面を参照しながら説明する。以下では、まず本発明の実施形態の概要について説明し、続いて本発明の各実施形態の詳細について説明する。
【0022】
〔概要〕
本発明では、複数のチームが対戦する集団スポーツが撮影された映像を用いて、映像を構成するフレームに写る人物をいずれかのチームに分類する。本発明では、まず一つの映像を構成する複数のフレームを、学習用フレームと推論用フレームとに分ける。フレームの分け方としては、映像の先頭(時刻t)からt+t0の区間を学習用フレーム、残りのフレームを推論用フレームとしてもよいし、学習用フレームを映像全体からサンプリングしてもよい。学習用フレームと推論用フレームとは一部又は全てで重複していてもよい。なお、以下の説明において学習用フレームと推論用フレームとを区別しないで説明する場合には、画像フレームと記載する。
【0023】
学習用フレームは、モデルの生成に利用されるフレームである。本発明におけるモデルは、例えば分類するチーム数分生成される。具体的には、モデルは、学習用フレームを入力としてクラスタリングの結果得られたクラスタに基づいてチーム数分生成される。本発明では、このように得られたチーム毎のモデルに対して、各モデルに対応するクラスタに含まれる人物領域の空間的な位置情報(座標)と、各チームの向かう方向を示す方向情報とに基づく意味ラベルが与えられる。各チームの向かう方向とは、競技を行うチームの場合にはチーム毎の攻撃を行う方向である。以下の説明では、競技を行うチームを例に説明するため、方向情報を、チーム毎の攻撃方向の情報(以下「攻撃情報」という。)として説明する。意味ラベルとは、モデルが出力するラベルに意味を与えるラベルである。例えば、意味ラベルとしては、競技を行っているチーム名が示される。このように、意味ラベルは、モデルの分類対象に関するラベルである。以下、意味ラベルが与えられたモデルを学習済みモデルと記載する。人物領域の空間的な位置情報を特定するための情報と、各チームの攻撃情報とは、学習用フレームと共に学習データとして学習装置に入力される。
以上が学習用フレームを用いた学習処理の流れである。
【0024】
次に、本発明では、学習処理により生成された学習済みモデルを用いた推論処理が行われる。具体的には、本発明では、推論処理として、学習済みモデルと、推論用フレームと、人物領域の空間的な位置情報を特定するための情報と、各チームの攻撃情報とを用いた人物の分類処理が行われる。人物の分類処理を行う物体分類装置は、推論用フレームから人物を検出し、検出した人物に関する情報と、学習済みモデルとを用いて、検出した人物をK+1クラスのいずれかに分類する。ここで、Kはチーム数である。K+1としているのは、フレームに選手以外の人物(例えば、観客や審判等)が映り込んでいることもあるためである。これにより、物体分類装置は、フレームに写りこんでいる人物の分類が可能となる。さらに、本発明における物体分類装置は、分類結果に基づいて学習済みモデルの更新有無を判定し、必要に応じて学習済みモデルを更新する。
以上が推論用フレームを用いた推論処理の流れである。
以下、上記処理を実現するための具体的な構成について説明する。
【0025】
(第1の実施形態)
第1の実施形態では、単一のカメラにより撮影された映像を用いる構成について説明する。
第1の実施形態における物体分類システムは、学習装置と、物体分類装置とを備える。
学習装置は、学習用フレームに基づいてチーム毎のモデルを生成し、生成したチーム毎のモデルに意味ラベルを与えることによって学習済みモデルを生成する。
物体分類装置は、学習済みモデルを用いて、推論用フレームに写っている人物を分類する。物体分類装置は、学習済みモデルを学習装置から通信により取得してもよいし、学習済みモデルを記憶している記憶装置から取得してもよいし、その他の方法で取得してもよい。
【0026】
図1は、第1の実施形態における学習装置1の機能構成を表す概略ブロック図である。
学習装置1は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、プログラムを実行する。学習装置1は、プログラムの実行によって学習モデル記憶部11、学習データ入力部12及び学習部13を備える装置として機能する。なお、学習装置1の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)やGPU(Graphics Processing Unit)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
【0027】
学習モデル記憶部11は、磁気記憶装置や半導体記憶装置などの記憶装置を用いて構成される。学習モデル記憶部11は、機械学習の学習モデルを予め記憶している。ここで、学習モデルとは、入力データと出力データとの関係性を学習する際に使用する機械学習アルゴリズムを示す情報である。学習アルゴリズムには、種々のアルゴリズムが用いられてもよい。
【0028】
学習データ入力部12は、学習データを入力する機能を有する。学習データには、学習用フレーム、座標変換情報及びチーム毎の攻撃情報が含まれる。座標変換情報は、例えば、映像を撮影したカメラがPan-tilt-zoomの伴わない固定カメラであれば、競技フィールドと画像フレームとの座標を対応付ける座標変換行列である。一方で、映像を撮影したカメラが非固定カメラである場合、座標変換情報は、各画像フレームと競技フィールドとを対応付ける変換行列を推定するための公知の方法の情報である各画像フレームと競技フィールドとを対応付ける変換行列を推定するための公知の方法は、例えば下記参考文献1に示す方法である。以下の説明では、映像を撮影したカメラが固定カメラである場合を例に説明する。
(参考文献1:S. Tarashima, “SFLNet: Direct Sports Field Localization via CNN-Based Regression”, in ACPR, 2019. https://link.springer.com/chapter/10.1007/978-3-030-41404-7_48)
【0029】
チーム毎の攻撃情報は、第1のユニフォームのチームが画像フレーム内で右側に向かって攻撃、第2のユニフォームのチームが画像フレーム内で左側に向かって攻撃を行っている場合には、その方向がベクトル等の形式で示された情報である。
【0030】
学習データ入力部12は、学習データを記憶している外部装置(図示せず)と通信可能に接続され、その通信インタフェースを介して外部装置から学習データを入力する。また例えば、学習データ入力部12は、予め学習データを記憶している記録媒体から学習データを読み出すことによって学習データを入力するように構成されてもよい。学習データ入力部12は、このようにして入力した学習データを学習部13に出力する。
【0031】
学習部13は、学習データ入力部12から出力される学習データを学習モデルに基づいて学習することにより学習済みモデルを生成する。
【0032】
図2は、第1の実施形態における学習部13の機能構成を表す概略ブロック図である。
学習部13は、物体検出部131、モデル構築部132、座標変換部133及びモデル意味ラベル割当部134を備える。
物体検出部131は、入力された学習用フレームそれぞれから物体を検出する。物体は、例えば人物である。物体の検出には、公知の技術が用いられてもよい。例えば、物体の検出には、非特許文献2に示す技術や、下記の参考文献2に記載の技術が用いられてもよい。物体検出部131は、学習用フレーム全てから人物を検出してもよいし、一部のみをサンプリングして人物を検出してもよい。
(参考文献2:X. Zhou et al., “Objects as Points”, in arXiv arXiv:1904.07850, 2019. [令和2年6月2日検索]、インターネット<URL:https://arxiv.org/abs/1904.07850>)
【0033】
モデル構築部132は、物体検出部131によって検出された人物に関する情報から見えの特徴を抽出し、得られた見えの特徴の集合をクラスタリングする。そして、モデル構築部132は、クラスタリングにより得られたクラスタからチーム数分のモデルを学習することによって、チーム数分のモデルを生成する。見えの特徴を抽出する方法は任意であり、例えば下記参考文献3で開示されている技術を用いた場合、一つの人物領域あたり128次元の特徴量が抽出できる。得られた特徴集合をクラスタリングする方法も任意であり、K平均法やスペクトラルクラスタリングを用いることができる。モデル学習方法としては、例えば非特許文献1に開示されているような畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を、クラスタリング結果からファインチューニングしたり、あるいはK平均法でクラスタリングを行った場合はその過程で得られたセントロイドベクトルをモデルとして出力してもよい。
(参考文献3: L. Chen et al., “Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-identification”, in ICME, 2018. [令和2年6月2日検索]、インターネット<URL: https://arxiv.org/abs/1809.04427>)
【0034】
座標変換部133は、入力された座標変換情報を用いて、検出された各人物の空間的な位置情報を取得する。空間的な位置とは、競技フィールドを真上から見た際の、各人物の二次元座標x=(x,y)を表す。具体的には、座標変換部133は、入力された座標変換情報を用いて、学習用フレームを座標変換することによって検出された各人物の空間的な位置情報を取得する。
【0035】
モデル意味ラベル割当部134は、座標変換部133によって得られた各人物の空間的な位置情報と、各チームの攻撃情報とを用いて、各モデルに意味ラベルを与える。
【0036】
図3を用いて、学習装置1の処理について具体例を示して説明する。
図3に示すように、学習用フレームとしてフレーム10が学習装置1に入力されたとする。学習装置1の物体検出部131は、フレーム10から人物検出を行う。一例として、フレーム10から人物11-1~11-6が検出されたとする。モデル構築部132は、クラスタリングを行うことによって、検出した人物11-1~11-6を分類する。図3では、分類数が2と設定されている場合を例に示しており、人物11-1~11-3の組と、人物11-4~11-6の組とに分類されている。モデル構築部132は、人物11-1~11-3の組のモデルAと、人物11-4~11-6の組のモデルBとを構築する。モデル意味ラベル割当部134では、各人物の空間的な位置情報と、各チームの攻撃情報とに基づいて、モデルAにラベル1(赤チーム)、モデルBにラベル2(青チーム)の意味ラベルを与える。これにより、チーム毎に学習済みモデルが生成される。
【0037】
図4は、第1の実施形態における物体分類装置2の機能構成を表す概略ブロック図である。
物体分類装置2は、記憶部21、制御部22、入力部23及び表示部24を備える。
記憶部21は、学習済みモデル211及び人物領域情報212を記憶する。記憶部21は、磁気記憶装置や半導体記憶装置などの記憶装置を用いて構成される。
学習済みモデル211は、学習装置1によって生成された学習済みモデルである。
人物領域情報212は、推論用フレームから検出された人物に関する情報を表す。人物領域情報212は、例えば検出された人物を囲う矩形の情報であってもよい。
【0038】
制御部22は、物体分類装置2全体を制御する。物体分類装置2は、CPU等のプロセッサやメモリを用いて構成される。制御部22は、プログラムを実行することによって、取得部221、物体検出部222、チーム分類部223、チームモデル更新判定部224、座標変換部225、チームモデル更新部226及び表示制御部227として機能する。
【0039】
取得部221、物体検出部222、チーム分類部223、チームモデル更新判定部224、座標変換部225、チームモデル更新部226及び表示制御部227の機能部のうち一部または全部は、ASICやPLD、FPGAやGPUなどのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアとの協働によって実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記憶媒体である。プログラムは、電気通信回線を介して送信されてもよい。
【0040】
取得部221、物体検出部222、チーム分類部223、チームモデル更新判定部224、座標変換部225、チームモデル更新部226及び表示制御部227の機能の一部は、予め物体分類装置2に搭載されている必要はなく、追加のアプリケーションプログラムが物体分類装置2にインストールされることで実現されてもよい。
【0041】
取得部221は、各種情報を取得する。例えば、取得部221は、入力データを取得する。入力データには、推論用フレーム、座標変換情報及びチーム毎の攻撃情報が含まれる。例えば、取得部221は、学習装置1から学習済みモデルを取得する。
【0042】
物体検出部222は、入力された推論用フレームそれぞれから人物を検出する。
チーム分類部223は、学習済みモデル211と、物体検出部222によって検出された各人物領域の情報とを用いて人物を分類する。
【0043】
チームモデル更新判定部224は、チーム分類部223の分類結果に基づいて、モデル更新条件を満たすか否かを判定する。モデル更新条件は、学習済みモデルを更新するための条件である。
【0044】
座標変換部225は、入力された座標変換情報を用いて、物体検出部222によって検出された各人物の位置を正規化空間における位置へと変換する。これにより、座標変換部225は、検出された各人物の空間的な位置情報を取得する。
【0045】
チームモデル更新部226は、チームモデル更新判定部224の判定結果に応じて学習済みモデル211を更新する。例えば、チームモデル更新部226は、チームモデル更新判定部224においてモデル更新条件が満たされたと判定された場合に、学習済みモデル211を更新する。
【0046】
表示制御部227は、表示部24の表示を制御する。具体的には、表示制御部227は、チーム分類部223の分類結果に応じて、検出された各人物をチーム毎に異なる態様で表示させる。例えば、表示制御部227は、同一チームに分類された人物領域を同じ色で表示させ、他のチームに分類された人物領域と異なる色で表示させる。また、表示制御部227は、座標変換部225により得られた各人物の空間的な位置情報に基づいて、各人物を、仮想的な競技フィールドに表示させる。仮想的な競技フィールドは、競技フィールドを真上から見た状態のフィールドである。
【0047】
入力部23は、ユーザの指示を物体分類装置2に入力するための入力装置である。入力部23は、例えば映像の表示指示の入力を受け付ける。入力部23は、キーボード、タッチパネル、ボタン等の既存の入力装置を用いて構成される。また、入力部23は、入力装置を物体分類装置2に接続するためのインタフェースであってもよい。この場合、入力部23は、入力装置においてユーザの入力に応じて生成された入力信号を物体分類装置2に入力する。
【0048】
表示部24は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等の画像表示装置である。表示部24は、表示制御部227の制御に応じた情報を表示する。表示部24は、画像表示装置を物体分類装置2に接続するためのインタフェースであってもよい。この場合、表示部24は、情報を表示するための映像信号を生成し、自身に接続されている画像表示装置に映像信号を出力する。
【0049】
図5は、第1の実施形態における表示部24が表示する情報の一例を示す図である。
図5(A)は検出した人物の分類結果を映像に重畳表示した例を示しており、図5(B)は競技フィールドを真上から見た状態のフィールドに検出した人物の分類結果をマッピングした例を示している。図5(A)において人物20-1と、人物20-2とが異なる態様で表示されている。図5(B)においてチーム20-3と、チーム20-4とが異なる態様で表示されている。
【0050】
図6は、第1の実施形態における学習装置1が行う学習処理の流れを示すフローチャートである。
学習データ入力部12は、学習データを入力する(ステップS101)。学習データ入力部12は、入力した学習データを学習部13に出力する。学習部13の物体検出部131は、学習データに含まれる学習用フレームから人物を検出する(ステップS102)。物体検出部131は、検出結果をモデル構築部132に出力する。
【0051】
ここで、人物検出結果は、人物を過不足なく囲う矩形の情報(例えば、矩形左上の座標を(x,y)、右下の座標を(x,y)として、(x,y,x,y)∈R)として出力される。なお、検出対象の領域が画像フレーム中の一部のみである場合には、領域を指定する情報と組み合わせ公知の人物検出技術の出力をフィルタリングしてもよい。領域を指定する情報は、入力の一つである座標変換情報を用いて計算することができる。図3に示す例であれば、対象領域は平面の競技フィールド内であるため、座標変換情報を用いて画像フレーム空間においてフィールド内を示す二値マスクを算出し、それに基づいて、各人物検出結果から算出される任意の点、例えば中心などが、競技をフィールド内に存在するか否かを判定するといった手順で実現できる。
【0052】
モデル構築部132は、物体検出部131によって検出された人物領域の集合を入力として、所定の各チームに関する見えのモデルを構築する(ステップS103)。具体的には、モデル構築部132は、入力された各人物領域から見えの特徴を抽出し、得られた見えの特徴の集合をクラスタリングする。モデル構築部132は、その結果得られたクラスタからチーム数分のモデルを学習する。サッカーやラグビーといった試合の映像であれば、チーム数は2と設定すればよい。
【0053】
座標変換部133は、学習データに含まれる座標変換情報に基づいて、各人物領域の座標変換を行うことによって、各モデルに対応するクラスタに含まれる人物領域の空間的な位置情報を取得する(ステップS104)。各クラスタに含まれる人物領域の空間的な位置情報を量化する方法は任意であり、例えば、各人物領域の中央座標の重心として定義することができる。座標変換行列が既知であれば、座標変換部133は、画像上の人物領域座標を、フィールド上での座標へと変換した上で重心を計算するなどしてもよい。各チームについてこの位置情報を算出する。座標変換部133は、取得した人物領域の空間的な位置情報をモデル意味ラベル割当部134に出力する。
【0054】
モデル意味ラベル割当部134は、モデル構築部132で得られた各モデルに対応するクラスタに含まれる人物領域の空間的な位置情報と、既知の各チームの攻撃方向とに基づいて、各モデルに意味ラベルを与える(ステップS105)。モデル意味ラベル割当部134は、位置情報のうちx座標の値に着目し、その値が小さい方のクラスタを、右側を攻撃している、すなわち相対的に左側に存在している赤いユニフォームのチームに割り当てる。
【0055】
図7は、第1の実施形態における物体分類装置2が行う人物分類処理の流れを示すフローチャートである。図7の処理開始時には、学習済みモデルが記憶部21に記憶されているものとする。
取得部221は、入力データを取得する(ステップS201)。取得部221は、取得した入力データを物体検出部222に出力する。物体検出部222は、入力データに含まれる推論用フレームから人物を検出する(ステップS202)。物体検出部222は、検出結果をチーム分類部223に出力する。チーム分類部223は、物体検出部222から出力された検出結果と、学習済みモデルとに基づいて、検出された各人物を分類する(ステップS203)。
【0056】
分類する方法は、構築されたモデルの形態に依存する。例えばモデル構築部132において、クラスタリング方法としてk平均法を適用し、そのセントロイドベクトルとしてモデルが学習されている場合、チーム分類部223はクラスタリングにあたり用いた方法と同様に人物領域から特徴を抽出し、それと各チームに対応したセントロイドベクトルとの距離(例えば、L2ノルム)を計算する。そして、チーム分類部223は、計算結果がより小さいセントロイドベクトルに対応するチームに人物領域を割り当てる。
【0057】
また、モデル構築部132において、CNNをファインチューニングしてモデルを学習した場合には、チーム分類部223は人物領域を当該CNNに入力して得られた最終ソフトマックス出力が最大のクラスに対応するチームに割り当てればよい。ここで、チーム分類部223は、チーム分類する際に用いる値を評価することで、いずれのチームにも属さないという判定をしてもよい。例えば、セントロイドベクトルとの距離に基づいてチーム割当を判定する場合には、いずれのクラスタセントロイドベクトルとのL2ノルムも所定のしきい値(例えば、0.5等)を超えるような人物領域については、チーム分類部223は、どちらのチームにも割り当てないという分類結果を出力する。これは、競技フィールド内に存在する、いずれのチームにも属さない人物、例えば審判やスタッフを間接的に判定していることに相当する。
【0058】
チームモデル更新判定部224は、チーム分類部223による分類結果に基づいて学習済みモデルを評価する(ステップS204)。チームモデル更新判定部224は、モデル更新条件を満たすか否かを判定する(ステップS205)。判断の基準は、現在のモデルによる分類処理の質であり、例えばセントロイドベクトルとの距離に基づいてチーム割当を判定する場合には、画像フレーム内人物領域から抽出された特徴と、その領域が分類されたチームに対応するセントロイドベクトルとの距離を全人物領域について平均をとり、その値が所定のしきい値(例えば、0.4)を超えた場合、チームモデル更新判定部224は、学習済みモデルを更新すると判定する。判定に用いる数値を算出するにあたり、直前に処理した所定の数(例えば10等)のフレームの結果を平均して用いてもよい。
【0059】
モデル更新条件を満たさない場合(ステップS205-NO)、物体分類装置2は図7の処理を終了する。一方、モデル更新条件を満たす場合(ステップS205-YES)、チームモデル更新部226は学習済みモデル211を更新する(ステップS206)。具体的には、チームモデル更新部226は、モデル更新条件を満たすと評価された時点より前のフレームと、学習済みモデルとに基づいて学習済みモデルを更新する。例えば、チームモデル更新部226は、モデル更新条件を満たすと判定された時点より前のフレーム(所定の数分のフレーム)それぞれ得られた人物に関する情報から見えの特徴を抽出し、得られた見えの特徴の集合をクラスタリングする。チームモデル更新部226は、クラスタリングにより得られたクラスタの情報を学習済みモデルに学習させることによって学習済みモデルを更新する。
【0060】
以上のように構成された物体分類システムによれば、効率的に物体を分類することができる。具体的には、本発明では、上記のように、学習用フレームから検出された人物領域の見えの情報をクラスタリングすることで得られた学習済みモデルに意味ラベルを与えるにあたり、学習済みモデルに対応するクラスタに含まれる人物領域の空間的な位置情報を活用する。集団スポーツ映像では特に、各チームの選手の位置情報は、チームが攻撃する方向等といった事前情報と強い相関がある。そこで、本発明では、選手の位置情報を明示的に量化して評価することで、モデルと意味ラベルとの対応付けを自動化することができる。これにより、学習済みモデルの構築において生じる課題を解決している。
【0061】
さらに、本発明では、推論処理において、現在の学習済みモデルによるチーム分類処理の分類結果が所定のしきい値を下回った場合には、学習済みモデルを更新している。これにより、以降の推論フレームに適用することができる。また、本発明では、チーム分類モデルを、その分類の質の評価に基づき適切なタイミングで更新することで、処理全体のスループット低下を最小限に抑えつつ、選手の見えの変化に頑健な分類を実現することができる。
【0062】
(第2の実施形態)
第2の実施形態では、複数カメラにより撮影された映像を用いる構成について説明する。
以下、第1の実施形態との相違点について説明する。
【0063】
各カメラが固定カメラの場合、座標変換情報、すなわち座標変換行列はカメラ台数と同数入力される点が異なる。各カメラは、どのように設置されていてもよい。例えば、各カメラは、並列に並べて異なる場所を撮影するように設置されてもよいし、相対的な位置で同じ場所を撮影するように設置されてもよい。複数カメラにより撮影された映像を用いる場合、学習装置1及び物体分類装置2には、チーム毎の攻撃情報として各カメラから見た攻撃方向の情報が入力される。
物体検出部131及び物体検出部222では、各映像の同時刻の画像フレームに対し人物検出を行った後に、その冗長性を排除する処理を追加する。冗長性を排除する方法は任意であり、各映像での人物検出結果を、座標変換行列に基づいて同一の座標空間に射影し、得られた検出結果の集合に対してNon-Maximum Suppressionを適用するなどすればよい。
【0064】
モデル構築部132で構築されるモデルは、映像毎かつチームごとにモデルを構築してもよいし、あるいは全体で統一のモデルをチームごとに構築してもよい。照明条件の違いなど、カメラ毎に選手の見えが大きく異なるような場合には、後者のほうがより好適である。
【0065】
<第1の実施形態及び第2の実施形態に共通する変形例>
上記の各実施形態では、映像を構成するフレームに写る人物の分類を例に説明したが、人物以外の物体(例えば、人物以外の生物、構造物等)を分類するように構成されてもよい。
上記の各実施形態では、複数のチームが対戦する集団スポーツが撮影された映像を用いる構成を例に説明したが、分類に用いる映像はこれに限定されない。上記の各実施形態で用いる映像は、複数のグループに分類可能な物体が撮像された映像であればどのような映像であってもよい。
学習装置1と人物分類装置2は、一体化されて構成されてもよい。このように構成される場合、人物分類装置2は、学習処理と推論処理とをユーザの指示に応じて切り替えて実行する。
【0066】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0067】
1…学習装置, 2…物体分類装置, 11…学習モデル記憶部, 12…学習データ入力部, 13…学習部, 131…物体検出部, 132…モデル構築部, 133…座標変換部, 134…モデル意味ラベル割当部, 21…記憶部, 22…制御部, 23…入力部, 24…表示部, 221…取得部, 222…物体検出部, 223…チーム分類部, 224…チームモデル更新判定部, 225…座標変換部, 226…チームモデル更新部, 227…表示制御部
図1
図2
図3
図4
図5
図6
図7