IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特許7479201クラス判定装置、クラス判定方法及びコンピュータプログラム
<>
  • 特許-クラス判定装置、クラス判定方法及びコンピュータプログラム 図1
  • 特許-クラス判定装置、クラス判定方法及びコンピュータプログラム 図2
  • 特許-クラス判定装置、クラス判定方法及びコンピュータプログラム 図3
  • 特許-クラス判定装置、クラス判定方法及びコンピュータプログラム 図4
  • 特許-クラス判定装置、クラス判定方法及びコンピュータプログラム 図5
  • 特許-クラス判定装置、クラス判定方法及びコンピュータプログラム 図6
  • 特許-クラス判定装置、クラス判定方法及びコンピュータプログラム 図7
  • 特許-クラス判定装置、クラス判定方法及びコンピュータプログラム 図8
  • 特許-クラス判定装置、クラス判定方法及びコンピュータプログラム 図9
  • 特許-クラス判定装置、クラス判定方法及びコンピュータプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-25
(45)【発行日】2024-05-08
(54)【発明の名称】クラス判定装置、クラス判定方法及びコンピュータプログラム
(51)【国際特許分類】
   G06T 7/162 20170101AFI20240426BHJP
   G06T 7/00 20170101ALI20240426BHJP
【FI】
G06T7/162
G06T7/00 350B
【請求項の数】 6
(21)【出願番号】P 2020097106
(22)【出願日】2020-06-03
(65)【公開番号】P2021189959
(43)【公開日】2021-12-13
【審査請求日】2023-01-27
(73)【特許権者】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】田良島 周平
【審査官】笠田 和宏
(56)【参考文献】
【文献】特開2019-200560(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/162
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
入力されたフレームに撮影されている物体を検出する物体検出部と、
前記物体検出部によって検出された前記物体の位置情報を入力として、前記物体が各クラスに属する割合を出力するように学習されたモデルを用いて、検出された前記物体の各クラスに属する割合を取得するクラス尤度取得部と、
前記クラス尤度取得部によって取得された前記物体の各クラスに属する割合に応じて、検出された前記物体のクラスを判定するクラス判定部と、
を備え
前記クラス判定部は、検出された前記物体及び前記クラスをノードとするグラフに基づいて前記物体のクラスを判定するクラス判定装置。
【請求項2】
前記フレームに撮影されている空間を、他の座標系の空間に変換する座標変換部をさらに備え、
前記クラス尤度取得部は、変換後の空間における前記物体の位置情報を前記モデルに入力することによって前記物体の各クラスに属する割合を取得する、
請求項1に記載のクラス判定装置。
【請求項3】
第1のフレームで検出された物体と、前記第1のフレームよりも後の時刻に得られた第2のフレームで検出された物体とを対応付けてトラッキングするトラッキング部をさらに備え、
前記クラス尤度取得部は、前記トラッキング部によるトラッキング結果に基づいて、前記第2のフレームで検出された物体のうち前記第1のフレームに存在しなかった物体の各クラスに属する割合を取得する、
請求項1又は2に記載のクラス判定装置。
【請求項4】
前記クラス判定部は、前記フレームに撮影されている前記物体が検出された画像領域から抽出された、見えの特徴量の比較に基づく尺度を加味して前記物体のクラスを判定する、
請求項1からのいずれか一項に記載のクラス判定装置。
【請求項5】
入力されたフレームに撮影されている物体を検出する物体検出ステップと、
前記物体検出ステップによって検出された前記物体の位置情報を入力として、前記物体が各クラスに属する割合を出力するように学習されたモデルを用いて、検出された前記物体の各クラスに属する割合を取得するクラス尤度取得ステップと、
前記クラス尤度取得ステップによって取得された前記物体の各クラスに属する割合に応じて、検出された前記物体のクラスを判定するクラス判定ステップと、
し、
前記クラス判定ステップにおいて、検出された前記物体及び前記クラスをノードとするグラフに基づいて前記物体のクラスを判定するクラス判定方法。
【請求項6】
入力されたフレームに撮影されている物体を検出する物体検出ステップと、
前記物体検出ステップによって検出された前記物体の位置情報を入力として、前記物体が各クラスに属する割合を出力するように学習されたモデルを用いて、検出された前記物体の各クラスに属する割合を取得するクラス尤度取得ステップと、
前記クラス尤度取得ステップによって取得された前記物体の各クラスに属する割合に応じて、検出された前記物体のクラスを判定するクラス判定ステップと、
をコンピュータに実行させ
前記クラス判定ステップにおいて、検出された前記物体及び前記クラスをノードとするグラフに基づいて前記物体のクラスを判定するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体の分類技術に関する。
【背景技術】
【0002】
従来、野球等の集団スポーツ映像を解析し、チームの戦術や各選手のパフォーマンスを分析することは、状況に適応した戦術の立案や将来性の高い選手のリクルーティングにつながる。視聴体験の観点においても、解析結果を映像と同時に視聴者に提示したり、あるいは映像に重畳表示したりすることで、視聴者の試合に対する理解を深め、視聴体験の質を向上させることが期待できる。スポーツ映像解析の産業応用の素地は広く、その価値は極めて高いと考えられる。
【0003】
集団スポーツ映像解析の中でも、野球のような映像に写る人物のうち、所定のポジション(例えば、センター、セカンド、ショート等の野球の守備ポジション)につく選手を認識する技術(以下「人物検出分類技術」という。)は注目されている。人物検出分類は、公知の物体検出技術(例えば、非特許文献1参照)と、画像分類技術(例えば、非特許文献2参照)とを組み合わせ、物体検出によって得られた各人物領域を、画像分類によって所定のクラス(ここでは、各クラスがいずれかのポジションに相当)に割り当てることで実現される。この方法では、各クラスの全貌が一定上異なっていることを暗に仮定しているがポジション毎の全貌が似通っている場合、分類精度が総じて低いという問題がある。
【0004】
全貌が似通っている対象を見分ける方法として、局所的に見えが異なる領域に着目するというアプローチが考えられる。野球等のスポーツ競技であれば、例えば各選手の顔や背番号は対象毎に異なるため、それらの情報とポジションの情報をあらかじめ紐付けた上で、非特許文献3に開示されている顔照合技術や、非特許文献4に開示されている背番号認識を組み合わせるといった方法が挙げられる。
【先行技術文献】
【非特許文献】
【0005】
【文献】Joseph Redmon, Ali Farhadi, “YOLOv3: An Incremental Improvement”, April 2018 with 6,664 Reads, arXiv:1804.02767
【文献】Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Deep Residual Learning for Image Recognition”, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
【文献】Florian Schroff, Dmitry Kalenichenko, James Philbin, “FaceNet: A Unified Embedding for Face Recognition and Clustering”, in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2015.
【文献】Gen Li, Shikun Xu, Xiang Liu, Lei Li, Changhu Wang, “Jersey Number Recognition With Semi-Supervised Spatial Transformer Network”, in CVPR Workshops, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記のアプローチでは、局所的な領域が認識可能な程度高い解像度で映像に写り込んでいることを仮定しているが、この仮定が成立しないケースへの適用は難しい。例えば、Full HD(1920×1080pixel)で野球の競技フィールド全体を捉えている場合、個々の選手全貌の解像度は縦横いずれも数十ピクセル程度しかない。そのため、顔や背番号といった領域は更に小さく、人間による目視でも判別は困難である。従来では、このような認識対象の解像度が低い場合に、分類精度が大きく低下してしまうという問題があった。
【0007】
上記事情に鑑み、本発明は、撮影されている物体の解像度が低い場合であっても効率的に物体を分類することができる技術の提供を目的としている。
【課題を解決するための手段】
【0008】
本発明の一態様は、入力されたフレームに撮影されている物体を検出する物体検出部と、前記物体検出部によって検出された前記物体の位置情報を入力として、前記物体が各クラスに属する割合を出力するように学習されたモデルを用いて、検出された前記物体の各クラスに属する割合を取得するクラス尤度取得部と、前記クラス尤度取得部によって取得された前記物体の各クラスに属する割合に応じて、検出された前記物体のクラスを判定するクラス判定部と、を備えるクラス判定装置である。
【0009】
本発明の一態様は、上記のクラス判定装置であって、前記フレームに撮影されている空間を、他の座標系の空間に変換する座標変換部をさらに備え、前記クラス尤度取得部は、変換後の空間における前記物体の位置情報を前記モデルに入力することによって前記物体の各クラスに属する割合を取得する。
【0010】
本発明の一態様は、上記のクラス判定装置であって、第1のフレームで検出された物体と、前記第1のフレームよりも後の時刻に得られた第2のフレームで検出された物体とを対応付けてトラッキングするトラッキング部をさらに備え、前記クラス尤度取得部は、前記トラッキング部によるトラッキング結果に基づいて、前記第2のフレームで検出された物体のうち前記第1のフレームに存在しなかった物体の各クラスに属する割合を取得する。
【0011】
本発明の一態様は、上記のクラス判定装置であって、前記クラス判定部は、検出された前記物体及び前記クラスをノードとするグラフに基づいて前記物体のクラスを判定する。
【0012】
本発明の一態様は、上記のクラス判定装置であって、前記クラス判定部は、前記フレームに撮影されている前記物体が検出された画像領域から抽出された、見えの特徴量の比較に基づく尺度を加味して前記物体のクラスを判定する。
【0013】
本発明の一態様は、入力されたフレームに撮影されている物体を検出する物体検出ステップと、前記物体検出ステップによって検出された前記物体の位置情報を入力として、前記物体が各クラスに属する割合を出力するように学習されたモデルを用いて、検出された前記物体の各クラスに属する割合を取得するクラス尤度取得ステップと、前記クラス尤度取得ステップによって取得された前記物体の各クラスに属する割合に応じて、検出された前記物体のクラスを判定するクラス判定ステップと、有するクラス判定方法である。
【0014】
本発明の一態様は、入力されたフレームに撮影されている物体を検出する物体検出ステップと、前記物体検出ステップによって検出された前記物体の位置情報を入力として、前記物体が各クラスに属する割合を出力するように学習されたモデルを用いて、検出された前記物体の各クラスに属する割合を取得するクラス尤度取得ステップと、前記クラス尤度取得ステップによって取得された前記物体の各クラスに属する割合に応じて、検出された前記物体のクラスを判定するクラス判定ステップと、をコンピュータに実行させるためのコンピュータプログラムである。
【発明の効果】
【0015】
本発明により、撮影されている物体の解像度が低い場合であっても効率的に物体を分類することが可能となる。
【図面の簡単な説明】
【0016】
図1】第1の実施形態における学習装置の機能構成を表す概略ブロック図である。
図2】第1の実施形態におけるクラス判定装置の機能構成を表す概略ブロック図である。
図3】第1の実施形態におけるクラス判定装置が行う人物分類処理の流れを示すフローチャートである。
図4】第1の実施形態における座標変換部の処理を説明するための図である。
図5】第1の実施形態における座標変換部の処理を説明するための図である。
図6】第1の実施形態におけるクラス判定部の処理を説明するための図である。
図7】第2の実施形態におけるクラス判定装置の機能構成を表す概略ブロック図である。
図8】第2の実施形態におけるクラス判定装置が行う物体分類処理の流れを示すフローチャートである。
図9】各実施形態におけるクラス判定部が行う他の処理を説明する図である。
図10】各実施形態におけるクラス判定部が行う他の処理を説明する図である。
【発明を実施するための形態】
【0017】
以下、本発明の一実施形態を、図面を参照しながら説明する。以下では、まず本発明の実施形態の概要について説明し、続いて本発明の各実施形態の詳細について説明する。
【0018】
〔概要〕
本発明では、野球のようなポジションが固定されているスポーツが撮影された映像を用いて、映像を構成するフレームに写る人物を、対応するポジションに分類する。本発明では、まず一つの映像を構成する複数のフレームを、学習用フレームと推論用フレームとに分ける。フレームの分け方としては、映像の先頭(時刻t)からt+t0の区間を学習用フレーム、残りのフレームを推論用フレームとしてもよいし、学習用フレームを映像全体からサンプリングしてもよい。学習用フレームと推論用フレームとは一部又は全てで重複していてもよい。なお、以下の説明において学習用フレームと推論用フレームとを区別しないで説明する場合には、画像フレームと記載する。
【0019】
学習用フレームは、学習済みモデルの生成に利用されるフレームである。本発明における学習済みモデルは、画像フレームに写る人物の位置情報を入力として、対象となる人物がクラスに属する度合いを出力する。ここで、クラスは、競技において定められているポジションである。すなわち、本発明における学習済みモデルは、画像フレームに写る人物の位置情報を入力として、対象となる人物が各ポジションに属する度合いを出力する。
以上が学習用フレームを用いた学習処理の流れである。
【0020】
次に、本発明では、学習処理により生成された学習済みモデルを用いた推論処理が行われる。具体的には、本発明では、推論処理として、学習済みモデルと、人物領域の空間的な位置情報とを用いた人物のクラス判定処理が行われる。クラス判定処理を行うクラス判定装置は、推論用フレームから人物を検出し、検出した人物に関する情報を空間的な位置情報に変換して学習済みモデルに入力する。クラス判定装置は、学習済みモデルから得られた結果に基づいて各人物のクラス判定を行う。
以上が推論用フレームを用いた推論処理の流れである。
以下、上記処理を実現するための具体的な構成について説明する。
【0021】
(第1の実施形態)
図1は、第1の実施形態における学習装置1の機能構成を表す概略ブロック図である。
学習装置1は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、プログラムを実行する。学習装置1は、プログラムの実行によって学習モデル記憶部11、学習データ入力部12及び学習部13を備える装置として機能する。なお、学習装置1の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)やGPU(Graphics Processing Unit)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
【0022】
学習モデル記憶部11は、磁気記憶装置や半導体記憶装置などの記憶装置を用いて構成される。学習モデル記憶部11は、機械学習の学習モデルを予め記憶している。ここで、学習モデルとは、入力データと出力データとの関係性を学習する際に使用する機械学習アルゴリズムを示す情報である。教師有り学習の学習アルゴリズムには、種々のアルゴリズムが用いられてもよい。例えば、学習アルゴリズムとして、ロジスティック回帰や多層パーセプトロン、ガウス混合モデルのいずれかが用いられてもよい。
【0023】
学習データ入力部12は、学習データを入力する機能を有する。学習データとしては、認識対象クラスの、正規化座標空間における空間的な位置に関する教師データが入力される。ここで空間的な位置とは、競技フィールドを真上から見た際の、各認識対象の二次元座標x=(x,y)を指す。正規化座標空間を定義する方法は任意であり、例えば競技フィールドを真上から見た際の二次元座標系として定義すればよい。
【0024】
学習データ入力部12は、学習データを記憶している外部装置(図示せず)と通信可能に接続され、その通信インタフェースを介して外部装置から学習データを入力する。また例えば、学習データ入力部12は、予め学習データを記憶している記録媒体から学習データを読み出すことによって学習データを入力するように構成されてもよい。学習データ入力部12は、このようにして入力した学習データを学習部13に出力する。
【0025】
学習部13は、学習データ入力部12から出力される出力される学習データを学習モデルに基づいて学習することにより学習済みモデルを生成する。具体的には、学習部13は、入力された人物iの二次元座標x=(x,y)を入力として、人物iがクラスcに属する度合を出力する学習済みモデルを生成する。
【0026】
図2は、第1の実施形態におけるクラス判定装置2の機能構成を表す概略ブロック図である。
クラス判定装置2は、記憶部21及び制御部22を備える。
記憶部21は、学習済みモデル211を記憶する。記憶部21は、磁気記憶装置や半導体記憶装置などの記憶装置を用いて構成される。学習済みモデル211は、学習装置1によって生成された学習済みモデルである。
【0027】
制御部22は、クラス判定装置2全体を制御する。クラス判定装置2は、CPU等のプロセッサやメモリを用いて構成される。制御部22は、プログラムを実行することによって、取得部221、物体検出部222、座標変換部223、クラス尤度取得部224及びクラス判定部225として機能する。
【0028】
取得部221、物体検出部222、座標変換部223、クラス尤度取得部224及びクラス判定部225の機能部のうち一部または全部は、ASICやPLD、FPGAやGPUなどのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアとの協働によって実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記憶媒体である。プログラムは、電気通信回線を介して送信されてもよい。
【0029】
取得部221、物体検出部222、座標変換部223、クラス尤度取得部224及びクラス判定部225の機能の一部は、予めクラス判定装置2に搭載されている必要はなく、追加のアプリケーションプログラムがクラス判定装置2にインストールされることで実現されてもよい。
【0030】
取得部221は、各種情報を取得する。例えば、取得部221は、推論用フレームを取得する。例えば、取得部221は、学習装置1から学習済みモデルを取得する。
【0031】
物体検出部222は、入力された推論用フレームそれぞれから物体を検出する。物体は、例えば人物である。物体の検出には、公知の技術が用いられてもよい。例えば、物体の検出には、非特許文献1に示す技術や、下記の参考文献1に記載の技術が用いられてもよい。物体検出結果は、物体を過不足なく囲う矩形の情報(例えば、矩形左上の座標を(x,y)、右下の座標を(x,y)として、(x,y,x,y)∈R)として出力される。
(参考文献1: X. Zhou et al., “Objects as Points”, in arXiv arXiv:1904.07850, 2019. [令和2年6月2日検索]、インターネット<URL:https://arxiv.org/abs/1904.07850>)
【0032】
座標変換部223は、物体検出部222によって検出された各人物の位置を正規化空間における位置へと変換する。座標変換を行う方法は任意である。例えば推論用フレームの座標系と、正規化空間における座標系とが射影変換行列で関係づけられている場合、座標変換部223は、推論用フレーム座標系における検出結果から算出された中央下の位置を射影変換行列に乗算することで、検出された各人物の位置を正規化空間における位置へと変換する。これにより、座標変換部223は、検出された各人物の正規化空間における位置情報を取得する。
【0033】
クラス尤度取得部224は、座標変換部223で得られた位置情報を、学習済みモデルに入力して、各人物が各クラスに属する尤もらしさを表す尤度を取得する。これにより、各人物が各クラスに属する尤もらしさが、例えばN×L要素で出力される。ここで、Nは検出された人物の数を表し、Lは対象クラスの数を表す。対象とする競技が野球の場合、対象クラスは例えばピッチャー、キャッチャー、ファースト、セカンド、ショート、サード、レフト、センター、ライトの9つである。なお、野球の場合の対象クラスはこれらに限定される必要はない。例えば、野球の場合の対象クラスには、審判員(球審、塁審、外審等)、ランナー、ベースコーチ等が含まれてもよい。
【0034】
クラス判定部225は、クラス尤度取得部224により得られた結果に基づいて、各推論用フレームから検出された各人物のクラスを判定する。
【0035】
図3は、第1の実施形態におけるクラス判定装置2が行う人物分類処理の流れを示すフローチャートである。図3の処理開始時には、学習済みモデルが記憶部21に記憶されているものとする。
取得部221は、推論用フレームを取得する(ステップS101)。例えば、取得部221は、1枚の推論用フレームを取得する。取得部221は、取得した推論用フレームを物体検出部222に出力する。物体検出部222は、推論用フレームから人物を検出する(ステップS102)。物体検出部222は、検出結果を座標変換部223に出力する。
【0036】
座標変換部223は、物体検出部222によって検出された各人物の人物領域の位置を、正規化空間における位置へと変換する(ステップS103)。ここでは、推論用フレームの座標系と、正規化空間における座標系とが射影変換行列で関係づけられているとする。この場合、座標変換部223は、推論用フレーム座標系における検出結果から算出された中央下の位置(上記の人物検出結果を例にすると、((x+x)/2,y)))を以下の式(1)における射影変換行列に乗算することで、検出された各人物の位置を正規化空間における位置へと変換する。
【0037】
【数1】
【0038】
図4に示す推論用フレーム30がクラス判定装置2に入力されたとする。そして、物体検出部222により推論用フレーム30において人物が検出される。例えば、推論用フレーム30から人物領域31が取得される。座標変換部223は、人物領域31の中央下の位置32を上記の式(1)における射影変換行列に乗算することで、正規化座標系における位置を求める。人物領域31の正規化座標系における位置を図5に示す。座標変換部223は、物体検出部222によって複数の人物が検出されている場合には、検出された全ての人物領域に正規化座標系における位置を求める。座標変換部223は、座標変換結果(例えば、図5における(x´,y´))をクラス尤度取得部224に出力する。
【0039】
クラス尤度取得部224は、座標変換部223から出力された座標変換結果を、記憶部21に記憶されている学習済みモデル211に入力することによって各人物のクラス尤度を取得する(ステップS104)。クラス尤度取得部224は、各人物のクラス尤度の取得結果をクラス判定部225に出力する。
【0040】
クラス判定部225は、クラス尤度取得部224から出力された取得結果に基づいて、推論用フレームから検出された各人物のクラスを判定する(ステップS105)。クラス判定にあたっては、人物検出結果及びクラスをノードとするグラフに基づく最適化を行うものとする。グラフに基づく最適化を行う方法は任意である。例えば、クラス判定部225は、図6に示すようにクラス尤度取得部224で得られるN×Lの出力をN行L列の行列34とみなし、それに公知の割当方法を適用して各クラスに属する人物を判定する。公知の割当方法としては、例えばハンガリアン法が挙げられる。
【0041】
図6を用いて、クラス判定部225の具体的な処理について説明する。
図6の上図に示すように、4人の人物が検出されているものとする。各人物はそれぞれp1、p2、p3、p4とする。図6の下図には、クラス尤度取得部224によるクラス尤度の取得結果及びクラス判定部225による判定結果が示されている。例えば、クラス尤度の取得結果として、各人物p1~p4の各クラスに対する尤度の取得結果が示されている。図6では、人物p1が、クラス1に属する割合が0.5であり、クラス2に属する割合が0.2であり、クラス3に属する割合が0.1であるといったことが示されている。クラス判定部225による判定結果として、人物p1がクラス1に属し、人物p2がクラス2に属し、人物p4がクラス3に属すると判定されていることが示されている。
【0042】
その後、制御部22は終了条件が満たされたか否かを判定する(ステップS106)。終了条件は、図3に示す処理を終了するための条件である。例えば、終了条件は、ユーザから終了の指示がなされること、入力された推論用フレームにおけるクラス判定が終了したことなどである。終了条件が満たされた場合(ステップS106-YES)、クラス判定装置2は図3の処理を終了する。
一方、終了条件が満たされていない場合(ステップS106-NO)、クラス判定装置2はステップS101以降の処理を繰り返し実行する。
【0043】
以上のように構成された第1の実施形態における物体分類システムによれば、撮影されている物体の解像度が低い場合であっても効率的に物体を分類することができる。具体的には、クラス尤度取得部224は、各クラスの正規化空間における位置情報を教師データとする学習済みモデルを用いて各人物の各クラスに属する割合を取得する。そして、クラス判定部225において、クラス尤度取得部224における取得結果を用いて各人物のクラス判定に用いる。このように、クラス判定装置2は、検出結果の見えの情報ではなく、位置情報に基づきクラス分類を行う。したがって、野球のポジションのようなクラスと位置情報の間にたいおう性があるケースにおいて、個々の人物の解像度が低い場合であっても効率的に物体を分類することができる。
【0044】
クラス判定装置2における座標変換部223が、推論用フレームから検出された人物を正規化空間へ写像した上で、正規化空間における位置情報をクラス尤度取得部224に出力する。これにより、競技フィールドに対する撮像系の姿勢の影響を受けずに各検出結果のクラス尤度を取得することができる。
【0045】
(第2の実施形態)
第1の実施形態では、入力された各推論用フレーム全てにおいて、検出された全ての人物のクラス判定を行う。そのため、既にクラス判定された人物について複数回クラス判定を行うことになる。第2の実施形態では、各推論用フレームで検出された人物をフレーム間で対応付け、対応付けがなされていない人物のクラス判定を行う。
【0046】
図7は、第2の実施形態におけるクラス判定装置2aの機能構成を表す概略ブロック図である。
クラス判定装置2aは、記憶部21及び制御部22aを備える。
制御部22aは、クラス判定装置2a全体を制御する。クラス判定装置2aは、CPU等のプロセッサやメモリを用いて構成される。制御部22aは、プログラムを実行することによって、取得部221、物体検出部222、座標変換部223a、クラス尤度取得部224a、クラス判定部225a及びトラッキング部226として機能する。
【0047】
クラス判定装置2aは、座標変換部223、クラス尤度取得部224及びクラス判定部225にかえて座標変換部223a、クラス尤度取得部224a及びクラス判定部225aを備える点と、トラッキング部226を新たに備える点でクラス判定装置2と構成が異なる。クラス判定装置2aのその他の構成については、クラス判定装置2と同様である。以下、相違点について説明する。
【0048】
トラッキング部226は、推論用フレームを保持し、各フレーム間で検出された人物をフレーム間でトラッキングする。例えば、トラッキング部226は、時刻t+1における推論用フレームが入力された場合、時刻tにおける推論用フレームで検出された人物と、時刻t+1における推論用フレームで検出された人物とを対応付けることによって、検出された人物をフレーム間でトラッキングする。トラッキング部226により対応付けられる人物は、時刻tにおける推論用フレームに存在し、かつ、時刻t+1における推論用フレームに存在している同一の人物である。同一の人物とは、時刻tにおける推論用フレームで検出される人物の特徴量と、時刻t+1における推論用フレームで検出される人物の特徴量とが閾値以上一致する人物である。トラッキング部226は、対応付けられた人物に関する情報(以下「対応付け情報」という。)を座標変換部223aに出力する。対応付け情報は、人物領域の位置情報や人物の識別情報を含む。
【0049】
トラッキング部226が行うトラッキングには任意の方法を用いることが可能である。例えば、トラッキング部226が行うトラッキングには、下記参考文献2に開示されている技術が用いられてもよい。
(参考文献2:L. Chen et al., “Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-identification”, in ICME, 2018. [令和2年6月2日検索]、インターネット<URL:https://arxiv.org/abs/1809.04427>)
【0050】
座標変換部223a、クラス尤度取得部224a及びクラス判定部225aは、基本的には座標変換部223、クラス尤度取得部224及びクラス判定部225と同様の処理を行う。座標変換部223a、クラス尤度取得部224a及びクラス判定部225aにおいて新しい動作としては、トラッキング部226によるトラッキング結果に基づいて、時刻t+1における推論用フレームで検出された人物のうち時刻tにおける推論用フレームに存在しなかった人物の検出結果に対して処理を行う点である。座標変換部223a、クラス尤度取得部224a及びクラス判定部225aは、時刻tにおける推論用フレームに存在しなかった人物を、トラッキング部226から出力された対応付け情報に基づいて特定する。
【0051】
図8は、第2の実施形態におけるクラス判定装置2aが行う物体分類処理の流れを示すフローチャートである。図8において、図5と同様の処理は図5と同様の符号を付して説明を省略する。
ステップS106の処理において終了条件が満たされていない場合(ステップS106-NO)、取得部221は、推論用フレームを取得する(ステップS201)。ステップS201において取得部221は、他の時刻における推論用フレームを取得する。例えば、ステップS201において取得部221は、前に取得したフレームよりも後の時刻における推論用フレームを取得する。取得部221は、取得した推論用フレームを物体検出部222に出力する。物体検出部222は、推論用フレームから人物を検出する(ステップS202)。物体検出部222は、検出結果をトラッキング部226に出力する。
【0052】
トラッキング部226は、物体検出部222から出力された検出結果と、1つ前に取得された推論用フレームの検出結果とを対応付けることによってフレーム間で人物をトラッキングする(ステップS203)。ここで、トラッキング部226は、トラッキングによりフレーム間で人物の対応付けができた場合には、その人物を表す人物領域の画像上で位置情報や人物の識別情報を含む対応付け情報を生成する。
【0053】
トラッキング部226は、対応付け情報と、物体検出部222から出力された検出結果とを座標変換部223aに出力する。座標変換部223aは、物体検出部222によって検出された各人物の人物領域の位置を、正規化空間における位置へと変換する(ステップS204)。ここで、座標変換部223aは、検出結果に含まれているが、対応付け情報に含まれていない人物の人物領域の位置を、正規化空間における位置へと変換する。対応付け情報に含まれていない人物ということは、新たに取得された推論用フレームで新たに写りこんだ人物である可能性が高い。すなわち、クラスが判定されていない人物である可能性が高い。一方、対応付け情報に含まれている人物は、1つ前の推論用フレームで既に写りこんでいた人物である。すなわち、既にクラスが判定されている人物である可能性が高い。そのような人物のクラス判定を省くことによって処理速度を速めることができる。座標変換部223aは、座標変換結果をクラス尤度取得部224aに出力する。
【0054】
クラス尤度取得部224aは、座標変換部223aから出力された座標変換結果を、記憶部21に記憶されている学習済みモデル211に入力することによって各人物のクラス尤度を取得する(ステップS205)。座標変換部223aからは、対応付け情報に含まれていない人物における座標変換結果しか出力されていない。そこで、クラス尤度取得部224aにおいても、クラスが判定されていない可能性が高い人物のクラス尤度を判定する。クラス尤度取得部224aは、各人物のクラス尤度の取得結果をクラス判定部225aに出力する。
【0055】
クラス判定部225aは、クラス尤度取得部224aから出力された取得結果に基づいて、推論用フレームから検出された各人物のクラスを判定する(ステップS206)。その後、制御部22は終了条件が満たされたか否かを判定する(ステップS207)。終了条件が満たされた場合(ステップS207-YES)、クラス判定装置2aは図8の処理を終了する。
一方、終了条件が満たされていない場合(ステップS207-NO)、クラス判定装置2aはステップS201以降の処理を繰り返し実行する。
【0056】
以上のように構成された第2の実施形態における物体分類システムによれば、第1の実施形態と同様の効果を得ることができる。
第2の実施形態における物体分類システムでは、各推論用フレームで検出された人物をフレーム間で対応付けることで追跡し、前フレームにおける人物検出結果を伝搬させる。そして、第2の実施形態における物体分類システムでは、トラッキング部226でトラッキングできなかった人物の検出結果に対してのみ処理を行う。これにより、座標変換部223a以降の処理は、既にクラス判定された人物を除いた人物を対象とすることができる。そのため、処理速度を向上させることができる。
【0057】
<第1の実施形態及び第2の実施形態に共通する変形例>
上記の各実施形態では、映像を構成するフレームに写る人物の分類を例に説明したが、人物以外の物体(例えば、人物以外の生物、構造物等)を分類するように構成されてもよい。
学習装置1とクラス判定装置2,2aは、一体化されて構成されてもよい。このように構成される場合、クラス判定装置2は、学習処理と推論処理とをユーザの指示に応じて切り替えて実行する。
【0058】
クラス判定部225,225aは、上述した方法とは別の方法でクラスを判定するように構成されてもよい。具体的には、クラス判定部225,225aは、人物検出結果と、見えの情報とに基づいてクラスを判定してもよい。見えの情報とは、画像フレーム内に撮像されている人物が検出された画像領域から抽出された、見えの特徴量を表す。見えの特徴量は、例えば画素値である。例えば、Aチームの選手と、Bチームの選手とではユニフォームが異なる。そのため、Aチームの選手が検出された画像領域から抽出される見えの特徴量と、Bチームの選手が検出された画像領域から抽出される見えの特徴量とを比較すると、見えの特徴量の類似度が閾値未満となる。一方で、同じチームの選手同士はユニフォームが同じである。そのため、Aチームの各選手が検出された各画像領域から抽出される各見えの特徴量の類似度が閾値以上となる。そこで、クラス判定部225,225aは、物体が検出された画像領域から抽出される見えの特徴量を比較して、見えの特徴量の類似度が閾値以上となる人物を同一チームと判断して同一チームの人物のクラスを判定してもよい。このように、クラス判定部225,225aは、物体が検出された画像領域から抽出される見えの特徴量を比較して、比較に基づく尺度を加味してクラス判定を行ってもよい。具体的な処理について図9及び図10を用いて説明する。
【0059】
図9において、人物p1~p4は、図6と同様に、検出された人物である。図9及び図10において、人物p1、p2及びp4は同じチームの選手(例えば、Aチーム)であり、人物p3だけ異なるチーム(例えば、Bチーム)である。クラス判定部225,225aは、人物p1~p4をノード51~54とし、ノード間をエッジで接続する。ノードをエッジで接続する方法は任意である。例えば、クラス判定部225,225aは、全てのノードを接続する全結合グラフを構築してもよいし、人物の位置情報に基づき近傍kノードにのみエッジを張るk近傍グラフを構築してもよい。クラス判定部225,225aは、人物i,j間のエッジの重みを、人物領域間の見えの類似度に基づき算出する。例えば、クラス判定部225,225aは、エッジで接続しているノード同士の見えの特徴量が類似しているほどエッジの値を高くし、エッジで接続しているノード同士の見えの特徴量が類似していないほどエッジの値を低くする。これにより、同じチームの選手同士を接続するエッジの値が高くなる。図9に示す例では、人物p1に対応するノード51と、人物p4に対応するノード54とは、見えの特徴量が類似する。そのため、ノード51とノード54とを接続するエッジの重みが0.5となっている。一方で、人物p1に対応するノード51と、人物p3に対応するノード53とは、見えの特徴量が類似しない。そのため、ノード51とノード53とを接続するエッジの重みが0.1となっている。
【0060】
クラス判定部225,225aは、このようにして構築したグラフと、判定したいクラスをノードとして構築したグラフとのマッチングを行うことによってクラスを判定する。図9では、判定したいクラスとして、クラスc1,c2,c3が示されている。そして、クラスc1に対応するノード55、クラスc2に対応するノード56、クラスc3に対応するノード57をエッジで接続したグラフが示されている。クラス判定部225,225aは、各検出結果をノードとするグラフをG=(V,E,A)、各クラスをノードとするグラフをG’=(V’,E’,A’)とする。V、V’はノード集合、E、E’はエッジ集合、A、A’は属性集合である。このとき、検出結果とクラスの対応付けは以下の式2を最大化するような解Mとして出力される。
【0061】
【数2】
【0062】
式2におけるg()について、i=jかつi‘=j’のとき、g()がクラス尤度取得部224で取得された人物検出結果iがクラスi‘に属する尤もらしさ、上記以外の条件のときは、i、j間およびi‘、j’間各々にエッジが張られている場合に1、それ以外では0となる。上式を最大化するMを計算する方法は任意のアルゴリズムを用いることが可能であり、例えば参考文献3に開示されている方法を用いればよい。
(参考文献3:T. Cour et al., “Balanced Graph Matching”, in NIPS, 2006.)
上記のように、クラス判定部225,225aは、各人物のクラスを判定する。
【0063】
以上のように構成されることによって、位置情報のみでクラス判定が困難な場合、例えば異なるチームの選出同士が近い場合、選手以外の人物(例えば、審判)が選手の近くにいる場合においても見えの情報を加味することでクラス判定の精度を向上させることが可能になる。
さらに、クラス判定装置2,2aにおけるクラス判定部225,225aが、人物検出結果及びクラスをノードとするグラフに基づいて、推論用フレームの人物検出結果のクラスを判定する。グラフベースの大域最適化によって、クラス判定部225,225の結果のみに基づいて得られる局所解よりも精度よくクラスを判定することができる。
【0064】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0065】
1…学習装置, 2…クラス判定装置, 11…学習モデル記憶部, 12…学習データ入力部, 13…学習部, 21…記憶部, 22…制御部, 221…取得部, 222…物体検出部, 223,223a…座標変換部, 224,224a…クラス尤度取得部, 225,225a…クラス判定部, 226…トラッキング部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10