IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7022040オブジェクト識別装置、方法およびプログラム
<>
  • 特許-オブジェクト識別装置、方法およびプログラム 図1
  • 特許-オブジェクト識別装置、方法およびプログラム 図2
  • 特許-オブジェクト識別装置、方法およびプログラム 図3
  • 特許-オブジェクト識別装置、方法およびプログラム 図4
  • 特許-オブジェクト識別装置、方法およびプログラム 図5
  • 特許-オブジェクト識別装置、方法およびプログラム 図6
  • 特許-オブジェクト識別装置、方法およびプログラム 図7
  • 特許-オブジェクト識別装置、方法およびプログラム 図8
  • 特許-オブジェクト識別装置、方法およびプログラム 図9
  • 特許-オブジェクト識別装置、方法およびプログラム 図10
  • 特許-オブジェクト識別装置、方法およびプログラム 図11
  • 特許-オブジェクト識別装置、方法およびプログラム 図12
  • 特許-オブジェクト識別装置、方法およびプログラム 図13
  • 特許-オブジェクト識別装置、方法およびプログラム 図14
  • 特許-オブジェクト識別装置、方法およびプログラム 図15
  • 特許-オブジェクト識別装置、方法およびプログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-02-08
(45)【発行日】2022-02-17
(54)【発明の名称】オブジェクト識別装置、方法およびプログラム
(51)【国際特許分類】
   G06T 7/292 20170101AFI20220209BHJP
【FI】
G06T7/292
【請求項の数】 15
(21)【出願番号】P 2018179892
(22)【出願日】2018-09-26
(65)【公開番号】P2020052600
(43)【公開日】2020-04-02
【審査請求日】2020-08-06
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】渡邊 良亮
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2016-54409(JP,A)
【文献】特開2015-114950(JP,A)
【文献】特開2007-226512(JP,A)
【文献】特開2005-260753(JP,A)
【文献】米国特許第8279286(US,B2)
【文献】国際公開第2007/074671(WO,A1)
【文献】山崎綾哉, 外3名,“フィールドスポーツにおける同期多カメラを用いた複数選手のチーム識別と背番号認識による実時間個人識別”,映像情報メディア学会技術報告,日本,(一社)映像情報メディア学会,2012年08月27日,第36巻, 第34号,p.59-62
【文献】Changsong Shen, 外2名,"A Multi-Camera Surveillance System that Estimates Quality-of-View Measurement",2007 IEEE International Conference on Image Processing,IEEE,2007年,p.(III-193)-(III-196)
【文献】Abhinav Gupta, 外2名,"COST: An Approach for Camera Selection and Multi-Object Inference Ordering in Dynamic Scenes",2007 IEEE 11th International Conference on Computer Vision,IEEE,2007年,p.1-8
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/292
(57)【特許請求の範囲】
【請求項1】
カメラ映像に基づいてオブジェクトを識別するオブジェクト識別装置において、
オブジェクトを複数の異なる視点で撮影したカメラ映像を取得する手段と、
各オブジェクトの位置を推定する手段と、
各カメラの視点および各オブジェクトの位置に基づいてオブジェクト同士の遮蔽度をカメラごとに計算する手段と、
前記遮蔽度に基づいて各オブジェクトの識別に用いるカメラをオブジェクトごとに選定する手段と、
オブジェクト毎に前記選定したカメラのカメラ映像に基づいて各オブジェクトを識別する手段とを具備したことを特徴とするオブジェクト識別装置。
【請求項2】
前記オブジェクトがカメラ映像から認識できるIDを保持し、
カメラ映像に基づいて各オブジェクトの向きを推定する手段をさらに具備し、
前記カメラを選定する手段は、各オブジェクトの向きおよび遮蔽度に基づいて各オブジェクトのIDを認識するカメラを選定することを特徴とする請求項1に記載のオブジェクト識別装置。
【請求項3】
前記各オブジェクトの向きを推定する手段は、
カメラ映像から取得したオブジェクト画像に基づいて各オブジェクトの向きを推定する手段および各オブジェクトの移動ベクトルに基づいて各オブジェクトの向きを推定する手段の少なくとも一方を含むことを特徴とする請求項2に記載のオブジェクト識別装置。
【請求項4】
前記各オブジェクトの向きを推定する手段は、各向き推定結果の信頼度を取得する手段をさらに具備したことを特徴とする請求項3に記載のオブジェクト識別装置。
【請求項5】
前記各オブジェクトの向きを推定する手段は、オブジェクト画像に対する深層学習ベースの方向推定を行い、前記向き推定結果の信頼度を取得する手段は、当該深層学習ベースの方向推定における出力層の関数の出力値を信頼度として取得することを特徴とする請求項4に記載のオブジェクト識別装置。
【請求項6】
前記向き推定結果の信頼度を取得する手段は、移動ベクトルに基づく向き推定において、オブジェクトの移動速度が速いほど高い信頼度を取得することを特徴とする請求項4または5に記載のオブジェクト識別装置。
【請求項7】
前記カメラを選定する手段は、
オブジェクトごとにID指向方向を計算する手段と、
各オブジェクトのID指向方向ごとに候補ベクトルを算出する手段と、
各候補ベクトルを、前記遮蔽度および信頼度に基づいてスコア付けする手段と、
オブジェクトごとに、指向方向の角度差が所定の閾値を下回る2つの候補ベクトルを統合して一の候補ベクトルを新たに生成し、これを繰り返す手段と、
前記統合された2つの候補ベクトルのスコアを基に前記新たに生成した一の候補ベクトルをスコア付けする手段とを具備し、
スコアが所定の条件を満たす候補ベクトルに基づいてカメラを選定することを特徴とする請求項4ないし6のいずれかに記載のオブジェクト識別装置。
【請求項8】
前記カメラを選定する手段は、
オブジェクトごとにID指向方向を計算する手段と、
各オブジェクトのID指向方向ごとに候補ベクトルを算出する手段と、
オブジェクトごとに、候補ベクトルの向きと各カメラの向きとに基づいて各カメラに推奨度のスコア付けを行い、これを全ての候補ベクトルについて繰り返して推奨度の累積スコアを求める手段を具備し、
累積スコアが所定の条件を満たす候補ベクトルに基づいてカメラを選定することを特徴とする請求項4ないし6のいずれかに記載のオブジェクト識別装置。
【請求項9】
前記推奨度の累積スコアを求める手段は、前記候補ベクトルの向きと各カメラの向きとの内積に基づいて各カメラに推奨度のスコア付けを行うことを特徴とする請求項8に記載のオブジェクト識別装置。
【請求項10】
前記オブジェクトを識別する手段は、オブジェクトのカメラ映像からオブジェクトのIDを含む識別領域を抽出する手段をさらに具備し、
前記抽出した識別領域を対象にID認識を実行することを特徴とする請求項2ないし9のいずれかに記載のオブジェクト識別装置。
【請求項11】
前記識別領域を抽出する手段は、オブジェクトのカメラ映像から骨格情報を抽出し、当該骨格情報に基づいて識別領域を抽出することを特徴とする請求項10に記載のオブジェクト識別装置。
【請求項12】
前記遮蔽度を計算する手段は、注目オブジェクトを含む所定幅とカメラとを結ぶ範囲内に他のオブジェクトが存在する割合に基づいて遮蔽度を計算することを特徴とする請求項1ないし11のいずれかに記載のオブジェクト識別装置。
【請求項13】
前記遮蔽度を計算する手段は、注目オブジェクトの視体積をカメラに投影した際に生じるマスクと、他のオブジェクトの視体積をカメラに投影した際に生じるマスクとの重なり量に基づいて遮蔽度を計算することを特徴とする請求項1ないし12のいずれかに記載のオブジェクト識別装置。
【請求項14】
コンピュータが、カメラ映像に基づいてオブジェクトを識別するオブジェクト識別方法において、
オブジェクトを複数の異なる視点で撮影したカメラ映像を取得する手順と、
各オブジェクトの位置を推定する手順と、
各カメラの視点および各オブジェクトの位置に基づいてオブジェクト同士の遮蔽度をカメラごとに計算する手順と、
前記遮蔽度に基づいて各オブジェクトの識別に用いるカメラをオブジェクトごとに選定する手順と、
オブジェクト毎に前記選定したカメラのカメラ映像に基づいて各オブジェクトを識別する手順とを含むことを特徴とするオブジェクト識別方法。
【請求項15】
カメラ映像に基づいてオブジェクトを識別するオブジェクト識別プログラムにおいて、
オブジェクトを複数の異なる視点で撮影したカメラ映像を取得する手順と、
各オブジェクトの位置を推定する手順と、
各カメラの視点および各オブジェクトの位置に基づいてオブジェクト同士の遮蔽度をカメラごとに計算する手順と、
前記遮蔽度に基づいて各オブジェクトの識別に用いるカメラをオブジェクトごとに選定する手順と、
オブジェクト毎に前記選定したカメラのカメラ映像に基づいて各オブジェクトを識別する手順とを、コンピュータに実行させるオブジェクト識別プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、視点の異なる複数のカメラで撮影したカメラ映像上で各オブジェクトに固有のIDを認識し、ID認識の結果を基に各オブジェクトを識別するオブジェクト識別装置、方法およびプログラムに関する。
【背景技術】
【0002】
従来、カメラで撮影した映像を基に、人物に代表される何らかのオブジェクトを抽出し、識別する技術が提案されてきた。この識別を実現するためには、例えばオブジェクトがスポーツ選手であれば背番号や顔、車であればナンバープレートの番号等を映像中から正確に抽出し、かつ抽出した部分から選手の背番号等の情報を正しく認識し、識別を実現する必要がある。
【0003】
例えばスポーツ映像の中で、各選手の識別を正確に実現することができれば、各選手の動きを正確に画像だけから捉えることができ、戦術の分析等に役立てることが可能となる。
【0004】
オブジェクト識別の手段としては、近年、高精度な識別を実現できるという理由から深層学習を用いる識別技術が注目されている。深層学習を用いてスポーツ選手の背番号を高精度に識別する技術が非特許文献1に開示されている。非特許文献1では、ある背番号画像を、訓練した畳み込みニューラルネットワークにより認識することで、約83%の精度で正解の番号を認識することができたことが示されている。
【0005】
一方、シーン中で常に識別を行うためには、顔や背番号といった固有の識別部分が高い頻度でカメラに映っていなければならない。故に、1台のカメラの利用だけではロバストな識別を行う上で限界が存在していた。
【0006】
このような技術課題を解決するために、複数のカメラを用いて効率的にオブジェクトの識別を行うアプローチについて提案が成されてきた。特許文献1は、複数のカメラを使用し、特定の人物に対して複数の方向から撮像した人物の画像を用いて個人の同定を行っている。特許文献1では、画像間の相対的な方位の関係を基に複数の画像を登録画像と比較することで、高い精度の識別を実現していた。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2016-001447号公報
【非特許文献】
【0008】
【文献】Sebastian Gerke; Karsten Muller; Ralf Schafer,"Soccer Jersey Number Recognition Using Convolutional Neural Networks,"The IEEE International Conference on Computer Vision (ICCV) Workshops, pp. 17-24, 2015.
【文献】Laurentini, A."The visual hull concept for silhouette based image understanding.", IEEE Transactions on Pattern Analysis and Machine Intelligence, 16, 150-162 (1994).
【文献】J. Redmon and A. Farhadi,"YOLO9000: Better, Faster, Stronger," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 6517-6525 (2017).
【文献】Gandhi, T and Trivedi, M."Image based estimation of pedestrian orientation for improving path prediction."in Proc. 2008 IEEE Intelligent Vehicles Symposium, 506-511 (2008).
【文献】Z. Cao, T. Simon, S. Wei and Y. Sheikh, "Realtime Multi-person 2D Pose Estimation Using Part Affinity Fields,"2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1302-1310 (2017).
【文献】J. F. Henriques, R. Caseiro,P. Martins and J. Batista, "High-Speed Tracking with Kernelized Correlation Filters,"in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 3, pp. 583-596 (2015).
【発明の概要】
【発明が解決しようとする課題】
【0009】
非特許文献1では、深層学習を用いて高精度の背番号認識が行えることが示されている。しかしながら、映像の中で識別対象となる部位が常に見え続けるということは少ない。例えばスポーツ選手の背番号であればカメラに対する選手の立つ角度や、選手同士の重なり等の問題から、常に背番号をカメラの中に捉えるということは困難である。車のナンバープレートでも、ナンバープレートが見える角度は限定されるという問題がある。しかしながら、非特許文献1では、このような状況においても高精度で識別を実行する手段については開示されていない。
【0010】
一方、特許文献1は複数カメラを用いるため、前述の識別対象が見える頻度が少ないという問題を解決することができる。しかしながら、特許文献1は主に人物の顔(頭部)を対象に認識を行う技術であり、顔を対象とした識別では識別が可能なレベルで顔が鮮明にカメラに映っている必要がある。
【0011】
しかしながら、スタジアムのような広い領域を対象に、比較的少ないカメラでフィールド全体の選手の識別を行う場合、スタジアム全体が映り込むような画角で撮影を行う必要がある。しかしながら、このような撮影環境で顔を鮮明に映し出すことは一般的なカメラの解像度では困難であるため、広域空間には適用しづらいという問題があった。
【0012】
加えて、顔を対象にした認識は、例えばアメリカンフットボールのような、顔全体や頭部にプロテクターを付ける可能性のある競技には適用が難しい。また、特許文献1では顔(頭部)のみならず背番号領域を識別に用いることが可能ではあるものの、特許文献1のアルゴリズムは、識別に使用する特徴部が複数のカメラから見えることを前提として効率的な識別を実現するものであるが故に、背番号のように特定のカメラからしか見えない可能性が高い識別対象に対して、効果的に適用することが難しいという問題も存在していた。
【0013】
また、複数のカメラから対象を捉える際に、他のオブジェクトによって遮蔽されることによって対象が映らなかった場合に、精度が大きく低下してしまう懸念がある。しかしながら、この問題の解決法については特許文献1の中では明確に開示されていない。
【0014】
本発明の目的は、上記の技術課題を解決し、各オブジェクトの他のオブジェクトによる遮蔽度をカメラごとに求め、オブジェクトごとに遮蔽度の小さいカメラ映像を対象にID認識を実行することでオブジェクト識別の精度が向上するオブジェクト認識装置、方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0015】
上記の目的を達成するために、本発明は、カメラ映像に基づいてオブジェクトを識別するオブジェクト識別装置、方法およびプログラムにおいて、以下の構成を具備した点に特徴がある。
【0016】
(1) オブジェクトを複数の異なる視点で撮影したカメラ映像を取得する手段と、各オブジェクトの位置を推定する手段と、各カメラの視点および各オブジェクトの位置に基づいてオブジェクト同士の遮蔽度をカメラごとに計算する手段と、前記遮蔽度に基づいて各オブジェクトの識別に用いるカメラを選定する手段と、オブジェクト毎に前記選定したカメラのカメラ映像に基づいて各オブジェクトを識別する手段とを具備した。
【0017】
(2) オブジェクトがカメラ映像から認識できるIDを保持し、カメラごとにそのカメラ映像に基づいて各オブジェクトの向きを推定する手段をさらに具備し、前記カメラを選定する手段は、各オブジェクトの向きおよび遮蔽度に基づいてオブジェクト毎にそのIDを認識するカメラを選定するようにした。
【0018】
(3) カメラを選定する手段は、オブジェクトごとにID指向方向を計算する手段と、各オブジェクトのID指向方向ごとに候補ベクトルを算出する手段と、オブジェクトごとに、指向方向の角度差が所定の閾値を下回る2つの候補ベクトルを統合して一の候補ベクトルを新たに生成し、これを繰り返す手段と、前記統合された2つの候補ベクトルの信頼度を反映して前記新たに生成した一の候補ベクトルの信頼度を設定する手段とを具備し、信頼度の高さが所定の条件を満たす候補ベクトルに基づいてカメラを選定するようにした。
【0019】
(4) オブジェクトを識別する手段は、オブジェクトのカメラ映像からオブジェクトのIDを含む識別領域を抽出する手段をさらに具備し、抽出した識別領域を対象にID認識を実行するようにした。
【0020】
(5) 各オブジェクトの向きを推定する手段は、カメラ映像から取得したオブジェクト画像に基づいて各オブジェクトの向きを推定する手段および各オブジェクトの移動ベクトルに基づいて各オブジェクトの向きを推定する手段の少なくとも一方を含むようにした。
【0021】
(6) 各オブジェクトの向きを推定する手段は、各向き推定結果の信頼度を取得する手段をさらに具備した。
【発明の効果】
【0022】
本発明によれば、以下のような効果が達成される。
【0023】
(1) オブジェクト同士の遮蔽度をカメラごとに求め、各オブジェクトの遮蔽度に基づいてオブジェクト識別の尤度が高いと推定されるカメラをオブジェクトごとに選定し、各オブジェクトの識別を、当該選定されたカメラのカメラ映像を対象に行うので、オブジェクト同士の遮蔽による誤認識の影響を排除した高精度なオブジェクト識別が可能になる。
【0024】
(2) オブジェクトに付されたIDを認識し、当該認識結果を基にオブジェクトを識別するにあたり、オブジェクトの向きを推定することでIDの指向方向を判断し、この指向方向を基にカメラを選定するので、ID認識の精度が向上し、オブジェクト同士の遮蔽による誤認識の影響を排除した高精度なオブジェクト識別が可能になる。
【0025】
(3) 各オブジェクトの向き推定に、カメラ映像に基づく推定結果のみならず、移動ベクトルに基づく推定結果も反映させたので、精度の高い向き推定が可能になる。
【0026】
(4) 向き推定の結果ごとにその信頼度を取得し、オブジェクトごとに各向き推定の結果とその信頼度に基づいて最終的な向きを推定するようにしたので、精度の高い向き推定が可能になる。
【0027】
(5) 移動ベクトルに基づく向き推定結果の信頼度をオブジェクトの移動速度に基づいて求めるようにしたので、移動ベクトルに基づく向き推定結果の信頼度を簡単かつ正確に求められるようになる。
【0028】
(6) オブジェクトごとにID認識を実行するカメラを選定する際に、カメラ映像ごとに得られる各オブジェクトの指向方向を表す候補ベクトルのうち、角度差の小さい候補ベクトルは統合し、統合された各候補ベクトルの信頼度を統合により生成された新しい候補ベクトルに設定し、最終的に信頼度の高い候補ベクトルに基づいてカメラを選定するので、外れ値の候補ベクトルがカメラ選定に与える影響を排除できるようになる。
【0029】
(7) オブジェクトごとに、各候補ベクトルの向きと各カメラの向きとに基づいて各カメラに推奨度のスコア付けを行い、これを全ての候補ベクトルについて繰り返すことで得られた累積スコアに基づいてカメラを選定するので、ID認識の尤度が高いカメラを選定できるようになる。
【0030】
(8) オブジェクト画像からIDを含む識別領域を抽出し、識別領域を対象にID認識を実行するのでID認識の範囲を予め狭めることができ、高速かつ高精度のID認識ひいてはオブジェクト識別を実現できるようになる。
【図面の簡単な説明】
【0031】
図1】本発明の一実施形態に係るオブジェクト識別装置の主要部の構成を各構成間で授受される信号/情報の内容と共に示した図である。
図2】視体積交差法によるオブジェクトの3Dモデル構築方法を示した図である。
図3】オブジェクトの位置推定方法を示した図である。
図4】カメラ映像から抽出したオブジェクト画像の例を示した図である。
図5】オブジェクト画像と向きとの関係を示した図である。
図6】オブジェクト同士の遮蔽度の算出方法を示した図である。
図7】オブジェクトの向きとIDの指向方向との関係を示した図である。
図8】統合する候補ベクトルの選択方法を示した図である。
図9】統合後の候補ベクトルの方向を統合された2つの候補ベクトルのスコアを基に決定する方法を示した図である。
図10】統合が完了した複数の候補ベクトルを基にカメラを選定する方法を示した図である。
図11】統合する候補ベクトルの選択手順を示したフローチャートである。
図12】2つの候補ベクトルを統合する手順を示したフローチャートである。
図13】カメラをその累積スコアを基に選定する方法を示した図である。
図14】カメラをその累積スコアを基に選定する手順を示したフローチャートである。
図15】オブジェクト画像から識別領域を抽出する方法を示した図である。
図16】オブジェクト識別結果の出力例を示した図である。
【発明を実施するための形態】
【0032】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明の一実施形態に係るオブジェクト識別装置の主要部の構成を、各構成間で授受される信号/情報の内容と共に示した図である。
【0033】
本発明のオブジェクト識別装置は、汎用のコンピュータに、後述する各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいは、アプリケーションの一部がハードウェア化またはROM化された専用機や単能機として構成することもできる。
【0034】
本実施形態では、オブジェクトとして人物を想定し、各人物オブジェクトをその識別情報(ID)を基に識別する。本実施形態ではIDとして背番号を想定して説明するが、顔をIDとして識別しても良いし、オブジェクトが車両であれば、そのナンバープレートやゼッケンをIDとして識別しても良い。また、オブジェクトの識別は各カメラ映像に対してフレーム単位で連続して行われるが、ここでは1フレームの処理に限定して説明する。フレーム間での識別結果の追跡には、周知の追跡手法を適用することができる。
【0035】
カメラ映像取得部1は、設置されている位置や向きが明らかであって、視点(立脚点)の異なる複数台(本実施形態では、n台)のカメラcam1,cam2…camNからカメラ映像Icam1,Icam2…IcamNを取得する。
【0036】
オブジェクト位置推定部2は、各カメラ映像Icamから抽出した各オブジェクトの位置の推定を行う。位置推定には、非特許文献2に示される視体積交差法を用いることができる。
【0037】
視体積交差法は、図2に示したように、複数のカメラ映像Icamから抽出したオブジェクトのシルエットが形作る錐体の積集合を求めることで当該オブジェクトの3Dモデルを生成する手法であり、生成された3Dモデルの存在する位置から各オブジェクトの位置推定が可能である。このとき、生成された3Dモデルが一定以上の大きさを持つ場合に、その位置にオブジェクトが存在するものとして位置推定を行うことができる。
【0038】
視体積交差法以外にも、画像内から人物抽出を行うことができる非特許文献3のような深層学習ベースの手法を用いて画像中の各オブジェクトの位置を特定した後に、画像中の位置をフィールド上の位置に射影することで各オブジェクトの位置を特定する手法を採用することも可能である。あるいは、各オブジェクトにセンサ等の位置を推定できるデバイスを付けることで位置情報を推定するようにしてもよい。
【0039】
前記オブジェクト位置推定部2は、空間中の全てのオブジェクトの位置を特定するものとし、この位置の推定結果は、図3のように2次元的に特定が成されてもよいし、3次元座標として位置が示されてもよい。
【0040】
オブジェクト向き推定部3は、オブジェクト画像取得部301、分類部302、移動ベクトル計算部303および信頼度取得部304を含み、カメラ映像ごとに各オブジェクトの向きの推定を行う。オブジェクトの向きの推定結果は、後段のカメラ選定部5において、各オブジェクトに固有のID(本実施形態では、背番号)が映り込んでいる可能性が高いカメラを選択するために用いられる。
【0041】
本実施形態は、視点の異なるカメラ映像ごとに各オブジェクトの向き推定の結果を算出することを特徴としており、オブジェクト画像取得部301は、前記オブジェクト位置推定部2で得られる各オブジェクトの位置情報を基に、図4に示したように各オブジェクトの画像A1~A4を取得する。
【0042】
分類部302は、例えば非特許文献4に開示されているように、オブジェクトの向きごとに訓練画像を用意しておき、その特徴を基に向き推定を行う。本実施形態では、図5に示したように、事前に向き推定を行う方向を8方向に限定して訓練画像を用意し、取得したオブジェクトの画像から抽出した特徴量と各向きの訓練画像の特徴量とを比較することで各オブジェクト画像をいずれかの向きに分類する。
【0043】
本実施形態では、向き推定に畳み込みニューラルネットワークなどの深層学習を用いることを想定しているが、その他の方法として、HOG(Histograms of Oriented Gradients)特徴量と、その特徴量を基に学習させたSVM(Support Vector Machine)などを用いて訓練と識別を行ってもよい。
【0044】
あるいは、非特許文献5に開示されているように、スケルトンを検出する手法で得られた関節の位置を基に、ある特定の関節が見えるかどうかや、関節の位置を特徴点として畳み込みニューラルネットワークやSVMに学習を行わせることによって向き推定を実施しても良い。
【0045】
移動ベクトル計算部303は、前記深層学習による向き推定の正確性を高めるために、移動ベクトルを用いる別のアプローチで更に向き推定を行う。本実施形態では、例えば非特許文献6に開示されているように、フレーム間でオブジェクトの追跡を行うアルゴリズムを用いて移動ベクトルを取得する。
【0046】
移動ベクトルが取得されると、オブジェクトの向きはその移動方向と一致することが多い。後退りしながら移動するケース等もあることから必ずしも正確ではないが、移動ベクトルを基にした向き推定の結果も加えることで、オブジェクトの向き推定の正確性を高めることができる。
【0047】
本実施形態では、n台のカメラが存在する環境下を想定するので、各カメラ映像から得られるオブジェクトの画像に対して深層学習を実施して得られるn個の向き推定結果と、追跡が成功している場合には移動ベクトルによって得られる一つの向き推定結果との計n+1個の向き推定結果が、オブジェクトごとに得られることになる。
【0048】
信頼度取得部304は、各向き推定結果の信頼度Riを取得する。ここで、iは向き推定結果のインデックスを表しており、本実施形態ではオブジェクトごとにiが1~n+1までの値を取ることになる。信頼度Riは、例えばニューラルネットワークによる向き推定結果であれば、出力層の関数から出力される確率を基に算出できる。
【0049】
また、移動ベクトルによる向き推定では、一般的に移動速度が速ければ速いほど、方向転換や後退りなどの想定外の動きをしている可能性が小さくなることから、選手の移動速度を基にRiを求めてもよい。例えば、移動速度が速いほど信頼度が高いものとし、ここではRiが0~1の値に正規化される。
【0050】
オブジェクト遮蔽度計算部4は、前記向き推定やIDの認識を実行する前に、前記オブジェクト位置推定部2で位置が推定された各オブジェクトが、その前方に位置する他のオブジェクトにより遮蔽されている否かの判定をカメラごとに行い、最終的にオブジェクトごとに遮蔽度Ojを算出する(jは、カメラ識別子である)。
【0051】
遮蔽度Ojも、0~1の値に正規化されるものとし、値が1に近いほど遮蔽度が大きく、0に近いほど遮蔽度が少ないことを表す度数として定義される。遮蔽度Ojが最大値の1であれば、注目しているオブジェクトが他のオブジェクトにより完全に遮蔽されていることを意味する。
【0052】
本実施形態では、図6に示したように、カメラcamごとに注目オブジェクトの前方に他のオブジェクトがどれだけ存在しているかを基に遮蔽度Ojが算出される。遮蔽度Ojは、例えば視体積の逆投影マスクを用いることで算出できるが、前記オブジェクト位置推定部2がオブジェクトの視体積を計算し、その視体積を基に位置推定を行っていれば、各対象オブジェクトの視体積の計算結果を利用できる。
【0053】
視体積の計算結果を利用するのであれば、図6にハッチングで示したように、初めに注目オブジェクトと重なる他のオブジェクト(遮蔽オブジェクト)の存在領域が定義される。当該存在領域は事前にユーザが定義するものとし、例えばカメラの視野内で注目オブジェクトの左右に長さLの存在幅を定義し、当該幅2Lを底辺、カメラを頂点とする三角形の領域内に他オブジェクトが存在するか否かを判断する。
【0054】
次いで、この存在領域内に存在すると判断された各オブジェクトの視体積からカメラのスクリーンに逆投影したマスクM1、および注目オブジェクトの視体積からカメラのスクリーンに逆投影したマスクM2を計算する。そして、マスクM2の全体面積(ピクセル数)Pallと、マスクM2に対してマスクM1が重なっているピクセル数Psとを求め、Ps/Pallの計算結果が遮蔽度Ojとされる。
【0055】
なお、本実施形態では便宜的に「遮蔽」と表現しているが、カメラに対して他のオブジェクトが注目オブジェクトの前方ではなく後方に存在し、当該後方に存在する他のオブジェクトが注目オブジェクトの認識結果に影響を与えそうな場合には、前記存在領域を対象オブジェクトの後方まで拡大して同様に計算を行ってもよい。
【0056】
遮蔽度Ojの算出方法は上記の方法に限定されるものではなく、画像の特徴量や深層学習ベースで対象オブジェクトの抽出を行った際に、オブジェクトのバウンディングボックスを求めて遮蔽度の計算を行ってもよい。このとき、対象オブジェクトのバウンディングボックスの面積をPall、他オブジェクトのバウンディングボックスが注目オブジェクトのバウンディングボックスと重なっている部分の面積をPsとすることで、上記と同様の手順で遮蔽度Ojを計算できる。
【0057】
カメラ選定部5は、オブジェクト向き推定部3が推定した各オブジェクトの向き、およびオブジェクト遮蔽度計算部4が計算した遮蔽度Ojを基に、オブジェクトの識別に使用するカメラをオブジェクトごとに選定する。本実施例では、前記深層学習によりカメラごとに得られたn個の信頼度Riおよび移動ベクトルを基に得られた1つの信頼度Riを、オブジェクトごとに取得済みであるものとして説明する。
【0058】
カメラ選定部5において、ID指向方向計算部501は、オブジェクトごとに前記n+1個の向き推定結果を基にIDの指向方向を計算する。ID指向方向とは、IDが背番号であれば当該背番号と正対する方向、換言すればオブジェクトの背中から垂直に延びる方向である。
【0059】
一般に、向き推定結果が0度であれば、そのカメラは背番号と正対し、当該背番号を高確率で映し出していると言える。一方、向き推定結果が、例えば90度であると、そのカメラから得られた画像は背番号を映し出している可能性が低いが、図7に示したように、向き推定で得られた方向ベクトルを90度回転させた方向にあるカメラは背番号と正対し、当該背番号を明瞭に映し出している可能性が高い。したがって、当該90度回転させた方向が指向方向とされる。
【0060】
このような観点から、本実施形態ではカメラ映像ごとに得られるn個の向き推定結果からn個のID指向方向が計算される。さらに、本実施例ではオブジェクトごとに、その移動ベクトルを用いた方向推定も実施されているが、この推定結果に関しては、オブジェクトの移動方向の反対方向(180度回転させた方向)を背番号と正対するID指向方向とした。
【0061】
なお、本実施形態ではカメラごとに視線の方向が異なるので、前記オブジェクト向き推定部3で推定された各オブジェクトの向きを共通の方位で取り扱うことができない。例えば、cam1の画像上で向きが0°と推定されたオブジェクトA1とcam2の画像上で向きが0°と推定されたオブジェクトA2とは、フィールド上では同じ向きとならず、各カメラcam1,cam2の視線方向の差に応じた角度差が生じる。
【0062】
一方、本実施形態では各カメラの視線方向が既知なので、これ以降の説明では、各カメラの視線方向を基に各オブジェクトの向き推定結果を較正することで、前記オブジェクト向き推定部3が推定する向きとフィールド上での向きとが一致しているものとして説明を続ける。
【0063】
候補ベクトル算出部502は、前記n+1個のID指向方向を基に各ID指向方向を表すn+1個の候補ベクトルを算出する。カメラ評価部503は、オブジェクトごとに前記n+1個の候補ベクトルを基に各カメラを評価する。
【0064】
本実施形態では、前記カメラ評価部503によるカメラの評価のアプローチとして、以下に詳述する2種類の方法、「候補ベクトルを統合する方法」および「各カメラに対してスコア付けを行う方法」のいずれかを採用できる。
【0065】
方法A.[候補ベクトルを統合する方法]
オブジェクトごとに得られたn+1個の向き推定結果を基に最終的に一つの向きを決定する際に、n+1個の向きの平均を求めただけでは、図8に示したように、推定値が大きく外れた候補ベクトル(図8では、「カメラ4による候補ベクトル」)が含まれていた場合に、推定結果が当該外れ値に強く影響されてしまい、推定精度が低下する。
【0066】
このような外れ値が少数現れる場合は、向き推計結果が誤りである可能性が高く、特に、遮蔽が生じている可能性の高いカメラからの推定結果である可能性が高い。そこで、本実施形態ではこのような外れ値を排除すべく、以下に詳述するように、各候補ベクトルを所定の条件下で統合し、これを繰り返すことで最終的に一つの候補ベクトルを獲得するようにしている。
【0067】
図9,10は、候補ベクトルの統合方法を示した図であり、図11,12は、その手順を示したフローチャートである。
【0068】
ステップS1では、オブジェクトごとに各指向方向がベクトル化されて候補ベクトルが計算される。ステップS2では、指向方向の近い候補ベクトルを統合する際の閾値(統合閾値)θthが定義される。ステップS3では、各候補ベクトル間の角度∠(図8では、∠A~∠E)が計算される。
【0069】
ステップS4では、最も小さい角度θminを求め、この最小角度θminが前記統合閾値θthと比較される。最小角度θminが統合閾値θthを下回っていればステップS5へ進み、当該最小角度θminをなす2つの候補ベクトルが統合されて新たな一の候補ベクトルが生成される。図9の例では、∠Bが最小角度θminであり、かつ∠B<最小角度θminなので、「カメラcam2による候補ベクトル」と「カメラcam3による候補ベクトル」とを統合すべくステップS5へ進む。
【0070】
図12は、前記ステップS5における候補ベクトルの統合手順を示したフローチャートであり、ステップS101では、統合対象の2つの候補ベクトルに関して、次式(1)にしたがってスコアSiが算出される。ここで、iは候補ベクトルのインデックスであり、jはインデックスiの候補ベクトルを算出するのに用いたカメラのインデックスである。
【0071】
Si=Ri × (1-Oj) …(1)
【0072】
Riは前記各方向推定結果の信頼度であり、Ojは遮蔽度である。ただし、移動ベクトルから求めた指向方向定のように遮蔽度を考慮できない推定結果に関しては Ojを定値としてよい。
【0073】
ステップS102では、前記スコアSの計算結果を基に、統合により新たに生成する一の候補ベクトルの指向方向を決定するための角度分割が実施される。本実施形態では、図9に示したように、統合される一方の候補ベクトルのスコアをS1、他方の候補ベクトルのスコアをS2としたとき、これら2つの候補ベクトルが挟む角度∠Bが、一方の候補ベクトル側から他方の候補ベクトル側にS2:S1の比で分割した角度が新しい統合ベクトルの指向方向とされる。
【0074】
図9では、統合される一方の候補ベクトル(カメラ2の候補ベクトル)のスコアS2が0.4であり、他方の候補ベクトル(カメラ3の候補ベクトル)のスコアS3が0.6なので、∠Bが一方側から他方側に0.6:0.4の割合で分割される。
【0075】
ステップS103では、当該分割された角度が統合後の新たな候補ベクトルの指向方向となり、新しいインデックスi(ここでは、i=6)が付される。ステップS104では、統合後の新たな候補ベクトルのスコアS6が、前記統合された2つの候補ベクトルのスコアの和(=S2+S3)として計算される。
【0076】
図11へ戻り、2つの候補ベクトルの統合が完了するとステップS3へ戻り、前記統合により生じた新たな候補ベクトルを含めて上記の各処理が、前記ステップS4において統合閾値θthを下回る角度が存在しなくなるまで繰り返される。図10に示したように、統合閾値θthを下回る角度がなくなるとステップS6へ進む。
【0077】
ステップS6では、当該時点でスコアSの最も大きい候補ベクトルの指向方向が最終的なID指向方向として確定される。ステップS7では、前記確定したID指向方向を基に当該IDの認識に用いるカメラが選定される。
【0078】
本実施形態では、確定したID指向方向に最も近い角度のカメラ1台を選択してもよいし、ID指向方向から±φ度の角度範囲内に存在するカメラを全て選定するようにしても良い。複数台のカメラが選ばれた場合には、後に詳述するように、認識尤度の高い一方のカメラから取得した認識結果が最終的な一つの識別結果とされる。
【0079】
また、ID指向方向が確定しても、必ずしも当該指向方向に正対するカメラが存在するとは限らない。このような観点から、IDの指向方向に正対する角度と実際のカメラの角度がどれだけ離れているかを計算しておき、後段のオブジェクト識別部の計算の際の尤度に組み込んでもよい。
【0080】
B.[各カメラに対してスコア付けを行う方法]
上記の方法Aでは、各候補ベクトルに対してスコア付けを行ったが、本方法Bでは、各カメラにスコア付けを行う点に特徴がある。方法Bでは、候補ベクトルと正対する方向を向くカメラが最も認識に適しているカメラであるという観点から、候補ベクトルごとに、正対するカメラのスコアが最大となるスコア付けを順次に行う。
【0081】
図13は、本方式Bによる各カメラのスコア付け方法を示した図であり、図14は、その手順を示したフローチャートである。
【0082】
ステップS21では、注目する一の候補ベクトルが選択される。ステップS22では、スコア計算対象のカメラが選択される。ステップS23では、次式(2)にしたがって当該カメラの評価値Piが計算される。本実施形態では、正対しているカメラであるか否かを評価する指標として内積に着目し、内積値の小さいカメラほど、よりスコアが高くなる関数を採用している。
【0083】
Pi=Ri×((1-Oj)×(-cos(Φi-C)) …(2)
【0084】
ここで、Riは前記各向き推定結果の信頼度であり、Ojは遮蔽度である。Φiは注目する候補ベクトルの指向方向であり、Cはカメラの向いている方向を表している。cos部分の計算は内積値の計算を行うことを意味しており(ここでは、各ベクトルは単位ベクトルであるという前提で計算している)、正対する方向であればあるほど望ましいという観点から、内積としては-1となるケースが最も望ましいため、cosの頭にマイナスを付与することで正の値に変換している。
【0085】
ステップS24では、前記スコアPiが注目カメラの総スコアΣPiに加算されて当該総スコアΣPiが更新される。ステップS25では、全てのカメラに関して今回の候補ベクトルに関するスコア付けが完了したか否かが判断される。完了していなければステップS22へ戻り、スコア計算対象のカメラを切り換えて上記の各処理が繰り返される。
【0086】
その後、今回の候補ベクトルに関して全てのカメラに対するスコア付けが完了するとステップS26へ進む。ステップS26では、全ての候補ベクトルに関して各カメラへのスコア付けが完了したか否かが判断される。完了していなければステップS21へ戻り、注目する候補ベクトルを切り換えながら上記の各処理が繰り返される。
【0087】
全ての候補ベクトルに関して各カメラへのスコア付けが完了するとステップS27へ進み、各カメラの総スコアΣPを基に推奨カメラが選定される。推奨カメラは、総スコアΣPが最も大きい一つのカメラのみを選定しても良いし、所定の閾値を超えた全てのカメラを選定しても良い。あるいは、上位Nベストのカメラを選定するようにしても良い。
【0088】
なお、上記の説明では、注目した候補ベクトルごとに全てのカメラを対象にスコアを計算するものとして説明したが、本発明はこれのみに限定されるものではなく、予め候補ベクトルごとに、スコアが高いと予測される一部のカメラを前記内積計算等により事前に選定しておいても良い。
【0089】
その場合、当該事前選定されたカメラのみを対象に上記のスコア付けを行うこととし、図13に示したように、カメラごとに得られるスコアのうち、同一カメラについて得られたスコアは加算し、最終的に総スコアが最大となるカメラを選定しても良い。
【0090】
オブジェクト識別部6は識別領域抽出部601を含み、当該識別領域抽出部601が抽出した識別領域を対象にID認識を実行し、各オブジェクトをIDの認識結果を基に識別する。
【0091】
識別領域の抽出対象とされる画像は、前記カメラ選定部5が選定したカメラが映し出すオブジェクトの画像であり、カメラ選定部5が複数のカメラを選択したオブジェクトについては、各カメラ映像から識別領域がそれぞれ抽出される。識別領域は、背番号をIDとするのであれば背番号部分、車のナンバープレートをIDとするのであればナンバープレートの部分である。
【0092】
図15は、IDが背番号である場合の識別領域の抽出方法を示した図であり、オブジェクトの向き推定で使用された全身画像から背番号部分が抽出される。
【0093】
識別領域の抽出方法には、人物の骨格情報を基に識別領域を抽出する方法、対象オブジェクトの画像の上半分などの予め決められた領域を抽出する手法、識別領域を抽出するために再度深層学習等を行って抽出する方法、作成した対象オブジェクトの視体積を各カメラ映像に逆投影した際にできるシルエットの重心位置の情報を基に抽出する方法などがある。ここでは、人物の骨格情報を基に識別領域を抽出する例を説明する。
【0094】
特許文献5には、画像のみから人物のボーン(骨格)を計算できる技術が開示されており、この技術を対象オブジェクトに適用することで、概ね各部位の位置を知ることができる。背番号であれば、概ね腰の位置が分かれば背番号部分を高精度に抽出することができる。
【0095】
また、カメラ選定部5のID指向方向計算部501が最終的に計算したID指向方向とカメラの向いている方向との間に角度のズレがある場合は、この角度をパラメータとして、抽出された識別領域部分の画像にアフィン変換等を行うなどの画像処理を行い、IDの認識精度を向上させる機能を追加しても良い。
【0096】
オブジェクト識別部6が、前記抽出された識別領域を対象にID認識を実行する方法としては、非特許文献1に記載されるように、機械学習を用いて背番号の認識を行う手法がある。背番号認識に機械学習を採用する場合は、背番号の映った画像を入力すると、予測した認識結果(背番号が何番であるかという推測結果)を取得できるモデルを作成する必要があるため、最初に学習画像を用いて背番号認識用のモデルの生成を行う。
【0097】
このモデルの作成は、予め行っておくことが望ましい。例えば大量の学習画像を用意し、畳み込みニューラルネットワークを用いて背番号認識用のモデルを作成する。学習画像の生成については、背番号が映っている画像を大量に用意して正解ラベルを手動で付与してもよいし、任意の背景画像に数字の入ったフォントによる文字等を重ねて、人工的に学習画像を生成してもよい。後者の方法は自動で正解ラベルの付与された学習画像を生成できるため、手動で正解ラベルを割り付ける必要がなく効率的である。
【0098】
また、初めからフォントを回転させたり、歪ませたり、サイズの調節をしてさまざまな学習画像を生成しておけば、抽出された画像の背番号が多少斜めを向いていたり、綺麗に切り取られていなくても、精度の高い認識が可能となる。
【0099】
また、モデルの生成方法は畳み込みニューラルネットワークを用いる方法に限定されず、背番号の認識が可能であればテンプレートマッチングのようなアプローチや、画像の特徴量とSVMとを組み合わせて学習させた学習器を用いて識別を行うなどの手法を取ってもよい。
【0100】
なお、前記カメラ選定部で2つ以上のカメラが選定されたために2以上の識別領域が抽出され、それぞれに対してID認識を実行した結果、同一の認識結果が得られていれば良いが、例えば一方のカメラの認識結果が「38」、他方のカメラの認識結果が「39」といったように、認識結果に食い違いの生じる可能性がある。
【0101】
この場合、より正しい認識結果を選択するためのアプローチとして、背番号の認識を行う際に、例えば畳み込みニューラルネットワークで背番号を認識するのであれば、背番号認識用のモデルの出力層の活性化関数にsoftmax関数を用いることで、認識結果の確率を算出することができる。
【0102】
同様に、テンプレートマッチングやSVMなどであっても、認識結果ごとに尤度を算出することが可能である。よって、得られる尤度を基に、複数のカメラで結果が食い違う場合に、最終的に一つのIDを決定するような機能を具備していてもよい。
【0103】
加えて、複数のカメラが選択されたために2以上のID認識結果が得られた場合、その尤度計算に前記オブジェクト遮蔽度計算部4が計算した遮蔽度Ojを反映させてもよい。例えば、遮蔽の生じる可能性が高いカメラからのID認識の結果は誤る可能性が高いため、その尤度を遮蔽度Ojに応じて低下させることで、なるべく採用されないようにする措置を講じることができる。
【0104】
この処理には、オブジェクト向き推定部3での尤度計算の際に用いた遮蔽度Ojをそのまま用いても良いし、識別領域抽出部601が抽出した識別領域に対する遮蔽度Ijを新たに計算し直しても良い。
【0105】
例えば、識別領域抽出部601が抽出した背番号部分と推定される画像領域部分のみに対して、オブジェクト遮蔽度計算部4が視体積を逆投影した際の重なり度を求めることによって、抽出された背番号領域がどれだけ遮蔽されているかという遮蔽度Ijを計算できる。
【0106】
結果出力部7は、前記オブジェクト位置推定部2が推定した各オブジェクトのフレーム画像上の位置座標と、前記オブジェクト識別部6が識別した当該オブジェクトのIDとを対応付けてID認識の結果表示を行う。
【0107】
結果表示の方法には様々あり、コンソール上に各オブジェクトの位置座標およびIDを数値として表示させるだけでもよいが、図15に一例を示したように、各オブジェクトの位置に当該オブジェクトのIDを紐付けてグラフィカルに平面マップとして表示しても良い。
【0108】
図16では、サッカーフィールドの半面を模した背景の上に、各オブジェクト(選手)の位置座標を示す丸型マーカを配置すると共に、各マーカ上に背番号を示すIDを重ねて表示している。
【0109】
このような平面マップを、映像のフレームごとに出力して動画的に動かすような表示方法も可能である。また、この表示の際に、例えば画像からユニフォームの色の情報を取得することで選手の所属チームを判断し、その結果でマーカの色を変化させて平面マップに反映させてもよい。さらに、色情報を基に審判と判定されたオブジェクトについては、選手ではないと判断して結果の表示から除外したり、あるいはIDを付さないことで視覚的に審判であると容易に判別できるようにしても良い。
【符号の説明】
【0110】
1…カメラ映像取得部,2…オブジェクト位置推定部,3…オブジェクト向き推定部,4…オブジェクト遮蔽度計算部,5…カメラ選定部,6…オブジェクト識別部,7…結果出力部,301…オブジェクト画像取得部,302…分類部,303…移動ベクトル計算部,304…信頼度取得部,501…ID指向方向計算部,502…候補ベクトル算出部,503…カメラ評価部,601…識別領域抽出部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16