【文献】
長瀬琢也 小沢慎治,多視点映像を用いたサッカーにおける選手のプレー判定,映像情報メディア学会誌,日本,(社)映像情報メディア学会 THE INSTITUTE OF IMAGE INFORMATION AND TELEVISION ENGINEERS,2006年10月01日, 第60巻第10号,p1664-1671
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0016】
図2は、一実施形態に係る検出装置の機能ブロック図である。
図2に示す通り、検出装置10は、第一取得部1、第一検出部2、第二取得部3及び第二検出部4を備える。検出装置10は、その全体的な動作として次の第一動作及び第二動作を行うことができる。第一動作においては、入力としての第一画像を第一取得部1及び第一検出部2で受け取り、第一検出部2より当該第一画像における検出結果(第一画像内において対象の占める範囲及び当該対象の種別の検出結果)を出力する。第二動作においては、入力としての第二画像を第二取得部3及び第二検出部4で受け取り、第二検出部4より当該第二画像における検出結果(第二画像内において対象の占める範囲及び当該対象の種別の検出結果)を出力する。
【0017】
一実施形態(以降での説明のため実施形態EAとする)において、検出装置1は、前述の第一動作を行ったうえで、第一動作において得られた情報(第一検出部2で得られた検出結果から、対象の占める範囲としての第一領域の情報)を利用することによりさらに、前述の第二動作を行うことができる。別の一実施形態(以降での説明のため実施形態EBとする)においては、検出装置1は、前述の第一動作のみを行い、第二動作は行わないようにすることもできる。この場合、検出装置10は第二取得部3及び第二検出部4が省略され、第一取得部1及び第一検出部2のみを備える構成とすることができる。
【0018】
なお、検出装置10への入力としての第一画像及び第二画像は、次のような関係を有するものとして用意しておくことができる。すなわち、
図2にも示す通り、ある多視点画像(共通時刻における共通のシーンを互いに異なる配置(視点)のカメラでそれぞれ撮影した複数の画像)における第一視点での画像が第一画像であり、第一視点とは別の第二視点での画像が第二画像である、という関係である。
【0019】
図3は、前述した模式例としての
図1の画像P(サッカー試合の映像の画像)のような画像を多視点画像の各視点におけるものとして撮影する場合を例として、多視点画像を撮影するためのカメラ配置の模式例を、視点数が4個の場合に関して示すものである。4つの各カメラC10,C20,C30,C40は、共通シーンとしてのサッカー試合が行われているフィールドFを互いに異なる配置(視点)で撮影している。なお、
図3にはフィールドFや各カメラC10,C20,C30,C40を上空側から見た状態が模式的に示されており、
図1で示した選手PLやボールB等の対象は描くのを省略している。各カメラC10,C20,C30,C40が共通時刻において共通シーンとしての当該フィールドFを撮影して得た画像をそれぞれ画像P10,P20,P30,P40とすると、これらの画像群(P10,P20,P30,P40)が、多視点映像における各時刻フレーム画像としての多視点画像を構成するものとなる。
【0020】
図2にも示される通り、検出装置1の各部1〜4の概略的な処理内容は以下の通りである。
【0021】
第一取得部1は、入力される第一画像P1において、前景としての動きがあると判定される領域を第一候補領域R1として取得する。当該取得された第一候補領域R1は、第一検出部2へと出力される。
【0022】
ここで、第一取得部1では、映像上の各時刻t(tは時刻インデクスであってt=1,2,3,…であり、説明のために注目する時刻としての現時刻をtとする。以下同様。)のフレーム画像としての第一画像P1(t)に対して、現時刻tの第一画像P1(t)と、1つ以上の過去時刻t-k(k≧1)の第一画像P1(t-k)とを参照することにより、現時刻tでの第一画像P1(t)内での前景として動きの情報を取得することによって、現時刻tにおける第一候補領域R1(t)を求めることができる。
【0023】
なお、第一候補領域R1(t)とは、第一画像P1(t)内での領域(連結領域)の個数としては任意の個数で構成されうるものである。このことは、第一検出部2に関して後述する第一画像内の第一領域に関しても、また、第二取得部3に関して後述する第二画像内の第二候補領域に関しても、同様である。
【0024】
第一検出部2は、第一画像P1(t)内を対象検出処理のために移動するものとして予め定義しておく各ウィンドウWに対して、各時刻tにおいて第一取得部1で得られた第一候補領域R1(t)が当該ウィンドウWの内部に含まれているようなウィンドウWのみを処理対象として、撮影されている対象の領域及び種別の検出処理を行うことにより、第一画像P1(t)の全体に対する、撮影されている対象の領域及び種別の検出結果を得る。
【0025】
このように、第一検出部2では、第一画像P1(t)内を移動するものとして予め定義される多数のウィンドウWの全てについて撮影されている対象の領域検出及び種別判定の処理を行うのではなく、第一候補領域R1(t)が含まれるようなウィンドウWのみに限定して当該処理を行うことにより、第一画像P1(t)内で撮影されている対象の分布がスパースである場合等に、当該処理を高速に完了することができる。この模式例は
図6を参照して後述する。
【0026】
実施形態EA(第一動作及び第二動作の両方が行われるもの)においては、第一検出部2で得た検出結果(すなわち、第一画像P1(t)内での撮影されている対象の領域及び種別の情報)から得られる対象の領域の情報を、第一領域D1(t)の情報として、第二取得部3へも出力される。
【0027】
第二取得部3は、各時刻tにて、入力される第二画像P2(t)において、第一検出部2から得られる第一領域D1(t)に対応する領域を第二候補領域R2(t)として取得する。当該取得された第二候補領域R2(t)は第二検出部4へと出力される。
【0028】
ここで、第二取得部3では、第一画像P1(t)を撮影している第一カメラに関して予め求まっている第一カメラパラメータと、第二画像P2(t)を撮影している第二カメラに関して予め求まっている第二カメラパラメータと、の間の関係として定まる、第一画像P1(t)内の画素位置(x1,y1)から第二画像P2(t)内の画素位置(x2,y2)への変換H(後述するホモグラフィー変換H)を第一領域D1(t)へと適用することにより、第一画像P1(t)内の第一領域D1(t)を第二画像P2(t)内の領域H(D1(t))へと写像し、当該写像された領域H(D1(t))に基づいて第二候補領域R2(t)を取得することができる。
【0029】
第二検出部4は、第一検出部2が第一画像P1(t)及び第一候補領域R1(t)を用いて行ったのと同様の処理を第二画像P2(t)及び第二候補領域R2(t)を用いて行うことにより、第二画像P2(t)の全体に対する、撮影されている対象の領域及び種別の検出結果を得ることができる。
【0030】
すなわち、第二検出部4は、第二画像P2(t)内を対象検出処理のために移動するものとして予め定義しておく各ウィンドウWに対して、各時刻tにおいて第二取得部3で得られた第二候補領域R2(t)が当該ウィンドウWの内部に含まれているようなウィンドウWのみを処理対象として、撮影されている対象の領域及び種別の検出処理を行うことにより、第二画像P2(t)の全体に対する、撮影されている対象の領域及び種別の検出結果を得ることができる。この模式例は第一検出部2の説明において
図6を参照して後述する。
【0031】
従って、第一検出部2に関して説明したのと同様の理由(全てのウィンドウWのうち一部のみが検出処理の対象となること)によって、第二検出部4においても、第二画像P2(t)内で撮影されている対象の分布がスパースである場合等に、当該処理を高速に完了することができる。
【0032】
図4は、一実施形態(第一動作及び第二動作の両方が行われる、前述の実施形態EAに対応する一実施形態)に係る検出装置10の動作のフローチャートである。
図4では、多視点映像の各時刻tの画像としての第一画像及び第二画像に対して検出処理を行う場合の各ステップが示されている。
【0033】
図4の各ステップの説明のための前提事項として、検出装置10による検出処理の対象となる多視点映像はN個(N≧2)の視点の各カメラC1,C2,…,CNでそれぞれ撮影されるものとして、各時刻tでの多視点画像P1(t),P2(t),…,PN(t)が構成されているものとし、これらのうちP1(t)を第一画像とし、残りのN-1枚のP2(t),…,PN(t)をそれぞれ、第二画像として用いるものとする。なお、検出装置10においては、このような一般のN個(N≧2)の視点による多視点画像P1(t),P2(t),…,PN(t)のうちの、任意の1個の視点の画像を第一画像とし、残りのN-1個の視点の画像をそれぞれ第二画像として用いるものとして、予め設定しておくことができる。ここでは説明のための変数表記(P1(t),P2(t),…,PN(t))を割り当てる必要があることにより、一般性を失うことなく、このように任意に設定しうる1個の視点の画像としてP1(t)を第一画像とし、それ以外のN-1個の視点の各画像P2(t),…,PN(t)を第二画像としているに過ぎない。
【0034】
また、当該変数表記の割り当ては、前述の各部1〜4の概略説明において第一画像をカメラC1による画像P1(t)とし、第二画像をカメラC2による画像P2(t)としたこととも表記を整合させたものである。すなわち、概略説明で述べた第二画像として処理されるものは必ずしも1つのカメラC2における画像のみである必要はなく、以下に
図4を参照して説明する通り、その他のカメラC3,…CN(第一画像のカメラC1は除く)における画像が追加で存在してもよい。
【0035】
図4のフローが開始されるとまずはステップS10へと進む。ステップS10では、検出装置10が、入力データとしての現時刻tの多視点画像P1(t),P2(t),…,PN(t)を取得してから、ステップS12へと進む。ステップS12では、ステップS10で入力として取得した現時刻tの多視点画像のうち第一画像P1(t)に対して、第一取得部1及び第一検出部2が概略説明にて説明した通りの処理を行うことにより、第一画像P1(t)内において撮影されている対象の領域及び種別の検出を行ってから、ステップS14へと進む。
【0036】
ステップS14では、ステップS10で入力として取得した現時刻tの多視点画像のうち第二画像Pn(t)(n=2,3,…,Nのいずれか)において検出処理が未完了の1つ(これを、第二画像Pn(t)とする)に対して、第二取得部3及び第二検出部4が概略説明にて説明した通りの処理を行うことにより、第二画像Pn(t)内において撮影されている対象の領域及び種別の検出を行ってから、ステップS16へと進む。
【0037】
なお、概略説明でも説明した通り、ステップS14で第二画像Pn(t)に対して検出処理を行う際には、ステップS12で第一検出部2で得た検出結果のうちの第一領域D1(t)の情報を第二取得部3が参照したうえで、第二取得部3及び第二検出部4による処理が行われる。
【0038】
ステップS16では、現時刻tに関して、インデクスn(n=2,3,…,N)でそれぞれが特定されるN-1個の第二画像Pn(t)の全てに関して、ステップS14における検出理処理が完了したか否かの判断を行い、N-1個の全てについて完了していれば(すなわち、肯定判断であれば)ステップS20へと進み、未完了のものが残っていれば(すなわち、否定判断であれば)ステップS18へと進む。
【0039】
ステップS18では、現時刻tに関して、インデクスn(n=2,3,…,N)でそれぞれが特定されるN-1個の第二画像Pn(t)のうち、ステップS14での処理が未完了の1つを選択したうえで、ステップS14へと戻る。当該戻ったステップS14においては、ステップS18で処理が未完了として選択された第二画像Pn(t)を処理対象として、検出処理が行われることとなる。
【0040】
なお、ステップS18からステップS14へと戻るのではなく、ステップS12からステップS14へと至った時点ではN-1個の第二画像Pn(t)の全てが検出処理が未完了の状態であるので、任意の1つを検出対象とすればよい。各時刻tに関してステップS14の処理がN-1個の第二画像Pn(t)のそれぞれを対象としてN-1回だけ実行されることとなるが、当該実行される順番(nの順番)は予め設定しておき、ステップS18では当該設定された順番に従う設定を行うようにしてもよい。例えば昇順に、n=2,3,…,Nと順番を設定してもよい。
【0041】
ステップS20では、現時刻tに関してステップS12で得られた第一画像P1(t)における検出結果と、N-1回だけ実行されたステップS14で得られた第二画像Pn(t)(n=2,3,…,N)における検出結果と、を入力された多視点画像P1(t),P2(t),…,PN(t)の全体に対する検出結果として検出装置10が出力したうえで、ステップS22へと進む。ステップS22では、現時刻tを次の最新時刻t+1へと更新したうえでステップS10へと戻る。
【0042】
以上のようにして、
図4のフローにより、各時刻t=1,2,3,…における多視点映像のフレームとしての多視点画像P1(t),P2(t),…,PN(t)に関して、ステップS20において検出結果を出力するようにすることができる。
【0043】
以下、検出装置10の各部1〜4における処理内容の詳細を説明する。
【0044】
<第一取得部1>
第一取得部1では、多視点画像P1(t),P2(t),…,PN(t)における「ベース視点」としての役割を有した第一画像P1(t)より、前景領域を取得する。例えば
図1の模式例のようなサッカー映像の場合であれば、複数の選手PL及びボールBといった領域が前景領域として取得される。
【0045】
なお、ベース視点とは、既に説明した内容における次の技術的意義に関する用語である。すなわち、実施形態EAにおいて、当該ベース視点である第一画像P1(t)における第一領域D1(t)の情報が第二取得部3に参照されることで、ベース視点以外の第二画像Pn(t)(n=2,3,…,N)において第二候補領域R2(t)として検出対象の絞り込みを可能にするという点で、第一画像は第二画像の検出処理の前提となることから、ベース視点として称している。
【0046】
具体的に、第一取得部1では既存手法である背景差分法により、前景領域としての第一候補領域R1(t)を取得することができる。例えば、前掲の非特許文献4に開示される混合正規分布を用いた背景差分法を利用して、動いている対象を前景として分離することができる。すなわち、非特許文献4等の手法では、背景が風などで揺れる、太陽の位置や雲の動きにより照明環境が変化する、といった問題に対して、混合正規分布(Mixture of Gaussian Distribution, MoG)を用いた背景のモデル化などによる対処が可能となる。MoGは新たに観測された画像を用いて逐次的に背景モデルを更新することから、太陽の位置の変化のような、ゆっくりとした照明環境の変化にも対処できる。
【0047】
図5は、
図1で模式例を示したサッカー映像としての第一画像に当該MoGによる背景差分法を適用することで、選手及びボールが前景として抽出された例であり、前景ピクセルを白色で、背景ピクセルを黒色で示している。
【0048】
<第一検出部2>
第一検出部2では、第一画像P1(t)内を移動するものとして予め定義しておく各ウィンドウW(スライディングウィンドウ)のうち、第一取得部1で前景として取得された第一候補領域R1(t)が当該ウィンドウW内に含まれるようなウィンドウWのみに限定して、既存手法である前掲の非特許文献2に開示されるYOLO等の検出器(ウィンドウ内での撮影されている対象の領域及び種別の検出器)を適用することで、第一画像P1(t)の全体における検出結果としての対象の領域及び種別の検出結果を得る。
【0049】
図6は、第一検出部2による処理の模式例を[1]〜[4]と分けて示す図である。[1]は、YOLO等の検出器を適用するために画像内に予め定義しておくウィンドウWの例であり、ここでは模式例として、画像全体の領域を横に8分割、縦に3分割した合計24個のウィンドウ例が示されている。[2]は、
図5と同様の前景抽出結果の例であるが、
図6による説明における視認性の確保の観点から、背景を白ピクセルとし前景を黒ピクセルとして、
図5とは逆の表現で示している。[3]は、[2]の前景抽出結果に[1]で定義しておいた所定のウィンドウを割り当てたものであり、[4]は、当該[3]で割り当てられたウィンドウのうち、前景が存在することでYOLO等の適用対象となる6個のウィンドウを灰色で示したものである。
【0050】
図6の[4]に見て取れる通り、第一検出部2においては合計24個のウィンドウの全てに対してYOLO等の検出器を適用することなく、前景が存在する6個のウィンドウのみが当該検出器の適用対象となる(すなわち、残り18個のウィンドウは適用対象外となる)ことで、画像内のスパースな対象に関して、高速に検出を行うことができる。
【0051】
なお、
図6の例は、予め定義しておくウィンドウWの例として、画像全体の領域を縦横に分割することで、異なるウィンドウ同士に重複がない場合の例であるが、ウィンドウに関しては所謂スライディングウィンドウとして、異なる位置にあるウィンドウ同士に重複が存在するものを用いるようにしてもよい。例えば、ウィンドウWのサイズを
図6と同じ横8分割と縦3分割のものとして定義して、スライド幅に関しては
図6のように横及び縦のウィンドウ幅全体をそのまま用いるのではなく、横及び縦の両方に関してウィンドウ幅の半分に設定するといったことも可能である。この場合、
図6と同じウィンドウWのサイズで隣接ウィンドウ同士はウィンドウ幅の半分の重複を有しているものとして、横に8×2-1=15ステップと、縦に3×2-1=5ステップと、の合計15×5=75箇所の位置にウィンドウをスライドさせることができる。その他にも、既存の任意の画像内探索のためのウィンドウのスライド方式(例えばテンプレートマッチング等において利用されているもの)に即したウィンドウWの定義を利用してよく、例えば、画像の端ではウィンドウの一部が画像の外部に出ることを許容するようにしてもよい。
【0052】
第一検出部2では、YOLO等の検出器を適用することでウィンドウW(前景が存在するウィンドウW)内での対象の領域及び種別の情報を取得できる。(ここで、種別の情報に関しては、例えば「種別:人、信頼度:0.8」といったように、種別及びその信頼度数値のペアの情報として取得することができる。)さらに、当該取得したウィンドウW内での相対的な位置領域の情報に対して、当該ウィンドウWが第一画像P1(t)内で占めている位置の情報を加味することにより、第一画像P1(t)内での検出された対象の領域の情報を得ることができる。
【0053】
図7は、第一検出部2が上記のようにウィンドウW内での相対座標値として検出した領域から、当該領域を、第一画像P1(t)全体内での座標値に換算することを説明するための図である。
【0054】
図7では、第一画像P1(t)内のj番目のウィンドウW(j)に対して第一検出部2が検出を行い、矩形領域Obj-1(i)としてi番目の対象の領域が検出されたことが示されている。この場合、矩形領域Obj-1(i)の領域の情報は、
図7中に黒点(●)で示される、その左上の頂点(x
r1(i),y
r1(i))及び右下の頂点(x
r2(i),y
r2(i))の、2つの座標値によって表現することができる。これら2つの座標値は当該ウィンドウW(j)の左上頂点を原点(基準位置)とした、ウィンドウW(j)内での相対座標値として得られている。一方、当該ウィンドウW(j)は、その左上頂点(
図7中に黒丸(●)で示される左上頂点)の第一画像P1(t)内での位置座標が(x
w1(i),y
w1(i))となるような位置にあるものである。
【0055】
従って、第一検出部2では以下の式(1A)〜(1D)によって、検出された対象であるi番目の矩形領域Obj-1(i)を表現するウィンドウW(j)内の左上及び右下の2点の相対座標値(x
r1(i),y
r1(i))及び(x
r2(i),y
r2(i))を、画像P1(t)全体内での当該2点の絶対座標値(x
11(i),y
11(i))及び(x
12(i),y
12(i))へと変換することで、画像P1(t)全体内での領域検出結果を得ることができる。
x
11(i)=x
r1(i)+x
w(j) …(1A)
y
11(i)=y
r1(i)+y
w(j) …(1B)
x
12(i)=x
r2(i)+x
w(j) …(1C)
y
12(i)=y
r2(i)+y
w(j) …(1D)
【0056】
ここで、
図7中にも示されるように、画像内(ウィンドウ内も含む)の座標軸の方向は、相対座標及び絶対座標のいずれにおいても、横方向に関して右向きを+x(x座標が増加する方向)とし、縦方向に関して下向きを+y(y座標が増加する方向)とする。これは、以降に説明するその他の座標に関しても同様である。
【0057】
なお、第一検出部2で得られる画像P1(t)内の第一領域D1(t)の情報は、検出された全ての対象の領域Obj-1(i)(i=1,2,…,M;Mは検出された領域の総数)に関しての、上記2点の絶対座標値(x
11(i),y
11(i))及び(x
12(i),y
12(i))を与えることにより、表現することが可能である。なお、第一領域D1(t)の情報は、このように矩形(検出対象をその内部に含む矩形)として検出された各対象の領域Obj-1(i)をそのまま用いるのではなく、所定割合だけ拡大したものを用いるようにしてもよい。拡大させることにより、第二取得部3に関して次に説明する第二候補領域Rn(t)(n=2,3,…,N)もマージン(余裕)を有したものとして取得し、後述する変換H
n,1に誤差がある場合であっても、第二画像における検出をより確実なものとすることができる。
【0058】
なお、
図7ではさらに、白点(○)として、ウィンドウW(j)内の矩形領域Obj-1(i)の左下頂点の相対座標(x
r1(i),y
r2(i))が示されている。これは、後述する
図8等との関係で、参考として示すものである。当該左下頂点の相対座標(x
r1(i),y
r2(i))も上記の式(1A),(1D)により、画像内での絶対座標(x
11(i),y
12(i))へと変換することが可能である。
【0059】
<第二取得部3>
第二取得部3では、第一画像P1(t)に関して第一検出部2で検出されている第一領域D1(t)の情報に対して、第一画像P1(t)の画素座標から第二画像Pn(t)(n=2,3,…,N)の画像座標への所定のホモグラフィー変換H
n,1を適用することにより、第二候補領域Rn(t) (n=2,3,…,N)を取得する。
【0060】
図8は、第二取得部3で第二候補領域Rn(t)(n=2,3,…,N)を取得する一実施形態を説明するための図である。[1]に示すように第一画像P1(t)において検出された対象の矩形領域を領域Obj-1(i)とする。(すなわち、第一領域D1(t)の情報は、検出された全ての対象についての領域Obj-1(i)の情報である。)
図8の[1]の領域Obj-1(i)は、
図7で示した領域Obj-1(i)と同じであり、画像P1(t)内での絶対座標として、矩形領域Obj-1(i)の下方(+y方向)側の水平方向の一辺の両端である、左下頂点(○)及び右下頂点(●)がそれぞれ、座標(x
11(i),y
12(i))及び(x
12(i),y
12(i))として示されている。
【0061】
第二取得部3では、
図8の[2]に模式的に示すようにホモグラフィー変換H
n,1を当該[1]の矩形領域Obj-1(i)の下方側の水平線分(その長さがLen
1(i)である)の両端点(x
11(i),y
12(i))及び(x
12(i),y
12(i))にそれぞれ適用することで、[3]に同じく白点(〇)及び黒点(●)として示すように、その第二画像Pn(t)上への変換した2点(x
n1L(i),y
n2L(i))及び(x
n2R(i),y
n2R(i))を求める。
【0062】
なお、当該変換はコンピュータグラフィックス分野等での数学として周知のように、当該座標を斉次座標で表現したサイズ3の列ベクトルに対する3行3列の行列H
n,1の乗算として、以下の式(2L),(2R)のように変換することができる。上付きのTは転置であり、斉次座標でのサイズ3の列ベクトルを表している。
(x
n1L(i),y
n2L(i),1)
T= H
n,1 *(x
11(i),y
12(i),1)
T …(2L)
(x
n2R(i),y
n2R(i),1)
T= H
n,1 *(x
12(i),y
12(i),1)
T …(2R)
【0063】
第二取得部3では、上記の式(2L),(2R)で得られる当該変換した2点がなす横方向(x方向)の幅によって横幅Len
n(i)=| x
n2R(i)-x
n 1L(i)|が定義されるものとして、[3]に示すような、第一画像P1(t)の矩形領域Obj-1(i)に対応する第二画像Pn(t)における矩形領域Obj-n(i)を求めることができる。こうして、検出された全ての対象iについての矩形領域Obj-n(i)の情報として、第二候補領域Rn(t)(n=2,3,…,N)の情報を得ることができる。
【0064】
上記の横幅Len
n(i)=| x
n2R(i)-x
n 1L(i)|と共に、画像の座標軸x,yに平行な辺を有するような矩形領域Obj-n(i)の情報のうち、そのx軸方向範囲としての右端側及び左端側が位置x
n2R(i)及びx
n 1L(i)(またはこの逆)として確定する。ここで、矩形領域Obj-n(i)の情報を確定させるためには、そのy軸方向範囲としての下端側の位置と上端側の位置とをさらに決定する必要があるが、以下のようにして決定することができる。
【0065】
<下端側の位置>
まず、第二画像Pn(t)における矩形領域Obj-n(i)に関して、下端側の位置は変換した2点(x
n1L(i),y
n2L(i))及び(x
n2R(i),y
n2R(i))のy座標のうち、y座標がより大きいものmax(y
n2L(i), y
n2R(i))として定義すればよい。
図8の[3]では、変換した結果としてmax(y
n2L(i), y
n2R(i))= y
n2R(i)となった場合が例として示されている。
【0066】
<上端側の位置>
さらに、第二画像Pn(t)における矩形領域Obj-n(i)に関して、上端側の位置は次のように決定すればよい。すなわち、第二画像Pn(t)における矩形領域Obj-n(i)のアスペクト比は、これに対応する第一画像P1(t)での矩形領域Obj-1(i)のアスペクト比と同一であるものとして、矩形領域Obj-n(i)の縦幅を決定することにより、矩形領域Obj-n(i)の上端側の位置も決定することができる。
【0067】
すなわち、矩形領域Obj-1(i)の縦幅をHeight
1(i)、矩形領域Obj-n(i)の縦幅をHeight
n(i)とすると、アスペクト比(縦横の長さ比)が等しいという以下の関係式(3)により矩形領域Obj-n(i)の縦幅Height
n(i)を決定することができる。
Len
1(i)/Height
1(i)=Len
n(i)/Height
n(i) …(3)
【0068】
なお、以上のような、
図8の手法による第二画像Pn(t)における矩形領域Obj-n(i)の決定の一実施形態は、次の事項を前提とすることで、平面同士の変換であるホモグラフィー変換H
n,1を立体領域に適用可能とさせたものである。
【0069】
第一前提は、第一画像P1(t)及び第二画像Pn(t)で検出されるべき対象(例えばサッカー選手)は全て、ホモグラフィー行列H
n,1の適用対象の平面としての空間内の共通平面(例えば
図1のサッカーフィールドFの平面)上に立って存在しているというものである。すなわち、当該共通平面から高さ方向に大きく乖離することなく、概ね当該平面上に立っているものとして存在しているというものである。
図8で説明した矩形下端側の2点の変換は、第一前提に基づく。(サッカー選手の例であれば、地面から離れた頭の位置はホモグラフィー変換により歪んだ位置に変換されてしまうが、地面に接している足の位置はホモグラフィー変換により、概ね地面に接した位置に変換される、というのが第一前提である。)なお、第一前提ではさらに、第一画像P1(t)及び第二画像Pn(t)では下方側(+y方向)が空間内の共通平面(地面など)に近い側にあるものとなるようなカメラ配置によって撮影されていることを前提としている。
【0070】
また、第二前提は、第一画像P1(t)及び第二画像Pn(t)で見た際の同一対象を囲う矩形は概ね同じアスペクト比になるというものであり、
図8のアスペクト比に基づく上端側位置の決定はこの第二前提に基づく。
【0071】
なお、各ホモグラフィー行列H
n,1は、地面等の共通平面上に配置したカメラキャリブレーション用のマーカー等(例えば正方マーカー)を利用することで、任意の既存手法によって予め算出しておくことができうる。固定カメラであれば固定パラメータとして行列H
n,1を用意しておいてもよい。移動カメラの場合、当該マーカーを用いたカメラキャリブレーションを各時刻において行うようにすればよい。
【0072】
<第二検出部4>
既に説明した通り、第二検出部4の処理は第一検出部2の処理内容と同じである。すなわち、処理対象としてのデータが、第一検出部2では第一画像P1(t)及びウィンドウ限定するために参照する第一候補領域R1(t)であったのに対し、第二検出部4では第二画像Pn(t)及びウィンドウ限定するために参照する第二候補領域Rn(t)であるという点で異なるのみであり、処理内容に関しては、第一検出部2及び第二検出部4は共通である。
【0073】
ただし、第二検出部4においては、次の追加的な実施形態を行うことも可能である。
【0074】
当該追加実施形態の意義をまず説明する。既に説明した通り、第二検出部4(及び第一検出部2)では、YOLO等の深層学習により事前に学習して構築された検出器を用いる。当該事前学習においては、標準的なサイズの画像において標準的な大きさで撮影されている対象に関してラベル付与した多数の学習データを利用する。従って、構築される検出器にも、検出信頼度を確保するという観点から、検出されるウィンドウ内の対象のサイズに関して、好ましい標準的なサイズというものが存在することとなる。すなわち、小さすぎればそもそも情報が少ないので、検出信頼度が下がるので、ある程度の大きさがあることが望ましい。
【0075】
しかしながら、
図1で説明したような撮影状況では、上記のようなある程度の大きさが確保できておらず、学習した検出器で所定の検出信頼度を確保して検出するには小さすぎることがある。従って、当該追加実施形態においては、小さすぎると判定される場合に、予め拡大したうえで、ウィンドウ内での検出器の処理を行うようにする。
【0076】
図9は、第二検出部4による拡大処理を説明するための図である。
図9の[1]は
図8の[3]に示した第二画像Pn(t)内の矩形領域Obj-n(i)をウィンドウW内のものとして示したものである。矩形領域Obj-n(i)が小さいと判定された場合、黒点(●)で示すその左上頂点(x
n1L(i),y
n1L(i))を拡大のための基準位置(固定位置)として、[2]に示すようにscale倍だけ拡大(相似拡大)することにより、拡大された矩形領域Obj-n'(i)を得ることができる。こうして、[2]に示すような拡大された対象としての矩形領域Obj-n'(i)を含むウィンドウWを検出器による検出対象とすればよい。
【0077】
なお、拡大のための基準位置は左上頂点以外の、当該矩形領域Obj-n(i)内の所定点を用いてもよい。なお、
図9に示す拡大しない場合の[1]に示すウィンドウW内の矩形領域Obj-n(i)以外の背景BGWと、拡大する場合の[2]に示すウィンドウW内のObj-n'(i)以外の背景BGW'とは、対応する第二画像Pn(t)に撮影されているテクスチャが存在しないものとして扱って、検出器の処理を行うようにしてもよい。
【0078】
第二検出部4による追加実施形態としての拡大処理における、拡大するかの否かの判断と、拡大する場合の拡大率scaleの算出とは、次のようにすればよい。
【0079】
まず、
図8の[1]に示した第一画像P1(t)での矩形領域Obj-1(i)の画素数すなわち面積S
1(i)を基準とした、
図8の[3]又は
図9の[1]の矩形領域Obj-n(i)の面積S
n(i)を以下のように求める。ここで、前述の第二前提の通りアスペクト比が等しいことから、以下(横幅の比Len
n(i)/Len
1(i)の2乗を乗ずること)の式(4)で面積を求めることができる。
S
n(i)= S
1(i)*(Len
n(i)/Len
1(i))
2 …(4)
【0080】
当該求めた面積S
n(i)が所定の閾値S
TH(検出器で検出される標準的なサイズに応じて定めることのできる所定の閾値)以下となった場合に、拡大処理を行う。拡大率scaleは以下の式(5A)の中間値「s
tmp」を算出したうえで、以下の式(5B),(5C)による場合分けによって計算すればよい。すなわち、中間値s
tmpが閾値TH未満となる場合は式(5B)を採用し、閾値TH以上となる場合は式(5C)を採用して、拡大率scaleを求めればよい。sqrt()は平方根演算であり、面積で判断したものを長さとしての拡大率scaleに変換するための演算である。
s
tmp= S
peak(c)/ S
n(i) …(5A)
scale=sqrt(s
tmp) (if s
tmp <TH) …(5B)
scale= sqrt(TH) (if s
tmp ≧TH) …(5C)
【0081】
上記(5B),(5C)においてTHは拡大率scaleを大きくしすぎないように予め設定しておく閾値である。(なお、閾値THは、面積S
n(i)に対する閾値S
THとは別のものである。)過剰に拡大すると画質悪化により検出の信頼度が下がる傾向があるので、このような閾値THを設定しておく。上記(5A)においてS
peak(c)は第一画像P1(t)での検出された矩形領域Obj-1(i)の種別c(例えば、c=サッカー選手、ボール、…)に応じた、検出信頼度が確保される所定の面積であるが、種別cによらない一定値を用いてもよい。種別cの情報は第一検出部2での検出結果を参照して取得すればよい。
【0082】
以上、本発明によれば、4K映像等において
図1のようなサッカー映像に検出対象としての選手等がスパースに、また、小さく存在している場合であっても、高速に検出を行うことが可能である。以下、本発明における追加実施形態等の補足説明を行う。
【0083】
(1)第二検出部4では上記の追加実施形態の通り、領域Obj-n(i)の面積S
n(i)が小さいと判定される場合にscale倍だけの拡大処理を行うことができる。これに対する代替実施形態及び/又は追加実施形態として、小さいと判定された場合であっても拡大処理をせずにそのまま検出器で適切に検出できるように、既に学習されている検出器の第一学習データにおける画像を縮小した第二学習データを新たに用意して、深層学習等により検出器を再学習させ、当該再学習した検出器を第二検出部4で利用するようにしてもよい。
【0084】
具体的には、元の学習データ(第一学習データ)の中にラベリングされた対象の領域(bounding box)から対象のサイズを算出し、事前に統計処理等によって取得した対象の最小サイズと比べて、複数レベルの対象サイズに縮小したものを追加した第二学習データを用いて、再学習するようにすればよい。例えば、統計処理でボールの最小サイズは100である場合に、第一学習データ内のある学習画像でラベリングされたボールの領域(bounding box)面積が400であったとする。この1つの学習画像に関して、1/4、1/3、1/2、1倍に縮小(1倍の縮小の場合は元のサイズのままとなる)して、4枚(うち3枚が実際に縮小された新たなもの)の学習画像を作る。同様の処理を、第一学習データ内のその他の学習画像にも適用することで、第二学習データを得ることができる。
【0085】
(2)第一検出部2及び第二検出部4では、YOLO等の検出器によって画像内の対象の領域及び種別を検出するが、領域と種別とのうちいずれか一方のみを出力するようにしてもよい。この際、内部処理としては領域及び種別を検出し、実際に利用する出力データとしては領域又は種別のいずれか一方のみを利用するようにしてもよい。ただし、第二取得部3及び第二検出部4が動作するためには、第一検出部2から(ユーザ等が利用するデータとして)外部出力しないとしても、第一検出部2から領域の情報(第一領域D1(t)の情報)を第二取得部3へ向けて出力する必要がある。なお、第一検出部2及び第二検出部4では、ウィンドウベースで高速に検出可能な検出器として、YOLOの他にも前掲の非特許文献3等に開示されるSSD等を用いてもよい。
【0086】
(3)前述の通り、本発明は実施形態EA(第一動作及び第二動作の両方が行われるもの)と、実施形態EB(第一動作のみが行われるもの)とが可能であるが、さらに、実施形態EAにおける第二動作のみを抽出した実施形態ECも可能である。実施形態ECにおいては、予め第一動作を完了しておくことで第一領域D1(t)を入力として利用すればよい。また、実施形態ECは次のものも可能である。すなわち、あるカメラ視点nの第二画像Pn(t)に関して既に検出結果としての第二領域Dn(t)が得られている場合に、別のカメラ視点m(m≠n,m≧2)の第二画像Pm(t)から検出結果として第二領域Dm(t)を得るための入力として、検出済みの第一領域D1(t)に代えて検出済みの第二領域Dn(t)を用いることも可能である。
【0087】
(4)本発明は、コンピュータを検出装置10として機能させるプログラムとしても提供可能である。当該コンピュータには、CPU(中央演算装置)、メモリ及び各種I/Fといった周知のハードウェア構成のものを採用することができ、CPUが検出装置10の各部の機能に対応する命令を実行することとなる。また、当該コンピュータはさらに、CPUよりも並列処理を高速実施可能なGPU(グラフィック処理装置)を備え、CPUに代えて検出装置10の全部又は任意の一部分の機能を当該GPUにおいてプログラムを読み込んで実行するようにしてもよい。