特許第6962662号(P6962662)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

<>
  • 特許6962662-検出装置及びプログラム 図000002
  • 特許6962662-検出装置及びプログラム 図000003
  • 特許6962662-検出装置及びプログラム 図000004
  • 特許6962662-検出装置及びプログラム 図000005
  • 特許6962662-検出装置及びプログラム 図000006
  • 特許6962662-検出装置及びプログラム 図000007
  • 特許6962662-検出装置及びプログラム 図000008
  • 特許6962662-検出装置及びプログラム 図000009
  • 特許6962662-検出装置及びプログラム 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6962662
(24)【登録日】2021年10月18日
(45)【発行日】2021年11月5日
(54)【発明の名称】検出装置及びプログラム
(51)【国際特許分類】
   G06T 7/238 20170101AFI20211025BHJP
【FI】
   G06T7/238
【請求項の数】6
【全頁数】18
(21)【出願番号】特願2018-170289(P2018-170289)
(22)【出願日】2018年9月12日
(65)【公開番号】特開2020-42608(P2020-42608A)
(43)【公開日】2020年3月19日
【審査請求日】2020年7月6日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】徐 建鋒
(72)【発明者】
【氏名】ラートニポンパン カノクパン
(72)【発明者】
【氏名】田坂 和之
【審査官】 岡本 俊威
(56)【参考文献】
【文献】 長瀬琢也 小沢慎治,多視点映像を用いたサッカーにおける選手のプレー判定,映像情報メディア学会誌,日本,(社)映像情報メディア学会 THE INSTITUTE OF IMAGE INFORMATION AND TELEVISION ENGINEERS,2006年10月01日, 第60巻第10号,p1664-1671
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/20− 7/277
(57)【特許請求の範囲】
【請求項1】
第一画像より動きのある領域として第一候補領域を取得する第一取得部と、
前記第一画像上で定義される各ウィンドウのうち前記第一候補領域が取得されたウィンドウのみに対して、対象の領域及び/又は種別を検出することで、前記第一画像の全体における対象の領域及び/又は種別を検出する第一検出部と、を備え
前記第一検出部では少なくとも対象の領域を検出し、
前記第一画像に撮影されているのと共通のシーンを別視点で撮影して得られる第二画像より、前記第一検出部で前記第一画像より検出された対象の領域に対応する領域として第二候補領域を取得する第二取得部と、
前記第二画像上で定義される各ウィンドウのうち前記第二候補領域が取得されたウィンドウのみに対して、対象の領域及び種別を検出することで、前記第二画像の全体における対象の領域及び種別を検出する第二検出部と、をさらに備え、
前記第二取得部では、前記第一画像より検出された対象の領域に対してホモグラフィー変換を適用することにより、前記第二候補領域を取得し、
前記第一画像及び前記第二画像は対象が所定平面上を移動しうるものとして撮影されており、
前記第二取得部では、前記第一画像より検出された対象の領域を囲う矩形のうち、前記所定平面に近い側の辺に対してホモグラフィー変換を適用して得られる前記第二画像上における辺を囲う矩形として、前記第二候補領域を取得することを特徴とする検出装置。
【請求項2】
第一画像より動きのある領域として第一候補領域を取得する第一取得部と、
前記第一画像上で定義される各ウィンドウのうち前記第一候補領域が取得されたウィンドウのみに対して、対象の領域及び/又は種別を検出することで、前記第一画像の全体における対象の領域及び/又は種別を検出する第一検出部と、を備え
前記第一検出部では少なくとも対象の領域を検出し、
前記第一画像に撮影されているのと共通のシーンを別視点で撮影して得られる第二画像より、前記第一検出部で前記第一画像より検出された対象の領域に対応する領域として第二候補領域を取得する第二取得部と、
前記第二画像上で定義される各ウィンドウのうち前記第二候補領域が取得されたウィンドウのみに対して、対象の領域及び種別を検出することで、前記第二画像の全体における対象の領域及び種別を検出する第二検出部と、をさらに備え、
前記第二検出部における対象の領域及び/又は種別の検出は、学習データを用いて深層学習により事前構築された検出器を適用することによってなされ、当該検出器における対象の標準サイズと比べて前記第二候補領域のサイズが小さいと判定される場合には、前記第二検出部は、対象の領域及び/又は種別を検出する前に当該第二候補領域を予め拡大したうえで、当該拡大した領域に対して対象の領域及び/又は種別を検出することを特徴とする検出装置。
【請求項3】
前記第一取得部では、背景差分法を適用することにより、前記第一候補領域を取得することを特徴とする請求項1または2に記載の検出装置。
【請求項4】
第一画像に対して、対象の領域が既に検出されており、
前記第一画像に撮影されているのと共通のシーンを別視点で撮影して得られる第二画像より、前記第一画像より検出された対象の領域に対応する領域として第二候補領域を取得する第二取得部と、
前記第二画像上で定義される各ウィンドウのうち前記第二候補領域が取得されたウィンドウのみに対して、対象の領域及び/又は種別を検出することで、前記第二画像の全体における対象の領域及び/又は種別を検出する第二検出部と、を備え
前記第二取得部では、前記第一画像より検出された対象の領域に対してホモグラフィー変換を適用することにより、前記第二候補領域を取得し、
前記第一画像及び前記第二画像は対象が所定平面上を移動しうるものとして撮影されており、
前記第二取得部では、前記第一画像より検出された対象の領域を囲う矩形のうち、前記所定平面に近い側の辺に対してホモグラフィー変換を適用して得られる前記第二画像上における辺を囲う矩形として、前記第二候補領域を取得することを特徴とする検出装置。
【請求項5】
第一画像に対して、対象の領域が既に検出されており、
前記第一画像に撮影されているのと共通のシーンを別視点で撮影して得られる第二画像より、前記第一画像より検出された対象の領域に対応する領域として第二候補領域を取得する第二取得部と、
前記第二画像上で定義される各ウィンドウのうち前記第二候補領域が取得されたウィンドウのみに対して、対象の領域及び/又は種別を検出することで、前記第二画像の全体における対象の領域及び/又は種別を検出する第二検出部と、を備え
前記第二検出部における対象の領域及び/又は種別の検出は、学習データを用いて深層学習により事前構築された検出器を適用することによってなされ、当該検出器における対象の標準サイズと比べて前記第二候補領域のサイズが小さいと判定される場合には、前記第二検出部は、対象の領域及び/又は種別を検出する前に当該第二候補領域を予め拡大したうえで、当該拡大した領域に対して対象の領域及び/又は種別を検出することを特徴とする検出装置。
【請求項6】
コンピュータを請求項1ないしのいずれかに記載の検出装置として機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば高解像度な多視点映像における画像に適用することに好適な、高解像度の画像であっても高速に画像内の対象を検出することが可能な検出装置及びプログラムに関する。
【背景技術】
【0002】
近年、深層学習(ディープラーニング)を用いて画像から物体のクラスを認識すると共に、画像内において物体が存在する領域(bounding box)をも推定する物体検出技術が開発されている。例えば非特許文献1では、2段階(two-stage)構造として、特徴マップを抽出する畳み込み層(Convolutional Layer)と物体候補領域を抽出するネットワーク(Region Proposal Network)に加え、分類、回帰の結果を出力するネットワークで構成された物体検出技術が開示されている。非特許文献1の手法は高精度な検出を実現したが、物体候補領域を抽出するネットワークの利用によって、計算が重くなることが問題であった。
【0003】
そこで、計算の高速化のため、2段階構造ではなく1つのネットワークのみで済む手法が提案されている。例えば、非特許文献2のYOLOv3(You Only Look Once version 3)では、画像をグリッドに分割して各領域ごとに1つのシンプルなネットワークで物体検出を行うことで、高速化を実現した。また例えば、非特許文献3のSSD(Single Shot Detector)では、同様に1つのシンプルなネットワークで物体検出を行ったが、さらにマルチスケール(multiscale)を導入することで、小さい物体の認識精度を向上させた。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. 2015. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems. 91-99.
【非特許文献2】Joseph Redmon and Ali Farhadi. 2018. YOLOv3: An Incremental Improvement. arXiv (2018).
【非特許文献3】Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg. 2016. SSD: Single shot multibox detector. In European conference on computer vision. Springer, 21-37.
【非特許文献4】C. Stauffer; W. Grimson (August 1999). Adaptive background mixture models for real-time tracking (PDF). IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2. pp. 246-252.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記のような高速且つ高精度な検出を実現する非特許文献2や3等の手法であっても、例えば4K画像のような高解像度の画像内に検出対象が小さくスパース(疎)に存在している場合に対して当該手法を適用すると、計算時間が大きくなってしまうという課題があった。
【0006】
図1は、当該課題が発生する画像の模式例として、サッカー映像における画像を示す図であるが、その他のスポーツ映像やその他のジャンルの映像においても同様の状況は発生しうる。図1にて、画像Pの全体には広大なサッカーフィールドFが鳥瞰的に撮影され、検出すべき対象の例として、ある1人のサッカー選手PLとボールBと(それぞれ、人型の形状及びドット形状として図示されている)が、当該画像P内のフィールドF上において非常に小さく、画像P内にスパースに存在するものとして撮影されている。なお、通常のサッカー映像ではその他の選手や観客席等のその他の対象(検出対象であるか否かは問わない)も画像P内に撮影されることとなるが、図1では模式例としてこれらその他の対象は省略している。
【0007】
図1にて、大きさの数値例として、画像Pは4K画像であってサイズが横4096画素×縦2160画素であるのに対し、選手PLを囲う矩形領域(bounding box)は横100画素×縦40画素程度であり、ボールBを囲う矩形領域は横10画素×縦10画素程度であって、画像Pの全体に対して非常に小さく、スパースに存在するものとなる。
【0008】
図1のような画像Pに対して非特許文献2や3の検出法をそのまま適用した場合の計算時間の数値例(本発明者らの確認によるもの)を挙げると次の通りである。すなわち、YOLOv3やSSDが想定している入力サイズ(例えばYOLOv3の場合、次に説明する通りの416×416サイズ)に合わせることなく、高解像度な画像Pを縮小せずにそのまま入力する場合を考える。計算機環境として例えばNVIDIA社のGTX 1080Tiを使うと、サイズが横416画素×縦416画素である1つのスライディングウィンドウ(Sliding Window)でYOLOを実行するのに要する時間が約25ms(ミリ秒)である。この場合、1枚の4K画像Pの全体に渡って当該スライディングウィンドウを適用し、YOLOを実行するのに要する時間は以下の計算式の通り、1278msとなり、映像としてリアルタイムに処理する場合を考えると、計算時間が大きい。
25ms×(4096画素×2160画素)÷(416画素×416画素)=1278ms
【0009】
なお、図1ではウィンドウWとして、画像P内に当該サイズ416×416であるスライディングウィンドウの模式的な一例が示されている。
【0010】
さらに、各画像Pが多視点映像のある1つの視点の画像である場合、当該多視点映像の全体(ある1時刻のもの)に対してYOLOを実行することを考えると、上記の1278msに多視点映像の視点数を乗じた分の計算時間が必要となってしまう。例えば、4つの視点からなる多視点映像であれば、1時刻フレームあたり4倍の5112msの計算時間が必要となり、映像としてリアルタイム処理することがより一層、厳しい状況となる。
【0011】
以上のように、従来技術においては、高解像度の画像内にある程度スパースに検出されるべき対象が存在しているような場合であっても、当該高解像度の分だけそのまま比例して、検出のための計算量が増えてしまうという課題があった。また、従来技術においてはさらに、画像が多視点画像におけるものである場合には同様に、視点数の分だけそのまま比例して、検出のための計算量が増えてしまうという課題があった。
【0012】
上記従来技術の課題に鑑み、本発明は、高解像度の画像であっても高速に画像内の対象を検出することが可能な検出装置及びプログラムを提供することを第一の目的とする。また、本発明はさらに、画像が多視点画像における各画像であっても高速に画像内の対象を検出することが可能な検出装置及びプログラムを提供することを第二の目的とする。
【課題を解決するための手段】
【0013】
上記目的を達成するため、本発明は、検出装置であって、第一画像より動きのある領域として第一候補領域を取得する第一取得部と、前記第一画像上で定義される各ウィンドウのうち前記第一候補領域が取得されたウィンドウのみに対して、対象の領域及び/又は種別を検出することで、前記第一画像の全体における対象の領域及び/又は種別を検出する第一検出部と、を備えることを第一の特徴とする。また、前記第一検出部では少なくとも対象の領域を検出し、前記第一画像に撮影されているのと共通のシーンを別視点で撮影して得られる第二画像より、前記第一検出部で前記第一画像より検出された対象の領域に対応する領域として第二候補領域を取得する第二取得部と、前記第二画像上で定義される各ウィンドウのうち前記第二候補領域が取得されたウィンドウのみに対して、対象の領域及び種別を検出することで、前記第二画像の全体における対象の領域及び種別を検出する第二検出部と、をさらに備えることを第二の特徴とする。また、本発明は、検出装置であって、第一画像に対して、対象の領域が既に検出されており、前記第一画像に撮影されているのと共通のシーンを別視点で撮影して得られる第二画像より、前記第一画像より検出された対象の領域に対応する領域として第二候補領域を取得する第二取得部と、前記第二画像上で定義される各ウィンドウのうち前記第二候補領域が取得されたウィンドウのみに対して、対象の領域及び/又は種別を検出することで、前記第二画像の全体における対象の領域及び/又は種別を検出する第二検出部と、を備えることを第三の特徴とする。さらに、前記第一〜第三の特徴に係る検出装置としてコンピュータを機能させるプログラムであることを第四の特徴とする。
【発明の効果】
【0014】
前記第一の特徴によれば、動きのある領域のみに限定してウィンドウによる検出処理を適用することで、高解像度の画像であっても高速に検出を行うことができる。前記第二又は第三の特徴によれば、第一画像に撮影されているのと共通のシーンを別視点で撮影して得られる第二画像より、第一画像で既に対象が検出された領域に対応する第二画像の領域のみに限定してウィンドウによる検出処理を適用することで、高解像度の画像であっても高速に検出を行うことができる。
【図面の簡単な説明】
【0015】
図1】課題が発生する画像の模式例を示す図である。
図2】一実施形態に係る検出装置の機能ブロック図である。
図3】多視点画像を撮影するためのカメラ配置の模式例を、視点数が4個の場合に関して示すものである。
図4】一実施形態に係る検出装置の動作のフローチャートである。
図5】第一検出部において混合正規分布モデルを用いた背景差分法を適用した結果の例である。
図6】第一検出部による処理の模式例を示す図である。
図7】第一検出部においてウィンドウ内で検出した相対位置を画像内での絶対位置に換算することを説明するための図である。
図8】第二取得部で第二候補領域を取得する一実施形態を説明するための図である。
図9】第二検出部による拡大処理を説明するための図である。
【発明を実施するための形態】
【0016】
図2は、一実施形態に係る検出装置の機能ブロック図である。図2に示す通り、検出装置10は、第一取得部1、第一検出部2、第二取得部3及び第二検出部4を備える。検出装置10は、その全体的な動作として次の第一動作及び第二動作を行うことができる。第一動作においては、入力としての第一画像を第一取得部1及び第一検出部2で受け取り、第一検出部2より当該第一画像における検出結果(第一画像内において対象の占める範囲及び当該対象の種別の検出結果)を出力する。第二動作においては、入力としての第二画像を第二取得部3及び第二検出部4で受け取り、第二検出部4より当該第二画像における検出結果(第二画像内において対象の占める範囲及び当該対象の種別の検出結果)を出力する。
【0017】
一実施形態(以降での説明のため実施形態EAとする)において、検出装置1は、前述の第一動作を行ったうえで、第一動作において得られた情報(第一検出部2で得られた検出結果から、対象の占める範囲としての第一領域の情報)を利用することによりさらに、前述の第二動作を行うことができる。別の一実施形態(以降での説明のため実施形態EBとする)においては、検出装置1は、前述の第一動作のみを行い、第二動作は行わないようにすることもできる。この場合、検出装置10は第二取得部3及び第二検出部4が省略され、第一取得部1及び第一検出部2のみを備える構成とすることができる。
【0018】
なお、検出装置10への入力としての第一画像及び第二画像は、次のような関係を有するものとして用意しておくことができる。すなわち、図2にも示す通り、ある多視点画像(共通時刻における共通のシーンを互いに異なる配置(視点)のカメラでそれぞれ撮影した複数の画像)における第一視点での画像が第一画像であり、第一視点とは別の第二視点での画像が第二画像である、という関係である。
【0019】
図3は、前述した模式例としての図1の画像P(サッカー試合の映像の画像)のような画像を多視点画像の各視点におけるものとして撮影する場合を例として、多視点画像を撮影するためのカメラ配置の模式例を、視点数が4個の場合に関して示すものである。4つの各カメラC10,C20,C30,C40は、共通シーンとしてのサッカー試合が行われているフィールドFを互いに異なる配置(視点)で撮影している。なお、図3にはフィールドFや各カメラC10,C20,C30,C40を上空側から見た状態が模式的に示されており、図1で示した選手PLやボールB等の対象は描くのを省略している。各カメラC10,C20,C30,C40が共通時刻において共通シーンとしての当該フィールドFを撮影して得た画像をそれぞれ画像P10,P20,P30,P40とすると、これらの画像群(P10,P20,P30,P40)が、多視点映像における各時刻フレーム画像としての多視点画像を構成するものとなる。
【0020】
図2にも示される通り、検出装置1の各部1〜4の概略的な処理内容は以下の通りである。
【0021】
第一取得部1は、入力される第一画像P1において、前景としての動きがあると判定される領域を第一候補領域R1として取得する。当該取得された第一候補領域R1は、第一検出部2へと出力される。
【0022】
ここで、第一取得部1では、映像上の各時刻t(tは時刻インデクスであってt=1,2,3,…であり、説明のために注目する時刻としての現時刻をtとする。以下同様。)のフレーム画像としての第一画像P1(t)に対して、現時刻tの第一画像P1(t)と、1つ以上の過去時刻t-k(k≧1)の第一画像P1(t-k)とを参照することにより、現時刻tでの第一画像P1(t)内での前景として動きの情報を取得することによって、現時刻tにおける第一候補領域R1(t)を求めることができる。
【0023】
なお、第一候補領域R1(t)とは、第一画像P1(t)内での領域(連結領域)の個数としては任意の個数で構成されうるものである。このことは、第一検出部2に関して後述する第一画像内の第一領域に関しても、また、第二取得部3に関して後述する第二画像内の第二候補領域に関しても、同様である。
【0024】
第一検出部2は、第一画像P1(t)内を対象検出処理のために移動するものとして予め定義しておく各ウィンドウWに対して、各時刻tにおいて第一取得部1で得られた第一候補領域R1(t)が当該ウィンドウWの内部に含まれているようなウィンドウWのみを処理対象として、撮影されている対象の領域及び種別の検出処理を行うことにより、第一画像P1(t)の全体に対する、撮影されている対象の領域及び種別の検出結果を得る。
【0025】
このように、第一検出部2では、第一画像P1(t)内を移動するものとして予め定義される多数のウィンドウWの全てについて撮影されている対象の領域検出及び種別判定の処理を行うのではなく、第一候補領域R1(t)が含まれるようなウィンドウWのみに限定して当該処理を行うことにより、第一画像P1(t)内で撮影されている対象の分布がスパースである場合等に、当該処理を高速に完了することができる。この模式例は図6を参照して後述する。
【0026】
実施形態EA(第一動作及び第二動作の両方が行われるもの)においては、第一検出部2で得た検出結果(すなわち、第一画像P1(t)内での撮影されている対象の領域及び種別の情報)から得られる対象の領域の情報を、第一領域D1(t)の情報として、第二取得部3へも出力される。
【0027】
第二取得部3は、各時刻tにて、入力される第二画像P2(t)において、第一検出部2から得られる第一領域D1(t)に対応する領域を第二候補領域R2(t)として取得する。当該取得された第二候補領域R2(t)は第二検出部4へと出力される。
【0028】
ここで、第二取得部3では、第一画像P1(t)を撮影している第一カメラに関して予め求まっている第一カメラパラメータと、第二画像P2(t)を撮影している第二カメラに関して予め求まっている第二カメラパラメータと、の間の関係として定まる、第一画像P1(t)内の画素位置(x1,y1)から第二画像P2(t)内の画素位置(x2,y2)への変換H(後述するホモグラフィー変換H)を第一領域D1(t)へと適用することにより、第一画像P1(t)内の第一領域D1(t)を第二画像P2(t)内の領域H(D1(t))へと写像し、当該写像された領域H(D1(t))に基づいて第二候補領域R2(t)を取得することができる。
【0029】
第二検出部4は、第一検出部2が第一画像P1(t)及び第一候補領域R1(t)を用いて行ったのと同様の処理を第二画像P2(t)及び第二候補領域R2(t)を用いて行うことにより、第二画像P2(t)の全体に対する、撮影されている対象の領域及び種別の検出結果を得ることができる。
【0030】
すなわち、第二検出部4は、第二画像P2(t)内を対象検出処理のために移動するものとして予め定義しておく各ウィンドウWに対して、各時刻tにおいて第二取得部3で得られた第二候補領域R2(t)が当該ウィンドウWの内部に含まれているようなウィンドウWのみを処理対象として、撮影されている対象の領域及び種別の検出処理を行うことにより、第二画像P2(t)の全体に対する、撮影されている対象の領域及び種別の検出結果を得ることができる。この模式例は第一検出部2の説明において図6を参照して後述する。
【0031】
従って、第一検出部2に関して説明したのと同様の理由(全てのウィンドウWのうち一部のみが検出処理の対象となること)によって、第二検出部4においても、第二画像P2(t)内で撮影されている対象の分布がスパースである場合等に、当該処理を高速に完了することができる。
【0032】
図4は、一実施形態(第一動作及び第二動作の両方が行われる、前述の実施形態EAに対応する一実施形態)に係る検出装置10の動作のフローチャートである。図4では、多視点映像の各時刻tの画像としての第一画像及び第二画像に対して検出処理を行う場合の各ステップが示されている。
【0033】
図4の各ステップの説明のための前提事項として、検出装置10による検出処理の対象となる多視点映像はN個(N≧2)の視点の各カメラC1,C2,…,CNでそれぞれ撮影されるものとして、各時刻tでの多視点画像P1(t),P2(t),…,PN(t)が構成されているものとし、これらのうちP1(t)を第一画像とし、残りのN-1枚のP2(t),…,PN(t)をそれぞれ、第二画像として用いるものとする。なお、検出装置10においては、このような一般のN個(N≧2)の視点による多視点画像P1(t),P2(t),…,PN(t)のうちの、任意の1個の視点の画像を第一画像とし、残りのN-1個の視点の画像をそれぞれ第二画像として用いるものとして、予め設定しておくことができる。ここでは説明のための変数表記(P1(t),P2(t),…,PN(t))を割り当てる必要があることにより、一般性を失うことなく、このように任意に設定しうる1個の視点の画像としてP1(t)を第一画像とし、それ以外のN-1個の視点の各画像P2(t),…,PN(t)を第二画像としているに過ぎない。
【0034】
また、当該変数表記の割り当ては、前述の各部1〜4の概略説明において第一画像をカメラC1による画像P1(t)とし、第二画像をカメラC2による画像P2(t)としたこととも表記を整合させたものである。すなわち、概略説明で述べた第二画像として処理されるものは必ずしも1つのカメラC2における画像のみである必要はなく、以下に図4を参照して説明する通り、その他のカメラC3,…CN(第一画像のカメラC1は除く)における画像が追加で存在してもよい。
【0035】
図4のフローが開始されるとまずはステップS10へと進む。ステップS10では、検出装置10が、入力データとしての現時刻tの多視点画像P1(t),P2(t),…,PN(t)を取得してから、ステップS12へと進む。ステップS12では、ステップS10で入力として取得した現時刻tの多視点画像のうち第一画像P1(t)に対して、第一取得部1及び第一検出部2が概略説明にて説明した通りの処理を行うことにより、第一画像P1(t)内において撮影されている対象の領域及び種別の検出を行ってから、ステップS14へと進む。
【0036】
ステップS14では、ステップS10で入力として取得した現時刻tの多視点画像のうち第二画像Pn(t)(n=2,3,…,Nのいずれか)において検出処理が未完了の1つ(これを、第二画像Pn(t)とする)に対して、第二取得部3及び第二検出部4が概略説明にて説明した通りの処理を行うことにより、第二画像Pn(t)内において撮影されている対象の領域及び種別の検出を行ってから、ステップS16へと進む。
【0037】
なお、概略説明でも説明した通り、ステップS14で第二画像Pn(t)に対して検出処理を行う際には、ステップS12で第一検出部2で得た検出結果のうちの第一領域D1(t)の情報を第二取得部3が参照したうえで、第二取得部3及び第二検出部4による処理が行われる。
【0038】
ステップS16では、現時刻tに関して、インデクスn(n=2,3,…,N)でそれぞれが特定されるN-1個の第二画像Pn(t)の全てに関して、ステップS14における検出理処理が完了したか否かの判断を行い、N-1個の全てについて完了していれば(すなわち、肯定判断であれば)ステップS20へと進み、未完了のものが残っていれば(すなわち、否定判断であれば)ステップS18へと進む。
【0039】
ステップS18では、現時刻tに関して、インデクスn(n=2,3,…,N)でそれぞれが特定されるN-1個の第二画像Pn(t)のうち、ステップS14での処理が未完了の1つを選択したうえで、ステップS14へと戻る。当該戻ったステップS14においては、ステップS18で処理が未完了として選択された第二画像Pn(t)を処理対象として、検出処理が行われることとなる。
【0040】
なお、ステップS18からステップS14へと戻るのではなく、ステップS12からステップS14へと至った時点ではN-1個の第二画像Pn(t)の全てが検出処理が未完了の状態であるので、任意の1つを検出対象とすればよい。各時刻tに関してステップS14の処理がN-1個の第二画像Pn(t)のそれぞれを対象としてN-1回だけ実行されることとなるが、当該実行される順番(nの順番)は予め設定しておき、ステップS18では当該設定された順番に従う設定を行うようにしてもよい。例えば昇順に、n=2,3,…,Nと順番を設定してもよい。
【0041】
ステップS20では、現時刻tに関してステップS12で得られた第一画像P1(t)における検出結果と、N-1回だけ実行されたステップS14で得られた第二画像Pn(t)(n=2,3,…,N)における検出結果と、を入力された多視点画像P1(t),P2(t),…,PN(t)の全体に対する検出結果として検出装置10が出力したうえで、ステップS22へと進む。ステップS22では、現時刻tを次の最新時刻t+1へと更新したうえでステップS10へと戻る。
【0042】
以上のようにして、図4のフローにより、各時刻t=1,2,3,…における多視点映像のフレームとしての多視点画像P1(t),P2(t),…,PN(t)に関して、ステップS20において検出結果を出力するようにすることができる。
【0043】
以下、検出装置10の各部1〜4における処理内容の詳細を説明する。
【0044】
<第一取得部1>
第一取得部1では、多視点画像P1(t),P2(t),…,PN(t)における「ベース視点」としての役割を有した第一画像P1(t)より、前景領域を取得する。例えば図1の模式例のようなサッカー映像の場合であれば、複数の選手PL及びボールBといった領域が前景領域として取得される。
【0045】
なお、ベース視点とは、既に説明した内容における次の技術的意義に関する用語である。すなわち、実施形態EAにおいて、当該ベース視点である第一画像P1(t)における第一領域D1(t)の情報が第二取得部3に参照されることで、ベース視点以外の第二画像Pn(t)(n=2,3,…,N)において第二候補領域R2(t)として検出対象の絞り込みを可能にするという点で、第一画像は第二画像の検出処理の前提となることから、ベース視点として称している。
【0046】
具体的に、第一取得部1では既存手法である背景差分法により、前景領域としての第一候補領域R1(t)を取得することができる。例えば、前掲の非特許文献4に開示される混合正規分布を用いた背景差分法を利用して、動いている対象を前景として分離することができる。すなわち、非特許文献4等の手法では、背景が風などで揺れる、太陽の位置や雲の動きにより照明環境が変化する、といった問題に対して、混合正規分布(Mixture of Gaussian Distribution, MoG)を用いた背景のモデル化などによる対処が可能となる。MoGは新たに観測された画像を用いて逐次的に背景モデルを更新することから、太陽の位置の変化のような、ゆっくりとした照明環境の変化にも対処できる。
【0047】
図5は、図1で模式例を示したサッカー映像としての第一画像に当該MoGによる背景差分法を適用することで、選手及びボールが前景として抽出された例であり、前景ピクセルを白色で、背景ピクセルを黒色で示している。
【0048】
<第一検出部2>
第一検出部2では、第一画像P1(t)内を移動するものとして予め定義しておく各ウィンドウW(スライディングウィンドウ)のうち、第一取得部1で前景として取得された第一候補領域R1(t)が当該ウィンドウW内に含まれるようなウィンドウWのみに限定して、既存手法である前掲の非特許文献2に開示されるYOLO等の検出器(ウィンドウ内での撮影されている対象の領域及び種別の検出器)を適用することで、第一画像P1(t)の全体における検出結果としての対象の領域及び種別の検出結果を得る。
【0049】
図6は、第一検出部2による処理の模式例を[1]〜[4]と分けて示す図である。[1]は、YOLO等の検出器を適用するために画像内に予め定義しておくウィンドウWの例であり、ここでは模式例として、画像全体の領域を横に8分割、縦に3分割した合計24個のウィンドウ例が示されている。[2]は、図5と同様の前景抽出結果の例であるが、図6による説明における視認性の確保の観点から、背景を白ピクセルとし前景を黒ピクセルとして、図5とは逆の表現で示している。[3]は、[2]の前景抽出結果に[1]で定義しておいた所定のウィンドウを割り当てたものであり、[4]は、当該[3]で割り当てられたウィンドウのうち、前景が存在することでYOLO等の適用対象となる6個のウィンドウを灰色で示したものである。
【0050】
図6の[4]に見て取れる通り、第一検出部2においては合計24個のウィンドウの全てに対してYOLO等の検出器を適用することなく、前景が存在する6個のウィンドウのみが当該検出器の適用対象となる(すなわち、残り18個のウィンドウは適用対象外となる)ことで、画像内のスパースな対象に関して、高速に検出を行うことができる。
【0051】
なお、図6の例は、予め定義しておくウィンドウWの例として、画像全体の領域を縦横に分割することで、異なるウィンドウ同士に重複がない場合の例であるが、ウィンドウに関しては所謂スライディングウィンドウとして、異なる位置にあるウィンドウ同士に重複が存在するものを用いるようにしてもよい。例えば、ウィンドウWのサイズを図6と同じ横8分割と縦3分割のものとして定義して、スライド幅に関しては図6のように横及び縦のウィンドウ幅全体をそのまま用いるのではなく、横及び縦の両方に関してウィンドウ幅の半分に設定するといったことも可能である。この場合、図6と同じウィンドウWのサイズで隣接ウィンドウ同士はウィンドウ幅の半分の重複を有しているものとして、横に8×2-1=15ステップと、縦に3×2-1=5ステップと、の合計15×5=75箇所の位置にウィンドウをスライドさせることができる。その他にも、既存の任意の画像内探索のためのウィンドウのスライド方式(例えばテンプレートマッチング等において利用されているもの)に即したウィンドウWの定義を利用してよく、例えば、画像の端ではウィンドウの一部が画像の外部に出ることを許容するようにしてもよい。
【0052】
第一検出部2では、YOLO等の検出器を適用することでウィンドウW(前景が存在するウィンドウW)内での対象の領域及び種別の情報を取得できる。(ここで、種別の情報に関しては、例えば「種別:人、信頼度:0.8」といったように、種別及びその信頼度数値のペアの情報として取得することができる。)さらに、当該取得したウィンドウW内での相対的な位置領域の情報に対して、当該ウィンドウWが第一画像P1(t)内で占めている位置の情報を加味することにより、第一画像P1(t)内での検出された対象の領域の情報を得ることができる。
【0053】
図7は、第一検出部2が上記のようにウィンドウW内での相対座標値として検出した領域から、当該領域を、第一画像P1(t)全体内での座標値に換算することを説明するための図である。
【0054】
図7では、第一画像P1(t)内のj番目のウィンドウW(j)に対して第一検出部2が検出を行い、矩形領域Obj-1(i)としてi番目の対象の領域が検出されたことが示されている。この場合、矩形領域Obj-1(i)の領域の情報は、図7中に黒点(●)で示される、その左上の頂点(xr1(i),yr1(i))及び右下の頂点(xr2(i),yr2(i))の、2つの座標値によって表現することができる。これら2つの座標値は当該ウィンドウW(j)の左上頂点を原点(基準位置)とした、ウィンドウW(j)内での相対座標値として得られている。一方、当該ウィンドウW(j)は、その左上頂点(図7中に黒丸(●)で示される左上頂点)の第一画像P1(t)内での位置座標が(xw1(i),yw1(i))となるような位置にあるものである。
【0055】
従って、第一検出部2では以下の式(1A)〜(1D)によって、検出された対象であるi番目の矩形領域Obj-1(i)を表現するウィンドウW(j)内の左上及び右下の2点の相対座標値(xr1(i),yr1(i))及び(xr2(i),yr2(i))を、画像P1(t)全体内での当該2点の絶対座標値(x11(i),y11(i))及び(x12(i),y12(i))へと変換することで、画像P1(t)全体内での領域検出結果を得ることができる。
x11(i)=xr1(i)+xw(j) …(1A)
y11(i)=yr1(i)+yw(j) …(1B)
x12(i)=xr2(i)+xw(j) …(1C)
y12(i)=yr2(i)+yw(j) …(1D)
【0056】
ここで、図7中にも示されるように、画像内(ウィンドウ内も含む)の座標軸の方向は、相対座標及び絶対座標のいずれにおいても、横方向に関して右向きを+x(x座標が増加する方向)とし、縦方向に関して下向きを+y(y座標が増加する方向)とする。これは、以降に説明するその他の座標に関しても同様である。
【0057】
なお、第一検出部2で得られる画像P1(t)内の第一領域D1(t)の情報は、検出された全ての対象の領域Obj-1(i)(i=1,2,…,M;Mは検出された領域の総数)に関しての、上記2点の絶対座標値(x11(i),y11(i))及び(x12(i),y12(i))を与えることにより、表現することが可能である。なお、第一領域D1(t)の情報は、このように矩形(検出対象をその内部に含む矩形)として検出された各対象の領域Obj-1(i)をそのまま用いるのではなく、所定割合だけ拡大したものを用いるようにしてもよい。拡大させることにより、第二取得部3に関して次に説明する第二候補領域Rn(t)(n=2,3,…,N)もマージン(余裕)を有したものとして取得し、後述する変換Hn,1に誤差がある場合であっても、第二画像における検出をより確実なものとすることができる。
【0058】
なお、図7ではさらに、白点(○)として、ウィンドウW(j)内の矩形領域Obj-1(i)の左下頂点の相対座標(xr1(i),yr2(i))が示されている。これは、後述する図8等との関係で、参考として示すものである。当該左下頂点の相対座標(xr1(i),yr2(i))も上記の式(1A),(1D)により、画像内での絶対座標(x11(i),y12(i))へと変換することが可能である。
【0059】
<第二取得部3>
第二取得部3では、第一画像P1(t)に関して第一検出部2で検出されている第一領域D1(t)の情報に対して、第一画像P1(t)の画素座標から第二画像Pn(t)(n=2,3,…,N)の画像座標への所定のホモグラフィー変換Hn,1を適用することにより、第二候補領域Rn(t) (n=2,3,…,N)を取得する。
【0060】
図8は、第二取得部3で第二候補領域Rn(t)(n=2,3,…,N)を取得する一実施形態を説明するための図である。[1]に示すように第一画像P1(t)において検出された対象の矩形領域を領域Obj-1(i)とする。(すなわち、第一領域D1(t)の情報は、検出された全ての対象についての領域Obj-1(i)の情報である。)図8の[1]の領域Obj-1(i)は、図7で示した領域Obj-1(i)と同じであり、画像P1(t)内での絶対座標として、矩形領域Obj-1(i)の下方(+y方向)側の水平方向の一辺の両端である、左下頂点(○)及び右下頂点(●)がそれぞれ、座標(x11(i),y12(i))及び(x12(i),y12(i))として示されている。
【0061】
第二取得部3では、図8の[2]に模式的に示すようにホモグラフィー変換Hn,1を当該[1]の矩形領域Obj-1(i)の下方側の水平線分(その長さがLen1(i)である)の両端点(x11(i),y12(i))及び(x12(i),y12(i))にそれぞれ適用することで、[3]に同じく白点(〇)及び黒点(●)として示すように、その第二画像Pn(t)上への変換した2点(xn1L(i),yn2L(i))及び(xn2R(i),yn2R(i))を求める。
【0062】
なお、当該変換はコンピュータグラフィックス分野等での数学として周知のように、当該座標を斉次座標で表現したサイズ3の列ベクトルに対する3行3列の行列Hn,1の乗算として、以下の式(2L),(2R)のように変換することができる。上付きのTは転置であり、斉次座標でのサイズ3の列ベクトルを表している。
(xn1L(i),yn2L(i),1)T= Hn,1 *(x11(i),y12(i),1)T …(2L)
(xn2R(i),yn2R(i),1)T= Hn,1 *(x12(i),y12(i),1)T …(2R)
【0063】
第二取得部3では、上記の式(2L),(2R)で得られる当該変換した2点がなす横方向(x方向)の幅によって横幅Lenn(i)=| xn2R(i)-xn 1L(i)|が定義されるものとして、[3]に示すような、第一画像P1(t)の矩形領域Obj-1(i)に対応する第二画像Pn(t)における矩形領域Obj-n(i)を求めることができる。こうして、検出された全ての対象iについての矩形領域Obj-n(i)の情報として、第二候補領域Rn(t)(n=2,3,…,N)の情報を得ることができる。
【0064】
上記の横幅Lenn(i)=| xn2R(i)-xn 1L(i)|と共に、画像の座標軸x,yに平行な辺を有するような矩形領域Obj-n(i)の情報のうち、そのx軸方向範囲としての右端側及び左端側が位置xn2R(i)及びxn 1L(i)(またはこの逆)として確定する。ここで、矩形領域Obj-n(i)の情報を確定させるためには、そのy軸方向範囲としての下端側の位置と上端側の位置とをさらに決定する必要があるが、以下のようにして決定することができる。
【0065】
<下端側の位置>
まず、第二画像Pn(t)における矩形領域Obj-n(i)に関して、下端側の位置は変換した2点(xn1L(i),yn2L(i))及び(xn2R(i),yn2R(i))のy座標のうち、y座標がより大きいものmax(yn2L(i), yn2R(i))として定義すればよい。図8の[3]では、変換した結果としてmax(yn2L(i), yn2R(i))= yn2R(i)となった場合が例として示されている。
【0066】
<上端側の位置>
さらに、第二画像Pn(t)における矩形領域Obj-n(i)に関して、上端側の位置は次のように決定すればよい。すなわち、第二画像Pn(t)における矩形領域Obj-n(i)のアスペクト比は、これに対応する第一画像P1(t)での矩形領域Obj-1(i)のアスペクト比と同一であるものとして、矩形領域Obj-n(i)の縦幅を決定することにより、矩形領域Obj-n(i)の上端側の位置も決定することができる。
【0067】
すなわち、矩形領域Obj-1(i)の縦幅をHeight1(i)、矩形領域Obj-n(i)の縦幅をHeightn(i)とすると、アスペクト比(縦横の長さ比)が等しいという以下の関係式(3)により矩形領域Obj-n(i)の縦幅Heightn(i)を決定することができる。
Len1(i)/Height1(i)=Lenn(i)/Heightn(i) …(3)
【0068】
なお、以上のような、図8の手法による第二画像Pn(t)における矩形領域Obj-n(i)の決定の一実施形態は、次の事項を前提とすることで、平面同士の変換であるホモグラフィー変換Hn,1を立体領域に適用可能とさせたものである。
【0069】
第一前提は、第一画像P1(t)及び第二画像Pn(t)で検出されるべき対象(例えばサッカー選手)は全て、ホモグラフィー行列Hn,1の適用対象の平面としての空間内の共通平面(例えば図1のサッカーフィールドFの平面)上に立って存在しているというものである。すなわち、当該共通平面から高さ方向に大きく乖離することなく、概ね当該平面上に立っているものとして存在しているというものである。図8で説明した矩形下端側の2点の変換は、第一前提に基づく。(サッカー選手の例であれば、地面から離れた頭の位置はホモグラフィー変換により歪んだ位置に変換されてしまうが、地面に接している足の位置はホモグラフィー変換により、概ね地面に接した位置に変換される、というのが第一前提である。)なお、第一前提ではさらに、第一画像P1(t)及び第二画像Pn(t)では下方側(+y方向)が空間内の共通平面(地面など)に近い側にあるものとなるようなカメラ配置によって撮影されていることを前提としている。
【0070】
また、第二前提は、第一画像P1(t)及び第二画像Pn(t)で見た際の同一対象を囲う矩形は概ね同じアスペクト比になるというものであり、図8のアスペクト比に基づく上端側位置の決定はこの第二前提に基づく。
【0071】
なお、各ホモグラフィー行列Hn,1は、地面等の共通平面上に配置したカメラキャリブレーション用のマーカー等(例えば正方マーカー)を利用することで、任意の既存手法によって予め算出しておくことができうる。固定カメラであれば固定パラメータとして行列Hn,1を用意しておいてもよい。移動カメラの場合、当該マーカーを用いたカメラキャリブレーションを各時刻において行うようにすればよい。
【0072】
<第二検出部4>
既に説明した通り、第二検出部4の処理は第一検出部2の処理内容と同じである。すなわち、処理対象としてのデータが、第一検出部2では第一画像P1(t)及びウィンドウ限定するために参照する第一候補領域R1(t)であったのに対し、第二検出部4では第二画像Pn(t)及びウィンドウ限定するために参照する第二候補領域Rn(t)であるという点で異なるのみであり、処理内容に関しては、第一検出部2及び第二検出部4は共通である。
【0073】
ただし、第二検出部4においては、次の追加的な実施形態を行うことも可能である。
【0074】
当該追加実施形態の意義をまず説明する。既に説明した通り、第二検出部4(及び第一検出部2)では、YOLO等の深層学習により事前に学習して構築された検出器を用いる。当該事前学習においては、標準的なサイズの画像において標準的な大きさで撮影されている対象に関してラベル付与した多数の学習データを利用する。従って、構築される検出器にも、検出信頼度を確保するという観点から、検出されるウィンドウ内の対象のサイズに関して、好ましい標準的なサイズというものが存在することとなる。すなわち、小さすぎればそもそも情報が少ないので、検出信頼度が下がるので、ある程度の大きさがあることが望ましい。
【0075】
しかしながら、図1で説明したような撮影状況では、上記のようなある程度の大きさが確保できておらず、学習した検出器で所定の検出信頼度を確保して検出するには小さすぎることがある。従って、当該追加実施形態においては、小さすぎると判定される場合に、予め拡大したうえで、ウィンドウ内での検出器の処理を行うようにする。
【0076】
図9は、第二検出部4による拡大処理を説明するための図である。図9の[1]は図8の[3]に示した第二画像Pn(t)内の矩形領域Obj-n(i)をウィンドウW内のものとして示したものである。矩形領域Obj-n(i)が小さいと判定された場合、黒点(●)で示すその左上頂点(xn1L(i),yn1L(i))を拡大のための基準位置(固定位置)として、[2]に示すようにscale倍だけ拡大(相似拡大)することにより、拡大された矩形領域Obj-n'(i)を得ることができる。こうして、[2]に示すような拡大された対象としての矩形領域Obj-n'(i)を含むウィンドウWを検出器による検出対象とすればよい。
【0077】
なお、拡大のための基準位置は左上頂点以外の、当該矩形領域Obj-n(i)内の所定点を用いてもよい。なお、図9に示す拡大しない場合の[1]に示すウィンドウW内の矩形領域Obj-n(i)以外の背景BGWと、拡大する場合の[2]に示すウィンドウW内のObj-n'(i)以外の背景BGW'とは、対応する第二画像Pn(t)に撮影されているテクスチャが存在しないものとして扱って、検出器の処理を行うようにしてもよい。
【0078】
第二検出部4による追加実施形態としての拡大処理における、拡大するかの否かの判断と、拡大する場合の拡大率scaleの算出とは、次のようにすればよい。
【0079】
まず、図8の[1]に示した第一画像P1(t)での矩形領域Obj-1(i)の画素数すなわち面積S1(i)を基準とした、図8の[3]又は図9の[1]の矩形領域Obj-n(i)の面積Sn(i)を以下のように求める。ここで、前述の第二前提の通りアスペクト比が等しいことから、以下(横幅の比Lenn(i)/Len1(i)の2乗を乗ずること)の式(4)で面積を求めることができる。
Sn(i)= S(i)*(Lenn(i)/Len1(i))2 …(4)
【0080】
当該求めた面積Sn(i)が所定の閾値STH(検出器で検出される標準的なサイズに応じて定めることのできる所定の閾値)以下となった場合に、拡大処理を行う。拡大率scaleは以下の式(5A)の中間値「stmp」を算出したうえで、以下の式(5B),(5C)による場合分けによって計算すればよい。すなわち、中間値stmpが閾値TH未満となる場合は式(5B)を採用し、閾値TH以上となる場合は式(5C)を採用して、拡大率scaleを求めればよい。sqrt()は平方根演算であり、面積で判断したものを長さとしての拡大率scaleに変換するための演算である。
stmp= Speak(c)/ Sn(i) …(5A)
scale=sqrt(stmp) (if stmp <TH) …(5B)
scale= sqrt(TH) (if stmp ≧TH) …(5C)
【0081】
上記(5B),(5C)においてTHは拡大率scaleを大きくしすぎないように予め設定しておく閾値である。(なお、閾値THは、面積Sn(i)に対する閾値STHとは別のものである。)過剰に拡大すると画質悪化により検出の信頼度が下がる傾向があるので、このような閾値THを設定しておく。上記(5A)においてSpeak(c)は第一画像P1(t)での検出された矩形領域Obj-1(i)の種別c(例えば、c=サッカー選手、ボール、…)に応じた、検出信頼度が確保される所定の面積であるが、種別cによらない一定値を用いてもよい。種別cの情報は第一検出部2での検出結果を参照して取得すればよい。
【0082】
以上、本発明によれば、4K映像等において図1のようなサッカー映像に検出対象としての選手等がスパースに、また、小さく存在している場合であっても、高速に検出を行うことが可能である。以下、本発明における追加実施形態等の補足説明を行う。
【0083】
(1)第二検出部4では上記の追加実施形態の通り、領域Obj-n(i)の面積Sn(i)が小さいと判定される場合にscale倍だけの拡大処理を行うことができる。これに対する代替実施形態及び/又は追加実施形態として、小さいと判定された場合であっても拡大処理をせずにそのまま検出器で適切に検出できるように、既に学習されている検出器の第一学習データにおける画像を縮小した第二学習データを新たに用意して、深層学習等により検出器を再学習させ、当該再学習した検出器を第二検出部4で利用するようにしてもよい。
【0084】
具体的には、元の学習データ(第一学習データ)の中にラベリングされた対象の領域(bounding box)から対象のサイズを算出し、事前に統計処理等によって取得した対象の最小サイズと比べて、複数レベルの対象サイズに縮小したものを追加した第二学習データを用いて、再学習するようにすればよい。例えば、統計処理でボールの最小サイズは100である場合に、第一学習データ内のある学習画像でラベリングされたボールの領域(bounding box)面積が400であったとする。この1つの学習画像に関して、1/4、1/3、1/2、1倍に縮小(1倍の縮小の場合は元のサイズのままとなる)して、4枚(うち3枚が実際に縮小された新たなもの)の学習画像を作る。同様の処理を、第一学習データ内のその他の学習画像にも適用することで、第二学習データを得ることができる。
【0085】
(2)第一検出部2及び第二検出部4では、YOLO等の検出器によって画像内の対象の領域及び種別を検出するが、領域と種別とのうちいずれか一方のみを出力するようにしてもよい。この際、内部処理としては領域及び種別を検出し、実際に利用する出力データとしては領域又は種別のいずれか一方のみを利用するようにしてもよい。ただし、第二取得部3及び第二検出部4が動作するためには、第一検出部2から(ユーザ等が利用するデータとして)外部出力しないとしても、第一検出部2から領域の情報(第一領域D1(t)の情報)を第二取得部3へ向けて出力する必要がある。なお、第一検出部2及び第二検出部4では、ウィンドウベースで高速に検出可能な検出器として、YOLOの他にも前掲の非特許文献3等に開示されるSSD等を用いてもよい。
【0086】
(3)前述の通り、本発明は実施形態EA(第一動作及び第二動作の両方が行われるもの)と、実施形態EB(第一動作のみが行われるもの)とが可能であるが、さらに、実施形態EAにおける第二動作のみを抽出した実施形態ECも可能である。実施形態ECにおいては、予め第一動作を完了しておくことで第一領域D1(t)を入力として利用すればよい。また、実施形態ECは次のものも可能である。すなわち、あるカメラ視点nの第二画像Pn(t)に関して既に検出結果としての第二領域Dn(t)が得られている場合に、別のカメラ視点m(m≠n,m≧2)の第二画像Pm(t)から検出結果として第二領域Dm(t)を得るための入力として、検出済みの第一領域D1(t)に代えて検出済みの第二領域Dn(t)を用いることも可能である。
【0087】
(4)本発明は、コンピュータを検出装置10として機能させるプログラムとしても提供可能である。当該コンピュータには、CPU(中央演算装置)、メモリ及び各種I/Fといった周知のハードウェア構成のものを採用することができ、CPUが検出装置10の各部の機能に対応する命令を実行することとなる。また、当該コンピュータはさらに、CPUよりも並列処理を高速実施可能なGPU(グラフィック処理装置)を備え、CPUに代えて検出装置10の全部又は任意の一部分の機能を当該GPUにおいてプログラムを読み込んで実行するようにしてもよい。
【符号の説明】
【0088】
10…検出装置、1…第一取得部、2…第一検出部、3…第二取得部、4…第二検出部
図1
図2
図3
図4
図5
図6
図7
図8
図9