(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023162561
(43)【公開日】2023-11-09
(54)【発明の名称】3次元被写体領域推定装置およびそのプログラム
(51)【国際特許分類】
G06T 7/55 20170101AFI20231101BHJP
【FI】
G06T7/55
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022072961
(22)【出願日】2022-04-27
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】山田 文香
(72)【発明者】
【氏名】盛岡 寛史
(72)【発明者】
【氏名】三須 俊枝
(72)【発明者】
【氏名】三ツ峰 秀樹
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA05
5L096FA60
5L096FA62
5L096FA69
5L096HA11
5L096KA04
(57)【要約】
【課題】撮影画像から被写体の3次元被写体領域を推定することが可能な3次元被写体領域推定装置を提供する。
【解決手段】3次元被写体領域推定装置1は、撮影画像から2次元被写体領域を推定する2次元被写体領域推定手段10と、2次元被写体領域の世界座標の重心とカメラの光学中心とを通る直線を投影線として算出する投影線算出手段110と、複数の投影線の最近傍点からそれぞれの投影線への垂足の位置を算出する最近傍点垂足算出手段111と、垂足の位置に2次元被写体領域の重心を投影する投影面に2次元被写体領域の頂点を投影し、頂点の世界座標を算出する被写体領域頂点算出手段112と、すべての頂点を立体形状で近似し、3次元被写体領域とする立体形状近似手段113と、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
撮影画像から被写体の3次元被写体領域を推定する3次元被写体領域推定装置であって、
複数のカメラで撮影された前記撮影画像ごとに2次元被写体領域を推定する2次元被写体領域推定手段と、
前記カメラごとの2次元被写体領域から前記被写体の3次元被写体領域を再構成する3次元被写体領域再構成手段と、を備え、
前記3次元被写体領域再構成手段は、
前記カメラごとに、前記2次元被写体領域の重心を世界座標に変換し、世界座標における前記重心と前記カメラの光学中心とを通る直線を投影線として算出する投影線算出手段と、
前記カメラごとの前記投影線の最近傍点からそれぞれの投影線への垂足の位置を算出する最近傍点垂足算出手段と、
前記カメラごとに、前記垂足の位置に前記2次元被写体領域の重心を投影する投影面に前記2次元被写体領域の頂点を投影し、投影後の頂点の世界座標を算出する被写体領域頂点算出手段と、
前記投影後の世界座標の前記頂点の位置を立体形状で近似し、前記立体形状の形状情報を3次元被写体領域として算出する立体形状近似手段と、
を備えることを特徴とする3次元被写体領域推定装置。
【請求項2】
前記3次元被写体領域を画角内に収めるための撮影カメラの駆動量を算出する駆動量算出手段と、
前記駆動量に基づいて、前記撮影カメラを駆動する撮影カメラ制御手段と、
をさらに備えることを特徴とする請求項1に記載の3次元被写体領域推定装置。
【請求項3】
前記2次元被写体領域推定手段は、前記被写体に対して予め定めた対象領域ごとに複数の2次元被写体領域を推定し、前記3次元被写体領域再構成手段は、指定された対象領域の2次元被写体領域から、前記対象領域の3次元被写体領域を再構成することを特徴とする請求項2に記載の3次元被写体領域推定装置。
【請求項4】
前記3次元被写体領域再構成手段は、前記対象領域を指定する識別子と時間情報とを対応付けた制御台本に基づいて、3次元被写体領域を再構成する対象領域を切り替えることを特徴とする請求項3に記載の3次元被写体領域推定装置。
【請求項5】
前記立体形状を前記撮影カメラで撮影された撮影画像に投影し、前記3次元被写体領域を可視化する被写体領域可視化手段をさらに備えることを特徴とする請求項2に記載の3次元被写体領域推定装置。
【請求項6】
前記立体形状は球体であって、前記立体形状近似手段は、前記3次元被写体領域として前記球体の中心位置および半径を算出することを特徴とする請求項2に記載の3次元被写体領域推定装置。
【請求項7】
コンピュータを、請求項1から請求項6のいずれか一項に記載の3次元被写体領域推定装置として機能させるための3次元被写体領域推定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、3次元被写体領域推定装置およびそのプログラムに関する。
【背景技術】
【0002】
従来、カメラの撮影画像から被写体領域を推定する手法は種々存在する。
例えば、撮影画像の事前情報の色情報に基づいて被写体を認識し、2台のカメラで三角測量の原理を用いて被写体領域を3次元空間上で推定する手法(特許文献1参照)、クロマキー処理等によって抽出したシルエット画像を用いた視体積交差法とステレオマッチング法とを併用して3次元モデルを生成する手法(非特許文献1参照)等が存在する。
また、近年では、深層学習を用いた手法により、被写体の色、形状等の事前情報を利用しないで、撮影画像上で2次元被写体領域を推定する技術が存在する(非特許文献2参照)。また、深層学習を用いた手法により、1枚の画像から被写体の3次元空間上の位置を推定する技術が存在する(非特許文献3参照)。
【先行技術文献】
【特許文献】
【0003】
【非特許文献】
【0004】
【非特許文献1】冨山仁博,片山美和,岩舘祐一,今泉浩幸,“視体積交差法とステレオマッチング法を用いた多視点画像からの3次元動オブジェクト生成手法”,映像情報メディア学会誌,no.58,vol.6,pp.797-806,2004.
【非特許文献2】Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi ,“ You Only Look Once: Unified, Real-Time Object Detection”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 779-788, 2016.
【非特許文献3】Adel Ahmadyan, Liangkai Zhang, Artsiom Ablavatski, Jianing Wei, Matthias Grundmann,“Objectron: A Large Scale Dataset of Object-Centric Videos in the Wild with Pose Annotations”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7822-7831, 2021.
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載の手法は、被写体領域を推定するために色情報等の事前情報が必要となる。そのため、この手法は、事前情報を取得するための装置が別途必要となってしまう。
非特許文献1に記載の手法は、3次元モデルの形状を精度よく生成するものであるため、計算コストが高くなってしまう。
非特許文献2に記載の手法は、深層学習を用いた手法で撮影画像上での2次元被写体領域を推定するものである。この手法を適用して被写領域を推定するには、カメラの台数、解像度特性に比例してコストが高くなってしまう。
非特許文献3に記載の手法は、1枚の撮影画像から3次元の被写領域を推定するため、ステレオカメラのカメラ間の距離といった長さ情報が未定である。そのため、この手法は、被写体領域のスケールが定まらないことになる。さらに、この手法は、1枚の撮影画像のみを用いるため、オクルージョンによる誤推定を避けることができない。
【0006】
本発明は、このような問題に鑑みてなされたもので、カメラの台数が少なくても、また、カメラが低解像度であっても、複数のカメラで撮影した撮影画像から、3次元被写体領域を推定することが可能な3次元被写体領域推定装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
前記課題を解決するため、本発明に係る3次元被写体領域推定装置は、撮影画像から被写体の3次元被写体領域を推定する3次元被写体領域推定装置であって、2次元被写体領域推定手段と、3次元被写体領域再構成手段と、を備え、3次元被写体領域再構成手段は、投影線算出手段と、最近傍点垂足算出手段と、被写体領域頂点算出手段と、立体形状近似手段と、を備える構成とした。
【0008】
かかる構成において、3次元被写体領域推定装置は、2次元被写体領域推定手段によって、複数のカメラで撮影された撮影画像ごとに2次元被写体領域を推定する。なお、2次元被写体領域は、撮影画像から被写体領域を検出するように予め学習したニューラルネットワーク等の機械学習のモデルを用いて推定することができる。
【0009】
そして、3次元被写体領域推定装置は、3次元被写体領域再構成手段によって、カメラごとの2次元被写体領域から被写体の3次元被写体領域を再構成する。
すなわち、3次元被写体領域推定装置は、投影線算出手段によって、カメラごとに、2次元被写体領域の重心を世界座標に変換し、世界座標における重心とカメラの光学中心とを通る直線を投影線として算出する。
そして、3次元被写体領域推定装置は、最近傍点垂足算出手段によって、カメラごとの投影線の最近傍点からそれぞれの投影線への垂足の位置を算出する。
【0010】
そして、3次元被写体領域推定装置は、被写体領域頂点算出手段によって、カメラごとに、垂足の位置に2次元被写体領域の重心を投影する投影面に2次元被写体領域の頂点を投影し、投影後の頂点の世界座標を算出する。これによって、カメラごとに、2次元被写体領域の頂点の世界座標上での位置が特定されることになる。
そして、3次元被写体領域推定装置は、立体形状近似手段によって、投影後の世界座標の頂点の位置を立体形状で近似し、立体形状の形状情報を3次元被写体領域として算出する。
【0011】
これによって、3次元被写体領域推定装置は、複数の撮影画像から、立体形状で3次元被写体領域を推定する。
なお、3次元被写体領域推定装置は、コンピュータを、前記した各手段として機能させるための3次元被写体領域推定プログラムで動作させることができる。
【発明の効果】
【0012】
本発明によれば、複数のカメラで撮影した撮影画像から、3次元被写体領域を高速かつ高精度に推定することができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の第1実施形態に係る3次元被写体領域推定装置を含んだ被写体領域推定システムの構成を示す全体構成図である。
【
図2】本発明の第1実施形態に係る3次元被写体領域推定装置の構成を示すブロック構成図である。
【
図3】被写体領域推定手段において推定される2次元被写体領域の例を説明するための説明図である。
【
図4】投影線算出手段における投影線を説明するための説明図である。
【
図5】最近傍点垂足算出手段における垂足の位置を説明するための説明図である。
【
図6】被写体領域頂点算出手段における垂足の位置と2次元被写体領域の重心とを一致させた投影面への2次元被写体領域の投影を説明するための説明図である。
【
図7】被写体領域頂点算出手段における投影面への2次元被写体領域の頂点の投影を説明するための説明図である。
【
図8】投影後の2次元被写体領域に被写体が存在することを説明するための説明図である。
【
図9】投影後の2次元被写体領域の頂点内に被写体が存在することを説明するための説明図である。
【
図10】立体形状近似手段における2次元被写体領域の頂点の球体形状への近似を説明するための説明図である。
【
図11】本発明の第1実施形態に係る3次元被写体領域推定装置の動作を示すフローチャートである。
【
図12】本発明の第2実施形態に係る3次元被写体領域推定装置を含んだ被写体領域推定システムの構成を示す全体構成図である。
【
図13】本発明の第2実施形態に係る3次元被写体領域推定装置の構成を示すブロック構成図である。
【
図14】本発明の第2実施形態に係る3次元被写体領域推定装置の動作を示すフローチャートである。
【
図15】変形例に係る3次元被写体領域推定装置の構成を示すブロック構成図である。
【
図16】被写体領域可視化手段における被写体領域の可視化の例を説明するための説明図である。
【
図17】2次元被写体領域の変形例を示す図であって、(a)は被写体領域全体、(b)は被写体のバストアップ領域、(c)は被写体の顔領域を示す。
【
図18】1つの被写体に複数の対象領域を設定する例を説明するための説明図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態について図面を参照して説明する。
[被写体領域推定システム:第1実施形態]
図1を参照して、本発明の第1実施形態に係る3次元被写体領域推定装置を含んだ被写体領域推定システムの構成について説明する。
【0015】
被写体領域推定システム1000は、2台以上のカメラ2で被写体Sを撮影し、その撮影画像から、被写体Sの3次元空間上の領域を推定するものである。
ここでは、
図1に示すように、被写体領域推定システム1000は、3次元被写体領域推定装置1と、2台以上のカメラ2(2
1,2
2,…)とで構成される。
【0016】
3次元被写体領域推定装置1は、複数のカメラ2(21,22,…)で撮影された複数の撮影画像から、被写体Sの3次元空間上の領域(3次元被写体領域)を推定するものである。
【0017】
カメラ2は、被写体Sを撮影するものである。このカメラ2は、撮影位置を予め定めた固定カメラである。
このカメラ2は、被写体Sを撮影する一般的なビデオカメラを用いることができる。なお、3次元被写体領域を推定するには、被写体Sを多方向から撮影する必要があるため、カメラ2は、少なくとも2台以上が必要となる。
カメラ2は、3次元被写体領域推定装置1と有線または無線で接続され、時系列の撮影画像(フレーム画像)を3次元被写体領域推定装置1に出力する。
以下、3次元被写体領域推定装置1の構成および動作について説明する。
【0018】
[3次元被写体領域推定装置の構成]
図2を参照(適宜
図1参照)して、本発明の第1実施形態に係る3次元被写体領域推定装置1の構成について説明する。
ここでは、3次元被写体領域推定装置1は、2次元被写体領域推定手段10と、3次元被写体領域再構成手段11と、を備える。
【0019】
2次元被写体領域推定手段10は、カメラ2(21,22,…)ごとに、入力される撮影画像の2次元の被写体領域(2次元被写体領域)を推定するものである。
2次元被写体領域推定手段10は、カメラ校正手段100と、被写体領域推定手段101と、を備える。
【0020】
カメラ校正手段100は、カメラ2(21,22,…)のカメラ校正を行うものである。ここで、カメラ校正とは、カメラ2のカメラパラメータを推定する処理である。
カメラパラメータには、カメラ2のカメラ位置、カメラ姿勢、焦点距離、主点位置等が含まれる。カメラ位置は、カメラ2の光学中心の世界座標である。カメラ姿勢は、世界座標に対する撮像面の姿勢を規定する3軸姿勢角(チルト,パン,ロール)や回転行列である。
なお、カメラ校正は、例えば、以下の参考文献、特開2018-189580等に記載の一般的な手法を用いることができるため、ここでは、詳細な説明を省略する。
(参考文献)Zhengyou Zhang,“A flexible new technique for camera calibration”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.22, no. 11, pp. 1330-1334, 2000.
【0021】
カメラ校正手段100は、3次元被写体領域推定装置1が、3次元被写体領域を推定する前処理としてカメラ校正を行う。
カメラ校正手段100は、推定したカメラパラメータを3次元被写体領域再構成手段11に出力する。なお、カメラ校正手段100は、3次元被写体領域推定装置1の外部に、カメラ校正装置として分離して構成してもよい。
【0022】
被写体領域推定手段101は、複数のカメラ2(21,22,…)で撮影された撮影画像ごとに2次元被写体領域を推定するものである。
被写体領域推定手段101は、撮像画像から一般的な物体検出により被写体領域を推定することができる。例えば、被写体領域推定手段101は、撮影画像から被写体領域を検出するように予め学習したニューラルネットワーク等の機械学習のモデルを用いて、カメラ2で撮影された撮影画像から2次元被写体領域を推定する。
この物体検出による領域推定には、SSD(Single Shot Multibox Detector)、YOLO(You Only Look Once;非特許文献2)v5等を用いることができる。
なお、ここでは、被写体Sの例を人物として説明するが、必ずしも人物である必要はない。すなわち、被写体領域推定手段101は、機械学習のモデルとして人物以外を予め学習しておくことで、任意の物体を被写体とすることができる。
【0023】
被写体領域推定手段101は、
図3に示すように、撮影画像Iにおいて、被写体Sを囲む矩形領域(バウンディングボックス)を2次元被写体領域Aとする。なお、2次元被写体領域は、三角形あるいは五角形以上の多角形であっても構わない。
被写体領域推定手段101は、推定したカメラ2ごとの2次元被写体領域、具体的には、撮影画像の画像平面上における2次元被写体領域の頂点の位置を、3次元被写体領域再構成手段11に出力する。
【0024】
3次元被写体領域再構成手段11は、カメラパラメータに基づいて、2次元被写体領域推定手段10で推定されたカメラごとの2次元被写体領域から、被写体Sの3次元被写体領域を再構成するものである。
3次元被写体領域再構成手段11は、投影線算出手段110と、最近傍点垂足算出手段111と、被写体領域頂点算出手段112と、立体形状近似手段113と、を備える。
【0025】
投影線算出手段110は、カメラ2ごとに、2次元被写体領域の重心(バウンディングボックスの中心)を世界座標に変換し、世界座標における重心とカメラの光学中心とを通る直線を投影線として算出するものである。
投影線算出手段110は、カメラ2ごとの投影線を特定する情報(ここでは、カメラ原点〔光学中心〕および投影線の傾き)を3次元被写体領域再構成手段11に出力する。
【0026】
ここで、
図4を参照して、投影線算出手段110における投影線Lの算出手法について具体的に説明する。
図4は、カメラ位置(光学中心)をカメラ原点Cとするピンホールモデルにおいて、カメラ原点Cから焦点距離だけ離隔した画像平面IP上に2次元被写体領域Aが存在していることを示している。
画像平面IPにおける画素位置の座標(u,v)と、世界座標における座標(x,y,z)とは、以下の式(1)の関係がある。
【0027】
【0028】
ここで、(fx,fy)はカメラ2の焦点距離、(cx,cy)はカメラ2の主点位置を示す。Rはカメラ座標系の世界座標系における姿勢(回転行列)、tはカメラ座標系の原点の世界座標系における位置を示す。なお、sは左辺の行列の3行目と右辺の行列の4行目とを一致させるスケールである。
ここで、画像平面IPにおける2次元被写体領域Aの重心Gの座標を(uG,vG)としたとき、重心Gの世界座標における座標(xG,yG,zG)は、以下の式(2)により求めることができる。
【0029】
【0030】
なお、[R t]-1は、疑似逆行列として解けばよい。
すなわち、投影線算出手段110は、世界座標であるカメラ原点Cの座標(xC,yC,zC)を通り、傾きが以下の式(3)となる直線を投影線Lとして求める。
【0031】
【0032】
図2に戻って、3次元被写体領域推定装置1の構成について説明を続ける。
最近傍点垂足算出手段111は、カメラ2ごとの投影線の最近傍点からそれぞれの投影線への垂足の位置を算出するものである。ここで、垂足とは、直線(ここでは投影線)に下した垂線の足がその直線と交わる点である。
最近傍点垂足算出手段111は、各投影線への垂足P
1,P
2,…,P
N(Nはカメラ2の台数)の距離の総和が最小となる最近傍点Qを算出する。すなわち、最近傍点垂足算出手段111は、以下の式(4)に示す最小二乗問題を解くことで最近傍点Qを算出する。なお、||ベクトルP
nQ||は、ベクトルP
nQの長さを示す。
【0033】
【0034】
式(4)の解法は一般的な手法であるため説明を省略する。
そして、最近傍点垂足算出手段111は、垂足Pn(n=1,2,…,N)を投影線上に持つカメラ2nのカメラ原点CnにおけるベクトルCnPnと、ベクトルQPnとが垂直であることから、以下の式(5)の関係により、垂足Pnを算出する。
【0035】
【0036】
最近傍点垂足算出手段111は、算出したカメラ2ごとの投影線の垂足の位置を被写体領域頂点算出手段112に出力する。
なお、ここでは、最近傍点垂足算出手段111は、最近傍点Qを算出してから各垂足Pnを算出した。しかし、カメラ2が2台の場合、最近傍点垂足算出手段111は、必ずしも最近傍点Qを算出する必要はない。カメラ2が2台の場合、2本の投影線の最短距離となる直線が、必ず投影線に対して垂直となるためである。
【0037】
ここで、
図5を参照して、カメラ2が2台の場合に、最近傍点垂足算出手段111が最近傍点から投影線への垂足を求める手法について説明する。
図5は、2つのカメラ原点C
1,C
2から焦点距離だけ離隔した画像平面IP
1,IP
2上に存在する2次元被写体領域A
1,A
2の重心G
1,G
2とカメラ原点C
1,C
2とを通るねじれの位置にある2つの投影線L
1,L
2を図示している。また、投影線L
1,L
2の最近傍点Qからの垂足をP
1,P
2として図示している。なお、
図5では、便宜上、最近傍点Qを図示しているが、本手法においては使用しない。
この場合、投影線L
1(ベクトルC
1G
1),L
2(ベクトルC
2G
2)とP
1,P
2とを結ぶ直線(ベクトルP
1P
2)は直交することから、以下の式(6)の関係を満たす。
【0038】
【0039】
ここで、m1,m2を変数として、以下の式(7)が成り立つ。
【0040】
【0041】
この式(7)から、ベクトルP1P2は、以下の式(8)に変形することができる。
【0042】
【0043】
このベクトルP1P2を式(6)に代入して変形すると、m1,m2は以下の式(9)となる。
【0044】
【0045】
このm
1,m
2を式(7)に代入することで、既知のカメラ原点C
1,C
2および重心G
1,G
2の世界座標から、垂足P
1,P
2を求めることができる。
すなわち、最近傍点垂足算出手段111は、m
1,m
2を式(7)に代入した演算式により、垂足P
1,P
2を算出する。
図2に戻って、3次元被写体領域推定装置1の構成について説明を続ける。
【0046】
被写体領域頂点算出手段112は、カメラ2ごとに、垂足の位置に2次元被写体領域の重心を投影する投影面に2次元被写体領域の頂点を投影し、投影後の頂点の世界座標を算出するものである。
被写体領域頂点算出手段112は、算出した頂点に対応する世界座標(3次元座標)を立体形状近似手段113に出力する。
【0047】
ここで、
図6,
図7を参照して、被写体領域頂点算出手段112における2次元被写体領域の頂点に対応する3次元座標を算出する手法について具体的に説明する。
図6は、カメラ位置(光学中心)をカメラ原点Cとするピンホールモデルにおいて、カメラ原点Cから焦点距離だけ離隔した画像平面IP上に2次元被写体領域Aが存在した状態を示している。また、
図6は、2次元被写体領域Aの重心Gを投影したG′が垂足Pの位置と一致する、画像平面IPと平行な投影面PPに、2次元被写体領域Aを投影した2次元被写体領域A′を示している。
図7は、
図6から、2次元被写体領域Aおよび投影後の2次元被写体領域A′のみを抽出して図示したものである。
ここで、カメラ原点C、重心Gおよび垂足Pは、前記式(7)と同様の関係から、以下の式(10)の関係が成り立つ。
【0048】
【0049】
なお、m1は、前記式(9)で算出された値である。
同様に、カメラ位置(光学中心)をカメラ原点Cとするピンホールモデルにおいて、2次元被写体領域Aの頂点V0,V1,V2,V3の3次元座標と、投影後の頂点V0′,V1′,V2′,V3′の3次元座標とは、以下の式(11)の関係が成り立つ。
【0050】
【0051】
被写体領域頂点算出手段112は、前記式(2)の重心の座標の代わりに、画像平面IPにおける2次元被写体領域Aの頂点V0,V1,V2,V3の画像座標を入力することで、頂点V0,V1,V2,V3の世界座標(3次元座標)を算出する。
そして、被写体領域頂点算出手段112は、算出した頂点V0,V1,V2,V3の世界座標と、既知のカメラ原点Cの3次元座標と値m1とを用いて、前記式(11)により、投影後の2次元被写体領域A′の頂点V0′,V1′,V2′,V3′の3次元座標を算出することができる。
【0052】
この投影後の2次元被写体領域A′の重心G′は、カメラ原点Cと2次元被写体領域Aの重心Gとを結ぶ複数のカメラ2の投影線Lの最近傍点からの垂足Pの位置に存在する。
そのため、被写体Sは、カメラ2ごとに算出される投影後の2次元被写体領域A′によって特定される領域に存在することになる。
【0053】
例えば、
図8,
図9に示すように、カメラ2が2台の場合、投影後の2次元被写体領域A
1′,A
2′の重心G
1′,G
2′は、カメラ原点C
1,C
2と投影前の2次元被写体領域の重心とを結ぶ複数の投影線L
1,L
2の最近傍点からの垂足の位置に存在する。
そのため、被写体Sは、頂点V
10′,V
11′,V
12′,V
13′の2次元被写体領域A
1′に存在するとともに、頂点V
20′,V
21′,V
22′,V
23′の2次元被写体領域A
2′に存在することになる。
このように、被写体Sは、投影後の2次元被写体領域A
1′,A
2′の各頂点で特定される3次元空間領域に存在することになる。
図2に戻って、3次元被写体領域推定装置1の構成について説明を続ける。
【0054】
立体形状近似手段113は、被写体領域頂点算出手段112で算出された投影後の世界座標の頂点の位置を立体形状で近似し、立体形状の形状情報を3次元被写体領域として算出するものである。これによって、立体形状近似手段113は、複数の頂点の点群から、被写体が存在する3次元空間上の領域を1つの立体形状で表現することができる。
ここでは、立体形状近似手段113は、被写体領域頂点算出手段112で算出されたすべての頂点を、球体形状で近似し、近似した球体の形状情報を3次元被写体領域として算出する。
すなわち、立体形状近似手段113は、
図10に示すように、被写体領域頂点算出手段112で算出されたすべての頂点、ここでは、V
10′,V
11′,V
12′,V
13′,V
20′,V
21′,V
22′,V
23′を球体SPの形状で近似する。
これによって、立体形状近似手段113は、被写体Sの3次元被写体領域を、球体の位置および大きさで特定することができる。
【0055】
ここでは、立体形状近似手段113は、各頂点から球体の中心位置までの距離と、球体の半径との差の総和が最小となる球体の形状(中心位置および半径)を算出する。すなわち、立体形状近似手段113は、以下の式(12)に示す最小二乗問題を解くことで球体の形状(中心位置および半径)を算出する。なお、Vn′は、被写体領域頂点算出手段112で算出された頂点の世界座標を示し、nは1~M(Mは頂点の総数)の値をとる。また、Xsは球体の中心位置(3次元座標)、rは球体の半径を示す。また、||Vn′-Xs||は、Vn′とXsとの距離を示す。
【0056】
【0057】
立体形状近似手段113は、算出した球体の形状(中心位置および半径)を、3次元被写体領域をとして出力する。
以下、式(12)の解法について数式を用いて説明しておく。
前記式(12)が最小値をとるためには、以下の式(13),式(14)を満たす必要がある。
【0058】
【0059】
前記式(13)から、半径rは、以下の式(15)となる。
【0060】
【0061】
また、前記式(14)は、以下の式(16)に変形することができる。
【0062】
【0063】
なお、内積には、転置Tを用いた以下の式(17)の関係がある。なお、a,b,cは、同次元のベクトルである。
【0064】
【0065】
よって、前記式(16)の右辺の一部は、以下の式(18),式(19)のように変形することができる。
【0066】
【0067】
この式(18),式(19)の変形後の式を式(16)に代入して変形することで、以下の式(20)に示す式を導くことができる。
【0068】
【0069】
すなわち、立体形状近似手段113は、式(20)により被写体領域を3次元空間上で推定した球体の中心位置Xsを算出する。
また、立体形状近似手段113は、中心位置Xsを前記式(15)に代入して球体の半径を算出する。
【0070】
以上説明したように、3次元被写体領域推定装置1は、カメラの台数が少なくても、複数の撮影画像から、3次元の被写体領域を精度よく推定することができる。
また、3次元被写体領域推定装置1は、カメラ2ごとの2次元被写体領域を投影する簡易な処理で3次元被写体領域を推定するため、高速に推定を行うことができる。
なお、3次元被写体領域推定装置1は、コンピュータを、前記した各部として機能させるためのプログラム(3次元被写体領域推定プログラム)で動作させることができる。
【0071】
[3次元被写体領域推定装置の動作]
次に、
図11を参照(構成については、適宜
図2参照)して、本発明の第1実施形態に係る3次元被写体領域推定装置1の動作について説明する。
なお、ここでは、カメラ校正手段100が、予めカメラ2(2
1,2
2,…)のカメラ校正を行い、カメラパラメータを取得しているものとする。
【0072】
ステップS1において、被写体領域推定手段101は、カメラ2(2
1,2
2,…)で撮影された撮影画像から、学習済の機械学習モデルを用いて、カメラ2ごとの2次元被写体領域を推定する。ここでは、2次元被写体領域をバウンディングボックスとする(
図3参照)。
ステップS2において、投影線算出手段110は、カメラごとに、2次元被写体領域の重心(バウンディングボックスの中心)を世界座標に変換し、カメラ原点(光学中心)から重心を通る直線を投影線として算出する(
図4参照)。このカメラ2ごとの投影線上に2次元被写体領域の重心が投影されることになる。
【0073】
ステップS3において、最近傍点垂足算出手段111は、ステップS2で算出された複数のカメラ2の投影線の最近傍点から各投影線へ垂直に下した垂足の位置を算出する(
図5参照)。この垂足の位置によって、最近傍点垂足算出手段111は、2次元被写体領域の重心が投影される位置を特定することができる。
ステップS4において、被写体領域頂点算出手段112は、ステップS3で算出された垂足の位置に2次元被写体領域の重心を投影する投影面に2次元被写体領域の頂点を投影し、投影後の頂点の世界座標を算出する(
図6~
図9参照)。
このカメラ2ごとに算出されるバンディングボックスの頂点の内側に被写体が存在することになる。
【0074】
ステップS5において、立体形状近似手段113は、ステップS4で算出されたすべての頂点(3次元座標)を球体表面に近似し、近似した球体の形状(中心位置および半径)を、3次元被写体領域として算出する(
図10参照)。
ステップS6において、3次元被写体領域推定装置1は、外部指示等によって推定終了が指示されたか否かを判定する。
推定終了が指示されなかった場合(ステップS6でNo)、3次元被写体領域推定装置1は、ステップS1に戻って、3次元被写体領域の推定動作を継続する。
一方、推定終了が指示された場合(ステップS6でYes)、3次元被写体領域推定装置1は、動作を終了する。
【0075】
以上の動作によって、3次元被写体領域推定装置1は、複数の撮影画像から、2次元被写体領域の投影を行う簡易な処理によって、高速に3次元被写体領域を推定することができる。
このように、3次元被写体領域推定装置1は、高速に3次元被写体領域を推定することができるため、例えば、舞台上の演者の3次元被写体領域をリアルタイムで推定し、それに連動して、照明を演者の動きに合わせて制御することが可能になる。
【0076】
[被写体領域推定システム:第2実施形態]
次に、
図12を参照して、本発明の第2実施形態に係る3次元被写体領域推定装置を含んだ被写体領域推定システムの構成について説明する。
【0077】
被写体領域推定システム1000Bは、2台以上のカメラ2で被写体Sを撮影し、その撮影画像から、被写体Sの3次元空間上の領域を推定し、1台以上の撮影カメラ3で被写体Sを追従して撮影するものである。
ここでは、
図12に示すように、被写体領域推定システム1000Bは、3次元被写体領域推定装置1Bと、2台以上のカメラ2(2
1,2
2,…)と、1台以上の撮影カメラ3(3
1,3
2,…)とで構成される。
【0078】
3次元被写体領域推定装置1Bは、複数のカメラ2(2
1,2
2,…)で撮影された複数の撮影画像から、被写体Sの3次元空間上の領域(3次元被写体領域)を推定し、被写体Sに追従するように撮影カメラ3(3
1,3
2,…)を制御するものである。
カメラ2は、
図1で説明したカメラと同じものであるため説明を省略する。
【0079】
撮影カメラ3は、3次元被写体領域推定装置1Bの制御によって、被写体Sを撮影するものである。
撮影カメラ3は、パン、チルト、ズームまたは並進が制御可能なロボットカメラ、位置、姿勢、ズームが制御可能なドローン搭載のカメラ等を用いることができる。
撮影カメラ3は、3次元被写体領域推定装置1Bと有線または無線で接続され、3次元被写体領域推定装置1Bからの制御により動作する。
以下、3次元被写体領域推定装置1の構成および動作について説明する。
【0080】
[3次元被写体領域推定装置の構成]
図13を参照(適宜
図12参照)して、本発明の第2実施形態に係る3次元被写体領域推定装置1Bの構成について説明する。
ここでは、3次元被写体領域推定装置1Bは、2次元被写体領域推定手段10と、3次元被写体領域再構成手段11と、カメラ制御手段12と、を備える。
【0081】
2次元被写体領域推定手段10および3次元被写体領域再構成手段11は、
図2で説明した3次元被写体領域推定装置1と同じ構成であるため、説明を省略する。
ただし、3次元被写体領域推定装置1Bの2次元被写体領域推定手段10は、カメラ校正手段100において、カメラ2(2
1,2
2,…)以外に、撮影カメラ3(3
1,3
2,…)について予め定めた基準位置でカメラ校正を行うこととする。カメラ校正手段100は、撮影カメラ3(3
1,3
2,…)のカメラパラメータをカメラ制御手段12に出力する(不図示)。
【0082】
カメラ制御手段12は、3次元被写体領域再構成手段11で再構成された被写体Sの3次元被写体領域を画角内に収めるように、撮影カメラ3を制御するものである。
カメラ制御手段12は、駆動量算出手段120と、撮影カメラ制御手段121と、を備える。
【0083】
駆動量算出手段120は、被写体Sの3次元被写体領域を画角内に収めるための撮影カメラ3の駆動量を算出するものである。
駆動量算出手段120は、例えば、撮影カメラ3がロボットカメラであれば、現在の撮影カメラ3のパン、チルトおよびズームの値、または、カメラ位置から、被写体Sの3次元被写体領域を画角内に収めるため、パン、チルトおよびズームの駆動量、または、カメラ位置の並進量(移動量)を算出する。なお、現在の撮影カメラ3のパン、チルトおよびズームの値やカメラ位置は、図示を省略した記憶手段に逐次記憶することとしてもよいし、撮影カメラ3から取得することとしてもよい。
【0084】
また、駆動量算出手段120は、例えば、撮影カメラ3がドローン搭載のカメラであれば、現在の撮影カメラ3の位置、姿勢およびズームの値から、被写体Sの3次元被写体領域を画角内に収めるため、撮影カメラ3の位置、姿勢およびズームの駆動量を算出する。
なお、被写体Sの3次元被写体領域を画角内に収めるための撮影カメラ3の駆動量の算出は、一般的な手法を用いればよく、例えば、特開2007-1343845に記載の手法を用いることができる。
駆動量算出手段120は、算出した駆動量を撮影カメラ制御手段121に出力する。
撮影カメラ制御手段121は、駆動量算出手段120で算出された駆動量で、撮影カメラ3を駆動制御するものである。
【0085】
以上説明したように、3次元被写体領域推定装置1Bは、3次元被写体領域推定装置1の効果に加え、撮影カメラ3で被写体を追従して撮影することができる。
なお、3次元被写体領域推定装置1Bは、コンピュータを、前記した各部として機能させるためのプログラム(3次元被写体領域推定プログラム)で動作させることができる。
【0086】
[3次元被写体領域推定装置の動作]
次に、
図14を参照(構成については、適宜
図13参照)して、本発明の第2実施形態に係る3次元被写体領域推定装置1Bの動作について説明する。
なお、
図14において、ステップS1~S5,S6の動作は、
図11で説明した3次元被写体領域推定装置1の動作と同じであるため、説明を省略する。
ステップ5の後、ステップS5Bにおいて、カメラ制御手段12は、ステップS5で推定された3次元被写体領域で特定される領域が画角内に入るように、撮影カメラ3を制御する。
【0087】
ここでは、まず、駆動量算出手段120が、被写体Sの3次元被写体領域を画角内に収めるための撮影カメラ3の駆動量を算出する。
そして、撮影カメラ制御手段121が、駆動量算出手段120で算出された駆動量で、撮影カメラ3を駆動制御する。
これによって、3次元被写体領域推定装置1Bは、撮影カメラ3で、被写体の動きに連動してリアルタイムに被写体を撮影することができる。
以上、本発明の実施形態について説明したが、本発明は、これらの実施形態に限定されるものではない。
【0088】
(変形例1)
例えば、3次元被写体領域推定装置1Bは、
図15に示すように、さらに、表示手段13を備える構成としてもよい。
図15に示すように、表示手段13は、撮影カメラ3で撮影された画像を、図示を省略した表示装置(モニタ)に表示するものである。なお、表示装置(不図示)は、撮影カメラ3の数に対応して複数接続してもよいし、1台の表示装置で複数の撮影カメラ3の画像を表示する構成としてもよい。
ここでは、表示手段13は、被写体領域可視化手段130を備える。
【0089】
被写体領域可視化手段130は、撮影カメラ3で撮影された画像に、3次元被写体領域再構成手段11の立体形状近似手段113で算出された3次元被写体領域を可視化するものである。
被写体領域可視化手段130は、撮影カメラ3で撮影された画像に立体形状近似手段113で算出された3次元被写体領域である球体をことでする。
【0090】
例えば、
図16に示すように、撮影カメラ3の撮影画像Iごとに、立体形状近似手段113で算出された3次元被写体領域を近似した球体の表面を離散的な点P
SPで表示することで、3次元被写体領域を可視化する。
なお、点P
SPは、
図10の世界座標上の中心位置X
sと半径rとで特定される球体SPにおいて、例えば、中心位置X
sを原点とする方位角、仰角をそれぞれ30度間隔とする球体表面の座標を撮影画像Iに投影したものである。点P
SPは、世界座標上で撮影画像Iに近いほど点を大きく表示してもよい。
【0091】
(変形例2)
また、ここでは、立体形状近似手段113は、2次元被写体領域のすべての頂点を球体形状で近似した。すなわち、立体形状近似手段113は、すべての頂点を、長径と短径とが等しい楕円を長径(=短径)を軸に回転して形成される楕円体で近似した。
しかし、近似する立体形状は、長径と短径とが異なる楕円を回転した楕円体であっても構わない。
これによって、立体形状近似手段113は、被写体が人物の場合、被写体領域の形状をより正確に特定することができる。
【0092】
(変形例3)
また、ここでは、被写体領域推定手段101は、2次元被写体領域として、被写体全体の領域を推定した。
しかし、被写体領域推定手段101は、必ずしも被写体全体の領域を推定する必要はなく、予め定めた対象領域ごとに複数の2次元被写体領域を推定してもよい。例えば、被写体領域推定手段101は、
図17(a)に示す被写体全体の領域(被写体領域A
A)以外に、
図17(b)に示す被写体のバストアップの領域(被写体領域A
B)、
図17(c)に示す被写体の顔の領域(被写体領域A
C)等を対象領域としてもよい。
この場合、被写体領域推定手段101は、推定する対象領域(被写体領域、バストアップ領域、顔領域等)に応じて予め学習したニューラルネットワーク等の機械学習のモデルを用いて、2次元被写体領域を推定すればよい。
【0093】
(変形例4)
また、ここでは、2次元被写体領域推定手段10がカメラ2ごとに撮影画像から1つの2次元被写体領域を推定し、3次元被写体領域再構成手段11が複数の2次元被写体領域を3次元に再構成することで、3次元被写体領域を推定した。
しかし、2次元被写体領域推定手段10が撮影画像から被写体領域の異なる領域を複数推定し、3次元被写体領域再構成手段11が指定された領域のみについて3次元に再構成することとしてもよい。
【0094】
例えば、被写体領域推定手段101は、
図18に示すように、被写体全体の領域(被写体領域A
A)と、被写体のバストアップの領域(被写体領域A
B)、被写体の顔の領域(被写体領域A
C)等、1つの被写体において複数の2次元被写体領域を推定する。
この場合、被写体領域推定手段101は、予め学習したニューラルネットワーク等の機械学習のモデルを複数備え、並列に各領域を推定する。
【0095】
そして、被写体領域推定手段101は、被写体全体、バストアップ、顔等の2次元被写体領域を区分する識別子とともに、2次元被写体領域の頂点の位置を3次元被写体領域再構成手段11に出力する。
そして、投影線算出手段110は、外部から識別子を指定されることで、識別子に対応する2次元被写体領域のみについて投影線を算出する。これによって、3次元被写体領域再構成手段11は、識別子で特定される領域についてのみ、3次元被写体領域を推定することができる。
【0096】
このとき、識別子を時間情報に対応付けた制御台本を外部から入力されることで、3次元被写体領域再構成手段11は、制御台本の時間情報に沿った識別子に対応する対象領域について3次元被写体領域を推定することができる。
これによって、3次元被写体領域推定装置1B,1Cは、制御台本に応じて、撮影カメラ3を制御し、被写体を追従して撮影することができる。
【符号の説明】
【0097】
1,1B,1C 3次元被写体領域推定装置
10 2次元被写体領域推定手段
100 カメラ校正手段
101 被写体領域推定手段
11 3次元被写体領域再構成手段
110 投影線算出手段
111 最近傍点垂足算出手段
112 被写体領域頂点算出手段
113 立体形状近似手段
12,12B カメラ制御手段
120 駆動量算出手段
121 撮影カメラ制御手段
13 表示手段
130 被写体領域可視化手段
2 カメラ(固定カメラ)
3 撮影カメラ
1000,1000B 被写体領域推定システム