2023-162561 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2023-162561３次元被写体領域推定装置およびそのプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023162561

(43)【公開日】2023-11-09

(54)【発明の名称】３次元被写体領域推定装置およびそのプログラム

(51)【国際特許分類】

G06T 7/55 20170101AFI20231101BHJP

【ＦＩ】

G06T7/55

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022072961

(22)【出願日】2022-04-27

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】山田文香

(72)【発明者】

【氏名】盛岡寛史

(72)【発明者】

【氏名】三須俊枝

(72)【発明者】

【氏名】三ツ峰秀樹

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA05

5L096FA60

5L096FA62

5L096FA69

5L096HA11

5L096KA04

(57)【要約】

【課題】撮影画像から被写体の３次元被写体領域を推定することが可能な３次元被写体領域推定装置を提供する。
【解決手段】３次元被写体領域推定装置１は、撮影画像から２次元被写体領域を推定する２次元被写体領域推定手段１０と、２次元被写体領域の世界座標の重心とカメラの光学中心とを通る直線を投影線として算出する投影線算出手段１１０と、複数の投影線の最近傍点からそれぞれの投影線への垂足の位置を算出する最近傍点垂足算出手段１１１と、垂足の位置に２次元被写体領域の重心を投影する投影面に２次元被写体領域の頂点を投影し、頂点の世界座標を算出する被写体領域頂点算出手段１１２と、すべての頂点を立体形状で近似し、３次元被写体領域とする立体形状近似手段１１３と、を備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

撮影画像から被写体の３次元被写体領域を推定する３次元被写体領域推定装置であって、
複数のカメラで撮影された前記撮影画像ごとに２次元被写体領域を推定する２次元被写体領域推定手段と、
前記カメラごとの２次元被写体領域から前記被写体の３次元被写体領域を再構成する３次元被写体領域再構成手段と、を備え、
前記３次元被写体領域再構成手段は、
前記カメラごとに、前記２次元被写体領域の重心を世界座標に変換し、世界座標における前記重心と前記カメラの光学中心とを通る直線を投影線として算出する投影線算出手段と、
前記カメラごとの前記投影線の最近傍点からそれぞれの投影線への垂足の位置を算出する最近傍点垂足算出手段と、
前記カメラごとに、前記垂足の位置に前記２次元被写体領域の重心を投影する投影面に前記２次元被写体領域の頂点を投影し、投影後の頂点の世界座標を算出する被写体領域頂点算出手段と、
前記投影後の世界座標の前記頂点の位置を立体形状で近似し、前記立体形状の形状情報を３次元被写体領域として算出する立体形状近似手段と、
を備えることを特徴とする３次元被写体領域推定装置。

【請求項2】

前記３次元被写体領域を画角内に収めるための撮影カメラの駆動量を算出する駆動量算出手段と、
前記駆動量に基づいて、前記撮影カメラを駆動する撮影カメラ制御手段と、
をさらに備えることを特徴とする請求項１に記載の３次元被写体領域推定装置。

【請求項3】

前記２次元被写体領域推定手段は、前記被写体に対して予め定めた対象領域ごとに複数の２次元被写体領域を推定し、前記３次元被写体領域再構成手段は、指定された対象領域の２次元被写体領域から、前記対象領域の３次元被写体領域を再構成することを特徴とする請求項２に記載の３次元被写体領域推定装置。

【請求項4】

前記３次元被写体領域再構成手段は、前記対象領域を指定する識別子と時間情報とを対応付けた制御台本に基づいて、３次元被写体領域を再構成する対象領域を切り替えることを特徴とする請求項３に記載の３次元被写体領域推定装置。

【請求項5】

前記立体形状を前記撮影カメラで撮影された撮影画像に投影し、前記３次元被写体領域を可視化する被写体領域可視化手段をさらに備えることを特徴とする請求項２に記載の３次元被写体領域推定装置。

【請求項6】

前記立体形状は球体であって、前記立体形状近似手段は、前記３次元被写体領域として前記球体の中心位置および半径を算出することを特徴とする請求項２に記載の３次元被写体領域推定装置。

【請求項7】

コンピュータを、請求項１から請求項６のいずれか一項に記載の３次元被写体領域推定装置として機能させるための３次元被写体領域推定プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、３次元被写体領域推定装置およびそのプログラムに関する。

【背景技術】

【0002】

従来、カメラの撮影画像から被写体領域を推定する手法は種々存在する。
例えば、撮影画像の事前情報の色情報に基づいて被写体を認識し、２台のカメラで三角測量の原理を用いて被写体領域を３次元空間上で推定する手法（特許文献１参照）、クロマキー処理等によって抽出したシルエット画像を用いた視体積交差法とステレオマッチング法とを併用して３次元モデルを生成する手法（非特許文献１参照）等が存在する。
また、近年では、深層学習を用いた手法により、被写体の色、形状等の事前情報を利用しないで、撮影画像上で２次元被写体領域を推定する技術が存在する（非特許文献２参照）。また、深層学習を用いた手法により、１枚の画像から被写体の３次元空間上の位置を推定する技術が存在する（非特許文献３参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開平９－３２２１７９号公報

【非特許文献】

【0004】

【非特許文献1】冨山仁博，片山美和，岩舘祐一，今泉浩幸，“視体積交差法とステレオマッチング法を用いた多視点画像からの３次元動オブジェクト生成手法”，映像情報メディア学会誌，ｎｏ．５８，ｖｏｌ．６，ｐｐ．７９７－８０６，２００４．

【非特許文献2】Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi ,“ You Only Look Once: Unified, Real-Time Object Detection”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 779-788, 2016.

【非特許文献3】Adel Ahmadyan, Liangkai Zhang, Artsiom Ablavatski, Jianing Wei, Matthias Grundmann,“Objectron: A Large Scale Dataset of Object-Centric Videos in the Wild with Pose Annotations”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7822-7831, 2021.

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１に記載の手法は、被写体領域を推定するために色情報等の事前情報が必要となる。そのため、この手法は、事前情報を取得するための装置が別途必要となってしまう。
非特許文献１に記載の手法は、３次元モデルの形状を精度よく生成するものであるため、計算コストが高くなってしまう。
非特許文献２に記載の手法は、深層学習を用いた手法で撮影画像上での２次元被写体領域を推定するものである。この手法を適用して被写領域を推定するには、カメラの台数、解像度特性に比例してコストが高くなってしまう。
非特許文献３に記載の手法は、１枚の撮影画像から３次元の被写領域を推定するため、ステレオカメラのカメラ間の距離といった長さ情報が未定である。そのため、この手法は、被写体領域のスケールが定まらないことになる。さらに、この手法は、１枚の撮影画像のみを用いるため、オクルージョンによる誤推定を避けることができない。

【0006】

本発明は、このような問題に鑑みてなされたもので、カメラの台数が少なくても、また、カメラが低解像度であっても、複数のカメラで撮影した撮影画像から、３次元被写体領域を推定することが可能な３次元被写体領域推定装置およびそのプログラムを提供することを課題とする。

【課題を解決するための手段】

【0007】

前記課題を解決するため、本発明に係る３次元被写体領域推定装置は、撮影画像から被写体の３次元被写体領域を推定する３次元被写体領域推定装置であって、２次元被写体領域推定手段と、３次元被写体領域再構成手段と、を備え、３次元被写体領域再構成手段は、投影線算出手段と、最近傍点垂足算出手段と、被写体領域頂点算出手段と、立体形状近似手段と、を備える構成とした。

【0008】

かかる構成において、３次元被写体領域推定装置は、２次元被写体領域推定手段によって、複数のカメラで撮影された撮影画像ごとに２次元被写体領域を推定する。なお、２次元被写体領域は、撮影画像から被写体領域を検出するように予め学習したニューラルネットワーク等の機械学習のモデルを用いて推定することができる。

【0009】

そして、３次元被写体領域推定装置は、３次元被写体領域再構成手段によって、カメラごとの２次元被写体領域から被写体の３次元被写体領域を再構成する。
すなわち、３次元被写体領域推定装置は、投影線算出手段によって、カメラごとに、２次元被写体領域の重心を世界座標に変換し、世界座標における重心とカメラの光学中心とを通る直線を投影線として算出する。
そして、３次元被写体領域推定装置は、最近傍点垂足算出手段によって、カメラごとの投影線の最近傍点からそれぞれの投影線への垂足の位置を算出する。

【0010】

そして、３次元被写体領域推定装置は、被写体領域頂点算出手段によって、カメラごとに、垂足の位置に２次元被写体領域の重心を投影する投影面に２次元被写体領域の頂点を投影し、投影後の頂点の世界座標を算出する。これによって、カメラごとに、２次元被写体領域の頂点の世界座標上での位置が特定されることになる。
そして、３次元被写体領域推定装置は、立体形状近似手段によって、投影後の世界座標の頂点の位置を立体形状で近似し、立体形状の形状情報を３次元被写体領域として算出する。

【0011】

これによって、３次元被写体領域推定装置は、複数の撮影画像から、立体形状で３次元被写体領域を推定する。
なお、３次元被写体領域推定装置は、コンピュータを、前記した各手段として機能させるための３次元被写体領域推定プログラムで動作させることができる。

【発明の効果】

【0012】

本発明によれば、複数のカメラで撮影した撮影画像から、３次元被写体領域を高速かつ高精度に推定することができる。

【図面の簡単な説明】

【0013】

【図1】本発明の第１実施形態に係る３次元被写体領域推定装置を含んだ被写体領域推定システムの構成を示す全体構成図である。

【図2】本発明の第１実施形態に係る３次元被写体領域推定装置の構成を示すブロック構成図である。

【図3】被写体領域推定手段において推定される２次元被写体領域の例を説明するための説明図である。

【図4】投影線算出手段における投影線を説明するための説明図である。

【図5】最近傍点垂足算出手段における垂足の位置を説明するための説明図である。

【図6】被写体領域頂点算出手段における垂足の位置と２次元被写体領域の重心とを一致させた投影面への２次元被写体領域の投影を説明するための説明図である。

【図7】被写体領域頂点算出手段における投影面への２次元被写体領域の頂点の投影を説明するための説明図である。

【図8】投影後の２次元被写体領域に被写体が存在することを説明するための説明図である。

【図9】投影後の２次元被写体領域の頂点内に被写体が存在することを説明するための説明図である。

【図10】立体形状近似手段における２次元被写体領域の頂点の球体形状への近似を説明するための説明図である。

【図11】本発明の第１実施形態に係る３次元被写体領域推定装置の動作を示すフローチャートである。

【図12】本発明の第２実施形態に係る３次元被写体領域推定装置を含んだ被写体領域推定システムの構成を示す全体構成図である。

【図13】本発明の第２実施形態に係る３次元被写体領域推定装置の構成を示すブロック構成図である。

【図14】本発明の第２実施形態に係る３次元被写体領域推定装置の動作を示すフローチャートである。

【図15】変形例に係る３次元被写体領域推定装置の構成を示すブロック構成図である。

【図16】被写体領域可視化手段における被写体領域の可視化の例を説明するための説明図である。

【図17】２次元被写体領域の変形例を示す図であって、（ａ）は被写体領域全体、（ｂ）は被写体のバストアップ領域、（ｃ）は被写体の顔領域を示す。

【図18】１つの被写体に複数の対象領域を設定する例を説明するための説明図である。

【発明を実施するための形態】

【0014】

以下、本発明の実施形態について図面を参照して説明する。
［被写体領域推定システム：第１実施形態］
図１を参照して、本発明の第１実施形態に係る３次元被写体領域推定装置を含んだ被写体領域推定システムの構成について説明する。

【0015】

被写体領域推定システム１０００は、２台以上のカメラ２で被写体Ｓを撮影し、その撮影画像から、被写体Ｓの３次元空間上の領域を推定するものである。
ここでは、図１に示すように、被写体領域推定システム１０００は、３次元被写体領域推定装置１と、２台以上のカメラ２（２_１，２_２，…）とで構成される。

【0016】

３次元被写体領域推定装置１は、複数のカメラ２（２_１，２_２，…）で撮影された複数の撮影画像から、被写体Ｓの３次元空間上の領域（３次元被写体領域）を推定するものである。

【0017】

カメラ２は、被写体Ｓを撮影するものである。このカメラ２は、撮影位置を予め定めた固定カメラである。
このカメラ２は、被写体Ｓを撮影する一般的なビデオカメラを用いることができる。なお、３次元被写体領域を推定するには、被写体Ｓを多方向から撮影する必要があるため、カメラ２は、少なくとも２台以上が必要となる。
カメラ２は、３次元被写体領域推定装置１と有線または無線で接続され、時系列の撮影画像（フレーム画像）を３次元被写体領域推定装置１に出力する。
以下、３次元被写体領域推定装置１の構成および動作について説明する。

【0018】

［３次元被写体領域推定装置の構成］
図２を参照（適宜図１参照）して、本発明の第１実施形態に係る３次元被写体領域推定装置１の構成について説明する。
ここでは、３次元被写体領域推定装置１は、２次元被写体領域推定手段１０と、３次元被写体領域再構成手段１１と、を備える。

【0019】

２次元被写体領域推定手段１０は、カメラ２（２_１，２_２，…）ごとに、入力される撮影画像の２次元の被写体領域（２次元被写体領域）を推定するものである。
２次元被写体領域推定手段１０は、カメラ校正手段１００と、被写体領域推定手段１０１と、を備える。

【0020】

カメラ校正手段１００は、カメラ２（２_１，２_２，…）のカメラ校正を行うものである。ここで、カメラ校正とは、カメラ２のカメラパラメータを推定する処理である。
カメラパラメータには、カメラ２のカメラ位置、カメラ姿勢、焦点距離、主点位置等が含まれる。カメラ位置は、カメラ２の光学中心の世界座標である。カメラ姿勢は、世界座標に対する撮像面の姿勢を規定する３軸姿勢角（チルト，パン，ロール）や回転行列である。
なお、カメラ校正は、例えば、以下の参考文献、特開２０１８－１８９５８０等に記載の一般的な手法を用いることができるため、ここでは、詳細な説明を省略する。
（参考文献）Zhengyou Zhang,“A flexible new technique for camera calibration”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.22, no. 11, pp. 1330-1334, 2000.

【0021】

カメラ校正手段１００は、３次元被写体領域推定装置１が、３次元被写体領域を推定する前処理としてカメラ校正を行う。
カメラ校正手段１００は、推定したカメラパラメータを３次元被写体領域再構成手段１１に出力する。なお、カメラ校正手段１００は、３次元被写体領域推定装置１の外部に、カメラ校正装置として分離して構成してもよい。

【0022】

被写体領域推定手段１０１は、複数のカメラ２（２_１，２_２，…）で撮影された撮影画像ごとに２次元被写体領域を推定するものである。
被写体領域推定手段１０１は、撮像画像から一般的な物体検出により被写体領域を推定することができる。例えば、被写体領域推定手段１０１は、撮影画像から被写体領域を検出するように予め学習したニューラルネットワーク等の機械学習のモデルを用いて、カメラ２で撮影された撮影画像から２次元被写体領域を推定する。
この物体検出による領域推定には、ＳＳＤ（Single Shot Multibox Detector）、ＹＯＬＯ（You Only Look Once；非特許文献２）ｖ５等を用いることができる。
なお、ここでは、被写体Ｓの例を人物として説明するが、必ずしも人物である必要はない。すなわち、被写体領域推定手段１０１は、機械学習のモデルとして人物以外を予め学習しておくことで、任意の物体を被写体とすることができる。

【0023】

被写体領域推定手段１０１は、図３に示すように、撮影画像Ｉにおいて、被写体Ｓを囲む矩形領域（バウンディングボックス）を２次元被写体領域Ａとする。なお、２次元被写体領域は、三角形あるいは五角形以上の多角形であっても構わない。
被写体領域推定手段１０１は、推定したカメラ２ごとの２次元被写体領域、具体的には、撮影画像の画像平面上における２次元被写体領域の頂点の位置を、３次元被写体領域再構成手段１１に出力する。

【0024】

３次元被写体領域再構成手段１１は、カメラパラメータに基づいて、２次元被写体領域推定手段１０で推定されたカメラごとの２次元被写体領域から、被写体Ｓの３次元被写体領域を再構成するものである。
３次元被写体領域再構成手段１１は、投影線算出手段１１０と、最近傍点垂足算出手段１１１と、被写体領域頂点算出手段１１２と、立体形状近似手段１１３と、を備える。

【0025】

投影線算出手段１１０は、カメラ２ごとに、２次元被写体領域の重心（バウンディングボックスの中心）を世界座標に変換し、世界座標における重心とカメラの光学中心とを通る直線を投影線として算出するものである。
投影線算出手段１１０は、カメラ２ごとの投影線を特定する情報（ここでは、カメラ原点〔光学中心〕および投影線の傾き）を３次元被写体領域再構成手段１１に出力する。

【0026】

ここで、図４を参照して、投影線算出手段１１０における投影線Ｌの算出手法について具体的に説明する。
図４は、カメラ位置（光学中心）をカメラ原点Ｃとするピンホールモデルにおいて、カメラ原点Ｃから焦点距離だけ離隔した画像平面ＩＰ上に２次元被写体領域Ａが存在していることを示している。
画像平面ＩＰにおける画素位置の座標（ｕ,ｖ）と、世界座標における座標（ｘ，ｙ，ｚ）とは、以下の式（１）の関係がある。

【0027】

【数1】

【0028】

ここで、（ｆ_ｘ，ｆ_ｙ）はカメラ２の焦点距離、（ｃ_ｘ，ｃ_ｙ）はカメラ２の主点位置を示す。Ｒはカメラ座標系の世界座標系における姿勢（回転行列）、ｔはカメラ座標系の原点の世界座標系における位置を示す。なお、ｓは左辺の行列の３行目と右辺の行列の４行目とを一致させるスケールである。
ここで、画像平面ＩＰにおける２次元被写体領域Ａの重心Ｇの座標を（ｕ_Ｇ,ｖ_Ｇ）としたとき、重心Ｇの世界座標における座標（ｘ_Ｇ，ｙ_Ｇ，ｚ_Ｇ）は、以下の式（２）により求めることができる。

【0029】

【数2】

【0030】

なお、［Ｒｔ］^－１は、疑似逆行列として解けばよい。
すなわち、投影線算出手段１１０は、世界座標であるカメラ原点Ｃの座標（ｘ_C，ｙ_C，ｚ_C）を通り、傾きが以下の式（３）となる直線を投影線Ｌとして求める。

【0031】

【数3】

【0032】

図２に戻って、３次元被写体領域推定装置１の構成について説明を続ける。
最近傍点垂足算出手段１１１は、カメラ２ごとの投影線の最近傍点からそれぞれの投影線への垂足の位置を算出するものである。ここで、垂足とは、直線（ここでは投影線）に下した垂線の足がその直線と交わる点である。
最近傍点垂足算出手段１１１は、各投影線への垂足Ｐ_１，Ｐ_２，…，Ｐ_Ｎ（Ｎはカメラ２の台数）の距離の総和が最小となる最近傍点Ｑを算出する。すなわち、最近傍点垂足算出手段１１１は、以下の式（４）に示す最小二乗問題を解くことで最近傍点Ｑを算出する。なお、||ベクトルＰ_ｎＱ||は、ベクトルＰ_ｎＱの長さを示す。

【0033】

【数4】

【0034】

式（４）の解法は一般的な手法であるため説明を省略する。
そして、最近傍点垂足算出手段１１１は、垂足Ｐ_ｎ（ｎ＝１，２，…，Ｎ）を投影線上に持つカメラ２_ｎのカメラ原点Ｃ_ｎにおけるベクトルＣ_ｎＰ_ｎと、ベクトルＱＰ_ｎとが垂直であることから、以下の式（５）の関係により、垂足Ｐ_ｎを算出する。

【0035】

【数5】

【0036】

最近傍点垂足算出手段１１１は、算出したカメラ２ごとの投影線の垂足の位置を被写体領域頂点算出手段１１２に出力する。
なお、ここでは、最近傍点垂足算出手段１１１は、最近傍点Ｑを算出してから各垂足Ｐ_ｎを算出した。しかし、カメラ２が２台の場合、最近傍点垂足算出手段１１１は、必ずしも最近傍点Ｑを算出する必要はない。カメラ２が２台の場合、２本の投影線の最短距離となる直線が、必ず投影線に対して垂直となるためである。

【0037】

ここで、図５を参照して、カメラ２が２台の場合に、最近傍点垂足算出手段１１１が最近傍点から投影線への垂足を求める手法について説明する。
図５は、２つのカメラ原点Ｃ_１，Ｃ_２から焦点距離だけ離隔した画像平面ＩＰ_１，ＩＰ_２上に存在する２次元被写体領域Ａ_１，Ａ_２の重心Ｇ_１，Ｇ_２とカメラ原点Ｃ_１，Ｃ_２とを通るねじれの位置にある２つの投影線Ｌ_１，Ｌ_２を図示している。また、投影線Ｌ_１，Ｌ_２の最近傍点Ｑからの垂足をＰ_１，Ｐ_２として図示している。なお、図５では、便宜上、最近傍点Ｑを図示しているが、本手法においては使用しない。
この場合、投影線Ｌ_１（ベクトルＣ_１Ｇ_１），Ｌ_２（ベクトルＣ_２Ｇ_２）とＰ_１，Ｐ_２とを結ぶ直線（ベクトルＰ_１Ｐ_２）は直交することから、以下の式（６）の関係を満たす。

【0038】

【数6】

【0039】

ここで、ｍ_１，ｍ_２を変数として、以下の式（７）が成り立つ。

【0040】

【数7】

【0041】

この式（７）から、ベクトルＰ_１Ｐ_２は、以下の式（８）に変形することができる。

【0042】

【数8】

【0043】

このベクトルＰ_１Ｐ_２を式（６）に代入して変形すると、ｍ_１，ｍ_２は以下の式（９）となる。

【0044】

【数9】

【0045】

このｍ_１，ｍ_２を式（７）に代入することで、既知のカメラ原点Ｃ_１，Ｃ_２および重心Ｇ_１，Ｇ_２の世界座標から、垂足Ｐ_１，Ｐ_２を求めることができる。
すなわち、最近傍点垂足算出手段１１１は、ｍ_１，ｍ_２を式（７）に代入した演算式により、垂足Ｐ_１，Ｐ_２を算出する。
図２に戻って、３次元被写体領域推定装置１の構成について説明を続ける。

【0046】

被写体領域頂点算出手段１１２は、カメラ２ごとに、垂足の位置に２次元被写体領域の重心を投影する投影面に２次元被写体領域の頂点を投影し、投影後の頂点の世界座標を算出するものである。
被写体領域頂点算出手段１１２は、算出した頂点に対応する世界座標（３次元座標）を立体形状近似手段１１３に出力する。

【0047】

ここで、図６，図７を参照して、被写体領域頂点算出手段１１２における２次元被写体領域の頂点に対応する３次元座標を算出する手法について具体的に説明する。
図６は、カメラ位置（光学中心）をカメラ原点Ｃとするピンホールモデルにおいて、カメラ原点Ｃから焦点距離だけ離隔した画像平面ＩＰ上に２次元被写体領域Ａが存在した状態を示している。また、図６は、２次元被写体領域Ａの重心Ｇを投影したＧ′が垂足Ｐの位置と一致する、画像平面ＩＰと平行な投影面ＰＰに、２次元被写体領域Ａを投影した２次元被写体領域Ａ′を示している。
図７は、図６から、２次元被写体領域Ａおよび投影後の２次元被写体領域Ａ′のみを抽出して図示したものである。
ここで、カメラ原点Ｃ、重心Ｇおよび垂足Ｐは、前記式（７）と同様の関係から、以下の式（１０）の関係が成り立つ。

【0048】

【数10】

【0049】

なお、ｍ_１は、前記式（９）で算出された値である。
同様に、カメラ位置（光学中心）をカメラ原点Ｃとするピンホールモデルにおいて、２次元被写体領域Ａの頂点Ｖ_０，Ｖ_１，Ｖ_２，Ｖ_３の３次元座標と、投影後の頂点Ｖ_０′，Ｖ_１′，Ｖ_２′，Ｖ_３′の３次元座標とは、以下の式（１１）の関係が成り立つ。

【0050】

【数11】

【0051】

被写体領域頂点算出手段１１２は、前記式（２）の重心の座標の代わりに、画像平面ＩＰにおける２次元被写体領域Ａの頂点Ｖ_０，Ｖ_１，Ｖ_２，Ｖ_３の画像座標を入力することで、頂点Ｖ_０，Ｖ_１，Ｖ_２，Ｖ_３の世界座標（３次元座標）を算出する。
そして、被写体領域頂点算出手段１１２は、算出した頂点Ｖ_０，Ｖ_１，Ｖ_２，Ｖ_３の世界座標と、既知のカメラ原点Ｃの３次元座標と値ｍ_１とを用いて、前記式（１１）により、投影後の２次元被写体領域Ａ′の頂点Ｖ_０′，Ｖ_１′，Ｖ_２′，Ｖ_３′の３次元座標を算出することができる。

【0052】

この投影後の２次元被写体領域Ａ′の重心Ｇ′は、カメラ原点Ｃと２次元被写体領域Ａの重心Ｇとを結ぶ複数のカメラ２の投影線Ｌの最近傍点からの垂足Ｐの位置に存在する。
そのため、被写体Ｓは、カメラ２ごとに算出される投影後の２次元被写体領域Ａ′によって特定される領域に存在することになる。

【0053】

例えば、図８，図９に示すように、カメラ２が２台の場合、投影後の２次元被写体領域Ａ_１′，Ａ_２′の重心Ｇ_１′，Ｇ_２′は、カメラ原点Ｃ_１，Ｃ_２と投影前の２次元被写体領域の重心とを結ぶ複数の投影線Ｌ_１，Ｌ_２の最近傍点からの垂足の位置に存在する。
そのため、被写体Ｓは、頂点Ｖ_１０′，Ｖ_１１′，Ｖ_１２′，Ｖ_１３′の２次元被写体領域Ａ_１′に存在するとともに、頂点Ｖ_２０′，Ｖ_２１′，Ｖ_２２′，Ｖ_２３′の２次元被写体領域Ａ_２′に存在することになる。
このように、被写体Ｓは、投影後の２次元被写体領域Ａ_１′，Ａ_２′の各頂点で特定される３次元空間領域に存在することになる。
図２に戻って、３次元被写体領域推定装置１の構成について説明を続ける。

【0054】

立体形状近似手段１１３は、被写体領域頂点算出手段１１２で算出された投影後の世界座標の頂点の位置を立体形状で近似し、立体形状の形状情報を３次元被写体領域として算出するものである。これによって、立体形状近似手段１１３は、複数の頂点の点群から、被写体が存在する３次元空間上の領域を１つの立体形状で表現することができる。
ここでは、立体形状近似手段１１３は、被写体領域頂点算出手段１１２で算出されたすべての頂点を、球体形状で近似し、近似した球体の形状情報を３次元被写体領域として算出する。
すなわち、立体形状近似手段１１３は、図１０に示すように、被写体領域頂点算出手段１１２で算出されたすべての頂点、ここでは、Ｖ_１０′，Ｖ_１１′，Ｖ_１２′，Ｖ_１３′，Ｖ_２０′，Ｖ_２１′，Ｖ_２２′，Ｖ_２３′を球体ＳＰの形状で近似する。
これによって、立体形状近似手段１１３は、被写体Ｓの３次元被写体領域を、球体の位置および大きさで特定することができる。

【0055】

ここでは、立体形状近似手段１１３は、各頂点から球体の中心位置までの距離と、球体の半径との差の総和が最小となる球体の形状（中心位置および半径）を算出する。すなわち、立体形状近似手段１１３は、以下の式（１２）に示す最小二乗問題を解くことで球体の形状（中心位置および半径）を算出する。なお、Ｖ_ｎ′は、被写体領域頂点算出手段１１２で算出された頂点の世界座標を示し、ｎは１～Ｍ（Ｍは頂点の総数）の値をとる。また、Ｘ_ｓは球体の中心位置（３次元座標）、ｒは球体の半径を示す。また、||Ｖ_ｎ′－Ｘ_ｓ||は、Ｖ_ｎ′とＸ_ｓとの距離を示す。

【0056】

【数12】

【0057】

立体形状近似手段１１３は、算出した球体の形状（中心位置および半径）を、３次元被写体領域をとして出力する。
以下、式（１２）の解法について数式を用いて説明しておく。
前記式（１２）が最小値をとるためには、以下の式（１３），式（１４）を満たす必要がある。

【0058】

【数13】

【0059】

前記式（１３）から、半径ｒは、以下の式（１５）となる。

【0060】

【数14】

【0061】

また、前記式（１４）は、以下の式（１６）に変形することができる。

【0062】

【数15】

【0063】

なお、内積には、転置Ｔを用いた以下の式（１７）の関係がある。なお、ａ，ｂ，ｃは、同次元のベクトルである。

【0064】

【数16】

【0065】

よって、前記式（１６）の右辺の一部は、以下の式（１８），式（１９）のように変形することができる。

【0066】

【数17】

【0067】

この式（１８），式（１９）の変形後の式を式（１６）に代入して変形することで、以下の式（２０）に示す式を導くことができる。

【0068】

【数18】

【0069】

すなわち、立体形状近似手段１１３は、式（２０）により被写体領域を３次元空間上で推定した球体の中心位置Ｘ_ｓを算出する。
また、立体形状近似手段１１３は、中心位置Ｘ_ｓを前記式（１５）に代入して球体の半径を算出する。

【0070】

以上説明したように、３次元被写体領域推定装置１は、カメラの台数が少なくても、複数の撮影画像から、３次元の被写体領域を精度よく推定することができる。
また、３次元被写体領域推定装置１は、カメラ２ごとの２次元被写体領域を投影する簡易な処理で３次元被写体領域を推定するため、高速に推定を行うことができる。
なお、３次元被写体領域推定装置１は、コンピュータを、前記した各部として機能させるためのプログラム（３次元被写体領域推定プログラム）で動作させることができる。

【0071】

［３次元被写体領域推定装置の動作］
次に、図１１を参照（構成については、適宜図２参照）して、本発明の第１実施形態に係る３次元被写体領域推定装置１の動作について説明する。
なお、ここでは、カメラ校正手段１００が、予めカメラ２（２_１，２_２，…）のカメラ校正を行い、カメラパラメータを取得しているものとする。

【0072】

ステップＳ１において、被写体領域推定手段１０１は、カメラ２（２_１，２_２，…）で撮影された撮影画像から、学習済の機械学習モデルを用いて、カメラ２ごとの２次元被写体領域を推定する。ここでは、２次元被写体領域をバウンディングボックスとする（図３参照）。
ステップＳ２において、投影線算出手段１１０は、カメラごとに、２次元被写体領域の重心（バウンディングボックスの中心）を世界座標に変換し、カメラ原点（光学中心）から重心を通る直線を投影線として算出する（図４参照）。このカメラ２ごとの投影線上に２次元被写体領域の重心が投影されることになる。

【0073】

ステップＳ３において、最近傍点垂足算出手段１１１は、ステップＳ２で算出された複数のカメラ２の投影線の最近傍点から各投影線へ垂直に下した垂足の位置を算出する（図５参照）。この垂足の位置によって、最近傍点垂足算出手段１１１は、２次元被写体領域の重心が投影される位置を特定することができる。
ステップＳ４において、被写体領域頂点算出手段１１２は、ステップＳ３で算出された垂足の位置に２次元被写体領域の重心を投影する投影面に２次元被写体領域の頂点を投影し、投影後の頂点の世界座標を算出する（図６～図９参照）。
このカメラ２ごとに算出されるバンディングボックスの頂点の内側に被写体が存在することになる。

【0074】

ステップＳ５において、立体形状近似手段１１３は、ステップＳ４で算出されたすべての頂点（３次元座標）を球体表面に近似し、近似した球体の形状（中心位置および半径）を、３次元被写体領域として算出する（図１０参照）。
ステップＳ６において、３次元被写体領域推定装置１は、外部指示等によって推定終了が指示されたか否かを判定する。
推定終了が指示されなかった場合（ステップＳ６でＮｏ）、３次元被写体領域推定装置１は、ステップＳ１に戻って、３次元被写体領域の推定動作を継続する。
一方、推定終了が指示された場合（ステップＳ６でＹｅｓ）、３次元被写体領域推定装置１は、動作を終了する。

【0075】

以上の動作によって、３次元被写体領域推定装置１は、複数の撮影画像から、２次元被写体領域の投影を行う簡易な処理によって、高速に３次元被写体領域を推定することができる。
このように、３次元被写体領域推定装置１は、高速に３次元被写体領域を推定することができるため、例えば、舞台上の演者の３次元被写体領域をリアルタイムで推定し、それに連動して、照明を演者の動きに合わせて制御することが可能になる。

【0076】

［被写体領域推定システム：第２実施形態］
次に、図１２を参照して、本発明の第２実施形態に係る３次元被写体領域推定装置を含んだ被写体領域推定システムの構成について説明する。

【0077】

被写体領域推定システム１０００Ｂは、２台以上のカメラ２で被写体Ｓを撮影し、その撮影画像から、被写体Ｓの３次元空間上の領域を推定し、１台以上の撮影カメラ３で被写体Ｓを追従して撮影するものである。
ここでは、図１２に示すように、被写体領域推定システム１０００Ｂは、３次元被写体領域推定装置１Ｂと、２台以上のカメラ２（２_１，２_２，…）と、１台以上の撮影カメラ３（３_１，３_２，…）とで構成される。

【0078】

３次元被写体領域推定装置１Ｂは、複数のカメラ２（２_１，２_２，…）で撮影された複数の撮影画像から、被写体Ｓの３次元空間上の領域（３次元被写体領域）を推定し、被写体Ｓに追従するように撮影カメラ３（３_１，３_２，…）を制御するものである。
カメラ２は、図１で説明したカメラと同じものであるため説明を省略する。

【0079】

撮影カメラ３は、３次元被写体領域推定装置１Ｂの制御によって、被写体Ｓを撮影するものである。
撮影カメラ３は、パン、チルト、ズームまたは並進が制御可能なロボットカメラ、位置、姿勢、ズームが制御可能なドローン搭載のカメラ等を用いることができる。
撮影カメラ３は、３次元被写体領域推定装置１Ｂと有線または無線で接続され、３次元被写体領域推定装置１Ｂからの制御により動作する。
以下、３次元被写体領域推定装置１の構成および動作について説明する。

【0080】

［３次元被写体領域推定装置の構成］
図１３を参照（適宜図１２参照）して、本発明の第２実施形態に係る３次元被写体領域推定装置１Ｂの構成について説明する。
ここでは、３次元被写体領域推定装置１Ｂは、２次元被写体領域推定手段１０と、３次元被写体領域再構成手段１１と、カメラ制御手段１２と、を備える。

【0081】

２次元被写体領域推定手段１０および３次元被写体領域再構成手段１１は、図２で説明した３次元被写体領域推定装置１と同じ構成であるため、説明を省略する。
ただし、３次元被写体領域推定装置１Ｂの２次元被写体領域推定手段１０は、カメラ校正手段１００において、カメラ２（２_１，２_２，…）以外に、撮影カメラ３（３_１，３_２，…）について予め定めた基準位置でカメラ校正を行うこととする。カメラ校正手段１００は、撮影カメラ３（３_１，３_２，…）のカメラパラメータをカメラ制御手段１２に出力する（不図示）。

【0082】

カメラ制御手段１２は、３次元被写体領域再構成手段１１で再構成された被写体Ｓの３次元被写体領域を画角内に収めるように、撮影カメラ３を制御するものである。
カメラ制御手段１２は、駆動量算出手段１２０と、撮影カメラ制御手段１２１と、を備える。

【0083】

駆動量算出手段１２０は、被写体Ｓの３次元被写体領域を画角内に収めるための撮影カメラ３の駆動量を算出するものである。
駆動量算出手段１２０は、例えば、撮影カメラ３がロボットカメラであれば、現在の撮影カメラ３のパン、チルトおよびズームの値、または、カメラ位置から、被写体Ｓの３次元被写体領域を画角内に収めるため、パン、チルトおよびズームの駆動量、または、カメラ位置の並進量（移動量）を算出する。なお、現在の撮影カメラ３のパン、チルトおよびズームの値やカメラ位置は、図示を省略した記憶手段に逐次記憶することとしてもよいし、撮影カメラ３から取得することとしてもよい。

【0084】

また、駆動量算出手段１２０は、例えば、撮影カメラ３がドローン搭載のカメラであれば、現在の撮影カメラ３の位置、姿勢およびズームの値から、被写体Ｓの３次元被写体領域を画角内に収めるため、撮影カメラ３の位置、姿勢およびズームの駆動量を算出する。
なお、被写体Ｓの３次元被写体領域を画角内に収めるための撮影カメラ３の駆動量の算出は、一般的な手法を用いればよく、例えば、特開２００７－１３４３８４５に記載の手法を用いることができる。
駆動量算出手段１２０は、算出した駆動量を撮影カメラ制御手段１２１に出力する。
撮影カメラ制御手段１２１は、駆動量算出手段１２０で算出された駆動量で、撮影カメラ３を駆動制御するものである。

【0085】

以上説明したように、３次元被写体領域推定装置１Ｂは、３次元被写体領域推定装置１の効果に加え、撮影カメラ３で被写体を追従して撮影することができる。
なお、３次元被写体領域推定装置１Ｂは、コンピュータを、前記した各部として機能させるためのプログラム（３次元被写体領域推定プログラム）で動作させることができる。

【0086】

［３次元被写体領域推定装置の動作］
次に、図１４を参照（構成については、適宜図１３参照）して、本発明の第２実施形態に係る３次元被写体領域推定装置１Ｂの動作について説明する。
なお、図１４において、ステップＳ１～Ｓ５，Ｓ６の動作は、図１１で説明した３次元被写体領域推定装置１の動作と同じであるため、説明を省略する。
ステップ５の後、ステップＳ５Ｂにおいて、カメラ制御手段１２は、ステップＳ５で推定された３次元被写体領域で特定される領域が画角内に入るように、撮影カメラ３を制御する。

【0087】

ここでは、まず、駆動量算出手段１２０が、被写体Ｓの３次元被写体領域を画角内に収めるための撮影カメラ３の駆動量を算出する。
そして、撮影カメラ制御手段１２１が、駆動量算出手段１２０で算出された駆動量で、撮影カメラ３を駆動制御する。
これによって、３次元被写体領域推定装置１Ｂは、撮影カメラ３で、被写体の動きに連動してリアルタイムに被写体を撮影することができる。
以上、本発明の実施形態について説明したが、本発明は、これらの実施形態に限定されるものではない。

【0088】

（変形例１）
例えば、３次元被写体領域推定装置１Ｂは、図１５に示すように、さらに、表示手段１３を備える構成としてもよい。
図１５に示すように、表示手段１３は、撮影カメラ３で撮影された画像を、図示を省略した表示装置（モニタ）に表示するものである。なお、表示装置（不図示）は、撮影カメラ３の数に対応して複数接続してもよいし、１台の表示装置で複数の撮影カメラ３の画像を表示する構成としてもよい。
ここでは、表示手段１３は、被写体領域可視化手段１３０を備える。

【0089】

被写体領域可視化手段１３０は、撮影カメラ３で撮影された画像に、３次元被写体領域再構成手段１１の立体形状近似手段１１３で算出された３次元被写体領域を可視化するものである。
被写体領域可視化手段１３０は、撮影カメラ３で撮影された画像に立体形状近似手段１１３で算出された３次元被写体領域である球体をことでする。

【0090】

例えば、図１６に示すように、撮影カメラ３の撮影画像Ｉごとに、立体形状近似手段１１３で算出された３次元被写体領域を近似した球体の表面を離散的な点Ｐ_ＳＰで表示することで、３次元被写体領域を可視化する。
なお、点Ｐ_ＳＰは、図１０の世界座標上の中心位置Ｘ_ｓと半径ｒとで特定される球体ＳＰにおいて、例えば、中心位置Ｘ_ｓを原点とする方位角、仰角をそれぞれ３０度間隔とする球体表面の座標を撮影画像Ｉに投影したものである。点Ｐ_ＳＰは、世界座標上で撮影画像Ｉに近いほど点を大きく表示してもよい。

【0091】

（変形例２）
また、ここでは、立体形状近似手段１１３は、２次元被写体領域のすべての頂点を球体形状で近似した。すなわち、立体形状近似手段１１３は、すべての頂点を、長径と短径とが等しい楕円を長径（＝短径）を軸に回転して形成される楕円体で近似した。
しかし、近似する立体形状は、長径と短径とが異なる楕円を回転した楕円体であっても構わない。
これによって、立体形状近似手段１１３は、被写体が人物の場合、被写体領域の形状をより正確に特定することができる。

【0092】

（変形例３）
また、ここでは、被写体領域推定手段１０１は、２次元被写体領域として、被写体全体の領域を推定した。
しかし、被写体領域推定手段１０１は、必ずしも被写体全体の領域を推定する必要はなく、予め定めた対象領域ごとに複数の２次元被写体領域を推定してもよい。例えば、被写体領域推定手段１０１は、図１７（ａ）に示す被写体全体の領域（被写体領域Ａ_Ａ）以外に、図１７（ｂ）に示す被写体のバストアップの領域（被写体領域Ａ_Ｂ）、図１７（ｃ）に示す被写体の顔の領域（被写体領域Ａ_Ｃ）等を対象領域としてもよい。
この場合、被写体領域推定手段１０１は、推定する対象領域（被写体領域、バストアップ領域、顔領域等）に応じて予め学習したニューラルネットワーク等の機械学習のモデルを用いて、２次元被写体領域を推定すればよい。

【0093】

（変形例４）
また、ここでは、２次元被写体領域推定手段１０がカメラ２ごとに撮影画像から１つの２次元被写体領域を推定し、３次元被写体領域再構成手段１１が複数の２次元被写体領域を３次元に再構成することで、３次元被写体領域を推定した。
しかし、２次元被写体領域推定手段１０が撮影画像から被写体領域の異なる領域を複数推定し、３次元被写体領域再構成手段１１が指定された領域のみについて３次元に再構成することとしてもよい。

【0094】

例えば、被写体領域推定手段１０１は、図１８に示すように、被写体全体の領域（被写体領域Ａ_Ａ）と、被写体のバストアップの領域（被写体領域Ａ_Ｂ）、被写体の顔の領域（被写体領域Ａ_Ｃ）等、１つの被写体において複数の２次元被写体領域を推定する。
この場合、被写体領域推定手段１０１は、予め学習したニューラルネットワーク等の機械学習のモデルを複数備え、並列に各領域を推定する。

【0095】

そして、被写体領域推定手段１０１は、被写体全体、バストアップ、顔等の２次元被写体領域を区分する識別子とともに、２次元被写体領域の頂点の位置を３次元被写体領域再構成手段１１に出力する。
そして、投影線算出手段１１０は、外部から識別子を指定されることで、識別子に対応する２次元被写体領域のみについて投影線を算出する。これによって、３次元被写体領域再構成手段１１は、識別子で特定される領域についてのみ、３次元被写体領域を推定することができる。

【0096】

このとき、識別子を時間情報に対応付けた制御台本を外部から入力されることで、３次元被写体領域再構成手段１１は、制御台本の時間情報に沿った識別子に対応する対象領域について３次元被写体領域を推定することができる。
これによって、３次元被写体領域推定装置１Ｂ，１Ｃは、制御台本に応じて、撮影カメラ３を制御し、被写体を追従して撮影することができる。

【符号の説明】

【0097】

１，１Ｂ，１Ｃ３次元被写体領域推定装置
１０２次元被写体領域推定手段
１００カメラ校正手段
１０１被写体領域推定手段
１１３次元被写体領域再構成手段
１１０投影線算出手段
１１１最近傍点垂足算出手段
１１２被写体領域頂点算出手段
１１３立体形状近似手段
１２，１２Ｂカメラ制御手段
１２０駆動量算出手段
１２１撮影カメラ制御手段
１３表示手段
１３０被写体領域可視化手段
２カメラ（固定カメラ）
３撮影カメラ
１０００，１０００Ｂ被写体領域推定システム

【図1】