(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-02
(45)【発行日】2022-03-10
(54)【発明の名称】撮像システム、撮像方法
(51)【国際特許分類】
G06T 7/80 20170101AFI20220303BHJP
G06T 7/579 20170101ALI20220303BHJP
H04N 5/232 20060101ALI20220303BHJP
H04N 5/247 20060101ALI20220303BHJP
【FI】
G06T7/80
G06T7/579
H04N5/232 290
H04N5/247
(21)【出願番号】P 2017152604
(22)【出願日】2017-08-07
【審査請求日】2020-06-26
(73)【特許権者】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(74)【代理人】
【識別番号】100106909
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100188558
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100169764
【氏名又は名称】清水 雄一郎
(72)【発明者】
【氏名】北原 格
(72)【発明者】
【氏名】宍戸 英彦
【審査官】粕谷 満成
(56)【参考文献】
【文献】宍戸 英彦, 亀田 能成, 北原 格, 大田 友一,モバイルカメラ映像を補完的に用いた疎に配置した多視点カメラのキャリブレーション,電子情報通信学会2016年総合大会,一般社団法人電子情報通信学会,2016年03月15日,p.134
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/80
G06T 7/579
H04N 5/232
H04N 5/247
(57)【特許請求の範囲】
【請求項1】
複数の固定カメラにより3次元空間中の撮像対象物
を多視点から撮像し、複数の2次元画像に基づく多視点画像を取得する第1撮像部と、
複数の
前記固定カメラの近傍に位置
し、複数の前記固定カメラとほぼ同方向を向いた状態で
移動し前記撮像対象物
の映像を撮像する第2撮像部と、
前記第2撮像部により撮像された
前記映像のうち隣接する2つの前記固定カメラが撮像した前記2次元画像の間において撮像された前記映像を6度以下の輻輳角となる所定数のフレームに分割した補完映像と、前記第1撮像部により撮像された
前記多視点画像とに基づいて、
多視点画像群を取得する取得部と、
前記取得部により取得された前記
多視点画像群に対して弱校正を適用することにより、前記
多視点画像群に対応する複数の射影変換行列を推定する推定部と、
複数の前記射影変換行列から、
前記多視点画像に対応するものを抜き出し、前記多視点画像と前記3次元空間との射影関係を推定し、前記射影変換行列を用いたステレオ法に基づいて、前記多視点画像に撮像された前記3次元空間における任意の点を基準とした観測座標系を設定し、前記観測座標系における前記撮像対象物の3次元座標を算出し、3次元剛体変換行列に基づいて前記多視点画像における前記観測座標系を前記多視点画像の間において共通する点を基準とした世界座標系に変換し、複数の前記固定カメラのカメラキャリブレーションを実行可能とするキャリブレーション部と、を備える、撮像システム。
【請求項2】
前記キャリブレーション部は、前記多視点画像において撮像された直交する第1基準線と第2基準線との交点を前記世界座標系の原点に設定し、
予め定められた前記第1基準線の第1距離と前記第2基準線の第2距離とに基づいて前記多視点画像のスケールパラメータを推定する、
請求項1に記載の撮像システム。
【請求項3】
前記推定部は、3次元的に姿勢が変化する前記撮像対象物が撮像された少なくとも2つの前記多視点画像に基づいて、前記多視点画像群における前記撮像対象物の骨格位置を推定し、前記骨格位置に基づいて前記射影変換行列を推定する、
請求項1
又は2に記載の撮像システム。
【請求項4】
前記キャリブレーション部は、前記射影変換行列に基づいて前記多視点画像に撮像された前記3次元空間における前記骨格位置の3次元座標を算出する、
請求項
3に記載の撮像システム。
【請求項5】
複数の
固定カメラにより3次元空間中の撮像対象物を
多視点から撮像し、複数の2次元画像に基づく多視点画像を取得し、
移動可能なカメラを用いて複数の
前記固定カメラの近傍に位置
し、複数の前記固定カメラとほぼ同方向を向いた状態で
移動し前記撮像対象物
の映像を撮像
し、
撮像された
前記映像のうち隣接する2つの前記固定カメラが撮像した前記2次元画像の間において撮像された前記映像を6度以下の輻輳角となる所定数のフレームに分割した補完映像と、
複数の前記固定カメラにより撮像された
前記多視点画像とに基づ
いて、多視点画像群を取得
し、
取得された前記
多視点画像群に対して弱校正を適用することにより、前記
多視点画像群に対応する複数の射影変換行列を推定
し、
複数の前記射影変換行列から、
前記射影変換行列を用いたステレオ法に基づいて、前記多視点画像に撮像された前記3次元空間における任意の点を基準とした観測座標系を設定し、前記観測座標系における前記撮像対象物の3次元座標を算出し、3次元剛体変換行列に基づいて前記多視点画像における前記観測座標系を前記多視点画像の間において共通する点を基準とした世界座標系に変換し、複数の前記固定カメラのカメラキャリブレーションを実行可能とする、撮像方法。
【請求項6】
前記多視点画像において撮像された直交する第1基準線と第2基準線との交点を前記世界座標系の原点に設定し、
予め定められた前記第1基準線の第1距離と前記第2基準線の第2距離とに基づいて前記多視点画像のスケールパラメータを推定する、
請求項5に記載の撮像方法。
【請求項7】
3次元的に姿勢が変化する前記撮像対象物が撮像された少なくとも2つの前記多視点画像に基づいて、前記多視点画像群における前記撮像対象物の骨格位置を推定し、前記骨格位置に基づいて前記射影変換行列を推定する、
請求項5
又は6に記載の撮像方法。
【請求項8】
前記射影変換行列に基づいて前記多視点画像に撮像された前記3次元空間における前記骨格位置の3次元座標を算出する、
請求項
7に記載の撮像方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多視点からの映像を安価かつ簡便に実現する撮像システム、撮像方法に関する。
【背景技術】
【0002】
多視点から撮像した映像を用いて、3次元的な目標物追跡や3次元な物体形状復元など、空間における被撮像体を推定する撮像方法の研究開発が盛んに行われている。撮影された画像と3次元空間と関係を求めるために、2次元的な映像を撮像するカメラの正確なカメラパラメータ推定(カメラキャリブレーション)が必要である。ここで”カメラ”とは、広く一般的に利用されている2次元映像を撮像する機器を表す。基本的なカメラキャリブレーション処理の方法として弱校正がある。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、弱校正を行う場合、撮像対象とする3次元空間の広がりに比べ、カメラが疎に配置されていると、撮像した映像間に十分な対応点や相関関係が得られず、射影関係の推定精度が低下し、撮像映像から復元される3次元情報と実際の3次元空間中に存在する撮像対象物との幾何学的な関係に大きな乖離を生ずることが知られている。
【0005】
本発明は、カメラを大規模な撮像対象空間に配置することによって、カメラ配置が比較的疎となる場合にも、カメラパラメータを高精度でキャリブレーションすることができる撮像システム、撮像方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
撮像システムは、複数の2次元映像を撮像するカメラにより3次元空間中の撮像対象物を撮像する第1撮像部と、前記複数のカメラの近傍に位置するカメラとほぼ同方向を向いた状態で対象物を撮像する第2撮像部と、前記第2撮像部により撮像された補完映像と、前記第1撮像部により撮像された映像とに基づいて、多視点から撮像された画像群を取得する取得部と、前記取得部により取得された前記画像群に対して弱校正を適用することにより、前記多視点から撮像された画像の射影変換行列を推定する推定部と、前記推定部により推定された射影変換行列から、前記第1撮像部のカメラパラメータの高精度推定を実行するキャリブレーション部と、を備える。
【発明の効果】
【0007】
本発明に係る撮像システム、撮像方法によると、疎に配置したカメラの外部パラメータ(位置、姿勢)および内部パラメータ(焦点距離、画像中心、レンズ歪み、画素の縦横比)を高精度に推定する、つまりカメラキャリブレーションすることができ、3次元空間中の撮像対象物の高品位3次元情報を安価かつ簡便に推定ことが可能となる。
【図面の簡単な説明】
【0008】
【
図2】提案手法による撮像方式から取得された補完画像である。
【
図3】提案手法による撮像方式から取得された補完画像である。
【
図4】提案手法による撮像方式から取得された補完画像である。
【
図5】提案手法による撮像方式から取得された補完画像である。
【
図6】提案手法による撮像方式から取得された補完画像である。
【
図7】提案手法による撮像方式から取得された補完画像である。
【
図8】提案手法による撮像方式から取得された補完画像である。
【
図9】撮像環境における世界座標系を示す図である。
【
図10】撮像環境における世界座標系を示す図である。
【
図11】提案手法による世界座標系の推定値と真値の比較結果を示す図である。
【
図12】X
oと真値とのユークリッド距離を計算して算出された誤差を示す図である。
【
図13】Y
oと真値とのユークリッド距離を計算して算出された誤差を示す図である。
【
図14】撮像画像にConvolutional Pose Machinesを適用して検出した2次元骨格情報とそこから推定される3次元骨格を示す図である。
【
図15】撮像画像にConvolutional Pose Machinesを適用して検出した2次元骨格情報とそこから推定される3次元骨格を示す図である。
【
図16】提案手法に基づいて推定された3次元骨格位置(補完画像毎)を示す図である。
【
図17】3次元骨格の首下の位置座標を用いた推定精度の比較結果を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明による多視点映像撮像システム、撮像方法の実施形態を、図面を参照して説明する。
【0010】
1. はじめに
3次元空間における被撮像体の3次元情報復元で必要となる、撮像対象の3次元空間とカメラにより撮像された2次元映像の射影関係を求めるためには、カメラの外部パラメータと内部パラメータ(合わせてカメラパラメータとする)が必要である。基本的なカメラパラメータを特定するキャリブレーション処理は、空間中に3次元位置が既知なランドマークを設置し、その観測位置との対応関係から射影変換行列を推定する強校正と呼ばれる方法である。
【0011】
しかし、強校正を一般的な空間に適用する場合、ランドマークの設置作業の手間や費用が問題となる。他方、ランドマークを必要としない方法として弱校正がある。多視点画像間の対応情報からカメラ間の相対的な位置姿勢情報としての外部パラメータや内部パラメータを推定する。しかし、カメラが疎に配置されている場合、撮像された2次元映像間において十分な対応点が得られず、射影関係の推定精度が低下するという問題が存在する。体育館やスタジアムなどの大規模空間では、密にカメラを配置することが難しい場合が多く、疎に配置したカメラを高精度でキャリブレーションする手法の実現が望まれている。
【0012】
本研究では、モバイルカメラで移動しながら撮影した映像と疎に配置したカメラの画像を統合することにより、安価かつ簡便に密な多視点画像群を構築し弱校正の推定精度を向上することで、カメラパラメータの推定精度を向上させる。
【0013】
2.関連研究
カメラパラメータの推定法として、ランドマーク(チェッカーボード)を利用した手法が代表的である。カメラパラメータの推定精度向上を目的とした研究では、動的なシルエットからエピポーラ幾何を計算する方法や、カラーコードの活用などが知られており、カメラパラメータの推定誤差を縮小する。また、水中や医療内視鏡など、カメラキャリブレーションの困難な環境や用途に対応した研究も報告されている。
【0014】
上述の例では、何れも比較的小規模な3次元空間を対象としている。一方で、大規模空間では空間全体を網羅するようにランドマークを配置する方法以外に現実的な手法は取られておらず、多くの労力や費用が必要である。この問題を解決するために、虹を利用したカメラキャリブレーション手法が提案されたが、自然現象である虹は利用できるときと場所を特定することが極めて困難であり、大規模空間用ランドマークとしての適用は極めて困難である。
【0015】
ランドマークの設置を必要としない、多視点から撮像された2次元映像間の対応点情報を利用したキャリブレーションを行う弱校正と呼ばれる手法が盛んに研究されている。撮像された2次元映像間の対応点を追加することによって頑健なキャリブレーションを実現した例も報告されているが、カメラが疎に配置される場合には十分な対応点を得ることが困難でありカメラパラメータ推定精度が低下する結果、復元される3次元情報の品質が劣化する問題が存在する。
【0016】
本発明の目的は、疎に配置された2次元映像撮像カメラのみで大規模空間中の撮像対象物の高品位な3次元情報を復元に資するカメラパラメータ手法を実現することである。撮像初期段階に疎に配置されたカメラの間を別のカメラにて撮像した映像(補完映像)を用い該補完映像を利用して疎設置したカメラのパラメータを高精度かつ容易に確定することで、疎に配置されたカメラからの映像のみで3次元空間中の撮像対象物の高品位な3次元情報復元を実現する。
【0017】
3.多視点カメラキャリブレーション手法
3.1 撮影方法および弱校正を用いた射影変換行列の取得
図1に示すように、疎に配置した固定カメラによって複数視点画像を撮影する。同時に、固定カメラの間を隣接する固定カメラとほぼ同じ方向を向いた状態でモバイルカメラを移動させながらビデオを撮影する。ビデオをフレームに分割した補完画像と疎な多視点画像により、固定カメラを含む密な多視点画像群を獲得する。それらの画像群に対して弱校正を適用することにより、全ての多視点画像の射影変換行列を推定する。
【0018】
推定した射影変換行列から、疎な多視点画像に対応するものを抜き出すことにより、ランドマークを設置することなく疎に配置した固定カメラの高精度なカメラキャリブレーションを実現する。さらに、推定精度を高めるためには十分な対応点が検出される必要があることから、撮影空間中に対応点が十分に取れる程の画像特徴が存在すると、より望ましい。
【0019】
3.2 3次元座標の算出
任意の点の弱校正座標系における3次元座標をMsfm=[Xs、Ys、Zs、1]Tとし、それがカメラ座標系においてm=[u、v、1]Tで観測されている場合、弱校正座標系とカメラ座標系間の射影関係は、3.1節の手法により取得した弱校正座標系におけるカメラの射影変換行列Pを用いて式(1)のように表される。
【0020】
【0021】
複数視点画像において同様に射影関係を推定し、それらの射影変換行列を用いたステレオ法により、画像上での観測座標からその3次元座標を算出する。
【0022】
3.3 弱校正座標系から撮影空間の世界座標系への変換
弱校正座標系は、観測される対応点の分布に基づいて座標系が設定されるため、撮影毎に原点や各軸の方向が変化してしまう。異なる撮影データにおいて統一的な計測を実現するために、撮影空間の世界座標系を設定し、弱校正座標系から世界座標系への変換を行う。
世界座標系における任意の点をMworld=[Xw、Yw、Zw]Tとすると、弱校正座標系から世界座標系の変換は、式(2)に示すように、回転行列Rと並進ベクトルtを用いた剛体変換で表される。
【0023】
【0024】
ここで、3次元剛体変換行列Dは、
【数3】
であり、
【0025】
【数4】
と表され、式(4)を用いることで。弱校正座標系から世界座標系へ変換が実現される。
【0026】
図9、
図10に本発明の実施例の一例を示す。多視点映像の撮影シーンから、2本の直線(エッジ)が垂直に交わり、かつ、大きさが既知の物体が存在する領域を世界座標系の原点としている。ベクトルtは、世界座標系の原点に対応した弱校正座標系の点S
oから原点o
sfmへの平行移動量として与えられる。
【0027】
また、スケールは、世界座標系で大きさが既知の物体を用いて、それに対応した弱校正座標系での大きさとの比によって求める。世界座標系のx、y、z軸上の点に対応した弱校正座標系における点Sx、Sy、Szを用いて、式(5)によって表される弱校正座標系の正規直交基底ベクトルを算出し、各ベクトルeiの成分から回転行列Rを求める。
【0028】
【0029】
弱校正座標系から世界座標系へ変換することで、世界座標系における被写体の3次元位置を算出することが出来る。
【0030】
4. 多視点カメラキャリブレーション手法の精度評価と評価実験結果
本実施例では、体育館においてバドミントンの練習風景を撮影する。
図1に示すように、光軸が世界座標系のX軸、Y軸と直交するように固定カメラを2台設置する。
図9、
図10に各カメラで撮影した画像例を示す。コートのコーナに原点、コートラインに沿ってX軸、Y軸が設定されている。競技規則上バドミントンコートラインは、
図9、
図10の(1)(2)の距離が6.1m、(1)(3)の距離が13.4mと定められている。この値を用いてスケールパラメータを推定する。
【0031】
多視点映像を撮影するカメラはソニー(登録商標)社FDR AX-1を用いた。横3840画素×縦2160画素の解像度の映像を毎秒30枚撮影する。また、同性能のカメラで二つの固定カメラ間を移動しながら同じ空間を撮影する。映像をフレームに分割することにより補完画像を取得する。本実験では、撮影した体育館の構造上、
図1のように移動した。
【0032】
カメラキャリブレーションの精度を評価するために、移動撮影映像からフレームを切り出す間隔を調整し、300枚、150枚、75枚、40枚、20枚、10枚、5枚の補完画像を用意する。
図2-
図8に示すように、撮影した補完画像に対して弱校正処理を適用する。推定されたカメラパラメータを用いて、
図9、
図10に示す世界座標系の原点(1)o
world、(2)X
o、(3)Y
oを算出し、3次元位置の推定精度を検証する。
【0033】
4.1 補完画像枚数による世界座標系の推定誤差
図11に示すように、世界座標系の推定値(原点(1)o
world、(2)X
o、(3)Y
o)と競技規則で定められた値((1)(2)6.1m、(1)(3)13.4mを用いた(1)(2)(3)の3次元位置)を比較する。少数枚の補完画像からの推定処理では世界座標系における誤差が大きいことが確認できる。
【0034】
(2)X
o、(3)Y
oと真値のユークリッド距離の算出誤差を
図12及び
図13に示す。補完画像300枚、150枚、75枚の場合は10cm以下の誤差で3次元位置推定が可能であることがわかる。また、補完画像が20枚を下回ると誤差が急激に大きくなる。最小値は300枚の補完画像を用いた場合で平均誤差値は4.3cm、最大値は20枚の補完画像を用いた場合で平均誤差値229.5cmであった。
【0035】
図12及び
図13の結果を見ると補完画像40枚と20枚の場合の平均誤差に大きな差があることがわかる。それぞれの輻輳角は、補完画像40枚を用いた場合が約6度、補完画像20枚を用いた場合が約12度であった。この結果から、本手法を有効に機能させるためには、輻輳角が6度程度となるように補完画像を切り出すことが望ましいと考えられる。例えば、本実験環境では、
図1のカメラ間は約40m(縦約20m、横約20m)である。この場合、秒速1mの速度で歩行しながら撮影した映像を、毎秒1フレームで切り出すと輻輳角が6度程度の間隔で得られる。
【0036】
4.2 本発明による3次元映像撮像方法を用いた3次元骨格位置姿勢推定
本発明の応用事例の一つとしてバドミントン選手の3次元的な姿勢推定を行った。本発明手法を利用し、被写体となる選手の姿勢推定精度がどのように変化するかを実測した。撮影画像中での被写体の姿勢推定にはConvolutional Neural Network(CNN:深層学習)を利用した人物の骨格位置推定手法を利用した。撮影した多視点カメラ画像にConvolutional Pose Machinesを適用した結果を
図14および
図15の左側に示す。2視点で撮影した画像から検出した骨格情報から3次元骨格位置を推定した結果を
図14および
図15の右側に示す。この際ステレオ処理に利用する射影変換行列は本発明を用いて推定した。
【0037】
推定した3次元骨格の首下の位置を用いて、3次元位置推定誤差の比較実験を行った。300枚の補完画像を用いて推定した3次元骨格位置(
図16参照)とその他の結果を比較する。
図17に示すように、誤差の最小値は150枚の補完画像を用いた平均誤差値2.7cmであり、20枚以下になると急激に誤差が増加することが確認された。