(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024178816
(43)【公開日】2024-12-25
(54)【発明の名称】情報処理装置、制御方法及びプログラム
(51)【国際特許分類】
G06T 7/70 20170101AFI20241218BHJP
H04N 7/18 20060101ALI20241218BHJP
H04N 23/60 20230101ALI20241218BHJP
【FI】
G06T7/70 Z
H04N7/18 K
H04N23/60
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023097245
(22)【出願日】2023-06-13
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】阿達 大地
【テーマコード(参考)】
5C054
5C122
5L096
【Fターム(参考)】
5C054CA04
5C054CA05
5C054CC02
5C054CF06
5C054CF07
5C054EA01
5C054EA05
5C054EA07
5C054FC03
5C054FC07
5C054FC14
5C054FC15
5C054FD01
5C054FE12
5C054GB15
5C122EA59
5C122FA18
5C122FH03
5C122FH10
5C122FH11
5C122FH14
5C122HA76
5C122HA88
5C122HB01
5L096AA02
5L096AA06
5L096AA09
5L096EA39
5L096FA06
5L096FA09
5L096FA35
5L096FA66
5L096FA67
5L096FA69
5L096GA40
5L096GA55
5L096JA09
(57)【要約】
【課題】移動する撮像装置の位置及び姿勢を適切に決定する技術を提供する。
【解決手段】複数の第一の撮像装置の撮像により取得された画像に基づいて生成される三次元形状データに基づく画像と、前記複数の第一の撮像装置の撮像中に移動して撮像する第二の撮像装置が撮像する画像と、に基づいて、第二の撮像装置の位置及び姿勢を決定する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の第一の撮像装置の撮像により取得された画像に基づいて生成される三次元形状データを取得する第一の取得手段と、
前記複数の第一の撮像装置の撮像中に移動して撮像する第二の撮像装置が撮像する画像を取得する第二の取得手段と、
前記三次元形状データに基づく画像と、前記第二の撮像装置が撮像する画像と、に基づいて、前記第二の撮像装置の位置及び姿勢を決定する決定手段と、を有する情報処理装置。
【請求項2】
前記決定手段は、予め取得された前記第二の撮像装置の位置及び姿勢に応じた投影面に前記三次元形状データを投影することにより前記三次元形状データに基づく画像を生成し、
前記三次元形状データに基づく画像と、前記第二の撮像装置が撮像する画像と、に基づいて、前記第二の撮像装置の位置及び姿勢を決定する請求項1に記載の情報処理装置。
【請求項3】
前記決定手段は、前記三次元形状データに基づく画像の画像特徴と、前記第二の撮像装置が撮像する画像の画像特徴とに基づいて、前記第二の撮像装置の位置及び姿勢を決定する請求項1に記載の情報処理装置。
【請求項4】
前記決定手段は、前記三次元形状データに基づく画像に含まれる被写体のエッジ特徴と、前記第二の撮像装置が撮像する画像に含まれる前記被写体のエッジ特徴とに基づいて、前記第二の撮像装置の位置及び姿勢を決定する請求項1に記載の情報処理装置。
【請求項5】
前記決定手段は、前記エッジ特徴どうしの距離がより小さくなるように前記第二の撮像装置の位置及び姿勢を決定する請求項4に記載の情報処理装置。
【請求項6】
前記被写体は、静止している構造物である請求項4に記載の情報処理装置。
【請求項7】
前記決定手段は、前記三次元形状データに基づく画像に含まれる画素と、前記第二の撮像装置が撮像する画像のエッジ領域を除いた画像に含まれる画素の色との差に基づいて、前記第二の撮像装置の位置及び姿勢を決定する請求項1に記載の情報処理装置。
【請求項8】
前記決定手段により決定された前記第二の撮像装置の位置及び姿勢に基づいて、前記三次元形状データを更新する更新手段を有する請求項1に記載の情報処理装置。
【請求項9】
前記複数の第一の撮像装置と、前記第二の撮像装置とは同期して撮像を行う請求項1に記載の情報処理装置。
【請求項10】
前記決定手段は、前記第二の撮像装置が撮像する画像と、前記三次元形状データに基づく画像とに基づいて、前記第二の撮像装置の位置及び姿勢に対応する画像を生成する請求項1に記載の情報処理装置。
【請求項11】
複数の第一の撮像装置の撮像により取得された画像に基づいて生成される三次元形状データを取得する第一の取得工程と、
前記複数の第一の撮像装置の撮像中に移動して撮像する第二の撮像装置が撮像する画像を取得する第二の取得工程と、
前記三次元形状データに基づく画像と、前記第二の撮像装置が撮像する画像と、に基づいて、前記第二の撮像装置の位置及び姿勢を決定する決定工程と、を有する制御方法。
【請求項12】
コンピュータに、請求項11に記載の制御方法が有する各工程を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、制御方法及びプログラムに関するものである。
【背景技術】
【0002】
昨今、それぞれ異なる位置に設置された複数の撮像装置が同期して撮像を行い、当該撮像に基づいて得られる複数の画像を用いて仮想視点画像を生成するボリュメトリック技術が注目されている。仮想視点画像の画質向上の目的から、被写体を至近距離から移動するカメラ(以下、移動カメラという)で撮像した画像を用いて画像を合成する需要がある。
【0003】
一方、特許文献1で記載されているように、一般的なボリュメトリック技術では、複数の撮像装置の位置や姿勢を校正するカメラキャリブレーションを実施する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2017-212592号公報
【特許文献2】特開2010-079452号公報
【非特許文献】
【0005】
【非特許文献1】J. Engel, V. Koltun, D. Cremers, “Direct Sparse Odometry” Submitted on 9 Jul 2016 (v1), last revised 7 Oct 2016 (this version, v2) [令和 5 年6 月2 日検索],インターネット <URL: https://arxiv.org/abs/1607.02565>
【発明の概要】
【発明が解決しようとする課題】
【0006】
空間内を動く移動カメラで撮像した画像と仮想視点画像とがシームレスに切り替わるような演出をするためには、移動カメラの位置や姿勢を毎フレームキャリブレーションすることやセンサーで取得することが必要である。しかしキャリブレーションに必要なマーカーを配置できない撮像環境の制約、あるいはセンサー精度が不十分であるなどの点から上記のような演出は困難であった。
【0007】
本開示の目的は、移動する撮像装置の位置及び姿勢を適切に決定する技術を提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本開示にかかる情報処理装置は、例えば以下の構成を有する。すなわち、複数の第一の撮像装置の撮像により取得された画像に基づいて生成される三次元形状データを取得する第一の取得手段と、前記複数の第一の撮像装置の撮像中に移動して撮像する第二の撮像装置が撮像する画像を取得する第二の取得手段と、前記三次元形状データに基づく画像と、前記第二の撮像装置が撮像する画像と、に基づいて、前記第二の撮像装置の位置及び姿勢を決定する決定手段を有する。
【発明の効果】
【0009】
本開示によれば、移動する撮像装置の位置及び姿勢を適切に決定することが可能となる。
【図面の簡単な説明】
【0010】
【
図2】実施形態1における撮像する空間の模式図を示す。
【
図3】実施形態1における情報処理装置のハードウェア構成図を示す。
【
図4】実施形態1における情報処理装置の処理フローを示す。
【
図6】実施形態1における画像特徴の抽出および対応付けのフローを示す。
【
図8】実施形態2における情報処理装置の処理フローを示す。
【
図9】実施形態2における画像特徴の抽出および対応付けのフローを示す。
【
図10】実施形態3におけるシステム構成図を示す。
【
図11】実施形態3における情報処理装置の処理フローを示す。
【
図12】実施形態3における画像合成の過程を示す。
【
図13】実施形態3における画像特徴の抽出および対応付けのフローを示す。
【発明を実施するための形態】
【0011】
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0012】
(実施形態1)
本実施形態では、被写体を複数の固定カメラから撮像した画像を用いて被写体の三次元モデルを生成する撮像システムにおいて、移動カメラによる撮像画像と、該撮像画像の撮像時における移動カメラの位置姿勢と、に基づいて、より精度の高い移動カメラの位置姿勢を算出し、該算出した位置姿勢に基づいて生成した該被写体の仮想視点画像と、該撮像画像と、を合成して表示する例を述べる。なお、本実施形態で説明する画像とは静止画に限らず、連続時刻にわたって撮像または再生される動画像における各フレームの画像も含むものとして説明する。
【0013】
なお、移動カメラは、固定されていないカメラで、撮像中に移動するカメラである。また、撮像中に移動するとは、固定カメラにおいて振動によって位置や姿勢が変化するものではなく、ユーザーが意図してカメラを移動することである。移動カメラの撮像と、複数の固定カメラの撮像とは同期しており、同じ時刻で撮像されたそれぞれの画像には同じタイムコードが付与される。例えば、移動カメラは、手持ちカメラやクレーンカメラ、ワイヤーカムなどである。以下では手持ちカメラを例にして説明を行う。また、三次元モデルとは、被写体の三次元形状を示す三次元形状データである。三次元モデルは、メッシュ形式や点群形式、ボクセル形式などのいずれの形式で表現されてもよいし、例示した形式以外の形式で表現されてもよい。
【0014】
図1に、本実施形態に係る撮像システムの構成例を示すブロック図を示す。撮像システムは以下の構成要素を有する。複数の撮像装置100は撮像エリアを複数の方向から撮像する。撮像装置100は、第一の撮像装置の一例である。撮像エリアは、例えば屋内の撮像スタジオや演劇が行われる舞台などである。
図2に撮像エリアを含む、撮像する空間の模式図を示す。複数の撮像装置100は、撮像エリアを取り囲むようにそれぞれ異なる位置に固定して設置され、同期して撮像を行う。なお、複数の撮像装置100は撮像エリアの全周にわたって設置されていなくてもよく、設置場所の制限等によっては撮像エリアの一部にのみ設置されていてもよい。
【0015】
また、撮像装置100の数は
図1および
図2に示す例に限定されず、例えば撮像エリアをサッカーの競技場とする場合には、競技場の周囲に100台程度の撮像装置100が設置されてもよい。また、望遠カメラと広角カメラなど機能が異なる複数の撮像装置100が設置されていてもよい。撮像装置100は
図2に示すようにそれぞれ有線のイーサネットケーブルによるカスケード接続で接続され、終端部はイーサネットスイッチ等により束ねたうえで情報取得部111および生成部112にそれぞれ接続される。接続の方法はこれに限らず、無線で伝送を行ってもよいし、それぞれの撮像装置100と情報取得部111および生成部112とを直接繋ぐスター接続の構成としてもよい。
【0016】
情報取得部111は、複数の撮像装置100のそれぞれの三次元位置、パン、チルト、及びロール方向における撮像装置100の方向、撮像装置100の視野の大きさ(画角)、および解像度を含むパラメータのセットを撮像装置情報として取得して記憶する。撮像装置情報は公知のカメラキャリブレーションの手順で情報取得部111においてあらかじめ算出して記憶しておく。すなわち情報取得部111は、撮像エリアに排紙されたマーカーを複数の撮像装置100で同期撮像することで取得した複数の画像中のマーカーが検出された画像座標同士を対応付け、幾何計算により撮像装置情報を算出する。なお、撮像装置情報の内容は上記に限定されない。撮像装置情報は複数のパラメータのセットを有していてもよい。例えば、撮像装置情報が、動画像を構成する複数のフレームにそれぞれ対応するパラメータのセットを有し、それぞれのフレームに対応する撮像装置100の位置及び方向を示す情報であってもよい。
【0017】
生成部112は、特許文献1に記載の視体積交差法などにより、複数の撮像装置100による撮像された複数の撮像画像から被写体5の三次元モデル(色付き三次元点群やテクスチャ付きポリゴンメッシュ形式の三次元モデル)を生成し、該生成した三次元モデルを記憶部113に記憶する。
【0018】
撮像装置101は、手持ちの非固定カメラ(以下手持ちカメラと呼称する場合がある)であり、撮像装置100と同期して撮像する。撮像装置101は、第二の撮像装置の一例である。以下では、撮像装置101により撮像される撮像画像を非固定画像と称する。
【0019】
位置姿勢センサー120は、撮像装置101に設置された光学式センサーであり、別途設置された図示しない赤外光発光部の光信号を撮像装置100および撮像装置101と同期してセンシングすることで6自由度の位置姿勢を算出する。同期の精度が不十分または同期ができていない場合、位置姿勢センサー120は、その時点までに取得した複数時刻の位置姿勢からカルマンフィルタなどの信号処理によって6自由度の位置姿勢を予測、外挿してもよい。6自由度の位置姿勢は、第一の位置姿勢の一例である。位置姿勢センサー120と撮像装置101との間の相対的な位置姿勢のオフセット量は、あらかじめ校正されて記憶されている。
【0020】
情報処理装置200は、撮像装置101、位置姿勢センサー120、記憶部113からそれぞれ撮像画像、位置姿勢、三次元モデルを取得し、取得したこれらのデータに基づいて後述する仮想視点画像を生成し、該生成した仮想視点画像を表示装置300に表示させる。
【0021】
情報処理装置200は、取得部210と、取得部220と、取得部230と、生成部240と、対応付け部250と、算出部260と、更新部270と、画像合成部280と、を有する。
【0022】
取得部210は、撮像装置101から例えばフルHD解像度、RGB3チャネルの非固定画像を取得する。非固定画像のデータフォーマットは後述するようにこれに限らない。
【0023】
取得部220は、記憶部113からテクスチャ付きポリゴンメッシュ形式の三次元モデルを取得する。この三次元モデルは、固定カメラの複数の撮像画像のタイムコードと、非固定画像のタイムコードと対応付けられている。
【0024】
取得部230は、位置姿勢センサー120から6自由度の位置姿勢を第一の位置姿勢として取得する。この第一の位置姿勢は、固定カメラの複数の撮像画像のタイムコードと、非固定画像のタイムコードと対応付けられている。
【0025】
生成部240は、特許文献1に記載のモデルベースドレンダリングなどにより、取得部230が取得した位置姿勢に置いた投影面に、取得部220が取得した三次元モデルを描画して仮想視点画像を生成する。この仮想視点画像は、固定カメラの複数の撮像画像のタイムコードと、非固定画像のタイムコードと対応付けられている。
【0026】
対応付け部250は、生成部240が生成した仮想視点画像、取得部210が取得した非固定画像、のそれぞれの画像から後述する画像特徴を抽出し、画像間で画像特徴の対応付けを行う。仮想視点画像と非固定画像は、同じタイムコードに対応付けられている。つまり、ある時刻に撮像された複数の撮像画像に基づいて生成された仮想視点画像と、その時刻と同じ時刻に撮像された非固定画像と、の画像間の画像特徴が対応付けられる。
【0027】
算出部260は、対応付け部250によって対応付けられた画像特徴間の距離が小さくなるように後述する最適化計算を行うことで、非固定画像の撮像時における撮像装置101の位置姿勢を第二の位置姿勢として算出(推定)する。
【0028】
更新部270は、第二の位置姿勢を用いて生成部240と同様に三次元モデルを描画して仮想視点画像を生成する。
【0029】
画像合成部280は、更新部270によって生成された仮想視点画像と、取得部210が取得した非固定画像と、を後述する方法でアルファ合成した合成画像を生成し、該生成した合成画像を表示装置300へ送信する。
【0030】
表示装置300は、液晶画面やタッチパネル画面を有し、情報処理装置200から出力された合成画像を含む様々な情報を表示可能である。なお、表示装置300は、表示画面を有するコンピュータ装置であっても良い。
【0031】
図3に情報処理装置200のハードウェア構成図を示す。なお、本実施形態では、情報取得部111および生成部112のハードウェア構成も、情報処理装置200の構成と同様であるが、これに限らず、情報処理装置200の構成と異なっていても良い。また、情報取得部111および生成部112が情報処理装置200と同様の構成を有しても良い。
【0032】
情報処理装置200は、CPU211、ROM212、RAM213、補助記憶装置214、表示部215、操作部216、通信I/F217、及びバス218を有する。CPU211は、ROM212やRAM213に格納されているコンピュータプログラムやデータを用いて情報処理装置200の全体を制御することで、
図1に示す情報処理装置200の各機能部の機能を実現する。以下では、
図1の情報処理装置200が有する機能部がコンピュータプログラム(ソフトウェア)で実装されるケースについて説明する。以下では、
図1の情報処理装置200の機能部を処理の主体として説明するが、実際には、CPU211が該機能部に対応するコンピュータプログラムを実行することで、該機能部の機能が実現される。なお、
図1の情報処理装置200の機能部のうち1以上をハードウェアで実装しても良い。なお、情報処理装置200がCPU211とは異なる1又は複数の専用のハードウェアを有し、CPU211による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。
【0033】
ROM212は、変更を必要としないコンピュータプログラムやデータを格納する。RAM213は、補助記憶装置214やROM212から供給されるコンピュータプログラムやデータ、通信I/F217を介して外部から供給されるデータ、などを一時記憶するためのエリアを有する。また、RAM213は、CPU211が各種の処理を実行する際に用いるワークエリアを有する。このように、RAM213は、各種のエリアを適宜提供することができる。補助記憶装置214は、例えばハードディスクドライブ等で構成され、OS、情報処理装置200が行う処理として説明する各種の処理をCPU211に実行もしくは制御させるためのコンピュータプログラムやデータ(画像や音声などの種々のデータ)を記憶する。
【0034】
表示部215は、例えば液晶ディスプレイやLEDディスプレイ等で構成され、ユーザーが情報処理装置200を操作するためのGUI(Graphical User Interface)などを表示する。なお、表示部215は、タッチパネル画面を有していても良い。操作部216は、例えばキーボードやマウス、ジョイスティック、タッチパネル等で構成され、ユーザーによる操作を受けて各種の指示をCPU211に入力する。
【0035】
CPU211は、表示部215を制御する表示制御部、及び操作部216を制御する操作制御部としても動作する。CPU211は、制御部の一例である。通信I/F217は、情報処理装置200の外部の装置との通信に用いられる。例えば、情報処理装置200が外部の装置と有線で接続される場合には、通信用のケーブルが通信I/F217に接続される。情報処理装置200が外部の装置と無線通信する機能を有する場合には、通信I/F217はアンテナを備える。CPU211、ROM212、RAM213、補助記憶装置214、表示部215、操作部216、通信I/F217は、いずれもバス218に接続されている。本実施形態では表示部215と操作部216とが情報処理装置200の内部に存在するものとするが、表示部215と操作部216との少なくとも一方が情報処理装置200の外部に別の装置として存在していてもよい。
【0036】
次に情報処理装置200の処理フローを
図4に沿って説明する。
【0037】
ステップS02010では、取得部210が、撮像装置101から非固定画像を取得する。非固定画像は、本実施形態ではフルHD解像度、RGB3チャネルの画像のデータとするが、これに限らない。
【0038】
ステップS02020では、取得部220が、記憶部113から三次元モデルを取得する。三次元モデルはテクスチャ画像付きポリゴンメッシュを示すOBJファイル形式のデータとするが、これに限らない。例えば、三次元モデルは、OBJファイル形式のデータに替えて色付き三次元点群やイメージベースドレンダリングするための形状を表すポリゴンメッシュと複数視点の画像のデータフォーマットでもよい。
【0039】
ステップS02030では、取得部230が、位置姿勢センサー120から位置の3自由度、姿勢の3自由度、計6自由度の位置姿勢を第一の位置姿勢として取得する。取得部230は、前述のようにカルマンフィルタなどの時系列フィルタを適用して取得した位置姿勢を第一の位置姿勢として取得してもよい。
【0040】
ステップS02040では、生成部240が、特許文献1に記載のモデルベースドレンダリングなどにより、取得部230が取得した第一の位置姿勢に応じた投影面に、取得部220が取得した三次元モデルを投影した画像を、仮想視点画像として描画(生成)する。
【0041】
図5(a)は、ステップS02010で撮像装置101から取得した非固定画像11を示す。非固定画像11は、被写体5を含む。
図5(b)は、本ステップS02040で描画された仮想視点画像12を示す。仮想視点画像12は、被写体5の三次元モデル50を含む。
【0042】
ステップS02050では、対応付け部250が、ステップS02040にて生成した仮想視点画像から画像特徴としてエッジ部分を抽出し、ステップS02010にて取得した非固定画像上の画素への対応付けを行う。
図6にステップS02050のより詳細な処理フローを示す。
【0043】
ステップS02051では、対応付け部250が、仮想視点画像にラプラシアンフィルタやキャニーフィルタなどのエッジ抽出フィルタを適用することで、該仮想視点画像におけるエッジ部分を表すエッジ画像を生成する。対応付け部250は、
図5(b)の仮想視点画像12に対してエッジ抽出フィルタを適用することで、
図5(c)に示すように、仮想視点画像12におけるエッジ部分の輝度が高く、それ以外の画素の輝度が低いエッジ画像13を得る。
【0044】
ステップS02052では、対応付け部250は、ステップS22051にて抽出されたエッジ部分の画素位置(
図5(c)ではエッジ画像13の輝度の高い画素位置)の周辺において、非固定画像上の画素を探索する。本実施形態では、対応付け部250は、後述する位置姿勢センサー120のデータ誤差を加味し5画素を探索範囲とするが、これに限らず、さらに大きく10画素や20画素などを探索範囲としてもよい。
図5(d)は、非固定画像11上に仮想視点画像12を重畳した様子を示す。
図5(d)に示すように、位置姿勢センサー120から取得したデータの誤差により、被写体5の像とその三次元モデル50の像との間にわずかなずれが生じている。対応付け部250は、エッジ画像におけるエッジ部分の画素位置においてエッジに垂直な方向に非固定画像上の画素を探索し、輝度勾配を計算する。このとき対応付け部250は、エッジ画像13の画素位置30周辺のエッジ画素の分布に基づいて探索方向31を決定できる。
【0045】
ステップS02053では、対応付け部250は、輝度勾配が閾値以上の画素を、「ステップS22051にて抽出されたエッジ部分の画素位置におけるエッジ画素」(つまり仮想視点画像におけるエッジ画素)に対応する非固定画像のエッジ画素として検出する。そして対応付け部250は、「ステップS22051にて抽出されたエッジ部分の画素位置におけるエッジ画素」と、「ステップS22051にて抽出されたエッジ部分の画素位置におけるエッジ画素」に対応する非固定画像のエッジ画素と、を対応付ける。このとき、対応付け部250は、ステップS02051と同様のフィルタを適用することにより輝度勾配を算出する。
【0046】
ステップS02060では、算出部260は、仮想視点画像におけるエッジ画素と、該エッジ画素に対応する非固定画像のエッジ画素と、の間の距離をコストとしたコスト関数の値が最小化するようにガウス・ニュートン法により繰り返し計算を行い、撮像装置101の第二の位置姿勢を算出する。この手順は例えば特許文献2に記載のように公知のため詳細はここでは説明しない。
【0047】
ステップS02070では、更新部270は、第二の位置姿勢を第一の位置姿勢の代わりに用いてステップS02040の処理と同様の処理を行うことで仮想視点画像を描画(生成)する。
図5(e)は、ステップS2070で生成した仮想視点画像を非固定画像11に重畳した様子を示す。
図5(d)で生じていたずれが軽減され、より精密に重畳されている。
【0048】
ステップS02080では、画像合成部280は、
図5(d)で重畳したように、非固定画像と、ステップS02070で生成された仮想視点画像とをアルファ合成した合成画像を生成し、該合成画像を表示装置300に表示させる。アルファ合成時に非固定画像に乗算するアルファ値αは、所定の値、例えば0.5としてもよい。または情報処理装置200は、連続時刻にわたって撮像される映像に対してアルファ合成をする場合、処理対象のフレーム数nを初期値0からインクリメントし、nの値に応じた線形あるいはシグモイド関数のような非線形の関数f(n)を用いてα=f(n)としてアルファ値αを算出し、アルファ合成を行ってもよい。
【0049】
以上のように、本実施形態の撮像システムは、撮像装置100の撮像画像から生成した三次元モデルと、撮像装置101が撮像した非固定画像とを取得し、撮像装置101から取得した位置姿勢に基づく投影面に三次元モデルを投影した仮想視点画像と非固定画像とから撮像装置101の位置姿勢を算出している。これにより、撮像システムは、撮像装置101の位置姿勢をより精度よく算出することができる。
【0050】
また、撮像システムは、三次元モデルのエッジ特徴を、撮像装置101で撮像した非固定画像中のエッジ特徴に対応付けることにより、位置姿勢センサー120の誤差が低減された、撮像装置101の第二の位置姿勢を精度よく算出することができる。これにより、撮像システムは、画像上のずれが少なくなるように仮想視点画像と撮像装置101の撮像画像とを合成することができる。
【0051】
また、撮像システムは、その原理からエッジ部分の精度が比較的高い視体積交差法による三次元モデルのエッジ特徴と非固定画像のエッジ特徴とを対応付けることで高精度に撮像装置101の位置姿勢を算出することができる。
【0052】
なお、本実施形態では撮像装置101が手持ちの非固定カメラであるケースについて説明したが、これに限らず、例えば撮像装置101はドリーカメラやドローンカメラなど、固定されずに動きながら撮像するカメラでもよい。また、手持ち非固定カメラの別の解釈として、あらかじめ撮像装置情報をカメラキャリブレーションにより算出した際には存在せず、被写体の撮影時に新たに追加された固定カメラとしてもよい。また、撮像装置101は、たとえば、ユーザーの頭部などに装着する撮像装置であっても良いし、移動する装置に取り付けられた撮像装置であっても良く、位置や姿勢が固定されていない撮像装置であれば良い。
【0053】
本実施形態は、画像合成を実時間で行うために、三次元モデルが生成され、取得するまでの遅延を考慮して撮像装置101の撮像画像を取得あるいはバッファリングしてもよい。
【0054】
(実施形態2)
本実施形態では、マルチビューステレオにより生成される三次元モデルと撮像装置101の撮像画像の画像特徴とを対応付けることで第二の位置姿勢を算出し、撮像装置101の撮像画像を用いて三次元モデルを更新する方法について説明する。以下、実施形態1と同様の構成については説明を省略する。
【0055】
図7に、本実施形態に係る撮像システムの構成例を示すブロック図を示す。生成部112は、複数の撮像装置100で撮像される多視点画像を用いたマルチビューステレオにより各固定視点からのデプスマップの集合を三次元モデルとして生成し、該生成した三次元モデルを記憶部113に格納する。更新部275は、算出部260の出力と取得部210で取得した非固定画像とを用いて三次元モデルを更新し、該更新した三次元モデルを記憶部113に記録する。
【0056】
図8に情報処理装置200の処理フローを、
図9に対応付け部250が実行するステップS02150のフローを示す。
【0057】
ステップS02150では、対応付け部250が、ステップS02040にて生成した仮想視点画像から抽出した画像特徴と、ステップS02010にて取得した非固定画像における画像特徴と、の対応付けを行う。
【0058】
ステップS02151では、対応付け部250は、仮想視点画像中の三次元モデル上のエッジ領域を除いた画像領域から所定の数だけ画素をサブサンプリングして抽出する。対応付け部250は、例えば三次元モデル上のエッジ領域を除いた画像領域の内側の画素をランダムに100か所あるいは10画素ずつ等間隔に選んでよい。対応付け部250は、SIFT(Scale-Invariant Feature Transform)などの疎な特徴点を、サンプリングによる画素として検出して抽出してもよい。
【0059】
ステップS02152では、対応付け部250は、サブサンプリングにより抽出した画素に対し、重畳した非固定画像上の該画素の周辺をテンプレートマッチングにより探索する。本実施形態では、探索の範囲は上下左右にそれぞれ100画素、テンプレートの大きさは20x20画素とする。
【0060】
ステップS02153では、対応付け部250は、テンプレートマッチングによりSSD(Sum of Squared Difference)、つまり画素値の差分の二乗和の値が小さくなる画素同士を対応付ける。対応付け部250は、SIFTなどのように特徴量を記述できる画像特徴を用いる場合は、非固定画像上で同様に検出したSIFT特徴点のうち画像座標が近傍のものと特徴量の類似度を算出し、類似度の高い特徴点同士を対応付ける。
【0061】
ステップS02160では、算出部260が、ステップS02150で対応付けられた両画像の画素の特徴量間の距離をコストとして上記のステップS2060と同様の処理を行うことで、撮像装置101の第二の位置姿勢を算出する。
【0062】
ステップS02170では、更新部275が、算出部260で算出した第二の位置姿勢と非固定画像とを用いて、記憶部113に格納されている三次元モデルを更新する。更新部275は、生成部112と同様の手順で撮像装置101を追加した状態で改めて三次元モデルを生成してもよいし、三次元モデルを構成するテクスチャデータのみを非固定画像に写っている画像領域から上書きあるいは加重平均を取るなどして更新してもよい。
【0063】
ステップS02180では、画像合成部280は、ステップS02170にて更新した三次元モデルを記憶部113に記憶する。画像合成部280は、更新する前の三次元モデルは削除してもよいし、更新前の三次元モデルに対する更新後の三次元モデルの差分情報を追加で記憶部113に記憶してもよい。
【0064】
以上のように、本実施形態は、マルチビューステレオにより三次元モデルを生成する場合には、テンプレートマッチングやSIFT特徴による対応付けを行うことで第二の位置姿勢を算出することができる。また、本実施形態は、固定カメラのみの撮像装置よりも被写体に近づいた手持ちカメラの高画質な画像を用いて三次元モデルを更新することができる。マルチビューステレオによる三次元モデルは、三角測量の原理からエッジ部分よりも内側部分の精度が比較的高いため、本実施形態は、エッジ領域を除いた内側部分から抽出した特徴を用いて対応付けることで高精度に位置姿勢を算出することができる。
【0065】
(実施形態3)
以上で述べた実施形態では、非固定画像に写る被写体上の画像特徴を用いて撮像装置101の位置姿勢を算出する性質から、安定した算出結果を得るためには、画像特徴が画像内で偏ることなく分布している必要がある。より具体的には、被写体が大きく写るよう撮像装置101を被写体に寄せて撮像した撮像画像では、撮像画像の中心から離れた画像周辺部に画像特徴が偏らずに分布するため安定した算出結果を得ることができる。一方で、撮像装置101が被写体から引いた状態で撮像することで撮像画像中の被写体が小さく写っていたり、撮像画像の端に被写体が偏っていたりする場合は、画像特徴が偏って分布するため、算出結果が安定しない。
【0066】
そのため本実施形態では、撮像装置101が被写体から引いた状態で撮像することで撮像画像中の被写体が小さく写ってしまって画像特徴が偏って分布する場合に、被写体以外の固定構造物の特徴を併用することで安定かつ高精度に位置姿勢を算出する方法について説明する。なお、前提として固定構造物の特徴は空間に疎に分布しており、かつ被写体によって頻繁に遮蔽される。したがって、固定構造物の特徴のみでは撮像装置101の位置姿勢算出は不十分な場合が多い。以下、実施形態1と同様の構成については説明を省略する。固定構造物は、固定された構造物で、静止している構造物である。ただし、構造物は振動の影響などにより微少に移動してもよい。
【0067】
図10に、本実施形態に係る撮像システムの構成例を示すブロック図を示す。固定構造物114は、三次元モデル同様のテクスチャ画像付きポリゴンメッシュを示すOBJファイル形式のデータとするが、これに限らない。情報処理装置200は取得部290をさらに有し、取得部290は、固定構造物114を取得する。取得部290は固定構造物114を、情報処理装置200の外部装置から通信I/F217を介して取得しても良いし、補助記憶装置214から取得しても良い。生成部240は、被写体の三次元モデルに加えて固定構造物114を用いて仮想視点画像を描画する。対応付け部250は、被写体の三次元モデルに加えて固定構造物114を用いて実施形態1と同様にして仮想視点画像および非固定画像の画像間の画像特徴を対応付ける。
【0068】
図11に情報処理装置200の処理フローを示す。ステップS02031では取得部290が固定構造物114を取得する。固定構造物114は、例えば
図2中で示す撮像装置100であり、その三次元形状や位置をあらかじめ情報取得部111で取得した情報や撮像装置100のCADデータから算出して固定構造物114として記憶しておくことで取得できる。あるいは屋外のサッカースタジアムの場合は、固定配置されるデジタルサイネージやサッカーゴールなどの三次元形状や位置をあらかじめStructure from Motionなどの技術により算出して固定構造物114として記憶しておく。ステップS02040では、生成部240が、特許文献1に記載のモデルベースドレンダリングなどにより、取得部230が取得した第一の位置姿勢に応じた投影面に、取得部220が取得した三次元モデルおよび取得部290が取得した固定構造物114を投影した画像を、仮想視点画像として描画(生成)する。
【0069】
図12(a)は取得部210が撮像装置101から取得した非固定画像81を示しており、被写体5および撮像装置100が写っている。
図12(b)は生成部240で描画した仮想視点画像82を示しており、被写体5の三次元モデル50および固定構造物114が写っている。ステップS02250では、対応付け部250が、ステップS02040にて生成した仮想視点画像から画像特徴としてエッジ部分を抽出し、ステップS02010にて取得した非固定画像上の画素への対応付けを行う。
図12の例では、対応付け部250は、
図12(c)に示すエッジ画像83を生成したのちに該エッジ画像83における画像特徴としてのエッジ部分について、非固定画像81上の画素への対応付けを行う。
図13にステップS02250のより詳細な処理フローを示す。ステップS02051-S02053においてエッジ特徴を対応付けたのち、ステップS02254では、対応付け部250は、非固定画像に写る固定構造物114の周辺領域(
図12(a)の例では周辺領域71)において、SIFT特徴点(
図12(d)の例ではSIFT特徴点91)を抽出する。ステップS02255では、対応付け部250は、仮想視点画像に写る固定構造物114の周辺領域(
図12(a)の例では周辺領域72)において、SIFT特徴点(
図12(d)の例ではSIFT特徴点92)を抽出する。
図12(d)は非固定画像81上に仮想視点画像82を重畳した様子を示す。
【0070】
ステップS02256では、対応付け部250は、非固定画像から抽出したSIFT特徴点および仮想視点画像から抽出したSIFT特徴点をそれぞれSIFT特徴空間内の距離に基づいて対応付ける。ステップS02060では、対応付け部250は、対応付けたエッジ特徴およびSIFT特徴にそれぞれ重みをつけて実施形態1と同様にして特徴間の距離を最小化するように第二の位置姿勢を算出する。本実施形態ではエッジ特徴の重みを1.0、SIFT特徴の重みを0.8として、特許文献2に記載の重み行列Wの対角成分の値を設定して計算を行う。エッジ特徴に加えてSIFT特徴点を併用することにより、エッジ特徴のみで計算を行うのに比べて画像中における特徴の分布が広くなるため、安定した位置姿勢の算出結果を得ることができる。
【0071】
以上のように、手持ちカメラが被写体から引いて小さく写り画像特徴が偏って分布する場合に、被写体以外の固定構造物の特徴を併用することで安定かつ高精度に位置姿勢を算出することができる。
【0072】
(その他の実施形態)
以上の実施形態ではエッジ特徴またはSIFT特徴点を用いる方法について述べたが、画像特徴はこれに限らない。例えば特徴抽出を行わずに輝度勾配を直接用いて位置姿勢算出時のパラメータ更新量を算出する非特許文献1に記載のDirect methodを用いることで画像のブラーに対応しやすいアプローチをとってもよい。また、高速化の目的でSIFT特徴に替えてSURF特徴などそのほかの特徴点を抽出するアルゴリズムを用いてもよい。
【0073】
第一の位置姿勢は位置姿勢センサーから取得することを述べたが、これに替えて仮想視点画像を生成するためにユーザーが操作部216などのコントローラを介して入力した位置姿勢を取得してもよい。
【0074】
上述の実施形態は、組み合わせてもよい。また、実施形態を組み合わせた場合、ユーザーが各実施形態に対応した設定を選択可能に構成してもよい。
【0075】
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0076】
本明細書の開示は、以下の情報処理装置、制御方法及びプログラムを含む。
(項目1)
複数の第一の撮像装置の撮像により取得された画像に基づいて生成される三次元形状データを取得する第一の取得手段と、
前記複数の第一の撮像装置の撮像中に移動して撮像する第二の撮像装置が撮像する画像を取得する第二の取得手段と、
前記三次元形状データに基づく画像と、前記第二の撮像装置が撮像する画像と、に基づいて、前記第二の撮像装置の位置及び姿勢を決定する決定手段と、を有する情報処理装置。
(項目2)
前記決定手段は、予め取得された前記第二の撮像装置の位置及び姿勢に応じた投影面に前記三次元形状データを投影することにより前記三次元形状データに基づく画像を生成し、
前記三次元形状データに基づく画像と、前記第二の撮像装置が撮像する画像と、に基づいて、前記第二の撮像装置の位置及び姿勢を決定する項目1に記載の情報処理装置。
(項目3)
前記決定手段は、前記三次元形状データに基づく画像の画像特徴と、前記第二の撮像装置が撮像する画像の画像特徴とに基づいて、前記第二の撮像装置の位置及び姿勢を決定する項目1または項目2に記載の情報処理装置。
(項目4)
前記決定手段は、前記三次元形状データに基づく画像に含まれる被写体のエッジ特徴と、前記第二の撮像装置が撮像する画像に含まれる前記被写体のエッジ特徴とに基づいて、前記第二の撮像装置の位置及び姿勢を決定する項目1から項目3のいずれか1項に記載の情報処理装置。
(項目5)
前記決定手段は、前記エッジ特徴どうしの距離がより小さくなるように前記第二の撮像装置の位置及び姿勢を決定する項目4に記載の情報処理装置。
(項目6)
前記被写体は、静止している構造物である項目4に記載の情報処理装置。
(項目7)
前記決定手段は、前記三次元形状データに基づく画像に含まれる画素と、前記第二の撮像装置が撮像する画像のエッジ領域を除いた画像に含まれる画素の色との差に基づいて、前記第二の撮像装置の位置及び姿勢を決定する項目1から項目3のいずれか1項に記載の情報処理装置。
(項目8)
前記決定手段により決定された前記第二の撮像装置の位置及び姿勢に基づいて、前記三次元形状データを更新する更新手段を有する項目1から項目7のいずれか1項に記載の情報処理装置。
(項目9)
前記複数の第一の撮像装置と、前記第二の撮像装置とは同期して撮像を行う項目1から項目8のいずれか1項に記載の情報処理装置。
(項目10)
前記決定手段は、前記第二の撮像装置が撮像する画像と、前記三次元形状データに基づく画像とに基づいて、前記第二の撮像装置の位置及び姿勢に対応する画像を生成する項目1から項目9のいずれか1項に記載の情報処理装置。
(項目11)
複数の第一の撮像装置の撮像により取得された画像に基づいて生成される三次元形状データを取得する第一の取得工程と、
前記複数の第一の撮像装置の撮像中に移動して撮像する第二の撮像装置が撮像する画像を取得する第二の取得工程と、
前記三次元形状データに基づく画像と、前記第二の撮像装置が撮像する画像と、に基づいて、前記第二の撮像装置の位置及び姿勢を決定する決定工程と、を有する制御方法。
(項目12)
コンピュータに、項目11に記載の制御方法が有する各工程を実行させるためのプログラム。
【0077】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【符号の説明】
【0078】
5…被写体、 50…三次元モデル、 11、81…非固定画像、 12、82…仮想視点画像、 13、83…エッジ画像、 30…エッジ特徴、 91、92…特徴点、 100、101…撮像装置、 200…情報処理装置、 210、220、230…取得部、 250…対応付け部、 260…算出部、 280…画像合成部