(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024162762
(43)【公開日】2024-11-21
(54)【発明の名称】画像処理装置、画像処理方法及びプログラム
(51)【国際特許分類】
G06T 7/55 20170101AFI20241114BHJP
G06T 7/00 20170101ALI20241114BHJP
G06T 19/00 20110101ALI20241114BHJP
G06T 17/10 20060101ALI20241114BHJP
【FI】
G06T7/55
G06T7/00 350B
G06T19/00 A
G06T17/10
【審査請求】有
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2023078633
(22)【出願日】2023-05-11
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】佐藤 智一
【テーマコード(参考)】
5B050
5B080
5L096
【Fターム(参考)】
5B050AA08
5B050AA09
5B050BA09
5B050BA12
5B050DA04
5B050DA07
5B050EA07
5B050EA26
5B050FA02
5B050FA05
5B080AA17
5B080BA00
5B080CA00
5B080FA02
5B080FA17
5B080GA00
5L096CA05
5L096FA02
5L096KA04
(57)【要約】 (修正有)
【課題】多視点画像から仮想視点に対応する画像等を生成するための学習をより高速に行う画像処理装置、画像処理方法及びプログラムを提供する。
【解決手段】画像処理装置において、複数の撮像装置によって得られた複数の撮影画像に基づいてオブジェクトの三次元形状を表す形状データを生成しS402、生成された形状データに基づき、オブジェクト毎に学習領域を設定しS403、オブジェクト毎に設定された学習領域を対象として、撮影画像に応じた三次元場を学習するS405~S407。
【選択図】
図4
【特許請求の範囲】
【請求項1】
複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データないし、三次元形状を得るための学習を行う画像処理装置であって、
前記複数の撮影画像を取得する取得手段と、
前記取得手段によって取得された前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す概略形状データを生成する生成手段と、
前記生成手段によって生成された前記概略形状データに基づき、オブジェクト毎に学習領域を設定する設定手段と、
前記設定手段によってオブジェクト毎に設定された学習領域を対象として、前記撮影画像に応じた三次元場を学習する学習手段と、
を備えたことを特徴とする画像処理装置。
【請求項2】
前記学習手段は、
前記三次元場を保持する記憶手段と、
前記複数の撮影画像それぞれに対応するカメラパラメータと、前記記憶手段によって保持されている前記三次元場とに基づき、各撮影画像と同じ画角を持つ各撮影視点に対応した画像を描画する描画手段と、
前記描画手段によって得られた複数の描画画像と前記複数の撮影画像とに基づき、前記三次元場を更新する更新手段と、
を有する、ことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記更新手段は、前記設定手段によって前記オブジェクト毎に設定された学習領域のうち注目する学習領域を対象として、互いに対応関係にある撮影画像と描画画像との間で色差を求め、色差が小さくなるように前記三次元場を更新する、ことを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記更新手段は、前記色差を両画像間で対応関係にある画素毎に求めて前記更新を行う、ことを特徴とする請求項3に記載の画像処理装置。
【請求項5】
前記更新手段は、前記概略形状データを構成する要素に対して可視性がある前記撮影画像の画素とそれに対応する前記描画画像の画素とから前記色差を求めて前記更新を行う、ことを特徴とする請求項4に記載の画像処理装置。
【請求項6】
前記更新手段は、前記要素に対して可視性がある視点の撮影画像の画素値に基づき前記三次元場の初期値を決定して前記更新を行う、ことを特徴とする請求項5に記載の画像処理装置。
【請求項7】
前記設定手段は、前記概略形状データが表す前記オブジェクトの三次元形状に外接する立体を、前記学習領域として設定する、ことを特徴とする請求項1に記載の画像処理装置。
【請求項8】
前記概略形状データは、複数の要素の集合によって前記オブジェクトの三次元形状を特定するデータであり、
前記設定手段は、前記要素よりもサイズの大きい要素の集合によって表される三次元領域を、前記学習領域として設定する、ことを特徴とする請求項1に記載の画像処理装置。
【請求項9】
前記生成手段は、前記複数の撮影画像を用いた視体積交差法によって、前記オブジェクトの概略形状を表す前記形状データを生成する、ことを特徴とする請求項1に記載の画像処理装置。
【請求項10】
前記三次元場は、前記複数の撮像装置の撮影空間における各座標に対し体積密度と異方性の色とを対応付ける放射輝度場であり、
前記仮想視点データは、仮想視点からの見えを表す仮想視点画像である、
ことを特徴とする請求項1乃至9のいずれか一項に記載の画像処理装置。
【請求項11】
前記三次元場は、前記複数の撮像装置の撮影空間における各座標に対し体積密度と等方性の色とを対応付ける放射輝度場であり、
前記仮想視点データは、仮想視点からの見えを表す仮想視点画像である、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項12】
前記三次元場は、体積密度を表す不透明度の場であり、
前記仮想視点データは、仮想視点から見たときの不透明度を表すマップである、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項13】
前記三次元場は、双方向反射率分布関数の場であり、
前記仮想視点データは、仮想視点から見たときの双方向反射率分布関数を表すマップである、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項14】
前記三次元場は、環境光の入り込み量の場であり、
前記仮想視点データは、仮想視点から見たときの目に見える度合いを表すマップである、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項15】
前記三次元場は、オブジェクトの内側を負、外側を正で表した浮動小数場、または、オブジェクトの内側を0、外側を1で表したバイナリ場であり、
前記仮想視点データは、仮想視点から見たときのデプスマップである、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項16】
前記三次元場は、オブジェクト表面の法線方向の場であり、
前記仮想視点データは、仮想視点から見たときの法線マップである、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項17】
請求項1に記載の画像処理装置によって学習された三次元場を用いて推論を行って前記仮想視点データを出力する推論手段を備えたことを特徴とする画像処理装置。
【請求項18】
前記推論手段は、
前記学習された三次元場を保持する記憶手段と、
仮想視点のカメラパラメータに従って、前記記憶手段に保持された前記三次元場に基づき前記仮想視点データを生成する生成手段と、
を有することを特徴とする請求項17に記載の画像処理装置。
【請求項19】
複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データないし、三次元形状を得るための学習を行う画像処理方法であって、
前記複数の撮影画像を取得する取得ステップと、
前記取得ステップにて取得された前記複数の撮影画像に基づいてオブジェクトの三次元概略形状を表す概略形状データを生成する生成ステップと、
前記生成手段にて生成された前記概略形状データに基づき、オブジェクト毎に学習領域を設定する設定ステップと、
前記設定ステップにてオブジェクト毎に設定された学習領域を対象として、前記撮影画像に応じた三次元場を学習する学習ステップと、
を含むことを特徴とする画像処理方法。
【請求項20】
コンピュータに、請求項19に記載の画像処理方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、多視点画像から仮想視点に対応するデータを生成する画像処理技術に関する。
【背景技術】
【0002】
カメラパラメータが既知の多視点画像を入力として、任意の仮想視点に対応する画像を生成するNeRF(Neural Radiance Fields)と呼ばれる技術がある(非特許文献1、特許文献1)。このNeRFは、五次元の入力変数{任意の空間位置座標(x,y,z)と方向(θ、φ)}から、体積密度(volume density)σ及び放射輝度(emitted radiance)を出力するニューラルネットワークである。このニューラルネットワークの学習においては、多視点画像の画素値を教師として、描画結果の画素値との差を損失とする。従って、学習過程では多視点画像に含まれる画像の数だけ描画、損失計算、誤差逆伝搬を行い、さらにこれを繰り返すことになるので学習に多くの時間を要する。例えば100視点の1K画像を教師としたシーンを学習するためには、少なくとも12時間以上必要とされている。学習に多くの時間を要してしまうという課題に対しては、視体積交差法を利用することで高速化を図ったVaxNeRFと呼ばれる手法等が提案されている(非特許文献2を参照)。視体積交差法は、多視点画像から抽出したオブジェクトのシルエットを三次元空間に逆投影して各視点からの錐体を構成し、各錐体の交差部分を求めることで当該オブジェクトの三次元形状を取得する手法である。この視体積交差法には、抽出されたシルエットが正しいという仮定の下で、取得した三次元形状の外にはオブジェクトが存在しないことが保証されるという特徴がある。この特徴を利用して、VaxNeRFでは、シルエットの外に位置する画素を学習に利用しないようにすると共に、描画の際のサンプリング点を視体積交差法で取得した三次元形状の内部に限定することで、学習時の計算量を抑え、学習を高速化している。
【先行技術文献】
【特許文献】
【0003】
【非特許文献】
【0004】
【非特許文献1】Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. 3 Aug 2020.
【非特許文献2】Naruya Kondo, Yuya Ikeda, Andrea Tagliasacchi, Yutaka Matsuo, Yoichi Ochiai, Shixiang Shane Gu. VaxNeRF: Revisiting the Classic for Voxel-Accelerated Neural Radiance Field. Nov 25 2021.
【非特許文献3】Alex Yu, Sara Fridovich-Keil, Matthew Tancik, Qinhong Chen, Benjamin Recht, Angjoo Kanazawa. Plenoxels: Radiance Fields without Neural Networks. 9 Dec 2021.
【発明の概要】
【発明が解決しようとする課題】
【0005】
例えばサッカーの試合のように広大な撮影エリアに多くのオブジェクトがスパースに分布するシーンを対象とする場合などにおいては、VaxNeRFの手法によっても依然として学習に膨大な時間を要することになる。本開示は上述した課題に鑑みなされたもので、多視点画像から仮想視点に対応する画像等を生成するための学習をより高速に行うことを目的とする。
【課題を解決するための手段】
【0006】
本開示に係る画像処理装置は、複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データないし、三次元形状を得るための学習を行う画像処理装置であって、前記複数の撮影画像を取得する取得手段と、前記取得手段によって取得された前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す概略形状データを生成する生成手段と、前記生成手段によって生成された前記概略形状データに基づき、オブジェクト毎に学習領域を設定する設定手段と、前記設定手段によってオブジェクト毎に設定された学習領域を対象として、前記撮影画像に応じた三次元場を学習する学習手段と、
を備えたことを特徴とする。
【発明の効果】
【0007】
本開示によれば、多視点画像から仮想視点に対応する画像等を生成するための学習をより高速に行うことが可能になる。
【図面の簡単な説明】
【0008】
【
図2】画像処理装置のハードウェア構成例を示す図。
【
図4】実施形態1に係る、画像処理装置の動作の流れを示すフローチャート。
【
図6】視体積交差法(VisualHull)を用いた概略形状の取得を説明する図。
【
図7】キャプチャエリアに3つのオブジェクトが存在する状態を示す図。
【
図8】(a)及び(b)は、NeRFによる学習を説明する図。
【
図9】(a)及び(b)は、VaxNeRFによる学習を説明する図。
【
図10A】実施形態1の手法による学習を説明する図
【
図10B】実施形態1の手法による学習を説明する図
【
図10C】実施形態1の手法による学習を説明する図
【
図10D】実施形態1の手法による学習を説明する図
【
図11】(a)~(c)は、Plenoxelsの概要を説明する図
【
図12】実施形態2に係る、画像処理装置の動作の流れを示すフローチャート。
【
図13】放射輝度場の初期値算出処理の詳細を示すフローチャート。
【
図14A】実施形態2の手法による学習を説明する図
【
図14B】実施形態2の手法による学習を説明する図
【
図14C】実施形態2の手法による学習を説明する図
【
図14D】実施形態2の手法による学習を説明する図
【発明を実施するための形態】
【0009】
以下、本実施形態について、図面を参照して説明する。尚、以下の実施形態は本発明を必ずしも限定するものではない。また、本実施形態において説明されている特徴の組み合せの全てが本発明の解決手段に必須のものとは限らない。また、各実施形態に共通する考え方として、本開示では、非特許文献2と同様にオブジェクトの大まかな三次元形状(概略形状)を利用する。そして、学習対象となる撮影空間内の三次元的な場(この「場(フィールド)」は学習内容に応じて異なる。以下、本明細書において「三次元場」と表記。)をオブジェクト毎に独立に定義して学習する。これにより、個々の三次元場が持つ情報量を低減して各三次元場に対する学習の収束を早め、高速な学習を実現する。
【0010】
[実施形態1]
<画像処理システムの構成>
図1は、本実施形態に係る、仮想視点映像の生成を行う画像処理システムの構成例を示す図である。画像処理システムは、複数台の撮影装置(カメラ)101、画像処理装置102、ユーザーインターフェース(UI)パネル103、記憶装置104、表示装置105を有する。複数台のカメラ101は、撮影条件に従い撮影領域106の内部にいるオブジェクト107を多視点から同期撮影して、各視点に対応する複数の撮影画像(多視点画像)データを取得する。カメラ101によって得られる撮影画像は、静止画像であってもよいし、動画像であってもよいし、静止画像と動画像の両方であってもよい。なお、本実施形態においては特に断りがない限り、用語「画像」は静止画と動画との両方を含むものとする。画像処理装置102は、複数台のカメラ101の制御及び、複数台のカメラ101から取得した複数の撮影画像に基づき、オブジェクト107の三次元形状データ(3Dモデル)を生成する。UIパネル103は、液晶ディスプレイ等の表示装置であり、現在の撮影条件や処理設定をユーザに伝えるためのユーザーインターフェースとして機能する。また、UIパネル103は、タッチパネル又はボタン等の入力装置を備えていてもよく、撮影条件や処理設定に関してユーザからの指示を受け付けることができる。尚、入力装置は、マウスやキーボードのようにUIパネル103とは別に設けられていてもよい。記憶装置104は、画像処理装置102から取得したオブジェクトの三次元形状データを記憶する。表示装置は、画像処理装置102からオブジェクトの三次元形状データを取得して表示する。撮影領域106は、スタジオ内に設置された複数のカメラ101によって囲まれた空間(三次元空間)であり、実線で示す枠は床面における撮影領域106の前後方向および左右方向の輪郭を示す。
【0011】
<画像処理装置のハードウェア構成>
図2は、画像処理装置102のハードウェア構成例を示す図である。画像処理装置102は、CPU201、RAM202、ROM203、記憶部204、制御インターフェース(I/F)205、入力インターフェース(I/F)206、出力インターフェース(I/F)207、メインバス208を有する。CPU201は、画像処理装置102の各部を統括的に制御するプロセッサである。RAM202は、CPU201の主メモリ、ワークエリア等として機能する。ROM203は、CPU201によって実行されるプログラム群を格納している。記憶部204は、CPU201によって実行されるアプリケーション、画像処理に用いられるデータ等を記憶する。制御(I/F)205は、複数台のカメラ101と接続されており、撮影条件の設定、撮影開始や撮影停止等の制御を行うためのインターフェースである。入力I/F206は、SDIやHDMI(登録商標)等のシリアルバスインターフェースであり、入力I/F206を介して複数台のカメラ101から多視点画像データを取得する。出力I/F207は、USBやIEEE1394等のシリアルバスインターフェースであり、出力I/F207を介して記憶装置104や表示装置105へ被写体形状を出力する。メインバス208は、画像処理装置102の各モジュールを接続する伝送路である。
【0012】
本実施形態では、スタジオに設置された8台のカメラを用いて、1又は複数のオブジェクトを周囲から撮影する。また、カメラの内部パラメータ、外部パラメータ、歪曲パラメータなどのカメラパラメータは、記憶部204に保存されているものとする。内部パラメータは画像中心の座標やレンズ焦点距離を表し、外部パラメータはカメラの位置と姿勢を表す。なお、複数台のカメラのカメラパラメータは全部で共通していなくてもよく、例えば画角が異なっていてもよい。
【0013】
<画像処理装置の動作>
続いて、本実施形態に係る、画像処理装置120の動作について説明する。
図3(a)は画像処理装置102の学習フェーズにおける機能構成を示すブロック図、
図4は画像処理装置102の動作の流れを示すフローチャートである。
図3に示すとおり、画像処理装置102は、学習部300、画像入力部301、概略形状生成部302、学習領域設定部303を有する。そして、学習部300は、描画部306、三次元場記憶部305及び描画部306を有する。以下、
図4のフローチャートに沿って、画像処理装置120が有する各部の動作について説明する。なお、以下の説明において記号「S」はステップを意味する。なお、入力される撮影画像が動画像の場合は、フレーム単位で実行されることになる。
【0014】
S401では、画像入力部301が、多視点画像を複数台のカメラ101から入力I/F206を介して受信して取得する。あるいは、記憶部204に記憶された多視点画像のデータを読み込んで取得してもよい。取得した多視点画像はRAM202に保持される。
【0015】
S402では、概略形状生成部302が、取得された多視点画像に映るオブジェクトについて、その大まかな三次元形状を表す概略形状データを生成する。本実施形態では、概略形状データとして、視体積交差法によりオブジェクトの形状を導出して、ボクセル集合として表現された三次元形状データを生成する。視体積交差法では、まず、多視点画像を構成する各撮影画像について、オブジェクトが映っていない状態の画像(背景画像)を用いて前景背景分離を行い、オブジェクトのシルエットを表す画像(シルエット画像)を取得する。背景画像は例えばオブジェクトがいない状態の撮影領域106を予め撮影する等して用意しておく。次に、複数台のカメラ101それぞれのカメラパラメータに基づき、撮影領域106に対応するボクセル集合に含まれる各ボクセルを、多視点画像から取得したオブジェクトのシルエット画像それぞれに投影する。そして、全てのシルエット画像においてシルエット内に投影されたボクセルのみから成るボクセル集合を、オブジェクトの概略形状とする。
図5は、撮影領域106を上側から二次元的に表した図である。
図5において、一点鎖線の外側の矩形501はカメラ101が設置されたスタジオの壁面を示す。また、二点鎖線の内側の矩形502はオブジェクトが存在し得る範囲(キャプチャエリア)を示し、実線の三角形506~513は8台のカメラ101それぞれの位置・向き・画角を表している。
図6は、中央部が凹んだオブジェクト600について、視体積交差法によって概略形状601が得られる様子を示している。
【0016】
S403では、学習領域設定部303が、S402にて生成されたオブジェクト単位の概略形状データに基づき、オブジェクトの概略形状に対して外接する直方体を、学習を行う対象三次元領域(学習領域)としてオブジェクト毎に設定する。この学習領域の形状はオブジェクトの概略形状を内包する立体であればよく、例えば球や楕円球であってもよい。あるいは、概略形状データを構成する要素であるボクセルよりも大きいボクセルで構成されたボクセル集合から成るより粗い概略形状の三次元領域を学習領域として設定してもよい。
【0017】
S404では、三次元場更新部304が、三次元場記憶部305としてのRAM202内に、S403にてオブジェクト毎に設定された学習領域に対応するメモリ領域を確保する。いま「三次元場」が、NeRFにおける放射輝度場(空間上の各座標に対し、体積密度(≒不透明度)と放射輝度(≒色)とを対応付けるベクトル場)であるものとして以下の各ステップを説明する。三次元場がNeRFの放射輝度場である場合、空間内の任意の位置における体積密度(以下、単に「密度」と表記)を表す値と方向毎に異なる異方性の色を表す値が、確保されたメモリ領域に格納されることになる。
【0018】
S405では、描画部306が、多視点画像を構成する各撮影画像に対応するカメラパラメータと三次元場記憶部305に格納されている放射輝度場とに基づき、各撮影画像と同じ画角を持った各撮影視点に対応する画像を描画(ボリュームレンダリング)する。具体的には、撮影画像と同じ視点から見たときの光線rに対応する各画素の画素値C(r)を例えば以下の式(1)を用いて求める処理を行う。
【0019】
【数1】
・・・式(1)
上記式(1)において、“i”はサンプリング点のインデックスを表し、“σ
i”は密度、“c
i”は色、“δ
i”は次のサンプリング点までの距離を表している。ここで、サンプリング点のインデックスiは、複数台のカメラ101(本実施形態では8台)に対して近い方(手前)から順に与えられる。上記式(1)により、密度が高く、よりカメラに近いサンプリング点ほど重みが大きくなるように重み付き和で画素値(RGB値)が決定される。なお、処理開始直後の三次元場記憶部305には三次元場(ここではNeRFの放射輝度場)が学習されていない。よって、何も映っていない真っ黒な画像が描画結果として得られることになる。こうして各撮影画像に対応する描画画像が得られる。得られた描画画像は三次元部更新部304に出力される。
【0020】
S406では、三次元場更新部304が、S403にて設定された学習領域のうち注目する学習領域を対象として、互いに対応関係にある撮影画像と描画画像との間で色差を求め、色差が小さくなるように放射輝度場を更新する処理を行う。この工程は、深層学習における誤差算出及び誤差逆伝播に相当する。本実施形態においては、両画像間の色差は対応関係にある画素毎に算出され、その値は色(RGB)の2乗ユークリッド距離で定義される。
【0021】
S407では、S403で設定された全ての学習領域を対象として放射輝度場の更新処理が完了したかが判定される。放射輝度場の更新処理が済んでいない学習領域があればS405に戻り、次の注目する学習領域を決定して同様の処理が実行される。一方、全ての学習領域を対象として放射輝度場の更新処理が完了していればS408に移行する。
【0022】
S408では、全ての放射輝度場について更新が十分収束したかが判定される。収束したかどうかは、例えば、画素毎に求めた誤差を全部の視点で合計し、前回求めた合計値に対する減少幅が閾値(例えば0.1%)を下回ったところで、収束したと判断する。また、画素毎に求めた誤差が所定の閾値を下回ったところで収束と判断してもよいし、放射輝度場の更新処理回数をカウントして所定回数に達した時点で収束としてもよい。また、例えば複数台のカメラのうち一部のカメラを放射輝度場の更新に使わない評価用カメラとし、当該カメラの撮影画像との誤差が上昇し始めた(過学習が発生)ところで収束と判断してもよい。さらには、これらの組み合わせで判断してもよい。更新が収束していれば本処理を終了し、更新が収束していなければS405に戻って、同様の処理を繰り返す。
【0023】
以上が、本実施形態に係る、画像処理装置120における動作の流れである。
図3(b)は、収束したと判断された放射輝度場を用いて仮想視点画像の生成を行う場合(推論フェーズ)における画像処理装置102’の機能構成を示すブロック図である。
図3(b)に示すように推論フェーズを担う画像処理装置102’は、前述の三次元場記憶部305と描画部306とで構成される推論部310を有する。推論部310の描画部306には、撮像装置101の撮影視点のカメラパラメータに代えて、仮想視点のカメラパラメータが入力される。そして、描画部306において、三次元場記憶部305に保持された収束後の放射輝度場を用いて仮想視点のパラメータに従ったボリュームレンダリングを行って、仮想視点に対応する描画画像(仮想視点画像)が生成される。なお、上述の
図4のフローでは、S405とS406の両処理をそれぞれ学習領域の単位で繰り返すようにしているがこれに限定されない。例えば、全ての学習領域についてS405の処理を行って描画画像を得てから、まとめてS406の処理を行って各学習領域に対応する放射輝度場を更新してもよい。また、動画の場合であれば、フレーム間でオブジェクト追跡を行ってその結果に基づき学習領域の設定(S403)を行うようにし、一部のフレームについては視体積交差法による概略形状の生成を省略するようにしてもよい。これにより、動画の場合の一連の処理をより効率良く行うことができる。
【0024】
<従来技術との違い>
ここで、NeRF及びVaxNeRFと本実施形態の手法との違いについて、キャプチャエリア502に3つのオブジェクトが存在する場合(
図7参照)を例に説明する。
【0025】
≪NeRFの場合≫
図8の(a)及び(b)は、NeRFを適用した場合の学習を説明する図である。学習時に放射輝度場の更新範囲(学習領域)を定義するNeRFの場合、キャプチャエリア502全体を、放射輝度場の更新範囲として設定することになる。
図8(a)において、小ドット領域801は放射輝度場の更新範囲として設定された学習領域を表しており、いま、キャプチャエリア502と等しくなっている。そして、キャプチャエリア502に対応する画素の画素値を教師データとして学習が行われる。
図8(a)において、8台の各カメラ506~513を表す三角形における太線部分は、設定された学習領域801(=キャプチャエリア502)に対応する画像面を表している。
図8(b)において、小ドット領域801内の大ドット811はカメラ506の撮影画像上のある画素に対応する光線上のサンプリング点を表している。NeRFでは光線上の放射輝度場の更新範囲全体にサンプリング点を設けて描画を行うので、多くの画素を対象に学習を行うことになり、その結果、処理に時間を要することになる。なお、NeRFにおいても、オブジェクトの密度(volume density)が連続して低い場所についてはサンプリング点を減らすといった高速に処理するための一応の工夫がなされている。
【0026】
≪VaxNeRFの場合≫
図9の(a)及び(b)は、VaxNeRFを適用した場合の学習を説明する図である。
図9(a)において、3つの小ドット領域901~903が放射輝度場の更新範囲として設定された学習領域を表している。
図9(a)に示すように、VaxNeRFの場合は、キャプチャエリア502のうちオブジェクトが存在する範囲に限定して放射輝度場の学習領域が設定される。また、
図9(b)において、3つの小ドット領域901~903内の大ドット911及び912はカメラ506の撮影画像上のある画素に対応する光線上のサンプリング点を表している。
図9(b)に示すように、サンプリング点がオブジェクトの概略形状の内部に限定される分、描画時の演算量が低減することになる。
【0027】
≪本手法の場合≫
図10A~Dは、本実施形態の手法を適用した場合の学習を説明する図である。いま、キャプチャエリア502には3つのオブジェクトが存在している。よって、3つのオブジェクトに対応する3つの概略形状が得られることになり、
図10A~Cにそれぞれ示すように、放射輝度場の更新範囲となる学習領域1001~1003がオブジェクト毎に設定されることになる。上述のNeRFやVaxNeRFとは異なり、オブジェクト毎に放射輝度場を独立に定義することになるため、それぞれの放射輝度場に対して学習に利用する画素が決定される。ここで、オブジェクト毎の放射輝度場(この例では3つ)について別々に更新が行われるので、ケースによっては同じ画素に対する学習が重複する場合があり、その分だけ学習の効率が落ちることになる。しかしながら、オブジェクト毎に放射輝度場を独立に定義することで各放射輝度場についての学習の収束が早まり、一部画素に対する学習が重複することによる低下分を上回る効率の向上が期待できるため、全体としてはより高速な学習が可能になる。
図10Dにおいて、大ドット1011及び1012はカメラ506の撮影画像上のある画素に対応する光線上のサンプリング点を表している。
図10Dに示すように、描画時には、学習対象となる放射輝度場以外の放射輝度場についても重ねて色の積算が行われる。なお、シルエット画像が示すシルエットが正しければ、概略形状の外側をサンプリングする必要はない。しかし、実用ではシルエット画像が示すシルエットに一部欠損が生じるなど、オブジェクトの形状推定によって得られる概略形状にはエラーが含まれるケースが少なくない。そこで、概略形状を内包する学習領域の内側全体をサンプリングすることで、このようなエラーを吸収できるようにすることが好ましい。ただし、VaxNeRFのように概略形状の内側のみを対象にサンプリングを行ってもよい。
【0028】
以上のとおり本実施形態によれば、オブジェクトの概略形状に基づきオブジェクト毎に学習領域を設定し、オブジェクト毎に独立して定義された放射輝度場の更新を行う。これにより、それぞれの放射輝度場が持つ情報量を少なくすることができるので収束が早まり、学習をより高速に行うことができる。
【0029】
[実施形態2]
次に、オブジェクト毎に独立して定義される放射輝度場の表現形式としてPlenoxels(非特許文献3)を用いることで、学習をより高速に行う方法を実施形態2として説明する。Plenoxelsは、ニューラルネットワークを使わずに、放射輝度場を直接的なパラメータで表し、これを最適化する手法である。従って、空間内の任意の位置に対する密度と色の値をより直接的に制御することが可能になる。以下では実施形態1との差異点を中心に説明を行うこととする。
【0030】
<Plenoxelsの概要>
本実施形態の説明に入る前に、Plenoxelsの概要を説明しておく。Plenoxelsでは、まず、空間を粗いボクセルグリッドに分割する。
図11(a)は、粗く分割されたボクセルグリッドにおける1つのボクセル1101を示している。そして、
図11(b)に示すように、1つ1つのボクセルの角(8つの頂点)1103の位置に、密度σと方向毎の色cを球面調和関数のパラメータとして保持する。ここで、ボクセルの角に対応する頂点1103以外の任意の点1104の値を取得する場合は、その点を含むボクセルの8つの頂点の値を取得し、それらの値をトリリニア補間することで、任意の点1104の密度σ及び色cを求める。こうして得たパラメータを、NeRFと同様、ある画素に対応する光線上のサンプリング点の画素値を積算することで描画を行い、得られた描画画像と撮影画像との差が小さくなるように放射輝度場の更新を行う。この更新のための目的関数は、以下の式(2)のように定義される。
【0031】
【数2】
・・・式(2)
上記式(2)において“L
recon”は撮影画像の画素値との差を小さくする項であり、“L
TV”は近傍のパラメータ間の値の差を小さくする項である。目的関数によるパラメータの最適化には例えばRMSProp法、最急降下法、Adam法、SGD法などを用いる。
【0032】
そして、
図11(a)で示した粗いボクセルグリッドによる放射輝度場を最適化し、密度によって学習すべき範囲を特定する。次に、特定された範囲を対象として、
図11(c)に示すような不要な部分を削除したより細かいボクセルグリッドによる放射輝度場を最適化する。以上が、Plenoxelsの概要である。
【0033】
<本実施形態の手法>
本実施形態では、Plenoxelsにおける上記最適化の工程を、視体積交差法を用いて簡略化する。ここで、Plenoxelsにおける“粗い放射輝度場”の推定は、実施形態1で説明した概略形状の取得と役割が同じである。つまり、概略形状生成部302で取得した概略形状に従って、より細かいボクセルによるオブジェクト形状を定義することができる。さらに、細かいボクセルそれぞれに割り当てられるパラメータの初期値を事前に求めておくことで、より高速に最適化を収束させる。さらに本実施形態では、オブジェクトの可視性判定(遮蔽判定)を利用して、学習に利用する画素をさらに減らす手法についても併せて説明する。なお、可視性判定を利用して学習に利用する画素をさらに減らすという考え方は実施形態1にも同様に適用可能である。
【0034】
<画像処理装置の動作>
続いて、本実施形態に係る、画像処理装置120の動作について説明する。
図12は本実施形態に係る、画像処理装置102の動作の流れを示すフローチャートである。本実施形態の手法も
図3に示した各機能部を有する画像処理装置102によって実現できる。しかしながら、学習領域設定部303の機能については一部異なる部分がある。以下では、当該異なる部分を中心に説明することとする。
【0035】
S1201及びS1202は、実施形態1の
図4のフローにおけるS401及びS402と同じであるため説明を省く。
【0036】
S1203では、学習領域設定部303が、S1202で取得された概略形状に基づいて、粗いボクセルから成る三次元領域を、放射輝度場の更新を行う学習領域として設定する。
【0037】
S1204では、三次元場更新部304が、S1203にてオブジェクト毎に設定された学習領域に対応するメモリ領域を確保する。具体的には、三次元場記憶部305としてのRAM202内に、粗いボクセルを分割した細かいボクセルに対して放射輝度場を表現するパラメータを記憶するためのメモリ領域が確保される。
【0038】
S1205では、三次元場更新部304が、オブジェクト毎に定義される放射輝度場の初期値を算出する処理を行う。この初期値算出処理の詳細は後述する。
【0039】
S1206では、描画部306が、実施形態1の
図4のフローにおけるS405と同様の処理を行う。すなわち、多視点画像を構成する各撮影画像に対応するカメラパラメータと三次元場記憶部305に格納されている三次元場(ここでは放射輝度場)とに基づき、撮影画像と同じ画角の画像を描画する。
【0040】
S1207では、描画部306が、注目する学習領域を対象として、対応関係にある撮影画像と描画画像との間で画素値の差を求め、画素値の差が小さくなるように放射輝度場を更新する処理を行う。この際、処理開始直後の最初のS1206では、S1205にて生成された初期値が用いられることになる。そして、この初期値は後述の可視性判定によって可視であると判定された画素のみに基づいて設定されることになる。
【0041】
S1208及びS1209は、実施形態1の
図4のフローにおけるS407及びS408と同じであるため説明を省く。
【0042】
以上が、本実施形態に係る、画像処理装置120における動作の流れである。
【0043】
<放射輝度場の初期値算出処理の詳細>
続いて、
図13のフローチャートを参照して、オブジェクト毎に定義される放射輝度場の初期値算出処理について詳しく説明する。S1301~S1303の各処理は、全オブジェクトを対象としてまとめて行われる。
【0044】
S1301では、放射輝度場の密度が初期化される。具体的には、細かいボクセルグリッドを構成する各ボクセルについて、概略形状の内部にある場合にはσ=1、外部にある場合にはσ=0、表面にある場合にはσ=0.5の各値を割り当てる処理が行われる。
【0045】
S1302では、S1202にて得られた概略形状における表面ボクセルが抽出される。この表面ボクセルの抽出は、例えば、自身が概略形状の内部に位置しているボクセルであって、かつ、概略形状の外部に位置するボクセルに隣接するボクセルを選択することで実現される。
【0046】
S1303では、S1302にて抽出された全てのオブジェクトについての表面ボクセルを、多視点画像の全撮影視点のカメラパラメータを使って画像面に投影し、全撮影視点におけるデプスマップが生成される。生成されたデプスマップは、RAM102で保持される。
【0047】
S1304では、表面ボクセルそれぞれについて、その中心座標を撮影視点に投影し、当該投影によるデプス値(d’)を、デプスマップにおけるデプス値(d)と比較して、各視点からの可視性を判定する処理が行われる。具体的には、d’≦d+mとなることで可視(遮蔽されていない)と判定する。ここで“m”は定数であり、細かいボクセルグリッドにおけるボクセルよりも1回り大きいサイズ、例えば1~2mmといった値が入る。
【0048】
S1305では、表面ボクセルそれぞれについて、可視性ありと判定された視点に対応する撮影画像の画素値に基づき、放射輝度場の色情報が初期化される。Plenoxelsでは方向毎に異なる色をRGBの成分毎に球面調和関数のパラメータで表現している。そこで、例えば、球面調和関数の基底成分(全方向の値の平均)を、可視性ありと判定された視点に対応する撮影画像の画素値の平均値とし、その他方向毎の色の変化を表す成分を0とする処理が初期化処理として行われることになる。
【0049】
<実施形態1との比較>
図14A~Dは、本実施形態の手法を適用した場合の学習を説明する図であり、実施形態1の
図10A~Dにそれぞれ対応している。
図14A~Cにそれぞれ示すように、3つの放射輝度場1401~1403はそれぞれ、対応するオブジェクトが可視である画素のみを利用して最適化されることになる。これによって、他の放射輝度場の影響を排した更新が可能になり、複数の放射輝度場を並列で処理することによる最適化が可能になると共に、各放射輝度場が持つ情報量をさらに低減することができる。さらには、オブジェクト間で最適化に利用する画素の重複もなくなるので、より演算量が低減される。
【0050】
以上のとおり本実施形態によれば、放射輝度場を直接的なパラメータで扱うPlenoxelsをベースとし、各放射輝度場の初期値を算出した上で、それぞれの放射輝度場の更新を行うので、最適化の収束をより早めることができる。また、可視性判定を追加的に行うことで、さらに演算量を減らすことができ、学習の大幅な高速化を実現できる。
【0051】
<変形例>
実施形態1及び2では、三次元場として、空間上の各座標に対し密度と方向毎に異なる色とを対応付ける放射輝度場を例に説明を行ったが、これに限定されない。例えば、空間内の座標に対し対応付けられる色情報は方向に依らない等方性の色(color filed)でもよい。また、三次元場は放射輝度場に限定されるものではない。例えば、体積密度を表現する不透明度の場(Occupancy Field)でもよい。また、入射光に対する反射光の分布特性を表す双方向反射率分布関数(BRDF:Bidirectional Reflectance Distribution Function)によって表現される場でもよい。さらには、環境光の入り込み量(Light Visibility)を表現する場でもよい。これらは実施形態1及び2で説明した放射輝度場と同様、多視点画像を入力とした学習が可能であり、それぞれ学習後の各場に仮想視点のカメラパラメータを入力することで、以下のような仮想視点データが得られることになる。
【0052】
・不透明度の場:仮想視点から見たときの不透明度を表すマップ
・双方向反射率分布関数の場:仮想視点から見たときの双方向反射率分布関数を表すマップ
・環境光の入り込み量の場:仮想視点から見たときの目に見える度合いを表すマップ
さらに、三次元場は、オブジェクトの内側が負で外側が正の浮動小数場(Signed Distance Filed)、或いは、オブジェクトの内側が0で外側が1のバイナリ場(Surface Filed)でもよい。さらには、オブジェクト表面の法線方向の場(Normal Field)でもよい。これらの場合、多視点画像に加えて当該多視点画像に対応するデプスマップを入力とした学習を行い、それぞれ学習後の各場に基づき、以下のような仮想視点データが得られることになる。
【0053】
・オブジェクトの内側が負で外側が正の浮動小数場:仮想視点から見たときのデプスマップ
・オブジェクトの内側が0で外側が1のバイナリ場:仮想視点から見たときのデプスマップ
・オブジェクト表面の法線方向の場:仮想視点から見たときの法線マップ。
【0054】
例えば、上述のSurface FiledはPixel NeRfやDouble Filedで利用されている。また、BRDF、Light Visibility及びNormal FieldはNeRFactorで利用されている。また、Signed Distance FiledはNeuSで利用されている。これらにおいても本開示の手法は適用可能である。
ここまで、仮想視点パラメータに基づく仮想視点データの生成の方法を説明してきたが、三次元場の学習は3次元形状データの取得にも有効である。例えば、Occupancy Field や、Signed Distance Filedをボクセルとして取り出し、取り出されたボクセルに対してMarching Cubes法を用いることによりメッシュデータを取得することができる。
【0055】
[その他の実施形態]
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0056】
また、本開示は、以下の構成及び方法を含む。
【0057】
[構成1]
複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データないし、三次元形状を得るための学習を行う画像処理装置であって、
前記複数の撮影画像を取得する取得手段と、
前記取得手段によって取得された前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す概略形状データを生成する生成手段と、
前記生成手段によって生成された前記概略形状データに基づき、オブジェクト毎に学習領域を設定する設定手段と、
前記設定手段によってオブジェクト毎に設定された学習領域を対象として、前記撮影画像に応じた三次元場を学習する学習手段と、
を備えたことを特徴とする画像処理装置。
【0058】
[構成2]
前記学習手段は、
前記三次元場を保持する記憶手段と、
前記複数の撮影画像それぞれに対応するカメラパラメータと、前記記憶手段によって保持されている前記三次元場とに基づき、各撮影画像と同じ画角を持つ各撮影視点に対応した画像を描画する描画手段と、
前記描画手段によって得られた複数の描画画像と前記複数の撮影画像とに基づき、前記三次元場を更新する更新手段と、
を有する、ことを特徴とする構成1に記載の画像処理装置。
【0059】
[構成3]
前記更新手段は、前記設定手段によって前記オブジェクト毎に設定された学習領域のうち注目する学習領域を対象として、互いに対応関係にある撮影画像と描画画像との間で色差を求め、色差が小さくなるように前記三次元場を更新する、ことを特徴とする構成2に記載の画像処理装置。
【0060】
[構成4]
前記更新手段は、前記色差を両画像間で対応関係にある画素毎に求めて前記更新を行う、ことを特徴とする構成3に記載の画像処理装置。
【0061】
[構成5]
前記更新手段は、前記概略形状データを構成する要素に対して可視性がある前記撮影画像の画素とそれに対応する前記描画画像の画素とから前記色差を求めて前記更新を行う、ことを特徴とする構成4に記載の画像処理装置。
【0062】
[構成6]
前記更新手段は、前記要素に対して可視性がある視点の撮影画像の画素値に基づき前記三次元場の初期値を決定して前記更新を行う、ことを特徴とする構成5に記載の画像処理装置。
【0063】
[構成7]
前記設定手段は、前記概略形状データが表す前記オブジェクトの三次元形状に外接する立体を、前記学習領域として設定する、ことを特徴とする構成1乃至6のいずれか一項に記載の画像処理装置。
【0064】
[構成8]
前記概略形状データは、複数の要素の集合によって前記オブジェクトの三次元形状を特定するデータであり、
前記設定手段は、前記要素よりもサイズの大きい要素の集合によって表される三次元領域を、前記学習領域として設定する、ことを特徴とする構成1乃至6のいずれか一項に記載の画像処理装置。
【0065】
[構成9]
前記生成手段は、前記複数の撮影画像を用いた視体積交差法によって、前記オブジェクトの概略形状を表す前記形状データを生成する、ことを特徴とする構成1乃至8のいずれか一項に記載の画像処理装置。
【0066】
[構成10]
前記三次元場は、前記複数の撮像装置の撮影空間における各座標に対し体積密度と異方性の色とを対応付ける放射輝度場であり、
前記仮想視点データは、仮想視点からの見えを表す仮想視点画像である、
ことを特徴とする構成1乃至9のいずれか一項に記載の画像処理装置。
【0067】
[構成11]
前記三次元場は、前記複数の撮像装置の撮影空間における各座標に対し体積密度と等方性の色とを対応付ける放射輝度場であり、
前記仮想視点データは、仮想視点からの見えを表す仮想視点画像である、
ことを特徴とする構成1乃至9のいずれか一項に記載の画像処理装置。
【0068】
[構成12]
前記三次元場は、体積密度を表す不透明度の場であり、
前記仮想視点データは、仮想視点から見たときの不透明度を表すマップである、
ことを特徴とする構成1乃至9のいずれか一項に記載の画像処理装置。
【0069】
[構成13]
前記三次元場は、双方向反射率分布関数の場であり、
前記仮想視点データは、仮想視点から見たときの双方向反射率分布関数を表すマップである、
ことを特徴とする構成1乃至9のいずれか一項に記載の画像処理装置。
【0070】
[構成14]
前記三次元場は、環境光の入り込み量の場であり、
前記仮想視点データは、仮想視点から見たときの目に見える度合いを表すマップである、
ことを特徴とする構成1乃至9のいずれか一項に記載の画像処理装置。
【0071】
[構成15]
前記三次元場は、オブジェクトの内側を負、外側を正で表した浮動小数場、または、オブジェクトの内側を0、外側を1で表したバイナリ場であり、
前記仮想視点データは、仮想視点から見たときのデプスマップである、
ことを特徴とする構成1乃至9のいずれか一項に記載の画像処理装置。
【0072】
[構成16]
前記三次元場は、オブジェクト表面の法線方向の場であり、
前記仮想視点データは、仮想視点から見たときの法線マップである、
ことを特徴とする構成1乃至9のいずれか一項に記載の画像処理装置。
【0073】
[構成17]
構成1乃至16のいずれか一項に記載の画像処理装置によって学習された三次元場を用いて推論を行って前記仮想視点データを出力する推論手段を備えたことを特徴とする画像処理装置。
【0074】
[構成18]
前記推論手段は、
前記学習された三次元場を保持する記憶手段と、
仮想視点のカメラパラメータに従って、前記記憶手段に保持された前記三次元場に基づき前記仮想視点データを生成する生成手段と、
を有することを特徴とする構成17に記載の画像処理装置。
【0075】
[方法1]
複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データないし、三次元形状を得るための学習を行う画像処理方法であって、
前記複数の撮影画像を取得する取得ステップと、
前記取得ステップにて取得された前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す概略形状データを生成する生成ステップと、
前記生成手段にて生成された前記概略形状データに基づき、オブジェクト毎に学習領域を設定する設定ステップと、
前記設定ステップにてオブジェクト毎に設定された学習領域を対象として、前記撮影画像に応じた三次元場を学習する学習ステップと、
を含むことを特徴とする画像処理方法。
【0076】
[構成20]
コンピュータを、構成1乃至18のいずれか一項に記載の画像処理装置の各手段として機能させるためのプログラム。
【手続補正書】
【提出日】2024-09-30
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データを得るための学習を行う画像処理装置であって、
前記複数の撮影画像を取得する取得手段と、
前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す三次元形状データを生成する生成手段と、
前記三次元形状データに基づいて、オブジェクト毎に学習領域を設定する設定手段と、
前記オブジェクト毎に設定された前記学習領域を対象として、前記複数の撮影画像を用いて学習する学習手段と、
を有することを特徴とする画像処理装置。
【請求項2】
前記学習手段は、
学習の結果、生成されたデータを保持する記憶手段と、
前記複数の撮影画像それぞれに対応するカメラパラメータと、前記記憶手段によって保持されている前記三次元場とに基づき、各撮影画像と同じ画角を持つ各撮影視点に対応した画像を描画する描画手段と、
前記描画手段によって得られた複数の描画画像と前記複数の撮影画像とに基づき、前記データを更新する更新手段と、
を有する、ことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記更新手段は、前記設定手段によって前記オブジェクト毎に設定された学習領域のうち注目する学習領域を対象として、互いに対応関係にある撮影画像と描画画像との間で色差を求め、色差が小さくなるように前記データを更新する、ことを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記更新手段は、前記色差を両画像間で対応関係にある画素毎に求めて前記更新を行う、ことを特徴とする請求項3に記載の画像処理装置。
【請求項5】
前記更新手段は、前記三次元形状データを構成する要素に対して可視性がある前記撮影画像の画素とそれに対応する前記描画画像の画素とから前記色差を求めて前記更新を行う、ことを特徴とする請求項4に記載の画像処理装置。
【請求項6】
前記更新手段は、前記要素に対して可視性がある視点の撮影画像の画素値に基づき前記データの初期値を決定して前記更新を行う、ことを特徴とする請求項5に記載の画像処理装置。
【請求項7】
前記設定手段は、前記三次元形状データが表す前記オブジェクトの三次元形状に外接する立体を、前記学習領域として設定する、ことを特徴とする請求項1に記載の画像処理装置。
【請求項8】
前記三次元形状データは、複数の要素の集合によって前記オブジェクトの三次元形状を表すデータであり、
前記設定手段は、前記要素よりもサイズの大きい要素の集合によって表される三次元領域を、前記学習領域として設定する、ことを特徴とする請求項1に記載の画像処理装置。
【請求項9】
前記生成手段は、前記複数の撮影画像を用いた視体積交差法によって、前記オブジェクトの三次元形状を表す前記三次元形状データを生成する、ことを特徴とする請求項1に記載の画像処理装置。
【請求項10】
前記学習手段は、前記複数の撮像装置の撮影空間における各座標に対し体積密度と異方性の色とを対応付ける放射輝度場を学習し、
前記仮想視点データは、仮想視点からの見えを表す仮想視点画像である、
ことを特徴とする請求項1乃至9のいずれか一項に記載の画像処理装置。
【請求項11】
前記学習手段は、前記複数の撮像装置の撮影空間における各座標に対し体積密度と等方性の色とを対応付ける放射輝度場を生成し、
前記仮想視点データは、仮想視点からの見えを表す仮想視点画像である、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項12】
前記学習手段は、体積密度を表す不透明度の場を生成し、
前記仮想視点データは、仮想視点から見たときの不透明度を表すマップである、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項13】
前記学習手段は、双方向反射率分布関数の場を生成し、
前記仮想視点データは、仮想視点から見たときの双方向反射率分布関数を表すマップである、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項14】
前記学習手段は、環境光の入り込み量の場を生成し、
前記仮想視点データは、仮想視点から見たときの目に見える度合いを表すマップである、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項15】
前記学習手段は、オブジェクトの内側を負、外側を正で表した浮動小数場、または、オブジェクトの内側を0、外側を1で表したバイナリ場を生成し、
前記仮想視点データは、仮想視点から見たときのデプスマップである、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項16】
前記学習手段は、オブジェクト表面の法線方向の場を生成し、
前記仮想視点データは、仮想視点から見たときの法線マップである、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項17】
請求項1に記載の画像処理装置による学習によって生成されたデータを用いて推論を行って前記仮想視点データを出力する推論手段を有することを特徴とする画像処理装置。
【請求項18】
前記推論手段は、
前記データを保持する記憶手段と、
仮想視点のカメラパラメータに従って、前記記憶手段に保持された前記データに基づき前記仮想視点データを生成する生成手段と、
を有することを特徴とする請求項17に記載の画像処理装置。
【請求項19】
複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データを得るための学習を行う画像処理方法であって、
前記複数の撮影画像を取得する取得ステップと、
前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す三次元形状データを生成する生成ステップと、
前記三次元形状データに基づいて、オブジェクト毎に学習領域を設定する設定ステップと、
前記オブジェクト毎に設定された前記学習領域を対象として、前記複数の撮影画像を用いて学習する学習ステップと、
を含むことを特徴とする画像処理方法。
【請求項20】
コンピュータに、請求項19に記載の画像処理方法を実行させるためのプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0006
【補正方法】変更
【補正の内容】
【0006】
本開示に係る画像処理装置は、複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データを得るための学習を行う画像処理装置であって、前記複数の撮影画像を取得する取得手段と、前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す三次元形状データを生成する生成手段と、前記三次元形状データに基づいて、オブジェクト毎に学習領域を設定する設定手段と、前記オブジェクト毎に設定された前記学習領域を対象として、前記複数の撮影画像を用いて学習する学習手段と、を有することを特徴とする。