特開2024-162762 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特開2024-162762画像処理装置、画像処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10A
10B
10C
10D
11
12
13
14A
14B
14C
14D

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024162762

(43)【公開日】2024-11-21

(54)【発明の名称】画像処理装置、画像処理方法及びプログラム

(51)【国際特許分類】

G06T 7/55 20170101AFI20241114BHJP

G06T 7/00 20170101ALI20241114BHJP

G06T 19/00 20110101ALI20241114BHJP

G06T 17/10 20060101ALI20241114BHJP

【ＦＩ】

G06T7/55

G06T7/00 350B

G06T19/00 A

G06T17/10

【審査請求】有

【請求項の数】20

【出願形態】ＯＬ

(21)【出願番号】P 2023078633

(22)【出願日】2023-05-11

(71)【出願人】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】佐藤智一

【テーマコード（参考）】

5B050

5B080

5L096

【Ｆターム（参考）】

5B050AA08

5B050AA09

5B050BA09

5B050BA12

5B050DA04

5B050DA07

5B050EA07

5B050EA26

5B050FA02

5B050FA05

5B080AA17

5B080BA00

5B080CA00

5B080FA02

5B080FA17

5B080GA00

5L096CA05

5L096FA02

5L096KA04

(57)【要約】（修正有）

【課題】多視点画像から仮想視点に対応する画像等を生成するための学習をより高速に行う画像処理装置、画像処理方法及びプログラムを提供する。
【解決手段】画像処理装置において、複数の撮像装置によって得られた複数の撮影画像に基づいてオブジェクトの三次元形状を表す形状データを生成しＳ４０２、生成された形状データに基づき、オブジェクト毎に学習領域を設定しＳ４０３、オブジェクト毎に設定された学習領域を対象として、撮影画像に応じた三次元場を学習するＳ４０５～Ｓ４０７。
【選択図】図４

【特許請求の範囲】

【請求項1】

複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データないし、三次元形状を得るための学習を行う画像処理装置であって、
前記複数の撮影画像を取得する取得手段と、
前記取得手段によって取得された前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す概略形状データを生成する生成手段と、
前記生成手段によって生成された前記概略形状データに基づき、オブジェクト毎に学習領域を設定する設定手段と、
前記設定手段によってオブジェクト毎に設定された学習領域を対象として、前記撮影画像に応じた三次元場を学習する学習手段と、
を備えたことを特徴とする画像処理装置。

【請求項2】

前記学習手段は、
前記三次元場を保持する記憶手段と、
前記複数の撮影画像それぞれに対応するカメラパラメータと、前記記憶手段によって保持されている前記三次元場とに基づき、各撮影画像と同じ画角を持つ各撮影視点に対応した画像を描画する描画手段と、
前記描画手段によって得られた複数の描画画像と前記複数の撮影画像とに基づき、前記三次元場を更新する更新手段と、
を有する、ことを特徴とする請求項１に記載の画像処理装置。

【請求項3】

前記更新手段は、前記設定手段によって前記オブジェクト毎に設定された学習領域のうち注目する学習領域を対象として、互いに対応関係にある撮影画像と描画画像との間で色差を求め、色差が小さくなるように前記三次元場を更新する、ことを特徴とする請求項２に記載の画像処理装置。

【請求項4】

前記更新手段は、前記色差を両画像間で対応関係にある画素毎に求めて前記更新を行う、ことを特徴とする請求項３に記載の画像処理装置。

【請求項5】

前記更新手段は、前記概略形状データを構成する要素に対して可視性がある前記撮影画像の画素とそれに対応する前記描画画像の画素とから前記色差を求めて前記更新を行う、ことを特徴とする請求項４に記載の画像処理装置。

【請求項6】

前記更新手段は、前記要素に対して可視性がある視点の撮影画像の画素値に基づき前記三次元場の初期値を決定して前記更新を行う、ことを特徴とする請求項５に記載の画像処理装置。

【請求項7】

前記設定手段は、前記概略形状データが表す前記オブジェクトの三次元形状に外接する立体を、前記学習領域として設定する、ことを特徴とする請求項１に記載の画像処理装置。

【請求項8】

前記概略形状データは、複数の要素の集合によって前記オブジェクトの三次元形状を特定するデータであり、
前記設定手段は、前記要素よりもサイズの大きい要素の集合によって表される三次元領域を、前記学習領域として設定する、ことを特徴とする請求項１に記載の画像処理装置。

【請求項9】

前記生成手段は、前記複数の撮影画像を用いた視体積交差法によって、前記オブジェクトの概略形状を表す前記形状データを生成する、ことを特徴とする請求項１に記載の画像処理装置。

【請求項10】

前記三次元場は、前記複数の撮像装置の撮影空間における各座標に対し体積密度と異方性の色とを対応付ける放射輝度場であり、
前記仮想視点データは、仮想視点からの見えを表す仮想視点画像である、
ことを特徴とする請求項１乃至９のいずれか一項に記載の画像処理装置。

【請求項11】

前記三次元場は、前記複数の撮像装置の撮影空間における各座標に対し体積密度と等方性の色とを対応付ける放射輝度場であり、
前記仮想視点データは、仮想視点からの見えを表す仮想視点画像である、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項12】

前記三次元場は、体積密度を表す不透明度の場であり、
前記仮想視点データは、仮想視点から見たときの不透明度を表すマップである、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項13】

前記三次元場は、双方向反射率分布関数の場であり、
前記仮想視点データは、仮想視点から見たときの双方向反射率分布関数を表すマップである、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項14】

前記三次元場は、環境光の入り込み量の場であり、
前記仮想視点データは、仮想視点から見たときの目に見える度合いを表すマップである、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項15】

前記三次元場は、オブジェクトの内側を負、外側を正で表した浮動小数場、または、オブジェクトの内側を0、外側を1で表したバイナリ場であり、
前記仮想視点データは、仮想視点から見たときのデプスマップである、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項16】

前記三次元場は、オブジェクト表面の法線方向の場であり、
前記仮想視点データは、仮想視点から見たときの法線マップである、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項17】

請求項１に記載の画像処理装置によって学習された三次元場を用いて推論を行って前記仮想視点データを出力する推論手段を備えたことを特徴とする画像処理装置。

【請求項18】

前記推論手段は、
前記学習された三次元場を保持する記憶手段と、
仮想視点のカメラパラメータに従って、前記記憶手段に保持された前記三次元場に基づき前記仮想視点データを生成する生成手段と、
を有することを特徴とする請求項１７に記載の画像処理装置。

【請求項19】

複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データないし、三次元形状を得るための学習を行う画像処理方法であって、
前記複数の撮影画像を取得する取得ステップと、
前記取得ステップにて取得された前記複数の撮影画像に基づいてオブジェクトの三次元概略形状を表す概略形状データを生成する生成ステップと、
前記生成手段にて生成された前記概略形状データに基づき、オブジェクト毎に学習領域を設定する設定ステップと、
前記設定ステップにてオブジェクト毎に設定された学習領域を対象として、前記撮影画像に応じた三次元場を学習する学習ステップと、
を含むことを特徴とする画像処理方法。

【請求項20】

コンピュータに、請求項１９に記載の画像処理方法を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、多視点画像から仮想視点に対応するデータを生成する画像処理技術に関する。

【背景技術】

【0002】

カメラパラメータが既知の多視点画像を入力として、任意の仮想視点に対応する画像を生成するＮｅＲＦ（Neural Radiance Fields）と呼ばれる技術がある（非特許文献１、特許文献１）。このＮｅＲＦは、五次元の入力変数｛任意の空間位置座標（x,y,z）と方向（θ、φ）｝から、体積密度（volume density）σ及び放射輝度（emitted radiance）を出力するニューラルネットワークである。このニューラルネットワークの学習においては、多視点画像の画素値を教師として、描画結果の画素値との差を損失とする。従って、学習過程では多視点画像に含まれる画像の数だけ描画、損失計算、誤差逆伝搬を行い、さらにこれを繰り返すことになるので学習に多くの時間を要する。例えば１００視点の１Ｋ画像を教師としたシーンを学習するためには、少なくとも１２時間以上必要とされている。学習に多くの時間を要してしまうという課題に対しては、視体積交差法を利用することで高速化を図ったＶａｘＮｅＲＦと呼ばれる手法等が提案されている（非特許文献２を参照）。視体積交差法は、多視点画像から抽出したオブジェクトのシルエットを三次元空間に逆投影して各視点からの錐体を構成し、各錐体の交差部分を求めることで当該オブジェクトの三次元形状を取得する手法である。この視体積交差法には、抽出されたシルエットが正しいという仮定の下で、取得した三次元形状の外にはオブジェクトが存在しないことが保証されるという特徴がある。この特徴を利用して、ＶａｘＮｅＲＦでは、シルエットの外に位置する画素を学習に利用しないようにすると共に、描画の際のサンプリング点を視体積交差法で取得した三次元形状の内部に限定することで、学習時の計算量を抑え、学習を高速化している。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】米国特許第１１３０８６５９号明細書

【非特許文献】

【0004】

【非特許文献1】Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. ＮｅＲＦ: Representing Scenes as Neural Radiance Fields for View Synthesis. 3 Aug 2020.

【非特許文献2】Naruya Kondo, Yuya Ikeda, Andrea Tagliasacchi, Yutaka Matsuo, Yoichi Ochiai, Shixiang Shane Gu. VaxNeRF: Revisiting the Classic for Voxel-Accelerated Neural Radiance Field. Nov 25 2021.

【非特許文献3】Alex Yu, Sara Fridovich-Keil, Matthew Tancik, Qinhong Chen, Benjamin Recht, Angjoo Kanazawa. Plenoxels: Radiance Fields without Neural Networks. 9 Dec 2021.

【発明の概要】

【発明が解決しようとする課題】

【0005】

例えばサッカーの試合のように広大な撮影エリアに多くのオブジェクトがスパースに分布するシーンを対象とする場合などにおいては、ＶａｘＮｅＲＦの手法によっても依然として学習に膨大な時間を要することになる。本開示は上述した課題に鑑みなされたもので、多視点画像から仮想視点に対応する画像等を生成するための学習をより高速に行うことを目的とする。

【課題を解決するための手段】

【0006】

本開示に係る画像処理装置は、複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データないし、三次元形状を得るための学習を行う画像処理装置であって、前記複数の撮影画像を取得する取得手段と、前記取得手段によって取得された前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す概略形状データを生成する生成手段と、前記生成手段によって生成された前記概略形状データに基づき、オブジェクト毎に学習領域を設定する設定手段と、前記設定手段によってオブジェクト毎に設定された学習領域を対象として、前記撮影画像に応じた三次元場を学習する学習手段と、
を備えたことを特徴とする。

【発明の効果】

【0007】

本開示によれば、多視点画像から仮想視点に対応する画像等を生成するための学習をより高速に行うことが可能になる。

【図面の簡単な説明】

【0008】

【図1】画像処理システムの構成例を示す図。

【図2】画像処理装置のハードウェア構成例を示す図。

【図3】画像処理装置の機能構成を示すブロック図。

【図4】実施形態１に係る、画像処理装置の動作の流れを示すフローチャート。

【図5】撮影領域を上側から二次元的に表した図。

【図6】視体積交差法（VisualHull）を用いた概略形状の取得を説明する図。

【図7】キャプチャエリアに３つのオブジェクトが存在する状態を示す図。

【図8】（ａ）及び（ｂ）は、ＮｅＲＦによる学習を説明する図。

【図9】（ａ）及び（ｂ）は、ＶａｘＮｅＲＦによる学習を説明する図。

【図10A】実施形態１の手法による学習を説明する図

【図10B】実施形態１の手法による学習を説明する図

【図10C】実施形態１の手法による学習を説明する図

【図10D】実施形態１の手法による学習を説明する図

【図11】（ａ）～（ｃ）は、Ｐｌｅｎｏｘｅｌｓの概要を説明する図

【図12】実施形態２に係る、画像処理装置の動作の流れを示すフローチャート。

【図13】放射輝度場の初期値算出処理の詳細を示すフローチャート。

【図14A】実施形態２の手法による学習を説明する図

【図14B】実施形態２の手法による学習を説明する図

【図14C】実施形態２の手法による学習を説明する図

【図14D】実施形態２の手法による学習を説明する図

【発明を実施するための形態】

【0009】

以下、本実施形態について、図面を参照して説明する。尚、以下の実施形態は本発明を必ずしも限定するものではない。また、本実施形態において説明されている特徴の組み合せの全てが本発明の解決手段に必須のものとは限らない。また、各実施形態に共通する考え方として、本開示では、非特許文献２と同様にオブジェクトの大まかな三次元形状（概略形状）を利用する。そして、学習対象となる撮影空間内の三次元的な場（この「場（フィールド）」は学習内容に応じて異なる。以下、本明細書において「三次元場」と表記。）をオブジェクト毎に独立に定義して学習する。これにより、個々の三次元場が持つ情報量を低減して各三次元場に対する学習の収束を早め、高速な学習を実現する。

【0010】

［実施形態１］
＜画像処理システムの構成＞
図１は、本実施形態に係る、仮想視点映像の生成を行う画像処理システムの構成例を示す図である。画像処理システムは、複数台の撮影装置（カメラ）１０１、画像処理装置１０２、ユーザーインターフェース（ＵＩ）パネル１０３、記憶装置１０４、表示装置１０５を有する。複数台のカメラ１０１は、撮影条件に従い撮影領域１０６の内部にいるオブジェクト１０７を多視点から同期撮影して、各視点に対応する複数の撮影画像（多視点画像）データを取得する。カメラ１０１によって得られる撮影画像は、静止画像であってもよいし、動画像であってもよいし、静止画像と動画像の両方であってもよい。なお、本実施形態においては特に断りがない限り、用語「画像」は静止画と動画との両方を含むものとする。画像処理装置１０２は、複数台のカメラ１０１の制御及び、複数台のカメラ１０１から取得した複数の撮影画像に基づき、オブジェクト１０７の三次元形状データ（３Ｄモデル）を生成する。ＵＩパネル１０３は、液晶ディスプレイ等の表示装置であり、現在の撮影条件や処理設定をユーザに伝えるためのユーザーインターフェースとして機能する。また、ＵＩパネル１０３は、タッチパネル又はボタン等の入力装置を備えていてもよく、撮影条件や処理設定に関してユーザからの指示を受け付けることができる。尚、入力装置は、マウスやキーボードのようにＵＩパネル１０３とは別に設けられていてもよい。記憶装置１０４は、画像処理装置１０２から取得したオブジェクトの三次元形状データを記憶する。表示装置は、画像処理装置１０２からオブジェクトの三次元形状データを取得して表示する。撮影領域１０６は、スタジオ内に設置された複数のカメラ１０１によって囲まれた空間（三次元空間）であり、実線で示す枠は床面における撮影領域１０６の前後方向および左右方向の輪郭を示す。

【0011】

＜画像処理装置のハードウェア構成＞
図２は、画像処理装置１０２のハードウェア構成例を示す図である。画像処理装置１０２は、ＣＰＵ２０１、ＲＡＭ２０２、ＲＯＭ２０３、記憶部２０４、制御インターフェース（Ｉ／Ｆ）２０５、入力インターフェース（Ｉ／Ｆ）２０６、出力インターフェース（Ｉ／Ｆ）２０７、メインバス２０８を有する。ＣＰＵ２０１は、画像処理装置１０２の各部を統括的に制御するプロセッサである。ＲＡＭ２０２は、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＲＯＭ２０３は、ＣＰＵ２０１によって実行されるプログラム群を格納している。記憶部２０４は、ＣＰＵ２０１によって実行されるアプリケーション、画像処理に用いられるデータ等を記憶する。制御（Ｉ／Ｆ）２０５は、複数台のカメラ１０１と接続されており、撮影条件の設定、撮影開始や撮影停止等の制御を行うためのインターフェースである。入力Ｉ／Ｆ２０６は、ＳＤＩやＨＤＭＩ（登録商標）等のシリアルバスインターフェースであり、入力Ｉ／Ｆ２０６を介して複数台のカメラ１０１から多視点画像データを取得する。出力Ｉ／Ｆ２０７は、ＵＳＢやＩＥＥＥ１３９４等のシリアルバスインターフェースであり、出力Ｉ／Ｆ２０７を介して記憶装置１０４や表示装置１０５へ被写体形状を出力する。メインバス２０８は、画像処理装置１０２の各モジュールを接続する伝送路である。

【0012】

本実施形態では、スタジオに設置された８台のカメラを用いて、１又は複数のオブジェクトを周囲から撮影する。また、カメラの内部パラメータ、外部パラメータ、歪曲パラメータなどのカメラパラメータは、記憶部２０４に保存されているものとする。内部パラメータは画像中心の座標やレンズ焦点距離を表し、外部パラメータはカメラの位置と姿勢を表す。なお、複数台のカメラのカメラパラメータは全部で共通していなくてもよく、例えば画角が異なっていてもよい。

【0013】

＜画像処理装置の動作＞
続いて、本実施形態に係る、画像処理装置１２０の動作について説明する。図３（ａ）は画像処理装置１０２の学習フェーズにおける機能構成を示すブロック図、図４は画像処理装置１０２の動作の流れを示すフローチャートである。図３に示すとおり、画像処理装置１０２は、学習部３００、画像入力部３０１、概略形状生成部３０２、学習領域設定部３０３を有する。そして、学習部３００は、描画部３０６、三次元場記憶部３０５及び描画部３０６を有する。以下、図４のフローチャートに沿って、画像処理装置１２０が有する各部の動作について説明する。なお、以下の説明において記号「Ｓ」はステップを意味する。なお、入力される撮影画像が動画像の場合は、フレーム単位で実行されることになる。

【0014】

Ｓ４０１では、画像入力部３０１が、多視点画像を複数台のカメラ１０１から入力Ｉ／Ｆ２０６を介して受信して取得する。あるいは、記憶部２０４に記憶された多視点画像のデータを読み込んで取得してもよい。取得した多視点画像はＲＡＭ２０２に保持される。

【0015】

Ｓ４０２では、概略形状生成部３０２が、取得された多視点画像に映るオブジェクトについて、その大まかな三次元形状を表す概略形状データを生成する。本実施形態では、概略形状データとして、視体積交差法によりオブジェクトの形状を導出して、ボクセル集合として表現された三次元形状データを生成する。視体積交差法では、まず、多視点画像を構成する各撮影画像について、オブジェクトが映っていない状態の画像（背景画像）を用いて前景背景分離を行い、オブジェクトのシルエットを表す画像（シルエット画像）を取得する。背景画像は例えばオブジェクトがいない状態の撮影領域１０６を予め撮影する等して用意しておく。次に、複数台のカメラ１０１それぞれのカメラパラメータに基づき、撮影領域１０６に対応するボクセル集合に含まれる各ボクセルを、多視点画像から取得したオブジェクトのシルエット画像それぞれに投影する。そして、全てのシルエット画像においてシルエット内に投影されたボクセルのみから成るボクセル集合を、オブジェクトの概略形状とする。図５は、撮影領域１０６を上側から二次元的に表した図である。図５において、一点鎖線の外側の矩形５０１はカメラ１０１が設置されたスタジオの壁面を示す。また、二点鎖線の内側の矩形５０２はオブジェクトが存在し得る範囲（キャプチャエリア）を示し、実線の三角形５０６～５１３は８台のカメラ１０１それぞれの位置・向き・画角を表している。図６は、中央部が凹んだオブジェクト６００について、視体積交差法によって概略形状６０１が得られる様子を示している。

【0016】

Ｓ４０３では、学習領域設定部３０３が、Ｓ４０２にて生成されたオブジェクト単位の概略形状データに基づき、オブジェクトの概略形状に対して外接する直方体を、学習を行う対象三次元領域（学習領域）としてオブジェクト毎に設定する。この学習領域の形状はオブジェクトの概略形状を内包する立体であればよく、例えば球や楕円球であってもよい。あるいは、概略形状データを構成する要素であるボクセルよりも大きいボクセルで構成されたボクセル集合から成るより粗い概略形状の三次元領域を学習領域として設定してもよい。

【0017】

Ｓ４０４では、三次元場更新部３０４が、三次元場記憶部３０５としてのＲＡＭ２０２内に、Ｓ４０３にてオブジェクト毎に設定された学習領域に対応するメモリ領域を確保する。いま「三次元場」が、ＮｅＲＦにおける放射輝度場（空間上の各座標に対し、体積密度（≒不透明度）と放射輝度（≒色）とを対応付けるベクトル場）であるものとして以下の各ステップを説明する。三次元場がＮｅＲＦの放射輝度場である場合、空間内の任意の位置における体積密度（以下、単に「密度」と表記）を表す値と方向毎に異なる異方性の色を表す値が、確保されたメモリ領域に格納されることになる。

【0018】

Ｓ４０５では、描画部３０６が、多視点画像を構成する各撮影画像に対応するカメラパラメータと三次元場記憶部３０５に格納されている放射輝度場とに基づき、各撮影画像と同じ画角を持った各撮影視点に対応する画像を描画（ボリュームレンダリング）する。具体的には、撮影画像と同じ視点から見たときの光線ｒに対応する各画素の画素値C(r)を例えば以下の式（１）を用いて求める処理を行う。

【0019】

【数1】

・・・式（１）
上記式（１）において、“i”はサンプリング点のインデックスを表し、“σ_i”は密度、“c_i”は色、“δ_i”は次のサンプリング点までの距離を表している。ここで、サンプリング点のインデックスiは、複数台のカメラ１０１（本実施形態では８台）に対して近い方（手前）から順に与えられる。上記式（１）により、密度が高く、よりカメラに近いサンプリング点ほど重みが大きくなるように重み付き和で画素値（RGB値）が決定される。なお、処理開始直後の三次元場記憶部３０５には三次元場（ここではＮｅＲＦの放射輝度場）が学習されていない。よって、何も映っていない真っ黒な画像が描画結果として得られることになる。こうして各撮影画像に対応する描画画像が得られる。得られた描画画像は三次元部更新部３０４に出力される。

【0020】

Ｓ４０６では、三次元場更新部３０４が、Ｓ４０３にて設定された学習領域のうち注目する学習領域を対象として、互いに対応関係にある撮影画像と描画画像との間で色差を求め、色差が小さくなるように放射輝度場を更新する処理を行う。この工程は、深層学習における誤差算出及び誤差逆伝播に相当する。本実施形態においては、両画像間の色差は対応関係にある画素毎に算出され、その値は色（RGB）の2乗ユークリッド距離で定義される。

【0021】

Ｓ４０７では、Ｓ４０３で設定された全ての学習領域を対象として放射輝度場の更新処理が完了したかが判定される。放射輝度場の更新処理が済んでいない学習領域があればＳ４０５に戻り、次の注目する学習領域を決定して同様の処理が実行される。一方、全ての学習領域を対象として放射輝度場の更新処理が完了していればＳ４０８に移行する。

【0022】

Ｓ４０８では、全ての放射輝度場について更新が十分収束したかが判定される。収束したかどうかは、例えば、画素毎に求めた誤差を全部の視点で合計し、前回求めた合計値に対する減少幅が閾値（例えば0.1％）を下回ったところで、収束したと判断する。また、画素毎に求めた誤差が所定の閾値を下回ったところで収束と判断してもよいし、放射輝度場の更新処理回数をカウントして所定回数に達した時点で収束としてもよい。また、例えば複数台のカメラのうち一部のカメラを放射輝度場の更新に使わない評価用カメラとし、当該カメラの撮影画像との誤差が上昇し始めた（過学習が発生）ところで収束と判断してもよい。さらには、これらの組み合わせで判断してもよい。更新が収束していれば本処理を終了し、更新が収束していなければＳ４０５に戻って、同様の処理を繰り返す。

【0023】

以上が、本実施形態に係る、画像処理装置１２０における動作の流れである。図３（ｂ）は、収束したと判断された放射輝度場を用いて仮想視点画像の生成を行う場合（推論フェーズ）における画像処理装置１０２’の機能構成を示すブロック図である。図３（ｂ）に示すように推論フェーズを担う画像処理装置１０２’は、前述の三次元場記憶部３０５と描画部３０６とで構成される推論部３１０を有する。推論部３１０の描画部３０６には、撮像装置１０１の撮影視点のカメラパラメータに代えて、仮想視点のカメラパラメータが入力される。そして、描画部３０６において、三次元場記憶部３０５に保持された収束後の放射輝度場を用いて仮想視点のパラメータに従ったボリュームレンダリングを行って、仮想視点に対応する描画画像（仮想視点画像）が生成される。なお、上述の図４のフローでは、Ｓ４０５とＳ４０６の両処理をそれぞれ学習領域の単位で繰り返すようにしているがこれに限定されない。例えば、全ての学習領域についてＳ４０５の処理を行って描画画像を得てから、まとめてＳ４０６の処理を行って各学習領域に対応する放射輝度場を更新してもよい。また、動画の場合であれば、フレーム間でオブジェクト追跡を行ってその結果に基づき学習領域の設定（Ｓ４０３）を行うようにし、一部のフレームについては視体積交差法による概略形状の生成を省略するようにしてもよい。これにより、動画の場合の一連の処理をより効率良く行うことができる。

【0024】

＜従来技術との違い＞
ここで、ＮｅＲＦ及びＶａｘＮｅＲＦと本実施形態の手法との違いについて、キャプチャエリア５０２に３つのオブジェクトが存在する場合（図７参照）を例に説明する。

【0025】

≪ＮｅＲＦの場合≫
図８の（ａ）及び（ｂ）は、ＮｅＲＦを適用した場合の学習を説明する図である。学習時に放射輝度場の更新範囲（学習領域）を定義するＮｅＲＦの場合、キャプチャエリア５０２全体を、放射輝度場の更新範囲として設定することになる。図８（ａ）において、小ドット領域８０１は放射輝度場の更新範囲として設定された学習領域を表しており、いま、キャプチャエリア５０２と等しくなっている。そして、キャプチャエリア５０２に対応する画素の画素値を教師データとして学習が行われる。図８（ａ）において、８台の各カメラ５０６～５１３を表す三角形における太線部分は、設定された学習領域８０１（＝キャプチャエリア５０２）に対応する画像面を表している。図８（ｂ）において、小ドット領域８０１内の大ドット８１１はカメラ５０６の撮影画像上のある画素に対応する光線上のサンプリング点を表している。ＮｅＲＦでは光線上の放射輝度場の更新範囲全体にサンプリング点を設けて描画を行うので、多くの画素を対象に学習を行うことになり、その結果、処理に時間を要することになる。なお、ＮｅＲＦにおいても、オブジェクトの密度（volume density）が連続して低い場所についてはサンプリング点を減らすといった高速に処理するための一応の工夫がなされている。

【0026】

≪ＶａｘＮｅＲＦの場合≫
図９の（ａ）及び（ｂ）は、ＶａｘＮｅＲＦを適用した場合の学習を説明する図である。図９（ａ）において、３つの小ドット領域９０１～９０３が放射輝度場の更新範囲として設定された学習領域を表している。図９（ａ）に示すように、ＶａｘＮｅＲＦの場合は、キャプチャエリア５０２のうちオブジェクトが存在する範囲に限定して放射輝度場の学習領域が設定される。また、図９（ｂ）において、３つの小ドット領域９０１～９０３内の大ドット９１１及び９１２はカメラ５０６の撮影画像上のある画素に対応する光線上のサンプリング点を表している。図９（ｂ）に示すように、サンプリング点がオブジェクトの概略形状の内部に限定される分、描画時の演算量が低減することになる。

【0027】

≪本手法の場合≫
図１０Ａ～Ｄは、本実施形態の手法を適用した場合の学習を説明する図である。いま、キャプチャエリア５０２には３つのオブジェクトが存在している。よって、３つのオブジェクトに対応する３つの概略形状が得られることになり、図１０Ａ～Ｃにそれぞれ示すように、放射輝度場の更新範囲となる学習領域１００１～１００３がオブジェクト毎に設定されることになる。上述のＮｅＲＦやＶａｘＮｅＲＦとは異なり、オブジェクト毎に放射輝度場を独立に定義することになるため、それぞれの放射輝度場に対して学習に利用する画素が決定される。ここで、オブジェクト毎の放射輝度場（この例では３つ）について別々に更新が行われるので、ケースによっては同じ画素に対する学習が重複する場合があり、その分だけ学習の効率が落ちることになる。しかしながら、オブジェクト毎に放射輝度場を独立に定義することで各放射輝度場についての学習の収束が早まり、一部画素に対する学習が重複することによる低下分を上回る効率の向上が期待できるため、全体としてはより高速な学習が可能になる。図１０Ｄにおいて、大ドット１０１１及び１０１２はカメラ５０６の撮影画像上のある画素に対応する光線上のサンプリング点を表している。図１０Ｄに示すように、描画時には、学習対象となる放射輝度場以外の放射輝度場についても重ねて色の積算が行われる。なお、シルエット画像が示すシルエットが正しければ、概略形状の外側をサンプリングする必要はない。しかし、実用ではシルエット画像が示すシルエットに一部欠損が生じるなど、オブジェクトの形状推定によって得られる概略形状にはエラーが含まれるケースが少なくない。そこで、概略形状を内包する学習領域の内側全体をサンプリングすることで、このようなエラーを吸収できるようにすることが好ましい。ただし、ＶａｘＮｅＲＦのように概略形状の内側のみを対象にサンプリングを行ってもよい。

【0028】

以上のとおり本実施形態によれば、オブジェクトの概略形状に基づきオブジェクト毎に学習領域を設定し、オブジェクト毎に独立して定義された放射輝度場の更新を行う。これにより、それぞれの放射輝度場が持つ情報量を少なくすることができるので収束が早まり、学習をより高速に行うことができる。

【0029】

［実施形態２］
次に、オブジェクト毎に独立して定義される放射輝度場の表現形式としてＰｌｅｎｏｘｅｌｓ（非特許文献３）を用いることで、学習をより高速に行う方法を実施形態２として説明する。Ｐｌｅｎｏｘｅｌｓは、ニューラルネットワークを使わずに、放射輝度場を直接的なパラメータで表し、これを最適化する手法である。従って、空間内の任意の位置に対する密度と色の値をより直接的に制御することが可能になる。以下では実施形態１との差異点を中心に説明を行うこととする。

【0030】

＜Ｐｌｅｎｏｘｅｌｓの概要＞
本実施形態の説明に入る前に、Ｐｌｅｎｏｘｅｌｓの概要を説明しておく。Ｐｌｅｎｏｘｅｌｓでは、まず、空間を粗いボクセルグリッドに分割する。図１１（ａ）は、粗く分割されたボクセルグリッドにおける１つのボクセル１１０１を示している。そして、図１１（ｂ）に示すように、１つ１つのボクセルの角（８つの頂点）１１０３の位置に、密度σと方向毎の色ｃを球面調和関数のパラメータとして保持する。ここで、ボクセルの角に対応する頂点１１０３以外の任意の点１１０４の値を取得する場合は、その点を含むボクセルの８つの頂点の値を取得し、それらの値をトリリニア補間することで、任意の点１１０４の密度σ及び色ｃを求める。こうして得たパラメータを、ＮｅＲＦと同様、ある画素に対応する光線上のサンプリング点の画素値を積算することで描画を行い、得られた描画画像と撮影画像との差が小さくなるように放射輝度場の更新を行う。この更新のための目的関数は、以下の式（２）のように定義される。

【0031】

【数2】

・・・式（２）
上記式（２）において“L_recon”は撮影画像の画素値との差を小さくする項であり、“L_TV”は近傍のパラメータ間の値の差を小さくする項である。目的関数によるパラメータの最適化には例えばRMSProp法、最急降下法、Adam法、SGD法などを用いる。

【0032】

そして、図１１（ａ）で示した粗いボクセルグリッドによる放射輝度場を最適化し、密度によって学習すべき範囲を特定する。次に、特定された範囲を対象として、図１１（ｃ）に示すような不要な部分を削除したより細かいボクセルグリッドによる放射輝度場を最適化する。以上が、Ｐｌｅｎｏｘｅｌｓの概要である。

【0033】

＜本実施形態の手法＞
本実施形態では、Ｐｌｅｎｏｘｅｌｓにおける上記最適化の工程を、視体積交差法を用いて簡略化する。ここで、Ｐｌｅｎｏｘｅｌｓにおける“粗い放射輝度場”の推定は、実施形態１で説明した概略形状の取得と役割が同じである。つまり、概略形状生成部３０２で取得した概略形状に従って、より細かいボクセルによるオブジェクト形状を定義することができる。さらに、細かいボクセルそれぞれに割り当てられるパラメータの初期値を事前に求めておくことで、より高速に最適化を収束させる。さらに本実施形態では、オブジェクトの可視性判定（遮蔽判定）を利用して、学習に利用する画素をさらに減らす手法についても併せて説明する。なお、可視性判定を利用して学習に利用する画素をさらに減らすという考え方は実施形態１にも同様に適用可能である。

【0034】

＜画像処理装置の動作＞
続いて、本実施形態に係る、画像処理装置１２０の動作について説明する。図１２は本実施形態に係る、画像処理装置１０２の動作の流れを示すフローチャートである。本実施形態の手法も図３に示した各機能部を有する画像処理装置１０２によって実現できる。しかしながら、学習領域設定部３０３の機能については一部異なる部分がある。以下では、当該異なる部分を中心に説明することとする。

【0035】

Ｓ１２０１及びＳ１２０２は、実施形態１の図４のフローにおけるＳ４０１及びＳ４０２と同じであるため説明を省く。

【0036】

Ｓ１２０３では、学習領域設定部３０３が、Ｓ１２０２で取得された概略形状に基づいて、粗いボクセルから成る三次元領域を、放射輝度場の更新を行う学習領域として設定する。

【0037】

Ｓ１２０４では、三次元場更新部３０４が、Ｓ１２０３にてオブジェクト毎に設定された学習領域に対応するメモリ領域を確保する。具体的には、三次元場記憶部３０５としてのＲＡＭ２０２内に、粗いボクセルを分割した細かいボクセルに対して放射輝度場を表現するパラメータを記憶するためのメモリ領域が確保される。

【0038】

Ｓ１２０５では、三次元場更新部３０４が、オブジェクト毎に定義される放射輝度場の初期値を算出する処理を行う。この初期値算出処理の詳細は後述する。

【0039】

Ｓ１２０６では、描画部３０６が、実施形態１の図４のフローにおけるＳ４０５と同様の処理を行う。すなわち、多視点画像を構成する各撮影画像に対応するカメラパラメータと三次元場記憶部３０５に格納されている三次元場（ここでは放射輝度場）とに基づき、撮影画像と同じ画角の画像を描画する。

【0040】

Ｓ１２０７では、描画部３０６が、注目する学習領域を対象として、対応関係にある撮影画像と描画画像との間で画素値の差を求め、画素値の差が小さくなるように放射輝度場を更新する処理を行う。この際、処理開始直後の最初のＳ１２０６では、Ｓ１２０５にて生成された初期値が用いられることになる。そして、この初期値は後述の可視性判定によって可視であると判定された画素のみに基づいて設定されることになる。

【0041】

Ｓ１２０８及びＳ１２０９は、実施形態１の図４のフローにおけるＳ４０７及びＳ４０８と同じであるため説明を省く。

【0042】

以上が、本実施形態に係る、画像処理装置１２０における動作の流れである。

【0043】

＜放射輝度場の初期値算出処理の詳細＞
続いて、図１３のフローチャートを参照して、オブジェクト毎に定義される放射輝度場の初期値算出処理について詳しく説明する。Ｓ１３０１～Ｓ１３０３の各処理は、全オブジェクトを対象としてまとめて行われる。

【0044】

Ｓ１３０１では、放射輝度場の密度が初期化される。具体的には、細かいボクセルグリッドを構成する各ボクセルについて、概略形状の内部にある場合にはσ＝１、外部にある場合にはσ＝０、表面にある場合にはσ＝０．５の各値を割り当てる処理が行われる。

【0045】

Ｓ１３０２では、Ｓ１２０２にて得られた概略形状における表面ボクセルが抽出される。この表面ボクセルの抽出は、例えば、自身が概略形状の内部に位置しているボクセルであって、かつ、概略形状の外部に位置するボクセルに隣接するボクセルを選択することで実現される。

【0046】

Ｓ１３０３では、Ｓ１３０２にて抽出された全てのオブジェクトについての表面ボクセルを、多視点画像の全撮影視点のカメラパラメータを使って画像面に投影し、全撮影視点におけるデプスマップが生成される。生成されたデプスマップは、ＲＡＭ１０２で保持される。

【0047】

Ｓ１３０４では、表面ボクセルそれぞれについて、その中心座標を撮影視点に投影し、当該投影によるデプス値（ｄ’）を、デプスマップにおけるデプス値（ｄ）と比較して、各視点からの可視性を判定する処理が行われる。具体的には、ｄ’≦ｄ＋ｍとなることで可視（遮蔽されていない）と判定する。ここで“ｍ”は定数であり、細かいボクセルグリッドにおけるボクセルよりも１回り大きいサイズ、例えば１～２ｍｍといった値が入る。

【0048】

Ｓ１３０５では、表面ボクセルそれぞれについて、可視性ありと判定された視点に対応する撮影画像の画素値に基づき、放射輝度場の色情報が初期化される。Ｐｌｅｎｏｘｅｌｓでは方向毎に異なる色をＲＧＢの成分毎に球面調和関数のパラメータで表現している。そこで、例えば、球面調和関数の基底成分（全方向の値の平均）を、可視性ありと判定された視点に対応する撮影画像の画素値の平均値とし、その他方向毎の色の変化を表す成分を０とする処理が初期化処理として行われることになる。

【0049】

＜実施形態１との比較＞
図１４Ａ～Ｄは、本実施形態の手法を適用した場合の学習を説明する図であり、実施形態１の図１０Ａ～Ｄにそれぞれ対応している。図１４Ａ～Ｃにそれぞれ示すように、３つの放射輝度場１４０１～１４０３はそれぞれ、対応するオブジェクトが可視である画素のみを利用して最適化されることになる。これによって、他の放射輝度場の影響を排した更新が可能になり、複数の放射輝度場を並列で処理することによる最適化が可能になると共に、各放射輝度場が持つ情報量をさらに低減することができる。さらには、オブジェクト間で最適化に利用する画素の重複もなくなるので、より演算量が低減される。

【0050】

以上のとおり本実施形態によれば、放射輝度場を直接的なパラメータで扱うＰｌｅｎｏｘｅｌｓをベースとし、各放射輝度場の初期値を算出した上で、それぞれの放射輝度場の更新を行うので、最適化の収束をより早めることができる。また、可視性判定を追加的に行うことで、さらに演算量を減らすことができ、学習の大幅な高速化を実現できる。

【0051】

＜変形例＞
実施形態１及び２では、三次元場として、空間上の各座標に対し密度と方向毎に異なる色とを対応付ける放射輝度場を例に説明を行ったが、これに限定されない。例えば、空間内の座標に対し対応付けられる色情報は方向に依らない等方性の色（color filed）でもよい。また、三次元場は放射輝度場に限定されるものではない。例えば、体積密度を表現する不透明度の場（Occupancy Field）でもよい。また、入射光に対する反射光の分布特性を表す双方向反射率分布関数（ＢＲＤＦ：Bidirectional Reflectance Distribution Function）によって表現される場でもよい。さらには、環境光の入り込み量（Light Visibility）を表現する場でもよい。これらは実施形態１及び２で説明した放射輝度場と同様、多視点画像を入力とした学習が可能であり、それぞれ学習後の各場に仮想視点のカメラパラメータを入力することで、以下のような仮想視点データが得られることになる。

【0052】

・不透明度の場：仮想視点から見たときの不透明度を表すマップ
・双方向反射率分布関数の場：仮想視点から見たときの双方向反射率分布関数を表すマップ
・環境光の入り込み量の場：仮想視点から見たときの目に見える度合いを表すマップ
さらに、三次元場は、オブジェクトの内側が負で外側が正の浮動小数場（Signed Distance Filed）、或いは、オブジェクトの内側が0で外側が1のバイナリ場（Surface Filed）でもよい。さらには、オブジェクト表面の法線方向の場（Normal Field）でもよい。これらの場合、多視点画像に加えて当該多視点画像に対応するデプスマップを入力とした学習を行い、それぞれ学習後の各場に基づき、以下のような仮想視点データが得られることになる。

【0053】

・オブジェクトの内側が負で外側が正の浮動小数場：仮想視点から見たときのデプスマップ
・オブジェクトの内側が0で外側が1のバイナリ場：仮想視点から見たときのデプスマップ
・オブジェクト表面の法線方向の場：仮想視点から見たときの法線マップ。

【0054】

例えば、上述のSurface FiledはPixel NeRfやDouble Filedで利用されている。また、BRDF、Light Visibility及びNormal FieldはNeRFactorで利用されている。また、Signed Distance FiledはNeuSで利用されている。これらにおいても本開示の手法は適用可能である。
ここまで、仮想視点パラメータに基づく仮想視点データの生成の方法を説明してきたが、三次元場の学習は３次元形状データの取得にも有効である。例えば、Occupancy Field や、Signed Distance Filedをボクセルとして取り出し、取り出されたボクセルに対してMarching Cubes法を用いることによりメッシュデータを取得することができる。

【0055】

［その他の実施形態］
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【0056】

また、本開示は、以下の構成及び方法を含む。

【0057】

［構成１］
複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データないし、三次元形状を得るための学習を行う画像処理装置であって、
前記複数の撮影画像を取得する取得手段と、
前記取得手段によって取得された前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す概略形状データを生成する生成手段と、
前記生成手段によって生成された前記概略形状データに基づき、オブジェクト毎に学習領域を設定する設定手段と、
前記設定手段によってオブジェクト毎に設定された学習領域を対象として、前記撮影画像に応じた三次元場を学習する学習手段と、
を備えたことを特徴とする画像処理装置。

【0058】

［構成２］
前記学習手段は、
前記三次元場を保持する記憶手段と、
前記複数の撮影画像それぞれに対応するカメラパラメータと、前記記憶手段によって保持されている前記三次元場とに基づき、各撮影画像と同じ画角を持つ各撮影視点に対応した画像を描画する描画手段と、
前記描画手段によって得られた複数の描画画像と前記複数の撮影画像とに基づき、前記三次元場を更新する更新手段と、
を有する、ことを特徴とする構成１に記載の画像処理装置。

【0059】

［構成３］
前記更新手段は、前記設定手段によって前記オブジェクト毎に設定された学習領域のうち注目する学習領域を対象として、互いに対応関係にある撮影画像と描画画像との間で色差を求め、色差が小さくなるように前記三次元場を更新する、ことを特徴とする構成２に記載の画像処理装置。

【0060】

［構成４］
前記更新手段は、前記色差を両画像間で対応関係にある画素毎に求めて前記更新を行う、ことを特徴とする構成３に記載の画像処理装置。

【0061】

［構成５］
前記更新手段は、前記概略形状データを構成する要素に対して可視性がある前記撮影画像の画素とそれに対応する前記描画画像の画素とから前記色差を求めて前記更新を行う、ことを特徴とする構成４に記載の画像処理装置。

【0062】

［構成６］
前記更新手段は、前記要素に対して可視性がある視点の撮影画像の画素値に基づき前記三次元場の初期値を決定して前記更新を行う、ことを特徴とする構成５に記載の画像処理装置。

【0063】

［構成７］
前記設定手段は、前記概略形状データが表す前記オブジェクトの三次元形状に外接する立体を、前記学習領域として設定する、ことを特徴とする構成１乃至６のいずれか一項に記載の画像処理装置。

【0064】

［構成８］
前記概略形状データは、複数の要素の集合によって前記オブジェクトの三次元形状を特定するデータであり、
前記設定手段は、前記要素よりもサイズの大きい要素の集合によって表される三次元領域を、前記学習領域として設定する、ことを特徴とする構成１乃至６のいずれか一項に記載の画像処理装置。

【0065】

［構成９］
前記生成手段は、前記複数の撮影画像を用いた視体積交差法によって、前記オブジェクトの概略形状を表す前記形状データを生成する、ことを特徴とする構成１乃至８のいずれか一項に記載の画像処理装置。

【0066】

［構成１０］
前記三次元場は、前記複数の撮像装置の撮影空間における各座標に対し体積密度と異方性の色とを対応付ける放射輝度場であり、
前記仮想視点データは、仮想視点からの見えを表す仮想視点画像である、
ことを特徴とする構成１乃至９のいずれか一項に記載の画像処理装置。

【0067】

［構成１１］
前記三次元場は、前記複数の撮像装置の撮影空間における各座標に対し体積密度と等方性の色とを対応付ける放射輝度場であり、
前記仮想視点データは、仮想視点からの見えを表す仮想視点画像である、
ことを特徴とする構成１乃至９のいずれか一項に記載の画像処理装置。

【0068】

［構成１２］
前記三次元場は、体積密度を表す不透明度の場であり、
前記仮想視点データは、仮想視点から見たときの不透明度を表すマップである、
ことを特徴とする構成１乃至９のいずれか一項に記載の画像処理装置。

【0069】

［構成１３］
前記三次元場は、双方向反射率分布関数の場であり、
前記仮想視点データは、仮想視点から見たときの双方向反射率分布関数を表すマップである、
ことを特徴とする構成１乃至９のいずれか一項に記載の画像処理装置。

【0070】

［構成１４］
前記三次元場は、環境光の入り込み量の場であり、
前記仮想視点データは、仮想視点から見たときの目に見える度合いを表すマップである、
ことを特徴とする構成１乃至９のいずれか一項に記載の画像処理装置。

【0071】

［構成１５］
前記三次元場は、オブジェクトの内側を負、外側を正で表した浮動小数場、または、オブジェクトの内側を0、外側を1で表したバイナリ場であり、
前記仮想視点データは、仮想視点から見たときのデプスマップである、
ことを特徴とする構成１乃至９のいずれか一項に記載の画像処理装置。

【0072】

［構成１６］
前記三次元場は、オブジェクト表面の法線方向の場であり、
前記仮想視点データは、仮想視点から見たときの法線マップである、
ことを特徴とする構成１乃至９のいずれか一項に記載の画像処理装置。

【0073】

［構成１７］
構成１乃至１６のいずれか一項に記載の画像処理装置によって学習された三次元場を用いて推論を行って前記仮想視点データを出力する推論手段を備えたことを特徴とする画像処理装置。

【0074】

［構成１８］
前記推論手段は、
前記学習された三次元場を保持する記憶手段と、
仮想視点のカメラパラメータに従って、前記記憶手段に保持された前記三次元場に基づき前記仮想視点データを生成する生成手段と、
を有することを特徴とする構成１７に記載の画像処理装置。

【0075】

［方法１］
複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データないし、三次元形状を得るための学習を行う画像処理方法であって、
前記複数の撮影画像を取得する取得ステップと、
前記取得ステップにて取得された前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す概略形状データを生成する生成ステップと、
前記生成手段にて生成された前記概略形状データに基づき、オブジェクト毎に学習領域を設定する設定ステップと、
前記設定ステップにてオブジェクト毎に設定された学習領域を対象として、前記撮影画像に応じた三次元場を学習する学習ステップと、
を含むことを特徴とする画像処理方法。

【0076】

［構成２０］
コンピュータを、構成１乃至１８のいずれか一項に記載の画像処理装置の各手段として機能させるためのプログラム。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10A】

【図10B】

【図10C】

【図10D】

【図11】

【図12】

【図13】

【図14A】

【図14B】

【図14C】

【図14D】

【手続補正書】

【提出日】2024-09-30

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データを得るための学習を行う画像処理装置であって、
前記複数の撮影画像を取得する取得手段と、
前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す三次元形状データを生成する生成手段と、
前記三次元形状データに基づいて、オブジェクト毎に学習領域を設定する設定手段と、
前記オブジェクト毎に設定された前記学習領域を対象として、前記複数の撮影画像を用いて学習する学習手段と、
を有することを特徴とする画像処理装置。

【請求項2】

前記学習手段は、
学習の結果、生成されたデータを保持する記憶手段と、
前記複数の撮影画像それぞれに対応するカメラパラメータと、前記記憶手段によって保持されている前記三次元場とに基づき、各撮影画像と同じ画角を持つ各撮影視点に対応した画像を描画する描画手段と、
前記描画手段によって得られた複数の描画画像と前記複数の撮影画像とに基づき、前記データを更新する更新手段と、
を有する、ことを特徴とする請求項１に記載の画像処理装置。

【請求項3】

前記更新手段は、前記設定手段によって前記オブジェクト毎に設定された学習領域のうち注目する学習領域を対象として、互いに対応関係にある撮影画像と描画画像との間で色差を求め、色差が小さくなるように前記データを更新する、ことを特徴とする請求項２に記載の画像処理装置。

【請求項4】

前記更新手段は、前記色差を両画像間で対応関係にある画素毎に求めて前記更新を行う、ことを特徴とする請求項３に記載の画像処理装置。

【請求項5】

前記更新手段は、前記三次元形状データを構成する要素に対して可視性がある前記撮影画像の画素とそれに対応する前記描画画像の画素とから前記色差を求めて前記更新を行う、ことを特徴とする請求項４に記載の画像処理装置。

【請求項6】

前記更新手段は、前記要素に対して可視性がある視点の撮影画像の画素値に基づき前記データの初期値を決定して前記更新を行う、ことを特徴とする請求項５に記載の画像処理装置。

【請求項7】

前記設定手段は、前記三次元形状データが表す前記オブジェクトの三次元形状に外接する立体を、前記学習領域として設定する、ことを特徴とする請求項１に記載の画像処理装置。

【請求項8】

前記三次元形状データは、複数の要素の集合によって前記オブジェクトの三次元形状を表すデータであり、
前記設定手段は、前記要素よりもサイズの大きい要素の集合によって表される三次元領域を、前記学習領域として設定する、ことを特徴とする請求項１に記載の画像処理装置。

【請求項9】

前記生成手段は、前記複数の撮影画像を用いた視体積交差法によって、前記オブジェクトの三次元形状を表す前記三次元形状データを生成する、ことを特徴とする請求項１に記載の画像処理装置。

【請求項10】

前記学習手段は、前記複数の撮像装置の撮影空間における各座標に対し体積密度と異方性の色とを対応付ける放射輝度場を学習し、
前記仮想視点データは、仮想視点からの見えを表す仮想視点画像である、
ことを特徴とする請求項１乃至９のいずれか一項に記載の画像処理装置。

【請求項11】

前記学習手段は、前記複数の撮像装置の撮影空間における各座標に対し体積密度と等方性の色とを対応付ける放射輝度場を生成し、
前記仮想視点データは、仮想視点からの見えを表す仮想視点画像である、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項12】

前記学習手段は、体積密度を表す不透明度の場を生成し、
前記仮想視点データは、仮想視点から見たときの不透明度を表すマップである、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項13】

前記学習手段は、双方向反射率分布関数の場を生成し、
前記仮想視点データは、仮想視点から見たときの双方向反射率分布関数を表すマップである、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項14】

前記学習手段は、環境光の入り込み量の場を生成し、
前記仮想視点データは、仮想視点から見たときの目に見える度合いを表すマップである、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項15】

前記学習手段は、オブジェクトの内側を負、外側を正で表した浮動小数場、または、オブジェクトの内側を0、外側を1で表したバイナリ場を生成し、
前記仮想視点データは、仮想視点から見たときのデプスマップである、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項16】

前記学習手段は、オブジェクト表面の法線方向の場を生成し、
前記仮想視点データは、仮想視点から見たときの法線マップである、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項17】

請求項１に記載の画像処理装置による学習によって生成されたデータを用いて推論を行って前記仮想視点データを出力する推論手段を有することを特徴とする画像処理装置。

【請求項18】

前記推論手段は、
前記データを保持する記憶手段と、
仮想視点のカメラパラメータに従って、前記記憶手段に保持された前記データに基づき前記仮想視点データを生成する生成手段と、
を有することを特徴とする請求項１７に記載の画像処理装置。

【請求項19】

複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データを得るための学習を行う画像処理方法であって、
前記複数の撮影画像を取得する取得ステップと、
前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す三次元形状データを生成する生成ステップと、
前記三次元形状データに基づいて、オブジェクト毎に学習領域を設定する設定ステップと、
前記オブジェクト毎に設定された前記学習領域を対象として、前記複数の撮影画像を用いて学習する学習ステップと、
を含むことを特徴とする画像処理方法。

【請求項20】

コンピュータに、請求項１９に記載の画像処理方法を実行させるためのプログラム。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】０００６

【補正方法】変更

【補正の内容】

【0006】

本開示に係る画像処理装置は、複数の撮像装置によって得られた複数の撮影画像から仮想視点に対応する仮想視点データを得るための学習を行う画像処理装置であって、前記複数の撮影画像を取得する取得手段と、前記複数の撮影画像に基づいてオブジェクトの三次元形状を表す三次元形状データを生成する生成手段と、前記三次元形状データに基づいて、オブジェクト毎に学習領域を設定する設定手段と、前記オブジェクト毎に設定された前記学習領域を対象として、前記複数の撮影画像を用いて学習する学習手段と、を有することを特徴とする。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版