(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024076466
(43)【公開日】2024-06-06
(54)【発明の名称】情報処理装置、情報処理方法、および記録媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20240530BHJP
G06T 19/00 20110101ALI20240530BHJP
G06V 10/77 20220101ALI20240530BHJP
【FI】
G06T7/00 350B
G06T19/00 600
G06V10/77
【審査請求】未請求
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2022187993
(22)【出願日】2022-11-25
(71)【出願人】
【識別番号】316005926
【氏名又は名称】ソニーセミコンダクタソリューションズ株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【氏名又は名称】稲本 義雄
(74)【代理人】
【識別番号】100168686
【弁理士】
【氏名又は名称】三浦 勇介
(72)【発明者】
【氏名】加野 靖紀
(72)【発明者】
【氏名】野村 宜邦
(72)【発明者】
【氏名】中村 成希
【テーマコード(参考)】
5B050
5L096
【Fターム(参考)】
5B050BA08
5B050BA09
5B050BA13
5B050CA07
5B050DA04
5B050DA10
5B050EA07
5B050EA18
5B050EA19
5B050EA27
5B050EA28
5B050FA02
5B050FA09
5B050GA04
5B050GA08
5L096DA02
5L096FA02
5L096FA66
5L096FA67
5L096FA69
5L096GA40
5L096JA11
5L096KA04
5L096KA15
(57)【要約】
【課題】撮影環境に関する物理特性を高精度に推定する。
【解決手段】本技術の情報処理装置は、撮影画像を入力とし、撮影画像の撮影環境に関する物理特性を示す高次元のパラメータがパラメータよりも低次元に圧縮された潜在変数を出力とする学習モデルを用いて、撮影環境に関する潜在変数を推定する推定部と、推定部により推定された潜在変数からパラメータを復元する復元部とを備える。本技術は、例えば、撮影画像とCG画像を合成する情報処理装置に適用することができる。
【選択図】
図6
【特許請求の範囲】
【請求項1】
撮影画像を入力とし、前記撮影画像の撮影環境に関する物理特性を示す高次元のパラメータが前記パラメータよりも低次元に圧縮された潜在変数を出力とする学習モデルを用いて、前記撮影環境に関する前記潜在変数を推定する推定部と、
前記推定部により推定された前記潜在変数から前記パラメータを復元する復元部と
を備える情報処理装置。
【請求項2】
前記復元部により復元された前記パラメータを用いて、前記撮影画像とCG画像を合成する合成部をさらに備える
請求項1に記載の情報処理装置。
【請求項3】
前記潜在変数は、前記物理特性に対する主成分分析により取得される所定の数の主成分を合成するための係数を含み、
前記復元部は、それぞれ対応する前記係数を前記主成分に乗算して合成することで前記パラメータを復元する
請求項1に記載の情報処理装置。
【請求項4】
前記パラメータは、幾何的な変換により前記潜在変数に圧縮される
請求項1に記載の情報処理装置。
【請求項5】
前記物理特性は、前記撮影画像に写る被写体の表面の分光反射特性を含む
請求項3に記載の情報処理装置。
【請求項6】
前記潜在変数は、前記被写体の色ごとの前記分光反射特性に対する前記主成分分析により取得される前記主成分を合成するための前記係数を含む
請求項5に記載の情報処理装置。
【請求項7】
前記物理特性は、前記撮影画像に写る被写体の反射率分布特性を含む
請求項3に記載の情報処理装置。
【請求項8】
前記潜在変数は、前記被写体ごとの前記反射率分布特性に対する前記主成分分析により取得される前記主成分を合成するための前記係数と、前記反射率分布特性から反射率を抽出するための、前記被写体に対する光の入射方向および反射方向を示す情報とを含む
請求項7に記載の情報処理装置。
【請求項9】
前記物理特性は、前記撮影画像に写る被写体の表面の形状を含む
請求項3に記載の情報処理装置。
【請求項10】
前記潜在変数は、前記撮影画像が分割されたユニットごとの、前記被写体の表面の形状を示す座標に対する前記主成分分析により取得される前記主成分と、前記主成分を合成するための前記係数とを含む
請求項9に記載の情報処理装置。
【請求項11】
前記物理特性は、前記撮影環境における光源の分光放射特性を含む
請求項3に記載の情報処理装置。
【請求項12】
前記潜在変数は、前記光源の色温度を含む
請求項11に記載の情報処理装置。
【請求項13】
前記推定部は、前記撮影画像が撮影されたシーンの認識を行い、前記シーンの認識結果を前記学習モデルに入力して、前記潜在変数を推定する
請求項1に記載の情報処理装置。
【請求項14】
前記推定部は、前記撮影画像に対するセグメンテーションを行い、前記セグメンテーションの結果を前記学習モデルに入力して、前記潜在変数を推定する
請求項1に記載の情報処理装置。
【請求項15】
前記推定部は、前記復元部により第1の前記潜在変数から復元された第1の前記パラメータを前記学習モデルに入力して、第2の前記パラメータが圧縮された第2の前記潜在変数を推定し、
前記復元部は、前記推定部により推定された第2の前記潜在変数から第2の前記パラメータを復元する
請求項1に記載の情報処理装置。
【請求項16】
第2の前記パラメータは、第1の前記パラメータと異なる前記物理特性を示す
請求項15に記載の情報処理装置。
【請求項17】
第2の前記パラメータは、第1の前記パラメータと同じ前記物理特性を、第1の前記パラメータよりも精緻に示す
請求項15に記載の情報処理装置。
【請求項18】
情報処理装置が、
撮影画像を入力とし、前記撮影画像の撮影環境に関する物理特性を示す高次元のパラメータが前記パラメータよりも低次元に圧縮された潜在変数を出力とする学習モデルを用いて、前記撮影環境に関する前記潜在変数を推定し、
推定された前記潜在変数から前記パラメータを復元する
情報処理方法。
【請求項19】
撮影画像を入力とし、前記撮影画像の撮影環境に関する物理特性を示す高次元のパラメータが前記パラメータよりも低次元に圧縮された潜在変数を出力とする学習モデルを用いて、前記撮影環境に関する前記潜在変数を推定し、
推定された前記潜在変数から前記パラメータを復元する
処理を実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、情報処理装置、情報処理方法、および記録媒体に関し、特に、撮影環境に関する物理特性を高精度に推定することができるようにした情報処理装置、情報処理方法、および記録媒体に関する。
【背景技術】
【0002】
近年、AI(Artificial Intelligence)の学習などの用途を目的として、大量の画像を用意することが必要とされている。AIの精度は、学習において用いられた画像の質や量に依存するため、学習に用いられる画像として、リアリティがあり、豊富なバリエーションの画像が求められる。
【0003】
実際の風景などを撮影して取得された撮影画像から学習用の画像を大量に収集するのは手間がかかる。また、学習用の画像として、CG(Computer Graphics)を用いてリアリティのある画像を大量に生成するのは手間と時間がかかる。これらの手法では、学習用の画像を収集するのに手間がかかるため、撮影画像と、CGを用いて生成された画像であるCG画像とを合成することで、大量の画像を簡便に生成する手法が提案されている(例えば非特許文献1を参照)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Zhengqin Li, Mohammad Shafiei, Ravi Ramamoorthi, Kalyan Sunkavalli, Manmohan Chandraker, “Inverse Rendering for Complex Indoor Scenes: Shape, Spatially-Varying Lighting and SVBRDF from a Single Image”, CVPR 2020
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1に記載の手法では、自然な見えになるように撮影画像とCG画像を合成する必要がある。自然な見えになるように撮影画像とCG画像を合成するには、撮影画像の撮影環境に関する物理特性が必要になる。撮影環境に関する物理特性が未知である場合、撮影画像に基づいて当該物理特性を推定する必要がある。非特許文献1に記載の手法においては、機械学習を用いることで当該物理特性が推定される。
【0006】
撮影環境に関する物理特性は無数のパラメータで表現されるのに対して、機械学習を用いて推定できるパラメータの数は限られている。したがって、非特許文献1に記載の手法では、撮影環境に関する物理特性を高精度に推定することができず、自然な見えになるように撮影画像とCG画像を合成することが困難であった。
【0007】
本技術はこのような状況に鑑みてなされたものであり、撮影環境に関する物理特性を高精度に推定することができるようにするものである。
【課題を解決するための手段】
【0008】
本技術の一側面の情報処理装置は、撮影画像を入力とし、前記撮影画像の撮影環境に関する物理特性を示す高次元のパラメータが前記パラメータよりも低次元に圧縮された潜在変数を出力とする学習モデルを用いて、前記撮影環境に関する前記潜在変数を推定する推定部と、前記推定部により推定された前記潜在変数から前記パラメータを復元する復元部とを備える。
【0009】
本技術の一側面の情報処理方法は、情報処理装置が、撮影画像を入力とし、前記撮影画像の撮影環境に関する物理特性を示す高次元のパラメータが前記パラメータよりも低次元に圧縮された潜在変数を出力とする学習モデルを用いて、前記撮影環境に関する前記潜在変数を推定し、前記推定部により推定された前記潜在変数から前記パラメータを復元する。
【0010】
本技術の一側面の記録媒体は、撮影画像を入力とし、前記撮影画像の撮影環境に関する物理特性を示す高次元のパラメータが前記パラメータよりも低次元に圧縮された潜在変数を出力とする学習モデルを用いて、前記撮影環境に関する前記潜在変数を推定し、推定された前記潜在変数から前記パラメータを復元する処理を実行させるためのプログラムを記録する。
【0011】
本技術の一側面においては、撮影画像を入力とし、前記撮影画像の撮影環境に関する物理特性を示す高次元のパラメータが前記パラメータよりも低次元に圧縮された潜在変数を出力とする学習モデルを用いて、前記撮影環境に関する前記潜在変数が推定され、前記推定部により推定された前記潜在変数から前記パラメータが復元される。
【図面の簡単な説明】
【0012】
【
図1】本技術の一実施形態に係る情報処理装置の構成例を示すブロック図である。
【
図2】撮影画像とCG画像の合成例を示す図である。
【
図3】潜在変数を推定する学習モデルの学習に用いられる学習データの例を示す図である。
【
図5】31波長についての高次元パラメータをN個の潜在変数に圧縮する手法について説明する図である。
【
図6】N個の潜在変数から分光反射特性を復元する流れを示す図である。
【
図7】光の入射方向と反射方向の表現方法の例を示す図である。
【
図9】物体の反射特性がモデル化された2変数BRDFモデルを利用した主成分分析を用いて、324の高次元パラメータを(N+2)個の潜在変数にさらに圧縮する手法について説明する図である。
【
図10】(N+2)個の潜在変数から2次元マップを復元する流れを示す図である。
【
図11】主成分分析を用いて、6220800の高次元パラメータを潜在変数に圧縮する手法について説明する図である。
【
図12】主成分分析を用いて、6220800の高次元パラメータを潜在変数に圧縮する手法について説明する図である。
【
図13】(5328×N)個の潜在変数から3600ユニットを復元する流れを示す図である。
【
図14】物理特性を推定する従来の手法の流れを示す図である。
【
図15】撮影環境に関する物理特性を推定する学習モデルの学習に用いられる学習データの例を示す図である。
【
図16】従来手法における撮影画像とCG画像の合成例を示す図である。
【
図17】情報処理装置が行う処理について説明するフローチャートである。
【
図18】シーン認識を行う場合の高次元パラメータを推定する手法の流れを示す図である。
【
図19】潜在変数の推定を段階的に行う場合の高次元パラメータを推定する手法の流れを示す図である。
【
図20】コンピュータのハードウェアの構成例を示すブロック図である。
【発明を実施するための形態】
【0013】
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.情報処理装置の構成
2.高次元パラメータの圧縮手法の例
3.情報処理装置の動作
4.変形例
【0014】
<1.情報処理装置の構成>
図1は、本技術の一実施形態に係る情報処理装置1の構成例を示すブロック図である。
【0015】
図1の情報処理装置1は、実際の風景などを撮影して取得された撮影画像の撮影環境に関する物理特性を推定し、撮影画像と、CGを用いて生成されたCG画像とを、当該物理特性の推定結果に基づいて合成する装置である。
【0016】
図1に示すように、情報処理装置1は、潜在変数推定部11、復元部12、および合成部13により構成される。
【0017】
潜在変数推定部11は、撮影画像に基づいて、撮影画像の撮影環境に関する物理特性の圧縮表現である潜在変数を撮影画像の画素ごとに推定する。撮影環境(実世界)に関する物理特性は、例えば、被写体の表面の形状、被写体の表面の分光反射特性、被写体の表面の反射率分布特性、および光源の分光放射特性を含み、高次元のパラメータ(以下では、高次元パラメータと称する)で表現される。潜在変数は、撮影環境に関する物理特性を示す高次元パラメータを復元可能な、高次元パラメータよりも低次元に圧縮されたパラメータである。
【0018】
具体的には、潜在変数推定部11は、撮影画像を入力とし、潜在変数を出力とする学習モデルを用いて、複数の種類の物理特性それぞれに関する潜在変数を推定する。潜在変数推定部11は、推定した潜在変数を復元部12に供給する。
【0019】
復元部12は、潜在変数推定部11から供給された潜在変数から高次元パラメータ(物理特性推定結果)を復元し、高次元パラメータを合成部13に供給する。
【0020】
合成部13は、復元部12から供給された高次元パラメータを用いて、撮影画像と、CGデータが加工されたCG画像とを合成し、合成画像を生成する。CGデータは、例えば、撮影画像の撮影環境に仮想的に配置される物体の3次元モデルのデータである。なお、合成部13は、高次元パラメータに基づいて撮影画像を再現し、再現した撮影画像とCG画像を合成することも可能である。
【0021】
図2は、撮影画像とCG画像の合成例を示す図である。
【0022】
図2の例では、部屋の一部が撮影された撮影画像P1と、ウサギのCGデータが加工されたCG画像P2が合成され、撮影画像P1に写る部屋の床にウサギが配置されているような合成画像P3が生成される。
【0023】
本技術の情報処理装置1では、撮影画像P1の撮影環境における被写体や光源の物理特性が、高次元パラメータで表現される。合成部13は、高次元パラメータに基づく精緻な計算式を用いて、撮影画像P1と合成した際にCGデータのウサギが自然な見えになるように、撮影画像P1やCGデータを加工することができる。
【0024】
例えば、光源の向きに応じたウサギの影が撮影画像P1の一部に追加されたり、光源の色温度に応じた色にウサギの色が変更されたりする。
【0025】
図3は、潜在変数を推定する学習モデルの学習に用いられる学習データの例を示す図である。
【0026】
潜在変数推定部11において潜在変数を推定するのに用いられる学習モデルの学習は、例えば、学習の生徒となる生徒データと、学習の教師(期待値)となる教師データとを用いて行われる。
【0027】
生徒データとしては、
図3に示すように、例えばCGを用いて生成されたRGB画像が用いられる。
【0028】
また、教師データとしては、例えば、RGB画像に写る被写体の表面の分光反射特性や反射率分布特性を示す高次元パラメータが圧縮された潜在変数、RGB画像に写る被写体の3次元空間上の座標を示す高次元パラメータが圧縮された潜在変数、および、RGB画像における光源の分光放射特性を示す高次元パラメータが圧縮された潜在変数が用いられる。
【0029】
生徒データとしてのRGB画像がCGで生成されるため、RGB画像の撮影環境における被写体や光源の物理特性を、RGB画像とともに教師データとして容易に取得することができる。
【0030】
<2.高次元パラメータの圧縮手法の例>
以下では、撮影環境に関する物理特性を示す高次元パラメータを低次元の潜在変数に圧縮して表現する手法について説明する。
【0031】
・分光反射特性について
図4は、分光反射特性の例を示す図である。
図4において、横軸は、物体の表面に照射される照射光の波長を示し、縦軸は分光反射率(反射光の強度)を示す。
【0032】
撮影環境に存在する物体(被写体)は、
図4に示すように、物体の表面から反射される反射光の強度が照射光の波長によって異なるという分光反射特性を有する。分光反射特性は例えば物体の表面の色ごとに異なる。
【0033】
一般的に、分光反射特性は、RGBそれぞれについての3つのパラメータで表現されることが多いが、分光反射特性を正確に表現するためには、400nmから700nmまでの範囲を10nm間隔でサンプリングした波長それぞれについての31のパラメータが必要となる。
【0034】
以下では、主成分分析を用いて、31波長についての高次元パラメータをN個の潜在変数に圧縮する手法について、
図5を参照して説明する。
【0035】
物体の表面の色は、例えば、世界的な標準となるマンセル色票における1569色の有彩色で表現される。したがって、分光反射特性の種類も1569種類となる。
【0036】
はじめに、1569種類の分光反射特性に対する主成分分析を行うことで、
図5の矢印#1で示すように、1569個の主成分が取得される。各主成分は、31波長についての高次元パラメータで表現される。
【0037】
また、1569種類の分光反射特性に対する主成分分析を行うことで、
図5の矢印#2で示すように、1569個の各主成分にそれぞれ乗算すると、ある色の高次元パラメータを復元することができる1569個の係数が取得される。1569個の係数により構成される係数群は、色ごとに1569種類取得される。
【0038】
次に、
図5の矢印#3で示すように、1569個の主成分の中から、寄与率が大きいN個の主成分が抽出される。また、
図5の矢印#4で示すように、1569個の係数の中から、N個の主成分にそれぞれ乗算されるN個の係数が抽出される。
【0039】
N個の主成分に、それぞれ対応する係数を乗算し、合成することで、ある色の高次元パラメータに近しいパラメータを復元することができる。それぞれがN個の係数により構成される1569種類の係数群は、1569種類の分光反射特性それぞれを再現するための合成係数と言える。本技術では、N個の係数が、31波長についての高次元パラメータが圧縮された潜在変数とされる。以上のようにして、31波長についての高次元パラメータをN個の潜在変数に置き換えることができる。
【0040】
図6は、N個の潜在変数から分光反射特性を復元する流れを示す図である。
【0041】
はじめに、潜在変数推定部11の学習モデルは、1569種類の潜在変数群のうちの、撮影画像の各画素に写る物体の色に応じた潜在変数群(N個の係数)を出力する。次に、復元部12は、
図6に示すように、学習モデルから出力されたN個の潜在変数を用いて、主成分分析で抽出済みのN個の主成分を合成する計算を行うことで、物体の表面の分光反射特性を示す31の高次元パラメータを取得することができる。
【0042】
学習モデルを用いて、RGBそれぞれについてのパラメータを直接推定する場合、分光反射特性の推定結果として取得されるパラメータの数は3個となる。一方、本技術においてN=3とした場合、学習モデルから出力される潜在変数の数は3個であるが、分光反射特性の推定結果として取得されるパラメータの数は31個となる。したがって、本技術の情報処理装置1は、RGBそれぞれについてのパラメータを学習モデルを用いて直接推定する場合と比較して、分光反射特性が精緻に表現されたパラメータを用いて撮影画像とCG画像を合成することが可能となる。
【0043】
なお、反射率分布特性の推定精度を確保するため、潜在変数の数Nとして、例えばあらかじめ3または4の値が設定されることが考えらえる。
【0044】
・反射率分布特性について
撮影環境に存在する物体は、物体の表面から反射される反射光の強度が光の入射方向と反射方向によって異なるという反射率分布特性を有する。反射率分布特性は例えば物体ごとに異なる。
【0045】
光の入射方向と反射方向のそれぞれは、例えば、0°から360°までの範囲を10°間隔でサンプリングした方位角と、0°から90°までの範囲を10°間隔でサンプリングした天頂角とで表現される。反射率分布特性を正確に表現するためには、光の入射方向と反射方向の組み合わせごとに104976のパラメータが必要となる。
【0046】
図7は、光の入射方向と反射方向の表現方法の例を示す図である。
図7において、ベクトルnが物体の表面に対する法線ベクトルであり、ベクトルtが接ベクトルである。また、ベクトルlが光の入射方向を示すベクトルであり、ベクトルvが光の反射方向(カメラの視点方向)を示すベクトルである。
【0047】
図7のAの例では、ベクトルlが方位角φ
lと天頂角θ
lで表現され、ベクトルvが方位角φ
vと天頂角θ
vで表現される。
【0048】
図7のBの例では、方位角に関する等方性を仮定した上で、ベクトルlとベクトルvから等距離のベクトルhの天頂角φ
h、および、ベクトルhを回転軸としてベクトルlからベクトルvまでの回転角φ
dで、ベクトルvとベクトルlが表現される。この表現方法では、光の入射方向と反射方向を2次元で表現することができる。したがって、反射率分布特性を表現するためには、0°から90°までの範囲を10°間隔でサンプリングした天頂角φ
hと0°から90°までの範囲を10°間隔でサンプリングした回転角φ
dの組み合わせごとに324のパラメータが必要となる。
【0049】
このように、光の入射方向と反射方向の表現方法を変える幾何的な変換によって、例えば反射率分布特性を表現するために必要なパラメータの数を104976から324に圧縮することが可能となる。
【0050】
以下では、物体の反射特性がモデル化された2変数BRDF(Bidirectional Reflectance Distribution Function)モデルを利用した主成分分析を用いて、324の高次元パラメータを(N+2)個の潜在変数にさらに圧縮する手法について、
図8と
図9を参照して説明する。
【0051】
本技術では、ある物体の反射率分布特性が、例えば、天頂角φhと回転角φdの組み合わせごとに算出されたBRDFを示す2次元マップの形式で表現される。
【0052】
図8のAには、角度依存性が大きい反射率分布特性の2次元マップが示され、
図8のBには、角度依存性がない反射率分布特性の2次元マップが示されている。
図8の2次元マップでは、色の濃淡でBRDFの大きさが表現される。
図8のAの2次元マップでは、天頂角φ
hと回転角φ
dの組み合わせによってBRDFが異なり、
図8のBの2次元マップでは、天頂角φ
hと回転角φ
dの組み合わせによらず、BRDFが一定となる。
【0053】
なお、光の入射方向を示す方位角φlと天頂角θl、および、光の反射方向を示す方位角φvと天頂角θvの組み合わせに応じたBRDFを示す2次元マップの形式で、反射率分布特性が表現されるようにしてもよい。
【0054】
以上のような2次元マップ(324の高次元パラメータ)を(N+2)個の潜在変数に圧縮する際、例えば1000種類の物体それぞれの反射率分布特性を示す1000種類の2次元マップが用意される。
【0055】
はじめに、1000種類の2次元マップに対する主成分分析を行うことで、
図9の矢印#21で示すように、1000個の主成分が取得される。また、1000種類の2次元マップに対する主成分分析を行うことで、
図9の矢印#22で示すように、1000個の各主成分にそれぞれ乗算すると、ある物体の2次元マップを復元することができる1000個の係数が取得される。1000個の係数により構成される係数群は、物体の種類ごとに1000種類取得される。
【0056】
次に、
図9の矢印#23で示すように、1000個の主成分の中から、寄与率が大きいN個の主成分が抽出される。また、
図9の矢印#24で示すように、1000個の係数の中から、N個の主成分にそれぞれ乗算されるN個の係数が抽出される。
【0057】
N個の主成分に、それぞれ対応する係数を乗算し、合成することで、ある物体の2次元マップに近しい2次元マップを復元することができる。したがって、N個の係数により構成される1000種類の係数群は、1000種類の2次元マップそれぞれを再現するための合成係数と言える。本技術では、N個の係数が、324の高次元パラメータが圧縮された潜在変数とされる。また、2次元マップからBRDFを抽出するために必要となる天頂角φhと回転角φdも潜在変数とされる。以上のようにして、324の高次元パラメータを(N+2)個の潜在変数に置き換えることができる。
【0058】
図10は、(N+2)個の潜在変数から2次元マップを復元する流れを示す図である。
【0059】
はじめに、潜在変数推定部11の学習モデルは、1000種類の潜在変数群のうちの、撮影画像の各画素に写る物体に応じた潜在変数群(N個の係数)を出力する。また、潜在変数推定部11の学習モデルは、撮影画像の各画素に写る物体に対する光の入射方向と反射方向を推定し、推定結果としての天頂角φhと回転角φdを出力する。
【0060】
次に、復元部12は、
図10の矢印#31の先に示すように、学習モデルから出力されたN個の係数を用いて、主成分分析で抽出済みのN個の主成分を合成する計算を行うことで、324の高次元パラメータで示される2次元マップを取得することができる。
【0061】
次に、復元部12は、
図10の矢印#32の先に示すように、学習モデルから出力された天頂角φ
hと回転角φ
dを用いて、2次元マップからBRDF(反射率)を抽出することができる。
【0062】
例えばN=2である場合、本技術の情報処理装置1は、4個の潜在変数を推定するだけで、従来ではパラメータの数が膨大で推定できなかった物体の表面の反射率分布特性と、主光線の入射方向と反射方向に応じた反射率とを推定することが可能となる。
【0063】
なお、反射率分布特性の推定精度を確保するため、天頂角φhと回転角φdを除く潜在変数の数Nとして、例えばあらかじめ100の値が設定されることが考えらえる。
【0064】
・3次元空間上の座標について
撮影環境に存在する物体の形状は、例えば、物体の表面の3次元空間上の座標(X,Y,Z)で表現される。2次元のRGB画像(撮影画像)の各画素に写る物体の表面の3次元空間上の座標をRGB画像に基づいて推定することは簡単ではない。例えば、RGB画像の画像サイズが1920×1080である場合、画素ごとに写る物体の表面の3次元空間上の座標を推定すると、推定されるパラメータの数は、1920×1080×3=6220800個となる。
【0065】
以下では、主成分分析を用いて、6220800の高次元パラメータを潜在変数に圧縮する手法について、
図11と
図12を参照して説明する。
【0066】
はじめに、
図11に示すように、1920×1080の各画素に写る物体の表面の3次元空間上の座標が、(32×18)画素×3座標を1ユニットとするように分割され、3600ユニットが生成される。分割後の高次元パラメータの数は、(32×18×3×3600)個である。
【0067】
次に、3600ユニットに対する主成分分析を行うことで、
図12の矢印#31で示すように、3600個の主成分が取得される。また、3600ユニットに対する主成分分析を行うことで、
図12の矢印#32で示すように、3600個の各主成分にそれぞれ乗算すると、あるユニットを復元することができる3600個の係数が取得される。3600個の係数により構成される係数群は、復元されるユニットごとに3600種類取得される。
【0068】
次に、
図12の矢印#33で示すように、3600個の主成分の中から、寄与率が大きいN個の主成分が抽出される。また、
図12の矢印#34で示すように、3600個の係数の中から、N個の主成分にそれぞれ乗算されるN個の係数が抽出される。
【0069】
N個の主成分に、それぞれ対応する係数を乗算し、合成することで、あるユニットに近しいユニットを復元することができる。したがって、N個の係数により構成される係数群は、3600種類のユニットそれぞれを再現するための合成係数と言える。1920×1080の各画素に写る物体の表面の3次元空間上の座標に近しい座標を復元するためには、3600ユニット全てを復元する必要があるため、3600×Nの合成係数が必要となる。
【0070】
本技術では、(3600×N)個の係数が、6220800の高次元パラメータが圧縮された潜在変数とされる。N個の主成分はRGB画像ごとに異なるため、N個の主成分も潜在変数とされる。N個の主成分は、それぞれ(32×18×3)個のパラメータ(座標)により構成される。
【0071】
したがって、潜在変数としてのパラメータの数は、N×(3600+1728)=(5328×N)個となる。例えばN=100である場合、6220800の高次元パラメータを532800個の潜在変数に置き換えることができ、パラメータ数を8.5%まで削減することが可能となる。
【0072】
図13は、(5328×N)個の潜在変数から3600ユニットを復元する流れを示す図である。
【0073】
はじめに、潜在変数推定部11の学習モデルは、撮影画像に基づいて、N個の主成分と、それぞれがN個の係数により構成される3600種類の係数群を推定し、出力する。
【0074】
次に、復元部12は、
図13に示すように、学習モデルから出力されたN個の係数を用いてN個の主成分を合成する計算を3600種類分だけ行うことで、それぞれが32×18×3のパラメータにより構成される3600ユニットを取得することができる。
【0075】
なお、物体の表面の3次元空間上の座標の推定精度を確保するため、潜在変数の数に関する数Nとして、例えばあらかじめ100の値が設定されることが考えらえる。
【0076】
・分光放射特性について
撮影環境における光源は、波長によって照射する光の強度が異なるという分光放射特性を有する。分光放射特性は例えば光源ごとに異なる。
【0077】
分光放射特性を正確に表現するためには、400nmから700nmまでの範囲を10nm間隔でサンプリングした波長それぞれについての31のパラメータが必要となる。以下では、主成分分析を用いて、31波長についての高次元パラメータを1個の潜在変数に圧縮する手法について説明する。
【0078】
例えば屋外での撮影では太陽が光源となる。太陽光の分光放射特性は、例えば、世界的な標準となるCIE(国際照明委員会)で定められた標準の光で表現される。標準の光は、緯度や、経度、時間が異なる状況で測定された太陽光の分光放射特性のデータベースを主成分分析することで取得される。主成分分析を行うことで取得された主成分のうちの寄与率が大きい2個の主成分に、それぞれ対応する係数を乗算し、合成することで、ある状況で測定された太陽光の分光放射特性に近しい特性を復元することができる。
【0079】
2個の主成分に乗算される2個の係数は、例えば色温度を示す1個のパラメータに基づいて取得される。したがって、色温度を示す1個のパラメータから太陽光の分光反射特性を復元することができる。本技術では、色温度を示す1個のパラメータが、31波長についての高次元パラメータが圧縮された潜在変数とされる。
【0080】
分光放射特性を推定する際、はじめに、潜在変数推定部11の学習モデルは、撮影画像に基づいて、撮影画像の撮影環境における光源の色温度を推定して出力する。
【0081】
次に、復元部12は、学習モデルから出力された色温度を2個の係数に変換する。次に、復元部12は、2個の係数を用いて、主成分分析で抽出済みの2個の主成分を合成する計算を行うことで、光源の分光放射特性を示す31の高次元パラメータを取得することができる。
【0082】
・物理特性を推定する従来の手法について
図14は、物理特性を推定する従来の手法の流れを示す図である。
【0083】
従来の手法では、はじめに、
図14の#101で示すように、撮影画像に基づいて、撮影画像の撮影環境に関する物理特性の推定が行われる。撮影環境に関する物理特性として、例えば、撮影画像に写る物体の形状(カメラとの距離、反射面の法線)、当該物体に対する光源の影響(光源の方向、色味、影響度)、および当該物体の反射情報(表面の色味、凹凸)が推定される。
【0084】
撮影環境に関する物理特性は、例えば、撮影画像を入力とし、撮影環境に関する複数の物理特性を出力とする学習モデルを用いて推定される。
【0085】
次に、
図14の#102で示すように、物理特性の推定結果を用いて、撮影画像と、CGデータが加工されたCG画像とが合成され、合成画像が生成される。
【0086】
図15は、撮影環境に関する物理特性を推定する学習モデルの学習に用いられる学習データの例を示す図である。
【0087】
図14の#101において撮影環境に関する物理特性を推定するのに用いられる学習モデルの学習は、例えば、学習の生徒となる生徒データと、学習の教師(期待値)となる教師データとを用いて行われる。
【0088】
生徒データとしては、
図15に示すように、例えばCGを用いて生成されたRGB画像が用いられる。
【0089】
また、教師データとしては、
図15に示すように、例えば、RGB画像に写る被写体の表面の色味、反射面の法線、表面の凸凹、カメラとの距離、および光源の影響が用いられる。
【0090】
以上のように、従来手法では、以上のような学習データを用いた機械学習を行って取得された学習モデルにより、撮影画像の撮影環境に関する物理特性が直接推定される。
【0091】
しかしながら、CGを用いて学習データを取得する場合、撮影環境に関する物理特性に相当するCGのパラメータは無数に存在し、それぞれが関連してRGB画像に影響を与えているため、各物理特性を個別に学習することは困難である。そのため、学習する物理特性が、物体の形状、光源の影響、反射特性などに限定されている。
【0092】
限定された種類の物理特性を推定するだけでは、実世界の撮影環境における被写体や光源の物理特性(分光反射特性や反射率分布特性など)を正しく推定できることにはならない。
【0093】
一方、現実の風景を撮影することで学習の生徒データを取得する場合、学習モデルによる物理特性の推定精度を高くするためには、被写体や光源の物理特性を十分な精度でサンプリングした計測データを教師データとすることが望ましい。しかしながら、学習データとして大量のデータが必要となるため、大量の計測データを準備するのは手間がかかる。
【0094】
したがって、従来手法では、学習モデルを用いて撮影画像の撮影環境に関する物理特性を精度よく推定できないことがある。
【0095】
図16は、従来手法における撮影画像とCG画像の合成例を示す図である。
【0096】
図16の例では、部屋の一部が撮影された撮影画像P11と、ウサギのCGデータが加工されたCG画像P12が合成され、撮影画像P11に写る部屋の床にウサギが配置されているような合成画像P13が生成される。
【0097】
撮影画像の撮影環境に関する物理特性を精度よく推定できない場合、撮影画像P11やCGデータを精緻に加工することができず、自然な見えの合成画像P13を取得できないことがある。
【0098】
図16において、合成画像P13においてウサギが灰色で示されていることは、ウサギが不自然に見えることを示す。
【0099】
本技術では、撮影画像を入力とし、撮影画像の撮影環境に関する物理特性を示す高次元パラメータが、当該高次元パラメータよりも低次元に圧縮された潜在変数を出力とする学習モデルを用いて、撮影環境に関する潜在変数が推定され、潜在変数が高次元パラメータに復元される。
【0100】
撮影画像に基づいて、撮影環境に関する物理特性を精度よく表現する高次元パラメータが取得できるため、情報処理装置1は、撮影画像とCG画像を精緻に加工して合成することが可能となる。
【0101】
<3.情報処理装置の動作>
図17のフローチャートを参照して、以上のような構成を有する情報処理装置1が行う処理について説明する。
【0102】
ステップS1において、潜在変数推定部11は、撮影画像を入力とし、潜在変数を出力とする学習モデルを用いて、撮影画像の撮影環境に関する潜在変数を推定する。
【0103】
ステップS2において、復元部12は、ステップS1において推定された潜在変数から高次元パラメータを復元する。
【0104】
ステップS3において、合成部13は、高次元パラメータを用いて、撮影画像とCG画像を合成し、合成画像を生成する。
【0105】
以上の処理により、撮影画像の撮影環境における被写体や光源の物理特性を精度よく表現する高次元パラメータを推定することが可能となる。また、合成部13は、高次元パラメータに基づく精緻な計算式を用いて、自然な見えになるように撮影画像とCG画像を合成することが可能となる。
【0106】
<4.変形例>
・シーン認識やセグメンテーションを行う例
シーン認識やセグメンテーションを行うことで、高次元パラメータの精度を向上させるようにしてもよい。
【0107】
図18は、シーン認識を行う場合の高次元パラメータを推定する手法の流れを示す図である。
【0108】
はじめに、
図18の#151で示すように、撮影画像に基づいて、撮影画像が撮影されたシーン(状況)の認識が行われる。例えば、撮影画像が屋外で撮影されたか、屋内で撮影されたかが認識される。シーンの認識は、例えば情報処理装置1の潜在変数推定部11(
図1)により行われる。
【0109】
次に、
図18の#152で示すように、撮影画像とシーンの認識結果とに基づいて、撮影画像の撮影環境に関する潜在変数の推定が行われる。具体的には、撮影画像とシーンの認識結果が学習モデルに入力され、学習モデルから潜在変数が出力される。シーンの認識結果に基づいて潜在変数の推定が行われる場合、潜在変数推定部11の学習モデルの学習時には、RGB画像とともに、RGB画像が撮影されたシーンを示す情報が生徒データとして用いられる。
【0110】
次に、
図18の#153で示すように、シーンの認識結果に基づいて、潜在変数から高次元パラメータが復元される。例えば、潜在変数として光源の色温度が推定された場合、復元部12は、撮影画像が屋外で撮影されたか、屋内で撮影されたかのいずれかに応じて、太陽光、ハロゲンランプ、LEDランプなどといった光源の種類を切り替えて高次元パラメータを復元することができる。光源の種類を切り替えることによって、撮影画像とCG画像の合成に用いられる高次元パラメータの推定精度を向上させることが可能となる。
【0111】
次に、
図18の#154で示すように、潜在変数から復元された高次元パラメータを用いて、撮影画像と、CGデータが加工されたCG画像とが合成され、合成画像が生成される。
【0112】
なお、シーン認識の代わりに、撮影画像に対するセグメンテーションが行われるようにしてもよい。具体的には、撮影画像とセグメンテーションの結果が学習モデルに入力され、学習モデルから潜在変数が出力される。セグメンテーションの結果に基づいて潜在変数の推定が行われる場合、潜在変数推定部11の学習モデルの学習時には、RGB画像とともに、RGB画像に対するセグメンテーションの結果が生徒データとして用いられる。
【0113】
撮影画像のセグメンテーションによって、撮影画像に写る物体の境界が明確になる。物体境界において、物体の表面の3次元空間上の座標や、反射率分布特性が急激に変化する可能性が高いため、撮影画像の各画素が物体境界に対応するか否かに応じて潜在変数を推定することで、潜在変数から復元される高次元パラメータの精度を向上させることが可能となる。
【0114】
・潜在変数の推定を段階的に行う例
潜在変数の推定を段階的に行うことで、高次元パラメータの精度を向上させるようにしてもよい。
【0115】
図19は、潜在変数の推定を段階的に行う場合の高次元パラメータを推定する手法の流れを示す図である。
【0116】
はじめに、
図19の#201で示すように、撮影画像に基づいて、撮影画像の撮影環境に関する第1の潜在変数の推定が行われ、#202で示すように、第1の潜在変数から第1の高次元パラメータが復元される。
【0117】
次に、
図19の#203で示すように、撮影画像と、#202で復元された第1の高次元パラメータとに基づいて、撮影画像の撮影環境に関する第2の潜在変数の推定が行われ、#202で示すように、第2の潜在変数から第2の高次元パラメータが復元される。
【0118】
例えば、第2の高次元パラメータは、第1の高次元パラメータと異なる物理特性を示すパラメータである。例えば、撮影画像に写る物体の形状を示す第1の高次元パラメータを推定した後に、当該物体の形状に基づいて、当該物体の表面の反射特性を示す第2の高次元パラメータを推定することで、反射特性の推定精度を向上させることが可能となる。
【0119】
なお、第2の高次元パラメータは、第1の高次元パラメータと同じ物理特性を精緻に示すパラメータであってもよい。例えば、第1の潜在変数の推定と第1の高次元パラメータの復元とによって、ある物理特性が粗く推定され、第2の潜在変数の推定と第2の高次元パラメータの復元とによって、当該物理特性が精緻に推定される。
【0120】
次に、
図19の#205で示すように、第1の高次元パラメータと第2の高次元パラメータのうちの少なくともいずれかを用いて、撮影画像と、CGデータが加工されたCG画像とが合成され、合成画像が生成される。
【0121】
・コンピュータについて
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0122】
図20は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0123】
CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
【0124】
バス504には、さらに、入出力インタフェース505が接続される。入出力インタフェース505には、キーボード、マウスなどよりなる入力部506、ディスプレイ、スピーカなどよりなる出力部507が接続される。また、入出力インタフェース505には、ハードディスクや不揮発性のメモリなどよりなる記憶部508、ネットワークインタフェースなどよりなる通信部509、リムーバブルメディア511を駆動するドライブ510が接続される。
【0125】
以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを入出力インタフェース505及びバス504を介してRAM503にロードして実行することにより、上述した一連の処理が行われる。
【0126】
CPU501が実行するプログラムは、例えばリムーバブルメディア511に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部508にインストールされる。
【0127】
コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0128】
なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
【0129】
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0130】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0131】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0132】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0133】
<構成の組み合わせ例>
本技術は、以下のような構成をとることもできる。
(1)
撮影画像を入力とし、前記撮影画像の撮影環境に関する物理特性を示す高次元のパラメータが前記パラメータよりも低次元に圧縮された潜在変数を出力とする学習モデルを用いて、前記撮影環境に関する前記潜在変数を推定する推定部と、
前記推定部により推定された前記潜在変数から前記パラメータを復元する復元部と
を備える情報処理装置。
(2)
前記復元部により復元された前記パラメータを用いて、前記撮影画像とCG画像を合成する合成部をさらに備える
前記(1)に記載の情報処理装置。
(3)
前記潜在変数は、前記物理特性に対する主成分分析により取得される所定の数の主成分を合成するための係数を含み、
前記復元部は、それぞれ対応する前記係数を前記主成分に乗算して合成することで前記パラメータを復元する
前記(1)または(2)に記載の情報処理装置。
(4)
前記物理特性は、幾何的な変換により前記潜在変数に圧縮される
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記物理特性は、前記撮影画像に写る被写体の表面の分光反射特性を含む
前記(3)に記載の情報処理装置。
(6)
前記潜在変数は、前記被写体の色ごとの前記分光反射特性に対する前記主成分分析により取得される前記主成分を合成するための前記係数を含む
前記(5)に記載の情報処理装置。
(7)
前記物理特性は、前記撮影画像に写る被写体の反射率分布特性を含む
前記(3)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記潜在変数は、前記被写体ごとの前記反射率分布特性に対する前記主成分分析により取得される前記主成分を合成するための前記係数と、前記反射率分布特性から反射率を抽出するための、前記被写体に対する光の入射方向および反射方向を示す情報とを含む
前記(7)に記載の情報処理装置。
(9)
前記物理特性は、前記撮影画像に写る被写体の表面の形状を含む
前記(3)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記潜在変数は、前記撮影画像が分割されたユニットごとの、前記被写体の表面の形状を示す座標に対する前記主成分分析により取得される前記主成分と、前記主成分を合成するための前記係数とを含む
前記(9)に記載の情報処理装置。
(11)
前記物理特性は、前記撮影環境における光源の分光放射特性を含む
前記(3)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記潜在変数は、前記光源の色温度を含む
前記(11)に記載の情報処理装置。
(13)
前記推定部は、前記撮影画像が撮影されたシーンの認識を行い、前記シーンの認識結果を前記学習モデルに入力して、前記潜在変数を推定する
前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
前記推定部は、前記撮影画像に対するセグメンテーションを行い、前記セグメンテーションの結果を前記学習モデルに入力して、前記潜在変数を推定する
前記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)
前記推定部は、前記復元部により第1の前記潜在変数から復元された第1の前記パラメータを前記学習モデルに入力して、第2の前記パラメータが圧縮された第2の前記潜在変数を推定し、
前記復元部は、前記推定部により推定された第2の前記潜在変数から第2の前記パラメータを復元する
前記(1)乃至(14)のいずれかに記載の情報処理装置。
(16)
第2の前記パラメータは、第1の前記パラメータと異なる前記物理特性を示す
前記(15)に記載の情報処理装置。
(17)
第2の前記パラメータは、第1の前記パラメータと同じ前記物理特性を、第1の前記パラメータよりも精緻に示す
前記(15)に記載の情報処理装置。
(18)
情報処理装置が、
撮影画像を入力とし、前記撮影画像の撮影環境に関する物理特性を示す高次元のパラメータが前記パラメータよりも低次元に圧縮された潜在変数を出力とする学習モデルを用いて、前記撮影環境に関する前記潜在変数を推定し、
推定された前記潜在変数から前記パラメータを復元する
情報処理方法。
(19)
撮影画像を入力とし、前記撮影画像の撮影環境に関する物理特性を示す高次元のパラメータが前記パラメータよりも低次元に圧縮された潜在変数を出力とする学習モデルを用いて、前記撮影環境に関する前記潜在変数を推定し、
推定された前記潜在変数から前記パラメータを復元する
処理を実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
【符号の説明】
【0134】
1 情報処理装置, 11 潜在変数推定部, 12 復元部, 13 合成部