(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-03
(45)【発行日】2024-12-11
(54)【発明の名称】学習装置、学習済みモデルの生成方法、データ生成装置、データ生成方法およびプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241204BHJP
G06T 7/50 20170101ALI20241204BHJP
【FI】
G06T7/00 350C
G06T7/50
(21)【出願番号】P 2023523716
(86)(22)【出願日】2021-05-24
(86)【国際出願番号】 JP2021019579
(87)【国際公開番号】W WO2022249232
(87)【国際公開日】2022-12-01
【審査請求日】2023-08-29
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】金子 卓弘
【審査官】小池 正彦
(56)【参考文献】
【文献】特開2020-042818(JP,A)
【文献】Atsuhiro Noguchi, et al.,RGBD-GAN: Unsupervised 3D Representation Learning From Natural Image Datasets via RGBDS Image Synthesis,ICLR 2020,2019年09月27日,p.1-21,DOI: 10.48550/arXiv.1909.12573
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 7/50
(57)【特許請求の範囲】
【請求項1】
潜在変数を機械学習モデルである画像生成モデルに入力することで、第1被写界深度に係る撮像画像を模擬した第1画像データを生成する画像生成部と、
前記潜在変数を機械学習モデルである三次元生成モデルに入力することで、前記第1画像データに対応する三次元データを生成する三次元データ生成部と、
前記第1画像データと前記三次元データとに基づいて、第2被写界深度に係る撮像画像を模擬した第2画像データを生成する変換部と、
前記第1画像データおよび前記第2画像データの分布と実際の撮像画像の経験分布との近さの度合いを示す学習基準値を算出する算出部と、
前記学習基準値に基づいて前記画像生成モデルおよび前記三次元生成モデルのパラメータを更新する更新部と
を備える学習装置。
【請求項2】
前記第2被写界深度は、前記第1被写界深度より浅い
請求項1に記載の学習装置。
【請求項3】
前記変換部は、前記第1画像データと前記三次元データとを光学系の制約を模擬する数理モデルに入力することで、前記第2画像データを生成する
請求項1または請求項2に記載の学習装置。
【請求項4】
画像データを入力とし、前記画像データが実際の撮像画像であるか撮像画像を模擬した画像データであるかを判定する機械学習モデルである識別モデルに、前記第1画像データおよび前記第2画像データの少なくとも一方、並びに前記実際の撮像画像を入力し、入力された画像データを識別する識別部を備え、
前記学習基準値は、前記識別部による識別しにくさの度合いを示し、
前記更新部は、前記学習基準値に基づいてさらに前記識別モデルのパラメータを更新する
請求項1から請求項3の何れか1項に記載の学習装置。
【請求項5】
前記学習基準値は、画像データの分布と実際の撮像画像の経験分布との近さの度合いを示す第1基準値と、前記三次元データのうち少なくとも一部に係る各位置と予め定めた深度との距離に係る第2基準値の和である
請求項1から請求項4の何れか1項に記載の学習装置。
【請求項6】
前記三次元データは、過焦点距離を基準とした深度を表す深度データであって、
前記変換部は、前記三次元データまたは深度の大きさを表すパラメータに係数を乗算することで、前記第2被写界深度の深さを異ならせる
請求項1から請求項5の何れか1項に記載の学習装置。
【請求項7】
潜在変数を機械学習モデルである画像生成モデルに入力することで、第1被写界深度に係る撮像画像を模擬した第1画像データを生成するステップと、
前記潜在変数を機械学習モデルである三次元生成モデルに入力することで、前記第1画像データに対応する三次元データを生成するステップと、
前記第1画像データと前記三次元データとに基づいて、第2被写界深度に係る撮像画像を模擬した第2画像データを生成するステップと、
前記第1画像データおよび前記第2画像データの分布と、実際の撮像画像の経験分布との近さの度合いを示す学習基準値を算出するステップと、
前記学習基準値に基づいて前記画像生成モデルおよび前記三次元生成モデルのパラメータを更新するステップと、
学習済みの前記画像生成モデルおよび前記三次元生成モデルを出力するステップと
を有する学習済みモデルの生成方法。
【請求項8】
請求項7に記載の学習済みモデルの生成方法によって出力された画像生成モデルに潜在変数を入力することで、撮像画像を模擬した画像データを生成する画像生成部と、
請求項7に記載の学習済みモデルの生成方法によって出力された三次元生成モデルに前記潜在変数を入力することで、三次元データを生成する三次元データ生成部と、
を備えるデータ生成装置。
【請求項9】
請求項7に記載の学習済みモデルの生成方法によって出力された画像生成モデルに潜在変数を入力することで、撮像画像を模擬した画像データを生成するステップと、
請求項7に記載の学習済みモデルの生成方法によって出力された三次元生成モデルに前記潜在変数を入力することで、三次元データを生成するステップと、
を備えるデータ生成方法。
【請求項10】
コンピュータを、請求項1から請求項6の何れか1項に記載の学習装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、学習済みモデルの生成方法、データ生成装置、データ生成方法およびプログラムに関する。
【背景技術】
【0002】
二次元の画像データから、その画像データに対応する三次元データ(深度情報など)を推定することは、長く関心を集めている問題の一つである。この問題を解くための方法として、二次元画像と三次元データのペアデータを教師データとして、二次元画像から三次元データを得る変換器を学習する方法が知られている。しかし、ペアデータを集めるためには専用の機器が必要であり、さらにデータ取得後もデータ間のアライメントを正確に取ることが必要であるため、データ収集コストが高いという問題がある。
【0003】
非特許文献1には、生成モデルによって視点の異なる画像データを、生成される画像データの経験分布が実画像の経験分布と一致するように学習する技術が開示されている。
【先行技術文献】
【非特許文献】
【0004】
【文献】A. Noguchi, T. Harada, “RGBD-GAN: Unsupervised 3D Representation Learning From Natural Image Datasets via RGBD Image Synthesis,” in Proc. ICLR 2020.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献1に記載の技術を実現するためには、学習に用いるデータセットに、複数の異なる視点から撮像された画像データが十分な量含まれている必要がある。そのため、異なる視点に係る画像データを収集することが困難な場合に、適切な学習を行うことができない可能性がある。
本発明の目的は、三次元データに関する補足データなしに、二次元画像と、当該二次元画像に対応する三次元データとを生成することができる学習装置、学習済みモデルの生成方法、データ生成装置、データ生成方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0006】
本発明の一態様は、潜在変数を機械学習モデルである画像生成モデルに入力することで、第1被写界深度に係る撮像画像を模擬した第1画像データを生成する画像生成部と、前記潜在変数を機械学習モデルである三次元生成モデルに入力することで、前記第1画像データに対応する三次元データを生成する三次元データ生成部と、前記第1画像データと前記三次元データとに基づいて、第2被写界深度に係る撮像画像を模擬した第2画像データを生成する変換部と、前記第1画像データおよび前記第2画像データの分布と、実際の撮像画像の経験分布との近さの度合いを示す学習基準値を算出する算出部と、前記学習基準値に基づいて前記画像生成モデルおよび前記三次元生成モデルのパラメータを更新する更新部とを備える学習装置である。
【0007】
本発明の一態様は、潜在変数を機械学習モデルである画像生成モデルに入力することで、第1被写界深度に係る撮像画像を模擬した第1画像データを生成するステップと、前記潜在変数を機械学習モデルである三次元生成モデルに入力することで、前記第1画像データに対応する三次元データを生成するステップと、前記第1画像データと前記三次元データとに基づいて、第2被写界深度に係る撮像画像を模擬した第2画像データを生成するステップと、前記第1画像データおよび前記第2画像データの分布と、実際の撮像画像の経験分布との近さの度合いを示す学習基準値を算出するステップと、前記学習基準値に基づいて前記画像生成モデルおよび前記三次元生成モデルのパラメータを更新するステップと、学習済みの前記画像生成モデルおよび前記三次元生成モデルを出力するステップとを有する学習済みモデルの生成方法である。
【0008】
本発明の一態様は、上記態様に係る学習済みモデルの生成方法によって出力された画像生成モデルに潜在変数を入力することで、撮像画像を模擬した画像データを生成する画像生成部と、上記態様に係る学習済みモデルの生成方法によって出力された三次元生成モデルに前記潜在変数を入力することで、三次元データを生成する三次元データ生成部と、を備えるデータ生成装置である。
【0009】
本発明の一態様は、上記態様に係る学習済みモデルの生成方法によって出力された画像生成モデルに潜在変数を入力することで、撮像画像を模擬した画像データを生成するステップと、上記態様に係る学習済みモデルの生成方法によって出力された三次元生成モデルに前記潜在変数を入力することで、三次元データを生成するステップと、を備えるデータ生成方法である。
【0010】
本発明の一態様は、コンピュータを、上記態様に係る学習装置として機能させるためのプログラムである。
【発明の効果】
【0011】
上記少なくとも1つの態様によれば、三次元データに関する補足データなしに、二次元画像と、当該二次元画像に対応する三次元データとを生成することができる。
【図面の簡単な説明】
【0012】
【
図1】第1の実施形態に係るデータ生成システムの構成を示す図である。
【
図2】第1の実施形態に係るモデル学習装置の構成を示す概略ブロック図である。
【
図3】第1の実施形態に係るモデル学習装置の動作を示すフローチャートである。
【
図4】第1の実施形態に係る学習処理におけるデータの変遷を示す図である。
【
図5】第1の実施形態に係るデータ生成装置の構成を示す概略ブロック図である。
【
図6】少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
【発明を実施するための形態】
【0013】
〈第1の実施形態〉
《データ生成システム1の構成》
図1は、第1の実施形態に係るデータ生成システム1の構成を示す図である。データ生成システム1は、同一の被写体に係る被写界深度の深い撮像画像を模擬した画像データ(ディープデプスオブフィールドイメージ)、被写界深度の浅い撮像画像を模擬した画像データ(シャローデプスオブフィールドイメージ)、および被写体の深度を示す深度データを生成する。ディープデプスオブフィールドイメージは、ピントが合っているように見える範囲が広い画像データである。シャロ―デプスオブフィールドイメージは、ピントが合っているように見える範囲が狭い画像データである。
【0014】
データ生成システム1は、データ生成装置11とモデル学習装置13とを備える。
データ生成装置11は、機械学習モデルである画像生成モデルおよび三次元生成モデルを用いて、ディープデプスオブフィールドイメージ、シャローデプスオブフィールドイメージおよび深度データの組を生成する。
モデル学習装置13は、実際の撮像画像を学習用データとして用いて画像生成モデルおよび三次元生成モデルの学習を行う。なお、学習用データに係る撮像画像は、三次元データに関する補足データを有する必要はない。つまり、学習用データは深度データなどの三次元データや、視点を異ならせた撮像画像のペアなどを含まなくてもよい。
【0015】
《モデル学習装置13の構成》
図2は、第1の実施形態に係るモデル学習装置13の構成を示す概略ブロック図である。第1の実施形態に係るモデル学習装置13は、学習用データ記憶部131、モデル記憶部132、潜在変数生成部133、画像生成部134、三次元データ生成部135、変換部136、識別部137、算出部138、更新部139を備える。
【0016】
学習用データ記憶部131は、複数の画像データを記憶する。各画像データは、撮像装置によって撮像された画像である。学習用データ記憶部131は、様々な被写界深度に係る画像データを記憶する。
【0017】
モデル記憶部132は、画像生成モデルGI、深度生成モデルGD、識別モデルC、および被写界深度効果レンダラRを記憶する。画像生成モデルGI、深度生成モデルGDおよび識別モデルCは、いずれもニューラルネットワーク(例えば、畳み込みニューラルネットワーク、全結合ニューラルネットワーク、再帰ニューラルネットワークなど)によって構成される。被写界深度効果レンダラRは、撮像装置の光学系を模擬する数理モデルによって構成される。
【0018】
画像生成モデルGIは、潜在変数zを入力とし、被写界深度の深い撮像画像を模擬した画像データであるディープデプスオブフィールドイメージIg
dを出力とする。潜在変数は、画像データを生成するシードとなる任意の数値である。
【0019】
深度生成モデルGDは、潜在変数zを入力とし、ディープデプスオブフィールドイメージIg
dの被写体の深度を表す深度データDgを出力とする。深度データDgの要素数はディープデプスオブフィールドイメージIg
dの要素数と等しい。画像生成モデルGIと深度生成モデルGDとは、一部の層(例えば、入力層および中間層)を共通とするものであってよい。
【0020】
被写界深度効果レンダラRは、ディープデプスオブフィールドイメージIg
dと深度データDgの組を入力とし、ディープデプスオブフィールドイメージIg
dと同じ被写体に係る被写界深度の浅い撮像画像を模擬した画像データであるシャローデプスオブフィールドイメージIg
sを出力とする。被写界深度効果レンダラRの詳細については後述する。
【0021】
識別モデルCは、画像データを入力とし、入力された画像データが実際の撮像画像である確率または実際の撮像画像である度合を示す評価値を出力とする。例えば、識別モデルCは、実際の撮像画像である確率を出力する場合、入力された画像データがディープデプスオブフィールドイメージIg
dまたはシャローデプスオブフィールドイメージIg
sである確率が高いほど0に近い値を出力し、実際の撮像データである確率が高いほど1に近い値を出力する。
【0022】
画像生成モデルGI、深度生成モデルGD、識別モデルCおよび被写界深度効果レンダラRは、GANs(Generative Adversarial Networks)を構成する。画像生成モデルGI、深度生成モデルGDおよび被写界深度効果レンダラRの組み合わせは、Generatorである。識別モデルCは、Discriminatorである。
【0023】
潜在変数生成部133は、乱数に基づいて潜在変数zを生成する。例えば、潜在変数生成部133は、ガウシアン分布や一様分布などの任意の分布において、ランダムに潜在変数zを抽出する。なお、潜在変数生成部133は、学習用データ記憶部131が記憶する画像データから潜在変数zを抽出してもよい。
【0024】
画像生成部134は、潜在変数生成部133が生成した潜在変数zをモデル記憶部132が記憶する画像生成モデルGIに入力することで、ディープデプスオブフィールドイメージIg
dを生成する。つまり、画像生成部134は、以下の式(1)によりディープデプスオブフィールドイメージIg
dを算出する。
【0025】
【0026】
三次元データ生成部135は、潜在変数生成部133が生成した潜在変数zをモデル記憶部132が記憶する深度生成モデルGDに入力することで、三次元データである深度データDgを生成する。つまり、三次元データ生成部135は、以下の式(2)により深度データDgを算出する。
【0027】
【0028】
変換部136は、画像生成部134が生成したディープデプスオブフィールドイメージIg
dと三次元データ生成部135が生成した深度データDgとをモデル記憶部132が記憶する被写界深度効果レンダラRに入力することで、シャローデプスオブフィールドイメージIg
sを生成する。つまり、変換部136は、ディープデプスオブフィールドイメージIg
dをシャローデプスオブフィールドイメージIg
sに変換する。つまり、変換部136は、以下の式(3)によりシャローデプスオブフィールドイメージIg
sを生成する。式(3)においてsは、ディープデプスオブフィールドイメージIg
dとシャローデプスオブフィールドイメージIg
sの混合度、すなわち被写界深度の深さの度合いを表す。なお、混合度sが0である場合、計算結果はディープデプスオブフィールドイメージIg
dと等しくなる。
【0029】
【0030】
ここで、被写界深度効果レンダラRについて説明する。第1の実施形態に係る被写界深度効果レンダラRは、仮想の光学系における光線の経路を計算し、仮想の光学系における開口面積を広げることで被写界深度の変換を行う。具体的には、被写界深度効果レンダラRは、深度データDgを変形関数Tを用いて変形することで、式(4)に示すように画像面上の位置座標xおよび開口面上の角度座標uと被写体の深度の関係を示す深度マップMg(x,u)を演算する。次に被写界深度効果レンダラRは、深度マップMg(x,u)に基づいて、式(5)に示すようにディープデプスオブフィールドイメージIg
dから、開口面上の視線方向ごとに入射する光によって結像される画像Lg(x,u)を演算する。そして、被写界深度効果レンダラRは、式(6)に示すように光学系の開口を模擬するインディケータA(u)を用いて画像Lg(x,u)を統合することで、シャローデプスオブフィールドイメージIg
sを生成する。
【0031】
【0032】
【0033】
【0034】
式(5)におけるm(hat)は、ピント位置までの距離(過焦点距離)を示す。m(hat)は、学習によって獲得される値であってもよいし、所定の分布から抽出される乱数であってもよいし、定数(例えばゼロ)であってもよい。
インディケータA(u)は、開口部に相当する要素の値が正値で、開口部以外の要素の値が0であり、すべての要素の値の和が1となる行列である。インディケータA(u)が模擬する開口部の形状は例えば円形である。このように、被写界深度効果レンダラRには、光線空間を考慮した光学的な制約が与えられている。これにより、被写界深度効果レンダラRは、光学的に整合性のとれた画像変換を実現することができる。
【0035】
なお、被写界深度効果レンダラRは、深度データDg(x)に基づくワーピング関数(変形関数)によって構成されてもよいし、ニューラルネットワークモデルによって構成されてもよい。被写界深度効果レンダラRがニューラルネットワークモデルを構成に含む場合、ワーピング関数による変形結果に基づく制約を与えられてもよい。具体的には、被写界深度効果レンダラRは、ワーピング関数によって変形された深度データDgをニューラルネットワークモデルに入力するように構成されてもよい。
【0036】
識別部137は、ディープデプスオブフィールドイメージIg
d、シャローデプスオブフィールドイメージIg
sおよび学習用データ記憶部131が記憶する撮像画像を識別モデルCに入力することで、入力された画像データが実際の撮像画像である度合を示す評価値を算出する。
【0037】
算出部138は、画像生成モデルGI、深度生成モデルGDおよび識別モデルCの学習に用いる学習基準(損失関数)を算出する。具体的には、算出部138は、敵対的学習基準に基づいて学習基準を算出する。
敵対的学習基準LAR-GANとは、画像データが実際の撮像画像であるか撮像画像を模擬した画像データであるかの判断の正確さを示す指標である。算出部138は、以下の式(7)に示すように、敵対的学習基準LAR-GANを求める。
【0038】
【0039】
式(7)において、s~Ps(s)は、ディープデプスオブフィールドイメージIg
dとシャローデプスオブフィールドイメージIg
sの混合度、すなわち被写界深度の深さの度合いを表す。分布Ps(s)は、0以上1以下の値域に係る分布、例えば二項分布や一様分布などを用いることができる。また、z~Pz(z)は、潜在変数zを分布Pz(z)から抽出する処理を示す。なお、式(7)では学習基準としてクロスエントロピーを用いるが、これに限られず、L1距離やL2距離、ワッサースタイン距離などの任意の距離基準に基づく学習基準を用いてもよい。
【0040】
更新部139は、算出部138が算出した敵対的学習基準LAR-GANに基づいて画像生成モデルGI、深度生成モデルGDおよび識別モデルCのパラメータを更新する。具体的には、更新部139は、識別モデルCについて、敵対的学習基準LAR-GANが大きくなるようにパラメータを更新する。また更新部139は、画像生成モデルGIおよび深度生成モデルGDについて、敵対的学習基準LAR-GANが小さくなるようにパラメータを更新する。また、被写界深度効果レンダラRが学習可能なパラメータを持つ場合、被写界深度効果レンダラRについて、敵対的学習基準LAR-GANが小さくなるようにパラメータを更新する。
【0041】
シャローデプスオブフィールドイメージIg
sは、光学的制約を有する被写界深度効果レンダラRを用いて、深度データDgから生成される。そのため、識別モデルCがシャローデプスオブフィールドイメージIg
sを実際の撮像画像であると誤判定させるためには、上記光学的制約の下、適切な深度データDgを生成する必要がある。したがって、第1の実施形態に係るモデル学習装置13は、上記の学習基準に従ってパラメータを更新することで、ディープデプスオブフィールドイメージIg
d、シャローデプスオブフィールドイメージIg
sおよび深度データDgの組が適切に生成できるように画像生成モデルGIおよび深度生成モデルGDのパラメータを更新することができる。また、被写界深度効果レンダラRが学習可能なパラメータを持つ場合、被写界深度効果レンダラRのパラメータを更新することができる。
【0042】
《モデル学習装置13の動作》
図3は、第1の実施形態に係るモデル学習装置13の動作を示すフローチャートである。
図4は、第1の実施形態に係る学習処理におけるデータの変遷を示す図である。
モデル学習装置13が学習処理を開始すると、以下に示すステップS1からステップS6の処理を、所定回数繰り返し実行する。まず潜在変数生成部133は、乱数と所定の分布とに基づいて潜在変数zを生成する(ステップS1)。次に、画像生成部134は、ステップS1で生成した潜在変数zをモデル記憶部132が記憶する画像生成モデルG
Iに入力することで、ディープデプスオブフィールドイメージI
g
dを生成する(ステップS2)。
【0043】
また三次元データ生成部135は、ステップS1で生成した潜在変数zをモデル記憶部132が記憶する深度生成モデルGDに入力することで、深度データDgを生成する(ステップS3)。次に、変換部136は、0以上1以下の混合度sを所定の分布に従って決定する(ステップS4)。変換部136は、ステップS2で生成したディープデプスオブフィールドイメージIg
dと、ステップS3で生成した深度データDgに混合度sを乗算したものとを、モデル記憶部132が記憶する被写界深度効果レンダラRに入力することで、シャローデプスオブフィールドイメージIg
sを生成する(ステップS5)。なお、混合度sがゼロである場合、生成されるシャローデプスオブフィールドイメージIg
sはディープデプスオブフィールドイメージIg
dと一致する。次に、識別部137は、シャローデプスオブフィールドイメージIg
sを識別モデルCに入力することで、入力されたシャローデプスオブフィールドイメージIg
sが実際の撮像画像である度合を示す評価値を算出する(ステップS6)。
【0044】
モデル学習装置13は、所定数の潜在変数zから生成されたシャローデプスオブフィールドイメージIg
sについての評価値を算出すると、以下に示すステップS7からステップS8の処理を所定回数繰り返し実行する。まず識別部137は、学習用データ記憶部131から任意の撮像画像を読み出す(ステップS7)。識別部137は、読み出した撮像画像を識別モデルCに入力することで、入力された撮像画像が実際の撮像画像である度合を示す評価値を算出する(ステップS8)。
【0045】
算出部138は、ステップS6で算出した評価値およびステップS8で算出した評価値を用いて、上述の式(7)に基づいて敵対的学習基準LAR-GANを算出する(ステップS9)。更新部139は、ステップS9で算出した敵対的学習基準LAR-GANに基づいて画像生成モデルGI、深度生成モデルGDおよび識別モデルCのパラメータを更新する(ステップS10)。また、被写界深度効果レンダラRが学習可能なパラメータを持つ場合、被写界深度効果レンダラRのパラメータを更新する。
【0046】
更新部139は、ステップS1からステップS10によるパラメータの更新を、所定のエポック数だけ繰り返し実行したか否かを判定する(ステップS11)。繰り返しが所定のエポック数に満たない場合(ステップS11:NO)、モデル学習装置13はステップS1に処理を戻し、学習処理を繰り返し実行する。
【0047】
他方、繰り返しが所定のエポック数に達した場合(ステップS11:YES)、モデル学習装置13は学習処理を終了する。これにより、モデル学習装置13は、学習済みモデルである画像生成モデルGIおよび深度生成モデルGDを生成することができる。また、被写界深度効果レンダラRが学習可能なパラメータを持つ場合、学習済みモデルである被写界深度効果レンダラRを生成することができる。
【0048】
《データ生成装置11の構成》
図5は、第1の実施形態に係るデータ生成装置11の構成を示す概略ブロック図である。
第1の実施形態に係るデータ生成装置11は、モデル記憶部111、潜在変数生成部112、画像生成部113、三次元データ生成部114、変換部115、出力部116を備える。
【0049】
モデル記憶部111は、モデル学習装置13による学習済みの画像生成モデルGIおよび深度生成モデルGD、およびモデル学習装置13と同じ被写界深度効果レンダラRを記憶する。
【0050】
潜在変数生成部112、画像生成部113、三次元データ生成部114および変換部115は、モデル学習装置13が備える、潜在変数生成部133、画像生成部134、三次元データ生成部135および変換部136と同様の処理を実行する。なお、変換部115は、シャローデプスオブフィールドイメージIg
sを生成する際、混合度sを1として計算する。
【0051】
出力部116は、画像生成部113が生成したディープデプスオブフィールドイメージIg
d、三次元データ生成部114が生成した深度データDgおよび変換部115が生成したシャローデプスオブフィールドイメージIg
sを出力する。
【0052】
《作用・効果》
これにより、データ生成装置11は、二次元画像であるディープデプスオブフィールドイメージIg
dおよびシャローデプスオブフィールドイメージIg
sと、三次元データである深度データDgとの組を生成することができる。データ生成装置11がこれらのデータの組を生成するために用いる画像生成モデルGIおよび深度生成モデルGDは、三次元データに関する補足データなしに学習されたものである。つまり、第1の実施形態に係るデータ生成システム1によれば、三次元データに関する補足データなしに、二次元画像と、当該二次元画像に対応する三次元データとを生成することができる。
【0053】
これは、モデル学習装置13が、ディープデプスオブフィールドイメージIg
dの経験分布およびディープデプスオブフィールドイメージIg
dと深度データDgから生成されたシャローデプスオブフィールドイメージIg
sの経験分布が、いずれも実際の撮像画像の経験分布に近くなるようにモデルを学習させるためである。つまり、ディープデプスオブフィールドイメージIg
dと深度データDgから生成されたシャローデプスオブフィールドイメージIg
sが、実際の撮像画像の経験分布に近くなるためには、適切な深度データDgが得られている必要があり、シャローデプスオブフィールドイメージIg
sが、実際の撮像画像の経験分布に近くなったということは、モデルが適切な深度データDgを得ることができるように学習されたことを示すためである。
【0054】
《実験結果》
第1の実施形態に係るデータ生成システム1を用いたデータペアの生成の実験結果の一例を説明する。実験では、学習用データとして花画像、鳥画像、顔画像に係る撮像画像が用いられた。
【0055】
実験では、データ生成システム1は正規分布N(0,1)に基づいてランダムに潜在変数zを抽出した。画像生成モデルGI、深度生成モデルGDおよび識別モデルCは、CNNによって構成した。被写体深度効果レンダラRの変形関数Tは、Dg(x)に基づいてワーピングを行った後、CNNを適用する構成を用いた。
【0056】
実験において、非特許文献1に記載のRGBD-GANを比較例とした。
評価方法として、第1の実施形態に係るデータ生成システム1および非特許文献1の手法のそれぞれで生成されたデータペアを教師データとして用いた画像データから深度データへの変換器の精度を比較する方法を採用した。具体的には、第1の実施形態に係るデータ生成システム1および非特許文献1の手法のそれぞれで生成されたデータペアを教師データとして用いた変換器による計算結果と、実際の撮像画像と実際の深度データのペア(実ペアデータ)とを教師データとして用いた変換器による計算結果との一致度を比較した。評価尺度は、Scale-Invariant Depth Error(SIDE)を用いた。SIDEは、値が小さいほど性能がよいことを示す。
【0057】
その結果、第1の実施形態に係るデータ生成システム1が非特許文献1の手法よりもSIDEの値が小さいことを確認した。すなわち、第1の実施形態に係るデータ生成システム1が非特許文献1の手法よりも実ペアデータを用いて学習した変換結果との一致度が高いことを確認した。なお、非特許文献1の手法は、視点に関する手がかりを予め取得しておく必要があるのに対し、第1の実施形態に係るデータ生成システム1ではこのような情報が不要である。また、非特許文献1の手法は、画像データと深度データのペアを生成するのに対し、第1の実施形態に係るデータ生成システム1は、ディープデプスオブフィールドイメージIg
d、深度データDgおよびシャローデプスオブフィールドイメージIg
sの組を得ることができる。
【0058】
〈第2の実施形態〉
第1の実施形態に係るデータ生成システム1は、光線空間に基づく光学的な制約を有する被写界深度効果レンダラRを用いてシャローデプスオブフィールドイメージIg
sを生成する。これに対し、第2の実施形態に係るデータ生成システム1は、深度とボケ効果の大きさとの関係に基づく光学的な制約を有する被写界深度効果レンダラRを用いてシャローデプスオブフィールドイメージIg
sを生成する。
【0059】
第2の実施形態に係る被写界深度効果レンダラRは、以下の式(8)、(9)で表されるカーネルkを用いて計算を行う。
【0060】
【0061】
【0062】
式(8)において,[・]はアイバーソンの記法を表し、括弧内の条件が真ならば1、偽ならば0をとる。mは、被写体の位置を基準としたピント位置の深度を示す。深度mがゼロであることは、被写体にフォーカスがあっていることを示す。深度mが正の値であることは、ピント位置が被写体より手前側に位置することを示す。深度mが負の値であることは、ピント位置が被写体より奥側に位置することを示す。この定義により,k(hat)(x,m)は,半径|m|以内の中央部のみ値1を持ち,それ以外は値0を持つ。つまり、深度|m|が大きければ大きいほど、中央の円形部の大きさは大きくなり、このカーネルを画像に畳み込んだ時のボケ効果は大きくなる。また式(9)は、k(x,m)の要素の値の合計が1となるようにk(hat)(x,m)を正規化する処理を表す式である。
【0063】
また、第2の実施形態では、三次元データ生成部135は、Dgを算出する前段階として、三次元データ生成部135は、深度情報の確率分布P(x,m)を生成する。ここで、P(x,m)は位置座標xの深度mにおける深度の存在確率を表す。つまり、各座標xについて存在確率P(x,m)の総和は1となる。P(x,m)が得られたとき,Dg(x)は、例えば式(10)に示すように、P(x,m)に対して,各座標xごとに最大となる深度mを算出することによって求めることが可能である。
【0064】
【0065】
三次元データ生成部135は、式(10)の演算を行う際、前処理として、P(x,m)に対してスムージングなどを行なってもよい。そして、変換部136は、以下の式(11)にように、カーネルk(x,m)とディープデプスオブフィールドイメージIg
dとを畳み込んだ結果と、深度データの確率分布P(x,m)とを乗算し、その和をとることによりシャローデプスオブフィールドイメージIg
sを合成することができる。
【0066】
【0067】
式(11)において演算子*は畳み込み演算を表す。このように、第2の実施形態に係る被写界深度効果レンダラRを用いた演算は、形状が事前に定められたカーネルkとの畳み込みと、その重み付き和とに制約される。これにより、変換部136は、第1の実施形態と同様に、光学的に整合性のとれた変換を実現することができ、変換の過程において画像の内容を大きく棄損することなくボケ度合だけを変えることができる。
また、第1の実施形態に係るデータ生成システム1では、式(3)において、深度データに混合度sを乗算することによって被写界深度の度合いを調整するが、第2の実施形態に係るデータ生成システム2においては、式(11)において、k(x,m)のmに混合度sを乗算する(つまり、k(x,s・m)とする)ことによって、被写界深度の度合いを調整することが可能である。例えば、sが0の場合、k(x,m)は中心のみが1で、それ以外は0のカーネルとなるため、式(11)の出力は、被写界深度の深い画像になる。
【0068】
〈第3の実施形態〉
画像におけるボケは、被写体がピント位置より手前側にある場合と、奥側にあるために発生している場合とのそれぞれにおいて発生する。一方で、画像データから、被写体が手前側に存在するためにボケが生じているか、奥側に存在するためにボケが生じているかを判断することは困難である。そこで、第3の実施形態に係るデータ生成システム1では、ピントが合う被写体(対象物)が画像の中心近傍に存在する可能性が高く、また対象物の近傍に写る被写体は背景であることが多いというヒューリスティックスに基づいて、モデルの更新に用いる目的関数を算出する。
【0069】
第3の実施形態に係る算出部138は、式(7)に示す敵対的学習基準LAR-GANに加え、以下の式(12)、(13)で表される深度学習基準Lpを求める。
【0070】
【0071】
【0072】
式(12)においてrは画像中心からの距離を示し、rthとgはそれぞれ対象物の大きさと深さを定めるハイパーパラメータである。式(12)に示す事前深度データDpは、半径rth以内はピント位置にあることを示し、中心からの距離がrthより遠いほど、ピント位置より奥側に位置することを示す。また式(13)においてλpは深度学習基準Lpの重みを表すハイパーパラメータである。深度学習基準Lpは、深度データDgと事前深度データDpとの距離がゼロに近いほど低くなる。つまり、深度学習基準Lpは、深度データDgのうち少なくともフォーカスされる可能性が高い部分と予め定めたピント位置に係る深度との距離がゼロに近いほど低くなる。なお、式(13)では学習基準としてL2距離に基づくものを用いるが、これに限られず、L1距離やワッサースタイン距離などの任意の距離基準に基づく学習基準を用いてもよい。
【0073】
上記の例では、予め定めたピント位置での深度をゼロ、当該位置以外での深度を、ピント位置より奥側となるように予め定めた値としているが、これに限られない。例えば、ヒューリスティックスに基づいて、画像の一部または全体領域における各位置での深度を予め定めておくことができる場合、深度学習基準Lpは、各位置において深度データDgと当該予め定めた深度との距離がゼロに近いほど低くなるものであってよい。また、式(13)に示す深度学習基準Lpは、画像の全体領域について深度データDgが示す深度と予め定めた深度との距離を求めるが、これに限られない。例えば深度学習基準Lpは、深度データDgのうち半径rth以内の領域や、ヒューリスティックスに基づいてフォーカスされる可能性が高いと判定された領域など、深度データDgの一部領域のみにおける距離に基づいて計算されるものであってもよい。また例えば深度学習基準Lpは、深度データDgのうち半径rthより外側の領域や、ヒューリスティックスに基づいてフォーカスされる可能性が低いと判定された領域などにおける深度が、遠景または近景に係る予め定めた深度に近いほど低くなるものであってもよい。
【0074】
更新部139は、敵対的学習基準LAR-GANと深度学習基準Lpの和に基づいて、深度生成モデルGDのパラメータを更新する。これにより、中心にフォーカスがあい、周囲が背景となる深度データDgが生成されることが促進される。なお、更新部139は、深度学習基準Lpを学習の全工程において用いてもよいし、学習の途中段階まで用いてもよい。更新部139は、深度学習基準Lpを所定のエポック数に至るまで用い、以降用いないようにすることで、実際の深度データと事前深度データDpとにギャップがあった場合のネガティブな効果を抑制することができる。
【0075】
《変形例》
第3の実施形態に係るデータ生成システム1は、対象物が画像の中心近傍に存在する可能性が高く、また対象物の近傍に写る被写体は背景であることが多いというヒューリスティックスに基づいて、式(12)に基づいて事前深度データDpを算出するが、これに限られない。例えば、他の実施形態においては、対象物の近傍に写る被写体は前景であることが多いというヒューリスティックスに基づいて計算してもよいし、人の顔がフォーカスされる可能性が高いというヒューリスティックスに基づいて、パターンマッチング処理により検出された顔の位置に基づいて事前深度データDpを算出してもよい。また、rthおよびgをハイパーパラメータではなく学習により更新するパラメータとしてもよい。
【0076】
〈他の実施形態〉
以上、図面を参照して一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、様々な設計変更等をすることが可能である。すなわち、他の実施形態においては、上述の処理の順序が適宜変更されてもよい。また、一部の処理が並列に実行されてもよい。
上述した実施形態に係るデータ生成システム1は、データ生成装置11とモデル学習装置13とを備えるが、単独のコンピュータによって構成されるものであってもよい。
【0077】
上述した実施形態に係るデータ生成システム1は、GANsによって画像生成モデルGIおよび深度生成モデルGDのパラメータを更新するが、これに限られない。例えば、他の実施形態に係るデータ生成システム1は、Variational Autoencoder、Flow Model、Denoising Diffusion Probablistic Modelなどの任意の生成モデルにおける学習基準によって画像生成モデルGIおよび深度生成モデルGDのパラメータを更新してもよい。
【0078】
また、上述の実施形態に係る被写界深度効果レンダラRは、光学系の制約を模擬する数理モデルであるが、これに限られない。例えば被写界深度効果レンダラRは、ニューラルネットワークによって構成された学習済みモデルであってもよい。また、光学系に関わるパラメータなど被写界深度効果レンダラRの一部のパラメータを学習パラメータとして持っていてもよい。また、被写界深度効果レンダラRが学習可能なパラメータを持つ場合、画像生成モデルGIおよび深度生成モデルGDと同時に学習してもよい。
【0079】
また、上述の実施形態に係るデータ生成装置11は、ディープデプスオブフィールドイメージIg
d、シャローデプスオブフィールドイメージIg
sおよび深度データDgの組を出力するが、これに限られない。例えば、他の実施形態に係るデータ生成装置11は、ディープデプスオブフィールドイメージIg
dと深度データDgの組を出力し、シャローデプスオブフィールドイメージIg
sを出力しなくてもよい。また、他の実施形態に係るデータ生成装置11は、シャローデプスオブフィールドイメージIg
sと深度データDgの組を出力し、ディープデプスオブフィールドイメージIg
dを出力しなくてもよい。また、他の実施形態に係るデータ生成装置11は、ディープデプスオブフィールドイメージIg
dとシャローデプスオブフィールドイメージIg
sの組を出力し、深度データDgを出力しなくてもよい。また、他の実施形態に係るデータ生成装置11は、ディープデプスオブフィールドイメージIg
d、シャローデプスオブフィールドイメージIg
sおよび深度データDgの組の少なくとも一部を統合したデータを出力してもよい。例えばデータ生成装置11は、ディープデプスオブフィールドイメージIg
dと深度データDgを、深度情報を含む画像データとして出力してもよい。
【0080】
〈コンピュータ構成〉
図6は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
コンピュータ20は、プロセッサ21、メインメモリ23、ストレージ25、インタフェース27を備える。
上述のデータ生成装置11およびモデル学習装置13は、コンピュータ20に実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージ25に記憶されている。プロセッサ21は、プログラムをストレージ25から読み出してメインメモリ23に展開し、当該プログラムに従って上記処理を実行する。また、プロセッサ21は、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリ23に確保する。プロセッサ21の例としては、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、マイクロプロセッサなどが挙げられる。
【0081】
プログラムは、コンピュータ20に発揮させる機能の一部を実現するためのものであってもよい。例えば、プログラムは、ストレージに既に記憶されている他のプログラムとの組み合わせ、または他の装置に実装された他のプログラムとの組み合わせによって機能を発揮させるものであってもよい。なお、他の実施形態においては、コンピュータ20は、上記構成に加えて、または上記構成に代えてPLD(Programmable Logic Device)などのカスタムLSI(Large Scale Integrated Circuit)を備えてもよい。PLDの例としては、PAL(Programmable Array Logic)、GAL(Generic Array Logic)、CPLD(Complex Programmable Logic Device)、FPGA(Field Programmable Gate Array)が挙げられる。この場合、プロセッサ21によって実現される機能の一部または全部が当該集積回路によって実現されてよい。このような集積回路も、プロセッサの一例に含まれる。
【0082】
ストレージ25の例としては、磁気ディスク、光磁気ディスク、光ディスク、半導体メモリ等が挙げられる。ストレージ25は、コンピュータ20のバスに直接接続された内部メディアであってもよいし、インタフェース27または通信回線を介してコンピュータ20に接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ20に配信される場合、配信を受けたコンピュータ20が当該プログラムをメインメモリ23に展開し、上記処理を実行してもよい。少なくとも1つの実施形態において、ストレージ25は、一時的でない有形の記憶媒体である。
【0083】
また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能をストレージ25に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【符号の説明】
【0084】
1…データ生成システム 11…データ生成装置 111…モデル記憶部 112…潜在変数生成部 113…画像生成部 114…三次元データ生成部 115…変換部 116…出力部 13…モデル学習装置 131…学習用データ記憶部 132…モデル記憶部 133…潜在変数生成部 134…画像生成部 135…三次元データ生成部 136…変換部 137…識別部 138…算出部 139…更新部