特許7598058 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7598058学習装置、学習済みモデルの生成方法、データ生成装置、データ生成方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-03

(45)【発行日】2024-12-11

(54)【発明の名称】学習装置、学習済みモデルの生成方法、データ生成装置、データ生成方法およびプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20241204BHJP

G06T 7/50 20170101ALI20241204BHJP

【ＦＩ】

G06T7/00 350C

G06T7/50

【請求項の数】 10

(21)【出願番号】P 2023523716

(86)(22)【出願日】2021-05-24

(86)【国際出願番号】 JP2021019579

(87)【国際公開番号】W WO2022249232

(87)【国際公開日】2022-12-01

【審査請求日】2023-08-29

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110001634

【氏名又は名称】弁理士法人志賀国際特許事務所

(72)【発明者】

【氏名】金子卓弘

【審査官】小池正彦

(56)【参考文献】

【文献】特開２０２０－０４２８１８（ＪＰ，Ａ）

【文献】Atsuhiro Noguchi, et al.，RGBD-GAN: Unsupervised 3D Representation Learning From Natural Image Datasets via RGBDS Image Synthesis，ICLR 2020，2019年09月27日，p.1-21，DOI: 10.48550/arXiv.1909.12573

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｔ７／５０

(57)【特許請求の範囲】

【請求項1】

潜在変数を機械学習モデルである画像生成モデルに入力することで、第１被写界深度に係る撮像画像を模擬した第１画像データを生成する画像生成部と、
前記潜在変数を機械学習モデルである三次元生成モデルに入力することで、前記第１画像データに対応する三次元データを生成する三次元データ生成部と、
前記第１画像データと前記三次元データとに基づいて、第２被写界深度に係る撮像画像を模擬した第２画像データを生成する変換部と、
前記第１画像データおよび前記第２画像データの分布と実際の撮像画像の経験分布との近さの度合いを示す学習基準値を算出する算出部と、
前記学習基準値に基づいて前記画像生成モデルおよび前記三次元生成モデルのパラメータを更新する更新部と
を備える学習装置。

【請求項2】

前記第２被写界深度は、前記第１被写界深度より浅い
請求項１に記載の学習装置。

【請求項3】

前記変換部は、前記第１画像データと前記三次元データとを光学系の制約を模擬する数理モデルに入力することで、前記第２画像データを生成する
請求項１または請求項２に記載の学習装置。

【請求項4】

画像データを入力とし、前記画像データが実際の撮像画像であるか撮像画像を模擬した画像データであるかを判定する機械学習モデルである識別モデルに、前記第１画像データおよび前記第２画像データの少なくとも一方、並びに前記実際の撮像画像を入力し、入力された画像データを識別する識別部を備え、
前記学習基準値は、前記識別部による識別しにくさの度合いを示し、
前記更新部は、前記学習基準値に基づいてさらに前記識別モデルのパラメータを更新する
請求項１から請求項３の何れか１項に記載の学習装置。

【請求項5】

前記学習基準値は、画像データの分布と実際の撮像画像の経験分布との近さの度合いを示す第１基準値と、前記三次元データのうち少なくとも一部に係る各位置と予め定めた深度との距離に係る第２基準値の和である
請求項１から請求項４の何れか１項に記載の学習装置。

【請求項6】

前記三次元データは、過焦点距離を基準とした深度を表す深度データであって、
前記変換部は、前記三次元データまたは深度の大きさを表すパラメータに係数を乗算することで、前記第２被写界深度の深さを異ならせる
請求項１から請求項５の何れか１項に記載の学習装置。

【請求項7】

潜在変数を機械学習モデルである画像生成モデルに入力することで、第１被写界深度に係る撮像画像を模擬した第１画像データを生成するステップと、
前記潜在変数を機械学習モデルである三次元生成モデルに入力することで、前記第１画像データに対応する三次元データを生成するステップと、
前記第１画像データと前記三次元データとに基づいて、第２被写界深度に係る撮像画像を模擬した第２画像データを生成するステップと、
前記第１画像データおよび前記第２画像データの分布と、実際の撮像画像の経験分布との近さの度合いを示す学習基準値を算出するステップと、
前記学習基準値に基づいて前記画像生成モデルおよび前記三次元生成モデルのパラメータを更新するステップと、
学習済みの前記画像生成モデルおよび前記三次元生成モデルを出力するステップと
を有する学習済みモデルの生成方法。

【請求項8】

請求項７に記載の学習済みモデルの生成方法によって出力された画像生成モデルに潜在変数を入力することで、撮像画像を模擬した画像データを生成する画像生成部と、
請求項７に記載の学習済みモデルの生成方法によって出力された三次元生成モデルに前記潜在変数を入力することで、三次元データを生成する三次元データ生成部と、
を備えるデータ生成装置。

【請求項9】

請求項７に記載の学習済みモデルの生成方法によって出力された画像生成モデルに潜在変数を入力することで、撮像画像を模擬した画像データを生成するステップと、
請求項７に記載の学習済みモデルの生成方法によって出力された三次元生成モデルに前記潜在変数を入力することで、三次元データを生成するステップと、
を備えるデータ生成方法。

【請求項10】

コンピュータを、請求項１から請求項６の何れか１項に記載の学習装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習装置、学習済みモデルの生成方法、データ生成装置、データ生成方法およびプログラムに関する。

【背景技術】

【0002】

二次元の画像データから、その画像データに対応する三次元データ（深度情報など）を推定することは、長く関心を集めている問題の一つである。この問題を解くための方法として、二次元画像と三次元データのペアデータを教師データとして、二次元画像から三次元データを得る変換器を学習する方法が知られている。しかし、ペアデータを集めるためには専用の機器が必要であり、さらにデータ取得後もデータ間のアライメントを正確に取ることが必要であるため、データ収集コストが高いという問題がある。

【0003】

非特許文献１には、生成モデルによって視点の異なる画像データを、生成される画像データの経験分布が実画像の経験分布と一致するように学習する技術が開示されている。

【先行技術文献】

【非特許文献】

【0004】

【文献】A. Noguchi, T. Harada, “RGBD-GAN: Unsupervised 3D Representation Learning From Natural Image Datasets via RGBD Image Synthesis,” in Proc. ICLR 2020.

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、非特許文献１に記載の技術を実現するためには、学習に用いるデータセットに、複数の異なる視点から撮像された画像データが十分な量含まれている必要がある。そのため、異なる視点に係る画像データを収集することが困難な場合に、適切な学習を行うことができない可能性がある。
本発明の目的は、三次元データに関する補足データなしに、二次元画像と、当該二次元画像に対応する三次元データとを生成することができる学習装置、学習済みモデルの生成方法、データ生成装置、データ生成方法およびプログラムを提供することにある。

【課題を解決するための手段】

【0006】

本発明の一態様は、潜在変数を機械学習モデルである画像生成モデルに入力することで、第１被写界深度に係る撮像画像を模擬した第１画像データを生成する画像生成部と、前記潜在変数を機械学習モデルである三次元生成モデルに入力することで、前記第1画像データに対応する三次元データを生成する三次元データ生成部と、前記第１画像データと前記三次元データとに基づいて、第２被写界深度に係る撮像画像を模擬した第２画像データを生成する変換部と、前記第１画像データおよび前記第２画像データの分布と、実際の撮像画像の経験分布との近さの度合いを示す学習基準値を算出する算出部と、前記学習基準値に基づいて前記画像生成モデルおよび前記三次元生成モデルのパラメータを更新する更新部とを備える学習装置である。

【0007】

本発明の一態様は、潜在変数を機械学習モデルである画像生成モデルに入力することで、第１被写界深度に係る撮像画像を模擬した第１画像データを生成するステップと、前記潜在変数を機械学習モデルである三次元生成モデルに入力することで、前記第1画像データに対応する三次元データを生成するステップと、前記第１画像データと前記三次元データとに基づいて、第２被写界深度に係る撮像画像を模擬した第２画像データを生成するステップと、前記第１画像データおよび前記第２画像データの分布と、実際の撮像画像の経験分布との近さの度合いを示す学習基準値を算出するステップと、前記学習基準値に基づいて前記画像生成モデルおよび前記三次元生成モデルのパラメータを更新するステップと、学習済みの前記画像生成モデルおよび前記三次元生成モデルを出力するステップとを有する学習済みモデルの生成方法である。

【0008】

本発明の一態様は、上記態様に係る学習済みモデルの生成方法によって出力された画像生成モデルに潜在変数を入力することで、撮像画像を模擬した画像データを生成する画像生成部と、上記態様に係る学習済みモデルの生成方法によって出力された三次元生成モデルに前記潜在変数を入力することで、三次元データを生成する三次元データ生成部と、を備えるデータ生成装置である。

【0009】

本発明の一態様は、上記態様に係る学習済みモデルの生成方法によって出力された画像生成モデルに潜在変数を入力することで、撮像画像を模擬した画像データを生成するステップと、上記態様に係る学習済みモデルの生成方法によって出力された三次元生成モデルに前記潜在変数を入力することで、三次元データを生成するステップと、を備えるデータ生成方法である。

【0010】

本発明の一態様は、コンピュータを、上記態様に係る学習装置として機能させるためのプログラムである。

【発明の効果】

【0011】

上記少なくとも１つの態様によれば、三次元データに関する補足データなしに、二次元画像と、当該二次元画像に対応する三次元データとを生成することができる。

【図面の簡単な説明】

【0012】

【図1】第１の実施形態に係るデータ生成システムの構成を示す図である。

【図2】第１の実施形態に係るモデル学習装置の構成を示す概略ブロック図である。

【図3】第１の実施形態に係るモデル学習装置の動作を示すフローチャートである。

【図4】第１の実施形態に係る学習処理におけるデータの変遷を示す図である。

【図5】第１の実施形態に係るデータ生成装置の構成を示す概略ブロック図である。

【図6】少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

【発明を実施するための形態】

【0013】

〈第１の実施形態〉
《データ生成システム１の構成》
図１は、第１の実施形態に係るデータ生成システム１の構成を示す図である。データ生成システム１は、同一の被写体に係る被写界深度の深い撮像画像を模擬した画像データ（ディープデプスオブフィールドイメージ）、被写界深度の浅い撮像画像を模擬した画像データ（シャローデプスオブフィールドイメージ）、および被写体の深度を示す深度データを生成する。ディープデプスオブフィールドイメージは、ピントが合っているように見える範囲が広い画像データである。シャロ―デプスオブフィールドイメージは、ピントが合っているように見える範囲が狭い画像データである。

【0014】

データ生成システム１は、データ生成装置１１とモデル学習装置１３とを備える。
データ生成装置１１は、機械学習モデルである画像生成モデルおよび三次元生成モデルを用いて、ディープデプスオブフィールドイメージ、シャローデプスオブフィールドイメージおよび深度データの組を生成する。
モデル学習装置１３は、実際の撮像画像を学習用データとして用いて画像生成モデルおよび三次元生成モデルの学習を行う。なお、学習用データに係る撮像画像は、三次元データに関する補足データを有する必要はない。つまり、学習用データは深度データなどの三次元データや、視点を異ならせた撮像画像のペアなどを含まなくてもよい。

【0015】

《モデル学習装置１３の構成》
図２は、第１の実施形態に係るモデル学習装置１３の構成を示す概略ブロック図である。第１の実施形態に係るモデル学習装置１３は、学習用データ記憶部１３１、モデル記憶部１３２、潜在変数生成部１３３、画像生成部１３４、三次元データ生成部１３５、変換部１３６、識別部１３７、算出部１３８、更新部１３９を備える。

【0016】

学習用データ記憶部１３１は、複数の画像データを記憶する。各画像データは、撮像装置によって撮像された画像である。学習用データ記憶部１３１は、様々な被写界深度に係る画像データを記憶する。

【0017】

モデル記憶部１３２は、画像生成モデルＧ_Ｉ、深度生成モデルＧ_Ｄ、識別モデルＣ、および被写界深度効果レンダラＲを記憶する。画像生成モデルＧ_Ｉ、深度生成モデルＧ_Ｄおよび識別モデルＣは、いずれもニューラルネットワーク（例えば、畳み込みニューラルネットワーク、全結合ニューラルネットワーク、再帰ニューラルネットワークなど）によって構成される。被写界深度効果レンダラＲは、撮像装置の光学系を模擬する数理モデルによって構成される。

【0018】

画像生成モデルＧ_Ｉは、潜在変数ｚを入力とし、被写界深度の深い撮像画像を模擬した画像データであるディープデプスオブフィールドイメージＩ^ｇ _ｄを出力とする。潜在変数は、画像データを生成するシードとなる任意の数値である。

【0019】

深度生成モデルＧ_Ｄは、潜在変数ｚを入力とし、ディープデプスオブフィールドイメージＩ^ｇ _ｄの被写体の深度を表す深度データＤ^ｇを出力とする。深度データＤ^ｇの要素数はディープデプスオブフィールドイメージＩ^ｇ _ｄの要素数と等しい。画像生成モデルＧ_Ｉと深度生成モデルＧ_Ｄとは、一部の層（例えば、入力層および中間層）を共通とするものであってよい。

【0020】

被写界深度効果レンダラＲは、ディープデプスオブフィールドイメージＩ^ｇ _ｄと深度データＤ^ｇの組を入力とし、ディープデプスオブフィールドイメージＩ^ｇ _ｄと同じ被写体に係る被写界深度の浅い撮像画像を模擬した画像データであるシャローデプスオブフィールドイメージＩ^ｇ _ｓを出力とする。被写界深度効果レンダラＲの詳細については後述する。

【0021】

識別モデルＣは、画像データを入力とし、入力された画像データが実際の撮像画像である確率または実際の撮像画像である度合を示す評価値を出力とする。例えば、識別モデルＣは、実際の撮像画像である確率を出力する場合、入力された画像データがディープデプスオブフィールドイメージＩ^ｇ _ｄまたはシャローデプスオブフィールドイメージＩ^ｇ _ｓである確率が高いほど０に近い値を出力し、実際の撮像データである確率が高いほど１に近い値を出力する。

【0022】

画像生成モデルＧ_Ｉ、深度生成モデルＧ_Ｄ、識別モデルＣおよび被写界深度効果レンダラＲは、ＧＡＮｓ（Generative Adversarial Networks）を構成する。画像生成モデルＧ_Ｉ、深度生成モデルＧ_Ｄおよび被写界深度効果レンダラＲの組み合わせは、Generatorである。識別モデルＣは、Discriminatorである。

【0023】

潜在変数生成部１３３は、乱数に基づいて潜在変数ｚを生成する。例えば、潜在変数生成部１３３は、ガウシアン分布や一様分布などの任意の分布において、ランダムに潜在変数ｚを抽出する。なお、潜在変数生成部１３３は、学習用データ記憶部１３１が記憶する画像データから潜在変数ｚを抽出してもよい。

【0024】

画像生成部１３４は、潜在変数生成部１３３が生成した潜在変数ｚをモデル記憶部１３２が記憶する画像生成モデルＧ_Ｉに入力することで、ディープデプスオブフィールドイメージＩ^ｇ _ｄを生成する。つまり、画像生成部１３４は、以下の式（１）によりディープデプスオブフィールドイメージＩ^ｇ _ｄを算出する。

【0025】

【数1】

【0026】

三次元データ生成部１３５は、潜在変数生成部１３３が生成した潜在変数ｚをモデル記憶部１３２が記憶する深度生成モデルＧ_Ｄに入力することで、三次元データである深度データＤ^ｇを生成する。つまり、三次元データ生成部１３５は、以下の式（２）により深度データＤ^ｇを算出する。

【0027】

【数2】

【0028】

変換部１３６は、画像生成部１３４が生成したディープデプスオブフィールドイメージＩ^ｇ _ｄと三次元データ生成部１３５が生成した深度データＤ^ｇとをモデル記憶部１３２が記憶する被写界深度効果レンダラＲに入力することで、シャローデプスオブフィールドイメージＩ^ｇ _ｓを生成する。つまり、変換部１３６は、ディープデプスオブフィールドイメージＩ^ｇ _ｄをシャローデプスオブフィールドイメージＩ^ｇ _ｓに変換する。つまり、変換部１３６は、以下の式（３）によりシャローデプスオブフィールドイメージＩ^ｇ _ｓを生成する。式（３）においてｓは、ディープデプスオブフィールドイメージＩ^ｇ _ｄとシャローデプスオブフィールドイメージＩ^ｇ _ｓの混合度、すなわち被写界深度の深さの度合いを表す。なお、混合度ｓが０である場合、計算結果はディープデプスオブフィールドイメージＩ^ｇ _ｄと等しくなる。

【0029】

【数3】

【0030】

ここで、被写界深度効果レンダラＲについて説明する。第１の実施形態に係る被写界深度効果レンダラＲは、仮想の光学系における光線の経路を計算し、仮想の光学系における開口面積を広げることで被写界深度の変換を行う。具体的には、被写界深度効果レンダラＲは、深度データＤ^ｇを変形関数Ｔを用いて変形することで、式（４）に示すように画像面上の位置座標ｘおよび開口面上の角度座標ｕと被写体の深度の関係を示す深度マップＭ^ｇ（ｘ，ｕ）を演算する。次に被写界深度効果レンダラＲは、深度マップＭ^ｇ（ｘ，ｕ）に基づいて、式（５）に示すようにディープデプスオブフィールドイメージＩ^ｇ _ｄから、開口面上の視線方向ごとに入射する光によって結像される画像Ｌ^ｇ（ｘ，ｕ）を演算する。そして、被写界深度効果レンダラＲは、式（６）に示すように光学系の開口を模擬するインディケータＡ（ｕ）を用いて画像Ｌ^ｇ（ｘ，ｕ）を統合することで、シャローデプスオブフィールドイメージＩ^ｇ _ｓを生成する。

【0031】

【数4】

【0032】

【数5】

【0033】

【数6】

【0034】

式（５）におけるｍ（hat）は、ピント位置までの距離（過焦点距離）を示す。ｍ（hat）は、学習によって獲得される値であってもよいし、所定の分布から抽出される乱数であってもよいし、定数（例えばゼロ）であってもよい。
インディケータＡ（ｕ）は、開口部に相当する要素の値が正値で、開口部以外の要素の値が０であり、すべての要素の値の和が１となる行列である。インディケータＡ（ｕ）が模擬する開口部の形状は例えば円形である。このように、被写界深度効果レンダラＲには、光線空間を考慮した光学的な制約が与えられている。これにより、被写界深度効果レンダラＲは、光学的に整合性のとれた画像変換を実現することができる。

【0035】

なお、被写界深度効果レンダラＲは、深度データＤ_ｇ（ｘ）に基づくワーピング関数（変形関数）によって構成されてもよいし、ニューラルネットワークモデルによって構成されてもよい。被写界深度効果レンダラＲがニューラルネットワークモデルを構成に含む場合、ワーピング関数による変形結果に基づく制約を与えられてもよい。具体的には、被写界深度効果レンダラＲは、ワーピング関数によって変形された深度データＤ_ｇをニューラルネットワークモデルに入力するように構成されてもよい。

【0036】

識別部１３７は、ディープデプスオブフィールドイメージＩ^ｇ _ｄ、シャローデプスオブフィールドイメージＩ^ｇ _ｓおよび学習用データ記憶部１３１が記憶する撮像画像を識別モデルＣに入力することで、入力された画像データが実際の撮像画像である度合を示す評価値を算出する。

【0037】

算出部１３８は、画像生成モデルＧ_Ｉ、深度生成モデルＧ_Ｄおよび識別モデルＣの学習に用いる学習基準（損失関数）を算出する。具体的には、算出部１３８は、敵対的学習基準に基づいて学習基準を算出する。
敵対的学習基準Ｌ_{ＡＲ－ＧＡＮ}とは、画像データが実際の撮像画像であるか撮像画像を模擬した画像データであるかの判断の正確さを示す指標である。算出部１３８は、以下の式（７）に示すように、敵対的学習基準Ｌ_{ＡＲ－ＧＡＮ}を求める。

【0038】

【数7】

【0039】

式（７）において、ｓ～Ｐ_ｓ（ｓ）は、ディープデプスオブフィールドイメージＩ^ｇ _ｄとシャローデプスオブフィールドイメージＩ^ｇ _ｓの混合度、すなわち被写界深度の深さの度合いを表す。分布Ｐ_ｓ（ｓ）は、０以上１以下の値域に係る分布、例えば二項分布や一様分布などを用いることができる。また、ｚ～Ｐ_ｚ（ｚ）は、潜在変数ｚを分布Ｐ_ｚ（ｚ）から抽出する処理を示す。なお、式（７）では学習基準としてクロスエントロピーを用いるが、これに限られず、Ｌ１距離やＬ２距離、ワッサースタイン距離などの任意の距離基準に基づく学習基準を用いてもよい。

【0040】

更新部１３９は、算出部１３８が算出した敵対的学習基準Ｌ_{ＡＲ－ＧＡＮ}に基づいて画像生成モデルＧ_Ｉ、深度生成モデルＧ_Ｄおよび識別モデルＣのパラメータを更新する。具体的には、更新部１３９は、識別モデルＣについて、敵対的学習基準Ｌ_{ＡＲ－ＧＡＮ}が大きくなるようにパラメータを更新する。また更新部１３９は、画像生成モデルＧ_Ｉおよび深度生成モデルＧ_Ｄについて、敵対的学習基準Ｌ_{ＡＲ－ＧＡＮ}が小さくなるようにパラメータを更新する。また、被写界深度効果レンダラＲが学習可能なパラメータを持つ場合、被写界深度効果レンダラＲについて、敵対的学習基準Ｌ_{ＡＲ－ＧＡＮ}が小さくなるようにパラメータを更新する。

【0041】

シャローデプスオブフィールドイメージＩ^ｇ _ｓは、光学的制約を有する被写界深度効果レンダラＲを用いて、深度データＤ^ｇから生成される。そのため、識別モデルＣがシャローデプスオブフィールドイメージＩ^ｇ _ｓを実際の撮像画像であると誤判定させるためには、上記光学的制約の下、適切な深度データＤ^ｇを生成する必要がある。したがって、第１の実施形態に係るモデル学習装置１３は、上記の学習基準に従ってパラメータを更新することで、ディープデプスオブフィールドイメージＩ^ｇ _ｄ、シャローデプスオブフィールドイメージＩ^ｇ _ｓおよび深度データＤ^ｇの組が適切に生成できるように画像生成モデルＧ_Ｉおよび深度生成モデルＧ_Ｄのパラメータを更新することができる。また、被写界深度効果レンダラＲが学習可能なパラメータを持つ場合、被写界深度効果レンダラＲのパラメータを更新することができる。

【0042】

《モデル学習装置１３の動作》
図３は、第１の実施形態に係るモデル学習装置１３の動作を示すフローチャートである。図４は、第１の実施形態に係る学習処理におけるデータの変遷を示す図である。
モデル学習装置１３が学習処理を開始すると、以下に示すステップＳ１からステップＳ６の処理を、所定回数繰り返し実行する。まず潜在変数生成部１３３は、乱数と所定の分布とに基づいて潜在変数ｚを生成する（ステップＳ１）。次に、画像生成部１３４は、ステップＳ１で生成した潜在変数ｚをモデル記憶部１３２が記憶する画像生成モデルＧ_Ｉに入力することで、ディープデプスオブフィールドイメージＩ^ｇ _ｄを生成する（ステップＳ２）。

【0043】

また三次元データ生成部１３５は、ステップＳ１で生成した潜在変数ｚをモデル記憶部１３２が記憶する深度生成モデルＧ_Ｄに入力することで、深度データＤ^ｇを生成する（ステップＳ３）。次に、変換部１３６は、０以上１以下の混合度ｓを所定の分布に従って決定する（ステップＳ４）。変換部１３６は、ステップＳ２で生成したディープデプスオブフィールドイメージＩ^ｇ _ｄと、ステップＳ３で生成した深度データＤ^ｇに混合度ｓを乗算したものとを、モデル記憶部１３２が記憶する被写界深度効果レンダラＲに入力することで、シャローデプスオブフィールドイメージＩ^ｇ _ｓを生成する（ステップＳ５）。なお、混合度ｓがゼロである場合、生成されるシャローデプスオブフィールドイメージＩ^ｇ _ｓはディープデプスオブフィールドイメージＩ^ｇ _ｄと一致する。次に、識別部１３７は、シャローデプスオブフィールドイメージＩ^ｇ _ｓを識別モデルＣに入力することで、入力されたシャローデプスオブフィールドイメージＩ^ｇ _ｓが実際の撮像画像である度合を示す評価値を算出する（ステップＳ６）。

【0044】

モデル学習装置１３は、所定数の潜在変数ｚから生成されたシャローデプスオブフィールドイメージＩ^ｇ _ｓについての評価値を算出すると、以下に示すステップＳ７からステップＳ８の処理を所定回数繰り返し実行する。まず識別部１３７は、学習用データ記憶部１３１から任意の撮像画像を読み出す（ステップＳ７）。識別部１３７は、読み出した撮像画像を識別モデルＣに入力することで、入力された撮像画像が実際の撮像画像である度合を示す評価値を算出する（ステップＳ８）。

【0045】

算出部１３８は、ステップＳ６で算出した評価値およびステップＳ８で算出した評価値を用いて、上述の式（７）に基づいて敵対的学習基準Ｌ_{ＡＲ－ＧＡＮ}を算出する（ステップＳ９）。更新部１３９は、ステップＳ９で算出した敵対的学習基準Ｌ_{ＡＲ－ＧＡＮ}に基づいて画像生成モデルＧ_Ｉ、深度生成モデルＧ_Ｄおよび識別モデルＣのパラメータを更新する（ステップＳ１０）。また、被写界深度効果レンダラＲが学習可能なパラメータを持つ場合、被写界深度効果レンダラＲのパラメータを更新する。

【0046】

更新部１３９は、ステップＳ１からステップＳ１０によるパラメータの更新を、所定のエポック数だけ繰り返し実行したか否かを判定する（ステップＳ１１）。繰り返しが所定のエポック数に満たない場合（ステップＳ１１：ＮＯ）、モデル学習装置１３はステップＳ１に処理を戻し、学習処理を繰り返し実行する。

【0047】

他方、繰り返しが所定のエポック数に達した場合（ステップＳ１１：ＹＥＳ）、モデル学習装置１３は学習処理を終了する。これにより、モデル学習装置１３は、学習済みモデルである画像生成モデルＧ_Ｉおよび深度生成モデルＧ_Ｄを生成することができる。また、被写界深度効果レンダラＲが学習可能なパラメータを持つ場合、学習済みモデルである被写界深度効果レンダラＲを生成することができる。

【0048】

《データ生成装置１１の構成》
図５は、第１の実施形態に係るデータ生成装置１１の構成を示す概略ブロック図である。
第１の実施形態に係るデータ生成装置１１は、モデル記憶部１１１、潜在変数生成部１１２、画像生成部１１３、三次元データ生成部１１４、変換部１１５、出力部１１６を備える。

【0049】

モデル記憶部１１１は、モデル学習装置１３による学習済みの画像生成モデルＧ_Ｉおよび深度生成モデルＧ_Ｄ、およびモデル学習装置１３と同じ被写界深度効果レンダラＲを記憶する。

【0050】

潜在変数生成部１１２、画像生成部１１３、三次元データ生成部１１４および変換部１１５は、モデル学習装置１３が備える、潜在変数生成部１３３、画像生成部１３４、三次元データ生成部１３５および変換部１３６と同様の処理を実行する。なお、変換部１１５は、シャローデプスオブフィールドイメージＩ^ｇ _ｓを生成する際、混合度ｓを１として計算する。

【0051】

出力部１１６は、画像生成部１１３が生成したディープデプスオブフィールドイメージＩ^ｇ _ｄ、三次元データ生成部１１４が生成した深度データＤ_ｇおよび変換部１１５が生成したシャローデプスオブフィールドイメージＩ^ｇ _ｓを出力する。

【0052】

《作用・効果》
これにより、データ生成装置１１は、二次元画像であるディープデプスオブフィールドイメージＩ^ｇ _ｄおよびシャローデプスオブフィールドイメージＩ^ｇ _ｓと、三次元データである深度データＤ_ｇとの組を生成することができる。データ生成装置１１がこれらのデータの組を生成するために用いる画像生成モデルＧ_Ｉおよび深度生成モデルＧ_Ｄは、三次元データに関する補足データなしに学習されたものである。つまり、第１の実施形態に係るデータ生成システム１によれば、三次元データに関する補足データなしに、二次元画像と、当該二次元画像に対応する三次元データとを生成することができる。

【0053】

これは、モデル学習装置１３が、ディープデプスオブフィールドイメージＩ^ｇ _ｄの経験分布およびディープデプスオブフィールドイメージＩ^ｇ _ｄと深度データＤ_ｇから生成されたシャローデプスオブフィールドイメージＩ^ｇ _ｓの経験分布が、いずれも実際の撮像画像の経験分布に近くなるようにモデルを学習させるためである。つまり、ディープデプスオブフィールドイメージＩ^ｇ _ｄと深度データＤ_ｇから生成されたシャローデプスオブフィールドイメージＩ^ｇ _ｓが、実際の撮像画像の経験分布に近くなるためには、適切な深度データＤ_ｇが得られている必要があり、シャローデプスオブフィールドイメージＩ^ｇ _ｓが、実際の撮像画像の経験分布に近くなったということは、モデルが適切な深度データＤ_ｇを得ることができるように学習されたことを示すためである。

【0054】

《実験結果》
第１の実施形態に係るデータ生成システム１を用いたデータペアの生成の実験結果の一例を説明する。実験では、学習用データとして花画像、鳥画像、顔画像に係る撮像画像が用いられた。

【0055】

実験では、データ生成システム１は正規分布Ｎ（０，１）に基づいてランダムに潜在変数ｚを抽出した。画像生成モデルＧ_Ｉ、深度生成モデルＧ_Ｄおよび識別モデルＣは、ＣＮＮによって構成した。被写体深度効果レンダラＲの変形関数Ｔは、Ｄ^ｇ（ｘ）に基づいてワーピングを行った後、ＣＮＮを適用する構成を用いた。

【0056】

実験において、非特許文献１に記載のＲＧＢＤ－ＧＡＮを比較例とした。
評価方法として、第１の実施形態に係るデータ生成システム１および非特許文献１の手法のそれぞれで生成されたデータペアを教師データとして用いた画像データから深度データへの変換器の精度を比較する方法を採用した。具体的には、第１の実施形態に係るデータ生成システム１および非特許文献１の手法のそれぞれで生成されたデータペアを教師データとして用いた変換器による計算結果と、実際の撮像画像と実際の深度データのペア（実ペアデータ）とを教師データとして用いた変換器による計算結果との一致度を比較した。評価尺度は、Scale-Invariant Depth Error（ＳＩＤＥ）を用いた。ＳＩＤＥは、値が小さいほど性能がよいことを示す。

【0057】

その結果、第１の実施形態に係るデータ生成システム１が非特許文献１の手法よりもＳＩＤＥの値が小さいことを確認した。すなわち、第１の実施形態に係るデータ生成システム１が非特許文献１の手法よりも実ペアデータを用いて学習した変換結果との一致度が高いことを確認した。なお、非特許文献１の手法は、視点に関する手がかりを予め取得しておく必要があるのに対し、第１の実施形態に係るデータ生成システム１ではこのような情報が不要である。また、非特許文献１の手法は、画像データと深度データのペアを生成するのに対し、第１の実施形態に係るデータ生成システム１は、ディープデプスオブフィールドイメージＩ^ｇ _ｄ、深度データＤ_ｇおよびシャローデプスオブフィールドイメージＩ^ｇ _ｓの組を得ることができる。

【0058】

〈第２の実施形態〉
第１の実施形態に係るデータ生成システム１は、光線空間に基づく光学的な制約を有する被写界深度効果レンダラＲを用いてシャローデプスオブフィールドイメージＩ^ｇ _ｓを生成する。これに対し、第２の実施形態に係るデータ生成システム１は、深度とボケ効果の大きさとの関係に基づく光学的な制約を有する被写界深度効果レンダラＲを用いてシャローデプスオブフィールドイメージＩ^ｇ _ｓを生成する。

【0059】

第２の実施形態に係る被写界深度効果レンダラＲは、以下の式（８）、（９）で表されるカーネルｋを用いて計算を行う。

【0060】

【数8】

【0061】

【数9】

【0062】

式（８）において，［・］はアイバーソンの記法を表し、括弧内の条件が真ならば１、偽ならば０をとる。ｍは、被写体の位置を基準としたピント位置の深度を示す。深度ｍがゼロであることは、被写体にフォーカスがあっていることを示す。深度ｍが正の値であることは、ピント位置が被写体より手前側に位置することを示す。深度ｍが負の値であることは、ピント位置が被写体より奥側に位置することを示す。この定義により，ｋ（hat）（ｘ，ｍ）は，半径｜ｍ｜以内の中央部のみ値１を持ち，それ以外は値０を持つ。つまり、深度｜ｍ｜が大きければ大きいほど、中央の円形部の大きさは大きくなり、このカーネルを画像に畳み込んだ時のボケ効果は大きくなる。また式（９）は、ｋ（ｘ，ｍ）の要素の値の合計が１となるようにｋ（hat）（ｘ，ｍ）を正規化する処理を表す式である。

【0063】

また、第２の実施形態では、三次元データ生成部１３５は、Ｄ^ｇを算出する前段階として、三次元データ生成部１３５は、深度情報の確率分布Ｐ（ｘ，ｍ）を生成する。ここで、Ｐ（ｘ，ｍ）は位置座標ｘの深度ｍにおける深度の存在確率を表す。つまり、各座標ｘについて存在確率Ｐ（ｘ，ｍ）の総和は１となる。Ｐ（ｘ，ｍ）が得られたとき，Ｄ^ｇ（ｘ）は、例えば式（１０）に示すように、Ｐ（ｘ，ｍ）に対して，各座標ｘごとに最大となる深度ｍを算出することによって求めることが可能である。

【0064】

【数10】

【0065】

三次元データ生成部１３５は、式（１０）の演算を行う際、前処理として、Ｐ（ｘ，ｍ）に対してスムージングなどを行なってもよい。そして、変換部１３６は、以下の式（１１）にように、カーネルｋ（ｘ，ｍ）とディープデプスオブフィールドイメージＩ^ｇ _ｄとを畳み込んだ結果と、深度データの確率分布Ｐ（ｘ，ｍ）とを乗算し、その和をとることによりシャローデプスオブフィールドイメージＩ^ｇ _ｓを合成することができる。

【0066】

【数11】

【0067】

式（１１）において演算子＊は畳み込み演算を表す。このように、第２の実施形態に係る被写界深度効果レンダラＲを用いた演算は、形状が事前に定められたカーネルｋとの畳み込みと、その重み付き和とに制約される。これにより、変換部１３６は、第１の実施形態と同様に、光学的に整合性のとれた変換を実現することができ、変換の過程において画像の内容を大きく棄損することなくボケ度合だけを変えることができる。
また、第１の実施形態に係るデータ生成システム１では、式（３）において、深度データに混合度ｓを乗算することによって被写界深度の度合いを調整するが、第２の実施形態に係るデータ生成システム２においては、式（１１）において、ｋ（ｘ，ｍ）のｍに混合度ｓを乗算する（つまり、ｋ（ｘ，ｓ・ｍ）とする）ことによって、被写界深度の度合いを調整することが可能である。例えば、ｓが０の場合、ｋ（ｘ，ｍ）は中心のみが１で、それ以外は０のカーネルとなるため、式（１１）の出力は、被写界深度の深い画像になる。

【0068】

〈第３の実施形態〉
画像におけるボケは、被写体がピント位置より手前側にある場合と、奥側にあるために発生している場合とのそれぞれにおいて発生する。一方で、画像データから、被写体が手前側に存在するためにボケが生じているか、奥側に存在するためにボケが生じているかを判断することは困難である。そこで、第３の実施形態に係るデータ生成システム１では、ピントが合う被写体（対象物）が画像の中心近傍に存在する可能性が高く、また対象物の近傍に写る被写体は背景であることが多いというヒューリスティックスに基づいて、モデルの更新に用いる目的関数を算出する。

【0069】

第３の実施形態に係る算出部１３８は、式（７）に示す敵対的学習基準Ｌ_{ＡＲ－ＧＡＮ}に加え、以下の式（１２）、（１３）で表される深度学習基準Ｌ_ｐを求める。

【0070】

【数12】

【0071】

【数13】

【0072】

式（１２）においてｒは画像中心からの距離を示し、ｒ_ｔｈとｇはそれぞれ対象物の大きさと深さを定めるハイパーパラメータである。式（１２）に示す事前深度データＤ_ｐは、半径ｒ_ｔｈ以内はピント位置にあることを示し、中心からの距離がｒ_ｔｈより遠いほど、ピント位置より奥側に位置することを示す。また式（１３）においてλ_ｐは深度学習基準Ｌ_ｐの重みを表すハイパーパラメータである。深度学習基準Ｌ_ｐは、深度データＤ_ｇと事前深度データＤ_ｐとの距離がゼロに近いほど低くなる。つまり、深度学習基準Ｌ_ｐは、深度データＤ^ｇのうち少なくともフォーカスされる可能性が高い部分と予め定めたピント位置に係る深度との距離がゼロに近いほど低くなる。なお、式（１３）では学習基準としてＬ２距離に基づくものを用いるが、これに限られず、Ｌ１距離やワッサースタイン距離などの任意の距離基準に基づく学習基準を用いてもよい。

【0073】

上記の例では、予め定めたピント位置での深度をゼロ、当該位置以外での深度を、ピント位置より奥側となるように予め定めた値としているが、これに限られない。例えば、ヒューリスティックスに基づいて、画像の一部または全体領域における各位置での深度を予め定めておくことができる場合、深度学習基準Ｌ_ｐは、各位置において深度データＤ_ｇと当該予め定めた深度との距離がゼロに近いほど低くなるものであってよい。また、式（１３）に示す深度学習基準Ｌ_ｐは、画像の全体領域について深度データＤ_ｇが示す深度と予め定めた深度との距離を求めるが、これに限られない。例えば深度学習基準Ｌ_ｐは、深度データＤ_ｇのうち半径ｒ_ｔｈ以内の領域や、ヒューリスティックスに基づいてフォーカスされる可能性が高いと判定された領域など、深度データＤ_ｇの一部領域のみにおける距離に基づいて計算されるものであってもよい。また例えば深度学習基準Ｌ_ｐは、深度データＤ_ｇのうち半径ｒ_ｔｈより外側の領域や、ヒューリスティックスに基づいてフォーカスされる可能性が低いと判定された領域などにおける深度が、遠景または近景に係る予め定めた深度に近いほど低くなるものであってもよい。

【0074】

更新部１３９は、敵対的学習基準Ｌ_{ＡＲ－ＧＡＮ}と深度学習基準Ｌ_ｐの和に基づいて、深度生成モデルＧ_Ｄのパラメータを更新する。これにより、中心にフォーカスがあい、周囲が背景となる深度データＤ^ｇが生成されることが促進される。なお、更新部１３９は、深度学習基準Ｌ_ｐを学習の全工程において用いてもよいし、学習の途中段階まで用いてもよい。更新部１３９は、深度学習基準Ｌ_ｐを所定のエポック数に至るまで用い、以降用いないようにすることで、実際の深度データと事前深度データＤ_ｐとにギャップがあった場合のネガティブな効果を抑制することができる。

【0075】

《変形例》
第３の実施形態に係るデータ生成システム１は、対象物が画像の中心近傍に存在する可能性が高く、また対象物の近傍に写る被写体は背景であることが多いというヒューリスティックスに基づいて、式（１２）に基づいて事前深度データＤ_ｐを算出するが、これに限られない。例えば、他の実施形態においては、対象物の近傍に写る被写体は前景であることが多いというヒューリスティックスに基づいて計算してもよいし、人の顔がフォーカスされる可能性が高いというヒューリスティックスに基づいて、パターンマッチング処理により検出された顔の位置に基づいて事前深度データＤ_ｐを算出してもよい。また、ｒ_ｔｈおよびｇをハイパーパラメータではなく学習により更新するパラメータとしてもよい。

【0076】

〈他の実施形態〉
以上、図面を参照して一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、様々な設計変更等をすることが可能である。すなわち、他の実施形態においては、上述の処理の順序が適宜変更されてもよい。また、一部の処理が並列に実行されてもよい。
上述した実施形態に係るデータ生成システム１は、データ生成装置１１とモデル学習装置１３とを備えるが、単独のコンピュータによって構成されるものであってもよい。

【0077】

上述した実施形態に係るデータ生成システム１は、ＧＡＮｓによって画像生成モデルＧ_Ｉおよび深度生成モデルＧ_Ｄのパラメータを更新するが、これに限られない。例えば、他の実施形態に係るデータ生成システム１は、Variational Autoencoder、Flow Model、Denoising Diffusion Probablistic Modelなどの任意の生成モデルにおける学習基準によって画像生成モデルＧ_Ｉおよび深度生成モデルＧ_Ｄのパラメータを更新してもよい。

【0078】

また、上述の実施形態に係る被写界深度効果レンダラＲは、光学系の制約を模擬する数理モデルであるが、これに限られない。例えば被写界深度効果レンダラＲは、ニューラルネットワークによって構成された学習済みモデルであってもよい。また、光学系に関わるパラメータなど被写界深度効果レンダラＲの一部のパラメータを学習パラメータとして持っていてもよい。また、被写界深度効果レンダラＲが学習可能なパラメータを持つ場合、画像生成モデルＧ_Ｉおよび深度生成モデルＧ_Ｄと同時に学習してもよい。

【0079】

また、上述の実施形態に係るデータ生成装置１１は、ディープデプスオブフィールドイメージＩ^ｇ _ｄ、シャローデプスオブフィールドイメージＩ^ｇ _ｓおよび深度データＤ^ｇの組を出力するが、これに限られない。例えば、他の実施形態に係るデータ生成装置１１は、ディープデプスオブフィールドイメージＩ^ｇ _ｄと深度データＤ^ｇの組を出力し、シャローデプスオブフィールドイメージＩ^ｇ _ｓを出力しなくてもよい。また、他の実施形態に係るデータ生成装置１１は、シャローデプスオブフィールドイメージＩ^ｇ _ｓと深度データＤ^ｇの組を出力し、ディープデプスオブフィールドイメージＩ^ｇ _ｄを出力しなくてもよい。また、他の実施形態に係るデータ生成装置１１は、ディープデプスオブフィールドイメージＩ^ｇ _ｄとシャローデプスオブフィールドイメージＩ^ｇ _ｓの組を出力し、深度データＤ^ｇを出力しなくてもよい。また、他の実施形態に係るデータ生成装置１１は、ディープデプスオブフィールドイメージＩ^ｇ _ｄ、シャローデプスオブフィールドイメージＩ^ｇ _ｓおよび深度データＤ^ｇの組の少なくとも一部を統合したデータを出力してもよい。例えばデータ生成装置１１は、ディープデプスオブフィールドイメージＩ^ｇ _ｄと深度データＤ^ｇを、深度情報を含む画像データとして出力してもよい。

【0080】

〈コンピュータ構成〉
図６は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
コンピュータ２０は、プロセッサ２１、メインメモリ２３、ストレージ２５、インタフェース２７を備える。
上述のデータ生成装置１１およびモデル学習装置１３は、コンピュータ２０に実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージ２５に記憶されている。プロセッサ２１は、プログラムをストレージ２５から読み出してメインメモリ２３に展開し、当該プログラムに従って上記処理を実行する。また、プロセッサ２１は、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリ２３に確保する。プロセッサ２１の例としては、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、マイクロプロセッサなどが挙げられる。

【0081】

プログラムは、コンピュータ２０に発揮させる機能の一部を実現するためのものであってもよい。例えば、プログラムは、ストレージに既に記憶されている他のプログラムとの組み合わせ、または他の装置に実装された他のプログラムとの組み合わせによって機能を発揮させるものであってもよい。なお、他の実施形態においては、コンピュータ２０は、上記構成に加えて、または上記構成に代えてＰＬＤ（Programmable Logic Device）などのカスタムＬＳＩ（Large Scale Integrated Circuit）を備えてもよい。ＰＬＤの例としては、ＰＡＬ(Programmable Array Logic)、ＧＡＬ(Generic Array Logic)、ＣＰＬＤ(Complex Programmable Logic Device)、ＦＰＧＡ（Field Programmable Gate Array）が挙げられる。この場合、プロセッサ２１によって実現される機能の一部または全部が当該集積回路によって実現されてよい。このような集積回路も、プロセッサの一例に含まれる。

【0082】

ストレージ２５の例としては、磁気ディスク、光磁気ディスク、光ディスク、半導体メモリ等が挙げられる。ストレージ２５は、コンピュータ２０のバスに直接接続された内部メディアであってもよいし、インタフェース２７または通信回線を介してコンピュータ２０に接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ２０に配信される場合、配信を受けたコンピュータ２０が当該プログラムをメインメモリ２３に展開し、上記処理を実行してもよい。少なくとも１つの実施形態において、ストレージ２５は、一時的でない有形の記憶媒体である。

【0083】

また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能をストレージ２５に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【符号の説明】

【0084】

１…データ生成システム１１…データ生成装置１１１…モデル記憶部１１２…潜在変数生成部１１３…画像生成部１１４…三次元データ生成部１１５…変換部１１６…出力部１３…モデル学習装置１３１…学習用データ記憶部１３２…モデル記憶部１３３…潜在変数生成部１３４…画像生成部１３５…三次元データ生成部１３６…変換部１３７…識別部１３８…算出部１３９…更新部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版