特許7076598 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社ＡＬＢＥＲＴの特許一覧

特許7076598動画又は複数画像からの３次元情報生成装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2022-05-19

(45)【発行日】2022-05-27

(54)【発明の名称】動画又は複数画像からの３次元情報生成装置

(51)【国際特許分類】

G06T 7/00 20170101AFI20220520BHJP

G06T 7/55 20170101ALI20220520BHJP

【ＦＩ】

G06T7/00 350C

G06T7/55

【請求項の数】 11

(21)【出願番号】P 2021015508

(22)【出願日】2021-02-03

【審査請求日】2021-02-03

(73)【特許権者】

【識別番号】518439860

【氏名又は名称】株式会社ＡＬＢＥＲＴ

(74)【代理人】

【識別番号】110000855

【氏名又は名称】特許業務法人浅村特許事務所

(72)【発明者】

【氏名】山内隆太郎

【審査官】間野裕一

(56)【参考文献】

【文献】特開２００６－１１３８３２（ＪＰ，Ａ）

【文献】特開２０１６－７０８８４（ＪＰ，Ａ）

【文献】特表２０１７－５０３２９０（ＪＰ，Ａ）

【文献】国際公開第２０１９／０２１５６９（ＷＯ，Ａ１）

【文献】鷲本昂樹他，カメラ映像を用いたｃＧＡＮに基づく深度推定に関する検討，第２５回画像センシングシンポジウム（ＳＳＩＩ２０１９），画像センシング技術研究会，2019年06月12日，IS1-32

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｔ１／００

(57)【特許請求の範囲】

【請求項1】

画像から３次元情報を復元する３次元情報生成装置であって、
ターゲット画像及び当該ターゲット画像とは視点が異なる少なくとも１つのソース画像を取得する画像取得部と、
第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）を用いて前記ターゲット画像における各位置の深度を予測し、深度マップを生成する深度マップ生成部と、
第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）を用いて前記ターゲット画像と前記ソース画像との間の相対姿勢を予測する相対姿勢予測部と、
前記深度マップ生成部で生成された前記深度マップと、前記相対姿勢予測部で予測された前記相対姿勢を用いて、仮想的な前記ターゲット画像であるターゲット想定画像を前記ソース画像から生成するためのリサンプリング・グリッドを生成するリサンプリング・グリッド生成部と、
前記ターゲット画像及び前記ターゲット想定画像の差を最小化するように前記第１の畳み込みニューラルネットワーク及び前記第２の畳み込みニューラルネットワークのパラメータを更新するパラメータ更新部と、
を備え、
前記リサンプリング・グリッド生成部は、前記ターゲット画像における歪みを除去してから前記深度マップを用いて３次元情報を生成し、当該３次元情報から前記相対姿勢を用いて前記ソース画像の視点からの画像平面に投影し、当該画像平面に歪みを付与して前記ソース画像と対応付けることで前記リサンプリング・グリッドを生成することを特徴とする、３次元情報生成装置。

【請求項2】

前記リサンプリング・グリッド生成部は、歪み係数の関数についての近似計算式を用いて前記ターゲット画像における歪みを除去することを特徴とする、請求項１に記載の３次元情報生成装置。

【請求項3】

前記リサンプリング・グリッド生成部は、前記ターゲット画像における歪みを除去する算出過程で、反復計算を用いた算出結果のベクトルに替えて、歪み係数の関数を１次近似した式から求まるベクトルを用いることを特徴とする、請求項１又は２に記載の３次元情報生成装置。

【請求項4】

前記反復計算は、ニュートン・ラフソン（Ｎｅｗｔｏｎ－Ｒａｐｈｓｏｎ）法を用いて歪みを除去する計算であることを特徴とする、請求項３に記載の３次元情報生成装置。

【請求項5】

前記リサンプリング・グリッド生成部で生成された前記リサンプリング・グリッドを用いて前記ソース画像の各画素をリサンプリングし、前記ターゲット想定画像を合成する画像合成部を更に備えることを特徴とする、請求項１から４の何れか１項に記載の３次元情報生成装置。

【請求項6】

画像から３次元情報を復元する３次元情報生成方法であって、
ターゲット画像及び当該ターゲット画像とは視点が異なる少なくとも１つのソース画像を取得するステップと、
第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）を用いて前記ターゲット画像における各位置の深度を予測し、深度マップを生成するステップと、
第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）を用いて前記ターゲット画像と前記ソース画像との間の相対姿勢を予測するステップと、
前記深度マップを生成するステップで生成された前記深度マップと、前記相対姿勢を予測するステップで予測された前記相対姿勢を用いて、仮想的な前記ターゲット画像であるターゲット想定画像を前記ソース画像から生成するためのリサンプリング・グリッドを生成するステップと、
前記ターゲット画像及び前記ターゲット想定画像の差を最小化するように前記第１の畳み込みニューラルネットワーク及び前記第２の畳み込みニューラルネットワークのパラメータを更新するステップと、
を含み、
前記リサンプリング・グリッドを生成するステップは、前記ターゲット画像における歪みを除去してから前記深度マップを用いて３次元情報を生成し、当該３次元情報から前記相対姿勢を用いて前記ソース画像の視点からの画像平面に投影し、当該画像平面に歪みを付与して前記ソース画像と対応付けることで前記リサンプリング・グリッドを生成することを特徴とする、３次元情報生成方法。

【請求項7】

前記リサンプリング・グリッドを生成するステップは、歪み係数の関数についての近似計算式を用いて前記ターゲット画像における歪みを除去することを特徴とする、請求項６に記載の３次元情報生成方法。

【請求項8】

前記リサンプリング・グリッドを生成するステップは、前記ターゲット画像における歪みを除去する算出過程で、反復計算を用いた算出結果のベクトルに替えて、歪み係数の関数を１次近似した式から求まるベクトルを用いることを特徴とする、請求項６又は７に記載の３次元情報生成方法。

【請求項9】

前記反復計算は、ニュートン・ラフソン（Ｎｅｗｔｏｎ－Ｒａｐｈｓｏｎ）法を用いて歪みを除去する計算であることを特徴とする、請求項８に記載の３次元情報生成方法。

【請求項10】

前記生成するステップで生成された前記リサンプリング・グリッドを用いて前記ソース画像の各画素をリサンプリングし、前記ターゲット想定画像を合成するステップを更に備えることを特徴とする、請求項６に記載の３次元情報生成方法。

【請求項11】

コンピュータに、請求項６～１０のいずれか一項に記載の方法の各ステップを実行させることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、３次元情報生成装置に関し、特に、動画又は複数画像から３次元情報を生成する３次元情報生成装置に関するものである。

【背景技術】

【0002】

近年、動画又は画像のデータから取得した３次元データを活用し、物体認識や自動運転、ロボット制御等に応用する際に、大量の動画又は画像のデータを学習データとした自己教師あり学習済みモデルを用いて深度の推定を行うことが試みられている。

【先行技術文献】

【特許文献】

【0003】

【文献】特表２０２０－５２６８１８号公報

【文献】ＴｉｎｇｈｕｉＺｈｏｗ，ＭａｔｔｈｅｗＢｒｏｗｎ，ＮｏａｈＳｎａｖｅｌｙ，ＤａｖｉｄＬｏｗｅ， “ＵｎｓｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇｏｆＤｅｐｔｈａｎｄＥｇｏ－ＭｏｔｉｏｎｆｒｏｍＶｉｄｅｏ”，ＣＶＰＲ２０１７（Ｏｒａｌ）

【文献】ＡｒｉｅｌＧｏｒｄｏｎ，ＨａｎｈａｎＬｉ，ＲｉｃｏＪｏｎｓｃｈｋｏｗｓｋｉ，Ａｎｇｅｌｏｖａ， “ＤｅｐｔｈｆｒｏｍＶｉｄｅｏｓｉｎｔｈｅＷｉｌｄ：ＵｎｓｕｐｅｒｖｉｓｅｄＭｏｎｏｃｕｌａｒＤｅｐｔｈＬｅａｒｎｉｎｇｆｒｏｍＵｎｋｎｏｗｎＣａｍｅｒａｓ”，ＴｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ），２０１９，ｐｐ．８９７７－８９８６

【発明の概要】

【発明が解決しようとする課題】

【0004】

例えば、特許文献１では、２枚の２次元画像をＣＮＮ（畳み込みニューラルネットワーク）に学習させて３次元情報を取得する技術が開示されている。

【0005】

また、非特許文献１では、単眼動画のみから深度推定を学習する技術として、ＤｅｐｔｈＣＮＮを用いて深度推定し、ＰｏｓｅＣＮＮを用いて自己位置の変化、即ち、カメラの外部行列を推定し、Ｂｉｌｉｎｅａｒｓａｍｐｌｅｒを用いて画像をゆがめ、隣接フレームを合成する技術を開示している。

【0006】

しかしながら、上述した特許文献１及び非特許文献１では、深度推定を行うにあたり、レンズの歪みを考慮していないため、画像にレンズ歪みが含まれると推定の精度が悪くなっていた。また、レンズ歪みを学習モデルとして扱うには画像撮影に用いたレンズの焦点距離などのカメラパラメータが必要となっており、例えばインターネット（登録商標）で公開される動画等、撮影時のカメラパラメータが不明な画像や動画は学習データとして用いることができなかった。

【0007】

そこで、本発明は、上記課題を解決し、カメラパラメータが不明な画像や動画も含めた各種の画像や動画を学習データとして用いることができる３次元情報生成装置を提供するものである。

【課題を解決するための手段】

【0008】

上記課題を解決するため、本発明では、画像から３次元情報を復元する３次元情報生成装置であって、ターゲット画像及び当該ターゲット画像とは視点が異なる少なくとも１つのソース画像を取得する画像取得部と、第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）を用いてターゲット画像における各位置の深度を予測し、深度マップを生成する深度マップ生成部と、第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）を用いてターゲット画像とソース画像との間の相対姿勢を予測する相対姿勢部と、深度マップ生成部で生成された深度マップと、相対位置予測部で予測された相対姿勢を用いて、仮想的なターゲット画像であるターゲット想定画像を前記ソース画像から生成するためのリサンプリング・グリッドを生成するリサンプリング・グリッド生成部とを備える３次元情報生成装置を提供する。

【0009】

本発明の３次元情報生成装置において、リサンプリング・グリッド生成部は、ターゲット画像における歪みを除去してから深度マップを用いて３次元情報を生成し、当該３次元情報から相対姿勢を用いてソース画像の視点からの画像平面に投影し、当該画像平面に歪みを付与してソース画像と対応付けることでリサンプリング・グリッドを生成することを特徴とする。

【0010】

本発明のある態様による３次元情報生成装置において、リサンプリング・グリッド生成部は、歪み係数の関数についての近似計算式を用いてターゲット画像における歪みを除去することを特徴とする。

【0011】

本発明のある態様による３次元情報生成装置において、リサンプリング・グリッド生成部は、ターゲット画像における歪みを除去する算出過程で、反復計算を用いた算出結果のベクトルに替えて、歪み係数の関数を１次近似した式から求まるベクトルを用いることを特徴とする。

【0012】

本発明のある態様による３次元情報生成装置において、反復計算は、ニュートン・ラフソン（Ｎｅｗｔｏｎ－Ｒａｐｈｓｏｎ）法を用いて歪みを除去する計算であることを特徴とする。

【0013】

本発明のある態様による３次元情報生成装置は、リサンプリング・グリッド生成部で生成されたリサンプリング・グリッドを用いてソース画像の各画素をリサンプリングし、ターゲット想定画像を合成する画像合成部を更に備えることを特徴とする。

【0014】

また、本発明では、画像から３次元情報を復元する３次元情報生成方法であって、ターゲット画像及び当該ターゲット画像とは視点が異なる少なくとも１つのソース画像を取得するステップと、第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）を用いてターゲット画像の深度を予測し、深度マップを生成するステップと、第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）を用いて前記ターゲット画像と前記ソース画像との間の相対姿勢を予測するステップと、深度マップを生成するステップで生成された深度マップと、相対姿勢を予測するステップで予測された相対姿勢を用いて、仮想的な前記ターゲット画像であるターゲット想定画像を前記ソース画像から生成するためのリサンプリング・グリッドを生成するステップと、ターゲット画像及びターゲット想定画像の差を最小化するように第１の畳み込みニューラルネットワーク及び第２の畳み込みニューラルネットワークのパラメータを更新するステップとを含むことを特徴とする。

【0015】

本発明の３次元情報生成方法において、リサンプリング・グリッドを生成するステップは、ターゲット画像における歪みを除去してから深度マップを用いて３次元情報を生成し、当該３次元情報から相対姿勢を用いてソース画像の視点からの画像平面に投影し、当該画像平面に歪みを付与してソース画像と対応付けることでリサンプリング・グリッドを生成することを特徴とする。

【0016】

本発明の３次元情報生成方法において、リサンプリング・グリッドを生成するステップは、歪み係数の関数についての近似計算式を用いてターゲット画像における歪みを除去することを特徴とする。

【0017】

本発明の３次元情報生成方法において、リサンプリング・グリッドを生成するステップは、ターゲット画像における歪みを除去する算出過程で、反復計算を用いた算出結果のベクトルに替えて、歪み係数の関数を１次近似した式から求まるベクトルを用いることを特徴とする。

【0018】

本発明の３次元情報生成方法において、反復計算は、ニュートン・ラフソン（Ｎｅｗｔｏｎ－Ｒａｐｈｓｏｎ）法を用いて歪みを除去する計算であることを特徴とする。

【0019】

本発明のある態様による３次元情報生成方法は、リサンプリング・グリッドを生成するステップで生成されたリサンプリング・グリッドを用いてソース画像の各画素をリサンプリングし、ターゲット想定画像を合成するステップを更に備えることを特徴とする。

【0020】

また、本発明は、コンピュータに、上記３次元情報生成方法の各ステップを実行させることを特徴とするプログラムを提供する。

【0021】

本発明の他の態様による３次元情報生成装置において、リサンプリング・グリッド生成部は、ターゲット画像のピクセル座標を正規化画像座標系の点群データに変換する際に、歪みパラメータを用いて歪みを除去するようにしてもよい。

【0022】

本発明の他の態様による３次元情報生成装置において、リサンプリング・グリッド生成部は、深度マップを用いて、ターゲット画像のカメラ座標系の３次元点群を復元するようにしてもよい。

【0023】

本発明の他の態様による３次元情報生成装置において、リサンプリング・グリッド生成部は、相対位置を用いて、３次元点群を補間し、ソース画像の正規化画像座標系に投影するようにしてもよい。

【0024】

本発明の他の態様による３次元情報生成装置において、リサンプリング・グリッド生成部は、ソース画像の正規化画像座標系に投影された各座標に対応するサンプリング点の座標を計算する際に、歪みを付与するようにしてもよい。

【0025】

本発明の他の態様による３次元情報生成装置において、パラメータ更新部は、画像合成部により合成されたターゲット画像とターゲット想定画像との間の誤差を算出し、誤差が最小となるように第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）及び第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）のパラメータを更新するようにしてもよい。

【0026】

本発明の他の態様による３次元情報生成方法において、リサンプリング・グリッドを生成するステップは、ターゲット画像のピクセル座標を正規化画像座標系の点群データに変換する際に、歪みパラメータを用いて歪みを除去するステップを含むようにしてもよい。

【0027】

本発明の他の態様による３次元情報生成方法において、リサンプリング・グリッドを生成するステップは、深度マップを用いて、ターゲット画像のカメラ座標系の３次元点群を復元するステップを含むようにしてもよい。

【0028】

本発明の他の態様による３次元情報生成方法において、リサンプリング・グリッド生成するステップは、相対位置を用いて、３次元点群を補間し、ソース画像の正規化画像座標系に投影するステップを含むようにしてもよい。

【0029】

本発明の他の態様による３次元情報生成方法において、リサンプリング・グリッド生成するステップは、ソース画像の正規化画像座標系に投影された各座標に対応するサンプリング点の座標を計算する際に、歪みパラメータを付与するステップを含むようにしてもよい。

【0030】

本発明の他の態様による３次元情報生成方法において、パラメータを更新するステップは、合成するステップで合成されたターゲット画像とターゲット想定画像との間の誤差を算出し、誤差が最小となるように第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）及び第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）のパラメータを更新するようにしてもよい。

【0031】

また、本発明は、コンピュータに、上記他の態様による３次元情報生成方法の各ステップを実行させることを特徴とするプログラムを提供するようにしてもよい。

【0032】

本明細書において、「ＤｅｐｔｈＣＮＮ」とは、入力画像における各位置の深度情報を示す深度マップを予測するＥｎｃｏｄｅｒ－Ｄｅｃｏｄｅｒ型の畳み込みニューラルネットワーク（ＣＮＮ）をいう。

【0033】

本明細書において、「ＰｏｓｅＣＮＮ」とは、入力された画像ペアに対し、撮影された画像間の相対姿勢を予測する畳み込みニューラルネットワーク（ＣＮＮ）を指す。

【0034】

本明細書において、「画像間の相対姿勢」とは、撮影したそれぞれのカメラにおける撮像素子の所定の原点座標間の相対位置と、それぞれのレンズ光軸方向の間の３次元座標系における角度と、それぞれのレンズ光軸回りの回転を合わせたものである。

【0035】

本明細書において、「リサンプリング・グリッド」とは、画像をリサンプリングする際のサンプリング点を記述したグリッドを指す。

【0036】

本明細書において、「ターゲット画像」とは、深度推定を行う学習モデルの訓練において、深度マップの予測を行う対象画像を指す。

【0037】

本明細書において、「ソース画像」とは、「ターゲット画像」とは異なる視点から撮影された画像であり、深度推定を行う学習モデルの訓練において、ターゲット想定画像を合成する元になる画像を指す。

【0038】

本明細書において、「ターゲット想定画像」とは、ソース画像に基づいて３次元情報生成装置で合成される仮想的なターゲット画像を指す。深度推定を行う学習モデルの訓練の中で、このターゲット想定画像は、学習結果が理想的であるほどターゲット画像に近づく。

【0039】

本明細書において、「撮影画像座標系」とは、ターゲット画像及びソース画像においては、撮影された画像における座標系である。

【発明の効果】

【0040】

本発明によれば、カメラパラメータが不明な画像や動画も含めた各種の画像や動画を学習データとして用いることができ、そうした学習データから深度推定を行う学習モデルの構成を備えた３次元情報生成装置を提供できるという効果を奏する。
本発明の他の目的、特徴および利点は添付図面に関する以下の本発明の実施例の記載から明らかになるであろう。

【図面の簡単な説明】

【0041】

【図1】図１は、本発明の３次元情報生成装置による３次元情報生成動作の原理を示す図である。

【図2】図２は、本発明におけるターゲット画像とソース画像との関係を示す図である。

【図3】図３は、本発明の動作原理における放射状歪みについて説明する図である。

【図4】図４は、本発明の動作原理における接線歪みについて説明する図である。

【図5】図５は、本発明による３次元情報生成装置の要部構成を示す図である。

【図6】図６は、本発明による３次元情報生成装置のおける学習時における全体の処理の流れを示す図である。

【図7】図７は、本発明による３次元情報生成装置における学習段階の処理の流れを示す図である。

【図8】図８は、本発明によるリサンプリング・グリッドの生成の処理の流れを示す図である。

【図9】図９は、本発明による学習済みモデルを用いた深度推定時の処理の流れを示す図である。

【発明を実施するための形態】

【0042】

まず、本実施形態としての３次元情報生成装置による３次元情報生成動作の原理について説明する。
図１は、本発明の３次元情報生成装置による３次元情報生成動作の原理を示す図である。図１に、透視投影におけるカメラ１１、撮影画像１２と座標系について示す。ワールド座標系Ｑｗは、３次元の空間全体における座標系であり、カメラもこの中に存在する。カメラ座標系Ｑｃは、レンズ光軸と結像面との交点を原点とし、レンズ光軸の向く方向をｚ軸とする座標系である。
撮影画像座標系Ｑｉは、撮影された画像における座標系、すなわちピクセル配列を示す座標系であり、各ピクセルに対応した整数値のみをとる。換言すれば、配列のインデックスとその平面上の点の座標を同一視する座標系と言える。

【0043】

図２は、本発明におけるターゲット画像とソース画像との関係を示す図である。図２に、ターゲット画像Ｔとソース画像Ｓのそれぞれの撮影視点と撮影画像を示す。
本実施形態では、ターゲット画像Ｔと、そのターゲット画像Ｔとは視点が異なる少なくとも１つのソース画像Ｓを用いて３次元情報生成を行う。図２に示すように、ターゲット画像Ｔの撮影カメラをカメラＴ１、ソース画像Ｓの撮影カメラをカメラＳ１として示す。
本実施形態ではターゲット画像Ｔとソース画像Ｓとの対応関係を求めたいため、ターゲット画像ＴのカメラＴ１におけるカメラ座標系Ｑｃがワールド座標系Ｑｗと同じであることとして扱う。

【0044】

ここでカメラ座標系Ｑｃ上の点を［ｘ，ｙ，ｚ］として、撮影レンズにおけるレンズ収差による歪みが存在しないと仮定した撮影画像における座標系を正規化画像座標系としてその点を［ｘ’，ｙ’］とすると、次のように記述できる。

【数1】

ただし、［ｘ’，ｙ’］は正規化画像座標系上の点であり、［ｘ”，ｙ”］はそれにレンズ歪み（ｌｅｎｓｄｉｓｔｏｒｔｉｏｎ）を加えたもの、［ｕ，ｖ］は撮影画像座標系Ｑｉ上の点である。またＦ_ｘ，Ｆ_ｙは各軸方向の焦点距離、ｃ_ｘ，ｃ_ｙは投影中心であり、これらの単位はピクセルである。撮影画像座標系Ｑｉとはピクセル（画素）を単位とする座標系であり、そこにおける座標は、画像を配列とみなした場合の各画素のインデックスに対応する。
そしてｋ_１，ｋ_２，ｋ_３は放射状歪み係数（ｒａｄｉａｌｄｉｓｔｏｒｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔｓ）であり、ｐ_１，ｐ_２は接線歪み係数（ｔａｎｇｅｎｔｉａｌｄｉｓｔｏｒｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔｓ）である。これら歪み係数は、幾何学的カメラキャリブレーション（ｃａｍｅｒａｒｅｓｅｃｔｉｏｎｉｎｇ）によるパラメータ推定で得ることができる。

【0045】

図３は、本発明の動作原理における放射状歪みについて説明する図である。図３の（ａ）は歪みがない場合、図３の（ｂ）は正値放射状歪み（バレル歪み）が生じている場合、図３の（ｃ）は負値放射状歪み（ピンクッション歪み）が生じている場合の例をそれぞれ示している。放射状歪み（半径方向の歪み）は、図３に示すように、レンズの光学的中心からエッジに向かうにつれて光線の屈折率が大きくなる現象のことであり、この歪みはレンズが小さいほど大きくなることが知られている。

【0046】

また、図４は、本発明の動作原理における接線歪みについて説明する図である。図４の（ａ）はレンズ及びカメラセンサが平行であり、接線歪みを生じない場合の例を示しており、図４の（ｂ）はレンズ及びカメラセンサが平行でなく、接線歪みを生じる場合の例を示している。接線歪み（円周方向の歪み）は、図４に示すように、レンズとイメージセンサが平行にならない場合に生じる歪みである。

【0047】

式（１）、式（２）では、カメラ座標系Ｑｃにおける点を正規化画像座標系に投影する。式（３）～式（５）では、レンズ歪みを付与している。式（６）、式（７）は、１ピクセルを単位とする撮影画像座標系Ｑｉにおける点［ｕ，ｖ］に移している。

【0048】

次に、本実施形態としての深度推定を行う学習モデルを構成するため、上述したレンズ歪みの付与プロセスに加え、レンズ歪みの除去プロセスを考える。このため、上述した式（１）～式（７）を用いて、点［ｕ，ｖ］から、対応する点［ｘ’，ｙ’］を求めることを考える。すなわち、式（６）（７）の［ｕ，ｖ］から式（１）（２）の［ｘ’，ｙ’］へと逆方向に求めることを考える。
以下の説明では見やすさのため、式（１）～式（７）における［ｘ’，ｙ’］を［ｘ，ｙ］、あるいはベクトルｘとして太字のｘで表す。また、式（１）～式（７）における［ｘ”，ｙ”］は歪みモデル適用後の点であるため、［ｕ，ｖ］、あるいはベクトルｕとして太字のｕで表す。

【数2】

さらに、歪み係数ｋ_１，ｋ_２，ｋ_３，ｐ_１，ｐ_２をまとめてθと表記する。すると、上述したレンズ歪みモデルは、式（３）～式（５）をまとめて下記のように表される。

【数3】

【0049】

ここで、ベクトルｕから式（８）を満たすベクトルｘを求めるには、ニュートン・ラフソン（Ｎｅｗｔｏｎ－Ｒａｐｈｓｏｎ）法を用いて、以下のような反復計算によって求めることができる。

【数4】

この反復計算は、通常、１０回程度以内で収束する。

【0050】

ここで、上記のヤコビ行列について、

【数5】

であるため、それぞれ下記のように求められる。

【数6】

【0051】

以上のようにして、式（３）～式（５）により上述したレンズ歪みモデルを逆方向に、ベクトルｕからベクトルｘを求めることができるが、ニュートン・ラフソン（Ｎｅｗｔｏｎ－Ｒａｐｈｓｏｎ）法による反復計算を算出過程に用いているため、その部分は微分可能な計算になっていない。このため、全体をニューラルネットワークに含めて逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）可能な構成として学習させることができなかった。このため、従来の学習には、学習データの各画像における焦点距離などのカメラパラメータが必要となっていた。

【0052】

これに対し、本実施形態では、微分可能な計算により上述したベクトルｕからベクトルｘを求め、逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）可能な計算モジュールとして、レンズ歪みモデルを含む計算全体をニューラルネットワークの一部として構成し、エンド－トゥ－エンド（ｅｎｄｔｏｅｎｄ）での学習を可能とする。

【0053】

このため、ある歪み係数θ_０の条件でベクトルｕから求めるベクトルｘをベクトルｘ^＊、すなわち

【数7】

を満たすベクトルｘ^＊を何らかの損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）に組み込んで最小化する問題を考える。これにはベクトルｘをθの関数で表現する必要があり、満たすべき条件として次の関数を考える。

【数8】

【0054】

式（１７）は、歪み係数θがθ_０から多少変化することによってベクトルｕに対応するベクトルｘの位置が変ったとしても、

【数9】

の値は変化しない（ベクトルｕのままであり続ける）ことを条件づけている。式（１７）の条件を連鎖律を用いて展開すると、下記となる。

【数10】

式（１８）における、

【数11】

に逆行列が存在すれば、

【数12】

である。

【数13】

が分かれば、

【数14】

をθ＝θ_０周りで一次近似することができ、

【数15】

となる。この式（２０）の右辺は、上述した式（９）～式（１５）と同様に求めることができる。この式（２０）は、上述した条件式（１６）（１７）を近似的に満たす。

【0055】

以上のようにして、本実施形態では、式（９）の反復計算を用いた算出結果であるベクトルｘ^＊を、式（１６）（１７）の仮定のもとでθの関数として解釈し直した式（２０）を求め、これをベクトルｘ^＊の代わりに損失関数に組み込むことで、レンズ歪みモデルを含む損失関数全体を微分可能な計算式として表現する。
換言すれば、式（９）の反復計算を用いた算出結果としてのベクトルｘ^＊に替えて、歪み係数の関数を１次近似した式（２０）から求まるベクトルｘ^＊を損失関数に用いることで、レンズ歪みモデルを含む損失関数全体を微分可能な計算式として表現する。

【0056】

このことにより、視点の異なるソース画像Ｓ及びターゲット画像Ｔを用いて、それぞれのレンズ歪みへの対応を考慮してターゲット画像Ｔの深度マップを生成するための学習モデルを考える際に、ニューラルネットワークでの逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を可能とした構成で、ソース画像Ｓとターゲット画像Ｔとによりエンド－トゥ－エンド（ｅｎｄｔｏｅｎｄ）で学習できるように構成できる。すなわち、θを含めて学習できる構成としているため、θが分からなくても深度推定のための学習が可能となる。
このことにより、学習段階で、ソース画像Ｓ及びターゲット画像Ｔにおける焦点距離などのカメラパラメータが不要となる。このため、カメラパラメータが不明なｗｅｂ画像、ライブラリ画像や動画など、一般の画像や動画でも学習データとして使えるようにできる。このため、必要な学習データをより広範囲から簡単に得ることができる。

【0057】

ここで、上述した非特許文献２では、レンズ歪みを含む画像におけるカメラパラメータを推定するアイデアを示すものの、そのための具体的な手法や構成について開示はなく、かつパラメータ推定の計算手法の正確さについて理論検証もなされていなかった。
より詳細には、非特許文献２では、歪み係数について、上述したｋ_１，ｋ_２についてしか考慮されていなかった。かつ、ニュートン・ラフソン（Ｎｅｗｔｏｎ－Ｒａｐｈｓｏｎ）法による反復計算を含む計算プロセスを逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）可能な構成で扱うための手法について、何ら開示されておらず、その計算手法の正確性について理論検証も何らなされたものでなかった。

【0058】

本実施形態によれば、上述した５つのレンズの歪み係数ｋ_１，ｋ_２，ｋ_３，ｐ_１，ｐ_２全ての更新における勾配について、理論検証した手法による学習モデルで深度推定を行う３次元情報生成装置を提供することができる。

【実施例1】

【0059】

次に、本発明の一実施形態としての３次元情報生成装置について説明する。
図５は、本実施形態としての３次元情報生成装置５０の要部構成を示す図である。本発明による３次元情報生成装置５０は、ターゲット画像Ｔ及び当該ターゲット画像Ｔとは視点が異なる少なくとも１つのソース画像Ｓを取得する画像取得部５１０と、第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）５２１を用いてターゲット画像Ｔにおける各位置の深度を予測し、深度マップを生成する深度マップ生成部５３０と、第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）５２２を用いてターゲット画像Ｔとソース画像Ｓとの間の相対姿勢を予測する相対姿勢予測部５４０と、深度マップ生成部５３０で生成された深度マップ及び、相対姿勢予測部５４０で予測された相対姿勢を用いて、リサンプリング・グリッドを生成するリサンプリング・グリッド生成部５５０と、ターゲット画像Ｔ及びターゲット想定画像の差を最小化するように第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）５２１及び第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）５２２のパラメータを更新するパラメータ更新部５６０とを備える。

【0060】

３次元情報生成装置５０は、リサンプリング・グリッド生成部５５０で生成されたリサンプリング・グリッドを用いてソース画像Ｓの各画素をリサンプリングし、ターゲット想定画像を合成する画像合成部５７０を更に備えるようにしてもよい。

【0061】

ここで、リサンプリング・グリッドは、画像合成部５７０（Ｂｉｌｉｎｅａｒｓａｍｐｌｅｒ）を用いてソース画像Ｓからターゲット想定画像をリサンプリングする際のサンプリング点を記述したグリッドであり、換言すれば、ターゲット画像Ｔのどの点がソース画像Ｓのどの点に対応するかを示すグリッドである。

【0062】

リサンプリング後の画像サイズを［Ｈ，Ｗ］とすると、リサンプリング・グリッドは、［Ｈ，Ｗ，２］の配列であり、配列の要素［ｕ，ｖ］には、ソース画像Ｓにおける対応する点［ｕ，ｖ］が格納されている。画像合成部５７０（Ｂｉｌｉｎｅａｒｓａｍｐｌｅｒ）はこのリサンプリング・グリッドを用いて、変換元であるソース画像Ｓからピクセルをリサンプリングし、歪みを付与したターゲット想定画像を生成する。

【0063】

画像取得部５１０は、ターゲット画像Ｔ及び当該ターゲット画像Ｔとは視点が異なる少なくとも１つのソース画像Ｓを取得する。
本実施形態では、動いているビデオカメラにより撮影された動画を用い、当該動画中の任意のフレーム画像をターゲット画像Ｔ、その前後１フレームずつ、合計２枚の撮影画像をソース画像Ｓとして用いる。
なお、複数のカメラを所定距離おいて設けた構成やステレオカメラなどにより複数視点からの画像を取得する場合は、一つのレンズによる撮影画像をターゲット画像Ｔ、他のレンズによる撮影画像をソース画像Ｓとして用いてよい。

【0064】

深度マップ生成部５３０は、第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）５２１を用いてターゲット画像Ｔにおける各位置の深度を予測し、深度マップを生成する。

【0065】

相対姿勢予測部５４０は、第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）５２２を用いてターゲット画像Ｔとソース画像Ｓとの間の相対姿勢を予測する。すなわち、上述のようにターゲット画像Ｔを撮影するカメラＴ１のカメラ座標系ＱＴｃをワールド座標系Ｑｗと同じと考え、これとソース画像Ｓを撮影するカメラＳ１のカメラ座標系ＱＳｃとの相対的な姿勢の関係であるＲとｔを第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）は出力する。ここで、Ｒは回転行列で向きに関係し、ベクトルに作用してベクトルを回転させる。ｔはカメラ座標系の原点、つまり焦点のワールド座標系Ｑｗにおける場所を示す。

【0066】

リサンプリング・グリッド生成部５５０は、深度マップ生成部５３０で生成された深度マップ及び、相対姿勢予測部５４０で予測された相対姿勢を用いて、リサンプリング・グリッドを生成する。リサンプリング・グリッド生成部５５０は、ターゲット画像Ｔにおける歪みを除去してから深度マップを用いて３次元情報を生成し、当該３次元情報から相対姿勢を用いてソース画像Ｓの視点からの画像平面に投影し、当該画像平面に歪みを付与してソース画像Ｓと対応付けることでリサンプリング・グリッドを生成する。

【0067】

また、リサンプリング・グリッド生成部５５０は、歪み係数の関数についての近似計算式を用いてターゲット画像Ｔにおける歪みを除去する。

【0068】

リサンプリング・グリッド生成部５５０は、ターゲット画像Ｔにおける歪みを除去する算出過程で、反復計算を用いた算出結果のベクトルに替えて、歪み係数の関数を１次近似した式から求まるベクトルを用いるようにしてもよい。

【0069】

ここで、反復計算は、好ましくはニュートン・ラフソン（Ｎｅｗｔｏｎ－Ｒａｐｈｓｏｎ）法を用いて歪みを除去する計算であるが、他の反復計算手法を用いて反復計算を行うようにしてもよい。

【0070】

パラメータ更新部５６０は、ターゲット画像Ｔ及びターゲット想定画像の差を最小化するように第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）５２１及び第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）５２２のパラメータを更新する。

【0071】

図６は、本実施形態による３次元情報生成装置５０の学習時における全体の処理の流れを示す図である。図６では、画像の取得からニューラルネットワークのパラメータの更新までの流れを説明する。
ステップＳ６０１では、例えばビデオカメラやステレオカメラにより予め撮影されて所定の記憶部（不図示）に記憶された画像から、ターゲット画像Ｔ及び当該ターゲット画像Ｔとは視点が異なる少なくとも１つのソース画像Ｓを取得する。

【0072】

ステップＳ６０２では、第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）５２１を用いてターゲット画像Ｔにおける各位置の深度を予測し、深度マップを生成する。

【0073】

ステップＳ６０３では、第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）５２２を用いてターゲット画像Ｔとソース画像Ｓとの間の相対姿勢を予測する。

【0074】

ステップＳ６０４では、深度マップを生成するステップ（ステップＳ６０２）で生成された深度マップと、相対姿勢を予測するステップ（Ｓ６０３）で予測された相対姿勢を用いて、学習結果が理想的であるほどターゲット画像に近づくターゲット想定画像をソース画像から生成するためのリサンプリング・グリッドを生成する。

【0075】

ステップＳ６０５では、ターゲット画像Ｔ及びターゲット想定画像の差を最小化するように第１の畳み込みニューラルネットワーク５２１及び第２の畳み込みニューラルネットワーク５２２のパラメータを更新する。

【0076】

図７は、本実施形態による３次元情報生成装置における学習段階の処理の流れを示す図である。図７においても基本的な流れは図６と同様であるが、図７では、リサンプリング・グリッドの生成後に、ターゲット想定画像を合成するステップも含めた処理の流れを説明する。

【0077】

ステップＳ７０１では、第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）５２１を用いて、ターゲット画像Ｔの深度マップを予測する。なお、２回目以降の学習では、前回の生成時の結果と、ターゲット想定画像とターゲット画像とが一致するような理想的学習結果との差が小さくなるように、ターゲット画像Ｔの深度マップを予測する。これに対し、初回の学習においては、利用すべき前回の生成結果が存在しないため、そのような予測は行わずに深度マップが生成される。

【0078】

ステップＳ７０２では、第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）５２２を用いて、ターゲット画像Ｔとソース画像Ｓとの間の相対姿勢を予測する。

【0079】

ステップＳ７０３では、予測された深度マップと相対姿勢を利用して、図８で後述のようにしてリサンプリング・グリッドを生成する。ステップＳ７０４では、画像合成部５７０（Ｂｉｌｉｎｅａｒｓａｍｐｌｅｒ）により、リサンプリング・グリッドを用いて画像をリサンプリングし、ソース画像Ｓからターゲット想定画像を合成する。

【0080】

ここで、ターゲット想定画像とは、ソース画像Ｓに基づいて本実施形態の３次元情報生成装置５０で合成される画像であり、第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）５２１による深度の予測と、第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）５２２による相対姿勢の予測とが完璧であれば、ターゲット画像Ｔと理論的には限りなく一致すると想定される画像である。

【0081】

ステップＳ７０５では、合成されたターゲット想定画像と、画像取得部により取得されたターゲット画像Ｔの間の誤差を計算し、この誤差を最小化するよう第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）５２１のパラメータ及び第２のニューラルネットワーク（ＰｏｓｅＣＮＮ）５２２のパラメータを更新する。

【0082】

図８は、上述した図７のステップＳ７０３におけるリサンプリング・グリッドを生成する処理の流れを示す図である。
ステップＳ８０１では、メモリ空間にターゲット画像Ｔのピクセル座標［ｕ，ｖ］の配列を用意する。ターゲット画像のピクセル座標［ｕ，ｖ］は、リサンプリング・グリッドのインデックスに対応する。

【0083】

ステップＳ８０２では、ターゲット画像Ｔにおける撮影画像座標系Ｑｉ（ピクセル座標）の［ｕ，ｖ］を、ターゲット画像Ｔの視点からの正規化画像座標系の点［ｘ，ｙ］に変換する。具体的には、ステップＳ８０１で用意された［ｕ，ｖ］を用いて、上述した式（６）（７）から式（３）～（５）へと逆に求める。この計算は、高次多変数のため解析的には求めることができず、上述した本実施形態の手法によって歪み除去を行うことで、式（３）（４）における［ｘ”，ｙ”］で表される正規化画像座標系の点［ｘ，ｙ］を算出する。このように、上述した本実施形態の手法を用いることにより、このステップＳ８０２のターゲット画像Ｔにおける歪みを除去する算出過程を微分可能な式で表現する。

【0084】

ステップＳ８０３では、算出された正規化画像座標系の点［ｘ，ｙ］から、予測された深度ｚを用いてターゲット画像Ｔの撮影カメラＴ１から見たカメラ座標系ＱＴｃ（３次元空間）上の点［Ｘ，Ｙ，Ｚ］＝［ｘ＊ｚ，ｙ＊ｚ，ｚ］を復元する。すなわち、ターゲット画像Ｔの各ピクセル情報を３次元点群データとして逆投影する。なお、ここで復元される３次元点群データは、ターゲット画像Ｔの各ピクセル情報から復元されるため、ターゲット画像Ｔのカメラから見えない部分（カメラと逆方向など）の情報については含まれないものとなる。

【0085】

ステップＳ８０４では、第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）５２２から出力された相対姿勢を用いて、ターゲット画像Ｔの撮影カメラＴ１から見た３次元点群データを回転、及び平行移動させ、ソース画像Ｓの撮影カメラＳ１から見た３次元点群データを生成する。

【0086】

ステップＳ８０５では、ソース画像Ｓの撮影カメラＳ１から見た３次元点群データの座標［Ｘ，Ｙ，Ｚ］を、ソース画像Ｓの正規化画像座標系に投影する。具体的には、上述した式（１）（２）により、ソース画像Ｓの正規化画像座標系の点［ｘ，ｙ］を求める。

【0087】

ステップＳ８０６では、ソース画像Ｓの正規化画像座標系における［ｘ，ｙ］から、ソース画像Ｓの撮影画像座標系におけるサンプリング点［ｕ，ｖ］を計算する。手順はステップＳ８０２の逆、すなわち、上述した式（３）～式（７）により算出する。

【0088】

次に、図９を用いて、本実施形態による学習済みモデルを用いた深度推定時の処理について説明する。図９は、学習済みモデルを用いた深度推定時の処理の流れを示す図である。図６から図８までが学習段階の処理の流れに関するものであるのに対し、図９は、学習段階を経た後の学習済みモデルを用いて深度推定を行う際の処理の流れを示している。
まず、第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）５２１が、深度マップを得たい１枚の２次元画像を読み込む（ステップＳ９０１）。この第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）５２２から出力される深度マップを推定結果として得る（ステップＳ９０２）。

【実施例2】

【0089】

以上の通り、本発明の一実施形態について説明したが、本発明の他の実施形態においては、以下の点について変更したものであってもよい。なお、下記で特に説明しない部分については、上述の実施例１の構成又は処理と同様である。

【0090】

３次元情報生成装置５０において、リサンプリング・グリッド生成部５５０は、ターゲット画像Ｔのピクセル座標を正規化画像座標系の点群データに変換する際に、歪みパラメータを用いて歪みを除去するようにしてもよい。

【0091】

リサンプリング・グリッド生成部５５０は、深度マップを用いて、ターゲット画像Ｔのカメラ座標系の３次元点群を復元するようにしてもよい。

【0092】

リサンプリング・グリッド生成部５５０は、相対位置を用いて、３次元点群を補間し、ソース画像Ｓの正規化画像座標系に投影するようにしてもよい。

【0093】

リサンプリング・グリッド生成部５５０は、ソース画像Ｓの正規化画像座標系に投影された各座標に対応するサンプリング点の座標を計算する際に、歪みパラメータを付与するようにしてもよい。

【0094】

３次元情報生成装置５０において、パラメータ更新部５６０は、画像合成部５７０により合成されたターゲット想定画像と、画像取得部により取得されたターゲット画像Ｔの間の誤差を算出し、誤差が最小となるように第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）５２１及び第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）５２２のパラメータを更新するようにしてもよい。

【0095】

また、３次元情報生成方法において、リサンプリング・グリッドを生成するステップは、ターゲット画像Ｔのピクセル座標を正規化画像座標系の点群データに変換する際に、歪みパラメータを用いて歪みを除去するステップを含むようにしてもよい。

【0096】

３次元情報生成方法において、リサンプリング・グリッドを生成するステップは、深度マップを用いて、ターゲット画像Ｔのカメラ座標系の３次元点群を復元するステップを含むようにしてもよい。

【0097】

３次元情報生成方法において、リサンプリング・グリッド生成するステップは、相対位置を用いて、３次元点群を補間し、ソース画像Ｓの正規化画像座標系に投影するステップを含むようにしてもよい。

【0098】

３次元情報生成方法において、リサンプリング・グリッド生成するステップは、ソース画像Ｓの正規化画像座標系に投影された各座標に対応するサンプリング点の座標を計算する際に、歪みパラメータを付与するステップを含むようにしてもよい。

【0099】

３次元情報生成方法において、パラメータを更新するステップは、合成するステップで合成されたターゲット画像Ｔとターゲット想定画像との間の誤差を算出し、誤差が最小となるように第１の畳み込みニューラルネットワーク（ＤｅｐｔｈＣＮＮ）及び第２の畳み込みニューラルネットワーク（ＰｏｓｅＣＮＮ）のパラメータを更新するようにしてもよい。

【0100】

上述した各実施形態で用いるソース画像Ｓは、動いているビデオカメラにより撮影された動画におけるターゲット画像Ｔ近傍のフレームであれば、任意のフレームを用いてよい。また、学習データとして用いる動画は、単一の動画であってもよく、学習を繰り返す中で各種の異なる動画を用いてもよい。

【産業上の利用可能性】

【0101】

例えば本発明は、ドライブレコーダーなど車載製品のカメラにより撮影された動画を用いて深度推定を行うことにより、過去の運転状況などを３次元情報として活用する装置やシステムに好適に適用することができる。また、配達用ロボットのカメラ、工業用ロボットのカメラ、ドローンのカメラ、スマートフォンのカメラ、内視鏡のカメラなどにより撮影された動画を用いて、それぞれの画像における深度推定を行うアプリケーションなどに好適に適用することができる。さらには、推定された深度情報を用いてＶＲ（ＶｉｒｔｕａｌＲｅａｌｔｙ；仮想現実）、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ；拡張現実）、ＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ；複合現実）、ＳＲ（ＳｕｂｓｔｉｔｕｔｉｏｎａｌＲｅａｌｉｔｙ；代替現実）などを実現するアプリケーションなどにも好適に適用することができる。
上記記載は実施例についてなされたが、本発明はそれに限らず、本発明の原理と添付の請求の範囲の範囲内で種々の変更および修正をすることができることは当業者に明らかである。

【符号の説明】

【0102】

５０３次元情報生成装置
５１０画像取得部
５３０深度マップ生成部
５４０相対姿勢予測部
５５０リサンプリング・グリッド生成部
５６０パラメータ更新部
５７０画像合成部

【要約】

【課題】画像から３次元情報を復元する３次元情報生成装置を提供する。
【解決手段】本発明による３次元情報生成装置は、ターゲット画像及び当該ターゲット画像とは視点が異なる少なくとも１つのソース画像を取得する画像取得部と、第１の畳み込みニューラルネットワークを用いて前記ターゲット画像における各位置の深度を予測し、深度マップを生成する深度マップ生成部と、第２の畳み込みニューラルネットワークを用いて前記ターゲット画像と前記ソース画像との間の相対姿勢を予測する相対姿勢予測部と、前記深度マップ生成部で生成された前記深度マップと、前記相対姿勢予測部で予測された前記相対姿勢を用いて、リサンプリング・グリッドを生成するリサンプリング・グリッド生成部と、前記第１及び第２の畳み込みニューラルネットワークのパラメータを更新するパラメータ更新部とを備える。
【選択図】図５