特許7285986 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー　コーポレーションの特許一覧 ▶ ＬＩＮＥ株式会社の特許一覧

特許7285986機械学習のための学習データ生成方法及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4a
4b
5
6a
6b
6c
7a
7b

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-05-25

(45)【発行日】2023-06-02

(54)【発明の名称】機械学習のための学習データ生成方法及びシステム

(51)【国際特許分類】

G06T 7/55 20170101AFI20230526BHJP

G06T 7/00 20170101ALI20230526BHJP

【ＦＩ】

G06T7/55

G06T7/00 350B

【請求項の数】 17

(21)【出願番号】P 2022062743

(22)【出願日】2022-04-05

(65)【公開番号】P2022160382

(43)【公開日】2022-10-19

【審査請求日】2022-04-05

(31)【優先権主張番号】10-2021-0044722

(32)【優先日】2021-04-06

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】505205812

【氏名又は名称】ネイバーコーポレーション

【氏名又は名称原語表記】ＮＡＶＥＲＣｏｒｐｏｒａｔｉｏｎ

(73)【特許権者】

【識別番号】321003371

【氏名又は名称】ＬＩＮＥ株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】チャゴンホ

(72)【発明者】

【氏名】ジャンホドク

(72)【発明者】

【氏名】ウィドンユン

【審査官】新井則和

(56)【参考文献】

【文献】Clement Godard et al.，Digging Into Self-Supervised Monocular Depth Estimation，2019 IEEE/CVF International Conference on Computer Vision (ICCV)，2019年11月02日

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／５５

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

対象画像及び前記対象画像のデプスマップを用いてサンプル画像を生成するステップと、
前記サンプル画像に含まれるピクセルの深度値を推定して前記サンプル画像に対するデプスマップを生成するステップと、
前記対象画像のデプスマップ及び前記サンプル画像から生成されたデプスマップを用いて学習データの少なくとも一部を生成するステップとを含む、機械学習のための学習データ生成方法。

【請求項2】

前記対象画像から生成されたデプスマップを構成するピクセルを３次元空間上にマッピングし、その後前記マッピングされたピクセルに対して剛体変換を行うステップをさらに含み、
前記学習データの少なくとも一部を生成するステップは、
前記サンプル画像から生成されたデプスマップ及び前記剛体変換されたデプスマップを用いて行われることを特徴とする請求項１に記載の機械学習のための学習データ生成方法。

【請求項3】

前記学習データの少なくとも一部は、損失データを含み、
前記学習データの少なくとも一部を生成するステップは、
前記サンプル画像から生成されたデプスマップ及び前記剛体変換されたデプスマップのそれぞれに含まれるピクセルのうち、互いに対応するピクセルに含まれる深度情報に基づいて、前記損失データを算出するステップを含むことを特徴とする請求項２に記載の機械学習のための学習データ生成方法。

【請求項4】

前記サンプル画像を生成するステップは、
前記対象画像に含まれるピクセルの深度値を推定するステップと、
前記対象画像に含まれるピクセルの深度値に基づいて、前記対象画像に含まれるピクセルを３次元空間上にマッピングするステップと、
前記３次元空間上にマッピングされたピクセルに対して、予め設定されたパラメータで剛体変換を行うステップと、
前記剛体変換が行われたピクセルを２次元平面に投影して前記サンプル画像を生成するステップとを含むことを特徴とする請求項３に記載の機械学習のための学習データ生成方法。

【請求項5】

前記対象画像から生成されたデプスマップに対して剛体変換を行うステップは、
前記予め設定されたパラメータと同じパラメータで行われることを特徴とする請求項４に記載の機械学習のための学習データ生成方法。

【請求項6】

前記対象画像及び前記サンプル画像を用いてマスクマップを生成するステップをさらに含み、
前記損失データは、
前記サンプル画像のデプスマップ、前記剛体変換されたデプスマップの全領域のうち前記マスクマップに基づいて除かれた領域を除く残りの領域に基づいて生成されることを特徴とする請求項３～５のいずれかに記載の機械学習のための学習データ生成方法。

【請求項7】

対象画像に含まれるピクセルの深度値を推定するステップと、
前記対象画像に含まれるピクセルの深度値に基づいて、前記対象画像に含まれるピクセルを３次元空間上にマッピングするステップと、
前記３次元空間上にマッピングされたピクセルに対して、予め設定されたパラメータで剛体変換を行うステップと、
前記剛体変換が行われたピクセルを２次元平面に投影してサンプル画像を生成するステップとを含む、機械学習のためのサンプル画像生成方法。

【請求項8】

前記サンプル画像は、
前記対象画像と同じ形状及び大きさに形成され、
前記対象画像と同じ数のピクセルを含むことを特徴とする請求項７に記載の機械学習のためのサンプル画像生成方法。

【請求項9】

前記対象画像に含まれるピクセルのそれぞれは、色情報を含み、
前記２次元平面に投影されたピクセルは、
前記対象画像に含まれるピクセルのうち、前記２次元平面に投影されたピクセルに対応するピクセルに含まれる色情報を含むことを特徴とする請求項８に記載の機械学習のためのサンプル画像生成方法。

【請求項10】

前記サンプル画像は、
前記２次元平面に投影されたピクセルのうち、予め設定された領域に投影されたピクセルのみを含むことを特徴とする請求項９に記載の機械学習のためのサンプル画像生成方法。

【請求項11】

前記サンプル画像は、
前記剛体変換が行われたピクセルから投影されて形成された複数のピクセル、及び前記サンプル画像の生成時に新たに生成された複数のピクセルを含むことを特徴とする請求項１０に記載の機械学習のためのサンプル画像生成方法。

【請求項12】

前記新たに生成された複数のピクセルは、互いに同じ色情報を含み、予め設定された色情報を含むことを特徴とする請求項１１に記載の機械学習のためのサンプル画像生成方法。

【請求項13】

前記予め設定されたパラメータは、回転変換及び平行変換の少なくとも一方に関するパラメータを含むことを特徴とする請求項８～１２のいずれかに記載の機械学習のためのサンプル画像生成方法。

【請求項14】

対象画像を保存する保存部と、
前記対象画像に含まれるピクセルの深度値を推定して前記対象画像に対するデプスマップを生成する制御部とを含み、
前記制御部は、
前記対象画像及び前記デプスマップを用いてサンプル画像を生成し、
前記サンプル画像に含まれるピクセルの深度値を推定して前記サンプル画像に対するデプスマップを生成し、
前記対象画像から生成されたデプスマップに対して剛体変換を行い、
前記サンプル画像から生成されたデプスマップ及び前記剛体変換されたデプスマップを用いて学習データを生成する、機械学習のための学習データ生成システム。

【請求項15】

対象画像を保存する保存部と、
前記対象画像に含まれるピクセルの深度値を推定し、前記対象画像に含まれるピクセルの深度値に基づいて、前記対象画像に含まれるピクセルを３次元空間上にマッピングし、前記３次元空間上にマッピングされたピクセルに対して、予め設定されたパラメータで剛体変換を行い、前記剛体変換が行われたピクセルを２次元平面に投影してサンプル画像を生成する制御部とを含む、機械学習のためのサンプル画像生成システム。

【請求項16】

複数の命令を含むコンピュータプログラムであって、
命令が実行されると、
対象画像に含まれるピクセルの深度値を推定して前記対象画像に対するデプスマップを生成するステップと、
前記対象画像及び前記デプスマップを用いてサンプル画像を生成するステップと、
前記サンプル画像に含まれるピクセルの深度値を推定して前記サンプル画像に対するデプスマップを生成するステップと、
前記対象画像から生成されたデプスマップに対して剛体変換を行うステップと、
前記サンプル画像から生成されたデプスマップ及び前記剛体変換されたデプスマップを用いて学習データを生成するステップとをコンピュータで実行する、コンピュータプログラム。

【請求項17】

複数の命令を含むコンピュータプログラムであって、命令が実行されると、対象画像に含まれるピクセルの深度値を推定するステップと、
前記対象画像に含まれるピクセルの深度値に基づいて、前記対象画像に含まれるピクセルを３次元空間上にマッピングするステップと、
前記３次元空間上にマッピングされたピクセルに対して、予め設定されたパラメータで剛体変換を行うステップと、
前記剛体変換が行われたピクセルを２次元平面に投影してサンプル画像を生成するステップとをコンピュータで実行する、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習データ生成方法及びシステムに関し、より詳細には、機械学習のための学習データ生成方法及びそれを用いた機械学習方法に関する。

【背景技術】

【0002】

３次元コンピュータグラフィックスにおいて、デプスマップ（ｄｅｐｔｈｍａｐ，深度マップ）は、視点から被写体の表面までの距離に関する情報を提供する。デプスマップにより取得される３次元情報は、３Ｄモデリング、ロボット分野、医療分野、航空分野、国防分野、自律走行分野などにおいて活発に用いられている。

【0003】

一方、４次産業の中核である人工知能は、マシンラーニング（狭い意味の機械学習）に人間の脳を模倣したニューラルネットワークを加えたディープラーニング（広い意味の機械学習）により飛躍的な発展を遂げている。

【0004】

このような機械学習の発展に伴い、最近の深度推定（ＤｅｐｔｈＥｓｔｉｍａｔｉｏｎ）技術分野においては、２次元画像から３次元復元を行うために機械学習を活用することに重点を置いている。

【0005】

この場合、機械学習ベースの深度推定技術において、深度推定モデルを教師なし（ｕｎｓｕｐｅｒｖｉｓｅｄ）ベースで学習する際には、連続した画像を活用する。しかし、これまで知られている深度推定技術においては、連続した画像のオブジェクトが動いてはならないという仮定（ｓｔａｔｉｃｓｃｅｎｅａｓｓｕｍｐｔｉｏｎ）が適用され、画像中に動的オブジェクトがある場合、連続した画像を完全な学習データとして活用できないという問題があった。

【0006】

例えば、図１のように、車両１００にカメラを装着して画像を収集する場合、収集された画像に走行中の他の自動車などが含まれると、深度推定モデルの学習データからそれを除外しなければならず、よって、深度推定結果が不正確になるという問題がある。

【0007】

上記問題を解決して推論性能を向上させるために、本発明は、前記連続した画像を活用した深度推定モデルにおいて動的オブジェクトが含まれる画像を学習データとして完全に活用できる新たな学習データ生成方法を提案する。

【先行技術文献】

【非特許文献】

【0008】

【文献】Ｇｏｄａｒｄ，Ｃｌｅｍｅｎｔ，ｅｔａｌ．「ＤｉｇｇｉｎｇＩｎｔｏＳｅｌｆ－ＳｕｐｅｒｖｉｓｅｄＭｏｎｏｃｕｌａｒＤｅｐｔｈＥｓｔｉｍａｔｉｏｎ」ＩＣＣＶ，２０１９．

【発明の概要】

【発明が解決しようとする課題】

【0009】

本発明は、動的オブジェクトが含まれる画像を学習データとして完全に活用できる新たな学習データ生成方法を提供するためのものである。

【0010】

また、本発明は、教師なしベースの機械学習のための自己サンプル（Ｓｅｌｆ－Ｓａｍｐｌｅ）を生成し、それを活用して学習データを生成する方法及びシステムを提供するためのものである。

【0011】

より具体的には、本発明は、動的オブジェクトが含まれる単一の画像から高い正確度で深度推定を行える機械学習データ生成方法及びシステムに関する。

【0012】

さらに、本発明は、単一の画像から教師なし深度推定学習に活用される複数の自己サンプルを生成する方法及びシステムに関する。

【課題を解決するための手段】

【0013】

上記課題を解決するために、本発明は、対象画像及び前記対象画像のデプスマップを用いてサンプル画像を生成するステップと、前記サンプル画像に含まれるピクセルの深度値を推定して前記サンプル画像に対するデプスマップを生成するステップと、前記対象画像のデプスマップ及び前記サンプル画像から生成されたデプスマップを用いて学習データの少なくとも一部を生成するステップとを含む、機械学習のための学習データ生成方法を提供する。

【0014】

また、本発明は、対象画像を保存する保存部と、前記対象画像に含まれるピクセルの深度値を推定して前記対象画像に対するデプスマップを生成する制御部とを含み、前記制御部は、前記対象画像及び前記デプスマップを用いてサンプル画像を生成し、前記サンプル画像に含まれるピクセルの深度値を推定して前記サンプル画像に対するデプスマップを生成し、前記対象画像から生成されたデプスマップに対して剛体変換（ｒｉｇｉｄｔｒａｎｓｆｏｒｍａｔｉｏｎ）を行い、前記サンプル画像から生成されたデプスマップ及び前記剛体変換されたデプスマップを用いて学習データの少なくとも一部を生成する、機械学習のための学習データ生成システムを提供する。

【0015】

さらに、本発明は、電子機器で１つ以上のプロセスにより実行され、コンピュータ可読記録媒体に格納可能なプログラムであって、前記プログラムは、対象画像に含まれるピクセルの深度値を推定して前記対象画像に対するデプスマップを生成するステップと、前記対象画像及び前記デプスマップを用いてサンプル画像を生成するステップと、前記サンプル画像に含まれるピクセルの深度値を推定して前記サンプル画像に対するデプスマップを生成するステップと、前記対象画像から生成されたデプスマップに対して剛体変換を行うステップと、前記サンプル画像から生成されたデプスマップ及び前記剛体変換されたデプスマップを用いて学習データの少なくとも一部を生成するステップとを実行させるコマンドを含む、コンピュータ可読記録媒体に格納可能なプログラムを提供する。

【0016】

さらに、本発明は、電子機器で１つ以上のプロセスにより実行され、コンピュータ可読記録媒体に格納可能なプログラムであって、前記プログラムは、対象画像に含まれるピクセルの深度値を推定するステップと、前記対象画像に含まれるピクセルの深度値に基づいて、前記対象画像に含まれるピクセルを３次元空間上にマッピングするステップと、前記３次元空間上にマッピングされたピクセルに対して、予め設定されたパラメータで剛体変換を行うステップと、前記剛体変換が行われたピクセルを２次元平面に投影してサンプル画像を生成するステップとを実行させるコマンドを含む、コンピュータ可読記録媒体に格納可能なプログラムを提供する。

【発明の効果】

【0017】

前述したように、本発明によれば、剛体変換パラメータを多様に適用して、単一の対象画像から複数の自己サンプルを生成することができる。よって、本発明は、深度推定学習のための画像を無制限に確保することができる。

【0018】

また、本発明による自己サンプル生成方法で生成されたサンプル画像は、全ての領域が静的領域からなるので、サンプル画像において深度推定正確度を低減させる動的領域をフィルタリングする必要がなくなる。よって、本発明は、サンプル画像全体を学習に活用することができる。

【0019】

さらに、本発明による学習データ生成方法は、サンプル画像を生成する際に剛体変換パラメータを多様に適用することにより、多様な状況での損失を算出することができる。具体的には、本発明によれば、対象画像を収集するカメラが動ける全ての場合における損失が算出されるので、本発明による損失関数を機械学習に適用する場合、高い正確度で深度推定を行うことができる。

【図面の簡単な説明】

【0020】

【図1】自律走行時に活用される深度推定方法を説明するための概念図である。

【図2】本発明によるシステムを説明するための概念図である。

【図3】本発明による学習データ生成方法を説明するためのフローチャートである。

【図4a】本発明による学習データ生成方法を実行する方法を示す概念図である。

【図4b】本発明による学習データ生成方法を実行する方法を示す概念図である。

【図5】本発明によるサンプル画像生成方法を説明するためのフローチャートである。

【図6a】本発明によるサンプル画像生成方法を示す概念図である。

【図6b】本発明によるサンプル画像生成方法を示す概念図である。

【図6c】本発明によるサンプル画像生成方法を示す概念図である。

【図7a】従来の深度推定学習方法を示す概念図である。

【図7b】従来の深度推定学習方法を示す概念図である。

【発明を実施するための形態】

【0021】

以下、添付図面を参照して本発明の実施形態について詳細に説明するが、図面番号に関係なく同一又は類似の構成要素には同一の符号を付し、それについての重複する説明は省略する。以下の説明で用いられる構成要素の接尾辞である「モジュール」や「部」は、明細書の作成を容易にするために付与又は混用されるものであり、それ自体が有意性や有用性を有するものではない。また、本発明の実施形態について説明するにあたり、関連する公知技術についての具体的な説明が本発明の実施形態の要旨を不明にすると判断される場合は、その詳細な説明を省略する。さらに、添付図面は本発明の実施形態の理解を助けるためのものにすぎず、添付図面により本発明の技術的思想が限定されるものではなく、本発明の思想及び技術範囲に含まれるあらゆる変更、均等物乃至代替物を含むものと理解すべきである。

【0022】

「第１」、「第２」などのように序数を含む用語は様々な構成要素を説明するために用いられるが、上記構成要素は上記用語により限定されるものではない。上記用語は１つの構成要素を他の構成要素と区別する目的でのみ用いられる。

【0023】

ある構成要素が他の構成要素に「連結」又は「接続」されていると言及された場合は、他の構成要素に直接連結又は接続されていてもよく、中間にさらに他の構成要素が存在してもよいものと解すべきである。それに対して、ある構成要素が他の構成要素に「直接連結」又は「直接接続」されていると言及された場合は、中間にさらに他の構成要素が存在しないものと解すべきである。

【0024】

単数の表現には、特に断らない限り複数の表現が含まれる。

【0025】

本明細書において、「含む」や「有する」などの用語は、本明細書に記載された特徴、数字、ステップ、動作、構成要素、部品又はそれらの組み合わせが存在することを指定しようとするもので、１つ又はそれ以上の他の特徴、数字、ステップ、動作、構成要素、部品又はそれらの組み合わせの存在や付加可能性を予め排除するものではないと理解すべきである。

【0026】

本発明は、単一の画像から深度を推定するための自己サンプルを生成し、前記自己サンプルを用いて機械学習データを生成する方法に関する。

【0027】

本発明においては、説明の便宜上、深度推定学習に用いられる原本画像を「対象画像」という。対象画像は、カメラから収集された画像であってもよい。より具体的には、対象画像は、車両２００に配置されたカメラから収集された画像であってもよい。

【0028】

一方、対象画像から生成され、教師なし深度推定学習に活用される複数の画像を「サンプル画像」という。サンプル画像は、対象画像に基づいて生成されるが、対象画像と全く同じではない画像である。サンプル画像は、対象画像から複数生成されるようにしてもよく、複数のサンプル画像は、異なる画像である。本発明においては、このような複数のサンプル画像を「自己サンプル」ともいう。

【0029】

なお、本発明は、対象画像とサンプル画像を用いて学習データを生成する。本明細書における「学習データ」とは、機械学習に活用されるデータであって、対象画像及び当該対象画像のデプスマップ、サンプル画像及び当該サンプル画像のデプスマップ、前記対象画像のデプスマップ及び前記サンプル画像のデプスマップに基づいて算出された損失データ、並びに、前記損失データの値を最小化するための全ての演算過程で生成されるデータを意味する。

【0030】

本明細書における「学習データを生成する」には、サンプル画像を生成すること、対象画像からデプスマップを生成すること、サンプル画像からデプスマップを生成すること、損失関数により損失データを算出すること、算出された損失データを用いて深度推定時に必要な加重値を変更することが含まれる。

【0031】

本発明によるシステムは、対象画像から複数のサンプル画像を生成し、対象画像とサンプル画像を活用して深度推定のための学習データを生成する。本発明を具体的に説明するに先立って、本発明によるシステムについて具体的に説明する。

【0032】

図２は本発明によるシステムを説明するための概念図である。

【0033】

まず、図２に示すように、車両２００とは、道路や線路を走る全ての移動手段を意味する。車両２００は、画像を撮影するための少なくとも１つのカメラ２１０を含んでもよい。具体的には、車両は、同じ方向を撮影する複数のカメラを含んでもよく、異なる方向をそれぞれ撮影する複数のカメラを含んでもよい。本明細書における「対象画像」とは、特定の方向を撮影した単一の画像を意味する。

【0034】

一方、本発明による深度推定システム３００は、通信部３１０、保存部３２０及び制御部３３０の少なくとも１つを含む。システム３００は、車両２００に含まれてもよく、車両２００の外部に配置された別のサーバであってもよい。本明細書においては、説明の便宜上、車両２００とシステム３００を分離して説明するが、システム３００が車両２００に含まれるようにしてもよい。

【0035】

通信部３１０は、車両２００、外部ストレージ（例えば、データベース（ｄａｔａｂａｓｅ）３４０）、外部サーバ及びクラウドサーバの少なくとも１つと通信を行うことができる。

【0036】

なお、外部サーバ又はクラウドサーバは、制御部３３０の少なくとも一部の役割を果たすように構成されてもよい。すなわち、データ処理やデータ演算などの実行は、外部サーバ又はクラウドサーバで行われるようにしてもよく、本発明においてはその方式を問わない。

【0037】

また、通信部３１０は、通信対象（例えば、電子機器、外部サーバ、デバイスなど）の通信規格に準拠して、様々な通信方式をサポートすることができる。

【0038】

例えば、通信部３１０は、ＷＬＡＮ（ＷｉｒｅｌｅｓｓＬＡＮ）、Ｗｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）、Ｗｉ－ＦｉＤｉｒｅｃｔ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙＤｉｒｅｃｔ）、ＤＬＮＡ（登録商標）（ＤｉｇｉｔａｌＬｉｖｉｎｇＮｅｔｗｏｒｋＡｌｌｉａｎｃｅ）、ＷｉＢｒｏ（ＷｉｒｅｌｅｓｓＢｒｏａｄｂａｎｄ）、ＷｉＭＡＸ（ＷｏｒｌｄＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ）、ＨＳＤＰＡ（Ｈｉｇｈ－ＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、ＨＳＵＰＡ（Ｈｉｇｈ－ＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥ－Ａ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ－Ａｄｖａｎｃｅｄ）、５Ｇ（５ｔｈＧｅｎｅｒａｔｉｏｎＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ）、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ（登録商標））、ＲＦＩＤ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）、ＩｒＤＡ（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ）、ＺｉｇＢｅｅ、ＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）及びワイヤレスＵＳＢ（ＷｉｒｅｌｅｓｓＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）技術の少なくとも１つを用いて、通信対象と通信を行うようにしてもよい。

【0039】

次に、保存部３２０は、本発明に係る様々な情報を保存するようにしてもよい。本発明において、保存部３２０は、本発明によるシステム３００自体に備えられてもよい。それとは異なり、保存部３２０の少なくとも一部は、データベース（ＤＢ）３４０及びクラウドストレージ（又はクラウドサーバ）の少なくとも一方であってもよい。すなわち、保存部３２０は、本発明によるシステム及び方法のために必要な情報が保存される空間であれば十分であり、物理的な空間の制約はないものと解される。よって、以下では、保存部３２０、データベース３４０、外部ストレージ、クラウドストレージ（又はクラウドサーバ）を区分せず、全てを保存部３２０とする。

【0040】

本発明によるサンプル画像の生成及び深度の推定のために保存部３２０に保存される情報には、対象画像及び対象画像から生成された複数のサンプル画像が含まれてもよい。

【0041】

次に、制御部３３０は、本発明によるシステム３００の全般的な動作を制御するように構成される。制御部３３０は、上記構成要素により入力又は出力される信号、データ、情報などを処理したり、ユーザに適切な情報又は機能を提供又は処理することができる。

【0042】

制御部３３０は、少なくとも１つの中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＣＰＵ）を含み、本発明による機能を実行することができる。また、制御部３３０は、人工知能ベースのデータ処理を行うことができ、本発明によるサンプル画像の生成及び深度の推定を行うことができる。さらに、制御部３３０は、マシンラーニング（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）及びディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）の少なくとも一方の方式により、本発明によるサンプル画像の生成及び深度の推定を行うことができる。

【0043】

本発明による学習データ生成方法について説明するに先立って、従来の連続した画像を活用した深度推定学習方法について説明する。

【0044】

従来は、同じカメラにおいて異なる視点で撮影された２つの対象画像（以下、第１対象画像及び第２対象画像ともいう）を活用している。ここで、２つの対象画像を撮影する際に、カメラのみ移動し、画像に含まれる全てのオブジェクトは停止していると仮定する。このような仮定によれば、第１対象画像に含まれるピクセルが剛体変換されて第２対象画像が形成されるとみなされる。第１対象画像及び第２対象画像にエゴ動作推定器（Ｅｇｏ－ｍｏｔｉｏｎｅｓｔｉｍａｔｏｒ）を適用して剛体変換パラメータ（又はパラメータ）を算出することができる。

【0045】

エゴ動作推定器としては、公知のモデルを用いることができる。例えば、非特許文献１に開示されたエゴ動作推定器を用いてもよいが、それに限定されるものではない。

【0046】

前記剛体変換パラメータが算出されると、逆剛体変換が可能になる。具体的には、３次元画像に対する剛体変換パラメータは、４×４行列の形で算出されるようにしてもよい。当該パラメータ行列の逆行列を、第２対象画像を構成するピクセル（ピクセルベクトル）に掛けると、逆剛体変換結果が算出される。

【0047】

第２対象画像を構成する全てのピクセルに逆剛体変換を行うと、新たな画像が生成される。

【0048】

具体的には、図７ａに示すように、第２対象画像７４０が第１対象画像７１０の剛体変換結果物であると仮定すると、第１対象画像７１０を構成するピクセルｐ２は、第２対象画像７４０を構成するいずれか１つのピクセルｐ３に剛体変換される。

【0049】

エゴ動作推定器（Ｇ）により、第１対象画像７１０及び第２対象画像７４０に対する剛体変換パラメータを算出することができる。

【0050】

その後、前記算出された剛体変換パラメータを用いて、第２対象画像７４０を構成するいずれか１つのピクセルｐ３に逆剛体変換（Ｔ）を行うと、逆剛体変換が行われたピクセルｐ３’が生成される。第２対象画像７４０を構成する全てのピクセルに逆剛体変換を行うことにより、逆剛体変換画像７４０’が生成される。本明細書においては、逆剛体変換の結果で生成された画像を逆剛体変換画像という。

【0051】

上記仮定によれば、第２対象画像を構成する特定のピクセルに逆剛体変換を行う場合、前記特定のピクセルは、第１対象画像を構成するピクセルのうち前記特定のピクセルに対応するピクセルと同じ位置に移動しなければならない。

【0052】

第１対象画像と逆剛体変換画像を用いて、下記数式１のように測光損失（Ｐｈｏｔｏｍｅｔｒｉｃｌｏｓｓ）を算出する。測光損失は、画像に含まれる全てのオブジェクトが剛体であり、停止した状態でカメラのみ移動しながら２つの画像を撮影したと仮定して算出されたエラーである。

【0053】

【数1】

（数式１）
上記数式１は、非特許文献１に開示された数式であるので、具体的な説明は省略する。

【0054】

一方、図７ｂに示すように、第１対象画像７１０の深度推定７３０により、デプスマップ７２０が生成される。図７ａの過程で生成された逆剛体変換画像７４０’は、デプスマップ７２０とワーピング（Ｗ）される。その後、ワーピングされた画像に含まれるピクセルｐ３’’と第１対象画像７１０に含まれるピクセルを用いて、上記数式１による損失が算出される。図７ａ及び図７ｂにおいて説明した深度推定のための機械学習では、測光損失を最小限に抑えるための学習を行う。

【0055】

前述した方式の深度推定学習方法は、画像中のオブジェクトが移動する場合、不正確な結果となる。それを防止するために、画像中で移動するオブジェクトをフィルタリングしているが、その場合、対象画像全体を学習に活用できないという問題があった。

【0056】

本発明は、対象画像に動的オブジェクトが含まれていても、それを学習に活用し、学習のための連続した画像を無制限に生成できる、機械学習データ生成方法を提供する。

【0057】

以下、上記構成と共に、本発明による機械学習データ生成方法について添付図面を参照してより具体的に説明する。

【0058】

図３は本発明による機械学習データ生成方法を説明するためのフローチャートであり、図４ａ及び図４ｂは本発明による機械学習データ生成方法を実行する方法を示す概念図である。

【0059】

まず、対象画像を用いて自己サンプルを生成するステップ（Ｓ１１０）が行われる。

【0060】

サンプル画像は、複数生成され、複数のサンプル画像のそれぞれは、異なる剛体変換パラメータにより生成される。複数のサンプル画像のそれぞれは、深度推定学習に活用される。本明細書においては、１つのサンプル画像と対象画像により深度推定学習を行う方法について説明する。サンプル画像生成方法については後述する。

【0061】

自己サンプルを生成した後、自己サンプルに含まれるピクセルの深度値を推定するステップ（Ｓ１２０）が行われる。

【0062】

前記サンプル画像に深度推定方法を適用してデプスマップを算出する。このとき、深度推定モデルとしては、サンプル画像の生成時に対象画像に適用された深度推定モデルと同じモデルを適用する。深度推定モデルとサンプル画像の生成については後述する。

【0063】

深度推定ステップが行われると、デプスマップが生成される。デプスマップは、ピクセル座標情報及び各ピクセルの深度値情報を含む。ピクセル座標情報は、対象画像のピクセルに対応する座標であり、ピクセルの深度値は、特定のピクセルで算出された深度値を示す情報である。デプスマップは、画像として出力されるようにしてもよい。デプスマップ画像は、複数のピクセルを含み、それぞれのピクセルは、座標情報及び深度情報を含む。デプスマップ画像は、対象画像に含まれるピクセルのそれぞれにマッチングされた色情報の代わりに深度値を定義する。

【0064】

サンプル画像から算出されたデプスマップは、座標情報及び深度情報を含む。デプスマップに含まれる座標情報は、サンプル画像に含まれる座標情報と同じ情報であり、それぞれの座標情報に深度情報がマッチングされる。サンプル画像とデプスマップの関係は、対象画像と対象画像から生成されたデプスマップの関係と同じである。

【0065】

次に、対象画像から算出されたデプスマップを構成するピクセルを３次元空間上にマッピングし、その後マッピングされたピクセルに対して剛体変換を行うステップ（Ｓ１３０）が行われる。

【0066】

剛体変換とは、全ての点のペア間のユークリッド距離を保持する幾何学的変換を意味する。剛体変換には、平行移動、回転、反射、又はそれらの組み合わせが含まれる。剛体変換が行われた後、全てのオブジェクトは同じ形状及び大きさを保持する。

【0067】

本明細書においては、前記剛体変換を行う一実施形態として、平行移動、回転、又はそれらの組み合わせについて説明するが、本明細書における剛体変換には、平行移動及び回転以外の他の種類の変換も含まれる。

【0068】

一方、３次元空間上にマッピングされたピクセルのそれぞれは、座標情報を含むベクトルからなるようにしてもよい。すなわち、それぞれのピクセルは、Ｘ軸座標情報及びＹ軸座標情報を含むベクトルからなるようにしてもよい。本明細書においては、ピクセルのそれぞれの座標情報を含むベクトルをピクセルベクトルという。

【0069】

剛体変換は、ピクセルベクトルに剛体変換パラメータを含む行列を掛けることにより行われるようにしてもよい。本明細書においては、剛体変換パラメータを含む行列をパラメータ行列という。

【0070】

一実施形態において、剛体変換パラメータは、移動しようとするＸ軸方向の距離値、Ｙ軸方向の距離値、及びＺ軸方向の距離値の少なくとも１つを含む。また、剛体変換パラメータは、Ｘ軸を基準とする回転角度、Ｙ軸を基準とする回転角度、及びＺ軸を基準とする回転角度の少なくとも１つを含む。前述したように、平行移動及び回転からなる剛体変換を行う場合、剛体変換パラメータは、最大６つの異なるパラメータを含む。ただし、それに限定されるものではなく、前記平行移動及び回転以外の他の種類の剛体変換が行われる場合、剛体変換パラメータは、前述した６つのパラメータ以外の他のパラメータを含んでもよい。

【0071】

一方、２次元上で剛体変換を行う際に用いられるパラメータ行列は３×３の形であり、３次元上で剛体変換を行う際に用いられるパラメータ行列は４×４の形である。

【0072】

対象画像から生成されたデプスマップは、座標情報及び深度情報を含む。ここで、座標情報は、２次元上の座標を定義する座標情報である。例えば、対象画像から生成されたデプスマップは、Ｘ軸座標情報及びＹ軸座標情報を含んでもよい。

【0073】

剛体変換のために、デプスマップを構成するピクセルは、３次元空間上にマッピングされるようにしてもよい。具体的には、デプスマップを構成する複数のピクセルは、ベクトルに変換されるようにしてもよい。ここで、デプスマップを構成するそれぞれのピクセルは、３次元ベクトルに変換される。具体的には、３次元ベクトルを生成する際に、ピクセルに含まれる２次元座標情報及び深度情報が共に活用される。すなわち、ピクセルに含まれる深度情報が特定の軸に関する座標情報として活用される。

【0074】

前述のように生成された３次元ベクトルにサンプル画像の生成時に適用された剛体変換パラメータを同一に適用して剛体変換を行う。

【0075】

その後、剛体変換により新たに生成されたベクトルに含まれる３種類の座標情報のいずれかを深度情報に変換して新たなピクセルを生成する。デプスマップに含まれる全てのピクセルに対して上記過程を適用すると、新たなデプスマップが生成される。

【0076】

一実施形態において、デプスマップに含まれる深度情報をＺ軸座標情報に変換して３次元ベクトルを生成する。サンプル画像の生成時に適用された剛体変換パラメータは、４×４行列の形である。前記行列をデプスマップから生成された３次元ベクトルに掛けて新たなベクトルを生成する。剛体変換されたベクトルに含まれるＺ軸座標情報を深度情報に変換して新たなピクセルを生成する。

【0077】

本明細書においては、説明の便宜上、対象画像から生成されたデプスマップを剛体変換して生成されたデプスマップを第１デプスマップといい、サンプル画像から生成されたデプスマップを第２デプスマップという。

【0078】

最後に、自己サンプルに含まれるピクセルの深度値と、剛体変換が行われた対象画像に含まれるピクセルの深度値を用いて、学習データを生成するステップ（Ｓ１４０）が行われる。

【0079】

第１及び第２デプスマップは、同じ大きさ及び形状に形成され、同じ数のピクセルを含む。第１及び第２デプスマップは、互いに同じ座標情報を含むピクセルを含む。

【0080】

第１及び第２デプスマップのそれぞれに含まれるピクセルのうち、互いに同じ座標情報を含むピクセルに含まれる深度情報を用いて損失を算出する。このとき、第１及び第２デプスマップを構成する全てのピクセルのそれぞれに含まれる深度情報が活用される。

【0081】

ここで、第１及び第２デプスマップに含まれる一部の深度値は、学習データの生成に活用されないこともある。具体的には、本発明は、サンプル画像を生成した後、マスクマップを生成するステップをさらに含む。

【0082】

対象画像から生成されたサンプル画像は、剛体変換が行われたものであるので、対象画像に対するズレが存在する。よって、サンプル画像には対象画像に対応するピクセルが存在しない領域が存在することがある。

【0083】

簡単に言えば、サンプル画像は、画像中の全てのオブジェクトが剛体であり、停止した状態でカメラのみ移動して対象画像を撮影した後のその撮影された画像であることを前提にする。カメラが移動する場合、カメラの視野から外れる領域が存在するので、本発明は、マスクマップを生成し、カメラの視野から外れた領域が深度推定学習に用いられないようにする。

【0084】

マスクマップは、対象画像及びサンプル画像に基づいて生成される。具体的には、後述するサンプル画像の生成時に一部のピクセルに損失が発生するので、基本値の色情報を含む新たなピクセルが生成される。

【0085】

マスクマップは、対象画像と同じ大きさ及び形状に生成され、座標情報及びフィルタ情報を含む。マスクマップに含まれる座標情報は、対象画像に含まれる座標情報と同じである。それぞれの座標情報にはフィルタ情報がマッチングされる。前記フィルタ情報は、０又は１で定義された情報であり、今後の深度推定学習時にサンプル画像の一部の領域をフィルタリングするのに用いられる。

【0086】

一方、マスクマップは、サンプル画像と同じ大きさ及び形状に形成され、サンプル画像と同じ数のピクセルを含む。マスクマップ及びサンプル画像は、互いに対応するピクセルをそれぞれ含む。

【0087】

マスクマップを生成する際に、マスクマップに含まれるフィルタ情報は、サンプル画像に含まれるピクセルの種類に応じて決定される。具体的には、サンプル画像は、剛体変換された３次元ピクセルが投影されたピクセルと、新たに生成されたピクセルとを含む。前記投影されたピクセルと同じ座標情報を有するピクセルのフィルタ情報は１に設定する。それに対して、前記新たに生成されたピクセルと同じ座標情報を有するピクセルのフィルタ情報は０に設定する。前述した方式でマスクマップに含まれる全てのピクセルのフィルタ情報を定義することができる。

【0088】

一実施形態においては、図４ａに示すように、マスクマップＭは、対象画像４１０及びサンプル画像４１０’により生成される。マスクマップＭは、２つの領域からなる。第一に、サンプル画像４１０’の全領域のうち、対象画像４１０に含まれるピクセルに対応するピクセルを含まない領域にマッチングされる第１領域Ｍ０である。第１領域Ｍ０に含まれるピクセルは、座標情報及び０で定義されたフィルタ情報を含む。第二に、サンプル画像４１０’の全領域のうち、対象画像４１０に含まれるピクセルに対応するピクセルを含む領域にマッチングされる第２領域Ｍ１である。第２領域Ｍ１に含まれるピクセルは、座標情報及び１で定義されたフィルタ情報を含む。

【0089】

前述したマスクマップは、本発明による深度推定学習のための損失の算出に活用される。

【0090】

具体的には、図４ｂに示すように、深度推定４３０により、対象画像４１０からデプスマップ４２０が生成される。デプスマップ４２０に剛体変換（Ｔ）を適用すると、第１デプスマップ４２０’が生成される。ここで、第１デプスマップ４２０’の生成に適用される剛体変換パラメータは、サンプル画像の生成に用いられる剛体変換パラメータと同じパラメータである。

【0091】

一方、深度推定４３０により、サンプル画像４１０’から第２デプスマップ４２０’’が生成される。ここで、第２デプスマップ４２０’’の生成に用いられる深度推定モデルとしては、対象画像４１０からデプスマップ４２０を生成する際に用いられる深度推定モデルと同じモデルを用いる。

【0092】

その後、第１及び第２デプスマップ４２０’、４２０’’とマスクマップＭを活用して、等尺性の一貫性の損失（Ｉｓｏｍｅｔｒｉｃｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ）が算出される。

【0093】

一実施形態において、第１及び第２デプスマップを用いた損失の算出は、下記数式２のように行われる。

【0094】

【数2】

（数式２）
上記数式２において、Ｄｓｅｌｆ（上付き文字を含む）とは、第２デプスマップを構成するピクセルのうち、特定の座標（ｕ，ｖ）に存在するピクセルにマッチングされた深度値を意味し、Ｄｓｅｌｆ（上付き文字を含まない）とは、第１デプスマップを構成するピクセルのうち、特定の座標（ｕ，ｖ）に存在するピクセルにマッチングされた深度値を意味する。

【0095】

また、上記数式２において、ｋは、１つの対象画像から生成され、学習に用いられた自己サンプルの数であり、ｔは、学習に用いられた対象画像の数である。

【0096】

一方、上記数式２において、Ｖは、前述したマスクマップに対応する変数であり、特定の座標（ｕ，ｖ）にマッチングされるフィルタ情報値である。Ｖは、０又は１である。

【0097】

前述したように、本発明によるサンプル画像は、全ての領域が静的領域からなるので、サンプル画像において深度推定正確度を低減させる動的領域をフィルタリングする必要がなくなる。よって、本発明は、サンプル画像全体を学習に活用することができる。

【0098】

以下、前述した学習データの生成に活用されるサンプル画像生成方法についてより具体的に説明する。

【0099】

図５は本発明によるサンプル画像生成方法を説明するためのフローチャートであり、図６ａ～図６ｃは本発明によるサンプル画像生成方法を示す概念図である。

【0100】

まず、図５に示すように、本発明によるサンプル画像生成方法においては、対象画像に含まれるピクセルの深度値を推定するステップ（Ｓ２１０）が行われる。

【0101】

深度推定ステップにおいて、画像を撮影するカメラの視点を基準として画像に含まれるオブジェクトとの距離が算出される。当該距離値は、対象画像に含まれるピクセル毎に算出される。すなわち、深度推定ステップにおいて、深度対象画像に含まれるピクセルが示すオブジェクトと基準視点間の距離が算出される。

【0102】

深度推定ステップが行われると、デプスマップが生成される。深度推定モデルとしては、公知の様々なモデルを用いることができる。例えば、非特許文献１に開示された深度推定モデルが用いられてもよいが、これに限定されるものではない。

【0103】

一実施形態においては、図６ａに示すように、対象画像６１０に対する深度推定６３０によりデプスマップ６２０が生成される。デプスマップ６２０は、ピクセルにマッチングされた深度情報に応じて異なる色で表現した画像であり、対象画像に含まれるオブジェクトのそれぞれの深度を可視化する。対象画像６１０及びデプスマップ６２０は、サンプル画像の生成に活用される。

【0104】

次に、対象画像に含まれるピクセルの深度値により、対象画像に含まれるピクセルを３次元空間上にマッピングするステップ（Ｓ２２０）が行われる。

【0105】

対象画像は、対象画像を構成するピクセル座標情報及び色情報を含む。対象画像は、２次元画像であるので、ピクセル座標情報は、２つの軸に関する座標情報を含む。説明の便宜上、対象画像に含まれるピクセル座標情報は、Ｘ軸座標情報及びＹ軸座標情報を含むと説明する。

【0106】

前述したステップＳ２２０で生成されたデプスマップは、ピクセル座標情報及び深度情報を含む。デプスマップに含まれるピクセル座標情報は、２つの軸に関する座標情報を含む。説明の便宜上、対象画像に含まれるピクセル座標情報は、Ｘ軸座標情報及びＹ軸座標情報を含むと説明する。

【0107】

特定の対象画像から生成されたデプスマップは、対象画像に含まれる特定のピクセルの座標情報及び当該ピクセルの深度情報を含む。ステップＳ２２０において、デプスマップに含まれる深度情報を対象画像にマッチングする。対象画像及びデプスマップのそれぞれは、互いに同じ座標情報を含む。特定の座標情報に対応する深度情報は、前記特定の座標情報と同じ座標情報に対応するピクセルにマッチングされる。よって、３次元画像が生成される。

【0108】

一方、３次元画像を生成する際に、カメラキャリブレーション（ｃａｍｅｒａｃａｌｉｂｒａｔｉｏｎ）過程が行われるようにしてもよい。具体的には、２次元画像を３次元画像に変換する過程で、所定のパラメータを有するマトリクスが対象画像を構成するピクセルのそれぞれに適用されるようにしてもよい。前記所定のパラメータは、ピンホールカメラのモデルによって異なる。

【0109】

ここで、カメラキャリブレーションのための所定のパラメータは、カメラ外部パラメータ（ｅｘｔｒｉｎｓｉｃｐａｒａｍｅｔｅｒ）及びカメラ内部パラメータ（ｉｎｔｒｉｎｓｉｃｐａｒａｍｅｔｅｒ）の少なくとも一方を含んでもよい。ここで、カメラ内部パラメータは、焦点距離（ｆｏｃａｌｌｅｎｇｔｈ）、主点（ｐｒｉｎｃｉｐａｌｐｏｉｎｔ）及び非対称係数（ｓｋｅｗｃｏｅｆｆｉｃｉｅｎｔ）の少なくとも１つに関するパラメータを含んでもよい。前記カメラキャリブレーションのための所定のパラメータは、２次元画像及び３次元画像のいずれか一方から他方に変換する際に適用されるようにしてもよい。

【0110】

前述した方式で生成された３次元画像は、ピクセル座標情報及び色情報を含む。３次元画像に含まれるピクセル座標情報は、３つの軸に関する座標情報を含む。説明の便宜上、対象画像に含まれるピクセル座標情報は、Ｘ軸座標情報、Ｙ軸座標情報及びＺ軸座標情報を含むと説明する。前記３次元画像に含まれるＸ軸座標情報及びＹ軸座標情報は、対象画像に含まれる座標情報であり、Ｚ軸座標情報は、デプスマップに含まれる深度情報である。

【0111】

前述した方式で生成された３次元画像に含まれる座標情報を３次元空間上にマッピングする場合、３次元画像を構成するピクセルのそれぞれは３次元空間上にマッピングされる。

【0112】

一実施形態においては、図６ａに示すように、対象画像６１０に含まれるピクセルｐ１に、ピクセルｐ１に対応する深度値をマッピングする。よって、Ｘ－Ｙ平面上に位置していたピクセルｐ１が３次元空間上にリフティング（Ｌ）される。対象画像６１０に含まれる全てのピクセルに深度値をマッピングすることにより、３次元画像を生成することができる。

【0113】

次に、３次元空間上にマッピングされたピクセルに対して、予め設定されたパラメータで剛体変換を行うステップ（Ｓ２３０）が行われる。

【0114】

３次元空間上にマッピングされたピクセルのそれぞれは、座標情報を含むベクトルからなるようにしてもよい。すなわち、それぞれのピクセルは、Ｘ軸座標情報、Ｙ軸座標情報及びＺ軸座標情報を含むベクトルからなるようにしてもよい。

【0115】

３次元上で剛体変換を行う際に用いられるパラメータ行列は４×４の形である。具体的には、平行移動のためのパラメータ行列は、移動しようとするＸ軸方向の距離値、Ｙ軸方向の距離値、及びＺ軸方向の距離値を含む４×４行列からなる。一方、回転のためのパラメータ行列は、回転の基準となる軸毎に異なる行列を含んでもよい。

【0116】

例えば、回転のためのパラメータ行列は、Ｘ軸を基準とする回転角度情報を含む４×４行列、Ｙ軸を基準とする回転角度情報を含む４×４行列、及びＺ軸を基準とする回転角度情報を含む４×４行列を含む。

【0117】

前記ピクセルベクトルのそれぞれに前記パラメータ行列を予め設定された順序で掛けてＸ軸座標情報、Ｙ軸座標情報及びＺ軸座標情報を含むベクトルを算出することができる。

【0118】

剛体変換されたベクトルは、特定のピクセルに対して剛体変換を行った場合、特定のピクセルの新たな座標情報を含む。３次元画像を構成する全てのピクセルに対して剛体変換を行うと、新たな３次元画像を生成することができる。前述した方法で生成された３次元画像に含まれるピクセルは、原本の３次元画像に含まれるピクセルと同じ色情報を含み、異なる座標情報を含む。

【0119】

【0120】

一実施形態においては、図６ｂに示すように、３次元空間上に位置するピクセルｐ１に対して剛体変換（Ｔ）を行うと、ピクセルｐ１の３次元空間上の座標が変更される。剛体変換が行われたピクセルｐ１’は、既存のピクセルｐ１と同じ色情報を含み、異なる座標情報を含む。

【0121】

最後に、剛体変換が行われたピクセルを２次元平面に投影して自己サンプルを生成するステップ（Ｓ２４０）が行われる。

【0122】

剛体変換が行われたピクセルは、予め設定された平面上に投影される。具体的には、前記予め設定された平面は、対象画像を３次元空間上にリフティングする際に対象画像が配置される平面であり得る。

【0123】

例えば、対象画像をＸ－Ｙ平面上に配置した状態で対象画像に深度値をマッピングした場合、剛体変換された画像が投影される平面はＸ－Ｙ平面であり得る。

【0124】

一方、前記投影過程において、カメラキャリブレーション過程が行われるようにしてもよい。カメラキャリブレーションについては前述したので、具体的な説明は省略する。

【0125】

剛体変換が行われたピクセルは、３次元空間上の座標を定義する座標情報及び色情報を含む。具体的には、剛体変換が行われたピクセルは、Ｘ軸座標情報、Ｙ軸座標情報及びＺ軸座標情報を含む。

【0126】

剛体変換が行われたピクセルを投影する際に、前記座標情報を構成するＸ軸座標情報、Ｙ軸座標情報及びＺ軸座標情報のいずれかが削除されるようにしてもよい。例えば、剛体変換された画像をＸ－Ｙ平面に投影する場合、剛体変換が行われたピクセルに含まれるＺ軸座標情報が削除される。

【0127】

剛体変換が行われたピクセルに含まれるＸ軸座標情報、Ｙ軸座標情報及びＺ軸座標情報のいずれかが削除されることにより、ピクセルが２次元平面上に配置される。剛体変換された画像に含まれる全てのピクセルを予め設定された平面上に投影した後、サンプル画像を生成する。

【0128】

ここで、剛体変換された３次元画像が投影される領域は、既存の対象画像が存在する領域とは異なる。サンプル画像は、既存の対象画像が存在する領域を基準として生成される。既存の対象画像が存在する領域外に投影された情報は、サンプル画像の生成に用いられない。

【0129】

対象画像と剛体変換された３次元画像とは同じ数のピクセルを含むので、剛体変換された３次元画像に含まれる一部のピクセルをサンプル画像の生成に活用しない場合、一部のピクセルの損失が発生する。

【0130】

このため、サンプル画像は、２種類のピクセルからなる。具体的には、サンプル画像は、剛体変換が行われたピクセルを投影して生成されたピクセルと、サンプル画像の生成時に新たに生成されたピクセルとを含んでもよい。

【0131】

剛体変換が行われたピクセルを投影して生成されたピクセルは、既存のピクセルに含まれる色情報をそのまま含む。投影されたピクセルのみでサンプル画像を形成する場合、対象画像とはピクセルの数が異なるようになる。このため、サンプル画像の生成時にピクセルが投影されない領域に新たなピクセルを形成する。新たに生成されたピクセルは、予め設定された色情報（例えば、黒色又は白色に対応する色情報）を含む。

【0132】

例えば、対象画像がＸ－Ｙ平面に配置され、０＜Ｘ＜Ａ、０＜Ｙ＜Ｂ領域に配置されるとすると、剛体変換された後にＸ－Ｙ平面上に投影されるピクセルのうち、０＜Ｘ＜Ａ、０＜Ｙ＜Ｂ領域に投影されるピクセルのみサンプル画像の生成に活用され、前記領域から外れて投影されるピクセルはサンプル画像の生成に活用されない。前記領域のうち、ピクセルが投影されない地点には、新たなピクセルが生成される。

【0133】

一実施形態においては、図６ｃに示すように、剛体変換が行われたピクセルｐ１’は、最初に対象画像が配置されたＸ－Ｙ平面に投影（Ｐ）される。よって、２次元上に投影されたピクセルｐ１’’は、対象画像に含まれるピクセルと同じ色情報及び異なる座標情報を含む。剛体変換された３次元画像に含まれる全てのピクセルをＸ－Ｙ平面上に投影する場合、２次元サンプル画像６１０’が生成される。ここで、対象画像が配置された領域Ａに投影されたピクセルのみサンプル画像の生成に活用され、他のピクセルはサンプル画像の生成に活用されない。

【0134】

前述したステップＳ２３０で剛体変換時に適用されるパラメータに応じて異なるサンプル画像が生成される。本発明は、対象画像に複数の剛体変換パラメータを適用して複数のサンプル画像を生成する。

【0135】

【0136】

前述したように、本発明は、画像中の全てのオブジェクトが剛体からなり、停止した状態を維持するサンプル画像を生成し、機械学習データの生成に活用する。以下、本発明による深度推定学習のための学習データの生成について具体的に説明する。

【0137】

前述した方式で算出された等尺性の一貫性の損失は、深度推定学習のための損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）の設定に活用することができる。

【0138】

一実施形態において、本発明により算出された等尺性の一貫性の損失を用いた損失関数は、下記数式３のように設定される。

【0139】

【数3】

（数式３）
上記数式３において、Ｌｐは、図７ａ及び図７ｂにおいて説明した方式で算出された測光損失であり、Ｌｓは、滑らかさ損失（Ｓｍｏｏｔｈｎｅｓｓｌｏｓｓ）であり、Ｌｉｓｓｇは、本発明による方法で算出された等尺性の一貫性の損失である。測光損失及び滑らかさ損失は公知の損失関数であるので、具体的な説明は省略する。

【0140】

対象画像から生成されたデプスマップ及びサンプル画像から生成されたデプスマップに基づいて損失データを算出し、その後前記損失データに基づいて深度推定時に必要な加重値を変更する。前記加重値を変更した後、加重値が変更された深度推定モデルを用いて対象画像のデプスマップを再生成し、それを用いてサンプル画像を再生成し、サンプル画像からデプスマップを再生成する。その後、対象画像のデプスマップ及びサンプル画像のデプスマップに基づいて損失データを再算出する。上記演算は、学習データ生成回数が予め設定された回数に到達するまで繰り返される。ここで、予め設定された回数は、深度推定モデルの信頼性を確保できるほど十分に大きい数でなければならない。こうすることにより、深度推定時に必要な最適な加重値を見つけることができる。

【0141】

前述したように、本発明により生成されたサンプル画像は、対象画像から生成されるものであるので、サンプル画像に含まれる全てのオブジェクトが剛体であり、動かないオブジェクトである。よって、本発明により生成されたサンプル画像を用いて深度推定学習を行う場合、剛体でないオブジェクト及び動くオブジェクトに対するフィルタリングを行う必要がなくなる。よって、対象画像の全ての領域を深度推定学習に活用することができる。

【0142】

一方、前述した本発明は、コンピュータで１つ以上のプロセスにより実行され、コンピュータ可読媒体（又は記録媒体）に格納可能なプログラムとして実現することができる。

【0143】

また、前述した本発明は、プログラム記録媒体にコンピュータ可読コード又はコマンドとして実現することができる。すなわち、本発明は、プログラムの形態で提供することができる。

【0144】

一方、コンピュータ可読媒体は、コンピュータシステムにより読み取り可能なデータが記録されるあらゆる種類の記録装置を含む。コンピュータ可読媒体の例としては、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）、ＳＤＤ（ＳｉｌｉｃｏｎＤｉｓｋＤｒｉｖｅ）、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ記憶装置などが挙げられる。

【0145】

また、コンピュータ可読媒体は、ストレージを含み、電子機器が通信によりアクセスできるサーバ又はクラウドストレージであり得る。この場合、コンピュータは、有線又は無線通信により、サーバ又はクラウドストレージから本発明によるプログラムをダウンロードすることができる。

【0146】

さらに、本発明において、前述したコンピュータは、プロセッサ、すなわち中央処理装置（ＣＰＵ）が搭載された電子機器であり、その種類は特に限定されない。

【0147】

一方、本発明の詳細な説明は例示的なものであり、あらゆる面で限定的に解釈されてはならない。本発明の範囲は添付の特許請求の範囲の合理的解釈により定められるべきであり、本発明の均等の範囲内でのあらゆる変更が本発明の範囲に含まれる。

【符号の説明】

【0148】

２００車両
２１０カメラ
３００深度推定システム
３１０通信部
３２０保存部
３３０制御部
３４０データベース（ＤＢ）
４１０対象画像
４１０’ サンプル画像
４２０デプスマップ
４２０’ 第１デプスマップ
４２０’’ 第２デプスマップ
４３０深度推定
６１０対象画像
６１０’ ２次元サンプル画像
６２０デプスマップ
６３０深度推定
７１０第１対象画像
７３０深度推定
７４０第２対象画像
７４０’ 逆剛体変換画像
Ａ対象画像が配置された領域
Ｍマスクマップ
Ｍ０第１領域
Ｍ１第２領域

【図1】