(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-25
(45)【発行日】2023-06-02
(54)【発明の名称】機械学習のための学習データ生成方法及びシステム
(51)【国際特許分類】
G06T 7/55 20170101AFI20230526BHJP
G06T 7/00 20170101ALI20230526BHJP
【FI】
G06T7/55
G06T7/00 350B
(21)【出願番号】P 2022062743
(22)【出願日】2022-04-05
【審査請求日】2022-04-05
(31)【優先権主張番号】10-2021-0044722
(32)【優先日】2021-04-06
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(73)【特許権者】
【識別番号】321003371
【氏名又は名称】LINE株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】チャ ゴンホ
(72)【発明者】
【氏名】ジャン ホドク
(72)【発明者】
【氏名】ウィ ドンユン
【審査官】新井 則和
(56)【参考文献】
【文献】Clement Godard et al.,Digging Into Self-Supervised Monocular Depth Estimation,2019 IEEE/CVF International Conference on Computer Vision (ICCV),2019年11月02日
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/55
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
対象画像及び前記対象画像のデプスマップを用いてサンプル画像を生成するステップと、
前記サンプル画像に含まれるピクセルの深度値を推定して前記サンプル画像に対するデプスマップを生成するステップと、
前記対象画像のデプスマップ及び前記サンプル画像から生成されたデプスマップを用いて学習データの少なくとも一部を生成するステップとを含む、機械学習のための学習データ生成方法。
【請求項2】
前記対象画像から生成されたデプスマップを構成するピクセルを3次元空間上にマッピングし、その後前記マッピングされたピクセルに対して剛体変換を行うステップをさらに含み、
前記学習データの少なくとも一部を生成するステップは、
前記サンプル画像から生成されたデプスマップ及び前記剛体変換されたデプスマップを用いて行われることを特徴とする請求項1に記載の機械学習のための学習データ生成方法。
【請求項3】
前記学習データの少なくとも一部は、損失データを含み、
前記学習データの少なくとも一部を生成するステップは、
前記サンプル画像から生成されたデプスマップ及び前記剛体変換されたデプスマップのそれぞれに含まれるピクセルのうち、互いに対応するピクセルに含まれる深度情報に基づいて、前記損失データを算出するステップを含むことを特徴とする請求項2に記載の機械学習のための学習データ生成方法。
【請求項4】
前記サンプル画像を生成するステップは、
前記対象画像に含まれるピクセルの深度値を推定するステップと、
前記対象画像に含まれるピクセルの深度値に基づいて、前記対象画像に含まれるピクセルを3次元空間上にマッピングするステップと、
前記3次元空間上にマッピングされたピクセルに対して、予め設定されたパラメータで剛体変換を行うステップと、
前記剛体変換が行われたピクセルを2次元平面に投影して前記サンプル画像を生成するステップとを含むことを特徴とする請求項3に記載の機械学習のための学習データ生成方法。
【請求項5】
前記対象画像から生成されたデプスマップに対して剛体変換を行うステップは、
前記予め設定されたパラメータと同じパラメータで行われることを特徴とする請求項4に記載の機械学習のための学習データ生成方法。
【請求項6】
前記対象画像及び前記サンプル画像を用いてマスクマップを生成するステップをさらに含み、
前記損失データは、
前記サンプル画像のデプスマップ、前記剛体変換されたデプスマップの全領域のうち前記マスクマップに基づいて除かれた領域を除く残りの領域に基づいて生成されることを特徴とする請求項3~5のいずれかに記載の機械学習のための学習データ生成方法。
【請求項7】
対象画像に含まれるピクセルの深度値を推定するステップと、
前記対象画像に含まれるピクセルの深度値に基づいて、前記対象画像に含まれるピクセルを3次元空間上にマッピングするステップと、
前記3次元空間上にマッピングされたピクセルに対して、予め設定されたパラメータで剛体変換を行うステップと、
前記剛体変換が行われたピクセルを2次元平面に投影してサンプル画像を生成するステップとを含む、機械学習のためのサンプル画像生成方法。
【請求項8】
前記サンプル画像は、
前記対象画像と同じ形状及び大きさに形成され、
前記対象画像と同じ数のピクセルを含むことを特徴とする請求項7に記載の機械学習のためのサンプル画像生成方法。
【請求項9】
前記対象画像に含まれるピクセルのそれぞれは、色情報を含み、
前記2次元平面に投影されたピクセルは、
前記対象画像に含まれるピクセルのうち、前記2次元平面に投影されたピクセルに対応するピクセルに含まれる色情報を含むことを特徴とする請求項8に記載の機械学習のためのサンプル画像生成方法。
【請求項10】
前記サンプル画像は、
前記2次元平面に投影されたピクセルのうち、予め設定された領域に投影されたピクセルのみを含むことを特徴とする請求項9に記載の機械学習のためのサンプル画像生成方法。
【請求項11】
前記サンプル画像は、
前記剛体変換が行われたピクセルから投影されて形成された複数のピクセル、及び前記サンプル画像の生成時に新たに生成された複数のピクセルを含むことを特徴とする請求項10に記載の機械学習のためのサンプル画像生成方法。
【請求項12】
前記新たに生成された複数のピクセルは、互いに同じ色情報を含み、予め設定された色情報を含むことを特徴とする請求項11に記載の機械学習のためのサンプル画像生成方法。
【請求項13】
前記予め設定されたパラメータは、回転変換及び平行変換の少なくとも一方に関するパラメータを含むことを特徴とする請求項8~12のいずれかに記載の機械学習のためのサンプル画像生成方法。
【請求項14】
対象画像を保存する保存部と、
前記対象画像に含まれるピクセルの深度値を推定して前記対象画像に対するデプスマップを生成する制御部とを含み、
前記制御部は、
前記対象画像及び前記デプスマップを用いてサンプル画像を生成し、
前記サンプル画像に含まれるピクセルの深度値を推定して前記サンプル画像に対するデプスマップを生成し、
前記対象画像から生成されたデプスマップに対して剛体変換を行い、
前記サンプル画像から生成されたデプスマップ及び前記剛体変換されたデプスマップを用いて学習データを生成する、機械学習のための学習データ生成システム。
【請求項15】
対象画像を保存する保存部と、
前記対象画像に含まれるピクセルの深度値を推定し、前記対象画像に含まれるピクセルの深度値に基づいて、前記対象画像に含まれるピクセルを3次元空間上にマッピングし、前記3次元空間上にマッピングされたピクセルに対して、予め設定されたパラメータで剛体変換を行い、前記剛体変換が行われたピクセルを2次元平面に投影してサンプル画像を生成する制御部とを含む、機械学習のためのサンプル画像生成システム。
【請求項16】
複数の命令を含むコンピュータプログラムであって、
命令が実行されると、
対象画像に含まれるピクセルの深度値を推定して前記対象画像に対するデプスマップを生成するステップと、
前記対象画像及び前記デプスマップを用いてサンプル画像を生成するステップと、
前記サンプル画像に含まれるピクセルの深度値を推定して前記サンプル画像に対するデプスマップを生成するステップと、
前記対象画像から生成されたデプスマップに対して剛体変換を行うステップと、
前記サンプル画像から生成されたデプスマップ及び前記剛体変換されたデプスマップを用いて学習データを生成するステップとをコンピュータで実行する、コンピュータプログラム。
【請求項17】
複数の命令を含むコンピュータプログラムであって、命令が実行されると、対象画像に含まれるピクセルの深度値を推定するステップと、
前記対象画像に含まれるピクセルの深度値に基づいて、前記対象画像に含まれるピクセルを3次元空間上にマッピングするステップと、
前記3次元空間上にマッピングされたピクセルに対して、予め設定されたパラメータで剛体変換を行うステップと、
前記剛体変換が行われたピクセルを2次元平面に投影してサンプル画像を生成するステップとをコンピュータで実行する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習データ生成方法及びシステムに関し、より詳細には、機械学習のための学習データ生成方法及びそれを用いた機械学習方法に関する。
【背景技術】
【0002】
3次元コンピュータグラフィックスにおいて、デプスマップ(depth map,深度マップ)は、視点から被写体の表面までの距離に関する情報を提供する。デプスマップにより取得される3次元情報は、3Dモデリング、ロボット分野、医療分野、航空分野、国防分野、自律走行分野などにおいて活発に用いられている。
【0003】
一方、4次産業の中核である人工知能は、マシンラーニング(狭い意味の機械学習)に人間の脳を模倣したニューラルネットワークを加えたディープラーニング(広い意味の機械学習)により飛躍的な発展を遂げている。
【0004】
このような機械学習の発展に伴い、最近の深度推定(Depth Estimation)技術分野においては、2次元画像から3次元復元を行うために機械学習を活用することに重点を置いている。
【0005】
この場合、機械学習ベースの深度推定技術において、深度推定モデルを教師なし(unsupervised)ベースで学習する際には、連続した画像を活用する。しかし、これまで知られている深度推定技術においては、連続した画像のオブジェクトが動いてはならないという仮定(static scene assumption)が適用され、画像中に動的オブジェクトがある場合、連続した画像を完全な学習データとして活用できないという問題があった。
【0006】
例えば、
図1のように、車両100にカメラを装着して画像を収集する場合、収集された画像に走行中の他の自動車などが含まれると、深度推定モデルの学習データからそれを除外しなければならず、よって、深度推定結果が不正確になるという問題がある。
【0007】
上記問題を解決して推論性能を向上させるために、本発明は、前記連続した画像を活用した深度推定モデルにおいて動的オブジェクトが含まれる画像を学習データとして完全に活用できる新たな学習データ生成方法を提案する。
【先行技術文献】
【非特許文献】
【0008】
【文献】Godard,Clement,et al. 「Digging Into Self-Supervised Monocular Depth Estimation」 ICCV,2019.
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明は、動的オブジェクトが含まれる画像を学習データとして完全に活用できる新たな学習データ生成方法を提供するためのものである。
【0010】
また、本発明は、教師なしベースの機械学習のための自己サンプル(Self-Sample)を生成し、それを活用して学習データを生成する方法及びシステムを提供するためのものである。
【0011】
より具体的には、本発明は、動的オブジェクトが含まれる単一の画像から高い正確度で深度推定を行える機械学習データ生成方法及びシステムに関する。
【0012】
さらに、本発明は、単一の画像から教師なし深度推定学習に活用される複数の自己サンプルを生成する方法及びシステムに関する。
【課題を解決するための手段】
【0013】
上記課題を解決するために、本発明は、対象画像及び前記対象画像のデプスマップを用いてサンプル画像を生成するステップと、前記サンプル画像に含まれるピクセルの深度値を推定して前記サンプル画像に対するデプスマップを生成するステップと、前記対象画像のデプスマップ及び前記サンプル画像から生成されたデプスマップを用いて学習データの少なくとも一部を生成するステップとを含む、機械学習のための学習データ生成方法を提供する。
【0014】
また、本発明は、対象画像を保存する保存部と、前記対象画像に含まれるピクセルの深度値を推定して前記対象画像に対するデプスマップを生成する制御部とを含み、前記制御部は、前記対象画像及び前記デプスマップを用いてサンプル画像を生成し、前記サンプル画像に含まれるピクセルの深度値を推定して前記サンプル画像に対するデプスマップを生成し、前記対象画像から生成されたデプスマップに対して剛体変換(rigid transformation)を行い、前記サンプル画像から生成されたデプスマップ及び前記剛体変換されたデプスマップを用いて学習データの少なくとも一部を生成する、機械学習のための学習データ生成システムを提供する。
【0015】
さらに、本発明は、電子機器で1つ以上のプロセスにより実行され、コンピュータ可読記録媒体に格納可能なプログラムであって、前記プログラムは、対象画像に含まれるピクセルの深度値を推定して前記対象画像に対するデプスマップを生成するステップと、前記対象画像及び前記デプスマップを用いてサンプル画像を生成するステップと、前記サンプル画像に含まれるピクセルの深度値を推定して前記サンプル画像に対するデプスマップを生成するステップと、前記対象画像から生成されたデプスマップに対して剛体変換を行うステップと、前記サンプル画像から生成されたデプスマップ及び前記剛体変換されたデプスマップを用いて学習データの少なくとも一部を生成するステップとを実行させるコマンドを含む、コンピュータ可読記録媒体に格納可能なプログラムを提供する。
【0016】
さらに、本発明は、電子機器で1つ以上のプロセスにより実行され、コンピュータ可読記録媒体に格納可能なプログラムであって、前記プログラムは、対象画像に含まれるピクセルの深度値を推定するステップと、前記対象画像に含まれるピクセルの深度値に基づいて、前記対象画像に含まれるピクセルを3次元空間上にマッピングするステップと、前記3次元空間上にマッピングされたピクセルに対して、予め設定されたパラメータで剛体変換を行うステップと、前記剛体変換が行われたピクセルを2次元平面に投影してサンプル画像を生成するステップとを実行させるコマンドを含む、コンピュータ可読記録媒体に格納可能なプログラムを提供する。
【発明の効果】
【0017】
前述したように、本発明によれば、剛体変換パラメータを多様に適用して、単一の対象画像から複数の自己サンプルを生成することができる。よって、本発明は、深度推定学習のための画像を無制限に確保することができる。
【0018】
また、本発明による自己サンプル生成方法で生成されたサンプル画像は、全ての領域が静的領域からなるので、サンプル画像において深度推定正確度を低減させる動的領域をフィルタリングする必要がなくなる。よって、本発明は、サンプル画像全体を学習に活用することができる。
【0019】
さらに、本発明による学習データ生成方法は、サンプル画像を生成する際に剛体変換パラメータを多様に適用することにより、多様な状況での損失を算出することができる。具体的には、本発明によれば、対象画像を収集するカメラが動ける全ての場合における損失が算出されるので、本発明による損失関数を機械学習に適用する場合、高い正確度で深度推定を行うことができる。
【図面の簡単な説明】
【0020】
【
図1】自律走行時に活用される深度推定方法を説明するための概念図である。
【
図2】本発明によるシステムを説明するための概念図である。
【
図3】本発明による学習データ生成方法を説明するためのフローチャートである。
【
図4a】本発明による学習データ生成方法を実行する方法を示す概念図である。
【
図4b】本発明による学習データ生成方法を実行する方法を示す概念図である。
【
図5】本発明によるサンプル画像生成方法を説明するためのフローチャートである。
【
図6a】本発明によるサンプル画像生成方法を示す概念図である。
【
図6b】本発明によるサンプル画像生成方法を示す概念図である。
【
図6c】本発明によるサンプル画像生成方法を示す概念図である。
【
図7a】従来の深度推定学習方法を示す概念図である。
【
図7b】従来の深度推定学習方法を示す概念図である。
【発明を実施するための形態】
【0021】
以下、添付図面を参照して本発明の実施形態について詳細に説明するが、図面番号に関係なく同一又は類似の構成要素には同一の符号を付し、それについての重複する説明は省略する。以下の説明で用いられる構成要素の接尾辞である「モジュール」や「部」は、明細書の作成を容易にするために付与又は混用されるものであり、それ自体が有意性や有用性を有するものではない。また、本発明の実施形態について説明するにあたり、関連する公知技術についての具体的な説明が本発明の実施形態の要旨を不明にすると判断される場合は、その詳細な説明を省略する。さらに、添付図面は本発明の実施形態の理解を助けるためのものにすぎず、添付図面により本発明の技術的思想が限定されるものではなく、本発明の思想及び技術範囲に含まれるあらゆる変更、均等物乃至代替物を含むものと理解すべきである。
【0022】
「第1」、「第2」などのように序数を含む用語は様々な構成要素を説明するために用いられるが、上記構成要素は上記用語により限定されるものではない。上記用語は1つの構成要素を他の構成要素と区別する目的でのみ用いられる。
【0023】
ある構成要素が他の構成要素に「連結」又は「接続」されていると言及された場合は、他の構成要素に直接連結又は接続されていてもよく、中間にさらに他の構成要素が存在してもよいものと解すべきである。それに対して、ある構成要素が他の構成要素に「直接連結」又は「直接接続」されていると言及された場合は、中間にさらに他の構成要素が存在しないものと解すべきである。
【0024】
単数の表現には、特に断らない限り複数の表現が含まれる。
【0025】
本明細書において、「含む」や「有する」などの用語は、本明細書に記載された特徴、数字、ステップ、動作、構成要素、部品又はそれらの組み合わせが存在することを指定しようとするもので、1つ又はそれ以上の他の特徴、数字、ステップ、動作、構成要素、部品又はそれらの組み合わせの存在や付加可能性を予め排除するものではないと理解すべきである。
【0026】
本発明は、単一の画像から深度を推定するための自己サンプルを生成し、前記自己サンプルを用いて機械学習データを生成する方法に関する。
【0027】
本発明においては、説明の便宜上、深度推定学習に用いられる原本画像を「対象画像」という。対象画像は、カメラから収集された画像であってもよい。より具体的には、対象画像は、車両200に配置されたカメラから収集された画像であってもよい。
【0028】
一方、対象画像から生成され、教師なし深度推定学習に活用される複数の画像を「サンプル画像」という。サンプル画像は、対象画像に基づいて生成されるが、対象画像と全く同じではない画像である。サンプル画像は、対象画像から複数生成されるようにしてもよく、複数のサンプル画像は、異なる画像である。本発明においては、このような複数のサンプル画像を「自己サンプル」ともいう。
【0029】
なお、本発明は、対象画像とサンプル画像を用いて学習データを生成する。本明細書における「学習データ」とは、機械学習に活用されるデータであって、対象画像及び当該対象画像のデプスマップ、サンプル画像及び当該サンプル画像のデプスマップ、前記対象画像のデプスマップ及び前記サンプル画像のデプスマップに基づいて算出された損失データ、並びに、前記損失データの値を最小化するための全ての演算過程で生成されるデータを意味する。
【0030】
本明細書における「学習データを生成する」には、サンプル画像を生成すること、対象画像からデプスマップを生成すること、サンプル画像からデプスマップを生成すること、損失関数により損失データを算出すること、算出された損失データを用いて深度推定時に必要な加重値を変更することが含まれる。
【0031】
本発明によるシステムは、対象画像から複数のサンプル画像を生成し、対象画像とサンプル画像を活用して深度推定のための学習データを生成する。本発明を具体的に説明するに先立って、本発明によるシステムについて具体的に説明する。
【0032】
図2は本発明によるシステムを説明するための概念図である。
【0033】
まず、
図2に示すように、車両200とは、道路や線路を走る全ての移動手段を意味する。車両200は、画像を撮影するための少なくとも1つのカメラ210を含んでもよい。具体的には、車両は、同じ方向を撮影する複数のカメラを含んでもよく、異なる方向をそれぞれ撮影する複数のカメラを含んでもよい。本明細書における「対象画像」とは、特定の方向を撮影した単一の画像を意味する。
【0034】
一方、本発明による深度推定システム300は、通信部310、保存部320及び制御部330の少なくとも1つを含む。システム300は、車両200に含まれてもよく、車両200の外部に配置された別のサーバであってもよい。本明細書においては、説明の便宜上、車両200とシステム300を分離して説明するが、システム300が車両200に含まれるようにしてもよい。
【0035】
通信部310は、車両200、外部ストレージ(例えば、データベース(database)340)、外部サーバ及びクラウドサーバの少なくとも1つと通信を行うことができる。
【0036】
なお、外部サーバ又はクラウドサーバは、制御部330の少なくとも一部の役割を果たすように構成されてもよい。すなわち、データ処理やデータ演算などの実行は、外部サーバ又はクラウドサーバで行われるようにしてもよく、本発明においてはその方式を問わない。
【0037】
また、通信部310は、通信対象(例えば、電子機器、外部サーバ、デバイスなど)の通信規格に準拠して、様々な通信方式をサポートすることができる。
【0038】
例えば、通信部310は、WLAN(Wireless LAN)、Wi-Fi(Wireless Fidelity)、Wi-Fi Direct(Wireless Fidelity Direct)、DLNA(登録商標)(Digital Living Network Alliance)、WiBro(Wireless Broadband)、WiMAX(World Interoperability for Microwave Access)、HSDPA(High-Speed Downlink Packet Access)、HSUPA(High-Speed Uplink Packet Access)、LTE(Long Term Evolution)、LTE-A(Long Term Evolution-Advanced)、5G(5th Generation Mobile Telecommunication)、ブルートゥース(登録商標)(Bluetooth(登録商標))、RFID(Radio Frequency Identification)、IrDA(Infrared Data Association)、UWB(Ultra Wide Band)、ZigBee、NFC(Near Field Communication)及びワイヤレスUSB(Wireless Universal Serial Bus)技術の少なくとも1つを用いて、通信対象と通信を行うようにしてもよい。
【0039】
次に、保存部320は、本発明に係る様々な情報を保存するようにしてもよい。本発明において、保存部320は、本発明によるシステム300自体に備えられてもよい。それとは異なり、保存部320の少なくとも一部は、データベース(DB)340及びクラウドストレージ(又はクラウドサーバ)の少なくとも一方であってもよい。すなわち、保存部320は、本発明によるシステム及び方法のために必要な情報が保存される空間であれば十分であり、物理的な空間の制約はないものと解される。よって、以下では、保存部320、データベース340、外部ストレージ、クラウドストレージ(又はクラウドサーバ)を区分せず、全てを保存部320とする。
【0040】
本発明によるサンプル画像の生成及び深度の推定のために保存部320に保存される情報には、対象画像及び対象画像から生成された複数のサンプル画像が含まれてもよい。
【0041】
次に、制御部330は、本発明によるシステム300の全般的な動作を制御するように構成される。制御部330は、上記構成要素により入力又は出力される信号、データ、情報などを処理したり、ユーザに適切な情報又は機能を提供又は処理することができる。
【0042】
制御部330は、少なくとも1つの中央処理装置(Central Processing Unit,CPU)を含み、本発明による機能を実行することができる。また、制御部330は、人工知能ベースのデータ処理を行うことができ、本発明によるサンプル画像の生成及び深度の推定を行うことができる。さらに、制御部330は、マシンラーニング(machine learning)及びディープラーニング(deep learning)の少なくとも一方の方式により、本発明によるサンプル画像の生成及び深度の推定を行うことができる。
【0043】
本発明による学習データ生成方法について説明するに先立って、従来の連続した画像を活用した深度推定学習方法について説明する。
【0044】
従来は、同じカメラにおいて異なる視点で撮影された2つの対象画像(以下、第1対象画像及び第2対象画像ともいう)を活用している。ここで、2つの対象画像を撮影する際に、カメラのみ移動し、画像に含まれる全てのオブジェクトは停止していると仮定する。このような仮定によれば、第1対象画像に含まれるピクセルが剛体変換されて第2対象画像が形成されるとみなされる。第1対象画像及び第2対象画像にエゴ動作推定器(Ego-motion estimator)を適用して剛体変換パラメータ(又はパラメータ)を算出することができる。
【0045】
エゴ動作推定器としては、公知のモデルを用いることができる。例えば、非特許文献1に開示されたエゴ動作推定器を用いてもよいが、それに限定されるものではない。
【0046】
前記剛体変換パラメータが算出されると、逆剛体変換が可能になる。具体的には、3次元画像に対する剛体変換パラメータは、4×4行列の形で算出されるようにしてもよい。当該パラメータ行列の逆行列を、第2対象画像を構成するピクセル(ピクセルベクトル)に掛けると、逆剛体変換結果が算出される。
【0047】
第2対象画像を構成する全てのピクセルに逆剛体変換を行うと、新たな画像が生成される。
【0048】
具体的には、
図7aに示すように、第2対象画像740が第1対象画像710の剛体変換結果物であると仮定すると、第1対象画像710を構成するピクセルp2は、第2対象画像740を構成するいずれか1つのピクセルp3に剛体変換される。
【0049】
エゴ動作推定器(G)により、第1対象画像710及び第2対象画像740に対する剛体変換パラメータを算出することができる。
【0050】
その後、前記算出された剛体変換パラメータを用いて、第2対象画像740を構成するいずれか1つのピクセルp3に逆剛体変換(T)を行うと、逆剛体変換が行われたピクセルp3’が生成される。第2対象画像740を構成する全てのピクセルに逆剛体変換を行うことにより、逆剛体変換画像740’が生成される。本明細書においては、逆剛体変換の結果で生成された画像を逆剛体変換画像という。
【0051】
上記仮定によれば、第2対象画像を構成する特定のピクセルに逆剛体変換を行う場合、前記特定のピクセルは、第1対象画像を構成するピクセルのうち前記特定のピクセルに対応するピクセルと同じ位置に移動しなければならない。
【0052】
第1対象画像と逆剛体変換画像を用いて、下記数式1のように測光損失(Photometric loss)を算出する。測光損失は、画像に含まれる全てのオブジェクトが剛体であり、停止した状態でカメラのみ移動しながら2つの画像を撮影したと仮定して算出されたエラーである。
【0053】
【数1】
(数式1)
上記数式1は、非特許文献1に開示された数式であるので、具体的な説明は省略する。
【0054】
一方、
図7bに示すように、第1対象画像710の深度推定730により、デプスマップ720が生成される。
図7aの過程で生成された逆剛体変換画像740’は、デプスマップ720とワーピング(W)される。その後、ワーピングされた画像に含まれるピクセルp3’’と第1対象画像710に含まれるピクセルを用いて、上記数式1による損失が算出される。
図7a及び
図7bにおいて説明した深度推定のための機械学習では、測光損失を最小限に抑えるための学習を行う。
【0055】
前述した方式の深度推定学習方法は、画像中のオブジェクトが移動する場合、不正確な結果となる。それを防止するために、画像中で移動するオブジェクトをフィルタリングしているが、その場合、対象画像全体を学習に活用できないという問題があった。
【0056】
本発明は、対象画像に動的オブジェクトが含まれていても、それを学習に活用し、学習のための連続した画像を無制限に生成できる、機械学習データ生成方法を提供する。
【0057】
以下、上記構成と共に、本発明による機械学習データ生成方法について添付図面を参照してより具体的に説明する。
【0058】
図3は本発明による機械学習データ生成方法を説明するためのフローチャートであり、
図4a及び
図4bは本発明による機械学習データ生成方法を実行する方法を示す概念図である。
【0059】
まず、対象画像を用いて自己サンプルを生成するステップ(S110)が行われる。
【0060】
サンプル画像は、複数生成され、複数のサンプル画像のそれぞれは、異なる剛体変換パラメータにより生成される。複数のサンプル画像のそれぞれは、深度推定学習に活用される。本明細書においては、1つのサンプル画像と対象画像により深度推定学習を行う方法について説明する。サンプル画像生成方法については後述する。
【0061】
自己サンプルを生成した後、自己サンプルに含まれるピクセルの深度値を推定するステップ(S120)が行われる。
【0062】
前記サンプル画像に深度推定方法を適用してデプスマップを算出する。このとき、深度推定モデルとしては、サンプル画像の生成時に対象画像に適用された深度推定モデルと同じモデルを適用する。深度推定モデルとサンプル画像の生成については後述する。
【0063】
深度推定ステップが行われると、デプスマップが生成される。デプスマップは、ピクセル座標情報及び各ピクセルの深度値情報を含む。ピクセル座標情報は、対象画像のピクセルに対応する座標であり、ピクセルの深度値は、特定のピクセルで算出された深度値を示す情報である。デプスマップは、画像として出力されるようにしてもよい。デプスマップ画像は、複数のピクセルを含み、それぞれのピクセルは、座標情報及び深度情報を含む。デプスマップ画像は、対象画像に含まれるピクセルのそれぞれにマッチングされた色情報の代わりに深度値を定義する。
【0064】
サンプル画像から算出されたデプスマップは、座標情報及び深度情報を含む。デプスマップに含まれる座標情報は、サンプル画像に含まれる座標情報と同じ情報であり、それぞれの座標情報に深度情報がマッチングされる。サンプル画像とデプスマップの関係は、対象画像と対象画像から生成されたデプスマップの関係と同じである。
【0065】
次に、対象画像から算出されたデプスマップを構成するピクセルを3次元空間上にマッピングし、その後マッピングされたピクセルに対して剛体変換を行うステップ(S130)が行われる。
【0066】
剛体変換とは、全ての点のペア間のユークリッド距離を保持する幾何学的変換を意味する。剛体変換には、平行移動、回転、反射、又はそれらの組み合わせが含まれる。剛体変換が行われた後、全てのオブジェクトは同じ形状及び大きさを保持する。
【0067】
本明細書においては、前記剛体変換を行う一実施形態として、平行移動、回転、又はそれらの組み合わせについて説明するが、本明細書における剛体変換には、平行移動及び回転以外の他の種類の変換も含まれる。
【0068】
一方、3次元空間上にマッピングされたピクセルのそれぞれは、座標情報を含むベクトルからなるようにしてもよい。すなわち、それぞれのピクセルは、X軸座標情報及びY軸座標情報を含むベクトルからなるようにしてもよい。本明細書においては、ピクセルのそれぞれの座標情報を含むベクトルをピクセルベクトルという。
【0069】
剛体変換は、ピクセルベクトルに剛体変換パラメータを含む行列を掛けることにより行われるようにしてもよい。本明細書においては、剛体変換パラメータを含む行列をパラメータ行列という。
【0070】
一実施形態において、剛体変換パラメータは、移動しようとするX軸方向の距離値、Y軸方向の距離値、及びZ軸方向の距離値の少なくとも1つを含む。また、剛体変換パラメータは、X軸を基準とする回転角度、Y軸を基準とする回転角度、及びZ軸を基準とする回転角度の少なくとも1つを含む。前述したように、平行移動及び回転からなる剛体変換を行う場合、剛体変換パラメータは、最大6つの異なるパラメータを含む。ただし、それに限定されるものではなく、前記平行移動及び回転以外の他の種類の剛体変換が行われる場合、剛体変換パラメータは、前述した6つのパラメータ以外の他のパラメータを含んでもよい。
【0071】
一方、2次元上で剛体変換を行う際に用いられるパラメータ行列は3×3の形であり、3次元上で剛体変換を行う際に用いられるパラメータ行列は4×4の形である。
【0072】
対象画像から生成されたデプスマップは、座標情報及び深度情報を含む。ここで、座標情報は、2次元上の座標を定義する座標情報である。例えば、対象画像から生成されたデプスマップは、X軸座標情報及びY軸座標情報を含んでもよい。
【0073】
剛体変換のために、デプスマップを構成するピクセルは、3次元空間上にマッピングされるようにしてもよい。具体的には、デプスマップを構成する複数のピクセルは、ベクトルに変換されるようにしてもよい。ここで、デプスマップを構成するそれぞれのピクセルは、3次元ベクトルに変換される。具体的には、3次元ベクトルを生成する際に、ピクセルに含まれる2次元座標情報及び深度情報が共に活用される。すなわち、ピクセルに含まれる深度情報が特定の軸に関する座標情報として活用される。
【0074】
前述のように生成された3次元ベクトルにサンプル画像の生成時に適用された剛体変換パラメータを同一に適用して剛体変換を行う。
【0075】
その後、剛体変換により新たに生成されたベクトルに含まれる3種類の座標情報のいずれかを深度情報に変換して新たなピクセルを生成する。デプスマップに含まれる全てのピクセルに対して上記過程を適用すると、新たなデプスマップが生成される。
【0076】
一実施形態において、デプスマップに含まれる深度情報をZ軸座標情報に変換して3次元ベクトルを生成する。サンプル画像の生成時に適用された剛体変換パラメータは、4×4行列の形である。前記行列をデプスマップから生成された3次元ベクトルに掛けて新たなベクトルを生成する。剛体変換されたベクトルに含まれるZ軸座標情報を深度情報に変換して新たなピクセルを生成する。
【0077】
本明細書においては、説明の便宜上、対象画像から生成されたデプスマップを剛体変換して生成されたデプスマップを第1デプスマップといい、サンプル画像から生成されたデプスマップを第2デプスマップという。
【0078】
最後に、自己サンプルに含まれるピクセルの深度値と、剛体変換が行われた対象画像に含まれるピクセルの深度値を用いて、学習データを生成するステップ(S140)が行われる。
【0079】
第1及び第2デプスマップは、同じ大きさ及び形状に形成され、同じ数のピクセルを含む。第1及び第2デプスマップは、互いに同じ座標情報を含むピクセルを含む。
【0080】
第1及び第2デプスマップのそれぞれに含まれるピクセルのうち、互いに同じ座標情報を含むピクセルに含まれる深度情報を用いて損失を算出する。このとき、第1及び第2デプスマップを構成する全てのピクセルのそれぞれに含まれる深度情報が活用される。
【0081】
ここで、第1及び第2デプスマップに含まれる一部の深度値は、学習データの生成に活用されないこともある。具体的には、本発明は、サンプル画像を生成した後、マスクマップを生成するステップをさらに含む。
【0082】
対象画像から生成されたサンプル画像は、剛体変換が行われたものであるので、対象画像に対するズレが存在する。よって、サンプル画像には対象画像に対応するピクセルが存在しない領域が存在することがある。
【0083】
簡単に言えば、サンプル画像は、画像中の全てのオブジェクトが剛体であり、停止した状態でカメラのみ移動して対象画像を撮影した後のその撮影された画像であることを前提にする。カメラが移動する場合、カメラの視野から外れる領域が存在するので、本発明は、マスクマップを生成し、カメラの視野から外れた領域が深度推定学習に用いられないようにする。
【0084】
マスクマップは、対象画像及びサンプル画像に基づいて生成される。具体的には、後述するサンプル画像の生成時に一部のピクセルに損失が発生するので、基本値の色情報を含む新たなピクセルが生成される。
【0085】
マスクマップは、対象画像と同じ大きさ及び形状に生成され、座標情報及びフィルタ情報を含む。マスクマップに含まれる座標情報は、対象画像に含まれる座標情報と同じである。それぞれの座標情報にはフィルタ情報がマッチングされる。前記フィルタ情報は、0又は1で定義された情報であり、今後の深度推定学習時にサンプル画像の一部の領域をフィルタリングするのに用いられる。
【0086】
一方、マスクマップは、サンプル画像と同じ大きさ及び形状に形成され、サンプル画像と同じ数のピクセルを含む。マスクマップ及びサンプル画像は、互いに対応するピクセルをそれぞれ含む。
【0087】
マスクマップを生成する際に、マスクマップに含まれるフィルタ情報は、サンプル画像に含まれるピクセルの種類に応じて決定される。具体的には、サンプル画像は、剛体変換された3次元ピクセルが投影されたピクセルと、新たに生成されたピクセルとを含む。前記投影されたピクセルと同じ座標情報を有するピクセルのフィルタ情報は1に設定する。それに対して、前記新たに生成されたピクセルと同じ座標情報を有するピクセルのフィルタ情報は0に設定する。前述した方式でマスクマップに含まれる全てのピクセルのフィルタ情報を定義することができる。
【0088】
一実施形態においては、
図4aに示すように、マスクマップMは、対象画像410及びサンプル画像410’により生成される。マスクマップMは、2つの領域からなる。第一に、サンプル画像410’の全領域のうち、対象画像410に含まれるピクセルに対応するピクセルを含まない領域にマッチングされる第1領域M0である。第1領域M0に含まれるピクセルは、座標情報及び0で定義されたフィルタ情報を含む。第二に、サンプル画像410’の全領域のうち、対象画像410に含まれるピクセルに対応するピクセルを含む領域にマッチングされる第2領域M1である。第2領域M1に含まれるピクセルは、座標情報及び1で定義されたフィルタ情報を含む。
【0089】
前述したマスクマップは、本発明による深度推定学習のための損失の算出に活用される。
【0090】
具体的には、
図4bに示すように、深度推定430により、対象画像410からデプスマップ420が生成される。デプスマップ420に剛体変換(T)を適用すると、第1デプスマップ420’が生成される。ここで、第1デプスマップ420’の生成に適用される剛体変換パラメータは、サンプル画像の生成に用いられる剛体変換パラメータと同じパラメータである。
【0091】
一方、深度推定430により、サンプル画像410’から第2デプスマップ420’’が生成される。ここで、第2デプスマップ420’’の生成に用いられる深度推定モデルとしては、対象画像410からデプスマップ420を生成する際に用いられる深度推定モデルと同じモデルを用いる。
【0092】
その後、第1及び第2デプスマップ420’、420’’とマスクマップMを活用して、等尺性の一貫性の損失(Isometric consistency loss)が算出される。
【0093】
一実施形態において、第1及び第2デプスマップを用いた損失の算出は、下記数式2のように行われる。
【0094】
【数2】
(数式2)
上記数式2において、Dself(上付き文字を含む)とは、第2デプスマップを構成するピクセルのうち、特定の座標(u,v)に存在するピクセルにマッチングされた深度値を意味し、Dself(上付き文字を含まない)とは、第1デプスマップを構成するピクセルのうち、特定の座標(u,v)に存在するピクセルにマッチングされた深度値を意味する。
【0095】
また、上記数式2において、kは、1つの対象画像から生成され、学習に用いられた自己サンプルの数であり、tは、学習に用いられた対象画像の数である。
【0096】
一方、上記数式2において、Vは、前述したマスクマップに対応する変数であり、特定の座標(u,v)にマッチングされるフィルタ情報値である。Vは、0又は1である。
【0097】
前述したように、本発明によるサンプル画像は、全ての領域が静的領域からなるので、サンプル画像において深度推定正確度を低減させる動的領域をフィルタリングする必要がなくなる。よって、本発明は、サンプル画像全体を学習に活用することができる。
【0098】
以下、前述した学習データの生成に活用されるサンプル画像生成方法についてより具体的に説明する。
【0099】
図5は本発明によるサンプル画像生成方法を説明するためのフローチャートであり、
図6a~
図6cは本発明によるサンプル画像生成方法を示す概念図である。
【0100】
まず、
図5に示すように、本発明によるサンプル画像生成方法においては、対象画像に含まれるピクセルの深度値を推定するステップ(S210)が行われる。
【0101】
深度推定ステップにおいて、画像を撮影するカメラの視点を基準として画像に含まれるオブジェクトとの距離が算出される。当該距離値は、対象画像に含まれるピクセル毎に算出される。すなわち、深度推定ステップにおいて、深度対象画像に含まれるピクセルが示すオブジェクトと基準視点間の距離が算出される。
【0102】
深度推定ステップが行われると、デプスマップが生成される。深度推定モデルとしては、公知の様々なモデルを用いることができる。例えば、非特許文献1に開示された深度推定モデルが用いられてもよいが、これに限定されるものではない。
【0103】
一実施形態においては、
図6aに示すように、対象画像610に対する深度推定630によりデプスマップ620が生成される。デプスマップ620は、ピクセルにマッチングされた深度情報に応じて異なる色で表現した画像であり、対象画像に含まれるオブジェクトのそれぞれの深度を可視化する。対象画像610及びデプスマップ620は、サンプル画像の生成に活用される。
【0104】
次に、対象画像に含まれるピクセルの深度値により、対象画像に含まれるピクセルを3次元空間上にマッピングするステップ(S220)が行われる。
【0105】
対象画像は、対象画像を構成するピクセル座標情報及び色情報を含む。対象画像は、2次元画像であるので、ピクセル座標情報は、2つの軸に関する座標情報を含む。説明の便宜上、対象画像に含まれるピクセル座標情報は、X軸座標情報及びY軸座標情報を含むと説明する。
【0106】
前述したステップS220で生成されたデプスマップは、ピクセル座標情報及び深度情報を含む。デプスマップに含まれるピクセル座標情報は、2つの軸に関する座標情報を含む。説明の便宜上、対象画像に含まれるピクセル座標情報は、X軸座標情報及びY軸座標情報を含むと説明する。
【0107】
特定の対象画像から生成されたデプスマップは、対象画像に含まれる特定のピクセルの座標情報及び当該ピクセルの深度情報を含む。ステップS220において、デプスマップに含まれる深度情報を対象画像にマッチングする。対象画像及びデプスマップのそれぞれは、互いに同じ座標情報を含む。特定の座標情報に対応する深度情報は、前記特定の座標情報と同じ座標情報に対応するピクセルにマッチングされる。よって、3次元画像が生成される。
【0108】
一方、3次元画像を生成する際に、カメラキャリブレーション(camera calibration)過程が行われるようにしてもよい。具体的には、2次元画像を3次元画像に変換する過程で、所定のパラメータを有するマトリクスが対象画像を構成するピクセルのそれぞれに適用されるようにしてもよい。前記所定のパラメータは、ピンホールカメラのモデルによって異なる。
【0109】
ここで、カメラキャリブレーションのための所定のパラメータは、カメラ外部パラメータ(extrinsic parameter)及びカメラ内部パラメータ(intrinsic parameter)の少なくとも一方を含んでもよい。ここで、カメラ内部パラメータは、焦点距離(focal length)、主点(principal point)及び非対称係数(skew coefficient)の少なくとも1つに関するパラメータを含んでもよい。前記カメラキャリブレーションのための所定のパラメータは、2次元画像及び3次元画像のいずれか一方から他方に変換する際に適用されるようにしてもよい。
【0110】
前述した方式で生成された3次元画像は、ピクセル座標情報及び色情報を含む。3次元画像に含まれるピクセル座標情報は、3つの軸に関する座標情報を含む。説明の便宜上、対象画像に含まれるピクセル座標情報は、X軸座標情報、Y軸座標情報及びZ軸座標情報を含むと説明する。前記3次元画像に含まれるX軸座標情報及びY軸座標情報は、対象画像に含まれる座標情報であり、Z軸座標情報は、デプスマップに含まれる深度情報である。
【0111】
前述した方式で生成された3次元画像に含まれる座標情報を3次元空間上にマッピングする場合、3次元画像を構成するピクセルのそれぞれは3次元空間上にマッピングされる。
【0112】
一実施形態においては、
図6aに示すように、対象画像610に含まれるピクセルp1に、ピクセルp1に対応する深度値をマッピングする。よって、X-Y平面上に位置していたピクセルp1が3次元空間上にリフティング(L)される。対象画像610に含まれる全てのピクセルに深度値をマッピングすることにより、3次元画像を生成することができる。
【0113】
次に、3次元空間上にマッピングされたピクセルに対して、予め設定されたパラメータで剛体変換を行うステップ(S230)が行われる。
【0114】
3次元空間上にマッピングされたピクセルのそれぞれは、座標情報を含むベクトルからなるようにしてもよい。すなわち、それぞれのピクセルは、X軸座標情報、Y軸座標情報及びZ軸座標情報を含むベクトルからなるようにしてもよい。
【0115】
3次元上で剛体変換を行う際に用いられるパラメータ行列は4×4の形である。具体的には、平行移動のためのパラメータ行列は、移動しようとするX軸方向の距離値、Y軸方向の距離値、及びZ軸方向の距離値を含む4×4行列からなる。一方、回転のためのパラメータ行列は、回転の基準となる軸毎に異なる行列を含んでもよい。
【0116】
例えば、回転のためのパラメータ行列は、X軸を基準とする回転角度情報を含む4×4行列、Y軸を基準とする回転角度情報を含む4×4行列、及びZ軸を基準とする回転角度情報を含む4×4行列を含む。
【0117】
前記ピクセルベクトルのそれぞれに前記パラメータ行列を予め設定された順序で掛けてX軸座標情報、Y軸座標情報及びZ軸座標情報を含むベクトルを算出することができる。
【0118】
剛体変換されたベクトルは、特定のピクセルに対して剛体変換を行った場合、特定のピクセルの新たな座標情報を含む。3次元画像を構成する全てのピクセルに対して剛体変換を行うと、新たな3次元画像を生成することができる。前述した方法で生成された3次元画像に含まれるピクセルは、原本の3次元画像に含まれるピクセルと同じ色情報を含み、異なる座標情報を含む。
【0119】
3次元上で剛体変換を行う際に用いられるパラメータ行列は4×4の形である。具体的には、平行移動のためのパラメータ行列は、移動しようとするX軸方向の距離値、Y軸方向の距離値、及びZ軸方向の距離値を含む4×4行列からなる。一方、回転のためのパラメータ行列は、回転の基準となる軸毎に異なる行列を含んでもよい。
【0120】
一実施形態においては、
図6bに示すように、3次元空間上に位置するピクセルp1に対して剛体変換(T)を行うと、ピクセルp1の3次元空間上の座標が変更される。剛体変換が行われたピクセルp1’は、既存のピクセルp1と同じ色情報を含み、異なる座標情報を含む。
【0121】
最後に、剛体変換が行われたピクセルを2次元平面に投影して自己サンプルを生成するステップ(S240)が行われる。
【0122】
剛体変換が行われたピクセルは、予め設定された平面上に投影される。具体的には、前記予め設定された平面は、対象画像を3次元空間上にリフティングする際に対象画像が配置される平面であり得る。
【0123】
例えば、対象画像をX-Y平面上に配置した状態で対象画像に深度値をマッピングした場合、剛体変換された画像が投影される平面はX-Y平面であり得る。
【0124】
一方、前記投影過程において、カメラキャリブレーション過程が行われるようにしてもよい。カメラキャリブレーションについては前述したので、具体的な説明は省略する。
【0125】
剛体変換が行われたピクセルは、3次元空間上の座標を定義する座標情報及び色情報を含む。具体的には、剛体変換が行われたピクセルは、X軸座標情報、Y軸座標情報及びZ軸座標情報を含む。
【0126】
剛体変換が行われたピクセルを投影する際に、前記座標情報を構成するX軸座標情報、Y軸座標情報及びZ軸座標情報のいずれかが削除されるようにしてもよい。例えば、剛体変換された画像をX-Y平面に投影する場合、剛体変換が行われたピクセルに含まれるZ軸座標情報が削除される。
【0127】
剛体変換が行われたピクセルに含まれるX軸座標情報、Y軸座標情報及びZ軸座標情報のいずれかが削除されることにより、ピクセルが2次元平面上に配置される。剛体変換された画像に含まれる全てのピクセルを予め設定された平面上に投影した後、サンプル画像を生成する。
【0128】
ここで、剛体変換された3次元画像が投影される領域は、既存の対象画像が存在する領域とは異なる。サンプル画像は、既存の対象画像が存在する領域を基準として生成される。既存の対象画像が存在する領域外に投影された情報は、サンプル画像の生成に用いられない。
【0129】
対象画像と剛体変換された3次元画像とは同じ数のピクセルを含むので、剛体変換された3次元画像に含まれる一部のピクセルをサンプル画像の生成に活用しない場合、一部のピクセルの損失が発生する。
【0130】
このため、サンプル画像は、2種類のピクセルからなる。具体的には、サンプル画像は、剛体変換が行われたピクセルを投影して生成されたピクセルと、サンプル画像の生成時に新たに生成されたピクセルとを含んでもよい。
【0131】
剛体変換が行われたピクセルを投影して生成されたピクセルは、既存のピクセルに含まれる色情報をそのまま含む。投影されたピクセルのみでサンプル画像を形成する場合、対象画像とはピクセルの数が異なるようになる。このため、サンプル画像の生成時にピクセルが投影されない領域に新たなピクセルを形成する。新たに生成されたピクセルは、予め設定された色情報(例えば、黒色又は白色に対応する色情報)を含む。
【0132】
例えば、対象画像がX-Y平面に配置され、0<X<A、0<Y<B領域に配置されるとすると、剛体変換された後にX-Y平面上に投影されるピクセルのうち、0<X<A、0<Y<B領域に投影されるピクセルのみサンプル画像の生成に活用され、前記領域から外れて投影されるピクセルはサンプル画像の生成に活用されない。前記領域のうち、ピクセルが投影されない地点には、新たなピクセルが生成される。
【0133】
一実施形態においては、
図6cに示すように、剛体変換が行われたピクセルp1’は、最初に対象画像が配置されたX-Y平面に投影(P)される。よって、2次元上に投影されたピクセルp1’’は、対象画像に含まれるピクセルと同じ色情報及び異なる座標情報を含む。剛体変換された3次元画像に含まれる全てのピクセルをX-Y平面上に投影する場合、2次元サンプル画像610’が生成される。ここで、対象画像が配置された領域Aに投影されたピクセルのみサンプル画像の生成に活用され、他のピクセルはサンプル画像の生成に活用されない。
【0134】
前述したステップS230で剛体変換時に適用されるパラメータに応じて異なるサンプル画像が生成される。本発明は、対象画像に複数の剛体変換パラメータを適用して複数のサンプル画像を生成する。
【0135】
前述したように、本発明によれば、剛体変換パラメータを多様に適用して、単一の対象画像から複数の自己サンプルを生成することができる。よって、本発明は、深度推定学習のための画像を無制限に確保することができる。
【0136】
前述したように、本発明は、画像中の全てのオブジェクトが剛体からなり、停止した状態を維持するサンプル画像を生成し、機械学習データの生成に活用する。以下、本発明による深度推定学習のための学習データの生成について具体的に説明する。
【0137】
前述した方式で算出された等尺性の一貫性の損失は、深度推定学習のための損失関数(loss function)の設定に活用することができる。
【0138】
一実施形態において、本発明により算出された等尺性の一貫性の損失を用いた損失関数は、下記数式3のように設定される。
【0139】
【数3】
(数式3)
上記数式3において、Lpは、
図7a及び
図7bにおいて説明した方式で算出された測光損失であり、Lsは、滑らかさ損失(Smoothness loss)であり、Lissgは、本発明による方法で算出された等尺性の一貫性の損失である。測光損失及び滑らかさ損失は公知の損失関数であるので、具体的な説明は省略する。
【0140】
対象画像から生成されたデプスマップ及びサンプル画像から生成されたデプスマップに基づいて損失データを算出し、その後前記損失データに基づいて深度推定時に必要な加重値を変更する。前記加重値を変更した後、加重値が変更された深度推定モデルを用いて対象画像のデプスマップを再生成し、それを用いてサンプル画像を再生成し、サンプル画像からデプスマップを再生成する。その後、対象画像のデプスマップ及びサンプル画像のデプスマップに基づいて損失データを再算出する。上記演算は、学習データ生成回数が予め設定された回数に到達するまで繰り返される。ここで、予め設定された回数は、深度推定モデルの信頼性を確保できるほど十分に大きい数でなければならない。こうすることにより、深度推定時に必要な最適な加重値を見つけることができる。
【0141】
前述したように、本発明により生成されたサンプル画像は、対象画像から生成されるものであるので、サンプル画像に含まれる全てのオブジェクトが剛体であり、動かないオブジェクトである。よって、本発明により生成されたサンプル画像を用いて深度推定学習を行う場合、剛体でないオブジェクト及び動くオブジェクトに対するフィルタリングを行う必要がなくなる。よって、対象画像の全ての領域を深度推定学習に活用することができる。
【0142】
一方、前述した本発明は、コンピュータで1つ以上のプロセスにより実行され、コンピュータ可読媒体(又は記録媒体)に格納可能なプログラムとして実現することができる。
【0143】
また、前述した本発明は、プログラム記録媒体にコンピュータ可読コード又はコマンドとして実現することができる。すなわち、本発明は、プログラムの形態で提供することができる。
【0144】
一方、コンピュータ可読媒体は、コンピュータシステムにより読み取り可能なデータが記録されるあらゆる種類の記録装置を含む。コンピュータ可読媒体の例としては、HDD(Hard Disk Drive)、SSD(Solid State Disk)、SDD(Silicon Disk Drive)、ROM、RAM、CD-ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置などが挙げられる。
【0145】
また、コンピュータ可読媒体は、ストレージを含み、電子機器が通信によりアクセスできるサーバ又はクラウドストレージであり得る。この場合、コンピュータは、有線又は無線通信により、サーバ又はクラウドストレージから本発明によるプログラムをダウンロードすることができる。
【0146】
さらに、本発明において、前述したコンピュータは、プロセッサ、すなわち中央処理装置(CPU)が搭載された電子機器であり、その種類は特に限定されない。
【0147】
一方、本発明の詳細な説明は例示的なものであり、あらゆる面で限定的に解釈されてはならない。本発明の範囲は添付の特許請求の範囲の合理的解釈により定められるべきであり、本発明の均等の範囲内でのあらゆる変更が本発明の範囲に含まれる。
【符号の説明】
【0148】
200 車両
210 カメラ
300 深度推定システム
310 通信部
320 保存部
330 制御部
340 データベース(DB)
410 対象画像
410’ サンプル画像
420 デプスマップ
420’ 第1デプスマップ
420’’ 第2デプスマップ
430 深度推定
610 対象画像
610’ 2次元サンプル画像
620 デプスマップ
630 深度推定
710 第1対象画像
730 深度推定
740 第2対象画像
740’ 逆剛体変換画像
A 対象画像が配置された領域
M マスクマップ
M0 第1領域
M1 第2領域