(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-21
(45)【発行日】2024-08-29
(54)【発明の名称】偏光画像を含む異なる撮像モダリティで統計モデルを訓練するためのデータを合成するためのシステムおよび方法
(51)【国際特許分類】
G06T 15/00 20110101AFI20240822BHJP
【FI】
G06T15/00
(21)【出願番号】P 2022546347
(86)(22)【出願日】2021-01-04
(86)【国際出願番号】 US2021012073
(87)【国際公開番号】W WO2021154459
(87)【国際公開日】2021-08-05
【審査請求日】2022-09-27
(32)【優先日】2020-01-30
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】521430508
【氏名又は名称】イントリンジック イノベーション エルエルシー
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100126480
【氏名又は名称】佐藤 睦
(72)【発明者】
【氏名】ヴェンカタラマン,カルティーク
(72)【発明者】
【氏名】カルラ,アガスティア
(72)【発明者】
【氏名】カダンビ,アチュタ
【審査官】益戸 宏
(56)【参考文献】
【文献】特開2018-060512(JP,A)
【文献】国際公開第2010/073547(WO,A1)
【文献】国際公開第2017/171005(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 15/00
G06V 10/72
(57)【特許請求の範囲】
【請求項1】
仮想シーンの合成画像を生成する方法であって、
プロセッサおよびメモリによって実装された合成データ生成器によって、オブジェクトの3次元(3-D)モデルを3-D仮想シーンに配置することと、
前記合成データ生成器によって、1つ以上の照明源を含む照明を前記3-D仮想シーンに追加することと、
前記合成データ生成器によって、選択されたマルチモーダル撮像モダリティにしたがって、前記3-D仮想シーン内のオブジェクトの前記3-Dモデルに各々が経験モデルを含む撮像モダリティ固有素材を適用することと、
前記選択されたマルチモーダル撮像モダリティにしたがってシーンの背景を設定することと、
前記合成データ生成器によって、前記選択されたマルチモーダル撮像モダリティに基づいて前記3-D仮想シーンの2次元画像をレンダリングし、前記選択されたマルチモーダル撮像モダリティにしたがって合成画像を生成することと、を含む、方法。
【請求項2】
前記経験モデルが、前記選択されたマルチモーダル撮像モダリティを使用して画像をキャプチャするように構成された撮像システムを使用して素材の表面からキャプチャされたサンプリングされた画像に基づいて生成され、
前記サンプリングされた画像が、前記素材の前記表面の法線方向に対して複数の異なるポーズから前記素材の前記表面をキャプチャした画像を含む、請求項1に記載の方法。
【請求項3】
前記選択されたマルチモーダル撮像モダリティが偏光であり、前記撮像システムが偏光カメラを備える、請求項2に記載の方法。
【請求項4】
前記選択されたマルチモーダル撮像モダリティが熱的であり、前記撮像システムが熱カメラを備える、請求項2に記載の方法。
【請求項5】
前記熱カメラが偏光フィルタを備える、請求項4に記載の方法。
【請求項6】
前記サンプリングされた画像のそれぞれが、前記素材の前記表面の前記法線方向に対するそのポーズの対応する角度に関連して記憶される、請求項2に記載の方法。
【請求項7】
前記サンプリングされた画像が、
第1のスペクトルプロファイルを有する光によって照射された前記素材の前記表面についてキャプチャされた第1の複数のサンプリングされた画像と、
前記第1のスペクトルプロファイルとは異なる第2のスペクトルプロファイルを有する光によって照射された前記素材の前記表面についてキャプチャされた第2の複数のサンプリングされた画像とを含む、請求項2に記載の方法。
【請求項8】
前記経験モデルが、2つ以上の前記サンプリングされた画像の間を補間することによって計算された表面光フィールド関数を含む、請求項2に記載の方法。
【請求項9】
前記経験モデルが、前記サンプリングされた画像上で訓練された深層ニューラルネットワークによって計算された表面光フィールド関数を含む、請求項2に記載の方法。
【請求項10】
前記経験モデルが、前記サンプリングされた画像上で訓練された敵対的生成ネットワークによって計算された表面光フィールド関数を含む、請求項2に記載の方法。
【請求項11】
前記経験モデルが、前記サンプリングされた画像に基づいて生成された数学的モデルによって計算された表面光フィールド関数を含む、請求項2に記載の方法。
【請求項12】
前記合成画像にスタイル転送を適用することをさらに含む、請求項1に記載の方法。
【請求項13】
請求項1~
12のいずれか一項に
記載の方法によって生成された複数の合成画
像に基づいて訓練データセットを
生成するための方法。
【請求項14】
機械学習モデルを訓練するための方法であって、
請求項13に
記載の方法によって得られた訓練データセットを
受信することと、
前記訓練データセットに基づいて前記機械学習モデルのパラメータを計算することと、を含む、方法。
【請求項15】
仮想シーンの合成画像を生成するためのシステムであって、
プロセッサと、
前記プロセッサによって実行されると、前記プロセッサに、
オブジェクトの3次元(3-D)モデルを3-D仮想シーンに配置することと、
前記3-D仮想シーンに1つ以上の照明源を含む照明を追加することと、
選択されたマルチモーダル撮像モダリティにしたがって、前記3-D仮想シーン内のオブジェクトの前記3-Dモデルに各々が経験モデルを含む撮像モダリティ固有素材を適用することと、
前記選択されたマルチモーダル撮像モダリティにしたがってシーンの背景を設定することと、
前記選択されたマルチモーダル撮像モダリティに基づいて前記3-D仮想シーンの2次元画像をレンダリングし、前記選択されたマルチモーダル撮像モダリティにしたがって合成画像を生成することと、を行うように合成データ生成器を実装させる命令を記憶するメモリと、を備える、システム。
【請求項16】
前記経験モデルが、前記選択されたマルチモーダル撮像モダリティを使用して画像をキャプチャするように構成された撮像システムを使用して素材の表面からキャプチャされたサンプリングされた画像に基づいて生成され、
前記サンプリングされた画像が、前記素材の前記表面の法線方向に対して複数の異なるポーズから前記素材の前記表面をキャプチャした画像を含む、請求項
15に記載のシステム。
【請求項17】
前記選択されたマルチモーダル撮像モダリティが偏光であり、前記撮像システムが偏光カメラを備える、請求項
16に記載のシステム。
【請求項18】
前記選択されたマルチモーダル撮像モダリティが熱的であり、前記撮像システムが熱カメラを備える、請求項
16に記載のシステム。
【請求項19】
前記熱カメラが偏光フィルタを備える、請求項
18に記載のシステム。
【請求項20】
前記サンプリングされた画像のそれぞれが、前記素材の前記表面の前記法線方向に対するそのポーズの対応する角度に関連して記憶される、請求項
16に記載のシステム。
【請求項21】
前記サンプリングされた画像が、
第1のスペクトルプロファイルを有する光によって照射された前記素材の前記表面についてキャプチャされた第1の複数のサンプリングされた画像と、
前記第1のスペクトルプロファイルとは異なる第2のスペクトルプロファイルを有する光によって照射された前記素材の前記表面についてキャプチャされた第2の複数のサンプリングされた画像とを含む、請求項
16に記載のシステム。
【請求項22】
前記経験モデルが、2つ以上の前記サンプリングされた画像の間を補間することによって計算された表面光フィールド関数を含む、請求項
16に記載のシステム。
【請求項23】
前記経験モデルが、前記サンプリングされた画像上で訓練された深層ニューラルネットワークによって計算された表面光フィールド関数を含む、請求項
16に記載のシステム。
【請求項24】
前記経験モデルが、前記サンプリングされた画像上で訓練された敵対的生成ネットワークによって計算された表面光フィールド関数を含む、請求項
16に記載のシステム。
【請求項25】
前記経験モデルが、前記サンプリングされた画像に基づいて生成された数学的モデルによって計算された表面光フィールド関数を含む、請求項
16に記載のシステム。
【請求項26】
前記メモリが、前記プロセッサによって実行されると、前記合成データ生成器に前記合成画像にスタイル転送を適用させる命令をさらに記憶する、請求項
15に記載のシステム。
【請求項27】
請求項
15~
26のいずれか一項に記載のシステム
によって生成された複数の合成画像に基づいて訓練データセットを
生成するように構成されている、訓練データセットを合成するためのシステム。
【請求項28】
機械学習モデルを訓練するためのシステムであって、
プロセッサと、
前記プロセッサによって実行されると、前記プロセッサに、
請求項
27に記載のシステムによって
得られた訓練データセットを受信することと、
前記訓練データセットに基づいて前記機械学習モデルのパラメータを計算することと、を行わせる命令を記憶するメモリと、を備える、システム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
この出願は、2020年1月30日に米国特許商標庁に提出された米国仮特許出願第62/968,038号の優先権および利益を主張し、その開示全体は参照により本明細書に組み込まれる。
【0002】
本開示の実施形態の態様は、機械学習技術、特に機械学習モデルを訓練するためのデータの合成または生成に関する。
【背景技術】
【0003】
機械学習モデルなどの統計モデルは、一般に、大量のデータを使用して訓練される。コンピュータビジョンの分野では、訓練データは、一般に、畳み込みニューラルネットワークなどの深層学習モデルを訓練して画像分類やインスタンスセグメンテーションなどのコンピュータビジョンタスクを実行するために使用されるラベル付き画像を含む。しかしながら、様々なシーンの写真を手動で収集し、写真にラベルを付けることは、時間と費用がかかる。これらの訓練データセットを拡張するためのいくつかの手法は、合成訓練データの生成を含む。例えば、3次元(3-D)コンピュータグラフィックスレンダリングエンジン(例えば、スキャンラインレンダリングエンジンやレイトレーシングレンダリングエンジン)は、深層学習モデルの訓練に使用されることができるオブジェクトの3-Dモデルの配置の仮想環境のフォトリアリスティックな2次元(2-D)画像を生成することができる。
【発明の概要】
【0004】
本開示の実施形態の態様は、機械学習技術、特に機械学習モデルを訓練するためのデータの合成または生成に関する。特に、本開示の実施形態の態様は、シーン内の可視光の強度の画像以外の撮像モダリティに基づいてキャプチャされた入力画像に対してコンピュータビジョンタスクを実行するための機械学習モデルを訓練するための画像の合成に関する。
【0005】
本開示の一実施形態によれば、仮想シーンの合成画像を生成する方法は、プロセッサおよびメモリによって実装される合成データ生成器によって、オブジェクトの3次元(3-D)モデルを3-D仮想シーンに配置することと、合成データ生成器によって、3-D仮想シーンに1つ以上の照明源を含む照明を追加することと、合成データ生成器によって、選択された撮像モダリティにしたがって、3-D仮想シーン内のオブジェクトの3-Dモデルに各々が経験モデルを含む撮像モダリティ固有素材を適用することと、選択された撮像モダリティにしたがってシーンの背景を設定することと、合成データ生成器によって、選択された撮像モダリティに基づいて3-D仮想シーンの2次元画像をレンダリングして、選択された撮像モダリティにしたがって合成画像を生成することと、を含む。
【0006】
経験モデルは、選択された撮像モダリティを使用して画像をキャプチャするように構成された撮像システムを使用して素材の表面をキャプチャしたサンプリングされた画像に基づいて生成されることができ、サンプリングされた画像は、素材の表面の法線方向に対して複数の異なるポーズから素材の表面をキャプチャした画像を含むことができる。
【0007】
選択された撮像モダリティは、偏光とすることができ、撮像システムは、偏光カメラを含む。
【0008】
選択された撮像モダリティは、熱的とすることができ、撮像システムは、熱カメラを含むことができる。熱カメラは、偏光フィルタを含むことができる。
【0009】
サンプリングされた画像のそれぞれは、素材の表面の法線方向に対するそのポーズの対応する角度に関連して記憶されることができる。
【0010】
サンプリングされた画像は、以下を含むことができる。すなわち、第1のスペクトルプロファイルを有する光によって照射された素材の表面についてキャプチャされた第1の複数のサンプリングされた画像、および、第1のスペクトルプロファイルとは異なる第2のスペクトルプロファイルを有する光によって照射された素材の表面についてキャプチャされた第2の複数のサンプリングされた画像である。
【0011】
経験モデルは、2つ以上のサンプリングされた画像の間を補間することによって計算された表面光フィールド関数を含むことができる。
【0012】
経験モデルは、サンプリングされた画像について訓練された深層ニューラルネットワークによって計算された表面光フィールド関数を含むことができる。
【0013】
経験モデルは、サンプリングされた画像について訓練された敵対的生成ネットワークによって計算された表面光フィールド関数を含むことができる。
【0014】
経験モデルは、サンプリングされた画像に基づいて生成された数学的モデルによって計算された表面光フィールド関数を含むことができる。
【0015】
本方法は、さらに、合成画像にスタイル転送を適用することを含むことができる。
【0016】
本開示の一実施形態によれば、3-D仮想シーンの偏光特徴空間にテンソルを生成するための方法は、プロセッサおよびメモリによって実装される合成データ生成器によって、オブジェクトの複数の3-Dモデルを含む3-D仮想シーンの表面法線の画像をレンダリングすることであって、表面法線が方位角成分および天頂角成分を含む、当該画像をレンダリングすることと、合成データ生成器によって、3-D仮想シーンのオブジェクトの3-Dモデルの表面について、オブジェクトの素材を決定することと、合成データ生成器によって、表面法線の方位角成分および天頂角成分にしたがって、偏光特徴空間におけるテンソルを計算することであって、偏光特徴空間におけるテンソルが、直線偏光の度合い、およびオブジェクトの表面における直線偏光の角度を含む、当該テンソルを計算することと、を含む。
【0017】
本方法は、さらに、オブジェクトの3-Dモデルの表面が鏡面反射支配的であるかどうかを決定することと、オブジェクトの3-Dモデルの表面が鏡面反射支配的であると決定したことに応じて、鏡面偏光方程式に基づいて偏光特徴空間におけるテンソルを計算することと、オブジェクトの3-Dモデルの表面が鏡面反射支配的であると決定したことに応じて、拡散偏光方程式に基づいて偏光特徴空間におけるテンソルを計算することと、を含むことができる。
【0018】
本方法は、さらに、拡散偏光方程式に基づいて偏光特徴空間におけるテンソルを計算することを含むことができる。
【0019】
本方法は、さらに、偏光特徴空間におけるテンソルにスタイル転送を適用することを含むことができる。
【0020】
本開示の一実施形態によれば、上記の方法のいずれかにしたがって生成された複数の合成画像を生成することに基づいて訓練データセットを合成するための方法である。
【0021】
本開示の一実施形態によれば、機械学習モデルを訓練するための方法は、上記の方法のいずれかにしたがって訓練データセットを生成することと、訓練データセットに基づいて機械学習モデルのパラメータを計算することと、を含む。
【0022】
本開示の一実施形態によれば、仮想シーンの合成画像を生成するためのシステムは、プロセッサと、プロセッサによって実行されると、プロセッサに、オブジェクトの3次元(3-D)モデルを3-D仮想シーンに配置することと、3-D仮想シーンに1つ以上の照明源を含む照明を追加することと、選択された撮像モダリティにしたがって、3-D仮想シーン内のオブジェクトの3-Dモデルに各々が経験モデルを含む撮像モダリティ固有素材を適用することと、選択された撮像モダリティにしたがってシーンの背景を設定することと、選択された撮像モダリティに基づいて3-D仮想シーンの2次元画像をレンダリングして、選択された撮像モダリティにしたがって合成画像を生成することと、を行うように合成データ生成器を実装させる命令を記憶するメモリと、を含む。
【0023】
経験モデルは、選択された撮像モダリティを使用して画像をキャプチャするように構成された撮像システムを使用して素材の表面にキャプチャされたサンプリングされた画像に基づいて生成されることができ、サンプリングされた画像は、素材の表面の法線方向に対して複数の異なるポーズから素材の表面をキャプチャした画像を含むことができる。
【0024】
選択された撮像モダリティは、偏光とすることができ、撮像システムは、偏光カメラを含むことができる。
【0025】
選択された撮像モダリティは、熱的とすることができ、撮像システムは、熱カメラを含むことができる。熱カメラは、偏光フィルタを含むことができる。
【0026】
サンプリングされた画像のそれぞれは、素材の表面の法線方向に対するそのポーズの対応する角度に関連して記憶されることができる。
【0027】
サンプリングされた画像は、以下を含むことができる。すなわち、第1のスペクトルプロファイルを有する光によって照射された素材の表面についてキャプチャされた第1の複数のサンプリングされた画像、および、第1のスペクトルプロファイルとは異なる第2のスペクトルプロファイルを有する光によって照射された素材の表面についてキャプチャされた第2の複数のサンプリングされた画像である。
【0028】
経験モデルは、2つ以上のサンプリングされた画像の間を補間することによって計算された表面光フィールド関数を含むことができる。
【0029】
経験モデルは、サンプリングされた画像について訓練された深層ニューラルネットワークによって計算された表面光フィールド関数を含むことができる。
【0030】
経験モデルは、サンプリングされた画像について訓練された敵対的生成ネットワークによって計算された表面光フィールド関数を含むことができる。
【0031】
経験モデルは、サンプリングされた画像に基づいて生成された数学的モデルによって計算された表面光フィールド関数を含むことができる。
【0032】
メモリは、プロセッサによって実行されると、合成データ生成器に合成画像にスタイル転送を適用させる命令をさらに記憶することができる。
【0033】
本開示の一実施形態によれば、3-D仮想シーンのための偏光特徴空間においてテンソルを生成するためのシステムは、プロセッサと、プロセッサによって実行されると、プロセッサに、オブジェクトの複数の3-Dモデルを含む3-D仮想シーンの表面法線の画像をレンダリングすることであって、表面法線が方位角成分および天頂角成分を含む、当該画像をレンダリングすることと、3-D仮想シーンのオブジェクトの3-Dモデルの表面について、オブジェクトの素材を決定することと、表面法線の方位角成分および天頂角成分にしたがって、偏光特徴空間におけるテンソルを計算することであって、偏光特徴空間におけるテンソルが、直線偏光の度合い、およびオブジェクトの表面における直線偏光の角度を含む、当該テンソルを計算することと、を行うように合成データ生成器を実装させる命令を記憶するメモリと、を含む。
【0034】
メモリは、プロセッサによって実行されると、合成データ生成器に、オブジェクトの3-Dモデルの表面が鏡面反射支配的であるかどうかを決定することと、オブジェクトの3-Dモデルの表面が鏡面反射支配的であると決定したことに応じて、鏡面偏光方程式に基づいて偏光特徴空間におけるテンソルを計算することと、オブジェクトの3-Dモデルの表面が鏡面反射支配的であると決定したことに応じて、拡散偏光方程式に基づいて偏光特徴空間におけるテンソルを計算することと、を行わせる命令をさらに記憶することができる。
【0035】
メモリは、プロセッサによって実行されると、合成データ生成器に、拡散偏光方程式に基づいて偏光特徴空間におけるテンソルを計算することを行わせる命令をさらに記憶することができる。
【0036】
メモリは、さらに、プロセッサによって実行されると、合成データ生成器に、偏光特徴空間におけるテンソルにスタイル転送を適用することを行わせる命令を記憶することができる。
【0037】
本開示の一実施形態によれば、訓練データセットを合成するためのシステムは、上記のシステムのいずれかのシステムを使用して訓練データセットを合成するように構成されている。
【0038】
本開示の一実施形態によれば、機械学習モデルを訓練するためのシステムは、プロセッサと、プロセッサによって実行されると、プロセッサに、上記のシステムのいずれかによって生成された訓練データセットを受信することと、訓練データセットに基づいて機械学習モデルのパラメータを計算することと、を行わせる命令を記憶するメモリと、を含む。
【図面の簡単な説明】
【0039】
添付の図面は、明細書とともに、本発明の例示的な実施形態を示し、説明とともに、本発明の原理を説明するのに役立つ。
【
図1】
図1は、様々なモダリティの画像に基づいてコンピュータビジョンタスクを実行するための統計モデルを訓練するためのシステムを示すブロック図であり、訓練は、本開示の実施形態にしたがって生成されたデータを使用して実行される。
【
図2】
図2は、偏光撮像を使用するように構成され、本発明の一実施形態にしたがって生成された合成偏光撮像データに基づいて訓練されることができるコンピュータビジョンシステムの概略ブロック図である。
【
図3A】
図3Aは、2つの透明なボール(「スプーフ」)およびいくつかの背景の乱雑さを含む別のシーンを描いた写真のプリントアウトの上に配置された1つの実際の透明なボールを有するシーンの画像または強度画像である。
【
図3B】
図3Bは、透明なボールのインスタンスを識別する比較マスク領域ベースの畳み込みニューラルネットワーク(マスクR-CNN)によって計算されたオーバーレイされたセグメンテーションマスクを備えた
図3Aの強度画像を示しており、実際の透明ボールは、インスタンスとして正しく識別され、2つのスプーフは、インスタンスとして誤って識別される。
【
図3C】
図3Cは、本発明の一実施形態にかかる、シーンのキャプチャされた偏光生フレームから計算された偏光角画像である。
【
図3D】
図3Dは、本発明の実施形態にかかる偏光データを使用して計算されたオーバーレイセグメンテーションマスクを備えた
図3Aの強度画像を示しており、実際の透明なボールは、インスタンスとして正しく識別され、2つのスプーフは、インスタンスとして正しく除外される。
【
図4】
図4は、透明オブジェクトおよび不透明(例えば、拡散および/または反射)オブジェクトとの光の相互作用の高レベルの描写である。
【
図5】
図5は、屈折率が約1.5の表面へのある範囲の入射角にわたって透過される光対反射される光のエネルギーのグラフである。
【
図6】
図6は、本開示の一実施形態にかかる、合成画像を生成するためのパイプラインを示すフローチャートである。
【
図7】
図7は、本開示の一実施形態にかかる、偏光カメラシステムを使用して複数の角度から実際の素材をサンプリングする概略図である。
【
図8】
図8は、本開示の一実施形態にしたがってモデル化される特定の撮像モダリティを使用して、異なる視点から素材の画像をキャプチャするための方法を示すフローチャートである。
【
図9】
図9は、本開示の一実施形態にかかる、素材の経験モデルに基づいて仮想オブジェクトの一部をレンダリングするための方法を示すフローチャートである。
【
図10】
図10は、本開示の一実施形態にかかる、仮想シーンの偏光表現空間における合成特徴またはテンソルを計算するための方法を示すフローチャートである。
【
図11】
図11は、本開示の一実施形態にかかる訓練データセットを生成するための方法を示すフローチャートである。
【発明を実施するための形態】
【0040】
以下の詳細な説明では、本発明の特定の例示的な実施形態のみが、例示として示されて説明されている。当業者が認識するように、本発明は、多くの異なる形態で具体化されることができ、本明細書に記載の実施形態に限定されると解釈されるべきではない。同様の参照符号は、本明細書全体を通して同様の要素を示す。
【0041】
本開示の実施形態の態様は、可視光の強度に基づいて画像をキャプチャするように構成されたカラーまたはモノクロカメラなどの標準モダリティ以外のモダリティに基づいてキャプチャされた画像に対してコンピュータビジョンタスクを実行するための機械学習モデルを訓練するためのデータを合成または生成するためのシステムおよび方法に関する。他のモダリティの例は、偏光に基づいてキャプチャされた画像(例えば、円形および/または直線偏光をキャプチャするためにカメラの光路内の偏光フィルタまたは偏光フィルタによってキャプチャされた画像)、非可視光または不可視光(例えば、赤外または紫外範囲の光)、およびそれらの組み合わせ(例えば、偏光された赤外光)を含むが、本開示の実施形態は、それに限定されず、他のマルチスペクトル撮像技術に適用されることができる。
【0042】
より詳細には、本開示の実施形態の態様は、コンピュータビジョンタスクを実行するために機械学習モデルを訓練するための異なる撮像モダリティにおけるオブジェクトの合成画像の生成に関する。
【0043】
一般に、シーンに描かれたオブジェクトを分類するセグメンテーションマップを計算するためのコンピュータビジョンシステムは、入力として2次元画像(例えば、カラーカメラによってキャプチャされたもの)を取り、それらの画像に基づいてセグメンテーションマップを出力する訓練された畳み込みニューラルネットワークを含むことができる。このような畳み込みニューラルネットワークは、ImageNet(例えば、J.Deng,W.Dong,R.Socher,L.-J.Li,K.Li およびL.Fei-Fei,ImageNet:A Large-Scale Hierarchical Image Database.IEEE Computer Vision and Pattern Recognition(CVPR)、2009を参照)などの既存のデータセットについて事前に訓練されることができる。しかしながら、これらの既存のデータセットは、これらの既存のデータセットには、コンピュータビジョンシステムの特定のアプリケーションで遭遇すると予想される画像を代表していない画像を含むことがあり、したがって、これらの事前訓練済みモデルは、コンピュータビジョンシステムが実行することを目的とした特定のコンピュータビジョンタスクでパフォーマンスが低下することがある。例えば、製造環境のコンピュータビジョンシステムは、より多くの「汎用」データセットに見られることができる人、動物、家庭用品、屋外環境の画像よりも、ツール、部分的に組み立てられた製品、製造コンポーネントなどの画像に遭遇する可能性が高くなる。
【0044】
したがって、「再訓練」は、再訓練されたモデルによって実行されるタスクに関連付けられた特定のターゲットドメインからの追加の訓練データに基づいて、事前訓練されたモデルのパラメータ(例えば、接続重み)を更新することに関する。上記の例を続けると、特定の製造環境からのツール、部分的に組み立てられた製品、コンポーネントなどのラベル付けされた画像は、その製造環境で遭遇したオブジェクトの検出および分類におけるそのパフォーマンスを改善するために事前訓練されたモデル(例えば、事前訓練された畳み込みニューラルネットワーク)を再訓練するための訓練データとして使用されることができる。しかしながら、その製造環境において典型的なシーンの様々な画像を手動で収集し、グラウンドトゥルース値に基づいてこれらの画像にラベルを付ける(例えば、様々なクラスのオブジェクトに対応するピクセルを識別する)ことは、一般に時間と費用のかかるタスクである。
【0045】
上記のように、3次元(3-D)レンダリングコンピュータグラフィックスソフトウェアが使用されて、コンピュータビジョンタスクを実行するための機械学習モデルを訓練するための訓練データを生成することができる。例えば、これらのツール、部分的に組み立てられた製品、および製造コンポーネントの既存の3-Dモデルは、そのようなオブジェクトが実世界で遭遇する可能性のある様々な方法(例えば、照明条件および環境内の支持面と機器の3-Dモデルを含む)にしたがって、仮想シーンに配置されることができる。例えば、部分的に組み立てられた製品は、部分的に組み立てられた製品内のコンポーネントを位置決めするプロセスにおいて、コンベヤベルトの3-Dモデルに配置され、コンポーネントは、部品ビンに配置され、ツールは、ツールベンチおよび/またはシーン内に配置されることができる。したがって、3-Dコンピュータグラフィックスレンダリングシステムが使用されて、特定の環境におけるオブジェクトの典型的な配置の範囲のフォトリアリスティックな画像を生成する。これらの生成された画像にはまた、自動的にラベルを付けることもできる。特に、様々なタイプのオブジェクトのそれぞれを表すために使用される特定の3-Dモデルが、既にクラスラベルに関連付けられている場合(例えば、様々なサイズのネジ、組み立て済みのコンポーネント、組み立ての様々な段階の製品、特定のタイプのツールなど)、セグメンテーションマップは、自動的に生成されることができる(例えば、オブジェクトの表面を特定のクラスラベルにマッピングすることによって)。
【0046】
しかしながら、3-Dレンダリングコンピュータグラフィックスソフトウェアシステムは、一般に、可視光の強度(例えば、赤、緑、および青の光の強度)に基づいて典型的な撮像モダリティを表す画像を生成するように調整されている。Blender FoundationによるBlender(登録商標)などのそのような3-Dレンダリングソフトウェアは、一般に、フォトリアリスティックなシーンをレンダリングするときに見えないか、無視できる電磁放射の動作を考慮していない。これらの追加の動作の例は、光の偏光(例えば、偏光フィルタが光路にあるカメラによって検出されるように、偏光がシーン内の透明オブジェクトや反射するオブジェクトと相互作用するとき)、熱または赤外線(例えば、シーン内の暖かいオブジェクトによって放射され、赤外線を検出するのに敏感なカメラシステムによって検出される)、紫外線(例えば、紫外線に敏感なカメラシステムによって検出される)、それらの組み合わせ(例えば、熱放射による偏光、可視光による偏光、紫外線による偏光など)などを含む。
【0047】
したがって、本開示の実施形態の態様は、偏光または他の撮像モダリティに基づいて撮像されたときの様々な素材の挙動をモデル化するためのシステムおよび方法に関する。次に、本開示の実施形態にしたがって生成されたデータ(例えば、画像)は、深層畳み込みニューラルネットワークなどの深層学習モデルを訓練するための訓練データとして使用され、標準的な撮像モダリティ以外の撮像モダリティ(例えば、可視光または電磁スペクトルの可視部分の光の強度)に基づいて予測を計算することができる。
【0048】
動機付けの例として、本開示の実施形態は、偏光フィルタを通してキャプチャされたオブジェクトの合成画像(本明細書では「偏光生フレーム」と呼ばれる)を生成する状況で説明され、これらの画像は、偏光生フレームに基づいてタスクを実行するように畳み込みニューラルネットワークなどの深層ニューラルネットワークの訓練に使用されることができる。しかしながら、本開示の実施形態は、入力データとして偏光生フレーム(またはそこから抽出された特徴)をとる畳み込みニューラルネットワークを訓練するための合成偏光生フレームを生成することに限定されない。
【0049】
図1は、様々なモダリティの画像に基づいてコンピュータビジョンタスクを実行するための統計モデルを訓練するためのシステムを示すブロック図であり、訓練は、本開示の実施形態にしたがって生成されたデータを使用して実行される。
図1に示されるように、訓練データ5は、モデル30(例えば、事前訓練されたモデルまたは初期化された重みを有するモデルアーキテクチャ)を取り、訓練データ5を使用して訓練されたモデル(または再訓練されたモデル)32を生成するモデル訓練システム7に供給される。モデル30および訓練されたモデル32は、深層ニューラルネットワーク(深層ニューラルネットワークは畳み込みニューラルネットワークを含む)などの統計モデルとすることができる。本開示の実施形態にかかる合成データ生成器40は、合成データ42を生成し、これは、訓練されたモデル32を生成するための訓練データ5に含まれることができる。モデル訓練システム7は、モデル30のパラメータを更新するための反復プロセスを適用して、提供された訓練データ5(例えば、合成データ42を含む)にしたがって訓練されたモデル32を生成することができる。モデル30のパラメータの更新は、例えば、訓練データに応じてラベルとモデルの出力との間の差を測定する損失関数にしたがって、勾配降下法(およびニューラルネットワークの場合はバックプロパゲーション)を適用することを含むことができる。モデル訓練システム7および合成データ生成器40は、1つ以上の電子回路を使用して実装されることができる。
【0050】
本開示の様々な実施形態によれば、モデル訓練システム7および/または合成データ生成器40は、以下により詳細に説明されるように、様々な動作を実行するように構成された1つ以上の電子回路を使用して実装される。電子回路のタイプは、中央処理装置(CPU)、グラフィックス処理装置(GPU)、人工知能(AI)アクセラレータ(例えば、内積やソフトマックスなどのニューラルネットワークに共通の操作を効率的に実行するように構成されたベクトル算術論理ユニットを含むベクトルプロセッサ)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、デジタルシグナルプロセッサ(DSP)などを含むことができる。例えば、いくつかの状況では、本開示の実施形態の態様は、電子回路(例えば、CPU、GPU、AIアクセラレータ、またはそれらの組み合わせ)によって実行されると、本明細書に記載の動作を実行して、入力偏光生フレーム18からセグメンテーションマップ20を計算する、不揮発性コンピュータ可読メモリに記憶されるプログラム命令に実装される。モデル訓練システム7および合成データ生成器40によって実行される動作は、単一の電子回路(例えば、単一のCPU、単一のGPUなど)によって実行されることができるか、または複数の電子回路(例えば、複数のGPUまたはGPUと組み合わせたCPU)の間に割り当てられることができる。複数の電子回路は、互いにローカルであってもよく(例えば、同じダイ上に配置され、同じパッケージ内に配置され、または同じ組み込みデバイスまたはコンピュータシステム内に配置されることができる)、および/または互いに離れていてもよい(例えば、Bluetooth(登録商標)などのローカルパーソナルエリアネットワークなどのネットワーク、ローカル有線および/または無線ネットワークなどのローカルエリアネットワーク、および/またはインターネットなどの広域ネットワークを介して通信し、一部の動作が行われる場合ローカルで実行され、その他の動作は、クラウドコンピューティングサービスによってホストされているサーバ上で実行される)。モデル訓練システム7および合成データ生成器40を実装するように動作する1つ以上の電子回路は、本明細書ではコンピュータまたはコンピュータシステムと呼ばれることがあり、これは、1つ以上の電子回路によって実行されると、本明細書で説明するシステムと方法を実装する命令を記憶するメモリを含むことができる。
【0051】
図2は、偏光撮像を使用するように構成され、本発明の一実施形態にしたがって生成された合成偏光撮像データに基づいて訓練されることができるコンピュータビジョンシステムの概略ブロック図である。
【0052】
文脈のために、
図2は、偏光カメラがシーンを撮像し、偏光生フレーム、または偏光生フレームに基づいて計算された偏光特徴に基づいてコンピュータビジョンタスクを実行するように訓練されたモデルを含むコンピュータビジョンシステムに偏光生フレームを供給するシステムの概略図である。
【0053】
偏光カメラ10は、視野を有するレンズ12を有し、レンズ12およびカメラ10は、視野がシーン1を包含するように配向されている。レンズ12は、シーン1からの光(例えば、焦点光)を、画像センサ14(例えば、相補型金属酸化物半導体(CMOS)画像センサまたは電荷結合素子(CCD)画像センサ)などの感光性媒体に向けるように構成されている。
【0054】
偏光カメラ10は、さらに、シーン1と画像センサ14との間の光路に配置された偏光子または偏光フィルタまたは偏光マスク16を含む。本開示の様々な実施形態によれば、偏光子または偏光マスク16は、偏光カメラ10が、偏光子が様々な指定された角度(例えば、45°回転または60°回転または不均一な間隔の回転)に設定されたシーン1の画像をキャプチャすることができるように構成されている。
【0055】
一例として、
図2は、偏光マスク16が、カラーカメラの赤-緑-青(RGB)カラーフィルタ(例えば、ベイヤーフィルタ)と同様の方法で、画像センサ14のピクセルグリッドと位置合わせされた偏光モザイクである実施形態を示している。画像センサ14の各ピクセルは、モザイクのカラーフィルタにしたがってスペクトルの特定の部分(例えば、赤、緑、または青)の光を受光するように、カラーフィルタモザイクが波長に基づいて入射光をフィルタリングする方法と同様の方法で、偏光モザイクを使用する偏光マスク16は、異なるピクセルが異なる直線偏光角(例えば、0°、45°、90°、および135°、または0°、60°、および120°)で光を受光するように、直線偏光に基づいて光をフィルタリングする。したがって、
図2に示すような偏光マスク16を使用する偏光カメラ10は、4つの異なる直線偏光で光を同時にまたは同時にキャプチャすることができる。偏光カメラの一例は、オレゴン州ウィルソンビルのFLIR(登録商標)Systems,Inc.によって製造されたBlackfly(登録商標)S偏光カメラである。
【0056】
上記の説明は、偏光モザイクを使用する偏光カメラのいくつかの可能な実装に関するが、本開示の実施形態は、それに限定されず、複数の異なる偏光で画像をキャプチャすることができる他のタイプの偏光カメラを包含する。例えば、偏光マスク16は、4つよりも少ないまたは多い異なる偏光を有することができるか、または異なる角度(例えば、0°、60°、および120°の偏光角で、または0°、30°、60°、90°、120°、および150°の偏光角で)の偏光を有することができる。別の例として、偏光マスク16は、電気光学変調器(例えば、液晶層を含むことができる)などの電子制御偏光マスクを使用して実装されることができ、マスクの個々のピクセルの偏光角は、画像センサ14の異なる部分が異なる偏光を有する光を受光するように独立して制御されてもよい。別の例として、電気光学変調器は、例えば、カメラが偏光マスク全体を異なる直線偏光子角度に順次設定して(例えば、0度、45度、90度、または135度に順次設定する)画像をキャプチャするように、異なるフレームをキャプチャするときに異なる直線偏光の光を透過するように構成されることができる。別の例として、偏光マスク16は、機械的に回転する偏光フィルタを含むことができ、その結果、異なる偏光生フレームが、レンズ12に対して機械的に回転される偏光フィルタを用いて偏光カメラ10によってキャプチャされ、異なる偏光角で画像センサ14に光を透過する。
【0057】
偏光カメラはまた、実質的に平行な光軸を有する複数のカメラのアレイを指すことができ、その結果、カメラのそれぞれは、実質的に同じポーズからシーンの画像をキャプチャする。アレイの各カメラの光路は偏光フィルタを含み、偏光フィルタは、異なる偏光角度を有する。例えば、4台のカメラの2×2(2×2)アレイは、0°の角度に設定された偏光フィルタを有する1台のカメラ、45°の角度に設定された偏光フィルタを有する第2のカメラ、90°の角度に設定された偏光フィルタを有する第3のカメラ、および135°の角度に設定された偏光フィルタを有する第4のカメラを含むことができる。
【0058】
その結果、偏光カメラは、シーン1の複数の入力画像18(または偏光生フレーム)をキャプチャし、ここで、偏光生フレーム18のそれぞれは、異なる偏光角φpol(例えば、0度、45度、90度、または135度)で偏光フィルタまたは偏光子の後方で撮像された画像に対応する。偏光生フレームのそれぞれは、シーンに対して異なる位置と方向から偏光生フレームをキャプチャするのとは対照的に、シーン1に関して実質的に同じポーズからキャプチャされる(例えば、0度、45度、90度、または135度の偏光フィルタでキャプチャされた画像は、全て、同じ位置および方向に配置された同じ偏光カメラによってキャプチャされる)。偏光カメラ10は、電磁スペクトルの人間の可視部分、人間の可視スペクトルの赤、緑、および青の部分、ならびに赤外線や紫外線などの電磁スペクトルの目に見えない部分など、電磁スペクトルの様々な異なる部分の光を検出するように構成されることができる。
【0059】
図3A、
図3B、
図3C、および
図3Dは、本開示の実施形態にかかる、比較アプローチおよびセマンティックセグメンテーションまたはインスタンスセグメンテーションによって計算されたセグメンテーションマップを説明するための背景を提供する。より詳細には、
図3Aは、2つの透明ボール(「スプーフ」)およびいくつかの背景の乱雑さを含む別のシーンを描いた写真のプリントアウトの上に配置された1つの実際の透明ボールを有するシーンの画像または強度画像である。
図3Bは、異なるパターンの線を使用して
図3Aの強度画像上にオーバーレイされた透明ボールのインスタンスを識別する比較マスク領域ベースの畳み込みニューラルネットワーク(マスクR-CNN)によって計算されたセグメンテーションマスクを示しており、実際の透明ボールは、インスタンスとして正しく識別され、2つのスプーフは、インスタンスとして誤って識別される。換言すれば、マスクR-CNNアルゴリズムは、2つのスプーフの透明ボールをシーン内の実際の透明ボールのインスタンスとしてラベル付けするようにだまされている。
【0060】
図3Cは、本発明の一実施形態にかかる、シーンのキャプチャされた偏光生フレームから計算された直線偏光角(AOLP)画像である。
図3Cに示すように、透明オブジェクトは、AOLPドメインなどの偏光空間において非常に固有のテクスチャを有し、エッジには幾何学的形状に依存するシグネチャがあり、直線偏光の角度で透明オブジェクトの表面に発生する明確な、または固有の、または特定のパターンがある。換言すれば、透明オブジェクトの固有のテクスチャ(例えば、透明オブジェクトを通して見える背景表面から採用された外部のテクスチャとは対照的に)は、
図3Aの偏光画像の角度にある
図3Cの強度画像にあるよりも目に見える。
【0061】
図3Dは、本発明の実施形態にかかる偏光データを使用して計算されたオーバーレイされたセグメンテーションマスクを備えた
図3Aの強度画像を示しており、実際の透明ボールは、オーバーレイされた線のパターンを使用してインスタンスとして正しく識別され、2つのスプーフは、インスタンスとして正しく除外される(例えば、
図3Bとは対照的に、
図3Dは、2つのスプーフ上にオーバーレイされた線のパターンを含まない)。一方、
図3A、
図3B、
図3C、および
図3Dは、スプーフの透明オブジェクトの存在下で実際の透明オブジェクトを検出することに関連する例を示しているが、本開示の実施形態は、それに限定されず、透明、半透明、非マットまたは非ランバートオブジェクト、および非反射(マットブラックオブジェクトなど)およびマルチパス誘導オブジェクトなどの他の光学的に挑戦的なオブジェクトにも適用されることができる。
【0062】
偏光特徴表現空間
【0063】
本開示の実施形態のいくつかの態様は、偏光生フレームから特徴を抽出するためのシステムおよび方法に関し、これらの抽出された特徴は、オブジェクトの表面における光学的に困難な特性のロバストな検出のために処理システム100によって使用される。対照的に、強度画像のみに依存する比較技術は、これらの光学的に困難な特徴または表面を検出することができない可能性がある(例えば、
図3Aの強度画像を上述した
図3CのAOLP画像と比較する)。「第1の表現空間」における「第1のテンソル」という用語は、本明細書では、偏光カメラによってキャプチャされた偏光生フレーム18から計算された(例えば、抽出された)特徴を指すために使用され、これらの第1の表現空間は、少なくとも偏光特徴空間(例えば、画像センサによって検出された光の偏光に関する情報を含むAOLPおよびDOLPなどの特徴空間)を含み、非偏光特徴空間(例えば、いかなる偏光フィルタもなしでキャプチャされた強度画像のみに基づいて計算された画像などの画像センサに到達する光の偏光に関する情報を必要としない特徴空間)も含むことができる。
【0064】
光と透明オブジェクトとの間の相互作用は、リッチで複雑であるが、オブジェクトの素材は、可視光の下での透明度を決定する。多くの透明な家庭用オブジェクトの場合、可視光の大部分はまっすぐに通過し、ごく一部(屈折率に応じて約4%から約8%)が反射される。これは、スペクトルの可視部分の光には、透明オブジェクトの原子を励起するのに十分なエネルギーがないためである。結果として、透明オブジェクトの背後にある(または透明オブジェクトを通して見える)オブジェクトのテクスチャ(例えば、外観)が、透明オブジェクトの外観を支配する。例えば、テーブルの上の透明なガラスのカップまたはタンブラーを見るとき、タンブラーの反対側のオブジェクトの外観(例えば、テーブルの表面)は、通常、カップを通して見えるものを支配する。この特性は、強度画像のみに基づいて、ガラス窓や光沢のある透明な塗料の層などの透明オブジェクトの表面特性を検出しようとすると、いくつかの問題をもたらす:
【0065】
図4は、透明オブジェクトおよび不透明(例えば、拡散および/または反射)オブジェクトとの光の相互作用の高レベルの描写である。
図4に示されるように、偏光カメラ10は、不透明な背景オブジェクト403の前に透明オブジェクト402を含むシーンの偏光生フレームをキャプチャする。偏光カメラ10の画像センサ14に当たる光線410は、透明オブジェクト402および背景オブジェクト403の双方からの偏光情報を含む。透明オブジェクト402からの反射光412のごく一部は高度に偏光されており、したがって、背景オブジェクト403で反射されて透明オブジェクト402を通過する光413とは対照的に、偏光測定に大きな影響を与える。
【0066】
同様に、オブジェクトの表面に当たる光線は、様々な方法で表面の形状と相互作用する可能性がある。例えば、光沢のある塗料を備えた表面は、
図4に示されるように、不透明オブジェクトの前の透明オブジェクトと実質的に同様に振る舞うことができ、光線と光沢塗料の透明または半透明の層(またはクリアコート層)との間の相互作用は、表面で反射する光を、透明または半透明の層の特性に基づいて(例えば、層の厚さおよび表面法線に基づいて)偏光させ、これは、画像センサに当たる光線に符号化される。同様に、偏光からの形状(SfP)理論に関して以下により詳細に説明するように、表面の形状の変化(例えば、表面法線の方向)は、オブジェクトの表面によって反射される光の偏光に大きな変化を引き起こすことがある。例えば、滑らかな表面は、一般に全体を通して同じ偏光特性を示す場合があるが、表面の引っかき傷またはへこみは、それらの領域の表面法線の方向を変え、引っかき傷またはへこみに当たる光は、オブジェクトの表面の他の部分とは異なる方法で、偏光、減衰、または反射される場合がある。光と物質の間の相互作用のモデルは、一般に、幾何学的形状、照明、および素材の3つの基本を考慮する。幾何学的形状は、素材の形状に基づいている。照明は、照明の方向および色を含む。素材は、屈折率または光の角度反射/透過によってパラメータ化されることができる。この角度反射は、双方向反射率分布関数(BRDF)として知られているが、他の関数形式が特定のシナリオをより正確に表す場合がある。例えば、双方向表面下散乱分布関数(BSSRDF)は、表面下散乱を示す素材(例えば、大理石やワックス)の文脈ではより正確になる。
【0067】
偏光カメラ10の画像センサ16に当たる光線410は、以下の3つの測定可能な成分を有する:光の強度(強度画像/I)、直線偏光された光のパーセンテージまたは割合(直線偏光の度合い/DOLP/ρ)、およびその直線偏光の方向(直線偏光の角度/AOLP/φ)。これらの特性は、以下により詳細に説明するように、透明オブジェクトを検出するために予測器800によって使用されることができる、撮像されるオブジェクトの表面曲率および素材に関する情報を符号化する。いくつかの実施形態では、予測器800は、半透明オブジェクトを通過する光および/またはマルチパス誘導オブジェクトまたは非反射オブジェクト(例えば、マットブラックオブジェクト)と相互作用する光の同様の偏光特性に基づいて、他の光学的に挑戦的なオブジェクトを検出することができる。
【0068】
したがって、本発明の実施形態のいくつかの態様は、強度I、DOLPρ、およびAOLPφに基づいて導出された特徴マップを含むことができる、1つ以上の第1の表現空間において第1のテンソルを計算するために使用されることができる偏光生フレームの合成に関する。本開示の実施形態のいくつかの態様はまた、シーン内の光の偏光に関する情報に基づいて(および、いくつかの実施形態では、熱撮像および熱撮像と偏光撮像との組み合わせなどの他の撮像モダリティに基づいて)コンピュータビジョンタスクを実行するための深層学習システムの訓練に使用するためにDOLPρおよびAOLPφなどの1つ以上の表現空間においてテンソルを直接合成することに関する。
【0069】
各ピクセルにおける強度I、DOLPρ、およびAOLPφの測定は、異なる角度φ
polで偏光フィルタ(または偏光子)の後方で撮像されたシーンの3つ以上の偏光生フレームが必要とされる(例えば、以下の決定されるべき3つの未知の値があるため:強度I、DOLPρ、およびAOLPφ)。例えば、上述したFLIR(登録商標)Blackfly(登録商標)S偏光カメラは、0度、45度、90度、または135度における偏光角度φ
polで偏光生フレームをキャプチャし、それにより、本明細書ではI
0、I
45、I
90、およびI
135として示される、4つの偏光生フレーム
【数1】
を生成する。
【0070】
各ピクセルにおける
【数2】
と強度I、DOLPρ、およびAOLPφとの関係は、以下のように表されることができる:
【数3】
(1)
【0071】
したがって、4つの異なる偏光生フレーム
【数4】
(I
0、I
45、I
90、およびI
135)により、4つの方程式のシステムが使用されて強度I、DOLPρ、およびAOLPφを解くことができる。
【0072】
偏光(SfP)理論からの形状(例えば、Gary A AtkinsonおよびEdwin R Hancock、Recovery of surface orientation from diffuse polarization.IEEE transactions on image processing,15(6):1653-1664,2006.を参照)は、オブジェクトの表面法線の屈折率(n)、方位角(θ
a)および天頂角(θ
z)とオブジェクトから到来する光線のφおよびρ成分との関係が、拡散反射が支配的である場合には以下の特性にしたがうと記載している:
【数5】
(2)
φ=θ
a (3)
鏡面反射が支配的である場合:
【数6】
(4)
【数7】
(5)
いずれの場合も、θ
zが増加するのにともないρは指数関数的に増加し、屈折率が同じである場合、鏡面反射は、拡散反射よりもはるかに偏光されることに留意されたい。
【0073】
したがって、本開示の実施形態のいくつかの態様は、仮想環境における表面の形状(例えば、表面の向き)に基づいて合成生偏光フレーム18および/またはAOLPおよびDOLP画像を生成するためにSfP理論を適用することに関する。
【0074】
透明オブジェクトからの光線は、以下の2つの要素を有する:反射強度Ir、反射DOLPρr、および反射AOLPφrを含む反射部分、ならびに屈折強度It、屈折DOLPρt、および屈折AOLPφtを含む屈折部分。結果の画像の単一ピクセルの強度は、以下のように書くことができる:
I=Ir+It (6)
【0075】
直線偏光角φ
polを有する偏光フィルタがカメラの前に配置されている場合、特定のピクセルの値は以下である:
【数8】
(7)
【0076】
I
r、ρ
r、φ
r、I
t、ρ
t、およびφ
tの観点で、DOLPρ画像のピクセルおよびAOLPφの画像のピクセルの値について上記の式を解く:
【数9】
(8)
【数10】
(9)
【0077】
したがって、上記の式(7)、(8)、および(9)は、本開示の一実施形態によれば、強度画像I、DOLP画像ρ、およびAOLP画像φを含む第1の表現空間において第1のテンソル50を形成するためのモデルを提供し、偏光表現空間(式(8)および(9)に基づくDOLP画像ρおよびAOLP画像φを含む)における偏光画像またはテンソルの使用は、訓練されたコンピュータビジョンシステムが、入力としての強度I画像のみを使用する比較システムによっては一般に検出することができない、光学的に困難なオブジェクトの表面特性を確実に検出することを可能にする。
【0078】
より詳細には、偏光画像DOLPρおよびAOLPφなどの(導出された特徴マップのうちの)偏光表現空間の第1のテンソルは、強度Iドメインがテクスチャレスに見える可能性のあるオブジェクトの表面特性を明らかにすることができる。透明オブジェクトは、この強度が厳密にIr/Itの比率に依存しているため(式(6)を参照)、強度ドメインIでは表示されないテクスチャを有する場合がある。It=0の場合の不透明オブジェクトとは異なり、透明オブジェクトは、入射光の大部分を透過し、この入射光のごく一部のみを反射する。別の例として、そうでなければ滑らかな表面(またはそうでなければ粗い表面の滑らかな部分)の形状の薄いまたは小さな偏差は、実質的に見えないか、または強度Iドメイン(例えば、光の偏光が考慮されていないドメイン)のコントラストが低い場合があるが、DOLPρまたはAOLPφなどの偏光表現空間において非常に目に見えるかまたは高いコントラストを有する場合がある。
【0079】
したがって、表面トポグラフィを取得するための1つの例示的な方法は、幾何学的正則化と組み合わせて偏光キューを使用することである。フレネルの式は、表面法線を有するAOLPφおよびDOLPρに関連している。これらの式は、表面の偏光パターンとして知られているものを利用することにより、異常検出に役立つことができる。偏光パターンは、サイズ[M,N,K]のテンソルであり、MおよびNは、それぞれ、水平および垂直のピクセル寸法であり、Kは、サイズが異なることができる偏波データチャネルである。例えば、円偏光が無視され、直線偏光のみが考慮される場合、Kは、直線偏光が角度および偏光(AOLPφおよびDOLPρ)の度合いの双方を有するため、2に等しい。モアレパターンと同様に、本開示のいくつかの実施形態では、特徴抽出モジュール700は、偏光表現空間(例えば、AOLP空間およびDOLP空間)内の偏光パターンを抽出する。上記示した
図1Aおよび
図1Bに示される例示的な特徴付け出力20では、水平方向および垂直方向の寸法は、偏光カメラ10によってキャプチャされたオブジェクトの表面の狭いストリップまたはパッチの横方向の視野に対応している。しかしながら、これは1つの例示的な場合である:様々な実施形態では、表面のストリップまたはパッチは、垂直(例えば、幅よりもはるかに高い)、水平(例えば、高さよりもはるかに広い)、または正方形に近づく傾向がある(例えば、幅と高さの比率が4:3または16:9)より従来の視野(FoV)を有することができる。
【0080】
前述の説明では、1つ以上の直線偏光フィルタを有する偏光カメラを使用して、様々な直線偏光角度に対応する偏光生フレームをキャプチャし、DOLPおよびAOLPなどの直線偏光表現空間におけるテンソルを計算する場合の、直線偏光に基づく偏光表現空間の具体例を提供しているが、本開示の実施形態はそれに限定されない。例えば、本開示のいくつかの実施形態では、偏光カメラは、円偏光のみを通過させるように構成された1つ以上の円偏光フィルタを含み、円偏光表現空間における偏光パターンまたは第1のテンソルが偏光生フレームからさらに抽出される。いくつかの実施形態では、円偏光表現空間におけるこれらの追加のテンソルは、単独で使用され、他の実施形態では、それらは、AOLPおよびDOLPなどの直線偏光表現空間におけるテンソルとともに使用される。例えば、偏光表現空間におけるテンソルを含む偏光パターンは、円偏光空間、AOLP、およびDOLPにテンソルを含むことができ、偏光パターンは、次元[M,N,K]を有することができ、Kは、円偏光表現空間におけるテンソルをさらに含むように3である。
【0081】
図5は、屈折率が約1.5の表面へのある範囲の入射角にわたって透過される光対反射される光のエネルギーのグラフである。
図5に示されるように、透過エネルギー(
図5に実線で示される)および反射エネルギー(
図5に点線で示される)線の傾きは、低い入射角(例えば、表面の平面に対して垂直に近い角度で)では比較的小さい。そのため、入射角が小さい場合(例えば、表面に対して垂直に近い場合、すなわち表面法線に近い場合)、偏光パターンの表面角度の僅かな違いを検出するのは困難である(コントラストが低い)場合がある。一方、反射エネルギーの傾きは、入射角が大きくなると平坦から大きくなり、透過エネルギーの傾きは、入射角が大きくなると平坦から小さくなる(絶対値がより大きくなる)。
図5に示す例では、屈折率は1.5であり、双方の線の傾斜は、約60°の入射角から始まって実質的に急勾配であり、それらの傾斜は、約80°の入射角で非常に急勾配である。曲線の特定の形状は、素材の屈折率に応じて、様々な素材について変化することがある。したがって、曲線のより急な部分に対応する入射角(例えば、
図5に示すように、屈折率が1.5の場合の約80°など、表面に平行に近い角度)で検査中の表面の画像をキャプチャすることは、偏光生フレーム18の表面形状の変化のコントラストおよび検出可能性を改善することができ、入射角の小さな変化(表面法線の小さな変化による)は、キャプチャされた偏光生フレームに大きな変化を引き起こすことがあるため、偏光表現空間におけるテンソルにおけるそのような特徴の検出可能性を改善することができる。
【0082】
光学的に困難なオブジェクトおよび表面の存在および形状を検出するための偏光カメラの使用は、例えば、2020年8月28日に出願されたPCT特許出願第US/2020/048604号および2020年9月17日に出願されたPCT特許出願US/2020/051243号にさらに詳細に記載されており、それらの開示全体は、参照により本明細書に組み込まれる。そのようなコンピュータビジョンシステムは、本開示の実施形態にしたがって生成された訓練データに基づいて、偏光データに対してコンピュータビジョンタスクを実行するように訓練されることができる。いくつかの実施形態では、これらのコンピュータビジョンシステムは、深層ニューラルネットワーク(例えば、畳み込みニューラルネットワーク)などの機械学習モデルを使用して、コンピュータビジョンタスクを実行し、深層学習モデルは、入力として、偏光生フレームおよび/または偏光表現空間の特徴をとるように構成されている。
【0083】
様々な素材の偏光の物理学をシミュレートすることは、素材の特性、使用される照明のスペクトルプロファイルと偏光パラメータ、および反射光が観察者によって観察される角度を理解する必要がある複雑なタスクである。光の偏光の物理学とそれがオブジェクトの照明に与える影響を真にシミュレートすることは、複雑なタスクであるだけでなく、通常は非常に不正確な(非現実的な)画像を生成する複雑なフォワードモデルを適用するなど、計算量の多いタスクでもある。したがって、様々な比較3-Dコンピュータグラフィックスシステムは、通常、光の偏光の物理学とオブジェクトの照明へのその影響を正確にモデル化していないため、対応する実際の環境がその光路に偏光フィルタを備えたカメラ(例えば、偏光カメラ)によって撮像された場合に表示される方法を現実的に表現する方法で、仮想環境の画像を合成またはレンダリングすることができない。したがって、標準的な撮像モダリティ(偏光フィルタのない可視光画像など)で動作するコンピュータビジョンシステムを訓練するための合成データを生成するための比較技術は、一般に、他の撮像モダリティ(例えば、偏光カメラ、熱カメラなど)で動作するコンピュータビジョンシステムを訓練するための訓練データを生成することができない。
【0084】
上述したように、本開示の実施形態の態様は、機械学習モデルを訓練して、本明細書ではマルチモーダル画像またはプレノプティック画像と呼ばれる、標準カメラ(例えば、可視光を使用せずに可視光の強度をキャプチャするように構成されたカメラ)によってキャプチャされた画像以外の撮像モダリティを使用してキャプチャされたデータを入力として取得するためのデータを生成または合成することに関する。「マルチモーダル」という用語は、光のプレノプティック理論を指し、プレノプティックドメインの各次元(例えば、波長、偏光、角度など)は、光のモダリティの例である。したがって、マルチモーダルまたはプレノプティック撮像は、複数の撮像モダリティの同時使用を含むが、これに限定されない。例えば、「マルチモーダル」という用語は、本明細書では、単一の撮像モダリティを指すために使用されることができ、その単一の撮像モダリティは、偏光フィルタなどのフィルタを使用しない可視光の強度とは異なるモダリティである。偏光表現空間内の1つ以上の偏光カメラおよび/またはテンソルによってキャプチャされた偏光生フレームは、マルチモーダルまたはプレノプティック撮像モダリティ(例えば、マルチモーダル撮像またはプレノプティック撮像を使用する)における入力のクラスの一例である。
【0085】
一般に、本開示の実施形態の様々な態様は、4つの技術に関連し、偏光撮像モダリティなどのマルチモーダルまたはプレノプティック撮像モダリティにしたがって合成訓練データを生成するためのパイプラインの一部として別々にまたは組み合わせて使用されることができる。これらの技術は、ドメインのランダム化、テクスチャマッピング、法線マッピング、スタイル転送を含み、これらについては、以下により詳細に説明する。
【0086】
図6は、本開示の一実施形態にかかる、合成画像を生成するためのパイプラインを示すフローチャートである。本開示のいくつかの実施形態では、
図6の動作は、例えば、合成データ生成器40のプロセッサによって実行されると、合成データ生成器40に、光学現象の物理的シミュレーションに基づいて合成画像を生成するために本明細書に記載されている特別な目的の動作を実行させる合成データ生成器40のメモリに記憶された専用プログラムにおいて、合成データ生成器40によって実行される。便宜上、本開示の実施形態の態様は、製造状況において偏光撮像を適用して、透明で光沢のある金属、および/または暗いマットな表面を有するオブジェクトなどの光学的に困難な製造コンポーネントおよびツール上でコンピュータビジョンタスクを実行する状況で説明される。
【0087】
動作610において、合成データ生成器40は、オブジェクトの3-Dモデルを仮想シーンに配置する。製造環境においてシーンの合成画像を生成する文脈では、オブジェクトの3-Dモデルは、コンポーネントおよび部分的または完全に組み立てられた製造製品のコンピュータ支援設計(CAD)モデルから容易に入手可能である。これらのCADモデルは、以前に製品設計段階で作成されたものであり、例えば、コンポーネントのベンダーから(例えば、コンポーネントをメーカーに供給したベンダーから)、公開されている情報(例えば、データシート)、またはメーカーが採用している社内の製品設計者から取得されることができる。状況によっては、CADモデルは、コンポーネントの仕様に基づいて手動で生成されてもよい。
【0088】
本開示のいくつかの実施形態では、オブジェクトの3-Dモデルは、機械学習モデルが実行するように訓練される特定のコンピュータビジョンタスクについて遭遇すると予想されるように、それらのオブジェクトの配置に似た方法で仮想シーンに配置される。
【0089】
製造文脈におけるコンピュータビジョンの上記の例では、1つのタスクは、コンポーネントのビンでインスタンスのセグメンテーションを実行することであり、コンポーネントは、均質(例えば、ばねまたはネジのビンなど、ビン内の全てのコンポーネントが同じである)または異種(例えば、異なるサイズのネジや一致するナットと混合されたネジなど、異なるタイプのコンポーネントの混合)とすることができる。オブジェクトはビン内にランダムに配置されることができ、コンポーネントは、ビン内で多くの異なる方向に向けられることができ、異種コンポーネントのビンでは、異なる部分タイプのコンポーネントは、ビンの異なる部分に分離されるのではなく、一体に混合される。コンピュータビジョンシステムは、ビンのセグメンテーションマップを計算し、ビン内の個々のコンポーネントの位置および方向(および、異種コンポーネントのビンの場合はオブジェクトのタイプ)を識別するように訓練されることができる。次に、このセグメンテーションマップは、ロボットアームなどのアクチュエータシステムによって使用されて、その結果、ビンからコンポーネントを取り出し、取り出されたコンポーネントを部分的に組み立てられた製品に追加することができる。
【0090】
したがって、本開示のいくつかの実施形態では、合成データ生成器40は、3-Dコンピュータグラフィックスレンダリングシステムに組み込まれた物理エンジンなどの物理シミュレーションエンジンを使用してシミュレートされるように、仮想ビンの3-Dモデルをシーンに配置し、コンポーネントの3-Dモデルを仮想ビンにドロップすることによって、ビン内のコンポーネントのシーンを生成する。例えば、Blender(登録商標)3-Dレンダリングソフトウェアは、重力または他の力によって影響を受ける剛体、布、軟体、流体などの動き、衝突、変形の可能性など、様々な物理的な実世界の現象をシミュレートする物理システムを含む。したがって、剛体シミュレーションは、剛体コンポーネント(例えば、ネジ、ボルト、比較的硬いばね)の剛体仮想ビンへのドロップをシミュレートするために使用されることができ、軟体シミュレーションは、剛性仮想ビンへの弾性または変形可能なコンポーネント(例えば、ストリング、ワイヤ、プラスチックシートなど)に使用されることができる。
【0091】
より詳細には、コンポーネントの3-Dモデルの様々な数のインスタンスを仮想ビンにドロップすることなどによって、ビンの異なる潜在的な状態を表す様々な異なるシーンが生成されることができる。例えば、一般的なビンの最大容量が1,000個のネジの場合、1,000個のネジ、900個のネジ、500個のネジ、100個のネジ、10個のネジを仮想ビンにドロップして、仮想ビンの様々な潜在的な満杯状態を表す様々なシーンを生成することにより、様々なシーンが生成されることができる。さらに、任意の数のネジに対して複数のシーンが生成されることができ(または、異なるシーンの生成間でネジの数がランダム化されることができる)、この場合、ビンの上の様々なランダムな場所から、一度に1つずつコンポーネントをビンにドロップするなどして、ビン内のコンポーネントの配置もランダム化される。
【0092】
したがって、動作610において、合成データ生成器40は、代表的なオブジェクトの配置を含むシーンを生成する。
【0093】
動作630において、合成データ生成器40は、動作610において生成された仮想シーンに照明を追加する。特に、合成データ生成器40は、1つ以上の光源を仮想シーンに追加し、光源は、ビン内のオブジェクトの表面の一部または全部を照明する。いくつかの実施形態では、1つ以上の光源の位置がランダム化され、訓練のロバスト性を改善するために、部品のビンに対して異なる位置(例えば、異なる角度および距離)にある光源によって複数のシーンが生成される。本開示のいくつかの実施形態では、仮想照明は、コンピュータビジョンシステムが動作するように訓練されている環境で見られる光源を代表する仮想光源を含む。潜在的な代表的な光源の例は、例えば、白熱灯、蛍光灯、発光ダイオード(LED)電球、環境内のシミュレートされた窓からの自然光、および他の形態の照明技術に対応する異なる色温度を含み、仮想光の形状(例えば、光によって放射される光線の方向)は、直接光から拡散光までの範囲とすることができる。本開示のいくつかの実施形態では、光の特性(例えば、色温度および形状)もランダム化されて、異なるタイプの照明によって異なるシーンを生成する。
【0094】
動作650において、合成データ生成器40は、モダリティ固有素材を3-D仮想シーン内のオブジェクトに適用する。例えば、合成偏光画像データを生成する場合、偏光固有素材が仮想シーン内のオブジェクトに適用される一方で、合成熱画像データを生成する場合、熱画像固有素材が仮想シーン内のオブジェクトに適用されることができる。説明のために、偏光固有素材を本明細書で詳細に説明するが、本開示の実施形態は、それに限定されず、マルチモーダル撮像モダリティおよび/またはプレノプティック撮像モダリティに固有の素材の生成および適用にも適用されることができる。
【0095】
本開示の実施形態のいくつかの態様は、ドメインランダム化に関連しており、シーン内のオブジェクトの素材の外観は、オブジェクトの典型的な外観を超えてランダム化される。例えば、いくつかの実施形態では、ランダムな色を有する多数の素材(例えば、異なる、ランダムに選択された色の数千の異なる素材)が、仮想シーン内の異なるオブジェクトに適用される。実際の環境では、シーン内のオブジェクトは一般に明確な色を有する(例えば、ゴムワッシャは、一般に全てマットブラックに見え、ネジは光沢のある黒、マットブラック、ゴールド、または光沢のある金属の特定の色合いである場合がある)。しかしながら、実際のオブジェクトは、光の色温度、反射、鏡面ハイライトなどの照明条件の変化により、外観が異なる場合がある。したがって、訓練データを生成するときにオブジェクトに適用される素材の色にランダム化を適用すると、訓練データのドメインが拡張されて非現実的な色も含まれるため、訓練データの多様性が高まり、様々な実世界の条件で正確な予測(例えば、より正確なインスタンスセグメンテーションマップ)を作成することができるよりロバストな機械学習モデルを訓練することができる。
【0096】
本開示の実施形態のいくつかの態様は、テクスチャマッピングを実行して、撮像モダリティにしたがって1つ以上のパラメータに依存する素材(パラメータ化された素材)のモデルを生成することに関する。例えば、上述したように、偏光カメラシステムによって撮像されたシーン内の所与の表面の外観は、表面の素材の特性、スペクトルプロファイル、およびシーン内の照明源または照明源(光源)の偏光パラメータ、表面への光の入射角度、および観察者の視点角度(例えば、偏光カメラシステム)に基づいて変化することがある。そのため、様々な素材の偏光の物理をシミュレートすることは、複雑で計算量の多いタスクである。
【0097】
したがって、本開示の実施形態のいくつかの態様は、実世界の素材でキャプチャされた実世界の画像などの経験的データに基づいて、様々な撮像モダリティの物理学をエミュレートすることに関する。より詳細には、関心のある特定の撮像モダリティを実装する撮像システム(例えば、偏光カメラシステム)が使用されて、関心のある特定の素材で作られたオブジェクトからサンプル画像を収集する。いくつかの実施形態では、収集されたサンプル画像は、その表面光フィールド関数(例えば、双方向反射率密度関数またはBRDF)などの素材の経験モデルを計算するために使用される。
【0098】
図7は、本開示の一実施形態にかかる、偏光カメラシステムを使用して複数の角度から実際の素材をサンプリングする概略図である。
図8は、本開示の一実施形態にしたがってモデル化される特定の撮像モダリティを使用して、異なる視点から素材の画像をキャプチャするための方法800を示すフローチャートである。
図7に示されるように、物理的オブジェクト(例えば、洗濯機、ネジなど)の表面702は、関心のある素材(例えば、それぞれ、黒色ゴム、クロムメッキステンレス鋼など)でできている。動作810において、この素材は、物理的シーン(例えば、実験室のベンチトップ上)に配置される。動作830では、LEDランプまたは蛍光ランプなどの物理照明源704がシーン内に配置され、表面702の少なくとも一部を照明するように配置される。例えば、
図7に示されるように、物理照明源704から放射された光線706は、その特定の点708における表面702の法線方向714に対して表面702上の特定の点708において入射角αで表面702の特定の点708に入射する。
【0099】
動作850において、撮像システムが使用されて、表面の法線方向に対して複数のポーズからオブジェクトの表面702の画像をキャプチャする。
図7に示す実施形態では、偏光カメラシステム710は、物理照明源704によって照明された部分を含む(例えば、特定の点708を含む)表面702の画像をキャプチャするための撮像システムとして使用される。偏光カメラシステム710は、偏光カメラシステム710をあるポーズから次のポーズに移動し、各ポーズから偏光生フレームをキャプチャすることなどによって、異なるポーズ712から表面702の画像をキャプチャする。
図7に示す実施形態では、偏光カメラシステム710は、第1のポーズ712Aにおいて0°の正面平行な観察者角度β(例えば、真上からの、または点708において表面法線714と位置合わせされた正面平行ビュー)で、第2のポーズ712Bにおいて表面法線714に対して45°の角度などの中間の観察者角度βで、および第3のポーズ712Cにおいて表面法線714に対して(例えば、89°などの90°よりも僅かに小さい)浅い観察者角度βで表面702を撮像する。
【0100】
上述したように、偏光カメラシステム710は、一般に、異なる角度の偏光フィルタを備えた偏光生フレームをキャプチャするように構成されている(例えば、4台のカメラのアレイを有する、単一のレンズおよびセンサシステムの光路において4つの異なる偏光角を有する偏光モザイクを用いて、各カメラは、異なる角度で直線偏光フィルタを有し、同じポーズから異なる時間にキャプチャされた異なるフレームに対して異なる角度で偏光フィルタが設定されているなど)。
【0101】
動作870において、撮像システムによってキャプチャされた画像は、表面の法線方向(例えば、観察者角度β)に対するカメラの相対的なポーズとともに記憶される。例えば、観察者角度βは、画像に関連付けられたメタデータに記憶されることができ、および/または画像は、部分的に、観察者角度βに基づいて索引付けされることができる。いくつかの実施形態では、画像は、以下を含むパラメータによって索引付けされることができる:観察者角度β(または表面法線に対するカメラ位置の角度)、素材タイプ、および照明タイプ。
【0102】
したがって、
図7に示す構成では、例えば、
図8の方法を使用して、偏光カメラシステム710は、異なる反射角度において(例えば、異なるポーズ712において)所与の照明条件(例えば、物理照明源704のスペクトルプロファイルが知られている場合)で素材の複数の画像(例えば、0°、45°、90°、および135°の直線偏光角度における4つの画像)をキャプチャする。
【0103】
これらの遠近法またはポーズ712のそれぞれは、偏光の物理学の性質のために、異なる偏光信号を与える。したがって、異なる観察者角度から表面702の画像をキャプチャすることによって、素材のBRDFのモデルは、最も近い対応する観察者角度βを有する1つ以上のポーズ712でのカメラシステムによって1つ以上の最も近い対応する入射角αで物理照明源704によってキャプチャされた画像間の補間に基づいて推定されることができる。
【0104】
図7の実施形態は、便宜上、3つのポーズ712を単に示しているだけであり、本開示の実施形態は、それに限定されず、素材は、隣接するポーズ間の5°間隔またはより小さな間隔などで、より高い速度でサンプリングされることができる。例えば、いくつかの実施形態では、偏光カメラシステム712は、ビデオカメラシステムとして動作するように構成され、偏光生フレームは、毎秒30フレーム、毎秒60フレーム、毎秒120フレーム、または毎秒240フレームなどの高速でキャプチャされ、それにより、表面法線に対して多数の角度でキャプチャされた高密度の画像をもたらす。
【0105】
同様に、いくつかの実施形態では、表面702に対する物理照明源704のポーズは、物理照明源704から放射された光線が異なる角度αで表面702に入射するように変更され、表面の複数の画像は、異なるポーズ712から偏光カメラシステム710によって同様にキャプチャされる。
【0106】
様々な角度のサンプリングレート(例えば、入射角αおよび観察者または偏光カメラシステムの角度β)は、リアリズムを大幅に失うことなく、中間の視点が補間(例えば、双線形補間)されることができるように選択されることができる。本開示の様々な実施形態では、インターバル隔の間隔は、撮像モダリティの物理的特性に依存することがあり、一部の撮像モダリティは、他の撮像モダリティよりも高い角度感度を示し、したがって、角度感度が低いモダリティの場合、より少ないポーズ(より広く間隔を空けて)で高精度が可能であることがあるのに対して、角度感度が高いモダリティは、より多くのポーズを使用することがある(間隔が狭くなる)。例えば、いくつかの実施形態では、偏光撮像モダリティのために偏光生フレームをキャプチャするとき、偏光カメラシステム710のポーズ712は、約5度(5°)離れた間隔角度に設定され、表面702の画像はまた、同様に約5度(5°)離れた角度で間隔を置いて、様々な位置において物理照明源704を用いてキャプチャされることができる。
【0107】
状況によっては、経験モデルの撮像モダリティの下での素材の外観はまた、白熱灯、蛍光灯、発光ダイオード(LED)電球、太陽光などの照明源のタイプに依存し、したがって、実世界のシーンを照明するために使用される1つ以上の照明源は、経験モデルのパラメータとして含まれている。いくつかの実施形態では、異なる経験モデルが、異なる照明源について訓練される(例えば、自然光または太陽光下の素材の1つのモデルおよび蛍光灯下の素材の別のモデル)。
【0108】
図6に戻ると、いくつかの実施形態では、動作670において、合成データ生成器40は、シーンの仮想背景を設定する。いくつかの実施形態では、仮想背景は、合成データ生成器40によってシミュレートされているモダリティと同じ撮像モダリティを使用してキャプチャされた画像である。例えば、いくつかの実施形態では、合成偏光画像を生成する場合、仮想背景は、偏光カメラを使用してキャプチャされた実画像であり、合成熱画像を生成する場合、仮想背景は、熱カメラを使用してキャプチャされた実画像である。いくつかの実施形態では、仮想背景は、訓練された機械学習モデルが動作することを意図されている環境に類似した環境(例えば、ロボットを製造するためのコンピュータビジョンシステムの場合の製造施設または工場)の画像である。いくつかの実施形態では、仮想背景は、ランダム化され、それにより、合成訓練データセットの多様性が増大する。
【0109】
動作690において、合成データ生成器40は、経験的に導出されたモダリティ固有素材モデルのうちの1つ以上を使用して、指定された撮像モダリティ(例えば、偏光、熱など)に基づいて3-Dシーンをレンダリングする。本開示の実施形態のいくつかの態様は、本開示の一実施形態にかかる素材の経験モデルに基づく画像のレンダリングに関する。素材の経験モデルは、関心のある素材で作られた実世界のオブジェクトの画像から収集されたサンプルに基づいて、上述したように開発されることができる。
【0110】
一般に、3-Dコンピュータグラフィックスレンダリングエンジンは、出力画像の各ピクセルの色を、そのピクセルによって表される仮想シーンの表面の色にしたがって計算することにより、仮想シーンの2-Dレンダリングを生成する。例えば、レイトレーシングレンダリングエンジンでは、仮想光線が仮想カメラから仮想シーンに放射され(実世界の一般的な光線の経路とは逆に)、仮想光線が仮想シーン内のオブジェクトの3-Dモデルの表面と相互作用する。これらの3-Dモデルは、通常、平面(三角形など)を定義する点のメッシュなどの幾何学的形状を使用して表され、これらの表面には、反射、屈折、散乱、分散、およびその他の光学効果、ならびに表面の色を表すテクスチャ(例えば、テクスチャは、単色である場合もあれば、例えば、表面に適用されるビットマップ画像である場合もある)など、仮想光線が表面とどのように相互作用するかを説明する素材が割り当てられることができる。各仮想光線のパスは、仮想シーン内の光源(例えば、仮想照明器具)に到達するまで、仮想シーンをたどり(または「トレース」される)、カメラから光源までのパスに沿って遭遇するテクスチャの累積された変更は、光源の特性(例えば、光源の色温度)と組み合わせられて、ピクセルの色を計算する。この一般的なプロセスは、各ピクセルの異なる部分を通る複数の光線をトレースすることによってアンチエイリアシング(または平滑化)を実行し、シーンと相互作用する様々な光線をトレースすることによって計算された様々な色の組み合わせ(例えば、平均)に基づくピクセルの色を計算することなど、当業者によって理解されるように変更されることができる。
【0111】
図9は、本開示の一実施形態にかかる、素材の経験モデルに基づいて仮想オブジェクトの一部をレンダリングするための方法900を示すフローチャートである。特に、
図9は、光線が本開示の一実施形態にしたがってモデル化された素材を有する表面と相互作用するときに、仮想シーンの1ピクセルを通る1つの光線をトレースするときの色の計算に関する一実施形態を説明する。しかしながら、本特許出願の有効出願日前に当業者は、本明細書に記載の技術が、出力の所与のピクセルに対して複数の色が計算されて組み合わされる場合、またはレイトレーシングの代わりにスキャンラインレンダリングプロセスが使用される場合、より大きなレンダリングプロセスの一部としてどのように適用されることができるかを理解するであろう。
【0112】
より詳細には、
図9の実施形態は、仮想シーン内の仮想カメラからのビューに基づいて仮想シーン内のオブジェクトの表面をレンダリングするための方法を示しており、表面は、本開示の実施形態にしたがってモデル化された素材を有する。オブジェクトが合成的にレンダリングされており、合成データ生成器40がレンダリングされている各オブジェクトのグラウンドトゥルースジオメトリにアクセスできることを考えると、ピクセルごとの法線、素材タイプ、および照明タイプは、全て、素材のグラフィカルレンダリングを適切に変調する既知のパラメータである。レンダリングプロセス中に、カメラの光線は、仮想カメラの光学中心から、カメラから見えるオブジェクト上の各3-Dポイントまでトレースされる。オブジェクト上の各3-Dポイント(例えば、X-Y-Z座標を有する)は、オブジェクトの表面上の2-D座標(例えば、U-V座標を有する)にマッピングされる。オブジェクトの表面の各U-V座標は、例えば、
図7および
図8に関して、上述したように、実際の素材の画像に基づいて生成されるモデルとして表される独自の表面光フィールド関数(例えば、双方向反射率関数またはBRDF)を有する。
【0113】
動作910において、合成データ生成器40(例えば、3-Dコンピュータグラフィックスレンダリングエンジンを実行する)は、所与の表面の法線方向を(例えば、グローバル座標系に関して)決定する。動作930において、合成データ生成器40は、仮想シーンの設計の一部として表面に割り当てられたオブジェクトの表面の素材を決定する。
【0114】
動作950において、合成データ生成器40は、例えば、光線が表面に到達した方向に基づいて、表面の観察者角度βを決定する(例えば、表面がカメラからの光線が到達する最初の表面である場合、仮想カメラから表面までの角度、そうでない場合は光線が仮想シーンの別の表面から表面に到達した角度)。いくつかの実施形態では、動作950において、入射角αはまた、光線が表面を離れる角度に基づいて決定される(例えば、レイトレーシング中に光線の方向が反転するため、シーン内の仮想光源に向かう方向)。状況によっては、入射角αは、素材が透明、反射、屈折、拡散(例えば、マット)、またはそれらの組み合わせであるかどうかなど、動作930において決定された素材の特性に依存する。
【0115】
動作970および990において、合成データ生成器40は、観察者角度β(および、該当する場合は、入射角αおよびシーン内の照明源のスペクトルプロファイルまたは偏光パラメータなどの他の条件)に基づいて素材のモデルを構成し、素材の構成されたモデルに部分的に基づいてピクセルの色を計算する。素材のモデルは、異なる標準素材のモデルのコレクションまたはデータバンクから取得されることができ(例えば、モデル素材は、電子装置の製造におけるロボット工学をサポートするためのコンピュータビジョンの場合、特定の電子装置の製造に使用されるコンポーネントの材料など、特定のアプリケーションまたは使用シナリオのための訓練データを生成するために合成データ生成器40によって生成される仮想シーンに描かれると予想される素材のタイプに基づいて経験的に生成されている)、モデルは、本開示の実施形態にしたがって上述したように、キャプチャされた実際の素材の画像に基づいて生成される。例えば、動作930において、合成データ生成器40は、仮想シーン内のオブジェクトの表面が黒いゴムでできていると決定することができ、その場合、黒いゴムでできている実際の表面のキャプチャ画像から生成された素材のモデルは、動作970においてロードおよび構成される。
【0116】
状況によっては、仮想シーンは、データバンクまたは素材のモデルのコレクションに表されていない素材で作成された表面を有するオブジェクトを含む。したがって、本開示の実施形態のいくつかの態様は、異なる実際のモデルによって行われた予測間を補間することによって、素材のモデルのデータバンクにおいて正確または類似の一致を有しない素材の外観をシミュレートすることに関する。いくつかの実施形態では、既存の素材は、素材を特徴付けるパラメータのセットに基づいて、埋め込み空間で表される。より正式に、F(Mglass,θout,φout,x,,y)が(θout,φout)によって表される観察者角度βを有し、且つ表面上の場所(x,y)(3-D表面上の(u,v)座標空間にマッピングされる)においてガラスの偏光表面光フィールドを与えるように、解釈可能な素材の埋め込みM、および同様の埋め込みがゴムF(Mrubber,θout,φout,x,,y)などの別の素材に対しても実行されることができる。埋め込み空間への素材のこの埋め込みは、例えばベータ変分オートエンコーダー(VAE)を使用して解釈可能な方法でパラメータ化されることができ、経験的に収集されたサンプルに直接基づいていないが、代わりに独自の経験的に収集されたサンプルに基づいて別々に構築された複数の異なるモデル間の補間である、新たな素材を生成するために補間されることができる。この方法での追加の素材の生成は、本開示の実施形態にしたがって生成された合成訓練データのドメインランダム化をさらに拡張し、この合成データに基づいて訓練された深層学習モデルのロバスト性を改善する。
【0117】
本開示の様々な実施形態は、素材のモデルが実装されることができる異なる方法に関する。
【0118】
本開示の様々な実施形態では、素材の表面光場関数またはBRDFを表すモデルは、例えば、深層学習ベースのBRDF関数(例えば、畳み込みニューラルネットワークなどの深層ニューラルネットワークに基づく)、数学的にモデル化されたBRDF関数(例えば、数値的に解くことができる1つ以上の閉じた形式の式または1つ以上の開いた形式の式のセット)、または線形補間を使用するデータ駆動型BRDF関数を使用して表される。
【0119】
動作970において、合成データ生成器40は、入射角αおよび観察者角度βなどの現在のパラメータに基づいて、動作950において識別された素材のモデルを構成する。線形補間を使用するデータ駆動型BRDF関数の場合、動作970において、合成データ生成器40は、パラメータ空間において現在の光線のパラメータに最も近い、動作950において識別された素材の画像を取得する。いくつかの実施形態では、素材は、索引付けされ(例えば、データベースまたは他のデータ構造に記憶され)、素材タイプ、照明タイプ、光の入射角、および素材の表面法線に対するカメラの角度(例えば、観察者角度)にしたがってアクセス可能である。しかしながら、本開示の実施形態は、上記に列挙されたパラメータに限定されず、撮像モダリティの特性に応じて、他のパラメータが使用されることができる。例えば、いくつかの素材について、入射角および/または照明タイプは、素材の外観に影響を及ぼさないことがあり、したがって、これらのパラメータは、省略されてもよく、方法900の一部として決定される必要はない。
【0120】
したがって、線形補間を伴うデータ駆動型BRDF関数の場合、動作970において、合成データ生成器40は、レンダリングされている現在のピクセルに関連する現在の光線の所与のパラメータに最も近い1つ以上の画像を取得する。例えば、観察者角度は、オブジェクトの表面の表面法線から53°であることがあり、実世界の素材のサンプルは、5°離れた観察者角度でキャプチャされた画像、この例では、対象の素材から作成された実世界のオブジェクトの表面法線に対して50°および55°でキャプチャされた画像を含むことがある。したがって、50°および55°でキャプチャされた実世界の素材の画像が取得される(追加のパラメータが使用される状況では、入射角や照明タイプなどのこれらのパラメータは、取得される特定の画像をさらに識別する)。
【0121】
線形補間、動作990を伴うデータ駆動型BRDF関数の例を続けると、合成データ生成器40は、最も近い画像に基づいてピクセルの表面の色を計算する。一致する画像が1つしかない状況では(例えば、仮想シーンの観察者角度がサンプリングされた画像の1つの観察者角度と一致する場合)、サンプリングされた画像は、表面の色を計算するために直接使用される。複数の一致する画像が存在する状況では、合成データ生成器40は、複数の画像の色を補間する。例えば、いくつかの実施形態では、線形補間が使用されて、複数の画像間を補間する。より具体的には、観察者角度が、表面法線に対する方位角および照明源の入射角に対する極角において異なる観察者角度を有する4つの異なるサンプル画像の間にある場合、双線形補間が使用されて方位角方向および極方向に沿った4つの画像の間を補間することができる。別の例として、素材の外観が入射角にさらに依存する場合、異なる入射角でキャプチャされた画像に基づいてさらに補間が実行されることができる(異なる入射角ごとに異なる観察者角度でキャプチャされた画像間の補間とともに)。したがって、動作990において、シーンの表面の色は、実世界の素材のキャプチャされた1つ以上の画像を組み合わせることに基づいて、現在のピクセルに対して計算される。
【0122】
モデルが深層学習ネットワークである本開示のいくつかの実施形態では、素材の表面光フィールド関数は、パラメータのセットから直接双方向反射率関数の値を予測するための深層ニューラルネットワークの訓練を含むモデルによって実装される。より詳細には、例えば、
図7および
図8に関して、上述したように、複数の異なるポーズから実際の素材をキャプチャした画像は、素材の一部の観察された外観(例えば、画像の中心)に対して、観察者角度β、入射角α、照明源のスペクトル特性などのパラメータに関連する訓練データを生成するために使用される。したがって、いくつかの実施形態では、深層ニューラルネットワークは、実際の素材から収集された画像から収集された訓練データに基づいてBRDF関数を推定するように訓練される(例えば、バックプロパゲーションを適用する)。これらの実施形態では、モデルは、動作970において、複数の深層ニューラルネットワークが存在する場合、モデルに関連付けられた複数の深層ニューラルネットワークから深層ニューラルネットワークを選択し(例えば、照明源のパラメータなど、深層ニューラルネットワークの訓練に使用されるデータのパラメータとの仮想シーンのマッチングパラメータに基づいて選択される)、および観察者角度β、入射角αなど、選択された深層ニューラルネットワーク(または、モデルに関連付けられている深層ニューラルネットワークが1つしかない場合は深層ニューラルネットワークのみ)の入力にパラメータを提供することによって構成される。動作990において、合成されたデータ生成器40は、深層ニューラルネットワークを通ってフォワードプロパゲーションすることによって構成されたモデルから仮想オブジェクトの表面の色を計算し、出力において色を計算し、計算された色は、構成されたモデルの深層ニューラルネットワークによって予測された仮想シーンの表面の色である。
【0123】
モデルが深層学習ネットワークである本開示のいくつかの実施形態では、素材の表面光フィールド関数は、1つ以上の条件付き敵対的生成ネットワークを含むモデルによって実装される(例えば、Goodfellow、Ianら、「Generative adversarial nets」、Advances in Neural Information Processing Systems、2014を参照)。各条件付き敵対的生成ネットワークは、ランダム入力と1つ以上の条件に基づいて素材の画像を生成するように訓練されることができ、条件は、表面の表示の現在のパラメータ(例えば、観察者角度β、各照明源の入射角α、各照明源の偏光状態、および表面の素材特性)を含む)。いくつかの実施形態によれば、弁別器は、入力画像および画像に関連する一連の条件に基づいて、入力画像が所与の条件下でキャプチャされた実際の画像であるか、一連の条件に基づいて調整される条件付き生成器によって生成されたものであるかを決定するために敵対的な方法で訓練される。生成器を交互に再訓練して弁別器を「だます」ことができる画像を生成し、生成された画像と実際の画像を区別するように弁別器を訓練することにより、生成器は、様々なキャプチャ条件(例えば、異なる観察者角度)でキャプチャされた素材のリアルな画像を生成するように訓練され、それにより、訓練された生成器が素材の表面光フィールド関数を表すことを可能にする。本開示のいくつかの実施形態では、異なるタイプの照明源、照明源の異なる偏光状態など、同じ素材の異なる条件に対して、異なる敵対的生成ネットワークが訓練される。これらの実施形態では、モデルは、モデルに関連付けられた複数の条件付き敵対的生成ネットワーク(GAN)が存在する場合、モデルに関連付けられた複数の条件付きGANから条件付きGANを選択する(例えば、照明源のパラメータなど、深層ニューラルネットワークの訓練に使用されるデータのパラメータを有する仮想シーンのマッチングパラメータに基づいて選択される)し、観察者角度β、入射角αなどの条件付きGANの条件として仮想シーンのパラメータを提供することによって、動作970において構成される。動作990において、合成データ生成器40は、条件付きGANを通ってフォワードプロパゲーションすることによって構成されたモデルから仮想オブジェクトの表面の色を計算して、出力において色を計算し(例えば、オブジェクトベースの表面の合成画像)、計算された色は、構成されたモデルの条件付きGANによって生成された、仮想シーンの表面の色である。
【0124】
本開示のいくつかの実施形態では、表面光フィールド関数は、
図8に関して説明した方法によるなど、異なる角度からキャプチャされた、実際の素材の経験的に収集されたサンプル(例えば、絵または写真)によって構成される閉形式の数学的に導出された双方向反射率分布関数(BRDF)を使用してモデル化される。収集された写真または様々な角度またはポーズからの素材の写真に基づいてBRDFを構成するための手法の例は、例えば、Ramamoorthi,Ravi,およびPat Hanrahan、「A Signal-Processing Framework for Inverse Rendering」、Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques.2001、およびRamamoorthi,Ravi、A Signal-Processing Framework for Forward and Inverse Rendering.Stanford University,2002,52-79に記載されている。したがって、いくつかの実施形態では、閉形式の数学的に導出されたBRDFは、実際の素材の経験的に収集されたサンプルを使用して構成され、仮想シーンのマルチモーダルおよび/またはプレノプティック画像をコンピュータレンダリングするために、素材のマルチモーダルおよび/またはプレノプティック特性をモデル化するための素材モデルのコンポーネントとして含まれる。
【0125】
いくつかの実施形態では、バイモーダルまたはマルチモーダルのいずれかである複数の素材で作られた仮想オブジェクトは、問題の仮想オブジェクトで使用される各タイプの素材について同様の画像のセットを有するであろう。次に、様々な素材の外観が画像の最終レンダリングにおいて結合される(例えば、仮想モデルの各素材に関連付けられた重みにしたがって追加的に結合される)。いくつかの実施形態では、複数の素材を組み合わせるこの同じアプローチが、光沢のある素材上の透明コーティングなどの多層素材に適用される。いくつかの実施形態では、多層素材は、多層素材を別々にサンプリングする(例えば、画像をキャプチャする)ことによってモデル化される。
【0126】
本開示の実施形態にかかる素材の経験モデルを使用するレンダリングプロセスの最終効果は、最終レンダリングが、実際の環境における実際の偏光信号に近いエミュレートされた偏光信号を有することである。仮想環境に描かれた素材をレンダリングする際の経験モデルの精度は、仮想環境の条件が実際の素材のサンプルがキャプチャされた条件とどれだけ一致するかに依存する(例えば、仮想シーン内の照明源のスペクトルプロファイルが実世界の照明源とどの程度一致しているか、仮想シーン内の観察者角度がサンプリングを実行するときに使用される観察者角度とどの程度一致しているかなど)。
【0127】
上記のように、本開示の実施形態の態様は、偏光の外観をシミュレートまたはエミュレートする文脈において本明細書に記載されているが、本開示の実施形態は、それに限定されない。マルチモーダル撮像モダリティおよび/またはプレノプティック撮像モダリティ、例えば、熱、偏光を伴う熱などの下での素材の外観もまた、本開示の実施形態にしたがってキャプチャされることができる。例えば、熱撮像モダリティ(例えば、赤外線画像)における素材の挙動は、
図7に示されるものと同様の配置でおよび
図8に記載の方法で熱カメラを使用して複数のポーズから素材の画像をキャプチャすることによって同様にモデル化されることができる。次に、これらのキャプチャされた画像に基づいて、熱画像下の素材の外観は、対応する画像を取得し、必要に応じて、
図9に示されるのと同様の方法で画像を補間することによって、3-Dレンダリングエンジンにおいてシミュレートされることができる。
【0128】
したがって、本開示の実施形態のいくつかの態様は、仮想シーンの素材の経験モデルを使用して仮想シーンの画像をレンダリングすることによって、偏光撮像および熱撮像などの様々な撮像モダリティの下で現れるであろう仮想シーンの合成画像データを生成するためのシステムおよび方法に関する。いくつかの実施形態では、これらの経験モデルは、偏光撮像および熱撮像などの1つ以上の撮像モダリティを使用して実世界のオブジェクトのキャプチャされた画像を含むことができる。次に、これらの合成画像データが使用されて、これらの撮像モダリティを使用して撮像システムによってキャプチャされた画像データを操作するための機械学習モデルを訓練することができる。
【0129】
本開示の実施形態のいくつかの態様は、典型的には画像データから生成されるであろう画像特徴に関連する合成データの生成に関する。特定の例として、本開示の実施形態のいくつかの態様は、偏光表現空間(例えば、直線偏光またはDOLPの度合いρおよび直線偏光またはAOLPの角度φ)における合成特徴またはテンソルの生成に関する。上述したように、偏光からの形状(SfP)は、DOLPρおよびAOLPφと屈折率(n)、オブジェクトの表面法線の方位角(θa)および天頂角(θz)の間の関係を提供する。
【0130】
したがって、実施形態のいくつかの態様は、屈折率n、仮想シーンの表面の方位角(θa)および天頂角(θz)に基づいて仮想カメラに見える仮想シーンの表面の直線偏光またはDOLPρの度合いおよび直線偏光またはAOLPの角度φの合成の生成に関し、これらは全て、仮想3-Dシーンの既知のパラメータである。
【0131】
図10は、本開示の一実施形態にかかる、仮想シーンの偏光表現空間における合成特徴またはテンソルを計算するための方法1000を示すフローチャートである。動作1010において、合成データ生成器40は、法線画像(例えば、全てのピクセルがそのピクセルにおける仮想シーンの表面法線の方向に対応する画像)をレンダリングする。各コンポーネントの法線ベクトルは、方位角θ
a成分および天頂角θ
z成分を含む。動作1030において、合成データ生成器40は、法線画像の各点での法線ベクトルを2つの成分に分離する:そのピクセルにおける方位角θ
aおよび天頂角θ
z。上記のように、これらのコンポーネントが使用されて、拡散の場合は偏光方程式(2)および(3)から、鏡面反射の場合は方程式(4)および(5)からの形状を使用することによって、DOLPρおよびAOLPφの推定を計算することができる。現実的な偏光誤差をシミュレートするために、本開示のいくつかの実施形態では、合成データ生成器40は、偏光方程式(例えば、方程式(2)、(3)、(4)、および(5))を適用する前にセミグローバル摂動を法線マップに適用する。この摂動は、法線の勾配を維持しながら、法線の大きさを変更する。これは、オブジェクトの素材特性と偏光との相互作用によって引き起こされるエラーをシミュレートする。動作1050において、所与のピクセルについて、合成データ生成器40は、仮想シーン内のオブジェクトのパラメータに基づいてオブジェクトの表面の素材を決定し(例えば、法線マップの各ピクセルで表面に関連付けられた素材)を決定する)、素材は、3-Dレンダリング手法にしたがって、シーンの幾何学的形状と組み合わせて使用され、特定のピクセルが鏡面反射支配的であるかどうかを決定する。そうである場合、合成データ生成器40は、動作1092において鏡面方程式(4)および(5)に基づいてDOLPρおよびAOLPφを計算する。そうでない場合、合成データ生成器40は、動作1094において拡散方程式(2)および(3)に基づいてDOLPρおよびAOLPφを計算する。
【0132】
いくつかの実施形態では、全ての表面が拡散していると想定され、したがって、動作1050および1070が省略されることができ、合成DOLPρおよびAOLPφは、拡散の場合の偏光方程式(2)および(3)からの形状に基づいて計算される。
【0133】
いくつかの実施形態では、合成されたDOLPρおよびAOLPφデータは、「viridis」カラーマップや「Jet」カラーマップなどのカラーマップを適用することによってカラー画像にレンダリングされる(例えば、Liu,Yang,およびJeffrey Heer、「Somewhere over the rainbow:An empirical assessment of quantitative colormaps」、Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems、2018を参照)。偏光空間において合成されたテンソルのこれらのカラーマップバージョンは、畳み込みニューラルネットワークなどの事前訓練済みの機械学習モデルを再訓練するための入力として、より簡単に提供されることができる。いくつかの実施形態では、推論時に、ネットワークが実際のDOLPρおよびAOLPφデータを符号化するために使用される特定のカラーマップに関係なく予測を実行することができるように、DOLPρおよびAOLPφデータを合成するとき、ランダムカラーマップは、合成された訓練データセットが様々な異なるカラーマップにおいてDOLPρおよびAOLPφデータを表すカラー画像を含むように、様々な合成データに適用される。本開示の他の実施形態では、同じカラーマップが全ての合成DOLPρおよびAOLPφデータに適用され(または第1のカラーマップがDOLPρに使用され、第2の異なるカラーマップは、AOLPφに使用される)、推論時に、合成訓練データと一致するように偏光表現空間において抽出されたテンソルにカラーマップが適用される(例えば、キャプチャされた実際の偏光生フレームから抽出された同じ第1のカラーマップがDOLPρの符号化に使用され、キャプチャされた実際の偏光生フレームから抽出された同じ第2のカラーマップがAOLPφの符号化に使用される)。
【0134】
したがって、本開示の実施形態のいくつかの態様は、偏光撮像モダリティの偏光表現空間におけるDOLPρおよびAOLPφを合成することによるなど、特定の撮像モダリティに固有の表現空間における特徴の合成に関する。
【0135】
本開示の実施形態のいくつかの態様は、機械学習モデルを訓練するための合成画像を生成するための上記の技術の組み合わせに関する。
図11は、本開示の一実施形態にかかる訓練データセットを生成するための方法を示すフローチャートである。ターゲットドメインを表す1つ以上の仮想シーンは、上述したように生成されることができる(例えば、コンポーネントの1つ以上の3-Dモデルを選択し、3-Dモデルのインスタンスをコンテナにドロップすることにより、コンポーネントのビンの画像を生成する場合)。例えば、本開示の実施形態のいくつかの態様は、(1)動作1110におけるドメインランダム化によって純粋に生成された画像、(2)動作1112における(例えば、
図9の実施形態にしたがって生成された)テクスチャマッピングによって純粋に生成された画像、および(3)動作1114における(例えば、
図10の実施形態にしたがって生成された)法線マッピングによって純粋に生成された画像に基づく訓練データセットの形成に関する。
【0136】
さらに、訓練データセットは、上述したように、埋め込み空間においてパラメータ化された、経験的に生成された様々なモデル間を補間することによって生成された素材のモデルを使用して生成された画像を含むことができる。
【0137】
本開示のいくつかの実施形態では、(1)ドメインランダム化、(2)テクスチャマッピング、および(3)法線マッピングにしたがって生成された画像は、画像を訓練データセットに追加する前に、それぞれ、動作1120、1122、および1124において生成された画像にスタイル転送または他のフィルタを適用することによってさらに処理される。スタイル転送を適用すると、上記の3つの手法を使用して生成されたように、多少異なって見える画像の外観がより一貫したものになる。いくつかの実施形態では、スタイル転送プロセスは、合成された入力画像を、関心のある撮像モダリティに基づいて(例えば、偏光生フレームのように見えるように、(1)ドメインランダム化を使用して生成された画像および(3)通常のマッピングを使用して生成された特徴マップを引き起こす)、または入力画像に非現実的な絵画スタイルを適用する(例えば、(1)ドメインランダム化を使用して生成された画像を引き起こす、(2)テクスチャマッピングを使用してレンダリングする、および(3)キャンバス上のペイントブラシによって作成された絵画のように見えるように通常のマッピングを使用して生成された特徴マップ)などして、合成された入力画像をより人工的に見せることによって、キャプチャされた画像により類似して見えるように変換する。
【0138】
いくつかの実施形態では、ニューラルスタイル転送ネットワークが訓練され、複雑なグローバルスタイルの転送用のSytleGAN(例えば、Karras,Teroら、「Analyzing and improving the image quality of stylegan」、Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition、2020を参照)。ローカルスタイルの転送用のパッチベースのネットワーク(Chen,Tian Qi,およびMark Schmidt、「Fast patch-based style transfer of arbitrary style」、arXiv preprint arXiv:1612.04337(2016)を参照)、およびドメイン適応を使用するネットワーク(例えば、Dundar,Aysegulら、「Domain stylization:A strong,simple baseline for synthetic to real image domain adaptation」、arXiv preprint arXiv:1807.09384(2018)を参照)。などの訓練データセット用に選択された画像に対して動作1122においてスタイル転送を実行するために使用される。その結果、訓練データセット内の全ての画像は、スタイル転送動作によって変換された、画像の取得方法に関係なく(例えば、(1)ドメインランダム化、(2)テクスチャマッピング、(3)法線マッピング、または偏光撮像や熱撮像などの対象のモダリティを実装する撮像システムを使用してキャプチャされたオブジェクトの実際の画像などの他のソースによるかどうか)、同様のスタイルまたは外観を有することができる。
【0139】
本開示のいくつかの実施形態では、訓練データセットの画像は、ハードエグザンプルマイニングに基づいて、合成されたデータセット(1)、(2)、および(3)からサンプリングされる(例えば、Smirnov,Evgenyら、「Hard example mining with auxiliary embeddings」、Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops、2018を参照)。ハードエグザンプルマイニングを使用して合成データセットをサンプリングすると、訓練セットのサイズを縮小して、結果として得られる訓練済みモデルにより大きな影響を与える「ハードエグザンプル」を維持しながら訓練プロセスにあまり影響を与えない実質的に冗長な画像を削除することで、訓練プロセスの効率を向上させることができる。
【0140】
上で簡単に述べたように、教師あり学習のための訓練データを生成するとき、合成データ生成器40はまた、合成された画像のラベル(例えば、所望の出力)を自動的に生成する。例えば、画像分類タスクを実行するために機械学習モデルを訓練するための訓練データを生成する場合、特定の画像に対して生成されるラベルは、画像に描かれているオブジェクトのクラスを含む場合がある。これらの分類ラベルは、仮想シーンに表示される一意のタイプのオブジェクトを識別することによって生成されることができる。別の例として、インスタンスセグメンテーションタスクを実行するために機械学習モデルを訓練するための訓練データを生成する場合、生成されたラベルは、そのクラス(例えば、同じタイプのオブジェクトが同じクラス識別子を有する場合)とともに、各オブジェクトの各インスタンスが一意に識別される(例えば、異なるインスタンス識別子によって)セグメンテーションマップを含む場合がある。例えば、セグメンテーションマップは、カメラから仮想シーンに光線をトレースすることによって生成されることができ、仮想シーンでは、各光線が仮想シーンの最初の表面と交差する場合がある。セグメンテーションマップの各ピクセルは、ピクセルを介してカメラから放射された光線が当たった表面を含むオブジェクトのインスタンス識別子とクラス識別子とに基づいて、それに応じてラベル付けされる。
【0141】
上述したように、および
図1を参照すると、次に、合成データ生成器40によって生成された合成データ42の結果として得られる訓練データセットは、訓練済みモデル32を作成するために、モデル訓練システム7によって訓練データ5として使用され、事前訓練されたモデルまたはランダムパラメータによって初期化されたモデルなどのモデル30を訓練する。偏光撮像モダリティにしたがって訓練データを生成する場合に上記の例を続けると、訓練データセット5が使用されて、偏光生フレーム(例えば、テクスチャマッピングを介して生成された画像)および偏光表現空間におけるテンソル(例えば、通常のマッピングを介して生成された画像)などの偏光入力特徴を操作するようにモデル30を訓練することができる。
【0142】
したがって、合成データ42を含む訓練データ5は、特定の撮像モダリティに基づいてコンピュータビジョンタスクを実行するために機械学習モデル30を訓練または再訓練するために使用される。例えば、偏光撮像モダリティにしたがった合成データが使用されて、標準カラー画像に基づいてインスタンスセグメンテーションを実行するように事前訓練された畳み込みニューラルネットワークを再訓練して、偏光入力機能に基づいてインスタンスセグメンテーションを実行することができる。
【0143】
展開において、本開示の実施形態にしたがって生成された訓練データに基づいて訓練された訓練されたモデル32は、次に、偏光表現空間(これらの入力画像が訓練データの生成時に適用されたものと同じスタイルの転送(存在する場合)における偏光生フレームおよび/またはテンソルなどの訓練データと同様の入力を取り、セグメンテーションマップなどの予測出力を生成するように構成される。
【0144】
本開示のいくつかの実施形態は、偏光撮像モダリティに関して本明細書に記載されているが、本開示の実施形態は、それに限定されず、マルチモーダル撮像モダリティおよび/または熱撮像、(例えば、偏光フィルタによる)偏光を伴う熱撮像、および紫外線撮像などのプレノプティック撮像モダリティを含む。異なるモダリティを使用するこれらの実施形態では、それらのモダリティを実装する撮像システムを使用して実世界の素材からキャプチャされた実世界の画像サンプルが使用されて、それらの撮像モダリティの下に現れる素材のモデルを生成し、それらのモダリティに関する素材の表面光フィールド関数は、上述したようにモデル化され(例えば、深層ニューラルネットワーク、生成ネットワーク、線形補間、明示的な数学的モデルなどを使用して)、3-Dレンダリングエンジンを使用してそれらのモダリティにしたがって画像をレンダリングするために使用される。次に、モダリティにおいてレンダリングされた画像が使用されて、畳み込みニューラルネットワークなどの1つ以上の機械学習モデルを訓練または再訓練し、それらのモダリティを使用してキャプチャされた入力画像に基づいてコンピュータビジョンタスクを実行することができる。
【0145】
したがって、本開示の実施形態の態様は、偏光、熱、紫外線、およびそれらの組み合わせなどの様々な異なる撮像モダリティを使用して撮像システムによってキャプチャされた画像データを表すシミュレーションまたは合成データを生成するためのシステムおよび方法に関する。シミュレートされたデータまたは合成データは、訓練データセットとして、および/またはシミュレートされたデータまたは合成データの撮像モダリティに対応する撮像モダリティを使用してキャプチャされたデータに対してコンピュータビジョンタスクなどのタスクを実行するための機械学習モデルを訓練するための訓練データセットを拡張するために使用されることができる。
【0146】
本発明は、特定の例示的な実施形態に関連して説明されてきたが、本発明は、開示された実施形態に限定されず、逆に、添付された特許請求の範囲の趣旨および範囲内に含まれる様々な変更および均等の構成、ならびにその均等物をカバーすることが意図されていることを理解されたい。
【0147】
本開示のいくつかの実施形態では、動作が実行される順序は、図に示され、本明細書に記載される順序とは異なっていてもよい。例えば、
図6は、合成画像を生成するための方法の一例を示しており、本開示の実施形態は、それに限定されない。例えば、
図6に示される動作のいくつかは、異なる順序で実行されてもよく、または同時に実行されてもよい。具体例として、本開示の様々な実施形態では、仮想シーン内にオブジェクトの3-Dモデルを配置すること610、仮想シーンに照明を追加すること630、仮想シーン内のオブジェクトにモダリティ固有素材を適用すること650、およびシーン背景を設定すること670の動作は、動作690において指定された撮像モダリティに基づいて3-Dシーンをレンダリングする前に、様々な順序で実行されることができる。別の例として、
図8は、実世界のオブジェクトをシーンに配置した後に照明が実世界のシーンに配置される実施形態を示しており、本開示の実施形態は、それに限定されず、シーン内に実世界のオブジェクトを配置する前に照明をシーンに追加することができる。
【0148】
本開示のいくつかの実施形態では、いくつかの動作は省略されるかまたは実行されなくてもよく、いくつかの実施形態では、本明細書に記載されていない追加の動作は、本明細書に記載の様々な動作の前、後、または間に実行されてもよい。