(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-11-30
(54)【発明の名称】偏光キューを用いた透明な物体のセグメンテーションのためのシステム及び方法
(51)【国際特許分類】
G06T 7/10 20170101AFI20221122BHJP
G06T 7/00 20170101ALI20221122BHJP
G06V 10/82 20220101ALI20221122BHJP
【FI】
G06T7/10
G06T7/00 350C
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022531617
(86)(22)【出願日】2020-08-28
(85)【翻訳文提出日】2022-07-26
(86)【国際出願番号】 US2020048604
(87)【国際公開番号】W WO2021108002
(87)【国際公開日】2021-06-03
(32)【優先日】2020-03-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-11-30
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522106248
【氏名又は名称】ボストン ポーラリメトリックス,インコーポレイティド
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100114018
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100153729
【氏名又は名称】森本 有一
(74)【代理人】
【識別番号】100196601
【氏名又は名称】酒井 祐市
(72)【発明者】
【氏名】アガストヤ カルラ
(72)【発明者】
【氏名】バゲ ターマジャン
(72)【発明者】
【氏名】スプリース クリシュナ ラオ
(72)【発明者】
【氏名】カルティク ベンカタラマン
(72)【発明者】
【氏名】ラメシュ ラスカー
(72)【発明者】
【氏名】アチュタ カダンビ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA05
5L096EA16
5L096EA39
5L096FA06
5L096FA09
5L096FA25
5L096FA67
5L096FA69
5L096GA34
5L096GA51
5L096GA55
5L096HA11
5L096KA04
5L096MA07
(57)【要約】
シーンの画像の予測を計算するためのコンピュータ実施方法は、異なる直線偏光角において偏光フィルタで捕捉される、シーンの1つ又は複数の偏光の生フレームを受信することと、偏光の生フレームから1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルを抽出することと、1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルに基づいて、シーン内の1つ又は複数の光学的に困難な物体に関する予測を計算することと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
異なる直線偏光角において偏光フィルタで捕捉された、シーンの1つ又は複数の偏光の生フレームを受信することと、
前記偏光の生フレームから1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルを抽出することと、
前記1つ又は複数の偏光表現空間内の前記1つ又は複数の第1のテンソルに基づいて、前記シーン内の1つ又は複数の光学的に困難な物体に関する予測を計算することと、を含む、シーンの画像の予測を計算するためのコンピュータ実施方法。
【請求項2】
前記1つ又は複数の偏光表現空間内の前記1つ又は複数の第1のテンソルが、
直線偏光度(DOLP)表現空間内のDOLP画像と、
直線偏光角(AOLP)表現空間内のAOLP画像と、を備える、請求項1に記載のコンピュータ実施方法。
【請求項3】
前記1つ又は複数の前記第1のテンソルが、1つ又は複数の非偏光表現空間内の1つ又は複数の非偏光テンソルをさらに備え、
前記1つ又は複数の非偏光テンソルが、強度表現空間内の1つ又は複数の強度画像を備える、請求項1に記載のコンピュータ実施方法。
【請求項4】
前記1つ又は複数の強度画像が、
第1の色強度画像と、
第2の色強度画像と、
第3の色強度画像と、を備える、請求項3に記載のコンピュータ実施方法。。
【請求項5】
前記予測がセグメンテーションマスクを備える、請求項1、2、3、又は4に記載のコンピュータ実施方法。
【請求項6】
前記予測を前記計算することが、前記1つ又は複数の第1のテンソルを1つ又は複数の対応する畳み込みニューラルネットワーク(CNN)バックボーンに供給することを含み、
前記1つ又は複数のCNNバックボーンの各々が、複数の異なるスケールで複数のモードテンソルを計算するように構成された、請求項5に記載のコンピュータ実施方法。
【請求項7】
前記予測を前記計算することが、
前記1つ又は複数のCNNバックボーンによって同じスケールで計算された前記モードテンソルを融合することをさらに含む、請求項6に記載のコンピュータ実施方法。
【請求項8】
前記同じスケールで前記モードテンソルを前記融合することが、
前記同じスケールで前記モードテンソルを連結することと、
前記モードテンソルをアテンションサブネットワークに供給して、1つ又は複数のアテンションマップを計算することと、
前記1つ又は複数のアテンションマップに基づいて前記モードテンソルを重み付けして、前記スケールの融合テンソルを計算することと、を含む、請求項7に記載のコンピュータ実施方法。
【請求項9】
前記予測を前記計算することが、各スケールで計算された前記融合テンソルを、セグメンテーションマスクを計算するように構成された予測モジュールに供給することをさらに含む、請求項8に記載のコンピュータ実施方法。
【請求項10】
前記セグメンテーションマスクが、ロボットピッキングアームのコントローラに供給される、請求項5に記載のコンピュータ実施方法。。
【請求項11】
前記予測が、前記1つ又は複数の光学的に困難な物体に基づく、前記1つ又は複数の偏光の生フレームの分類を含む、請求項1、2、3、又は4に記載のコンピュータ実施方法。
【請求項12】
前記予測が、前記1つ又は複数の偏光の生フレームに示された前記1つ又は複数の光学的に困難な物体の1つ又は複数の検出されたフィーチャを備える、請求項1、2、3、又は4に記載のコンピュータ実施方法。
【請求項13】
前記予測を前記計算することが、前記1つ又は複数の偏光表現空間内の前記1つ又は複数の第1のテンソルを統計モデルに供給することを含み、
前記統計モデルが、前記1つ又は複数の偏光表現空間内の訓練用の第1のテンソルと、ラベルと、を備える訓練データを用いて訓練される、請求項1に記載のコンピュータ実施方法。
【請求項14】
前記訓練データが、
偏光カメラによって捕捉されたデータから計算された、前記1つ又は複数の偏光表現空間内のソース訓練用の第1のテンソルと、
回転を含むアフィン変換を介して前記ソース訓練用の第1のテンソルから生成された追加訓練用の第1のテンソルと、を備える、請求項13に記載のコンピュータ実施方法。
【請求項15】
追加訓練用の第1のテンソルが直線偏光角(AOLP)画像を備える場合、
前記追加訓練用の第1のテンソルを生成することが、
前記追加訓練用の第1のテンソルをある角度分回転させることと、
前記AOLP画像のピクセル値を前記角度分逆回転させることと、を含む、請求項14に記載のコンピュータ実施方法。
【請求項16】
偏光フィルタを備える偏光カメラと、プロセッサ及びメモリを備える処理システムと、を備えるコンピュータビジョンシステムであって、前記メモリが、
前記プロセッサによって実行されると、前記プロセッサに対して、
異なる直線偏光角において偏光フィルタで捕捉された、シーンの1つ又は複数の偏光の生フレームを受信し、
前記偏光の生フレームから1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルを抽出し、
前記1つ又は複数の偏光表現空間内の前記1つ又は複数の第1のテンソルに基づいて、前記シーン内の1つ又は複数の光学的に困難な物体に関する予測を計算するように仕向ける命令を記憶する、コンピュータビジョンシステム。
【請求項17】
前記1つ又は複数の偏光表現空間内の前記1つ又は複数の第1のテンソルが、
直線偏光度(DOLP)表現空間内のDOLP画像と、
直線偏光角(AOLP)表現空間内のAOLP画像と、を備える、請求項16に記載のコンピュータビジョンシステム。
【請求項18】
前記1つ又は複数の前記第1のテンソルが、1つ又は複数の非偏光表現空間内の1つ又は複数の非偏光テンソルをさらに備え、
前記1つ又は複数の非偏光テンソルが、強度表現空間内の1つ又は複数の強度画像を備える、請求項16に記載のコンピュータビジョンシステム。
【請求項19】
前記1つ又は複数の強度画像が、
第1の色強度画像と、
第2の色強度画像と、
第3の色強度画像と、を備える、請求項18に記載のコンピュータビジョンシステム。
【請求項20】
前記予測がセグメンテーションマスクを備える、請求項16、17、18、又は19に記載のコンピュータビジョンシステム。
【請求項21】
前記メモリが、前記プロセッサによって実行されると、前記プロセッサに対して、前記1つ又は複数の第1のテンソルを、1つ又は複数の対応する畳み込みニューラルネットワーク(CNN)バックボーンに供給することによって予測を計算するように仕向ける命令をさらに記憶し、
前記1つ又は複数のCNNバックボーンの各々が、複数の異なるスケールで複数のモードテンソルを計算するように構成された、請求項20に記載のコンピュータビジョンシステム。
【請求項22】
前記メモリが、前記プロセッサによって実行されると、前記プロセッサに対して、前記1つ又は複数のCNNバックボーンによって同じスケールで計算された前記モードテンソルを融合するように仕向ける命令をさらに記憶する、請求項21に記載のコンピュータビジョンシステム。
【請求項23】
前記プロセッサに対して前記同じスケールで前記モードテンソルを融合するように仕向ける前記命令が、前記プロセッサによって実行されると、前記プロセッサに対して、
前記同じスケールで前記モードテンソルを連結し、
前記モードテンソルをアテンションサブネットワークに供給して1つ又は複数のアテンションマップを計算し、
前記1つ又は複数のアテンションマップに基づいて前記モードテンソルの重み付けをし、前記スケールの融合テンソルを計算するように仕向ける命令を備える、請求項22に記載のコンピュータビジョンシステム。
【請求項24】
前記プロセッサに前記予測を計算するように仕向ける前記命令が、前記プロセッサによって実行されると、前記プロセッサに対して、各スケールで計算された前記融合テンソルを、前記セグメンテーションマスクを計算するように構成された予測モジュールに供給するように仕向ける命令をさらに備える、請求項23に記載のコンピュータビジョンシステム。
【請求項25】
前記セグメンテーションマスクが、ロボットピッキングアームのコントローラに供給される、請求項20に記載のコンピュータビジョンシステム。
【請求項26】
前記予測が、1つ又は複数の光学的に困難な物体に基づく、1つ又は複数の偏光の生フレームの分類を含む、請求項16、17、18、又は19に記載のコンピュータビジョンシステム。
【請求項27】
前記予測が、前記1つ又は複数の偏光の生フレームに示された前記1つ又は複数の光学的に困難な物体の1つ又は複数の検出されたフィーチャを備える、請求項16、17、17、又は19に記載のコンピュータビジョンシステム。
【請求項28】
前記予測を計算する前記命令が、前記プロセッサによって実行されると、前記プロセッサに対して、前記1つ又は複数の第1のテンソルを統計モデルに供給するように仕向ける命令を備え、
前記統計モデルが、前記1つ又は複数の偏光表現空間内の訓練用の第1のテンソルと、ラベルと、を含む訓練データを用いて訓練される、請求項16に記載のコンピュータビジョンシステム。
【請求項29】
前記訓練データが、
偏光カメラによって捕捉されたデータから計算されたソース訓練用の第1のテンソルと、
回転を含むアフィン変換を介して前記ソース訓練用の第1のテンソルから生成された追加訓練用の第1のテンソルと、を備える、請求項28に記載のコンピュータビジョンシステム。
【請求項30】
前記追加訓練用の第1のテンソルが直線偏光角(AOLP)画像を備える場合、
前記追加訓練用の第1のテンソルを生成することが、
前記追加訓練用の第1のテンソルをある角度分回転させることと、
前記AOLP画像のピクセル値を前記角度分逆回転させることと、を含む、請求項29に記載のコンピュータビジョンシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年3月29日に米国特許商標庁に出願された米国特許仮出願第63/001,445号に対する優先権及びその利益を主張し、当該仮出願は、その開示内容全体を参照により本明細書に援用される。
【0002】
本開示の実施形態の態様は、コンピュータビジョンと、画像内に示される個別の物体への画像のセグメンテーションと、の分野に関する。
【背景技術】
【0003】
意味セグメンテーションは、シーンの1つ又は複数の2次元(2D)画像を捕捉し、画像の様々な領域(例えば、画像の各ピクセル)を特定の物体のクラスに属するものとしてアルゴリズム的に分類するコンピュータビジョン工程を指す。例えば、庭にいる人々の画像に意味セグメンテーションを適用することにより、入力画像の個々のピクセルにクラスを割り当てることができ、各クラスは、人間、動物、樹木、地面、空、岩石、建物、及び同種のものなどの現実世界の物体のタイプを含んでいてもよい。インスタンスセグメンテーションは、例えば、異なる識別子を備えた入力画像内の各々の人物及び各々の動物を別々にラベリングすることによって、物体の異なるインスタンスの各々に一意のラベルをさらに適用することを指す。
【0004】
意味セグメンテーション又はインスタンスセグメンテーション工程の1つの可能な出力は、入力画像と同じ寸法を有する2次元画像であってもよく、各ピクセルの値は、ラベル(例えば、意味セグメンテーションの場合には特定のクラス、又はインスタンスセグメンテーションの場合には特定のインスタンス)に対応するセグメンテーションマップ又はセグメンテーションマスクである。
【0005】
透明な物体の画像のセグメンテーションは、コンピュータビジョンにおける困難で未解決の問題である。透明な物体は、テクスチャ(例えば、コンピュータグラフィックス分野で使用される「テクスチャマッピング」などにおける面の色情報)を欠いており、その代わりに、それらの透明な物体の背後のシーンのテクスチャ又は外観(例えば、透明な物体を通して見えるシーンの背景)を採用する。その結果、いくつかの状況では、捕捉されたシーン内の透明な物体(及びその他の光学的に困難な物体)は、意味セグメンテーションアルゴリズムからは実質的に不可視であるか、又は、それらの透明な物体を通して見える物体に基づいて分類されてもよい。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本開示の実施形態の態様は、光の偏光(光波の回転)を用いて、情報の追加チャネルを意味セグメンテーション又は他のマシンビジョン工程に提供することによる、画像の透明な物体のセグメンテーションに関する。本開示の実施形態の態様はまた、光の偏光を用いた、画像内の他の光学的に困難な物体の検出及び/又はセグメンテーションに関し、光学的に困難な物体は、非ランバート、半透明、マルチパス誘導、又は非反射性という1つ又は複数の状態を示すことができる。いくつかの実施形態では、偏光カメラを用いて、偏光の生フレームを捕捉してマルチモーダル画像(例えば、多次元偏光情報)が生成される。本開示の実施形態のいくつかの態様は、マルチモーダル偏光入力データを処理するための深層学習バックボーンを使用するニューラルネットワークアーキテクチャに関する。したがって、本開示の実施形態は、様々なシーン及び背景状態において、クラッタされ、透明な、又はそれ以外の点で光学的に困難な物体に対するインスタンスセグメンテーションを確実に実行し、それによって、強度画像のみに基づく比較アプローチと比べて改善された方法を実証する。
【課題を解決するための手段】
【0007】
本開示の一実施形態によれば、シーンの画像の予測を計算するためのコンピュータ実施方法は、異なる直線偏光角において偏光フィルタで捕捉された、シーンの1つ又は複数の偏光の生フレームを受信することと、偏光の生フレームから1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソル(tensor)を抽出することと、1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルに基づいて、シーン内の1つ又は複数の光学的に困難な物体に関する予測を計算することと、を含む。
【0008】
1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルは、直線偏光度(DOLP)表現空間内のDOLP画像と、直線偏光角(AOLP)表現空間内のAOLP画像と、を含んでいてもよい。
【0009】
1つ又は複数の第1のテンソルは、1つ又は複数の非偏光表現空間内の1つ又は複数の非偏光テンソルをさらに含んでいてもよく、1つ又は複数の非偏光テンソルは、強度表現空間内の1つ又は複数の強度画像を含んでいてもよい。
【0010】
1つ又は複数の強度画像は、第1の色強度画像と、第2の色強度画像と、第3の色強度画像と、を含んでいてもよい。
【0011】
予測はセグメンテーションマスクを含んでいてもよい。
【0012】
予測を計算することは、1つ又は複数の第1のテンソルを1つ又は複数の対応する畳み込みニューラルネットワーク(CNN)バックボーンに供給することを含んでいてもよく、1つ又は複数のCNNバックボーンの各々は、複数の異なるスケールで複数のモードテンソルを計算するように構成できる。
【0013】
予測を計算することは、1つ又は複数のCNNバックボーンによって同じスケールで計算されたモードテンソルを融合することをさらに含んでいてもよい。
【0014】
同じスケールでモードテンソルを融合することは、同じスケールでモードテンソルを連結することと、モードテンソルをアテンションサブネットワークに供給して、1つ又は複数のアテンションマップを計算することと、1つ又は複数のアテンションマップに基づいてモードテンソルを重み付けして、当該スケールの融合テンソルを計算することと、を含んでいてもよい。
【0015】
予測を計算することは、各スケールで計算された融合テンソルを、セグメンテーションマスクを計算するように構成された予測モジュールに供給することをさらに含んでいてもよい。
【0016】
セグメンテーションマスクは、ロボットピッキングアームのコントローラに供給されてもよい。
【0017】
予測は、1つ又は複数の光学的に困難な物体に基づく、1つ又は複数の偏光の生フレームの分類を含んでいてもよい。
【0018】
予測は、1つ又は複数の偏光の生フレームに示された1つ又は複数の光学的に困難な物体の1つ又は複数の検出されたフィーチャを含んでいてもよい。
【0019】
予測を計算することは、1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルを統計モデルに供給することを含み、統計モデルは、1つ又は複数の偏光表現空間内の訓練用の第1のテンソルと、ラベルと、を含む訓練データを用いて訓練することができる。
【0020】
訓練データは、偏光カメラによって捕捉されたデータから計算された、1つ又は複数の偏光表現空間内のソース訓練用の第1のテンソルと、回転を含むアフィン変換を介してソース訓練用の第1のテンソルから生成された追加訓練用の第1のテンソルと、を含んでいてもよい。
【0021】
追加訓練用の第1のテンソルが直線偏光角(AOLP)画像を含む場合、追加訓練用の第1のテンソルを生成することは、追加訓練用の第1のテンソルをある角度分回転させることと、AOLP画像のピクセル値を当該角度分逆回転させることと、を含んでいてもよい。
【0022】
本開示の一実施形態によれば、コンピュータビジョンシステムは、偏光フィルタを含む偏光カメラと、プロセッサ及びメモリを含む処理システムと、を含み、当該メモリは、当該プロセッサによって実行されると、当該プロセッサに対して、異なる直線偏光角において偏光フィルタで捕捉された、シーンの1つ又は複数の偏光の生フレームを受信し、偏光の生フレームから1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルを抽出し、1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルに基づいて、シーン内の1つ又は複数の光学的に困難な物体に関する予測を計算するように仕向ける命令を記憶する。
【0023】
1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルは、直線偏光度(DOLP)表現空間内のDOLP画像と、直線偏光角(AOLP)表現空間内のAOLP画像と、を含んでいてもよい。
【0024】
1つ又は複数の第1のテンソルは、1つ又は複数の非偏光表現空間内の1つ又は複数の非偏光テンソルをさらに含んでいてもよく、1つ又は複数の非偏光テンソルは、強度表現空間内の1つ又は複数の強度画像を含む。
【0025】
1つ又は複数の強度画像は、第1の色強度画像と、第2の色強度画像と、第3の色強度画像と、を含んでいてもよい。
【0026】
予測はセグメンテーションマスクを含んでいてもよい。
【0027】
メモリは、プロセッサによって実行されると、当該プロセッサに対して、1つ又は複数の第1のテンソルを、1つ又は複数の対応する畳み込みニューラルネットワーク(CNN)バックボーンに供給することによって予測を計算するように仕向ける命令をさらに記憶していてもよく、1つ又は複数のCNNバックボーンの各々は、複数の異なるスケールで複数のモードテンソルを計算するように構成されている。
【0028】
メモリは、プロセッサによって実行されると、当該プロセッサに対して、1つ又は複数のCNNバックボーンによって同じスケールで計算されたモードテンソルを融合するように仕向ける命令をさらに記憶していてもよい。
【0029】
プロセッサに対して同じスケールでモードテンソルを融合するように仕向ける命令は、当該プロセッサによって実行されると、当該プロセッサに対して、同じスケールでモードテンソルを連結し、モードテンソルをアテンションサブネットワークに供給して1つ又は複数のアテンションマップを計算し、1つ又は複数のアテンションマップに基づいてモードテンソルの重み付けをし、当該スケールの融合テンソルを計算するように仕向ける命令を含んでいてもよい。
【0030】
プロセッサに予測を計算するように仕向ける命令は、当該プロセッサによって実行されると、当該プロセッサに対して、各スケールで計算された融合テンソルを、セグメンテーションマスクを計算するように構成された予測モジュールに供給するように仕向ける命令をさらに含んでいてもよい。
【0031】
セグメンテーションマスクは、ロボットピッキングアームのコントローラに供給されてもよい。
【0032】
予測は、1つ又は複数の光学的に困難な物体に基づく、1つ又は複数の偏光の生フレームの分類を含んでいてもよい。
【0033】
予測は、1つ又は複数の偏光の生フレームに示された1つ又は複数の光学的に困難な物体の1つ又は複数の検出されたフィーチャを含んでいてもよい。
【0034】
予測を計算する命令は、プロセッサによって実行されると、当該プロセッサに対して、1つ又は複数の第1のテンソルを統計モデルに供給するように仕向ける命令を含んでいてもよく、当該統計モデルは、1つ又は複数の偏光表現空間内の訓練用の第1のテンソルと、ラベルと、を含む訓練データを用いて訓練できる。
【0035】
訓練データは、偏光カメラによって捕捉されたデータから計算されたソース訓練用の第1のテンソルと、回転を含むアフィン変換を介してソース訓練用の第1のテンソルから生成された追加訓練用の第1のテンソルと、を含んでいてもよい。
【0036】
追加訓練用の第1のテンソルが直線偏光角(AOLP)画像を含む場合、追加訓練用の第1のテンソルを生成することは、追加訓練用の第1のテンソルをある角度分回転させることと、AOLP画像のピクセル値を当該角度分逆回転させることと、を含む。
【図面の簡単な説明】
【0037】
添付図面は、本明細書と併せて、本開示の好ましい実施形態を示し、明細書と併せて、本開示の原理を説明するのに役立つ。
【0038】
【
図1】本発明の一実施形態に係るシステムの概略ブロック図である。
【
図2A】2つの透明なボール(「スプーフ」)及び何らかの背景クラッタを含む別のシーンを描写する写真のプリントアウト上に配置された1つの実在の透明ボールを有するシーンの画像又は強度画像である。
【
図2B】透明なボールのインスタンスを識別する比較マスク領域ベースの畳み込みニューラルネットワーク(マスクR-CNN)によって計算されたオーバーレイセグメンテーションマスクを有する
図2Aの強度画像を示し、このセグメンテーションマスクにおいては、実在の透明ボールがインスタンスとして正確に識別され、2つのスプーフがインスタンスとして不正確に識別される。
【
図2C】本発明の一実施形態に係る、捕捉されたシーンの偏光の生フレームから計算された偏光角画像を示す図である。
【
図2D】本発明の一実施形態に係る偏光データを用いて計算されたオーバーレイセグメンテーションマスクを有する
図2Aの強度画像を示し、このセグメンテーションマスクにおいては、実在の透明ボールがインスタンスとして正確に識別され、2つのスプーフがインスタンスとして正確に除外される。
【
図3】本発明の一実施形態に係る偏光データに基づいてセグメンテーションマップを計算するための処理回路のブロック図である。
【
図4】本発明の一実施形態に係るセグメンテーションマップを計算するために入力画像上でセグメンテーションを実行するための方法のフローチャートである。
【
図5】透明な物体と非透明な(例えば、拡散性及び/又は反射性)物体との光の相互作用を高レベルに示す図である。
【
図6A】本発明の一実施形態に係る、強度表現空間内の強度フィーチャマップIを含む第1の表現空間内の導出フィーチャマップを抽出するように構成されたフィーチャ抽出装置によって計算された例示的な第1のフィーチャマップを示す図である。
【
図6B】本発明の一実施形態に係る、直線偏光度(DOLP)表現空間内のDOLPフィーチャマップρを含む第1の表現空間内の導出フィーチャマップを抽出するように構成されたフィーチャ抽出装置によって計算された例示的な第1のフィーチャマップを示す図である。
【
図6C】本発明の一実施形態に係る、直線偏光角(AOLP)表現空間内のAOLPフィーチャマップφを含む第1の表現空間内の導出フィーチャマップを抽出するように構成されたフィーチャ抽出装置によって計算された例示的な第1のフィーチャマップを示す図である。
【
図7A】
図6A、6B、及び6Cの(a)のラベリングがされた領域の拡大図である。
【
図7B】
図6A、6B、及び6Cの(b)のラベリングされた領域の拡大図である。
【
図7C】
図6Aの強度フィーチャマップ、
図6BのDOLPフィーチャマップ、及び
図6CのAOLPフィーチャマップの
図7B内のラベリングされた縁部の断面を示すグラフである。
【
図8A】本発明の一実施形態に係るフィーチャ抽出装置のブロック図である。
【
図8B】本発明の一実施形態に係る、偏光の生フレームからフィーチャを抽出するための方法を示すフローチャートである。
【
図9】マスク領域ベースの畳み込みニューラルネットワーク(マスクR-CNN)バックボーンに適用される本発明の一実施形態に係る偏光CNNアーキテクチャを示すブロック図である。
【
図10】本発明の一実施形態に係る偏光CNNと併用できるアテンションモジュールのブロック図である。
【
図11】偏光カメラによって捕捉された偏光の生フレームから抽出された異なるモードテンソル(第1の表現空間内の)の、本発明の一実施形態に係るアテンションモジュールによって計算されたアテンション重みの例を示す図である。
【
図12A】比較画像セグメンテーションシステムによって計算されたセグメンテーションマップ、本開示の一実施形態に係る偏光畳み込みニューラルネットワークによって計算されたセグメンテーションマップ、及びグラウンドトゥルースセグメンテーションマップ(例えば、手動生成セグメンテーションマップ)を示す図である。
【
図12B】比較画像セグメンテーションシステムによって計算されたセグメンテーションマップ、本開示の一実施形態に係る偏光畳み込みニューラルネットワークによって計算されたセグメンテーションマップ、及びグラウンドトゥルースセグメンテーションマップ(例えば、手動生成セグメンテーションマップ)を示す図である。
【
図12C】比較画像セグメンテーションシステムによって計算されたセグメンテーションマップ、本開示の一実施形態に係る偏光畳み込みニューラルネットワークによって計算されたセグメンテーションマップ、及びグラウンドトゥルースセグメンテーションマップ(例えば、手動生成セグメンテーションマップ)を示す図である。
【
図12D】比較画像セグメンテーションシステムによって計算されたセグメンテーションマップ、本開示の一実施形態に係る偏光畳み込みニューラルネットワークによって計算されたセグメンテーションマップ、及びグラウンドトゥルースセグメンテーションマップ(例えば、手動生成セグメンテーションマップ)を示す図である。
【発明を実施するための形態】
【0039】
以下の詳細な説明では、本発明のいくつかの好ましい実施形態のみが図示され、説明される。本発明は多くの異なる形態で具体化が可能であり、本明細書に記載の実施形態に限定されるものと解釈されるべきではないことを当業者は理解するであろう。同様の参照番号は、本明細書全体を通して同様の要素を示す。
【0040】
透明な物体は、製造、生命科学及び自動車産業のための自動化及び分析を含む、コンピュータビジョン又はマシンビジョンシステムの多数の現実世界の用途で出現する。例えば、製造において、コンピュータビジョンシステムを用いて、部品の分類、選択、及び配置と、製造中の構成要素の配置の検証と、最終検査及び欠陥の検出と、を自動化することができる。別の例として、生命科学分野で、コンピュータビジョンシステムを用いて、試薬の測定と、試料の調製と、計測器出力の読み出しと、試料の特性評価と、容器内試料の採取及び配置と、を自動化することができる。自動車産業における別の例には、運転者を補助するために、又は自動運転車両を動作させるために街路シーン内の透明な物体を検出することが含まれる。さらなる例としては、ガラス扉やその他の透明なバリアを検出できる自航車椅子及び、透明な飲用コップを検出することができ、現実の物体と印刷されたスプーフとを区別することができる、視覚障害を有する人を補助するための装置などの補助技術が挙げられる。
【0041】
不透明な物体とは対照的に、透明な物体は、それ自体のテクスチャ(例えば、コンピュータグラフィックス分野で使用される「テクスチャマッピング」などにおける面の色情報)を欠いている。その結果、比較システムは、概して、標準撮像システム(例えば、白黒強度画像又は赤色、緑色、青色又はRGB画像のような色強度画像を捕捉するように構成されたカメラ)を使用して捕捉されたシーン内に存在する透明な物体のインスタンスを正確に識別することができない。これは、透明な物体が、アルゴリズムが理解できる、又は検出するよう学習できる(例えば、機械学習アルゴリズムの訓練工程の間に)整合したテクスチャ(例えば、面の色)を有していないからであり得る。同様の問題が、部分的に透明又は半透明の物体、並びにいくつかのタイプの反射物体(例えば、光沢がある金属)及び極めて暗い物体(例えば、マットブラックの物体)で発生する可能性がある。
【0042】
したがって、本開示の実施形態の態様は、偏光撮像を使用して、セグメンテーションアルゴリズムがシーン内の透明な物体を検出するための情報を提供することに関する。さらに、本開示の実施形態の態様は、透明、半透明、及び反射物体、並びに暗い物体のようなその他の光学的に困難な物体を検出することにも適用される。
【0043】
本明細書で使用される「光学的に困難」という用語は、非ランバート(例えば、マットでない)、半透明、マルチパス誘導、及び/又は非反射性という4つの特性の1つ以上を、充分な閾値レベル又は程度において満足する材料からなる物体を指す。いくつかの状況では、4つの特性の1つのみを示す物体は、検出することが光学的に困難な可能性がある。さらに、物体又は材料は、同時に複数の特性を示す場合がある。例えば、半透明な物体は、面反射と背景反射とを有することができるので、透明な物体は透光性とマルチパスとの両方が理由で困難である。いくつかの状況では、物体は、上に列挙した4つの特性の1つ以上を示す場合があるが、これらの条件は、比較コンピュータビジョンシステムにとって問題になるレベル又は程度では示されていないので、検出することが光学的に困難ではない可能性がある。例えば、物体が半透明であるが、それでもシーン内の物体の別のインスタンスから検出しセグメント化するのに充分な面テクスチャを示す場合がある。別の例として、面は、他のビジョンシステムにとって問題になるのに充分な程度に非ランバートでなければならない。いくつかの実施形態では、物体が光学的に困難な程度又はレベルは、物体の双方向反射率分布関数(BRDF)の鏡面ローブの半値全幅(FWHM)を用いて定量化される。このFWHMがしきい値未満であれば、材料は光学的に困難であると考えられる。
【0044】
図1は、本発明の一実施形態に係るシステムの概略ブロック図である。
図1に示す構成では、シーン1は、不透明なマット物体3(例えば、野球のボール及びテニスボール)の前に置かれた透明な物体2(例えば、ガラス玉などの玉、飲用コップ又はタンブラーなどのシリンダ、及び透明なアクリルの窓ガラスなどの平坦な面として示す)を含む。偏光カメラ10は、レンズ12及びカメラ10が、視野がシーン1を包含するような向きにある視野を備えたレンズ12を有する。レンズ12は、シーン1からの光(例えば焦点光)を、画像センサ14(例えば、相補型金属酸化物半導体(CMOS)画像センサ又は電荷結合素子(CCD)画像センサ)などの感光性媒体上に向けるように構成されている。
【0045】
偏光カメラ10は、シーン1と画像センサ14との間の光路内に配置された偏光子又は偏光フィルタ又は偏光マスク16をさらに含む。本開示のいくつかの実施形態によれば、偏光子又は偏光マスク16は、偏光カメラ10が、偏光子を様々な指定した角度に(例えば、45°回転した位置又は60°回転した位置又は不均等に離間した回転位置に)設定した状態でシーン1の画像を捕捉することを可能にするように構成されている。
【0046】
一例として、
図1は、偏光マスク16が、カラーカメラの赤-緑―青(RGB)カラーフィルタ(例えば、ベイヤーフィルタ)と同様に、画像センサ14のピクセルグリッドと整合した偏光モザイクである実施形態を示す。カラーフィルタモザイクが、画像センサ14の各ピクセルが、モザイクのカラーフィルタのパターンに従って、スペクトルの特定の部分(例えば、赤、緑、又は青の)で光を受光するように、波長に基づいて入射光をフィルタリングする方法と同様の方法で、偏光モザイクフィルタを使用する偏光マスク16は、異なるピクセルが直線偏光の異なる角度(例えば、0°、45°、90°、及び135°、又は0°、60°、及び120°)で光を受光するように、直線偏光に基づいて光をフィルタリングする。したがって、
図1に示すような偏光マスク16を使用する偏光カメラ10は、4つの異なる直線偏光において同時に、又は一斉に光を捕捉することができる。偏光カメラの一例は、オレゴン州WilsonvilleのFLIR(登録商標)Systems, Inc.製のBlackfly(登録商標)S偏光カメラである。
【0047】
上記の説明は、偏光モザイクを使用する偏光カメラのいくつかの可能な実装形態に関するものであるが、本開示の実施形態はこれに限定されず、複数の異なる偏光において画像を捕捉することができるその他の種類の偏光カメラを包含する。例えば、偏光マスク16は、3つ以下の、又は5つ以上の異なる偏光を有していてもよく、異なる角度の偏光を有していてもよい(例えば、0°、60°、120°の偏光角、又は0°、30°、60°、90°、120°、150°の偏光角の)。別の例として、偏光マスク16は、画像センサ14の異なる部分が異なる偏光を有する光を受光するように、マスクの個々のピクセルの偏光角を独立して制御可能な、電気光学変調装置などの電子的に制御された偏光マスクを使用して実施することができる(例えば、液晶層を含んでいてもよい)。別の例として、電気光学変調装置は、例えば、異なるフレームを捕捉するときに異なる直線偏光の光を送信して、カメラが、偏光マスク全体を、異なる直線偏光角(例えば、0度、45度、90度、又は135度)に順次設定して画像を捕捉するように構成されていてもよい。別の例として、偏光マスク16は、偏光フィルタをレンズ12に対して機械的に回転させて異なる偏光角の光を画像センサ14へ放射する偏光カメラ10によって異なる偏光の生フレームが捕捉されるように、機械的に回転する偏光フィルタを含んでいてもよい。
【0048】
その結果、偏光カメラは、シーン1の複数の入力画像18(又は偏光の生フレーム)を捕捉し、偏光の生フレーム18の各々は、偏光フィルタ又は偏光子の後方で、異なる偏光角φpol(例えば、0度、45度、90度、又は135度)で撮影された画像に対応する。偏光の生フレームの各々は、シーンに対して異なる位置及び向きから偏光の生フレームを捕捉する場合とは対照的に、シーン1に対して実質的に同じポーズで捕捉される(例えば、0度、45度、90度、又は135度で偏光フィルタを用いて捕捉された画像は、全て、同じ位置及び向きにある同じ偏光カメラによって捕捉される)。偏光カメラ10は、電磁スペクトルの人間の目に見える部分、及び人間の目に見えるスペクトルの赤、緑、及び青の部分、並びに赤外線及び紫外線のような電磁スペクトルの不可視部などの、電磁スペクトルの様々な異なる部分の光を検出するように構成されていてもよい。
【0049】
上記実施形態のいくつかのような、本開示のいくつかの実施形態では、異なる偏光の生フレームは、シーン1に対して実質的に同じポーズ(例えば、位置及び向き)で、同一の偏光カメラ10によって捕捉することができる。ただし、本開示の実施形態はこれに限定されない。例えば、偏光カメラ10は、偏光カメラ10が異なる偏光の生フレームの間でシーン1に対して移動することができる(例えば、機械的に回転する偏光フィルタのケースのように、異なる偏光角に対応する異なる偏光の生フレームが異なる時間に捕捉される場合に)。これは、偏光カメラ10が移動したこと、又はシーン1内の物体が移動した(例えば、物体が動いているコンベアベルト上にある場合)ことが理由である。したがって、本開示のいくつかの実施形態では、異なる偏光の生フレームがシーン1に対して異なるポーズで偏光カメラ10を用いて捕捉される。
【0050】
偏光の生フレーム18は、以下に詳述する処理回路100に供給され、処理回路100は、偏光の生フレーム18に基づいて特性評価出力20を計算する。
図1に示すように、セグメンテーションマップ20内では、シーン1の透明な物体2及び不透明な物体3は全て個別にラベリングされ、各ラベルは異なる色又はパターン(例えば、垂直ライン、水平ライン、チェッカーパターンなど)を用いて
図1に示されているが、実際には、各ラベルは異なる値(例えば、図に示す異なるパターンが異なる値に対応する整数値)によって表現することができる。
【0051】
本開示の様々な実施形態によれば、処理回路100は、以下に詳述するように、様々な動作を実行するように構成された1つ又は複数の電子回路を用いて実施される。電子回路の種類は、中央処理部(CPU)、グラフィックス処理部(GPU)、人工知能(Al)アクセラレータ(例えば、ドット積及びsoftmaxなどの、ニューラルネットワークに共通の演算を効率的に行うように構成されたベクトル演算ロジック部を含み得るベクトルプロセッサ)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、ディジタル信号プロセッサ(DSP)、又は同種のものを含んでいてもよい。例えば、いくつかの状況で、本開示の実施形態の態様は、電子回路(例えば、CPU、GPU、AIアクセラレータ、又はそれらの組み合わせ)によって実行されると、本明細書に記載の動作を実行して、入力された偏光の生フレーム18からセグメンテーションマップ20を計算する、不揮発性コンピュータ可読メモリ内に記憶されたプログラム命令の形で実施される。処理回路100によって実行される動作は、単一の電子回路(例えば、単一のCPU、単一のGPU、又は同種のもの)によって実行されてもよいし、複数の電子回路(例えば、複数のGPU又は単一のGPUと連携する単一のCPU)の間に割り当てられてもよい。複数の電子回路は、互いにローカルであってもよく(例えば、同じダイ上に位置してもよく、同じパッケージ内に位置してもよく、又は同じ内蔵デバイス又はコンピュータシステム内に位置してもよい)、且つ/又は互いにリモートであってもよい(例えばBluetooth(登録商標)などのローカルパーソナルエリアネットワークのようなネットワークを介した通信で、ローカル有線及び/又は無線ネットワークなどのローカルエリアネットワーク、及び/又はインターネットなどの広域ネットワークを介して通信する際に、動作の一部がローカルに実行され、動作の別の一部がクラウドコンピューティングサービスによってホストされるサーバ上で実行される場合など)。処理回路100を実施するために動作する1つ又は複数の電子回路は、本明細書では、コンピュータ又はコンピュータシステムと呼んでよく、コンピュータ又はコンピュータシステムは、1つ又は複数の電子回路によって実行されると、本明細書に記載のシステム及び方法を実施する命令を記憶するメモリを含んでいてもよい。
【0052】
図2A、2B、2C、及び2Dは、本開示の実施形態に係る比較アプローチ及び意味セグメンテーション又はインスタンスセグメンテーションによって計算されたセグメンテーションマップを示すための背景を提供する。詳細には、
図2Aは、2つの透明なボール(「スプーフ」)及び何らかの背景クラッタを含む別のシーンを描写する写真のプリントアウト上に配置された1つの実在の透明ボールを有するシーンの画像又は強度画像である。
図2Bは、
図2Aの強度画像上に線の異なるパターンを用いて重畳された透明なボールのインスタンスを識別する比較マスク領域ベースの畳み込みニューラルネットワーク(マスクR-CNN)によって計算されたセグメンテーションマスクを示し、このセグメンテーションマスクにおいては、実在の透明ボールがインスタンスとして正確に識別され、2つのスプーフがインスタンスとして不正確に識別される。言い換えると、マスクR-CNNアルゴリズムは、2つのスプーフの透明なボールをシーン内の実在の透明なボールのインスタンスとしてラベリングするように騙されている。
【0053】
図2Cは、本発明の一実施形態に係る、捕捉されたシーンの偏光の生フレームから計算される直線偏光角(AOLP)画像を示す図である。
図2Cに示すように、透明な物体は、エッジ上に幾何学的に依存するシグネチャと、直線偏光角度で透明な物体の面に生じる別個の又は一意の又は特定のパターンとが存在する、AOLPドメインのような偏光空間内に極めて一意のテクスチャを有する。言い換えると、透明な物体の固有テクスチャ(例えば、透明な物体を通して見える背景面から採用される付帯テクスチャとは対照的に)が、
図2Aの強度画像におけるよりも
図2Cの偏光角画像においてより視認可能である。
【0054】
図2Dは、実在の透明なボールが重畳された線のパターンを用いてインスタンスとして正確に識別され、2つのスプーフがインスタンスとして正確に除外される(例えば、
図2Bとは対照的に、
図2Dは2つのスプーフ上の重畳された線のパターンを含まない)、本発明の一実施形態に係る偏光データを用いて計算された重畳セグメンテーションマスクを備えた
図2Aの強度画像を示す図である。
図2A、2B、2C、及び2Dは、スプーフの透過な物体が存在する場合の実在の透明な物体の検出に関する一実施例を示しているが、本開示の実施形態はこれに限定されず、その他の光学的に困難な物体、例えば、透明、半透明、及び非マット、非ランバート物体と、非反射性(例えば、マットブラックの物体)及びマルチパス誘導物体にも適用される。
【0055】
したがって、本開示の実施形態のいくつかの態様は、偏光の生フレームから、意味セグメンテーションアルゴリズム又はその他のコンピュータビジョンアルゴリズムへの入力として供給される、表現空間内のテンソル(又は偏光フィーチャマップなどの第1の表現空間内の第1のテンソル)を抽出することに関する。第1の表現空間内のこれらの第1のテンソルは、
図2Cに示すAOLP画像のようなシーンから受信された光の偏光に関する情報を符号化する偏光フィーチャマップ、直線偏光度(DOLP)フィーチャマップ、及び同種のもの(例えば、ストークスベクトルからのその他の組み合わせ、又は個々の偏光の生フレームのトランスフォーメーション(transformations))を含んでいてもよい。いくつかの実施形態では、これらの偏光フィーチャマップは、非偏光フィーチャマップ(例えば、
図2Aに示す画像のような強度画像)と共に使用され、意味セグメンテーションアルゴリズムが使用するための情報の追加チャネルを提供する。
【0056】
本発明の実施形態は、画像を分析するための特定の意味セグメンテーションアルゴリズムとの併用に限定されないが、本発明の実施形態のいくつかの態様は、透明な、又はその他の光学的に困難な物体(例えば、透明、半透明、非ランバート、マルチパス誘導物体、及び非反射性の(例えば極めて暗い)物体)の偏光ベースのセグメンテーションのための深層学習フレームワークに関し、これらのフレームワークを偏光畳み込みニューラルネットワーク(偏光CNN)と呼んでもよい。この偏光CNNフレームワークは、偏光の特定のテクスチャを処理するのに適し、マスクR-CNNのようなその他のコンピュータビジョンアーキテクチャと結合して(例えば、偏光マスクR-CNNアーキテクチャを形成するために)、透明な物体の正確でロバストなインスタンスセグメンテーションのための解決策を生成できるバックボーンを含む。さらに、このアプローチは、透明及び非透明な混合物(例えば、不透明な物体)を備えたシーンに適用でき、シーン内の透明、半透明、非ランバート、マルチパス誘導、暗い、及び不透明な物体のインスタンスを識別するために使用することができる。
【0057】
図3は、本発明の一実施形態に係る偏光データに基づいてセグメンテーションマップを計算するための処理回路100)のブロック図である。
図4は、本発明の一実施形態に係るセグメンテーションマップを計算するために入力画像上でセグメンテーションを実行するための方法のフローチャートである。
図3に示すように、いくつかの実施形態では、処理回路100は、フィーチャ抽出装置又はフィーチャ抽出システム800と、フィーチャ抽出システム800の出力に基づいてシーン内の1つ又は複数の透明な物体に関する予測出力20(例えば、統計的予測)を計算するように構成された予測装置900(例えば、古典的なコンピュータビジョン予測アルゴリズム又は訓練済み統計モデル)とを含む。本開示の様々な実施形態は、本明細書では、透明な物体を検出するためのシステムを訓練するという文脈で記述されているが、本開示の実施形態はこれに限定されず、例えば、本開示の実施形態のいくつかの態様は、その他の光学的に困難な物体、又は、半透明な物体、マルチパス誘導物体、一部が又は実質的にマット又はランバートの物体、及び/又は非常に暗い物体のような、検出が光学的に困難な材料で作られた物体のための技法に適用することができる。これらの光学的に困難な物体は、光の偏光への感度が低いカメラシステムによって捕捉される画像を使用することによって解決又は検出する(例えば、光路内に偏光フィルタを有しないカメラ、又は異なる画像が異なる偏光角に基づく画像を捉えていないカメラによって捕捉される画像に基づいて)ことが困難な物体を含む。
【0058】
図3及び4に示す実施形態では、動作410において、処理システム100のフィーチャ抽出システム800は、シーンの入力偏光の生フレーム18から1つ又は複数の第1の表現空間内の1つ又は複数の第1のフィーチャマップ50(様々な偏光表現空間内の偏光画像又は偏光フィーチャマップを含む)を抽出する。抽出された導出フィーチャマップ50(偏光画像を含む)は、処理システム100の予測装置900への入力として提供され、処理システム100の予測装置900は、1つ又は複数の予測モデルを実施して、動作450で、検出された出力20を計算する。予測装置が画像セグメンテーション又はインスタンスセグメンテーションシステムの場合、予測は、
図3に示すようなセグメンテーションマップであってもよく、このセグメンテーションマップにおいて、各ピクセルは、当該ピクセルが物体の様々な可能なクラス(又はタイプ)に対応するという1つ又は複数の信頼度に関連付けることができる。予測装置が分類システムの場合、予測は、複数のクラスと、画像がクラスの各々のインスタンスを示すという対応する信頼度と、含むことができる。予測装置900が古典的なコンピュータビジョン予測アルゴリズムの場合、予測装置は、検出結果(例えば、検出されたエッジ、キーポイント、基底係数、Haarウェーブレット係数、又は透明な物体及び/又はその他の光学的に困難な物体、例えば、出力フィーチャとしての、画像内の半透明な物体、マルチパス誘導物体、非ランバート物体、及び非反射物体)を計算することができる。
【0059】
図3に示す実施形態では、予測装置900はインスタンスセグメンテーション(又は意味セグメンテーション)システムを実施し、動作450で、入力された偏光の生フレーム18から抽出された第1の表現空間内の抽出された第1のテンソル50に基づいてシーンのセグメンテーションマップを含む出力20を計算する。上記のように、フィーチャ抽出システム800及び予測装置900は、以下に詳述するように、各々の動作を実行するように構成された1つ又は複数の電子回路を用いて実施される。
【0060】
第1の表現空間内の偏光画像及び導出フィーチャマップなどの第1のテンソルを偏光の生フレームから抽出すること
【0061】
本開示の実施形態のいくつかの態様は、動作410におけるフィーチャを抽出するためのシステム及び方法に関し、これらの抽出されたフィーチャは、動作450で、透明な物体のロバストな検出で使用される。これとは対照的に、強度画像のみに依存する比較技法は、透明な物体を検出することができない可能性がある(例えば、上記のように
図2Aの強度画像を
図2CのAOLP画像と比較して)。「第1の表現空間」内の「第1のテンソル」という用語は、本明細書では、偏光カメラによって捕捉された偏光の生フレーム18から計算された(例えば、抽出された)フィーチャを参照するために使用され、これらの第1の表現空間は、少なくとも偏光フィーチャ空間(例えば、画像センサによって検出された光の偏光に関する情報を含むAOLP及びDOLPなどのフィーチャ空間)を含み、さらに、非偏光フィーチャ空間(例えば、偏光フィルタを用いずに捕捉された強度画像のみに基づいて計算された画像などの、画像センサに到達する光の偏光に関する情報を必要としないフィーチャ空間)を含んでいてもよい。
【0062】
光と透明な物体との間の相互作用は濃密で複雑であるが、物体の材料は可視光下での材料の透明性を決定する。多くの透明な家庭向け物体の場合、可視光の大部分は真っ直ぐに通過し、わずかな部分(屈折率に応じて約4%~約8%)が反射される。これは、スペクトルの可視部の光が透明な物体中の原子を励起するには不充分なエネルギーしか有していないからである。その結果、透明な物体の背後にある(又は透明な物体を通して見える)物体のテクスチャ(例えば、外観)は、透明な物体の外観よりも優勢になる。例えば、テーブル上にある透明なガラスのコップ又はタンブラーを見る場合、タンブラーの向こう側の物体の外観(例えば、テーブルの面)は、概して、コップを通して見られるものよりも優勢になる。この特性によって、強度画像のみに基づいてインスタンスセグメンテーションを試みる場合にいくつかの困難が生じる。
【0063】
クラッタ:透明なエッジ(例えば、透明な物体のエッジ)は、透明な物体を有する密にクラッタされたシーン内で視認することが困難である。極端な場合には、エッジは全く見えず(例えば、以下に詳述する
図6Aの領域(b)を参照)、透明な物体の正確な形状の曖昧さを生み出す。
【0064】
新しい環境:可視スペクトルにおける低反射率によって、透明な物体は、新しい環境(例えば、セグメンテーションシステムを訓練するために使用される訓練データとは異なる環境、例えば、透明な物体を介して見える背景が訓練データにおける背景とは異なる環境)で、異なる、アウトオブディストリビューションとして見えるようになり、それによって、一般化が脆弱になる。
【0065】
印刷されたスプーフ:入力として単一のRGB画像を使用するアルゴリズムは、概して、遠近感の曖昧さが原因で、印刷されたスプーフ(例えば、写真画像のプリントアウト)の影響を受けやすい。透明な物体の意味セグメンテーションのための他の非単眼アルゴリズム(例えば、ステレオカメラなどの、シーンの周囲の複数の異なるポーズから捕捉された画像を使用する)が存在するが、当該アルゴリズムは範囲が制限され、インスタンスセグメンテーションを処理できない可能性がある。
【0066】
図5は、透明な物体と非透明な(例えば、散乱性及び/又は反射性)物体との光の相互作用を高レベルに示す図である。
図5に示すように、偏光カメラ10は、不透明な背景物体503の前にある透明な物体502を含むシーンの偏光の生フレームを捕捉する。偏光カメラ10の画像センサ14に当たる光線510は、透明な物体502と背景物体503の両方から得た偏光情報を含む。透明な物体502からの反射光512のほんのわずかな部分は高度に偏光し、背景物体503に反射して透明な物体502を通過する光513とは対照的に、偏光測定に大きな影響を与える。
【0067】
偏光カメラ10の画像センサ16に当たる光線510は、3つの測定可能な成分、すなわち、光の強度(強度画像/I)、直線偏光のパーセンテージ又は割合(直線偏光度/DOLP/ρ)、及びその直線偏光の方向(直線偏光角/AOLP/φ)を有する。これらの特性は、以下に詳述するように、撮像対象の物体の面曲率及び材料に関する情報を符号化し、予測装置900がこの情報を用いて透明な物体を検出することができる。いくつかの実施形態では、予測装置900は、半透明な物体を通過する光及び/又はマルチパス誘導物体と相互作用する光、及び/又は非反射性物体(例えば、マットブラックの物体)による光の同様の偏光特性に基づいて、その他の光学的に困難な物体を検出することができる。
【0068】
したがって、本発明の実施形態のいくつかの態様は、フィーチャ抽出装置800を用いて1つ又は複数の第1の表現空間内の第1のテンソルを計算することに関し、この第1の表現空間は、強度I、DOLPρ及びAOLPφに基づいて導出フィーチャマップを含んでいてもよい。フィーチャ抽出装置800は、概して、「偏光画像」、言い換えれば、強度画像から元々計算可能でない偏光の生フレームに基づいて抽出された画像(例えば、偏光フィルタ又は偏光フィルタに対応する画像センサに到達する光の偏光を検出するためのその他の機構を含まないカメラによって捕捉された画像)などの偏光表現空間(又は偏光フィーチャ空間)を含む第1の表現空間(又は第1のフィーチャ空間)に情報を抽出してもよく、これらの偏光画像は、DOLPρ画像(DOLP表現空間又はフィーチャ空間内の)、AOLPφ画像(AOLP表現空間又はフィーチャ空間内の)、ストークスベクトルから計算された偏光の生フレームのその他の組み合わせと、偏光の生フレームから計算された情報のその他の画像(又は概して第1のテンソル又は第1のフィーチャテンソル)を含んでいてもよい。第1の表現空間は、強度I表現空間のような非偏光表現空間を含んでいてもよい。
【0069】
各ピクセルにおける測定強度I、DOLPρ、AOLPφは、偏光フィルタ(又は偏光子)の背後で異なる角度φpolで撮影されたシーンの3以上の偏光の生フレームを必要とする(例えば、決定すべき3つの不明な値、すなわち、強度I、DOLPρ、AOLPφがあるために)。例えば、上記のFLIR(登録商標)Blackfly(登録商標)S偏光カメラは、偏光角φpolを0度、45度、90度、又は135度に設定して偏光の生フレームを捕捉し、それによって、本明細書ではI0、I45、I90、及びI135として示される4つの偏光の生フレームIφpolを生成する。
【0070】
各ピクセルにおけるIφpolと強度I、DOLPρ、AOLPφとの関係は、次のように表すことができる。
Iφpol=I(1+ρcos(2(φ-φpol))) (1)
【0071】
したがって、4つの異なる偏光の生フレームIφpol(I0、I45、I90、及びI135)により、4つの連立方程式を用いて、強度I、DOLPρ、及びAOLPφの値を求めることができる。
【0072】
偏光を使って形状を求める(Shape from Polarization)(SfP))理論(例えば、Gary A Atkinson and Edwin R Hancock. Recovery of surface orientation from diffuse polarization. IEEE transactions on image processing, 15(6):1653‐1664, 2006を参照)では、物体の面法線の屈折率(n)、方位角(θa)及び天頂角(θz)と、その物体からの光線のφ及びρ成分との関係について以下のように記述している。
【0073】
拡散反射が支配的である場合には、
【数1】
φ=θ
a (3)
鏡面反射が支配的な場合には、
【数2】
【数3】
両方のケースで、ρは、θ
zが増加するにつれて指数関数的に増加し、屈折率が同じである場合、鏡面反射は、拡散反射よりもはるかに偏光度が高いことに留意されたい。
【0074】
本開示の実施形態のいくつかの態様は、シーン内の透明な物体又はその他の光学的に困難な物体のインスタンスの検出を含む、セグメンテーションマップを計算するための意味セグメンテーションシステムのような、シーンの透明な物体及び/又はその他の光学的に困難な物体(例えば、半透明な物体、非ランバート物体、マルチパス誘導物体、及び/又は非反射物体)上のコンピュータビジョン予測を計算するための予測装置への入力として、偏光の生フレームから抽出された第1の表現空間内の第1のテンソル(例えば、導出フィーチャマップ)を供給することに関する。これらの第1のテンソルは、強度フィーチャマップI、直線偏光度(DOLP)ρフィーチャマップ、及び直線偏光角(AOLP)φフィーチャマップを含んでいてもよく、DOLPρフィーチャマップ及びAOLPφフィーチャマップは、偏光カメラによって検出された光の偏光に関する情報を符号化するフィーチャマップに関連する、偏光表現空間内の偏光フィーチャマップ又はテンソルの例である。偏光フィーチャマップ(又は偏光画像)の利点は、
図6A、6B、6C、7A、7B、7Cに関してより詳細に示されている。
【0075】
図6A、6B、及び6Cは、本発明の一実施形態に係る、
図6Aに示す強度表現空間内の強度フィーチャマップIと、
図6Bに示す直線偏光度(DOLP)表現空間内のDOLPフィーチャマップρと、
図6Cに示す直線偏光角(AOLP)表現空間内のAOLPフィーチャマップφと、を含む、第1の表現空間内の第1のテンソルを抽出するように構成されたフィーチャ抽出装置によって計算されたフィーチャマップである第1のテンソルの例を示す図である。2つの透明なボールを含む領域(a)と、飲用コップのエッジを含む領域(b)と、の2つの関心領域について以下に詳述する。
【0076】
図7A及び7Bは、それぞれ、
図6A、6B、及び6Cの(a)及び(b)のラベリングがされた領域の拡大図である。
図7Cは、
図6Aの強度フィーチャマップI、
図6BのDOLPフィーチャマップρ、及び
図6CのAOLPフィーチャマップφにおける、
図7Bにラベリングされたエッジの断面を示すグラフである。
【0077】
図6Aの領域(a)及び
図7Aの左側を参照すると、2つの透明なボールのテクスチャは、背景の変化(例えば、透明なボールが静止しているパターン化された布に対する穴のグリッドを有するプラスチック製ボックス)が原因で強度画像において不整合であり、これによって、新しい環境(例えば、透明な物体を通して見える様々な背景)に起因する問題が露わになる。この不整合性により、画像の上記の極めて異なって見える部分が同じタイプ又はクラスの物体(例えば、透明なボール)に対応することを意味セグメンテーション又はインスタンスセグメンテーションシステムが認識することが困難になり得る。
【0078】
他方、
図6B及び
図7Aの右側に示すDOLP画像内では、透明な物体の形状は容易に明らかになり、背景テクスチャ(例えば、布のパターン)はDOLP画像ρには現れない。
図7Aは、
図6Aに示す強度画像Iの領域(a)と、
図6Bに示すDOLP画像ρの拡大図であり、この図は、透明なボールの2つの異なる部分が、強度画像Iでは不整合の(例えば、外観が異なる)テクスチャを有するが、DOLP画像ρでは整合する(例えば、同様の外観の)テクスチャを有し、それによって、上記2つの同様の外観のテクスチャが共に同じクラスの物体に対応するということを、セグメンテーション又はインスタンスセグメンテーションシステムがDOLP画像ρに基づいて認識する可能性が高くなっている。
【0079】
領域(b)を参照すると、
図6A及び
図7Bの左側に示すように、飲用コップのエッジは、強度画像I内では実際には不可視である(例えば、パターン化された布と区別できない)が、
図6C及び
図7Bの右側に示すように、AOLP画像φでははるかに明るく視認される。
図7Cは、強度画像Iにおける領域が識別されたボックス内のエッジの断面図であり、
図7BのAOLP画像φは、エッジが、強度画像Iと比較してAOLPφ及びDOLPρにおいてはエッジのコントラストがはるかに高いことを示し、それによって、意味セグメンテーション又はインスタンスセグメンテーションシステムが、AOLPφ及びDOLPρ画像に基づいて、透明な画像のエッジを検出する可能性が高くなっている。
【0080】
より正式には、本開示の実施形態の態様は、偏光カメラ10によって捕捉された偏光の生フレームに基づいて、動作410で偏光画像を形成する(又は導出偏光フィーチャマップを抽出する)といった偏光表現空間内の第1のテンソルを抽出することを含めて、第1の表現空間内の第1のテンソル50を計算することに関する。
【0081】
透明な物体からの光線は、反射強度Ir、反射DOLPρr、反射AOLPφrを含む反射部分と、屈折強度It、屈折DOLPρt、反射AOLPφtを含む屈折部分との2つの成分を有する。その結果得られる画像内の単一のピクセルの強度を次のように記述することができる。
I=Ir+It (6)
【0082】
直線偏光角φpolを有する偏光フィルタをカメラの前に配置すると、所与のピクセルの値は以下のようになる。
Iφpol=Ir(1+ρrcos(2(φr-φpol)))+It(1+ρtcos(2(φt-φpol))) (7)
【0083】
DOLPρ画像内のピクセルとAOLPφ画像内のピクセルの値を、I
r、ρ
r、φ
r、I
t、ρ
t、及び及びφ
tに換算して上式を解くと、以下のようになる。
【数4】
【数5】
【0084】
したがって、上記の式(7)、(8)、及び(9)は、本開示の一実施形態に係る強度強度画像I、DOLP画像ρ、及びAOLP画像φを含む第1の表現空間内に第1のテンソル50を形成するためのモデルを提供し、偏光表現空間内の偏光画像又はテンソル(式(8)及び(9)に基づくDOLP画像ρ及びAOLP画像φを含む)を使用することによって、入力として強度I画像のみを使用する、マスクR-CNNシステムなどの比較システムによっては概して検出されない、透明な物体又はその他の光学的に困難な物体を確実に検出することができる。
【0085】
詳細には、偏光画像DOLPρ及びAOLPφのような偏光表現空間内の第1のテンソル(導出フィーチャマップ50のうちの)は、元々は強度Iドメイン内にテククチャが無いように見える可能性のある物体の面テクスチャを明らかにすることができる。この強度はIr/Itの比(式(6)を参照)に厳密に依存するので、透明な物体はこの強度I内で不可視のテクスチャを有していてもよい。It=0である不透明な物体とは異なり、透明な物体は入射光の大部分を透過し、この入射光のわずかな部分のみを反射する。
【0086】
一方、偏光のドメイン又は領域では、透明な物体の面テクスチャの強度は、φ
r-φ
t及びI
rρ
r/I
tρ
tの比(式(8)及び(9)を参照)に依存する。大多数のピクセルについてφ
r≠φ
t及びθ
zr≠θ
ztを仮定し(例えば、背景と透明な物体との幾何学形状が異なっていると仮定し)、ρ
rが鏡面反射曲線に従い(例えば、Daisuke Miyazaki、 Masataka Kagesawa、及びKatsushi Ikeuchi、Transparent surface modeling from a pair of polarization images(一対の偏光画像から行う透明な面のモデリング)、 IEEE Transactions on Pattern Analysis & Machine Intelligence、 (1):73-82、2004を参照)、その結果、ρ
rは、ブルースター角(約60°)において極度に偏光している、という説明に基づくと、ρ
rは1.0であり(式(4)を参照)、適当な天頂角において、ρ
r≧ρ
tであり、背景が散乱性又は小さい天頂角を有する場合、ρ
r≫ρ
tである。この効果は、θ
z≒60°の場合に実在の透明な球体のテクスチャが支配的である
図2Cに示されている。したがって、多くのケースで、以下の仮定が成り立つ。
【数6】
【0087】
したがって、透明な物体のテクスチャが強度領域Iにおいて視認できない場合であっても、透明な物体のテクスチャは、AOLPφ及びDOLPρ内のような偏光ドメイン内ではより視認可能であり得る。
【0088】
強度画像上のみで意味セグメンテーション又はインスタンスセグメンテーションを試みる場合に困難に遭遇する状況の3つの例に戻る。
【0089】
クラッタ:クラッタにおける一つの問題は、実質的にテクスチャがない可能性がある透明な物体のエッジを検出するときに発生する(例えば、
図6Aの領域(b)の飲用コップのエッジを参照)。一方、コップ及びそのエッジのテクスチャは、
図6Bに示すDOLPρにおいてより視認可能であり、
図6Cに示すAOLPφにおいてさらに視認可能である。
【0090】
新しい環境:透明な物体テクスチャの強度を増加させることに加えて、例えば、
図6Bに示すDOLPρ画像は、テクスチャ加工又はパターン化された布のような拡散性背景の影響を低減する(例えば、背景の布はほぼ完全に黒でレンダリングされる)。その結果、環境がシーン毎に変化する場合であっても、透明な物体は異なるシーンにおいて同様に見える。例えば、
図6B及び
図7Aの領域(a)を参照されたい。
【0091】
印刷されたスプーフ:用紙は平坦であり、大部分が均一なAOLPφ及びDOLPρが得られる。透明な物体は、一定量の面の変化を有し、その結果、AOLPφ及びDOLPρ内で極めて不均一に見える(例えば、
図2Cを参照)。したがって、透明な物体の印刷されたスプーフは、実在の透明な物体と区別することができる。
【0092】
図8Aは、本発明の一実施形態に係るフィーチャ抽出装置800のブロック図である。
図8Bは、本発明の一実施形態に係る、偏光の生フレームからフィーチャを抽出するための方法を示すフローチャートである。
図8Aに示す実施形態では、フィーチャ抽出装置800は、強度表現空間内の強度画像I52を抽出する(非偏光表現空間の一例として、式(7)に従って)ように構成された強度抽出装置820と、1つ又は複数の偏光表現空間内のフィーチャを抽出するように構成された偏光フィーチャ抽出装置830と、を含む。
図8Bに示すように、動作410での偏光画像の抽出は、動作411で、第1のストークスベクトルから計算された偏光の生フレームから第1の偏光表現空間内の第1のテンソルを抽出することを含んでいてもよい。動作412で、フィーチャ抽出装置800は、偏光の生フレームから第2の偏光表現空間内の第2のテンソルをさらに抽出する。例えば、偏光フィーチャ抽出装置830は、DOLPρ画像54を(例えば、DOLPを第1の偏光表現空間として、式(8)に従って、第1の偏光画像又は第1のテンソルを)、供給された偏光の生フレーム18から抽出するように構成されたDOLP抽出装置840と、AOLPφ画像56を(例えば、AOLPを第2の偏光表現空間として、式(9)に従って、第2の偏光画像又は第2のテンソルを)、供給された偏光の生フレーム18から抽出するように構成されたAOLP抽出装置860と、を含んでいてもよい。別の例として、偏光表現空間は、ストークスベクトルに従った偏光の生フレームの組み合わせを含んでいてもよい。また別の例として、偏光表現は、1つ又は複数の画像処理フィルタ(例えば、画像のコントラストを増加させるフィルタ又はノイズ除去フィルタ)に従った偏光の生フレームのモディフィケーション(modifications)又はトランスフォーメーション(transformations)を含んでいてもよい。次いで、導出フィーチャマップ52、54、及び56を、推論の実行(例えば、インスタンスセグメンテーションマップの生成、画像の分類、及び画像のテクスチャ記述の生成)などのさらなる処理のために予測装置900に供給することができる。
【0093】
図8Bは、2つの異なる表現空間内の偏光の生フレーム18から2つの異なるテンソルが抽出されるケースを示しているが、本開示の実施形態はこれに限定されない。例えば、本開示のいくつかの実施形態では、偏光表現空間内の1つのテンソルのみが、偏光の生フレーム18から抽出される。例えば、生フレームの1つの偏光表現空間はAOLPであり、別の偏光表現空間はDOLPである(例えば、いくつかの用途では、AOLPは、透明な物体又は半透明、非ランバート、マルチパス誘導、及び/又は非反射性物体などのその他の光学的に困難な物体を検出するのには充分であり得る)。本開示のいくつかの実施形態では、3つ以上の異なるテンソルが、対応するストークスベクトルに基づいて、偏光の生フレーム18から抽出される。例えば、
図8Bに示すように、n個の異なる表現空間内のn個の異なるテンソルがフィーチャ抽出装置800によって抽出されてもよく、n番目のテンソルが動作414で抽出される。
【0094】
したがって、偏光の生フレーム18から偏光フィーチャマップ又は偏光画像などのフィーチャを抽出することによって、第1のテンソル50が生成され、第1のテンソル50から、透明な物体又は、半透明の物体、マルチパス誘導物体、非ランバート物体、及び非反射性物体などの光学的に困難な物体がシーン内でより容易に検出され、又はより容易に他の物体から分離される。いくつかの実施形態では、フィーチャ抽出装置800によって抽出された第1のテンソルは、偏光の生フレーム内に現れる可能性がある、基礎となる物理現象(例えば、上記のようなAOLP及びDOLP画像の計算)に関連する、明示的な導出フィーチャ(例えば、人間の設計者の手による)であってもよい。本開示のいくつかの追加の実施形態では、フィーチャ抽出装置800は、異なる色の光(例えば、赤、緑、及び青色光)の強度マップ及び強度マップのトランスフォーメーション(transformations)(例えば、強度マップに画像処理フィルタを適用すること)などのその他の非偏光フィーチャマップ又は非偏光画像を抽出する。本開示のいくつかの実施形態では、フィーチャ抽出装置800は、ラベリングされた訓練データに基づく、包括的な教師あり訓練工程によって自動的に学習される1つ又は複数のフィーチャ(例えば、人間によって手動で指定されていないフィーチャ)を抽出するように構成されていてもよい。
【0095】
偏光の生フレームから計算された偏光フィーチャに基づく、セグメンテーションマップなどの予測の計算
【0096】
上述したように、本開示の実施形態のいくつかの態様は、フィーチャ抽出装置800によって抽出されたDOLPρ及びAOLPφなどの偏光画像又はフィーチャマップのような、偏光表現空間内の第1のテンソルを、偏光画像のマルチモーダル融合を実行して学習済みフィーチャ(又は第2のテンソル)を生成し、学習済みフィーチャ又は第2のテンソルに基づいてセグメンテーションマップなどの予測を計算する意味セグメンテーションアルゴリズムのような予測装置に供給することに関する。意味セグメンテーション又はインスタンスセグメンテーションに関連する特定の実施形態を以下に詳述する。
【0097】
概して、深層インスタンス技法を含む意味セグメンテーションへの多数のアプローチが存在する。様々な深層インスタンス技法は、意味セグメンテーションベースの技法(例えば、Min Bai and Raquel Urtasun. Deep watershed transform for instance segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5221‐5229, 2017、Alexander Kirillov, Evgeny Levinkov, Bjoern Andres, Bogdan Savchynskyy, and Carsten Rother. Instancecut: from edges to instances with multicut. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5008‐5017, 2017、及びAnurag Arnab and Philip HS Torr. Pixelwise instance segmentation with a dynamically instantiated network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 441‐450, 2017に記載の技法)、提案に基づく技法(例えば、Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Girshick. Mask r-cnn. In Proceedings of the IEEE International Conference on Computer Vision, pages 2961‐2969, 2017に記載の技法)及びリカレントニューラルネットワーク(RNN)ベースの技法(例えば、Bernardino Romera-Paredes and Philip Hilaire Sean Torr. Recurrent instance segmentation. In European Conference on Computer Vision, pages 312‐329. Springer, 2016 and Mengye Ren and Richard S Zemel. End-to-end instance segmentation with recurrent attention. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6656‐6664, 2017に記載の技法)として分類することができる。本開示の実施形態は、上記の意味セグメンテーション技法のいずれにも適用することができる。
【0098】
いくつかの比較アプローチは、連結された偏光の生フレーム(例えば、上述した画像I0、I45、I90、及びI135と)を、そこから偏画像又は偏光フィーチャマップなどの第1のテンソルを抽出することなく、直接に深層ネットワーク内に供給するが、入力として上記偏光の生フレーム上で直接訓練されたモデルは、概して、物理プライア(physical priors)を学習しようと努め、その結果、透明な物体又はその他の光学的に困難な物体のインスタンスを検出することができないといった低い性能しか得られない。したがって、本開示の実施形態の態様は、シーン内の透明な物体の画像に対してインスタンスセグメンテーションを実行するための偏光画像又は偏光フィーチャマップの使用(いくつかの実施形態では、強度フィーチャマップなどの別のフィーチャマップと組み合わせての)に関する。
【0099】
深層インスタンスセグメンテーションを使用する本開示の一実施形態は、マスク領域ベースの畳み込みニューラルネットワーク(マスクR-CNN)アーキテクチャのモディフィケーション(a modification)に基づいて、偏光マスクR-CNNアーキテクチャを形成する。マスクR-CNNは、画像強度値のH×W×3テンソル(例えば、幅×高さ×赤、緑、及び青のチャネルにおける色強度)である入力画像xをとり、それをバックボーンネットワーク:C=B(x)を通して実行することによって機能する。バックボーンネットワークB(x)は、入力画像から有用な学習済みフィーチャを抽出する役割を果たし、AlexNet(例えば、Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. ’ImageNet classification with deep convolutional neural networks.’ Advances in neural information processing systems. 2012を参照)、VGG(例えば、Simonyan, Karen, and Andrew Zisserman. ’Very deep convolutional networks for large-scale image recognition.’ arXiv preprint arXiv:1409.1556 (2014)を参照)、ResNet-101(例えば、Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770‐778, 2016を参照)、MobileNet(例えば、Howard, Andrew G., et al. ’Mobilenets: Efficient convolutional neural networks for mobile vision applications.’ arXiv preprint arXiv:1704.04861 (2017)を参照)、MobileNetV2(例えば、Sandler, Mark, et al. ’MobileNetV2: Inverted residuals and linear bottlenecks.’ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018を参照)、及びMobileNetV3(例えば、Howard, Andrew, et al. ’Searching for MobileNetV3.’ Proceedings of the IEEE International Conference on Computer Vision. 2019を参照)などの任意の標準CNNアーキテクチャであってもよい。
【0100】
バックボーンネットワークB(x)は、一組のテンソル、例えば、各テンソルCiが異なる解像度フィーチャマップを表す、C={C1, C2, C3, C4, C5}を出力する。次いで、これらのフィーチャマップは、フィーチャピラミッドネットワーク(FPN)(例えば、Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2117‐2125, 2017を参照)内に組み合わされ、領域提案ネットワーク(RPN)(例えば、Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems, pages 91‐99, 2015を参照)で処理され、そして、出力サブネットワーク(例えば、上記のRen et al. 及びHe et al.を参照)を通過して、訓練用の偏光の生フレーム、クラス、バウンディングボックス、及びピクセル単位のセグメンテーションが生成される。クラス、バウンディングボックス、及びピクセル単位のセグメンテーションは、インスタンスセグメンテーションのための非最大抑制にマージされる。
【0101】
本発明の実施形態の態様は、深層学習を使用して偏光画像に含まれる付加情報を活用するためのフレームワークに関し、この付加情報は、比較カメラによって捕捉される入力情報には存在しない(例えば、偏光子又は偏光フィルタを用いない標準のカラー又はモノクロカメラによっては捕捉されない情報である)。本開示の実施形態のフレームワークに従って構築されたニューラルネットワークアーキテクチャを、本明細書では、これ以降、偏光畳み込みニューラルネットワーク(CNN)と呼ぶ。
【0102】
本開示のいくつかの実施形態に係るこのフレームワークを適用することは、CNNアーキテクチャに対する以下の3つの変更を含む。
【0103】
(1)入力画像:本開示のいくつかの実施形態に係る、フィーチャ抽出装置800を用いることなどによって、偏光の物理式を適用し、CNNに入力する偏光情報を作成する。
【0104】
(2)アテンション融合極性バックボーン:訓練済みCNNバックボーンによって偏光画像から計算された学習済みフィーチャを融合することによって、マルチモーダル融合問題として問題を処理する。
【0105】
(3)幾何学データの増強:訓練データを増強して偏光の物理特性を表現させる。
【0106】
ただし、本開示の実施形態はこれに限定されない。逆に、上記の3つの変更及び/又は上記3つの変更以外の変更のいずれかのサブセットを既存のCNNアーキテクチャに対して実行して、本開示の実施形態として偏光CNNアーキテクチャを作成することができる。
【0107】
本開示のいくつかの実施形態に係る偏光CNNは、以下に詳述する動作を実行するように構成された1つ又は複数の電子回路を使用して実施できる。
図3に示す実施形態では、偏光CNNは、
図3に示すように、セグメンテーションマップ20を計算するための予測装置900の構成要素として使用される。
【0108】
図9は、マスク領域ベースの畳み込みニューラルネットワーク(マスクR-CNN)バックボーンに適用される本発明の一実施形態に係る偏光CNNアーキテクチャを示すブロック図であり、第2のテンソルC(又は学習済みフィーチャマップなどの出力テンソル)を用いて、セグメンテーションマスク20などの出力予測が計算される。
【0109】
本開示のいくつかの実施形態は、マスクR-CNNバックボーンに適用される偏光CNNアーキテクチャを使用する意味セグメンテーション又はインスタンスセグメンテーションに関するが、本開示の実施形態はこれに限定されず、Alexnet、VGG、MobileNet、MobileNetV2、MobileNetV3などのその他のバックボーンも同様の方法で変更することができる。
【0110】
図9に示す実施形態では、導出フィーチャマップ50(例えば、AOLPφ及びDOLPρ画像などの入力偏光画像を含む)が、偏光CNNバックボーン910への入力として供給される。
図9に示す実施形態では、入力フィーチャマップ50は、透明な物体及び/又はその他の光学的に困難な物体を検出するための入力としての、式(1)から得られる3つの入力画像、すなわち、強度画像(I)52、AOLP(φ)56、DOLP(ρ)54を含む。これらの画像は、偏光の生フレーム18(例えば、上記の画像I
0、I
45、I
90、及びI
135)から計算され、ある範囲内に収まるように(例えば、範囲[0-255]内の8ビット値に)正規化され、3チャネルのグレースケール画像に変換されて、MsCoCoデータセット上で事前に訓練されたネットワークに基づく転移学習を容易に実行できる(例えば、Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European Conference on Computer Vision, pages 740‐755. Springer, 2014を参照)。
【0111】
図9に示す実施形態では、入力導出フィーチャマップ50の各々は、別々のバックボーン、すなわち、強度BI(I)912、AOLPバックボーンB
φ(φ)914、及びDOLPバックボーンB
ρ(ρ)916に供給される。CNNバックボーン912、914、及び916は、各モードのテンソル、すなわち、「モードテンソル」(例えば、以下に詳述する、CNNバックボーンの訓練又は転移学習中に学習されたパラメータに基づいて計算されたフィーチャマップ)C
i,I、C
i,ρ、C
i,φ(スケール又は解像度iが異なる)を計算する。
図9は5つの異なるスケールiを有する実施例を示しているが、本開示の実施形態はこれに限定されず、異なる数のスケールを有するCNNバックボーンにも適用することができる。
【0112】
本開示の実施形態のいくつかの態様は、マルチモーダル融合(例えば、強度フィーチャマップI、AOLPフィーチャマップφ、及びDOLPフィーチャマップρなどの、異なるモード又は異なるタイプの入力フィーチャマップの各々から計算されたフィーチャマップの融合)を実行するための、空間認識アテンション融合機構に関する。
【0113】
例えば、
図9に示す実施例では、対応するバックボーンB
I、B
ρ、B
φ(各スケールiの)から計算されたモードテンソルC
i,I、C
i,ρ、C
i,φ(各モードのテンソル)が、対応するスケールの融合層922、923、924、925(集合的に融合層920)を用いて融合される。例えば、融合層922は、スケールi=2で計算されたモードテンソルC
2,I、C
2,ρ、C
2,φを融合して融合テンソルC
2を計算するように構成されている。同様に、融合層923は、スケールi=3で計算されたモードテンソルC
3,I、C
3,ρ、C
3,φを融合して融合テンソルC
3を計算するように構成され、同様の計算が、融合層924及び925によって実行され、各々のスケールに関するそれぞれのモードテンソルに基づいて、融合フィーチャマップC
4、C
5をそれぞれ計算できる。次いで、融合テンソルC
i(例えば、C
2、C
3、C
4、C
5)、又は融合フィーチャマップのような第2のテンソルが、融合層920によって計算され、融合テンソルから、セグメンテーションマップ20、分類、テキスト記述、又は同種のものなどの出力であり得る予測を計算するように構成された予測モジュール950への入力として供給される。
【0114】
図10は、本発明の一実施形態に係る偏光CNNと併用できる融合層920のうちi番目の融合層のブロック図である。
図10に示すように、本開示のいくつかの実施形態では、融合層(例えば、融合層920の各々)はアテンションモジュールを用いて実施され、当該アテンションモジュール内で、予測装置900は、i番目のスケールに関してCNNバックボーンによって計算された、供給された入力テンソル又は入力フィーチャマップC
i,I、C
i,ρ、C
i,φを連結して連結テンソル1010が生成され、連結テンソル1010は、i番目のスケールに関する、1組の訓練された畳み込み層又はアテンションサブネットワークΩ
iを介して処理される。アテンションサブネットワークΩ
iは、入力テンソルと同じ高さ及び幅を有する3チャネル画像を出力し、いくつかの実施形態では、softmax関数が3チャネル画像の各ピクセルに適用され、i番目のスケールに関するピクセル単位のアテンション重みαが以下のように計算される。
[α
i,φ‘α
i,ρ‘α
i,I]=softmax(Ω
i([C
i,φ‘C
i,ρ‘C
i,I]))
(11)
【0115】
これらのアテンション重みを用いて、チャネル当たりの加重平均1020が実行される。
Ci=αi,φCi,φ+αi,ρCi,ρ+αi,ICi,I (12)
【0116】
したがって、アテンションモジュールを使用することで、本開示のいくつかの実施形態に係る偏光CNNは、スケールiの異なる入力(例えば、スケールiにおける、強度Iテンソル又は学習済みフィーチャマップCi,I、DOLPテンソル又は学習済みフィーチャマップCi,ρ、及び、AOLPテンソル又は学習済みフィーチャマップCi,φ)を、シーンの所与の部分へのそれらの入力の関連度に基づいて重み付けし、この関連度は、偏光CNNバックボーンを訓練するために使用したラベリングされた訓練データに従って、訓練済みサブネットワークΩiによって決定される。
【0117】
図11は、偏光カメラによって捕捉された偏光の生フレームから抽出された異なるモードテンソル(異なる第1の表現空間内の)の、本発明の一実施形態に係るアテンションモジュールによって計算されたアテンション重みの例を示す図である。
図11に示すように(例えば、強度画像1152を参照)、偏光カメラによって撮像されたシーンは、プリントされた写真の上に配置された透明なコップを含み、プリントされた写真は、透明な飲用コップ(飲用コップの印刷されたスプーフ)及びいくつかの背景クラッタを示す。
【0118】
図11に示すように、学習済みアテンション重み1110は、実在の飲用コップの周囲の領域におけるDOLP1114及びAOLP1116上で最も明るく、強度画像1152における曖昧な印刷されたスプーフを回避する。したがって、予測モジュール950は、グラウンドトゥルース1130と厳密に一致するセグメンテーションマスク1120(例えば、予測1120は、シーン内の透明な物体の形状に厳密に一致する形状を示す)を計算することができる。
【0119】
図9に示す実施形態では、予測モジュール950は、マスクR-CNNアーキテクチャで使用される予測モジュールと実質的に同様であり、フィーチャピラミッドネットワーク(FPN)及び領域提案ネットワーク(RPN)を使用して融合フィーチャマップCを結合してセグメンテーションマップを計算し、入力画像内で検出された物体の各インスタンスについて、フィーチャピラミッドネットワーク(FPN)及び領域提案ネットワーク(RPN)を用いて、シーン内で検出された物体の各インスタンスのクラス、マスク、及びバウンディングボックス(Bbox)を計算するための出力サブネットワークへの入力として、融合フィーチャマップCを組み合わせることによってセグメンテーションマップを計算する。次いで、計算されたクラス、マスク、及びバウンディングボックスは非最大抑制にマージされ、インスタンスセグメンテーションマップ(又はインスタンスセグメンテーションマスク)20が計算される。
【0120】
上記のように、偏光CNNアーキテクチャは、例えば、MsCoCoデータセット及び逆伝播及び勾配降下のようなニューラルネットワーク訓練アルゴリズムを用いて訓練された既存の深層ニューラルネットワークに基づく転移学習を用いて訓練できる。詳細には、偏光CNNアーキテクチャは、偏光の生フレーム18からフィーチャ抽出装置800によって抽出された偏光CNNへの入力を表す追加訓練データに基づいてさらに訓練される(例えば、訓練用の導出フィーチャマップ50及び訓練用の導出フィーチャマップに関連付けられたグラウンドトゥルースラベルを計算するために訓練用の偏光の生フレームを用いて)。これらの追加訓練データは、例えば、偏光カメラによって捕捉された、様々な異なる環境内の透明な物体及び光学的に困難な物体を含む様々なシーンの偏光の生フレームと、偏光カメラによって捕捉された画像内に示される物体のインスタンス及びクラスを用いてピクセルにラベリングするグラウンドトゥルースセグメンテーションマップ(例えば、手動で生成されたセグメンテーションマップ)と、を含んでいてもよい。
【0121】
小規模の訓練データセットの場合、アフィン変換は、訓練データを増強して(例えば、既存の訓練データから追加訓練データを生成して)良好な一般化性能を達成するための技法を提供する。ただし、AOLPφ画像などのソース訓練導出フィーチャマップのいくつかにアフィン変換を単純に適用することは、訓練済みニューラルネットワークの性能に有意な改善を提供せず、いくつかの例では、性能を低下させる。これは、AOLPがカメラ座標フレームに対する電磁波の方向を表す0°~360°(又は0~2Π)の範囲内の角度であるからである。回転演算子がソース訓練画像(又はソース訓練導出フィーチャマップ)に適用された場合、これは、カメラをそのZ軸周りに(例えば、レンズ12の光軸に沿って)回転させることと等価である。次いで、この回転は、カメラのX-Y平面の向きを変更し、したがって、電磁波の相対的な方向(例えば、直線偏光角)を変化させる。この変化を計算に入れるために、回転角による回転アフィン変換を実行してデータを増強するする場合には、AOLPのピクセル値が、同じ角度分、反対方向に回転する(又は、逆回転し、若しくは生成された追加データに逆回転が加えられる)。この同じ原理がまた、訓練用フィーチャマップ又は訓練用の第1のテンソルの別のアフィン変換に適用され、訓練用フィーチャマップ又は訓練用の第1のテンソルに適用される具体的なトランスフォーメーションは、訓練用フィーチャマップが表現するものの基礎となる物理特性に応じて異なる場合がある。例えば、DOLP画像は回転変換の影響を受けない可能性があるが、平行移動変換の場合には、光と透明な物体又はその他の光学的に困難な物体(例えば、半透明な物体、非ランバート物体、マルチパス誘導物体、及び非反射物体)と、の相互作用の、基礎となる物理的な挙動が原因で、DOLPに相応の変更を要することになる。
【0122】
さらに、本開示のいくつかの実施形態は、CNN及び深層意味セグメンテーションの使用に関するが、本開示の実施形態は、これに限定されない。本開示のいくつかの実施形態では、導出フィーチャマップ50が、シーンの自然言語記述を生成するように訓練された他のタイプの分類アルゴリズム(例えば、検出された物体の位置を特定せずに画像を分類する)、他のタイプの意味セグメンテーションアルゴリズム、又は画像記述アルゴリズムへの入力として供給される(他のフィーチャマップを有するいくつかの実施形態で)。そのようなアルゴリズムの例は、サポートベクトルマシン(SVM)、マルコフ確率場、確率的グラフィカルモデルなどを含む。本開示のいくつかの実施形態では、導出フィーチャマップは、フィーチャ検出装置などの古典的なマシンビジョンアルゴリズム(例えば、スケール不変フィーチャ変換(SIFT)、高速ロバストフィーチャ(SURF)、勾配位置及び配向ヒストグラム(GLOH)、配向勾配のヒストグラム(HOG)、基底係数、Haarウェーブレット係数など)への入力として供給され、シーン内の検出された透明な物体及び/又はその他の光学的に困難な物体のコンピュータビジョンフィーチャが出力される。
【0123】
図12A、12B、12C及び12Dは、比較画像セグメンテーションシステムによって計算されたセグメンテーションマップ、本開示の一実施形態に係る偏光畳み込みニューラルネットワークによって計算されたセグメンテーションマップ、及びグラウンドトゥルースセグメンテーションマップ(例えば、手動生成セグメンテーションマップ)を示す図である。
図12A、12B、12C及び12Dは、本開示の一実施形態に係る訓練済み偏光マスクR-CNNモデルの性能を比較マスクR-CNNモデル(本明細書では、偏光画像ではなく強度画像上で動作することを示すために「強度」マスクR-CNNモデルと呼ぶ)と比較する4つの異なる試験セット上で実行される実験の例を示す。
【0124】
実験を実行するために使用される偏光マスクR-CNNモデルは、6つの可能なクラスの透明な物体、すなわち、プラスチック製コップ、プラスチック製トレイ、コップ、飾り、及びその他の6つの可能なクラスとは異なる15個の環境における透明な物体の20,000個を超えるインスタンスを有する1,000個の画像を含む訓練セット上で訓練されたものである。入力画像のアフィン変換及び画像の回転に基づくAOLPの調整に関して上述したデータ増強技法は、訓練に先立って訓練セットに適用される。
【0125】
4つの試験セットは、以下を含む。
【0126】
(a)クラッタ試験セットは、プリントアウトなしの訓練セットと同様の環境内のクラッタされた透明な物体の200個の画像を含む。
【0127】
(b)新しい環境(Env)試験セットは、訓練セットでは利用できない環境を有する画像当たり約6個の物体から撮影された50個の画像を含む。背景は、強烈な照明、テクスチャ加工された布、光沢のある金属などを含む。
【0128】
(c)印刷されたスプーフ(POS)試験セットは、それぞれ1~6個の印刷された物体と1~2個の実在の物体と、を含む50個の画像を含む。
【0129】
(d)ロボットビンピッキング(RBP)試験セットは、飾り(例えば、ツリーに吊るすのに好適な装飾用ガラス飾り)をピックアップする、本発明によるロボットアームのライブデモから撮影された300個の画像を含む。このセットは、現実世界の用途におけるインスタンスセグメンテーション性能を試験するために使用される。
【0130】
各データセットについて、IoU(Intersection over Union)が0.5~0.7の範囲内にある平均適合率(mAP)(mAP.5:.7)及びIoUが0.75~0.9の範囲内にある平均適合率(mAP)(mAP.75:.9)という2つのメトリックを用いて正確度を測定した。これらの2つのメトリックは、それぞれ、粗いセグメンテーションときめ細かいセグメンテーションと、の測定尺度である。一般化をさらに試験するために、全てのモデルについて、マスクR-CNNの高速R-CNN構成要素を使用して、物体検出試験を行った。
【0131】
本開示の実施形態に係る偏光マスクR-CNN及び強度マスクR-CNNが、上述した4つの試験セット上で試験された。平均改善度は、粗いセグメンテーションではmAPが14.3%、きめ細かいセグメンテーションではmAPが17.2%である。クラッタ問題における性能改善度は、性能のギャップが約1.1%のmAPから4.5%のmAPまで変化するきめ細かいセグメンテーションを行う場合により可視的である。したがって、偏光データは、モデルがより正確に物体をセグメント化できるようにする有用なエッジ情報を提供するように見える。
図12Aに示すように、偏光は、強度画像において曖昧であるクラッタを正確にセグメント化する手助けになる。その結果、
図12Aに示すクラッタ試験セットから得た例では、本開示の一実施形態に係る偏光マスクR-CNNは、透明な物体の6つのインスタンスの全てを正確に検出し、グラウンドトゥルースに一致する一方で、比較強度マスクR-CNNは、透明な物体の6つのインスタンスのうちの4つしか識別しない。
【0132】
新しい環境への一般化を行う場合、きめ細かいセグメンテーションと粗いセグメンテーションと、の両方ではるかに大きな利得があり、したがって、透明な物体の固有のテクスチャは、偏光された画像内でCNN側からより可視的であるように見える。
図12Bに示すように、強度マスクR-CNNは、新しい環境への適応に完全に失敗した一方で、偏光マスクR-CNNモデルはこれに成功した。偏光マスクR-CNNは、透明な物体の全てのインスタンスを正確に検出することができるが、インスタンスマスクR-CNNは、いくつかのインスタンスを検出することができない(例えば、ボックスの右上隅のインスタンスを参照)。
【0133】
本開示の実施形態はまた、印刷されたスプーフ対するロバスト性の同様に大幅な改善を示し、ほぼ90%のmAPを達成している。したがって、本開示の実施形態は、印刷さえたスプーフなどの透視投影問題に対してロバストな単眼の解決策を提供する。
図12Cに示すように、強度マスクR-CNNは、印刷された紙スプーフによって騙されている。
図12Cに示す例では、1つの実在の透明なボールが、3つのスプーフの透明な物体を示すプリントアウト上に置かれている。強度マスクR-CNNは、インスタンスとして印刷されたスプーフのうち2つを不正確に識別する。一方、偏光マスクR-CNNはロバストであり、1つの実在の透明なボールのみを1つのインスタンスとして検出する。
【0134】
これらの結果の全ては、ロボットビンピッキング(RBP)などの非制御のクラッタされた環境について示される性能の劇的な改善を説明する手助けになる。
図12Dに示すように、低照度条件下での飾りのロボットピッキングの場合、強度マスクR-CNNモデルは、透明な物体の11個のインスタンスのうち5つしか検出できない。一方、偏光R-CNNモデルは、わずかな照明でこの環境に適応し、11個のインスタンスの全てを正確に識別することができる。
【0135】
詳細には、また産業環境における潜在的な用途の一例として、コンピュータビジョンシステムは、ロボットアームのコントローラにセグメンテーションマスクを供給することによって、ロボットアームを制御してビンピッキングを実行させるように構成されたものである。透明な物体及び半透明な(非ランバート)物体のビンピッキングは、ロボット工学における困難で未解決の問題である。高品質でロバストなセグメンテーションの利点を示すために、ロボットアームを制御して異なるサイズのクラッタされた透明な飾りをビンピッキングさせるためのセグメンテーションマップを提供する際の比較強度マスクR-CNNの性能が、本開示の一実施形態に係る偏光マスクR-CNNの性能と比較される。
【0136】
ビンピッキングの解決策は、3つのコンポーネント、すなわち、各々の物体を分離するためのセグメンテーションコンポーネントと、深度推定コンポーネントと、ポーズ推定コンポーネントと、を含む。セグメンテーションの効果を理解するために、ロボットアームがセグメンテーションの中心に移動し、面に当たったときに停止する簡単な深さ推定及びポーズが使用される。この仕組みが本例で有効なのは物体が完全な球体であるからである。セグメンテーションが少しでも正確さに欠ければ、推定が不正確になることがあり、誤った拾い上げにつながりかねない。この適用例は、偏光マスクR-CNNと強度マスクR-CNNと、の比較を可能にする。システムは、訓練セット外の5つの環境で(例えば、訓練画像が取得された環境とは異なる条件下で)試験された。各々の環境で、15個のボールが積み重ねられ、15個のボールを拾い上げる際にロボットアームが行った(吸引カップグリッパを使用して)正確な/不正確な(失敗した)拾い上げの数が、15個の不正確な拾い上げを上限としてカウントされた。強度マスクR-CNNベースのモデルは、ロボットアームが低いセグメンテーション品質のために一定回数の拾い上げに一貫して失敗するので、ビンを定期的に空にすることができなかった。一方、本開示の一実施形態に係る偏光マスクR-CNNモデルは、6回の正しい拾い上げ毎に約1回の不正確な拾い上げにとどめて、90個のボール全てを成功裏に拾い上げた。上記の結果は、約20mAPの改善効果の妥当性を確認するものである。
【0137】
上記のように、本開示の実施形態は、透明な物体及び不透明な物体の両方を検出することができるコンピュータビジョン又はマシンビジョンシステムの構成要素として使用することができる。
【0138】
本開示のいくつかの実施形態では、同一の予測装置又は統計モデル900は、透明な物体及び不透明な物体の両方のラベリングされた例を含む訓練データに基づいて、透明な物体及び不透明な物体の両方を検出する(又は第2の表現空間内の第2のテンソルCを生成する)ように訓練される。例えば、いくつかの実施形態では、
図9に示す偏光マスクR-CNNアーキテクチャなどの偏光CNNアーキテクチャが使用される。いくつかの実施形態では、
図9に示す偏光マスクR-CNNアーキテクチャは、1つ又は複数の追加のモードテンソルを計算する1つ又は複数の追加のCNNバックボーンを追加することによってさらに修正される。追加のCNNバックボーンは、追加の第1のテンソルに基づいて訓練されてもよい。いくつかの実施形態では、これらの追加の第1のテンソルは、色強度画像(例えば、赤色強度画像又はカラーチャネル、緑色強度画像又はカラーチャネル、及び青色強度画像又はカラーチャネルなどの異なる波長における光の強度)に基づいて計算された画像マップを含む。いくつかの実施形態では、これらの追加の第1のテンソルは、色強度画像の組み合わせに基づいて計算された画像マップを含む。いくつかの実施形態では、融合モジュール920は、CNNバックボーン(例えば、追加のCNNバックボーンを含む)の各々から得た各スケールの全てのモードテンソルを融合する。
【0139】
本開示のいくつかの実施形態では、予測装置900は、透明な物体とは対照的に、不透明な物体を検出するための1つ又は複数の別個の統計モデルを含む。例えば、予測装置のアンサンブル(例えば、透明な物体のための第1のセグメンテーションマスクを計算するように訓練された第1の予測装置と、不透明な物体のための第2のセグメンテーションマスクを計算するように訓練された第2の予測装置)は、複数の予測を計算することができ、別個の予測がマージされる(例えば、第1のセグメンテーションマスクは、セグメンテーションマスクの各ピクセルに関連付けられた信頼性スコアなどに基づいて、第2のセグメンテーションマスクとマージされる)。
【0140】
上記の背景技術の項に記載したように、透明な物体をロバストに検出するマシンビジョン又はコンピュータビジョンシステムは、製造、生命科学、自動運転車両を含む様々な状況における用途を有する。
【0141】
したがって、本開示の実施形態の態様は、マシンビジョン又はコンピュータビジョンシステムが、偏光ドメインから抽出されたフィーチャを使用することによって、コンピュータビジョンを用いて透明な物体のインスタンスを検出するためのシステム及び方法に関する。透明な物体は、強度ドメインよりも偏光ドメインにおいてより顕著なテクスチャを有する。偏光テクスチャ内のこのテクスチャは、本開示の実施形態に係るフィーチャ抽出装置及び偏光CNNモデルを用いて活用することができる。本開示の実施形態による透明な物体の検出性能の改善の例は、マスクR-CNNを用いたインスタンスセグメンテーションとの比較(例えば、偏光データを使用せずに強度画像を使用するマスクR-CNNとの比較)によって実証される。したがって、本開示の実施形態
【0142】
以上、特定の好ましい実施形態に関連して本発明を説明してきたが、本発明は、開示された実施形態に限定されず、逆に、添付の特許請求の範囲の主旨及び範囲内に含まれる様々な変更及び同等の構成、並びにそれらの同等物をカバーすることを意図していることを理解されたい。
【手続補正書】
【提出日】2022-07-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
異なる直線偏光角において偏光フィルタで捕捉された、シーンの1つ又は複数の偏光の生フレームを受信することと、
前記偏光の生フレームから1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルを抽出することと、
前記1つ又は複数の偏光表現空間内の前記1つ又は複数の第1のテンソルに基づいて、前記シーン内の1つ又は複数の光学的に困難な物体に関する予測を計算することと、を含
み、
前記1つ又は複数の偏光表現空間内の前記1つ又は複数の第1のテンソルが、
直線偏光度(DOLP)表現空間内のDOLP画像と、
直線偏光角(AOLP)表現空間内のAOLP画像と、を備え、
前記予測を前記計算することが、前記AOLP表現空間内の前記AOLP画像を含む前記1つ又は複数の偏光表現空間内の前記1つ又は複数の第1のテンソルを統計モデルに供給することを含む、シーンの画像の予測を計算するためのコンピュータ実施方法。
【請求項2】
前記1つ又は複数の前記第1のテンソルが、1つ又は複数の非偏光表現空間内の1つ又は複数の非偏光テンソルをさらに備え、
前記1つ又は複数の非偏光テンソルが、強度表現空間内の1つ又は複数の強度画像を備える、請求項1に記載のコンピュータ実施方法。
【請求項3】
前記1つ又は複数の強度画像が、
第1の色強度画像と、
第2の色強度画像と、
第3の色強度画像と、を備える、請求項
2に記載のコンピュータ実施方法。
【請求項4】
前記予測がセグメンテーションマスクを備える、請求項
1に記載のコンピュータ実施方法。
【請求項5】
前記予測を前記計算することが、前記1つ又は複数の第1のテンソルを1つ又は複数の対応する畳み込みニューラルネットワーク(CNN)バックボーンに供給することを含み、
前記1つ又は複数のCNNバックボーンの各々が、複数の異なるスケールで複数のモードテンソルを計算するように構成された、請求項
1に記載のコンピュータ実施方法。
【請求項6】
前記予測を前記計算することが、
前記1つ又は複数のCNNバックボーンによって同じスケールで計算された前記モードテンソルを融合することをさらに含む、請求項
5に記載のコンピュータ実施方法。
【請求項7】
前記同じスケールで前記モードテンソルを前記融合することが、
前記同じスケールで前記モードテンソルを連結することと、
前記モードテンソルをアテンションサブネットワークに供給して、1つ又は複数のアテンションマップを計算することと、
前記1つ又は複数のアテンションマップに基づいて前記モードテンソルを重み付けして、前記スケールの融合テンソルを計算することと、を含む、請求項
6に記載のコンピュータ実施方法。
【請求項8】
前記予測を前記計算することが、各スケールで計算された前記融合テンソルを、セグメンテーションマスクを計算するように構成された予測モジュールに供給することをさらに含む、請求項
7に記載のコンピュータ実施方法。
【請求項9】
前記セグメンテーションマスクが、ロボットピッキングアームのコントローラに供給される、請求項
4に記載のコンピュータ実施方法。
【請求項10】
前記予測が、前記1つ又は複数の光学的に困難な物体に基づく、前記1つ又は複数の偏光の生フレームの分類を含む、請求項
1に記載のコンピュータ実施方法。
【請求項11】
前記予測が、前記1つ又は複数の偏光の生フレームに示された前記1つ又は複数の光学的に困難な物体の1つ又は複数の検出されたフィーチャを備える、請求項
1に記載のコンピュータ実施方法。
【請求項12】
前記統計モデルが、前記1つ又は複数の偏光表現空間内の訓練用の第1のテンソルと、ラベルと、を備える訓練データを用いて訓練される、請求項1に記載のコンピュータ実施方法。
【請求項13】
前記訓練データが、
偏光カメラによって捕捉されたデータから計算された、前記1つ又は複数の偏光表現空間内のソース訓練用の第1のテンソルと、
回転を含むアフィン変換を介して前記ソース訓練用の第1のテンソルから生成された追加訓練用の第1のテンソルと、を備える、請求項
12に記載のコンピュータ実施方法。
【請求項14】
追加訓練用の第1のテンソルが直線偏光角(AOLP)画像を備える場合、
前記追加訓練用の第1のテンソルを生成することが、
前記追加訓練用の第1のテンソルをある角度分回転させることと、
前記AOLP画像のピクセル値を前記角度分逆回転させることと、を含む、請求項
13に記載のコンピュータ実施方法。
【請求項15】
偏光フィルタを備える偏光カメラと、プロセッサ及びメモリを備える処理システムと、を備えるコンピュータビジョンシステムであって、前記メモリが、
前記プロセッサによって実行されると、前記プロセッサに対して、
異なる直線偏光角において偏光フィルタで捕捉された、シーンの1つ又は複数の偏光の生フレームを受信し、
前記偏光の生フレームから1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルを抽出し、
前記1つ又は複数の偏光表現空間内の前記1つ又は複数の第1のテンソルに基づいて、前記シーン内の1つ又は複数の光学的に困難な物体に関する予測を計算するように仕向ける命令を記憶
し、
前記1つ又は複数の偏光表現空間内の前記1つ又は複数の第1のテンソルが、
直線偏光度(DOLP)表現空間内のDOLP画像と、
直線偏光角(AOLP)表現空間内のAOLP画像と、を備え、
前記予測を計算する前記命令が、前記プロセッサによって実行されると、前記プロセッサに対して、前記AOLP表現空間内の前記AOLP画像を含む前記1つ又は複数の第1のテンソルを統計モデルに供給するように仕向ける命令を備える、
コンピュータビジョンシステム。
【請求項16】
前記1つ又は複数の前記第1のテンソルが、1つ又は複数の非偏光表現空間内の1つ又は複数の非偏光テンソルをさらに備え、
前記1つ又は複数の非偏光テンソルが、強度表現空間内の1つ又は複数の強度画像を備える、請求項
15に記載のコンピュータビジョンシステム。
【請求項17】
前記1つ又は複数の強度画像が、
第1の色強度画像と、
第2の色強度画像と、
第3の色強度画像と、を備える、請求項
16に記載のコンピュータビジョンシステム。
【請求項18】
前記予測がセグメンテーションマスクを備える、請求項
15に記載のコンピュータビジョンシステム。
【請求項19】
前記メモリが、前記プロセッサによって実行されると、前記プロセッサに対して、前記1つ又は複数の第1のテンソルを、1つ又は複数の対応する畳み込みニューラルネットワーク(CNN)バックボーンに供給することによって予測を計算するように仕向ける命令をさらに記憶し、
前記1つ又は複数のCNNバックボーンの各々が、複数の異なるスケールで複数のモードテンソルを計算するように構成された、請求項
18に記載のコンピュータビジョンシステム。
【請求項20】
前記メモリが、前記プロセッサによって実行されると、前記プロセッサに対して、前記1つ又は複数のCNNバックボーンによって同じスケールで計算された前記モードテンソルを融合するように仕向ける命令をさらに記憶する、請求項
19に記載のコンピュータビジョンシステム。
【請求項21】
前記セグメンテーションマスクが、ロボットピッキングアームのコントローラに供給される、請求項
18に記載のコンピュータビジョンシステム。
【請求項22】
前記予測が、1つ又は複数の光学的に困難な物体に基づく、1つ又は複数の偏光の生フレームの分類を含む、請求項
15に記載のコンピュータビジョンシステム。
【請求項23】
前記予測が、前記1つ又は複数の偏光の生フレームに示された前記1つ又は複数の光学的に困難な物体の1つ又は複数の検出されたフィーチャを備える、請求項
15に記載のコンピュータビジョンシステム。
【請求項24】
前記統計モデルが、前記1つ又は複数の偏光表現空間内の訓練用の第1のテンソルと、ラベルと、を含む訓練データを用いて訓練される、請求項
15に記載のコンピュータビジョンシステム。
【請求項25】
前記訓練データが、
偏光カメラによって捕捉されたデータから計算されたソース訓練用の第1のテンソルと、
回転を含むアフィン変換を介して前記ソース訓練用の第1のテンソルから生成された追加訓練用の第1のテンソルと、を備える、請求項
24に記載のコンピュータビジョンシステム。
【請求項26】
前記追加訓練用の第1のテンソルが直線偏光角(AOLP)画像を備える場合、
前記追加訓練用の第1のテンソルを生成することが、
前記追加訓練用の第1のテンソルをある角度分回転させることと、
前記AOLP画像のピクセル値を前記角度分逆回転させることと、を含む、請求項
25に記載のコンピュータビジョンシステム。
【請求項27】
偏光フィルタを備える偏光カメラと、プロセッサ及びメモリを備える処理システムと、を備えるコンピュータビジョンシステムであって、前記メモリが、前記プロセッサによって実行されると、前記プロセッサに対して、
異なる直線偏光角において偏光フィルタで捕捉された、シーンの1つ又は複数の偏光の生フレームを受信し、
前記偏光の生フレームから1つ又は複数の偏光表現空間内の1つ又は複数の第1のテンソルを抽出し、
前記1つ又は複数の偏光表現空間内の前記1つ又は複数の第1のテンソルに基づいて、前記シーン内の1つ又は複数の光学的に困難な物体に関する予測を計算するように仕向ける命令を記憶し、
前記予測がセグメンテーションマスクを備え、
前記メモリが、前記プロセッサによって実行されると、前記プロセッサに対して、
前記1つ又は複数の第1のテンソルを、1つ又は複数の対応する畳み込みニューラルネットワーク(CNN)バックボーンに供給することによって予測を計算するように仕向ける命令をさらに記憶し、
前記1つ又は複数のCNNバックボーンの各々が、複数の異なるスケールで複数のモードテンソルを計算するように構成され、
前記メモリが、前記プロセッサによって実行されると、前記プロセッサに対して、
前記1つ又は複数のCNNバックボーンによって同じスケールで計算された前記モードテンソルを融合するように仕向ける命令であって、
前記同じスケールで前記モードテンソルを連結し、
前記モードテンソルをアテンションサブネットワークに供給して1つ又は複数のアテンションマップを計算し、
前記1つ又は複数のアテンションマップに基づいて前記モードテンソルの重み付けをし、前記スケールの融合テンソルを計算するように仕向ける命令をさらに記憶する、コンピュータビジョンシステム。
【請求項28】
前記プロセッサに前記予測を計算するように仕向ける前記命令が、前記プロセッサによって実行されると、前記プロセッサに対して、
各スケールで計算された前記融合テンソルを、前記セグメンテーションマスクを計算するように構成された予測モジュールに供給するように仕向ける命令をさらに備える、請求項27に記載のコンピュータビジョンシステム。
【国際調査報告】