(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023131087
(43)【公開日】2023-09-21
(54)【発明の名称】階層的オクルージョン推論モジュール並びにこれを用いた不可視物体インスタンスセグメンテーションのシステム及び方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20230913BHJP
G06T 7/11 20170101ALI20230913BHJP
G06N 20/00 20190101ALI20230913BHJP
G06N 3/02 20060101ALN20230913BHJP
【FI】
G06T7/00 350C
G06T7/11
G06N20/00
G06N3/02
【審査請求】有
【請求項の数】39
【出願形態】OL
(21)【出願番号】P 2022149728
(22)【出願日】2022-09-21
(31)【優先権主張番号】10-2022-0029692
(32)【優先日】2022-03-08
(33)【優先権主張国・地域又は機関】KR
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 1. Unseen Object Amodal Instance Segmentation via Hierarchical Occlusion Modeling 掲載日 :2021年9月23日 掲載アドレス:https://arxiv.org
(71)【出願人】
【識別番号】507373508
【氏名又は名称】クヮンジュ・インスティテュート・オブ・サイエンス・アンド・テクノロジー
(74)【代理人】
【識別番号】100179969
【弁理士】
【氏名又は名称】駒井 慎二
(72)【発明者】
【氏名】ペク・スンヒョク
(72)【発明者】
【氏名】イ・ギュビン
(72)【発明者】
【氏名】イ・ジュスン
(72)【発明者】
【氏名】キム・テウォン
(72)【発明者】
【氏名】カン・レヨン
(72)【発明者】
【氏名】ノ・サンジュン
(72)【発明者】
【氏名】パク・ソンホ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA02
5L096FA18
5L096GA10
5L096HA11
(57)【要約】 (修正有)
【課題】階層的オクルージョン推論モジュール及びこれを用いた不可視物体インスタンスセグメンテーションのシステム及び方法を提供する。
【解決手段】オクルージョン推論方法は、物体インスタンスを含む雑然としたシーン画像の関心領域色-深さFPN特徴及び物体関心領域特徴を受信して、物体インスタンスのバウンディングボックス特徴を導出するステップと、それらの特徴を融合してさらに可視特徴を導出するステップと、それらの特徴を融合してさらに物体インスタンスのアモーダル特徴を導出するステップと、それらの特徴を融合してさらに物体インスタンスのオクルージョン特徴を導出するステップと、物体インスタンスのオクルージョン特徴を逆畳み込みして、物体インスタンスのオクルージョンの有無を推論するステップと、を含む。
【選択図】
図9
【特許請求の範囲】
【請求項1】
コンピュータシステムの少なくとも一つのプロセッサによって行われる階層的オクルージョン推論方法であって、
上記コンピュータシステムが、少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得するステップ;
上記コンピュータシステムが、上記画像特徴及び物体関心領域特徴から、上記物体インスタンスの可視特徴を導出するステップ;
上記コンピュータシステムが、上記物体関心領域特徴及び上記可視特徴を融合して、上記物体インスタンスのオクルージョン包含領域特徴を導出するステップ;及び、
上記コンピュータシステムが、上記オクルージョン包含領域特徴から、上記物体インスタンスのオクルージョン包含領域マスクを導出するステップ;
を含む、階層的オクルージョン推論方法。
【請求項2】
上記コンピュータシステムが、上記物体関心領域特徴及び上記可視特徴を融合して、上記物体インスタンスのオクルージョン包含領域特徴を導出するステップは、
上記コンピュータシステムが、上記物体関心領域特徴及び上記可視特徴を、畳み込み層を含む階層的融合モジュール又は全結合層で融合するステップ;
を含む、請求項1に記載の階層的オクルージョン推論方法。
【請求項3】
上記コンピュータシステムが、上記オクルージョン包含領域特徴から、上記物体インスタンスのオクルージョン包含領域マスクを導出するステップは、
上記コンピュータシステムが、上記物体インスタンスの上記オクルージョン包含領域を逆畳み込み、又は全結合層で演算して、上記物体インスタンスのオクルージョン包含領域マスクを抽出するステップ;
を含む、請求項1に記載の階層的オクルージョン推論方法。
【請求項4】
コンピュータシステムの少なくとも1つのプロセッサによって行われる階層的オクルージョン推論方法であって、
上記コンピュータシステムが、少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得するステップ;
上記コンピュータシステムが、上記画像特徴及び物体関心領域特徴から、上記物体インスタンスの可視特徴、オクルージョン包含領域特徴を導出するステップ;
上記コンピュータシステムが、上記物体関心領域特徴、上記可視特徴、及び上記オクルージョン包含領域特徴を融合して、上記物体インスタンスのオクルージョン特徴を導出するステップ;及び、
上記コンピュータシステムが、上記物体インスタンスのオクルージョン特徴から、上記物体インスタンスのオクルージョンの有無を推論するステップ;
を含む、階層的オクルージョン推論方法。
【請求項5】
上記コンピュータシステムが、上記物体関心領域特徴、上記可視特徴、及び上記オクルージョン包含領域特徴を融合して、上記物体インスタンスのオクルージョン特徴を導出するステップは、
上記コンピュータシステムが、上記物体関心領域特徴、上記可視特徴、及び上記オクルージョン包含領域特徴を、畳み込み層を含む階層的融合モジュール又は全結合層で融合するステップ;
を含む、請求項4に記載の階層的オクルージョン推論方法。
【請求項6】
上記コンピュータシステムが、上記物体インスタンスのオクルージョン特徴から、上記物体インスタンスのオクルージョンの有無を推論するステップは、
上記コンピュータシステムが、上記物体インスタンスの上記オクルージョン特徴を逆畳み込み、又は全結合層で演算して、上記物体インスタンスのオクルージョンの有無を推論するステップ;
を含む、請求項4に記載の階層的オクルージョン推論方法。
【請求項7】
上記画像特徴は、色特徴、深さ特徴、及び色-深さ融合特徴のうちの少なくとも1つを含む、請求項1又は4に記載の階層的オクルージョン推論方法。
【請求項8】
上記オクルージョン包含領域特徴は、アモーダル特徴及び不可視特徴のうちの少なくとも1つを含む、請求項1又は4に記載の階層的オクルージョン推論方法。
【請求項9】
上記コンピュータシステムが、少なくとも1つの物体インスタンスを含む雑然としたシーン画像から導出された関心領域色-深さFPN特徴及び上記物体関心領域特徴を受信して、上記物体インスタンスのバウンディングボックス特徴を導出するステップ;及び、
上記コンピュータシステムが、上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記物体インスタンスの可視特徴を導出するステップ;
をさらに含む、請求項1又は4に記載の階層的オクルージョン推論方法。
【請求項10】
上記コンピュータシステムが、上記物体インスタンスのバウンディングボックス特徴に基づいて、上記物体インスタンスのクラス及びバウンディングボックスを抽出するステップ;
をさらに含む、請求項9に記載の階層的オクルージョン推論方法。
【請求項11】
上記コンピュータシステムが、上記物体インスタンスのバウンディングボックス特徴に基づいて、上記物体インスタンスのクラス及びバウンディングボックスを抽出するステップは、
上記コンピュータシステムが、上記バウンディングボックス特徴を全結合層に供給して、上記クラス及びバウンディングボックスを抽出するステップ;
を含む、請求項10に記載の階層的オクルージョン推論方法。
【請求項12】
上記コンピュータシステムが、上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記物体インスタンスの可視特徴を導出するステップは、
上記コンピュータシステムが、上記物体関心領域特徴及び上記バウンディングボックス特徴を、畳み込み層を含む階層的融合モジュール又は全結合層で融合するステップ;
を含む、請求項9に記載の階層的オクルージョン推論方法。
【請求項13】
上記コンピュータシステムが、上記物体インスタンスの可視特徴から、上記物体インスタンスの可視マスクを抽出するステップ;
をさらに含む、請求項9に記載の階層的オクルージョン推論方法。
【請求項14】
上記コンピュータシステムが、上記物体インスタンスの可視特徴から、上記物体インスタンスの可視マスクを抽出するステップは、
上記コンピュータシステムが、上記物体インスタンスの可視特徴を逆畳み込み、又は全結合層で演算して、上記物体インスタンスの可視マスクを抽出するステップ;
を含む、請求項13に記載の階層的オクルージョン推論方法。
【請求項15】
プロセッサ;及び、
上記プロセッサによって階層的オクルージョン推論モジュールを実行するコマンドを含むコンピュータ読み取り可能な媒体;を含み、
上記階層的オクルージョン推論モジュールは、
少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得する手段;
上記画像特徴及び物体関心領域特徴から、上記物体インスタンスの可視特徴を導出する手段;
上記物体関心領域特徴及び上記可視特徴を融合して、上記物体インスタンスのオクルージョン包含領域特徴を導出する手段;及び、
上記オクルージョン包含領域特徴から、上記物体インスタンスのオクルージョン包含領域マスクを導出する手段;
を含む、システム。
【請求項16】
上記物体関心領域特徴及び上記可視特徴を融合して、上記物体インスタンスのオクルージョン包含領域特徴を導出する手段は、
上記物体関心領域特徴及び上記可視特徴が、畳み込み層を含む階層的融合モジュール又は全結合層で融合される手段;
を含む、請求項15に記載のシステム。
【請求項17】
上記オクルージョン包含領域特徴から、上記物体インスタンスのオクルージョン包含領域マスクを導出するステップは、
上記物体インスタンスの上記オクルージョン包含領域特徴を逆畳み込み、又は全結合層で演算して、上記物体インスタンスのオクルージョン包含領域マスクを抽出する手段;
を含む、請求項15に記載のシステム。
【請求項18】
プロセッサ;及び、
上記プロセッサによって階層的オクルージョン推論モジュールを実行するコマンドを含むコンピュータ読み取り可能な媒体;を含み、
上記階層的オクルージョン推論モジュールは、
少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得する手段;
上記画像特徴及び物体関心領域特徴から、上記物体インスタンスの可視特徴及びオクルージョン包含領域特徴を導出する手段;
上記物体関心領域特徴、上記可視特徴、及び上記オクルージョン包含領域特徴を融合して、上記物体インスタンスのオクルージョン特徴を導出する手段;及び、
上記物体インスタンスのオクルージョン特徴から、上記物体インスタンスのオクルージョンの有無を推論する手段;
を含む、システム。
【請求項19】
上記物体関心領域特徴、上記可視特徴、及び上記オクルージョン包含領域特徴を融合して、上記物体インスタンスのオクルージョン特徴を導出する手段は、
上記物体関心領域特徴、上記可視特徴、及び上記オクルージョン包含領域特徴が、畳み込み層を含む階層的融合モジュール又は全結合層で融合される手段;
を含む、請求項18に記載のシステム。
【請求項20】
上記物体インスタンスのオクルージョン特徴から、上記物体インスタンスのオクルージョンの有無を推論する手段は、
上記物体インスタンスの上記オクルージョン特徴を逆畳み込み、又は全結合層で演算して、上記物体インスタンスのオクルージョンの有無を推論する手段;
を含む、請求項18に記載のシステム。
【請求項21】
上記画像特徴は、色特徴、深さ特徴、及び色-深さ融合特徴のうちの少なくとも1つを含む、請求項15又は19に記載のシステム。
【請求項22】
上記オクルージョン包含領域特徴は、アモーダル特徴及び不可視特徴のうちの少なくとも1つを含む、請求項15又は19に記載のシステム。
【請求項23】
少なくとも1つの物体インスタンスを含む雑然としたシーン画像から導出された関心領域色-深さFPN特徴及び上記物体関心領域特徴を受信して、上記物体インスタンスのバウンディングボックス特徴を導出する手段;及び、
上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記物体インスタンスの可視特徴を導出する手段;
をさらに含む、請求項15又は請求項19に記載のシステム。
【請求項24】
上記物体インスタンスのバウンディングボックス特徴に基づいて、上記物体インスタンスのクラス及びバウンディングボックスを抽出する手段;
をさらに含む、請求項23に記載のシステム。
【請求項25】
上記物体インスタンスのバウンディングボックス特徴に基づいて、上記物体インスタンスのクラス及びバウンディングボックスを抽出する手段は、
上記バウンディングボックス特徴を全結合層に供給して、上記クラス及びバウンディングボックスを抽出する手段;
を含む、請求項24にシステム。
【請求項26】
上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記物体インスタンスの可視特徴を導出する手段は、
上記物体関心領域特徴及び上記バウンディングボックス特徴が、畳み込み層を含む階層的融合モジュール又は全結合層で融合される手段;
を含む、請求項23に記載のシステム。
【請求項27】
上記物体インスタンスの可視特徴から、上記物体インスタンスの可視マスクを抽出する手段;
をさらに含む、請求項23に記載のシステム。
【請求項28】
上記物体インスタンスの可視特徴から、上記物体インスタンスの可視マスクを抽出する手段は、
上記物体インスタンスの上記可視特徴を逆畳み込み、又は全結合層で演算して、上記物体インスタンスの可視マスクを抽出する手段;
を含む、請求項27に記載のシステム。
【請求項29】
コンピュータシステムの少なくとも1つのプロセッサによって行われる不可視物体インスタンスアモーダルセグメンテーション方法であって、
上記コンピュータシステムが、少なくとも1つの不可視物体インスタンスを含む雑然としたシーン画像を受信し、色特徴及び深さ特徴をそれぞれ導出し、融合して、色-深さ融合特徴を生成するステップ;
上記コンピュータシステムが、上記色-深さ融合特徴を、特徴ピラミッドネットワークに適用して色-深さFPN特徴を抽出し、領域提案ネットワークに適用して物体関心領域を抽出するステップ;
上記コンピュータシステムが、上記色-深さFPN特徴と、上記物体関心領域から、関心領域色-深さFPN特徴及び物体関心領域特徴を抽出するステップ;
上記コンピュータシステムが、上記関心領域色-深さFPN特徴及び物体関心領域特徴から、上記不可視物体インスタンスのバウンディングボックス特徴及びバウンディングボックスを導出するステップ;
上記コンピュータシステムが、上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記不可視物体インスタンスの可視特徴及び可視マスクを導出するステップ;
上記コンピュータシステムが、上記物体関心領域特徴、上記バウンディングボックス特徴、及び上記可視特徴を融合して、上記不可視物体インスタンスのアモーダル特徴及びアモーダルマスクを導出するステップ;
上記コンピュータシステムが、上記物体関心領域特徴、上記バウンディングボックス特徴、上記可視特徴、及びアモーダル特徴を融合して、上記不可視物体インスタンスのオクルージョン特徴及びオクルージョンの有無を導出するステップ;及び、
上記コンピュータシステムが、上記不可視物体インスタンスのバウンディングボックス、可視マスク、アモーダルマスク、及びオクルージョンの有無に基づいて、上記不可視物体インスタンスセグメンテーションを行うステップ;
を含む、不可視物体インスタンスセグメンテーション方法。
【請求項30】
上記コンピュータシステムが、上記関心領域色-深さFPN特徴及び物体関心領域特徴から、上記不可視物体インスタンスのバウンディングボックス特徴及びバウンディングボックスを導出するステップは、
上記コンピュータシステムが、上記バウンディングボックス特徴を全結合層に供給して、上記不可視物体インスタンスのバウンディングボックスを抽出するステップ;
を含む、請求項29に記載の不可視物体インスタンスセグメンテーション方法。
【請求項31】
上記コンピュータシステムが、上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記不可視物体インスタンスの可視特徴及び可視マスクを導出するステップは、
上記コンピュータシステムが、上記物体関心領域特徴及び上記バウンディングボックス特徴を、畳み込み層を含む階層的融合モジュールで融合して、上記不可視物体インスタンスの可視特徴を導出するステップ;及び、
上記コンピュータシステムが、上記不可視物体インスタンスの可視特徴を逆畳み込みして、上記不可視物体インスタンスの可視マスクを抽出するステップ;
を含む、請求項29に記載の不可視物体インスタンスセグメンテーション方法。
【請求項32】
上記コンピュータシステムが、上記物体関心領域特徴、上記バウンディングボックス特徴、及び上記可視特徴を融合して、上記不可視物体インスタンスのアモーダル特徴及びアモーダルマスクを導出するステップは、
上記コンピュータシステムが、上記物体関心領域特徴、上記バウンディングボックス特徴、及び上記可視特徴を、畳み込み層を含む階層的融合モジュールで融合して、上記不可視物体インスタンスのアモーダル特徴を導出するステップ;及び、
上記コンピュータシステムが、上記不可視物体インスタンスのアモーダル特徴を逆畳み込みして、上記不可視物体インスタンスのアモーダルマスクを抽出するステップ;
を含む、請求項29に記載の不可視物体インスタンスセグメンテーション方法。
【請求項33】
上記コンピュータシステムが、上記物体関心領域特徴、上記バウンディングボックス特徴、上記可視特徴、及びアモーダル特徴を融合して、上記不可視物体インスタンスのオクルージョン特徴及びオクルージョンの有無を導出するステップは、
上記コンピュータシステムが、上記物体関心領域特徴、上記バウンディングボックス特徴、上記可視特徴、及びアモーダル特徴を、畳み込み層を含む階層的融合モジュールで融合して、上記不可視物体インスタンスのオクルージョン特徴を導出するステップ;及び、
上記コンピュータシステムが、上記不可視物体インスタンスのオクルージョン特徴を逆畳み込みして、上記不可視物体インスタンスのオクルージョンの有無を推論するステップ;
を含む、請求項29に記載の不可視物体インスタンスセグメンテーション方法。
【請求項34】
プロセッサ;及び、
上記プロセッサによって不可視物体アモーダルインスタンスセグメンテーションネットワークを実行するコマンドを含むコンピュータ読み取り可能な媒体;を含み、
上記不可視物体アモーダルインスタンスセグメンテーションネットワークは、
少なくとも一つの不可視物体インスタンスを含む雑然としたシーン画像を受信し、色特徴及び深さ特徴をそれぞれ導出し、融合して、色-深さ融合特徴を生成し、
上記色-深さ融合特徴を、特徴ピラミッドネットワークに適用して色-深さFPN特徴を抽出し、領域提案ネットワークに適用して物体関心領域を抽出し、
上記色-深さFPN特徴と、上記物体関心領域から、関心領域色-深さFPN特徴及び物体関心領域特徴を抽出し、
上記関心領域色-深さFPN特徴及び物体関心領域特徴から、上記不可視物体インスタンスのバウンディングボックス特徴及びバウンディングボックスを導出し、
上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記不可視物体インスタンスの可視特徴及び可視マスクを導出し、
上記物体関心領域特徴、上記バウンディングボックス特徴、及び上記可視特徴を融合して、上記不可視物体インスタンスのアモーダル特徴及びアモーダルマスクを導出し、
上記物体関心領域特徴、上記バウンディングボックス特徴、上記可視特徴、及びアモーダル特徴を融合して、上記不可視物体インスタンスのオクルージョン特徴及びオクルージョンの有無を導出し、
上記不可視物体インスタンスのバウンディングボックス、可視マスク、アモーダルマスク、及びオクルージョンの有無に基づいて、上記不可視物体インスタンスセグメンテーションを行う、不可視物体インスタンスセグメンテーションシステム。
【請求項35】
上記不可視物体アモーダルインスタンスセグメンテーションネットワークは、
上記バウンディングボックス特徴を全結合層に供給して、上記不可視物体インスタンスのバウンディングボックスを抽出する、請求項34に記載の不可視物体インスタンスセグメンテーションシステム。
【請求項36】
上記不可視物体アモーダルインスタンスセグメンテーションネットワークは、
上記物体関心領域特徴及び上記バウンディングボックス特徴を、畳み込み層を含む階層的融合モジュールで融合して、上記不可視物体インスタンスの可視特徴を導出し、
上記不可視物体インスタンスの可視特徴を逆畳み込みして、上記不可視物体インスタンスの可視マスクを抽出する、請求項34に記載の不可視物体インスタンスセグメンテーションシステム。
【請求項37】
上記不可視物体アモーダルインスタンスセグメンテーションネットワークは、
上記物体関心領域特徴、上記バウンディングボックス特徴、及び上記可視特徴を、畳み込み層を含む階層的融合モジュールで融合して、上記不可視物体インスタンスのアモーダル特徴を導出し、
上記不可視物体インスタンスのアモーダル特徴を逆畳み込みして、上記不可視物体インスタンスのアモーダルマスクを抽出する、請求項34に記載の不可視物体インスタンスセグメンテーションシステム。
【請求項38】
上記不可視物体アモーダルインスタンスセグメンテーションネットワークは、
上記物体関心領域特徴、上記バウンディングボックス特徴、上記可視特徴、及びアモーダル特徴を、畳み込み層を含む階層的融合モジュールで融合して、上記不可視物体インスタンスのオクルージョン特徴を導出し、
上記不可視物体インスタンスのオクルージョン特徴を逆畳み込みして、上記不可視物体インスタンスのオクルージョンの有無を推論する、請求項34に記載の不可視物体インスタンスセグメンテーションシステム。
【請求項39】
少なくとも1つ以上の雑然としたシーン画像から、不可視物体インスタンスセグメンテーションを行うため、上記不可視物体アモーダルインスタンスセグメンテーションネットワークの少なくとも1つのモデルパラメータを訓練する機械学習モジュールをさらに含む、請求項34に記載の不可視物体インスタンスセグメンテーションシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、階層的オクルージョン推論モジュール並びにこれを用いた不可視物体インスタンスセグメンテーションのシステム及び方法に関し、具体的には、雑然としたシーン画像から任意の物体インスタンスのオクルージョンの有無を検出する階層的オクルージョン推論モジュールと、当該階層的オクルージョン推論モジュールを用いて不可視物体インスタンスのセグメンテーションを行うシステム及び方法に関する。
【背景技術】
【0002】
近年、自動運転、ロボット工学、及び監視に適用される物体検知機能が注目されている。非構造的環境のロボットシステムにおいて、複数の物体が含まれた雑然としたシーン画像からロボット操作を行うためには、他の物体に隠れて見えない物体(不可視物体)を検出して区分することが可能である必要がある。
【0003】
最近、不可視物体インスタンスセグメンテーション(UOIS:Unseen Object Instance Segmentation)に関する研究が提案されている。従来、不可視物体インスタンスセグメンテーション技術は、大規模合成データから物体らしさ概念(concept of object-ness)を学習することにより、カテゴリを区分しない(category-agnostic)インスタンスセグメンテーションによって不可視物体インスタンスセグメンテーションを行うが、目に見える領域だけを認識することに焦点が当てられている。即ち、このような不可視物体インスタンスセグメンテーション(UOIS)に関する研究では、任意の物体インスタンスの可視領域を区分することを目標とし、雑然としたシーン、特に複雑な質感を持って他の物体によって隠された不可視物体については、正確な検出を行うことが困難である。
【0004】
なお、ヒトは、隠された物体を認知する時、物体の一部が見えなくても全体構造を推論することができ、これをアモーダル知覚(amodal perception)と呼ぶ。このようなアモーダル知覚を模倣するため、アモーダルインスタンスセグメンテーション(AIS:Amodal Instance Segmentation)の研究が提案されている。このようなアモーダルインスタンスセグメンテーション(AIS)研究の目標は、シーン画像から各物体インスタンスのアモーダルマスク及び可視マスクを全て区分することにある。このようなアモーダルインスタンスセグメンテーションに関する研究は、多様なデータセットから不可視物体のアモーダルマスクセグメンテーションが行えることを立証しているが、特定セットの訓練された物体だけを感知することができる。即ち、検出対象物体に関する事前知識が提供された物体集合から任意の検出対象物体の境界を認識できるだけであり、新しい不可視物体の検出のためには、別途の訓練データ及びモデルの再学習が必要となる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述した問題点を解決するため、本発明は、雑然としたシーン画像から、バウンディングボックス、可視マスク、アモーダルマスク、及び任意の物体インスタンスのオクルージョンの有無を順次推論していく、階層的オクルージョン推論モデルを提案することを目的としている。
【0006】
また、本発明は、このような階層的オクルージョン推論モデルを用いて、雑然としたシーン画像から、不可視物体インスタンスセグメンテーションを行うことを目的としている。
【課題を解決するための手段】
【0007】
本発明は、装置(システム)、方法、コンピュータ読み取り可能な媒体に格納されたコンピュータプログラム、又はコンピュータプログラムが格納されたコンピュータ読み取り可能な媒体を含む種々の方式で具現することができる。
【0008】
本発明の一実施例に係るオクルージョン推論方法は、コンピュータシステムの少なくとも一つのプロセッサによって行われる階層的オクルージョン推論方法であって、コンピュータシステムが、少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得するステップ;コンピュータシステムが、画像特徴及び物体関心領域特徴から、物体インスタンスの可視特徴を導出するステップ;コンピュータシステムが、物体関心領域特徴及び可視特徴を融合して、物体インスタンスのオクルージョン包含領域特徴を導出するステップ;及び、コンピュータシステムが、オクルージョン包含領域特徴から、物体インスタンスのオクルージョン包含領域マスクを導出するステップ;を含む。
【0009】
好ましくは、コンピュータシステムが、物体関心領域特徴及び可視特徴を融合して、物体インスタンスのオクルージョン包含領域特徴を導出するステップは、コンピュータシステムが、物体関心領域特徴及び可視特徴を、畳み込み層を含む階層的融合モジュール又は全結合層で融合するステップを含む。
【0010】
より好ましくは、コンピュータシステムが、オクルージョン包含領域特徴から、物体インスタンスのオクルージョン包含領域マスクを導出するステップは、コンピュータシステムが、物体インスタンスのオクルージョン包含領域特徴を逆畳み込み、又は全結合層で演算して、物体インスタンスのオクルージョン包含領域マスクを抽出するステップを含む。
【0011】
本発明の他の実施例に係るオクルージョン推論方法は、コンピュータシステムの少なくとも1つのプロセッサによって行われる階層的オクルージョン推論方法であって、コンピュータシステムが、少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得するステップ;コンピュータシステムが、画像特徴及び物体関心領域特徴から、物体インスタンスの可視特徴及びオクルージョン包含領域特徴を導出するステップ;コンピュータシステムが、物体関心領域特徴、可視特徴、及びオクルージョン包含領域特徴を融合して、物体インスタンスのオクルージョン特徴を導出するステップ;及び、コンピュータシステムが、物体インスタンスのオクルージョン特徴から、物体インスタンスのオクルージョンの有無を推論するステップ;を含む。
【0012】
好ましくは、コンピュータシステムが、物体関心領域特徴、可視特徴、及びオクルージョン包含領域特徴を融合して、物体インスタンスのオクルージョン特徴を導出するステップは、コンピュータシステムが、物体関心領域特徴、可視特徴、及びオクルージョン包含領域特徴を、畳み込み層を含む階層的融合モジュール又は全結合層で融合するステップを含む。
【0013】
より好ましくは、コンピュータシステムが、物体インスタンスのオクルージョン特徴から、物体インスタンスのオクルージョンの有無を推論するステップは、コンピュータシステムが、物体インスタンスのオクルージョン特徴を逆畳み込み、又は全結合層で演算して、物体インスタンスのオクルージョンの有無を推論するステップを含む。
【0014】
より好ましくは、画像特徴は、色特徴、深さ特徴、及び色-深さ融合特徴のうちの少なくとも1つを含む。
【0015】
より好ましくは、オクルージョン包含領域特徴は、アモーダル特徴及び不可視特徴のうちの少なくとも1つを含む。
【0016】
より好ましくは、コンピュータシステムが、少なくとも1つの物体インスタンスを含む雑然としたシーン画像から導出された関心領域色-深さFPN特徴及び物体関心領域特徴を受信して、物体インスタンスのバウンディングボックス特徴を導出するステップ;及び、コンピュータシステムが、物体関心領域特徴及びバウンディングボックス特徴を融合して、物体インスタンスの可視特徴を導出するステップをさらに含む。
【0017】
より好ましくは、コンピュータシステムが、物体インスタンスのバウンディングボックス特徴に基づいて、物体インスタンスのクラス及びバウンディングボックスを抽出するステップをさらに含む。
【0018】
より好ましくは、コンピュータシステムが、物体インスタンスのバウンディングボックス特徴に基づいて、物体インスタンスのクラス及びバウンディングボックスを抽出するステップは、コンピュータシステムが、バウンディングボックス特徴を全結合層に供給して、クラス及びバウンディングボックスを抽出するステップを含む。
【0019】
より好ましくは、コンピュータシステムが、物体関心領域特徴及びバウンディングボックス特徴を融合して、物体インスタンスの可視特徴を導出するステップは、コンピュータシステムが、物体関心領域特徴及びバウンディングボックス特徴を、畳み込み層を含む階層的融合モジュール又は全結合層で融合するステップを含む。
【0020】
より好ましくは、コンピュータシステムが、物体インスタンスの可視特徴から、物体インスタンスの可視マスクを抽出するステップをさらに含む。
【0021】
より好ましくは、コンピュータシステムが、物体インスタンスの可視特徴から、物体インスタンスの可視マスクを抽出するステップは、コンピュータシステムが、物体インスタンスの可視特徴を逆畳み込み、又は全結合層で演算して、物体インスタンスの可視マスクを抽出するステップを含む。
【0022】
本発明の一実施例に係るシステムは、プロセッサ;及び、プロセッサによって階層的オクルージョン推論モジュールを実行するコマンドを含むコンピュータ読み取り可能な媒体;を含み、階層的オクルージョン推論モジュールは、少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得する手段;画像特徴及び物体関心領域特徴から、物体インスタンスの可視特徴を導出する手段;物体関心領域特徴及び可視特徴を融合して、物体インスタンスのオクルージョン包含領域特徴を導出する手段;及び、オクルージョン包含領域特徴から、物体インスタンスのオクルージョン包含領域マスクを導出する手段;を含む。
【0023】
好ましくは、物体関心領域特徴及び可視特徴を融合して、物体インスタンスのオクルージョン包含領域特徴を導出する手段は、物体関心領域特徴及び可視特徴が、畳み込み層を含む階層的融合モジュール又は全結合層で融合される手段を含む。
【0024】
より好ましくは、オクルージョン包含領域特徴から、物体インスタンスのオクルージョン包含領域マスクを導出する手段は、物体インスタンスのオクルージョン包含領域特徴を逆畳み込み、又は全結合層で演算して、物体インスタンスのオクルージョン包含領域マスクを抽出する手段を含む。
【0025】
本発明の一実施例に係るシステムは、プロセッサ;及び、プロセッサによって階層的オクルージョン推論モジュールを実行するコマンドを含むコンピュータ読み取り可能な媒体;を含み、階層的オクルージョン推論モジュールは、少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得する手段;画像特徴及び物体関心領域特徴から、物体インスタンスの可視特徴、オクルージョン包含領域特徴を導出する手段;物体関心領域特徴、可視特徴、及びオクルージョン包含領域特徴を融合して、物体インスタンスのオクルージョン特徴を導出する手段;及び、物体インスタンスのオクルージョン特徴から、物体インスタンスのオクルージョンの有無を推論する手段;を含む。
【0026】
より好ましくは、物体関心領域特徴、可視特徴、及びオクルージョン包含領域特徴を融合して、物体インスタンスのオクルージョン特徴を導出する手段は、物体関心領域特徴、可視特徴、及びオクルージョン包含領域特徴が、畳み込み層を含む階層的融合モジュール又は全結合層で融合される手段を含む。
【0027】
より好ましくは、物体インスタンスのオクルージョン特徴から、物体インスタンスのオクルージョンの有無を推論する手段は、物体インスタンスのオクルージョン特徴を逆畳み込み、又は全結合層で演算して、物体インスタンスのオクルージョンの有無を推論する手段を含む。
【0028】
より好ましくは、画像特徴は、色特徴、深さ特徴、及び色-深さ融合特徴のうちの少なくとも1つを含む。
【0029】
より好ましくは、オクルージョン包含領域特徴は、アモーダル特徴及び不可視特徴のうちの少なくとも1つを含む。
【0030】
より好ましくは、少なくとも1つの物体インスタンスを含む雑然としたシーン画像から導出された関心領域色-深さFPN特徴及び物体関心領域特徴を受信して、物体インスタンスのバウンディングボックス特徴を導出する手段;及び、物体関心領域特徴及びバウンディングボックス特徴を融合して、物体インスタンスの可視特徴を導出する手段;をさらに含む。
【0031】
より好ましくは、物体インスタンスのバウンディングボックス特徴に基づいて、物体インスタンスのクラス及びバウンディングボックスを抽出する手段をさらに含む。
【0032】
より好ましくは、物体インスタンスのバウンディングボックス特徴に基づいて、物体インスタンスのクラス及びバウンディングボックスを抽出する手段は、バウンディングボックス特徴を全結合層に供給して、クラス及びバウンディングボックスを抽出する手段を含む。
【0033】
より好ましくは、物体関心領域特徴及びバウンディングボックス特徴を融合して、物体インスタンスの可視特徴を導出する手段は、物体関心領域特徴及びバウンディングボックス特徴が、畳み込み層を含む階層的融合モジュール又は全結合層で融合される手段を含む。
【0034】
より好ましくは、物体インスタンスの可視特徴から、物体インスタンスの可視マスクを抽出する手段をさらに含む。
【0035】
より好ましくは、物体インスタンスの可視特徴から、物体インスタンスの可視マスクを抽出する手段は、物体インスタンスの可視特徴を逆畳み込み、又は全結合層で演算して、物体インスタンスの可視マスクを抽出する手段を含む。
【0036】
本発明の一実施例に係る不可視物体インスタンスセグメンテーション方法は、コンピュータシステムの少なくとも1つのプロセッサによって行われる不可視物体インスタンスのアモーダルセグメンテーション方法であって、コンピュータシステムが、少なくとも1つ不可視物体インスタンスを含む雑然としたシーン画像を受信し、色特徴及び深さ特徴をそれぞれ導出し、融合して、色-深さ融合特徴を生成するステップ;コンピュータシステムが、色-深さ融合特徴を、特徴ピラミッドネットワークに適用して色-深さFPN特徴を抽出し、領域提案ネットワークに適用して物体関心領域を抽出するステップ;コンピュータシステムが、色-深さFPN特徴と、物体関心領域から、関心領域色-深さFPN特徴及び物体関心領域特徴を抽出するステップ;コンピュータシステムが、関心領域色-深さFPN特徴及び物体関心領域特徴から、不可視物体インスタンスのバウンディングボックス特徴及びバウンディングボックスを導出するステップ;コンピュータシステムが、物体関心領域特徴及びバウンディングボックス特徴を融合して、不可視物体インスタンスの可視特徴及び可視マスクを導出するステップ;コンピュータシステムが、物体関心領域特徴、バウンディングボックス特徴、及び可視特徴を融合して、不可視物体インスタンスのアモーダル特徴及びアモーダルマスクを導出するステップ;コンピュータシステムが、物体関心領域特徴、バウンディングボックス特徴、可視特徴、及びアモーダル特徴を融合して、不可視物体インスタンスのオクルージョン特徴及びオクルージョンの有無を導出するステップ;及び、コンピュータシステムが、不可視物体インスタンスのバウンディングボックス、可視マスク、アモーダルマスク、及びオクルージョンの有無に基づいて、不可視物体インスタンスセグメンテーションを行うステップ;を含む。
【0037】
本発明の一実施例では、コンピュータシステムが、関心領域色-深さFPN特徴及び物体関心領域特徴から、不可視物体インスタンスのバウンディングボックス特徴及びバウンディングボックスを導出するステップは、コンピュータシステムが、バウンディングボックス特徴を全結合層に供給して、不可視物体インスタンスのバウンディングボックスを抽出するステップを含む。
【0038】
本発明の一実施例では、コンピュータシステムが、物体関心領域特徴及びバウンディングボックス特徴を融合して、不可視物体インスタンスの可視特徴及び可視マスクを導出するステップは、コンピュータシステムが、物体関心領域特徴及びバウンディングボックス特徴を、畳み込み層を含む階層的融合モジュールで融合して、不可視物体インスタンスの可視特徴を導出するステップ;及び、コンピュータシステムが、不可視物体インスタンスの可視特徴を逆畳み込みして、不可視物体インスタンスの可視マスクを抽出するステップを含む。
【0039】
本発明の一実施例では、コンピュータシステムが、物体関心領域特徴、バウンディングボックス特徴、及び可視特徴を融合して、不可視物体インスタンスのアモーダル特徴及びアモーダルマスクを導出するステップは、コンピュータシステムが、物体関心領域特徴、バウンディングボックス特徴、及び可視特徴を、畳み込み層を含む階層的融合モジュールで融合して、不可視物体インスタンスのアモーダル特徴を導出するステップ;及び、コンピュータシステムが、不可視物体インスタンスのアモーダル特徴を逆畳み込みして、不可視物体インスタンスのアモーダルマスクを抽出するステップ;を含む。
【0040】
本発明の一実施例では、コンピュータシステムが、物体関心領域特徴、バウンディングボックス特徴、可視特徴、及びアモーダル特徴を融合して、不可視物体インスタンスのオクルージョン特徴及びオクルージョンの有無を導出するステップは、コンピュータシステムが、物体関心領域特徴、バウンディングボックス特徴、可視特徴、及びアモーダル特徴を、畳み込み層を含む階層的融合モジュールで融合して、不可視物体インスタンスのオクルージョン特徴を導出するステップ;及び、コンピュータシステムが、不可視物体インスタンスのオクルージョン特徴を逆畳み込みして、不可視物体インスタンスのオクルージョンの有無を推論するステップ;を含む。
【0041】
本発明の一実施例に係る不可視物体インスタンスセグメンテーションシステムは、プロセッサ;及び、プロセッサによって不可視物体アモーダルインスタンスセグメンテーションネットワークを実行するコマンドを含むコンピュータ読み取り可能な媒体;を含む。不可視物体アモーダルインスタンスセグメンテーションネットワークは、少なくとも一つの不可視物体インスタンスを含む雑然としたシーン画像を受信し、色特徴及び深さ特徴をそれぞれ導出し、融合して、色-深さ融合特徴を生成し、色-深さ融合特徴を、特徴ピラミッドネットワークに適用して色-深さFPN特徴を抽出し、領域提案ネットワークに適用して物体関心領域を抽出し、色-深さFPN特徴と、物体関心領域から、関心領域色-深さFPN特徴及び物体関心領域特徴を抽出し、関心領域色-深さFPN特徴及び物体関心領域特徴から、不可視物体インスタンスのバウンディングボックス特徴及びバウンディングボックスを導出し、物体関心領域特徴及びバウンディングボックス特徴を融合して、不可視物体インスタンスの可視特徴及び可視マスクを導出し、物体関心領域特徴、バウンディングボックス特徴、及び可視特徴を融合して、不可視物体インスタンスのアモーダル特徴及びアモーダルマスクを導出し、物体関心領域特徴、バウンディングボックス特徴、可視特徴、及びアモーダル特徴を融合して、不可視物体インスタンスのオクルージョン特徴及びオクルージョンの有無を導出し、不可視物体インスタンスのバウンディングボックス、可視マスク、アモーダルマスク、及びオクルージョンの有無に基づいて、不可視物体インスタンスセグメンテーションを行う。
【0042】
本発明の一実施例では、不可視物体アモーダルインスタンスセグメンテーションネットワークは、バウンディングボックス特徴を全結合層に供給して、不可視物体インスタンスのバウンディングボックスを抽出する。
【0043】
本発明の一実施例では、不可視物体アモーダルインスタンスセグメンテーションネットワークは、物体関心領域特徴及びバウンディングボックス特徴を、畳み込み層を含む階層的融合モジュールで融合して、不可視物体インスタンスの可視特徴を導出し、不可視物体インスタンスの可視特徴を逆畳み込みして、不可視物体インスタンスの可視マスクを抽出する。
【0044】
本発明の一実施例では、不可視物体アモーダルインスタンスセグメンテーションネットワークは、物体関心領域特徴、バウンディングボックス特徴、及び可視特徴を、畳み込み層を含む階層的融合モジュールで融合して、不可視物体インスタンスのアモーダル特徴を導出し、不可視物体インスタンスのアモーダル特徴を逆畳み込みして、不可視物体インスタンスのアモーダルマスクを抽出する。
【0045】
本発明の一実施例では、不可視物体アモーダルインスタンスセグメンテーションネットワークは、物体関心領域特徴、バウンディングボックス特徴、可視特徴、及びアモーダル特徴を、畳み込み層を含む階層的融合モジュールで融合して、不可視物体インスタンスのオクルージョン特徴を導出し、不可視物体インスタンスのオクルージョン特徴を逆畳み込みして、不可視物体インスタンスのオクルージョンの有無を推論する。
【0046】
本発明の一実施例では、少なくとも1つ以上の雑然としたシーン画像から、不可視物体インスタンスセグメンテーションを行うため、不可視物体アモーダルインスタンスセグメンテーションネットワークの少なくとも1つのモデルパラメータを訓練する機械学習モジュールをさらに含む。
【発明の効果】
【0047】
本発明によれば、次のような効果が得られる。
【0048】
本発明では、雑然としたシーン画像から、カテゴリを区分しない任意の物体インスタンスのバウンディングボックス、可視マスク、アモーダルマスク、及びオクルージョンの有無を階層的に検出し、前階層から導出された特徴を全て融合することにより、任意の物体インスタンスのオクルージョンの有無を正確に推論することが可能である。
【0049】
本発明では、オクルージョン推論モデルを用いて、アモーダル知覚に基づいて、物体インスタンスのオクルージョンの有無を推論し、これに基づいて不可視物体を検出することにより、物体認識の正確度と速度を高めることができる。
【0050】
本発明では、雑然としたシーン画像から、複数の不可視物体インスタンスに対して、可視的セグメンテーション、アモーダルセグメンテーション、及びオクルージョン有無の推論を共に行うことができる。
【0051】
本発明では、カテゴリを区分しないアモーダルマスクのセグメンテーション方法を学習することにより、作業別のデータセット及びモデルの再学習の必要性を減らすことができる。
【0052】
本発明では、雑然としたシーン画像から、カテゴリを区分しない複数の不可視物体インスタンスを検出するに要する計算とコストを削減することにより、種々のアモーダルロボット操作に拡張することが可能である。
【0053】
本発明の効果は、上述の効果に制限されず、言及されていない他の効果は、特許請求範囲の記載から、本発明の属する技術分野において通常の知識を有する者(「通常の技術者」という)が明確に理解できるだろう。
【図面の簡単な説明】
【0054】
本発明の実施例について、添付の図面を参照して説明し、このとき、同一の参照番号は、同一の要素を示しているが、これに限定されない。
【
図1】本発明の不可視物体インスタンスセグメンテーションシステムが動作し得る例示的な環境を示す図である。
【
図2】不可視物体インスタンスセグメンテーションシステムに参加するように構成された例示的なコンピュータ装置を示すブロック図である。
【
図3】
図2に関連して不可視物体アモーダルインスタンスセグメンテーションネットワークの例示的なプロセスを示すフローチャートである。
【
図4】本発明の一実施例に係る不可視物体アモーダルインスタンスセグメンテーションネットワークを示す構成図である。
【
図5】本発明の一実施例に係る色-深さ融合バックボーンの一例を示す構成図である。
【
図6】本発明に係る階層的オクルージョン推論モジュールの一例を示す構成図である。
【
図7】本発明の一実施例に係る不可視物体インスタンスセグメンテーションプロセスの例示的なフローを示す図である。
【
図8】本発明の一実施例に係る色-深さ融合特徴導出プロセスの例示的なフローを示す図である。
【
図9】本発明の一実施例に係る階層的オクルージョン推論プロセスの例示的なフローを示す図である。
【発明を実施するための形態】
【0055】
以下、本発明の実施のための具体的な内容について、添付の図面を参照して詳述する。但し、以下の説明では、本発明の要旨を乱すおそれがある場合は、周知の機能や構成に関する具体的な説明を省略している。
【0056】
添付の図面において、同一又は相当する構成要素には同一の参照符号を付してある。また、後述の実施例の説明において、同一又は相当する構成要素については、重複説明を回避するため、説明を省略することがある。しかし、構成要素に関する記述が省略されていても、そのような構成要素が実施例中に包含されないと意図するのではない。
【0057】
本明細書に開示された実施例の利点及び特徴、またその達成方法は、添付の図面と共に後述の実施例を参照すれば、明確になるだろう。しかし、本発明は、後述の実施例に限定されず、種々に変更して具現することができ、本実施例は、本発明と関連した通常の技術者に発明の範疇を完全に理解させるために提供されるものに過ぎない。
【0058】
特に断りのない限り、本明細書で使用される全ての用語(技術及び科学用語を含む)は、本発明の属する技術分野において通常の知識を有する者が共通して理解できる意味で使用できるだろう。また、一般的に使用される辞書に定義されている用語は、特に別の定義がない限り、理想的に又は過度に解釈されてはならない。
@
例えば、「技術」という用語は、システム、方法、コンピュータ読み取り可能なコマンド、モジュール、アルゴリズム、ハードウェアロジック及び/又は上述の文脈によって許容されかつ文書全体にわたって動作するものを指称する。
【0059】
本明細書で使用される用語について簡略に説明し、開示された実施例について具体的に説明する。本明細書で使用される用語は、本発明での機能を考慮して、できるだけ現在広く使用されている一般的な用語を採用しているが、これは、当該分野における技術者の意図、判例、又は新規な技術の出現などによって変化することができる。また、場合によっては、出願人が任意に選定した用語が使用されており、この場合に該当する発明の説明部分においてその意味が詳しく記載されている。従って、本発明で使用される用語は、単純に用語の名称ではなく、その用語が持つ意味と本発明の全般にわたる内容に基づいて定義されなければならない。
【0060】
本明細書において、単数を指す表現には、文脈上明確に単数であると特定しない限り、複数を指す表現が含まれる。また、複数を指す表現には、文脈上明確に複数であると特定しない限り、単数を指す表現が含まれる。明細書全体において、ある部分がある構成要素を含むとは、これは、特に反対の記載がない限り、他の構成要素を除くのではなく、他の構成要素をさらに含むことができることを意味する。
【0061】
本発明において、「含む」、「包含」などの用語は、特徴、ステップ、動作、要素及び/又は構成要素が存在することを示すことができるが、このような用語は、一つ以上の他の機能、ステップ、動作、要素、構成要素及び/又はこれらの組み合わせの追加を排除するのではない。
【0062】
本発明において、特定の構成要素が任意の他の構成要素に、「結合」、「組み合わせ」、「連結」、「関連」、又は「反応」するものと言及された場合、特定の構成要素は、他の構成要素に直接、結合、組み合わせ、連結及び/又は関連、又は反応することができるが、これに限定されない。例えば、特定の構成要素と他の構成要素との間に一つ以上の中間構成要素が存在することが可能である。また、本発明において、「及び/又は」は、列挙された一つ以上の項目のそれぞれ又は一つ以上の項目の少なくとも一部の組み合わせを含むことができる。
【0063】
本発明において、「第1」、「第2」などの用語は、特定の構成要素を他の構成要素と区別するために使用されるものであり、このような用語によって上述した構成要素が制限されることはない。例えば、「第1」の構成要素は「第2」の構成要素と同一又は類似した形態の要素を指称するために使用され得る。
【0064】
本発明において、雑然としたシーン(cluttered scene)画像は、複数の物体を含むシーンのイメージであり、他の物体によって隠された物体が含まれている。このような雑然としたシーン画像は、写真と同様な写実的な合成データセット、又は実際カメラでキャプチャーしたリアルイメージであり得る。
【0065】
本発明において、「色-深さ融合バックボーン(RGB-D Fusion Backbone)」は、雑然としたシーン画像から、前景物体のインスタンスを検出するための画像特徴として、色特徴、深さ特徴、及び色-深さ融合特徴などを生成することができる。色-深さ融合バックボーンは、色特徴及び深さ特徴を抽出し、抽出された色特徴及び深さ特徴を融合して色-深さ融合特徴を生成することができる。このような色特徴、深さ特徴、及び色-深さ融合特徴が、雑然としたシーン画像から、前景物体のインスタンスを検出するための画像特徴として使用され得る。
【0066】
さらに、本発明において、色-深さ融合バックボーンは、特徴ピラミッドネットワーク(FPN:Feature Pyramid Network)、領域提案ネットワーク(RPN:Region Proposal Network)、及び関心領域アライン層(RoI Align Layer)を含むことができる。特徴ピラミッドネットワーク(FPN)は、色-深さ融合特徴から、色-深さFPN特徴を抽出することができ、色-深さFPN特徴が、雑然としたシーン画像から前景物体インスタンスを検出するための画像特徴として使用され得る。色-深さFPN特徴は、色-深さ融合特徴を特徴ピラミッドネットワークに適用して算出されたアウトプットであり得る。領域提案ネットワーク(RPN)は、色-深さ融合特徴から、物体関心領域(RoI)を抽出することができる。ここで、物体関心領域は、色-深さ融合特徴を領域提案ネットワーク(RPN)に適用して算出されたアウトプットであり得る。関心領域アライン層は、任意の物体関心領域(RoI)に対して、色-深さFPN特徴に基づいて関心領域色-深さFPN特徴(FRoI
S)及び物体関心領域特徴(FRoI
L)を抽出して、階層的オクルージョン推論モデルに提供することができる。
【0067】
本発明において、「階層的オクルージョン推論モデル(HOM:Hierarchical Occlusion Model)」は、雑然としたシーン画像から導出された画像特徴に基づいて、任意の物体インスタンスに対してバウンディングボックス(bounding box)、可視マスク(visible mask)、不可視マスク(invisible mask)、アモーダルマスク(amodal mask)、及びオクルージョン(occlusion)有無の推論のうちの少なくとも2つ以上を、階層的かつ順次に行うモデルを指称する。本発明の階層的オクルージョン推論モデルにおいて使用される画像特徴は、色-深さ融合バックボーンから提供される、色特徴、深さ特徴、色-深さ融合特徴、及び色-深さFPN特徴であり得る。
【0068】
本発明の階層的オクルージョン推論モデルは、雑然としたシーン画像から、まず、物体関心領域(RoI:Region of Inetrest)のバウンディングボックスを推論し、次に、推論された物体関心領域のバウンディングボックスに基づいて、可視特徴、アモーダル特徴、不可視特徴、及びオクルージョン有無の特徴のうちの少なくとも2つ以上を順次予測し、可視マスク、アモーダルマスク、不可視マスク、及びオクルージョン有無のうちの2つ以上を推論するように設計され得る。
【0069】
本発明の階層的オクルージョン推論モデルは、階層的オクルージョン推論モデルを具現する手段を指称する。本発明の階層的オクルージョン推論モデルは、バウンディングボックス特徴抽出部、バウンディングボックス分岐部、可視マスク分岐部、アモーダルマスク分岐部、及びオクルージョン推論分岐部から構成され得る。なお、アモーダルマスク分岐部に代わって、不可視マスク分岐部を含んで構成することができる。
【0070】
バウンディングボックス抽出部は、関心領域色-深さFPN特徴(FRoI
S)及び物体関心領域特徴(FRoI
L)に基づいて、任意の物体インスタンスに対するバウンディングボックス特徴(FB)を抽出することができる。バウンディングボックス分岐部は、バウンディングボックス特徴(FB)に基づいて、任意の物体インスタンスに対してクラス及びバウンディングボックスを抽出することができる。バウンディングボックス特徴抽出部で抽出されたバウンディングボックス特徴(FB)は、可視マスク分岐部、アモーダルマスク分岐部、及びオクルージョン推論分岐部にそれぞれ提供され得る。
【0071】
可視マスク分岐部は、バウンディングボックス特徴(FB)及び物体関心領域特徴(FRoI
L)から可視特徴(FV)を抽出することができる。
【0072】
アモーダルマスク分岐部は、バウンディングボックス特徴(FB)、物体関心領域特徴(FRoI
L)、及び可視特徴(FV)を融合して、アモーダル特徴(FA)を抽出することができる。
【0073】
不可視マスク分岐部は、バウンディングボックス特徴(FB)、物体関心領域特徴(FRoI
L)、及び可視特徴(FV)を融合して、不可視特徴(FIV)を抽出することができる。
【0074】
オクルージョン推論分岐部は、バウンディングボックス特徴(FB)、物体関心領域特徴(FRoI
L)、可視特徴(FV)、及びアモーダル特徴(FA)を融合して、オクルージョン特徴(FO)を抽出することができる。
【0075】
可視マスク分岐部、アモーダルマスク分岐部、及びオクルージョン推論分岐部は、それぞれ、畳み込み層(convolution layer)を含む階層的融合(HF:Hierarchical Fusion)モジュール又は全結合層(fully connected layer)を含むことができ、各階層的融合モジュール又は全結合層は、ニューラルネットワークで具現され、前階層から抽出された特徴を融合して、当該階層の特徴を抽出することができる。例えば、アモーダルマスク分岐部の階層的融合モジュール又は全結合層では、可視特徴を他の特徴と融合してアモーダル特徴を抽出し、オクルージョン推論分岐部の階層的融合モジュール又は全結合層では、可視特徴とアモーダル特徴を他の特徴と融合してオクルージョン特徴を抽出することができる。
【0076】
本発明において、「不可視物体インスタンスアモーダルセグメンテーション(UOAIS:Unseen Object Amodal Instance Segmentation)ネットワーク(UOAIS-Net)」は、色-深さ融合バックボーンと階層的オクルージョン推論モデルとを結合して雑然としたシーン画像から特徴を抽出し、抽出された特徴に基づいて、バウンディングボックス、可視マスク、アモーダルマスク、不可視マスク、及びオクルージョンの有無を、抽出及び予測するシステムであり得る。色-深さ融合バックボーンに代わって、色特徴抽出手段、深さ特徴抽出手段などと階層的オクルージョン推論モデルとを結合することもできる。
【0077】
本発明において、「バウンディングボックス」とは、雑然としたシーン画像から前景物体インスタンスの境界に沿って抽出された閉曲線であり得る。本発明において、領域提案ネットワーク(RPN)は、潜在的物体位置を物体関心領域(RoI)として提案することができ、関心領域アライン層は、関心領域色-深さFPN特徴(FRoI
S)を抽出してバウンディングボックス分岐部に提供することができる。バウンディングボックス分岐部は、2つの全結合層から構成することができ、バウンディングボックス特徴(FB)が、1つの全結合層に供給されることでクラスが抽出され、バウンディングボックス特徴(FB)が、他の全結合層に供給されることで任意の前景物体インスタンスに対するバウンディングボックスが抽出され得る。
【0078】
本発明において、「クラス」とは、関心領域が前景であるか背景であるかを区分する情報であり得る。本発明では、全ての前景物体インスタンスを検知するように設定することができる。本発明において、「可視マスク」とは、物体インスタンスから見える領域を指称する。本発明において、「不可視マスク」とは、物体インスタンスから見えない、即ち、他の物体に隠された領域を指称する。本発明において、「アモーダルマスク」とは、物体インスタンスの可視マスクと不可視マスクとが合わさった領域を指称する。即ち、不可視マスクとアモーダルマスクとは、オクルージョン包含領域マスクに該当する。本発明では、物体インスタンスの可視マスクのセグメンテーションを行った後、セグメンテーションされた可視マスクに基づいて、オクルージョン包含領域マスクを推論することができる。ここで、オクルージョン包含領域マスクは、アモーダルマスク及び不可視マスクを含むことができる。本発明において、「オクルージョンの有無」とは、任意の物体インスタンスが他の物体によって隠されるオクルージョン領域が存在するか否かを指称する。本発明において、オクルージョンの有無は、可視マスクとアモーダルマスクとの比率によって定義され、又は、不可視マスクが存在するか否かで定義され得る。即ち、可視マスクとアモーダルマスクとが同一であれば、該当物体インスタンスは、隠されていないものと定義でき、可視マスクよりアモーダルマスクの方が大きければ、該当物体インスタンスは隠されているものと定義でき、不可視マスクが存在すれば、該当物体インスタンスは隠されているものと定義できる。本発明では、可視マスクとオクルージョン包含領域マスクのセグメンテーションを行った後、オクルージョンの有無を推論することができる。
【0079】
本明細書に記載の例示的な技術は、雑然としたシーン画像から迅速かつ正確にオクルージョン推論を行うために、訓練画像で不可視物体アモーダルインスタンスセグメンテーションネットワーク(UOAIS-Net)を訓練させ、このために機械学習を適用することができる。このような機械学習は、多段階の機械学習プロセス、又は単段階の機械学習プロセスであり得る。
【0080】
後述のオペレーティングシステムは、一つの実施例を構成して特許請求の範囲を任意の特定のオペレーティング環境に制限しようとするものではない。請求された要旨の技術的思想及び範囲を逸脱することなく他の環境でも使用可能である。
【0081】
図1には、本発明の不可視物体インスタンスセグメンテーションシステムが動作し得る例示的な環境100が示されている。一部の例において、環境100の多様な装置及び/又は構成要素は、一つ以上のネットワーク104を介して、相互及び外部装置と通信し得る分散コンピューティングリソース102を含むことができる。
【0082】
例えば、ネットワーク104としては、インターネットのような共用ネットワーク、機関及び/又は個人のイントラネットのような個人ネットワーク、又は個人及び共用ネットワークの一部の組み合わせが挙げられる。ネットワーク104には、近距離通信網(LAN)、広域通信網(WAN)、衛星ネットワーク、ケーブルネットワーク、Wi-Fiネットワーク、WiMaxネットワークが含まれるが、これに制限されない任意タイプの有線及び/又は無線ネットワークを含むことができ、移動通信ネットワーク(例えば、3F、4G、5Gなど)又はこれらの任意の組み合わせを含むことができる。ネットワーク104は、インターネットプロトコル(IP)、トランスミッションコントロールプロトコル(TCP)、ユーザーデータグラムプロトコル(UDP)、又は他のタイプのプロトコルのようなパケットベース及び/又はデータグラムベースのプロトコルを含む通信プロトコルを使用することができる。さらに、ネットワーク104は、ネットワーク通信を容易にし、又は、スイッチ、ルータ、ゲートウェイ、アクセスポイント、ファイアウォール、基地局、リピーター、バックボーン装置のようなネットワークのためのハードウェア基盤を形成する多数の装置を含むことができる。
【0083】
一部の実施例において、ネットワーク104は、ワイヤレスアクセスポイント(WAP)のような無線ネットワークへのアクセスを可能にする装置をさらに含むことができる。本発明の実施例では、IEEE(Institute of Electrical and Electronics Engineers)802.11標準規格(例えば、802.11g、802.11nなど)を支援するWAPを含み、多様な電磁周波数(例えば、無線周波数)を介してデータを送受信するWAPを通じた連結を支援することができる。
【0084】
種々の実施例において、分散コンピューティングリソース102は、装置106(1)~106(N)を含むことができる。本発明の実施例では、装置106が、クラスター又は他のグループ化された構成で動作することでリソースを共有し、負荷を分散させ、性能を高め、又は他の目的のために一つ以上のコンピュータ装置を含むシナリオを支援する。装置106は、従来のサーバ型装置、デスクトップコンピュータ型装置、モバイル装置、特殊目的型装置、内蔵型装置及び/又はウェアラブル型装置のような多様な範疇に該当することができる。従って、デスクトップ及びラップトップコンピュータを挙げて説明しているが、装置106は、多様なタイプの装置を含むことができ、特定タイプの装置に制限されない。装置106は、デスクトップコンピュータ、サーバコンピュータ、ウェブサーバコンピュータ、パーソナルコンピュータ、モバイルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ウェアラブルコンピュータ、移植されたコンピュータ、通信装置、自動車コンピュータ、ネットワーク支援テレビ、シンクライアント、ターミナル、PDA、ゲームコンソール、ゲーム装置、ワークステーション、メディアプレーヤ、ポータブルビデオレコーダ(PVR)、セットトップボックス、カメラ、コンピュータ装置に含めるための統合構成要素であり得る。
【0085】
装置106は、バス112を介してコンピュータ読み取り可能な媒体(CRM:Computer Readable Media)110に作動可能に連結された一つ以上のプロセッシングユニット108を有する任意タイプのコンピュータ装置を含むことができ、場合によっては、これらのうちの一つ以上を含むことができる。このようなバス112は、システムバス、データバス、アドレスバス、PCIバス、ミニPCIバス、及び種々のローカルバス、周辺及び/又は独立バスを含むことができる。
【0086】
CRM110に格納された実行可能な命令は、例えば、オペレーティングシステム114、不可視物体アモーダルインスタンスセグメンテーションネットワーク(UOAIS-Net)116、色-深さ融合バックボーン118、階層的オクルージョン推論モジュールHOM120、及びプロセッシングユニット108によってロード可能でかつ実行可能な他のモジュール、プログラム又はアプリケーションを含むことができる。さらに、本明細書中、機能的に説明されたものは、アクセラレータのような一つ以上のハードウェアロジック構成要素によって少なくとも部分的に遂行され得る。例えば、使用可能な例示的なタイプのハードウェアロジック構成要素は、FPGA(Field-Programmable Gate Array)、ASIC(Application-Specific Integrated Circuits)、APS(Application-Specific Standard Products)、System-on-a-Chip (SOC)System、コンプレックスプログラマブルロジックデバイス(CPLD)などを含む。
【0087】
装置106は、一つ以上の入力/出力(I/O)インターフェース122を含み、装置100が周辺入力装置(例えば、キーボード、マウス、ペン、ゲームコントローラ、音声入力装置、タッチ入力装置、ジェスチャー入力装置など)、及び/又は周辺出力装置(例えば、ディスプレイ、プリンタなど)と通信可能にする。便宜上、図示の装置106において他の構成要素は省略されている。
【0088】
装置106は、装置106と、ユーザが入力(例えば、質問画像、リクエスト画像など)できるユーザコンピュータ装置126のような他のネットワーク装置との通信を可能にする1つ以上の入力/出力(I/O)インターフェース122を含むことができる。このような入力/出力(I/O)インターフェース122は、ネットワークを介して通信を送受信するための一つ以上のネットワークインターフェースコントローラ(NIC)又は他のタイプのトランシーバ装置を含むことができる。
【0089】
不可視物体インスタンスセグメンテーションの最適化に関連した他の装置は、ユーザコンピュータ装置126(1)~127(7)を含むことができる。ユーザコンピュータ装置126は、ユーザ型装置、デスクトップコンピュータ型装置、モバイル装置、特殊目的型装置、内蔵型装置、及び/又はウェアラブル装置のような多様なカテゴリーに属するものであり得る。従って、装置106より少ないコンピュータ資源を持つモバイルコンピュータ装置が図示されているが、ユーザコンピュータ装置126は、多様なタイプの装置を含むことができ、任意の特定タイプの装置に制限されない。
【0090】
ユーザコンピュータ装置126は、ウェブサーバ、アプリサーバ、又はその他の計算エンジンのようなサーバコンピュータ、又はブレードサーバ、又はネットワーク接続ストレージ装置126(1)、ラップトップコンピュータ、シンクライアント、端末、又は他のモバイルコンピュータ、PDA(Personal Data Assistant)、スマートウォッチ、又は生体或いは医療用センサのようなウェアラブルコンピュータ、生体或いは医療用センサのような移植されたコンピュータ装置、コンピュータナビゲーションユーザコンピュータ装置、グローバルポジショニングシステム(GPS)装置を含む(例えば、PDAでグラフィックに表現された)衛星基盤ナビゲーションシステム装置126(2)、タブレットコンピュータ或いはタブレットハイブリッドコンピュータ126(3)、スマートフォン、携帯電話、携帯電話-タブレットハイブリッド装置、又はその他の通信装置126(4)、携帯或いはコンソール基盤ゲーム装置、又はネットワーク支援テレビのようなその他のエンターテインメント装置、セットトップボックス、メディアプレーヤ、カメラでグラフィックに表示されるカメラ或いはパーソナルビデオレコーダ(PVR)126(5)、車両制御システムのような自動車コンピュータ或いは車両保安システム126(6)、ヒト又はヒトの腕に類似した外形と機能を持ってコンピュータプログラムで作動し、複雑な一連の作業を自動的に遂行するメカニカルロボット装置127(7)、又は本明細書に記載のように不可視物体インスタンスセグメンテーションの最適化を行うように構成されたコンピュータ装置、機器、又は他のコンピュータ装置を含むことができる。
【0091】
ユーザコンピュータ装置126は、不可視物体アモーダルインスタンスセグメンテーションネットワークの訓練を行うための雑然としたシーン画像の合成データを装置106に提供することもでき、不可視物体アモーダルインスタンスセグメンテーションネットワークのテストを行うための雑然としたシーン画像のリアルイメージを装置106に提供することもできる。このため、ユーザコンピュータ装置126は、カメラ装置を備えることが好ましい。
【0092】
ユーザコンピュータ装置126は、より多くのシステムバス、データバス、アドレスバス、PCIバス、ミニPCIバス、及び種々のローカルバス、周辺及び/又は独立バスを有し得るバスを経由して、コンピュータ読み取り可能な媒体(CRM)130に動作可能に連結された一つ以上のプロセッシングユニット128を有する任意タイプのコンピュータ装置であり得る。
【0093】
本明細書に記載のCRM110、130は、コンピュータストレージ媒体及び/又は通信媒体を含む。コンピュータストレージ媒体は、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、又は他のデータのような情報格納のための任意の方法又は技術で実現される揮発性メモリ、不揮発性メモリ、及び/又は他の永久及び/又は補助コンピュータストレージ媒体のような格納ユニット、着脱式及び非着脱式コンピュータストレージ媒体を含む。
【0094】
コンピュータストレージ媒体としては、RAM、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、相変化メモリ(PRAM)、リードオンリーメモリ(ROM)、書き換え可能な読み出し専用メモリ(EPROM)、電気的消去可能読み取り専用メモリ(EEPROM)、フラッシュメモリ、DVD、光格納媒体、磁気カセット、磁気テープ、ソリッドステートメモリ(SSE)などが挙げられる。
【0095】
コンピュータストレージ媒体とは異なり、通信媒体は、コンピュータ読み取り可能なコマンド、データ構造、プログラムモジュール、又は搬送波のような変調されたデータ信号、又は他の伝送メカニズムで他のデータを具現することができる。本明細書において、コンピュータストレージ媒体は、通信媒体を含まない。
【0096】
CRM130に格納された実行可能なコマンドは、オペレーティングシステム134及びプロセッシングユニット128によってロード可能でかつ実行可能な他のモジュール、プログラム又はアプリケーションを含むことができる。追加して又は代えて、本明細書において機能的に説明されたものは、アクセラレータのような一つ以上のハードウェアロジック構成要素によって少なくとも部分的に遂行され得る。例えば、使用可能な例示的タイプのハードウェアロジック構成要素は、FPGA(Field-Programmable Gate Array)、ASIC(Application-Specific Integrated Circuits)、ASSP(Application-Specific Standard Products)、System-on-a Chip (SOC)System、コンプレックスプログラマブルロジックデバイス(CPLD)などを含む。例えば、アクセラレータは、FPGAファブリックに内蔵されたCPUを含むXILINX又はALTERAのハイブリッド装置であり得る。
【0097】
ユーザコンピュータ装置126は、また、一つ以上のネットワークインターフェース136及びユーザインターフェース138を含む一つ以上の入力/出力(I/O)インターフェースを含み、ネットワーク104を介して他のユーザコンピュータ装置126間又は装置106のような他のネットワーク装置間の通信を可能にする。このようなネットワークインターフェース136は、ネットワークを介して通信を送受信するための一つ以上のネットワークインターフェースコントローラ(NIC)又は他のタイプのトランシーバ装置を含むことができる。
【0098】
ユーザコンピュータ装置126は、また、ユーザインターフェース138を含み、ユーザコンピュータ装置126は、雑然としたシーン画像、及び入力に対する応答のようなユーザからの入力を受信することができる。
【0099】
図2は、不可視物体インスタンスセグメンテーションシステムに参加するように構成された例示的なコンピュータ装置200を示すブロック図である。一部の実施例において、コンピュータ装置200は、
図1に示された装置106のような分散コンピューティングリソースである一つのコンピュータ装置であり得る。装置200において、プロセッシングユニット202は、例えば、CPUタイプのプロセッシングユニット、GPUタイプのプロセッシングユニット、フィールドプログラマブルゲートアレイ(FPGA)、デジタルシグナルプロセッサ(DSP)、又はCPUにより駆動できる他のハードウェアロジック構成要素を示すプロセッシングユニット108を含むことができる。例えば、このようなハードウェアロジック構成要素は、ASIC(Application-Specific Integrated Circuits)、ASP(Application-Specific Standard Products)、SOC(System-on-a-Chip)システム、コンプレックスプログラマブルロジックデバイス(CPLD)などを含むことができる。
【0100】
一部の実施例において、CRM204は、CRM110を示し、上述のように装置200に統合されたプロセッシングユニット202によって実行可能な命令を格納することができる。CRM204は、また、外部CPUタイプのプロセッシングユニット206、外部GPUタイプのプロセッシングユニット208のような外部プロセッシングユニット、及び/又はFPGAタイプのアクセラレータ201(1)、DSPタイプのアクセラレータ210(2)、又はその他のアクセラレータ210(N)のような外部アクセラレータ210によって実行可能な命令を格納することができる。
【0101】
例示的な実施例において、CRM204は、また、データストア212を含むことができる。一部の実施例において、データストア212は、データベース、データウェアハウス、又は他のタイプの構造的又は非構造的なデータストアのようなデータストアを含むことができる。一部の実施例において、データストア212は、1つ以上のハイパーテキストマークアップランゲージ(HTML)のテーブル、リソースディスクリプションフレームワーク(RDF:Resource Description Framwork)のテーブル、ウェブオントロジー言語(WOL)のテーブル、及び/又はXML(Extensible Markup Language)のテーブルを含むウェブテーブルのようなデータアクセスを可能とする1つ以上のテーブル、インデックス、ストアドプロシージャなどを有するコーパス及び/又はリレーショナルデータベースを含むことができる。例えば、データストア212は、CRM204に格納され、プロセッシングユニット202によって実行されるプロセス、アプリケーション、コンポーネント及び/又はモジュールの動作のためのデータ及び/又はコマンドを格納することができる。
【0102】
装置200は、一つ以上の入出力(I/O)インターフェース216をさらに含むことができ、入出力(I/O)インターフェース216は、装置200が、周辺入力装置(例えば、キーボード、マウス、ペン、ゲームコントローラ、音声入力装置、タッチ入力装置、ジェスチャー入力装置、カメラなど)を含むユーザ入力装置と、周辺出力装置(例えば、ディスプレイ、プリンタなど)と通信可能な入出力装置の通信を可能とする、I/Oインターフェース216であり得る。さらに、装置200において、ネットワークインターフェース122であり得るネットワークインターフェース218は、ネットワークを介して通信を送受信するためのネットワークインターフェースコントローラ(NIC)又は他のタイプのトランシーバ装置を示すことができる。
【0103】
例示的な実施例において、CRM204は、また、オペレーティングシステム114であり得るオペレーティングシステム220を含む。CRM204は、また、不可視物体アモーダルインスタンスセグメンテーションネットワーク(UOAIS-Net)であり得る不可視物体アモーダルインスタンスセグメンテーションネットワーク222を含む。不可視物体アモーダルインスタンスセグメンテーションネットワーク222は、ブロック224、226、228、230及び232で示される1つ以上のモジュール及び/又はAPIを含むことができるが、これは、例示に過ぎず、その数は、より多数又はより少数であり得る。
【0104】
ブロック224、226、228、230及び232に関連して説明された機能は、より少数のモジュール及び/又はAPIによって実行されるように結合され得るか、又はより多数のモジュール及び/又はAPIによって分割・実行され得る。
【0105】
例えば、ブロック224は、処理のために入力(例えば、雑然としたシーン画像)を不可視物体アモーダルインスタンスセグメンテーションネットワーク222に伝達するために装置200のプロセッシングユニット202をプログラミングするためのロジックを有する入力モジュールを示すことができる。種々の実施例において、雑然としたシーン画像は、写真と同様な合成データセットであり得、又は装置200に連結された周辺入力装置(例えば、カメラ装置)でキャプチャーされたリアルイメージであり得る。
【0106】
ブロック226は、入力された雑然としたシーン画像から不可視物体インスタンスセグメンテーションを行うため、プロセッシングユニット202をプログラムするためのロジックを有する初期処理モジュールを示すことができる。
【0107】
ブロック228は、雑然としたシーン画像から前景物体インスタンスを検出するための色特徴、深さ特徴、及び色-深さ融合特徴のうちの少なくとも一つの画像特徴を抽出するため、プログラムプロセッシングユニット202をプログラムするためのロジックを有する色-深さ融合バックボーンモジュールを示すことができる。種々の実施例において、色-深さ融合バックボーンモジュールは、色特徴及び深さ特徴をそれぞれ抽出し、抽出された色特徴及び深さ特徴を融合して、色-深さ融合特徴を生成することができる。色-深さ融合バックボーンモジュールは、色-深さ融合特徴を特徴ピラミッドネットワーク(FPN)に適用して色-深さFPN特徴を抽出することができる。また、色-深さ融合バックボーンモジュールは、色-深さ融合特徴を領域提案ネットワーク(RPN)に適用して物体関心領域(RoI)を抽出することができる。色-深さ融合モジュールは、色-深さFPN特徴と物体関心領域とを統合し、物体関心領域の色-深さFPN特徴である関心領域色-深さFPN特徴(FRoI
S)及び物体関心領域特徴(FRoI
L)を抽出して、階層的オクルージョン推論モデルに提供することができる。
【0108】
ブロック230は、色-深さ融合バックボーンモジュールから提供される色特徴、深さ特徴、色-深さ融合特徴、関心領域色-深さFPN特徴(FRoI
S)、及び物体関心領域特徴(FRoI
L)のうちの少なくとも一つの画像特徴に基づいて、任意の物体インスタンスに対してバウンディングボックス、可視マスク、アモーダルマスク、不可視マスク、及びオクルージョン有無の推論のうちの少なくとも二つ以上を階層的に遂行するためにプロセッシングユニット202をプログラムするロジックを有する階層的オクルージョン推論モジュールを示すことができる。階層的オクルージョン推論モジュールは、まず、雑然としたシーン画像から物体関心領域のバウンディングボックスを推論し、次に、推論されたバウンディングボックスに基づいて可視マスクを推論し、推論されたバウンディングボックスと可視マスクに基づいてアモーダルマスク(又は、不可視マスク)を推論し、推論されたバウンディングボックス、可視マスク、及びアモーダルマスク(又は、不可視マスク)に基づいてオクルージョンの有無を推論するように設計され得る。
【0109】
ブロック232は、複数の訓練画像、訓練画像に対応するオクルージョン有無のデータに基づいて、不可視物体アモーダルインスタンスセグメンテーションネットワークのモデルパラメータを抽出するためにプロセッシングユニット202をプログラムするロジックを有する機械学習モジュールを示すことができる。訓練画像は、種々の外形及び質感を持つ複数の物体を含む合成データセットであり得、雑然としたシーン画像に含まれたそれぞれの物体インスタンスは、アモーダルの有無(オクルージョンの有無)に対するアノテーションデータが含まれ得る。機械学習モジュールは、複数の写実的な合成データに基づいて、不可視物体アモーダルインスタンスセグメンテーションネットワークの機械学習を行い、これによって、不可視物体アモーダルインスタンスセグメンテーションネットワークは、雑然としたシーン画像に含まれた全ての物体インスタンスのバウンディングボックス、可視マスク、アモーダルマスク、不可視マスクの抽出、及びオクルージョン推論を行うための特徴抽出、並びに演算過程の学習を行うことができる。
【0110】
訓練画像、訓練画像に対応するオクルージョン有無のデータ、及び試作モデルパラメータは、例えば、データストア212のようなコンピュータ装置200に格納され得る。或いは、訓練画像、訓練画像に対応するオクルージョン有無のデータ、及び試作モデルパラメータは、ネットワークインターフェース218を介して、リモートコンピュータ装置から抽出又は受信され、データストア212に格納され得る。
【0111】
種々の実施例において、機械学習モジュールは、多段階プロセスで不可視物体アモーダルインスタンスセグメンテーションネットワークを訓練させることができる。一部の実施例において、機械学習モジュールは、初期処理モジュール、色-深さ融合バックボーンモジュール、及び階層的オクルージョン推論モジュールを、試作モデルパラメータに初期化することができる。初期化後、機械学習モジュールは、訓練画像を使用して、初期処理モジュール、色-深さ融合バックボーンモジュール、及び階層的オクルージョン推論モジュールのモデルパラメータを共に訓練させることができる。
【0112】
種々の実施例において、機械学習モジュールは、初期セットアップで不可視物体アモーダルインスタンスセグメンテーションネットワークを訓練させることができる。他の実施例において、機械学習モジュールは、毎週或いは毎月、指定された時間に周期的に不可視物体アモーダルインスタンスセグメンテーションネットワークを訓練させることができ、又は、プログラム管理者からの手動指示に従い、不可視物体アモーダルインスタンスセグメンテーションネットワークを訓練させることができる。
【0113】
代案として、上述のデータ(例えば、訓練画像及び訓練画像に対応するオクルージョン有無のデータ)の一部又は全部は、CPUタイプのプロセッシングユニット206上のメモリ234(1)、GPUタイプのプロセッシングユニット208上のメモリ234(2)、FPGAタイプのアクセラレータ210(1)上のメモリ234(3)、DSPタイプのアクセラレータ210(2)上のメモリ234(4)、及び/又は他のアクセラレータ210(N)上のメモリ234(M)のような別途のメモリ234に格納され得る。
【0114】
バス240は、バス112であり得、システムバス、データバス、アドレスバス、PCIバス、Mini-PCIバス、及び任意の種々のローカルバス、周辺及び/又は独立バスのうちのいずれか1つ以上を含むことができ、CRM204をプロセッシングユニット202に動作可能に連結することができる。
【0115】
図3は、
図2に関連して、上述の不可視物体アモーダルインスタンスセグメンテーションネットワークの例示的なプロセスを示すフローチャートである。種々の実施例において、不可視物体アモーダルインスタンスセグメンテーションネットワークは、雑然としたシーン画像から不可視物体インスタンスセグメンテーションを行い、オクルージョンの有無を推論するために一緒に動作する複数のネットワークによって具現することができる。
【0116】
302において、不可視物体アモーダルインスタンスセグメンテーションネットワーク(UOAIS-Net)は、雑然としたシーン画像を受信することができる。当該雑然としたシーン画像は、一部が重なるように配置された2つ以上の物体インスタンスを含むことができる。図示のように、雑然としたシーン画像は、円筒形の缶及び直六面体状のボックスを含み、缶がボックスより前方に配置されている。他の実施例において、雑然としたシーン画像は、さらに多くの物体を含むことができ、雑然としたシーン画像に含まれた物体は、種々の材質及び幾何学的構造の家庭用物体(例えば、シリアルボックス、ボトルなど)、及び産業用物体(例えば、ブラケット、ネジなど)であり得る。種々の実施例において、雑然としたシーン画像中の各物体に対してアモーダルアノテーションが付与され得る。アモーダルアノテーションが付与された物体インスタンスは、他の物体インスタンスによって隠された領域が存在する物体インスタンスを意味することができる。他の実施例において、各物体インスタンスに対して相対的にオクルージョン有無の順序に基づいたアノテーションが付与され得る。
【0117】
種々の実施例において、不可視物体アモーダルインスタンスセグメンテーションネットワークは、物体インスタンスの境界を正確に導出するため、色情報、深さ情報、又は色情報と深さ情報との融合情報を使用することができる。このため、不可視物体アモーダルインスタンスセグメンテーションネットワークは、色と深さの各モデリティによって別途のResNet50を用いて、色特徴及び深さ特徴をそれぞれ抽出することができる。その後、色特徴及び深さ特徴を、連結、及び1×1畳み込みによって、マルチレベルで色-深さ融合特徴として融合することができる。
【0118】
種々の実施例において、色-深さ融合特徴は、特徴ピラミッドネットワーク(FPN)に提供されることで色-深さFPN特徴が抽出され、領域提案ネットワーク(RPN)に提供されることで物体関心領域が抽出され得る。抽出された色-深さFPN特徴及び物体関心領域特徴が、関心領域アライン層に提供されることで、関心領域色-深さFPN特徴(FRoI
S)及び物体関心領域特徴(FRoI
L)が導出され得る。
【0119】
304において、関心領域色-深さFPN特徴(FRoI
S)及び物体関心領域特徴(FRoI
L)からバウンディングボックスが導出され得る。種々の実施例において、UOAIS-Netは、導出された物体関心領域に対して前景領域を導出してクラスを付与することができ、前景物体インスタンスと背景との間の境界、及び一つの物体インスタンスと他の物体インスタンスとの境界の間に閉曲線状のバウンディングボックスを生成することができる。他の例において、バウンディングボックスは、また、長方形、円形、六角形などに形成され得る。
【0120】
306において、バウンディングボックス特徴から、可視マスクのセグメンテーションが行われ得る。種々の実施例において、UOAIS-Netは、バウンディングボックス中の物体インスタンスの表面が見える可視領域を可視マスクとして抽出することができ、可視マスクの可視特徴が導出され得る。種々の実施例において、UOAIS-Netは、バウンディングボックス特徴を入力とし、畳み込み層を含む階層的融合モデルを含むことができ、これによって、バウンディングボックス特徴に基づいた可視マスクのセグメンテーションが行われ得る。
【0121】
308において、バウンディングボックス特徴と可視特徴から、アモーダルマスクのセグメンテーションが行われ得る。種々の実施例において、UOAIS-Netは、物体インスタンスの表面が見える可視領域に基づいて、表面が見えない(他の物体によって隠された)不可視領域を推論し、可視領域と不可視領域とを統合したアモーダルマスクを抽出することができ、アモーダルマスクのアモーダル特徴を導出することができる。他の実施例において、バウンディングボックス特徴と可視特徴から、不可視マスクの不可視特徴が導出され得る。アモーダルマスクと不可視マスクとは、オクルージョン包含領域マスクと通称でき、アモーダル特徴と不可視特徴とは、オクルージョン包含領域特徴と通称できる。種々の実施例において、UOAIS-Netは、バウンディングボックス特徴及び可視特徴を入力とし、畳み込み層を含む階層的融合モデル又は全結合層のニューラルネットワークを含むことができ、これによって、バウンディングボックス特徴及び可視特徴に基づいたオクルージョン包含領域マスクのセグメンテーションが行われ得る。なお、オクルージョン包含領域マスクは、アモーダルマスク又は不可視マスクであり得る。
【0122】
304において導出されたバウンディングボックス特徴、306において導出された可視特徴、及び308において導出されたオクルージョン包含領域特徴から、オクルージョンの有無を推論することができる。種々の実施例において、UOAIS-Netは、物体インスタンスが他の物体インスタンスに隠された領域があるかを示すオクルージョン特徴を導出することができ、導出されたオクルージョン特徴からオクルージョンの有無を推論することができる。種々の実施例において、UOAIS-Netは、バウンディングボックス特徴、可視特徴、及びオクルージョン包含領域特徴を入力とし、畳み込み層を含む階層的融合モデル又は全結合層のニューラルネットワークを含むことができ、これによって、バウンディングボックス特徴、可視特徴、及びオクルージョン包含領域特徴に基づいたオクルージョンの推論が可能となる。オクルージョン包含領域特徴には、アモーダル特徴又は不可視特徴が含まれ得る。
【0123】
図4は、本発明の一実施例に係る不可視物体アモーダルインスタンスセグメンテーションネットワーク400を示す構成図である。
【0124】
不可視物体アモーダルインスタンスセグメンテーションネットワーク400は、雑然としたシーン画像402を受信することができる。種々の実施例において、雑然としたシーン画像402は、装置内のデータストア212から受信され、又は、ネットワークを介してユーザコンピュータ装置126から受信され得る。
【0125】
不可視物体アモーダルインスタンスセグメンテーションネットワーク400は、マスクR-CNN(mask R-CNN)で提案された構造に従うことができる。マシンラーニングにおいて、CNN(Convolutional Neural Network)は、視覚映像分析分野において成功的に適用される人工ニューラルネットワークの一種である。R-CNN(Regions with CNN features)は、CNN(Convolutional Neural Network)を用いて物体を検出する技術であり、物体領域に対応するプロポーザルを生成する。このようなR-CNN技術は、発展し続けている。
【0126】
faster R-CNNは、fast R-CNNにおいて、領域提案ネットワーク(RPN)を追加した2段階パイプラインを遂行する。第一段階では、領域提案ネットワーク(RPN)は、アンカーボックスをリファイン(refine)し、整理して、希少なプロポーザルのボックスセットを生成し、第二段階では、領域別にCNN検出器(R-CNN)が、RPNによって生成されたプロポーザルのリファイン及び分類を行う。
【0127】
マスクR-CNN技術は、faster R-CNNにおいて、マスク分岐部を追加し、領域提案ネットワーク(RPN)前に特徴ピラミッドネットワーク(FPN)追加し、関心領域アライン(RoI align)層を追加した構造を有する。即ち、本発明の不可視物体アモーダルインスタンスセグメンテーションネットワークは、色-深さ融合バックボーンにおいてFPN、RPN、関心領域アライン層を採用し、階層的オクルージョン推論モジュールにおいて各マスクを抽出するためのマスク分岐部を採用することにより、マスクR-CNNで提案した構造を活用することができる。
【0128】
不可視物体アモーダルインスタンスセグメンテーションネットワーク400は、雑然としたシーン画像を受信し、関心領域に関する画像特徴及び物体関心領域特徴を導出する色-深さ融合バックボーン404、画像特徴及び物体関心領域特徴に基づいて、バウンディングボックス特徴、バウンディングボックス、可視特徴、可視マスク、アモーダル特徴、アモーダルマスク、不可視特徴、不可視マスク、オクルージョン特徴、及びオクルージョン有無のうちの少なくとも一部を順次に抽出する階層的オクルージョン推論モジュール406、並びに導出されたバウンディングボックス、可視マスク、アモーダルマスク、不可視マスク、及びオクルージョンの有無に基づいて物体インスタンスセグメンテーションを行う物体インスタンスセグメンテーション部408を含んで構成され得る。
【0129】
色-深さ融合バックボーン404は、雑然としたシーン画像を受信することができる。雑然としたシーン画像は、少なくとも一部の領域が重なって配置された2つ以上の物体インスタンスを含むことができる。例えば、
図3に示されるように、雑然としたシーン画像は、直六面体状のボックスと、ボックスより前方に配置された円筒形の缶を含むことができる。この場合、ボックスインスタンスの一部の領域が缶インスタンスによって隠れている。他の例において、雑然としたシーン画像は、より多くの物体を含むことができ、一つの物体インスタンスは、2つ以上の物体インスタンスによって隠れることもある。色-深さ融合バックボーン404は、雑然としたシーン画像から、色特徴、深さ特徴、色-深さ融合特徴を導出することができ、導出された色特徴、深さ特徴、及び色-深さ融合特徴から、物体関心領域に対応する関心領域色-深さFPN特徴(F
RoI
S)及び物体関心領域特徴(F
RoI
L)を抽出することができる。
【0130】
階層的オクルージョン推論モジュール406は、関心領域色-深さFPN特徴(FRoI
S)及び物体関心領域特徴(FRoI
L)に基づいて、任意の物体インスタンスに対して、クラス(C)、バウンディングボックス(B)、可視マスク(V)、アモーダルマスク(A)、及びオクルージョンの有無(O)を階層的かつ順次に推論することができる。ここで、クラス(C)は、関心領域が前景であるか背景であるかを区分する情報であり、バウンディングボックス(B)は、物体インスタンスの境界に沿って抽出された閉曲線であり、可視マスク(V)は、物体インスタンスから見える領域であり得る。また、アモーダルマスク(A)は、物体インスタンスの全体領域であって、可視マスクと不可視マスクとが合わさった領域を指称し、アモーダルマスク(A)の代わりに、不可視マスク(IV)を推論することもできる。オクルージョンの有無(O)は、任意の物体インスタンスが他の物体によって隠された領域が存在するかを示すことができる。まず、階層的オクルージョン推論モジュール406は、バウンディングボックス特徴及びバウンディングボックス(B)を導出し、バウンディングボックス特徴に基づいて、可視特徴及び可視マスクを抽出し、バウンディングボックス特徴及び可視特徴に基づいて、アモーダル特徴及びアモーダルマスクを抽出し、バウンディングボックス特徴、可視特徴、及びアモーダル特徴に基づいて、オクルージョン特徴及びオクルージョンの有無を抽出することができる。
【0131】
物体インスタンス分割部408は、全ての前景物体インスタンスに対して受信された、クラス(C)、バウンディングボックス(B)、可視マスク(V)、アモーダルマスク(A)、及びオクルージョンの有無(O)に基づいて、不可視物体インスタンスセグメンテーションを行うことができる。
【0132】
図5は、本発明の一実施例に係る色-深さ融合バックボーンの一例を示す構成図である。
【0133】
色-深さ融合バックボーン404は、雑然としたシーン画像402から色特徴を抽出する色特徴抽出部501、雑然としたシーン画像402から深さ特徴を抽出する深さ特徴抽出部502、抽出された色特徴と深さ特徴とを融合して色-深さ融合特徴を導出する色-深さ特徴融合部503、色特徴、深さ特徴、色-深さ融合特徴から色-深さFPN特徴が抽出される特徴ピラミッドネットワーク(FPN)504、色特徴、深さ特徴、色-深さ融合特徴から物体関心領域が抽出される領域提案ネットワーク(RPN)505、並びに色-深さFPN特徴及び物体関心領域から関心領域色-深さFPN特徴(FRoI
S)及び物体関心領域特徴(FRoI
L)を導出する関心領域アライン層507を含んで構成され得る。
【0134】
色-深さ融合バックボーン404は、物体インスタンスの境界を導出するため、色情報又は深さ情報を使用することができる。また、色-深さ融合バックボーン404は、物体インスタンスの境界をより正確に導出するため、色情報と深さ情報とを融合して使用することができる。このため、色-深さ融合バックボーン404は、色と深さの各モデリティによって別途のResNet50を用いて、色特徴及び深さ特徴をそれぞれ抽出することができる。色-深さ特徴融合部503は、色特徴及び深さ特徴を、連結、及び1×1畳み込みによってマルチレベルで色-深さ融合特徴として融合することができる。色-深さ融合特徴は、特徴ピラミッドネットワーク(FPN)504に提供されることで色-深さFPN特徴が抽出され、領域提案ネットワーク(RPN)505に提供されることで物体関心領域(RoI)が抽出され得る。抽出された色-深さFPN特徴及び物体関心領域が、関心領域アライン層507に提供されることで、関心領域色-深さFPN特徴(FRoI
S)及び物体関心領域特徴(FRoI
L)が導出され得る。
【0135】
図6は、本発明に係る階層的オクルージョン推論モデルの一例を示す構成図である。
【0136】
階層的オクルージョン推論モジュールは、関心領域色-深さFPN特徴(FRoI
S)及び物体関心領域特徴(FRoI
L)に基づいて、物体インスタンスのバウンディングボックス特徴(FB)を抽出するバウンディングボックス特徴抽出部602、バウンディングボックス特徴(FB)に基づいて、物体インスタンスのクラス及びバウンディングボックスを抽出するバウンディングボックス分岐部604、バウンディングボックス特徴(FB)に基づいて、物体インスタンスの可視特徴(FV)を抽出する可視マスク分岐部610、バウンディングボックス特徴(FB)及び可視特徴(FV)に基づいて、物体インスタンスのアモーダル特徴(FA)を抽出するアモーダルマスク分岐部614、バウンディングボックス特徴(FB)、可視特徴(FV)、及びアモーダル特徴(FA)に基づいて、物体インスタンスのオクルージョン特徴(FO)を抽出するオクルージョン推論分岐部を含んで構成され得る。他の実施例において、アモーダルマスク分岐部614に代わって、バウンディングボックス特徴(FB)及び可視特徴(FV)に基づいて、物体インスタンスの不可視特徴(FIV)を抽出する不可視マスク分岐部を構成することができ、この場合、オクルージョン推論分岐部は、バウンディングボックス特徴(FB)、可視特徴(FV)、及び不可視特徴(FIV)に基づいて、物体インスタンスのオクルージョン特徴(FO)を抽出することができる。
【0137】
さらに、階層的オクルージョン推論モジュールは、可視特徴(FV)を逆畳み込みして、可視特徴に基づいた物体インスタンスの可視マスク(V)を抽出する第1の逆畳み込み部612、アモーダル特徴(FA)を逆畳み込みして、アモーダル特徴に基づいた物体インスタンスのアモーダルマスク(A)を抽出する第2の逆畳み込み部616、並びにオクルージョン特徴(FO)を逆畳み込みして、オクルージョン特徴を基づいた物体インスタンスのオクルージョンの有無を推論する第3の逆畳み込み部620をさらに含んで構成することができる。他の実施例において、第1の逆畳み込み部612乃至第3の逆畳み込み部620に代わって、全結合層を構成することで各特徴からマスクを抽出することもできる。
【0138】
バウンディングボックス特徴抽出部620は、関心領域色-深さFPN特徴(FRoI
S)及び物体関心領域特徴(FRoI
L)に基づいて、物体インスタンスのバウンディングボックス特徴(FB)を抽出することができる。関心領域色-深さFPN特徴(FRoI
S)は、3×3逆畳み込み層に供給され、14×14のサイズにアップサンプリングされた物体関心領域特徴は、3つの3×3畳み込み層に伝達される。このような作業のアウトプットがバウンディングボックス特徴(FB)として使用され得る。
【0139】
バウンディングボックス分岐部604は、バウンディングボックス特徴(FB)に基づいて、任意の物体インスタンスに対してクラス及びバウンディングボックスを抽出することができる。バウンディングボックス分岐部604は、2つの全結合層606、608から構成され、バウンディングボックス特徴(FB)が1つの全結合層606に供給されることでクラス(C)が抽出され、バウンディングボックス特徴(FB)が他の全結合層608に供給されることで任意の物体インスタンスに対するバウンディングボックス(B)が抽出され得る。
【0140】
可視マスク分岐部610には、バウンディングボックス特徴(FB)と物体関心領域特徴(FRoI
L)が入力され得る。可視マスク分岐部610は、畳み込み層を含む階層的融合モジュール又は全結合層を含んで構成され、可視マスク分岐部610の階層的融合モジュール又は全結合層でバウンディングボックス特徴(FB)と物体関心領域特徴(FRoI
L)とが融合されることで可視特徴(FV)が抽出され、アモーダルマスク分岐部614及びオクルージョン推論分岐部618に伝達され得る。可視特徴(FV)は、第1の逆畳み込み部612で逆畳み込み、又は全結合層で演算されることで可視マスク(V)が抽出され得る。
【0141】
アモーダルマスク分岐部614には、バウンディングボックス特徴(FB)、物体関心領域特徴(FRoI
L)、及び可視特徴(FV)が入力され得る。アモーダルマスク分岐部614は、畳み込み層を含む階層的融合モジュール又は全結合層を含んで構成され、アモーダルマスク分岐部614の階層的融合モジュール又は全結合層でバウンディングボックス特徴(FB)、物体関心領域特徴(FRoI
L)、及び可視特徴(FV)が融合されることでアモーダル特徴(FA)が抽出され、オクルージョン推論分岐部618に伝達され得る。アモーダル特徴(FA)は、第2の逆畳み込み部616で逆畳み込み、又は全結合層で演算されることでアモーダルマスク(A)が抽出され得る。このようなアモーダルマスク分岐部614は、不可視マスク分岐部に代替可能であり、不可視マスク分岐部には、バウンディングボックス特徴(FB)、物体関心領域特徴(FRoI
L)、及び可視特徴(FV)が入力され得る。不可視マスク分岐部は、畳み込み層を含む階層的融合モジュール又は全結合層を含んで構成され、不可視マスク分岐部の階層的融合モジュール又は全結合層でバウンディングボックス特徴(FB)、物体関心領域特徴(FRoI
L)、及び可視特徴(FV)が融合されることで不可視特徴(FIV)が抽出され、オクルージョン推論分岐部618に伝達され得る。不可視特徴(FIV)は、逆畳み込み部で逆畳み込み、又は全結合層で演算されることで不可視マスク(IV)が抽出され得る。アモーダルマスク分岐部と不可視マスク分岐部は、オクルージョン包含領域マスク分岐部と通称できる。
【0142】
オクルージョン推論分岐部618には、バウンディングボックス特徴(FB)、物体関心領域特徴(FRoI
L)、可視特徴(FV)、及びアモーダル特徴(FA)が入力され得る。オクルージョン推論分岐部618は、畳み込み層を含む階層的融合モジュール又は全結合層を含んで構成され、オクルージョン推論分岐部618の階層的融合モジュール又は全結合層でバウンディングボックス特徴(FB)、物体関心領域特徴(FRoI
L)、可視特徴(FV)、及びアモーダル特徴(FA)が融合されることでオクルージョン特徴(FO)が抽出され得る。オクルージョン特徴(FO)は、第3の逆畳み込み部620で逆畳み込み、又は全結合層で演算されることでオクルージョンの有無(O)が抽出され得る。
【0143】
図7~
図9は、本発明の一実施例に係る不可視物体インスタンスセグメンテーションプロセス、色-深さ融合特徴導出プロセス、及び階層的オクルージョン推論プロセスを例示するフローチャートである。例示的なプロセスの動作は、個別ブロックで示されており、これらのブロックを参照して説明されている。プロセスは、ブロックのロジックのフローで示されており、各ブロックは、ハードウェア、ソフトウェア又はこれらの組み合わせで具現され得る1つ以上の動作が示されている。ソフトウェアに関連して、動作は、1つ以上のプロセッサによって実行される時に1つ以上のプロセッサが引用された動作を遂行し得るようにする1つ以上のコンピュータ読み取り可能な媒体に格納されたコンピュータ実行可能なコマンドを示す。一般的に、コンピュータ実行可能なコマンドには、ルーチン、プログラム、オブジェクト、モジュール、構成要素、データ構造、特定の関数を遂行、又は特定の抽象データタイプを具現することが含まれる。動作の説明順序によって解釈が制限されてはならず、説明された動作の数は、任意の順序で、多数の下位動作に細分化、又は並列して実行可能である。
【0144】
図7は、本発明の一実施例に係る不可視物体インスタンスセグメンテーションプロセス(S700)の例示的なフローを示す図である。
【0145】
ブロックS702において、コンピュータシステムは、雑然としたシーン画像を受信することができる。種々の実施例において、雑然としたシーン画像は、ネットワーク104を介してユーザコンピュータ装置126から受信され得る。一部の実施例において、雑然としたシーン画像は、コンピュータ装置200上のデータストア212から受信され得る。雑然としたシーン画像は、他の物体インスタンスによって隠された不可視物体インスタンスを含むことができ、写真と同じ写実的合成データセット、又は実際カメラでキャプチャーされたリアルイメージであり得る。
【0146】
ブロックS704において、コンピュータシステムは、少なくとも一つの不可視物体インスタンスを含む雑然としたシーン画像から、関心領域に関する色特徴、深さ特徴、色-深さ融合特徴、及び色-深さFPN特徴(FRoI
S)のうちの少なくとも一つを含む画像特徴と、物体関心領域特徴(FRoI
L)とを抽出することができる。コンピュータシステムは、不可視物体インスタンスを検出するための色特徴及び深さ特徴を抽出し、抽出された色特徴及び深さ特徴を融合して色-深さ融合特徴を生成することができる。 コンピュータシステムは、マスクR-CNNの構造を採用することで、特徴ピラミッドネットワーク(FPN)、領域提案ネットワーク(RPN)、関心領域アライン層を含むことができ、これによって、関心領域色-深さFPN特徴及び物体関心領域特徴を抽出することができる。
【0147】
ブロックS706において、コンピュータシステムは、ブロックS704で抽出された関心領域色-深さFPN特徴及び物体関心領域特徴に基づいて、不可視物体インスタンスのクラス、バウンディングボックス、可視マスク、アモーダルマスク、及びオクルージョンの有無を導出することができる。コンピュータシステムは、バウンディングボックスを最初に導出し、次に、バウンディングボックス特徴に基づいて可視マスクを抽出し、バウンディングボックス特徴及び可視特徴に基づいてアモーダルマスク又は不可視マスクを抽出することができる。その後、バウンディングボックス特徴、可視特徴、及びアモーダル特徴(又は、不可視特徴)に基づいてオクルージョンの有無を推論することができる。上述のように、コンピュータシステムは、バウンディングボックス、可視マスク、アモーダルマスク(又は、不可視マスク)、及びオクルージョン推論のうちの少なくとも2つ以上を順次かつ階層的に行うことができる。
【0148】
ブロックS708において、コンピュータシステムは、ブロックS706で導出されたクラス、バウンディングボックス、可視マスク、アモーダルマスク(又は、不可視マスク)、及びオクルージョンの有無に基づいて、不可視物体インスタンスセグメンテーションを行うことができる。
【0149】
図8は、本発明の一実施例に係る色-深さ融合特徴導出プロセス(S800)の例示的なフローを示す図である。色-深さ融合特徴導出プロセスは、色-深さ融合バックボーンで行うことができ、ブロックS704と実質的に同一であり得る。 本発明は、基本的に、faster R-CNNにおいて、マスク分岐部を追加し、領域提案ネットワーク(RPN)前に特徴ピラミッドネットワーク(FPN)を追加し、関心領域アライン層を追加したマスクR-CNN構造に従う。但し、本発明では、雑然としたシーン画像から、色特徴と深さ特徴とをそれぞれ抽出し、抽出された色特徴と深さ特徴とを融合した色-深さ融合特徴をマスクR-CNN構造に適用することで、不可視物体インスタンスセグメンテーションを行うための特徴を導出することができる。
【0150】
ブロックS802において、コンピュータシステムは、雑然としたシーン画像から、色特徴及び深さ特徴を抽出することができる。コンピュータシステムは、不可視物体インスタンスの境界を正確に導出するため、色情報と深さ情報とを共に使用し、このために色及び深さのそれぞれについて、各モデリティによって別途のResNet50を用いて、色特徴及び深さ特徴を抽出することができる。
【0151】
ブロックS804において、コンピュータシステムは、抽出された色特徴と深さ特徴とを融合して、色-深さ融合特徴を生成することができる。コンピュータシステムは、色特徴及び深さ特徴を連結し、1×1畳み込みして、マルチレベルで色特徴と深さ特徴とを融合することで、色-深さ融合特徴として導出することができる。
【0152】
ブロックS806において、コンピュータシステムは、色-深さ特徴を特徴ピラミッドネットワーク(FPN)に適用して、色-深さFPN特徴を生成することができる。
【0153】
ブロックS808において、コンピュータシステムは、色-深さ特徴を領域提案ネットワーク(RPN)に適用して、物体関心領域を抽出することができる。
【0154】
ブロックS810において、コンピュータシステムは、色-深さFPN特徴及び物体関心領域を関心領域アライン層に適用して、関心領域色-深さFPN特徴(FRoI
S)及び物体関心領域特徴(FRoI
L)を抽出することができる。
【0155】
図9は、本発明の一実施例に係る階層的オクルージョン推論プロセス(S900)の例示的なフローを示す図である。階層的オクルージョン推論プロセスは、階層的オクルージョン推論モジュールで遂行ことができ、ブロックS706と実質的に同一であり得る。
【0156】
ブロックS902において、コンピュータシステムは、関心領域色-深さFPN特徴(FRoI
S)及び物体関心領域特徴(FRoI
L)に基づいて、バウンディングボックス特徴(FB)を抽出することができる。関心領域色-深さFPN特徴(FRoI
S)は、3×3逆畳み込み層に供給され、14×14のサイズにアップサンプリングされた物体関心領域特徴は、3つの3×3畳み込み層に伝達され、このような作業のアウトプットがバウンディングボックス特徴(FB)として使用され得る。
【0157】
ブロックS904において、コンピュータシステムは、バウンディングボックス特徴(FB)に基づいて、不可視物体インスタンスのクラス(C)及びバウンディングボックス(B)を抽出することができる。バウンディングボックス特徴(FB)が一つの全結合層606に供給されることでクラス(C)が抽出され、バウンディングボックス特徴(FB)が他の全結合層608に供給されることで任意の物体インスタンスに対するバウンディングボックス(B)が抽出され得る。
【0158】
ブロックS906において、コンピュータシステムは、物体関心領域特徴(FRoI
L)及びバウンディングボックス特徴(FB)に基づいて、不可視物体インスタンスの可視特徴(FV)及び可視マスク(V)を抽出することができる。バウンディングボックス特徴(FB)と物体関心領域特徴(FRoI
L) とが、畳み込み層を含む階層的融合モジュール又は全結合層で融合されることで可視特徴(FV)が抽出され、可視特徴(FV)が逆畳み込み、又は全結合層で演算されることで可視マスク(V)が抽出され得る。
【0159】
ブロックS908において、コンピュータシステムは、物体関心領域特徴(FRoI
L)、バウンディングボックス特徴(FB)、及び可視特徴(FV)に基づいて、不可視物体インスタンスのアモーダル特徴(FA)及びアモーダルマスク(A)を抽出することができる。バウンディングボックス特徴(FB)、物体関心領域特徴(FRoI
L)、及び可視特徴(FV)が、畳み込み層を含む階層的融合モジュール又は全結合層で融合されることでアモーダル特徴(FA)が抽出され、アモーダル特徴(FA)が逆畳み込み、又は全結合層で演算されることでアモーダルマスク(A)が抽出され得る。他の実施例において、ブロックS908において、アモーダル特徴及びアモーダルマスク(A)の代わりに、不可視特徴及び不可視マスク(IV)を抽出することもできる。
【0160】
ブロックS910において、コンピュータシステムは、物体関心領域特徴(FRoI
L)、バウンディングボックス特徴(FB)、可視特徴(FV)、及びアモーダル特徴(FA)(又は、不可視特徴)に基づいて、不可視物体インスタンスのオクルージョン特徴(FO)及びオクルージョンの有無(O)を抽出することができる。バウンディングボックス特徴(FB)、物体関心領域特徴(FRoI
L)、可視特徴(FV)、及びアモーダル特徴(FA)(又は、不可視特徴)が、畳み込み層を含む階層融モジュール又は全結合層で融合されることでオクルージョン特徴(FO)が抽出され、オクルージョン特徴(FO)が逆畳み込み、又は全結合層で演算されることでオクルージョンの有無(O)が抽出され得る。
【0161】
上述した方法及びプロセスは、いずれも、1つ以上の汎用のコンピュータ又はプロセッサによって行われるソフトウェアコードモジュールで具現され、また、完全自動化可能である。コードモジュールは、任意タイプのコンピュータ読み取り可能な格納媒体又は他のコンピュータストレージ装置に格納され得る。上述した方法は、一部又は全部が特殊のコンピュータハードウェアで具現され得る。
【0162】
本明細書に記載及び/又は添付図面に記載のフローチャートにおいて、任意の一般的な説明、要素又はブロックは、特定の論理関数又は要素を具現するための一つ以上の実行可能な命令を含むコード、モジュール、セグメント又は一部分を潜在的に表すものと理解されるべきである。ルーチン。代案例として、ここに説明された例の範囲内に含まれ、ここで理解できる機能によって実質的に同期して又は逆順に、要素又は機能が削除、図示、議論されたものから順に実行され得る。
【0163】
上述の実施例について多くの変形及び修正を加えることができ、その要素は、他の許容可能な例の一つであると理解されるべきである。このような修正及び変形は、いずれも本開示の範囲内に含まれ、添付の請求範囲によって保護されることを意図している。以上で説明した本発明に係る実施例は、種々のコンピューターの構成要素を介して実行され得るプログラムコマンドの形態に実現されてコンピューター読み取り可能な記録媒体に記録され得る。前記コンピューターで読み取り可能な記録媒体は、プログラム命令、データファイル、データ構造などを単独で又は組み合わせで含むことができる。上記コンピューターで読み取り可能な記録媒体に記録されるプログラム命令は、本発明のために特別に設計及び構成されたもの、又はコンピューターソフトウェア分野の当業者にとって公知でかつ使用可能なものであり得る。コンピューター読み取り可能な記録媒体としては、例えば、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical media)、及びROM、RAM、フラッシュメモリーなどのようなプログラムコマンドを格納して実行するように特別に構成されたハードウェア装置が挙げられる。プログラムコマンドには、例えば、コンパイラーによって作られるもののような機械語コードだけでなく、インタプリターなどを使用してコンピューターによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を実行するため、一つ以上のソフトウェアモジュールとして作動するように構成することができ、その逆も同様である。
【0164】
以上で、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されていたが、これは、本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明は、上述した実施例に限定されるものではなく、本発明が属する技術分野で通常の知識を有する者であれば、上述のような記載から種々の修正及び変形を図ることができる。
【0165】
従って、本発明の思想は、上述の実施例に限定されてはならず、後述の特許請求の範囲だけでなく、本特許請求の範囲と均等又は等価的に変形された全てのものが本発明の思想の範疇に属されると言える。
【符号の説明】
【0166】
116:不可視物体アモーダルインスタンスセグメンテーションネットワーク(UOAIS-Net)
118:色-深さ融合バックボーン
120:階層的オクルージョン有無推論モジュール