特開2023-131087 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ クヮンジュ・インスティテュート・オブ・サイエンス・アンド・テクノロジーの特許一覧

特開2023-131087階層的オクルージョン推論モジュール並びにこれを用いた不可視物体インスタンスセグメンテーションのシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023131087

(43)【公開日】2023-09-21

(54)【発明の名称】階層的オクルージョン推論モジュール並びにこれを用いた不可視物体インスタンスセグメンテーションのシステム及び方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20230913BHJP

G06T 7/11 20170101ALI20230913BHJP

G06N 20/00 20190101ALI20230913BHJP

G06N 3/02 20060101ALN20230913BHJP

【ＦＩ】

G06T7/00 350C

G06T7/11

G06N20/00

G06N3/02

【審査請求】有

【請求項の数】39

【出願形態】ＯＬ

(21)【出願番号】P 2022149728

(22)【出願日】2022-09-21

(31)【優先権主張番号】10-2022-0029692

(32)【優先日】2022-03-08

(33)【優先権主張国・地域又は機関】KR

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り１．ＵｎｓｅｅｎＯｂｊｅｃｔＡｍｏｄａｌＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎｖｉａＨｉｅｒａｒｃｈｉｃａｌＯｃｃｌｕｓｉｏｎＭｏｄｅｌｉｎｇ掲載日：２０２１年９月２３日掲載アドレス：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ

(71)【出願人】

【識別番号】507373508

【氏名又は名称】クヮンジュ・インスティテュート・オブ・サイエンス・アンド・テクノロジー

(74)【代理人】

【識別番号】100179969

【弁理士】

【氏名又は名称】駒井慎二

(72)【発明者】

【氏名】ペク・スンヒョク

(72)【発明者】

【氏名】イ・ギュビン

(72)【発明者】

【氏名】イ・ジュスン

(72)【発明者】

【氏名】キム・テウォン

(72)【発明者】

【氏名】カン・レヨン

(72)【発明者】

【氏名】ノ・サンジュン

(72)【発明者】

【氏名】パク・ソンホ

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096FA02

5L096FA18

5L096GA10

5L096HA11

(57)【要約】（修正有）

【課題】階層的オクルージョン推論モジュール及びこれを用いた不可視物体インスタンスセグメンテーションのシステム及び方法を提供する。
【解決手段】オクルージョン推論方法は、物体インスタンスを含む雑然としたシーン画像の関心領域色－深さＦＰＮ特徴及び物体関心領域特徴を受信して、物体インスタンスのバウンディングボックス特徴を導出するステップと、それらの特徴を融合してさらに可視特徴を導出するステップと、それらの特徴を融合してさらに物体インスタンスのアモーダル特徴を導出するステップと、それらの特徴を融合してさらに物体インスタンスのオクルージョン特徴を導出するステップと、物体インスタンスのオクルージョン特徴を逆畳み込みして、物体インスタンスのオクルージョンの有無を推論するステップと、を含む。
【選択図】図９

【特許請求の範囲】

【請求項1】

コンピュータシステムの少なくとも一つのプロセッサによって行われる階層的オクルージョン推論方法であって、
上記コンピュータシステムが、少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得するステップ；
上記コンピュータシステムが、上記画像特徴及び物体関心領域特徴から、上記物体インスタンスの可視特徴を導出するステップ；
上記コンピュータシステムが、上記物体関心領域特徴及び上記可視特徴を融合して、上記物体インスタンスのオクルージョン包含領域特徴を導出するステップ；及び、
上記コンピュータシステムが、上記オクルージョン包含領域特徴から、上記物体インスタンスのオクルージョン包含領域マスクを導出するステップ；
を含む、階層的オクルージョン推論方法。

【請求項2】

上記コンピュータシステムが、上記物体関心領域特徴及び上記可視特徴を融合して、上記物体インスタンスのオクルージョン包含領域特徴を導出するステップは、
上記コンピュータシステムが、上記物体関心領域特徴及び上記可視特徴を、畳み込み層を含む階層的融合モジュール又は全結合層で融合するステップ；
を含む、請求項１に記載の階層的オクルージョン推論方法。

【請求項3】

上記コンピュータシステムが、上記オクルージョン包含領域特徴から、上記物体インスタンスのオクルージョン包含領域マスクを導出するステップは、
上記コンピュータシステムが、上記物体インスタンスの上記オクルージョン包含領域を逆畳み込み、又は全結合層で演算して、上記物体インスタンスのオクルージョン包含領域マスクを抽出するステップ；
を含む、請求項１に記載の階層的オクルージョン推論方法。

【請求項4】

コンピュータシステムの少なくとも１つのプロセッサによって行われる階層的オクルージョン推論方法であって、
上記コンピュータシステムが、少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得するステップ；
上記コンピュータシステムが、上記画像特徴及び物体関心領域特徴から、上記物体インスタンスの可視特徴、オクルージョン包含領域特徴を導出するステップ；
上記コンピュータシステムが、上記物体関心領域特徴、上記可視特徴、及び上記オクルージョン包含領域特徴を融合して、上記物体インスタンスのオクルージョン特徴を導出するステップ；及び、
上記コンピュータシステムが、上記物体インスタンスのオクルージョン特徴から、上記物体インスタンスのオクルージョンの有無を推論するステップ；
を含む、階層的オクルージョン推論方法。

【請求項5】

上記コンピュータシステムが、上記物体関心領域特徴、上記可視特徴、及び上記オクルージョン包含領域特徴を融合して、上記物体インスタンスのオクルージョン特徴を導出するステップは、
上記コンピュータシステムが、上記物体関心領域特徴、上記可視特徴、及び上記オクルージョン包含領域特徴を、畳み込み層を含む階層的融合モジュール又は全結合層で融合するステップ；
を含む、請求項４に記載の階層的オクルージョン推論方法。

【請求項6】

上記コンピュータシステムが、上記物体インスタンスのオクルージョン特徴から、上記物体インスタンスのオクルージョンの有無を推論するステップは、
上記コンピュータシステムが、上記物体インスタンスの上記オクルージョン特徴を逆畳み込み、又は全結合層で演算して、上記物体インスタンスのオクルージョンの有無を推論するステップ；
を含む、請求項４に記載の階層的オクルージョン推論方法。

【請求項7】

上記画像特徴は、色特徴、深さ特徴、及び色－深さ融合特徴のうちの少なくとも１つを含む、請求項１又は４に記載の階層的オクルージョン推論方法。

【請求項8】

上記オクルージョン包含領域特徴は、アモーダル特徴及び不可視特徴のうちの少なくとも１つを含む、請求項１又は４に記載の階層的オクルージョン推論方法。

【請求項9】

上記コンピュータシステムが、少なくとも１つの物体インスタンスを含む雑然としたシーン画像から導出された関心領域色－深さＦＰＮ特徴及び上記物体関心領域特徴を受信して、上記物体インスタンスのバウンディングボックス特徴を導出するステップ；及び、
上記コンピュータシステムが、上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記物体インスタンスの可視特徴を導出するステップ；
をさらに含む、請求項１又は４に記載の階層的オクルージョン推論方法。

【請求項10】

上記コンピュータシステムが、上記物体インスタンスのバウンディングボックス特徴に基づいて、上記物体インスタンスのクラス及びバウンディングボックスを抽出するステップ；
をさらに含む、請求項９に記載の階層的オクルージョン推論方法。

【請求項11】

上記コンピュータシステムが、上記物体インスタンスのバウンディングボックス特徴に基づいて、上記物体インスタンスのクラス及びバウンディングボックスを抽出するステップは、
上記コンピュータシステムが、上記バウンディングボックス特徴を全結合層に供給して、上記クラス及びバウンディングボックスを抽出するステップ；
を含む、請求項１０に記載の階層的オクルージョン推論方法。

【請求項12】

上記コンピュータシステムが、上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記物体インスタンスの可視特徴を導出するステップは、
上記コンピュータシステムが、上記物体関心領域特徴及び上記バウンディングボックス特徴を、畳み込み層を含む階層的融合モジュール又は全結合層で融合するステップ；
を含む、請求項９に記載の階層的オクルージョン推論方法。

【請求項13】

上記コンピュータシステムが、上記物体インスタンスの可視特徴から、上記物体インスタンスの可視マスクを抽出するステップ；
をさらに含む、請求項９に記載の階層的オクルージョン推論方法。

【請求項14】

上記コンピュータシステムが、上記物体インスタンスの可視特徴から、上記物体インスタンスの可視マスクを抽出するステップは、
上記コンピュータシステムが、上記物体インスタンスの可視特徴を逆畳み込み、又は全結合層で演算して、上記物体インスタンスの可視マスクを抽出するステップ；
を含む、請求項１３に記載の階層的オクルージョン推論方法。

【請求項15】

プロセッサ；及び、
上記プロセッサによって階層的オクルージョン推論モジュールを実行するコマンドを含むコンピュータ読み取り可能な媒体；を含み、
上記階層的オクルージョン推論モジュールは、
少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得する手段；
上記画像特徴及び物体関心領域特徴から、上記物体インスタンスの可視特徴を導出する手段；
上記物体関心領域特徴及び上記可視特徴を融合して、上記物体インスタンスのオクルージョン包含領域特徴を導出する手段；及び、
上記オクルージョン包含領域特徴から、上記物体インスタンスのオクルージョン包含領域マスクを導出する手段；
を含む、システム。

【請求項16】

上記物体関心領域特徴及び上記可視特徴を融合して、上記物体インスタンスのオクルージョン包含領域特徴を導出する手段は、
上記物体関心領域特徴及び上記可視特徴が、畳み込み層を含む階層的融合モジュール又は全結合層で融合される手段；
を含む、請求項１５に記載のシステム。

【請求項17】

上記オクルージョン包含領域特徴から、上記物体インスタンスのオクルージョン包含領域マスクを導出するステップは、
上記物体インスタンスの上記オクルージョン包含領域特徴を逆畳み込み、又は全結合層で演算して、上記物体インスタンスのオクルージョン包含領域マスクを抽出する手段；
を含む、請求項１５に記載のシステム。

【請求項18】

プロセッサ；及び、
上記プロセッサによって階層的オクルージョン推論モジュールを実行するコマンドを含むコンピュータ読み取り可能な媒体；を含み、
上記階層的オクルージョン推論モジュールは、
少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得する手段；
上記画像特徴及び物体関心領域特徴から、上記物体インスタンスの可視特徴及びオクルージョン包含領域特徴を導出する手段；
上記物体関心領域特徴、上記可視特徴、及び上記オクルージョン包含領域特徴を融合して、上記物体インスタンスのオクルージョン特徴を導出する手段；及び、
上記物体インスタンスのオクルージョン特徴から、上記物体インスタンスのオクルージョンの有無を推論する手段；
を含む、システム。

【請求項19】

上記物体関心領域特徴、上記可視特徴、及び上記オクルージョン包含領域特徴を融合して、上記物体インスタンスのオクルージョン特徴を導出する手段は、
上記物体関心領域特徴、上記可視特徴、及び上記オクルージョン包含領域特徴が、畳み込み層を含む階層的融合モジュール又は全結合層で融合される手段；
を含む、請求項１８に記載のシステム。

【請求項20】

上記物体インスタンスのオクルージョン特徴から、上記物体インスタンスのオクルージョンの有無を推論する手段は、
上記物体インスタンスの上記オクルージョン特徴を逆畳み込み、又は全結合層で演算して、上記物体インスタンスのオクルージョンの有無を推論する手段；
を含む、請求項１８に記載のシステム。

【請求項21】

上記画像特徴は、色特徴、深さ特徴、及び色－深さ融合特徴のうちの少なくとも１つを含む、請求項１５又は１９に記載のシステム。

【請求項22】

上記オクルージョン包含領域特徴は、アモーダル特徴及び不可視特徴のうちの少なくとも１つを含む、請求項１５又は１９に記載のシステム。

【請求項23】

少なくとも１つの物体インスタンスを含む雑然としたシーン画像から導出された関心領域色－深さＦＰＮ特徴及び上記物体関心領域特徴を受信して、上記物体インスタンスのバウンディングボックス特徴を導出する手段；及び、
上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記物体インスタンスの可視特徴を導出する手段；
をさらに含む、請求項１５又は請求項１９に記載のシステム。

【請求項24】

上記物体インスタンスのバウンディングボックス特徴に基づいて、上記物体インスタンスのクラス及びバウンディングボックスを抽出する手段；
をさらに含む、請求項２３に記載のシステム。

【請求項25】

上記物体インスタンスのバウンディングボックス特徴に基づいて、上記物体インスタンスのクラス及びバウンディングボックスを抽出する手段は、
上記バウンディングボックス特徴を全結合層に供給して、上記クラス及びバウンディングボックスを抽出する手段；
を含む、請求項２４にシステム。

【請求項26】

上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記物体インスタンスの可視特徴を導出する手段は、
上記物体関心領域特徴及び上記バウンディングボックス特徴が、畳み込み層を含む階層的融合モジュール又は全結合層で融合される手段；
を含む、請求項２３に記載のシステム。

【請求項27】

上記物体インスタンスの可視特徴から、上記物体インスタンスの可視マスクを抽出する手段；
をさらに含む、請求項２３に記載のシステム。

【請求項28】

上記物体インスタンスの可視特徴から、上記物体インスタンスの可視マスクを抽出する手段は、
上記物体インスタンスの上記可視特徴を逆畳み込み、又は全結合層で演算して、上記物体インスタンスの可視マスクを抽出する手段；
を含む、請求項２７に記載のシステム。

【請求項29】

コンピュータシステムの少なくとも１つのプロセッサによって行われる不可視物体インスタンスアモーダルセグメンテーション方法であって、
上記コンピュータシステムが、少なくとも１つの不可視物体インスタンスを含む雑然としたシーン画像を受信し、色特徴及び深さ特徴をそれぞれ導出し、融合して、色－深さ融合特徴を生成するステップ；
上記コンピュータシステムが、上記色－深さ融合特徴を、特徴ピラミッドネットワークに適用して色－深さＦＰＮ特徴を抽出し、領域提案ネットワークに適用して物体関心領域を抽出するステップ；
上記コンピュータシステムが、上記色－深さＦＰＮ特徴と、上記物体関心領域から、関心領域色－深さＦＰＮ特徴及び物体関心領域特徴を抽出するステップ；
上記コンピュータシステムが、上記関心領域色－深さＦＰＮ特徴及び物体関心領域特徴から、上記不可視物体インスタンスのバウンディングボックス特徴及びバウンディングボックスを導出するステップ；
上記コンピュータシステムが、上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記不可視物体インスタンスの可視特徴及び可視マスクを導出するステップ；
上記コンピュータシステムが、上記物体関心領域特徴、上記バウンディングボックス特徴、及び上記可視特徴を融合して、上記不可視物体インスタンスのアモーダル特徴及びアモーダルマスクを導出するステップ；
上記コンピュータシステムが、上記物体関心領域特徴、上記バウンディングボックス特徴、上記可視特徴、及びアモーダル特徴を融合して、上記不可視物体インスタンスのオクルージョン特徴及びオクルージョンの有無を導出するステップ；及び、
上記コンピュータシステムが、上記不可視物体インスタンスのバウンディングボックス、可視マスク、アモーダルマスク、及びオクルージョンの有無に基づいて、上記不可視物体インスタンスセグメンテーションを行うステップ；
を含む、不可視物体インスタンスセグメンテーション方法。

【請求項30】

上記コンピュータシステムが、上記関心領域色－深さＦＰＮ特徴及び物体関心領域特徴から、上記不可視物体インスタンスのバウンディングボックス特徴及びバウンディングボックスを導出するステップは、
上記コンピュータシステムが、上記バウンディングボックス特徴を全結合層に供給して、上記不可視物体インスタンスのバウンディングボックスを抽出するステップ；
を含む、請求項２９に記載の不可視物体インスタンスセグメンテーション方法。

【請求項31】

上記コンピュータシステムが、上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記不可視物体インスタンスの可視特徴及び可視マスクを導出するステップは、
上記コンピュータシステムが、上記物体関心領域特徴及び上記バウンディングボックス特徴を、畳み込み層を含む階層的融合モジュールで融合して、上記不可視物体インスタンスの可視特徴を導出するステップ；及び、
上記コンピュータシステムが、上記不可視物体インスタンスの可視特徴を逆畳み込みして、上記不可視物体インスタンスの可視マスクを抽出するステップ；
を含む、請求項２９に記載の不可視物体インスタンスセグメンテーション方法。

【請求項32】

上記コンピュータシステムが、上記物体関心領域特徴、上記バウンディングボックス特徴、及び上記可視特徴を融合して、上記不可視物体インスタンスのアモーダル特徴及びアモーダルマスクを導出するステップは、
上記コンピュータシステムが、上記物体関心領域特徴、上記バウンディングボックス特徴、及び上記可視特徴を、畳み込み層を含む階層的融合モジュールで融合して、上記不可視物体インスタンスのアモーダル特徴を導出するステップ；及び、
上記コンピュータシステムが、上記不可視物体インスタンスのアモーダル特徴を逆畳み込みして、上記不可視物体インスタンスのアモーダルマスクを抽出するステップ；
を含む、請求項２９に記載の不可視物体インスタンスセグメンテーション方法。

【請求項33】

上記コンピュータシステムが、上記物体関心領域特徴、上記バウンディングボックス特徴、上記可視特徴、及びアモーダル特徴を融合して、上記不可視物体インスタンスのオクルージョン特徴及びオクルージョンの有無を導出するステップは、
上記コンピュータシステムが、上記物体関心領域特徴、上記バウンディングボックス特徴、上記可視特徴、及びアモーダル特徴を、畳み込み層を含む階層的融合モジュールで融合して、上記不可視物体インスタンスのオクルージョン特徴を導出するステップ；及び、
上記コンピュータシステムが、上記不可視物体インスタンスのオクルージョン特徴を逆畳み込みして、上記不可視物体インスタンスのオクルージョンの有無を推論するステップ；
を含む、請求項２９に記載の不可視物体インスタンスセグメンテーション方法。

【請求項34】

プロセッサ；及び、
上記プロセッサによって不可視物体アモーダルインスタンスセグメンテーションネットワークを実行するコマンドを含むコンピュータ読み取り可能な媒体；を含み、
上記不可視物体アモーダルインスタンスセグメンテーションネットワークは、
少なくとも一つの不可視物体インスタンスを含む雑然としたシーン画像を受信し、色特徴及び深さ特徴をそれぞれ導出し、融合して、色－深さ融合特徴を生成し、
上記色－深さ融合特徴を、特徴ピラミッドネットワークに適用して色－深さＦＰＮ特徴を抽出し、領域提案ネットワークに適用して物体関心領域を抽出し、
上記色－深さＦＰＮ特徴と、上記物体関心領域から、関心領域色－深さＦＰＮ特徴及び物体関心領域特徴を抽出し、
上記関心領域色－深さＦＰＮ特徴及び物体関心領域特徴から、上記不可視物体インスタンスのバウンディングボックス特徴及びバウンディングボックスを導出し、
上記物体関心領域特徴及び上記バウンディングボックス特徴を融合して、上記不可視物体インスタンスの可視特徴及び可視マスクを導出し、
上記物体関心領域特徴、上記バウンディングボックス特徴、及び上記可視特徴を融合して、上記不可視物体インスタンスのアモーダル特徴及びアモーダルマスクを導出し、
上記物体関心領域特徴、上記バウンディングボックス特徴、上記可視特徴、及びアモーダル特徴を融合して、上記不可視物体インスタンスのオクルージョン特徴及びオクルージョンの有無を導出し、
上記不可視物体インスタンスのバウンディングボックス、可視マスク、アモーダルマスク、及びオクルージョンの有無に基づいて、上記不可視物体インスタンスセグメンテーションを行う、不可視物体インスタンスセグメンテーションシステム。

【請求項35】

上記不可視物体アモーダルインスタンスセグメンテーションネットワークは、
上記バウンディングボックス特徴を全結合層に供給して、上記不可視物体インスタンスのバウンディングボックスを抽出する、請求項３４に記載の不可視物体インスタンスセグメンテーションシステム。

【請求項36】

上記不可視物体アモーダルインスタンスセグメンテーションネットワークは、
上記物体関心領域特徴及び上記バウンディングボックス特徴を、畳み込み層を含む階層的融合モジュールで融合して、上記不可視物体インスタンスの可視特徴を導出し、
上記不可視物体インスタンスの可視特徴を逆畳み込みして、上記不可視物体インスタンスの可視マスクを抽出する、請求項３４に記載の不可視物体インスタンスセグメンテーションシステム。

【請求項37】

上記不可視物体アモーダルインスタンスセグメンテーションネットワークは、
上記物体関心領域特徴、上記バウンディングボックス特徴、及び上記可視特徴を、畳み込み層を含む階層的融合モジュールで融合して、上記不可視物体インスタンスのアモーダル特徴を導出し、
上記不可視物体インスタンスのアモーダル特徴を逆畳み込みして、上記不可視物体インスタンスのアモーダルマスクを抽出する、請求項３４に記載の不可視物体インスタンスセグメンテーションシステム。

【請求項38】

上記不可視物体アモーダルインスタンスセグメンテーションネットワークは、
上記物体関心領域特徴、上記バウンディングボックス特徴、上記可視特徴、及びアモーダル特徴を、畳み込み層を含む階層的融合モジュールで融合して、上記不可視物体インスタンスのオクルージョン特徴を導出し、
上記不可視物体インスタンスのオクルージョン特徴を逆畳み込みして、上記不可視物体インスタンスのオクルージョンの有無を推論する、請求項３４に記載の不可視物体インスタンスセグメンテーションシステム。

【請求項39】

少なくとも１つ以上の雑然としたシーン画像から、不可視物体インスタンスセグメンテーションを行うため、上記不可視物体アモーダルインスタンスセグメンテーションネットワークの少なくとも１つのモデルパラメータを訓練する機械学習モジュールをさらに含む、請求項３４に記載の不可視物体インスタンスセグメンテーションシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、階層的オクルージョン推論モジュール並びにこれを用いた不可視物体インスタンスセグメンテーションのシステム及び方法に関し、具体的には、雑然としたシーン画像から任意の物体インスタンスのオクルージョンの有無を検出する階層的オクルージョン推論モジュールと、当該階層的オクルージョン推論モジュールを用いて不可視物体インスタンスのセグメンテーションを行うシステム及び方法に関する。

【背景技術】

【0002】

近年、自動運転、ロボット工学、及び監視に適用される物体検知機能が注目されている。非構造的環境のロボットシステムにおいて、複数の物体が含まれた雑然としたシーン画像からロボット操作を行うためには、他の物体に隠れて見えない物体（不可視物体）を検出して区分することが可能である必要がある。

【0003】

最近、不可視物体インスタンスセグメンテーション（ＵＯＩＳ：ＵｎｓｅｅｎＯｂｊｅｃｔＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）に関する研究が提案されている。従来、不可視物体インスタンスセグメンテーション技術は、大規模合成データから物体らしさ概念（ｃｏｎｃｅｐｔｏｆｏｂｊｅｃｔ－ｎｅｓｓ）を学習することにより、カテゴリを区分しない（ｃａｔｅｇｏｒｙ－ａｇｎｏｓｔｉｃ）インスタンスセグメンテーションによって不可視物体インスタンスセグメンテーションを行うが、目に見える領域だけを認識することに焦点が当てられている。即ち、このような不可視物体インスタンスセグメンテーション（ＵＯＩＳ）に関する研究では、任意の物体インスタンスの可視領域を区分することを目標とし、雑然としたシーン、特に複雑な質感を持って他の物体によって隠された不可視物体については、正確な検出を行うことが困難である。

【0004】

なお、ヒトは、隠された物体を認知する時、物体の一部が見えなくても全体構造を推論することができ、これをアモーダル知覚（ａｍｏｄａｌｐｅｒｃｅｐｔｉｏｎ）と呼ぶ。このようなアモーダル知覚を模倣するため、アモーダルインスタンスセグメンテーション（ＡＩＳ：ＡｍｏｄａｌＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）の研究が提案されている。このようなアモーダルインスタンスセグメンテーション（ＡＩＳ）研究の目標は、シーン画像から各物体インスタンスのアモーダルマスク及び可視マスクを全て区分することにある。このようなアモーダルインスタンスセグメンテーションに関する研究は、多様なデータセットから不可視物体のアモーダルマスクセグメンテーションが行えることを立証しているが、特定セットの訓練された物体だけを感知することができる。即ち、検出対象物体に関する事前知識が提供された物体集合から任意の検出対象物体の境界を認識できるだけであり、新しい不可視物体の検出のためには、別途の訓練データ及びモデルの再学習が必要となる。

【発明の概要】

【発明が解決しようとする課題】

【0005】

上述した問題点を解決するため、本発明は、雑然としたシーン画像から、バウンディングボックス、可視マスク、アモーダルマスク、及び任意の物体インスタンスのオクルージョンの有無を順次推論していく、階層的オクルージョン推論モデルを提案することを目的としている。

【0006】

また、本発明は、このような階層的オクルージョン推論モデルを用いて、雑然としたシーン画像から、不可視物体インスタンスセグメンテーションを行うことを目的としている。

【課題を解決するための手段】

【0007】

本発明は、装置（システム）、方法、コンピュータ読み取り可能な媒体に格納されたコンピュータプログラム、又はコンピュータプログラムが格納されたコンピュータ読み取り可能な媒体を含む種々の方式で具現することができる。

【0008】

本発明の一実施例に係るオクルージョン推論方法は、コンピュータシステムの少なくとも一つのプロセッサによって行われる階層的オクルージョン推論方法であって、コンピュータシステムが、少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得するステップ；コンピュータシステムが、画像特徴及び物体関心領域特徴から、物体インスタンスの可視特徴を導出するステップ；コンピュータシステムが、物体関心領域特徴及び可視特徴を融合して、物体インスタンスのオクルージョン包含領域特徴を導出するステップ；及び、コンピュータシステムが、オクルージョン包含領域特徴から、物体インスタンスのオクルージョン包含領域マスクを導出するステップ；を含む。

【0009】

好ましくは、コンピュータシステムが、物体関心領域特徴及び可視特徴を融合して、物体インスタンスのオクルージョン包含領域特徴を導出するステップは、コンピュータシステムが、物体関心領域特徴及び可視特徴を、畳み込み層を含む階層的融合モジュール又は全結合層で融合するステップを含む。

【0010】

より好ましくは、コンピュータシステムが、オクルージョン包含領域特徴から、物体インスタンスのオクルージョン包含領域マスクを導出するステップは、コンピュータシステムが、物体インスタンスのオクルージョン包含領域特徴を逆畳み込み、又は全結合層で演算して、物体インスタンスのオクルージョン包含領域マスクを抽出するステップを含む。

【0011】

本発明の他の実施例に係るオクルージョン推論方法は、コンピュータシステムの少なくとも１つのプロセッサによって行われる階層的オクルージョン推論方法であって、コンピュータシステムが、少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得するステップ；コンピュータシステムが、画像特徴及び物体関心領域特徴から、物体インスタンスの可視特徴及びオクルージョン包含領域特徴を導出するステップ；コンピュータシステムが、物体関心領域特徴、可視特徴、及びオクルージョン包含領域特徴を融合して、物体インスタンスのオクルージョン特徴を導出するステップ；及び、コンピュータシステムが、物体インスタンスのオクルージョン特徴から、物体インスタンスのオクルージョンの有無を推論するステップ；を含む。

【0012】

好ましくは、コンピュータシステムが、物体関心領域特徴、可視特徴、及びオクルージョン包含領域特徴を融合して、物体インスタンスのオクルージョン特徴を導出するステップは、コンピュータシステムが、物体関心領域特徴、可視特徴、及びオクルージョン包含領域特徴を、畳み込み層を含む階層的融合モジュール又は全結合層で融合するステップを含む。

【0013】

より好ましくは、コンピュータシステムが、物体インスタンスのオクルージョン特徴から、物体インスタンスのオクルージョンの有無を推論するステップは、コンピュータシステムが、物体インスタンスのオクルージョン特徴を逆畳み込み、又は全結合層で演算して、物体インスタンスのオクルージョンの有無を推論するステップを含む。

【0014】

より好ましくは、画像特徴は、色特徴、深さ特徴、及び色－深さ融合特徴のうちの少なくとも１つを含む。

【0015】

より好ましくは、オクルージョン包含領域特徴は、アモーダル特徴及び不可視特徴のうちの少なくとも１つを含む。

【0016】

より好ましくは、コンピュータシステムが、少なくとも１つの物体インスタンスを含む雑然としたシーン画像から導出された関心領域色－深さＦＰＮ特徴及び物体関心領域特徴を受信して、物体インスタンスのバウンディングボックス特徴を導出するステップ；及び、コンピュータシステムが、物体関心領域特徴及びバウンディングボックス特徴を融合して、物体インスタンスの可視特徴を導出するステップをさらに含む。

【0017】

より好ましくは、コンピュータシステムが、物体インスタンスのバウンディングボックス特徴に基づいて、物体インスタンスのクラス及びバウンディングボックスを抽出するステップをさらに含む。

【0018】

より好ましくは、コンピュータシステムが、物体インスタンスのバウンディングボックス特徴に基づいて、物体インスタンスのクラス及びバウンディングボックスを抽出するステップは、コンピュータシステムが、バウンディングボックス特徴を全結合層に供給して、クラス及びバウンディングボックスを抽出するステップを含む。

【0019】

より好ましくは、コンピュータシステムが、物体関心領域特徴及びバウンディングボックス特徴を融合して、物体インスタンスの可視特徴を導出するステップは、コンピュータシステムが、物体関心領域特徴及びバウンディングボックス特徴を、畳み込み層を含む階層的融合モジュール又は全結合層で融合するステップを含む。

【0020】

より好ましくは、コンピュータシステムが、物体インスタンスの可視特徴から、物体インスタンスの可視マスクを抽出するステップをさらに含む。

【0021】

より好ましくは、コンピュータシステムが、物体インスタンスの可視特徴から、物体インスタンスの可視マスクを抽出するステップは、コンピュータシステムが、物体インスタンスの可視特徴を逆畳み込み、又は全結合層で演算して、物体インスタンスの可視マスクを抽出するステップを含む。

【0022】

本発明の一実施例に係るシステムは、プロセッサ；及び、プロセッサによって階層的オクルージョン推論モジュールを実行するコマンドを含むコンピュータ読み取り可能な媒体；を含み、階層的オクルージョン推論モジュールは、少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得する手段；画像特徴及び物体関心領域特徴から、物体インスタンスの可視特徴を導出する手段；物体関心領域特徴及び可視特徴を融合して、物体インスタンスのオクルージョン包含領域特徴を導出する手段；及び、オクルージョン包含領域特徴から、物体インスタンスのオクルージョン包含領域マスクを導出する手段；を含む。

【0023】

好ましくは、物体関心領域特徴及び可視特徴を融合して、物体インスタンスのオクルージョン包含領域特徴を導出する手段は、物体関心領域特徴及び可視特徴が、畳み込み層を含む階層的融合モジュール又は全結合層で融合される手段を含む。

【0024】

より好ましくは、オクルージョン包含領域特徴から、物体インスタンスのオクルージョン包含領域マスクを導出する手段は、物体インスタンスのオクルージョン包含領域特徴を逆畳み込み、又は全結合層で演算して、物体インスタンスのオクルージョン包含領域マスクを抽出する手段を含む。

【0025】

本発明の一実施例に係るシステムは、プロセッサ；及び、プロセッサによって階層的オクルージョン推論モジュールを実行するコマンドを含むコンピュータ読み取り可能な媒体；を含み、階層的オクルージョン推論モジュールは、少なくとも一つの物体インスタンスを含む雑然としたシーン画像から導出された画像特徴及び物体関心領域特徴を獲得する手段；画像特徴及び物体関心領域特徴から、物体インスタンスの可視特徴、オクルージョン包含領域特徴を導出する手段；物体関心領域特徴、可視特徴、及びオクルージョン包含領域特徴を融合して、物体インスタンスのオクルージョン特徴を導出する手段；及び、物体インスタンスのオクルージョン特徴から、物体インスタンスのオクルージョンの有無を推論する手段；を含む。

【0026】

より好ましくは、物体関心領域特徴、可視特徴、及びオクルージョン包含領域特徴を融合して、物体インスタンスのオクルージョン特徴を導出する手段は、物体関心領域特徴、可視特徴、及びオクルージョン包含領域特徴が、畳み込み層を含む階層的融合モジュール又は全結合層で融合される手段を含む。

【0027】

より好ましくは、物体インスタンスのオクルージョン特徴から、物体インスタンスのオクルージョンの有無を推論する手段は、物体インスタンスのオクルージョン特徴を逆畳み込み、又は全結合層で演算して、物体インスタンスのオクルージョンの有無を推論する手段を含む。

【0028】

より好ましくは、画像特徴は、色特徴、深さ特徴、及び色－深さ融合特徴のうちの少なくとも１つを含む。

【0029】

より好ましくは、オクルージョン包含領域特徴は、アモーダル特徴及び不可視特徴のうちの少なくとも１つを含む。

【0030】

より好ましくは、少なくとも１つの物体インスタンスを含む雑然としたシーン画像から導出された関心領域色－深さＦＰＮ特徴及び物体関心領域特徴を受信して、物体インスタンスのバウンディングボックス特徴を導出する手段；及び、物体関心領域特徴及びバウンディングボックス特徴を融合して、物体インスタンスの可視特徴を導出する手段；をさらに含む。

【0031】

より好ましくは、物体インスタンスのバウンディングボックス特徴に基づいて、物体インスタンスのクラス及びバウンディングボックスを抽出する手段をさらに含む。

【0032】

より好ましくは、物体インスタンスのバウンディングボックス特徴に基づいて、物体インスタンスのクラス及びバウンディングボックスを抽出する手段は、バウンディングボックス特徴を全結合層に供給して、クラス及びバウンディングボックスを抽出する手段を含む。

【0033】

より好ましくは、物体関心領域特徴及びバウンディングボックス特徴を融合して、物体インスタンスの可視特徴を導出する手段は、物体関心領域特徴及びバウンディングボックス特徴が、畳み込み層を含む階層的融合モジュール又は全結合層で融合される手段を含む。

【0034】

より好ましくは、物体インスタンスの可視特徴から、物体インスタンスの可視マスクを抽出する手段をさらに含む。

【0035】

より好ましくは、物体インスタンスの可視特徴から、物体インスタンスの可視マスクを抽出する手段は、物体インスタンスの可視特徴を逆畳み込み、又は全結合層で演算して、物体インスタンスの可視マスクを抽出する手段を含む。

【0036】

本発明の一実施例に係る不可視物体インスタンスセグメンテーション方法は、コンピュータシステムの少なくとも１つのプロセッサによって行われる不可視物体インスタンスのアモーダルセグメンテーション方法であって、コンピュータシステムが、少なくとも１つ不可視物体インスタンスを含む雑然としたシーン画像を受信し、色特徴及び深さ特徴をそれぞれ導出し、融合して、色－深さ融合特徴を生成するステップ；コンピュータシステムが、色－深さ融合特徴を、特徴ピラミッドネットワークに適用して色－深さＦＰＮ特徴を抽出し、領域提案ネットワークに適用して物体関心領域を抽出するステップ；コンピュータシステムが、色－深さＦＰＮ特徴と、物体関心領域から、関心領域色－深さＦＰＮ特徴及び物体関心領域特徴を抽出するステップ；コンピュータシステムが、関心領域色－深さＦＰＮ特徴及び物体関心領域特徴から、不可視物体インスタンスのバウンディングボックス特徴及びバウンディングボックスを導出するステップ；コンピュータシステムが、物体関心領域特徴及びバウンディングボックス特徴を融合して、不可視物体インスタンスの可視特徴及び可視マスクを導出するステップ；コンピュータシステムが、物体関心領域特徴、バウンディングボックス特徴、及び可視特徴を融合して、不可視物体インスタンスのアモーダル特徴及びアモーダルマスクを導出するステップ；コンピュータシステムが、物体関心領域特徴、バウンディングボックス特徴、可視特徴、及びアモーダル特徴を融合して、不可視物体インスタンスのオクルージョン特徴及びオクルージョンの有無を導出するステップ；及び、コンピュータシステムが、不可視物体インスタンスのバウンディングボックス、可視マスク、アモーダルマスク、及びオクルージョンの有無に基づいて、不可視物体インスタンスセグメンテーションを行うステップ；を含む。

【0037】

本発明の一実施例では、コンピュータシステムが、関心領域色－深さＦＰＮ特徴及び物体関心領域特徴から、不可視物体インスタンスのバウンディングボックス特徴及びバウンディングボックスを導出するステップは、コンピュータシステムが、バウンディングボックス特徴を全結合層に供給して、不可視物体インスタンスのバウンディングボックスを抽出するステップを含む。

【0038】

本発明の一実施例では、コンピュータシステムが、物体関心領域特徴及びバウンディングボックス特徴を融合して、不可視物体インスタンスの可視特徴及び可視マスクを導出するステップは、コンピュータシステムが、物体関心領域特徴及びバウンディングボックス特徴を、畳み込み層を含む階層的融合モジュールで融合して、不可視物体インスタンスの可視特徴を導出するステップ；及び、コンピュータシステムが、不可視物体インスタンスの可視特徴を逆畳み込みして、不可視物体インスタンスの可視マスクを抽出するステップを含む。

【0039】

本発明の一実施例では、コンピュータシステムが、物体関心領域特徴、バウンディングボックス特徴、及び可視特徴を融合して、不可視物体インスタンスのアモーダル特徴及びアモーダルマスクを導出するステップは、コンピュータシステムが、物体関心領域特徴、バウンディングボックス特徴、及び可視特徴を、畳み込み層を含む階層的融合モジュールで融合して、不可視物体インスタンスのアモーダル特徴を導出するステップ；及び、コンピュータシステムが、不可視物体インスタンスのアモーダル特徴を逆畳み込みして、不可視物体インスタンスのアモーダルマスクを抽出するステップ；を含む。

【0040】

本発明の一実施例では、コンピュータシステムが、物体関心領域特徴、バウンディングボックス特徴、可視特徴、及びアモーダル特徴を融合して、不可視物体インスタンスのオクルージョン特徴及びオクルージョンの有無を導出するステップは、コンピュータシステムが、物体関心領域特徴、バウンディングボックス特徴、可視特徴、及びアモーダル特徴を、畳み込み層を含む階層的融合モジュールで融合して、不可視物体インスタンスのオクルージョン特徴を導出するステップ；及び、コンピュータシステムが、不可視物体インスタンスのオクルージョン特徴を逆畳み込みして、不可視物体インスタンスのオクルージョンの有無を推論するステップ；を含む。

【0041】

本発明の一実施例に係る不可視物体インスタンスセグメンテーションシステムは、プロセッサ；及び、プロセッサによって不可視物体アモーダルインスタンスセグメンテーションネットワークを実行するコマンドを含むコンピュータ読み取り可能な媒体；を含む。不可視物体アモーダルインスタンスセグメンテーションネットワークは、少なくとも一つの不可視物体インスタンスを含む雑然としたシーン画像を受信し、色特徴及び深さ特徴をそれぞれ導出し、融合して、色－深さ融合特徴を生成し、色－深さ融合特徴を、特徴ピラミッドネットワークに適用して色－深さＦＰＮ特徴を抽出し、領域提案ネットワークに適用して物体関心領域を抽出し、色－深さＦＰＮ特徴と、物体関心領域から、関心領域色－深さＦＰＮ特徴及び物体関心領域特徴を抽出し、関心領域色－深さＦＰＮ特徴及び物体関心領域特徴から、不可視物体インスタンスのバウンディングボックス特徴及びバウンディングボックスを導出し、物体関心領域特徴及びバウンディングボックス特徴を融合して、不可視物体インスタンスの可視特徴及び可視マスクを導出し、物体関心領域特徴、バウンディングボックス特徴、及び可視特徴を融合して、不可視物体インスタンスのアモーダル特徴及びアモーダルマスクを導出し、物体関心領域特徴、バウンディングボックス特徴、可視特徴、及びアモーダル特徴を融合して、不可視物体インスタンスのオクルージョン特徴及びオクルージョンの有無を導出し、不可視物体インスタンスのバウンディングボックス、可視マスク、アモーダルマスク、及びオクルージョンの有無に基づいて、不可視物体インスタンスセグメンテーションを行う。

【0042】

本発明の一実施例では、不可視物体アモーダルインスタンスセグメンテーションネットワークは、バウンディングボックス特徴を全結合層に供給して、不可視物体インスタンスのバウンディングボックスを抽出する。

【0043】

本発明の一実施例では、不可視物体アモーダルインスタンスセグメンテーションネットワークは、物体関心領域特徴及びバウンディングボックス特徴を、畳み込み層を含む階層的融合モジュールで融合して、不可視物体インスタンスの可視特徴を導出し、不可視物体インスタンスの可視特徴を逆畳み込みして、不可視物体インスタンスの可視マスクを抽出する。

【0044】

本発明の一実施例では、不可視物体アモーダルインスタンスセグメンテーションネットワークは、物体関心領域特徴、バウンディングボックス特徴、及び可視特徴を、畳み込み層を含む階層的融合モジュールで融合して、不可視物体インスタンスのアモーダル特徴を導出し、不可視物体インスタンスのアモーダル特徴を逆畳み込みして、不可視物体インスタンスのアモーダルマスクを抽出する。

【0045】

本発明の一実施例では、不可視物体アモーダルインスタンスセグメンテーションネットワークは、物体関心領域特徴、バウンディングボックス特徴、可視特徴、及びアモーダル特徴を、畳み込み層を含む階層的融合モジュールで融合して、不可視物体インスタンスのオクルージョン特徴を導出し、不可視物体インスタンスのオクルージョン特徴を逆畳み込みして、不可視物体インスタンスのオクルージョンの有無を推論する。

【0046】

本発明の一実施例では、少なくとも１つ以上の雑然としたシーン画像から、不可視物体インスタンスセグメンテーションを行うため、不可視物体アモーダルインスタンスセグメンテーションネットワークの少なくとも１つのモデルパラメータを訓練する機械学習モジュールをさらに含む。

【発明の効果】

【0047】

本発明によれば、次のような効果が得られる。

【0048】

本発明では、雑然としたシーン画像から、カテゴリを区分しない任意の物体インスタンスのバウンディングボックス、可視マスク、アモーダルマスク、及びオクルージョンの有無を階層的に検出し、前階層から導出された特徴を全て融合することにより、任意の物体インスタンスのオクルージョンの有無を正確に推論することが可能である。

【0049】

本発明では、オクルージョン推論モデルを用いて、アモーダル知覚に基づいて、物体インスタンスのオクルージョンの有無を推論し、これに基づいて不可視物体を検出することにより、物体認識の正確度と速度を高めることができる。

【0050】

本発明では、雑然としたシーン画像から、複数の不可視物体インスタンスに対して、可視的セグメンテーション、アモーダルセグメンテーション、及びオクルージョン有無の推論を共に行うことができる。

【0051】

本発明では、カテゴリを区分しないアモーダルマスクのセグメンテーション方法を学習することにより、作業別のデータセット及びモデルの再学習の必要性を減らすことができる。

【0052】

本発明では、雑然としたシーン画像から、カテゴリを区分しない複数の不可視物体インスタンスを検出するに要する計算とコストを削減することにより、種々のアモーダルロボット操作に拡張することが可能である。

【0053】

本発明の効果は、上述の効果に制限されず、言及されていない他の効果は、特許請求範囲の記載から、本発明の属する技術分野において通常の知識を有する者（「通常の技術者」という）が明確に理解できるだろう。

【図面の簡単な説明】

【0054】

本発明の実施例について、添付の図面を参照して説明し、このとき、同一の参照番号は、同一の要素を示しているが、これに限定されない。

【図1】本発明の不可視物体インスタンスセグメンテーションシステムが動作し得る例示的な環境を示す図である。

【図2】不可視物体インスタンスセグメンテーションシステムに参加するように構成された例示的なコンピュータ装置を示すブロック図である。

【図3】図２に関連して不可視物体アモーダルインスタンスセグメンテーションネットワークの例示的なプロセスを示すフローチャートである。

【図4】本発明の一実施例に係る不可視物体アモーダルインスタンスセグメンテーションネットワークを示す構成図である。

【図5】本発明の一実施例に係る色－深さ融合バックボーンの一例を示す構成図である。

【図6】本発明に係る階層的オクルージョン推論モジュールの一例を示す構成図である。

【図7】本発明の一実施例に係る不可視物体インスタンスセグメンテーションプロセスの例示的なフローを示す図である。

【図8】本発明の一実施例に係る色－深さ融合特徴導出プロセスの例示的なフローを示す図である。

【図9】本発明の一実施例に係る階層的オクルージョン推論プロセスの例示的なフローを示す図である。

【発明を実施するための形態】

【0055】

以下、本発明の実施のための具体的な内容について、添付の図面を参照して詳述する。但し、以下の説明では、本発明の要旨を乱すおそれがある場合は、周知の機能や構成に関する具体的な説明を省略している。

【0056】

添付の図面において、同一又は相当する構成要素には同一の参照符号を付してある。また、後述の実施例の説明において、同一又は相当する構成要素については、重複説明を回避するため、説明を省略することがある。しかし、構成要素に関する記述が省略されていても、そのような構成要素が実施例中に包含されないと意図するのではない。

【0057】

本明細書に開示された実施例の利点及び特徴、またその達成方法は、添付の図面と共に後述の実施例を参照すれば、明確になるだろう。しかし、本発明は、後述の実施例に限定されず、種々に変更して具現することができ、本実施例は、本発明と関連した通常の技術者に発明の範疇を完全に理解させるために提供されるものに過ぎない。

【0058】

特に断りのない限り、本明細書で使用される全ての用語（技術及び科学用語を含む）は、本発明の属する技術分野において通常の知識を有する者が共通して理解できる意味で使用できるだろう。また、一般的に使用される辞書に定義されている用語は、特に別の定義がない限り、理想的に又は過度に解釈されてはならない。
＠
例えば、「技術」という用語は、システム、方法、コンピュータ読み取り可能なコマンド、モジュール、アルゴリズム、ハードウェアロジック及び／又は上述の文脈によって許容されかつ文書全体にわたって動作するものを指称する。

【0059】

本明細書で使用される用語について簡略に説明し、開示された実施例について具体的に説明する。本明細書で使用される用語は、本発明での機能を考慮して、できるだけ現在広く使用されている一般的な用語を採用しているが、これは、当該分野における技術者の意図、判例、又は新規な技術の出現などによって変化することができる。また、場合によっては、出願人が任意に選定した用語が使用されており、この場合に該当する発明の説明部分においてその意味が詳しく記載されている。従って、本発明で使用される用語は、単純に用語の名称ではなく、その用語が持つ意味と本発明の全般にわたる内容に基づいて定義されなければならない。

【0060】

本明細書において、単数を指す表現には、文脈上明確に単数であると特定しない限り、複数を指す表現が含まれる。また、複数を指す表現には、文脈上明確に複数であると特定しない限り、単数を指す表現が含まれる。明細書全体において、ある部分がある構成要素を含むとは、これは、特に反対の記載がない限り、他の構成要素を除くのではなく、他の構成要素をさらに含むことができることを意味する。

【0061】

本発明において、「含む」、「包含」などの用語は、特徴、ステップ、動作、要素及び／又は構成要素が存在することを示すことができるが、このような用語は、一つ以上の他の機能、ステップ、動作、要素、構成要素及び／又はこれらの組み合わせの追加を排除するのではない。

【0062】

本発明において、特定の構成要素が任意の他の構成要素に、「結合」、「組み合わせ」、「連結」、「関連」、又は「反応」するものと言及された場合、特定の構成要素は、他の構成要素に直接、結合、組み合わせ、連結及び／又は関連、又は反応することができるが、これに限定されない。例えば、特定の構成要素と他の構成要素との間に一つ以上の中間構成要素が存在することが可能である。また、本発明において、「及び／又は」は、列挙された一つ以上の項目のそれぞれ又は一つ以上の項目の少なくとも一部の組み合わせを含むことができる。

【0063】

本発明において、「第１」、「第２」などの用語は、特定の構成要素を他の構成要素と区別するために使用されるものであり、このような用語によって上述した構成要素が制限されることはない。例えば、「第1」の構成要素は「第２」の構成要素と同一又は類似した形態の要素を指称するために使用され得る。

【0064】

本発明において、雑然としたシーン（ｃｌｕｔｔｅｒｅｄｓｃｅｎｅ）画像は、複数の物体を含むシーンのイメージであり、他の物体によって隠された物体が含まれている。このような雑然としたシーン画像は、写真と同様な写実的な合成データセット、又は実際カメラでキャプチャーしたリアルイメージであり得る。

【0065】

本発明において、「色－深さ融合バックボーン（ＲＧＢ－ＤＦｕｓｉｏｎＢａｃｋｂｏｎｅ）」は、雑然としたシーン画像から、前景物体のインスタンスを検出するための画像特徴として、色特徴、深さ特徴、及び色－深さ融合特徴などを生成することができる。色－深さ融合バックボーンは、色特徴及び深さ特徴を抽出し、抽出された色特徴及び深さ特徴を融合して色－深さ融合特徴を生成することができる。このような色特徴、深さ特徴、及び色－深さ融合特徴が、雑然としたシーン画像から、前景物体のインスタンスを検出するための画像特徴として使用され得る。

【0066】

さらに、本発明において、色－深さ融合バックボーンは、特徴ピラミッドネットワーク（ＦＰＮ：ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋ）、領域提案ネットワーク（ＲＰＮ：ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）、及び関心領域アライン層（ＲｏＩＡｌｉｇｎＬａｙｅｒ）を含むことができる。特徴ピラミッドネットワーク（ＦＰＮ）は、色－深さ融合特徴から、色－深さＦＰＮ特徴を抽出することができ、色－深さＦＰＮ特徴が、雑然としたシーン画像から前景物体インスタンスを検出するための画像特徴として使用され得る。色－深さＦＰＮ特徴は、色－深さ融合特徴を特徴ピラミッドネットワークに適用して算出されたアウトプットであり得る。領域提案ネットワーク（ＲＰＮ）は、色－深さ融合特徴から、物体関心領域（ＲｏＩ）を抽出することができる。ここで、物体関心領域は、色－深さ融合特徴を領域提案ネットワーク（ＲＰＮ）に適用して算出されたアウトプットであり得る。関心領域アライン層は、任意の物体関心領域（ＲｏＩ）に対して、色－深さＦＰＮ特徴に基づいて関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）を抽出して、階層的オクルージョン推論モデルに提供することができる。

【0067】

本発明において、「階層的オクルージョン推論モデル（ＨＯＭ：ＨｉｅｒａｒｃｈｉｃａｌＯｃｃｌｕｓｉｏｎＭｏｄｅｌ）」は、雑然としたシーン画像から導出された画像特徴に基づいて、任意の物体インスタンスに対してバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘ）、可視マスク（ｖｉｓｉｂｌｅｍａｓｋ）、不可視マスク（ｉｎｖｉｓｉｂｌｅｍａｓｋ）、アモーダルマスク（ａｍｏｄａｌｍａｓｋ）、及びオクルージョン（ｏｃｃｌｕｓｉｏｎ）有無の推論のうちの少なくとも２つ以上を、階層的かつ順次に行うモデルを指称する。本発明の階層的オクルージョン推論モデルにおいて使用される画像特徴は、色－深さ融合バックボーンから提供される、色特徴、深さ特徴、色－深さ融合特徴、及び色－深さＦＰＮ特徴であり得る。

【0068】

本発明の階層的オクルージョン推論モデルは、雑然としたシーン画像から、まず、物体関心領域（ＲｏＩ：ＲｅｇｉｏｎｏｆＩｎｅｔｒｅｓｔ）のバウンディングボックスを推論し、次に、推論された物体関心領域のバウンディングボックスに基づいて、可視特徴、アモーダル特徴、不可視特徴、及びオクルージョン有無の特徴のうちの少なくとも２つ以上を順次予測し、可視マスク、アモーダルマスク、不可視マスク、及びオクルージョン有無のうちの２つ以上を推論するように設計され得る。

【0069】

本発明の階層的オクルージョン推論モデルは、階層的オクルージョン推論モデルを具現する手段を指称する。本発明の階層的オクルージョン推論モデルは、バウンディングボックス特徴抽出部、バウンディングボックス分岐部、可視マスク分岐部、アモーダルマスク分岐部、及びオクルージョン推論分岐部から構成され得る。なお、アモーダルマスク分岐部に代わって、不可視マスク分岐部を含んで構成することができる。

【0070】

バウンディングボックス抽出部は、関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）に基づいて、任意の物体インスタンスに対するバウンディングボックス特徴（Ｆ_Ｂ）を抽出することができる。バウンディングボックス分岐部は、バウンディングボックス特徴（Ｆ_Ｂ）に基づいて、任意の物体インスタンスに対してクラス及びバウンディングボックスを抽出することができる。バウンディングボックス特徴抽出部で抽出されたバウンディングボックス特徴（Ｆ_Ｂ）は、可視マスク分岐部、アモーダルマスク分岐部、及びオクルージョン推論分岐部にそれぞれ提供され得る。

【0071】

可視マスク分岐部は、バウンディングボックス特徴（Ｆ_Ｂ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）から可視特徴（Ｆ_Ｖ）を抽出することができる。

【0072】

アモーダルマスク分岐部は、バウンディングボックス特徴（Ｆ_Ｂ）、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、及び可視特徴（Ｆ_Ｖ）を融合して、アモーダル特徴（Ｆ_Ａ）を抽出することができる。

【0073】

不可視マスク分岐部は、バウンディングボックス特徴（Ｆ_Ｂ）、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、及び可視特徴（Ｆ_Ｖ）を融合して、不可視特徴（Ｆ_ＩＶ）を抽出することができる。

【0074】

オクルージョン推論分岐部は、バウンディングボックス特徴（Ｆ_Ｂ）、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、可視特徴（Ｆ_Ｖ）、及びアモーダル特徴（Ｆ_Ａ）を融合して、オクルージョン特徴（Ｆ_Ｏ）を抽出することができる。

【0075】

可視マスク分岐部、アモーダルマスク分岐部、及びオクルージョン推論分岐部は、それぞれ、畳み込み層（ｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒ）を含む階層的融合（ＨＦ：ＨｉｅｒａｒｃｈｉｃａｌＦｕｓｉｏｎ）モジュール又は全結合層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）を含むことができ、各階層的融合モジュール又は全結合層は、ニューラルネットワークで具現され、前階層から抽出された特徴を融合して、当該階層の特徴を抽出することができる。例えば、アモーダルマスク分岐部の階層的融合モジュール又は全結合層では、可視特徴を他の特徴と融合してアモーダル特徴を抽出し、オクルージョン推論分岐部の階層的融合モジュール又は全結合層では、可視特徴とアモーダル特徴を他の特徴と融合してオクルージョン特徴を抽出することができる。

【0076】

本発明において、「不可視物体インスタンスアモーダルセグメンテーション（ＵＯＡＩＳ：ＵｎｓｅｅｎＯｂｊｅｃｔＡｍｏｄａｌＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）ネットワーク（ＵＯＡＩＳ－Ｎｅｔ）」は、色－深さ融合バックボーンと階層的オクルージョン推論モデルとを結合して雑然としたシーン画像から特徴を抽出し、抽出された特徴に基づいて、バウンディングボックス、可視マスク、アモーダルマスク、不可視マスク、及びオクルージョンの有無を、抽出及び予測するシステムであり得る。色－深さ融合バックボーンに代わって、色特徴抽出手段、深さ特徴抽出手段などと階層的オクルージョン推論モデルとを結合することもできる。

【0077】

本発明において、「バウンディングボックス」とは、雑然としたシーン画像から前景物体インスタンスの境界に沿って抽出された閉曲線であり得る。本発明において、領域提案ネットワーク（ＲＰＮ）は、潜在的物体位置を物体関心領域（ＲｏＩ）として提案することができ、関心領域アライン層は、関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）を抽出してバウンディングボックス分岐部に提供することができる。バウンディングボックス分岐部は、２つの全結合層から構成することができ、バウンディングボックス特徴（Ｆ_Ｂ）が、１つの全結合層に供給されることでクラスが抽出され、バウンディングボックス特徴（Ｆ_Ｂ）が、他の全結合層に供給されることで任意の前景物体インスタンスに対するバウンディングボックスが抽出され得る。

【0078】

本発明において、「クラス」とは、関心領域が前景であるか背景であるかを区分する情報であり得る。本発明では、全ての前景物体インスタンスを検知するように設定することができる。本発明において、「可視マスク」とは、物体インスタンスから見える領域を指称する。本発明において、「不可視マスク」とは、物体インスタンスから見えない、即ち、他の物体に隠された領域を指称する。本発明において、「アモーダルマスク」とは、物体インスタンスの可視マスクと不可視マスクとが合わさった領域を指称する。即ち、不可視マスクとアモーダルマスクとは、オクルージョン包含領域マスクに該当する。本発明では、物体インスタンスの可視マスクのセグメンテーションを行った後、セグメンテーションされた可視マスクに基づいて、オクルージョン包含領域マスクを推論することができる。ここで、オクルージョン包含領域マスクは、アモーダルマスク及び不可視マスクを含むことができる。本発明において、「オクルージョンの有無」とは、任意の物体インスタンスが他の物体によって隠されるオクルージョン領域が存在するか否かを指称する。本発明において、オクルージョンの有無は、可視マスクとアモーダルマスクとの比率によって定義され、又は、不可視マスクが存在するか否かで定義され得る。即ち、可視マスクとアモーダルマスクとが同一であれば、該当物体インスタンスは、隠されていないものと定義でき、可視マスクよりアモーダルマスクの方が大きければ、該当物体インスタンスは隠されているものと定義でき、不可視マスクが存在すれば、該当物体インスタンスは隠されているものと定義できる。本発明では、可視マスクとオクルージョン包含領域マスクのセグメンテーションを行った後、オクルージョンの有無を推論することができる。

【0079】

本明細書に記載の例示的な技術は、雑然としたシーン画像から迅速かつ正確にオクルージョン推論を行うために、訓練画像で不可視物体アモーダルインスタンスセグメンテーションネットワーク（ＵＯＡＩＳ－Ｎｅｔ）を訓練させ、このために機械学習を適用することができる。このような機械学習は、多段階の機械学習プロセス、又は単段階の機械学習プロセスであり得る。

【0080】

後述のオペレーティングシステムは、一つの実施例を構成して特許請求の範囲を任意の特定のオペレーティング環境に制限しようとするものではない。請求された要旨の技術的思想及び範囲を逸脱することなく他の環境でも使用可能である。

【0081】

図１には、本発明の不可視物体インスタンスセグメンテーションシステムが動作し得る例示的な環境１００が示されている。一部の例において、環境１００の多様な装置及び／又は構成要素は、一つ以上のネットワーク１０４を介して、相互及び外部装置と通信し得る分散コンピューティングリソース１０２を含むことができる。

【0082】

例えば、ネットワーク１０４としては、インターネットのような共用ネットワーク、機関及び／又は個人のイントラネットのような個人ネットワーク、又は個人及び共用ネットワークの一部の組み合わせが挙げられる。ネットワーク１０４には、近距離通信網（ＬＡＮ）、広域通信網（ＷＡＮ）、衛星ネットワーク、ケーブルネットワーク、Ｗｉ－Ｆｉネットワーク、ＷｉＭａｘネットワークが含まれるが、これに制限されない任意タイプの有線及び／又は無線ネットワークを含むことができ、移動通信ネットワーク（例えば、３Ｆ、４Ｇ、５Ｇなど）又はこれらの任意の組み合わせを含むことができる。ネットワーク１０４は、インターネットプロトコル（ＩＰ）、トランスミッションコントロールプロトコル（ＴＣＰ）、ユーザーデータグラムプロトコル（ＵＤＰ）、又は他のタイプのプロトコルのようなパケットベース及び／又はデータグラムベースのプロトコルを含む通信プロトコルを使用することができる。さらに、ネットワーク１０４は、ネットワーク通信を容易にし、又は、スイッチ、ルータ、ゲートウェイ、アクセスポイント、ファイアウォール、基地局、リピーター、バックボーン装置のようなネットワークのためのハードウェア基盤を形成する多数の装置を含むことができる。

【0083】

一部の実施例において、ネットワーク１０４は、ワイヤレスアクセスポイント（ＷＡＰ）のような無線ネットワークへのアクセスを可能にする装置をさらに含むことができる。本発明の実施例では、ＩＥＥＥ（ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ）８０２．１１標準規格（例えば、８０２．１１ｇ、８０２．１１ｎなど）を支援するＷＡＰを含み、多様な電磁周波数（例えば、無線周波数）を介してデータを送受信するＷＡＰを通じた連結を支援することができる。

【0084】

種々の実施例において、分散コンピューティングリソース１０２は、装置１０６（１）～１０６（N）を含むことができる。本発明の実施例では、装置１０６が、クラスター又は他のグループ化された構成で動作することでリソースを共有し、負荷を分散させ、性能を高め、又は他の目的のために一つ以上のコンピュータ装置を含むシナリオを支援する。装置１０６は、従来のサーバ型装置、デスクトップコンピュータ型装置、モバイル装置、特殊目的型装置、内蔵型装置及び／又はウェアラブル型装置のような多様な範疇に該当することができる。従って、デスクトップ及びラップトップコンピュータを挙げて説明しているが、装置１０６は、多様なタイプの装置を含むことができ、特定タイプの装置に制限されない。装置１０６は、デスクトップコンピュータ、サーバコンピュータ、ウェブサーバコンピュータ、パーソナルコンピュータ、モバイルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ウェアラブルコンピュータ、移植されたコンピュータ、通信装置、自動車コンピュータ、ネットワーク支援テレビ、シンクライアント、ターミナル、ＰＤＡ、ゲームコンソール、ゲーム装置、ワークステーション、メディアプレーヤ、ポータブルビデオレコーダ（ＰＶＲ）、セットトップボックス、カメラ、コンピュータ装置に含めるための統合構成要素であり得る。

【0085】

装置１０６は、バス１１２を介してコンピュータ読み取り可能な媒体（ＣＲＭ：ＣｏｍｐｕｔｅｒＲｅａｄａｂｌｅＭｅｄｉａ）１１０に作動可能に連結された一つ以上のプロセッシングユニット１０８を有する任意タイプのコンピュータ装置を含むことができ、場合によっては、これらのうちの一つ以上を含むことができる。このようなバス１１２は、システムバス、データバス、アドレスバス、ＰＣＩバス、ミニＰＣＩバス、及び種々のローカルバス、周辺及び／又は独立バスを含むことができる。

【0086】

ＣＲＭ１１０に格納された実行可能な命令は、例えば、オペレーティングシステム１１４、不可視物体アモーダルインスタンスセグメンテーションネットワーク（ＵＯＡＩＳ－Ｎｅｔ）１１６、色－深さ融合バックボーン１１８、階層的オクルージョン推論モジュールＨＯＭ１２０、及びプロセッシングユニット１０８によってロード可能でかつ実行可能な他のモジュール、プログラム又はアプリケーションを含むことができる。さらに、本明細書中、機能的に説明されたものは、アクセラレータのような一つ以上のハードウェアロジック構成要素によって少なくとも部分的に遂行され得る。例えば、使用可能な例示的なタイプのハードウェアロジック構成要素は、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ）、ＡＰＳ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＳｔａｎｄａｒｄＰｒｏｄｕｃｔｓ）、Ｓｙｓｔｅｍ－ｏｎ－ａ－Ｃｈｉｐ（ＳＯＣ）Ｓｙｓｔｅｍ、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などを含む。

【0087】

装置１０６は、一つ以上の入力／出力（Ｉ／Ｏ）インターフェース１２２を含み、装置１００が周辺入力装置（例えば、キーボード、マウス、ペン、ゲームコントローラ、音声入力装置、タッチ入力装置、ジェスチャー入力装置など）、及び／又は周辺出力装置（例えば、ディスプレイ、プリンタなど）と通信可能にする。便宜上、図示の装置１０６において他の構成要素は省略されている。

【0088】

装置１０６は、装置１０６と、ユーザが入力（例えば、質問画像、リクエスト画像など）できるユーザコンピュータ装置１２６のような他のネットワーク装置との通信を可能にする１つ以上の入力／出力（Ｉ／Ｏ）インターフェース１２２を含むことができる。このような入力／出力（Ｉ／Ｏ）インターフェース１２２は、ネットワークを介して通信を送受信するための一つ以上のネットワークインターフェースコントローラ（ＮＩＣ）又は他のタイプのトランシーバ装置を含むことができる。

【0089】

不可視物体インスタンスセグメンテーションの最適化に関連した他の装置は、ユーザコンピュータ装置１２６（１）～１２７（７）を含むことができる。ユーザコンピュータ装置１２６は、ユーザ型装置、デスクトップコンピュータ型装置、モバイル装置、特殊目的型装置、内蔵型装置、及び／又はウェアラブル装置のような多様なカテゴリーに属するものであり得る。従って、装置１０６より少ないコンピュータ資源を持つモバイルコンピュータ装置が図示されているが、ユーザコンピュータ装置１２６は、多様なタイプの装置を含むことができ、任意の特定タイプの装置に制限されない。

【0090】

ユーザコンピュータ装置１２６は、ウェブサーバ、アプリサーバ、又はその他の計算エンジンのようなサーバコンピュータ、又はブレードサーバ、又はネットワーク接続ストレージ装置１２６（１）、ラップトップコンピュータ、シンクライアント、端末、又は他のモバイルコンピュータ、ＰＤＡ（ＰｅｒｓｏｎａｌＤａｔａＡｓｓｉｓｔａｎｔ）、スマートウォッチ、又は生体或いは医療用センサのようなウェアラブルコンピュータ、生体或いは医療用センサのような移植されたコンピュータ装置、コンピュータナビゲーションユーザコンピュータ装置、グローバルポジショニングシステム（ＧＰＳ）装置を含む（例えば、ＰＤＡでグラフィックに表現された）衛星基盤ナビゲーションシステム装置１２６（２）、タブレットコンピュータ或いはタブレットハイブリッドコンピュータ１２６（３）、スマートフォン、携帯電話、携帯電話－タブレットハイブリッド装置、又はその他の通信装置１２６（４）、携帯或いはコンソール基盤ゲーム装置、又はネットワーク支援テレビのようなその他のエンターテインメント装置、セットトップボックス、メディアプレーヤ、カメラでグラフィックに表示されるカメラ或いはパーソナルビデオレコーダ（ＰＶＲ）１２６（５）、車両制御システムのような自動車コンピュータ或いは車両保安システム１２６（６）、ヒト又はヒトの腕に類似した外形と機能を持ってコンピュータプログラムで作動し、複雑な一連の作業を自動的に遂行するメカニカルロボット装置１２７（７）、又は本明細書に記載のように不可視物体インスタンスセグメンテーションの最適化を行うように構成されたコンピュータ装置、機器、又は他のコンピュータ装置を含むことができる。

【0091】

ユーザコンピュータ装置１２６は、不可視物体アモーダルインスタンスセグメンテーションネットワークの訓練を行うための雑然としたシーン画像の合成データを装置１０６に提供することもでき、不可視物体アモーダルインスタンスセグメンテーションネットワークのテストを行うための雑然としたシーン画像のリアルイメージを装置１０６に提供することもできる。このため、ユーザコンピュータ装置１２６は、カメラ装置を備えることが好ましい。

【0092】

ユーザコンピュータ装置１２６は、より多くのシステムバス、データバス、アドレスバス、ＰＣＩバス、ミニＰＣＩバス、及び種々のローカルバス、周辺及び／又は独立バスを有し得るバスを経由して、コンピュータ読み取り可能な媒体（ＣＲＭ）１３０に動作可能に連結された一つ以上のプロセッシングユニット１２８を有する任意タイプのコンピュータ装置であり得る。

【0093】

本明細書に記載のＣＲＭ１１０、１３０は、コンピュータストレージ媒体及び／又は通信媒体を含む。コンピュータストレージ媒体は、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、又は他のデータのような情報格納のための任意の方法又は技術で実現される揮発性メモリ、不揮発性メモリ、及び／又は他の永久及び／又は補助コンピュータストレージ媒体のような格納ユニット、着脱式及び非着脱式コンピュータストレージ媒体を含む。

【0094】

コンピュータストレージ媒体としては、ＲＡＭ、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、相変化メモリ（ＰＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、書き換え可能な読み出し専用メモリ（ＥＰＲＯＭ）、電気的消去可能読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、ＤＶＤ、光格納媒体、磁気カセット、磁気テープ、ソリッドステートメモリ（ＳＳＥ）などが挙げられる。

【0095】

コンピュータストレージ媒体とは異なり、通信媒体は、コンピュータ読み取り可能なコマンド、データ構造、プログラムモジュール、又は搬送波のような変調されたデータ信号、又は他の伝送メカニズムで他のデータを具現することができる。本明細書において、コンピュータストレージ媒体は、通信媒体を含まない。

【0096】

ＣＲＭ１３０に格納された実行可能なコマンドは、オペレーティングシステム１３４及びプロセッシングユニット１２８によってロード可能でかつ実行可能な他のモジュール、プログラム又はアプリケーションを含むことができる。追加して又は代えて、本明細書において機能的に説明されたものは、アクセラレータのような一つ以上のハードウェアロジック構成要素によって少なくとも部分的に遂行され得る。例えば、使用可能な例示的タイプのハードウェアロジック構成要素は、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ）、ＡＳＳＰ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＳｔａｎｄａｒｄＰｒｏｄｕｃｔｓ）、Ｓｙｓｔｅｍ－ｏｎ－ａＣｈｉｐ（ＳＯＣ）Ｓｙｓｔｅｍ、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などを含む。例えば、アクセラレータは、ＦＰＧＡファブリックに内蔵されたＣＰＵを含むＸＩＬＩＮＸ又はＡＬＴＥＲＡのハイブリッド装置であり得る。

【0097】

ユーザコンピュータ装置１２６は、また、一つ以上のネットワークインターフェース１３６及びユーザインターフェース１３８を含む一つ以上の入力／出力（Ｉ／Ｏ）インターフェースを含み、ネットワーク１０４を介して他のユーザコンピュータ装置１２６間又は装置１０６のような他のネットワーク装置間の通信を可能にする。このようなネットワークインターフェース１３６は、ネットワークを介して通信を送受信するための一つ以上のネットワークインターフェースコントローラ（ＮＩＣ）又は他のタイプのトランシーバ装置を含むことができる。

【0098】

ユーザコンピュータ装置１２６は、また、ユーザインターフェース１３８を含み、ユーザコンピュータ装置１２６は、雑然としたシーン画像、及び入力に対する応答のようなユーザからの入力を受信することができる。

【0099】

図２は、不可視物体インスタンスセグメンテーションシステムに参加するように構成された例示的なコンピュータ装置２００を示すブロック図である。一部の実施例において、コンピュータ装置２００は、図１に示された装置１０６のような分散コンピューティングリソースである一つのコンピュータ装置であり得る。装置２００において、プロセッシングユニット２０２は、例えば、ＣＰＵタイプのプロセッシングユニット、ＧＰＵタイプのプロセッシングユニット、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタルシグナルプロセッサ（ＤＳＰ）、又はＣＰＵにより駆動できる他のハードウェアロジック構成要素を示すプロセッシングユニット１０８を含むことができる。例えば、このようなハードウェアロジック構成要素は、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ）、ＡＳＰ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＳｔａｎｄａｒｄＰｒｏｄｕｃｔｓ）、ＳＯＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－Ｃｈｉｐ）システム、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などを含むことができる。

【0100】

一部の実施例において、ＣＲＭ２０４は、ＣＲＭ１１０を示し、上述のように装置２００に統合されたプロセッシングユニット２０２によって実行可能な命令を格納することができる。ＣＲＭ２０４は、また、外部ＣＰＵタイプのプロセッシングユニット２０６、外部ＧＰＵタイプのプロセッシングユニット２０８のような外部プロセッシングユニット、及び／又はＦＰＧＡタイプのアクセラレータ２０１（１）、ＤＳＰタイプのアクセラレータ２１０（２）、又はその他のアクセラレータ２１０（Ｎ）のような外部アクセラレータ２１０によって実行可能な命令を格納することができる。

【0101】

例示的な実施例において、ＣＲＭ２０４は、また、データストア２１２を含むことができる。一部の実施例において、データストア２１２は、データベース、データウェアハウス、又は他のタイプの構造的又は非構造的なデータストアのようなデータストアを含むことができる。一部の実施例において、データストア２１２は、１つ以上のハイパーテキストマークアップランゲージ（ＨＴＭＬ）のテーブル、リソースディスクリプションフレームワーク（ＲＤＦ：ＲｅｓｏｕｒｃｅＤｅｓｃｒｉｐｔｉｏｎＦｒａｍｗｏｒｋ）のテーブル、ウェブオントロジー言語（ＷＯＬ）のテーブル、及び／又はＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）のテーブルを含むウェブテーブルのようなデータアクセスを可能とする１つ以上のテーブル、インデックス、ストアドプロシージャなどを有するコーパス及び／又はリレーショナルデータベースを含むことができる。例えば、データストア２１２は、ＣＲＭ２０４に格納され、プロセッシングユニット２０２によって実行されるプロセス、アプリケーション、コンポーネント及び／又はモジュールの動作のためのデータ及び／又はコマンドを格納することができる。

【0102】

装置２００は、一つ以上の入出力（Ｉ／Ｏ）インターフェース２１６をさらに含むことができ、入出力（Ｉ／Ｏ）インターフェース２１６は、装置２００が、周辺入力装置（例えば、キーボード、マウス、ペン、ゲームコントローラ、音声入力装置、タッチ入力装置、ジェスチャー入力装置、カメラなど）を含むユーザ入力装置と、周辺出力装置（例えば、ディスプレイ、プリンタなど）と通信可能な入出力装置の通信を可能とする、Ｉ／Ｏインターフェース２１６であり得る。さらに、装置２００において、ネットワークインターフェース１２２であり得るネットワークインターフェース２１８は、ネットワークを介して通信を送受信するためのネットワークインターフェースコントローラ（ＮＩＣ）又は他のタイプのトランシーバ装置を示すことができる。

【0103】

例示的な実施例において、ＣＲＭ２０４は、また、オペレーティングシステム１１４であり得るオペレーティングシステム２２０を含む。ＣＲＭ２０４は、また、不可視物体アモーダルインスタンスセグメンテーションネットワーク（ＵＯＡＩＳ－Ｎｅｔ）であり得る不可視物体アモーダルインスタンスセグメンテーションネットワーク２２２を含む。不可視物体アモーダルインスタンスセグメンテーションネットワーク２２２は、ブロック２２４、２２６、２２８、２３０及び２３２で示される１つ以上のモジュール及び／又はＡＰＩを含むことができるが、これは、例示に過ぎず、その数は、より多数又はより少数であり得る。

【0104】

ブロック２２４、２２６、２２８、２３０及び２３２に関連して説明された機能は、より少数のモジュール及び／又はＡＰＩによって実行されるように結合され得るか、又はより多数のモジュール及び／又はＡＰＩによって分割・実行され得る。

【0105】

例えば、ブロック２２４は、処理のために入力（例えば、雑然としたシーン画像）を不可視物体アモーダルインスタンスセグメンテーションネットワーク２２２に伝達するために装置２００のプロセッシングユニット２０２をプログラミングするためのロジックを有する入力モジュールを示すことができる。種々の実施例において、雑然としたシーン画像は、写真と同様な合成データセットであり得、又は装置２００に連結された周辺入力装置（例えば、カメラ装置）でキャプチャーされたリアルイメージであり得る。

【0106】

ブロック２２６は、入力された雑然としたシーン画像から不可視物体インスタンスセグメンテーションを行うため、プロセッシングユニット２０２をプログラムするためのロジックを有する初期処理モジュールを示すことができる。

【0107】

ブロック２２８は、雑然としたシーン画像から前景物体インスタンスを検出するための色特徴、深さ特徴、及び色－深さ融合特徴のうちの少なくとも一つの画像特徴を抽出するため、プログラムプロセッシングユニット２０２をプログラムするためのロジックを有する色－深さ融合バックボーンモジュールを示すことができる。種々の実施例において、色－深さ融合バックボーンモジュールは、色特徴及び深さ特徴をそれぞれ抽出し、抽出された色特徴及び深さ特徴を融合して、色－深さ融合特徴を生成することができる。色－深さ融合バックボーンモジュールは、色－深さ融合特徴を特徴ピラミッドネットワーク（ＦＰＮ）に適用して色－深さＦＰＮ特徴を抽出することができる。また、色－深さ融合バックボーンモジュールは、色－深さ融合特徴を領域提案ネットワーク（ＲＰＮ）に適用して物体関心領域（ＲｏＩ）を抽出することができる。色－深さ融合モジュールは、色－深さＦＰＮ特徴と物体関心領域とを統合し、物体関心領域の色－深さＦＰＮ特徴である関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）を抽出して、階層的オクルージョン推論モデルに提供することができる。

【0108】

ブロック２３０は、色－深さ融合バックボーンモジュールから提供される色特徴、深さ特徴、色－深さ融合特徴、関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）、及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）のうちの少なくとも一つの画像特徴に基づいて、任意の物体インスタンスに対してバウンディングボックス、可視マスク、アモーダルマスク、不可視マスク、及びオクルージョン有無の推論のうちの少なくとも二つ以上を階層的に遂行するためにプロセッシングユニット２０２をプログラムするロジックを有する階層的オクルージョン推論モジュールを示すことができる。階層的オクルージョン推論モジュールは、まず、雑然としたシーン画像から物体関心領域のバウンディングボックスを推論し、次に、推論されたバウンディングボックスに基づいて可視マスクを推論し、推論されたバウンディングボックスと可視マスクに基づいてアモーダルマスク（又は、不可視マスク）を推論し、推論されたバウンディングボックス、可視マスク、及びアモーダルマスク（又は、不可視マスク）に基づいてオクルージョンの有無を推論するように設計され得る。

【0109】

ブロック２３２は、複数の訓練画像、訓練画像に対応するオクルージョン有無のデータに基づいて、不可視物体アモーダルインスタンスセグメンテーションネットワークのモデルパラメータを抽出するためにプロセッシングユニット２０２をプログラムするロジックを有する機械学習モジュールを示すことができる。訓練画像は、種々の外形及び質感を持つ複数の物体を含む合成データセットであり得、雑然としたシーン画像に含まれたそれぞれの物体インスタンスは、アモーダルの有無（オクルージョンの有無）に対するアノテーションデータが含まれ得る。機械学習モジュールは、複数の写実的な合成データに基づいて、不可視物体アモーダルインスタンスセグメンテーションネットワークの機械学習を行い、これによって、不可視物体アモーダルインスタンスセグメンテーションネットワークは、雑然としたシーン画像に含まれた全ての物体インスタンスのバウンディングボックス、可視マスク、アモーダルマスク、不可視マスクの抽出、及びオクルージョン推論を行うための特徴抽出、並びに演算過程の学習を行うことができる。

【0110】

訓練画像、訓練画像に対応するオクルージョン有無のデータ、及び試作モデルパラメータは、例えば、データストア２１２のようなコンピュータ装置２００に格納され得る。或いは、訓練画像、訓練画像に対応するオクルージョン有無のデータ、及び試作モデルパラメータは、ネットワークインターフェース２１８を介して、リモートコンピュータ装置から抽出又は受信され、データストア２１２に格納され得る。

【0111】

種々の実施例において、機械学習モジュールは、多段階プロセスで不可視物体アモーダルインスタンスセグメンテーションネットワークを訓練させることができる。一部の実施例において、機械学習モジュールは、初期処理モジュール、色－深さ融合バックボーンモジュール、及び階層的オクルージョン推論モジュールを、試作モデルパラメータに初期化することができる。初期化後、機械学習モジュールは、訓練画像を使用して、初期処理モジュール、色－深さ融合バックボーンモジュール、及び階層的オクルージョン推論モジュールのモデルパラメータを共に訓練させることができる。

【0112】

種々の実施例において、機械学習モジュールは、初期セットアップで不可視物体アモーダルインスタンスセグメンテーションネットワークを訓練させることができる。他の実施例において、機械学習モジュールは、毎週或いは毎月、指定された時間に周期的に不可視物体アモーダルインスタンスセグメンテーションネットワークを訓練させることができ、又は、プログラム管理者からの手動指示に従い、不可視物体アモーダルインスタンスセグメンテーションネットワークを訓練させることができる。

【0113】

代案として、上述のデータ（例えば、訓練画像及び訓練画像に対応するオクルージョン有無のデータ）の一部又は全部は、ＣＰＵタイプのプロセッシングユニット２０６上のメモリ２３４（１）、ＧＰＵタイプのプロセッシングユニット２０８上のメモリ２３４（２）、ＦＰＧＡタイプのアクセラレータ２１０（１）上のメモリ２３４（３）、ＤＳＰタイプのアクセラレータ２１０（２）上のメモリ２３４（４）、及び／又は他のアクセラレータ２１０（Ｎ）上のメモリ２３４（Ｍ）のような別途のメモリ２３４に格納され得る。

【0114】

バス２４０は、バス１１２であり得、システムバス、データバス、アドレスバス、ＰＣＩバス、Ｍｉｎｉ－ＰＣＩバス、及び任意の種々のローカルバス、周辺及び／又は独立バスのうちのいずれか１つ以上を含むことができ、ＣＲＭ２０４をプロセッシングユニット２０２に動作可能に連結することができる。

【0115】

図３は、図２に関連して、上述の不可視物体アモーダルインスタンスセグメンテーションネットワークの例示的なプロセスを示すフローチャートである。種々の実施例において、不可視物体アモーダルインスタンスセグメンテーションネットワークは、雑然としたシーン画像から不可視物体インスタンスセグメンテーションを行い、オクルージョンの有無を推論するために一緒に動作する複数のネットワークによって具現することができる。

【0116】

３０２において、不可視物体アモーダルインスタンスセグメンテーションネットワーク（ＵＯＡＩＳ－Ｎｅｔ）は、雑然としたシーン画像を受信することができる。当該雑然としたシーン画像は、一部が重なるように配置された２つ以上の物体インスタンスを含むことができる。図示のように、雑然としたシーン画像は、円筒形の缶及び直六面体状のボックスを含み、缶がボックスより前方に配置されている。他の実施例において、雑然としたシーン画像は、さらに多くの物体を含むことができ、雑然としたシーン画像に含まれた物体は、種々の材質及び幾何学的構造の家庭用物体（例えば、シリアルボックス、ボトルなど）、及び産業用物体（例えば、ブラケット、ネジなど）であり得る。種々の実施例において、雑然としたシーン画像中の各物体に対してアモーダルアノテーションが付与され得る。アモーダルアノテーションが付与された物体インスタンスは、他の物体インスタンスによって隠された領域が存在する物体インスタンスを意味することができる。他の実施例において、各物体インスタンスに対して相対的にオクルージョン有無の順序に基づいたアノテーションが付与され得る。

【0117】

種々の実施例において、不可視物体アモーダルインスタンスセグメンテーションネットワークは、物体インスタンスの境界を正確に導出するため、色情報、深さ情報、又は色情報と深さ情報との融合情報を使用することができる。このため、不可視物体アモーダルインスタンスセグメンテーションネットワークは、色と深さの各モデリティによって別途のＲｅｓＮｅｔ５０を用いて、色特徴及び深さ特徴をそれぞれ抽出することができる。その後、色特徴及び深さ特徴を、連結、及び１×１畳み込みによって、マルチレベルで色－深さ融合特徴として融合することができる。

【0118】

種々の実施例において、色－深さ融合特徴は、特徴ピラミッドネットワーク（ＦＰＮ）に提供されることで色－深さＦＰＮ特徴が抽出され、領域提案ネットワーク（ＲＰＮ）に提供されることで物体関心領域が抽出され得る。抽出された色－深さＦＰＮ特徴及び物体関心領域特徴が、関心領域アライン層に提供されることで、関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）が導出され得る。

【0119】

３０４において、関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）からバウンディングボックスが導出され得る。種々の実施例において、ＵＯＡＩＳ－Ｎｅｔは、導出された物体関心領域に対して前景領域を導出してクラスを付与することができ、前景物体インスタンスと背景との間の境界、及び一つの物体インスタンスと他の物体インスタンスとの境界の間に閉曲線状のバウンディングボックスを生成することができる。他の例において、バウンディングボックスは、また、長方形、円形、六角形などに形成され得る。

【0120】

３０６において、バウンディングボックス特徴から、可視マスクのセグメンテーションが行われ得る。種々の実施例において、ＵＯＡＩＳ－Ｎｅｔは、バウンディングボックス中の物体インスタンスの表面が見える可視領域を可視マスクとして抽出することができ、可視マスクの可視特徴が導出され得る。種々の実施例において、ＵＯＡＩＳ－Ｎｅｔは、バウンディングボックス特徴を入力とし、畳み込み層を含む階層的融合モデルを含むことができ、これによって、バウンディングボックス特徴に基づいた可視マスクのセグメンテーションが行われ得る。

【0121】

３０８において、バウンディングボックス特徴と可視特徴から、アモーダルマスクのセグメンテーションが行われ得る。種々の実施例において、ＵＯＡＩＳ－Ｎｅｔは、物体インスタンスの表面が見える可視領域に基づいて、表面が見えない（他の物体によって隠された）不可視領域を推論し、可視領域と不可視領域とを統合したアモーダルマスクを抽出することができ、アモーダルマスクのアモーダル特徴を導出することができる。他の実施例において、バウンディングボックス特徴と可視特徴から、不可視マスクの不可視特徴が導出され得る。アモーダルマスクと不可視マスクとは、オクルージョン包含領域マスクと通称でき、アモーダル特徴と不可視特徴とは、オクルージョン包含領域特徴と通称できる。種々の実施例において、ＵＯＡＩＳ－Ｎｅｔは、バウンディングボックス特徴及び可視特徴を入力とし、畳み込み層を含む階層的融合モデル又は全結合層のニューラルネットワークを含むことができ、これによって、バウンディングボックス特徴及び可視特徴に基づいたオクルージョン包含領域マスクのセグメンテーションが行われ得る。なお、オクルージョン包含領域マスクは、アモーダルマスク又は不可視マスクであり得る。

【0122】

３０４において導出されたバウンディングボックス特徴、３０６において導出された可視特徴、及び３０８において導出されたオクルージョン包含領域特徴から、オクルージョンの有無を推論することができる。種々の実施例において、ＵＯＡＩＳ－Ｎｅｔは、物体インスタンスが他の物体インスタンスに隠された領域があるかを示すオクルージョン特徴を導出することができ、導出されたオクルージョン特徴からオクルージョンの有無を推論することができる。種々の実施例において、ＵＯＡＩＳ－Ｎｅｔは、バウンディングボックス特徴、可視特徴、及びオクルージョン包含領域特徴を入力とし、畳み込み層を含む階層的融合モデル又は全結合層のニューラルネットワークを含むことができ、これによって、バウンディングボックス特徴、可視特徴、及びオクルージョン包含領域特徴に基づいたオクルージョンの推論が可能となる。オクルージョン包含領域特徴には、アモーダル特徴又は不可視特徴が含まれ得る。

【0123】

図４は、本発明の一実施例に係る不可視物体アモーダルインスタンスセグメンテーションネットワーク４００を示す構成図である。

【0124】

不可視物体アモーダルインスタンスセグメンテーションネットワーク４００は、雑然としたシーン画像４０２を受信することができる。種々の実施例において、雑然としたシーン画像４０２は、装置内のデータストア２１２から受信され、又は、ネットワークを介してユーザコンピュータ装置１２６から受信され得る。

【0125】

不可視物体アモーダルインスタンスセグメンテーションネットワーク４００は、マスクＲ－ＣＮＮ（ｍａｓｋＲ－ＣＮＮ）で提案された構造に従うことができる。マシンラーニングにおいて、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）は、視覚映像分析分野において成功的に適用される人工ニューラルネットワークの一種である。Ｒ－ＣＮＮ（ＲｅｇｉｏｎｓｗｉｔｈＣＮＮｆｅａｔｕｒｅｓ）は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて物体を検出する技術であり、物体領域に対応するプロポーザルを生成する。このようなＲ－ＣＮＮ技術は、発展し続けている。

【0126】

ｆａｓｔｅｒＲ－ＣＮＮは、ｆａｓｔＲ－ＣＮＮにおいて、領域提案ネットワーク（ＲＰＮ）を追加した２段階パイプラインを遂行する。第一段階では、領域提案ネットワーク（ＲＰＮ）は、アンカーボックスをリファイン（ｒｅｆｉｎｅ）し、整理して、希少なプロポーザルのボックスセットを生成し、第二段階では、領域別にＣＮＮ検出器（Ｒ－ＣＮＮ）が、ＲＰＮによって生成されたプロポーザルのリファイン及び分類を行う。

【0127】

マスクＲ－ＣＮＮ技術は、ｆａｓｔｅｒＲ－ＣＮＮにおいて、マスク分岐部を追加し、領域提案ネットワーク（ＲＰＮ）前に特徴ピラミッドネットワーク（ＦＰＮ）追加し、関心領域アライン（ＲｏＩａｌｉｇｎ）層を追加した構造を有する。即ち、本発明の不可視物体アモーダルインスタンスセグメンテーションネットワークは、色－深さ融合バックボーンにおいてＦＰＮ、ＲＰＮ、関心領域アライン層を採用し、階層的オクルージョン推論モジュールにおいて各マスクを抽出するためのマスク分岐部を採用することにより、マスクＲ－ＣＮＮで提案した構造を活用することができる。

【0128】

不可視物体アモーダルインスタンスセグメンテーションネットワーク４００は、雑然としたシーン画像を受信し、関心領域に関する画像特徴及び物体関心領域特徴を導出する色－深さ融合バックボーン４０４、画像特徴及び物体関心領域特徴に基づいて、バウンディングボックス特徴、バウンディングボックス、可視特徴、可視マスク、アモーダル特徴、アモーダルマスク、不可視特徴、不可視マスク、オクルージョン特徴、及びオクルージョン有無のうちの少なくとも一部を順次に抽出する階層的オクルージョン推論モジュール４０６、並びに導出されたバウンディングボックス、可視マスク、アモーダルマスク、不可視マスク、及びオクルージョンの有無に基づいて物体インスタンスセグメンテーションを行う物体インスタンスセグメンテーション部４０８を含んで構成され得る。

【0129】

色－深さ融合バックボーン４０４は、雑然としたシーン画像を受信することができる。雑然としたシーン画像は、少なくとも一部の領域が重なって配置された２つ以上の物体インスタンスを含むことができる。例えば、図３に示されるように、雑然としたシーン画像は、直六面体状のボックスと、ボックスより前方に配置された円筒形の缶を含むことができる。この場合、ボックスインスタンスの一部の領域が缶インスタンスによって隠れている。他の例において、雑然としたシーン画像は、より多くの物体を含むことができ、一つの物体インスタンスは、２つ以上の物体インスタンスによって隠れることもある。色－深さ融合バックボーン４０４は、雑然としたシーン画像から、色特徴、深さ特徴、色－深さ融合特徴を導出することができ、導出された色特徴、深さ特徴、及び色－深さ融合特徴から、物体関心領域に対応する関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）を抽出することができる。

【0130】

階層的オクルージョン推論モジュール４０６は、関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）に基づいて、任意の物体インスタンスに対して、クラス（Ｃ）、バウンディングボックス（Ｂ）、可視マスク（Ｖ）、アモーダルマスク（Ａ）、及びオクルージョンの有無（Ｏ）を階層的かつ順次に推論することができる。ここで、クラス（Ｃ）は、関心領域が前景であるか背景であるかを区分する情報であり、バウンディングボックス（B）は、物体インスタンスの境界に沿って抽出された閉曲線であり、可視マスク（V）は、物体インスタンスから見える領域であり得る。また、アモーダルマスク（A）は、物体インスタンスの全体領域であって、可視マスクと不可視マスクとが合わさった領域を指称し、アモーダルマスク（A）の代わりに、不可視マスク（ＩＶ）を推論することもできる。オクルージョンの有無（Ｏ）は、任意の物体インスタンスが他の物体によって隠された領域が存在するかを示すことができる。まず、階層的オクルージョン推論モジュール４０６は、バウンディングボックス特徴及びバウンディングボックス（B）を導出し、バウンディングボックス特徴に基づいて、可視特徴及び可視マスクを抽出し、バウンディングボックス特徴及び可視特徴に基づいて、アモーダル特徴及びアモーダルマスクを抽出し、バウンディングボックス特徴、可視特徴、及びアモーダル特徴に基づいて、オクルージョン特徴及びオクルージョンの有無を抽出することができる。

【0131】

物体インスタンス分割部４０８は、全ての前景物体インスタンスに対して受信された、クラス（Ｃ）、バウンディングボックス（Ｂ）、可視マスク（Ｖ）、アモーダルマスク（Ａ）、及びオクルージョンの有無（Ｏ）に基づいて、不可視物体インスタンスセグメンテーションを行うことができる。

【0132】

図５は、本発明の一実施例に係る色－深さ融合バックボーンの一例を示す構成図である。

【0133】

色－深さ融合バックボーン４０４は、雑然としたシーン画像４０２から色特徴を抽出する色特徴抽出部５０１、雑然としたシーン画像４０２から深さ特徴を抽出する深さ特徴抽出部５０２、抽出された色特徴と深さ特徴とを融合して色－深さ融合特徴を導出する色－深さ特徴融合部５０３、色特徴、深さ特徴、色－深さ融合特徴から色－深さＦＰＮ特徴が抽出される特徴ピラミッドネットワーク（ＦＰＮ）５０４、色特徴、深さ特徴、色－深さ融合特徴から物体関心領域が抽出される領域提案ネットワーク（ＲＰＮ）５０５、並びに色－深さＦＰＮ特徴及び物体関心領域から関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）を導出する関心領域アライン層５０７を含んで構成され得る。

【0134】

色－深さ融合バックボーン４０４は、物体インスタンスの境界を導出するため、色情報又は深さ情報を使用することができる。また、色－深さ融合バックボーン４０４は、物体インスタンスの境界をより正確に導出するため、色情報と深さ情報とを融合して使用することができる。このため、色－深さ融合バックボーン４０４は、色と深さの各モデリティによって別途のＲｅｓＮｅｔ５０を用いて、色特徴及び深さ特徴をそれぞれ抽出することができる。色－深さ特徴融合部５０３は、色特徴及び深さ特徴を、連結、及び１×１畳み込みによってマルチレベルで色－深さ融合特徴として融合することができる。色－深さ融合特徴は、特徴ピラミッドネットワーク（ＦＰＮ）５０４に提供されることで色－深さＦＰＮ特徴が抽出され、領域提案ネットワーク（ＲＰＮ）５０５に提供されることで物体関心領域（ＲｏＩ）が抽出され得る。抽出された色－深さＦＰＮ特徴及び物体関心領域が、関心領域アライン層５０７に提供されることで、関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）が導出され得る。

【0135】

図６は、本発明に係る階層的オクルージョン推論モデルの一例を示す構成図である。

【0136】

階層的オクルージョン推論モジュールは、関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）に基づいて、物体インスタンスのバウンディングボックス特徴（Ｆ_Ｂ）を抽出するバウンディングボックス特徴抽出部６０２、バウンディングボックス特徴（Ｆ_Ｂ）に基づいて、物体インスタンスのクラス及びバウンディングボックスを抽出するバウンディングボックス分岐部６０４、バウンディングボックス特徴（Ｆ_Ｂ）に基づいて、物体インスタンスの可視特徴（Ｆ_Ｖ）を抽出する可視マスク分岐部６１０、バウンディングボックス特徴（Ｆ_Ｂ）及び可視特徴（Ｆ_Ｖ）に基づいて、物体インスタンスのアモーダル特徴（Ｆ_Ａ）を抽出するアモーダルマスク分岐部６１４、バウンディングボックス特徴（Ｆ_Ｂ）、可視特徴（Ｆ_Ｖ）、及びアモーダル特徴（Ｆ_Ａ）に基づいて、物体インスタンスのオクルージョン特徴（Ｆ_Ｏ）を抽出するオクルージョン推論分岐部を含んで構成され得る。他の実施例において、アモーダルマスク分岐部６１４に代わって、バウンディングボックス特徴（Ｆ_Ｂ）及び可視特徴（Ｆ_Ｖ）に基づいて、物体インスタンスの不可視特徴（Ｆ_ＩＶ）を抽出する不可視マスク分岐部を構成することができ、この場合、オクルージョン推論分岐部は、バウンディングボックス特徴（Ｆ_Ｂ）、可視特徴（Ｆ_Ｖ）、及び不可視特徴（Ｆ_ＩＶ）に基づいて、物体インスタンスのオクルージョン特徴（Ｆ_Ｏ）を抽出することができる。

【0137】

さらに、階層的オクルージョン推論モジュールは、可視特徴（Ｆ_Ｖ）を逆畳み込みして、可視特徴に基づいた物体インスタンスの可視マスク（Ｖ）を抽出する第１の逆畳み込み部６１２、アモーダル特徴（Ｆ_Ａ）を逆畳み込みして、アモーダル特徴に基づいた物体インスタンスのアモーダルマスク（Ａ）を抽出する第２の逆畳み込み部６１６、並びにオクルージョン特徴（Ｆ_Ｏ）を逆畳み込みして、オクルージョン特徴を基づいた物体インスタンスのオクルージョンの有無を推論する第３の逆畳み込み部６２０をさらに含んで構成することができる。他の実施例において、第１の逆畳み込み部６１２乃至第３の逆畳み込み部６２０に代わって、全結合層を構成することで各特徴からマスクを抽出することもできる。

【0138】

バウンディングボックス特徴抽出部６２０は、関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）に基づいて、物体インスタンスのバウンディングボックス特徴（Ｆ_Ｂ）を抽出することができる。関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）は、３×３逆畳み込み層に供給され、１４×１４のサイズにアップサンプリングされた物体関心領域特徴は、３つの３×３畳み込み層に伝達される。このような作業のアウトプットがバウンディングボックス特徴（Ｆ_Ｂ）として使用され得る。

【0139】

バウンディングボックス分岐部６０４は、バウンディングボックス特徴（Ｆ_Ｂ）に基づいて、任意の物体インスタンスに対してクラス及びバウンディングボックスを抽出することができる。バウンディングボックス分岐部６０４は、２つの全結合層６０６、６０８から構成され、バウンディングボックス特徴（Ｆ_Ｂ）が１つの全結合層６０６に供給されることでクラス（Ｃ）が抽出され、バウンディングボックス特徴（Ｆ_Ｂ）が他の全結合層６０８に供給されることで任意の物体インスタンスに対するバウンディングボックス（Ｂ）が抽出され得る。

【0140】

可視マスク分岐部６１０には、バウンディングボックス特徴（Ｆ_Ｂ）と物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）が入力され得る。可視マスク分岐部６１０は、畳み込み層を含む階層的融合モジュール又は全結合層を含んで構成され、可視マスク分岐部６１０の階層的融合モジュール又は全結合層でバウンディングボックス特徴（Ｆ_Ｂ）と物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）とが融合されることで可視特徴（Ｆ_Ｖ）が抽出され、アモーダルマスク分岐部６１４及びオクルージョン推論分岐部６１８に伝達され得る。可視特徴（Ｆ_Ｖ）は、第１の逆畳み込み部６１２で逆畳み込み、又は全結合層で演算されることで可視マスク（Ｖ）が抽出され得る。

【0141】

アモーダルマスク分岐部６１４には、バウンディングボックス特徴（Ｆ_Ｂ）、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、及び可視特徴（Ｆ_Ｖ）が入力され得る。アモーダルマスク分岐部６１４は、畳み込み層を含む階層的融合モジュール又は全結合層を含んで構成され、アモーダルマスク分岐部６１４の階層的融合モジュール又は全結合層でバウンディングボックス特徴（Ｆ_Ｂ）、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、及び可視特徴（Ｆ_Ｖ）が融合されることでアモーダル特徴（Ｆ_Ａ）が抽出され、オクルージョン推論分岐部６１８に伝達され得る。アモーダル特徴（Ｆ_Ａ）は、第２の逆畳み込み部６１６で逆畳み込み、又は全結合層で演算されることでアモーダルマスク（Ａ）が抽出され得る。このようなアモーダルマスク分岐部６１４は、不可視マスク分岐部に代替可能であり、不可視マスク分岐部には、バウンディングボックス特徴（Ｆ_Ｂ）、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、及び可視特徴（Ｆ_Ｖ）が入力され得る。不可視マスク分岐部は、畳み込み層を含む階層的融合モジュール又は全結合層を含んで構成され、不可視マスク分岐部の階層的融合モジュール又は全結合層でバウンディングボックス特徴（Ｆ_Ｂ）、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、及び可視特徴（Ｆ_Ｖ）が融合されることで不可視特徴（Ｆ_ＩＶ）が抽出され、オクルージョン推論分岐部６１８に伝達され得る。不可視特徴（Ｆ_ＩＶ）は、逆畳み込み部で逆畳み込み、又は全結合層で演算されることで不可視マスク（ＩＶ）が抽出され得る。アモーダルマスク分岐部と不可視マスク分岐部は、オクルージョン包含領域マスク分岐部と通称できる。

【0142】

オクルージョン推論分岐部６１８には、バウンディングボックス特徴（Ｆ_Ｂ）、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、可視特徴（Ｆ_Ｖ）、及びアモーダル特徴（Ｆ_Ａ）が入力され得る。オクルージョン推論分岐部６１８は、畳み込み層を含む階層的融合モジュール又は全結合層を含んで構成され、オクルージョン推論分岐部６１８の階層的融合モジュール又は全結合層でバウンディングボックス特徴（Ｆ_Ｂ）、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、可視特徴（Ｆ_Ｖ）、及びアモーダル特徴（Ｆ_Ａ）が融合されることでオクルージョン特徴（Ｆ_Ｏ）が抽出され得る。オクルージョン特徴（Ｆ_Ｏ）は、第３の逆畳み込み部６２０で逆畳み込み、又は全結合層で演算されることでオクルージョンの有無（Ｏ）が抽出され得る。

【0143】

図７～図９は、本発明の一実施例に係る不可視物体インスタンスセグメンテーションプロセス、色－深さ融合特徴導出プロセス、及び階層的オクルージョン推論プロセスを例示するフローチャートである。例示的なプロセスの動作は、個別ブロックで示されており、これらのブロックを参照して説明されている。プロセスは、ブロックのロジックのフローで示されており、各ブロックは、ハードウェア、ソフトウェア又はこれらの組み合わせで具現され得る１つ以上の動作が示されている。ソフトウェアに関連して、動作は、１つ以上のプロセッサによって実行される時に１つ以上のプロセッサが引用された動作を遂行し得るようにする１つ以上のコンピュータ読み取り可能な媒体に格納されたコンピュータ実行可能なコマンドを示す。一般的に、コンピュータ実行可能なコマンドには、ルーチン、プログラム、オブジェクト、モジュール、構成要素、データ構造、特定の関数を遂行、又は特定の抽象データタイプを具現することが含まれる。動作の説明順序によって解釈が制限されてはならず、説明された動作の数は、任意の順序で、多数の下位動作に細分化、又は並列して実行可能である。

【0144】

図７は、本発明の一実施例に係る不可視物体インスタンスセグメンテーションプロセス（Ｓ７００）の例示的なフローを示す図である。

【0145】

ブロックＳ７０２において、コンピュータシステムは、雑然としたシーン画像を受信することができる。種々の実施例において、雑然としたシーン画像は、ネットワーク１０４を介してユーザコンピュータ装置１２６から受信され得る。一部の実施例において、雑然としたシーン画像は、コンピュータ装置２００上のデータストア２１２から受信され得る。雑然としたシーン画像は、他の物体インスタンスによって隠された不可視物体インスタンスを含むことができ、写真と同じ写実的合成データセット、又は実際カメラでキャプチャーされたリアルイメージであり得る。

【0146】

ブロックＳ７０４において、コンピュータシステムは、少なくとも一つの不可視物体インスタンスを含む雑然としたシーン画像から、関心領域に関する色特徴、深さ特徴、色－深さ融合特徴、及び色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）のうちの少なくとも一つを含む画像特徴と、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）とを抽出することができる。コンピュータシステムは、不可視物体インスタンスを検出するための色特徴及び深さ特徴を抽出し、抽出された色特徴及び深さ特徴を融合して色－深さ融合特徴を生成することができる。コンピュータシステムは、マスクＲ－ＣＮＮの構造を採用することで、特徴ピラミッドネットワーク（ＦＰＮ）、領域提案ネットワーク（ＲＰＮ）、関心領域アライン層を含むことができ、これによって、関心領域色－深さＦＰＮ特徴及び物体関心領域特徴を抽出することができる。

【0147】

ブロックＳ７０６において、コンピュータシステムは、ブロックＳ７０４で抽出された関心領域色－深さＦＰＮ特徴及び物体関心領域特徴に基づいて、不可視物体インスタンスのクラス、バウンディングボックス、可視マスク、アモーダルマスク、及びオクルージョンの有無を導出することができる。コンピュータシステムは、バウンディングボックスを最初に導出し、次に、バウンディングボックス特徴に基づいて可視マスクを抽出し、バウンディングボックス特徴及び可視特徴に基づいてアモーダルマスク又は不可視マスクを抽出することができる。その後、バウンディングボックス特徴、可視特徴、及びアモーダル特徴（又は、不可視特徴）に基づいてオクルージョンの有無を推論することができる。上述のように、コンピュータシステムは、バウンディングボックス、可視マスク、アモーダルマスク（又は、不可視マスク）、及びオクルージョン推論のうちの少なくとも２つ以上を順次かつ階層的に行うことができる。

【0148】

ブロックＳ７０８において、コンピュータシステムは、ブロックＳ７０６で導出されたクラス、バウンディングボックス、可視マスク、アモーダルマスク（又は、不可視マスク）、及びオクルージョンの有無に基づいて、不可視物体インスタンスセグメンテーションを行うことができる。

【0149】

図８は、本発明の一実施例に係る色－深さ融合特徴導出プロセス（Ｓ８００）の例示的なフローを示す図である。色－深さ融合特徴導出プロセスは、色－深さ融合バックボーンで行うことができ、ブロックＳ７０４と実質的に同一であり得る。本発明は、基本的に、ｆａｓｔｅｒＲ－ＣＮＮにおいて、マスク分岐部を追加し、領域提案ネットワーク（ＲＰＮ）前に特徴ピラミッドネットワーク（ＦＰＮ）を追加し、関心領域アライン層を追加したマスクＲ－ＣＮＮ構造に従う。但し、本発明では、雑然としたシーン画像から、色特徴と深さ特徴とをそれぞれ抽出し、抽出された色特徴と深さ特徴とを融合した色－深さ融合特徴をマスクＲ－ＣＮＮ構造に適用することで、不可視物体インスタンスセグメンテーションを行うための特徴を導出することができる。

【0150】

ブロックＳ８０２において、コンピュータシステムは、雑然としたシーン画像から、色特徴及び深さ特徴を抽出することができる。コンピュータシステムは、不可視物体インスタンスの境界を正確に導出するため、色情報と深さ情報とを共に使用し、このために色及び深さのそれぞれについて、各モデリティによって別途のＲｅｓＮｅｔ５０を用いて、色特徴及び深さ特徴を抽出することができる。

【0151】

ブロックＳ８０４において、コンピュータシステムは、抽出された色特徴と深さ特徴とを融合して、色－深さ融合特徴を生成することができる。コンピュータシステムは、色特徴及び深さ特徴を連結し、１×１畳み込みして、マルチレベルで色特徴と深さ特徴とを融合することで、色－深さ融合特徴として導出することができる。

【0152】

ブロックＳ８０６において、コンピュータシステムは、色－深さ特徴を特徴ピラミッドネットワーク（ＦＰＮ）に適用して、色－深さＦＰＮ特徴を生成することができる。

【0153】

ブロックＳ８０８において、コンピュータシステムは、色－深さ特徴を領域提案ネットワーク（ＲＰＮ）に適用して、物体関心領域を抽出することができる。

【0154】

ブロックＳ８１０において、コンピュータシステムは、色－深さＦＰＮ特徴及び物体関心領域を関心領域アライン層に適用して、関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）を抽出することができる。

【0155】

図９は、本発明の一実施例に係る階層的オクルージョン推論プロセス（Ｓ９００）の例示的なフローを示す図である。階層的オクルージョン推論プロセスは、階層的オクルージョン推論モジュールで遂行ことができ、ブロックＳ７０６と実質的に同一であり得る。

【0156】

ブロックＳ９０２において、コンピュータシステムは、関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）及び物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）に基づいて、バウンディングボックス特徴（Ｆ_Ｂ）を抽出することができる。関心領域色－深さＦＰＮ特徴（Ｆ_ＲｏＩ ^Ｓ）は、３×３逆畳み込み層に供給され、１４×１４のサイズにアップサンプリングされた物体関心領域特徴は、３つの３×３畳み込み層に伝達され、このような作業のアウトプットがバウンディングボックス特徴（Ｆ_Ｂ）として使用され得る。

【0157】

ブロックＳ９０４において、コンピュータシステムは、バウンディングボックス特徴（Ｆ_Ｂ）に基づいて、不可視物体インスタンスのクラス（Ｃ）及びバウンディングボックス（Ｂ）を抽出することができる。バウンディングボックス特徴（Ｆ_Ｂ）が一つの全結合層６０６に供給されることでクラス（Ｃ）が抽出され、バウンディングボックス特徴（Ｆ_Ｂ）が他の全結合層６０８に供給されることで任意の物体インスタンスに対するバウンディングボックス（Ｂ）が抽出され得る。

【0158】

ブロックＳ９０６において、コンピュータシステムは、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）及びバウンディングボックス特徴（Ｆ_Ｂ）に基づいて、不可視物体インスタンスの可視特徴（Ｆ_Ｖ）及び可視マスク（Ｖ）を抽出することができる。バウンディングボックス特徴（Ｆ_Ｂ）と物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）とが、畳み込み層を含む階層的融合モジュール又は全結合層で融合されることで可視特徴（Ｆ_Ｖ）が抽出され、可視特徴（Ｆ_Ｖ）が逆畳み込み、又は全結合層で演算されることで可視マスク（Ｖ）が抽出され得る。

【0159】

ブロックＳ９０８において、コンピュータシステムは、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、バウンディングボックス特徴（Ｆ_Ｂ）、及び可視特徴（Ｆ_Ｖ）に基づいて、不可視物体インスタンスのアモーダル特徴（Ｆ_Ａ）及びアモーダルマスク（Ａ）を抽出することができる。バウンディングボックス特徴（Ｆ_Ｂ）、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、及び可視特徴（Ｆ_Ｖ）が、畳み込み層を含む階層的融合モジュール又は全結合層で融合されることでアモーダル特徴（Ｆ_Ａ）が抽出され、アモーダル特徴（Ｆ_Ａ）が逆畳み込み、又は全結合層で演算されることでアモーダルマスク（Ａ）が抽出され得る。他の実施例において、ブロックＳ９０８において、アモーダル特徴及びアモーダルマスク（Ａ）の代わりに、不可視特徴及び不可視マスク（ＩＶ）を抽出することもできる。

【0160】

ブロックＳ９１０において、コンピュータシステムは、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、バウンディングボックス特徴（Ｆ_Ｂ）、可視特徴（Ｆ_Ｖ）、及びアモーダル特徴（Ｆ_Ａ）（又は、不可視特徴）に基づいて、不可視物体インスタンスのオクルージョン特徴（Ｆ_Ｏ）及びオクルージョンの有無（Ｏ）を抽出することができる。バウンディングボックス特徴（Ｆ_Ｂ）、物体関心領域特徴（Ｆ_ＲｏＩ ^Ｌ）、可視特徴（Ｆ_Ｖ）、及びアモーダル特徴（Ｆ_Ａ）（又は、不可視特徴）が、畳み込み層を含む階層融モジュール又は全結合層で融合されることでオクルージョン特徴（Ｆ_Ｏ）が抽出され、オクルージョン特徴（Ｆ_Ｏ）が逆畳み込み、又は全結合層で演算されることでオクルージョンの有無（Ｏ）が抽出され得る。

【0161】

上述した方法及びプロセスは、いずれも、１つ以上の汎用のコンピュータ又はプロセッサによって行われるソフトウェアコードモジュールで具現され、また、完全自動化可能である。コードモジュールは、任意タイプのコンピュータ読み取り可能な格納媒体又は他のコンピュータストレージ装置に格納され得る。上述した方法は、一部又は全部が特殊のコンピュータハードウェアで具現され得る。

【0162】

本明細書に記載及び／又は添付図面に記載のフローチャートにおいて、任意の一般的な説明、要素又はブロックは、特定の論理関数又は要素を具現するための一つ以上の実行可能な命令を含むコード、モジュール、セグメント又は一部分を潜在的に表すものと理解されるべきである。ルーチン。代案例として、ここに説明された例の範囲内に含まれ、ここで理解できる機能によって実質的に同期して又は逆順に、要素又は機能が削除、図示、議論されたものから順に実行され得る。

【0163】

上述の実施例について多くの変形及び修正を加えることができ、その要素は、他の許容可能な例の一つであると理解されるべきである。このような修正及び変形は、いずれも本開示の範囲内に含まれ、添付の請求範囲によって保護されることを意図している。以上で説明した本発明に係る実施例は、種々のコンピューターの構成要素を介して実行され得るプログラムコマンドの形態に実現されてコンピューター読み取り可能な記録媒体に記録され得る。前記コンピューターで読み取り可能な記録媒体は、プログラム命令、データファイル、データ構造などを単独で又は組み合わせで含むことができる。上記コンピューターで読み取り可能な記録媒体に記録されるプログラム命令は、本発明のために特別に設計及び構成されたもの、又はコンピューターソフトウェア分野の当業者にとって公知でかつ使用可能なものであり得る。コンピューター読み取り可能な記録媒体としては、例えば、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気－光媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリーなどのようなプログラムコマンドを格納して実行するように特別に構成されたハードウェア装置が挙げられる。プログラムコマンドには、例えば、コンパイラーによって作られるもののような機械語コードだけでなく、インタプリターなどを使用してコンピューターによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を実行するため、一つ以上のソフトウェアモジュールとして作動するように構成することができ、その逆も同様である。

【0164】

以上で、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されていたが、これは、本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明は、上述した実施例に限定されるものではなく、本発明が属する技術分野で通常の知識を有する者であれば、上述のような記載から種々の修正及び変形を図ることができる。

【0165】

従って、本発明の思想は、上述の実施例に限定されてはならず、後述の特許請求の範囲だけでなく、本特許請求の範囲と均等又は等価的に変形された全てのものが本発明の思想の範疇に属されると言える。

【符号の説明】

【0166】

１１６：不可視物体アモーダルインスタンスセグメンテーションネットワーク（ＵＯＡＩＳ－Ｎｅｔ）
１１８：色－深さ融合バックボーン
１２０：階層的オクルージョン有無推論モジュール

【図1】