特開2023-107728 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インテル・コーポレーションの特許一覧

特開2023-107728セグメント融合ベースのシーンのロバストなセマンティックセグメンテーション

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023107728

(43)【公開日】2023-08-03

(54)【発明の名称】セグメント融合ベースのシーンのロバストなセマンティックセグメンテーション

(51)【国際特許分類】

G06T 7/187 20170101AFI20230727BHJP

G06T 7/00 20170101ALI20230727BHJP

【ＦＩ】

G06T7/187

G06T7/00 350B

【審査請求】未請求

【請求項の数】26

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2022163323

(22)【出願日】2022-10-11

(31)【優先権主張番号】17/582,390

(32)【優先日】2022-01-24

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】591003943

【氏名又は名称】インテル・コーポレーション

(74)【代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】アニルドジャガラジャン

(72)【発明者】

【氏名】プラシャントラッダ

(72)【発明者】

【氏名】ベンジャミンウンメンホファー

(72)【発明者】

【氏名】オムジオマー

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096AA09

5L096DA01

5L096DA02

5L096FA02

5L096FA06

5L096FA72

5L096GA30

5L096GA34

5L096GA51

5L096GA59

5L096HA11

5L096JA03

5L096JA11

5L096JA16

5L096KA04

(57)【要約】（修正有）

【課題】セグメント融合ベースのシーンのロバストなセマンティックセグメンテーションのシステム、装置および方法を提供する。
【解決手段】シーンをセグメント化する方法は、シーンに関連付けられたセマンティック特徴およびインスタンス特徴に基づいて複数のセグメントを識別し、複数のセグメントを複数のインスタンスに融合させ、複数のインスタンスのために分類ラベルを選択する。複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、複数のインスタンスに融合される。
【選択図】図６

【特許請求の範囲】

【請求項1】

シーンに対応するデータを取得するためのネットワークコントローラと、
前記ネットワークコントローラに結合されたプロセッサと、
一組の命令を含むメモリであって、前記命令は、前記プロセッサによって実行される場合、前記プロセッサに、
前記シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別させ、
前記複数のセグメントを複数のインスタンスに融合させ、
前記複数のインスタンスのための分類ラベルを選択させる
メモリと
を備えるコンピューティングシステム。

【請求項2】

前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して前記複数のインスタンスに融合され、前記コンピューティングシステムは、エンドツーエンドで学習可能である、請求項１に記載のコンピューティングシステム。

【請求項3】

前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、請求項１に記載のコンピューティングシステム。

【請求項4】

前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、請求項３に記載のコンピューティングシステム。

【請求項5】

前記分類ラベルを選択するために、前記命令は、実行される場合、さらに、前記プロセッサに、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成させ、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択させる
請求項１に記載のコンピューティングシステム。

【請求項6】

前記複数のセグメントのサイズは可変になる、請求項１から５のいずれか一項に記載のコンピューティングシステム。

【請求項7】

一組の命令を含み、前記命令は、コンピューティングシステムによって実行される場合、前記コンピューティングシステムに、
シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別させ、
前記複数のセグメントを複数のインスタンスに融合させ、
前記複数のインスタンスのための分類ラベルを選択させる
コンピュータプログラム。

【請求項8】

前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、請求項７に記載のコンピュータプログラム。

【請求項9】

前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、請求項７に記載のコンピュータプログラム。

【請求項10】

前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、請求項９に記載のコンピュータプログラム。

【請求項11】

前記分類ラベルを選択するために、前記命令は、実行される場合、さらに、前記コンピューティングシステムに、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成させ、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択させる
請求項７に記載のコンピュータプログラム。

【請求項12】

前記複数のセグメントのサイズは可変になる、請求項７に記載のコンピュータプログラム。

【請求項13】

１つまたは複数の基板と、
前記１つまたは複数の基板に結合されたロジックであって、前記ロジックは、１つまたは複数の構成可能または固定機能ハードウェア内に少なくとも部分的に実装され、前記ロジックは、
シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別し、
前記複数のセグメントを複数のインスタンスに融合させ、
前記複数のインスタンスのための分類ラベルを選択する
ロジックと
を備える半導体装置。

【請求項14】

前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、請求項１３に記載の半導体装置。

【請求項15】

前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、請求項１３に記載の半導体装置。

【請求項16】

前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、請求項１５に記載の半導体装置。

【請求項17】

前記分類ラベルを選択するために、前記ロジックは、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成し、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択する
請求項１３に記載の半導体装置。

【請求項18】

前記複数のセグメントのサイズは可変になる、請求項１３に記載の半導体装置。

【請求項19】

前記１つまたは複数の基板に結合された前記ロジックが、前記１つまたは複数の基板内に配置されたトランジスタチャネル領域を含む、請求項１３から１８のいずれか一項に記載の半導体装置。

【請求項20】

シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別する段階と、
前記複数のセグメントを複数のインスタンスに融合させる段階と、
前記複数のインスタンスのための分類ラベルを選択する段階と
を備える方法。

【請求項21】

前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、請求項２０に記載の方法。

【請求項22】

前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、請求項２０に記載の方法。

【請求項23】

前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、請求項２２に記載の方法。

【請求項24】

前記分類ラベルを選択する段階は、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成する段階と、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択する段階と
を有する、請求項２０に記載の方法。

【請求項25】

前記複数のセグメントのサイズは可変である、請求項２０から２４のいずれか一項に記載の方法。

【請求項26】

請求項７から１２のいずれか一項に記載のコンピュータプログラムを格納したコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

実施形態は、概して、シーンセグメンテーションに関する。より具体的に、実施形態は、セグメント融合ベースのシーンのロバストなセマンティックセグメンテーションに関する。

【背景技術】

【0002】

３次元（３Ｄ）セマンティックセグメンテーションは、通常、３Ｄ点群データ内の各ポイントに分類属性（例えば、椅子、テーブルなど）をラベル付けすることを含み、セマンティックセグメンテーションタスクは、自動運転、ロボティクス、室内シーン理解などの様々な用途で有用であってよい。しかし、従来のセマンティックセグメンテーションソリューションは、オブジェクトを部分的に誤って分類し、複雑で発見的に駆動される後処理を含み、特定のモデル、ネットワークおよび／若しくはシーンに限定され、並びに／またはシーン内の最も強い手がかりのみに注目する場合がある。

【図面の簡単な説明】

【0003】

実施形態の様々な利点は、以下の明細書および添付の特許請求の範囲を読み、以下の図面を参照することによって、当業者に明らかになるであろう。

【0004】

【図1】一実施形態に係る、セグメンテーションパイプラインの一例のブロック図である。

【0005】

【図2】従来のエンコーダブロックの一例と一実施形態に係る強化されたエンコーダブロックとの比較ブロック図である。

【0006】

【図3】一実施形態に係るセグメントへのインスタンス損失関数の適用の一例を示す説明図である。

【0007】

【図4】一実施形態に係るセグメントペアへのセグメント損失関数の適用の一例を示す説明図である。

【0008】

【図5】従来の分類結果の一例と一実施形態に係る強化された分類結果との比較説明図である。

【0009】

【図6】一実施形態に係る、シーンをセグメント化する方法の一例のフローチャートである。

【0010】

【図7】一実施形態に係る、複数のインスタンスのために分類ラベルを選択する方法の一例のフローチャートである。

【0011】

【図8】一実施形態に係る、性能強化コンピューティングシステムの一例のブロック図である。

【0012】

【図9】一実施形態に係る、半導体パッケージ装置の一例の説明図である。

【0013】

【図10】一実施形態に係るプロセッサの一例のブロック図である。

【0014】

【図11】一実施形態に係る、マルチプロセッサベースのコンピューティングシステムの一例のブロック図である。

【発明を実施するための形態】

【0015】

先行のシーンセグメンテーションソリューションは、２次元（２Ｄ、例えば２Ｄ投影データに作用する）ソリューションと３Ｄソリューション（例えば、３Ｄデータに作用する）とに分類されることができる。また、３Ｄ処理ソリューションは、ポイントベースのソリューションとボクセルベースのソリューションとに大別されることができる。

【0016】

ポイントベースのソリューションは、情報を処理するために一連の多層パーセプトロンブロック（ＭＬＰ：ｍｕｌｔｉ－ｌａｙｅｒｐｅｒｃｅｐｔｒｏｎｂｌｏｃｋ）を採用し、グローバルプーリング戦略を採用してよいが、ボクセルベースのソリューションは、疎な畳み込み層と、ダウンサンプリング層およびアップサンプリング層とのスタックである、座標を離散的な位置にボクセル化するように作用するＵ－Ｎｅｔを採用してよい。

【0017】

基本的なセマンティックセグメンテーションネットワークは、オブジェクトの一部内の顕著な誤分類からの悪影響を受けることがある。この誤分類は主に、粒度の適切なレベルで文脈情報の異なるタイプを捕捉し融合させる（例えば、ローカル理解からグローバル理解へ：ポイントからインスタンス、シーンへの移行）際に発生する課題に起因する。

【0018】

セマンティックセグメンテーションの性能を向上させる先行アプローチは、オブジェクトの単一のインスタンスのオブジェクト境界を理解するためにインスタンスセグメンテーションを使用することと、より良いセマンティックセグメンテーションを可能にするようにセマンティック情報とインスタンス情報との融合を試行することとを含んでよい。しかし、これらのアプローチの多くは、ポイントレベルでの特徴の融合に対して動作するため、非効率的である。特徴を階層的に融合させるアプローチは、反復的で学習不可であり、計算コストのかかる後処理を含む。

【0019】

本明細書に記載された技術は、最小限の後処理で、任意のサイズのデータセットのセマンティックセグメンテーションの性能を向上させることを目的とした、セマンティック特徴およびインスタンス特徴の階層的かつ学習可能な自己注意ベースの融合を提供する。さらに、実施形態は、複数の汎用セマンティックバックボーンネットワークに対するセマンティックセグメンテーションの性能の向上を実証している。

【0020】

より具体的に、実施形態は、部分的な誤分類の問題に対処するために、文脈の粒度の適切なレベルでのセマンティック情報およびインスタンス情報の階層的融合（例えば、ローカルスケールからグローバルスケールへ）に対する注意ベースのソリューションを提供する。本明細書に記載された技術は、ボクセル（例えば、「セグメント」）のより細かい粒度で特徴をクラスタリングするために幾何学的平滑性事前知識（ｇｅｏｍｅｔｒｉｃｓｍｏｏｔｈｎｅｓｓｐｒｉｏｒｓ）を利用し（例えば、空間の近傍または時間の間隔における物理的特性が何らかの一貫性を示し、概ね急激に変化しないことを仮定）、次に、学習可能な注意ベースのネットワークを使用して、（例えば、セグメント融合ネットワークにおいて実装される）それぞれのセマンティック特徴およびインスタンス特徴に基づいてセグメントを階層的に融合させる。本明細書に記載された技術は、セグメントをインスタンスに融合させるための単純であるが効果的な連結成分ラベリング（ＣＣＬ）ソリューションを含む、最小限の後処理を含む。

【0021】

実施形態は、階層的で学習可能な２重の戦略を含む：（ｉ）点群のオーバセグメント化されたクラスタリングを達成するために幾何学的平滑性事前知識に依存するグラフクラスタリングソリューションを使用して、セグメントごとに代表的なセマンティック特徴およびインスタンス特徴を計算すること、および（ｉｉ）セグメントの間の類似性を計算して、これらのセグメントのうちの一部をインスタンスにマージするセグメント融合ネットワークへ、一組のセグメントを供給することであって、インスタンスは、インスタンス内のすべてのボクセルに意味論的にラベル付けるようにそれらのそれぞれのセマンティックラベルに対するソフト多数決投票を受けることである。

【0022】

図１は、シーンに関連付けられた入力データ１２（例えば、ポイントデータ、カラーデータなどを含む）がセマンティックセグメンテーションネットワーク１４およびインスタンスセグメンテーションネットワーク１６に提供されるセグメンテーションパイプライン１０を示す。セマンティックセグメンテーションネットワーク１４がセマンティック特徴１８を生成し、インスタンスセグメンテーションネットワーク１６がインスタンス特徴２０を生成する。一例において、セマンティック特徴１８は、セマンティックセグメンテーションのタスクのために訓練されたモデルの最後から２番目の層（例えば、特徴から離散的なクラスへの変換直前）から抽出される。同じクラス（例えば椅子）に属するポイント／面の特徴は、特徴空間において互いに近接している可能性が高い（例えば、シーン内の同じクラスの２つのインスタンスを参照できるにもかかわらず）。インスタンス特徴２０は、インスタンスセグメンテーションのタスクのために訓練されたモデルの最後から２番目の層（例えば、特徴から離散的なクラスへの変換直前）から抽出されてよい。同じインスタンス（例えば、椅子－１）に属するポイント／面の特徴は、特徴空間において互いに近接している可能性が高い。また、これらの特徴は、他のインスタンス（例えば、椅子－２、壁－１など）と比較される場合に区別できる可能性が高い。一例において、入力データ１２は、点群に関連付けられたポイントの位置（例えば、座標）、色（例えば、テクスチャ情報）、点間法線および任意の他の測光／幾何学的特徴を含む点群に関連付けられた任意の属性を含む点群データである。また、入力データ１２は、任意の点群形状記述子を含んでよい。

【0023】

一実施形態において、グラフクラスタリング段階２２は、セマンティック特徴１８、インスタンス特徴２０および入力データ１２に基づいて複数のセグメント２４（２４ａ～２４ｈ）を識別する。一実施形態において、複数のセグメント２４のサイズは可変である。したがって、セグメント２４の数は固定されていない。また、セグメント融合ネットワーク２６は、複数のセグメント２４を複数のインスタンスに融合させ、ここで、ＣＣＬ段階２８が複数のインスタンスのために分類ラベルを選択する。より具体的に、セグメント融合ネットワーク２６は、同じオブジェクトの一部であるものが空間的により近接していることを確実にすることによって、セグメントの特徴を変換する。さらに、ＣＣＬ段階２８はこれらの特徴を分類ラベルに変換する。一例において、セグメント融合ネットワーク２６は、一組のマルチヘッド注意エンコーダスタック３０を含む。

【0024】

図２は、入力特徴４２に対して動作してよいトランスフォーマの従来のエンコーダブロック４０を実証する。より具体的に、初期の全連結（ＦＣ：ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）層が入力特徴４２を処理し、「ｕ」ＦＣ層、「ｖ」ＦＣ層、および「ｗ」ＦＣ層に出力を提供する。ｕおよびｖのＦＣ層の出力にスケーリングされたドット積注意が適用され、スケーリングされたドット積注意およびｗのＦＣ層の出力に行列積が適用される。その結果は、元の入力特徴４２と合計され、その合計結果は正規化層で処理される。正規化層の出力は次のエンコーダに提供される。

【0025】

対照的に、強化されたエンコーダブロック５０は、セマンティック特徴１８とインスタンス特徴２０との両方に基づいて生成される複数のセグメント２４に対して動作する。示された強化されたエンコーダブロック５０は単にネットワークアーキテクチャの一例である。本明細書に記載された技術も他のネットワークアーキテクチャに適用されてよい。示された例において、初期のＦＣ層は、複数のセグメント２４を処理し、「ｕ」ＦＣ層、「ｖ」ＦＣ層、および「ｗ」ＦＣ層への出力を提供する。スケーリングされたドット積注意はｕおよびｖのＦＣ層の出力に適用され、アダマール積（例えば、要素ごとの乗数）はスケーリングされたドット積注意の出力および複数のセグメント２４に関連付けられた隣接行列に適用される。一実施形態において、アダマール積は、複数のセグメント２４における空間的に連結されたセグメント間の相互作用を拘束する。一例において、行列積は、アダマール積およびｗのＦＣ層の出力に適用される。その結果は、元の複数のセグメント２４と合計され、その合計結果は正規化層で処理される。正規化層の出力は次のエンコーダに提供される。

【0026】

したがって、強化されたエンコーダブロック５０は、それらのそれぞれの特徴の類似性に基づいてセグメントを融合させるまたは分離することを目的とした、セグメント融合、学習可能な自己注意ベースのネットワークを提供する。このアプローチにより、セグメント融合ネットワークは、文脈の適切な粒度を決定する。プールされたセグメントはインスタンスになり、セマンティックラベルに対する「ソフト」多数決投票を受ける。ソフト多数決投票の結果は、インスタンス内のすべてのボクセルを意味論的にラベル付けするために使用される。

【0027】

より具体的に、セグメント融合ネットワークにおいて、インスタンス特徴２０に加えて、セグメントごとのセマンティック特徴１８を使用することにより、ネットワークがセグメント融合の決定を予測しながら、誤ったセマンティック予測を理解し、考慮することができる。セマンティック特徴１８は、セグメント融合ネットワークのエンコーダブロック５０を経由して供給される。各エンコーダブロック５０において、スケーリングされたドット積注意相の後に、注意行列とセグメントグラフの隣接行列（以下の式３を参照）とを乗算する要素ごとの乗算が行われる。このアプローチは、それらの空間的に連結されたセグメントペア間の相互作用のみを拘束することに役立つ。

【0028】

ネットワークの末端において、セグメントの類似性は、セグメント特徴間のユークリッド距離を計算することによって計算される（以下の式８を参照）。２つのセグメント間の距離が閾値未満であれば、２つのセグメントは類似していると考えられる。そうでない場合、セグメントは非類似として扱われる。空間的に互いに連結された類似のセグメントは識別され、ＣＣＬ段階を介して、各グループがインスタンスとして識別される状態で共にグループ化される。

【0029】

最後に、インスタンス内のボクセルのセマンティック予測に対してソフト多数決投票が採用される。一例において、ソフトマジョリティは、クラス確率の合計によって決定される。そのような場合、そのインスタンスに属するすべてのボクセルについてのラベルとして、マジョリティのラベルが選択される。

【0030】

ここで、図３および図４に目を向けると、実施形態は、セグメント損失を含む損失関数の組み合わせを使用して、任意の２つの空間的に隣接するセグメントを融合させるまたは分離したまま保持するように、セグメント融合ネットワークを監督する。

【0031】

図３に最もよく示されているように、インスタンス損失は、同じインスタンス６０に対応するセグメントを最適化する。先行アプローチはポイントレベルでの損失を提案していたかもしれないが、本明細書に記載された技術は、結び付けられた閾値パラメータを有するグラフノード（例えば、セグメント）のレベルで損失を決定する。閾値パラメータは、（ａ）インスタンス内セグメント特徴距離を最小化することと、（ｂ）インスタンス間重心特徴距離を最大化することであって、重心特徴は同じグラウンドトゥルースインスタンスに属するすべてのセグメントに対して計算されることと、（ｃ）結果を正則化することとを目的としている。より具体的に、インスタンス６０の損失はＬ_{ｉｎｓｔａｎｃｅ}として表されてよい。

【0032】

図４に最もよく示されているように、セグメント損失は、セグメントのペア６２の間のペアごとの損失を最適化する。実施形態は、モデルが融合または分離のいずれの決定を誤って予測するエッジにペナルティを与える損失関数を含む。融合または分離の決定は、セグメント特徴のペア間の距離を閾値処理することで決定される。このアプローチにより、セグメントを共にクラスタリングするためのより単純な後処理を可能にする。

【0033】

ポイントごとの特徴をＸで表記してよく、セグメントごとの特徴を

【数1】

で表記してよい。

【0034】

セマンティック損失

【0035】

ポイントごとのセマンティック特徴を、Ｓで表記してよく、ポイントの位置をＰで表記してよい。

【0036】

インスタンス損失

【0037】

一例において、インスタンスネットワークは、インスタンス埋め込みと空間埋め込みとの２つの特徴を出力する。ポイントごとのインスタンス特徴を、Iで表記してよく、ポイントごとのインスタンス重心推定をDで表記してよい。

【0038】

グラフセグメンテーション

【0039】

既に述べたように、セマンティックセグメンテーションのために画素単位の予測を使用すると、オブジェクトの一部を誤分類する結果になる。したがって、本明細書に記載された技術は、ポイントが取り付けられたオブジェクトの理解を提供する。より具体的に、実施形態は、効率的なグラフセグメンテーション技術を使用して、ボクセルを３Ｄ表面（例えば、セグメントまたはスーパボクセル）にセグメント化する、階層的戦略を提供する。

【0040】

グラフセグメンテーション段階は、２つの異なるオブジェクトに関連する２つのボクセルが常に異なるセグメントで終わるという意味で、オブジェクト境界を侵害しないオーバセグメント化された分類境界を提供する（例えば、本質的に、オブジェクトは３Ｄ表面の複雑な集まりで構成されているため）。セグメントのような高いレベルの抽象度での表現は、特にセグメント内の点法線が或る境界内でしか変化しないことの保証を提供するため、幾何学的連続性を提供する。

【0041】

グラフセグメンテーション段階の出力は、ボクセルのセットＪのリストであってよく、各セットＪ_ｉはセグメント内のボクセルに関係する。ポイントごとの特徴（Ｓ，Ｄ，Ｉ）にわたる平均化戦略を用いて、セグメントごとの特徴

【数2】

は、以下にしたがって計算されてよい。

【数3】

式１

【0042】

グラフセグメンテーション段階を実行しながら、セグメント間の隣接情報も記録される。このアプローチにより、隣接行列Ａで表されるセグメントの連結性を理解することができる。セグメントのグラフＧ＝（Ｖ，Ｅ）が形成され、ここで、Ｖはセグメントのリスト（例えば、グラフの頂点を形成する）に関係し、ＥはＡで記述されるグラフを指す。

【0043】

セグメント融合

【0044】

基礎となるポイントからセグメントを形成した後、実施形態はこれらのセグメントからオブジェクトを形成する。そのため、インスタンスレベルの情報とセマンティックレベルの情報を共同に関連付け、セグメントのペアが同じオブジェクトに属するか（融合可能）、同じオブジェクトに属さないか（分離可能）の決定を本質的に形成するように、ネットワークは訓練される。この学習過程を監督するために、実施形態は、（ｉ）インスタンス損失と（ｉｉ）セグメント損失の２つの損失のセットを採用する。したがって、全体の損失関数は

【数4】

式２
である。

【0045】

インスタンスおよびセマンティック特徴はセグメントごと

【数5】

に投影され、セグメント融合ネットワークを用いて、合同セマンティック－インスタンス空間における特徴の集合

【数6】

に変換される。

【0046】

セグメント融合ネットワーク

【0047】

本明細書に記載された技術は、学習可能なネットワークを用いて、類似のセグメントを予測し、融合させる。本明細書に記載されたネットワークは、このような学習可能なネットワークの一例のみである。

【0048】

一例において、ネットワークはエンコーダブロックの複数のスタックで構成され、各エンコーダブロックは変換および自己注意を含むトランスフォーマ的動作を行う。ネットワークは、セグメント特徴が（例えば、非線形活性化層が点在している状態で）線形変換され、セグメント特徴同士の比較に自己注意が用いられる、注意ブロックによって構成されている。実施形態は、空間的な相互作用を拘束するために、自己注意［Ｓ（ｕ，ｖ）］に隣接行列［Ａ］を乗算する（例えば、アダマール積）。グループ正規化は、チャネルを正規化し、ブロック間の残差接続を採用して、勾配流を改善することに用いられる。

【数7】

式３

【0049】

隣接行列との要素ごとの乗算で補強され、自己注意を採用する任意のネットワークアーキテクチャを使用することができる。例として、グラフ注意ネットワーク（ＧＡＴ：ＧｒａｐｈＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋｓ）、トランスフォーマなどが挙げられる。

【0050】

セグメント融合（ＳＦ）－インスタンス損失

【0051】

一例において、セグメントレベルで引力および斥力のインスタンス損失が使用される。これらの損失により、同じインスタンスのセグメントは共にクラスタリングされるが、インスタンス特徴の重心は互いに反発し合うことが確実にされる。

【数8】

式４

【数9】

式５

【数10】

式６

【数11】

式７

【数12】

式８

【0052】

ここで、Ｋはシーン内のグラウンドトゥルースインスタンスの数を表記し、

【数13】

はｌ_１ノルムであり、μ_ｉはｉ番目のインスタンスに属するセグメント全体のセグメント特徴の平均であり、ｄ（ｆ_ｉ，ｆ_ｊ）は適切な距離ノルム（ｌ_１／ｌ_２）を示し、（．．）_＋はヒンジ損失であり、Ｎ_ｉはシーンのｉ番目のインスタンスにおけるボクセル数である。したがって、式４は同じインスタンスのセグメント特徴を重心に近接させ、式５は異なるインスタンスの重心特徴を反発させ、式６は損失を正則化する。

【0053】

セグメント融合－セグメント損失

【0054】

ＳＦ－インスタンス損失は、セグメント特徴を適切にクラスタリングすることに役立つ。しかし、インスタンス損失だけに依存すると、例えばｋＮＮクラスタリング、平均シフトクラスタリングなど、後処理クラスタリングアルゴリズムを繰り返す必要がある場合がある。また、本明細書に記載された技術は、セグメント特徴メトリック空間におけるペアごとの距離にペナルティを与え、結果として、特徴をラベルに投影するための、はるかにより単純なクラスタリングソリューションを使用することを可能にする。より具体的に、実施形態は、融合可能なエッジおよび分離可能なエッジに独立して注目する損失関数を用いる（例えば、式９、式１０および式１１）。

【数14】

式９

【数15】

式１０

【数16】

式１１

【0055】

ここで、Ｅ_ｓｅｐおよびＥ_ｆｕｓｅは、それぞれ分離および融合された状態を保持するエッジの集合を表記する。したがって、式９はモデルが誤って融合しようとするエッジにペナルティを与え、式１０はモデルが誤って分離しようとするエッジにペナルティを与える。分離可能なエッジの数は融合可能なエッジの数をはるかに超えるため、より低いｗ_ｆｕｓｅおよびｗ_ｓｅｐを使用することにより、全体として高いｍＩｏＵ（ｍｅａｎＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ、例えば、ＪａｃｃａｒｄＩｎｄｅｘ）が達成される。一例において、ｗ_ｆｕｓｅおよびｗ_ｓｅｐの値はそれぞれ１および０．０１である。

【0056】

ＣＣＬ

【0057】

パイプラインの末端において、セグメント特徴間のユークリッド距離を計算することによって、セグメントの類似性を計算する。また、セグメントの類似性には、値（Δ_Ｄ）による閾値が設定される（例えば、値が小さいほど類似のセグメントを示し、値が大きいほど非類似のセグメントを示す）。空間的に互いに連結された類似のセグメントは識別され、ＣＣＬ段階を介して共にグループ化され、ここで、各グループがインスタンスとして識別される。一例において、ＣＣＬ段階は、Ｕｎｉｏｎ－Ｆｉｎｄ法を用いて、各ボクセルをインスタンスＩＤでラベル付けし、効率的に連結成分を計算する。改善されたセマンティックセグメンテーションの性能を取得するために、インスタンスにおけるすべてのボクセルのクラス確率を合計し、対応するボクセルに最大確率のセマンティッククラスで注釈を付けることにより、ソフト多数決投票を実行する。

【0058】

図５は、オブジェクト（例えば、椅子）にラベルＡ（例えば、椅子）およびラベルＢ（例えば、棒）が部分的に割り当てられた従来の分類結果７０を示す図である。対照的に、強化された分類結果７２は、本明細書に記載された技術を使用して、オブジェクトを完全にラベルＡ（例えば、椅子）でラベル付けする。

【0059】

図６は、シーンをセグメント化する方法８０を示す図である。方法８０は、１つまたは複数のモジュールにおいて、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、ファームウェア、フラッシュメモリなどの機械またはコンピュータ可読記憶媒体に、ハードウェアに、またはそれらの任意の組み合わせに格納された、一組のロジック命令として実装されてよい。例えば、ハードウェア実装は、構成可能なロジック、固定機能ロジックまたはそれらの任意の組み合わせを含んでよい。構成可能なロジックの例としては、適切に構成されたプログラマブルロジックアレイ（ＰＬＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、および汎用マイクロプロセッサが挙げられる。固定機能ロジックの例としては、適切に構成された特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、組み合わせ論理回路および順序論理回路が挙げられる。構成可能なロジックまたは固定機能ロジックは、相補型金属酸化膜半導体（ＣＭＯＳ：ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）論理回路、トランジスタ－トランジスタロジック（ＴＴＬ：Ｔｒａｎｓｉｓｔｏｒ－ＴｒａｎｓｉｓｔｏｒＬｏｇｉｃ）論理回路または他の回路で実装することができる。

【0060】

方法８０に示される動作を実行するコンピュータプログラムコードは、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋または同様のものなどのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで書き込まれ得る。また、ロジック命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、状態設定データ、集積回路用構成データ、電子回路をパーソナライズする状態情報、および／またはハードウェア固有の他の構造コンポーネント（例えば、ホストプロセッサ、中央処理装置／ＣＰＵ、マイクロコントローラ等）を含み得る。

【0061】

示された処理ブロック８２は、シーンに関連付けられたセマンティック特徴、インスタンス特徴、および点群データに基づいて、複数のセグメントを識別することを提供する。一実施形態において、複数のセグメントのサイズは可変である。ブロック８２は、幾何学的平滑性事前知識を使用することを含んでよい。ブロック８４は、複数のセグメントを複数のインスタンスに融合させる。一例において、ブロック８４は、学習可能な自己注意ベースのネットワークを介して、複数のセグメントを複数のインスタンスに融合させる。また、ブロック８４は、インスタンス損失関数、セグメント損失関数、および距離マージンパラメータ（例えば、ΔＤ）に基づいて、複数のセグメントを複数のインスタンスに融合させてよい。このような場合、セグメント損失関数は、セグメントのペアに関して、融合の誤予測および分離の誤予測にペナルティを与えることができる。例えば、２つのセグメントが融合されるべき（例えば、訓練セットのグラウンドトゥルースから決定される）だが、モデルがセグメント間の距離を高く予測する場合（例えば、基本的にこれらのセグメントは分離した状態に保持されると予測する）、損失関数は、それらのシナリオ（および逆のシナリオ、結合×融合）を検出して、それらにより高いペナルティを付けることによって、そのようなインスタンスにペナルティを与えようとする（ヒンジ損失方程式で示されている）。このシステムは学習可能であるため、この損失は誤差の勾配を通して逆伝搬され、現在訓練中のセグメント融合ネットワークの重みを更新する。モデルとグラウンドトゥルースとの両方が一致する場合、ヒンジ損失により、そのようなセグメントのペアに関連付けられたペナルティがないことが確実にされる。一実施形態において、更新された重みは、未知のデータに対する推論／テストにおいて、より良い性能を発揮する。

【0062】

ブロック８６は複数のインスタンスのための分類ラベルを選択する。したがって、方法８０は、少なくとも、セマンティック特徴およびインスタンス特徴を階層的融合（例えば、セグメント、インスタンス）で組み合わせることにより、オブジェクトの部分的な誤分類を排除し、より単純な後処理を可能にし、他のモデル／ネットワークにわたって一般化する能力を高め、および／または任意のシーンに対する拡張性を改善する程度に性能を強化する。

【0063】

図７は、複数のインスタンスのための分類ラベルを選択する方法９０（例えば、ソフト多数決投票）を示す図である。既に説明されたように、方法９０は概してブロック８６（図６）に組み込まれてよい。より具体的に、方法９０は、機械またはコンピュータ可読記憶媒体ＲＡＭ、ＲＯＭ、ＰＲＯＭ、ファームウェア、フラッシュメモリなど、ハードウェア、またはそれらの任意の組み合わせに格納された一組のロジック命令として、１つまたは複数のモジュールで実施され得る。例えば、ハードウェア実装は、構成可能なロジック、固定機能ロジックまたはそれらの任意の組み合わせを含んでよい。構成可能なロジックの例としては、適切に構成されたＰＬＡ、ＦＰＧＡ、ＣＰＬＤ、汎用マイクロプロセッサが挙げられる。固定機能ロジックの例としては、適切に構成されたＡＳＩＣ、組み合わせ論理回路および順序論理回路が挙げられる。構成可能なロジックまたは固定機能ロジックは、ＣＭＯＳ論理回路、ＴＴＬ論理回路または他の回路で実装することができる。

【0064】

示された処理ブロック９２は、インスタンスごとに、インスタンス内の各ボクセルのセマンティックラベルを生成することを提供する。また、ブロック９４は、インスタンス内のボクセルのセマンティックラベルに基づいて、分類ラベルを選択して（例えば、ソフト多数決投票を介して）よい。したがって、方法９０は、シーン内のより弱いが重要な手がかりを捕捉する能力を提供することによって、性能をさらに強化する。

【0065】

次に図８を参照すると、性能強化コンピューティングシステム２８０が示されている。システム２８０は、一般に、コンピューティング機能（例えば、携帯情報端末／ＰＤＡ、ノートブックコンピュータ、タブレットコンピュータ、コンバーチブルタブレット、サーバ）、通信機能（例えば、スマートフォン）、撮像機能（例えば、カメラ、ビデオカメラ）、メディア再生機能（例えば、スマートテレビ／テレビ）、ウェアラブル機能（例えば、時計、アイウェア、ヘッドウェア、フットウェア、装身具）、車両機能（例えば、車、トラック、オートバイ）、ロボット機能（例えば、自律型ロボット）、モノのインターネット（ＩｏＴ：ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）機能など、またはそれらの任意の組み合わせを有する電子デバイス／プラットフォームの一部であり得る。

【0066】

示された例においては、システム２８０は、システムメモリ２８６（例えば、デュアルインラインメモリモジュール／ＤＩＭＭ）に結合される統合メモリコントローラ（ＩＭＣ）２８４を有するホストプロセッサ２８２（例えば、ＣＰＵ）を含む。一実施形態において、ＩＯ（入力／出力）モジュール２８８はホストプロセッサ２８２に結合される。示されたＩＯモジュール２８８は、例えば、ディスプレイ２９０（例えば、タッチスクリーン、液晶ディスプレイ／ＬＣＤ、発光ダイオード／ＬＥＤディスプレイ）、およびネットワークコントローラ２９２（例えば、有線および／または無線）と通信を行う。ホストプロセッサ２８２は、ＩＯモジュール２８８、グラフィックプロセッサ２９４、ＡＩアクセラレータ２９６と組み合わせて、システムオンチップ（ＳｏＣ：ＳｙｓｔｅｍＯｎＣｈｉｐ）２９８としてよい。一例において、ネットワークコントローラ２９２は、例えば、自動運転および／またはロボティクス設定における３Ｄシーンなどのシーンに対応するデータを取得する。

【0067】

一実施形態において、ホストプロセッサ２８２は、大容量ストレージ３０２および／またはシステムメモリ２８６から取り出された一組のプログラム命令３００を実行して、既に説明した方法８０（図６）および／または方法９０（図７）の１つまたは複数の態様を実施する。したがって、ホストプロセッサ２８２による示された命令３００の実行は、ホストプロセッサ２８２に、シーンに関連付けられるセマンティック特徴およびインスタンス特徴に基づいて複数のセグメントを識別し、複数のセグメントを複数のインスタンスに融合させ、複数のインスタンスに対する分類ラベルを選択することを行わせる。また、ＡＩアクセラレータ２９６は、既に説明された方法８０（図６）および／または方法９０（図７）の１つまたは複数の態様を実行するための構成可能および／または固定機能ロジックを含むことができる。一例において、コンピューティングシステム２８０は、エンドツーエンドで学習可能である（例えば、学習可能な自己注意ベースのネットワークの使用に起因する）。したがって、コンピューティングシステム２８０は、少なくとも、セマンティック特徴およびインスタンス特徴を階層的融合（例えば、セグメント、インスタンス）で組み合わせることにより、オブジェクトの部分的な誤分類を排除し、より単純な後処理を可能にし、他のモデル／ネットワークにわたって一般化する能力を高め、および／または任意のシーンに対する拡張性を向上させる程度に性能が強化されたと考えられる。

【0068】

図９は、半導体装置３５０（例えば、チップ、ダイ、パッケージ）を示す。示された装置３５０は、１つまたは複数の基板３５２（例えば、シリコン、サファイヤ、ヒ化ガリウム）と、１つまたは複数の基板３５２に結合されたロジック３５４（例えば、トランジスタ配列およびその他集積回路（ＩＣ）コンポーネント）とを備える。一実施形態において、ロジック３５４は、既に説明した、方法８０（図６）および／または方法９０（図７）の１つまたは複数の態様を実装する。

【0069】

ロジック３５４は、少なくとも部分的に、構成可能または固定機能ハードウェアで実装され得る。一例において、ロジック３５４は、基板３５２内に配置される（例えば、埋め込まれる）トランジスタチャネル領域を含む。したがって、ロジック３５４と基板３５２との間のインタフェースは、急激な接合でないことがあり得る。ロジック３５４はさらに、基板３５２の初期ウェハ上に成長するエピタキシャル層を備えると考えられる。

【0070】

図１０は、一実施形態に係る、プロセッサコア４００を示す。プロセッサコア４００は、マイクロプロセッサ、組み込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ネットワークプロセッサ、または、コードを実行する他のデバイスなどの任意のタイプのプロセッサに対するコアであり得る。１つのプロセッサコア４００のみが図１０に示されているが、処理要素は、代替的に、図１０に示されるプロセッサコア４００の１つより多くのものを含み得る。プロセッサコア４００は、シングルスレッドコアであってもよく、または、少なくとも１つの実施形態について、プロセッサコア４００は、それが、コアごとに１つより多くのハードウェアスレッドコンテキスト（若しくは「論理プロセッサ」）を含み得る、というポイントで、マルチスレッドであってもよい。

【0071】

図１０は、プロセッサコア４００に結合されたメモリ４７０も示している。メモリ４７０は、当業者にとって既知か、そうでなければ当業者に利用できる（メモリ階層の様々な層を含む）多種多様なメモリのいずれかであり得る。
メモリ４７０は、プロセッサコア４００によって実行される１つまたは複数のコード４１３命令を含み得て、コード４１３は、既に論じた、方法８０（図６）および／または方法９０（図７）を実装し得る。プロセッサコア４００は、コード４１３によって示される命令のプログラムシーケンスに従う。各命令は、フロントエンド部４１０に入り得、１つまたは複数のデコーダ４２０によって処理され得る。デコーダ４２０は、予め定義されたフォーマットの固定幅マイクロ操作などのマイクロ操作をその出力として生成してもよく、または、元のコード命令を反映する他の命令、マイクロ命令、若しくは制御信号を生成してもよい。示されたフロントエンド部４１０はまた、レジスタリネーミングロジック４２５と、スケジューリングロジック４３０とを含み、それらは概して、リソースを割り当てて、変換命令に対応する動作を実行のためにキューに入れる。

【0072】

プロセッサコア４００は、実行ユニット４５５－１から４５５－Ｎのセットを有する実行ロジック４５０を含むように示されている。いくつかの実施形態は、特定の機能または機能のセット専用の複数の実行ユニットを含み得る。他の実施形態は、１つの実行ユニットのみ、または、特定の機能を実行し得る１つの実行ユニットを含み得る。示された実行ロジック４５０は、コード命令によって指定される動作を実行する。

【0073】

コード命令によって指定された動作の実行の完了後、バックエンドロジック４６０は、コード４１３の命令をリタイアする。一実施形態において、プロセッサコア４００は、アウトオブオーダ実行を可能にするが、命令のインオーダリタイアメントを必要とする。リタイアメントロジック４６５は、当業者に既知の様々な形態をとり得る（例えば、リオーダバッファまたは同様のもの）。このようにして、プロセッサコア４００は、少なくとも、デコーダによって生成される出力、レジスタリネーミングロジック４２５によって利用されるハードウェアレジスタおよびテーブル、並びに、実行ロジック４５０によって修正される任意のレジスタ（不図示）の観点から、コード４１３の実行中に変換される。

【0074】

図１０には示されていないが、処理要素は、プロセッサコア４００を有するチップ上の他の要素を含み得る。例えば、処理要素は、プロセッサコア４００とともにメモリ制御ロジックを含み得る。処理要素は、Ｉ／Ｏ制御ロジックを含み得、および／または、メモリ制御ロジックと統合されているＩ／Ｏ制御ロジックを含み得る。処理要素はまた、１つまたは複数のキャッシュを含み得る。

【0075】

ここで図１１を参照すると、一実施形態に係る、コンピューティングシステム１０００の実施形態のブロック図が示されている。図１１に示されるものは、第１の処理要素１０７０および第２の処理要素１０８０を含むマルチプロセッサシステム１０００である。２つの処理要素１０７０および１０８０が示されているが、システム１０００の一実施形態はまた、１つのそのような処理要素のみを含み得ることが理解される。

【0076】

システム１０００は、ポイントツーポイント相互接続システムとして示され、第１の処理要素１０７０および第２の処理要素１０８０は、ポイントツーポイント相互接続１０５０を介して結合される。図１１に示される任意またはすべてのインターコネクトは、ポイントツーポイントインターコネクトではなくむしろマルチドロップバスとして実装され得ることが理解されるべきである。

【0077】

図１１に示すように、処理要素１０７０および１０８０の各々は、第１のプロセッサコアおよび第２のプロセッサコア（すなわち、プロセッサコア１０７４ａおよび１０７４ｂ、並びに、プロセッサコア１０８４ａおよび１０８４ｂ）を含むマルチコアプロセッサであってよい。そのようなコア１０７４ａ、１０７４ｂ、１０８４ａ、１０８４ｂは、図１０に関連して上述したものと同様の態様で命令コードを実行するように構成されてよい。

【0078】

各処理要素１０７０、１０８０は、少なくとも１つの共有キャッシュ１８９６ａ、１８９６ｂを含み得る。共有キャッシュ１８９６ａ、１８９６ｂは、それぞれコア１０７４ａ、コア１０７４ｂおよびコア１０８４ａ、コア１０８４ｂなどのプロセッサの１つまたは複数のコンポーネントによって利用されるデータ（例えば、命令）を格納し得る。例えば、共有キャッシュ１８９６ａ、１８９６ｂは、プロセッサのコンポーネントによるより高速なアクセスのために、メモリ１０３２、１０３４に格納されたデータをローカルにキャッシュし得る。１つまたは複数の実施形態において、共有キャッシュ１８９６ａ、１８９６ｂは、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）若しくは他のレベルのキャッシュなどの１つまたは複数の中間レベルのキャッシュ、ラストレベルキャッシュ（ＬＬＣ）、および／またはそれらの組み合わせを含み得る。

【0079】

２つの処理要素１０７０、１０８０だけが示されているが、実施形態の範囲はそのように限定されないことを理解されたい。他の実施形態において、１つまたは複数の追加の処理要素が所与のプロセッサに存在し得る。代替的に、処理要素１０７０、１０８０の１つまたは複数は、アクセラレータまたはフィールドプログラマブルゲートアレイなどのプロセッサ以外の要素であり得る。例えば、追加の処理要素は、第１のプロセッサ１０７０と同じ追加のプロセッサ、第１のプロセッサ１０７０とは異種または非対称のプロセッサである追加のプロセッサ、アクセラレータ（例えば、グラフィックスアクセラレータ若しくはデジタル信号処理（ＤＳＰ）ユニットなど）、フィールドプログラマブルゲートアレイ、または、任意の他の処理要素を含んでよい。アーキテクチャ特性、マイクロアーキテクチャ特性、熱特性、電力消費特性、および同様のものを含む、多種多様の価値基準の観点から、処理要素１０７０、１０８０の間に様々な差異が存在し得る。これらの差異は、処理要素１０７０、１０８０の間の非対称性および異種性として、自身を効果的に表し得る。少なくとも１つの実施形態について、様々な処理要素１０７０、１０８０は、同じダイパッケージに存在し得る。

【0080】

第１の処理要素１０７０は、メモリコントローラロジック（ＭＣ）１０７２およびポイントツーポイント（Ｐ－Ｐ）インタフェース１０７６および１０７８をさらに含み得る。同様に、第２の処理要素１０８０は、ＭＣ１０８２、並びに、Ｐ－Ｐインタフェース１０８６および１０８８を含み得る。図１１に示されるように、ＭＣ１０７２および１０８２は、プロセッサをそれぞれのメモリ、すなわち、メモリ１０３２およびメモリ１０３４に結合する。これらのメモリは、それぞれのプロセッサにローカルに取り付けられたメインメモリの部分であり得る。ＭＣ１０７２および１０８２が処理要素１０７０、１０８０に統合されているものとして示されているが、代替の実施形態について、ＭＣロジックは、それらに統合されているものではなくむしろ、処理要素１０７０、１０８０の外部の個別のロジックであり得る。

【0081】

第１の処理要素１０７０および第２の処理要素１０８０は、それぞれ、Ｐ―Ｐインターコネクト１０７６、１０８６を介して、Ｉ／Ｏサブシステム１０９０に結合され得る。図１１に示されるように、Ｉ／Ｏサブシステム１０９０は、Ｐ－Ｐインタフェース１０９４および１０９８を含む。さらに、Ｉ／Ｏサブシステム１０９０は、Ｉ／Ｏサブシステム１０９０を高性能グラフィックスエンジン１０３８と結合するインタフェース１０９２を含む。一実施形態において、バス１０４９は、グラフィックスエンジン１０３８をＩ／Ｏサブシステム１０９０に結合するために使用され得る。代替的に、ポイントツーポイントインターコネクトは、これらのコンポーネントを結合し得る。

【0082】

結果として、Ｉ／Ｏサブシステム１０９０は、インタフェース１０９６を介して第１のバス１０１６に結合され得る。一実施形態において、第１のバス１０１６は、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、または、ＰＣＩエクスプレスバス、若しくは他の第３世代Ｉ／Ｏインターコネクトバスなどのバスであり得るが、実施形態の範囲はそれらに限定されない。

【0083】

図１１に示されるように、様々なＩ／Ｏデバイス１０１４（例えば、バイオメトリックスキャナ、スピーカ、カメラ、センサ）は、第１のバス１０１６を第２のバス１０２０に結合し得るバスブリッジ１０１８とともに、第１のバス１０１６に結合され得る。一実施形態において、第２のバス１０２０は、ローピンカウント（ＬＰＣ）バスであり得る。一実施形態において、様々なデバイスが、例えば、キーボード／マウス１０１２、通信デバイス１０２６、および、ディスクドライブまたはコード１０３０を含み得る他の大容量ストレージデバイスなどのデータストレージユニット１０１９を含む第２のバス１０２０に結合され得る。既に説明されたように、示されたコード１０３０は、方法８０（図６）および／または方法９０（図７）を実装してよい。さらに、オーディオＩ／Ｏ１０２４が第２のバス１０２０に結合され得、バッテリ１０１０がコンピューティングシステム１０００に電力を供給し得る。

【0084】

他の実施形態が企図されることに留意されたい。例えば、図１１のポイントツーポイントアーキテクチャの代わりに、システムは、マルチドロップバス、または、別のそのような通信トポロジを実装してよい。また、図１１の要素は、代替的に、図１１に示されるものより多いまたは少ない統合チップを使用いて分割され得る。

【0085】

追加の注記および例

【0086】

例１は、シーンに対応するデータを取得するためのネットワークコントローラと、前記ネットワークコントローラに結合されたプロセッサと、一組の命令を含むメモリであって、前記命令が前記プロセッサによって実行される場合、前記プロセッサに、前記シーンに関連付けられたセマンティック特徴およびインスタンス特徴に基づいて複数のセグメントを識別させ、前記複数のセグメントを複数のインスタンスに融合させ、前記複数のインスタンスのために分類ラベルを選択させる、メモリとを備える性能強化コンピューティングシステムを含む。

【0087】

例２は、前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して前記複数のインスタンスに融合され、前記コンピューティングシステムは、エンドツーエンドで学習可能である、例１に記載のコンピューティングシステムを含む。

【0088】

例３は、前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、複数のインスタンスに融合される、例１に記載のコンピューティングシステムを含む。

【0089】

例４は、前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、例３に記載のコンピューティングシステムを含む。

【0090】

例５は、前記分類ラベルを選択するために、前記命令は、前記プロセッサによって実行される場合、さらに、前記プロセッサに、インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成させ、前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択させる、例１に記載のコンピューティングシステムを含む。

【0091】

例６は、前記複数のセグメントのサイズは可変になる、例１から５のいずれか１つに記載のコンピューティングシステムを含む。

【0092】

例７は、一組の命令を含む少なくとも１つのコンピュータ可読記憶媒体であって、前記命令がコンピューティングシステムによって実行される場合、前記コンピューティングシステムに、シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別することと、前記複数のセグメントを複数のインスタンスに融合させることと、前記複数のインスタンスのために分類ラベルを選択することとを実行させる、コンピュータ可読記憶媒体を含む。

【0093】

例８は、前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、例７に記載の少なくとも１つのコンピュータ可読記憶媒体を含む。

【0094】

例９は、前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、複数のインスタンスに融合される、例７に記載の少なくとも１つのコンピュータ可読記憶媒体を含む。

【0095】

例１０は、前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、例９に記載の少なくとも１つのコンピュータ可読記憶媒体を含む。

【0096】

例１１は、前記分類ラベルを選択するために、前記命令は、コンピューティングシステムによって実行される場合、前記コンピューティングシステムに、インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成することと、前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択することとをさらに実行させる、例７に記載の少なくとも１つのコンピュータ可読記憶媒体を含む。

【0097】

例１２は、前記複数のセグメントのサイズは可変になる、例７から１１のいずれか１つに記載の少なくとも１つのコンピュータ可読記憶媒体を含む。

【0098】

例１３は、１つまたは複数の基板と、前記１つまたは複数の基板に結合されたロジックであって、前記ロジックは、１つまたは複数の構成可能または固定機能ハードウェア内に少なくとも部分的に実施され、前記ロジックは、シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別することと、前記複数のセグメントを複数のインスタンスに融合させることと、前記複数のインスタンスのために分類ラベルを選択することとを実行する、ロジックとを備える半導体装置を含む。

【0099】

例１４は、前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、例１３に記載の半導体装置を含む。

【0100】

例１５は、前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、複数のインスタンスに融合される、例１３に記載の半導体装置を含む。

【0101】

例１６は、前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、例１５に記載の半導体装置を含む。

【0102】

例１７は、前記分類ラベルを選択するために、前記ロジックは、インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成することと、前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択することとを実行する、例１３に記載の半導体装置を含む。

【0103】

例１８、前記複数のセグメントのサイズは可変になる、例１３から１７のいずれか１つに記載の半導体装置を含む。

【0104】

（例１９）１つまたは複数の基板に結合されているロジックは、１つまたは複数の基板内に配置されているトランジスタチャネル領域を含む、例１３から例１８のいずれか１つの半導体装置を含む。

【0105】

例２０は、性能強化コンピューティングシステムを動作させる方法を含み、前記方法は、シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別する段階と、前記複数のセグメントを複数のインスタンスに融合させる段階と、前記複数のインスタンスのために分類ラベルを選択する段階とを備える。

【0106】

例２１は、前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、例２０に記載の方法を含む。

【0107】

例２２は、前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、複数のインスタンスに融合される、例２０に記載の方法を含む。

【0108】

例２３は、前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、例２２に記載の方法を含む。

【0109】

例２４は、前記分類ラベルを選択する段階は、インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成する段階と、前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択する段階とを有する、例２０に記載の方法を含む。

【0110】

例２５は、前記複数のセグメントのサイズは可変である、例２０から２４のいずれか１つに記載の方法を含む。

【0111】

例２６は、例２０から例２５のいずれか１つの方法を実行するための手段を備える装置を含む。

【0112】

したがって、本明細書に記載された技術は、セマンティックセグメンテーションの性能を定量的に向上させることに役立つ。また、技術は、３Ｄシーンのセマンティックセグメンテーションの性能を定性的に向上させることに役立つ。さらに、技術は学習可能であるため、様々なバックボーンネットワークに適用可能である。実際に、技術は主にセグメント内の予測値のコンセンサスに依存するため、セマンティックおよびインスタンスセグメンテーションバックボーンの選択には依存しない。バックボーンは、ベースとなるセマンティックセグメンテーションの性能が異なる場合があっても、性能が向上することを経験してよい。また、この利点により、エンドツーエンドで訓練可能なネットワークの実現を可能にする。

【0113】

また、技術は単純であり、さらに効果的にクラスタリングする。ＳＦ－インスタンス損失は、セグメント特徴のクラスタリングを支援するが、インスタンス損失のみに依存すると、セグメントをグループ化するためにセグメントに対して分析を実行する反復的な（例えば、および学習不可能な）後処理クラスタリングアルゴリズム（例えば、平均シフトクラスタリングなど）を必要とする場合がある。グループ化処理を簡略化するため、提案するＳＦ－セグメント損失は、グラフ内のノード間のペアごとの距離に注目している。このアプローチにより、単純な閾値処理およびCCL段階でセグメントのグループを形成することができる。クラスタリングを単純であるように保持することで、学習可能なフレームワークがノード間の区別方法を学習し、発見的手法ベースのクラスタリングへの依存を低減することができる。

【0114】

また、本明細書に記載された技術は非学習型クラスタリングよりも定量的に優れている。セグメント融合は、異なるセマンティックバックボーンに適用した場合、セマンティックセグメンテーションにおいて従来の反復型クラスタリングソリューションよりも優れた性能を発揮する。実際に、この技術はデータセット間の一般化可能性を向上させる。

【0115】

実施形態は、すべてのタイプの半導体集積回路（「ＩＣ」）チップとともに使用するために適用可能である。これらのＩＣチップの例は、プロセッサ、コントローラ、チップセットコンポーネント、プログラマブルロジックアレイ（ＰＬＡ）、メモリチップ、ネットワークチップ、システムオンチップ（ＳｏＣ）、ＳＳＤ／ＮＡＮＤコントローラＡＳＩＣ、および同様のものを含むがこれらに限定されるものではない。さらに、いくつかの図において、信号導線が線で表されている。いくつかは、より多くの成分信号パスを示すべく異なっていてよく、複数の成分信号パスを示すべく番号ラベルを有してよく、および／または、主要情報の流れ方向を示すべく１つまたは複数の端部に矢印を有してよい。しかしながら、このことは限定的に解釈されるべきではない。むしろ、そのような追加の詳細は、回路のより容易な理解を促進すべく、１つまたは複数の例示的な実施形態に関連して使用され得る。追加の情報を有しているか否かにかかわらず、表される任意の信号線は、実際には、複数の方向に伝搬され得る１つまたは複数の信号を備え得、任意の適切なタイプの信号方式、例えば、差動ペアで実装されるデジタル線またはアナログ線、光ファイバ線、および／または、シングルエンド線、で実装され得る。

【0116】

例示的なサイズ／モデル／値／範囲が与えられているが、実施形態はこれに限定されるものではない。経時的に製造技術（例えば、フォトリソグラフィ）が成熟するにつれて、より小型のデバイスが製造され得ることが予測される。加えて、例示および説明を簡潔にするために、且つ、実施形態の特定の態様を不明瞭にしないために、ＩＣチップおよび他のコンポーネントへの周知の電源／接地接続が、図面内に示されてもよく、図面内に示されていなくてもよい。さらに、実施形態を不明瞭にすることを回避すべく、構成は、ブロック図で示されてよく、また、かかるブロック図構成の実装に関する詳細は、実施形態が実装されるべき計算システムに大きく依存することに鑑みれば、すなわち、かかる詳細は、当業者の十分知見の範囲内である。例示的な実施形態を説明すべく、具体的な詳細（例えば、回路）が説明される場合、これらの具体的な詳細なしで、またはこれらの具体的な詳細の変形を用いて、実施形態が実施され得ることが当業者に明らかであるはずである。したがって、説明は、限定なものではなく例示的なものとみなされるべきである。

【0117】

「結合される」という用語は、本明細書では、オブジェクトの構成要素間の直接的または間接的な任意のタイプの関係を指すために使用することができ、電気的、機械的、流体的、光学的、電磁的、電気機械的、または他のタイプの接続に適用することができる。加えて、「第１の」、「第２の」などの用語は、説明を容易にするためにのみ本明細書で使用され得、別段の記載がない限り、特定の時間的または経時的な意味を保持しない。

【0118】

本出願および特許請求の範囲で使用される場合、用語「のうち１つまたは複数」によって結合された項目のリストは、列挙された用語の任意の組み合わせを意味し得る。例えば、「Ａ、Ｂ、またはＣのうちの１つまたは複数」という文言は、Ａ、Ｂ、Ｃ、ＡおよびＢ、ＡおよびＣ、ＢおよびＣ、または、Ａ、Ｂ、およびＣを意味し得る。

【0119】

当業者は、前述の説明から、実施形態の広範な技術が種々の形態で実装され得ることを理解するであろう。したがって、実施形態がそれらの特定の例に関連して説明されてきたが、実施形態の真の範囲は、このように限定されるべきでない。なぜなら、図面、明細書、および以下の特許請求の範囲を検討すれば、他の修正が当業者には明らかになるからである。

【0120】

［他の可能な項目］
［項目１］
シーンに対応するデータを取得するためのネットワークコントローラと、
前記ネットワークコントローラに結合されたプロセッサと、
一組の命令を含むメモリであって、前記命令が前記プロセッサによって実行される場合、前記プロセッサに、
前記シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別させ、
前記複数のセグメントを複数のインスタンスに融合させ、
前記複数のインスタンスのために分類ラベルを選択させるメモリと
を備えるコンピューティングシステム。
［項目２］
前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して前記複数のインスタンスに融合され、前記コンピューティングシステムは、エンドツーエンドで学習可能である、項目１に記載のコンピューティングシステム。
［項目３］
前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、項目１に記載のコンピューティングシステム。
［項目４］
前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、項目３に記載のコンピューティングシステム。
［項目５］
前記分類ラベルを選択するために、前記命令は、前記プロセッサによって実行される場合、さらに前記プロセッサに、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成させ、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択させる項目１に記載のコンピューティングシステム。
［項目６］
前記複数のセグメントのサイズは可変になる、項目１に記載のコンピューティングシステム。
［項目７］
一組の命令を含む少なくとも１つのコンピュータ可読記憶媒体であって、前記命令がコンピューティングシステムによって実行される場合、前記コンピューティングシステムに、
シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別することと、
前記複数のセグメントを複数のインスタンスに融合させることと、
前記複数のインスタンスのために分類ラベルを選択することと
を実行させる、コンピュータ可読記憶媒体。
［項目８］
前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、項目７に記載の少なくとも１つのコンピュータ可読記憶媒体。
［項目９］
前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、項目７に記載の少なくとも１つのコンピュータ可読記憶媒体。
［項目１０］
前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、項目９に記載の少なくとも１つのコンピュータ可読記憶媒体。
［項目１１］
前記分類ラベルを選択するために、前記命令は、コンピューティングシステムによって実行される場合、前記コンピューティングシステムに、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成することと、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択することと
をさらに実行させる、項目７に記載の少なくとも１つのコンピュータ可読記憶媒体。
［項目１２］
前記複数のセグメントのサイズは可変になる、項目７に記載の少なくとも１つのコンピュータ可読記憶媒体。
［項目１３］
１つまたは複数の基板と、
前記１つまたは複数の基板に結合されたロジックであって、前記ロジックは、１つまたは複数の構成可能または固定機能ハードウェア内に少なくとも部分的に実施され、前記ロジックは、
シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別することと、
前記複数のセグメントを複数のインスタンスに融合させることと、
前記複数のインスタンスのために分類ラベルを選択することと
を実行する、ロジックと
を備える半導体装置。
［項目１４］
前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、項目１３に記載の半導体装置。
［項目１５］
前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、項目１３に記載の半導体装置。
［項目１６］
前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、項目１５に記載の半導体装置。
［項目１７］
前記分類ラベルを選択するために、前記ロジックは、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成することと、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択することと
を実行する、項目１３に記載の半導体装置。
［項目１８］
前記複数のセグメントのサイズは可変になる、項目１３に記載の半導体装置。
［項目１９］
前記１つまたは複数の基板に結合された前記ロジックが、前記１つまたは複数の基板内に配置されたトランジスタチャネル領域を含む、項目１３に記載の半導体装置。
［項目２０］
シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別する段階と、
前記複数のセグメントを複数のインスタンスに融合させる段階と、
前記複数のインスタンスのために分類ラベルを選択する段階と
を備える方法。
［項目２１］
前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、項目２０に記載の方法。
［項目２２］
前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、項目２０に記載の方法。
［項目２３］
前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、項目２２に記載の方法。
［項目２４］
前記分類ラベルを選択する段階は、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成する段階と、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択する段階と
を有する、項目２０に記載の方法。
［項目２５］
前記複数のセグメントのサイズは可変である、項目２０に記載の方法。

【図1】