(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023107728
(43)【公開日】2023-08-03
(54)【発明の名称】セグメント融合ベースのシーンのロバストなセマンティックセグメンテーション
(51)【国際特許分類】
G06T 7/187 20170101AFI20230727BHJP
G06T 7/00 20170101ALI20230727BHJP
【FI】
G06T7/187
G06T7/00 350B
【審査請求】未請求
【請求項の数】26
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022163323
(22)【出願日】2022-10-11
(31)【優先権主張番号】17/582,390
(32)【優先日】2022-01-24
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】591003943
【氏名又は名称】インテル・コーポレーション
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】アニルド ジャガラジャン
(72)【発明者】
【氏名】プラシャント ラッダ
(72)【発明者】
【氏名】ベンジャミン ウンメンホファー
(72)【発明者】
【氏名】オム ジ オマー
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096AA09
5L096DA01
5L096DA02
5L096FA02
5L096FA06
5L096FA72
5L096GA30
5L096GA34
5L096GA51
5L096GA59
5L096HA11
5L096JA03
5L096JA11
5L096JA16
5L096KA04
(57)【要約】 (修正有)
【課題】セグメント融合ベースのシーンのロバストなセマンティックセグメンテーションのシステム、装置および方法を提供する。
【解決手段】シーンをセグメント化する方法は、シーンに関連付けられたセマンティック特徴およびインスタンス特徴に基づいて複数のセグメントを識別し、複数のセグメントを複数のインスタンスに融合させ、複数のインスタンスのために分類ラベルを選択する。複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、複数のインスタンスに融合される。
【選択図】
図6
【特許請求の範囲】
【請求項1】
シーンに対応するデータを取得するためのネットワークコントローラと、
前記ネットワークコントローラに結合されたプロセッサと、
一組の命令を含むメモリであって、前記命令は、前記プロセッサによって実行される場合、前記プロセッサに、
前記シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別させ、
前記複数のセグメントを複数のインスタンスに融合させ、
前記複数のインスタンスのための分類ラベルを選択させる
メモリと
を備えるコンピューティングシステム。
【請求項2】
前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して前記複数のインスタンスに融合され、前記コンピューティングシステムは、エンドツーエンドで学習可能である、請求項1に記載のコンピューティングシステム。
【請求項3】
前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、請求項1に記載のコンピューティングシステム。
【請求項4】
前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、請求項3に記載のコンピューティングシステム。
【請求項5】
前記分類ラベルを選択するために、前記命令は、実行される場合、さらに、前記プロセッサに、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成させ、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択させる
請求項1に記載のコンピューティングシステム。
【請求項6】
前記複数のセグメントのサイズは可変になる、請求項1から5のいずれか一項に記載のコンピューティングシステム。
【請求項7】
一組の命令を含み、前記命令は、コンピューティングシステムによって実行される場合、前記コンピューティングシステムに、
シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別させ、
前記複数のセグメントを複数のインスタンスに融合させ、
前記複数のインスタンスのための分類ラベルを選択させる
コンピュータプログラム。
【請求項8】
前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、請求項7に記載のコンピュータプログラム。
【請求項9】
前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、請求項7に記載のコンピュータプログラム。
【請求項10】
前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、請求項9に記載のコンピュータプログラム。
【請求項11】
前記分類ラベルを選択するために、前記命令は、実行される場合、さらに、前記コンピューティングシステムに、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成させ、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択させる
請求項7に記載のコンピュータプログラム。
【請求項12】
前記複数のセグメントのサイズは可変になる、請求項7に記載のコンピュータプログラム。
【請求項13】
1つまたは複数の基板と、
前記1つまたは複数の基板に結合されたロジックであって、前記ロジックは、1つまたは複数の構成可能または固定機能ハードウェア内に少なくとも部分的に実装され、前記ロジックは、
シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別し、
前記複数のセグメントを複数のインスタンスに融合させ、
前記複数のインスタンスのための分類ラベルを選択する
ロジックと
を備える半導体装置。
【請求項14】
前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、請求項13に記載の半導体装置。
【請求項15】
前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、請求項13に記載の半導体装置。
【請求項16】
前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、請求項15に記載の半導体装置。
【請求項17】
前記分類ラベルを選択するために、前記ロジックは、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成し、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択する
請求項13に記載の半導体装置。
【請求項18】
前記複数のセグメントのサイズは可変になる、請求項13に記載の半導体装置。
【請求項19】
前記1つまたは複数の基板に結合された前記ロジックが、前記1つまたは複数の基板内に配置されたトランジスタチャネル領域を含む、請求項13から18のいずれか一項に記載の半導体装置。
【請求項20】
シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別する段階と、
前記複数のセグメントを複数のインスタンスに融合させる段階と、
前記複数のインスタンスのための分類ラベルを選択する段階と
を備える方法。
【請求項21】
前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、請求項20に記載の方法。
【請求項22】
前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、請求項20に記載の方法。
【請求項23】
前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、請求項22に記載の方法。
【請求項24】
前記分類ラベルを選択する段階は、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成する段階と、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択する段階と
を有する、請求項20に記載の方法。
【請求項25】
前記複数のセグメントのサイズは可変である、請求項20から24のいずれか一項に記載の方法。
【請求項26】
請求項7から12のいずれか一項に記載のコンピュータプログラムを格納したコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、概して、シーンセグメンテーションに関する。より具体的に、実施形態は、セグメント融合ベースのシーンのロバストなセマンティックセグメンテーションに関する。
【背景技術】
【0002】
3次元(3D)セマンティックセグメンテーションは、通常、3D点群データ内の各ポイントに分類属性(例えば、椅子、テーブルなど)をラベル付けすることを含み、セマンティックセグメンテーションタスクは、自動運転、ロボティクス、室内シーン理解などの様々な用途で有用であってよい。しかし、従来のセマンティックセグメンテーションソリューションは、オブジェクトを部分的に誤って分類し、複雑で発見的に駆動される後処理を含み、特定のモデル、ネットワークおよび/若しくはシーンに限定され、並びに/またはシーン内の最も強い手がかりのみに注目する場合がある。
【図面の簡単な説明】
【0003】
実施形態の様々な利点は、以下の明細書および添付の特許請求の範囲を読み、以下の図面を参照することによって、当業者に明らかになるであろう。
【0004】
【
図1】一実施形態に係る、セグメンテーションパイプラインの一例のブロック図である。
【0005】
【
図2】従来のエンコーダブロックの一例と一実施形態に係る強化されたエンコーダブロックとの比較ブロック図である。
【0006】
【
図3】一実施形態に係るセグメントへのインスタンス損失関数の適用の一例を示す説明図である。
【0007】
【
図4】一実施形態に係るセグメントペアへのセグメント損失関数の適用の一例を示す説明図である。
【0008】
【
図5】従来の分類結果の一例と一実施形態に係る強化された分類結果との比較説明図である。
【0009】
【
図6】一実施形態に係る、シーンをセグメント化する方法の一例のフローチャートである。
【0010】
【
図7】一実施形態に係る、複数のインスタンスのために分類ラベルを選択する方法の一例のフローチャートである。
【0011】
【
図8】一実施形態に係る、性能強化コンピューティングシステムの一例のブロック図である。
【0012】
【
図9】一実施形態に係る、半導体パッケージ装置の一例の説明図である。
【0013】
【
図10】一実施形態に係るプロセッサの一例のブロック図である。
【0014】
【
図11】一実施形態に係る、マルチプロセッサベースのコンピューティングシステムの一例のブロック図である。
【発明を実施するための形態】
【0015】
先行のシーンセグメンテーションソリューションは、2次元(2D、例えば2D投影データに作用する)ソリューションと3Dソリューション(例えば、3Dデータに作用する)とに分類されることができる。また、3D処理ソリューションは、ポイントベースのソリューションとボクセルベースのソリューションとに大別されることができる。
【0016】
ポイントベースのソリューションは、情報を処理するために一連の多層パーセプトロンブロック(MLP:multi-layer perceptron block)を採用し、グローバルプーリング戦略を採用してよいが、ボクセルベースのソリューションは、疎な畳み込み層と、ダウンサンプリング層およびアップサンプリング層とのスタックである、座標を離散的な位置にボクセル化するように作用するU-Netを採用してよい。
【0017】
基本的なセマンティックセグメンテーションネットワークは、オブジェクトの一部内の顕著な誤分類からの悪影響を受けることがある。この誤分類は主に、粒度の適切なレベルで文脈情報の異なるタイプを捕捉し融合させる(例えば、ローカル理解からグローバル理解へ:ポイントからインスタンス、シーンへの移行)際に発生する課題に起因する。
【0018】
セマンティックセグメンテーションの性能を向上させる先行アプローチは、オブジェクトの単一のインスタンスのオブジェクト境界を理解するためにインスタンスセグメンテーションを使用することと、より良いセマンティックセグメンテーションを可能にするようにセマンティック情報とインスタンス情報との融合を試行することとを含んでよい。しかし、これらのアプローチの多くは、ポイントレベルでの特徴の融合に対して動作するため、非効率的である。特徴を階層的に融合させるアプローチは、反復的で学習不可であり、計算コストのかかる後処理を含む。
【0019】
本明細書に記載された技術は、最小限の後処理で、任意のサイズのデータセットのセマンティックセグメンテーションの性能を向上させることを目的とした、セマンティック特徴およびインスタンス特徴の階層的かつ学習可能な自己注意ベースの融合を提供する。さらに、実施形態は、複数の汎用セマンティックバックボーンネットワークに対するセマンティックセグメンテーションの性能の向上を実証している。
【0020】
より具体的に、実施形態は、部分的な誤分類の問題に対処するために、文脈の粒度の適切なレベルでのセマンティック情報およびインスタンス情報の階層的融合(例えば、ローカルスケールからグローバルスケールへ)に対する注意ベースのソリューションを提供する。本明細書に記載された技術は、ボクセル(例えば、「セグメント」)のより細かい粒度で特徴をクラスタリングするために幾何学的平滑性事前知識(geometric smoothness priors)を利用し(例えば、空間の近傍または時間の間隔における物理的特性が何らかの一貫性を示し、概ね急激に変化しないことを仮定)、次に、学習可能な注意ベースのネットワークを使用して、(例えば、セグメント融合ネットワークにおいて実装される)それぞれのセマンティック特徴およびインスタンス特徴に基づいてセグメントを階層的に融合させる。本明細書に記載された技術は、セグメントをインスタンスに融合させるための単純であるが効果的な連結成分ラベリング(CCL)ソリューションを含む、最小限の後処理を含む。
【0021】
実施形態は、階層的で学習可能な2重の戦略を含む:(i)点群のオーバセグメント化されたクラスタリングを達成するために幾何学的平滑性事前知識に依存するグラフクラスタリングソリューションを使用して、セグメントごとに代表的なセマンティック特徴およびインスタンス特徴を計算すること、および(ii)セグメントの間の類似性を計算して、これらのセグメントのうちの一部をインスタンスにマージするセグメント融合ネットワークへ、一組のセグメントを供給することであって、インスタンスは、インスタンス内のすべてのボクセルに意味論的にラベル付けるようにそれらのそれぞれのセマンティックラベルに対するソフト多数決投票を受けることである。
【0022】
図1は、シーンに関連付けられた入力データ12(例えば、ポイントデータ、カラーデータなどを含む)がセマンティックセグメンテーションネットワーク14およびインスタンスセグメンテーションネットワーク16に提供されるセグメンテーションパイプライン10を示す。セマンティックセグメンテーションネットワーク14がセマンティック特徴18を生成し、インスタンスセグメンテーションネットワーク16がインスタンス特徴20を生成する。一例において、セマンティック特徴18は、セマンティックセグメンテーションのタスクのために訓練されたモデルの最後から2番目の層(例えば、特徴から離散的なクラスへの変換直前)から抽出される。同じクラス(例えば椅子)に属するポイント/面の特徴は、特徴空間において互いに近接している可能性が高い(例えば、シーン内の同じクラスの2つのインスタンスを参照できるにもかかわらず)。インスタンス特徴20は、インスタンスセグメンテーションのタスクのために訓練されたモデルの最後から2番目の層(例えば、特徴から離散的なクラスへの変換直前)から抽出されてよい。同じインスタンス(例えば、椅子-1)に属するポイント/面の特徴は、特徴空間において互いに近接している可能性が高い。また、これらの特徴は、他のインスタンス(例えば、椅子-2、壁-1など)と比較される場合に区別できる可能性が高い。一例において、入力データ12は、点群に関連付けられたポイントの位置(例えば、座標)、色(例えば、テクスチャ情報)、点間法線および任意の他の測光/幾何学的特徴を含む点群に関連付けられた任意の属性を含む点群データである。また、入力データ12は、任意の点群形状記述子を含んでよい。
【0023】
一実施形態において、グラフクラスタリング段階22は、セマンティック特徴18、インスタンス特徴20および入力データ12に基づいて複数のセグメント24(24a~24h)を識別する。一実施形態において、複数のセグメント24のサイズは可変である。したがって、セグメント24の数は固定されていない。また、セグメント融合ネットワーク26は、複数のセグメント24を複数のインスタンスに融合させ、ここで、CCL段階28が複数のインスタンスのために分類ラベルを選択する。より具体的に、セグメント融合ネットワーク26は、同じオブジェクトの一部であるものが空間的により近接していることを確実にすることによって、セグメントの特徴を変換する。さらに、CCL段階28はこれらの特徴を分類ラベルに変換する。一例において、セグメント融合ネットワーク26は、一組のマルチヘッド注意エンコーダスタック30を含む。
【0024】
図2は、入力特徴42に対して動作してよいトランスフォーマの従来のエンコーダブロック40を実証する。より具体的に、初期の全連結(FC:fully connected)層が入力特徴42を処理し、「u」FC層、「v」FC層、および「w」FC層に出力を提供する。uおよびvのFC層の出力にスケーリングされたドット積注意が適用され、スケーリングされたドット積注意およびwのFC層の出力に行列積が適用される。その結果は、元の入力特徴42と合計され、その合計結果は正規化層で処理される。正規化層の出力は次のエンコーダに提供される。
【0025】
対照的に、強化されたエンコーダブロック50は、セマンティック特徴18とインスタンス特徴20との両方に基づいて生成される複数のセグメント24に対して動作する。示された強化されたエンコーダブロック50は単にネットワークアーキテクチャの一例である。本明細書に記載された技術も他のネットワークアーキテクチャに適用されてよい。示された例において、初期のFC層は、複数のセグメント24を処理し、「u」FC層、「v」FC層、および「w」FC層への出力を提供する。スケーリングされたドット積注意はuおよびvのFC層の出力に適用され、アダマール積(例えば、要素ごとの乗数)はスケーリングされたドット積注意の出力および複数のセグメント24に関連付けられた隣接行列に適用される。一実施形態において、アダマール積は、複数のセグメント24における空間的に連結されたセグメント間の相互作用を拘束する。一例において、行列積は、アダマール積およびwのFC層の出力に適用される。その結果は、元の複数のセグメント24と合計され、その合計結果は正規化層で処理される。正規化層の出力は次のエンコーダに提供される。
【0026】
したがって、強化されたエンコーダブロック50は、それらのそれぞれの特徴の類似性に基づいてセグメントを融合させるまたは分離することを目的とした、セグメント融合、学習可能な自己注意ベースのネットワークを提供する。このアプローチにより、セグメント融合ネットワークは、文脈の適切な粒度を決定する。プールされたセグメントはインスタンスになり、セマンティックラベルに対する「ソフト」多数決投票を受ける。ソフト多数決投票の結果は、インスタンス内のすべてのボクセルを意味論的にラベル付けするために使用される。
【0027】
より具体的に、セグメント融合ネットワークにおいて、インスタンス特徴20に加えて、セグメントごとのセマンティック特徴18を使用することにより、ネットワークがセグメント融合の決定を予測しながら、誤ったセマンティック予測を理解し、考慮することができる。セマンティック特徴18は、セグメント融合ネットワークのエンコーダブロック50を経由して供給される。各エンコーダブロック50において、スケーリングされたドット積注意相の後に、注意行列とセグメントグラフの隣接行列(以下の式3を参照)とを乗算する要素ごとの乗算が行われる。このアプローチは、それらの空間的に連結されたセグメントペア間の相互作用のみを拘束することに役立つ。
【0028】
ネットワークの末端において、セグメントの類似性は、セグメント特徴間のユークリッド距離を計算することによって計算される(以下の式8を参照)。2つのセグメント間の距離が閾値未満であれば、2つのセグメントは類似していると考えられる。そうでない場合、セグメントは非類似として扱われる。空間的に互いに連結された類似のセグメントは識別され、CCL段階を介して、各グループがインスタンスとして識別される状態で共にグループ化される。
【0029】
最後に、インスタンス内のボクセルのセマンティック予測に対してソフト多数決投票が採用される。一例において、ソフトマジョリティは、クラス確率の合計によって決定される。そのような場合、そのインスタンスに属するすべてのボクセルについてのラベルとして、マジョリティのラベルが選択される。
【0030】
ここで、
図3および
図4に目を向けると、実施形態は、セグメント損失を含む損失関数の組み合わせを使用して、任意の2つの空間的に隣接するセグメントを融合させるまたは分離したまま保持するように、セグメント融合ネットワークを監督する。
【0031】
図3に最もよく示されているように、インスタンス損失は、同じインスタンス60に対応するセグメントを最適化する。先行アプローチはポイントレベルでの損失を提案していたかもしれないが、本明細書に記載された技術は、結び付けられた閾値パラメータを有するグラフノード(例えば、セグメント)のレベルで損失を決定する。閾値パラメータは、(a)インスタンス内セグメント特徴距離を最小化することと、(b)インスタンス間重心特徴距離を最大化することであって、重心特徴は同じグラウンドトゥルースインスタンスに属するすべてのセグメントに対して計算されることと、(c)結果を正則化することとを目的としている。より具体的に、インスタンス60の損失はL
instanceとして表されてよい。
【0032】
図4に最もよく示されているように、セグメント損失は、セグメントのペア62の間のペアごとの損失を最適化する。実施形態は、モデルが融合または分離のいずれの決定を誤って予測するエッジにペナルティを与える損失関数を含む。融合または分離の決定は、セグメント特徴のペア間の距離を閾値処理することで決定される。このアプローチにより、セグメントを共にクラスタリングするためのより単純な後処理を可能にする。
【0033】
ポイントごとの特徴をXで表記してよく、セグメントごとの特徴を
【数1】
で表記してよい。
【0034】
セマンティック損失
【0035】
ポイントごとのセマンティック特徴を、Sで表記してよく、ポイントの位置をPで表記してよい。
【0036】
インスタンス損失
【0037】
一例において、インスタンスネットワークは、インスタンス埋め込みと空間埋め込みとの2つの特徴を出力する。ポイントごとのインスタンス特徴を、Iで表記してよく、ポイントごとのインスタンス重心推定をDで表記してよい。
【0038】
グラフセグメンテーション
【0039】
既に述べたように、セマンティックセグメンテーションのために画素単位の予測を使用すると、オブジェクトの一部を誤分類する結果になる。したがって、本明細書に記載された技術は、ポイントが取り付けられたオブジェクトの理解を提供する。より具体的に、実施形態は、効率的なグラフセグメンテーション技術を使用して、ボクセルを3D表面(例えば、セグメントまたはスーパボクセル)にセグメント化する、階層的戦略を提供する。
【0040】
グラフセグメンテーション段階は、2つの異なるオブジェクトに関連する2つのボクセルが常に異なるセグメントで終わるという意味で、オブジェクト境界を侵害しないオーバセグメント化された分類境界を提供する(例えば、本質的に、オブジェクトは3D表面の複雑な集まりで構成されているため)。セグメントのような高いレベルの抽象度での表現は、特にセグメント内の点法線が或る境界内でしか変化しないことの保証を提供するため、幾何学的連続性を提供する。
【0041】
グラフセグメンテーション段階の出力は、ボクセルのセットJのリストであってよく、各セットJ
iはセグメント内のボクセルに関係する。ポイントごとの特徴(S,D,I)にわたる平均化戦略を用いて、セグメントごとの特徴
【数2】
は、以下にしたがって計算されてよい。
【数3】
式1
【0042】
グラフセグメンテーション段階を実行しながら、セグメント間の隣接情報も記録される。このアプローチにより、隣接行列Aで表されるセグメントの連結性を理解することができる。セグメントのグラフG=(V,E)が形成され、ここで、Vはセグメントのリスト(例えば、グラフの頂点を形成する)に関係し、EはAで記述されるグラフを指す。
【0043】
セグメント融合
【0044】
基礎となるポイントからセグメントを形成した後、実施形態はこれらのセグメントからオブジェクトを形成する。そのため、インスタンスレベルの情報とセマンティックレベルの情報を共同に関連付け、セグメントのペアが同じオブジェクトに属するか(融合可能)、同じオブジェクトに属さないか(分離可能)の決定を本質的に形成するように、ネットワークは訓練される。この学習過程を監督するために、実施形態は、(i)インスタンス損失と(ii)セグメント損失の2つの損失のセットを採用する。したがって、全体の損失関数は
【数4】
式2
である。
【0045】
インスタンスおよびセマンティック特徴はセグメントごと
【数5】
に投影され、セグメント融合ネットワークを用いて、合同セマンティック-インスタンス空間における特徴の集合
【数6】
に変換される。
【0046】
セグメント融合ネットワーク
【0047】
本明細書に記載された技術は、学習可能なネットワークを用いて、類似のセグメントを予測し、融合させる。本明細書に記載されたネットワークは、このような学習可能なネットワークの一例のみである。
【0048】
一例において、ネットワークはエンコーダブロックの複数のスタックで構成され、各エンコーダブロックは変換および自己注意を含むトランスフォーマ的動作を行う。ネットワークは、セグメント特徴が(例えば、非線形活性化層が点在している状態で)線形変換され、セグメント特徴同士の比較に自己注意が用いられる、注意ブロックによって構成されている。実施形態は、空間的な相互作用を拘束するために、自己注意[S(u,v)]に隣接行列[A]を乗算する(例えば、アダマール積)。グループ正規化は、チャネルを正規化し、ブロック間の残差接続を採用して、勾配流を改善することに用いられる。
【数7】
式3
【0049】
隣接行列との要素ごとの乗算で補強され、自己注意を採用する任意のネットワークアーキテクチャを使用することができる。例として、グラフ注意ネットワーク(GAT:Graph Attention Networks)、トランスフォーマなどが挙げられる。
【0050】
セグメント融合(SF)-インスタンス損失
【0051】
一例において、セグメントレベルで引力および斥力のインスタンス損失が使用される。これらの損失により、同じインスタンスのセグメントは共にクラスタリングされるが、インスタンス特徴の重心は互いに反発し合うことが確実にされる。
【数8】
式4
【数9】
式5
【数10】
式6
【数11】
式7
【数12】
式8
【0052】
ここで、Kはシーン内のグラウンドトゥルースインスタンスの数を表記し、
【数13】
はl
1ノルムであり、μ
iはi番目のインスタンスに属するセグメント全体のセグメント特徴の平均であり、d(f
i,f
j)は適切な距離ノルム(l
1/l
2)を示し、(..)
+はヒンジ損失であり、N
iはシーンのi番目のインスタンスにおけるボクセル数である。したがって、式4は同じインスタンスのセグメント特徴を重心に近接させ、式5は異なるインスタンスの重心特徴を反発させ、式6は損失を正則化する。
【0053】
セグメント融合-セグメント損失
【0054】
SF-インスタンス損失は、セグメント特徴を適切にクラスタリングすることに役立つ。しかし、インスタンス損失だけに依存すると、例えばkNNクラスタリング、平均シフトクラスタリングなど、後処理クラスタリングアルゴリズムを繰り返す必要がある場合がある。また、本明細書に記載された技術は、セグメント特徴メトリック空間におけるペアごとの距離にペナルティを与え、結果として、特徴をラベルに投影するための、はるかにより単純なクラスタリングソリューションを使用することを可能にする。より具体的に、実施形態は、融合可能なエッジおよび分離可能なエッジに独立して注目する損失関数を用いる(例えば、式9、式10および式11)。
【数14】
式9
【数15】
式10
【数16】
式11
【0055】
ここで、EsepおよびEfuseは、それぞれ分離および融合された状態を保持するエッジの集合を表記する。したがって、式9はモデルが誤って融合しようとするエッジにペナルティを与え、式10はモデルが誤って分離しようとするエッジにペナルティを与える。分離可能なエッジの数は融合可能なエッジの数をはるかに超えるため、より低いwfuseおよびwsepを使用することにより、全体として高いmIoU(mean Intersection over Union、例えば、Jaccard Index)が達成される。一例において、wfuseおよびwsepの値はそれぞれ1および0.01である。
【0056】
CCL
【0057】
パイプラインの末端において、セグメント特徴間のユークリッド距離を計算することによって、セグメントの類似性を計算する。また、セグメントの類似性には、値(ΔD)による閾値が設定される(例えば、値が小さいほど類似のセグメントを示し、値が大きいほど非類似のセグメントを示す)。空間的に互いに連結された類似のセグメントは識別され、CCL段階を介して共にグループ化され、ここで、各グループがインスタンスとして識別される。一例において、CCL段階は、Union-Find法を用いて、各ボクセルをインスタンスIDでラベル付けし、効率的に連結成分を計算する。改善されたセマンティックセグメンテーションの性能を取得するために、インスタンスにおけるすべてのボクセルのクラス確率を合計し、対応するボクセルに最大確率のセマンティッククラスで注釈を付けることにより、ソフト多数決投票を実行する。
【0058】
図5は、オブジェクト(例えば、椅子)にラベルA(例えば、椅子)およびラベルB(例えば、棒)が部分的に割り当てられた従来の分類結果70を示す図である。対照的に、強化された分類結果72は、本明細書に記載された技術を使用して、オブジェクトを完全にラベルA(例えば、椅子)でラベル付けする。
【0059】
図6は、シーンをセグメント化する方法80を示す図である。方法80は、1つまたは複数のモジュールにおいて、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、プログラマブルROM(PROM)、ファームウェア、フラッシュメモリなどの機械またはコンピュータ可読記憶媒体に、ハードウェアに、またはそれらの任意の組み合わせに格納された、一組のロジック命令として実装されてよい。例えば、ハードウェア実装は、構成可能なロジック、固定機能ロジックまたはそれらの任意の組み合わせを含んでよい。構成可能なロジックの例としては、適切に構成されたプログラマブルロジックアレイ(PLA)、フィールドプログラマブルゲートアレイ(FPGA)、コンプレックスプログラマブルロジックデバイス(CPLD)、および汎用マイクロプロセッサが挙げられる。固定機能ロジックの例としては、適切に構成された特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、組み合わせ論理回路および順序論理回路が挙げられる。構成可能なロジックまたは固定機能ロジックは、相補型金属酸化膜半導体(CMOS:Complementary Metal Oxide Semiconductor)論理回路、トランジスタ-トランジスタロジック(TTL:Transistor-Transistor Logic)論理回路または他の回路で実装することができる。
【0060】
方法80に示される動作を実行するコンピュータプログラムコードは、Java(登録商標)、Smalltalk(登録商標)、C++または同様のものなどのオブジェクト指向プログラミング言語、および「C」プログラミング言語または類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで書き込まれ得る。また、ロジック命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、状態設定データ、集積回路用構成データ、電子回路をパーソナライズする状態情報、および/またはハードウェア固有の他の構造コンポーネント(例えば、ホストプロセッサ、中央処理装置/CPU、マイクロコントローラ等)を含み得る。
【0061】
示された処理ブロック82は、シーンに関連付けられたセマンティック特徴、インスタンス特徴、および点群データに基づいて、複数のセグメントを識別することを提供する。一実施形態において、複数のセグメントのサイズは可変である。ブロック82は、幾何学的平滑性事前知識を使用することを含んでよい。ブロック84は、複数のセグメントを複数のインスタンスに融合させる。一例において、ブロック84は、学習可能な自己注意ベースのネットワークを介して、複数のセグメントを複数のインスタンスに融合させる。また、ブロック84は、インスタンス損失関数、セグメント損失関数、および距離マージンパラメータ(例えば、ΔD)に基づいて、複数のセグメントを複数のインスタンスに融合させてよい。このような場合、セグメント損失関数は、セグメントのペアに関して、融合の誤予測および分離の誤予測にペナルティを与えることができる。例えば、2つのセグメントが融合されるべき(例えば、訓練セットのグラウンドトゥルースから決定される)だが、モデルがセグメント間の距離を高く予測する場合(例えば、基本的にこれらのセグメントは分離した状態に保持されると予測する)、損失関数は、それらのシナリオ(および逆のシナリオ、結合×融合)を検出して、それらにより高いペナルティを付けることによって、そのようなインスタンスにペナルティを与えようとする(ヒンジ損失方程式で示されている)。このシステムは学習可能であるため、この損失は誤差の勾配を通して逆伝搬され、現在訓練中のセグメント融合ネットワークの重みを更新する。モデルとグラウンドトゥルースとの両方が一致する場合、ヒンジ損失により、そのようなセグメントのペアに関連付けられたペナルティがないことが確実にされる。一実施形態において、更新された重みは、未知のデータに対する推論/テストにおいて、より良い性能を発揮する。
【0062】
ブロック86は複数のインスタンスのための分類ラベルを選択する。したがって、方法80は、少なくとも、セマンティック特徴およびインスタンス特徴を階層的融合(例えば、セグメント、インスタンス)で組み合わせることにより、オブジェクトの部分的な誤分類を排除し、より単純な後処理を可能にし、他のモデル/ネットワークにわたって一般化する能力を高め、および/または任意のシーンに対する拡張性を改善する程度に性能を強化する。
【0063】
図7は、複数のインスタンスのための分類ラベルを選択する方法90(例えば、ソフト多数決投票)を示す図である。既に説明されたように、方法90は概してブロック86(
図6)に組み込まれてよい。より具体的に、方法90は、機械またはコンピュータ可読記憶媒体RAM、ROM、PROM、ファームウェア、フラッシュメモリなど、ハードウェア、またはそれらの任意の組み合わせに格納された一組のロジック命令として、1つまたは複数のモジュールで実施され得る。例えば、ハードウェア実装は、構成可能なロジック、固定機能ロジックまたはそれらの任意の組み合わせを含んでよい。構成可能なロジックの例としては、適切に構成されたPLA、FPGA、CPLD、汎用マイクロプロセッサが挙げられる。固定機能ロジックの例としては、適切に構成されたASIC、組み合わせ論理回路および順序論理回路が挙げられる。構成可能なロジックまたは固定機能ロジックは、CMOS論理回路、TTL論理回路または他の回路で実装することができる。
【0064】
示された処理ブロック92は、インスタンスごとに、インスタンス内の各ボクセルのセマンティックラベルを生成することを提供する。また、ブロック94は、インスタンス内のボクセルのセマンティックラベルに基づいて、分類ラベルを選択して(例えば、ソフト多数決投票を介して)よい。したがって、方法90は、シーン内のより弱いが重要な手がかりを捕捉する能力を提供することによって、性能をさらに強化する。
【0065】
次に
図8を参照すると、性能強化コンピューティングシステム280が示されている。システム280は、一般に、コンピューティング機能(例えば、携帯情報端末/PDA、ノートブックコンピュータ、タブレットコンピュータ、コンバーチブルタブレット、サーバ)、通信機能(例えば、スマートフォン)、撮像機能(例えば、カメラ、ビデオカメラ)、メディア再生機能(例えば、スマートテレビ/テレビ)、ウェアラブル機能(例えば、時計、アイウェア、ヘッドウェア、フットウェア、装身具)、車両機能(例えば、車、トラック、オートバイ)、ロボット機能(例えば、自律型ロボット)、モノのインターネット(IoT:Internet of Things)機能など、またはそれらの任意の組み合わせを有する電子デバイス/プラットフォームの一部であり得る。
【0066】
示された例においては、システム280は、システムメモリ286(例えば、デュアルインラインメモリモジュール/DIMM)に結合される統合メモリコントローラ(IMC)284を有するホストプロセッサ282(例えば、CPU)を含む。一実施形態において、IO(入力/出力)モジュール288はホストプロセッサ282に結合される。示されたIOモジュール288は、例えば、ディスプレイ290(例えば、タッチスクリーン、液晶ディスプレイ/LCD、発光ダイオード/LEDディスプレイ)、およびネットワークコントローラ292(例えば、有線および/または無線)と通信を行う。ホストプロセッサ282は、IOモジュール288、グラフィックプロセッサ294、AIアクセラレータ296と組み合わせて、システムオンチップ(SoC:System On Chip)298としてよい。一例において、ネットワークコントローラ292は、例えば、自動運転および/またはロボティクス設定における3Dシーンなどのシーンに対応するデータを取得する。
【0067】
一実施形態において、ホストプロセッサ282は、大容量ストレージ302および/またはシステムメモリ286から取り出された一組のプログラム命令300を実行して、既に説明した方法80(
図6)および/または方法90(
図7)の1つまたは複数の態様を実施する。したがって、ホストプロセッサ282による示された命令300の実行は、ホストプロセッサ282に、シーンに関連付けられるセマンティック特徴およびインスタンス特徴に基づいて複数のセグメントを識別し、複数のセグメントを複数のインスタンスに融合させ、複数のインスタンスに対する分類ラベルを選択することを行わせる。また、AIアクセラレータ296は、既に説明された方法80(
図6)および/または方法90(
図7)の1つまたは複数の態様を実行するための構成可能および/または固定機能ロジックを含むことができる。一例において、コンピューティングシステム280は、エンドツーエンドで学習可能である(例えば、学習可能な自己注意ベースのネットワークの使用に起因する)。したがって、コンピューティングシステム280は、少なくとも、セマンティック特徴およびインスタンス特徴を階層的融合(例えば、セグメント、インスタンス)で組み合わせることにより、オブジェクトの部分的な誤分類を排除し、より単純な後処理を可能にし、他のモデル/ネットワークにわたって一般化する能力を高め、および/または任意のシーンに対する拡張性を向上させる程度に性能が強化されたと考えられる。
【0068】
図9は、半導体装置350(例えば、チップ、ダイ、パッケージ)を示す。示された装置350は、1つまたは複数の基板352(例えば、シリコン、サファイヤ、ヒ化ガリウム)と、1つまたは複数の基板352に結合されたロジック354(例えば、トランジスタ配列およびその他集積回路(IC)コンポーネント)とを備える。一実施形態において、ロジック354は、既に説明した、方法80(
図6)および/または方法90(
図7)の1つまたは複数の態様を実装する。
【0069】
ロジック354は、少なくとも部分的に、構成可能または固定機能ハードウェアで実装され得る。一例において、ロジック354は、基板352内に配置される(例えば、埋め込まれる)トランジスタチャネル領域を含む。したがって、ロジック354と基板352との間のインタフェースは、急激な接合でないことがあり得る。ロジック354はさらに、基板352の初期ウェハ上に成長するエピタキシャル層を備えると考えられる。
【0070】
図10は、一実施形態に係る、プロセッサコア400を示す。プロセッサコア400は、マイクロプロセッサ、組み込みプロセッサ、デジタル信号プロセッサ(DSP)、ネットワークプロセッサ、または、コードを実行する他のデバイスなどの任意のタイプのプロセッサに対するコアであり得る。1つのプロセッサコア400のみが
図10に示されているが、処理要素は、代替的に、
図10に示されるプロセッサコア400の1つより多くのものを含み得る。プロセッサコア400は、シングルスレッドコアであってもよく、または、少なくとも1つの実施形態について、プロセッサコア400は、それが、コアごとに1つより多くのハードウェアスレッドコンテキスト(若しくは「論理プロセッサ」)を含み得る、というポイントで、マルチスレッドであってもよい。
【0071】
図10は、プロセッサコア400に結合されたメモリ470も示している。メモリ470は、当業者にとって既知か、そうでなければ当業者に利用できる(メモリ階層の様々な層を含む)多種多様なメモリのいずれかであり得る。
メモリ470は、プロセッサコア400によって実行される1つまたは複数のコード413命令を含み得て、コード413は、既に論じた、方法80(
図6)および/または方法90(
図7)を実装し得る。プロセッサコア400は、コード413によって示される命令のプログラムシーケンスに従う。各命令は、フロントエンド部410に入り得、1つまたは複数のデコーダ420によって処理され得る。デコーダ420は、予め定義されたフォーマットの固定幅マイクロ操作などのマイクロ操作をその出力として生成してもよく、または、元のコード命令を反映する他の命令、マイクロ命令、若しくは制御信号を生成してもよい。示されたフロントエンド部410はまた、レジスタリネーミングロジック425と、スケジューリングロジック430とを含み、それらは概して、リソースを割り当てて、変換命令に対応する動作を実行のためにキューに入れる。
【0072】
プロセッサコア400は、実行ユニット455-1から455-Nのセットを有する実行ロジック450を含むように示されている。いくつかの実施形態は、特定の機能または機能のセット専用の複数の実行ユニットを含み得る。他の実施形態は、1つの実行ユニットのみ、または、特定の機能を実行し得る1つの実行ユニットを含み得る。示された実行ロジック450は、コード命令によって指定される動作を実行する。
【0073】
コード命令によって指定された動作の実行の完了後、バックエンドロジック460は、コード413の命令をリタイアする。一実施形態において、プロセッサコア400は、アウトオブオーダ実行を可能にするが、命令のインオーダリタイアメントを必要とする。リタイアメントロジック465は、当業者に既知の様々な形態をとり得る(例えば、リオーダバッファまたは同様のもの)。このようにして、プロセッサコア400は、少なくとも、デコーダによって生成される出力、レジスタリネーミングロジック425によって利用されるハードウェアレジスタおよびテーブル、並びに、実行ロジック450によって修正される任意のレジスタ(不図示)の観点から、コード413の実行中に変換される。
【0074】
図10には示されていないが、処理要素は、プロセッサコア400を有するチップ上の他の要素を含み得る。例えば、処理要素は、プロセッサコア400とともにメモリ制御ロジックを含み得る。処理要素は、I/O制御ロジックを含み得、および/または、メモリ制御ロジックと統合されているI/O制御ロジックを含み得る。処理要素はまた、1つまたは複数のキャッシュを含み得る。
【0075】
ここで
図11を参照すると、一実施形態に係る、コンピューティングシステム1000の実施形態のブロック図が示されている。
図11に示されるものは、第1の処理要素1070および第2の処理要素1080を含むマルチプロセッサシステム1000である。2つの処理要素1070および1080が示されているが、システム1000の一実施形態はまた、1つのそのような処理要素のみを含み得ることが理解される。
【0076】
システム1000は、ポイントツーポイント相互接続システムとして示され、第1の処理要素1070および第2の処理要素1080は、ポイントツーポイント相互接続1050を介して結合される。
図11に示される任意またはすべてのインターコネクトは、ポイントツーポイントインターコネクトではなくむしろマルチドロップバスとして実装され得ることが理解されるべきである。
【0077】
図11に示すように、処理要素1070および1080の各々は、第1のプロセッサコアおよび第2のプロセッサコア(すなわち、プロセッサコア1074aおよび1074b、並びに、プロセッサコア1084aおよび1084b)を含むマルチコアプロセッサであってよい。そのようなコア1074a、1074b、1084a、1084bは、
図10に関連して上述したものと同様の態様で命令コードを実行するように構成されてよい。
【0078】
各処理要素1070、1080は、少なくとも1つの共有キャッシュ1896a、1896bを含み得る。共有キャッシュ1896a、1896bは、それぞれコア1074a、コア1074bおよびコア1084a、コア1084bなどのプロセッサの1つまたは複数のコンポーネントによって利用されるデータ(例えば、命令)を格納し得る。例えば、共有キャッシュ1896a、1896bは、プロセッサのコンポーネントによるより高速なアクセスのために、メモリ1032、1034に格納されたデータをローカルにキャッシュし得る。1つまたは複数の実施形態において、共有キャッシュ1896a、1896bは、レベル2(L2)、レベル3(L3)、レベル4(L4)若しくは他のレベルのキャッシュなどの1つまたは複数の中間レベルのキャッシュ、ラストレベルキャッシュ(LLC)、および/またはそれらの組み合わせを含み得る。
【0079】
2つの処理要素1070、1080だけが示されているが、実施形態の範囲はそのように限定されないことを理解されたい。他の実施形態において、1つまたは複数の追加の処理要素が所与のプロセッサに存在し得る。代替的に、処理要素1070、1080の1つまたは複数は、アクセラレータまたはフィールドプログラマブルゲートアレイなどのプロセッサ以外の要素であり得る。例えば、追加の処理要素は、第1のプロセッサ1070と同じ追加のプロセッサ、第1のプロセッサ1070とは異種または非対称のプロセッサである追加のプロセッサ、アクセラレータ(例えば、グラフィックスアクセラレータ若しくはデジタル信号処理(DSP)ユニットなど)、フィールドプログラマブルゲートアレイ、または、任意の他の処理要素を含んでよい。アーキテクチャ特性、マイクロアーキテクチャ特性、熱特性、電力消費特性、および同様のものを含む、多種多様の価値基準の観点から、処理要素1070、1080の間に様々な差異が存在し得る。これらの差異は、処理要素1070、1080の間の非対称性および異種性として、自身を効果的に表し得る。少なくとも1つの実施形態について、様々な処理要素1070、1080は、同じダイパッケージに存在し得る。
【0080】
第1の処理要素1070は、メモリコントローラロジック(MC)1072およびポイントツーポイント(P-P)インタフェース1076および1078をさらに含み得る。同様に、第2の処理要素1080は、MC1082、並びに、P-Pインタフェース1086および1088を含み得る。
図11に示されるように、MC1072および1082は、プロセッサをそれぞれのメモリ、すなわち、メモリ1032およびメモリ1034に結合する。これらのメモリは、それぞれのプロセッサにローカルに取り付けられたメインメモリの部分であり得る。MC1072および1082が処理要素1070、1080に統合されているものとして示されているが、代替の実施形態について、MCロジックは、それらに統合されているものではなくむしろ、処理要素1070、1080の外部の個別のロジックであり得る。
【0081】
第1の処理要素1070および第2の処理要素1080は、それぞれ、P―Pインターコネクト1076、1086を介して、I/Oサブシステム1090に結合され得る。
図11に示されるように、I/Oサブシステム1090は、P-Pインタフェース1094および1098を含む。さらに、I/Oサブシステム1090は、I/Oサブシステム1090を高性能グラフィックスエンジン1038と結合するインタフェース1092を含む。一実施形態において、バス1049は、グラフィックスエンジン1038をI/Oサブシステム1090に結合するために使用され得る。代替的に、ポイントツーポイントインターコネクトは、これらのコンポーネントを結合し得る。
【0082】
結果として、I/Oサブシステム1090は、インタフェース1096を介して第1のバス1016に結合され得る。一実施形態において、第1のバス1016は、ペリフェラルコンポーネントインターコネクト(PCI)バス、または、PCIエクスプレスバス、若しくは他の第3世代I/Oインターコネクトバスなどのバスであり得るが、実施形態の範囲はそれらに限定されない。
【0083】
図11に示されるように、様々なI/Oデバイス1014(例えば、バイオメトリックスキャナ、スピーカ、カメラ、センサ)は、第1のバス1016を第2のバス1020に結合し得るバスブリッジ1018とともに、第1のバス1016に結合され得る。一実施形態において、第2のバス1020は、ローピンカウント(LPC)バスであり得る。一実施形態において、様々なデバイスが、例えば、キーボード/マウス1012、通信デバイス1026、および、ディスクドライブまたはコード1030を含み得る他の大容量ストレージデバイスなどのデータストレージユニット1019を含む第2のバス1020に結合され得る。既に説明されたように、示されたコード1030は、方法80(
図6)および/または方法90(
図7)を実装してよい。さらに、オーディオI/O1024が第2のバス1020に結合され得、バッテリ1010がコンピューティングシステム1000に電力を供給し得る。
【0084】
他の実施形態が企図されることに留意されたい。例えば、
図11のポイントツーポイントアーキテクチャの代わりに、システムは、マルチドロップバス、または、別のそのような通信トポロジを実装してよい。また、
図11の要素は、代替的に、
図11に示されるものより多いまたは少ない統合チップを使用いて分割され得る。
【0085】
追加の注記および例
【0086】
例1は、シーンに対応するデータを取得するためのネットワークコントローラと、前記ネットワークコントローラに結合されたプロセッサと、一組の命令を含むメモリであって、前記命令が前記プロセッサによって実行される場合、前記プロセッサに、前記シーンに関連付けられたセマンティック特徴およびインスタンス特徴に基づいて複数のセグメントを識別させ、前記複数のセグメントを複数のインスタンスに融合させ、前記複数のインスタンスのために分類ラベルを選択させる、メモリとを備える性能強化コンピューティングシステムを含む。
【0087】
例2は、前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して前記複数のインスタンスに融合され、前記コンピューティングシステムは、エンドツーエンドで学習可能である、例1に記載のコンピューティングシステムを含む。
【0088】
例3は、前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、複数のインスタンスに融合される、例1に記載のコンピューティングシステムを含む。
【0089】
例4は、前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、例3に記載のコンピューティングシステムを含む。
【0090】
例5は、前記分類ラベルを選択するために、前記命令は、前記プロセッサによって実行される場合、さらに、前記プロセッサに、インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成させ、前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択させる、例1に記載のコンピューティングシステムを含む。
【0091】
例6は、前記複数のセグメントのサイズは可変になる、例1から5のいずれか1つに記載のコンピューティングシステムを含む。
【0092】
例7は、一組の命令を含む少なくとも1つのコンピュータ可読記憶媒体であって、前記命令がコンピューティングシステムによって実行される場合、前記コンピューティングシステムに、シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別することと、前記複数のセグメントを複数のインスタンスに融合させることと、前記複数のインスタンスのために分類ラベルを選択することとを実行させる、コンピュータ可読記憶媒体を含む。
【0093】
例8は、前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、例7に記載の少なくとも1つのコンピュータ可読記憶媒体を含む。
【0094】
例9は、前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、複数のインスタンスに融合される、例7に記載の少なくとも1つのコンピュータ可読記憶媒体を含む。
【0095】
例10は、前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、例9に記載の少なくとも1つのコンピュータ可読記憶媒体を含む。
【0096】
例11は、前記分類ラベルを選択するために、前記命令は、コンピューティングシステムによって実行される場合、前記コンピューティングシステムに、インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成することと、前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択することとをさらに実行させる、例7に記載の少なくとも1つのコンピュータ可読記憶媒体を含む。
【0097】
例12は、前記複数のセグメントのサイズは可変になる、例7から11のいずれか1つに記載の少なくとも1つのコンピュータ可読記憶媒体を含む。
【0098】
例13は、1つまたは複数の基板と、前記1つまたは複数の基板に結合されたロジックであって、前記ロジックは、1つまたは複数の構成可能または固定機能ハードウェア内に少なくとも部分的に実施され、前記ロジックは、シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別することと、前記複数のセグメントを複数のインスタンスに融合させることと、前記複数のインスタンスのために分類ラベルを選択することとを実行する、ロジックとを備える半導体装置を含む。
【0099】
例14は、前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、例13に記載の半導体装置を含む。
【0100】
例15は、前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、複数のインスタンスに融合される、例13に記載の半導体装置を含む。
【0101】
例16は、前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、例15に記載の半導体装置を含む。
【0102】
例17は、前記分類ラベルを選択するために、前記ロジックは、インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成することと、前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択することとを実行する、例13に記載の半導体装置を含む。
【0103】
例18、前記複数のセグメントのサイズは可変になる、例13から17のいずれか1つに記載の半導体装置を含む。
【0104】
(例19)1つまたは複数の基板に結合されているロジックは、1つまたは複数の基板内に配置されているトランジスタチャネル領域を含む、例13から例18のいずれか1つの半導体装置を含む。
【0105】
例20は、性能強化コンピューティングシステムを動作させる方法を含み、前記方法は、シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別する段階と、前記複数のセグメントを複数のインスタンスに融合させる段階と、前記複数のインスタンスのために分類ラベルを選択する段階とを備える。
【0106】
例21は、前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、例20に記載の方法を含む。
【0107】
例22は、前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、複数のインスタンスに融合される、例20に記載の方法を含む。
【0108】
例23は、前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、例22に記載の方法を含む。
【0109】
例24は、前記分類ラベルを選択する段階は、インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成する段階と、前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択する段階とを有する、例20に記載の方法を含む。
【0110】
例25は、前記複数のセグメントのサイズは可変である、例20から24のいずれか1つに記載の方法を含む。
【0111】
例26は、例20から例25のいずれか1つの方法を実行するための手段を備える装置を含む。
【0112】
したがって、本明細書に記載された技術は、セマンティックセグメンテーションの性能を定量的に向上させることに役立つ。また、技術は、3Dシーンのセマンティックセグメンテーションの性能を定性的に向上させることに役立つ。さらに、技術は学習可能であるため、様々なバックボーンネットワークに適用可能である。実際に、技術は主にセグメント内の予測値のコンセンサスに依存するため、セマンティックおよびインスタンスセグメンテーションバックボーンの選択には依存しない。バックボーンは、ベースとなるセマンティックセグメンテーションの性能が異なる場合があっても、性能が向上することを経験してよい。また、この利点により、エンドツーエンドで訓練可能なネットワークの実現を可能にする。
【0113】
また、技術は単純であり、さらに効果的にクラスタリングする。SF-インスタンス損失は、セグメント特徴のクラスタリングを支援するが、インスタンス損失のみに依存すると、セグメントをグループ化するためにセグメントに対して分析を実行する反復的な(例えば、および学習不可能な)後処理クラスタリングアルゴリズム(例えば、平均シフトクラスタリングなど)を必要とする場合がある。グループ化処理を簡略化するため、提案するSF-セグメント損失は、グラフ内のノード間のペアごとの距離に注目している。このアプローチにより、単純な閾値処理およびCCL段階でセグメントのグループを形成することができる。クラスタリングを単純であるように保持することで、学習可能なフレームワークがノード間の区別方法を学習し、発見的手法ベースのクラスタリングへの依存を低減することができる。
【0114】
また、本明細書に記載された技術は非学習型クラスタリングよりも定量的に優れている。セグメント融合は、異なるセマンティックバックボーンに適用した場合、セマンティックセグメンテーションにおいて従来の反復型クラスタリングソリューションよりも優れた性能を発揮する。実際に、この技術はデータセット間の一般化可能性を向上させる。
【0115】
実施形態は、すべてのタイプの半導体集積回路(「IC」)チップとともに使用するために適用可能である。これらのICチップの例は、プロセッサ、コントローラ、チップセットコンポーネント、プログラマブルロジックアレイ(PLA)、メモリチップ、ネットワークチップ、システムオンチップ(SoC)、SSD/NANDコントローラASIC、および同様のものを含むがこれらに限定されるものではない。さらに、いくつかの図において、信号導線が線で表されている。いくつかは、より多くの成分信号パスを示すべく異なっていてよく、複数の成分信号パスを示すべく番号ラベルを有してよく、および/または、主要情報の流れ方向を示すべく1つまたは複数の端部に矢印を有してよい。しかしながら、このことは限定的に解釈されるべきではない。むしろ、そのような追加の詳細は、回路のより容易な理解を促進すべく、1つまたは複数の例示的な実施形態に関連して使用され得る。追加の情報を有しているか否かにかかわらず、表される任意の信号線は、実際には、複数の方向に伝搬され得る1つまたは複数の信号を備え得、任意の適切なタイプの信号方式、例えば、差動ペアで実装されるデジタル線またはアナログ線、光ファイバ線、および/または、シングルエンド線、で実装され得る。
【0116】
例示的なサイズ/モデル/値/範囲が与えられているが、実施形態はこれに限定されるものではない。経時的に製造技術(例えば、フォトリソグラフィ)が成熟するにつれて、より小型のデバイスが製造され得ることが予測される。加えて、例示および説明を簡潔にするために、且つ、実施形態の特定の態様を不明瞭にしないために、ICチップおよび他のコンポーネントへの周知の電源/接地接続が、図面内に示されてもよく、図面内に示されていなくてもよい。さらに、実施形態を不明瞭にすることを回避すべく、構成は、ブロック図で示されてよく、また、かかるブロック図構成の実装に関する詳細は、実施形態が実装されるべき計算システムに大きく依存することに鑑みれば、すなわち、かかる詳細は、当業者の十分知見の範囲内である。例示的な実施形態を説明すべく、具体的な詳細(例えば、回路)が説明される場合、これらの具体的な詳細なしで、またはこれらの具体的な詳細の変形を用いて、実施形態が実施され得ることが当業者に明らかであるはずである。したがって、説明は、限定なものではなく例示的なものとみなされるべきである。
【0117】
「結合される」という用語は、本明細書では、オブジェクトの構成要素間の直接的または間接的な任意のタイプの関係を指すために使用することができ、電気的、機械的、流体的、光学的、電磁的、電気機械的、または他のタイプの接続に適用することができる。加えて、「第1の」、「第2の」などの用語は、説明を容易にするためにのみ本明細書で使用され得、別段の記載がない限り、特定の時間的または経時的な意味を保持しない。
【0118】
本出願および特許請求の範囲で使用される場合、用語「のうち1つまたは複数」によって結合された項目のリストは、列挙された用語の任意の組み合わせを意味し得る。例えば、「A、B、またはCのうちの1つまたは複数」という文言は、A、B、C、AおよびB、AおよびC、BおよびC、または、A、B、およびCを意味し得る。
【0119】
当業者は、前述の説明から、実施形態の広範な技術が種々の形態で実装され得ることを理解するであろう。したがって、実施形態がそれらの特定の例に関連して説明されてきたが、実施形態の真の範囲は、このように限定されるべきでない。なぜなら、図面、明細書、および以下の特許請求の範囲を検討すれば、他の修正が当業者には明らかになるからである。
【0120】
[他の可能な項目]
[項目1]
シーンに対応するデータを取得するためのネットワークコントローラと、
前記ネットワークコントローラに結合されたプロセッサと、
一組の命令を含むメモリであって、前記命令が前記プロセッサによって実行される場合、前記プロセッサに、
前記シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別させ、
前記複数のセグメントを複数のインスタンスに融合させ、
前記複数のインスタンスのために分類ラベルを選択させる メモリと
を備えるコンピューティングシステム。
[項目2]
前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して前記複数のインスタンスに融合され、前記コンピューティングシステムは、エンドツーエンドで学習可能である、項目1に記載のコンピューティングシステム。
[項目3]
前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、項目1に記載のコンピューティングシステム。
[項目4]
前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、項目3に記載のコンピューティングシステム。
[項目5]
前記分類ラベルを選択するために、前記命令は、前記プロセッサによって実行される場合、さらに前記プロセッサに、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成させ、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択させる 項目1に記載のコンピューティングシステム。
[項目6]
前記複数のセグメントのサイズは可変になる、項目1に記載のコンピューティングシステム。
[項目7]
一組の命令を含む少なくとも1つのコンピュータ可読記憶媒体であって、前記命令がコンピューティングシステムによって実行される場合、前記コンピューティングシステムに、
シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別することと、
前記複数のセグメントを複数のインスタンスに融合させることと、
前記複数のインスタンスのために分類ラベルを選択することと
を実行させる、コンピュータ可読記憶媒体。
[項目8]
前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、項目7に記載の少なくとも1つのコンピュータ可読記憶媒体。
[項目9]
前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、項目7に記載の少なくとも1つのコンピュータ可読記憶媒体。
[項目10]
前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、項目9に記載の少なくとも1つのコンピュータ可読記憶媒体。
[項目11]
前記分類ラベルを選択するために、前記命令は、コンピューティングシステムによって実行される場合、前記コンピューティングシステムに、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成することと、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択することと
をさらに実行させる、項目7に記載の少なくとも1つのコンピュータ可読記憶媒体。
[項目12]
前記複数のセグメントのサイズは可変になる、項目7に記載の少なくとも1つのコンピュータ可読記憶媒体。
[項目13]
1つまたは複数の基板と、
前記1つまたは複数の基板に結合されたロジックであって、前記ロジックは、1つまたは複数の構成可能または固定機能ハードウェア内に少なくとも部分的に実施され、前記ロジックは、
シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別することと、
前記複数のセグメントを複数のインスタンスに融合させることと、
前記複数のインスタンスのために分類ラベルを選択することと
を実行する、ロジックと
を備える半導体装置。
[項目14]
前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、項目13に記載の半導体装置。
[項目15]
前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、項目13に記載の半導体装置。
[項目16]
前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、項目15に記載の半導体装置。
[項目17]
前記分類ラベルを選択するために、前記ロジックは、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成することと、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択することと
を実行する、項目13に記載の半導体装置。
[項目18]
前記複数のセグメントのサイズは可変になる、項目13に記載の半導体装置。
[項目19]
前記1つまたは複数の基板に結合された前記ロジックが、前記1つまたは複数の基板内に配置されたトランジスタチャネル領域を含む、項目13に記載の半導体装置。
[項目20]
シーンに関連付けられたセマンティック特徴、インスタンス特徴および点群データに基づいて複数のセグメントを識別する段階と、
前記複数のセグメントを複数のインスタンスに融合させる段階と、
前記複数のインスタンスのために分類ラベルを選択する段階と
を備える方法。
[項目21]
前記複数のセグメントは、学習可能な自己注意ベースのネットワークを介して、前記複数のインスタンスに融合される、項目20に記載の方法。
[項目22]
前記複数のセグメントは、インスタンス損失関数、セグメント損失関数および距離マージンパラメータに基づいて、前記複数のインスタンスに融合される、項目20に記載の方法。
[項目23]
前記セグメント損失関数は、融合の誤予測および分離の誤予測にペナルティを与える、項目22に記載の方法。
[項目24]
前記分類ラベルを選択する段階は、
インスタンスごとに、前記インスタンス内の各ボクセルに対するセマンティックラベルを生成する段階と、
前記インスタンス内のボクセルのセマンティックラベルに基づいて前記分類ラベルを選択する段階と
を有する、項目20に記載の方法。
[項目25]
前記複数のセグメントのサイズは可変である、項目20に記載の方法。
【外国語明細書】