(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-23
(54)【発明の名称】ハイブリッドディープエントロピー符号化を使用する点群圧縮のための方法及び装置
(51)【国際特許分類】
G06T 9/40 20060101AFI20241016BHJP
G06T 9/00 20060101ALI20241016BHJP
【FI】
G06T9/40
G06T9/00 200
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024520645
(86)(22)【出願日】2022-10-05
(85)【翻訳文提出日】2024-05-13
(86)【国際出願番号】 US2022045790
(87)【国際公開番号】W WO2023059727
(87)【国際公開日】2023-04-13
(32)【優先日】2021-10-05
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】518338149
【氏名又は名称】インターデジタル ヴイシー ホールディングス, インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】ロディ、ムハンマド、アサド
(72)【発明者】
【氏名】パン、ジアハオ
(72)【発明者】
【氏名】チアン、ドン
(57)【要約】
点群データを復号及び符号化するための方法及び装置が、本明細書で説明される。方法は、ツリー構造に基づいて圧縮された点群データにアクセすることを含み得る。本方法は、ツリー構造の現在のノードに関連付けられた近傍内の点を取り出すことと、点ベースのニューラルネットワークモジュールを使用して、取り出された点の三次元(3D)位置に基づいて、特徴を計算することと、を更に含み得る。本方法は、ニューラルネットワークモジュールを使用して、特徴に基づいて、現在のノードについての占有シンボル分布を予測することと、符号化されたビットストリーム、及び予測された占有シンボル分布から、現在のノードについての占有を決定することと、を含み得る。本方法は、取り出された点のボクセル化されたバージョンに基づいて、畳み込みベースのニューラルネットワークモジュールを使用して、別の特徴を計算することと、包括的な特徴を構成するように、特徴及び別の特徴を、現在のノードの1つ以上の既知の特徴と融合することと、を含み得る。
【特許請求の範囲】
【請求項1】
点群データを復号するための方法であって、前記方法は、
符号化されたビットストリームから点群データであって、ツリー構造に基づいて圧縮されている、点群データにアクセスすることと、
アクセスされた前記点群データから、前記ツリー構造の現在のノードに関連付けられた近傍内の点を取り出すことと、
点ベースのニューラルネットワークモジュールを使用して、取り出された前記点の三次元(3D)位置に基づいて、特徴を計算することと、
ニューラルネットワークモジュールを使用して、前記特徴に基づいて、前記現在のノードについての占有シンボル分布を予測することと、
前記符号化されたビットストリームから、予測された前記占有シンボル分布に基づいて、前記現在のノードについての占有を決定することと、を含む、方法。
【請求項2】
前記特徴は、第1の特徴であり、前記方法は、前記取り出された点のボクセル化されたバージョンに基づいて、畳み込みベースのニューラルネットワークモジュールを使用して、第2の特徴を計算することを更に含み、前記第2の特徴は、包括的な特徴を構成するように、前記第1の特徴と連結され、かつ前記ツリー構造の前記現在のノードの1つ以上の既知の特徴と連結される、請求項1に記載の方法。
【請求項3】
前記畳み込みベースのニューラルネットワークモジュールを使用して計算された前記第1の特徴は、点群の大きな平滑面を要約する、請求項2に記載の方法。
【請求項4】
前記点ベースのニューラルネットワークモジュールを使用して計算された前記第2の特徴は、点群の複雑な詳細を要約する、請求項2に記載の方法。
【請求項5】
前記第2の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、前記取り出された点から、複数の抽象化された点集合であって、前記複数の抽象化された点集合の各々は、異なる抽象化レベルを有する、複数の抽象化された点集合を生成し、かつ前記複数の抽象化された点集合の各々を互いに連結することによって計算される、請求項2に記載の方法。
【請求項6】
前記第2の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、異なるスケールを使用し、かつ同じ抽象化レベルを使用して、前記取り出された点から複数の特徴を抽出し、かつ抽出された前記特徴を組み合わせることによって計算される、請求項2に記載の方法。
【請求項7】
前記現在のノードに関連する兄弟ノード又は祖先ノードのうちの少なくとも1つに関連付けられた情報に基づいて、前記現在のノードについての前記占有シンボル分布を予測することを更に含む、請求項1に記載の方法。
【請求項8】
前記ツリー構造は、オクトツリー、クワッドツリー、クワッドツリープラスバイナリツリー(QTBT)、又はk次元(kth dimensional、KD)ツリーのうちの1つである、請求項1に記載の方法。
【請求項9】
前記現在のノードの前記1つ以上の既知の特徴は、3つの前記構造における前記現在のノードの前記3D位置、及び前記現在のノードの深度レベルを少なくとも含む、請求項1に記載の方法。
【請求項10】
復号デバイスであって、プロセッサを備え、前記プロセッサは、
符号化されたビットストリームから点群データであって、ツリー構造に基づいて圧縮されている、点群データにアクセスし、
アクセスされた前記点群データから、前記ツリー構造の現在のノードに関連付けられた近傍内の点を取り出し、
点ベースのニューラルネットワークモジュールを使用して、取り出された前記点の三次元(3D)位置に基づいて、特徴を計算し、
ニューラルネットワークモジュールを使用して、前記特徴に基づいて、前記現在のノードについての占有シンボル分布を予測し、
前記符号化されたビットストリームから、予測された前記占有シンボル分布に基づいて、前記現在のノードについての占有を決定するように構成されている、復号デバイス。
【請求項11】
前記特徴は、第1の特徴であり、前記プロセッサは、前記取り出された点のボクセル化されたバージョンに基づいて、畳み込みベースのニューラルネットワークモジュールを使用して、第2の特徴を計算するように更に構成されており、前記第2の特徴は、包括的な特徴を構成するように、前記第1の特徴と連結され、かつ前記ツリー構造の前記現在のノードの1つ以上の既知の特徴と連結される、請求項10に記載の復号デバイス。
【請求項12】
前記畳み込みベースのニューラルネットワークモジュールを使用して計算された前記第1の特徴は、点群の大きな平滑面を要約する、請求項11に記載の復号デバイス。
【請求項13】
前記点ベースのニューラルネットワークモジュールを使用して計算された前記第2の特徴は、点群の複雑な詳細を要約する、請求項11に記載の復号デバイス。
【請求項14】
前記第2の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、前記取り出された点から、複数の抽象化された点集合であって、前記複数の抽象化された点集合の各々は、異なる抽象化レベルを有する、複数の抽象化された点集合を生成し、かつ前記複数の抽象化された点集合の各々を互いに連結することによって計算される、請求項11に記載の復号デバイス。
【請求項15】
前記第2の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、異なるスケールを使用し、かつ同じ抽象化レベルを使用して、前記取り出された点から複数の特徴を抽出し、かつ抽出された前記特徴を組み合わせることによって計算される、請求項11に記載の復号デバイス。
【請求項16】
前記現在のノードに関連する兄弟ノード又は祖先ノードのうちの少なくとも1つに関連付けられた情報に基づいて、前記現在のノードについての前記占有シンボル分布を予測することを更に含む、請求項10に記載の復号デバイス。
【請求項17】
前記ツリー構造は、オクトツリー、クワッドツリー、クワッドツリープラスバイナリツリー(QTBT)、又はk次元(KD)ツリーのうちの1つである、請求項10に記載の復号デバイス。
【請求項18】
前記現在のノードの前記1つ以上の既知の特徴は、3つの前記構造における前記現在のノードの前記3D位置、及び前記現在のノードの深度レベルを少なくとも含む、請求項10に記載の復号デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2021年10月5日に出願された米国特許仮出願第63/252,482号の利益を主張するものであり、その内容は、参照により本明細書に組み込まれる。
【0002】
(発明の分野)
本開示は、点群圧縮及び処理に関する。より具体的には、本開示は、点群信号の圧縮、分析、補間、表現、及び理解のためのツールを提供することを目的とする。
【背景技術】
【0003】
点群は、自動運転、ロボット工学、拡張現実/仮想現実(augmented reality/virtual reality、AR/VR)、土木工学、コンピュータグラフィックス、及びアニメーション/映画産業を含むいくつかのビジネス分野にわたって使用される共通データフォーマットである。三次元(three dimensional、3D)光検出測距(Light Detection and Ranging、LiDAR)センサは、自動運転車に配備されており、手頃な価格のLiDARセンサが、例えば、Velodyne Velabit、Apple iPad Pro 2020、及びIntel RealSense LiDARカメラL515に実装されている。感知技術の進歩に伴って、3D点群データは、これまでよりも有用になってきており、記述される用途における究極の実現手段であると期待されている。
【0004】
点群データはまた、例えば、5Gネットワークを介して接続された自動車間、及び没入型通信(VR/AR)における、ネットワークトラフィックの大部分を消費すると考えられている。効率的な表現フォーマットは、点群の理解及び通信に必要である。特に、生の点群データは、世界モデリング及び感知の目的で、適切に編成及び処理される必要がある。生の点群のために圧縮は、関連するシナリオにおいてデータの記憶及び送信が必要とされる場合に不可欠である。
【0005】
更に、点群は、複数の移動する物体を包含し得る同じシーンの連続スキャンを表現することができる。そのような点群は、動的点群と呼ばれ、静的シーン又は静的物体から捕捉される静的点群とは対照的である。動的点群は、異なるフレームが、異なる時間に捕捉されるフレームに編成されてもよい。動的点群は、処理及び圧縮がリアルタイム又は低遅延であることを必要とし得る。
【発明の概要】
【0006】
点群データを復号及び符号化するための方法及び装置が、本明細書で説明される。方法は、ツリー構造に基づいて圧縮された点群データにアクセすることを含み得る。本方法は、ツリー構造の現在のノードに関連付けられた近傍内の点を取り出すことと、点ベースのニューラルネットワークモジュールを使用して、取り出された点の三次元(3D)位置に基づいて、特徴を計算することと、を更に含み得る。本方法は、ニューラルネットワークモジュールを使用して、特徴に基づいて、現在のノードについての占有シンボル分布を予測することと、符号化されたビットストリーム、及び予測された占有シンボル分布から、現在のノードについての占有を決定することと、を含み得る。本方法は、取り出された点のボクセル化されたバージョンに基づいて、畳み込みベースのニューラルネットワークモジュールを使用して、別の特徴を計算することと、包括的な特徴を構成するように、特徴及び別の特徴を、現在のノードの1つ以上の既知の特徴と融合することと、を含み得る。
【図面の簡単な説明】
【0007】
より詳細な理解は、添付の図面と併せて例として与えられる以下の説明から得ることができ、図中の同様の参照番号は、同様の要素を示す。
【
図1】本明細書で説明される実施形態の例のうちの1つ以上を実装するのに好適なシステムの例を示すブロック図である。
【
図2】OctSqueezeアーキテクチャに従うビットストリームの符号化のためのディープエントロピーモデルの例を示す。
【
図3A】VoxelContextNetディープエントロピーモデルに従って処理され得るような、生の入力点群のグラフィカルな表現である。
【
図3B】
図3Aの生の入力点群についての対応するオクトツリーを例示する略図である。
【
図3C】
図3Aの入力点群の詳細なバイナリボクセル表現を例示する略図である。
【
図4】いくつかの実施形態による、点ベースのアーキテクチャを例示する略図である。
【
図5】強化されたPointContextNetアーキテクチャの例を示す。
【
図6】強化されたPointContextNetアーキテクチャの更に別の例を示す。
【
図7】本明細書に開示された1つ以上の実施形態と整合性のあるハイブリッドディープエントロピーモデルの例を示す。
【
図8】ハイブリッドディープエントロピーモデルの畳み込みベースの分岐の例示的な設計を示す。
【
図9】本明細書に提示された実施形態のうちの1つ以上と整合性のある、提案されたディープエントロピーモデルを使用する点群符号化の例を示すフロー図である。
【
図10】本明細書に提示された実施形態のうちの1つ以上と整合性のある、提案されたディープエントロピーモデルを使用する点群復号の例を示すフロー図である。
【
図11】オクトツリー、クワッドツリー、及びバイナリツリーを含む、3D空間分割及び点群表現のための様々な方法を例示する。
【
図12】3D点群のクワッドツリープラスバイナリツリー(quadtree plus binary tree、QTBT)分割を示す例である。
【発明を実施するための形態】
【0008】
図1は、本明細書で説明される実施形態の例のうちの1つ以上を実装するのに好適なシステムの例を示すブロック図である。
図1のシステム1000は、以下に説明される様々なコンポーネントを含むデバイスとして具現化することができ、この文書で説明される実施形態、特徴などの例のうちの1つ以上を実施又は実装するように構成することができる。このようなデバイスの例としては、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ録画システム、接続型家電、及びサーバなどの様々な電子デバイスが挙げられるが、これらに限定されない。システム1000の要素を、単独で又は組み合わせて、単一の集積回路(integrated circuit、IC)、複数のIC、及び/又は別個のコンポーネントに具体化することができる。例えば、少なくとも1つの実施形態では、システム1000の処理要素及びエンコーダ要素/デコーダ要素は、複数のIC及び/又は別個のコンポーネントにわたって分散している。様々な実施形態では、システム1000は、例えば、通信バスを介して、又は専用の入力ポート及び/若しくは出力ポートを通じて、1つ以上の他のシステム又は他の電子デバイスに通信可能に結合される。概して、システム1000は、本明細書に説明されている実施形態、特徴などの例のうちの1つ以上を実装するように構成されている。
【0009】
システム1000は、例えば、本明細書に記載される様々な態様を実装するために、それ自体にロードされた命令を実行するように構成された少なくとも1つのプロセッサ1010を含む。プロセッサ1010は、埋め込みメモリ、入出力インターフェース、及び当該技術分野において知られている様々な他の回路を含むことができる。システム1000は、少なくとも1つのメモリ1020(例えば、揮発性メモリデバイス及び/又は不揮発性メモリデバイス)を含む。メモリ1020は、少なくとも1つのプロセッサ1010によって実行されるべき命令を記憶する非一時的記憶媒体であり得る。システム1000は、記憶デバイス10400を含み、これは、不揮発性メモリ及び/又は揮発性メモリを含むことができ、これらのメモリとしては、電気的消去可能なプログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROM)、読み取り専用メモリ(Read-Only Memory、ROM)、プログラマブル読み出し専用メモリ(Programmable Read-Only Memory、PROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、ダイナミックランダムアクセスメモリ(Dynamic Random Access Memory、DRAM)、スタティックランダムアクセスメモリ(Static Random Access Memory、SRAM)、フラッシュ、磁気ディスクドライブ、及び/若しくは光ディスクドライブが挙げられるが、これらに限定されない。記憶デバイス1040は、非限定的な例として、内部記憶デバイス、付属記憶デバイス(取り外し可能及び取り外し不可能な記憶デバイスを含む)、及び/又はネットワークアクセス可能な記憶デバイスを含むことができる。
【0010】
システム1000は、例えば、符号化されたビデオ又は復号されたビデオを提供するためにデータを処理するように構成されたエンコーダ/デコーダモジュール1030を含み、エンコーダ/デコーダモジュール1030は、それ自体のプロセッサ及びメモリを含むことができる。エンコーダ/デコーダモジュール1030は、符号化機能及び/又は復号機能を実施するためのデバイスに含めることができるモジュールを表す。既知であるように、デバイスは、符号化モジュール及び復号モジュールのうちの一方又は両方を含むことができる。加えて、エンコーダ/デコーダモジュール1030を、システム1000の別個の要素として実装することができるが、又は当業者には既知であるように、ハードウェアとソフトウェアとの組み合わせとしてプロセッサ1010内に組み込むことができる。
【0011】
例えば、本明細書に説明されている実施形態、特徴などの1つ以上の例を実施又は実装するために、プロセッサ1010又はエンコーダ/デコーダ1030にロードされるプログラムコードを、記憶デバイス1040に記憶し、その後、プロセッサ1010による実行のためにメモリ1020にロードすることができる。様々な実施形態によれば、プロセッサ1010、メモリ1020、記憶デバイス1040、及びエンコーダ/デコーダモジュール1030のうちの1つ以上は、本明細書で説明されたプロセスの実施中に様々なアイテムのうちの1つ以上を格納することができる。かかる記憶されたアイテムは、これらに限定されないが、入力ビデオ、復号されたビデオ、又は復号されたビデオの部分、ビットストリーム、マトリックス、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含むことができる。
【0012】
いくつかの実施形態では、プロセッサ1010及び/又はエンコーダ/デコーダモジュール1030の内部のメモリは、命令を記憶し、符号化又は復号中に必要とされる処理のための作業メモリを提供するために使用される。しかし、他の実施形態では、処理デバイス(例えば、処理デバイスを、プロセッサ1010か、又はエンコーダ/デコーダモジュール1030のいずれかとすることができる)の外部のメモリを、これらの機能のうちの1つ以上のために使用する。外部メモリを、メモリ1020及び/又は記憶デバイス1040、例えば、動的揮発性メモリ及び/又は不揮発性フラッシュメモリとすることができる。いくつかの実施形態では、外部不揮発性フラッシュメモリを使用して、例えば、テレビのオペレーティングシステムを格納する。少なくとも1つの実施形態では、RAMなどの高速な外部の動的揮発性メモリは、MPEG-2(MPEGはMoving Picture Experts Groupと称され、MPEG-2はISO/IEC13818とも称され、13818-1はH.222としても既知であり、13818-2はH.262としても既知である)、HEVC(HEVCは高効率映像符号化と称され、H.265及びMPEG-H Part 2としても既知である)、又はVVC(JVETによって開発中の新しい標準である多用途ビデオ符号化)などのビデオの符号化動作及び復号動作のための作業メモリとして使用される。
【0013】
システム1000の要素への入力を、ブロック1130に示されるような様々な入力デバイスを通じて提供することができる。このような入力デバイスには、(i)例えば、放送事業者による放送全体にわたり送信されるRF信号を受信する無線周波数(radio frequency、RF)部分、(ii)コンポーネント(Component、COMP)入力端子(又はCOMP入力端子セット)、(iii)ユニバーサルシリアルバス(Universal Serial Bus、USB)入力端子、及び/又は(iv)高解像度マルチメディアインターフェース(High Definition Multimedia Interface、HDMI)入力端子が含まれるが、これらに限定されない。他の例には、
図1には示されていないが、コンポジットビデオが含まれる。
【0014】
様々な実施形態では、ブロック1130の入力デバイスは、当該技術分野において知られているように、関連付けられたそれぞれの入力処理要素を有する。例えば、RF部分は、(i)所望の周波数を選択すること(信号を選択すること、又は信号をある周波数帯域に帯域制限することとも称される)と、(ii)選択された信号をダウンコンバートすることと、(iii)(例えば)特定の実施形態でチャネルと称され得る信号周波数帯域を選択するために、より狭い周波数帯域に再び帯域制限することと、(iv)ダウンコンバートされ、帯域制限された信号を復調することと、(v)エラー訂正を実施することと、(vi)所望のデータパケットのストリームを選択するために逆多重化することと、に好適な要素と関連付けられ得る。様々な実施形態のRF部分は、これらの機能を実施する1つ以上の要素、例えば、周波数セレクタ、信号セレクタ、バンドリミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、エラー訂正器、及びデマルチプレクサを含む。RF部分は、様々なこれらの機能を実施するチューナを含むことができ、例えば、受信した信号をより低い周波数(例えば、中間周波数又は近ベースバンド周波数)に又はベースバンドにダウンコンバートすることを含む。セットトップボックスの一実施形態では、RF部分及びその関連する入力処理要素は、有線(例えば、ケーブル)媒体を介して送信されるRF信号を受信し、所望の周波数バンドにフィルタリング、ダウンコンバート、及び再フィルタリングすることによって周波数選択を実施する。様々な実施形態では、上で説明される(及び他の)要素の順序を並べ替える、これらの要素の一部を削除する、並びに/又は、類似若しくは異なる機能を実施する他の要素を追加する。要素を追加することは、例えば、増幅器及びアナログ-デジタル変換器を挿入するなど、既存の要素間に要素を挿入することを含み得る。様々な実施形態において、RF部分は、アンテナを含む。
【0015】
加えて、USB端子及び/又はHDMI端子は、システム10000をUSB接続及び/又はHDMI接続を介して、他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含むことができる。入力処理の様々な態様、例えば、リード-ソロモンエラー訂正を、例えば、必要に応じて、別個の入力処理IC内に又はプロセッサ1010内に実装することができることを理解すべきである。同様に、USB又はHDMIのインターフェース処理の態様を、必要に応じて、別個のインターフェースIC内に又はプロセッサ1010内に実装することができる。例えば、プロセッサ1010、並びにメモリ及び記憶要素と組み合わせて動作するエンコーダ/デコーダ1030を含む様々な処理要素に、復調され、エラー訂正され、逆多重化されたストリームを提供して、出力デバイス上に提示するために、必要に応じて、データストリームを処理する。
【0016】
システム1000の様々な要素を統合ハウジング内に設けることができる。統合ハウジング内では、様々な要素を、好適な接続装置1140、例えば、IC間(Inter-IC、I2C)バス、配線、及びプリント回路基板を含む、当該技術分野において知られている内部バスを使用して相互接続し、それらの間でデータを送信することができる。
【0017】
システム1000は、通信チャネル1060を介して他のデバイスとの通信を可能にする通信インターフェース1050を含む。通信インターフェース1050は、通信チャネル1060によってデータを送信及び受信するように構成されたトランシーバを含むことができるが、これに限定されない。通信インターフェース1050は、モデム又はネットワークカードを含むことができるが、これらに限定されず、通信チャネル1060を、例えば、有線媒体及び/又は無線媒体内に実装することができる。
【0018】
データは、様々な実施形態では、Wi-Fiネットワーク、例えば、IEEE802.11(IEEEは、米国電気電子技術者協会(Institute of Electrical and Electronics Engineers)を指す)などの無線ネットワークを使用して、システム1000にストリーミングされるか、又は別様に提供される。これらの実施形態のWi-Fi信号は、Wi-Fi通信用に適合された通信チャネル1060及び通信インターフェース1050によって受信される。これらの実施形態の通信チャネル1060は、典型的には、ストリーミングアプリケーション及び他のオーバザトップ通信を可能にするために、インターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施形態では、入力ブロック1130のHDMI接続によってデータを配信するセットトップボックスを使用して、システム1000にストリーミングされたデータを提供する。更に他の実施形態では、入力ブロック1130のRF接続を使用して、システム1000にストリーミングされたデータを提供する。上で示されるように、様々な実施形態は、データを非ストリーミングの様式で提供する。加えて、様々な実施形態は、Wi-Fi以外の無線ネットワーク、例えば、セルラーネットワーク(第3世代パートナーシッププロジェクト(Third Generation Partnership Project、3GPP)規格に従って動作するネットワークなど)又はBluetoothネットワークを使用する。
【0019】
システム1000は、無線アクセスネットワーク(radio access network、RAN)、コアネットワーク(core network、CN)、公衆交換電話網(public switched telephone network、PSTN)、インターネット、及び/又は他のネットワークなどの1つ以上の無線環境内で通信インターフェース1050を介して動作する(すなわち、信号を送信及び/又は受信する)ように設計された無線送信及び/又は受信ユニット(wireless transmit/receive unit、WTRU)などのデバイスにおいて実装することができる。更なる例として、システムは、局(station、STA)、ユーザ機器(user equipment、UE)、移動局、固定電話若しくは携帯電話加入者ユニット、加入ベースユニット、携帯無線呼出し器、携帯電話、携帯情報端末(personal digital assistant、PDA)、スマートフォン、ラップトップ、ネットブック、パーソナルコンピュータ、無線センサ、ホットスポット若しくはMi-Fiデバイス、モノのインターネット(Internet of Things、IoT)デバイス、腕時計若しくは他のウェアラブル機器、ヘッドマウンテドディスプレイ(head-mounted display、HMD)、車両、ドローン、医療デバイス及びアプリケーション(例えば、遠隔手術)、産業用デバイス及びアプリケーション(例えば、産業用及び/又は自動処理チェーンのコンテキストで動作するロボット及び/又は他の無線デバイス)、家電デバイス、民生用及び/又は産業用無線ネットワーク上で動作するデバイスに実装されてもよい。
【0020】
システム1000は、ディスプレイ110、スピーカ1110、及び他の周辺デバイス1120を含む様々な出力デバイスに出力信号を提供することができる。様々な実施形態のディスプレイ110には、例えば、タッチスクリーンディスプレイ、有機発光ダイオード(organic light-emitting diode、OLED)ディスプレイ、湾曲したディスプレイ、及び/又は折り畳み式ディスプレイのうちの1つ以上が含まれる。ディスプレイ110は、テレビ、タブレット、ラップトップ、携帯電話(モバイルフォン)、又は別のデバイス用とすることができる。ディスプレイ110はまた、(例えば、スマートフォンにおけるように)他のコンポーネントと統合することができるか、又は分離することができる(例えば、ラップトップ用の外部モニタ)。他の周辺デバイス1120は、実施形態の様々な例において、スタンドアロンのデジタルビデオディスク(又はデジタル多用途ディスク)(両方の用語でDVR)、ディスクプレーヤ、ステレオシステム、及び/又は照明システムのうちの1つ以上を含む。様々な実施形態は、システム1000の出力に基づいて機能を提供する1つ以上の周辺デバイス1120を使用する。例えば、ディスクプレーヤは、システム1000の出力を再生する機能を実施する。
【0021】
様々な実施形態では、制御信号が、システム1000と、ディスプレイ110、スピーカ1110、又は他の周辺デバイス1120との間で、AVLink、家電制御(Consumer Electronics Control、CEC)、又はユーザ関与の有無にかかわらずデバイス対デバイスの制御を可能にする他の通信プロトコルなどの信号伝送を使用して通信される。出力デバイスは、それぞれのインターフェース1070、1080、及び1090を通じた専用接続を介してシステム1000に通信可能に連結することができる。代替的に、出力デバイスを、通信インターフェース1050を介し、通信チャネル1060を使用して、システム1000に接続させることができる。ディスプレイ110及びスピーカ1110は、例えば、テレビなどの電子デバイスにおけるシステム1000の他のコンポーネントとともに、単一のユニット内に統合することができる。様々な実施形態において、ディスプレイインターフェース1070は、例えば、タイミングコントローラ(timing controller、T Con)チップなどのディスプレイドライバを含む。
【0022】
例えば、入力1130のRF部分が別個のセットトップボックスの一部である場合、ディスプレイ110及びスピーカ1110は、代替的に、他のコンポーネントのうちの1つ以上から分離することができる。ディスプレイ110及びスピーカ1110が外部コンポーネントである様々な実施形態では、出力信号は、例えば、HDMI端子、USB端子、又はCOMP出力を含む、専用の出力接続を介して提供することができる。
【0023】
実施形態は、プロセッサ1010によって実装されるコンピュータソフトウェアによって、又はハードウェアによって、又はハードウェアとソフトウェアとの組み合わせによって、実行することができる。非限定的な例として、1つ以上の集積回路によって実施形態を実装することができる。メモリ1020は、技術環境に適切な任意のタイプのものとすることができ、非限定的な例として、光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリ、及びリムーバブルメモリデバイスなど、任意の適切なデータ記憶技術を使用して実装することができる。プロセッサ1010は、技術環境に適切な任意のタイプのものとすることができ、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、専用コンピュータ、及びマルチコアアーキテクチャに基づくプロセッサのうちの1つ以上を包含することができる。更なる例として、プロセッサ1010は、従来のプロセッサ、デジタル信号プロセッサ(digital signal processor、DSP)、DSPコアに関連するマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(Application Specific Integrated Circuits、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Arrays、FPGA)、任意の他のタイプの集積回路(integrated circuit、IC)、状態機械などであってもよい。プロセッサ1010は、信号符号化、データ処理、電力制御、入力/出力処理、及び/又はWTRU1020が無線環境において動作することが可能になる任意の他の機能を実施することができる。プロセッサ1010は、エンコーダ/デコーダ1030、メモリ1020、記憶デバイス1040、通信インターフェース1050、ディスプレイインターフェース1070、オーディオインターフェース1070、周辺インターフェース1090、又は入力ブロック1130に結合され得る。
【0024】
点群が実装され得る様々な使用事例が、本明細書で説明される。例えば、自動車産業及び特に自動運転車の開発は、点群が使用され得る分野である。自動運転車は、その自動運転車の環境を「探査」して、それらの目前の周辺の現実に基づいて、情報を得た上での運転判断を可能にすることができることが望ましい場合がある。点群は、静的又は動的であってもよく、典型的には、平均サイズであり、例えば、1回につき、せいぜい数百万個の点である。例えば、光検出測距(LiDAR)技術で使用されるセンサなどのいくつかのセンサは、知覚エンジンによって使用され得る動的点群を生成することができる。これらの点群は、人間の目によって観察することを意図されていない場合があり、かつまばらである場合があり、色の属性を提供する場合もあれば提供しない場合もあり、かつ/又は高い捕捉頻度で捕捉される場合がある。点群は、LiDARによって提供される反射率などの他の属性を記憶することができ、この属性は、感知される物体の材料を示すことができ、かつ判断を行う際に役立つことができる属性である。
【0025】
仮想現実(Virtual Reality、VR)及び没入型世界は、最近の話題であり、将来の二次元(two-dimensional、2D)平面ビデオとして、多くの人によって観察される。VR及び没入型世界の基本的な発想は、観察者が自分の前の仮想世界のみを見ることができる標準的なTVとは対照的に、観察者をその世界の周囲全てを環境に没入させることであり得る。没入におけるいくつかの濃淡は、環境における観察者の自由度に応じて、観察者に提供され得る。点群は、VR世界が分布され得る1つの候補フォーマットであってもよい。
【0026】
点群はまた、(例えば、文化的な遺産/建造物の場合)物体を送信するか又は物体に訪問することなく、その物体の空間構成を共有するために、その物体の3Dスキャンニングなどの様々な目的のために使用することもできる。また、そのような点群は、物体が破壊される可能性がある場合に、例えば、地震によって寺院が破壊される可能性がある場合に、その物体の空間構成の保存を確実にすることができる。そのような点群は、通常、静的であり、着色され、かつ膨大な数のデータを記憶する。
【0027】
3D表現を使用してマップが平面に限定されず、かつ起伏を含むことができる点群についての使用事例の更なる例としては、地形及び/又は地図製作がある。Google Mapsは、3Dマップを表示及び操作するためのツールの一例であるが、点群の代わりにメッシュを使用する。それにもかかわらず、点群は、3Dマップのための好適なデータフォーマットであり得、そのような点群は、通常、静的であり、着色され、かつ膨大な量のデータを記憶する。
【0028】
点群を介した世界モデリング及び感知は、機械がその機械の周りの3D世界に関する知識を獲得することを可能にするための不可欠な技術であり得、これは、上述したアプリケーションにとって極めて重要であり得る。本開示は、上記を念頭に置いて提供されるが、当業者は、点群、並びにそのようなデータの圧縮のための技術が、例えば、データの空間表現を超えて、他の分野を有する可能性があることを理解するであろう。
【0029】
3D点群データは、物体又はシーンの表面上の離散的なサンプルとして理解することができる。点サンプルを用いて現実の世界を完全に表現するために、実際には、3D点群が、莫大な数の点を必要とし得る。例えば、典型的なVR没入型シーンは、数百万の点を含み得、一方、点群は、数億の点を包み得る。したがって、そのような大規模な点群の処理は、特に、計算処理上のパワーを制限した可能性のある消費者デバイス、例えば、スマートフォン、タブレット、及び自動車ナビゲーションシステムの場合、計算コストが高い可能性がある。
【0030】
点群に対する処理又は推論を改善するための初期ステップは、効率的な記憶方法を有することであり得る。手頃な計算コストで入力点群を記憶及び処理するために、1つの解決策としては、ダウンサンプリングされた点群が、はるかに少ない点を有しながら、入力点群のジオメトリを要約するように、最初に入力点群をダウンサンプリングすることであり得る。次いで、ダウンサンプリングされた点群は、更なる消費のために、後続の機械タスクに供給され得る。しかしながら、記憶空間の更なる削減は、可逆圧縮のためのエントロピー符号化技術を通して、(元のデータ又はダウンサンプリングされたデータにかかわらず)生の点群データをビットストリームに変換することによって達成することができる。より良好なエントロピーモデルは、より小さいビットストリームをもたらすことができ、したがって、より効率的な圧縮をもたらすことができる。加えて、エントロピーモデルはまた、エントロピーエンコーダが圧縮を実施しながらタスク固有の情報を維持することを可能にすることができる下流タスクとペアを組むこともできる。可逆符号化に加えて、いくつかのシナリオは、特定の品質レベル以下で誘発された歪みを維持しながら、圧縮を著しく改善するために、不可逆符号化を呼び出すことができる。
【0031】
オクトツリーベースの点群圧縮のための様々な実施形態が、本明細書で説明される。点群が、オクトツリーの分解ツリーを介して表現され得る。ルートノードは、バウンディングボックス内の全空間をカバーすることができる。この空間を、あらゆる方向、すなわち、x方向、y方向、及びz方向に等しく分け、8つのボクセルをもたらすことができる。各ボクセルについて、少なくとも1つの点が存在する場合、ボクセルは、例えば、「1」によって占有されるものとして単一ビットによってマーキングされ得、そうでない場合、「0」によって表される空のビットとしてマーキングされ得る。次いで、ルートボクセルノードは、8ビット値によって記述され得る。占有されたボクセル毎に、その空間は、オクトツリーの次のレベルに移動する前に、8つの子ボクセルに更に分けられ得る。子ボクセルの占有率に基づいて、現在のボクセルは、8ビット値によって更に表される。占有されたボクセルを分けることは、最後のオクトツリー深度レベルまで継続することができる。オクトツリーの葉は、最終的には、点群を表す。そのような分ける分配は、考えられるところでは、所望の粒度レベルに到達するように、任意の回数だけ実行され得る。
【0032】
エンコーダ側では、オクトツリーノード(ノード値)は、エントロピーコーダに送られて、ビットストリームを生成することができる。次いで、デコーダは、復号されたオクトツリーノード値を使用して、オクトツリー構造を再構築し、最終的にオクトツリー構造の葉ノードに基づいて、点群を再構築することができる。
【0033】
エントロピー技法を使用してオクトツリーノードを効率的に符号化するために、確率分布モデルを利用して、より頻繁に現れるオクトツリーノード値についてのより短いシンボルを割り当てることができる。言い替えると、より高い出現確率を有するシンボルの場合、確率分布モデルは、ビットストリーム内のより少ないビットの使用を可能にして、出現する情報をより頻繁に表すことによって、効率の増大を提供することができる。
【0034】
点群は、大きな平滑面、又は複雑な構造の両方を表すことができる。単一モデルを使用して異なるタイプの構造を分析することは、困難であり得る。それゆえに、点群全体にわたる、エントロピーコーダについての確率分布の正確な予測は、特に困難であり得る。
【0035】
ディープエントロピー符号化のための様々な技法が、本明細書で説明される。以下で更に詳細に説明される一例は、点群に対する学習ベースのオクトツリー符号化を必要とする。ディープエントロピーモデルは、ニューラルネットワークモジュールを使用して、コンテキストモデルを定式化し、確率分布を予測しようと試みる学習ベースのアプローチのカテゴリを指す場合がある。
【0036】
1つの既存のディープエントロピーモデルは、本明細書では、OctSqueezeと呼ばれる場合がある。このディープエントロピーモデルは、ノード毎方式で動作することができる。最初に、オクトツリー表現が、生の点群データから構築される。オクトツリー表現を構築する際に、OctSqueezeは、階層的方法で、親ノード、祖父母ノードなどを含む様々な深度レベルにおける祖先ノードを利用することができる。いくつかの多層パーセプトロン(Multi-Layer Perceptron、MLP)ベースのモジュールを使用して、ノード及び1つ以上の祖先ノードのコンテキストに応じて、所与のノードの占有シンボルの確率分布を予測することができる。現在のノードのコンテキストは、位置、オクタント、レベル(若しくは深度)、及び/又は親ノードのうちの1つ以上についての情報を含む。その動作は、順次又は並列に実行することができる。次いで、予測された確率分布は、適応可能なエントロピーエンコーダか又はエントロピーデコーダかのいずれかによって更に使用されて、ツリー構造を圧縮することができ、符号化されたビットストリームをもたらす。
【0037】
復号中にディープエントロピーモデルを使用する間、祖先ノードは、オクトツリーを下方に移動する前に復号されなければならない。したがって、復号することは、兄弟ノード上でのみ並列に動作することができる。すなわち、本開示における実施形態の1つ以上の例は、符号化中に、全てのノードにわたって並列に動作することができ、復号中に、兄弟ノードのみにわたって並列に動作することができる。
【0038】
図2は、OctSqueezeアーキテクチャに従うビットストリームの符号化のためのディープエントロピーモデルの例を示す。
図2に図示してある例では、3つのMLPモジュールが、ノード2011、ノード2021、及びノード2031の各々について示されているように実装される。所与のノードについて、第1のMLPモジュールは、現在のノードのコンテキストを入力として取り、出力特徴2012を生成する。第2のMLPモジュールは、そのような2つの第1のMLPモジュールの出力された特徴を入力として取り、すなわち、一方は、現在のオクトツリー深度レベルからの特徴であり、他方は、親オクトツリー深度レベルからの特徴である。次いで、第2のMLPモジュールはまた、出力特徴2013を生成することもできる。第3のMLPモジュールは、そのような第2のMLPモジュールのうちの2つの出力された特徴(すなわち、現在のノードの深度レベルにおける第2のMLPモジュール、及び親ノード深度レベルについての第2のMLPモジュール)を入力として取り、条件付き確率推定値を生成する。このプロセスは、オクトツリーの複数の深度レベルにおいて実施されて、対応する条件付き確率推定値2010、2020、及び2030を生成する。エントロピー符号化を実施して、条件付き確率推定値2010、2020、及び2030に基づいて、オクトツリーによって表されたビットストリームを圧縮し、最終的なビットストリームを生成する。
【0039】
別の既存のディープエントロピーモデルが、本開示において、VoxelContextNetと呼ばれる場合がある。祖先ノードを使用することができるOctSqueezeとは異なり、VoxelContextNetは、空間近傍ボクセルを使用するアプローチを採用して、最初に局所的表面形状を分析し、次いで確率分布を予測することができる。
【0040】
オクトツリー構造内のより低いレベルの深度では、群の点に対応する立方体の中心は、その点の3D座標に近づく。しかしながら、ボクセル化された表現に基づいてデコーダ側で再構築される点群の品質は、分割の深度のレベルに依存し得、結果として、オクトツリー構造の最大深度レベルに依存し得る。したがって、ある点が配置される立方体の中心が、その点の3D座標と同じでない場合があるため、いくらかの量の歪みが、量子化に起因して導入されることになる。
【0041】
図3A~
図3Cは、VoxelContextNetディープエントロピーモデルの例を示す略図である。
図3Aは、生の入力点群のグラフィカルな表現であり、所与の点r
iの位置は、3D座標で(0.6、0.7、0.7)として表される。
図3Aに示すように、領域3010は、所与の点r
iの近傍を表す。
【0042】
図3Bは、入力点群についての対応するオクトツリーを例示する略図である。
図3Bに示すように、生の入力点群の所与の点r
iは、オクトツリー内の対応する葉ノードn
iを有する。
【0043】
図3Cは、3D点群の詳細なバイナリツリーボクセル表現を例示する略図である。ここで、3D点群を表す空間は、x軸、y軸、及びz軸に沿って分割されて、空間のバイナリボクセル表現を生成する。領域3010は、ノードn
iを中心とする近傍の局所ボクセル表現であり、同じ深度レベルでの近傍ノードにおける点の分布を要約する。局所ボクセルのコンテキストは、V
iとして示すことができる。
図3Cに示すように、葉ノードn
iの座標は、空間のボクセル表現に基づいて(0.625、0.625、0.625)に量子化され、それによって、対応する生の入力点r
iの座標と比較されるときに、比較におけるいくらかの量の歪みを反映する。
【0044】
ディープエントロピーモデリングのための別のアプローチは、自己監視圧縮に関与することができ、これは、ツリー構造条件付きエントロピーモデルに対して動作する適応エントロピーコーダを使用することができる。局所近傍からの情報、並びにグローバルトポロジーは、オクトツリー構造から利用され得る。
【0045】
本明細書においてPointContextNetと呼ばれるディープエントロピーモデリングのための別のアプローチが、以下のように説明され得る。オクトツリーで表された点群は、新規のディープ条件付きエントロピーモデルを通じて、本アプローチに従って符号化され得る。このディープエントロピーモデルは、点群エンコーダ及び点群デコーダの両方において実装され得る。特に、このディープエントロピーモデルを利用して、局所表面を特徴付ける特徴記述子を抽出することができる。
【0046】
そのような方法は、既存のツリーベースの条件付きエントロピーモデル間のギャップを、それらの欠点を解決することによって、埋めることが理解され得る。第一に、OctSqueezeなどの条件付きエントロピーモデルは、祖先の特徴に対する高度の依存性を有する場合があり、その依存性は、そのモデルを計算処理上徹底的に行う場合がある。この欠点は、例えば、その依存性を切り離し、現在のノードの近傍にあるノードの位置を明示的に考慮に入れて適切なコンテキストを形成することによって、克服することができる。これは、VoxelContextNetとは対照的であり得、バイナリボクセル化された近傍を生成して近傍のノードを表す代わりに、モデルは、近傍内のノードの3D位置を考慮に入れることができる。第二に、VoxelContextNetで提案されたモデルは、ボクセル化された近傍からの特徴抽出のための3D畳み込みを使用することができる。3D畳み込みベースのアーキテクチャは、3D空間内の反復可能なパターンに対して有利であり得るが、シーン内の複雑な詳細を捕捉し損なう場合がある。この目的のために、MLPベースのアーキテクチャを使用するPointContextNetと呼ばれるディープエントロピーモデルが、そのような複雑な詳細を抽出するのにより好適であり得る。
【0047】
基本的なPointContextNetアーキテクチャが、本明細書で説明される。PointContextNetアーキテクチャは、MLPアーキテクチャを利用することができる点ベースのニューラルネットワークを介して配備され得る。このアーキテクチャは、少なくとも1つの集合抽象化(set abstraction、SA)モジュールを含むことができ、各モジュールは、1つ以上のSA層を含み、それらの層は、連続的に動作してMLPベースの特徴fを生成することができる。そのような点ベースのネットワークは、表面内の複雑な構造を表すためのより大きな能力を有することができる。PointContextNetは、例えば、現在のオクトツリーボクセル点の近傍からの入力点として、点集合Viを取ることができる。Viは、近傍のオクトツリーボクセルから、深度レベルdiの現在のオクトツリーボクセルまでの3D位置の形態で提供することができることに留意されたい。次いで、出力特徴fは、現在のノードの既知の特徴、又はコンテキストCi、すなわち、現在のノードの3D位置、及びオクトツリー内のその深度diと連結することができる。
【0048】
アーキテクチャは、少なくとも1つのニューラルネットワークモジュールを更に含むことができ、それは、例えば、各々が1つ以上のFC層を含み、かつSAモジュールの出力特徴fを入力として取ることができる、完全に接続された(fully connected、FC)モジュールであり得る。FCモジュールは、確率分布を生成することができる。
【0049】
図4は、一実施形態による、点ベースのアーキテクチャを例示する略図である。このアーキテクチャは、少なくともSAモジュール4010及びFCモジュール4020を含む。SAモジュール4010は、3つのSA層4011、4012、及び4013を含むことができる。各SA層4011、4012、及び4013の後には、それぞれ、整流器線形ユニット(rectifier linear unit、ReLU)活性化関数が続く。
【0050】
SA層4011の場合、SA(64、0.2、8)に対して、入力点のセットは、64点として抽象化され、各点は、0.2の近傍半径を有し、8つの最も近い近傍を考慮に入れる。第2のSA層4012では、SA(16、0.4、8)について、SA層4011の抽象化された点は、16点として更に抽象化され、各点は、0.4の近傍半径を有し、8つの最も近い近傍を考慮に入れる。SA層4012について言えば、SA(1024)について、SA層4012からの全ての出力点は、サイズ1024の特徴ベクトルを有する単一の点として抽象化される。4014において、第3のSA層の出力特徴は、現在のノードのコンテキストと連結される。
【0051】
FCモジュール4020において、FC層4021について例示されるように、FC(512)は、出力サイズ512を有する完全に接続された層が実装されることを示す。第2のFC層4022は、256の出力サイズを有する。
図4の例に示されるように、最後のFC層4023はまた、占有された子の許容される可能性に対応するサイズ2
8=256の出力も有する。
【0052】
上述のPointContextNetアーキテクチャに更に関連して、いくつかの実施形態が、異なる解像度又はスケールからの入力特徴を考慮に入れる強化を提供することができる。
【0053】
いくつかの実施形態では、基本的なPointContextNetモジュールは、強化された多重分解能グルーピング(enhanced multi-resolution grouping、MRG)技術であってもよく、この技術は、異なる抽象化レベルからの特徴の連結を必要とし得、SAモジュールは、1つ以上の並列抽象化プロセスを含み得、各プロセスは、入力特徴V
iを取るように構成され、異なるレベルの粒度で抽象化を実施し得る。第1のSA段階の抽象化された特徴は、
図4に関して上述したような、いくつかの更なる抽象化プロセスを実質的に受けてもよく、並列抽象化プロセスによって生成された出力特徴と連結されてもよい。
【0054】
図5は、SAモジュール5010及びFCモジュール5020を含む強化されたPointContextNetアーキテクチャの例を示す。SA層5011は、特徴を後続のSA層5014及び5016にわたす前に、上述したようなSA層4011と同様の抽象化された特徴を出力することができる。しかしながら、SA層5011と並行して、SA層5012及び5013は、異なるパラメータを使用して、入力特徴V
iから抽象化された特徴を生成するように構成される。例えば、SA層5011、5012、及び5013は、異なる近傍半径を使用して、異なる数の最近傍を考慮に入れ、かつ/又は異なる出力特徴サイズを有する特徴を出力するように構成され得る。SA層5012の出力特徴は、SA層5014の出力特徴と連結することができ、SA層5013の出力特徴は、SA層5016の出力特徴と連結することができる。その後、現在のノードC
iの既知の特徴を用いて、最終的に、FCモジュール5020にわたされる最後の出力特徴fを生成する。
【0055】
いくつかの実施形態では、PointContextNetは、マルチスケールグルーピング(multi-scale grouping、MSG)方策を使用して強化され得る。マルチスケールグルーピングでは、特徴は、同じ抽象化レベルで異なるスケールから抽出及び組み合わされて、出力特徴fを形成することができる。
【0056】
図6は、強化されたPointContextNetアーキテクチャの更に別の例を示す。
図6に示すように、SAモジュール6010は、3つのSA層6011、6012、及び6013を含むことができる。SA層6011の場合、SA(64、[0.2、0.4、2]、[8、16、32])について、入力点は、各事例において64点で3回抽象化することができるが、第1の事例では、8つの最近傍を使用して0.2の近傍半径を考慮に入れ、第2の事例では、16個の最近傍を使用して0.4の近傍半径を考慮に入れ、第3の事例では、32個の最近傍を使用して2の近傍半径を考慮に入れる。SA層6012は、同様の方式で、SA(64、[0.4,0.8、2]、[16、32、64])のための3つの事例において抽象化を再度実施することができる。
図4に関して上述したのと同様に、第3のSA層6013は、SA層6012の出力を取り、1024点で更なる抽象化された特徴を生成することができる。特徴fは、FCモジュール6020にわたされる前に、現在のノードのコンテキストC
iで連結される。
【0057】
ハイブリッドディープエントロピーモデルは、本明細書では、PVContextNet(又はPointVoxelContextNet)と呼ばれ、以下のように説明され得る。アーキテクチャPointContextNetを採用する点ベースのMLPは、多くのシーンにおいて複雑な詳細を非常によく抽出することができる。しかしながら、それは、ハイブリッドアーキテクチャを有する更に別のディープエントロピーモデルによって更に改善することができる。ハイブリッドアーキテクチャの少なくとも1つの利点は、畳み込み分岐が反復可能なパターンを説明する特徴を効率的に抽出することができるのに対して、MLP分岐は、複雑な詳細をより効果的に抽出することができるという観察に由来し得る。
【0058】
図7は、本明細書に開示された1つ以上の実施形態と整合性のあるハイブリッドディープエントロピーモデルの例を示す。ディープエントロピーモデルは、現在のオクトツリーノード(ボクセル)の周りのバイナリツリーボクセル化された近傍点集合と、近傍内の点のそれらの対応する3D位置との両方を入力として取ることができる。
図7に示すように、ハイブリッドアーキテクチャの場合、PN
1と呼ばれ得る第1の分岐7011は、通常の畳み込み、又は一種のスパース畳み込みに基づいて、実装することができる。第1の分岐は、ボクセル化された近傍を、(VoxelContextNetと同様の)入力として取ることができる。通常の畳み込みが適用されるとき、計算は、ボクセルが占有されているか又は空であるかにかかわらず、あらゆるボクセルに対して実行され得る。スパース畳み込みが適用されるとき、計算は、占有されたボクセルのみにわたって実行され得る。
【0059】
畳み込みカーネルがいかなる占有されたボクセルとも重複しないときには、計算することは、非効率的であり得る。無意味な計算による計算リソース及びメモリ消費の浪費に対処するために、スパース畳み込みを使用して、通常の畳み込みを置き換えることができる。様々な種類のスパース畳み込みが、本開示の1つ以上の実施形態との整合性をもって、実装することができる。ナイーブスパース畳み込みの場合、計算は、畳み込みカーネルが何らかの占有されたボクセルと少なくとも重複するときにのみ実行され得る。サブマニホールドスパース畳み込みの場合、計算は、畳み込みカーネルの中心が占有されたボクセルと重複するときにのみ実行され得る。このサブマニホールドスパース畳み込みは、ナイーブスパース畳み込みよりも更に少ない計算を必要とすることができ、いくつかの畳み込み層が連結されるときにナイーブスパース畳み込みにおいて発生し得る拡張問題を回避することができる。畳み込み分岐PN1は、畳み込みベースの特徴f1を出力することができる。
【0060】
ハイブリッドアーキテクチャは、第2の分岐7012(本明細書では、PN2と呼ばれる)を維持することができ、点ベースのニューラルネットワークは、基本的なPointContextNetアーキテクチャに関して上述したものと同様に実装される。点ベースの分岐7012は、近傍点の3D位置を入力として取ることができる。点分岐7012は、MLPベースの特徴f2を出力することができる。
【0061】
2分岐特徴抽出が行われると、7013において示されるように、それらの特徴f
1及びf
2は、特徴fとしてともに連結することができる。次いで、特徴fは、現在のオクトツリーノードのコンテキスト情報C
i、すなわち、オクトツリーにおけるその3D位置及び深度レベルd
iを用いて更に連結することができる。最後に、更新された特徴は、推定された確率分布を出力するために、ニューラルネットワークモジュール、例えば、1つ以上の完全に接続された層を含むFCモジュールに供給され得る。ハイブリッドモデルについて説明されたようなFCモジュール7020は、
図4に関して実質的に上で紹介及び説明されたFCモジュールと同じか又は同様のアーキテクチャを使用することができる。いくつかの実施形態では、特徴fは、連結の代わりに、ニューラルネットワークモジュールを介して特徴f
1及びf
2から融合された結果とすることができる。
【0062】
図8は、畳み込みベースの分岐の例示的な設計を示す。
図8に示すように、構成された畳み込みネットワークは、4つの畳み込み層8011、8012、8013、及び8014を含むことができ、各畳み込み層の後に、ReLU活性化層が続く。式Conv(32、3)は、3つの(3×3×3)のカーネルサイズを有する32個のチャネルが存在することを示し得る。FC(128)は、出力サイズ128を有する完全に接続された層を指し得る。
【0063】
畳み込みベースの分岐は、現在のオクトツリーボクセル点の近傍からの入力として、点集合Viを取ることができる。Viは、近傍ボクセルが占有されているか又は空であるかどうかを示す占有マップの形態で提供することができることに留意されたい。占有されたボクセルは、値「1」によって表され得、空のボクセルは、値「0」によって表され得る。
【0064】
いくつかの実施形態による点ベースの分岐の設計は、以下の通りであり得る。いくつかの実装形態では、
図4に例示されたSAモジュールなどの集合抽象化アーキテクチャを使用することができる。
図4に例示されたような事例では、この分岐は、3つの集合抽象化層を含むことができるが、より少ない数又はより多い数の層が使用され得ることを理解されたい。いくつかの実装形態では、
図5に示されたようなMRG強化型SAモジュールを実装することができる。
【0065】
本開示の1つ以上の実施形態と整合性のある完全なオクトツリーベースの点群コーデックは、以下のように説明され得る。すなわち、提案されたディープエントロピーモデルが適用され得るオクトツリーベースの点群コーデックの完全な説明が、本明細書で提供される。
【0066】
図9は、本明細書に提示された実施形態のうちの1つ以上と整合性のある、提案されたディープエントロピーモデルを使用する点群符号化の例を示すフロー図である。点群符号化システムの場合、9011において示されるように、入力点群Xが、N個の点を有し、最初に処理及び/又は変換され得る。例えば、点群は、M個の点をもたらす特定の精度まで量子化され得る。次いで、これらのM個の点は、9012において示される、特定の指定されたツリー深度まで、ツリー表現に更に変換することができる。様々なツリー表現又は構造が使用され得る。例えば、点は、オクトツリー表現、又はKDツリー表現、又はクワッドツリープラスバイナリツリー(QTBT)表現、又は予測ツリー表現などに変換され得る。次いで、9013において示されるように、ツリー構造のノードの全てについての占有シンボルが導出され得る。その後、9017において示されるように、符号化デバイスが、本明細書で提案された実施形態のうちの1つ以上による点群符号化を実施して、圧縮されたビットストリーム9018を生成することができる。例えば、ハイブリッドアーキテクチャは、畳み込みベースのニューラルネットワークモジュール及び点ベースのニューラルネットワークモジュールを使用して第1の特徴及び第2の特徴を計算するために使用することができる。
図9の例では、アーキテクチャは、9014において示される、全てのノードについてコンテキストを初期化するように構成され得、ディープエントリモデル9015を実装して、予測された占有シンボル分布を生成することができる。適応エントロピーエンコーダ9017は、予測された確率分布上に、圧縮されたビットストリーム9018を生成することができる。
【0067】
図10は、本明細書に提示された実施形態のうちの1つ以上と整合性のある、提案されたディープエントロピーモデルを使用する点群デコーダの例を示すフロー図である。
図10に示すように、10011において、復号デバイスは、符号化されたビットストリームからの点群データにアクセスすることができる。ビットストリームは、ツリー構造に基づいて圧縮することができる。10012において、点データは、例えば、ツリー構造のノードに関連付けられた近傍内に取り出され得る。いくつかの実施形態によれば、取り出された点のボクセル化バージョンが、特徴の計算のために(例えば、畳み込みベースの方法を介して)取得され得る。復号することは、10013において、最初に、ツリーのルートノードについてのデフォルトコンテキストを生成することによって、開始され得る。次いで、10014において、ディープエントロピーモデルは、ルートノードのデフォルトコンテキストを使用して、占有シンボル分布100015を生成することができる。適応エントロピーデコーダは、10016において示されるように、この分布を、ルートノードに対応するビットストリームの部分とともに使用して、ルート占有シンボルを復号することができる。ここで、ルートノードの全ての子のコンテキストが、初期化され得、10017及び10018において示されるように、同じ手順が数回反復されて、ツリー構造全体を拡張及び復号することができる。ツリー全体が復号された後、それは、逆変換されて、再構築された点群10019を取得することができる。
【0068】
概して、実施形態の少なくとも1つの例は、ディープエントロピーモデルを適用して、占有シンボル分布を予測することに関与することができる。しかしながら、親ノードからのローカル情報を用いて分布を予測することに加えて、実施形態の少なくとも1つの例は、利用可能であるより多くのグローバル情報を利用することに関与することができる。例えば、現在のノードの占有シンボル分布を予測するときに、1つ以上の兄弟ノードからの情報、並びに1つ以上の祖先ノードからの情報が利用されてもよい。
【0069】
オクトツリー表現は、3D空間内の位置を分配及び表現するための1つの直接的な方法であり得る。そのような表現では、点群全体を含む立方体は、8つのサブ立方体に再分される。次いで、占有コード又は占有シンボルと呼ばれる8ビットコードが、1ビット値を各サブ立方体に関連付けることによって生成され得る。1ビット値の目的は、サブ立方体が点を含む(すなわち、値1を有する)か、又は点を含まない(すなわち、値0を有する)かどうかを示すことであり得る。この分配プロセスは、ツリーを形成するように、再帰的に実施され得、2つ以上の点を有するサブ立方体のみが、更に分配される。オクトツリー表現と同様に、QTBT表現はまた、3D空間の分配に再帰的に関与することもできるが、クワッドツリー又はバイナリツリーを使用してより柔軟な分配を可能にすることができる。そのようなQTBT表現は、疎に分散された点群を表すために特に有用であり得る。3D空間を再帰的に分配するオクトツリー及びQTBTとは異なって、予測ツリーは、3D点群内の3D点の中で予測構造を規定する。予測ツリーを使用するジオメトリ符号化は、例えば、PCC内のLiDARシーケンスなどのコンテンツに有益であり得る。この方向転換ステップの場合、生の点群ジオメトリの圧縮は、ツリー表現の圧縮になり得ることに留意されたい。
【0070】
説明を容易にするため、本説明は、主にオクトツリー表現に言及する。元の点群がツリー構造、例えば、オクトツリーに変換されると、実施形態の少なくとも1つの例は、ディープエントロピーモデルに関与して、ツリーの中の全てのノードについて占有シンボル分布を予測することができる。ディープエントロピーモデルは、ノード毎方式で動作することができ、例えば、提案されたPointContextNet又は提案されたハイブリッドPVContextNetを使用して、ツリーの中の近傍ノードからのそのコンテキスト及び特徴に応じて、ノードの予測される占有シンボル分布を与えることができる。ツリー構造は、例えば、幅優先横断を使用して横断されて、より均一に分散された近傍ノードを有することができる。
【0071】
ノードの占有シンボルは、その8つの子ノードの各々のバイナリツリー占有を指す場合があり、8ビットバイナリツリー子占有からの8ビット整数として表すことができる。所与のノードのコンテキストは、例えば、親ノードの占有などの情報を、例えば、8ビット整数、所与のノードのオクトツリー深度/レベル、所与のノードのオクタント、及び現在のノードの空間位置として含むことができる。次いで、条件付きシンボル分布は、各ノード占有を圧縮してビットストリームをもたらす可逆的適応エントロピーエンコーダに供給される。
【0072】
オクトツリー表現のコンテキストにおいて本明細書で説明される実施形態、特徴、原理などの例はまた、他の種類のツリー表現にも適用可能であり得ることが、当業者には容易に明らかであろう。例えば、KDツリー表現の場合、近傍は、オクトツリーの場合の3D点ではなく、K次元内の点を含むことができ、出力確率状態の数は、2Mであり得、各ノードが2K個の子を有するため、M=2Kである。KDツリーは、例えば、点位置以外の追加の特徴が点群データ内に存在するときに使用することができる。近傍点は、類似の特徴を有する傾向があるため、ちょうどオクトツリーの場合と同様に、予測のために使用することができる合理的な近傍が構築され得る。
【0073】
図11は、オクトツリー、クワッドツリー、及びバイナリツリーを含む、3D空間分割及び点群表現のための様々な方法を例示する。QTBTは、上の段落で紹介及び説明されたように、MPEG GPCCにおいて実装され得る分割方式の1つのそのような例である。QTBTは、オクトツリー構造の頂部に構築されてもよく、暗黙的条件を使用して、非対称形空間分割を有することによって、3D空間を分割する際により多くの柔軟性を提供することができる。3つの軸全てに沿ってスライスすることによってノード(例えば、3D立方体)を8つの等しい立方体に常に分割することができる、11010において示されたオクトツリー分割とは異なり、QTは、11020において示されるように、2つの軸のみに沿ってスライスすることが可能になり得、これに対して、BTは、11030において示されるように、1つの軸のみに沿ってスライスすることが可能になり得る。本明細書で提案された方法は、一般的なオクトツリー構造を維持するが、QTBTにおける分割決定を駆動する暗黙的条件に応じて、関連する出力確率をゼロ確率に凍結することによって、QTBTに対して使用することができる。
【0074】
図12は、3D点群のQTBT分割を示す例である。
図12に見られるように、この分割は、QT原理を使用してx-z軸のみに沿って実施された12000に示されており、更に、占有確率分布予測のために利用することができるQTBT構造(ちょうどオクトツリーと同様の)を使用するときに、合理的な近傍情報を依然として有することができる。
【0075】
ツール、特徴、モデル、アプローチなどを含む実施形態の様々な例が、本明細書で説明されている。これらの例の多くは、具体性をもって説明され、少なくとも個々の特性を示すために、限定的であると聞こえ得る方法でしばしば説明されている。しかしながら、これは、説明を明確にすることを目的としており、それらの態様の適用又は範囲を限定するものではない。実際には、異なる態様の全てを組み合わせ、かつ置き換えて、更なる態様を提供することができる。
【0076】
概して、本明細書に説明され、企図されている実施形態の例を、多くの異なる形態で実装することができる。上述した
図1は、実施形態の例を提供するが、他の実施形態が想定されており、
図1の考察は、可能性のある実施形態又は実装形態の幅を限定するものではない。
【0077】
本明細書で説明される実施形態の1つ以上の例の少なくとも1つの態様は、概して、点群の圧縮又は符号化、及び復元又は復号に関し、少なくとも1つの他の態様は、概して、生成又は符号化されたビットストリームを送信することに関する。これら及び他の態様を、様々な実施形態で実装することができ、その例には、方法、装置、コンピュータ可読記憶媒体(このコンピュータ可読記憶媒体は、説明した方法のいずれかに従ってビデオデータをエンコード又はデコードするための命令を自身に記憶して有している)、及び/又はコンピュータ可読記憶媒体(このコンピュータ可読記憶媒体は、説明した方法のいずれかに従って生成されたビットストリームを自身に記憶して有している)がある。
【0078】
様々な方法が本明細書に説明されており、本方法の各々は、説明された方法を達成するための1つ以上のステップ又はアクションを含む。ステップ又はアクションの特定の順序が方法の適切な動作のために必要とされない限り、特定のステップ及び/又はアクションの順序及び/又は使用は、修正又は組み合わされ得る。
【0079】
本出願では、MLPの層の数若しくは深度、又は隠れた特徴の寸法などの様々な数値が使用される。具体的な値は、例示目的のためであり、記載の態様は、これらの具体的な値に限定されない。
【0080】
様々な実装形態は、復号を伴う。本出願で使用する場合、「復号」は、例えば、ディスプレイに好適な最終出力をもたらすために、受信した符号化されたシーケンスに対して実施されるプロセスの全て又は一部を包含することができる。様々な実施形態では、そのようなプロセスは、例えば、エントロピー復号、逆量子化、逆変換など、一般にデコーダによって実施されるプロセスのうちの1つ以上を含む。様々な実施形態では、そのようなプロセスはまた、代替的に、本出願に記載された様々な実装形態のデコーダによって実施されるプロセスも含む。
【0081】
更なる例として、一実施形態では、「復号」とは、エントロピー復号のみを指し、別の実施形態では、「復号」とは、異なる形式の復号を指すことができ、別の実施形態では、「復号」とは、エントロピー復号と、異なる形式の復号との組み合わせを指すことができる。「復号プロセス」という句が、具体的に作業部分集合を指すことを目的とするものであるか、又は全体としてより広範な復号プロセスを指すことを目的とするものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。
【0082】
様々な実装形態は、符号化を伴う。「復号」に関する上記の考察と同様に、本出願で使用される「符号化」は、例えば、符号化されたビットストリームを作り出すために入力ビデオシーケンスに対して実施されるプロセスの全て又は一部を包含することができる。様々な実施形態では、このような処理は、例えば、分割、変換、量子化、及びエントロピー符号化など、エンコーダによって一般的に実施される処理のうちの1つ以上を含む。
【0083】
更なる例として、一実施形態では、「符号化」とは、エントロピー符号化のみを指し、別の実施形態では、「符号化」とは、異なる形式の符号化を指すことができ、別の実施形態では、「符号化」とは、エントロピー符号化と、異なる形式の符号化との組み合わせを指すことができる。「符号化プロセス」という句が、具体的に作業部分集合を指すことを目的とするものであるか、又は全体としてより広範な符号化プロセスを指すことを目的とするものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。
【0084】
図がフロー図として提示されている場合、その図は対応する装置のブロック図も提供するものと理解されたい。同様に、図がブロック図として提示されている場合、その図は対応する方法/プロセスのフロー図も提供するものと理解されたい。
【0085】
概して、本明細書に説明される実施形態、実装形態、特徴などの例を、例えば、方法若しくはプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装することができる。たとえ単一の形態の実装形態の文脈でのみ考察される場合でも(例えば、方法としてのみ考察される)、考察された特徴の実装形態は、他の形態(例えば、装置又はプログラム)でも実装することができる。例えば、適切なハードウェア、ソフトウェア、及びファームウェアにおいて装置を実装することができる。方法の1つ以上の例を、例えば、概して処理デバイスを指すプロセッサに実装することができ、このプロセッサは、例えば、コンピュータ、マイクロプロセッサ、集積回路、又はプログラマブル論理デバイスを含む。プロセッサには、例えば、エンドユーザ間の情報の通信を容易にする、コンピュータ、携帯電話、ポータブル/携帯情報端末(「PDA」)などのデバイスなどの通信デバイスも含まれる。また、本明細書における「プロセッサ」という用語の使用には、1つのプロセッサ又は2つ以上のプロセッサの様々な構成を広く包含することが意図されている。
【0086】
「一実施形態」若しくは「ある実施形態」又は「一実装形態」若しくは「ある実装形態」、並びにそれらの他の変形形態への言及は、その実施形態に関連して説明する特定の特徴、構造、特性などが、少なくとも1つの実施形態に含まれることを意味する。したがって、本出願全体を通して様々な場所に現れる「一実施形態では」若しくは「ある実施形態では」又は「一実装形態では」若しくは「ある実装形態では」、並びに他の変形形態という句が現れるとき、必ずしも全てが同じ実施形態を指しているのではない。
【0087】
加えて、本出願は、様々な情報を「判定する」ことに言及し得る。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの1つ以上を含むことができる。
【0088】
更に、本出願は、様々な情報に「アクセスすること」に言及する場合がある。情報にアクセスすることは、例えば、情報を受信すること、(例えば、メモリから)情報を取得すること、情報を記憶すること、情報を移動すること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの1つ以上を含むことができる。
【0089】
加えて、本出願は、様々な情報を「受信すること」に言及する場合がある。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は(例えば、メモリから)情報を取得することのうちの1つ以上を含むことができる。更に、「受信すること」は、一般には、例えば、情報を記憶する、情報を処理する、情報を送信する、情報を移動する、情報をコピーする、情報を消去する、情報を計算する、情報を判定する、情報を予測する、又は情報を推定するなどの動作時に、何らかの方式で関与する。
【0090】
例えば、「A/B」、「A及び/又はB」及び「A及びBのうちの少なくとも1つ」の場合、次の「/」、「及び/又は」、及び「のうちの少なくとも1つ」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は両方の選択肢(A及びB)の選択を包含することが意図されていることを理解されるべきである。更なる例として、「A、B、及び/又はC」及び「A、B、及びCのうちの少なくとも1つ」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は第3のリストされた選択肢(C)のみの選択、又は第1及び第2のリストされた選択肢(A及びB)のみの選択、又は第1及び第3のリストされた選択肢(A及びC)のみの選択、又は第2及び第3のリストされた選択肢のみの選択(B及びC)のみ、又は3つ全ての選択肢の選択(A及びB及びC)を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。
【0091】
当業者には明白であるように、実装形態は、例えば、記憶され得る、又は送信され得る情報を搬送するようにフォーマットされた様々な信号をもたらすことができる。情報は、例えば、方法を実施するための命令、又は説明されている実装形態のうちの1つによって生成されるデータを含むことができる。例えば、記載の実施形態のビットストリームを搬送するように、信号をフォーマットすることができる。例えば、電磁波として(例えば、スペクトルの無線周波数部分を使用して)、又はベースバンド信号として、このような信号をフォーマットすることができる。フォーマットすることは、例えば、データストリームを符号化することと、符号化されたデータストリームで搬送波を変調することと、を含むことができる。信号が搬送する情報は、例えば、アナログ情報又はデジタル情報とすることができる。既知であるように、様々な異なる有線リンク又は無線リンク上で信号を送信することができる。信号は、プロセッサ可読媒体に記憶することができる。
【0092】
特徴及び要素は、特定の組み合わせにおいて上で説明されているが、当業者は、各特徴又は要素が単独で又は他の特徴及び要素との任意の組み合わせで使用され得ることを理解されよう。加えて、本明細書に説明される方法は、コンピュータ又はプロセッサによる実行のためにコンピュータ可読媒体に組み込まれたコンピュータプログラム、ソフトウェア又はファームウェアにおいて実装され得る。コンピュータ可読媒体の例としては、電子信号(有線又は無線接続を介して送信される)及びコンピュータ可読記憶媒体が挙げられる。コンピュータ可読記憶媒体の例としては、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、レジスタ、キャッシュメモリ、半導体メモリデバイス、内部ハードディスク及びリムーバブルディスクなどの磁気媒体、磁気光学媒体及びCD-ROMディスク及びデジタル多用途ディスク(digital versatile disk、DVD)などの光学媒体が挙げられるが、これらに限定されない。
【手続補正書】
【提出日】2024-06-06
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ツリー構造に編成された点群データを復号するための方法であって、前記方法は、
ルートノードと複数の子ノードとを含む前記ツリー構造を横断することによって、符号化されたビットストリームから前記点群データにアクセスすることと、
アクセスされた前記点群データから、前記複数の子ノードのうちの1つに関連付けられた空間近傍内の点を取り出すことと、
点ベースのニューラルネットワークモジュールを使用して、取り出された前記点に関連付けられた三次元(3D)点集合から第1の特徴を計算することと、
畳み込みベースのニューラルネットワークモジュールを使用して、前記取り出された点を表すボクセル化された点データから第2の特徴を計算することと、
包括的特徴を構成するように、前記第1の特徴及び前記第2の特徴を、前記複数の子ノードのうちの前記1つの1つ以上の既知の特徴と連結することと、
ニューラルネットワークモジュールを使用して、前記包括的特徴に基づいて、前記複数の子ノードのうちの前記1つについての占有シンボル分布を予測することと
前記符号化されたビットストリームから、予測された前記占有シンボル分布に基づいて、前記複数の子ノードのうちの前記1つについての占有を決定することと、を含む、方法。
【請求項2】
前記畳み込みベースのニューラルネットワークモジュールを使用して計算された前記第1の特徴は、点群の大きな平滑面を要約する、請求項1に記載の方法。
【請求項3】
前記点ベースのニューラルネットワークモジュールを使用して計算された前記第2の特徴は、点群の複雑な詳細を要約する、請求項1に記載の方法。
【請求項4】
前記第2の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、前記取り出された点から、複数の抽象化された点集合であって、前記複数の抽象化された点集合の各々は、異なる抽象化レベルを有する、複数の抽象化された点集合を生成し、かつ前記複数の抽象化された点集合の各々を互いに連結することによって計算される、請求項1に記載の方法。
【請求項5】
前記第2の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、異なるスケールを使用し、かつ同じ抽象化レベルを使用して、前記取り出された点から複数の特徴を抽出し、かつ抽出された前記特徴を組み合わせることによって計算される、請求項1に記載の方法。
【請求項6】
前記複数の子ノードのうちの前記1つ又は前記ルートノードに関連する前記複数の子ノードのうちの少なくとも1つの別の子ノードに関連付けられた情報に基づいて、前記複数の子ノードのうちの前記1つについての前記占有シンボル分布を予測することを更に含む、請求項1に記載の方法。
【請求項7】
前記ツリー構造は、オクトツリー、クワッドツリー、クワッドツリープラスバイナリツリー(QTBT)、又はk次元(kth dimensional、KD)ツリーのうちの1つである、請求項1に記載の方法。
【請求項8】
前記複数の子ノードのうちの前記1つの前記1つ以上の既知の特徴は、前記複数の子ノードのうちの1つの三次元(3D)位置と、前記ツリー構造における前記複数の子ノードのうちの前記1つの深度レベルと、を少なくとも含む、請求項1に記載の方法。
【請求項9】
ツリー構造に編成された点群データを復号するための復号デバイスであって、前記復号デバイスは、プロセッサを備え、前記プロセッサは、
ルートノードと複数の子ノードとを含む前記ツリー構造を横断することによって、符号化されたビットストリームから前記点群データにアクセスし、
アクセスされた前記点群データから、前記複数の子ノードのうちの1つに関連付けられた空間近傍内の点を取り出し、
点ベースのニューラルネットワークモジュールを使用して、取り出された前記点の三次元(3D)位置から第1の特徴を計算し、
畳み込みベースのニューラルネットワークモジュールを使用して、前記取り出された点を表すボクセル化された点データから、第2の特徴を計算し、包括的な特徴を構成するように、前記第1の特徴及び前記第2の特徴を、前記複数の子ノードのうちの前記1つの1つ以上の既知の特徴と連結し、
ニューラルネットワークモジュールを使用して、計算された前記特徴に基づいて、前記複数の子ノードのうちの前記1つについての占有シンボル分布を予測し、
前記符号化されたビットストリームから、予測された前記占有シンボル分布に基づいて、前記複数の子ノードのうちの前記1つについての占有を決定するように構成されている、復号デバイス。
【請求項10】
前記畳み込みベースのニューラルネットワークモジュールを使用して計算された前記第1の特徴は、点群の大きな平滑面を要約する、請求項9に記載の復号デバイス。
【請求項11】
前記点ベースのニューラルネットワークモジュールを使用して計算された前記第2の特徴は、点群の複雑な詳細を要約する、請求項9に記載の復号デバイス。
【請求項12】
前記第2の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、前記取り出された点から、複数の抽象化された点集合であって、前記複数の抽象化された点集合の各々は、異なる抽象化レベルを有する、複数の抽象化された点集合を生成し、かつ前記複数の抽象化された点集合の各々を互いに連結することによって計算される、請求項9に記載の復号デバイス。
【請求項13】
前記第2の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、異なるスケールを使用し、かつ同じ抽象化レベルを使用して、前記取り出された点から複数の特徴を抽出し、かつ抽出された前記特徴を組み合わせることによって計算される、請求項9に記載の復号デバイス。
【請求項14】
前記複数の子ノードのうちの前記1つ又は前記ルートノードに関連する前記複数の子ノードのうちの別の子ノードの少なくとも1つに関連付けられた情報に基づいて、前記複数の子ノードのうちの前記1つについての前記占有シンボル分布を予測することを更に含む、請求項9に記載の復号デバイス。
【請求項15】
前記ツリー構造は、オクトツリー、クワッドツリー、クワッドツリープラスバイナリツリー(QTBT)、又はk次元(KD)ツリーのうちの1つである、請求項9に記載の復号デバイス。
【請求項16】
前記複数の子ノードのうちの前記1つの前記1つ以上の既知の特徴は、前記ツリー構造における前記複数の子ノードのうちの前記1つの三次元(3D)位置と、前記複数の子ノードのうちの前記1つの深度レベルと、を少なくとも含む、請求項9に記載の復号デバイス。
【国際調査報告】