特表2024-538684 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターデジタル　ヴイシー　ホールディングス，　インコーポレイテッドの特許一覧

特表2024-538684ハイブリッドディープエントロピー符号化を使用する点群圧縮のための方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-23

(54)【発明の名称】ハイブリッドディープエントロピー符号化を使用する点群圧縮のための方法及び装置

(51)【国際特許分類】

G06T 9/40 20060101AFI20241016BHJP

G06T 9/00 20060101ALI20241016BHJP

【ＦＩ】

G06T9/40

G06T9/00 200

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024520645

(86)(22)【出願日】2022-10-05

(85)【翻訳文提出日】2024-05-13

(86)【国際出願番号】 US2022045790

(87)【国際公開番号】W WO2023059727

(87)【国際公開日】2023-04-13

(31)【優先権主張番号】63/252,482

(32)【優先日】2021-10-05

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＨＤＭＩ

２．３ＧＰＰ

３．ＢＬＵＥＴＯＯＴＨ

(71)【出願人】

【識別番号】518338149

【氏名又は名称】インターデジタルヴイシーホールディングス，インコーポレイテッド

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(74)【代理人】

【識別番号】100108213

【弁理士】

【氏名又は名称】阿部豊隆

(72)【発明者】

【氏名】ロディ、ムハンマド、アサド

(72)【発明者】

【氏名】パン、ジアハオ

(72)【発明者】

【氏名】チアン、ドン

(57)【要約】

点群データを復号及び符号化するための方法及び装置が、本明細書で説明される。方法は、ツリー構造に基づいて圧縮された点群データにアクセすることを含み得る。本方法は、ツリー構造の現在のノードに関連付けられた近傍内の点を取り出すことと、点ベースのニューラルネットワークモジュールを使用して、取り出された点の三次元（３Ｄ）位置に基づいて、特徴を計算することと、を更に含み得る。本方法は、ニューラルネットワークモジュールを使用して、特徴に基づいて、現在のノードについての占有シンボル分布を予測することと、符号化されたビットストリーム、及び予測された占有シンボル分布から、現在のノードについての占有を決定することと、を含み得る。本方法は、取り出された点のボクセル化されたバージョンに基づいて、畳み込みベースのニューラルネットワークモジュールを使用して、別の特徴を計算することと、包括的な特徴を構成するように、特徴及び別の特徴を、現在のノードの１つ以上の既知の特徴と融合することと、を含み得る。

【特許請求の範囲】

【請求項1】

点群データを復号するための方法であって、前記方法は、
符号化されたビットストリームから点群データであって、ツリー構造に基づいて圧縮されている、点群データにアクセスすることと、
アクセスされた前記点群データから、前記ツリー構造の現在のノードに関連付けられた近傍内の点を取り出すことと、
点ベースのニューラルネットワークモジュールを使用して、取り出された前記点の三次元（３Ｄ）位置に基づいて、特徴を計算することと、
ニューラルネットワークモジュールを使用して、前記特徴に基づいて、前記現在のノードについての占有シンボル分布を予測することと、
前記符号化されたビットストリームから、予測された前記占有シンボル分布に基づいて、前記現在のノードについての占有を決定することと、を含む、方法。

【請求項2】

前記特徴は、第１の特徴であり、前記方法は、前記取り出された点のボクセル化されたバージョンに基づいて、畳み込みベースのニューラルネットワークモジュールを使用して、第２の特徴を計算することを更に含み、前記第２の特徴は、包括的な特徴を構成するように、前記第１の特徴と連結され、かつ前記ツリー構造の前記現在のノードの１つ以上の既知の特徴と連結される、請求項１に記載の方法。

【請求項3】

前記畳み込みベースのニューラルネットワークモジュールを使用して計算された前記第１の特徴は、点群の大きな平滑面を要約する、請求項２に記載の方法。

【請求項4】

前記点ベースのニューラルネットワークモジュールを使用して計算された前記第２の特徴は、点群の複雑な詳細を要約する、請求項２に記載の方法。

【請求項5】

前記第２の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、前記取り出された点から、複数の抽象化された点集合であって、前記複数の抽象化された点集合の各々は、異なる抽象化レベルを有する、複数の抽象化された点集合を生成し、かつ前記複数の抽象化された点集合の各々を互いに連結することによって計算される、請求項２に記載の方法。

【請求項6】

前記第２の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、異なるスケールを使用し、かつ同じ抽象化レベルを使用して、前記取り出された点から複数の特徴を抽出し、かつ抽出された前記特徴を組み合わせることによって計算される、請求項２に記載の方法。

【請求項7】

前記現在のノードに関連する兄弟ノード又は祖先ノードのうちの少なくとも１つに関連付けられた情報に基づいて、前記現在のノードについての前記占有シンボル分布を予測することを更に含む、請求項１に記載の方法。

【請求項8】

前記ツリー構造は、オクトツリー、クワッドツリー、クワッドツリープラスバイナリツリー（ＱＴＢＴ）、又はｋ次元（kth dimensional、ＫＤ）ツリーのうちの１つである、請求項１に記載の方法。

【請求項9】

前記現在のノードの前記１つ以上の既知の特徴は、３つの前記構造における前記現在のノードの前記３Ｄ位置、及び前記現在のノードの深度レベルを少なくとも含む、請求項１に記載の方法。

【請求項10】

復号デバイスであって、プロセッサを備え、前記プロセッサは、
符号化されたビットストリームから点群データであって、ツリー構造に基づいて圧縮されている、点群データにアクセスし、
アクセスされた前記点群データから、前記ツリー構造の現在のノードに関連付けられた近傍内の点を取り出し、
点ベースのニューラルネットワークモジュールを使用して、取り出された前記点の三次元（３Ｄ）位置に基づいて、特徴を計算し、
ニューラルネットワークモジュールを使用して、前記特徴に基づいて、前記現在のノードについての占有シンボル分布を予測し、
前記符号化されたビットストリームから、予測された前記占有シンボル分布に基づいて、前記現在のノードについての占有を決定するように構成されている、復号デバイス。

【請求項11】

前記特徴は、第１の特徴であり、前記プロセッサは、前記取り出された点のボクセル化されたバージョンに基づいて、畳み込みベースのニューラルネットワークモジュールを使用して、第２の特徴を計算するように更に構成されており、前記第２の特徴は、包括的な特徴を構成するように、前記第１の特徴と連結され、かつ前記ツリー構造の前記現在のノードの１つ以上の既知の特徴と連結される、請求項１０に記載の復号デバイス。

【請求項12】

前記畳み込みベースのニューラルネットワークモジュールを使用して計算された前記第１の特徴は、点群の大きな平滑面を要約する、請求項１１に記載の復号デバイス。

【請求項13】

前記点ベースのニューラルネットワークモジュールを使用して計算された前記第２の特徴は、点群の複雑な詳細を要約する、請求項１１に記載の復号デバイス。

【請求項14】

【請求項15】

前記第２の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、異なるスケールを使用し、かつ同じ抽象化レベルを使用して、前記取り出された点から複数の特徴を抽出し、かつ抽出された前記特徴を組み合わせることによって計算される、請求項１１に記載の復号デバイス。

【請求項16】

前記現在のノードに関連する兄弟ノード又は祖先ノードのうちの少なくとも１つに関連付けられた情報に基づいて、前記現在のノードについての前記占有シンボル分布を予測することを更に含む、請求項１０に記載の復号デバイス。

【請求項17】

前記ツリー構造は、オクトツリー、クワッドツリー、クワッドツリープラスバイナリツリー（ＱＴＢＴ）、又はｋ次元（ＫＤ）ツリーのうちの１つである、請求項１０に記載の復号デバイス。

【請求項18】

前記現在のノードの前記１つ以上の既知の特徴は、３つの前記構造における前記現在のノードの前記３Ｄ位置、及び前記現在のノードの深度レベルを少なくとも含む、請求項１０に記載の復号デバイス。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本出願は、２０２１年１０月５日に出願された米国特許仮出願第６３／２５２，４８２号の利益を主張するものであり、その内容は、参照により本明細書に組み込まれる。

【0002】

（発明の分野）
本開示は、点群圧縮及び処理に関する。より具体的には、本開示は、点群信号の圧縮、分析、補間、表現、及び理解のためのツールを提供することを目的とする。

【背景技術】

【0003】

点群は、自動運転、ロボット工学、拡張現実／仮想現実（augmented reality/virtual reality、ＡＲ／ＶＲ）、土木工学、コンピュータグラフィックス、及びアニメーション／映画産業を含むいくつかのビジネス分野にわたって使用される共通データフォーマットである。三次元（three dimensional、３Ｄ）光検出測距（Light Detection and Ranging、ＬｉＤＡＲ）センサは、自動運転車に配備されており、手頃な価格のＬｉＤＡＲセンサが、例えば、ＶｅｌｏｄｙｎｅＶｅｌａｂｉｔ、ＡｐｐｌｅｉＰａｄＰｒｏ２０２０、及びＩｎｔｅｌＲｅａｌＳｅｎｓｅＬｉＤＡＲカメラＬ５１５に実装されている。感知技術の進歩に伴って、３Ｄ点群データは、これまでよりも有用になってきており、記述される用途における究極の実現手段であると期待されている。

【0004】

点群データはまた、例えば、５Ｇネットワークを介して接続された自動車間、及び没入型通信（ＶＲ／ＡＲ）における、ネットワークトラフィックの大部分を消費すると考えられている。効率的な表現フォーマットは、点群の理解及び通信に必要である。特に、生の点群データは、世界モデリング及び感知の目的で、適切に編成及び処理される必要がある。生の点群のために圧縮は、関連するシナリオにおいてデータの記憶及び送信が必要とされる場合に不可欠である。

【0005】

更に、点群は、複数の移動する物体を包含し得る同じシーンの連続スキャンを表現することができる。そのような点群は、動的点群と呼ばれ、静的シーン又は静的物体から捕捉される静的点群とは対照的である。動的点群は、異なるフレームが、異なる時間に捕捉されるフレームに編成されてもよい。動的点群は、処理及び圧縮がリアルタイム又は低遅延であることを必要とし得る。

【発明の概要】

【0006】

【図面の簡単な説明】

【0007】

より詳細な理解は、添付の図面と併せて例として与えられる以下の説明から得ることができ、図中の同様の参照番号は、同様の要素を示す。

【図1】本明細書で説明される実施形態の例のうちの１つ以上を実装するのに好適なシステムの例を示すブロック図である。

【図2】ＯｃｔＳｑｕｅｅｚｅアーキテクチャに従うビットストリームの符号化のためのディープエントロピーモデルの例を示す。

【図3A】ＶｏｘｅｌＣｏｎｔｅｘｔＮｅｔディープエントロピーモデルに従って処理され得るような、生の入力点群のグラフィカルな表現である。

【図3B】図３Ａの生の入力点群についての対応するオクトツリーを例示する略図である。

【図3C】図３Ａの入力点群の詳細なバイナリボクセル表現を例示する略図である。

【図4】いくつかの実施形態による、点ベースのアーキテクチャを例示する略図である。

【図5】強化されたＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔアーキテクチャの例を示す。

【図6】強化されたＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔアーキテクチャの更に別の例を示す。

【図7】本明細書に開示された１つ以上の実施形態と整合性のあるハイブリッドディープエントロピーモデルの例を示す。

【図8】ハイブリッドディープエントロピーモデルの畳み込みベースの分岐の例示的な設計を示す。

【図9】本明細書に提示された実施形態のうちの１つ以上と整合性のある、提案されたディープエントロピーモデルを使用する点群符号化の例を示すフロー図である。

【図10】本明細書に提示された実施形態のうちの１つ以上と整合性のある、提案されたディープエントロピーモデルを使用する点群復号の例を示すフロー図である。

【図11】オクトツリー、クワッドツリー、及びバイナリツリーを含む、３Ｄ空間分割及び点群表現のための様々な方法を例示する。

【図12】３Ｄ点群のクワッドツリープラスバイナリツリー（quadtree plus binary tree、ＱＴＢＴ）分割を示す例である。

【発明を実施するための形態】

【0008】

図１は、本明細書で説明される実施形態の例のうちの１つ以上を実装するのに好適なシステムの例を示すブロック図である。図１のシステム１０００は、以下に説明される様々なコンポーネントを含むデバイスとして具現化することができ、この文書で説明される実施形態、特徴などの例のうちの１つ以上を実施又は実装するように構成することができる。このようなデバイスの例としては、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ録画システム、接続型家電、及びサーバなどの様々な電子デバイスが挙げられるが、これらに限定されない。システム１０００の要素を、単独で又は組み合わせて、単一の集積回路（integrated circuit、ＩＣ）、複数のＩＣ、及び／又は別個のコンポーネントに具体化することができる。例えば、少なくとも１つの実施形態では、システム１０００の処理要素及びエンコーダ要素／デコーダ要素は、複数のＩＣ及び／又は別個のコンポーネントにわたって分散している。様々な実施形態では、システム１０００は、例えば、通信バスを介して、又は専用の入力ポート及び／若しくは出力ポートを通じて、１つ以上の他のシステム又は他の電子デバイスに通信可能に結合される。概して、システム１０００は、本明細書に説明されている実施形態、特徴などの例のうちの１つ以上を実装するように構成されている。

【0009】

システム１０００は、例えば、本明細書に記載される様々な態様を実装するために、それ自体にロードされた命令を実行するように構成された少なくとも１つのプロセッサ１０１０を含む。プロセッサ１０１０は、埋め込みメモリ、入出力インターフェース、及び当該技術分野において知られている様々な他の回路を含むことができる。システム１０００は、少なくとも１つのメモリ１０２０（例えば、揮発性メモリデバイス及び／又は不揮発性メモリデバイス）を含む。メモリ１０２０は、少なくとも１つのプロセッサ１０１０によって実行されるべき命令を記憶する非一時的記憶媒体であり得る。システム１０００は、記憶デバイス１０４００を含み、これは、不揮発性メモリ及び／又は揮発性メモリを含むことができ、これらのメモリとしては、電気的消去可能なプログラマブル読み出し専用メモリ（Electrically Erasable Programmable Read-Only Memory、ＥＥＰＲＯＭ）、読み取り専用メモリ（Read-Only Memory、ＲＯＭ）、プログラマブル読み出し専用メモリ（Programmable Read-Only Memory、ＰＲＯＭ）、ランダムアクセスメモリ（Random Access Memory、ＲＡＭ）、ダイナミックランダムアクセスメモリ（Dynamic Random Access Memory、ＤＲＡＭ）、スタティックランダムアクセスメモリ（Static Random Access Memory、ＳＲＡＭ）、フラッシュ、磁気ディスクドライブ、及び／若しくは光ディスクドライブが挙げられるが、これらに限定されない。記憶デバイス１０４０は、非限定的な例として、内部記憶デバイス、付属記憶デバイス（取り外し可能及び取り外し不可能な記憶デバイスを含む）、及び／又はネットワークアクセス可能な記憶デバイスを含むことができる。

【0010】

システム１０００は、例えば、符号化されたビデオ又は復号されたビデオを提供するためにデータを処理するように構成されたエンコーダ／デコーダモジュール１０３０を含み、エンコーダ／デコーダモジュール１０３０は、それ自体のプロセッサ及びメモリを含むことができる。エンコーダ／デコーダモジュール１０３０は、符号化機能及び／又は復号機能を実施するためのデバイスに含めることができるモジュールを表す。既知であるように、デバイスは、符号化モジュール及び復号モジュールのうちの一方又は両方を含むことができる。加えて、エンコーダ／デコーダモジュール１０３０を、システム１０００の別個の要素として実装することができるが、又は当業者には既知であるように、ハードウェアとソフトウェアとの組み合わせとしてプロセッサ１０１０内に組み込むことができる。

【0011】

例えば、本明細書に説明されている実施形態、特徴などの１つ以上の例を実施又は実装するために、プロセッサ１０１０又はエンコーダ／デコーダ１０３０にロードされるプログラムコードを、記憶デバイス１０４０に記憶し、その後、プロセッサ１０１０による実行のためにメモリ１０２０にロードすることができる。様々な実施形態によれば、プロセッサ１０１０、メモリ１０２０、記憶デバイス１０４０、及びエンコーダ／デコーダモジュール１０３０のうちの１つ以上は、本明細書で説明されたプロセスの実施中に様々なアイテムのうちの１つ以上を格納することができる。かかる記憶されたアイテムは、これらに限定されないが、入力ビデオ、復号されたビデオ、又は復号されたビデオの部分、ビットストリーム、マトリックス、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含むことができる。

【0012】

いくつかの実施形態では、プロセッサ１０１０及び／又はエンコーダ／デコーダモジュール１０３０の内部のメモリは、命令を記憶し、符号化又は復号中に必要とされる処理のための作業メモリを提供するために使用される。しかし、他の実施形態では、処理デバイス（例えば、処理デバイスを、プロセッサ１０１０か、又はエンコーダ／デコーダモジュール１０３０のいずれかとすることができる）の外部のメモリを、これらの機能のうちの１つ以上のために使用する。外部メモリを、メモリ１０２０及び／又は記憶デバイス１０４０、例えば、動的揮発性メモリ及び／又は不揮発性フラッシュメモリとすることができる。いくつかの実施形態では、外部不揮発性フラッシュメモリを使用して、例えば、テレビのオペレーティングシステムを格納する。少なくとも１つの実施形態では、ＲＡＭなどの高速な外部の動的揮発性メモリは、ＭＰＥＧ－２（ＭＰＥＧはＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐと称され、ＭＰＥＧ－２はＩＳＯ／ＩＥＣ１３８１８とも称され、１３８１８－１はＨ．２２２としても既知であり、１３８１８－２はＨ．２６２としても既知である）、ＨＥＶＣ（ＨＥＶＣは高効率映像符号化と称され、Ｈ．２６５及びＭＰＥＧ－ＨＰａｒｔ２としても既知である）、又はＶＶＣ（ＪＶＥＴによって開発中の新しい標準である多用途ビデオ符号化）などのビデオの符号化動作及び復号動作のための作業メモリとして使用される。

【0013】

システム１０００の要素への入力を、ブロック１１３０に示されるような様々な入力デバイスを通じて提供することができる。このような入力デバイスには、（ｉ）例えば、放送事業者による放送全体にわたり送信されるＲＦ信号を受信する無線周波数（radio frequency、ＲＦ）部分、（ｉｉ）コンポーネント（Component、ＣＯＭＰ）入力端子（又はＣＯＭＰ入力端子セット）、（ｉｉｉ）ユニバーサルシリアルバス（Universal Serial Bus、ＵＳＢ）入力端子、及び／又は（ｉｖ）高解像度マルチメディアインターフェース（High Definition Multimedia Interface、ＨＤＭＩ）入力端子が含まれるが、これらに限定されない。他の例には、図１には示されていないが、コンポジットビデオが含まれる。

【0014】

様々な実施形態では、ブロック１１３０の入力デバイスは、当該技術分野において知られているように、関連付けられたそれぞれの入力処理要素を有する。例えば、ＲＦ部分は、（ｉ）所望の周波数を選択すること（信号を選択すること、又は信号をある周波数帯域に帯域制限することとも称される）と、（ｉｉ）選択された信号をダウンコンバートすることと、（ｉｉｉ）（例えば）特定の実施形態でチャネルと称され得る信号周波数帯域を選択するために、より狭い周波数帯域に再び帯域制限することと、（ｉｖ）ダウンコンバートされ、帯域制限された信号を復調することと、（ｖ）エラー訂正を実施することと、（ｖｉ）所望のデータパケットのストリームを選択するために逆多重化することと、に好適な要素と関連付けられ得る。様々な実施形態のＲＦ部分は、これらの機能を実施する１つ以上の要素、例えば、周波数セレクタ、信号セレクタ、バンドリミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、エラー訂正器、及びデマルチプレクサを含む。ＲＦ部分は、様々なこれらの機能を実施するチューナを含むことができ、例えば、受信した信号をより低い周波数（例えば、中間周波数又は近ベースバンド周波数）に又はベースバンドにダウンコンバートすることを含む。セットトップボックスの一実施形態では、ＲＦ部分及びその関連する入力処理要素は、有線（例えば、ケーブル）媒体を介して送信されるＲＦ信号を受信し、所望の周波数バンドにフィルタリング、ダウンコンバート、及び再フィルタリングすることによって周波数選択を実施する。様々な実施形態では、上で説明される（及び他の）要素の順序を並べ替える、これらの要素の一部を削除する、並びに／又は、類似若しくは異なる機能を実施する他の要素を追加する。要素を追加することは、例えば、増幅器及びアナログ－デジタル変換器を挿入するなど、既存の要素間に要素を挿入することを含み得る。様々な実施形態において、ＲＦ部分は、アンテナを含む。

【0015】

加えて、ＵＳＢ端子及び／又はＨＤＭＩ端子は、システム１００００をＵＳＢ接続及び／又はＨＤＭＩ接続を介して、他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含むことができる。入力処理の様々な態様、例えば、リード－ソロモンエラー訂正を、例えば、必要に応じて、別個の入力処理ＩＣ内に又はプロセッサ１０１０内に実装することができることを理解すべきである。同様に、ＵＳＢ又はＨＤＭＩのインターフェース処理の態様を、必要に応じて、別個のインターフェースＩＣ内に又はプロセッサ１０１０内に実装することができる。例えば、プロセッサ１０１０、並びにメモリ及び記憶要素と組み合わせて動作するエンコーダ／デコーダ１０３０を含む様々な処理要素に、復調され、エラー訂正され、逆多重化されたストリームを提供して、出力デバイス上に提示するために、必要に応じて、データストリームを処理する。

【0016】

システム１０００の様々な要素を統合ハウジング内に設けることができる。統合ハウジング内では、様々な要素を、好適な接続装置１１４０、例えば、ＩＣ間（Inter-IC、Ｉ２Ｃ）バス、配線、及びプリント回路基板を含む、当該技術分野において知られている内部バスを使用して相互接続し、それらの間でデータを送信することができる。

【0017】

システム１０００は、通信チャネル１０６０を介して他のデバイスとの通信を可能にする通信インターフェース１０５０を含む。通信インターフェース１０５０は、通信チャネル１０６０によってデータを送信及び受信するように構成されたトランシーバを含むことができるが、これに限定されない。通信インターフェース１０５０は、モデム又はネットワークカードを含むことができるが、これらに限定されず、通信チャネル１０６０を、例えば、有線媒体及び／又は無線媒体内に実装することができる。

【0018】

データは、様々な実施形態では、Ｗｉ－Ｆｉネットワーク、例えば、ＩＥＥＥ８０２．１１（ＩＥＥＥは、米国電気電子技術者協会（Institute of Electrical and Electronics Engineers）を指す）などの無線ネットワークを使用して、システム１０００にストリーミングされるか、又は別様に提供される。これらの実施形態のＷｉ－Ｆｉ信号は、Ｗｉ－Ｆｉ通信用に適合された通信チャネル１０６０及び通信インターフェース１０５０によって受信される。これらの実施形態の通信チャネル１０６０は、典型的には、ストリーミングアプリケーション及び他のオーバザトップ通信を可能にするために、インターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施形態では、入力ブロック１１３０のＨＤＭＩ接続によってデータを配信するセットトップボックスを使用して、システム１０００にストリーミングされたデータを提供する。更に他の実施形態では、入力ブロック１１３０のＲＦ接続を使用して、システム１０００にストリーミングされたデータを提供する。上で示されるように、様々な実施形態は、データを非ストリーミングの様式で提供する。加えて、様々な実施形態は、Ｗｉ－Ｆｉ以外の無線ネットワーク、例えば、セルラーネットワーク（第３世代パートナーシッププロジェクト（Third Generation Partnership Project、３ＧＰＰ）規格に従って動作するネットワークなど）又はＢｌｕｅｔｏｏｔｈネットワークを使用する。

【0019】

システム１０００は、無線アクセスネットワーク（radio access network、ＲＡＮ）、コアネットワーク（core network、ＣＮ）、公衆交換電話網（public switched telephone network、ＰＳＴＮ）、インターネット、及び／又は他のネットワークなどの１つ以上の無線環境内で通信インターフェース１０５０を介して動作する（すなわち、信号を送信及び／又は受信する）ように設計された無線送信及び／又は受信ユニット（wireless transmit/receive unit、ＷＴＲＵ）などのデバイスにおいて実装することができる。更なる例として、システムは、局（station、ＳＴＡ）、ユーザ機器（user equipment、ＵＥ）、移動局、固定電話若しくは携帯電話加入者ユニット、加入ベースユニット、携帯無線呼出し器、携帯電話、携帯情報端末（personal digital assistant、ＰＤＡ）、スマートフォン、ラップトップ、ネットブック、パーソナルコンピュータ、無線センサ、ホットスポット若しくはＭｉ－Ｆｉデバイス、モノのインターネット（Internet of Things、ＩｏＴ）デバイス、腕時計若しくは他のウェアラブル機器、ヘッドマウンテドディスプレイ（head-mounted display、ＨＭＤ）、車両、ドローン、医療デバイス及びアプリケーション（例えば、遠隔手術）、産業用デバイス及びアプリケーション（例えば、産業用及び／又は自動処理チェーンのコンテキストで動作するロボット及び／又は他の無線デバイス）、家電デバイス、民生用及び／又は産業用無線ネットワーク上で動作するデバイスに実装されてもよい。

【0020】

システム１０００は、ディスプレイ１１０、スピーカ１１１０、及び他の周辺デバイス１１２０を含む様々な出力デバイスに出力信号を提供することができる。様々な実施形態のディスプレイ１１０には、例えば、タッチスクリーンディスプレイ、有機発光ダイオード（organic light-emitting diode、ＯＬＥＤ）ディスプレイ、湾曲したディスプレイ、及び／又は折り畳み式ディスプレイのうちの１つ以上が含まれる。ディスプレイ１１０は、テレビ、タブレット、ラップトップ、携帯電話（モバイルフォン）、又は別のデバイス用とすることができる。ディスプレイ１１０はまた、（例えば、スマートフォンにおけるように）他のコンポーネントと統合することができるか、又は分離することができる（例えば、ラップトップ用の外部モニタ）。他の周辺デバイス１１２０は、実施形態の様々な例において、スタンドアロンのデジタルビデオディスク（又はデジタル多用途ディスク）（両方の用語でＤＶＲ）、ディスクプレーヤ、ステレオシステム、及び／又は照明システムのうちの１つ以上を含む。様々な実施形態は、システム１０００の出力に基づいて機能を提供する１つ以上の周辺デバイス１１２０を使用する。例えば、ディスクプレーヤは、システム１０００の出力を再生する機能を実施する。

【0021】

様々な実施形態では、制御信号が、システム１０００と、ディスプレイ１１０、スピーカ１１１０、又は他の周辺デバイス１１２０との間で、ＡＶＬｉｎｋ、家電制御（Consumer Electronics Control、ＣＥＣ）、又はユーザ関与の有無にかかわらずデバイス対デバイスの制御を可能にする他の通信プロトコルなどの信号伝送を使用して通信される。出力デバイスは、それぞれのインターフェース１０７０、１０８０、及び１０９０を通じた専用接続を介してシステム１０００に通信可能に連結することができる。代替的に、出力デバイスを、通信インターフェース１０５０を介し、通信チャネル１０６０を使用して、システム１０００に接続させることができる。ディスプレイ１１０及びスピーカ１１１０は、例えば、テレビなどの電子デバイスにおけるシステム１０００の他のコンポーネントとともに、単一のユニット内に統合することができる。様々な実施形態において、ディスプレイインターフェース１０７０は、例えば、タイミングコントローラ（timing controller、ＴＣｏｎ）チップなどのディスプレイドライバを含む。

【0022】

例えば、入力１１３０のＲＦ部分が別個のセットトップボックスの一部である場合、ディスプレイ１１０及びスピーカ１１１０は、代替的に、他のコンポーネントのうちの１つ以上から分離することができる。ディスプレイ１１０及びスピーカ１１１０が外部コンポーネントである様々な実施形態では、出力信号は、例えば、ＨＤＭＩ端子、ＵＳＢ端子、又はＣＯＭＰ出力を含む、専用の出力接続を介して提供することができる。

【0023】

実施形態は、プロセッサ１０１０によって実装されるコンピュータソフトウェアによって、又はハードウェアによって、又はハードウェアとソフトウェアとの組み合わせによって、実行することができる。非限定的な例として、１つ以上の集積回路によって実施形態を実装することができる。メモリ１０２０は、技術環境に適切な任意のタイプのものとすることができ、非限定的な例として、光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリ、及びリムーバブルメモリデバイスなど、任意の適切なデータ記憶技術を使用して実装することができる。プロセッサ１０１０は、技術環境に適切な任意のタイプのものとすることができ、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、専用コンピュータ、及びマルチコアアーキテクチャに基づくプロセッサのうちの１つ以上を包含することができる。更なる例として、プロセッサ１０１０は、従来のプロセッサ、デジタル信号プロセッサ（digital signal processor、ＤＳＰ）、ＤＳＰコアに関連するマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（Application Specific Integrated Circuits、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Field Programmable Gate Arrays、ＦＰＧＡ）、任意の他のタイプの集積回路（integrated circuit、ＩＣ）、状態機械などであってもよい。プロセッサ１０１０は、信号符号化、データ処理、電力制御、入力／出力処理、及び／又はＷＴＲＵ１０２０が無線環境において動作することが可能になる任意の他の機能を実施することができる。プロセッサ１０１０は、エンコーダ／デコーダ１０３０、メモリ１０２０、記憶デバイス１０４０、通信インターフェース１０５０、ディスプレイインターフェース１０７０、オーディオインターフェース１０７０、周辺インターフェース１０９０、又は入力ブロック１１３０に結合され得る。

【0024】

点群が実装され得る様々な使用事例が、本明細書で説明される。例えば、自動車産業及び特に自動運転車の開発は、点群が使用され得る分野である。自動運転車は、その自動運転車の環境を「探査」して、それらの目前の周辺の現実に基づいて、情報を得た上での運転判断を可能にすることができることが望ましい場合がある。点群は、静的又は動的であってもよく、典型的には、平均サイズであり、例えば、１回につき、せいぜい数百万個の点である。例えば、光検出測距（ＬｉＤＡＲ）技術で使用されるセンサなどのいくつかのセンサは、知覚エンジンによって使用され得る動的点群を生成することができる。これらの点群は、人間の目によって観察することを意図されていない場合があり、かつまばらである場合があり、色の属性を提供する場合もあれば提供しない場合もあり、かつ／又は高い捕捉頻度で捕捉される場合がある。点群は、ＬｉＤＡＲによって提供される反射率などの他の属性を記憶することができ、この属性は、感知される物体の材料を示すことができ、かつ判断を行う際に役立つことができる属性である。

【0025】

仮想現実（Virtual Reality、ＶＲ）及び没入型世界は、最近の話題であり、将来の二次元（two-dimensional、２Ｄ）平面ビデオとして、多くの人によって観察される。ＶＲ及び没入型世界の基本的な発想は、観察者が自分の前の仮想世界のみを見ることができる標準的なＴＶとは対照的に、観察者をその世界の周囲全てを環境に没入させることであり得る。没入におけるいくつかの濃淡は、環境における観察者の自由度に応じて、観察者に提供され得る。点群は、ＶＲ世界が分布され得る１つの候補フォーマットであってもよい。

【0026】

点群はまた、（例えば、文化的な遺産／建造物の場合）物体を送信するか又は物体に訪問することなく、その物体の空間構成を共有するために、その物体の３Ｄスキャンニングなどの様々な目的のために使用することもできる。また、そのような点群は、物体が破壊される可能性がある場合に、例えば、地震によって寺院が破壊される可能性がある場合に、その物体の空間構成の保存を確実にすることができる。そのような点群は、通常、静的であり、着色され、かつ膨大な数のデータを記憶する。

【0027】

３Ｄ表現を使用してマップが平面に限定されず、かつ起伏を含むことができる点群についての使用事例の更なる例としては、地形及び／又は地図製作がある。ＧｏｏｇｌｅＭａｐｓは、３Ｄマップを表示及び操作するためのツールの一例であるが、点群の代わりにメッシュを使用する。それにもかかわらず、点群は、３Ｄマップのための好適なデータフォーマットであり得、そのような点群は、通常、静的であり、着色され、かつ膨大な量のデータを記憶する。

【0028】

点群を介した世界モデリング及び感知は、機械がその機械の周りの３Ｄ世界に関する知識を獲得することを可能にするための不可欠な技術であり得、これは、上述したアプリケーションにとって極めて重要であり得る。本開示は、上記を念頭に置いて提供されるが、当業者は、点群、並びにそのようなデータの圧縮のための技術が、例えば、データの空間表現を超えて、他の分野を有する可能性があることを理解するであろう。

【0029】

３Ｄ点群データは、物体又はシーンの表面上の離散的なサンプルとして理解することができる。点サンプルを用いて現実の世界を完全に表現するために、実際には、３Ｄ点群が、莫大な数の点を必要とし得る。例えば、典型的なＶＲ没入型シーンは、数百万の点を含み得、一方、点群は、数億の点を包み得る。したがって、そのような大規模な点群の処理は、特に、計算処理上のパワーを制限した可能性のある消費者デバイス、例えば、スマートフォン、タブレット、及び自動車ナビゲーションシステムの場合、計算コストが高い可能性がある。

【0030】

点群に対する処理又は推論を改善するための初期ステップは、効率的な記憶方法を有することであり得る。手頃な計算コストで入力点群を記憶及び処理するために、１つの解決策としては、ダウンサンプリングされた点群が、はるかに少ない点を有しながら、入力点群のジオメトリを要約するように、最初に入力点群をダウンサンプリングすることであり得る。次いで、ダウンサンプリングされた点群は、更なる消費のために、後続の機械タスクに供給され得る。しかしながら、記憶空間の更なる削減は、可逆圧縮のためのエントロピー符号化技術を通して、（元のデータ又はダウンサンプリングされたデータにかかわらず）生の点群データをビットストリームに変換することによって達成することができる。より良好なエントロピーモデルは、より小さいビットストリームをもたらすことができ、したがって、より効率的な圧縮をもたらすことができる。加えて、エントロピーモデルはまた、エントロピーエンコーダが圧縮を実施しながらタスク固有の情報を維持することを可能にすることができる下流タスクとペアを組むこともできる。可逆符号化に加えて、いくつかのシナリオは、特定の品質レベル以下で誘発された歪みを維持しながら、圧縮を著しく改善するために、不可逆符号化を呼び出すことができる。

【0031】

オクトツリーベースの点群圧縮のための様々な実施形態が、本明細書で説明される。点群が、オクトツリーの分解ツリーを介して表現され得る。ルートノードは、バウンディングボックス内の全空間をカバーすることができる。この空間を、あらゆる方向、すなわち、ｘ方向、ｙ方向、及びｚ方向に等しく分け、８つのボクセルをもたらすことができる。各ボクセルについて、少なくとも１つの点が存在する場合、ボクセルは、例えば、「１」によって占有されるものとして単一ビットによってマーキングされ得、そうでない場合、「０」によって表される空のビットとしてマーキングされ得る。次いで、ルートボクセルノードは、８ビット値によって記述され得る。占有されたボクセル毎に、その空間は、オクトツリーの次のレベルに移動する前に、８つの子ボクセルに更に分けられ得る。子ボクセルの占有率に基づいて、現在のボクセルは、８ビット値によって更に表される。占有されたボクセルを分けることは、最後のオクトツリー深度レベルまで継続することができる。オクトツリーの葉は、最終的には、点群を表す。そのような分ける分配は、考えられるところでは、所望の粒度レベルに到達するように、任意の回数だけ実行され得る。

【0032】

エンコーダ側では、オクトツリーノード（ノード値）は、エントロピーコーダに送られて、ビットストリームを生成することができる。次いで、デコーダは、復号されたオクトツリーノード値を使用して、オクトツリー構造を再構築し、最終的にオクトツリー構造の葉ノードに基づいて、点群を再構築することができる。

【0033】

エントロピー技法を使用してオクトツリーノードを効率的に符号化するために、確率分布モデルを利用して、より頻繁に現れるオクトツリーノード値についてのより短いシンボルを割り当てることができる。言い替えると、より高い出現確率を有するシンボルの場合、確率分布モデルは、ビットストリーム内のより少ないビットの使用を可能にして、出現する情報をより頻繁に表すことによって、効率の増大を提供することができる。

【0034】

点群は、大きな平滑面、又は複雑な構造の両方を表すことができる。単一モデルを使用して異なるタイプの構造を分析することは、困難であり得る。それゆえに、点群全体にわたる、エントロピーコーダについての確率分布の正確な予測は、特に困難であり得る。

【0035】

ディープエントロピー符号化のための様々な技法が、本明細書で説明される。以下で更に詳細に説明される一例は、点群に対する学習ベースのオクトツリー符号化を必要とする。ディープエントロピーモデルは、ニューラルネットワークモジュールを使用して、コンテキストモデルを定式化し、確率分布を予測しようと試みる学習ベースのアプローチのカテゴリを指す場合がある。

【0036】

１つの既存のディープエントロピーモデルは、本明細書では、ＯｃｔＳｑｕｅｅｚｅと呼ばれる場合がある。このディープエントロピーモデルは、ノード毎方式で動作することができる。最初に、オクトツリー表現が、生の点群データから構築される。オクトツリー表現を構築する際に、ＯｃｔＳｑｕｅｅｚｅは、階層的方法で、親ノード、祖父母ノードなどを含む様々な深度レベルにおける祖先ノードを利用することができる。いくつかの多層パーセプトロン（Multi-Layer Perceptron、ＭＬＰ）ベースのモジュールを使用して、ノード及び１つ以上の祖先ノードのコンテキストに応じて、所与のノードの占有シンボルの確率分布を予測することができる。現在のノードのコンテキストは、位置、オクタント、レベル（若しくは深度）、及び／又は親ノードのうちの１つ以上についての情報を含む。その動作は、順次又は並列に実行することができる。次いで、予測された確率分布は、適応可能なエントロピーエンコーダか又はエントロピーデコーダかのいずれかによって更に使用されて、ツリー構造を圧縮することができ、符号化されたビットストリームをもたらす。

【0037】

復号中にディープエントロピーモデルを使用する間、祖先ノードは、オクトツリーを下方に移動する前に復号されなければならない。したがって、復号することは、兄弟ノード上でのみ並列に動作することができる。すなわち、本開示における実施形態の１つ以上の例は、符号化中に、全てのノードにわたって並列に動作することができ、復号中に、兄弟ノードのみにわたって並列に動作することができる。

【0038】

図２は、ＯｃｔＳｑｕｅｅｚｅアーキテクチャに従うビットストリームの符号化のためのディープエントロピーモデルの例を示す。図２に図示してある例では、３つのＭＬＰモジュールが、ノード２０１１、ノード２０２１、及びノード２０３１の各々について示されているように実装される。所与のノードについて、第１のＭＬＰモジュールは、現在のノードのコンテキストを入力として取り、出力特徴２０１２を生成する。第２のＭＬＰモジュールは、そのような２つの第１のＭＬＰモジュールの出力された特徴を入力として取り、すなわち、一方は、現在のオクトツリー深度レベルからの特徴であり、他方は、親オクトツリー深度レベルからの特徴である。次いで、第２のＭＬＰモジュールはまた、出力特徴２０１３を生成することもできる。第３のＭＬＰモジュールは、そのような第２のＭＬＰモジュールのうちの２つの出力された特徴（すなわち、現在のノードの深度レベルにおける第２のＭＬＰモジュール、及び親ノード深度レベルについての第２のＭＬＰモジュール）を入力として取り、条件付き確率推定値を生成する。このプロセスは、オクトツリーの複数の深度レベルにおいて実施されて、対応する条件付き確率推定値２０１０、２０２０、及び２０３０を生成する。エントロピー符号化を実施して、条件付き確率推定値２０１０、２０２０、及び２０３０に基づいて、オクトツリーによって表されたビットストリームを圧縮し、最終的なビットストリームを生成する。

【0039】

別の既存のディープエントロピーモデルが、本開示において、ＶｏｘｅｌＣｏｎｔｅｘｔＮｅｔと呼ばれる場合がある。祖先ノードを使用することができるＯｃｔＳｑｕｅｅｚｅとは異なり、ＶｏｘｅｌＣｏｎｔｅｘｔＮｅｔは、空間近傍ボクセルを使用するアプローチを採用して、最初に局所的表面形状を分析し、次いで確率分布を予測することができる。

【0040】

オクトツリー構造内のより低いレベルの深度では、群の点に対応する立方体の中心は、その点の３Ｄ座標に近づく。しかしながら、ボクセル化された表現に基づいてデコーダ側で再構築される点群の品質は、分割の深度のレベルに依存し得、結果として、オクトツリー構造の最大深度レベルに依存し得る。したがって、ある点が配置される立方体の中心が、その点の３Ｄ座標と同じでない場合があるため、いくらかの量の歪みが、量子化に起因して導入されることになる。

【0041】

図３Ａ～図３Ｃは、ＶｏｘｅｌＣｏｎｔｅｘｔＮｅｔディープエントロピーモデルの例を示す略図である。図３Ａは、生の入力点群のグラフィカルな表現であり、所与の点ｒ_ｉの位置は、３Ｄ座標で（０．６、０．７、０．７）として表される。図３Ａに示すように、領域３０１０は、所与の点ｒ_ｉの近傍を表す。

【0042】

図３Ｂは、入力点群についての対応するオクトツリーを例示する略図である。図３Ｂに示すように、生の入力点群の所与の点ｒ_ｉは、オクトツリー内の対応する葉ノードｎ_ｉを有する。

【0043】

図３Ｃは、３Ｄ点群の詳細なバイナリツリーボクセル表現を例示する略図である。ここで、３Ｄ点群を表す空間は、ｘ軸、ｙ軸、及びｚ軸に沿って分割されて、空間のバイナリボクセル表現を生成する。領域３０１０は、ノードｎ_ｉを中心とする近傍の局所ボクセル表現であり、同じ深度レベルでの近傍ノードにおける点の分布を要約する。局所ボクセルのコンテキストは、Ｖ_ｉとして示すことができる。図３Ｃに示すように、葉ノードｎ_ｉの座標は、空間のボクセル表現に基づいて（０．６２５、０．６２５、０．６２５）に量子化され、それによって、対応する生の入力点ｒ_ｉの座標と比較されるときに、比較におけるいくらかの量の歪みを反映する。

【0044】

ディープエントロピーモデリングのための別のアプローチは、自己監視圧縮に関与することができ、これは、ツリー構造条件付きエントロピーモデルに対して動作する適応エントロピーコーダを使用することができる。局所近傍からの情報、並びにグローバルトポロジーは、オクトツリー構造から利用され得る。

【0045】

本明細書においてＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔと呼ばれるディープエントロピーモデリングのための別のアプローチが、以下のように説明され得る。オクトツリーで表された点群は、新規のディープ条件付きエントロピーモデルを通じて、本アプローチに従って符号化され得る。このディープエントロピーモデルは、点群エンコーダ及び点群デコーダの両方において実装され得る。特に、このディープエントロピーモデルを利用して、局所表面を特徴付ける特徴記述子を抽出することができる。

【0046】

そのような方法は、既存のツリーベースの条件付きエントロピーモデル間のギャップを、それらの欠点を解決することによって、埋めることが理解され得る。第一に、ＯｃｔＳｑｕｅｅｚｅなどの条件付きエントロピーモデルは、祖先の特徴に対する高度の依存性を有する場合があり、その依存性は、そのモデルを計算処理上徹底的に行う場合がある。この欠点は、例えば、その依存性を切り離し、現在のノードの近傍にあるノードの位置を明示的に考慮に入れて適切なコンテキストを形成することによって、克服することができる。これは、ＶｏｘｅｌＣｏｎｔｅｘｔＮｅｔとは対照的であり得、バイナリボクセル化された近傍を生成して近傍のノードを表す代わりに、モデルは、近傍内のノードの３Ｄ位置を考慮に入れることができる。第二に、ＶｏｘｅｌＣｏｎｔｅｘｔＮｅｔで提案されたモデルは、ボクセル化された近傍からの特徴抽出のための３Ｄ畳み込みを使用することができる。３Ｄ畳み込みベースのアーキテクチャは、３Ｄ空間内の反復可能なパターンに対して有利であり得るが、シーン内の複雑な詳細を捕捉し損なう場合がある。この目的のために、ＭＬＰベースのアーキテクチャを使用するＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔと呼ばれるディープエントロピーモデルが、そのような複雑な詳細を抽出するのにより好適であり得る。

【0047】

基本的なＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔアーキテクチャが、本明細書で説明される。ＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔアーキテクチャは、ＭＬＰアーキテクチャを利用することができる点ベースのニューラルネットワークを介して配備され得る。このアーキテクチャは、少なくとも１つの集合抽象化（set abstraction、ＳＡ）モジュールを含むことができ、各モジュールは、１つ以上のＳＡ層を含み、それらの層は、連続的に動作してＭＬＰベースの特徴ｆを生成することができる。そのような点ベースのネットワークは、表面内の複雑な構造を表すためのより大きな能力を有することができる。ＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔは、例えば、現在のオクトツリーボクセル点の近傍からの入力点として、点集合Ｖ_ｉを取ることができる。Ｖ_ｉは、近傍のオクトツリーボクセルから、深度レベルｄ_ｉの現在のオクトツリーボクセルまでの３Ｄ位置の形態で提供することができることに留意されたい。次いで、出力特徴ｆは、現在のノードの既知の特徴、又はコンテキストＣ_ｉ、すなわち、現在のノードの３Ｄ位置、及びオクトツリー内のその深度ｄ_ｉと連結することができる。

【0048】

アーキテクチャは、少なくとも１つのニューラルネットワークモジュールを更に含むことができ、それは、例えば、各々が１つ以上のＦＣ層を含み、かつＳＡモジュールの出力特徴ｆを入力として取ることができる、完全に接続された（fully connected、ＦＣ）モジュールであり得る。ＦＣモジュールは、確率分布を生成することができる。

【0049】

図４は、一実施形態による、点ベースのアーキテクチャを例示する略図である。このアーキテクチャは、少なくともＳＡモジュール４０１０及びＦＣモジュール４０２０を含む。ＳＡモジュール４０１０は、３つのＳＡ層４０１１、４０１２、及び４０１３を含むことができる。各ＳＡ層４０１１、４０１２、及び４０１３の後には、それぞれ、整流器線形ユニット（rectifier linear unit、ＲｅＬＵ）活性化関数が続く。

【0050】

ＳＡ層４０１１の場合、ＳＡ（６４、０．２、８）に対して、入力点のセットは、６４点として抽象化され、各点は、０．２の近傍半径を有し、８つの最も近い近傍を考慮に入れる。第２のＳＡ層４０１２では、ＳＡ（１６、０．４、８）について、ＳＡ層４０１１の抽象化された点は、１６点として更に抽象化され、各点は、０．４の近傍半径を有し、８つの最も近い近傍を考慮に入れる。ＳＡ層４０１２について言えば、ＳＡ（１０２４）について、ＳＡ層４０１２からの全ての出力点は、サイズ１０２４の特徴ベクトルを有する単一の点として抽象化される。４０１４において、第３のＳＡ層の出力特徴は、現在のノードのコンテキストと連結される。

【0051】

ＦＣモジュール４０２０において、ＦＣ層４０２１について例示されるように、ＦＣ（５１２）は、出力サイズ５１２を有する完全に接続された層が実装されることを示す。第２のＦＣ層４０２２は、２５６の出力サイズを有する。図４の例に示されるように、最後のＦＣ層４０２３はまた、占有された子の許容される可能性に対応するサイズ２^８＝２５６の出力も有する。

【0052】

上述のＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔアーキテクチャに更に関連して、いくつかの実施形態が、異なる解像度又はスケールからの入力特徴を考慮に入れる強化を提供することができる。

【0053】

いくつかの実施形態では、基本的なＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔモジュールは、強化された多重分解能グルーピング（enhanced multi-resolution grouping、ＭＲＧ）技術であってもよく、この技術は、異なる抽象化レベルからの特徴の連結を必要とし得、ＳＡモジュールは、１つ以上の並列抽象化プロセスを含み得、各プロセスは、入力特徴Ｖ_ｉを取るように構成され、異なるレベルの粒度で抽象化を実施し得る。第１のＳＡ段階の抽象化された特徴は、図４に関して上述したような、いくつかの更なる抽象化プロセスを実質的に受けてもよく、並列抽象化プロセスによって生成された出力特徴と連結されてもよい。

【0054】

図５は、ＳＡモジュール５０１０及びＦＣモジュール５０２０を含む強化されたＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔアーキテクチャの例を示す。ＳＡ層５０１１は、特徴を後続のＳＡ層５０１４及び５０１６にわたす前に、上述したようなＳＡ層４０１１と同様の抽象化された特徴を出力することができる。しかしながら、ＳＡ層５０１１と並行して、ＳＡ層５０１２及び５０１３は、異なるパラメータを使用して、入力特徴Ｖ_ｉから抽象化された特徴を生成するように構成される。例えば、ＳＡ層５０１１、５０１２、及び５０１３は、異なる近傍半径を使用して、異なる数の最近傍を考慮に入れ、かつ／又は異なる出力特徴サイズを有する特徴を出力するように構成され得る。ＳＡ層５０１２の出力特徴は、ＳＡ層５０１４の出力特徴と連結することができ、ＳＡ層５０１３の出力特徴は、ＳＡ層５０１６の出力特徴と連結することができる。その後、現在のノードＣ_ｉの既知の特徴を用いて、最終的に、ＦＣモジュール５０２０にわたされる最後の出力特徴ｆを生成する。

【0055】

いくつかの実施形態では、ＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔは、マルチスケールグルーピング（multi-scale grouping、ＭＳＧ）方策を使用して強化され得る。マルチスケールグルーピングでは、特徴は、同じ抽象化レベルで異なるスケールから抽出及び組み合わされて、出力特徴ｆを形成することができる。

【0056】

図６は、強化されたＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔアーキテクチャの更に別の例を示す。図６に示すように、ＳＡモジュール６０１０は、３つのＳＡ層６０１１、６０１２、及び６０１３を含むことができる。ＳＡ層６０１１の場合、ＳＡ（６４、［０．２、０．４、２］、［８、１６、３２］）について、入力点は、各事例において６４点で３回抽象化することができるが、第１の事例では、８つの最近傍を使用して０．２の近傍半径を考慮に入れ、第２の事例では、１６個の最近傍を使用して０．４の近傍半径を考慮に入れ、第３の事例では、３２個の最近傍を使用して２の近傍半径を考慮に入れる。ＳＡ層６０１２は、同様の方式で、ＳＡ（６４、［０．４，０．８、２］、［１６、３２、６４］）のための３つの事例において抽象化を再度実施することができる。図４に関して上述したのと同様に、第３のＳＡ層６０１３は、ＳＡ層６０１２の出力を取り、１０２４点で更なる抽象化された特徴を生成することができる。特徴ｆは、ＦＣモジュール６０２０にわたされる前に、現在のノードのコンテキストＣ_ｉで連結される。

【0057】

ハイブリッドディープエントロピーモデルは、本明細書では、ＰＶＣｏｎｔｅｘｔＮｅｔ（又はＰｏｉｎｔＶｏｘｅｌＣｏｎｔｅｘｔＮｅｔ）と呼ばれ、以下のように説明され得る。アーキテクチャＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔを採用する点ベースのＭＬＰは、多くのシーンにおいて複雑な詳細を非常によく抽出することができる。しかしながら、それは、ハイブリッドアーキテクチャを有する更に別のディープエントロピーモデルによって更に改善することができる。ハイブリッドアーキテクチャの少なくとも１つの利点は、畳み込み分岐が反復可能なパターンを説明する特徴を効率的に抽出することができるのに対して、ＭＬＰ分岐は、複雑な詳細をより効果的に抽出することができるという観察に由来し得る。

【0058】

図７は、本明細書に開示された１つ以上の実施形態と整合性のあるハイブリッドディープエントロピーモデルの例を示す。ディープエントロピーモデルは、現在のオクトツリーノード（ボクセル）の周りのバイナリツリーボクセル化された近傍点集合と、近傍内の点のそれらの対応する３Ｄ位置との両方を入力として取ることができる。図７に示すように、ハイブリッドアーキテクチャの場合、ＰＮ_１と呼ばれ得る第１の分岐７０１１は、通常の畳み込み、又は一種のスパース畳み込みに基づいて、実装することができる。第１の分岐は、ボクセル化された近傍を、（ＶｏｘｅｌＣｏｎｔｅｘｔＮｅｔと同様の）入力として取ることができる。通常の畳み込みが適用されるとき、計算は、ボクセルが占有されているか又は空であるかにかかわらず、あらゆるボクセルに対して実行され得る。スパース畳み込みが適用されるとき、計算は、占有されたボクセルのみにわたって実行され得る。

【0059】

畳み込みカーネルがいかなる占有されたボクセルとも重複しないときには、計算することは、非効率的であり得る。無意味な計算による計算リソース及びメモリ消費の浪費に対処するために、スパース畳み込みを使用して、通常の畳み込みを置き換えることができる。様々な種類のスパース畳み込みが、本開示の１つ以上の実施形態との整合性をもって、実装することができる。ナイーブスパース畳み込みの場合、計算は、畳み込みカーネルが何らかの占有されたボクセルと少なくとも重複するときにのみ実行され得る。サブマニホールドスパース畳み込みの場合、計算は、畳み込みカーネルの中心が占有されたボクセルと重複するときにのみ実行され得る。このサブマニホールドスパース畳み込みは、ナイーブスパース畳み込みよりも更に少ない計算を必要とすることができ、いくつかの畳み込み層が連結されるときにナイーブスパース畳み込みにおいて発生し得る拡張問題を回避することができる。畳み込み分岐ＰＮ_１は、畳み込みベースの特徴ｆ_１を出力することができる。

【0060】

ハイブリッドアーキテクチャは、第２の分岐７０１２（本明細書では、ＰＮ_２と呼ばれる）を維持することができ、点ベースのニューラルネットワークは、基本的なＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔアーキテクチャに関して上述したものと同様に実装される。点ベースの分岐７０１２は、近傍点の３Ｄ位置を入力として取ることができる。点分岐７０１２は、ＭＬＰベースの特徴ｆ_２を出力することができる。

【0061】

２分岐特徴抽出が行われると、７０１３において示されるように、それらの特徴ｆ_１及びｆ_２は、特徴ｆとしてともに連結することができる。次いで、特徴ｆは、現在のオクトツリーノードのコンテキスト情報Ｃ_ｉ、すなわち、オクトツリーにおけるその３Ｄ位置及び深度レベルｄ_ｉを用いて更に連結することができる。最後に、更新された特徴は、推定された確率分布を出力するために、ニューラルネットワークモジュール、例えば、１つ以上の完全に接続された層を含むＦＣモジュールに供給され得る。ハイブリッドモデルについて説明されたようなＦＣモジュール７０２０は、図４に関して実質的に上で紹介及び説明されたＦＣモジュールと同じか又は同様のアーキテクチャを使用することができる。いくつかの実施形態では、特徴ｆは、連結の代わりに、ニューラルネットワークモジュールを介して特徴ｆ_１及びｆ_２から融合された結果とすることができる。

【0062】

図８は、畳み込みベースの分岐の例示的な設計を示す。図８に示すように、構成された畳み込みネットワークは、４つの畳み込み層８０１１、８０１２、８０１３、及び８０１４を含むことができ、各畳み込み層の後に、ＲｅＬＵ活性化層が続く。式Ｃｏｎｖ（３２、３）は、３つの（３×３×３）のカーネルサイズを有する３２個のチャネルが存在することを示し得る。ＦＣ（１２８）は、出力サイズ１２８を有する完全に接続された層を指し得る。

【0063】

畳み込みベースの分岐は、現在のオクトツリーボクセル点の近傍からの入力として、点集合Ｖ_ｉを取ることができる。Ｖ_ｉは、近傍ボクセルが占有されているか又は空であるかどうかを示す占有マップの形態で提供することができることに留意されたい。占有されたボクセルは、値「１」によって表され得、空のボクセルは、値「０」によって表され得る。

【0064】

いくつかの実施形態による点ベースの分岐の設計は、以下の通りであり得る。いくつかの実装形態では、図４に例示されたＳＡモジュールなどの集合抽象化アーキテクチャを使用することができる。図４に例示されたような事例では、この分岐は、３つの集合抽象化層を含むことができるが、より少ない数又はより多い数の層が使用され得ることを理解されたい。いくつかの実装形態では、図５に示されたようなＭＲＧ強化型ＳＡモジュールを実装することができる。

【0065】

本開示の１つ以上の実施形態と整合性のある完全なオクトツリーベースの点群コーデックは、以下のように説明され得る。すなわち、提案されたディープエントロピーモデルが適用され得るオクトツリーベースの点群コーデックの完全な説明が、本明細書で提供される。

【0066】

図９は、本明細書に提示された実施形態のうちの１つ以上と整合性のある、提案されたディープエントロピーモデルを使用する点群符号化の例を示すフロー図である。点群符号化システムの場合、９０１１において示されるように、入力点群Ｘが、Ｎ個の点を有し、最初に処理及び／又は変換され得る。例えば、点群は、Ｍ個の点をもたらす特定の精度まで量子化され得る。次いで、これらのＭ個の点は、９０１２において示される、特定の指定されたツリー深度まで、ツリー表現に更に変換することができる。様々なツリー表現又は構造が使用され得る。例えば、点は、オクトツリー表現、又はＫＤツリー表現、又はクワッドツリープラスバイナリツリー（ＱＴＢＴ）表現、又は予測ツリー表現などに変換され得る。次いで、９０１３において示されるように、ツリー構造のノードの全てについての占有シンボルが導出され得る。その後、９０１７において示されるように、符号化デバイスが、本明細書で提案された実施形態のうちの１つ以上による点群符号化を実施して、圧縮されたビットストリーム９０１８を生成することができる。例えば、ハイブリッドアーキテクチャは、畳み込みベースのニューラルネットワークモジュール及び点ベースのニューラルネットワークモジュールを使用して第１の特徴及び第２の特徴を計算するために使用することができる。図９の例では、アーキテクチャは、９０１４において示される、全てのノードについてコンテキストを初期化するように構成され得、ディープエントリモデル９０１５を実装して、予測された占有シンボル分布を生成することができる。適応エントロピーエンコーダ９０１７は、予測された確率分布上に、圧縮されたビットストリーム９０１８を生成することができる。

【0067】

図１０は、本明細書に提示された実施形態のうちの１つ以上と整合性のある、提案されたディープエントロピーモデルを使用する点群デコーダの例を示すフロー図である。図１０に示すように、１００１１において、復号デバイスは、符号化されたビットストリームからの点群データにアクセスすることができる。ビットストリームは、ツリー構造に基づいて圧縮することができる。１００１２において、点データは、例えば、ツリー構造のノードに関連付けられた近傍内に取り出され得る。いくつかの実施形態によれば、取り出された点のボクセル化バージョンが、特徴の計算のために（例えば、畳み込みベースの方法を介して）取得され得る。復号することは、１００１３において、最初に、ツリーのルートノードについてのデフォルトコンテキストを生成することによって、開始され得る。次いで、１００１４において、ディープエントロピーモデルは、ルートノードのデフォルトコンテキストを使用して、占有シンボル分布１０００１５を生成することができる。適応エントロピーデコーダは、１００１６において示されるように、この分布を、ルートノードに対応するビットストリームの部分とともに使用して、ルート占有シンボルを復号することができる。ここで、ルートノードの全ての子のコンテキストが、初期化され得、１００１７及び１００１８において示されるように、同じ手順が数回反復されて、ツリー構造全体を拡張及び復号することができる。ツリー全体が復号された後、それは、逆変換されて、再構築された点群１００１９を取得することができる。

【0068】

概して、実施形態の少なくとも１つの例は、ディープエントロピーモデルを適用して、占有シンボル分布を予測することに関与することができる。しかしながら、親ノードからのローカル情報を用いて分布を予測することに加えて、実施形態の少なくとも１つの例は、利用可能であるより多くのグローバル情報を利用することに関与することができる。例えば、現在のノードの占有シンボル分布を予測するときに、１つ以上の兄弟ノードからの情報、並びに１つ以上の祖先ノードからの情報が利用されてもよい。

【0069】

オクトツリー表現は、３Ｄ空間内の位置を分配及び表現するための１つの直接的な方法であり得る。そのような表現では、点群全体を含む立方体は、８つのサブ立方体に再分される。次いで、占有コード又は占有シンボルと呼ばれる８ビットコードが、１ビット値を各サブ立方体に関連付けることによって生成され得る。１ビット値の目的は、サブ立方体が点を含む（すなわち、値１を有する）か、又は点を含まない（すなわち、値０を有する）かどうかを示すことであり得る。この分配プロセスは、ツリーを形成するように、再帰的に実施され得、２つ以上の点を有するサブ立方体のみが、更に分配される。オクトツリー表現と同様に、ＱＴＢＴ表現はまた、３Ｄ空間の分配に再帰的に関与することもできるが、クワッドツリー又はバイナリツリーを使用してより柔軟な分配を可能にすることができる。そのようなＱＴＢＴ表現は、疎に分散された点群を表すために特に有用であり得る。３Ｄ空間を再帰的に分配するオクトツリー及びＱＴＢＴとは異なって、予測ツリーは、３Ｄ点群内の３Ｄ点の中で予測構造を規定する。予測ツリーを使用するジオメトリ符号化は、例えば、ＰＣＣ内のＬｉＤＡＲシーケンスなどのコンテンツに有益であり得る。この方向転換ステップの場合、生の点群ジオメトリの圧縮は、ツリー表現の圧縮になり得ることに留意されたい。

【0070】

説明を容易にするため、本説明は、主にオクトツリー表現に言及する。元の点群がツリー構造、例えば、オクトツリーに変換されると、実施形態の少なくとも１つの例は、ディープエントロピーモデルに関与して、ツリーの中の全てのノードについて占有シンボル分布を予測することができる。ディープエントロピーモデルは、ノード毎方式で動作することができ、例えば、提案されたＰｏｉｎｔＣｏｎｔｅｘｔＮｅｔ又は提案されたハイブリッドＰＶＣｏｎｔｅｘｔＮｅｔを使用して、ツリーの中の近傍ノードからのそのコンテキスト及び特徴に応じて、ノードの予測される占有シンボル分布を与えることができる。ツリー構造は、例えば、幅優先横断を使用して横断されて、より均一に分散された近傍ノードを有することができる。

【0071】

ノードの占有シンボルは、その８つの子ノードの各々のバイナリツリー占有を指す場合があり、８ビットバイナリツリー子占有からの８ビット整数として表すことができる。所与のノードのコンテキストは、例えば、親ノードの占有などの情報を、例えば、８ビット整数、所与のノードのオクトツリー深度／レベル、所与のノードのオクタント、及び現在のノードの空間位置として含むことができる。次いで、条件付きシンボル分布は、各ノード占有を圧縮してビットストリームをもたらす可逆的適応エントロピーエンコーダに供給される。

【0072】

オクトツリー表現のコンテキストにおいて本明細書で説明される実施形態、特徴、原理などの例はまた、他の種類のツリー表現にも適用可能であり得ることが、当業者には容易に明らかであろう。例えば、ＫＤツリー表現の場合、近傍は、オクトツリーの場合の３Ｄ点ではなく、Ｋ次元内の点を含むことができ、出力確率状態の数は、２^Ｍであり得、各ノードが２^Ｋ個の子を有するため、Ｍ＝２^Ｋである。ＫＤツリーは、例えば、点位置以外の追加の特徴が点群データ内に存在するときに使用することができる。近傍点は、類似の特徴を有する傾向があるため、ちょうどオクトツリーの場合と同様に、予測のために使用することができる合理的な近傍が構築され得る。

【0073】

図１１は、オクトツリー、クワッドツリー、及びバイナリツリーを含む、３Ｄ空間分割及び点群表現のための様々な方法を例示する。ＱＴＢＴは、上の段落で紹介及び説明されたように、ＭＰＥＧＧＰＣＣにおいて実装され得る分割方式の１つのそのような例である。ＱＴＢＴは、オクトツリー構造の頂部に構築されてもよく、暗黙的条件を使用して、非対称形空間分割を有することによって、３Ｄ空間を分割する際により多くの柔軟性を提供することができる。３つの軸全てに沿ってスライスすることによってノード（例えば、３Ｄ立方体）を８つの等しい立方体に常に分割することができる、１１０１０において示されたオクトツリー分割とは異なり、ＱＴは、１１０２０において示されるように、２つの軸のみに沿ってスライスすることが可能になり得、これに対して、ＢＴは、１１０３０において示されるように、１つの軸のみに沿ってスライスすることが可能になり得る。本明細書で提案された方法は、一般的なオクトツリー構造を維持するが、ＱＴＢＴにおける分割決定を駆動する暗黙的条件に応じて、関連する出力確率をゼロ確率に凍結することによって、ＱＴＢＴに対して使用することができる。

【0074】

図１２は、３Ｄ点群のＱＴＢＴ分割を示す例である。図１２に見られるように、この分割は、ＱＴ原理を使用してｘ－ｚ軸のみに沿って実施された１２０００に示されており、更に、占有確率分布予測のために利用することができるＱＴＢＴ構造（ちょうどオクトツリーと同様の）を使用するときに、合理的な近傍情報を依然として有することができる。

【0075】

ツール、特徴、モデル、アプローチなどを含む実施形態の様々な例が、本明細書で説明されている。これらの例の多くは、具体性をもって説明され、少なくとも個々の特性を示すために、限定的であると聞こえ得る方法でしばしば説明されている。しかしながら、これは、説明を明確にすることを目的としており、それらの態様の適用又は範囲を限定するものではない。実際には、異なる態様の全てを組み合わせ、かつ置き換えて、更なる態様を提供することができる。

【0076】

概して、本明細書に説明され、企図されている実施形態の例を、多くの異なる形態で実装することができる。上述した図１は、実施形態の例を提供するが、他の実施形態が想定されており、図１の考察は、可能性のある実施形態又は実装形態の幅を限定するものではない。

【0077】

本明細書で説明される実施形態の１つ以上の例の少なくとも１つの態様は、概して、点群の圧縮又は符号化、及び復元又は復号に関し、少なくとも１つの他の態様は、概して、生成又は符号化されたビットストリームを送信することに関する。これら及び他の態様を、様々な実施形態で実装することができ、その例には、方法、装置、コンピュータ可読記憶媒体（このコンピュータ可読記憶媒体は、説明した方法のいずれかに従ってビデオデータをエンコード又はデコードするための命令を自身に記憶して有している）、及び／又はコンピュータ可読記憶媒体（このコンピュータ可読記憶媒体は、説明した方法のいずれかに従って生成されたビットストリームを自身に記憶して有している）がある。

【0078】

様々な方法が本明細書に説明されており、本方法の各々は、説明された方法を達成するための１つ以上のステップ又はアクションを含む。ステップ又はアクションの特定の順序が方法の適切な動作のために必要とされない限り、特定のステップ及び／又はアクションの順序及び／又は使用は、修正又は組み合わされ得る。

【0079】

本出願では、ＭＬＰの層の数若しくは深度、又は隠れた特徴の寸法などの様々な数値が使用される。具体的な値は、例示目的のためであり、記載の態様は、これらの具体的な値に限定されない。

【0080】

様々な実装形態は、復号を伴う。本出願で使用する場合、「復号」は、例えば、ディスプレイに好適な最終出力をもたらすために、受信した符号化されたシーケンスに対して実施されるプロセスの全て又は一部を包含することができる。様々な実施形態では、そのようなプロセスは、例えば、エントロピー復号、逆量子化、逆変換など、一般にデコーダによって実施されるプロセスのうちの１つ以上を含む。様々な実施形態では、そのようなプロセスはまた、代替的に、本出願に記載された様々な実装形態のデコーダによって実施されるプロセスも含む。

【0081】

更なる例として、一実施形態では、「復号」とは、エントロピー復号のみを指し、別の実施形態では、「復号」とは、異なる形式の復号を指すことができ、別の実施形態では、「復号」とは、エントロピー復号と、異なる形式の復号との組み合わせを指すことができる。「復号プロセス」という句が、具体的に作業部分集合を指すことを目的とするものであるか、又は全体としてより広範な復号プロセスを指すことを目的とするものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。

【0082】

様々な実装形態は、符号化を伴う。「復号」に関する上記の考察と同様に、本出願で使用される「符号化」は、例えば、符号化されたビットストリームを作り出すために入力ビデオシーケンスに対して実施されるプロセスの全て又は一部を包含することができる。様々な実施形態では、このような処理は、例えば、分割、変換、量子化、及びエントロピー符号化など、エンコーダによって一般的に実施される処理のうちの１つ以上を含む。

【0083】

更なる例として、一実施形態では、「符号化」とは、エントロピー符号化のみを指し、別の実施形態では、「符号化」とは、異なる形式の符号化を指すことができ、別の実施形態では、「符号化」とは、エントロピー符号化と、異なる形式の符号化との組み合わせを指すことができる。「符号化プロセス」という句が、具体的に作業部分集合を指すことを目的とするものであるか、又は全体としてより広範な符号化プロセスを指すことを目的とするものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。

【0084】

図がフロー図として提示されている場合、その図は対応する装置のブロック図も提供するものと理解されたい。同様に、図がブロック図として提示されている場合、その図は対応する方法／プロセスのフロー図も提供するものと理解されたい。

【0085】

概して、本明細書に説明される実施形態、実装形態、特徴などの例を、例えば、方法若しくはプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装することができる。たとえ単一の形態の実装形態の文脈でのみ考察される場合でも（例えば、方法としてのみ考察される）、考察された特徴の実装形態は、他の形態（例えば、装置又はプログラム）でも実装することができる。例えば、適切なハードウェア、ソフトウェア、及びファームウェアにおいて装置を実装することができる。方法の１つ以上の例を、例えば、概して処理デバイスを指すプロセッサに実装することができ、このプロセッサは、例えば、コンピュータ、マイクロプロセッサ、集積回路、又はプログラマブル論理デバイスを含む。プロセッサには、例えば、エンドユーザ間の情報の通信を容易にする、コンピュータ、携帯電話、ポータブル／携帯情報端末（「ＰＤＡ」）などのデバイスなどの通信デバイスも含まれる。また、本明細書における「プロセッサ」という用語の使用には、１つのプロセッサ又は２つ以上のプロセッサの様々な構成を広く包含することが意図されている。

【0086】

「一実施形態」若しくは「ある実施形態」又は「一実装形態」若しくは「ある実装形態」、並びにそれらの他の変形形態への言及は、その実施形態に関連して説明する特定の特徴、構造、特性などが、少なくとも１つの実施形態に含まれることを意味する。したがって、本出願全体を通して様々な場所に現れる「一実施形態では」若しくは「ある実施形態では」又は「一実装形態では」若しくは「ある実装形態では」、並びに他の変形形態という句が現れるとき、必ずしも全てが同じ実施形態を指しているのではない。

【0087】

加えて、本出願は、様々な情報を「判定する」ことに言及し得る。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの１つ以上を含むことができる。

【0088】

更に、本出願は、様々な情報に「アクセスすること」に言及する場合がある。情報にアクセスすることは、例えば、情報を受信すること、（例えば、メモリから）情報を取得すること、情報を記憶すること、情報を移動すること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの１つ以上を含むことができる。

【0089】

加えて、本出願は、様々な情報を「受信すること」に言及する場合がある。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は（例えば、メモリから）情報を取得することのうちの１つ以上を含むことができる。更に、「受信すること」は、一般には、例えば、情報を記憶する、情報を処理する、情報を送信する、情報を移動する、情報をコピーする、情報を消去する、情報を計算する、情報を判定する、情報を予測する、又は情報を推定するなどの動作時に、何らかの方式で関与する。

【0090】

例えば、「Ａ／Ｂ」、「Ａ及び／又はＢ」及び「Ａ及びＢのうちの少なくとも１つ」の場合、次の「／」、「及び／又は」、及び「のうちの少なくとも１つ」のいずれかの使用は、第１のリストされた選択肢（Ａ）のみの選択、又は第２のリストされた選択肢（Ｂ）のみの選択、又は両方の選択肢（Ａ及びＢ）の選択を包含することが意図されていることを理解されるべきである。更なる例として、「Ａ、Ｂ、及び／又はＣ」及び「Ａ、Ｂ、及びＣのうちの少なくとも１つ」の場合、かかる表現は、第１のリストされた選択肢（Ａ）のみの選択、又は第２のリストされた選択肢（Ｂ）のみの選択、又は第３のリストされた選択肢（Ｃ）のみの選択、又は第１及び第２のリストされた選択肢（Ａ及びＢ）のみの選択、又は第１及び第３のリストされた選択肢（Ａ及びＣ）のみの選択、又は第２及び第３のリストされた選択肢のみの選択（Ｂ及びＣ）のみ、又は３つ全ての選択肢の選択（Ａ及びＢ及びＣ）を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。

【0091】

当業者には明白であるように、実装形態は、例えば、記憶され得る、又は送信され得る情報を搬送するようにフォーマットされた様々な信号をもたらすことができる。情報は、例えば、方法を実施するための命令、又は説明されている実装形態のうちの１つによって生成されるデータを含むことができる。例えば、記載の実施形態のビットストリームを搬送するように、信号をフォーマットすることができる。例えば、電磁波として（例えば、スペクトルの無線周波数部分を使用して）、又はベースバンド信号として、このような信号をフォーマットすることができる。フォーマットすることは、例えば、データストリームを符号化することと、符号化されたデータストリームで搬送波を変調することと、を含むことができる。信号が搬送する情報は、例えば、アナログ情報又はデジタル情報とすることができる。既知であるように、様々な異なる有線リンク又は無線リンク上で信号を送信することができる。信号は、プロセッサ可読媒体に記憶することができる。

【0092】

特徴及び要素は、特定の組み合わせにおいて上で説明されているが、当業者は、各特徴又は要素が単独で又は他の特徴及び要素との任意の組み合わせで使用され得ることを理解されよう。加えて、本明細書に説明される方法は、コンピュータ又はプロセッサによる実行のためにコンピュータ可読媒体に組み込まれたコンピュータプログラム、ソフトウェア又はファームウェアにおいて実装され得る。コンピュータ可読媒体の例としては、電子信号（有線又は無線接続を介して送信される）及びコンピュータ可読記憶媒体が挙げられる。コンピュータ可読記憶媒体の例としては、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内部ハードディスク及びリムーバブルディスクなどの磁気媒体、磁気光学媒体及びＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（digital versatile disk、ＤＶＤ）などの光学媒体が挙げられるが、これらに限定されない。

【図1】

【図2】

【図3A】

【図3B】

【図3C】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【手続補正書】

【提出日】2024-06-06

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

ツリー構造に編成された点群データを復号するための方法であって、前記方法は、
ルートノードと複数の子ノードとを含む前記ツリー構造を横断することによって、符号化されたビットストリームから前記点群データにアクセスすることと、
アクセスされた前記点群データから、前記複数の子ノードのうちの１つに関連付けられた空間近傍内の点を取り出すことと、
点ベースのニューラルネットワークモジュールを使用して、取り出された前記点に関連付けられた三次元（３Ｄ）点集合から第１の特徴を計算することと、
畳み込みベースのニューラルネットワークモジュールを使用して、前記取り出された点を表すボクセル化された点データから第２の特徴を計算することと、
包括的特徴を構成するように、前記第１の特徴及び前記第２の特徴を、前記複数の子ノードのうちの前記１つの１つ以上の既知の特徴と連結することと、
ニューラルネットワークモジュールを使用して、前記包括的特徴に基づいて、前記複数の子ノードのうちの前記１つについての占有シンボル分布を予測することと
前記符号化されたビットストリームから、予測された前記占有シンボル分布に基づいて、前記複数の子ノードのうちの前記１つについての占有を決定することと、を含む、方法。

【請求項2】

前記畳み込みベースのニューラルネットワークモジュールを使用して計算された前記第１の特徴は、点群の大きな平滑面を要約する、請求項１に記載の方法。

【請求項3】

前記点ベースのニューラルネットワークモジュールを使用して計算された前記第２の特徴は、点群の複雑な詳細を要約する、請求項１に記載の方法。

【請求項4】

【請求項5】

前記第２の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、異なるスケールを使用し、かつ同じ抽象化レベルを使用して、前記取り出された点から複数の特徴を抽出し、かつ抽出された前記特徴を組み合わせることによって計算される、請求項１に記載の方法。

【請求項6】

前記複数の子ノードのうちの前記１つ又は前記ルートノードに関連する前記複数の子ノードのうちの少なくとも１つの別の子ノードに関連付けられた情報に基づいて、前記複数の子ノードのうちの前記１つについての前記占有シンボル分布を予測することを更に含む、請求項１に記載の方法。

【請求項7】

【請求項8】

前記複数の子ノードのうちの前記１つの前記１つ以上の既知の特徴は、前記複数の子ノードのうちの１つの三次元（３Ｄ）位置と、前記ツリー構造における前記複数の子ノードのうちの前記１つの深度レベルと、を少なくとも含む、請求項１に記載の方法。

【請求項9】

ツリー構造に編成された点群データを復号するための復号デバイスであって、前記復号デバイスは、プロセッサを備え、前記プロセッサは、
ルートノードと複数の子ノードとを含む前記ツリー構造を横断することによって、符号化されたビットストリームから前記点群データにアクセスし、
アクセスされた前記点群データから、前記複数の子ノードのうちの１つに関連付けられた空間近傍内の点を取り出し、
点ベースのニューラルネットワークモジュールを使用して、取り出された前記点の三次元（３Ｄ）位置から第１の特徴を計算し、
畳み込みベースのニューラルネットワークモジュールを使用して、前記取り出された点を表すボクセル化された点データから、第２の特徴を計算し、包括的な特徴を構成するように、前記第１の特徴及び前記第２の特徴を、前記複数の子ノードのうちの前記１つの１つ以上の既知の特徴と連結し、
ニューラルネットワークモジュールを使用して、計算された前記特徴に基づいて、前記複数の子ノードのうちの前記１つについての占有シンボル分布を予測し、
前記符号化されたビットストリームから、予測された前記占有シンボル分布に基づいて、前記複数の子ノードのうちの前記１つについての占有を決定するように構成されている、復号デバイス。

【請求項10】

前記畳み込みベースのニューラルネットワークモジュールを使用して計算された前記第１の特徴は、点群の大きな平滑面を要約する、請求項９に記載の復号デバイス。

【請求項11】

前記点ベースのニューラルネットワークモジュールを使用して計算された前記第２の特徴は、点群の複雑な詳細を要約する、請求項９に記載の復号デバイス。

【請求項12】

【請求項13】

前記第２の特徴は、前記点ベースのニューラルネットワークモジュールを使用して、異なるスケールを使用し、かつ同じ抽象化レベルを使用して、前記取り出された点から複数の特徴を抽出し、かつ抽出された前記特徴を組み合わせることによって計算される、請求項９に記載の復号デバイス。

【請求項14】

前記複数の子ノードのうちの前記１つ又は前記ルートノードに関連する前記複数の子ノードのうちの別の子ノードの少なくとも１つに関連付けられた情報に基づいて、前記複数の子ノードのうちの前記１つについての前記占有シンボル分布を予測することを更に含む、請求項９に記載の復号デバイス。

【請求項15】

前記ツリー構造は、オクトツリー、クワッドツリー、クワッドツリープラスバイナリツリー（ＱＴＢＴ）、又はｋ次元（ＫＤ）ツリーのうちの１つである、請求項９に記載の復号デバイス。

【請求項16】

前記複数の子ノードのうちの前記１つの前記１つ以上の既知の特徴は、前記ツリー構造における前記複数の子ノードのうちの前記１つの三次元（３Ｄ）位置と、前記複数の子ノードのうちの前記１つの深度レベルと、を少なくとも含む、請求項９に記載の復号デバイス。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版