特表2024-527513 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターデイジタル　パテント　ホールディングス　インコーポレイテッドの特許一覧

特表2024-527513３Ｄ点群の展開による学習ベースの点群圧縮

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-25

(54)【発明の名称】３Ｄ点群の展開による学習ベースの点群圧縮

(51)【国際特許分類】

G06T 9/00 20060101AFI20240718BHJP

H04N 19/85 20140101ALI20240718BHJP

【ＦＩ】

G06T9/00

H04N19/85

G06T9/00 200

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023578757

(86)(22)【出願日】2022-06-20

(85)【翻訳文提出日】2024-01-19

(86)【国際出願番号】 US2022034184

(87)【国際公開番号】W WO2022271602

(87)【国際公開日】2022-12-29

(31)【優先権主張番号】63/213,654

(32)【優先日】2021-06-22

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＨＤＭＩ

(71)【出願人】

【識別番号】510030995

【氏名又は名称】インターデイジタルパテントホールディングスインコーポレイテッド

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(74)【代理人】

【識別番号】100108213

【弁理士】

【氏名又は名称】阿部豊隆

(72)【発明者】

【氏名】パン、ジアハオ

(72)【発明者】

【氏名】ティアン、ドン

(72)【発明者】

【氏名】クアシュ、モリース

(72)【発明者】

【氏名】バレンツィーズ、ジュセッペ

(72)【発明者】

【氏名】デュフォー、フレデリック

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159LA02

5C159LC01

5C159MC11

5C159ME01

5C159NN32

5C159PP04

5C159RC11

5C159TA17

5C159TB06

5C159UA02

5C159UA05

(57)【要約】

一実装形態では、本発明者らは、組織化されていない入力３Ｄ点群を規則的な２Ｄグリッド上に展開／平坦化するＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒを提案する。入力点群、入力２Ｄグリッド、及びＦｏｌｄｉｎｇＮｅｔによって生成された再構築された点群所与として、本発明者らの提案は、再構築された点群に基づいて入力点群を２Ｄグリッド上にマッピングし、３チャネル画像をもたらす。代替的に、点群を表すために画像のみを使用する代わりに、点群は、コードワード及び３チャネル残差画像に分解される。この残差画像は、元の入力から再構築された点群を減算することによって取得される。提案されるＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒは、点群圧縮に適用することができ、ＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎと呼ばれる対応する圧縮システムをもたらす。ＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎは、ＴｅａｒｉｎｇＣｏｍｐｒｅｓｓｉｏｎと連携することができ、その場合、ＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎ又はＴｅａｒｉｎｇＣｏｍｐｒｅｓｓｉｏｎのどちらを使用するかを適応的に選択することができる。

【特許請求の範囲】

【請求項1】

点群データを復号するための方法であって、
規則的なグリッド上のサンプルを有するデータアレイにアクセスすることであって、前記データアレイ内の各サンプルが点群内の点の位置を示す、アクセスすることと、
前記データアレイに応答して前記点群を再構築することと、を含む、方法。

【請求項2】

前記データアレイを、ニューラルネットワークベースのオートエンコーダに関連付けられたデコーダ、又は画像若しくはビデオデコーダによって復号することを更に含む、請求項１に記載の方法。

【請求項3】

前記点群の表現を提供するコードワードにアクセスすることであって、前記点群が、前記コードワードに更に応答して再構築される、アクセスすることを更に含む、請求項１又は２に記載の方法。

【請求項4】

前記データアレイ内の各サンプルが、前記点群内の点の位置と、再構築された前記点群の初期バージョン内のそれぞれの点の位置との間の差を示す、請求項３に記載の方法。

【請求項5】

ニューラルネットワークベースのモジュールを使用して、前記規則的なグリッド及び前記コードワードに基づいて、再構築された前記点群の前記初期バージョンを生成することであって、前記点群を再構築するために、再構築された前記点群の前記初期バージョンが前記データアレイに追加される、生成することを更に含む、請求項３又は４に記載の方法。

【請求項6】

前記コードワードが、ニューラルネットワークベースのオートエンコーダに関連付けられたデコーダによって復号される、請求項３～５のいずれか一項に記載の方法。

【請求項7】

前記データアレイ内の各サンプルが、色、法線ベクトル、及び反射率のうちの１つ以上を更に示す、請求項１～６のいずれか一項に記載の方法。

【請求項8】

前記ニューラルネットワークベースのモジュールが、少なくともレイヤの第１のセット及びレイヤの第２のセットを含み、前記レイヤの第１のセットが、前記コードワード及び前記規則的なグリッドに応答し、前記レイヤの第２のセットが、前記レイヤの第１のセットの出力及び前記コードワードに応答する、請求項５～７のいずれか一項に記載の方法。

【請求項9】

前記レイヤの第１のセットが、共有マルチレイヤパーセプトロン（ＭＬＰ）の第１のセットに対応し、前記レイヤの第２のセットが、共有ＭＬＰの第２のセットに対応する、請求項８に記載の方法。

【請求項10】

前記コードワードが、潜在空間における前記点群を表す特徴ベクトルである、請求項３～９のいずれか一項に記載の方法。

【請求項11】

前記規則的なグリッドが、２Ｄ表面上で規則的にサンプリングされた２Ｄ座標を表す、請求項１～１０のいずれか一項に記載の方法。

【請求項12】

前記２Ｄ表面が、長方形、正方形領域、又は２Ｄ球である、請求項１１に記載の方法。

【請求項13】

前記画像又はビデオデコーダによって、少なくとも画像又はビデオを復号することと、
前記点群データの位置の範囲を示すデータを復号することであって、復号された前記画像又はビデオが、前記点群を再構築するために前記位置の範囲に応じてスケーリングされる、復号することと、を更に含む、請求項２～１２のいずれか一項に記載の方法。

【請求項14】

点群データを符号化するための方法であって、
第１のニューラルネットワークベースのモジュールによって、前記点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、
第２のニューラルネットワークベースのモジュールによって、前記コードワード及びグリッドに基づいて、第１の点群を再構築することと、
前記グリッド上にサンプルを有するデータアレイを生成することであって、前記データアレイ内の各サンプルが、再構築された前記第１の点群、前記グリッド、及び前記入力点群に基づいて、前記入力点群内の点の位置を示す、生成することと、を含む、方法。

【請求項15】

前記データアレイを圧縮することを更に含む、請求項１４に記載の方法。

【請求項16】

前記データアレイが、ニューラルネットワークベースのオートエンコーダに関連付けられたエンコーダ、又は画像若しくはビデオエンコーダによって符号化される、請求項１５に記載の方法。

【請求項17】

前記コードワードを圧縮することを更に含む、請求項１４～１６のいずれか一項に記載の方法。

【請求項18】

前記コードワードが、ニューラルネットワークベースのオートエンコーダに関連付けられたエンコーダによって符号化される、請求項１７に記載の方法。

【請求項19】

再構築された前記第１の点群内の各点について、前記入力点群から対応する点を識別することと、
再構築された前記第１の点群内の各点について、前記グリッド内の対応する位置をインデックス付けすることと、を更に含み、
前記グリッド内の前記対応する位置に関連付けられたサンプルが、前記入力点群の前記対応する点の位置を示す、請求項１４～１８のいずれか一項に記載の方法。

【請求項20】

前記グリッド内の前記対応する位置に関連付けられた前記サンプルが、前記入力点群の前記対応する点の前記位置と、再構築された前記第１の点群の前記対応する点の位置との間の差を示す、請求項１９に記載の方法。

【請求項21】

前記第２のニューラルネットワークベースのモジュールが、少なくともレイヤの第１のセット及びレイヤの第２のセットを含み、前記レイヤの第１のセットが、前記コードワード及び前記グリッドに応答し、前記レイヤの第２のセットが、前記レイヤの第１のセットの出力及び前記コードワードに応答する、請求項１４～２０のいずれか一項に記載の方法。

【請求項22】

前記レイヤの第１のセットが、共有ＭＬＰの第１のセットに対応し、前記レイヤの第２のセットが、共有ＭＬＰの第２のセットに対応する、請求項２１に記載の方法。

【請求項23】

前記コードワードが、潜在空間における前記入力点群を表す特徴ベクトルである、請求項１４～２２のいずれか一項に記載の方法。

【請求項24】

前記データアレイ内の各サンプルが、色、法線ベクトル、及び反射率のうちの１つ以上を更に示す、請求項１４～２３のいずれか一項に記載の方法。

【請求項25】

前記グリッドが、２Ｄ表面上で規則的にサンプリングされた２Ｄ座標を表す、請求項１４～２４のいずれか一項に記載の方法。

【請求項26】

前記２Ｄ表面が、長方形、正方形領域、又は２Ｄ球である、請求項２５に記載の方法。

【請求項27】

前記点群データの位置の範囲を示すデータを圧縮することを更に含む、請求項１５～２６のいずれか一項に記載の方法。

【請求項28】

１つ以上のプロセッサと、前記１つ以上のプロセッサに結合された少なくとも１つのメモリとを備え、前記１つ以上のプロセッサは、請求項１～２７のいずれか一項に記載の方法を実行するように構成されている、装置。

【請求項29】

請求項１４～２７のいずれか一項に記載の方法を実行することによって形成される、ビットストリームを含む、信号。

【請求項30】

請求項１～２７のいずれか一項に記載の方法に従って、点群を符号化又は復号するための命令を記憶した、コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本実施形態は、概して、点群の圧縮及び処理のための方法及び装置に関する。

【背景技術】

【0002】

点群（point cloud、ＰＣ）データフォーマットは、例えば、自律運転、ロボット工学、拡張現実／仮想現実（augmented reality/virtual reality、ＡＲ／ＶＲ）、土木工学、コンピュータグラフィックスから、アニメーション／映画産業まで、いくつかのビジネス領域にわたる汎用データフォーマットである。３ＤＬｉＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）センサは、自動運転車に配備されており、手頃な価格のＬｉＤＡＲセンサが、例えば、ＶｅｌｏｄｙｎｅＶｅｌａｂｉｔ、ＡｐｐｌｅｉＰａｄＰｒｏ２０２０、及びＩｎｔｅｌＲｅａｌＳｅｎｓｅＬｉＤＡＲカメラＬ５１５からリリースされている。センシング技術の進歩により、３Ｄ点群データは、これまで以上に実用的になり得、本明細書で考察されるアプリケーションにおいて究極のイネーブラであると期待されている。

【発明の概要】

【0003】

一実施形態によれば、点群データを復号するための方法が提供され、この方法は、規則的なグリッド上のサンプルを有するデータアレイにアクセスすることであって、当該データアレイ内の各サンプルが点群内の点の位置を示す、アクセスすることと、当該データアレイに応答して点群を再構築することと、を含む。データアレイは、ニューラルネットワークベースのオートエンコーダに関連付けられたデコーダ、又は画像若しくはビデオデコーダによって復号され得る。加えて、当該点群の初期表現を提供するコードワードが復号され得、当該点群は、当該コードワードに更に応答して再構築される。

【0004】

別の実施形態によれば、点群データを符号化するための方法が提供され、この方法は、第１のニューラルネットワークベースのモジュールによって、当該点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、第２のニューラルネットワークベースのモジュールによって、当該コードワード及びグリッドに基づいて、第１の点群を再構築することと、当該グリッド上にサンプルを有するデータアレイを生成することであって、当該データアレイ内の各サンプルが、当該再構築された第１の点群、当該グリッド、及び当該入力点群に基づいて、当該入力点群内の点の位置を示す、生成することと、を含む。データアレイ又はコードワードは圧縮され得る。データアレイは、ニューラルネットワークベースのオートエンコーダに関連付けられたエンコーダ、又は画像若しくはビデオエンコーダによって符号化することができる。

【0005】

別の実施形態によれば、点群データを復号するための装置が提示され、この装置は、１つ以上のプロセッサを備え、当該１つ以上のプロセッサは、規則的なグリッド上のサンプルを有するデータアレイにアクセスすることであって、当該データアレイ内の各サンプルが点群内の点の位置を示す、アクセスすることと、当該データアレイに応答して当該点群を再構築することと、を行うように構成されている。データアレイは、ニューラルネットワークベースのオートエンコーダに関連付けられたデコーダ、又は画像若しくはビデオデコーダによって復号され得る。加えて、当該点群の初期表現を提供するコードワードが復号され得、当該点群は、当該コードワードに更に応答して再構築される。本装置は、当該当該１つ以上のプロセッサに結合された少なくとも１つのメモリを更に含み得る。

【0006】

別の実施形態によれば、点群データを符号化するための装置が提示され、この装置は、１つ以上のプロセッサを備え、当該１つ以上のプロセッサは、第１のニューラルネットワークベースのモジュールによって、当該点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、第２のニューラルネットワークベースのモジュールによって、当該コードワード及びグリッドに基づいて、第１の点群を再構築することと、当該グリッド上にサンプルを有するデータアレイを生成することであって、当該データアレイ内の各サンプルが、当該再構築された第１の点群、当該グリッド、及び当該入力点群に基づいて、当該入力点群内の点の位置を示す、生成することと、を行うように構成されている。データアレイ又はコードワードは圧縮され得る。データアレイは、ニューラルネットワークベースのオートエンコーダに関連付けられたエンコーダ、又は画像若しくはビデオエンコーダによって符号化することができる。

【0007】

１つ以上の実施形態によりまた、１つ以上のプロセッサによって実行されたときに、１つ以上のプロセッサに、これまで述べた実施形態のいずれかによる符号化方法又は復号方法を行わせる命令を含む、コンピュータプログラムを提供する。また、本実施形態のうちの１つ以上により、これまで述べた方法により、点群データを符号化するか又は復号するための命令を記憶したコンピュータ可読記憶媒体を提供する。

【0008】

１つ以上の実施形態はまた、これまで述べた方法によって生成されたビットストリームを記憶したコンピュータ可読記憶媒体を提供する。１つ以上の実施形態によりまた、上で説明された方法に従って生成されたビットストリームを送信又は受信するための方法及び装置を提供する。

【図面の簡単な説明】

【0009】

【図1】本発明の実施形態の態様が実装され得るシステムのブロック図を例示する。

【図2】ＦｏｌｄｉｎｇＮｅｔのブロック図を例示する。

【図3】一実施形態による、ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒのブロック図を例示する。

【図4】ＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍのブロック図を例示する。

【図5】一実施形態による、ＰＮモジュールのためのネットワークアーキテクチャ設計の一例を例示する。

【図6】一実施形態による、ＦＮモジュールのためのネットワークアーキテクチャ設計の一例を例示する。

【図7】一実施形態による、ＵＦモジュールのための提案された図を例示する。

【図8】一実施形態による、ディファレンシャルＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒのブロック図を例示する。

【図9】一実施形態による、ディファレンシャルＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒにおけるＵＦモジュールのブロック図を例示する。

【図10】一実施形態による、ディファレンシャルＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒのための点群再構築のブロック図を例示する。

【図11】一実施形態による、提案されたＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎのブロック図を例示する。

【図12】一実施形態による、提案されたディファレンシャルＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎのブロック図を例示する。

【図13】一実施形態による、機械のための提案されたＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎのブロック図を例示する。

【図14】一実施形態による、機械のための提案されたディファレンシャルＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎのブロック図を例示する。

【発明を実施するための形態】

【0010】

図１は、様々な態様及び実施形態が実装され得るシステムの一例のブロック図を例示する。システム１００は、以下に記載の様々なコンポーネントを含むデバイスとして具現化され得、本明細書に記載の態様のうちの１つ以上を実行するように構成されている。かかるデバイスの実施例としては、これらに限定されないが、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ記録システム、コネクテッド家電、及びサーバなどの様々な電子デバイスが挙げられる。システム１００の要素は、単独で、又は組み合わせて、単一の集積回路、複数のＩＣ、及び／又は個別のコンポーネントで具現化され得る。例えば、少なくとも１つの実施形態では、システム１００の処理要素及びエンコーダ要素／デコーダ要素は、複数のＩＣ及び／又は別個のコンポーネントにわたって分散している。様々な実施形態では、システム１００は、例えば、通信バスを介して、又は専用の入力ポート及び／若しくは出力ポートを通じて、他のシステム、又は他の電子デバイスに通信可能に結合される。様々な実施形態では、システム１００は、本出願に記載された態様のうちの１つ以上を実装するように構成される。

【0011】

システム１００は、例えば、本出願に記載された様々な態様を実装するために、内部にロードされた命令を実行するように構成された、少なくとも１つのプロセッサ１１０を含む。プロセッサ１１０は、埋め込み型メモリ、入力出力インターフェース、及び当該技術分野で既知であるように様々な他の回路を含み得る。システム１００は、少なくとも１つのメモリ１２０（例えば、揮発性メモリデバイス及び／又は不揮発性メモリデバイス）を含む。システム１００は、記憶デバイス１４０を含み、この記憶デバイスは、限定されるものではないが、ＥＥＰＲＯＭ、ＲＯＭ、ＰＲＯＭ、ＲＡＭ、ＤＲＡＭ、ＳＲＡＭ、フラッシュ、磁気ディスクドライブ、及び／若しくは光ディスクドライブを含む、不揮発性メモリ並びに／又は揮発性メモリを含み得る。記憶デバイス１４０は、非限定的な例として、内部記憶デバイス、取り付け型記憶デバイス、及び／又はネットワークアクセス可能な記憶デバイスを含み得る。

【0012】

システム１００は、例えば、データを処理して、符号化ビデオ又は復号ビデオを提供するように構成されたエンコーダ／デコーダモジュール１３０を含み、そのエンコーダ／デコーダモジュール１３０は、それ自体のプロセッサ及びメモリを含み得る。エンコーダ／デコーダモジュール１３０は、符号化機能及び／又は復号機能を実行するためにデバイス内に含まれ得るモジュールを表す。既知であるように、デバイスは、符号化及び復号モジュールのうちの一方又は両方を含み得る。加えて、エンコーダ／デコーダモジュール１３０は、システム１００の別個の要素として実装され得るか、又は当業者に知られているように、ハードウェアとソフトウェアの組み合わせとしてプロセッサ１１０内に組み込まれ得る。

【0013】

本出願に記載の様々な態様を実行するためにプロセッサ１１０又はエンコーダ／デコーダ１３０上にロードされるプログラムコードは、記憶デバイス１４０内に記憶され、その後、プロセッサ１１０による実行のためにメモリ１２０上にロードされ得る。様々な実施形態によれば、プロセッサ１１０、メモリ１２０、記憶デバイス１４０、及びエンコーダ／デコーダモジュール１３０のうちの１つ以上は、本出願に記載されるプロセスの実行中に、様々な項目のうちの１つ以上を記憶し得る。かかる記憶された項目は、限定されるものではないが、入力ビデオ、復号ビデオ、又は復号ビデオの一部分、ビットストリーム、行列、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含み得る。

【0014】

いくつかの実施形態では、プロセッサ１１０及び／又はエンコーダ／デコーダモジュール１３０の内部のメモリを使用して、命令を記憶するため、及び符号化又は復号中に必要とされる処理のためのワーキングメモリを提供する。しかしながら、他の実施形態では、処理デバイス（例えば、処理デバイスは、プロセッサ１１０又はエンコーダ／デコーダモジュール１３０のいずれかであり得る）の外部のメモリが、これらの機能のうちの１つ以上のために使用される。外部メモリは、メモリ１２０及び／又は記憶デバイス１４０、例えば、ダイナミック揮発性メモリ及び／又は不揮発性フラッシュメモリであり得る。いくつかの実施形態では、外部不揮発性フラッシュメモリが、テレビのオペレーティングシステムを記憶するために使用される。少なくとも一実施形態では、ＲＡＭなどの高速外部ダイナミック揮発性メモリが、ＭＰＥＧ－２、ＨＥＶＣ、又はＶＶＣなどのビデオコーディング動作及び復号動作のためのワーキングメモリとして使用される。

【0015】

システム１００の要素への入力は、ブロック１０５に示されるように、様々な入力デバイスを通して提供され得る。このような入力デバイスとしては、（ｉ）例えば、放送局によって無線で送信されるＲＦ信号を受信するＲＦ部、（ｉｉ）コンポジット入力端子、（ｉｉｉ）ＵＳＢ入力端子、及び／又は（ｉｖ）ＨＤＭＩ入力端子が挙げられるが、これらに限定されない。

【0016】

様々な実施形態では、ブロック１０５の入力デバイスは、当該技術分野で既知の、関連付けられたそれぞれの入力処理要素を有する。例えば、ＲＦ部分は、（ｉ）所望の周波数を選択することと（また信号を選択する、又は信号を周波数帯域に帯域制限するとも称される）、（ｉｉ）選択された信号をダウンコンバートすることと、（ｉｉｉ）特定の実施形態で、（例えば）チャネルとして称され得る信号周波数帯域を選択するために、再度より狭い周波数帯域に帯域制限することと、（ｉｖ）ダウンコンバート及び帯域制限された信号を復調することと、（ｖ）誤り訂正を実行することと、（ｖｉ）データパケットの所望のストリームを選択するために多重分離することと、に対して好適な要素に関連付けられ得る。様々な実施形態のＲＦ部分は、これらの機能を実行する１つ以上の要素、例えば、周波数セレクタ、信号セレクタ、バンドリミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、誤差訂正器、及びデマルチプレクサを含む。ＲＦ部分は、これらの様々な機能を実行するチューナを含み得、例えば、受信した信号をより低い周波数（例えば、中間周波数、若しくは近接ベースバンド周波数）に、又はベースバンドにダウンコンバートすることが含まれる。セットトップボックスの一実施形態では、ＲＦ部とその関連する入力処理要素は、有線（例えば、ケーブル）媒体上で送信されたＲＦ信号を受信し、フィルタ処理し、ダウンコンバートし、また所望の周波数帯域に再びフィルタ処理することによって、周波数選択を行う。様々な実施形態では、上で説明される（及び他の）要素の順序を並べ替える、これらの要素の一部を削除する、並びに／又は、類似若しくは異なる機能を実行する他の要素を追加する。要素を追加することは、既存の要素の間に要素を挿入すること、例えば、増幅器及びアナログ－デジタル変換器を挿入することを含み得る。様々な実施形態において、ＲＦ部分は、アンテナを含む。

【0017】

加えて、ＵＳＢ及び／又はＨＤＭＩ端子は、ＵＳＢ及び／又はＨＤＭＩ接続を介してシステム１００を他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含み得る。入力処理の様々な態様、例えば、リードソロモン誤り訂正は、例えば、必要に応じて、別個の入力処理ＩＣ内又はプロセッサ１１０内に実装され得ることを理解されたい。同様に、ＵＳＢ又はＨＤＭＩインターフェース処理の態様は、必要に応じて、別個のインターフェースＩＣ内又はプロセッサ１１０内に実装され得る。例えば、プロセッサ１１０、並びにメモリ及び記憶要素と組み合わせて動作するエンコーダ／デコーダ１３０を含む様々な処理要素に、復調され、誤り訂正され、逆多重化されたストリームを提供して、出力デバイス上に提示するために、必要に応じて、データストリームを処理する。

【0018】

システム１００の様々な要素は、統合されたハウジング内に提供され得、統合されたハウジング内では、様々な要素は、好適な接続構成１１５、例えば、Ｉ２Ｃバス、配線、及びプリント回路基板を含む、当該技術分野で既知の内部バスを使用して相互に接続され、互いの間でデータを伝送し得る。

【0019】

システム１００は、通信チャネル１９０を介して他のデバイスとの通信を可能にする通信インターフェース１５０を含む。通信インターフェース１５０は、限定されるものではないが、通信チャネル１９０を介してデータを送信及び受信するように構成された送受信機を含み得る。通信インターフェース１５０は、限定されるものではないが、モデム又はネットワークカードを含み得、通信チャネル１９０は、例えば、有線及び／又は無線媒体内に実装され得る。

【0020】

データは、様々な実施形態において、ＩＥＥＥ８０２．１１などのＷｉ－Ｆｉネットワークを使用して、システム１００にストリーミングされる。これらの実施形態のＷｉ－Ｆｉ信号は、Ｗｉ－Ｆｉ通信用に適合された通信チャネル１９０及び通信インターフェース１５０によって受信される。これらの実施形態の通信チャネル１９０は、典型的には、ストリーミングアプリケーション及び他のオーバーザトップ通信を可能にするためにインターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施形態では、入力ブロック１０５のＨＤＭＩ接続によってデータを配信するセットトップボックスを使用して、システム１００にストリーミングされたデータを提供する。更に他の実施形態では、入力ブロック１０５のＲＦ接続を使用して、システム１００にストリーミングされたデータを提供する。

【0021】

システム１００は、出力信号を、ディスプレイ１６５、スピーカ１７５、及び他の周辺デバイス１８５を含む、様々な出力デバイスに提供し得る。他の周辺デバイス１８５は、実施形態の様々な例において、スタンドアロンＤＶＲ、ディスクプレーヤ、ステレオシステム、照明システム、及びシステム１００の出力に基づいて機能を提供する他のデバイス、のうちの１つ以上を含む。様々な実施形態では、制御信号は、ＡＶ．Ｌｉｎｋ、ＣＥＣ、又はユーザ介入の有無に関わらずデバイス間制御を可能にする他の通信プロトコルなどのシグナリングを使用して、システム１００と、ディスプレイ１６５、スピーカ１７５、又は他の周辺デバイス１８５との間で通信される。出力デバイスは、それぞれのインターフェース１６０、１７０、及び１８０を通じた専用接続を介してシステム１００に通信可能に結合され得る。代替的に、出力デバイスは、通信インターフェース１５０を介し、通信チャネル１９０を使用して、システム１００に接続され得る。ディスプレイ１６５及びスピーカ１７５は、例えば、テレビなどの電子デバイスにおいて、システム１００の他のコンポーネントとともに単一ユニットに統合され得る。様々な実施形態では、ディスプレイインターフェース１６０は、ディスプレイドライバ、例えば、タイミングコントローラ（timing controller、ＴＣｏｎ）チップを含む。

【0022】

ディスプレイ１６５及びスピーカ１７５は、代替的に、例えば、入力１０５のＲＦ部分が個別のセットトップボックスの一部である場合、他のコンポーネントのうちの１つ以上から分離され得る。ディスプレイ１６５及びスピーカ１７５が外部コンポーネントである様々な実施形態では、出力信号は、例えば、ＨＤＭＩポート、ＵＳＢポート、又はＣＯＭＰ出力を含む、専用の出力接続を介して提供され得る。

【0023】

点群データは、例えば、５Ｇネットワークを介したコネクテッドカー間の、及び没入型通信（ＶＲ／ＡＲ）などの、ネットワークトラフィックの大部分を消費し得ると考えられる。効率的な表現フォーマットは、点群の理解及び通信に必要である。特に、生の点群データは、世界モデリング及び感知の目的で、適切に編成及び処理される必要がある。生の点群の圧縮は、関連するシナリオにおいてデータの記憶及び送信が必要とされる場合に不可欠である。

【0024】

更に、点群は、複数の移動する物体を含む同じシーンの連続表現を表す場合がある。それらは、静的シーン又は静的物体から捕捉される静的点群と比べて、動的点群と呼ばれる。動的点群は、異なるフレームが、異なる時間に捕捉されるフレームに編成されてもよい。動的点群は、処理及び圧縮がリアルタイム又は低遅延であることを必要とし得る。

【0025】

自動車産業及び自動走行車は、点群が使用され得る分野である。自動走行車は、それらの環境を「探査」し、それらのすぐ周囲の現実に基づいて、良好な運転判断を行うことが可能であるべきである。ＬｉＤＡＲのような代表的なセンサは、認知エンジンによって使用される（動的）点群を生成する。これらの点群は、人間の眼で見ることが意図されておらず、それらは、通常、スパースで、必ずしも色分けされておらず、高い捕捉頻度で動的である。それらの点群は、ＬｉＤＡＲによって提供される反射率のような他の属性を有し得、これは、この属性が、感知される物体の材料を示し、その判断を下すことに役立ち得るためである。

【0026】

仮想現実（ＶＲ）及び没入型世界が、２Ｄ平面ビデオの未来として多くの人によって予見されている。ＶＲ及び没入型世界の場合、視聴者は、視聴者の前方にある仮想世界を眺めることしかできない標準的なＴＶとは対照的に、視聴者の周り全体の環境に没入する。環境内の視聴者の自由度に応じて、没入性には、いくつかの段階がある。点群は、仮想現実世界を配信するための良好なフォーマット候補である。ＶＲにおいて使用される点群は、静的又は動的であり得、典型的には、平均サイズ、例えば、１回につき、せいぜい数百万点のものである。

【0027】

点群はまた、文化遺産／建造物などの様々な目的に使用され得、そこにある彫像又は建物のような対象物を３Ｄでスキャンして、対象物を送付又は訪問せずに、対象物の空間的な構成を共有する。また、対象物が破壊され得る場合、例えば、地震により寺院が破壊され得る場合、点群は、対象物の知識の保全を確実にするために使用され得る。このような点群は、通常、静的であり、色分けされており、かつ膨大である。

【0028】

別の使用事例は、地形学及びマップ製作法におけるものであり、その場合、３Ｄ表現を使用して、マップが平面に限定されず、起伏を含むことができる。ＧｏｏｇｌｅＭａｐｓは、３Ｄマップの良い例であるが、点群の代わりにメッシュを使用している。それにもかかわらず、点群は、３Ｄマップのための好適なデータ形式であり得、そのような点群は、通常、静的であり、色分けされており、かつ膨大である。

【0029】

点群を介した世界モデリング及び感知は、本明細書で考察されるアプリケーションのために、機械が機械の周りの３Ｄ世界についての知識を得ることを可能にする有用な技術であり得る。

【0030】

３Ｄ点群データは、本質的に、対象物又はシーンの表面上の別個のサンプルである。現実世界を点サンプルで完全に表現するためには、実際には膨大な数の点が必要である。例えば、典型的なＶＲ没入型シーンは、数百万の点を含むが、点群は、典型的には、数億の点を含む。したがって、そのような大規模点群の処理は、特に、限定された計算能力を有する消費者デバイス、例えば、スマートフォン、タブレット、及び自動車ナビゲーションシステムにとって、計算コストが高い。

【0031】

点群上で処理又は推論を実行するために、効率的な記憶方法が必要とされる。手頃な計算コストで入力点群を記憶及び処理するために、１つの解決策は、点群を最初にダウンサンプリングすることであり、ダウンサンプリングされた点群は、非常に少ない点を有しながら入力点群の幾何形状を要約する。ダウンサンプリングされた点群は、次いで、更なる消費のために後続の機械タスクに供給される。しかしながら、記憶空間の更なる削減は、可逆圧縮のためのエントロピ符号化技法を通して、生の点群データ（元の又はダウンサンプリングされた）をビットストリームに変換することによって達成することができる。より良いエントロピモデルは、より小さいビットストリームをもたらし、したがって、より効率的な圧縮をもたらす。加えて、エントロピモデルを、エントロピエンコーダが圧縮しながらタスク固有の情報を維持することを可能にする下流タスクと対にすることもできる。

【0032】

可逆符号化に加えて、多くのシナリオでは、特定の品質レベル下で誘発された歪みを維持しながら圧縮率を大幅に改善するために不可逆符号化が求められる。

【0033】

点群圧縮（point cloud compression、ＰＣＣ）は、点群内に含まれる対象物の表面マニホールドを簡潔に表現する問題に言及する。点群圧縮に関するいくつかの分野が調査されており、入力領域におけるＰＣＣ、プリミティブ領域におけるＰＣＣ、変換領域におけるＰＣＣ、及び最後にエントロピ符号化によるＰＣＣというカテゴリに広く分類することができる。入力領域におけるＰＣＣは、基礎となる表面マニホールドを表す新規のキー点を選択又は生成することによって生の点群をダウンサンプリングすることを指す。いくつかの学習された（深層学習ベースの）及び古典的機械学習技法が、この領域に存在するが、入力領域における多くのＰＣＣは、ネットワークが規則的畳み込みを行うように制限されるため、高密度点群にのみ好適である。プリミティブ領域におけるＰＣＣの場合、基礎となる対象物マニホールドに密接に従うことを目的とするキー点プリミティブ（規則的な幾何学的２Ｄ／３Ｄ形状）が生成される。変換領域におけるＰＣＣは、生の点群データが最初に古典的な方法を介して別の領域に変換され、次いで、新しい領域における変換された表現が圧縮されてより効率的な圧縮を得る場合を指す。いくつかの作業は変換として解釈することができるが、それらを圧縮システムに適用することは非自明である。最後に、エントロピ符号化を介したＰＣＣの場合、生の点群データ又は点群の別の（自明に取得された）表現のいずれかが、適応学習ベースの方法又は古典的方法のいずれかを介してエントロピ符号化される。

【0034】

一般に、検知モダリティから取得された生の点群データは、効率的に記憶される必要がある膨大な数の組織化されていない点を含む。しかしながら、点群データの不規則性及びスパース性は、圧縮を困難にする。

【0035】

本出願は、ＪＰＥＧ、ＭＰＥＧＡＶＣ／ＨＥＶＣ／ＶＶＣなどの一般的な変換ベースの手法を用いて圧縮することができる２Ｄ画像として不規則な点群を編成することを提案するため、変換ベースのＰＣＣに関する。一実施形態では、ニューラルネットワークに基づいて、入力点群を規則的な組織化されたグリッド構造上に展開（unfold）して、点群データの効率的な符号化を達成する。

【0036】

ＦｏｌｄｉｎｇＮｅｔ
ＦｏｌｄｉｎｇＮｅｔは、教師なし学習を介した、高レベルコンピュータビジョン問題、例えば、分類／セグメント化の文脈において開発されたオートエンコーダである。

【0037】

図２は、変換（エンコーダ）及び逆変換（デコーダ）を強調するために簡略化したＦｏｌｄｉｎｇＮｅｔの図を示す。用語を圧縮の文脈に合わせるために、オートエンコーダ内のエンコーダ／デコーダを意図的に「変換」／「逆変換」と改名したことに留意されたい。

【0038】

２Ｄ表面上の事前定義されたサンプリングパターンに基づく画像である２Ｄグリッド構造が、ＦｏｌｄｉｎｇＮｅｔの逆変換（デコーダ）に導入される。一実施形態では、それは、正方形領域において規則的にサンプリングされた２Ｄ座標を表す２チャネル画像である。別の実施形態では、それは、２Ｄ球上で規則的にサンプリングされた座標からなる。

【0039】

元の点群ＰＣ_０（Ｍ個の点）を所与として、変換モジュールＰＮ（２１０）は、潜在空間においてコードワードＣＷを生成する。ここで、潜在空間とは、抽象的な多次元特徴空間を指し、コードワードＣＷは、点群を表す特徴ベクトルである。典型的には、コードワードは、点群の高レベル記述又は大まかな表現を提供することができる。

【0040】

次に、モジュールＦＮ（２２０）は、逆変換処理を行う。それは、コードワードＣＷに加えて入力として２Ｄグリッドをとり、入力ＰＣ_０に近い別の点群ＰＣ_１を再構築しようと試みる。２Ｄグリッドは、Ｎ＝Ｗ×Ｈ個のグリッド点を含み、式中、Ｗ及びＨは、グリッド画像の幅及び高さである。図２では、２Ｄグリッド画像は正方形の形状を有する。より一般的には、２Ｄグリッドは、２Ｄ球又は２Ｄ矩形などの他の形状をとることができる。グリッド点は、２Ｄ画像内の２Ｄグリッド点ではなく３Ｄグリッド点であってもよい。ＦＮモジュール（２２０）は、具体的には、２Ｄグリッド上の各点を、再構築された点群内の１つの３Ｄ点にマッピングする。ＦＮモジュールから出力される点群ＰＣ_１は、Ｎ個の点を含み、Ｎは必ずしもＭに等しいわけではない。直観的に、ＦＮモジュールは、事前定義された２Ｄ領域を再構築に「折り畳む」。２Ｄグリッド構造を埋め込む／利用することによって、ＦｏｌｄｉｎｇＮｅｔは、エンドツーエンドトレーニングを介して様々な点群を再構築することができる。

【0041】

点群のための提案されたＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒ
ＦｏｌｄｉｎｇＮｅｔの設計は、コードワードＣＷの高レベルの表現可能性を促進する。ＣＷ単独では、点群内の細かい詳細を再構築することは困難であり、すなわち、各個別の点を正確に再構築することは困難である。したがって、ＦｏｌｄｉｎｇＮｅｔからのコードワードＣＷを単独で圧縮することは、高レベルの表現可能性に加えて点ごとの歪みも問題となる点群圧縮問題の解決にはならない。

【0042】

この課題に対処するために、ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒが提案されている。ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒは、生の入力点群を通常の画像上に直接埋め込む（又は展開する）。コードワードＣＷと比較して、ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒからの画像表現は、点群の詳細な情報を含む。更に、画像データフォーマットは高密度で組織化されているので、点群圧縮などの下流処理により好適である。

【0043】

一実施形態では、入力点群を展開するために、ＦＮモジュールを利用して、図３に示すような新たに提案されたＵＦモジュールを促進することが提案される。特に、ＦＮモジュール（３１０）による再構築ＰＣ’は、入力ＰＣ_０へのマッピングを確立するために使用され、次いで、ＵＦモジュール（３２０）は、識別されたマッピングに基づいて、入力ＰＣ_０を２Ｄグリッド（３３０）上に展開する。ＵＦ出力ＸＹＺ（３４０）内の各点を用いて、元の入力ＰＣ_０からの点の位置を表している。これは本質的にＰＣ_０の組織化されたバージョンである。ＸＹＺの点数は、ＰＣ_０の点数と同じでなくてもよいことに留意されたい。

【0044】

具体的には、ＵＦモジュール（３２０）は、ＰＣ_０、再構築ＰＣ’及びその対応する２Ｄグリッドを入力としてとる。それは最初に、ＰＣ’内の各点をＰＣ_０内の点とマッチングする。ＰＣ’からの点Ｐ’がＰＣ_０からの点Ｐ_０とマッチングされたと仮定すると、Ｐ_０の３Ｄ座標は、Ｐ’に関連付けられた２Ｄグリッド位置（すなわち、再構築された点群ＰＣ’内の点Ｐ’にマッピングされる２Ｄグリッド位置）上に置かれる。このようにして、２Ｄグリッド上の３チャネル画像ＸＹＺが展開出力として構築される。より一般的な使用事例では、３Ｄ座標だけでなく、色、法線、反射率などの他の点属性も２Ｄグリッド上に置かれる。その場合、２Ｄグリッド上のＫチャネル画像（一般性を失うことなく依然としてＸＹＺとして示される）を、展開出力として構築することができる。一般に、展開出力は、２Ｄグリッド上のサンプルを有するデータアレイとして見ることができ、各サンプルは、点属性、例えば、３Ｄ位置、色、法線、及び／又は反射率を示すＫ個の成分を含む。

【0045】

ＦＮモジュールは、その出力ＰＣ’を通じてＰＣ_０とＰＣ’との間のマッピングをガイドすることに留意されたい。これは、ＸＹＺ画像が滑らかさを維持するのを助け、すなわち、ＰＣ_０内の２つの隣接する点は、ＸＹＺ画像内で隣接する可能性が高くなる。

【0046】

展開されたＸＹＺ画像は、圧縮タスクに有用であるだけでなく、画像領域から点群領域へのニューラルネットワークベースの手法をもたらすことを可能にする。なぜなら、組織化されていない点群を３チャネル画像フォーマットで表すことができるからである。特に、画像領域における多くのニューラルネットワークベースの方法は、点群タスクに直接適用することができないピクセル配列フォーマットに依存する。しかしながら、提案されるＵＦモジュールによって、生成されたＸＹＺ画像は、通常の画像を処理するニューラルネットワーク、例えば、畳み込みニューラルネットワーク（convolutional neural network、ＣＮＮ）に直接供給され得る。

【0047】

提案されたＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒは、「Ｌｅａｒｎｉｎｇ－ＢａｓｅｄＰｏｉｎｔＣｌｏｕｄＣｏｍｐｒｅｓｓｉｏｎＶｉａＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍ」と題された共同所有の米国仮出願第６３／１８１，２７０号（代理人整理番号２０２１ＰＦ００１３０）に記載されているようなＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍ（及びＴｅａｒｉｎｇＣｏｍｐｒｅｓｓｉｏｎ）に関連する。ＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍ（及びＴｅａｒｉｎｇＣｏｍｐｒｅｓｓｉｏｎ）はまた、入力点群を細かい詳細を伴って再構築することを目的とする。ＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍの図を図４に示す。ＸＹＺ座標を２Ｄグリッド上に直接置く代わりに、ＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍ（又はＴｅａｒｉｎｇＣｏｍｐｒｅｓｓｉｏｎ）は、ニューラルネットワークモジュールＴＮ（４２０）を用いてＵＶ_１画像（４３０）を推定する。この画像は、２Ｄグリッド上の元の点位置（ＵＶ_０、４１０）を修正する。これは、入力としてＵＶ_１を用いてＦＮモジュール（４４０）の別の反復によって３Ｄ再構築における誤差を補償することを目的とする。しかしながら、入力点群が複雑すぎてＴＮモジュールが高品質のＵＶ_１画像を出力できない場合、ＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍは忠実な再構築を提供できない。そのような場合、ＴＮモジュールを実行する代わりにＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒに切り替えて、３Ｄ点を２Ｄグリッドに直接置き、高品質の点群再構築を保証することが提案される。

【0048】

ＴｅａｒｉｎｇＮｅｔにおけるＵＶ画像は、逆トランスフォーマ（デコーダ）内に導入され、更新される。ＵＶ画像は、特定の解像度の２Ｄサンプリンググリッドに基づいて定義される。一実施形態では、ＵＶ画像内の２つのチャネルは、２Ｄ空間内の座標を表す。別の実施形態では、それらは、２Ｄ空間におけるそれらのデフォルト位置に対する座標オフセットを表す。

【0049】

ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒにおける提案されたＰＮのためのネットワークアーキテクチャ
図５は、ＰＮモジュールの詳細なアーキテクチャの一例を例示しており、入力点群ＰＣ_０（５１０）を入力としてとり、潜在空間においてコードワードＣＷ（５７０）（の転置）を出力する。特に、入力点群ＰＣ_０は、Ｍ個の点を含み、各点Ｐは、その３Ｄ位置（ｘ_ｐ，ｙ_ｐ，ｚ_ｐ）によって表される。色又は法線などの追加の属性も点群データに含めることができる。ＰＮモジュールは、共有ＭＬＰ（Ｍｕｌｔｉ－ｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ（マルチレイヤパーセプトロン）、５２０）のセットから構成される。パーセプトロンは、各３Ｄ点に独立して並列に適用される（括弧内の数字はレイヤサイズを示す）。共有ＭＬＰのセットの出力である点特徴（５３０、Ｍ×１０２４）は、長さ１０２４を有するグローバル特徴（５５０）を抽出するグローバル最大値プーリング動作（５４０）によって集約される。それは、ＭＬＰレイヤの別のセットで更に処理され（５６０）、長さ５１２を有する出力コードワードＣＷ（５７０）をもたらす。

【0050】

ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒにおける提案されたＦＮのためのネットワークアーキテクチャ
図６は、ＦＮモジュールの詳細な設計の一例を例示しており、コードワードＣＷ及び２Ｄグリッドを入力としてとり、再構築された３Ｄ点群ＰＣ’を出力する。ここで、ＦＮモジュールは、２つの系列の共有ＭＬＰレイヤ（６４０、６７０）から構成される。ＦＮモジュールは、コードワードによってガイドされる２Ｄから３Ｄへのマッピングとして見ることができ、２Ｄグリッド画像内のＮ個のグリッド点は、再構築された点群の表面上のＭ個の点にマッピングされる。Ｎグリッド点からマッピングされたＰＣ’内の再構築された各点について、入力点群ＰＣ_０からの３Ｄ点が、例えば、最近傍探索に基づいて識別される。

【0051】

コードワードはＮ回複製され、結果として生じるＮ×５１２行列（６１０）は、２Ｄグリッド内のＮ個のグリッド点を含むＮ×２行列（６２０）と連結される。連結の結果は、サイズＮ×５１４行列（６３０）であり、これは、第１の系列の共有ＭＬＰレイヤ（６４０）に供給されて、サイズＮ×３行列（６５０）を出力する。次いで、複製されたコードワードは、Ｎ×３出力（６５０）に連結されて、サイズＮ×５１５（６６０）行列を形成し、これは、第２の系列の共有ＭＬＰレイヤ（６７０）に供給される。最終出力ＰＣ’（６８０）は、Ｎ×３行列によって表される再構築された点群であり、式中、Ｎは、出力点群ＰＣ’内の点の数である。

【0052】

ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒにおける提案されたＵＦモジュール
図７は、一実施形態による、ＵＦモジュールのブロック図を示す。それがいかなる学習可能なニューラルネットワークパラメータも有さない決定論的モジュールであることに留意されたい。

【0053】

ＰＣ’内の各点Ｐ’について、対応する点Ｐ_０が、最初に、例えば、ＮＮモジュール（７１０）を使用して、最近傍探索を介して識別される。点Ｐ’は、ＦＮモジュールについて前述したように、２Ｄグリッド内の２Ｄ点（ｕ’，ｖ’）に対応することに留意されたい。言い換えれば、２Ｄ位置（ｕ’，ｖ’）は、Ｐ’を介してインデックス付け／検索することができる。次いで、ＵＦモジュールは、Ｐ_０＝（ｘ_０，ｙ_０，ｚ_０）の座標を、Ｐ’に関連付けられた２Ｄグリッド位置（ｕ’，ｖ’）上に置く、すなわち、ＸＹＺ（ｕ’，ｖ’，１）＝ｘ_０、ＸＹＺ（ｕ’，ｖ’，２）＝ｙ_０、及びＸＹＺ（ｕ’，ｖ’，３）＝ｚ_０である。ＰＣ’内の各点についてこの演算を実行すると、３チャネル画像であるＵＦ出力ＸＹＺが得られる。

【0054】

一実施形態では、３Ｄ座標Ｐ_０＝（ｘ_０，ｙ_０，ｚ_０）を除いて、３Ｄ点Ｐ_０に関連付けられた他の特徴、例えば、限定されるものではないが、色（ＲＧＢ）、法線ベクトル、及び反射率も、２Ｄグリッド位置（ｕ’，ｖ’）上に置かれて、ＸＹＺ画像を形成する。例えば、ＸＹＺ（ｕ’，ｖ’，４）＝Ｒ、ＸＹＺ（ｕ’，ｖ’，５）＝Ｇ、ＸＹＺ（ｕ’，ｖ’，６）＝Ｂ、ＸＹＺ（ｕ’，ｖ’，７）＝ｎ_ｘ、ＸＹＺ（ｕ’，ｖ’，８）＝ｎ_ｙ、ＸＹＺ（ｕ’，ｖ’，９）＝ｎ_ｚ、及びＸＹＺ（ｕ’，ｖ’，１０）＝ｒであり、ここで、（Ｒ，Ｇ，Ｂ）は、Ｐ_０における色であり、（ｎ_ｘ，ｎ_ｙ，ｎ_ｚ）は、Ｐ_０における法線ベクトルであり、ｒは、Ｐ_０における反射率である。この実施形態では、ＸＹＺ画像は、３Ｄ座標並びに他の点特徴を含み、すなわち、ＸＹＺ画像は、Ｋ＞３であるＫチャネル画像である。

【0055】

以上、ＰＮモジュール、ＦＮモジュール、ＵＦモジュールの例について説明する。これらのモジュールは、異なるネットワーク構造又は構成を使用することができることに留意されたい。例えば、ＭＬＰ次元は、実際のシナリオの複雑さに従って調整されてもよく、又はＭＬＰのより多くのセットが使用されてもよい。一般に、入力／出力要件を満たす任意のネットワーク構造を使用することができる。

【0056】

ディファレンシャルＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒ
先の実施形態では、ＸＹＺ画像はＰＣ_０の唯一の表現として機能する。この実施形態では、入力点群は、コードワードＣＷと、ΔＸＹＺとして示される別の３チャネル画像とに分解される。コードワードＣＷは、点群の大まかな形状を再構築するために使用され、ΔＸＹＺは、大まかな再構築に加えて細かい詳細を表す。図８は、ディファレンシャルＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒと呼ばれるこの実施形態のブロック図を示す。これは符号化／変換プロセスに類似している。

【0057】

ディファレンシャルＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒにおいて、ＵＦモジュールは、ＰＣ_０とＰＣ’との間の残差を計算し、その残差を画像ΔＸＹＺ上に置く。したがって、ＣＷ及びΔＸＹＺは、一緒にＰＣ_０を表し、ΔＸＹＺは、誤差を補償するために使用される。

【0058】

図９は、一実施形態による、ディファレンシャルＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒにおけるＵＦモジュールの設計を示す。先の実施形態とは異なり、ここでは、ＵＦモジュールは、（Δｘ，Δｙ，Δｚ）＝（ｘ_０－ｘ’，ｙ_０－ｙ’，ｚ_０－ｚ’）として示される、マッチングされた点Ｐ_０＝（ｘ_０，ｙ_０，ｚ_０）（ＰＣ_０から）とクエリ点Ｐ’＝（ｘ’，ｙ’，ｚ’）（ＰＣ’から）との間の差を計算する（９１０）。この残差／差分ベクトルは、Ｐ’に関連付けられた２Ｄグリッド位置（ｕ’，ｖ’）上に置かれ、すなわち、ΔＸＹＺ（ｕ’，ｖ’，１）＝Δｘ、ΔＸＹＺ（ｕ’，ｖ’，２）＝Δｙ、及びΔＸＹＺ（ｕ’，ｖ’，３）＝Δｚである。このようにして、２Ｄグリッド上の３チャネル残差マップΔＸＹＺが、ＵＦモジュールの出力として構築される。

【0059】

ＸＹＺ画像表現と同様に、ΔＸＹＺも、より多くの情報を含むことができる。一般に、ディファレンシャル展開出力は、２Ｄグリッド上のサンプルを有するデータアレイとして見ることができ、各サンプルは、最初の３つの成分がΔｘ、Δｙ、及びΔｚ（３Ｄ位置の残差）を含むＫ個の成分を含み、残りの成分は、他の属性、例えば、ＲＧＢ色、法線ベクトル、及び反射率を含む。

【0060】

図１０は、一実施形態による、ＣＷ及びΔＸＹＺから点群を再構築する（復号又は逆変換する）ためのプロセスを示す。最初に、ＦＮモジュール（１０２０）は、コードワードＣＷ（１０１０）及び２Ｄグリッド（１０４０）を入力としてとり、大まかな形状ＰＣ’を再構築する。次に、残差マップΔＸＹＺ（１０５０）をＰＣ’に加算する（１０３０）ことによって、再構築ＰＣ_１が取得される。このステップは、ＰＣ’内の各点とΔＸＹＺ画像内の対応する残差ベクトルとを加算することに留意されたい。

【0061】

提案された圧縮フレームワーク：ＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎ
この実施形態では、学習ベースの点群圧縮システムにおいてＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒを適用することが提案される。提案されたＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎの全体図を図１１に示す。単一の出力ＸＹＺを有するＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒと比較して、ＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎは、更に、ＸＹＺ画像をビットストリームに圧縮する（１１１０）。

【0062】

一実施形態では、ＸＹＺ画像の圧縮は、最先端の画像／ビデオ圧縮方法、例えば、ＪＰＥＧ、ＭＰＥＧＡＶＣ／ＨＥＶＣ／ＶＶＣに基づくことができる。前述したように、点位置（｛Ｘ，Ｙ，Ｚ｝又は｛ΔＸ，ΔＹ，ΔＺ｝）を示す情報は、各位置を示すパラメータが３つのチャネルのうちの１つで搬送される３チャネル画像に構成され得る。量子化（１１１０）は、例えば、ＸＹＺ画像内の浮動小数点数を２Ｄビデオエンコーダによって使用されるデータフォーマットに変換するために、圧縮の前に実行される。また、調整をしないと、ＸＹＺ画像及びΔＸＹＺ画像の両方が負の値を有する可能性があるが、それらを正規化し、それらのダイナミックレンジを事前定義された間隔に収めてから、それらをコーデックに送信することができる。一実施形態では、最初に、ｍｉｎ_ｋ及びｍａｘ_ｋによって表される、ＸＹＺ（又はΔＸＹＺ）画像の各チャネルの最小値及び最大値を計算し、式中、ｋは、１～Ｋの範囲である。次いで、ＸＹＺ画像の各チャネルを、例えば、［０，２５５］の範囲に正規化してから、コーデックに供給する。この場合、復号を容易にするために、各チャネルの最小値ｍｉｎ_ｋ及び最大値ｍａｘ_ｋがメタデータとして送信される必要がある。最小値及び最大値は、浮動小数点数であってもよく、また負の値をとることができることに留意されたい。

【0063】

別の実施形態では、圧縮は、均一なノイズを追加することによって量子化動作を近似する、因数分解された事前モデル又はスケールハイパープライアモデルに基づく変分オートエンコーダなど、ニューラルネットワークベースの方法であり得る。それは、エンドツーエンドトレーニングのために微分可能ビットレートＲ_ＸＹＺを生成する。ＸＹＺ画像又はΔＸＹＺ画像内の隣接するサンプルは、通常、元の点群内の隣接する点を表すので、通常、隣接するサンプル間には強い相関がある。したがって、ＸＹＺ画像及びΔＸＹＺ画像は、（修正されていない）標準画像及びビデオコーデックを用いて効率的に符号化されるであろうことが予想される。

【0064】

デコーダ側では、入力としてＸＹＺ画像のビットストリームが提供されると、ＸＹＺ画像が復号される（１１２０）。再構築ＰＣ_１は、単にＸＹＺ画像上の３Ｄ点である。メタデータも受信される別の実施形態では、再構築もまた、受信されたメタデータに依存する。例えば、各チャネルの最小値ｍｉｎ_ｋ及び最大値ｍａｘ_ｋがデコーダ側で受信されるとき、それらは、再構築ＰＣ_１の各チャネルをそれらの元の範囲の値にスケールバックさせるために使用される。

【0065】

別の実施形態では、図１２に示すように、ディファレンシャルＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒがＰＣＣに適用され、これをディファレンシャルＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎと呼ぶ。この実施形態では、（量子化された）潜在コードＣＷ’及び３チャネル画像ΔＸＹＺの両方が、ビットストリームとして符号化される必要がある。符号化中にＦＮモジュールに供給される前に、量子化プロセス（Ｑ_ＣＷ、１２１０）がコードワードＣＷに適用されて、量子化された符号化ワードＣＷ’が取得されることに留意されたい。一例では、ＣＷ’＝ｒｏｕｎｄｉｎｇ（ＣＷ／ＱＳ）であり、式中、ＱＳは選択された量子化ステップである。量子化の動機の１つは、ＦＮモジュールへの入力を符号化ステージと復号ステージの両方で同じにすることである。

【0066】

この実施形態では、ΔＸＹＺ画像の圧縮（１２３０）は、ＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎのＸＹＺ画像（図１１）と同様に行うことができる。ニューラルネットワークベースの方法が適用されるとき、それは、エンドツーエンドトレーニングのために微分可能ビットレートＲ_ΔＸＹＺを生成する。コードワードＣＷの圧縮（１２２０）は、因数分解された事前モデルに基づく変分オートエンコーダなどのニューラルネットワークベースのモジュールであることができる。それは、エンドツーエンドトレーニングのために微分可能ビットレートＲ_ＣＷを出力する。

【0067】

入力として、コードワードＣＷ’及びΔＸＹＺ画像上のビットストリームが提供されると、デコーダは、最初に符号化シンボルからのＣＷ’及びΔＸＹＺを再構築し（１２４０、１２５０）、次いで、ＣＷ’をＦＮモジュール（１２６０）に供給し、ＦＮモジュールは、コードワードＣＷ及び２Ｄグリッドの両方の入力を得て、予備的な点群ＰＣ’を再構築する。次に、残差ΔＸＹＺをＰＣ’に戻して加算して（１２７０）、再構築ＰＣ_１を取得する。デコーダは、コードワードＣＷ及びグリッド画像を生成するために使用された圧縮方法に対応する解凍方法を使用することに留意されたい。

【0068】

例示的な図１２において、コードワード及びＸＹＺ画像には別個のビットストリームがある。Δこれらのビットストリームが単一のビットストリームに多重化され得ることに留意されたい。

【0069】

ＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍ又はＴｅａｒｉｎｇＣｏｍｐｒｅｓｓｉｏｎとの連携
この実施形態では、点群再構築システムを形成するためにＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒをＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍとともに適用することが提案される。概して、ＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍは、入力点群の点がかなり規則的な分布を示す場合に良好に機能する。しかしながら、入力点群がＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍのＴＮモジュール（図４）に対して疎すぎる場合、ＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍは忠実な点群再構築の生成に失敗する可能性がある。例えば、予備再構築ＰＣ’と元の入力ＰＣ_０との間の面取り距離がある事前定義された閾値よりも大きい場合、それは、生の入力ＰＣ_０が困難なものであること、例えば、非常にノイズが多いもの、又はニューラルネットワークモジュールＰＮ、ＦＮ、及びＴＮがトレーニング中に見られなかった、新規の領域からのものであることを意味する。この場合、ＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍを使用するのではなく、ＵｎｆｏｌｄｉｎｇＴｒａｎｓｆｏｒｍに切り替える。この場合、ＴｅａｒｉｎｇＴｒａｎｓｆｏｒｍ（図４）においてＴＮ及び第２のＦＮを実行する代わりに、ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒ（図３）のＵＦモジュールに切り替え、これは、元の３Ｄ点を２Ｄグリッドに直接置くため正確な再構築を保証する。

【0070】

同じ論理的根拠で、点群圧縮システムを形成するために、ＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎをＴｅａｒｉｎｇＣｏｍｐｒｅｓｓｉｏｎとともに適用することが提案される。具体的には、ＴｅａｒｉｎｇＣｏｍｐｒｅｓｓｉｏｎがＴＮモジュールの故障のために高品質の復号された点群を生成することができないとき、システムは、提案されたＵＦモジュールに切り替えて正確な再構築を保証する。

【0071】

トレーニング方法
ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒのためのトレーニング方法
図３のＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒは、自己教師あり方式でトレーニングすることができる。一実施形態において、それは、ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒを取得するための２つのステップからなる。第１のステップでは、ＰＮモジュールとＦＮモジュールとからなるＦｏｌｄｉｎｇＮｅｔ（図２）がトレーニングされる。損失関数は、入力点群ＰＣ_０と出力点群ＰＣ_１との間の誤差メトリック、例えば、面取り距離（ｃｈａｍｆｅｒｄｉｓｔａｎｃｅ、ＣＤ）又はアースムーバ距離（ｅａｒｔｈｍｏｖｅｒｄｉｓｔａｎｃｅ、ＥＭＤ）に基づいて定義される。第２のステップでは、ＰＮモジュール及びＦＮモジュールの事前トレーニングされたパラメータがＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒにロードされる。ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒ内のＵＦモジュールは、ＦＮ出力ＰＣ’に従って入力点群を展開するものであり、学習可能なパラメータを含まないので、ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒは、この第２のステップにおいて追加の微調整を必要としない。ディファレンシャルＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒの場合、トレーニング方法は同じである。

【0072】

ＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎのためのトレーニング方法
ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒのトレーニング方法は、図１１のＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎをトレーニングするために以下のように拡張することができる。ＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒと比較して、ＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎは、点群を出力することに加えてビットストリームを出力する余剰なヘッドを有する。したがって、以下のＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎの２段階ストラテジを以下のように拡張する。

【0073】

第１段階では、ＦｏｌｄｉｎｇＮｅｔ（ＰＮ及びＦＮ）が最初に前述と同じようにトレーニングされる。第２段階では、ＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎでのエンドツーエンドトレーニングが行われる。ＰＮモジュール及びＦＮモジュールは、第１段階で学習されたパラメータを用いて初期化される。次いで、レート歪み損失がトレーニングのために使用される。具体的には、ＰＣ_０とＰＣ_１との間の、ＣＤ又はＥＭＤによって測定される再構築品質は、以下に示すように、ＸＹＺビットストリームのビットレートによって正規化される。

【0074】

【数1】

式中、

【0075】

【数2】

は、再構築メトリックであり、Ｒ_ＸＹＺは、ＸＹＺ画像のビットレートであり、一方λは、レートＲ_ＸＹＺ及び歪みメトリック

【0076】

【数3】

をトレードオフする係数である。

【0077】

ディファレンシャルＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎの場合、潜在コードＣＷのための追加のビットストリームが必要となる。すると、トレーニング損失は以下のようになる。

【0078】

【数4】

式中、Ｒ_ＣＷは、ＣＷビットストリームであり、μは、その重要性のバランスをとるための追加係数である。

【0079】

機械のための符号化
多くの場合、圧縮された点群は、人間の目によって視認されるだけでなく、機械指向のタスク、例えば、分類又はセグメント化のためにも視認される。そのようなシナリオでは、本発明者らの提案は、機械タスクを実行するために更に拡張される。

【0080】

機械タスクのためのＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎを適用する図を図１３に提示する。この場合、復号されたＸＹＺ画像、すなわちＸＹＺ’は、復号された点群ＰＣ_１の表現としての機能を果たす。したがって、ＸＹＺ’画像は、分類（１３１０）のような下流タスクに供給することができる。この追加のヘッドは、コード化及び分類の性能間のトレードオフのための余剰な教師を提供する。

【0081】

提案されるディファレンシャルＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎはまた、図１４に示されるように、機械タスクのために拡張することができる。このシナリオでは、復号された潜在コードＣＷ’は、予備的な点群を再構築することに加えて、点群の高レベル記述としての役割を果たす。一方、ΔＸＹＺ画像は、点群内の微細な詳細に依然として関係している。コードワードＣＷのそのような二重の役割は、人間の知覚の必要性と機械タスクとの間のトレードオフを可能にする。例えば、コードワードＣＷは、図１４に示されるような分類（１４１０）のような下流タスクに供給されてもよい。同様に、この追加のヘッドは、コード化及び分類の性能間のトレードオフのための余剰な教師を提供する。

【0082】

ブロックベースのＰＣＣ
上記の実施形態では、符号化される入力点群は、完全な点群フレームである。別の実施形態では、最初に完全な点群フレームをより小さい点群ブロックに分割することが提案される。次いで、点群ブロックは、入力点群を処理するのに必要な複雑さを制限するために、提案されたＵｎｆｏｌｄｉｎｇＯｐｅｒａｔｏｒ又はＵｎｆｏｌｄｉｎｇＣｏｍｐｒｅｓｓｉｏｎに入力として供給される。一実施形態では、例えばＪＰＥＧ、ＭＰＥＧＡＶＣ／ＨＥＶＣ／ＶＶＣなどの最先端の画像／ビデオ圧縮方法を用いて小さな点群ブロックのＸＹＺ（又はΔＸＹＺ）画像を圧縮するために、ＸＹＺ（又はΔＸＹＺ）画像は大きな画像にタイル化される。タイル化は、関連付けられた３Ｄブロックのモートン順序、又は別の事前定義された順序に基づくことができる。タイル化はまた、例えば、隣接する画像ブロックにわたる差を最小限にすることによって、誘導された大きな画像を下流の画像／ビデオコーデックに対してよりフレンドリにするように構成することができる。動的点群がシステムに供給される場合、既存のビデオコーデックでコード化することができる一連のタイル化されたＸＹＺ（又はΔＸＹＺ）画像が得られる。

【0083】

本出願において、様々な数値が使用されている。具体的な値は、例示目的のためであり、記載の態様は、これらの具体的な値に限定されない。

【0084】

本明細書に説明される実装形態及び態様は、例えば、方法又はプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装され得る。たとえ単一の形式の実装形態の文脈でのみ考察されている場合でも（例えば、方法としてのみ考察されている）、考察された特徴の実装形態は、他の形式（例えば、装置又はプログラム）でも実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。本方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型／パーソナルデジタルアシスタント（personal digital assistant、「ＰＤＡ」）及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。

【0085】

「一実施形態」若しくは「ある実施形態」又は「一実装形態」若しくは「ある実装形態」、並びにそれらの他の変形形態への言及は、その実施形態に関連して説明する特定の特徴、構造、特性などが、少なくとも１つの実施形態に含まれることを意味する。したがって、本出願全体を通して様々な場所に現れる「一実施形態では」若しくは「ある実施形態では」又は「一実装形態では」若しくは「ある実装形態では」、並びに他の変形形態という句が現れるとき、必ずしも全てが同じ実施形態を指しているのではない。

【0086】

加えて、本出願は、様々な情報を「判定すること」に言及し得る。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの１つ以上が含み得る。

【0087】

更に、本出願は、様々な情報に「アクセスすること」に言及し得る。情報にアクセスすることには、例えば、情報を受信すること、情報を（例えば、メモリから）取り出すこと、情報を記憶すること、情報を移動させること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの１つ以上が含まれ得る。

【0088】

加えて、本出願は、様々な情報を「受信すること」に言及し得る。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は情報を（例えば、メモリから）取り出すことのうちの１つ以上を含み得る。更に、「受信すること」は、典型的には、動作、例えば、情報を記憶すること、情報を処理すること、情報を送信すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することの間に、何らかの形で関与する。

【0089】

例えば、「Ａ／Ｂ」、「Ａ及び／又はＢ（Ａａｎｄ／ｏｒＢ）」及び「Ａ及びＢのうちの少なくとも１つ（at least one of A and B）」の場合、次の「／」、「及び／又は（and/or）」、及び「のうちの少なくとも１つ（at least one of）」のいずれかの使用は、第１のリストされた選択肢（Ａ）のみの選択、又は第２のリストされた選択肢（Ｂ）のみの選択、又は両方の選択肢（Ａ及びＢ）の選択を包含することが意図されていることを理解されるべきである。更なる実施例として、「Ａ、Ｂ、及び／又はＣ（A，B，and/or C）」及び「Ａ、Ｂ、及びＣのうちの少なくとも１つ（at least one of A，B，and C）」の場合、かかる表現は、第１のリストされた選択肢（Ａ）のみの選択、又は第２のリストされた選択肢（Ｂ）のみの選択、又は第３のリストされた選択肢（Ｃ）のみの選択、又は第１及び第２のリストされた選択肢（Ａ及びＢ）のみの選択、又は第１及び第３のリストされた選択肢（Ａ及びＣ）のみの選択、又は第２及び第３のリストされた選択肢のみの選択（Ｂ及びＣ）のみ、又は３つ全ての選択肢の選択（Ａ及びＢ及びＣ）を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。

【0090】

当業者には明らかであるように、実装形態は、例えば、記憶又は送信され得る情報を搬送するようにフォーマットされた様々な信号を生成し得る。情報は、例えば、方法を実行するための命令又は記載された実装形態のうちの１つによって生成されたデータを含み得る。例えば、信号は、記載された実施形態のビットストリームを搬送するようにフォーマットされ得る。かかる信号は、例えば、（例えば、スペクトルの無線周波数部分を使用して）電磁波として、又はベースバンド信号としてフォーマットされ得る。フォーマットすることは、例えば、データストリームを符号化し、符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する信号は、例えば、アナログ情報又はデジタル情報であり得る。信号は、知られているように、様々な異なる有線又は無線リンクによって送信され得る。信号は、プロセッサ可読媒体に記憶され得る。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【手続補正書】

【提出日】2024-02-26

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

点群データを復号するための方法であって、
ニューラルネットワークベースのオートエンコーダに関連付けられたデコーダ、又は画像若しくはビデオデコーダによって、規則的なグリッド上のサンプルを有するデータアレイを復号することであって、前記データアレイ内の各サンプルが、少なくとも点群内の点の位置を示す、復号することと、
前記データアレイに応答して前記点群を再構築することと、を含む、方法。

【請求項2】

前記点群の表現を提供するコードワードにアクセスすることであって、前記点群が、前記コードワードに更に応答して再構築される、アクセスすることを更に含む、請求項１に記載の方法。

【請求項3】

前記データアレイ内の各サンプルが、前記点群内の点の位置と、再構築された前記点群の初期バージョン内のそれぞれの点の位置との間の差を示す、請求項２に記載の方法。

【請求項4】

ニューラルネットワークベースのモジュールを使用して、前記規則的なグリッド及び前記コードワードに基づいて、再構築された前記点群の前記初期バージョンを生成することであって、前記点群を再構築するために、再構築された前記点群の前記初期バージョンが前記データアレイに追加される、生成することを更に含む、請求項２に記載の方法。

【請求項5】

前記画像又はビデオデコーダによって、少なくとも画像又はビデオを復号することと、
前記点群データの位置の範囲を示すデータを復号することであって、復号された前記画像又はビデオが、前記点群を再構築するために前記位置の範囲に応じてスケーリングされる、復号することと、を更に含む、請求項１に記載の方法。

【請求項6】

【請求項7】

【請求項8】

前記グリッド内の前記対応する位置に関連付けられた前記サンプルが、前記入力点群の前記対応する点の前記位置と、再構築された前記第１の点群の前記対応する点の位置との間の差を示す、請求項７に記載の方法。

【請求項9】

前記第２のニューラルネットワークベースのモジュールが、少なくともレイヤの第１のセット及びレイヤの第２のセットを含み、前記レイヤの第１のセットが、前記コードワード及び前記グリッドに応答し、前記レイヤの第２のセットが、前記レイヤの第１のセットの出力及び前記コードワードに応答する、請求項６に記載の方法。

【請求項10】

前記レイヤの第１のセットが、共有ＭＬＰの第１のセットに対応し、前記レイヤの第２のセットが、共有ＭＬＰの第２のセットに対応する、請求項９に記載の方法。

【請求項11】

少なくとも１つのメモリ及び１つ以上のプロセッサを備える装置であって、前記１つ以上のプロセッサが、
ニューラルネットワークベースのオートエンコーダに関連付けられたデコーダ、又は画像若しくはビデオデコーダによって、規則的なグリッド上のサンプルを有するデータアレイを復号することであって、前記データアレイ内の各サンプルが、少なくとも点群内の点の位置を示す、復号することと、
前記データアレイに応答して前記点群を再構築することと、を行うように構成されている、装置。

【請求項12】

前記１つ以上のプロセッサが、
前記点群の表現を提供するコードワードにアクセスすることであって、前記点群が、前記コードワードに更に応答して再構築される、アクセスすることを行うように更に構成されている、請求項１１に記載の装置。

【請求項13】

前記データアレイ内の各サンプルが、前記点群内の点の位置と、再構築された前記点群の初期バージョン内のそれぞれの点の位置との間の差を示す、請求項１１に記載の装置。

【請求項14】

前記１つ以上のプロセッサが、
ニューラルネットワークベースのモジュールを使用して、前記規則的なグリッド及び前記コードワードに基づいて、再構築された前記点群の前記初期バージョンを生成することであって、前記点群を再構築するために、再構築された前記点群の前記初期バージョンが前記データアレイに追加される、生成することを行うように更に構成されている、請求項１３に記載の装置。

【請求項15】

前記１つ以上のプロセッサが、
前記画像又はビデオデコーダによって、少なくとも画像又はビデオを復号することと、
前記点群データの位置の範囲を示すデータを復号することであって、復号された前記画像又はビデオが、前記点群を再構築するために前記位置の範囲に応じてスケーリングされる、復号することと、を行うように更に構成されている、請求項１１に記載の装置。

【請求項16】

少なくとも１つのメモリ及び１つ以上のプロセッサを備える、点群データを符号化するための装置であって、前記１つ以上のプロセッサが、
第１のニューラルネットワークベースのモジュールによって、前記点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、
第２のニューラルネットワークベースのモジュールによって、前記コードワード及びグリッドに基づいて、第１の点群を再構築することと、
前記グリッド上にサンプルを有するデータアレイを生成することであって、前記データアレイ内の各サンプルが、再構築された前記第１の点群、前記グリッド、及び前記入力点群に基づいて、前記入力点群内の点の位置を示す、生成することと、
前記データアレイを、ニューラルネットワークベースのオートエンコーダに関連付けられたエンコーダ、又は画像若しくはビデオエンコーダによって圧縮することと、を行うように構成されている、装置。

【請求項17】

前記１つ以上のプロセッサが、
再構築された前記第１の点群内の各点について、前記入力点群から対応する点を識別することと、
再構築された前記第１の点群内の各点について、前記グリッド内の対応する位置をインデックス付けすることと、を行うように更に構成されており、
前記グリッド内の前記対応する位置に関連付けられたサンプルが、前記入力点群の前記対応する点の位置を示す、請求項１６に記載の装置。

【請求項18】

前記グリッド内の前記対応する位置に関連付けられた前記サンプルが、前記入力点群の前記対応する点の前記位置と、再構築された前記第１の点群の前記対応する点の位置との間の差を示す、請求項１７に記載の装置。

【請求項19】

前記第２のニューラルネットワークベースのモジュールが、少なくともレイヤの第１のセット及びレイヤの第２のセットを含み、前記レイヤの第１のセットが、前記コードワード及び前記グリッドに応答し、前記レイヤの第２のセットが、前記レイヤの第１のセットの出力及び前記コードワードに応答する、請求項１６に記載の装置。

【請求項20】

前記レイヤの第１のセットが、共有ＭＬＰの第１のセットに対応し、前記レイヤの第２のセットが、共有ＭＬＰの第２のセットに対応する、請求項１９に記載の装置。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版