IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターデイジタル パテント ホールディングス インコーポレイテッドの特許一覧

特表2024-5275133D点群の展開による学習ベースの点群圧縮
<>
  • 特表-3D点群の展開による学習ベースの点群圧縮 図1
  • 特表-3D点群の展開による学習ベースの点群圧縮 図2
  • 特表-3D点群の展開による学習ベースの点群圧縮 図3
  • 特表-3D点群の展開による学習ベースの点群圧縮 図4
  • 特表-3D点群の展開による学習ベースの点群圧縮 図5
  • 特表-3D点群の展開による学習ベースの点群圧縮 図6
  • 特表-3D点群の展開による学習ベースの点群圧縮 図7
  • 特表-3D点群の展開による学習ベースの点群圧縮 図8
  • 特表-3D点群の展開による学習ベースの点群圧縮 図9
  • 特表-3D点群の展開による学習ベースの点群圧縮 図10
  • 特表-3D点群の展開による学習ベースの点群圧縮 図11
  • 特表-3D点群の展開による学習ベースの点群圧縮 図12
  • 特表-3D点群の展開による学習ベースの点群圧縮 図13
  • 特表-3D点群の展開による学習ベースの点群圧縮 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-25
(54)【発明の名称】3D点群の展開による学習ベースの点群圧縮
(51)【国際特許分類】
   G06T 9/00 20060101AFI20240718BHJP
   H04N 19/85 20140101ALI20240718BHJP
【FI】
G06T9/00
H04N19/85
G06T9/00 200
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023578757
(86)(22)【出願日】2022-06-20
(85)【翻訳文提出日】2024-01-19
(86)【国際出願番号】 US2022034184
(87)【国際公開番号】W WO2022271602
(87)【国際公開日】2022-12-29
(31)【優先権主張番号】63/213,654
(32)【優先日】2021-06-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.HDMI
(71)【出願人】
【識別番号】510030995
【氏名又は名称】インターデイジタル パテント ホールディングス インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【弁理士】
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】パン、ジアハオ
(72)【発明者】
【氏名】ティアン、ドン
(72)【発明者】
【氏名】クアシュ、モリース
(72)【発明者】
【氏名】バレンツィーズ、ジュセッペ
(72)【発明者】
【氏名】デュフォー、フレデリック
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159LA02
5C159LC01
5C159MC11
5C159ME01
5C159NN32
5C159PP04
5C159RC11
5C159TA17
5C159TB06
5C159UA02
5C159UA05
(57)【要約】
一実装形態では、本発明者らは、組織化されていない入力3D点群を規則的な2Dグリッド上に展開/平坦化するUnfoldingOperatorを提案する。入力点群、入力2Dグリッド、及びFoldingNetによって生成された再構築された点群所与として、本発明者らの提案は、再構築された点群に基づいて入力点群を2Dグリッド上にマッピングし、3チャネル画像をもたらす。代替的に、点群を表すために画像のみを使用する代わりに、点群は、コードワード及び3チャネル残差画像に分解される。この残差画像は、元の入力から再構築された点群を減算することによって取得される。提案されるUnfoldingOperatorは、点群圧縮に適用することができ、UnfoldingCompressionと呼ばれる対応する圧縮システムをもたらす。UnfoldingCompressionは、TearingCompressionと連携することができ、その場合、UnfoldingCompression又はTearingCompressionのどちらを使用するかを適応的に選択することができる。
【特許請求の範囲】
【請求項1】
点群データを復号するための方法であって、
規則的なグリッド上のサンプルを有するデータアレイにアクセスすることであって、前記データアレイ内の各サンプルが点群内の点の位置を示す、アクセスすることと、
前記データアレイに応答して前記点群を再構築することと、を含む、方法。
【請求項2】
前記データアレイを、ニューラルネットワークベースのオートエンコーダに関連付けられたデコーダ、又は画像若しくはビデオデコーダによって復号することを更に含む、請求項1に記載の方法。
【請求項3】
前記点群の表現を提供するコードワードにアクセスすることであって、前記点群が、前記コードワードに更に応答して再構築される、アクセスすることを更に含む、請求項1又は2に記載の方法。
【請求項4】
前記データアレイ内の各サンプルが、前記点群内の点の位置と、再構築された前記点群の初期バージョン内のそれぞれの点の位置との間の差を示す、請求項3に記載の方法。
【請求項5】
ニューラルネットワークベースのモジュールを使用して、前記規則的なグリッド及び前記コードワードに基づいて、再構築された前記点群の前記初期バージョンを生成することであって、前記点群を再構築するために、再構築された前記点群の前記初期バージョンが前記データアレイに追加される、生成することを更に含む、請求項3又は4に記載の方法。
【請求項6】
前記コードワードが、ニューラルネットワークベースのオートエンコーダに関連付けられたデコーダによって復号される、請求項3~5のいずれか一項に記載の方法。
【請求項7】
前記データアレイ内の各サンプルが、色、法線ベクトル、及び反射率のうちの1つ以上を更に示す、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記ニューラルネットワークベースのモジュールが、少なくともレイヤの第1のセット及びレイヤの第2のセットを含み、前記レイヤの第1のセットが、前記コードワード及び前記規則的なグリッドに応答し、前記レイヤの第2のセットが、前記レイヤの第1のセットの出力及び前記コードワードに応答する、請求項5~7のいずれか一項に記載の方法。
【請求項9】
前記レイヤの第1のセットが、共有マルチレイヤパーセプトロン(MLP)の第1のセットに対応し、前記レイヤの第2のセットが、共有MLPの第2のセットに対応する、請求項8に記載の方法。
【請求項10】
前記コードワードが、潜在空間における前記点群を表す特徴ベクトルである、請求項3~9のいずれか一項に記載の方法。
【請求項11】
前記規則的なグリッドが、2D表面上で規則的にサンプリングされた2D座標を表す、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記2D表面が、長方形、正方形領域、又は2D球である、請求項11に記載の方法。
【請求項13】
前記画像又はビデオデコーダによって、少なくとも画像又はビデオを復号することと、
前記点群データの位置の範囲を示すデータを復号することであって、復号された前記画像又はビデオが、前記点群を再構築するために前記位置の範囲に応じてスケーリングされる、復号することと、を更に含む、請求項2~12のいずれか一項に記載の方法。
【請求項14】
点群データを符号化するための方法であって、
第1のニューラルネットワークベースのモジュールによって、前記点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、
第2のニューラルネットワークベースのモジュールによって、前記コードワード及びグリッドに基づいて、第1の点群を再構築することと、
前記グリッド上にサンプルを有するデータアレイを生成することであって、前記データアレイ内の各サンプルが、再構築された前記第1の点群、前記グリッド、及び前記入力点群に基づいて、前記入力点群内の点の位置を示す、生成することと、を含む、方法。
【請求項15】
前記データアレイを圧縮することを更に含む、請求項14に記載の方法。
【請求項16】
前記データアレイが、ニューラルネットワークベースのオートエンコーダに関連付けられたエンコーダ、又は画像若しくはビデオエンコーダによって符号化される、請求項15に記載の方法。
【請求項17】
前記コードワードを圧縮することを更に含む、請求項14~16のいずれか一項に記載の方法。
【請求項18】
前記コードワードが、ニューラルネットワークベースのオートエンコーダに関連付けられたエンコーダによって符号化される、請求項17に記載の方法。
【請求項19】
再構築された前記第1の点群内の各点について、前記入力点群から対応する点を識別することと、
再構築された前記第1の点群内の各点について、前記グリッド内の対応する位置をインデックス付けすることと、を更に含み、
前記グリッド内の前記対応する位置に関連付けられたサンプルが、前記入力点群の前記対応する点の位置を示す、請求項14~18のいずれか一項に記載の方法。
【請求項20】
前記グリッド内の前記対応する位置に関連付けられた前記サンプルが、前記入力点群の前記対応する点の前記位置と、再構築された前記第1の点群の前記対応する点の位置との間の差を示す、請求項19に記載の方法。
【請求項21】
前記第2のニューラルネットワークベースのモジュールが、少なくともレイヤの第1のセット及びレイヤの第2のセットを含み、前記レイヤの第1のセットが、前記コードワード及び前記グリッドに応答し、前記レイヤの第2のセットが、前記レイヤの第1のセットの出力及び前記コードワードに応答する、請求項14~20のいずれか一項に記載の方法。
【請求項22】
前記レイヤの第1のセットが、共有MLPの第1のセットに対応し、前記レイヤの第2のセットが、共有MLPの第2のセットに対応する、請求項21に記載の方法。
【請求項23】
前記コードワードが、潜在空間における前記入力点群を表す特徴ベクトルである、請求項14~22のいずれか一項に記載の方法。
【請求項24】
前記データアレイ内の各サンプルが、色、法線ベクトル、及び反射率のうちの1つ以上を更に示す、請求項14~23のいずれか一項に記載の方法。
【請求項25】
前記グリッドが、2D表面上で規則的にサンプリングされた2D座標を表す、請求項14~24のいずれか一項に記載の方法。
【請求項26】
前記2D表面が、長方形、正方形領域、又は2D球である、請求項25に記載の方法。
【請求項27】
前記点群データの位置の範囲を示すデータを圧縮することを更に含む、請求項15~26のいずれか一項に記載の方法。
【請求項28】
1つ以上のプロセッサと、前記1つ以上のプロセッサに結合された少なくとも1つのメモリとを備え、前記1つ以上のプロセッサは、請求項1~27のいずれか一項に記載の方法を実行するように構成されている、装置。
【請求項29】
請求項14~27のいずれか一項に記載の方法を実行することによって形成される、ビットストリームを含む、信号。
【請求項30】
請求項1~27のいずれか一項に記載の方法に従って、点群を符号化又は復号するための命令を記憶した、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本実施形態は、概して、点群の圧縮及び処理のための方法及び装置に関する。
【背景技術】
【0002】
点群(point cloud、PC)データフォーマットは、例えば、自律運転、ロボット工学、拡張現実/仮想現実(augmented reality/virtual reality、AR/VR)、土木工学、コンピュータグラフィックスから、アニメーション/映画産業まで、いくつかのビジネス領域にわたる汎用データフォーマットである。3D LiDAR(Light Detection and Ranging)センサは、自動運転車に配備されており、手頃な価格のLiDARセンサが、例えば、Velodyne Velabit、Apple iPad Pro 2020、及びIntel RealSense LiDARカメラL515からリリースされている。センシング技術の進歩により、3D点群データは、これまで以上に実用的になり得、本明細書で考察されるアプリケーションにおいて究極のイネーブラであると期待されている。
【発明の概要】
【0003】
一実施形態によれば、点群データを復号するための方法が提供され、この方法は、規則的なグリッド上のサンプルを有するデータアレイにアクセスすることであって、当該データアレイ内の各サンプルが点群内の点の位置を示す、アクセスすることと、当該データアレイに応答して点群を再構築することと、を含む。データアレイは、ニューラルネットワークベースのオートエンコーダに関連付けられたデコーダ、又は画像若しくはビデオデコーダによって復号され得る。加えて、当該点群の初期表現を提供するコードワードが復号され得、当該点群は、当該コードワードに更に応答して再構築される。
【0004】
別の実施形態によれば、点群データを符号化するための方法が提供され、この方法は、第1のニューラルネットワークベースのモジュールによって、当該点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、第2のニューラルネットワークベースのモジュールによって、当該コードワード及びグリッドに基づいて、第1の点群を再構築することと、当該グリッド上にサンプルを有するデータアレイを生成することであって、当該データアレイ内の各サンプルが、当該再構築された第1の点群、当該グリッド、及び当該入力点群に基づいて、当該入力点群内の点の位置を示す、生成することと、を含む。データアレイ又はコードワードは圧縮され得る。データアレイは、ニューラルネットワークベースのオートエンコーダに関連付けられたエンコーダ、又は画像若しくはビデオエンコーダによって符号化することができる。
【0005】
別の実施形態によれば、点群データを復号するための装置が提示され、この装置は、1つ以上のプロセッサを備え、当該1つ以上のプロセッサは、規則的なグリッド上のサンプルを有するデータアレイにアクセスすることであって、当該データアレイ内の各サンプルが点群内の点の位置を示す、アクセスすることと、当該データアレイに応答して当該点群を再構築することと、を行うように構成されている。データアレイは、ニューラルネットワークベースのオートエンコーダに関連付けられたデコーダ、又は画像若しくはビデオデコーダによって復号され得る。加えて、当該点群の初期表現を提供するコードワードが復号され得、当該点群は、当該コードワードに更に応答して再構築される。本装置は、当該当該1つ以上のプロセッサに結合された少なくとも1つのメモリを更に含み得る。
【0006】
別の実施形態によれば、点群データを符号化するための装置が提示され、この装置は、1つ以上のプロセッサを備え、当該1つ以上のプロセッサは、第1のニューラルネットワークベースのモジュールによって、当該点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、第2のニューラルネットワークベースのモジュールによって、当該コードワード及びグリッドに基づいて、第1の点群を再構築することと、当該グリッド上にサンプルを有するデータアレイを生成することであって、当該データアレイ内の各サンプルが、当該再構築された第1の点群、当該グリッド、及び当該入力点群に基づいて、当該入力点群内の点の位置を示す、生成することと、を行うように構成されている。データアレイ又はコードワードは圧縮され得る。データアレイは、ニューラルネットワークベースのオートエンコーダに関連付けられたエンコーダ、又は画像若しくはビデオエンコーダによって符号化することができる。
【0007】
1つ以上の実施形態によりまた、1つ以上のプロセッサによって実行されたときに、1つ以上のプロセッサに、これまで述べた実施形態のいずれかによる符号化方法又は復号方法を行わせる命令を含む、コンピュータプログラムを提供する。また、本実施形態のうちの1つ以上により、これまで述べた方法により、点群データを符号化するか又は復号するための命令を記憶したコンピュータ可読記憶媒体を提供する。
【0008】
1つ以上の実施形態はまた、これまで述べた方法によって生成されたビットストリームを記憶したコンピュータ可読記憶媒体を提供する。1つ以上の実施形態によりまた、上で説明された方法に従って生成されたビットストリームを送信又は受信するための方法及び装置を提供する。
【図面の簡単な説明】
【0009】
図1】本発明の実施形態の態様が実装され得るシステムのブロック図を例示する。
図2】FoldingNetのブロック図を例示する。
図3】一実施形態による、UnfoldingOperatorのブロック図を例示する。
図4】TearingTransformのブロック図を例示する。
図5】一実施形態による、PNモジュールのためのネットワークアーキテクチャ設計の一例を例示する。
図6】一実施形態による、FNモジュールのためのネットワークアーキテクチャ設計の一例を例示する。
図7】一実施形態による、UFモジュールのための提案された図を例示する。
図8】一実施形態による、ディファレンシャルUnfoldingOperatorのブロック図を例示する。
図9】一実施形態による、ディファレンシャルUnfoldingOperatorにおけるUFモジュールのブロック図を例示する。
図10】一実施形態による、ディファレンシャルUnfoldingOperatorのための点群再構築のブロック図を例示する。
図11】一実施形態による、提案されたUnfoldingCompressionのブロック図を例示する。
図12】一実施形態による、提案されたディファレンシャルUnfoldingCompressionのブロック図を例示する。
図13】一実施形態による、機械のための提案されたUnfoldingCompressionのブロック図を例示する。
図14】一実施形態による、機械のための提案されたディファレンシャルUnfoldingCompressionのブロック図を例示する。
【発明を実施するための形態】
【0010】
図1は、様々な態様及び実施形態が実装され得るシステムの一例のブロック図を例示する。システム100は、以下に記載の様々なコンポーネントを含むデバイスとして具現化され得、本明細書に記載の態様のうちの1つ以上を実行するように構成されている。かかるデバイスの実施例としては、これらに限定されないが、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ記録システム、コネクテッド家電、及びサーバなどの様々な電子デバイスが挙げられる。システム100の要素は、単独で、又は組み合わせて、単一の集積回路、複数のIC、及び/又は個別のコンポーネントで具現化され得る。例えば、少なくとも1つの実施形態では、システム100の処理要素及びエンコーダ要素/デコーダ要素は、複数のIC及び/又は別個のコンポーネントにわたって分散している。様々な実施形態では、システム100は、例えば、通信バスを介して、又は専用の入力ポート及び/若しくは出力ポートを通じて、他のシステム、又は他の電子デバイスに通信可能に結合される。様々な実施形態では、システム100は、本出願に記載された態様のうちの1つ以上を実装するように構成される。
【0011】
システム100は、例えば、本出願に記載された様々な態様を実装するために、内部にロードされた命令を実行するように構成された、少なくとも1つのプロセッサ110を含む。プロセッサ110は、埋め込み型メモリ、入力出力インターフェース、及び当該技術分野で既知であるように様々な他の回路を含み得る。システム100は、少なくとも1つのメモリ120(例えば、揮発性メモリデバイス及び/又は不揮発性メモリデバイス)を含む。システム100は、記憶デバイス140を含み、この記憶デバイスは、限定されるものではないが、EEPROM、ROM、PROM、RAM、DRAM、SRAM、フラッシュ、磁気ディスクドライブ、及び/若しくは光ディスクドライブを含む、不揮発性メモリ並びに/又は揮発性メモリを含み得る。記憶デバイス140は、非限定的な例として、内部記憶デバイス、取り付け型記憶デバイス、及び/又はネットワークアクセス可能な記憶デバイスを含み得る。
【0012】
システム100は、例えば、データを処理して、符号化ビデオ又は復号ビデオを提供するように構成されたエンコーダ/デコーダモジュール130を含み、そのエンコーダ/デコーダモジュール130は、それ自体のプロセッサ及びメモリを含み得る。エンコーダ/デコーダモジュール130は、符号化機能及び/又は復号機能を実行するためにデバイス内に含まれ得るモジュールを表す。既知であるように、デバイスは、符号化及び復号モジュールのうちの一方又は両方を含み得る。加えて、エンコーダ/デコーダモジュール130は、システム100の別個の要素として実装され得るか、又は当業者に知られているように、ハードウェアとソフトウェアの組み合わせとしてプロセッサ110内に組み込まれ得る。
【0013】
本出願に記載の様々な態様を実行するためにプロセッサ110又はエンコーダ/デコーダ130上にロードされるプログラムコードは、記憶デバイス140内に記憶され、その後、プロセッサ110による実行のためにメモリ120上にロードされ得る。様々な実施形態によれば、プロセッサ110、メモリ120、記憶デバイス140、及びエンコーダ/デコーダモジュール130のうちの1つ以上は、本出願に記載されるプロセスの実行中に、様々な項目のうちの1つ以上を記憶し得る。かかる記憶された項目は、限定されるものではないが、入力ビデオ、復号ビデオ、又は復号ビデオの一部分、ビットストリーム、行列、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含み得る。
【0014】
いくつかの実施形態では、プロセッサ110及び/又はエンコーダ/デコーダモジュール130の内部のメモリを使用して、命令を記憶するため、及び符号化又は復号中に必要とされる処理のためのワーキングメモリを提供する。しかしながら、他の実施形態では、処理デバイス(例えば、処理デバイスは、プロセッサ110又はエンコーダ/デコーダモジュール130のいずれかであり得る)の外部のメモリが、これらの機能のうちの1つ以上のために使用される。外部メモリは、メモリ120及び/又は記憶デバイス140、例えば、ダイナミック揮発性メモリ及び/又は不揮発性フラッシュメモリであり得る。いくつかの実施形態では、外部不揮発性フラッシュメモリが、テレビのオペレーティングシステムを記憶するために使用される。少なくとも一実施形態では、RAMなどの高速外部ダイナミック揮発性メモリが、MPEG-2、HEVC、又はVVCなどのビデオコーディング動作及び復号動作のためのワーキングメモリとして使用される。
【0015】
システム100の要素への入力は、ブロック105に示されるように、様々な入力デバイスを通して提供され得る。このような入力デバイスとしては、(i)例えば、放送局によって無線で送信されるRF信号を受信するRF部、(ii)コンポジット入力端子、(iii)USB入力端子、及び/又は(iv)HDMI入力端子が挙げられるが、これらに限定されない。
【0016】
様々な実施形態では、ブロック105の入力デバイスは、当該技術分野で既知の、関連付けられたそれぞれの入力処理要素を有する。例えば、RF部分は、(i)所望の周波数を選択することと(また信号を選択する、又は信号を周波数帯域に帯域制限するとも称される)、(ii)選択された信号をダウンコンバートすることと、(iii)特定の実施形態で、(例えば)チャネルとして称され得る信号周波数帯域を選択するために、再度より狭い周波数帯域に帯域制限することと、(iv)ダウンコンバート及び帯域制限された信号を復調することと、(v)誤り訂正を実行することと、(vi)データパケットの所望のストリームを選択するために多重分離することと、に対して好適な要素に関連付けられ得る。様々な実施形態のRF部分は、これらの機能を実行する1つ以上の要素、例えば、周波数セレクタ、信号セレクタ、バンドリミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、誤差訂正器、及びデマルチプレクサを含む。RF部分は、これらの様々な機能を実行するチューナを含み得、例えば、受信した信号をより低い周波数(例えば、中間周波数、若しくは近接ベースバンド周波数)に、又はベースバンドにダウンコンバートすることが含まれる。セットトップボックスの一実施形態では、RF部とその関連する入力処理要素は、有線(例えば、ケーブル)媒体上で送信されたRF信号を受信し、フィルタ処理し、ダウンコンバートし、また所望の周波数帯域に再びフィルタ処理することによって、周波数選択を行う。様々な実施形態では、上で説明される(及び他の)要素の順序を並べ替える、これらの要素の一部を削除する、並びに/又は、類似若しくは異なる機能を実行する他の要素を追加する。要素を追加することは、既存の要素の間に要素を挿入すること、例えば、増幅器及びアナログ-デジタル変換器を挿入することを含み得る。様々な実施形態において、RF部分は、アンテナを含む。
【0017】
加えて、USB及び/又はHDMI端子は、USB及び/又はHDMI接続を介してシステム100を他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含み得る。入力処理の様々な態様、例えば、リードソロモン誤り訂正は、例えば、必要に応じて、別個の入力処理IC内又はプロセッサ110内に実装され得ることを理解されたい。同様に、USB又はHDMIインターフェース処理の態様は、必要に応じて、別個のインターフェースIC内又はプロセッサ110内に実装され得る。例えば、プロセッサ110、並びにメモリ及び記憶要素と組み合わせて動作するエンコーダ/デコーダ130を含む様々な処理要素に、復調され、誤り訂正され、逆多重化されたストリームを提供して、出力デバイス上に提示するために、必要に応じて、データストリームを処理する。
【0018】
システム100の様々な要素は、統合されたハウジング内に提供され得、統合されたハウジング内では、様々な要素は、好適な接続構成115、例えば、I2Cバス、配線、及びプリント回路基板を含む、当該技術分野で既知の内部バスを使用して相互に接続され、互いの間でデータを伝送し得る。
【0019】
システム100は、通信チャネル190を介して他のデバイスとの通信を可能にする通信インターフェース150を含む。通信インターフェース150は、限定されるものではないが、通信チャネル190を介してデータを送信及び受信するように構成された送受信機を含み得る。通信インターフェース150は、限定されるものではないが、モデム又はネットワークカードを含み得、通信チャネル190は、例えば、有線及び/又は無線媒体内に実装され得る。
【0020】
データは、様々な実施形態において、IEEE802.11などのWi-Fiネットワークを使用して、システム100にストリーミングされる。これらの実施形態のWi-Fi信号は、Wi-Fi通信用に適合された通信チャネル190及び通信インターフェース150によって受信される。これらの実施形態の通信チャネル190は、典型的には、ストリーミングアプリケーション及び他のオーバーザトップ通信を可能にするためにインターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施形態では、入力ブロック105のHDMI接続によってデータを配信するセットトップボックスを使用して、システム100にストリーミングされたデータを提供する。更に他の実施形態では、入力ブロック105のRF接続を使用して、システム100にストリーミングされたデータを提供する。
【0021】
システム100は、出力信号を、ディスプレイ165、スピーカ175、及び他の周辺デバイス185を含む、様々な出力デバイスに提供し得る。他の周辺デバイス185は、実施形態の様々な例において、スタンドアロンDVR、ディスクプレーヤ、ステレオシステム、照明システム、及びシステム100の出力に基づいて機能を提供する他のデバイス、のうちの1つ以上を含む。様々な実施形態では、制御信号は、AV.Link、CEC、又はユーザ介入の有無に関わらずデバイス間制御を可能にする他の通信プロトコルなどのシグナリングを使用して、システム100と、ディスプレイ165、スピーカ175、又は他の周辺デバイス185との間で通信される。出力デバイスは、それぞれのインターフェース160、170、及び180を通じた専用接続を介してシステム100に通信可能に結合され得る。代替的に、出力デバイスは、通信インターフェース150を介し、通信チャネル190を使用して、システム100に接続され得る。ディスプレイ165及びスピーカ175は、例えば、テレビなどの電子デバイスにおいて、システム100の他のコンポーネントとともに単一ユニットに統合され得る。様々な実施形態では、ディスプレイインターフェース160は、ディスプレイドライバ、例えば、タイミングコントローラ(timing controller、TCon)チップを含む。
【0022】
ディスプレイ165及びスピーカ175は、代替的に、例えば、入力105のRF部分が個別のセットトップボックスの一部である場合、他のコンポーネントのうちの1つ以上から分離され得る。ディスプレイ165及びスピーカ175が外部コンポーネントである様々な実施形態では、出力信号は、例えば、HDMIポート、USBポート、又はCOMP出力を含む、専用の出力接続を介して提供され得る。
【0023】
点群データは、例えば、5Gネットワークを介したコネクテッドカー間の、及び没入型通信(VR/AR)などの、ネットワークトラフィックの大部分を消費し得ると考えられる。効率的な表現フォーマットは、点群の理解及び通信に必要である。特に、生の点群データは、世界モデリング及び感知の目的で、適切に編成及び処理される必要がある。生の点群の圧縮は、関連するシナリオにおいてデータの記憶及び送信が必要とされる場合に不可欠である。
【0024】
更に、点群は、複数の移動する物体を含む同じシーンの連続表現を表す場合がある。それらは、静的シーン又は静的物体から捕捉される静的点群と比べて、動的点群と呼ばれる。動的点群は、異なるフレームが、異なる時間に捕捉されるフレームに編成されてもよい。動的点群は、処理及び圧縮がリアルタイム又は低遅延であることを必要とし得る。
【0025】
自動車産業及び自動走行車は、点群が使用され得る分野である。自動走行車は、それらの環境を「探査」し、それらのすぐ周囲の現実に基づいて、良好な運転判断を行うことが可能であるべきである。LiDARのような代表的なセンサは、認知エンジンによって使用される(動的)点群を生成する。これらの点群は、人間の眼で見ることが意図されておらず、それらは、通常、スパースで、必ずしも色分けされておらず、高い捕捉頻度で動的である。それらの点群は、LiDARによって提供される反射率のような他の属性を有し得、これは、この属性が、感知される物体の材料を示し、その判断を下すことに役立ち得るためである。
【0026】
仮想現実(VR)及び没入型世界が、2D平面ビデオの未来として多くの人によって予見されている。VR及び没入型世界の場合、視聴者は、視聴者の前方にある仮想世界を眺めることしかできない標準的なTVとは対照的に、視聴者の周り全体の環境に没入する。環境内の視聴者の自由度に応じて、没入性には、いくつかの段階がある。点群は、仮想現実世界を配信するための良好なフォーマット候補である。VRにおいて使用される点群は、静的又は動的であり得、典型的には、平均サイズ、例えば、1回につき、せいぜい数百万点のものである。
【0027】
点群はまた、文化遺産/建造物などの様々な目的に使用され得、そこにある彫像又は建物のような対象物を3Dでスキャンして、対象物を送付又は訪問せずに、対象物の空間的な構成を共有する。また、対象物が破壊され得る場合、例えば、地震により寺院が破壊され得る場合、点群は、対象物の知識の保全を確実にするために使用され得る。このような点群は、通常、静的であり、色分けされており、かつ膨大である。
【0028】
別の使用事例は、地形学及びマップ製作法におけるものであり、その場合、3D表現を使用して、マップが平面に限定されず、起伏を含むことができる。Google Mapsは、3Dマップの良い例であるが、点群の代わりにメッシュを使用している。それにもかかわらず、点群は、3Dマップのための好適なデータ形式であり得、そのような点群は、通常、静的であり、色分けされており、かつ膨大である。
【0029】
点群を介した世界モデリング及び感知は、本明細書で考察されるアプリケーションのために、機械が機械の周りの3D世界についての知識を得ることを可能にする有用な技術であり得る。
【0030】
3D点群データは、本質的に、対象物又はシーンの表面上の別個のサンプルである。現実世界を点サンプルで完全に表現するためには、実際には膨大な数の点が必要である。例えば、典型的なVR没入型シーンは、数百万の点を含むが、点群は、典型的には、数億の点を含む。したがって、そのような大規模点群の処理は、特に、限定された計算能力を有する消費者デバイス、例えば、スマートフォン、タブレット、及び自動車ナビゲーションシステムにとって、計算コストが高い。
【0031】
点群上で処理又は推論を実行するために、効率的な記憶方法が必要とされる。手頃な計算コストで入力点群を記憶及び処理するために、1つの解決策は、点群を最初にダウンサンプリングすることであり、ダウンサンプリングされた点群は、非常に少ない点を有しながら入力点群の幾何形状を要約する。ダウンサンプリングされた点群は、次いで、更なる消費のために後続の機械タスクに供給される。しかしながら、記憶空間の更なる削減は、可逆圧縮のためのエントロピ符号化技法を通して、生の点群データ(元の又はダウンサンプリングされた)をビットストリームに変換することによって達成することができる。より良いエントロピモデルは、より小さいビットストリームをもたらし、したがって、より効率的な圧縮をもたらす。加えて、エントロピモデルを、エントロピエンコーダが圧縮しながらタスク固有の情報を維持することを可能にする下流タスクと対にすることもできる。
【0032】
可逆符号化に加えて、多くのシナリオでは、特定の品質レベル下で誘発された歪みを維持しながら圧縮率を大幅に改善するために不可逆符号化が求められる。
【0033】
点群圧縮(point cloud compression、PCC)は、点群内に含まれる対象物の表面マニホールドを簡潔に表現する問題に言及する。点群圧縮に関するいくつかの分野が調査されており、入力領域におけるPCC、プリミティブ領域におけるPCC、変換領域におけるPCC、及び最後にエントロピ符号化によるPCCというカテゴリに広く分類することができる。入力領域におけるPCCは、基礎となる表面マニホールドを表す新規のキー点を選択又は生成することによって生の点群をダウンサンプリングすることを指す。いくつかの学習された(深層学習ベースの)及び古典的機械学習技法が、この領域に存在するが、入力領域における多くのPCCは、ネットワークが規則的畳み込みを行うように制限されるため、高密度点群にのみ好適である。プリミティブ領域におけるPCCの場合、基礎となる対象物マニホールドに密接に従うことを目的とするキー点プリミティブ(規則的な幾何学的2D/3D形状)が生成される。変換領域におけるPCCは、生の点群データが最初に古典的な方法を介して別の領域に変換され、次いで、新しい領域における変換された表現が圧縮されてより効率的な圧縮を得る場合を指す。いくつかの作業は変換として解釈することができるが、それらを圧縮システムに適用することは非自明である。最後に、エントロピ符号化を介したPCCの場合、生の点群データ又は点群の別の(自明に取得された)表現のいずれかが、適応学習ベースの方法又は古典的方法のいずれかを介してエントロピ符号化される。
【0034】
一般に、検知モダリティから取得された生の点群データは、効率的に記憶される必要がある膨大な数の組織化されていない点を含む。しかしながら、点群データの不規則性及びスパース性は、圧縮を困難にする。
【0035】
本出願は、JPEG、MPEG AVC/HEVC/VVCなどの一般的な変換ベースの手法を用いて圧縮することができる2D画像として不規則な点群を編成することを提案するため、変換ベースのPCCに関する。一実施形態では、ニューラルネットワークに基づいて、入力点群を規則的な組織化されたグリッド構造上に展開(unfold)して、点群データの効率的な符号化を達成する。
【0036】
FoldingNet
FoldingNetは、教師なし学習を介した、高レベルコンピュータビジョン問題、例えば、分類/セグメント化の文脈において開発されたオートエンコーダである。
【0037】
図2は、変換(エンコーダ)及び逆変換(デコーダ)を強調するために簡略化したFoldingNetの図を示す。用語を圧縮の文脈に合わせるために、オートエンコーダ内のエンコーダ/デコーダを意図的に「変換」/「逆変換」と改名したことに留意されたい。
【0038】
2D表面上の事前定義されたサンプリングパターンに基づく画像である2Dグリッド構造が、FoldingNetの逆変換(デコーダ)に導入される。一実施形態では、それは、正方形領域において規則的にサンプリングされた2D座標を表す2チャネル画像である。別の実施形態では、それは、2D球上で規則的にサンプリングされた座標からなる。
【0039】
元の点群PC(M個の点)を所与として、変換モジュールPN(210)は、潜在空間においてコードワードCWを生成する。ここで、潜在空間とは、抽象的な多次元特徴空間を指し、コードワードCWは、点群を表す特徴ベクトルである。典型的には、コードワードは、点群の高レベル記述又は大まかな表現を提供することができる。
【0040】
次に、モジュールFN(220)は、逆変換処理を行う。それは、コードワードCWに加えて入力として2Dグリッドをとり、入力PCに近い別の点群PCを再構築しようと試みる。2Dグリッドは、N=W×H個のグリッド点を含み、式中、W及びHは、グリッド画像の幅及び高さである。図2では、2Dグリッド画像は正方形の形状を有する。より一般的には、2Dグリッドは、2D球又は2D矩形などの他の形状をとることができる。グリッド点は、2D画像内の2Dグリッド点ではなく3Dグリッド点であってもよい。FNモジュール(220)は、具体的には、2Dグリッド上の各点を、再構築された点群内の1つの3D点にマッピングする。FNモジュールから出力される点群PCは、N個の点を含み、Nは必ずしもMに等しいわけではない。直観的に、FNモジュールは、事前定義された2D領域を再構築に「折り畳む」。2Dグリッド構造を埋め込む/利用することによって、FoldingNetは、エンドツーエンドトレーニングを介して様々な点群を再構築することができる。
【0041】
点群のための提案されたUnfoldingOperator
FoldingNetの設計は、コードワードCWの高レベルの表現可能性を促進する。CW単独では、点群内の細かい詳細を再構築することは困難であり、すなわち、各個別の点を正確に再構築することは困難である。したがって、FoldingNetからのコードワードCWを単独で圧縮することは、高レベルの表現可能性に加えて点ごとの歪みも問題となる点群圧縮問題の解決にはならない。
【0042】
この課題に対処するために、UnfoldingOperatorが提案されている。UnfoldingOperatorは、生の入力点群を通常の画像上に直接埋め込む(又は展開する)。コードワードCWと比較して、UnfoldingOperatorからの画像表現は、点群の詳細な情報を含む。更に、画像データフォーマットは高密度で組織化されているので、点群圧縮などの下流処理により好適である。
【0043】
一実施形態では、入力点群を展開するために、FNモジュールを利用して、図3に示すような新たに提案されたUFモジュールを促進することが提案される。特に、FNモジュール(310)による再構築PC’は、入力PCへのマッピングを確立するために使用され、次いで、UFモジュール(320)は、識別されたマッピングに基づいて、入力PCを2Dグリッド(330)上に展開する。UF出力XYZ(340)内の各点を用いて、元の入力PCからの点の位置を表している。これは本質的にPCの組織化されたバージョンである。XYZの点数は、PCの点数と同じでなくてもよいことに留意されたい。
【0044】
具体的には、UFモジュール(320)は、PC、再構築PC’及びその対応する2Dグリッドを入力としてとる。それは最初に、PC’内の各点をPC内の点とマッチングする。PC’からの点P’がPCからの点Pとマッチングされたと仮定すると、Pの3D座標は、P’に関連付けられた2Dグリッド位置(すなわち、再構築された点群PC’内の点P’にマッピングされる2Dグリッド位置)上に置かれる。このようにして、2Dグリッド上の3チャネル画像XYZが展開出力として構築される。より一般的な使用事例では、3D座標だけでなく、色、法線、反射率などの他の点属性も2Dグリッド上に置かれる。その場合、2Dグリッド上のKチャネル画像(一般性を失うことなく依然としてXYZとして示される)を、展開出力として構築することができる。一般に、展開出力は、2Dグリッド上のサンプルを有するデータアレイとして見ることができ、各サンプルは、点属性、例えば、3D位置、色、法線、及び/又は反射率を示すK個の成分を含む。
【0045】
FNモジュールは、その出力PC’を通じてPCとPC’との間のマッピングをガイドすることに留意されたい。これは、XYZ画像が滑らかさを維持するのを助け、すなわち、PC内の2つの隣接する点は、XYZ画像内で隣接する可能性が高くなる。
【0046】
展開されたXYZ画像は、圧縮タスクに有用であるだけでなく、画像領域から点群領域へのニューラルネットワークベースの手法をもたらすことを可能にする。なぜなら、組織化されていない点群を3チャネル画像フォーマットで表すことができるからである。特に、画像領域における多くのニューラルネットワークベースの方法は、点群タスクに直接適用することができないピクセル配列フォーマットに依存する。しかしながら、提案されるUFモジュールによって、生成されたXYZ画像は、通常の画像を処理するニューラルネットワーク、例えば、畳み込みニューラルネットワーク(convolutional neural network、CNN)に直接供給され得る。
【0047】
提案されたUnfoldingOperatorは、「Learning-Based Point Cloud Compression Via Tearing Transform」と題された共同所有の米国仮出願第63/181,270号(代理人整理番号2021PF00130)に記載されているようなTearingTransform(及びTearingCompression)に関連する。TearingTransform(及びTearingCompression)はまた、入力点群を細かい詳細を伴って再構築することを目的とする。TearingTransformの図を図4に示す。XYZ座標を2Dグリッド上に直接置く代わりに、TearingTransform(又はTearingCompression)は、ニューラルネットワークモジュールTN(420)を用いてUV画像(430)を推定する。この画像は、2Dグリッド上の元の点位置(UV、410)を修正する。これは、入力としてUVを用いてFNモジュール(440)の別の反復によって3D再構築における誤差を補償することを目的とする。しかしながら、入力点群が複雑すぎてTNモジュールが高品質のUV画像を出力できない場合、TearingTransformは忠実な再構築を提供できない。そのような場合、TNモジュールを実行する代わりにUnfoldingOperatorに切り替えて、3D点を2Dグリッドに直接置き、高品質の点群再構築を保証することが提案される。
【0048】
TearingNetにおけるUV画像は、逆トランスフォーマ(デコーダ)内に導入され、更新される。UV画像は、特定の解像度の2Dサンプリンググリッドに基づいて定義される。一実施形態では、UV画像内の2つのチャネルは、2D空間内の座標を表す。別の実施形態では、それらは、2D空間におけるそれらのデフォルト位置に対する座標オフセットを表す。
【0049】
UnfoldingOperatorにおける提案されたPNのためのネットワークアーキテクチャ
図5は、PNモジュールの詳細なアーキテクチャの一例を例示しており、入力点群PC(510)を入力としてとり、潜在空間においてコードワードCW(570)(の転置)を出力する。特に、入力点群PCは、M個の点を含み、各点Pは、その3D位置(x,y,z)によって表される。色又は法線などの追加の属性も点群データに含めることができる。PNモジュールは、共有MLP(Multi-layer Perceptron(マルチレイヤパーセプトロン)、520)のセットから構成される。パーセプトロンは、各3D点に独立して並列に適用される(括弧内の数字はレイヤサイズを示す)。共有MLPのセットの出力である点特徴(530、M×1024)は、長さ1024を有するグローバル特徴(550)を抽出するグローバル最大値プーリング動作(540)によって集約される。それは、MLPレイヤの別のセットで更に処理され(560)、長さ512を有する出力コードワードCW(570)をもたらす。
【0050】
UnfoldingOperatorにおける提案されたFNのためのネットワークアーキテクチャ
図6は、FNモジュールの詳細な設計の一例を例示しており、コードワードCW及び2Dグリッドを入力としてとり、再構築された3D点群PC’を出力する。ここで、FNモジュールは、2つの系列の共有MLPレイヤ(640、670)から構成される。FNモジュールは、コードワードによってガイドされる2Dから3Dへのマッピングとして見ることができ、2Dグリッド画像内のN個のグリッド点は、再構築された点群の表面上のM個の点にマッピングされる。Nグリッド点からマッピングされたPC’内の再構築された各点について、入力点群PCからの3D点が、例えば、最近傍探索に基づいて識別される。
【0051】
コードワードはN回複製され、結果として生じるN×512行列(610)は、2Dグリッド内のN個のグリッド点を含むN×2行列(620)と連結される。連結の結果は、サイズN×514行列(630)であり、これは、第1の系列の共有MLPレイヤ(640)に供給されて、サイズN×3行列(650)を出力する。次いで、複製されたコードワードは、N×3出力(650)に連結されて、サイズN×515(660)行列を形成し、これは、第2の系列の共有MLPレイヤ(670)に供給される。最終出力PC’(680)は、N×3行列によって表される再構築された点群であり、式中、Nは、出力点群PC’内の点の数である。
【0052】
UnfoldingOperatorにおける提案されたUFモジュール
図7は、一実施形態による、UFモジュールのブロック図を示す。それがいかなる学習可能なニューラルネットワークパラメータも有さない決定論的モジュールであることに留意されたい。
【0053】
PC’内の各点P’について、対応する点Pが、最初に、例えば、NNモジュール(710)を使用して、最近傍探索を介して識別される。点P’は、FNモジュールについて前述したように、2Dグリッド内の2D点(u’,v’)に対応することに留意されたい。言い換えれば、2D位置(u’,v’)は、P’を介してインデックス付け/検索することができる。次いで、UFモジュールは、P=(x,y,z)の座標を、P’に関連付けられた2Dグリッド位置(u’,v’)上に置く、すなわち、XYZ(u’,v’,1)=x、XYZ(u’,v’,2)=y、及びXYZ(u’,v’,3)=zである。PC’内の各点についてこの演算を実行すると、3チャネル画像であるUF出力XYZが得られる。
【0054】
一実施形態では、3D座標P=(x,y,z)を除いて、3D点Pに関連付けられた他の特徴、例えば、限定されるものではないが、色(RGB)、法線ベクトル、及び反射率も、2Dグリッド位置(u’,v’)上に置かれて、XYZ画像を形成する。例えば、XYZ(u’,v’,4)=R、XYZ(u’,v’,5)=G、XYZ(u’,v’,6)=B、XYZ(u’,v’,7)=n、XYZ(u’,v’,8)=n、XYZ(u’,v’,9)=n、及びXYZ(u’,v’,10)=rであり、ここで、(R,G,B)は、Pにおける色であり、(n,n,n)は、Pにおける法線ベクトルであり、rは、Pにおける反射率である。この実施形態では、XYZ画像は、3D座標並びに他の点特徴を含み、すなわち、XYZ画像は、K>3であるKチャネル画像である。
【0055】
以上、PNモジュール、FNモジュール、UFモジュールの例について説明する。これらのモジュールは、異なるネットワーク構造又は構成を使用することができることに留意されたい。例えば、MLP次元は、実際のシナリオの複雑さに従って調整されてもよく、又はMLPのより多くのセットが使用されてもよい。一般に、入力/出力要件を満たす任意のネットワーク構造を使用することができる。
【0056】
ディファレンシャルUnfoldingOperator
先の実施形態では、XYZ画像はPCの唯一の表現として機能する。この実施形態では、入力点群は、コードワードCWと、ΔXYZとして示される別の3チャネル画像とに分解される。コードワードCWは、点群の大まかな形状を再構築するために使用され、ΔXYZは、大まかな再構築に加えて細かい詳細を表す。図8は、ディファレンシャルUnfoldingOperatorと呼ばれるこの実施形態のブロック図を示す。これは符号化/変換プロセスに類似している。
【0057】
ディファレンシャルUnfoldingOperatorにおいて、UFモジュールは、PCとPC’との間の残差を計算し、その残差を画像ΔXYZ上に置く。したがって、CW及びΔXYZは、一緒にPCを表し、ΔXYZは、誤差を補償するために使用される。
【0058】
図9は、一実施形態による、ディファレンシャルUnfoldingOperatorにおけるUFモジュールの設計を示す。先の実施形態とは異なり、ここでは、UFモジュールは、(Δx,Δy,Δz)=(x-x’,y-y’,z-z’)として示される、マッチングされた点P=(x,y,z)(PCから)とクエリ点P’=(x’,y’,z’)(PC’から)との間の差を計算する(910)。この残差/差分ベクトルは、P’に関連付けられた2Dグリッド位置(u’,v’)上に置かれ、すなわち、ΔXYZ(u’,v’,1)=Δx、ΔXYZ(u’,v’,2)=Δy、及びΔXYZ(u’,v’,3)=Δzである。このようにして、2Dグリッド上の3チャネル残差マップΔXYZが、UFモジュールの出力として構築される。
【0059】
XYZ画像表現と同様に、ΔXYZも、より多くの情報を含むことができる。一般に、ディファレンシャル展開出力は、2Dグリッド上のサンプルを有するデータアレイとして見ることができ、各サンプルは、最初の3つの成分がΔx、Δy、及びΔz(3D位置の残差)を含むK個の成分を含み、残りの成分は、他の属性、例えば、RGB色、法線ベクトル、及び反射率を含む。
【0060】
図10は、一実施形態による、CW及びΔXYZから点群を再構築する(復号又は逆変換する)ためのプロセスを示す。最初に、FNモジュール(1020)は、コードワードCW(1010)及び2Dグリッド(1040)を入力としてとり、大まかな形状PC’を再構築する。次に、残差マップΔXYZ(1050)をPC’に加算する(1030)ことによって、再構築PCが取得される。このステップは、PC’内の各点とΔXYZ画像内の対応する残差ベクトルとを加算することに留意されたい。
【0061】
提案された圧縮フレームワーク:UnfoldingCompression
この実施形態では、学習ベースの点群圧縮システムにおいてUnfoldingOperatorを適用することが提案される。提案されたUnfoldingCompressionの全体図を図11に示す。単一の出力XYZを有するUnfoldingOperatorと比較して、UnfoldingCompressionは、更に、XYZ画像をビットストリームに圧縮する(1110)。
【0062】
一実施形態では、XYZ画像の圧縮は、最先端の画像/ビデオ圧縮方法、例えば、JPEG、MPEG AVC/HEVC/VVCに基づくことができる。前述したように、点位置({X,Y,Z}又は{ΔX,ΔY,ΔZ})を示す情報は、各位置を示すパラメータが3つのチャネルのうちの1つで搬送される3チャネル画像に構成され得る。量子化(1110)は、例えば、XYZ画像内の浮動小数点数を2Dビデオエンコーダによって使用されるデータフォーマットに変換するために、圧縮の前に実行される。また、調整をしないと、XYZ画像及びΔXYZ画像の両方が負の値を有する可能性があるが、それらを正規化し、それらのダイナミックレンジを事前定義された間隔に収めてから、それらをコーデックに送信することができる。一実施形態では、最初に、min及びmaxによって表される、XYZ(又はΔXYZ)画像の各チャネルの最小値及び最大値を計算し、式中、kは、1~Kの範囲である。次いで、XYZ画像の各チャネルを、例えば、[0,255]の範囲に正規化してから、コーデックに供給する。この場合、復号を容易にするために、各チャネルの最小値min及び最大値maxがメタデータとして送信される必要がある。最小値及び最大値は、浮動小数点数であってもよく、また負の値をとることができることに留意されたい。
【0063】
別の実施形態では、圧縮は、均一なノイズを追加することによって量子化動作を近似する、因数分解された事前モデル又はスケールハイパープライアモデルに基づく変分オートエンコーダなど、ニューラルネットワークベースの方法であり得る。それは、エンドツーエンドトレーニングのために微分可能ビットレートRXYZを生成する。XYZ画像又はΔXYZ画像内の隣接するサンプルは、通常、元の点群内の隣接する点を表すので、通常、隣接するサンプル間には強い相関がある。したがって、XYZ画像及びΔXYZ画像は、(修正されていない)標準画像及びビデオコーデックを用いて効率的に符号化されるであろうことが予想される。
【0064】
デコーダ側では、入力としてXYZ画像のビットストリームが提供されると、XYZ画像が復号される(1120)。再構築PCは、単にXYZ画像上の3D点である。メタデータも受信される別の実施形態では、再構築もまた、受信されたメタデータに依存する。例えば、各チャネルの最小値min及び最大値maxがデコーダ側で受信されるとき、それらは、再構築PCの各チャネルをそれらの元の範囲の値にスケールバックさせるために使用される。
【0065】
別の実施形態では、図12に示すように、ディファレンシャルUnfoldingOperatorがPCCに適用され、これをディファレンシャルUnfoldingCompressionと呼ぶ。この実施形態では、(量子化された)潜在コードCW’及び3チャネル画像ΔXYZの両方が、ビットストリームとして符号化される必要がある。符号化中にFNモジュールに供給される前に、量子化プロセス(QCW、1210)がコードワードCWに適用されて、量子化された符号化ワードCW’が取得されることに留意されたい。一例では、CW’=rounding(CW/QS)であり、式中、QSは選択された量子化ステップである。量子化の動機の1つは、FNモジュールへの入力を符号化ステージと復号ステージの両方で同じにすることである。
【0066】
この実施形態では、ΔXYZ画像の圧縮(1230)は、UnfoldingCompressionのXYZ画像(図11)と同様に行うことができる。ニューラルネットワークベースの方法が適用されるとき、それは、エンドツーエンドトレーニングのために微分可能ビットレートRΔXYZを生成する。コードワードCWの圧縮(1220)は、因数分解された事前モデルに基づく変分オートエンコーダなどのニューラルネットワークベースのモジュールであることができる。それは、エンドツーエンドトレーニングのために微分可能ビットレートRCWを出力する。
【0067】
入力として、コードワードCW’及びΔXYZ画像上のビットストリームが提供されると、デコーダは、最初に符号化シンボルからのCW’及びΔXYZを再構築し(1240、1250)、次いで、CW’をFNモジュール(1260)に供給し、FNモジュールは、コードワードCW及び2Dグリッドの両方の入力を得て、予備的な点群PC’を再構築する。次に、残差ΔXYZをPC’に戻して加算して(1270)、再構築PCを取得する。デコーダは、コードワードCW及びグリッド画像を生成するために使用された圧縮方法に対応する解凍方法を使用することに留意されたい。
【0068】
例示的な図12において、コードワード及びXYZ画像には別個のビットストリームがある。Δこれらのビットストリームが単一のビットストリームに多重化され得ることに留意されたい。
【0069】
TearingTransform又はTearingCompressionとの連携
この実施形態では、点群再構築システムを形成するためにUnfoldingOperatorをTearingTransformとともに適用することが提案される。概して、TearingTransformは、入力点群の点がかなり規則的な分布を示す場合に良好に機能する。しかしながら、入力点群がTearingTransformのTNモジュール(図4)に対して疎すぎる場合、TearingTransformは忠実な点群再構築の生成に失敗する可能性がある。例えば、予備再構築PC’と元の入力PCとの間の面取り距離がある事前定義された閾値よりも大きい場合、それは、生の入力PCが困難なものであること、例えば、非常にノイズが多いもの、又はニューラルネットワークモジュールPN、FN、及びTNがトレーニング中に見られなかった、新規の領域からのものであることを意味する。この場合、TearingTransformを使用するのではなく、UnfoldingTransformに切り替える。この場合、TearingTransform(図4)においてTN及び第2のFNを実行する代わりに、UnfoldingOperator(図3)のUFモジュールに切り替え、これは、元の3D点を2Dグリッドに直接置くため正確な再構築を保証する。
【0070】
同じ論理的根拠で、点群圧縮システムを形成するために、UnfoldingCompressionをTearingCompressionとともに適用することが提案される。具体的には、TearingCompressionがTNモジュールの故障のために高品質の復号された点群を生成することができないとき、システムは、提案されたUFモジュールに切り替えて正確な再構築を保証する。
【0071】
トレーニング方法
UnfoldingOperatorのためのトレーニング方法
図3のUnfoldingOperatorは、自己教師あり方式でトレーニングすることができる。一実施形態において、それは、UnfoldingOperatorを取得するための2つのステップからなる。第1のステップでは、PNモジュールとFNモジュールとからなるFoldingNet(図2)がトレーニングされる。損失関数は、入力点群PCと出力点群PCとの間の誤差メトリック、例えば、面取り距離(chamfer distance、CD)又はアースムーバ距離(earth mover distance、EMD)に基づいて定義される。第2のステップでは、PNモジュール及びFNモジュールの事前トレーニングされたパラメータがUnfoldingOperatorにロードされる。UnfoldingOperator内のUFモジュールは、FN出力PC’に従って入力点群を展開するものであり、学習可能なパラメータを含まないので、UnfoldingOperatorは、この第2のステップにおいて追加の微調整を必要としない。ディファレンシャルUnfoldingOperatorの場合、トレーニング方法は同じである。
【0072】
UnfoldingCompressionのためのトレーニング方法
UnfoldingOperatorのトレーニング方法は、図11のUnfoldingCompressionをトレーニングするために以下のように拡張することができる。UnfoldingOperatorと比較して、UnfoldingCompressionは、点群を出力することに加えてビットストリームを出力する余剰なヘッドを有する。したがって、以下のUnfoldingCompressionの2段階ストラテジを以下のように拡張する。
【0073】
第1段階では、FoldingNet(PN及びFN)が最初に前述と同じようにトレーニングされる。第2段階では、UnfoldingCompressionでのエンドツーエンドトレーニングが行われる。PNモジュール及びFNモジュールは、第1段階で学習されたパラメータを用いて初期化される。次いで、レート歪み損失がトレーニングのために使用される。具体的には、PCとPCとの間の、CD又はEMDによって測定される再構築品質は、以下に示すように、XYZビットストリームのビットレートによって正規化される。
【0074】
【数1】
式中、
【0075】
【数2】
は、再構築メトリックであり、RXYZは、XYZ画像のビットレートであり、一方λは、レートRXYZ及び歪みメトリック
【0076】
【数3】
をトレードオフする係数である。
【0077】
ディファレンシャルUnfoldingCompressionの場合、潜在コードCWのための追加のビットストリームが必要となる。すると、トレーニング損失は以下のようになる。
【0078】
【数4】
式中、RCWは、CWビットストリームであり、μは、その重要性のバランスをとるための追加係数である。
【0079】
機械のための符号化
多くの場合、圧縮された点群は、人間の目によって視認されるだけでなく、機械指向のタスク、例えば、分類又はセグメント化のためにも視認される。そのようなシナリオでは、本発明者らの提案は、機械タスクを実行するために更に拡張される。
【0080】
機械タスクのためのUnfoldingCompressionを適用する図を図13に提示する。この場合、復号されたXYZ画像、すなわちXYZ’は、復号された点群PCの表現としての機能を果たす。したがって、XYZ’画像は、分類(1310)のような下流タスクに供給することができる。この追加のヘッドは、コード化及び分類の性能間のトレードオフのための余剰な教師を提供する。
【0081】
提案されるディファレンシャルUnfoldingCompressionはまた、図14に示されるように、機械タスクのために拡張することができる。このシナリオでは、復号された潜在コードCW’は、予備的な点群を再構築することに加えて、点群の高レベル記述としての役割を果たす。一方、ΔXYZ画像は、点群内の微細な詳細に依然として関係している。コードワードCWのそのような二重の役割は、人間の知覚の必要性と機械タスクとの間のトレードオフを可能にする。例えば、コードワードCWは、図14に示されるような分類(1410)のような下流タスクに供給されてもよい。同様に、この追加のヘッドは、コード化及び分類の性能間のトレードオフのための余剰な教師を提供する。
【0082】
ブロックベースのPCC
上記の実施形態では、符号化される入力点群は、完全な点群フレームである。別の実施形態では、最初に完全な点群フレームをより小さい点群ブロックに分割することが提案される。次いで、点群ブロックは、入力点群を処理するのに必要な複雑さを制限するために、提案されたUnfoldingOperator又はUnfoldingCompressionに入力として供給される。一実施形態では、例えばJPEG、MPEG AVC/HEVC/VVCなどの最先端の画像/ビデオ圧縮方法を用いて小さな点群ブロックのXYZ(又はΔXYZ)画像を圧縮するために、XYZ(又はΔXYZ)画像は大きな画像にタイル化される。タイル化は、関連付けられた3Dブロックのモートン順序、又は別の事前定義された順序に基づくことができる。タイル化はまた、例えば、隣接する画像ブロックにわたる差を最小限にすることによって、誘導された大きな画像を下流の画像/ビデオコーデックに対してよりフレンドリにするように構成することができる。動的点群がシステムに供給される場合、既存のビデオコーデックでコード化することができる一連のタイル化されたXYZ(又はΔXYZ)画像が得られる。
【0083】
本出願において、様々な数値が使用されている。具体的な値は、例示目的のためであり、記載の態様は、これらの具体的な値に限定されない。
【0084】
本明細書に説明される実装形態及び態様は、例えば、方法又はプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装され得る。たとえ単一の形式の実装形態の文脈でのみ考察されている場合でも(例えば、方法としてのみ考察されている)、考察された特徴の実装形態は、他の形式(例えば、装置又はプログラム)でも実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。本方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型/パーソナルデジタルアシスタント(personal digital assistant、「PDA」)及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。
【0085】
「一実施形態」若しくは「ある実施形態」又は「一実装形態」若しくは「ある実装形態」、並びにそれらの他の変形形態への言及は、その実施形態に関連して説明する特定の特徴、構造、特性などが、少なくとも1つの実施形態に含まれることを意味する。したがって、本出願全体を通して様々な場所に現れる「一実施形態では」若しくは「ある実施形態では」又は「一実装形態では」若しくは「ある実装形態では」、並びに他の変形形態という句が現れるとき、必ずしも全てが同じ実施形態を指しているのではない。
【0086】
加えて、本出願は、様々な情報を「判定すること」に言及し得る。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの1つ以上が含み得る。
【0087】
更に、本出願は、様々な情報に「アクセスすること」に言及し得る。情報にアクセスすることには、例えば、情報を受信すること、情報を(例えば、メモリから)取り出すこと、情報を記憶すること、情報を移動させること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの1つ以上が含まれ得る。
【0088】
加えて、本出願は、様々な情報を「受信すること」に言及し得る。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は情報を(例えば、メモリから)取り出すことのうちの1つ以上を含み得る。更に、「受信すること」は、典型的には、動作、例えば、情報を記憶すること、情報を処理すること、情報を送信すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することの間に、何らかの形で関与する。
【0089】
例えば、「A/B」、「A及び/又はB(A and/or B)」及び「A及びBのうちの少なくとも1つ(at least one of A and B)」の場合、次の「/」、「及び/又は(and/or)」、及び「のうちの少なくとも1つ(at least one of)」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は両方の選択肢(A及びB)の選択を包含することが意図されていることを理解されるべきである。更なる実施例として、「A、B、及び/又はC(A,B,and/or C)」及び「A、B、及びCのうちの少なくとも1つ(at least one of A,B,and C)」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は第3のリストされた選択肢(C)のみの選択、又は第1及び第2のリストされた選択肢(A及びB)のみの選択、又は第1及び第3のリストされた選択肢(A及びC)のみの選択、又は第2及び第3のリストされた選択肢のみの選択(B及びC)のみ、又は3つ全ての選択肢の選択(A及びB及びC)を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。
【0090】
当業者には明らかであるように、実装形態は、例えば、記憶又は送信され得る情報を搬送するようにフォーマットされた様々な信号を生成し得る。情報は、例えば、方法を実行するための命令又は記載された実装形態のうちの1つによって生成されたデータを含み得る。例えば、信号は、記載された実施形態のビットストリームを搬送するようにフォーマットされ得る。かかる信号は、例えば、(例えば、スペクトルの無線周波数部分を使用して)電磁波として、又はベースバンド信号としてフォーマットされ得る。フォーマットすることは、例えば、データストリームを符号化し、符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する信号は、例えば、アナログ情報又はデジタル情報であり得る。信号は、知られているように、様々な異なる有線又は無線リンクによって送信され得る。信号は、プロセッサ可読媒体に記憶され得る。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
【手続補正書】
【提出日】2024-02-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
点群データを復号するための方法であって、
ニューラルネットワークベースのオートエンコーダに関連付けられたデコーダ、又は画像若しくはビデオデコーダによって、規則的なグリッド上のサンプルを有するデータアレイを復号することであって、前記データアレイ内の各サンプルが、少なくとも点群内の点の位置を示す、復号することと、
前記データアレイに応答して前記点群を再構築することと、を含む、方法。
【請求項2】
前記点群の表現を提供するコードワードにアクセスすることであって、前記点群が、前記コードワードに更に応答して再構築される、アクセスすることを更に含む、請求項1に記載の方法。
【請求項3】
前記データアレイ内の各サンプルが、前記点群内の点の位置と、再構築された前記点群の初期バージョン内のそれぞれの点の位置との間の差を示す、請求項2に記載の方法。
【請求項4】
ニューラルネットワークベースのモジュールを使用して、前記規則的なグリッド及び前記コードワードに基づいて、再構築された前記点群の前記初期バージョンを生成することであって、前記点群を再構築するために、再構築された前記点群の前記初期バージョンが前記データアレイに追加される、生成することを更に含む、請求項2に記載の方法。
【請求項5】
前記画像又はビデオデコーダによって、少なくとも画像又はビデオを復号することと、
前記点群データの位置の範囲を示すデータを復号することであって、復号された前記画像又はビデオが、前記点群を再構築するために前記位置の範囲に応じてスケーリングされる、復号することと、を更に含む、請求項1に記載の方法。
【請求項6】
点群データを符号化するための方法であって、
第1のニューラルネットワークベースのモジュールによって、前記点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、
第2のニューラルネットワークベースのモジュールによって、前記コードワード及びグリッドに基づいて、第1の点群を再構築することと、
前記グリッド上にサンプルを有するデータアレイを生成することであって、前記データアレイ内の各サンプルが、再構築された前記第1の点群、前記グリッド、及び前記入力点群に基づいて、前記入力点群内の点の位置を示す、生成することと、
前記データアレイを、ニューラルネットワークベースのオートエンコーダに関連付けられたエンコーダ、又は画像若しくはビデオエンコーダによって圧縮することと、を含む、方法。
【請求項7】
再構築された前記第1の点群内の各点について、前記入力点群から対応する点を識別することと、
再構築された前記第1の点群内の各点について、前記グリッド内の対応する位置をインデックス付けすることと、を更に含み、
前記グリッド内の前記対応する位置に関連付けられたサンプルが、前記入力点群の前記対応する点の位置を示す、請求項6に記載の方法。
【請求項8】
前記グリッド内の前記対応する位置に関連付けられた前記サンプルが、前記入力点群の前記対応する点の前記位置と、再構築された前記第1の点群の前記対応する点の位置との間の差を示す、請求項7に記載の方法。
【請求項9】
前記第2のニューラルネットワークベースのモジュールが、少なくともレイヤの第1のセット及びレイヤの第2のセットを含み、前記レイヤの第1のセットが、前記コードワード及び前記グリッドに応答し、前記レイヤの第2のセットが、前記レイヤの第1のセットの出力及び前記コードワードに応答する、請求項6に記載の方法。
【請求項10】
前記レイヤの第1のセットが、共有MLPの第1のセットに対応し、前記レイヤの第2のセットが、共有MLPの第2のセットに対応する、請求項9に記載の方法。
【請求項11】
少なくとも1つのメモリ及び1つ以上のプロセッサを備える装置であって、前記1つ以上のプロセッサが、
ニューラルネットワークベースのオートエンコーダに関連付けられたデコーダ、又は画像若しくはビデオデコーダによって、規則的なグリッド上のサンプルを有するデータアレイを復号することであって、前記データアレイ内の各サンプルが、少なくとも点群内の点の位置を示す、復号することと、
前記データアレイに応答して前記点群を再構築することと、を行うように構成されている、装置。
【請求項12】
前記1つ以上のプロセッサが、
前記点群の表現を提供するコードワードにアクセスすることであって、前記点群が、前記コードワードに更に応答して再構築される、アクセスすることを行うように更に構成されている、請求項11に記載の装置。
【請求項13】
前記データアレイ内の各サンプルが、前記点群内の点の位置と、再構築された前記点群の初期バージョン内のそれぞれの点の位置との間の差を示す、請求項11に記載の装置。
【請求項14】
前記1つ以上のプロセッサが、
ニューラルネットワークベースのモジュールを使用して、前記規則的なグリッド及び前記コードワードに基づいて、再構築された前記点群の前記初期バージョンを生成することであって、前記点群を再構築するために、再構築された前記点群の前記初期バージョンが前記データアレイに追加される、生成することを行うように更に構成されている、請求項13に記載の装置。
【請求項15】
前記1つ以上のプロセッサが、
前記画像又はビデオデコーダによって、少なくとも画像又はビデオを復号することと、
前記点群データの位置の範囲を示すデータを復号することであって、復号された前記画像又はビデオが、前記点群を再構築するために前記位置の範囲に応じてスケーリングされる、復号することと、を行うように更に構成されている、請求項11に記載の装置。
【請求項16】
少なくとも1つのメモリ及び1つ以上のプロセッサを備える、点群データを符号化するための装置であって、前記1つ以上のプロセッサが、
第1のニューラルネットワークベースのモジュールによって、前記点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、
第2のニューラルネットワークベースのモジュールによって、前記コードワード及びグリッドに基づいて、第1の点群を再構築することと、
前記グリッド上にサンプルを有するデータアレイを生成することであって、前記データアレイ内の各サンプルが、再構築された前記第1の点群、前記グリッド、及び前記入力点群に基づいて、前記入力点群内の点の位置を示す、生成することと、
前記データアレイを、ニューラルネットワークベースのオートエンコーダに関連付けられたエンコーダ、又は画像若しくはビデオエンコーダによって圧縮することと、を行うように構成されている、装置。
【請求項17】
前記1つ以上のプロセッサが、
再構築された前記第1の点群内の各点について、前記入力点群から対応する点を識別することと、
再構築された前記第1の点群内の各点について、前記グリッド内の対応する位置をインデックス付けすることと、を行うように更に構成されており、
前記グリッド内の前記対応する位置に関連付けられたサンプルが、前記入力点群の前記対応する点の位置を示す、請求項16に記載の装置。
【請求項18】
前記グリッド内の前記対応する位置に関連付けられた前記サンプルが、前記入力点群の前記対応する点の前記位置と、再構築された前記第1の点群の前記対応する点の位置との間の差を示す、請求項17に記載の装置。
【請求項19】
前記第2のニューラルネットワークベースのモジュールが、少なくともレイヤの第1のセット及びレイヤの第2のセットを含み、前記レイヤの第1のセットが、前記コードワード及び前記グリッドに応答し、前記レイヤの第2のセットが、前記レイヤの第1のセットの出力及び前記コードワードに応答する、請求項16に記載の装置。
【請求項20】
前記レイヤの第1のセットが、共有MLPの第1のセットに対応し、前記レイヤの第2のセットが、共有MLPの第2のセットに対応する、請求項19に記載の装置。
【国際調査報告】