IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターデイジタル パテント ホールディングス インコーポレイテッドの特許一覧

特表2024-516550ティアリング変換による学習ベースの点群圧縮
<>
  • 特表-ティアリング変換による学習ベースの点群圧縮 図1
  • 特表-ティアリング変換による学習ベースの点群圧縮 図2
  • 特表-ティアリング変換による学習ベースの点群圧縮 図3
  • 特表-ティアリング変換による学習ベースの点群圧縮 図4
  • 特表-ティアリング変換による学習ベースの点群圧縮 図5
  • 特表-ティアリング変換による学習ベースの点群圧縮 図6
  • 特表-ティアリング変換による学習ベースの点群圧縮 図7
  • 特表-ティアリング変換による学習ベースの点群圧縮 図8
  • 特表-ティアリング変換による学習ベースの点群圧縮 図9
  • 特表-ティアリング変換による学習ベースの点群圧縮 図10
  • 特表-ティアリング変換による学習ベースの点群圧縮 図11
  • 特表-ティアリング変換による学習ベースの点群圧縮 図12
  • 特表-ティアリング変換による学習ベースの点群圧縮 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-16
(54)【発明の名称】ティアリング変換による学習ベースの点群圧縮
(51)【国際特許分類】
   G06T 9/00 20060101AFI20240409BHJP
【FI】
G06T9/00 200
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023561774
(86)(22)【出願日】2022-04-29
(85)【翻訳文提出日】2023-11-09
(86)【国際出願番号】 US2022026990
(87)【国際公開番号】W WO2022232547
(87)【国際公開日】2022-11-03
(31)【優先権主張番号】63/181,270
(32)【優先日】2021-04-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.HDMI
(71)【出願人】
【識別番号】510030995
【氏名又は名称】インターデイジタル パテント ホールディングス インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【弁理士】
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】ティアン、ドン
(72)【発明者】
【氏名】パン、ジアハオ
(72)【発明者】
【氏名】クアシュ、モリース
(72)【発明者】
【氏名】ヴァレンツィセ、ジュセッペ
(72)【発明者】
【氏名】デュフォー、フレデリック
(57)【要約】
一実装形態では、3D点群データにわたる学習可能な変換、ティアリング変換が提案される。ティアリング変換は、点群を2つのチャネル、低ランクチャネルとスパースチャネルとに分解することができる。低ランクチャネルは、点群の大まかな形状を表すコードワードに対応する。スパースチャネルは、再構築された点位置を精緻化することができる残差情報を表す画像のようなデータとして現れる。ティアリング変換に基づくエンコーダでは、PNモジュールを使用して入力点群からコードワードを生成する。FNモジュールは、コードワード及び初期グリッド画像から予備的な点群を再構築するために使用され、TNモジュールは、初期グリッド画像を修正して、調整されたグリッド画像を生成する。コードワード及び調整されたグリッド画像は圧縮される。デコーダにおいて、点群は、解凍されたコードワード及び調整されたグリッド画像に基づいて再構築され得る。
【特許請求の範囲】
【請求項1】
点群データを復号するための方法であって、
点群の表現を提供するコードワードにアクセスすることと、
前記点群の前記表現に精緻化情報を提供するグリッド画像にアクセスすることと、
ニューラルネットワークベースのモジュールを使用して、復号された前記コードワード及び復号された前記グリッド画像に応答して前記点群を再構築することと、を含む、方法。
【請求項2】
少なくともビットストリームから前記コードワードを復号することと、
前記少なくともビットストリームから前記グリッド画像を復号することと、を含む、請求項1に記載の方法。
【請求項3】
再構築された前記点群内の点について、法線方向に沿ったオフセット誤差を記述する成分にアクセスすることと、
復号された前記成分を使用して、前記再構築された点群を精緻化することと、を更に含む、請求項1又は2に記載の方法。
【請求項4】
前記法線は、予備的に再構築された点群に基づいて計算される、請求項3に記載の方法。
【請求項5】
前記少なくともビットストリームから前記成分を復号することを更に含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記ニューラルネットワークベースのモジュールは、少なくとも第1のセットのレイヤ及び第2のセットのレイヤを含み、前記第1のセットのレイヤは、前記復号されたコードワード及び前記復号されたグリッド画像に応答し、前記第2のセットのレイヤは、前記第1のセットのレイヤの出力及び前記復号されたコードワードに応答する、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記第1のセットのレイヤは、第1のセットの共有マルチレイヤパーセプトロン(MLP)に対応し、前記第2のセットのレイヤは、第2のセットの共有MLPに対応する、請求項6に記載の方法。
【請求項8】
前記コードワードは、潜在空間における前記点群を表す特徴ベクトルである、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記グリッド画像は、ピクセルのセットを含み、前記グリッド画像内の各ピクセルは、2D位置を示す2つのチャネルを含む、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記グリッド画像内の前記ピクセルは、法線方向に沿ったオフセットを示す第3のチャネルを更に含む、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記コードワードは、変分オートエンコーダに関連付けられたデコーダによって復号される、請求項1~10のいずれか一項に記載の方法。
【請求項12】
グリッド画像は、変分オートエンコーダに関連付けられたデコーダ、又は2Dビデオデコーダによって復号される、請求項1~11のいずれか一項に記載の方法。
【請求項13】
点群データを符号化するための方法であって、
第1のニューラルネットワークベースのモジュールによって、前記点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、
第2のニューラルネットワークベースのモジュールによって、前記コードワード及びグリッド画像に基づいて、第1の点群を再構築することと、
第3のニューラルネットワークベースのモジュールによって、再構築された前記第1の点群、前記コードワード、及び前記入力点群に基づいて、前記グリッド画像を調整して別のグリッド画像を生成することと、を含む、方法。
【請求項14】
前記コードワードを圧縮することと、
前記別のグリッド画像を圧縮することと、
圧縮された前記コードワードと圧縮された前記別のグリッド画像とを含む少なくともビットストリームを生成することと、を更に含み、前記圧縮された別のグリッド画像は、復号中に前記入力点群の前記表現を精緻化するために使用される、請求項13に記載の方法。
【請求項15】
前記再構築された第1の点群内の点について、前記入力点群から最近傍点を識別することと、
前記再構築された第1の点群内の前記最近傍点に対する法線ベクトルを取得することと、
前記点から前記最近傍点への誤差ベクトルを取得することと、
前記誤差ベクトルを前記法線ベクトルに沿って投影して、前記点に対する投影誤差ベクトルを形成することと、を更に含む、請求項13又は14に記載の方法。
【請求項16】
前記再構築された点群内の前記点に対する前記投影誤差ベクトルの長さを圧縮することを更に含む、請求項15に記載の方法。
【請求項17】
前記第2のニューラルネットワークベースのモジュールは、少なくとも第1のセットのレイヤ及び第2のセットのレイヤを含み、前記第1のセットのレイヤは、復号された前記コードワード及び復号された前記グリッド画像に応答し、前記第2のセットのレイヤは、前記第1のセットのレイヤの出力及び前記復号されたコードワードに応答する、請求項13~16のいずれか一項に記載の方法。
【請求項18】
前記第1のセットのレイヤは、第1のセットの共有MLPに対応し、前記第2のセットのレイヤは、第2のセットの共有MLPに対応する、請求項17に記載の方法。
【請求項19】
前記コードワードは、潜在空間における前記点群を表す特徴ベクトルである、請求項13~18のいずれか一項に記載の方法。
【請求項20】
前記グリッド画像は、ピクセルのセットを含み、前記グリッド画像内の各ピクセルは、2D位置を示す2つのチャネルを含む、請求項13~19のいずれか一項に記載の方法。
【請求項21】
前記グリッド画像内の前記ピクセルは、法線方向に沿ったオフセットを示す第3のチャネルを更に含む、請求項13~20のいずれか一項に記載の方法。
【請求項22】
前記コードワードは、変分オートエンコーダに関連付けられたエンコーダによって符号化される、請求項13~21のいずれか一項に記載の方法。
【請求項23】
グリッド画像は、変分オートエンコーダに関連付けられたエンコーダ、又は2Dビデオエンコーダによって符号化される、請求項13~22のいずれか一項に記載の方法。
【請求項24】
前記第3のニューラルネットワークベースのモジュールによって、前記再構築された第1の点群内の各点P’ごとに、前記入力点群内の対応する点Pを取得することと、
P’とPとの間の誤差を取得することと、を更に含む、請求項13~23のいずれか一項に記載の方法。
【請求項25】
前記第3のニューラルネットワークベースのモジュールは、少なくとも第3のセットのレイヤ及び第4のセットのレイヤを含み、前記第3のセットのレイヤは、前記復号されたコードワード、前記グリッド画像、及び前記誤差に応答し、前記第4のセットのレイヤは、前記第3のセットのレイヤの出力、前記復号されたコードワード、前記グリッド画像、及び前記誤差に応答する、請求項24に記載の方法。
【請求項26】
前記第3のセットのレイヤは、第3のセットの共有MLPに対応し、前記第4のセットのレイヤは、第4のセットの共有MLPに対応する、請求項25に記載の方法。
【請求項27】
前記グリッド画像は、前記別のグリッド画像を形成するために前記第4のセットのレイヤの出力に応答して調整される、請求項25又は26に記載の方法。
【請求項28】
1つ以上のプロセッサと、前記1つ以上のプロセッサに結合された少なくとも1つのメモリとを備え、前記1つ以上のプロセッサは、請求項1~27のいずれか一項に記載の方法を実行するように構成されている、装置。
【請求項29】
請求項13~27のいずれか一項に記載の方法を実行することによって形成される、ビットストリームを含む、信号。
【請求項30】
請求項1~27のいずれか一項に記載の方法に従って、点群を符号化又は復号するための命令を記憶した、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本実施形態は、概して、点群の圧縮及び処理のための方法並びに装置に関する。
【背景技術】
【0002】
点群(point cloud、PC)データフォーマットは、例えば、自律運転から、ロボット工学、拡張現実/仮想現実(augmented reality/virtual reality、AR/VR)、土木工学、コンピュータグラフィックス、アニメーション/映画産業まで、いくつかのビジネス領域にわたる汎用データフォーマットである。3D LiDAR (Light Detection and Ranging)センサは、自動運転車に配備されており、手頃な価格のLiDARセンサが、例えば、Velodyne Velabit、Apple iPad Pro 2020、及びIntel RealSense LiDARカメラL515からリリースされている。センシング技術の進歩により、3D点群データは、これまで以上に実用的になり得、本明細書で説明されるアプリケーションにおいて究極のイネーブラであると期待されている。
【発明の概要】
【0003】
一実施形態によれば、点群データを復号するための方法が提供され、この方法は、点群の表現を提供するコードワードにアクセスすることと、点群の表現に精緻化情報を提供するグリッド画像にアクセスすることと、ニューラルネットワークベースのモジュールを使用して、復号されたコードワード及び復号されたグリッド画像に応答して点群を再構築することと、を含む。
【0004】
別の実施形態によれば、点群データを復号するための装置が提示され、この装置は、1つ以上のプロセッサを備え、1つ以上のプロセッサは、点群の表現を提供するコードワードにアクセスすることと、点群の表現に精緻化情報を提供するグリッド画像にアクセスすることと、ニューラルネットワークベースのモジュールを使用して、復号されたコードワード及び復号されたグリッド画像に応答して点群を再構築することと、を行うように構成されている。本装置は、1つ以上のプロセッサに結合された少なくとも1つのメモリを更に含み得る。
【0005】
別の実施形態によれば、点群データを符号化するための方法が提供され、この方法は、第1のニューラルネットワークベースのモジュールによって、点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、第2のニューラルネットワークベースのモジュールによって、コードワード及びグリッド画像に基づいて、第1の点群を再構築することと、第3のニューラルネットワークベースのモジュールによって、再構築された第1の点群、コードワード、及び入力点群に基づいて、グリッド画像を調整して別のグリッド画像を生成することと、を含む。
【0006】
別の実施形態によれば、点群データを符号化するための装置が提示され、この装置は、1つ以上のプロセッサを備え、1つ以上のプロセッサは、第1のニューラルネットワークベースのモジュールによって、点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、第2のニューラルネットワークベースのモジュールによって、コードワード及びグリッド画像に基づいて、第1の点群を再構築することと、第3のニューラルネットワークベースのモジュールによって、再構築された第1の点群、コードワード、及び入力点群に基づいて、グリッド画像を調整して別のグリッド画像を生成することと、を行うように構成されている。本装置は、1つ以上のプロセッサに結合された少なくとも1つのメモリを更に含み得る。
【0007】
1つ以上の実施形態によりまた、1つ以上のプロセッサによって実行されるとき、1つ以上のプロセッサに、これまで述べた実施形態のいずれかによる符号化方法又は復号方法を行わせる命令を含む、コンピュータプログラムを提供する。また、本実施形態のうちの1つ以上により、これまで述べた方法により、点群データを符号化するか又は復号するための命令を記憶したコンピュータ可読記憶媒体を提供する。
【0008】
1つ以上の実施形態はまた、これまで述べた方法により起こされたビットストリームを記憶しているコンピュータ可読記憶媒体を提供する。1つ以上の実施形態によりまた、上で説明された方法に従って生成されたビットストリームを送信又は受信するための方法及び装置を提供する。
【図面の簡単な説明】
【0009】
図1】本実施形態の態様が実装され得るシステムのブロック図を示す。
図2】簡略化したティアリングネット(TearingNet)の図を示す。
図3】一実施形態による、ティアリング変換(TearingTransform)のための提案された図を示す。
図4】一実施形態による、PNモジュールのためのネットワークアーキテクチャ設計の一例を示す。
図5】一実施形態による、FNモジュールのためのネットワークアーキテクチャ設計の一例を示す。
図6】一実施形態による、TNモジュールのためのネットワークアーキテクチャ設計の一例を示す。
図7】一実施形態による、提案された拡張ティアリング変換の順変換を示す。
図8】一実施形態による、提案された拡張ティアリング変換の逆変換を示す。
図9】一実施形態による、ティアリング圧縮(TearingCompression)エンコーダのブロック図を示す。
図10】一実施形態による、ティアリング圧縮デコーダのブロック図を示す。
図11】一実施形態による、フォールディングネット(FoldingNet)アーキテクチャにおける提案されたPN及びFNを有するブロック図を示す。
図12】一実施形態による、圧縮システムのブロック図を示す。
図13】一実施形態による、機械のための圧縮システムのブロック図を示す。
【発明を実施するための形態】
【0010】
図1は、様々な態様及び実施形態が実装され得るシステムの一例のブロック図を示す。システム100は、以下に記載の様々なコンポーネントを含むデバイスとして具現化され得、本明細書に記載の態様のうちの1つ以上を実行するように構成されている。かかるデバイスの実施例としては、これらに限定されないが、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ記録システム、コネクテッド家電、及びサーバなどの様々な電子デバイスが挙げられる。システム100の要素は、単独で、又は組み合わせて、単一の集積回路、複数のIC、及び/又は個別のコンポーネントで具現化され得る。例えば、少なくとも1つの実施形態では、システム100の処理要素及びエンコーダ要素/デコーダ要素は、複数のIC及び/又は別個のコンポーネントにわたって分散している。様々な実施形態では、システム100は、例えば、通信バスを介して、又は専用の入力ポート及び/若しくは出力ポートを通じて、他のシステム、又は他の電子デバイスに通信可能に結合される。様々な実施形態では、システム100は、本出願に記載された態様のうちの1つ以上を実装するように構成される。
【0011】
システム100は、例えば、本出願に記載された様々な態様を実装するために、内部にロードされた命令を実行するように構成された、少なくとも1つのプロセッサ110を含む。プロセッサ110は、埋め込み型メモリ、入力出力インターフェース、及び当該技術分野で既知であるように様々な他の回路を含み得る。システム100は、少なくとも1つのメモリ120(例えば、揮発性メモリデバイス及び/又は不揮発性メモリデバイス)を含む。システム100は、記憶デバイス140を含み、この記憶デバイスは、限定されるものではないが、EEPROM、ROM、PROM、RAM、DRAM、SRAM、フラッシュ、磁気ディスクドライブ、及び/若しくは光ディスクドライブを含む、不揮発性メモリ並びに/又は揮発性メモリを含み得る。記憶デバイス140は、非限定的な例として、内部記憶デバイス、取り付け型記憶デバイス、及び/又はネットワークアクセス可能な記憶デバイスを含み得る。
【0012】
システム100は、例えば、データを処理して、符号化ビデオ又は復号ビデオを提供するように構成されたエンコーダ/デコーダモジュール130を含み、そのエンコーダ/デコーダモジュール130は、それ自体のプロセッサ及びメモリを含み得る。エンコーダ/デコーダモジュール130は、符号化機能及び/又は復号機能を実行するためにデバイス内に含まれ得るモジュールを表す。既知であるように、デバイスは、符号化及び復号モジュールのうちの一方又は両方を含み得る。加えて、エンコーダ/デコーダモジュール130は、システム100の個別の要素として実装され得るか、又は当業者に知られているように、ハードウェアとソフトウェアの組み合わせとしてプロセッサ110内に組み込まれ得る。
【0013】
本出願に記載の様々な態様を実行するためにプロセッサ110又はエンコーダ/デコーダ130上にロードされるプログラムコードは、記憶デバイス140内に記憶され、その後、プロセッサ110による実行のためにメモリ120上にロードされ得る。様々な実施形態によれば、プロセッサ110、メモリ120、記憶デバイス140、及びエンコーダ/デコーダモジュール130のうちの1つ以上は、本出願に記載されるプロセスの実行中に、様々な項目のうちの1つ以上を記憶し得る。かかる記憶された項目は、限定されるものではないが、入力ビデオ、復号ビデオ、又は復号ビデオの一部分、ビットストリーム、行列、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含み得る。
【0014】
いくつかの実施形態では、プロセッサ110及び/又はエンコーダ/デコーダモジュール130の内部のメモリは、命令を記憶するため、及び符号化又は復号中に必要とされる処理のためのワーキングメモリを提供するために使用される。しかしながら、他の実施形態では、処理デバイス(例えば、処理デバイスは、プロセッサ110又はエンコーダ/デコーダモジュール130のいずれかであり得る)の外部のメモリが、これらの機能のうちの1つ以上のために使用される。外部メモリは、メモリ120及び/又は記憶デバイス140、例えば、ダイナミック揮発性メモリ及び/又は不揮発性フラッシュメモリであり得る。いくつかの実施形態では、外部不揮発性フラッシュメモリが、テレビのオペレーティングシステムを記憶するために使用される。少なくとも一実施形態では、RAMなどの高速外部ダイナミック揮発性メモリが、MPEG-2、HEVC、又はVVCなどのビデオコーディング動作及び復号動作のためのワーキングメモリとして使用される。
【0015】
システム100の要素への入力は、ブロック105に示されるように、様々な入力デバイスを通して提供され得る。このような入力デバイスとしては、(i)例えば、放送局によって無線で送信されるRF信号を受信するRF部、(ii)コンポジット入力端子、(iii)USB入力端子、及び/又は(iv)HDMI入力端子が挙げられるが、これらに限定されない。
【0016】
様々な実施形態では、ブロック105の入力デバイスは、当該技術分野において知られているように、関連付けられたそれぞれの入力処理要素を有する。例えば、RF部分は、(i)所望の周波数を選択することと(また信号を選択する、又は信号を周波数帯域に帯域制限するとも称される)、(ii)選択された信号をダウンコンバートすることと、(iii)特定の実施形態で、(例えば)チャネルとして称され得る信号周波数帯域を選択するために、再度より狭い周波数帯域に帯域制限することと、(iv)ダウンコンバート及び帯域制限された信号を復調することと、(v)誤り訂正を実行することと、(vi)データパケットの所望のストリームを選択するために多重分離することと、に対して好適な要素に関連付けられ得る。様々な実施形態のRF部分は、これらの機能を実行する1つ以上の要素、例えば、周波数セレクタ、信号セレクタ、バンドリミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、誤差訂正器、及びデマルチプレクサを含む。RF部分は、これらの様々な機能を実行するチューナを含み得、例えば、受信した信号をより低い周波数(例えば、中間周波数、若しくは近接ベースバンド周波数)に、又はベースバンドにダウンコンバートすることが含まれる。セットトップボックスの一実施形態では、RF部とその関連する入力処理要素は、有線(例えば、ケーブル)媒体上で送信されたRF信号を受信し、フィルタ処理し、ダウンコンバートし、また所望の周波数帯域に再びフィルタ処理することによって、周波数選択を行う。様々な実施形態では、上で説明される(及び他の)要素の順序を並べ替える、これらの要素の一部を削除する、並びに/又は、類似若しくは異なる機能を実行する他の要素を追加する。要素を追加することは、既存の要素の間に要素を挿入すること、例えば、増幅器及びアナログ-デジタル変換器を挿入することを含み得る。様々な実施形態において、RF部分は、アンテナを含む。
【0017】
加えて、USB及び/又はHDMI端末は、USB及び/又はHDMI接続全体にわたって、システム100を他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含み得る。入力処理の様々な態様、例えば、リードソロモン誤り訂正は、例えば、必要に応じて、個別の入力処理IC内又はプロセッサ110内に実装され得ることを理解されたい。同様に、USB又はHDMIインターフェース処理の態様は、必要に応じて、個別のインターフェースIC内又はプロセッサ110内に実装され得る。例えば、プロセッサ110、並びにメモリ及び記憶要素と組み合わせて動作するエンコーダ/デコーダ130を含む様々な処理要素に、復調され、誤差訂正され、逆多重化されたストリームを提供して、出力デバイス上に提示するために必要に応じてデータストリームを処理する。
【0018】
システム100の様々な要素は、統合されたハウジング内に提供され得、統合されたハウジング内では、様々な要素は、好適な接続構成115、例えば、I2Cバス、配線、及びプリント回路基板を含む、当該技術分野で既知の内部バスを使用して相互に接続され、互いの間でデータを送信し得る。
【0019】
システム100は、通信チャネル190を介して他のデバイスとの通信を可能にする通信インターフェース150を含む。通信インターフェース150は、限定されるものではないが、通信チャネル190を介してデータを送信及び受信するように構成された送受信機を含み得る。通信インターフェース150は、限定されるものではないが、モデム又はネットワークカードを含み得、通信チャネル190は、例えば、有線及び/又は無線媒体内に実装され得る。
【0020】
データは、様々な実施形態において、IEEE802などのWi-Fiネットワークを使用して、システム100にストリーミングされる。11.これらの実施形態のWi-Fi信号は、Wi-Fi通信用に適合された通信チャネル190及び通信インターフェース150によって受信される。これらの実施形態の通信チャネル190は、典型的には、ストリーミングアプリケーション及び他のオーバーザトップ通信を可能にするためにインターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施形態では、入力ブロック105のHDMI接続によってデータを配信するセットトップボックスを使用して、システム100にストリーミングされたデータを提供する。更に他の実施形態では、入力ブロック105のRF接続を使用して、システム100にストリーミングされたデータを提供する。
【0021】
システム100は、出力信号を、ディスプレイ165、スピーカ175、及び他の周辺デバイス185を含む、様々な出力デバイスに提供し得る。他の周辺デバイス185は、実施形態の様々な例において、スタンドアロンDVR、ディスクプレーヤ、ステレオシステム、照明システム、及びシステム100の出力に基づいて機能を提供する他のデバイス、のうちの1つ以上を含む。様々な実施形態では、ユーザの介入の有無に関わらずデバイス間制御を可能にする、AV.Link、CEC、又は他のプロトコルなどのシグナリングを使用して、制御信号が、システム100と、ディスプレイ165、スピーカ175、又は他の周辺デバイス185との間で通信される。出力デバイスは、それぞれのインターフェース160、170、及び180を通じた専用接続を介してシステム100に通信可能に結合され得る。代替的に、出力デバイスは、通信インターフェース150を介し、通信チャネル190を使用して、システム100に接続され得る。ディスプレイ165及びスピーカ175は、例えば、テレビなどの電子デバイスにおいて、システム100の他のコンポーネントとともに単一ユニットに統合され得る。様々な実施形態では、ディスプレイインターフェース160は、ディスプレイドライバ、例えば、タイミングコントローラ(timing controller、TCon)チップを含む。
【0022】
ディスプレイ165及びスピーカ175は、代替的に、例えば、入力105のRF部分が個別のセットトップボックスの一部である場合、他のコンポーネントのうちの1つ以上から分離され得る。ディスプレイ165及びスピーカ175が外部コンポーネントである様々な実施形態では、出力信号は、例えば、HDMIポート、USBポート、又はCOMP出力を含む、専用の出力接続を介して提供され得る。
【0023】
点群データは、例えば、5Gネットワークを介して接続された自動車間で、及び没入型通信(VR/AR)などの、ネットワークトラフィックの大部分を消費し得ると考えられる。効率的な表現フォーマットは、点群の理解及び通信に必要である。特に、生の点群データは、世界モデリング及び感知の目的で、適切に編成及び処理される必要がある。生の点群の圧縮は、関連するシナリオにおいてデータの記憶及び送信が必要とされる場合に不可欠である。
【0024】
更に、点群は、複数の移動する物体を含む同じシーンの連続表現を表現する場合がある。それらは、静的シーン又は静的物体から捕捉される静的点群と比べて、動的点群と呼ばれる。動的点群は、異なるフレームが、異なる時間に捕捉されるフレームに編成されてもよい。動的点群は、処理及び圧縮がリアルタイム又は低遅延であることを必要とし得る。
【0025】
自動車産業及び自動走行車は、点群が使用され得る分野である。自動走行車は、それらの環境を「探査」し、それらのすぐ周囲の現実に基づいて、良好な運転判断を行うことが可能であるべきである。LiDARのような代表的なセンサは、認知エンジンによって使用される(動的)点群を生成する。これらの点群は、人間の眼で見ることが意図されておらず、それらは、通常、スパースで、必ずしも色分けされておらず、高い捕捉頻度で動的である。それらの点群は、LiDARによって提供される反射率のような他の属性を有し得、これは、この属性が、感知される物体の材料を示し、その判断を下すことに役立ち得るためである。
【0026】
仮想現実(VR)及び没入型世界が、2D平面ビデオの未来として多くの人によって予測されている。VR及び没入型世界の場合、視聴者は、視聴者の前方にある仮想世界を眺めることしかできない標準的なTVとは対照的に、視聴者の周り全体の環境に没入する。環境内の視聴者の自由度に応じて、没入性には、いくつかの段階がある。点群は、仮想現実世界を配信するための良好なフォーマット候補である。VRにおいて使用される点群は、静的又は動的であり得、典型的には、平均サイズ、例えば、1回につき、せいぜい数百万点のものである。
【0027】
点群はまた、文化遺産/建造物などの様々な目的に使用され得、そこにある彫像又は建物のような対象物を3Dでスキャンして、対象物を送付又は訪問せずに、対象物の空間的な構成を共有する。また、対象物が破壊され得る場合、例えば、地震により寺院が破壊され得る場合、点群は、対象物の知識の保全を確実にするために使用され得る。このような点群は、通常、静的であり、色分けされており、かつ膨大である。
【0028】
別の使用事例としては、地形学及びマップ製作法においてであり、そこでは、3D表現を使用して、マップが平面に限定されず、起伏を含むことができる。Google Mapsは、3Dマップの良い例であるが、点群の代わりにメッシュを使用している。それにもかかわらず、点群は、3Dマップのための好適なデータ形式であり得、そのような点群は、通常、静的であり、色分けされており、かつ膨大である。
【0029】
点群を介した世界モデリング及び感知は、本明細書で説明されるアプリケーションのために、機械が機械の周りの3D世界についての知識を得ることを可能にする有用な技術であり得る。
【0030】
3D点群データは、本質的に、物体又はシーンの表面上の別個のサンプルである。現実世界を点サンプルで完全に表現するためには、実際には膨大な数の点が必要である。例えば、典型的なVR没入型シーンは、数百万の点を含むが、点群は、典型的には、数億の点を含む。したがって、そのような大規模点群の処理は、特に、限定された計算能力を有する消費者デバイス、例えば、スマートフォン、タブレット、及び自動車ナビゲーションシステムにとって、計算コストが高い。
【0031】
点群上で処理又は推論を実行するために、効率的な記憶方法が必要とされる。手頃な計算コストで入力点群を記憶及び処理するために、1つの解決策は、点群を最初にダウンサンプリングすることであり、ダウンサンプリングされた点群は、非常に少ない点を有しながら入力点群の幾何形状を要約する。ダウンサンプリングされた点群は、次いで、更なる消費のために後続のマシンタスクに供給される。しかしながら、記憶空間の更なる削減は、可逆圧縮のためのエントロピー符号化技法を通して、生の点群データ(元の又はダウンサンプリングされた)をビットストリームに変換することによって達成することができる。より良いエントロピーモデルは、より小さいビットストリームをもたらし、したがって、より効率的な圧縮をもたらす。更に、エントロピーモデルを、エントロピーエンコーダが圧縮しながらタスク固有の情報を維持することを可能にするダウンストリームタスクと対にすることもできる。
【0032】
可逆符号化に加えて、多くのシナリオは、特定の品質レベル下で誘発された歪みを維持しながら、著しく改善された圧縮比のための不可逆符号化を求める。
【0033】
点群圧縮(point cloud compression、PCC)は、点群内に含まれる対象物の表面マニホールドを簡潔に表現する問題に言及する。点群圧縮に関するいくつかの分野が調査されており、入力領域におけるPCC、プリミティブ領域におけるPCC、変換領域におけるPCC、及び最後にエントロピー符号化によるPCCというカテゴリに広く分類することができる。入力領域におけるPCCは、基礎となる表面マニホールドを表す新規のキー点を選択又は生成することによって生の点群をダウンサンプリングすることを指す。いくつかの学習された(深層学習ベースの)及び古典的機械学習技法が、この領域に存在するが、入力領域における多くのPCCは、ネットワークが規則的畳み込みを行うように制限されるため、高密度点群にのみ好適である。プリミティブ領域におけるPCCの場合、基礎となる対象物マニホールドに密接に従うことを目的とするキー点プリミティブ(規則的な幾何学的2D/3D形状)が生成される。変換領域におけるPCCは、生の点群データが最初に古典的な方法を介して別の領域に変換され、次いで、新しい領域における変換された表現が圧縮されてより効率的な圧縮を得る場合を指す。いくつかの作業は変換として解釈することができるが、それらを圧縮システムに適用することは非自明である。最後に、エントロピー符号化を介したPCCの場合、生の点群データ又は点群の別の(自明に取得された)表現のいずれかが、適応学習ベースの方法又は古典的方法のいずれかを介してエントロピー符号化される。
【0034】
本出願は、学習可能な変換ベースのPCCに関する。変換を介した既存の学習ベースのPCCシステムは、高密度点群に対して機能するが、典型的には、疎な点群、例えば、LiDAR点群に対しては機能しない。
【0035】
ティアリングネット
ティアリングネットは、教師なし学習フレームワークオートエンコーダを介して、高レベルコンピュータビジョン問題、例えば、分類/セグメント化との関連で開発された。
【0036】
図2は、トランスフォーマ(エンコーダ)及び逆トランスフォーマ(デコーダ)がコードワードCWを介して互いに通信することを強調するために、ティアリングネットの簡略図を示す。用語を圧縮のコンテキストに合わせるために、オートエンコーダ内のエンコーダ/デコーダを意図的に「トランスフォーマ」/「逆トランスフォーマ」と改名したことに留意されたい。
【0037】
ティアリングネットにおける2Dグリッド画像は、逆トランスフォーマ(デコーダ)内に導入され、更新される。2Dグリッド画像は、特定の解像度の2Dサンプリンググリッドに基づいて定義される。一実施形態では、グリッド画像内の2つのチャネル(u,v)は、2D空間内の座標を表す。別の実施形態では、それらは、2D空間におけるそれらのデフォルト位置に対する座標オフセットを表す。2Dグリッド画像は、N=W×H個のグリッド点を含み、W及びHは、グリッド画像の幅及び高さである。グリッド画像内のグリッド点は、均一に分布していてもよく、不均一に分布していてもよい(例えば、ランダムに分布していてもよい)。2Dグリッド画像は、ニューラルネットワークアーキテクチャを介してコードワードからトポロジ情報を発見することを意図している。ニューラルネットワークは生の入力点群にアクセスできないことに留意されたい。
【0038】
入力点群PCから(M個の点)、変換モジュールPN(210)は、潜在空間においてコードワードCW(220)を生成する。ここで、潜在空間とは、特徴量を含む抽象的な多次元空間を指し、コードワードCWは、点群を表す特徴ベクトルである。典型的には、コードワードは、点群の高レベル記述又は大まかな表現を提供することができる。
【0039】
逆変換処理は、2つのFNモジュール(230、260)と1つのTNモジュール(240)から構成される。FNモジュールは、コードワード及び2Dグリッド画像から点群を再構築するために使用される。FNモジュール(230)の第1の呼び出しは、コードワードCWに加えて、デフォルトの2Dグリッド画像(270,UV)を入力として取る。FNモジュールの第2の呼び出し(260)は、2Dグリッド画像に基づく修正された2Dグリッド(250,UV)及びコードワードCWを入力として取る。FNモジュールから出力される点群(PC’、PC)は、N個の点を含み、Nは、必ずしもMに等しいわけではない。一実施形態では、2つのFNモジュール(230、260)は、同じ重みを共有する。図2では、2Dグリッド画像は正方形の形状を有する。より一般的には、2Dグリッド画像は、2D球又は2D矩形などの他の形状を取ることができる。グリッド点は、2D画像内の2Dグリッド点ではなく3Dグリッド点であってもよい。
【0040】
TNモジュールは、修正された2Dグリッドを表す更新されたグリッド画像(250、UV)を生成する。TNモジュールは、デフォルト2Dグリッド(250、UV)、コードワードCW、並びにFNの第1の呼び出しからの出力を入力として取る。グリッド画像内の各ピクセルは、関連付けられた2D点のシフトを示す一対の値(Du及びDv)を有する。2Dグリッドにおける修正は、再構築された点位置を精緻化するために使用されることができる。したがって、FNモジュールの第2の呼び出しは、更新された2Dグリッドを入力として使用するので、FNの第2の呼び出しは、FNの第1の呼び出しよりも正確な点群を再構築することができる。
【0041】
そのような復号アーキテクチャを用いて、ティアリングネット変換(PN)は、エンドツーエンドトレーニングを介して複雑な対象物形状のためのより良好な表現可能性を有するコードワードを生成することができる。
【0042】
提案された変換:ティアリング変換
ティアリングネットの設計は、コードワードCWの高レベル表現可能性を促進するためのものであり、デコーダにコードワードCWから点群内の微細な詳細を再構築させることは困難である。したがって、元の点群を表すためにティアリングネットからのコードワードCWを圧縮するだけでは、元の点群の大まかな形状を再構築するだけであり得るが、元の点群と再構築された点群との間の点間歪みは大きくなり得、したがって、良好な点群圧縮を提供しない。
【0043】
この課題に対処するために、すなわち、点群における微細な詳細の再構築を確実にするために、図3に示すように、ティアリングネットに基づく異なる構造を使用するティアリング変換が提案されている。
【0044】
コードワードCWは点群の詳細を十分に表すことができないので、2Dグリッド画像を逆変換(復号)への余剰な入力とすることが提案される。図2に示したティアリングネットと同様に、グリッド画像内のグリッド点は、グリッド点の位置を示すために依然として使用される。しかしながら、グリッド画像がティアリングネットでどのように使用されるかとは異なり、2Dグリッド画像は、ここでは、入力点群におけるより微細な幾何学的詳細を明らかにすることを意図する。ティアリング変換では、逆変換(復号)は単一のFNモジュール(360)によってのみ構成され、順変換(符号化)は3つのモジュールPN(310)、FN(330)、及びTN(340)から構成される。逆変換(復号)FNは、順変換(符号化)プロセスに埋め込まれる。
【0045】
更に、新しい2Dグリッド画像は、入力点群PCを追加入力として受け入れるように提案された新しいTNモジュール(340)によって生成される。入力点群は、ティアリングネットにおける復号プロセスに属するため、ティアリングネットのコンテキストではTNモジュールに利用不可能であった。ここで、TNモジュールは順変換(符号化)の一部であるため、TNモジュールは入力点群へのアクセスを有する。新たに導入された入力は、ティアリング変換のTNモジュールが、ティアリングネットの場合とは異なる目標を果たすこと、すなわち、復号が点群内の微細構造詳細を回復するのを助けることを可能にする。
【0046】
具体的には、順変換(符号化)は、図3に示すように、次のように動作する。PNモジュール310は、入力点群PCを入力として取り、コードワードCW(320)を生成する。次いで、コードワードCW及びデフォルトグリッド画像UV(370、2Dグリッド)が、点群PC’の予備的再構築を出力するFNモジュール(330)に供給される。次いで、TNモジュール(340)は、デフォルトグリッド画像PC’、PC及びCWを入力として取り、更新されたグリッド画像UV(350)を出力として生成する。最後に、ティアリング変換の順変換は、CW及び更新されたグリッド画像を出力する。なお、ここで、PN及びFNは、図2のティアリングネットと同じ構成を用いることができる。しかしながら、TNはここで追加の入力PCを取るので、ここで使用されるTNの構造は、図2のTNの構造とは異なる。
【0047】
逆変換(復号)は以下のように動作する。FNモジュール360は、コードワードCW及びグリッド画像を入力として取り、点群PCを出力として再構築する。
【0048】
したがって、ティアリング変換では、点群がコードワードCWとグリッド画像とに分解される。コードワードCWは、点群の基本形状を再構築するために使用され、CWは、基礎となる幾何形状を表す低ランク成分とみなすことができる。グリッド画像は、点群内の微細な詳細を再構築するためのものであり、グリッド画像は、点サンプリングパターンを表すスパース成分とみなすことができる。
【0049】
ティアリング変換におけるPNのための提案されたネットワークアーキテクチャ
図4は、PNモジュールの詳細なアーキテクチャの一例を示しており、入力点群PC(410)を入力として取り、潜在空間においてコードワードCW(470)(の転置)を出力する。特に、入力点群PCは、M個の点を含み、各点Pは、その3D位置(x,y,z)によって表される。色又は法線などの追加の属性も点群データに含めることができる。PNモジュールは、共有MLP(Multi-layer Perceptron(マルチレイヤパーセプトロン)、420)のセットから構成される。パーセプトロンは、各3D点に独立して並列に適用される(括弧内の数字はレイヤサイズを示す)。共有MLPのセットの出力である点特徴(430、M×1024)は、長さ1024を有するグローバル特徴(450)を抽出するグローバル最大値プーリング動作(440)によって集約される。それは、MLPレイヤの別のセットで更に処理され(460)、長さ512を有する出力コードワードCW(470)をもたらす。
【0050】
ティアリング変換におけるFNのための提案されたネットワークアーキテクチャ
図5は、FNモジュールの詳細な設計の一例を示しており、コードワードCW及びデフォルトの2Dグリッド(UV)を入力として取り、再構築された3D点群PCoutを出力する。ここで、FNモジュールは、2つの系列の共有MLPレイヤ(540、570)から構成される。FNモジュールは、コードワードによってガイドされる2Dから3Dへのマッピングとして見ることができ、2Dグリッド画像内のN個のグリッド点は、再構築された点群の表面上のN個の点にマッピングされる。
【0051】
コードワードはN回複製され、結果として生じるN×512行列(510)は、2Dグリッド画像内のN個のグリッド点を含むN×2行列(520)と連結される。連結の結果は、サイズN×514行列(530)であり、これは、第1の系列の共有MLPレイヤ(540)に供給されて、サイズN×3行列(550)を出力する。次いで、複製されたコードワードは、N×3出力(550)に連結されて、サイズN×515(560)の行列を形成し、これは、第2の系列の共有MLPレイヤ(570)に供給される。最終出力PCout(580)は、N×3行列によって表される再構築された点群であり、ここで、Nは、出力点群PCout内の点の数である。
【0052】
ティアリング変換におけるTNのための提案されたネットワークアーキテクチャ
図6は、一実施形態による、TNモジュールのための詳細な設計の一例を示す。この実施形態では、TNモジュールは、(転置された)コードワードCW、2Dグリッド画像、元の点群PC、及び予備的に再構築された点群PC’を入力として取り、修正されたグリッド画像を出力する。TNは、2つの共有MLPレイヤのセット(630、650)から構成される。すなわち、PC’からの1つの点がTNモジュールへの入力として供給されるたびに、TNモジュールは、修正されたグリッド画像(UV)内の1つの点を出力する。TNモジュールは、点群再構築精度を改善し、最終的にコードワードの表現可能性を向上させるために、2Dグリッド画像内の点に対する点ごとの修正を学習して、点群表面に沿った誤差をオフセットすることが分かる。
【0053】
各ポイントP’=PC’内の
【0054】
【数1】
は、2DグリッドUVにおける2D点(u,v)に対応する。換言すれば、PC’内の点は(u,v)を介してインデックス付けされる。各P’について、入力点群PC内の対応する点Pは、最近傍探索又は最適割り当てを介して(例えば、NNモジュール610を使用して)識別することができる。P’とPとの誤差は、(xδ,yδ,zδ)として計算される。
【0055】
点ごとに、コードワードはN回複製され、N×512行列(625)は、
【0056】
【数2】
を含むN×6行列(615)及び2Dグリッド画像内のN個の点を含むN×2行列(655)と連結される。連結の結果は、サイズN×520(625)の行列であり、これは、第1の系列の共有MLPレイヤ(630)に供給されて、サイズN×64(635)の中間特徴を形成する。次いで、複製されたコードワード(625)は、
【0057】
【数3】
を含むN×6行列(615)、中間特徴(635)、N個のグリッド点を含むN×2行列(655)に連結されて、サイズN×584(645)の行列を形成し、これは第2の系列の共有MLPレイヤ(650)に供給される。出力は、入力2Dグリッド画像内のN個の点に対する点ごとの修正を含むN×2行列(675)である。更新された画像UVを得るために、点ごとの修正がUVに加えられる(680)。
【0058】
別の実装形態では、N×6行列(615)は、
【0059】
【数4】
の代わりに
【0060】
【数5】
を含むことができ、ここで、(x,y,z)はPC内の点Pの絶対座標を表す。更に別の例では、N×6行列は、誤差(xδ,yδ,zδ)及び絶対座標(x,y,z)の両方を含むことができる。
【0061】
以上、PNモジュール、FNモジュール、TNモジュールの例について説明した。これらのモジュールは、異なるネットワーク構造又は構成を使用することができることに留意されたい。例えば、MLP次元は、実際のシナリオの複雑さに従って調整されてもよく、又はMLPのより多くのセットが使用されてもよい。一般に、入力/出力要件を満たす任意のネットワーク構造を使用することができる。
【0062】
TNモジュールのためのネットワーク構造に関して、畳み込みニューラルネットワーク(convolutional neural network、CNN)レイヤが、MLPレイヤの代わりに使用され得る。上記では、2Dグリッド(655)からのN個の点は、必然的にサイズN’×N’×2のN’×N’2D画像として配列され得、ここで、N’は、正方形グリッドの次元数あり、N’×N’=Nである。同様に、CW(625)のN×512行列は、N’×N’×512として配列され得、全ての点についての
【0063】
【数6】
からなるN×6行列(615)は、N’×N’×6として配列され得る。結果として、N×520行列(625)は、ここで、サイズN’×N’×520の3Dボリュームになる。2系列のMLPレイヤを使用する代わりに、一実施形態では、2系列の2D畳み込みレイヤを使用して3Dボリュームを消費する。この実施形態では、第1の系列の畳み込みレイヤは、元のN×64行列(635)の代わりにサイズN’×N’×64のテンソルを出力する。ここで、第2の系列の畳み込みレイヤへの入力は、サイズN’×N’×584のボリュームになり、最終出力(UV)は、サイズN’×N’×2のボリュームになる。
【0064】
拡張ティアリング変換
前の例では、2Dグリッド画像内の成分(u,v)は、表面に沿った誤差をオフセットすることができるが、表面法線方向に沿った誤差を処理することはできない。この実施形態では、拡張ティアリング変換が提案され、図7は、一実施形態による、順変換がどのように動作するかを示す。コードワードCW及びグリッド画像(UV)は、図3に示されるように生成され、これらは依然として順変換の出力である。UVに基づいて別の予備的な点群PC’’を生成するために、第2のFNモジュール(710)が順変換に挿入される。
【0065】
予備再構築PC’’内の点P’’ごとに、その対応する点が入力点群PC内で追加的にインデックス付けされ、すなわち、点の対がTNモジュールの始めに確立される。特に、予備的に最構成された点群PC’’内の点P’’ごとに、入力された生の点群から最近傍点Pが識別される。法線ベクトル(D)は、PC’’内の点P’’について計算することができる。次いで、点P’’からPへの誤差ベクトルが(P-P’’)として計算され、誤差ベクトル(P-P’’)が法線ベクトルに沿って投影されて、点P’’上の法線方向に沿ったオフセット誤差を生成する(720)。すなわち、(P-P’’)(D)であり、ここで「」は2つのベクトル間の内部生成である。投影誤差ベクトルの長さ(W)は、予備的な点群再構築PC’’における点ごとに出力される(730)。
【0066】
法線は、例えば、ティアリングネットによって生成されたメッシュ状グラフに基づいて計算することができる。具体的には、メッシュ状グラフは、最初に、4個の最近傍点を使用して元の2Dグリッド内に構築される。2Dグリッド点が点群PC’’にマッピングされると、グラフはメッシュとして現れる。グラフエッジは、マッピング中に互いから遠くに移動されるときに除去することができることに留意されたい。メッシュ状グラフ内の点P’’について、P’’が属するメッシュ状グラフ上の三角形を識別し、次いでP’’の法線を三角形の法線として計算する。
【0067】
逆変換の場合、図8に示されるように、コードワードCW(810)及びグリッド画像UV(840)は、FNモジュール820に基づいて予備的な点群PC’’のための点P’’を構築するために使用され、次いで、それは、法線方向D(850)に沿ったオフセット誤差Wによって精緻化される(830)。すなわち、(P’’+D×W)であり、ここで、法線ベクトルDは、PC”内の点P”について計算される。
【0068】
この実施形態では、コードワードCWは、予備的で滑らかな表面を再構築するのに役立つ。グリッド画像は、接平面に沿って点位置を訂正することを意図しており、Wは、法線方向に沿って訂正を行うことを意図している。
【0069】
提案された圧縮フレームワーク:ティアリング圧縮
この実施形態では、学習ベースの点群圧縮システムにおいてティアリング変換を適用することが提案される。図9は、一実施形態による、ティアリング圧縮エンコーダの全体図を示す。再構築された点群の単一の出力を有する変換のみの図と比較して、ティアリング圧縮は更に、コードワードCW及びグリッド画像をビットストリームに圧縮する。PNモジュール(910)、FNモジュール(930)、及びTNモジュール(940)は、図7に示されるようなティアリング変換における対応するPNモジュール、FNモジュール、TNモジュールと同じ構造を使用することができる。
【0070】
提案された圧縮システムでは、符号化中にFNモジュール(930)に供給される前に、量子化ステップ(920,QCW)がコードワードCW(915)に適用されて、量子化された符号化ワードCW’(925)が得られる。一例では、CW’=rounding(CW/QS)であり、ここで、QSは選択された量子化ステップである。量子化の動機の1つは、FNモジュールへの入力を符号化ステージと復号ステージとの間で正確に一致させることである。
【0071】
コードワードCWの圧縮は、均一なノイズを加えることによって量子化動作を近似する、因数分解された事前モデルに基づく変分オートエンコーダなど、ニューラルネットワークベースのモジュール(950)であり得る。それは、エンドツーエンドトレーニングのために微分可能ビットレートRCWを出力する。
【0072】
一実施形態では、グリッド画像(945)に対する圧縮(960)は、最先端の画像/ビデオ圧縮方法、例えば、JPEG、MPEG AVC/HEVC/VVCに基づくことができる。量子化(960)は、例えば、グリッド画像内の浮動小数点数を2Dビデオエンコーダによって使用されるデータフォーマットに変換するために、圧縮の前に実行される。別の実施形態では、圧縮(960)は、均一なノイズを追加することによって量子化動作を近似する、因数分解された事前モデル又はスケールハイパープライアモデルに基づく変分オートエンコーダなど、ニューラルネットワークベースの方法であり得る。それは、エンドツーエンドトレーニングのために微分可能ビットレートRUVを出力する。
【0073】
別の実施形態では、拡張ティアリング変換におけるように、UVがUVWによって拡張される場合、チャネルWも圧縮されて送信される必要がある。一例では、Wチャネルは、2Dグリッド画像と同様に圧縮することができる。
【0074】
提案されたティアリング圧縮デコーダ
図10は、一実施形態による、デコーダの図を示す。デコーダへの入力は、図9に示すように、ティアリング圧縮に基づいて、エンコーダによって生成されたビットストリームである。デコーダは、まず、符号化されたシンボルからCW(1010)及びグリッド画像(1040)を再構築し(1005、1035)、次いで、コードワードCW及びグリッド画像をニューラルネットワークベースの逆変換モジュールFNモジュール(1020)に供給して、点群(PC’’)を再構築する。デコーダは、コードワードCW及びグリッド画像を生成するために使用された圧縮方法に対応する解凍方法を使用する。この復号モジュールFNは、コードワードCW及びグリッド画像の両方の入力を取って、点群を再構築する。最後に、再構築された点群が出力される。
【0075】
エンコーダ側であれば、チャネルWは圧縮される。次いで、Wチャネルに対応するビットストリームも解凍され(1045)、Wチャネルが再構築される(1050)。点群PC’’は、Wによって精緻化されて(1030)、最終出力点群PCを生成することができる。
【0076】
図9及び図10の例では、コードワード、グリッド画像、及びW画像のための別個のビットストリームがある。これらのビットストリームの一部又は全部が単一のビットストリームに多重化され得ることに留意されたい。
【0077】
トレーニング
図3に示されるようなティアリング変換は、オートエンコーダとして自己監視方式でトレーニングされ得る。一実施形態では、損失関数は、入力点群PCと出力点群PCとの間の誤差メトリック、例えば、面取り距離(chamfer distance、CD)又はアースムーバ距離(earth mover distance、EMD)に基づいて定義される。
【0078】
別の実施形態では、ティアリング変換のトレーニングは2段階計画に従う。第1段階では、図11に示すように、TNモジュールが図から除去され、ティアリング変換が、PNモジュール(1110)及びFNモジュール(1120)のみからなるフォールディングネット(FoldingNet)図に縮小される。このフォールディングネット図のトレーニングは、PNモジュール及びFNモジュールのための初期重みパラメータセットを提供することである。トレーニング中、損失関数は、増大面取り距離(CD)に基づく。
【0079】
【数7】
ここで、第1項に対してより大きな重み付け係数wを使用し、第2項に対してより小さな重み付け係数wを使用する。
【0080】
第2段階では、PN及びFNのネットワークパラメータがティアリング変換に予めロードされる。次いで、元の面取り距離関数、すなわち、w及びwの両方が1に等しい関数を使用して、ティアリング変換のエンドツーエンドトレーニングが実行される。
【0081】
より計算効率のよい別の実施形態では、再構築点と入力生点群との間の点の対がTN成分における最近傍探索中に確立されているので、損失関数は、入力点群PCと出力点群PCとの間の点ごとの誤差として定義することができる。
【0082】
ティアリング変換のためのトレーニングステップは、修正することなく拡張ティアリング変換に直接適用することができる。
【0083】
ティアリング変換のトレーニング方法を以下のように拡張して、図9に示されるエンコーダ(Wの符号化がないと仮定する)及び図10のデコーダを含む図12のティアリング圧縮システムをトレーニングすることができる。ティアリング変換と比較して、ティアリング圧縮は、出力点群に加えてビットストリームを出力する余剰なヘッドを有する。したがって、ティアリング圧縮に対して2段階計画を拡張する場合、以下のステップが適用される。
【0084】
第1段階では、フォールディングネット図が最初に前述の方法でトレーニングされる。第2段階では、ティアリング圧縮でのエンドツーエンドトレーニングが行われる。PN及びFNモジュールには、第1のステージから学習されたパラメータがロードされる。面取り距離によって測定される再構築品質は、以下に説明するように、2つのビットストリームのビットレートによって正規化される。
【0085】
【数8】
ここでRCW及びRUVは、それぞれコードワードCW及びグリッド画像のビットレートであり、λ及びμは、正則化パラメータである。
【0086】
機械のための符号化
多くの場合、点群は、人間の眼によって見られるだけでなく、機械指向のタスク、例えば、分類、セグメント化などのためのものでもある。そのようなシナリオでは、コードワードCWは、予備的な点群を再構築することに加えて、点群の高レベル記述としての役割を果たすべきであることが指摘されるべきである。グリッド画像は、依然として、点群内の微細な詳細には重要である。コードワードCWのそのような二重の役割は、人間の知覚の必要性と機械タスクとの間のトレードオフを可能にする。例えば、コードワードCWは、図13に示されるような分類(1310)のような下流タスクに供給されてもよい。この追加のヘッドは、符号化と分類との間のトレードオフのための余剰な監視を提供する。
【0087】
別の実施形態では、PNモジュールは、ダウンストリームビジョンタスクを支持するために異なるアーキテクチャを選択することができる。トレーニングを介して、TNモジュールは、コードワードCWにおいて新たに導入されたバイアスを補償するために、更新されたパラメータのセットを有することになる。
【0088】
上記の実施形態では、変換/符号化される入力点群は、完全な点群フレームである。別の実施形態では、最初に完全な点群フレームをより小さい点群ブロックに分割することが提案される。次いで、点群ブロックは、入力点群を処理するのに必要な複雑さを制限するために、提案されたティアリング変換又はティアリング圧縮に入力として供給される。
【0089】
本出願において、様々な数値が使用されている。具体的な値は、例示目的のためであり、記載の態様は、これらの具体的な値に限定されない。
【0090】
本明細書に記載の実装形態及び態様は、例えば、方法又はプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装され得る。たとえ単一の形式の実装形態の文脈でのみ考察されている場合でも(例えば、方法としてのみ考察されている)、考察された特徴の実装形態は、他の形式(例えば、装置又はプログラム)でも実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。本方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型/パーソナルデジタルアシスタント(personal digital assistant、「PDA」)及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。
【0091】
「一実施形態」若しくは「ある実施形態」又は「一実装形態」若しくは「ある実装形態」、並びにそれらの他の変形形態への言及は、その実施形態に関連して説明する特定の特徴、構造、特性などが、少なくとも1つの実施形態に含まれることを意味する。したがって、本出願全体を通して様々な場所に現れる「一実施形態では」若しくは「ある実施形態では」又は「一実装形態では」若しくは「ある実装形態では」、並びに他の変形形態という句が現れるとき、必ずしも全てが同じ実施形態を指しているのではない。
【0092】
加えて、本出願は、様々な情報を「判定すること」に言及し得る。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの1つ以上が含み得る。
【0093】
更に、本出願は、様々な情報に「アクセスすること」に言及する場合がある。情報にアクセスすることには、例えば、情報を受信すること、情報を(例えば、メモリから)取り出すこと、情報を記憶すること、情報を移動させること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの1つ以上が含まれ得る。
【0094】
加えて、本出願は、様々な情報を「受信すること」に言及する場合がある。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は情報を(例えば、メモリから)取り出すことのうちの1つ以上を含み得る。更に、「受信すること」は、典型的には、動作、例えば、情報を記憶すること、情報を処理すること、情報を送信すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することの間に、何らかの形で関与する。
【0095】
例えば、「A/B」、「A及び/又はB(A and/or B)」及び「A及びBのうちの少なくとも1つ(at least one of A and B)」の場合、次の「/」、「及び/又は(and/or)」、及び「のうちの少なくとも1つ(at least one of)」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は両方の選択肢(A及びB)の選択を包含することが意図されていることを理解されるべきである。更なる実施例として、「A、B、及び/又はC(A,B,and/or C)」及び「A、B、及びCのうちの少なくとも1つ(at least one of A,B,and C)」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は第3のリストされた選択肢(C)のみの選択、又は第1及び第2のリストされた選択肢(A及びB)のみの選択、又は第1及び第3のリストされた選択肢(A及びC)のみの選択、又は第2及び第3のリストされた選択肢のみの選択(B及びC)のみ、又は3つ全ての選択肢の選択(A及びB及びC)を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。
【0096】
当業者には明らかであるように、実装形態は、例えば、記憶又は送信され得る情報を搬送するようにフォーマットされた様々な信号を生成し得る。情報は、例えば、方法を実行するための命令又は記載された実装形態のうちの1つによって生成されたデータを含み得る。例えば、信号は、説明された実施形態のビットストリームを搬送するようにフォーマットされ得る。かかる信号は、例えば、(例えば、スペクトルの無線周波数部分を使用して)電磁波として、又はベースバンド信号としてフォーマットされ得る。フォーマットすることは、例えば、データストリームを符号化し、符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する信号は、例えば、アナログ情報又はデジタル情報であり得る。信号は、知られているように、様々な異なる有線又は無線リンクによって送信され得る。信号は、プロセッサ可読媒体に記憶され得る。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
【手続補正書】
【提出日】2023-12-11
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
点群データを復号するための方法であって、
少なくともビットストリームから、点群の表現を提供するコードワードを復号することと、
前記少なくともビットストリームから、前記点群の前記表現に精緻化情報を提供するグリッド画像を復号することと、
ニューラルネットワークベースのモジュールを使用して、復号された前記コードワード及び復号された前記グリッド画像に基づいて、前記点群を再構築することと、を含む、方法。
【請求項2】
前記ニューラルネットワークベースのモジュールは、少なくとも第1のセットのレイヤ及び第2のセットのレイヤを含み、前記第1のセットのレイヤは、前記復号されたコードワード及び前記復号されたグリッド画像に応答し、前記第2のセットのレイヤは、前記第1のセットのレイヤの出力及び前記復号されたコードワードに応答する、請求項1に記載の方法。
【請求項3】
前記第1のセットのレイヤは、第1のセットの共有マルチレイヤパーセプトロン(MLP)に対応し、前記第2のセットのレイヤは、第2のセットの共有MLPに対応する、請求項2に記載の方法。
【請求項4】
前記グリッド画像は、ピクセルのセットを含み、前記グリッド画像内の各ピクセルは、2D位置を示す2つのチャネルを含む、請求項1に記載の方法。
【請求項5】
点群データを符号化するための方法であって、
第1のニューラルネットワークベースのモジュールによって、前記点群データに関連付けられた入力点群の表現を提供するコードワードを生成することと、
第2のニューラルネットワークベースのモジュールによって、前記コードワード及びグリッド画像に基づいて、第1の点群を再構築することと、
第3のニューラルネットワークベースのモジュールによって、再構築された前記第1の点群、前記コードワード、及び前記入力点群に基づいて、前記グリッド画像を調整して別のグリッド画像を生成することと、
前記コードワードを圧縮することと、
前記別のグリッド画像を圧縮することと、
圧縮された前記コードワードと圧縮された前記別のグリッド画像とを含む少なくともビットストリームを生成することと、を含み、前記圧縮された別のグリッド画像は、復号中に前記入力点群の前記表現を精緻化するために使用される、方法。
【請求項6】
前記第2のニューラルネットワークベースのモジュールは、少なくとも第1のセットのレイヤ及び第2のセットのレイヤを含み、前記第1のセットのレイヤは、復号された前記コードワード及び復号された前記グリッド画像に応答し、前記第2のセットのレイヤは、前記第1のセットのレイヤの出力及び前記復号されたコードワードに応答する、請求項5に記載の方法。
【請求項7】
前記グリッド画像は、ピクセルのセットを含み、前記グリッド画像内の各ピクセルは、2D位置を示す2つのチャネルを含む、請求項5に記載の方法。
【請求項8】
前記第3のニューラルネットワークベースのモジュールによって、前記再構築された第1の点群内の点P’ごとに、前記入力点群内の対応する点Pを取得することと、
P’とPとの間の誤差を取得することと、を更に含む、請求項5に記載の方法。
【請求項9】
前記第3のニューラルネットワークベースのモジュールは、少なくとも第3のセットのレイヤ及び第4のセットのレイヤを含み、前記第3のセットのレイヤは、前記復号されたコードワード、前記グリッド画像、及び前記誤差に応答し、前記第4のセットのレイヤは、前記第3のセットのレイヤの出力、前記復号されたコードワード、前記グリッド画像、及び前記誤差に応答する、請求項8に記載の方法。
【請求項10】
前記グリッド画像は、前記別のグリッド画像を形成するために前記第4のセットのレイヤの出力に応答して調整される、請求項9に記載の方法。
【請求項11】
1つ以上のプロセッサと少なくとも1つのメモリとを備える、点群データを復号するための装置であって、前記1つ以上のプロセッサは、
少なくともビットストリームから、点群の表現を提供するコードワードを復号し、
前記少なくともビットストリームから、前記点群の前記表現に精緻化情報を提供するグリッド画像を復号し、かつ
ニューラルネットワークベースのモジュールを使用して、復号された前記コードワード及び復号された前記グリッド画像に基づいて、前記点群を再構築するように構成されている、装置。
【請求項12】
前記ニューラルネットワークベースのモジュールは、少なくとも第1のセットのレイヤ及び第2のセットのレイヤを含み、前記第1のセットのレイヤは、前記復号されたコードワード及び前記復号されたグリッド画像に応答し、前記第2のセットのレイヤは、前記第1のセットのレイヤの出力及び前記復号されたコードワードに応答する、請求項11に記載の装置。
【請求項13】
前記グリッド画像は、ピクセルのセットを含み、前記グリッド画像内の各ピクセルは、2D位置を示す2つのチャネルを含む、請求項11に記載の装置。
【請求項14】
1つ以上のプロセッサと少なくとも1つのメモリとを備える、点群データを符号化するための装置であって、前記1つ以上のプロセッサは、
第1のニューラルネットワークベースのモジュールによって、前記点群データに関連付けられた入力点群の表現を提供するコードワードを生成し、
第2のニューラルネットワークベースのモジュールによって、前記コードワード及びグリッド画像に基づいて、第1の点群を再構築し、
第3のニューラルネットワークベースのモジュールによって、再構築された前記第1の点群、前記コードワード、及び前記入力点群に基づいて、前記グリッド画像を調整して別のグリッド画像を生成し、
前記コードワードを圧縮し、
前記別のグリッド画像を圧縮し、かつ
圧縮された前記コードワードと圧縮された前記別のグリッド画像とを含む少なくともビットストリームを生成するように構成されており、前記圧縮された別のグリッド画像は、復号中に前記入力点群の前記表現を精緻化するために使用される、装置。
【請求項15】
前記第2のニューラルネットワークベースのモジュールは、少なくとも第1のセットのレイヤ及び第2のセットのレイヤを含み、前記第1のセットのレイヤは、復号された前記コードワード及び復号された前記グリッド画像に応答し、前記第2のセットのレイヤは、前記第1のセットのレイヤの出力及び前記復号されたコードワードに応答する、請求項14に記載の装置。
【請求項16】
前記グリッド画像は、ピクセルのセットを含み、前記グリッド画像内の各ピクセルは、2D位置を示す2つのチャネルを含む、請求項14に記載の装置。
【請求項17】
前記1つ以上のプロセッサが、
前記第3のニューラルネットワークベースのモジュールによって、前記再構築された第1の点群内の点P’ごとに、前記入力点群内の対応する点Pを取得し、かつ
P’とPとの間の誤差を取得するように更に構成されている、請求項14に記載の装置。
【請求項18】
前記第3のニューラルネットワークベースのモジュールは、少なくとも第3のセットのレイヤ及び第4のセットのレイヤを含み、前記第3のセットのレイヤは、前記復号されたコードワード、前記グリッド画像、及び前記誤差に応答し、前記第4のセットのレイヤは、前記第3のセットのレイヤの出力、前記復号されたコードワード、前記グリッド画像、及び前記誤差に応答する、請求項17に記載の装置。
【請求項19】
前記グリッド画像は、前記別のグリッド画像を形成するために前記第4のセットのレイヤの出力に応答して調整される、請求項14に記載の装置。
【請求項20】
前記第3のセットのレイヤは、第3のセットの共有MLPに対応し、前記第4のセットのレイヤは、第4のセットの共有MLPに対応する、請求項14に記載の装置。
【国際調査報告】