(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-05
(45)【発行日】2024-04-15
(54)【発明の名称】3次元コンテンツ処理方法および装置
(51)【国際特許分類】
H04N 21/845 20110101AFI20240408BHJP
H04N 21/435 20110101ALI20240408BHJP
H04N 5/92 20060101ALI20240408BHJP
【FI】
H04N21/845
H04N21/435
H04N5/92 010
(21)【出願番号】P 2022546010
(86)(22)【出願日】2020-06-24
(86)【国際出願番号】 CN2020098010
(87)【国際公開番号】W WO2021258325
(87)【国際公開日】2021-12-30
【審査請求日】2022-09-21
(73)【特許権者】
【識別番号】511151662
【氏名又は名称】中興通訊股▲ふん▼有限公司
【氏名又は名称原語表記】ZTE CORPORATION
【住所又は居所原語表記】ZTE Plaza,Keji Road South,Hi-Tech Industrial Park,Nanshan Shenzhen,Guangdong 518057 China
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】バイ, ヤシアン
(72)【発明者】
【氏名】フアン, チェン
【審査官】鈴木 順三
(56)【参考文献】
【文献】国際公開第2019/078000(WO,A1)
【文献】国際公開第2020/060813(WO,A1)
【文献】特表2002-507799(JP,A)
【文献】特開2013-038775(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 - 21/858
H04N 5/76 - 5/956
(57)【特許請求の範囲】
【請求項1】
3次元コンテンツを処理する方法であって、前記方法は、
1つの幾何学形状サブビットストリームおよび1つ以上の属性サブビットストリームとして表された3次元(3D)コンテンツを含むビットストリームの詳細のレベル(LoD)情報を解析すること
であって、前記LoD情報を解析することは、複数の詳細のレベルを含む前記ビットストリームにおける第1の構文構造を識別することを含む、ことと、
前記LoD情報に基づいて、所望の詳細のレベルに対応する前記幾何学形状サブビットストリームおよび前記1つ以上の属性サブビットストリームのうちの少なくとも一部をデコードすることによって、デコードされた情報を生成することと、
前記デコードされた情報を使用して、少なくとも前記所望の詳細のレベルに対応する3次元場面を再構築すること
であって、前記ビットストリームは、前記3Dコンテンツの複数の詳細のレベルに従って編成されたフォーマットに準拠している
、ことと
、
前記ビットストリームにおけるサンプルエントリタイプフィールドを使用して、前記ビットストリームが空間スケーラビリティ機能性をサポートするかどうかを決定することと、前記第1の構文構造を識別することと
を含み
、
複数の詳細のレベルを伴う前記ビットストリームの前記第1の構文構造は、
全部のレベルの組の前記ビットストリームがサブサンプル構造を伴う1つのトラック内で搬送される第1の構造と、
前記
1つのトラック内の各レベルの前記ビットストリームを伴うエクストラクタを含む第2の構造と、
より低いレベルからの冗長データを伴う前記1つのトラック内の1つ以上のレベルの前記ビットストリームを含む第3の構造と
を備えている、方法。
【請求項2】
前記LoD情報を解析することは、
前記ビットストリームが空間スケーラビリティサブビットストリームを備えているかどうかを決定すること
、
第2の構文構造、サブサンプル構造、サンプルエントリ、または
、記述子を使用して、前記LoD情報を識別すること、または、
前記所望の詳細のレベルまたは全部のレベルの組に対応するコンテンツの位置を特定すること
を含む、請求項1に記載の方法。
【請求項3】
前記サブサンプル構造は、前記LoD情報を表すcodec_specific_parametersフィールド拡張子を備えている、請求項2に記載の方法。
【請求項4】
前記方法は、前記サンプルエントリにおけるLoD値を使用して、前記ビットストリームのLoDの値を識別することを含む、請求項2に記載の方法。
【請求項5】
前記方法は、
第1のトラックグループタイプを使用して、全部の詳細のレベルに対応するサブストリームを含む1つ以上のトラックを識別することと、
全部の詳細のレベルに対応する前記1つ以上のトラックにおけるデータをデコードすることと
を含む、請求項1に記載の方法。
【請求項6】
前記方法は、単一トラックにおける前記所望の詳細のレベルおよび1つ以上のより低いレベルに対応する前記ビットストリームのうちの一部をデコードすることを含む、請求項1に記載の方法。
【請求項7】
前記所望のLoDに対応する前記ビットストリームのうちの一部が、単一トラックカプセル化を伴う前記所望のLoDに対応するデータを含み、
前記単一トラックカプセル化は、同じトラックにカプセル化され
た1つの幾何学形状ビットストリームと1つ以上の属性ビットストリームとを備えている、請求項1に記載の方法。
【請求項8】
前記所望のLoDに対応する前記ビットストリームのうちの一部が、複数トラックカプセル化を伴う前記所望のLoDに対応するデータを含み、
前記複数トラックカプセル化は、別個のトラックにカプセル化され
た1つの幾何学形状ビットストリーム
と1つ以上の属性ビットストリームとを備えている、請求項1に記載の方法。
【請求項9】
前記3次元場面を再構築することは、
前記3Dコンテンツにおける各点の空間位置および1つ以上の属性値を再構築すること、または、
前記3Dコンテンツにおける各点の空間位置および属性値を再構築し、ユーザの視認位置およびビューポートに従って、3D場面をレンダリングすること
を含む、請求項1に記載の方法。
【請求項10】
請求項1
~9のうちのいずれか1項に記載
の方法を実装するように構成され
ているプロセッサを備えている3次元コンテンツ処理装置。
【請求項11】
プログラムコードが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラムコードは、プロセッサによって実行されると、請求項1
~9のうちのいずれか1項に記載
の方法を
実装することを前記プロセッサに
行わせる、コンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本特許文書は、ボリューム視覚的メディア処理および伝送技術を対象とする。
【背景技術】
【0002】
ビデオエンコーディングは、圧縮ツールを使用して、2次元ビデオフレームを記憶またはネットワークを経由して移送するためにより効率的である圧縮されたビットストリーム表現にエンコードする。エンコードするために2次元ビデオフレームを使用する従来的ビデオコーディング技法は、時として、3次元視覚的場面の視覚的情報の表現に関して非効率的である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本特許文書は、とりわけ、3次元視覚的メディア表現を含むビットストリームをエンコードまたはデコードするための技法を説明する。
【課題を解決するための手段】
【0004】
一例示的側面において、3次元コンテンツを処理する方法が、開示される。方法は、1つの幾何学形状サブビットストリームおよび1つ以上の属性サブビットストリームとして表された3次元(3D)コンテンツを含むビットストリームの詳細のレベル(LoD)情報を解析することと、LoD情報に基づいて、所望の詳細のレベルに対応する幾何学形状サブビットストリームおよび1つ以上の属性サブビットストリームのうちの少なくとも一部をデコードすることによって、デコードされた情報を生成することと、デコードされた情報を使用して、少なくとも所望の詳細のレベルに対応する3次元場面を再構築することとを含む。ビットストリームは、複数のレベルの3Dコンテンツの詳細に従って編成されたフォーマットに準拠する。
【0005】
別の例示的側面において、3次元コンテンツをエンコードする方法が、開示される。方法は、3次元(3D)コンテンツを1つ以上の詳細のレベル(LoD)に従って編成された幾何学形状サブビットストリームおよび1つ以上の属性サブビットストリームを備えているビットストリームにエンコードすることと、ビットストリームに、1つ以上のLoDと、幾何学形状サブビットストリームと、1つ以上の属性ビットストリームとの間の対応を示すLoD情報を含むこととを含む。
【0006】
別の例示的側面において、上記の説明される方法のうちの1つ以上を実装するための装置が、開示される。装置は、説明されるエンコーディングまたはデコーディング方法を実装するように構成されたプロセッサを含み得る。
【0007】
さらに別の例示的側面において、コンピュータプログラム記憶媒体が、開示される。コンピュータプログラム記憶媒体は、その上に記憶されたコードを含む。コードは、プロセッサによって実行されると、説明される方法をプロセッサに実装させる。
【0008】
これらおよび他の側面が、本書に説明される。
本発明はさらに、例えば、以下を提供する。
(項目1)
3次元コンテンツを処理する方法であって、前記方法は、
1つの幾何学形状サブビットストリームおよび1つ以上の属性サブビットストリームとして表された3次元(3D)コンテンツを含むビットストリームの詳細のレベル(LoD)情報を解析することと、
前記LoD情報に基づいて、所望の詳細のレベルに対応する前記幾何学形状サブビットストリームおよび前記1つ以上の属性サブビットストリームのうちの少なくとも一部をデコードすることによって、デコードされた情報を生成することと、
前記デコードされた情報を使用して、少なくとも前記所望の詳細のレベルに対応する3次元場面を再構築することと
を含み、
前記ビットストリームは、前記3Dコンテンツの複数の詳細のレベルに従って編成されたフォーマットに準拠している、方法。
(項目2)
前記LoD情報を解析することは、
前記ビットストリームが空間スケーラビリティサブビットストリームを備えているかどうかを決定すること、
複数の詳細のレベルを含む前記ビットストリームにおける第1の構文構造を識別すること、
第2の構文構造、サブサンプル構造、サンプルエントリ、または記述子を使用して、前記LoD情報を識別すること、または、
前記所望の詳細のレベルまたは全部のレベルの組に対応するコンテンツの位置を特定すること
を含む、項目1に記載の方法。
(項目3)
前記ビットストリームにおけるサンプルエントリタイプフィールドを使用して、前記ビットストリームが空間スケーラビリティ機能性をサポートするかどうかを決定することと、前記構造を識別することとを含む、項目2に記載の方法。
(項目4)
複数の詳細のレベルを伴う前記ビットストリームの前記構造は、
全部のレベルの組の前記ビットストリームがサブサンプル構造を伴う1つのトラック内で搬送される構造と、
各レベルの前記ビットストリームがエクストラクタを伴う1つのトラックにある構造と、
1つ以上のレベルの前記ビットストリームがより低いレベルからの冗長データを伴う1つのトラックにある構造と
を備えている、項目3に記載の方法。
(項目5)
前記デコードすることは、前記所望の詳細のレベルに対応する3Dコンテンツを含む1つ以上のサブサンプルをデコードすることを含む、項目1に記載の方法。
(項目6)
前記デコードすることは、詳細の全てのレベルに対応する3Dコンテンツを含むサブサンプルに関する全ての幾何学形状サブビットストリームをデコードすることを含む、項目1に記載の方法。
(項目7)
前記サブサンプル構造は、前記LoD情報を表すcodec_specific_parametersフィールド拡張子を備えている、項目2に記載の方法。
(項目8)
前記LoD情報を表す前記codec_specific_parametersフィールド拡張子は、以下の構文要素:ペイロードタイプ、リフティングスケーラビリティを示すフラグ、幾何学形状データユニットのみが含まれるかどうかを示すフラグ、属性データユニットのみが含まれるかどうかを示すフラグ、または属性ペイロードのうちの1つ以上を含む、項目7に記載の方法。
(項目9)
前記サンプルエントリにおけるLoD値を使用して、前記ビットストリームのLoDの値を識別することを含む、項目2に記載の方法。
(項目10)
前記デコードすることは、
前記所望の詳細のレベルに対応するトラックにおける前記ビットストリームの第1の部分をデコードすることと、
前記所望の詳細のレベルより低い詳細のレベルを伴う1つ以上の他のトラックにおける前記ビットストリームの第2の部分を識別し、デコードすることと
を含む、項目1に記載の方法。
(項目11)
エクストラクタおよび第1のトラック参照タイプを使用して、前記所望のレベルより低い詳細のレベルを伴う前記他のトラックを識別することと、
前記エクストラクタを使用して、前記他のトラックに対応するデータを識別することと
を含む、項目10に記載の方法。
(項目12)
前記エクストラクタは、
トラック参照タイプに基づいてトラックを1つ以上の他のトラックにリンクする情報を搬送する1つ以上のコンストラクタと、
データを前記参照されるトラックから抽出するための1つ以上の命令と
を含む、項目11に記載の方法。
(項目13)
第1のトラックグループタイプを使用して、全部の詳細のレベルに対応するサブストリームを含む1つ以上のトラックを識別することと、
全部の詳細のレベルに対応する前記1つ以上のトラックにおけるデータをデコードすることと
を含む、項目1に記載の方法。
(項目14)
単一トラックにおける前記所望の詳細のレベルおよび1つ以上のより低いレベルに対応する前記ビットストリームのうちの一部をデコードすることを含む、項目1に記載の方法。
(項目15)
単一トラックにおける全部の詳細のレベルに対応する前記ビットストリームをデコードすることを含む、項目1に記載の方法。
(項目16)
LoD記述子を使用して、適合組が空間スケーラビリティ機能性をサポートするかどうかを決定することを含む、項目2に記載の方法。
(項目17)
前記LoD記述子におけるLoD値を使用して、前記適合組におけるLoDを識別することを含む、項目16に記載の方法。
(項目18)
単一適合組からの前記所望のLoDおよび1つ以上のより低いレベルに対応する前記ビットストリームのうちの一部をデコードすること、または、
1つの適合組における前記所望のLoDおよび他の適合組におけるより低いレベルを伴うデータに対応する前記ビットストリームのうちの一部を識別し、デコードすること
を含む、項目1に記載の方法。
(項目19)
全部トラックidを使用して、全部の詳細のレベルに対応するデータを含む1つ以上の適合組を識別することと、
詳細の全てのレベルに対応する1つ以上の適合組において、全部のデータをデコードすることと
を含む、項目1に記載の方法。
(項目20)
前記LoD記述子は、その属性が詳細のレベル情報を規定する構文要素、より低いレベルトラックへの依存を示す構文要素、前記ビットストリームにおける最小の詳細のレベル、前記ビットストリームにおける最大の詳細のレベル、または前記全部トラックidの識別子を示す構文要素のうちの1つ以上を備えている、項目16-19に記載の方法。
(項目21)
前記所望のLoDに対応する前記ビットストリームのうちの一部が、単一トラックカプセル化または複数トラックカプセル化を伴う前記所望のLoDに対応するデータを含む、項目1-20に記載の方法。
(項目22)
前記単一トラックカプセル化は、同じトラックにカプセル化された前記1つの幾何学形状ビットストリームと前記1つ以上の属性ビットストリームとを備えている、項目21に記載の方法。
(項目23)
前記複数トラックカプセル化は、別個のトラックにカプセル化された前記1つの幾何学形状ビットストリームと前記1つ以上の属性ビットストリームとを備えている、項目20に記載の方法。
(項目24)
前記3次元場面を再構築することは、
前記3Dコンテンツにおける各点の空間位置および1つ以上の属性値を再構築すること、または、
前記3Dコンテンツにおける各点の空間位置および属性値を再構築し、ユーザの視認位置およびビューポートに従って、3D場面をレンダリングすること
を含む、項目1に記載の方法。
(項目25)
3次元コンテンツをエンコードする方法であって、前記方法は、
3次元(3D)コンテンツを1つ以上の詳細のレベル(LoD)に従って編成された幾何学形状サブビットストリームおよび1つ以上の属性サブビットストリームを備えているビットストリームにエンコードすることと、
前記1つ以上のLoDと、前記幾何学形状サブビットストリームと、前記1つ以上の属性ビットストリームとの間の対応を示すLoD情報を前記ビットストリームに含むことと
を含む、方法。
(項目26)
前記ビットストリーム内に、空間スケーラビリティビットストリームの存在の指示をエンコードすることと、
複数の詳細のレベルを含む前記ビットストリームに第1の構文構造を含むことと、
第2の構文構造を使用して、サブサンプル構造、サンプルエントリ、または前記ビットストリームに含まれるLoDベースのコンテンツを示す記述子を含むことと
をさらに含む、項目25に記載の方法。
(項目27)
前記ビットストリームにサンプルエントリタイプフィールドを含むことをさらに含み、前記サンプルエントリタイプフィールドは、ビットストリームが空間スケーラビリティ機能性をサポートするかどうかを決定すること、および前記構造を識別することを可能にする、項目26に記載の方法。
(項目28)
複数の詳細のレベルを伴う前記ビットストリームの前記構造は、
全部のレベルの組の前記ビットストリームがサブサンプル構造を伴う1つのトラック内で搬送される構造と、
各レベルの前記ビットストリームがエクストラクタを伴う1つのトラックにある構造と、
1つ以上のレベルの前記ビットストリームがより低いレベルからの冗長データを伴う1つのトラックにある構造と
を備えている、項目27に記載の方法。
(項目29)
前記サブサンプル構造は、前記LoD情報を表すcodec_specific_parametersフィールド拡張子を備えている、項目26に記載の方法。
(項目30)
前記LoD情報を表す前記codec_specific_parametersフィールド拡張子は、以下の構文要素:ペイロードタイプ、リフティングスケーラビリティを示すフラグ、幾何学形状データユニットのみが含まれるかどうかを示すフラグ、属性データユニットのみが含まれるかどうかを示すフラグ、または属性ペイロードのうちの1つ以上を含む、項目29に記載の方法。
(項目31)
前記ビットストリームに、前記ビットストリームのLoDの値を識別する前記サンプルエントリにおけるLoD値を含むことを含む、項目26に記載の方法。
(項目32)
前記ビットストリームに、エクストラクタと第1のトラック参照タイプとを含むことを含み、前記第1のトラック参照タイプは、前記所望の詳細のレベルより低い詳細のレベルを伴う他のトラックおよび前記他のトラックに対応するデータを識別する、項目31に記載の方法。
(項目33)
前記エクストラクタは、
トラック参照タイプに基づいてトラックを1つ以上の他のトラックにリンクする情報を搬送する1つ以上のコンストラクタと、
データを前記参照されるトラックから抽出するための1つ以上の命令と
を含む、項目32に記載の方法。
(項目34)
前記ビットストリームに、第1のトラックグループタイプを含むことを含み、前記第1のトラックグループタイプは、全部の詳細のレベルに対応するサブストリームを含む1つ以上のトラックを識別する、項目25に記載の方法。
(項目35)
適合組が空間スケーラビリティ機能性をサポートするかどうかを示すLoD記述子を含むことを含む、項目26に記載の方法。
(項目36)
前記LoD記述子は、前記適合組におけるLoDを識別するLoD値を含む、項目35に記載の方法。
(項目37)
前記所望のLoDに対応する前記ビットストリームのうちの一部が、単一トラックカプセル化または複数トラックカプセル化を伴う前記所望のLoDに対応するデータを含む、項目25-26に記載の方法。
(項目38)
前記単一トラックカプセル化は、同じトラックにカプセル化された前記1つの幾何学形状ビットストリームと前記1つ以上の属性ビットストリームとを備えている、項目37に記載の方法。
(項目39)
前記複数トラックカプセル化は、別個のトラックにカプセル化された前記1つの幾何学形状ビットストリームと前記1つ以上の属性ビットストリームとを備えている、項目37に記載の方法。
(項目40)
項目1-39のうちのいずれか1つ以上に記載される方法を実装するように構成されたプロセッサを備えている3次元コンテンツ処理装置。
(項目41)
コンピュータ読み取り可能な媒体上に記憶されたプログラムコードを備えているコンピュータプログラム製品であって、前記プログラムコードは、プロセッサによって実行されると、項目1-39のうちのいずれか1つ以上に記載される方法を前記プロセッサに実装させる、コンピュータプログラム製品。
【図面の簡単な説明】
【0009】
【
図1】
図1は、全てのレベルが単一トラックに表されるスケーラブル幾何学形状ベースの点群圧縮(G-PCC)ビットストリームの例示的構造を示す。
【0010】
【
図2】
図2は、サブサンプル構造の3つの例を示す。
【0011】
【
図3】
図3は、全てのレベルが単一トラックに表されるスケーラブルG-PCCビットストリームの別の例示的構造を示す。
【0012】
【
図4】
図4は、異なるレベルがエクストラクタを伴う別個のトラックに表されるスケーラブルG-PCCビットストリームの構造の例を示す。
【0013】
【
図5】
図5は、異なるレベルがエクストラクタを伴う別個のトラックに表されるスケーラブルG-PCCビットストリームの別の例示的構造を示す。
【0014】
【
図6】
図6は、異なるレベルがより低いレベルからの冗長データを伴う別個のトラックに表されるスケーラブルG-PCCビットストリームの構造の例を示す。
【0015】
【
図7】
図7は、異なるレベルがより低いレベルからの冗長データを伴う別個のトラックに表されるスケーラブルG-PCCビットストリームの別の例示的構造を示す。
【0016】
【0017】
【0018】
【0019】
【0020】
【0021】
【
図12】
図12は、本明細書に説明されるボリューム視覚的メディア処理方法を実装するためのハードウェアプラットフォームのブロック図である。
【発明を実施するための形態】
【0022】
点群は、点の複数組として定義され、点は、(x,y,z)座標を伴うその3D位置と、(随意に)属性の組とによって説明される。典型的に、群における各点は、それに結び付けられる同じ数の属性を有する。G-PCC(幾何学形状ベースの点群圧縮)は、車載光検出および測距(LiDAR)または3次元(3D)マッピングにおいて使用されるそれら等の低密度動的変動点群のみならず、芸術、科学、文化遺産、および産業用途において使用される高密度静的点群の効率的圧縮方法を表す。G-PCCは、3D空間を立方体の階層構造に分解し、各点をそれが属する立方体のインデックスとしてエンコードすることを含み得る。
【0023】
G-PCCビットストリーム(または単にビットストリームと呼ばれる)が、パラメータ組(例えば、シーケンスパラメータ組、幾何学形状パラメータ組、属性パラメータ組)、幾何学形状スライス、または属性スライスから構成され得る。G-PCCビットストリームでは、スライスは、独立してエンコードまたはデコードされ得る点の組として定義される。属性コーディングに関して、リフティングスケーラビリティと名付けられた効率的方法が、サポートされ、所望の詳細のレベル(LoD)を伴う点群を構築するために、G-PCCビットストリームを部分的にデコードすることを可能にする。LoDは、例えば、コンテンツの分解能を指し得る。ある場合、所望のLoDは、3Dコンテンツの空間部分に依存し得る。ある場合、所望のLoDは、3Dコンテンツの時間的特性(例えば、フレームレート)に依存し得る。
【0024】
本特許文書は、ビットストリームにおける異なる詳細のレベルを伴うG-PCCコンポーネントの関連付けを示すための構造化およびグループ化機構を説明する。本特許文書でさらに説明されるように、説明される技法は、所望のLoDに基づいて点群データの部分的アクセスおよび送達を促進するために、使用されることができる。
【0025】
(1.G-PCCの空間スケーラビリティ機能性)
【0026】
空間スケーラビリティは、G-PCCのための重要な機能性である。空間スケーラビリティは、詳細のレベル(またはオクツリー深度)がオリジナル品質を表すために十分に大きくあるべきであるので、ソース点群が局所領域においてであっても高密度であるとき、特に有用である。空間スケーラビリティにより、視認者は、より少ないデコーダ複雑性および/またはより少ない帯域幅を伴うサムネイルとして、より低い分解能点群にアクセスすることができる。
【0027】
空間スケーラビリティが必要とされるとき、より低い幾何学形状および対応する属性ビットストリームを調和した方法でデコードすることが望ましい。最新のG-PCC仕様に規定されるように、属性データが、リフティングスケーラビリティが有効にされたリフティング変換LoDによってエンコーディングされると、属性デコーディングプロセスは、入力幾何学形状点に関する絞り込まれたオクツリーデコード結果を可能にする。幾何学形状デコーダは、オクツリー深度が所望のLoDに対応するまで、幾何学形状データユニットをデコードし、次いで、デコーディングを停止し得る。絞り込まれた幾何学形状点の入力後、属性デコーダは、入力幾何学形状点に対応する属性データユニットの一部のみをデコードし、デコーディングを停止し得る。その結果、所望のLoDを伴う点群が、部分的にデコーディングされた幾何学形状と、属性データユニットとから構築される。
【0028】
(2.ISOBMFFを使用する、スケーラブルG-PCCビットストリームの搬送)
【0029】
G-PCCビットストリームは、各々が単一コード化構文構造(例えば、幾何学形状ペイロード、属性ペイロード、あるタイプのパラメータ組)を表すタイプ-長さ-値(TLV)構造の一続きから成り得る。国際規格化団体ベースメディアファイルフォーマット(ISOBMFF)を使用するG-PCCビットストリームのための2つのタイプのカプセル化が存在し得る。単一トラックカプセル化、および複数トラックカプセル化。
【0030】
1)G-PCCデータの単一トラックカプセル化
【0031】
G-PCCビットストリームが単一トラック内に記憶されるとき、各G-PCCサンプルは、単一点群フレームに対応し、同じプレゼンテーション時間に属する1つ以上のTLVカプセル化構造を含み得る。各TLVカプセル化構造は、単一タイプのG-PCCペイロード(例えば、幾何学形状スライスまたは属性スライス)を含む。各G-PCCサブサンプルは、1つのみのG-PCC TLVカプセル化構造を含み得る。
【0032】
2)G-PCCデータの複数トラックカプセル化
【0033】
G-PCCビットストリームが複数のトラック内で搬送されるとき、各幾何学形状または属性サブストリーム(またはサブビットストリーム)は、個々のトラックにマッピングされる。2つのタイプのG-PCCコンポーネントトラックが、存在する:幾何学形状トラック、属性トラック。幾何学形状トラックは、幾何学形状サブストリーム(またはサブビットストリーム)を搬送し、属性トラックは、単一タイプの属性サブストリーム(またはサブビットストリーム)を搬送する。トラック内の各サンプルは、1つのTLVカプセル化構造を含み、1つのTLVカプセル化構造は、単一G-PCCコンポーネントデータ(幾何学形状および属性データの両方、または異なる属性データの多重化ではない)を搬送する。
【0034】
広範囲のデコーディングおよび視認デバイスを使用する顧客に種々のネットワークを横断してサービスを送達するG-PCCデータの利用可能性、性能、および効率における将来の改良のために、G-PCCデータの詳細のレベルをシステムレベルで識別することが有益であろう。
本書に説明されるそのような技法は、エンコーダ実施形態が適切に構造化されたビットストリームを発生させることを可能にし、適切に構造化されたビットストリームは、所望のLoD(例えば、視認者によって、または車両ナビゲーションアプリケーション等の別のアプリによって規定されるようなLoD)に従って、エンコーディングされた3D場面の再構築のために必要とされるデータのみを選択するために、デコーダによって容易に解析されることが可能である。
【0035】
(3.簡潔な議論)
【0036】
節の見出しは、読みやすさを改良するためのみに本書で使用され、各節内の開示される実施形態および技法の範囲をその節のみに限定しない。ある特徴は、H.264/AVC(高度ビデオコーディング)、H.265/HEVC(高効率ビデオコーディング)、およびMPEG(動画専門家集団)規格の例を使用して説明される。しかしながら、開示される技法の適用性は、H.264/AVCまたはH.265/HEVCのみに限定されない。
【0037】
本文書では、種々の構文要素が、点群データ処理のために、異なる節において開示される。しかしながら、同じ名称を伴う構文要素は、別様に記述されない限り、異なる節において使用されるものと同じフォーマットおよび構文を有するであろうことを理解されたい。さらに、異なる節の見出しの下、説明される異なる構文要素および構造は、種々の実施形態において、一緒に組み合わされ得る。加えて、具体的な構造が、実装例として説明されるが、構文構造の種々のエントリの順序は、本文書内で別様に記述されない限り、変更され得ることを理解されたい。
【0038】
一般に、本開示技法に基づく実施形態が、ビデオデータ処理のために使用され得る。いくつかの実施形態では、全方向性ビデオデータが、国際標準化機構(ISO)基本メディアファイルフォーマットに基づいて、ファイル内に記憶される。それらのうち、制限付きスキーム情報ボックス、トラック参照ボックス、およびトラックグループボックス等のISO基本メディアファイルフォーマットは、動作するためのISO/IEC JTC1/SC29/WG11動画専門家集団(MPEG)MPEG-4. Part 12 ISO基本メディアファイルフォーマット(ISOBMFF)を指し得る。
【0039】
ISO基本ファイルフォーマットにおける全てのデータが、ボックス内にインストールされる。MPEG4(MP4)ファイルによって表されるISO基本ファイルフォーマットは、いくつかのボックスから成り、それらの各々が、タイプと、長さとを有し、データオブジェクトとして見なされ得る。ボックスは、コンテナボックスと呼ばれる別のボックスを含むことができる。MP4ファイルは、最初に、ファイルフォーマットのマークアップとして、1つのみの「ftyp」タイプのボックスを有し、そのファイルについてのある情報を含むであろう。1つのみの「MOOV」タイプのボックス(ムービーボックス)が、存在し、それは、コンテナボックスであり、そのサブボックスが、そのメディアに関するメタデータ情報を含む。MP4ファイルのメディアデータは、「mdat」タイプのメディアボックス(メディアデータボックス)内に含まれ、それも、コンテナボックスであり、それは、(メディアデータが他のファイルを参照するときに)利用可能であることも、そうでないこともあり、メディアデータの構造は、メタデータから成る。
【0040】
時間指定メタデータトラックは、ISO基本メディアファイルフォーマット(ISOBMFF)における機構であり、特定のサンプルに関連付けられる時間指定メタデータを確立する。時間指定メタデータは、メディアデータとの結合が少なく、通常、「説明的」である。
【0041】
本書では、いくつかの技術的解決策は、MP4またはISOBMFFフォーマット等の従来的な2Dビデオフォーマットと適合性があるフォーマットの中への点群データ(MPEGのV-PCCデータ等)の3Dまたは詳細のレベルの表現を可能にするために提供される。この提案解決策の1つの有利な側面は、新しい機能性の実装のために、従来的な2Dビデオ技法および構文を再利用することが可能であることである。
【0042】
(4.実施形態1:LoDに基づくG-PCCデータの部分的アクセス)
【0043】
空間スケーラビリティをサポートするG-PCC点群データに関して、デコーダは、1つ以上の詳細のレベルに属する、3D点群データの一部をデコードすることができる。3D点群データを送達、デコード、および再構築する方法は、以下のステップを含み得る:
【0044】
1)ファイル解析器は、最初に、G-PCC点群データが、MPEG-Dash(ハイパーテキストトランスポートプロトコルにわたる動的適応ストリーミング)メディアプレゼンテーション記述(MPD)ファイルにおいて、空間漸進的特性に関連する記述子を解析することによって、空間スケーラビリティ機能性をサポートするかどうかを決定する。それは、サンプルエントリのタイプに従って、ビットストリームが漸進的デコーディングおよび再構築をサポートするかどうか、動向を決定するために、ファイルの内部トラックのサンプルエントリを読み取ることもできる。
【0045】
2)空間スケーラビリティをサポートするビットストリームに関して、ファイル解析器は、点群データストリームまたは点群記憶ファイル内のLoD関連情報を読み取る。MPDファイルおよびその中のLoD関連記述子を解析することによって、ファイル解析器は、適合組および表現が属するレベルを結論付ける。LoD値は、ファイル内のサンプルエントリまたはサブサンプル情報を解析することによっても取得され得る。
【0046】
3)デコーダは、LoD値に従って、1つ以上の詳細のレベルに属する部分的G-PCCデータを点群データストリームまたは点群記憶ファイルから取得する(幾何学的データ、属性データ、パラメータ組、およびデコーディングのために要求される他のメタデータを含む)。
【0047】
3)デコーダは、より低い幾何学形状および対応するビットストリーム属性を調和した方法でデコードし、したがって、所望のLoDを伴う3D点群が、構築される。
【0048】
(5.実施形態2:サブサンプル構造を伴う1つのトラックにおける全てのレベルのG-PCCデータ)
【0049】
本実施形態では、スケーラブルG-PCCビットストリームが、ファイル内の単一トラックによって表される。各レベルのG-PCCデータは、サブサンプル構造によってシグナリングされる。
【0050】
図1は、G-PCCトラックによって使用される構文の例を示し、サンプルエントリ部分およびサンプル部分(複数のサンプル部分が、可能)を示す。サンプル部分は、レベル0~レベルLの複数の詳細のレベルの幾何学形状データユニットと、レベル0~レベルLに対応する属性データユニットとを含む。
【0051】
サブサンプルボックス情報におけるcodec_specific_parametersは、部分的幾何学形状データユニットに関する詳細のレベル情報と、特定のLoDに対応する属性データユニットの組とを示すように、さらに拡張される。
【0052】
図2に示されるように、3つの代替サブサンプル構造は、以下のようにリストアップされる:
【0053】
代替サブサンプル構造1:
【0054】
構文:
【0055】
SubsampleInformationBoxのcodec_specific_parametersフィールドは、下記のように定義される。
unsigned int(8) PayloadType;
if (PayloadType == 2) { // geometry payload
bit(8) reserved = 0;
unsigned int(1) lifting_scalability_enabled_flag;
if (lifting_scalability_enabled_flag) {
unsigned int(1) is_geometry_data_unit_header;
if(!is_geometry_data_unit_header)
unsigned int(14) lod;
else
bit(14) reserved = 0;
}
}
else if (PayloadType == 4) { // attribute payload
unsigned int(8) AttrIdx;
unsigned int(1) lifting_scalability_enabled_flag;
if (lifting_scalability_enabled_flag) {
unsigned int(1) is_attribute_data_unit_header;
if(!is_attribute_data_unit_header)
unsigned int(14) lod;
else
bit(14) reserved = 0;
}
}
else
bit(24) reserved = 0;
【0056】
PayloadTypeは、TLVカプセル化構造のtlv_typeまたはサブサンプルに含まれるそれの一部を示す。
【0057】
注記:PayloadTypeが、2(幾何学形状データユニット)に等しいとき、1つのTLV構造の境界は、同じPayloadTypeを伴う連続的サブサンプルの組の境界として識別されることができる。
【0058】
lifting_scalability_enabled_flagは、サブサンプルにおける属性データまたはサブサンプルにおける幾何学形状データに関連付けられた属性データが、リフティングスケーラビリティが有効にされたリフティング変換を用いて、LoDによってエンコーディングされるとき、1に等しい。そうでなければ、lifting_scalability_enabled_flagは、0に等しい。
【0059】
is_geometry_data_unit_headerは、サブサンプルが、幾何学形状データユニットヘッダのみを含むとき、1に等しい。Is_geometry_data_unit_headerは、サブサンプルが、同じLoD層に属する、幾何学形状データユニットデータの一部を含むとき、0に等しい。
【0060】
is_attribute_data_unit_headerは、サブサンプルが、属性データユニットヘッダのみを含むとき、1に等しい。Is_attribute_data_unit_headerは、サブサンプルが、同じLoD層に属する、属性データユニットデータの一部を含むとき、0に等しい。
【0061】
lodは、幾何学形状ペイロードまたは属性ペイロードを含むTLVカプセル化構造が、その第1のサブサンプルからこのサブサンプルにデコーディングされるとき、サブサンプルの詳細のレベルの最大値を示す。
【0062】
AttrIdxは、サブサンプル内に属性ペイロードを含むTLVカプセル化構造のash_attr_sps_attr_idxを示す。
【0063】
代替サブサンプル構造2:
【0064】
構文:
【0065】
SubsampleInformationBoxのcodec_specific_parametersフィールドは、下記のように定義される。
unsigned int(8) PayloadType;
if (PayloadType == 2) { // geometry payload
unsigned int(1) lifting_scalability_enabled_flag;
if (lifting_scalability_enabled_flag) {
unsigned int(1) geometry_data_unit_header_exist;
unsigned int(14) lod;
}
else
bit() reserved;
}
else if (PayloadType == 4) { // attribute payload
unsigned int(8) AttrIdx;
unsigned int(1) lifting_scalability_enabled_flag;
if (lifting_scalability_enabled_flag) {
unsigned int(1) attribute_data_unit_header_exist;
unsigned int(14) lod;
}
else
bit(14) reserved = 0;
}
}
else
bit(24) reserved = 0;
【0066】
PayloadTypeは、TLVカプセル化構造のtlv_typeまたはサブサンプルに含まれるそれの一部を示す。
【0067】
注記: PayloadTypeが、2(幾何学形状データユニット)に等しいとき、1つのTLV構造の境界は、同じPayloadTypeを伴う連続的サブサンプルの組の境界として識別されることができる。
【0068】
lifting_scalability_enabled_flagは、サブサンプルにおける属性データまたはサブサンプルにおける幾何学形状データに関連付けられた属性データが、リフティングスケーラビリティが有効にされたリフティング変換を用いて、LoDによってエンコーディングされるとき、1に等しい。そうでなければ、lifting_scalability_enabled_flagは、0に等しい。
【0069】
geometry_data_unit_header_existは、サブサンプルが、幾何学形状データユニットヘッダを含むとき、1に等しく、そうでなければ、0に等しい。geometry_data_unit_header_existは、LoDの値が、サンプル内で最小であるとき、1に等しいものとする。
【0070】
attribute_data_unit_header_existは、サブサンプルが、属性データユニットヘッダを含むとき、1に等しく、そうでなければ、0に等しい。attribute_data_unit_header_existは、LoDの値が、サンプル内で最小であるとき、1に等しいものとする。
【0071】
lodは、幾何学形状ペイロードまたは属性ペイロードを含むTLVカプセル化構造が、その第1のサブサンプルからこのサブサンプルにデコードされるとき、サブサンプルの詳細のレベルの最大値を示す。
【0072】
AttrIdxは、サブサンプル内に属性ペイロードを含むTLVカプセル化構造のash_attr_sps_attr_idxを示す。
【0073】
代替サブサンプル構造3:
【0074】
構文:
【0075】
SubsampleInformationBoxのcodec_specific_parametersフィールドは、下記のように定義される。
unsigned int(8) GPCC_sub_type;
if (PayloadType == 2) { // geometry payload
unsigned int(14) lod;
}
else if (PayloadType == 5) { // attribute payload
unsigned int(8) AttrIdx;
unsigned int(14) lod;
}
else
bit(24) reserved = 0;
【0076】
GPCC_sub_typeは、サブサンプル内のG-PCCデータのタイプを示す。表1は、サポートされるデータタイプのリストを説明する。GPCC_sub_type1、2、4、および5が、サブサンプルにおける属性データまたはサブサンプルにおける幾何学形状データに関連付けられた属性データが、リフティングスケーラビリティが有効にされたリフティング変換を用いて、LoDによってエンコーディングされるとき、使用されるものとすることに留意されたい。
【表1】
【0077】
lodは、幾何学形状ペイロードまたは属性ペイロードを含むTLVカプセル化構造が、その第1のサブサンプルからこのサブサンプルにデコードされるとき、サブサンプルの詳細のレベルの最大値を示す。
【0078】
AttrIdxは、サブサンプル内に属性ペイロードを含むTLVカプセル化構造のash_attr_sps_attr_idxを示す。
【0079】
(実装1:サブサンプル構造を使用するG-PCC幾何学形状データおよび属性データの単一トラックカプセル化)
【0080】
図1に示されるように、本実施形態の一実装は、G-PCC幾何学形状データおよび属性データが、単一トラック内で搬送され、このトラックにおける各サンプルが、全部の詳細のレベルを伴う1つ以上のG-PCCコンポーネントを含むことである。各レベルの分割は、サブサンプル構造においてシグナリングされる。
【0081】
その場合、GPCCトラックは、「gpea」または「gpe1」のサンプルエントリタイプを伴うVolumetricVisualSampleEntryを使用する。タイプ「gpe1」のサンプルエントリは、G-PCCデータの空間スケーラビリティ機能性を示すためにさらに拡張される。デコーダが、Lに等しいそのLoDを伴う点群をデコードおよびレンダリングすべきとき、L未満のLoD値を伴うサブサンプルが、取得される。
【0082】
図1は、サブサンプル構造を使用するG-PCCデータの単一トラックカプセル化を示す。
【0083】
サンプルエントリ「gpea」
【0084】
「gpea」サンプルエントリ下、全ての詳細のレベルのG-PCC幾何学形状データおよび属性データは、単一トラック内に記憶され、各レベルの情報が、サブサンプルにおいてシグナリングされる。
【0085】
サンプルエントリタイプ: 「gpea」
コンテナ: SampleDescriptionBox
必須: 「gpe1」、「gpeg」、「gpc1」、「gpcg」、「gpea」、「gpcl」、「gpes」、「gpcs」、「gpei」、および「gpci」サンプルエントリのうちの1つは、必須である。
数量: 1つ以上のサンプルエントリが、存在し得る。
aligned(8) class GPCCSampleEntry()
extends VolumetricVisualSampleEntry (’gpea’) {
GPCCConfigurationBox config; //mandatory
unsigned int(16) lod;
}
【0086】
GPCCConfigurationBoxは、幾何学形状ベースの点群コンテンツのためのG-PCCデコーダ構成情報を規定する。setupUnitアレイは、デコーダ構成記録が存在するサンプルエントリによって参照されるストリームに関して一定であるG-PCC TLV カプセル化構造を含むものとする。
【0087】
lodは、トラック内の幾何学形状データおよび属性データの詳細のレベルの最大値を示す。
【0088】
サンプルエントリ「gpe1」
【0089】
「gpe1」サンプルエントリ下、G-PCC幾何学形状データおよび属性データの詳細のレベル情報は、lifting_scalability_enabled_flagが、1に等しいとき、サブサンプルにおいてシグナリングされるものとする。
【0090】
サンプルエントリタイプ: 「gpe1」
コンテナ: SampleDescriptionBox
必須: 「gpe1」、「gpeg」、「gpc1」、「gpcg」、「gpcl」、「gpes」、「gpcs」、「gpei」、および「gpci」サンプルエントリのうちの1つは、必須である。
数量: 1つ以上のサンプルエントリが、存在し得る。
aligned(8) class GPCCSampleEntry()
extends VolumetricVisualSampleEntry (’gpe1’) {
GPCCConfigurationBox config; //mandatory
unsigned int(1) lifting_scalability_enabled_flag;
if (lifting_scalability_enabled_flag)
unsigned int(15) lod;
else
bit(15) reserved = 0;
}
【0091】
GPCCConfigurationBoxは、幾何学形状ベースの点群コンテンツのためのG-PCCデコーダ構成情報を規定する。setupUnitアレイは、その中にデコーダ構成記録が存在するサンプルエントリによって参照されるストリームに関して一定であるG-PCC TLVカプセル化構造を含むものとする。
【0092】
lifting_scalability_enabled_flagは、サブサンプルにおける属性データまたはサブサンプルにおける幾何学形状データに関連付けられた属性データが、リフティングスケーラビリティが有効にされたリフティング変換を用いて、LoDによってエンコーディングされるとき、1に等しい。そうでなければ、lifting_scalability_enabled_flagは、0に等しい。
【0093】
lodは、トラック内の幾何学形状データおよび属性データの詳細のレベルの最大値を示す。
【0094】
(実装2:サブサンプル構造を使用するG-PCC幾何学形状データおよび属性データのマルチトラックカプセル化)
【0095】
図3に示されるように、本実施形態の別の実装は、G-PCC幾何学形状データおよび属性データが、別個のトラック内で搬送され、単一トラック内の各サンプルが、全部の詳細のレベルを伴う単一タイプのG-PCCコンポーネントを含むことである。各レベルの分割は、サブサンプル構造においてシグナリングされる。
【0096】
その場合、GPCCトラックは、「gpcl」または「gpc1」のサンプルエントリタイプを伴うVolumetricVisualSampleEntryを使用し得る。タイプ「gpc1」のサンプルエントリは、G-PCCデータの空間スケーラビリティ機能性を示すためにさらに拡張される。デコーダが、Lに等しいそのLoDを伴う点群をデコードおよびレンダリングすべきとき、0~LのLoD値を伴うサブサンプルが、取得される。
【0097】
図3は、サブサンプル構造を使用する、G-PCCデータのマルチトラックカプセル化の例を示す。
【0098】
サンプルエントリ「gpcl」
【0099】
「gpca」サンプルエントリ下、全ての詳細のレベルのG-PCC幾何学形状データは、単一トラック内に記憶され、各レベルの情報は、サブサンプルにおいてシグナリングされる。さらに、各タイプの属性データは、別個のトラック内に記憶され、LoD情報の記憶は、幾何学形状データのそれに類似する。
【0100】
サンプルエントリタイプ: 「gpcl」
コンテナ: SampleDescriptionBox
必須: 「gpe1」、「gpeg」、「gpc1」、「gpcg」、「gpea」、「gpcl」、「gpes」、「gpcs」、「gpei」、および「gpci」サンプルエントリのうちの1つは、必須である。
数量: 1つ以上のサンプルエントリが、存在し得る。
aligned(8) class GPCCSampleEntry()
extends VolumetricVisualSampleEntry (’gpcl’) {
GPCCConfigurationBox config; //mandatory
GPCCComponentTypeBox type;
unsigned int(16) lod;
}
【0101】
GPCCConfigurationBoxは、幾何学形状ベースの点群コンテンツに関するG-PCCデコーダ構成情報を規定する。setupUnitアレイは、デコーダ構成記録が存在するサンプルエントリによって参照されるストリームに関して一定であるG-PCC TLVカプセル化構造を含むものとする。
【0102】
GPCCComponentTypeBoxは、このトラック内で搬送されるG-PCCコンポーネントのタイプを示す。
【0103】
lodは、トラック内のG-PCCコンポーネントの詳細のレベルの最大値を示す。
【0104】
サンプルエントリ「gpc1」
【0105】
「gpc1」サンプルエントリ下、G-PCC幾何学形状データおよび属性データの詳細のレベル情報が、lifting_scalability_enabled_flagが、1に等しいとき、サブサンプルにおいてシグナリングされ得る。
【0106】
サンプルエントリタイプ: 「gpc1」
コンテナ: SampleDescriptionBox
必須: 「gpe1」、「gpeg」、「gpc1」、「gpcg」、「gpea」、「gpcl」、「gpes」、「gpcs」、「gpei」、および「gpci」サンプルエントリのうちの1つは、必須である。
数量: 1つ以上のサンプルエントリが、存在し得る。
aligned(8) class GPCCSampleEntry()
extends VolumetricVisualSampleEntry (’gpc1’) {
GPCCConfigurationBox config; //mandatory
GPCCComponentTypeBox type;
unsigned int(1) lifting_scalability_enabled_flag;
if (lifting_scalability_enabled_flag)
unsigned int(15) lod;
else
bit(15) reserved = 0;
}
【0107】
GPCCConfigurationBoxは、幾何学形状ベースの点群コンテンツに関するG-PCCデコーダ構成情報を規定する。setupUnitアレイは、デコーダ構成記録が存在するサンプルエントリによって参照されるストリームに関して一定であるG-PCC TLVカプセル化構造を含むものとする。
【0108】
GPCCComponentTypeBoxは、このトラック内で搬送されるG-PCCコンポーネントのタイプを示す。
【0109】
lifting_scalability_enabled_flagは、サブサンプルにおける属性データまたはサブサンプルにおける幾何学形状データに関連付けられた属性データが、リフティングスケーラビリティが有効にされたリフティング変換を用いて、LoDによってエンコーディングされるとき、1に等しい。そうでなければ、lifting_scalability_enabled_flagは、0に等しい。
【0110】
lodは、トラック内のG-PCCコンポーネントの詳細のレベルの最大値を示す。
【0111】
(6.実施形態3:エクストラクタを伴うそれ自身のトラック内のG-PCCデータの各レベルまたはレベルの組)
【0112】
本実施形態では、スケーラブルG-PCCビットストリームが、ファイル内の1つ以上のトラックによって表される。各トラックは、詳細のレベルのスケーラブルストリームを表す。この場合、より高いレベルのG-PCCデータをデコードするプロセスは、より低いLoD値を伴うデータを要求する。したがって、異なるトラックは、対応するエクストラクタを使用して、データを論理的に共有し得る。
【0113】
本実施形態では、1つ以上のトラックの組は、統合されると、エンコーディングされた点群データの全部の組を含む。最低動作点をLoDの最小値を有する詳細のレベルによって表される全ての動作点のうちの1つとする。より高い詳細のレベルを伴うトラックは、タイプ「scal」(スケーラブル)のトラック参照を用いて、より低いトラックにリンクされ得る。全部のエンコードされた情報は、全部のトラックグループに含まれるトラックが、保持されると、保持されることができる。
【0114】
エクストラクタ:
【0115】
ISO/IEC14496-15では、エクストラクタは、ネットワーク抽象化層(NAL)ユニットデータを他のトラックから参照することによって抽出するトラックのコンパクトな形成を可能にする。同様に、G-PCCビットストリーム内のエクストラクタが、幾何学形状データユニットまたは属性データユニットを他のトラックから参照することによって抽出するトラックのコンパクトな形成を可能にするように定義される。エクストラクタが、それを入手するファイル読み取り機によって処理されると、エクストラクタは、それが参照するバイトによって、論理的に置換される。エクストラクタは、別のトラックからデータを抽出するための1つ以上のコンストラクタを含み得、その別のトラックは、タイプ「scal」のトラック参照を用いて、エクストラクタが常駐しているトラックにリンクされている。エクストラクタは、以下のように、TLVの構文構造タイプを拡張する。
【0116】
【0117】
エクストラクタの構文:
class aligned(8) Extractor () {
unsigned int(16) constructor_count;
for(i = 0; i < constructor_count; i++ ){
unsigned int(8) track_ref_index;
signed int(8) sample_offset;
unsigned int(32) data_offset;
unsigned int(32) data_length;
}
}
【0118】
constructor_typeは、以下に続くコンストラクタの数を規定する。
【0119】
track_ref_indexは、データを抽出すべきトラックを見出すために使用するためのタイプ「scal」のトラック参照のインデックスを規定する。データが抽出されるそのトラックにおけるサンプルは、メディアデコーディングタイムラインにおいて、すなわち、時間/サンプルテーブルのみを使用して、時間的に整列させられるか、または、直前に先行し、Extractorを含むサンプルを伴うsample_offsetによって規定されたオフセットによって調節される。第1のトラック参照は、インデックス値1を有し、すなわち、値0は、取って置かれる。
【0120】
sample_offsetは、情報源として使用されるものとするリンクされたトラック内のサンプルの相対的インデックスを与える。サンプル0(0)は、エクストラクタを含むサンプルのデコーディング時間と比較されるデコーディング時間と同じか、または、直前に先行するサンプルである;サンプル1(1)は、次のサンプルであり、サンプル-1(-1)は、前のサンプルである、等。
【0121】
data_offset:コピーすべき参照サンプル内の第1のバイトのオフセット。抽出がそのサンプルにおけるデータの第1のバイトを用いて開始する場合、オフセットは、値0をとる。
【0122】
data_length:コピーすべきバイトの数。data_offset+data_lengthが、サンプルサイズを上回る場合、data_offsetによってポイントされるバイトからサンプルの終了まで、含まれるバイトは、コピーされる。
【0123】
(実装1:エクストラクタを伴うG-PCCデータの単一トラックカプセル化)
【0124】
図4に示されるように、スケーラブルG-PCCビットストリームが、ファイル内の1つ以上のトラックによって表される。各トラックは、スケーラブルストリームの1つのレベルを表す。その場合、G-PCC幾何学形状データおよび属性データが、単一トラック内で搬送されるとき、このトラック内の各サンプルは、LoDの同じ値を伴う1つ以上のG-PCCコンポーネントを含む。
【0125】
「cptg」に等しいtrack_group_typeを伴うTrackGroupTypeBoxは、このトラックが、同じスケーラブルG-PCCビットストリームのうちの一部であることを示す。全部のエンコードされた情報は、「全部のサブセット」内に含まれるトラックが、保持されると、保持されることができる。
【0126】
図4は、エクストラクタを伴うG-PCCデータの単一トラックカプセル化の例を示す。
【0127】
サンプルエントリ「gpes」
【0128】
GPCCトラックは、サンプルエントリタイプの「gpe1」または「gpeg」または「gpes」を伴うVolumetricVisualSampleEntryを使用し得る。「gpes」サンプルエントリ下、全てのパラメータ組(ISO/IEC23090-9[GPCC]に定義されるような)は、setupUnit内にあり得る。
【0129】
サンプルエントリタイプ: 「gpes」
コンテナ: SampleDescriptionBox
必須: 「gpe1」、「gpeg」、「gpc1」、「gpcg」、「gpea」、「gpcl」、「gpes」、「gpcs」、「gpei」、および「gpci」サンプルエントリのうちの1つは、必須である。
数量: 1つ以上のサンプルエントリが、存在し得る。
aligned(8) class GPCCSampleEntry()
extends VolumetricVisualSampleEntry (’gpes’) {
GPCCConfigurationBox config; //mandatory
unsigned int(16) lod;
}
【0130】
GPCCConfigurationBoxは、幾何学形状ベースの点群コンテンツに関するG-PCCデコーダ構成情報を規定する。setupUnitアレイは、デコーダ構成記録が存在するサンプルエントリによって参照されるストリームに関して一定であるG-PCC TLVカプセル化構造を含むものとする。
【0131】
lodは、トラック内の幾何学形状データおよび属性データの詳細のレベルの最大値を示す。
【0132】
トラックグループ「cptg」
【0133】
同じ点群データに寄与するトラックは、track_group_type「cptg」に関するtrack_group_id同じ値を有し、1つの点群データからのトラックのtrack_group_idは、任意の他の点群データからのトラックのtrack_group_idと異なる。
【0134】
構文
aligned(8) class ScalableGroupBox extends TrackGroupTypeBox(’cptg’) {
unsigned int(16) lod_num;
for(i = 0; i < lod_num; i++ ){
unsigned int(8) entry_id;
unsigned int(16) lod;
}
}
lod_numは、全部の組の点群の詳細のレベルの最大値を示す。
entry_idは、レベルのエントリ点のtrack_id、すなわち、幾何学形状データを伴うトラックを示す。
lodは、entry_idに等しいtrack_idを伴うトラックの詳細のレベルの値を示す。
【0135】
(実装2:エクストラクタを伴うG-PCCデータのマルチトラックカプセル化)
【0136】
図5に示されるように、スケーラブルG-PCCビットストリームが、ファイル内の1つ以上のトラックによって表される。各トラックは、スケーラブルストリームの1つの動作点を表す。この場合、G-PCC幾何学形状データおよび属性データが複数のトラック内で搬送されるとき、各幾何学形状または属性サブストリームは、LoDの同じ値を用いて、個々のトラックにマッピングされる。幾何学形状トラックは、幾何学形状サブストリームを搬送し、属性トラックは、単一タイプの属性サブストリームを搬送する。
【0137】
図5は、エクストラクタを用いた、G-PCCデータのマルチトラックカプセル化の例を示す。
【0138】
サンプルエントリ「gpcs」
【0139】
GPCCトラックは、「gpe1」または「gpeg」または「gpcs」のサンプルエントリタイプを伴うVolumetricVisualSampleEntryを使用し得る。「gpcs」サンプルエントリ下、全てのパラメータ組(ISO/IEC23090-9[GPCC]において定義されるような)は、setupUnitアレイ内にあり得る。
【0140】
サンプルエントリタイプ: 「pcs」
コンテナ: SampleDescriptionBox
必須: 「gpe1」、「gpeg」、「gpc1」、「gpcg」、「gpea」、「gpcl」、「gpes」、「gpcs」、「gpei」、および「gpci」サンプルエントリのうちの1つは、必須である。
数量: 1つ以上のサンプルエントリが、存在し得る。
aligned(8) class GPCCSampleEntry()
extends VolumetricVisualSampleEntry (’gpcs’) {
GPCCConfigurationBox config; //mandatory
GPCCComponentTypeBox type;
unsigned int(16) lod;
}
【0141】
GPCCConfigurationBoxは、幾何学形状ベースの点群コンテンツに関するG-PCCデコーダ構成情報を規定する。setupUnitアレイは、デコーダ構成記録が存在するサンプルエントリによって参照されるストリームに関して一定であるG-PCC TLVカプセル化構造を含むものとする。
【0142】
GPCCComponentTypeBoxは、このトラック内で搬送されるG-PCCコンポーネントのタイプを示す。
【0143】
lodは、トラック内のG-PCCコンポーネントの詳細のレベルの最大値を示す。
【0144】
構文
aligned(8) class ScalableGroupBox extends TrackGroupTypeBox(’cptg’) {
unsigned int(16) lod_num;
for(i = 0; i < lod_num; i++ ){
unsigned int(8) entry_id;
unsigned int(16) lod;
}
}
【0145】
lod_numは、全部の組の点群の詳細のレベルの最大値を示す。
【0146】
entry_idは、あるレベルのエントリ点のtrack_id、すなわち、幾何学形状データを伴うトラックを示す。
【0147】
lodは、entry_idに等しいtrack_idを伴うトラックの詳細のレベルの値を示す。
【0148】
(7.実施形態4:より低いレベルからの冗長データを伴うそれ自体のトラック内のG-PCCデータの各レベルまたはレベルの組)
【0149】
スケーラブルG-PCCビットストリームが、ファイル内の複数のトラックによって表される。各レベルのG-PCCデータは、サブサンプル構造によってシグナリングされる。
【0150】
本実施形態では、サブサンプル情報は、部分的幾何学形状データユニットと、具体的LoDに対応する属性データユニットの組とに関する詳細のレベル情報を示すために使用される。
【0151】
(実装1:冗長レベルを用いたG-PCCデータの単一トラックカプセル化)
【0152】
図6に示されるように、本実施形態の一実装は、G-PCC幾何学形状データおよび属性データが、単一トラック内で搬送されることである。このトラック内の各サンプルは、このトラックの0から最大LoDへのLoD値を伴う1つ以上のG-PCCコンポーネントを含む。各トラック内のG-PCCデータは、独立して、デコーディング可能であり得る。
【0153】
この場合、GPCCトラックは、「gpei」のサンプルエントリタイプを伴うVolumetricVisualSampleEntryを使用し得る。
【0154】
図6は、冗長レベルを伴うG-PCCデータの単一トラックカプセル化の例を示す。
【0155】
サンプルエントリ「gpei」
【0156】
「gpei」サンプルエントリ下、G-PCC幾何学形状データおよび属性データの各詳細のレベルは、単一トラック内に記憶される。
【0157】
サンプルエントリタイプ: 「gpei」
コンテナ: SampleDescriptionBox
必須: 「gpe1」、「gpeg」、「gpc1」、「gpcg」、「gpea」、「gpcl」、「gpes」、「gpcs」、「gpei」、および「gpci」サンプルエントリのうちの1つは、必須である。
数量: 1つ以上のサンプルエントリが、存在し得る。
aligned(8)classGPCCSampleEntry()
extendsVolumetricVisualSampleEntry(’gpei’){
GPCCConfigurationBoxconfig;//mandatory
unsignedint(16)lod;
}
【0158】
GPCCConfigurationBoxは、幾何学形状ベースの点群コンテンツに関するG-PCCデコーダ構成情報を規定する。setupUnitアレイは、デコーダ構成記録が存在するサンプルエントリによって参照されるストリームに関して一定であるG-PCC TLVカプセル化構造を含むものとする。
【0159】
lodは、トラック内の幾何学形状データおよび属性データの詳細のレベルの最大値を示す。
【0160】
(実装2:冗長レベルを用いたG-PCCデータのマルチトラックカプセル化)
【0161】
図7に示されるように、本実施形態の別の実装は、G-PCC幾何学形状データおよび属性データが、別個のトラック内で搬送され、単一トラック内の各サンプルが、全部の詳細のレベルを伴う単一タイプのG-PCCコンポーネントを含むことである。各レベルの分割は、サブサンプル構造においてシグナリングされる。
【0162】
この場合、GPCCトラックは、「gpci」のサンプルエントリタイプを伴うVolumetricVisualSampleEntryを使用するものとする。デコーダが、Lに等しいそのLoDを用いて点群をデコードおよびレンダリングするとき、L未満のLoD値を伴うサブサンプルが、取得される。
【0163】
図7は、冗長レベルを用いたG-PCCデータのマルチトラックカプセル化の例を示す。
【0164】
サンプルエントリ「gpci」
【0165】
「gpci」サンプルエントリ下、詳細の全てのレベルのG-PCC幾何学形状データは、単一トラック内に記憶され、各レベルの情報は、サブサンプルにおいてシグナリングされる。別個のトラック内に記憶される各タイプの属性データに関して、LoD情報の記憶は、幾何学形状データのものに類似する。
【0166】
サンプルエントリタイプ: 「gpci」
コンテナ: SampleDescriptionBox
必須: 「gpe1」、「gpeg」、「gpc1」、「gpcg」、「gpea」、「gpcl」、「gpes」、「gpcs」、「gpei」、および「gpci」サンプルエントリのうちの1つは、必須である。
数量: 1つ以上のサンプルエントリが、存在し得る。
aligned(8) class GPCCSampleEntry()
extends VolumetricVisualSampleEntry (’gpci’) {
GPCCConfigurationBox config; //mandatory
GPCCComponentTypeBox type;
unsigned int(16) lod;
}
【0167】
GPCCConfigurationBoxは、幾何学形状ベースの点群コンテンツに関するG-PCCデコーダ構成情報を規定する。setupUnitアレイは、デコーダ構成記録が存在するサンプルエントリによって参照されるストリームに関して一定であるG-PCC TLVカプセル化構造を含むものとする。
【0168】
GPCCComponentTypeBoxは、このトラック内で搬送されるG-PCCコンポーネントのタイプを示す。
【0169】
lodは、トラック内のG-PCCコンポーネントの詳細のレベルの最大値を示す。
【0170】
(8.実施形態5:G-PCCデータのLoD記述子のシグナリング)
【0171】
単一トラックモード
【0172】
DASHにおける単一トラックモードは、G-PCC ISOBMFFファイルのストリーミングを可能にし、幾何学形状ストリームおよび属性ストリームは、単一トラックとして記憶される。DASHにおける単一トラックモードは、1つ以上の表現を用いて、1つのAdaptationSetとして表されるべきである。
【0173】
マルチトラックモード
【0174】
幾何学形状または属性ストリームは、別個のAdaptationSetとしてMPDファイルにおいて表され得、幾何学形状ストリームを伴うAdaptationSetは、G-PCCストリームのエントリ点としての役割を果たす。
【0175】
G-PCCストリームが複数の詳細のレベルを有する場合、各レベルは、別個のAdaptationSetを使用して、シグナリングされ得、LoD関連情報は、GPCCLoDInfo記述子によってシグナリングされる。
【0176】
GPCCLoDInfo記述子
【0177】
点群の空間スケーラビリティおよびLoD情報を識別するために、GPCCLoDInfo記述子が、使用され得る。この記述子を使用することは、現在のストリームサポート空間スケーラビリティを示す。
【0178】
最大で1つのGPCCLoDInfo記述子が、マルチトラックモードに関して、点群の幾何学形状AdaptationSetおよび各属性AdaptationSetにおいて、または、単一トラックモードに関して、点群のAdaptationSetにおいて、適合組レベルに存在し得る。
【0179】
GPCCLoDInfo記述子は、表1に規定されるような要素および属性を含み得る。
【表11】
【0180】
図8は、本書で説明されるフォーマットのうちの1つ以上を使用して、3Dコンテンツを表すビットストリームを生成するための少なくとも例示的エンコーダを含む第1の例示的デバイスを図示する略図である。エンコーダは、ビデオエンコーダまたはピクチャエンコーダを含み得る。
【0181】
入手ユニット1001は、ビデオおよびピクチャを含む3D場面を捕捉する。入手ユニット1001は、自然場面のビデオまたはピクチャを撮影するために、1つ以上のカメラを装備し得る。随意に、入手ユニット1001は、深度ビデオまたは深度ピクチャを得るためのカメラを用いて実装され得る。随意に、入手ユニット1001は、赤外線カメラのコンポーネントを含み得る。随意に、入手ユニット1001は、遠隔感知カメラで構成され得る。入手ユニット1001は、放射線を使用してオブジェクトを走査することによってビデオまたはピクチャを生成する装置またはデバイスであり得る。
【0182】
随意に、入手ユニット1001は、例えば、自動ホワイトバランス、自動焦点化、自動露光、バックライト補償、鮮明化、雑音除去、スティッチング、アップサンプリング/ダウンサンプリング、フレームレート変換、仮想ビュー合成等、前処理をビデオまたはピクチャに対して実施し得る。
【0183】
入手ユニット1001はまた、ビデオまたはピクチャを別のデバイスまたは処理ユニットから受信し得る。例えば、入手ユニット1001は、トランスコーダ内のコンポーネントユニットであることができる。トランスコーダは、1つ以上のデコーディングされた(または部分的にデコーディングされた)ピクチャを入手ユニット1001にフィードする。別の例は、入手ユニット1001がそのデバイスへのデータリンクを介してビデオまたはピクチャを別のデバイスから得ることである。
【0184】
入手ユニット1001は、ビデオおよびピクチャに加え、他のメディア情報、例えば、オーディオ信号を捕捉するために使用され得ることに留意されたい。入手ユニット1001は、人工情報、例えば、キャラクタ、テキスト、コンピュータ生成ビデオまたはピクチャ等も受信し得る。
【0185】
エンコーダ1002は、例示的エンコーダの実装である。エンコーダ1002の入力は、入手ユニット1001によって出力されたビデオまたはピクチャである。エンコーダ1002は、ビデオまたはピクチャをエンコーディングし、生成された3D(例えば、G-PCC)ビットストリームを出力する。
【0186】
記憶装置/送信ユニット1003は、ビデオまたはピクチャビットストリームをエンコーダ1002から受信し、システム層処理をビットストリームに対して実施する。例えば、記憶装置/送信ユニット1003は、トランスポート規格およびメディアファイルフォーマット、例えば、例えば、MPEG-2 TS、ISOBMFF、DASH、MMT等に従って、ビットストリームをカプセル化する。記憶装置/送信ユニット1003は、第1の例示的デバイスのメモリまたはディスク内へのカプセル化後、取得されたトランスポートストリームまたはメディアファイルを記憶するか、または、有線または無線ネットワークを介してトランスポートストリームまたはメディアファイルを送信する。
【0187】
エンコーダ1002からのビデオまたはピクチャビットストリームに加え、記憶装置/送信ユニット1003の入力がオーディオ、テキスト、画像、テクスチャ、グラフィック等も含み得ることに留意されたい。記憶装置/送信ユニット1003は、そのような異なるタイプのメディアビットストリームをカプセル化することによって、トランスポートまたはメディアファイルを生成する。
【0188】
本実施形態に説明される第1の例示的デバイスは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、メディアサーバ、ポータブルモバイル端末、デジタルカメラ、ブロードキャストデバイス、CDN(コンテンツ配信ネットワーク)デバイス、監視カメラ、ビデオ会議デバイス等内でビデオ(またはピクチャ)ビットストリームを生成または処理することが可能なデバイスであることができる。
【0189】
図9は、本書で開示されるようなフォーマットを有するビットストリームをデコードし、3D場面を再構築し得る第2の例示的デバイスを図示する略図である。例示的デバイスは、少なくともビデオデコーダまたはピクチャデコーダを含み得る。
【0190】
受信ユニット1101は、ビットストリームを有線または無線ネットワークから取得することによって、電子デバイス内のメモリまたはディスクを読み取ることによって、または、データリンクを介して他のデバイスからのデータをフェッチすることによって、ビデオまたはG-PCCビットストリームを受信する。
【0191】
受信ユニット1101の入力は、ビデオまたはピクチャビットストリームを含む、トランスポートストリームまたはメディアファイルも含み得る。受信ユニット1101は、トランスポートまたはメディアファイルフォーマットの仕様に従って、ビデオまたはピクチャビットストリームをトランスポートストリームまたはメディアファイルから抽出する。
【0192】
受信ユニット1101は、ビデオまたはピクチャビットストリームを出力し、デコーダ1102に渡す。ビデオまたはピクチャビットストリームに加え、受信ユニット1101の出力がオーディオビットストリーム、キャラクタ、テキスト、画像、グラフィック等も含み得ることに留意されたい。受信ユニット1101は、出力を第2の例示的デバイス内の対応する処理ユニットに渡す。例えば、受信ユニット1101は、出力オーディオビットストリームをこのデバイス内のオーディオデコーダに渡す。
【0193】
デコーダ1102は、例示的デコーダの実装である。エンコーダ1102の入力は、受信ユニット1101によって出力されたビデオまたはピクチャビットストリームである。デコーダ1102は、ビデオまたはピクチャビットストリームをデコーディングし、デコーディングされたビデオまたはピクチャを出力する。
【0194】
レンダリングユニット1103は、デコーディングされたビデオまたはピクチャをデコーダ1102から受信する。レンダリングユニット1103は、デコーディングされたビデオまたはピクチャを視認者に提示する。レンダリングユニット1103は、第2の例示的デバイスのコンポーネント、例えば、画面であり得る。レンダリングユニット1103は、第2の例示的デバイス、例えば、プロジェクタ、モニタ、TVセット等へのデータリンクを伴う第2の例示的デバイスと別個のデバイスでもあり得る。随意に、レンダリングユニット1103は、例えば、自動ホワイトバランス、自動焦点化、自動露光、バックライト補償、鮮明化、雑音除去、スティッチング、アップサンプリング/ダウンサンプリング、フレームレート変換、仮想ビュー合成等、それを視認者に提示する前に、後処理をデコーディングされたビデオまたはピクチャに対して実施する。
【0195】
デコーディングされたビデオまたはピクチャに加え、レンダリングユニット1103の入力が第2の例示的デバイスの1つ以上のユニットからの他のメディアデータ、例えば、オーディオ、キャラクタ、テキスト、画像、グラフィック等であることができることに留意されたい。レンダリングユニット1103の入力は、人工データ、例えば、遠隔教育アプリケーションにおいて注意を誘引するためにスライド上にローカル教師によって描かれるラインおよびマークも含み得る。レンダリングユニット1103は、異なるタイプのメディアを一緒に構成し、次いで、構成物を視認者に提示する。
【0196】
本実施形態に説明される第2の例示的デバイスは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、セットトップボックス、TVセット、HMD、モニタ、メディアサーバ、ポータブルモバイル端末、デジタルカメラ、ブロードキャストデバイス、CDN(コンテンツ配信ネットワーク)デバイス、監視ビデオ会議デバイス等内でビデオ(またはピクチャ)ビットストリームをデコーディングまたは処理することが可能なデバイスであることができる。
【0197】
図10は、
図8における第1の例示的デバイスと、
図9における第2の例示的デバイスとを含む電子システムを図示する略図である。
【0198】
サービスデバイス1201は、
図8における第1の例示的デバイスである。
【0199】
記憶媒体/トランスポートネットワーク1202は、デバイスまたは電子システムの内部メモリリソース、データリンクを介してアクセス可能な外部メモリリソース、有線および/または無線ネットワークから成るデータ伝送ネットワークを含み得る。記憶媒体/トランスポートネットワーク1202は、サービスデバイス1201内の記憶/送信ユニット1203のための記憶リソースまたはデータ伝送ネットワークを提供する。
【0200】
宛先デバイス1203は、
図9における第2の例示的デバイスである。宛先デバイス1203内の受信ユニット1201は、ビデオまたはピクチャビットストリーム、ビデオまたはピクチャビットストリームを含むトランスポートストリーム、またはビデオまたはピクチャビットストリームを含むメディアファイルを記憶媒体/トランスポートネットワーク1202から受信する。
【0201】
本実施形態に説明される電子システムは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、IPTVシステム、OTTシステム、インターネット上のマルチメディアシステム、デジタルTVブロードキャストシステム、ビデオ監視システム、ポータブルモバイル端末、デジタルカメラ、ビデオ会議システム等内でビデオ(またはピクチャ)ビットストリームを生成、記憶またはトランスポート、およびデコードすることが可能なデバイスまたはシステムであることができる。
【0202】
図12は、本書に説明されるエンコーダ側またはデコーダ側技法を実装するために使用され得る例示的装置1400を示す。装置1400は、エンコーダ側またはデコーダ側技法または両方を実施するように構成され得るプロセッサ1402を含む。装置1400は、プロセッサ実行可能命令を記憶するためのメモリ、およびビデオビットストリームおよび/またはディスプレイデータを記憶するためのメモリ(図示せず)も含み得る。装置1400は、変換回路、算術コーディング/デコーディング回路、ルックアップ表ベースのデータコーディング技法等、ビデオ処理回路網(図示せず)を含み得る。ビデオ処理回路網は、部分的に、プロセッサ内に、および/または部分的に、グラフィックプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)等の他の専用回路網内に含まれ得る。3Dコンテンツを捕捉またはレンダリングするために使用される周辺機器等の他のハードウェア詳細はまた、簡潔にするために、
図12から省略される。
【0203】
ボリューム視覚的メディアデータをエンコードまたはデコードする装置は、コンピュータ、ラップトップ、タブレットまたはゲーム用デバイス等のユーザデバイスの一部として、実装され得る。
【0204】
ビデオをエンコードおよびデコードする技術に関して本書に説明されるこの技術的問題は、好ましくは、以下の解決策のうちの1つ以上を組み込むことによって、いくつかの実施形態によって解決され得る。
【0205】
1.3次元コンテンツを処理する方法(例えば、
図11A0に示される方法1150)であって、1つの幾何学形状サブビットストリームおよび1つ以上の属性サブビットストリームとして表された3次元(3D)コンテンツを含むビットストリームの詳細のレベル(LoD)情報を解析すること(1152)と、LoD情報に基づいて、所望の詳細のレベルに対応する幾何学形状サブビットストリームおよび1つ以上の属性サブビットストリームのうちの少なくとも一部をデコードすることによって、デコードされた情報を生成すること(1154)と、デコードされた情報を使用して、少なくとも所望の詳細のレベルに対応する3次元場面を再構築すること(1156)とを含む。ビットストリームは、複数のレベルの3Dコンテンツの詳細に従って編成されたフォーマットに準拠する。いくつかの実施形態では、方法1150は、本書で開示されるデコーダ装置によって実装され得る。実施形態1は、どのように方法が、所望のLoDに関連するデータに関するビットストリームに部分的にアクセスすることによって実装され得るかのいくつかの例を提供する。
【0206】
2.LoD情報を解析することは、ビットストリームが空間スケーラビリティサブビットストリームを備えているかどうかを決定すること、複数の詳細のレベルを含むビットストリームにおける第1の構文構造を識別すること、第2の構文構造、サブサンプル構造、サンプルエントリ、または記述子を使用して、LoD情報を識別すること、または所望の詳細のレベルまたは全部のレベルの組に対応するコンテンツの位置を特定することを含む、解決策1に記載の方法。種々の実施形態では、これらのタスクのうちの1つ以上のものは、所望のLoDまたは全部のLoDに関連する幾何学形状および/または属性サブストリームまたはサブビットストリームの位置を特定するために実施され得る。
【0207】
3.ビットストリームが空間スケーラビリティ機能性をサポートするかどうかを決定し、構造を識別するために、ビットストリームにおけるサンプルエントリタイプフィールドを使用することを含む、解決策2に記載の方法。
【0208】
4.複数の詳細のレベルを伴うビットストリームの構造は、全部のレベルの組のビットストリームがサブサンプル構造を伴う1つのトラック内で搬送される構造と、各レベルのビットストリームがエクストラクタを伴う1つのトラックにある構造と、1つ以上のレベルのビットストリームがより低いレベルからの冗長データを伴う1つのトラックにある構造とを備えている、解決策3に記載の方法。例えば、実施形態2は、G-PCCデータがサブサンプル構造を伴う1つのトラック内に含まれるビットストリームフォーマットの例を提供する。
【0209】
5.デコードすることは、所望の詳細のレベルに対応する3Dコンテンツを含む1つ以上のサブサンプルをデコードすることを含む、解決策1に記載の方法。
【0210】
6.デコードすることは、詳細の全てのレベルに対応する3Dコンテンツを含むサブサンプルに関する全ての幾何学形状サブビットストリームをデコードすることを含む、解決策1に記載の方法。
【0211】
7.サブサンプル構造は、LoD情報を表すcodec_specific_parametersフィールド拡張子を備えている、解決策2に記載の方法。追加の例は、実施形態2、代替サブサンプル構造1、2、または3、および実装1および2内に提供される。
【0212】
8.LoD情報を表すcodec_specific_parametersフィールド拡張子は、以下の構文要素:ペイロードタイプ、リフティングスケーラビリティを示すフラグ、幾何学形状データユニットのみが含まれるかどうかを示すフラグ、属性データユニットのみが含まれるかどうかを示すフラグ、または属性ペイロードのうちの1つ以上を含む、解決策7に記載の方法。
【0213】
9.サンプルエントリにおけるLoD値を使用して、ビットストリームのLoDの値を識別することを含む、解決策2に記載の方法。
【0214】
10.デコードすることは、所望の詳細のレベルに対応するトラックにおいて、ビットストリームの第1の部分をデコードすることと、所望の詳細のレベルより低い詳細のレベルを伴う1つ以上の他のトラックにおいて、ビットストリームの第2の部分を識別し、デコードすることとを含む、解決策1に記載の方法。例えば、実施形態3は、本解決策のいくつかの追加の詳細を説明する。
【0215】
11.エクストラクタおよび第1のトラック参照タイプを使用して、所望のレベルより低い詳細のレベルを伴う他のトラックを識別することと、エクストラクタを使用して、他のトラックに対応するデータを識別することとを含む、解決策10に記載の方法。
【0216】
12.エクストラクタは、トラック参照タイプに基づいてトラックを1つ以上の他のトラックにリンクする情報を搬送する1つ以上のコンストラクタと、データを参照されるトラックから抽出するための1つ以上の命令とを含む、解決策11に記載の方法。エクストラクタ実装の追加の例は、例えば、実施形態3において説明される。
【0217】
13.第1のトラックグループタイプを使用して、全部の詳細のレベルに対応するサブストリームを含む1つ以上のトラックを識別することと、全部の詳細のレベルに対応する1つ以上のトラックにおけるデータをデコードすることとを含む、解決策1に記載の方法。
【0218】
14.単一トラックにおいて、所望の詳細のレベルと、1つ以上のより低いレベルとに対応するビットストリームのうちの一部をデコードすることを含む、解決策1に記載の方法。
【0219】
15.単一トラックにおける全部の詳細のレベルに対応するビットストリームをデコードすることを含む、解決策1に記載の方法。
【0220】
16.適合組が空間スケーラビリティ機能性をサポートするかどうかを決定するように、LoD記述子を使用することを含む、解決策2に記載の方法。
【0221】
17.LoD記述子におけるLoD値を使用して、適合組におけるLoDを識別することを含む、解決策16に記載の方法。
【0222】
18.所望のLoDおよび1つ以上のより低いレベルに対応するビットストリームのうちの一部を単一適合組からデコードすること、または1つの適合組における所望のLoDに対応するビットストリームのうちの一部と、他の適合組におけるより低いレベルを伴うデータとを識別し、デコードすることを含む、解決策1に記載の方法。追加の詳細は、例えば、実施形態4において説明される。
【0223】
19.全部トラックidを使用して、詳細の全てのレベルに対応するデータを含む1つ以上の適合組を識別することと、全部の詳細のレベルに対応する1つ以上の適合組において、全部のデータをデコードすることとを含む、解決策1に記載の方法。
【0224】
20.LoD記述子は、その属性が詳細のレベル情報を規定する構文要素、より低いレベルトラックへの依存を示す構文要素、ビットストリームにおける最小の詳細のレベル、ビットストリームにおける最大の詳細のレベル、または全部トラックidの識別子を示す構文要素のうちの1つ以上を備えている、解決策16-19に記載の方法。
【0225】
21.所望のLoDに対応するビットストリームのうちの一部が、単一トラックカプセル化または複数トラックカプセル化を伴う所望のLoDに対応するデータを含む、解決策1-20に記載の方法。例は、実施形態1-5において説明される。
【0226】
22.単一トラックカプセル化は、同じトラックにカプセル化された1つの幾何学形状ビットストリームと1つ以上の属性ビットストリームとを備えている、解決策21に記載の方法。
【0227】
23.複数トラックカプセル化は、別個のトラックにカプセル化された1つの幾何学形状ビットストリームと1つ以上の属性ビットストリームとを備えている、解決策20に記載の方法。
【0228】
24.3次元場面を再構築することは、3Dコンテンツにおける各点の空間位置および1つ以上の属性値を再構築すること、または3Dコンテンツにおける各点の空間位置および属性値を再構築し、ユーザの視認位置およびビューポートに従って、3D場面をレンダリングすることを含む、解決策1に記載の方法。上記の解決策のいくつかの詳細はまた、実施形態4および5において説明される。
【0229】
25.3次元コンテンツをエンコードする方法(例えば、
図11Bにおいて描写される方法1170)であって、3次元(3D)コンテンツを1つ以上の詳細のレベル(LoD)に従って編成された幾何学形状サブビットストリームおよび1つ以上の属性サブビットストリームを備えているビットストリームにエンコードすること(1172)と、ビットストリーム内に、1つ以上のLoDと、幾何学形状サブビットストリームと、1つ以上の属性ビットストリームとの間の対応を示すLoD情報を含むこと(1174)とを含む、方法。
【0230】
26.ビットストリーム内に、空間スケーラビリティビットストリームの存在の指示をエンコードすることと、複数の詳細のレベルを含むビットストリームに第1の構文構造を含むことと、第2の構文構造を使用して、サブサンプル構造、サンプルエントリ、またはビットストリームに含まれるLoDベースのコンテンツを示す記述子を含むこととをさらに含む、解決策25に記載の方法。
【0231】
27.ビットストリームに、ビットストリームが空間スケーラビリティ機能性をサポートするかどうかの決定を可能にし、構造を識別するために、サンプルエントリタイプフィールドを含むことをさらに含む、解決策26に記載の方法。
【0232】
28.複数の詳細のレベルを伴うビットストリームの構造は、全部のレベルの組のビットストリームがサブサンプル構造を伴う1つのトラック内で搬送される構造と、各レベルのビットストリームがエクストラクタを伴う1つのトラックにある構造と、1つ以上のレベルのビットストリームがより低いレベルからの冗長データを伴う1つのトラックにある構造とを備えている、解決策27に記載の方法。
【0233】
29.サブサンプル構造は、LoD情報を表すcodec_specific_parametersフィールド拡張子を備えている、解決策26に記載の方法。
【0234】
30.LoD情報を表すcodec_specific_parametersフィールド拡張子は、以下の構文要素:ペイロードタイプ、リフティングスケーラビリティを示すフラグ、幾何学形状データユニットのみが含まれるかどうかを示すフラグ、属性データユニットのみが含まれるかどうかを示すフラグ、または属性ペイロードのうちの1つ以上を含む、解決策29に記載の方法。
【0235】
31.ビットストリームに、ビットストリームのLoDの値を識別するサンプルエントリにおけるLoD値を含むことを含む、解決策26に記載の方法。
【0236】
32.ビットストリームに、エクストラクタと、所望の詳細のレベルより低い詳細のレベルを伴う他のトラックおよび他のトラックに対応するデータを識別する、第1のトラック参照タイプとを含むことを含む、解決策31に記載の方法。
【0237】
33.エクストラクタは、トラック参照タイプに基づいてトラックを1つ以上の他のトラックにリンクする情報を搬送する1つ以上のコンストラクタと、データを参照されるトラックから抽出するための1つ以上の命令とを含む、解決策32に記載の方法。
【0238】
34.ビットストリームに、全部の詳細のレベルに対応するサブストリームを含む1つ以上のトラックを識別する第1のトラックグループタイプを含むことを含む、解決策25に記載の方法。
【0239】
35.適合組が空間スケーラビリティ機能性をサポートするかどうかを示すLoD記述子を含むことを含む、解決策26に記載の方法。
【0240】
36.LoD記述子は、適合組におけるLoDを識別するLoD値を含む、解決策35に記載の方法。
【0241】
37.所望のLoDに対応するビットストリームのうちの一部が、単一トラックカプセル化または複数トラックカプセル化を伴う所望のLoDに対応するデータを含む、解決策25-26に記載の方法。
【0242】
38.単一トラックカプセル化は、同じトラックにカプセル化された1つの幾何学形状ビットストリームと1つ以上の属性ビットストリームとを備えている、解決策37に記載の方法。
【0243】
39.複数トラックカプセル化は、別個のトラックにカプセル化された1つの幾何学形状ビットストリームと1つ以上の属性ビットストリームとを備えている、解決策37に記載の方法。
【0244】
上で説明されるエンコーディング解決策の追加の詳細は、デコーダ解決策に対してさらに説明されるように、実施形態1-5においても開示される。
【0245】
40.解決策1-39のうちのいずれか1つ以上に記載される方法を実装するように構成されたプロセッサを備えている3次元コンテンツ処理装置。
【0246】
41.コンピュータ読み取り可能な媒体上に記憶されたプログラムコードを備えているコンピュータプログラム製品であって、プログラムコードは、プロセッサによって実行されると、プロセッサに、解決策1-39のいずれかうちの1つ以上に記載される方法を実装させる、コンピュータプログラム製品。
【0247】
本書に説明される開示された実施形態および他の実施形態、モジュール、および機能動作は、デジタル電子回路で、または本書に開示される構造およびそれらの構造均等物を含む、コンピュータソフトウェア、ファームウェア、またはハードウェアで、またはそれらのうちの1つ以上のものの組み合わせで、実装されることができる。開示および他の実施形態は、1つ以上のコンピュータプログラム製品、すなわち、データ処理装置による実行のために、またはその動作を制御するために、コンピュータ読み取り可能な媒体上でエンコードされるコンピュータプログラム命令の1つ以上のモジュールとして、実装されることができる。コンピュータ読み取り可能な媒体は、機械読み取り可能な記憶デバイス、機械読み取り可能な記憶基板、メモリデバイス、機械読み取り可能な伝搬信号を生じさせる組成物、または1つ以上のそれらの組み合わせであり得る。用語「データ処理装置」は、一例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含む、データを処理するための全ての装置、デバイス、および機械を包含する。本装置は、ハードウェアに加えて、当該コンピュータプログラムのための実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つ以上のそれらの組み合わせを構成するコードを含むことができる。伝搬信号は、人工的に発生される信号、例えば、好適な受信機装置に伝送するために情報をエンコードするように発生される、機械で発生される電気、光学、または電磁信号である。
【0248】
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても公知である)が、コンパイラ型またはインタープリタ型言語を含む任意の形態のプログラミング言語で書かれることができ、独立型プログラムとして、またはコンピューティング環境内の使用のために好適なモジュール、コンポーネント、サブルーチン、または他のユニットとしてを含む任意の形態で展開されることができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応するわけではない。プログラムは、他のプログラムまたはデータを保持するファイル(例えば、マークアップ言語文書内に記憶された1つ以上のスクリプト)の一部内に、当該プログラム専用の単一のファイル内に、または複数の協調ファイル(例えば、1つ以上のモジュール、サブプログラム、またはコードの一部を記憶するファイル)内に記憶されることができる。コンピュータプログラムは、1つのコンピュータ上で、または1つの地点に位置し、または複数の地点を横断して分散され、通信ネットワークによって相互接続される複数のコンピュータ上で、実行されるように展開されることができる。
【0249】
本書に説明されるプロセスおよび論理フローは、入力データに作用し、出力を発生させることによって機能を実施するように、1つ以上のコンピュータプログラムを実行する、1つ以上のプログラマブルプロセッサによって、実施されることができる。プロセスおよび論理フローはまた、特殊用途論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって、実施されることもでき、装置も、それとして実装されることができる。
【0250】
コンピュータプログラムの実行のために好適なプロセッサは、一例として、汎用および特殊用途マイクロプロセッサの両方、および任意の種類のデジタルコンピュータのいずれか1つ以上のプロセッサを含む。概して、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリまたは両方から、命令およびデータを受信するであろう。コンピュータの不可欠な要素は、命令を実施するためのプロセッサ、および命令およびデータを記憶するための1つ以上のメモリデバイスである。概して、コンピュータはまた、データを記憶するための1つ以上の大容量記憶デバイス、例えば、磁気、磁気光学ディスク、または光ディスクを含む、またはそこからデータを受信する、またはそこにデータを転送する、または両方を行うように、動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するために好適なコンピュータ読み取り可能な媒体は、一例として、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、磁気光学ディスク、およびCD-ROMおよびDVD-ROMディスクを含む、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、特殊用途論理回路によって補完される、またはそれに組み込まれることができる。
【0251】
本特許文書は、多くの詳細を含むが、これらは、任意の発明または請求され得るものの範囲への限定としてではなく、むしろ、特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態との関連で本特許文書に説明されるある特徴も、単一の実施形態において組み合わせて実装されることができる。逆に、単一の実施形態との関連で説明される種々の特徴も、複数の実施形態において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つ以上の特徴は、ある場合、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。
【0252】
同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で、または連続的順序で実施されること、または全ての図示される動作が実施されることを要求するものとして理解されるべきではない。さらに、本特許文書に説明される実施形態における種々のシステムコンポーネントの分離は、全ての実施形態においてそのような分離を要求するものとして理解されるべきではい。
【0253】
いくつかの実装および例のみが、説明され、他の実装、向上、および変形例も、本特許文書に説明および図示されるものに基づいて成されることができる。