(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-13
(45)【発行日】2024-05-21
(54)【発明の名称】点群の幾何学的形状をコーディングする方法およびデバイス
(51)【国際特許分類】
H04N 19/597 20140101AFI20240514BHJP
H04N 19/463 20140101ALI20240514BHJP
【FI】
H04N19/597
H04N19/463
(21)【出願番号】P 2020549697
(86)(22)【出願日】2019-04-01
(86)【国際出願番号】 US2019025142
(87)【国際公開番号】W WO2019199512
(87)【国際公開日】2019-10-17
【審査請求日】2022-03-30
(32)【優先日】2018-04-11
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】518338149
【氏名又は名称】インターデジタル ヴイシー ホールディングス, インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】グーデ,セリーヌ
(72)【発明者】
【氏名】ラック,ジョアン
(72)【発明者】
【氏名】ツァイ,カンイン
【審査官】鉢呂 健
(56)【参考文献】
【文献】米国特許出願公開第2017/0347120(US,A1)
【文献】国際公開第2019/142666(WO,A1)
【文献】国際公開第2019/055963(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00-19/98
(57)【特許請求の範囲】
【請求項1】
点群の投影面に正投影された点の深度値を符号化することを含む方法であって、深度値を符号化することが、
ビットストリームにおいて第1の深度画像を符号化することによって第1の符号化された深度画像を取得することであって、前記第1の深度画像が、少なくとも前記点群のより近い点の深度値を含む、取得することと、
前記ビットストリームにおいて、画像領域ごとの深度コーディングモードを判定し、符号化することであって、前記深度コーディングモードが、第2の深度画像の画像領域内の深度値も前記ビットストリームにおいて符号化されるかどうかを示し、前記第2の深度画像が、前記点群のより遠い点の深度値を表す、判定し、符号化することと、
少なくとも1つの深度コーディングモードが、前記第2の深度画像の画像領域内の深度値が前記ビットストリームにおいて符号化されることを示している場合、前記ビットストリームにおいて前記深度値を符号化することと、を含む、方法。
【請求項2】
点群の投影面に正投影された点の深度値を符号化するためのデバイスであって、
ビットストリームにおいて第1の深度画像を符号化することによって第1の符号化された深度画像を取得することであって、前記第1の深度画像が、少なくとも前記点群のより近い点の深度値を含む、取得することと、
前記ビットストリームにおいて、画像領域ごとの深度コーディングモードを判定し、符号化することであって、前記深度コーディングモードが、第2の深度画像の画像領域内の深度値も前記ビットストリームにおいて符号化されるかどうかを示し、前記第2の深度画像が、前記点群のより遠い点の深度値を表す、判定し、符号化することと、
少なくとも1つの深度コーディングモードが、前記第2の深度画像の画像領域内の深度値が前記ビットストリームにおいて符号化されることを示している場合、前記ビットストリームにおいて前記深度値を符号化することと、を行なうように構成された少なくとも1つのプロセッサを含む、デバイス。
【請求項3】
前記第2の深度画像の画像領域内の深度値が、前記ビットストリームにおいて符号化されるかどうかを判定することが、
前記第1の符号化された深度画像を復号化することによって復号化された第1の深度画像と、前記第2の深度画像を符号化および復号化することによって復号化された第2の深度画像と、を取得することと、
第1の距離および第1のビットレートを考慮することによって、第1のレート歪み代償を計算することであって、前記第1の距離が、前記復号化された第1の深度画像の同位置の画像領域内の深度値と、前記復号化された第2の深度画像の同位置の画像領域内の深度値との間で計算され、前記第1のビットレートが、前記第2の深度画像の符号化に関して計算される、計算することと、
第2の距離を考慮して第2のレート歪み代償を計算することであって、前記第2のレート歪みのデータレートが、ここではヌルとみなされ、前記第2の距離が、前記復号化された第1の深度画像の前記同位置の画像領域の深度値と、前記復号化された第1の深度画像における深度値を補間することにより得られる補間深度値との間で計算される、計算することと、を含み、
前記第2のレート歪み代償が前記第1のレート歪み代償よりも低い場合、前記画像領域の前記深度コーディングモードは、前記第2の深度画像の前記同位置の画像領域内の深度値が前記ビットストリームにおいて符号化されないことを示し、さもなければ、前記画像領域の前記深度コーディングモードは、前記第2の深度画像の前記同位置の画像領域内の深度値が前記ビットストリームにおいて符号化されることを示す、請求項1に記載の方法。
【請求項4】
前記第2の深度画像の画像領域内の深度値が、前記ビットストリームにおいて符号化されるかどうかを判定することが、
前記第1の深度画像の深度値を補間することにより、前記第2の深度画像の前記画像領域の補間深度値を計算することと、
前記第2の深度画像の前記画像領域内の深度値と、前記第1の符号化された深度画像を復号化することによって得られる復号化された第1の深度画像における深度値を補間することによって得られる補間深度値との間の距離を計算することと、を含み、
前記距離がしきい値を下回るにおいて場合、前記画像領域の前記深度コーディングモードは、前記第2の深度画像の前記画像領域内の前記深度値が前記ビットストリームにおいて符号化されないことを示し、さもなければ、前記画像領域の前記深度コーディングモードは、前記第2の深度画像の前記画像領域内の深度値が前記ビットストリームにおいて符号化されることを示す、請求項1に記載の方法。
【請求項5】
請求項3に記載の第1および第2の距離、または請求項4に記載の距離が、再構成された点群の少なくとも一部と前記点群の対応する部分との間で計算され、前記点群の前記少なくとも一部が、前記復号化された第1の深度画像と第2の深度画像から再構成される、請求項3または4に記載の方法。
【請求項6】
前記点群の前記少なくとも一部が、前記画像領域内の深度値から、および少なくとも1つの以前に考慮された画像領域内の深度値から再構成される、請求項5に記載の方法。
【請求項7】
前記画像領域の前記深度コーディングモードが、前記第2の深度画像の前記画像領域内の前記深度値が、前記ビットストリームにおいて符号化されないことを示す場合、前記第2の深度画像の前記画像領域内のピクセルの深度値が、前記第2の深度画像を少なくとも部分的に符号化する前に、一定値に置換される、請求項1、もしくは3~6の一項に記載の方法。
【請求項8】
前記深度コーディングモードが、幾何学的形状が前記第1および第2の深度画像によって表される前記点群の前記再構成に関連するメタデータとして符号化される、請求項5又は6に記載の方法。
【請求項9】
元の点群の投影面に正投影された点の深度値を復号化することを含む方法であって、深度値を復号化することが、
ビットストリームを復号化することにより、復号化された第1の深度画像を取得することと、
前記ビットストリームから、第2の深度画像の画像領域に関連する深度コーディングモードを取得することと、
前記深度コーディングモードが、前記第2の深度画像の前記画像領域内の前記深度値が前記ビットストリームにおいて符号化されることを示している場合、前記ビットストリームから前記深度値を復号化することと、
さもなければ、前記復号化された第1の深度画像から深度値を補間することにより、前記第2の深度画像の前記画像領域内の補間された前記深度値を計算することと、を含む、方法。
【請求項10】
元の点群の投影面に正投影された点の深度値を復号化するためのデバイスであって、
ビットストリームを復号化することにより、復号化された第1の深度画像を取得することと、
前記ビットストリームから、第2の深度画像の画像領域に関連する深度コーディングモードを取得することと、
前記深度コーディングモードが、前記第2の深度画像の前記画像領域内の前記深度値が前記ビットストリームにおいて符号化されることを示している場合、前記ビットストリームから前記深度値を復号化することと、
さもなければ、前記復号化された第1の深度画像から前記深度値を補間することにより、前記第2の深度画像の前記画像領域内の補間深度値を計算することと、を行うように構成された少なくとも1つのプロセッサを含む、デバイス。
【請求項11】
少なくとも1つの深度コーディングモードが、前記第2の深度画像の画像領域内の前記深度値が前記ビットストリームにおいて
符号化されることを示す場合、
前記第2の深度画像全体が前記ビットストリームから復号化される、請求項9に記載の方法。
【請求項12】
前記第2の深度画像の画像領域のサイズおよび形状が、前記第2の深度画像のサイズおよび形状である、請求項9に記載の方法。
【請求項13】
前記第2の深度画像の前記画像領域が、前記第2の深度画像のブロック、または前記第2の深度画像の投影された深度パッチである、請求項9に記載の方法。
【請求項14】
プログラムコード命令を含むコンピュータプログラムであって、前記プログラムコード命令は、このプログラムがコンピュータ上で実行されるときに、請求項1,3~8の何れか1項に記載の方法のステップを実行するためのものである、
コンピュータプログラム。
【請求項15】
1つ以上のプロセッサに、請求項1,3~8の何れか1項に記載の方法のステップを実行させるための命令を含む、非一時的コンピュータ可読媒体。
【請求項16】
少なくとも1つの深度コーディングモードが、前記第2の深度画像の画像領域内の深度値がビットストリームにおいて
符号化されることを示す場合、
前記第2の深度画像全体がビットストリームから復号化される、請求項10に記載のデバイス。
【請求項17】
前記第2の深度画像の画像領域のサイズおよび形状は、前記第2の深度画像のサイズおよび形状である、請求項10に記載のデバイス。
【請求項18】
前記第2の深度画像の画像領域は、前記第2の深度画像のブロック又は前記第2の深度画像の投影深度パッチである、請求項10に記載のデバイス。
【請求項19】
前記第2の深度画像の画像領域内の深度値が、前記ビットストリームにおいて符号化されるかどうかを判定することが、
前記第1の符号化された深度画像を復号化することによって復号化された第1の深度画像と、前記第2の深度画像を符号化および復号化することによって復号化された第2の深度画像と、を取得することと、
第1の距離および第1のビットレートを考慮することによって、第1のレート歪み代償を計算することであって、前記第1の距離が、前記復号化された第1の深度画像の同位置の画像領域内の深度値と、前記復号化された第2の深度画像の同位置の画像領域内の深度値との間で計算され、前記第1のビットレートが、前記第2の深度画像の符号化に関して計算される、計算することと、
第2の距離を考慮して第2のレート歪み代償を計算することであって、前記第2のレート歪みのデータレートが、ここではヌルとみなされ、前記第2の距離が、前記復号化された第1の深度画像の前記同位置の画像領域の深度値と、前記復号化された第1の深度画像における深度値を補間することにより得られる補間深度値との間で計算される、計算することと、を含み、
前記第2のレート歪み代償が前記第1のレート歪み代償よりも低い場合、前記画像領域の前記深度コーディングモードは、前記第2の深度画像の前記同位置の画像領域内の深度値が前記ビットストリームにおいて符号化されないことを示し、さもなければ、前記画像領域の前記深度コーディングモードは、前記第2の深度画像の前記同位置の画像領域内の深度値が前記ビットストリームにおいて符号化されることを示す、請求項2に記載のデバイス。
【請求項20】
前記第2の深度画像の画像領域内の深度値が、前記ビットストリームにおいて符号化されるかどうかを判定することが、
前記第1の深度画像の深度値を補間することにより、前記第2の深度画像の前記画像領域の補間深度値を計算することと、
前記第2の深度画像の前記画像領域内の深度値と、前記第1の符号化された深度画像を復号化することによって得られる復号化された第1の深度画像における深度値を補間することによって得られる補間深度値との間の距離を計算することと、を含み、
前記距離がしきい値を下回るにおいて場合、前記画像領域の前記深度コーディングモードは、前記第2の深度画像の前記画像領域内の前記深度値が前記ビットストリームにおいて符号化されないことを示し、さもなければ、前記画像領域の前記深度コーディングモードは、前記第2の深度画像の前記画像領域内の深度値が前記ビットストリームにおいて符号化されることを示す、請求項2に記載のデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本原理は、概して、3Dオブジェクトの外表面を表す点群のコーディグおよび復号化に関する。特に、限定的ではないが、本原理の技術分野は、このような点群の幾何学的形状を表す深度画像の符号化/復号化に関する。
【背景技術】
【0002】
本節では、技術分野の様々な態様を読者に紹介することを意図しており、これらは以下に説明および/または特許請求する本原理の様々な態様に関連し得る。この考察は、本原理の様々な態様のより良い理解を容易にするための背景情報を読者に提供するのに役立つと考えられる。したがって、これらの記述は、この観点から読み取られるべきであり、先行技術を容認したものとして読み取られるべきではないということを理解されたい。
【0003】
点群は、何らかの座標系におけるデータ点の集合である。3次元座標系(3D空間)では、これらの点は通常、3Dオブジェクトの外表面を表すことを意図している。点群の各点は、多くの場合、その位置(3D空間内のX、Y、およびZ座標)と、場合によっては、例えば、RGBまたはYUV色空間で表現される色、透明度、反射率、2成分法線ベクトルなどの他の関連属性によって定義される。
【0004】
通常、点群を6成分点(X、Y、Z、R、G、B)または同等の(X、Y、Z、Y、U、V)の集合として表現し、ここで、(X、Y、Z)は3D空間の色付き点の座標を定義し、(R、G、B)または(Y、U、V)はこの色付き点の色を定義する。
【0005】
点群は、群が時間に対して進展するかどうかに応じて、静的または動的になり得る。動的な点群の場合、点の数は一定ではないが、むしろ、通常は時間と共に進展することに留意されたい。したがって、動的な点群は、点の集合の時間順のリストである・
【0006】
実際には、点群は、文化遺産/建築物における彫像や建物のようなオブジェクトを3Dでスキャンして、送信したり、訪問したりすることなく、オブジェクトの空間構成を共有するなど、様々な目的のために使用することができる。また、オブジェクトが破壊されてしまう場合、例えば、地震で寺院が破壊されてしまう場合に備えて、オブジェクトの知識を確実に保存するための方法でもある。このような点群は、通常、静的で色付きで巨大である。
【0007】
別の使用例は、3D表現を使用して、マップが平面に限定されず、レリーフを含むことができる地形および地図製作である。現在、Googleマップは3Dマップの良い例であるが、点群ではなくメッシュを使用している。それでも、点群は3Dマップに適したデータ形式であり得、そのような点群は通常、静的で色付きで巨大である。
【0008】
自動車産業や自律走行車も、点群を使用できる領域である。自律走行車は、そのすぐ近くの現実に基づいて適切な運転判断を行うために、環境を「調査」できる必要がある。LIDARのような通常のセンサは、意思決定エンジンで使用される動的な点群を生成する。これらの点群は人間が見ることを意図したものではなく、通常は小さく、必ずしも色付けされているわけではなく、キャプチャの頻度が高い動的なものである。これらが、Lidarによって提供される反射率のような他の属性を有し得るのは、この属性が、感知されたオブジェクトの材質に関する良い情報であり、意思決定の助けになる場合があるからである。
【0009】
バーチャルリアリティと没入型の世界は最近話題になっており、2Dの平面映像の未来として多くの人が予測している。基本的な考え方は、標準的なテレビに対抗して、視聴者をその周りのすべての環境に没入させることであり、この場合、視聴者は自分の前の仮想世界だけを見ることができる。環境における視聴者の自由度に応じて、没入感にはいくつかの段階がある。色付きの点群は、バーチャルリアリティ(またはVR)の世界を配信するのに適した形式の候補である。それらは静的または動的であり、通常は平均サイズであり、一度に数百万もの点を超えることはない。
【0010】
点群圧縮は、ビットストリームのサイズがエンドユーザに対して実際の保存/送信を可能にするのに十分に小さい場合にのみ、没入型世界の3Dオブジェクトを保存/送信することに成功する。
【0011】
許容できる(または望ましくは非常に良い)体験品質を維持しながら、ビットレートを適度に消費して、動的点群をエンドユーザに配信することができるのが非常に重要である。これらの動的点群を効率的に圧縮することが、没入型世界の配信チェーンを実用化するための重要なポイントとなる。
【0012】
画像ベースの点群圧縮技術は、圧縮効率と低複雑度の組み合わせにより、ますます人気が高まっている。これらは2つの主要なステップで進行し、まず、点群、つまり3D点を2D画像に投影(正投影)する。例えば、少なくとも1つの深度画像は点群の幾何学的形状、つまり3D空間内の3D点の空間座標を表し、少なくとも1つのテクスチャ画像は点群の3D点に関連する属性、例えば、これらの3D点に関連するテクスチャ/色情報を表している。次に、これらの手法は、従来のビデオエンコーダを使用して、そのような深度およびテクスチャ画像を符号化する。
【0013】
画像ベースの点群圧縮技術は、例えば、HEVC(「ITU-T H.265 Telecommunication standardization sector of ITU(10/2014)、series H:視聴覚およびマルチメディアシステム、視聴覚サービスのインフラストラクチャ、すなわち、動画のコーディング、高効率のビデオコーディング、勧告ITU-T H.265」)のような2Dビデオエンコーダの性能を活用して、優れた圧縮性能を達成すると同時に、単純な投影スキームを使用して複雑さを低く抑えている。
【0014】
画像ベースの点群圧縮技術の課題の1つは、点群が画像への投影に適していない場合があることであり、特に、点分布が多くのしわのある表面(衣類のように凹凸のある領域)に沿っている場合や、点分布が(毛皮や髪の毛のように)全く表面に沿っていない場合である。これらの状況では、画像ベースの点群圧縮技術は、低い圧縮効率(多くの小さな投影が必要であり、2Dビデオ圧縮の効率が低下する)、または(点群を表面に投影することが困難なため)低品質に悩まされる。
【0015】
この問題を緩和するために最新技術で使用されるアプローチの1つは、複数の幾何学的形状およびテクスチャ情報を画像の同じ空間位置(ピクセル)に投影することにある。つまり、点群の3D点ごとにいくつかの深度および/またはテクスチャ画像が生成されてもよい。
【0016】
これは、例えば、2017年10月、中国のマカオにおいて、ISO/IEC JTC1/SC29/WG11/N17248で定義されている、いわゆるテストモデルカテゴリ2の点群エンコーダ(TMC2)の場合であり、点群は投影面に正投影される。次に、該投影面の座標ごとに2つの深度値が関連付けられ、1つは最も近い点に関連する深度値(最小深度値)を表し、もう1つは最も遠い点の深度値(最大深度値)を表す。次に、第1の深度画像が最小深度値(D0)から生成され、第2の深度画像がD1-D0<=表面厚さを満たす最大(D1)と最小(D0)の深度値の差から生成され、ここで、表面厚さは最大表面厚さである。
【0017】
次に、深度画像および関連するメタデータが符号化され、復号化される。次に、点群の幾何学的形状が、復号化した深度画像から再構成される。次に、色/テクスチャが再構成された点群の各点に割り当てられ、テクスチャ画像(ここでは2つ)が該割り当てられた色/テクスチャから生成される。次に、2つのテクスチャ画像が符号化される。
このようにして、第2の深度画像には、コーディングが非常に困難な、有意の輪郭のような高頻度特徴が含まれる。
【発明の概要】
【0018】
以下では、本原理のいくつかの態様を基本的に理解するために、本原理の簡略化した概要を提示する。この概要は、本原理の広範な大要ではない。本原理の主要または重要な要素を特定することは意図していない。以下の概要は、以下に提供されるより詳細な説明の前置きとして、本原理のいくつかの態様を単純化した形で提示しているにすぎない。
【0019】
本発明の原理は、点群の投影面に正投影された点の深度値を符号化する方法で、先行技術の欠点の少なくとも一つを改善することを目的としており、
-ビットストリームにおいて第1の深度画像を符号化することによって第1の符号化された深度画像を取得することであって、第1の深度画像が、点群のより近い点の深度値を表す、取得することと、
-ビットストリームにおいて、画像領域ごとの深度コーディングモードを判定し、符号化することであって、深度コーディングモードが、第2の深度画像の画像領域内の深度値もビットストリームにおいて符号化されるかどうかを示し、第2の深度画像が、点群のより遠い点の深度値を表す、判定し、符号化することと、
-少なくとも1つの深度コーディングモードが、第2の深度画像の画像領域内の深度値がビットストリームにおいて符号化されることを示している場合、ビットストリームにおいて第2の深度画像を少なくとも部分的に符号化することと、を含む。
【0020】
一実施形態によれば、第2の深度画像の画像領域内の深度値がビットストリームにおいて符号化されるかどうかを判定することは、
-第1の符号化された深度画像を復号化することによって復号化された第1の深度画像と、第2の深度画像を符号化および復号化することによって復号化された第2の深度画像と、を取得することと、
-第1の距離および第1のビットレートを考慮することによって、第1のレート歪み代償を計算することであって、該第1の距離が、該復号化された第1の深度画像の同位置の画像領域内の深度値と、復号化された第2の深度画像の同位置の画像領域内の深度値との間で計算され、該データレートが、該第2の深度画像の符号化に関して計算される、計算することと、
-第2の距離を考慮して第2のレート歪み代償を計算することであって、データレートが、ここではヌルとみなされ、該第2の距離が、該復号化された第1の深度画像の同位置の画像領域の深度値と、該復号化された第1の深度画像における深度値を補間することにより得られる補間深度値との間で計算される、計算することと、を含み、
-第2のレート歪み代償が第1のレート歪み代償よりも低い場合、該画像領域の深度コーディングモードは、第2の深度画像の同位置の画像領域内の深度値がビットストリームにおいて符号化されないことを示し、さもなければ、該画像領域の深度コーディングモードは、第2の深度画像の同位置の画像領域の深度値がビットストリームにおいて符号化されることを示す。
【0021】
一実施形態によれば、第2の深度画像の画像領域内の深度値がビットストリームにおいて符号化されるかどうかを判定することは、
-該第1の深度画像における深度値を補間することにより、第2の深度画像の該画像領域の補間深度値を計算することと、
-第2の深度画像の該画像領域における深度値と、第1の符号化された深度画像を復号化することによって得られる復号化された第1深度画像における深度値を補間することによって得られる補間深度値との間の距離を計算することと、を含み、
-距離がしきい値を下回る場合、該画像領域の深度コーディングモードは、第2の深度画像の該画像領域内の深度値がビットストリームにおいて符号化されないことを示し、さもなければ、該画像領域の深度コーディングモードは、第2の深度画像の該画像領域内の深度値がビットストリームにおいて符号化されることを示す。
【0022】
一実施形態によれば、上記の第1および第2の距離または上記の距離は、再構成された点群の少なくとも一部と点群の対応する部分との間で計算され、点群の該少なくとも一部は、復号化された第1の深度画像と第2の深度画像とから再構成される。
【0023】
一実施形態によれば、点群の該少なくとも一部は、該画像領域内の深度値から、および少なくとも1つの以前に考慮された画像領域内の深度値から再構成される。
【0024】
一実施形態によれば、該画像領域の深度コーディングモードが、第2の深度画像の該画像領域内の深度値が、ビットストリームにおいて符号化されないことを示す場合、第2の深度画像の該画像領域内のピクセルの深度値が、第2の深度画像を少なくとも部分的に符号化する前に、一定値に置換される。
【0025】
一実施形態によれば、深度コーディングモードは、幾何学的形状が該第1および第2の深度画像によって表される点群の再構成に関連するメタデータとして符号化される。
【0026】
本原理は、元の点群の投影面に正投影された点の深度値を復号化する方法で、先行技術の欠点の少なくとも一つを改善することを目的としており、
-ビットストリームを復号化することにより、復号化された第1の深度画像を取得することと、
-ビットストリームから、復号化された第2の深度画像の画像領域に関連する深度コーディングモードを取得することと、
-深度コーディングモードが、復号化された第2の深度画像の該画像領域内の深度値がビットストリームにおいて符号化されることを示している場合、ビットストリームから第2の深度画像を少なくとも部分的に復号化することと、
-さもなければ、復号化された第1の深度画像における深度値を補間することにより、復号化された第2の深度画像の該画像領域内の補間深度値を計算することと、を含む。
【0027】
一実施形態によれば、少なくとも1つの深度コーディングモードが、第2の深度画像の画像領域内の深度値がビットストリームにおいて符号化/復号化されることを示す場合、第2の深度画像全体がビットストリームにおいて/から符号化/復号化される。
【0028】
一実施形態によれば、第2の深度画像の画像領域のサイズおよび形状は、該第2の深度画像のサイズおよび形状である。
【0029】
それらの態様のうちの他のものによれば、本原理は、デバイス、コンピュータプログラム製品、非一時的コンピュータ可読媒体、およびビデオ信号に関する。
【0030】
本原理の特定の性質、ならびに本原理の他の目的、利点、特徴、および使用は、添付の図面と併せて以下の例の説明から明らかになるであろう。
【図面の簡単な説明】
【0031】
図面には、本原理の例が示されている。図は以下の通りである。
【0032】
【
図1】本原理の例による、第1および第2の深度画像によって表される点群の幾何学的形状を符号化するための方法のステップの図を模式的に示す。
【
図2】本原理の実施形態による
図1の方法のステップ120の図を模式的に示す。
【
図3】本原理の実施形態による
図1の方法のステップ120の図を模式的に示す。
【
図4】本原理の例による、元の点群の正投影された点の異なる深度値を表す第1および第2の深度画像から、点群の幾何学的形状を復号化するための方法のステップの図を模式的に示す。
【
図5】先行技術(TMC2)で定義されている点群の幾何学的形状とテクスチャを符号化する方法を模式的に示す。
【
図6】
図5の符号化方法における方法100および200の使用例を模式的に示す。
【
図7】先行技術(TMC2)で定義されている点群の幾何学的形状とテクスチャを復号化する方法を模式的に示す。
【
図8】
図7の復号化方法における方法200の使用例を模式的に示す。
【
図9】本原理の例によるデバイスのアーキテクチャの例を示す。
【
図10】本原理の例による、通信ネットワークを介して通信する2つのリモートデバイスを示す。
【0033】
類似または同一の要素は、同一の参照番号で参照される。
【0034】
本原理の例の説明。
本原理を、本原理の例が示されている、添付の図面を参照して、以下に詳述する。しかしながら、本原理は、多くの代替形態で具現化されてもよく、本明細書に記載される例に限定されると解釈されるべきではない。したがって、本原理は、様々な修正および代替形態の影響を受けやすいが、それらの特定の例は、図面に例示の形で示されており、本明細書では詳細に記載される。しかしながら、本原理を開示された特定の形態に限定する意図はなく、むしろ、本開示は、特許請求の範囲によって定義されるように、本原理の精神および範囲内に含まれるすべての修正物、等価物、および代替物を網羅することを理解されたい。
【0035】
本明細書で使用される用語は、特定の例を説明することのみを目的とし、本原理を限定することを意図するものではない。本明細書で使用されるように、単数形「a」、「an」、および「the」は、特に文脈で明らかに示さない限り、複数形も含むことが意図されている。本明細書で使用される場合、「備える」、「備えている」、「含む」、および/または「含んでいる」という用語は、記載された特徴、整数、ステップ、操作、要素、および/または構成要素の存在を明記するが、1つ以上の他の特徴、整数、ステップ、操作、要素、構成要素、および/またはそれらのグループの存在または追加を排除しないことがさらに理解されるであろう。さらに、要素が別の要素に「応答する」または「接続される」と言及される場合、それは他の要素に直接応答するか、もしくは接続することができるか、または介在する要素が存在してもよい。対照的に、要素が他の要素に「直接応答する」または「直接接続される」と言及される場合、介在する要素は存在しない。本明細書で使用する場合、「および/または」という用語は、関連する列挙された項目のうちの1つ以上のありとあらゆる組合せを含み、「/」と略記することができる。
【0036】
本明細書では、第1、第2などの用語を使用して様々な要素を説明することができるが、これらの要素はこれらの用語によって限定されるべきではないことが理解されよう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、本原理の教示から逸脱することなく、第1の要素を第2の要素と呼ぶことができ、同様に、第2の要素を第1の要素と呼ぶことができる。
【0037】
一部の図は、通信の主要な方向を示すために通信経路上に矢印を含んでいるが、通信は、描かれた矢印と反対の方向に発生する場合があることを理解されたい。
【0038】
いくつかの例は、ブロック図と動作フローチャートに関連して説明されており、各ブロックは、指定された論理機能(複数可)を実施するための1つ以上の実行可能な命令を含む回路要素、モジュール、またはコードの一部を表している。他の実施態様では、ブロックに記載されている機能(複数可)が、記載されている順序から外れて生じる場合があることにも留意されたい。例えば、連続して示されている2つのブロックは、実際には、実質的に同時に実行される場合や、関連する機能に応じて、時には逆の順序で実行される場合がある。
【0039】
本明細書における「一例による」または「一例における」という言及は、例に関して説明された特定の特徴、構造、または特性が、本原理の少なくとも1つの実施態様に含まれ得ることを意味する。本明細書の様々な場所での「一例による」または「一例における」という語句の出現は、必ずしもすべて同じ例を指しているわけではなく、別個または代替の例は、必ずしも他の例と相互に排他的であるとは限らない。
【0040】
請求項に現れる参照数字は、例示のためのものであり、請求項の範囲に限定的な影響を与えるものではない。
【0041】
明示的に説明されていないが、本実施例および変形例は、いずれかの組み合わせまたは部分的な組み合わせで用いられてもよい。
【0042】
本原理は、2つの深度画像からの点群の幾何学的形状の符号化/復号化について説明されているが、点群のシーケンスの幾何学的形状は、2つの深度画像のシーケンス(ビデオ)により/から符号化/復号化されるため、点群のシーケンス(一時的に動的な点群)の符号化/復号化にまで及び、点群に関連する2つの深度画像は、シーケンスの別の点群の2つの深度画像とは関わりなく符号化され得る。
【0043】
上で説明したように、点群は投影面に正投影され、2つの深度画像D0およびD1は、該投影された3D点に関連する深度値から取得される。D0は、点群の最も近い点の深度値を表す第1の深度画像であり、D1は、点群の最も遠い点の深度値を表す第2の深度画像である。第1の深度画像D0は、例えば、従来の画像/ビデオエンコーダを使用して符号化される。
【0044】
以下では、「画像領域」という用語は、画像のピクセルの集合を指す。これらのピクセルは隣接するピクセルであってもよいし、そうでなくてもよいが、すべてのピクセルは少なくとも1つの共通の性質を共有している。
【0045】
例えば、画像自体が画像領域であると見なされてもよい。画像は複数のブロックに分割することもでき、その場合、ブロックが画像領域になる。
【0046】
画像領域はまた、非長方形の形状を有していてもよい。これは、例えば、同じ(または類似の)抽出された特徴を有する画像のピクセルが関連付けられて、画像領域を形成する場合である。
【0047】
画像から抽出された特徴の例は、色、テクスチャ、法線ベクトルなどであってもよい。
【0048】
図1は、本原理の例による、第1(D0)および第2(D1)の深度画像によって表される点群の幾何学的形状を符号化するための方法100のステップの図を模式的に示す。
【0049】
ステップ110では、第1の深度画像D0がビットストリームBにおいて符号化される。
ステップ120において、モジュールは、画像領域ごとの深度コーディングモードDCMiを決定し、該深度コーディングモードは、第2の深度画像D1の画像領域内のピクセルの深度値もビットストリームBにおいて符号化されるかどうかを示す。この深度コーディングモードを、以下で「明示」モードと表記する。
【0050】
ステップ130において、モジュールは、ビットストリームBにおいて該深度コーディングモードDCMiを符号化する。
【0051】
ステップ140で、少なくとも1つの深度コーディングモードDCMiが、第2の深度画像D1の画像領域内のピクセルの深度値がビットストリームB(「明示」モード)において符号化されることを示す場合、モジュールは、少なくとも部分的にビットストリームBにおいて第2の深度画像D1を符号化する。
【0052】
ステップ130および140は、I個の画像領域のそれぞれが考慮されるまで繰り返される。
【0053】
本原理によれば、第2の深度画像D1の画像領域がビットストリームにおいて明示的に(または暗黙的に)符号化されるかどうかを示すために、追加の深度コーディングモードがビットストリームにおいて符号化される。第2の深度画像D1の画像領域に関連する深度コーディングモードが、その画像領域のピクセルの深度値がビットストリームにおいて符号化されないことを示す場合(「暗黙」モード)、ビットレートは、先行技術に開示されているように、該深度値を表すコード化データを有効に送信する場合に比べて減少する。したがって、画像領域ごとにそのような深度コーディングモードを送信すると、点群の幾何学的形状を表す深度画像のコーディング効率が向上する。
【0054】
一実施形態によれば、第2の深度画像の画像領域のサイズおよび形状は、該第2の深度画像のサイズおよび形状であり、すなわち、画像領域は画像自体である。
【0055】
次に、単一の深度コーディングモードが送信され、第2の深度画像全体がビットストリームにおいて符号化されるか(またはされないか)どうかが示される。
【0056】
ステップ140によれば、少なくとも1つの深度コーディングモードDCMiが「明示」モードに設定されている場合、第2の深度画像D1全体がビットストリームBにおいて符号化される。
【0057】
別の実施形態によれば、第2の深度画像の各画像領域に深度コーディングモードが割り当てられる。
【0058】
該画像領域は、長方形の形状、例えば、画像のブロック、またはTMC2内の投影深度パッチなどの非長方形の形状を有することができる。
【0059】
これらの実施形態は、深度コーディングモードを画像コンテンツの特性に局所的に適合させることにより、コーディング効率を改善する。
【0060】
図2に示すように、ステップ120の実施形態によれば、第2の深度画像D1の画像領域内のピクセルの深度値が、ビットストリームにおいて符号化されるかどうかを判定することは、以下のステップを含む。
【0061】
モジュールは、第1の符号化された深度画像
【数1】
を復号化することによって復号化された第1の深度画像と、第2の深度画像D1を符号化し、復号化することによって復号化された第2の深度画像
【数2】
と、を取得する。
【0062】
該復号化された第1の深度画像
【数3】
の現在の画像領域を考慮する。該現在の画像領域内のピクセルの深度値は、
【数4】
と言及される深度値の集合である。第1の品質メトリックDist
0は、該現在の画像領域内のピクセルの深度値
【数5】
と、復号化された第2の深度画像内の同位置にあるピクセルの深度値
【数6】
、すなわち、復号化された第2の深度画像の同位置にある画像領域内のピクセルの深度値との間で計算され、該深度値の集合は
【数7】
と示される。該第2の深度画像D1を符号化するためのデータレートRA
0も計算される。
【0063】
次に、該第1の距離Dist0および該第1のビットレートRA0を考慮することによって、第1のレート歪み代償Cost0が計算される。
【0064】
モジュールは、該復号化された第1の深度画像
【数8】
におけるピクセルの深度値を補間することにより、復号化された第2の深度画像
【数9】
の同位置にある画像領域のピクセルの補間深度値を計算する。補間深度値の集合は、
【数10】
と示される。
【0065】
第2の品質メトリックDist
1は、該現在の画像領域内のピクセルの深度値
【数11】
と、補間深度値
【数12】
との間で計算される。
【0066】
次に、該第2の距離Dist1を考慮することにより、第2のレート歪み代償Cost1が計算され、データレートは、第2の深度画像が符号化(送信)されないため、ここではヌルであると見なされる。
【0067】
第2のレート歪み代償Cost1が第1のレート歪み代償Cost0よりも低い場合には、現在の画像領域iの深度コーディングモードDCMiが「暗黙」に設定され、すなわち、第2の深度画像D1の現在の画像領域内の深度値がビットストリームにおいて符号化されないことを示す。さもなければ、現在の画像領域iの深度コーディングモードDCMiは「明示」に設定され、すなわち、第2の深度画像D1現在の画像領域内の深度値がビットストリームにおいて符号化されることを示す。
【0068】
この実施形態のステップは、I個の画像領域のそれぞれが考慮されるまで繰り返される。
【0069】
ステップ120のこの実施形態は、第2の深度画像の画像領域内のピクセルの深度値がビットストリームにおいて符号化されるか(否か)を判定するための最良のレート歪みのトレードオフを提供する。
【0070】
図3に示すように、ステップ120の代替の実施形態によれば、第2の深度画像D1の画像領域内のピクセルの深度値がビットストリームにおいて符号化されるかどうかを判定することは、以下のステップを含む。
【0071】
モジュールは、該第1の深度画像D0内のピクセルの深度値を補間することによって、第2の深度画像D1の同位置にある画像領域のピクセルの補間深度値を計算する。補間深度値の集合は、
【数13】
と示される。
【0072】
次に、距離DISTが、示された第2の深度画像D1の現在の画像領域i内の深度値
【数14】
と、該補間深度値
【数15】
との間で計算される。
【0073】
距離DISTがしきい値THを下回る場合には、現在の画像領域iの深度コーディングモードDCMiが「暗黙」に設定され、すなわち、第2の深度画像D1の現在の画像領域における深度値がビットストリームにおいて符号化されないことを示す。さもなければ、現在の画像領域iの深度コーディングモードDCMiは「明示」に設定され、すなわち、第2の深度画像D1の現在の画像領域における深度値がビットストリームにおいて符号化されることを示す。
【0074】
この実施形態のステップは、I個の画像領域のそれぞれが考慮されるまで繰り返される。
【0075】
ステップ120のこの代替の実施形態は、メトリックが符号化/復号化プロセスなしで計算されるが、
図2の上記の最適な実施形態の複雑さと比較して選択プロセスの複雑さを低減させるので、次善のレート歪みのトレードオフを提供する。
【0076】
一実施形態によれば、順序付けされた深度値AとBの2つの集合の間の距離DISTは、次のように定義される距離である。
【数16】
ここで
【数17】
、
【数18】
はそれぞれ、J個の深度値の順序付けられた集合A、Bのそれぞれのj番目の深度値を示す。
【0077】
数値の集合の順序付けは、深度値
【数19】
および
【数20】
が2つの別個の深度画像内の同位置にあるピクセルの異なる深度値を表すことを意味する。
【0078】
距離DISTはこの実施形態に限定されず、例えば、絶対差の合計、差の平均値/最大値/最小値など、J個の値の2つの集合間の距離を計算するためのいずれかの他の周知のメトリックに拡張することができる。
【0079】
一実施形態によれば、距離DISTは、再構成された点群の少なくとも一部と、元の点群の対応する部分との間で計算される。
【0080】
例として、距離DISTはISO/IEC JTC1/SC29/WG1 MPEG2017/N16763、Hobart、2017年4月、付録Bで定義されている。
【0081】
点群の該少なくとも一部は、復号化された第1の深度画像および第2の深度画像から再構成される。
【0082】
一実施形態によれば、点群の該少なくとも一部は、画像領域内のピクセルの深度値から再構成される。
【0083】
一実施形態によれば、点群の該少なくとも一部は、現在の画像領域内のピクセルの深度値から、および少なくとも1つの以前に考慮された画像領域内のピクセルの深度値から再構成される。
【0084】
例えば、この実施形態によれば、「一時的な」第2の深度画像は、一定値で初期化される。次に、該一時的な第2の深度画像のピクセルの深度値は、現在の画像領域が明示的に符号化された場合(「明示」モード)に、符号化/復号化された第2の深度画像の深度値によって、または「明示」モードに従って以前に符号化された最も近い近傍点の深度値をパディングすることによって反復的に置換される。
【0085】
したがって、以前に考慮された画像領域内のピクセルの深度値の符号化に依存する再構成された点群は、再構成された点群と類似することになる。
【0086】
この実施形態では、「一時的な」深度画像はビットストリームにおいて符号化されないことに留意されたい。第2の深度画像は、依然として
図1の方法に従って符号化される。
【0087】
ステップ140の実施形態によれば、画像領域に関連する深度コーディングモードDCMiが「暗黙」に設定されている場合、第2深度画像の該画像領域内のピクセルの深度値は、少なくとも部分的に第2の深度画像D1を符号化する前に一定値に置換される。
【0088】
一実施形態によれば、深度コーディングモードDCMiは、幾何学的形状が該第1および第2の深度画像によって表される点群の再構成に関連するメタデータとして符号化される。
【0089】
該メタデータは、例えば、2つの画像に共通の各画像、または各画像領域に関連付けられてもよく、
図5と
図6に関連してさらに説明するように、符号化側および復号化側の両方において点群の幾何学的形状を再構成するために使用される。
【0090】
一実施形態によれば、深度コーディングモードDCMiは、例えば、第1の深度画像D0に関連するNALユニットに添付されたSEIメッセージの構文要素として符号化される。
【0091】
HEVCにおけるSEIメッセージ内のDCMの例
【表1】
dcm_modeには、深度コーディングモードを識別するために使用される識別番号が含まれている。例えば、dcm_modeが0の場合は「明示」モードを意味し、1の場合は「暗黙」モードを意味する。
【0092】
変形例によれば、深度コーディングモードは、SPSまたはPPSメッセージにおいてもあり得る。
【0093】
別の実施形態によれば、深度コーディングモードDCMiは、深度画像に埋め込まれた透かしとして符号化される。
【0094】
変形例として、深度コーディングモードDCMiは、第1の深度画像D0の空の領域に可視透かしとして埋め込まれる。
【0095】
例えば、第1の深度画像D0の所定の隅にあるN×Nピクセルのブロックであり、このようなブロックのすべてのピクセルは、例えば、0(1)などの同じバイナリ値に設定され、深度コーディングモード DCMiが「明示」(「暗黙」)に設定されていることを示す。
【0096】
デコーダでは、次に、ブロックの平均値が計算され、該平均値が最大値(全てのピクセル値が1に等しい)よりも0に近い場合、復号化されたブロックは「明示」モードが使用されていることを示し、そうでない場合は「暗黙」モードが使用されていることを示す。
【0097】
別の実施形態によれば、深度コーディングモードDCMiは、TMC2で定義される占有マップなど、第1および第2の深度画像によって表される点群の幾何学的形状に関連するメタデータのバイナリ情報に追加される。
【0098】
この実施形態は、画像ごとよりも細かい解像度で深度コーディングモードDCMiを指定するのにより適している。
【0099】
これがTMC2でどのように実施されるのかをより詳しく見ることにする。TMC2の現在のバージョンのトップレベルの構文を表1および表2に示す。表3は、幾何学的形状(深度)およびテクスチャ(色)ストリームのカプセル化の構文を提供する。表4および表5は、占有マップとブロックツーパッチインデックス復号化の詳細な構文を示している。また、表6と表7は、基本値の算術コーディングの構文を示している。
【表2】
【表3】
【表4】
【表5】
【表6】
【0100】
現在の構文は、2つのステップでブロックごとのメタデータを符号化するが、最初にパッチ画像のすべてのブロックのブロックツーパッチインデックスをコーディングし、次にパッチに属するこれらのブロックの占有マップをコーディングする。
【0101】
ブロックツーパッチインデックスは、テクスチャおよび深度画像の各ブロックに関連するパッチのインデックスを定義し、ブロックは、規則的な正方形のグリッドを形成する。ブロックのサイズは、フレームのグループのヘッダ内の「占有解像度」パラメータで与えられ、通常は16ピクセルに設定される。
【0102】
テクスチャおよび深度画像のどのピクセルが再構成される点群を表すかを示す占有マップも、ブロックごとに符号化される。この場合、ブロックは各「占有解像度」ブロック内にグリッドを形成し、グリッドは「占有精度」のサイズであり、通常は4ピクセルに設定される。
【0103】
メタデータとして符号化されたDCMモードの例
(画像(フレーム)ごとの)占有マップ内のDCMの例-表5の変更
【表7】
【0104】
一実施形態によれば、画像領域に関連する深度コーディングモードDCMiは、バイナリ値シーケンスのバイナリ値であり、各バイナリ値は、画像領域の深度コーディングモードDCMiを示す。例えば、「0」は「暗黙」モードを示し、「1」は「明示」モードを示す。
【0105】
一実施形態によれば、エントロピーまたはランレングスコーディング方法を使用して、バイナリのシーケンスを符号化することができる。
【0106】
図4は、本原理の例による、元の点群の正投影された点の異なる深度値を表す第1(D0)および第2(D1)の深度画像から、点群の幾何学的形状を復号化するための方法200のステップの図を模式的に示す。
【0107】
ステップ210では、ビットストリームBを復号化することにより、復号化された第1の深度画像が得られる。
【0108】
ステップ220において、復号化された第2の深度画像の現在の画像領域iに関連する深度コーディングモードDCMiが、ビットストリームBから復号化される。
【0109】
ステップ230において、深度コーディングモードDCMiが、復号化された第2の深度画像D1の該現在の画像領域内のピクセルの深度値がビットストリームB(「明示」モード)において符号化されることを示す場合、モジュールは少なくとも部分的にビットストリームBからの第2の深度画像D1を復号化する。
【0110】
そうでない場合、ステップ240で、モジュールは、復号化された第1の深度画像
【数21】
におけるピクセルの深度値を補間することによって、復号化された第2の深度画像
【数22】
の画像領域のピクセルの補間深度値を計算する。
【0111】
ステップ220~240は、I個の画像領域のそれぞれが考慮されるまで繰り返される。
【0112】
点群の幾何学的形状は、その後、例えば、TMC2において定義されるように、復号化された第1(
【数23】
および第2(
【数24】
の深度画像を逆投影することにより、再構成される。
【0113】
方法の一実施形態によれば、第1の深度画像におけるピクセルの深度値を補間することによって、第2の深度画像の画像領域のピクセルの補間深度値を計算することは、
-第2の深度画像の該画像領域の各現在のピクセルについて、第1の深度画像内の同位置にあるピクセルを判定することと、
-第1の深度画像内の該同位置にあるピクセルの少なくとも1つの隣接するピクセルを判定することと、
-第1の深度画像における該少なくとも1つの隣接するピクセルを考慮に入れて、各現在のピクセルについて補間深度値を計算することと、を含む。
【0114】
一実施形態によれば、第1の深度画像内の同位置にあるピクセルと該少なくとも1つの隣接するピクセルとの間の空間距離は、所与のしきい値を下回る。
【0115】
一実施形態によれば、第2の深度画像の画像領域内の現在のピクセルの補間深度値は、第1の深度画像における該少なくとも1つの隣接するピクセルのうちの最も近い隣接するピクセルの深度値である。一実施例によれば、第2の深度画像の画像領域における現在のピクセルの補間深度値は、第1の深度画像における該少なくとも1つの隣接するピクセルの最大深度値である。
【0116】
一実施形態によれば、第2の深度画像の画像領域内の現在のピクセルの補間深度値は、第1の深度画像における該少なくとも1つの隣接するピクセルの最小深度値である。
【0117】
一実施形態によれば、第2の深度画像の画像領域内の現在のピクセルの補間深度値は、第1の深度画像における該少なくとも1つの隣接するピクセルの深度値の平均である。
【0118】
図5は、TMC2で定義されている点群の幾何学的形状およびテクスチャを符号化する方法を模式的に示す。
【0119】
基本的に、エンコーダは、元の点群PCの幾何学的形状情報を、第1の(D0)および第2の(D1)の深度画像においてキャプチャする。
【0120】
一例として、第1および第2の深度画像は、TMC2において以下のように取得される。
【0121】
深度パッチ(点群PCの3D点の集合)は、これらの点における法線ベクトルに従って点群PCの点をクラスタ化することによって取得される。次に、抽出されたすべての深度パッチは2Dグリッドに投影され、未使用の空間を最小限に抑えながらパックされ、グリッドのすべてのTxT(例えば、16x16)ブロックが一意のパッチに関連付けられていることが保証され、ここで、Tはビットストリームにシグナリングされるユーザ定義のパラメータである。
【0122】
次に、パッキングプロセス中に計算された3Dから2Dへのマッピング、より具体的には、各パッチの投影領域のパッキング位置およびサイズを利用して、深度画像が生成される。より正確には、H(u,v)を、同じピクセル(u,v)に投影される現在のパッチの点の集合とする。最も近い層または第1の深度画像D0とも呼ばれる第1の層は、最小の深度値を持つH(u、v)の点を格納する。最も遠い層または第2の深度画像D1と呼ばれる第2の層は、間隔[D,D+Δ]内で最も高い深度値を有するH(u,v)の点をキャプチャし、ここで、Dは第1の深度画像D0内のピクセルの深度値であり、Δは表面の厚さを表すユーザ定義のパラメータである。
【0123】
次に、第1の深度画像D0は、パッキングプロセスを出力する。ビデオ圧縮に適した区分的に滑らかな第1の深度画像を生成するために、パディングプロセスも使用してパッチ間の空の空間を埋める。
【0124】
生成された深度画像/層D0およびD1は、次に、ビデオフレームとして格納され、HEVCなどの任意の従来のビデオコーデックを使用して圧縮される。
【0125】
エンコーダは、第1および第2の深度画像を符号化/復号化し、該復号化された第1および第2の深度画像
【数25】
を逆投影することで点群の幾何学的形状を再構成することにより、2つのテクスチャ画像における元の点群PCのテクスチャ情報もキャプチャする。再構成されると、色情報のコーディングエラーを最小限に抑えるように、元の点群PCの色情報から、再構成された点群の各点に色が割り当てられる(色の転送)。
【0126】
一実施形態によれば、各再構成された点について、元の点群におけるその最も近い点の色が、符号化されるその色として割り当てられる。
【0127】
そして、各再構成された点の符号化される色情報を深度画像と同じ位置、すなわち(i,u,v)に格納することにより、第1および第2のテクスチャ画像T0,T1が生成される。
【0128】
図6は、
図5の符号化方法における方法100および200の使用例を模式的に示す。
【0129】
この例によれば、第1の深度画像
【数26】
の符号化および
図5の第2の深度画像
【数27】
の符号化は、
図1の符号化方法100によって置換され、
図5の第2の深度画像
【数28】
の復号化は、
図4の復号化方法200によって置換される。
【0130】
図7は、先行技術(TMC2)で定義されるように、点群の幾何学的形状およびテクスチャを復号化する方法を模式的に示している。
【0131】
復号化された第1の深度画像
【数29】
および復号化された第2の深度画像
【数30】
は、ビットストリームBを復号化することによって取得される。場合によっては、点群
【数31】
の幾何学的形状を再構成するために、メタデータも復号化される。
【0132】
したがって、点群の幾何学的形状は、該復号化された第1および第2の深度画像、ならびに場合によっては該メタデータを逆投影することによって再構成される。
【0133】
図8は、
図7の復号化方法における方法200の使用例を模式的に示す。
【0134】
この例によれば、
図7の第1および第2の深度画像の復号化は、
図4の復号化方法によって置換される。
【0135】
図1~
図8では、モジュールは機能ユニットであり、区別可能な物理ユニットと関連していてもよいし、していなくてもよい。例えば、これらのモジュールまたはそれらの一部は、一意のコンポーネントまたは回路にまとめられたり、ソフトウェアの機能に貢献したりすることができる。逆に、一部のモジュールは、潜在的に別々の物理的エンティティで構成されていてもよい。本原理と互換性のある装置は、純粋なハードウェアを使用して、例えば、それぞれ<<特定用途向け集積回路>>、<<フィールドプログラマブルゲートアレイ>>、<<超大規模集積>>であるASICもしくはFPGAもしくはVLSIなどの専用ハードウェアを使用して、またはデバイスに埋め込まれたいくつかの集積電子部品から、もしくはハードウェアおよびソフトウェア部品の混合から実施される。
【0136】
図9は、
図1~
図8に関連して説明した方法を実施するように構成され得るデバイス90の例示的なアーキテクチャを表す。
【0137】
デバイス90は、データおよびアドレスバス91によって互いにリンクされる以下の要素、すなわち、
-例えば、DSP(またはデジタルシグナルプロセッサ)であるマイクロプロセッサ92(またはCPU)、
-ROM(または読み出し専用メモリ)93、
-RAM(またはランダムアクセスメモリ)94、
-アプリケーションから送信されるデータを受信するI/Oインターフェース95、および
-バッテリ96を含む。
【0138】
一例によれば、バッテリ96はデバイスの外部にある。上述したメモリの各々では、本明細書において使用される単語<<レジスタ>>は、小容量のエリア(数ビット)または非常に大きなエリア(例えば、プログラム全体または大量の受信または復号化データ)に対応することができる。ROM93は、少なくともプログラムおよびパラメータを含む。ROM93は、本原理に従って技法を実行するためのアルゴリズムおよび命令を記憶し得る。電源が投入されると、CPU92は、プログラムをRAMにアップロードし、対応する命令を実行する。
【0139】
RAM94は、レジスタ内に、CPU92によって実行され、かつデバイス90の電源投入後にアップロードされるプログラム、レジスタ内の入力データ、レジスタ内の方法の異なる状態の中間データ、およびレジスタ内での方法の実行に使用される他の変数を含む。
【0140】
本明細書で説明された実施態様は、例えば、方法もしくはプロセス、装置、ソフトウェアプログラム、データストリーム、または信号で実施され得る。(例えば、方法またはデバイスとしてのみ考察された)単一の実施形態の状況においてのみ考察されている場合でも、考察された機能の実施は他の形態(例えば、プログラム)でも実施され得る。装置は、例えば、適切なハードウェア、ソフトウェア、およびファームウェアで実施することができる。これらの方法は、例えば、装置で実施することができ、例えば、コンピュータ、マイクロプロセッサ、集積回路、またはプログラマブルロジックデバイスを含む処理デバイスを広く指す、例えば、プロセッサでなどで実施することができる。プロセッサは、通信デバイスも含み、例えば、コンピュータ、携帯電話、ポータブル/パーソナルデジタルアシスタンス(「PDA」)、およびエンドユーザ間の情報の通信を容易にする他のデバイスなどを含む。
【0141】
符号化またはエンコーダの例によれば、p点群PCはソースから取得される。例えば、ソースは、
-ローカルメモリ(93または94)、例えば、ビデオメモリまたはRAM(またはランダムアクセスメモリ)、フラッシュメモリ、ROM(または読み出し専用メモリ)、ハードディスク、
-記憶装置インターフェース(95)、例えば、大容量記憶装置、RAM、フラッシュメモリ、ROM、光ディスク、または磁気サポートとのインターフェース、
-通信インターフェース(95)、例えば、有線インターフェース(例えば、バスインターフェース、ワイドエリアネットワークインターフェース、ローカルエリアネットワークインターフェース)または(IEEE 802.11インターフェースまたはBluetooth(登録商標)インターフェースのような)無線インターフェース、および
-画像キャプチャ回路(例えば、CCD(または電荷結合デバイス)またはCMOS(または相補型金属酸化膜半導体)などのセンサ)を含む、集合に属する。
【0142】
復号化またはデコーダの例によれば、復号化された第1および/もしくは第2の深度画像、または再構成された点群が送信先に送られ、具体的には、送信先は、
-ローカルメモリ(93または94)、例えば、ビデオメモリまたはRAM、フラッシュメモリ、ハードディスク、
-記憶装置インターフェース(95)、例えば、大容量記憶装置、RAM、フラッシュメモリ、ROM、光ディスク、または磁気サポートとのインターフェース、
-通信インターフェース(95)、例えば、有線インターフェース(例えば、バスインターフェース(例えば、USB(またはユニバーサルシリアルバス))、ワイドエリアネットワークインターフェース、ローカルエリアネットワークインターフェース、HDMI(登録商標)(高精細マルチメディアインターフェース)インターフェース)または(IEEE 802.11インターフェース、WiFi(登録商標)、またはBluetooth(登録商標)インターフェースのような)無線インターフェース、および
-ディスプレイを含む、集合に属する。
【0143】
符号化またはエンコーダの例によれば、ビットストリームBは送信先に送られる。一例として、ビットストリームBは、ローカルまたはリモートメモリ、例えば、ビデオメモリ(94)またはRAM(94)、ハードディスク(93)に格納される。変形例では、1つまたは両方のビットストリームは、ストレージインターフェース(95)、例えば、大容量記憶装置、フラッシュメモリ、ROM、光ディスク、または磁気サポートとのインターフェースに送られ、および/または通信インターフェース(95)、例えば、ポイントツーポイントリンク、通信バス、ポイントツーマルチポイントリンク、または放送ネットワークとのインターフェースを介して送信される。
【0144】
復号化またはデコーダの例によれば、ビットストリームBはソースから取得される。例示的には、ビットストリームは、ローカルメモリ、例えば、ビデオメモリ(94)、RAM(94)、ROM(93)、フラッシュメモリ(93)、またはハードディスク(93)から読み出される。変形例では、ビットストリームは、記憶装置インターフェース(95)、例えば、大容量記憶装置、RAM、ROM、フラッシュメモリ、光ディスク、または磁気サポートとのインターフェースから受信され、および/または通信インターフェース(95)、例えば、ポイントツーポイントリンク、バス、ポイントツーマルチポイントリンク、または放送ネットワークとのインターフェースから受信される。
【0145】
例によれば、
図1~
図3、または
図5および
図6に関連して説明した符号化方法を実施するように構成されるデバイス90は、
-モバイルデバイス、
-通信デバイス、
-ゲームデバイス、
-タブレット(またはタブレットコンピュータ)、
-ラップトップ、
-静止画カメラ、
-ビデオカメラ、
-符号化チップ、
-静止画サーバ、および
-ビデオサーバ(例えば、放送サーバ、ビデオオンデマンドサーバ、またはウェブサーバ)を含む、集合に属する。
【0146】
例によれば、
図4、または
図7および
図8に関連して説明された復号化方法を実施するように構成されているデバイス90は、
-モバイルデバイス、
-通信デバイス、
-ゲームデバイス、
-セットトップボックス、
-テレビ受像機
-タブレット(またはタブレットコンピュータ)、
-ラップトップ、
-ディスプレイ、および
-復号化チップを含む、集合に属する。
【0147】
図10に示される本原理の例によれば、通信ネットワークNETを介した2つのリモートデバイスAとBとの間の送信コンテキストにおいて、デバイスAは、
図1~
図3、または
図5および
図6に関連して説明した点群の幾何学的形状を符号化する方法を実施するように構成されたメモリRAMおよびROMに関連するプロセッサを含み、デバイスBは、
図4、または
図7および
図8に関連して説明した点群を復号化する方法を実施するように構成されたメモリRAMおよびROMに関連するプロセッサを含む。
【0148】
一例によれば、ネットワークは放送ネットワークであり、デバイスAからデバイスBを含む復号デバイスに静止画像またはビデオ画像を送信するように適合されている。
【0149】
デバイスAによって送信されることを意図した信号は、ビットストリームBを伝送する。ビットストリームBは、
図1に関連して説明したように、符号化された第1の深度画像と、場合によっては、符号化された第2の深度画像の少なくとも一部とを含む。この信号は、少なくとも1つの深度コーディングモードDCM
iを表す情報データをさらに含む。各深度コーディングモードは、第2の深度画像の画像領域iのピクセルの深度値がビットストリームBにおいて符号化されるか(「明示」モード)否か(「暗黙」モード)を示す。
【0150】
図11は、データがパケットベースの伝送プロトコルを介して送信される場合のこのような信号の構文の一例を示している。各送信パケットPは、ヘッダHとペイロードPAYLOADとを含む。ヘッダHのビット、例えば、深度コーディングモードDCM
iを表すための専用のidである。したがって、ヘッダHの少なくとも1つのビットは、少なくとも1つの深度コーディングモードDCM
iを表すために充てられる。
【0151】
本明細書で説明される様々なプロセスおよび特徴の実施は、様々な異なる機器またはアプリケーションで具現化され得る。このような機器の例は、エンコーダ、デコーダ、デコーダからの出力を処理するポストプロセッサ、入力をエンコーダに提供するプリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話、PDA、および画像やビデオを処理するいずれかの他のデバイス、または他の通信デバイスを含む。明らかであるように、機器は、可搬式とすることができ、移動車両にさえ搭載することができる。
【0152】
さらに、方法は、プロセッサによって実行される命令によって実施されてもよく、そのような命令(および/または実施によって生成されるデータ値)は、コンピュータ可読記憶媒体に格納されてもよい。コンピュータ可読記憶媒体は、1つ以上のコンピュータ可読媒体において具現化され、コンピュータで実行可能なコンピュータ可読プログラムコードがそこで具現化されるコンピュータ可読プログラム製品の形態をとることができる。本明細書で使用されるコンピュータ可読記憶媒体は、そこに情報を格納する固有の能力、およびそこから情報の検索を提供する固有の能力が与えられた非一時的記憶媒体と見なされる。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、またはデバイス、または前述のいずれかの適切な組み合わせであり得るが、これらに限定されない。以下は、本原理を適用することができるコンピュータ可読記憶媒体のより具体的な例を提供するが、当業者によって容易に理解されるように、ポータブルコンピュータディスケット、ハードディスク、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または前述のいずれかの適切な組み合わせは、単に例示的であり、網羅的なリストではないことを理解されたい。
【0153】
命令は、プロセッサ可読媒体に有形に具現化されるアプリケーションプログラムを形成することができる。
【0154】
命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、または組み合わせの中に存在し得る。命令は、例えば、オペレーティングシステム、個別アプリケーション、またはこれらの2つの組み合わせの中に見出すことができる。したがって、プロセッサは、例えば、プロセスを実行するように構成されたデバイス、およびプロセスを実行する命令を有するプロセッサ可読媒体(ストレージデバイスのような)を含むデバイスの両方として特徴付けることができる。さらに、プロセッサ可読媒体は、命令に加えて、または命令の代わりに、実施態様により生成されるデータ値を格納することができる。
【0155】
当業者には明らかであるように、実施態様は、情報を伝達するようにフォーマットされる多種多様な信号を生成することができ、この情報は、例えば、格納または送信することができる。情報は、例えば、方法を実行する命令、または説明される実施態様のうちの1つにより生成されたデータを含むことができる。例えば、信号は、説明した本原理の例の構文を書き込むまたは読み出すルールをデータとして伝達するように、または説明した本原理の例により記述された実際の構文値をデータとして伝達するようにフォーマットすることができる。このような信号は、例えば、電磁波として(例えば、スペクトルの無線周波数部分を使用して)、またはベースバンド信号としてフォーマットすることができる。フォーマットすることは、例えば、データストリームを符号化することと、搬送波を符号化データストリームで変調することと、を含むことができる。信号が伝達する情報は、例えば、アナログ情報またはデジタル情報とすることができる。信号は、既知の如く、多種多様な異なる有線リンクまたは無線リンクを介して送信することができる。信号は、プロセッサ可読媒体に格納することができる。
【0156】
多数の実施態様が説明されてきた。それにもかかわらず、様々な変更を行うことができることを理解されたい。例えば、異なる実施態様の要素は、他の実施態様を生成するために組み合わせる、補足する、変更する、または削除することができる。また、当業者であれば、他の構造およびプロセスは、開示される構造およびプロセスに替えて用いることができ、結果として得られる実施態様が、少なくとも実質的に同じ機能(複数可)を、少なくとも実質的に同じ方法(複数可)で実行して、開示される実施態様と少なくとも実質的に同じ結果(複数可)を達成することを理解するであろう。したがって、これらの実施態様および他の実施態様は、本出願により想到される。