(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-13
(45)【発行日】2022-09-22
(54)【発明の名称】点群圧縮の方法および装置
(51)【国際特許分類】
H04N 19/597 20140101AFI20220914BHJP
H04N 19/70 20140101ALI20220914BHJP
【FI】
H04N19/597
H04N19/70
(21)【出願番号】P 2021531764
(86)(22)【出願日】2020-02-28
(86)【国際出願番号】 US2020020455
(87)【国際公開番号】W WO2020180711
(87)【国際公開日】2020-09-10
【審査請求日】2021-06-03
(32)【優先日】2019-03-01
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-02-27
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ヴォソウギ,アラシュ
(72)【発明者】
【氏名】イエア,セフーン
(72)【発明者】
【氏名】リィウ,シャン
【審査官】鉢呂 健
(56)【参考文献】
【文献】特表2019-521417(JP,A)
【文献】米国特許出願公開第2016/0171761(US,A1)
【文献】国際公開第2020/146547(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00-19/98
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
点群圧縮解除のための方法であって:
プロセッサによって、点群に対応する符号化ビットストリームから画像の予測情報をデコードする段階であって、前記予測情報は、前記画像が、前記点群についての少なくともあるパッチからの複数の欠失点を含み、前記複数の欠失点が、非ジャンプ走査に従って画像内に配置されていることを示す、段階と;
前記プロセッサによって、前記非ジャンプ走査に従って、前記画像から前記複数の欠失点を再構成する段階とを含む、
方法。
【請求項2】
前記プロセッサによって、前記非ジャンプ走査に従って、前記画像から前記複数の欠失点を再構成することが、第1の欠失点を第1の行における最後のピクセルとして再構成し、第1の欠失点の次である第2の欠失点を第1の行の次である第2の行における最初のピクセルとして再構成する段階を含み、第1の行における最後のピクセルおよび第2の行における最初のピクセルは同じ列内にある、請求項1に記載の方法。
【請求項3】
前記プロセッサによって、前記画像に関連付けられたフラグをデコードする段階をさらに含み、該フラグは前記非ジャンプ走査を示す、請求項1または2に記載の方法。
【請求項4】
前記プロセッサによって、ブロックベースの非ジャンプ走査を示すフラグをデコードする段階と;
前記プロセッサによって、前記ブロックベースの非ジャンプ走査についてのブロック・サイズをデコードする段階とをさらに含む、
請求項1または3に記載の方法。
【請求項5】
前記プロセッサによって、前記画像を前記ブロック・サイズに応じてブロックに分割する段階と;
前記プロセッサによって、前記非ジャンプ走査に従ってブロック内の欠失点を再構成する段階とをさらに含む、
請求項4に記載の方法。
【請求項6】
前記プロセッサによって、前記非ジャンプ走査に従って、前記画像から前記複数の欠失点を再構成することが、第1の欠失点を前記ブロックの第1の行における最後のピクセルとして再構成し、第1の欠失点に隣接する第2の欠失点を前記ブロックの第1の行の次である第2の行における最初のピクセルとして再構成する段階をさらに含み、第1の行における最後のピクセルおよび第2の行における最初のピクセルは同じ列内にある、請求項5に記載の方法。
【請求項7】
前記プロセッサによって、ブロックの前記非ジャンプ走査に従った順序で諸ブロックを処理する段階をさらに含む、請求項5または6に記載の方法。
【請求項8】
点群圧縮のための方法であって:
プロセッサによって、少なくとも点群のあるパッチからの複数の欠失点を決定する段階と;
前記プロセッサによって、前記複数の欠失点に関連するピクセルをもつ画像を形成する段階であって、画像における2つの欠失点の位置間の2次元距離が、点群における該2つの欠失点間の3次元距離に基づいて決定される、段階と;
前記画像をエンコードする段階と;
エンコードされた画像を含む符号化ビットストリームを形成する段階とを含む、
方法。
【請求項9】
前記画像を形成する段階が:
前記プロセッサによって、前記複数の欠失点を、最近傍基準に基づいて欠失点のリストに順序付ける段階と;
前記リストの欠失点を、非ジャンプ走査に従って、前記画像のピクセルに関連付ける段階とを含む、
請求項8に記載の方法。
【請求項10】
前記リストの欠失点を、非ジャンプ走査
に従って、前記画像のピクセルに関連付けることが:
前記プロセッサによって、第1の欠失点を前記画像の第1の行における最後のピクセルに関連付ける段階と;
前記プロセッサによって、欠失点の前記リストにおいて第1の欠失点の次である第2の欠失点を、前記画像の第1の行の次である第2の行における最初のピクセルに関連付ける段階とをさらに含み、第1の行における最後のピクセルおよび第2の行における最初のピクセルは同じ列内にある、
請求項9に記載の方法。
【請求項11】
前記リストの欠失点を、非ジャンプ走査
に従って、前記画像のピクセルに関連付けることが:
前記プロセッサによって、第1の欠失点を前記画像におけるあるブロックの第1の行における最後のピクセルに関連付ける段階と;
前記プロセッサによって、欠失点の前記リストにおいて第1の欠失点の次である第2の欠失点を、第1の行の次である前記画像における前記ブロックの第2の行における最初のピクセルに関連付ける段階とをさらに含み、第1の行における最後のピクセルおよび第2の行における最初のピクセルは同じ列内にある、
請求項9に記載の方法。
【請求項12】
前記符号化ビットストリームに、前記非ジャンプ走査を示すフラグを含める段階をさらに含む、
請求項9ないし11のうちいずれか一項に記載の方法。
【請求項13】
前記符号化ビットストリームにブロック・サイズを含める段階をさらに含む、
請求項11に記載の方法。
【請求項14】
請求項1ないし13のうちいずれか一項に記載の方法を実行するように構成された装置。
【請求項15】
プロセッサに請求項1ないし13のうちいずれか一項に記載の方法を実行させるためのコンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
参照による組み込み
本願は、2020年2月27日に出願された米国特許出願第16/803,651号「点群圧縮の方法および装置」の優先権の利益を主張する。同出願は、2019年3月1日に出願された米国仮出願第62/812,952号「点群圧縮のための柔軟な走査を使用する向上した欠失点符号化のための技術および装置」の優先権の利益を主張する。これら先の出願の開示全体は、ここに参照によりその全体において組み込まれる。
【0002】
技術分野
本開示は、概括的に点群圧縮に関連する実施形態を記載する。
【背景技術】
【0003】
本明細書で提供される背景説明は、本開示の文脈を概括的に提示するためのものである。本願で名前が挙がっている発明者の仕事であってその仕事がこの背景セクションに記載されている範囲におけるもの、また、他の意味で出願時に先行技術として適格でないことがありうる本記述の諸側面は、明示的にも暗黙的にも本開示に対する先行技術として認められない。
【0004】
世界における物体、世界における環境など、世界を3次元(3D)空間で捉え、表現するためのさまざまな技術が開発されている。世界の3D表現は、より没入的な形の対話およびコミュニケーションを可能にしうる。点群は、世界の3D表現として使用できる。点群〔ポイントクラウド〕は、3D空間内の点の集合であり、各点は、関連する属性、たとえば、色、材料特性、テクスチャー情報、強度属性、反射率属性、動き関連属性、モダリティー属性、および種々の他の属性をもつ。そのような点群は、大量のデータを含むことがあり、記憶および伝送にコストと時間がかかることがある。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の諸側面は、点群圧縮および圧縮解除のための方法および装置を提供する。いくつかの例では、点群圧縮/圧縮解除のための装置は、処理回路を含む。たとえば、装置は点群圧縮解除用である。処理回路は、点群に対応する符号化ビットストリームから画像の予測情報をデコードする。予測情報は、画像が、前記点群についての少なくともあるパッチからの複数の欠失点を含み、前記複数の欠失点が、非ジャンプ走査に従って画像内に配置されていることを示す。
【0006】
次いで、処理回路は、非ジャンプ走査に従って、画像から前記複数の欠失点を再構成する。いくつかの実施形態では、処理回路は、第1の欠失点を第1の行における最後のピクセルとして再構成し、第1の欠失点の次である第2の欠失点を第2の行における最初のピクセルとして再構成する。第1の行における最後のピクセルおよび第2の行における最初のピクセルは、同じ列内にある。
【0007】
いくつかの例では、処理回路は、画像に関連付けられたフラグをデコードし、このフラグは、非ジャンプ走査を示す。
【0008】
いくつかの例では、処理回路は、ブロックベースの非ジャンプ走査を示すフラグをデコードし、ブロックベースの非ジャンプ走査についてのブロック・サイズをデコードする。次いで、処理回路は、ブロック・サイズに応じて画像をブロックに分割し、非ジャンプ走査に従ってブロック内の欠失点を再構成する。一例では、処理回路は、第1の欠失点をブロックの第1の行における最後のピクセルとして再構成し、第1の欠失点の次である第2の欠失点をブロックの第2の行における最初のピクセルとして再構成する。第1の行における最後のピクセルおよび第2の行における最初のピクセルは、同じ列内にある。さらに、処理回路は、ブロックの非ジャンプ走査に従った順序でブロックを処理する。
【0009】
本開示のいくつかの側面によれば、装置は点群圧縮用である。少なくとも点群のあるパッチからの複数の欠失点を決定し、前記複数の欠失点に関連するピクセルをもつ画像を形成する。画像における2つの欠失点の位置間の2次元距離が、点群における2つの欠失点間の3次元距離に基づいて決定される。さらに、処理回路は、画像をエンコードし、エンコードされた画像を含む符号化ビットストリームを形成する。
【0010】
いくつかの実施形態では、処理回路は、複数の欠失点を、最近傍基準に基づいて欠失点のリストに順序付け、該リストの欠失点を、非ジャンプ走査に従って、画像のピクセルに関連付ける。
【0011】
ある実施形態では、処理回路は、第1の欠失点を画像の第1の行における最後のピクセルに関連付け、欠失点のリストにおいて第1の欠失点の次である第2の欠失点を画像の第2の行における最初のピクセルに関連付ける。第1の行における最後のピクセルおよび第2の行における最初のピクセルは、同じ列内にある。
【0012】
別の実施形態では、処理回路は、第1の欠失点を画像におけるあるブロックの第1の行における最後のピクセルに関連付け、リストにおいて第1の欠失点の次である第2の欠失点を、画像における前記ブロックの第2の行における最初のピクセルに関連付け、第1の行における最後のピクセルと第2の行における最初のピクセルは同じ列にある。
【0013】
一例では、処理回路は、符号化ビットストリームに、非ジャンプ走査を示すフラグを含める。別の例では、処理回路は、符号化ビットストリームにブロック・サイズを含める。
【0014】
本開示の諸側面は、点群圧縮/圧縮解除のためにコンピュータによって実行されたときに、該コンピュータに点群圧縮/圧縮解除のための方法を実行させる命令を記憶している非一時的なコンピュータ読み取り可能媒体を提供する。
【図面の簡単な説明】
【0015】
開示された主題のさらなる特徴、性質、およびさまざまな利点は、以下の詳細な説明および添付の図面からより明白になるであろう。
【0016】
【
図1】ある実施形態による通信システム(100)の簡略ブロック図の概略図である。
【0017】
【
図2】ある実施形態によるストリーミング・システム(200)の簡略ブロック図の概略図である。
【0018】
【
図3】いくつかの実施形態による、点群フレームをエンコードするためのエンコーダ(300)のブロック図を示す。
【0019】
【
図4】いくつかの実施形態による、点群フレームに対応する圧縮されたビットストリームをデコードするためのデコーダのブロック図を示す。
【0020】
【
図5】ある実施形態によるビデオ・デコーダの簡略ブロック図の概略図である。
【0021】
【
図6】ある実施形態によるビデオ・エンコーダの簡略ブロック図の概略図である。
【0022】
【
図7】一次元(1D)信号の二次元(2D)画像への配置を示す図である。
【0023】
【
図8】一次元(1D)信号の二次元(2D)画像への配置を示す図である。
【0024】
【
図9】一次元(1D)信号の二次元(2D)画像への配置を示す図である。
【0025】
【
図10】本開示のいくつかの実施形態によるシンタックス例を示す。
【0026】
【
図11】本開示のいくつかの実施形態によるプロセス例を概説するフローチャートを示す。
【0027】
【
図12】本開示のいくつかの実施形態によるプロセス例を概説するフローチャートを示す。
【0028】
【
図13】ある実施形態によるコンピュータ・システムの概略図である。
【発明を実施するための形態】
【0029】
本開示の諸側面は、特に、点群圧縮用ビデオ符号化(video-coding for point cloud compression、V-PCC)を使用する、点群符号化技法を提供する。V-PCCは、汎用ビデオ・コーデックを点群圧縮のために利用することができる。本開示の点群符号化技法は、V-PCCによって生成された欠失点の可逆圧縮および不可逆圧縮の両方を改善することができる。
【0030】
以下、点群は、一般に、3D空間内の点の集合を指してもよく、各点は、関連する属性、たとえば、色、材料特性、テクスチャー情報、強度属性、反射率属性、動き関連属性、モダリティー属性、およびさまざまな他の属性をもつ。点群は、オブジェクトまたはシーンを、そのような点の合成として再構成するために使用できる。これらの点は、さまざまなセットアップにおいて複数のカメラおよび奥行きセンサーを使用して捕捉でき、再構成されたシーンをリアルに表現するために、数千から数十億の点から構成されうる。パッチは、一般に、点群によって記述される表面の連続的な部分集合を指すことができる。欠失点(missed point)とは一般に、V-PCC投影によって捕捉されない点を指す。
【0031】
圧縮技術は、点群を表現するのに要求されるデータの量を減らすために必要とされる。よって、リアルタイム通信および6自由度(6DoF)仮想現実で使用するために、点群の不可逆圧縮のための技術が必要とされる。また、自律運転や文化遺産用途などのための動的マッピングの文脈において、可逆な点群圧縮のための技術が求められている。動画像エキスパート・グループ(MPEG)は、幾何構成および色や反射率といった属性の圧縮、スケーラブル/プログレッシブ符号化、経時的に捕捉される点群のシーケンスの符号化、点群の部分集合へのランダム・アクセスに取り組むための標準の作業を始める。
【0032】
本開示のある側面によれば、V-PCCの背後にある主な哲学は、既存のビデオ・コーデックを利用して、動的点群の幾何構成、占有(occupancy)、およびテクスチャーを3つの別個のビデオ・シーケンスとして圧縮することである。3つのビデオ・シーケンスを解釈するために必要とされる追加のメタデータは、別個に圧縮される。全体的なビットストリームのわずかな部分がメタデータであり、これはソフトウェア実装を用いて効率的にエンコード/デコードできる。情報の大部分は、ビデオ・コーデックによって処理される。
【0033】
図1は、本開示のある実施形態による通信システム(100)の簡略化されたブロック図を示す。通信システム(100)は、たとえばネットワーク(150)を介して互いに通信することができる複数の端末装置を含む。たとえば、通信システム(100)は、ネットワーク(150)を介して相互接続された一対の端末装置(110)および(120)を含む。
図1の例では、端末装置(110)および(120)の第1の対は点群データの一方向送信を実行する。たとえば、端末装置(110)は、端末装置(110)に接続されたセンサー105によって捕捉される点群(たとえば、構造を表わす点)を圧縮することができる。圧縮された点群は、たとえばビットストリームの形で、ネットワーク(150)を介して他方の端末装置(120)に送信されることができる。端末装置(120)は、圧縮された点群をネットワーク(150)から受信し、ビットストリームを圧縮解除して点群を再構成し、再構成された点群に従って好適に表示することができる。一方向性データ伝送は、メディア・サービス・アプリケーション等において一般的でありうる。
【0034】
図1の例では、端末装置(110)および(120)は、サーバーおよびパーソナルコンピュータとして示されてもよいが、本開示の原理は、それに限定されなくてもよい。本開示の実施形態は、ラップトップ・コンピュータ、タブレット・コンピュータ、スマートフォン、ゲーム端末、メディア・プレーヤー、および/または専用の三次元(3D)設備への適用を見出す。ネットワーク(150)は、端末装置(110)と(120)との間で圧縮された点群を伝送する任意の数のネットワークを表わす。ネットワーク(150)は、たとえば、有線および/または無線通信ネットワークを含むことができる。ネットワーク(150)は、回線交換および/またはパケット交換チャネルでデータを交換することができる。代表的なネットワークは、遠隔通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび/またはインターネットを含む。今の議論の目的のために、ネットワーク(150)のアーキテクチャーおよびトポロジーは、以下に説明しない限り、本開示の動作にとって重要ではないことがありうる。
【0035】
図2は、点群についての、開示された主題の適用の例を示している。開示された主題は、3Dテレプレゼンス・アプリケーション、仮想現実アプリケーションを含む、他の点群対応アプリケーションにも同様に適用可能でありうる。
【0036】
ストリーミング・システム200は、捕捉サブシステム(213)を含んでいてもよい。捕捉サブシステム(213)は、点群源(201)、たとえば、光検出および測距(LIDAR)システム、3Dカメラ、3Dスキャナ、ソフトウェアで非圧縮点群を生成するグラフィックス生成コンポーネントなど、たとえば圧縮されていない点群(202)を生成するものを含むことができる。一例では、点群(202)は、3Dカメラによって捕捉された点を含む。点群(202)は、圧縮された点群(204)(圧縮された点群のビットストリーム)と比較したときの高いデータ量を強調するために、太線として描かれている。圧縮された点群(204)は、点群源(201)に結合されたエンコーダ(203)を含む電子装置(220)によって生成されることができる。エンコーダ(203)は、以下により詳細に説明されるような開示される主題の諸側面を可能にし、または実現するためのハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。圧縮された点群(204)(または圧縮された点群(204)のビットストリーム)は、点群(202)のストリームと比較したときの、より低いデータ量を強調するために細い線として描かれており、将来の使用のためにストリーミングサーバー(205)に記憶されることができる。
図2のクライアント・サブシステム(206)および(208)のような一つまたは複数のストリーミング・クライアント・サブシステムは、圧縮された点群(204)のコピー(207)および(209)を取得するためにストリーミング・サーバー(205)にアクセスすることができる。クライアント・サブシステム(206)は、たとえば電子装置(230)内にデコーダ(210)を含むことができる。デコーダ(210)は、圧縮された点群のはいってくるコピー(207)をデコードし、レンダリング装置(212)上にレンダリングできる再構成された点群(211)の出でいくストリームを生成する。いくつかのストリーミング・システムでは、圧縮された点群(204)、(207)、および(209)(たとえば、圧縮された点群のビットストリーム)は、ある種の標準に従って圧縮されていることができる。いくつかの例では、ビデオ符号化標準が点群の圧縮において使用される。それらの標準の例は、高効率ビデオ符号化(HEVC)、多用途ビデオ符号化(VVC)などを含む。
【0037】
電子装置(220)および(230)は、他のコンポーネント(図示せず)を含むことができることに留意されたい。たとえば、電子装置(220)はデコーダ(図示せず)を含むことができ、電子装置(230)はエンコーダ(図示せず)も含むことができる。
【0038】
図3は、いくつかの実施形態による、点群フレームを符号化するためのV-PCCエンコーダ(300)のブロック図を示す。いくつかの実施形態では、V-PCCエンコーダ(300)は、通信システム(100)およびストリーミング・システム(200)において使用できる。たとえば、エンコーダ(203)は、V-PCCエンコーダ(300)と同様に構成され、動作することができる。
【0039】
V-PCCエンコーダ(300)は、圧縮されていない入力である点群フレームを受領し、圧縮された点群フレームに対応するビットストリームを生成する。いくつかの実施形態では、V-PCCエンコーダ(300)は、点群源(201)などの点群源から点群フレームを受領してもよい。
【0040】
図3の例では、V-PCCエンコーダ(300)は、パッチ生成モジュール306と、パッチ・パッキング・モジュール308と、幾何構成画像生成モジュール310と、テクスチャー画像生成モジュール312と、パッチ情報モジュール304と、占有マップ・モジュール314と、平滑化モジュール336と、画像パディング・モジュール316および318と、グループ拡張モジュール320と、ビデオ圧縮モジュール322、323、332と、補助パッチ情報圧縮モジュール338と、エントロピー圧縮モジュール334と、マルチプレクサ324とを、
図3に示すように一緒に結合されて、含む。
【0041】
本開示のある側面によれば、V-PCCエンコーダ(300)は、3D点群フレームを、圧縮された点群を圧縮解除された点群に戻す変換をするために必要な何らかのメタデータ(たとえば、占有マップおよびパッチ情報)を伴う画像ベースの表現に変換する。いくつかの例では、V-PCCエンコーダ(300)は、3D点群フレームを幾何構成(geometry)画像、テクスチャー(texture)画像、および占有(occupancy)マップに変換し、次いで、ビデオ符号化技法を使用して、該幾何構成画像、テクスチャー画像、および占有マップをビットストリーム中にエンコードすることができる。
【0042】
パッチ生成モジュール(306)は、点群を、重複していてもいなくてもよいパッチの集合にセグメント分割する(たとえば、パッチは、点群によって記述される表面の連続的な部分集合として定義される)。各パッチは、2D空間内のある平面に関して奥行きフィールド(depth field)によって記述されうる。いくつかの実施形態では、パッチ生成モジュール(306)は、再構成誤差をも最小化しつつ、点群を、なめらかな境界をもつ最小数のパッチに分解することをねらいとする。
【0043】
パッチ情報モジュール(304)は、パッチのサイズおよび形状を示すパッチ情報を収集することができる。いくつかの例では、パッチ情報は画像フレームにパックされ、次いで、補助パッチ情報圧縮モジュール338によってエンコードされて、圧縮された補助パッチ情報を生成することができる。
【0044】
パッチ・パッキング・モジュール308は、抽出されたパッチを2次元(2D)グリッド上にマッピングするように構成される。その際、未使用のスペースを最小にし、グリッドのすべての(たとえば16×16)ブロックが一意的なパッチと関連付けられることを保証する。効率的なパッチ・パッキングは、未使用スペースを最小限にするか、または時間的一貫性を保証することにより、圧縮効率に直接影響を与えることができる。
【0045】
幾何構成画像生成モジュール(310)は、所与のパッチ位置における点群の幾何構成に関連する2D幾何構成画像を生成することができる。テクスチャー画像生成モジュール(312)は、所与のパッチ位置における点群のテクスチャーに関連する2Dテクスチャー画像を生成することができる。幾何構成画像生成モジュール310およびテクスチャー画像生成モジュール(312)は、点群の幾何構成およびテクスチャーを画像として記憶するために、パッキング・プロセスの間に計算された3Dから2Dへのマッピングを利用する。複数の点が同じサンプルに投影される場合をよりよく扱うために、各パッチは、2つの、層と呼ばれる画像上に投影される。一例では、幾何構成画像は、YUV420-8ビット・フォーマットのWxHの単色フレームによって表現される。テクスチャー画像を生成するために、テクスチャー生成手順は、再サンプリングされた点に関連付けられる色を計算するために、再構成/平滑化された幾何構成を利用する。
【0046】
占有マップ・モジュール314は、各ユニットにおけるパディング情報を記述する占有マップを生成することができる。たとえば、占有画像は、グリッドの各セルについて該セルが空のスペースに属するか点群に属するかを示す二値マップを含む。一例では、占有マップは、各ピクセルについて該ピクセルがパディングされているか否か記述する二値情報を使用する。別の例では、占有マップは、ピクセルの各ブロックについて、ピクセルの該ブロックがパディングされているか否かを記述する二値情報を使用する。
【0047】
占有マップ・モジュール314によって生成される占有マップは、可逆符号化または不可逆符号化を使用して圧縮できる。可逆符号化が使用される場合、占有マップを圧縮するためにエントロピー圧縮モジュール334が使用され;不可逆符号化が使用される場合、占有マップを圧縮するためにビデオ圧縮モジュール332が使用される。
【0048】
なお、パッチ・パッキング・モジュール308は、画像フレームにおいてパックされた2Dパッチの間に何らかの空のスペースを残してもよい。画像パディング・モジュール316および318は、2Dビデオおよび画像コーデックのために好適でありうる画像フレームを生成するために、空のスペースを埋める(パディングと称される)ことができる。画像パディングは、冗長情報によって未使用スペースを埋めることができる背景充填とも呼ばれる。いくつかの例では、良好な背景充填は、ビットレートを最小限に増加させるが、パッチ境界のまわりに著しい符号化歪みを導入しない。
【0049】
ビデオ圧縮モジュール322、323、および332は、HEVC、VVCなどのような好適なビデオ符号化標準に基づいて、パディングされた幾何構成画像、パディングされたテクスチャー画像、および占有マップといった2D画像をエンコードすることができる。一例では、ビデオ圧縮モジュール322、323および332は、別個に動作する個々のコンポーネントである。なお、ビデオ圧縮モジュール322、323、332は、別の例では、単一のコンポーネントとして実装できる。
【0050】
いくつかの例では、平滑化モジュール336は、再構成された幾何構成画像の平滑化された画像を生成するように構成される。平滑化された画像情報は、テクスチャー画像生成312に提供されることができる。次いで、テクスチャー画像生成312は、再構成された幾何構成画像に基づいてテクスチャー画像の生成を調整してもよい。たとえば、パッチ形状(たとえば、幾何構成(geometry))が、エンコードおよびデコード中にわずかに歪められる場合、歪みは、テクスチャー画像を生成する際に、パッチ形状の歪みを補正するために考慮されうる。
【0051】
いくつかの実施形態では、グループ拡張(group dilation)320は、符号化利得および再構成された点群の視覚的品質を改善するために、オブジェクト境界のまわりのピクセルを、冗長な低周波数内容でパディングするように構成される。
【0052】
マルチプレクサ324は、圧縮された幾何構成画像、圧縮されたテクスチャー画像、圧縮された占有マップ、圧縮された補助パッチ情報を、圧縮されたビットストリームに多重化することができる。
【0053】
図4は、いくつかの実施形態による、点群フレームに対応する圧縮されたビットストリームをデコードするためのV-PCCデコーダ(400)のブロック図を示す。いくつかの実施形態では、V-PCCデコーダ(400)は、通信システム(100)およびストリーミング・システム(200)において使用されることができる。たとえば、デコーダ(210)は、V-PCCデコーダ(400)と同様の仕方で構成され、動作することができる。V-PCCデコーダ(400)は、圧縮されたビットストリームを受領し、圧縮されたビットストリームに基づいて、再構成された点群を生成する。
【0054】
図4の例では、V-PCCデコーダ(400)は、デマルチプレクサ(432)、ビデオ圧縮解除モジュール(434)および(436)、占有マップ圧縮解除モジュール(438)、補助パッチ情報圧縮解除モジュール(442)、幾何構成再構成モジュール(444)、平滑化モジュール(446)、テクスチャー再構成モジュール(448)および色平滑化モジュール(452)を、
図4に示されるように一緒に結合されて、含む。
【0055】
デマルチプレクサ(432)は、圧縮されたビットストリームを受領し、圧縮されたテクスチャー画像、圧縮された幾何構成画像、圧縮された占有マップ、および圧縮された補助パッチ情報に分離することができる。
【0056】
ビデオ圧縮解除モジュール(434)および(436)は、好適な標準(たとえばHEVC、VVCなど)に従って、圧縮された画像をデコードし、圧縮解除された画像を出力することができる。たとえば、ビデオ圧縮解除モジュール(434)は、圧縮されたテクスチャー画像をデコードし、圧縮解除されたテクスチャー画像を出力する;ビデオ圧縮解除モジュール(436)は、圧縮された幾何構成画像をデコードし、圧縮解除された幾何構成画像を出力する。
【0057】
占有マップ圧縮解除モジュール(438)は、好適な標準(たとえばHEVC、VVCなど)に従って圧縮された占有マップをデコードし、圧縮解除された占有マップを出力することができる。
【0058】
補助パッチ情報圧縮解除モジュール(442)は、好適な標準(たとえばHEVC、VVCなど)に従って、圧縮された補助パッチ情報をデコードし、圧縮解除された補助パッチ情報を出力することができる。
【0059】
幾何構成再構成モジュール(444)は、圧縮解除された幾何構成画像を受領し、圧縮解除された占有マップおよび圧縮解除された補助パッチ情報に基づいて、再構成された点群幾何構成を生成することができる。
【0060】
平滑化モジュール(446)は、パッチのエッジにおける不調和(incongruences)を平滑化することができる。平滑化手順は、圧縮アーチファクトに起因してパッチ境界で生じる可能性のある潜在的な不連続を軽減することをねらいとしている。いくつかの実施形態では、圧縮/圧縮解除によって引き起こされうる歪みを軽減するために、パッチ境界上に位置するピクセルに対して平滑化フィルタが適用されてもよい。
【0061】
テクスチャー再構成モジュール(448)は、圧縮解除されたテクスチャー画像および平滑化幾何構成に基づいて、点群内の点についてのテクスチャー情報を決定することができる。
【0062】
色平滑化モジュール(452)は、色付けの不調和を平滑化することができる。3D空間における非隣接パッチが、2Dビデオでは互いに隣接してパックされることが多い。いくつかの例では、非隣接パッチからのピクセル値が、ブロックベースのビデオ・コーデックによって混合されることがある。色平滑化の目的は、パッチ境界に現われる目に見えるアーチファクトを減らすことである。
【0063】
図5は、本開示のある実施形態による、ビデオ・デコーダ(510)のブロック図を示す。ビデオ・デコーダ(510)は、V-PCCデコーダ(400)において使用されることができる。たとえば、ビデオ圧縮解除モジュール(434)および(436)、占有マップ圧縮解除モジュール(438)は、同様に、ビデオ・デコーダ(510)として同様に構成されることができる。
【0064】
ビデオ・デコーダ(510)は、符号化ビデオ・シーケンスのような圧縮された画像からシンボル(521)を再構成するためのパーサー(520)を含んでいてもよい。それらのシンボルのカテゴリーは、ビデオ・デコーダ(510)の動作を管理するために使用される情報を含む。パーサー(520)は、受領される符号化ビデオ・シーケンスをパース/エントロピー復号することができる。符号化ビデオ・シーケンスの符号化は、ビデオ符号化技術または標準に従うことができ、可変長符号化、ハフマン符号化、コンテキスト感受性ありまたはなしの算術符号化などを含むさまざまな原理に従うことができる。パーサー(520)は、符号化ビデオ・シーケンスから、ビデオ・デコーダ内のピクセルのサブグループのうちの少なくとも1つについて、サブグループ・パラメータのセットを、前記グループに対応する少なくとも1つのパラメータに基づいて抽出することができる。サブグループは、ピクチャーグループ(GOP)、ピクチャー、タイル、スライス、マクロブロック、符号化単位(CU)、ブロック、変換単位(TU)、予測単位(PU)などを含みうる。パーサー(520)はまた、変換係数、量子化器パラメータ値、動きベクトルなどの情報を、符号化ビデオ・シーケンスから抽出してもよい。
【0065】
パーサー(520)は、シンボル(521)を生成するよう、バッファメモリから受領されたビデオ・シーケンスに対してエントロピー複合/パース動作を実行してもよい。
【0066】
シンボル(521)の再構成は、符号化されたビデオ・ピクチャーまたはその部分のタイプ(たとえば、インターおよびイントラ・ピクチャー、インターおよびイントラ・ブロック)および他の要因に依存して、複数の異なるユニットに関わることができる。どのユニットがどのように関わるかは、符号化ビデオ・シーケンスからパーサー(520)によってパースされたサブグループ制御情報によって制御されることができる。パーサー(520)と下記の複数のユニットとの間のそのようなサブグループ制御情報の流れは、明確のため、描かれていない。
【0067】
すでに述べた機能ブロックのほかに、ビデオ・デコーダ(510)は、以下に説明するように、概念的に、いくつかの機能ユニットに分割できる。商業的制約の下で機能する実際的な実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合されることができる。しかしながら、開示される主題を記述する目的のためには、下記の機能単位への概念的な細分が適切である。
【0068】
第1のユニットは、スケーラー/逆変換ユニット(551)である。スケーラー/逆変換ユニット(551)は、パーサー(520)から、量子化された変換係数および制御情報をシンボル(単数または複数)(521)として受領する。制御情報は、どの変換を使用するか、ブロック・サイズ、量子化因子、量子化スケーリング行列などを含む。スケーラー/逆変換ユニット(551)は、集計器(555)に入力できるサンプル値を含むブロックを出力することができる。
【0069】
場合によっては、スケーラー/逆変換(551)の出力サンプルは、イントラ符号化されたブロック、すなわち、以前に再構成されたピクチャーからの予測情報を使用していないが、現在ピクチャーの、以前に再構成された部分からの予測情報を使用することができるブロックに関することができる。そのような予測情報は、イントラ・ピクチャー予測ユニット(552)によって提供されることができる。場合によっては、イントラ・ピクチャー予測ユニット(552)は、現在ピクチャー・バッファ(558)から取ってきた、周囲のすでに再構成された情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成する。現在ピクチャー・バッファ(558)は、たとえば、部分的に再構成された現在ピクチャーおよび/または完全に再構成された現在ピクチャーをバッファリングする。集計器(555)は、場合によっては、サンプル毎に、イントラ予測ユニット(552)が生成した予測情報を、スケーラー/逆変換ユニット(551)によって提供される出力サンプル情報に加算する。
【0070】
他の場合には、スケーラー/逆変換ユニット(551)の出力サンプルは、インター符号化され、潜在的には動き補償されたブロックに関することができる。そのような場合、動き補償予測ユニット(553)は、予測のために使用されるサンプルを取ってくるために参照ピクチャー・メモリ(557)にアクセスすることができる。取ってきたサンプルを、ブロックに関するシンボル(521)に従って動き補償した後、これらのサンプルは、集計器(555)によってスケーラー/逆変換ユニットの出力(この場合、残差サンプルまたは残差信号と呼ばれる)に加算されて、それにより出力サンプル情報を生成することができる。動き補償予測ユニット(553)が予測サンプルを取ってくる参照ピクチャー・メモリ(557)内のアドレスは、シンボル(521)の形で動き補償予測ユニット(553)に利用可能な動きベクトルによって制御できる。該シンボルは、たとえばX、Y、および参照ピクチャー成分を有することができる。動き補償は、サンプル以下の正確な動きベクトルが使用されるときの参照ピクチャー・メモリ(557)から取ってこられるサンプル値の補間、動きベクトル予測機構などを含むことができる。
【0071】
集計器(555)の出力サンプルは、ループ・フィルタ・ユニット(556)内でさまざまなループ・フィルタリング技法にかけられることができる。ビデオ圧縮技術は、ループ内フィルタ技術を含むことができる。ループ内フィルタ技術は、符号化ビデオ・シーケンス(符号化されたビデオ・ビットストリームとも呼ばれる)に含まれるパラメータによって制御され、パーサー(520)からのシンボル(521)としてループ・フィルタ・ユニット(556)に利用可能にされるが、符号化されたピクチャーまたは符号化されたビデオ・シーケンスの(デコード順で)前の部分のデコード中に得られたメタ情報に応答するとともに、以前に再構成されループ・フィルタリングされたサンプル値に応答することもできる。
【0072】
ループ・フィルタ・ユニット(556)の出力はサンプル・ストリームであることができ、これは、レンダー装置に出力されることができ、また将来のピクチャー間予測において使用するために参照ピクチャー・メモリ(557)に記憶されることができる。
【0073】
符号化されたピクチャーは、いったん完全に再構成されると、将来の予測のための参照ピクチャーとして使用できる。たとえば、現在ピクチャーに対応する符号化されたピクチャーが完全に再構成され、該符号化されたピクチャーが(たとえば、パーサー(520)によって)参照ピクチャーとして同定されると、現在ピクチャー・バッファ(558)は参照ピクチャーメモリ(557)の一部となることができ、後続の符号化されたピクチャーの再構成を開始する前に、新鮮な現在ピクチャー・バッファが再割当てされることができる。
【0074】
ビデオ・デコーダ(510)は、ITU-T勧告H.265のような標準における所定のビデオ圧縮技術に従ってデコード動作を実行することができる。符号化ビデオ・シーケンスはビデオ圧縮技術または標準のシンタックスおよびビデオ圧縮技術または標準において文書化されているプロファイルの両方に従うという意味で、符号化されたビデオ・シーケンスは、使用されているビデオ圧縮技術または標準によって規定されたシンタックスに準拠することができる。具体的には、プロファイルはビデオ圧縮技術または標準において利用可能なすべてのツールから、そのプロファイルのもとでの使用のためにそれだけが利用可能なツールとして、ある種のツールを選択することができる。準拠のためにはまた、符号化ビデオ・シーケンスの複雑さが、ビデオ圧縮技術または標準のレベルによって定義される範囲内にあることも必要であることがある。いくつかの場合には、レベルは、最大ピクチャー・サイズ、最大フレーム・レート、最大再構成サンプル・レート(たとえば、毎秒メガサンプルの単位で測られる)、最大参照ピクチャー・サイズなどを制約する。レベルによって設定された限界は、場合によっては、符号化ビデオ・シーケンスにおいて信号伝達される、HRDバッファ管理のための仮設参照デコーダ(Hypothetical Reference Decoder、HRD)仕様およびメタデータを通じてさらに制約されることができる。
【0075】
図6は、本開示のある実施形態によるビデオ・エンコーダ(603)のブロック図を示している。ビデオ・エンコーダ(603)は、点群を圧縮するV-PCCエンコーダにおいて使用されることができる。一例では、ビデオ圧縮モジュール(322)および(323)は、エンコーダ(603)と同様に構成される。
【0076】
ビデオ・エンコーダ(603)は、パディングされた幾何構成画像、パディングされたテクスチャー画像などの画像を受領し、圧縮された画像を生成することができる。
【0077】
ある実施形態によれば、ビデオ・エンコーダ(603)は、源ビデオ・シーケンス(画像)のピクチャーを符号化および圧縮して、リアルタイムで、または用途によって要求される任意の他の時間制約条件の下で、符号化ビデオ・シーケンス(圧縮された画像)にすることができる。適切な符号化速度を実施することは、コントローラ(650)の一つの機能である。いくつかの実施形態では、コントローラ(650)は、以下に記載されるように他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。かかる結合は、明確のため描かれていない。コントローラ(650)によって設定されるパラメータは、レート制御に関連するパラメータ(ピクチャー・スキップ、量子化器、レート‐歪み最適化技法のラムダ値、…)、ピクチャー・サイズ、ピクチャーグループ(GOP)レイアウト、最大動きベクトル探索範囲などを含むことができる。コントローラ(650)は、ある種のシステム設計のために最適化されたビデオ・エンコーダ(603)に関する他の好適な機能を有するように構成できる。
【0078】
いくつかの実施形態では、ビデオ・エンコーダ(603)は、符号化ループにおいて動作するように構成される。思い切って単純化した説明として、一例では、符号化ループは、源符号化器(630)(たとえば、符号化されるべき入力ピクチャーと参照ピクチャー(算数または複数)に基づいてシンボル・ストリームのようなシンボルを生成することを受け持つ)と、ビデオ・エンコーダ(603)に埋め込まれた(ローカル)デコーダ(633)とを含むことができる。デコーダ(633)は、(リモートの)デコーダも生成するであろうのと同様の仕方でサンプル・データを生成するよう前記シンボルを再構成する(開示される主題において考慮されるビデオ圧縮技術では、シンボルと符号化ビデオ・ビットストリームとの間のどの圧縮も無損失である)。再構成されたサンプル・ストリーム(サンプル・データ)は、参照ピクチャー・メモリ(634)に入力される。シンボル・ストリームのデコードは、デコーダ位置(ローカルかリモートか)によらずビット正確な結果をもたらすので、参照ピクチャー・メモリ(634)の内容もローカル・エンコーダとリモート・エンコーダの間でビット正確である。言い換えると、エンコーダの予測部は、デコーダがデコード中に予測を使用するときに「見る」のとまったく同じサンプル値を参照ピクチャー・サンプルとして「見る」。参照ピクチャー同期性のこの基本原理(および、たとえば、チャネルエラーのために同期性が維持できない場合の結果として生じるドリフト)は、いくつかの関連技術においても使用される。
【0079】
「ローカル」デコーダ(633)の動作は、
図5との関連ですでに上記で詳細に述べた「リモート」デコーダ、たとえばビデオ・デコーダ(510)の動作と同じであってよい。しかしながら、暫時
図5も参照すると、シンボルが利用可能であり、エントロピー符号化器(645)およびパーサー(520)による、シンボルの符号化ビデオ・シーケンスへのエンコード/デコードが可逆でありうるので、パーサー(520)を含むビデオ・デコーダ(510)のエントロピー復号部は、ローカル・デコーダ(633)においては完全には実装されなくてもよい。
【0080】
この時点で行なうことができる観察は、デコーダ内に存在するパース/エントロピー復号を除くどのデコーダ技術も、対応するエンコーダ内で実質的に同一の機能的形態で存在する必要があることである。このため、開示される主題はデコーダ動作に焦点を当てる。エンコーダ技術の記述は、包括的に記述されるデコーダ技術の逆であるため、短縮することができる。ある種の領域においてのみ、より詳細な説明が必要であり、以下に提供される。
【0081】
動作中、いくつかの例では、源符号化器(630)は、「参照ピクチャー」として指定された、ビデオ・シーケンスからの一つまたは複数の以前に符号化されたピクチャーを参照して、入力ピクチャーを予測的に符号化する、動き補償された予測符号化を実行することができる。このようにして、符号化エンジン(632)は、入力ピクチャーのピクセル・ブロックと、入力ピクチャーに対する予測参照として選択されうる参照ピクチャー(単数または複数)のピクセル・ブロックとの間の差分を符号化する。
【0082】
ローカル・ビデオ・デコーダ(633)は、源符号化器(630)によって生成されたシンボルに基づいて、参照ピクチャーとして指定されうるピクチャーの符号化されたビデオ・データをデコードすることができる。符号化エンジン(632)の動作は、有利には、損失のあるプロセスでありうる。符号化されたビデオ・データがビデオ・デコーダ(
図6には示さず)でデコードされうるとき、再構成されたビデオ・シーケンスは、典型的には、いくつかのエラーを伴う源ビデオ・シーケンスの複製でありうる。ローカル・ビデオ・デコーダ(633)は、ビデオ・デコーダによって参照ピクチャーに対して実行されうるデコード・プロセスを複製し、再構成された参照ピクチャーを参照ピクチャー・キャッシュ(634)に格納させることができる。このようにして、ビデオ・エンコーダ(603)は、遠端のビデオ・デコーダによって得られるであろう再構成された参照ピクチャーと共通の内容を(伝送エラーがなければ)有する再構成された参照ピクチャーのコピーを、ローカルに記憶することができる。
【0083】
予測器(635)は、符号化エンジン(632)について予測探索を実行することができる。すなわち、符号化されるべき新しいピクチャーについて、予測器(635)は、新しいピクチャーのための適切な予測参照のはたらきをしうるサンプル・データ(候補参照ピクセル・ブロックとして)またはある種のメタデータ、たとえば参照ピクチャー動きベクトル、ブロック形状などを求めて、参照ピクチャー・メモリ(634)を探索することができる。予測器(635)は、適切な予測参照を見出すために、サンプル・ブロック/ピクセル・ブロック毎に(on a sample block-by-pixel block basis)動作しうる。場合によっては、予測器(635)によって得られた検索結果によって決定されるところにより、入力ピクチャーは、参照ピクチャー・メモリ(634)に記憶された複数の参照ピクチャーから引き出された予測参照を有することができる。
【0084】
コントローラ(650)は、たとえば、ビデオ・データをエンコードするために使用されるパラメータおよびサブグループ・パラメータの設定を含め、源符号化器(630)の符号化動作を管理してもよい。
【0085】
上記の機能ユニットすべての出力は、エントロピー符号化器(645)におけるエントロピー符号化を受けることができる。エントロピー符号化器(645)は、ハフマン符号化、可変長符号化、算術符号化などといった技術に従ってシンボルを無損失圧縮することによって、さまざまな機能ユニットによって生成されたシンボルを符号化ビデオ・シーケンスに変換する。
【0086】
コントローラ(650)は、ビデオ・エンコーダ(603)の動作を管理してもよい。符号化の間、コントローラ(650)は、それぞれの符号化されたピクチャーに、ある符号化ピクチャー・タイプを割り当てることができる。符号化ピクチャー・タイプは、それぞれのピクチャーに適用されうる符号化技術に影響しうる。たとえば、ピクチャーはしばしば、以下のピクチャー・タイプのうちの1つとして割り当てられることがある。
【0087】
イントラピクチャー(Iピクチャー)は、予測の源としてシーケンス内の他のピクチャーを使用せずに、符号化され、デコードされうるものでありうる。いくつかのビデオ・コーデックは、たとえば、独立デコーダ・リフレッシュ(Independent Decoder Refresh、「IDR」)・ピクチャーを含む、異なるタイプのイントラ・ピクチャーを許容する。当業者は、Iピクチャーのこれらの変形、ならびにそれらのそれぞれの用途および特徴を認識する。
【0088】
予測ピクチャー(Pピクチャー)は、各ブロックのサンプル値を予測するために、最大で1つの動きベクトルおよび参照インデックスを用いるイントラ予測またはインター予測を用いて符号化およびデコードされうるものでありうる。
【0089】
双方向予測ピクチャー(Bピクチャー)は、各ブロックのサンプル値を予測するために、最大で2つの動きベクトルおよび参照インデックスを用いるイントラ予測またはインター予測を用いて符号化およびデコードされうるものでありうる。同様に、マルチ予測ピクチャーは、単一のブロックの再構成のために、3つ以上の参照ピクチャーおよび関連するメタデータを使用することができる。
【0090】
源ピクチャーは、普通、空間的に複数のサンプル・ブロック(たとえば、それぞれ4×4、8×8、4×8、または16×16サンプルのブロック)に分割され、ブロック毎に符号化されうる。ブロックは、ブロックのそれぞれのピクチャーに適用される符号化割り当てによって決定されるところにより、他の(すでに符号化された)ブロックを参照して予測的に符号化されうる。たとえば、Iピクチャーのブロックは、非予測的に符号化されてもよく、または、同じピクチャーのすでに符号化されたブロックを参照して予測的に符号化されてもよい(空間的予測またはイントラ予測)。Pピクチャーのピクセル・ブロックは、以前に符号化された一つの参照ピクチャーを参照して、空間的予測を介してまたは時間的予測を介して予測的に符号化されてもよい。Bピクチャーのブロックは、1つまたは2つの以前に符号化された参照ピクチャーを参照して、空間的予測を介して、または時間的予測を介して予測的に符号化されてもよい。
【0091】
ビデオ・エンコーダ(603)は、ITU-T勧告H.265などの所定のビデオ符号化技術または標準に従って符号化動作を実行することができる。その動作において、ビデオ・エンコーダ(603)は、入力ビデオ・シーケンスにおける時間的および空間的冗長性を活用する予測符号化動作を含む、さまざまな圧縮動作を実行することができる。よって、符号化されたビデオ・データは、使用されるビデオ符号化技術または標準によって指定されるシンタックスに準拠しうる。
【0092】
ビデオは、時間的シーケンスにおいて複数の源ピクチャー(画像)の形であってもよい。ピクチャー内予測(しばしば、イントラ予測と略される)は、所与のピクチャーにおける空間的相関を利用し、ピクチャー間予測は、ピクチャー間の(時間的または他の)相関を利用する。一例では、現在ピクチャーと呼ばれるエンコード/デコード対象の特定のピクチャーは、ブロックに分割される。現在ピクチャー内のブロックが、ビデオにおける、前に符号化され、かつ、まだバッファに入れられている参照ピクチャー内の参照ブロックに類似する場合、現在ピクチャー内のそのブロックは、動きベクトルと呼ばれるベクトルによって符号化できる。動きベクトルは、参照ピクチャー内の参照ブロックをポイントし、複数の参照ピクチャーが使用される場合には、参照ピクチャーを同定する第3の次元を有することができる。
【0093】
いくつかの実施形態において、ピクチャー間予測において双予測技法が使用できる。双予測技法によれば、いずれもビデオにおいて現在ピクチャーよりデコード順で先行する(ただし、表示順では、それぞれ過去および将来であってもよい)第1の参照ピクチャーおよび第2の参照ピクチャーのような2つの参照ピクチャーが使用される。現在ピクチャー内のブロックは、第1の参照ピクチャー内の第1の参照ブロックをポイントする第1動きベクトルと、第2の参照ピクチャー内の第2の参照ブロックをポイントする第2動きベクトルとによって符号化できる。ブロックは、第1の参照ブロックと第2の参照ブロックの組み合わせによって予測できる。
【0094】
さらに、符号化効率を改善するために、ピクチャー間予測においてマージモード技法が使用できる。
【0095】
本開示のいくつかの実施形態によれば、ピクチャー間予測およびピクチャー内予測などの予測は、ブロックの単位で実行される。たとえば、HEVC規格によれば、ビデオ・ピクチャーのシーケンスにおけるピクチャーは、圧縮のために符号化ツリー単位(CTU)に分割され、ピクチャーにおけるそれらのCTUは、64×64ピクセル、32×32ピクセル、または16×16ピクセルなどの同じサイズを有する。一般に、CTUは、1つのルーマCTBおよび2つのクロマCTBである3つの符号化ツリーブロック(CTB)を含む。各CTUは、再帰的に、一つまたは複数の符号化単位(CU)に四分木分割されていくことができる。たとえば、64×64ピクセルのCTUは、64×64ピクセルの1つのCU、または32×32ピクセルの4つのCU、または16×16ピクセルの16個のCUに分割されることができる。一例では、各CUは、インター予測タイプまたはイントラ予測タイプのような、そのCUについての予測タイプを決定するために解析される。CUは時間的および/または空間的予測可能性に依存して、一つまたは複数の予測単位(PU)に分割される。一般に、各PUはルーマ予測ブロック(PB)および2つのクロマPBを含む。ある実施形態では、符号化(エンコード/デコード)における予測動作は、予測ブロックの単位で実行される。予測ブロックの例としてルーマ予測ブロックを用いると、予測ブロックは、8×8ピクセル、16×16ピクセル、8×16ピクセル、16×8ピクセルなど、ピクセルについての値(たとえば、ルーマ値)の行列を含む。
【0096】
本開示のいくつかの側面によれば、隠蔽のため、V-PCC投影アプローチはすべての点を捕捉しないことがあり、V-PCC投影アプローチによって見逃された点は、欠失点(missed point)と呼ばれる。いくつかの例では、欠失点は、典型的には、3D空間内のランダムな位置に属し、高い幾何構成および色の相関を欠く。いくつかの例では、V-PCCは、欠失点を収集し、それぞれ一次元信号である幾何構成信号および色信号のような一次元(1D)信号二つを生成する。さらに、これらの1D信号のそれぞれは、別個の2D画像内に配置され、その後、いくつかの例では、HEVCによって圧縮されることができる。本開示は、それらの1D信号を(HEVCのような)2D圧縮ツールと相性のよい2D画像中に配置するための技法を提供する。
【0097】
提案される諸方法は、別個に、または任意の順序で組み合わされて使用されうる。さらに、方法(または実施形態)、エンコーダ、およびデコーダのそれぞれは、処理回路(たとえば、一つまたは複数のプロセッサ、または一つまたは複数の集積回路)によって実装されてもよい。一例では、前記一つまたは複数のプロセッサは、非一時的なコンピュータ読み取り可能媒体に記憶されたプログラムを実行する。
【0098】
いくつかの例では、パッチ生成後、V-PCCは、3D内の諸パッチからの欠失点を走査し、欠失点の幾何構成および色値を2つの別個の画像に入れる。一例では、それらの欠失点の上にKd木が生成され、それらの欠失点が走査されて、最近傍基準に基づいて諸1D信号が形成される。走査結果は、それぞれ一次元である幾何構成信号および色信号を含む。たとえば、欠失点は、最近傍基準に基づいて、Kd木の走査に従って、ソートされる。幾何構成信号は、ソートされた欠失点についての幾何構成サンプルのシーケンスを含み、色信号は、ソートされた欠失点についての色値のシーケンスを含む。本開示のいくつかの部分では、幾何構成信号が、諸技法の記述の簡単のための例として使用され、幾何構成信号についての開示された技法は、色信号について同様に使用されることができる。
【0099】
図7は、1Dの幾何構成信号の2次元(2D)画像への配置(700)を示す図である。
図7の例では、正方形は、欠失点についての画像(幾何構成画像またはテクスチャー画像のいずれか)のピクセルを表わす。サンプル(欠失点に対応)は、行の先頭から始まって末尾まで、各行に入れられる。連続する行の間には、ジャンプ(隣接するサンプル間の比較的大きな距離)がある。
【0100】
具体的には、
図7の例では、幾何構成信号は、矢印線(710)、(720)、(730)、(740)、(750)、(760)、(770)および(780)の順序に従って2D画像中に配置される。具体的には、矢印線(710)は、幾何構成信号における最初の12個の幾何構成サンプルの、2D画像のピクセルの第1行への、左から右への配置を示し;矢印線(720)は、幾何構成信号における第2の12個の幾何構成サンプルの、2D画像のピクセルの第2行への、左から右への配置を示し;矢印線(730)は、幾何構成信号における第3の12個の幾何構成サンプルの、2D画像のピクセルの第3行への、左から右への配置を示し;矢印線(740)は、幾何構成信号における第4の12個の幾何構成サンプルの、2D画像のピクセルの第4行への、左から右への配置を示し;矢印線(750)は、幾何構成信号における第5の12個の幾何構成サンプルの、2D画像のピクセルの第5行への、左から右への配置を示し;矢印線(760)は、幾何構成信号における第6の12個の幾何構成サンプルの、2D画像のピクセルの第6行への、左から右への配置を示し;矢印線(770)は、幾何構成信号における第7の12個の幾何構成サンプルの、2D画像のピクセルの第7行への、左から右への配置を示し;矢印線(780)は、幾何構成信号における第8の12個の幾何構成サンプルの、2D画像のピクセルの第8行への、左から右への配置を示す。
【0101】
図7の例では、矢印線(710)、(720)、(730)、(740)、(750)、(760)、(770)および(780)は、幾何構成信号内に幾何構成サンプルを配置するための水平走査順序に対応する。矢印線(710)、(720)、(730)、(740)、(750)、(760)、(770)、および(780)はすべて左から右である。1D幾何構成信号内の隣接する幾何構成サンプルが同じ行内のピクセルに配置される場合は、ピクセルの水平差は1である。しかしながら、1D幾何構成信号内の隣接する幾何構成サンプルが、異なる行内のピクセルに配置される場合は、それらのピクセルは、有意な水平差(たとえば、1より大きい)をもつ。たとえば、1D幾何構成信号における第12の幾何構成サンプルは、第1の行における最後のピクセルに配置され、1D幾何構成信号における第13の幾何構成サンプルは、第2の行の最初のピクセルに配置され、2つのピクセルの水平差は11である(11の水平ジャンプとも呼ばれる)。
図7の順序は、ジャンプ水平ラスタ走査順序(jumpy horizontal raster scan order)と呼ばれる。具体的には、
図7の順序は、破線として示される7つの幅11のジャンプを有する。
【0102】
図7の2D画像は8つの行を有し、各行は12のピクセルを有するが、この技法は、任意の好適な数の行および各行における任意の好適な数のピクセルの2D画像において使用できることに留意されたい。
【0103】
本開示のいくつかの側面によれば、幾何構成(色)信号における隣接する値は、近傍の欠失点の幾何構成サンプルに対応しうるので、近い可能性がある。よって、1D信号の隣接する値を2D画像の近傍領域に配置することは、近傍領域内のピクセルについて同様の値を与えることがあり、損失のない場合でも損失のある場合でも、2D画像符号化効率の改善をもたらすことができる。
【0104】
図8は、1Dの幾何構成信号の2次元(2D)画像への配置(800)を示す図である。
図8の例では、正方形は、欠失点についての画像(幾何構成画像またはテクスチャー画像のいずれか)のピクセルを表わす。連続する行の間のジャンプは最小であり、相関するサンプルは互いに近くに保持される。一般に、配置が、1D信号内の任意の2つの連続するサンプルを、2D画像内の2つの隣接する単位(たとえば、ピクセル、ブロックなど)に割り当てる場合、その配置は、非ジャンプ走査(non-jumpy scan)と呼ばれる。2つの隣接する単位は、単位の同じ行における隣であってもよく、単位の同じ列における隣であってもよい。
【0105】
具体的には、
図8の例では、幾何構成信号は、矢印線(810)、(820)、(830)、(840)、(850)、(860)、(870)および(880)の順序に従って2D画像中に配置される。具体的には、矢印線(810)は、幾何構成信号における最初の12個の幾何構成サンプルの、2D画像のピクセルの第1行への、左から右への配置を示し;矢印線(820)は、幾何構成信号における第2の12個の幾何構成サンプルの、2D画像のピクセルの第2行への、右から左への配置を示し;矢印線(830)は、幾何構成信号における第3の12個の幾何構成サンプルの、2D画像のピクセルの第3行への、左から右への配置を示し;矢印線(840)は、幾何構成信号における第4の12個の幾何構成サンプルの、2D画像のピクセルの第4行への、右から左への配置を示し;矢印線(850)は、幾何構成信号における第5の12個の幾何構成サンプルの、2D画像のピクセルの第5行への、左から右への配置を示し;矢印線(860)は、幾何構成信号における第6の12個の幾何構成サンプルの、2D画像のピクセルの第6行への、右から左への配置を示し;矢印線(870)は、幾何構成信号における第7の12個の幾何構成サンプルの、2D画像のピクセルの第7行への、左から右への配置を示し;矢印線(880)は、幾何構成信号における第8の12個の幾何構成サンプルの、2D画像のピクセルの第8行への、右から左への配置を示す。
【0106】
図8の例では、矢印線(810)、(820)、(830)、(840)、(850)、(860)、(870)、および(880)は、幾何構成信号内に幾何構成サンプルを配置するための水平走査順序に対応する。矢印線(810)、(820)、(830)、(840)、(850)、(860)、(870)および(880)は、走査方向を交互にする。
図8の例では、1D幾何構成信号内の隣接する幾何構成サンプルは、水平の隣どうしまたは垂直の隣どうしとして2D画像内のピクセルに配置される。1D幾何構成信号内の隣接する幾何構成サンプルが同じ行内のピクセルに配置される場合、隣接する幾何構成サンプルは水平方向の隣であり、ピクセルの水平差は1である。1D幾何構成信号内の隣接する幾何構成サンプルが異なる行のピクセルに配置される場合、それらのピクセルは同じ水平値をもち、垂直差は1であり、垂直方向の隣である。たとえば、1D幾何構成信号における第12の幾何構成サンプルは、第1の行における最後のピクセルに配置され、1D幾何構成信号における第13の幾何構成サンプルは、第2の行における最後のピクセルに配置され、2つのピクセルの水平差は0であり、2つのピクセルの垂直差は1である。
図8における順序は、非ジャンプ水平ラスタ走査順序(non-jumpy horizontal raster scan order)と呼ばれる。
【0107】
図8の2D画像は8つの行を有し、各行は12のピクセルを有するが、この技法は、任意の好適な数の行および各行における任意の好適な数のピクセルの2D画像において使用できることに留意されたい。
【0108】
本開示のある側面によれば、非ジャンプ水平ラスタ走査順序を用いて、3D空間内の(3D内でより近接している)より相関しているサンプルが、2D画像内のより近接したピクセル内に配置される。この配置は、ビデオ圧縮コーデックにおいて採用される予測ツールのパフォーマンスを改善できる。
【0109】
図9は、2次元(2D)画像への1Dの幾何構成信号の配置(900)を示す図を示している。
図9の例では、正方形は、欠失点についての画像(幾何構成画像またはテクスチャー画像のいずれか)のピクセルを表わす。この例では、画像はサイズ4×4のブロックに分割されている。これらのブロックは、非ジャンプ走査順序で走査される。さらに、各ブロック内で、サンプルが非ジャンプ走査順序で走査される。
【0110】
図9の例では、2D画像は正方形のブロックに分割されている。1D幾何構成信号のサンプルは、ブロックの非ジャンプ水平ラスタ順序でブロックに配置される。さらに、各ブロック内で、サンプルは、非ジャンプ水平ラスタ走査順序に従ってピクセル上に配置される。
【0111】
具体的には、2D画像はブロック(910)、(920)、(930)、(940)、(950)および(960)に分割され、各ブロックは4×4ピクセルを有する。幾何構成信号におけるサンプルは、ブロック(910)、ブロック(920)、ブロック(930)、ブロック(940)、ブロック(950)、およびブロック(960)の順にブロックに配置される。ブロック(910)内では、幾何構成信号のサンプルは、たとえば矢印線(911)、(912)、(913)および(914)によって示されるように、非ジャンプ水平ラスタ走査順序に従って配置される。ブロック(920)内では、幾何構成信号のサンプルは、たとえば矢印線(921)、(922)、(923)および(924)によって示されるように、非ジャンプ水平ラスタ走査順序に従って配置される。ブロック(930)内では、幾何構成信号のサンプルは、たとえば矢印線(931)、(932)、(933)および(934)によって示されるように、非ジャンプ水平ラスタ走査順序に従って配置される。ブロック(940)内では、幾何構成信号のサンプルは、たとえば矢印線(941)、(942)、(943)および(944)によって示されるように、非ジャンプ水平ラスタ走査順序に従って配置される。ブロック(950)内では、幾何構成信号のサンプルは、たとえば矢印線(951)、(952)、(953)および(954)によって示されるように、非ジャンプ水平ラスタ走査順序に従って配置される。ブロック(960)内では、幾何構成信号のサンプルは、たとえば矢印線(961)、(962)、(963)および(964)によって示されるように、非ジャンプ水平ラスタ走査順序に従って配置される。
【0112】
図9の例では、2D画像は4×4ブロックに分割されているが、他の好適なN×Nブロック(たとえば、64×64、32×32など)を使用できることに留意されたい。
図9に示される非ジャンプ走査順序は、ブロックベースの非ジャンプ水平ラスタ走査順序と呼ばれる。
【0113】
図7~
図9に示されている走査順序は、エンコーダ側では、欠失点についての画像を形成するために使用でき、デコーダ側では、符号化ビットストリームから欠失点をデコードするために使用できることに留意されたい。
【0114】
いくつかの実施形態では、欠失点についてのサンプルの配置は、柔軟であることができ、コーデックに依存しない。たとえば、2D用の圧縮ツールは、符号化単位(CU)のような領域ごとに動作する。一例では、(欠失点に対応する)連続するサンプルの集合が、あるCU内に配置される。さらに、領域(たとえば、CU)内の(欠失点に対応する)サンプルは、3Dにおいてより近いサンプルが2Dにおいて近傍位置に置かれるように配置される。この配置は、エンコーダ側からデコーダ側へ(たとえば、符号化ビットストリーム内のフラグによって)信号伝達されることができる。
【0115】
いくつかの実施形態では、一つまたは複数のフラグが使用できる。一例では、non_jumpy_raster_scan_present_flagが、非ジャンプ・ラスタ走査が使用されるか否かを示すために使用される。たとえば、non_jumpy_raster_scan_present_flagが真であるときに、非ジャンプ・ラスタ走査が使用されてもよく;non_jumpy_raster_scan_present_flagが偽であるときは、非ジャンプ・ラスタ走査は使用されない。さらに、block_based_scan_present_flagは、走査のために画像がブロックに分割されるか否かを示すために使用される。たとえば、block_based_scan_present_flagが真であるときに、画像は走査のためにブロックに分割され、block_based_scan_present_flagが偽であるときは、画像は走査のためにブロックに分割されない。さらに、non_jumpy_raster_scanは、非ジャンプ・ラスタ走査が有効にされるか否かを示すために使用される。たとえば、non_jumpy_raster_scanが真であるときに、非ジャンプ・ラスタ走査が有効にされ、non_jumpy_raster_scanが偽であるときは、非ジャンプ・ラスタ走査は無効にされる。さらに、ある実施形態では、非ジャンプ走査に関連する他の好適な情報が符号化ビットストリームに含められることができる。たとえば、block_sizeが、ブロックベースの非ジャンプ・ラスタ走査のためのブロックのサイズを示すために使用される。block_sizeの値は一例では[0,216-1]の範囲である。
【0116】
図10は、本開示のいくつかの実施形態によるシンタックス例を示す。
図10の例では、柔軟な欠失点走査が有効にされている場合(たとえば、flexible_missed_points_scan_enabled_flagが真である場合)、2つのフラグnon_jumpy_raster_scan_present_flagおよびblock_based_scan_present_flagが符号化〔コーディング〕される(エンコーダ側でエンコードされる、またはデコーダ側でデコードされる)。non_jumpy_raster_scan_present_flagが真であるとき、non_jumpy_raster_scanが符号化される(エンコーダ側でエンコードされる、またはデコーダ側でデコードされる)。block_based_scan_present_flagが真である場合、block_sizeが符号化される(エンコーダ側でエンコードされる、またはデコーダ側でデコードされる)。
【0117】
一例では、デコーダ側では、non_jumpy_raster_scanが真であるとき、デコーダは、
図8の走査順序に従って、欠失点についての画像をデコードすることができる。block_based_scan_present_flagが真であるとき、デコーダはblock_sizeをデコードし、
図9の順序に従ってサンプルを走査する。
【0118】
図11は、本開示のある実施形態によるプロセス(1100)の概要を示すフローチャートを示す。プロセス(1100)は、点群をエンコードするためのエンコード・プロセス中に使用できる。さまざまな実施形態では、プロセス(1100)は、端末装置(110)の処理回路、エンコーダ(203)の機能を実行する処理回路、エンコーダ(300)の機能を実行する処理回路などの処理回路によって実行される。いくつかの実施形態では、プロセス(1100)は、ソフトウェア命令で実装され、よって、処理回路が該ソフトウェア命令を実行するときに、処理回路はプロセス(1100)を実行する。プロセスは(S1101)で始まり、(S1110)に進む。
【0119】
(S1110)では、欠失点が決定される。いくつかの例では、パッチ生成後、3D点群におけるパッチからの欠失点が決定される。
【0120】
(S1120)では、欠失点に関連するピクセルを有する画像が形成される。欠失点は2D画像中に好適に配置される。2D画像中の2つの欠失点の位置間の2次元距離は、点群中の2つの欠失点間の3D距離に基づいて決定される。いくつかの例では、欠失点の幾何構成および色値が、2つの別個の画像に入れられる。一例では、それらの欠失点に対してKd木が生成され、欠失点が走査されて、最近傍基準に基づいて1D信号が形成される。走査結果は、それぞれ一次元である幾何構成信号および色信号を含む。たとえば、欠失点は、最近傍基準に基づいて、Kd木の走査に従って、ソートされる。幾何構成信号は、ソートされた欠失点についての幾何構成サンプルのシーケンスを含み、色信号は、ソートされた欠失点についての色値のシーケンスを含む。1D信号内のサンプルは、
図8および
図9に示される走査順序などの走査順序に従って、幾何構成画像、色画像などの2D画像を形成するように配置される。
【0121】
(S1130)では、画像は、好適な圧縮ツールを用いてエンコードされる。たとえば、幾何構成画像および色画像はそれぞれエンコードされる。
【0122】
(S1140)では、欠失点についてのエンコードされた画像を含む符号化ビットストリームが形成される。いくつかの実施形態では、1D信号を2D画像中に配置する順序を示すフラグが、符号化ビットストリームに含められることができる。次いで、プロセスは(S1199)に進み、終了する。
【0123】
図12は、本開示のある実施形態によるプロセス(1200)の概略を示すフローチャートを示す。プロセス(1200)は、点群を再構成するためのデコード・プロセス中に使用できる。さまざまな実施形態では、プロセス(1200)は、端末装置(120)の処理回路、デコーダ(210)の機能を実行する処理回路、デコーダ(400)の機能を実行する処理回路などの処理回路によって実行される。いくつかの実施形態では、プロセス(1200)はソフトウェア命令で実装され、よって、処理回路が該ソフトウェア命令を実行するときに、処理回路はプロセス(1200)を実行する。プロセスは(S1201)で始まり、(S1210)に進む。
【0124】
(S1210)では、画像の予測情報が、点群に対応する符号化ビットストリームからデコードされる。該予測情報は、画像が点群についてのパッチからの欠失点を含み、欠失点は非ジャンプ走査に従って前記画像において配置されることを示す。ある実施形態では、フラグおよびパラメータは、
図10に示されるシンタックスなどの符号化ビットストリームからデコードされる。フラグは、非ジャンプ走査を示すことができる。
【0125】
(S1220)では、非ジャンプ走査に従って、画像から欠失点が再構成される。一例では、フラグは、
図8に示されるような非ジャンプ水平ラスタ走査順序を示す。その際、画像がデコードされるとき、
図8に示されるような非ジャンプ水平ラスタ走査順序に従って、欠失点が再構成されることができる。別の例では、フラグは、
図9に示されるブロックベースの非ジャンプ水平ラスタ走査順序を示す。その際、画像がデコードされるとき、
図9に示すようなブロックベースの非ジャンプ水平ラスタ走査順序に従って、欠失点が再構成されることができる。その後、プロセスは(S1299)に進み、終了する。
【0126】
上述の技法は、コンピュータ読み取り可能な命令を用いてコンピュータ・ソフトウェアとして実装することができ、一つまたは複数のコンピュータ読み取り可能な媒体に物理的に記憶されることができる。たとえば、
図13は、開示された主題のある種の実施形態を実装するのに好適なコンピュータ・システム(1300)を示す。
【0127】
コンピュータ・ソフトウェアは、任意の好適な機械コードまたはコンピュータ言語を用いてコーディングされることができ、アセンブリ、コンパイル、リンク、または同様の機構の対象とされて、一つまたは複数のコンピュータ中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)などによって、直接的に、またはインタープリット、マイクロコード実行などを通じて実行可能な命令を含むコードを作成することができる。
【0128】
命令は、たとえば、パーソナルコンピュータ、タブレット・コンピュータ、サーバー、スマートフォン、ゲーム装置、モノのインターネット装置等を含むさまざまなタイプのコンピュータまたはそのコンポーネント上で実行されることができる。
【0129】
コンピュータ・システム(1300)について
図13に示されるコンポーネントは、例としての性質であり、本開示の実施形態を実装するコンピュータ・ソフトウェアの使用または機能の範囲に関する制限を示唆することを意図したものではない。コンポーネントの構成も、コンピュータ・システム(1300)の例示的実施形態において示されているコンポーネントの任意の1つまたは組み合わせに関する何らかの依存性または要件を有するものとして解釈されるべきではない。
【0130】
コンピュータ・システム(1300)は、ある種のヒューマン・インターフェース入力装置を含むことができる。そのようなヒューマン・インターフェース入力装置は、たとえば、触覚入力(たとえば、キーストローク、スワイプ、データグローブの動き)、音声入力(たとえば、声、拍手)、視覚入力(たとえば、ジェスチャー)、嗅覚入力(図示せず)を通じた一または複数の人間ユーザーによる入力に応答することができる。また、ヒューマン・インターフェース装置は、音声(たとえば、発話、音楽、周囲の音)、画像(たとえば、スキャンされた画像、スチール画像カメラから得られる写真画像)、ビデオ(たとえば、2次元ビデオ、立体視ビデオを含む3次元ビデオ)のような、人間による意識的入力に必ずしも直接関係しないある種のメディアを捕捉するために使用できる。
【0131】
入力ヒューマン・インターフェース装置は、キーボード(1301)、マウス(1302)、トラックパッド(1303)、タッチスクリーン(1310)、データグローブ(図示せず)、ジョイスティック(1305)、マイクロフォン(1306)、スキャナ(1307)、カメラ(1308)の一つまたは複数(それぞれの一つしか図示していない)を含んでいてもよい。
【0132】
コンピュータ・システム(1300)はまた、ある種のヒューマン・インターフェース出力装置を含んでいてもよい。そのようなヒューマン・インターフェース出力装置は、たとえば、触覚出力、音、光、および臭い/味を通じて、一または複数の人間ユーザーの感覚を刺激するものであってもよい。そのようなヒューマン・インターフェース出力装置は、触覚出力装置(たとえば、タッチスクリーン(1310)、データグローブ(図示せず)、またはジョイスティック(1305)による触覚フィードバック;ただし、入力装置のはたらきをしない触覚フィードバック装置もありうる)、音声出力装置(たとえば、スピーカー(1309)、ヘッドフォン(図示せず))、視覚出力装置(たとえば、CRT画面、LCD画面、プラズマスクリーン、OLED画面を含む画面(1310);それぞれはタッチスクリーン入力機能があってもなくてもよく、それぞれは触覚フィードバック機能があってもなくてもよく、そのうちのいくつかは、2次元の視覚出力または立体視出力のような手段を通じた3次元より高い出力を出力することができてもよい;仮想現実感眼鏡(図示せず)、ホログラフィーディスプレイおよび煙タンク(図示せず))、およびプリンタ(図示せず)を含んでいてもよい。
【0133】
コンピュータ・システム(1300)はまた、人間がアクセス可能な記憶装置および関連する媒体、たとえば、CD/DVDまたは類似の媒体(1321)とともにCD/DVD ROM/RW(1320)を含む光学式媒体、サムドライブ(1322)、取り外し可能なハードドライブまたはソリッドステートドライブ(1323)、テープおよびフロッピーディスクといったレガシー磁気媒体(図示せず)、セキュリティ・ドングルのような特化したROM/ASIC/PLDベースの装置(図示せず)などを含むことができる。
【0134】
当業者はまた、現在開示されている主題に関連して使用される用語「コンピュータ読み取り可能な媒体」は、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解すべきである。
【0135】
コンピュータ・システム(1300)はまた、一つまたは複数の通信ネットワークへのインターフェースを含むことができる。ネットワークは、たとえば、無線、有線、光学式でありうる。ネットワークは、さらに、ローカル、広域、都市圏、車載および工業用、リアルタイム、遅延耐性などでありうる。ネットワークの例は、イーサネット〔登録商標〕、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラー・ネットワーク、ケーブルテレビ、衛星テレビ、地上放送テレビを含むTV有線または無線の広域デジタルネットワーク、CANBusを含む車載および工業用などを含む。ある種のネットワークは、普通、ある種の汎用データ・ポートまたは周辺バス(1349)(たとえば、コンピュータ・システム(1300)のUSBポートなど)に取り付けられる外部ネットワーク・インターフェース・アダプターを必要とする。他は、普通、後述するようなシステム・バスへの取り付けによって、コンピュータ・システム(1300)のコアに統合される(たとえば、PCコンピュータ・システムへのイーサネット・インターフェースまたはスマートフォン・コンピュータ・システムへのセルラー・ネットワーク・インターフェース)。これらのネットワークのいずれかを使用して、コンピュータ・システム(1300)は、他のエンティティと通信することができる。そのような通信は、一方向性、受信のみ(たとえば、放送テレビ)、一方向性送信専用(たとえば、ある種のCANbus装置へのCANbus)、または、たとえば、ローカルまたは広域デジタルネットワークを使用する他のコンピュータ・システムへの双方向性であってもよい。上述のようなそれらのネットワークおよびネットワークインターフェースのそれぞれで、ある種のプロトコルおよびプロトコルスタックが使用できる。
【0136】
前述のヒューマン・インターフェース装置、人間がアクセス可能な記憶装置、およびネットワークインターフェースは、コンピュータ・システム(1300)のコア(1340)に取り付けることができる。
【0137】
コア(1340)は、一つまたは複数の中央処理装置(CPU)(1341)、グラフィックス処理装置(GPU)(1342)、フィールドプログラマブルゲートアレイ(FPGA)(1343)の形の特化したプログラマブル処理装置、ある種のタスクのためのハードウェアアクセラレータ(1344)などを含むことができる。これらの装置は、読み出し専用メモリ(ROM)(1345)、ランダムアクセスメモリ(1346)、内部のユーザー・アクセス可能でないハードドライブ、SSDなどの内部大容量記憶装置(1347)とともに、システム・バス(1348)を通じて接続されうる。いくつかのコンピュータ・システムでは、追加のCPU、GPUなどによる拡張を可能にするために、システム・バス(1348)は、一つまたは複数の物理プラグの形でアクセス可能であってもよい。周辺装置は、コアのシステム・バス(1348)に直接取り付けられることも、周辺バス(1349)を通じて取り付けられることもできる。周辺バスのためのアーキテクチャーは、PCI、USBなどを含む。
【0138】
CPU(1341)、GPU(1342)、FPGA(1343)、およびアクセラレータ(1344)は、組み合わせて上述のコンピュータコードを構成することができるある種の命令を、実行することができる。そのコンピュータコードは、ROM(1345)またはRAM(1346)に記憶できる。一時的データも、RAM(1346)に記憶されることができ、一方、持続的データは、たとえば、内部大容量記憶装置(1347)に記憶されることができる。一つまたは複数のCPU(1341)、GPU(1342)、大容量記憶装置(1347)、ROM(1345)、RAM(1346)などと密接に関連付けることができるキャッシュメモリを使用することを通じて、メモリデバイスのいずれかへの高速な記憶および取り出しを可能にすることができる。
【0139】
コンピュータ読み取り可能な媒体は、さまざまなコンピュータ実装された動作を実行するためのコンピュータコードをその上に有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってもよく、または、コンピュータ・ソフトウェア分野の技術を有する者に周知であり利用可能な種類のものであってもよい。
【0140】
限定ではなく一例として、アーキテクチャー(1300)を有するコンピュータ・システム、特定的にはコア(1340)は、プロセッサ(CPU、GPU、FPGA、アクセラレータ等を含む)が一つまたは複数の有形のコンピュータ読み取り可能媒体に具現されたソフトウェアを実行することの結果として、機能性を提供することができる。そのようなコンピュータ読み取り可能媒体は、上記で紹介したようなユーザー・アクセス可能な大容量記憶ならびにコア内部の大容量記憶装置(1347)またはROM(1345)のような非一時的な性質のコア(1340)のある種の記憶に関連する媒体であることができる。本開示のさまざまな実施形態を実装するソフトウェアは、そのような装置に記憶され、コア(1340)によって実行されることができる。コンピュータ読み取り可能媒体は、特定のニーズに応じて、一つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、RAM(1346)に記憶されたデータ構造を定義し、ソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含む、本明細書に記載された特定のプロセスまたは特定のプロセスの特定部分を、コア(1340)および具体的にはその中のプロセッサ(CPU、GPU、FPGAなどを含む)に実行させることができる。追加的または代替的に、コンピュータ・システムは、回路(たとえば、アクセラレータ(1344))内に配線された、または他の仕方で具現された論理の結果として機能性を提供することができ、これは、本明細書に記載される特定のプロセスまたは特定のプロセスの特定部分を実行するためのソフトウェアの代わりに、またはそれと一緒に動作することができる。ソフトウェアへの言及は、論理を含み、適宜その逆も可能である。コンピュータ読み取り可能媒体への言及は、適宜、実行のためのソフトウェアを記憶する回路(たとえば集積回路(IC))、実行のための論理を具現する回路、またはその両方を包含することができる。本開示は、ハードウェアおよびソフトウェアの任意の好適な組み合わせを包含する。
付録A:頭字語
JEM:joint exploration model(合同探査モデル)
VVC:versatile video coding(多用途ビデオ符号化)
BMS:benchmark set(ベンチマークセット)
MV:Motion Vector(動きベクトル)
HEVC:High Efficiency Video Coding(高効率ビデオ符号化)
SEI:Supplementary Enhancement Information(補足向上情報)
VUI:Video Usability Information(ビデオユーザービリティ情報)
GOP:Group of Pictures(ピクチャーグループ)
TU:Transform Unit(変換単位)
PU:Prediction Unit(予測単位)
CTU:Coding Tree Units(符号化ツリー単位)
CTB:Coding Tree Block(符号化ツリーブロック)
PB:Prediction Block(予測ブロック)
HRD:Hypothetical Reference Decoder(仮設参照デコーダ)
SNR:Signal Noise Ratio(信号雑音比)
CPU:Central Processing Unit(中央処理装置)
GPU:Graphics Processing Unit(グラフィックス処理ユニット)
CRT:Cathode Ray Tube(陰極線管)
LCD:Liquid-Crystal Display(液晶ディスプレイ)
OLED:Organic Light-Emitting Diode(有機発光ダイオード)
CD:Compact Disc(コンパクトディスク)
DVD:Digital Video Disc(デジタルビデオディスク)
ROM:Read-Only Memory(読み出し専用メモリ)
RAM:Random Access Memory(ランダムアクセスメモリ)
ASIC:Application-Specific Integrated Circuit(特定用途向け集積回路)
PLD:Programmable Logic Device(プログラマブルロジックデバイス)
LAN:Local Area Network(ローカルエリアネットワーク)
GSM:Global System for Mobile communications(グローバル移動通信システム)
LTE:Long-Term Evolution(ロングタームエボリューション)
CANBus:Controller Area Network Bus(コントローラエリアネットワークバス)
USB:Universal Serial Bus(ユニバーサルシリアルバス)
PCI:Peripheral Component Interconnect(ペリフェラルコンポーネント相互接続)
FPGA:Field Programmable Gate Area(フィールド・プログラマブル・ゲートエリア)
SSD:solid-state drive(ソリッドステートドライブ)
IC:Integrated Circuit(集積回路)
CU:Coding Unit(符号化単位)
【0141】
本開示は、いくつかの例示的実施形態を記載してきたが、変更、置換、およびさまざまな代替等価物があり、それらは本開示の範囲内にはいる。よって、当業者は、本明細書に明示的に示されていないかまたは記載されていないが、本開示の原理を具現し、よって、本開示の精神および範囲内にある多くのシステムおよび方法を考案することができることが理解されるであろう。