(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-21
(54)【発明の名称】補足エンハンスメント情報の拡張シグナリング
(51)【国際特許分類】
H04N 19/70 20140101AFI20240614BHJP
【FI】
H04N19/70
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023580377
(86)(22)【出願日】2022-06-27
(85)【翻訳文提出日】2024-01-05
(86)【国際出願番号】 CN2022101411
(87)【国際公開番号】W WO2023274111
(87)【国際公開日】2023-01-05
(31)【優先権主張番号】PCT/CN2021/102636
(32)【優先日】2021-06-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520476341
【氏名又は名称】北京字節跳動網絡技術有限公司
【氏名又は名称原語表記】Beijing Bytedance Network Technology Co., Ltd.
【住所又は居所原語表記】Room B-0035, 2/F, No.3 Building, No.30, Shixing Road, Shijingshan District Beijing 100041 China
(71)【出願人】
【識別番号】520477474
【氏名又は名称】バイトダンス インコーポレイテッド
【氏名又は名称原語表記】BYTEDANCE INC.
【住所又は居所原語表記】12655 West Jefferson Boulevard, Sixth Floor, Suite No. 137 Los Angeles, California 90066 United States of America
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ワン,イェ-クイ
(72)【発明者】
【氏名】ワン,ヤン
(72)【発明者】
【氏名】ザン,リー
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159RC11
(57)【要約】
ビデオデータを処理するための機構が開示される。i番目のARオブジェクトインデックス(ar_object_label_idx[ar_object_idx[i]])シンタックス要素の注釈付き領域(AR)オブジェクトラベルインデックスの値が決定される。ar_object_label_idx[ar_object_idx[i]]シンタックス要素は、N~Mの範囲内にあるように指定され、ここで、NおよびMは整数であり、NはMよりも小さい。ar_object_label_idx[ar_object_idx[i]]シンタックス要素に基づいてビジュアルメディアデータとビットストリームとの間の変換が実行される。
【特許請求の範囲】
【請求項1】
ビデオデータを処理するための方法であって、
N~Mの範囲内にあるように指定されたi番目のARオブジェクトインデックス(ar_object_label_idx[ar_object_idx[i]])シンタックス要素の注釈付き領域(AR)オブジェクトラベルインデックスの値を決定するステップであって、NおよびMは整数であり、NはMよりも小さい、ステップと、
前記ar_object_label_idx[ar_object_idx[i]]シンタックス要素に基づいて、ビジュアルメディアデータとビットストリームとの間の変換を実行するステップと
を含む方法。
【請求項2】
Nは0であり、Mは3、7、15、31、63、または255である、請求項1に記載の方法。
【請求項3】
前記N~Mの範囲は両端値を含む、請求項1または2に記載の方法。
【請求項4】
A~Bの範囲内にあるように指定された深度表現タイプ(depth_representation_type)シンタックス要素の値を決定するステップであって、AおよびBは整数であり、AはBよりも小さい、ステップをさらに含み、請求項1から3のいずれか一項に記載の方法。
【請求項5】
Aは0であり、Bは3、7、15、31、63、127、または255である、請求項1から4のいずれかに記載の方法。
【請求項6】
前記A~Bの範囲は両端値を含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
C~Dの範囲内にあるように指定されたi番目の深度非線形表現モデル(depth_nonlinear_representation_model[i])シンタックス要素の値を決定するステップであって、CおよびDは整数であり、CはDよりも小さい、ステップをさらに含む、請求項1から6のいずれか一項に記載の方法。
【請求項8】
Cは0であり、Dは6、14、30、62、126、または254である、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記C~Dの範囲は両端値を含む、請求項1から8のいずれか一項に記載の方法。
【請求項10】
E~Fの範囲内にあるように指定された視差参照ビュー識別子(disparity_ref_view_id)シンタックス要素の値を決定するステップであって、EおよびFは整数であり、EはFよりも小さい、ステップをさらに含む、請求項1から9のいずれか一項に記載の方法。
【請求項11】
Eは0であり、Fは63、127、255、511、1023、2047、4095、8191、16383、32767、または65535である、請求項1から10のいずれか一項に記載の方法。
【請求項12】
前記E~Fの範囲は両端値を含む、請求項1から11のいずれか一項に記載の方法。
【請求項13】
ar_object_label_idx[ar_object_idx[i]]シンタックス要素は、注釈付き領域(AR)補足エンハンスメント情報(SEI)メッセージに含まれる、請求項1から12のいずれか一項に記載の方法。
【請求項14】
前記depth_representation_typeシンタックス要素は、深度表現情報(DRI)SEIメッセージに含まれる、請求項1から13のいずれか一項に記載の方法。
【請求項15】
前記depth_nonlinear_representation_model[i]シンタックス要素は、前記DRI SEIメッセージに含まれる、請求項1から14のいずれか一項に記載の方法。
【請求項16】
前記disparity_ref_view_idシンタックス要素は、前記DRI SEIメッセージに含まれる、請求項1から15のいずれか一項に記載の方法。
【請求項17】
前記変換は、前記ビジュアルメディアデータを前記ビットストリームに符号化することを含む、請求項1から16のいずれか一項に記載の方法。
【請求項18】
前記変換は、前記ビジュアルメディアデータを取得するために前記ビットストリームを復号することを含む、請求項1から17のいずれか一項に記載の方法。
【請求項19】
ビデオデータを処理するための装置であって、プロセッサと、命令を有する非一時的メモリとを備え、前記命令が、前記プロセッサによって実行されると、前記プロセッサに、請求項1から18のいずれかに記載の方法を実行させる、装置。
【請求項20】
ビデオコーディングデバイスによって使用するためのコンピュータプログラム製品を備える非一時的コンピュータ可読媒体であって、前記コンピュータプログラム製品は、プロセッサによって実行されたとき、前記ビデオコーディングデバイスに、請求項1から18のいずれかに記載の方法を実行させるように、前記非一時的コンピュータ可読媒体に記憶されたコンピュータ実行可能命令を備える、非一時的コンピュータ可読媒体。
【請求項21】
ビデオ処理装置によって実行される方法によって生成されるビデオのビットストリームを記憶する非一時的コンピュータ可読記録媒体であって、前記方法は、
N~Mの範囲内にあるように指定されたi番目のARオブジェクトインデックス(ar_object_label_idx[ar_object_idx[i]])シンタックス要素の注釈付き領域(AR)オブジェクトラベルインデックスの値を決定するステップであって、NおよびMは整数であり、NはMよりも小さい、ステップと、
前記決定するステップに基づいてビットストリームを生成するステップと
を含む、非一時的コンピュータ可読記録媒体。
【請求項22】
ビデオのビットストリームを記憶するための方法であって、
N~Mの範囲内にあるように指定されたi番目のARオブジェクトインデックス(ar_object_label_idx[ar_object_idx[i]])シンタックス要素の注釈付き領域(AR)オブジェクトラベルインデックスの値を決定するステップであって、NおよびMは整数であり、NはMよりも小さい、ステップと、
前記決定するステップに基づいてビットストリームを生成するステップと、
前記ビットストリームを非一時的コンピュータ可読記録媒体に記憶するステップと
を含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願への相互参照]
本特許出願は、Ye-Kui Wangらによって2021年6月28日に出願された、「Signalling of Supplemental Enhancement Information」と題する国際出願第PCT/CN2021/102636号の利益を主張するものであり、これは、参照により本明細書に組み込まれる。
【0002】
[技術分野]
本特許文書は、ファイル形式におけるデジタルオーディオビデオメディア情報の生成、記憶、および消費に関する。
【背景技術】
【0003】
デジタルビデオは、インターネットおよび他のデジタル通信ネットワーク上で使用される帯域幅が最大である。ビデオを受信および表示することが可能な接続されたユーザデバイスの数が増加するにつれて、デジタルビデオ使用に対する帯域幅需要は、増加し続ける可能性が高い。
【発明の概要】
【0004】
第1の態様は、N~Mの範囲内にあるように指定されたi番目のARオブジェクトインデックス(ar_object_label_idx[ar_object_idx[i]])シンタックス要素の注釈付き領域(AR)オブジェクトラベルインデックスの値を決定するステップであって、NおよびMは整数であり、NはMよりも小さい、ステップと、ar_object_label_idx[ar_object_idx[i]]シンタックス要素に基づいて、ビジュアルメディアデータとビットストリームとの間の変換を実行するステップとを含む、ビデオデータを処理するための方法に関する。
【0005】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、Nが0であり、Mが3、7、15、31、63、または255であることを提供する。
【0006】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、N~Mの範囲が両端値を含むことを提供する。
【0007】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、A~Bの範囲内にあるように指定された深度表現タイプ(depth_representation_type)シンタックス要素の値を決定するステップであって、AおよびBは整数であり、AはBよりも小さい、ステップを提供する。
【0008】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、Aが0であり、Bが3、7、15、31、63、127、または255であることを提供する。
【0009】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、A~Bの範囲が両端値を含むことを提供する。
【0010】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、C~Dの範囲内にあるように指定されたi番目の深度非線形表現モデル(depth_nonlinear_representation_model[i])シンタックス要素の値を決定するステップであって、CおよびDは整数であり、CはDよりも小さい、ステップを提供する。
【0011】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、Cが0であり、Dが6、14、30、62、126、または254であることを提供する。
【0012】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、C~Dの範囲が両端値を含むことを提供する。
【0013】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、E~Fの範囲内にあるように指定された視差参照ビュー識別子(disparity_ref_view_id)シンタックス要素の値を決定するステップであって、EおよびFは整数であり、EはFよりも小さい、ステップを提供する。
【0014】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、Eが0であり、Fが63、127、255、511、1023、2047、4095、8191、16383、32767、または65535であることを提供する。
【0015】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、E~Fの範囲が両端値を含むことを提供する。
【0016】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、ar_object_label_idx[ar_object_idx[i]]シンタックス要素が、注釈付き領域(AR)補足エンハンスメント情報(SEI)メッセージに含まれることを提供する。
【0017】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、depth_representation_typeシンタックス要素が、深度表現情報(DRI)SEIメッセージに含まれることを提供する。
【0018】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、depth_nonlinear_representation_model[i]シンタックス要素が、DRI SEIメッセージに含まれることを提供する。
【0019】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、disparity_ref_view_idシンタックス要素が、DRI SEIメッセージに含まれることを提供する。
【0020】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、変換が、ビジュアルメディアデータをビットストリームに符号化することを含むことを提供する。
【0021】
任意選択で、前述の態様のいずれかにおいて、態様の別の実装形態は、変換が、ビジュアルメディアデータを取得するためにビットストリームを復号することを含むことを提供する。
【0022】
第2の態様は、プロセッサと、命令を有する非一時的メモリとを備える、ビデオデータを処理するための装置に関し、命令は、プロセッサによって実行されると、プロセッサに、前述の態様のいずれかの方法を実行させる。
【0023】
第3の態様は、ビデオコーディングデバイスによって使用するためのコンピュータプログラム製品を備える非一時的コンピュータ可読媒体に関し、コンピュータプログラム製品は、プロセッサによって実行されたとき、ビデオコーディングデバイスに、前述の態様のいずれかの方法を実行させるように、非一時的コンピュータ可読媒体に記憶されたコンピュータ実行可能命令を備える。
【0024】
第4の態様は、ビデオ処理装置によって実行される方法によって生成されるビデオのビットストリームを記憶する非一時的コンピュータ可読記録媒体に関し、方法は、N~Mの範囲内にあるように指定されたi番目のARオブジェクトインデックス(ar_object_label_idx[ar_object_idx[i]])シンタックス要素の注釈付き領域(AR)オブジェクトラベルインデックスの値を決定するステップであって、NおよびMは整数であり、NはMよりも小さい、ステップと、決定するステップに基づいてビットストリームを生成するステップとを含む。
【0025】
第5の態様は、N~Mの範囲内にあるように指定されたi番目のARオブジェクトインデックス(ar_object_label_idx[ar_object_idx[i]])シンタックス要素の注釈付き領域(AR)オブジェクトラベルインデックスの値を決定するステップであって、NおよびMは整数であり、NはMよりも小さい、ステップと、決定するステップに基づいてビットストリームを生成するステップと、ビットストリームを非一時的コンピュータ可読記録媒体に記憶するステップとを含む、ビデオのビットストリームを記憶するための方法に関する。
【0026】
明確にするために、前述の実施形態のいずれか1つを他の前述の実施形態のいずれか1つまたは複数と組み合わせて、本開示の範囲内の新しい実施形態を作成すし得る。
【0027】
これらおよび他の特徴は、添付の図面および特許請求の範囲と併せて、以下の詳細な説明からより明確に理解されるであろう。
【図面の簡単な説明】
【0028】
本開示のより完全な理解のために、ここで、添付の図面および詳細な説明に関連して、以下の簡単な説明が参照され、同様の参照番号は、同様の部分を表す。
【
図1】例示的なビットストリームを示す概略図である。
【
図2】例示的なビデオ処理システムを示すブロック図である。
【
図3】例示的なビデオ処理装置のブロック図である。
【
図4】ビデオ処理の例示的な方法のフローチャートである。
【
図5】例示的なビデオコーディングシステムを示すブロック図である。
【
図6】例示的なエンコーダを示すブロック図である。
【発明を実施するための形態】
【0029】
最初に、1つまたは複数の実施形態の例示的な実装形態が以下に提供されるが、開示されるシステムおよび/または方法は、現在知られているかまたはまだ開発されていないかにかかわらず、任意の数の技法を使用して実装され得ることを理解されたい。本開示は、本明細書で図示および説明される例示的な設計および実装形態を含む、以下に示される例示的な実装形態、図面、および技法に決して限定されるべきではなく、添付の特許請求の範囲ならびにそれらの同等物の全範囲内で修正され得る。
【0030】
本特許文書は、画像および/またはビデオコーディング技術に関する。具体的には、本文書は、補足エンハンスメント情報(SEI)メッセージ中の注釈付き領域、深度表現情報、および拡張依存ランダムアクセスポイント(EDRAP)指示のシグナリングに関する。これらの例は、汎用ビデオコーディング(VVC)規格およびコード化ビデオビットストリームのための汎用SEIメッセージ(VSEI)規格など、任意のコーデックによってコーディングされたビデオビットストリームに対して、個々にまたは様々な組合せで適用され得る。
【0031】
本開示は、以下の略語を含む。アルファチャネル情報(ACI)、適応パラメータセット(APS)、アクセスユニット(AU)、コード化レイヤビデオシーケンス(CLVS)、コード化レイヤビデオシーケンス開始(CLVSS)、巡回冗長検査(CRC)、色変換情報(CTI)、コード化ビデオシーケンス(CVS)、依存ランダムアクセスポイント(DRAP)、深度表現情報(DRI)、拡張依存ランダムアクセスポイント(EDRAP)、有限インパルス応答(FIR)、イントラランダムアクセスポイント(IRAP)、マルチビュー取得情報(MAI)、ネットワーク抽象化レイヤ(NAL)、ピクチャパラメータセット(PPS)、ピクチャユニット(PU)、ランダムアクセススキップリーディング(RASL)、領域別パッキング(RWP)、サンプルアスペクト比(SAR)、サンプルアスペクト比(SAR)、サンプルアスペクト比情報(SARI)、スケーラビリティ次元情報(SDI)、補足エンハンスメント情報(SEI)、ステップワイズ時間サブレイヤアクセス(STSA)、ビデオコーディングレイヤ(VCL)、Rec.ITU-T H.274|ISO/IEC 23002-7としても知られる汎用補足エンハンスメント情報(VSEI)、ビデオユーザビリティ情報(VUI)、およびRec.ITU-T H.266|ISO/IEC 23090-3としても知られる汎用ビデオコーディング(VVC)。
【0032】
ビデオコーディング規格は、主に国際電気通信連合(ITU)電気通信標準化部門(ITU-T)およびISO/国際電気標準会議(IEC)規格の発展を通して発展してきた。ITU-TはH.261およびH.263を生み出し、ISO/IECはMotion Picture Experts Group(MPEG)-1およびMPEG-4 Visualを生み出し、2つの組織は共同でH.262/MPEG-2 VideoおよびH.264/MPEG-4 Advanced Video Coding(AVC)およびH.265/高効率ビデオコーディング(HEVC)規格を生み出した。H.262以来、ビデオコーディング規格は、時間予測プラス変換コーディングが利用されるハイブリッドビデオコーディング構造に基づいている。HEVCを超えるさらなるビデオコーディング技術を探索するために、JVET(Joint Video Exploration Team)が、VCEG(Video Coding Experts Group)とMPEGとによって共同で設立された。多くの方法がJVETによって採用され、JEM(Joint Exploration Model)という名称の参照ソフトウェアに入れられている。JVETは、後に、Versatile Video Coding(VVC)プロジェクトが公式に開始されたときにJVET(Joint Video Experts Team)に改名された。VVCは、HEVCと比較して50%のビットレート低減をターゲットとするコーディング規格である。VVCは、JVETによって完成されている。
【0033】
ITU-T H.266|ISO/IEC 23090-3としても知られるVVC規格、およびITU-T H.274|ISO/IEC 23002-7としても知られる関連する汎用補足エンハンスメント情報(VSEI)規格は、テレビジョン放送、テレビ会議、記憶媒体からの再生、適応ビットレートストリーミング、ビデオ領域抽出、複数のコード化ビデオビットストリームからのコンテンツの合成およびマージング、マルチビュービデオ、スケーラブル階層化コーディング、ならびにビューポート適応360度(360°)没入型メディアなど、広範囲のアプリケーションで使用するために設計されている。基本ビデオコーディング(EVC)規格(ISO/IEC 23094-1)は、MPEGによって開発された別のビデオコーディング規格である。
【0034】
VSEI規格に対する例示的な修正は、注釈付き領域SEIメッセージ、アルファチャネル情報SEIメッセージ、深度表現情報SEIメッセージ、マルチビュー取得情報SEIメッセージ、スケーラビリティ次元情報SEIメッセージ、拡張依存ランダムアクセスポイント(DRAP)指示SEIメッセージ、ディスプレイ配向SEIメッセージ、および色変換情報SEIメッセージを含む、追加のSEIメッセージの仕様を含む。
【0035】
例示的な注釈付き領域SEIメッセージシンタックスは以下の通りである。
【表1】
【0036】
例示的な注釈付き領域SEIメッセージセマンティクスは以下の通りである。注釈付き領域SEIメッセージは、識別されたオブジェクトのサイズおよびロケーションを表すバウンディングボックスを使用して注釈付き領域を識別するパラメータを搬送する。このSEIメッセージの使用は、以下の変数の定義を必要とし得る。そのような変数には、本明細書ではそれぞれCroppedWidthおよびCroppedHeightによって示される、ルーマサンプルを単位とするクロップされたピクチャ幅およびピクチャ高さと、それぞれSubWidthCおよびSubHeightCとして示されるクロマサブサンプリング幅および高さと、ConfWinLeftOffsetとして示される適合クロッピングウィンドウ左オフセットと、ConfWinTopOffsetとして示される適合クロッピングウィンドウ上オフセットとが含まれる。
【0037】
1に等しく設定されたar_cancel_flagは、注釈付き領域SEIメッセージが、注釈付き領域SEIメッセージが適用される1つまたは複数のレイヤに関連付けられた任意の以前の注釈付き領域SEIメッセージの持続性をキャンセルすることを示す。0に等しく設定されたar_cancel_flagは、注釈付き領域情報が続くことを示す。ar_cancel_flagが1に等しいか、または現在レイヤの新しいCVSが開始するとき、変数LabelAssigned[i]、ObjectTracked[i]、およびObjectBoundingBoxAvailが、両端値を含めて0~255の範囲内のiについて0に等しく設定される。
【0038】
1に等しく設定されたar_not_optimized_for_viewing_flagは、注釈付き領域SEIメッセージが適用される復号ピクチャが、ユーザ閲覧のために最適化されず、むしろ、アルゴリズムオブジェクト分類性能などの何らかの他の目的のために最適化されることを示す。0に等しく設定されたar_not_optimized_for_viewing_flagは、注釈付き領域SEIメッセージが適用される復号ピクチャが、ユーザ閲覧のために最適化されても最適化されていなくてもよいことを示す。
【0039】
1に等しく設定されたar_true_motion_flagは、注釈付き領域SEIメッセージが適用されるコード化ピクチャ中の動き情報が、注釈付き領域中のオブジェクトのオブジェクト動きを正確に表すことを目的として選択されたことを示す。0に等しく設定されたar_true_motion_flagは、注釈付き領域SEIメッセージが適用されるコード化ピクチャ中の動き情報が、注釈付き領域中のオブジェクトのためのオブジェクト動きを正確に表すことを目的として選択されても選択されなくてもよいことを示す。
【0040】
1に等しく設定されたar_occluded_object_flagは、ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]、およびar_bounding_box_height[ar_object_idx[i]]シンタックス要素が各々、クロップされた復号ピクチャ内で可視でないことがあるか、または部分的にのみ可視であり得るオブジェクトまたはオブジェクトの一部分のサイズおよびロケーションを表すことを示す。0に等しく設定されたar_occluded_object_flagは、ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]、およびar_bounding_box_height[ar_object_idx[i]]シンタックス要素が、クロップされた復号ピクチャ内で完全に可視であるオブジェクトのサイズおよびロケーションを表すことを示す。ビットストリーム適合は、ar_occluded_object_flagの値がCVS内のすべてのannotated_regions()シンタックス構造について同じであるものとすることを必要とし得る。
【0041】
1に等しく設定されたar_partial_object_flag_present_flagは、ar_partial_object_flag[ar_object_idx[i]]シンタックス要素が存在することを示す。0に等しく設定されたar_partial_object_flag_present_flagは、ar_partial_object_flag[ar_object_idx[i]]シンタックス要素が存在しないことを示す。ビットストリーム適合は、ar_partial_object_flag_present_flagの値がCVS内のすべてのannotated_regions()シンタックス構造について同じであるものとすることを必要とし得る。
【0042】
1に等しく設定されたar_object_label_present_flagは、注釈付き領域中のオブジェクトに対応するラベル情報が存在することを示す。0に等しく設定されたar_object_label_present_flagは、注釈付き領域中のオブジェクトに対応するラベル情報が存在しないことを示す。
【0043】
1に等しく設定されたar_object_confidence_info_present_flagは、ar_object_confidence[ar_object_idx[i]]シンタックス要素が存在することを示す。0に等しく設定されたar_object_confidence_info_present_flagは、ar_object_confidence[ar_object_idx[i]]シンタックス要素が存在しないことを示す。ビットストリーム適合は、ar_object_confidence_present_flagの値がCVS内のすべてのannotated_regions()シンタックス構造について同じであるものとすることを必要とし得る。
【0044】
ar_object_confidence_length_minus1+1は、ar_object_confidence[ar_object_idx[i]]シンタックス要素の長さをビットで指定する。ビットストリーム適合は、ar_object_confidence_length_minus1の値がCVS内のすべてのannotated_regions()シンタックス構造について同じであるものとすることを必要とし得る。
【0045】
1に等しく設定されたar_object_label_language_present_flagは、ar_object_label_languageシンタックス要素が存在することを示す。0に等しく設定されたar_object_label_language_present_flagは、ar_object_label_languageシンタックス要素が存在しないことを示す。ar_bit_equal_to_zeroはゼロに等しいものとする。
【0046】
ar_object_label_languageは、言語タグを含み、その後に0x00に等しいヌル終端バイトが続く。ar_object_label_languageシンタックス要素の長さは、ヌル終端バイトを含まない255バイト以下であるものとする。存在しない場合、ラベルの言語は特定されない。
【0047】
ar_num_label_updatesは、シグナリングされる注釈付き領域に関連付けられたラベルの総数を示す。ar_num_label_updatesの値は、両端値を含めて0~255の範囲内にあるものとする。ar_label_idx[i]は、シグナリングされたラベルのインデックスを示す。ar_label_idx[i]の値は、両端値を含めて0~255の範囲内にあるものとする。
【0048】
1に等しく設定されたar_label_cancel_flagは、ar_label_idx[i]番目のラベルの持続範囲をキャンセルする。0に等しく設定されたar_label_cancel_flagは、ar_label_idx[i]番目のラベルに、シグナリングされた値を割り当てられることを示す。ar_label[ar_label_idx[i]]は、ar_label_idx[i]番目のラベルのコンテンツを指定する。ar_label[ar_label_idx[i]]シンタックス要素の長さは、ヌル終端バイトを含まない255バイト以下であるものとする。
【0049】
ar_num_object_updatesは、シグナリングされるべきオブジェクトアップデートの数を示す。ar_num_object_updatesは、両端値を含めて0~255の範囲内にあるものとする。ar_object_idx[i]は、シグナリングされるオブジェクトパラメータのインデックスである。ar_object_idx[i]は、両端値を含めて0~255の範囲内にあるものとする。1に等しく設定されたar_object_cancel_flagは、ar_object_idx[i]番目のオブジェクトの持続範囲をキャンセルする。0に等しく設定されたar_object_cancel_flagは、ar_object_idx[i]番目の追跡されるオブジェクトに関連付けられたパラメータがシグナリングされることを示す。1に等しく設定されたar_object_label_update_flagは、オブジェクトラベルがシグナリングされることを示す。0に等しいar_object_label_update_flagは、オブジェクトラベルがシグナリングされないことを示す。
【0050】
ar_object_label_idx[ar_object_idx[i]]は、ar_object_idx[i]番目のオブジェクトに対応するラベルのインデックスを示す。ar_object_label_idx[ar_object_idx[i]]が存在しないとき、その値は、もしあれば、同じCVS中の出力順序で前の注釈付き領域SEIメッセージから推論される。1に等しく設定されたar_bounding_box_update_flagは、オブジェクトバウンディングボックスパラメータがシグナリングされることを示す。0に等しく設定されたar_bounding_box_update_flagは、オブジェクトバウンディングボックスパラメータがシグナリングされないことを示す。
【0051】
1に等しく設定されたar_bounding_box_cancel_flagは、ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]、ar_bounding_box_height[ar_object_idx[i]]、ar_partial_object_flag[ar_object_idx[i]]、およびar_object_confidence[ar_object_idx[i]]の持続範囲をキャンセルする。0に等しく設定されたar_bounding_box_cancel_flagは、ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]、ar_bounding_box_height[ar_object_idx[i]]、ar_partial_object_flag[ar_object_idx[i]]、およびar_object_confidence[ar_object_idx[i]]シンタックス要素がシグナリングされることを示す。
【0052】
ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]、およびar_bounding_box_height[ar_object_idx[i]]は、アクティブSPSによって指定された適合クロッピングウィンドウに対する、クロップされた復号ピクチャ中のar_object_idx[i]番目のオブジェクトのバウンディングボックスの左上隅の座標と、幅および高さとをそれぞれ指定する。
【0053】
ar_bounding_box_left[ar_object_idx[i]]の値は、両端値を含めて、0からCroppedWidth/SubWidthC-1の範囲内にあるものとする。ar_bounding_box_top[ar_object_idx[i]]の値は、両端値を含めて、0からCroppedHeight/SubHeightC-1の範囲内にあるものとする。両端値を含めてdeleteCroppedWidth/SubWidthC-ar_bounding_box_left[ar_object_idx[i]]の値。ar_bounding_box_height[ar_object_idx[i]]の値は、両端値を含めて、0からCroppedHeight/SubHeightC-ar_bounding_box_top[ar_object_idx[i]]の範囲内にあるものとする。識別されたオブジェクト矩形は、両端値を含めて、SubWidthC*(ConfWinLeftOffset+ar_bounding_box_left[ar_object_idx[i]])からSubWidthC*(ConfWinLeftOffset+ar_bounding_box_left[ar_object_idx[i]]+ar_bounding_box_width[ar_object_idx[i]])-1までの水平ピクチャ座標と、両端値を含めて、SubHeightC*(ConfWinTopOffset+ar_bounding_box_top[ar_object_idx[i]])からSubHeightC*(ConfWinTopOffset+ar_bounding_box_top[ar_object_idx[i]]+ar_bounding_box_height[ar_object_idx[i]])-1までの垂直ピクチャ座標とを有するルーマサンプルを含む。ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]、およびar_bounding_box_height[ar_object_idx[i]]の値は、ar_object_idx[i]の値ごとにCVS内で出力順序で持続する。存在しないとき、ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]、またはar_bounding_box_height[ar_object_idx[i]]の値は、もしあれば、CVS中の出力順序で前の注釈付き領域SEIメッセージから推論される。
【0054】
1に等しく設定されたar_partial_object_flag[ar_object_idx[i]]は、ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]、およびar_bounding_box_height[ar_object_idx[i]]シンタックス要素が、クロップされた復号ピクチャ内で部分的にのみ可視であるオブジェクトのサイズおよびロケーションを表すことを示す。0に等しく設定されたar_partial_object_flag[ar_object_idx[i]]は、ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]およびar_bounding_box_height[ar_object_idx[i]]シンタックス要素が、クロップされた復号ピクチャ内で部分的にのみ可視であっても部分的に可視でなくてもよいオブジェクトのサイズおよびロケーションを表すことを示す。存在しないとき、ar_partial_object_flag[ar_object_idx[i]]の値は、もしあれば、CVS中の出力順序で前の注釈付き領域SEIメッセージから推論される。
【0055】
ar_object_confidence[ar_object_idx[i]]は、ar_object_idx[i]番目のオブジェクトに関連付けられた信頼度を、2-(ar_object_confidence_length_minus1+1)の単位で示し、ar_object_confidence[ar_object_idx[i]]の値が高いほど、信頼度が高いことを示す。ar_object_confidence[ar_object_idx[i]]シンタックス要素の長さは、ar_object_confidence_length_minus1+1ビットである。存在しないとき、_object_confidence[ar_object_idx[i]]の値は、もしあれば、CVS中の出力順序で前の注釈付き領域SEIメッセージから推論される。
【0056】
次に、深度表現情報SEIメッセージについて説明する。例示的な深度表現情報SEIメッセージシンタックスは以下の通りである。
【表2】
【0057】
例示的な深度表現情報要素シンタックスは以下の通りである。
【表3】
【0058】
例示的な深度表現情報SEIメッセージセマンティクスは、以下の通りである。深度表現情報(DRI)SEIメッセージ中のシンタックス要素は、復号された主ピクチャおよび補助ピクチャを処理してから、ビュー合成などの3次元(3D)ディスプレイ上でレンダリングする目的で、タイプAUX_DEPTHの補助ピクチャのための様々なパラメータを指定する。例えば、深度ピクチャの深度または視差範囲が指定される。
【0059】
このSEIメッセージの使用は、以下の変数の定義を必要とし得る。本明細書ではBitDepthYによって示される、ルーマ成分のサンプルのためのビット深度。iの少なくとも1つの値についてsdi_aux_id[i]が2に等しいSDI SEIメッセージをCVSが含んでいないとき、CVS中のどのピクチャもDRI SEIメッセージに関連付けられるべきではない。アクセスユニット(AU)が、iの少なくとも1つの値についてsdi_aux_id[i]が2に等しいSDI SEIメッセージとDRI SEIメッセージの両方を含んでいるとき、SDI SEIメッセージは、復号順序においてDRI SEIメッセージに先行するものとする。存在するとき、DRI SEIメッセージは、SDI SEIメッセージによって深度補助レイヤとして示される1つまたは複数のレイヤに関連付けられるものとする。以下のセマンティクスは、DRI SEIメッセージが適用されるnuh_layer_id値の中の各nuh_layer_id targetLayerIdに別々に適用される。存在するとき、DRI SEIメッセージは任意のアクセスユニットに含まれ得る。存在するとき、nuh_layer_idがtargetLayerIdに等しいコード化ピクチャがIRAPピクチャであるアクセスユニット中にランダムアクセスの目的でSEIメッセージが含まれることが推奨される。DRI SEIメッセージ中で示される情報は、targetLayerIdまたはtargetLayerIdに等しいnuh_layer_idのCLVSの終わりのうちどちらでも復号順序で早い方に適用可能なDRI SEIメッセージに関連付けられた、復号順序で次のピクチャまでであるがそれは除く、SEIメッセージを含むアクセスユニットからの、nuh_layer_idがtargetLayerIdに等しいすべてのピクチャに適用される。
【0060】
0に等しく設定されたz_near_flagは、最も近い深度値を指定するシンタックス要素がシンタックス構造中に存在しないことを指定する。1に等しく設定されたz_near_flagは、最も近い深度値を指定するシンタックス要素がシンタックス構造中に存在することを指定する。0に等しく設定されたz_far_flagは、最も遠い深度値を指定するシンタックス要素がシンタックス構造中に存在しないことを指定する。1に等しく設定されたz_far_flagは、最も遠い深度値を指定するシンタックス要素がシンタックス構造中に存在することを指定する。0に等しく設定されたd_min_flagは、最小視差値を指定するシンタックス要素がシンタックス構造中に存在しないことを指定する。1に等しく設定されたd_min_flagは、最小視差値を指定するシンタックス要素がシンタックス構造中に存在することを指定する。0に等しく設定されたd_max_flagは、最大視差値を指定するシンタックス要素がシンタックス構造中に存在しないことを指定する。1に等しく設定されたd_max_flagは、最大視差値を指定するシンタックス要素がシンタックス構造中に存在することを指定する。depth_representation_typeは、表1において指定されるように、補助ピクチャの復号されたルーマサンプルの表現定義を指定する。表1において、視差は、2つのテクスチャビュー間の水平変位を指定し、Z値は、カメラからの距離を指定する。変数maxValは、(1<<BitDepthY)-1に等しく設定される。
【表4】
【0061】
disparity_ref_view_idは、視差値が導出されるViewId値を指定する。disparity_ref_view_idは、d_min_flagが1に等しいか、またはd_max_flagが1に等しい場合にのみ存在し、1および3に等しいdepth_representation_type値に有用であることに留意されたい。表2のx列の変数は、表2のs、e、nおよびv列のそれぞれの変数から以下のように導出される。eの値が0~127(0を除く)の範囲にある場合、xは(-1)s*2e-31*(1+n÷2v)に等しく設定される。そうでなければ(eが0に等しい場合)、xは(-1)s*2-(30+v)*nに等しく設定される。
【表5】
【0062】
DMin値およびDMax値は、存在するとき、ViewIdが補助ピクチャのViewIdに等しいコード化ピクチャのルーマサンプル幅の単位で指定される。ZNearおよびZFar値の単位は、存在するとき、同一であるが、指定されていない。depth_nonlinear_representation_num_minus1+2は、視差に関して一様に量子化されたスケールに深度値をマッピングするための区分的線形セグメントの数を指定する。両端値を含めて0からdepth_nonlinear_representation_num_minus1+2の範囲にわたるiについてのdepth_nonlinear_representation_model[i]は、視差に関して一様に量子化されたスケールに補助ピクチャの復号されたルーマサンプル値をマッピングするための区分的線形セグメントを指定する。depth_nonlinear_representation_model[0]およびdepth_nonlinear_representation_model[depth_nonlinear_representation_num_minus1+2]の値は、両方とも0に等しいと推論される。
【0063】
depth_representation_typeが3に等しいとき、補助ピクチャは非線形変換された深度サンプルを含む。変数DepthLUT[i]は、以下で指定されるように、復号された深度サンプル値を非線形表現から線形表現、例えば、一様に量子化された視差値に変換するために使用される。この変換の形状は、2次元線形視差-非線形視差空間における線分近似によって定義される。曲線の最初の(0,0)および最後の(maxVal,maxVal)ノードは、予め定義される。追加ノードの位置は、直線曲線からの偏差(depth_nonlinear_representation_model[i])の形で送信される。これらの偏差は、nonlinear_depth_representation_num_minus1の値に応じた間隔で、両端値を含めて0~maxValの範囲全体に沿って一様に分布する。
【0064】
両端値を含めて0~maxValの範囲のiについての変数DepthLUT[i]は、次のように指定される:
【数1】
【0065】
depth_representation_typeが3に等しいとき、両端値を含めて0~maxValの範囲内の補助ピクチャのすべての復号されたルーマサンプル値dSについてのDepthLUT[dS]は、両端値を含めて0~maxValの範囲に一様に量子化された視差を表す。
【0066】
深度表現情報要素セマンティクスは以下の通りである。シンタックス構造は、DRI SEIメッセージ中の要素の値を指定する。シンタックス構造は、浮動小数点値を表すOutSign、OutExp、OutMantissa、およびOutManLen変数の値を設定する。シンタックス構造が別のシンタックス構造に含まれる場合、変数名OutSign、OutExp、OutMantissaおよびOutManLenは、シンタックス構造が含まれるときに使用される変数名に代替されて解釈されなければならない。
【0067】
0に等しく設定されたda_sign_flagは、浮動小数点値の符号が正であることを示す。1に等しく設定されたda_sign_flagは、符号が負であることを示す。変数OutSignは、da_sign_flagに等しく設定される。da_exponentは、浮動小数点値の指数を指定する。da_exponentの値は、両端値を含めて0~27-2の範囲内にあるものとする。値27-1は予約される。デコーダは、値27-1を、指定されていない値を示すものとして扱う。変数OutExpは、da_exponentに等しく設定される。da_mantissa_len_minus1+1は、da_mantissaシンタックス要素内のビット数を指定する。da_mantissa_len_minus1の値は、両端値を含めて0~31の範囲内にあるものとする。変数OutManLenは、da_mantissa_len_minus1+1に等しく設定される。da_mantissaは、浮動小数点値の仮数を指定する。変数OutMantissaは、da_mantissaに等しく設定される。
【0068】
拡張DRAP指示SEIメッセージは、次の通りである。例示的な拡張DRAP指示SEIメッセージシンタックスは、以下の通りである。
【表6】
【0069】
拡張DRAP指示SEIメッセージセマンティクスの例は、以下の通りである。拡張DRAP(EDRAP)指示SEIメッセージに関連付けられたピクチャは、EDRAPピクチャと呼ばれる。EDRAP指示SEIメッセージの存在は、このサブクローズにおいて指定されたピクチャ順序およびピクチャ参照に対する制約が適用されることを示す。これらの制約により、デコーダは、EDRAPピクチャと、同じレイヤ中にあるピクチャとを適切に復号することができ、ピクチャのリストreferenceablePicturesを除いて、同じレイヤ中にある他のピクチャを復号する必要なしに、復号順序と出力順序の両方においてそれに後続することができる。これは、同じCLVS内にあり、edrap_ref_rap_id[i]シンタックス要素によって識別される、復号順序でのIRAPまたはEDRAPピクチャのリストを含む。
【0070】
EDRAP指示SEIメッセージの存在によって示される制約は、すべて適用されるものとし、以下の通りである。EDRAPピクチャは、トレーリングピクチャである。EDRAPピクチャは、0に等しい時間サブレイヤ識別子を有する。EDRAPピクチャは、referenceablePicturesを除いて、その参照ピクチャリストのアクティブエントリ中に、同じレイヤ中にあるピクチャを含まない。同じレイヤ中にあり、復号順序と出力順序の両方においてEDRAPピクチャに後続する任意のピクチャは、referenceablePicturesを除いて、その参照ピクチャリストのアクティブエントリ中に、同じレイヤ中にあり、復号順序または出力順序においてEDRAPピクチャに先行するピクチャを含まない。
【0071】
edrap_leading_pictures_decodable_flagが1に等しいとき、以下が適用される。同じレイヤ中にあり、復号順序においてEDRAPピクチャに後続する任意のピクチャは、出力順序において、同じレイヤ中にあり、復号順序においてEDRAPピクチャに先行する任意のピクチャに後続するものとする。同じレイヤ中にあり、復号順序においてEDRAPピクチャに後続し、出力順序においてEDRAPピクチャに先行する任意のピクチャは、referenceablePicturesを除いて、その参照ピクチャリストのアクティブエントリ中に、同じレイヤ中にあり、復号順序においてEDRAPピクチャに先行するピクチャを含まない。リストreferenceablePictures中の任意のピクチャは、その参照ピクチャリストのアクティブエントリ中に、同じレイヤ中にあり、リストreferenceablePictures中のより前の位置にあるピクチャではないピクチャを含まない。したがって、referenceablePictures中の最初のピクチャは、それがIRAPピクチャではなくEDRAPピクチャであるときでも、その参照ピクチャリストのアクティブエントリ中に、同じレイヤからのピクチャを含まない。
【0072】
edrap_rap_id_minus1+1は、EDRAPピクチャの、RapPicIdとして示されるランダムアクセスポイント(RAP)ピクチャ識別子を指定する。各IRAPまたはEDRAPピクチャは、RapPicId値に関連付けられる。IRAPピクチャのためのRapPicId値は0に等しいと推論される。同じIRAPピクチャに関連付けられた任意の2つのEDRAPピクチャのためのRapPicId値は異なるものとする。edrap_reserved_zero_12bitsは、本開示に準拠するビットストリーム中で0に等しいものとする。edrap_reserved_zero_12bitsの他の値は予約される。デコーダは、edrap_reserved_zero_12bitsの値を無視し得る。edrap_num_ref_rap_pics_minus1+1は、EDRAPピクチャと同じCLVS内にあり、EDRAPピクチャの参照ピクチャリストのアクティブエントリ中に含まれ得るIRAPまたはEDRAPピクチャの数を示す。edrap_ref_rap_id[i]は、EDRAPピクチャの参照ピクチャリストのアクティブエントリ中に含まれ得るi番目のRAPピクチャのRapPicIdを示す。i番目のRAPピクチャは、現在のEDRAPピクチャに関連付けられたIRAPピクチャ、または現在のEDRAPピクチャと同じIRAPピクチャに関連付けられたEDRAPピクチャのいずれかであるものとする。
【0073】
以下は、開示される技術的解決策によって解決される例示的な技術的問題である。注釈付き領域SEIメッセージ、深度表現情報SEIメッセージ、およびEDRAP指示SEIメッセージのための例示的な設計は、少なくとも以下の問題を有する。注釈付き領域SEIメッセージの場合、i番目の注釈付き領域オブジェクトインデックスのue(v)コード化シンタックス要素ARオブジェクトラベルインデックスの値範囲(ar_object_label_idx[ar_object_idx[i]])が欠落している。ue(v)コード化シンタックス要素のために指定された値範囲を有しないことに関連付けられた1つの実際的な問題は、設計が、実装形態において対応する変数のためにいくつのビットを使用することができるのかが不確かであり得ることである。実装形態において使用されるビット数の最大値が十分でない場合、デコーダは、使用されるビット数によって許容される最大値よりも大きい値に遭遇したときにクラッシュすることがある。深度表現情報SEIメッセージの場合、i番目の深度非線形表現モデル(depth_nonlinear_representation_model[i])シンタックス要素の記述子(例えば、コーディング方法)は指定されない。コーディング方法を指定しなければ、デコーダは、シンタックス要素をどのようにパースすべきかを決定することが可能でないことがある。深度表現情報SEIメッセージの場合、ue(v)コード化シンタックス要素である深度表現タイプ(depth_representation_type)、視差参照ビュー識別子(disparity_ref_view_id)、深度非線形表現数-1(depth_nonlinear_representation_num_minus1)、およびdepth_nonlinear_representation_model[i]の値範囲は指定されない。EDRAP指示SEIメッセージの場合、EDRAPリーディングピクチャ復号可能フラグ(edrap_leading_pictures_decodable_flag)シンタックス要素のセマンティクスが欠落している。
【0074】
本明細書では、上に列挙した問題のうちの1つまたは複数に対処するための機構が開示される。例えば、本開示は、ar_object_label_idx[ar_object_idx[i]]のための例示的な値範囲を指定する。さらに、本開示は、depth_nonlinear_representation_model[i]のための例示的な記述子を指定する。加えて、本開示は、depth_representation_type、disparity_ref_view_id、depth_nonlinear_representation_num_minus1、およびdepth_nonlinear_representation_model[i]のための例示的な値範囲を指定する。加えて、本開示は、edrap_leading_pictures_decodable_flagのための例示的なセマンティクスを指定する。
【0075】
図1は、例示的なビットストリーム100を示す概略図である。ビットストリーム100は、圧縮されたビデオおよび関連するシンタックスを含み得る。例えば、ビットストリーム100は、エンコーダによって符号化され、1つまたは複数のネットワークにわたって送信され、ユーザへの表示のためにデコーダによって復号され得る。例えば、ビットストリーム100は、1つまたは複数のコード化ビデオシーケンス(CVS)を形成するアクセスユニット(AU)のシーケンスの表現を形成するビットのシーケンスとして定義され得る。AUは、ビデオシーケンス中の対応する出力時間に関連付けられた1つまたは複数のピクチャのセットである。ビットストリームは、ネットワーク抽象化レイヤ(NAL)ユニットストリームまたはバイトストリームの形態をとり得る。
【0076】
ビットストリーム100は、1つまたは複数のシーケンスパラメータセット(SPS)113と、複数のピクチャパラメータセット(PPS)115と、複数のスライス125と、注釈付き領域(AR)SEIメッセージ131と、DRI SEIメッセージ133と、EDRAP指示SEIメッセージ135とを含む。SPS113は、ビットストリーム100に含まれるコード化ビデオシーケンス中のすべてのピクチャに共通のシーケンスデータ関連パラメータを含む。SPS113中のパラメータは、ピクチャサイジング、ビット深度、コーディングツールパラメータ、ビットレート制限などを含むことができる。各シーケンスがSPS113を指すが、いくつかの例では、単一のSPS113が複数のシーケンスのためのデータを含むことができることに留意されたい。PPS115は、ピクチャ全体に適用されるパラメータを含む。したがって、ビデオシーケンス中の各ピクチャはPPS115を参照し得る。各ピクチャは、PPS115を参照するが、いくつかの例では、単一のPPS115が複数のピクチャのためのデータを含むことができることに留意されたい。例えば、複数の同様のピクチャが、同様のパラメータにしたがってコーディングされ得る。そのような場合、単一のPPS115は、そのような同様のピクチャのためのデータを含み得る。PPS115は、対応するピクチャ中のスライスのために利用可能なコーディングツール、量子化パラメータ、オフセットなどを示すことができる。
【0077】
スライスはそれぞれ、スライスヘッダと、ピクチャ中の領域からの画像データとを含む。スライスヘッダは、各スライスに固有のパラメータを含む。したがって、ビデオシーケンス中のスライスごとに1つのスライスヘッダが存在し得る。スライスヘッダは、スライスタイプ情報、ピクチャ順序カウント(POC)、参照ピクチャリスト、予測重み、タイルエントリポイント、デブロッキングパラメータなどを含み得る。いくつかの例では、ビットストリーム100はまた、単一のピクチャ中のすべてのスライスに適用されるパラメータを含むシンタックス構造であるピクチャヘッダを含み得ることに留意されたい。このため、ピクチャヘッダおよびスライスヘッダは、いくつかのコンテキストでは交換可能に使用され得る。例えば、特定のパラメータは、そのようなパラメータがピクチャ中のすべてのスライスに共通であるかどうかに応じて、スライスヘッダとピクチャヘッダとの間で移動され得る。スライス125中の画像データは、インター予測および/またはイントラ予測にしたがって符号化されたビデオデータ、ならびに対応する変換および量子化された残差データを含む。1つまたは複数のスライスからのビデオデータは、エンコーダによってピクチャからコーディングされ、ピクチャを再構成するためにデコーダにおいて復号され得る。
【0078】
スライス125は、ピクチャの(例えば、タイル内の)整数個の完全なタイルまたは整数個の連続する完全なコーディングツリーユニット(CTU)行として定義され得、ここで、タイルまたはCTU行は、単一のNALユニット中に排他的に含まれる。したがって、スライス125も単一のNALユニットに含まれる。スライス125はそれぞれ、CTUおよび/またはコーディングツリーブロック(CTB)にさらに分割される。CTUは、コーディングツリーによって区分され得る予め定義されたサイズのサンプルのグループである。CTBは、CTUのサブセットであり、CTUのルーマ成分またはクロマ成分を含む。CTU/CTBは、コーディングツリーに基づいてコーディングブロックにさらに分割される。次いで、コーディングブロックは、予測機構にしたがって符号化/復号され得る。
【0079】
ビットストリーム100は、1つまたは複数のSEIメッセージを含むことができる。SEIメッセージは、復号ピクチャ中のサンプルの値を決定するために復号プロセスによって必要とされない情報を搬送する、指定されたセマンティクスを有するシンタックス構造である。ビットストリーム100は、異なる機能のための多くの異なるSEIメッセージを含むことができる。本例では、ビットストリームは、AR SEIメッセージ131と、DRI SEIメッセージ133と、EDRAP指示SEIメッセージ135とを含む。
【0080】
AR SEIメッセージ131は、バウンディングボックスを採用することによって1つまたは複数のピクチャ中の注釈付き領域を識別するためのパラメータを搬送するSEIメッセージである。バウンディングボックスは、注釈付き領域のサイズおよびロケーションを表し、注釈付き領域に含まれる1つまたは複数のオブジェクトを識別する。したがって、AR SEIメッセージ131は、ピクチャ中の領域を記述するメタデータを含む。デコーダは、AR SEIメッセージ131を使用して、表示プロセス中にそのような領域を復号すべきかどうか、および/またはどのように扱うべきかを決定し得る。AR SEIメッセージ131は、ar_object_label_idx[ar_object_idx[i]]141シンタックス要素を含む。ar_object_label_idx[ar_object_idx[i]]141は、i番目にインデクシングされたARオブジェクト(ar_object_idx[i]-th)オブジェクトに対応するラベルのインデックスを示す。例えば、ARオブジェクトがインデックス付けされ、任意のi番目のARオブジェクトがar_object_idx[i]によって決定され得る。さらに、ARオブジェクトラベルがインデックス付けされ、任意のi番目のARオブジェクトラベルが、ar_object_label_idx[i]によって決定され得る。したがって、AR SEI ar_object_label_idx[ar_object_idx[i]]141は、i番目のARオブジェクトのラベルのインデックスを取得する。
【0081】
DRI SEIメッセージ133は、3次元(3D)ディスプレイ上でレンダリングするための深度および/または視差情報を含むピクチャのためのパラメータを搬送するSEIメッセージである。深度は、3D空間におけるピクセル/サンプルのロケーションである。視差は、画像平面内の2つの特徴(例えば、2つのピクセル)のロケーション間の変位である。DRI SEIメッセージ133は、depth_nonlinear_representation_model[i]142シンタックス要素と、depth_nonlinear_representation_num_minus1 143シンタックス要素と、depth_representation_type144シンタックス要素と、disparity_ref_view_id145シンタックス要素とを含む。depth_nonlinear_representation_model[i]142は、視差に関して一様に量子化されたスケールに、補助ピクチャの復号されたルーマサンプル値(例えば、深度値)をマッピングするためのi個の区分的線形セグメントの各々を指定する。depth_nonlinear_representation_num_minus1(143)+2は、視差に関して一様に量子化されたスケールに深度値をマッピングするための区分的線形セグメントの数を指定する。したがって、depth_nonlinear_representation_num_minus1(143)+2は、depth_nonlinear_representation_model[i]142中のi個のセグメントの数を指定する。depth_representation_type144は、補助ピクチャの復号されたルーマサンプルの表現定義を指定する。depth_representation_type144の許容値および各値の対応する解釈は、上記の表1および/または下記の表Y1に含まれる。disparity_ref_view_id145は、視差値が導出されるビュー識別子(ViewId)値を指定する。したがって、disparity_ref_view_id145は、補助ピクチャ中のサンプルのための視差(例えば、ロケーション間の変位および/または差分)を決定するときに参照として使用されるViewId値を示す。
【0082】
EDRAP指示SEIメッセージ135は、EDRAPピクチャの使用を示す。EDRAPピクチャは、1つまたは複数の参照ピクチャに基づいてインター予測によってコーディングされるランダムアクセスピクチャである。例えば、EDRAPピクチャは、先行するEDRAPピクチャおよび/または先行するIRAPピクチャを参照することによってコーディングされ得る。IRAPピクチャは、イントラ予測によってコーディングされ、他のピクチャを参照せずに復号され得る。EDRAP方式は、EDRAPピクチャの各々のための参照ピクチャの時限セットを含む外部ビットストリームを採用し得る。このようにして、EDRAPピクチャは、メインビットストリームへのランダムアクセスのために選択され得、EDRAPピクチャを復号するために使用される参照ピクチャは、外部ビットストリームから取得され得る。EDRAP指示SEIメッセージ135は、デコーダがランダムアクセスのために任意のEDRAPピクチャを選択し、(例えば、外部ビットストリーム中の)対応する参照ピクチャのみを使用して選択されたEDRAPピクチャを正常に復号することができることを保証するために使用される、ピクチャ順序およびピクチャ参照に対する制約を示すSEIメッセージである。EDRAP指示SEIメッセージ135は、edrap_leading_pictures_decodable_flag146シンタックス要素を含み、これは、順序付け制約のセットがEDRAP指示SEIメッセージ135に対応するEDRAPピクチャに適用されるかどうかを示す値を含む。
【0083】
EDRAP指示SEIメッセージ135の存在は、ビットストリーム中のEDRAPピクチャ順序に特定の制約を課す。例えば、各EDRAPピクチャは、トレーリングピクチャである。さらに、各EDRAPピクチャは、ゼロに等しい時間サブレイヤ識別子を有する。時間サブレイヤは、ピクチャをベースレイヤと1つまたは複数のエンハンスメントレイヤとに分割する。能力がより低いデコーダは、より低いフレームレートについてベースレイヤを復号し、表示することができ、能力がより高いデコーダは、より高いフレームレートを取得するために、増えた数のエンハンスメントレイヤを復号することができる。時間サブレイヤ識別子をゼロに制限することで、EDRAPピクチャがベースレイヤ中にあり、したがってすべてのデコーダによって使用可能であることを保証する。別の制約は、各EDRAPピクチャが、参照可能なピクチャのリストを除いて、EDRAPピクチャの参照ピクチャリストのアクティブエントリ中に、同じレイヤ中にあるピクチャを含まないことを必要とする。参照可能なピクチャのリストは、復号順序でのIRAPピクチャおよび/またはEDRAPピクチャを含む。したがって、この制約は、EDRAPピクチャを、先行するIRAPピクチャおよびEDRAPピクチャのみを参照するように制限する。さらに別の制約は、EDRAPピクチャと同じレイヤ中にあり、復号順序と出力順序の両方においてEDRAPピクチャに後続する任意のピクチャが、参照可能なピクチャのリストを除いて、ピクチャの参照ピクチャリストのアクティブエントリ中に、同じレイヤ中にあり、復号順序または出力順序においてEDRAPピクチャに先行する他のピクチャを含まないことを必要とする。この制約は、EDRAPピクチャに後続するピクチャがEDRAPピクチャに先行するピクチャを参照することを防止する。EDRAPピクチャにおけるランダムアクセスの場合、先行するピクチャは利用可能ではなく、したがって、トレーリングピクチャによってそのようなピクチャを参照すると、参照ピクチャが利用不可能であることでエラーとなる。
【0084】
edrap_leading_pictures_decodable_flag146シンタックス要素は、EDRAPピクチャに追加の制約を課すことができる。そのような追加の制約の第1は、EDRAPピクチャと同じレイヤ中にあり、復号順序においてEDRAPピクチャに後続する任意のピクチャが、出力順序において、EDRAPピクチャと同じレイヤ中にあり、復号順序においてEDRAPピクチャに先行する他のピクチャに後続するものとすることを指定する。いくつかの事例では、コーディング順序と出力順序とは異なる。これは、場合によってはより良好な圧縮を可能にするが、ピクチャが表示前に並べ替えられることを必要とする。復号順序においてランダムアクセスポイントに後続し、出力順序においてランダムアクセスポイントに先行するピクチャは、リーディングピクチャとして知られる。この制約は、EDRAPピクチャのリーディングピクチャが、出力順序において前のEDRAPピクチャからのトレーリングピクチャの前に配置されないことを保証する。
【0085】
そのような追加の制約の第2は、EDRAPピクチャと同じレイヤ中にあり、復号順序においてEDRAPピクチャに後続し、出力順序においてEDRAPピクチャに先行する任意のピクチャが、参照可能なピクチャのリストを除いて、ピクチャの参照ピクチャリストのアクティブエントリ中に、EDRAPピクチャと同じレイヤ中にあり、復号順序においてEDRAPピクチャに先行する他のピクチャを含まないものとすることを指定する。この制約は、リーディングピクチャが、EDRAPピクチャに後続するピクチャおよび参照可能なピクチャのリスト中のIRAPおよび/またはEDRAPピクチャのみを参照することを保証する。これは、対応するEDRAPピクチャがランダムアクセスに使用されるときにリーディングピクチャが復号され得ることを保証する。
【0086】
上記のように、ar_object_label_idx[ar_object_idx[i]]141、depth_nonlinear_representation_model[i]142、depth_nonlinear_representation_num_minus1 143、depth_representation_type144、disparity_ref_view_id145、およびedrap_leading_pictures_decodable_flag146の値範囲、記述子、および/またはセマンティクスは、いくつかの例示的なシステムでは指定されない。したがって、本開示は、先行するパラメータ/シンタックス要素についてそのような値範囲、記述子、および/またはセマンティクスを含む。これにより、デコーダは、グリッチおよび/またはクラッシュなどの未定義の挙動を経験することなく、これらの値を正しく解釈することを可能にする。
【0087】
ar_object_label_idx[ar_object_idx[i]]141、depth_nonlinear_representation_model[i]142、depth_nonlinear_representation_num_minus1 143、depth_representation_type144、disparity_ref_view_id145、およびedrap_leading_pictures_decodable_flag146は、対応するシンタックス要素をコーディングするために使用されるコーディング機構を示す記述子に関連付けられ得ることに留意されたい。そのような記述子は、ue(v)、u(N)、se(v)、およびu(v)を含み得る。ue(v)は、シンタックス要素値が、左ビット優先で、可変数のビットを用いて、符号なし整数指数ゴロムコード化シンタックス要素(unsigned integer exponential-Golomb coded syntax element)としてコーディングされることを示す。指数ゴロムコードシンタックスは、値をプラス1バイナリで表すことと、先行ゼロを先行値としてマイナス1フォーマットで表すこととを含む。u(N)は、シンタックス要素値がNビットを使用して符号なし整数としてコーディングされることを示す。se(v)は、シンタックス要素値が、左ビット優先で、可変数のビットを用いて、符号付き整数指数ゴロムコード化シンタックス要素としてコーディングされることを示す。u(v)は、シンタックス要素値が、可変数のビットを使用して、符号なし整数としてコーディングされることを示す。
【0088】
上記の問題および他の問題を解決するために、以下に要約される方法が開示される。項目は、一般的な概念を説明するための例とみなされるべきであり、狭く解釈されるべきではない。さらに、これらの項目は、個々に、または任意の方法で組み合わせて適用することができる。
【0089】
実施例1
【0090】
一例では、上記で列挙した問題のうちの少なくとも1つを解決するために、ar_object_label_idx[ar_object_idx[i]]141シンタックス要素の値は、両端値を含めてN~Mの範囲内にあるように指定され、ここで、NおよびMは整数値であり、NはMよりも小さい。一例では、N=0およびM=255である。一例では、ar_object_label_idx[ar_object_idx[i]]141の値は、両端値を含めて0~3、両端値を含めて0~7、両端値を含めて0~15、両端値を含めて0~31、両端値を含めて0~63など、異なる範囲内にあるように指定される。
【0091】
実施例2
【0092】
一例では、上記で列挙した問題のうちの少なくとも1つを解決するために、depth_nonlinear_representation_model[i]142シンタックス要素は、ue(v)コーディングされるように指定される。
【0093】
実施例3
【0094】
一例では、depth_nonlinear_representation_model[i]142の値は、N=0およびM=65535など、両端値を含めてN~Mの範囲内にあるように指定される。一例では、depth_nonlinear_representation_model[i]142の値は、両端値を含めて0~3、両端値を含めて0~7、両端値を含めて0~15、両端値を含めて0~31、両端値を含めて0~63、両端値を含めて0~127、両端値を含めて0~255、両端値を含めて0~511、両端値を含めて0~1023、両端値を含めて0~2047、両端値を含めて0~4095、両端値を含めて0~8191、両端値を含めて0~16383など、異なる範囲内にあるように指定される。
【0095】
実施例4
【0096】
一例では、depth_nonlinear_representation_model[i]142シンタックス要素は、異なるコーディング方法を使用してコーディングされるように指定される。一例では、depth_nonlinear_representation_model[i]142シンタックス要素は、u(N)コーディングされるように指定され、Nは、両端値を含めて2~16の範囲内の値など、正の整数値に等しい。別の例では、depth_nonlinear_representation_model[i]142シンタックス要素は、se(v)コーディングされるように指定される。別の例では、depth_nonlinear_representation_model[i]142シンタックス要素は、u(v)コーディングされるように指定され、長さは、ビットの単位で、例えば、Log2(MaxNumModes)に等しくなるように指定され、変数MaxNumModesはモードの最大数を示し、関数Log2(x)は、xの2を底とする対数を返す。
【0097】
実施例5
【0098】
一例では、depth_nonlinear_representation_num_minus1 143シンタックス要素は、u(N)、u(v)など、ue(v)コーディング方法とは異なるコーディング方法を使用してコーディングされるように指定される。
【0099】
実施例6
【0100】
一例では、上記で列挙した問題のうちの少なくとも1つを解決するために、depth_representation_type144の値は、両端値を含めてN~Mの範囲内にあるように指定され、ここで、NおよびMは整数値であり、NはMよりも小さい。一例では、N=0およびM=15である。一例では、depth_representation_type144の値は、両端値を含めて0~3、両端値を含めて0~7、両端値を含めて0~31、両端値を含めて0~63、両端値を含めて0~127、両端値を含めて0~255など、異なる範囲内にあるように指定される。
【0101】
実施例7
【0102】
一例では、上記で列挙した問題のうちの少なくとも1つを解決するために、depth_nonlinear_representation_num_minus1 143の値は、両端値を含めて0~62の範囲内にあるように指定される。一例では、depth_nonlinear_representation_num_minus 143の値は、両端値を含めて0~6、両端値を含めて0~14、両端値を含めて0~30、両端値を含めて0~126、両端値を含めて0~254など、異なる範囲内にあるように指定される。
【0103】
実施例8
【0104】
一例では、上記で列挙した問題のうちの少なくとも1つを解決するために、disparity_ref_view_id145の値は、両端値を含めて0~1023の範囲内にあるように指定される。一例では、disparity_ref_view_id145の値は、両端値を含めて0~63、両端値を含めて0~127、両端値を含めて0~255、両端値を含めて0~511、両端値を含めて0~2047、両端値を含めて0~4095、両端値を含めて0~8191、両端値を含めて0~16383、両端値を含めて0~32767、両端値を含めて0~65535など、異なる範囲内にあるように指定される。
【0105】
実施例9
【0106】
一例では、上記で列挙した問題のうちの少なくとも1つを解決するために、edrap_leading_pictures_decodable_flag146シンタックス要素のセマンティクスは、次のように指定される。1に等しいedrap_leading_pictures_decodable_flag146は、以下の制約の両方が適用されることを指定する。同じレイヤ中にあり、復号順序においてEDRAPピクチャに後続する任意のピクチャは、出力順序において、同じレイヤ中にあり、復号順序においてEDRAPピクチャに先行するピクチャに後続するものとする。同じレイヤ中にあり、復号順序においてEDRAPピクチャに後続し、出力順序においてEDRAPピクチャに先行する任意のピクチャは、referenceablePicturesを除いて、その参照ピクチャリストのアクティブエントリ中に、同じレイヤ中にあり、復号順序においてEDRAPピクチャに先行するピクチャを含まないものとする。0に等しいedrap_leading_pictures_decodable_flag146は、そのような制約を課さない。
【0107】
次に、前述の例の実施形態について説明する。本実施形態は、VSEIに適用することができる。VSEI仕様に関して、追加または修正された最も関連する部分は、太字の下線フォント(本明細書(表を除く)では下線フォントのみ)で示され、削除された部分のいくつかは、太字のイタリック体フォント(本明細書(表を除く)では[[ ]])で示される。本質的に編集的であり、したがって強調されないいくつかの他の変更があってもよい。
【0108】
例示的な注釈付き領域SEIメッセージセマンティクスは以下の通りである。注釈付き領域SEIメッセージは、識別されたオブジェクトのサイズおよびロケーションを表すバウンディングボックスを使用して注釈付き領域を識別するパラメータを搬送する。
【0109】
...
【0110】
ar_object_label_idx[ar_object_idx[i]]は、ar_object_idx[i]番目のオブジェクトに対応するラベルのインデックスを示す。ar_object_label_idx[ar_object_idx[i]]が存在しないとき、その値は、もしあれば、同じCVS中の出力順序で前の注釈付き領域SEIメッセージから推論される。ar_object_label_idx[ar_object_idx[i]]の値は、両端値を含めて0~255の範囲内にあるものとする。
...
【0111】
深度表現情報SEIメッセージシンタックス
【表7】
【0112】
例示的な深度表現情報SEIメッセージセマンティクスは、以下の通りである。深度表現情報(DRI)SEIメッセージ中のシンタックス要素は、復号された主ピクチャおよび補助ピクチャを処理してから、ビュー合成などの3Dディスプレイ上でレンダリングする目的で、タイプAUX_DEPTHの補助ピクチャのための様々なパラメータを指定する。具体的には、深度ピクチャの深度または視差範囲が指定される。
...
【0113】
depth_representation_typeは、表Y1において指定されるように、補助ピクチャの復号されたルーマサンプルの表現定義を指定する。表Y1において、視差は、2つのテクスチャビュー間の水平変位を指定し、Z値は、カメラからの距離を指定する。
depth_representation_typeの値は、両端値を含めて0~15の範囲内にあるものとする。変数maxValは、(1<<BitDepthY)-1に等しく設定される。
【表8】
【0114】
disparity_ref_view_idは、視差値が導出されるViewId値を指定する。
disparity_ref_view_idの値は、両端値を含めて0~1023の範囲内にあるものとする。disparity_ref_view_idは、d_min_flagが1に等しいか、またはd_max_flagが1に等しい場合にのみ存在し、1および3に等しいdepth_representation_type値に有用である。表Y2のx列の変数は、表Y2のs、e、nおよびv列のそれぞれの変数から以下のように導出される。eの値が0~127(0を除く)の範囲にある場合、xは(-1)s*2e-31*(1+n÷2v)に等しく設定される。そうでなければ(eが0に等しい場合)、xは(-1)s*2-(30+v)*nに等しく設定される。
【表9】
【0115】
DMin値およびDMax値は、存在するとき、ViewIdが補助ピクチャのViewIdに等しいコード化ピクチャのルーマサンプル幅の単位で指定される。ZNearおよびZFar値の単位は、存在するとき、同一であるが、指定されていない。
【0116】
depth_nonlinear_representation_num_minus1+2は、視差に関して一様に量子化されたスケールに深度値をマッピングするための区分的線形セグメントの数を指定する。depth_nonlinear_representation_num_minus1の値は、両端値を含めて0~62の範囲内にあるものとする。両端値を含めて0からdepth_nonlinear_representation_num_minus1+2の範囲にわたるiについてのdepth_nonlinear_representation_model[i]は、視差に関して一様に量子化されたスケールに補助ピクチャの復号されたルーマサンプル値をマッピングするための区分的線形セグメントを指定する。depth_nonlinear_representation_model[i]の値は、両端値を含めて0~65535の範囲内にあるものとする。depth_nonlinear_representation_model[0]およびdepth_nonlinear_representation_model[depth_nonlinear_representation_num_minus1+2]の値は、両方とも0に等しいと推論される。
【0117】
...
【0118】
拡張DRAP指示SEIメッセージセマンティクスの例は、以下の通りである。拡張DRAP(EDRAP)指示SEIメッセージに関連付けられたピクチャは、EDRAPピクチャと呼ばれる。EDRAP指示SEIメッセージの存在は、このサブクローズにおいて指定されたピクチャ順序およびピクチャ参照に対する制約が適用されることを示す。これらの制約により、デコーダは、EDRAPピクチャと、同じレイヤ中にあるピクチャとを適切に復号することができ、ピクチャのリストreferenceablePicturesを除いて、同じレイヤ中にある他のピクチャを復号する必要なしに、復号順序と出力順序の両方においてそれに後続することができ、これは、同じCLVS内にあり、edrap_ref_rap_id[i]シンタックス要素によって識別される、復号順序でのIRAPまたはEDRAPピクチャのリストを含む。
【0119】
EDRAP指示SEIメッセージの存在によって示される制約は、すべて適用されるものとし、以下の通りである。EDRAPピクチャは、トレーリングピクチャである。EDRAPピクチャは、0に等しい時間サブレイヤ識別子を有する。EDRAPピクチャは、referenceablePicturesを除いて、その参照ピクチャリストのアクティブエントリ中に、同じレイヤ中にあるピクチャを含まない。同じレイヤ中にあり、復号順序と出力順序の両方においてEDRAPピクチャに後続する任意のピクチャは、referenceablePicturesを除いて、その参照ピクチャリストのアクティブエントリ中に、同じレイヤ中にあり、復号順序または出力順序においてEDRAPピクチャに先行するピクチャを含まない。
【0120】
[[edrap_leading_pictures_decodable_flagが1に等しいとき、以下が適用される。同じレイヤ中にあり、復号順序においてEDRAPピクチャに後続する任意のピクチャは、出力順序において、同じレイヤ中にあり、復号順序においてEDRAPピクチャに先行する任意のピクチャに後続するものとする。同じレイヤ中にあり、復号順序においてEDRAPピクチャに後続し、出力順序においてEDRAPピクチャに先行する任意のピクチャは、referenceablePicturesを除いて、その参照ピクチャリストのアクティブエントリ中に、同じレイヤ中にあり、復号順序においてEDRAPピクチャに先行するピクチャを含まない。]]
【0121】
リストreferenceablePictures中の任意のピクチャは、その参照ピクチャリストのアクティブエントリ中に、同じレイヤ中にあり、リストreferenceablePictures中のより前の位置にあるピクチャではないピクチャを含まない。したがって、referenceablePictures中の最初のピクチャは、それがIRAPピクチャではなくEDRAPピクチャであるときでも、その参照ピクチャリストのアクティブエントリ中に、同じレイヤからのピクチャを含まない。
【0122】
edrap_rap_id_minus1+1は、EDRAPピクチャの、RapPicIdとして示されるRAPピクチャ識別子を指定する。各IRAPまたはEDRAPピクチャは、RapPicId値に関連付けられる。IRAPピクチャのためのRapPicId値は0に等しいと推論される。同じIRAPピクチャに関連付けられた任意の2つのEDRAPピクチャのためのRapPicId値は異なるものとする。
【0123】
1に等しいedrap_leading_pictures_decodable_flagは、以下の制約の両方が適用されることを指定する。同じレイヤ中にあり、復号順序においてEDRAPピクチャに後続する任意のピクチャは、出力順序において、同じレイヤ中にあり、復号順序においてEDRAPピクチャに先行する任意のピクチャに後続するものとする。同じレイヤ中にあり、復号順序においてEDRAPピクチャに後続し、出力順序においてEDRAPピクチャに先行する任意のピクチャは、referenceablePicturesを除いて、その参照ピクチャリストのアクティブエントリ中に、同じレイヤ中にあり、復号順序においてEDRAPピクチャに先行するピクチャを含まないものとする。0に等しいedrap_leading_pictures_decodable_flagは、そのような制約を課さない。
【0124】
edrap_reserved_zero_12bitsは、本明細書のこのバージョンに準拠するビットストリーム中で0に等しいものとする。edrap_reserved_zero_12bitsの他の値は予約される。デコーダは、edrap_reserved_zero_12bitsの値を無視するものとする。edrap_num_ref_rap_pics_minus1+1は、EDRAPピクチャと同じCLVS内にあり、EDRAPピクチャの参照ピクチャリストのアクティブエントリ中に含まれ得るIRAPまたはEDRAPピクチャの数を示す。edrap_ref_rap_id[i]は、EDRAPピクチャの参照ピクチャリストのアクティブエントリ中に含まれ得るi番目のRAPピクチャのRapPicIdを示す。i番目のRAPピクチャは、現在のEDRAPピクチャに関連付けられたIRAPピクチャ、または現在のEDRAPピクチャと同じIRAPピクチャに関連付けられたEDRAPピクチャのいずれかであるものとする。
...
【0125】
図2は、本明細書で開示される様々な技法が実装され得る例示的なビデオ処理システム4000を示すブロック図である。様々な実装形態は、システム4000のコンポーネントの一部または全部を含み得る。システム4000は、ビデオコンテンツを受信するための入力4002を含み得る。ビデオコンテンツは、生または圧縮されていないフォーマット、例えば、8または10ビットのマルチコンポーネントピクセル値で受信され得るか、または圧縮もしくは符号化されたフォーマットであり得る。入力4002は、ネットワークインターフェース、周辺バスインターフェース、またはストレージインターフェースを表し得る。ネットワークインターフェース接続の例には、イーサネット(登録商標)、パッシブ光ネットワーク(PON)などのワイヤードインターフェース、およびWi-Fiまたはセルラーインターフェースなどのワイヤレスインターフェースが含まれる。
【0126】
システム4000は、本文書で説明される様々なコーディングまたは符号化方法を実装し得るコーディングコンポーネント4004を含み得る。コーディングコンポーネント4004は、ビデオのコード化表現を生成するために、入力4002からコーディングコンポーネント4004の出力へのビデオの平均ビットレートを低減し得る。したがって、コーディング技法は、ビデオ圧縮またはビデオトランスコーディング技法と呼ばれることがある。コーディングコンポーネント4004の出力は、コンポーネント4006によって表されるように、記憶されるか、または接続された通信を介して送信されるかのいずれかであり得る。入力4002において受信されたビデオの記憶または通信されたビットストリーム(またはコーディングされた)表現は、ディスプレイインターフェース4010に送られるピクセル値または表示可能ビデオを生成するためにコンポーネント4008によって使用され得る。ビットストリーム表現からユーザ閲覧可能ビデオを生成するプロセスは、ビデオ復元と呼ばれることがある。さらに、特定のビデオ処理動作は「コーディング」動作またはツールと呼ばれるが、コーディングツールまたは動作はエンコーダにおいて使用され、コーディングの結果を逆にする対応する復号ツールまたは動作はデコーダによって実行されることを理解されよう。
【0127】
周辺バスインターフェースまたはディスプレイインターフェースの例には、USB(universal serial bus)またはHDMI(登録商標)(high definition multimedia interface)またはディスプレイポートなどが含まれ得る。ストレージインターフェースの例としては、SATA(serial advanced technology attachment)、PCI、IDEインターフェースなどが含まれる。本文書で説明される技法は、デジタルデータ処理および/またはビデオ表示を実行することができる携帯電話、ラップトップ、スマートフォンまたは他のデバイスのような様々な電子デバイスにおいて具現されて得る。
【0128】
図3は、例示的なビデオ処理装置4100のブロック図である。装置4100は、本明細書で説明される方法のうちの1つまたは複数を実装するために使用され得る。装置4100は、スマートフォン、タブレット、コンピュータ、モノのインターネット(IoT)受信機などにおいて具現化され得る。装置4100は、1つまたは複数のプロセッサ4102と、1つまたは複数のメモリ4104と、ビデオ処理回路4106とを含み得る。プロセッサ(複数可)4102は、本文書で説明される1つまたは複数の方法を実装するよう構成され得る。メモリ(複数可)4104は、本明細書で説明される方法および技法を実装するために使用されるデータおよびコードを記憶するために使用され得る。ビデオ処理回路4106は、ハードウェア回路において、本文書で説明されるいくつかの技法を実装するために使われ得る。いくつかの実施形態では、ビデオ処理回路4106は、プロセッサ4102、例えば、グラフィックスコプロセッサに少なくとも部分的に含まれ得る。
【0129】
図4は、ビデオ処理の例示的な方法4200のフローチャートである。方法4200は、ステップ4202において、N~Mの範囲内にあるように指定されたar_object_label_idx[ar_object_idx[i]]シンタックス要素の値を決定することを含む。NおよびMは整数であり、NはMよりも小さい。例えば、Nは0であり得、Mは3、7、15、31、63、または255であり得、N~Mの範囲は両端値を含み得る。一例では、ar_object_label_idx[ar_object_idx[i]]シンタックス要素はAR SEIメッセージに含まれる。
【0130】
ステップ4204において、depth_representation_typeシンタックス要素の値が決定される。depth_representation_typeシンタックス要素は、A~Bの範囲内にあるように指定され得る。AおよびBは整数であり得、AはBよりも小さい。例えば、Aは0であり得、Bは3、7、15、31、63、127、または255であり得、A~Bの範囲は両端値を含み得る。一例では、depth_representation_typeシンタックス要素はDRI SEIメッセージに含まれる。
【0131】
ステップ4206において、depth_nonlinear_representation_model[i]シンタックス要素の値が決定される。depth_nonlinear_representation_model[i]シンタックス要素は、C~Dの範囲内にあるように指定される。CおよびDは整数であり得、CはDよりも小さい。例えば、Cは0であり得、Dは6、14、30、62、126、または254であり得、C~Dの範囲は両端値を含み得る。一例では、depth_nonlinear_representation_model[i]シンタックス要素はDRI SEIメッセージに含まれる。
【0132】
ステップ4208において、disparity_ref_view_idシンタックス要素の値が決定される。disparity_ref_view_idシンタックス要素は、E~Fの範囲内にあるように指定される。EおよびFは整数であり得、EはFよりも小さい。例えば、Eは0であり得、Fは63、127、255、511、1023、2047、4095、8191、16383、32767、または65535であり得、E~Fの範囲は両端値を含み得る。一例では、disparity_ref_view_idシンタックス要素は、DRI SEIメッセージに含まれる。
【0133】
ステップ4210において、ar_object_label_idx[ar_object_idx[i]]、depth_nonlinear_representation_model[i]、disparity_ref_view_id、および/またはdisparity_ref_view_idに基づいて、ビジュアルメディアデータとビットストリームとの間の変換が実行される。方法4200がエンコーダ上で実行されるとき、変換は、ビジュアルメディアデータをビットストリームに符号化することを含む。方法4200がデコーダ上で実行されるとき、変換は、ビジュアルメディアデータを取得するためにビットストリームを復号することを含む。
【0134】
方法4200は、ビデオエンコーダ4400、ビデオデコーダ4500、および/またはエンコーダ4600など、プロセッサと、命令を有する非一時的メモリとを備える、ビデオデータを処理するための装置において実施され得ることに留意されたい。そのような場合、命令は、プロセッサによって実行されると、プロセッサに、方法4200を実行させる。さらに、方法4200は、ビデオコーディングデバイスによって使用するためのコンピュータプログラム製品を備える非一時的コンピュータ可読媒体によって実行することができる。コンピュータプログラム製品は、プロセッサによって実行されたとき、ビデオコーディングデバイスに、方法4200を実行させるように、非一時的コンピュータ可読媒体に記憶されたコンピュータ実行可能命令を備える。
【0135】
図5は、本開示の技法を利用し得る例示的なビデオコーディングシステム4300を示すブロック図である。ビデオコーディングシステム4300は、ソースデバイス4310と宛先デバイス4320とを含み得る。ソースデバイス4310は、ビデオ符号化デバイスと呼ばれることがある符号化ビデオデータを生成する。宛先デバイス4320は、ビデオ復号デバイスと呼ばれることがあるソースデバイス4310によって生成された符号化ビデオデータを復号し得る。
【0136】
ソースデバイス4310は、ビデオソース4312と、ビデオエンコーダ4314と、入力/出力(I/O)インターフェース4316とを含み得る。ビデオソース4312は、ビデオキャプチャデバイス、ビデオコンテンツプロバイダからビデオデータを受信するためのインターフェース、および/またはビデオデータを生成するためのコンピュータグラフィックスシステムなどのソース、またはそのようなソースの組合せを含み得る。ビデオデータは、1つまたは複数のピクチャを含み得る。ビデオエンコーダ4314は、ビデオソース4312からのビデオデータを符号化して、ビットストリームを生成する。ビットストリームは、ビデオデータのコード化表現を形成するビットのシーケンスを含み得る。ビットストリームは、コード化ピクチャと関連データとを含み得る。コード化ピクチャは、ピクチャのコード化表現である。関連データは、シーケンスパラメータセット、ピクチャパラメータセット、および他のシンタックス構造を含み得る。I/Oインターフェース4316は、変調器/復調器(モデム)および/または送信機を含み得る。符号化ビデオデータは、ネットワーク4330を通してI/Oインターフェース4316を介して宛先デバイス4320に直接送信され得る。符号化ビデオデータはまた、宛先デバイス4320によるアクセスのために記憶媒体/サーバ4340上に記憶され得る。
【0137】
宛先デバイス4320は、I/Oインターフェース4326と、ビデオデコーダ4324と、ディスプレイデバイス4322とを含み得る。I/Oインターフェース4326は、受信機および/またはモデムを含み得る。I/Oインターフェース4326は、ソースデバイス4310または記憶媒体/サーバ4340から符号化ビデオデータを取得し得る。ビデオデコーダ4324は、符号化ビデオデータを復号し得る。ディスプレイデバイス4322は、復号されたビデオデータをユーザに表示し得る。ディスプレイデバイス4322は、宛先デバイス4320と統合され得るか、または宛先デバイス4320の外部にあり得、これは、外部ディスプレイデバイスとインターフェースするように構成することができる。
【0138】
ビデオエンコーダ4314およびビデオデコーダ4324は、高効率ビデオコーディング(HEVC)規格、汎用ビデオコーディング(VVM)規格、ならびに他の現在のおよび/またはさらなる規格などのビデオ圧縮規格にしたがって動作し得る。
【0139】
図6は、
図5に示されたシステム4300中のビデオエンコーダ4314であり得るビデオエンコーダ4400の一例を示すブロック図である。ビデオエンコーダ4400は、本開示の技法のいずれかまたはすべてを実行するように構成され得る。ビデオエンコーダ4400は、複数の機能コンポーネントを含む。本開示で説明される技法は、ビデオエンコーダ4400の様々なコンポーネントの間で共有され得る。いくつかの例では、プロセッサは、本開示で説明される技法のいずれかまたはすべてを実行するように構成され得る。
【0140】
ビデオエンコーダ4400の機能コンポーネントは、区分ユニット4401と、モード選択ユニット4403を含み得る予測ユニット4402と、動き推定ユニット4404と、動き補償ユニット4405と、イントラ予測ユニット4406と、残差生成ユニット4407と、変換処理ユニット4408と、量子化ユニット4409と、逆量子化ユニット4410と、逆変換ユニット4411と、再構成ユニット4412と、バッファ4413と、エントロピー符号化ユニット4414とを含み得る。
【0141】
他の例では、ビデオエンコーダ4400は、より多くの、より少ない、または異なる機能コンポーネントを含み得る。一例では、予測ユニット4402は、イントラブロックコピー(IBC)ユニットを含み得る。IBCユニットは、少なくとも1つの参照ピクチャが、現在ビデオブロックが位置するピクチャであるIBCモードで予測を実行し得る。
【0142】
さらに、動き推定ユニット4404および動き補償ユニット4405などのいくつかのコンポーネントは、高度に統合され得るが、説明のためにビデオエンコーダ4400の例では別々に表される。
【0143】
区分ユニット4401は、ピクチャを1つまたは複数のビデオブロックに区分し得る。ビデオエンコーダ4400およびビデオデコーダ4500は、様々なビデオブロックサイズをサポートし得る。
【0144】
モード選択ユニット4403は、例えば、エラー結果に基づいて、イントラまたはインターのうちの1つのコーディングモードを選択し、得られたイントラまたはインターコード化ブロックを、残差生成ユニット4407に提供して残差ブロックデータを生成し、再構成ユニット4412に提供して参照ピクチャとして使用するために符号化ブロックを再構成し得る。いくつかの例では、モード選択ユニット4403は、予測がインター予測信号とイントラ予測信号とに基づくイントラおよびインター予測(CIIP)モードの組合せを選択し得る。モード選択ユニット4403はまた、インター予測の場合、ブロックのための動きベクトルの解像度(例えば、サブピクセルまたは整数ピクセル精度)を選択し得る。
【0145】
現在ビデオブロックに対してインター予測を実行するために、動き推定ユニット4404は、バッファ4413からの1つまたは複数の参照フレームを現在ビデオブロックと比較することによって、現在ビデオブロックについての動き情報を生成し得る。動き補償ユニット4405は、動き情報と、現在ビデオブロックに関連付けられたピクチャ以外のバッファ4413からのピクチャの復号サンプルとに基づいて、現在ビデオブロックのための予測ビデオブロックを決定し得る。
【0146】
動き推定ユニット4404および動き補償ユニット4405は、例えば、現在ビデオブロックがIスライス中にあるか、Pスライス中にあるか、Bスライス中にあるかに応じて、現在ビデオブロックに対して異なる動作を実行し得る。
【0147】
いくつかの例では、動き推定ユニット4404は、現在ビデオブロックのための単方向予測を実行し得、動き推定ユニット4404は、現在ビデオブロックのための参照ビデオブロックについて、リスト0またはリスト1の参照ピクチャを探索し得る。次いで、動き推定ユニット4404は、参照ビデオブロックを含むリスト0またはリスト1中の参照ピクチャを示す参照インデックスと、現在ビデオブロックと参照ビデオブロックとの間の空間変位を示す動きベクトルとを生成し得る。動き推定ユニット4404は、現在ビデオブロックの動き情報として、参照インデックスと、予測方向インジケータと、動きベクトルとを出力し得る。動き補償ユニット4405は、現在ビデオブロックの動き情報によって示された参照ビデオブロックに基づいて、現在ブロックの予測ビデオブロックを生成し得る。
【0148】
他の例では、動き推定ユニット4404は、現在ビデオブロックに対して双方向予測を実行し得、動き推定ユニット4404は、現在ビデオブロックのための参照ビデオブロックについてリスト0中の参照ピクチャを探索し得、また、現在ビデオブロックのための別の参照ビデオブロックについてリスト1中の参照ピクチャを探索し得る。次いで、動き推定ユニット4404は、参照ビデオブロックを含むリスト0およびリスト1中の参照ピクチャを示す参照インデックスと、参照ビデオブロックと現在ビデオブロックとの間の空間変位を示す動きベクトルとを生成し得る。動き推定ユニット4404は、現在ビデオブロックの動き情報として、現在ビデオブロックの参照インデックスと動きベクトルとを出力し得る。動き補償ユニット4405は、現在ビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在ビデオブロックの予測ビデオブロックを生成し得る。
【0149】
いくつかの例では、動き推定ユニット4404は、デコーダの復号処理のために動き情報のフルセットを出力し得る。いくつかの例では、動き推定ユニット4404は、現在ビデオのための動き情報のフルセットを出力しないことがある。むしろ、動き推定ユニット4404は、別のビデオブロックの動き情報を参照して現在ビデオブロックの動き情報をシグナリングし得る。例えば、動き推定ユニット4404は、現在ビデオブロックの動き情報が隣接ビデオブロックの動き情報に十分に類似していると決定し得る。
【0150】
一例では、動き推定ユニット4404は、現在ビデオブロックに関連付けられたシンタックス構造中で、現在ビデオブロックが別のビデオブロックと同じ動き情報を有することをビデオデコーダ4500に示す値を示し得る。
【0151】
別の例では、動き推定ユニット4404は、現在ビデオブロックに関連付けられたシンタックス構造中で、別のビデオブロックと動きベクトル差分(MVD)とを識別し得る。動きベクトル差分は、現在ビデオブロックの動きベクトルと示されたビデオブロックの動きベクトルとの間の差分を示す。ビデオデコーダ4500は、現在ビデオブロックの動きベクトルを決定するために、示されたビデオブロックの動きベクトルと動きベクトル差分とを使用し得る。
【0152】
上記で説明したように、ビデオエンコーダ4400は、動きベクトルを予測的にシグナリングし得る。ビデオエンコーダ4400によって実装され得る予測シグナリング技法の2つの例は、高度動きベクトル予測(AMVP)およびマージモードシグナリングを含む。
【0153】
イントラ予測ユニット4406は、現在ビデオブロックに対してイントラ予測を実行し得る。イントラ予測ユニット4406が現在ビデオブロックに対してイントラ予測を実行するとき、イントラ予測ユニット4406は、同じピクチャ中の他のビデオブロックの復号サンプルに基づいて現在ビデオブロックのための予測データを生成し得る。現在ビデオブロックの予測データは、予測ビデオブロックと様々なシンタックス要素とを含み得る。
【0154】
残差生成ユニット4407は、現在ビデオブロックから現在ビデオブロックの予測ビデオブロック(複数可)を減算することによって、現在ビデオブロックの残差データを生成し得る。現在ビデオブロックの残差データは、現在ビデオブロック中のサンプルの異なるサンプル成分に対応する残差ビデオブロックを含み得る。
【0155】
他の例では、例えば、スキップモードでは、現在ビデオブロックについて現在ビデオブロックの残差データがないことがあり、残差生成ユニット4407は減算動作を実行しないことがある。
【0156】
変換処理ユニット4408は、現在ビデオブロックに関連付けられた残差ビデオブロックに1つまたは複数の変換を適用することによって、現在ビデオブロックのための1つまたは複数の変換係数ビデオブロックを生成し得る。
【0157】
変換処理ユニット4408が現在ビデオブロックに関連付けられた変換係数ビデオブロックを生成した後、量子化ユニット4409は、現在ビデオブロックに関連付けられた1つまたは複数の量子化パラメータ(QP)値に基づいて、現在ビデオブロックに関連付けられた変換係数ビデオブロックを量子化し得る。
【0158】
逆量子化ユニット4410および逆変換ユニット4411は、変換係数ビデオブロックに逆量子化および逆変換をそれぞれ適用して、変換係数ビデオブロックから残差ビデオブロックを再構成し得る。再構成ユニット4412は、再構成された残差ビデオブロックを、予測ユニット4402によって生成された1つまたは複数の予測ビデオブロックからの対応するサンプルに加算して、バッファ4413への記憶のために、現在ブロックに関連付けられた再構成されたビデオブロックを生成し得る。
【0159】
再構成ユニット4412がビデオブロックを再構成した後、ビデオブロック中のビデオブロッキングアーティファクトを低減するためにループフィルタ処理演算が実行され得る。
【0160】
エントロピー符号化ユニット4414は、ビデオエンコーダ4400の他の機能コンポーネントからデータを受信し得る。エントロピー符号化ユニット4414がデータを受信したとき、エントロピー符号化ユニット4414は、1つまたは複数のエントロピー符号化動作を実行して、エントロピー符号化データを生成し、エントロピー符号化データを含むビットストリームを出力し得る。
【0161】
図7は、
図5に示したシステム4300中のビデオデコーダ4324であり得るビデオデコーダ4500の一例を示すブロック図である。ビデオデコーダ4500は、本開示の技法のいずれかまたはすべてを実行するように構成され得る。図示の例では、ビデオデコーダ4500は、複数の機能コンポーネントを含む。本開示で説明される技法は、ビデオデコーダ4500の様々なコンポーネントの間で共有され得る。いくつかの例では、プロセッサは、本開示で説明される技法のいずれかまたはすべてを実行するように構成され得る。
【0162】
図示の例では、ビデオデコーダ4500は、エントロピー復号ユニット4501と、動き補償ユニット4502と、イントラ予測ユニット4503と、逆量子化ユニット4504と、逆変換ユニット4505と、再構成ユニット4506と、バッファ4507とを含む。ビデオデコーダ4500は、いくつかの例では、ビデオエンコーダ4400に関して説明された符号化パスとは概して逆の復号パスを実行し得る。
【0163】
エントロピー復号ユニット4501は、符号化ビットストリームを取り出し得る。符号化ビットストリームは、エントロピーコーディングされたビデオデータ(例えば、ビデオデータの符号化ブロック)を含み得る。エントロピー復号ユニット4501は、エントロピーコード化されたビデオデータを復号し得、エントロピー復号されたビデオデータから、動き補償ユニット4502は、動きベクトルと、動きベクトル精度と、参照ピクチャリストインデックスと、他の動き情報とを含む動き情報を決定し得る。動き補償ユニット4502は、例えば、AMVPおよびマージモードを実行することによってそのような情報を決定し得る。
【0164】
動き補償ユニット4502は、場合によっては補間フィルタに基づいて補間を実行して、動き補償されたブロックを生成し得る。サブピクセル精度で使用されるべき補間フィルタの識別子は、シンタックス要素中に含まれ得る。
【0165】
動き補償ユニット4502は、参照ブロックのサブ整数ピクセルの補間値を計算するために、ビデオブロックの符号化中にビデオエンコーダ4400によって使用される補間フィルタを使用し得る。動き補償ユニット4502は、受信されたシンタックス情報にしたがってビデオエンコーダ4400によって使用される補間フィルタを決定し、予測ブロックを生成するために補間フィルタを使用し得る。
【0166】
動き補償ユニット4502は、符号化ビデオシーケンスのフレーム(複数可)および/またはスライス(複数可)を符号化するために使用されるブロックのサイズと、符号化ビデオシーケンスのピクチャの各マクロブロックがどのように区分されるかを記述する区分情報と、各区分がどのように符号化されるかを示すモードと、各インターコード化ブロックのための1つまたは複数の参照フレーム(および参照フレームリスト)と、符号化ビデオシーケンスを復号するための他の情報とを決定するために、シンタックス情報の一部を使用し得る。
【0167】
イントラ予測ユニット4503は、空間的に隣接するブロックから予測ブロックを形成するために、例えば、ビットストリーム中で受信されたイントラ予測モードを使用し得る。逆量子化ユニット4504は、ビットストリーム中で提供され、エントロピー復号ユニット4501によって復号された量子化ビデオブロック係数を逆量子化(inverse quantize)、すなわち、逆量子化(de-quantize)する。逆変換ユニット4505は逆変換を適用する。
【0168】
再構成ユニット4506は、復号ブロックを形成するために、残差ブロックを、動き補償ユニット4502またはイントラ予測ユニット4503によって生成された対応する予測ブロックと加算し得る。必要に応じて、ブロッキネスアーティファクトを除去するために、デブロッキングフィルタも適用して、復号されたブロックをフィルタ処理し得る。次いで、復号されたビデオブロックは、バッファ4507に記憶され、それは、後続の動き補償/イントラ予測のための参照ブロックを提供し、また、ディスプレイデバイス上での提示のための復号されたビデオを生成する。
【0169】
図8は、例示的なエンコーダ4600の概略図である。エンコーダ4600は、VVCの技術を実施するのに適している。エンコーダ4600は、3つのループ内フィルタ、すなわち、デブロッキングフィルタ(DF)4602、サンプル適応オフセット(SAO)4604、および適応ループフィルタ(ALF)4606を含む。予め定義されたフィルタを使用するDF4602とは異なり、SAO4604およびALF4606は、現在ピクチャの元のサンプルを利用して、それぞれ、オフセットを追加することによって、およびオフセットとフィルタ係数とをシグナリングするコード化サイド情報とともに有限インパルス応答(FIR)フィルタを適用することによって、元のサンプルと再構成されたサンプルとの間の平均二乗誤差を低減する。ALF4606は、各ピクチャの最後の処理段階に位置し、前段階で生成されたアーチファクトを捕えて修正しようとするツールとみなすことができる。
【0170】
エンコーダ4600は、イントラ予測コンポーネント4608と、入力ビデオを受信するように構成された動き推定/補償(ME/MC)コンポーネント4610とをさらに含む。イントラ予測コンポーネント4608は、イントラ予測を実行するように構成され、ME/MCコンポーネント4610は、参照ピクチャバッファ4612から取得された参照ピクチャを利用してインター予測を実行するように構成される。インター予測またはイントラ予測からの残差ブロックは、変換(T)コンポーネント4614および量子化(Q)コンポーネント4616に供給されて、量子化された残差変換係数が生成され、これは、エントロピーコーディングコンポーネント4618に供給される。エントロピーコーディングコンポーネント4618は、予測結果および量子化された変換係数をエントロピーコーディングしてビデオデコーダ(図示せず)に送信する。量子化コンポーネント4616からの量子化コンポーネント出力は、逆量子化(IQ)コンポーネント4620、逆変換コンポーネント4622、および再構成(REC)コンポーネント4624に供給され得る。RECコンポーネント4624は、画像が参照ピクチャバッファ4612に記憶される前にフィルタリングするために、DF4602、SAO4604、およびALF4606に画像を出力することができる。
【0171】
いくつかの例に好まれる解決策のリストを次に提供する。
【0172】
以下の解決策は、本明細書で説明される技法の例を示す。
【0173】
1.メディアデータ処理の方法(例えば、
図4に示す方法4200)であって、規則にしたがってビデオとビデオのビットストリームとの間の変換を実行するステップを含み、規則は、ビデオの注釈付き領域中の対応するオブジェクトのためのラベルへのインデックスを示す1つまたは複数のシンタックスフィールドの値の範囲を指定し、範囲はNとMとの間であり、NおよびMは整数である、方法。
【0174】
2.N=0であり、M=255である、解決策1に記載の方法。
【0175】
3.N=0であり、M=3である、解決策1に記載の方法。
【0176】
以下の解決策は、前のセクション(例えば、項目2)で説明した技法の例示的な実施形態を示す。
【0177】
4.ビデオデータを処理する方法であって、規則にしたがってビデオとビデオのビットストリームとの間の変換を実行するステップを含み、規則は、ビデオ中のオブジェクトのための深度情報の区分的非線形マッピングにおいて使用される非線形セグメントの数を示すシンタックス要素をコーディングするために使用されるコーディングのタイプがビットストリーム中でコーディングされることを指定する、方法。
【0178】
5.規則は、シンタックス要素が、左ビット優先コーディングで、可変の符号なし整数0次指数ゴロムコード化シンタックス要素としてコーディングされることを指定する、解決策1に記載の方法。
【0179】
6.規則は、シンタックス要素がu(N’)コーディングされることを指定し、N’は正の整数である、解決策1に記載の方法。
【0180】
7.規則は、シンタックス要素が、左ビット優先コーディングで符号付き整数0次指数ゴロムコード化シンタックス要素としてコーディングされることを指定する、解決策1に記載の方法。
【0181】
8.規則は、シンタックス要素の値がNとMの範囲内にあるように制約されることを指定し、NおよびMは整数である、解決策1から4のいずれかに記載の方法。
【0182】
9.N=0およびM=65535である、解決策5に記載の方法。
【0183】
10.N=0であり、M=3である、解決策2に記載の方法。
【0184】
以下の解決策は、前のセクション(例えば、項目3)で説明した技法の例示的な実施形態を示す。
【0185】
11.ビデオデータを処理する方法であって、規則にしたがってビデオとビデオのビットストリームとの間の変換を実行するステップを含み、規則は、ビデオ中の1つまたは複数のオブジェクトの深度情報を表す補足エンハンスメント情報シンタックス構造中のシンタックス要素に対する制約を指定する、方法。
【0186】
12.シンタックス要素は、深度表現タイプを含み、規則は、シンタックス要素の値がN~Mの範囲内にあるように制約されることを指定し、NおよびMは整数である、解決策11に記載の方法。
【0187】
13.シンタックス要素は、深度情報のための非線形マッピングモデルの数を示し、規則は、シンタックス要素が0~Mの範囲内にあることを指定し、Mは整数である、解決策11に記載の方法。
【0188】
14.シンタックス要素は、視差参照ビューの識別子を示し、規則は、シンタックス要素の値が0とMとの間であることを指定し、Mは整数である、解決策11に記載の方法。
【0189】
以下の解決策は、前のセクション(例えば、項目4)で説明した技法の例示的な実施形態を示す。
【0190】
15.ビデオデータを処理する方法であって、規則にしたがってビデオとビデオのビットストリームとの間の変換を実行するステップを含み、規則は、拡張依存ランダムアクセスポイントであるピクチャを示すフラグの値が、(1)ピクチャと同じレイヤ中にあり、復号順序および出力順序においてピクチャに後続するピクチャに対する第1の順序制約と、(2)ピクチャと同じレイヤ中にあり、復号順序においてピクチャに後続し、出力順序においてピクチャに先行するピクチャに対する第2の順序制約とを制御することを指定する、方法。
【0191】
16.値が1に等しい、解決策15に記載の方法。
【0192】
17.変換は、ビデオからビットストリームを生成することを含む、解決策1から16のいずれかに記載の方法。
【0193】
18.変換は、ビットストリームからビデオを生成することを含む、解決策1から16のいずれかに記載の方法。
【0194】
19.解決策1から18のうちの1つまたは複数に記載の方法を実施するように構成されたプロセッサを備えるビデオ復号装置。
【0195】
20.解決策1から18のうちの1つまたは複数に記載の方法を実施するように構成されたプロセッサを備えるビデオ符号化装置。
【0196】
21.コンピュータコードを記憶したコンピュータプログラム製品であって、コードは、プロセッサによって実行されると、プロセッサに、解決策1から18のいずれかに記載の方法を実施させる、コンピュータプログラム製品。
【0197】
22.解決策1から8のいずれか1つまたは複数に記載の方法にしたがってビットストリームを生成するステップと、ビットストリームをコンピュータ可読媒体に記憶するステップとを含む、ビデオ処理の方法。
【0198】
23.本文書に記載される方法、装置またはシステム。
【0199】
本明細書では、「ビデオ処理」という用語は、ビデオ符号化、ビデオ復号、ビデオ圧縮、またはビデオ復元を指し得る。例えば、ビデオのピクセル表現から対応するビットストリーム表現への、またはその逆の変換中に、ビデオ圧縮アルゴリズムが適用され得る。現在ビデオブロックのビットストリーム表現は、例えば、シンタックスによって定義されるように、ビットストリーム内にコロケートしているかまたはビットストリーム内の異なる場所に拡散されているかのいずれかであるビットに対応し得る。例えば、マクロブロックは、変換されコーディングされた誤差残差値に関して、また、ビットストリーム中のヘッダおよび他のフィールド中のビットを使用して符号化され得る。さらに、変換中、デコーダは、上記の解決策で説明したように、決定に基づいて、いくつかのフィールドが存在するか、または存在しないことがあるという知識を用いてビットストリームをパースし得る。同様に、エンコーダは、特定のシンタックスフィールドが含まれるべきであるかまたは含まれるべきでないと決定し、それに応じて、シンタックスフィールドを含めることまたはコード化表現からそれを除外することによって、コード化表現を生成し得る。
【0200】
本文書で説明された開示されたおよび他の解決策、例、実施形態、モジュール、および機能的動作は、本文書に開示された構造およびそれらの構造的同等物を含む、デジタル電子回路、またはコンピュータソフトウェア、ファームウェア、もしくはハードウェア、あるいはそれらの1つまたは複数の組合せで実装され得る。開示された実施形態および他の実施形態は、1つまたは複数のコンピュータプログラム製品、すなわち、データ処理装置による実行のために、またはデータ処理装置の動作を制御するために、コンピュータ可読媒体上に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実装することができる。コンピュータ可読媒体は、機械可読記憶デバイス、機械可読記憶基板、メモリデバイス、機械可読伝搬信号をもたらす組成物、またはそれらの1つもしくは複数の組合せとすることができる。「データ処理装置」という用語は、例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての装置、デバイス、および機械を包含する。装置は、ハードウェアに加えて、問題のコンピュータプログラムのための実行環境を作成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つもしくは複数の組合せを構成するコードを含むことができる。伝搬信号は、適切な受信機装置への送信のために情報を符号化するために生成される、人工的に生成された信号、例えば、機械によって生成された電気信号、光信号、または電磁信号である。
【0201】
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られる)は、コンパイラ型言語またはインタープリタ型言語を含む任意の形態のプログラム言語で書くことができ、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境での使用に適した他のユニットとして含む任意の形態で展開することができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応しない。プログラムは、他のプログラムまたはデータ(例えば、マークアップ言語文書に記憶された1つまたは複数のスクリプト)を保持するファイルの一部に、問題のプログラム専用の単一のファイルに、または複数の協調ファイル(例えば、1つまたは複数のモジュール、サブプログラム、またはコードの一部を記憶するファイル)に記憶することができる。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトに位置するか、もしくは複数のサイトにわたって分散され、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開され得る。
【0202】
本文書で説明されるプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実行するために1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理フローはまた、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって行われ得、装置はまた、専用論理回路、例えば、FPGAまたはASICとして実装され得る。
【0203】
コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読取り専用メモリまたはランダムアクセスメモリまたはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、例えば、磁気、光磁気ディスク、または光ディスクを含むか、またはそれらかのデータ受信もしくはそれらへのデータ転送もしくはその両方を行うように動作可能に結合されるであろう。しかしながら、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、揮発性メモリデバイス、例えば、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、およびフラッシュメモリデバイスと、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスクと、光磁気ディスクと、コンパクトディスク読取り専用メモリ(CDROM)およびデジタル多用途ディスク読取り専用メモリ(CDROM)ディスクとを含む、すべての形態の非半導体メモリ媒体およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完されるか、またはその中に組み込まれ得る。
【0204】
本特許文書は、多くの詳細を含むが、これらは、任意の主題または請求され得るものの範囲に対する限定として解釈されるべきではなく、むしろ、特定の技法の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態の文脈において本特許文書で説明されている特定の特徴は、単一の実施形態において組み合わせて実施され得る。逆に、単一の実施形態の文脈で説明される様々な特徴を、複数の実施形態で別々に、または任意の適切なサブコンビネーションで実施することもできる。さらに、特徴は、特定の組合せで作用するものとして上述され、最初にそのように請求されることさえあるが、請求される組合せからの1つまたは複数の特徴は、場合によっては、その組合せから削除することができ、請求される組合せは、サブコンビネーションまたはサブコンビネーションの変形形態を対象とし得る。
【0205】
同様に、動作は特定の順序で図面に示されているが、これは、所望の結果を達成するために、そのような動作が示された特定の順序でまたは逐次的な順序で実行されること、またはすべての図示された動作が実行されることを必要とすると理解されるべきではない。さらに、本特許文書で説明される実施形態における様々なシステムコンポーネントの分離は、すべての実施形態においてそのような分離を必要とするものとして理解されるべきではない。
【0206】
いくつかの実装形態および例のみが説明され、他の実装形態、拡張形態、および変形形態が、本特許文書において説明され、示されるものに基づいて行われ得る。
【0207】
第1のコンポーネントと第2のコンポーネントとの間のライン、トレース、または別の媒体を除いて、介在するコンポーネントがないとき、第1のコンポーネントは第2のコンポーネントに直接結合される。第1のコンポーネントと第2のコンポーネントとの間にライン、トレース、または別の媒体以外の介在コンポーネントがあるとき、第1のコンポーネントは第2のコンポーネントに間接的に結合される。「結合された」という用語およびその変形は、直接的に結合されることと間接的に結合されることの両方を含む。「約」という用語の使用は、特に明記しない限り、その後の数の±10%を含む範囲を意味する。
【0208】
いくつかの実施形態が本開示において提供されてきたが、開示されたシステムおよび方法は、本開示の精神または範囲から逸脱することなく、多くの他の特定の形態で具現化され得ることが理解されるべきである。本実施例は、限定ではなく、例示とみなされるべきであり、その意図は、本明細書に与えられる詳細に限定されるべきではない。例えば、様々な要素またはコンポーネントは、別のシステムにおいて組み合わされるか、もしくは統合されてよく、または、いくつかの特徴は、省略されるか、もしくは実装されなくてよい。
【0209】
加えて、離散的または別個として様々な実施形態で説明および図示される技法、システム、サブシステム、および方法は、本開示の範囲から逸脱することなく、他のシステム、モジュール、技法、または方法と組み合わせられるか、もしくは統合されてもよい。結合されるものとして図示または議論される他のアイテムは、直接接続されてもよく、または、電気的、機械的、もしくは別様にかかわらず、何らかのインターフェース、デバイス、もしくは中間コンポーネントを通して間接的に結合もしくは通信されてもよい。変更、置換、および改変の他の例は、当業者によって確認可能であり、本明細書に開示される精神および範囲から逸脱することなく行われ得る。
【手続補正書】
【提出日】2024-01-05
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ビデオデータを処理するための方法であって、
規則にしたがって、ビデオと前記ビデオのビットストリームとの間の変換を実行するステップを含み、
前記規則は、深度表現情報(DRI)補足エンハンスメント情報(SEI)メッセージ中の第1のシンタックス要素の値が、両端値を含めて0~15の範囲内にあることを指定し、
前記DRI SEIメッセージ中の前記第1のシンタックス要素は、補助ピクチャの復号されたルーマサンプルの表現定義を指定する、
方法。
【請求項2】
前記第1のシンタックス要素の前記値が3に等しいとき、第2のシンタックス要素が前記DRI SEIメッセージ中に含まれ、
前記第2のシンタックス要素は、視差に関して一様に量子化されたスケールに深度値をマッピングするための区分的線形セグメントの数を指定する、
請求項1に記載の方法。
【請求項3】
前記規則は、前記DRI SEIメッセージ中の前記第2のシンタックス要素の値が、両端値を含めて0~62の範囲内にあることを指定する、請求項2に記載の方法。
【請求項4】
前記規則は、最小視差値を指定するシンタックス要素がDRIシンタックス構造中に存在することを第4のシンタックス要素の値が示すか、または最大視差値を指定するシンタックス要素が前記DRIシンタックス構造中に存在することを第5のシンタックス要素の値が示すとき、視差値が導出されるビュー識別子を示す第3のシンタックス要素が前記DRI SEIメッセージ中に含まれることを指定する、請求項1に記載の方法。
【請求項5】
前記DRI SEIメッセージ中の前記第3のシンタックス要素の値は、両端値を含めて0~1023の範囲内にある、請求項4に記載の方法。
【請求項6】
前記第3のシンタックス要素は、1および3に等しい前記第1のシンタックス要素の前記値に有用である、請求項4に記載の方法。
【請求項7】
前記規則は、注釈付き領域(AR)SEIメッセージ中の第6のシンタックス要素の値が、両端値を含めてN~Mの範囲内にあることを指定し、NおよびMは整数であり、NはMよりも小さく、
前記AR SEIメッセージ中の前記第6のシンタックス要素は、i番目のARオブジェクトインデックスに対応するラベルのインデックスを示す、
請求項1に記載の方法。
【請求項8】
N=0であり、M=255である、請求項7に記載の方法。
【請求項9】
前記第1のシンタックス要素および前記第2のシンタックス要素が、符号なし整数を使用して指数ゴロムコーディングされる、請求項2に記載の方法。
【請求項10】
前記第3のシンタックス要素が、符号なし整数を使用して指数ゴロムコーディングされる、請求項4に記載の方法。
【請求項11】
前記第6のシンタックス要素が、符号なし整数を使用して指数ゴロムコーディングされる、請求項7に記載の方法。
【請求項12】
前記変換は、前記ビデオを前記ビットストリームに符号化することを含む、請求項1から11のいずれか一項に記載の方法。
【請求項13】
前記変換は、前記ビットストリームから前記ビデオを復号することを含む、請求項1から11のいずれか一項に記載の方法。
【請求項14】
プロセッサと、命令を有する非一時的メモリとを備える、ビデオデータを処理するための装置であって、前記命令は、前記プロセッサによる実行時に、前記プロセッサに、
規則にしたがって、ビデオと前記ビデオのビットストリームとの間の変換を実行させ、
前記規則は、深度表現情報(DRI)補足エンハンスメント情報(SEI)メッセージ中の第1のシンタックス要素の値が、両端値を含めて0~15の範囲内にあることを指定し、
前記DRI SEIメッセージ中の前記第1のシンタックス要素は、補助ピクチャの復号されたルーマサンプルの表現定義を指定する、
装置。
【請求項15】
命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサに、
規則にしたがって、ビデオと前記ビデオのビットストリームとの間の変換を実行させ、
前記規則は、深度表現情報(DRI)補足エンハンスメント情報(SEI)メッセージ中の第1のシンタックス要素の値が、両端値を含めて0~15の範囲内にあることを指定し、
前記DRI SEIメッセージ中の前記第1のシンタックス要素は、補助ピクチャの復号されたルーマサンプルの表現定義を指定する、
非一時的コンピュータ可読記憶媒体。
【請求項16】
ビデオのビットストリームを記憶するための方法であって、
規則にしたがって前記ビデオの前記ビットストリームを生成するステップと、
前記ビットストリームを非一時的コンピュータ可読記録媒体に記憶するステップと
を含み、
前記規則は、深度表現情報(DRI)補足エンハンスメント情報(SEI)メッセージ中の第1のシンタックス要素の値が、両端値を含めて0~15の範囲内にあることを指定し、
前記DRI SEIメッセージ中の前記第1のシンタックス要素は、補助ピクチャの復号されたルーマサンプルの表現定義を指定する、
方法。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0001
【補正方法】変更
【補正の内容】
【0001】
[関連出願への相互参照]
本出願は、2021年6月28日に出願された国際出願第PCT/CN2021/102636号の利益を主張する、2022年6月27日に出願された国際特許出願第PCT/CN2022/101411号に基づく。前述の特許出願はすべて、参照により全体が本明細書に組み込まれる。
【国際調査報告】