【文献】
Munsi Haque et al.,Simplifications of HRD parameters for Temporal Scalability,Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 10th Meeting: Stockholm, Sweden,2012年 7月 3日,[JCTVC-J0272] (version 1)
(58)【調査した分野】(Int.Cl.,DB名)
前記第1のピクチャ及び前記第2のピクチャを含む前記時間レイヤが一定のピクチャレートを有することを決定することを更に備え、ここにおいて前記タイミング情報は前記整数値を定義するデータを含み、前記ビデオデータのための前記タイミング情報を決定することは、前記時間レイヤが前記一定のピクチャレート有するとの決定に基づいて前記整数値を定義するデータを復号することを備える、請求項1に記載の方法。
前記時間レイヤが前記一定のピクチャレートを有することを決定することは、前記時間レイヤが前記一定のピクチャレートを有することを示す値をfixed_pic_rate_flagが有することを決定することを備える、請求項2に記載の方法。
それぞれの一定のピクチャレートを有する各時間レイヤに対して、それぞれの信号伝達された整数値を決定すること、前記クロックティック値によって乗算された前記それぞれの整数値に従ってそれぞれの一定のピクチャレートを有する各時間レイヤのピクチャを提示することと、を更に備える、請求項2の方法。
前記ビデオデータのための前記タイミング情報を決定することは,前記クロックティック値を決定することを含み、前記クロックティック値を決定することが、前記クロックティック値が、少なくとも部分的に、時間スケール値に基づくように前記クロックティック値を決定することを含み、前記時間スケール値がクロック周波数に基づく、請求項1に記載の方法。
前記第1のピクチャのための前記プレゼンテーション時間が第1のピクチャ順序カウント(POC)値を備え、前記第2のピクチャのための前記プレゼンテーション時間が第2のPOC値を備える、請求項1の方法。
ビデオデータについてのタイミング情報を決定するための手段と、ここにおいて、前記タイミング情報が、第1のピクチャ及び第2のピクチャを含む時間レイヤが一定のピクチャレートを有するという決定に基づいて決定され、前記タイミング情報が前記ビデオデータのための整数値を含み、
前記第1のピクチャのプレゼンテーション時間と前記第2のピクチャのプレゼンテーション時間との差分値を前記差分値がクロックティック値によって乗算された前記整数値に等しくなるように決定するための手段と、ここにおいて、前記第1のピクチャ及び第2のピクチャは、出力順に連続しており、
第1の時間に前記第1のピクチャを、第2の時間に前記第2のピクチャを、前記第2の時間と前記第1の時間との差が決定された前記差分値となるように提示する手段と、
を備える、ビデオデータを提示するための装置。
前記時間レイヤが前記一定のピクチャレートを有することを決定するための手段は、前記時間レイヤが前記一定のピクチャレートを有することを示す値をfixed_pic_rate_flagが有することを決定するための手段を備える、請求項9に記載の装置。
前記第1のピクチャのための前記プレゼンテーション時間が第1のピクチャ順序カウント(POC)値を備え、前記第2のピクチャのためのプレゼンテーション時間が第2のPOC値を備える、請求項8に記載の装置。
【発明を実施するための形態】
【0033】
[0042]本開示では、様々な改善されたビデオコード化設計について説明する。特に、本開示では、会話アプリケーションなどのビデオアプリケーションにおける遅延を低減することと、コード化ビデオシーケンスのランダムアクセスの改良を与えることとを行うために使用され得る技法について説明する。
【0034】
[0043]デジタルビデオ機器は、デジタルビデオ情報をより効率的に符号化及び復号するためのビデオ圧縮技法を実装する。ビデオ圧縮技法は、AVC又はHEVCなどのビデオコード化規格に従って定義され得る。 ITU−T H.264/MPEG−4(AVC)規格は、共同ビデオ部会(JVT:Joint Video Team)として知られる共同パートナーシップの成果として、ISO/IEC動画エキスパーツグループ(MPEG:Moving Picture Experts Group)とともにITU−Tビデオコード化エキスパーツグループ(VCEG:Video Coding Experts Group)によって策定された。H.264規格は、ITU−T Study Groupによる2005年3月付けのITU−T勧告H.264「Advanced Video Coding for generic audiovisual services」に記載されており、本明細書ではH.264規格もしくはH.264仕様、又はH.264/AVC規格もしくは仕様と呼ぶことがある。Joint Video Team(JVT)は、H.264/MPEG−4 AVCの拡張に取り組み続けている。
【0035】
[0044]「HEVC Working Draft 7」又は「WD7」と呼ばれる、HEVCの最近のワーキングドラフト(WD)は、文書JCTVC−I1003_d5、Brossら、「WD7: Working Draft 7 of High−Efficiency Video Coding (HEVC)」、ITU−T SG16 WP3及びISO/IEC JTC1/SC29/WG11のJoint Collaborative Team on Video Coding(JCT−VC)、第9回会合:スイス、ジュネーブ、2012年4月27日から2012年5月7日に記載されている。更に、HEVCの別の最近のワーキングドラフト、ワーキングドラフト9は、文書JCTVC−K1003_d7、Brossら、「High Efficiency Video Coding (HEVC) Text Specification Draft 9」、ITU−T SG16 WP3及びISO/IEC JTC1/SC29/WG11のビデオコード化共同研究部会(JCT−VC)、第11回会合:中国、上海、2012年10月に記載されている。次回のHEVC規格は、HEVCの配信バージョン用の規格番号であることが意図された、ISO/IEC 23008−HEVCと呼ばれることもある。幾つかの態様では、本開示で説明する技法は、H.264規格及び/又は次回のHEVC規格に概して準拠する機器に適用され得る。本開示の技法は、H.264規格及び次回のHEVC規格に関して説明されるが、本開示の技法は、概して、任意のビデオコード化規格に適用可能である。
【0036】
[0045]ビデオシーケンスは、一般に、ピクチャとも呼ばれる一連のビデオフレームを含む。ビデオシーケンスが符号化及び/又は復号されるビデオアプリケーションの例としては、ローカル再生アプリケーション、ストリーミングアプリケーション、ブロードキャストアプリケーション、マルチキャストアプリケーション及び会話アプリケーションがある。会話アプリケーションには、ビデオ電話アプリケーション及びビデオ会議アプリケーションが含まれ、低遅延アプリケーションとも呼ばれる。会話アプリケーションは、比較的低い、エンドツーエンド遅延、即ち、第1のデジタルビデオ機器においてビデオフレームが撮影されるときと第2のデジタルビデオ機器においてビデオフレームが表示されるときとの間の遅延をシステム全体に要求する。一般に、会話アプリケーションについて許容されるエンドツーエンド遅延は400ms未満であるべきであり、約150msのエンドツーエンド遅延が非常に良好であると見なされる。
【0037】
[0046]ビデオシーケンスを処理することに関連する各ステップは、全体的なエンドツーエンド遅延に寄与し得る。ビデオシーケンスを処理することに関連する遅延の例としては、撮影遅延(capturing delay)、前処理遅延、符号化遅延、送信遅延、(デジッタリングのための)受信バッファリング遅延、復号遅延、復号ピクチャ出力遅延、後処理遅延、及び表示遅延がある。特定のビデオコード化規格に従ってビデオシーケンスをコード化することに関連する遅延は、コーデック遅延と呼ばれることがあり、符号化遅延と、復号遅延と、復号ピクチャ出力遅延とを含み得る。コーデック遅延は、会話アプリケーションでは最小限に抑えるべきである。特に、ビデオシーケンスのコード化構造は、復号ピクチャ出力遅延が0に等しくなるように、ビデオシーケンス中のピクチャの出力順序がビデオシーケンス中のピクチャの復号順序と同じであることを保証すべきである。ビデオシーケンスのコード化構造は、一部、ビデオシーケンスを符号化するために使用されるピクチャタイプの割当てを指す。
【0038】
[0047]ピクチャグループ(GOP)は、概して、表示順序に従って構成された1つ又は複数のピクチャのシーケンスを備える。HEVCに従って、ビデオエンコーダは、ビデオフレーム又はピクチャメイを一連の等しいサイズのビデオブロックに分割し得る。ビデオブロックは、(Yとして示される)ルミナンス成分と、(U及びV又はCb及びCrとして示される)2つのクロマ成分とを有し得る。これらのビデオブロックメイオルソーツーは、最大コード化単位(LCU)、ツリーブロック、又はコード化ツリーブロック単位(CTU)としても指し得る。HEVCのLCUは、H.264/AVCなど、以前の規格のマクロブロックに広い意味で類似し得る。しかしながら、LCUは、必ずしも特定のサイズに限定されるとは限らない。HEVCによれば、ビットストリーム内のシンタックスデータは、水平及び/又は垂直ルーマサンプルの数に従ってLCUを定義し得る。例えば、LCUは、64×64又は32×32のルーマサンプルを含むものとして定義され得る。更に、LCUは、4分木区分方式に従って複数のコード化単位(CU)に区分され得る。概して、4分木区分は、CUを4つのサブCUに再帰的に分割することを指す。コード化ビットストリームに関連するシンタックスデータは、最大CU深さと呼ばれる、LCUが分割され得る最大回数を定義し得、また、CUの最小サイズを定義し得る。それに応じて、ビットストリームは最小コード化単位(SCU)をも定義し得る。例えば、SCUは、8×8のルーマサンプルを含むものとして定義され得る。
【0039】
[0048]更に、HEVCによれば、ビデオエンコーダは、ピクチャを複数のスライスに区分し得、そこにおいて、スライスの各々は整数個のLCUを含む。スライスは、Iスライス、Pスライス、又はBスライスであり得、ここで、I、P及びBは、CUを予測するために他のビデオブロックがどのように使用されるかを定義する。Iスライスは、(例えば、同じフレーム内のビデオブロックから)イントラ予測モードを使用して予測される。イントラコード化は、所与のビデオフレーム又はピクチャ内のビデオの空間的冗長性を低減又は除去するために空間的予測に依拠する。Pスライスは、(例えば、前のフレーム中のビデオブロックから)単方向インター予測モードを使用して予測される。Bスライスは、(例えば、前のフレームと後続のフレームとの内のビデオブロックから)双方向インター予測モードを使用して予測される。インターコード化は、ビデオシーケンスの隣接フレーム又はピクチャ内のビデオの時間的冗長性を低減又は除去するために時間的予測に依拠する。
【0040】
[0049]
図1は、予測ビデオコード化技法に従ってコード化されたビデオシーケンスを示す概念図である。
図1に示すように、ビデオシーケンス100は、ピクチャPic
1〜Pic
10を含む。
図1の概念図では、ピクチャPic
1〜Pic
10は、それらが表示されるべき順序に従って構成され、連続的に番号付けされる。以下でより詳細に説明するように、表示順序は、必ずしも復号順序に対応するとは限らない。
図1に示すように、ビデオシーケンス100は、GOP
1とGOP
2とを含み、ここで、ピクチャPic
1〜Pic
5がGOP
1中に含まれ、ピクチャPic
6〜Pic
10がGOP
2中に含まれる。
図1に、Pic
5がスライス
1とスライス
2とに区分されることを示し、ここで、スライス
1及びスライス
2の各々は、左から右へ、上から下へのラスタ走査に従う連続するLCUを含む。図示されていないが、
図1に示す他のピクチャは、同様の方法で1つ又は複数のスライスに区分され得る。
図1に、GOP
2に関するIスライス、Pスライス、又はBスライスの概念をも示す。GOP
2中のPic
6〜Pic
10の各々に関連する矢印は、矢印によって示される参照ピクチャに基づいてピクチャがIスライス、Pスライス、又はBスライスを含むのかを示す。
図1では、ピクチャPic
6及びPic
9は、Iスライスを含むピクチャを表し(即ち、ピクチャ自体を参照する)、ピクチャPic
7及びPic
10は、Pスライスを含むピクチャを表し(即ち、それぞれ、前のピクチャを参照する)、Pic
8は、Bスライスを含むピクチャを表す(即ち、前のピクチャ及び後続のピクチャを参照する)。
【0041】
[0050]HEVCでは、ビデオシーケンス、GOP、ピクチャ、スライス、及びCUの各々は、ビデオコード化プロパティについて説明するシンタックスデータに関連付けられ得る。例えば、スライスは、スライスがIスライスであるのか、Pスライスであるのか、又はBスライスであるのかを示すシンタックス要素を含むヘッダを含む。更に、HEVCは、パラメータセットの概念を含む。パラメータセットは、ビデオデコーダがビデオシーケンスを再構成することを可能にするシンタックス要素を含むシンタックス構造である。HEVCは、シンタックス要素が変化することが予想される周波数に基づくパラメータセットのタイプ中にシンタックス要素が含まれる階層パラメータセット機構を採用する。HEVCにおけるパラメータセット機構は、コード化ブロックデータの送信から、まれに変化する情報の送信を分離する。更に、幾つかの適用例では、パラメータセットは、「アウトオブバンド」で搬送され得、即ち、コード化ビデオデータを含んでいる単位と一緒にトランスポートされ得ない。アウトオブバンド送信は、典型的には信頼できる。
【0042】
[0051]HEVC WD7では、特定のパラメータセットはパラメータセットIDを使用して識別される。HEVC WD7では、パラメータセットIDは、左ビットが先頭の符号なし整数指数ゴロムコード化シンタックス要素(unsigned integer Exp-Golomb-coded syntax element)である。HEVC WD7は、以下のパラメータセットを定義する。
【0043】
ビデオパラメータセット(VPS:Video Parameter Set):VPSとは、0個以上のコード化ビデオシーケンス全体に適用されるシンタックス要素を含んでいるシンタックス構造である。即ち、VPSは、一連のフレームの間、不変のままであることが予想されるシンタックス要素(例えば、ピクチャ順序、参照フレームの数、及びピクチャサイズ)を含む。VPSは、VPS IDを使用して識別される。シーケンスパラメータセットはVPS IDを含む。
【0044】
シーケンスパラメータセット(SPS:Sequence Parameter Set)−SPSとは、0個以上のコード化ビデオシーケンス全体に適用されるシンタックス要素を含むシンタックス構造である。即ち、SPSは、一連のフレームの間、不変のままであることが予想されるシンタックス要素(例えば、ピクチャ順序、参照フレームの数、及びピクチャサイズ)を含む。SPSは、SPS IDを使用して識別される。ピクチャパラメータセットはSPS IDを含む。
【0045】
ピクチャパラメータセット(PPS:Picture Parameter Set)−PPSとは、1つ又は複数のピクチャに適用されるシンタックス要素を含むシンタックス構造である。即ち、PPSは、シーケンス内のピクチャごとに変化し得るシンタックス要素(例えば、エントロピーコード化モード、量子化パラメータ、及びビット深度)を含む。PPSパラメータセットは、PPS IDを使用して識別される。スライスヘッダはPPS IDを含む。
【0046】
適応パラメータセット(APS:Adaptive Parameter Set)−APSとは、1つ又は複数のピクチャに適用されるシンタックス要素を含むシンタックス構造である。APSは、シーケンスのピクチャ内で変化することが予想されるシンタックス要素(例えば、ブロックサイズ、及びデブロックフィルタ処理)を含む。APSは、APS IDを使用して識別される。スライスヘッダはAPS IDを含み得る。
【0047】
[0052]HEVC WD7における定義されたパラメータセットタイプによれば、各SPSはVPS IDを参照し、各PPSはSPS IDを参照し、各スライスヘッダは、PPS ID参照し、場合によっては、APS IDを参照する。場合によっては、SPS中にVPS IDを含め、PPS中にSPS IDを含める線形参照関係は非効率的であり得ることに留意されたい。例えば、HEVC WD7ではVPSがサポートされるが、大部分のシーケンスレベル情報パラメータは依然としてSPS中にしか存在しない。パラメータセットの概念に加えて、HEVCは、コード化ビデオシーケンス及びアクセス単位の概念を含む。HEVC WD7によれば、コード化ビデオシーケンス及びアクセス単位は次のように定義される。
【0048】
コード化ビデオシーケンス:復号順序で、ビットストリーム中で第1のアクセス単位であるCRAアクセス単位、IDRアクセス単位又はBLAアクセス単位からなり、後ろに、任意の後続のIDR又はBLAアクセス単位を含まないがそれまでの全ての後続のアクセス単位を含む0個以上の非IDR及び非BLAアクセス単位が続く一連のアクセス単位[CRA、IDR、及びBLAアクセス単位について以下で詳細に説明する]。
【0049】
アクセス単位:復号順序で連続している、1つのコード化ピクチャを含んでいるNAL単位のセット。コード化ピクチャのコード化スライスNAL単位に加えて、アクセス単位は、コード化ピクチャのスライスを含んでいない他のNAL単位をも含み得る。アクセス単位の復号により、常に、復号ピクチャが生じる。
【0050】
[0053]NAL単位は、ネットワークアブストラクションレイヤ(Network Abstraction Layer)単位を指す。従って、HEVCによれば、コード化ビデオデータのビットストリームは一連のNAL単位を含む。アクセス単位は、復号順序で連続的に構成され、正確に1つのコード化ピクチャを含んでいるNAL単位のセットであり、コード化ビデオシーケンスは、復号順序で構成された一連のアクセス単位を含む。
図2は、コード化ビデオシーケンスの一例を示す概念図である。
図2は、
図1に示したGOP
2に対応し得るコード化ビデオシーケンス200の一例を表す。
図2に示すように、コード化ビデオシーケンス200は、Pic
6〜Pic
10の各々に対応するアクセス単位を含む。コード化ビデオシーケンス200のアクセス単位は、復号順序に従って連続的に構成される。Pic
9に対応するアクセス単位がPic
8に対応するアクセス単位の前に位置することに留意されたい。従って、復号順序は、
図1に示した表示順序に対応しない。この例では、これは、Pic
8がPic
9を参照するためである。従って、Pic
9は、Pic
8が復号され得る前に復号されなければならない。
図2に、Pic
9に対応するアクセス単位がどこにNAL単位、即ち、AUデリミタNAL単位202、PPS NAL単位204、スライス
1NAL単位206、及びスライス
2NAL単位208を含むかを示す。各NAL単位は、NAL単位タイプを識別するヘッダを含み得る。
【0051】
[0054]HEVCは、2つのNAL単位タイプクラス、即ち、コード化スライスNAL単位(VCL)及び非VCL NAL単位を定義する。コード化スライスNAL単位は、ビデオデータのスライスを含んでいる。
図2に示す例では、スライス
1NAL単位206及びスライス
2NAL単位208はそれぞれ、ビデオデータのスライスを含んでおり、VCL NAL単位の例である。
図2の例では、スライス
1NAL単位206及びスライス
2NAL単位208の各々はIスライスであり得る。非VCLは、ビデオデータのスライス以外の情報を含んでいるものを含む。例えば、非VCLは、デリミタデータ又はパラメータセットを含み得る。
図2に示す例では、AUデリミタNAL単位202は、Pic
7に対応するアクセス単位からPic
9に対応するアクセス単位を区切るための情報を含む。更に、PPS NAL単位204は、ピクチャパラメータセットを含む。従って、AUデリミタNAL単位202及びPPS NAL単位204は、非VCL NAL単位の例である。
【0052】
[0055]HEVCにおける非VCL NAL単位の別の例は、補足拡張情報(supplemental enhancement information(SEI))NAL単位である。AVCとHEVCの両方でサポートされるSEI機構により、エンコーダは、出力ピクチャのサンプル値の正しい復号のために必要ではないが、ピクチャ出力タイミング、表示、ならびに損失検出及び損失補償など、様々な他の目的のために使用され得るメタデータをビットストリーム中に含めることが可能になる。例えば、SEI NAL単位は、ビットストリームを復号するときにビデオデコーダによって使用されるピクチャタイミングメッセージを含み得る。ピクチャタイミングメッセージは、ビデオデコーダがいつVCL NAL単位を復号し始めるべきかを示す情報を含み得る。エンコーダは、アクセス単位中に任意の数のSEI NAL単位を含めることができ、各SEI NAL単位は、1つ又は複数のSEIメッセージを含み得る。ドラフトHEVC規格は、幾つかのSEIメッセージについてのシンタックス及びセマンティクスを含むが、SEIメッセージの処理は、規範的な復号プロセスに影響を及ぼさないので、規定されていない。ドラフトHEVC規格でSEIメッセージを有する1つの理由は、HEVCを使用する異なるシステムで補足データを同様に解釈することを可能にするためである。HEVCを使用する仕様及びシステムは、エンコーダが幾つかのSEIメッセージを生成することを必要とし得、又は受信されたSEIメッセージの特定のタイプの特定の処理を定義し得る。表1に、HEVCで規定されているSEIメッセージを記載し、それらの目的を手短に説明する。
【表1】
【0053】
[0056]ランダムアクセスは、ビットストリーム中の最初のコード化ピクチャではないコード化ピクチャから始まる、ビデオビットストリームの復号を指す。ビットストリームへのランダムアクセスは、例えば、ユーザが、異なるチャネル間で切り替えるため、ビデオの特定の部分にジャンプするため、又は(例えば、ビットレート、フレームレート、空間分解能スケーラビリティについての)ストリーム適応のために異なるビットストリームに切り替えるために、ブロードキャスト及びストリーミングなどの多くのビデオアプリケーションにおいて必要とされる。ランダムアクセスは、ビデオシーケンスの間に一定の間隔で何回もランダムアクセスポイント(RAP)ピクチャ又はアクセス単位を含むコード化構造を有することによって可能になる。瞬時デコーダリフレッシュ(IDR)ピクチャ、クリーンランダムアクセス(CRA)ピクチャ及びリンク切断アクセス(BLA:broken link access)ピクチャは、HEVC WD7において定義されているRAPピクチャのタイプである。IDRピクチャ、CRAピクチャ及びBLAピクチャの各々はIスライスのみを含む。しかしながら、IDRピクチャ、CRAピクチャ及びBLAピクチャの各々は、定義された参照制約に基づいて異なる。
【0054】
[0057]IDRピクチャは、AVCに規定されており、HEVC WD7に従って定義されている。IDRピクチャはランダムアクセスのために使用され得るが、IDRピクチャは、復号順序でIDRピクチャに続くピクチャがIDRピクチャより前に復号されたピクチャを参照として使用することができないという点で制約される。
図1及び
図2に示した例では、上記で説明したように、ビデオシーケンス100中のpic
6はIDRピクチャであり得る。IDRピクチャに関連する制約により、ランダムアクセスについてIDRピクチャに依拠するビットストリームは、著しく低いコード化効率を有し得る。
【0055】
[0058]コード化効率を改善するために、CRAピクチャの概念がHEVCに導入された。HEVC WD7によれば、IDRピクチャのようなCRAピクチャはIスライスのみを含む。しかしながら、復号順序でCRAピクチャの後にくるが、出力順序でCRAピクチャの前にくるピクチャは、CRAピクチャの前に復号されたピクチャを参照ピクチャとして使用することが可能になる。復号順序でCRAピクチャの後にくるが、出力順序においてはCRAピクチャの前にくるピクチャは、CRAピクチャに関連する先行ピクチャ(又はCRAピクチャの先行ピクチャ)と呼ばれる。現在のCRAピクチャの前のIDR又はCRAピクチャから復号が始まる場合、CRAピクチャの先行ピクチャは正確に復号可能である。しかしながら、CRAピクチャからのランダムアクセスが行われるとき、CRAピクチャの先行ピクチャが正確に復号可能でないことがある。
図1及び
図2に示す例を参照すると、Pic
9は、CRAピクチャであり得、Pic
8は、Pic
9の先行ピクチャであり得る。Pic
8は、正確に復号可能であるGOP
2であるPic
6においてアクセスされるが、GOP
2がPic
9としてアクセスされる場合、正確に復号可能でないことがある。これは、満期、即ち、GOP
2がPic
9としてアクセスされる場合、Pic
7が利用可能ではないことである。復号がどこから始まるかに応じて利用可能ではないことがある参照ピクチャからの誤り伝搬を防止するために、HEVC WD7によれば、復号順序と出力順序の両方でCRAピクチャの後にくる全てのピクチャは、復号順序又は出力順序のいずれかで(先行ピクチャを含む)CRAピクチャの前にくるいかなるピクチャも参照として使用しないように制約される。更に、先行ピクチャは、通常、ランダムアクセス復号中に破棄される。
【0056】
[0059]ビットストリームスプライシングは、2つ以上のビットストリームの連結又はそれの一部を指す。例えば、第1のビットストリームは、第2のビットストリームによって付加され、場合によっては、スプライスビットストリームを生成するためにビットストリームの一方又は両方のいずれかに幾つかの変更を加えた状態で付加され得る。第2のビットストリーム中の第1のコード化ピクチャは、スプライシングポイントとも呼ばれる。従って、スプライスビットストリーム中のスプライシングポイントの後のピクチャは、第2のビットストリームから生じたものであり、一方、スプライスビットストリーム中のスプライシングポイントの前のピクチャは、第1のビットストリームから生じたものである。ビットストリームのスプライシングは、典型的には、ビットストリームスプライサによって実行される。ビットストリームスプライサは、しばしば、軽量であり、ビデオエンコーダよりもはるかにインテリジェントではない。例えば、ビットストリームスプライサは、エントロピー復号及び符号化能力を装備していないことがある。時間スケーラビリティは、ビットストリームスプライシングを使用し得るアプリケーションである。時間スケーラビリティは、1つ又は複数のフレームレートでビデオシーケンスを復号することを指すことがある。例えば、ビデオシーケンスをシステム能力に基づいて30フレーム毎秒(fps)又は60fpsで復号することが可能であり得る。時間スケーラビリティを達成するために、ビデオシーケンスは、複数の時間レイヤを含み得る。ここで、各時間レイヤは、フレームレートに関連するコード化ビデオシーケンスである。最も高いフレームレートメイを用いる時間レイヤは、最高時間レイヤと呼んだ。複数の時間レイヤは、最高フレームレートでビデオシーケンスを生成するために一緒にスプライスされ得、例えば、30fpsを用いるコード化ビデオシーケンスが、60fpsを使用可能にするコード化ビデオシーケンスとともにスプライスされる。
【0057】
[0060]ビットストリーム切替えが適応ストリーミング環境において使用され得る。切替え先ビットストリーム中のあるピクチャにおけるビットストリーム切替え動作は、事実上、ビットストリームスプライシング動作であり、スプライシングポイントは、ビットストリーム切替えポイント、即ち、切替え先ビットストリームからの第1のピクチャである。ビットストリーム切替えが、通常は、同じコード化構造をもつ2つのストリームに対して実行されることに留意されたい。即ち、2つのストリームは、同じ予測構造を有し、IDRピクチャ、CRAピクチャ、Pピクチャ及びBピクチャなどの同じ割当てを有する。
【0058】
[0061]リンク切断アクセス(BLA)ピクチャの概念は、CRAピクチャの導入の後にHEVC WD7に更に導入され、CRAピクチャの概念に基づく。BLAピクチャは、一般に、CRAピクチャの位置におけるビットストリームスプライシングから発生し、スプライスビットストリームにおいて、スプライシングポイントCRAピクチャはBLAピクチャに変更される。BLAピクチャとCRAピクチャとの間の最も本質的な違いは以下の通りである。CRAピクチャの場合、復号順序でCRAピクチャの前のRAPピクチャから復号が開始する場合、関連する先行ピクチャは正確に復号可能であり、ランダムアクセスがCRAピクチャから開始するときに正確に復号可能でないことがある。BLAピクチャの場合、全ての場合で、復号順序でBLAピクチャの前のRAPピクチャから復号が開始する場合であっても、関連する先行ピクチャは正確に復号可能でないことがある。特定のCRA又はBLAピクチャの場合、CRA又はBLAピクチャがビットストリーム中の第1のピクチャである場合であっても、関連する先行ピクチャの幾つかは正確に復号可能であることに留意されたい。これらの先行ピクチャは、復号可能先行ピクチャ(DLP:decodable leading picture)と呼ばれ、他の先行ピクチャは非復号可能先行ピクチャ(NLP:non-decodable leading picture)と呼ばれる。NLPは、HEVC WD9では廃棄タグ付き(TFD:tagged for discard)ピクチャとも呼ばれる。IDRピクチャに関連する全ての先行ピクチャがDLPピクチャであることに留意されたい。表2は、HEVC WD7に従って定義されたNAL単位を規定するHEVC WD7中に含まれる表である。表2に示すように、HEVC WD7におけるNAL単位タイプは、上記で説明したピクチャ及びパラメータセットに対応するCRAピクチャ、BLAピクチャ、IDRピクチャ、VPS、SPS、PPS、及びAPS NAL単位タイプを含む。
【表2】
【0059】
[0062]NAL単位割当てを簡略化するために、その全体が参照により組み込まれる、S.Kanumuri、G.Sullivan、「Refinement of Random Access Point Support」、第10回会合、スウェーデン、ストックホルム、2012年7月、文書JCTVC−J0344(以下で「Kanumuri」)は、(1)どのIDRピクチャにも関連する先行ピクチャがない(即ち、復号順序でIDRピクチャの後にも、出力順序でIDRピクチャの前にもピクチャがこない)ようなIDRピクチャに関する制約、及び(2)次のようにRAPピクチャについて上記の表2に従って定義された修正割当てNAL単位タイプ4〜7を提案している。
【表3】
【0060】
[0063]表3では、SAPタイプは、その全体が参照により組み込まれる、ISO/IEC 14496−12第4版、「Information technology − Coding of audio−visual objects − Part 12: ISO base media file format」、w12640、第100回MPEG会合、ジュネーブ、2012年4月において定義されているストリーミングアクセスポイントタイプを指す。上記で説明したように、IDRピクチャ及びBLA/CRAピクチャは、ビットスティーム切替えについて機能的に異なるが、それらは、(例えば、アプリケーションを求める)ランダムアクセスについて機能的に同じである。IDRピクチャにおけるビットストリーム切替えの場合、ビデオコード化システムは、プレゼンテーション(表示)が欠陥なしで連続的であり得る(例えば、ピクチャの欠落が提示されない)ことを知るか、又はそうだと仮定し得る。これは、復号順序でIDRピクチャに続くピクチャがIDRピクチャより前に復号されたピクチャを参照として使用することができない(即ち、IDRピクチャに関連する先行ピクチャがDLPである)からである。しかしながら、BLAピクチャにおけるビットストリーム切替えの場合、プレゼンテーションが連続的であることを保証するために、両方のストリームからの1つ又は複数のピクチャの何らかの重複復号が必要とされ得る。この重複復号は、現在、HEVC WD7対応デコーダにとって追加の能力なしには可能でないことがある。追加の能力がない場合、ピクチャは破棄されていることがあるので、提示されるべき関連するTFDピクチャ位置にいかなるピクチャも存在しないことがある。これにより、プレゼンテーションが必ずしも連続的であるとは限らないことになり得る。更に、BLAピクチャが、関連するTFDピクチャのないBLAピクチャである場合でも、元のビットストリーム中に存在したTFDピクチャが破棄され得るので、問題は同じである。更に、元のビットストリーム中にTFDピクチャがなかった場合、(ビットストリームスプライシング/切替えなどにより後でBLAピクチャに変更される)CRAピクチャは、IDRピクチャとして符号化される可能性がある。従って、Kanumuriによって提案されたように、先行ピクチャをもつIDRピクチャをIDRピクチャとしない(即ち、IDRピクチャが先行ピクチャを有することを可能にしない)ことにより、ビットストリーム切替えのためのシステムにとってIDRピクチャは使いにくいものになる。
【0061】
[0064]ストリーミングシステム、例えば、動的ストリーミングオーバーHTTP(DASH:dynamic streaming over HTTP)の観点から、どのピクチャがRAPピクチャであるのか、及び復号がRAPピクチャから開始する場合、最も早いプレゼンテーション時間(例えば、最も早いピクチャ順序カウント(POC)値)は何かを容易に識別することが可能であることは有益である。従って、異なるRAPピクチャならびにDLPピクチャ及びTFDピクチャへのNAL単位タイプの割当ての既存の設計は、ストリーミングシステムにとってより使いやすくなるように更に改善され得る。既存の設計に従って、RAPピクチャごとに、システムは、復号がRAPピクチャから開始するとき、RAPピクチャ自体のプレゼンテーション時間が最も早いプレゼンテーション時間であるかどうかを知るために関連するDLPピクチャがあるかどうかを確認する必要がある。更に、システムは、最も早いプレゼンテーション時間の値を解明するために、全てのDLPピクチャのプレゼンテーション時間を確認し、比較する必要がある。
【0062】
[0065]ビデオコード化規格は、ビデオバッファリングモデルの仕様を含む。AVC及びHEVCでは、バッファリングモデルは、コード化ピクチャバッファ(CPB:coded picture buffer)と復号ピクチャバッファ(DPB:decoded picture buffer)の両方のバッファリングモデルを含む仮定参照デコーダ(HRD:hypothetical reference decoder)と呼ばれる。HEVC WD7によれば、HRDは、符号化プロセスが生じ得る準拠NAL単位ストリーム又は準拠ビットストリームの変動性に対する制約を指定する仮想デコーダモデルとして定義される。従って、AVC及びHEVCでは、ビットストリーム適合及びデコーダ適合は、HRD仕様の一部として規定されている。HEVC WD7によれば、CPBは、復号順序でアクセス単位を含んでいる先入れ先出しバッファであり、かつDPBは、参照のための復号ピクチャを保持するバッファである。CPB及びDPB挙動は、HRDに従って数学的に指定される。HRDは、タイミング、バッファサイズ、及びビットレートに直接制約を課し、かつビットストリーム特性及び統計に間接的に制約を課す。HRDパラメータの完全セットは、初期CPB除去遅延、CPBサイズ、ビットレート、初期DPB出力遅延、及びDPBサイズの5つの基本パラメータを含む。HEVC WD7によれば、HRDパラメータは、ビデオユーザビリティ情報(VUI:video usability information)パラメータ中に含まれ得、VUIパラメータは、SPS中に含まれ得る。HRDはデコーダと呼ばれるが、HRDは、一般に、ビットストリーム適合を保証するためにエンコーダ側において必要とされ、一般に、デコーダ側において必要とされないことに留意されたい。HEVC WD7は、HRD適合のために2つのタイプのビットストリーム、即ち、タイプI及びタイプIIを規定している。HEVC WD7はまた、2つのタイプのデコーダ適合、即ち、出力タイミングデコーダ適合及び出力順序デコーダ適合を規定している。
【0063】
[0066]AVC及びHEVC HRDモデルでは、復号又はCPB除去はアクセス単位ベースのものであり、ピクチャ復号が瞬時に行われると仮定する。現実世界のアプリケーション中でピクチャを復号するために必要とされる時間は0に等しくなり得ない。従って、実際の適用例では、適合デコーダが、例えば、ピクチャタイミングSEIメッセージ中で信号伝達された復号時間に厳密に従って、アクセス単位の復号を開始する場合、特定の復号ピクチャが出力され得るできるだけ早い時間は、その特定のピクチャの復号時間にその特定のピクチャを復号するために必要とされる時間を加えたものに等しくなる。
【0064】
[0067]Ye−Kui Wangら、「Sub−picture based CPB operation」、第9回会合:スイス、ジュネーブ、2012年5月、JCTVC−I0588(以下で「Wang」)に記載されているCPB挙動と同様のサブピクチャベースのCPB挙動がHEVC WD7中に含まれている。WangのサブピクチャベースのCPBにより、アクセス単位(AU)レベル又はサブピクチャレベルのいずれかにおいてCPB除去を行うことが可能になる。AUレベル又はサブピクチャレベルのいずれかのCPB除去を可能にすることは、相互運用可能な方法でコーデック遅延を低減するのを達成するのに役立つ。CPB除去がアクセス単位レベルにおいて行われるとき、除去動作が行われるたびに、アクセス単位がCPBから除去される。CPB除去がサブピクチャレベルにおいて行われるとき、除去動作が行われるたびに、1つ又は複数のスライスを含んでいる復号ユニット(DU)がCPBから除去される。
【0065】
[0068]AUレベルのCPB除去タイミング情報に加えて、サブピクチャレベルのCPB除去タイミング情報が信号伝達され得る。CPB除去タイミング情報がAUレベルの除去とサブピクチャレベルの除去の両方について存在するとき、デコーダは、AUレベル又はサブピクチャレベルのいずれかにおいてCPBを動作させることを選定し得る。ザ現在のピクチャタイミングSEIメッセージ及び機構が、サブピクチャ遅延を達成するために、同時に、AUレベルのHRD CPB除去とDUレベルのHRD CPB除去との両方を可能にするために、DUは、AU全体が符号化される前に送出される必要があり、AUレベルのSEIメッセージは、AU全体が符号化される前にまだ送出され得ないことに留意されたい。
【0066】
[0069]HEVC WD7によれば、タイミング情報は、2つの連続するピクチャのHRD出力時間間の時間距離を定義する情報を含み得る。HEVC WD7は、以下のタイミング情報シンタックス要素を定義する。
【0067】
time_scaleは、1秒間に過ぎる時間単位の数である。例えば、27MHzのクロックを使用して時間を測定する時間座標系は、27,000,000のtime_scaleを有する。time_scaleは0よりも大きくなる。
【0068】
num_units_in_tickは、クロック単位カウンタの(クロック単位と呼ばれる)1つの増分に対応する、周波数time_scale Hzで動作するクロックの時間単位の数である。num_units_in_tickは0よりも大きくなる。
【0069】
[0070]従って、time_scale及びnum_units_in_tickの値に基づいて、所謂クロック単位変数t
cは次のように導出され得る。
【0070】
t
c = num_units_in_tick | time_scale (1)
[0071]HEVC WD7によれば、クロック単位変数は、HRD出力時間を制約するために使用され得る。即ち、場合によっては、出力順序で連続する2つのピクチャ(即ち、第1のピクチャ及び第2のピクチャ)のプレゼンテーション時間の間の差がクロック単位に等しくなることが必要とされ得る。HEVC WD7は、出力順序で連続する2つのピクチャのプレゼンテーション時間の間の差がクロック単位に等しくなるかどうかを示すfixed_pic_rate_flagシンタックス要素を含む。fixed_pic_rate_flagシンタックス要素は、SPS中に含まれ得るVUIパラメータのセット中に含まれ得る。HEVC WD7では、fixed_pic_rate_flagシンタックス要素が1に等しくなるとき、任意の2つの出力順序で連続するピクチャのHRD出力時間の間の時間距離は、(1)第2のピクチャが、第1のピクチャと同じコード化ビデオシーケンス中にある、又は(2)第2のピクチャが、第1のピクチャとは異なるコード化ビデオシーケンス中にあり、fixed_pic_rate_flagが、第2のピクチャを含んでいるコード化ビデオシーケンス中で1に等しくなり、num_units_in_tick÷time_scaleの値が、両方のコード化ビデオシーケンスについて同じであるという条件のいずれかが真であることを受けて決定されたクロック単位に等しくなることを強制される。fixed_pic_rate_flagシンタックス要素が0に等しくなるとき、任意の2つの出力順序で連続するピクチャ(即ち、第1のピクチャ及び第2のピクチャ)のHRD出力時間の間の時間距離にそのような制約は適用されない。fixed_pic_rate_flagは、存在しないとき、0に等しくなることが推論されることに留意されたい。HEVC WD7によれば、fixed_pic_rate_flagが1に等しくなるとき、幾つかの最高時間レイヤが破棄される場合、時間スケーラビリティに基づくストリーミング適応は、time_scale又はnum_units_in_tickのいずれかの値の変更を必要とすることになることに留意されたい。HEVC WD7が、fixed_pic_rate_flagについての次のセマンティクスを与えることに留意されたい。
【0071】
ピクチャnを含んでいるコード化ビデオシーケンスについてfixed_pic_rate_flagが1に等しくなるとき、式C−13において使用するために指定された後続のピクチャn
nについて以下の条件のうちの1つ又は複数が真であるとき、式C−13において指定されているΔt
o,dpb(n)について計算された値は、(ピクチャnを含んでいるコード化ビデオシーケンスの値t
cを使用する)式C−1において指定されているt
cに等しくなる。
【0072】
− ピクチャn
nが、ピクチャnと同じコード化ビデオシーケンスである。
【0073】
− ピクチャn
nが、異なるコード化ビデオシーケンス中にあり、fixed_pic_rate_flagが、ピクチャn
nを含んでいるコード化ビデオシーケンス中で1に等しくなり、num_units_in_tick÷time_scaleの値が両方のコード化ビデオシーケンスについて同じである。
【0074】
[0072]但し、式C−1は式(1)に対応し、式C−13は、次のようにHEVC WD7において定義されている。
【0075】
Δt
o,dpb(n) = t
o,dpb(n
n) − t
o,dpb(n) (2)
[0073]HEVC WD7に関連する上述のタイミング及びランダムアクセス特性に鑑みて、本開示では、会話アプリケーションなどのビデオアプリケーションにおける遅延を低減することと、コード化ビデオシーケンスに対してランダムアクセスの改良を与えることとを行うために使用され得る技法について説明する。一例では、本開示では、NAL単位タイプを割り振るための技法について説明する。別の例では、本開示では、サブピクチャレベル又は復号単位レベルのHRD挙動について説明する。別の例では、本開示では、パラメータセットIDの参照のための技法について説明する。また別の例では、本開示では、fixed_pic_rate_flagシンタックス要素についての改善されたセマンティクスを与えるための技法について説明する。これらの技法及び本明細書で説明する他の技法の任意の及び全ての組合せがビデオ符号化及び復号システムに組み込まれ得ることに留意されたい。
【0076】
[0074]
図3は、本明細書で説明する技法を利用し得る例示的なビデオ符号化及び復号システム10を示すブロック図である。特に、ビデオ符号化及び復号システムは、(1)NAL単位タイプの割当て、(2)サブピクチャレベル又は復号ユニットレベルのHRD挙動、(3)パラメータセットIDの参照、(4)fixed_pic_rate_flagについてのセマンティクスの改善、又はこれらの技法の任意の及び全ての組合せに関係する、本明細書で説明する技法を利用し得る。ビデオ符号化及び復号システム10は、ローカル再生アプリケーション、ストリーミングアプリケーション、ブロードキャストアプリケーション、マルチキャストアプリケーション及び/又は会話アプリケーションのビデオアプリケーションのいずれかのために使用され得るビデオシステムの一例である。発信源機器12及び宛先機器14は、発信源機器12が宛先機器14に送信するための符号化ビデオデータを生成するコード化機器の例である。幾つかの例では、発信源機器12及び宛先機器14は、発信源機器12及び宛先機器14の各々がビデオ符号化構成要素とビデオ復号構成要素とを含むように、実質的に対称的に動作し得る。従って、システム10は、発信源機器12と宛先機器14との間の一方向ビデオ送信又は2方向ビデオ送信をサポートするように構成され得る。
【0077】
[0075]本明細書で説明する技法は、発信源機器12及び宛先機器14に関して説明するが、本技法は、任意のデジタルビデオ符号化及び/又は復号機器によって実行され得る。本開示の技法は、ビデオプリプロセッサによっても実行され得る。更に、概して、本開示の技法はビデオ符号化機器及びビデオ復号機器によって実行されるものとして説明するが、本技法は、一般に「コーデック」と呼ばれるビデオエンコーダ/デコーダによっても実行され得る。従って、
図3中のビデオエンコーダ20及びビデオデコーダ30の各々は1つ又は複数のエンコーダ又はデコーダ中に含まれ得、そのいずれも、それぞれの機器において複合エンコーダ/デコーダ(コーデック)の一部として統合され得る。更に、ビデオエンコーダ20及び/又はビデオデコーダ30を含む機器は、集積回路、マイクロプロセッサ、及び/又はセルラー電話などのワイヤレス通信機器を備え得る。
図3には示されていないが、幾つかの態様では、ビデオエンコーダ20及びビデオデコーダ30は、それぞれオーディオエンコーダ及びオーディオデコーダと統合され得、共通のデータストリーム又は別個のデータストリーム中オーディオとビデオの両方の符号化を処理するために、適切なMUX−DEMUXユニット、又は他のハードウェア及びソフトウェアを含み得る。適用可能な場合、MUX−DEMUXユニットは、ITU H.223マルチプレクサプロトコル、又はユーザデータグラムプロトコル(UDP:user datagram protocol)などの他のプロトコルに準拠し得る。
【0078】
[0076]
図3に示すように、システム10は、宛先機器14によって後で復号されるべき符号化ビデオデータを与える発信源機器12を含む。特に、発信源機器12は、コンピュータ可読媒体16を介して宛先機器14に符号化ビデオデータを与える。宛先機器14は、コンピュータ可読媒体16を介して復号されるべき符号化ビデオデータを受信し得る。発信源機器12及び宛先機器14は、デスクトップコンピュータ、ノートブック(即ち、ラップトップ)コンピュータ、タブレットコンピュータ、セットトップボックス、所謂「スマート」フォンなどの電話ハンドセット、所謂「スマート」パッド、テレビジョン、カメラ、表示装置、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミング機器などを含む、広範囲にわたる機器のいずれかを備え得る。場合によっては、発信源機器12及び宛先機器14は、ワイヤレス通信のために装備され得る。
【0079】
[0077]コンピュータ可読媒体16は、発信源機器12から宛先機器14に符号化ビデオデータを移動することが可能な任意のタイプの媒体又は機器を備え得る。コンピュータ可読媒体16は、ワイヤレスブロードキャスト又はワイヤードネットワーク送信などの一時媒体、又はハードディスク、フラッシュドライブ、コンパクトディスク、デジタルビデオディスク、Blu−ray(登録商標)ディスク、又は他のコンピュータ可読媒体などの記憶媒体(即ち、非一時的記憶媒体)を含み得る。幾つかの例では、ネットワークサーバ(図示せず)は、例えば、ネットワーク送信を介して、発信源機器12から符号化されたビデオデータを受信し、宛先機器14に符号化されたビデオデータを与え得る。同様に、ディスクスタンピング設備(disc stamping facility)など、媒体製造設備のコンピューティング機器は、発信源機器12から符号化されたビデオデータを受信し、その符号化されたビデオデータを含んでいるディスクを生成し得る。
【0080】
[0078]一例では、コンピュータ可読媒体16は、発信源機器12が、符号化ビデオデータを宛先機器14にリアルタイムで直接送信することを可能にするための通信媒体を備え得る。符号化ビデオデータは、ワイヤレス通信プロトコルなどの通信規格に従って変調され、宛先機器14に送信され得る。通信媒体は、無線周波数(RF)スペクトル若しくは1つ又は複数の物理伝送線路など、任意のワイヤレス通信媒体又はワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、又はインターネットなどのグローバルネットワークなど、パケットベースネットワークの一部を形成し得る。通信媒体は、発信源機器12から宛先機器14への通信を容易にするのに有用であり得るルータ、スイッチ、基地局、又は任意の他の機器を含み得る。
【0081】
[0079]記憶装置は、ハードドライブ、Blu−rayディスク、DVD、CD−ROM、フラッシュメモリ、揮発性又は不揮発性メモリ、若しくは符号化ビデオデータを記憶するための任意の他の好適なデジタル記憶媒体など、様々な分散された又はローカルにアクセスされるデータ記憶媒体のいずれかを含み得る。更なる一例では、記憶装置は、ファイルサーバ、又は発信源機器12によって生成された符号化されたビデオを記憶し得る別の中間記憶装置に対応し得る。宛先機器14は、ストリーミング又はダウンロードを介して、記憶装置から、記憶されたビデオデータにアクセスし得る。ファイルサーバは、符号化ビデオデータを記憶し、その符号化ビデオデータを宛先機器14に送信することが可能な任意のタイプのサーバであり得る。例示的なファイルサーバとしては、(例えば、ウェブサイトのための)ウェブサーバ、FTPサーバ、ネットワーク接続記憶(NAS)機器、又はローカルディスクドライブがある。宛先機器14は、インターネット接続を含む、任意の標準のデータ接続を通じて符号化ビデオデータにアクセスし得る。これは、ファイルサーバに記憶された符号化ビデオデータにアクセスするのに好適であるワイヤレスチャネル(例えば、Wi−Fi(登録商標)接続)、ワイヤード接続(例えば、DSL、ケーブルモデムなど)、又は両方の組合せを含み得る。記憶装置からの符号化ビデオデータの送信は、ストリーミング送信、ダウンロード送信、又はそれらの組合せであり得る。
【0082】
[0080]本開示の技法は、必ずしもワイヤレス適用例又は設定に限定されるとは限らない。本技法は、オーバージエアテレビジョン放送、ケーブルテレビジョン送信、衛星テレビジョン送信、動的適応ストリーミングオーバーHTTP(DASH:dynamic adaptive streaming over HTTP)などのインターネットストリーミングビデオ送信、データ記憶媒体上に符号化されたデジタルビデオ、データ記憶媒体に記憶されたデジタルビデオの復号、又は他の適用例などの、様々なマルチメディア適用例のいずれかをサポートするビデオコード化に適用され得る。
【0083】
[0081]
図3の例では、発信源機器12は、ビデオ発信源18と、コード化構造ユニット19と、ビデオエンコーダ20と、カプセル化ユニット21と、出力インターフェース22とを含む。宛先機器14は、入力インターフェース28と、逆カプセル化ユニット(decapsulation unit)29と、ビデオデコーダ30と、表示装置32とを含む。他の例では、発信源機器12及び宛先機器14は、他の構成要素又は構成を含み得る。例えば、発信源機器12は、外部カメラなどの外部ビデオ発信源18からビデオデータを受信し得る。同様に、宛先機器14は、内蔵表示装置を含むのではなく、外部表示装置とインターフェースし得る。発信源機器12及び宛先機器14の構成要素は、1つ又は複数のマイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組合せなど、様々な好適な回路のいずれかとして実装され得る。本明細書で説明する技法が部分的にソフトウェアで実装されるとき、機器は、適切な非一時的コンピュータ可読媒体にソフトウェアの命令を記憶し、1つ又は複数のプロセッサを使用してハードウェアにおいてその命令を実行して、本技法を実行し得る。
【0084】
[0082]発信源機器12のビデオ発信源18は、ビデオカメラなどの撮像装置、前に撮影されたビデオを含んでいるビデオアーカイブ、及び/又はビデオコンテンツプロバイダからビデオを受信するためのビデオフィードインターフェースを含み得る。更なる代替として、ビデオ発信源18は、ソースビデオとしてのコンピュータグラフィックスベースのデータ、又はライブビデオ、アーカイブビデオ及びコンピュータ生成ビデオの組合せを生成し得る。場合によっては、ビデオ発信源18がビデオカメラである場合、発信源機器12及び宛先機器14は、所謂カメラフォン又はビデオフォンを形成し得る。しかしながら、上述のように、本開示で説明する技法は、概してビデオコード化に適用可能であり得、ワイヤレス及び/又はワイヤード適用例に適用され得る。各場合において、撮影されたビデオ、前に撮影されたビデオ、又はコンピュータ生成ビデオは、ビデオエンコーダ20によって受信され得る。出力インターフェース22は、コンピュータ可読媒体16上にコード化ビデオシーケンスなどの符号化ビデオデータを出力するように構成され得る。幾つかの例では、コード化ビデオシーケンスは、出力インターフェース22から記憶装置に出力され得る。宛先機器14の入力インターフェース28は、コンピュータ可読媒体16から符号化ビデオデータを受信する。表示装置32は、復号ビデオデータをユーザに対して表示し、陰極線管(CRT)、液晶表示器(LCD)、プラズマ表示器、有機発光ダイオード(OLED)表示器、又は別のタイプの表示装置など、様々な表示装置のいずれかを備え得る。
【0085】
[0083]コード化構造ユニット19、ビデオエンコーダ20、カプセル化ユニット21、逆カプセル化ユニット29、及びビデオデコーダ30は、上記で説明した次回のHEVCなどのビデオコード化規格に従って動作し得、概して、HEVCテストモデル(HM:HEVC Test Model)に準拠し得る。代替的に、ビデオエンコーダ20及びビデオデコーダ30は、代替的に他のプロプライエタリ規格又はMPEG−4、Part 10、アドバンストビデオコード化(AVC)と呼ばれるITU−T H.264規格などの業界規格、又はそのような規格の拡張に従って動作し得る。コード化構造ユニット19、ビデオエンコーダ20、カプセル化ユニット21、逆カプセル化ユニット29、及びビデオデコーダ30はまた、ビデオコード化規格の変更バージョンに従って動作し得、ビデオコード化規格の変更バージョンは、本明細書で説明する技法の任意の及び全ての組合せを含むように変更される。
【0086】
[0084]ビデオエンコーダ20は、ビデオフレーム又はピクチャメイを、CUなど、HEVC WD7に記載されている一連の等しいサイズのビデオブロックに分割し得る。CUは、コード化ノードと、コード化ノードに関連する予測単位(PU)及び変換単位(TU)とを含む。CUのサイズは、コード化ノードのサイズに対応し、形状が方形でなければならない。CUのサイズは、8×8画素から最大で64×64以上の画素をもつツリーブロックのサイズにまで及び得る。各CUは、1つ又は複数のPUと、1つ又は複数のTUとを含み得る。CUに関連するシンタックスデータは、例えば、CUを1つ又は複数のPUに区分することを記述し得る。区分モードは、CUがスキップモード又はダイレクトモードで符号化されているか、イントラ予測モードで符号化されているか、若しくはインター予測モードで符号化されているかの間で異なり得る。PUは、形状が非方形になるように区分され得る。CUに関連するシンタックスデータは、例えば、4分木に従って、CUを1つ又は複数のTUに区分することも記述し得る。TUは、形状が方形又は非方形(例えば、矩形)であり得る。
【0087】
[0085]HEVC規格は、CUごとに異なり得るTUに従う変換を可能にする。TUは、一般に、区分されたLCUに対して定義された所与のCU内のPUのサイズに基づいてサイズ決定されるが、常にそうであるとは限らない。TUは、一般に、PUと同じサイズであるか又はPUよりも小さい。幾つかの例では、CUに対応する残差サンプルは、「残差4分木」(RQT:residual quad tree)として知られる4分木構造を使用して、より小さいユニットに再分割され得る。RQTのリーフノードは、変換単位(TU)と呼ばれることがある。TUに関連する画素差分値は、量子化され得る変換係数を生成するために変換され得る。
【0088】
[0086]リーフCUは、1つ又は複数の予測単位(PU)を含み得る。概して、PUは、対応するCUの全部又は一部分に対応する空間的エリアを表し、そのPUの参照サンプルを取り出すためのデータを含み得る。更に、PUは、予測に関係するデータを含む。例えば、PUがイントラモード符号化されるとき、PUについてのデータは、PUに対応するTUについてのイントラ予測モードを記述するデータを含み得る残差4分木(RQT)中に含まれ得る。別の例として、PUがインターモード符号化されるとき、PUは、PUについての1つ又は複数の動きベクトルを定義するデータを含み得る。PUのための動きベクトルを定義するデータは、例えば、動きベクトルの水平成分、動きベクトルの垂直成分、動きベクトルについての分解能(例えば、1/4画素精度又は1/8画素精度)、動きベクトルが指す参照ピクチャ、及び/又は動きベクトル用の参照ピクチャリスト(例えば、リスト0、リスト1、又はリストC)を記述し得る。
【0089】
[0087]1つ又は複数のPUを有するリーフCUはまた、1つ又は複数の変換単位(TU)を含み得る。変換単位は、上記で説明したように、(TU4分木構造とも呼ばれる)RQTを使用して指定され得る。例えば、分割フラグは、リーフCUが4つの変換単位に分割されるかどうかを示し得る。次いで、各変換単位は更に、更なるサブTUに分割され得る。TUが更に分割されないとき、そのTUはリーフTUと呼ばれることがある。概して、イントラコード化の場合、リーフCUに属する全てのリーフTUは同じイントラ予測モードを共有する。即ち、一般に、リーフCUの全てのTUの予測値を計算するために同じイントラ予測モードが適用される。イントラコード化の場合、ビデオエンコーダは、イントラ予測モードを使用して各リーフTUの残差値をTUに対応するCUの一部と元のブロックとの間の差分として計算し得る。TUは、必ずしもPUのサイズに制限されるとは限らない。従って、TUはPUよりも大きく又は小さくなり得る。イントラコード化の場合、PUは、同じCUの対応するリーフTUと同一位置に配置(collocated)され得る。幾つかの例では、リーフTUの最大サイズは、対応するリーフCUのサイズに対応し得る。
【0090】
[0088]更に、リーフCUのTUはまた、残差4分木(RQT)と呼ばれる、それぞれの4分木データ構造に関連付けられ得る。即ち、リーフCUは、リーフCUがどのようにTUに区分されるかを示す4分木を含み得る。TU4分木のルートノードは概してリーフCUに対応し、CU4分木のルートノードは概してツリーブロック(又はLCU)に対応する。分割されないRQTのTUはリーフTUと呼ばれる。概して、本開示では、特に明記しない限り、リーフCU及びリーフTUに言及するためにそれぞれCU及びTUという用語を使用する。本開示では、HEVCのコンテキストにおけるCU、PU、又はTU、若しくは他の規格のコンテキストにおける同様のデータ構造(例えば、H.264/AVCにおけるマクロブロック及びそれのサブブロック)のいずれかを指すために「ブロック」という用語を使用する。
【0091】
[0089]一例として、HMは、様々なPUサイズでの予測をサポートする。特定のCUのサイズが2N×2Nであると仮定すると、HMは、2N×2N又はN×NのPUサイズでのイントラ予測をサポートし、2N×2N、2N×N、N×2N、又はN×Nの対称的なPUサイズでのインター予測をサポートする。HMはまた、2N×nU、2N×nD、nL×2N、及びnR×2NのPUサイズでのインター予測のための非対称区分をサポートする。非対称区分では、CUの一方向は区分されないが、他の方向は25%と75%とに区分される。25%の区分に対応するCUの部分は、「n」とその後ろに付く「Up」、「Down」、「Left」、又は「Right」という表示によって示される。従って、例えば、「2N×nU」は、上部の2N×0.5N PUと下部の2N×1.5N PUとで水平方向に区分された2N×2N CUを指す。
【0092】
[0090]本開示では、「N×N(NxN)」及び「N×N(N by N)」は、垂直寸法及び水平寸法に関するビデオブロックの画素寸法、例えば、16×16(16x16)画素又は16×16(16 by 16)画素を指すために交換可能に使用され得る。概して、16×16ブロックは、垂直方向に16画素を有し(y=16)、水平方向に16画素を有する(x=16)。同様に、N×Nブロックは、概して、垂直方向にN画素を有し、水平方向にN画素を有し、ここで、Nは非負整数値を表す。ブロック内の画素は行と列に構成され得る。更に、ブロックは、必ずしも、水平方向において垂直方向と同じ数の画素を有する必要はない。例えば、ブロックはN×Mの画素を備える場合があり、ここで、Mは必ずしもNに等しいとは限らない。
【0093】
[0091]CUのPUを使用したイントラ予測コード化又はインター予測コード化の後、ビデオエンコーダ20は、CUのTUについての残差データを計算し得る。PUは、(画素領域とも呼ばれる)空間領域において予測画素データを生成する方法又はモードを記述するシンタックスデータを備え得、TUは、変換、例えば、残差ビデオデータへの離散コサイン変換(DCT)、整数変換、ウェーブレット変換、又は概念的に同様の変換の適用後に、変換領域において係数を備え得る。残差データは、符号化されていないピクチャの画素と、PUに対応する予測値との間の画素差分に対応し得る。ビデオエンコーダ20は、CUのための残差データを含むTUを形成し、次いで、TUを変換して、CUの変換係数を生成し得る。
【0094】
[0092]変換係数を生成するための任意の変換の後に、ビデオエンコーダ20は、変換係数の量子化を実行し得る。量子化は、一般に、係数を表すために使用されるデータの量をできるだけ低減するために変換係数が量子化されて、更なる圧縮を提供するプロセスを指す。量子化プロセスは、係数の一部又は全部に関連するビット深度を低減し得る。例えば、量子化中にnビット値がmビット値に切り捨てられ得、ここで、nはmよりも大きい。
【0095】
[0093]量子化の後に、ビデオエンコーダは、変換係数を走査して、量子化変換係数を含む2次元行列から1次元ベクトルを生成し得る。走査は、より高いエネルギー(従ってより低い周波数)の係数をアレイの前方に配置し、より低いエネルギー(従ってより高い周波数)の係数をアレイの後方に配置するように設計され得る。幾つかの例では、ビデオエンコーダ20は、エントロピー符号化され得るシリアル化ベクトルを生成するために、量子化変換係数を走査するために予め定義された走査順序を利用し得る。他の例では、ビデオエンコーダ20は適応走査を実行し得る。量子化変換係数を走査して1次元ベクトルを形成した後に、ビデオエンコーダ20は、例えば、コンテキスト適応型可変長コード化(CAVLC:context-adaptive variable length coding)、コンテキスト適応型バイナリ算術コード化(CABAC:context-adaptive binary arithmetic coding)、シンタックスベースコンテキスト適応型バイナリ算術コード化(SBAC:syntax-based context-adaptive binary arithmetic coding)、確率間隔区分エントロピー(PIPE:Probability Interval Partitioning Entropy)コード化、又は別のエントロピー符号化方法に従って、1次元ベクトルをエントロピー符号化し得る。ビデオエンコーダ20はまた、ビデオデータを復号する際にビデオデコーダ30が使用するための符号化ビデオデータに関連するシンタックス要素をエントロピー符号化し得る。
【0096】
[0094]CABACを実行するために、ビデオエンコーダ20は、送信されるべきシンボルに、コンテキストモデル内のコンテキストを割り当て得る。コンテキストは、例えば、シンボルの隣接値が非0であるか否かに関係し得る。CAVLCを実行するために、ビデオエンコーダ20は、送信されるべきシンボルのための可変長コードを選択し得る。VLCにおけるコードワードは、比較的短いコードが優勢シンボルに対応し、より長いコードが劣勢シンボルに対応するように構成され得る。このようにして、VLCを使用すると、例えば、送信されるべき各シンボルのために等長コードワードを使用するよりも、ビット節約を実現し得る。確率決定は、シンボルに割り当てられたコンテキストに基づき得る。
【0097】
[0095]上記で説明したように、ビデオシーケンスは、決定されたビデオコード化構造に従ってコード化され得、ここで、コード化構造は、ビデオシーケンスを符号化するために使用されるピクチャタイプ(例えば、RAPピクチャ及び非RAPピクチャ)の割当てを定義する。例えば、ビデオシーケンスは、ビデオシーケンスのランダムアクセスを容易にするために、予め決定する間隔で含まれるRAPピクチャとともに符号化され得る。そのようなコード化構造は、ブロードキャストアプリケーションのために有用であり得る。更に、ビデオシーケンスは、低遅延アプリケーションのための遅延を最小化するコード化構造に従って符号化され得る。コード化構造ユニット19は、ビデオ発信源18から受信されたビデオシーケンスを符号化するためにビデオエンコーダ20によって使用されるべきコード化構造を決定するように構成され得る。一例では、コード化構造ユニット19は、それぞれのビデオアプリケーションに対応する予め定義されたコード化構造を記憶し得る。コード化構造ユニット19は、ビデオエンコーダ20及びカプセル化ユニット21の各々に特定のコード化構造を示す情報を出力するように構成され得る。ビデオエンコーダ20は、ビデオ発信源18からビデオシーケンスを受信し、コード化構造ユニット19からコード化構造情報を受信し、符号化ビデオデータを生成する。カプセル化ユニット21は、ビデオエンコーダ20から符号化ビデオデータを受信し、特定のコード化構造を示す情報を受信し、アクセス単位を含むコード化ビデオシーケンスを生成する。逆カプセル化ユニット29は、コード化ビデオシーケンスを受信し、アクセス単位とNAL単位とを構文解析するように構成され得る。ビデオデコーダ30は、NAL単位を受信し、受信されたNAL単位中に含まれる情報に基づいてビデオデータを再構成するように構成され得る。
【0098】
[0096]コード化構造ユニット19及び/又はビデオエンコーダ20がパラメータセット中に含まれるシンタックス要素を生成するように構成され得ることに留意されたい。幾つかの例では、コード化構造ユニット19は、SPSなど、高レベルパラメータセット中に含まれるシンタックス要素を生成するように構成され得、ビデオエンコーダ20は、コード化単位構造から受信されたシンタックス要素に基づいてビデオ符号化を実行し、及び符号化ビデオデータの一部としてエントロピー符号化シンタックス要素を出力するように構成され得る。
【0099】
[0097]本開示の技法によれば、NAL単位タイプの割当ては、宛先機器14などの機器が、RAPピクチャと関連するタイミング情報とを容易に識別することができるような形で実行され得る。一例では、関連する先行ピクチャのないIDRピクチャは、関連する先行ピクチャを有し得るIDRピクチャとは別個のNAL単位タイプを有する。例えば、関連する先行ピクチャのないIDRピクチャは、NAL単位タイプMを有し、一方、関連する先行ピクチャを有し得るIDRピクチャは、NAL単位タイプNを有し、但し、表4に示すように、Mは、Nに等しくない。表4に示す例では、IDRピクチャに関連する先行ピクチャはDLPピクチャであり得ることに留意されたい。一例では、表4に示すNAL単位タイプは、表2に示すHEVC WD7 NAL単位タイプコード及びNAL単位タイプクラスに組み込まれ得る。例えば、表2中の反転されたNAL単位タイプ値は、表4中のNAL単位タイプM及びNのために使用され得る。
【表4】
【0100】
[0098]別の例では、関連する先行ピクチャのないCRAピクチャは、関連する先行ピクチャを有し得るCRAピクチャとは異なる別個のNAL単位タイプを有する。更に、関連するTFDピクチャのないCRAピクチャは、関連するTFDピクチャを有し得るCRAピクチャとは異なる別個のNAL単位を有する。従って、表5に示すように、3つの異なるNAL単位タイプが異なるタイプのCRAピクチャのために使用され得る。一例では、表5に示すNAL単位タイプは、表2に示すHEVC WD7 NAL単位タイプコード及びNAL単位タイプクラスに組み込まれ得る。例えば、表1中の反転されたNAL単位タイプ値は、表5中のNAL単位タイプX、Y、及びZのために使用され得る。
【表5】
【0101】
[0099]別の例では、関連する先行ピクチャのないBLAピクチャは、関連する先行ピクチャを有し得るBLAピクチャとは異なる別個のNAL単位タイプを有し得る。更に、関連するTFDピクチャのないBLAピクチャは、関連するTFDピクチャを有し得るBLAピクチャとは異なる別個のNAL単位を有し得る。従って、表6に示すように、3つの異なるNAL単位タイプが異なるタイプのBLAのために使用され得る。一例では、表6に示すNAL単位タイプは、表2に示すHEVC WD7 NAL単位タイプコード及びNAL単位タイプクラスに組み込まれ得る。例えば、表2中の反転されたNAL単位タイプ値は、表6中のNAL単位タイプA、B、及びCのために使用され得る。
【表6】
【0102】
[0100]表4〜表6に関して説明したNAL単位タイプの任意の及び全ての組合せがNAL単位タイプの割当てのために使用され得る。一例では、表4〜表6に関して説明したNAL単位タイプの全てがNAL単位タイプの割当てのために使用され得る。表7に、NAL単位タイプの割当てのために表4〜表6に示したNALタイプの全てが使用される一例を示す。表7に示すように、NAL単位タイプインは、表4〜表6に関して説明したCRAピクチャ、BLAピクチャ、及びIDRピクチャのNAL単位タイプ、並びに、上記で説明したVPS、SPS、PPS、及びAPSのNAL単位タイプを含む。表7中に与えられるNAL単位タイプの割当ては、IDRピクチャ、CRAピクチャ及びBLAピクチャの複数のNAL単位タイプを含むが、表1中で与えられたNAL単位タイプの割当ては、IDRピクチャ、CRAピクチャ及びBLAピクチャの各々に単一のNAL単位タイプを含むという点で、表7は上記の表2とは対照的であり得る。
【表7A】
【表7B】
【0103】
[0101]カプセル化ユニット21は、ビデオエンコーダ20から符号化ビデオデータを受信し、特定のコード化構造を示す情報を受信し、表2〜表7に示すNAL単位割当ての組合せのいずれか及び全てに示すNAL単位タイプの割当てに基づいて、アクセス単位を含むコード化ビデオシーケンスを生成するように構成され得る。更に、逆カプセル化ユニット29は、コード化ビデオシーケンスを受信し、アクセス単位とNAL単位とを構文解析するように構成され得、ここで、NAL単位は、表2〜表7に示すNAL単位割当ての組合せのいずれか及び全てに基づいて割り振られる。
【0104】
[0102]上記で説明したように、HEVC WD7によれば、現在のピクチャタイミングSEIメッセージ及び機構が、サブピクチャ遅延を達成するために、AUレベルとDUレベルの両方のHRD CPB除去を同時に可能にするために、DUは、AU全体が符号化される前に送出される必要があり、AUレベルのSEIメッセージは、AU全体が符号化される前にまだ送出され得ない。本開示の技法によれば、カプセル化ユニット21及び逆カプセル化ユニット29は、サブピクチャレベル又は復号単位レベルのHRD挙動がHEVC WD7と比較して変更され得るように構成され得る。
【0105】
[0103]例えば、カプセル化ユニット21は、AU全体が符号化された後にAUレベルSEIメッセージが送られるように構成され得る。そのようなAUレベルSEIメッセージは、別個のNAL単位タイプのSEI NAL単位中に含まれ得る。そのようなSEI NAL単位と、例えば、HEVC WD7において定義されている、SEI NAL単位の既存の定義との間の1つの差異は、この別個のSEI NAL単位タイプが、許可され、復号順序で同じAU中の最後のVCL NAL単位の後にき得、それが復号順序で同じAU中の第1のVCL NAL単位に先行しないように制約され得ることである。従来のSEI NAL単位及びSEIメッセージは、それぞれ、プレフィックスSEI NAL単位及びプレフィックスSEIメッセージと呼ばれることがあり、一方、本明細書で説明する別個のSEI NAL単位及びSEIメッセージは、それぞれ、サフィックスSEI NAL単位及びサフィックスSEIメッセージと呼ばれることがある。
【0106】
[0104]表2〜表7に示すNAL単位割当ての任意の及び全ての組合せに基づいてコード化ビデオシーケンスを生成するように構成されることに加えて、カプセル化ユニット21は、プレフィックスSEI NAL単位とサフィックスSEI NAL単位とを含むコード化ビデオシーケンスを生成するように構成され得る。同様に、逆カプセル化ユニット29は、コード化ビデオシーケンスを受信し、アクセス単位とNAL単位とを構文解析するように構成され得、ここで、NAL単位は、プレフィックスSEI NAL単位タイプとサフィックスSEI NAL単位タイプとを含む。即ち、逆カプセル化ユニット29は、アクセス単位からサフィックスSEI NAL単位を抽出するように構成され得る。表8に、NAL単位タイプ、及びプレフィックスSEI NAL単位タイプ並びにサフィックスSEI NAL単位の割当てのために表4〜表6に示したNALタイプの全てが使用される一例を示す。
【表8A】
【表8B】
【0107】
[0105]上記で説明したように、SEI NAL単位に加えて、非VCL NAL単位タイプは、VPS単位と、SPS単位と、PPS単位と、APS NAL単位とを含む。HEVC WD7における定義されたパラメータセットタイプによれば、各SPSはVPS IDを参照し、各PPSはSPS IDを参照し、各スライスヘッダは、PPS ID参照し、場合によっては、APS IDを参照する。ビデオエンコーダ20及び/又はコード化構造ユニット19は、HEVC WD7における定義されたパラメータセットに従ってパラメータセットを生成するように構成され得る。更に、ビデオエンコーダ20及び/又はコード化構造ユニット19はパラメータセットを生成するように構成され得、ここで、VPS ID及びSPS ID(例えば、VPS IDがSPS IDに先行する)は、スライスヘッダ中で随意に信号伝達され得る。VPS ID及びSPS IDがスライスヘッダ中で信号伝達される一例では、VPS IDはSPSに位置しないことになり、SPS IDはPPSに位置しないことになる。更に、一例では、VPS ID及びSPS IDは、各RAPピクチャのスライスヘッダ中に存在し得、各ピクチャは、回復点SEIメッセージに関連付けられ得る。更に、他の例では、VPS ID及びSPS IDは、他のピクチャのためのスライスヘッダ中に存在し得る。
【0108】
[0106]
図4は、本開示で説明する技法を実装し得る例示的なカプセル化ユニットを示すブロック図である。
図4に示す例では、カプセル化ユニット21は、VCL NAL単位コンストラクタ402と、非VCL NAL単位コンストラクタ404と、アクセス単位コンストラクタ406と、ビットストリーム出力するインターフェース408とを含む。カプセル化ユニット21は、符号化ビデオデータと高レベルシンタックスとを受信し、符号化ビデオビットストリームを出力する。符号化ビデオデータは、スライスに関連する残差ビデオデータとシンタックスデータとを含み得る。高レベルシンタックスデータは、例えば、パラメータセット中に含まれるシンタックス要素、SEIメッセージ、又は次回のHEVC規格などのビデオコード化規格によって定義される他のシンタックス要素を含み得る。符号化ビデオビットストリームは、1つ又は複数のコード化ビデオシーケンスを含み得、概して、次回のHEVC規格などのビデオコード化規格に準拠し得る。上記で説明したように、VCL NAL単位は、ビデオデータのスライスを含む。VCL NAL単位コンストラクタ402は、符号化ビデオデータのスライスを受信し、スライスを含むピクチャのタイプに基づいてVCL NAL単位を生成するように構成され得る。VCL NAL単位コンストラクタ402は、表2〜表8に関して上記で説明したNAL割当ての任意の及び全ての組合せに従ってVCL NAL単位を生成するように構成され得る。VCL NAL単位コンストラクタ402は、VCL NAL単位中にヘッダを含めるように構成され得、ここで、ヘッダは、VCL NAL単位のタイプを識別する。
【0109】
[0107]例えば、VCL NAL単位コンストラクタ402は、IDRピクチャ中に含まれるビデオデータのスライスを受信し、(1)IDRピクチャが、関連する先行ピクチャを有しない場合は、IDRピクチャが先行ピクチャを有しないことを示すタイプのNAL単位中にビデオデータのスライスをカプセル化するか、又は(2)IDRピクチャが関連する先行ピクチャを有する場合は、IDRピクチャが先行ピクチャを有することを示すタイプのNAL単位中にビデオデータのスライスをカプセル化するように構成され得る。VCL NAL単位コンストラクタ402は、CRAピクチャ中に含まれるビデオ日付のスライスを受信し、(1)CRAピクチャが、関連する先行ピクチャを有しない場合は、CRAピクチャが先行ピクチャを有しないことを示すタイプのNAL単位中にビデオデータのスライスをカプセル化するか、又は(2)CRAピクチャが関連する先行ピクチャを有する場合は、CRAピクチャが先行ピクチャを有することを示すタイプのNAL単位中にビデオデータのスライスをカプセル化するように構成され得る。更に、CRAピクチャに関連する先行ピクチャがTFDピクチャである場合、VCL NAL単位コンストラクタ402は、CRAピクチャに関連する先行ピクチャがTFDであることを示すタイプのNAL単位中にビデオデータのスライスをカプセル化するように構成され得る。
【0110】
[0108]更に、CRAピクチャに関連する先行ピクチャがTFDピクチャでない場合、VCL NAL単位コンストラクタ402は、CRAピクチャに関連する先行ピクチャがTFDでないことを示すタイプのNAL単位中にビデオ日付のスライスをカプセル化するように構成され得る。更に、VCL NAL単位コンストラクタ402は、BLAピクチャ中に含まれるビデオ日付のスライスを受信し、(1)BLAピクチャが、関連する先行ピクチャを有しない場合は、BLAピクチャが先行ピクチャを有しないことを示すタイプのNAL単位中にビデオデータのスライスをカプセル化するか、又は(2)BLAピクチャが関連する先行ピクチャを有する場合は、BLAピクチャが先行ピクチャを有することを示すタイプのNAL単位中にビデオデータのスライスをカプセル化するように構成され得る。更に、BLAピクチャに関連する先行ピクチャがTFDピクチャである場合、VCL NAL単位コンストラクタ402は、BLAピクチャに関連する先行ピクチャがTFDであることを示すタイプのNAL単位中にビデオデータのスライスをカプセル化するように構成され得る。更に、BLAピクチャに関連する先行ピクチャがTFDピクチャでない場合、VCL NAL単位コンストラクタ402は、BLAピクチャに関連する先行ピクチャがTFDでないことを示すタイプのNAL単位中にビデオ日付のスライスをカプセル化するように構成され得る。
【0111】
[0109]
図5は、本開示の技法による、VCL NAL単位を生成する一例を示すフローチャートである。
図5に示すVCL NAL単位を生成する例は、VCL NAL単位コンストラクタ402によって実行されるものとして説明するが、発信源機器12、ビデオエンコーダ20、カプセル化ユニット21、及びそれらの構成要素の組合せの任意の組合せが、
図5に示すVCL NAL単位を生成する例を実行し得る。
図5に示すように、VCL NAL単位コンストラクタ402は、ビデオデータのスライスを受信する(502)。ビデオデータのスライスは、本明細書で説明する符号化技法のいずれかに従って符号化される符号化ビデオデータであり得る。ビデオデータのスライスは、本明細書で説明するピクチャタイプのうちの1つ中に含まれ得る。VCL NAL単位コンストラクタ402は、ビデオデータのスライスがIDRピクチャ中に含まれるのか、又はCRAピクチャ中に含まれるのかを決定する(504)。
【0112】
[0110]ビデオデータのスライスがIDRピクチャ中に含まれる場合(504の「IDR」分岐)、VCL NAL単位コンストラクタ402は、IDRピクチャが関連する先行ピクチャを有するかどうかを決定する(506)。IDRピクチャが関連する先行ピクチャを有しない場合(506の「いいえ」分岐)、VCL NAL単位コンストラクタ402は、IDRピクチャが関連する先行ピクチャを有しないことを示すVCL NAL単位を生成する(508)。IDRピクチャが関連する先行ピクチャを有する場合(506の「はい」分岐)、VCL NAL単位コンストラクタ402は、IDRピクチャが関連する先行ピクチャを有することを示すVCL NAL単位を生成する(510)。
【0113】
[0111]ビデオデータのスライスがCRAピクチャ中に含まれる場合、VCL NAL単位コンストラクタ402は、CRAピクチャが関連する先行ピクチャを有するかどうかを決定する(512)。CRAピクチャが関連する先行ピクチャを有しない場合(512の「いいえ」分岐)、VCL NAL単位コンストラクタ402は、CRAピクチャが関連する先行ピクチャを有しないことを示すVCL NAL単位を生成する(514)。CRAピクチャが関連する先行ピクチャを有する場合(512の「はい」分岐)、VCL NAL単位コンストラクタ402は、関連する先行ピクチャがTFDピクチャであるかどうかを決定する(516)。
【0114】
[0112]CRAピクチャの関連する先行ピクチャがTFDピクチャである場合(516の「はい」分岐)、VCL NAL単位コンストラクタ402は、CRAの関連する先行ピクチャがTFDピクチャであることを示すVCL NAL単位を生成する(518)。BLAピクチャの関連する先行ピクチャがTFDピクチャでない場合(516の「いいえ」分岐)、VCL NAL単位コンストラクタ402は、関連する先行ピクチャがTFDピクチャでないことを示すことのためのVCL NAL単位を生成する(520)。
【0115】
[0113]VCL NAL単位コンストラクタ402は、NAL単位中にスライスデータをカプセル化し、NAL単位ヘッダ中にNAL単位タイプ値を含めることによってNAL単位を生成し得る。各NAL単位タイプ値は、それぞれのNAL単位タイプに対応し得る。一例では、NAL単位タイプ値は表7に従って定義され得る。生成されたNAL単位は、アクセス単位に含めるためにアクセス単位コンストラクタ406にNAL単位コンストラクタ402によって出力され得る(522)。
【0116】
[0114]このようにして、カプセル化ユニット21は、ビデオデータを含むビットストリームを生成するための機器の一例を表し、本機器は、ランダムアクセスポイント(RAP)ピクチャが、関連する先行ピクチャを有することができるタイプのものであるかどうかと、RAPピクチャが、瞬時デコーダリフレッシュ(IDR)ピクチャを備えるのか又はクリーンランダムアクセス(CRA)ピクチャを備えるのかとを決定することと、ネットワークアブストラクションレイヤ(NAL)単位中にRAPピクチャのスライスをカプセル化することと、ここにおいて、NAL単位は、RAPピクチャが、関連する先行ピクチャを有することができるタイプのものであるかどうかを示すNAL単位タイプ値を含む、NAL単位を含むビットストリームを生成することとを行うように構成されたプロセッサを含む。
【0117】
[0115]同様に、
図5の方法は、ビデオデータを含むビットストリームを生成する方法の一例を表し、本方法は、ランダムアクセスポイント(RAP)ピクチャが、関連する先行ピクチャを有することができるタイプのものであるかどうかと、RAPピクチャが、瞬時デコーダリフレッシュ(IDR)ピクチャを備えるのか又はクリーンランダムアクセス(CRA)ピクチャを備えるのかとを決定することと、ネットワークアブストラクションレイヤ(NAL)単位中にRAPピクチャのスライスをカプセル化することと、ここにおいて、NAL単位は、RAPピクチャが、関連する先行ピクチャを有することができるタイプのものであるかどうかを示すNAL単位タイプ値を含む、NAL単位を含むビットストリームを生成することとを含む。
【0118】
[0116]再び
図4を参照すると、非VCL NAL単位コンストラクタ404は、上記で説明したように、パラメータセット及びSEIメッセージ中に含まれるシンタックス要素などの高レベルシンタックス要素を受信し、表2〜表8に関して上記で説明したNAL単位割当ての任意の及び全ての組合せに基づいて非VCL NAL単位を生成するように構成され得る。非VCL NAL単位コンストラクタ404は、NAL単位中にシンタックスデータをカプセル化し、NAL単位ヘッダ中にNAL単位タイプ値を含めることによって非VCL NAL単位を生成するように構成され得る。例えば、非VCL NALコンストラクタは、パラメータセット中に含められたシンタックス要素を受信し、NAL単位ヘッダ中にパラメータセットタイプを示すNAL単位タイプ値を含めるように構成され得る。
【0119】
[0117]更に、非VCL NAL単位コンストラクタ404は、AUレベルSEIメッセージを受信し、SEIメッセージNAL単位を生成するように構成され得る。一例では、非VCL NAL単位コンストラクタ404は、2つのタイプのSEIメッセージNAL単位を生成するように構成され得、ここで、第1のタイプのSEI NAL単位は、そのようなSEI NAL単位が復号順序でアクセス単位中の最後のVCL NAL単位の後に続き得ることを示し、第2のタイプのSEI NAL単位は、そのようなSEI NAL単位が復号順序でアクセス単位中の最後のVCL NAL単位の後に続きき得ないことを示す。更に、第1のタイプのSEI NALは、それが、復号順序で同じアクセス単位中の第1のVCL NAL単位に先行することができないように制約され得る。第1のタイプのNAL単位は、サフィックスSEI NAL単位と呼ばれ、第2のタイプのNAL単位は、プレフィックスSEI NAL単位と呼ばれる。非VCL NAL単位コンストラクタ404は、アクセス単位コンストラクタ406に非VCL NAL単位を出力する。
【0120】
[0118]アクセス単位コンストラクタ406は、VCL NAL単位と非VCL NAL単位とを受信し、アクセス単位を生成するように構成され得る。アクセス単位コンストラクタ406は、表2〜表8において定義されている任意のタイプのNAL単位を受信し得る。VCL−アクセス単位コンストラクタ406は、本明細書で説明するNAL単位タイプの任意の及び全ての組合せに基づいてアクセス単位を生成するように構成され得る。上記で説明したように、HEVC WD7によれば、アクセス単位は、復号順序で連続し、1つのコード化ピクチャを含んでいるNAL単位のセットである。従って、アクセス単位コンストラクタ406は、複数のNAL単位を受信し、復号順序に従って複数のNAL単位を構成するように構成され得る。更に、アクセス単位コンストラクタ406は、サフィックスSEI NAL単位がアクセス単位中の最後のVCL NAL単位の後にくるように、及び/又は同じアクセス単位中の第1のVCL NAL単位に先行しないように、上記で説明したように、サフィックスSEI NAL単位を構成するように構成され得る。
【0121】
[0119]
図6は、本開示の技法による、非VCL NAL単位を生成する一例を示すフローチャートである。
図6に示す非VCL NAL単位を生成する例は、非VCL NAL単位コンストラクタ404とアクセス単位コンストラクタ406とによって実行されるものとして説明するが、発信源機器12、ビデオエンコーダ20、カプセル化ユニット21、及びそれらの構成要素の組合せの任意の組合せが、
図6に示す非VCL NAL単位を生成する例を実行し得る。
【0122】
[0120]
図6に示すように、非VCL NAL単位コンストラクタ404は、SEIメッセージを受信する(602)。SEIメッセージは、表1に関して上記で説明した任意のタイプのSEIメッセージであり得る。非VCL NAL単位コンストラクタ404は、SEIメッセージがプレフィックスSEIメッセージであるのか、又はサフィックスSEIメッセージであるのかを決定する(604)。
【0123】
[0121]SEIメッセージがサフィックスSEIメッセージである場合(604の「サフィックス」分岐)、非VCL NAL単位コンストラクタ404は、SEI NAL単位がサフィックスSEIメッセージであることを示す、SEI NAL単位のタイプ値を生成する(606)。SEIメッセージがプレフィックスSEIメッセージである場合(604の「プレフィックス」分岐)、非VCL NAL単位コンストラクタ404は、SEI NAL単位が従来のSEIメッセージであることを示す、SEI NAL単位のタイプ値を生成する(608)。
【0124】
[0122]アクセス単位コンストラクタ406は、表2〜表8に関して上記で説明したNAL単位のタイプの任意の組合せを含み得る生成されたNAL単位を受信する(610)。アクセス単位コンストラクタ406は、受信されたNAL単位を含むアクセス単位を生成する(612)。生成されたアクセス単位がサフィックスSEI NAL単位を含む場合、アクセス単位のNAL単位は、サフィックスSEI NALが、同じアクセス単位中の第1のVCL NAL単位に先行しないが、復号順序でアクセス単位中の最後のVCL NAL単位の後に続き得るように構成され得る。
【0125】
[0123]このようにして、カプセル化ユニット21は、補足拡張情報(SEI)メッセージがプレフィックスSEIメッセージであるのか又はサフィックスSEIメッセージであるのかを決定することと、ここにおいて、SEIメッセージが、符号化ビデオデータに関係するデータを含む、SEI NAL単位中にSEIメッセージをカプセル化することと、ここにおいて、SEI NAL単位は、SEI NAL単位がプレフィックスSEI NAL単位であるのか又はサフィックスSEI NAL単位であるのかと、SEIメッセージがプレフィックスSEIメッセージであるのか又はサフィックスSEIメッセージであるのかとを示すNAL単位タイプ値を含む、SEI NAL単位を少なくとも含むビットストリームを生成することとを行うように構成されたプロセッサの一例を表す。
【0126】
[0124]同様に、
図6の方法は、ビデオデータを含むビットストリームを生成する方法の一例を表し、本方法は、補足拡張情報(SEI)メッセージがプレフィックスSEIメッセージであるのか又はサフィックスSEIメッセージであるのかを決定することと、ここにおいて、SEIメッセージが、符号化ビデオデータに関係するデータを含む、SEI NAL単位中にSEIメッセージをカプセル化することと、ここにおいて、SEI NAL単位は、SEI NAL単位がプレフィックスSEI NAL単位であるのか又はサフィックスSEI NAL単位であるのかと、SEIメッセージがプレフィックスSEIメッセージであるのか又はサフィックスSEIメッセージであるのかとを示すNAL単位タイプ値を含む、SEI NAL単位を少なくとも含むビットストリームを生成することとを含む。
【0127】
[0125]再び
図4を参照すると、ビットストリーム出力インターフェース408は、アクセス単位を受信し、コード化ビデオシーケンスを生成するように構成され得る。ビットストリーム出力インターフェース408は、更に、符号化ビデオビットストリームの一部としてコード化ビデオシーケンスを出力するように構成され得、ここで、符号化ビデオビットストリームは、本明細書で説明するNAL単位タイプの任意の及び全ての組合せに基づいて1つ又は複数のコード化ビデオシーケンスを含む。上記で説明したように、HEVC WD7によれば、コード化ビデオシーケンスは、復号順序で連続するアクセス単位のセットである。従って、ビットストリーム出力インターフェース408は、複数のアクセス単位を受信し、復号順序に従って複数のアクセス単位を構成するように構成され得る。
【0128】
[0126]上記で説明したように、コード化構造ユニット19及び/又はビデオエンコーダ20は、HEVC WD7に規定されているように、SPS中に含まれ得る、VUIパラメータのセット中に含まれ得るfixed_pic_rate_flagシンタックス要素を含むパラメータセット中に含まれるシンタックス要素を生成するように構成され得る。更に、コード化構造ユニット19及び/又はビデオエンコーダ20は、fixed_pic_rate_flagシンタックス要素を生成するように構成され得、ここで、fixed_pic_rate_flagシンタックス要素は、HEVC WD7に規定されているセマンティクスから変更されたセマンティクスを含む。例えば、HEVC WD7におけるfixed_pic_rate_flagの現在のセマンティクスによれば、fixed_pic_rate_flagが1に等しくなるとき、出力順序で連続する2つのピクチャのプレゼンテーション時間の間の差がクロック単位に等しくなることが必要とされ得る。しかしながら、これは、時間スケーラビリティに基づくストリーミング適応のために幾つかの最高時間レイヤが破棄されるときにtime_scale又はnum_units_in_tickのいずれかの値の変更を必要とすることになる。
【0129】
[0127]一例では、デルタ(即ち、出力順序で連続する2つのピクチャのプレゼンテーション時間の間の差)がクロック単位(clock tick)に正確に等しくなることを必要とする代わりに、デルタは、整数個の(1つ又は複数の)クロック単位であることが必要とされ得る。このようにして、コード化構造ユニット19及び/又はビデオエンコーダ20は、fixed_pic_rate_flagが1に等しくなるとき、出力順序で連続する2つのピクチャのプレゼンテーション時間の間の差がクロック単位の整数に等しくなることが必要とされるようにfixed_pic_rate_flagシンタックス要素を生成するように構成され得る。
【0130】
[0128]別の例では、コード化構造ユニット19及び/又はビデオエンコーダ20は、各時間レイヤのfixed_pic_rate_flagを信号伝達する必要があり得る。更に、この例では、特定の時間レイヤのfixed_pic_rate_flagが1に等しくなる場合、即ち、時間レイヤ表現が、一定のピクチャレートを有する場合、値Nが信号伝達され得、時間レイヤ表現の(出力順序で連続する2つのピクチャのプレゼンテーション時間の間の)デルタが、N個のクロック単位に等しくなり得る。
【0131】
[0129]別の例では、コード化構造ユニット19及び/又はビデオエンコーダ20は、各時間レイヤのfixed_pic_rate_flagを随意に信号伝達するように構成され得る。この例では、特定のレイヤのfixed_pic_rate_flagが存在し、1に等しくなる場合、即ち、時間レイヤ表現が、一定のピクチャレートを有する場合、値Nが信号伝達され得、時間レイヤ表現の(出力順序で連続する2つのピクチャのプレゼンテーション時間の間の)デルタが、N個のクロック単位に等しくなる。fixed_pic_rate_flagが時間レイヤごとに随意に信号伝達される場合、fixed_pic_rate_flagが最高時間レイヤのために信号伝達され、値が1に等しくなると仮定すると、fixed_pic_rate_flagが信号伝達されない各特定の時間レイヤについて、fixed_pic_rate_flagの値が、最高時間レイヤ)のために信号伝達されたfixed_pic_rate_flagに等しくなるように導出され得、Nの値が、2
max_Tid-currTidに等しくなるように導出され、但し、max_Tidは、最高temporal_id値に等しくなり、currTidは、特定の時間レイヤのtemporal_idに等しくなる。
【0132】
[0130]
図7は、プレゼンテーション時間デルタ値を信号伝達する一例を示すフローチャートである。
図7に示すプレゼンテーション時間デルタ値を信号伝達する例は、カプセル化ユニット21によって実行されるものとして説明するが、発信源機器12、ビデオエンコーダ20、カプセル化ユニット21、及びそれらの構成要素の組合せの任意の組合せが、
図7に示すプレゼンテーション時間デルタ値を信号伝達する例を実行し得る。
【0133】
[0131]
図7の例に示すように、エンカプルセイションユニット21は、第1のピクチャのプレゼンテーション時間(例えば、POC値)と第2のピクチャのプレゼンテーション時間との間のデルタがクロック単位値の整数であるかどうかを示すフラグを生成する(702)。言い換えれば、カプセル化ユニット21は、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差(例えば、デルタ)がクロック単位値の整数倍であるかどうかを示すデータを生成し得る。
図7において説明するフラグは、そのような生成されたデータの例を表す。場合によっては、カプセル化ユニット21は、コード化構造ユニット19又はビデオエンコーダ20からフラグの値を受信し得る。フラグは、上記で説明したfixed_pic_rate_flagシンタックス要素のいずれかであり得る。
【0134】
[0132]一例では、カプセル化ユニット21は、デルタがクロック単位値の整数であることをフラグの値が示し得るかどうかを決定する(704)。デルタがクロック単位の整数値であることをフラグが示すとき(704の「はい」分岐)、カプセル化ユニット21は、クロック単位値の整数倍を表す整数値Nを生成し得る(706)。整数値Nは、デルタ値を決定するために宛先機器14などの復号機器によって使用され得、ここで、デルタは、クロック単位値の整数倍である。一例では、整数値Nは、0〜2047の値であり得、デルタが等しくなるクロックの整数よりも1小さい値を示し得る。カプセル化ユニット21は、次いで、ビットストリームの一部としてフラグと整数値Nとを出力し得る(708)。
【0135】
[0133]一方、デルタ値がクロック単位の整数倍でないことをフラグが示すとカプセル化ユニット21が決定するとき(704の「いいえ」分岐)、カプセル化ユニット21は、単に、フラグを出力し得る(710)。
【0136】
[0134]このようにして、発信源機器12は、別の例では、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差がクロック単位値の整数倍であるかどうかを示すデータを生成することと、差がクロック単位値の整数倍であることをデータが示すとき、整数倍を表すデータを生成することとを行うように構成されたプロセッサの一例を表す。
【0137】
[0135]同様に、
図7の方法は、ビデオデータを含むビットストリームを生成するための方法を表し、本方法は、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差がクロック単位値の整数倍であるかどうかを示すデータを生成することと、差がクロック単位値の整数倍であることをデータが示すとき、整数倍を表すデータを生成することとを含む。
【0138】
[0136]上記で説明したように、カプセル化ユニット21は、符号化ビデオデータを受信する。
図8は、符号化ビデオデータを生成し得るビデオエンコーダ20の一例を示すブロック図である。
図8に示すように、ビデオエンコーダ20は、ビデオデータと高レベルシンタックスデータとを受信する。ビデオエンコーダ20は、一般に、ビデオデータを符号化するために個々のビデオスライス内のビデオブロックに対して動作する。ビデオブロックは、CU内のコード化ノードに対応し得る。ビデオブロックは、固定サイズ又は可変サイズを有し得、指定されたコード化規格に応じてサイズが異なり得る。ビデオエンコーダ20は、更に、例えば、フレームヘッダ、ブロックヘッダ、スライスヘッダ、又はGOPヘッダ中に、ブロックベースのシンタックスデータ、フレームベースのシンタックスデータ、及びGOPベースのシンタックスデータなどのシンタックスデータを生成し得る。GOPシンタックスデータは、それぞれのGOP中の幾つかのフレームを記述し得、かつフレームシンタックスデータは、対応するフレームを符号化するために使用される符号化/予測モードを示し得る。
【0139】
[0137]
図8の例では、ビデオエンコーダ20は、モード選択ユニット40と、参照ピクチャメモリ64と、加算器50と、変換処理ユニット52と、量子化ユニット54と、エントロピーエンコード化単位56とを含む。モード選択ユニット40は、今度は、動き補償ユニット44と、動き推定ユニット42と、イントラ予測ユニット46と、パーティションユニット(区分化ユニット)48とを含む。ビデオブロック再構成のために、ビデオエンコーダ20はまた、逆量子化ユニット58と、逆変換単位60と、加算器62とを含む。再構成されたビデオからブロック歪み(blockiness artifacts)を除去するためにブロック境界をフィルタ処理するデブロッキングフィルタ(
図8に図示せず)も含まれ得る。所望される場合、デブロッキングフィルタは、一般に、加算器62の出力をフィルタ処理することになる。追加のフィルタ(ループ内又はループ後)もデブロッキングフィルタに加えて使用され得る。そのようなフィルタは、簡潔のために示されていないが、所望される場合、(ループ内フィルタとして)加算器50の出力をフィルタ処理し得る。
【0140】
[0138]符号化プロセス中に、ビデオエンコーダ20は、コード化されるべきビデオフレーム又はスライスを受信する。フレーム又はスライスは、複数のビデオブロックに分割され得る。動き推定ユニット42及び動き補償ユニット44は、時間的予測を行うために、1つ又は複数の参照フレーム中の1つ又は複数のブロックに対して受信されたビデオブロックのインター予測コード化を実行する。イントラ予測ユニット46は、代替的に、空間的予測を行うために、コード化されるべきブロックと同じフレーム又はスライス中の1つ又は複数の隣接ブロックに対して、受信されたビデオブロックのイントラ予測コード化を実行し得る。ビデオエンコーダ20は、例えば、ビデオデータのブロックごとに適切なコード化モードを選択するために、複数のコード化パスを実行し得る。
【0141】
[0139]更に、パーティションユニット48は、前のコード化パスにおける前の区分方式の評価に基づいてビデオデータのブロックをサブブロックに区分し得る。例えば、パーティションユニット48は、初めにフレーム又はスライスをLCUに区分し、レート歪み分析(例えば、レート歪み最適化)に基づいてLCUの各々をサブCUに区分し得る。モード選択ユニット40は、更に、サブCUへのLCUの区分を示す4分木データ構造を生成し得る。4分木のリーフノードCUは、1つ又は複数のPU及び1つ又は複数のTUを含み得る。
【0142】
[0140]モード選択ユニット40は、例えば、誤差結果に基づいてコード化モード、即ち、イントラ又はインターのうちの1つを選択し、残差ブロックデータを生成するために、得られたイントラコード化ブロック又はインターコード化ブロックを加算器50に与え、かつ参照フレームとして使用するための符号化ブロックを再構成するために、得られたイントラコード化ブロック又はインターコード化ブロックを加算器62に与え得る。モード選択ユニット40はまた、動きベクトル、イントラモードインジケータ、パーティション情報、及び他のそのようなシンタックス情報など、シンタックス要素をエントロピー符号化ユニット56に与える。
【0143】
[0141]動き推定ユニット42と動き補償ユニット44とは、高度に統合され得るが、概念的な目的のために別々に示してある。動き推定ユニット42によって実行される動き推定は、ビデオブロックの動きを推定する動きベクトルを生成するプロセスである。動きベクトルは、例えば、現在のフレーム(又は他のコード化単位)内でコード化されている現在ブロックに対する参照フレーム(又は他のコード化単位)内の予測ブロックに対する現在ビデオフレーム又はピクチャ内のビデオブロックのPUの変位を示し得る。予測ブロックは、絶対値差分和(SAD:sum of absolute difference)、2乗差分和(SSD:sum of square difference)、又は他の差分メトリックによって決定され得る画素差分に関して、コード化されるべきブロックにぴったり一致することがわかるブロックである。幾つかの例では、ビデオエンコーダ20は、参照ピクチャメモリ64に記憶された参照ピクチャのサブ整数画素位置の値を計算し得る。例えば、ビデオエンコーダ20は、参照ピクチャの1/4画素位置、1/8画素位置、又は他の分数画素位置の値を補間し得る。従って、動き推定ユニット42は、フル画素位置及び分数画素位置に関して動き探索を実行し、分数画素精度で動きベクトルを出力し得る。
【0144】
[0142]動き推定ユニット42は、PUの位置を参照ピクチャの予測ブロックの位置と比較することによって、インターコード化スライス中のビデオブロックのPUのための動きベクトルを計算する。参照ピクチャは、第1の参照ピクチャリスト(リスト0)又は第2の参照ピクチャリスト(リスト1)から選択され得、それらの参照ピクチャリストの各々は、参照ピクチャメモリ64に記憶された1つ又は複数の参照ピクチャを識別する。動き推定ユニット42は、計算された動きベクトルをエントロピー符号化ユニット56と動き補償ユニット44とに送る。
【0145】
[0143]動き補償ユニット44によって実行される動き補償は、動き推定ユニット42によって決定された動きベクトルに基づいて予測ブロックをフェッチ又は生成することに関与し得る。この場合も、幾つかの例では、動き推定ユニット42と動き補償ユニット44とは機能的に統合され得る。現在のビデオブロックのPUについての動きベクトルを受信すると、動き補償ユニット44は、動きベクトルが参照ピクチャリストのうちの1つにおいて指す予測ブロックの位置を特定し得る。加算器50は、以下で説明するように、コード化されている現在のビデオブロックの画素値から予測ブロックの画素値を減算し、画素差分値を形成することによって、残差ビデオブロックを形成する。概して、動き推定ユニット42はルーマ成分に対して動き推定を実行し、動き補償ユニット44は、クロマ成分とルーマ成分の両方のためにルーマ成分に基づいて計算された動きベクトルを使用する。モード選択ユニット40はまた、ビデオスライスのビデオブロックを復号する際にビデオデコーダ30が使用するためのビデオブロックとビデオスライスとに関連するシンタックス要素を生成し得る。
【0146】
[0144]イントラ予測ユニット46は、上記で説明したように、動き推定ユニット42及び動き補償ユニット44によって実行されるインター予測の代替として、現在ブロックをイントラ予測し得る。特に、イントラ予測ユニット46は、現在のブロックを符号化するために使用すべきイントラ予測モードを決定し得る。一部の例では、イントラ予測ユニット46は、例えば、別個の符号化パス中に、様々なイントラ予測モードを使用して現在ブロックを符号化し得、イントラ予測ユニット46(又は、一部の例では、モード選択ユニット40)は、テストされたモードから使用するのに適切なイントラ予測モードを選択し得る。
【0147】
[0145]例えば、イントラ予測ユニット46は、様々なテストされたイントラ予測モードのためのレート歪み分析を使用してレート歪み値を計算し、テストされたモードの中で最良のレート歪み特性を有するイントラ予測モードを選択し得る。レート歪み分析は、一般に、符号化ブロックと、符号化ブロックを生成するために符号化された元の符号化されていないブロックとの間の歪み(又は誤差)の量、及び符号化ブロックを生成するために使用されるビットレート(即ち、ビット数)を決定する。イントラ予測ユニット46は、どのイントラ予測モードがブロックについて最良のレート歪み値を呈するかを決定するために、様々な符号化ブロックの歪み及びレートから比を計算し得る。
【0148】
[0146]ブロックのためのイントラ予測モードを選択した後に、イントラ予測ユニット46は、エントロピー符号化ユニット56にブロックのための選択されたイントラ予測モードを示す情報を与え得る。エントロピー符号化ユニット56は、選択されたイントラ予測モードを示す情報を符号化し得る。ビデオエンコーダ20は、送信ビットストリーム中に、複数のイントラ予測モードインデックステーブル及び複数の変更されたイントラ予測モードインデックステーブル(コードワードマッピングテーブルとも呼ばれる)と、様々なブロックの符号化コンテキストの定義と、コンテキストの各々について使用すべき、最確イントラ予測モード(most probable intra-prediction mode)、イントラ予測モードインデックステーブル、及び変更されたイントラ予測モードインデックステーブルの指示とを含み得る構成データを含み得る。
【0149】
[0147]ビデオエンコーダ20は、コード化されている元のビデオブロックから、モード選択ユニット40からの予測データを減算することによって、残差ビデオブロックを形成する。加算器50は、この減算演算を実行する1つ又は複数の構成要素を表す。変換処理ユニット52は、離散コサイン変換(DCT)又は概念的に同様の変換などの変換を残差ブロックに適用し、残差変換係数値を備えるビデオブロックを生成する。変換処理ユニット52は、DCTと概念的に同様である他の変換を実行し得る。ウェーブレット変換、整数変換、サブバンド変換又は他のタイプの変換も使用され得る。いずれの場合も、変換処理ユニット52は、変換を残差ブロックに適用し、残差変換係数のブロックを生成する。変換は、残差情報を画素値領域から周波数領域などの変換領域に変換し得る。変換処理ユニット52は、得られた変換係数を量子化ユニット54に送信し得る。量子化ユニット54は、ビットレートを更に低減するために変換係数を量子化する。量子化プロセスは、係数の一部又は全部に関連するビット深度を低減し得る。量子化の程度は、量子化パラメータを調整することによって修正され得る。幾つかの例では、量子化ユニット54は、次いで、量子化された変換係数を含む行列の走査を実行し得る。代替的に、エントロピー符号化ユニット56が走査を実行し得る。
【0150】
[0148]量子化の後、エントロピー符号化ユニット56は、量子化変換係数をエントロピーコード化する。例えば、エントロピー符号化ユニット56は、コンテキスト適応型可変長コード化(CAVLC)、コンテキスト適応型バイナリ算術コード化(CABAC)、シンタックスベースコンテキスト適応型バイナリ算術コード化(SBAC)、確率間隔区分エントロピー(PIPE)コード化又は別のエントロピーコード化技法を実行し得る。コンテキストベースのエントロピーコード化の場合、コンテキストは隣接ブロックに基づき得る。エントロピーコード化単位56によるエントロピーコード化の後に、符号化ビットストリームは、別の機器(例えば、ビデオデコーダ30)に送信されるか、又は後で送信するか又は取り出すためにアーカイブされ得る。
【0151】
[0149]逆量子化ユニット58及び逆変換単位60は、それぞれ逆量子化及び逆変換を適用して、例えば参照ブロックとして後で使用するために、画素領域中で残差ブロックを再構成する。動き補償ユニット44は、残差ブロックを参照ピクチャメモリ64のフレームのうちの1つの予測ブロックに加算することによって参照ブロックを計算し得る。動き補償ユニット44はまた、再構成された残差ブロックに1つ又は複数の補間フィルタを適用して、動き推定において使用するサブ整数画素値を計算し得る。加算器62は、再構成された残差ブロックを、動き補償ユニット44によって生成された動き補償予測ブロックに加算して、参照ピクチャメモリ64に記憶するための再構成されたビデオブロックを生成する。再構成されたビデオブロックは、後続のビデオフレーム中のブロックをインターコード化するために動き推定ユニット42及び動き補償ユニット44によって参照ブロックとして使用され得る。
【0152】
[0150]上記で説明したように、逆カプセル化ユニット29は、コード化ビデオシーケンスを受信し、アクセス単位とNAL単位とを構文解析するように構成され得、ここで、NAL単位は、表2〜表7に示すNAL単位割当ての組合せのいずれか及び全てに基づいて割り振られる。更に、逆カプセル化ユニット29及びビデオデコーダ30は、NAL単位タイプ割当てに基づいてビデオデータを再構成し得る。一例では、逆カプセル化ユニット29は、NAL単位を受信するように構成され得、NAL単位はNALタイプ値を含む、NAL単位が先行ピクチャに関連するRAPピクチャ中に含まれるビデオデータの符号化スライスをカプセル化するかどうかをNALタイプ値に基づいて決定し、ビデオデコーダ30は、NAL単位が関連するア先行ピクチャをもつRAPピクチャ中に含まれるビデオデータの符号化スライスをカプセル化するかどうかに基づく構成された再構成ビデオデータであり得る。別の例では、逆カプセル化ユニット29は、NAL単位を受信し、ここにおいて、NAL単位は、NALタイプ値を含む、NAL単位がAUレベルSEIメッセージをカプセル化するかどうかをNALタイプ値に基づいて決定するように構成され得、ビデオデコーダ30は、NAL単位がAUレベルSEIメッセージをカプセル化するかどうかに基づいてビデオデータを再構成するように構成され得る。場合によっては、ビデオデータを再構成することは、上記で説明したように、スプライスビットストリームを生成することを含み得、ビデオデコーダ30は、NAL単位タイプ決定に基づいてスプライスされたビデオストリーム中のピクチャのプレゼンテーション時間を決定し得る。
【0153】
[0151]更に、上記で説明したように、発信源機器12などの発信源機器は、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間のデルタを信号伝達するように構成され得、ここで、信号伝達は、上記で説明したfixed_pic_rate_flagシンタックス要素のメイビーエニーのいずれかを使用する。従って、宛先機器14、逆カプセル化ユニット29、及びビデオデコーダ30は、第1のピクチャ及び第2のピクチャのプレゼンテーション時間を決定し、それに応じてピクチャを提示するように構成され得る。
【0154】
[0152]
図9は、プレゼンテーション時間デルタ値を決定する例示的な方法を示すフローチャートである。
図9に示すプレゼンテーション時間デルタ値を信号伝達する例は、逆カプセル化ユニット29によって実行されるものとして説明するが、宛先機器14、ビデオデコーダ30、逆カプセル化ユニット29、及びそれらの構成要素の組合せの任意の組合せが、
図9に示すプレゼンテーション時間デルタ値を決定する例を実行し得る。
図9に示すように、逆カプセル化ユニット29は第1のピクチャを取得する(902)。第1のピクチャは、アクセス単位に対応する符号化ピクチャであり得る。逆カプセル化ユニット29は第2のピクチャを取得する(904)。第2のピクチャは、アクセス単位に対応する符号化ピクチャであり得る。第2のピクチャは、第1のピクチャと同じ時間レイヤ中に含まれ得る。更に、第1及び第2のピクチャは、ビデオデータの最高時間レイヤ中に含まれ得る。
【0155】
[0153]逆カプセル化ユニット29は、次いで、整数値Nを取得し得る(906)。これは、逆カプセル化ユニット29が、SPS中に含まれ得るVUIパラメータのセット中で整数値Nがインクルーズであり得ることを示す、フラグの値などのデータを以前に取得していると仮定している。逆カプセル化ユニット29は、クロック単位値を決定する(908)。逆カプセル化ユニット29は、上記で説明した式(1)に従ってtime_scaleシンタックス要素とnum_units_in_tickシンタックス要素とに基づいてクロック単位値を決定し得る。
【0156】
[0154]逆カプセル化ユニット29は、次いで、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間のデルタを決定し得る(910)。デルタは、整数値Nに基づくクロック単位値の整数に等しくなり得る。例えば、デルタは、(N+1)*クロック単位に等しくなり得る。
【0157】
[0155]逆カプセル化ユニット29及びビデオデコーダ30は、次いで、決定されたデルタに従って第1のピクチャと第2のピクチャとを提示し得る(912)。一例では、逆カプセル化ユニット29は、ビデオデコーダ30にデルタ値を信号伝達し得、ビデオデコーダ30は、デルタ値に基づいて復号プロセスを実行し得る。このようにして、宛先機器14は、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差分値を決定することと、ここにおいて、差分値は、整数値とクロック単位値との積に等しくなる、決定された差分値に従って第1のピクチャと第2のピクチャとを提示することとを行うように構成されたプロセッサを含む機器の一例を表す。
【0158】
[0156]同様に、
図9の方法は、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差分値を決定することと、ここにおいて、差分値は、整数値とクロック単位値との積に等しくなる、決定された差分値に従って第1のピクチャと第2のピクチャとを提示することとを含む方法の一例を表す。
【0159】
[0157]
図10は、(1)NAL単位タイプを含むデータを受信すること、(2)受信されたサブピクチャレベル又は復号ユニットレベルのHRD挙動を処理すること、(3)パラメータセットIDへの参照を含むデータを処理する、(4)fixed_pic_rate_flagについての改善されたセマンティクスを含む受信されたデータを処理する、又はこれらの任意の及び全ての組合せを行うための技法を実装し得るビデオデコーダ30の一例を示すブロック図である。
図10の例では、ビデオデコーダ30は、エントロピー復号ユニット70と、動き補償ユニット72と、イントラ予測ユニット74と、逆量子化ユニット76と、逆変換単位78と、参照ピクチャメモリ82と、加算器80とを含む。ビデオデコーダ30は、幾つかの例では、ビデオエンコーダ20(
図2)に関して説明した符号化パスとは概して逆の復号パスを実行し得る。動き補償ユニット72は、エントロピー復号ユニット70から受信された動きベクトルに基づいて予測データを生成し得、イントラ予測ユニット74は、エントロピー復号ユニット70から受信されたイントラ予測モードインジケータに基づいて予測データを生成し得る。
【0160】
[0158]復号プロセス中に、ビデオデコーダ30は、ビデオエンコーダ20から、符号化ビデオスライスのビデオブロックと、関連するシンタックス要素とを表す符号化ビデオビットストリームを受信する。ビデオデコーダ30のエントロピー復号ユニット70は、量子化係数、動きベクトル又はイントラ予測モードインジケータ、及び他のシンタックス要素を生成するためにビットストリームをエントロピー復号する。エントロピー復号ユニット70は、動き補償ユニット72に動きベクトルと他の予測シンタックス要素とを転送する。ビデオデコーダ30は、ビデオスライスレベル及び/又はビデオブロックレベルでシンタックス要素を受信し得る。
【0161】
[0159]ビデオスライスがイントラコード化(I)スライスとしてコード化されるとき、イントラ予測ユニット74は、信号伝達されたイントラ予測モードと、現在フレーム又はピクチャの、前に復号されたブロックからのデータとに基づいて、現在ビデオスライスのビデオブロックのための予測データを生成し得る。ビデオフレームがインターコード化(即ち、B、P又はGPB)スライスとしてコード化されるとき、動き補償ユニット72は、エントロピー復号ユニット70から受信された動きベクトルと他のシンタックス要素とに基づいて、現在ビデオスライスのビデオブロックのための予測ブロックを生成する。予測ブロックは、参照ピクチャリストのうちの1つ内の参照ピクチャのうちの1つから生成され得る。ビデオデコーダ30は、参照ピクチャメモリ82に記憶された参照ピクチャに基づいて、デフォルトの構成技法を使用して、参照フレームリスト、即ち、リスト0及びリスト1を構成し得る。動き補償ユニット72は、動きベクトルと他のシンタックス要素とを構文解析することによって現在ビデオスライスのビデオブロックのための予測情報を決定し、その予測情報を使用して、復号されている現在ビデオブロックのための予測ブロックを生成する。例えば、動き補償ユニット72は、ビデオスライスのビデオブロックをコード化するために使用される予測モード(例えば、イントラ又はインター予測)、インター予測スライスタイプ(例えば、Bスライス、Pスライス、又はGPBスライス)、スライスの参照ピクチャリストのうちの1つ又は複数についての構成情報、スライスの各インター符号化ビデオブロックについての動きベクトル、スライスの各インターコード化ビデオブロックについてのインター予測ステータス、及び現在ビデオスライス中のビデオブロックを復号するための他の情報を決定するために、受信されたシンタックス要素の幾つかを使用する。
【0162】
[0160]動き補償ユニット72はまた、補間フィルタに基づいて補間を実行し得る。動き補償ユニット72は、ビデオブロックの符号化中にビデオエンコーダ20によって使用された補間フィルタを使用して、参照ブロックのサブ整数画素の補間値を計算し得る。この場合、動き補償ユニット72は、受信されたシンタックス要素からビデオ符号器20によって使用された補間フィルタを決定し、その補間フィルタを使用して予測ブロックを生成し得る。
【0163】
[0161]逆量子化ユニット76は、ビットストリーム中に与えられ、エントロピー復号ユニット70によって復号された、量子化変換係数を逆量子化(inverse quantize)、即ち、逆量子化(de-quantize)する。逆量子化プロセスは、量子化の程度を決定し、同様に、適用されるべき逆量子化の程度を決定するための、ビデオスライス中のビデオブロックごとにビデオデコーダ30によって計算される量子化パラメータQP
Yの使用を含み得る。
【0164】
[0162]逆変換単位78は、逆変換、例えば、逆DCT、逆整数変換、又は概念的に同様の逆変換プロセスを変換係数に適用して、画素領域において残差ブロックを生成する。
【0165】
[0163]動き補償ユニット72が、動きベクトル及び他のシンタックス要素に基づいて現在のビデオブロックのための予測ブロックを生成した後、ビデオデコーダ30は、逆変換単位78からの残差ブロックを動き補償ユニット72によって生成された対応する予測ブロックと加算することによって、復号されたビデオブロックを形成する。加算器80は、この加算演算を実行する1つ又は複数の構成要素を表す。所望される場合、ブロック歪みを除去するために、復号ブロックをフィルタ処理するためにデブロッキングフィルタも適用され得る。画素遷移を平滑化するか、又はさもなければビデオ品質を改善するために、(コード化ループ中又はコード化ループ後の)他のループフィルタも使用され得る。所与のフレーム又はピクチャ中の復号されたビデオブロックは、次いで、その後の動き補償のために使用される参照ピクチャを記憶する参照ピクチャメモリ82に記憶される。参照ピクチャメモリ82はまた、
図3の表示装置32などの表示装置上での後の提示のために、復号ビデオを記憶する。
【0166】
[0164]例によっては、本明細書で説明した技法のうちのいずれかの、幾つかの作用又はイベントは、異なるシーケンスで実行され得、追加、マージ、又は完全に除外され得る(例えば、全ての説明した作用又はイベントが、本技法の実施のために必要であるとは限らない)ことを認識されたい。その上、幾つかの例では、作用又はイベントは、連続的にではなく、同時に、例えば、マルチスレッド処理、割込み処理、又は複数のプロセッサを通じて実行され得る。
【0167】
[0165]1つ又は複数の例では、説明した機能は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、1つ又は複数の命令又はコードとしてコンピュータ可読媒体上に記憶されるか、又はコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体、又は、例えば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は、概して、(1)非一時的である有形コンピュータ可読記憶媒体、又は(2)信号又は搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明した技法の実装のための命令、コード及び/又はデータ構造を取り出すために1つもしくは複数のコンピュータ又は1つ以上のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品はコンピュータ可読媒体を含み得る。
【0168】
[0166]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROM又は他の光ディスクストレージ、磁気ディスクストレージ、若しくは他の磁気記憶装置、フラッシュメモリ、又は、命令又はデータ構造の形態の所望のプログラムコードを記憶するために使用されコンピュータによってアクセスされ得る、任意の他の媒体を備え得る。同様に、いかなる接続も適切にコンピュータ可読媒体と呼ばれる。例えば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、又は赤外線、無線、及びマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、又は他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、又は赤外線、無線、及びマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体及びデータ記憶媒体は、接続、搬送波、信号、又は他の一時的媒体を含まないが、代わりに非一時的有形記憶媒体を対象とすることを理解されたい。本明細書で使用されるディスク(disk)及びディスク(disc)は、コンパクトディスク(disc)(CD)、レーザー(登録商標)ディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)及びBlu−ray(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。
【0169】
[0167]命令は、1つ又は複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、又は他の等価な集積回路もしくはディスクリート論理回路などの1つ又は複数のプロセッサによって実行され得る。従って、本明細書で使用する「プロセッサ」という用語は、前述の構造、又は本明細書で説明した技法の実装に好適な他の構造のいずれかを指す。更に、幾つかの態様では、本明細書で説明した機能は、符号化及び復号のために構成された専用ハードウェア及び/もしくはソフトウェアモジュール内に提供され得、又は複合コーデックに組み込まれ得る。また、本技法は、1つ又は複数の回路又は論理要素において完全に実装され得る。
【0170】
[0168]本開示の技法は、ワイヤレスハンドセット、集積回路(IC)又はICのセット(例えば、チップセット)を含む、多種多様な機器又は装置において実装され得る。本開示では、開示する技法を実行するように構成された機器の機能的態様を強調するために様々な構成要素、モジュール、又はユニットについて説明したが、それらの構成要素、モジュール、又はユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。むしろ、上記で説明されたように、様々なユニットが、好適なソフトウェア及び/又はファームウェアとともに、上記で説明された1つ又は複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、又は相互動作ハードウェアユニットの集合によって与えられ得る。
【0171】
[0169]様々な例について説明した。これら及び他の例は以下の特許請求の範囲内に入る。
以下に本件出願当初の特許請求の範囲に記載された発明を付記する。
[1] ビデオデータを提示する方法であって、前記ビデオデータの整数値を決定することと、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差分値を決定することと、ここにおいて、前記差分値は、前記整数値とクロック単位値との積に等しい、決定された前記差分値に従って前記第1のピクチャと前記第2のピクチャとを提示すること、を備える方法。
[2] 前記第1のピクチャと前記第2のピクチャとを含む時間レイヤが一定のピクチャレートを有すると決定することを更に備え、前記整数値を決定することは、前記時間レイヤが前記一定のピクチャレートを有するという前記決定に基づいて、前記整数値を定義するデータを復号することを備える、[1]に記載の方法。
[3] 前記時間レイヤが前記一定のピクチャレートを有すると決定することは、前記時間レイヤが前記一定のピクチャレートを有することを示す値をfixed_pic_rate_flagが有すると決定することを備える、[2]に記載の方法。
[4] それぞれの一定のピクチャレートを有する時間レイヤごとに、個々に信号伝達される整数値を決定することと、それぞれの整数値と前記クロック単位値との積と、前記ピクチャのプレゼンテーション時間の間の差とに従ってそれぞれの一定のピクチャレートを有する前記時間レイヤの各々のピクチャを提示すること、を更に備える、[2]に記載の方法。
[5] 前記クロック単位値を決定することが、時間スケール値を決定することを備える、[1]に記載の方法。
[6] 前記第1のピクチャと前記第2のピクチャとが最高時間レイヤ中に含まれ、前記方法が、前記最高時間レイヤに関連する時間レイヤ識別値と、より低い時間レイヤの第2の整数値と、前記クロック単位値とに基づいて、前記より低い時間レイヤ中の第3のピクチャのプレゼンテーション時間と第4のピクチャのプレゼンテーション時間との間の第2の差分値を決定することと、前記第2の差分値に基づいて前記より低い時間レイヤのピクチャを提示すること、を更に備える、[1]に記載の方法。
[7] 前記第1のピクチャのための前記プレゼンテーション時間が第1のピクチャ順序カウント(POC)値を備え、前記第2のピクチャのための前記プレゼンテーション時間が第2のPOC値を備える、[1]に記載の方法。
[8] ビデオデータを提示するための装置であって、前記ビデオデータの整数値を決定することと、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差分値を決定することと、ここにおいて、前記差分値は、前記整数値とクロック単位値との積に等しい、決定された前記差分値に従って前記第1のピクチャと前記第2のピクチャとを提示することとを行うように構成されたプロセッサを備える装置。
[9] 前記整数値を決定するために、前記プロセッサが、前記第1のピクチャと前記第2のピクチャとを含む時間レイヤが一定のピクチャレートを有すると決定することと、前記時間レイヤが前記一定のピクチャレートを有するという前記決定に基づいて、前記整数値を定義するデータを復号することとを行うように構成された、[8]に記載の装置。
[10] 前記プロセッサが、前記時間レイヤが前記一定のピクチャレートを有することを示す値をfixed_pic_rate_flagが有すると決定することを行うように構成された、[9]に記載の装置。
[11] 前記プロセッサが、それぞれの一定のピクチャレートを有する時間レイヤごとに、個々に信号伝達される整数値を決定することと、それぞれの整数値と前記クロック単位値との積と、前記ピクチャのプレゼンテーション時間の間の差とに従ってそれぞれの一定のピクチャレートを有する前記時間レイヤの各々のピクチャを提示することとを行うように更に構成された、[9]に記載の装置。
[12] 前記第1のピクチャと前記第2のピクチャとが最高時間レイヤ中に含まれ、前記プロセッサが、前記最高時間レイヤに関連する時間レイヤ識別値と、より低い時間レイヤの第2の整数値と、前記クロック単位値とに基づいて、前記より低い時間レイヤ中の第3のピクチャのプレゼンテーション時間と第4のピクチャのプレゼンテーション時間との間の第2の差分値を決定することと、前記第2の差分値に基づいて前記より低い時間レイヤのピクチャを提示することとを行うように更に構成された、[8]に記載の装置。
[13] 前記第1のピクチャのための前記プレゼンテーション時間が第1のピクチャ順序カウント(POC)値を備え、前記第2のピクチャのための前記プレゼンテーション時間が第2のPOC値を備える、[8]に記載の装置。
[14] ビデオデータを提示するための装置であって、前記ビデオデータの整数値を決定するための手段と、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差分値を決定するための手段と、前記差分値は、整数値とクロック単位値との積に等しい、決定された前記差分値に従って前記第1のピクチャと前記第2のピクチャとを提示するための手段、を備える装置。
[15] 前記第1のピクチャと前記第2のピクチャとを含む時間レイヤが一定のピクチャレートを有すると決定するための手段を更に備え、前記整数値を決定するための前記手段は、前記時間レイヤが前記一定のピクチャレートを有するという前記決定に基づいて、前記整数値を定義するデータを復号するための手段を備える、[14]に記載の装置。
[16] 前記時間レイヤが前記一定のピクチャレートを有すると決定するための前記手段は、前記時間レイヤが前記一定のピクチャレートを有することを示す値をfixed_pic_rate_flagが有すると決定するための手段を備える、[15]に記載の装置。
[17] それぞれの一定のピクチャレートを有する時間レイヤごとに、個々に信号伝達される整数値を決定するための手段と、それぞれの整数値と前記クロック単位値との積と、前記ピクチャのプレゼンテーション時間の間の差とに従ってそれぞれの一定のピクチャレートを有する前記時間レイヤの各々のピクチャを提示するための手段、を更に備える、[15]に記載の装置。
[18] 前記第1のピクチャと前記第2のピクチャとが最高時間レイヤ中に含まれ、前記装置が、前記最高時間レイヤに関連する時間レイヤ識別値と、より低い時間レイヤの第2の整数値と、前記クロック単位値とに基づいて、前記より低い時間レイヤ中の第3のピクチャのプレゼンテーション時間と第4のピクチャのプレゼンテーション時間との間の第2の差分値を決定するための手段と、前記第2の差分値に基づいて前記より低い時間レイヤのピクチャを提示するための手段、を更に備える、[14]に記載の装置。
[19] 前記第1のピクチャのための前記プレゼンテーション時間が第1のピクチャ順序カウント(POC)値を備え、前記第2のピクチャのための前記プレゼンテーション時間が第2のPOC値を備える、[14]に記載の装置。
[20] 実行されたとき、プロセッサに、前記ビデオデータの整数値を決定することと、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差分値を決定することと、ここにおいて、前記差分値は、前記整数値とクロック単位値との積に等しい、決定された前記差分値に従って前記第1のピクチャと前記第2のピクチャとを提示すること、を行わせる命令を記憶したコンピュータ可読記憶媒体。
[21] 前記第1のピクチャと前記第2のピクチャとを含む時間レイヤが一定のピクチャレートを有すると決定することを前記プロセッサに行わせる命令を更に備え、前記整数値を決定することを前記プロセッサに行わせる前記命令は、前記時間レイヤが前記一定のピクチャレートを有するという前記決定に基づいて、前記整数値を定義するデータを復号することを前記プロセッサに行わせる命令を備える、[20]に記載のコンピュータ可読記憶媒体。
[22] 前記時間レイヤが前記一定のピクチャレートを有すると決定することは、前記時間レイヤが前記一定のピクチャレートを有することを示す値をfixed_pic_rate_flagが有すると決定することを備える、[21]に記載のコンピュータ可読記憶媒体。
[23] それぞれの一定のピクチャレートを有する時間レイヤごとに、個々に信号伝達される整数値を決定することと、それぞれの整数値と前記クロック単位値との積と、前記ピクチャのプレゼンテーション時間の間の差とに従ってそれぞれの一定のピクチャレートを有する前記時間レイヤの各々のピクチャを提示すること、を前記プロセッサに行わせる命令を更に備える、[21]に記載のコンピュータ可読記憶媒体。
[24] 前記第1のピクチャと前記第2のピクチャとが最高時間レイヤ中に含まれ、前記最高時間レイヤに関連する時間レイヤ識別値と、より低い時間レイヤの第2の整数値と、前記クロック単位値とに基づいて、前記より低い時間レイヤ中の第3のピクチャのプレゼンテーション時間と第4のピクチャのプレゼンテーション時間との間の第2の差分値を決定することと、前記第2の差分値に基づいて前記より低い時間レイヤのピクチャを提示すること、を前記プロセッサに行わせる命令を更に備える、[20]に記載のコンピュータ可読記憶媒体。
[25] 前記第1のピクチャのための前記プレゼンテーション時間が第1のピクチャ順序カウント(POC)値を備え、前記第2のピクチャのための前記プレゼンテーション時間が第2のPOC値を備える、[20]に記載のコンピュータ可読記憶媒体。
[26] ビデオデータを含むビットストリームを生成する方法であって、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差がクロック単位値の整数倍であるかどうかを示すデータを生成することと、前記差が前記クロック単位値の前記整数倍であることを前記データが示すとき、前記整数倍を表すデータを生成すること、を備える方法。
[27] 前記第1のピクチャと前記第2のピクチャとを含む時間レイヤが一定のピクチャレートを有すると決定することを更に備え、前記差が前記整数倍であるかどうかを示す前記データを生成することは、前記時間レイヤが前記一定のピクチャレートを有するという前記決定に基づいて、前記差が前記整数倍であることを示すように前記データを生成することを備える、[26]に記載の方法。
[28] 前記差が前記整数倍であるかどうかを示す前記データを生成することが、fixed_pic_rate_flagシンタックス要素を生成することを備える、[27]に記載の方法。
[29] 様々な時間レイヤのためのそれぞれの一定のピクチャレートを決定することと、前記時間レイヤの各々について、前記それぞれの一定のピクチャレートを表すデータを信号伝達すること、を更に備える、[27]に記載の方法。
[30] 前記第1のピクチャと前記第2のピクチャとが最高時間レイヤ中に含まれ、前記方法が、前記最高時間レイヤに関連する時間レイヤ識別値と、より低い時間レイヤの第2の整数値と、前記クロック単位値とに基づいて、前記より低い時間レイヤ中の第3のピクチャのプレゼンテーション時間と第4のピクチャのプレゼンテーション時間との間の第2の差分値を決定することと、前記第2の整数値を表すデータを生成すること、を更に備える、[26]に記載の方法。
[31] 前記第1のピクチャのための前記プレゼンテーション時間が第1のピクチャ順序カウント(POC)値を備え、前記第2のピクチャのための前記プレゼンテーション時間が第2のPOC値を備える、[26]に記載の方法。
[32] ビデオデータを含むビットストリームを生成するための装置であって、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差がクロック単位値の整数倍であるかどうかを示すデータを生成することと、前記差が前記クロック単位値の前記整数倍であることを前記データが示すとき、前記整数倍を表すデータを生成することとを行うように構成されたプロセッサを備える装置。
[33] 前記プロセッサは、前記第1のピクチャと前記第2のピクチャとを含む時間レイヤが一定のピクチャレートを有すると決定するように更に構成され、前記プロセッサは、前記時間レイヤが前記一定のピクチャレートを有するという前記決定に基づいて、前記差が前記整数倍であることを示すように前記データを生成するように構成された、[32]に記載の装置。
[34] 前記差が前記整数倍であるかどうかを示す前記データを生成するために、前記プロセッサが、fixed_pic_rate_flagシンタックス要素の値を生成するように構成された、[33]に記載の装置。
[35] 前記プロセッサは、様々な時間レイヤのためのそれぞれの一定のピクチャレートを決定することと、前記時間レイヤの各々について、前記それぞれの一定のピクチャレートを表すデータを信号伝達することとを行うように更に構成された、[33]に記載の装置。
[36] 前記第1のピクチャと前記第2のピクチャとが最高時間レイヤ中に含まれ、前記プロセッサが、前記最高時間レイヤに関連する時間レイヤ識別値と、より低い時間レイヤの第2の整数値と、前記クロック単位値とに基づいて、前記より低い時間レイヤ中の第3のピクチャのプレゼンテーション時間と第4のピクチャのプレゼンテーション時間との間の第2の差分値を決定することと、前記第2の整数値を表すデータを生成することとを行うように更に構成された、[32]に記載の装置。
[37] 前記第1のピクチャのための前記プレゼンテーション時間が第1のピクチャ順序カウント(POC)値を備え、前記第2のピクチャのための前記プレゼンテーション時間が第2のPOC値を備える、[32]に記載の装置。
[38] ビデオデータを含むビットストリームを生成するための装置であって、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差がクロック単位値の整数倍であるかどうかを示すデータを生成するための手段と、前記差が前記クロック単位値の前記整数倍であることを前記データが示すとき、前記整数倍を表すデータを生成するための手段、を備える装置。
[39] 前記第1のピクチャと前記第2のピクチャとを含む時間レイヤが一定のピクチャレートを有すると決定するための手段を更に備え、前記差が前記整数倍であるかどうかを示す前記データを生成することは、前記時間レイヤが前記一定のピクチャレートを有するという前記決定に基づいて、前記差が前記整数倍であることを示すように前記データを生成することを備える、[38]に記載の装置。
[40] 前記差が前記整数倍であるかどうかを示す前記データを生成するための前記手段が、fixed_pic_rate_flagシンタックス要素を生成するための手段を備える、[39]に記載の装置。
[41] 様々な時間レイヤのためのそれぞれの一定のピクチャレートを決定するための手段と、前記時間レイヤの各々について、前記それぞれの一定のピクチャレートを表すデータを信号伝達するための手段、を更に備える、[39]に記載の装置。
[42] 前記第1のピクチャと前記第2のピクチャとが最高時間レイヤ中に含まれ、前記最高時間レイヤに関連する時間レイヤ識別値と、より低い時間レイヤの第2の整数値と、前記クロック単位値とに基づいて、前記より低い時間レイヤ中の第3のピクチャのプレゼンテーション時間と第4のピクチャのプレゼンテーション時間との間の第2の差分値を決定するための手段と、前記第2の整数値を表すデータを生成するための手段、を更に備える、[38]に記載の装置。
[43] 前記第1のピクチャのための前記プレゼンテーション時間が第1のピクチャ順序カウント(POC)値を備え、前記第2のピクチャのための前記プレゼンテーション時間が第2のPOC値を備える、[38]に記載の装置。
[44] 実行されたとき、プロセッサに、第1のピクチャのプレゼンテーション時間と第2のピクチャのプレゼンテーション時間との間の差がクロック単位値の整数倍であるかどうかを示すデータを生成することと、前記差が前記クロック単位値の前記整数倍であることを前記データが示すとき、前記整数倍を表すデータを生成すること、を行わせる命令を記憶したコンピュータ可読記憶媒体。
[45] 前記第1のピクチャと前記第2のピクチャとを含む時間レイヤが一定のピクチャレートを有すると決定することを前記プロセッサに行わせる命令を更に備え、前記差が前記整数倍であるかどうかを示す前記データを生成することを前記プロセッサに行わせる前記命令は、前記時間レイヤが前記一定のピクチャレートを有するという前記決定に基づいて、前記差が前記整数倍であることを示すように前記データを生成することを前記プロセッサに行わせる命令を備える、[44]に記載のコンピュータ可読記憶媒体。
[46] 前記差が前記整数倍であるかどうかを示す前記データを生成することを前記プロセッサに行わせる前記命令は、fixed_pic_rate_flagシンタックス要素を生成することを前記プロセッサに行わせる命令を備える、[45]に記載のコンピュータ可読記憶媒体。
[47] 様々な時間レイヤのためのそれぞれの一定のピクチャレートを決定することと、前記時間レイヤの各々について、前記それぞれの一定のピクチャレートを表すデータを信号伝達すること、を前記プロセッサに行わせる命令を更に備える、[45]に記載のコンピュータ可読記憶媒体。
[48] 前記第1のピクチャと前記第2のピクチャとが最高時間レイヤ中に含まれ、前記最高時間レイヤに関連する時間レイヤ識別値と、より低い時間レイヤの第2の整数値と、前記クロック単位値とに基づいて、前記より低い時間レイヤ中の第3のピクチャのプレゼンテーション時間と第4のピクチャのプレゼンテーション時間との間の第2の差分値を決定することと、前記第2の整数値を表すデータを生成すること、を前記プロセッサに行わせる命令を更に備える、[44]に記載のコンピュータ可読記憶媒体。
[49] 前記第1のピクチャのための前記プレゼンテーション時間が第1のピクチャ順序カウント(POC)値を備え、前記第2のピクチャのための前記プレゼンテーション時間が第2のPOC値を備える、[44]に記載のコンピュータ可読記憶媒体。