特表2023-502401 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヴィド　スケール　インコーポレイテッドの特許一覧

特表2023-502401リアルタイムＶＶＣ復号化を実行するための方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16a
16b
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-01-24

(54)【発明の名称】リアルタイムＶＶＣ復号化を実行するための方法及び装置

(51)【国際特許分類】

H04N 19/436 20140101AFI20230117BHJP

H04N 19/91 20140101ALI20230117BHJP

【ＦＩ】

H04N19/436

H04N19/91

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022529082

(86)(22)【出願日】2020-11-24

(85)【翻訳文提出日】2022-05-18

(86)【国際出願番号】 US2020061909

(87)【国際公開番号】W WO2021108341

(87)【国際公開日】2021-06-03

(31)【優先権主張番号】62/939,858

(32)【優先日】2019-11-25

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＷＣＤＭＡ

(71)【出願人】

【識別番号】514041959

【氏名又は名称】ヴィドスケールインコーポレイテッド

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】グドゥマス、シュリーニヴァス

(72)【発明者】

【氏名】バンジョパディヤイ、サウラフ

(72)【発明者】

【氏名】ホー、ユイウェン

(72)【発明者】

【氏名】ホー、ヨン

(72)【発明者】

【氏名】シュリーヴァスタヴァ、アシット

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159KK13

5C159MA04

5C159MA05

5C159ME11

5C159PP16

5C159RC11

5C159UA02

5C159UA05

5C159UA38

(57)【要約】

リアルタイム汎用ビデオコーディング（ＶＶＣ）デコーダを実装するための装置及び方法は、既存の並列化技術の制限に対処するために複数のスレッドを使用し、コーディング効率を損なうことなく利用可能なＣＰＵ計算リソースを十分活用する。提案されるマルチスレッド（ＭＴ）フレームワークは、メモリ帯域幅を損なうことなく、ＣＴＵのレベルの並列処理技術を使用する。ピクチャレベルの並列処理は、ピクチャの参照階層を考慮することによって、シーケンスを時間レベルに分離する。実施形態は、デフォルト構成でＶＶＣ参照エンコーダを使用して生成されたビットストリームについて、マルチコアＣＰＵを有する異種プラットフォームにおけるリアルタイムＶＶＣ復号化を達成するための様々な最適化技術を使用して提供される。
【選択図】図１２

【特許請求の範囲】

【請求項1】

ビデオを復号化する方法であって、
スレッドを、並列処理を使用したビデオフレームのＣＡＢＡＣ復号化に割り当てることであって、より多くのスレッドが、より高い量子化のパラメータと比較して低い量子化のパラメータを有するフレーム、若しくはインターフレームに対するイントラフレームの復号化に、又はＰフレームに、あるいは前記フレームがより下位の時間層にあるときに割り当てられる、割り当てることと、
割り当てられた前記スレッドを使用して前記ビデオフレームを復号化することと、を含む、方法。

【請求項2】

ビデオの並列復号化の方法であって、
コーディングユニットの動きベクトルを生成することと、
インターコーディングユニット再構成を実行することと、
イントラコーディングユニット再構成を実行することと、
前記ビデオの逆再成形及びインループフィルタを実行することと、を含み、
前記生成するステップ及び前記実行するステップが、前記ビデオの別個の部分に対して同時に実行される、方法。

【請求項3】

デバイスであって、
メモリと、１つ以上のプロセッサと、を備え、前記１つ以上のプロセッサが、
スレッドを、並列処理を使用したビデオフレームのＣＡＢＡＣ復号化に割り当てることであって、より多くのスレッドが、より高い量子化のパラメータと比較して低い量子化のパラメータを有するフレーム、若しくはインターフレームに対するイントラフレームの復号化に、又はＰフレームに、あるいは前記フレームがより下位の時間層にあるときに割り当てられる、割り当てることと、
割り当てられた前記スレッドを使用して前記ビデオフレームを復号化することと、を行うように構成されている、デバイス。

【請求項4】

デバイスであって、
メモリと、１つ以上のプロセッサと、を備え、前記１つ以上のプロセッサが、
コーディングユニットの動きベクトルを生成することと、
インターコーディングユニット再構成を実行することと、
イントラコーディングユニット再構成を実行することと、
前記ビデオの逆再成形及びインループフィルタを実行することと、を行うように構成されており、
前記デバイスが、前記ビデオの別個の部分に対して同時に前記生成及び前記実行するように構成されている、デバイス。

【請求項5】

割り振られたスレッドの数が、初期割り振りの実行に基づいて動的に変化する、請求項１に記載の方法、又は請求項３に記載のデバイス。

【請求項6】

同様の前のフレームの処理時間がある期間より長い場合、ビデオの現在のフレームに割り振られたスレッドの数が増加する、請求項５に記載の方法又はデバイス。

【請求項7】

ＣＡＢＡＣ復号化と再構成復号化との間の待ち時間がある期間より長い場合、ビデオの現在のフレームに割り振られたスレッドの数が減少する、請求項５に記載の方法又はデバイス。

【請求項8】

スレッドの割り当てが、ピクチャ順序カウント距離、時間層、及びフレームタイプに基づく、前のフレームの重みに基づく、請求項５に記載の方法又はデバイス。

【請求項9】

動きベクトル生成が、左、上、及び／又は右上の隣接コーディングユニットに基づく、請求項２に記載の方法、又は請求項４に記載のデバイス。

【請求項10】

現在のコーディングツリーユニット動きベクトル生成に進む前に、右上コーディングツリーユニットの動きベクトルの生成が完了する、請求項２に記載の方法、又は請求項４に記載のデバイス。

【請求項11】

インターコード化コーディングユニット再構成が、イントラモード、並びに組み合わされたインター及びイントラ予測モード再構成とは別個に実行される、請求項２に記載の方法、又は請求項４に記載のデバイス。

【請求項12】

コーディングユニット再構成が、前記コーディングユニットの１つ以上の部分にわたって並列に実行される、請求項２に記載の方法、又は請求項４に記載のデバイス。

【請求項13】

動きベクトルの長さが閾値未満であるときに、デコーダ動きベクトル補正が使用される、請求項２に記載の方法、又は請求項４に記載のデバイス。

【請求項14】

装置であって、
請求項３～１３のいずれか一項に記載のデバイスと、
（ｉ）信号を受信するように構成されたアンテナであって、前記信号がビデオブロックを含む、アンテナ、（ｉｉ）受信された前記信号を、前記ビデオブロックを含む周波数帯域に制限するように構成されたバンドリミッタ、及び（ｉｉｉ）ビデオブロックを表す出力を表示するように構成されたディスプレイ、のうちの少なくとも１つと、を備える、装置。

【請求項15】

請求項１、２、及び５～１３のいずれか一項に記載の方法に従って、又は請求項４～１３のいずれか一項に記載の装置によって復号化された、プロセッサを使用して再生するためのデータコンテンツを含む、非一時的なコンピュータ可読媒体。

【請求項16】

請求項１、２、及び５～１３のいずれか一項に記載の方法に従って、又は請求項４～１３のいずれか一項に記載の装置によって復号化された、プロセッサを使用して再生するためのビデオデータを含む、信号。

【請求項17】

命令を含むコンピュータプログラム製品であって、前記プログラムがコンピュータによって実行されたとき、請求項１、２、及び５～１１のいずれか一項に記載の方法を前記コンピュータに実行させる、コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本実施形態のうちの少なくとも１つは、概して、ビデオの復号化又は圧縮のための方法又は装置に関する。

【背景技術】

【0002】

高い圧縮効率を実現するために、画像及びビデオのコーディングスキームは、通常、動きベクトル予測を含む予測、並びにビデオコンテンツの空間的冗長性及び時間的冗長性を活用した変換を採用している。一般に、フレーム内又はフレーム間の相関を利用するために、イントラ予測又はインター予測が使用され、次いで、しばしば予測誤差又は予測残差と呼ばれる原画像と予測画像の間の差分が、変換、量子化、及びエントロピコーディングされる。ビデオを再構成するには、エントロピコーディング、量子化、変換、及び予測に対応する逆の処理によって、圧縮データを復号化する。

【発明の概要】

【0003】

本実施形態のうちの少なくとも１つは、概して、ＶＶＣ（汎用ビデオコーディング又はＨ．２６６）規格のように、リアルタイム復号化を実行するための方法又は装置に関する。

【0004】

第１の態様によれば、方法が提供される。この方法は、スレッドを、並列処理を使用したビデオフレームのＣＡＢＡＣ復号化に割り当てるステップであって、より多くのスレッドが、より高い量子化のパラメータと比較して低い量子化のパラメータを有するフレーム、若しくはインターフレームに対するイントラフレームの復号化に、又はＰフレームに、あるいはフレームがより下位の時間層にあるときに割り当てられる、割り当てるステップと、上記割り当てられたスレッドを使用して上記ビデオフレームを復号化するステップと、を含む。

【0005】

第２の態様によれば、別の方法が提供される。この方法は、コーディングユニットの動きベクトルを生成するためのステップと、インターコーディングユニット再構成を実行するステップと、イントラコーディングユニット再構成を実行するステップと、上記ビデオの逆再成形及びインループフィルタを実行するステップと、を含み、上記生成するステップ及び上記実行するステップは、ビデオの別個の部分に対して同時に実行される。

【0006】

別の態様によれば、装置が提供される。この装置は、メモリと、１つ以上のプロセッサと、を備える、デバイスを備え、１つ以上のプロセッサは、スレッドを、並列処理を使用したビデオフレームのＣＡＢＡＣ復号化に割り当てることであって、より多くのスレッドが、より高い量子化のパラメータと比較して低い量子化のパラメータを有するフレーム、若しくはインターフレームに対するイントラフレームの復号化に、又はＰフレームに、あるいはフレームがより下位の時間層にあるときに割り当てられる、割り当てることと、上記割り当てられたスレッドを使用して上記ビデオフレームを復号化することと、を行うように構成されている。

【0007】

別の態様によれば、別の装置が提供される。この装置は、メモリと、１つ以上のプロセッサと、を備える、デバイスを備え、１つ以上のプロセッサは、コーディングユニットの動きベクトルを生成することと、インターコーディングユニット再構成を実行することと、イントラコーディングユニット再構成を実行することと、上記ビデオの逆再成形及びインループフィルタを実行することと、を行うように構成されており、このデバイスは、ビデオの別個の部分に対して同時に上記生成及び上記実行するように構成されている。

【0008】

少なくとも一実施形態の別の一般的な態様によれば、復号化実施形態のいずれかに係る装置と、（ｉ）信号を受信するように構成されたアンテナであって、信号がビデオブロック及び特徴マップのテンソルを含む、アンテナ、（ｉｉ）受信された信号を、ビデオブロックを含む周波数帯域に制限するように構成されたバンドリミッタ、又は（ｉｉｉ）ビデオブロックを表す出力を表示するように構成されたディスプレイ、若しくは特徴／及び復号化されたコンテンツ分析する任意の受信デバイス、のうちの少なくとも１つと、を備えるデバイスが提供される。

【0009】

少なくとも一実施形態の別の一般的な態様によれば、説明した符号化実施形態又は変形形態のいずれかに従って復号化されたデータコンテンツを含む非一時的なコンピュータ可読媒体が提供される。

【0010】

少なくとも一実施形態の別の一般的な態様によれば、説明した符号化実施形態又は変形形態のいずれかに従って復号化されたビデオデータを含む信号が提供される。

【0011】

少なくとも一実施形態の別の一般的な態様によれば、ビットストリームは、説明した符号化実施形態又は変形形態のいずれかに従って生成されたデータコンテンツを含むようにフォーマットされる。

【0012】

少なくとも一実施形態の別の一般的な態様によれば、コンピュータプログラム製品であって、プログラムがコンピュータによって実行されるとき、説明した復号化実施形態又は変形形態のいずれかをコンピュータに実行させる命令を含むコンピュータプログラム製品が提供される。

【0013】

一般的な態様の上記及び他の態様、特徴、及び利点は、例示的な実施形態の以下の詳細な説明を添付の図面を参照しながら読み進めることによって明らかになるであろう。

【図面の簡単な説明】

【0014】

【図1】ＶＶＣのブロックベースのビデオエンコーダの全体的な図を示す。

【図2】マルチタイプのツリー構造におけるブロック区分を示す：（ａ）クォタナリ区分、（ｂ）垂直バイナリ区分、（ｃ）水平バイナリ区分、（ｄ）垂直ターナリ区分、（ｅ）水平ターナリ区分。

【図3】ＶＶＣのビデオデコーダの全体的なブロック図を示す。

【図4】スライス／ピクチャ復号化段階の例示的な概要を示す。

【図5】ＷＰＰ並列化を伴うＣＡＢＡＣ復号化の例を示す。

【図6】スライス／ピクチャ再構成段階のための例示的なスレッドスケジューリング機構を示す。

【図7】ＷＰＰ並列化を伴うコーディングユニット動きベクトル生成を示す。

【図8】ＣＵＭＶ復号化段階内の例示的な並列化を示す。

【図9】インターコーディングユニット再構成復号化段階内の並列化を示す。

【図10】並列の非ジョイントイントラコーディングユニット再構成の例を示す。

【図11】インターコーディングユニット及びイントラコーディングユニット再構成復号化段階のジョイント並列化を示す。

【図12】水平及び垂直デブロッキングフィルタ復号化段階のインターリーブ処理を示す。

【図13】コーディングユニット動きベクトル生成及びインターコーディングユニット再構成復号化段階のインターリーブ処理を示す。

【図14】インター及びイントラコーディングユニット再構成復号化段階のインターリーブ処理を示す。

【図15】インター、イントラコーディングユニット再構成及び逆再成形復号化段階のインターリーブ処理を示す。

【図16a】ａ）１つ以上の開示された実施形態が実装され得る例示的な通信システム１００を示す図、及びｂ）例示的なＷＴＲＵを示すシステム図を示す。

【図16b】ａ）１つ以上の開示された実施形態が実装され得る例示的な通信システム１００を示す図、及びｂ）例示的なＷＴＲＵを示すシステム図を示す。

【図17】説明した一般的な態様の下の方法の一実施形態を示す。

【図18】説明した一般的な態様の下の方法の第２の実施形態を示す。

【図19】説明した方法のうちのいずれかを実行するための装置を示す。

【発明を実施するための形態】

【0015】

ビデオコーディングシステムは、デジタルビデオ信号を圧縮して、そのような信号の記憶必要性及び／又は伝送帯域幅を低減するために広く使用されている。ブロックベース、ウェーブレットベース、及びオブジェクトベースのシステムなどの様々なタイプのビデオコーディングシステムの中でも、今日では、ブロックベースのハイブリッドビデオコーディングシステムが最も広く使用され、展開されている。ブロックベースのビデオコーディングシステムの例としては、ＭＰＥＧ１／２／４パート２、Ｈ．２６４／ＭＰＥＧ－４パート１０ＡＶＣ、ＶＣ－１などの国際的なビデオコーディング規格、及び高効率ビデオコーディング（ＨＥＶＣ）と呼ばれる最新のビデオコーディング規格が挙げられ、これは、ＩＴＵ－Ｔ／ＳＧ１６／Ｑ．６／ＶＣＥＧ及びＩＳＯ／ＩＥＣ／ＭＰＥＧのＪＣＴ－ＶＣ（ビデオコーディングのジョイントコラボレーションチーム）によって開発された。

【0016】

ＨＥＶＣ規格の第１のバージョンは、前世代ビデオコーディング規格Ｈ．２６４／ＭＰＥＧＡＶＣと比較して、約５０％のビットレートの節約又は同等の知覚的品質を提供し、２０１３年１０月に確定した。ＨＥＶＣ規格は、その前身より著しいコーディング改善を提供するが、ＨＥＶＣを超える追加のコーディングツールを用いて優れたコーディング効率を達成できるという証拠がある。それに基づいて、ＶＣＥＧとＭＰＥＧの両方は、将来のビデオコーディング規格化のための新しいコーディング技術の探索作業を開始した。ジョイントビデオ探索チーム（Joint Video Exploration Team、ＪＶＥＴ）は、ＩＴＵ－ＴＶＥＣＧ及びＩＳＯ／ＩＥＣＭＰＥＧによって２０１５年１０月に形成されて、コード効率の実質的な増強を可能にすることができる高度な技術の有意な研究を開始した。ジョイント探索モデル（joint exploration model、ＪＥＭ）と呼ばれる１つの参照ソフトウェアは、ＨＥＶＣ試験モデル（HEVC test model、ＨＭ）の上にいくつかの追加のコーディングツールを組み込むことによって、ＪＶＥＴによって維持された。

【0017】

２０１７年１０月に、ＨＥＶＣを超える能力を有するビデオ圧縮に対する提案のジョイントコール（call for proposals、ＣｆＰ）が、ＩＴＵ－Ｔ及びＩＳＯ／ＩＥＣによって発行された。２０１８年４月に、２３個のＣｆＰ応答が、第１０回ＪＶＥＴミーティングにおいて受領及び評価され、これは、約４０％のＨＥＶＣに対する圧縮効率増加を示した。そのような評価結果に基づいて、ＪＶＥＴは、汎用ビデオコーディング（Versatile Video Coding、ＶＶＣ）と命名された新世代ビデオコーディング規格を開発するための新しいプロジェクトを立ち上げた。同じ月に、ＶＶＣ試験モデル（VVC test model、ＶＴＭ）と呼ばれる１つの参照ソフトウェアコードベースが、ＶＶＣ規格の参照実装を実証するために確立された。一方、新しいコーディングツールの評価を容易にするために、ベンチマークセット（benchmark set、ＢＭＳ）と呼ばれる別の参照ソフトウェアベースも生成された。ＢＭＳコードベースでは、より高いコーディング効率及び中程度の実装複雑性を提供する追加のコーディングツールのリストが、ＶＴＭの上に含まれ、ＶＶＣ規格化プロセス中に同様のコード技術を評価するときのベンチマークとして使用される。具体的には、ＪＥＭコーディングツール、例えば、４ｘ４の非分離可能な二次変換（non-separable secondary transform、ＮＳＳＴ）、一般化された双予測（generalized bi-prediction、ＧＢｉ）、双方向光学フロー（bi-directional optical flow、ＢＩＯ）、デコーダ側動きベクトル補正（decoder-side motion vector refinement、ＤＭＶＲ）、及びＢＭＳ－２．０に統合された現在のピクチャ参照（current picture referencing、ＣＰＲ）に加えて、それは、トレリスコード化量子化ツールを含む。

【0018】

ＨＥＶＣと同様に、ＶＶＣは、ブロックベースのハイブリッドビデオコーディングフレームワーク上に構築される。図１は、一般的なブロックベースのハイブリッドビデオ符号化システムのブロック図を示す。入力ビデオ信号１０２は、（コーディングユニット（coding unit、ＣＵ）と呼ばれる）ブロックごとに処理される。ＶＴＭ－１．０では、ＣＵは、最大１２８×１２８ピクセルであり得る。しかしながら、クワッドツリーに基づいてのみブロックを区分するＨＥＶＣとは異なり、ＶＴＭ－１．０では、１つのコーディングツリーユニット（coding tree unit、ＣＴＵ）は、ＣＵに分割されて、クワッド／バイナリ／ターナリツリーに基づいて様々な局所的特性に適合する。更に、ＨＥＶＣにおける複数の区分ユニットタイプの概念は除去され、すなわち、ＣＵ、予測ユニット（prediction unit、ＰＵ）、及び変換ユニット（transform unit、ＴＵ）の分離は、ＶＶＣではもはや存在しない。代わりに、各ＣＵは、常に、更なる区分なしで予測と変換の両方の基本ユニットとして使用される。マルチタイプのツリー構造では、１つのＣＴＵは、最初に、クワッドツリー構造によって分割される。次いで、各クワッドツリーリーフノードを、バイナリ及びターナリツリー構造によって更に分割することができる。図２に示すように、５つの分割タイプ、クォタナリ区分、水平バイナリ区分、垂直バイナリ区分、水平ターナリ区分、及び垂直ターナリ区分がある。図１では、空間予測（１６０）及び／又は時間予測（１６２）を実行することができる。空間予測（又は「イントラ予測」）は、現在のビデオブロックを予測するために、同じビデオピクチャ／スライス内の既にコーディングされた隣接ブロック（参照サンプルと呼ばれる）のサンプルからのピクセルを使用する。空間予測は、ビデオ信号に固有の空間冗長性を低減する。時間予測（「インター予測」又は「動き補償予測」とも呼ばれる）は、現在のビデオブロックを予測するために、既にコーディングされたビデオピクチャからの再構成されたピクセルを使用する。時間予測は、ビデオ信号に固有の時間的冗長性を低減する。所与のＣＵの時間予測信号は通常、現在のＣＵとその時間的参照との間の動きの量及び方向を示す１つ以上の動きベクトル（motion vector、ＭＶ）によってシグナリングされる。また、複数の参照ピクチャがサポートされる場合、１つの参照ピクチャインデックスが追加的に送信され、これは、時間予測信号が参照ピクチャストア（１６４）内のどの参照ピクチャから来るかを識別するために使用される。空間及び／又は時間予測の後に、エンコーダ内のモード決定ブロック（１８０）は、例えばレート歪み最適化方法に基づいて、最良の予測モードを選択する。次いで、予測ブロックは、現在のビデオブロックから減算され（１１６）、予測残差は、変換を使用して相関解除され（１０４）、量子化される（１０６）。量子化された残差係数は、逆量子化（１１０）及び逆変換されて（１１２）、再構成された残差が形成され、次いで、これは、予測ブロックに戻って加算されて（１２６）、ＣＵの再構成された信号が形成される。デブロッキングフィルタ、サンプル適応オフセット（sample adaptive offset、ＳＡＯ）、及び適応インループフィルタ（adaptive in-loop filter、ＡＬＦ）などの更なるループフィルタリングが、再構成されたＣＵに適用され得（１６６）、その後、それは、参照ピクチャストア（１６４）に入れられ、将来のビデオブロックをコーディングするために使用される。出力ビデオビットストリーム１２０を形成するために、コーディングモード（イントラ又はイントラ）、予測モード情報、動き情報、及び量子化された残差係数はすべて、エントロピコーディングユニット（１０８）に送信されて、更に圧縮及びパックされて、ビットストリームが形成される。

【0019】

ＶＶＣのインター予測及びループフィルタリング段階の中で、以下のツールは、ＨＥＶＣと比較して新しい。
１）組み合わされたインター／イントラ予測（Combined Inter/Intra Prediction、ＣＩＩＰ）
２）デコーダ側動きベクトル補正（Decoder side Motion Vector Refinement、ＤＭＶＲ）
３）逆再成形
ＣＩＩＰモードは、インター予測信号をイントラ予測信号と組み合わせる。インター及びイントラ予測信号は、加重平均化を使用して組み合わされる。重みは、左及び上のブロックのコーディングモードに基づく。

【0020】

ＶＶＣでは、以下の条件が満たされた場合、組み合わされたインター／イントラ予測（ＣＩＩＰ）モードでは、追加のフラグがＣＵごとにシグナリングされる。
・ＣＵがマージモードでコーディングされるとき
・ＣＵが６４超のルーマサンプルを含む、すなわち、ＣＵの幅×ＣＵの高さが６４以上である
・ＣＵの高さ及びＣＵの幅は、１２８個未満のルーマサンプルである

【0021】

ＶＶＣは、デコーダ側動きベクトル補正（ＤＭＶＲ）としても知られる、デコーダでの双方向マッチングベースの動きベクトル補正を使用して、ＭＶ精度を増加させることができる。テンプレートマッチングをデコーダで実行して、参照ピクチャリストＬ０及びＬ１において、初期ＭＶの周りでＭＶを補正する。ＳＡＤは、初期ＭＶの周りで、ラスタースキャン順序で、探索範囲（整数サンプルでは２５ポイントの完全探索）内の各補正されたＭＶ候補間で計算される。最も低いＳＡＤを有するＭＶ候補を使用して、双予測信号を生成する。

【0022】

ＶＶＣでは、ＤＭＶＲを、次の特徴を使用する各ＣＵに適用することができる。
・双予測ＭＶを用いたＣＵレベルマージモード
・現在のピクチャに関して、一方の参照ピクチャは過去にあり、他方の参照ピクチャは将来にある。
・現在のピクチャに対する両方の参照ピクチャ間のＰＯＣ（ピクチャ順序カウント）距離が同じである。
・ＣＵが、６４超のルーマサンプルを含む
・ＣＵの高さとＣＵの幅の両方が、８個以上のルーマサンプルである
・ＣＵレベル重み（CU-level weight、ＢＣＷ）重みインデックスをもつ双予測が、等しい重みを示す
・現在のブロックには、加重予測（Weighted Prediction、ＷＰ）が有効にされていない

【0023】

クロマスケーリングを用いたルーママッピング（Luma mapping with chroma scaling、ＬＭＣＳ）は、シーケンスパラメータセット（sequence parameter set、ＳＰＳ）フラグを使用してシーケンスレベルで有効／無効にすることができるＶＶＣ内の新しいツールとして追加される。ＬＭＣＳは、ループフィルタリング段階の直前に適用される。インターコード化ブロックの場合、動き補償された予測は、マッピングされたドメインに適用され、すなわち、順方向マッピング関数が、元のドメイン内のルーマ予測ブロックに適用されて、マッピングされたドメインに変換される。イントラコード化ブロックの場合、順方向マッピングは適用されない。

【0024】

ＬＭＣＳは、２つの部分、すなわち、１．断片的線形モデルでのルーママッピング、２．ルーマ依存性クロマスケーリング、からなる。
１．断片的線形モデルでのルーママッピング
ルーママッピングモデルは、タイルグループレベルでシグナリングされる。現在のタイルグループについて、ルーママッピングモデル存在フラグが検出された場合、対応する断片的線形モデルパラメータがシグナリングされる。シグナリングされたコードワードは、スケーリング係数を計算し、１６個の等しい断片の各々についてマッピング関数を調整するために使用される。
２．ルーマ依存性クロマ残差スケーリング
クロマ残差スケーリングもまた、タイルグループレベルでシグナリングされる。ルーママッピングが有効化され、デュアルツリー区分が現在のタイルグループに適用されない場合、追加のフラグは、ルーマ依存性クロマ残差スケーリングの使用を示すためにシグナリングされる。ルーマ依存性クロマ残差スケーリングは、その面積が４以下であるクロマブロックに対して無効にされる。クロマ残差スケーリングを使用する目的は、ルーマ信号とクロマ信号との間の相互作用を補償することである。

【0025】

図３は、ブロックベースのビデオデコーダの全体的なブロック図を示す。ビデオビットストリーム２０２は、最初に、エントロピ復号化ユニット２０８においてアンパック及びエントロピ復号化される。コーディングモード及び予測情報は、空間予測ユニット２６０（イントラコーディングされた場合）又は時間予測ユニット２６２（インターコーディングされた場合）のいずれかに送信されて、予測ブロックを形成する。残差変換係数は、逆量子化ユニット２１０及び逆変換ユニット２１２に送信されて、残差ブロックを再構成する。次いで、予測ブロック及び残差ブロックは、２２６において一緒に加算される。再構成されたブロックは、参照ピクチャストア２６４に格納される前に、インループフィルタリングを更に通過することができる。次いで、参照ピクチャストア内の再構成されたビデオは、ディスプレイデバイスを駆動するために、並びに将来のビデオブロックを予測するために使用されるために、送出される。

【0026】

いくつかの公開された論文は、ＣＰＵ、ＧＰＵ、又は異種プラットフォーム上で、ＶＶＣの前のビデオココーデックの並列化能力を利用している。別のアプローチは、フレームの独立した領域を利用し、かつ全体的なメモリアクセスを低減するＨＥＶＣデブロッキングフィルタを提案した。他のアプローチでは、ＧＰＵは、逆量子化、逆変換、イントラ予測、デブロッキングフィルタ、及びＳＡＯのＨＥＶＣ復号化段階を加速するために使用される。別のアプローチでは、サンプル分類の並列計算、各コーディングツリーブロックの統計収集、エッジオフセット及びバンドオフセットの各クラスに対する最良オフセット値及び最小歪みの並列計算、ＳＡＯマージ及びＳＡＯフィルタリングを含む、ＧＰＵベースの並列アルゴリズムが提案される。

【0027】

フレームレベルの並列化は、動き補償依存性を満たしながら、複数のフレームを同時に処理することからなる。フレームレベル並列化の主要な制限のうちの１つは、並列化のレベルが動きベクトルの長さによって決定されることである。これは、特に大きい動きを有するシーケンスでは、主要なボトルネックである。

【0028】

スライスレベルの並列化は、スライスを互いに独立して処理することを可能にする。この並列化のレベルの主要な欠点は、スライスの数がエンコーダによって決定されることである。更に、ほとんどの場合、コーデックは、フレームごとに１つのスライスを使用することに限定され得、結果的に、スライスレベルの並列化はほとんどない。更に、スライスは、コーディング効率を低下させる。

【0029】

フレームレベル又はスライスレベルの並列化の上記の欠点は、波面並列処理（Wavefront Parallel Processing、ＷＰＰ）及びタイルを用いることによって克服することができる。両方の技術により、各ピクチャを、並列に処理され得る複数の区分にサブ分割することが可能になる。各区分は、他の区分への依存性を有しない必要がある整数個のコーディングユニットを含む。タイルの使用は、コーディング効率を低下させ、ラスタースキャン処理を複雑にする。しかしながら、タイル使用における主要な欠点は、区分間の依存性が欠如しているため、より多数のタイルでは有意であろう、レート歪み損失である。

【0030】

波面並列処理（ＷＰＰ）は、コーディング依存性を破壊することなく、又はスライス若しくはタイルを使用した並列化におけるようにＣＡＢＡＣ確率をリセットすることなく、ピクチャを区分することを可能にする。ＷＰＰ法は、１つのピクチャをＣＴＵ行に区分し、ＣＴＵ行境界を横切る予測及びエントロピコーディングを可能にする。この理由から、ＷＰＰは、スライス及びタイル並列処理方法と比較して、圧縮効率の損失がより低くなる。しかしながら、波面依存性により、すべてのＣＴＢ行が同時に復号化を開始することは可能にならない。したがって、行は、やはり同時に復号化を終了しない。これは、多数のＷＰＰスレッドが復号化に使用されるときにより明らかになる並列化効率を導入する。

【0031】

オーバーラップされた波面（Overlapped Wavefront、ＯＷＦ）並列化は、連続するピクチャの実行と重複させることによって、ＷＰＰの実装効率を改善する。ＯＷＦ技術における依存性は、動き探索によって引き起こされる。ＯＷＦでは、参照ピクチャ内の動き探索領域内のすべての参照ピクセルが復号化されるまで、ＣＴＵは、復号化の準備ができていない。動き探索依存性は、複数のフレームを符号化するためのフレームレベルの並列処理スレッドのスループットを制限する。この問題は、（動き予測器によって決定される）探索ウィンドウの中心が参照ピクチャの下部に向かって位置するときに悪化する。一方、動きベクトルを制限することにより、速い垂直動きを示す、ビデオの顕著なコーディング損失がもたらされる。

【0032】

したがって、並列化技術のいずれも、今日のマルチコアシステムで利用可能なＣＰＵ処理能力を完全に利用することができない。

【0033】

説明した実施形態は、既存の並列化技術の制限に対処し、コーディング効率を損なうことなく利用可能なＣＰＵ計算リソースを完全に利用する。提案されたマルチスレッド（Multi-threaded、ＭＴ）フレームワークは、メモリ帯域幅を損なうことなく、ＣＴＵのレベル並列処理技術を使用する。ピクチャレベルの並列処理は、ピクチャの参照階層を考慮することによって、シーケンスを時間レベルに分離する。本開示は、デフォルト構成でＶＶＣ参照エンコーダを使用して生成されたそれらのビットストリームについて、マルチコアＣＰＵを有する異種プラットフォームに対するリアルタイムＶＶＣ復号化を達成するために使用される様々な最適化技術を論じている。デコーダについて提案された等価な技術も、ＶＶＣエンコーダフレームワークと共に使用され得る。

【0034】

現在のＶＶＣドラフトは、コーディングプロセスを並列可能にするためのいくつかの態様を含む。これには、タイル及び波面並列処理（ＷＰＰ）が含まれる。並列化のためにタイルを採用することは、タイル間に依存性がないため、コード損失を導入する。ＷＰＰはスライスをＣＴＵ行に分割し、コーディング依存性を維持しながら行を並列に処理する。

【0035】

本実施形態は、コーディング効率を損なうことなく、並列化のより細かい粒度を提案する。「スライス復号化段階を有するＣＡＢＡＣの並列化」と題するセクションは、ＣＡＢＡＣ復号化、及び再構成復号化段階と呼ばれるスライス復号化段階の残りを処理することによって達成される並列化のより細かい粒度を提示する。スライス／ピクチャ復号化段階のアーキテクチャ図を図４に示す。再構成復号化段階、例えば、図４に示されるようなインター、イントラ、再成形器、及びループフィルタ、の各々の並列化は、「スライス復号化段階の並列化」と題するセクションに記載されている。

【0036】

要約すると、パイプライン多段階ＶＶＣデコーダのより細かい粒度並列化を改善するための主要な寄与は、以下の通りである。
・イントラＣＵ再構成段階では、すべての非ジョイント／独立したイントラＣＴＵ（インターモードでコーディングされたすべてのそのイントラコード化ＣＵ参照ピクセルを有するＣＴＵ）は、参照ピクセルインターＣＵ（左、上、及び右上ブロック）再構成プロセスが完了すると、並列に再構成することができる。
・インターＣＵ、並びに組み合わされたインター及びイントラ予測（ＣＩＩＰ）ＣＵ予測プロセスのインター予測は、ピクチャのすべてのＣＴＵにわたって並列化され得る。
・計算の複雑さを分散させるために、ＷＰＰ対応ＣＡＢＡＣ復号化は、再構成復号化段階と並列に実行できる。ピクチャのＣＡＢＡＣ復号化のための初期に割り振られたスレッドの数は、前のピクチャのＣＡＢＡＣ実行に基づいて動的に変化し、
・デコーダパイプラインの複数の段階は、ピクチャ内で、及び時間層ピクチャにわたって並列に実行できる。例えば、ＣＵＭＶ、インターＣＵ再構成、及びイントラＣＵ再構成の復号化段階は、ピクチャ内で又はピクチャ全体にわたって並列に実行できる。
・各ＣＴＵにおいて第１の依存性ＣＵの位置を見つけ、その情報を利用して、ＣＵＭＶ及びイントラＣＵ再構成段階での波面並列処理（ＷＰＰ）並列化を改善するための事前分析。
・ピクチャを複数回スキャンするのを回避するために、デブロッキングフィルタは、水平及び垂直フィルタリング段階をインターリーブすることによって並列化される。ＣＴＵ内及びＣＴＵの間の水平エッジ及び垂直エッジの数は、スレッド間でフィルタリング作業負荷を均一に分配するように計算される。
・追加の条件を追加して、ＤＭＶＲを適応的にオフに切り替える。ＤＭＶＲは、動きベクトルの長さが事前定義された閾値未満であるときのみ、マージ候補に使用される。動きベクトルの長さに基づいてＤＭＶＲを無効にすることは、参照領域の利用可能性をもたらし、ＤＭＶＲ並列化を増加させる。

【0037】

ＶＶＣ復号化段階の並列化アプローチは、以下の３つのカテゴリのうちの１つに分類することができる。カテゴリは、ＣＴＵ間の復号化依存性に基づいて、各復号化段階に対して選択される。それらは次の通りである。
Ｉ．ＣＴＵレベル並列化（CTU level parallelization、ＣＴＵＰ）、
ＩＩ．改善されたオーバーラップされた波面（Improved Overlapped Wavefront、ＩＯＷＦ）並列化、
ＩＩＩ．負荷共有ベースの並列化。

【0038】

アプローチＩは、ＣＴＵレベル依存性なしのＶＶＣ復号化段階、例えば、再成形、サンプル適応オフセット（ＳＡＯ）のために選択される。アプローチＩＩは、イントラＣＵ予測と共にＣＴＵレベル依存性を有するＶＶＣ復号化段階のために選択される。

【0039】

パイプライン設計のアプローチＩは、既存のタイルベースのアプローチに細かい粒度の並列化を追加する。これは、複数のＣＴＵ区分間の依存性が禁止されるように、ＣＴＵへのピクチャのフレキシブルな区分に基づく。スレッドごとに処理されるＣＵの数は、ＱＴＢＴ区分に基づいて動的に変化する。

【0040】

パイプライン設計のアプローチＩＩは、改善されたオーバーラップされた波面（ＩＯＷＦ）アプローチに従うことによって、波面並列処理（ＷＰＰ）の非効率性に対処する。これらの実施形態で提案されたＩＯＷＦは、波面を使用して、ピクチャのＣＴＵ内の連続するピクチャ、領域、例えばＣＵの実行、及びピクチャ内の復号化段階をオーバーラップさせることを可能にする。以下の「スライス復号化段階を有するＣＡＢＡＣの並列化」と題するセクションは、アプローチＩＩに基づくパイプライン設計を強調している。

【0041】

本発明者らのパイプライン設計のアプローチＩＩＩは、高い分岐発散及び低いデータ並列化のために並列化することが困難なモジュールを並列化する。ＣＡＢＡＣ復号化は、このカテゴリの下に入る。したがって、ＣＡＢＡＣ復号化は、「スライス復号化段階を有するＣＡＢＡＣの並列化」と題するセクションで説明したように、スライスの再構成復号化段階と並列に実行される。

【0042】

スライス復号化段階を有するＣＡＢＡＣの並列化
スライス復号化段階を有するＣＡＢＡＣの並列化は、提案されたアプローチＩＩＩに基づく。ＶＶＣデコーダ待ち時間の主な理由のうちの１つは、ＣＡＢＡＣエンジンのコンテキスト選択に関するデータ依存性である。これは主に、ビンのコンテンツ選択が、以前に復号化されたビンの値に依存するためである。この依存性は、特にデコーダにおいてＣＡＢＡＣ並列化を達成するためのボトルネックである。これにより、今度は、デコーダの待ち時間が追加される。この待ち時間は、ピクチャのＣＡＢＡＣ復号化が、他のピクチャの再構成復号化段階と並列に行われる場合、低減できる。

【0043】

ＣＡＢＡＣ復号化段階と再構成復号化段階との間の負荷分散は、以下の段階からなる。

【0044】

Ｉ．スレッド優先度スケジューリング
ＣＡＢＡＣ復号化の複雑さは、スレッド実行優先度を規定し得る。例えば、イントラスライスのＣＡＢＡＣ復号化の複雑さは、他のスライスと比較してはるかに高い。そのため、イントラスライスのＣＡＢＡＣ復号化アクティビティは、復号化順序でその前のピクチャより早くスケジュールされ得る。同様に、時間層０のピクチャＣＡＢＡＣ復号化の複雑さは、時間層１などより高い。このため、次のグループのピクチャ（ｇｒｏｕｐｏｆｐｉｃｔｕｒｅ、ＧＯＰ）であるより下位の時間層ピクチャのＣＡＢＡＣ復号化は、前のＧＯＰであるより上位の時間層ピクチャのＣＡＢＡＣ復号化と並列にスケジュールされ得る。このようにして、ＣＡＢＡＣ復号化時間の変動は、時間層ピクチャ間でバランスを取ることができる。したがって、スレッドスケジューリングは、以下に基づいて優先順位付けされる。
・そのフレーム／スライスの推定された複雑さに基づく、ピクチャのＣＡＢＡＣ復号化プロセスの早期スケジューリング。

【0045】

ＩＩ．ＷＰＰ対応ＣＡＢＡＣ復号化のスレッド割り振り
図５に示すように、ピクチャのＷＰＰ対応ＣＡＢＡＣ復号化に割り振られたスレッドの初期数は、フレーム復号化の複雑さに依存する。フレーム復号化の複雑さが高い場合、より多くのスレッドが、例えば、低いＱＰ、イントラフレーム、インターピクチャ、又はより下位の時間層のＣＡＢＡＣ復号化に割り振られる。いくつかのスレッドがＣＡＢＡＣ復号化に割り振られると、残りの利用可能なスレッドは、前のピクチャの再構成復号化段階を処理するために割り振られる。利用可能なスレッドの総数は、以下の方法でＣＡＢＡＣと再構成復号化段階との間に分散される。
・より多数のスレッドが、高いＱＰと比較して低いＱＰを有するフレーム、インターフレームと比較してイントラフレームのＣＡＢＡＣ復号化に、Ｐピクチャに、又はピクチャがより下位の時間層にあるときに、割り当てられる。
・より多数のスレッドが、単一のタイル又は単一のスライスを有するピクチャと比較して、複数のタイル及びスライスを有するピクチャのＣＡＢＡＣ復号化に割り振られる。

【0046】

ＩＩＩ．割り振りの動的変動
ピクチャのＷＰＰ対応ＣＡＢＡＣ復号化のための初期に割り振られたスレッドの数は、初期割り振りの実行に基づいて動的に変化する。初期割り振りに基づくＣＡＢＡＣと再構成復号化段階との間の待ち時間は、スレッド割り振り基準として使用され得る。ＣＡＢＡＣ及び再構成復号化段階に割り振られたスレッドの数の動的変動の目標は、フレームごとのＣＡＢＡＣ処理時間変動を低減することである。
・同様の前のフレームを処理するのに要する時間が、リアルタイムの制約よりも高い場合、現在のフレームのＣＡＢＡＣ復号化に割り振られたスレッドの数が増加する。
・ＣＡＢＡＣ復号化と再構成復号化段階との間の待ち時間がより高い場合、現在のフレームのＣＡＢＡＣ復号化に割り振られたスレッドの数が減少する。
・複数の前のフレームのうちの１つは、割り振りの動的変動を決定する際に使用することができる。
・現在のフレームに対するスレッドの動的割り当てを決定する際の前のフレームの重みは、ＰＯＣ距離、時間層、及びフレームタイプに基づいて変化する。

【0047】

スライス復号化段階の並列化
ＣＡＢＡＣ復号化後の個々の復号化段階は、アプローチＩ及びＩＩを使用して並列化される。パイプライン設計は、並列に処理できる複数の復号化ブロックのオーバーラップ実行の原理に従う。スレッドがブロックの実行を終了した場合、それは、次の利用可能なブロックを実行し続ける。並列処理は、依存性に影響を与えることなく、ピクチャをＣＴＵ又はＣＴＵ行に区分化する。そのようなオーバーラップ実行は、１つのデコーダモジュール内で又はモジュール間で起こり得る。サブセクションはこれについて詳述する。

【0048】

スレッドスケジューリング
このセクションは、セクション「ＣＵＭＶ生成」において以下に詳述されるＣＵＭＶ段階について図６に示されるスレッドスケジューリング機構を示す。再構成復号化段階アクティビティを処理するために、スレッドプール及び先入れ先出し（ＦＩＦＯ）アクティビティキューが作成される。スレッドプールは、異種マルチコアシステム内の利用可能なＣＰＵコアの数に基づいて作成される。スレッドプールからの任意のフリースレッドは、アクティビティキューから第１の利用可能なタスクをフェッチし、ＣＰＵ能力を利用してアクティビティを実行する。スライス復号化スレッドは、スライス／ピクチャを復号化するために実行されるタスクのリストをアクティビティキュー内にプッシュする。スライス復号化スレッドは初期に、偽に設定された依存性フラグを有する第１のＣＴＵ行タスクと、最後のＣＴＵ行までの、真に設定された依存性フラグを有する第２のＣＴＵ行タスクとの、ＣＵ動きベクトル生成をプッシュする。第１のワーカースレッドと呼ばれるフリーワーカースレッドは、タスクキューから第１の利用可能なアクティビティをフェッチし、第１のＣＴＵのＣＵ動きベクトル生成を実行し、いかなる依存性もない第１の行内の最後のＣＴＵまで続ける。別のフリーワーカースレッドは、キューから次のアクティビティ（第２のＣＴＵ行ＣＵ動きベクトル生成）をフェッチし、ＷＰＰ依存性を有する第１のワーカースレッドと並列にアクティビティを処理する。このプロセスは、すべてのスライス／ピクチャ復号化段階について続く。

【0049】

ＧＰＵ並列処理
「復号化段階内の並列化」及び「復号化段階間の並列化」と題するセクションで提案された並列化スキームは、ＧＰＵ並列化スキームにも適切である。ＶＶＣ復号化アーキテクチャは、ＧＰＵメモリ使用量、例えば、グローバル、キャッシュ、又は定常メモリ使用量を低減するために、及びＧＰＵメモリアクセスを低減するために修正される。ＣＰＵ並列化に使用されるＳＩＭＤ最適化の代わりに、ＧＰＵベクトル命令を利用して、並列化を増加させる。更に、ＧＰＵカーネル起動は、ファイル読み取り動作の直後に行われる。これにより、メモリ転送による実行制限が除去される。

【0050】

復号化段階内の並列化
現在のＶＶＣ設計は、各ＣＴＵの復号化段階を順次的に処理する。この設計は、並列化フレンドリーでない。ＶＶＣデコーダ段階の並列化の程度を改善するために、各ピクチャの復号化段階を次のサブタスクに分割することが提案される。
１．ＣＵ動きベクトル（ＣＵｍｏｔｉｏｎｖｅｃｔｏｒ、ＣＵＭＶ）生成
２．インターＣＵ再構成
ａ．組み合わされたインターイントラ予測（ＣＩＩＰ）
ｂ．デコーダ動きベクトル補正（ＤＭＶＲ）
３．イントラＣＵ再構成
４．逆再成形
５．インループフィルタリング
ａ．デブロッキングフィルタ
ｂ．適応ループフィルタ
ｃ．サンプル適応オフセット

【0051】

ＣＵＭＶ生成
ＣＵ動きベクトル導出プロセスは、再構成プロセスに進む前に、インタースライス／ピクチャ全体に対して完了する。ＣＵ動きベクトルの導出は、その左、上、及び／又は右上の隣接ＣＵ動きベクトルに依存することができ、これは、波面並列処理（ＷＰＰ）依存性と呼ばれる。より良い並列処理能力を達成するために、各ＣＴＵ行は、増加するＣＴＵ番号の順序でアクティビティキューにプッシュされる。図７に示すように、スレッドプールからのフリーワーカースレッドは、アクティビティキューから第１の利用可能なＣＴＵ行をフェッチし、ＣＴＵ行全体の完了まで連続した順序でＣＴＵの動きベクトルを生成する。各ワーカースレッドは、現在のＣＴＵ動きベクトル生成に進む前に、常に右上のＣＴＵが動きベクトルを生成することを完了したことを確実にする。このようにして、最大Ｈ（ＣＴＵ行の数）のワーカースレッドを、ピクチャ動きベクトル生成全体の並列処理に使用することができる。図８は、ＣＵＭＶ動きベクトル導出プロセスを示す。図８で使用される変数を表１に説明する。

【0052】

【表1】

【0053】

ＣＵＭＶ動きベクトルを導出するために使用されるステップは、以下のように要約することができる。
・その右上のＣＴＵに依存する各ＣＴＵ内の第１のＣＵの位置を決定するための事前分析
・現在のＣＴＵ内の第１のＣＵの位置までのＣＵは、ステップ１におけるように、その右上のＣＴＵと並列に処理できる
・各ＣＴＵの残りのＣＵは、右上のＣＴＵ全体ではなく、右上依存のＣＵの利用可能性を必要とし得る

【0054】

インターＣＵ再構成
ピクチャ全体についてのＣＵ動きベクトルの導出後、インターＣＵ再構成プロセスは、イントラ及びＣＩＩＰモード再構成プロセスから分離されている。インターＣＵ再構成アルゴリズムは、図９に詳述されている。図９で使用される変数を表２に説明する。

【0055】

【表2】

【0056】

復号化スレッドの残りは、ＣＴＵ又はＣＴＵグループのインターＣＵ再構成プロセスを、増加するＣＴＵ番号の順序でアクティビティキューにプッシュする。スレッドプールからのフリーワーカースレッドは、アクティビティキューから第１の利用可能なＣＴＵ又はＣＴＵグループをフェッチし、全体的なＣＴＵ又はＣＴＵグループのインターＣＵ再構成プロセスを（ＣＴＵについて次々と）実行する。すべてのワーカースレッドは、システムで利用可能な複数のＣＰＵ／ＧＰＵコアを利用して、並列にそのＣＴＵグループのインターＣＵ再構成プロセスを実行する。このようにして、スライス／ピクチャのインターＣＵ再構成全体の複雑さを劇的に低減することができる。

【0057】

Ｉ．ＣＩＩＰ
ＣＵが、ルーマサンプルの数が６４を超え、かつＣＵの幅とＣＵの高さの両方が１２８以下であるマージモードでコーディングされるとき、追加のフラグは、組み合わされたインター／イントラＣＵ予測（ＣＩＩＰ）モードの使用をシグナリングする。現在のＣＵについてインターをイントラと組み合わせたため、ＣＩＩＰモードＣＵのインター予測は、他のインターＣＵ予測プロセスと組み合わせることができる。インターＣＵ及びＣＩＩＰインターＣＵ予測プロセスは、ピクチャのすべてのＣＴＵにわたって並列化することができる。このようにして、ＣＩＩＰインターＣＵ再構成プロセス時間は、複数のワーカースレッドを使用してそれらを並列に処理することによって、有意に低減することができる。ＣＩＩＰイントラＣＵ再構成プロセスは、他のイントラＣＵ再構成プロセスと組み合わされる。

【0058】

ＩＩ．ＤＭＶＲ
ＶＶＣは、補正された動きベクトルを伝送することなく補正された動きベクトルを取得することを可能にし、したがって、エンコーダの計算の複雑さを低減する。しかしながら、プロセス中に、ＤＭＶＲは、デコーダの計算作業負荷及び処理時間を増加させる。ＤＭＶＲでは、計算の複雑さは、探索中心の周りの探索スキーム、使用されるメトリック、例えば、補正を選択するための絶対差分の和（ＳＡＤ）、及び分数ピクセル位置を補間するための双一次補間に起因して発生する。

【0059】

エンコーダ又はデコーダのいずれかにおいて動きベクトル（ＭＶ）のサイズが制限されるため、現在のＣＵのＤＭＶＲ出力を計算するために、より少ない数の参照領域が必要になるであろう。したがって、領域内の探索ポイントの数又はＭＶのサイズを制限することにより、速い動きを記述するという犠牲を払ってＤＭＶＲ並列化を増加させ得る。

【0060】

ＤＭＶＲは、シグナリングオーバーヘッドなしに、適応的にオン及びオフに切り替えることができる。ＭＶ補正プロセスは、以下の条件が満たされたときのみ動作する。
・コーディングユニットがマージモードである
・ＩＣモードを使用した単指向性、ＡＴＭＶＰ、ＳＴＭＶＰ、アフィン及びマージ候補が除外される
・（ＰＯＣ_ｒｅｆ０－ＰＯＣ_ｃｕｒ）値及び（ＰＯＣ_ｒｅｆ１－ＰＯＣ_ｃｕｒ）値のうちの一方のみが負である

【0061】

説明した実施形態のうちの少なくとも１つでは、動きベクトルの長さが事前定義された閾値未満である場合、ＤＭＶＲのみを使用するために、追加の条件が追加される。動きベクトルの長さに基づいてＤＭＶＲを無効にすることは、参照領域の利用可能性をもたらし、双予測されるマージ候補についてＤＭＶＲ並列化を増加させる。

【0062】

イントラＣＵ再構成
イントラＣＵ予測の従来のＷＰＰ並列化は、各ＣＴＵ行を独立した領域として処理する。ＣＴＵレベルでは、各ＣＴＵは、その左及び右上の隣接ＣＴＵが再構成を終了するまで待たなければならない。このプロセスにより、現在のＣＴＵ行は、その近隣の上の行よりも常に２ＣＴＵ潜在性になる。この問題を軽減するために、本明細書に記載の一般的な態様は、イントラＣＵ予測並列化のための以下の段階を提案する。

【0063】

Ｉ．事前分析
・事前分析段階は、右上のＣＴＵに依存する各ＣＴＵの第１の依存性ＣＵの位置を決定する
・ピクチャ内の非ジョイントＣＴＵの数を見つける。非ジョイントＣＴＵは、すべてのそのイントラコード化ＣＵ参照ピクセルがインターモードでコーディングされるものである。

【0064】

ＩＩ．並列化スキーム
・上記の事前分析結果に基づいて、現在のＣＴＵ内の第１の依存性ＣＵの位置になるまでＣＵは、その右上のＣＴＵと並列に処理することができる。
・すべての非ジョイントイントラＣＵは、それらの参照されるピクセルインターＣＵ（左、上、及び右上のブロック）再構成プロセスが完了すると並列に再構成できる。フリーワーカースレッドは、一定数の非ジョイントイントラＣＵを処理することができる。より多くの非ジョイントイントラコード化ＣＵが利用可能である場合、各フリーワーカースレッドは、他のワーカースレッドと並列に一定数の非ジョイントＣＵを処理することができる。
・上の行内の非ジョイントコード化ＣＴＵは、より高い優先度を有する。上の行内の各非ジョイントＣＴＵは、フリーワーカースレッドによって処理される。このスレッドスケジューリング方法では、上の行のイントラＣＵ再構成プロセスをより速く完了させることができ、次のＣＴＵ行に対して有意に待ち時間を短縮することができる。図１０に示されるように、第１の行の各非ジョイントＣＴＵは、そのＣＴＵのインターＣＵ再構成プロセス完了後にフリーワーカースレッドによって処理される。
・ＷＰＰスレッドは、順次、残りのＣＴＵに対して第１のＣＴＵ行イントラＣＵ再構成プロセスを実行する。このＷＰＰスレッドは、上記の非ジョイントＣＴＵ再構成プロセスと並列に走る。

【0065】

デブロッキングフィルタ
デブロッキングは、逆再成形器の直後のＶＶＣループフィルタリング段階におけるモジュールである。ＶＶＣでは、垂直デブロッキングフィルタリング段階は、水平デブロッキングフィルタリングされた出力に基づく。したがって、現在の設計は、水平及び垂直のフィルタリング段階を順次処理する。しかしながら、水平又は垂直のフィルタリング段階のいずれについてもＣＴＵ間にデータ依存性はない。したがって、フレーム全体のすべてのＣＴＵを並列に処理することができる。以下のセクション「インターリーブグループ化」は、水平及び垂直フィルタリング段階をインターリーブし、ＣＴＵレベルの並列化に起因するメモリアクセスの増加を軽減する技術を提案している。

【0066】

ＩＶ．エッジベースのＣＴＵグループ化
ＶＶＣでは、最大許容ＣＴＵサイズは１２８×１２８である。したがって、８×８グリッドで実行されるデブロッキングの場合、許容される垂直エッジの最大数は、１２８／８＝１６である。しかしながら、ＱＴＢＴＴＴ区分により、垂直エッジ及び水平エッジの数は、ＣＴＵ内で及びＣＴＵ間で変化し得る。したがって、スレッド間の処理負荷を均一に分配するために、それは、事前定義されたエッジの数に基づいて、スレッドごとにタスクを分配するように処理される。

【0067】

Ｖ．関心領域（Region of interest、ＲＯＩ）ベースのＣＴＵグループ化
スレッド割り当てのために連続するＣＴＵ行をグループ化する代わりに、スレッド処理ごとに関心領域（ＲＯＩ）を選択することができる。関心領域に基づいてＤＢＦ処理のためにＣＴＵをグループ化すると、メモリのより良好な取り扱いがもたらされるであろう。

【0068】

ＶＩ．インターリーブグループ化
既存のＶＶＣ設計は、水平及び垂直のフィルタリング段階を順次処理する。これは、ピクチャの複数のスキャンを必要とし、メモリアクセスを増加させる。ピクチャ全体を順次処理する代わりに、ここでは、水平及び垂直のフィルタリング段階をインターリーブすることが提案される。２ＣＴＵ行の水平フィルタリングが第１のパスにおいて処理され、それに垂直フィルタリングが続く。これは、現在のＣＴＵ行の垂直フィルタリングが開始する前に、現在のＣＴＵ行及びその下のＣＴＵ行の水平フィルタリングされたピクセルの利用可能性を保証する。図１２は、水平及び垂直デブロッキング段階のジョイント並列化を示す。使用された変数を表３に説明する。

【0069】

【表3】

【0070】

復号化段階間の並列化
復号化段階間の並列化は、アプローチＩに基づく。ビデオコーディング段階間のデータ構造及び依存性は、段階内の及び段階間の並列化の可能性を制限する。例えば、ＣＡＢＡＣなどの復号化モジュールは、高い分岐発散及び低いデータ並列化を有する。同様に、低い分岐発散及びより高いデータ並列化を有するループフィルタリングなどのモジュールは、並列処理のための良好な候補である。提案された並列化技術は、分岐発散及びデータ並列の基準に基づいてＶＶＣデコーダのそのような分析を実行して、１つのモジュールを別のモジュールに対して並列化する有効性を決定する。以下に、低い分岐発散及び更に高いデータ発散を同時に可能にするＶＶＣモジュールのジョイント並列化のためのステップを説明する。

【0071】

時間層ピクチャの並列処理
復号化フレームレート、並びに待ち時間は、時間ピクチャ層の並列復号化によって同時に低減することができる。例えば、新しい参照ピクチャは、非参照ピクチャと比較して、より下位の時間層を占め、逆も同様である。連続したフレームを並列に処理するために、次の段階が連続して実行される。
・参照ピクチャ内のコロケートされたＣＵ、下及び右上のＣＵの予測プロセスを完了する。
・下及び右のＣＵ予測プロセスが完了した後に、参照ピクチャ内のコロケートされたＣＵの逆再成形及びデブロッキングを開始する。
・参照ピクチャ内の他のＣＵ予測プロセスと並列に、コロケートされたＣＵに逆再成形及びループフィルタリングを適用する。
・現在のＣＵの予測バッファを生成する。

【0072】

ピクチャ内の複数の復号化モジュールの並列処理
複数の復号化モジュールの効率的な並列化を達成するために、２つの要因が考慮される。それらは、高い分岐発散、及び総復号化時間の割合である。我々のプロファイリング分析に基づいて、インターＣＵ予測、ループフィルタリング段階は、復号化時間の非常に高い割合を占める。一方、イントラＣＵ予測モジュールは、高い分岐発散を有していた。そのようなモジュール内の及びそのようなモジュール間のサブ段階は、総復号化時間を最小限に抑えるために、並列に復号化される。

【0073】

Ｉ．ＣＵＭＶ生成及びインターＣＵ再構成
ＣＵＭＶ生成とインターＣＵ再構成との間の並列化は、アプローチＩＩに従い、以下のステップを使用する。
●ＣＡＢＡＣ復号化の後のＷＰＰ依存性に続く並列なピクチャ全体のＣＵＭＶ生成
●並列なピクチャ全体のインターＣＵ再構成
●上の行ＣＴＵのインターＣＵ再構成を他のＣＴＵのＣＵＭＶ生成と並列にスケジューリングすること
○上のＣＴＵ行ＣＵＭＶ生成プロセスの完了後、それらのフリーワーカースレッドは、他のＣＴＵ行ＣＵＭＶ生成プロセスの代わりにインターＣＵ再構成プロセスに割り当てられる。下の行ＣＵＭＶ生成プロセスに対するワーカースレッドの早期割り振りは、それらがそれらの上のＣＴＵ行からＷＰＰ依存性を有するため、リソース浪費につながる。それらのワーカースレッドをインターＣＵ再構成プロセスに割り振ると、リソースを効果的に利用するのに役立つ。
●図１３に示すように、上のＣＴＵ行のインターＣＵ再構成プロセスは、番号フリーワーカースレッドを使用して開始されているが、一方、ＣＵ動きベクトル生成プロセスは、下のＣＴＵ行のＷＰＰワーカースレッドによって実行される。

【0074】

ＩＩ．ＣＵＭＶ生成、インター及びイントラＣＵ再構成
インターＣＵ及びイントラＣＵ再構成段階のジョイント並列化を図１１に示し、関連するパラメータを表４で説明する。イントラＣＵ再構成は、インターＣＵ再構成プロセスに従う。しかしながら、上の行ＣＴＵイントラＣＵ再構成プロセスは、他のＣＴＵ（例えば、最後の行ＣＴＵ）のインターＣＵ再構成と並列に実行できる。これは、インターＣＵ再構成サンプル間の利用可能性を確保し、同時に、インターＣＵ及びイントラＣＵ再構成のジョイント並列化から利益を得るであろう。

【0075】

図１４に示すように、動きベクトル生成、インター及びイントラＣＵ再構成復号化段階は、オーバーラップし得る。ＷＰＰスレッドが特定のＣＴＵ行のＣＵＭＶ生成を完了すると、フリーワーカースレッドをインターＣＵの再構成のために使用することができる。事前定義された数のＣＴＵのインターＣＵ再構成が完了すると、フリーワーカースレッドは、第１のＣＴＵ行イントラＣＵ再構成プロセスの実行を開始することができる。別のフリーワーカースレッドが第２のＣＴＵ行イントラＣＵ再構成プロセスの実行を開始する時間までに、第１のＣＴＵ行内の多くのＣＴＵイントラＣＵ再構成プロセスは完了している。このようにして、ＷＰＰ依存性による第２のＣＴＵ行イントラＣＵ再構成プロセスにおける遅延は、有意に最小化され得る。

【0076】

【表4】

【0077】

ＩＩＩ．逆再成形及びイントラＣＵ再構成
他のＣＴＵのＣＴＵレベル逆再成形プロセス及びインター、イントラＣＵ再構成は、並列に実行される。図１５に示すように、上のＣＴＵ行の逆再成形プロセスは、ピクチャ全体のインター及びイントラＣＵ再構成の完了前に、フリーワーカースレッドを使用してスケジュールすることができる。この早期スケジューリングにより、ピクチャ全体のインター及びイントラＣＵ再構成完了の前に、デブロッキング、ＳＡＯ、及びＡＬＦ完了を含む、上の行ＣＴＵ全体再構成プロセスが可能になる。上のＣＴＵ行再構成が完了すると、次の依存性ピクチャ復号化は、現在のピクチャ復号化と並列に開始することができる。

【0078】

図１６Ａは、１つ以上の開示された実施形態が実装され得る例示的な通信システム１００を示す図である。通信システム１００は、音声、データ、ビデオ、メッセージング、ブロードキャストなどのコンテンツを複数の無線ユーザに提供する複数のアクセスシステムであり得る。通信システム１００は、複数の無線ユーザが、無線帯域幅を含むシステムリソースの共有を通じて、そのようなコンテンツにアクセスすることを可能にし得る。例えば、通信システム１００は、符号分割多重アクセス（code division multiple access、ＣＤＭＡ）、時分割多重アクセス（time division multiple access、ＴＤＭＡ）、周波数分割多重アクセス（frequency division multiple access、ＦＤＭＡ）、直交ＦＤＭＡ（orthogonal FDMA、ＯＦＤＭＡ）、シングルキャリアＦＤＭＡ（single-carrier FDMA、ＳＣ－ＦＤＭＡ）、ゼロテールユニークワードＤＦＴ－ＳｐｒｅａｄＯＦＤＭ（zero-tail unique-word DFT-Spread OFDM、ＺＴＵＷＤＴＳ－ｓＯＦＤＭ）、ユニークワードＯＦＤＭ（unique word OFDM、ＵＷ－ＯＦＤＭ）、リソースブロックフィルタ処理ＯＦＤＭ、フィルタバンクマルチキャリア（filter bank multicarrier、ＦＢＭＣ）、及び／又は同様のものなど、１つ以上のチャネルアクセス方法を採用し得る。

【0079】

図１６Ａに示されるように、通信システム１００は、無線送信／受信ユニット（wireless transmit/receive unit、ＷＴＲＵ）１０２ａ、１０２ｂ、１０２ｃ、１０２ｄと、ＲＡＮ１０４と、ＣＮ１０６と、公衆交換電話網（public switched telephone network、ＰＳＴＮ）１０８と、インターネット１１０と、他のネットワーク１１２とを含み得るが、開示される実施形態は、任意の数のＷＴＲＵ、基地局、ネットワーク、及び／又はネットワーク要素を企図していることが理解されよう。ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄの各々は、無線環境において動作し、かつ／又は通信するように構成された任意のタイプのデバイスであり得る。例として、それらのいずれも「局」及び／又は「ＳＴＡ」と称され得るＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄは、無線信号を送信及び／又は受信するように構成され得、ユーザ機器（user equipment、ＵＥ）、移動局、固定又は移動加入者ユニット、加入ベースのユニット、ページャ、セルラ電話、携帯情報端末（personal digital assistant、ＰＤＡ）、スマートフォン、ラップトップ、ネットブック、パーソナルコンピュータ、無線センサ、ホットスポット又はＭｉ－Ｆｉデバイス、モノのインターネット（Internet of Things、ＩｏＴ）デバイス、ウォッチ又は他のウェアラブル、ヘッドマウントディスプレイ（head-mounted display、ＨＭＤ）、車両、ドローン、医療デバイス及びアプリケーション（例えば、遠隔手術）、工業用デバイス及びアプリケーション（例えば、工業用及び／又は自動処理チェーンコンテキストで動作するロボット及び／又は他の無線デバイス）、家電デバイス、商業用及び／又は工業用無線ネットワークで動作するデバイスなどを含み得る。ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、及び１０２ｄのいずれも、互換的にＵＥと称され得る。

【0080】

通信システム１００はまた、基地局１１４ａ、及び／又は基地局１１４ｂを含み得る。基地局１１４ａ、１１４ｂの各々は、ＣＮ１０６、インターネット１１０、及び／又は他のネットワーク１１２などの１つ以上の通信ネットワークへのアクセスを容易にするために、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄのうちの少なくとも１つと無線でインターフェース接続するように構成された任意のタイプのデバイスであり得る。例として、基地局１１４ａ、１１４ｂは、基地局トランシーバ（base transceiver station、ＢＴＳ）、ノードＢ、ｅＮｏｄｅＢ、ホームノードＢ、ホームｅＮｏｄｅＢ、ｇＮＢ、ＮＲＮｏｄｅＢ、サイトコントローラ、アクセスポイント（access point、ＡＰ）、無線ルータなどであり得る。基地局１１４ａ、１１４ｂは各々単一の要素として示されているが、基地局１１４ａ、１１４ｂは、任意の数の相互接続された基地局及び／又はネットワーク要素を含み得ることが理解されるであろう。

【0081】

基地局１１４ａは、基地局コントローラ（base station controller、ＢＳＣ）、無線ネットワークコントローラ（radio network controller、ＲＮＣ）、リレーノードなど、他の基地局及び／又はネットワーク要素（図示せず）も含み得る、ＲＡＮ１０４の一部であり得る。基地局１１４ａ及び／又は基地局１１４ｂは、セル（図示せず）と称され得る、１つ以上のキャリア周波数で無線信号を送信及び／又は受信するように構成され得る。これらの周波数は、認可スペクトル、未認可スペクトル、又はライセンス及び未認可スペクトルの組み合わせであり得る。セルは、比較的固定され得るか又は経時的に変化し得る特定の地理的エリアに無線サービスのカバレッジを提供し得る。セルは更にセルセクタに分割され得る。例えば、基地局１１４ａと関連付けられたセルは、３つのセクタに分割され得る。したがって、一実施形態では、基地局１１４ａは、３つのトランシーバ、すなわち、セルのセクタごとに１つを含み得る。一実施形態では、基地局１１４ａは、多重入力多重出力（multiple-input multiple output、ＭＩＭＯ）技術を用いることができ、セルのセクタごとに複数のトランシーバを利用することができる。例えば、ビームフォーミングを使用して、所望の空間方向に信号を送信及び／又は受信することができる。

【0082】

基地局１１４ａ、１１４ｂは、エアインターフェース１１６を介してＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄのうちの１つ以上と通信し得、これは、任意の好適な無線通信リンク（例えば、無線周波数（radio frequency、ＲＦ）、マイクロ波、センチメートル波、マイクロメートル波、赤外線（infrared、ＩＲ）、紫外線（ultraviolet、ＵＶ）、可視光など）であり得る。エアインターフェース１１６は、任意の好適な無線アクセス技術（radio access technology、ＲＡＴ）を使用して確立され得る。

【0083】

より具体的には、上記のように、通信システム１００は、複数のアクセスシステムであり得、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、ＯＦＤＭＡ、ＳＣ－ＦＤＭＡなどの１つ以上のチャネルアクセススキームを用いることができる。例えば、ＲＡＮ１０４及びＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃの基地局１１４ａは、広帯域ＣＤＭＡ（ｗｉｄｅｂａｎｄＣＤＭＡ、ＷＣＤＭＡ）を使用してエアインターフェース１１６を確立することができる、ユニバーサル移動体通信システム（Universal Mobile Telecommunications System、ＵＭＴＳ）地上無線アクセス（Terrestrial Radio Access、ＵＴＲＡ）などの無線技術を実装し得る。ＷＣＤＭＡは、高速パケットアクセス（High-Speed Packet Access、ＨＳＰＡ）及び／又は進化型ＨＳＰＡ（ＨＳＰＡ＋）などの通信プロトコルを含み得る。ＨＳＰＡは、高速ダウンリンク（Downlink、ＤＬ）パケットアクセス（High-Speed Downlink Packet Access、ＨＳＤＰＡ）及び／又は高速アップリンクパケットアクセス（High-Speed UL Packet Access、ＨＳＵＰＡ）を含み得る。

【0084】

一実施形態では、基地局１１４ａ及びＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃは、進化型ＵＭＴＳ地上無線アクセス（Evolved UMTS Terrestrial Radio Access、Ｅ－ＵＴＲＡ）などの無線技術を実装し得、これは、ロングタームエボリューション（ＬＴＥ）及び／又はＬＴＥ－Ａｄｖａｎｃｅｄ（ＬＴＥ－Ａ）及び／又はＬＴＥ－ＡｄｖａｎｃｅｄＰｒｏ（ＬＴＥ－ＡＰｒｏ）を使用してエアインターフェース１１６を確立し得る。

【0085】

一実施形態では、基地局１１４ａ、及びＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃは、ＮｅｗＲａｄｉｏ（ＮＲ）を使用して、エアインターフェース１１６を確立し得る、ＮＲ無線アクセスなどの無線技術を実装し得る。

【0086】

一実施形態では、基地局１１４ａ及びＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃは、複数の無線アクセス技術を実装し得る。例えば、基地局１１４ａ及びＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃは、例えば、デュアル接続性（dual connectivity、ＤＣ）原理を使用して、ＬＴＥ無線アクセス及びＮＲ無線アクセスを一緒に実装し得る。したがって、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃによって利用されるエアインターフェースは、複数のタイプの無線アクセス技術、並びに／又は複数のタイプの基地局（例えば、ｅＮＢ及びｇＮＢ）に送信される／そこから送信される送信によって特徴付けられ得る。

【0087】

他の実施形態では、基地局１１４ａ及びＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃは、ＩＥＥＥ８０２．１１（すなわち、無線フィデリティ（Wireless Fidelity、ＷｉＦｉ）、ＩＥＥＥ８０２．１６（すなわち、ＷｏｒｌｄｗｉｄｅＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ（ＷｉＭＡＸ））、ＣＤＭＡ２０００、ＣＤＭＡ２０００１Ｘ、ＣＤＭＡ２０００ＥＶ－ＤＯ、暫定規格２０００（ＩＳ－２０００）、暫定規格９５（ＩＳ－９５）、暫定規格８５６（ＩＳ－８５６）、汎欧州デジタル移動電話方式（Global System for Mobile communications、ＧＳＭ）、ＧＳＭＥｖｏｌｕｔｉｏｎ（Enhanced Data rates for GSM Evolution、ＥＤＧＥ）、ＧＳＭＥＤＧＥ（ＧＥＲＡＮ）などの無線技術を実装し得る。

【0088】

図１６Ａの基地局１１４ｂは、例えば、無線ルータ、ホームノードＢ、ホームｅＮｏｄｅＢ又はアクセスポイントであってもよく、事業所、家庭、車両、キャンパス、工業施設、（例えば、ドローンによる使用のための）空中回廊、道路などの場所などの局所的エリアにおける無線接続を容易にするために、任意の好適なＲＡＴを利用することができる。一実施形態では、基地局１１４ｂ及びＷＴＲＵ１０２ｃ、１０２ｄは、ＩＥＥＥ８０２．１１などの無線技術を実装して、無線ローカルエリアネットワーク（wireless local area network、ＷＬＡＮ）を確立することができる。一実施形態では、基地局１１４ｂ及びＷＴＲＵ１０２ｃ、１０２ｄは、ＩＥＥＥ８０２．１５などの無線技術を実装して、無線パーソナルエリアネットワーク（wireless personal area network、ＷＰＡＮ）を確立することができる。更に別の実施形態では、基地局１１４ｂ及びＷＴＲＵ１０２ｃ、１０２ｄは、セルラベースのＲＡＴ（例えば、ＷＣＤＭＡ、ＣＤＭＡ２０００、ＧＳＭ、ＬＴＥ、ＬＴＥ－Ａ、ＬＴＥ－ＡＰｒｏ、ＮＲなど）を利用して、ピコセル又はフェムトセルを確立することができる。図１６Ａに示すように、基地局１１４ｂは、インターネット１１０への直接接続を有し得る。したがって、基地局１１４ｂは、ＣＮ１０６を介してインターネット１１０にアクセスする必要がない場合がある。

【0089】

ＲＡＮ１０４は、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄのうちの１つ以上に、音声、データ、アプリケーション、及び／又はボイスオーバインターネットプロトコル（voice over internet protocol、ＶｏＩＰ）サービスを提供するように構成された任意のタイプのネットワークであってもよいＣＮ１０６と通信し得る。データは、異なるスループット要件、待ち時間要件、エラー許容要件、信頼性要件、データスループット要件、モビリティ要件などの様々なサービス品質（quality of service、ＱｏＳ）要件を有し得る。ＣＮ１０６は、通話制御、ビリングサービス、モバイルロケーションベースのサービス、プリペイド通話、インターネット接続性、映像配信などを提供し、かつ／又はユーザ認証などの高レベルセキュリティ機能を実行することができる。図１６Ａには示されていないが、ＲＡＮ１０４及び／又はＣＮ１０６は、ＲＡＮ１０４と同じＲＡＴ又は異なるＲＡＴを用いる他のＲＡＮと直接又は間接的に通信し得ることが理解されよう。例えば、ＮＲ無線技術を利用し得るＲＡＮ１０４に接続されることに加えて、ＣＮ１０６はまた、ＧＳＭ、ＵＭＴＳ、ＣＤＭＡ２０００、ＷｉＭＡＸ、Ｅ－ＵＴＲＡ又はＷｉＦｉ無線技術を用いて別のＲＡＮ（図示せず）と通信し得る。

【0090】

ＣＮ１０６はまた、ＰＳＴＮ１０８、インターネット１１０、及び／又は他のネットワーク１１２にアクセスするために、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄのゲートウェイとして機能し得る。ＰＳＴＮ１０８は、基本電話サービス（plain old telephone service、ＰＯＴＳ）を提供する公衆交換電話網を含み得る。インターネット１１０は、ＴＣＰ／ＩＰインターネットプロトコルスイートの伝送制御プロトコル（transmission control protocol、ＴＣＰ）、ユーザデータグラムプロトコル（datagram protocol、ＵＤＰ）、及び／又はインターネットプロトコル（internet protocol、ＩＰ）などの共通通信プロトコルを使用する、相互接続されたコンピュータネットワーク及びデバイスのグローバルシステムを含み得る。ネットワーク１１２は、他のサービスプロバイダによって所有及び／又は操作される有線及び／又は無線通信ネットワークを含み得る。例えば、ネットワーク１１２は、ＲＡＮ１０４と同じＲＡＴ又は異なるＲＡＴを用いることができる１つ以上のＲＡＮに接続された別のＣＮを含み得る。

【0091】

通信システム１００におけるＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄのいくつか又はすべては、マルチモード能力を含んでもよい（例えば、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄは、異なる無線リンクを介して異なる無線ネットワークと通信するための複数のトランシーバを含み得る）。例えば、図１６Ａに示されるＷＴＲＵ１０２ｃは、セルラベースの無線技術を用いることができる基地局１１４ａ、及びＩＥＥＥ８０２無線技術を用いることができる基地局１１４ｂと通信するように構成され得る。

【0092】

図１６Ｂは、例示的なＷＴＲＵ１０２を示すシステム図である。図１６Ｂに示すように、ＷＴＲＵ１０２は、とりわけ、プロセッサ１１８、トランシーバ１２０、送／受信要素１２２、スピーカ／マイクロフォン１２４、キーパッド１２６、ディスプレイ／タッチパッド１２８、非リムーバブルメモリ１３０、リムーバブルメモリ１３２、電源１３４、全地球測位システム（global positioning system、ＧＰＳ）チップセット１３６、及び／又は他の周辺機器１３８を含み得る。ＷＴＲＵ１０２は、一実施形態との一貫性を有しながら、前述の要素の任意の部分的組み合わせを含み得ることが理解されよう。

【0093】

プロセッサ１１８は、汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタル信号プロセッサ（digital signal processor、ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアに関連付けられた１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array、ＦＰＧＡ）回路、任意の他のタイプの集積回路（integrated circuit、ＩＣ）、状態機械などであり得る。プロセッサ１１８は、信号コーディング、データ処理、電力制御、入力／出力処理、及び／又はＷＴＲＵ１０２が無線環境で動作することを可能にする任意の他の機能を実行し得る。プロセッサ１１８は、送／受信要素１２２に結合され得るトランシーバ１２０に結合され得る。図１６Ｂは、プロセッサ１１８及びトランシーバ１２０を別個のコンポーネントとして示しているが、プロセッサ１１８及びトランシーバ１２０は、電子パッケージ又はチップにおいて一緒に統合され得ることが理解されよう。

【0094】

送／受信要素１２２は、エアインターフェース１１６を介して基地局（例えば、基地局１１４ａ）に信号を送信するか又は基地局（例えば、基地局１１４ａ）から信号を受信するように構成され得る。例えば、一実施形態では、送／受信要素１２２は、ＲＦ信号を送信及び／又は受信するように構成されたアンテナであり得る。一実施形態では、送／受信要素１２２は、例えば、ＩＲ、ＵＶ又は可視光信号を送信及び／又は受信するように構成されたエミッタ／検出器であり得る。更に別の実施形態では、送／受信要素１２２は、ＲＦ信号及び光信号の両方を送信及び／又は受信するように構成され得る。送／受信要素１２２は、無線信号の任意の組み合わせを送信及び／又は受信するように構成され得ることが理解されよう。

【0095】

送／受信要素１２２は、単一の要素として図１６Ｂに示されているが、ＷＴＲＵ１０２は、任意の数の送／受信要素１２２を含み得る。より具体的には、ＷＴＲＵ１０２は、ＭＩＭＯ技術を採用し得る。したがって、一実施形態では、ＷＴＲＵ１０２は、エアインターフェース１１６を介して無線信号を送受信するための２つ以上の送／受信要素１２２（例えば、複数のアンテナ）を含み得る。

【0096】

トランシーバ１２０は、送／受信要素１２２によって送信される信号を変調し、送／受信要素１２２によって受信される信号を復調するように構成され得る。上記のように、ＷＴＲＵ１０２は、マルチモード能力を有し得る。したがって、トランシーバ１２０は、例えばＮＲ及びＩＥＥＥ８０２．１１などの複数のＲＡＴを介してＷＴＲＵ１０２が通信することを可能にするための複数のトランシーバを含み得る。

【0097】

ＷＴＲＵ１０２のプロセッサ１１８は、スピーカ／マイクロフォン１２４、キーパッド１２６、及び／又はディスプレイ／タッチパッド１２８（例えば、液晶ディスプレイ（liquid crystal display、ＬＣＤ）表示ユニット若しくは有機発光ダイオード（organic light-emitting diode、ＯＬＥＤ）表示ユニット）に結合され得、これらからユーザ入力データを受信することができる。プロセッサ１１８はまた、ユーザデータをスピーカ／マイクロフォン１２４、キーパッド１２６、及び／又はディスプレイ／タッチパッド１２８に出力し得る。更に、プロセッサ１１８は、非リムーバブルメモリ１３０及び／又はリムーバブルメモリ１３２などの任意のタイプの好適なメモリから情報にアクセスし、当該メモリにデータを記憶し得る。非リムーバブルメモリ１３０は、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、ハードディスク又は任意の他のタイプのメモリ記憶デバイスを含み得る。リムーバブルメモリ１３２は、加入者識別モジュール（subscriber identity module、ＳＩＭ）カード、メモリスティック、セキュアデジタル（secure digital、ＳＤ）メモリカードなどを含み得る。他の実施形態では、プロセッサ１１８は、サーバ又はホームコンピュータ（図示せず）上など、ＷＴＲＵ１０２上に物理的に配置されていないメモリから情報にアクセスし、当該メモリにデータを記憶し得る。

【0098】

プロセッサ１１８は、電源１３４から電力を受け取り得、ＷＴＲＵ１０２内の他の構成要素に電力を分配し、かつ／又はその電力を制御するように構成され得る。電源１３４は、ＷＴＲＵ１０２に電力を供給するための任意の好適なデバイスであり得る。例えば、電源１３４は、１つ以上の乾電池（例えば、ニッケルカドミウム（nickel-cadmium、ＮｉＣｄ）、ニッケル亜鉛（nickel-zinc、ＮｉＺｎ）、ニッケル金属水素化物（nickel metal hydride、ＮｉＭＨ）、リチウムイオン（lithium-ion、Ｌｉ－ｉｏｎ）など）、太陽電池、燃料電池などを含み得る。

【0099】

プロセッサ１１８はまた、ＧＰＳチップセット１３６に結合され得、これは、ＷＴＲＵ１０２の現在の場所に関する場所情報（例えば、経度及び緯度）を提供するように構成され得る。ＧＰＳチップセット１３６からの情報に加えて又はその代わりに、ＷＴＲＵ１０２は、基地局（例えば、基地局１１４ａ、１１４ｂ）からエアインターフェース１１６を介して場所情報を受信し、かつ／又は２つ以上の近くの基地局から受信されている信号のタイミングに基づいて、その場所を決定し得る。ＷＴＲＵ１０２は、一実施形態との一貫性を有しながら、任意の好適な場所決定方法によって場所情報を取得し得ることが理解されよう。

【0100】

プロセッサ１１８は、他の周辺機器１３８に更に結合され得、これは、追加の特徴、機能、及び／又は有線若しくは無線接続を提供する１つ以上のソフトウェア及び／又はハードウェアモジュールを含み得る。例えば、周辺機器１３８は、加速度計、電子コンパス、衛星トランシーバ、（ピクチャ及び／又は映像のための）デジタルカメラ、ユニバーサルシリアルバス（universal serial bus、ＵＳＢ）ポート、振動デバイス、テレビジョントランシーバ、ハンズフリーヘッドセット、Ｂｌｕｅｔｏｏｔｈ（登録商標）モジュール、周波数変調（frequency modulated、ＦＭ）無線ユニット、デジタル音楽プレーヤ、メディアプレーヤ、ビデオゲームプレーヤモジュール、インターネットブラウザ、仮想現実及び／又は拡張現実（Virtual Reality/Augmented Reality、ＶＲ／ＡＲ）デバイス、アクティビティトラッカなどを含み得る。周辺機器１３８は、１つ以上のセンサを含み得、センサは、ジャイロスコープ、加速度計、ホール効果センサ、磁力計、方位センサ、近接センサ、温度センサ、時間センサ、ジオロケーションセンサ、高度計、光センサ、タッチセンサ、磁力計、気圧計、ジェスチャセンサ、生体認証センサ、及び／又は湿度センサのうちの１つ以上であり得る。

【0101】

ＷＴＲＵ１０２は、（例えば、ＵＬ（例えば、送信用）及びダウンリンク（例えば、受信用）の両方のための特定のサブフレームと関連付けられた）信号のいくつか又はすべての送信及び受信が並列及び／又は同時であり得る、全二重無線機を含み得る。全二重無線機は、ハードウェア（例えば、チョーク）又はプロセッサを介した信号処理（例えば、別個のプロセッサ（図示せず）又はプロセッサ１１８を介して）を介して自己干渉を低減し、かつ又は実質的に排除するための干渉管理ユニットを含み得る。一実施形態では、ＷＲＴＵ１０２は、（例えば、ＵＬ（例えば、送信用）又はダウンリンク（例えば、受信用）のいずれかのための特定のサブフレームと関連付けられた）信号のいくつか又はすべてのうちのどれかの送信及び受信のための半二重無線機を含み得る。

【0102】

ＷＴＲＵは、無線端末として図１６Ａ～図１６Ｂに記載されているが、特定の代表的な実施形態では、そのような端末は、通信ネットワークとの有線通信インターフェースを（例えば、一時的又は永久的に）使用し得ることが企図される。

【0103】

図１６Ａ～図１６Ｂ、及び図１６Ａ～図１６Ｂの対応する説明を考慮して、ＷＴＲＵ１０２ａ～ｄ、基地局１１４ａ～ｂ、ｅＮｏｄｅ－Ｂ１６０ａ～ｃ、ＭＭＥ１６２、ＳＧＷ１６４、ＰＧＷ１６６、ｇＮＢ１８０ａ～ｃ、ＡＭＦ１８２ａ～ｂ、ＵＰＦ１８４ａ～ｂ、ＳＭＦ１８３ａ～ｂ、ＤＮ１８５ａ～ｂ、及び／又は本明細書に記載される任意の他のデバイスの１つ以上に関して本明細書に記載される機能のうちの１つ以上又は全部は、１つ以上のエミュレーションデバイス（図示せず）によって実行され得る（図示せず）。エミュレーションデバイスは、本明細書に記載の機能の１つ以上又はすべてをエミュレートするように構成された１つ以上のデバイスであり得る。例えば、エミュレーションデバイスを使用して、他のデバイスを試験し、かつ／又はネットワーク及び／若しくはＷＴＲＵ機能をシミュレートすることができる。

【0104】

エミュレーションデバイスは、ラボ環境及び／又はオペレータネットワーク環境における他のデバイスの１つ以上の試験を実装するように設計され得る。例えば、１つ以上のエミュレーションデバイスは、通信ネットワーク内の他のデバイスを試験するために、有線及び／又は無線通信ネットワークの一部として完全に若しくは部分的に実装され、かつ／又は展開されている間、１つ以上若しくはすべての機能を実行し得る。１つ以上のエミュレーションデバイスは、有線及び／又は無線通信ネットワークの一部として一時的に実装され／展開されている間、１つ以上若しくはすべての機能を実行し得る。エミュレーションデバイスは、試験を目的として別のデバイスに直接結合され得、かつ／又は地上波無線通信を使用して試験を実行し得る。

【0105】

１つ以上のエミュレーションデバイスは、有線及び／又は無線通信ネットワークの一部として実装／展開されていない間、すべてを含む１つ以上の機能を実行し得る。例えば、エミュレーションデバイスは、１つ以上のコンポーネントの試験を実装するために、試験実験室での試験シナリオ、並びに／又は展開されていない（例えば、試験用の）有線及び／若しくは無線通信ネットワークにおいて利用され得る。１つ以上のエミュレーションデバイスは、試験機器であり得る。ＲＦ回路（例えば、１つ以上のアンテナを含み得る）を介した直接ＲＦ結合及び／又は無線通信は、データを送信及び／又は受信するように、エミュレーションデバイスによって使用され得る。

【0106】

ＨＥＶＣ試験モデル（ＨＭ）と同様に、ジョイント探索モデル（ＪＥＭ）ソフトウェア、ブロックベースのハイブリッドビデオコーディングフレームワーク（１００）にも構築される。図１は、ブロックベースのハイブリッドビデオ符号化システムのブロック図を示している。本出願では、「再構成された」及び「復号化された」という用語は、互換的に使用され得ることに留意されたい。通常では、必ずしもそうではないが、「再構成された」という用語はエンコーダ側で使用され、「復号化された」という用語はデコーダ側で使用される。

【0107】

ビデオシーケンスは、符号化される前に、前処理を受け得、例えば、入力カラーピクチャに色変換（例えば、ＲＧＢ４：４：４からＹＣｂＣｒ４：２：０への変換）を適用するか、又は、圧縮に対してより耐性のある信号分布を得るために入力ピクチャ成分の再マッピングを実行する（例えば、色成分の１つのヒストグラム等化を使用する）。メタデータは、前処理に関連付けられ、ビットストリームに添付され得る。

【0108】

入力ビデオ信号１０２は、ブロックごとに処理される。ＨＥＶＣ仕様は、「ブロック」と「ユニット」とを区別し、「ブロック」は、サンプルアレイの特定の領域（例えば、ルーマ、Ｙ）を対象とし、「ユニット」は、すべての符号化された色成分（例えば、Ｙ、Ｃｂ、Ｃｒ、又はモノクロ）、構文要素、及びブロックに関連付けられた予測データ（例えば、動きベクトル）のコロケートされたブロックを含む。本出願では、「ブロック」という用語は、様々なサイズのデータのアレイを指すために使用することができ、それは、Ｈ．２６４／ＡＶＣに指定されているようなマクロブロック及び区分、ＨＥＶＣにおけるようなコーディングツリーユニット（ＣＴＵ）、コーディングユニット（ＣＵ）、予測ユニット（ＰＵ）、変換ユニット（ＴＵ）、コーディングブロック（coding block、ＣＢ）、予測ブロック（prediction block、ＰＢ）、及び変換ブロック（transform block、ＴＢ）のいずれか、ＡＶ１におけるスーパーブロック又は下位区分、ＶＶＣ（汎用ビデオコーディング）又は他のビデオコーディング規格におけるようなＣＴＵ、ＣＵ、ＴＵ、ＣＢ、及びＴＢを指すために使用することができる。

【0109】

ＨＥＶＣでは、拡張されたブロックサイズを使用して、高解像度（１０８０ｐ及びそれ以上）のビデオ信号を効率的に圧縮する。ＨＥＶＣでは、ＣＵは、最大６４×６４ピクセルであり得る。ＣＵは、予測ユニットに更に分割でき、これらの予測ユニットには、別個の予測方法が適用される。各入力ビデオブロック（ＭＢ又はＣＵ）について、空間予測（１６０）及び／又は時間予測（１６２）を実行することができる。

【0110】

空間予測（又は「イントラ予測」）は、現在のビデオブロックを予測するために、同じビデオピクチャ／スライス内の既にコーディングされた隣接ブロック（参照サンプルと呼ばれる）のサンプルからのピクセルを使用する。空間予測は、ビデオ信号に固有の空間冗長性を低減する。

【0111】

時間予測（「インター予測」又は「動き補償予測」とも呼ばれる）は、現在のビデオブロックを予測するために、既にコーディングされたビデオピクチャからの再構成されたピクセルを使用する。時間予測は、ビデオ信号に固有の時間的冗長性を低減する。所与のビデオブロックの時間予測信号は通常、現在のブロックとその参照ブロックとの間の動きの量及び方向を示す１つ以上の動きベクトルによってシグナリングされる。また、（Ｈ．２６４／ＡＶＣ又はＨＥＶＣなどの最近のビデオコーディング規格の場合と同様に）複数の参照ピクチャがサポートされる場合、各ビデオブロックについて、その参照ピクチャインデックスが追加的に送信され、この参照インデックスは、時間予測信号が参照ピクチャストア（１６４）内のどの参照ピクチャから来るかを識別するために使用される。

【0112】

空間及び／又は時間予測の後に、エンコーダ内のモード決定ブロック（１８０）は、例えばレート歪み最適化方法に基づいて、最良の予測モードを選択する。次いで、予測ブロックは、現在のビデオブロックから減算され（１１６）、予測残差は、変換を使用して相関解除され（１０４）、量子化される（１０６）。

【0113】

エンコーダは、更なる予測のための参照データを提供するため、符号化されたブロックを復号化する。量子化された残差係数は、逆量子化（１１０）及び逆変換されて（１１２）、再構成された残差が形成され、次いで、これは、予測ブロックに戻って加算されて（１２６）、ビデオブロックが形成される。

【0114】

エンコーダは、変換をスキップして、変換されていない残差信号に量子化を直接適用することもできる。エンコーダは、変換及び量子化の両方をバイパスすることもでき、すなわち残差は、変換処理又は量子化処理を適用することなく直接符号化される。直接パルスコード変調（pulse code modulation、ＰＣＭ）コーディングでは、予測は適用されず、コーディングユニットサンプルは、ビットストリームに直接コーディングされる。

【0115】

デブロッキングフィルタ、ＳＡＯ（サンプル適応オフセット）フィルタ及び適応ループフィルタなどの更なるループフィルタリングが、再構成されたビデオブロックに適用され得（１６６）、その後、それは、参照ピクチャストア（１６４）に入れられ、将来のビデオブロックをコーディングするために使用される。出力ビデオビットストリーム１２０を形成するために、コーディングモード（イントラ又はイントラ）、予測モード情報、動き情報、及び量子化された残差係数はすべて、エントロピコーディングユニット（１０８）に送信されて、更に圧縮及びパックされて、ビットストリームが形成される。

【0116】

図３は、ブロックベースのビデオデコーダ（２００）の全体的なブロック図を示している。ビデオデコーダは、一般に、ビデオデータを符号化することの一部としてビデオ復号化を実行する、対応する符号化パスに相反する復号化パスを実行する。ビデオビットストリーム２０２は、最初に、エントロピ復号化ユニット２０８においてアンパック及びエントロピ復号化される。コーディングモード及び予測情報は、空間予測ユニット２６０（イントラコーディングされた場合）又は時間予測ユニット２６２（インターコーディングされた場合）のいずれかに送信されて、予測ブロックを形成する。残差変換係数は、逆量子化ユニット２１０及び逆変換ユニット２１２に送信されて、残差ブロックを再構成する。次いで、予測ブロック及び残差ブロックは、２２６において一緒に加算される。再構成されたブロックは、参照ピクチャストア２６４に格納される前に、インループフィルタリング（２６６）を更に通過することができる。次いで、参照ピクチャストア内の再構成されたビデオ（２２０）は、ディスプレイデバイスを駆動するために、並びに将来のビデオブロックを予測するために使用されるために、格納、送信又は使用され得る。

【0117】

復号化されたピクチャは、後処理を更に受けることができ、例えば、逆色変換（例えば、ＹＣｂＣｒ４：２：０からＲＧＢ４：４：４への変換）、又は符号化前処理で実行された再マッピング処理の逆を実行する逆再マッピングである。後処理では、符号化前処理で導出されてビットストリームでシグナリングされたメタデータを使用することができる。

【0118】

ＨＥＶＣとＪＥＭの両方は、図１及び図３に示すように、ブロックベースの動き補償されたハイブリッドビデオ符号化／復号化ワークフローに準拠し、空間予測（すなわち、イントラ予測）、時間予測（すなわち、インター予測）、変換、量子化、エントロピコーディング、及びループフィルタなどの同じ機能モジュールに基づく。しかしながら、いくつかのインターコーディングモジュール、特に動き補償された予測に関連するものは、更に拡張され、改善される。

【0119】

本明細書で説明する一般的な態様の下での方法１７００の一実施形態が、図１７に示されている。この方法は、開始ブロック１７０１において開始し、制御は、ブロック１７１０に進み、スレッドを、並列処理を使用したビデオフレームのＣＡＢＡＣ復号化に割り当て、より多くのスレッドが、より高い量子化のパラメータと比較して低い量子化のパラメータを有するフレーム、若しくはインターフレームに対するイントラフレームの復号化に、又はＰフレームに、あるいはフレームがより下位の時間層にあるときに割り当てられる。制御は、ブロック１７１０からブロック１７２０に進み、割り当てられたスレッドを使用して、ビデオフレームを復号化する。

【0120】

本明細書で説明する一般的な態様の下での方法１８００の第２の実施形態が、図１８に示されている。この方法は、開始ブロック１８０１において開始し、制御はブロック１８１０に進み、コーディングユニットの動きベクトルを生成する。制御は、ブロック１８１０からブロック１８２０に進み、インターコーディングユニット再構成を実行する。制御は、ブロック１８２０からブロック１８３０に進み、イントラコーディングユニット再構成を実行する。制御は、ブロック１８３０からブロック１８４０に進み、上記ビデオの逆再成形及びインループフィルタを実行し、上記生成するステップ及び上記実行するステップは、ビデオの別個の部分に対して同時に実行される。

【0121】

図１９は、図１７又は図１８の方法を実装する装置１９００の一実施形態を示す。この装置は、プロセッサ１９１０を備えており、少なくとも１つのポートを通じてメモリ１９２０に相互接続することができる。プロセッサ１９１０とメモリ１９２０の両方は、外部接続への１つ以上の追加の相互接続を有することもできる。

【0122】

更にプロセッサ１９１０は、ビットストリームにおいて情報を挿入又は受信し、説明した態様のいずれかを使用して圧縮、符号化、又は復号化するように構成されている。

【0123】

本明細書で説明する実施形態は、ツール、特徴、例、モデル、アプローチなどを含む、様々な態様を含む。これらの態様の多くは、具体的に記載され、少なくとも個々の特性を示すために、多くの場合、限定的に聞こえ得る方法で記載されている。しかしながら、これは説明を明確にすることを目的としており、それらの態様の適用又は範囲を限定するものではない。実際、異なる態様のすべては、更なる態様を提供するために組み合わされ、交換されてもよい。更に、これらの態様は、以前の出願に記載されている態様と組み合わせる、又は入れ替えることができる。

【0124】

この当業者には明らかであるように、実装形態では、例えば、格納又は送信することができる情報を伝えるようにフォーマットされた様々な信号を生成することができる。これらの情報は、例えば、方法を実行するための命令、又は説明されている実装形態の１つによって生成されるデータを含むことができる。例えば、説明されている実施形態のビットストリームを伝えるように信号をフォーマットすることができる。このような信号は、例えば、電磁波として（例えば、スペクトルの無線周波数部分を使用する）、又はベースバンド信号としてフォーマットすることができる。フォーマットすることは、例えば、データストリームを符号化すること、及び符号化されたデータストリームで搬送波を変調することを含むことができる。信号が伝える情報は、例えば、アナログ情報又はデジタル情報とすることができる。信号は、既知であるように、様々な異なる有線リンク又は無線リンクを介して送信することができる。信号は、プロセッサ可読媒体に格納することができる。

【0125】

前述のセクションは、様々な請求項のカテゴリ及びタイプにわたって、いくつかの実施形態を説明している。これらの実施形態の特徴は、単独で、又は任意の組み合わせで提供することができる。更に、実施形態は、様々な請求項のカテゴリ及びタイプにわたって、以下の特徴、デバイス、又は態様の１つ以上を、単独で、又は組み合わせで含むことができる。
・スレッドを、並列処理を使用したビデオフレームのＣＡＢＡＣ復号化に割り当てる、復号化されたビデオストリームを生成すること、
・より多くのスレッドが、より高い量子化のパラメータと比較して低い量子化のパラメータを有するフレーム、若しくはインターフレームに対するイントラフレームの復号化に、又はＰフレームに、あるいはフレームがより下位の時間層にあるときに割り当てられる、上記方法、
・上記割り当てられたスレッドを使用して上記ビデオフレームを復号化すること

【図1】