特許7403747 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特許7403747ビデオコーディング方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-15

(45)【発行日】2023-12-25

(54)【発明の名称】ビデオコーディング方法及び装置

(51)【国際特許分類】

H04N 19/117 20140101AFI20231218BHJP

H04N 19/154 20140101ALI20231218BHJP

H04N 19/176 20140101ALI20231218BHJP

【ＦＩ】

H04N19/117

H04N19/154

H04N19/176

【請求項の数】 11

(21)【出願番号】P 2022554885

(86)(22)【出願日】2021-09-24

(65)【公表番号】

(43)【公表日】2023-04-25

(86)【国際出願番号】 US2021052049

(87)【国際公開番号】W WO2022132275

(87)【国際公開日】2022-06-23

【審査請求日】2022-09-12

(31)【優先権主張番号】63/126,186

(32)【優先日】2020-12-16

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/447,806

(32)【優先日】2021-09-15

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】520353802

【氏名又は名称】テンセント・アメリカ・エルエルシー

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100150197

【弁理士】

【氏名又は名称】松尾直樹

(72)【発明者】

【氏名】チュン・アウヨン

(72)【発明者】

【氏名】ジョンジェン・ユアン

(72)【発明者】

【氏名】シアン・リ

(72)【発明者】

【氏名】シャン・リュウ

【審査官】松元伸次

(56)【参考文献】

【文献】国際公開第２０１９／０３１４１０（ＷＯ，Ａ１）

【文献】特表２０１９－５２５５４４（ＪＰ，Ａ）

【文献】特表２０１９－５３７１３３（ＪＰ，Ａ）

【文献】特開２００８－２３６７５８（ＪＰ，Ａ）

【文献】特表２００７－５２９１２５（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１０／１２１６１０（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０３Ｍ３／００－９／００

Ｈ０４Ｎ１９／００－１９／９８

(57)【特許請求の範囲】

【請求項1】

ビデオ処理方法であって、
処理回路によって、量子化パラメータ（ＱＰ）値に少なくとも部分的に基づいて、エキスパートモジュールに関連するゲーティング重みを決定するステップであって、前記エキスパートモジュールは、前記ＱＰ値に基づいて再構成される画像ブロックを含む入力ブロックを処理するように構成される、ステップと、
前記処理回路によって、前記ゲーティング重みに基づいて前記エキスパートモジュールに重みを付けて、前記画像ブロックに対応する出力画像ブロックを生成するステップと、を含む方法。

【請求項2】

前記処理回路によって、前記ゲーティング重みに基づいて前記エキスパートモジュールからのモジュール出力を組み合わせて、前記画像ブロックに対応する前記出力画像ブロックを生成するステップを更に含む、請求項１に記載の方法。

【請求項3】

前記処理回路によって、前記ゲーティング重みに基づいて前記エキスパートモジュールを結合する結合エキスパートモジュールを決定するステップを更に含む、請求項１に記載の方法。

【請求項4】

前記量子化パラメータと、前記画像ブロック及び前記画像ブロックの隣接ピクセルを含む前記入力ブロックとに基づいて前記ゲーティング重みを決定するステップを更に含む、請求項１に記載の方法。

【請求項5】

少なくとも１つの畳み込みニューラルネットワーク層を使用して前記ゲーティング重みを決定するステップを更に含む、請求項１に記載の方法。

【請求項6】

非ゼロのゲーティング重みを有するエキスパートモジュールのサブセットをアクティブ化するステップと、
前記エキスパートモジュールのサブセットに関連する前記ゲーティング重みに基づいて前記エキスパートモジュールのサブセットのモジュール出力を組み合わせて、前記画像ブロックに対応する前記出力画像ブロックを生成するステップと、を更に含む、請求項１に記載の方法。

【請求項7】

畳み込みニューラルネットワークを有するエキスパートモジュールによって、前記画像ブロックを含む前記入力ブロックに応答してモジュール出力を生成するステップを更に含む、請求項１に記載の方法。

【請求項8】

前記エキスパートモジュールは有限インパルス応答（ＦＩＲ）フィルタであり、
前記方法は、
前記ゲーティング重みに基づいて前記ＦＩＲフィルタを結合する結合ＦＩＲフィルタを決定するステップと、
前記結合ＦＩＲフィルタを前記画像ブロックを含む前記入力ブロックに適用して前記出力画像ブロックを生成するステップとを更に含む、請求項１に記載の方法。

【請求項9】

前記ゲーティング重みを決定論的な方法で決定するステップを更に含み、前記出力画像ブロックは、参照ピクチャに関連付けられたループ内で生成される、請求項１に記載の方法。

【請求項10】

前記ゲーティング重みを非決定論的な方法で決定するステップを更に含み、前記出力画像ブロックは、参照ピクチャに関連付けられたループ外で生成される、請求項１に記載の方法。

【請求項11】

処理回路を含むビデオ処理装置であって、前記処理回路は、
請求項１～10のいずれか１項に記載の方法を実行するように構成される、ビデオ処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、２０２０年１２月１６日に出願された米国仮出願第６３／１２６，１８６号「ＡＱＵＡＮＴＩＺＡＴＩＯＮＰＡＲＡＭＥＴＥＲＡＤＡＰＴＩＶＥＭＩＸＴＵＲＥ‐ＯＦ‐ＥＸＰＥＲＴＦＩＬＴＥＲＦＯＲＶＩＤＥＯＰＲＯＣＥＳＳＩＮＧ」の優先権の利益を主張する、２０２１年９月１５日に出願された米国特許出願第１７／４４７，８０６号「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＶＩＤＥＯＣＯＤＩＮＧ」の優先権の利益を主張し、以前の出願の開示全体は、参照によりその全体が本明細書に組み込まれる。

【0002】

本開示は、一般にビデオ処理に関連する実施形態を説明する。より具体的には、本開示は、ビデオコーデックにおけるピクチャ品質を改善するためのニューラルネットワーク処理技術を提供する。

【背景技術】

【0003】

本明細書で提供される背景技術の記載は、本開示の背景を概略的に示すためのものである。現在記載されている発明者の研究は、この背景技術の部分に記載されておる範囲で、出願時に別の形で先行技術としての資格を有しない明細書の態様と同様に、明示又は黙示を問わず本技術に対する先行技術として認めるものではない。

【0004】

ビデオコーディング及びデコーディングは、動き補償を伴うインターピクチャ予測を用いて実行することができる。非圧縮デジタルビデオは一連のピクチャを含むことができ、各ピクチャは、例えば、１９２０×１０８０の輝度サンプル及び関連するクロミナンスサンプルの空間次元を有する。一連のピクチャは、例えば毎秒６０枚のピクチャ又は６０Ｈｚの固定又は可変のピクチャレート(非公式にはフレームレートとも知られている)を有することができる。非圧縮ビデオには、かなりのビットレート要件がある。例えば、サンプル当たり８ビットの１０８０ｐ６０４：２：０ビデオ（６０Ｈｚのフレームレートで１９２０×１０８０の輝度サンプル解像度)には、１．５Ｇｂｉｔ／ｓに近い帯域幅が必要である。１時間分のそのようなビデオには、６００ギガバイトを超えるストレージスペースが必要である。

【0005】

ビデオコーディング及びデコーディングの１つの目的は、圧縮によって入力ビデオ信号の冗長性を低減することであり得る。圧縮は、前述の帯域幅及び／又はストレージスペース要件を、場合によっては２桁以上低減するのに役立つ。可逆圧縮及び非可逆圧縮の両方、並びにそれらの組み合わせを使用することができる。可逆圧縮とは、圧縮された元の信号から元の信号の正確なコピーを再構成することができる技術を指す。非可逆圧縮を使用する場合、再構成された信号は元の信号と同一ではない場合があるが、元の信号と再構成された信号との間の歪みは、再構成された信号を意図された用途に有用なものにするのに十分に小さい。ビデオの場合、非可逆圧縮が広く用いられている。許容される歪みの量はアプリケーションによって異なり、例えば、特定の消費者向けストリーミングアプリケーションのユーザは、テレビ配信アプリケーションのユーザよりも高い歪みを許容する可能性がある。達成可能な圧縮比は、より高い許容可能な歪み／許容歪みがより高い圧縮比をもたらし得ることを反映することができる。

【0006】

ビデオエンコーダ及びデコーダは、例えば、動き補償、変換、量子化、及びエントロピーコーディングを含むいくつかの広いカテゴリからの技術を利用することができる。

【0007】

ビデオコーデック技術は、イントラコーディングとして知られる技術を含むことができる。イントラコーディングでは、サンプル値は、以前に再構成された参照ピクチャからのサンプル又は他のデータを参照せずに表される。一部のビデオコーデックでは、ピクチャはサンプルのブロックに空間的に再分割される。サンプルのすべてのブロックがイントラモードでコード化される場合、そのピクチャはイントラピクチャであり得る。イントラピクチャ及び独立デコーダリフレッシュピクチャのようなそれらの派生物は、デコーダ状態をリセットするために使用することができ、したがって、コード化されたビデオビットストリーム及びビデオセッションにおける最初のピクチャとして、又は静止画像として使用することができる。イントラブロックのサンプルを変換することができ、変換係数は、エントロピーコーディングの前に量子化することができる。イントラ予測は、前変換領域のサンプル値を最小化する技術であり得る。場合によっては、変換後のＤＣ値が小さいほど、またＡＣ係数が小さいほど、エントロピーコーディング後のブロックを表すために所定の量子化ステップサイズで必要とされるビット数が少なくなる。

【0008】

例えばＭＰＥＧ‐２世代コーディング技術から知られているような従来のイントラコーディングは、イントラ予測を使用しない。しかしながら、一部の新しいビデオ圧縮技術は、例えば、空間的に隣接し、且つデコード順序において先行するデータのブロックのエンコーディング／デコーディング中に得られた周囲のサンプルデータ及び／又はメタデータから試みる技術を含む。このような技術は、以降「イントラ予測」技術と呼ばれる。少なくとも一部の場合では、イントラ予測は、再構成中の現在ピクチャからの参照データのみを使用し、参照ピクチャからの参照データを使用しないことに留意されたい。

【0009】

イントラ予測には多くの異なる形式があり得る。そのような技術の２つ以上が所定のビデオコーディング技術において使用できる場合、使用中の技術は、イントラ予測モードでコード化することができる。特定の場合では、モードはサブモード及び／又はパラメータを有することができ、それらは個別にコード化することも、又はモードコードワードに含めることもできる。所定のモード／サブモード／パラメータの組み合わせに対してどのコードワードを使用するかは、イントラ予測によるコーディング効率利得に影響を与えることができ、また、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術も影響を与えることができる。

【0010】

イントラ予測の特定のモードは、Ｈ．２６４で導入され、Ｈ．２６５で改良され、共同探索モデル（ｊｏｉｎｔｅｘｐｌｏｒａｔｉｏｎｍｏｄｅｌ、ＪＥＭ）、多用途ビデオコーディング（ｖｅｒｓａｔｉｌｅｖｉｄｅｏｃｏｄｉｎｇ、ＶＶＣ）、及びベンチマークセット（ｂｅｎｃｈｍａｒｋｓｅｔ、ＢＭＳ）などの新しいコーディング技術で更に改良された。予測子ブロックは、既に利用可能なサンプルに属する隣接サンプル値を使用して形成することができる。隣接サンプルのサンプル値は、方向に従って予測子ブロックにコピーされる。使用中の方向への参照は、ビットストリーム内でコード化されてもよく、又はそれ自体が予測されてもよい。

【0011】

図１Ａを参照すると、右下に示されているのは、Ｈ．２６５の３３個の可能な予測子方向（３５個のイントラモードの３３個の角度モードに対応する)から既知の９つの予測子方向のサブセットである。矢印が収束する点（１０１）は、予測されるサンプルを表す。矢印は、サンプルが予測される方向を表す。例えば、矢印（１０２）は、サンプル（１０１）が水平から４５度の角度で右上の１つ又は複数のサンプルから予測されることを示す。同様に、矢印（１０３）は、サンプル（１０１）が水平から２２．５度の角度でサンプル（１０１）の左下の１つ又は複数のサンプルから予測されることを示す。

【0012】

引続き図１Ａを参照すると、左上には、４×４サンプルの正方形ブロック（１０４）が示されている(太字の破線で示されている)。正方形ブロック（１０４）は１６個のサンプルを含み、各サンプルは、「Ｓ」、Ｙ次元におけるその位置（例えば、行インデックス）及びＸ次元におけるその位置（例えば、列インデックス）でラベル付けされている。例えば、サンプルＳ２１はＹ次元における（上から）第２のサンプルであり、Ｘ次元における（左から）第１のサンプルである。同様に、サンプルＳ４４は、Ｙ次元及びＸ次元の両方におけるブロック（１０４）の第４のサンプルである。ブロックのサイズが４×４サンプルであるため、Ｓ４４は右下にある。更に、同様の番号付けスキームに従う参照サンプルが示されている。参照サンプルは、Ｒ、ブロック（１０４）に対するそのＹ位置（例えば、行インデックス）及びＸ位置（列インデックス）でラベル付けされている。Ｈ．２６４及びＨ．２６５の両方において、予測サンプルは再構成中のブロックに隣接しており、したがって、負の値を使用する必要はない。

【0013】

イントラピクチャ予測は、信号で送られた予測方向によって適切に隣接サンプルから参照サンプル値をコピーすることで機能することができる。例えば、コード化されたビデオビットストリームが、このブロックについて、矢印（１０２）と一致する予測方向を示すシグナリングを含むと仮定し、即ち、サンプルは、水平から４５度の角度で右上の１つ又は複数の予測サンプルから予測される。その場合、サンプルＳ４１、Ｓ３２、Ｓ２３、及びＳ１４は、同じ参照サンプルＲ０５から予測される。次に、サンプルＳ４４はサンプルＲ０８から予測される。

【0014】

特定の場合では、特に方向が４５度で均等に割り切れない場合、参照サンプルを計算するために、例えば補間によって、複数の参照サンプルの値を組み合わせることができる。

【0015】

ビデオコーディング技術が発展するにつれて、可能な方向の数が増加してきた。Ｈ．２６４（２００３年）では、９つの異なる方向を表すことができた。これはＨ．２６５（２０１３年）では３３個に増加し、ＪＥＭ／ＶＶＣ／ＢＭＳは、開示の時点で最大６５個の方向をサポートできる。最も可能性の高い方向を特定するために実験が行われ、エントロピーコーディングにおける特定の技術は、可能性の低い方向の特定の不利益を受け入れて、これらの可能性の高い方向を少数のビットで表すために使用される。更に、方向自体は、既にデコードされた隣接ブロックで使用される隣接方向から予測できる場合がある。

【0016】

図１Ｂは、時間と共に増加する予測方向の数を説明するために、ＪＥＭによる６５個のイントラ予測方向を示す概略図（１８０）を示す。

【0017】

方向を表すコード化されたビデオビットストリーム内のイントラ予測方向ビットのマッピングは、ビデオコーディング技術ごとに異なる可能性があり、また、例えば、予測方向の単純な直接マッピングからイントラ予測モード、コードワード、再確モードを含む複雑な適応スキーム、及び類似の技術に及ぶ可能性がある。ただし、すべての場合において、他の特定の方向よりもビデオコンテンツで発生する可能性が統計的に低い特定の方向が存在する可能性がある。ビデオ圧縮の目標は冗長性の低減であるため、これらの可能性の低い方向は、よく機能するビデオコーディング技術では、可能性の高い方向よりも多くのビット数で表される。

【0018】

動き補償は、非可逆圧縮技術である可能性があり、また、以前に再構成されたピクチャ又はその一部（参照ピクチャ）からのサンプルデータのブロックが、動きベクトル（以降、ＭＶ）によって示される方向に空間的にシフトされた後、新たに再構成されたピクチャ又はピクチャ部分の予測に使用される技術に関連することができる。場合によっては、参照ピクチャは現在再構成中のピクチャと同じであってもよい。ＭＶは、２つの次元Ｘ及びＹ、又は３つの次元を有することができ、第３の次元は、使用中の参照ピクチャを示す（後者は間接的に時間次元であり得る）。

【0019】

一部のビデオ圧縮技術では、サンプルデータの特定の領域に適用可能なＭＶは、他のＭＶから、例えば、再構成中の領域に空間的に隣接し、デコード順序でそのＭＶに先行するサンプルデータの別の領域に関連するものから予測することができる。そうすることで、ＭＶのコーディングに必要なデータ量を実質的に削減することができるため、冗長性が排除され、圧縮が向上する。例えば、カメラから得られた入力ビデオ信号（ナチュラルビデオとして知られている）をコード化する場合、単一のＭＶが適用可能な領域よりも大きい領域が同様の方向に移動する統計的可能性があり、したがって、場合によっては、隣接領域のＭＶから導出された同様の動きベクトルを使用して予測することができるため、ＭＶ予測は効果的に機能することができる。その結果、所定の領域に対して検出されたＭＶは、周囲のＭＶから予測されたＭＶと類似又は同一であり、それは、エントロピーコーディングの後、ＭＶを直接コード化する場合に使用されるビット数よりも少ないビット数で表すことができる。場合によっては、ＭＶ予測は、元の信号（即ち、サンプルストリーム）から導出された信号（即ち、ＭＶ）の可逆圧縮の一例であり得る。その他の場合、例えば、いくつかの周囲のＭＶから予測子を計算するときの丸め誤差のために、ＭＶ予測自体が非可逆である可能性がある。

【0020】

様々なＭＶ予測メカニズムがＨ．２６５／ＨＥＶＣ（ＩＴＵ‐ＴＲｅｃ．Ｈ．２６５、「ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ」、２０１６年１２月）に記載されている。Ｈ．２６５が提供する多くのＭＶ予測メカニズムのうち、ここで説明するのは、以降「空間マージ」と呼ばれる技術である。

【0021】

図２を参照すると、現在ブロック（２０１）は、動き探索プロセス中にエンコーダによって発見されたサンプルを含み、これらのサンプルは、空間的にシフトされた同じサイズの以前のブロックから予測可能である。そのＭＶを直接コード化する代わりに、ＭＶは、Ａ０、Ａ１、及びＢ０、Ｂ１、Ｂ２（それぞれ２０２～２０６)と示される５つの周囲サンプルのいずれか１つに関連付けられたＭＶを使用して、１つ又は複数の参照ピクチャに関連するメタデータから、例えば最新の（デコード順の）参照ピクチャから導出することができる。Ｈ．２６５では、ＭＶ予測は隣接ブロックが使用しているのと同じ参照ピクチャからの予測子を使用することができる。

【発明の概要】

【課題を解決するための手段】

【0022】

本開示の態様は、ビデオ処理方法及び装置を提供する。一部の例では、ビデオ処理装置は、処理回路を含む。処理回路は、量子化パラメータ（ｑｕａｎｔｉｚａｔｉｏｎｐａｒａｍｅｔｅｒ、ＱＰ）値に少なくとも部分的に基づいて、エキスパートモジュールに関連するゲーティング重みを決定する。エキスパートモジュールは、ＱＰ値に基づいて再構成される画像ブロックを含む入力ブロックを処理するように構成される。次に、処理回路は、ゲーティング重みに基づいてエキスパートモジュールに重みを付けて、画像ブロックに対応する出力画像ブロックを生成する。

【0023】

一部の例では、処理回路は、ゲーティング重みに基づいてエキスパートモジュールからのモジュール出力を組み合わせて、画像ブロックに対応する出力画像ブロックを生成する。

【0024】

一部の例では、処理回路は、ゲーティング重みに基づいてエキスパートモジュールを結合する結合エキスパートモジュールを決定する。

【0025】

一部の例では、処理回路は、量子化パラメータと、画像ブロック及び画像ブロックの隣接ピクセルを含む入力ブロックとに基づいてゲーティング重みを決定する。

【0026】

一部の例では、処理回路は、少なくとも１つの畳み込みニューラルネットワーク層を使用してゲーティング重みを決定する。

【0027】

一部の例では、処理回路は、非ゼロのゲーティング重みを有するエキスパートモジュールのサブセットをアクティブ化し、そして、エキスパートモジュールのサブセットに関連するゲーティング重みに基づいてエキスパートモジュールのサブセットのモジュール出力を組み合わせて、画像ブロックに対応する出力画像ブロックを生成する。

【0028】

一部の例では、エキスパートモジュールは畳み込みニューラルネットワークで実装され、画像ブロックを含む入力ブロックに応答してモジュール出力を生成することができる。

【0029】

一部の例では、エキスパートモジュールは有限インパルス応答（ｆｉｎｉｔｅｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ、ＦＩＲ）フィルタであり、処理回路は、ゲーティング重みに基づいてＦＩＲフィルタを結合する結合ＦＩＲフィルタを決定し、そして結合ＦＩＲフィルタを画像ブロックを含む入力ブロックに適用して出力画像ブロックを生成すことができる。

【0030】

一部の例では、処理回路は、ゲーティング重みを決定論的な方法で決定し、出力画像ブロックは、参照ピクチャに関連付けられたループ内で生成される。

【0031】

一部の例では、処理回路は、ゲーティング重みを非決定論的な方法で決定し、出力画像ブロックは、参照ピクチャに関連付けられたループ外で生成される。

【0032】

本開示の態様はまた、コンピュータによって実行されると、コンピュータにビデオ処理方法を実行させる命令を記憶する非一時的なコンピュータ可読媒体を提供する。

【図面の簡単な説明】

【0033】

開示された主題の更なる特徴、性質及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。

【図1A】イントラ予測モードの例示的なサブセットの概略図である。

【図1B】例示的なイントラ予測方向の図である。

【図2】一例における現在ブロック及びその周囲の空間マージ候補の概略図である。

【図3】一実施形態による通信システム（３００）の簡略化されたブロック図の概略図である。

【図4】一実施形態による通信システム（４００）の簡略化されたブロック図の概略図である。

【図5】一実施形態によるデコーダの簡略化されたブロック図の概略図である。

【図6】一実施形態によるエンコーダの簡略化されたブロック図の概略図である。

【図7】別の実施形態によるエンコーダのブロック図である。

【図8】別の実施形態によるデコーダのブロック図である。

【図9】一部の例におけるループフィルタユニットのブロック図である。

【図10】疎にゲートされた混合エキスパート（ｍｉｘｔｕｒｅｏｆｅｘｐｅｒｔｓ、ＭｏＥ）ネットワークの一例を示す図である。

【図11】ＭｏＥネットワークによるデータ処理のプロセスを概説するフローチャートである。

【図12】画像及び／又はビデオ処理用の適応ＭｏＥフィルタの一例を示す図である。

【図13】一部の例におけるニューラルネットワーク構造の一例を示す図である。

【図14】一部の例におけるエキスパートモジュールの図である。

【図15】一部の例にける適応ＭｏＥフィルタによる画像データ処理のプロセスを概説するフローチャートである。

【図16】適応ＭｏＥフィルタによる画像データ処理のプロセスを概説する別のフローチャートである。

【図17】画像及び／又はビデオ処理用の適応ＭｏＥフィルタの一例を示す図である。

【図18】プロセス例を概説するフローチャートである。

【図19】一実施形態によるコンピュータシステムの概略図である。

【発明を実施するための形態】

【0034】

図３は、本開示の一実施形態による通信システム（３００）の簡略化されたブロック図を示す。通信システム（３００）は、例えばネットワーク（３５０）を介して互いに通信することができる複数の端末装置を含む。例えば、通信システム（３００）は、ネットワーク（３５０）を介して相互接続された第１の対の端末装置（３１０）及び（３２０）を含む。図３の例では、第１の対の端末装置（３１０）及び（３２０）は、データの一方向送信を実行する。例えば、端末装置（３１０）は、ネットワーク（３５０）を介して他方の端末装置（３２０）に送信するために、ビデオデータ（例えば、端末装置（３１０）によってキャプチャされたビデオピクチャのストリーム）をコード化することができる。エンコードされたビデオデータは、１つ又は複数のコード化されたビデオビットストリームの形式で送信することができる。端末装置（３２０）は、ネットワーク（３５０）からコード化されたビデオデータを受信し、コード化されたデータをデコードしてビデオピクチャを復元し、そして復元したビデオデータに従ってビデオピクチャを表示することができる。一方向データ送信は、メディアサービングアプリケーションなどにおいて一般的である可能性がある。

【0035】

別の例では、通信システム（３００）は、例えば、ビデオ会議中に発生する可能性のあるコード化されたビデオデータの双方向送信を実行する第２の対の端末装置（３３０）及び（３４０）を含む。データの双方向送信の場合、一例では、端末装置（３３０）及び（３４０）の各端末装置は、ネットワーク（３５０）を介して端末装置（３３０）及び（３４０）の他方の端末装置に送信するために、ビデオデータ（例えば、端末装置によってキャプチャされたビデオピクチャのストリーム）をコード化することができる。端末装置（３３０）及び（３４０）の各端末装置はまた、端末装置（３３０）及び（３４０）の他方の端末装置によって送信されたコード化されたビデオデータを受信し、コード化されたビデオデータをデコードしてビデオピクチャを復元し、そして復元したビデオデータに従ってアクセス可能なディスプレイデバイスでビデオピクチャを表示することができる。

【0036】

図３の例では、端末装置（３１０）、（３２０）、（３３０）、及び（３４０）は、サーバ、パーソナルコンピュータ、及びスマートフォンとして示されてもよいが、本開示の原理は、そのように限定されない場合がある。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤー、及び／又は専用ビデオ会議装置に適用される。ネットワーク（３５０）は、例えば有線（配線された）通信ネットワーク及び／又は無線通信ネットワークを含めて、端末装置（３１０）、（３２０）、（３３０）及び（３４０）間でコード化されたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク（３５０）は、回線交換チャネル及び／又はパケット交換チャネルでデータを交換することができる。代表的なネットワークとしては、電気通信ネットワーク、ローカルエリアネットワーク、広域ネットワーク、及び／又はインターネットが挙げられる。本議論の目的のために、ネットワーク（３５０）のアーキテクチャ及びトポロジーは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない可能性がある。

【0037】

図４は、開示された主題の適用の一例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。開示された主題は、例えば、ビデオ会議、デジタルＴＶ、ＣＤ、ＤＶＤ、メモリースティックなどを含むデジタル媒体への圧縮ビデオの保存などを含めて、他のビデオ対応アプリケーションにも同様に適用可能である。

【0038】

ストリーミングシステムは、キャプチャサブシステム（４１３）を含むことができ、これは、例えば、圧縮されていないビデオピクチャ（４０２）のストリームを作成するビデオソース（４０１）、例えばデジタルカメラを含むことができる。一例では、ビデオピクチャ（４０２）のストリームは、デジタルカメラによって撮影されたサンプルを含む。ビデオピクチャ（４０２）のストリームは、エンコードされたビデオデータ（４０４）（又はコード化されたビデオビットストリーム)と比較した場合に高いデータ量を強調するために太線で示され、ビデオソース（４０１）に結合されたビデオエンコーダ（４０３）を含む電子装置（４２０）によって処理することができる。ビデオエンコーダ（４０３）は、以下により詳細に説明されるように、開示された主題の態様を可能にするか又は実装するために、ハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができる。エンコードされたビデオデータ（４０４）（又はエンコードされたビデオビットストリーム（４０４））は、ビデオピクチャ（４０２）のストリームと比較した場合に低いデータ量を強調するために細線で示され、将来の使用のためにストリーミングサーバ（４０５）に記憶することができる。図４のクライアントサブシステム（４０６）及び（４０８）などの１つ又は複数のストリーミングクライアントサブシステムは、ストリーミングサーバ（４０５）にアクセスして、エンコードされたビデオデータ（４０４）のコピー（４０７）及び（４０９）を検索することができる。クライアントサブシステム（４０６）は、例えば、電子装置（４３０）内にビデオデコーダ（４１０）を含むことができる。ビデオデコーダ（４１０）は、エンコードされたビデオデータの着信コピー（４０７）をデコードし、そしてディスプレイ（４１２）（例えば、ディスプレイ画面）又は他のレンダリングデバイス（図示せず）上にレンダリングされ得るビデオピクチャ（４１１）の発信ストリームを作成する。一部のストリーミングシステムでは、エンコードされたビデオデータ（４０４）、（４０７）及び（４０９）（例えば、ビデオビットストリーム）は、特定のビデオコーディング／圧縮規格に従ってエンコードすることができる。これらの規格の例としては、ＩＴＵ‐Ｔ勧告Ｈ．２６５が挙げられる。一例では、開発中のビデオコーディング規格は、非公式に多用途ビデオコーディング（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ、ＶＶＣ）として知られている。開示された主題は、ＶＶＣの文脈で使用することができる。

【0039】

電子装置（４２０）及び（４３０）は、他の構成要素（図示せず）を含むことができることに留意されたい。例えば、電子装置（４２０）は、ビデオデコーダ（図示せず）を含むことができ、電子装置（４３０）は、ビデオエンコーダ（図示せず）も含むことができる。

【0040】

図５は、本開示の一実施形態によるビデオデコーダ（５１０）のブロック図を示す。ビデオデコーダ（５１０）は、電子装置（５３０）に含まれてもよい。電子装置（５３０）は、受信機（５３１）（例えば、受信回路）を含むことができる。図４の例では、ビデオデコーダ（４１０）の代わりにビデオデコーダ（５１０）を使用することができる。

【0041】

受信機（５３１）は、ビデオデコーダ（５１０）によってデコードされるべき１つ又は複数のコード化されたビデオシーケンスを、同じ又は別の実施形態では、一度に１つのコード化されたビデオシーケンスで受信することができ、各コード化されたビデオシーケンスのデコーディングは他のコード化されたビデオシーケンスから独立している。コード化されたビデオシーケンスは、チャネル（５０１）から受信されてもよく、チャネル（５０１）は、エンコードされたビデオデータを記憶する記憶装置へのハードウェア／ソフトウェアリンクであってもよい。受信機（５３１）は、エンコードされたビデオデータを、他のデータ、例えば、コード化されたオーディオデータ及び／又は補助データストリームと共に受信することができ、これらのデータは、それぞれの使用エンティティ（図示せず）に転送され得る。受信機（５３１）は、コード化されたビデオシーケンスを他のデータから分離することができる。ネットワークジッターに対処するために、バッファメモリ（５１５）は、受信機（５３１）とエントロピーデコーダ／パーサ（５２０）（以降、「パーサ（５２０）」）との間に結合されてもよい。特定の用途では、バッファメモリ（５１５）はビデオデコーダ（５１０）の一部である。他の用途では、これはビデオデコーダ（５１０）（図示せず）の外部にあってもよい。更に他の用途では、例えばネットワークジッターに対処するために、ビデオデコーダ（５１０）の外部にバッファメモリ（図示せず）があってもよく、更に、例えばプレイアウトタイミングを処理するためにビデオデコーダ（５１０）の内部に別のバッファメモリ（５１５）があってもよい。受信機（５３１）が十分な帯域幅及び制御性を有するストア／フォワードデバイスから、又は等同期ネットワークからデータを受信しているとき、バッファメモリ（５１５）は必要とされなくてもよく、又は小さくてもよい。インターネットなどのベストエフォートパケットネットワークで使用するために、バッファメモリ（５１５）が必要とされる場合があり、それは比較的大きくてもよく、有利には適応サイズとすることができ、また、ビデオデコーダ（５１０）の外部のオペレーティングシステム又は同様の要素（図示せず）に少なくとも部分的に実装されてもよい。

【0042】

ビデオデコーダ（５１０）は、コード化されたビデオシーケンスからシンボル（５２１）を再構成するためのパーサ（５２０）を含んでもよい。これらのシンボルのカテゴリには、ビデオデコーダ（５１０）の動作を管理するために使用される情報と、図５に示されるように電子装置（５３０）の不可欠な部分ではないが、電子装置（５３０）に結合され得るレンダリングデバイス（５１２）（例えば、ディスプレイ画面）などのレンダリングデバイスを制御するための潜在的な情報とが含まれる。レンダリングデバイス用の制御情報は、補足強化情報（ＳｕｐｐｌｅｍｅｎｔａｌＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ、ＳＥＩメッセージ）又はビデオユーザビリティ情報（ＶｉｄｅｏＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ、ＶＵＩ）パラメータセットフラグメント（図示せず）の形式であってもよい。パーサ（５２０）は、受信されたコード化されたビデオシーケンスを解析／エントロピーデコードすることができる。コード化されたビデオシーケンスのコーディングは、ビデオコーディング技術又は規格に従うことができ、また、可変長コーディング、ハフマンコーディング、コンテキスト感度を伴う又は伴わない算術コーディングなどを含む様々な原理に従うことができる。パーサ（５２０）は、グループに対応する少なくとも１つのパラメータに基づいて、コード化されたビデオシーケンスから、ビデオデコーダ内のピクセルのサブグループの少なくとも１つ用のサブグループパラメータのセットを抽出することができる。サブグループは、ピクチャグループ（ＧｒｏｕｐｓｏｆＰｉｃｔｕｒｅｓ、ＧＯＰ）、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット（ＣｏｄｉｎｇＵｎｉｔ、ＣＵ）、ブロック、変換ユニット（ＴｒａｎｓｆｏｒｍＵｎｉｔ、ＴＵ）、予測ユニット（ＰｒｅｄｉｃｔｉｏｎＵｎｉｔ、ＰＵ）などを含むことができる。パーサ（５２０）はまた、コード化されたビデオシーケンスから変換係数、量子化器パラメータ値、動きベクトルなどの情報を抽出することができる。

【0043】

パーサ（５２０）は、バッファメモリ（５１５）から受信したビデオシーケンスに対してエントロピーデコード／解析動作を実行して、シンボル（５２１）を作成することができる。

【0044】

シンボル（５２１）の再構成には、コード化されたビデオピクチャ又はその一部のタイプ（例えば、インターピクチャ及びイントラピクチャ、インターブロック及びイントラブロック）、及び他の要因に応じて、複数の異なるユニットが関与する可能性がある。どのユニットが関与するか、及びどのように関与するかは、パーサ（５２０）によってコード化されたビデオシーケンスから解析されたサブグループ制御情報によって制御することができる。パーサ（５２０）と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れは、分かりやすくするために示されていない。

【0045】

既に述べた機能ブロックに加えて、ビデオデコーダ（５１０）は、以下に説明されるように、概念的にいくつかの機能ユニットに再分割することができる。商業的制約の下で動作する実際の実装では、これらのユニットの多くは互いに密接に相互作用し、また少なくとも部分的に互いに統合することができる。しかしながら、開示された主題を説明する目的では、以下の機能ユニットへの概念的な再分割が適切である。

【0046】

第１のユニットは、スケーラ／逆変換ユニット（５５１）である。スケーラ／逆変換ユニット（５５１）は、パーサ（５２０）から、量子化された変換係数、並びに使用する変換、ブロックサイズ、量子化係数、量子化スケーリング行列などを含む制御情報をシンボル（５２１）として受信することができる。スケーラ／逆変換ユニット（５５１）は、サンプル値を含むブロックを出力することができ、これらのブロックはアグリゲータ（５５５）に入力することができる。

【0047】

場合によっては、スケーラ／逆変換ユニット（５５１）の出力サンプルは、イントラコード化されたブロック、即ち、以前に再構成されたピクチャからの予測情報を使用していないが、現在ピクチャの以前に再構成された部分からの予測情報を使用できるブロックに関連する可能性がある。そのような予測情報は、イントラピクチャ予測ユニット（５５２）によって提供することができる。場合によっては、イントラピクチャ予測ユニット（５５２）は、現在ピクチャメモリ（５５８）からフェッチされた周囲の既に再構成された情報を用いて、再構成中のブロックと同じサイズ及び形状のブロックを生成する。現在ピクチャバッファ（５５８）は、例えば、部分的に再構成された現在ピクチャ及び／又は完全に再構成された現在ピクチャをバッファリングする。アグリゲータ（５５５）は、場合によっては、サンプルごとに、イントラ予測ユニット（５５２）が生成した予測情報を、スケーラ／逆変換ユニット（５５１）によって提供された出力サンプル情報に追加する。

【0048】

他の場合には、スケーラ／逆変換ユニット（５５１）の出力サンプルは、インターコード化され、潜在的に動き補償されたブロックに関連する可能性がある。そのような場合、動き補償予測ユニット（５５３）は、参照ピクチャメモリ（５５７）にアクセスして、予測に使用されるサンプルをフェッチすることができる。ブロックに関連するシンボル（５２１）に従ってフェッチしたサンプルを動き補償した後、アグリゲータ（５５５）によってこれらのサンプルをスケーラ／逆変換ユニット（５５１）の出力（この場合、残差サンプル又は残差信号と呼ばれる）に追加して、出力サンプル情報を生成することができる。動き補償予測ユニット（５５３）が予測サンプルをフェッチする参照ピクチャメモリ（５５７）内のアドレスは、動きベクトルによって制御することができ、動きベクトルは、例えば、Ｘ、Ｙ、及び参照ピクチャ成分を有することができるシンボル（５２１）の形式で動き補償予測ユニット（５５３）に利用可能であり得る。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ（５５７）からフェッチされたサンプル値の補間、動きベクトル予測メカニズムなどを含むことができる。

【0049】

アグリゲータ（５５５）の出力サンプルは、ループフィルタユニット（５５６）において様々なループフィルタリング技術を受けることができる。ビデオ圧縮技術は、インループフィルタ技術を含むことができ、これらの技術は、コード化されたビデオシーケンス（コード化されたビデオビットストリームとも呼ばれる）に含まれているパラメータによって制御され、パーサ（５２０）からのシンボル（５２１）としてループフィルタユニット（５５６）に利用可能にされるが、コード化されたピクチャ又はコード化されたビデオシーケンスの前の（デコード順の）部分のデコード中に得られたメタ情報に応答することも、以前に再構成及びループフィルタリングされたサンプル値に応答することもできる。

【0050】

ループフィルタユニット（５５６）の出力は、レンダリングデバイス（５１２）に出力され得るだけでなく、将来のインターピクチャ予測に使用するために参照ピクチャメモリ（５５７）に記憶され得るサンプルストリームであり得る。

【0051】

特定のコード化されたピクチャは、完全に再構成されると、将来の予測のための参照ピクチャとして使用することができる。例えば、現在ピクチャに対応するコード化されたピクチャが完全に再構成され、またコード化されたピクチャが（例えば、パーサ（５２０）によって）参照ピクチャとして識別されると、現在ピクチャバッファ（５５８）は参照ピクチャメモリ（５５７）の一部になることができ、そして次のコード化されたピクチャの再構成を開始する前に、新しい現在ピクチャメモリを再割り当てすることができる。

【0052】

ビデオデコーダ（５１０）は、ＩＴＵ‐ＴＲｅｃ．Ｈ．２６５などの規格における所定のビデオ圧縮技術に従ってデコード動作を実行することができる。コード化されたビデオシーケンスは、コード化されたビデオシーケンスがビデオ圧縮技術又は規格の構文及びビデオ圧縮技術又は規格で文書化されたプロファイルの両方に準拠するという意味で、使用されているビデオ圧縮技術又は規格によって指定された構文に準拠することができる。具体的には、プロファイルは、ビデオ圧縮技術又は規格で利用可能なすべてのツールから、そのプロファイルで使用できる唯一のツールとして特定のツールを選択することができる。また、準拠のためには、コード化されたビデオシーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルによって定義された範囲内であることも必要である。場合によっては、レベルによって、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート（例えば、１秒あたりのメガサンプルで測定）、最大参照ピクチャサイズなどが制限される。レベルによって設定される制限は、場合によっては、仮想参照デコーダ（ＨｙｐｏｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ、ＨＲＤ）仕様及びコード化されたビデオシーケンスで信号で送られたＨＲＤバッファ管理用のメタデータによって更に制限されることがある。

【0053】

一実施形態では、受信機（５３１）は、エンコードされたビデオと共に追加の（冗長）データを受信することができる。追加のデータは、コード化されたビデオシーケンスの一部として含まれてもよい。追加のデータは、データを適切にデコードするため、及び／又は元のビデオデータをより正確に再構成するために、ビデオデコーダ（５１０）によって使用され得る。追加のデータは、例えば、時間的、空間的、又は信号雑音比（ｓｉｇｎａｌｎｏｉｓｅｒａｔｉｏ、ＳＮＲ）強化層、冗長スライス、冗長ピクチャ、前方誤り訂正コードなどの形式であり得る。

【0054】

図６は、本開示の一実施形態によるビデオエンコーダ（６０３）のブロック図を示す。ビデオエンコーダ（６０３）は、電子装置（６２０）に含まれている。電子装置（６２０）は、送信機（６４０）（例えば、送信回路）を含む。図４の例では、ビデオエンコーダ（４０３）の代わりにビデオエンコーダ（６０３）を使用することができる。

【0055】

ビデオエンコーダ（６０３）は、ビデオソース（６０１）（図６の例では電子装置（６２０）の一部ではない）からビデオサンプルを受信することができ、ビデオソース（６０１）は、ビデオエンコーダ（６０３）によってコード化されるべきビデオ画像をキャプチャすることができる。別の例では、ビデオソース（６０１）は、電子装置（６２０）の一部である。

【0056】

ビデオソース（６０１）は、任意の適切なビット深度（例えば、８ビット、１０ビット、１２ビット…）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ…）、及び任意の適切なサンプリング構造（例えば、ＹＣｒＣＢ４：２：０、ＹＣｒＣＢ４：４：４）であり得るデジタルビデオサンプルストリームの形式で、ビデオエンコーダ（６０３）によってコード化されるべきソースビデオシーケンスを提供することができる。メディアサービングシステムでは、ビデオソース（６０１）は、以前に準備されたビデオを記憶する記憶装置であってもよい。ビデオ会議システムでは、ビデオソース（６０１）は、ローカル画像情報をビデオシーケンスとしてキャプチャするカメラであってもよい。ビデオデータは、順番に見たときに動きを与える複数の個別のピクチャとして提供されてもよい。ピクチャ自体は、ピクセルの空間配列として編成することができ、各ピクセルは、使用中のサンプリング構造、色空間などに応じて、１つ又は複数のサンプルを含むことができる。当業者であれば、ピクセルとサンプルとの間の関係を容易に理解することができる。以下では、サンプルに焦点を当てて説明する。

【0057】

一実施形態によれば、ビデオエンコーダ（６０３）は、リアルタイムで、又はアプリケーションによって必要とされる他の任意の時間制約の下で、ソースビデオシーケンスのピクチャをコード化し、コード化されたビデオシーケンス（６４３）に圧縮することができる。適切なコーディング速度を適用することは、コントローラ（６５０）の１つの機能である。一部の実施形態では、コントローラ（６５０）は以下に説明されるように他の機能ユニットを制御し、また他の機能ユニットに機能的に結合される。分かりやすくするために、結合は示されていない。コントローラ（６５０）によって設定されるパラメータは、レート制御関連パラメータ（ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、…）、ピクチャサイズ、ピクチャグループ（ＧＯＰ）レイアウト、最大動きベクトル検索範囲などを含むことができる。コントローラ（６５０）は、特定のシステム設計用に最適化されたビデオエンコーダ（６０３）に関連する他の適切な機能を有するように構成することができる。

【0058】

一部の実施形態では、ビデオエンコーダ（６０３）は、コーディングループで動作するように構成される。過度に単純化された説明として、一例では、コーディングループは、ソースコーダ（６３０）（例えば、コード化されるべき入力ピクチャ及び参照ピクチャに基づいてシンボルストリームなどのシンボルを作成する役割を果たす）と、ビデオエンコーダ（６０３）に埋め込まれた（ローカル）デコーダ（６３３）とを含むことができる。デコーダ（６３３）は、（リモート）デコーダがサンプルデータを作成するのと同様の方法でシンボルを再構成してサンプルデータを作成する（シンボルとコード化されたビデオビットストリームとの間の任意の圧縮が、開示された主題で検討されているビデオ圧縮技術において可逆であるため）。再構成されたサンプルストリーム（サンプルデータ）は、参照ピクチャメモリ（６３４）に入力される。シンボルストリームのデコードにより、デコーダの位置（ローカル又はリモート）に関係なくビット精度の結果が得られるため、参照ピクチャメモリ（６３４）内のコンテンツも、ローカルエンコーダとリモートエンコーダとの間でビット精度となる。言い換えれば、エンコーダの予測部分は、デコード中に予測を使用するときにデコーダが「見る」のとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性（及び、例えばチャネルエラーのために同期性を維持できない場合に結果として生じるドリフト）のこの基本原理は、一部の関連技術でも使用されている。

【0059】

「ローカル」デコーダ（６３３）の動作は、図５に関連して上記で既に詳細に説明されている「リモート」デコーダ（５１０）の動作と同じであってもよい。しかし、図５も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ（６４５）及びパーサ（５２０）によってシンボルをコード化されたビデオシーケンスにエンコード／デコードすることは可逆であり得るため、バッファメモリ（５１５）及びパーサ（５２０）を含むビデオデコーダ（５１０）のエントロピーデコード部分は、ローカルデコーダ（６３３）に完全に実装されていない可能性がある。

【0060】

この時点で行うことができる観察は、デコーダに存在する解析／エントロピーデコードを除くいかなるデコーダ技術も、対応するエンコーダ内に実質的に同一の機能形態で存在する必要があるということである。このため、開示された主題は、デコーダの動作に焦点を当てている。エンコーダ技術は、包括的に説明されているデコーダ技術の逆である可能性があるため、その説明を省略することができる。特定の領域についてのみ、より詳細な説明が必要であり、以下に提供する。

【0061】

動作中、一部の例では、ソースコーダ（６３０）は、動き補償予測コーディングを実行することができ、これは、「参照ピクチャ」として指定されたビデオシーケンスからの１つ又は複数の以前にコード化されたピクチャを参照して入力ピクチャを予測的にコード化する。このようにして、コーディングエンジン（６３２）は、入力ピクチャのピクセルブロックと、入力ピクチャへの予測参照として選択され得る参照ピクチャのピクセルブロックとの間の差分をコード化する。

【0062】

ローカルビデオデコーダ（６３３）は、ソースコーダ（６３０）によって作成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャのコード化されたビデオデータをデコードすることができる。コーディングエンジン（６３２）の動作は、有利には、非可逆プロセスであり得る。コード化されたビデオデータがビデオデコーダ（図６には示されていない）でデコードされ得る場合、再構成されたビデオシーケンスは、通常、いくつかのエラーを伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ（６３３）は、参照ピクチャに対してビデオデコーダによって実行され得るデコードプロセスを複製し、そして再構成された参照ピクチャを参照ピクチャキャッシュ（６３４）に記憶させることができる。このようにして、ビデオエンコーダ（６０３）は、遠端ビデオデコーダ（送信エラーがない）によって取得される再構成された参照ピクチャとして共通の内容を有する再構成された参照ピクチャのコピーをローカルに記憶することができる。

【0063】

予測器（６３５）は、コーディングエンジン（６３２）のために予測検索を実行することができる。即ち、コード化されるべき新しいピクチャについて、予測器（６３５）は、参照ピクチャメモリ（６３４）を検索して、サンプルデータ（候補参照ピクセルブロックとして）又は参照ピクチャ動きベクトル、ブロック形状などの特定のメタデータを探すことができ、それらは、新しいピクチャに対する適切な予測参照として役立つことができる。予測器（６３５）は、適切な予測参照を見つけるために、サンプルブロックごとのピクセルブロックベースで動作することができる。場合によっては、予測器（６３５）によって得られた検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ（６３４）に記憶された複数の参照ピクチャから抽出された予測参照を有してもよい。

【0064】

コントローラ（６５０）は、例えば、ビデオデータをエンコードするために使用されるパラメータ及びサブグループパラメータの設定を含めて、ソースコーダ（６３０）のコーディング動作を管理することができる。

【0065】

前述のすべての機能ユニットの出力は、エントロピーコーダ（６４５）においてエントロピーコーディングを受けることができ。エントロピーコーダ（６４５）は、例えばハフマンコーディング、可変長コーディング、算術コーディングなどの技術に従ってシンボルを可逆的に圧縮することによって、様々な機能ユニットによって生成されたシンボルをコード化されたビデオシーケンスに変換する。

【0066】

送信機（６４０）は、エントロピーコーダ（６４５）によって作成されたコード化されたビデオシーケンスをバッファリングして、通信チャネル（６６０）を介した送信に備えることができ、通信チャネル（６６０）は、エンコードされたビデオデータを記憶する記憶装置へのソフトウェア／ハードウェアリンクであり得る。送信機（６４０）は、ビデオコーダ（６０３）からのコード化されたビデオデータを、送信されるべき他のデータ、例えば、コード化されたオーディオデータ及び／又は補助データストリーム（ソースは示されていない）とマージすることができる。

【0067】

コントローラ（６５０）は、ビデオエンコーダ（６０３）の動作を管理することができる。コーディング中に、コントローラ（６５０）は、各コード化されたピクチャに特定のコード化されたピクチャタイプを割り当てることができ、このコード化されたピクチャタイプは、それぞれのピクチャに適用され得るコーディング技術に影響を与える可能性がある。例えば、ピクチャは、多くの場合、次のピクチャタイプのいずれかとして割り当てられてもよい。

【0068】

イントラピクチャ（Ｉピクチャ）は、予測のソースとしてシーケンス内の他のピクチャを使用することなくコード化及びデコードされ得るものであり得る。一部のビデオコーデックでは、例えば、独立デコーダリフレッシュ（ＩｎｄｅｐｅｎｄｅｎｔＤｅｃｏｄｅｒＲｅｆｒｅｓｈ、「ＩＤＲ」）ピクチャを含めて、様々なタイプのイントラピクチャが可能である。当業者は、Ｉピクチャのそれらの変形並びにそれらのそれぞれの用途及び特徴を知っている。

【0069】

予測ピクチャ（Ｐピクチャ）は、各ブロックのサンプル値を予測するために最大で１つの動きベクトル及び参照インデックスを使用するイントラ予測又はインター予測を用いてコード化及びデコードされ得るものであり得る。

【0070】

双方向予測ピクチャ（Ｂピクチャ）は、各ブロックのサンプル値を予測するために最大で２つの動きベクトル及び参照インデックスを使用するイントラ予測又はインター予測を用いてコード化及びデコードされ得るものであり得る。同様に、複数の予測ピクチャは、単一のブロックの再構成のために３つ以上の参照ピクチャ及び関連するメタデータを使用することができる。

【0071】

ソースピクチャは、一般に、空間的に複数のサンプルブロック（例えば、それぞれ４ｘ４、８ｘ８、４ｘ８、又は１６ｘ１６サンプルのブロック）に再分割され、ブロックごとにコード化されてもよい。ブロックは、ブロックのそれぞれのピクチャに適用されるコーディング割り当てによって決定された他の（既にコード化された）ブロックを参照して予測的にコード化されてもよい。例えば、Ｉピクチャのブロックは、非予測的にコード化されてもよく、又はそれらは、同じピクチャの既にコード化されたブロックを参照して予測的にコード化されてもよい（空間予測又はイントラ予測）。Ｐピクチャのピクセルブロックは、１つの以前にコード化された参照ピクチャを参照して、空間予測を介して、又は時間予測を介して予測的にコード化されてもよい。Ｂピクチャのブロックは、１つ又は２つの以前にコード化された参照ピクチャを参照して、空間予測を介して、又は時間予測を介して、予測的にコード化されてもよい。

【0072】

ビデオエンコーダ（６０３）は、ＩＴＵ‐ＴＲｅｃ．Ｈ．２６５などの所定のビデオコーディング技術又は規格に従ってコーディング動作を実行することができる。その動作において、ビデオエンコーダ（６０３）は、入力ビデオシーケンスにおける時間的及び空間的冗長性を利用する予測コーディング動作を含めて、様々な圧縮動作を実行することができる。したがって、コード化されたビデオデータは、使用されているビデオコーディング技術又は規格によって指定された構文に準拠することができる。

【0073】

一実施形態では、送信機（６４０）は、エンコードされたビデオと共に追加のデータを送信することができる。ソースコーダ（６３０）は、コード化されたビデオシーケンスの一部としてそのようなデータを含むことができる。追加データは、時間／空間／ＳＮＲ強化層、冗長ピクチャ及びスライスなどの他の形式の冗長データ、ＳＥＩメッセージ、ＶＵＩパラメータセットフラグメントなどを含むことができる。

【0074】

ビデオは、時系列で複数のソースピクチャ（ビデオピクチャ）としてキャプチャされてもよい。イントラピクチャ予測（多くの場合、イントラ予測と略される）は、所与のピクチャにおける空間的相関を利用し、インターピクチャ予測は、ピクチャ間の（時間的又はその他の）相関を利用する。一例では、エンコーディング／デコーディング中の特定のピクチャは、現在ピクチャと呼ばれ、ブロックに分割される。現在ピクチャ内のブロックが、ビデオ内の以前にコード化され、まだバッファリングされている参照ピクチャ内の参照ブロックと類似している場合、現在ピクチャ内のブロックは、動きベクトルと呼ばれるベクトルによってコード化することができる。動きベクトルは、参照ピクチャ内の参照ブロックを指し、複数の参照ピクチャが使用されている場合、参照ピクチャを識別する第３の次元を有することができる。

【0075】

一部の実施形態では、インターピクチャ予測において双方向予測技術を使用することができる。双方向予測技術によれば、ビデオ内の現在ピクチャよりもデコード順が両方とも前である（ただし、表示順に、それぞれ過去と将来であり得る）２つの参照ピクチャ、例えば第１の参照ピクチャ及び第２の参照ピクチャが使用される。現在ピクチャ内のブロックは、第１の参照ピクチャ内の第１の参照ブロックを指す第１の動きベクトルと、第２の参照ピクチャ内の第２の参照ブロックを指す第２の動きベクトルとによってコード化することができる。ブロックは、第１の参照ブロックと第２の参照ブロックの組み合わせによって予測することができる。

【0076】

更に、インターピクチャ予測において、マージモード技術を使用してコーディング効率を向上させることができる。

【0077】

本開示の一部の実施形態によれば、インターピクチャ予測及びイントラピクチャ予測などの予測は、ブロック単位で実行される。例えば、ＨＥＶＣ規格によれば、一連のビデオピクチャ内のピクチャは圧縮のためにコーディングツリーユニット（ｃｏｄｉｎｇｔｒｅｅｕｎｉｔ、ＣＴＵ）に分割され、ピクチャ内のＣＴＵは、６４×６４ピクセル、３２×３２ピクセル、又は１６×１６ピクセルなどの同じサイズを有する。一般に、ＣＴＵは、３つのコーディングツリーブロック（ｃｏｄｉｎｇｔｒｅｅｂｌｏｃｋ、ＣＴＢ）を含み、それらは１つの輝度ＣＴＢ及び２つの彩度ＣＴＢである。各ＣＴＵは、１つ又は複数のコーディングユニット（ＣＵ）に再帰的に四分木分割することができる。例えば、６４×６４ピクセルのＣＴＵは、１つの６４×６４ピクセルのＣＵ、又は４つの３２×３２ピクセルのＣＵ、又は１６個の１６×１６ピクセルのＣＵに分割できる。一例では、各ＣＵを分析して、ＣＵの予測タイプ、例えばインター予測タイプ又はイントラ予測タイプを決定する。ＣＵは時間的及び／又は空間的予測可能性に応じて、１つ又は複数の予測ユニット（ｐｒｅｄｉｃｔｉｏｎｕｎｉｔ、ＰＵ）に分割される。一般に、各ＰＵは、輝度予測ブロック（ｐｒｅｄｉｃｔｉｏｎｂｌｏｃｋ、ＰＢ）及び２つの彩度ＰＢを含む。一実施形態では、コーディング（エンコーディング／デコーディング）における予測動作は、予測ブロック単位で実行される。予測ブロックの一例として輝度予測ブロックを使用すると、予測ブロックは、８×８ピクセル、１６×１６ピクセル、８×１６ピクセル、１６×８ピクセルなどのピクセルの値（例えば、輝度値）の行列を含む。

【0078】

図７は、本開示の別の実施形態によるビデオエンコーダ（７０３）の図を示す。ビデオエンコーダ（７０３）は、一連のビデオピクチャにおける現在のビデオピクチャ内のサンプル値の処理ブロック（例えば、予測ブロック）を受信し、そして処理ブロックを、コード化されたビデオシーケンスの一部であるコード化されたピクチャにエンコードするように構成される。一例では、図４の例のビデオエンコーダ（４０３）の代わりにビデオエンコーダ（７０３）が使用される。

【0079】

ＨＥＶＣの例では、ビデオエンコーダ（７０３）は、８ｘ８サンプルの予測ブロックなどの処理ブロックのサンプル値の行列を受信する。ビデオエンコーダ（７０３）は、処理ブロックが、イントラモード、インターモード、又は、例えばレート歪み最適化を使用する双方向予測モードを用いて最適にコード化されているか否かを判定する。処理ブロックがイントラモードでコード化される場合、ビデオエンコーダ（７０３）は、イントラ予測技術を使用して、処理ブロックをコード化されたピクチャにエンコードすることができ、処理ブロックがインターモード又は双方向予測モードでコード化される場合、ビデオエンコーダ（７０３）は、インター予測又は双方向予測技術をそれぞれ使用して、処理ブロックをコード化されたピクチャにエンコードすることができる。特定のビデオコーディング技術では、マージモードは、インターピクチャ予測サブモードであってもよく、ここで、動きベクトルは、予測子以外のコード化された動きベクトル成分なしに、１つ又は複数の動きベクトル予測子から導出される。特定の他のビデオコーディング技術では、対象ブロックに適用可能な動きベクトル成分が存在する場合がある。一例では、ビデオエンコーダ（７０３）は、処理ブロックのモードを決定するためのモード決定モジュール（図示せず）などの他の構成要素を含む。

【0080】

図７の例では、ビデオエンコーダ（７０３）は、図７に示されているように互いに結合されインターエンコーダ（７３０）、イントラエンコーダ（７２２）、残差計算機（７２３）、スイッチ（７２６）、残差エンコーダ（７２４）、汎用コントローラ（７２１）、及びエントロピーエンコーダ（７２５）を含む。

【0081】

インターエンコーダ（７３０）は、現在ブロック（例えば、処理ブロック）のサンプルを受信し、そのブロックを、参照ピクチャ内の１つ又は複数の参照ブロック（例えば、前のピクチャ及び後のピクチャ内のブロック）と比較し、インター予測情報（例えば、インターエンコーディング技術による冗長情報の記述、動きベクトル、マージモード情報）を生成し、そして任意の適切な技術を使用してインター予測情報に基づいてインター予測結果（例えば、予測ブロック）を計算するように構成される。一部の例では、参照ピクチャは、エンコードされたビデオ情報に基づいてデコードされたデコードされた参照ピクチャである。

【0082】

イントラエンコーダ（７２２）は、現在ブロック（例えば、処理ブロック）のサンプルを受信し、場合によっては、そのブロックを同じピクチャ内で既にコード化されたブロックと比較し、変換後に量子化係数を生成し、場合によっては、イントラ予測情報（例えば、１つ又は複数のイントラエンコーディング技術によるイントラ予測方向情報）も生成するように構成される。一例では、イントラエンコーダ（７２２）はまた、イントラ予測情報及び同じピクチャ内の参照ブロックに基づいて、イントラ予測結果（例えば、予測ブロック）を計算する。

【0083】

汎用コントローラ（７２１）は、汎用制御データを決定し、そして汎用制御データに基づいてビデオエンコーダ（７０３）の他の構成要素を制御するように構成される。一例では、汎用コントローラ（７２１）は、ブロックのモードを決定し、そのモードに基づいてスイッチ（７２６）に制御信号を提供する。例えば、モードがイントラモードである場合、汎用コントローラ（７２１）は、残差計算機（７２３）で使用するためのイントラモード結果を選択するようにスイッチ（７２６）を制御し、そして、イントラ予測情報を選択してイントラ予測情報をビットストリームに含めるようにエントロピーエンコーダ（７２５）を制御し、また、モードがインターモードである場合、汎用コントローラ（７２１）は、残差計算機（７２３）で使用するためのインター予測結果を選択するようにスイッチ（７２６）を制御し、そして、インター予測情報を選択してインター予測情報をビットストリームに含めるようにエントロピーエンコーダ（７２５）を制御する。

【0084】

残差計算機（７２３）は、受信ブロックと、イントラエンコーダ（７２２）又はインターエンコーダ（７３０）から選択された予測結果との間の差分（残差データ）を計算するように構成される。残差エンコーダ（７２４）は、残差データに基づいて動作し、残差データをエンコードして変換係数を生成するように構成される。一例では、残差エンコーダ（７２４）は、残差データを空間領域から周波数領域に変換し、変換係数を生成するように構成される。次に、変換係数は量子化処理され、量子化変換係数が得られる。様々な実施形態において、ビデオエンコーダ（７０３）はまた、残差デコーダ（７２８）を含む。残差デコーダ（７２８）は、逆変換を実行してデコードされた残差データを生成するように構成される。デコードされた残差データは、イントラエンコーダ（７２２）及びインターエンコーダ（７３０）によって適切に使用することができる。例えば、インターエンコーダ（７３０）は、デコードされた残差データ及びインター予測情報に基づいてデコードされたブロックを生成することができ、イントラエンコーダ（７２２）は、デコードされた残差データ及びイントラ予測情報に基づいてデコードされたブロックを生成することができる。デコードされたブロックは、適切に処理されてデコードされたピクチャを生成し、デコードされたピクチャは、メモリ回路（図示せず）にバッファリングされ、一部の例では参照ピクチャとして使用され得る。

【0085】

エントロピーエンコーダ（７２５）は、エンコードされたブロックを含むようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ（７２５）は、ＨＥＶＣ規格などの適切な規格に従って様々な情報を含むように構成される。一例では、エントロピーエンコーダ（７２５）は、汎用制御データ、選択された予測情報（例えば、イントラ予測情報又はインター予測情報）、残差情報、及び他の適切な情報をビットストリーム内に含むように構成される。開示された主題によれば、インターモード又は双方向予測モードのいずれかのマージサブモードでブロックをコード化する場合、残差情報がないことに留意されたい。

【0086】

図８は、本開示の別の実施形態によるビデオデコーダ（８１０）の図を示す。ビデオデコーダ（８１０）は、コード化されたビデオシーケンスの一部であるコード化されたピクチャを受信し、そしてコード化されたピクチャをデコードして再構成されたピクチャを生成するように構成される。一例では、図４の例のビデオデコーダ（４１０）の代わりにビデオデコーダ（８１０）が使用される。

【0087】

図８の例では、ビデオデコーダ（８１０）は、図８に示されるように互いに結合されたエントロピーデコーダ（８７１）、インターデコーダ（８８０）、残差デコーダ（８７３）、再構成モジュール（８７４）、及びイントラデコーダ（８７２）を含む。

【0088】

エントロピーデコーダ（８７１）は、コード化されたピクチャから、コード化されたピクチャを構成する構文要素を表す特定のシンボルを再構成するように構成することができる。そのようなシンボルは、例えば、ブロックがコード化されるモード（例えば、イントラモード、インターモード、双方向予測モード、マージサブモード又は別のサブモードにおける後者の２つなど）、イントラデコーダ（８７２）又はインターデコーダ（８８０）による予測にそれぞれ使用される特定のサンプル又はメタデータを識別することができる予測情報（例えば、イントラ予測情報又はインター予測情報など）、例えば量子化変換係数の形式の残差情報などを含むことができる。一例では、予測モードがインター予測モード又は双方向予測モードである場合、インター予測情報は、インターデコーダ（８８０）に提供され、予測タイプがイントラ予測タイプである場合、イントラ予測情報は、イントラデコーダ（８７２）に提供される。残差情報は逆量子化されてもよく、そして残差デコーダ（８７３）に提供される。

【0089】

インターデコーダ（８８０）は、インター予測情報を受信し、そしてインター予測情報に基づいてインター予測結果を生成するように構成される。

【0090】

イントラデコーダ（８７２）は、イントラ予測情報を受信し、そしてイントラ予測情報に基づいて予測結果を生成するように構成される。

【0091】

残差デコーダ（８７３）は、逆量子化を実行して逆量子化変換係数を抽出し、そして逆量子化変換係数を処理して残差を周波数領域から空間領域に変換するように構成される。残差デコーダ（８７３）はまた、（量子化パラメータ（ＱＰ）を含めるために）特定の制御情報を必要とする場合があり、その情報は、エントロピーデコーダ（８７１）によって提供されてもよい（これは、少量の制御情報のみである可能性があるため、データパスは示されていない）。

【0092】

再構成モジュール（８７４）は、空間領域において、残差デコーダによって出力された残差と、予測結果（場合によっては、インター予測モジュール又はイントラ予測モジュールによって出力された）とを組み合わせて再構成されたブロックを形成するように構成され、再構成されたブロックは、再構成されたピクチャの一部である可能性があり、また再構成されたピクチャは、再構成されたビデオの一部である可能性がある。視覚的品質を改善するために、デブロッキング動作などの他の適切な動作を実行することができることに留意されたい。

【0093】

ビデオエンコーダ（４０３）、（６０３）、及び（７０３）、並びにビデオデコーダ（４１０）、（５１０）、及び（８１０）は、任意の適切な技術を使用して実装できることに留意されたい。一実施形態では、ビデオエンコーダ（４０３）、（６０３）、及び（７０３）、並びにビデオデコーダ（４１０）、（５１０）、及び（８１０）は、１つ又は複数の集積回路を使用して実装することができる。別の実施形態では、ビデオエンコーダ（４０３）、（６０３）、及び（７０３）、並びにビデオデコーダ（４１０）、（５１０）、及び（８１０）は、ソフトウェア命令を実行する１つ又は複数のプロセッサを使用して実装することができる。

【0094】

ニューラルネットワーク技術はビデオコーディング技術と共に使用することができ、ニューラルネットワークを用いたビデオコーディング技術はハイブリッドビデオコーディング技術と呼ぶことができる。本開示の一部の態様は、ニューラルネットワークを使用してピクチャ品質を改善するためのハイブリッドビデオコーディング技術における適応フィルタリングの技術を提供する。具体的には、本開示の一部の態様によれば、ビデオコーディングにおいて適応混合エキスパートフィルタリングの技術を使用して、ビデオ品質を向上させることができる。一部の例では、ハイブリッドビデオコーディング技術における適応フィルタリングは、ピクチャ品質を改善するために量子化パラメータに基づいて制御される混合エキスパートネットワークを使用することができる。適応フィルタリング技術は、インループフィルタ及び後処理のフィルタで使用することができる。

【0095】

本開示の一態様によれば、インループフィルタは、参照データに影響を与えるフィルタである。後処理のフィルタは参照データに影響を与えない。例えば、ループフィルタユニット（５５６）によってフィルタリングされた画像は、更なる予測のための参照として、参照ピクチャメモリ（５５７）などのバッファに記憶される。一部の例では、フィルタリングされた画像は、図５の後処理ユニット(図示せず)によって更に処理されてもよい。後処理ユニットは、記憶されたフィルタリングされた画像に影響を与えない。後処理ユニットは、フィルタを含んでもよい。

【0096】

図９は、一部の例におけるループフィルタユニット（９１０）のブロック図を示す。一例では、ループフィルタユニット（５５６）の代わりにループフィルタユニット（９１０）を使用することができる。図９の例では、ループフィルタユニット（９１０）は、デブロッキングフィルタ（９０１）、サンプル適応オフセット（ｓａｍｐｌｅａｄａｐｔｉｖｅｏｆｆｓｅｔ、ＳＡＯ）フィルタ（９０２）、及び適応ループフィルタ（ａｄａｐｔｉｖｅｌｏｏｐｆｉｌｔｅｒ、ＡＬＦ）フィルタ（９０３）を含む。一部の例では、ＡＬＦフィルタ（９０３）は、交差成分適応ループフィルタ（ｃｒｏｓｓｃｏｍｐｏｎｅｎｔａｄａｐｔｉｖｅｌｏｏｐｆｉｌｔｅｒ、ＣＣＡＬＦ）を含むことができる。

【0097】

動作中、一例では、ループフィルタユニット（９１０）は、再構成されたピクチャを受信し、再構成されたピクチャに様々なフィルタを適用し、そして再構成されたピクチャに応答してフィルタリングされたピクチャを生成する。フィルタリングされたピクチャを、例えば、更なるデコーディングのための参照ピクチャとして参照ピクチャメモリ（９２０）に記憶することができる。フィルタリングされたピクチャを、デコーダ側の後処理ユニット（９３０）によって更に処理して、デコーダ出力として出力ピクチャを生成することができる。一部の例では、後処理ユニット（９３０）は、参照ピクチャに影響を与えない後処理フィルタ（９３１）を含むことができる。

【0098】

一部の例では、デブロッキングフィルタ（９０１）及びＳＡＯフィルタ（９０２）は、ブロックコーディング技術が使用されるときに導入されるブロッキングアーチファクトを除去するように構成される。デブロッキングフィルタ（９０１）は、ブロックコーディング技術が使用されるときに形成される形状エッジを滑らかにすることができる。ＳＡＯフィルタ（９０２）は、ビデオフレーム内の他のサンプルに対して歪みを低減するために、サンプルに特定のオフセットを適用することができる。ＡＬＦフィルタ（９０３）は、例えば、サンプルのブロックに分類を適用し、次に、当該サンプルのブロックに分類に関連するフィルタを適用することができる。フィルタのフィルタ係数は、エンコーダによって決定され、一部の例ではデコーダに信号で送られてもよい。

【0099】

本開示の態様は、ピクチャ品質を改善するためのハイブリッドビデオコーディング技術における適応フィルタリング技術を提供する。一部の例では、適応混合エキスパートネットワークは、ＡＬＦフィルタ（９０３）などの適応ループフィルタで使用される。一部の例では、適応混合エキスパートネットワークは、後処理フィルタ（９３１）などの後処理フィルタで使用される。一部の実施形態では、適応混合エキスパートネットワークは、画像ブロック及び画像ブロックの隣接ピクセルを含む隣接ブロックを受信することができ、そして画像ブロックを再構成するために使用された量子化パラメータ（ＱＰ）値を受信することができる。適応混合エキスパートネットワークは、ＱＰ値に基づいて品質が向上した出力画像ブロックを生成することができる。

【0100】

一部のビデオコーディングの例（例えば、ＶＶＣ規格）では、ブロックベースの適応フィルタはビデオコーディングで使用することができる。例えば、ブロックベースの適応フィルタは、ブロックベースの適応ループフィルタ（ｂｌｏｃｋｂａｓｅｄａｄａｐｔｉｖｅｌｏｏｐｆｉｌｔｅｒ、ＢＡＬＦ）と呼ばれるインループフィルタとして使用することができる。一部の例では、ＢＡＬＦは、ブロックレベル（例えば、４×４ブロックとも呼ばれる４×４ピクセルのブロック）で有限インパルス応答（ＦＩＲ）フィルタを適応的に切り替えて、ブロックのビデオ品質を向上させることができるインループフィルタである。具体的には、一部の例では、ＢＡＬＦは、２つのステップで実行することができる。ＢＡＬＦの第１のステップでは、４×４ブロックなどのブロックを、ブロックの近傍、例えば４×４ブロックの１０×１０隣接ブロック(例えば、４×４ブロックは１０×１０隣接ブロックの中央部分にある)に基づいて、クラスのグループ(例えば、最大１００クラス)からあるクラスとして分類する。次に、ＢＡＬＦの第２のステップでは、４×４ブロックの分類に基づいて、ＦＩＲフィルタのグループからあるＦＩＲフィルタを選択して１０×１０隣接ブロックをフィルタリングし、フィルタリングされた４×４ブロックを出力画像ブロックとして取得する。

【0101】

一部の例では、ＦＩＲフィルタのグループを事前定義することができ、選択したフィルタのフィルタ係数は、エンコーダとデコーダの両方によって利用可能である。一部の他の例では、選択したＦＩＲフィルタのフィルタ係数は、ウィーナーフィルタの例のように、エンコーダによって計算される。選択したＦＩＲフィルタのフィルタ係数がエンコーダによって計算されると、フィルタ係数はコード化されたビデオビットストリームにエンコードされ、コード化されたビデオビットストリームはデコーダに送信され、選択したＦＩＲフィルタのフィルタ係数をデコーダに信号で送る。

【0102】

一部の例では、フィルタ係数がエンコーダによって計算される場合、エンコーダは、クラスの数及び対応するフィルタ係数を決定して、ピクチャ歪みと対応するフィルタ係数をエンコードするビット数との間の微妙なバランスを達成することができる。一般に、クラスが多いほど歪みは少なくなるが、フィルタ係数をエンコードするビット数を増加させることができる。

【0103】

本開示の一部の態様は、ビデオコーディング用のフィルタにおいて、疎にゲートされた混合エキスパート（ＭｏＥ）ネットワークを使用する技術を提供する。ＭｏＥネットワークは、多数のエキスパートモジュールを使用して入力データを処理し、ゲーティングネットワークを使用してエキスパートモジュールのサブセットを条件付きで選択し、対応する重みを使用して出力を計算するネットワークアーキテクチャである。

【0104】

図１０は、ＭｏＥネットワーク（１０００）の一例を示す。ＭｏＥネットワーク（１０００）は、ゲーティングネットワーク（１０１０）と、Ｅ_１～Ｅ_Ｎによって示される複数のエキスパートモジュール（１０２０）とを含み、ここで、Ｎは、エキスパートモジュールの数であり、正の整数である。エキスパートモジュールＥ_１～Ｅ_Ｎは、異なるパラメータ又は異なる関数を有することができる。ＭｏＥネットワーク（１０００）は、入力信号ｘを受信し、出力信号ｙを生成する。入力信号ｘは、ゲーティングネットワーク（１０１０）及び複数のエキスパートモジュール（１０２０）に提供される。ゲーティングネットワーク（１０１０）は、入力信号ｘに基づいて、エキスパートモジュールＥ_１～Ｅ_Ｎに対してそれぞれゲーティング重みＧ_１（ｘ）～Ｇ_Ｎ（ｘ）を生成する。エキスパートモジュールＥ_１～Ｅ_Ｎは、入力信号ｘに基づいてモジュール出力（Ｅ_１（ｘ）～Ｅ_Ｎ（ｘ）で示される）をそれぞれ生成することができる。出力ｙは、ゲーティング重みＧ_１（ｘ）～Ｇ_Ｎ（ｘ）に基づくモジュール出力Ｅ_１（ｘ）～Ｅ_Ｎ（ｘ）の重み付けされた組み合わせである。

【0105】

図１１は、ＭｏＥネットワーク（１０００）などのＭｏＥネットワークによるデータ処理のプロセス（１１００）を概説するフローチャートを示す。

【0106】

（Ｓ１１１０）において、ＭｏＥネットワーク（１０００）は、入力信号ｘを受信する。

【0107】

（Ｓ１１２０）において、ゲーティングネットワーク（１０１０）は、入力信号ｘに基づいて、エキスパートモジュールＥ_１～Ｅ_Ｎのそれぞれのゲーティング重みを計算する。

【0108】

（Ｓ１１３０）において、入力信号ｘは、それぞれエキスパートモジュールＥ_１～Ｅ_Ｎに供給され、エキスパートモジュールＥ_１～Ｅ_Ｎは、それぞれ、入力信号ｘに基づいてモジュール出力Ｅ_１（ｘ）～Ｅ_Ｎ（ｘ）を生成する。

【0109】

（Ｓ１１４０）において、ゲーティング重みに基づいてエキスパートモジュールからのモジュール出力の加重和が計算される。エキスパートモジュールのゲーティング重みがゼロの場合、当該エキスパートモジュールはゲートされ、モジュール出力は出力に含まれないことに留意されたい。

【0110】

（Ｓ１１５０）において、加重和は、ＭｏＥネットワーク（１０００）の出力信号ｙとして出力される。

【0111】

一部の例では、ＭｏＥネットワーク（１０００）及びプロセス（１１００）は、言語モデリング及び機械翻訳において使用され、ゲーティング重みは、行列乗算に基づいて決定され得る。例えば、Ｎ個のゲーティング重み（例えば、図１０のG₁（ｘ）-G_N（ｘ）、Ｎはエキスパートモジュールの数）を含むベクトルG（ｘ）は、式（１）～式（３）に従って生成することができる。

【数1】

ここで、Ｈ（ｘ）は、式（１）に基づいて計算された要素Ｈ（ｘ）_ｉを有するベクトルであり、Ｓｏｆｔｍａｘ（）は、出力ベクトルを生成し、出力ベクトルの成分の合計が１であることを保証する正規化された指数関数であり、Ｓｏｆｔｐｌｕｓ（）は、ＲｅＬｕ関数の平滑近似であり、一例ではf(x)=ln(1+e^x)をＳｏｆｔｐｌｕｓ関数と呼ぶことができ、ＳｔａｎｄａｒｄＮｏｒｍａｌ（）は、ゼロ平均と単位分散のガウス分布に基づいて乱数を生成する乱数発生器であり、ＫｅｅｐＴｏｐＫ（）は、上位ｋ個の値を保持し、残りを-∞（Ｓｏｆｔｍａｘ（）が適用された後はゼロになる）に設定するために使用され、W_g及びW_noiseは、トレーニング可能な重み行列であり、ｋは、ベクトルG（ｘ）内の非ゼロ要素の数である。

【0112】

一部の例では、ＫｅｅｐＴｏｐＫ（）関数は、ｋ（ｋがＮよりも小さい）個のゲーティング重みを非ゼロにし、残りのゲーティング重みをゼロにすることができ、また計算を節約するためにスパース性を作り出すことができることに留意されたい。

【0113】

一例では、ゲーティング重みG_i(x)が非ゼロの場合、対応するエキスパートモジュールＥ_ｉがアクティブ化されて、モジュール出力E_i(x)を生成する。エキスパートモジュールがモジュール出力を生成すると、モジュール出力は対応するゲーティング重みに基づいて重み付けされる。重み付けされたモジュール出力を組み合わせて、ＭｏＥネットワークの最終出力を生成することができる。一部の例では、ＭｏＥネットワークの最終出力は、式（４）に従って計算することができる。

【数2】

【0114】

本開示の一部の態様は、適応フィルタリングにおいてＭｏＥネットワークを使用して、ビデオコーデックにおける歪みとレートのバランスをとるための技術を提供する。以下の説明では、ＭｏＥネットワークを使用する適応フィルタは、適応ＭｏＥフィルタと呼ぶことができる。一部の例では、適応ＭｏＥフィルタはＢＡＬＦの代わりに使用することができ、適応ＭｏＥフィルタは、コード化されたビデオビットストリーム内にフィルタ係数をエンコードせずに、フィルタリングに使用できる別個のフィルタの数を１００万を超える数に増やすことができる。一部の他の例では、適応ＭｏＥフィルタは、後処理で使用することができ、例えば、後処理フィルタ（９３１）の代わりに使用することができる。

【0115】

一部の例では、適応ＭｏＥフィルタは、ブロックベースの適応ループフィルタ（ＢＡＬＦ）と同様の方法で動作することができる。具体的には、適応ＭｏＥフィルタは、Ｍ_１×Ｍ_２ブロックでＦＩＲフィルタを切り替えることができ、ここで、例えば、ＶＶＣの場合のようにＭ_１＝Ｍ_２＝４である。次に、適応ＭｏＥフィルタは、Ｍ_１×Ｍ_２ブロックのＮ_１×Ｎ_２隣接ブロックを入力画像ブロックとすることができ、ここで、例えば、ＶＶＣの場合のようにＮ_１＝Ｎ_２＝１０であり、Ｍ_１×Ｍ_２ブロックは、Ｎ_１×Ｎ_２隣接ブロックの中央部分であり得る。次に、適応ＭｏＥフィルタは、Ｍ_１×Ｍ_２フィルタリングされた出力画像ブロックを生成することができる。

【0116】

本開示の一態様によれば、ＢＡＬＦとは異なり、適応ＭｏＥフィルタは、Ｎ１×Ｎ２近傍に基づいてＭ_１×Ｍ_２ブロックを分類しない。その代わりに、一部の例では、適応ＭｏＥフィルタは、Ｍ_１×Ｍ_２ブロックのＮ_１×Ｎ_２隣接ブロックと、Ｍ_１×Ｍ_２ブロックに関連する量子化パラメータ値を入力として受信する。入力に基づいて、ｋ（ｋ＞１）個のＦＩＲフィルタをＮ個の事前決定されたＦＩＲフィルタから選択することができ、その後、一部の例では、選択したｋ個のＦＩＲフィルタの重み付けされた線形結合として最終的なＦＩＲフィルタを生成する。次に、最終的なフィルタを適用してＮ_１×Ｎ_２近傍をフィルタリングし、Ｍ_１×Ｍ_２フィルタリングされた出力ブロックを生成する。一例では、フィルタリングに使用できる一意のフィルタの数がＮ！／（ｋ！・（Ｎ－ｋ）！）より大きく、フィルタ係数をコード化されたビデオビットストリーム内でエンコードする必要はない。一例では、Ｎ＝１０００、ｋ＞１であり、線形結合の各重みが２ビットを超える場合、フィルタリング用の一意のフィルタの数は１００万を超える。

【0117】

画像及び／又はビデオデータの処理において、画像／ビデオデータは２次元であり、複数のチャネルを含み得る。本開示の一態様によれば、画像及びビデオ処理のためのＭｏＥネットワークを使用して、画像及び／又はビデオデータのためのＭｏＥネットワークのエキスパートモジュール及びゲーティングネットワークは、畳み込みを主動作として使用するように構成することができる。

【0118】

更に、本開示の一態様によれば、画像及び／又はビデオコーディングにおいて、量子化パラメータ（ＱＰ）は、デコードされた画像の品質を制御するために使用することができ、ＱＰは、デコードされた画像をどのようにフィルタリングしてピクチャ品質を向上させるかを決定する際に使用することができる。関連技術では、ＱＰは、複数の処理モジュールから１つの処理モジュールを選択する（例えば、複数のフィルタから１つのフィルタを選択する）ために使用される。別の関連技術では、ＱＰは、単一のニューラルネットワークなどの単一の処理モジュールへの入力として使用され、単一のニューラルネットワークは、異なるＱＰ値の画像をフィルタリングするようにトレーニングされる。本開示の一部の実施形態では、ＱＰ値は、複数の処理モジュール（例えば、複数のフィルタ）を選択するために使用することができ、選択した処理モジュールは、入力画像ブロックを処理するが、一部の例ではＱＰ値を処理しない。

【0119】

図１２は、画像及び／又はビデオ処理用の適応ＭｏＥフィルタ（１２００）の一例を示す。適応ＭｏＥフィルタ（１２００）は、ゲーティングネットワーク（１２１０）と、Ｅ_１～Ｅ_Ｎによって示される複数のエキスパートモジュール（１２２０）とを含み、ここで、Ｎは、エキスパートモジュールの数であり、正の整数である。エキスパートモジュールＥ_１～Ｅ_Ｎは、異なるパラメータ又は異なる関数を有することができる。適応ＭｏＥネットワーク（１２００）は、画像ブロックの隣接ブロックである入力ブロックｘ及びＱＰ値を受信する。一部の例では、隣接ブロックは、隣接ブロックの中心位置に画像ブロックを含み、また画像ブロックの隣接ピクセルを含む。画像ブロックはＱＰ値に基づいて再構成される。適応ＭｏＥネットワーク（１２００）は、フィルタリングされた画像ブロックｙを生成することができる。入力ブロックｘ及びＱＰ値は、ゲーティングネットワーク（１２１０）に提供される。ゲーティングネットワーク（１２１０）は、入力ブロックｘ及びＱＰ値に基づいて、エキスパートモジュールＥ_１～Ｅ_Ｎに対してそれぞれゲーティング重みＧ_１（ｘ，ＱＰ）～Ｇ_Ｎ（ｘ，ＱＰ）を生成する畳み込みニューラルネットワークを含む。入力ブロックｘは、エキスパートモジュールＥ_１～Ｅ_Ｎにも提供される。一部の例では、エキスパートモジュールＥ_１～Ｅ_Ｎは、異なるフィルタリング機能又は異なるフィルタリングパラメータを有するフィルタである。エキスパートモジュールＥ_１～Ｅ_Ｎは、入力ブロックｘに基づいて、中間フィルタリング出力（Ｆ_１（ｘ）～Ｆ_Ｎ（ｘ）で示される）をそれぞれ生成することができる。フィルタリングされた画像ブロックｙは、ゲーティング重みＧ_１（ｘ，ＱＰ）～Ｇ_Ｎ（ｘ，ＱＰ）に基づくＦ_１（ｘ）～Ｆ_Ｎ（ｘ）の重み付けされ組み合わせである。

【0120】

図１２の例では、適応ＭｏＥフィルタ（１２００）は、入力として２次元画像データ（例えば、隣接ブロック）を受信し、そして、フィルタリングされた２次元画像データ（例えば、フィルタリングされた画像ブロック）を出力する。一部の例では、畳み込みニューラルネットワークは、エキスパートモジュールＥ_１～Ｅ_Ｎ（１２２０）及び／又はゲーティングネットワーク（１２１０）で使用される。一部の例では、ゲーティングネットワーク（１２１０）は、入力ブロック及びＱＰ値（入力ブロックの中央部分で画像ブロックを再構成するために使用される）の両方を入力として受信することができ、ゲーティングネットワーク（１２１０）は、行列乗算の代わりにニューラルネットワーク構造を使用して、２次元画像データ（例えば、隣接ブロック）とスカラー値（例えば、ＱＰ値）を組み合わせて、エキスパートモジュールのアクティブ化及び重み付けのためのN次元ベクトル（例えば、ゲーティング重みＧ_１（ｘ，ＱＰ）～Ｇ_Ｎ（ｘ，ＱＰ））を決定する。

【0121】

一部の例では、ゲーティング重みＧ_１（ｘ，ＱＰ）～Ｇ_Ｎ（ｘ，ＱＰ）は、アクティブ化のために対応するエキスパートモジュールＥ_１～Ｅ_Ｎに提供される。例えば、Ｇ_１（ｘ，ＱＰ）が非ゼロの場合、エキスパートモジュールＥ_１がアクティブ化され、中間フィルタリング出力Ｆ_１（ｘ）を生成する。ただし、Ｇ_１（ｘ，ＱＰ）がゼロの場合、計算を節約するためにエキスパートモジュールＥ_１が非アクティブ化される。

【0122】

図１３は、本開示の一実施形態によるニューラルネットワーク構造（１３００）の一例を示す。ニューラルネットワーク構造（１３００）は、畳み込みニューラルネットワークに基づいており、一例ではゲーティングネットワーク（１２１０）で使用することができる。

【0123】

図１３の例では、ニューラルネットワーク構造（１３００）は、３つの畳み込み層（１３１０）、（１３２０）、（１３３０）と、１つの最大値プーリング層（１３４０）と、１つの線形ロジスティック回帰層（１３５０）とを含む。一例では、ニューラルネットワーク構造（１３００）は、３チャネル入力ブロックｘ（例えば、ＹＵＶチャネル）及び３チャネル入力ブロックの中央部分を再構成するために使用されるＱＰ値を入力として受信する。ＱＰ値は３チャネル入力ブロックと連結されて４チャネル入力を形成する。第１の畳み込み層（１３１０）は、４チャネル入力を受け取り、Mチャネル出力を出力し、例えば、M=32である。第２の畳み込み層及び第３の畳み込み層（１３２０）、（１３３０）は両方とも、Mチャネル入力を受け取り、Mチャネル出力を出力する。第３の畳み込み層（１３３０）からのＭチャネル出力は、Ｍチャネル特徴マップとも呼ばれる。すべての畳み込み層（１３１０）、（１３２０）、及び（１３３０）は、３×３のカーネルサイズを使用でき、ＬｅａｋｙＲｅＬＵ関数によってアクティブ化される。一例では、最大値プーリング層（１３４０）は、Mチャネル特徴マップを入力として受け取り、ストライドが２の２×２カーネルを使用した最大値プーリング操作を通じて特徴マップをダウンサンプリングすることができる。結果として得られるダウンサンプリングされた特徴マップは、ベクトルに平坦化され、ＱＰ値と連結される。このベクトルは線形ロジスティック回帰層（１３５０）に渡され、N次元ベクトル

【数3】

が計算される。

【0124】

更に、一例では、ゲーティングネットワーク（１２１０）は、式（５）、式（６）及び式（７）を使用して、Ｎ個のゲーティング重み（例えば、図１２のG₁(x,QP)-G_N(x,QP)、Ｎは、エキスパートモジュールの数）のベクトルG(x,QP)を決定することができる。ベクトルG(x,QP)は、k個の非ゼロ要素を有する疎ベクトルである。要素G_i(x,QP)が非ゼロの場合、対応するエキスパートモジュールE_iがアクティブ化され、それ以外の場合、要素G_i(x,QP)はゼロであり、対応するエキスパートモジュールE_iはアクティブ化されない。

【数4】

【0125】

本開示の一態様によれば、トレーニング可能な行列W_noiseがゼロでない場合、乱数生成関数ＳｔａｎｄａｒｄＮｏｒｍａｌ（）により、式（６）のG(x,QP)は決定論的ではない。一部の例では、非決定論的パラメータを有する適応ＭｏＥフィルタ（１２００）は、例えば、後処理ユニット（９３０）において、後処理にのみ使用され、そうでない場合、インループフィルタリングにおいて（非決定論的パラメータを有する）適応ＭｏＥフィルタ（１２００）を使用すると、エンコーダ側及びデコーダ側で参照ピクチャの不整合が発生し、デコーダエラー及び重大な歪みが発生する可能性がある。一部の例では、トレーニング可能な行列W_noiseを強制的にゼロにすることができ、その後、G(x,QP)が決定論的になり、適応ＭｏＥフィルタ（１２００）をインループフィルタリングに使用することができる。適応ＭｏＥフィルタ（１２００）がインループフィルタリングに使用される場合、G(x,QP)は、式（７）及び式（８）を使用して計算され、ここで、

【数5】

は、ニューラルネットワーク構造（１３００）からの出力である。

【数6】

【0126】

ニューラルネットワーク構造（１３００）は、異なる数の畳み込み層、異なる数の中間チャネル、異なる活性化関数を使用するように修正できることに留意されたい。一例では、１つの線形層ロジスティック回帰に加えて、多層ニューラルネットワークを使用することができる。ＱＰ値はまた、ゲーティングネットワーク内の任意の層への入力として、ゲーティングネットワーク内の任意の点（例えば、第２の畳み込み層（１３２０）、第３の畳み込み層（１３３０）、最大値プーリング層（１３４０））で連結することができる。

【0127】

一部の例では、N個のエキスパートモジュールのそれぞれは、出力活性化層のないL×Lカーネルを有する畳み込み層を含む。

【0128】

図１４は、一部の例におけるエキスパートモジュール（１４２０）の図を示す。一例では、エキスパートモジュール（１４２０）は、エキスパートモジュール（１２２０）のそれぞれの代わりに使用することができる。エキスパートモジュール（１４２０）は、畳み込み層（１４２１）を含む。エキスパートモジュール（１４２０）は、３チャネル入力ブロックｘ（例えば、隣接ブロックの中央部分にある画像ブロックの隣接ブロック）であり得る入力ブロックｘを受信し、そして３チャネル入力ブロックｘを畳み込み層（１４２１）でフィルタリングすることができる。

【0129】

一例では、トレーニングプロセスを容易にするために、残差接続（１４２２）を使用して、入力ブロックを畳み込み層（１４２１）の出力に追加し、エキスパートモジュール（１４２０）のモジュール出力であるF_i(x)を得る。一例では、ＶＶＣにおけるＢＡＬＦフィルタサイズに一致するようにLが７であるように選択される。

【0130】

一部の例では、残差接続（１４２２）を除去することができることに留意されたい。

【0131】

図１４の例では、エキスパートモジュール（１４２０）は、畳み込み層を使用して入力ブロックをフィルタリングする。エキスパートモジュール（１４２０）は、複数の中間チャネルを有する複数の畳み込み層、異なるサイズの畳み込みカーネル、異なる活性化関数、及び残差接続を使用するオプションなど、異なる設定の畳み込み層を使用するように修正できることに留意されたい。

【0132】

図１５は、適応ＭｏＥフィルタ（１２００）などの適応ＭｏＥフィルタによる画像データ処理のプロセス（１５００）を概説するフローチャートを示す。

【0133】

（Ｓ１５１０）において、適応ＭｏＥフィルタ（１２００）は、隣接ブロックの中央部分にある画像ブロックの隣接ブロックと、画像ブロックを再構成するために使用されるＱＰ値とを受信する。一例では、適応ＭｏＥフィルタ（１２００）は、Ｎ_１×Ｎ_２ブロックを受信する。Ｎ_１×Ｎ_２ブロックは、Ｍ_１×Ｍ_２ブロック及びＭ_１×Ｍ_２ブロックの隣接ピクセルを含む。適応ＭｏＥフィルタ（１２００）はまた、Ｍ_１×Ｍ_２ブロックの再構成に使用されるＱＰ値を受信する。

【0134】

（Ｓ１５２０）において、ゲーティングネットワーク（１２１０）は、ニューラルネットワーク構造（例えば、ニューラルネットワーク構造（１３００））を使用して、Ｎ_１×Ｎ_２ブロック及びＱＰ値に基づいてエキスパートモジュールＥ_１～Ｅ_Ｎのそれぞれのゲーティング重みを計算する。

【0135】

（Ｓ１５３０）において、隣接ブロックがエキスパートモジュールによってフィルタリングされ、モジュール出力が生成される。例えば、エキスパートモジュールＥ_１などのエキスパートモジュールは、Ｎ_１×Ｎ_２ブロック上で動作し、それに応じてモジュール出力としてＭ_１×Ｍ_２ブロックを生成することができる。一例では、エキスパートモジュールに対応するゲーティング重みが非ゼロの場合、エキスパートモジュールがアクティブ化される。入力ブロックは、アクティブ化されたエキスパートモジュールによってフィルタリングすることができる。別の例では、入力ブロックは、すべてのエキスパートモジュールによってフィルタリングすることができる。

【0136】

（Ｓ１５４０）において、エキスパートモジュールからのモジュール出力の加重和は、ゲーティング重みに基づいて、例えば式（９）に従って計算される。

【数7】

【0137】

一例では、アクティブ化されたエキスパートモジュールからのモジュール出力の加重和が計算される。別の例では、すべてのエキスパートモジュールからのモジュール出力の加重和が計算される。エキスパートモジュールのゲーティング重みがゼロの場合、モジュール出力は加重和に含まれない。

【0138】

（Ｓ１５５０）において、加重和は、適応ＭｏＥフィルタ（１２００）によってフィルタリングされた画像ブロックとして出力される。

【0139】

図１６は、適応ＭｏＥフィルタ（１２００）などの適応ＭｏＥフィルタによる画像データ処理のプロセス（１６００）を概説する別のフローチャートを示す。

【0140】

（Ｓ１６１０）において、適応ＭｏＥフィルタ（１２００）は、隣接ブロックの中央部分にある画像ブロックの隣接ブロックと、画像ブロックを再構成するために使用されるＱＰ値とを受信する。一例では、適応ＭｏＥフィルタ（１２００）は、Ｎ_１×Ｎ_２ブロックを受信する。Ｎ_１×Ｎ_２ブロックは、Ｍ_１×Ｍ_２ブロック及びＭ_１×Ｍ_２ブロックの隣接ピクセルを含む。適応ＭｏＥフィルタ（１２００）はまた、Ｍ_１×Ｍ_２ブロックの再構成に使用されるＱＰ値を受信する。

【0141】

（Ｓ１６２０）において、ゲーティングネットワーク（１２１０）は、ニューラルネットワーク構造（例えば、ニューラルネットワーク構造（１３００））を使用して、Ｎ_１×Ｎ_２ブロック及びＱＰ値に基づいてエキスパートモジュールＥ_１～Ｅ_Ｎのそれぞれのゲーティング重みを計算する。

【0142】

（Ｓ１６３０）において、エキスパートモジュールＥ_１～Ｅ_Ｎのサブセットがゲーティング重みに基づいてアクティブ化される。一部の例では、非ゼロのゲーティング重みを有するエキスパートモジュールＥ_１～Ｅ_Ｎのサブセットがアクティブ化され、ゼロのゲーティング重みを有する残りのエキスパートモジュールＥ_１～Ｅ_Ｎが非アクティブ化される。一例では、ゲーティングネットワーク（１２１０）は、ｋ個の非ゼロのゲーティング重みを出力するように構成される（ｋは整数、ｋ＞１である）。

【0143】

（Ｓ１６４０）において、隣接ブロックがアクティブ化されたエキスパートモジュールによってフィルタリングされ、モジュール出力が生成される。例えば、アクティブ化されたエキスパートモジュールは、Ｎ_１×Ｎ_２ブロック上で動作し、それに応じてモジュール出力としてＭ_１×Ｍ_２ブロックを生成することができる。隣接ブロックは、アクティブ化されたエキスパートモジュールによってフィルタリングすることができる。

【0144】

（Ｓ１６５０）において、アクティブ化されたエキスパートモジュールからのモジュール出力の加重和が、ゲーティング重みに基づいて、例えば式（９）に従って計算される。

【0145】

（Ｓ１６６０）において、加重和は、適応ＭｏＥフィルタ（１２００）によってフィルタリングされた画像ブロックとして出力される。

【0146】

一部の実施形態では、適応ＭｏＥフィルタは、ビデオ処理におけるノイズ低減のためのインループフィルタとして使用される。一部の例では、適応ＭｏＥフィルタのエキスパートモジュールは、Ｍ_１×Ｍ_２ブロックのピクチャ品質を向上させるための事前定義されたフィルタとして構成することができる。適応ＭｏＥフィルタは、ＱＰ値と、Ｍ_１×Ｍ_２ブロック及びＭ_１×Ｍ_２ブロックの隣接ピクセルを含むＮ_１×Ｎ_２ブロックとを入力として受け取る。

【0147】

Ｎ_１×Ｎ_２ブロック及びＱＰ値に基づいて、適応ＭｏＥフィルタは、Ｎ個の事前定義されたエキスパートモジュールからｋ個のエキスパートモジュールを選択し、そしてｋ個のエキスパートモジュールの重みを計算することができ、ここで、ｋ＞１である。ｋ個のエキスパートモジュールは、それぞれモジュール出力を計算することができる。各エキスパートモジュールは、１つのＭ_１×Ｍ_２ブロックを出力する。

【0148】

次に、線形結合用のｋ個のエキスパートモジュールの計算した重みを使用して、適応ＭｏＥフィルタの出力を、選択したｋ個のエキスパートモジュールのモジュール出力の線形結合として計算する。

【0149】

一部の例では、ゲーティングネットワークからの重みはＱＰの関数であるが、Ｎ個の事前定義されたフィルタのフィルタ係数はＱＰの関数ではないことに留意されたい。

【0150】

一部の実施形態では、エキスパートモジュールはＦＩＲフィルタである。ＦＩＲフィルタは適切に組み合わせることができる。

【0151】

図１７は、画像及び／又はビデオ処理用の適応ＭｏＥフィルタ（１７００）の一例を示す。適応ＭｏＥフィルタ（１７００）は、ゲーティングネットワーク（１７１０）と、図１７のＦＩＲ_１～ＦＩＲ_Ｎによって示される事前定義されたＦＩＲフィルタとして実装される複数のエキスパートモジュール（１７２０）とを含み、ここでＮはエキスパートモジュールの数であり、正の整数である。ＦＩＲ_１～ＦＩＲ_Ｎは異なるパラメータを有することができる。適応ＭｏＥフィルタ（１７００）は、隣接ブロックの中央部分にある画像ブロックの隣接ブロックｘと、画像ブロックの再構成に使用されるＱＰ値とを受信し、そしてフィルタリングされた画像ブロックｙを生成することができる。隣接ブロックｘ及びＱＰ値は、ゲーティングネットワーク（１７１０）に提供される。ゲーティングネットワーク（１７１０）は、ニューラルネットワーク構造（１３００）などの畳み込みニューラルネットワークを含み、隣接ブロックｘ及びＱＰ値に基づいて、ＦＩＲ_１～ＦＩＲ_Ｎに対してそれぞれゲーティング重みＧ_１（ｘ，ＱＰ）～Ｇ_Ｎ（ｘ，ＱＰ）を生成することができる。一例では、ゲーティング重みＧ_１（ｘ，ＱＰ）～Ｇ_Ｎ（ｘ，ＱＰ）のうち、ｋ個のゲーティング重みは非ゼロであり、ｋは１より大きい正の整数である。ゲーティング重みＧ_１（ｘ，ＱＰ）～Ｇ_Ｎ（ｘ，ＱＰ）に基づいて、結合ＦＩＲフィルタ（１７２５）は、線形結合用のゲーティング重みＧ_１（ｘ，ＱＰ）～Ｇ_Ｎ（ｘ，ＱＰ）を使用してＦＩＲ_１～ＦＩＲ_Ｎの線形結合として決定される。次に、隣接ブロックｘが結合ＦＩＲフィルタ（１７２５）に提供され、結合ＦＩＲフィルタ（１７２５）は、フィルタリングされた画像ブロックｙを出力する。

【0152】

一例では、ＦＩＲ_１～ＦＩＲ_Ｎのそれぞれは畳み込み演算で実装される。適応ＭｏＥフィルタ（１７００）を使用すると、１つの畳み込み演算が実行され、フィルタリングされた画像ブロックｙが生成される。比較のために、一例では、適応ＭｏＥフィルタ（１２００）を使用すると、ｋ個の畳み込み演算が実行される。

【0153】

図１８は、本開示の一実施形態によるプロセス（１８００）を概説するフローチャートを示す。プロセス（１８００）は、ニューラルネットワーク処理で、例えばビデオコーデックにおけるニューラルネットワークベースのフィルタで使用することができる。様々な実施形態では、プロセス（１８００）は、処理回路、例えば、端末装置（３１０）、（３２０）、（３３０）及び（３４０）内の処理回路、ビデオエンコーダ（４０３）の機能を実行する処理回路、ビデオデコーダ（４１０）の機能を実行する処理回路、ビデオデコーダ（５１０）の機能を実行する処理回路、ビデオエンコーダ（６０３）の機能を実行する処理回路などによって実行される。一部の実施形態では、プロセス（１８００）はソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行するとき、処理回路はプロセス（１８００）を実行する。プロセスは（Ｓ１８０１）から始まり、（Ｓ１８１０）に進む。

【0154】

（Ｓ１８１０）において、量子化パラメータ（ＱＰ）値に少なくとも部分的に基づいてエキスパートモジュールに関連するゲーティング重みを決定する。エキスパートモジュールは、ＱＰ値に基づいて再構成される画像ブロックを含む入力ブロックを処理するように構成される。

【0155】

一部の例では、ゲーティング重みは、量子化パラメータと、画像ブロック及び画像ブロックの隣接ピクセルを含む入力ブロックとに基づいて決定される。一部の例では、ゲーティング重みは、少なくとも１つの畳み込みニューラルネットワーク層を使用して決定される。

【0156】

（Ｓ１８２０）において、ゲーティング重みに基づいてエキスパートモジュールに重みを付けて、画像ブロックに対応する出力画像ブロックを生成する。

【0157】

一部の例では、ゲーティング重みに基づいてエキスパートモジュールからのモジュール出力を組み合わせて、画像ブロックに対応する出力画像ブロックを生成する。

【0158】

一部の例では、ゲーティング重みに基づいてエキスパートモジュールを結合する結合エキスパートモジュールを決定することができる。一例では、エキスパートモジュールは有限インパルス応答（ＦＩＲ）フィルタである。次に、ゲーティング重みに基づいてＦＩＲフィルタを結合する結合ＦＩＲフィルタを決定することができる。結合ＦＩＲフィルタを画像ブロックを含む入力ブロックに適用して、出力画像ブロックを生成する。

【0159】

一部の例では、エキスパートモジュールの非ゼロのゲーティング重みを有するサブセットをアクティブ化する。次に、エキスパートモジュールのサブセットに関連するゲーティング重みに基づいてエキスパートモジュールのサブセットのモジュール出力を組み合わせて、画像ブロックに対応する出力画像ブロックを生成する。

【0160】

一部の例では、ゲーティング重みは決定論的な方法で決定される。出力画像ブロックは、参照ピクチャに関連付けられたループ内で生成することができる。

【0161】

一部の例では、ゲーティング重みは、非決定論的な方法で決定される。出力画像ブロックは、参照ピクチャに関連付けられたループ外で生成される。

【0162】

一部の例では、エキスパートモジュールはそれぞれ、画像ブロックを含む入力ブロックに応答してモジュール出力を生成する畳み込みニューラルネットワークを含むことができる。

【0163】

次に、プロセスは（Ｓ１８９９）に進む。

【0164】

上記の説明における様々なユニット、ブロック、及びモジュールは、処理回路、ソフトウェア命令を実行するプロセッサ、ハードウェア及びソフトウェアの組み合わせなどの様々な技術によって実装することができることに留意されたい。

【0165】

上記の技術は、コンピュータ可読命令を使用し、且つ１つ又は複数のコンピュータ可読媒体に物理的に記憶されたコンピュータソフトウェアとして実装することができる。例えば、図１９は、開示された主題の特定の実施形態を実装するのに適したコンピュータシステム（１９００）を示す。

【0166】

コンピュータソフトウェアは、任意の適切な機械コード又はコンピュータ言語を使用してコード化することができ、これらの機械コード又はコンピュータ言語は、アセンブリ、コンパイル、リンク、又は同様のメカニズムを受けて、コンピュータ中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）、グラフィック処理装置（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）などによって直接、又は解釈、マイクロコード実行などを通じて実行できる命令を含むコードを作成することができる。

【0167】

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置などを含めて、様々なタイプのコンピュータ又はその構成要素上で実行することができる。

【0168】

コンピュータシステム（１９００）について図１９に示されている構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能に関するいかなる限定も示唆することを意図するものではない。また、構成要素の構成は、コンピュータシステム（１９００）の例示的な実施形態に示されている構成要素のいずれか１つ又は組み合わせに関連する依存性又は要件を有すると解釈されるべきではない。

【0169】

コンピュータシステム（１９００）は、特定のヒューマンインターフェース入力デバイスを含むことができる。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、オーディオ入力（声、拍手など）、視覚入力（ジェスチャーなど）、嗅覚入力（図示せず）を介して、１人以上の人間ユーザによる入力に応答することができる。ヒューマンインターフェースデバイスはまた、オーディオ（音声、音楽、周囲音など）、画像（走査画像、静止画像カメラから取得した写真画像など）、ビデオ（２次元ビデオ、立体ビデオを含む３次元ビデオなど）など、必ずしも人間による意識的な入力に直接関連しない特定のメディアをキャプチャするために使用することができる。

【0170】

入力ヒューマンインターフェースデバイスは、キーボード（１９０１）、マウス（１９０２）、トラックパッド（１９０３）、タッチスクリーン（１９１０）、データグローブ（図示せず）、ジョイスティック（１９０５）、マイクロフォン（１９０６）、スキャナ（１９０７）、及びカメラ（１９０８）のうちの１つ又は複数を含むことができる（それぞれのうちの１つのみを示す）。

【0171】

コンピュータシステム（１９００）はまた、特定のヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、及び匂い／味覚を通じて、１人以上の人間ユーザの感覚を刺激することができる。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（１９１０）、データグローブ（図示せず）、又はジョイスティック（１９０５）による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る）、オーディオ出力デバイス（スピーカ（１９０９）、ヘッドフォン（図示せず）など）、視覚出力デバイス（それぞれがタッチスクリーン入力機能を有しても有しなくてもよく、それぞれが触覚フィードバック機能を有しても有しなくてもよく、一部がステレオグラフィック出力などの手段を介して２次元視覚出力又は３次元以上の出力を出力することができるＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（１９１０）、仮想現実メガネ（図示せず）、ホログラフィックディスプレイ及びスモークタンク（図示せず）など）、及びプリンタ（図示せず）を含むことができる。

【0172】

コンピュータシステム（１９００）はまた、人間がアクセス可能な記憶装置、及びＣＤ／ＤＶＤ付きのＣＤ／ＤＶＤＲＯＭ／ＲＷ（１９２０）を含む光学媒体又は同様の媒体（１９２１）、サムドライブ（１９２２）、リムーバブルハードドライブ又はソリッドステートドライブ（１９２３）、テープ及びフロッピーディスクなどのレガシー磁気媒体（図示せず）、セキュリティドングルなどの特殊なＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイス（図示せず）などの関連する媒体を含むことができる。

【0173】

当業者はまた、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、又は他の一時的な信号を包含しないことを理解すべきである。

【0174】

コンピュータシステム（１９００）はまた、１つ又は複数の通信ネットワーク（１９５５）へのインターフェース（１９５４）を含むことができる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークは更に、ローカル、広域、メトロポリタン、自動車及び産業用、リアルタイム、遅延耐性などであり得る。ネットワークの例としては、イーサネット、無線ＬＡＮなどのローカルエリアネットワーク、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、及び地上波放送ＴＶを含むＴＶ有線又は無線広域デジタルネットワーク、ＣＡＮＢｕｓを含む自動車及び産業用ネットワークなどが挙げられる。特定のネットワークでは一般に、特定の汎用データポート又は周辺バス（１９４９）（例えば、コンピュータシステム（１９００）のＵＳＢポートなど）に接続された外部ネットワークインターフェースアダプタが必要であり、他のネットワークは、一般に、以下に説明されるように、システムバスに接続することによってコンピュータシステム（１９００）のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインターフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（１９００）は他のエンティティと通信することができる。そのような通信は、例えば、ローカル又は広域デジタルネットワークを使用する他のコンピュータシステムへの一方向、受信のみ（例えば、放送ＴＶ）、一方向送信のみ（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、又は双方向であり得る。上記のように、特定のプロトコル及びプロトコルスタックは、これらのネットワーク及びネットワークインターフェースのそれぞれで使用することができる。

【0175】

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶装置、及びネットワークインターフェースは、コンピュータシステム（１９００）のコア（１９４０）に接続することができる。

【0176】

コア（１９４０）は、１つ又は複数の中央処理装置（ＣＰＵ）（１９４１）、グラフィック処理装置（ＧＰＵ）（１９４２）、フィールドプログラマブルゲートエリア（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｅａ、ＦＰＧＡ）の形態の特殊なプログラマブル処理ユニット（１９４３）、特定のタスク用のハードウェアアクセラレータ（１９４４）、グラフィックアダプタ（１９５０）などを含むことができる。これらのデバイスは、読み取り専用メモリ（Ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）（１９４５）、ランダムアクセスメモリ（１９４６）、ユーザがアクセスできない内部ハードドライブ、ＳＳＤなどの内部大容量記憶装置（１９４７）と共に、システムバス（１９４８）を介して接続されてもよい。一部のコンピュータシステムでは、システムバス（１９４８）は、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にするために、１つ又は複数の物理プラグの形態でアクセス可能である。周辺機器は、コアのシステムバス（１９４８）に直接接続することも、周辺バス（１９４９）を介して接続することもできる。一例では、スクリーン（１９１０）は、グラフィックアダプタ（１９５０）に接続することができる。周辺バスのアーキテクチャには、ＰＣＩ、ＵＳＢなどが含まれる。

【0177】

ＣＰＵ（１９４１）、ＧＰＵ（１９４２）、ＦＰＧＡ（１９４３）、及びアクセラレータ（１９４４）は、特定の命令を実行することができ、これらの命令は、組み合わせて前述のコンピュータコードを構成することができる。そのコンピュータコードは、ＲＯＭ（１９４５）又はＲＡＭ（１９４６）に記憶することができる。移行データはＲＡＭ（１９４６）に記憶することもできるが、永続データは、例えば内部大容量記憶装置（１９４７）に記憶することができる。１つ又は複数のＣＰＵ（１９４１）、ＧＰＵ（１９４２）、大容量記憶装置（１９４７）、ＲＯＭ（１９４５）、ＲＡＭ（１９４６）などと密接に関連付けることができるキャッシュメモリを使用することで、任意のメモリデバイスへの高速記憶及び検索を可能にすることができる。

【0178】

コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであってもよく、又はそれらは、コンピュータソフトウェア技術の当業者によく知られ、利用可能な種類のものであってもよい。

【0179】

限定ではなく、一例として、アーキテクチャ、具体的にはコア（１９４０）を有するコンピュータシステム（１９００）は、プロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が１つ又は複数の有形のコンピュータ可読媒体に具体化されたソフトウェアを実行する結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上記で紹介したユーザがアクセス可能な大容量記憶装置に関連付けられた媒体、及びコア内部大容量記憶装置（１９４７）又はＲＯＭ（１９４５）などの非一時的な性質を有するコア（１９４０）の特定の記憶装置であり得る。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア（１９４０）によって実行され得る。コンピュータ可読媒体は、特定の必要に応じて、１つ又は複数のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア（１９４０）、特にその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ（１９４６）に記憶されたデータ構造を定義すること、及びソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含めて、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。更に又は代替として、コンピュータシステムは、ソフトウェアの代わりに又はソフトウェアと共に動作して本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行することができる回路（例えば、アクセラレータ（１９４４））に配線され、又は他の方法で具体化された論理の結果として機能を提供することができる。ソフトウェアへの言及は、論理を包含することができ、必要に応じてその逆も同様である。コンピュータ可読媒体への言及は、実行用のソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行用の論理を具体化する回路、又は必要に応じてその両方を包含することができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組み合わせを包含する。
付録Ａ：頭字語
ＪＥＭ：共同探索モデル
ＶＶＣ：多用途ビデオコーディング
ＢＭＳ：ベンチマークセット
ＭＶ：動きベクトル
ＨＥＶＣ：高効率ビデオコーディング
ＳＥＩ：補足強化情報
ＶＵＩ：ビデオユーザビリティ情報
ＧＯＰ：ピクチャグループ
ＴＵ：変換ユニット
ＰＵ：予測ユニット
ＣＴＵ：コーディングツリーユニット
ＣＴＢ：コーディングツリーブロック
ＰＢ：予測ブロック
ＨＲＤ：仮想参照デコーダ
ＳＮＲ：信号雑音比
ＣＰＵ：中央処理装置
ＧＰＵ：グラフィック処理装置
ＣＲＴ：ブラウン管
ＬＣＤ：液晶ディスプレイ
ＯＬＥＤ：有機発光ダイオード
ＣＤ：コンパクトディスク
ＤＶＤ：デジタルビデオディスク
ＲＯＭ：読み取り専用メモリ
ＲＡＭ：ランダムアクセスメモリ
ＡＳＩＣ：特定用途向け集積回路
ＰＬＤ：プログラマブルロジックデバイス
ＬＡＮ：ローカルエリアネットワーク
ＧＳＭ：汎欧州デジタル移動体通信システム
ＬＴＥ：ロングタームエボリューション
ＣＡＮＢｕｓ：コントローラエリアネットワークバス
ＵＳＢ：ユニバーサルシリアルバス
ＰＣＩ：周辺構成要素相互接続
ＦＰＧＡ：フィールドプログラマブルゲートエリア
ＳＳＤ：ソリッドステートドライブ
ＩＣ：集積回路
ＣＵ：コーディングユニット

【0180】

本開示は、いくつかの非限定的な例示的な実施形態を説明してきたが、本開示の範囲内にある変更、変形、及び様々な置換同等物が存在する。したがって、当業者は、本明細書に明示的に示されていないか又は記載されていないが、本開示の原理を具体化し、したがってその精神及び範囲内にある多数のシステム及び方法を考案することができることが理解されるであろう。

【符号の説明】

【0181】

１０１点
１０２矢印
１０３矢印
１０４ブロック

【図1A】