特表2025-502448 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン　バイトダンス　ネットワーク　テクノロジー　カンパニー　リミテッドの特許一覧 ▶ バイトダンス　インコーポレイテッドの特許一覧

特表2025-502448データ処理の方法、装置及び媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2025-01-24

(54)【発明の名称】データ処理の方法、装置及び媒体

(51)【国際特許分類】

H04N 19/90 20140101AFI20250117BHJP

H04N 19/126 20140101ALI20250117BHJP

H04N 19/13 20140101ALI20250117BHJP

H04N 19/14 20140101ALI20250117BHJP

H04N 19/192 20140101ALI20250117BHJP

【ＦＩ】

H04N19/90

H04N19/126

H04N19/13

H04N19/14

H04N19/192

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024543269

(86)(22)【出願日】2023-01-20

(85)【翻訳文提出日】2024-09-04

(86)【国際出願番号】 CN2023073423

(87)【国際公開番号】W WO2023138686

(87)【国際公開日】2023-07-27

(31)【優先権主張番号】PCT/CN2022/073109

(32)【優先日】2022-01-21

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】520476341

【氏名又は名称】北京字節跳動網絡技術有限公司

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢｙｔｅｄａｎｃｅＮｅｔｗｏｒｋＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】ＲｏｏｍＢ－００３５，２／Ｆ，Ｎｏ．３Ｂｕｉｌｄｉｎｇ，Ｎｏ．３０，ＳｈｉｘｉｎｇＲｏａｄ，ＳｈｉｊｉｎｇｓｈａｎＤｉｓｔｒｉｃｔＢｅｉｊｉｎｇ１０００４１Ｃｈｉｎａ

(71)【出願人】

【識別番号】520477474

【氏名又は名称】バイトダンスインコーポレイテッド

【氏名又は名称原語表記】ＢＹＴＥＤＡＮＣＥＩＮＣ．

【住所又は居所原語表記】１２６５５ＷｅｓｔＪｅｆｆｅｒｓｏｎＢｏｕｌｅｖａｒｄ，ＳｉｘｔｈＦｌｏｏｒ，ＳｕｉｔｅＮｏ．１３７ＬｏｓＡｎｇｅｌｅｓ，Ｃａｌｉｆｏｒｎｉａ９００６６ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(72)【発明者】

【氏名】エセンリック，セミフ

(72)【発明者】

【氏名】ウ，ヤオジュン

(72)【発明者】

【氏名】ザン，ジャオビン

(72)【発明者】

【氏名】リ，ユエ

(72)【発明者】

【氏名】ザン，カイ

(72)【発明者】

【氏名】ザン，リー

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159MA00

5C159MC11

5C159ME11

5C159TA46

5C159TA59

5C159TB04

5C159TB08

5C159TC10

5C159TD03

5C159TD04

5C159TD05

5C159UA02

5C159UA05

(57)【要約】

本開示の実施形態は、データ処理のためのソリューションを提供する。データ処理方法が提案される。前記方法は、データと前記データのビットストリームとの間の転換中に、前記データの再構成された潜在表現の第１のサンプルの第１部分を決定するステップであって、前記第１部分が前記第１のサンプルの予測を示すステップと、前記第１のサンプルの第２部分を決定するステップであって、前記第２部分が前記第１のサンプルと前記第１部分との間の差を示すステップと、前記第２部分に基づいて前記転換を実行するステップとを含む。
【選択図】図１６

【特許請求の範囲】

【請求項1】

データ処理方法であって、
データと前記データのビットストリームとの間の転換中に、前記データの再構成された潜在表現の第１のサンプルの第１部分を決定するステップであって、前記第１部分が前記第１のサンプルの予測を示すステップと、
前記第１のサンプルの第２部分を決定するステップであって、前記第２部分が前記第１のサンプルと前記第１部分との間の差を示すステップと、
前記第２部分に基づいて前記転換を実行するステップと、を含む方法。

【請求項2】

前記第１部分を決定するステップは、
前記再構成された潜在表現のサンプルのセットに基づいて前記第１部分を決定するステップを含む、請求項１に記載の方法。

【請求項3】

前記サンプルのセットに基づいて前記第１部分を決定するステップは、
第１のサブネットワークを使用して、前記サンプルのセットに基づいて中間情報を生成するステップと、
第２のサブネットワークによって、前記中間情報に基づいて前記第１部分を生成するステップと、を含む、請求項２に記載の方法。

【請求項4】

前記第１のサブネットワークは、自己回帰的である、請求項３に記載の方法。

【請求項5】

前記第１のサブネットワークは、コンテクストモデルサブネットワーク又はコンテキストサブネットワークであるか、又は
前記第２のサブネットワークは、予測サブネットワーク又はフュージョンサブネットワークである、請求項３から４のいずれか一項に記載の方法。

【請求項6】

前記第１部分を生成するステップは、
第３のサブネットワークを使用して、第１の量子化ハイパー潜在表現に基づいて第１のハイパー情報を生成するステップと、
前記第２のサブネットワークを使用して、前記中間情報及び前記第１のハイパー情報に基づいて前記第１部分を生成するステップと、を含む、請求項３から５のいずれか一項に記載の方法。

【請求項7】

前記第１部分を決定するステップは、
第１の量子化ハイパー潜在表現に基づいて前記第１部分を決定するステップを含む、請求項１に記載の方法。

【請求項8】

前記第１の量子化ハイパー潜在表現に基づいて前記第１部分を決定するステップは、
第３のサブネットワークを使用して前記第１の量子化ハイパー潜在表現を処理するステップを含む、請求項７に記載の方法。

【請求項9】

前記第３のサブネットワークは、ハイパーデコーダサブネットワークである、請求項６又は８に記載の方法。

【請求項10】

前記第１の量子化ハイパー潜在表現は、前記ビットストリームに基づいて決定されるか、又は
前記第１の量子化ハイパー潜在表現は、前記データの潜在表現に基づく第４のサブネットワークを使用して生成される、請求項６から９のいずれか一項に記載の方法。

【請求項11】

前記第４のサブネットワークは、ハイパーエンコーダサブネットワークである、請求項１０に記載の方法。

【請求項12】

前記第１のハイパー情報は、第１の確率分布情報を含む、請求項６及び９から１１のいずれか一項に記載の方法。

【請求項13】

前記第１の確率分布情報は、平均値を含む、請求項１２に記載の方法。

【請求項14】

前記第１のハイパー情報は、予測情報を含む、請求項６及び９から１１のいずれか一項に記載の方法。

【請求項15】

前記第２部分を決定するステップは、
第５のサブネットワークを使用して、第２の量子化ハイパー潜在表現に基づいて第２のハイパー情報を生成するステップであって、前記第２の量子化ハイパー潜在表現が前記ビットストリームの第１の部分に基づいて決定されるステップと、
前記第２のハイパー情報に基づいて前記ビットストリームの第２の部分に対してエントロピーデコードプロセスを実行することによって前記第２部分を取得するステップであって、前記第２の部分が前記第１の部分とは異なるステップとを含む、請求項１から１４のいずれか一項に記載の方法。

【請求項16】

前記第２のハイパー情報は、第２の確率分布情報を含む、請求項１５に記載の方法。

【請求項17】

前記第２の確率分布情報は、分散を含む、請求項１６に記載の方法。

【請求項18】

前記第５のサブネットワークは、ハイパースケールデコーダサブネットワークである、請求項１５から１７のいずれか一項に記載の方法。

【請求項19】

前記エントロピーデコードプロセスは、算術デコードプロセスである、請求項１５から１８のいずれか一項に記載の方法。

【請求項20】

前記エントロピーデコードプロセスは、ゼロ平均確率分布を使用して実行される、請求項１５から１９のいずれか一項に記載の方法。

【請求項21】

前記エントロピーデコードプロセスは、分散を使用して実行される、請求項１５から２０のいずれか一項に記載の方法。

【請求項22】

前記第２の量子化ハイパー潜在表現は、前記第１の量子化ハイパー潜在表現と同じであるか、又は
前記第２の量子化ハイパー潜在表現は、前記第１の量子化ハイパー潜在表現とは異なる、請求項１５から２１のいずれか一項に記載の方法。

【請求項23】

前記転換を実行するステップは、
前記第１部分及び前記第２部分に基づいて前記第１のサンプルを決定するステップと、
前記第１のサンプルに対する合成変換に基づいて前記転換を実行するステップと、を含む、請求項１から２２のいずれか一項に記載の方法。

【請求項24】

前記第１のサンプルは、前記第１部分と前記第２部分の合計に基づいて決定される、請求項２３に記載の方法。

【請求項25】

前記第２部分を決定するステップは、
前記第１部分及び前記データの潜在表現の第２のサンプルに基づいて前記第２部分を決定するステップであって、前記第２のサンプルが前記第１のサンプルに対応し、前記潜在表現が前記再構成された潜在表現に対応するステップを含む、請求項１から１４のいずれか一項に記載の方法。

【請求項26】

前記潜在表現は、前記データに対して分析変換を実行することによって取得される、請求項２５に記載の方法。

【請求項27】

前記第１部分及び第２のサンプルに基づいて前記第２部分を決定するステップは、
前記第１部分と前記第２のサンプルとの間の差に基づいて残差を取得するステップと、
前記残差を量子化することによって前記第２部分を取得するステップと
を含む、請求項２５から２６のいずれか一項に記載の方法。

【請求項28】

前記第１のサンプルは、前記第１部分及び前記第２部分に基づいて決定される、請求項２５から２６のいずれか一項に記載の方法。

【請求項29】

前記第１のサンプルは、前記第１部分と前記第２部分の合計に基づいて決定される、請求項２８に記載の方法。

【請求項30】

前記第２のサンプルは、前記第２部分を決定するために使用される前に量子化される、請求項２５から２９のいずれか一項に記載の方法。

【請求項31】

前記第１部分は、前記第２部分及び前記第１のサンプルを決定するために使用される前に量子化される、請求項２５から３０のいずれか一項に記載の方法。

【請求項32】

前記転換を実行するステップは、
第４のサブネットワークを使用して、前記データの潜在表現に基づいて第２の量子化ハイパー潜在表現を生成するステップと、
第５のサブネットワークを使用して、前記第２の量子化ハイパー潜在表現に基づいて第２のハイパー情報を生成するステップと、
前記第２のハイパー情報に基づいて、前記第２部分に対してエントロピーエンコードプロセスを実行するステップと、を含む、請求項１から１４又は２５から３１のいずれか一項に記載の方法。

【請求項33】

前記第２のハイパー情報は、第２の確率分布情報を含む、請求項３２に記載の方法。

【請求項34】

前記第２の確率分布情報は、分散を含む、請求項３３に記載の方法。

【請求項35】

前記第４のサブネットワークは、ハイパーエンコーダサブネットワークであるか、又は前記第５のサブネットワークは、ハイパースケールデコーダサブネットワークである、請求項３２から３４のいずれか一項の方法。

【請求項36】

前記エントロピーエンコードプロセスは、算術エンコードプロセスである、請求項３２から３５のいずれか一項に記載の方法。

【請求項37】

前記エントロピーエンコードプロセスは、ゼロ平均確率分布を使用して実行される、請求項３２から３６のいずれか一項に記載の方法。

【請求項38】

前記エントロピーエンコードプロセスは、分散を使用して実行される、請求項３２から３７のいずれか一項に記載の方法。

【請求項39】

前記第２の量子化ハイパー潜在表現は、前記第１の量子化ハイパー潜在表現と同じである、請求項３２から３８のいずれか一項に記載の方法。

【請求項40】

前記転換を実行するステップは、
前記第１の量子化ハイパー潜在表現に対して前記エントロピーエンコードプロセスを実行するステップをさらに含む、請求項３９に記載の方法。

【請求項41】

前記第２の量子化ハイパー潜在表現は、前記第１の量子化ハイパー潜在表現とは異なる、請求項３２から３８のいずれか一項に記載の方法。

【請求項42】

前記転換を実行するステップは、
前記第１の量子化ハイパー潜在表現及び前記第２の量子化ハイパー潜在表現に対して前記エントロピーエンコードプロセスを実行するステップをさらに含む、請求項４１に記載の方法。

【請求項43】

前記第１部分は、前記第１のサンプルの予測であり、又は前記第２部分は、前記第１のサンプルの量子化された残差である、請求項１から４２のいずれか一項に記載の方法。

【請求項44】

前記再構成された潜在表現は、前記データの量子化潜在表現である、請求項１から４３のいずれか項に記載の方法。

【請求項45】

前記データは、ビデオのピクチャ又はイメージを含む、請求項１から４４のいずれか一項に記載の方法。

【請求項46】

前記転換は、前記データを前記ビットストリームにエンコードすることを含む、請求項１から４５のいずれか一項に記載の方法。

【請求項47】

前記転換は、前記ビットストリームから前記データをデコードすることを含む、請求項１から４５のいずれか一項に記載の方法。

【請求項48】

プロセッサと命令を備えた非一時的メモリとを含む、データを処理する装置であって、前記命令は前記プロセッサによって実行されると、前記プロセッサに請求項１から４７のいずれか一項に記載の方法を実行させる、装置。

【請求項49】

プロセッサに請求項１から４７のいずれか一項に記載の方法を実行させる命令を記憶する、非一時的なコンピュータ読み取り可能記憶媒体。

【請求項50】

データ処理装置によって実行される方法によって生成されたデータのビットストリームを記憶する非一時的なコンピュータ読み取り可能記録媒体であって、前記方法は、
前記データの再構成された潜在表現の第１のサンプルの第１部分を決定するステップであって、前記第１部分が前記第１のサンプルの予測を示すステップと、
前記第１のサンプルの第２部分を決定するステップであって、前記第２部分が前記第１のサンプルと前記第１部分との間の差を示すステップと、
前記第２部分に基づいて前記ビットストリームを生成するステップと、を含む、非一時的なコンピュータ読み取り可能記録媒体。

【請求項51】

データのビットストリームを記憶する方法であって、
前記データの再構成された潜在表現の第１のサンプルの第１部分を決定するステップであって、前記第１部分が前記第１のサンプルの予測を示すステップと、
前記第１のサンプルの第２部分を決定するステップであって、前記第２部分が前記第１のサンプルと前記第１部分との間の差を示すステップと、
前記第２部分に基づいて前記ビットストリームを生成するステップと、
前記ビットストリームを非一時的なコンピュータ読み取り可能記録媒体に記憶するステップと、を含む、方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示の実施形態は、一般的にはデータ処理技術に関し、より具体的には、ニューラルネットワークベースのデータコーディングに関する。

【背景技術】

【0002】

過去１０年間、様々な分野、特にコンピュータービジョン及びイメージ処理でディープラーニングが急速に発展してきた。ニューラルネットワークは、もともと神経科学と数学の学際的な研究で発明された。ニューラルネットワークは、非線形変換と分類の背景で強力な機能を発揮してきた。ニューラルネットワークベースのイメージ／ビデオ圧縮技術は、過去５年間で顕著な進展を遂げた。最新のニューラルネットワークベースのイメージ圧縮アルゴリズムは、ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（多用途ビデオコーディング、ＶＶＣ）に匹敵するレート歪み（Ｒ－Ｄ）パフォーマンスを実現していると報告されている。ニューラルイメージ圧縮のパフォーマンスが継続的に向上しているため、ニューラルネットワークベースのビデオ圧縮は、積極的に開発されている研究分野になっている。但し、ニューラルネットワークベースのイメージ／ビデオコーディングのコーディング効率は、一般的にさらに向上すると期待されている。

【発明の概要】

【0003】

本開示の実施形態は、データ処理のためのソリューションを提供する。

【0004】

第１の態様では、データ処理方法が提案される。前記方法は、データと前記データのビットストリームとの間の転換中に、前記データの再構成された潜在表現の第１のサンプルの第１部分を決定するステップであって、前記第１部分が前記第１のサンプルの予測を示すステップと、前記第１のサンプルの第２部分を決定するステップであって、前記第２部分が前記第１のサンプルと前記第１部分との間の差を示すステップと、前記第２部分に基づいて前記転換を実行するステップとを含む。

【0005】

本開示の第１の態様による方法によれば、再構成された潜在データサンプルが２つの部分に分割され、これにより、計算的に複雑なニューラルネットワークから順次エントロピーコーディングプロセスをデカップリング可能になる。エントロピーコーディングプロセクとニューラルネットワーク操作がインターリーブされる転換ソリューションと比較して、提案された方法は、エントロピーコーディングプロセスをニューラルネットワークから独立して実行されることを有利に可能にし、したがってコーディング効率を向上させることができる。

【0006】

第２の態様では、データを処理する装置が提案される。前記データを処理する装置は、プロセッサと、命令を備えた非一時的メモリとを含む。前記命令は、前記プロセッサによって実行されると、前記プロセッサに、本開示の第１の態様による方法を実行させる。

【0007】

第３の態様では、非一時的なコンピュータ読み取り可能記憶媒体が提案される。前記非一時的なコンピュータ読み取り可能記憶媒体は、プロセッサに本開示の第１の態様による方法を実行させる命令を記憶する。

【0008】

第４の態様では、別の非一時的なコンピュータ読み取り可能記録媒体が提案される。前記非一時的なコンピュータ読み取り可能記録媒体は、データ処理装置によって実行される方法によって生成されたデータのビットストリームを記憶する。前記方法は、前記データの再構成された潜在表現の第１のサンプルの第１部分を決定するステップであって、前記第１部分が前記第１のサンプルの予測を示すステップと、前記第１のサンプルの第２部分を決定するステップであって、前記第２部分が前記第１のサンプルと前記第１部分との間の差を示すステップと、前記第２部分に基づいて前記ビットストリームを生成するステップとを含む。

【0009】

第５の態様では、データのビットストリームを記憶する方法が提案される。前記方法は、前記データの再構成された潜在表現の第１のサンプルの第１部分を決定するステップであって、前記第１部分が前記第１のサンプルの予測を示すステップと、前記第１のサンプルの第２部分を決定するステップであって、前記第２部分が前記第１のサンプルと前記第１部分との間の差を示すステップと、前記第２部分に基づいて前記ビットストリームを生成するステップと、前記ビットストリームを非一時的なコンピュータ読み取り可能記録媒体に記憶するステップとを含む。

【0010】

この発明の内容は、詳細な説明でさらに詳しく説明する概念の選択を簡略化した形式で紹介するために提供される。この発明の内容は、請求された主題の主要な特徴又は本質的な特徴を特定することを意図するものではなく、請求された主題の範囲を制限するために使用されることも意図するものではない。

【図面の簡単な説明】

【0011】

添付の図面を参照した以下の詳細な説明により、本開示の実施形態の上記及びその他の目的、特徴、及び利点がより明らかになる。本開示の例示的な実施形態において、同じ参照番号は通常、同じ構成要素を指す。

【0012】

【図1】本開示のいくつかの実施形態による例示的なデータコーディングシステムを示すブロック図を示す。

【0013】

【図2】一般的な変換コーディングスキームを示す。

【0014】

【図3】コダック（Ｋｏｄａｋ）データセットからのイメージと、前記イメージの異なる表現を示す。

【0015】

【図4】ハイパープライアモデルを具現するオートエンコーダのネットワークアーキテクチャを示す。

【0016】

【図5】複合モデルのブロック図を示す。

【0017】

【図6】複合モデルのエンコードプロセスを示す。

【0018】

【図7】複合モデルのデコードプロセスを示す。

【0019】

【図8】デコーダネットワークの問題点を示す。

【0020】

【図9】最先端のイメージデコードアーキテクチャにおけるエントロピーコーディングサブネットワークを示す。

【0021】

【図10】本開示のいくつかの実施形態によるデコードプロセスを示す。

【0022】

【図11】本開示のいくつかの実施形態による別のデコードプロセスを示す。

【0023】

【図12】本開示のいくつかの実施形態によるエンコードプロセスを示す。

【0024】

【図13】本開示のいくつかの実施形態による別のエンコードプロセスを示す。

【0025】

【図14】本開示のいくつかの実施形態によるデータデコードプロセスの例を示す。

【0026】

【図15】本開示のいくつかの実施形態によるデータエンコードプロセスの例を示す。

【0027】

【図16】本開示のいくつかの実施形態によるデータ処理方法のフローチャートを示す。

【0028】

【図17】本開示の様々な実施形態を具現できるコンピューティングデバイスのブロック図を示す。

【0029】

図面全体を通じて、同一又は類似の参照番号は通常、同一又は類似の要素を指す。

【発明を実施するための形態】

【0030】

次に、いくつかの実施形態を参照して、本開示の原理を説明する。これらの実施形態は、説明のみを目的として記載されており、当業者が本開示を理解し具現するのを助けるものであり、本開示の範囲に関していかなる限定も示唆するものではないことは理解されるべきである。本明細書に記載の開示は、以下に記載する方法以外にも様々な方式で具現されることができる。

【0031】

以下の説明及び特許請求の範囲において、別段の定義がない限り、本明細書で使用される全ての技術用語及び科学用語は、本開示が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。

【0032】

本開示における「一つの実施形態」、「一実施形態」、「例示的な実施形態」などへの言及は、記載される実施形態が特定の特徴、構造、又は特性を含み得ることを示すが、必ずしも全ての実施形態が特定の特徴、構造、又は特性を含むとは限らない。また、そのような語句は必ずしも同じ実施形態を指しているわけではない。さらに、特定の特徴、構造、又は特性が例示的な実施形態に関連して説明される場合、明示的に記載されているか否かにかかわらず、他の実施形態に関連してそのような特徴、構造、又は特性に影響を与えることは当業者の知識の範囲内であることが指摘される。

【0033】

「第１の」及び「第２の」などの用語は、本明細書では様々な要素を説明するために使用され得るが、これらの要素はこれらの用語によって限定されるべきではないことは理解されるべきである。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、例示的な実施形態の範囲から逸脱することなく、第１の要素が第２の要素と呼ばれ得、同様に、第２の要素が第１の要素と呼ばれ得る。本明細書で使用されるように、「及び／又は」という用語には、列挙された用語の１つ又は複数のあらゆる組み合わせが含まれる。

【0034】

本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、例示的な実施形態を限定することを意図したものではない。本明細書で使用されるように、単数形「ａ（一つの）」、「ａｎ（一つの）」、及び「ｔｈｅ（その）」は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。「含む」、「備える」、「有する」、「持つ」、「含有する」及び／又は「包含する」という用語は、本明細書で使用される場合、記載された特徴、要素、及び／又は構成要素などの存在を指定するが、１つ又は複数の他の特徴、要素、構成要素及び／又はそれらの組み合わせの存在又は追加を排除するものではないことがさらに理解されるであろう。

【0035】

例示的な環境
図１は、本開示の技術を利用し得る例示的なデータコーディングシステム１００を示すブロック図である。図示されるように、データコーディングシステム１００は、ソースデバイス１１０と、宛先デバイス１２０とを含み得る。ソースデバイス１１０は、データエンコーディングデバイスとも呼ばれ得、宛先デバイス１２０は、データデコーディングデバイスとも呼ばれ得る。動作中、ソースデバイス１１０は、エンコードされたデータを生成するように構成され得、宛先デバイス１２０は、ソースデバイス１１０によって生成されたエンコードされたデータをデコードするように構成され得る。ソースデバイス１１０は、データソース１１２と、データエンコーダ１１４と、入力／出力（Ｉ／Ｏ）インターフェース１１６とを含み得る。

【0036】

データソース１１２は、データキャプチャデバイスなどのソースを含み得る。データキャプチャデバイスの例としては、データプロバイダからデータを受信するインターフェース、データを生成するためのコンピュータグラフィックスシステム、及び／又はそれらの組み合わせが含まれるが、これらに限定されない。

【0037】

データは、ビデオの１つ又は複数のピクチャ又は１つ又は複数のイメージを含み得る。データエンコーダ１１４は、データソース１１２からのデータをエンコードしてビットストリームを生成する。ビットストリームは、データのコード化表現を形成する一連のビットのシーケンスを含み得る。ビットストリームは、コード化されたピクチャと関連データとを含み得る。コード化されたピクチャは、ピクチャのコード化表現である。関連データは、シーケンスパラメータセット、ピクチャパラメータセット、及び他の構文構造を含み得る。Ｉ／Ｏインターフェース１１６は、変調器／復調器及び／又は送信機を含み得る。エンコードされたデータは、Ｉ／Ｏインターフェース１１６を介してネットワーク１３０Ａを通して宛先デバイス１２０に直接送信され得る。エンコードされたデータは、宛先デバイス１２０によるアクセスのために、記憶媒体／サーバ１３０Ｂに記憶されてもよい。

【0038】

宛先デバイス１２０は、Ｉ／Ｏインターフェース１２６と、データデコーダ１２４と、表示デバイス１２２とを含み得る。Ｉ／Ｏインターフェース１２６は、受信機及び／又はモデムを含み得る。Ｉ／Ｏインターフェース１２６は、ソースデバイス１１０又は記憶媒体／サーバ１３０Ｂからエンコードされたデータを取得し得る。データデコーダ１２４は、エンコードされたデータをデコードし得る。表示デバイス１２２は、デコードされたデータをユーザに表示し得る。表示デバイス１２２は、宛先デバイス１２０と統合される場合もあれば、外部表示デバイスとインターフェースするように構成された宛先デバイス１２０の外部にある場合もある。

【0039】

データエンコーダ１１４及びデータデコーダ１２４は、ビデオコーディング規格又は静止ピクチャコーディング規格、及びその他の現在の規格及び／又はさらなる規格などのデータコーディング規格に従って動作し得る。

【0040】

本開示のいくつかの例示的な実施形態を、以下で詳細に説明する。本明細書では、理解を容易にするためにセクション見出しが使用されているが、セクションに開示されている実施形態をそのセクションのみに限定するものではないことは理解されるべきである。さらに、特定の実施形態は、多用途ビデオコーディング又は他の特定のデータコーデックを参照して説明されているが、開示されている技術は、他のコーディング技術にも適用可能である。さらに、いくつかの実施形態ではコーディングステップを詳細に説明しているが、コーディングを元に戻す対応するステップのデコードは、デコーダによって具現され得ることが理解されるであろう。さらに、データ処理という用語は、データコーディング又は圧縮、データデコード又は解凍、及びデータが１つの圧縮フォーマットから別の圧縮フォーマット又は異なる圧縮ビットレートで表現されるデータトランスコーディングを包含する。

［１．概要］
自己回帰サブネットワークとエントロピーコーディングエンジとを含むニューラルネットワークベースのイメージ及びビデオ圧縮方法であって、エントロピーコーディングは、自己回帰サブネットワークとは独立して実行される。

［２．背景］
過去１０年間、様々な分野、特にコンピュータービジョン及びイメージ処理でディープラーニングが急速に発展してきた。コンピュータービジョン分野でのディープラーニング技術の大きな成功に触発され、多くの研究者が従来のイメージ／ビデオ圧縮技術からニューラルイメージ／ビデオ圧縮技術に注目を移した。ニューラルネットワークは、もともと神経科学と数学の学際的な研究で発明された。ニューラルネットワークは、非線形変換と分類の背景で強力な機能を発揮してきた。ニューラルネットワークベースのイメージ／ビデオ圧縮技術は、過去５年間で顕著な進展を遂げた。最新のニューラルネットワークベースのイメージ圧縮アルゴリズムは、ＭＰＥＧ及びＶＣＥＧの専門家とＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔｓＴｅａｍ（共同ビデオ専門家チーム、ＪＶＥＴ）が開発した最新のビデオコーディング標準であるＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（ＶＶＣ）に匹敵するＲ－Ｄパフォーマンスを実現していると報告されている。ニューラルイメージ圧縮のパフォーマンスが継続的に向上しているため、ニューラルネットワークベースのビデオ圧縮は、積極的に開発されている研究分野になっている。但し、問題の特有の難しさが原因で、ニューラルネットワークベースのビデオコーディングはまだ初期段階にある。

［２．１．イメージ／ビデオ圧縮］
イメージ／ビデオ圧縮とは、通常、イメージ／ビデオをバイナリコードに圧縮して保存と転送を容易にするコンピューティング技術を指す。バイナリコードは、元のイメージ／ビデオをロスレスに再構成することをサポートする場合もあれば、サポートしていない場合もあり、ロスレス圧縮及びロッシー圧縮と呼ばれる。ロスレス再構成はほとんどのシナリオで必要ないため、ほとんどの取り組みがロッシー圧縮に向けられている。通常、イメージ／ビデオ圧縮アルゴリズムのパフォーマンスは、２つの側面、即ち、圧縮率と再構成品質から評価される。圧縮率はバイナリコードの数に直接関係しており、少ないほど優れている。再構成品質は、再構成されたイメージ／ビデオと元のイメージ／ビデオを比較して測定され、高いほど優れている。
イメージ／ビデオ圧縮技術は、従来のビデオコーディング方法とニューラルネットワークベースのビデオ圧縮方法の２枝に分かれる。従来のビデオコーディング方式では、変換ベースのソリューションが採用されており、このソリューションでは、研究者は、量子化領域での依存関係をモデリングするエントロピーコードを慎重に手動エンジニアリングすることにより、潜在変数（例：ＤＣＴ又はウェーブレット係数）における統計的依存関係を利用している。ニューラルネットワークベースのビデオ圧縮には、ニューラルネットワークベースのコーディングツールとエンドツーエンドのニューラルネットワークベースのビデオ圧縮の２種類がある。前者は、コーディングツールとして既存の従来のビデオコーデックに組み込まれ、フレームワークの一部としてのみ機能するが、後者は、従来のビデオコーデックに依存せずにニューラルネットワークに基づいて開発された別のフレームワークである。
過去３０年間で、増加するビジュアルコンテンツに収容するために、一連の従来のビデオコーディング規格が開発されてきた。国際標準化組織ＩＳＯ／ＩＥＣには、ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ（ジョイント・フォトグラフィック・エキスパーツ・グループ、ＪＰＥＧ）と、ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ムービング・ピクチャー・エクスパーツ・グループ、ＭＰＥＧ）という２つの専門家グループがあり、ＩＴＵ－Ｔにも、イメージ／ビデオコーディング技術の標準化を目的とした独自のＶｉｄｅｏＣｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐ（ビデオコーディング専門家グループ、ＶＣＥＧ）がある。これらの組織によって公開された影響力のあるビデオコーディング規格には、ＪＰＥＧ、ＪＰＥＧ２０００、Ｈ．２６２、Ｈ．２６４／ＡＶＣ、Ｈ．２６５／ＨＥＶＣが含まれる。Ｈ．２６５／ＨＥＶＣの後、ＭＰＥＧとＶＣＥＧによって結成されたＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔｓＴｅａｍ（共同ビデオ専門家チーム、ＪＶＥＴ）は、新しいビデオコーディング規格ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（多用途ビデオコーディング、ＶＶＣ）に取り組んできた。ＶＶＣの最初のバージョンは２０２０年７月にリリースされた。ＶＶＣでは、ＨＥＶＣと比較して、同じ視覚品質で平均５０％のビットレート削減が報告されている。
ニューラルネットワークベースのイメージ／ビデオ圧縮は、ニューラルネットワークベースのイメージコーディングに取り組んでいる研究者が多数いたため、新しい発明ではない。しかし、ネットワークアーキテクチャは比較的浅く、パフォーマンスは満足できるものではなかった。豊富なデータと強力なコンピューティングリソースのサポートにより、ニューラルネットワークベースの方法は、様々なアプリケーションでより良く活用されている。現在、ニューラルネットワークベースのイメージ／ビデオ圧縮は有望な改善を示し、その実現可能性が確認された。ただし、この技術はまだ成熟にはほど遠く、多くのチャレンジに対処する必要がある。

［２．２ニューラルネットワーク］
ニューラルネットワークは、人工ニューラルネットワーク（ＡＮＮ）とも呼ばれ、通常、複数の処理層で構成され、各層が複数の単純だが非線形の基本計算ユニットで構成される、機械学習技術で使用される計算モデルである。このようなディープネットワークの利点の１つは、複数の抽象化レベルでデータを処理し、データをいろいろな種類の表現に転換する能力であると考えられていることである。これらの表現は手動で設計されるのではなく、処理層を含むディープネットワークは、一般的な機械学習手順を使用して大量のデータから学習されることに注意されたい。ディープラーニングでは、手動で作成された表現が不要になるため、音響及び視覚信号などのネイティブに構造化されていないデータの処理に特に役立つと見なされている一方、そのようなデータの処理は人工知能分野における長年の困難となっている。

［２．３イメージ圧縮のためのニューラルネットワーク］
イメージ圧縮方法に使用される既存のニューラルネットワークは、ピクセル確率モデリングとオートエンコーダの２つのカテゴリに分類され得る。前者は予測コーディング戦略に属し、後者は変換ベースのソリューションである。文献では、これら２つの方法が組み合わされている場合がある。

［２．３．１ピクセル確率モデリング］
シャノンの情報理論［６］によれば、ロスレスコーディングの最適な方法は、最小コーディング率－ｌｏｇ_２ｐ（ｘ）に到達でき、ここで、ｐ（ｘ）はシンボルｘの確率である。文献では多数のロスレスコーディング方法が開発されており、その中で算術コーディングは最適な方法の１つであると考えられている。確率分布ｐ（ｘ）が与えられると、算術コーディングは、丸め誤差を考慮せずに、コーディング率が理論上の限界－ｌｏｇ_２ｐ（ｘ）に可能な限り近くなることを保証する。したがって、残る問題は確率を如何にして決定するかであるが、これは次元の呪いのため、自然イメージ／ビデオでは非常に挑戦的である。
予測コーディング戦略に従って、ｐ（ｘ）をモデル化する１つの方法は、以前の観測に基づいてラスタースキャン順にピクセル確率を１つずつ予測することであり、ここで、ｘはイメージである。

【数1】

ここで、ｍとｎは、それぞれイメージの高さと幅である。前の観測は、現在のピクセルのコンテキストとも呼ばれる。イメージが大きい場合、条件付き確率を推定することが難しい場合があり、そのため、簡略化された方法は、そのコンテキストの範囲を制限することである。

【数2】

ここで、ｋはコンテキストの範囲を制御する事前定義された定数である。
条件では、他の色成分のサンプル値も考慮され得ることに注意すべきである。例えば、ＲＧＢ色成分をコード化する場合、Ｒサンプルは以前にコード化されたピクセル（Ｒ／Ｇ／Ｂサンプルを含む）に依存し、現在のＧサンプルは以前にコード化されたピクセルと現在のＲサンプルに従ってコード化され得るが、現在のＢサンプルをコード化する場合は、以前にコード化されたピクセルと現在のＲ及びＧサンプルも考慮され得る。
ニューラルネットワークはもともとコンピュータービジョンタスクのために導入され、回帰問題及び分類問題に効果的であることが証明されている。したがって、コンテキストｘ_１，ｘ_２，．．．ｘ_ｉ－１が与えられた場合のｐ（ｘ_ｉ）の確率を、ニューラルネットワークを使用して推定することが提案されている。既存の設計では、バイナリイメージ、つまりｘ_ｉ∈｛-１、+１｝に対してピクセル確率が提案されている。ニューラル自己回帰分布推定器（ＮＡＤＥ）は、ピクセル確率モデリング用に設計されており、単一の隠れ層を持つフィードフォワードネットワークがある。同様の作業が別の既存の設計で提示されており、フィードフォワードネットワークには隠れ層をスキップする接続もあり、パラメータも共有されている。実験はバイナリ化されたＭＮＩＳＴデータセットで実行される。既存の設計では、ＮＡＤＥは実数値モデルＲＮＡＤＥに拡張され、確率ｐ（ｘ_ｉ｜ｘ_１，．．．ｘ_ｉ－１）がガウス分布の混合で導出される。そのフィードフォワードネットワークにも単一の隠れ層があるが、この隠れ層は飽和を避けるために再スケーリングされ、シグモイドの代わりに正規化線形関数（ＲｅＬＵ）を使用する。既存の設計では、ピクセルの順序を再編成し、より深いニューラルネットワークを使用することでＮＡＤＥとＲＮＡＤＥが改善されている。
進んだニューラルネットワークの設計は、ピクセル確率モデリングの改善に重要な役割を果たす。既存の設計では、確率モデリングのための条件付きガウススケール混合の混合と連携する多次元長短期記憶（ＬＳＴＭ）が提案されている。ＬＳＴＭは特殊な種類の再帰型ニューラルネットワーク（ＲＮＮ）であり、シーケンシャルデータのモデリングが得意であることが証明されている。ＬＳＴＭの空間バリアントは、既存の設計の後でイメージに使用される。ＲＮＮとＣＮＮ、つまりそれぞれＰｉｘｅｌＲＮＮとＰｉｘｅｌＣＮＮを含む、いくつかの異なるニューラルネットワークが研究されている。ＰｉｘｅｌＲＮＮでは、行ＬＳＴＭと対角ＢｉＬＳＴＭと呼ばれるＬＳＴＭの２つのバリアントが提案されており、後者はイメージ用に特別に設計されている。ＰｉｘｅｌＲＮＮには残差接続が組み込まれて、最大１２層のディープニューラルネットワークのトレーニングに役立つ。ＰｉｘｅｌＣＮＮでは、コンテキストの形状に合わせてマスクされた畳み込みが使用される。以前の研究と比較すると、ＰｉｘｅｌＲＮＮとＰｉｘｅｌＣＮＮはより自然的イメージに特化している。即ち、それらは、ピクセルを離散値（例：０、１、…、２５５）と見なし、離散値に対して多項分布を予測する。それらは、ＲＧＢ色空間でカラーイメージを扱い、大規模イメージデータセットＩｍａｇｅＮｅｔでうまく機能する。既存の設計では、ＧａｔｅｄＰｉｘｅｌＣＮＮが、ＰｉｘｅｌＣＮＮを改善するために提案されており、ＰｉｘｅｌＲＮＮに匹敵するパフォーマンスを実現するが、複雑さははるかに少ない。既存の設計では、ＰｉｘｅｌＣＮＮに対する次の改善を加えたＰｉｘｅｌＣＮＮ＋＋が提案されている。即ち、２５６方向多項分布ではなく離散ロジスティック混合尤度を使用する。ダウンサンプリングが、複数の解像度で構造をキャプチャするために使用される。追加のショートカット接続が、トレーニングを高速化するために導入される。ドロップアウトが、正規化に採用される。ＲＧＢが１つのピクセルに結合される。既存の設計では、カジュアル畳み込みと自己注意を組み合わせたＰｉｘｅｌＳＮＡＩＬが提案されている。
上記の方法のほとんどは、ピクセル領域における確率分布を直接モデル化する。一部の研究者は、明示的又は潜在表現に基づいて、確率分布を条件付きのものとしてモデル化しようと試みる。それはそれとして、次のように推定される。

【数3】

ここで、ｈは追加条件であり、ｐ（ｘ）＝ｐ（ｈ）ｐ（ｘ｜ｈ）は、モデリングが無条件のものと条件付きのものに分割されることを意味する。追加条件は、イメージラベル情報又は高レベル表現にすることができる。

［２．３．２オートエンコーダ］
オートエンコーダは、既存の設計で提案されたよく知られた作業に由来している。この方法は次元削減のためにトレーニングされており、エンコードとデコードの２つの部分で構成される。エンコード部分は、高次元の入力信号を低次元表現に転換し、通常、空間サイズが縮小されるが、チャネル数は多くなる。デコード部分は、低次元表現から高次元入力を復元することを試みる。オートエンコーダは、表現の自動学習を可能にし、手作業で作成された特徴の必要性を排除するが、これは、ニューラルネットワークの最も重要な利点の１つであると考えられている。
図２は、一般的な変換コーディングスキームを示している。元のイメージｘは、分析ネットワークｇ_ａによって変換されて、潜在表現ｙが実現される。潜在表現ｙは量子化され、ビットに圧縮される。ビット数Ｒを使用してコーディングレートを測定する。次に、量子化潜在表現
（外１）

（以下「ｙ＾」等とも表す。）は、合成ネットワークｇ_ｓによって逆変換されて、再構成されたイメージｘ＾が得られる。歪みは、関数ｇ_ｐ使用してｘとｘ＾を変換することによって知覚空間で計算される。
オートエンコーダネットワークをロッシーイメージ圧縮に適用するのは直感的である。十分にトレーニングされたニューラルネットワークから学習した潜在表現のみをエンコードする必要がある。ただし、元のオートエンコーダは圧縮用に最適化されていないため、トレーニング済みのオートエンコーダを直接使用しても効率的ではないため、オートエンコーダをイメージ圧縮に適応させることは些細ではない。その上、他の大きなチャレンジも存在する。１つ目に、低次元表現はエンコードする前に量子化されるべきであるが、量子化は微分可能ではなく、ニューラルネットワークをトレーニングする際のバックプロパゲーションで必要である。２つ目に、歪みとレートの両方を考慮する必要があるため、圧縮シナリオでの目的が異なる。レートの推定は挑戦的である。３つ目に、実用的なイメージコーディング方式は、可変レート、スケーラビリティ、エンコード／デコード速度、相互運用性をサポートする必要がある。これらのチャレンジに対応して、多くの研究者がこの分野に積極的に貢献している。
イメージ圧縮用のプロトタイプのオートエンコーダは図２に示されており、これは「変換コーディング」戦略と見なすことができる。元のイメージｘは「分析」ネットワークｙ＝ｇ_ａ（ｘ）で変換され、ここで、ｙは量子化されコード化される潜在表現である。合成ネットワークは量子化潜在表現ｙ＾を逆変換して、再構成されたイメージｘ＾＝ｇ_ｓ（ｙ＾）を取得する。フレームワークは、レート歪み損失関数、つまり
（外２）

を使用してトレーニングされ、ここで、Ｄはｘとｘ＾の間の歪み、Ｒは量子化された表現ｙ＾から計算又は推定されたレート、λはラグランジュ乗数である。Ｄはピクセル領域でも知覚領域でも計算され得ることに注意すべきである。既存の研究は全てこのプロトタイプに従っており、違いはネットワーク構造又は損失関数だけであり得る。
ネットワーク構造の点では、ＲＮＮとＣＮＮが最も広く使用されているアーキテクチャである。ＲＮＮ関連カテゴリでは、ＴｏｄｅｒｉｃｉらがＲＮＮを使用した可変レートイメージ圧縮について一般的なフレームワークを提案している。彼らはバイナリ量子化を使用してコードを生成し、トレーニング中にレートを考慮しない。このフレームワークは確かにスケーラブルなコーディング機能を提供し、畳み込み層と逆畳み込み層を備えたＲＮＮはきちんと機能すると報告されている。Ｔｏｄｅｒｉｃｉらは次に、バイナリコードを圧縮するために、ＰｉｘｅｌＲＮＮに似たニューラルネットワークを使用してエンコーダをアップグレードすることにより、改良版を提案した。このパフォーマンスは、ＭＳ－ＳＳＩＭ評価メトリックを使用したコダック（Ｋｏｄａｋ）イメージデータセットでＪＰＥＧよりも優れていると報告されている。Ｊｏｈｎｓｔｏｎらは、隠れ状態プライミングを導入することで、ＲＮＮベースのソリューションをさらに改良した。その上、ＳＳＩＭ加重損失関数も設計され、空間的に適応的なビットレートメカニズムが有効になっている。彼らは、評価メトリックとしてＭＳ－ＳＳＩＭを使用して、コダック（Ｋｏｄａｋ）イメージデータセットでＢＰＧよりも優れた結果を達成している。Ｃｏｖｅｌｌらは、ストップコードトレラントＲＮＮをトレーニングすることで空間適応型ビットレートをサポートする。
（外３）

（以下、「Ｂａｌｌｅ」とも表す。）らは、レート歪み最適化されたイメージ圧縮の一般的なフレームワークを提案している。多値量子化を使用して整数コードを生成し、トレーニング中にレートを考慮し、即ち、損失は、ＭＳＥ又は他の値になり得る共同レート歪みコストである。彼らは、トレーニング中に量子化を刺激するためにランダムな均一ノイズを追加し、ノイジーコードの微分エントロピーをレートのプロキシとして使用する。彼らは、ネットワーク構造として、後に非線形パラメトリック正規化が続く線形マッピングで構成される一般化除算正規化（ＧＤＮ）を使用する。イメージコーディングにおけるＧＤＮの有効性は、既存の設計で検証されている。次に、Ｂａｌｌｅらは、それぞれの後にダウンサンプリング層が続く３つの畳み込み層、及びを順方向変換としてのＧＤＮ層を使用する改良版を提案してる。したがって、彼らは、それぞれの後にアップサンプリング層と畳み込み層が続く３つの層の逆ＧＤＮを使用して逆変換を刺激している。追加的に、整数コードを圧縮するための算術コーディング方法が考案されている。報告によると、このパフォーマンスは、コダック（Ｋｏｄａｋ）データセットでＭＳＥに関してＪＰＥＧ及びＪＰＥＧ２０００よりも優れている。さらに、Ｂａｌｌｅらは、オートエンコーダにスケールハイパープライアを考案することでこの方法を改良している。彼らは、サブネットｈ_ａ使用して潜在表現ｙをｚ＝ｈ_ａ（ｙ）に変換し、ｚは量子化されてサイド情報として送信される。したがって、逆変換は、量子化されたサイド情報ｚ＾から量子化されたｙ＾の標準偏差にデコードしようとするサブネットｈ_ｓ使用して具現されるが、これはｙ＾の算術コーディング中にさらに使用される。コダック（Ｋｏｄａｋ）イメージセットでは、彼らの方法はＰＳＮＲに関してＢＰＧよりもわずかに劣っている。Ｄ．Ｍｉｎｎｅｎらは、自己回帰モデルを導入して残差空間における構造をさらに活用して、標準偏差と平均の両方を推定している。既存の設計では、Ｚ．Ｃｈｅｎｇらはガウス混合モデルを使用して残差の冗長性をさらに排除している。報告されたパフォーマンスは、ＰＳＮＲを評価基準として使用したコダック（Ｋｏｄａｋ）イメージセットのＶＶＣと比肩する。

［２．３．３ハイパープライアモデル］
イメージ圧縮の変換コーディング手法では、エンコーダサブネットワーク（セクション２．３．２）が、パラメトリック分析変換ｇ_ａ（ｘ，Φ_ｇ）を使用して、イメージベクトルｘを潜在表現ｙに変換し、次に、これが量子化されてｙ＾を形成する。ｙ＾は離散値であるため、算術コーディングなどのエントロピーコーディング手法を使用してロスレス圧縮され、ビットシーケンスとして送信され得る。
図３の中央左と中央右のイメージから明らかなように、ｙ＾の要素間には著しい空間依存性がある。特に、それらのスケール（中央右のイメージ）は空間的に結合されているように見える。既存の設計では、空間依存性を捕捉し、冗長性をさらに削減するために、追加のランダム変数セットｚ＾が導入されている。この場合、イメージ圧縮ネットワークは図４に示されている。
図４では、モデルの左側はエンコーダｇ_ａとデコーダｇ_ｓ（セクション２．３．２で説明）である。右側は、ｚ＾を取得するために使用される追加のハイパーエンコーダｈ_ａとハイパーデコーダｈ_ｓネットワークである。このアーキテクチャでは、エンコーダは入力イメージｘをｇ_ａに適用し、空間的に変化する標準偏差を持つ応答ｙを生成する。応答ｙはｈ_ａに入力され、ｚの標準偏差の分布を要約する。次に、ｚは量子化（ｚ＾）され、圧縮され、サイド情報として送信される。次に、エンコーダは量子化されたベクトルｚ＾を使用して標準偏差の空間分布σを推定し、それを使用して、量子化されたイメージ表現ｙ＾を圧縮して送信する。デコーダは、最初に圧縮された信号からｚ＾を復元する。次に、ｈ_ｓを使用してσを取得し、これにより、ｙ＾も正常に復元する正しい確率推定が提供される。次に、ｙ＾をｇ_ｓに入力して、再構成されたイメージを取得する。
ハイパーエンコーダとハイパーデコーダをイメージ圧縮ネットワークに追加すると、量子化潜在ｙ＾の空間冗長性が削減される。図３の右端のイメージは、ハイパーエンコーダ／デコーダを使用した場合の量子化潜在に対応してする。中央右のイメージと比較すると、量子化潜在のサンプルの相関が低いため、空間冗長性が大幅に削減されている。
図３は、コダック（Ｋｏｄａｋ）データセットからのイメージと、前記イメージの異なる表現を示している。図３の左端のイメージは、コダック（Ｋｏｄａｋ）データセットからのイメージを示している。図３の中央左のイメージは、そのイメージの潜在表現ｙの視覚化を示している。図３の中央右のイメージは、潜在の標準偏差σを示している。図３の右端のイメージは、ハイパープライア（ハイパーエンコーダとデコーダ）ネットワークが導入された後の潜在ｙを示している。
図４は、ハイパープライアモデルを具現するオートエンコーダのネットワークアーキテクチャを示している。左側はイメージオートエンコーダネットワークを示し、右側はハイパープライアサブネットワークに対応する。分析変換及び合成変換は、ｇ_ａとｇ_ａで表記される。Ｑは量子化を表し、ＡＥ、ＡＤはそれぞれ算術エンコーダと算術デコーダを表す。ハイパープライアモデルは、ハイパーエンコーダ（ｈ_ａで表記）と、ハイパーデコーダ（ｈ_ｓで表記）の２つのサブネットワークで構成される。ハイパープライアモデルは、量子化潜在ｙ＾のサンプルの確率分布に関する情報を含む量子化ハイパー潜在(ｚ＾)を生成する。ｚ＾はビットストリームに含まれ、ｙ＾とともに受信機（デコーダ）に送信される。

［２．３．４コンテクストモデル］
ハイパープライアモデルは量子化潜在ｙ＾の確率分布のモデリングを改善するが、その因果コンテキストから量子化潜在を予測する自己回帰モデル（コンテクストモデル）を利用することで、さらなる改善が得られる。
自己回帰という用語は、プロセスの出力が後でそのプロセスへの入力として使用されることを意味する。例えば、コンテクストモデルサブネットワークは潜在の１つのサンプルを生成し、これは後で次のサンプルを取得するための入力として使用される。
既存の設計では、ハイパープライアモデルサブネットワーク（ハイパーエンコーダとハイパーデコーダ）とコンテクストモデルサブネットワークの両方が利用されるジョイントアーキテクチャが使用されている。ハイパープライアとコンテクストモデルを組み合わせて、量子化潜在ｙ＾の確率モデルを学習し、次にエントロピーコーディングに使用される。図５に示すように、コンテキストサブネットワークとハイパーデコーダサブネットワークの出力は、エントロピーパラメータ（ＥｎｔｒｏｐｙＰａｒａｍｅｔｅｒ）と呼ばれるサブネットワークによって組み合わされ、ガウス確率モデルの平均μとスケール（又は分散）σパラメータを生成する。次に、ガウス確率モデルを使用して、算術エンコーダ（ＡＥ）モジュールの助けを借りて、量子化潜在のサンプルをビットストリームにエンコードする。デコーダでは、算術デコーダ（ＡＤ）モジュールによって、ガウス確率モデルを使用してビットストリームから量子化潜在ｙ＾を取得する。
図５は、複合モデルのブロック図を示す。複合モデルは、潜在の確率分布をその因果コンテキスト（コンテクストモデル）から推定する自己回帰コンポーネントを、ハイパープライア及び根底にあるオートエンコーダを共同で最適化する。実数値の潜在表現は量子化（Ｑ）されて量子化潜在（ｙ＾）及び量子化ハイパー潜在（ｚ＾）が作成され、これらは算術エンコーダ（ＡＥ）を使用してビットストリームに圧縮され、算術デコーダ（ＡＤ）によって解凍される。強調表示された領域は、圧縮されたビットストリームからイメージを復元するために受信機（つまり、デコーダ）によって実行されるコンポーネントに対応する。
通常、潜在サンプルはガウス分布又はガウス混合モデル（これらに限定されない）としてモデル化される。既存の設計では、図５に従って、コンテクストモデルとハイパープライアを共同で使用して、潜在サンプルの確率分布を推定する。ガウス分布は平均と分散（シグマ又はスケールとも呼ばれる）で定義できるため、ジョイントモデルを使用して平均と分散（μとσで表記）を推定する。

［２．３．５共同自己回帰ハイパープライアモデルを使用したエンコードプロセス］
図５は、最先端の圧縮方法に対応している。このセクションと次のセクションでは、エンコード及びデコードプロセスを別々に説明する。
図６は、エンコードプロセスを示している。入力イメージは、最初にエンコーダサブネットワークで処理される。エンコーダは、入力イメージを潜在と呼ばれ、ｙで表記される変換された表現に変換する。次に、ｙは量子化ブロック（Ｑで表記）に入力されて、量子化潜在（ｙ＾）が得られる。次に、ｙ＾は算術エンコードモジュール（ＡＥで表記）を使用してビットストリーム（ｂｉｔｓ１）に転換される。算術エンコードブロックは、ｙ＾の各サンプルを順番に１つずつビットストリーム（ｂｉｔｓ１）に転換する。
ハイパーエンコーダ、コンテキスト、ハイパーデコーダ、及びエントロピーパラメータサブネットワークモジュールが、量子化潜在ｙ＾のサンプルの確率分布を推定するために使用される。潜在ｙは、ハイパー潜在（ｚで表記）を出力するハイパーエンコーダに入力される。次にハイパー潜在は量子化され（ｚ＾）、算術エンコード（ＡＥ）モジュールを使用して２番目のビットストリーム（ｂｉｔｓ２）が生成される。分解されたエントロピーモジュールは、量子化されたハイパー潜在をビットストリームにエンコードするために使用される確率分布を生成する。量子化されたハイパー潜在には、量子化潜在（ｙ＾）の確率分布に関する情報が含まれる。
エントロピーパラメータサブネットワークは、量子化潜在ｙ＾をエンコードするために使用される確率分布推定を生成する。エントロピーパラメータによって生成される情報には通常、平均μとスケール（又は分散）σパラメータが含まれ、これらはガウス確率分布を取得するために一緒に使用される。ランダム変数ｘのガウス分布は、
（外４）

として定義され、ここで、パラメータμは分布の平均値又は期待値（及びその中央値と最頻値）であり、パラメータσはその標準偏差（又は分散、又はスケール）である。ガウス分布を定義するには、平均と分散を決定する必要がある。既存の設計では、エントロピーパラメータモジュールを使用して平均値と分散値を推定する。
サブネットワークハイパーデコーダは、エントロピーパラメータサブネットワークによって使用される情報の一部を生成し、情報の他の部分はコンテキストモジュールと呼ばれる自己回帰モジュールによって生成される。コンテキストモジュールは、算術符号化（ＡＥ）モジュールによって既にエンコードされているサンプルを使用して、量子化潜在のサンプルの確率分布に関する情報を生成する。量子化潜在ｙ＾は、通常、多くのサンプルで構成される行列である。サンプルは、行列ｙ＾の次元に応じて、ｙ＾［ｉ，ｊ，ｋ］又はｙ＾［ｉ，ｊ］などのインデックスを使用して示すことができる。サンプルｙ＾［ｉ，ｊ］は、通常、ラスタースキャン順序を使用してＡＥによって１つずつエンコードされる。ラスタースキャン順序では、行列の行は上から下に処理され、行内のサンプルは左から右に処理される。このようなシナリオ（ＡＥがラスタースキャン順序を使用してサンプルをビットストリームにエンコードする）では、コンテキストモジュールは、以前にエンコードされたサンプルを使用して、ラスタースキャン順序でサンプルｙ＾［ｉ，ｊ］に関する情報を生成する。コンテキストモジュールとハイパーデコーダによって生成された情報は、エントロピーパラメータモジュールによって組み合わされて、量子化潜在ｙ＾をビットストリーム（ｂｉｔｓ１）にエンコードするために使用される確率分布を生成する。
最後に、エンコードプロセスの結果として、最初のビットストリームと２番目のビットストリームがデコーダに送信される。
上記のモジュールには、他の名前も使用され得ることに注意されたい。
上記の説明では、図６の全ての要素を総称してエンコーダと呼ぶ。入力イメージを潜在表現に転換する分析変換もエンコーダ（又はオートエンコーダ）と呼ばれる。

［２．３．６共同自己回帰ハイパープライアモデルを使用したデコードプロセス］
図７は、デコードプロセスを個別に示している。デコードプロセスでは、デコーダはまず、対応するエンコーダによって生成された最初のビットストリーム（ｂｉｔｓ１）と２番目のビットストリーム（ｂｉｔｓ２）を受け取る。ｂｉｔｓ２は、分解エントロピーサブネットワークによって生成された確率分布を利用して、算術デコード（ＡＤ）モジュールによって最初にデコードされる。分解エントロピーモジュールは通常、所定のテンプレートを使用して、例えば、ガウス分布の場合は所定の平均値と分散値を使用して、確率分布を生成する。ｂｉｔｓ２の算術デコードプロセスの出力は、量子化されたハイパー潜在であるｚ＾である。ＡＤプロセスは、エンコーダで適用されたＡＥプロセスに戻る。ＡＥとＡＤのプロセスはロスレスであり、エンコーダによって生成された量子化されたハイパー潜在ｚ＾が変更せずにデコーダで再構成できるということを意味する。
ｚ＾を取得した後、ハイパーデコーダによって処理され、その出力はエントロピーパラメータモジュールに送られる。デコーダで使用される３つのサブネットワーク、コンテキスト、ハイパーデコーダ、及びエントロピーパラメータは、エンコーダのものと同一である。したがって、デコーダでは（エンコーダと同様に）まったく同じ確率分布を取得でき、これは、量子化潜在ｙ＾を損失なく再構成するために不可欠である。その結果、エンコーダ取得された量子化潜在ｙ＾の同一バージョンをデコーダで取得できる。
確率分布（例：平均及び分散パラメータ）がエントロピーパラメータサブネットワークによって取得された後、算術復号化モジュールはビットストリームｂｉｔｓ１から量子化潜在のサンプルを１つずつデコードする。実用的な観点からは、自己回帰モデル（コンテクストモデル）は本質的にシリアルであるため、並列化などの技術を使用して高速化することはできない。
最後に、完全に再構成された量子化潜在ｙ＾は、再構成イメージを取得するために合成変換（図７ではデコーダとして表記）モジュールに入力される。
上記の説明では、図７のすべての要素を総称してデコーダと呼ぶ。量子化潜在を再構成イメージに転換する合成変換もデコーダ（又はオートデコーダ）と呼ばれる。

［２．４ビデオ圧縮のためのニューラルネットワーク］
従来のビデオコーディング技術と同様に、ニューラルイメージ圧縮はニューラルネットワークベースのビデオ圧縮におけるイントラ圧縮の基礎として機能するため、ニューラルネットワークベースのビデオ圧縮技術の開発はニューラルネットワークベースのイメージ圧縮よりも遅れているが、その複雑さのためにチャレンジを解決するにははるかに多くの努力が必要である。２０１７年から、数人の研究者がニューラルネットワークベースのビデオ圧縮方式に取り組んでいる。イメージ圧縮と比較して、ビデオ圧縮ではピクチャ間の冗長性を除去するための効率的な方法が必要である。したがって、ピクチャ間予測はこれらの作業の重要なステップである。動きの推定及び補正は広く採用されているが、最近までトレーニングされたニューラルネットワークによって具現されていない。
ニューラルネットワークベースのビデオ圧縮に関する研究は、ターゲットとされたシナリオに応じて、ランダムアクセスと、低遅延の２つのカテゴリに分けられる。ランダムアクセスの場合、シーケンスの任意のポイントからデコードを開始できる必要があり、通常はシーケンス全体を複数の個別のセグメントに分割し、各セグメントを個別にデコードできる。低遅延の場合、デコード時間の短縮を目的としており、通常は単に時間的に前のフレームを参照フレームとして使用して、後続のフレームをデコードする。

［２．４．１低遅延］
Ｃｈｅｎらは、トレーニングされたニューラルネットワークによるビデオ圧縮スキームを初めて提案した。彼らはまず、ビデオシーケンスフレームをブロックに分割し、各ブロックは、イントラコーディング又はインターコーディングの２つの利用可能なモードから１つを選択する。イントラコーディングを選択した場合は、ブロックを圧縮するための関連付けられたオートエンコーダがある。インターコーディングを選択した場合は、従来の方法で動き推定及び補正が実行され、トレーニングされたニューラルネットワークが残差圧縮に使用される。オートエンコーダの出力は、ハフマン（Ｈｕｆｆｍａｎ）法によって直接量子化及びコード化される。
Ｃｈｅｎらは、ＰｉｘｅｌＭｏｔｉｏｎＣＮＮによる別のニューラルネットワークベースのビデオコーディングスキームを提案している。フレームは時間順に圧縮され、各フレームは、ラスタースキャン順に圧縮されるブロックに分割される。各フレームは、まず先行する２つの再構成されたフレームで外挿される。ブロックが圧縮される場合、外挿されたフレームは、現在のブロックのコンテキストとともにＰｉｘｅｌＭｏｔｉｏｎＣＮＮに入力されて、潜在表現を導出する。次に、残差が可変レートイメージスキームによって圧縮される。このスキームは、Ｈ．２６４と比肩するパフォーマンスを発揮する。
Ｌｕらは、全てのモジュールがニューラルネットワークで具現される、本当の意味でのエンドツーエンドのニューラルネットワークベースのビデオ圧縮フレームワークを提案している。このスキームでは、現在のフレームと以前の再構成フレームを入力として受け入れ、動き情報として事前トレーニング済みのニューラルネットワークを使用してオプティカルフローを導出する。動き情報は参照フレームを使用してワープされ、その後、ニューラルネットワークによって動き補正フレームが生成される。残差と動き情報は、２つの別々のニューラルオートエンコーダで圧縮される。フレームワーク全体は、単一のレート歪み損失関数でトレーニングされる。Ｈ．２６４よりも優れたパフォーマンスを実現する。
Ｒｉｐｐｅｌらは、進んだニューラルネットワークベースのビデオ圧縮方式を提案しているす。これは、ニューラルネットワークを使用して従来のビデオコーディングスキームを継承及び拡張したもので、次の主な機能を備えている。１）１つのオートエンコーダのみを使用して動き情報と残差を圧縮する。２）複数のフレームと複数のオプティカルフローによる動き補正。３）オンライン状態を学習し、時間の経過とともに次のフレームに伝播する。このスキームは、ＭＳ－ＳＳＩＭでＨＥＶＣ参照ソフトウェアよりも優れたパフォーマンスを実現する。
Ｊ．Ｌｉｎらは、拡張されたエンドツーエンドのニューラルネットワークベースのビデオ圧縮フレームワークを提案している。このソリューションでは、複数のフレームが参照として使用される。これにより、複数の参照フレーム及び関連する動き情報を使用して、現在のフレームのより正確な予測を提供できる。その上、動きフィールド予測が展開されて、時間的チャネルに沿った動き冗長性を除去する。この作業では、以前のプロセスからの再構成アーティファクトを除去するために、後処理ネットワークも導入されている。パフォーマンスは、ＰＳＮＲとＭＳ－ＳＳＩＭの両方の点でＨ．２６５よりも顕著に優れている。
Ｅｉｒｉｋｕｒらは、スケールパラメータを追加することで、一般的に使用されるオプティカルフローを置き換えるスケールスペースフローを提案している。これは、Ｈ．２６４よりも優れたパフォーマンスを実現していると報告されている。
Ｚ．Ｈｕらは、オプティカルフローのマルチ解像度表現を提案している。具体的には、動き推定ネットワークが異なる解像度の複数のオプティカルフローを生成し、損失関数の下でどれを選択するかをネットワークに学習させる。パフォーマンスはわずかに向上し、Ｈ．２６５よりも優れている。

［２．４．２ランダムアクセス］
Ｗｕらは、フレーム補間によるニューラルネットワークベースのビデオ圧縮スキームを提案している。キーフレームは最初にニューラルイメージ圧縮器で圧縮され、残りのフレームは階層順に圧縮される。彼らは知覚領域で動き補償を実行し、つまり、元のフレームの複数の空間スケールで特徴マップを導出し、動きを使用して特徴マップをワープするが、これはイメージ圧縮器に使用される。この方法は、Ｈ．２６４と比肩すると報告されている。
Ｄｊｅｌｏｕａｈらは、補間モデルが動き情報圧縮とイメージ合成を組み合わせ、イメージと残差に同じオートエンコーダを使用する補間ベースのビデオ圧縮方法を提案している。
Ａｍｉｒｈｏｓｓｅｉｎらは、決定論的エンコーダを備えた変分オートエンコーダに基づくニューラルネットワークベースのビデオ圧縮方法を提案している。具体的には、モデルは、オートエンコーダと、自己回帰プライアとで構成される。以前の方法とは異なり、この方法は、ピクチャのグループ（ＧＯＰ）を入力として受け入れ、潜在表現をコード化する際に時間的相関を考慮して３Ｄ自己回帰プライアを組み入れる。これは、Ｈ．２６５に相当するパフォーマンスを提供する。

［２．５準備］
ほぼ全ての自然的イメージ／ビデオはデジタルフォーマットである。グレースケールのデジタルイメージは
（外５）

で表すことができるが、ここで、
（外６）

（以下「Ｄ」とも表す。）はピクセルの値のセット、ｍはイメージの高さ、ｎはイメージの幅である。例えば、Ｄ＝｛０，１，２，．．．，２５５｝は一般的な設定で、この場合｜Ｄ｜＝２５６＝２^８となるため、ピクセルは８ビットの整数で表すことができる。圧縮されていないグレースケールのデジタルイメージは８ビット毎ピクセル（ｂｐｐ）を有する一方、圧縮されたビットは明らかに少なくなる。
カラーイメージは通常、色情報を記録するために複数のチャネルで表される。例えば、ＲＧＢ色空間では、イメージはｘ∈Ｄ^{ｍ×ｎ×３}で表記され、３つの個別のチャネルに赤、緑、青の情報が記憶される。８ビットのグレースケールイメージと同様に、圧縮されていない８ビットＲＧＢイメージは２４ｂｐｐを有する。デジタルイメージ／ビデオは、異なる色空間で表すことができる。ニューラルネットワークベースのビデオ圧縮スキームは、主にＲＧＢ色空間で開発されているが、従来のコーデックでは通常、ビデオシーケンスを表すためにＹＵＶ色空間が使用される。ＹＵＶ色空間では、イメージはＹ、Ｃｂ、Ｃｒの３つのチャネルに分解され、Ｙは輝度成分であり、Ｃｂ／Ｃｒは彩度成分である。人間の視覚システムは彩度成分にあまり敏感ではないため、ＣｂとＣｒは通常、事前圧縮を実現するためにダウンサンプリングされるという利点がある。
カラービデオシーケンスは、フレームと呼ばれる複数のカラーイメージで構成され、異なるタイムスタンプでシーンを記録する。例えば、ＲＧＢ色空間では、カラービデオは
Ｘ＝｛ｘ_０，ｘ_１，．．．，ｘ_ｔ，．．．ｘ_Ｔ－１｝で表記され得るが、ここで、Ｔはこのビデオシーケンス内のフレーム数、ｘ∈Ｄ^ｍ×ｎである。ｍ＝１０８０、ｎ＝１９２０、｜Ｄ｜＝２^８で、ビデオが５０フレーム毎秒（ｆｐｓ）の場合、この圧縮されていないビデオのデータレートは１９２０×１０８０×８×３×５０＝２，４８８，３２０，０００ビット毎秒（ｂｐｓ）、約２．３２Ｇｂｐｓとなり、大量のストレージが必要になるため、インターネット経由で送信する前に圧縮される必要がある。
通常、ロスレス方式では自然的イメージに対して約１．５～３の圧縮率を達成できるが、これは明らかに要件を下回っている。したがって、さらなる圧縮率を達成するために、ロッシー圧縮が開発されたが、その代償として歪みが生じる。歪みは、元のイメージと再構成イメージの平均二乗差、つまり、平均二乗誤差（ＭＳＥ）を計算することで測定できるす。グレースケールイメージの場合、ＭＳＥは次の式で計算できる。

【数4】

したがって、元のイメージと比較される再構成イメージの品質は、ピーク信号対雑音比（ＰＳＮＲ）によって測定できる。

【数5】

ここで、ｍａｘ（Ｄ）はＤの最大値で、例えば、８ビットのグレースケールイメージの場合は２５５である。構造類似性（ＳＳＩＭ）及びマルチスケールＳＳＩＭ（ＭＳ－ＳＳＩＭ）などの他の品質評価メトリックもある。
異なるロスレス圧縮方式を比較するには、圧縮率と結果のレートを比較するか、その逆を行うだけで十分である。ただし、異なるロッシー圧縮方法を比較するには、レートと再構成された品質の両方を考慮すべきである。例えば、いくつかの異なる品質レベルで相対レートを計算し、レートを平均化するのが一般的に採用される方法である。平均相対レートは、Ｂｊｏｎｔｅｇａａｒｄのデルタレート（ＢＤレート）として知られている。イメージ／ビデオコーディングスキームを評価するには、エンコード／デコードの複雑さ、スケーラビリティ、堅牢性など、他の重要な側面もある。

［３．問題点］
［３．１核心となる問題］
最先端のイメージ圧縮ネットワークには、圧縮パフォーマンスを向上させるための自己回帰モデル（例えば、コンテクストモデル）が含まれている。ただし、自己回帰モデルは本質的にシリアルなエントロピーデコードプロセスとインターリーブされ、結果的に、デコードプロセスは、本質的にシリアルになり、（効率的に並列化できない）、非常に遅くなる。
図８は、デコーダネットワークの問題を示している。問題は破線のボックスで強調表示されている。この問題は、最先端のイメージデコードアーキテクチャのエントロピーデコード部分に関係している。上記の図８は、最先端のデコーダ設計を示してる。破線の四角形にカプセル化された右側のモジュールは、量子化潜在ｙ＾のエントロピーデコードを担当する。この部分は、シリアルな性質のため、最先端のアーキテクチャでは非常に遅くなる。

［３．２問題の詳細］
図９は、最先端のイメージデコードアーキテクチャにおけるエントロピーコーディングサブネットワークを示している。最先端のイメージデコードアーキテクチャでは、量子化潜在ｙ＾を再構成するプロセスは次のように実行される。
１．量子化されたハイパー潜在ｚ＾はハイパーデコーダによって処理されて、第１の部分情報を生成する。第１の部分情報はエントロピーパラメータモジュールに送られる。
２．量子化潜在ｙ＾［ｉ，ｊ］のサンプルを再構成するために、次の操作がシリアルかつ再帰的に実行される。
ａ．コンテキストモジュールは、サンプルｙ＾［ｍ，ｎ］を使用して第２の部分情報を生成する。ここで、
ｉ．ｎ＜ｊ、又は
ｉｉ．ｎがｊに等しい場合は、ｍ＜ｉである。
（［ｍ，ｎ］に位置するサンプルは、既に再構成されているものである。）
ｂ．第の及び第２の部分情報を使用して、エントロピーパラメータモジュールは、ガウス確率分布の平均と分散であるμ［ｉ，ｊ］とσ［ｉ，ｊ］を生成する。
ｃ．算術デコーダは、平均と分散がそれぞれμ［ｉ，ｊ］とσ［ｉ，ｊ］である確率分布を使用して、ビットストリームからサンプルｙ＾［ｉ，ｊ］をデコードする。
量子化潜在ｙ＾が上記のフローチャートに従って再構成された後、合成変換（デコーダ）によって処理されて、再構成されたピクチャが得られる。合成変換は、図７で使用されている表記に従ってデコーダと呼ばれる。上記のプロセス全体（ｙ＾の再構成とイメージの再構成とを含む）は、デコード又はデコーダとも呼ばれる。
上記では、量子化潜在のサンプルはｙ＾［ｉ，ｊ］で表される。サンプルは必ずしもスカラー値ではなく、ベクトルで複数の要素を含み得ることに注意されたい。アプリケーションの残りの部分では、サンプルはｙ＾［ｉ，ｊ］又はｙ＾［：，ｉ，ｊ］で表される。後者では、「:」は第３の次元があることを示し、サンプルに複数の要素があることを強調するために使用される。
量子化潜在ｙ＾のサンプルが再構成された後、合成変換（即ち、デコーダ）が実行されて、再構成されたイメージが取得される。
上記の説明から明らかなように、算術デコード操作とコンテキストモジュール操作は、ｙ＾［ｉ，ｊ］のデコードのための完全にシリアルな操作を形成する。これは、ｙ＾のサンプルは並列に再構築できず、相次いで再構成される必要があるということを意味する。
算術デコードプロセス（算術コーディングに限定されず、レンジコーディングなどの他のエントロピーコーディング方法のほとんどを含む）は、計算的には単純であるが本質的に連続的な操作である。その理由は、ビットストリームが一連のビットで構成され、ビットを１つずつデコードする必要があるためである。このプロセスは、ＣＰＵのような高速な処理ユニットで実行されるのに適している。
一方、コンテキスト及びエントロピーパラメータモジュールは、計算集約型で、高度に並列化可能な操作である。これらは、ＧＰＵのような大規模並列処理ユニットで実行されるのに適している。
最先端のイメージコーディングアーキテクチャでは、コンテキスト及びエントロピーパラメータモジュールが算術デコードとインターリーブされる場合に問題が発生する。上のフローチャートで説明したように、ｙ＾の１つのサンプルをデコードするには、コンテキストモジュール、エントロピーパラメータモジュール、算術デコードモジュールの順の適用が必要である。
コンテキストモジュールとエントロピーパラメータモジュールはディープニューラルネットワークであるため、これは、膨大な量の操作が含まれることを意味する。算術デコードは比較的単純な操作であるが、完全にシリアルである。複雑な「コンテキスト」及び「エントロピーパラメータ」操作とインターリーブされた完全にシリアルな算術デコード操作を実行すると、デコードプロセスが大幅に遅くなる。

第１の例として、コンテキスト、算術デコード、エントロピーパラメータモジュールのプロセスがＧＰＵで実行される場合、次のようになる。
１．最初に、算術デコードを使用して量子化潜在のサンプルを取得する。算術デコードは完全にシリアルであるため、ＧＰＵの単一のコアのみが利用される。この間、他の全てのＧＰＵコア（ＧＰＵには数千のコアがあり得る）はアイドル状態で待機する。さらに、ＧＰＵの各コアは、計算を高速に実行するように設計されていないため、低速である。
２．量子化潜在のサンプルが取得されると、コンテキストモジュールとエントロピーパラメータモジュールがＧＰＵの複数のコアを使用して実行される。コンテキスト及びエントロピーパラメータモジュールは大規模な並列化に適しているため、この第２のステップは効率的に実行でき、したがってＧＰＵで実行するのに適している。
３．量子化潜在の全てのサンプルがデコードされるまで、ステップ１に進む。
デコードをＧＰＵで実行する場合、速度低下の根源はステップ１にあることがわかる。

第２の例として、コンテキスト、算術デコード、エントロピーパラメータモジュールのプロセスがＣＰＵで実行されると、次のようになる。
１．最初に、算術デコードを使用して量子化潜在のサンプルを取得する。算術デコードは完全にシリアルであるため、ＣＰＵが非常に適しており、したがってサンプルは非常に速く取得される。
２．量子化潜在のサンプルが取得されると、コンテキストとエントロピーパラメータモジュールが実行される。ただし、ＣＰＵは膨大な数の演算を実行するのに適しておらず、いくつかの処理コアしか含んでいない。したがって、このステップは非常に遅くなる。
３．潜在の全てのサンプルがデコードされるまで、ステップ１に進む。
プロセスがＣＰＵで実行される場合、ＣＰＵでの実行には適さないステップ２によって速度低下が発生する。

最後に、第３の例として、デコードの一部をＣＰＵ（算術デコード）で実行し、一部をＧＰＵ（コンテキスト及びエントロピーパラメータ）で実行することを考えることができる。この場合、次のようになる。
１．最初に、算術デコードを使用して潜在のサンプルを取得する。算術デコードは完全にシリアルであるため、ＣＰＵが非常に適しており、したがってサンプルは非常に速く取得される。この間、ＧＰＵはアイドル状態のままである。
２．取得したデータはＧＰＵに転送される。
３．潜在のサンプルが取得されると、コンテキスト及びとエントロピーパラメータモジュールがＧＰＵの複数のコアを使用して実行される。コンテキスト及びエントロピーパラメータモジュールは大規模な並列化に適しているため、この第２のステップは効率的に実行でき、したがってＧＰＵで実行するのに適している。この間、ＣＰＵはアイドル状態のままである。
４．取得したデータ（平均値と分散値）はＣＰＵに送信される。
５．潜在の全てのサンプルがデコードされるまで、ステップ１に進む。

当然のことながら、ＣＰＵとＧＰＵを並行して使用することも、ＣＰＵとＧＰＵのアイドル時間、及びＣＰＵとＧＰＵ間でデータを転送するために必要な時間のために、現実的ではない。実際、これは３つのオプションの中で最も遅い具現である。
要するに、計算が複雑だが大規模に並列化できるプロセス(ディープニューラルネットワーク、例えば、コンテキストモジュールやエントロピーパラメータモジュール)を、単純だが完全にシリアルなエントロピーコーディングプロセス（算術コーディングや範囲コーディングなど）とインターリーブ方式で実行する必要がある場合に、問題が発生する。最先端のイメージコーディングネットワークはこの問題を抱えているため、このアーキテクチャではデコードプロセスが非常に遅くなる。
上記の問題に対する直接的なソリューションは、自己回帰「コンテキスト」モジュールを削除することである。その結果、算術デコーダ、コンテキスト、エントロピーパラメータモジュールを含むループが排除される。ただし、これにより圧縮効率が大幅に低下する。提案されたソリューションは、圧縮効率を犠牲にすることなく、直接的なソリューションと同じ結果を実現する。

［４．詳細なソリューション］
以下の詳細なソリューションは、一般的な概念を説明するための例として考慮するべきである。これらのソリューションを狭義に解釈するべきでない。さらに、これらのソリューションは任意の方式で組み合わされ得る。

［４．１ソリューションのターゲット］
このソリューションのターゲットは、算術デコードプロセスと計算的に複雑なディープニューラルネットワーク操作をデインターリーブすることである。言い換えれば、このソリューションのターゲットは、算術デコードプロセスをニューラルネットワークベースのモジュールから切り離すことである。したがって、算術デコードプロセスは、ニューラルネットワークベースのプロセスからの入力を必要とせずに独立して完了できる。その結果、デコード速度が大幅に向上する。

［４．２ソリューションの核心］
［４．２．１デコードプロセス］
図１０は、本開示のいくつかの実施形態によるデコードプロセスを示している。このソリューションによれば、デコード操作は次のように実行される。
１．まず、第２のサブネットワークを使用して、量子化されたハイパー潜在（上記の図１０のｚ_２＾）を使用して確率パラメータを推定する。
２．第２のネットワークによって生成された確率パラメータ（例：分散）は、算術デコードプロセスを実行して量子化残差潜在（図１０でｗ＾と表記）
を生成するために使用される。算術デコーダは、受信したビットストリームを上記の確率パラメータに基づいてデコードし、ｗ＾を生成する。
３．ｙ＾の全ての要素が取得されるまで、次のステップがループで実行される。
ａ．第１のサブネットワークを使用して、すでに取得されたｙ＾のサンプルを使用して、量子化潜在(ｙ＾)の平均値パラメータを推定する。
ｂ．量子化残差潜在ｗ＾と平均値を使用して、ｙ＾の次の要素を取得する。
４．ｙ＾の全てのサンプルが取得された後、図８のデコーダモジュールなどの合成変換を適用して、再構成されたイメージを取得できる。
ソリューションの例示的な具現が、上記の図１０（デコードプロセス）に示されている。図１０では、第１のサブネットワークは、コンテキスト、予測、及びオプションでハイパーデコーダモジュールを含む。第２のネットワークは、ハイパースケールデコーダモジュールを含む。量子化ハイパー潜在はｚ_２＾である。最先端技術（図８）と比較すると、算術デコードプロセスは、算術デコード、コンテキスト及びエントロピーパラメータで構成されるループから除去されている。代わりに、ソリューションによると、算術デコードプロセスは、コンテキスト及びエントロピーパラメータモジュールからの入力を使用せずに実行されるため、独立して実行できる（デインターリーブされる）。ソリューションによると、算術デコードモジュールには、ビットストリームと、ハイパースケールデコーダの出力である確率パラメータ（例：分散）の２つの入力がある。ハイパースケールデコーダは、量子化ハイパー潜在ｚ_２＾を使用して確率パラメータを生成する。算術デコードプロセスは、量子化残差潜在ｗ＾を生成する。
残差潜在が取得された後、再帰予測演算が実行されて、潜在ｙ＾が取得される。潜在ｙ＾［：，ｉ，ｊ］のサンプルは、次のように取得される。
１．自己回帰コンテキストモジュールを使用して、サンプルｙ＾［：，ｍ，ｎ］を使用して予測モジュールの第１の入力を生成し、ここで、（ｍ，ｎ）ペアは、既に取得されている潜在のサンプルのインデックスである。
２．オプションで、予測モジュールの第２の入力は、ハイパーデコーダ及び量子化ハイパー潜在ｚ_１＾を使用して取得される。
３．第１の入力と第２の入力を使用して、予測モジュールは、平均値ｍｅａｎ［：，ｉ，ｊ］を生成する。
４．平均値ｍｅａｎ［：，ｉ，ｊ］と量子化残差潜在ｗ＾［：，ｉ，ｊ］を加算して、潜在ｙ＾［：，ｉ，ｊ］を取得する。
５．次のサンプルに対して、ステップ１～４が繰り返される。
図１１は、ソリューションの別の例示的な具現を示している。図１０と比較すると、図１１では、同じ量子化ハイパー潜在がハイパーデコーダモジュール及びハイパースケールデコーダモジュールへの入力として使用される。残りの操作は、上で説明したものと同じである。

［４．２．２エンコードプロセス］
図１２は、本開示のいくつかの実施形態によるエンコードプロセスを示している。このソリューションによれば、エンコード操作は次のように実行される。
最初に、図６のエンコーダなどの分析変換を適用して、潜在ｙの全てのサンプルを取得する。
１．まず、量子化残差潜在ｗ＾のすべての要素が取得されるまで、以下のステップがループで実行される。
ａ．第１のサブネットワークは、すでに取得されている量子化潜在ｙ＾のサンプルを使用して、潜在ｙの平均値パラメータを推定するために使用される。
ｂ．平均値をｙから減算して残差ｗを取得し、これを量子化して量子化残差潜在ｗ＾を取得する。
ｃ．平均値にｗ＾を加算して量子化潜在ｙ＾を取得する。
２．次に、第２のサブネットワークを使用して、量子化ハイパー潜在ｚ＾を使用して確率パラメータ（例：分散）を推定する。
３．確率パラメータがエントロピーエンコーダモジュールによって使用されて、量子化残差潜在の要素がビットストリームにエンコードされる。
ソリューションの例示的な具現は、上記の図１２（エンコードプロセス）に示されている。図１２では、第１のサブネットワークは、コンテキストモジュール、予測モジュール、及びオプションでハイパーデコーダモジュールを含む。第２のネットワークは、ハイパースケールデコーダモジュールを含む。最先端技術（図６）と比較すると、算術エンコードプロセスは、算術エンコード、コンテキスト及びエントロピーパラメータで構成されるループから除去されている。代わりに、ソリューションによると、算術エンコードプロセスはコンテキスト及びエントロピーパラメータモジュールからの入力を使用せずに実行されるため、独立して実行できる（デインターリーブされる）。ソリューションによると、算術エンコードモジュールには、量子化残差潜在と、ハイパースケールデコーダの出力である確率パラメータ（例：分散）の２つの入力がある。算術エンコードプロセスでは、平均がゼロの確率モデルが使用される。ハイパースケールデコーダは、ハイパー潜在ｚ_２＾を使用して確率パラメータを生成する。算術エンコードプロセスは、デコーダに送信されるビットストリームを生成する。
量子化残差潜在ｗ＾［：，ｉ，ｊ］のサンプルは、再帰予測操作に従って次のように取得される。
１．自己回帰コンテキストモジュールを使用して、サンプルｙ＾［：，ｍ，ｎ］を使用して予測モジュールの第１の入力を生成し、ここで、（ｍ，ｎ）ペアは、既に取得されている潜在のサンプルのインデックスである。
２．オプションで、予測モジュールの第２の入力が、ハイパーデコーダ及びハイパー潜在ｚ_１＾を使用して取得される。
３．第１の入力と第２の入力を使用して、予測モジュールは平均値ｍｅａｎ［：，ｉ，ｊ］を生成する。
４．平均値ｍｅａｎ［：，ｉ，ｊ］を潜在ｙ［：，ｉ，ｊ］から減算して、残差潜在ｗ［：，ｉ，ｊ］を取得する。
５．残差潜在を量子化して、量子化残差潜在ｗ＾［：，ｉ，ｊ］を取得する。
６．ｗ＾［：，ｉ，ｊ］をｍｅａｎ［：，ｉ，ｊ］に追加して、量子化潜在ｙ＾［：，ｉ，ｊ］の次のサンプルを取得する。次のサンプルに対して、ステップ１～５が繰り返される。
上記の再帰プロセスに従って量子化残差潜在ｗ＾の全てのサンプルが取得されると、エントロピーエンコードプロセスが適用されて、ｗ＾がビットストリームに転換される。第２のサブネットワーク（ハイパースケールデコーダ）を使用して、エントロピーエンコードプロセスで使用される確率パラメータを推定する。
図１３は、ソリューションのエンコーダの別の例示的な具現を示している。図１２と比較すると、図１２では、同じ量子化ハイパー潜在がハイパーデコーダモジュール及びハイパースケールデコーダモジュールへの入力として使用される。残りの操作は、上で説明したものと同じである。

［４．３最先端技術とソリューションの違い］
最先端技術とソリューションには、３つの大きな違いがある。
１．算術エンコードとデコードは、自己回帰サブネットワーク（第１のサブネットワーク）とは独立して実行される。このようにして、ＣＰＵのような高速な処理ユニットで、完全にシーケンシャルな算術エンコード／デコードプロセスを実行できる。新しいサブネットワーク（第２のサブネットワーク）が、算術エンコード／デコードプロセスで使用される確率パラメータを推定するために導入される。
２．算術エンコード／デコードプロセスは、最先端技術のように量子化潜在ではなく、量子化潜在残差をエンコード／デコードするために使用される。
３．自己回帰サブネットワークは、潜在の平均を推定するためだけに使用される。最先端技術では、ガウス分布の平均と分散を推定するために使用され、その後、算術エンコーダ及びデコーダによって量子化潜在のサンプルをエンコード／デコードするために使用される。

［４．４ソリューションの利点］
このソリューションの利点は次のとおりである。
１．シンプルであるが完全なシリアル操作であるエントロピーデコード（例：算術デコード）プロセスは、独立して実行できる。例えば、エントロピーデコードプロセスは、ＣＰＵなどのシリアル操作を高速に実行するのに適した処理ユニットで実行できる。エントロピーデコードの操作が完了すると、取得されたデータ（量子化残差潜在）をＧＰＵに転送できる。
２．計算量が多いが簡単に並列化できるモジュール（コンテキスト及びエントロピーパラメータモジュールなど）は、算術エンコード／デコードとは独立して実行できる。例えば、大規模な並列処理に適した処理ユニット（ＧＰＵなど）を使用して、これらの操作を実行できる。
３．アイドル処理時間が排除される。

このソリューションでは、ＣＰＵとＧＰＵを並行して使用できる。例として、デコードプロセスは次のように実行できる。
１．最初に、エントロピーデコードプロセスを実行して完了する。プロセス全体が完了し、量子化潜在残差の全てのサンプルが取得される。
２．取得したデータをＧＰＵに転送する。データ転送は１回だけ行われる。
３．ＧＰＵでコンテキスト及びエントロピーパラメータモジュールを実行して完了する。ＧＰＵではアイドル待機は発生しない。量子化潜在が取得される。
４．合成変換（デコーダ）を実行する。再構成されたイメージが取得される。

セクション３．２の第３の例と比較すると、このソリューションでは、ＣＰＵとＧＰＵの両方がデコードに使用される場合に、ＣＰＵとＧＰＵの間の往復するデータのやりとりが排除される。さらに、アイドル待機時間も排除される。
実際、このソリューションでは、デコードが印象的に１０倍も高速化される。さらに、巧妙な設計により、いかなる圧縮効率の低下にも苦しむことがない。

［４．５ソリューション例］
以下の詳細なソリューションは、一般的な概念を説明するための例として考慮するべきである。これらのソリューションを狭義に解釈するべきでない。さらに、これらのソリューションは任意の方式で組み合わされ得る。

１．一例では、複数のサブネットワークがハイパー情報のハイパーエンコーダ／デコーダとして利用され得る。
ａ．一例では、少なくとも１つのサブネットワークを利用して、潜在情報の解析プロセスに依存するハイパー情報を生成する。
ｂ．一例では、少なくとも１つのサブネットワークを利用して、潜在情報の解析プロセスに依存しないハイパー情報を生成する。
ｃ．一例では、少なくとも１つのサブネットワークを利用して、潜在信号を予測するために使用されるハイパー情報を生成する。
ｄ．一例では、ハイパー情報は、量子化され得る潜在信号の統計情報又は確率分布情報を含み得る。
ｉ．統計情報又は確率分布情報は、潜在信号の平均値を含み得る。
ｉｉ．統計情報又は確率分布情報は、潜在信号の分散を含み得る。

２．一例では、潜在信号は予測的にコード化され得る。
ａ．一例では、ｙ’＝ｙ-ｐがエンコーダでコード化され得、ここで、ｙは潜在サンプル、ｐは予測である。
ｉ．それに応じて、ｙ＊＝ｙ’＋ｐがデコーダで再構成され得る。
ｂ．一例では、ｙは、予測手順の前に量子化され得る。
ｃ．一例では、ｙは、予測手順の前に量子化されない場合がある。
ｄ．一例では、ｐは、予測手順の前に量子化され得る。
ｅ．一例では、ｐは、予測手順の前に量子化されない場合がある。
ｆ．一例では、ｙ’は、予測手順の後に量子化され得る。
ｇ．一例では、ｙ’は、予測手順の後に量子化されない場合がある。
ｈ．一例では、少なくとも１つのサブネットワークを利用して予測ｐを生成し得る。
ｉ．一例では、少なくとも１つの以前にデコードされたｙ＊又はｙ’を利用して現在のｙ又はｙ＊についての予測ｐを生成し得る。

［５．実施形態］
１．デコーダの実施形態：
イメージ又は又はビデオのデコード方法であって、
－ビットストリームと第１のサブネットワークの出力を使用して、量子化残差潜在ｗ＾のサンプルを取得するステップであって、ここで、第１のサブネットワークが自己回帰的でないステップと、
－第２のサブネットワーク及び量子化潜在ｙ＾の既に再構成されているサンプルを使用して、予測値ｍｅａｎを取得するステップと、
－量子化残差サンプルｗ＾及び予測ｍｅａｎを使用して、量子化潜在ｙ＾の次のサンプルを再構成するステップと、
－量子化潜在ｙ＾及び合成変換を使用して、再構成されたイメージを取得するステップと、を含む方法。
２．エンコーダの実施形態：
イメージ又はビデオのエンコード方法であって、
まず、分析変換を使用して、入力イメージを変換して、潜在ｙ取得するステップと、
－第２のネットワーク及び量子化潜在ｙ＾の既に再構成されているサンプル（利用可能な場合）を使用して、予測値ｍｅａｎを取得するステップと、
－潜在のサンプルから予測値を減算して、残差潜在サンプルｗを取得するステップと、
－残差潜在サンプル（ｗ＾）を量子化し、予測値に加算して、量子化潜在ｙ＾のサンプルを取得するステップと、
－第１のサブネットワーク及び量子化残差潜在サンプルｗ＾のサンプルを使用して、ビットストリームを取得するステップであって、ここで、前記第１のサブネットワークは自己回帰的ではないステップと、を含む方法。
３．実施形態１及び２によれば、ここで、
前記第１のサブネットワークは、第１の量子化ハイパー潜在を入力として受け取り、確率パラメータを生成する。
４．実施形態１又は３によれば、
前記量子化残差潜在のサンプルの取得は、エントロピーデコーディングを含み、ここで、確率パラメータ及びビットストリームが入力として使用される。
５．実施形態２又は３によれば、
前記ビットストリームの取得は、エントロピーエンコーディングを含み、ここで、確率パラメータ及び量子化残差潜在が入力となる。
６．実施形態１から５によれば、
前記確率パラメータは、平均値を含まない。
７．実施形態１から６によれば、
ゼロ平均確率分布が、エントロピーエンコーディング又はエントロピーデコーディングで使用される。
８．実施形態１から７によれば、
前記第２のサブネットワークは、既に再構成されている量子化潜在のサンプルに加えて、第２の量子化ハイパー潜在を入力として受け取る。
９．実施形態８によれば、
前記第１の及び前記第２の量子化ハイパー潜在は同じである。
１０．実施形態１から９によれば、
前記量子化ハイパー潜在は、前記デコーダにおけるビットストリームから取得される。
１１．実施形態２から１０によれば、
量子化ハイパー潜在は、サブネットワークを使用して、潜在ｙ又は量子化潜在ｙ＾から取得される。
１２．実施形態１から１１によれば、
前記第２のサブネットワークは、自己回帰的である。
１３．実施形態１から１２によれば、
前記第２のサブネットワークは、コンテキストモジュールを含む。
１４．実施形態１から１３によれば、
前記第２のサブネットワークは、ハイパーデコーダモジュールを含む。

【0041】

以下に、ニューラルネットワークベースのデータコーディングに関連する本開示の実施形態のさらなる詳細を説明する。本明細書で使用されるように、「データ」という用語は、イメージ、ビデオ内のピクチャ、又はコード化に適したその他のデータを指し得る。

【0042】

上記のように、既存のイメージ圧縮ネットワークは、圧縮性能を向上させるための自己回帰モデル（例：コンテクストモデル）を含む。しかし、自己回帰モデルは、本質的にシリアルなエントロピーデコードプロセスとインターリーブされている。この点で、デコードプロセスは本質的にシリアルであり、効率的に並列化されることができないため、デコードプロセスが非常に遅くなる。

【0043】

上記の問題及び言及されていない他のいくつかの問題を解決するために、以下で説明するデータ処理ソリューションが開示される。

【0044】

図１４は、本開示のいくつかの実施形態による例示的なデータデコードプロセス１４００を示す。例えば、データデコードプロセス１４００は、図１に示すようなデータデコーダ１２４によって実行され得る。データデコードプロセス１４００は、図示されていない追加のブロックも含み得、及び／又は図示されているブロックが省略され得ることは理解されるべきである。本開示の範囲はこの点で限定されない。

【0045】

図１４に示すように、ビットストリームは、第１のエントロピーデコーダ１４１０に入力され得る。第１のエントロピーデコーダ１４１０は、分解エントロピーサブネットワーク１４２０によって生成された確率分布情報に基づいてビットストリームをデコードし得る。いくつかの実施形態では、分解エントロピーサブネットワーク１４２０は、所定のテンプレートを使用して、例えばガウス分布の場合は所定の平均値及び分散値を使用して、確率分布情報を生成し得る。第１のエントロピーデコーダ１４１０によって実行されるエントロピーデコードプロセスは、算術デコードプロセス、ハフマン（Ｈｕｆｆｍａｎ）デコードプロセスなどであり得る。

【0046】

第１のエントロピーデコーダ１４１０の出力は、データの第２量子化ハイパー潜在表現（図１４ではｚ_２＾と表記）を含み得る。第２の量子化ハイパー潜在表現は、ハイパースケールデコーダサブネットワーク１４２４（以下、第５のサブネットワークとも呼ばれる）によって処理されて、第２のハイパー情報を生成し得る。限定ではなく例として、第２のハイパー情報は、データの潜在表現のサンプルの第２の確率分布情報（統計情報又は確率パラメータとも呼ばれる）を含み得る。図１４に示す例では、第２の確率分布情報は、潜在サンプルの分散（図１４では、σと表記）を含み得る。別の例では、第２の確率分布情報は、潜在サンプルの標準偏差を含み得る。確率分布情報は、他の任意の適切な情報を含み得ることは理解されるべきである。本開示の範囲はこの点で限定されない。

【0047】

第２のエントロピーデコーダ１４１２は、第２のハイパー情報に基づいてビットストリームに対してエントロピーデコードプロセスを実行することによってビットストリームをデコードし得る。一例では、エントロピーデコードプロセスは、ゼロ平均確率分布を使用して実行され得る。追加的に又は代替的に、エントロピーデコードプロセスは、分散を使用して実行され得る。第２のエントロピーデコーダ１４１２によって実行されるエントロピーデコードプロセスは、算術デコードプロセス、ハフマンデコードプロセスなどであり得る。

【0048】

第２のエントロピーデコーダ１４１２の出力は、データの再構成された潜在表現の第１のサンプル（即ち、デコーダで再構成される現在のサンプル）の第２部分（図１４では、ｗ＾と表記）を含み得る。ここで使用されるように、「再構成された潜在表現」という用語は、表現内のサンプルが再構成プロセスを通じて取得されることを意味する。一例では、第２部分は、ビットストリームのサブビットストリームからデコードされ得る。限定ではなく例として、第２部分は、量子化残差又は第１のサンプルの残差と呼ばれ得る。

【0049】

ブロック１４３０では、第１のサンプルは、第１のサンプルの第２部分及び第１部分（図１４では、μと表記）に基づいて再構成され得る。限定ではなく例として、第１のサンプルは、第１部分と第２部分の合計であると決定され得る。再構成された潜在表現のサンプルの第２部分は、以下に詳述するエンコーダで量子化されるとすれば、再構成された潜在表現は、量子化潜在表現とも呼ばれ得る。

【0050】

第１のサンプルの第１部分は、再構成された潜在表現のサンプルセットに基づいて決定され得る。限定ではなく例として、サンプルのセットは、第１のサンプルの複数のデコードされた隣接サンプルを含み得る。一例では、サンプルのセットは第１のサンプルに隣接し得る。別の例では、サンプルのセット内の少なくとも１つのサンプルは、第１のサンプルに非隣接し得る。代替的に、サンプルのセットは、１つのサンプルのみを含んでもよい。サンプルのセットは、再構成された潜在表現の他の任意の適切なサンプルを含んでもよいことは理解されるべきである。本開示の範囲はこの点で限定されない。

【0051】

図１４に示すように、サンプルのセットは、以下で第１のサブネットワークとも呼ばれるコンテキストサブネットワーク１４２６に入力され得る。いくつかの実施形態では、コンテキストサブネットワーク１４２６は自己回帰的である。コンテキストサブネットワーク１４２６は、サンプルのセットに基づいて中間情報を生成する。限定ではなく例として、中間情報は、サンプルのセットの平均値を反映し得る。予測サブネットワーク１４２８（以下では第２のサブネットワークとも呼ばれる）は、コンテキストサブネットワーク１４２６の出力に基づいて第１のサンプルの第１部分を生成し得る。一例では、第１部分は、第１のサンプルの予測であり得る。別の例では、第１部分は、第１のサンプルの予測平均値であり得る。コンテキストサブネットワーク１４２６は、コンテクストモデル、コンテクストモデルサブネットワーク及び／又は同類のものとも呼ばれ得ることは理解されるべきである。さらに、予測サブネットワークは、フュージョンサブネットワーク、フュージョンサブネットワーク及び／又は同類のものとも呼ばれ得る。

【0052】

いくつかの追加の実施形態では、第１のサンプルの第１部分を生成するために、予測サブネットワーク１４２８は、コンテキストサブネットワーク１４２６の出力に加えて、さらなる情報も利用し得る。一例では、予測サブネットワーク１４２８は、コンテキストサブネットワーク１４２６の出力及び第１のハイパー情報に基づいて、第１のサンプルの第１部分を生成し得る。これについては、以下で詳しく説明する。

【0053】

そのような場合、第１のエントロピーデコーダ１４１０の出力は、データの第１の量子化ハイパー潜在表現（図１４では、ｚ_１＾と表記）をさらに含み得る。一例では、第１の量子化ハイパー潜在表現は、第２の量子化ハイパー潜在表現と同じであり得る。代替的に、第１の量子化ハイパー潜在表現は、第２の量子化ハイパー潜在表現と異なり得る。この場合、第１の量子化ハイパー潜在表現は、ビットストリームの第１のサブビットストリームからデコードされ得、第２の量子化ハイパー潜在表現は、ビットストリームの第２のサブビットストリームからデコードされ得る。第１の量子化ハイパー潜在表現及び第２の第１の量子化ハイパー潜在表現は、他の任意の適切な方式で取得されてもよいことは理解されるべきである。本開示の範囲は、この点で限定されない。

【0054】

第１の量子化ハイパー潜在表現は、ハイパーデコーダサブネットワーク１４２２（以下、第３のサブネットワークとも呼ばれる）によって処理されて、第１のハイパー情報を生成し得る。限定ではなく例として、第１のハイパー情報は、データの潜在表現のサンプルの第１の確率分布情報（統計情報又は確率パラメータとも呼ばれる）を含み得る。一例では、第１の確率分布情報は、潜在サンプルの平均値を含み得る。追加的に又は代替的に、第１のハイパー情報は、潜在サンプルの予測情報を含み得る。確率分布情報は、他の任意の適切な情報を含み得ることは理解されるべきである。本開示の範囲は、この点で限定されない。

【0055】

データの再構築された潜在表現を取得した後、合成変換サブネットワーク１４３２で再構築された潜在表現に対して合成変換を実行して、再構築されたデータ１４３４、即ち、データの再構成を取得し得る。

【0056】

データデコードプロセス１４００では、第２のエントロピーデコーダ１４１２でのエントロピーコーディングプロセスが、コンテキストサブネットワーク１４２６及び予測サブネットワーク１４２８からの入力を使用せずに実行されることが分かる。この点で、提案されたデータデコードプロセスは、計算的に複雑なニューラルネットワークからシーケンシャルなエントロピーコーディングプロセスを切り離すことを可能にする。これにより、提案されたデコードプロセスは、エントロピーコーディングプロセスをニューラルネットワークから独立して実行されることを有利に可能にし、したがってコーディング効率を向上させることができる。

【0057】

本開示のいくつかの実施形態によるデータデコードプロセスについては、上で説明した。データデコードプロセスに対応するデータエンコードプロセスについては、以下、図１５を参照して説明することにする。

【0058】

図１５は、本開示のいくつかの実施形態による例示的なデータエンコードプロセス１５００を示している。例えば、データエンコードプロセス１５００は、図１に示すようなデータエンコーダ１１４によって実行され得る。データエンコードプロセス１５００は、図示されていない追加のブロックも含み得、及び／又は図示されているブロックが省略され得ることは理解されるべきである。本開示の範囲は、この点で限定されない。

【0059】

図１５に示すように、分析変換サブネットワーク１５１２では、データ１５１０に対して分析変換が実行されて、データ１５１０の潜在表現（図１５では、ｙと表記）が取得され得る。データ１５１０は、イメージ又はビデオ内の１つ以上のピクチャを含み得る。潜在表現は、ハイパーエンコーダサブネットワーク１５３０（以下、第４のサブネットワークとも呼ばれる）によって処理されて、ハイパー潜在表現が生成され得る。量子化ブロック１５３２では、生成されたハイパー潜在表現が量子化されて、量子化されたハイパー潜在表現が取得され得る。量子化ハイパー潜在表現は、分解エントロピーサブネットワーク１５３６によって生成された確率分布情報に基づいて、データのビットストリームの一部であり得るビットストリームにエンコードされ得る。一例では、量子化ハイパー潜在表現は、上記の第２の量子化ハイパー潜在表現を含み得る。別の例では、量子化ハイパー潜在表現は、上記の第１の量子化ハイパー潜在表現をさらに含み得る。エントロピーエンコーダ１５３４は、量子化ハイパー潜在表現に対してエントロピーエンコードプロセスを実行して、ビットストリームの一部を取得し得る。さらに、分解エントロピーサブネットワーク１５３６によって生成された確率分布情報に基づいて、エントロピーデコーダ１５３８でビットストリームの一部に対してエントロピーデコードプロセスを実行して、量子化ハイパー潜在表現を再構成し得る。

【0060】

ブロック１５１４では、潜在表現の第２のサンプルと再構成された第２のサンプルの第１部分との差に基づいて残差を取得し得る。第２のサンプルは上記の第１のサンプルに対応し、潜在表現は上記の再構成された潜在表現に対応する。言い換えれば、第１のサンプルは再構成された第２のサンプル、即ち第２のサンプルの再構成バージョンである。

【0061】

第１のサンプルの第１部分は、データデコードプロセス１４００と同様の方式で、予測サブネットワーク１５２２及びコンテキストサブネットワーク１５２４を使用して生成され得る。いくつかの実施形態では、第２のサンプルは、ブロック１５１４で処理される前に量子化され得る。代替的に、第２のサンプルは量子化されない場合がある。

【0062】

残差は量子化ブロック１５１６で量子化されて、第１のサンプルの第２部分が取得され得る。この場合、第２部分は第１のサンプルの量子化残差である。代替的に、残差は量子化されない場合あり、したがってブロック１５１６は省略され得る。第１のサンプルは、ブロック１５１８で第１部分と第２部分の合計であると決定され得る。

【0063】

ビットストリームのさらなる部分を取得するために、エントロピーエンコーダ１５２０は、第２のハイパー情報に基づいて再構成された潜在表現のサンプルの第２部分に対してエントロピーエンコードプロセスを実行し得る。第２のハイパー情報は、データデコードプロセス１４００と同様の方式で、データ１５１０の第２の量子化ハイパー潜在表現に基づいてハイパースケールデコーダサブネットワーク１５２８によって生成され得る。

【0064】

一例では、エントロピーエンコードプロセスは、ゼロ平均確率分布を使用して実行され得る。追加的に又は代替的に、エントロピーエンコードプロセスは、分散を使用して実行され得る。エントロピーエンコーダ１５２０、１５３４によって実行されるエントロピーエンコードプロセスは、算術エンコードプロセス、ハフマンエンコードプロセスなどであり得る。

【0065】

上記では図１４及び図１５に関して例示的なデータコーディングプロセスを説明したが、本開示を考慮すると、データコーディングプロセスの他の適切な変形も考えられることは理解されるべきである。別の例示的なデータコーディングプロセスでは、軽量ハイパーデコーダサブネットワークを使用して、第１の量子化ハイパー潜在表現に基づいて第１のサンプルの第１部分を生成し得、コンテキストサブネットワーク及び予測サブネットワークは除去され得る。

【0066】

さらなる例示的なデータコーディングプロセスでは、多段コンテクストモデルが採用され得、予測サブネットワークが除去され得る。このようなプロセスでは、データの潜在表現が複数の領域に分割され得、複数の領域のそれぞれが４つの潜在サンプルを含み得るが、以下では、第１の潜在、第２の潜在、第３の潜在、及び第４の潜在と表記され得る。全ての領域が並列に処理されるため、潜在表現を漸進的に再構成するために、デコーダで４つの連続したステップが関わっている。

【0067】

第１のステップでは、エントロピーデコーディング及び再構成のための第１の潜在のエントロピーパラメータを生成するためにハイパープライアのみを使用する。次に、デコードされた第１の潜在がマスクされた３×３畳み込みで処理されて、第２の段階のための第２のコンテキスト特徴を生成する。第２のステップでは、共同設置されたハイパープライア及び第２のコンテキスト特徴が処理されて、第２の潜在を再構成するための適切なエントロピーパラメータが生成されるが、それはその後、第３のコンテキスト特徴を導出するために畳み込まれる。第３のステップでは、第１のステップのハイパープライアと第１のステップ及び第２のステップでのコンテキスト特徴の両方を使用して、第３の潜在を適切にデコードするためのエントロピーパラメータを導出する。同様に、次に、第３の潜在は、第４のステップのための第４のコンテキスト特徴を導出するために畳み込まれる。最後に（第４のステップで）、第４の潜在は、前のステップと同様の方式で再構成されて、完全な再構成潜在表現が取得される。

【0068】

上記の解説及び／例は、説明の目的でのみ記載されていることは理解されるべきである。本開示の範囲は、この点で限定されない。本開示の実施形態は、一般的な概念を説明するための例としてみなされるべきであり、狭義に解釈されるべきではない。さらに、これらの実施形態は、個別に又は任意の方式で組み合わせて適用され得る。

【0069】

図１６は、本開示のいくつかの実施形態によるデータ処理の方法１６００のフローチャートを示している。方法１６００は、データとデータのビットストリームとの間の転換中に具現され得る。図１６に示すように、方法１６００は１６０２から開始し、データの再構成された潜在表現の第１のサンプルの第１部分が決定され得る。第１部分は、第１のサンプルの予測を示す。限定ではなく例として、第１のサンプルの第１部分は、再構成された潜在表現のサンプルのセットに基づいて決定され得る。一例では、第１部分は、第１のサンプルの予測であり得る。代替的に、第１部分は、第１のサンプルの予測平均値であり得る。いくつかの実施形態では、再構成された潜在表現は、データの量子化された潜在表現であり得る。

【0070】

いくつかの実施形態では、第１のサブネットワークを使用して、サンプルのセットに基づいて中間情報を生成し得る。さらに、第１部分は、第２のサブネットワークによって中間情報に基づいて生成され得る。限定ではなく例として、第１のサブネットワークは、自己回帰的であり得、コンテクストモデルサブネットワーク、コンテキストサブネットワーク、コンテクストモデル、及び／又は同類のものと呼ばれ得る。その上、第２のサブネットワークは、予測サブネットワーク、フュージョンサブネットワーク、予測フュージョンサブネットワーク、及び／又は同類のものと呼ばれ得る。

【0071】

いくつかの代替的実施形態では、第１部分は、第１の量子化ハイパー潜在表現に基づいて生成され得る。例えば、第１部分の生成は、ハイパーデコーダサブネットワークとも呼ばれ得る軽量ハイパーデコーダサブネットワークを使用して第１の量子化ハイパー潜在表現を処理することを含み得る。例として、第１の量子化ハイパー潜在表現の処理の出力は、第１のサンプルの第１部分として決定され得る。第１の量子化ハイパー潜在表現の生成については、以下で詳しく説明する。

【0072】

１６０４では、第１のサンプルの第２部分が決定される。第２部分は、第１のサンプルと第１部分との差を示す。一例では、第２部分は、第１のサンプルと第１部分との差であり得る。例として、第２部分は、第１のサンプルから第１部分を減算することによって取得され得る。第２部分は、第１のサンプルの残差又は量子化された残差とも呼ばれ得る。

【0073】

１６０６では、第２部分に基づいて転換が実行される。一例では、転換は、データをビットストリームにエンコードすることを含み得る。代替的に又は追加的に、転換は、ビットストリームからデータをデコードすることを含み得る。上記の説明は、説明の目的でのみ説明されていることは理解されるべきである。本開示の範囲は、この点で限定されない。

【0074】

前述のことを考慮すると、再構成された潜在サンプルが２つの部分に分かれ、これにより、計算的に複雑なニューラルネットワークからシーケンシャルなエントロピーコーディングプロセスを切り離すことが可能になる。エントロピーコーディングプロセスとニューラルネットワーク操作がインターリーブされる転換ソリューションと比較して、提案された方法は、エントロピーコーディングプロセスをニューラルネットワークから独立して実行することを有利に可能にし、したがってコーディング効率を向上させることができる。

【0075】

いくつかの代替的実施形態では、１６０２で、第１のサブネットワークを使用して、サンプルのセットに基づいて中間情報を生成し得る。その上、第３のサブネットワークを使用して、第１の量子化ハイパー潜在表現に基づいて第１のハイパー情報を決定し得る。さらに、第１部分は、第２のサブネットワークを使用して、中間情報及び第１のハイパー情報に基づいて生成され得る。限定ではなく例として、第３のサブネットワークはハイパーデコーダサブネットワークであり得る。

【0076】

いくつかの実施形態では、第１の量子化ハイパー潜在表現は、ビットストリームに基づいて決定され得る。例えば、第１の量子化ハイパー潜在表現は、デコードプロセスにおいてビットストリームからデコードされ得る。代替的に、第１の量子化ハイパー潜在表現は、データの潜在表現に基づいて、第４のサブネットワークを使用して生成され得る。限定ではなく例として、第４のサブネットワークは、ハイパーエンコーダサブネットワークであり得る。

【0077】

いくつかの実施形態では、第１のハイパー情報は、第１の確率分布情報を含み得る。一例では、第１の確率分布情報は、平均値を含み得る。追加的に又は代替的に、第１のハイパー情報は、予測情報を含み得る。

【0078】

いくつかの実施形態では、１６０４で、第２のハイパー情報は、第５のサブネットワークを使用して、第２の量子化ハイパー潜在表現に基づいて生成され得る。一例では、第５のサブネットワークは、ハイパースケールデコーダサブネットワークであり得る。第２の量子化ハイパー潜在表現は、ビットストリームの第１の部分に基づいて決定され得る。例えば、第２の量子化ハイパー潜在表現は、ビットストリームの第１の部分からデコードされ得る。さらに、１６０４で、第２のハイパー情報に基づいて、ビットストリームの第２の部分に対してエントロピーデコードプロセスを実行することによって、第２の部分を取得し得る。第２の部分は、第１の部分と異なり得る。例えば、第１の部分と第２の部分は、ビットストリームの２つのサブビットストリームであり得る。

【0079】

いくつかの実施形態では、第２のハイパー情報は、第２の確率分布情報を含み得る。一例では、第２の確率分布情報は、分散を含み得る。別の例では、第２の確率分布情報は、標準偏差を含み得る。上記の例は、説明の目的でのみ記載されていることは理解されるべきである。本開示の範囲は、この点で限定されない。

【0080】

いくつかの実施形態では、上記のエントロピーデコードプロセスは、算術デコードプロセスであり得る。追加的に又は代替的に、エントロピーデコードプロセスは、ゼロ平均確率分布を使用して実行され得る。いくつかのさらなる実施形態では、エントロピーデコードプロセスは、分散を使用して実行され得る。

【0081】

いくつかの実施形態では、第２の量子化ハイパー潜在表現は、第１の量子化ハイパー潜在表現と同じであり得る。代替的に、第２の量子化ハイパー潜在表現は、第１の量子化ハイパー潜在表現と異なり得る。

【0082】

いくつかの実施形態では、１６０６で、第１部分及び第２部分に基づいて第１のサンプルが決定され得る。限定ではなく例として、第１部分と第２部分の合計に基づいて第１のサンプルが決定され得る。さらに、第１のサンプルに対する合成変換に基づいて転換が実行され得る。

【0083】

いくつかの実施形態では、１６０４で、データの潜在表現の第１部分及び第２のサンプルに基づいて第２部分が決定され得る。第２のサンプルは、第１のサンプルに対応し、潜在表現は、再構成された潜在表現に対応する。言い換えれば、第１のサンプルは、再構成された第２のサンプル、即ち第２のサンプルの再構成バージョンである。いくつかの実施形態では、データに対して分析変換を実行することによって潜在表現が取得され得る。

【0084】

いくつかの実施形態では、第１部分と第２のサンプルとの差に基づいて残差が取得され得、前記残差を量子化することによって第２部分が取得され得る。代替的に、残差は、第２部分を取得するために量子化されない場合もある。

【0085】

いくつかの実施形態では、第１部分及び第２部分に基づいて第１のサンプルが決定され得る。限定ではなく例として、第１部分と第２部分の合計に基づいて第１のサンプルが決定され得る。

【0086】

いくつかの実施形態では、第２のサンプルは、第２部分を決定するために使用される前に量子化される。代替的に、第２サンプルは、第２部分を決定するために使用される前に量子化されない。

【0087】

いくつかの実施形態では、前記第１部分は、前記第２部分及び前記第１のサンプルを決定するために使用される前に量子化される。代替的に、第１部分は、第２部分及び第１のサンプルを決定するために使用される前に量子化されない。

【0088】

いくつかの実施形態では、１６０６で、第４のサブネットワークを使用して、データの潜在表現に基づいて第２の量子化ハイパー潜在表現が生成され得る。さらに、第５のサブネットワークを使用して、第２の量子化ハイパー潜在表現に基づいて第２のハイパー情報が生成され得、第２のハイパー情報に基づいて第２部分に対してエントロピーエンコードプロセスが実行され得る。

【0089】

いくつかの実施形態では、第４のサブネットワークは、ハイパーエンコーダサブネットワークであり得、又は前記第５のサブネットワークは、ハイパースケールデコーダサブネットワークであり得る。いくつかの実施形態では、エントロピーエンコードプロセスは、算術エンコードプロセスであり得る。一例では、エントロピーエンコードプロセスは、ゼロ平均確率分布を使用して実行され得る。別の例では、エントロピーエンコードプロセスは、分散を使用して実行され得る。

【0090】

いくつかの実施形態では、第２の量子化ハイパー潜在表現は、第１の量子化ハイパー潜在表現と同じであり得る。そのような場合、エントロピーエンコードプロセスは、第１の量子化ハイパー潜在表現に対して実行され得る。

【0091】

いくつかの実施形態では、第２の量子化ハイパー潜在表現は、第１の量子化ハイパー潜在表現と異なり得る。そのような場合、１６０６で、エントロピーエンコードプロセスは、第１の量子化ハイパー潜在表現及び第２の量子化ハイパー潜在表現に対して実行され得る。

【0092】

本開示の実施形態によれば、非一時的なコンピュータ読み取り可能記録媒体が提案される。データのビットストリームは、非一時的なコンピュータ読み取り可能記録媒体に記憶される。前記ビットストリームは、データ処理装置によって実行される方法によって生成され得る。この方法によれば、データの再構成された潜在表現の第１のサンプルの第１部分が決定される。前記第１部分は、第１のサンプルの予測を示す。その上、前記第１のサンプルの第２部分が決定される。前記第２部分は、前記第１のサンプルと前記第１部分との差を示す。さらに、前記ビットストリームは、前記第２部分に基づいて生成される。

【0093】

本開示の実施形態によれば、データのビットストリームを記憶する方法が提案される。前記方法では、データの再構成された潜在表現の第１のサンプルの第１部分が決定される。前記第１部分は、前記第１のサンプルの予測を示す。その上、前記第１のサンプルの第２部分が決定される。前記第２部分は、前記第１のサンプルと前記第１部分との差を示す。さらに、前記ビットストリームは、前記第２部分に基づいて生成され、前記ビットストリームは、非一時的なコンピュータ読み取り可能記録媒体に記憶される。

【0094】

本開示の具現は、以下の条項を考慮して説明され得、その条項の特徴は、任意の合理的な方式で組み合わされ得る。

【0095】

条項１．データ処理方法であって、データと前記データのビットストリームとの間の転換中に、前記データの再構成された潜在表現の第１のサンプルの第１部分を決定するステップであって、前記第１部分が前記第１のサンプルの予測を示すステップと、前記第１のサンプルの第２部分を決定するステップであって、前記第２部分が前記第１のサンプルと前記第１部分との間の差を示すステップと、前記第２部分に基づいて前記転換を実行するステップとを含む方法。

【0096】

条項２．前記第１部分を決定するステップは、前記再構成された潜在表現のサンプルのセットに基づいて前記第１部分を決定するステップを含む、条項１に記載の方法。

【0097】

条項３．前記サンプルのセットに基づいて前記第１部分を決定するステップは、第１のサブネットワークを使用して、前記サンプルのセットに基づいて中間情報を生成するステップと、第２のサブネットワークによって、前記中間情報に基づいて前記第１部分を生成するステップとを含む、条項２に記載の方法。

【0098】

条項４．前記第１のサブネットワークは、自己回帰的である、条項３に記載の方法。

【0099】

条項５．前記第１のサブネットワークは、コンテクストモデルサブネットワーク又はコンテキストサブネットワークであるか、又は前記第２のサブネットワークは、予測サブネットワーク又はフュージョンサブネットワークである、条項３から４のいずれか一項に記載の方法。

【0100】

条項６．前記第１部分を生成するステップは、第３のサブネットワークを使用して、第１の量子化ハイパー潜在表現に基づいて第１のハイパー情報を生成するステップと、前記第２のサブネットワークを使用して、前記中間情報及び前記第１のハイパー情報に基づいて前記第１部分を生成するステップとを含む、条項３から５のいずれか一項に記載の方法。

【0101】

条項７．前記第１部分を決定するステップは、第１の量子化ハイパー潜在表現に基づいて前記第１部分を決定するステップを含む、条項１に記載の方法。

【0102】

条項８．前記第１の量子化ハイパー潜在表現に基づいて前記第１部分を決定するステップは、第３のサブネットワークを使用して前記第１の量子化ハイパー潜在表現を処理するステップを含む、条項７に記載の方法。

【0103】

条項９．前記第３のサブネットワークは、ハイパーデコーダサブネットワークである、条項６又は８に記載の方法。

【0104】

条項１０．前記第１の量子化ハイパー潜在表現は、前記ビットストリームに基づいて決定されるか、又は前記第１の量子化ハイパー潜在表現は、前記データの潜在表現に基づく第４のサブネットワークを使用して生成される、条項６から９のいずれか一項に記載の方法。

【0105】

条項１１．前記第４のサブネットワークは、ハイパーエンコーダサブネットワークである、条項１０に記載の方法。

【0106】

条項１２．前記第１のハイパー情報は、第１の確率分布情報を含む、条項６及び９から１１のいずれか一項に記載の方法。

【0107】

条項１３．前記第１の確率分布情報は、平均値を含む、条項１２に記載の方法。

【0108】

条項１４．前記第１のハイパー情報は、予測情報を含む、条項６及び９から１１のいずれか一項に記載の方法。

【0109】

条項１５．前記第２部分を決定するステップは、第５のサブネットワークを使用して、第２の量子化ハイパー潜在表現に基づいて第２のハイパー情報を生成するステップであって、前記第２の量子化ハイパー潜在表現が前記ビットストリームの第１の部分に基づいて決定されるステップと、前記第２のハイパー情報に基づいて前記ビットストリームの第２の部分に対してエントロピーデコードプロセスを実行することによって前記第２部分を取得するステップであって、前記第２の部分が前記第１の部分とは異なるステップとを含む、条項１から１４のいずれか一項に記載の方法。

【0110】

条項１６．前記第２のハイパー情報は、第２の確率分布情報を含む、条項１５に記載の方法。

【0111】

条項１７．前記第２の確率分布情報は、分散を含む、条項１６に記載の方法。

【0112】

条項１８．前記第５のサブネットワークは、ハイパースケールデコーダサブネットワークである、条項１５から１７のいずれか一項に記載の方法。

【0113】

条項１９．前記エントロピーデコードプロセスは、算術デコードプロセスである、条項１５から１８のいずれか一項に記載の方法。

【0114】

条項２０．前記エントロピーデコードプロセスは、ゼロ平均確率分布を使用して実行される、条項１５から１９のいずれか一項に記載の方法。

【0115】

条項２１．前記エントロピーデコードプロセスは、分散を使用して実行される、条項１５から２０のいずれか一項に記載の方法。

【0116】

条項２２．前記第２の量子化ハイパー潜在表現は、前記第１の量子化ハイパー潜在表現と同じであるか、又は前記第２の量子化ハイパー潜在表現は、前記第１の量子化ハイパー潜在表現と異なる、条項１５から２１のいずれか一項に記載の方法。

【0117】

条項２３．前記転換を実行するステップは、
前記第１部分及び前記第２部分に基づいて前記第１のサンプルを決定するステップと、
前記第１のサンプルに対する合成変換に基づいて前記転換を実行するステップと、を含む、条項１から２２のいずれか一項に記載の方法。

【0118】

条項２４．前記第１のサンプルは、前記第１部分と前記第２部分の合計に基づいて決定される、条項２３に記載の方法。

【0119】

条項２５．前記第２部分を決定するステップは、前記第１部分及び前記データの潜在表現の第２のサンプルに基づいて前記第２部分を決定するステップであって、前記第２のサンプルが前記第１のサンプルに対応し、前記潜在表現が前記再構成された潜在表現に対応するステップを含む、条項１から１４のいずれか一項に記載の方法。

【0120】

条項２６．前記潜在表現は、前記データに対して分析変換を実行することによって取得される、条項２５に記載の方法。

【0121】

条項２７．前記第１部分及び第２のサンプルに基づいて前記第２部分を決定するステップは、前記第１部分と前記第２のサンプルとの間の差に基づいて残差を取得するステップと、前記残差を量子化することによって前記第２部分を取得するステップとを含む、条項２５から２６のいずれか一項に記載の方法。

【0122】

条項２８．前記第１のサンプルは、前記第１部分及び前記第２部分に基づいて決定される、条項２５から２６のいずれか一項に記載の方法。

【0123】

条項２９．前記第１のサンプルは、前記第１部分と前記第２部分の合計に基づいて決定される、条項２８に記載の方法。

【0124】

条項３０．前記第２のサンプルは、前記第２部分を決定するために使用される前に量子化される、条項２５から２９のいずれか一項に記載の方法。

【0125】

条項３１．前記第１部分は、前記第２部分及び前記第１のサンプルを決定するために使用される前に量子化される、条項２５から３０のいずれか一項に記載の方法。

【0126】

条項３２．前記転換を実行するステップは、第４のサブネットワークを使用して、前記データの潜在表現に基づいて第２の量子化ハイパー潜在表現を生成するステップと、第５のサブネットワークを使用して、前記第２の量子化ハイパー潜在表現に基づいて第２のハイパー情報を生成するステップと、前記第２のハイパー情報に基づいて、前記第２部分に対してエントロピーエンコードプロセスを実行するステップとを含む、条項１から１４又は２５から３１のいずれか一項に記載の方法。

【0127】

条項３３．前記第２のハイパー情報は、第２の確率分布情報を含む、条項３２に記載の方法。

【0128】

条項３４．前記第２の確率分布情報は、分散を含む、条項３３に記載の方法。

【0129】

条項３５．前記第４のサブネットワークは、ハイパーエンコーダサブネットワークであるか、又は前記第５のサブネットワークは、ハイパースケールデコーダサブネットワークである、条項３２から３４のいずれか一項の方法。

【0130】

条項３６．前記エントロピーエンコードプロセスは、算術エンコードプロセスである、条項３２から３５のいずれか一項に記載の方法。

【0131】

条項３７．前記エントロピーエンコードプロセスは、ゼロ平均確率分布を使用して実行される、条項３２から３６のいずれか一項に記載の方法。

【0132】

条項３８．前記エントロピーエンコードプロセスは、分散を使用して実行される、条項３２から３７のいずれか一項に記載の方法。

【0133】

条項３９．前記第２の量子化ハイパー潜在表現は、前記第１の量子化ハイパー潜在表現と同じである、条項３２から３８のいずれか一項に記載の方法。

【0134】

条項４０．前記転換を実行するステップは、前記第１の量子化ハイパー潜在表現に対して前記エントロピーエンコードプロセスを実行するステップをさらに含む、条項３９に記載の方法。

【0135】

条項４１．前記第２の量子化ハイパー潜在表現は、前記第１の量子化ハイパー潜在表現と異なる、条項３２から３８のいずれか一項に記載の方法。

【0136】

条項４２．前記転換を実行するステップは、前記第１の量子化ハイパー潜在表現及び前記第２の量子化ハイパー潜在表現に対して前記エントロピーエンコードプロセスを実行するステップをさらに含む、条項４１に記載の方法。

【0137】

条項４３．前記第１部分は、前記第１のサンプルの予測であり、又は前記第２部分は、前記第１のサンプルの量子化された残差である、条項１から４２のいずれか一項に記載の方法。

【0138】

条項４４．前記再構成された潜在表現は、前記データの量子化潜在表現である、条項１から４３のいずれか項に記載の方法。

【0139】

条項４５．前記データは、ビデオのピクチャ又はイメージを含む、条項１から４４のいずれか一項に記載の方法。

【0140】

条項４６．前記転換は、前記データを前記ビットストリームにエンコードすることを含む、条項１から４５のいずれか一項に記載の方法。

【0141】

条項４７．前記転換は、前記ビットストリームから前記データをデコードすることを含む、条項１から４５のいずれか一項に記載の方法。

【0142】

条項４８．プロセッサと命令を備えた非一時的メモリとを含む、データを処理する装置であって、前記命令は前記プロセッサによって実行されると、前記プロセッサに条項１から４７のいずれか一項に記載の方法を実行させる、装置。

【0143】

条項４９．プロセッサに条項１から４７のいずれか一項に記載の方法を実行させる命令を記憶する、非一時的なコンピュータ読み取り可能記憶媒体。

【0144】

条項５０．データ処理装置によって実行される方法によって生成されたデータのビットストリームを記憶する非一時的なコンピュータ読み取り可能記録媒体であって、前記方法は、前記データの再構成された潜在表現の第１のサンプルの第１部分を決定するステップであって、前記第１部分が前記第１のサンプルの予測を示すステップと、前記第１のサンプルの第２部分を決定するステップであって、前記第２部分が前記第１のサンプルと前記第１部分との間の差を示すステップと、前記第２部分に基づいて前記ビットストリームを生成するステップとを含む、非一時的なコンピュータ読み取り可能記録媒体。

【0145】

条項５１．データのビットストリームを記憶する方法であって、前記データの再構成された潜在表現の第１のサンプルの第１部分を決定するステップであって、前記第１部分が前記第１のサンプルの予測を示すステップと、前記第１のサンプルの第２部分を決定するステップであって、前記第２部分が前記第１のサンプルと前記第１部分との間の差を示すステップと、前記第２部分に基づいて前記ビットストリームを生成するステップと、前記ビットストリームを非一時的なコンピュータ読み取り可能記録媒体に記憶するステップとを含む、方法。

【0146】

例示的なデバイス
図１７は、本開示の様々な実施形態を具現できるコンピューティングデバイス１７００のブロック図を示す。コンピューティングデバイス１７００は、ソースデバイス１１０（或いは、データエンコーダ１１４）又は宛先デバイス１２０（或いは、データデコーダ１２４）として具現されるか、又はそれに含まれ得る。

【0147】

図１７に示されるコンピューティングデバイス１７００は、単に解説を目的としたものであり、本開示の実施形態の機能及び範囲をいかなる形でも制限することを示唆するものではないことが理解されるだろう。

【0148】

図１７に示すように、コンピューティングデバイス１７００は、汎用コンピューティングデバイス１７００を含む。コンピューティングデバイス１７００は、少なくとも１つ又は複数のプロセッサ又は処理ユニット１７１０と、メモリ１７２０と、記憶ユニット１７３０と、１つ又は複数の通信ユニット１７４０と、１つ又は複数の入力デバイス１７５０と、１つ又は複数の出力デバイス１７６０とを含み得る。

【0149】

いくつかの実施形態では、コンピューティングデバイス１７００は、コンピューティング能力を有する任意のユーザ端末又はサーバ端末として具現され得る。前記サーバ端末は、サービスプロバイダが提供するサーバや大規模コンピューティングデバイスなどであり得る。前記ユーザ端末は、例えば、携帯電話、ステーション、ユニット、デバイス、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナルコミュニケーションシステム(ＰＣＳ)デバイス、パーソナルナビゲーションデバイス、携帯情報端末(ＰＤＡ)、オーディオ/ビデオプレーヤー、デジタルカメラ/ビデオカメラ、測位デバイス、テレビ受信機、ラジオ放送受信機、電子ブックデバイス、ゲームデバイス、又はそれらの任意の組み合わせ（これらのデバイスのアクセサリ及び周辺機器、又はそれらの任意の組み合わせを含む）を含む、任意のタイプの移動端末、固定端末、又は携帯端末であり得る。コンピューティングデバイス１７００は、ユーザに対する任意のタイプのインターフェース（「ウェアラブル」回路など）をサポートできることが考えられる。

【0150】

処理ユニット１７１０は、物理又は仮想プロセッサであり得、メモリ１７２０に記憶されたプログラムに基づいて様々なプロセスを具現することができる。マルチプロセッサシステムでは、コンピューティングデバイス１７００の並列処理能力を向上させるために、複数の処理ユニットがコンピュータ実行可能命令を並列に実行する。処理ユニット１７１０は、中央処理ユニット（ＣＰＵ）、マイクロプロセッサ、コントローラ又はマイクロコントローラと呼ばれても良い。

【0151】

コンピューティングデバイス１７００は、通常、様々なコンピュータ記憶媒体を含む。このような媒体は、揮発性及び不揮発性媒体、又は取り外し可能及び取り外し不可能な媒体を含むがこれらに限定されない、コンピューティングデバイス１７００によってアクセス可能な任意の媒体であり得る。メモリ１７２０は、揮発性メモリ（例えば、レジスタ、キャッシュ、ランダムアクセスメモリ（ＲＡＭ））、不揮発性メモリ（例えば、読み取り専用メモリ（ＲＯＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ）、又はそれらの任意の組み合わせであり得る。記憶ユニット１７３０は、任意の取り外し可能又は取り外し不可能な媒体であり得、情報及び／又はデータを記憶するために使用でき、コンピューティングデバイス１７００でアクセスできる、メモリ、フラッシュメモリドライブ、磁気ディスク又は別の他の媒体などの機械読み取り可能媒体を含み得る。

【0152】

コンピューティングデバイス１７００は、追加の取り外し可能／取り外し不可能、揮発性／不揮発性メモリ媒体をさらに含み得る。なお、図１７には示していないが、着脱可能な不揮発性磁気ディスクの読み書きを行う磁気ディスクドライブや、着脱可能な不揮発性光ディスクの読み書きを行う光ディスクドライブを提供することが可能である。このような場合、各ドライブは、１つ又は複数のデータ媒体インターフェースを介してバス(図示せず)に接続され得る。

【0153】

通信ユニット１７４０は、通信媒体を介してさらなるコンピューティングデバイスと通信する。その上、コンピューティングデバイス１７００内のコンポーネントの機能は、通信接続を介して通信できる単一のコンピューティングクラスタ又は複数のコンピューティングマシンによって具現され得る。したがって、コンピューティングデバイス１７００は、１つ又は複数の他のサーバ、ネットワーク化されたパーソナルコンピュータ（ＰＣ）、又はさらなる一般的なネットワークノードとの論理接続を使用して、ネットワーク化された環境で動作することができる。

【0154】

入力デバイス１７５０は、マウス、キーボード、トラッキングボール、音声入力デバイスなどの様々な入力デバイスのうちの１つ又は複数であり得る。出力デバイス１７６０は、ディスプレイ、ラウドスピーカ、プリンタなどの様々な出力デバイスのうちの１つ又は複数であり得る。通信ユニット１７４０によって、コンピューティングデバイス１７００は、記憶デバイス及び表示デバイスなどの１つ又は複数の外部デバイス（図示せず）とさらに通信することができ、１つ又は複数のデバイスにより、ユーザがコンピューティングデバイス１７００と対話可能にするか、又は、必要に応じて、任意のデバイス（ネットワークカード、モデムなど）により、コンピューティングデバイス１７００が１つ又は複数の他のコンピューティングデバイスと通信可能にする。このような通信は、入力／出力(Ｉ／Ｏ)インターフェース(図示せず)を介して実行され得る。

【0155】

いくつかの実施形態では、単一のデバイスに統合される代わりに、コンピューティングデバイス１７００のいくつかの又は全てのコンポーネントがクラウドコンピューティングアーキテクチャに配置され得る。クラウドコンピューティングアーキテクチャでは、コンポーネントは遠隔的に提供され、連携して本開示で説明される機能を実施し得る。いくつかの実施形態では、クラウドコンピューティングは、コンピューティング、ソフトウェア、データアクセス及びストレージサービスを提供し、これらのサービスを提供するシステム又はハードウェアの物理的な位置又は構成をエンドユーザが認識する必要はない。様々な実施形態において、クラウドコンピューティングは、適切なプロトコルを使用して広域ネットワーク（インターネットなど）を介してサービスを提供する。例えば、クラウドコンピューティングプロバイダーは、Ｗｅｂブラウザ又はその他のコンピューティングコンポーネントを通じてアクセスできる広域ネットワーク経由でアプリケーションを提供する。クラウドコンピューティングアーキテクチャのソフトウェア又はコンポーネント及び対応するデータは、遠隔地にあるサーバに保存され得る。クラウドコンピューティング環境におけるコンピューティングリソースは、リモートデータセンターの場所に併合又は分散され得る。クラウドコンピューティングインフラストラクチャは、ユーザにとって単一のアクセスポイントとして動作するが、共有データセンターを通じてサービスを提供し得る。したがって、クラウドコンピューティングアーキテクチャを使用して、本明細書で説明されるコンポーネント及び機能を遠隔地にあるサービスプロバイダから提供し得る。代替的に、それらは従来のサーバから提供されるか、又はクライアントデバイスに直接又はその他の方法でインストールされ得る。

【0156】

コンピューティングデバイス１７００は、本開示の実施形態においてデータエンコーディング／デコーディングを具現するために使用され得る。メモリ１７２０は、１つ又は複数のプログラム命令を有する１つ又は複数のデータコーディングモジュール１７２５を含み得る。これらのモジュールは、本明細書で説明される様々な実施形態の機能を実行するように、処理ユニット１７１０によってアクセス可能かつ実行可能である。

【0157】

データエンコーディングを実行する例示的な実施形態では、入力デバイス１７５０は、エンコードされるデータを入力１７７０として受信し得る。データは、例えば、データコーディングモジュール１７２５によって処理されて、エンコードされたビットストリームを生成し得る。エンコードされたビットストリームは、出力デバイス１７６０を介して出力１７８０として提供され得る。

【0158】

データデコーディングを実行する例示的な実施形態では、入力デバイス１７５０は、エンコードされたビットストリームを入力１７７０として受信し得る。エンコードされたビットストリームは、例えば、データコーディングモジュール１７２５によって処理されて、デコードされたデータを生成し得る。デコードされたデータは、出力デバイス１７６０を介して出力１７８０として提供され得る。

【0159】

本開示は、その好ましい実施形態を参照して特に図示及び説明されたが、添付の特許請求の範囲によって定義される本出願の精神及び範囲から逸脱することなく、形態及び詳細における様々な変更を行うことができることが当業者には理解されるであろう。このような変形は、本出願の範囲に含まれるものとする。したがって、本出願の実施形態に関する前述の説明は限定することを意図したものではない。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【図16】

【図17】

【手続補正書】

【提出日】2024-09-20

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

視覚的なデータ処理方法であって、
視覚的なデータとニューラルネットワークベース（ＮＮベース）のモデルを使用して前記視覚的なデータのビットストリームとの間の転換中に、前記視覚的なデータの再構成された潜在表現の第１のサンプルの第１部分を決定するステップであって、前記第１部分が前記第１のサンプルの予測を示すステップと、
前記第１のサンプルの第２部分を決定するステップであって、前記第２部分が前記第１のサンプルと前記第１部分との間の差を示すステップと、
前記第２部分に基づいて前記転換を実行するステップと、を含む方法。

【請求項2】

前記第１部分を決定するステップは、
前記再構成された潜在表現の既に再構成されたサンプルのセットに基づいて前記第１部分を決定するステップを含む、請求項１に記載の方法。

【請求項3】

前記既に再構成されたサンプルのセットに基づいて前記第１部分を決定するステップは、
前記ＮＮベースのモデルにおける第１のサブネットワークを使用して、前記既に再構成されたサンプルのセットに基づいて中間情報を生成するステップと、
前記ＮＮベースのモデルにおける第２のサブネットワークによって、前記中間情報に基づいて前記第１部分を生成するステップと、を含む、請求項２に記載の方法。

【請求項4】

前記再構成された潜在表現のサンプルを決定するためのプロセスは、自己回帰的である、請求項１に記載の方法。

【請求項5】

前記プロセスは多段コンテクストモデルで実施される、請求項４に記載の方法。

【請求項6】

前記第１部分を生成するステップは、
前記ＮＮベースのモデルにおける第３のサブネットワークを使用して、第１の量子化ハイパー潜在表現に基づいて第１のハイパー情報を生成するステップと、
前記第２のサブネットワークを使用して、前記中間情報及び前記第１のハイパー情報に基づいて前記第１部分を生成するステップと、を含む、請求項３に記載の方法。

【請求項7】

前記第１部分を決定するステップは、
第１の量子化ハイパー潜在表現に基づいて前記第１部分を決定するステップを含む、請求項１に記載の方法。

【請求項8】

前記第１の量子化ハイパー潜在表現に基づいて前記第１部分を決定するステップは、
前記ＮＮベースのモデルにおける第３のサブネットワークを使用して前記第１の量子化ハイパー潜在表現を処理するステップを含む、請求項７に記載の方法。

【請求項9】

前記第３のサブネットワークは、ハイパーデコーダサブネットワークである、請求項６に記載の方法。

【請求項10】

前記第１の量子化ハイパー潜在表現は、前記ビットストリームに基づいて決定されるか、又は
前記第１のハイパー情報は、予測情報を含む、請求項６に記載の方法。

【請求項11】

前記第２部分を決定するステップは、
前記ＮＮベースのモデルにおける第５のサブネットワークを使用して、第２の量子化ハイパー潜在表現に基づいて第２のハイパー情報を生成するステップであって、前記第２の量子化ハイパー潜在表現が前記ビットストリームの第１の部分に基づいて決定されるステップと、
前記第２のハイパー情報に基づいて前記ビットストリームの第２の部分に対してエントロピーデコードプロセスを実行することによって前記第２部分を取得するステップであって、前記第２の部分が前記第１の部分とは異なるステップとを含む、請求項１に記載の方法。

【請求項12】

前記第２のハイパー情報は、分散を含むか、又は
前記第５のサブネットワークは、ハイパースケールデコーダサブネットワークであるか、又は
前記エントロピーデコードプロセスは、算術デコードプロセスであるか、又は
前記第２の量子化ハイパー潜在表現は、第１の量子化ハイパー潜在表現と同じである、請求項１１に記載の方法。

【請求項13】

前記転換を実行するステップは、
前記第１部分及び前記第２部分に基づいて前記第１のサンプルを決定するステップと、
前記第１のサンプルに対する合成変換に基づいて前記転換を実行するステップと、を含む、請求項１に記載の方法。

【請求項14】

前記第１のサンプルは、前記第１部分と前記第２部分の合計に基づいて決定される、請求項１３に記載の方法。

【請求項15】

前記第１部分は、前記第１のサンプルの予測であり、又は前記第２部分は、前記第１のサンプルの量子化された残差であるか、又は
前記再構成された潜在表現は、前記視覚的なデータの量子化潜在表現であるか、又は
前記視覚的なデータは、ビデオのピクチャ又はイメージを含む、請求項１に記載の方法。

【請求項16】

前記転換は、前記視覚的なデータを前記ビットストリームにエンコードすることを含む、請求項１に記載の方法。

【請求項17】

前記転換は、前記ビットストリームから前記視覚的なデータをデコードすることを含む、請求項１に記載の方法。

【請求項18】

プロセッサと命令を備えた非一時的メモリとを含む、視覚的なデータを処理する装置であって、前記命令は前記プロセッサによって実行されると、前記プロセッサに請求項１から１７のいずれか一項に記載の方法を実行させる、装置。

【請求項19】

プロセッサに請求項１から１７のいずれか一項に記載の方法を実行させる命令を記憶する、非一時的なコンピュータ読み取り可能記憶媒体。

【請求項20】

視覚的なデータのビットストリームを記憶する方法であって、
前記視覚的なデータの再構成された潜在表現の第１のサンプルの第１部分を決定するステップであって、前記第１部分が前記第１のサンプルの予測を示すステップと、
前記第１のサンプルの第２部分を決定するステップであって、前記第２部分が前記第１のサンプルと前記第１部分との間の差を示すステップと、
前記第２部分に基づいて前記ビットストリームを生成するステップと、
前記ビットストリームを非一時的なコンピュータ読み取り可能記録媒体に記憶するステップと、を含む、方法。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版