IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイトダンス ネットワーク テクノロジー カンパニー リミテッドの特許一覧 ▶ バイトダンス インコーポレイテッドの特許一覧

<>
  • 特表-データ処理の方法、装置及び媒体 図1
  • 特表-データ処理の方法、装置及び媒体 図2
  • 特表-データ処理の方法、装置及び媒体 図3
  • 特表-データ処理の方法、装置及び媒体 図4
  • 特表-データ処理の方法、装置及び媒体 図5
  • 特表-データ処理の方法、装置及び媒体 図6
  • 特表-データ処理の方法、装置及び媒体 図7
  • 特表-データ処理の方法、装置及び媒体 図8
  • 特表-データ処理の方法、装置及び媒体 図9
  • 特表-データ処理の方法、装置及び媒体 図10
  • 特表-データ処理の方法、装置及び媒体 図11
  • 特表-データ処理の方法、装置及び媒体 図12
  • 特表-データ処理の方法、装置及び媒体 図13
  • 特表-データ処理の方法、装置及び媒体 図14
  • 特表-データ処理の方法、装置及び媒体 図15
  • 特表-データ処理の方法、装置及び媒体 図16
  • 特表-データ処理の方法、装置及び媒体 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-24
(54)【発明の名称】データ処理の方法、装置及び媒体
(51)【国際特許分類】
   H04N 19/90 20140101AFI20250117BHJP
   H04N 19/126 20140101ALI20250117BHJP
   H04N 19/13 20140101ALI20250117BHJP
   H04N 19/14 20140101ALI20250117BHJP
   H04N 19/192 20140101ALI20250117BHJP
【FI】
H04N19/90
H04N19/126
H04N19/13
H04N19/14
H04N19/192
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024543269
(86)(22)【出願日】2023-01-20
(85)【翻訳文提出日】2024-09-04
(86)【国際出願番号】 CN2023073423
(87)【国際公開番号】W WO2023138686
(87)【国際公開日】2023-07-27
(31)【優先権主張番号】PCT/CN2022/073109
(32)【優先日】2022-01-21
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520476341
【氏名又は名称】北京字節跳動網絡技術有限公司
【氏名又は名称原語表記】Beijing Bytedance Network Technology Co., Ltd.
【住所又は居所原語表記】Room B-0035, 2/F, No.3 Building, No.30, Shixing Road, Shijingshan District Beijing 100041 China
(71)【出願人】
【識別番号】520477474
【氏名又は名称】バイトダンス インコーポレイテッド
【氏名又は名称原語表記】BYTEDANCE INC.
【住所又は居所原語表記】12655 West Jefferson Boulevard, Sixth Floor, Suite No. 137 Los Angeles, California 90066 United States of America
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(72)【発明者】
【氏名】エセンリック,セミフ
(72)【発明者】
【氏名】ウ,ヤオジュン
(72)【発明者】
【氏名】ザン,ジャオビン
(72)【発明者】
【氏名】リ,ユエ
(72)【発明者】
【氏名】ザン,カイ
(72)【発明者】
【氏名】ザン,リー
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA00
5C159MC11
5C159ME11
5C159TA46
5C159TA59
5C159TB04
5C159TB08
5C159TC10
5C159TD03
5C159TD04
5C159TD05
5C159UA02
5C159UA05
(57)【要約】
本開示の実施形態は、データ処理のためのソリューションを提供する。データ処理方法が提案される。前記方法は、データと前記データのビットストリームとの間の転換中に、前記データの再構成された潜在表現の第1のサンプルの第1部分を決定するステップであって、前記第1部分が前記第1のサンプルの予測を示すステップと、前記第1のサンプルの第2部分を決定するステップであって、前記第2部分が前記第1のサンプルと前記第1部分との間の差を示すステップと、前記第2部分に基づいて前記転換を実行するステップとを含む。
【選択図】 図16
【特許請求の範囲】
【請求項1】
データ処理方法であって、
データと前記データのビットストリームとの間の転換中に、前記データの再構成された潜在表現の第1のサンプルの第1部分を決定するステップであって、前記第1部分が前記第1のサンプルの予測を示すステップと、
前記第1のサンプルの第2部分を決定するステップであって、前記第2部分が前記第1のサンプルと前記第1部分との間の差を示すステップと、
前記第2部分に基づいて前記転換を実行するステップと、を含む方法。
【請求項2】
前記第1部分を決定するステップは、
前記再構成された潜在表現のサンプルのセットに基づいて前記第1部分を決定するステップを含む、請求項1に記載の方法。
【請求項3】
前記サンプルのセットに基づいて前記第1部分を決定するステップは、
第1のサブネットワークを使用して、前記サンプルのセットに基づいて中間情報を生成するステップと、
第2のサブネットワークによって、前記中間情報に基づいて前記第1部分を生成するステップと、を含む、請求項2に記載の方法。
【請求項4】
前記第1のサブネットワークは、自己回帰的である、請求項3に記載の方法。
【請求項5】
前記第1のサブネットワークは、コンテクストモデルサブネットワーク又はコンテキストサブネットワークであるか、又は
前記第2のサブネットワークは、予測サブネットワーク又はフュージョンサブネットワークである、請求項3から4のいずれか一項に記載の方法。
【請求項6】
前記第1部分を生成するステップは、
第3のサブネットワークを使用して、第1の量子化ハイパー潜在表現に基づいて第1のハイパー情報を生成するステップと、
前記第2のサブネットワークを使用して、前記中間情報及び前記第1のハイパー情報に基づいて前記第1部分を生成するステップと、を含む、請求項3から5のいずれか一項に記載の方法。
【請求項7】
前記第1部分を決定するステップは、
第1の量子化ハイパー潜在表現に基づいて前記第1部分を決定するステップを含む、請求項1に記載の方法。
【請求項8】
前記第1の量子化ハイパー潜在表現に基づいて前記第1部分を決定するステップは、
第3のサブネットワークを使用して前記第1の量子化ハイパー潜在表現を処理するステップを含む、請求項7に記載の方法。
【請求項9】
前記第3のサブネットワークは、ハイパーデコーダサブネットワークである、請求項6又は8に記載の方法。
【請求項10】
前記第1の量子化ハイパー潜在表現は、前記ビットストリームに基づいて決定されるか、又は
前記第1の量子化ハイパー潜在表現は、前記データの潜在表現に基づく第4のサブネットワークを使用して生成される、請求項6から9のいずれか一項に記載の方法。
【請求項11】
前記第4のサブネットワークは、ハイパーエンコーダサブネットワークである、請求項10に記載の方法。
【請求項12】
前記第1のハイパー情報は、第1の確率分布情報を含む、請求項6及び9から11のいずれか一項に記載の方法。
【請求項13】
前記第1の確率分布情報は、平均値を含む、請求項12に記載の方法。
【請求項14】
前記第1のハイパー情報は、予測情報を含む、請求項6及び9から11のいずれか一項に記載の方法。
【請求項15】
前記第2部分を決定するステップは、
第5のサブネットワークを使用して、第2の量子化ハイパー潜在表現に基づいて第2のハイパー情報を生成するステップであって、前記第2の量子化ハイパー潜在表現が前記ビットストリームの第1の部分に基づいて決定されるステップと、
前記第2のハイパー情報に基づいて前記ビットストリームの第2の部分に対してエントロピーデコードプロセスを実行することによって前記第2部分を取得するステップであって、前記第2の部分が前記第1の部分とは異なるステップとを含む、請求項1から14のいずれか一項に記載の方法。
【請求項16】
前記第2のハイパー情報は、第2の確率分布情報を含む、請求項15に記載の方法。
【請求項17】
前記第2の確率分布情報は、分散を含む、請求項16に記載の方法。
【請求項18】
前記第5のサブネットワークは、ハイパースケールデコーダサブネットワークである、請求項15から17のいずれか一項に記載の方法。
【請求項19】
前記エントロピーデコードプロセスは、算術デコードプロセスである、請求項15から18のいずれか一項に記載の方法。
【請求項20】
前記エントロピーデコードプロセスは、ゼロ平均確率分布を使用して実行される、請求項15から19のいずれか一項に記載の方法。
【請求項21】
前記エントロピーデコードプロセスは、分散を使用して実行される、請求項15から20のいずれか一項に記載の方法。
【請求項22】
前記第2の量子化ハイパー潜在表現は、前記第1の量子化ハイパー潜在表現と同じであるか、又は
前記第2の量子化ハイパー潜在表現は、前記第1の量子化ハイパー潜在表現とは異なる、請求項15から21のいずれか一項に記載の方法。
【請求項23】
前記転換を実行するステップは、
前記第1部分及び前記第2部分に基づいて前記第1のサンプルを決定するステップと、
前記第1のサンプルに対する合成変換に基づいて前記転換を実行するステップと、を含む、請求項1から22のいずれか一項に記載の方法。
【請求項24】
前記第1のサンプルは、前記第1部分と前記第2部分の合計に基づいて決定される、請求項23に記載の方法。
【請求項25】
前記第2部分を決定するステップは、
前記第1部分及び前記データの潜在表現の第2のサンプルに基づいて前記第2部分を決定するステップであって、前記第2のサンプルが前記第1のサンプルに対応し、前記潜在表現が前記再構成された潜在表現に対応するステップを含む、請求項1から14のいずれか一項に記載の方法。
【請求項26】
前記潜在表現は、前記データに対して分析変換を実行することによって取得される、請求項25に記載の方法。
【請求項27】
前記第1部分及び第2のサンプルに基づいて前記第2部分を決定するステップは、
前記第1部分と前記第2のサンプルとの間の差に基づいて残差を取得するステップと、
前記残差を量子化することによって前記第2部分を取得するステップと
を含む、請求項25から26のいずれか一項に記載の方法。
【請求項28】
前記第1のサンプルは、前記第1部分及び前記第2部分に基づいて決定される、請求項25から26のいずれか一項に記載の方法。
【請求項29】
前記第1のサンプルは、前記第1部分と前記第2部分の合計に基づいて決定される、請求項28に記載の方法。
【請求項30】
前記第2のサンプルは、前記第2部分を決定するために使用される前に量子化される、請求項25から29のいずれか一項に記載の方法。
【請求項31】
前記第1部分は、前記第2部分及び前記第1のサンプルを決定するために使用される前に量子化される、請求項25から30のいずれか一項に記載の方法。
【請求項32】
前記転換を実行するステップは、
第4のサブネットワークを使用して、前記データの潜在表現に基づいて第2の量子化ハイパー潜在表現を生成するステップと、
第5のサブネットワークを使用して、前記第2の量子化ハイパー潜在表現に基づいて第2のハイパー情報を生成するステップと、
前記第2のハイパー情報に基づいて、前記第2部分に対してエントロピーエンコードプロセスを実行するステップと、を含む、請求項1から14又は25から31のいずれか一項に記載の方法。
【請求項33】
前記第2のハイパー情報は、第2の確率分布情報を含む、請求項32に記載の方法。
【請求項34】
前記第2の確率分布情報は、分散を含む、請求項33に記載の方法。
【請求項35】
前記第4のサブネットワークは、ハイパーエンコーダサブネットワークであるか、又は前記第5のサブネットワークは、ハイパースケールデコーダサブネットワークである、請求項32から34のいずれか一項の方法。
【請求項36】
前記エントロピーエンコードプロセスは、算術エンコードプロセスである、請求項32から35のいずれか一項に記載の方法。
【請求項37】
前記エントロピーエンコードプロセスは、ゼロ平均確率分布を使用して実行される、請求項32から36のいずれか一項に記載の方法。
【請求項38】
前記エントロピーエンコードプロセスは、分散を使用して実行される、請求項32から37のいずれか一項に記載の方法。
【請求項39】
前記第2の量子化ハイパー潜在表現は、前記第1の量子化ハイパー潜在表現と同じである、請求項32から38のいずれか一項に記載の方法。
【請求項40】
前記転換を実行するステップは、
前記第1の量子化ハイパー潜在表現に対して前記エントロピーエンコードプロセスを実行するステップをさらに含む、請求項39に記載の方法。
【請求項41】
前記第2の量子化ハイパー潜在表現は、前記第1の量子化ハイパー潜在表現とは異なる、請求項32から38のいずれか一項に記載の方法。
【請求項42】
前記転換を実行するステップは、
前記第1の量子化ハイパー潜在表現及び前記第2の量子化ハイパー潜在表現に対して前記エントロピーエンコードプロセスを実行するステップをさらに含む、請求項41に記載の方法。
【請求項43】
前記第1部分は、前記第1のサンプルの予測であり、又は前記第2部分は、前記第1のサンプルの量子化された残差である、請求項1から42のいずれか一項に記載の方法。
【請求項44】
前記再構成された潜在表現は、前記データの量子化潜在表現である、請求項1から43のいずれか項に記載の方法。
【請求項45】
前記データは、ビデオのピクチャ又はイメージを含む、請求項1から44のいずれか一項に記載の方法。
【請求項46】
前記転換は、前記データを前記ビットストリームにエンコードすることを含む、請求項1から45のいずれか一項に記載の方法。
【請求項47】
前記転換は、前記ビットストリームから前記データをデコードすることを含む、請求項1から45のいずれか一項に記載の方法。
【請求項48】
プロセッサと命令を備えた非一時的メモリとを含む、データを処理する装置であって、前記命令は前記プロセッサによって実行されると、前記プロセッサに請求項1から47のいずれか一項に記載の方法を実行させる、装置。
【請求項49】
プロセッサに請求項1から47のいずれか一項に記載の方法を実行させる命令を記憶する、非一時的なコンピュータ読み取り可能記憶媒体。
【請求項50】
データ処理装置によって実行される方法によって生成されたデータのビットストリームを記憶する非一時的なコンピュータ読み取り可能記録媒体であって、前記方法は、
前記データの再構成された潜在表現の第1のサンプルの第1部分を決定するステップであって、前記第1部分が前記第1のサンプルの予測を示すステップと、
前記第1のサンプルの第2部分を決定するステップであって、前記第2部分が前記第1のサンプルと前記第1部分との間の差を示すステップと、
前記第2部分に基づいて前記ビットストリームを生成するステップと、を含む、非一時的なコンピュータ読み取り可能記録媒体。
【請求項51】
データのビットストリームを記憶する方法であって、
前記データの再構成された潜在表現の第1のサンプルの第1部分を決定するステップであって、前記第1部分が前記第1のサンプルの予測を示すステップと、
前記第1のサンプルの第2部分を決定するステップであって、前記第2部分が前記第1のサンプルと前記第1部分との間の差を示すステップと、
前記第2部分に基づいて前記ビットストリームを生成するステップと、
前記ビットストリームを非一時的なコンピュータ読み取り可能記録媒体に記憶するステップと、を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施形態は、一般的にはデータ処理技術に関し、より具体的には、ニューラルネットワークベースのデータコーディングに関する。
【背景技術】
【0002】
過去10年間、様々な分野、特にコンピュータービジョン及びイメージ処理でディープラーニングが急速に発展してきた。ニューラルネットワークは、もともと神経科学と数学の学際的な研究で発明された。ニューラルネットワークは、非線形変換と分類の背景で強力な機能を発揮してきた。ニューラルネットワークベースのイメージ/ビデオ圧縮技術は、過去5年間で顕著な進展を遂げた。最新のニューラルネットワークベースのイメージ圧縮アルゴリズムは、Versatile Video Coding(多用途ビデオコーディング、VVC)に匹敵するレート歪み(R-D)パフォーマンスを実現していると報告されている。ニューラルイメージ圧縮のパフォーマンスが継続的に向上しているため、ニューラルネットワークベースのビデオ圧縮は、積極的に開発されている研究分野になっている。但し、ニューラルネットワークベースのイメージ/ビデオコーディングのコーディング効率は、一般的にさらに向上すると期待されている。
【発明の概要】
【0003】
本開示の実施形態は、データ処理のためのソリューションを提供する。
【0004】
第1の態様では、データ処理方法が提案される。前記方法は、データと前記データのビットストリームとの間の転換中に、前記データの再構成された潜在表現の第1のサンプルの第1部分を決定するステップであって、前記第1部分が前記第1のサンプルの予測を示すステップと、前記第1のサンプルの第2部分を決定するステップであって、前記第2部分が前記第1のサンプルと前記第1部分との間の差を示すステップと、前記第2部分に基づいて前記転換を実行するステップとを含む。
【0005】
本開示の第1の態様による方法によれば、再構成された潜在データサンプルが2つの部分に分割され、これにより、計算的に複雑なニューラルネットワークから順次エントロピーコーディングプロセスをデカップリング可能になる。エントロピーコーディングプロセクとニューラルネットワーク操作がインターリーブされる転換ソリューションと比較して、提案された方法は、エントロピーコーディングプロセスをニューラルネットワークから独立して実行されることを有利に可能にし、したがってコーディング効率を向上させることができる。
【0006】
第2の態様では、データを処理する装置が提案される。前記データを処理する装置は、プロセッサと、命令を備えた非一時的メモリとを含む。前記命令は、前記プロセッサによって実行されると、前記プロセッサに、本開示の第1の態様による方法を実行させる。
【0007】
第3の態様では、非一時的なコンピュータ読み取り可能記憶媒体が提案される。前記非一時的なコンピュータ読み取り可能記憶媒体は、プロセッサに本開示の第1の態様による方法を実行させる命令を記憶する。
【0008】
第4の態様では、別の非一時的なコンピュータ読み取り可能記録媒体が提案される。前記非一時的なコンピュータ読み取り可能記録媒体は、データ処理装置によって実行される方法によって生成されたデータのビットストリームを記憶する。前記方法は、前記データの再構成された潜在表現の第1のサンプルの第1部分を決定するステップであって、前記第1部分が前記第1のサンプルの予測を示すステップと、前記第1のサンプルの第2部分を決定するステップであって、前記第2部分が前記第1のサンプルと前記第1部分との間の差を示すステップと、前記第2部分に基づいて前記ビットストリームを生成するステップとを含む。
【0009】
第5の態様では、データのビットストリームを記憶する方法が提案される。前記方法は、前記データの再構成された潜在表現の第1のサンプルの第1部分を決定するステップであって、前記第1部分が前記第1のサンプルの予測を示すステップと、前記第1のサンプルの第2部分を決定するステップであって、前記第2部分が前記第1のサンプルと前記第1部分との間の差を示すステップと、前記第2部分に基づいて前記ビットストリームを生成するステップと、前記ビットストリームを非一時的なコンピュータ読み取り可能記録媒体に記憶するステップとを含む。
【0010】
この発明の内容は、詳細な説明でさらに詳しく説明する概念の選択を簡略化した形式で紹介するために提供される。この発明の内容は、請求された主題の主要な特徴又は本質的な特徴を特定することを意図するものではなく、請求された主題の範囲を制限するために使用されることも意図するものではない。
【図面の簡単な説明】
【0011】
添付の図面を参照した以下の詳細な説明により、本開示の実施形態の上記及びその他の目的、特徴、及び利点がより明らかになる。本開示の例示的な実施形態において、同じ参照番号は通常、同じ構成要素を指す。
【0012】
図1】本開示のいくつかの実施形態による例示的なデータコーディングシステムを示すブロック図を示す。
【0013】
図2】一般的な変換コーディングスキームを示す。
【0014】
図3】コダック(Kodak)データセットからのイメージと、前記イメージの異なる表現を示す。
【0015】
図4】ハイパープライアモデルを具現するオートエンコーダのネットワークアーキテクチャを示す。
【0016】
図5】複合モデルのブロック図を示す。
【0017】
図6】複合モデルのエンコードプロセスを示す。
【0018】
図7】複合モデルのデコードプロセスを示す。
【0019】
図8】デコーダネットワークの問題点を示す。
【0020】
図9】最先端のイメージデコードアーキテクチャにおけるエントロピーコーディングサブネットワークを示す。
【0021】
図10】本開示のいくつかの実施形態によるデコードプロセスを示す。
【0022】
図11】本開示のいくつかの実施形態による別のデコードプロセスを示す。
【0023】
図12】本開示のいくつかの実施形態によるエンコードプロセスを示す。
【0024】
図13】本開示のいくつかの実施形態による別のエンコードプロセスを示す。
【0025】
図14】本開示のいくつかの実施形態によるデータデコードプロセスの例を示す。
【0026】
図15】本開示のいくつかの実施形態によるデータエンコードプロセスの例を示す。
【0027】
図16】本開示のいくつかの実施形態によるデータ処理方法のフローチャートを示す。
【0028】
図17】本開示の様々な実施形態を具現できるコンピューティングデバイスのブロック図を示す。
【0029】
図面全体を通じて、同一又は類似の参照番号は通常、同一又は類似の要素を指す。
【発明を実施するための形態】
【0030】
次に、いくつかの実施形態を参照して、本開示の原理を説明する。これらの実施形態は、説明のみを目的として記載されており、当業者が本開示を理解し具現するのを助けるものであり、本開示の範囲に関していかなる限定も示唆するものではないことは理解されるべきである。本明細書に記載の開示は、以下に記載する方法以外にも様々な方式で具現されることができる。
【0031】
以下の説明及び特許請求の範囲において、別段の定義がない限り、本明細書で使用される全ての技術用語及び科学用語は、本開示が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。
【0032】
本開示における「一つの実施形態」、「一実施形態」、「例示的な実施形態」などへの言及は、記載される実施形態が特定の特徴、構造、又は特性を含み得ることを示すが、必ずしも全ての実施形態が特定の特徴、構造、又は特性を含むとは限らない。また、そのような語句は必ずしも同じ実施形態を指しているわけではない。さらに、特定の特徴、構造、又は特性が例示的な実施形態に関連して説明される場合、明示的に記載されているか否かにかかわらず、他の実施形態に関連してそのような特徴、構造、又は特性に影響を与えることは当業者の知識の範囲内であることが指摘される。
【0033】
「第1の」及び「第2の」などの用語は、本明細書では様々な要素を説明するために使用され得るが、これらの要素はこれらの用語によって限定されるべきではないことは理解されるべきである。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、例示的な実施形態の範囲から逸脱することなく、第1の要素が第2の要素と呼ばれ得、同様に、第2の要素が第1の要素と呼ばれ得る。本明細書で使用されるように、「及び/又は」という用語には、列挙された用語の1つ又は複数のあらゆる組み合わせが含まれる。
【0034】
本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、例示的な実施形態を限定することを意図したものではない。本明細書で使用されるように、単数形「a(一つの)」、「an(一つの)」、及び「the(その)」は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。「含む」、「備える」、「有する」、「持つ」、「含有する」及び/又は「包含する」という用語は、本明細書で使用される場合、記載された特徴、要素、及び/又は構成要素などの存在を指定するが、1つ又は複数の他の特徴、要素、構成要素及び/又はそれらの組み合わせの存在又は追加を排除するものではないことがさらに理解されるであろう。
【0035】
例示的な環境
図1は、本開示の技術を利用し得る例示的なデータコーディングシステム100を示すブロック図である。図示されるように、データコーディングシステム100は、ソースデバイス110と、宛先デバイス120とを含み得る。ソースデバイス110は、データエンコーディングデバイスとも呼ばれ得、宛先デバイス120は、データデコーディングデバイスとも呼ばれ得る。動作中、ソースデバイス110は、エンコードされたデータを生成するように構成され得、宛先デバイス120は、ソースデバイス110によって生成されたエンコードされたデータをデコードするように構成され得る。ソースデバイス110は、データソース112と、データエンコーダ114と、入力/出力(I/O)インターフェース116とを含み得る。
【0036】
データソース112は、データキャプチャデバイスなどのソースを含み得る。データキャプチャデバイスの例としては、データプロバイダからデータを受信するインターフェース、データを生成するためのコンピュータグラフィックスシステム、及び/又はそれらの組み合わせが含まれるが、これらに限定されない。
【0037】
データは、ビデオの1つ又は複数のピクチャ又は1つ又は複数のイメージを含み得る。データエンコーダ114は、データソース112からのデータをエンコードしてビットストリームを生成する。ビットストリームは、データのコード化表現を形成する一連のビットのシーケンスを含み得る。ビットストリームは、コード化されたピクチャと関連データとを含み得る。コード化されたピクチャは、ピクチャのコード化表現である。関連データは、シーケンスパラメータセット、ピクチャパラメータセット、及び他の構文構造を含み得る。I/Oインターフェース116は、変調器/復調器及び/又は送信機を含み得る。エンコードされたデータは、I/Oインターフェース116を介してネットワーク130Aを通して宛先デバイス120に直接送信され得る。エンコードされたデータは、宛先デバイス120によるアクセスのために、記憶媒体/サーバ130Bに記憶されてもよい。
【0038】
宛先デバイス120は、I/Oインターフェース126と、データデコーダ124と、表示デバイス122とを含み得る。I/Oインターフェース126は、受信機及び/又はモデムを含み得る。I/Oインターフェース126は、ソースデバイス110又は記憶媒体/サーバ130Bからエンコードされたデータを取得し得る。データデコーダ124は、エンコードされたデータをデコードし得る。表示デバイス122は、デコードされたデータをユーザに表示し得る。表示デバイス122は、宛先デバイス120と統合される場合もあれば、外部表示デバイスとインターフェースするように構成された宛先デバイス120の外部にある場合もある。
【0039】
データエンコーダ114及びデータデコーダ124は、ビデオコーディング規格又は静止ピクチャコーディング規格、及びその他の現在の規格及び/又はさらなる規格などのデータコーディング規格に従って動作し得る。
【0040】
本開示のいくつかの例示的な実施形態を、以下で詳細に説明する。本明細書では、理解を容易にするためにセクション見出しが使用されているが、セクションに開示されている実施形態をそのセクションのみに限定するものではないことは理解されるべきである。さらに、特定の実施形態は、多用途ビデオコーディング又は他の特定のデータコーデックを参照して説明されているが、開示されている技術は、他のコーディング技術にも適用可能である。さらに、いくつかの実施形態ではコーディングステップを詳細に説明しているが、コーディングを元に戻す対応するステップのデコードは、デコーダによって具現され得ることが理解されるであろう。さらに、データ処理という用語は、データコーディング又は圧縮、データデコード又は解凍、及びデータが1つの圧縮フォーマットから別の圧縮フォーマット又は異なる圧縮ビットレートで表現されるデータトランスコーディングを包含する。

[1. 概要]
自己回帰サブネットワークとエントロピーコーディングエンジとを含むニューラルネットワークベースのイメージ及びビデオ圧縮方法であって、エントロピーコーディングは、自己回帰サブネットワークとは独立して実行される。

[2. 背景]
過去10年間、様々な分野、特にコンピュータービジョン及びイメージ処理でディープラーニングが急速に発展してきた。コンピュータービジョン分野でのディープラーニング技術の大きな成功に触発され、多くの研究者が従来のイメージ/ビデオ圧縮技術からニューラルイメージ/ビデオ圧縮技術に注目を移した。ニューラルネットワークは、もともと神経科学と数学の学際的な研究で発明された。ニューラルネットワークは、非線形変換と分類の背景で強力な機能を発揮してきた。ニューラルネットワークベースのイメージ/ビデオ圧縮技術は、過去5年間で顕著な進展を遂げた。最新のニューラルネットワークベースのイメージ圧縮アルゴリズムは、MPEG及びVCEGの専門家とJoint Video Experts Team (共同ビデオ専門家チーム、JVET)が開発した最新のビデオコーディング標準であるVersatile Video Coding(VVC)に匹敵するR-Dパフォーマンスを実現していると報告されている。ニューラルイメージ圧縮のパフォーマンスが継続的に向上しているため、ニューラルネットワークベースのビデオ圧縮は、積極的に開発されている研究分野になっている。但し、問題の特有の難しさが原因で、ニューラルネットワークベースのビデオコーディングはまだ初期段階にある。

[2.1. イメージ/ビデオ圧縮]
イメージ/ビデオ圧縮とは、通常、イメージ/ビデオをバイナリコードに圧縮して保存と転送を容易にするコンピューティング技術を指す。バイナリコードは、元のイメージ/ビデオをロスレスに再構成することをサポートする場合もあれば、サポートしていない場合もあり、ロスレス圧縮及びロッシー圧縮と呼ばれる。ロスレス再構成はほとんどのシナリオで必要ないため、ほとんどの取り組みがロッシー圧縮に向けられている。通常、イメージ/ビデオ圧縮アルゴリズムのパフォーマンスは、2つの側面、即ち、圧縮率と再構成品質から評価される。圧縮率はバイナリコードの数に直接関係しており、少ないほど優れている。再構成品質は、再構成されたイメージ/ビデオと元のイメージ/ビデオを比較して測定され、高いほど優れている。
イメージ/ビデオ圧縮技術は、従来のビデオコーディング方法とニューラルネットワークベースのビデオ圧縮方法の2枝に分かれる。従来のビデオコーディング方式では、変換ベースのソリューションが採用されており、このソリューションでは、研究者は、量子化領域での依存関係をモデリングするエントロピーコードを慎重に手動エンジニアリングすることにより、潜在変数(例:DCT又はウェーブレット係数)における統計的依存関係を利用している。ニューラルネットワークベースのビデオ圧縮には、ニューラル ネットワークベースのコーディングツールとエンドツーエンドのニューラルネットワークベースのビデオ圧縮の2種類がある。前者は、コーディングツールとして既存の従来のビデオコーデックに組み込まれ、フレームワークの一部としてのみ機能するが、後者は、従来のビデオコーデックに依存せずにニューラルネットワークに基づいて開発された別のフレームワークである。
過去30年間で、増加するビジュアルコンテンツに収容するために、一連の従来のビデオコーディング規格が開発されてきた。国際標準化組織ISO/IECには、Joint Photographic Experts Group(ジョイント・フォトグラフィック・エキスパーツ・グループ、JPEG)と、Moving Picture Experts Group (ムービング・ピクチャー・エクスパーツ・グループ、MPEG)という2つの専門家グループがあり、ITU-Tにも、イメージ/ビデオコーディング技術の標準化を目的とした独自のVideo Coding Experts Group(ビデオコーディング専門家グループ、VCEG)がある。これらの組織によって公開された影響力のあるビデオコーディング規格には、JPEG、JPEG 2000、H.262、H.264/AVC、H.265/HEVCが含まれる。H.265/HEVCの後、MPEGとVCEGによって結成されたJoint Video Experts Team(共同ビデオ専門家チーム、JVET)は、新しいビデオコーディング規格Versatile Video Coding(多用途ビデオコーディング、VVC)に取り組んできた。VVCの最初のバージョンは2020年7月にリリースされた。VVCでは、HEVCと比較して、同じ視覚品質で平均50%のビットレート削減が報告されている。
ニューラルネットワークベースのイメージ/ビデオ圧縮は、ニューラルネットワークベースのイメージコーディングに取り組んでいる研究者が多数いたため、新しい発明ではない。しかし、ネットワークアーキテクチャは比較的浅く、パフォーマンスは満足できるものではなかった。豊富なデータと強力なコンピューティングリソースのサポートにより、ニューラルネットワークベースの方法は、様々なアプリケーションでより良く活用されている。現在、ニューラルネットワークベースのイメージ/ビデオ圧縮は有望な改善を示し、その実現可能性が確認された。ただし、この技術はまだ成熟にはほど遠く、多くのチャレンジに対処する必要がある。

[2.2 ニューラルネットワーク]
ニューラルネットワークは、人工ニューラルネットワーク(ANN)とも呼ばれ、通常、複数の処理層で構成され、各層が複数の単純だが非線形の基本計算ユニットで構成される、機械学習技術で使用される計算モデルである。このようなディープネットワークの利点の1つは、複数の抽象化レベルでデータを処理し、データをいろいろな種類の表現に転換する能力であると考えられていることである。これらの表現は手動で設計されるのではなく、処理層を含むディープネットワークは、一般的な機械学習手順を使用して大量のデータから学習されることに注意されたい。ディープラーニングでは、手動で作成された表現が不要になるため、音響及び視覚信号などのネイティブに構造化されていないデータの処理に特に役立つと見なされている一方、そのようなデータの処理は人工知能分野における長年の困難となっている。

[2.3 イメージ圧縮のためのニューラルネットワーク]
イメージ圧縮方法に使用される既存のニューラルネットワークは、ピクセル確率モデリングとオートエンコーダの2つのカテゴリに分類され得る。前者は予測コーディング戦略に属し、後者は変換ベースのソリューションである。文献では、これら2つの方法が組み合わされている場合がある。

[2.3.1 ピクセル確率モデリング]
シャノンの情報理論[6]によれば、ロスレスコーディングの最適な方法は、最小コーディング率-logp(x)に到達でき、ここで、p(x)はシンボルxの確率である。文献では多数のロスレスコーディング方法が開発されており、その中で算術コーディングは最適な方法の1つであると考えられている。確率分布p(x)が与えられると、算術コーディングは、丸め誤差を考慮せずに、コーディング率が理論上の限界-logp(x)に可能な限り近くなることを保証する。したがって、残る問題は確率を如何にして決定するかであるが、これは次元の呪いのため、自然イメージ/ビデオでは非常に挑戦的である。
予測コーディング戦略に従って、p(x)をモデル化する1つの方法は、以前の観測に基づいてラスタースキャン順にピクセル確率を1つずつ予測することであり、ここで、xはイメージである。
【数1】
ここで、mとnは、それぞれイメージの高さと幅である。前の観測は、現在のピクセルのコンテキストとも呼ばれる。イメージが大きい場合、条件付き確率を推定することが難しい場合があり、そのため、簡略化された方法は、そのコンテキストの範囲を制限することである。
【数2】
ここで、kはコンテキストの範囲を制御する事前定義された定数である。
条件では、他の色成分のサンプル値も考慮され得ることに注意すべきである。例えば、RGB色成分をコード化する場合、Rサンプルは以前にコード化されたピクセル(R/G/Bサンプルを含む)に依存し、現在のGサンプルは以前にコード化されたピクセルと現在のRサンプルに従ってコード化され得るが、現在のBサンプルをコード化する場合は、以前にコード化されたピクセルと現在のR及びGサンプルも考慮され得る。
ニューラルネットワークはもともとコンピュータービジョンタスクのために導入され、回帰問題及び分類問題に効果的であることが証明されている。したがって、コンテキストx,x,...xi-1が与えられた場合のp(x)の確率を、ニューラルネットワークを使用して推定することが提案されている。既存の設計では、バイナリイメージ、つまりx∈{-1、+1}に対してピクセル確率が提案されている。ニューラル自己回帰分布推定器(NADE)は、ピクセル確率モデリング用に設計されており、単一の隠れ層を持つフィードフォワードネットワークがある。同様の作業が別の既存の設計で提示されており、フィードフォワードネットワークには隠れ層をスキップする接続もあり、パラメータも共有されている。実験はバイナリ化されたMNISTデータセットで実行される。既存の設計では、NADEは実数値モデルRNADEに拡張され、確率p(x|x,...xi-1)がガウス分布の混合で導出される。そのフィードフォワードネットワークにも単一の隠れ層があるが、この隠れ層は飽和を避けるために再スケーリングされ、シグモイドの代わりに正規化線形関数(ReLU)を使用する。既存の設計では、ピクセルの順序を再編成し、より深いニューラルネットワークを使用することでNADEとRNADEが改善されている。
進んだニューラルネットワークの設計は、ピクセル確率モデリングの改善に重要な役割を果たす。既存の設計では、確率モデリングのための条件付きガウススケール混合の混合と連携する多次元長短期記憶(LSTM)が提案されている。LSTMは特殊な種類の再帰型ニューラルネットワーク(RNN)であり、シーケンシャルデータのモデリングが得意であることが証明されている。LSTMの空間バリアントは、既存の設計の後でイメージに使用される。RNNとCNN、つまりそれぞれPixelRNNとPixelCNNを含む、いくつかの異なるニューラルネットワークが研究されている。PixelRNNでは、行LSTMと対角BiLSTMと呼ばれるLSTMの2つのバリアントが提案されており、後者はイメージ用に特別に設計されている。PixelRNNには残差接続が組み込まれて、最大12層のディープニューラルネットワークのトレーニングに役立つ。PixelCNNでは、コンテキストの形状に合わせてマスクされた畳み込みが使用される。以前の研究と比較すると、PixelRNNとPixelCNNはより自然的イメージに特化している。即ち、それらは、ピクセルを離散値(例:0、1、…、255)と見なし、離散値に対して多項分布を予測する。それらは、RGB色空間でカラーイメージを扱い、大規模イメージデータセットImageNetでうまく機能する。既存の設計では、Gated PixelCNNが、PixelCNNを改善するために提案されており、PixelRNNに匹敵するパフォーマンスを実現するが、複雑さははるかに少ない。既存の設計では、PixelCNNに対する次の改善を加えたPixelCNN++が提案されている。即ち、256方向多項分布ではなく離散ロジスティック混合尤度を使用する。ダウンサンプリングが、複数の解像度で構造をキャプチャするために使用される。追加のショートカット接続が、トレーニングを高速化するために導入される。ドロップアウトが、正規化に採用される。RGBが1つのピクセルに結合される。既存の設計では、カジュアル畳み込みと自己注意を組み合わせたPixelSNAILが提案されている。
上記の方法のほとんどは、ピクセル領域における確率分布を直接モデル化する。一部の研究者は、明示的又は潜在表現に基づいて、確率分布を条件付きのものとしてモデル化しようと試みる。それはそれとして、次のように推定される。
【数3】
ここで、hは追加条件であり、p(x)=p(h)p(x|h)は、モデリングが無条件のものと条件付きのものに分割されることを意味する。追加条件は、イメージラベル情報又は高レベル表現にすることができる。

[2.3.2 オートエンコーダ]
オートエンコーダは、既存の設計で提案されたよく知られた作業に由来している。この方法は次元削減のためにトレーニングされており、エンコードとデコードの2つの部分で構成される。エンコード部分は、高次元の入力信号を低次元表現に転換し、通常、空間サイズが縮小されるが、チャネル数は多くなる。デコード部分は、低次元表現から高次元入力を復元することを試みる。オートエンコーダは、表現の自動学習を可能にし、手作業で作成された特徴の必要性を排除するが、これは、ニューラルネットワークの最も重要な利点の1つであると考えられている。
図2は、一般的な変換コーディングスキームを示している。元のイメージxは、分析ネットワークgによって変換されて、潜在表現yが実現される。潜在表現yは量子化され、ビットに圧縮される。ビット数Rを使用してコーディングレートを測定する。次に、量子化潜在表現
(外1)
(以下「y^」等とも表す。)は、合成ネットワークgによって逆変換されて、再構成されたイメージx^が得られる。歪みは、関数g使用してxとx^を変換することによって知覚空間で計算される。
オートエンコーダネットワークをロッシーイメージ圧縮に適用するのは直感的である。十分にトレーニングされたニューラルネットワークから学習した潜在表現のみをエンコードする必要がある。ただし、元のオートエンコーダは圧縮用に最適化されていないため、トレーニング済みのオートエンコーダを直接使用しても効率的ではないため、オートエンコーダをイメージ圧縮に適応させることは些細ではない。その上、他の大きなチャレンジも存在する。1つ目に、低次元表現はエンコードする前に量子化されるべきであるが、量子化は微分可能ではなく、ニューラルネットワークをトレーニングする際のバックプロパゲーションで必要である。2つ目に、歪みとレートの両方を考慮する必要があるため、圧縮シナリオでの目的が異なる。レートの推定は挑戦的である。3つ目に、実用的なイメージコーディング方式は、可変レート、スケーラビリティ、エンコード/デコード速度、相互運用性をサポートする必要がある。これらのチャレンジに対応して、多くの研究者がこの分野に積極的に貢献している。
イメージ圧縮用のプロトタイプのオートエンコーダは図2に示されており、これは「変換コーディング」戦略と見なすことができる。元のイメージxは「分析」ネットワークy=g(x)で変換され、ここで、yは量子化されコード化される潜在表現である。合成ネットワークは量子化潜在表現y^を逆変換して、再構成されたイメージx^=g(y^)を取得する。フレームワークは、レート歪み損失関数、つまり
(外2)
を使用してトレーニングされ、ここで、Dはxとx^の間の歪み、Rは量子化された表現y^から計算又は推定されたレート、λはラグランジュ乗数である。Dはピクセル領域でも知覚領域でも計算され得ることに注意すべきである。既存の研究は全てこのプロトタイプに従っており、違いはネットワーク構造又は損失関数だけであり得る。
ネットワーク構造の点では、RNNとCNNが最も広く使用されているアーキテクチャである。RNN関連カテゴリでは、TodericiらがRNNを使用した可変レートイメージ圧縮について一般的なフレームワークを提案している。彼らはバイナリ量子化を使用してコードを生成し、トレーニング中にレートを考慮しない。このフレームワークは確かにスケーラブルなコーディング機能を提供し、畳み込み層と逆畳み込み層を備えたRNNはきちんと機能すると報告されている。Todericiらは次に、バイナリコードを圧縮するために、PixelRNNに似たニューラルネットワークを使用してエンコーダをアップグレードすることにより、改良版を提案した。このパフォーマンスは、MS-SSIM評価メトリックを使用したコダック(Kodak)イメージデータセットでJPEGよりも優れていると報告されている。Johnstonらは、隠れ状態プライミングを導入することで、RNNベースのソリューションをさらに改良した。その上、SSIM加重損失関数も設計され、空間的に適応的なビットレートメカニズムが有効になっている。彼らは、評価メトリックとしてMS-SSIMを使用して、コダック(Kodak)イメージデータセットでBPGよりも優れた結果を達成している。Covellらは、ストップコードトレラントRNNをトレーニングすることで空間適応型ビットレートをサポートする。
(外3)
(以下、「Balle」とも表す。)らは、レート歪み最適化されたイメージ圧縮の一般的なフレームワークを提案している。多値量子化を使用して整数コードを生成し、トレーニング中にレートを考慮し、即ち、損失は、MSE又は他の値になり得る共同レート歪みコストである。彼らは、トレーニング中に量子化を刺激するためにランダムな均一ノイズを追加し、ノイジーコードの微分エントロピーをレートのプロキシとして使用する。彼らは、ネットワーク構造として、後に非線形パラメトリック正規化が続く線形マッピングで構成される一般化除算正規化(GDN)を使用する。イメージコーディングにおけるGDNの有効性は、既存の設計で検証されている。次に、Balleらは、それぞれの後にダウンサンプリング層が続く3つの畳み込み層、及びを順方向変換としてのGDN層を使用する改良版を提案してる。したがって、彼らは、それぞれの後にアップサンプリング層と畳み込み層が続く3つの層の逆GDNを使用して逆変換を刺激している。追加的に、整数コードを圧縮するための算術コーディング方法が考案されている。報告によると、このパフォーマンスは、コダック(Kodak)データセットでMSEに関してJPEG及びJPEG2000よりも優れている。さらに、Balleらは、オートエンコーダにスケールハイパープライアを考案することでこの方法を改良している。彼らは、サブネットh使用して潜在表現yをz=h(y)に変換し、zは量子化されてサイド情報として送信される。したがって、逆変換は、量子化されたサイド情報z^から量子化されたy^の標準偏差にデコードしようとするサブネットh使用して具現されるが、これはy^の算術コーディング中にさらに使用される。コダック(Kodak)イメージセットでは、彼らの方法はPSNRに関してBPGよりもわずかに劣っている。D.Minnenらは、自己回帰モデルを導入して残差空間における構造をさらに活用して、標準偏差と平均の両方を推定している。既存の設計では、Z.Chengらはガウス混合モデルを使用して残差の冗長性をさらに排除している。報告されたパフォーマンスは、PSNRを評価基準として使用したコダック(Kodak)イメージセットのVVCと比肩する。

[2.3.3 ハイパープライアモデル]
イメージ圧縮の変換コーディング手法では、エンコーダサブネットワーク(セクション2.3.2)が、パラメトリック分析変換g(x,Φ)を使用して、イメージベクトルxを潜在表現yに変換し、次に、これが量子化されてy^を形成する。y^は離散値であるため、算術コーディングなどのエントロピーコーディング手法を使用してロスレス圧縮され、ビットシーケンスとして送信され得る。
図3の中央左と中央右のイメージから明らかなように、y^の要素間には著しい空間依存性がある。特に、それらのスケール(中央右のイメージ)は空間的に結合されているように見える。既存の設計では、空間依存性を捕捉し、冗長性をさらに削減するために、追加のランダム変数セットz^が導入されている。この場合、イメージ圧縮ネットワークは図4に示されている。
図4では、モデルの左側はエンコーダgとデコーダg(セクション2.3.2で説明)である。右側は、z^を取得するために使用される追加のハイパーエンコーダhとハイパーデコーダhネットワークである。このアーキテクチャでは、エンコーダは入力イメージxをgに適用し、空間的に変化する標準偏差を持つ応答yを生成する。応答yはhに入力され、zの標準偏差の分布を要約する。次に、zは量子化(z^)され、圧縮され、サイド情報として送信される。次に、エンコーダは量子化されたベクトルz^を使用して標準偏差の空間分布σを推定し、それを使用して、量子化されたイメージ表現y^を圧縮して送信する。デコーダは、最初に圧縮された信号からz^を復元する。次に、hを使用してσを取得し、これにより、y^も正常に復元する正しい確率推定が提供される。次に、y^をgに入力して、再構成されたイメージを取得する。
ハイパーエンコーダとハイパーデコーダをイメージ圧縮ネットワークに追加すると、量子化潜在y^の空間冗長性が削減される。図3の右端のイメージは、ハイパーエンコーダ/デコーダを使用した場合の量子化潜在に対応してする。中央右のイメージと比較すると、量子化潜在のサンプルの相関が低いため、空間冗長性が大幅に削減されている。
図3は、コダック(Kodak)データセットからのイメージと、前記イメージの異なる表現を示している。図3の左端のイメージは、コダック(Kodak)データセットからのイメージを示している。図3の中央左のイメージは、そのイメージの潜在表現yの視覚化を示している。図3の中央右のイメージは、潜在の標準偏差σを示している。図3の右端のイメージは、ハイパープライア(ハイパーエンコーダとデコーダ)ネットワークが導入された後の潜在yを示している。
図4は、ハイパープライアモデルを具現するオートエンコーダのネットワークアーキテクチャを示している。左側はイメージオートエンコーダネットワークを示し、右側はハイパープライアサブネットワークに対応する。分析変換及び合成変換は、gとgで表記される。Qは量子化を表し、AE、ADはそれぞれ算術エンコーダと算術デコーダを表す。ハイパープライアモデルは、ハイパーエンコーダ(hで表記)と、ハイパーデコーダ(hで表記)の2つのサブネットワークで構成される。ハイパープライアモデルは、量子化潜在y^のサンプルの確率分布に関する情報を含む量子化ハイパー潜在(z^)を生成する。z^はビットストリームに含まれ、y^とともに受信機(デコーダ)に送信される。

[2.3.4 コンテクストモデル]
ハイパープライアモデルは量子化潜在y^の確率分布のモデリングを改善するが、その因果コンテキストから量子化潜在を予測する自己回帰モデル(コンテクストモデル)を利用することで、さらなる改善が得られる。
自己回帰という用語は、プロセスの出力が後でそのプロセスへの入力として使用されることを意味する。例えば、コンテクストモデルサブネットワークは潜在の1つのサンプルを生成し、これは後で次のサンプルを取得するための入力として使用される。
既存の設計では、ハイパープライアモデルサブネットワーク(ハイパーエンコーダとハイパーデコーダ)とコンテクストモデルサブネットワークの両方が利用されるジョイントアーキテクチャが使用されている。ハイパープライアとコンテクストモデルを組み合わせて、量子化潜在y^の確率モデルを学習し、次にエントロピーコーディングに使用される。図5に示すように、コンテキストサブネットワークとハイパーデコーダサブネットワークの出力は、エントロピーパラメータ(Entropy Parameter)と呼ばれるサブネットワークによって組み合わされ、ガウス確率モデルの平均μとスケール(又は分散)σパラメータを生成する。次に、ガウス確率モデルを使用して、算術エンコーダ(AE)モジュールの助けを借りて、量子化潜在のサンプルをビットストリームにエンコードする。デコーダでは、算術デコーダ(AD)モジュールによって、ガウス確率モデルを使用してビットストリームから量子化潜在y^を取得する。
図5は、複合モデルのブロック図を示す。複合モデルは、潜在の確率分布をその因果コンテキスト(コンテクストモデル)から推定する自己回帰コンポーネントを、ハイパープライア及び根底にあるオートエンコーダを共同で最適化する。実数値の潜在表現は量子化(Q)されて量子化潜在(y^)及び量子化ハイパー潜在(z^)が作成され、これらは算術エンコーダ(AE)を使用してビットストリームに圧縮され、算術デコーダ(AD)によって解凍される。強調表示された領域は、圧縮されたビットストリームからイメージを復元するために受信機(つまり、デコーダ)によって実行されるコンポーネントに対応する。
通常、潜在サンプルはガウス分布又はガウス混合モデル(これらに限定されない)としてモデル化される。既存の設計では、図5に従って、コンテクストモデルとハイパープライアを共同で使用して、潜在サンプルの確率分布を推定する。ガウス分布は平均と分散(シグマ又はスケールとも呼ばれる)で定義できるため、ジョイントモデルを使用して平均と分散(μとσで表記)を推定する。

[2.3.5 共同自己回帰ハイパープライアモデルを使用したエンコードプロセス]
図5は、最先端の圧縮方法に対応している。このセクションと次のセクションでは、エンコード及びデコードプロセスを別々に説明する。
図6は、エンコードプロセスを示している。入力イメージは、最初にエンコーダサブネットワークで処理される。エンコーダは、入力イメージを潜在と呼ばれ、yで表記される変換された表現に変換する。次に、yは量子化ブロック(Qで表記)に入力されて、量子化潜在(y^)が得られる。次に、y^は算術エンコードモジュール(AEで表記)を使用してビットストリーム(bits1)に転換される。算術エンコードブロックは、y^の各サンプルを順番に1つずつビットストリーム(bits1)に転換する。
ハイパーエンコーダ、コンテキスト、ハイパーデコーダ、及びエントロピーパラメータサブネットワークモジュールが、量子化潜在y^のサンプルの確率分布を推定するために使用される。潜在yは、ハイパー潜在(zで表記)を出力するハイパーエンコーダに入力される。次にハイパー潜在は量子化され(z^)、算術エンコード(AE)モジュールを使用して2番目のビットストリーム(bits2)が生成される。分解されたエントロピーモジュールは、量子化されたハイパー潜在をビットストリームにエンコードするために使用される確率分布を生成する。量子化されたハイパー潜在には、量子化潜在(y^)の確率分布に関する情報が含まれる。
エントロピーパラメータサブネットワークは、量子化潜在y^をエンコードするために使用される確率分布推定を生成する。エントロピーパラメータによって生成される情報には通常、平均μとスケール(又は分散)σパラメータが含まれ、これらはガウス確率分布を取得するために一緒に使用される。ランダム変数xのガウス分布は、
(外4)
として定義され、ここで、パラメータμは分布の平均値又は期待値(及びその中央値と最頻値)であり、パラメータσはその標準偏差(又は分散、又はスケール)である。ガウス分布を定義するには、平均と分散を決定する必要がある。既存の設計では、エントロピーパラメータモジュールを使用して平均値と分散値を推定する。
サブネットワークハイパーデコーダは、エントロピーパラメータサブネットワークによって使用される情報の一部を生成し、情報の他の部分はコンテキストモジュールと呼ばれる自己回帰モジュールによって生成される。コンテキストモジュールは、算術符号化(AE)モジュールによって既にエンコードされているサンプルを使用して、量子化潜在のサンプルの確率分布に関する情報を生成する。量子化潜在y^は、通常、多くのサンプルで構成される行列である。サンプルは、行列y^の次元に応じて、y^[i,j,k]又はy^[i,j]などのインデックスを使用して示すことができる。サンプルy^[i,j]は、通常、ラスタースキャン順序を使用してAEによって1つずつエンコードされる。ラスタースキャン順序では、行列の行は上から下に処理され、行内のサンプルは左から右に処理される。このようなシナリオ(AEがラスタースキャン順序を使用してサンプルをビットストリームにエンコードする)では、コンテキストモジュールは、以前にエンコードされたサンプルを使用して、ラスタースキャン順序でサンプルy^[i,j]に関する情報を生成する。コンテキストモジュールとハイパーデコーダによって生成された情報は、エントロピーパラメータモジュールによって組み合わされて、量子化潜在y^をビットストリーム(bits1)にエンコードするために使用される確率分布を生成する。
最後に、エンコードプロセスの結果として、最初のビットストリームと2番目のビットストリームがデコーダに送信される。
上記のモジュールには、他の名前も使用され得ることに注意されたい。
上記の説明では、図6の全ての要素を総称してエンコーダと呼ぶ。入力イメージを潜在表現に転換する分析変換もエンコーダ(又はオートエンコーダ)と呼ばれる。

[2.3.6 共同自己回帰ハイパープライアモデルを使用したデコードプロセス]
図7は、デコードプロセスを個別に示している。デコードプロセスでは、デコーダはまず、対応するエンコーダによって生成された最初のビットストリーム(bits1)と2番目のビットストリーム(bits2)を受け取る。bits2は、分解エントロピーサブネットワークによって生成された確率分布を利用して、算術デコード(AD)モジュールによって最初にデコードされる。分解エントロピーモジュールは通常、所定のテンプレートを使用して、例えば、ガウス分布の場合は所定の平均値と分散値を使用して、確率分布を生成する。bits2の算術デコードプロセスの出力は、量子化されたハイパー潜在であるz^である。ADプロセスは、エンコーダで適用されたAEプロセスに戻る。AEとADのプロセスはロスレスであり、エンコーダによって生成された量子化されたハイパー潜在z^が変更せずにデコーダで再構成できるということを意味する。
z^を取得した後、ハイパーデコーダによって処理され、その出力はエントロピーパラメータモジュールに送られる。デコーダで使用される3つのサブネットワーク、コンテキスト、ハイパーデコーダ、及びエントロピーパラメータは、エンコーダのものと同一である。したがって、デコーダでは(エンコーダと同様に)まったく同じ確率分布を取得でき、これは、量子化潜在y^を損失なく再構成するために不可欠である。その結果、エンコーダ取得された量子化潜在y^の同一バージョンをデコーダで取得できる。
確率分布(例:平均及び分散パラメータ)がエントロピーパラメータサブネットワークによって取得された後、算術復号化モジュールはビットストリームbits1から量子化潜在のサンプルを1つずつデコードする。実用的な観点からは、自己回帰モデル(コンテクストモデル)は本質的にシリアルであるため、並列化などの技術を使用して高速化することはできない。
最後に、完全に再構成された量子化潜在y^は、再構成イメージを取得するために合成変換(図7ではデコーダとして表記)モジュールに入力される。
上記の説明では、図7のすべての要素を総称してデコーダと呼ぶ。量子化潜在を再構成イメージに転換する合成変換もデコーダ(又はオートデコーダ)と呼ばれる。

[2.4 ビデオ圧縮のためのニューラルネットワーク]
従来のビデオコーディング技術と同様に、ニューラルイメージ圧縮はニューラルネットワークベースのビデオ圧縮におけるイントラ圧縮の基礎として機能するため、ニューラルネットワークベースのビデオ圧縮技術の開発はニューラルネットワークベースのイメージ圧縮よりも遅れているが、その複雑さのためにチャレンジを解決するにははるかに多くの努力が必要である。2017年から、数人の研究者がニューラルネットワークベースのビデオ圧縮方式に取り組んでいる。イメージ圧縮と比較して、ビデオ圧縮ではピクチャ間の冗長性を除去するための効率的な方法が必要である。したがって、ピクチャ間予測はこれらの作業の重要なステップである。動きの推定及び補正は広く採用されているが、最近までトレーニングされたニューラルネットワークによって具現されていない。
ニューラルネットワークベースのビデオ圧縮に関する研究は、ターゲットとされたシナリオに応じて、ランダムアクセスと、低遅延の2つのカテゴリに分けられる。ランダムアクセスの場合、シーケンスの任意のポイントからデコードを開始できる必要があり、通常はシーケンス全体を複数の個別のセグメントに分割し、各セグメントを個別にデコードできる。低遅延の場合、デコード時間の短縮を目的としており、通常は単に時間的に前のフレームを参照フレームとして使用して、後続のフレームをデコードする。

[2.4.1 低遅延]
Chenらは、トレーニングされたニューラルネットワークによるビデオ圧縮スキームを初めて提案した。彼らはまず、ビデオシーケンスフレームをブロックに分割し、各ブロックは、イントラコーディング又はインターコーディングの2つの利用可能なモードから1つを選択する。イントラコーディングを選択した場合は、ブロックを圧縮するための関連付けられたオートエンコーダがある。インターコーディングを選択した場合は、従来の方法で動き推定及び補正が実行され、トレーニングされたニューラルネットワークが残差圧縮に使用される。オートエンコーダの出力は、ハフマン(Huffman)法によって直接量子化及びコード化される。
Chenらは、PixelMotionCNNによる別のニューラルネットワークベースのビデオコーディングスキームを提案している。フレームは時間順に圧縮され、各フレームは、ラスタースキャン順に圧縮されるブロックに分割される。各フレームは、まず先行する2つの再構成されたフレームで外挿される。ブロックが圧縮される場合、外挿されたフレームは、現在のブロックのコンテキストとともにPixelMotionCNNに入力されて、潜在表現を導出する。次に、残差が可変レートイメージスキームによって圧縮される。このスキームは、H.264と比肩するパフォーマンスを発揮する。
Luらは、全てのモジュールがニューラルネットワークで具現される、本当の意味でのエンドツーエンドのニューラルネットワークベースのビデオ圧縮フレームワークを提案している。このスキームでは、現在のフレームと以前の再構成フレームを入力として受け入れ、動き情報として事前トレーニング済みのニューラルネットワークを使用してオプティカルフローを導出する。動き情報は参照フレームを使用してワープされ、その後、ニューラルネットワークによって動き補正フレームが生成される。残差と動き情報は、2つの別々のニューラルオートエンコーダで圧縮される。フレームワーク全体は、単一のレート歪み損失関数でトレーニングされる。H.264よりも優れたパフォーマンスを実現する。
Rippelらは、進んだニューラルネットワークベースのビデオ圧縮方式を提案しているす。これは、ニューラルネットワークを使用して従来のビデオコーディングスキームを継承及び拡張したもので、次の主な機能を備えている。1)1つのオートエンコーダのみを使用して動き情報と残差を圧縮する。2)複数のフレームと複数のオプティカルフローによる動き補正。3)オンライン状態を学習し、時間の経過とともに次のフレームに伝播する。このスキームは、MS-SSIMでHEVC参照ソフトウェアよりも優れたパフォーマンスを実現する。
J.Linらは、拡張されたエンドツーエンドのニューラルネットワークベースのビデオ圧縮フレームワークを提案している。このソリューションでは、複数のフレームが参照として使用される。これにより、複数の参照フレーム及び関連する動き情報を使用して、現在のフレームのより正確な予測を提供できる。その上、動きフィールド予測が展開されて、時間的チャネルに沿った動き冗長性を除去する。この作業では、以前のプロセスからの再構成アーティファクトを除去するために、後処理ネットワークも導入されている。パフォーマンスは、PSNRとMS-SSIMの両方の点でH.265よりも顕著に優れている。
Eirikurらは、スケールパラメータを追加することで、一般的に使用されるオプティカルフローを置き換えるスケールスペースフローを提案している。これは、H.264よりも優れたパフォーマンスを実現していると報告されている。
Z.Huらは、オプティカルフローのマルチ解像度表現を提案している。具体的には、動き推定ネットワークが異なる解像度の複数のオプティカルフローを生成し、損失関数の下でどれを選択するかをネットワークに学習させる。パフォーマンスはわずかに向上し、H.265よりも優れている。

[2.4.2 ランダムアクセス]
Wuらは、フレーム補間によるニューラルネットワークベースのビデオ圧縮スキームを提案している。キーフレームは最初にニューラルイメージ圧縮器で圧縮され、残りのフレームは階層順に圧縮される。彼らは知覚領域で動き補償を実行し、つまり、元のフレームの複数の空間スケールで特徴マップを導出し、動きを使用して特徴マップをワープするが、これはイメージ圧縮器に使用される。この方法は、H.264と比肩すると報告されている。
Djelouahらは、補間モデルが動き情報圧縮とイメージ合成を組み合わせ、イメージと残差に同じオートエンコーダを使用する補間ベースのビデオ圧縮方法を提案している。
Amirhosseinらは、決定論的エンコーダを備えた変分オートエンコーダに基づくニューラルネットワークベースのビデオ圧縮方法を提案している。具体的には、モデルは、オートエンコーダと、自己回帰プライアとで構成される。以前の方法とは異なり、この方法は、ピクチャのグループ(GOP)を入力として受け入れ、潜在表現をコード化する際に時間的相関を考慮して3D自己回帰プライアを組み入れる。これは、H.265に相当するパフォーマンスを提供する。

[2.5 準備]
ほぼ全ての自然的イメージ/ビデオはデジタルフォーマットである。グレースケールのデジタルイメージは
(外5)
で表すことができるが、ここで、
(外6)
(以下「D」とも表す。)はピクセルの値のセット、mはイメージの高さ、nはイメージの幅である。例えば、D={0,1,2,...,255}は一般的な設定で、この場合|D|=256=2となるため、ピクセルは8ビットの整数で表すことができる。圧縮されていないグレースケールのデジタルイメージは8ビット毎ピクセル(bpp)を有する一方、圧縮されたビットは明らかに少なくなる。
カラーイメージは通常、色情報を記録するために複数のチャネルで表される。例えば、RGB色空間では、イメージはx∈Dm×n×3で表記され、3つの個別のチャネルに赤、緑、青の情報が記憶される。8ビットのグレースケールイメージと同様に、圧縮されていない8ビットRGBイメージは24bppを有する。デジタルイメージ/ビデオは、異なる色空間で表すことができる。ニューラルネットワークベースのビデオ圧縮スキームは、主にRGB色空間で開発されているが、従来のコーデックでは通常、ビデオシーケンスを表すためにYUV色空間が使用される。YUV色空間では、イメージはY、Cb、Crの3つのチャネルに分解され、Yは輝度成分であり、Cb/Crは彩度成分である。人間の視覚システムは彩度成分にあまり敏感ではないため、CbとCrは通常、事前圧縮を実現するためにダウンサンプリングされるという利点がある。
カラービデオシーケンスは、フレームと呼ばれる複数のカラーイメージで構成され、異なるタイムスタンプでシーンを記録する。例えば、RGB色空間では、カラービデオは
X={x,x,...,x,...xT-1}で表記され得るが、ここで、Tはこのビデオシーケンス内のフレーム数、x∈Dm×nである。m=1080、n=1920、|D|=2で、ビデオが50フレーム毎秒(fps)の場合、この圧縮されていないビデオのデータレートは1920×1080×8×3×50=2,488,320,000ビット毎秒(bps)、約2.32Gbpsとなり、大量のストレージが必要になるため、インターネット経由で送信する前に圧縮される必要がある。
通常、ロスレス方式では自然的イメージに対して約1.5~3の圧縮率を達成できるが、これは明らかに要件を下回っている。したがって、さらなる圧縮率を達成するために、ロッシー圧縮が開発されたが、その代償として歪みが生じる。歪みは、元のイメージと再構成イメージの平均二乗差、つまり、平均二乗誤差(MSE)を計算することで測定できるす。グレースケールイメージの場合、MSEは次の式で計算できる。
【数4】
したがって、元のイメージと比較される再構成イメージの品質は、ピーク信号対雑音比(PSNR)によって測定できる。
【数5】
ここで、max(D)はDの最大値で、例えば、8ビットのグレースケールイメージの場合は255である。構造類似性(SSIM)及びマルチスケールSSIM(MS-SSIM)などの他の品質評価メトリックもある。
異なるロスレス圧縮方式を比較するには、圧縮率と結果のレートを比較するか、その逆を行うだけで十分である。ただし、異なるロッシー圧縮方法を比較するには、レートと再構成された品質の両方を考慮すべきである。例えば、いくつかの異なる品質レベルで相対レートを計算し、レートを平均化するのが一般的に採用される方法である。平均相対レートは、Bjontegaardのデルタレート(BDレート)として知られている。イメージ/ビデオコーディングスキームを評価するには、エンコード/デコードの複雑さ、スケーラビリティ、堅牢性など、他の重要な側面もある。

[3. 問題点]
[3.1 核心となる問題]
最先端のイメージ圧縮ネットワークには、圧縮パフォーマンスを向上させるための自己回帰モデル(例えば、コンテクストモデル)が含まれている。ただし、自己回帰モデルは本質的にシリアルなエントロピーデコードプロセスとインターリーブされ、結果的に、デコードプロセスは、本質的にシリアルになり、(効率的に並列化できない)、非常に遅くなる。
図8は、デコーダネットワークの問題を示している。問題は破線のボックスで強調表示されている。この問題は、最先端のイメージデコードアーキテクチャのエントロピーデコード部分に関係している。上記の図8は、最先端のデコーダ設計を示してる。破線の四角形にカプセル化された右側のモジュールは、量子化潜在y^のエントロピーデコードを担当する。この部分は、シリアルな性質のため、最先端のアーキテクチャでは非常に遅くなる。

[3.2 問題の詳細]
図9は、最先端のイメージデコードアーキテクチャにおけるエントロピーコーディングサブネットワークを示している。最先端のイメージデコードアーキテクチャでは、量子化潜在y^を再構成するプロセスは次のように実行される。
1. 量子化されたハイパー潜在z^はハイパーデコーダによって処理されて、第1の部分情報を生成する。第1の部分情報はエントロピーパラメータモジュールに送られる。
2. 量子化潜在y^[i,j]のサンプルを再構成するために、次の操作がシリアルかつ再帰的に実行される。
a.コンテキストモジュールは、サンプルy^[m,n]を使用して第2の部分情報を生成する。ここで、
i. n<j、又は
ii. nがjに等しい場合は、m<iである。
([m,n]に位置するサンプルは、既に再構成されているものである。)
b.第の及び第2の部分情報を使用して、エントロピーパラメータモジュールは、ガウス確率分布の平均と分散であるμ[i,j]とσ[i,j]を生成する。
c.算術デコーダは、平均と分散がそれぞれμ[i,j]とσ[i,j]である確率分布を使用して、ビットストリームからサンプルy^[i,j]をデコードする。
量子化潜在y^が上記のフローチャートに従って再構成された後、合成変換(デコーダ)によって処理されて、再構成されたピクチャが得られる。合成変換は、図7で使用されている表記に従ってデコーダと呼ばれる。上記のプロセス全体(y^の再構成とイメージの再構成とを含む)は、デコード又はデコーダとも呼ばれる。
上記では、量子化潜在のサンプルはy^[i,j]で表される。サンプルは必ずしもスカラー値ではなく、ベクトルで複数の要素を含み得ることに注意されたい。アプリケーションの残りの部分では、サンプルはy^[i,j]又はy^[:,i,j]で表される。後者では、「:」は第3の次元があることを示し、サンプルに複数の要素があることを強調するために使用される。
量子化潜在y^のサンプルが再構成された後、合成変換(即ち、デコーダ)が実行されて、再構成されたイメージが取得される。
上記の説明から明らかなように、算術デコード操作とコンテキストモジュール操作は、y^[i,j]のデコードのための完全にシリアルな操作を形成する。これは、y^のサンプルは並列に再構築できず、相次いで再構成される必要があるということを意味する。
算術デコードプロセス(算術コーディングに限定されず、レンジコーディングなどの他のエントロピーコーディング方法のほとんどを含む)は、計算的には単純であるが本質的に連続的な操作である。その理由は、ビットストリームが一連のビットで構成され、ビットを1つずつデコードする必要があるためである。このプロセスは、CPUのような高速な処理ユニットで実行されるのに適している。
一方、コンテキスト及びエントロピーパラメータモジュールは、計算集約型で、高度に並列化可能な操作である。これらは、GPUのような大規模並列処理ユニットで実行されるのに適している。
最先端のイメージコーディングアーキテクチャでは、コンテキスト及びエントロピーパラメータモジュールが算術デコードとインターリーブされる場合に問題が発生する。上のフローチャートで説明したように、y^の1つのサンプルをデコードするには、コンテキストモジュール、エントロピーパラメータモジュール、算術デコードモジュールの順の適用が必要である。
コンテキストモジュールとエントロピーパラメータモジュールはディープニューラルネットワークであるため、これは、膨大な量の操作が含まれることを意味する。算術デコードは比較的単純な操作であるが、完全にシリアルである。複雑な「コンテキスト」及び「エントロピーパラメータ」操作とインターリーブされた完全にシリアルな算術デコード操作を実行すると、デコードプロセスが大幅に遅くなる。

第1の例として、コンテキスト、算術デコード、エントロピーパラメータモジュールのプロセスがGPUで実行される場合、次のようになる。
1. 最初に、算術デコードを使用して量子化潜在のサンプルを取得する。算術デコードは完全にシリアルであるため、GPUの単一のコアのみが利用される。この間、他の全てのGPUコア(GPUには数千のコアがあり得る)はアイドル状態で待機する。さらに、GPUの各コアは、計算を高速に実行するように設計されていないため、低速である。
2. 量子化潜在のサンプルが取得されると、コンテキストモジュールとエントロピーパラメータモジュールがGPUの複数のコアを使用して実行される。コンテキスト及びエントロピーパラメータモジュールは大規模な並列化に適しているため、この第2のステップは効率的に実行でき、したがってGPUで実行するのに適している。
3. 量子化潜在の全てのサンプルがデコードされるまで、ステップ1に進む。
デコードをGPUで実行する場合、速度低下の根源はステップ1にあることがわかる。

第2の例として、コンテキスト、算術デコード、エントロピーパラメータモジュールのプロセスがCPUで実行されると、次のようになる。
1. 最初に、算術デコードを使用して量子化潜在のサンプルを取得する。算術デコードは完全にシリアルであるため、CPUが非常に適しており、したがってサンプルは非常に速く取得される。
2. 量子化潜在のサンプルが取得されると、コンテキストとエントロピーパラメータモジュールが実行される。ただし、CPUは膨大な数の演算を実行するのに適しておらず、いくつかの処理コアしか含んでいない。したがって、このステップは非常に遅くなる。
3. 潜在の全てのサンプルがデコードされるまで、ステップ1に進む。
プロセスがCPUで実行される場合、CPUでの実行には適さないステップ2によって速度低下が発生する。

最後に、第3の例として、デコードの一部をCPU(算術デコード)で実行し、一部をGPU(コンテキスト及びエントロピーパラメータ)で実行することを考えることができる。この場合、次のようになる。
1. 最初に、算術デコードを使用して潜在のサンプルを取得する。算術デコードは完全にシリアルであるため、CPUが非常に適しており、したがってサンプルは非常に速く取得される。この間、GPUはアイドル状態のままである。
2. 取得したデータはGPUに転送される。
3. 潜在のサンプルが取得されると、コンテキスト及びとエントロピーパラメータモジュールがGPUの複数のコアを使用して実行される。コンテキスト及びエントロピーパラメータモジュールは大規模な並列化に適しているため、この第2のステップは効率的に実行でき、したがってGPUで実行するのに適している。この間、CPUはアイドル状態のままである。
4. 取得したデータ(平均値と分散値)はCPUに送信される。
5. 潜在の全てのサンプルがデコードされるまで、ステップ1に進む。

当然のことながら、CPUとGPUを並行して使用することも、CPUとGPUのアイドル時間、及びCPUとGPU間でデータを転送するために必要な時間のために、現実的ではない。実際、これは3つのオプションの中で最も遅い具現である。
要するに、計算が複雑だが大規模に並列化できるプロセス(ディープニューラルネットワーク、例えば、コンテキストモジュールやエントロピーパラメータモジュール)を、単純だが完全にシリアルなエントロピーコーディングプロセス(算術コーディングや範囲コーディングなど)とインターリーブ方式で実行する必要がある場合に、問題が発生する。最先端のイメージコーディングネットワークはこの問題を抱えているため、このアーキテクチャではデコードプロセスが非常に遅くなる。
上記の問題に対する直接的なソリューションは、自己回帰「コンテキスト」モジュールを削除することである。その結果、算術デコーダ、コンテキスト、エントロピーパラメータモジュールを含むループが排除される。ただし、これにより圧縮効率が大幅に低下する。提案されたソリューションは、圧縮効率を犠牲にすることなく、直接的なソリューションと同じ結果を実現する。

[4. 詳細なソリューション]
以下の詳細なソリューションは、一般的な概念を説明するための例として考慮するべきである。これらのソリューションを狭義に解釈するべきでない。さらに、これらのソリューションは任意の方式で組み合わされ得る。

[4.1 ソリューションのターゲット]
このソリューションのターゲットは、算術デコードプロセスと計算的に複雑なディープニューラルネットワーク操作をデインターリーブすることである。言い換えれば、このソリューションのターゲットは、算術デコードプロセスをニューラルネットワークベースのモジュールから切り離すことである。したがって、算術デコードプロセスは、ニューラルネットワークベースのプロセスからの入力を必要とせずに独立して完了できる。その結果、デコード速度が大幅に向上する。

[4.2 ソリューションの核心]
[4.2.1 デコードプロセス]
図10は、本開示のいくつかの実施形態によるデコードプロセスを示している。このソリューションによれば、デコード操作は次のように実行される。
1. まず、第2のサブネットワークを使用して、量子化されたハイパー潜在(上記の図10のz^)を使用して確率パラメータを推定する。
2. 第2のネットワークによって生成された確率パラメータ(例:分散)は、算術デコードプロセスを実行して量子化残差潜在(図10でw^と表記)
を生成するために使用される。算術デコーダは、受信したビットストリームを上記の確率パラメータに基づいてデコードし、w^を生成する。
3. y^の全ての要素が取得されるまで、次のステップがループで実行される。
a.第1のサブネットワークを使用して、すでに取得されたy^のサンプルを使用して、量子化潜在(y^)の平均値パラメータを推定する。
b.量子化残差潜在w^と平均値を使用して、y^の次の要素を取得する。
4. y^の全てのサンプルが取得された後、図8のデコーダモジュールなどの合成変換を適用して、再構成されたイメージを取得できる。
ソリューションの例示的な具現が、上記の図10(デコードプロセス)に示されている。図10では、第1のサブネットワークは、コンテキスト、予測、及びオプションでハイパーデコーダモジュールを含む。第2のネットワークは、ハイパースケールデコーダモジュールを含む。量子化ハイパー潜在はz^である。最先端技術(図8)と比較すると、算術デコードプロセスは、算術デコード、コンテキスト及びエントロピーパラメータで構成されるループから除去されている。代わりに、ソリューションによると、算術デコードプロセスは、コンテキスト及びエントロピーパラメータモジュールからの入力を使用せずに実行されるため、独立して実行できる(デインターリーブされる)。ソリューションによると、算術デコードモジュールには、ビットストリームと、ハイパースケールデコーダの出力である確率パラメータ(例:分散)の2つの入力がある。ハイパースケールデコーダは、量子化ハイパー潜在z^を使用して確率パラメータを生成する。算術デコードプロセスは、量子化残差潜在w^を生成する。
残差潜在が取得された後、再帰予測演算が実行されて、潜在y^が取得される。潜在y^[:,i,j]のサンプルは、次のように取得される。
1. 自己回帰コンテキストモジュールを使用して、サンプルy^[:,m,n]を使用して予測モジュールの第1の入力を生成し、ここで、(m,n)ペアは、既に取得されている潜在のサンプルのインデックスである。
2. オプションで、予測モジュールの第2の入力は、ハイパーデコーダ及び量子化ハイパー潜在z^を使用して取得される。
3. 第1の入力と第2の入力を使用して、予測モジュールは、平均値mean[:,i,j]を生成する。
4. 平均値mean[:,i,j]と量子化残差潜在w^[:,i,j]を加算して、潜在y^[:,i,j]を取得する。
5. 次のサンプルに対して、ステップ1~4が繰り返される。
図11は、ソリューションの別の例示的な具現を示している。図10と比較すると、図11では、同じ量子化ハイパー潜在がハイパーデコーダモジュール及びハイパースケールデコーダモジュールへの入力として使用される。残りの操作は、上で説明したものと同じである。

[4.2.2 エンコードプロセス]
図12は、本開示のいくつかの実施形態によるエンコードプロセスを示している。このソリューションによれば、エンコード操作は次のように実行される。
最初に、図6のエンコーダなどの分析変換を適用して、潜在yの全てのサンプルを取得する。
1. まず、量子化残差潜在w^のすべての要素が取得されるまで、以下のステップがループで実行される。
a. 第1のサブネットワークは、すでに取得されている量子化潜在y^のサンプルを使用して、潜在yの平均値パラメータを推定するために使用される。
b. 平均値をyから減算して残差wを取得し、これを量子化して量子化残差潜在w^を取得する。
c. 平均値にw^を加算して量子化潜在y^を取得する。
2. 次に、第2のサブネットワークを使用して、量子化ハイパー潜在z^を使用して確率パラメータ(例:分散)を推定する。
3. 確率パラメータがエントロピーエンコーダモジュールによって使用されて、量子化残差潜在の要素がビットストリームにエンコードされる。
ソリューションの例示的な具現は、上記の図12(エンコードプロセス)に示されている。図12では、第1のサブネットワークは、コンテキストモジュール、予測モジュール、及びオプションでハイパーデコーダモジュールを含む。第2のネットワークは、ハイパースケールデコーダモジュールを含む。最先端技術(図6)と比較すると、算術エンコードプロセスは、算術エンコード、コンテキスト及びエントロピーパラメータで構成されるループから除去されている。代わりに、ソリューションによると、算術エンコードプロセスはコンテキスト及びエントロピーパラメータモジュールからの入力を使用せずに実行されるため、独立して実行できる(デインターリーブされる)。ソリューションによると、算術エンコードモジュールには、量子化残差潜在と、ハイパースケールデコーダの出力である確率パラメータ(例:分散)の2つの入力がある。算術エンコードプロセスでは、平均がゼロの確率モデルが使用される。ハイパースケールデコーダは、ハイパー潜在z^を使用して確率パラメータを生成する。算術エンコードプロセスは、デコーダに送信されるビットストリームを生成する。
量子化残差潜在w^[:,i,j]のサンプルは、再帰予測操作に従って次のように取得される。
1. 自己回帰コンテキストモジュールを使用して、サンプルy^[:,m,n]を使用して予測モジュールの第1の入力を生成し、ここで、(m,n)ペアは、既に取得されている潜在のサンプルのインデックスである。
2. オプションで、予測モジュールの第2の入力が、ハイパーデコーダ及びハイパー潜在z^を使用して取得される。
3. 第1の入力と第2の入力を使用して、予測モジュールは平均値mean[:,i,j]を生成する。
4. 平均値mean[:,i,j]を潜在y[:,i,j]から減算して、残差潜在w[:,i,j]を取得する。
5. 残差潜在を量子化して、量子化残差潜在w^[:,i,j]を取得する。
6. w^[:,i,j]をmean[:,i,j]に追加して、量子化潜在y^[:,i,j]の次のサンプルを取得する。次のサンプルに対して、ステップ1~5が繰り返される。
上記の再帰プロセスに従って量子化残差潜在w^の全てのサンプルが取得されると、エントロピーエンコードプロセスが適用されて、w^がビットストリームに転換される。第2のサブネットワーク(ハイパースケールデコーダ)を使用して、エントロピーエンコードプロセスで使用される確率パラメータを推定する。
図13は、ソリューションのエンコーダの別の例示的な具現を示している。図12と比較すると、図12では、同じ量子化ハイパー潜在がハイパーデコーダモジュール及びハイパースケールデコーダモジュールへの入力として使用される。残りの操作は、上で説明したものと同じである。

[4.3 最先端技術とソリューションの違い]
最先端技術とソリューションには、3つの大きな違いがある。
1. 算術エンコードとデコードは、自己回帰サブネットワーク(第1のサブネットワーク)とは独立して実行される。このようにして、CPUのような高速な処理ユニットで、完全にシーケンシャルな算術エンコード/デコードプロセスを実行できる。新しいサブネットワーク(第2のサブネットワーク)が、算術エンコード/デコードプロセスで使用される確率パラメータを推定するために導入される。
2. 算術エンコード/デコードプロセスは、最先端技術のように量子化潜在ではなく、量子化潜在残差をエンコード/デコードするために使用される。
3. 自己回帰サブネットワークは、潜在の平均を推定するためだけに使用される。最先端技術では、ガウス分布の平均と分散を推定するために使用され、その後、算術エンコーダ及びデコーダによって量子化潜在のサンプルをエンコード/デコードするために使用される。

[4.4ソリューションの利点]
このソリューションの利点は次のとおりである。
1. シンプルであるが完全なシリアル操作であるエントロピーデコード(例:算術デコード)プロセスは、独立して実行できる。例えば、エントロピーデコードプロセスは、CPUなどのシリアル操作を高速に実行するのに適した処理ユニットで実行できる。エントロピーデコードの操作が完了すると、取得されたデータ(量子化残差潜在)をGPUに転送できる。
2. 計算量が多いが簡単に並列化できるモジュール(コンテキスト及びエントロピーパラメータモジュールなど)は、算術エンコード/デコードとは独立して実行できる。例えば、大規模な並列処理に適した処理ユニット(GPUなど)を使用して、これらの操作を実行できる。
3. アイドル処理時間が排除される。

このソリューションでは、CPUとGPUを並行して使用できる。例として、デコードプロセスは次のように実行できる。
1. 最初に、エントロピーデコードプロセスを実行して完了する。プロセス全体が完了し、量子化潜在残差の全てのサンプルが取得される。
2. 取得したデータをGPUに転送する。データ転送は1回だけ行われる。
3. GPUでコンテキスト及びエントロピーパラメータモジュールを実行して完了する。GPUではアイドル待機は発生しない。量子化潜在が取得される。
4. 合成変換(デコーダ)を実行する。再構成されたイメージが取得される。

セクション3.2の第3の例と比較すると、このソリューションでは、CPUとGPUの両方がデコードに使用される場合に、CPUとGPUの間の往復するデータのやりとりが排除される。さらに、アイドル待機時間も排除される。
実際、このソリューションでは、デコードが印象的に10倍も高速化される。さらに、巧妙な設計により、いかなる圧縮効率の低下にも苦しむことがない。

[4.5 ソリューション例]
以下の詳細なソリューションは、一般的な概念を説明するための例として考慮するべきである。これらのソリューションを狭義に解釈するべきでない。さらに、これらのソリューションは任意の方式で組み合わされ得る。

1. 一例では、複数のサブネットワークがハイパー情報のハイパーエンコーダ/デコーダとして利用され得る。
a. 一例では、少なくとも1つのサブネットワークを利用して、潜在情報の解析プロセスに依存するハイパー情報を生成する。
b. 一例では、少なくとも1つのサブネットワークを利用して、潜在情報の解析プロセスに依存しないハイパー情報を生成する。
c. 一例では、少なくとも1つのサブネットワークを利用して、潜在信号を予測するために使用されるハイパー情報を生成する。
d. 一例では、ハイパー情報は、量子化され得る潜在信号の統計情報又は確率分布情報を含み得る。
i. 統計情報又は確率分布情報は、潜在信号の平均値を含み得る。
ii. 統計情報又は確率分布情報は、潜在信号の分散を含み得る。

2.一例では、潜在信号は予測的にコード化され得る。
a. 一例では、y’=y-pがエンコーダでコード化され得、ここで、yは潜在サンプル、pは予測である。
i. それに応じて、y*=y’+pがデコーダで再構成され得る。
b. 一例では、yは、予測手順の前に量子化され得る。
c. 一例では、yは、予測手順の前に量子化されない場合がある。
d. 一例では、pは、予測手順の前に量子化され得る。
e. 一例では、pは、予測手順の前に量子化されない場合がある。
f. 一例では、y’は、予測手順の後に量子化され得る。
g. 一例では、y’は、予測手順の後に量子化されない場合がある。
h. 一例では、少なくとも1つのサブネットワークを利用して予測pを生成し得る。
i. 一例では、少なくとも1つの以前にデコードされたy*又はy’を利用して現在のy又はy*についての予測pを生成し得る。

[5. 実施形態]
1. デコーダの実施形態:
イメージ又は又はビデオのデコード方法であって、
- ビットストリームと第1のサブネットワークの出力を使用して、量子化残差潜在w^のサンプルを取得するステップであって、ここで、第1のサブネットワークが自己回帰的でないステップと、
- 第2のサブネットワーク及び量子化潜在y^の既に再構成されているサンプルを使用して、予測値meanを取得するステップと、
- 量子化残差サンプルw^及び予測meanを使用して、量子化潜在y^の次のサンプルを再構成するステップと、
- 量子化潜在y^及び合成変換を使用して、再構成されたイメージを取得するステップと、を含む方法。
2. エンコーダの実施形態:
イメージ又はビデオのエンコード方法であって、
まず、分析変換を使用して、入力イメージを変換して、潜在y取得するステップと、
- 第2のネットワーク及び量子化潜在y^の既に再構成されているサンプル(利用可能な場合)を使用して、予測値meanを取得するステップと、
- 潜在のサンプルから予測値を減算して、残差潜在サンプルwを取得するステップと、
- 残差潜在サンプル(w^)を量子化し、予測値に加算して、量子化潜在y^のサンプルを取得するステップと、
- 第1のサブネットワーク及び量子化残差潜在サンプルw^のサンプルを使用して、ビットストリームを取得するステップであって、ここで、前記第1のサブネットワークは自己回帰的ではないステップと、を含む方法。
3. 実施形態1及び2によれば、ここで、
前記第1のサブネットワークは、第1の量子化ハイパー潜在を入力として受け取り、確率パラメータを生成する。
4. 実施形態1又は3によれば、
前記量子化残差潜在のサンプルの取得は、エントロピーデコーディングを含み、ここで、確率パラメータ及びビットストリームが入力として使用される。
5. 実施形態2又は3によれば、
前記ビットストリームの取得は、エントロピーエンコーディングを含み、ここで、確率パラメータ及び量子化残差潜在が入力となる。
6. 実施形態1から5によれば、
前記確率パラメータは、平均値を含まない。
7. 実施形態1から6によれば、
ゼロ平均確率分布が、エントロピーエンコーディング又はエントロピーデコーディングで使用される。
8. 実施形態1から7によれば、
前記第2のサブネットワークは、既に再構成されている量子化潜在のサンプルに加えて、第2の量子化ハイパー潜在を入力として受け取る。
9. 実施形態8によれば、
前記第1の及び前記第2の量子化ハイパー潜在は同じである。
10. 実施形態1から9によれば、
前記量子化ハイパー潜在は、前記デコーダにおけるビットストリームから取得される。
11. 実施形態2から10によれば、
量子化ハイパー潜在は、サブネットワークを使用して、潜在y又は量子化潜在y^から取得される。
12. 実施形態1から11によれば、
前記第2のサブネットワークは、自己回帰的である。
13. 実施形態1から12によれば、
前記第2のサブネットワークは、コンテキストモジュールを含む。
14. 実施形態1から13によれば、
前記第2のサブネットワークは、ハイパーデコーダモジュールを含む。
【0041】
以下に、ニューラルネットワークベースのデータコーディングに関連する本開示の実施形態のさらなる詳細を説明する。本明細書で使用されるように、「データ」という用語は、イメージ、ビデオ内のピクチャ、又はコード化に適したその他のデータを指し得る。
【0042】
上記のように、既存のイメージ圧縮ネットワークは、圧縮性能を向上させるための自己回帰モデル(例:コンテクストモデル)を含む。しかし、自己回帰モデルは、本質的にシリアルなエントロピーデコードプロセスとインターリーブされている。この点で、デコードプロセスは本質的にシリアルであり、効率的に並列化されることができないため、デコードプロセスが非常に遅くなる。
【0043】
上記の問題及び言及されていない他のいくつかの問題を解決するために、以下で説明するデータ処理ソリューションが開示される。
【0044】
図14は、本開示のいくつかの実施形態による例示的なデータデコードプロセス1400を示す。例えば、データデコードプロセス1400は、図1に示すようなデータデコーダ124によって実行され得る。データデコードプロセス1400は、図示されていない追加のブロックも含み得、及び/又は図示されているブロックが省略され得ることは理解されるべきである。本開示の範囲はこの点で限定されない。
【0045】
図14に示すように、ビットストリームは、第1のエントロピーデコーダ1410に入力され得る。第1のエントロピーデコーダ1410は、分解エントロピーサブネットワーク1420によって生成された確率分布情報に基づいてビットストリームをデコードし得る。いくつかの実施形態では、分解エントロピーサブネットワーク1420は、所定のテンプレートを使用して、例えばガウス分布の場合は所定の平均値及び分散値を使用して、確率分布情報を生成し得る。第1のエントロピーデコーダ1410によって実行されるエントロピーデコードプロセスは、算術デコードプロセス、ハフマン(Huffman)デコードプロセスなどであり得る。
【0046】
第1のエントロピーデコーダ1410の出力は、データの第2量子化ハイパー潜在表現(図14ではz^と表記)を含み得る。第2の量子化ハイパー潜在表現は、ハイパースケールデコーダサブネットワーク1424(以下、第5のサブネットワークとも呼ばれる)によって処理されて、第2のハイパー情報を生成し得る。限定ではなく例として、第2のハイパー情報は、データの潜在表現のサンプルの第2の確率分布情報(統計情報又は確率パラメータとも呼ばれる)を含み得る。図14に示す例では、第2の確率分布情報は、潜在サンプルの分散(図14では、σと表記)を含み得る。別の例では、第2の確率分布情報は、潜在サンプルの標準偏差を含み得る。確率分布情報は、他の任意の適切な情報を含み得ることは理解されるべきである。本開示の範囲はこの点で限定されない。
【0047】
第2のエントロピーデコーダ1412は、第2のハイパー情報に基づいてビットストリームに対してエントロピーデコードプロセスを実行することによってビットストリームをデコードし得る。一例では、エントロピーデコードプロセスは、ゼロ平均確率分布を使用して実行され得る。追加的に又は代替的に、エントロピーデコードプロセスは、分散を使用して実行され得る。第2のエントロピーデコーダ1412によって実行されるエントロピーデコードプロセスは、算術デコードプロセス、ハフマンデコードプロセスなどであり得る。
【0048】
第2のエントロピーデコーダ1412の出力は、データの再構成された潜在表現の第1のサンプル(即ち、デコーダで再構成される現在のサンプル)の第2部分(図14では、w^と表記)を含み得る。ここで使用されるように、「再構成された潜在表現」という用語は、表現内のサンプルが再構成プロセスを通じて取得されることを意味する。一例では、第2部分は、ビットストリームのサブビットストリームからデコードされ得る。限定ではなく例として、第2部分は、量子化残差又は第1のサンプルの残差と呼ばれ得る。
【0049】
ブロック1430では、第1のサンプルは、第1のサンプルの第2部分及び第1部分(図14では、μと表記)に基づいて再構成され得る。限定ではなく例として、第1のサンプルは、第1部分と第2部分の合計であると決定され得る。再構成された潜在表現のサンプルの第2部分は、以下に詳述するエンコーダで量子化されるとすれば、再構成された潜在表現は、量子化潜在表現とも呼ばれ得る。
【0050】
第1のサンプルの第1部分は、再構成された潜在表現のサンプルセットに基づいて決定され得る。限定ではなく例として、サンプルのセットは、第1のサンプルの複数のデコードされた隣接サンプルを含み得る。一例では、サンプルのセットは第1のサンプルに隣接し得る。別の例では、サンプルのセット内の少なくとも1つのサンプルは、第1のサンプルに非隣接し得る。代替的に、サンプルのセットは、1つのサンプルのみを含んでもよい。サンプルのセットは、再構成された潜在表現の他の任意の適切なサンプルを含んでもよいことは理解されるべきである。本開示の範囲はこの点で限定されない。
【0051】
図14に示すように、サンプルのセットは、以下で第1のサブネットワークとも呼ばれるコンテキストサブネットワーク1426に入力され得る。いくつかの実施形態では、コンテキストサブネットワーク1426は自己回帰的である。コンテキストサブネットワーク1426は、サンプルのセットに基づいて中間情報を生成する。限定ではなく例として、中間情報は、サンプルのセットの平均値を反映し得る。予測サブネットワーク1428(以下では第2のサブネットワークとも呼ばれる)は、コンテキストサブネットワーク1426の出力に基づいて第1のサンプルの第1部分を生成し得る。一例では、第1部分は、第1のサンプルの予測であり得る。別の例では、第1部分は、第1のサンプルの予測平均値であり得る。コンテキストサブネットワーク1426は、コンテクストモデル、コンテクストモデルサブネットワーク及び/又は同類のものとも呼ばれ得ることは理解されるべきである。さらに、予測サブネットワークは、フュージョンサブネットワーク、フュージョンサブネットワーク及び/又は同類のものとも呼ばれ得る。
【0052】
いくつかの追加の実施形態では、第1のサンプルの第1部分を生成するために、予測サブネットワーク1428は、コンテキストサブネットワーク1426の出力に加えて、さらなる情報も利用し得る。一例では、予測サブネットワーク1428は、コンテキストサブネットワーク1426の出力及び第1のハイパー情報に基づいて、第1のサンプルの第1部分を生成し得る。これについては、以下で詳しく説明する。
【0053】
そのような場合、第1のエントロピーデコーダ1410の出力は、データの第1の量子化ハイパー潜在表現(図14では、z^と表記)をさらに含み得る。一例では、第1の量子化ハイパー潜在表現は、第2の量子化ハイパー潜在表現と同じであり得る。代替的に、第1の量子化ハイパー潜在表現は、第2の量子化ハイパー潜在表現と異なり得る。この場合、第1の量子化ハイパー潜在表現は、ビットストリームの第1のサブビットストリームからデコードされ得、第2の量子化ハイパー潜在表現は、ビットストリームの第2のサブビットストリームからデコードされ得る。第1の量子化ハイパー潜在表現及び第2の第1の量子化ハイパー潜在表現は、他の任意の適切な方式で取得されてもよいことは理解されるべきである。本開示の範囲は、この点で限定されない。
【0054】
第1の量子化ハイパー潜在表現は、ハイパーデコーダサブネットワーク1422(以下、第3のサブネットワークとも呼ばれる)によって処理されて、第1のハイパー情報を生成し得る。限定ではなく例として、第1のハイパー情報は、データの潜在表現のサンプルの第1の確率分布情報(統計情報又は確率パラメータとも呼ばれる)を含み得る。一例では、第1の確率分布情報は、潜在サンプルの平均値を含み得る。追加的に又は代替的に、第1のハイパー情報は、潜在サンプルの予測情報を含み得る。確率分布情報は、他の任意の適切な情報を含み得ることは理解されるべきである。本開示の範囲は、この点で限定されない。
【0055】
データの再構築された潜在表現を取得した後、合成変換サブネットワーク1432で再構築された潜在表現に対して合成変換を実行して、再構築されたデータ1434、即ち、データの再構成を取得し得る。
【0056】
データデコードプロセス1400では、第2のエントロピーデコーダ1412でのエントロピーコーディングプロセスが、コンテキストサブネットワーク1426及び予測サブネットワーク1428からの入力を使用せずに実行されることが分かる。この点で、提案されたデータデコードプロセスは、計算的に複雑なニューラルネットワークからシーケンシャルなエントロピーコーディングプロセスを切り離すことを可能にする。これにより、提案されたデコードプロセスは、エントロピーコーディングプロセスをニューラルネットワークから独立して実行されることを有利に可能にし、したがってコーディング効率を向上させることができる。
【0057】
本開示のいくつかの実施形態によるデータデコードプロセスについては、上で説明した。データデコードプロセスに対応するデータエンコードプロセスについては、以下、図15を参照して説明することにする。
【0058】
図15は、本開示のいくつかの実施形態による例示的なデータエンコードプロセス1500を示している。例えば、データエンコードプロセス1500は、図1に示すようなデータエンコーダ114によって実行され得る。データエンコードプロセス1500は、図示されていない追加のブロックも含み得、及び/又は図示されているブロックが省略され得ることは理解されるべきである。本開示の範囲は、この点で限定されない。
【0059】
図15に示すように、分析変換サブネットワーク1512では、データ1510に対して分析変換が実行されて、データ1510の潜在表現(図15では、yと表記)が取得され得る。データ1510は、イメージ又はビデオ内の1つ以上のピクチャを含み得る。潜在表現は、ハイパーエンコーダサブネットワーク1530(以下、第4のサブネットワークとも呼ばれる)によって処理されて、ハイパー潜在表現が生成され得る。量子化ブロック1532では、生成されたハイパー潜在表現が量子化されて、量子化されたハイパー潜在表現が取得され得る。量子化ハイパー潜在表現は、分解エントロピーサブネットワーク1536によって生成された確率分布情報に基づいて、データのビットストリームの一部であり得るビットストリームにエンコードされ得る。一例では、量子化ハイパー潜在表現は、上記の第2の量子化ハイパー潜在表現を含み得る。別の例では、量子化ハイパー潜在表現は、上記の第1の量子化ハイパー潜在表現をさらに含み得る。エントロピーエンコーダ1534は、量子化ハイパー潜在表現に対してエントロピーエンコードプロセスを実行して、ビットストリームの一部を取得し得る。さらに、分解エントロピーサブネットワーク1536によって生成された確率分布情報に基づいて、エントロピーデコーダ1538でビットストリームの一部に対してエントロピーデコードプロセスを実行して、量子化ハイパー潜在表現を再構成し得る。
【0060】
ブロック1514では、潜在表現の第2のサンプルと再構成された第2のサンプルの第1部分との差に基づいて残差を取得し得る。第2のサンプルは上記の第1のサンプルに対応し、潜在表現は上記の再構成された潜在表現に対応する。言い換えれば、第1のサンプルは再構成された第2のサンプル、即ち第2のサンプルの再構成バージョンである。
【0061】
第1のサンプルの第1部分は、データデコードプロセス1400と同様の方式で、予測サブネットワーク1522及びコンテキストサブネットワーク1524を使用して生成され得る。いくつかの実施形態では、第2のサンプルは、ブロック1514で処理される前に量子化され得る。代替的に、第2のサンプルは量子化されない場合がある。
【0062】
残差は量子化ブロック1516で量子化されて、第1のサンプルの第2部分が取得され得る。この場合、第2部分は第1のサンプルの量子化残差である。代替的に、残差は量子化されない場合あり、したがってブロック1516は省略され得る。第1のサンプルは、ブロック1518で第1部分と第2部分の合計であると決定され得る。
【0063】
ビットストリームのさらなる部分を取得するために、エントロピーエンコーダ1520は、第2のハイパー情報に基づいて再構成された潜在表現のサンプルの第2部分に対してエントロピーエンコードプロセスを実行し得る。第2のハイパー情報は、データデコードプロセス1400と同様の方式で、データ1510の第2の量子化ハイパー潜在表現に基づいてハイパースケールデコーダサブネットワーク1528によって生成され得る。
【0064】
一例では、エントロピーエンコードプロセスは、ゼロ平均確率分布を使用して実行され得る。追加的に又は代替的に、エントロピーエンコードプロセスは、分散を使用して実行され得る。エントロピーエンコーダ1520、1534によって実行されるエントロピーエンコードプロセスは、算術エンコードプロセス、ハフマンエンコードプロセスなどであり得る。
【0065】
上記では図14及び図15に関して例示的なデータコーディングプロセスを説明したが、本開示を考慮すると、データコーディングプロセスの他の適切な変形も考えられることは理解されるべきである。別の例示的なデータコーディングプロセスでは、軽量ハイパーデコーダサブネットワークを使用して、第1の量子化ハイパー潜在表現に基づいて第1のサンプルの第1部分を生成し得、コンテキストサブネットワーク及び予測サブネットワークは除去され得る。
【0066】
さらなる例示的なデータコーディングプロセスでは、多段コンテクストモデルが採用され得、予測サブネットワークが除去され得る。このようなプロセスでは、データの潜在表現が複数の領域に分割され得、複数の領域のそれぞれが4つの潜在サンプルを含み得るが、以下では、第1の潜在、第2の潜在、第3の潜在、及び第4の潜在と表記され得る。全ての領域が並列に処理されるため、潜在表現を漸進的に再構成するために、デコーダで4つの連続したステップが関わっている。
【0067】
第1のステップでは、エントロピーデコーディング及び再構成のための第1の潜在のエントロピーパラメータを生成するためにハイパープライアのみを使用する。次に、デコードされた第1の潜在がマスクされた3×3畳み込みで処理されて、第2の段階のための第2のコンテキスト特徴を生成する。第2のステップでは、共同設置されたハイパープライア及び第2のコンテキスト特徴が処理されて、第2の潜在を再構成するための適切なエントロピーパラメータが生成されるが、それはその後、第3のコンテキスト特徴を導出するために畳み込まれる。第3のステップでは、第1のステップのハイパープライアと第1のステップ及び第2のステップでのコンテキスト特徴の両方を使用して、第3の潜在を適切にデコードするためのエントロピーパラメータを導出する。同様に、次に、第3の潜在は、第4のステップのための第4のコンテキスト特徴を導出するために畳み込まれる。最後に(第4のステップで)、第4の潜在は、前のステップと同様の方式で再構成されて、完全な再構成潜在表現が取得される。
【0068】
上記の解説及び/例は、説明の目的でのみ記載されていることは理解されるべきである。本開示の範囲は、この点で限定されない。本開示の実施形態は、一般的な概念を説明するための例としてみなされるべきであり、狭義に解釈されるべきではない。さらに、これらの実施形態は、個別に又は任意の方式で組み合わせて適用され得る。
【0069】
図16は、本開示のいくつかの実施形態によるデータ処理の方法1600のフローチャートを示している。方法1600は、データとデータのビットストリームとの間の転換中に具現され得る。図16に示すように、方法1600は1602から開始し、データの再構成された潜在表現の第1のサンプルの第1部分が決定され得る。第1部分は、第1のサンプルの予測を示す。限定ではなく例として、第1のサンプルの第1部分は、再構成された潜在表現のサンプルのセットに基づいて決定され得る。一例では、第1部分は、第1のサンプルの予測であり得る。代替的に、第1部分は、第1のサンプルの予測平均値であり得る。いくつかの実施形態では、再構成された潜在表現は、データの量子化された潜在表現であり得る。
【0070】
いくつかの実施形態では、第1のサブネットワークを使用して、サンプルのセットに基づいて中間情報を生成し得る。さらに、第1部分は、第2のサブネットワークによって中間情報に基づいて生成され得る。限定ではなく例として、第1のサブネットワークは、自己回帰的であり得、コンテクストモデルサブネットワーク、コンテキストサブネットワーク、コンテクストモデル、及び/又は同類のものと呼ばれ得る。その上、第2のサブネットワークは、予測サブネットワーク、フュージョンサブネットワーク、予測フュージョンサブネットワーク、及び/又は同類のものと呼ばれ得る。
【0071】
いくつかの代替的実施形態では、第1部分は、第1の量子化ハイパー潜在表現に基づいて生成され得る。例えば、第1部分の生成は、ハイパーデコーダサブネットワークとも呼ばれ得る軽量ハイパーデコーダサブネットワークを使用して第1の量子化ハイパー潜在表現を処理することを含み得る。例として、第1の量子化ハイパー潜在表現の処理の出力は、第1のサンプルの第1部分として決定され得る。第1の量子化ハイパー潜在表現の生成については、以下で詳しく説明する。
【0072】
1604では、第1のサンプルの第2部分が決定される。第2部分は、第1のサンプルと第1部分との差を示す。一例では、第2部分は、第1のサンプルと第1部分との差であり得る。例として、第2部分は、第1のサンプルから第1部分を減算することによって取得され得る。第2部分は、第1のサンプルの残差又は量子化された残差とも呼ばれ得る。
【0073】
1606では、第2部分に基づいて転換が実行される。一例では、転換は、データをビットストリームにエンコードすることを含み得る。代替的に又は追加的に、転換は、ビットストリームからデータをデコードすることを含み得る。上記の説明は、説明の目的でのみ説明されていることは理解されるべきである。本開示の範囲は、この点で限定されない。
【0074】
前述のことを考慮すると、再構成された潜在サンプルが2つの部分に分かれ、これにより、計算的に複雑なニューラルネットワークからシーケンシャルなエントロピーコーディングプロセスを切り離すことが可能になる。エントロピーコーディングプロセスとニューラルネットワーク操作がインターリーブされる転換ソリューションと比較して、提案された方法は、エントロピーコーディングプロセスをニューラルネットワークから独立して実行することを有利に可能にし、したがってコーディング効率を向上させることができる。
【0075】
いくつかの代替的実施形態では、1602で、第1のサブネットワークを使用して、サンプルのセットに基づいて中間情報を生成し得る。その上、第3のサブネットワークを使用して、第1の量子化ハイパー潜在表現に基づいて第1のハイパー情報を決定し得る。さらに、第1部分は、第2のサブネットワークを使用して、中間情報及び第1のハイパー情報に基づいて生成され得る。限定ではなく例として、第3のサブネットワークはハイパーデコーダサブネットワークであり得る。
【0076】
いくつかの実施形態では、第1の量子化ハイパー潜在表現は、ビットストリームに基づいて決定され得る。例えば、第1の量子化ハイパー潜在表現は、デコードプロセスにおいてビットストリームからデコードされ得る。代替的に、第1の量子化ハイパー潜在表現は、データの潜在表現に基づいて、第4のサブネットワークを使用して生成され得る。限定ではなく例として、第4のサブネットワークは、ハイパーエンコーダサブネットワークであり得る。
【0077】
いくつかの実施形態では、第1のハイパー情報は、第1の確率分布情報を含み得る。一例では、第1の確率分布情報は、平均値を含み得る。追加的に又は代替的に、第1のハイパー情報は、予測情報を含み得る。
【0078】
いくつかの実施形態では、1604で、第2のハイパー情報は、第5のサブネットワークを使用して、第2の量子化ハイパー潜在表現に基づいて生成され得る。一例では、第5のサブネットワークは、ハイパースケールデコーダサブネットワークであり得る。第2の量子化ハイパー潜在表現は、ビットストリームの第1の部分に基づいて決定され得る。例えば、第2の量子化ハイパー潜在表現は、ビットストリームの第1の部分からデコードされ得る。さらに、1604で、第2のハイパー情報に基づいて、ビットストリームの第2の部分に対してエントロピーデコードプロセスを実行することによって、第2の部分を取得し得る。第2の部分は、第1の部分と異なり得る。例えば、第1の部分と第2の部分は、ビットストリームの2つのサブビットストリームであり得る。
【0079】
いくつかの実施形態では、第2のハイパー情報は、第2の確率分布情報を含み得る。一例では、第2の確率分布情報は、分散を含み得る。別の例では、第2の確率分布情報は、標準偏差を含み得る。上記の例は、説明の目的でのみ記載されていることは理解されるべきである。本開示の範囲は、この点で限定されない。
【0080】
いくつかの実施形態では、上記のエントロピーデコードプロセスは、算術デコードプロセスであり得る。追加的に又は代替的に、エントロピーデコードプロセスは、ゼロ平均確率分布を使用して実行され得る。いくつかのさらなる実施形態では、エントロピーデコードプロセスは、分散を使用して実行され得る。
【0081】
いくつかの実施形態では、第2の量子化ハイパー潜在表現は、第1の量子化ハイパー潜在表現と同じであり得る。代替的に、第2の量子化ハイパー潜在表現は、第1の量子化ハイパー潜在表現と異なり得る。
【0082】
いくつかの実施形態では、1606で、第1部分及び第2部分に基づいて第1のサンプルが決定され得る。限定ではなく例として、第1部分と第2部分の合計に基づいて第1のサンプルが決定され得る。さらに、第1のサンプルに対する合成変換に基づいて転換が実行され得る。
【0083】
いくつかの実施形態では、1604で、データの潜在表現の第1部分及び第2のサンプルに基づいて第2部分が決定され得る。第2のサンプルは、第1のサンプルに対応し、潜在表現は、再構成された潜在表現に対応する。言い換えれば、第1のサンプルは、再構成された第2のサンプル、即ち第2のサンプルの再構成バージョンである。いくつかの実施形態では、データに対して分析変換を実行することによって潜在表現が取得され得る。
【0084】
いくつかの実施形態では、第1部分と第2のサンプルとの差に基づいて残差が取得され得、前記残差を量子化することによって第2部分が取得され得る。代替的に、残差は、第2部分を取得するために量子化されない場合もある。
【0085】
いくつかの実施形態では、第1部分及び第2部分に基づいて第1のサンプルが決定され得る。限定ではなく例として、第1部分と第2部分の合計に基づいて第1のサンプルが決定され得る。
【0086】
いくつかの実施形態では、第2のサンプルは、第2部分を決定するために使用される前に量子化される。代替的に、第2サンプルは、第2部分を決定するために使用される前に量子化されない。
【0087】
いくつかの実施形態では、前記第1部分は、前記第2部分及び前記第1のサンプルを決定するために使用される前に量子化される。代替的に、第1部分は、第2部分及び第1のサンプルを決定するために使用される前に量子化されない。
【0088】
いくつかの実施形態では、1606で、第4のサブネットワークを使用して、データの潜在表現に基づいて第2の量子化ハイパー潜在表現が生成され得る。さらに、第5のサブネットワークを使用して、第2の量子化ハイパー潜在表現に基づいて第2のハイパー情報が生成され得、第2のハイパー情報に基づいて第2部分に対してエントロピーエンコードプロセスが実行され得る。
【0089】
いくつかの実施形態では、第4のサブネットワークは、ハイパーエンコーダサブネットワークであり得、又は前記第5のサブネットワークは、ハイパースケールデコーダサブネットワークであり得る。いくつかの実施形態では、エントロピーエンコードプロセスは、算術エンコードプロセスであり得る。一例では、エントロピーエンコードプロセスは、ゼロ平均確率分布を使用して実行され得る。別の例では、エントロピーエンコードプロセスは、分散を使用して実行され得る。
【0090】
いくつかの実施形態では、第2の量子化ハイパー潜在表現は、第1の量子化ハイパー潜在表現と同じであり得る。そのような場合、エントロピーエンコードプロセスは、第1の量子化ハイパー潜在表現に対して実行され得る。
【0091】
いくつかの実施形態では、第2の量子化ハイパー潜在表現は、第1の量子化ハイパー潜在表現と異なり得る。そのような場合、1606で、エントロピーエンコードプロセスは、第1の量子化ハイパー潜在表現及び第2の量子化ハイパー潜在表現に対して実行され得る。
【0092】
本開示の実施形態によれば、非一時的なコンピュータ読み取り可能記録媒体が提案される。データのビットストリームは、非一時的なコンピュータ読み取り可能記録媒体に記憶される。前記ビットストリームは、データ処理装置によって実行される方法によって生成され得る。この方法によれば、データの再構成された潜在表現の第1のサンプルの第1部分が決定される。前記第1部分は、第1のサンプルの予測を示す。その上、前記第1のサンプルの第2部分が決定される。前記第2部分は、前記第1のサンプルと前記第1部分との差を示す。さらに、前記ビットストリームは、前記第2部分に基づいて生成される。
【0093】
本開示の実施形態によれば、データのビットストリームを記憶する方法が提案される。前記方法では、データの再構成された潜在表現の第1のサンプルの第1部分が決定される。前記第1部分は、前記第1のサンプルの予測を示す。その上、前記第1のサンプルの第2部分が決定される。前記第2部分は、前記第1のサンプルと前記第1部分との差を示す。さらに、前記ビットストリームは、前記第2部分に基づいて生成され、前記ビットストリームは、非一時的なコンピュータ読み取り可能記録媒体に記憶される。
【0094】
本開示の具現は、以下の条項を考慮して説明され得、その条項の特徴は、任意の合理的な方式で組み合わされ得る。
【0095】
条項1.データ処理方法であって、データと前記データのビットストリームとの間の転換中に、前記データの再構成された潜在表現の第1のサンプルの第1部分を決定するステップであって、前記第1部分が前記第1のサンプルの予測を示すステップと、前記第1のサンプルの第2部分を決定するステップであって、前記第2部分が前記第1のサンプルと前記第1部分との間の差を示すステップと、前記第2部分に基づいて前記転換を実行するステップとを含む方法。
【0096】
条項2.前記第1部分を決定するステップは、前記再構成された潜在表現のサンプルのセットに基づいて前記第1部分を決定するステップを含む、条項1に記載の方法。
【0097】
条項3.前記サンプルのセットに基づいて前記第1部分を決定するステップは、第1のサブネットワークを使用して、前記サンプルのセットに基づいて中間情報を生成するステップと、第2のサブネットワークによって、前記中間情報に基づいて前記第1部分を生成するステップとを含む、条項2に記載の方法。
【0098】
条項4.前記第1のサブネットワークは、自己回帰的である、条項3に記載の方法。
【0099】
条項5.前記第1のサブネットワークは、コンテクストモデルサブネットワーク又はコンテキストサブネットワークであるか、又は前記第2のサブネットワークは、予測サブネットワーク又はフュージョンサブネットワークである、条項3から4のいずれか一項に記載の方法。
【0100】
条項6.前記第1部分を生成するステップは、第3のサブネットワークを使用して、第1の量子化ハイパー潜在表現に基づいて第1のハイパー情報を生成するステップと、前記第2のサブネットワークを使用して、前記中間情報及び前記第1のハイパー情報に基づいて前記第1部分を生成するステップとを含む、条項3から5のいずれか一項に記載の方法。
【0101】
条項7.前記第1部分を決定するステップは、第1の量子化ハイパー潜在表現に基づいて前記第1部分を決定するステップを含む、条項1に記載の方法。
【0102】
条項8.前記第1の量子化ハイパー潜在表現に基づいて前記第1部分を決定するステップは、第3のサブネットワークを使用して前記第1の量子化ハイパー潜在表現を処理するステップを含む、条項7に記載の方法。
【0103】
条項9.前記第3のサブネットワークは、ハイパーデコーダサブネットワークである、条項6又は8に記載の方法。
【0104】
条項10.前記第1の量子化ハイパー潜在表現は、前記ビットストリームに基づいて決定されるか、又は前記第1の量子化ハイパー潜在表現は、前記データの潜在表現に基づく第4のサブネットワークを使用して生成される、条項6から9のいずれか一項に記載の方法。
【0105】
条項11.前記第4のサブネットワークは、ハイパーエンコーダサブネットワークである、条項10に記載の方法。
【0106】
条項12.前記第1のハイパー情報は、第1の確率分布情報を含む、条項6及び9から11のいずれか一項に記載の方法。
【0107】
条項13.前記第1の確率分布情報は、平均値を含む、条項12に記載の方法。
【0108】
条項14.前記第1のハイパー情報は、予測情報を含む、条項6及び9から11のいずれか一項に記載の方法。
【0109】
条項15.前記第2部分を決定するステップは、第5のサブネットワークを使用して、第2の量子化ハイパー潜在表現に基づいて第2のハイパー情報を生成するステップであって、前記第2の量子化ハイパー潜在表現が前記ビットストリームの第1の部分に基づいて決定されるステップと、前記第2のハイパー情報に基づいて前記ビットストリームの第2の部分に対してエントロピーデコードプロセスを実行することによって前記第2部分を取得するステップであって、前記第2の部分が前記第1の部分とは異なるステップとを含む、条項1から14のいずれか一項に記載の方法。
【0110】
条項16.前記第2のハイパー情報は、第2の確率分布情報を含む、条項15に記載の方法。
【0111】
条項17.前記第2の確率分布情報は、分散を含む、条項16に記載の方法。
【0112】
条項18.前記第5のサブネットワークは、ハイパースケールデコーダサブネットワークである、条項15から17のいずれか一項に記載の方法。
【0113】
条項19.前記エントロピーデコードプロセスは、算術デコードプロセスである、条項15から18のいずれか一項に記載の方法。
【0114】
条項20.前記エントロピーデコードプロセスは、ゼロ平均確率分布を使用して実行される、条項15から19のいずれか一項に記載の方法。
【0115】
条項21.前記エントロピーデコードプロセスは、分散を使用して実行される、条項15から20のいずれか一項に記載の方法。
【0116】
条項22.前記第2の量子化ハイパー潜在表現は、前記第1の量子化ハイパー潜在表現と同じであるか、又は前記第2の量子化ハイパー潜在表現は、前記第1の量子化ハイパー潜在表現と異なる、条項15から21のいずれか一項に記載の方法。
【0117】
条項23.前記転換を実行するステップは、
前記第1部分及び前記第2部分に基づいて前記第1のサンプルを決定するステップと、
前記第1のサンプルに対する合成変換に基づいて前記転換を実行するステップと、を含む、条項1から22のいずれか一項に記載の方法。
【0118】
条項24.前記第1のサンプルは、前記第1部分と前記第2部分の合計に基づいて決定される、条項23に記載の方法。
【0119】
条項25.前記第2部分を決定するステップは、前記第1部分及び前記データの潜在表現の第2のサンプルに基づいて前記第2部分を決定するステップであって、前記第2のサンプルが前記第1のサンプルに対応し、前記潜在表現が前記再構成された潜在表現に対応するステップを含む、条項1から14のいずれか一項に記載の方法。
【0120】
条項26.前記潜在表現は、前記データに対して分析変換を実行することによって取得される、条項25に記載の方法。
【0121】
条項27.前記第1部分及び第2のサンプルに基づいて前記第2部分を決定するステップは、前記第1部分と前記第2のサンプルとの間の差に基づいて残差を取得するステップと、前記残差を量子化することによって前記第2部分を取得するステップとを含む、条項25から26のいずれか一項に記載の方法。
【0122】
条項28.前記第1のサンプルは、前記第1部分及び前記第2部分に基づいて決定される、条項25から26のいずれか一項に記載の方法。
【0123】
条項29.前記第1のサンプルは、前記第1部分と前記第2部分の合計に基づいて決定される、条項28に記載の方法。
【0124】
条項30.前記第2のサンプルは、前記第2部分を決定するために使用される前に量子化される、条項25から29のいずれか一項に記載の方法。
【0125】
条項31.前記第1部分は、前記第2部分及び前記第1のサンプルを決定するために使用される前に量子化される、条項25から30のいずれか一項に記載の方法。
【0126】
条項32.前記転換を実行するステップは、第4のサブネットワークを使用して、前記データの潜在表現に基づいて第2の量子化ハイパー潜在表現を生成するステップと、第5のサブネットワークを使用して、前記第2の量子化ハイパー潜在表現に基づいて第2のハイパー情報を生成するステップと、前記第2のハイパー情報に基づいて、前記第2部分に対してエントロピーエンコードプロセスを実行するステップとを含む、条項1から14又は25から31のいずれか一項に記載の方法。
【0127】
条項33.前記第2のハイパー情報は、第2の確率分布情報を含む、条項32に記載の方法。
【0128】
条項34.前記第2の確率分布情報は、分散を含む、条項33に記載の方法。
【0129】
条項35.前記第4のサブネットワークは、ハイパーエンコーダサブネットワークであるか、又は前記第5のサブネットワークは、ハイパースケールデコーダサブネットワークである、条項32から34のいずれか一項の方法。
【0130】
条項36.前記エントロピーエンコードプロセスは、算術エンコードプロセスである、条項32から35のいずれか一項に記載の方法。
【0131】
条項37.前記エントロピーエンコードプロセスは、ゼロ平均確率分布を使用して実行される、条項32から36のいずれか一項に記載の方法。
【0132】
条項38.前記エントロピーエンコードプロセスは、分散を使用して実行される、条項32から37のいずれか一項に記載の方法。
【0133】
条項39.前記第2の量子化ハイパー潜在表現は、前記第1の量子化ハイパー潜在表現と同じである、条項32から38のいずれか一項に記載の方法。
【0134】
条項40.前記転換を実行するステップは、前記第1の量子化ハイパー潜在表現に対して前記エントロピーエンコードプロセスを実行するステップをさらに含む、条項39に記載の方法。
【0135】
条項41.前記第2の量子化ハイパー潜在表現は、前記第1の量子化ハイパー潜在表現と異なる、条項32から38のいずれか一項に記載の方法。
【0136】
条項42.前記転換を実行するステップは、前記第1の量子化ハイパー潜在表現及び前記第2の量子化ハイパー潜在表現に対して前記エントロピーエンコードプロセスを実行するステップをさらに含む、条項41に記載の方法。
【0137】
条項43.前記第1部分は、前記第1のサンプルの予測であり、又は前記第2部分は、前記第1のサンプルの量子化された残差である、条項1から42のいずれか一項に記載の方法。
【0138】
条項44.前記再構成された潜在表現は、前記データの量子化潜在表現である、条項1から43のいずれか項に記載の方法。
【0139】
条項45.前記データは、ビデオのピクチャ又はイメージを含む、条項1から44のいずれか一項に記載の方法。
【0140】
条項46.前記転換は、前記データを前記ビットストリームにエンコードすることを含む、条項1から45のいずれか一項に記載の方法。
【0141】
条項47.前記転換は、前記ビットストリームから前記データをデコードすることを含む、条項1から45のいずれか一項に記載の方法。
【0142】
条項48.プロセッサと命令を備えた非一時的メモリとを含む、データを処理する装置であって、前記命令は前記プロセッサによって実行されると、前記プロセッサに条項1から47のいずれか一項に記載の方法を実行させる、装置。
【0143】
条項49.プロセッサに条項1から47のいずれか一項に記載の方法を実行させる命令を記憶する、非一時的なコンピュータ読み取り可能記憶媒体。
【0144】
条項50.データ処理装置によって実行される方法によって生成されたデータのビットストリームを記憶する非一時的なコンピュータ読み取り可能記録媒体であって、前記方法は、前記データの再構成された潜在表現の第1のサンプルの第1部分を決定するステップであって、前記第1部分が前記第1のサンプルの予測を示すステップと、前記第1のサンプルの第2部分を決定するステップであって、前記第2部分が前記第1のサンプルと前記第1部分との間の差を示すステップと、前記第2部分に基づいて前記ビットストリームを生成するステップとを含む、非一時的なコンピュータ読み取り可能記録媒体。
【0145】
条項51.データのビットストリームを記憶する方法であって、前記データの再構成された潜在表現の第1のサンプルの第1部分を決定するステップであって、前記第1部分が前記第1のサンプルの予測を示すステップと、前記第1のサンプルの第2部分を決定するステップであって、前記第2部分が前記第1のサンプルと前記第1部分との間の差を示すステップと、前記第2部分に基づいて前記ビットストリームを生成するステップと、前記ビットストリームを非一時的なコンピュータ読み取り可能記録媒体に記憶するステップとを含む、方法。
【0146】
例示的なデバイス
図17は、本開示の様々な実施形態を具現できるコンピューティングデバイス1700のブロック図を示す。コンピューティングデバイス1700は、ソースデバイス110(或いは、データエンコーダ114)又は宛先デバイス120(或いは、データデコーダ124)として具現されるか、又はそれに含まれ得る。
【0147】
図17に示されるコンピューティングデバイス1700は、単に解説を目的としたものであり、本開示の実施形態の機能及び範囲をいかなる形でも制限することを示唆するものではないことが理解されるだろう。
【0148】
図17に示すように、コンピューティングデバイス1700は、汎用コンピューティングデバイス1700を含む。コンピューティングデバイス1700は、少なくとも1つ又は複数のプロセッサ又は処理ユニット1710と、メモリ1720と、記憶ユニット1730と、1つ又は複数の通信ユニット1740と、1つ又は複数の入力デバイス1750と、1つ又は複数の出力デバイス1760とを含み得る。
【0149】
いくつかの実施形態では、コンピューティングデバイス1700は、コンピューティング能力を有する任意のユーザ端末又はサーバ端末として具現され得る。前記サーバ端末は、サービスプロバイダが提供するサーバや大規模コンピューティングデバイスなどであり得る。前記ユーザ端末は、例えば、携帯電話、ステーション、ユニット、デバイス、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナルコミュニケーションシステム(PCS)デバイス、パーソナルナビゲーションデバイス、携帯情報端末(PDA)、オーディオ/ビデオプレーヤー、デジタルカメラ/ビデオカメラ、測位デバイス、テレビ受信機、ラジオ放送受信機、電子ブックデバイス、ゲームデバイス、又はそれらの任意の組み合わせ(これらのデバイスのアクセサリ及び周辺機器、又はそれらの任意の組み合わせを含む)を含む、任意のタイプの移動端末、固定端末、又は携帯端末であり得る。コンピューティングデバイス1700は、ユーザに対する任意のタイプのインターフェース(「ウェアラブル」回路など)をサポートできることが考えられる。
【0150】
処理ユニット1710は、物理又は仮想プロセッサであり得、メモリ1720に記憶されたプログラムに基づいて様々なプロセスを具現することができる。マルチプロセッサシステムでは、コンピューティングデバイス1700の並列処理能力を向上させるために、複数の処理ユニットがコンピュータ実行可能命令を並列に実行する。処理ユニット1710は、中央処理ユニット(CPU)、マイクロプロセッサ、コントローラ又はマイクロコントローラと呼ばれても良い。
【0151】
コンピューティングデバイス1700は、通常、様々なコンピュータ記憶媒体を含む。このような媒体は、揮発性及び不揮発性媒体、又は取り外し可能及び取り外し不可能な媒体を含むがこれらに限定されない、コンピューティングデバイス1700によってアクセス可能な任意の媒体であり得る。メモリ1720は、揮発性メモリ(例えば、レジスタ、キャッシュ、ランダムアクセスメモリ(RAM))、不揮発性メモリ(例えば、読み取り専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、フラッシュメモリ)、又はそれらの任意の組み合わせであり得る。記憶ユニット1730は、任意の取り外し可能又は取り外し不可能な媒体であり得、情報及び/又はデータを記憶するために使用でき、コンピューティングデバイス1700でアクセスできる、メモリ、フラッシュメモリドライブ、磁気ディスク又は別の他の媒体などの機械読み取り可能媒体を含み得る。
【0152】
コンピューティングデバイス1700は、追加の取り外し可能/取り外し不可能、揮発性/不揮発性メモリ媒体をさらに含み得る。なお、図17には示していないが、着脱可能な不揮発性磁気ディスクの読み書きを行う磁気ディスクドライブや、着脱可能な不揮発性光ディスクの読み書きを行う光ディスクドライブを提供することが可能である。このような場合、各ドライブは、1つ又は複数のデータ媒体インターフェースを介してバス(図示せず)に接続され得る。
【0153】
通信ユニット1740は、通信媒体を介してさらなるコンピューティングデバイスと通信する。その上、コンピューティングデバイス1700内のコンポーネントの機能は、通信接続を介して通信できる単一のコンピューティングクラスタ又は複数のコンピューティングマシンによって具現され得る。したがって、コンピューティングデバイス1700は、1つ又は複数の他のサーバ、ネットワーク化されたパーソナルコンピュータ(PC)、又はさらなる一般的なネットワークノードとの論理接続を使用して、ネットワーク化された環境で動作することができる。
【0154】
入力デバイス1750は、マウス、キーボード、トラッキングボール、音声入力デバイスなどの様々な入力デバイスのうちの1つ又は複数であり得る。出力デバイス1760は、ディスプレイ、ラウドスピーカ、プリンタなどの様々な出力デバイスのうちの1つ又は複数であり得る。通信ユニット1740によって、コンピューティングデバイス1700は、記憶デバイス及び表示デバイスなどの1つ又は複数の外部デバイス(図示せず)とさらに通信することができ、1つ又は複数のデバイスにより、ユーザがコンピューティングデバイス1700と対話可能にするか、又は、必要に応じて、任意のデバイス(ネットワークカード、モデムなど)により、コンピューティングデバイス1700が1つ又は複数の他のコンピューティングデバイスと通信可能にする。このような通信は、入力/出力(I/O)インターフェース(図示せず)を介して実行され得る。
【0155】
いくつかの実施形態では、単一のデバイスに統合される代わりに、コンピューティングデバイス1700のいくつかの又は全てのコンポーネントがクラウドコンピューティングアーキテクチャに配置され得る。クラウドコンピューティングアーキテクチャでは、コンポーネントは遠隔的に提供され、連携して本開示で説明される機能を実施し得る。いくつかの実施形態では、クラウドコンピューティングは、コンピューティング、ソフトウェア、データアクセス及びストレージサービスを提供し、これらのサービスを提供するシステム又はハードウェアの物理的な位置又は構成をエンドユーザが認識する必要はない。様々な実施形態において、クラウドコンピューティングは、適切なプロトコルを使用して広域ネットワーク(インターネットなど)を介してサービスを提供する。例えば、クラウドコンピューティングプロバイダーは、Webブラウザ又はその他のコンピューティングコンポーネントを通じてアクセスできる広域ネットワーク経由でアプリケーションを提供する。クラウドコンピューティングアーキテクチャのソフトウェア又はコンポーネント及び対応するデータは、遠隔地にあるサーバに保存され得る。クラウドコンピューティング環境におけるコンピューティングリソースは、リモートデータセンターの場所に併合又は分散され得る。クラウドコンピューティングインフラストラクチャは、ユーザにとって単一のアクセスポイントとして動作するが、共有データセンターを通じてサービスを提供し得る。したがって、クラウドコンピューティングアーキテクチャを使用して、本明細書で説明されるコンポーネント及び機能を遠隔地にあるサービスプロバイダから提供し得る。代替的に、それらは従来のサーバから提供されるか、又はクライアントデバイスに直接又はその他の方法でインストールされ得る。
【0156】
コンピューティングデバイス1700は、本開示の実施形態においてデータエンコーディング/デコーディングを具現するために使用され得る。メモリ1720は、1つ又は複数のプログラム命令を有する1つ又は複数のデータコーディングモジュール1725を含み得る。これらのモジュールは、本明細書で説明される様々な実施形態の機能を実行するように、処理ユニット1710によってアクセス可能かつ実行可能である。
【0157】
データエンコーディングを実行する例示的な実施形態では、入力デバイス1750は、エンコードされるデータを入力1770として受信し得る。データは、例えば、データコーディングモジュール1725によって処理されて、エンコードされたビットストリームを生成し得る。エンコードされたビットストリームは、出力デバイス1760を介して出力1780として提供され得る。
【0158】
データデコーディングを実行する例示的な実施形態では、入力デバイス1750は、エンコードされたビットストリームを入力1770として受信し得る。エンコードされたビットストリームは、例えば、データコーディングモジュール1725によって処理されて、デコードされたデータを生成し得る。デコードされたデータは、出力デバイス1760を介して出力1780として提供され得る。
【0159】
本開示は、その好ましい実施形態を参照して特に図示及び説明されたが、添付の特許請求の範囲によって定義される本出願の精神及び範囲から逸脱することなく、形態及び詳細における様々な変更を行うことができることが当業者には理解されるであろう。このような変形は、本出願の範囲に含まれるものとする。したがって、本出願の実施形態に関する前述の説明は限定することを意図したものではない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
【手続補正書】
【提出日】2024-09-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
視覚的なデータ処理方法であって、
視覚的なデータとニューラルネットワークベース(NNベース)のモデルを使用して前記視覚的なデータのビットストリームとの間の転換中に、前記視覚的なデータの再構成された潜在表現の第1のサンプルの第1部分を決定するステップであって、前記第1部分が前記第1のサンプルの予測を示すステップと、
前記第1のサンプルの第2部分を決定するステップであって、前記第2部分が前記第1のサンプルと前記第1部分との間の差を示すステップと、
前記第2部分に基づいて前記転換を実行するステップと、を含む方法。
【請求項2】
前記第1部分を決定するステップは、
前記再構成された潜在表現の既に再構成されたサンプルのセットに基づいて前記第1部分を決定するステップを含む、請求項1に記載の方法。
【請求項3】
前記既に再構成されたサンプルのセットに基づいて前記第1部分を決定するステップは、
前記NNベースのモデルにおける第1のサブネットワークを使用して、前記既に再構成されたサンプルのセットに基づいて中間情報を生成するステップと、
前記NNベースのモデルにおける第2のサブネットワークによって、前記中間情報に基づいて前記第1部分を生成するステップと、を含む、請求項2に記載の方法。
【請求項4】
前記再構成された潜在表現のサンプルを決定するためのプロセスは、自己回帰的である、請求項に記載の方法。
【請求項5】
前記プロセスは多段コンテクストモデルで実施される、請求項に記載の方法。
【請求項6】
前記第1部分を生成するステップは、
前記NNベースのモデルにおける第3のサブネットワークを使用して、第1の量子化ハイパー潜在表現に基づいて第1のハイパー情報を生成するステップと、
前記第2のサブネットワークを使用して、前記中間情報及び前記第1のハイパー情報に基づいて前記第1部分を生成するステップと、を含む、請求項に記載の方法。
【請求項7】
前記第1部分を決定するステップは、
第1の量子化ハイパー潜在表現に基づいて前記第1部分を決定するステップを含む、請求項1に記載の方法。
【請求項8】
前記第1の量子化ハイパー潜在表現に基づいて前記第1部分を決定するステップは、
前記NNベースのモデルにおける第3のサブネットワークを使用して前記第1の量子化ハイパー潜在表現を処理するステップを含む、請求項7に記載の方法。
【請求項9】
前記第3のサブネットワークは、ハイパーデコーダサブネットワークである、請求項に記載の方法。
【請求項10】
前記第1の量子化ハイパー潜在表現は、前記ビットストリームに基づいて決定されるか、又は
前記第1のハイパー情報は、予測情報を含む、請求項に記載の方法。
【請求項11】
前記第2部分を決定するステップは、
前記NNベースのモデルにおける第5のサブネットワークを使用して、第2の量子化ハイパー潜在表現に基づいて第2のハイパー情報を生成するステップであって、前記第2の量子化ハイパー潜在表現が前記ビットストリームの第1の部分に基づいて決定されるステップと、
前記第2のハイパー情報に基づいて前記ビットストリームの第2の部分に対してエントロピーデコードプロセスを実行することによって前記第2部分を取得するステップであって、前記第2の部分が前記第1の部分とは異なるステップとを含む、請求項に記載の方法。
【請求項12】
前記第2のハイパー情報は分散を含むか、又は
前記第5のサブネットワークは、ハイパースケールデコーダサブネットワークであるか、又は
前記エントロピーデコードプロセスは、算術デコードプロセスであるか、又は
前記第2の量子化ハイパー潜在表現は、第1の量子化ハイパー潜在表現と同じである、請求項11に記載の方法。
【請求項13】
前記転換を実行するステップは、
前記第1部分及び前記第2部分に基づいて前記第1のサンプルを決定するステップと、
前記第1のサンプルに対する合成変換に基づいて前記転換を実行するステップと、を含む、請求項に記載の方法。
【請求項14】
前記第1のサンプルは、前記第1部分と前記第2部分の合計に基づいて決定される、請求項13に記載の方法。
【請求項15】
前記第1部分は、前記第1のサンプルの予測であり、又は前記第2部分は、前記第1のサンプルの量子化された残差であるか、又は
前記再構成された潜在表現は、前記視覚的なデータの量子化潜在表現であるか、又は
前記視覚的なデータは、ビデオのピクチャ又はイメージを含む、請求項に記載の方法。
【請求項16】
前記転換は、前記視覚的なデータを前記ビットストリームにエンコードすることを含む、請求項に記載の方法。
【請求項17】
前記転換は、前記ビットストリームから前記視覚的なデータをデコードすることを含む、請求項に記載の方法。
【請求項18】
プロセッサと命令を備えた非一時的メモリとを含む、視覚的なデータを処理する装置であって、前記命令は前記プロセッサによって実行されると、前記プロセッサに請求項1から17のいずれか一項に記載の方法を実行させる、装置。
【請求項19】
プロセッサに請求項1から17のいずれか一項に記載の方法を実行させる命令を記憶する、非一時的なコンピュータ読み取り可能記憶媒体。
【請求項20】
視覚的なデータのビットストリームを記憶する方法であって、
前記視覚的なデータの再構成された潜在表現の第1のサンプルの第1部分を決定するステップであって、前記第1部分が前記第1のサンプルの予測を示すステップと、
前記第1のサンプルの第2部分を決定するステップであって、前記第2部分が前記第1のサンプルと前記第1部分との間の差を示すステップと、
前記第2部分に基づいて前記ビットストリームを生成するステップと、
前記ビットストリームを非一時的なコンピュータ読み取り可能記録媒体に記憶するステップと、を含む、方法。
【国際調査報告】