(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-04
(54)【発明の名称】画像およびビデオ符号化のためのニューラルネットワークにおけるマルチレベル潜在の融合
(51)【国際特許分類】
H04N 19/90 20140101AFI20240828BHJP
H04N 19/59 20140101ALI20240828BHJP
【FI】
H04N19/90
H04N19/59
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024507861
(86)(22)【出願日】2022-08-03
(85)【翻訳文提出日】2024-02-07
(86)【国際出願番号】 US2022039267
(87)【国際公開番号】W WO2023027873
(87)【国際公開日】2023-03-02
(31)【優先権主張番号】202141038587
(32)【優先日】2021-08-25
(33)【優先権主張国・地域又は機関】IN
(32)【優先日】2021-10-19
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-11-22
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】202141058191
(32)【優先日】2021-12-14
(33)【優先権主張国・地域又は機関】IN
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】モハナンチェッティアル,アルンクマール
(72)【発明者】
【氏名】シンガラ,ジャイ ニティン
(72)【発明者】
【氏名】シャルマ,パンカジ
(72)【発明者】
【氏名】コレリ,ニジル
(72)【発明者】
【氏名】イン,プオン
(72)【発明者】
【氏名】アロラ,アルジュン
(72)【発明者】
【氏名】プウ,ファーンジュイン
(72)【発明者】
【氏名】ルウ,タオラン
(72)【発明者】
【氏名】マッカーシー,ショーン トーマス
(72)【発明者】
【氏名】フサク,ウォルター ジェイ.
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159LB05
5C159MA00
(57)【要約】
画像およびビデオ圧縮において使用されるマルチレベルのエンドツーエンドのニューラルネットワークにおける潜在特徴の融合のための方法、システム、およびビットストリーム・シンタックスが記載される。融合されたアーキテクチャーは、静的であるか、または、画像特性(たとえば、自然画像かスクリーン・コンテンツ画像か)、またはビットレート制約条件もしくはレート‐歪み最適化などの他の符号化パラメータに基づいて動的でありうる。多様なマルチレベル融合アーキテクチャーが議論される。
【特許請求の範囲】
【請求項1】
ニューラルネットワークを使用して画像を圧縮および圧縮解除する方法であって、当該方法は:
潜在特徴を使用して圧縮されるべき、入力空間解像度の入力画像を受領する段階と;
複数の連続するレベルの畳み込みネットワークを使用して前記入力画像を処理して、潜在の融合出力を生成する段階であって、前記複数の畳み込みネットワークの各ネットワーク・レベルについて、その出力はその入力よりも低い空間解像度を有する、段階と;
潜在の前記融合出力を量子化して、量子化された融合された潜在を生成する段階と;
前記量子化された融合された潜在に算術符号化を適用して、符号化された融合された潜在を生成する段階とを含み、
潜在の融合出力を生成することは、さらに:
前記複数の連続するレベルの畳み込みネットワークのうちの2つ以上の畳み込みネットワークから潜在出力を選択し;
選択された潜在出力を融合して、潜在の前記融合出力を生成することを含む、
方法。
【請求項2】
前記符号化された融合された潜在を受領する段階と;
前記符号化された融合された潜在を復号して、復号された融合された潜在を生成する段階と;
複数の連続するレベルの畳み込み解除ネットワークを使用して、前記復号された融合された潜在を処理して、前記入力空間解像度での前記入力画像の近似を生成する段階であって、前記複数の畳み込み解除ネットワークの各ネットワーク・レベルについて、その出力はその入力より高い空間解像度を有する、段階とをさらに含む、
請求項1に記載の方法。
【請求項3】
L1出力をもつ選択されたレベルL1の潜在と、L2出力をもつ選択されたレベルL2の潜在が与えられ、前記レベルL2が前記レベルL1の後にあり、前記選択された潜在出力を融合することが:
前記L1出力の前記空間解像度に一致するように前記L2出力をアップスケーリングすることによって、アップスケーリングされたレベルL2出力を生成し;
前記アップスケーリングされたL2出力および前記L1出力に基づいて、潜在の前記融合出力を生成することをさらに含む、
請求項1に記載の方法。
【請求項4】
潜在の前記融合出力を生成することが:
前記L1出力を1×1畳み込みネットワークで処理し、前記1×1畳み込みネットワークの出力を前記アップスケーリングされたL2出力に加算して、潜在の前記融合出力を生成することをさらに含む、
請求項3に記載の方法。
【請求項5】
潜在の前記融合出力を生成することが:
k×k畳み込みネットワークを用いて前記L1出力を処理し、前記k×k畳み込みネットワークの出力を前記アップスケーリングされたL2出力に加算して、潜在の前記融合出力を生成することをさらに含み、k≧1は、前記入力画像の一つまたは複数の特性に基づいて選択される奇数である、
請求項3に記載の方法。
【請求項6】
前記入力画像の特性は、自然画像、スクリーン・コンテンツ画像、HDR画像、仮想現実画像、コンピュータ生成画像、または画像から抽出された任意の抽象特徴マップのうちの一つまたは複数を含む、請求項5に記載の方法。
【請求項7】
前記融合された出力潜在を生成することは:
前記L1出力を2つ以上の別個の畳み込みネットワークで処理し、前記2つ以上の別個の畳み込みネットワークの出力を前記アップスケーリングされたL2出力と組み合わせて、前記融合された出力潜在を生成することをさらに含む、
請求項3に記載の方法。
【請求項8】
連結ネットワークを使用して、前記アップスケーリングされたL2出力と前記L1出力とを連結する段階と;
マージされるべき各潜在特徴について、重み付けされたマップを生成する段階と;
前記重み付けされたマップを前記連結ネットワークの前記出力に適用して、前記融合された出力潜在を生成する段階とをさらに含む、
請求項3に記載の方法。
【請求項9】
2つ以上の畳み込みネットワークから前記潜在出力を選択することは、前記複数の連続するレベルの畳み込みネットワークのうちの2つ以上の畳み込みネットワークから前記潜在出力を選択することを含む、請求項1に記載の方法。
【請求項10】
潜在特徴を生成および処理するためのニューラルネットワークを使用して画像を圧縮および圧縮解除する方法であって、当該方法は:
潜在特徴を使用して圧縮されるべき、入力空間解像度の入力画像を受領する段階と;
複数の連続するレベルの畳み込みネットワークを使用して前記入力画像を処理して、潜在の一つまたは複数の融合出力を生成する段階であって、前記複数の畳み込みネットワークの各レベルのネットワークについて、その出力がその入力よりも低い空間解像度を有する、段階と;
L1出力をもつレベルL1の潜在と、L2出力をもつレベルL2の潜在とを選択する段階であって、レベルL2はレベルL1の後にある、段階と;
前記L1出力の空間解像度に一致するように前記L2出力をアップスケーリングすることによって、アップスケーリングされたレベルL2出力を生成する段階と;
前記アップスケーリングされたL2出力と前記L1出力とを組み合わせて、融合されたL1出力を生成する段階と;
前記融合されたL1出力を量子化および符号化して、融合された符号化されたL1出力を生成する段階と;
前記L2出力を量子化および符号化して、符号化されたL2出力を生成する段階とを含む、
方法。
【請求項11】
前記符号化されたL2出力および前記融合された符号化されたL1出力を受領および復号して、復号されたL2入力および復号された融合されたL1入力を生成する段階と;
前記復号されたL2入力と前記復号された融合されたL1入力とに基づいて、融合されていないL1入力を抽出する段階と;
前記融合されていないL1入力を一つまたは複数の後続の畳み込み解除ネットワークに適用して、前記入力空間解像度での前記入力画像の近似を生成する段階であって、前記一つまたは複数の畳み込み解除ネットワークの各ネットワーク・レベルについて、その出力はその入力よりも高い空間解像度を有する、段階とをさらに含む、
請求項10に記載の方法。
【請求項12】
前記L1レベルの潜在および前記L2レベルの潜在を選択することは、一つまたは複数の符号化パラメータを最適化することに基づいて動的に行われる、請求項3に記載の方法。
【請求項13】
前記一つまたは複数の符号化パラメータが、ターゲット符号化ビットレート、レート歪み最適化、デコーダ複雑さ、または画像/ビデオ特性のうちの一つまたは複数を含む、請求項12に記載の方法。
【請求項14】
選択されたレベルの潜在を融合することに関連するメタデータを生成する段階をさらに含み、前記メタデータは:
レベルの適応的融合が有効にされるか否かを示す第1のフラグ;
前記選択されたレベルのために使用される、ルーマ・サンプル単位でのパッチ幅およびパッチ高さの値;
複数の融合フォーマットのうちで選択された融合フォーマットを示すインデックス・パラメータ;
選択された融合フォーマットにおいて使用される融合レベルの総数を示す第1の変数;および
融合がインター符号化、イントラ符号化、または動きベクトル符号化について有効にされるかどうかを示す一つまたは複数のシンタックス要素
のうちの一つまたは複数を含む、
請求項12に記載の方法。
【請求項15】
潜在特徴を生成および処理するためのニューラルネットワークを使用して画像を圧縮および圧縮解除する方法であって、当該方法は:
潜在特徴を使用して圧縮されるべき、入力空間解像度の入力画像を受領する段階と;
複数の連続するレベルの畳み込みネットワークを使用して前記入力画像を処理して、潜在の一つまたは複数の出力を生成する段階であって、前記複数の畳み込みネットワークの各レベルのネットワークについて、その出力がその入力よりも低い空間解像度を有する、段階と;
L1出力をもつレベルL1の潜在と、L2出力をもつレベルL2の潜在とを選択する段階であって、レベルL2はレベルL1の後にある、段階と;
前記レベルL2出力に基づいて、量子化されたL2出力を生成する段階と;
予測ニューラルネットワーク(630)および前記量子化されたL2出力に基づいて予測レベルL1出力を生成する段階と;
前記L1出力から前記予測L1出力を減算して、残差L1潜在を生成する段階と;
前記残差L1潜在を量子化および符号化して、符号化された残差L1出力を生成する段階と;
前記量子化されたL2出力を符号化して、符号化されたL2出力を生成する段階とを含む、
方法。
【請求項16】
前記予測ニューラルネットワークが、空間アップスケーラと、畳み込み解除ネットワークの2つの層とを有する、請求項15に記載の方法。
【請求項17】
前記符号化されたL2出力を受領して復号し、復号されたL2出力を生成する段階と;
前記符号化された残差L1出力を受領して復号し、復号された残差L1出力を生成する段階と;
デコーダ予測ニューラルネットワークおよび前記復号されたL2出力に基づいて、デコーダで予測されたレベルL1出力を生成する段階と;
前記デコーダで予測されたレベルL1出力を前記復号された残差L1出力に加算して、復号されたL1出力を生成する段階と;
前記復号されたL1出力と前記復号されたL2出力とに基づいて、連結されたL1出力を生成する段階と;
前記連結されたL1入力を一つまたは複数の後続の畳み込み解除ネットワークに適用して、前記入力空間解像度での前記入力画像の近似を生成する段階であって、前記一つまたは複数の畳み込み解除ネットワークの各ネットワーク・レベルについて、その出力はその入力よりも高い空間解像度を有する、段階とを含む、
請求項15に記載の方法。
【請求項18】
潜在の前記融合出力を生成することは、前記出力潜在に関連する潜在スケーラビリティ・メタデータを生成し、送信することをさらに含む、請求項1に記載の方法。
【請求項19】
前記潜在スケーラビリティ・メタデータは、複雑さスケーラビリティ・パラメータおよび/または品質スケーラビリティ・パラメータを含む、請求項18に記載の方法。
【請求項20】
前記潜在スケーラビリティ・メタデータは、前記量子化された潜在のエネルギー内容に関連する情報を含む、請求項19に記載の方法。
【請求項21】
品質スケーラビリティの下で、潜在チャネルは、それらのエネルギー・レベルに従って、より高いエネルギーからより低いエネルギーへ送信される、請求項20に記載の方法。
【請求項22】
前記符号化された融合された潜在についての潜在スケーラビリティ・メタデータを受領する段階をさらに含み、前記符号化された融合された潜在の復号は、前記潜在スケーラビリティ・メタデータおよびスケーラビリティ基準に基づいて実行される、請求項2に記載の方法。
【請求項23】
前記スケーラビリティ基準は、複雑さスケーラビリティを含み、符号化された融合された潜在のチャネルは、それらのエネルギー・レベルに従って、より高いエネルギーからより低いエネルギーへと復号される、請求項21に記載の方法。
【請求項24】
一つまたは複数のプロセッサを用いて請求項1ないし23のうちいずれか一項に記載の方法を実行するためのコンピュータ実行可能命令を記憶している非一時的なコンピュータ可読記憶媒体。
【請求項25】
プロセッサを備え、請求項1ないし23のうちいずれか一項に記載の方法を実行するように構成された装置。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、以下の出願に対する優先権の利益を主張する:2021年8月25日に出願されたインド仮特許出願第202141038587号、2021年10月19日に出願された米国仮特許出願第63/257,388号、2021年11月22日に出願された欧州特許出願第21209479.1号、および2021年12月14日に出願されたインド仮特許出願第202141058191号。これらのそれぞれは、その全体が本明細書中に援用される。
【0002】
技術
本稿は、概括的には画像に関する。より詳細には、本発明のある実施形態は、画像およびビデオ符号化に使用されるニューラルネットにおけるマルチレベル潜在の融合に関する。
【背景技術】
【0003】
2020年に、国際標準化機構(ISO)のMPEGグループは、国際電気通信連合(ITU)と共同で、H.266としても知られる多用途ビデオ符号化規格(VVC)の最初のバージョンをリリースした。より最近では、同じ共同グループ(JVET)と静止画像圧縮(JPEG)の専門家が、既存の画像およびビデオ符号化技術よりも改善された符号化パフォーマンスを提供する次世代の符号化規格の開発に取り組み始めている。この研究の一部として、人口知能および深層学習に基づく符号化技術もまた検討されている。本明細書で使用されるところでは、用語「深層学習」は、少なくとも3つの層、好ましくは3つより多い層を有するニューラルネットワークをいう。
【0004】
本発明者らによって理解されるように、ニューラルネットワークに基づく画像およびビデオの符号化のための改善された技法が本明細書で説明される。
このセクションで記載されたアプローチは、追求されることができたアプローチであるが、必ずしも以前に考えられたか、または追求されたアプローチではない。したがって、特に断りがない限り、このセクションに記載されたアプローチのいずれも、単にこのセクションに含まれていることによって従来技術として適格であると想定されるべきではない。同様に、一つまたは複数のアプローチに関して特定された問題は、特に断りがない限り、このセクションに基づいて、何らかの先行技術においても認識されていたと想定されるべきではない。
ここに挙げられる参考文献のそれぞれはその全体において参照によって組み込まれる。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】D. Minnen, J. Balle’, and G. Toderici、“Joint autoregressive and hierarchical priors for learned image compression”、32nd Conf. on Neural Information Processing Systems (NeurIPS 2018), Montreal, Canada, 2018
【非特許文献2】J. Balle’, D. Minnen, S. Singh, S. J. Hwang, and N. Johnston、“Variational image compression with a scale hyperprior”、International Conference on Learning Representations (ICLR), 2018, also arXiv:1802.01436v2 (2018)
【非特許文献3】Z. Cheng, H. Sun, M. Takeuchi, and J. Katto. “Learned image compression with discretized Gaussian mixture likelihoods and attention modules”、Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)”、p.7939-7948, 2020, also arXiv e-prints (2020): arXiv-2001.01568v3, 30 March 2020
【非特許文献4】T-Y Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie、“Feature pyramid networks for object detection”、Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2117-2125, 2017
【非特許文献5】S. Liu, X. Xu, S. Lei, and K. Jou、“Overview of HEVC extensions on screen content coding”、APSIPA Transactions on Signal and Information Processing, vol. 4, p. e10, 2015
【非特許文献6】G. Lu, W. Ouyang, D. Xu, X. Zhang, C. Cai, and Z. Gao、“DVC: An end-to-end deep video compression framework”、2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 10998-11007). IEEE Computer Society, 2019, also arXiv:1812.00101v3, 7 April 2019
【非特許文献7】J. Duda、“Asymmetric numeral systems: entropy coding combining speed of Huffman coding with compression rate of arithmetic coding”、arXiv preprint arXiv:1311.2540v2, 6 Jan. 2014
【非特許文献8】M. Zhu, K. Han, C. Yu, and Y. Wang、“Dynamic Feature Pyramid Networks for Object Detection”、arXiv preprint arXiv:2012.00779 (2020)
【非特許文献9】C. Guo, B. Fan, Q. Zhang, S. Xiang, and C. Pan、“Augfpn: Improving multi-scale feature learning for object detection”、Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12595-12604, 2020
【非特許文献10】Y. Han et al.、“Dynamic Neural Networks: a survey”、arXiv preprint arXiv:2102.04906 (2021)
【非特許文献11】Tensorflow compression toolbox https://github.com/tensorflow/compression
【図面の簡単な説明】
【0006】
本発明の実施形態が、添付の図面の図において、限定としてではなく、例として示される。図面において、同様の参照番号は同様の要素を指す。
【0007】
【
図1】エンドツーエンドの画像およびビデオ符号化のための例示的なニューラルネットワークモデルを示す。
【0008】
【
図2】本発明のある実施形態によるマルチレベル潜在(MLL)融合を用いた画像およびビデオ符号化のための例示的なニューラルネットワーク処理モデルの一例を示す。
【0009】
【
図3】3Aおよび3Bは、本発明の諸実施形態による例示的なMLL融合ニューラルネットの例の詳細を示す。
【0010】
【
図4】本発明のある実施形態による、動的融合を有するMLL融合アーキテクチャーのための例示的な融合ゲートを示す。
【0011】
【
図5】本発明のある実施形態による空間的に重み付けされたMLL融合アーキテクチャーの例を示す。
【0012】
【
図6A】潜在の多層伝送を有するMLL融合アーキテクチャーの例を示す。
【
図6B】潜在の多層伝送を有するMLL融合アーキテクチャーの例を示す。
【0013】
【
図6C】単層畳み込みおよびシグモイド・ブロックを使用する例示的な注目ブロックを示す。
【0014】
【
図7】ビデオ符号化においてニューラルネットワークを使用するための例示的なフレームワークを示す。
【発明を実施するための形態】
【0015】
画像およびビデオ符号化〔コーディング〕において使用されるニューラルネットワークにおけるマルチレベル潜在の融合に関する例示的実施形態が、本明細書で説明される。以下の記述では、説明の目的で、本発明のさまざまな実施形態の十全な理解を提供するために、多数の個別的な詳細が記載される。しかしながら、本発明のさまざまな実施形態は、これらの個別的な詳細なしに実施されうることが明らかであろう。他方では、本発明の実施形態を不必要に埋没させたり、曖昧にしたり、または難読化させることを避けるために、周知の構造およびデバイスは、網羅的な詳細さでは記述されない。
【0016】
概要
本明細書に記載される例示的実施形態は、ニューラルネットワークを使用する画像およびビデオ符号化に関する。ある実施形態では、プロセッサは、潜在特徴を使用して圧縮されるべき、入力空間解像度の入力画像を受領する。次に、プロセッサは
複数の連続するレベルの畳み込みネットワークを使用して前記入力画像を処理して、潜在の融合出力を生成する段階であって、前記複数の畳み込みネットワークの各ネットワーク・レベルについて、その出力がその入力よりも低い空間解像度を有する、段階と;
潜在の前記融合出力を量子化して、量子化された融合された潜在を生成する段階と;
前記量子化された融合された潜在に算術符号化を適用して、符号化された融合された潜在を生成する段階とを実行し、
潜在の融合出力を生成することは、さらに:
前記複数の連続するレベルの畳み込みネットワークのうちの2つ以上の畳み込みネットワークから潜在出力を選択し;
選択された潜在出力を融合して、潜在の前記融合出力を生成することを含む。
【0017】
別の実施形態では、プロセッサは、潜在特徴を使用して圧縮されるべき、入力空間解像度の入力画像を受領する。次に、プロセッサは
複数の連続するレベルの畳み込みネットワークを使用して前記入力画像を処理して、潜在の一つまたは複数の融合出力を生成する段階であって、前記複数の畳み込みネットワークの各レベルのネットワークについて、その出力がその入力よりも低い空間解像度を有する、段階と;
L1出力を有するレベルL1の潜在と、L2出力を有するレベルL2の潜在とを選択する段階であって、レベルL2はレベルL1の後にある、段階と;
前記L1出力の空間解像度に一致するように前記L2出力をアップスケーリングすることによって、アップスケーリングされたレベルL2出力を生成する段階と;
前記アップスケーリングされたL2出力と前記L1出力とを組み合わせて、融合されたL1出力を生成する段階と;
前記融合されたL1出力を量子化および符号化して、融合された符号化されたL1出力を生成する段階と;
前記L2出力を量子化および符号化して、符号化されたL2出力を生成する段階とを実行する。
【0018】
例示的なエンドツーエンドのビデオ符号化モデル
深層学習ベースの画像およびビデオ圧縮手法はますます普及してきており、活発な研究の領域である。普及している手法のほとんどは、トレーニング・データセットでエンドツーエンド・トレーニングされる畳み込みニューラルネットワーク(CNN)を採用する変分オートエンコーダ(variational autoencoder)に基づく。
図1は、潜在特徴の符号化および復号のための4層アーキテクチャーを使用する、そのような方式(非特許文献1、2、6)のプロセス・パイプライン(100)の例を示す。
【0019】
本明細書で使用されるところでは、「潜在特徴(latent feature)」または「潜在変数(latent variable)」という用語は、直接観察可能ではなく、むしろ、他の観察可能な特徴または変数から、たとえば直接観察可能な変数を処理することによって推測される特徴または変数を示す。画像およびビデオ符号化では、「潜在空間(latent space)」という用語は、類似のデータポイントが互いにより近いような圧縮データの表現を指すことがある。ビデオ符号化では、潜在特徴の例は、変換係数の表現、残差、動き表現、シンタックス要素、モデル情報などを含む。ニューラルネットワークの文脈において、潜在空間は、データ特徴を学習するために、また分析のために画像データのより単純な表現を見つけるために有用である。
【0020】
図1に示されるように、入力h×w解像度の入力画像x(102)が与えられると、エンコーダ(100E)において、入力画像は、一連の畳み込みニューラルネットワーク・ブロック(畳み込みネットワークまたは畳み込みブロックとも呼ばれる)によって処理され、それぞれの後に非線形活性化関数が続く(105、110、115、120)。(畳み込みネットワークおよび活性化関数の複数のサブレイヤー〔サブ層〕を含みうる)そのような層〔レイヤー〕のそれぞれにおいて、その出力は、典型的には(たとえば、2倍以上)低減される(この因子は典型的には「ストライド」と呼ばれ、ストライド=1はダウンサンプリングなしであり、ストライド=2は各方向における2倍のダウンサンプリングを指す、など)。たとえば、ストライド=2を使用すると、畳み込み1ネットワーク(105)の出力は、h/2×w/2となる。最終層(たとえば、120)は、出力潜在係数y(122)を生成し、これは、デコーダ(100D)に送られる前に、量子化(Q)され、(たとえば、算術符号化器AEによって)さらにエントロピー符号化される。超事前分布ネットワーク(hyper-prior network)および空間コンテキスト・モデル・ネットワーク(spatial context model network)(図示せず)も、潜在(y)の確率モデルを生成するために使用される。
【0021】
デコーダ(100D)では、プロセスが逆になる。算術復号(AD)後、復号された潜在^y〔^付きのy;以下同様〕(124)を与えられて、それぞれ畳み込み解除ニューラルネットワーク・ブロックおよび非線形活性化関数を組み合わせる一連の畳み込み解除層(125、130、135、140)を使用して、入力(102)を近似する出力^x(142)を生成する。デコーダにおいては、各畳み込み解除層の出力解像度は、典型的には、エンコーダ100Eにおける対応する畳み込みレベルにおけるダウンサンプリング因子にマッチして(たとえば、2倍以上)増加される。それにより、入力画像と出力画像が同じ解像度を有するようになる。
【0022】
そのようなアーキテクチャーでは、潜在〔レイテント〕(latents)の受容野エリアは、
図1に示される各層で使用されるダウンサンプリング比およびカーネル・サイズに基づいて増加する。メイン潜在〔main latents〕は、最後の層深さ(たとえば、120)で符号化されるので、それらは、典型的には、層の数(典型的には4~6)、ダウンサンプリング比(典型的には2)、および各層で使用されるカーネル・サイズ(典型的には3×3~5×5)に基づく高い受容野サイズを有する。そのような固定深さベースのニューラルネットワークは、主に自然画像を符号化するために開発されたものであり、きわめて多様な画像/ビデオソースのセットにおけるさまざまな空間サイズならびにテクスチャー、エッジ、およびなめらかなエリアの特性の潜在特徴を符号化するのに最適でないことがある。多様な画像/ビデオソースは、たとえば、種々の動作ビットレートのための、スクリーン・コンテンツ、自然コンテンツ、ユーザー生成コンテンツ、コンピュータ生成画像(CGI)ベースのゲームおよびアニメーション・コンテンツ、混合コンテンツなどである。たとえば、スクリーン・コンテンツ画像(SCI)は、色構造および統計において自然画像とは著しい違いを有する。SCIは、自然画像と比較して、より頻繁に急激な色変化および均一な色領域を有する傾向がある。また、SCIは、しばしば、極小から大までのさまざまなサイズでありうるテキストを有する。したがって、SCIの良好な再現は、幅広く異なる空間スケールにおける強度変動を処理する能力を必要とする。提案される実施形態は、深層学習ベースの画像およびビデオ・コーデックが、異なる層深さの潜在を適応的に融合および符号化することを可能にし、これは、多様なコンテンツのセットのための、最適なレート歪み符号化パフォーマンスのための、マルチレベル受容野ベースの潜在符号化アーキテクチャーを可能にする。マルチレベル受容野符号化アーキテクチャーは、従来のブロックベースのビデオ・コーデックにおける可変ブロック・サイズ符号化に大まかに関連しうるが、変換ブロックまたは予測ブロックの特定のサイズおよび構造の明示的な符号化を必要としない。
【0023】
画像およびビデオ符号化のための深層学習アーキテクチャーは、自然画像の場合には従来の方法と競合することに近づいている。提案される適応型マルチレベル潜在の融合方法は、自然画像およびビデオについてこの現状技術を向上させることができるが、それらは、スクリーン・コンテンツ圧縮のために特に有益である。SCIについては、現在の深層学習スキームは、従来の方法よりも著しく遅れており、提案される方法は、著しくより良好な結果を与える。
【0024】
提案されるアーキテクチャーの実施形態は、オブジェクト検出およびオブジェクト分類の文献において導入された特徴ピラミッド・ネットワーク(feature pyramid network、FPN)によって動機付けられる。その目標は、スケールにわたってオブジェクトの検出および分類を改善することであった(非特許文献4)。HEVCおよびVVCなどの従来の画像符号化規格は、SCI画像を効率的に圧縮するためにいくつかの特殊な技法を使用する。たとえば、HEVC規格は、SCビデオを扱うために、イントラブロックコピー、パレット符号化、適応色変換、および適応動き解像度のような特殊ツールを採用している(非特許文献5)。これらのアイデアのいくつかをCNNベースのコーデックに、より直接的な仕方で組み込むことによって、さらなる利得が可能でありうるが、現時点では、これは進行中の研究のトピックである。
【0025】
マルチレベル潜在の融合(multi-level latent fusion)
画像圧縮に現在使用されているCNNベースのアーキテクチャー(非特許文献1、2)では、いくつかのレベル(または層〔レイヤー〕)に編成された特徴階層構造があり、1つのレベルから次のレベルへの出力ダウンサンプリングがある。これは、各後続レベルで特徴マップの空間解像度を徐々に減少させることにつながり、一方では同時に、畳み込みフィルタの受容野は増大している。より高いレベルからの特徴は、意味的により強く、より大きな表現能力および圧縮が可能である傾向があるが、低下した空間解像度のため、空間的にあまりよく局所化されない。
図1に示されるように、現在の圧縮方法では、伝送されるべき潜在特徴(たとえば、122)は、ネットワークの最高レベル(たとえば、120)から取得される。限られた空間解像度および潜在の大きな受容野のため、現在のアーキテクチャーは、SCIでは一般的な短いエッジ、テキスト文字などの小さな画像構造を再構成するのに特に適したものにならない可能性がある。圧縮および圧縮解除中に、テキスト文字のある種の詳細な細部が失われると、時にはその可読性が低下することがある。
【0026】
他方、より低いレベルからの特徴は、より少ない回数サブサンプリングされるので、より高い空間分解能のために、より正確に局所化される。横方向接続(スキップ接続とも呼ばれる)を使用して複数のレベルからの特徴を融合すること(fusing)は、特徴階層構造における異なるレベルの強さを活用することができる。この考えは、さまざまなサイズのオブジェクトの検出および分類を改善するのに役立つことが文献において以前に実証されているが(非特許文献4)、我々の知る限りでは、画像およびビデオ圧縮の分野においては新規であり、スクリーン・コンテンツ画像の圧縮において実証可能な利点を有する。
【0027】
図2は、単にMLL融合アーキテクチャーと呼ばれる、提案されるマルチレベル潜在(multi-level latents)融合アーキテクチャーの例示的な実施形態を示す。
図1(100)と比較して、エンコーダ(200E)では、新たな潜在融合ネットワーク(205)が追加されている。デコーダ(200D)において、デコーダCNN(210)は、デコーダ100Dにおいて示されるように、適切な数の畳み込み解除/非線形活性化層を使用している。前と同様に、出力212は、入力102の復号された近似を表す。潜在融合ネットワーク(205)は、多様な形をとることができ、例示的実施形態を次に検討する。
【0028】
図3のAおよびBは、MLL融合アーキテクチャーの例を示し、ここでは、簡単のために、量子化器(Q)、算術符号化(AE)、および算術復号(AD)ブロックは示されていない。
図3のAには、1つの融合ラダーがあり、畳み込みネットワーク4の出力を畳み込み層3の出力と融合して、潜在出力305を生成する。畳み込み層4が畳み込み層3の半分の解像度を有する場合、アップサンプル操作は2倍のアップサンプリングである。GDNは、一般化除算正規化(generalized divisive normalization)を表し、IGDNは、逆GDN、局所的な除算正規化を実施する非線形性、画像の圧縮においてかなり有効であることが示されている変換のタイプを表す(非特許文献1、2)。たとえば、GDN/IGDN関数は、TensorFlow圧縮ツールボックスの一部として利用可能である(非特許文献11)。「Conv」ブロックは、畳み込みネットワーク(たとえば、m×n×C×K,S、ここで、m×nは畳み込みカーネルを示し、Cは処理されているチャネルの数を示し、Kは畳み込みカーネルの数であり、Sはストライドを示す)を示す。一例として、サイズ3×3×1×2、S=1のフィルタバンクは、2つの畳み込みカーネルから構成され、そのそれぞれは1つのチャネルに対して動作し、3ピクセル×3ピクセルのサイズを有し、1のストライドを有する。「Deconv」ブロックは、畳み込み解除ブロックを示す。1×1畳み込み層は、融合される特徴レベル間でチャネル数をマッチさせるために必要とされる。
図3のAに示されるように、デコーダ・ネットワークは、DeconvおよびIGDNブロックを有し、最初のはいってくる畳み込み解除層(たとえば、Decon-4)を除去することによって修正され、入力302の復号された近似である出力322を生成する。代替的に、その余分な畳み込み解除層(たとえば、Deconv-4)を維持することができるが、潜在(305)が層3において(たとえば、層4の解像度の2倍で)符号化されるので、Deconv-4のストライドは、さらなるアップサンプリングがないように1に設定されるべきである。
【0029】
図3のBは、
図3のAのアーキテクチャーと同様であるが、3つのレベル、すなわちレベル2、3、および4からの特徴を融合して、第2のレベルでの潜在(315)を生成する。ここでもまた、デコーダにおいて、2つの最上位レベルが除去され(Deconv-4およびDeconv-3)、復号された潜在318が与えられると、デコーダは、入力302を近似する出力325を生成する。
【0030】
これらのアーキテクチャーは、4つより多いレベルを有するアーキテクチャーに容易に拡張することができ、3つより多いレベルを融合することができる。
【0031】
動的MLL融合アーキテクチャー
図3のAおよび
図3のBでは、融合ネットワークは1×1畳み込みネットワークを使用する。別の実施形態では、各特徴レベルについての受容野サイズは、入力画像の特徴に基づいて、この畳み込みブロック内の畳み込みカーネル幅を切り換えることによって、画像適応的に個々に制御されることができる。
図4は、効率的な特徴抽出のために使用される、非特許文献8の動的特徴ネットワーク(FPN)によって着想された「動的ゲート(dynamic gate)」と呼ばれるものの例示的なアーキテクチャーを示す。
図4に示されるように、別個のニューラルネットワークに基づくゲーティング論理(405)が、処理畳み込みカーネル(たとえば、それぞれ1×1、3×3、5×5などのサイズでありうるConv1、Conv2、Conv3など)を適応的に選択するために使用されている。ある実施形態では、そのような畳み込みネットワークの組み合わせ(たとえば、Conv1(1×1)+Conv2(3×3)+Conv3(5×5))を使用することさえできる。動的ゲートは、エンコーダに、圧縮される画像に対する追加のレベルの適合可能性を許容し、潜在的により高い圧縮効率を与える。たとえば、エンコーダは、入力が自然画像からなるか、またはスクリーン・コンテンツ画像からなるかに基づいて、またはニューラルネットワーク(NN)405がそのためにトレーニングされている何らかの他の基準に従って、カーネルを使用しうる。ゲーティング論理(405)は、畳み込み層、グローバル平均プーリング層、2つ以上の全結合〔フルコネクト〕層(FC
1、FC
2、…、FC
n)を含み、Softmax関数で終了する。畳み込み層と、最後のもの(たとえばFC
n)を除く各全結合層の後には、整流線形ユニット(ReLU)活性化関数層(図では「+ReLU」で示される)が続く。
【0032】
実験結果は、画像およびビデオ符号化において、特定のビットレート制約条件または要件が、異なる数の層を送信することを必要としうることを示している。一例として、
図2に戻ると、低ビットレート要件は、新しい畳み込みレベル(たとえば、畳み込み5、図示せず)を追加し、それを畳み込み層4または別の層と融合することを必要とすることがありうる。これは、符号化されるべき潜在の数を低減する(よって、ピクセル当たりのビット数を低減する)のに役立ち、同時に、画質を高めるのに役立つことができる。よって、ある実施形態では、固定された潜在融合ネットワーク(205)は、どの層が融合されるべきかを動的に選択するために使用できる学習スイッチ・ネットワークまたはゲート・ネットワークによって置き換えられうる。これは、伝統的なコーデックで使用されるブロック・サイズ適応の概念に類似していると考えられる。加えて、ネットワークは、たとえば、動的ニューラルネットワーク(非特許文献10)を使用して、推論中に、それらの層アーキテクチャーを入力画像/ビデオおよび要求されるビットレート/品質に適合させることができる。よって、MLLアーキテクチャーは、動的ニューラルネットワーク・アーキテクチャーに直接適用されうる。そのようなシナリオでは、エンコーダは、エンコーダの選択された融合構造に従ってデコード畳み込み層をどのように調整するかについてデコーダに知らせるために追加的なMLL融合メタデータを送る必要がありうる(
図3のAおよび
図3のBにおけるデコーダ中の例を参照)。そのようなメタデータの例は、後に与えられる(表1~4を参照)。
【0033】
空間的に重み付けされたMLL融合アーキテクチャー
別の実施形態では、層を融合するために単純な加算を使用する代わりに、空間的に重み付けされた融合を適用することができる(非特許文献9)。
図5は、そのような実施形態の例を示す。
図5に示されるように、まず、連結ネットワークを用いて関心のある特徴レベルを連結することから開始する(505)。層が連結される前に、すべての特徴層が同じ空間解像度(たとえば、w×h)を有するように、層は適切にアップサンプリングされる(520)必要があることに留意されたい。
図5は、4つの層すべてが連結されるように描いているが、(
図3のAまたは
図3のBなどのように)2つまたは3つの層のみを連結することを選択してもよい。
【0034】
別個の注目様ネットワーク(attention-like network)(515)を使用して、重みマップを生成することができる。具体的には、ネットワーク515は、アップサンプリングされた特徴を入力として取り、各特徴について1つの空間重みマップを生成する。たとえば、それぞれC個のチャネルをもつN個の層を連結する場合、連結器への入力はN(C×h×w)となり、その出力はNC×h×wとなる。ブロック515において、Conv1畳み込み層の後には、C×h×w個の出力がある。N層の重み付き集約が必要なので、後続の一つまたは複数の畳み込み層(Conv2、Conv3など)は、出力をN×h×wに低減し、畳み込み層のための3×3カーネル・サイズの選択は、より良く局所化された重みマップを与えるために小さい空間的受容野の柔軟性を与える。最後のものを除く各畳み込み層は、非線形活性化関数としてReLUを含む(図では「+ReLU」で示される)。Softmaxブロックが最終的な重みを生成する。
【0035】
ブロック510において、特徴レベルは、空間的に変化する重みを用いる重み付けされた和を使用して融合される。これは、エンコーダが圧縮される画像に空間的に適合することができるという追加の利点を有する。よって、エンコーダは、好適な受容野サイズをもつ特徴レベルを使用して異なる仕方で、平滑なおよび高速に変化する画像領域を扱うことが可能でありうる。デコーダ・アーキテクチャーは、いくつのレベルが一緒に融合されるかに依存して、
図2と同様に保たれる(たとえば、
図3のAおよび
図3のB参照)。
【0036】
マルチレベル送信を有するMLL
図6Aは、ある実施形態によるMLLアーキテクチャーの別の例を示す。そのようなシナリオでは、潜在は、2つ以上のレベルで、または(最低空間解像度の)最高の利用可能レベルよりも低いレベルで送信される。
図6Aに示されるように、この例では、限定はしないが、潜在はレベル4とレベル3の両方で送信される。あるいはまた、任意的な経路を示す点線によって示されるように、層3における潜在のみが送信されてもよい。エントロピー・モデルは、送られる必要があるビット数を低減するために、すでに送られたレベルで条件付けられた後続の潜在レベルをモデル化するように修正される。2つのレベルを融合するための融合エンコーダ・ネットワーク・ブロック(605)は、追加、連結、または潜在を組み合わせる何らかの他の仕方でありうる。
【0037】
デコーダにおいて、対応する融合デコーダ・ネットワーク(620)は、後続の畳み込み解除層(たとえば、130)の前に融合エンコーダ・ネットワークの動作を逆にするために畳み込み解除に先行しうる。具体的には、融合デコーダ・ネットワークは、2つの近傍の入力からの(たとえば、AD-3およびDeconv-4(125)からの)特徴をマージするために使用され、これは、単純な連結層または予測および残差融合ブロックとして実装されうる。この例では、より上位レベルの畳み込み解除ブロック(125)からの特徴が予測のために使用され、現在レベルの算術デコーダ(AD-3)から受領された残差特徴と組み合わされる。デコーダにおける後続の処理は、前と同様である。
【0038】
図6Bは、
図6Aの見本としての変形を示し、ここで、潜在はレベル4および3で送信され、レベル3潜在は、2層の深層畳み込み解除ベースの予測器ネットワーク(630)によって、アップスケールされたレベル4潜在を使用して予測され、2つの畳み込み解除ネットワークは、逆一般化除算正規化(inverse generalized divisive normalization、IGDN)ネットワークによって分離される。レベル3予測残差
【数1】
が、レベル3潜在について送信される。この実施形態は、NN処理において「注目ブロック」(たとえば、ブロック635)と一般に呼ばれるいくつかの機能も利用し、ある種のデータを他のデータよりも向上させることを目的とする。
図6Bの実施形態では、注目ブロックは、十分な局所適応のためにレベル4およびレベル3の潜在を空間的に重み付けするためにも使用される。
図6Bで使用される注目ブロックの、畳み込み層およびシグモイド層を使用する例は、
図6Cに示される。
【0039】
図6Bでは、復号経路は、同様のアーキテクチャーを使用し、レベル4の潜在に基づく予測値は、レベル4の潜在と連結される前に、復号されたレベル3の潜在に加算される。
【0040】
非特許文献1におけるように、トレーニングの目標は、ビットストリームの期待される長さ、ならびにもとの画像に対する再構成された画像の期待される歪みを最小化することであり、レート‐歪み(R/D)最適化問題:
R+λD (1)
を引き起こす。ここで、λは、所望のレート‐歪み(R/D)トレードオフを決定するラグランジュ乗数である。ある実施形態では、このネットワークのトレーニング中に、トレーニング誤差関数(たとえば、D)は、レベル3潜在予測の歪みのための可変スケール因子をもつ追加の項を有するように修正され、該歪みは、典型的には、レベル3潜在予測子の平均2乗誤差、たとえば、
【数2】
として測定される。これは、予測されるレベル3潜在のより高い忠実度を確実にするためである。初期の予測損失スケール因子は、0.1に設定され、レベル4およびレベル3の潜在を送信するために必要とされるビットレートの適切なバランスを達成するために、徐々にゼロに低減される。同様のアーキテクチャーを適用して、必要に応じてアップスケール、融合エンコーダ・ネットワーク、量子化器、および算術符号化ブロックを繰り返すことによって、2つよりも多い層を融合および送信することができる。
【0041】
注:この特定のアーキテクチャーは、潜在が異なるレベルで明示的に符号化され、デコーダ側で融合されるので、デコーダの修正を必要とする。一方、先のアーキテクチャーは、ビットストリームにおいて符号化された潜在の1つのレベルのみを有しており、デコーダ側での融合を必要としなかった。
【0042】
ビデオ符号化についての考察
これまで、例示的な実施形態は、画像圧縮を中心としていたが、同じツールがビデオ圧縮にも適用可能である。
図7は、ビデオ符号化パイプラインのさまざまな段階においてニューラルネットワークを使用する例示的なフレームワークを示し、ここで、そのような各ネットワークは、一つまたは複数の既存の従来の符号化ツールに取って代わる。提案されたアーキテクチャーは、イントラ・フレーム、残差(またはインター符号化された)フレームの圧縮において、または動きベクトル情報をエンコードするために使用できる。残差フレームの場合、残差画像統計により良く一致するようにエントロピー・モデルを適合させることによって、さらなる圧縮効率の可能性が存在しうる。動きベクトル(MV)エンコーダおよびデコーダ・ネットワークの場合、畳み込みレベルの数を(たとえば8レベルに)増加させることは、高いビットレートに対しては著しい利得を有しうるが、より低いビットレートに対しては相対的により低い利得を有しうることが示されている。したがって、本明細書で提案されるようなMLL融合アーキテクチャーは、より低いビットレートについて、利得をさらに改善するか、または複雑さを低減するかのいずれかを行いうる。たとえば、多くの場合、4つより多い層を有する必要はない。
【0043】
MLL融合ネットワークを与えられると、実験結果が示すところによれば、異なるビットレートまたは品質要件について、パフォーマンスを最適化するために、異なる総数の層または異なる融合モデルをもつNNを適用する必要がありうる。最適なニューラルネットワーク・アーキテクチャーを選択する1つの方法は、エンコーダにおけるレート歪み最適化(RDO)に基づいてすべてのオプションを網羅的に探索し、次いで最良のRDOをもつニューラルネットワーク・アーキテクチャーを選択することである。複数のMLL融合ネットワークからさらに利益を得るために、画像(または入力ピクチャー)をパッチ(たとえば、128×128または256×256)に分割することができる。次いで、各パッチについて、RDOを適用して最良のネットワークを選択することができる。次いで、高レベルシンタックス(high-level syntax、HLS)の一部として、または補足向上情報(supplementary enhancement information、SEI)メッセージングとして、各パッチについて、ニューラルネットワーク融合パラメータの最良の組み合わせをシグナリングすることができる。このパッチ・ベースの推論は、特に4k、8k、またはそれ以上のような高解像度画像のための、並列化のために有益でありうる。ビデオ符号化については、イントラ/インター/スキップ決定のためにパッチ・ベースのRDOフレームワークを適用することもできる。MLL融合ネットワークと組み合わせて、パッチの粒度でマルチモードおよびマルチ解像度適応をサポートするネットワークを構築することができるべきである。
【0044】
以下の表は、諸実施形態による、MLL融合適応のためのそのような高レベルシンタックスのさまざまな例を、限定なしに示す。この高レベルシンタックスは、階層構造の複数のレベル(たとえば、ビデオストリームレベル、ピクチャーレベル、スライスレベル、タイルレベルなど)におけるビットストリームの一部であるか、または別個のSEIメッセージングとしてありうる。シンタックスは、以下の情報を提供する:a)パッチへの分割が均一であるか、または不均一であるか(たとえば、表1を参照)。b)各パッチについてのMLL融合適応情報。
注:a)の部分について、代替的に、HEVCまたはVVCにおいて均一または不均一タイルを示すために使用されるシンタックスと同様のシンタックスを適用してもよい。
【0045】
第1の例(表2)では、MLL融合適応データの一般的な情報が最初にシグナリングされ、次いで、現在のパッチについてMLL融合を有効または無効にするために、各パッチについて有効化フラグが送られる。第2の例(表3)では、各パッチについて、より詳細なMLL融合適応シンタックスがシグナリングされる。第1の例は、第2の例よりも少ないビットを必要とするが、第2の例は、より柔軟性を有する。
【表1】
1に等しいMLL_adaptation_enabled_flagは、MLL適応が復号ピクチャーについて有効にされることを指定する。0に等しいMLL_adaptation_enabled_flagは、MLL適応が復号ピクチャーについて有効にされないことを指定する。
1に等しいuniform_patch_flagは、パッチ列境界およびパッチ行境界がピクチャーにわたって一様に分布することを指定する。1に等しいuniform_patch_flagは、パッチ列境界およびパッチ行境界が明示的にシグナリングされることを指定する。
patch_width_in_luma_samplesは、復号ピクチャーの幅をルーマ・サンプルの単位で指定する。patch_widtht_in_luma_samplesは、0に等しいことはなく、64の整数倍である。num_patch_columns_minus1は、pic_width_in_luma_samplesに基づいて導出できる。
patch_height_in_luma_samplesは、復号ピクチャーの高さを、ルーマ・サンプルの単位で指定する。patch_height_in_luma_samplesは、0に等しいことはなく、64の整数倍である。num_patch_rows_minus1は、pic_height_in_luma_samplesに基づいて導出できる。
num_patch_columns_minus1に1を加えたものは、現在ピクチャーのためのパッチ列の数を指定する。存在しないとき、uniform_patch_flagが1に等しければ、値は上記のように推定される。そうでない場合、値は0であると推定される。
num_patch_rows_minus1に1を加えたものは、現在ピクチャーのパッチ行の数を指定する。存在しないとき、uniform_patch_flagが1に等しければ、値は上記のように推定される。そうでない場合、値は0であると推定される。
patch_column_width_minus1[i]に1を加えたものは、i番目のパッチ列の幅を指定する。
patch_row_height_minus1[i]に1を加えたものは、i番目のパッチ行の高さを指定する。
【表2】
【0046】
表2では、まず、イントラおよびインターMLL融合関連情報をシグナリングする。(注:MLL_adaptation_enabled_flagが1に等しい場合、intra_MLL_adaptation_enabled_flag || inter_MLL_adaptation_enabled_flagは1に等しいものとする)。次いで、各パッチについて、MLLがそのパッチについて有効にされるか否かをシグナリングする。
1に等しいintra_MLL_adaptation_enabled_flagは、MLL適応が復号ピクチャーのためのイントラ符号化のために有効にされることを指定する。0に等しいintra_MLL_adaptation_enabled_flagは、復号ピクチャーのためのイントラ符号化のためにイントラMLL適応が有効にされないことを指定する。
intra_fusion_idcは、イントラMLLのために使用される融合方法を指定する。
注:融合idc値の例は、
図3のA/Bに示されるようなMLL融合アーキテクチャーについての0、
図4に示されるような動的MLL融合アーキテクチャーについての1、
図5に示されるような空間的に重み付けされたMLL融合アーキテクチャーについての2、等でありうる。
intra_num_layers_minus1に1を加えたものは、イントラMLLのために使用される層の数を指定する。
inter_mv_fusion_idcは、inter_mv_MLLのために使用される融合方法を指定する。
inter_mv_num_layers_minus1に1を加えたものは、インター動きベクトルMLL融合ネットワークのために使用される層の数を指定する。
inter_residue_fusion_idcは、インター残差MLLネットワークのために使用される融合方法を指定する。
inter_residue_num_layers_minus1に1を加えたものは、インター残差MLLのために使用される層の数を指定する。
1に等しいpatch_MLL_adaptation_enabled_flag[j][i]は、MLL適応がj番目のパッチ行およびi番目のパッチ列について有効にされることを指定する。0に等しいpatch_MLL_adaptation_enabled_flag[j][i]は、MLL適応がj番目のパッチ行およびi番目のパッチ列について有効にされないことを指定する。
patch_intra_MLL_adaptation_enabled_flag[j][i]は、(patch_MLL_adaptation_enabled_flag[j][i]&intra_MLL_adaptation_enabled_flag)に等しく設定される。
patch_inter_MLL_adaptation_enabled_flag[j][i]は、(patch_MLL_adaptation_enabled_flag[j][i]&inter_MLL_adaptation_enabled_flag)に等しく設定される。
別の実施形態では、patch_MLL_adaptation_enabled_flag[j][i]をシグナリングせず、代わりに、patch_intra_MLL_adaptation_enabled_flag[j][i]およびpatch_inter_MLL_adaptation_enabled_flag[j][i]を直接シグナリングする。
【0047】
注:各パッチについて、intra_MLLおよびinter_MLLはすべて許容されると想定される。1つのケースのみが許容される場合、そのケースをシグナリングする必要があるだけである。次の例についても同じ想定が成り立つ。
【0048】
別の例では、表3に示されるように、より高い柔軟性を許容するために、各パッチについてのすべてのMLL融合適応関連情報をシグナリングする。たとえば、表3のシンタックスは、いくつかのパッチがイントラ符号化パッチとして符号化され、いくつかのパッチがインター符号化パッチとして符号化されることを許容する。
【表3】
【0049】
上記のシンタックスは、簡単のため、最上位2つのレベルのみの融合をサポートする。2つよりも多くの層を融合する必要がある場合には、どのレベルがどのように融合されるかを識別するために、新しいシンタックス要素(たとえば、xxx_num_fusion_layers_minus2およびxxx_fusion_layer_number[i]、ここで、「xxx」は「inter」、「intra」などでありうる)が追加されうる。たとえば表4は、2つよりも多い層を有するMLL融合適応を使用するイントラ符号化のためのそのようなシンタックスの一例を与える。
【0050】
【表4】
intra_num_fusion_layers_minus2に2を加えたものは、イントラMLLについて融合されるべき層の数を指定する。
intra_fusion_layer_number[i]は、i番目の融合される層の層番号を指定する。
【0051】
同様のシンタックスが、ビデオ符号化において使用される他のニューラルネットに適用されうる。パッチ・ベースのアルゴリズムは、パッチ境界において境界アーティファクトを生じうることに留意されたい。ブロッキング除去フィルタまたはNNベースのループ内フィルタが、そのような問題を解決するために追加されうる。
【0052】
潜在スケーラビリティ
実験結果は、潜在エネルギー(たとえば、ある実施形態では、量子化された潜在の平均二乗値として計算される)が出力潜在チャネルの小さいサブセットに集中することを示した。これは、MLLベースのアーキテクチャーに特に当てはまる。〓は収集されたデータの一例を示す。ここで、ニューラルネットワークは、テスト画像に一致するように自然画像またはスクリーン画像に対してトレーニングされた。項q1は、192個の出力潜在チャネルを有する低ビットレートの場合を示し、一方、q7は、320個の出力潜在チャネルを有する高ビットレートの場合を示す。たとえば、
図3AのMLLネットワークについて、q1の場合、自然画像については、192チャネルのうちの20チャネルが、全エネルギーの99%超を含み、スクリーン・コンテンツ画像については、192チャネルのうちの28チャネルが、潜在エネルギーの大部分を含む。対応するq7の場合、その数は、自然画像については320チャネルのうち83であり、スクリーン・コンテンツ画像については320チャネルのうち93である。このデータは、NNベースの画像コーデックが、複雑性スケーラビリティおよび/または品質スケーラビリティを可能にするように適合されうることを示す。
【表5】
【0053】
複雑さスケーラビリティは、デバイスにおけるハードウェアまたはソフトウェア能力によって制限される利用可能な資源に基づいて、デコーダがエントロピー復号および再構成を動作させることを許容する。複雑さスケーラビリティをサポートするために、ある実施形態では、潜在チャネルをそれらのエネルギー集中に基づいて並べ替えることができる。たとえば、ある実施形態では、最も優勢な潜在チャネルは、基本層に格納され、その後、復号の複雑さを低減することができる漸進的な仕方で、より優勢でない潜在チャネルのための洗練層が格納されうる。並べ替えは、事前に定義できるので、オーバーヘッドがデコーダに送られる必要はない。一例として、192個のチャネルを使用して、チャネルに0、1、…、191と番号を付けることができる。次いで、符号化されたチャネルの順序、たとえば、0、3、20、…などを明示的に指定しうる。デコーダでは、デコーダは、単にその利用可能な資源に基づいてチャネルを復号することができる。別の実施形態では、チャネル順序を個々にシグナリングするか、またはチャネルをグループ化してビットレート・オーバーヘッドを節約することを許容できる。
【0054】
潜在の品質スケーラビリティは、帯域幅適応を考慮する必要がある。ビットストリームは、ユーザーまたはネットワークのいずれかが帯域幅要件に基づいて潜在チャネルをドロップすることができるようにパッケージ化されうる。この能力を可能にするために、何らかの高レベルシンタックス(HLS)、たとえば、品質スケーラビリティのためにスケーラブルHEVCにおいて使用されているシンタックスと同様のシンタックスが必要とされる(たとえば、HEVC/H.265仕様の付属書F参照)。NNコーデックについてより具体的には、ある実施形態では、ビットストリームがいくつの品質レベルをサポートするかを最初にシグナリングしてもよい。次いで、各ネットワーク抽象化層(NAL)ユニットについて、相対的な品質レベルに関係するビットストリームのみが含められる。別の例では、最初にチャネルを並べ替えることができ、次いで、HLSを使用して、各品質レベルにいくつのチャネルがあるかをシグナリングすることができる。これにより、ユーザーまたはネットワークは、帯域幅要件に基づいてビットストリームから重要でないチャネルを除去することができる。本明細書で説明される複雑さスケーラビリティおよび品質スケーラビリティは、MLLベースのアーキテクチャーに限定されず、他のNNベースのコーデックにも適用可能であることに留意されたい。
【0055】
例示的なコンピュータシステムの実装
本発明の実施形態は、コンピュータシステム、電子回路およびコンポーネントにおいて構成されたシステム、集積回路(IC)デバイス、たとえばマイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA)、または別の構成可能またはプログラマブル論理デバイス(PLD)、離散時間またはデジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、および/またはそのようなシステム、デバイス、またはコンポーネントの一つまたは複数を含む装置で実施されうる。コンピュータおよび/またはICは、本明細書で説明されるものなど、画像およびビデオ符号化のためのニューラルネットワークにおけるマルチレベル潜在融合に関する命令を実施、制御、または実施しうる。コンピュータおよび/またはICは、本明細書で説明する画像およびビデオ符号化のためのニューラルネットワークにおけるマルチレベル潜在融合に関する多様なパラメータまたは値の任意のものを計算しうる。画像およびビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア、およびそれらのさまざまな組み合わせで実装されうる。
【0056】
本発明のある種の実装は、プロセッサに本発明の方法を実行させるソフトウェア命令を実行するコンピュータプロセッサを含む。たとえば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどの中の一つまたは複数のプロセッサは、プロセッサにとってアクセス可能なプログラムメモリ中のソフトウェア命令を実行することによって、上記で説明したような画像およびビデオ符号化のためのニューラルネットワークにおけるマルチレベル潜在融合に関係する方法を実装しうる。本発明の実施形態は、プログラム・プロダクトの形で提供されてもよい。プログラム・プロダクトは、データプロセッサによって実行されると、データプロセッサに本発明の方法を実行させる命令を含むコンピュータ可読信号のセットを担持する任意の非一時的な有形の媒体を含むことができる。本発明によるプログラム・プロダクトは、幅広い多様な非一時的および有形の形の任意のものであってもよい。プログラム・プロダクトは、たとえば、フロッピーディスケット、ハードディスクドライブを含む磁気データ記憶媒体、CD-ROM、DVDを含む光データ記憶媒体、ROM、フラッシュRAMを含む電子データ記憶媒体等の物理媒体を含むことができる。プログラム・プロダクト上のコンピュータ可読信号は、任意的に、圧縮または暗号化されてもよい。
構成要素(たとえば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路など)が上記で言及される場合、別段の指示がない限り、その構成要素への言及(「手段」への言及を含む)は、本発明の例解された例示的な実施形態における機能を実行する開示された構造と構造的に等価ではない構成要素を含む、説明された構成要素の機能を実行する(たとえば、機能的に等価である)任意の構成要素をその構成要素の等価物として含むものとして解釈されるべきである。
【0057】
等価物、拡張、代替およびその他
画像およびビデオ符号化のためのニューラルネットワークにおけるマルチレベル潜在融合に関する例示的な実施形態が、このように説明されている。上記明細書において、本発明の実施形態は、実装ごとに異なりうる多数の個別的詳細を参照して説明されている。よって、本発明が何であるか、および出願人が本発明であると意図するものの唯一かつ排他的な指標は、本願に対して発行される特許請求の範囲のセットの、その後の補正があればそれも含めて、そのような特許請求の範囲が許可される特定の形でのものである。そのような特許請求の範囲に含まれる用語について本明細書に明示的に記載される定義があればそれは、特許請求の範囲で使用されるそのような用語の意味を支配するものとする。よって、請求項に明示的に記載されていない限定、要素、特性、特徴、利点、または属性は、いかなる仕方でもそのような請求項の範囲を限定するべきではない。よって、本明細書および図面は、制約する意味ではなく例示的な意味であるとみなされるべきである。
【国際調査報告】