IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特許7411117メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム
<>
  • 特許-メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム 図1
  • 特許-メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム 図2
  • 特許-メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム 図3
  • 特許-メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム 図4(a)
  • 特許-メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム 図4(b)
  • 特許-メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム 図5
  • 特許-メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム 図6
  • 特許-メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム 図7
  • 特許-メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム 図8
  • 特許-メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム 図9
  • 特許-メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム 図10
  • 特許-メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-26
(45)【発行日】2024-01-10
(54)【発明の名称】メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム
(51)【国際特許分類】
   H04N 19/90 20140101AFI20231227BHJP
   H04N 19/46 20140101ALI20231227BHJP
   H04N 1/41 20060101ALI20231227BHJP
   G06T 9/00 20060101ALI20231227BHJP
【FI】
H04N19/90
H04N19/46
H04N1/41
G06T9/00 200
【請求項の数】 17
(21)【出願番号】P 2022564310
(86)(22)【出願日】2021-08-06
(65)【公表番号】
(43)【公表日】2023-05-31
(86)【国際出願番号】 US2021044896
(87)【国際公開番号】W WO2022197320
(87)【国際公開日】2022-09-22
【審査請求日】2022-10-21
(31)【優先権主張番号】63/161,216
(32)【優先日】2021-03-15
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/362,039
(32)【優先日】2021-06-29
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ジャン,ウェイ
(72)【発明者】
【氏名】ワン,ウェイ
(72)【発明者】
【氏名】リウ,シャン
(72)【発明者】
【氏名】シュー,シャオゾン
【審査官】田中 純一
(56)【参考文献】
【文献】米国特許第10373300(US,B1)
【文献】特表2022-530779(JP,A)
【文献】特表2020-530626(JP,A)
【文献】米国特許出願公開第2020/0160565(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/12
H04N 19/00 - 19/98
H04N 1/41 - 1/419
H04N 1/64
G06T 9/00 - 9/40
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
メタ学習による、ハイパー事前モデルを用いる適応ニューラル画像圧縮の方法であって、当該方法は、少なくとも1つのプロセッサによって実行され、当該方法は、
入力画像及びハイパーパラメータに基づいて統計的特徴を生成するステップと、
第1共有特徴及び推定適応符号化パラメータを生成するステップと、
前記生成された第1共有特徴及び前記生成された推定適応符号化パラメータに基づいて、前記入力画像を符号化して信号符号化画像を取得するステップと、
第2共有特徴及び推定適応ハイパー符号化パラメータを生成するステップと、
前記信号符号化画像、前記生成された第2共有特徴及び前記生成された推定適応ハイパー符号化パラメータに基づいて、ハイパー特徴を生成するステップと、
前記取得された信号符号化画像、前記生成された統計的特徴及び前記生成されたハイパー特徴を圧縮するステップと、
前記圧縮された信号符号化画像を復号して回復された画像を取得し、前記圧縮された統計的特徴を復号して回復された統計的特徴を取得し、前記圧縮されたハイパー特徴を復号して回復されたハイパー特徴を取得するステップと、
第3共有特徴及び推定適応ハイパー復号パラメータを生成するステップと、
前記回復された統計的特徴、前記生成された第3共有特徴及び前記生成された推定適応ハイパー復号パラメータに基づいて、ハイパー事前特徴を生成するステップと、
前記生成されたハイパー事前特徴及び前記取得された回復された画像に基づいて、再構成された画像を生成するステップと、
を含む、方法。
【請求項2】
前記生成された統計的特徴及び共有信号符号化パラメータに基づいて、第1ニューラルネットワーク内の複数の層内のある層の前記第1共有特徴を生成するステップと、
前記生成された第1共有特徴、前記統計的特徴及び適応信号符号化パラメータに基づいて、畳み込みを実行して、前記推定適応符号化パラメータを計算するステップと、
を更に含む、請求項1に記載の方法。
【請求項3】
前記推定適応符号化パラメータは、前記第1ニューラルネットワークの前記複数の層において更新される、
請求項2に記載の方法。
【請求項4】
前記生成された第1共有特徴及び前記推定適応符号化パラメータに基づいて、前記第1ニューラルネットワークの前記複数の層内の前記層の符号化された出力を計算するステップを更に含み、
前記第1ニューラルネットワークの前記複数の層のうちの最後の層の前記符号化された出力は、前記信号符号化画像である、
請求項2に記載の方法。
【請求項5】
前記生成された統計的特徴、前記取得された信号符号化画像及びハイパー符号化パラメータに基づいて、第2ニューラルネットワーク内の複数の層内のある層の前記第2共有特徴を生成するステップと、
前記生成された第2共有特徴、前記生成された統計的特徴及び適応信号符号化パラメータに基づいて、畳み込みを実行して、前記推定適応ハイパー符号化パラメータを計算するステップと、
を更に含む、請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
前記推定適応ハイパー符号化パラメータは、前記第2ニューラルネットワークの前記複数の層において更新される、
請求項5に記載の方法。
【請求項7】
前記生成された第2共有特徴及び前記推定適応ハイパー符号化パラメータに基づいて、前記第2ニューラルネットワークの前記複数の層内の前記層のハイパー出力を生成するステップを更に含み、
前記第2ニューラルネットワークの前記複数の層のうちの最後の層の前記ハイパー出力は、前記ハイパー特徴である、
請求項5に記載の方法。
【請求項8】
前記圧縮されたハイパー特徴及び共有ハイパー復号パラメータに基づいて、第3ニューラルネットワーク内の複数の層内のある層の前記第3共有特徴を生成するステップと、
前記生成された第3共有特徴、前記回復された統計的特徴及び適応ハイパー復号パラメータに基づいて、畳み込みを実行して、前記推定適応ハイパー復号パラメータを計算するステップと、
を更に含む、請求項1乃至7のいずれか一項に記載の方法。
【請求項9】
前記推定適応ハイパー復号パラメータは、前記第3ニューラルネットワークの前記複数の層において更新される、
請求項8に記載の方法。
【請求項10】
前記生成された第3共有特徴及び前記推定適応ハイパー復号パラメータに基づいて、前記第3ニューラルネットワークの前記複数の層内の前記層のハイパー事前出力を計算するステップを更に含み、
前記第3ニューラルネットワークの前記複数の層のうちの最後の層の前記ハイパー事前出力は、前記ハイパー事前特徴である、
請求項8に記載の方法。
【請求項11】
前記ハイパー事前特徴、前記回復された信号符号化画像及び共有信号復号パラメータに基づいて、第4ニューラルネットワーク内の複数の層内のある層の第4共有特徴を生成するステップと、
前記生成された第4共有特徴、前記回復された統計的特徴及び適応ハイパー復号パラメータに基づいて、畳み込みを実行して、推定適応信号復号パラメータを計算するステップと、
前記生成された第4共有特徴及び前記推定適応信号復号パラメータに基づいて、前記第4ニューラルネットワークの前記複数の層内の前記層の復号された出力を生成するステップであって、前記第4ニューラルネットワークの前記複数の層のうちの最後の層の前記復号された出力は、前記再構成された画像である、ステップと、
を更に含む、請求項1乃至10のいずれか一項に記載の方法。
【請求項12】
メタ学習による、ハイパー事前モデルを用いる適応ニューラル画像圧縮のための装置であって、当該装置は、
プログラムコードを記憶するよう構成される少なくとも1つのメモリと、
前記プログラムコードを読み取り、前記プログラムコードによって指示されるように動作するよう構成される少なくとも1つのプロセッサと、を含み、前記プログラムコードは、
前記少なくとも1つのプロセッサに、入力画像及びハイパーパラメータに基づいて統計的特徴を生成させるよう構成される統計的特徴生成コードと、
前記少なくとも1つのプロセッサに、第1共有特徴を生成させるよう構成される第1共有特徴生成コードと、
前記少なくとも1つのプロセッサに、推定適応符号化パラメータを生成させるよう構成される適応符号化コードと、
前記少なくとも1つのプロセッサに、前記生成された第1共有特徴及び前記生成された推定適応符号化パラメータに基づいて、前記入力画像を符号化させて信号符号化画像を取得させるよう構成される符号化コードと、
前記少なくとも1つのプロセッサに、第2共有特徴を生成させるよう構成される第2共有特徴生成コードと、
前記少なくとも1つのプロセッサに、推定適応ハイパー符号化パラメータを生成させるよう構成される適応ハイパー符号化コードと、
前記少なくとも1つのプロセッサに、前記信号符号化画像、前記生成された第2共有特徴及び前記生成された推定適応ハイパー符号化パラメータに基づいて、ハイパー特徴を生成させるよう構成されるハイパー特徴生成コードと、
前記少なくとも1つのプロセッサに、前記取得された信号符号化画像、前記生成された統計的特徴及び前記生成されたハイパー特徴を圧縮させるよう構成される圧縮コードと、
前記少なくとも1つのプロセッサに、前記圧縮された信号符号化画像を復号させて回復された画像を取得させ、前記圧縮された統計的特徴を復号させて回復された統計的特徴を取得させ、前記圧縮されたハイパー特徴を復号させて回復されたハイパー特徴を取得させるよう構成される復号コードと、
前記少なくとも1つのプロセッサに、第3共有特徴を生成させるよう構成される第3共有特徴生成コードと、
前記少なくとも1つのプロセッサに、推定適応ハイパー復号パラメータを生成させるよう構成される適応ハイパー復号コードと、
前記少なくとも1つのプロセッサに、前記回復された統計的特徴、前記生成された第3共有特徴及び前記生成された推定適応ハイパー復号パラメータに基づいて、ハイパー事前特徴を生成させるよう構成されるハイパー事前特徴生成コードと、
前記少なくとも1つのプロセッサに、前記生成されたハイパー事前特徴及び前記取得された回復された画像に基づいて、再構成された画像を生成させるよう構成される再構成コードと、
を含む、装置。
【請求項13】
前記第1共有特徴生成コードは、前記少なくとも1つのプロセッサに、前記生成された統計的特徴及び共有信号符号化パラメータに基づいて、第1ニューラルネットワーク内の複数の層内のある層の前記第1共有特徴を生成させるよう構成され、
前記適応符号化コードは、前記少なくとも1つのプロセッサに、前記生成された第1共有特徴、前記統計的特徴及び適応信号符号化パラメータに基づいて、畳み込みを実行させて、前記推定適応符号化パラメータを生成させるよう構成され、
前記推定適応符号化パラメータは、前記第1ニューラルネットワークの前記複数の層において更新され、
前記符号化コードは、前記少なくとも1つのプロセッサに、前記生成された第1共有特徴及び前記推定適応符号化パラメータに基づいて、前記第1ニューラルネットワークの前記複数の層内の前記層の符号化された出力を生成させるよう構成され、
前記第1ニューラルネットワークの前記複数の層のうちの最後の層の前記符号化された出力は、前記信号符号化画像である、
請求項12に記載の装置。
【請求項14】
前記第2共有特徴生成コードは、前記少なくとも1つのプロセッサに、前記生成された統計的特徴、前記取得された信号符号化画像及びハイパー符号化パラメータに基づいて、第2ニューラルネットワーク内の複数の層内のある層の前記第2共有特徴を生成させるよう構成され、
前記適応ハイパー符号化コードは、前記少なくとも1つのプロセッサに、前記生成された第2共有特徴、前記生成された統計的特徴及び適応信号符号化パラメータに基づいて、畳み込みを実行させて、前記推定適応ハイパー符号化パラメータを生成させるよう構成され、
前記推定適応ハイパー符号化パラメータは、前記第2ニューラルネットワークの前記複数の層において更新され、
前記ハイパー特徴生成コードは、前記少なくとも1つのプロセッサに、前記生成された第2共有特徴及び前記推定適応ハイパー符号化パラメータに基づいて、前記第2ニューラルネットワークの前記複数の層内の前記層のハイパー出力を生成させるよう構成され、
前記第2ニューラルネットワークの前記複数の層のうちの最後の層の前記ハイパー出力は、前記ハイパー特徴である、
請求項12に記載の装置。
【請求項15】
前記第3共有特徴生成コードは、前記少なくとも1つのプロセッサに、前記圧縮されたハイパー特徴及び共有ハイパー復号パラメータに基づいて、第3ニューラルネットワーク内の複数の層内のある層の前記第3共有特徴を生成させるよう構成され、
前記適応ハイパー復号コードは、前記少なくとも1つのプロセッサに、前記生成された第3共有特徴、前記回復された統計的特徴及び適応ハイパー復号パラメータに基づいて、畳み込みを実行させて、推定適応ハイパー復号パラメータを計算させるよう構成され、
前記推定適応ハイパー復号パラメータは、前記第3ニューラルネットワークの前記複数の層において更新され、
前記ハイパー事前特徴生成コードは、前記少なくとも1つのプロセッサに、前記生成された第3共有特徴及び前記推定適応ハイパー復号パラメータに基づいて、前記第3ニューラルネットワークの前記複数の層内の前記層のハイパー事前出力を生成させるよう構成され、
前記第3ニューラルネットワークの前記複数の層のうちの最後の層の前記ハイパー事前出力は、前記ハイパー事前特徴である、
請求項12に記載の装置。
【請求項16】
メタ学習による、ハイパー事前モデルを用いる適応ニューラル画像圧縮のために、少なくとも1つのプロセッサによって実行されると、該少なくとも1つのプロセッサに、請求項1乃至11のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【請求項17】
メタ学習による、ハイパー事前モデルを用いる適応ニューラル画像圧縮の方法であって、当該方法は、少なくとも1つのプロセッサによって実行され、当該方法は、
入力画像及びハイパーパラメータに基づいて統計的特徴を生成するステップと、
第1共有特徴及び推定適応符号化パラメータを生成するステップと、
前記生成された第1共有特徴及び前記生成された推定適応符号化パラメータに基づいて、前記入力画像を符号化して信号符号化画像を取得するステップと、
第2共有特徴及び推定適応ハイパー符号化パラメータを生成するステップと、
前記信号符号化画像、前記生成された第2共有特徴及び前記生成された推定適応ハイパー符号化パラメータに基づいて、ハイパー特徴を生成するステップと、
前記取得された信号符号化画像、前記生成された統計的特徴及び前記生成されたハイパー特徴を圧縮するステップと、
を含む、方法。

【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年3月15日に出願された米国仮特許出願第63/161,216号及び2021年6月29日に出願された米国特許出願第17/362,039号に基づいており、その優先権を主張し、その開示は、参照によってその全体が本明細書に組み込まれる。
【背景技術】
【0002】
標準化グループ及び企業は、将来のビデオコーディング技術の標準化について潜在的なニーズを積極的に模索している。これらの標準化グループ及び企業は、ディープニューラルネットワーク(DNN:deep neural networks)を用いた、人工知能(AI:artificial intelligence)ベースのエンドツーエンド・ニューラル画像圧縮(NIC:neural image compression)に焦点を当ててきた。このアプローチの成功は、高度なニューラル画像及びビデオ圧縮方法に対するより一層の産業上の関心をもたらした。
【0003】
典型的に、予めトレーニングされるNICモデルインスタンスは、トレーニングデータがすべての自然画像の全データ分布をカバーし、かつ予めトレーニングされた固定モデルパラメータを用いるユニバーサルモデルインスタンスが、すべての自然画像に作用するよう取得され得ると仮定し、トレーニングデータのセットを使用することによって計算される。この仮定は、実際には正しくない。実際の自然画像は、様々なデータ分布を有し、予めトレーニングされた、モデルは、画像のサブセットに対してのみ正常に動作することができる。NICモデルが、異なる入力画像を収容するために、そのモデルパラメータを適応的に選択できることが非常に望まれる。
【発明の概要】
【0004】
実施形態によると、メタ学習(meta-learning)によるハイパー事前モデル(hyperprior model)を用いる適応ニューラル画像圧縮(adaptive neural image compression)の方法は、少なくとも1つのプロセッサによって実行され、入力画像及びハイパーパラメータに基づいて統計的特徴を生成するステップと、第1共有特徴(shared feature)及び推定適応符号化パラメータ(estimated adaptive encoding parameter)を生成するステップと、生成された第1共有特徴及び生成された推定適応符号化パラメータに基づいて、入力画像を符号化して信号符号化画像(signal encoded image)を取得するステップと、第2共有特徴及び推定適応ハイパー符号化パラメータ(estimated adaptive hyper encoding parameter)を生成するステップと、取得された信号符号化画像、生成された第2共有特徴及び生成された推定適応ハイパー符号化パラメータに基づいて、ハイパー特徴(hyper feature)を生成するステップと、取得された信号符号化画像、生成された統計的特徴及び生成されたハイパー特徴を圧縮するステップとを含む。方法は、圧縮された信号符号化画像を復号して回復された画像を取得し、圧縮された統計的特徴を復号して回復された統計的特徴を取得し、圧縮されたハイパー特徴を復号して回復されたハイパー特徴を取得するステップと、第3共有特徴及び推定適応ハイパー復号パラメータを生成するステップと、回復された統計的特徴、生成された第3共有特徴及び生成された推定適応ハイパー復号パラメータに基づいて、ハイパー事前特徴(hyper prior feature)を生成するステップと、生成されたハイパー事前特徴及び取得された回復された画像に基づいて、再構成された画像を生成するステップと、を更に含む。
【0005】
実施形態によると、メタ学習によるハイパー事前モデルを用いる適応ニューラル画像圧縮のための装置は、プログラムコードを記憶するよう構成される少なくとも1つのメモリと、プログラムコードを読み取り、プログラムコードによって指示されるように動作するよう構成される少なくとも1つのプロセッサと、を含み、プログラムコードは、少なくとも1つのプロセッサに、入力画像及びハイパーパラメータに基づいて統計的特徴を生成させるよう構成される統計的特徴生成コードと、少なくとも1つのプロセッサに、第1共有特徴を生成させるよう構成される第1共有特徴生成コードと、少なくとも1つのプロセッサに、推定適応符号化パラメータを生成させるよう構成される適応符号化コードと、少なくとも1つのプロセッサに、第1共有特徴及び推定適応符号化パラメータに基づいて、入力画像を符号化させて信号符号化画像を取得させるよう構成される符号化コードと、少なくとも1つのプロセッサに、第2共有特徴を生成させるよう構成される第2共有特徴生成コードと、少なくとも1つのプロセッサに、推定適応ハイパー符号化パラメータを生成させるよう構成される適応ハイパー符号化コードと、少なくとも1つのプロセッサに、取得された信号符号化画像、第2共有特徴及び推定適応ハイパー符号化パラメータに基づいて、ハイパー特徴を生成させるよう構成されるハイパー特徴生成コードと、少なくとも1つのプロセッサに、取得された信号符号化画像、生成された統計的特徴及び生成されたハイパー特徴を圧縮させるよう構成される圧縮コードと、を含む。プログラムコードは、少なくとも1つのプロセッサに、圧縮された信号符号化画像を復号させて回復された画像を取得させ、圧縮された統計的特徴を復号させて回復された統計的特徴を取得させ、圧縮されたハイパー特徴を復号させて回復されたハイパー特徴を取得させるよう構成される復号コードと、少なくとも1つのプロセッサに、第3共有特徴を生成させるよう構成される第3共有特徴生成コードと、少なくとも1つのプロセッサに、推定適応ハイパー復号パラメータを生成させるよう構成される適応ハイパー復号コードと、少なくとも1つのプロセッサに、回復された統計的特徴、第3共有特徴及び推定適応ハイパー復号パラメータに基づいて、ハイパー事前特徴を生成させるよう構成されるハイパー事前特徴生成コードと、少なくとも1つのプロセッサに、生成されたハイパー事前特徴及び回復された画像に基づいて、再構成された画像を生成させるよう構成される再構成コードと、を更に含む。
【0006】
実施形態によると、少なくとも1つのプロセッサによって実行されると、入力画像及びハイパーパラメータに基づいて統計的特徴を生成し、第1共有特徴を生成し、推定適応符号化パラメータを生成し、第1共有特徴及び推定適応符号化パラメータに基づいて、入力画像を符号化して信号符号化画像を取得し、第2共有特徴を生成し、推定適応ハイパー符号化パラメータを生成し、取得された信号符号化画像、第2共有特徴及び推定適応ハイパー符号化パラメータに基づいて、ハイパー特徴を生成し、取得された信号符号化画像、生成された統計的特徴及び生成されたハイパー特徴を圧縮し、圧縮された信号符号化画像を復号して回復された画像を取得し、圧縮された統計的特徴を復号して回復された統計的特徴を取得し、圧縮されたハイパー特徴を復号して回復されたハイパー特徴を取得し、第3共有特徴を生成し、推定適応ハイパー復号パラメータを生成し、回復された統計的特徴、生成された第3共有特徴及び生成された推定適応ハイパー復号パラメータに基づいて、ハイパー事前特徴を生成し、生成されたハイパー事前特徴及び回復された画像に基づいて、再構成された画像を生成する、命令を記憶する、非一時的コンピュータ読取可能媒体。
【図面の簡単な説明】
【0007】
図1】実施形態に従って、本明細書で説明される方法、装置及びシステムが実装され得る環境の図である。
【0008】
図2図1の1つ以上のデバイスの例示的な構成要素のブロック図である。
【0009】
図3】実施形態による、テスト段階中のマイクロ構造化ネストマスク(micro-structured nested masks)及び重み統一(weight unification)によるマルチレート・ニューラル画像圧縮のためのテスト装置のブロック図である。
【0010】
図4(a)】個々のNNに分離された、基礎となるNICエンコーダ及びデコーダモジュールのモデルパラメータのフロー図である。
【0011】
図4(b)】NN層内にパラメータ分裂(parameter split)が存在するときの図である。
【0012】
図5】メタ信号(Meta-Signal)符号化モジュールの推論ワークフローのブロック図である。
【0013】
図6】メタハイパー(Meta-Hyper)符号化モジュールのメタハイパー符号化NNの推論ワークフローのブロック図である。
【0014】
図7】メタハイパー復号モジュールのメタハイパー復号NNの推論ワークフローのブロック図である。
【0015】
図8】メタハイパー復号モジュールのメタ信号復号NNの推論ワークフローのブロック図である。
【0016】
図9】Ada-NICモデルメタトレーニングプロセスのワークフローである。
【0017】
図10】メタ学習による、柔軟なハイパー事前(hyperprior)パラメータを用いる自動適応ニューラル画像圧縮の方法のフローチャートである。
【0018】
図11】メタ学習による、柔軟なハイパー事前パラメータを用いる自動適応ニューラル画像圧縮のための装置のブロック図である。
【発明を実施するための形態】
【0019】
本開示は、個々の入力画像の特性に基づいて画像を圧縮するための最適モデルパラメータを自動的かつ適応的に選択する、適応ニューラル画像圧縮(Ada-NIC:adaptive neural image compression)フレームワークのための方法及び装置を説明する。メタ学習メカニズムを使用して、現在の入力画像に基づいて、基礎となるNICモデルの適応重みパラメータを自動的に計算する。
【0020】
図1は、実施形態に従って、本明細書で説明される方法、装置及びシステムが実装され得る環境100の図である。
【0021】
図1に示されるように、環境100は、ユーザデバイス110、プラットフォーム120及びネットワーク130を含み得る。環境100のデバイスは、有線接続、無線接続又は有線接続と無線接続の組合せを介して相互接続してよい。
【0022】
ユーザデバイス110は、プラットフォーム120に関連付けられる情報を受け取り、生成し、記憶し、処理し及び/又は提供することができる1つ以上のデバイスを含む。例えばユーザデバイス110は、コンピューティングデバイス(例えばデスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバ等)、携帯電話(例えばスマートフォン、無線電話等)、ウェアラブルデバイス(例えば一対のスマートグラス又はスマートウォッチ)又は類似のデバイスを含み得る。いくつかの実装において、ユーザデバイス110は、情報をプラットフォーム120から受け取り、かつ/又はプラットフォーム120に送信してもよい。
【0023】
プラットフォーム120は、本明細書の他の箇所で説明されるように、1つ以上のデバイスを含む。いくつかの実装において、プラットフォーム120は、クラウドサーバ又はクラウドサーバのグループを含んでもよい。いくつかの実装において、プラットフォーム120は、ソフトウェア構成要素がスワップイン又はスワップアウトされ得るようにモジュール式に設計されてよい。したがって、プラットフォーム120は、異なる使用のために容易に、かつ/又は迅速に再構成され得る。
【0024】
いくつかの実装において、図示されるように、プラットフォーム120は、クラウドコンピューティング環境122においてホストされてよい。特に、本明細書で説明される実装は、プラットフォーム120を、クラウドコンピューティング環境122内でホストされているものとして説明するが、いくつかの実装では、プラットフォーム120は、クラウドベースではなくてもよく(すなわち、クラウドコンピューティング環境の外部で実装されてもよい)、あるいは部分的にクラウドベースであってもよい。
【0025】
クラウドコンピューティング環境122は、プラットフォーム120をホストする環境を含む。クラウドコンピューティング環境122は、プラットフォーム120をホストするシステム及び/又はデバイスの物理的な位置及び構成に関するエンドユーザ(例えばユーザデバイス110)の知識を必要としない計算、ソフトウェア、データアクセス、ストレージ等のサービスを提供し得る。図示されるように、クラウドコンピューティング環境122は、コンピューティングリソース124のグループ(まとめて「(複数の)コンピューティングリソース124」と称し、個々に「コンピューティングリソース124」と称する)を含んでもよい。
【0026】
コンピューティングリソース124は、1つ以上のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス又は他のタイプの計算及び/又は通信デバイスを含む。いくつかの実装において、コンピューティングリソース124はプラットフォーム120をホストし得る。クラウドリソースは、コンピューティングリソース124において実行される計算インスタンス、コンピューティングリソース124において提供されるストレージデバイス、コンピューティングリソース124によって提供されるデータ転送デバイス等を含み得る。いくつかの実装において、コンピューティングリソース124は、有線接続、無線接続又は有線接続と無線接続の組合せを介して、他のコンピューティングリソース124と通信し得る。
【0027】
図1に更に示されるように、コンピューティングリソース124は、1つ以上のアプリケーション(「APP」)124-1、1つ以上の仮想マシン(「VM」)124-2、仮想化ストレージ(「VS」)124-3、1つ以上のハイパーバイザ(「HYP」)124-4等のようなクラウドリソースのグループを含む。
【0028】
アプリケーション124-1は、ユーザデバイス110及び/又はプラットフォーム120に提供され得るか又はこれらによってアクセスされ得る、1つ以上のソフトウェアアプリケーションを含む。アプリケーション124-1は、ユーザデバイス110上にソフトウェアアプリケーションをインストールして実行する必要をなくすことができる。例えばアプリケーション124-1は、プラットフォーム120に関連付けられるソフトウェア及び/又はクラウドコンピューティング環境122を介して提供可能な任意の他のソフトウェアを含み得る。いくつかの実装において、1つのアプリケーション124-1は、仮想マシン124-2を介して、1つ以上の他のアプリケーション124-1との間で情報を送受信し得る。
【0029】
仮想マシン124-2は、物理マシンのようなプログラムを実行するマシン(例えばコンピュータ)のソフトウェア実装を含む。仮想マシン124-2は、仮想マシン124-2による任意の実マシンへの使用及び対応の程度に応じて、システム仮想マシン又はプロセス仮想マシンのいずれかであり得る。システム仮想マシンは、完全なオペレーティングシステム(「OS」)の実行をサポートする完全なシステムプラットフォームを提供し得る。プロセス仮想マシンは、単一のプログラムを実行してよく、単一のプロセスをサポートしてもよい。いくつかの実装において、仮想マシン124-2は、ユーザ(例えばユーザデバイス110)の代わりに実行してよく、データ管理、同期化又は長時間データ転送のようなクラウドコンピューティング環境122のインフラストラクチャを管理し得る。
【0030】
仮想化ストレージ124-3は、コンピューティングリソース124のストレージシステム又はデバイス内で仮想化技術を使用する1つ以上のストレージシステム及び/又は1つ以上のデバイスを含む。いくつかの実装において、ストレージシステムのコンテキスト内では、仮想化のタイプはブロック仮想化及びファイル仮想化を含み得る。ブロック仮想化は、物理ストレージ又は異種構造に関係なくストレージシステムにアクセスすることができるように、物理ストレージからの論理ストレージの抽象化(又は分離)を指してもよい。この分離により、ストレージシステムの管理者は、該管理者がエンドユーザのストレージを管理する方法に柔軟性を持たせることができる。ファイル仮想化は、ファイルレベルでアクセスされるデータと、ファイルが物理的に記憶される場所との間の依存関係をなくすことができる。これは、ストレージの使用、サーバの統合及び/又は非中断ファイルマイグレーションの性能の最適化を可能にすることができる。
【0031】
ハイパーバイザ124-4は、複数のオペレーティングシステム(例えば「ゲストオペレーティングシステム」)が、コンピューティングリソース124のようなホストコンピュータ上で同時に実行することを可能にする、ハードウェア仮想化技術を提供し得る。ハイパーバイザ124-4は、ゲストオペレーティングシステムに仮想オペレーティングプラットフォームを提示してよく、ゲストオペレーティングシステムの実行を管理してよい。様々なオペレーティングシステムの複数のインスタンスは、仮想化ハードウェアリソースを共有してよい。
【0032】
ネットワーク130は、1つ以上の有線及び/又は無線ネットワークを含む。例えばネットワーク130は、セルラネットワーク(例えば第5世代(5G)ネットワーク、長期進化(LTE)ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA)ネットワーク等)、公衆陸上移動網(PLMN)、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、メトロポリタンエリアネットワーク(MAN)、電話網(例えば公衆交換電話網(PSTN))、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワーク等及び/又はこれら又は他のタイプのネットワークの組合せを含んでもよい。
【0033】
図1に図示されるデバイス及びネットワークの数及び配置は、一例として提供される。実際には、図1に示されるものよりも、追加のデバイス及び/又はネットワーク、より少ないデバイス及び/又はネットワーク、異なるデバイス及び/又はネットワーク、あるいは異なる配置のデバイス及び/又はネットワークが存在してよい。さらに、図1に示される2つ以上のデバイスが、単一のデバイス内に実装されてよく、あるいは図1に示される単一のデバイスが、複数の分散デバイスとして実装されてもよい。追加又は代替的に、環境100のデバイスのセット(例えば1つ以上のデバイス)が、環境100のデバイスの別のセットによって実行されるものとして説明される1つ以上の機能を実行してもよい。
【0034】
図2は、図1の1つ以上のデバイスの例示的な構成要素のブロック図である。
【0035】
デバイス200は、ユーザデバイス110及び/又はプラットフォーム120に対応し得る。図2に示されるように、デバイス200は、バス210、プロセッサ220、メモリ230、ストレージ構成要素240、入力構成要素250、出力構成要素260及び通信インタフェース270を含み得る。
【0036】
バス210は、デバイス200の構成要素間の通信を可能にする構成要素を含む。プロセッサ220は、ハードウェア、ファームウェア又はハードウェアとソフトウェアの組合せで実装される。プロセッサ220は、中央処理ユニット(CPU)、グラフィクス処理ユニット(GPU)、加速処理ユニット(APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)又は別のタイプの処理構成要素である。いくつかの実装において、プロセッサ220は、機能を実行するようにプログラムされることが可能な1つ以上のプロセッサを含む。メモリ230は、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、及び/又はプロセッサ220による使用のための情報及び/又は命令を記憶する別のタイプの動的又は静的ストレージデバイス(例えばフラッシュメモリ、磁気メモリ及び/又は光メモリ)を含む。
【0037】
ストレージ構成要素240は、デバイス200の操作及び使用に関連する情報及び/又はソフトウェアを記憶する。例えばストレージ構成要素240は、ハードディスク(例えば磁気ディスク、光ディスク、光磁気ディスク及び/又はソリッドステートディスク)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、フロッピーディスク、カートリッジ、磁気テープ及び/又は別のタイプの非一時的コンピュータ読取可能媒体を対応するドライブとともに含み得る。
【0038】
入力構成要素250は、デバイス200が、ユーザ入力(例えばタッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ及び/又はマイクロホン)を介するなどして情報を受け取ることを可能にする構成要素を含む。追加又は代替的に、入力構成要素250は、情報を感知するためのセンサ(例えば全地球測位システム(GPS)構成要素、加速度計、ジャイロスコープ及び/又はアクチュエータ)を含んでもよい。出力構成要素260は、デバイス200からの出力情報を提供する構成要素(例えばディスプレイ、スピーカ及び/又は1つ以上の発光ダイオード(LED))を含む。
【0039】
通信インタフェース270は、デバイス200が有線接続、無線接続又は有線接続と無線接続の組合せを介するなどして他のデバイスと通信することを可能にする、トランシーバのような構成要素(例えばトランシーバ及び/又は別個の受信機と送信機)を含む。通信インタフェース270は、デバイス200が別のデバイスから情報を受け取り、かつ/又は別のデバイスに情報を提供することを可能にし得る。例えば通信インタフェース270は、イーサネット(登録商標)インタフェース、光インタフェース、同軸インタフェース、赤外線インタフェース、無線周波数(RF)インタフェース、ユニバーサルシリアルバス(USB)インタフェース、Wi-Fiインタフェース、セルラーネットワークインタフェース等を含み得る。
【0040】
デバイス200は、本明細書で説明される1つ以上のプロセスを実行し得る。デバイス200は、プロセッサ220が、メモリ230及び/又はストレージ構成要素240のような非一時的コンピュータ読取可能媒体によって記憶されるソフトウェア命令を実行したことに応答して、これらのプロセスを実行し得る。コンピュータ読取可能媒体は、本明細書では、非一時的メモリデバイスとして定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリスペース又は複数の物理ストレージデバイスにまたがって分散されるメモリスペースを含む。
【0041】
ソフトウェア命令は、別のコンピュータ読取可能媒体から又は通信インタフェース270を介して別のデバイスから、メモリ230及び/又はストレージ構成要素240へ読み込まれてよい。実行されると、メモリ230及び/又はストレージ構成要素240に記憶されたソフトウェア命令は、プロセッサ220に、本明細書で説明される1つ以上のプロセスを実行させることができる。追加又は代替的として、ハードワイヤード回路を、ソフトウェア命令の代わりに又はソフトウェア命令と組み合わせて使用して、本明細書で説明される1つ以上のプロセスを実行してもよい。したがって、本明細書で説明される実装は、ハードウェア回路とソフトウェアのいずれかの特定の組合せに限定されない。
【0042】
図2に図示される構成要素の数及び配置は、一例として提供される。実際には、デバイス200は、図2に示されるものよりも追加の構成要素、より少ない構成要素、異なる構成要素又は異なるように配置される構成要素を含んでよい。追加又は代替的に、デバイス200の構成要素のセット(例えば1つ以上の構成要素)が、デバイス200の構成要素の別のセットによって実行されるものとして説明される1つ以上の機能を実行してもよい。
【0043】
次に、メタ学習による、適応モデルパラメータ選択を用いる適応ニューラル画像圧縮(Ada-NIC:Adaptive Neural Image Compression)のための方法と装置を詳細に説明する。
【0044】
本開示は、適応モデルパラメータ選択をサポートするAda-NICフレームワークを提案する。メタ学習メカニズムを使用して、現在の入力画像に基づいて、基礎となるNICモデルの適応重みパラメータを自動的に計算し、それにより、Ada-NICモデルは画像の圧縮を改善することができる。
【0045】
図3は、実施形態による、テスト段階中のメタ学習による柔軟なハイパー事前モデル(hyperprior model)を用いるAda-NICのためのテスト装置300のブロック図である。
【0046】
図3に図示されるように、テスト装置300は、メタ信号符号化モジュール310、メタハイパー符号化モジュール320、信号Q&AEモジュール330、ハイパーQ&AEモジュール331、メタQ&AEモジュール332、信号AD&DQモジュール340、ハイパーAD&DQモジュール341、メタAD&DQモジュール342、メタハイパー復号モジュール350及びメタ信号復号モジュール360を含む。
【0047】
サイズ(h, w, c)の入力画像xを所与とし、ここで、h、w、cは、それぞれ、チャネルの高さ、幅及び数であり、NICワークフローのテスト段階の目標を、以下のように説明することができる。記憶及び伝送のためにコンパクトである圧縮表現が計算される。次いで、この圧縮表現
(外1)
(以下、「y-」等と記載することがある。)に基づいて、出力画像
(外2)
(以下、「x-」等と記載することがある。)が再構成され、再構成された出力画像x-
は、元の入力xに類似し得る。歪み損失D(x,x-)は、PSNR又はSSIMのような再構成誤差を測定するために使用される。レート損失Rは、圧縮表現y-のビット消費を測定するために計算される。ハイパーパラメータλは、下記の共同レート歪み(joint Rate-Distortion)(R-D)損失を形成するために使用される。
【0048】
【数1】
【0049】
大きなハイパーパラメータλを用いるトレーニングは、歪みはより小さいが、ビット消費がより多い圧縮モデルをもたらし、逆もまた同様である。
【0050】
図4(a)は、個々のNNに分離される、基礎となるNICエンコーダモジュール400、410及びデコーダモジュール420、430のモデルパラメータ401、402、411、412、421、422、431、432のフロー図である。
【0051】
基礎となるNICエンコーダ及びデコーダのモデルパラメータは、それぞれ、共有信号符号化パラメータ(SSEP)401、適応信号符号化パラメータ(ASEP)402、共有信号復号パラメータ(SSDP)431及び適応信号復号パラメータ(ASDP)432、共有ハイパー符号化パラメータ(SHEP)411、適応ハイパー符号化パラメータ(AHEP)412、共有ハイパー復号パラメータ(SHDP)422及び適応ハイパー復号パラメータ(AHDP)421を示す、8つの部分
(外3)
(以下、それぞれ「θe s」、「θe a」、「θd s」、「θd a」、「ωe s」、「ωe a」、「ωd s」、「ωd a」等と記載することがある。)に分離される。NICネットワークアーキテクチャの実施形態では、SSEP401、ASEP402、SHEP411、AHEP412、AHDP421、SHDP422、ASDP431及びSSDP432は、別個の個々のNNモジュールであり、その各々は、1つ又は複数のNN層を含む。これらの個々のモジュールは、ネットワーク前進計算(forward computation)のために互いに順次接続される。図4(a)は、これらの個々のNNモジュールを接続する好ましい順序を示す。他の順番も使用され得る。
【0052】
【表1】
【0053】
【表2】
【0054】
図3は、完全に共有される層について、θe a(i)及び/又はθd a(j)及び/又はωe a(i)及び/又はωd a(j)が空であるので、一般的な表記を示している。完全に適応的な層について、θe s(i)及び/又はθd s(j)及び/又はωe s(i)及び/又はωd s(j)は空である。したがって、図3に示される表記法は、図4の両実施形態に使用され得る。
【0055】
【表3】
【0056】
【表4】
【0057】
図5に記載されるワークフローは、一般的な表記であることに留意されたい。ASEP θe a(i)が空である、完全に共有される層については、ASEP関連モジュールが省略されてよく、f(i+1)=g(i)である。SSEP θe s(i)が空である、完全に適応的な層については、SSEP関連モジュールが省略されてよく、g(i)=f(i)である。
【0058】
【表5】
【0059】
【表6】
【0060】
メタハイパー符号化NN600について、合計NH個の層が存在すると仮定すると、最後の層の出力はハイパー特徴zである。次いで、潜在表現yは、信号Q&AEモジュール330を通過し、(量子化及び算術エントロピーコーディングを通して)更に圧縮されて、コンパクトな表現y’となる。統計的特徴μは、メタQ&AEモジュール332を通過してコンパクトなメタ特徴μ’を生成する。ハイパー特徴zは、ハイパーQ&AEモジュール331を通過してコンパクトなハイパー特徴z’を生成する。次いで、コンパクトな表現y’、コンパクトなメタ特徴μ’及びコンパクトなハイパー特徴z’並びにハイパーパラメータλが、(図3に図示されるように)デコーダに送られる。実施形態において、潜在表現yが信号Q&AEモジュール330を通過し、次いで、統計的特徴μがメタQ&AEモジュール332を通過し、次いで、ハイパー特徴zがハイパーQ&AEモジュール331を通過する。しかしながら、本開示はこの順序に制限されない。
【0061】
デコーダ側では、受け取られたコンパクトな表現y’は、信号AD&DQモジュール340を通過して、(算術エントロピー復号及び逆量子化プロセスを介して)回復された潜在表現y-を計算する。同様に、コンパクトなメタ特徴μ’は、メタAD&DQモジュール342を通過して、回復された統計的特徴
(外4)
(以下、「μ-」等と記載することがある。)を計算する。コンパクトなハイパー特徴z’は、ハイパーAD&DQモジュール341を通過して、(図3に図示されるように)回復されたハイパー特徴
(外5)
(以下、「z-」等と記載することがある。)を計算する。
【0062】
【表7】
【0063】
【表8】
【0064】
メタ信号復号NN800について合計Ms個の層が存在すると仮定すると、最後の層の出力は、再構成された画像x-である。提案されるAda-NICフレームワークは、任意の平滑な画像データ分布に対する適応画像圧縮をサポートすることに留意されたい。特殊なケースとして、任意のモデルパラメータを予測する代わりに、ASEP予測モジュール512は、予めトレーニングされたASEPのセットから選択する方法で予測を実行してよく、各予めトレーニングされたASEPは、ターゲットデータ分布を有するトレーニングデータセットに対応する。同様に、AHEP予測モジュール620、AHDP予測モジュール720及び/又はASDP予測モジュール820は、予めトレーニングされたAHEP、AHDP及び/又はASDPのセットからモデルパラメータを選択してもよい。このような場合、Ada-NIC方法は適応NICモデル選択方法になり、この場合、最適な予めトレーニングされたモデルインスタンスが、現在の入力画像に基づいて自動的に選択される。
【0065】
【表9】
【0066】
実施形態において、MAML(Model-Agnostic Meta-Learning)メカニズムが、トレーニングの目的のために使用される。図9は、Ada-NICモデルメタトレーニングプロセス900のワークフローである。もちろん、他のメタトレーニングアルゴリズムがここで同様に使用されてもよい。
【0067】
具体的には、トレーニングのために、一組のトレーニングデータDtri)、i=1,…,Kが存在し、ここで、各Dtri)は、トレーニングデータ分布πiに対応し、合計でK個のトレーニングデータ分布が存在する。各トレーニングデータを個別の分布として扱うことができ、Kはトレーニングセット全体のサイズと同じであるため、これは一般的な表記であることに留意されたい。加えて、一組の検証データDvalj)、j=1,…,Pが存在し、ここで、各Dvalj)は、検証データ分布πjに対応する。検証データ分布は、トレーニングセットのデータ分布を含む。検証データ分布は、トレーニングセットに含まれないデータ分布も含み得る。
【0068】
トレーニングプロセスのゴールは、ターゲットデータ分布を有するNICタスクが、タスク分布P(πj)から引き出されるという仮定の下で、Ada-NICモデルをすべての(トレーニング及び将来のまだ見ぬものを含む)データ分布に広く適用できるように学習することである。これを達成するために、Ada-NICモデルを学習するための損失は、すべてのトレーニングデータ分布にわたるすべてのトレーニングデータセットにわたって最小化される。
【0069】
Θs={θe s,θd s,ωe s,ωd s}がすべての共有モデルパラメータを含むとし、Θ={θe a,θd a,ωe a,ωd a}がすべての適応モデルパラメータを含むとする。
【数2】

がエンコーダ側(400、410)のすべての予測モデルパラメータを含むとし、
【数3】

がデコーダ側(420)のすべての予測モデルパラメータを含むとする。MAMLトレーニングプロセス900は、勾配ベースのパラメータ更新のために外側ループと内側ループを有する。外側ループの反復ごとに、タスクサンプリングモジュール910において、K’個のトレーニングデータ分布のセット(K’≦K)が最初にサンプリングされる。次いで、各サンプリングされたトレーニングデータ分布πiについて、トレーニングデータ
(外6)
のセットが、Dtri)からサンプリングされる。P’個(P’≦P)の検証データ分布のセットもサンプリングされる。各サンプリングされた検証データ分布πjについて、検証データ
(外7)
のセットが、Dvalj)からサンプリングされる。次いで、各サンプリングされたデータ
(外8)
について、現在のパラメータΘs、Θa、Φe及びΦdに基づいて、Ada-NIC前進計算が実施される。次いで、累積された内側ループの損失
【数4】

が、式(2)に従って内側ループ損失計算(Compute Inner-Loop Loss)モジュール920において計算される。
【0070】
【数5】
【0071】
損失関数L(x,Θs,Θa,Φe,Φd,πi)は、式(1)で説明されるR-D損失と、他の正規化損失(例えば異なるトレードオフをターゲットとする中間ネットワーク出力を区別する補助損失)を含む。次いで、
【数6】

に基づいて、ステップサイズαsi及びαaiをπiについてのハイパーパラメータとして与えると、更新されたタスク固有パラメータが、式(3)及び式(4)に従って内側ループ更新モジュール930において計算される。
【0072】
【数7】
【0073】
【数8】
【0074】
累積された内側ループ損失
【数9】

の勾配
【数10】

が、それぞれ、適応パラメータの更新されたバージョン
(外9)
及び
(外10)
を計算するために使用される。
【0075】
次いで、式(5)及び式(6)に従って、メタ損失計算(Compute Meta Loss)モジュール940において、外部メタオブジェクティブ(outer meta objective)を、すべてのサンプリングされた検証データ分布にわたって計算することができる。
【0076】
【数11】
【0077】
【数12】

ここで、
【数13】

は、パラメータ
(外11)
を使用して、Ada-NIC前進計算に基づいて、入力xについて計算される損失である。
【0078】
ステップサイズβaj及びβsjをπjについてのハイパーパラメータとして与えると、メタ更新モジュール950内のモデルパラメータは、式(7)及び式(8)に従って更新される:
【0079】
【数14】
【0080】
【数15】
【0081】
いくつかの実施形態において、Θsは内側ループ内で更新されなくてよい、すなわち、
【数16】

である。これは、トレーニングプロセスを安定させるのを助けることができる。
【0082】
ASEP予測NN、AHEP予測NN、ASDP予測NN820及びAHD予測NN720のパラメータΦe及びΦdに関して、これらは、重み更新モジュール960において規則的なトレーニング方法(regular training manner)で更新される。すなわち、トレーニングデータDtri)、i=1,…,K及び検証データDvalj)、j=1,…,Pに従って、現在のパラメータΘs、Θa、Φe及びΦdに基づいて、損失L=(x,Θs,Θa,Φe,Φd,πi)が、すべてのサンプルx∈Dtri)について、L=(x,Θs,Θa,Φe,Φd,πj)が、すべてのサンプルx∈Dvaljについて計算され得る。これらすべての損失の勾配は、規則的な逆伝搬(regular back-propagation)を通して、Φe,Φdに対してパラメータ更新を実行するために蓄積(例えば加算)されることができる。
【0083】
本開示は、これらのモデルパラメータを更新するための特定の最適化アルゴリズム又は損失関数に関して、いかなる制限も設けないことに留意されたい。
【0084】
特殊なケースでは、ASEP予測モジュール512、AHEP予測モジュール620、ASDP予測モジュール820及びAda-NICモデルのAHDP予測モジュールが、トレーニングデータ分布の予め定義されたセットに対してのみ予測を実行する場合、検証データ分布は、トレーニングデータ分布と同じものとなる。同じMAMLトレーニング手順を使用して、この縮小されたAda-NICモデルをトレーニングすることができる。
【0085】
図10は、実施形態による、メタ学習による柔軟なハイパー事前パラメータを用いる自動適応ニューラル画像圧縮の方法のフローチャートである。
【0086】
いくつかの実装において、図10の1つ以上のプロセスブロックは、プラットフォーム120によって実行され得る。いくつかの実装では、図10の1つ以上のプロセスブロックは、プラットフォーム120から分離されるか又はプラットフォーム120を含む、ユーザデバイス110のような別のデバイス又はデバイスのグループによって実行されてもよい。
【0087】
図10に示されるように、動作1000において、方法は、入力画像及びハイパーパラメータに基づいて統計的特徴を生成することを含む。
【0088】
動作1001において、図10の方法は、第1共有特徴及び推定適応符号化パラメータを生成することを含む。
【0089】
動作1002において、図10の方法は、生成された第1共有特徴及び生成された推定適応符号化パラメータに基づいて、入力画像を符号化して信号符号化画像を取得することを含む。
【0090】
動作1003において、図10の方法は、第2共有特徴及び推定適応ハイパー符号化パラメータを生成することを含む。
【0091】
動作1004において、図10の方法は、信号符号化画像、生成された第2共有特徴及び生成された推定適応ハイパー符号化パラメータに基づいて、ハイパー特徴を生成することを含む。
【0092】
動作1005において、図10の方法は、取得された信号符号化画像、生成された統計的特徴及び生成されたハイパー特徴を圧縮することを含む。
【0093】
動作1006において、図10の方法は、圧縮された信号符号化画像を復号して回復された画像を取得し、圧縮された統計的特徴を復号して回復された統計的特徴を取得し、圧縮されたハイパー特徴を復号して回復されたハイパー特徴を取得することを含む。
【0094】
動作1007において、図10の方法は、第3共有特徴及び推定適応ハイパー復号パラメータを生成することを含む。
【0095】
動作1008において、図10の方法は、回復された統計的特徴、生成された第3共有特徴及び推定適応ハイパー復号パラメータに基づいて、ハイパー事前特徴を生成することを含む。
【0096】
動作1009において、図10の方法は、生成されたハイパー事前特徴及び取得された回復された画像に基づいて、再構成された画像を生成することを含む。
【0097】
図10は、方法の例示のブロックを示しているが、いくつかの実装において、方法は、図10に示されているものよりも、追加のブロック、より少ないブロック、異なるブロック又は異なるように配置されたブロックを含んでもよい。追加又は代替的に、方法のブロックのうちの2つ以上を並行して実行してもよい。
【0098】
実施形態によると、図10に示されるフローチャート方法は、信号エンコーダ及びデコーダモジュールのNNの各層内で実装されてもよい。加えて、図10の方法はまた、(図4(b)に示されるように)エンコーダ及びデコーダモジュールのNN層内にパラメータ分裂が存在するとき、各層において実装されてもよい。
【0099】
図11は、実施形態による、メタ学習による、柔軟なハイパー事前パラメータを用いる自動適応ニューラル画像圧縮のための装置のブロック図である。
【0100】
図11に示されるように、装置は、統計的特徴生成コード1100、第1共有特徴生成コード1101、適応符号化コード1102、符号化コード1103、第2共有特徴生成コード1104、適応ハイパー符号化コード1105、ハイパー特徴生成コード1106、圧縮コード1107、復号コード1108、第3共有特徴生成コード1109、適応ハイパー復号コード1110及びハイパー事前特徴生成コード1111及び再構成コード1112を含む。
【0101】
統計的特徴生成コード1100は、少なくとも1つのプロセッサに、入力画像及びハイパーパラメータに基づいて統計的特徴を生成させるよう構成される。
【0102】
第1共有特徴生成コード1101は、少なくとも1つのプロセッサに、第1共有特徴を生成させるよう構成される。
【0103】
適応符号化コード1102は、少なくとも1つのプロセッサに、推定適応符号化パラメータを生成させるよう構成される。
【0104】
符号化コード1103は、少なくとも1つのプロセッサに、生成された第1共有特徴及び生成された推定適応符号化パラメータに基づいて、入力画像を符号化させて信号符号化画像を取得させるよう構成される。
【0105】
第2共有特徴生成コード1104は、少なくとも1つのプロセッサに、第2共有特徴を生成させるよう構成される。
【0106】
適応ハイパー符号化コード1105は、少なくとも1つのプロセッサに、推定適応ハイパー符号化パラメータを生成させるよう構成される。
【0107】
ハイパー特徴生成コード1106は、少なくとも1つのプロセッサに、取得された信号符号化画像、生成された第2共有特徴及び生成された推定適応ハイパー符号化パラメータに基づいて、ハイパー特徴を生成させるよう構成される。
【0108】
圧縮コード1107は、少なくとも1つのプロセッサに、取得された信号符号化画像、生成された統計的特徴及びハイパー特徴を圧縮させるよう構成される。
【0109】
復号コード1108は、少なくとも1つのプロセッサに、圧縮された信号符号化画像を復号させて回復された画像を取得させ、圧縮された統計的を復号させて回復された統計的特徴を取得させ、圧縮されたハイパー特徴を復号させて回復されたハイパー特徴を取得させるよう構成される。
【0110】
第3共有特徴生成コード1109は、少なくとも1つのプロセッサに、第3共有特徴を生成させるよう構成される。
【0111】
適応ハイパー復号コード1110は、少なくとも1つのプロセッサに、推定適応ハイパー復号パラメータを生成させるよう構成される。
【0112】
ハイパー事前特徴生成コード1111は、少なくとも1つのプロセッサに、回復された統計的特徴、生成された第3共有特徴及び生成された推定適応ハイパー復号パラメータに基づいてハイパー事前特徴を生成させるよう構成される。
【0113】
再構成コード1112は、少なくとも1つのプロセッサに、ハイパー事前特徴及び回復された画像に基づいて、再構成された画像を生成させるよう構成される。
【0114】
図11は装置の例示のブロックを示しているが、いくつかの実装において、装置は、図11に示されるものよりも、追加のブロック、より少ないブロック、異なるブロック又は異なるように配置されるブロックを含んでもよい。追加又は代替的に、装置のブロックのうちの2つ以上を組み合わせてもよい。
【0115】
実施形態は、入力画像の特性に応じた自動適応NICを説明する。この利点には、任意の平滑なデータ分布に対する柔軟なモデルパラメータ予測と、予めトレーニングされたモデル選択の双方をサポートすることが含まれる。さらに、実施形態は、様々な基礎となるNICモデル、構造及びメタ学習方法を収容する柔軟かつ一般的なフレームワークを含む。
【0116】
提案される方法は、別々に使用されるか又は任意の順序で組み合わされてよい。さらに、方法(又は実施形態)、エンコーダ及びデコーダの各々は、処理回路(例えば1つ以上のプロセッサ又は1つ以上の集積回路)によって実装されてもよい。一例では、1つ以上のプロセッサは、非一時的コンピュータ読取可能媒体に記憶されるプログラムを実行する。
【0117】
前述の開示は、例示及び説明を提供するが、網羅的であるように意図されておらず、また、実装を、開示された正確な形態に限定するようにも意図されていない。修正及び変形は、上記の開示に照らして可能であるか又は実装の実践から取得され得る。
【0118】
本明細書で使用されるとき、「構成要素」という用語は、ハードウェア、ファームウェア又はハードウェアとソフトウェアの組合せとして広く解釈されるように意図される。
【0119】
本明細書で説明されるシステム及び/又は方法は、ハードウェア、ファームウェア又はハードウェアとソフトウェアの組合せの異なる形態で実装されてもよいことは明らかであろう。これらのシステム及び/又は方法を実装するために使用される実際の特殊化された制御ハードウェア又はソフトウェアコードは、その実装を制限するものではない。したがって、システム及び/又は方法の動作及び挙動は、本明細書において、特定のソフトウェアコードを参照することなく説明されたが、ソフトウェア及びハードウェアは、本明細書における説明に基づいてシステム及び/又は方法を実装するように設計されてもよいことが理解される。
【0120】
特徴の組合せが特許請求の範囲に記載され、及び/又は明細書に開示されているとしても、これらの組合せは、可能な実装の開示を限定するように意図されていない。実際、これらの特徴の多くは、特許請求の範囲に具体的に記載されていない、及び/又は明細書に開示されていない方法で組み合わされてもよい。以下に列挙される各従属請求項は、1の請求項のみに直接依存することがあるが、可能な実装の開示は、各従属請求項を、請求項のセット内の他のすべてのクレームとの組合せで含む。
【0121】
本明細書において使用される要素、動作又は命令は、そのように明示的に記載されていない限り、重要又は本質的なものとして解釈され得ない。また、本明細書で使用されるとき、冠詞「a」及び「an」は、1つ以上のアイテムを含むように意図され、「1つ以上」と互換的に使用されてよい。さらに、本明細書で使用されるとき、「セット」という用語は、1つ以上のアイテム(例えば関連するアイテム、関連しないアイテム、関連するアイテムと関連しないアイテムの組合せ等)を含むように意図され、「1つ以上」と互換的に使用されてよい。1つのアイテムのみが意図されるとき、「1」という用語又は類似の言語が使用される。また、本明細書で使用されるとき、「有する(has,have、having)」等は、オープンエンドの用語であるように意図される。さらに、「に基づく」というフレーズは、明示的に別段の記載がない限り、「少なくとも部分的に基づく」を意味するよう意図される。
図1
図2
図3
図4(a)】
図4(b)】
図5
図6
図7
図8
図9
図10
図11