(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-18
(54)【発明の名称】ニューラル画像圧縮における置換を伴う依存スカラ量子化
(51)【国際特許分類】
H04N 19/90 20140101AFI20231011BHJP
H04N 19/103 20140101ALI20231011BHJP
H04N 19/147 20140101ALI20231011BHJP
H04N 19/172 20140101ALI20231011BHJP
【FI】
H04N19/90
H04N19/103
H04N19/147
H04N19/172
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023519547
(86)(22)【出願日】2022-05-31
(85)【翻訳文提出日】2023-03-28
(86)【国際出願番号】 US2022031507
(87)【国際公開番号】W WO2022265848
(87)【国際公開日】2022-12-22
(32)【優先日】2021-06-18
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-05-26
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】シェン・リン
(72)【発明者】
【氏名】ウェイ・ジアン
(72)【発明者】
【氏名】シユ・チ
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA00
5C159MC11
5C159ME01
5C159PP04
5C159UA02
5C159UA05
(57)【要約】
入力画像を受信するステップ、ニューラルネットワークベースの置換特徴生成器を使用して入力画像に基づいて置換画像を決定するステップ、置換画像を圧縮するステップ、圧縮された置換画像を量子化して、第1の依存スカラ量子化器を使用することによってより高い圧縮能力で入力画像の量子化表現を取得するステップ、および量子化表現の圧縮表現を生成するために、ニューラルネットワークベースのエンコーダを使用して置換画像をエントロピー符号化するステップを含む、置換を伴う依存スカラ量子化を用いたエンドツーエンドのニューラル画像圧縮のための方法、装置、および非一時的記憶媒体。
【特許請求の範囲】
【請求項1】
置換を伴う依存スカラ量子化を用いたニューラル画像圧縮の方法であって、前記方法は1つまたは複数のプロセッサによって実行され、前記方法は、
入力画像を受信するステップ、
ニューラルネットワークベースの置換特徴生成器を使用して前記入力画像に基づいて置換画像を決定するステップ、
前記置換画像を圧縮するステップ、
前記圧縮された置換画像を量子化して、第1の依存スカラ量子化器を使用してより高い圧縮能力で前記入力画像の量子化表現を取得するステップ、および
前記量子化表現の圧縮表現を生成するために、ニューラルネットワークベースのエンコーダを使用して前記置換画像をエントロピー符号化するステップ、を含む方法。
【請求項2】
前記方法は、
前記圧縮表現を受信するステップ、
エントロピー復号化を使用して、前記圧縮表現を復号するステップ、および
ニューラルネットワークベースのデコーダを使用して、前記復号された圧縮表現に基づいて再構成画像を生成するステップをさらに含む、請求項1に記載の方法。
【請求項3】
最良の圧縮表現は、前記入力画像と前記再構成画像との間のレート歪み損失と前記圧縮表現のビット消費レートとの間のトレードオフの大域的最小値である、請求項2に記載の方法。
【請求項4】
前記圧縮表現を生成する前記ステップは、
ハイパー事前ニューラルネットワークベースのエンコーダを使用して、前記圧縮された置換画像をハイパー符号化するステップ、
第2の依存スカラ量子化器およびエントロピー符号化を使用して、前記ハイパー符号化された圧縮置換画像のハイパー圧縮表現を生成するステップ、
ハイパー事前ニューラルネットワークベースのデコーダを使用してハイパー再構成画像を生成するために前記ハイパー圧縮表現をハイパー復号するステップ、
前記ハイパー再構成画像および前記量子化表現に基づいてコンテキストニューラルネットワークモデルを訓練するステップ、および
エントロピー符号化および前記コンテキストニューラルネットワークモデルを使用して前記量子化表現の前記圧縮表現を生成するステップ
を含む、請求項1に記載の方法。
【請求項5】
量子化する前記ステップは、第1の量子化器、第2の量子化器、およびステートマシンを含み、前記ステートマシンは、前記第1の量子化器と前記第2の量子化器との間の切り替えを可能にする、請求項1に記載の方法。
【請求項6】
前記ニューラル画像圧縮は事前に訓練されたモデルを含み、前記事前に訓練されたモデルに関連する1つまたは複数のモデルの重みは固定されている、請求項1に記載の方法。
【請求項7】
前記事前に訓練されたモデルは、前記第1の依存スカラ量子化器を使用して微調整される、請求項6に記載の方法。
【請求項8】
前記ニューラル画像圧縮は訓練されたモデルを含み、前記訓練されたモデルを訓練するステップは、
前記訓練されたモデルの学習レートを初期化するステップ、
前記訓練されたモデルの前記学習レートを閾値の回数調整するステップであって、調整する前記ステップは、1つまたは複数の訓練画像の画像特性に基づく、ステップ、および
前記訓練を、
連続する反復間の前記学習レートの差が学習の閾値を下回ると決定するステップ、
損失関数の出力損失が第1の反復回数にわたって一貫していると決定するステップ、または
前記学習レートが最大反復回数調整されたと決定するステップ
の少なくとも1つに基づいて終了させるステップを含む、請求項1に記載の方法。
【請求項9】
前記学習レートを調整する前記ステップは、前記損失関数の前記出力損失に逆比例するように基づく、請求項8に記載の方法。
【請求項10】
置換を伴う依存スカラ量子化を用いたニューラル画像圧縮のための装置であって、前記装置は、
プログラムコードを記憶するように構成された少なくとも1つのメモリ、および
前記プログラムコードを読み取り、前記プログラムコードによって命令されると動作するように構成された少なくとも1つのプロセッサであって、前記プログラムコードは、
前記少なくとも1つのプロセッサに入力画像を受信させるように構成された第1の受信コード、
前記少なくとも1つのプロセッサに、ニューラルネットワークベースの置換特徴生成器を使用して、前記入力画像に基づいて置換画像を決定させるように構成された第1の決定コード、
前記少なくとも1つのプロセッサに、前記置換画像を圧縮させるように構成された圧縮コード、
前記少なくとも1つのプロセッサに、前記圧縮された置換画像を量子化して、第1の依存スカラ量子化器を使用してより高い圧縮能力で前記入力画像の量子化表現を取得させるように構成された量子化コード、および
前記少なくとも1つのプロセッサに、前記量子化表現の圧縮表現を生成するために、ニューラルネットワークベースのエンコーダを使用して前記置換画像をエントロピー符号化させるように構成された第1の生成コード
を含む、プロセッサを含む装置。
【請求項11】
前記プログラムコードは、
前記少なくとも1つのプロセッサに、前記圧縮表現を受信させるように構成された第2の受信コード、
前記少なくとも1つのプロセッサに、エントロピー復号化を使用して前記圧縮表現を復号させるように構成された復号コード、および
前記少なくとも1つのプロセッサに、ニューラルネットワークベースのデコーダを使用して、前記復号された圧縮表現に基づいて再構成画像を生成させるように構成された第2の生成コードをさらに含む、請求項10に記載の装置。
【請求項12】
最良の圧縮表現は、前記入力画像と前記再構成画像との間のレート歪み損失と前記圧縮表現のビット消費レートとの間のトレードオフの大域的最小値である、請求項11に記載の装置。
【請求項13】
量子化する前記ステップは、第1の量子化器と、第2の量子化器と、ステートマシンとを含み、前記ステートマシンは、前記第1の量子化器と前記第2の量子化器との間の切り替えを可能にする、請求項10に記載の装置。
【請求項14】
前記ニューラル画像圧縮は事前に訓練されたモデルを含み、前記事前に訓練されたモデルに関連する1つまたは複数のモデルの重みは固定されている、請求項10に記載の装置。
【請求項15】
前記事前に訓練されたモデルは、前記第1の依存スカラ量子化器を使用して微調整される、請求項14に記載の装置。
【請求項16】
置換を伴う依存スカラ量子化を用いたニューラル画像圧縮のために少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、
入力画像を受信すること、
ニューラルネットワークベースの置換特徴生成器を使用して前記入力画像に基づいて置換画像を決定すること、
前記置換画像を圧縮すること、
前記圧縮された置換画像を量子化して、第1の依存スカラ量子化器を使用することによってより高い圧縮能力で前記入力画像の量子化表現を取得すること、および
前記量子化表現の圧縮表現を生成するために、ニューラルネットワークベースのエンコーダを使用して前記置換画像をエントロピー符号化すること、をさせる命令を記憶する、非一時的コンピュータ可読媒体。
【請求項17】
前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、
前記圧縮表現を受信すること、
エントロピー復号化を使用して前記圧縮表現を復号すること、および
ニューラルネットワークベースのデコーダを使用して、前記復号された圧縮表現に基づいて再構成画像を生成することをさらにさせる、請求項16に記載の非一時的コンピュータ可読媒体。
【請求項18】
最良の圧縮表現は、前記入力画像と前記再構成画像との間のレート歪み損失と前記圧縮表現のビット消費レートとの間のトレードオフの大域的最小値である、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項19】
前記依存スカラ量子化は、第1の量子化器と、第2の量子化器と、ステートマシンとを含み、前記ステートマシンは、前記第1の量子化器と前記第2の量子化器との間の切り替えを可能にする、請求項16に記載の非一時的コンピュータ可読媒体。
【請求項20】
前記ニューラル画像圧縮は事前に訓練されたモデルを含み、前記事前に訓練されたモデルに関連する1つまたは複数のモデルの重みは固定されている、請求項16に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本願は、2021年6月18日に出願された米国仮特許出願第63/212,460号および2022年5月26日に出願された米国特許出願第17/825,562号に基づいており、それらの優先権を主張し、それらの開示はその全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
近年、ISO/IEC MPEG(JTC 1/SC 29/WG 11)は、将来のビデオ符号化技術、特に機械学習または人工知能(ML/AI)を活用し得る標準化の標準化を積極的に試みている。ISO/IEC JPEGが、AIベースのエンドツーエンドニューラル画像圧縮に焦点を合わせたJPEG-AIの集団を確立した。また、中国のAVS規格では、AVS-AI特別グループも結成し、ニューラル画像およびビデオ圧縮技術に取り組んでいる。一方で、Googleのような企業がまた、ニューラル画像圧縮(NIC)のための専門研究プロジェクトに資金を提供している。
【0003】
ニューラルネットワークベースのビデオまたは画像符号化フレームワークでは、複数のモデルを使用することができ、それぞれが大きなデータセットを必要とし、複数の機械学習モデルを実装することができる。従来のハイブリッドビデオコーデックフレームワークは、複数のモデルの各々を別々に訓練および最適化することに焦点を合わせることができ、これはレート歪み損失を増加させ、またはビデオもしくは画像符号化フレームワークの計算コストを増加させ、画像またはビデオフレームワーク/プロセスの全体的な能力を低下させる可能性がある。
【0004】
したがって、符号化フレームワークを最適化し、全体的な能力を改善する方法が必要とされている。
【発明の概要】
【課題を解決するための手段】
【0005】
実施形態によれば、置換を伴う依存スカラ量子化を用いたニューラル画像圧縮のための方法を提供することができる。本方法は、1つまたは複数のプロセッサによって実行され得る。方法は、入力画像を受信するステップ、ニューラルネットワークベースの置換特徴生成器を使用して入力画像に基づいて置換画像を決定するステップ、置換画像を圧縮するステップ、圧縮された置換画像を量子化して、第1の依存スカラ量子化器を使用することによってより高い圧縮能力で入力画像の量子化表現を取得するステップ、および量子化表現の圧縮表現を生成するために、ニューラルネットワークベースのエンコーダを使用して置換画像をエントロピー符号化するステップを含み得る。
【0006】
実施形態によれば、置換を伴う依存スカラ量子化を用いたニューラル画像圧縮のための装置を提供することができる。本装置は、プログラムコードを記憶するように構成された少なくとも1つのメモリと、プログラムコードを読み出し、プログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサとを含み得る。プログラムコードは、少なくとも1つのプロセッサに入力画像を受信させるように構成された第1の受信コード、少なくとも1つのプロセッサに、ニューラルネットワークベースの置換特徴生成器を使用して、入力画像に基づいて置換画像を決定させるように構成された第1の決定コード、少なくとも1つのプロセッサに、置換画像を圧縮させるように構成された圧縮コード、少なくとも1つのプロセッサに、圧縮された置換画像を量子化して、第1の依存スカラ量子化器を使用することによってより高い圧縮能力で入力画像の量子化表現を取得させるように構成された量子化コード、および少なくとも1つのプロセッサに、量子化表現の圧縮表現を生成するために、ニューラルネットワークベースのエンコーダを使用して置換画像をエントロピー符号化させるように構成された第1の生成コードを含み得る。
【0007】
実施形態によれば、命令を記憶した非一時的コンピュータ可読媒体が提供され得る。命令は、置換を伴う依存スカラ量子化を用いたニューラル画像圧縮のために少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに、入力画像を受信し、ニューラルネットワークベースの置換特徴生成器を使用して入力画像に基づいて置換画像を決定し、置換画像を圧縮し、圧縮された置換画像を量子化して、第1の依存スカラ量子化器を使用することによってより高い圧縮能力で入力画像の量子化表現を取得し、および量子化表現の圧縮表現を生成するために、ニューラルネットワークベースのエンコーダを使用して置換画像をエントロピー符号化する、ようにさせ得る。
【図面の簡単な説明】
【0008】
【
図1】実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境の図である。
【
図2】
図1の1つまたは複数のデバイスの例示的な構成要素のブロック図である。
【
図3】実施形態による例示的な依存スカラ量子化(DSQ)プロセスの図である。
【
図4】実施形態による、置換を伴う依存スカラ量子化を用いたエンドツーエンドニューラル画像圧縮フレームワークのブロック図である。
【
図5A】実施形態による、置換を伴う依存スカラ量子化を用いたエンドツーエンドニューラル画像のための方法のフローチャートを示している。
【
図5B】実施形態による、置換を伴う依存スカラ量子化を用いたエンドツーエンドニューラル画像のための方法のフローチャートを示している。
【発明を実施するための形態】
【0009】
本開示の実施形態は、入力画像を受信するステップと、変換および量子化を実行するステップによって入力画像の置換表現を決定するステップと、この置換表現を圧縮するステップとを含みうるエンドツーエンド(E2E)ニューラル画像圧縮(NIC)のための方法、装置、およびシステムに関する。E2E NICフレームワークは、E2E NICフレームワークの複数の質のメトリック(例えば、レート歪み能力)を最適化することによって圧縮表現を生成する深層ニューラルネットワークに基づくモデル/層を調整することができる。
【0010】
上述したように、従来のハイブリッドビデオコーデックフレームワークは、画像またはビデオ符号化フレームワークに含まれる機械学習モデルを別々に訓練および最適化することに焦点を合わせることができ、全体的な能力の損失をもたらす。一方、E2E NICフレームワークは、最終目的(例えば、レート歪み損失の最小化)を改善するために、単一のモジュールとして入力から出力への画像またはビデオ符号化を(その間の層を使用して)共同で最適化することを可能にする。したがって、E2E NICフレームワークは、より良い能力を達成するためにコーディングシステム全体を最適化することができ、場合によっては、フレームワークの全体的な計算負荷を低減することができる。
【0011】
E2E NICフレームワークでは、量子化プロセスおよび圧縮プロセスが特に重要であり得る。量子化は画像およびビデオ圧縮におけるコアプロセスであり得るが、量子化は圧縮の質の損失の原因でもあり得る。したがって、量子化効率の改善は、画像またはビデオ符号化フレームワークの全体的な能力の向上をもたらすことができる。本開示の実施形態によれば、入力画像の優れた変更を利用して、優れた代替画像または置換画像は、より良好に量子化され、したがってより良好に圧縮され得るものである。したがって、本開示の実施形態は、ニューラルネットワークベースのモデルを使用してより良好な圧縮性の置換画像を利用して置換画像を生成し、続いてより良好な圧縮能力のために置換画像を量子化することができる新規なE2E NICフレームワークに関する。圧縮により適した置換画像を使用した依存スカラ量子化を含むこのE2E NICフレームワークを利用することにより、全体的な符号化能力が改善され、元の入力画像の量子化中に導入される圧縮の損失が低減される。
【0012】
実施形態によれば、E2E NICフレームワークは、ディープニューラルネットワークベースの画像またはビデオ符号化方法であってもよい。量子化プロセスは、依存スカラ量子化器を利用することができ、量子化表現は、圧縮表現を生成するためにエントロピー符号化され得る。いくつかの実施形態では、E2E NICフレームワークは、任意の適切なニューラルネットワークベースの方法、モデル、または層を含みうる。本明細書に開示される実施形態は、限定的または排他的であることを意図していない。E2E NICフレームワークは、事前に訓練され、本明細書に開示された方法を使用して微調整され得る。本開示のいくつかの実施形態によれば、E2E NICフレームワークは、共同で訓練され、推論に使用され得る。
【0013】
いくつかの実施形態によれば、ニューラルネットワークベースの画像圧縮のためのプロセスは、以下の通りであり得る。入力画像またはビデオシーケンスxが与えられると、入力xに基づいて、ニューラルネットワークベースのエンコーダ(例えば、ディープニューラルネットワーク(DNN)ベースのエンコーダ)は、入力画像xと比較した場合に記憶および伝送がより容易な圧縮表現fを計算することができる。圧縮表現fは、離散値量子化表現
【数1】
に量子化されてもよい。この離散値量子化表現
【数2】
は、その後、容易な記憶および送信のために損失なく、または損失を伴って、ビットストリームにエントロピー符号化(例えば算術符号化またはハフマン符号化を使用する)され得る。デコーダ側では、ビットストリームは、離散値量子化表現
【数3】
を復元するために可逆または不可逆エントロピー復号化を経ることができる。次に、この離散値量子化表現
【数4】
をニューラルネットワークベースのデコーダ(例えば、DNNベースのデコーダ)に入力して、入力画像またはビデオシーケンス
【数5】
を復元および/または再構成することができる。
【0014】
入力画像の質および特性、1つまたは複数のサイド情報、および1つまたは複数の目標の質の基準に応じて、入力画像の圧縮表現は、特定の閾値を超える損失を有する可能性がある。また、上述したニューラルネットワークベースの画像圧縮処理において、量子化はコアステップであり、圧縮の質の損失の主な原因の1つでもある。量子化の効率の向上は、すべての画像およびビデオ圧縮タスクにおいて大きな能力利得をもたらすことができる。したがって、本開示の実施形態によれば、優れた置換画像のより効率的な量子化を活用する入力画像の置換を伴う依存スカラ量子化のための方法が提供される。この方法の実施形態は、すべての画像およびビデオ圧縮タスクにおける能力利得を向上させる。
【0015】
本開示の実施形態によれば、均一スカラ量子化器は、符号化または推論段階中に量子化器として使用することができる。均一スカラ量子化器は、訓練フレーズ中にノイズ差込量子化器に置き換えられてもよい。E2E NICモデルの訓練の間、レート歪み損失は、トレードオフハイパーパラメータλを用いて、再構成入力画像またはビデオシーケンスの歪み損失の歪み損失
【数6】
と圧縮表現
【数7】
のビット消費量Rとの間のトレードオフを達成するように最適化され得る。
【0016】
【0017】
本開示の実施形態によれば、依存スカラ量子化器(DSQ)(例えば、トレリス符号化量子化器)を使用することができる。依存スカラ量子化のプロセスは、ベクトル量子化プロセスであってもよい。DSQは、2k個の状態(k>0)を含むステートマシンと共に2つの量子化器Q0およびQ1を利用することができ、ステートマシンおよびその状態は、これらのスカラ係数を切り替えるために使用される。いくつかの実施形態によれば、ステートマシンの各状態は、これらのスカラ量子化器のうちの1つに関連付けられてもよい。
【0018】
いくつかの実施形態によれば、DSQは、手動設計の量子化規則を含みうる。DSQは、2つの量子化器Q
0およびQ
1と、それらを切り替えるための手順とを含む。
図3は、DSQ設計において量子化器Q
0およびQ
1を使用するDSQメカニズムの例示を与える。丸の上方のラベル(例えば、A、B)は関連付けられた状態を示し、丸の下方のラベルは関連付けられた量子化キーを示す。
【0019】
デコーダ側では、量子化器Q0またはQ1のいずれかの量子化ステップサイズΔを乗算する整数キーkによって、再構築された数値x’が決定される。量子化器Q0とQ1との間の切り替えは、M=2Kの状態、K≧2(したがって、M≧4)、を有するステートマシンによって表すことができ、各DSQ状態は量子化器Q0またはQ1のうちの1つと関連付けられ得る。現在のDSQ状態は、前のDSQ状態と現在の量子化キーkiの値とによって一意的に決定されうる。入力ストリームx1,x2,...を符号化するために、量子化器Q0とQ1との間の潜在的な移行は、2KのDSQ状態を有するトレリスによって示され得る。したがって、量子化キーk1,k2,...の最適シーケンスを選択することは、最小レート歪み(R-D)コストを有する経路を見つけることに等しい。問題は、任意の適切なアルゴリズム(例えば、ビタビアルゴリズム)によって解決され得る。
【0020】
本開示の実施形態によれば、E2E NICフレームワークは、圧縮されるべきビデオシーケンス内の入力画像またはフレームごとに、オンライン訓練法を用いて入力画像の最適な置換画像を見つけ、次いで入力画像の代わりにこの置換画像を圧縮および量子化しうる。入力画像の代わりに最適な置換画像または少なくとも優れた置換画像を量子化することにより、量子化表現は、より良好な圧縮および全体符号化能力を達成する。実施形態によれば、置換画像の生成を続く置換画像に対するDSQと組み合わせる例示的な方法は、任意の適切なニューラルネットワークベースのE2E NICフレームワークの圧縮能力を改善するために用いられ得る。
【0021】
本開示の実施形態によれば、ニューラルネットワークベースの画像圧縮フレームワークは、事前に訓練されたDNNモデルを含んでもよく、事前に訓練されたモデルDNNモデルに関連付けられた1つまたは複数のモデルの重みは固定され得る。いくつかの実施形態では、DNNモデルの1つまたは複数のハイパーパラメータを訓練または微調整しうる。
【0022】
本開示の実施形態によれば、E2E NICフレームワークおよびその中の任意のモデルには、ステップサイズおよびステップ数という重要なハイパーパラメータがあり得る。ステップサイズは、オンライン訓練の「学習レート」を示しうる。オンライン学習は、本明細書に記載の1つまたは複数のモデルのリアルタイムでの学習を含みうる。異なるタイプのコンテンツを有する画像は、最良の最適化結果を達成するために異なるステップサイズに対応しうる。例として、特定の解像度の画像、特定のメタデータ(例えば、ラベル、特徴など)を含む画像、または特定の符号化特性(例えば、予測モード、CUサイズ、ブロックサイズなど)は、最良の最適化の結果を達成するために異なるステップサイズに対応しうる。ステップ数は、操作された更新の数を示し得る。目標損失関数
【数9】
と共に、ハイパーパラメータはオンライン学習プロセスに使用されうる。例えば、ステップサイズは、学習プロセスで行われる勾配降下アルゴリズムまたは逆伝播計算において使用されうる。反復回数は、学習プロセスをいつ終了させることができるかを制御するための最大反復回数の閾値として使用することができる。
【0023】
例として、圧縮表現
【数10】
にマッピングされ得る置換画像x’が存在し、圧縮表現
【数11】
が距離の測定または損失関数に基づいて入力画像xにより近くなり得る場合、元の入力画像xを使用して達成され得るよりも良好な圧縮が、置換画像x’を使用して達成され得る。いくつかの実施形態によれば、最良の圧縮表現は、入力画像と再構成画像との間のレート歪み損失と、圧縮表現のビット消費レートとの間のトレードオフの大域的最小値で達成され得る。例として、最良の圧縮能力は、式1の大域的最小値で達成され得る。
【0024】
関連技術では、量子化は、入力画像の符号化された特徴に丸め関数を適用することのみを含みうる。しかしながら、本開示の実施形態によれば、量子化はDSQを含みうる。また、量子化は、関連技術のような入力画像の代わりに、生成された置換画像の符号化特徴に対して行われうる。本開示の実施形態によれば、全体的な損失は、訓練中の複数の反復(例えば、平均二乗誤差(MSE)、バイナリ交差エントロピー(BCE)、カテゴリカル交差エントロピー(CC)、対数損失、指数損失、ヒンジ損失など)について観察され得る。損失が一貫しているか、停滞しているか、または反復回数の閾値を超えている場合、時間およびリソースを節約するために訓練が終了されうる。いくつかの実施形態によれば、DSQは、より良好な圧縮能力を得るために事前に訓練されたモデルを微調整するために使用され得る。
【0025】
いくつかの実施形態によれば、学習レートまたはステップサイズは、損失関数の出力によって変更されうる。例として、損失が徐々に変化している場合、ステップサイズは大幅に増加されうる。逆に、損失が急激に変化する場合、ステップサイズは徐々に変更されうる。
【0026】
本開示の実施形態は、システム全体として画像圧縮を最適化することによって圧縮能力を向上させるエンドツーエンドのニューラル画像圧縮のモデルに関する。本開示の実施形態は、ニューラルネットワークベースの画像置換方法および依存スカラ量子化を用いて、より良好な画像圧縮を可能にする。本開示は、効果的なエンドツーエンドのニューラル画像圧縮のために、ニューラルネットワークベースの置換画像生成方法/モデルを依存スカラ最適化と組み合わせるための新規な機構、方法、および装置を提供する。いくつかの実施形態によれば、エンドツーエンドのニューラルネットワークベースの置換および/または依存スカラ量子化モデルは、事前に訓練され、次いで微調整され得、または訓練され、同時に推論に使用され得る。ニューラルネットワークのこの微調整または統合訓練および推論は、処理効率を高め、オーバーヘッドを低減する。
【0027】
図1は、実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境100の図である。
【0028】
図1に示すように、環境100は、ユーザデバイス110と、プラットフォーム120と、ネットワーク130と、を含み得る。環境100のデバイスは、有線接続、無線接続、または有線接続と無線接続との組合せを介して相互接続され得る。
【0029】
ユーザデバイス110は、プラットフォーム120に関連付けられた情報を受信、生成、記憶、処理、および/または提供することが可能な1つまたは複数のデバイスを含む。例えば、ユーザデバイス110は、コンピューティングデバイス(例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど)、携帯電話(例えば、スマートフォン、無線電話など)、ウェアラブルデバイス(例えば、スマートグラスもしくはスマートウォッチなど)、または同様のデバイスを含んでもよい。いくつかの実装形態では、ユーザデバイス110は、プラットフォーム120から情報を受信し、かつ/または情報をプラットフォームに送信してもよい。
【0030】
プラットフォーム120は、本明細書の他の箇所に記載されるような1つまたは複数のデバイスを含む。いくつかの実装形態では、プラットフォーム120は、クラウドサーバ、またはクラウドサーバのグループを含んでもよい。いくつかの実装形態では、プラットフォーム120は、ソフトウェア構成要素がスワップインまたはスワップアウトされ得るようにモジュール式に設計されてもよい。そのため、プラットフォーム120は、異なる用途向けに、容易に、および/または迅速に再構成され得る。
【0031】
いくつかの実装形態では、図示するように、プラットフォーム120は、クラウドコンピューティング環境122内でホストされてもよい。特に、本明細書に記載された実装形態は、クラウドコンピューティング環境122内でホストされるものとしてプラットフォーム120を記載するが、いくつかの実装形態では、プラットフォーム120は、クラウドベースでなくてもよく(すなわち、クラウドコンピューティング環境の外部に実装されてもよい)、または部分的にクラウドベースであってもよい。
【0032】
クラウドコンピューティング環境122は、プラットフォーム120をホストする環境を含む。クラウドコンピューティング環境122は、プラットフォーム120をホストするシステムおよび/またはデバイスの物理的な位置と構成に関するエンドユーザ(例えば、ユーザデバイス110)の知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供できる。図示のように、クラウドコンピューティング環境122は、コンピューティングリソース124のグループ(「コンピューティングリソース124」と総称され、なおかつ個別に「コンピューティングリソース124」と呼ばれる)を含んでもよい。
【0033】
コンピューティングリソース124は、1つまたは複数のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、または他のタイプの計算デバイスおよび/もしくは通信デバイスを含む。いくつかの実装形態では、コンピューティングリソース124は、プラットフォーム120をホストしてもよい。クラウドリソースは、コンピューティングリソース124内で実行される計算インスタンス、コンピューティングリソース124内で提供されるストレージデバイス、コンピューティングリソース124によって提供されるデータ転送デバイスなどを含んでもよい。いくつかの実装形態では、コンピューティングリソース124は、有線接続、無線接続、または有線接続と無線接続との組合せを介して他のコンピューティングリソース124と通信してもよい。
【0034】
図1にさらに示されるように、コンピューティングリソース124は、1つまたは複数のアプリケーション(「APP」)124-1、1つまたは複数の仮想マシン(「VM」)124-2、仮想化ストレージ(「VS」)124-3、1つまたは複数のハイパーバイザ(「HYP」)124-4などのクラウドリソースのグループを含む。
【0035】
アプリケーション124-1は、ユーザデバイス110および/もしくはプラットフォーム120に提供され得る、またはユーザデバイス110および/もしくはプラットフォーム120によってアクセスされ得る1つまたは複数のソフトウェアアプリケーションを含む。アプリケーション124-1は、ユーザデバイス110にソフトウェアアプリケーションをインストールして実行する必要性を排除し得る。例えば、アプリケーション124-1は、プラットフォーム120に関連付けられたソフトウェア、および/またはクラウドコンピューティング環境122を介して提供され得る他の任意のソフトウェアを含んでもよい。いくつかの実装形態では、1つのアプリケーション124-1は、仮想マシン124-2を介して、1つまたは複数の他のアプリケーション124-1との間で情報を送受信してもよい。
【0036】
仮想マシン124-2は、物理マシンのようにプログラムを実行するマシン(例えば、コンピュータ)のソフトウェア実装形態を含む。仮想マシン124-2は、仮想マシン124-2による用途および任意の実マシンとの対応関係の程度に応じて、システム仮想マシンまたは処理仮想マシンのいずれかであり得る。システム仮想マシンは、完全なオペレーティングシステム(「OS」)の実行をサポートする完全なシステムプラットフォームを提供し得る。処理仮想マシンは、単一のプログラムを実行し、単一の処理をサポートし得る。いくつかの実装形態では、仮想マシン124-2は、ユーザ(例えば、ユーザデバイス110)の代わりに実行し、さらにデータ管理、同期、または長期データ転送などのクラウドコンピューティング環境122の基盤を管理してもよい。
【0037】
仮想化ストレージ124-3は、コンピューティングリソース124のストレージシステムまたはデバイス内で仮想化技法を用いる1つもしくは複数のストレージシステムおよび/または1つもしくは複数のデバイスを含む。いくつかの実装形態では、ストレージシステムのコンテキストにおいて、仮想化のタイプは、ブロックの仮想化およびファイルの仮想化を含んでもよい。ブロックの仮想化は、当該ストレージシステムが物理ストレージであるか異種構造であるかに関係なくアクセスされ得るような、物理ストレージからの論理ストレージの抽象化(または分離)を指し得る。分離により、ストレージシステムの管理者がエンドユーザのストレージを管理する方法に柔軟性がもたらされ得る。ファイルの仮想化は、ファイルレベルでアクセスされるデータとファイルが物理的に記憶されている場所との間の依存関係を排除し得る。これにより、ストレージ使用の最適化、サーバ統合、および/またはスムーズなファイル移行の実行が可能になり得る。
【0038】
ハイパーバイザ124-4は、複数のオペレーティングシステム(例えば、「ゲスト・オペレーティング・システム」)をコンピューティングリソース124などのホストコンピュータ上で同時に実行することを可能にするハードウェア仮想化技法を提供し得る。ハイパーバイザ124-4は、仮想オペレーティングプラットフォームをゲスト・オペレーティング・システムに提示し、さらにゲスト・オペレーティング・システムの実行を管理し得る。様々なオペレーティングシステムの複数のインスタンスが、仮想化されたハードウェアリソースを共有し得る。
【0039】
ネットワーク130は、1つまたは複数の有線および/または無線のネットワークを含む。例えば、ネットワーク130は、セルラーネットワーク(例えば、第5世代(5G)ネットワーク、ロングターム・エボリューション(LTE)・ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA)ネットワークなど)、公的地域モバイルネットワーク(PLMN)、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、メトロポリタン・エリア・ネットワーク(MAN)、電話ネットワーク(例えば、公衆交換電話網(PSTN))、プライベートネットワーク、アド・ホック・ネットワーク、イントラネット、インターネット、光ファイバベースのネットワークなど、および/またはそれらもしくは他のタイプのネットワークの組合せを含んでもよい。
【0040】
図1に示されるデバイスおよびネットワークの数および配置は、例として提供されている。実際には、
図1に示すものに比べて、さらなるデバイスおよび/もしくはネットワーク、少ないデバイスおよび/もしくはネットワーク、異なるデバイスおよび/もしくはネットワーク、または異なる配置のデバイスおよび/もしくはネットワークがあってもよい。さらに、
図1に示される2つ以上のデバイスは、単一のデバイス内に実装されてもよく、または
図1に示される単一のデバイスは、複数の分散型デバイスとして実装されてもよい。追加的に、または代替的に、環境100のデバイスのセット(例えば、1つまたは複数のデバイス)は、環境100のデバイスの他のセットによって実施されるものとして記載された1つまたは複数の機能を実施してもよい。
【0041】
図2は、
図1の1つまたは複数のデバイスの例示的な構成要素のブロック図である。
【0042】
デバイス200は、ユーザデバイス110および/またはプラットフォーム120に対応し得る。
図2に示されるように、デバイス200は、バス210と、プロセッサ220と、メモリ230と、記憶構成要素240と、入力構成要素250と、出力構成要素260と、通信インターフェース270と、を含み得る。
【0043】
バス210は、デバイス200の構成要素間の通信を可能にする構成要素を含む。プロセッサ220は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組合せに実装される。プロセッサ220は、中央処理装置(CPU)、グラフィック処理装置(GPU)、加速処理装置(accelerated processing unit:APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、または他のタイプの処理構成要素である。いくつかの実装形態では、プロセッサ220は、機能を実施するようにプログラムされ得る1つまたは複数のプロセッサを含む。メモリ230は、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、ならびに/またはプロセッサ220が使用するための情報および/もしくは命令を記憶する他のタイプの動的もしくは静的なストレージデバイス(例えば、フラッシュメモリ、磁気メモリ、および/もしくは光メモリ)を含む。
【0044】
記憶構成要素240は、デバイス200の動作および使用に関連する情報および/またはソフトウェアを記憶する。例えば、記憶構成要素240は、対応するドライブと共に、ハードディスク(例えば、磁気ディスク、光ディスク、光磁気ディスク、および/もしくはソリッド・ステート・ディスク)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、フロッピーディスク、カートリッジ、磁気テープ、ならびに/または他のタイプの非一時的コンピュータ可読媒体を含んでもよい。
【0045】
入力構成要素250は、デバイス200がユーザ入力(例えば、タッチ・スクリーン・ディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および/またはマイクロフォン)などを介して情報を受信することを可能にする構成要素を含む。追加的に、または代替的に、入力構成要素250は、情報を検知するためのセンサ(例えば、全地球測位システム(GPS)構成要素、加速度計、ジャイロスコープ、および/またはアクチュエータ)を含んでもよい。出力構成要素260は、デバイス200(例えば、ディスプレイ、スピーカ、および/または1つもしくは複数の発光ダイオード(LED))からの出力情報を提供する構成要素を含む。
【0046】
通信インターフェース270は、デバイス200が有線接続、無線接続、または有線接続と無線接続の組合せなどを介して他のデバイスと通信することを可能にする、トランシーバのような構成要素(例えば、トランシーバならびに/または別個の受信機および送信機)を含む。通信インターフェース270は、デバイス200が他のデバイスから情報を受信し、かつ/または他のデバイスに情報を提供できるようにしてもよい。例えば、通信インターフェース270は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数(RF)インターフェース、ユニバーサル・シリアル・バス(USB)・インターフェース、Wi-Fiインターフェース、セルラー・ネットワーク・インターフェースなどを含んでもよい。
【0047】
デバイス200は、本明細書に記載された1つまたは複数のプロセスを実施し得る。デバイス200は、プロセッサ220がメモリ230および/または記憶構成要素240などの非一時的コンピュータ可読媒体によって記憶されたソフトウェア命令を実行したことに応答して、これらのプロセスを実施し得る。コンピュータ可読媒体は、本明細書では非一時的メモリデバイスと定義されている。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間、または複数の物理ストレージデバイスにわたって広がるメモリ空間を含む。
【0048】
ソフトウェア命令は、他のコンピュータ可読媒体から、または通信インターフェース270を介して他のデバイスから、メモリ230および/または記憶構成要素240に読み込まれてもよい。メモリ230および/または記憶構成要素240に記憶されたソフトウェア命令は、実行されると、本明細書に記載された1つまたは複数のプロセスをプロセッサ220に実施させ得る。追加的に、または代替的に、本明細書に記載された1つまたは複数のプロセスを実施するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路が使用されてもよい。よって、本明細書に記載される実装形態は、ハードウェア回路とソフトウェアのいかなる特定の組合せにも限定されない。
【0049】
図2に示される構成要素の数および配置は、例として提供されている。実際には、デバイス200は、
図2に示される構成要素に対して、追加の構成要素、少ない構成要素、異なる構成要素、または異なる配置の構成要素を含んでもよい。追加的に、または代替的に、デバイス200の構成要素のセット(例えば、1つまたは複数の構成要素)は、デバイス200の構成要素の他のセットによって実施されるものとして記載された1つまたは複数の機能を実施してもよい。
【0050】
図4は、実施形態による、置換を伴う依存スカラ量子化を用いたエンドツーエンドニューラル画像圧縮(E2E NIC)フレームワークの例示的なブロック
図400の図解である。
【0051】
図4に見られるように、ブロック
図400は、エンコーダ402、DSQ 404、エントロピーコーダ406、エントロピーデコーダ408、デコーダ410、置換特徴最適化器403、ハイパーエンコーダ452、第2のDSQ 454、第2のエントロピーコーダ456、第2のエントロピーデコーダ458、ハイパーデコーダ460、およびコンテキストモデル420を含みうる。
【0052】
本開示の実施形態によれば、E2E NICフレームワークは、以下のようにブロック
図400を利用しうる。入力画像またはビデオシーケンスxが与えられると、入力xに基づいて、置換特徴最適化器403は置換画像x’を生成することができ、ニューラルネットワークベースのエンコーダ402は、入力画像xと比較した場合に記憶および伝送がより容易な圧縮表現
【数12】
を生成することができる。圧縮表現
【数13】
は、DSQ 404を使用して離散値量子化表現
【数14】
に量子化されうる。次に、この離散値量子化表現
【数15】
は、容易な格納および伝送のために、エントロピーエンコーダ406(例えば算術符号化またはハフマン符号化を用いる)を使用して損失なく、または損失を伴ってビットストリームにエントロピー符号化されうる。デコーダ側では、ビットストリームは、エントロピーデコーダ408を使用した可逆的または不可逆的なエントロピー復号化を経て、離散値量子化表現
【数16】
を復元しうる。次に、この離散値量子化表現
【数17】
はニューラルネットワークベースのデコーダ410(例えば、DNNベースのデコーダ)に入力され、入力画像またはビデオシーケンス
【数18】
を復元および/または再構成しうる。
【0053】
いくつかの実施形態によれば、E2E NICは、オンライン訓練フェーズ中に、圧縮能力をさらに向上させるために、ハイパー事前モデルおよびコンテキストモデルを含みうる。ハイパー事前モデルは、ニューラルネットワークの層間で生成された潜在的表現の空間的依存性を捉えるために使用され得る。いくつかの実施形態によれば、サイド情報は、ハイパー事前モデルによって使用されてもよく、サイド情報は、一般に、デコーダ側で隣接する参照フレームの動き補償時間補間によって生成される。このサイド情報は、E2E NICフレームワークを訓練および推論するために使用され得る。ハイパーエンコーダ452は、ハイパー事前ニューラルネットワークベースのエンコーダを使用して置換画像x’を符号化しうる。次いで、第2のDSQ 454および第2のエントロピーコーダ456を使用して、ハイパー符号化置換画像のハイパー圧縮表現を生成しうる。第2のエントロピーデコーダ458は、ハイパー圧縮表現を復号してハイパー再構成画像を生成することができ、次いで、再構成置換画像x’は、ハイパー事前ニューラルネットワークベースのハイパーデコーダ460を使用して生成しうる。ニューラルネットワークベースのコンテキストモデル420は、ハイパー再構成置換画像およびDSQ 404からの量子化表現を用いて訓練しうる。エントロピーエンコーダ406およびエントロピーデコーダ408は、それぞれ符号化および記録のためにコンテキストモデル420を使用しうる。
【0054】
図5A~
図5Bは、実施形態による、置換を伴う依存スカラ量子化を用いたエンドツーエンドニューラル画像のための方法のフローチャートを示す。
図5Aは、符号化のためのプロセス500を示し、
図5Bは、復号のためのプロセス550を示す。
【0055】
動作505において、フレームワークは入力画像を受信しうる。いくつかの実施形態によれば、入力画像は、任意の適切なフォーマットの画像であってもよい。いくつかの実施形態では、入力画像は、一連のビデオフレームの一部であってもよい。例として、505において、フレームワークは、1つまたは複数の入力画像を受信しうる。
【0056】
動作510において、置換画像は、ニューラルネットワークベースの画像圧縮フレームワークを使用して、入力画像に基づいて決定および/または圧縮されうる。例として、置換特徴最適化器は、入力画像xの置換画像x’を生成し得る。動作515において、置換画像は、ニューラルネットワークベースのエンコーダ402を使用して符号化されうる。動作510および515は、任意の順序で実行されてもよい。いくつかの実施形態によれば、エンコーダ402は、置換特徴最適化器403によって生成された置換画像を符号化することができる。いくつかの実施形態では、順序は逆であってもよい。
【0057】
動作520において、第1の依存スカラ量子化器を使用してより高い圧縮能力を有する入力画像の量子化表現を得るために、量子化表現は、第1の依存スカラ量子化器を使用して、符号化された置換画像に基づいて生成されうる。実施形態によれば、依存スカラ量子化は、第1の量子化器、第2の量子化器、およびステートマシンを含むことができ、ステートマシンは、第1の量子化器と第2の量子化器との間の切り替えを可能にする。
【0058】
動作525において、置換画像は、量子化表現の圧縮表現を生成するために、ニューラルネットワークベースのエンコーダを使用してエントロピー符号化され得る。実施形態によれば、最良の圧縮表現は、入力画像と再構成画像との間のレート歪み損失と圧縮表現のビット消費レートとの間のトレードオフの大域的最小値であり得る。エントロピー符号化は、量子化表現を、格納および送信のためにビットストリームへ変換し得る。
【0059】
動作530において、動作の復号側で、圧縮表現が受信され得る。動作535において、圧縮表現は、ニューラルネットワークベースのデコーダおよび/またはエントロピーデコーダを使用して復号され得る。動作540において、復号された圧縮表現に基づいて再構成画像を生成することができる。
【0060】
実施形態によれば、ニューラルネットワークベースの画像圧縮(E2E NIC)フレームワークは、事前に訓練されたモデルを含むことができ、事前に訓練されたモデルに関連する1つまたは複数のモデルの重みは固定される。事前に訓練されたモデルは、第1の依存スカラ量子化器を使用して微調整されうる。
【0061】
いくつかの実施形態によれば、ニューラルネットワークベースの画像圧縮フレームワークはモデルを含むことができ、モデルを訓練することは、モデルの学習レートを初期化することを含みうる。訓練が進行するにつれて、モデルの学習レートは閾値の回数だけ調整されえ、調整は1つまたは複数の訓練画像の画像特性に基づきうる。訓練は、以下の条件、すなわち、連続する反復間の学習レートの差が学習の閾値を下回ると決定すること、損失関数の出力損失が第1の反復回数にわたって一貫していると決定すること、または学習レートが最大反復回数にわたって調整されたと決定することのいずれかに基づいて終了しうる。いくつかの実施形態によれば、学習レートの調整は、損失関数の出力損失に逆相関されうる。
【0062】
いくつかの実施形態によれば、動作505~540は、コードを実行するように構成された装置を使用して実行されてもよく、各動作は、受信コード、決定コード、生成コードなどのコードに対応する。
【0063】
本開示の実施形態はまた、現在のデータに基づいてオンラインまたはオフラインで学習ベースの置換、量子化、符号化、および復号方式を調整し、DNNベースまたは従来のモデルベースの方式を含む、様々なタイプの学習ベース量子化の方式をサポートする柔軟性を提供する。記載された方法はまた、異なるDNNアーキテクチャおよび複数の品質メトリックを収容する柔軟で一般的なフレームワークを提供する。
【0064】
提案された方法は、別々に用いられてもよく、任意の順序で組み合わされてもよい。さらに、方法(または実施形態)の各々は、処理回路(例えば、1つまたは複数のプロセッサまたは1つまたは複数の集積回路)によって実施されてもよく、またはソフトウェアコード(例えば、生成コード、受信コード、符号化コード、復号コードなど)を使用して実施されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。
【0065】
本開示は、例示および説明を提供するが、網羅的であること、または実装形態を開示された正確な形態に限定すること、を意図するものではない。修正形態および変形形態は、現開示に照らして実現可能であり、または実装形態の実践から取得されてもよい。
【0066】
本明細書で用いられる場合、構成要素という用語は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組合せとして広く解釈されることを意図している。
【0067】
本明細書に説明のシステムおよび/または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組合せの異なる形態で実装されてもよいことは明らかであろう。これらのシステムおよび/または方法を実装するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実装形態を限定するものではない。したがって、システムおよび/または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェアおよびハードウェアは、本明細書の記載に基づいてシステムおよび/または方法を実装するように設計され得ることが理解される。
【0068】
特徴の組合せが特許請求の範囲に記載され、および/または本明細書に開示されているが、これらの組合せは、可能な実装形態の開示を限定することを意図されていない。実際には、これらの特徴の多くは、特許請求の範囲に特に記載されておらず、かつ/または本明細書に開示されていない方法で組み合わされ得る。以下に列挙する各依存請求項は、1つの請求項のみに直接的に依存することができるが、可能な実装形態の開示は、請求項セット内の他のすべての請求項と組み合わせた各依存請求項を含む。
【0069】
本明細書で用いられる要素、行為、または命令は、明示的にそのように記載されていない限り、重要または必須であると解釈されなくてもよい。また、本明細書で用いられる冠詞「a」および「an」は、1つまたは複数の項目を含むものであり、「1つまたは複数」と同じ意味で用いられてもよい。さらに、本明細書で用いられる「セット」という用語は、1つまたは複数の項目(例えば、関連項目、非関連項目、関連項目と非関連項目の組合せなど)を含むものであり、「1つまたは複数」と同じ意味で用いられてもよい。1つの項目のみが対象とされる場合、「1つ」という用語または同様の言葉が用いられる。また、本明細書で用いられる「有する(has)」、「有する(have)」、「有する(having)」などの用語は、オープンエンド用語であることが意図される。さらに、「に基づいて」という語句は、特に明記されない限り、「に少なくとも部分的に基づいて」を意味するものである。
【符号の説明】
【0070】
100 環境
110 ユーザデバイス
120 プラットフォーム
122 クラウドコンピューティング環境
124 コンピューティングリソース
124-1 アプリケーション
124-2 仮想マシン
124-3 仮想化ストレージ
124-4 ハイパーバイザ
130 ネットワーク
200 デバイス
210 バス
220 プロセッサ
230 メモリ
240 記憶構成要素
250 入力構成要素
260 出力構成要素
270 通信インターフェース
402 エンコーダ
403 置換特徴最適化器
404 DSQ
406 エントロピーエンコーダ、エントロピーコーダ
408 エントロピーデコーダ
410 デコーダ
420 コンテキストモデル
452 ハイパーエンコーダ
454 第2のDSQ
456 第2のエントロピーコーダ
458 第2のエントロピーデコーダ
460 ハイパーデコーダ
500 プロセス
550 プロセス
【手続補正書】
【提出日】2023-03-28
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
置換を伴う依存スカラ量子化を用いたニューラル画像圧縮の方法であって、前記方法は1つまたは複数のプロセッサによって実行され、前記方法は、
入力画像を受信するステップ、
ニューラルネットワークベースの置換特徴生成器を使用して前記入力画像に基づいて置換画像を決定するステップ、
前記置換画像を圧縮するステップ、
前記圧縮された置換画像を量子化して、第1の依存スカラ量子化器を使用してより高い圧縮能力で前記入力画像の量子化表現を取得するステップ、および
前記量子化表現の圧縮表現を生成するために、ニューラルネットワークベースのエンコーダを使用して前記置換画像をエントロピー符号化するステップ、を含む方法。
【請求項2】
前記方法は、
前記圧縮表現を受信するステップ、
エントロピー復号化を使用して、前記圧縮表現を復号するステップ、および
ニューラルネットワークベースのデコーダを使用して、前記復号された圧縮表現に基づいて再構成画像を生成するステップをさらに含む、請求項1に記載の方法。
【請求項3】
最良の圧縮表現は、前記入力画像と前記再構成画像との間のレート歪み損失と前記圧縮表現のビット消費レートとの間のトレードオフの大域的最小値である、請求項2に記載の方法。
【請求項4】
前記圧縮表現を生成する前記ステップは、
ハイパー事前ニューラルネットワークベースのエンコーダを使用して、前記圧縮された置換画像をハイパー符号化するステップ、
第2の依存スカラ量子化器およびエントロピー符号化を使用して、前記ハイパー符号化された圧縮置換画像のハイパー圧縮表現を生成するステップ、
ハイパー事前ニューラルネットワークベースのデコーダを使用してハイパー再構成画像を生成するために前記ハイパー圧縮表現をハイパー復号するステップ、
前記ハイパー再構成画像および前記量子化表現に基づいてコンテキストニューラルネットワークモデルを訓練するステップ、および
エントロピー符号化および前記コンテキストニューラルネットワークモデルを使用して前記量子化表現の前記圧縮表現を生成するステップ
を含む、請求項1に記載の方法。
【請求項5】
量子化する前記ステップは、第1の量子化器、第2の量子化器、およびステートマシンを含み、前記ステートマシンは、前記第1の量子化器と前記第2の量子化器との間の切り替えを可能にする、請求項1に記載の方法。
【請求項6】
前記ニューラル画像圧縮は事前に訓練されたモデルを含み、前記事前に訓練されたモデルに関連する1つまたは複数のモデルの重みは固定されている、請求項1に記載の方法。
【請求項7】
前記事前に訓練されたモデルは、前記第1の依存スカラ量子化器を使用して微調整される、請求項6に記載の方法。
【請求項8】
前記ニューラル画像圧縮は訓練されたモデルを含み、前記訓練されたモデルを訓練するステップは、
前記訓練されたモデルの学習レートを初期化するステップ、
前記訓練されたモデルの前記学習レートを閾値の回数調整するステップであって、調整する前記ステップは、1つまたは複数の訓練画像の画像特性に基づく、ステップ、および
前記訓練を、
連続する反復間の前記学習レートの差が学習の閾値を下回ると決定するステップ、
損失関数の出力損失が第1の反復回数にわたって一貫していると決定するステップ、または
前記学習レートが最大反復回数調整されたと決定するステップ
の少なくとも1つに基づいて終了させるステップを含む、請求項1に記載の方法。
【請求項9】
前記学習レートを調整する前記ステップは、前記損失関数の前記出力損失に逆比例するように基づく、請求項8に記載の方法。
【請求項10】
請求項1~9のいずれか一項に記載の方法を行うように構成された装置。
【請求項11】
コンピュータに、請求項1~9のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
【国際調査報告】