(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-09
(45)【発行日】2024-01-17
(54)【発明の名称】深層強化学習を用いたエンドツーエンドのタスク指向型潜在圧縮のための方法、装置およびコンピュータプログラム
(51)【国際特許分類】
H04N 19/126 20140101AFI20240110BHJP
G06T 7/00 20170101ALI20240110BHJP
H04N 19/136 20140101ALI20240110BHJP
G06N 3/0455 20230101ALI20240110BHJP
G06N 3/092 20230101ALI20240110BHJP
H04N 19/44 20140101ALI20240110BHJP
【FI】
H04N19/126
G06T7/00 350C
H04N19/136
G06N3/0455
G06N3/092
H04N19/44
(21)【出願番号】P 2022556610
(86)(22)【出願日】2021-10-07
(86)【国際出願番号】 US2021053952
(87)【国際公開番号】W WO2022146523
(87)【国際公開日】2022-07-07
【審査請求日】2022-09-20
(32)【優先日】2021-01-04
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-09-17
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】ウェイ・ジアン
(72)【発明者】
【氏名】ウェイ・ワン
(72)【発明者】
【氏名】シェン・リン
(72)【発明者】
【氏名】シャン・リュウ
【審査官】間宮 嘉誉
(56)【参考文献】
【文献】米国特許出願公開第2020/0366914(US,A1)
【文献】特開2020-173782(JP,A)
【文献】国際公開第2020/067167(WO,A1)
【文献】特表2003-533912(JP,A)
【文献】特開2002-51344(JP,A)
【文献】特開平11-8849(JP,A)
【文献】国際公開第2020/264457(WO,A1)
【文献】特開2001-292450(JP,A)
【文献】特表2018-537767(JP,A)
【文献】特開2010-85536(JP,A)
【文献】国際公開第2022/115155(WO,A1)
【文献】PESSOA, Jorge et al.,End-to-End Learning of Video Compression using Spatio-Temporal Autoencoders,Proc. IEEE Workshop on Signal Processing Systems 2020,ポルトガル,IEEE,2020年09月23日,pp.1-6,[online],[retrieved on 2023-11-29],Retrieved from the Internet: <URL: https://ieeexplore.ieee.org/document/9195249>,https://doi.org/10.1109/SiPS50750.2020.9195249
【文献】ALBRECHT, M. et al.,Description of SDR, HDR, and 360° Video Coding Technology Proposal by Fraunhofer HHI,JVET-J0014 (version 4),ITU,2018年04月12日,pp.31-33,[online],[retrieved on 2023-11-28],Retrieved from the Internet: <URL: https://jvet-experts.org/doc_end_user/documents/10_San%20Diego/wg11/JVET-J0014-v4.zip>,JVET-J0014-v4.docx
【文献】LU, Xiaotong et al.,Learning a Deep Vector Quantization Network for Image Compression,IEEE Access,Vol.7,IEEE,2019年08月14日,pp.118815-118825,[online],[retrieved on 2023-11-29],Retrieved from the Internet: <URL: https://ieeexplore.ieee.org/document/8798635>,https://doi.org/10.1109/ACCESS.2019.2934731
(58)【調査した分野】(Int.Cl.,DB名)
G06F 18/00-18/40
G06N 3/00-99/00
G06T 7/00- 7/90
G06V 10/00-20/90
G06V 30/418
G06V 40/16
G06V 40/20
G10L 15/00-99/00
H04N 7/12
H04N 19/00-19/98
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサによって実行される、深層強化学習を使用するエンドツーエンドのタスク指向型潜在画像圧縮の方法であって、
第1のニューラルネットワークを使用して、入力の複数の潜在表現を生成するステップであって、前記複数の潜在表現が、潜在信号のシーケンスを含む、ステップと、
第2のニューラルネットワークを使用して、前記複数の潜在表現を符号化するステップと、
第3のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて、量子化キーのセットを生成するステップであって、前記量子化キーのセット内の各量子化キーおよび以前の量子化状態のセット内の各以前の量子化状態が、前記複数の潜在表現に対応する、ステップと、
第4のニューラルネットワークを使用して、前記量子化キーのセットに基づいて、前記符号化された複数の潜在表現の逆量子化表現を表す、逆量子化数値のセットを生成するステップと、
前記逆量子化数値のセットに基づいて、再構築された出力を生成するステップと、
第5のニューラルネットワークを使用して、前記再構築された出力に基づいて、ターゲットタスクを実行するステップと、
を含む、方法。
【請求項2】
前記ターゲットタスクに基づいて、タスク予測損失を計算するステップを、さらに含み、
前記第1のニューラルネットワークおよび前記第5のニューラルネットワークは、前記タスク予測損失の勾配を逆伝播させるステップと、前記第1のニューラルネットワークおよび前記第5のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項1に記載の方法。
【請求項3】
前記ターゲットタスクは、前記生成された複数の潜在表現に基づいて実行される、請求項1に記載の方法。
【請求項4】
前記量子化キーのセットをエントロピー符号化することによって、符号化された量子化キーのセットを生成するステップと、
前記符号化された量子化キーのセットをエントロピー復号することによって、復号された量子化キーのセットを生成するステップと、
をさらに含み、
前記逆量子化数値のセットは、前記復号された量子化キーのセットに基づいて生成される、
請求項1に記載の方法。
【請求項5】
ブロック単位量子化方式、個別量子化方式、および静的量子化モデル方式のうちの少なくとも1つを使用して、前記量子化キーのセットを生成するステップと、
ブロック単位逆量子化方式、個別逆量子化方式、および静的逆量子化モデル方式のうちの少なくとも1つを使用して、前記逆量子化数値のセットを生成するステップと、
をさらに含む、請求項1に記載の方法。
【請求項6】
前記量子化キーのセットの量子化方式は、前記逆量子化数値のセットの逆量子化方式と同じであり、
前記量子化方式として前記ブロック単位量子化方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記ブロック単位逆量子化方式を使用し、
前記量子化方式として前記個別量子化方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記個別逆量子化方式を使用し、
前記量子化方式として前記静的量子化モデル方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記静的逆量子化モデル方式を使用する、
請求項5に記載の方法。
【請求項7】
前記第3のニューラルネットワークを訓練することによって、前記以前の量子化状態のセットおよび前記量子化キーのセットに基づいて、現在の量子化状態のセットを生成するステップをさらに含み、
前記第3のニューラルネットワークは、すべての可能な行動に対するq値を計算するステップと、最適なq値を有する最適な行動として行動をランダムに選択するステップと、前記選択された最適な行動の報酬を生成するステップと、選択された最適な行動のセットをサンプリングするステップと、歪み損失を最小化するために前記第3のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項1に記載の方法。
【請求項8】
深層強化学習を使用するエンドツーエンドのタスク指向型潜在画像圧縮のための装置であって、
プログラムコードを記憶するように構成された少なくとも1つのメモリと、
前記プログラムコードを読み取り、前記プログラムコードによる命令通りに動作するように構成された少なくとも1つのプロセッサと、を備え、
前記プログラムコードは、
前記少なくとも1つのプロセッサに、請求項1から7のいずれか一項に記載の方法を実行させる、装置。
【請求項9】
深層強化学習を使用するエンドツーエンドのタスク指向型潜在画像圧縮のために少なくとも1つのプロセッサによって実行されると、
少なくとも1つのプロセッサに、
請求項1から7のいずれか一項に記載の方法を実行させるための命令を含む、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年1月4日に出願された米国仮特許出願第63/133,696号および2021年9月17日に出願された米国特許出願第17/478,089号に基づいており、それらの優先権を主張し、それらの開示はその全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
国際標準化機関ISO/IEC/IEEEは、AIベースのビデオ符号化技術を、特に、深層ニューラルネットワーク(DNN)に基づく技術に焦点を合わせて、積極的に探索している。様々な専門家班(AhG)が、ニューラルネットワーク圧縮(NNR)、機械用ビデオ符号化(VCM)、ニューラルネットワークに基づくビデオ符号化(NNVC)などを調査するために形成されている。中国のAITISAおよびAVSも、同様の技術の標準化を研究するために対応する専門家グループを確立した。
【0003】
エンドツーエンドの潜在表現圧縮(E2ELRC)の処理は、以下のように記述することができる。入力画像またはビデオシーケンスxが与えられると、DNN潜在生成器は、最初に潜在表現fを計算し、これはDNN符号化器を通過して、離散値量子化表現
【数1】
に量子化されるコンパクト表現yを計算する。この離散値表現
【数2】
は、記憶および送信を容易にするために、損失なくエントロピー符号化され得る。復号器側では、離散値表現
【数3】
は、可逆エントロピー復号から復元され、DNN復号器への入力として使用されて、再構築された潜在表現
【数4】
を計算することができる。次に、DNNタスク実行器は、再構築された潜在表現
【数5】
に基づいて、検出、認識、セグメント化などのターゲットタスクを実行する。言い換えれば、(潜在表現fから再構築された潜在表現
【数6】
までの)符号化および復号処理なしで、元のDNN潜在生成器は、潜在表現fを計算し、これは、ターゲットタスクを実行するためにDNNタスク実行器によって直接使用されている。したがって、再構築された潜在表現
【数7】
は、潜在表現fの変更版として見ることができる。E2ELRCの目標は、コンパクトな表現
【数8】
が記憶および送信に効率的であり、復元され再構築された潜在表現
【数9】
が元のタスク性能を維持できるように、効果的な符号化-復号メカニズムを見つけることである。
【0004】
量子化は、画像、ビデオ、および潜在特徴について、すべての圧縮規格および生成におけるコア処理である。量子化はまた、圧縮品質損失の主な原因の1つであり、量子化効率を向上させると、画像およびビデオ圧縮タスクにおいて大きな性能利得をもたらすことができる。
【発明の概要】
【課題を解決するための手段】
【0005】
実施形態によれば、深層強化学習を使用するエンドツーエンドのタスク指向型の潜在画像圧縮の方法は、少なくとも1つのプロセッサによって実行され、第1のニューラルネットワークを使用して、入力画像の複数の潜在表現を生成するステップであって、複数の潜在表現が潜在信号のシーケンスを含む、ステップと、第2のニューラルネットワークを使用して、複数の潜在表現を符号化するステップと、第3のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて量子化キーのセットを生成するステップであって、量子化キーのセット内の各量子化キーおよび以前の量子化状態のセット内の各以前の量子化状態が複数の潜在表現に対応する、ステップと、第4のニューラルネットワークを使用して、量子化キーのセットに基づいて、符号化された複数の潜在表現の逆量子化表現を表す逆量子化数値のセットを生成するステップと、逆量子化数値のセットに基づいて、再構築された出力を生成するステップと、第5のニューラルネットワークを使用して、再構築された出力に基づいて、ターゲットタスクを実行するステップと、を含む。
【0006】
実施形態によれば、深層強化学習を使用するエンドツーエンドのタスク指向型潜在画像圧縮のための装置は、プログラムコードを記憶するように構成された少なくとも1つのメモリと、プログラムコードを読み取り、プログラムコードによる命令通りに動作するように構成された少なくとも1つのプロセッサ、とを含む。プログラムコードは、第1のニューラルネットワークを使用して、少なくとも1つのプロセッサに、入力の複数の潜在表現を生成させるように構成された第1の生成コードであって、複数の潜在表現は潜在信号のシーケンスを含む、第1の生成コードと、第2のニューラルネットワークを使用して、少なくとも1つのプロセッサに、複数の潜在表現を符号化させるように構成された符号化コードと、第3のニューラルネットワークを使用して、少なくとも1つのプロセッサに、以前の量子化状態のセットに基づいて、量子化キーのセットを生成させるように構成された第2の生成コードであって、量子化キーのセットにおける各量子化キーおよび以前の量子化状態のセットにおける各以前の量子化状態が複数の潜在表現に対応する、第2の生成コードと、第4のニューラルネットワークを使用して、少なくとも1つのプロセッサに、量子化キーのセットに基づいて、符号化された複数の潜在表現の逆量子化表現を表す逆量子化数値のセットを生成させるように構成された第3の生成コードと、少なくとも1つのプロセッサに、逆量子化数値のセットに基づいて、再構築された出力を復号させるように構成された復号コードと、第5のニューラルネットワークを使用して、少なくとも1つのプロセッサに、再構築された出力に基づいて、ターゲットタスクを実行させるように構成された実行コードと、を含む。
【0007】
実施形態によれば、非一時的コンピュータ可読媒体は、少なくとも1つのプロセッサによって、深層強化学習を使用したエンドツーエンドのタスク指向型潜在画像圧縮のために、実行されると、少なくとも1つのプロセッサに、第1のニューラルネットワークを使用して、潜在信号のシーケンスを備えた、複数の潜在表現を生成させ、第2のニューラルネットワークを使用して、複数の潜在表現を符号化させ、第3のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて、量子化キーのセットを生成させ、量子化キーのセット内の各量子化キーおよび以前の量子化状態のセット内の各以前の量子化状態は、複数の潜在表現に対応しており、第4のニューラルネットワークを使用して、量子化キーのセットに基づいて、符号化された複数の潜在表現の逆量子化表現の逆量子化数値のセットを生成させ、逆量子化数値のセットに基づいて、再構築された出力を復号させ、第5のニューラルネットワークを使用して、再構築された出力に基づいて、再構築された出力を実行させる、命令を記憶する。
【図面の簡単な説明】
【0008】
【
図1】実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境の図である。
【
図2】
図1の1つまたは複数のデバイスの例示的な構成要素のブロック図である。
【
図3】従属量子化(DQ)設計における、2つの量子化器を使用するDQメカニズムの図である。
【
図4(a)】DQ設計における、2つの量子化器間の切り替えを示す、手動設計のステートマシンの状態図である。
【
図4(b)】
図4(a)の手動設計ステートマシンの状態図を表す、状態テーブルである。
【
図5】潜在表現圧縮(LRC)システムの一般的な処理のブロック図である。
【
図6】実施形態による、試験段階中のエンドツーエンド潜在表現圧縮(E2ELRC)装置のブロック図である。
【
図7】実施形態による、試験段階中の
図6の試験段階装置からのDRL量子化モジュールの詳細なブロック図である。
【
図8】実施形態による、試験段階中の
図6の試験段階装置からのDRL逆量子化モジュールの詳細なブロック図である。
【
図9】実施形態による、トレーニング段階中のDRL量子化モジュールおよびDRL逆量子化モジュールのワークフローを示す図である。
【
図10】実施形態による、トレーニング段階中のメモリリプレイおよび重み更新モジュールの詳細なワークフローである。
【
図11】実施形態による、深層強化学習(DRL)を使用したエンドツーエンド潜在表現圧縮(E2ELRC)方式のフローチャートである。
【
図12】実施形態による、深層強化学習(DRL)を使用したエンドツーエンド潜在表現圧縮(E2ELRC)のための装置のブロック図である。
【発明を実施するための形態】
【0009】
実施形態は、深層強化学習(DRL)を使用するエンドツーエンド潜在表現圧縮(E2ELRC)のフレームワークに関することができる。本方法は、タスク性能と圧縮効率の両方を考慮し、システムを共同で最適化する。
【0010】
元の入力画像/ビデオを符号化して送信する代わりに、元の入力の潜在表現を符号化して送信することは、送信コストの削減およびプライバシーの向上などの利点をもたらすことができる。例えば、異常車両を検出することを目的とする監視システムは、元のビデオストリームを見る必要はなく、検出タスクに必要な抽出された潜在特徴のみを見る必要がある。VCMおよびDCM(機械用の中国データ符号化)規格は、潜在特徴符号化技術を調査して、記憶および送信に効率的であり、機械視覚タスクまたは人間視覚タスクを実行するのに有効な符号化された潜在特徴を生成するため作られた。
【0011】
従来の画像およびビデオ符号化規格は、依存量子化(DQ)または手動設計された量子化規則によるトレリス符号化量子化を使用する。DQは、2つの量子化器Q
0およびQ
1と、それらを切り替えるための手順とを含む。
図3は、DQ設計における量子化器Q
0およびQ
1を使用するDQメカニズムの例示的な図を示す。円の上の表示は関連する状態を示し、円の下の表示は関連する量子化キーを示す。復号器側では、量子化器Q
0またはQ
1のいずれかの量子化ステップサイズΔを乗算する整数キーkによって、再構築された数値x’が決定される。量子化器Q
0とQ
1との間の切り替えは、M=2
KのDQ状態、K≧2(したがって、M≧4)を有するステートマシンによって表すことができ、各DQ状態は量子化器Q
0またはQ
1のうちの1つと関連付けられる。現在のDQ状態は、前回のDQ状態と今回の量子化キーk
iの値とによって一意的に決定される。入力ストリームx
1,x
2,...を符号化するために、量子化器Q
0とQ
1との間の潜在的な遷移は、2
KのDQ状態を有するトレリスによって示され得る。したがって、量子化キーk
1,k
2,...の最適シーケンスを選択することは、最小レート歪み(R-D)コストを有するトレリス経路を見つけることと等価である。この問題は、ビタビ・アルゴリズムによって解くことができる。
【0012】
従来、ステートマシンは経験的に手動で設計されている。
図4は、4つの状態を有するVVC規格で使用される手動設計ステートマシンの一例を示す。具体的には、
図4(a)は、手動設計のステートマシンの状態図である。
図4(b)は、手動設計のステートマシンの状態図を表す状態テーブルである。
【0013】
従来のDQ方式には3つの主な制約がある。まず、2つの量子化器のみが使用される。量子化器の数を増やすと、数値を符号化する際のビット消費量を削減することができる。第2に、ステートマシンの手動設計は最適ではなく、多数のDQ状態を含めるには費用がかかりすぎる。量子化器の数を増やすには、DQ状態の数を増やす必要があり、これにより量子化効率を向上させることができるが、ステートマシンが複雑すぎて手動設計できない。最後に、キー生成および数値の再構築の方法は、体験学習的に手動で設計されており、これも最適ではない。他のより良い方法を探索するには、専門知識が必要であり、手作業で設計するには費用がかかりすぎる可能性がある。
【0014】
したがって、本開示の実施形態は、DRLメカニズムによって学習される学習ベースの量子化に関することができる。実施形態は、様々なタイプの量子化方式(例えば、一様量子化、コードブックに基づく量子化、または深層学習に基づく量子化)を柔軟にサポートすることができ、データ駆動方式で、最適量子化器を学習する。さらに、実施形態は、E2ELRC処理全体に共同で関連してもよく、DNN符号化器、DNN復号器、学習に基づく量子化方式、DNN潜在生成器、およびDNNタスク実行器は、改善されたデータ適応型圧縮結果を提供するために、共同で最適化されてもよい。
【0015】
図1は、実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境100の図である。
【0016】
図1に示すように、環境100は、ユーザデバイス110、プラットフォーム120、およびネットワーク130を含んでもよい。環境100のデバイスは、有線接続、無線接続、または有線接続と無線接続の組合せを介して相互接続することができる。
【0017】
ユーザデバイス110は、プラットフォーム120に関連付けられた情報を受信、生成、記憶、処理、および/または提供することが可能な1つまたは複数のデバイスを含む。例えば、ユーザデバイス110は、コンピューティングデバイス(例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど)、携帯電話(例えば、スマートフォン、無線電話など)、ウェアラブルデバイス(例えば、一対のスマートグラスもしくはスマートウォッチ)、または同様のデバイスを含んでもよい。いくつかの実装形態では、ユーザデバイス110は、プラットフォーム120から情報を受信し、かつ/またはプラットフォーム120に情報を送信することができる。
【0018】
プラットフォーム120は、本明細書の他の箇所に記載されるような1つまたは複数のデバイスを含む。いくつかの実装形態では、プラットフォーム120は、クラウドサーバまたはクラウドサーバのグループを含んでもよい。いくつかの実装形態では、プラットフォーム120は、ソフトウェア構成要素がスワップインまたはスワップアウトされ得るようにモジュール式に設計されてもよい。そのため、プラットフォーム120は、異なる用途向けに、容易かつ/または迅速に復元されてもよい。
【0019】
いくつかの実装形態では、図示されたように、プラットフォーム120は、クラウドコンピューティング環境122内でホストされてもよい。特に、本明細書に記載された実装形態は、クラウドコンピューティング環境122内でホストされるものとしてプラットフォーム120を記載するが、いくつかの実装形態では、プラットフォーム120は、クラウドベースでなくてもよく(すなわち、クラウドコンピューティング環境の外部に実装されてもよく)、部分的にクラウドベースであってもよい。
【0020】
クラウドコンピューティング環境122は、プラットフォーム120をホストする環境を含む。クラウドコンピューティング環境122は、プラットフォーム120をホストするシステムおよび/またはデバイスの物理的な位置および構成のエンドユーザ(例えば、ユーザデバイス110)の知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供することができる。図示されたように、クラウドコンピューティング環境122は、(まとめて「コンピューティングリソース124」と呼ばれ、個別に「コンピューティングリソース124」と呼ばれる)コンピューティングリソース124のグループを含んでもよい。
【0021】
コンピューティングリソース124は、1つまたは複数のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、または他のタイプの計算デバイスおよび/もしくは通信デバイスを含む。いくつかの実装形態では、コンピューティングリソース124は、プラットフォーム120のホストすることができる。クラウドリソースは、コンピューティングリソース124内で実行される計算インスタンス、コンピューティングリソース124内で提供されるストレージデバイス、コンピューティングリソース124によって提供されるデータ転送デバイスなどを含んでもよい。いくつかの実装形態では、コンピューティングリソース124は、有線接続、無線接続、または有線接続と無線接続の組合せを介して他のコンピューティングリソース124と通信することができる。
【0022】
図1にさらに示すように、コンピューティングリソース124は、1つまたは複数のアプリケーション(「APP」)124-1、1つまたは複数の仮想マシン(「VM」)124-2、仮想化ストレージ(「VS」)124-3、1つまたは複数のハイパーバイザ(「HYP」)124-4などのクラウドリソースのグループを含む。
【0023】
アプリケーション124-1は、ユーザデバイス110および/もしくはプラットフォーム120に提供され得るか、またはユーザデバイス110および/もしくはプラットフォーム120によってアクセスされ得る1つまたは複数のソフトウェアアプリケーションを含む。アプリケーション124-1は、ユーザデバイス110上でソフトウェアアプリケーションをインストールし実行する必要性を排除することができる。例えば、アプリケーション124-1は、プラットフォーム120に関連付けられたソフトウェアおよび/またはクラウドコンピューティング環境122を介して提供されることが可能な任意の他のソフトウェアを含んでもよい。いくつかの実装形態では、1つのアプリケーション124-1は、仮想マシン124-2を介して1つまたは複数の他のアプリケーション124-1との間で情報を送受信することができる。
【0024】
仮想マシン124-2は、物理マシンのようにプログラムを実行するマシン(例えば、コンピュータ)のソフトウェア実装形態を含む。仮想マシン124-2は、仮想マシン124-2による用途および任意の実マシンとの対応関係の程度に応じて、システム仮想マシンまたはプロセス仮想マシンのいずれかであってもよい。システム仮想マシンは、完全なオペレーティングシステム(「OS」)の実行をサポートする完全なシステムプラットフォームを提供することができる。プロセス仮想マシンは、単一のプログラムを実行することができ、単一の処理をサポートすることができる。いくつかの実装形態では、仮想マシン124-2は、ユーザ(例えば、ユーザデバイス110)の代わりに動作することができ、データ管理、同期、または長期データ転送などのクラウドコンピューティング環境122の基盤を管理することができる。
【0025】
仮想化ストレージ124-3は、コンピューティングリソース124のストレージシステムまたはデバイス内で仮想化技法を使用する1つもしくは複数のストレージシステムおよび/または1つもしくは複数のデバイスを含む。いくつかの実装形態では、ストレージシステムのコンテキスト内で、仮想化のタイプは、ブロック仮想化およびファイル仮想化を含んでもよい。ブロック仮想化は、ストレージシステムが物理ストレージまたは異種構造に関係なくアクセスされ得るような、物理ストレージからの論理ストレージの抽象化(または分離)を指すことができる。分離により、ストレージシステムの管理者がエンドユーザのためにストレージを管理する方法の柔軟性が可能になり得る。ファイル仮想化は、ファイルレベルでアクセスされるデータとファイルが物理的に記憶された場所との間の依存関係を排除することができる。これにより、ストレージ使用の最適化、サーバ統合、および/またはスムーズなファイル移行の実行が可能になり得る。
【0026】
ハイパーバイザ124-4は、複数のオペレーティングシステム(例えば、「ゲストオペレーティングシステム」)をコンピューティングリソース124などのホストコンピュータ上で同時に実行することを可能にするハードウェア仮想化技法を提供することができる。ハイパーバイザ124-4は、仮想オペレーティングプラットフォームをゲストオペレーティングシステムに提示することができ、ゲストオペレーティングシステムの実行を管理することができる。様々なオペレーティングシステムの複数のインスタンスが、仮想化されたハードウェアリソースを共有することができる。
【0027】
ネットワーク130は、1つまたは複数の有線および/または無線のネットワークを含む。例えば、ネットワーク130は、セルラーネットワーク(例えば、第5世代(5G)ネットワーク、ロングタームエボリューション(LTE)ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA)ネットワークなど)、公的地域モバイルネットワーク(PLMN)、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、メトロポリタンエリアネットワーク(MAN)、電話ネットワーク(例えば、公衆交換電話網(PSTN))、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワークなど、および/またはそれらもしくは他のタイプのネットワークの組合せを含んでもよい。
【0028】
図1に示すデバイスおよびネットワークの数および配置は、一例として提供されている。実際には、
図1に示すものに比べて、さらなるデバイスおよび/もしくはネットワーク、少ないデバイスおよび/もしくはネットワーク、異なるデバイスおよび/もしくはネットワーク、または異なる配置のデバイスおよび/もしくはネットワークが存在してもよい。さらに、
図1に示す2つ以上のデバイスは、単一のデバイス内に実装されてもよく、または
図1に示す単一のデバイスは、複数の分散型デバイスとして実装されてもよい。追加または代替として、環境100のデバイスのセット(例えば、1つまたは複数のデバイス)は、環境100のデバイスの別のセットによって実行されるものとして記載された1つまたは複数の機能を実行することができる。
【0029】
図2は、
図1の1つまたは複数のデバイスの例示的な構成要素のブロック図である。
【0030】
デバイス200は、ユーザデバイス110および/またはプラットフォーム120に対応してもよい。
図2に示すように、デバイス200は、バス210、プロセッサ220、メモリ230、記憶構成要素240、入力構成要素250、出力構成要素260、および通信インターフェース270を含んでもよい。
【0031】
バス210は、デバイス200の構成要素間の通信を可能にする構成要素を含む。プロセッサ220は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組合せに実装される。プロセッサ220は、中央処理装置(CPU)、グラフィック処理装置(GPU)、加速処理装置(APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、または別のタイプの処理構成要素である。いくつかの実装形態では、プロセッサ220は、機能を実行するようにプログラムされることが可能な1つまたは複数のプロセッサを含む。メモリ230は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、ならびに/またはプロセッサ220が使用するための情報および/もしくは命令を記憶する別のタイプの動的もしくは静的なストレージデバイス(例えば、フラッシュメモリ、磁気メモリ、および/もしくは光メモリ)を含む。
【0032】
記憶構成要素240は、デバイス200の動作および使用に関連する情報および/またはソフトウェアを記憶する。例えば、記憶構成要素240は、対応するドライブとともに、ハードディスク(例えば、磁気ディスク、光ディスク、光磁気ディスク、および/もしくはソリッドステートディスク)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、フロッピーディスク、カートリッジ、磁気テープ、ならびに/または別のタイプの非一時的コンピュータ可読媒体を含んでもよい。
【0033】
入力構成要素250は、デバイス200がユーザ入力(例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および/またはマイクロフォン)などを介して情報を受信することを可能にする構成要素を含む。追加または代替として、入力構成要素250は、情報を検知するためのセンサ(例えば、全地球測位システム(GPS)構成要素、加速度計、ジャイロスコープ、および/またはアクチュエータ)を含んでもよい。出力構成要素260は、デバイス200(例えば、ディスプレイ、スピーカ、および/または1つもしくは複数の発光ダイオード(LED))からの出力情報を提供する構成要素を含む。
【0034】
通信インターフェース270は、デバイス200が有線接続、無線接続、または有線接続と無線接続の組合せなどを介して他のデバイスと通信することを可能にする、トランシーバ様の構成要素(例えば、トランシーバならびに/または別個の受信機および送信機)を含む。通信インターフェース270は、デバイス200が別のデバイスから情報を受信し、かつ/または別のデバイスに情報を提供することを可能にすることができる。例えば、通信インターフェース270は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数(RF)インターフェース、ユニバーサルシリアルバス(USB)インターフェース、Wi-Fiインターフェース、セルラーネットワークインターフェースなどを含んでもよい。
【0035】
デバイス200は、本明細書に記載された1つまたは複数の処理を実行することができる。デバイス200は、プロセッサ220がメモリ230および/または記憶構成要素240などの非一時的コンピュータ可読媒体によって記憶されたソフトウェア命令を実行することに応答して、これらの処理を実行することができる。コンピュータ可読媒体は、本明細書では非一時的メモリデバイスと定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間、または複数の物理ストレージデバイスにわたって広がるメモリ空間を含む。
【0036】
ソフトウェア命令は、別のコンピュータ可読媒体から、または通信インターフェース270を介して別のデバイスから、メモリ230および/または記憶構成要素240に読み込まれてもよい。メモリ230および/または記憶構成要素240に記憶されたソフトウェア命令は、実行されると、本明細書に記載された1つまたは複数の処理をプロセッサ220に実行させることができる。追加または代替として、ハードワイヤード回路は、本明細書に記載された1つまたは複数の処理を実行するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用されてもよい。このように、本明細書に記載された実装形態は、ハードウェア回路とソフトウェアのいかなる特定の組合せにも限定されない。
【0037】
図2に示す構成要素の数および配置は、一例として提供されている。実際には、デバイス200は、
図2に示す構成要素に比べて、さらなる構成要素、少ない構成要素、異なる構成要素、または異なる配置の構成要素を含んでもよい。追加または代替として、デバイス200の構成要素のセット(例えば、1つまたは複数の構成要素)は、デバイス200の構成要素の別のセットによって実行されるものとして記載された1つまたは複数の機能を実行することができる。
【0038】
次に、潜在表現圧縮(LRC)システムの一般的な処理のための方法および装置について、実施形態の
図5を参照して詳細に説明する。
【0039】
図5は、潜在表現圧縮(LRC)システムの一般的な処理のための装置のブロック図である。
【0040】
図5に示すように、一般的な処理の装置は、DNN潜在生成モジュール510と、DNN符号化モジュール520と、量子化モジュール530と、エントロピー符号化モジュール540と、エントロピー復号モジュール550と、逆量子化モジュール560と、DNN復号モジュール570と、を含む。
【0041】
Xを入力(画像、ビデオ、オーディオ、または他の種類のデータ)とする。DNN潜在生成モジュール510は、DNN潜在生成器を用いて、潜在表現Fを生成する。潜在表現Fは、コード化シグナルのシーケンス、F=f
1、f
2、・・・、に直列化することができ、ここで、シグナルf
tは、一般に、サイズ(h,w,c,d)の4次元のテンソルとして表すことができる。各信号f
tについて、DNN符号化モジュール520は、DNN符号化器を使用して、信号f
tに基づいてDNN符号化表現y
tを計算する。次に、量子化モジュール530は、量子化器を使用して符号化表現y
tに基づいて、量子化表現
【数10】
を生成する。その後、エントロピー符号化モジュール540は、エントロピー符号化器を使用することによって、量子化表現
【数11】
をコンパクトな表現
【数12】
への、簡単な格納および送信のために符号化する。次いで、復号器側では、コンパクトな表現
【数13】
を受信した後、エントロピー復号モジュール550は、エントロピー復号器を使用して、コンパクトな表現
【数14】
に基づいて復号表現
【数15】
を復元する。可逆エントロピー符号化方式は、エントロピー符号化器およびエントロピー復号器によって使用されてもよく、その結果、復号表現
【数16】
は量子化表現
【数17】
に等しくなる(すなわち、
【数18】
)。次に、逆量子化モジュール560は、逆量子化を使用することにより、復号表現
【数19】
に基づいて、逆量子化表現y’
tを計算する。次に、DNN復号モジュール570は、DNN復号器を使用することにより、逆量子化表現y’
tに基づいて再構築された潜在表現
【数20】
を生成する。最後に、DNNタスク実行モジュール580は、DNNタスク実行器を使用することによって、復元され再構築された潜在表現
【数21】
に基づいて、ターゲットタスクを実行する。
【0042】
LRCシステムの全体的な目標は、2つの側面を考慮に入れた、統合損失
【数22】
を最小化することである。すなわち、量子化表現
【数23】
がほとんどビット消費を有さず(レート損失
【数24】
によって反映される)、かつ、再構築された潜在表現
【数25】
が元のf
tに近い(歪み損失
【数26】
によって反映される)ように、レート歪み(R-D)損失を最小化すること、および、再構築された潜在表現
【数27】
が元のターゲットタスクを良好に実行することができるように、タスク予測損失
【数28】
を最小化すること、である。統合損失
【数29】
は、以下の式に従って計算できる。
【0043】
【0044】
歪み損失
【数31】
は、PSNRおよび/またはSSIMメトリックなどの再構築誤差を測定する。レート損失
【数32】
は、量子化表現
【数33】
のビットレートに関連する。ハイパーパラメータβおよびλは、異なる損失項の重要性のバランスをとる。
【0045】
量子化/逆量子化演算は一般に微分可能ではないため、量子化器/逆量子化器は、DNN符号化器、DNN復号器、DNN潜在生成器、およびDNNタスク実行器、とは別に最適化される。例えば、従来の方法は、線形量子化を想定し、エントロピー推定によって微分可能なレート損失
【数34】
を近似し、その結果、DNN符号化器、DNN復号器、DNN潜在生成器、およびDNNタスク実行器は、逆伝播によって学習できる。
【0046】
実施形態は、DNN符号化器、DNN復号器、DNN潜在生成器、およびDNNタスク実行器、ならびに量子化器および逆量子化器が共同で学習されるE2ELRC方式を提案する。具体的には、DNN符号化器、DNN復号器、DNN潜在生成器、DNNタスク実行器の最適化、ならびに量子化器および逆量子化器の最適化を組み合わせるために、深層強化学習(DRL)が活用される。提案されたE2ELRCフレームワークは、一般的かつ広範であり、様々なタイプの量子化方式および様々なタイプのDNN符号化器、DNN復号器、DNN潜在生成器、およびDNNタスク実行器ネットワーク・アーキテクチャに対応する
【0047】
ここで、深層強化学習(DRL)を用いたエンドツーエンド潜在表現圧縮(E2ELRC)システムの方法および装置について詳細に説明する。
【0048】
図6は、実施形態による、試験段階中のE2ELRC装置のブロック図である。
【0049】
図6に示すように、E2ELRC試験装置は、DNN潜在生成モジュール610と、DNN符号化モジュール620と、DRL量子化モジュール630と、エントロピー符号化モジュール640と、エントロピー復号モジュール650と、DRL逆量子化モジュール660と、DNN復号モジュール670と、DNNタスク実行モジュール680と、を含む。
【0050】
符号化処理の一部として、入力信号Xが与えられると、DNN潜在生成モジュール610は、DNN潜在生成器を使用して、潜在表現Fを生成する。潜在表現Fは、符号化信号のシーケンスF=f1,f2,・・・に直列化され、各信号ftはサイズ(h,w,c,d)の4次元のテンソルである。DNN符号化モジュール620は、DNN符号化器を使用して、信号ftに基づいてDNN符号化表現ytを計算する。DNN符号化表現ytは、数値のストリームとして見ることができ、yt=yt,1,yt,2・・・である。m個の数値Yt,i=・・・,yt,i-1,yt,iのバッチについて、DRL量子化モジュール630は、DRL量子化器を使用して、各QK kt,lが符号化表現yt,lの各々に対応する、量子化キー(QKs)Kt,i=・・・,kt,i-1,kt,iのバッチを計算する。1サイズバッチ(m=1)の場合、数値は、1つずつ個別に処理される。m>1の場合、数値は、体系的に量子化される。数値はまた、異なる順序で体系化されてもよい。例えば、数値は、相対位置情報を保存するためにブロック単位で体系化されてもよい。次に、システムは、QK kt,iを復号処理に送信し、数値Yt,i+1の次のバッチの処理に進む。任意選択的に、QK kt,iは、記憶および送信を容易にするために、エントロピー符号化モジュール640によって(好ましくは可逆的に)さらに圧縮される。
【0051】
復号処理の一部として、QK K
t,iを受信した後、受信したQKがエントロピー符号化されている場合、エントロピー復号モジュール650は、エントロピー復号されたQK
【数35】
を取得するために適用される。次に、DRL逆量子化モジュール660は、逆量子化表現y’
tの全蒸気内のバッチであるDRL逆量子化器を使用して、逆量子化数値Y’
t,i=・・・,y’
t,i-1,y’
t,iのバッチを復元する。次に、DNN復号モジュール670は、DNN復号器を使用することにより、逆量子化表現y’
tに基づいて、再構築された出力
【数36】
を生成する。最後に、DNNタスク実行モジュール680は、DNNタスク実行器を使用して、復元された再構築された出力
【数37】
に基づいて、ターゲットタスクを実行する。エントロピー符号化モジュール640およびエントロピー復号モジュール650は、任意選択であり、
図6において点線によってマークされていることに留意されたい。例示的な実施形態では、エントロピー符号化モジュール640およびエントロピー復号モジュール650が使用される場合、この実施形態は、可逆エントロピー符号化方式をとり、したがって、エントロピー復号されたQKと、DRL量子化モジュール630によって計算されたQKとは、同じである(すなわち、
【数38】
)。したがって、以下では、符号化処理および復号処理によって計算されたQKの両方に同じ表記(K
t,i)が使用される。
【0052】
図6のDRL量子化器およびDRL逆量子化器は、学習ベースの量子化方式を使用する。
図7および
図8は、それぞれDRL量子化モジュール630およびDRL逆量子化モジュール660の詳細なワークフローを説明する。
【0053】
図7に示すように、DRL量子化モジュール630は、計算キーモジュール710および状態予測モジュール720を含む。
【0054】
符号化処理の一部として、各QS st,l-1が符号化表現yt,lの各々に対応する、以前の量子化状態(QS)St,i-1=・・・,st,i-2,st,i-1のバッチに従って、m個の数値Yt,i=・・・,yt,i-1,yt,iのバッチが与えられると、計算キーモジュール710は、キー生成器を使用して、各QK kt,lが符号化表現yt,lの各々に対応する、QK Kt,i=・・・,kt,i-1,kt,iを計算する。次いで、状態予測モジュール720は、状態予測器を用いて、現在のQS St,i=・・・,st,i-1,st,iを計算する。
【0055】
以前のQS St,i-1が与えられると、キー生成器は、量子化方式を用いてQKを計算する。この量子化方式は、固定ステップサイズを有する一様量子化のような所定のルールベースの方式とすることができ、ここで、QK kt,iは、QK kt,iと量子化ステップサイズとの乗算として、対応する符号化表現yt,iを最もよく再構築することができる整数である。この量子化方式はまた、k平均化法のような統計モデルとすることができ、ここで、QK kt,iは、その重心が符号化表現yt,iを最もよく再構築することができるクラスタのインデックスである。本開示は、キー生成器として使用される特定の量子化方式にいかなる制限も課さない。
【0056】
以前のQS St,i-1および現在のQK Kt,iが与えられると、状態予測モジュール720は、現在のQS st,iを計算する。例示的な実施形態では、m個のQKの各々に取り付けられてペアを形成する、状態予測モジュール720によって最新のQS st,i-1のみが使用され、m個のペアのすべてが、一緒にスタックされサイズ(m、2)の入力行列を形成する。別の例示的な実施形態では、各QKおよび対応するQSはペア(kt,l,st,l-1)を形成し、m個のペアは共にスタックされサイズ(m、2)の入力行列を形成する。状態予測モジュール720は、QSが取り得る任意の数の可能な状態間の遷移をサポートするために、学習ベースのモデルを使用する状態予測器に基づいて、現在のQS st,iを計算する。実施形態では、学習ベースのモデルは、後で詳細に説明する深層Q学習(DQN)アルゴリズムによって訓練される。
【0057】
図8に示すように、DRL逆量子化モジュール660は、状態予測モジュール720と再構築モジュール810とを含む。
【0058】
復号処理の一部として、QK Kt,i=・・・,kt,i-1,kt,iを受信した後、状態予測モジュール720は、入力QK Kt,iおよび以前のQS St,i-1=・・・,st,i-2,st,i-1に基づいて、符号化処理が現在のQS st,iを計算するのと同じ方法で状態予測器を使用することによって、現在のQS st,iを計算する。次に、再構築モジュール810は、再構築器を使用して、QK Kt,iおよびQS St,i-1に基づいて、逆量子化数値Y’t,i=・・・,y’t,i-1,y’t,iのバッチを計算する。再構築器は、キー生成器で用いられる量子化方式に対応する逆量子化方式を用いる。例えば、量子化方式が、固定ステップサイズの一様量子化のような所定のルールベース方式である場合、逆量子化数値y’t,iを、量子化ステップサイズとQK kt,iとの乗算として演算するなど、逆量子化方式も所定のルールベースである。量子化方式がk平均化法のような統計モデルである場合、逆量子化方式は、QK kt,iによってインデックス付けされた重心であってもよい。本開示は、再構築器として使用される特定の逆量子化方式に制限を課すものではない。
【0059】
状態予測器は、行動a
jと行動に関連付けられた出力Q値v
jとの間の行動値マッピング関数f(a
j,v
j|K
t,i,S
t,i-1)であり、j=1,・・・,J(合計でJ個の可能な行動があると仮定)であり、QK K
t,iおよびQS S
t,i-1が与えられる。各行動a
jは、QS s
t,iが取り得る状態に対応する。現在のQK K
t,iおよびQS S
t,i-1が与えられると、状態予測器は、すべての可能な行動a
jのQ値v
jを計算し、最適なQ値
【数39】
を有する最適な行動
【数40】
を選択する。最適な行動
【数41】
に対応する状態は、システムが選択するQS s
iである。Q値は、行動のシーケンスに関連するターゲット圧縮性能を測定するように設計される。したがって、最適な行動を選択することにより、最適なターゲット圧縮性能が得られる。
【0060】
実施形態では、深層Q学習メカニズム、具体的にはDQNアルゴリズムが訓練方法として使用される。DQNは、行動に報酬Q値を割り当てるために行動値マッピング関数を学習することによって、任意の所与の有限マルコフ決定処理のための最適行動選択の方策を見つける方策外DRL方式である。方策は、システムが行動を選択する際に従う規則である。現在の状態が与えられると、学習エージェントは、候補行動のセットから選択することができ、これは、異なる報酬価値をもたらす。様々な状況を経験し、様々な状況にある様々な行動を試みることによって、学習エージェントは、報酬を最適化するために時間をかけて学習し、その結果、報酬は、それがある任意の所与の状況において将来最適に行動することができる。
【0061】
具体的には、DNNが状態予測器として使用され、これは、行動値マッピング関数f(aj,vj|Kt,i,St,i-1)を推定するための関数近似器として機能する。状態予測器DNNは、典型的には、1つまたは複数の完全に接続された層が続く畳み込み層のセットを含む。本開示は、状態予測器の特定のネットワーク・アーキテクチャにいかなる制限も課さない。
【0062】
次に、実施形態によるDRL量子化モジュール630およびDRL逆量子化モジュール660の訓練処理について説明する。訓練処理の全体的なワークフローを
図9に示す。
【0063】
図9に示すように、E2ELRCシステム訓練装置は、DNN潜在生成モジュール610と、DNN符号化モジュール620と、DNN復号モジュール670と、タスク実行モジュール680と、計算キーモジュール710と、状態予測モジュール720と、再構築モジュール810と、歪み計算モジュール910と、レート計算モジュール920と、報酬計算モジュール930と、メモリリプレイ&重み更新モジュール940と、LRC歪み計算モジュール950と、LRCレート計算モジュール960と、LRC重み更新モジュール970とを含む。
【0064】
状態(ts-1)を現在の状態予測器とし、Key(tk-1)を現在のキー生成器とし、Recon(tr-1)を現在の再構築器とし、Enc(te-1)を現在のDNN符号化器とし、Dec(td-1)を現在のDNN復号器とし、Latent(tl-1)を現在のDNN潜在生成器とし、Task(tt-1)を現在のDNNタスク実行器とする。ts、tk、tr、te、tlおよびttは異なっていてもよく、その結果、状態予測器、キー生成器、再構築器、DNN符号化器、DNN復号器、DNN潜在生成器、およびDNNタスク実行器は、異なる更新頻度で異なる時間に更新されてもよい。
【0065】
訓練入力Xが与えられると、DNN潜在生成モジュール610は、現在のDNN潜在生成器Latent(tl-1)を使用して、潜在信号F=fl,f2,・・・のシーケンスを計算する。各信号ftについて、DNN符号化モジュール620は、現在のDNN符号化器Enc(te-1)を使用して、DNN符号化表現yt=yt,1,yt,2・・・を計算する。m個の数値Yt,i=・・・,yt,i-1,yt,iのバッチについては、以前のQS St,i-1=・・・,st,i-2,st,i-1に従って、計算キーモジュール710が、現在のキー生成器Key(tk-1)を用いて、QK Kt,i=・・・,kt,i-1,kt,iを計算する。バッチサイズおよび数字の整理方法は、試験段階と同じである。次いで、状態予測モジュール720は、現在の状態予測器State(ts-1)を使用して、以前のQS St,i-1および現在のQS Kt,iに基づいて、現在のQS st,iを計算する。状態予測モジュール720の入力も、試験段階と同じである。次に、再構築モジュール810は、現在の再構築器Recon(tr-1)を使用して、QK Kt,iおよびQS St,i-1に基づいて、逆量子化数値Y’t,i=・・・,y’t,i-1,y’t,iのバッチを計算する。最後に、DNN復号モジュール670は、現在のDNN復号器Dec(td-1)を使用して、逆量子化数値y’tに基づいて、再構築ztを生成する。
【0066】
訓練処理において、状態予測器は、εグリーディ法を使用して最適な行動
【数42】
を選択する。具体的には、現在の状態予測器State(t
s-1)がすべての可能な行動a
jのQ値v
jを計算した後、確率ε(0と1の間の数)で、ランダムな行動が最適な行動
【数43】
として選択され、確率(1-ε)で、最適なQ値
【数44】
を有する最適な行動
【数45】
が選択される。
【0067】
歪み計算モジュール910は、元のDNN符号化表現Yt,iと復号表現Y’t,iとの間の差を測定するために、歪み損失D(Yt,i,Y’t,i)を計算する。例えば、歪み損失D(Yt,i,Y’t,i)は、符号化表現Yt,i内の対応する要素と復号表現Y’t,i内の対応する要素との間の差の、Lk-ノルム(例えば、平均絶対誤差としてのL1-ノルムおよび平均二乗誤差としてのL2-ノルム)の平均とすることができる。
【0068】
【0069】
同時に、レート計算モジュール920は、量子化表現のビット消費(すなわち、符号化器から復号器へ送信される計算されたQK Kt,i)を測定するために、レート損失R(Kt,i)を計算する。レート損失を計算する方法は複数ある。例えば、QKは、任意の可逆エントロピー符号化方式を用いて圧縮され、圧縮されたビットストリームの実際のビットカウントが、レート損失として取得されうる。
【0070】
歪みD(Y
t,i,Y’
t,i)およびD(Y
t,i+1,Y’
t,i+1)、ならびに、レート損失R(K
t,i)およびR(K
t,i+1)に基づいて、数値Y
t,iおよびY
t,i+1の隣接するバッチについて、報酬計算モジュール930は、報酬φ(Y
t,i+1,K
t,i+1,Y’
t,i+1)を計算する。報酬φ(Y
t,i+1,K
t,i+1,Y’
t,i+1)は、以下の式に従って、現在のQK K
t,iおよびQS S
t,i-1が与えられると、状態予測器が最適な行動
【数47】
をとることによって得ることができる報酬を測定する。
【0071】
φ(Yt,i+1,Kt,i+1,Y’t,i+1)=D(Yt,i+1,Y’t,i+1)+αR(Kt,i+1) (3)
【0072】
ここで、αは、レート損失と報酬の歪みとのバランスをとるハイパーパラメータである。経験
【数48】
、すなわち、QK K
t,iおよびQS S
t,i-1に基づいて関連するQ値
【数49】
を有する行動
【数50】
を選択し、次いで、報酬φ(Y
t,i+1,K
t,i+1,Y’
t,i+1)を取得することが、リプレイメモリに追加される。リプレイメモリは、通常、最大記憶限界を有し、限界に達すると、最も古い経験が最新の経験に置き換えられる。
【0073】
状態予測器、キー生成器、および再構築器を更新する時間になると、システムは、リプレイメモリからの経験のバッチをサンプリングし、これらのサンプリングされた経験を使用して、メモリリプレイおよび重み更新モジュール940内のモデルパラメータを更新する。
図10は、訓練段階中のメモリリプレイおよび重み更新モジュール940の詳細なワークフローである。
【0074】
図10に示すように、メモリリプレイおよび重み更新モジュール940は、計算キーモジュール710と、状態予測モジュール720と、再構築モジュール810と、歪み計算モジュール910と、レート計算モジュール920と、報酬計算モジュール930と、サンプル経験モジュール1001と、損失計算モジュール1002と、重み更新モジュール1003とを含む。
【0075】
訓練段階の間、ターゲット状態予測器StateT、ターゲットキー生成器KeyT、およびターゲット再構築器ReconTは維持され、それぞれ状態予測器、キー生成器、および再構築器と全く同じモデル構造を有する。唯一の違いは、モデルパラメータであり、例えば、状態予測器のDNN重み係数、またはk平均量子化が使用される場合のキー生成器のk平均モデルパラメータ、または量子化が深層クラスタリングに基づく場合のキー生成器のDNN重み係数、などである。これらのモデルパラメータは、Ts、Tk、およびTrパラメータ更新サイクルごとに、対応する状態予測器、キー生成器、および再構築器から複製される。
【0076】
各パラメータ更新サイクルの間、サンプル経験モジュール1001は、リプレイメモリ
【数51】
から、経験のセットをサンプリングする。状態予測モジュール720は、各経験
【数52】
について、ターゲット状態予測器State
Tを使用して、その経験におけるQK Y
t,lおよびQS S
t,l-1に基づいて、ターゲットQS
【数53】
を予測する。ターゲットQS
【数54】
に基づいて、ターゲットキー生成器Key
Tは、計算キーモジュール710において、ターゲットキー
【数55】
を計算する。ターゲットキー
【数56】
およびターゲットQS
【数57】
に基づいて、ターゲット再構築器Recon
Tは、再構築モジュール810において、ターゲット逆量子化数値
【数58】
のバッチを計算することができる。次に、歪み計算モジュール910は、経験における元の表現Y
t,l+1と復号表現
【数59】
との間のターゲット歪み
【数60】
を計算する。レート計算モジュール920は、ターゲットキー
【数61】
に基づいて、ターゲットレート損失
【数62】
を計算する。次いで、ターゲット報酬
【数63】
が、以下のように報酬計算モジュール930において計算される。
【0077】
【0078】
次に、損失計算モジュール1002は、ターゲット報酬
【数65】
を以下のように計算する。
【0079】
【0080】
ここで、
【数67】
は、QK
【数68】
およびQS
【数69】
が与えられた場合の行動
【数70】
について、ターゲット状態予測器State
Tによって予測されるQ値である。ハイパーパラメータγは、0~1の間の値の割引率であり、これは、システムが短期報酬に対して長期報酬をどの程度重み付けするかを決定する。割引率が小さいほど、システムは長期報酬にあまり重み付せず、短期報酬のみを考慮する。次に、ターゲット損失
【数71】
が、ターゲット報酬
【数72】
および経験からのQ値
【数73】
、(例えば、2つの報酬の差のL
k-ノルム)に基づいて、計算される。
【0081】
【0082】
次いで、重み更新モジュール1003は、ターゲット損失の勾配を計算し、これは、状態予測器のDNNの重みパラメータを、State(t
s)に更新するために逆伝播される。ターゲット損失の勾配はまた、キー生成器Key(t
k)および再構築器Recon(t
r)を更新するために、学習ベースのキー生成器および再構築器の最適化ターゲットと組み合わせて使用されてもよい。例えば、キー生成器と再構築器が深層クラスタリング基づく量子化方式を用いる場合、キー生成器と再構築器のDNNの重みパラメータは、逆伝搬により更新される。他の学習ベースの方法が量子化に使用される場合、モデルパラメータはターゲット関数を最適化することによって学習され、ターゲット損失
【数75】
は、モデルパラメータを更新するために追加の正則化項として、最適化ターゲット関数に重み付けされ加算されてもよい。前述したように、状態予測器、キー生成器、および再構築器は、異なるタイムスタンプで更新され得る。
【0083】
Ts、Tk、およびTrの反復ごとに、状態予測器、キー生成器、および再構築器の重みパラメータは、それぞれ、ターゲット状態予測器StateT、ターゲットキー生成器KeyT、およびターゲット再構築器ReconTに複製される。
【0084】
実施形態は、リプレイメモリ、ターゲット状態予測器、ターゲットキー生成器、およびターゲット再構築器を使用して、訓練処理を安定させる。リプレイメモリは、1つの最新の経験しか有することができず、これは、リプレイメモリを有さないことに等しい。また、Ts、TkおよびTrはすべて1に等しくてもよく、その結果、ターゲット状態予測器、ターゲットキー生成器、およびターゲット再構築器は反復ごとに更新され、これはターゲット状態予測器、ターゲットキー生成器、およびターゲット再構築器の別のセットを持たないことに等しい。
【0085】
各入力Xに対するE2ELRCシステム全体(
図9にて説明)に関して、DNN潜在生成モジュール610は、現在のDNN潜在生成器Latent(t
l-1)を使用して、潜在信号F=f
1,f
2,・・・のシーケンスを計算する。各信号f
tについて、DNN符号化モジュール620は、現在のDNN符号化器Enc(t
e-1)を使用して、DNN符号化表現y
t=y
t,l,y
t,2,・・・を計算する。DRL量子化モジュール630およびDRL逆量子化モジュール660を介して、逆量子化表現y’
t=y’
t,l,y’
t,2,・・・が生成される。次に、DNN復号モジュール670は、現在のDNN復号器Dec(t
d-1)を使用して逆量子化表現y’
tに基づいて、再構築潜在表現
【数76】
を生成する。最後に、DNNタスク実行モジュール680は、現在のDNNタスク実行器Task(t
t-1)を使用して、再構築された潜在表現
【数77】
に基づいて、ターゲットタスクを実行し、訓練ラベル(例えば、元のタスクの分類または回帰損失)に基づいて、タスク予測損失
【数78】
を計算する。
【0086】
次に、LRC歪み計算モジュール950は、PSNRおよび/またはSSIM関連メトリックなどの潜在表現圧縮処理によって導入される誤差を測定するために、潜在表現の歪み損失
【数79】
を計算する。LRCレート計算モジュール960は、例えば、均一密度または通常密度を有する量子化表現
【数80】
(すなわち、QK k
t,l,k
t,2,・・・が格納され、復号処理に送信される)に基づくノンパラメトリック密度推定によって、潜在圧縮レート損失
【数81】
を計算する。次に、全体的な統合損失
【数82】
は、以下のように計算することができる。
【0087】
【0088】
ハイパーパラメータβおよびλは、異なる損失項の重要性のバランスをとる。
【0089】
次いで、LRC重み更新モジュール970は、統合損失の勾配を(例えば、いくつかの入力データにわたって統合損失の勾配を合計することによって)計算し、これにより、DNN符号化器、DNN復号器、DNN潜在生成器、およびDNNタスク実行器の重みパラメータを、逆伝播により、それぞれEnc(te)、Dec(td)、Latent(tl)、およびTask(tt)に更新することができる。
【0090】
実施形態では、DNN潜在生成器およびDNNタスク実行器は、符号化/復号の処理を省略することによって、事前に訓練される(それぞれLatent(0)およびTask(0)によって示される)。そのような事前訓練処理では、事前訓練入力Xが与えられると、DNN潜在生成モジュール610は、DNNタスク実行モジュール680によって直接使用される潜在表現Fを計算する。次いで、タスク予測損失TLRC(ft)を計算することができ、その勾配は、DNN潜在生成器およびDNNタスク実行器を学習するために逆伝播される。
【0091】
また、実施形態では、DNN符号化器およびDNN復号器は、一様量子化方式を仮定し、エントロピー推定モデルによって潜在圧縮率損失
【数84】
を推定することによって、事前に訓練される(それぞれEnc(0)およびDec(0)で示される)。そのような事前訓練処理では、事前訓練潜在信号f
tが与えられると、DNN符号化器は表現y
tを計算し、これは、潜在圧縮率損失
【数85】
を計算するためにエントロピー推定モデルによって、さらに使用される。次に、DNN復号器は、表現y
tに基づいて、出力(再構築された潜在表現
【数86】
)を計算する。次いで、潜在歪み損失
【数87】
が計算され、以下のようにR-D損失を得ることができる。
【0092】
【0093】
その勾配は、逆伝搬によって、DNN符号化器およびDNN復号器を更新するために使用され得る。
【0094】
事前訓練されたDNN符号化器、DNN復号器、DNN潜在生成器、およびDNNタスク実行器が配備されると、
図9および
図10の実施形態で説明された訓練処理は、DNN符号化器、DNN復号器、DNN潜在生成器、およびDNNタスク実行器に対処して量子化性能を向上させるために、DRL量子化器およびDRL逆量子化器を訓練する。記載された訓練処理はまた、現在の訓練データに従ってDNN符号化器、DNN復号器、DNN潜在生成器およびDNNタスク実行器を更新することができ、その結果、潜在圧縮システム全体が、総圧縮性能およびタスク性能を適応的に改善することができる。DNN符号化器、DNN復号器、DNN潜在生成器、およびDNNタスク実行器の更新は、オフラインまたはオンラインで行われてもよく、永続的または一時的なデータ依存であってもよい。
【0095】
同様に、展開後、DRL量子化器およびDRL逆量子化器内の状態予測器、キー生成器、および再構築器も、オフラインまたはオンラインで更新されてもよく、永続的または一時的にデータ依存であってもよい。例えば、ビデオベースのタスクの場合、DNN符号化器、DNN復号器、DNN潜在生成器DNNタスク実行器状態予測器、キー生成器、および再構築器の一部またはすべては、最初の数フレームに基づいて更新され得る。しかし、これらの更新は、将来のビデオの計算に影響を及ぼすために記録されることはない。どのモジュールが将来のビデオに適用されるように永続的に更新され得るかに基づいて、そのような更新はまた、一定量まで蓄積され得る。パラメータ更新に関しては、DNNのモデルパラメータの一部を凍結し、残りのパラメータのみを更新することができる。本開示は、DNNモデルのうち、どのDNNモデルを更新するか、または重みパラメータのどの部分を更新するかについて、何ら制約を課すものではない。
【0096】
図11は、実施形態による、深層強化学習を使用するエンドツーエンド潜在表現圧縮の方法のフローチャートである。
【0097】
いくつかの実装形態では、
図11の1つまたは複数の処理ブロックは、プラットフォーム120によって実行されてもよい。いくつかの実装形態では、
図11の1つまたは複数の処理ブロックは、ユーザデバイス110などのプラットフォーム120とは別個の、またはプラットフォーム120を含む別のデバイスもしくはデバイスのグループによって実行されてもよい。
【0098】
図11に示すように、動作1101において、本方法は、第1のニューラルネットワークを使用して、入力の複数の潜在表現を生成するステップを含む。複数の潜在表現は、潜在信号のシーケンスであってもよい。
【0099】
動作1102において、本方法は、第2のニューラルネットワークを使用して、複数の潜在表現を符号化するステップを含む。
【0100】
動作1103において、本方法は、以前の量子化状態のセットに基づいて、第3のニューラルネットワークを使用して、量子化キーのセットを生成するステップを含み、量子化キーのセット内の各量子化キー、および以前の量子化状態のセット内の各以前の量子化状態は、複数の潜在表現に対応する。量子化キーのセットをエントロピー符号化することによって、符号化された量子化キーのセットを生成することもできる。
【0101】
現在の量子化状態のセットは、第3のニューラルネットワークを訓練することによって、以前の量子化状態のセットおよび量子化キーのセットに基づいている。第3のニューラルネットワークは、すべての可能な行動のq値を計算し、最適なq値を有する最適な行動として行動をランダムに選択し、選択された最適な行動の報酬を生成し、選択された最適な行動のセットをサンプリングし、歪み損失を最小限に抑えるために第3のニューラルネットワークの重みパラメータを更新する、ことによって訓練される。
【0102】
動作1104において、本方法は、第4のニューラルネットワークを使用して、量子化キーのセットに基づいて、符号化された複数の潜在表現の逆量子化表現を表す逆量子化数値のセットを生成するステップを含む。符号化された量子化キーのセットが生成される場合、符号化された量子化キーのセットをエントロピー復号することによって、復号された量子化キーのセットを生成することもでき、逆量子化数値のセットは、その代わりに、復号された量子化キーのセットに基づいて生成される。
【0103】
動作1103で生成された量子化キーのセットおよび動作1104で生成された逆量子化数値のセットは、ブロック単位の量子化/逆量子化方式、個々の量子化/逆量子化方式、または静的量子化/逆量子化モデル方式を使用して、それぞれ量子化および逆量子化される。また、量子化キーのセットの量子化方式、および逆量子化数値のセットの逆量子化方式は同じである。
【0104】
動作1105において、本方法は、逆量子化数値のセットに基づいて、再構築された出力を生成するステップを含む。
【0105】
動作1106において、本方法は、第5のニューラルネットワークを使用して、再構築された出力に基づいて、ターゲットタスクを実行するステップを含む。
【0106】
その代わりに、生成された複数の潜在表現に基づいて、ターゲットタスクが実行されてもよい。ターゲットタスクに基づくタスク予測損失を計算することもでき、第1のニューラルネットワークおよび第5のニューラルネットワークは、タスク予測損失の勾配を逆伝播し、第1のニューラルネットワークおよび第5のニューラルネットワークの重みパラメータを更新することによって、訓練される。
【0107】
図11は、本方法の例示的なブロックを示すが、いくつかの実装形態では、本方法は、
図11に描写されたブロックに比べて、さらなるブロック、少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。追加または代替として、本方法のブロックのうちの2つ以上が並行して実行されてもよい。
【0108】
図12は、実施形態による、深層強化学習を使用したエンドツーエンド潜在表現圧縮のための装置のブロック図である。
【0109】
図12に示すように、装置は、第1の生成コード1201と、符号化コード1202と、第2の生成コード1203と、第3の生成コード1204と、復号コード1205と、実行コード1206とを含む。
【0110】
第1の生成コード1201は、少なくとも1つのプロセッサに、第1のニューラルネットワークを使用して、入力の複数の潜在表現を生成させるように構成され、複数の潜在表現は潜在信号のシーケンスを含む。
【0111】
符号化コード1202は、少なくとも1つのプロセッサに、第2のニューラルネットワークを使用して、複数の潜在表現を符号化させるように構成される。
【0112】
第2の生成コード1203は、少なくとも1つのプロセッサに、第3のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて、量子化キーのセットを生成させるように構成されており、量子化キーのセットにおける各量子化キー、および以前の量子化状態のセットにおける各以前の量子化状態は、複数の潜在表現に対応する。
【0113】
さらに、装置の動作はまた、第3のニューラルネットワークを訓練することによって、以前の量子化状態のセットおよび量子化キーのセットに基づいて、現在の量子化状態のセットを、少なくとも1つのプロセッサに、行わせるように構成された状態生成コードを含むことができる。第3のニューラルネットワークは、すべての可能な行動のq値を計算し、最適なq値を有する最適な行動として行動をランダムに選択し、選択された最適な行動の報酬を生成し、選択された最適な行動のセットをサンプリングし、歪み損失を最小限に抑えるために第3のニューラルネットワークの重みパラメータを更新する、ことによって訓練される。
【0114】
第3の生成コード1204は、少なくとも1つのプロセッサに、第4のニューラルネットワークを使用して、量子化キーのセットに基づいて、符号化された複数の潜在表現の逆量子化表現を表す逆量子化数値のセットを、生成させるように構成される。
【0115】
第2の生成コード1203によって生成された量子化キーのセット、および第3の生成コード1204によって生成された逆量子化数値のセットは、ブロック単位の量子化/逆量子化方式、個別の量子化/逆量子化方式、または静的量子化/逆量子化モデル方式を使用して、それぞれ量子化および逆量子化することができる。また、量子化キーのセットの量子化方式、および逆量子化数値のセットの逆量子化方式は同じである。
【0116】
復号コード1205は、少なくとも1つのプロセッサに、逆量子化数値のセットに基づいて、再構築された出力を復号させるように構成される。
【0117】
実行コード1206は、少なくとも1つのプロセッサに、第5のニューラルネットワークを使用して、再構築された出力に基づいて、ターゲットタスクを実行させるように構成されている。
【0118】
その代わりに、生成された複数の潜在表現に基づいて、ターゲットタスクが実行されてもよい。
図12の装置はまた、少なくとも1つのプロセッサに、ターゲットタスクに基づいてタスク予測損失を計算させるように構成された計算コードを含むことができ、第1のニューラルネットワークおよび第5のニューラルネットワークは、タスク予測損失の勾配を逆伝播させ、第1のニューラルネットワークおよび第5のニューラルネットワークの重みパラメータを更新することによって訓練される。
【0119】
図12は、本装置の例示的なブロックを示すが、いくつかの実装形態では、本装置は、
図12に描写されたブロックに比べて、さらなるブロック、少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。追加または代替として、本装置のブロックのうちの2つ以上が並行して実行されてもよい。
【0120】
実施形態は、システム全体としてターゲットタスクを実行するために潜在表現圧縮を最適化することによって、圧縮性能を改善するエンドツーエンド潜在表現圧縮(E2ELRC)に関する。本方法は、現在のデータに基づいてオンラインまたはオフラインで学習ベースの量子化および符号化方式を調整し、DNNベースまたは従来のモデルベースの方式を含む、様々なタイプの学習ベースの量子化方式をサポートする柔軟性を提供する。記載された方法はまた、異なるDNNアーキテクチャおよびタスクに対応する柔軟で一般的なフレームワークを提供する。
【0121】
提案された方法は、別々に使用されてもよく、任意の順序で組み合わされてもよい。さらに、本方法(または実施形態)の各々は、処理回路(例えば、1つもしくは複数のプロセッサ、または1つもしくは複数の集積回路)によって実装されてよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。
【0122】
本開示は、例示および説明を提供するが、網羅的であること、または実施態様を開示された正確な形態に限定すること、を意図するものではない。修正形態および変形形態は、現開示に照らして実現可能であり、または実装形態の実践から取得されてもよい。
【0123】
本明細書で使用される場合、構成要素という用語は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組合せとして広く解釈されることを意図されている。
【0124】
本明細書に記載されたシステムおよび/または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組合せの異なる形態で実装されてもよいことは明らかであろう。これらのシステムおよび/または方法を実装するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実装形態を限定するものではない。したがって、システムおよび/または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェアおよびハードウェアは、本明細書の記載に基づいてシステムおよび/または方法を実装するように設計され得ることが理解される。
【0125】
特徴の組合せが特許請求の範囲に列挙され、かつ/または本明細書に開示されているが、これらの組合せは、可能な実装形態の開示を限定するものではない。実際には、これらの特徴の多くは、特許請求の範囲に具体的に列挙されていない、かつ/または本明細書に開示されていない方法で組み合わされてもよい。以下に列挙される各従属請求項は1つの請求項のみに直接依存してもよいが、可能な実装形態の開示は、各従属請求項を請求項セット内のあらゆる他の請求項と組み合わせて含む。
【0126】
本明細書で使用される要素、行為、または指示は、明示的にそのように記載されていない限り、重要または必須であると解釈されなくてもよい。また、本明細書で使用される冠詞「a」および「an」は、1つまたは複数の項目を含むものであり、「1つまたは複数」と同じ意味で使用されてもよい。さらに、本明細書で使用される「セット」という用語は、1つまたは複数の項目(例えば、関連項目、非関連項目、関連項目と非関連項目の組合せなど)を含むものであり、「1つまたは複数」と同じ意味で使用されてもよい。1つの項目のみが対象とされる場合、「1つ」という用語または同様の言葉が使用される。また、本明細書で使用される「有する(has)」、「有する(have)」、「有する(having)」などの用語は、オープンエンド用語であることが意図される。さらに、「に基づいて」という語句は、特に明記されない限り、「に少なくとも部分的に基づいて」を意味するものである。
【符号の説明】
【0127】
100 環境
110 ユーザデバイス
120 プラットフォーム
122 クラウドコンピューティング環境
124 コンピューティングリソース
124-1 アプリケーション
124-2 仮想マシン
124-3 仮想化ストレージ
124-4 ハイパーバイザ
130 ネットワーク
200 デバイス
210 バス
220 プロセッサ
230 メモリ
240 記憶構成要素
250 入力構成要素
260 出力構成要素
270 通信インターフェース
510 DNN潜在生成モジュール
520 DNN符号化モジュール
530 量子化モジュール
540 エントロピー符号化モジュール
550 エントロピー復号モジュール
560 逆量子化モジュール
570 DNN復号モジュール
580 DNNタスク実行モジュール
610 DNN潜在生成モジュール
620 DNN符号化モジュール
630 DRL量子化モジュール
640 エントロピー符号化モジュール
650 エントロピー復号モジュール
660 DRL逆量子化モジュール
670 DNN復号モジュール
680 DNNタスク実行モジュール
710 計算キーモジュール
720 状態予測モジュール
810 再構築モジュール
910 歪み計算モジュール
920 レート計算モジュール
930 報酬計算モジュール
940 メモリリプレイおよび重みモジュール
950 LRC歪み計算モジュール
960 LRCレート計算モジュール
970 LRC重み更新モジュール
1001 サンプル経験モジュール
1002 損失計算モジュール
1003 重み更新モジュール
1101 動作
1102 動作
1103 動作
1104 動作
1105 動作
1106 動作
1201 第1の生成コード
1202 符号化コード
1203 第2の生成コード
1204 第3の生成コード
1205 復号コード
1206 実行コード