(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-22
(54)【発明の名称】ウェーブレット変換に基づく画像符号化/復号方法および装置
(51)【国際特許分類】
H04N 19/63 20140101AFI20220914BHJP
H04N 19/61 20140101ALI20220914BHJP
【FI】
H04N19/63
H04N19/61
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022502532
(86)(22)【出願日】2020-06-09
(85)【翻訳文提出日】2022-02-24
(86)【国際出願番号】 CN2020095228
(87)【国際公開番号】W WO2021008275
(87)【国際公開日】2021-01-21
(31)【優先権主張番号】201910639304.5
(32)【優先日】2019-07-15
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】503433420
【氏名又は名称】華為技術有限公司
【氏名又は名称原語表記】HUAWEI TECHNOLOGIES CO.,LTD.
【住所又は居所原語表記】Huawei Administration Building, Bantian, Longgang District, Shenzhen, Guangdong 518129, P.R. China
(71)【出願人】
【識別番号】505383316
【氏名又は名称】中国科学技▲術▼大学
【氏名又は名称原語表記】UNIVERSITY OF SCIENCE AND TECHNOLOGY OF CHINA
【住所又は居所原語表記】96, Jinzhai Road, Baohe District, Hefei, Anhui 230026, P.R. China
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133569
【氏名又は名称】野村 進
(72)【発明者】
【氏名】▲呉▼ ▲楓▼
(72)【発明者】
【氏名】▲馬▼ ▲海▼川
(72)【発明者】
【氏名】▲劉▼ ▲東▼
(72)【発明者】
【氏名】▲楊▼ ▲海▼涛
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA17
5C159MA41
5C159MC11
5C159ME01
5C159UA02
5C159UA05
(57)【要約】
本発明は、コンピュータ分野における画像符号化・復号技術を開示し、特に、ウェーブレット変換に基づく画像符号化/復号方法に関する。方法は、符号化中に、ウェーブレット係数を取得するためにウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行するステップであって、ウェーブレット変換モデルがCNNに基づいて実現された、ステップと、量子化されたウェーブレット係数を取得するためにウェーブレット係数を量子化するステップと、圧縮されたビットストリームを取得するために、量子化されたウェーブレット係数に対してエントロピー符号化を実行するステップと、復号中に、再構成されたウェーブレット係数を取得するために、圧縮されたビットストリームに対してエントロピー復号を実行するステップと、量子化解除されたウェーブレット係数を取得するために、再構成されたウェーブレット係数を量子化解除するステップと、再構成画像を取得するために、ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行するステップであって、ウェーブレット変換モデルはCNNに基づいて実現された、ステップと、を含む。本発明の実施形態は、画像符号化/復号性能の向上を助けるために使用される。
【特許請求の範囲】
【請求項1】
ウェーブレット変換に基づく画像符号化方法であって、
ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得するステップであって、前記ウェーブレット変換モデルは畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nは0より大きい整数である、ステップと、
前記ウェーブレット係数を量子化して、量子化されたウェーブレット係数を取得するステップと、
前記量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得するステップと、
を含む画像符号化方法。
【請求項2】
ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得する前記ステップが、
i番目のウェーブレット変換を実行するとき、サブバンドXを分解して、奇数サンプル成分および偶数サンプル成分を取得するステップであって、前記奇数サンプル成分が、前記サブバンドX内の奇数行係数または奇数列係数を含み、前記偶数サンプル成分が、前記サブバンドX内の偶数行係数または偶数列係数を含む、ステップと、
前記偶数サンプル成分および前記奇数サンプル成分に対して更新演算および予測演算を実行して、中間近似成分および中間詳細成分を取得するステップと、
前記中間近似成分を分解して、第1のサンプル成分および第2のサンプル成分を取得するステップであって、前記第1のサンプル成分は前記中間近似成分の奇数列係数または奇数行係数を含み、前記第2のサンプル成分は前記中間近似成分の偶数列係数または偶数行係数を含む、ステップと、
前記中間詳細成分を分解して、第3のサンプル成分および第4のサンプル成分を取得するステップであって、前記第3のサンプル成分が前記中間詳細成分の奇数行係数または奇数行係数を含み、前記第4のサンプル成分が前記中間詳細成分の偶数列係数または偶数行係数を含む、ステップと、
前記第1のサンプル成分および前記第2のサンプル成分に対して前記更新演算および前記予測演算を実行して、近似サブバンドP
iおよび詳細サブバンドI
i1を取得するステップと、
前記第3のサンプル成分および前記第4のサンプル成分に対して前記更新演算および前記予測演算を実行して、詳細サブバンドI
i2および詳細サブバンドI
i3を取得するステップと、
を含み、
前記ウェーブレット係数は、前記近似サブバンドP
i、前記詳細サブバンドI
i1、前記詳細サブバンドI
i2、および前記詳細サブバンドI
i3を含み、前記i番目のウェーブレット変換が第1のウェーブレット変換であるとき、前記サブバンドXは前記符号化対象画像であり、または前記i番目のウェーブレット変換が第1のウェーブレット変換でないとき、前記サブバンドXは近似サブバンドP
i-1であり、前記近似サブバンドP
i-1は(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドである、
請求項1に記載の方法。
【請求項3】
前記予測演算が、前記CNNに基づいて実現され、
前記更新演算が、前記CNNに基づいて実現され、または
前記予測演算および前記更新演算の両方が、前記CNNに基づいて実現された、
請求項2に記載の方法。
【請求項4】
前記量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得する前記ステップが、
エントロピー符号化モデルに基づいて前記量子化されたウェーブレット係数を符号化して、前記圧縮されたビットストリームを取得するステップであって、前記エントロピー符号化モデルが深層ニューラルネットワークに基づいて実現された、ステップ
を含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記ウェーブレット係数は3N+1個のサブバンドを含み、エントロピー符号化モデルに基づいて前記量子化されたウェーブレット係数を符号化して、前記圧縮されたビットストリームを取得する前記ステップが、
前記エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するステップであって、前記符号化対象係数は前記s番目のサブバンド内の任意の係数であり、前記s番目のサブバンドは前記3N+1個のサブバンドのうちの任意の1つである、ステップと、
前記符号化対象係数の前記累積確率分布関数の前記パラメータに基づいて前記累積確率分布関数を取得するステップと、
前記符号化対象係数および前記符号化対象係数の前記累積確率分布関数に基づいて前記符号化対象係数の確率分布を取得するステップと、
算術エンコーダを使用して前記符号化対象係数の前記確率分布に基づいて前記符号化対象係数に対してエントロピー符号化を実行して、前記符号化対象係数に対応するビットストリームを取得するステップであって、前記圧縮されたビットストリームが、前記符号化対象係数に対応する前記ビットストリームを含む、ステップと、
を含む、請求項4に記載の方法。
【請求項6】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドであるとき、前記エントロピー符号化モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、前記エントロピー符号化モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、前記エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得する前記ステップが、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、前記第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得するステップと、
前記第1の窓処理された畳み込みカーネルに基づいて前記s番目のサブバンドに対して畳み込み演算を実行して、前記符号化対象係数の前記累積確率分布関数の前記パラメータを取得するステップ、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、前記j番目の畳み込み層に対応する窓関数に基づいて、前記j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得するステップと、
前記第2の窓処理された畳み込みカーネルに基づいて前記j番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するステップ、
を含み、
jが1に等しいとき、前記j番目の畳み込み層の前記入力データは前記第1のサブバンドであり、jが1より大きく、かつMより大きくないとき、前記j番目の畳み込み層の前記入力データは、(j-1)番目の畳み込み層の出力データであり、またはjがMに等しいとき、前記j番目の出力データは、前記符号化対象係数の前記累積確率分布関数の前記パラメータを含む、請求項5に記載の方法。
【請求項7】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドではないとき、前記エントロピー符号化モデルは、第1のエントロピー符号化モデル、第2のエントロピー符号化モデル、および第3のエントロピー符号化モデルを含み、前記第1のエントロピー符号化モデルおよび前記第2のエントロピー符号化モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、前記第3のエントロピー符号化モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、前記第1のエントロピー符号化モデルは、T1個の畳み込み層を含み、前記第2のエントロピー符号化モデルは、T2個の畳み込み層を含み、T1およびT2の両方は、0より大きい整数であり、前記エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得する前記ステップが、
(s-1)番目のサブバンドを計算のために前記第3のエントロピー符号化モデルに入力して、第1の出力結果を取得するステップであって、前記第1の出力結果は前記第2のエントロピー符号化モデルの入力データであり、前記s番目のサブバンドは前記第1のエントロピー符号化モデルの入力データである、ステップと、
T1およびT2の両方が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、前記第2の出力結果が、前記符号化対象係数の前記累積確率分布関数の前記パラメータであり、前記畳み込み層C1および前記畳み込み層C2が、それぞれ前記第1のエントロピー符号化モデルおよび前記第2のエントロピー符号化モデルにおける畳み込み層である、ステップ、または
T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、前記畳み込み層C1は前記第1のエントロピー符号化モデルにおけるq番目の畳み込み層であり、前記畳み込み層C2は前記第2のエントロピー符号化モデルにおける畳み込み層であり、qがT1に等しいならば、前記第2の出力結果は前記符号化対象係数の前記累積確率分布関数の前記パラメータであり、またはqが0より大きく、かつT1より小さいならば、前記第2の出力結果は前記第1のエントロピー符号化モデルにおける(q+1)番目の畳み込み層の入力データである、ステップ、または
T1およびT2の両方が1より大きいとき、畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、前記畳み込み層C1は、前記第1のエントロピー符号化モデルにおけるq1番目の畳み込み層であり、前記畳み込み層C2は、前記第2のエントロピー符号化モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、かつq2がT2に等しいならば、前記第2の出力結果は、前記符号化対象係数の前記累積確率分布関数の前記パラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、前記第2の出力結果は、前記第1のエントロピー符号化モデルにおける(q1+1)番目の畳み込み層の入力データであり、前記畳み込み層C2の出力結果は、前記第2のエントロピー符号化モデルにおける(q2+1)番目の畳み込み層の入力データである、ステップと、
を含む、請求項5に記載の方法。
【請求項8】
前記(s-1)番目のサブバンドの分解能が前記s番目のサブバンドの分解能と異なるとき、(s-1)番目のサブバンドを計算のために前記第3のエントロピー符号化モデルに入力して、第1の出力結果を取得する前記ステップが、
前記第3のエントロピー符号化モデルおよび前記第3のエントロピー符号化モデルの状態変数に基づいて、前記(s-1)番目のサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得するステップと、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得するステップであって、前記第1の出力結果の分解能は前記s番目のサブバンドの前記分解能と同じである、ステップと、
を含み、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得する前記ステップの後に、前記方法は、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するステップであって、前記サンプリングされた状態変数の分解能は前記s番目のサブバンドの前記分解能と同じである、ステップ
をさらに含む、請求項7に記載の方法。
【請求項9】
畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行することが、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、前記第1の畳み込みカーネルが、前記畳み込み層C1に対応する畳み込みカーネルである、ステップと、
前記窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、
第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、
前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するステップと、
を含む、請求項7または8に記載の方法。
【請求項10】
畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得する前記ステップが、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、前記第1の畳み込みカーネルが、前記畳み込み層C1に対応する畳み込みカーネルである、ステップと、
第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するステップであって、前記第2の畳み込みカーネルが前記畳み込み層C2に対応する畳み込みカーネルであり、前記第1の窓関数および前記第2の窓関数が互いに相補的である、ステップと、
前記窓処理された第1の畳み込みカーネルに基づいて前記s番目のサブバンドに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、
前記窓処理された第2の畳み込みカーネルに基づいて前記第1の出力結果に対して畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、
前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するステップと、
を含む、請求項7または8に記載の方法。
【請求項11】
ウェーブレット変換に基づく画像復号方法であって、
圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するステップと、
前記再構成されたウェーブレット係数を量子化解除して、量子化解除されたウェーブレット係数を取得するステップと、
ウェーブレット変換モデルに基づいて前記量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得するステップであって、前記ウェーブレット変換モデルが畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nが0より大きい整数である、ステップと、
を含む画像復号方法。
【請求項12】
圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得する前記ステップが、
エントロピー復号モデルに基づいて前記圧縮されたビットストリームに対してエントロピー復号を実行して、前記再構成されたウェーブレット係数を取得するステップであって、前記エントロピー復号モデルは深層ニューラルネットワークに基づいて実現された、ステップ
を含む、請求項11に記載の方法。
【請求項13】
前記圧縮されたビットストリームは3N+1個のサブバンドのビットストリームを含み、前記再構成されたウェーブレット係数は3N+1個の再構成されたサブバンドを含み、エントロピー復号モデルに基づいて前記圧縮されたビットストリームに対してエントロピー復号を実行して、前記再構成されたウェーブレット係数を取得する前記ステップが、
s番目のサブバンドに対応する再構成されたサブバンドを前記エントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するステップであって、前記復号対象係数のビットストリームは前記s番目のサブバンドのビットストリームの一部であり、前記s番目のサブバンドに対応する前記再構成されたサブバンドは、前記3N+1個の再構成されたサブバンドのうちの任意の1つである、ステップと、
前記復号対象係数の前記累積確率分布関数の前記パラメータに基づいて前記復号対象係数の前記累積確率分布関数を取得するステップと、
前記復号対象係数と前記復号対象係数の前記累積確率分布関数とに基づいて前記復号対象係数の確率分布を取得するステップと、
前記復号対象係数の前記確率分布に基づいて、算術デコーダを使用して前記復号対象係数の前記ビットストリームに対してエントロピー復号を実行して、前記復号対象係数を取得するステップであって、前記3N+1個の再構成されたサブバンドが前記復号対象係数を含む、ステップと、
を含む、請求項12に記載の方法。
【請求項14】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドであるとき、前記エントロピー復号モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、前記エントロピー復号モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、s番目のサブバンドに対応する再構成されたサブバンドを前記エントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得する前記ステップが、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、前記第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得するステップと、
前記第1の窓処理された畳み込みカーネルに基づいて、前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行して、前記復号対象係数の前記累積確率分布関数の前記パラメータを取得するステップ、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、前記j番目の畳み込み層に対応する窓関数に基づいて、前記j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得するステップと、
前記第2の窓処理された畳み込みカーネルに基づいて前記j番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するステップ、
を含み、
jが1に等しいとき、前記j番目の畳み込み層の前記入力データは、前記第1のサブバンドに対応する再構成されたサブバンドであり、jが1より大きく、かつMより大きくないとき、前記j番目の畳み込み層の前記入力データは、(j-1)番目の畳み込み層の出力データであり、またはjがMに等しいとき、前記j番目の出力データは前記復号対象係数の前記累積確率分布関数の前記パラメータを含む、請求項13に記載の方法。
【請求項15】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドではないとき、前記エントロピー復号モデルは、第1のエントロピー復号モデル、第2のエントロピー復号モデル、および第3のエントロピー復号モデルを含み、前記第1のエントロピー復号モデルおよび前記第3のエントロピー復号モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、前記第3のエントロピー復号モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、前記第1のエントロピー復号モデルは、T1個の畳み込み層を含み、前記第2のエントロピー復号モデルは、T2個の畳み込み層を含み、T1およびT2の両方は、0より大きい整数であり、s番目のサブバンドに対応する再構成されたサブバンドを前記エントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得する前記ステップが、
(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために前記第3のエントロピー復号モデルに入力して、第1の出力結果を取得するステップであって、前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドは、前記(s-1)番目のサブバンドのビットストリームに対してエントロピー復号を実行することによって取得され、前記第1の出力結果は、前記第2のエントロピー復号モデルの入力データであり、前記s番目のサブバンドに対応する前記再構成されたサブバンドは、前記第1のエントロピー復号モデルの入力データである、ステップと、
T1およびT2の両方が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、前記第2の出力結果が、前記復号対象係数の前記累積確率分布関数の前記パラメータであり、前記畳み込み層C1および前記畳み込み層C2が、それぞれ前記第1のエントロピー復号モデルおよび前記第2のエントロピー復号モデルにおける畳み込み層である、ステップ、または
T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、前記畳み込み層C1は、前記第1のエントロピー復号モデルにおけるq番目の畳み込み層であり、前記畳み込み層C2は、前記第2のエントロピー復号モデルにおける畳み込み層であり、qがT1に等しいならば、前記第2の出力結果は、前記復号対象係数の前記累積確率分布関数の前記パラメータであり、またはqが0より大きく、かつT1より小さいならば、前記第2の出力結果は、前記第1のエントロピー復号モデルにおける(q+1)番目の畳み込み層の入力データである、ステップ、または
T1およびT2の両方が1より大きいとき、畳み込み層C1および畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、前記畳み込み層C1は、前記第1のエントロピー復号モデルにおけるq1番目の畳み込み層であり、前記畳み込み層C2は、前記第2のエントロピー復号モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、かつq2がT2に等しいならば、前記第2の出力結果は、前記復号対象係数の前記累積確率分布関数の前記パラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、前記第2の出力結果は、第1のエントロピー復号モデルにおける(q1+1)番目の畳み込み層の入力データであり、前記畳み込み層C2の出力結果は、前記第2のエントロピー復号モデルにおける(q2+1)番目の畳み込み層の入力データである、ステップと、
を含む、請求項13に記載の方法。
【請求項16】
前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドの分解能が前記s番目のサブバンドに対応する前記再構成されたサブバンドの分解能と異なるとき、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために前記第3のエントロピー復号モデルに入力して、第1の出力結果を取得する前記ステップが、
前記第3のエントロピー復号モデルおよび前記第3のエントロピー復号モデルの状態変数に基づいて、前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得するステップと、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得するステップであって、前記第1の出力結果の分解能は、前記s番目のサブバンドに対応する前記再構成されたサブバンドの前記分解能と同じである、ステップと、を含み、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得する前記ステップの後に、前記方法は、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するステップであって、前記サンプリングされた状態変数の分解能は前記s番目のサブバンドの前記分解能と同じである、ステップ
をさらに含む、請求項15に記載の方法。
【請求項17】
畳み込み層C1および畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得する前記ステップが、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、前記第1の畳み込みカーネルが、前記畳み込み層C1に対応する畳み込みカーネルである、ステップと、
前記窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドに対応する前記再構成されたサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、
第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、前記畳み込み層C2が前記第2の復号/符号化モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、
前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するステップと、
を含む、請求項15または16に記載の方法。
【請求項18】
畳み込み層C1および畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得する前記ステップが、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、前記第1の畳み込みカーネルが、前記畳み込み層C1に対応する畳み込みカーネルである、ステップと、
第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するステップであって、前記第2の畳み込みカーネルが前記畳み込み層C2に対応する畳み込みカーネルであり、前記第1の窓関数および前記第2の窓関数が互いに相補的である、ステップと、
前記窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドに対応する前記再構成されたサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、
前記窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、前記畳み込み層C2が前記第2の復号/符号化モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、
前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するステップと、
を含む、請求項15または16に記載の方法。
【請求項19】
ウェーブレット変換モデルに基づいて前記量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得する前記ステップが、
t番目の逆ウェーブレット変換を実行するとき、近似サブバンドP
N+1-tおよび詳細サブバンドI
(N+1-t)1に対して更新演算および予測演算を実行して、第1の処理されたサブバンドおよび第2の処理されたサブバンドを取得し、前記第1の処理されたサブバンドおよび前記第2の処理されたサブバンドに基づいて中間近似成分を取得するステップであって、前記中間近似成分の奇数列係数または奇数行係数は前記第1の処理されたサブバンドに由来し、前記中間近似成分の偶数列係数または偶数行係数は前記第2の処理されたサブバンドに由来する、ステップと、
詳細サブバンドI
(N+1-t)2および詳細サブバンドI
(N+1-t)3に対して前記更新演算および前記予測演算を実行して、第3の処理されたサブバンドおよび第4の処理されたサブバンドを取得し、前記第3の処理されたサブバンドおよび前記第4の処理されたサブバンドに基づいて中間詳細成分を取得するステップであって、前記中間詳細成分の奇数列係数または偶数行係数は前記第3の処理されたサブバンドに由来し、前記中間詳細成分の偶数列係数または偶数行係数は前記第4の処理されたサブバンドに由来する、ステップと、
前記中間詳細成分および前記中間近似成分に対して前記更新演算および前記予測演算を実行して、第5の処理されたサブバンドおよび第6の処理されたサブバンドを取得し、前記第5の処理されたサブバンドおよび前記第6の処理されたサブバンドに基づいて近似サブバンドP
t-1を取得するステップであって、前記近似サブバンドP
t-1の奇数行係数または奇数列係数は前記第5の処理されたサブバンドに由来し、前記近似サブバンドP
t-1の偶数行係数または偶数列係数は前記第6の処理されたサブバンドに由来する、ステップと、
を含み、
前記詳細サブバンドI
(N+1-t)1、前記詳細サブバンドI
(N+1-t)2、および前記詳細サブバンドI
(N+1-t)3の分解能は、前記近似サブバンドP
N+1-tの分解能と同じであり、前記t番目の逆ウェーブレット変換が最後のウェーブレット変換であるとき、前記近似サブバンドP
t-1は前記再構成画像である、請求項11から18のいずれか一項に記載の方法。
【請求項20】
前記予測演算が、前記CNNに基づいて実現され、
前記更新演算が、前記CNNに基づいて実現され、または
前記更新演算および前記予測演算の両方が、前記CNNに基づいて実現された、請求項19に記載の方法。
【請求項21】
ウェーブレット変換モデルに基づいて前記量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得する前記ステップの後に、前記方法は、
後処理モデルに基づいて前記再構成画像に対して後処理を実行して、処理された再構成画像を取得するステップであって、前記後処理モデルが深層ニューラルネットワークに基づいて実現された、ステップ
をさらに含む、請求項11、19または20に記載の方法。
【請求項22】
ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得するように構成された変換モジュールであって、前記ウェーブレット変換モデルは畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nは0より大きい整数である、変換モジュールと、
前記ウェーブレット係数を量子化して、量子化されたウェーブレット係数を取得するように構成された量子化モジュールと、
前記量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得するように構成されたエントロピー符号化モジュールと、
を備える画像符号化装置。
【請求項23】
前記変換モジュールは、具体的には、
i番目のウェーブレット変換を実行するとき、サブバンドXを分解して、奇数サンプル成分および偶数サンプル成分を取得するように構成され、前記奇数サンプル成分は、前記サブバンドX内の奇数行係数または奇数列係数を含み、前記偶数サンプル成分は、前記サブバンドX内の偶数行係数または偶数列係数を含み、
前記変換モジュールは、前記偶数サンプル成分および前記奇数サンプル成分に対して更新演算および予測演算を実行して、中間近似成分および中間詳細成分を取得し、
前記中間近似成分を分解して、第1のサンプル成分および第2のサンプル成分を取得するように構成され、前記第1のサンプル成分は前記中間近似成分の奇数列係数または奇数行係数を含み、前記第2のサンプル成分は前記中間近似成分の偶数列係数または偶数行係数を含み、
前記変換モジュールは、前記中間詳細成分を分解して、第3のサンプル成分および第4のサンプル成分を取得するように構成され、前記第3のサンプル成分は、前記中間詳細成分の奇数行係数または奇数行係数を含み、前記第4のサンプル成分は、前記中間詳細成分の偶数列係数または偶数行係数を含み、
前記変換モジュールは、前記第1のサンプル成分および前記第2のサンプル成分に対して前記更新演算および前記予測演算を実行して、近似サブバンドP
iおよび詳細サブバンドI
i1を取得し、
前記第3のサンプル成分および前記第4のサンプル成分に対して前記更新演算および前記予測演算を実行して、詳細サブバンドI
i2および詳細サブバンドI
i3を取得するように構成され、
前記ウェーブレット係数は、前記近似サブバンドP
i、前記詳細サブバンドI
i1、前記詳細サブバンドI
i2、および前記詳細サブバンドI
i3を含み、前記i番目のウェーブレット変換が第1のウェーブレット変換であるとき、前記サブバンドXは前記符号化対象画像であり、または前記i番目のウェーブレット変換が第1のウェーブレット変換でないとき、前記サブバンドXは近似サブバンドP
i-1であり、前記近似サブバンドP
i-1は(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドである、請求項22に記載の装置。
【請求項24】
前記予測演算が、前記CNNに基づいて実現され、
前記更新演算が、前記CNNに基づいて実現され、または
前記予測演算および前記更新演算の両方が、前記CNNに基づいて実現された、請求項23に記載の装置。
【請求項25】
前記エントロピー符号化モジュールは、具体的には、
エントロピー符号化モデルに基づいて前記量子化されたウェーブレット係数を符号化して、前記圧縮されたビットストリームを取得するように構成され、前記エントロピー符号化モデルは深層ニューラルネットワークに基づいて実現された、請求項22から24のいずれか一項に記載の装置。
【請求項26】
前記ウェーブレット係数は3N+1個のサブバンドを含み、前記エントロピー符号化モジュールは、具体的には、
前記エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するように構成され、前記符号化対象係数は、前記s番目のサブバンド内の任意の係数であり、前記s番目のサブバンドは、前記3N+1個のサブバンドのうちの任意の1つであり、
前記エントロピー符号化モジュールは、前記符号化対象係数の前記累積確率分布関数の前記パラメータに基づいて前記累積確率分布関数を取得し、
前記符号化対象係数および前記符号化対象係数の前記累積確率分布関数に基づいて、前記符号化対象係数の確率分布を取得し、
算術エンコーダを使用して前記符号化対象係数の前記確率分布に基づいて前記符号化対象係数に対してエントロピー符号化を実行して、前記符号化対象係数に対応するビットストリームを取得するように構成され、前記圧縮されたビットストリームは、前記符号化対象係数に対応する前記ビットストリームを含む、請求項25に記載の装置。
【請求項27】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドであるとき、前記エントロピー符号化モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、前記エントロピー符号化モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、前記エントロピー符号化モデルに前記s番目のサブバンドを入力して、計算によって前記符号化対象係数の前記累積確率分布関数の前記パラメータを取得するとき、前記エントロピー符号化モジュールは、具体的には、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、前記第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得し、
前記第1の窓処理された畳み込みカーネルに基づいて前記s番目のサブバンドに対して畳み込み演算を実行して、前記符号化対象係数の前記累積確率分布関数の前記パラメータを取得し、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、前記j番目の畳み込み層に対応する窓関数に基づいて、前記j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得し、
前記第2の窓処理された畳み込みカーネルに基づいて前記j番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するように構成され、
jが1に等しいとき、前記j番目の畳み込み層の前記入力データは前記第1のサブバンドであり、jが1より大きく、かつMより大きくないとき、前記j番目の畳み込み層の前記入力データは、(j-1)番目の畳み込み層の出力データであり、またはjがMに等しいとき、前記j番目の出力データは、前記符号化対象係数の前記累積確率分布関数の前記パラメータを含む、請求項26に記載の装置。
【請求項28】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドではないとき、前記エントロピー符号化モデルは、第1のエントロピー符号化モデル、第2のエントロピー符号化モデル、および第3のエントロピー符号化モデルを含み、前記第1のエントロピー符号化モデルおよび前記第2のエントロピー符号化モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、前記第3のエントロピー符号化モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、前記第1のエントロピー符号化モデルはT1個の畳み込み層を含み、前記第2のエントロピー符号化モデルはT2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数である、ように具体的には構成され、前記エントロピー符号化モデルに前記s番目のサブバンドを入力して、計算によって前記符号化対象係数の前記累積確率分布関数の前記パラメータを取得するとき、前記エントロピー符号化モジュールは、具体的には、
(s-1)番目のサブバンドを計算のために前記第3のエントロピー符号化モデルに入力して、第1の出力結果を取得するように構成され、前記第1の出力結果は前記第2のエントロピー符号化モデルの入力データであり、前記s番目のサブバンドは前記第1のエントロピー符号化モデルの入力データであり、
前記エントロピー符号化モジュールは、T1およびT2の両方が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して第2の出力結果を取得するように構成され、前記第2の出力結果は、前記符号化対象係数の前記累積確率分布関数の前記パラメータであり、前記畳み込み層C1および前記畳み込み層C2は、それぞれ前記第1のエントロピー符号化モデルおよび前記第2のエントロピー符号化モデルにおける畳み込み層であり、または
前記エントロピー符号化モジュールは、T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、前記畳み込み層C1は、前記第1のエントロピー符号化モデルにおけるq番目の畳み込み層であり、前記畳み込み層C2は、前記第2のエントロピー符号化モデルにおける畳み込み層であり、qがT1に等しいならば、前記第2の出力結果は、前記符号化対象係数の前記累積確率分布関数の前記パラメータであり、またはqが0より大きく、かつT1より小さいならば、前記第2の出力結果は、前記第1のエントロピー符号化モデルにおける(q+1)番目の畳み込み層の入力データであり、または
前記エントロピー符号化モジュールは、T1およびT2の両方が1より大きいとき、畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、前記畳み込み層C1は、前記第1のエントロピー符号化モデルにおけるq1番目の畳み込み層であり、前記畳み込み層C2は、前記第2のエントロピー符号化モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、かつq2がT2に等しいならば、前記第2の出力結果は、前記符号化対象係数の前記累積確率分布関数の前記パラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、前記第2の出力結果は、前記第1のエントロピー符号化モデルにおける(q1+1)番目の畳み込み層の入力データであり、前記畳み込み層C2の出力結果は、前記第2のエントロピー符号化モデルにおける(q2+1)番目の畳み込み層の入力データである、請求項27に記載のエントロピー符号化モジュール。
【請求項29】
前記(s-1)番目のサブバンドの分解能が前記s番目のサブバンドの分解能と異なるとき、前記(s-1)番目のサブバンドを計算のために前記第3のエントロピー符号化モデルに入力して、前記第1の出力結果を取得するとき、前記エントロピー符号化モジュールは、具体的には、
前記第3のエントロピー符号化モデルおよび前記第3のエントロピー符号化モデルの状態変数に基づいて、前記(s-1)番目のサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得し、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得するように構成され、前記第1の出力結果の分解能は前記s番目のサブバンドの前記分解能と同じであり、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得した後に、前記エントロピー符号化モジュールは、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するようにさらに構成され、前記サンプリングされた状態変数の分解能は、前記s番目のサブバンドの前記分解能と同じである、請求項28に記載の方法。
【請求項30】
前記畳み込み層C1および前記畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して前記結合演算を実行するとき、前記エントロピー符号化モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、前記第1の畳み込みカーネルは、前記畳み込み層C1に対応する畳み込みカーネルであり、
前記エントロピー符号化モジュールは、前記窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対して畳み込み演算を実行することによって取得され、
前記エントロピー符号化モジュールは、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得され、
前記エントロピー符号化モジュールは、前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するように構成された、請求項28または29に記載の方法。
【請求項31】
前記畳み込み層C1および前記畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して前記結合演算を実行して、前記第2の出力結果を取得するとき、前記エントロピー符号化モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、前記第1の畳み込みカーネルは、前記畳み込み層C1に対応する畳み込みカーネルであり、
前記エントロピー符号化モジュールは、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するように構成され、前記第2の畳み込みカーネルは前記畳み込み層C2に対応する畳み込みカーネルであり、前記第1の窓関数および前記第2の窓関数は互いに相補的であり、
前記エントロピー符号化モジュールは、前記窓処理された第1の畳み込みカーネルに基づいて前記s番目のサブバンドに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対して畳み込み演算を実行することによって取得され、
前記エントロピー符号化モジュールは、前記窓処理された第2の畳み込みカーネルに基づいて前記第1の出力結果に対して畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得され、
前記エントロピー符号化モジュールは、前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するように構成された、請求項28または29に記載の装置。
【請求項32】
圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するように構成されたエントロピー復号モジュールと、
前記再構成されたウェーブレット係数を量子化解除して、量子化解除されたウェーブレット係数を取得するように構成された量子化解除モジュールと、
ウェーブレット変換モデルに基づいて前記量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得するように構成された逆変換モジュールであって、前記ウェーブレット変換モデルが畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nが0より大きい整数である、逆変換モジュールと、
を備える画像復号装置。
【請求項33】
前記エントロピー復号モジュールは、具体的には、
エントロピー復号モデルに基づいて前記圧縮されたビットストリームに対してエントロピー復号を実行して、前記再構成されたウェーブレット係数を取得するように構成され、前記エントロピー復号モデルは深層ニューラルネットワークに基づいて実現された、請求項32に記載の装置。
【請求項34】
前記圧縮されたビットストリームは3N+1個のサブバンドのビットストリームを含み、前記再構成されたウェーブレット係数は3N+1個の再構成されたサブバンドを含み、前記エントロピー復号モジュールは、具体的には、
s番目のサブバンドに対応する再構成されたサブバンドを前記エントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するように構成され、前記復号対象係数のビットストリームは前記s番目のサブバンドのビットストリームの一部であり、前記s番目のサブバンドに対応する前記再構成されたサブバンドは、前記3N+1個の再構成されたサブバンドのうちの任意の1つであり、
前記エントロピー復号モジュールは、前記復号対象係数の前記累積確率分布関数の前記パラメータに基づいて前記復号対象係数の前記累積確率分布関数を取得し、
前記復号対象係数および前記復号対象係数の前記累積確率分布関数に基づいて、前記復号対象係数の確率分布を取得し、
前記復号対象係数の前記確率分布に基づいて、算術デコーダを使用して前記復号対象係数の前記ビットストリームに対してエントロピー復号を実行して、前記復号対象係数を取得するように構成され、前記3N+1個の再構成されたサブバンドが前記復号対象係数を含む、請求項33に記載の装置。
【請求項35】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドであるとき、前記エントロピー復号モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、前記エントロピー復号モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、前記s番目のサブバンドに対応する前記再構成されたサブバンドを前記エントロピー復号モデルに入力して、計算によって前記復号対象係数の前記累積確率分布関数の前記パラメータを取得するとき、前記エントロピー復号モジュールは、具体的には、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、前記第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得し、
前記第1の窓処理された畳み込みカーネルに基づいて、前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行して、前記復号対象係数の前記累積確率分布関数の前記パラメータを取得し、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、前記j番目の畳み込み層に対応する窓関数に基づいて、前記j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得し、
前記第2の窓処理された畳み込みカーネルに基づいて前記j番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するように構成され、
jが1に等しいとき、前記j番目の畳み込み層の前記入力データは、前記第1のサブバンドに対応する再構成されたサブバンドであり、jが1より大きく、かつMより大きくないとき、前記j番目の畳み込み層の前記入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しいとき、前記j番目の出力データは前記復号対象係数の前記累積確率分布関数の前記パラメータを含む、
請求項34に記載の装置。
【請求項36】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドではないとき、前記エントロピー復号モデルは、第1のエントロピー復号モデル、第2のエントロピー復号モデル、および第3のエントロピー復号モデルを含み、前記第1のエントロピー復号モデルおよび前記第3のエントロピー復号モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、前記第3のエントロピー復号モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、前記第1のエントロピー復号モデルはT1個の畳み込み層を含み、前記第2のエントロピー復号モデルはT2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、前記s番目のサブバンドに対応する前記再構成されたサブバンドを前記エントロピー復号モデルに入力して、計算によって前記復号対象係数の前記累積確率分布関数の前記パラメータを取得するとき、前記エントロピー復号モジュールは、具体的には、
(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために前記第3のエントロピー復号モデルに入力して、第1の出力結果を取得するように構成され、前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドは、前記(s-1)番目のサブバンドのビットストリームに対してエントロピー復号を実行することによって取得され、前記第1の出力結果は、前記第2のエントロピー復号モデルの入力データであり、前記s番目のサブバンドに対応する前記再構成されたサブバンドは、前記第1のエントロピー復号モデルの入力データであり、
前記エントロピー復号モジュールは、T1およびT2の両方が1に等しいとき、畳み込み層C1と畳み込み層C2とに基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、前記第2の出力結果は、前記復号対象係数の前記累積確率分布関数の前記パラメータであり、前記畳み込み層C1および前記畳み込み層C2は、それぞれ前記第1のエントロピー復号モデルおよび前記第2のエントロピー復号モデルにおける畳み込み層であり、
前記エントロピー復号モジュールは、T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、前記畳み込み層C1は前記第1のエントロピー復号モデルにおけるq番目の畳み込み層であり、前記畳み込み層C2は前記第2のエントロピー復号モデルにおける畳み込み層であり、qがT1に等しいならば、前記第2の出力結果は前記復号対象係数の前記累積確率分布関数の前記パラメータであり、またはqが0より大きく、かつT1より小さいならば、前記第2の出力結果は前記第1のエントロピー復号モデルにおける(q+1)番目の畳み込み層の入力データであり、または
前記エントロピー復号モジュールは、T1およびT2の両方が1より大きいとき、畳み込み層C1と畳み込み層C2とに基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、前記畳み込み層C1は前記第1のエントロピー復号モデルにおけるq1番目の畳み込み層であり、前記畳み込み層C2は前記第2のエントロピー復号モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、かつq2がT2に等しいならば、前記第2の出力結果は前記復号対象係数の前記累積確率分布関数の前記パラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、前記第2の出力結果は前記第1のエントロピー復号モデルにおける(q1+1)番目の畳み込み層の入力データであり、前記畳み込み層C2の出力結果は、前記第2のエントロピー復号モデルにおける(q2+1)番目の畳み込み層の入力データである、請求項34に記載の装置。
【請求項37】
前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドの分解能が前記s番目のサブバンドに対応する前記再構成されたサブバンドの分解能と異なるとき、前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドを計算のために前記第3のエントロピー復号モデルに入力して、前記第1の出力結果を取得するとき、前記エントロピー復号モジュールは、具体的には、
前記第3のエントロピー復号モデルおよび前記第3のエントロピー復号モデルの状態変数に基づいて、前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得し、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得するように構成され、前記第1の出力結果の分解能は、前記s番目のサブバンドに対応する前記再構成されたサブバンドの前記分解能と同じであり、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得した後に、前記エントロピー復号モジュールは、具体的には、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するようにさらに構成され、前記サンプリングされた状態変数の分解能は、前記s番目のサブバンドの前記分解能と同じである、請求項36に記載の装置。
【請求項38】
前記畳み込み層C1および前記畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して前記結合演算を実行して、前記第2の出力結果を取得するとき、前記エントロピー復号モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、前記第1の畳み込みカーネルは、前記畳み込み層C1に対応する畳み込みカーネルであり、
前記エントロピー復号モジュールは、前記窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドに対応する前記再構成されたサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行することによって取得され、
前記エントロピー復号モジュールは、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、前記畳み込み層C2が前記第2の復号/符号化モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得され、
前記エントロピー復号モジュールは、前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するように構成された、請求項36または37に記載の装置。
【請求項39】
前記畳み込み層C1および前記畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して前記結合演算を実行して、前記第2の出力結果を取得するとき、前記エントロピー復号モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、前記第1の畳み込みカーネルは、前記畳み込み層C1に対応する畳み込みカーネルであり、
前記エントロピー復号モジュールは、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するように構成され、前記第2の畳み込みカーネルは前記畳み込み層C2に対応する畳み込みカーネルであり、前記第1の窓関数および前記第2の窓関数は互いに相補的であり、
前記エントロピー復号モジュールは、前記窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドに対応する前記再構成されたサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行することによって取得され、
前記エントロピー復号モジュールは、前記窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、前記畳み込み層C2が前記第2の復号/符号化モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得され、
前記エントロピー復号モジュールは、前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するように構成された、請求項36または37に記載の装置。
【請求項40】
前記逆変換モジュールは、具体的には、
t番目の逆ウェーブレット変換を実行するとき、近似サブバンドP
N+1-tおよび詳細サブバンドI
(N+1-t)1に対して更新演算および予測演算を実行して、第1の処理されたサブバンドおよび第2の処理されたサブバンドを取得し、前記第1の処理されたサブバンドおよび前記第2の処理されたサブバンドに基づいて中間近似成分を取得するように構成され、前記中間近似成分の奇数列係数または奇数行係数は前記第1の処理されたサブバンドに由来し、前記中間近似成分の偶数列係数または偶数行係数は前記第2の処理されたサブバンドに由来し、
前記逆変換モジュールは、詳細サブバンドI
(N+1-t)2および詳細サブバンドI
(N+1-t)3に対して前記更新演算および前記予測演算を実行して、第3の処理されたサブバンドおよび第4の処理されたサブバンドを取得し、前記第3の処理されたサブバンドおよび前記第4の処理されたサブバンドに基づいて中間詳細成分を取得するように構成され、前記中間詳細成分の奇数列係数または偶数行係数は前記第3の処理されたサブバンドに由来し、前記中間詳細成分の偶数列係数または偶数行係数は前記第4の処理されたサブバンドに由来し、
前記逆変換モジュールは、前記中間詳細成分および前記中間近似成分に対して前記更新演算および前記予測演算を実行して、第5の処理されたサブバンドおよび第6の処理されたサブバンドを取得し、前記第5の処理されたサブバンドおよび前記第6の処理されたサブバンドに基づいて近似サブバンドP
t-1を取得するように構成され、前記近似サブバンドP
t-1の奇数行係数または奇数列係数は前記第5の処理されたサブバンドに由来し、前記近似サブバンドP
t-1の偶数行係数または偶数列係数は前記第6の処理されたサブバンドに由来し、
前記詳細サブバンドI
(N+1-t)1、前記詳細サブバンドI
(N+1-t)2、および前記詳細サブバンドI
(N+1-t)3の分解能は、前記近似サブバンドP
N+1-tの分解能と同じであり、前記t番目の逆ウェーブレット変換が最後のウェーブレット変換であるとき、前記近似サブバンドP
t-1は前記再構成画像である、請求項32から39のいずれか一項に記載の装置。
【請求項41】
前記予測演算が、前記CNNに基づいて実現され、
前記更新演算が、前記CNNに基づいて実現され、または
前記更新演算と前記予測演算の両方が、前記CNNに基づいて実現された、請求項40に記載の装置。
【請求項42】
前記装置は、
前記逆変換モジュールが、前記ウェーブレット変換モデルに基づいて前記量子化解除されたウェーブレット係数に対して前記N個の逆ウェーブレット変換を実行して、前記再構成画像を取得した後に、後処理モデルに基づいて前記再構成画像に対して後処理を実行して、処理された再構成画像を取得するように構成された後処理モジュールであって、前記後処理モデルが深層ニューラルネットワークに基づいて実現された、後処理モジュール
をさらに備える、請求項23、40、または41に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2019年7月15日に中国国家知識産権局に出願された、発明の名称を「ウェーブレット変換に基づく画像符号化/復号方法および装置」とする中国特許出願第201910639304.5号の優先権を主張し、参照によりその全体が本明細書に組み入れられる。
【0002】
本発明は、画像符号化/復号の分野に関し、特に、ウェーブレット変換に基づく画像符号化/復号方法および装置に関する。
【背景技術】
【0003】
デジタル画像は、デジタル信号として記録された画像情報である。デジタル画像(以下、画像と呼ぶ)は、M×N個のサンプルを含むM行およびN列の2次元アレイと考えることができ、各サンプルの位置をサンプル位置と呼び、各サンプルの値をサンプル値と呼ぶ。
【0004】
画像保存や伝送などの用途では、通常、記憶容量や伝送帯域幅を削減するために画像符号化処理を実行する必要がある。典型的な画像符号化プロセスは、一般に、変換、量子化、およびエントロピー符号化の3つのステップを含む。符号化対象画像の場合、第1のステップは、より集中したエネルギー分布を有する変換係数を取得するために、変換を実行することによって符号化対象画像を非相関化することである。第2のステップは、量子化係数を取得するために、変換係数を量子化することである。第3のステップは、圧縮されたビットストリームを取得するために、量子化された係数に対してエントロピー符号化を実行することである。
【0005】
画像符号化に使用される一般的な変換モードは、離散コサイン変換、ウェーブレット変換などである。ウェーブレット変換は、画像の定位やマルチスケール解析を行い、信号変化の詳細に着目することができる局所変換方法であり、画像符号化タスクに非常に適している。
【0006】
異なるウェーブレット変換は、異なるフィルタ係数を指す。従来のウェーブレット変換のフィルタ係数は、一般に、理想的な仮定の下での信号処理の観点から設計される。このようにして取得されたウェーブレット変換は、自然画像の複雑さや多様性に適応することができない。また、2次元ウェーブレット変換は、行方向および列方向の1次元ウェーブレット変換の組み合わせを含み、行方向および列方向の特徴を処理するのに適しているが、他の方向の特徴および無指向性の特徴を処理することができない。
【0007】
前述の欠点を考慮して、従来技術ではいくつかの解決策が提案されている。例えば、信号処理分野では、Curvelet、Ridgelet、Contourlet、Bandelet、Shearletなどの複数の指向性ウェーブレットが提案され、設計されている。符号化中、ウェーブレット係数を取得するために、まず指向性ウェーブレットを使用して画像に対してウェーブレット変換が実行される。次いで、圧縮されたビットストリームを取得するために、ウェーブレット係数に対して量子化およびエントロピー符号化が実行される。画像復号中、再構成されたウェーブレット係数を取得するために、まずエントロピー復号および量子化解除が圧縮されたビットストリームに対して実行される。次いで、再構成画像を取得するために、逆方向ウェーブレット変換が実行される。指向性ウェーブレットの基本的な概念は、有限の指向性基底関数のグループを設計することである。しかしながら、任意の方向の空間相関は、本質的にコンパクトに表現することができない。さらに、指向性ウェーブレットは、一般に、ある量の冗長係数を生成し、指向性ウェーブレットを画像符号化に適用することは、圧縮比を改善するのに役立たない。最後に、指向性ウェーブレットは、画像内の異なる指向性特徴のみを処理し、自然な画像特徴の多様性および複雑性と、人工的に設計されたウェーブレット基底関数の理想性および単純性との間の矛盾を解決しない。したがって、指向性ウェーブレットが画像符号化に適用される場合、画像符号化効率は高くない。
【0008】
別の例は、適応指向性ウェーブレットに基づく画像符号化方法である。方法は、画像符号化においてブロック分割の概念を使用し、画像ブロックを符号化するとき、複数の方向のウェーブレット変換を試みることによって画像ブロックに最も適した方向パラメータを選択する。次に、画像ブロック内の特定の方向の特徴を処理するために、ウェーブレット基底関数を対応する方向に回転させ、ウェーブレット係数を取得するために変換ステップが実装され、サブバンド符号化方法を使用してウェーブレット係数を符号化することによって圧縮されたビットストリームが取得される。加えて、方向パラメータは、通常の復号プロセスをサポートするために圧縮されたビットストリームに書き込まれる。復号中、再構成されたウェーブレット係数を取得するために、まず圧縮されたビットストリームに対してエントロピー復号および量子化解除が実行され、圧縮されたビットストリームから方向パラメータが抽出される。再構成画像が取得するために、再構成されたウェーブレット係数および方向パラメータを使用して適応逆方向ウェーブレット変換が実行される。適応指向性ウェーブレットは、画像自体の指向特性に基づいて対応する方向のウェーブレット基底関数を適応的に選択することができるが、指向性ウェーブレットが有限基底関数のみを使用することができるという欠点は克服される。しかしながら、ブロック分割に基づく方向パラメータ選択は、複数の符号化決定プロセスに依存する。したがって、符号化の複雑さが大幅に増大する。加えて、適応指向性ウェーブレットは、依然として、自然な画像特徴の多様性および複雑性と、人工的に設計されたウェーブレット基底関数の理想性および単純性との間の矛盾を解決しない。
【0009】
要約すると、従来技術における画像符号化・復号の効率は低く、自然画像特徴の多様性および複雑性と人工的に設計されたウェーブレット基底関数の理想性および単純性との間の矛盾を解決することができない。
【発明の概要】
【課題を解決するための手段】
【0010】
本発明の実施形態は、ウェーブレット変換に基づく画像符号化/復号方法および装置を提供する。本発明の実施形態は、画像符号化・復号の効率を改善し、自然画像特徴の多様性および複雑性と人工的に設計されたウェーブレット基底関数の理想性および単純性との間の矛盾を解決するために使用される。
【0011】
第1の態様によれば、本発明の一実施形態は、ウェーブレット変換に基づく画像符号化/復号方法を提供し、方法は、
ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得するステップであって、ウェーブレット変換モデルは畳み込みニューラルネットワーク(convolutional neural network(CNN))に基づいて実現され、Nは0より大きい整数である、ステップと、ウェーブレット係数を量子化して、量子化されたウェーブレット係数を取得するステップと、量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得するステップと、を含む。
【0012】
符号化対象画像に対するウェーブレット変換には、CNNに基づいて実現されたウェーブレット変換モデルが用いられる。深層ニューラルネットワークに基づくウェーブレット変換モデルは、訓練方法を用いて大量の自然画像を使用することによる最適化によって取得されるので、深層ニューラルネットワークに基づくウェーブレット変換モデルは、従来のウェーブレット変換よりもコンパクトな変換ドメイン表現を提供することができ、それによって符号化・復号性能を大幅に改善することができる。
【0013】
実現可能な実施形態では、ウェーブレット係数は3N+1個のサブバンドを含み、ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得するステップは、
i番目のウェーブレット変換を実行するとき、サブバンドXを分解して、奇数サンプル成分および偶数サンプル成分を取得するステップであって、奇数サンプル成分は、サブバンドX内の奇数行係数または奇数列係数を含み、偶数サンプル成分は、サブバンドX内の偶数行係数または偶数列係数を含む、ステップと、
偶数サンプル成分および奇数サンプル成分に対して更新演算および予測演算を実行して、中間近似成分および中間詳細成分を取得するステップと、
中間近似成分を分解して、第1のサンプル成分および第2のサンプル成分を取得するステップであって、第1のサンプル成分は中間近似成分の奇数列係数または奇数行係数を含み、第2のサンプル成分は中間近似成分の偶数列係数または偶数行係数を含む、ステップと、
中間詳細成分を分解して、第3のサンプル成分および第4のサンプル成分を取得するステップであって、第3のサンプル成分は中間詳細成分の奇数行係数または奇数行係数を含み、第4のサンプル成分は中間詳細成分の偶数列係数または偶数行係数を含む、ステップと、
第1のサンプル成分および第2のサンプル成分に対して更新演算および予測演算を実行して、近似サブバンドPiおよび詳細サブバンドIi1を取得するステップと、第3のサンプル成分および第4のサンプル成分に対して更新演算および予測演算を実行して、詳細サブバンドIi2および詳細サブバンドIi3を取得するステップと、
を含み、
ウェーブレット係数は、近似サブバンドPi、詳細サブバンドIi1、詳細サブバンドIi2、および詳細サブバンドIi3を含み、i番目のウェーブレット変換が第1のウェーブレット変換であるとき、サブバンドXは符号化対象画像であり、またはi番目のウェーブレット変換が第1のウェーブレット変換でないとき、サブバンドXは近似サブバンドPi-1であり、近似サブバンドPi-1は(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドである。
【0014】
符号化対象画像に対するウェーブレット変換には、CNNに基づいて実現されたウェーブレット変換モデルが用いられる。ウェーブレット変換モデルの機能をGPUを用いて実現するとき、ウェーブレット変換モデルは、従来のウェーブレット変換と同等の速度を有する。複数の符号化試行を通して最適な方向パラメータを選択する適応指向性ウェーブレットと比較して、ウェーブレット変換モデルは、時間の複雑さが低いという利点を有し、自然画像特徴の多様性と複雑さとの間の矛盾、および人工的に設計されたウェーブレット基底関数の理想性と単純さを解決する。
【0015】
実現可能な実施形態では、予測演算がCNNに基づいて実現され、更新演算がCNNに基づいて実現され、または予測演算と更新演算の両方が、CNNに基づいて実現される。
【0016】
実現可能な実施形態では、量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得するステップは、
エントロピー符号化モデルに基づいて量子化されたウェーブレット係数を符号化して、圧縮されたビットストリームを取得するステップであって、エントロピー符号化モデルは深層ニューラルネットワークに基づいて実現された、ステップ
を含む。
【0017】
実現可能な実施形態では、ウェーブレット係数は3N+1個のサブバンドを含み、エントロピー符号化モデルに基づいて量子化されたウェーブレット係数を符号化して、圧縮されたビットストリームを取得するステップは、
エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するステップであって、符号化対象係数はs番目のサブバンド内の任意の係数であり、s番目のサブバンドは3N+1個のサブバンドのうちの任意の1つである、ステップと、符号化対象係数の累積確率分布関数のパラメータに基づいて累積確率分布関数を取得するステップと、符号化対象係数および符号化対象係数の累積確率分布関数に基づいて符号化対象係数の確率分布を取得するステップと、算術エンコーダを使用して符号化対象係数の確率分布に基づいて符号化対象係数に対してエントロピー符号化を実行して、符号化対象係数に対応するビットストリームを取得するステップであって、圧縮されたビットストリームは、符号化対象係数に対応するビットストリームを含む、ステップと、を含む。
【0018】
量子化されたウェーブレット係数が符号化されるとき、深層ニューラルネットワークに基づくエントロピー符号化モデルが符号化に使用される。従来技術と比較して、画像の圧縮比性能を向上させることができる。
【0019】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドであるとき、エントロピー符号化モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー符号化モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するステップは、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得するステップと、第1の窓処理された畳み込みカーネルに基づいてs番目のサブバンドに対して畳み込み演算を実行して、符号化対象係数の累積確率分布関数のパラメータを取得するステップ、または、Mが1より大きいとき、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得するステップと、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するステップと、
を含み、
jが1に等しいとき、j番目の畳み込み層の入力データは第1のサブバンドであり、jが1より大きく、かつMより大きくないとき、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しいとき、j番目の出力データは、符号化対象係数の累積確率分布関数のパラメータを含む。
【0020】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドでないとき、エントロピー符号化モデルは、第1のエントロピー符号化モデル、第2のエントロピー符号化モデル、および第3のエントロピー符号化モデルを含み、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー符号化モデルは、リカレントニューラルネットワーク(recurrent neural network(RNN))に基づいて実現され、第1のエントロピー符号化モデルは、T1個の畳み込み層を含み、第2のエントロピー符号化モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するステップは、
(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力して、第1の出力結果を取得するステップであって、第1の出力結果は第2のエントロピー符号化モデルの入力データであり、s番目のサブバンドは第1のエントロピー符号化モデルの入力データである、ステップと、
T1およびT2の両方が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、第2の出力結果が、符号化対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2が、それぞれ第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルにおける畳み込み層である、ステップ、または
T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、畳み込み層C1が、第1のエントロピー符号化モデルにおけるq番目の畳み込み層であり、畳み込み層C2が、第2のエントロピー符号化モデルにおける畳み込み層であり、qがT1に等しいならば、第2の出力結果が、符号化対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、かつT1より小さいならば、第2の出力結果が、第1のエントロピー符号化モデルにおける(q+1)番目の畳み込み層の入力データである、ステップ、または
T1およびT2の両方が1より大きいとき、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、畳み込み層C1が第1のエントロピー符号化モデルにおけるq1番目の畳み込み層であり、畳み込み層C2が第2のエントロピー符号化モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、q2がT2に等しいならば、第2の出力結果が符号化対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、第2の出力結果が第1のエントロピー符号化モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー符号化モデルにおける(q2+1)番目の畳み込み層の入力データである、ステップと、
を含む。
【0021】
実現可能な実施形態では、(s-1)番目のサブバンドの分解能がs番目のサブバンドの分解能と異なるとき、(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力して、第1の出力結果を取得するステップは、
第3のエントロピー符号化モデルおよび第3のエントロピー符号化モデルの状態変数に基づいて、(s-1)番目のサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得するステップと、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得するステップであって、第1の出力結果の分解能はs番目のサブバンドの分解能と同じである、ステップと、
を含み、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得するステップの後に、方法は、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するステップであって、サンプリングされた状態変数の分解能はs番目のサブバンドの分解能と同じである、ステップ
をさらに含む。
【0022】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行することは、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第1の入力データは、s番目のサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するステップと、を含む。
【0023】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップは、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、
第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するステップであって、第2の畳み込みカーネルが畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数が互いに相補的である、ステップと、
窓処理された第1の畳み込みカーネルに基づいてs番目のサブバンドに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第1の入力データは、s番目のサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、窓処理された第2の畳み込みカーネルに基づいて第1の出力結果に対して畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するステップと、を含む。
【0024】
第2の態様によれば、本発明の一実施形態は、ウェーブレット変換に基づく画像復号方法を提供し、方法は、
圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するステップと、再構成されたウェーブレット係数を量子化解除して、量子化解除されたウェーブレット係数を取得するステップと、ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得するステップであって、ウェーブレット変換モデルは畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nは0より大きい整数である、ステップと、
を含む。
【0025】
実現可能な実施形態では、圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するステップは、
エントロピー復号モデルに基づいて圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するステップであって、エントロピー復号モデルは深層ニューラルネットワークに基づいて実現された、ステップ
を含む。
【0026】
実現可能な実施形態では、圧縮されたビットストリームは3N+1個のサブバンドのビットストリームを含み、再構成されたウェーブレット係数は3N+1個の再構成されたサブバンドを含み、エントロピー復号モデルに基づいて圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するステップは、
s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するステップであって、復号対象係数のビットストリームはs番目のサブバンドのビットストリームの一部であり、s番目のサブバンドに対応する再構成されたサブバンドは、3N+1個の再構成されたサブバンドのうちの任意の1つである、ステップと、復号対象係数の累積確率分布関数のパラメータに基づいて復号対象係数の累積確率分布関数を取得するステップと、復号対象係数と復号対象係数の累積確率分布関数とに基づいて復号対象係数の確率分布を取得するステップと、復号対象係数の確率分布に基づいて、算術デコーダを使用して復号対象係数のビットストリームに対してエントロピー復号を実行して、復号対象係数を取得するステップであって、3N+1個の再構成されたサブバンドが復号対象係数を含む、ステップと、
を含む。
【0027】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドであるとき、エントロピー復号モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー復号モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するステップは、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得するステップと、第1の窓処理された畳み込みカーネルに基づいて、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行して、復号対象係数の累積確率分布関数のパラメータを取得するステップ、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得するステップと、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するステップと、
を含み、
jが1に等しいとき、j番目の畳み込み層の入力データは、第1のサブバンドに対応する再構成されたサブバンドであり、jが1より大きく、かつMより大きくないとき、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しいとき、j番目の出力データは復号対象係数の累積確率分布関数のパラメータを含む。
【0028】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドではないとき、エントロピー復号モデルは、第1のエントロピー復号モデル、第2のエントロピー復号モデル、および第3のエントロピー復号モデルを含み、第1のエントロピー復号モデルおよび第3のエントロピー復号モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー復号モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、第1のエントロピー復号モデルは、T1個の畳み込み層を含み、第2のエントロピー復号モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するステップは、
(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力して、第1の出力結果を取得するステップであって、(s-1)番目のサブバンドに対応する再構成されたサブバンドは、(s-1)番目のサブバンドのビットストリームに対してエントロピー復号を実行することによって取得され、第1の出力結果は、第2のエントロピー復号モデルの入力データであり、s番目のサブバンドに対応する再構成されたサブバンドは、第1のエントロピー復号モデルの入力データである、ステップと、
T1およびT2の両方が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、第2の出力結果が、復号対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2が、それぞれ第1のエントロピー復号モデルおよび第2のエントロピー復号モデルにおける畳み込み層である、ステップ、または
T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおけるq番目の畳み込み層であり、畳み込み層C2が第2のエントロピー復号モデルにおける畳み込み層であり、qがT1に等しいならば、第2の出力結果が復号対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、かつT1より小さいならば、第2の出力結果が第1のエントロピー復号モデルにおける(q+1)番目の畳み込み層の入力データである、ステップ、または
T1およびT2の両方が1より大きいとき、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおけるq1番目の畳み込み層であり、畳み込み層C2が第2のエントロピー復号モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、q2がT2に等しいならば、第2の出力結果が復号対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、第2の出力結果が第1のエントロピー復号モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー復号モデルにおける(q2+1)番目の畳み込み層の入力データである、ステップと、
を含む。
【0029】
実現可能な実施形態では、(s-1)番目のサブバンドに対応する再構成されたサブバンドの分解能がs番目のサブバンドに対応する再構成されたサブバンドの分解能と異なるとき、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力して、第1の出力結果を取得するステップは、
第3のエントロピー復号モデルおよび第3のエントロピー復号モデルの状態変数に基づいて、(s-1)番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得するステップと、畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得するステップであって、第1の出力結果の分解能は、s番目のサブバンドに対応する再構成されたサブバンドの分解能と同じである、ステップと、
を含み、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得するステップの後に、方法は、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するステップであって、サンプリングされた状態変数の分解能はs番目のサブバンドの分解能と同じである、ステップ
をさらに含む。
【0030】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップは、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、
窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、
第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、畳み込み層C2が第2の復号/符号化モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するステップと、を含む。
【0031】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップは、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するステップであって、第2の畳み込みカーネルが畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数が互いに相補的である、ステップと、
窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、
窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、畳み込み層C2が第2の復号/符号化モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するステップと、を含む。
【0032】
実現可能な実施形態では、ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得するステップは、
t番目の逆ウェーブレット変換を実行するとき、近似サブバンドPN+1-tおよび詳細サブバンドI(N+1-t)1に対して更新演算および予測演算を実行して、第1の処理されたサブバンドおよび第2の処理されたサブバンドを取得し、第1の処理されたサブバンドおよび第2の処理されたサブバンドに基づいて中間近似成分を取得するステップであって、中間近似成分の奇数列係数または奇数行係数は第1の処理されたサブバンドに由来し、中間近似成分の偶数列係数または偶数行係数は第2の処理されたサブバンドに由来する、ステップと、
詳細サブバンドI(N+1-t)2および詳細サブバンドI(N+1-t)3に対して更新演算および予測演算を実行して、第3の処理されたサブバンドおよび第4の処理されたサブバンドを取得し、第3の処理されたサブバンドおよび第4の処理されたサブバンドに基づいて中間詳細成分を取得するステップであって、中間詳細成分の奇数列係数または偶数行係数は第3の処理されたサブバンドに由来し、中間詳細成分の偶数列係数または偶数行係数は第4の処理されたサブバンドに由来する、ステップと、
中間詳細成分および中間近似成分に対して更新演算および予測演算を実行して、第5の処理されたサブバンドおよび第6の処理されたサブバンドを取得し、第5の処理されたサブバンドおよび第6の処理されたサブバンドに基づいて近似サブバンドPt-1を取得するステップであって、近似サブバンドPt-1の奇数行係数または奇数列係数が第5の処理されたサブバンドに由来し、近似サブバンドPt-1の偶数行係数または偶数列係数が第6の処理されたサブバンドに由来する、ステップと、
を含み、
詳細サブバンドI(N+1-t)1、詳細サブバンドI(N+1-t)2、および詳細サブバンドI(N+1-t)3の分解能は、近似サブバンドPN+1-tの分解能と同じであり、t番目の逆ウェーブレット変換が最後のウェーブレット変換であるとき、近似サブバンドPt-1は再構成画像である。
【0033】
実現可能な実施形態では、予測演算がCNNに基づいて実現され、
更新演算がCNNに基づいて実現され、または
更新演算と予測演算の両方がCNNに基づいて実現される。
【0034】
実現可能な実施形態では、ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得するステップの後に、方法は、
後処理モデルに基づいて再構成画像に対して後処理を実行して、処理された再構成画像を取得するステップであって、後処理モデルは深層ニューラルネットワークに基づいて実現された、ステップ
をさらに含む。
【0035】
深層ニューラルネットワークに基づいて再構成画像に対して後処理が実行されるため、再構成画像の品質をさらに向上させることができ、復号性能を向上させることができる。
【0036】
第3の態様によれば、本発明の一実施形態は、
ウェーブレット変換モデルを訓練するステップであって、ウェーブレット変換モデルを訓練するステップは、
ウェーブレット変換モデルを初期化するステップと、
初期化されたウェーブレット変換モデルに基づいて訓練画像に対してN個のウェーブレット変換を実行して、3N+1個のサブバンドを取得するステップと、
初期化されたウェーブレット変換モデルに基づいて、第1のサブバンド、第2のサブバンド、第3のサブバンド、...、および第3Nのサブバンドで逆ウェーブレット変換を順次実行して、3N個の再構成画像を取得するステップと、
訓練画像および3N個の再構成画像に基づいて損失値を計算するステップであって、損失値
【数1】
であり、R
iは3N個の再構成画像のi番目の画像であり、Iは訓練画像である、ステップと、
前述の方法を数回繰り返し、損失値Lの変動幅が非常に小さいならば、ウェーブレット変換モデルの訓練が完了したと判定するステップと、そうでないならば、前述の方法に従ってウェーブレット変換モデルを訓練し続けるステップと、
を含む、ステップ
を含む、訓練方法をさらに提供する。
【0037】
第4の態様によれば、本発明の一実施形態は、ウェーブレット変換に基づく画像符号化装置を提供し、装置は、
ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得するように構成された変換モジュールであって、ウェーブレット変換モデルが畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nが0より大きい整数である、変換モジュールと、
ウェーブレット係数を量子化して、量子化されたウェーブレット係数を取得するように構成された量子化モジュールと、
量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得するように構成されたエントロピー符号化モジュールと、
を備える。
【0038】
実現可能な実施形態では、変換モジュールは、
i番目のウェーブレット変換を実行するとき、サブバンドXを分解して、奇数サンプル成分および偶数サンプル成分を取得するように構成され、奇数サンプル成分は、サブバンドX内の奇数行係数または奇数列係数を含み、偶数サンプル成分は、サブバンドX内の偶数行係数または偶数列係数を含み、
変換モジュールは、偶数サンプル成分および奇数サンプル成分に対して更新演算および予測演算を実行して、中間近似成分および中間詳細成分を取得し、
中間近似成分を分解して、第1のサンプル成分および第2のサンプル成分を取得するように構成され、第1のサンプル成分は中間近似成分の奇数列係数または奇数行係数を含み、第2のサンプル成分は中間近似成分の偶数列係数または偶数行係数を含み、
変換モジュールは、中間詳細成分を分解して、第3のサンプル成分および第4のサンプル成分を取得するように構成され、第3のサンプル成分は中間詳細成分の奇数行係数または奇数行係数を含み、第4のサンプル成分は中間詳細成分の偶数列係数または偶数行係数を含み、
変換モジュールは、第1のサンプル成分および第2のサンプル成分に対して更新演算および予測演算を実行して、近似サブバンドPiおよび詳細サブバンドIi1を取得し、第3のサンプル成分および第4のサンプル成分に対して更新演算および予測演算を実行して、詳細サブバンドIi2および詳細サブバンドIi3を取得するように構成され、
ウェーブレット係数は、近似サブバンドPi、詳細サブバンドIi1、詳細サブバンドIi2、および詳細サブバンドIi3を含み、i番目のウェーブレット変換が第1のウェーブレット変換であるとき、サブバンドXは符号化対象画像であり、またはi番目のウェーブレット変換が第1のウェーブレット変換でないとき、サブバンドXは近似サブバンドPi-1であり、近似サブバンドPi-1は(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドである。
【0039】
実現可能な実施形態では、予測演算がCNNに基づいて実現され、更新演算がCNNに基づいて実現され、または予測演算と更新演算の両方が、CNNに基づいて実現される。
【0040】
実現可能な実施形態では、エントロピー符号化モジュールは、具体的には、
エントロピー符号化モデルに基づいて量子化されたウェーブレット係数を符号化して、圧縮されたビットストリームを取得するように構成され、エントロピー符号化モデルは深層ニューラルネットワークに基づいて実現される。
【0041】
実現可能な実施形態では、ウェーブレット係数は3N+1個のサブバンドを含み、エントロピー符号化モジュールは、具体的には、
エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するように構成され、符号化対象係数はs番目のサブバンド内の任意の係数であり、s番目のサブバンドは3N+1個のサブバンドのうちの任意の1つであり、エントロピー符号化モジュールは、符号化対象係数の累積確率分布関数のパラメータに基づいて累積確率分布関数を取得し、符号化対象係数および符号化対象係数の累積確率分布関数に基づいて、符号化対象係数の確率分布を取得し、算術エンコーダを使用して符号化対象係数の確率分布に基づいて符号化対象係数に対してエントロピー符号化を実行して、符号化対象係数に対応するビットストリームを取得するように構成され、圧縮されたビットストリームは、符号化対象係数に対応するビットストリームを含む。
【0042】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドであるとき、エントロピー符号化モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー符号化モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するとき、エントロピー符号化モジュールは、具体的には、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得し、第1の窓処理された畳み込みカーネルに基づいてs番目のサブバンドに対して畳み込み演算を実行して、符号化対象係数の累積確率分布関数のパラメータを取得し、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得し、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するように構成され、
jが1に等しいとき、j番目の畳み込み層の入力データは第1のサブバンドであり、jが1より大きく、かつMより大きくないとき、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しいとき、j番目の出力データは、符号化対象係数の累積確率分布関数のパラメータを含む。
【0043】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドではないとき、エントロピー符号化モデルは、第1のエントロピー符号化モデル、第2のエントロピー符号化モデル、および第3のエントロピー符号化モデルを含み、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー符号化モデルは、RNNに基づいて実現され、第1のエントロピー符号化モデルは、T1個の畳み込み層を含み、第2のエントロピー符号化モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するとき、エントロピー符号化モジュールは、具体的には、
(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力して、第1の出力結果を取得するように構成され、第1の出力結果は第2のエントロピー符号化モデルの入力データであり、s番目のサブバンドは第1のエントロピー符号化モデルの入力データであり、
エントロピー符号化モジュールは、T1およびT2の両方が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、第2の出力結果は、符号化対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2は、それぞれ第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルにおける畳み込み層であり、または
エントロピー符号化モジュールは、T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、畳み込み層C1は、第1のエントロピー符号化モデルにおけるq番目の畳み込み層であり、畳み込み層C2は、第2のエントロピー符号化モデルにおける畳み込み層であり、qがT1に等しいならば、第2の出力結果は、符号化対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、かつT1より小さいならば、第2の出力結果は、第1のエントロピー符号化モデルにおける(q+1)番目の畳み込み層の入力データであり、または
エントロピー符号化モジュールは、T1およびT2の両方が1より大きいとき、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、畳み込み層C1は、第1のエントロピー符号化モデルにおけるq1番目の畳み込み層であり、畳み込み層C2は、第2のエントロピー符号化モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、かつq2がT2に等しいならば、第2の出力結果は、符号化対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、第2の出力結果は、第1のエントロピー符号化モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー符号化モデルにおける(q2+1)番目の畳み込み層の入力データである。
【0044】
実現可能な実施形態では、(s-1)番目のサブバンドの分解能がs番目のサブバンドの分解能と異なるとき、(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力して、第1の出力結果を取得するとき、エントロピー符号化モジュールは、具体的には、
第3のエントロピー符号化モデルおよび第3のエントロピー符号化モデルの状態変数に基づいて、(s-1)番目のサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得し、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得するように構成され、第1の出力結果の分解能はs番目のサブバンドの分解能と同じであり、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得した後に、エントロピー符号化モジュールは、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するようにさらに構成され、サンプリングされた状態変数の分解能は、s番目のサブバンドの分解能と同じである。
【0045】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するとき、エントロピー符号化モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
エントロピー符号化モジュールは、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第1の入力データはs番目のサブバンドに対して畳み込み演算を実行することによって取得され、
エントロピー符号化モジュールは、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、エントロピー符号化モジュールは、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するように構成される。
【0046】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するとき、エントロピー符号化モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
エントロピー符号化モジュールは、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するように構成され、第2の畳み込みカーネルは畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数は互いに相補的であり、
エントロピー符号化モジュールは、窓処理された第1の畳み込みカーネルに基づいてs番目のサブバンドに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第1の入力データはs番目のサブバンドに対して畳み込み演算を実行することによって取得され、
エントロピー符号化モジュールは、窓処理された第2の畳み込みカーネルに基づいて第1の出力結果に対して畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、エントロピー符号化モジュールは、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するように構成される。
【0047】
第5の態様によれば、本発明の一実施形態は、ウェーブレット変換に基づく画像復号装置を提供し、装置は、
圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するように構成されたエントロピー復号モジュールと、
再構成されたウェーブレット係数を量子化解除して、量子化解除されたウェーブレット係数を取得するように構成された量子化解除モジュールと、
ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得するように構成された逆変換モジュールであって、ウェーブレット変換モデルが畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nが0より大きい整数である、逆変換モジュールと、を備える。
【0048】
実現可能な実施形態では、エントロピー復号モジュールは、具体的には、
エントロピー復号モデルに基づいて圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するように構成され、エントロピー復号モデルは深層ニューラルネットワークに基づいて実現される。
【0049】
実現可能な実施形態では、圧縮されたビットストリームは3N+1個のサブバンドのビットストリームを含み、再構成されたウェーブレット係数は3N+1個の再構成されたサブバンドを含み、エントロピー復号モジュールは、具体的には、
s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するように構成され、復号対象係数のビットストリームはs番目のサブバンドのビットストリームの一部であり、s番目のサブバンドに対応する再構成されたサブバンドは、3N+1個の再構成されたサブバンドのうちの任意の1つであり、エントロピー復号モジュールは、復号対象係数の累積確率分布関数のパラメータに基づいて復号対象係数の累積確率分布関数を取得し、復号対象係数および復号対象係数の累積確率分布関数に基づいて、復号対象係数の確率分布を取得し、復号対象係数の確率分布に基づいて、算術デコーダを使用して復号対象係数のビットストリームに対してエントロピー復号を実行して、復号対象係数を取得するように構成され、3N+1個の再構成されたサブバンドは復号対象係数を含む。
【0050】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドであるとき、エントロピー復号モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー復号モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するとき、エントロピー復号モジュールは、具体的には、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得し、
第1の窓処理された畳み込みカーネルに基づいて、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行して、復号対象係数の累積確率分布関数のパラメータを取得し、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得し、
第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するように構成され、
jが1に等しいとき、j番目の畳み込み層の入力データは、第1のサブバンドに対応する再構成されたサブバンドであり、jが1より大きく、かつMより大きくないとき、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しいとき、j番目の出力データは復号対象係数の累積確率分布関数のパラメータを含む。
【0051】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドではないとき、エントロピー復号モデルは、第1のエントロピー復号モデル、第2のエントロピー復号モデル、および第3のエントロピー復号モデルを含み、第1のエントロピー復号モデルおよび第3のエントロピー復号モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー復号モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、第1のエントロピー復号モデルは、T1個の畳み込み層を含み、第2のエントロピー復号モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するとき、エントロピー復号モジュールは、具体的には、
(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力して、第1の出力結果を取得するように構成され、(s-1)番目のサブバンドに対応する再構成されたサブバンドは、(s-1)番目のサブバンドのビットストリームに対してエントロピー復号を実行することによって取得され、第1の出力結果は、第2のエントロピー復号モデルの入力データであり、s番目のサブバンドに対応する再構成されたサブバンドは、第1のエントロピー復号モデルの入力データであり、
エントロピー復号モジュールは、T1およびT2の両方が1に等しいとき、畳み込み層C1と畳み込み層C2とに基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、第2の出力結果は、復号対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2は、それぞれ第1のエントロピー復号モデルおよび第2のエントロピー復号モデルにおける畳み込み層であり、または
エントロピー復号モジュールは、T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、畳み込み層C1は第1のエントロピー復号モデルにおけるq番目の畳み込み層であり、畳み込み層C2は第2のエントロピー復号モデルにおける畳み込み層であり、qがT1に等しいならば、第2の出力結果は復号対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、かつT1より小さいならば、第2の出力結果は第1のエントロピー復号モデルにおける(q+1)番目の畳み込み層の入力データであり、または
エントロピー復号モジュールは、T1およびT2の両方が1より大きいとき、畳み込み層C1と畳み込み層C2とに基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、畳み込み層C1は第1のエントロピー復号モデルにおけるq1番目の畳み込み層であり、畳み込み層C2は第2のエントロピー復号モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、かつq2がT2に等しいならば、第2の出力結果は復号対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、第2の出力結果は第1のエントロピー復号モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー復号モデルにおける(q2+1)番目の畳み込み層の入力データである。
【0052】
実現可能な実施形態では、(s-1)番目のサブバンドに対応する再構成されたサブバンドの分解能がs番目のサブバンドに対応する再構成されたサブバンドの分解能と異なるとき、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力して、第1の出力結果を取得するとき、エントロピー復号モジュールは、具体的には、
第3のエントロピー復号モデルおよび第3のエントロピー復号モデルの状態変数に基づいて、(s-1)番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得し、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得するように構成され、第1の出力結果の分解能は、s番目のサブバンドに対応する再構成されたサブバンドの分解能と同じであり、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得した後に、エントロピー復号モジュールは、具体的には、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するようにさらに構成され、サンプリングされた状態変数の分解能は、s番目のサブバンドの分解能と同じである。
【0053】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するとき、エントロピー復号モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
エントロピー復号モジュールは、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得され、
エントロピー復号モジュールは、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、畳み込み層C2が第2の復号/符号化モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、
エントロピー復号モジュールは、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するように構成される。
【0054】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するとき、エントロピー復号モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
エントロピー復号モジュールは、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するように構成され、第2の畳み込みカーネルは畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数は互いに相補的であり、
エントロピー復号モジュールは、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得され、
エントロピー復号モジュールは、窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、畳み込み層C2が第2の復号/符号化モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、エントロピー復号モジュールは、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するように構成される。
【0055】
実現可能な実施形態では、逆変換モジュールは、具体的には、
t番目の逆ウェーブレット変換を実行するとき、近似サブバンドPN+1-tおよび詳細サブバンドI(N+1-t)1に対して更新演算および予測演算を実行して、第1の処理されたサブバンドおよび第2の処理されたサブバンドを取得し、第1の処理されたサブバンドおよび第2の処理されたサブバンドに基づいて中間近似成分を取得するように構成され、中間近似成分の奇数列係数または奇数行係数は第1の処理されたサブバンドに由来し、中間近似成分の偶数列係数または偶数行係数は第2の処理されたサブバンドに由来し、
逆変換モジュールは、詳細サブバンドI(N+1-t)2および詳細サブバンドI(N+1-t)3に対して更新演算および予測演算を実行して、第3の処理されたサブバンドおよび第4の処理されたサブバンドを取得し、第3の処理されたサブバンドおよび第4の処理されたサブバンドに基づいて中間詳細成分を取得するように構成され、中間詳細成分の奇数列係数または偶数行係数は第3の処理されたサブバンドに由来し、中間詳細成分の偶数列係数または偶数行係数は第4の処理されたサブバンドに由来し、
逆変換モジュールは、中間詳細成分および中間近似成分に対して更新演算および予測演算を実行して、第5の処理されたサブバンドおよび第6の処理されたサブバンドを取得し、第5の処理されたサブバンドおよび第6の処理されたサブバンドに基づいて近似サブバンドPt-1を取得するように構成され、近似サブバンドPt-1の奇数行係数または奇数列係数は第5の処理されたサブバンドに由来し、近似サブバンドPt-1の偶数行係数または偶数列係数は第6の処理されたサブバンドに由来し、
詳細サブバンドI(N+1-t)1、詳細サブバンドI(N+1-t)2、および詳細サブバンドI(N+1-t)3の分解能は、近似サブバンドPN+1-tの分解能と同じであり、t番目の逆ウェーブレット変換が最後のウェーブレット変換であるとき、近似サブバンドPt-1は再構成画像である。
【0056】
実現可能な実施形態では、予測演算がCNNに基づいて実現され、更新演算がCNNに基づいて実現され、または更新演算と予測演算の両方がCNNに基づいて実現される。
【0057】
実現可能な実施形態では、画像符号化装置は、
逆変換モジュールが、ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得した後に、後処理モデルに基づいて再構成画像に対して後処理を実行して、処理された再構成画像を取得するように構成された後処理モジュールであって、後処理モデルが深層ニューラルネットワークに基づいて実現された、後処理モジュール
をさらに備える。
【0058】
第6の態様によれば、本発明の一実施形態は、
ウェーブレット変換モデルを初期化するように構成された初期化モジュールと、
初期化されたウェーブレット変換モデルに基づいて訓練画像に対してN個のウェーブレット変換を実行して、3N+1個のサブバンドを取得し、初期化されたウェーブレット変換モデルに基づいて、第1のサブバンド、第2のサブバンド、第3のサブバンド、...、および第3Nのサブバンドに対して順次逆ウェーブレット変換を実行して、3N個の再構成画像を取得し、訓練画像および3N個の再構成画像に基づいて損失値を計算するように構成された訓練モジュールであって、損失値
【数2】
であり、R
iは3N個の再構成画像のi番目の画像であり、Iは訓練画像であり、前述の方法を数回繰り返し、損失値Lの変動幅が非常に小さいならば、ウェーブレット変換モデルの訓練が完了したと判定し、そうでないならば、前述の方法に従ってウェーブレット変換モデルを訓練し続ける、訓練モジュールと、
を備える訓練装置を提供する。
【0059】
第7の態様によれば、本発明の一実施形態は、
実行可能なプログラムコードを記憶するメモリと、
メモリに結合されたプロセッサであって、メモリに記憶された実行可能なプログラムコードを呼び出すと、プロセッサは、第1の態様、第2の態様、または第3の態様による方法の一部または全部のステップを実行する、プロセッサと、
を備える道路移動可能領域推定装置を提供する。
【0060】
第8の態様によれば、本発明の一実施形態はコンピュータ記憶媒体をさらに提供し、コンピュータ記憶媒体はプログラムを記憶することができ、プログラムが処理能力を有するコンピューティングプラットフォームまたはプロセッサによって実行されると、第1の態様、第2の態様、または第3の態様による方法の一部または全部のステップが実装される。
【0061】
本発明のこれらの態様または他の態様は、以下の実施形態の説明においてより明確かつより理解可能である。
【0062】
本発明の実施形態または従来技術における技術的解決策をより明確に説明するために、以下で、実施形態または従来技術の説明で使用する必要がある添付の図面を簡単に説明する。以下の説明における添付の図面は、本発明のいくつかの実施形態を示すにすぎず、当業者は、創造的な努力なしにこれらの添付の図面から他の図面を導出することができることは明らかである。
【図面の簡単な説明】
【0063】
【
図1】本発明の一実施形態による画像符号化の概略フローチャートである。
【
図2】本発明の一実施形態による画像符号化の別の概略フローチャートである。
【
図3】本発明の一実施形態による画像符号化アーキテクチャの概略図である。
【
図4】本発明の一実施形態によるウェーブレット変換モデルにおける深層ニューラルネットワークに基づく予測モジュールの構造の図である。
【
図5】本発明の一実施形態による画像復号化の概略フローチャートである。
【
図6】本発明の一実施形態による画像復号化の別の概略フローチャートである。
【
図7】本発明の一実施形態による画像復号化アーキテクチャの概略図である。
【
図8】本発明の一実施形態による、ニューラルネットワークに基づくウェーブレット変換のエンドツーエンド訓練フレームワークの概略図である。
【
図9】本発明の一実施形態によるサブバンド符号化・復号シーケンスの概略図である。
【
図10】本発明の一実施形態による画像符号化の別の概略フローチャートである。
【
図11】本発明の一実施形態による画像符号化の別の概略フローチャートである。
【
図12】本発明の一実施形態による画像符号化アーキテクチャの概略図である。
【
図13】本発明の一実施形態による別の画像符号化アーキテクチャの概略図である。
【
図14】本発明の一実施形態による予測モデルおよび更新モデルの構造の図である。
【
図15】本発明の一実施形態によるエントロピー復号の構造の概略図である。
【
図16a】本発明の一実施形態による窓関数の概略図である。
【
図16b】本発明の一実施形態による窓関数の概略図である。
【
図17】本発明の一実施形態によるサブバンド符号化プロセスの概略図である。
【
図18】本発明の一実施形態による畳み込みカーネル窓処理プロセスの概略図である。
【
図19(a)】本発明の一実施形態による組み合わせ構造の概略図である。
【
図19(b)】本発明の一実施形態による別の組み合わせ構造の概略図である。
【
図19(c)】本発明の一実施形態による別の組み合わせ構造の概略図である。
【
図20】本発明の一実施形態によるアップサンプリングプロセスの概略図である。
【
図21】本発明の一実施形態による別の窓関数の概略図である。
【
図22】本発明の一実施形態による画像復号化の概略フローチャートである。
【
図23】本発明の一実施形態による画像復号化の別の概略フローチャートである。
【
図24】本発明の一実施形態による画像復号化アーキテクチャの概略図である。
【
図25】本発明の一実施形態による別の画像復号化アーキテクチャの概略図である。
【
図26】本発明の一実施形態による深層ニューラルネットワークに基づく後処理モデルの概略フレームワーク図である。
【
図27】本発明の一実施形態による画像符号化装置の構造の概略図である。
【
図28】本発明の一実施形態による画像復号装置の構造の概略図である。
【
図29】本発明の一実施形態による訓練装置の構造の概略図である。
【
図30】本発明の一実施形態による画像符号化装置の構造の別の概略図である。
【
図31】本発明の一実施形態による画像復号装置の構造の別の概略図である。および
【
図32】本発明の一実施形態による訓練装置の構造の別の概略図である。
【発明を実施するための形態】
【0064】
以下、添付の図面を参照して、本出願におけるウェーブレット変換に基づく画像符号化・復号の具体的なプロセスを詳細に説明する。
【0065】
本明細書では、本出願で使用される数は1から開始してもよく、または0から開始してもよく、それに応じて最大値が変化することに留意されたい。1から始まる番号は、以下の説明のために使用される。
【0066】
まず、ウェーブレット変換に基づく画像符号化の処理について説明する。
図1に示されるように、ウェーブレット係数を取得するために、深層ニューラルネットワークに基づくウェーブレット変換が符号化対象画像に対して実行され、圧縮されたビットストリームを取得するために、量子化およびエントロピー符号化がウェーブレット係数に対して実行される。詳細については
図2を参照されたい。
図2は、本出願の一実施形態によるウェーブレット変換に基づく画像符号化方法の概略フローチャートである。
図2に示されるように、方法は以下のステップを含む。
【0067】
S201.ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得する。
【0068】
ウェーブレット変換モデルは、畳み込みニューラルネットワーク(convolutional neural networks、CNN)に基づいて実現される。ウェーブレット係数は3N+1個のサブバンドを含む。
【0069】
具体的には、
図3に示すように、ウェーブレット変換モデルに基づいて符号化対象画像に対してi番目のウェーブレット変換を実行するステップは、具体的には、
奇数サンプル成分および偶数サンプル成分を取得するために、サブバンドXを分解するステップであって、奇数サンプル成分はサブバンドX内の奇数行(または列)ピクセルを含み、偶数サンプル成分はサブバンドX内の偶数行(または列)ピクセルを含む、ステップと、奇数サンプル成分および偶数サンプル成分に基づいて中間近似成分を取得するステップであって、中間近似成分の分解能は奇数サンプル成分および偶数サンプル成分の分解能と一致し、中間近似成分内の各係数は、奇数サンプル成分および偶数サンプル成分内の対応する位置における係数の和の1/2である、ステップと、第1の予測成分を取得するために、ウェーブレット変換モデルに基づいて中間近似成分を使用して偶数サンプル成分を予測するステップであって、第1の予測成分の分解能が中間近似成分の分解能と一致する、ステップと、偶数サンプル成分および第1の予測成分に基づいて中間詳細成分を取得するステップであって、中間詳細成分内の各係数が偶数サンプル成分および第1の予測成分内の対応する位置における係数の間差である、ステップと、
第1の近似サンプル成分および第2の近似サンプル成分を取得するために中間近似成分を分解するステップであって、第1の近似サンプル成分は中間近似成分の奇数列係数または奇数行係数を含み、第2の近似サンプル成分は中間近似成分の偶数列係数または偶数行係数を含む、ステップと、第1の近似サンプル成分および第2の近似サンプル成分に基づいて近似サブバンドP
iを取得するステップであって、近似サブバンドP
iの分解能は、第1の近似サンプル成分および第2の近似サンプル成分の分解能と同じであり、近似サブバンドP
i内の各係数は、第1の近似サンプル成分および第2の近似サンプル成分内の対応する位置における係数の和の1/2である、ステップと、第2の予測成分を取得するために、ウェーブレット変換モデルに基づいて近似サブバンドP
iを使用して第2の近似サンプル成分を予測するステップであって、第2の予測成分の分解能が近似サブバンドP
iの分解能と一致する、ステップと、第2の近似サンプル成分と第2の予測成分とに基づいて詳細サブバンドI
i1を取得するステップであって、詳細サブバンドI
i1の分解能は、第2の近似サンプル成分と第2の予測成分との分解能と同じであり、詳細サブバンドI
i1内の各係数は、第2の近似サンプル成分と第2の予測成分との対応する位置における係数間の差である、ステップと、
を含む。
【0070】
同様に、中間近似成分を処理するための方法に従って中間詳細成分が処理され、詳細サブバンドIi2および詳細サブバンドIi3が取得される。詳細サブバンドIi2および詳細サブバンドIi3の分解能は、詳細サブバンドIi1の分解能と一致する。
【0071】
iが1に等しい場合、サブバンドXは符号化対象画像である。iが1より大きい場合、サブバンドXは近似サブバンドPi-1であり、近似サブバンドPi-1は、符号化対象画像に対して(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドである。
【0072】
本明細書では、iは0から開始してもよいことに留意されたい。この場合、最大値はN-1である。例えば、iが0に等しい場合、サブバンドXは符号化対象画像である。
【0073】
ここで、符号化対象画像および近似サブバンドはいずれも2次元データであるため、ウェーブレット変換は深層ニューラルネットワークに基づくウェーブレット変換であり、行方向および列方向に別々に実行する必要があることに留意されたい。したがって、上記の処理から、符号化対象画像に対して深層ニューラルネットワークに基づく完全なウェーブレット変換を実行する場合、CNNベースのウェーブレット変換モデルが合計3回使用されることが分かる。
【0074】
本明細書では、符号化対象画像に対して第1のウェーブレット変換が実行された後、1つの近似サブバンドおよび3つの詳細サブバンドが取得されることに留意されたい。符号化対象画像に対して第2のウェーブレット変換を実行することは、具体的には、近似サブバンドP2、詳細サブバンドI21、詳細サブバンドI22、および詳細サブバンドI23を取得するために、近似サブバンドP1に対してウェーブレット変換を実行することであり、これまで、合計で1つの近似サブバンドおよび6つの詳細画像が取得される。符号化対象画像に対して第3のウェーブレット変換を実行することは、具体的には、近似サブバンドP3、詳細サブバンドI31、詳細サブバンドI32、および詳細サブバンドI33を取得するために、第2のウェーブレット変換を実行することによって取得された近似サブバンドP2に対してウェーブレット変換を実行することであり、これまで、合計1つの近似サブバンドおよび9つの詳細画像が取得される。類推すると、符号化対象画像に対してN個のウェーブレット変換が実行された後、合計で1つの近似画像および3*N個の詳細サブバンドが取得される。したがって、符号化対象画像に対してN個のウェーブレット変換が実行された後、合計3*N+1個のサブバンドが取得される。
【0075】
図4は、ウェーブレット変換モデルにおける深層ニューラルネットワークに基づく予測モジュールの構造の図である。
図4において、「3×3×24/tanh」は、現在の畳み込み層が3×3のサイズの畳み込みカーネルを使用して24個の特徴マップを生成し、次いでtanh活性化関数を使用することを示す。「3×3×12/tanh」は、現在の畳み込み層が、3×3のサイズの畳み込みカーネルを用いて、12個の特徴マップを生成し、その後、tanh活性化関数を用い、「1×1×48/tanh」は、現在の畳み込み層が、1×1のサイズの畳み込みカーネルを用いて、48個の特徴マップを生成し、その後、tanh活性化関数を用い、「1×1×1/直線」は、現在の畳み込み層が、1×1のサイズの畳み込みカーネルを用いて1つの特徴マップを生成し、次いで、その特徴マップに対して線形演算を実行することを示す。「凹面」は、特徴マップに対して行われる連結演算を示す。
【0076】
一実施形態では、ウェーブレット変換モデルのパラメータは、エンコーダおよびデコーダに埋め込まれ、送信される必要はない。
【0077】
S202.ウェーブレット係数に対して量子化およびエントロピー符号化を実行して、符号化対象画像の圧縮されたビットストリームを取得する。
【0078】
本明細書では、ウェーブレット係数のサブバンド符号化方法は、量子化およびエントロピー符号化の2つのステップを含むことに留意されたい。一般的なサブバンド符号化方法は、埋め込みゼロツリーウェーブレット変換(embedded zerotrees of wavelet transforms、EZW)符号化、階層木におけるセット分割(set partitioning in hierarchical trees、SPIHT)アルゴリズム、最適化された切り捨てによる埋め込みブロック符号化(embedded block coding with optimized truncation、EBCOT)などを含む。特定の要件を参照して選択することができる。具体的な量子化およびエントロピー符号化プロセスについては、ここでは再度説明しない。
【0079】
次に、ウェーブレット変換に基づく画像復号の処理について説明する。
図5に示すように、再構成されたウェーブレット係数を取得するために、圧縮されたビットストリームに対してエントロピー復号および量子化解除が実行され、再構成画像を取得するために、再構成されたウェーブレット係数に対して深層ニューラルネットワークに基づく逆ウェーブレット変換が実行される。詳細については、
図6を参照されたい。
図6は、本出願の一実施形態によるウェーブレット変換に基づく画像復号方法の概略フローチャートである。
図6に示されているように、方法は以下のステップを含む。
【0080】
S601.圧縮されたビットストリームに対してエントロピー復号および量子化解除を実行して、再構成されたウェーブレット係数を取得する。
【0081】
本明細書では、圧縮されたビットストリームのサブバンド復号方法は、エントロピー復号および量子化解除の2つのステップを含むことに留意されたい。サブバンド復号方法は、エンコーダ側のサブバンド符号化方法に対応し、ここでは詳細に説明しない。
【0082】
S602.ウェーブレット変換モデルに基づいて再構成されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得する。再構成されたウェーブレット係数は3N+1個のサブバンドを含み、3N+1個のサブバンドは1つの近似サブバンドおよび3N個の詳細サブバンドを含む。
【0083】
具体的には、
図7に示すように、ウェーブレット変換モデルに基づいて再構成されたウェーブレット係数に対してt番目の逆ウェーブレット変換を実行するステップは、具体的には、
近似サブバンドP
N+1-tと、その分解能が近似サブバンドP
N+1-tの分解能と同じである3つの詳細サブバンドとを取得するステップであって、3つの詳細サブバンドはそれぞれ詳細サブバンドI
(N+1-t)1、詳細サブバンドI
(N+1-t)2、および詳細サブバンドI
(N+1-t)3であり、詳細サブバンドI
(N+1-t)1と近似サブバンドP
N+1-tとは符号化段階で同時に生成される、ステップと、近似サブバンドP
N+1-tに基づいて第1の増幅成分を取得するステップであって、第1の増幅成分内の各係数は、近似サブバンドP
N+1-t内の対応する位置における係数の2倍である、ステップと、第1の予測近似成分を取得するために、ウェーブレット変換モデルに基づいて近似サブバンドP
N+1-tを使用して予測を実行するステップと、第1の予測近似成分および詳細サブバンドI
(N+1-t)1に基づいて第1の偶数サンプル成分を取得するステップであって、第1の偶数サンプル成分内の各係数は、第1の予測近似成分および詳細サブバンドI
(N+1-t)1内の対応する位置における係数の和である、ステップと、第1の増幅成分および第1の偶数サンプル成分に基づいて第1の奇数サンプル成分を取得するステップであって、第1の奇数サンプル成分内の各係数が、第1の増幅成分および第1の偶数サンプル成分内の対応する位置における係数間の差である、ステップと、その行(または列)分解能が近似サブバンドP
N+1-tの分解能の2倍である中間近似成分を取得するために、第1の偶数サンプル成分と第1の奇数サンプル成分とを組み合わせるステップであって、中間近似成分内の奇数行係数または奇数列係数が第1の奇数サンプル成分に由来し、中間近似成分内の偶数行係数または偶数列係数が第1の偶数サンプル成分に由来する、または言い換えれば、中間近似成分内の奇数行係数または奇数列係数が第1の奇数サンプル成分の一部または全体であり、中間近似成分内の偶数行係数または偶数列係数が第1の偶数サンプル成分の一部または全体である、ステップと、
詳細サブバンドI
(N+1-t)2に基づいて第2の増幅成分を取得するステップであって、第2の増幅成分内の各係数は、詳細サブバンドI
(N+1-t)2内の対応する位置における係数の2倍である、ステップと、第1の予測詳細成分を取得するために、ウェーブレット変換モデルに基づいて詳細サブバンドI
(N+1-t)2を使用して予測を実行するステップと、第1の予測詳細成分および詳細サブバンドI
(N+1-t)3に基づいて第2の偶数サンプル成分を取得するステップと、第2の増幅成分および第2の偶数サンプル成分に基づいて第2の奇数サンプル成分を取得するステップであって、第2の奇数サンプル画像内の各係数が、第2の増幅成分および第2の偶数サンプル成分内の対応する位置における係数間の差である、ステップと、中間詳細成分を取得するために、第2の偶数サンプル成分と第2の奇数サンプル成分とを組み合わせるステップであって、中間詳細成分の列または行分解能は詳細サブバンドI
(N+1-t)2または詳細サブバンドI
(N+1-t)3の列または行分解能の2倍であり、中間詳細成分の奇数列係数または奇数行係数は第2の奇数サンプル成分に由来し、中間詳細成分の偶数列係数または偶数行係数は第2の偶数サンプル成分に由来する、または言い換えれば、中間詳細成分の奇数列係数または奇数行係数は第2の奇数サンプル成分の一部または全体であり、中間詳細成分の偶数列係数または偶数行係数は第2の偶数サンプル成分の一部または全体である、ステップと、
中間近似成分に基づいて第3の増幅画像を取得するステップであって、第3の増幅成分内の各係数が中間近似成分内の対応する位置におけるピクセル値の2倍である、ステップと、第1の予測成分を取得するために、ウェーブレット変換モデルに基づいて中間近似成分を使用して予測を実行するステップと、第1の予測成分および中間詳細成分に基づいて第3の偶数サンプル成分を取得するステップと、第3の増幅成分および第3の偶数サンプル成分に基づいて第3の奇数サンプル成分を取得するステップであって、第3の奇数サンプル成分内の各係数が、第3の増幅成分および第3の偶数サンプル成分内の対応する位置における係数間の差である、ステップと、近似サブバンドP
N-tを取得するために第3の偶数サンプル成分と第3の奇数サンプル成分とを組み合わせるステップであって、近似サブバンドP
N-tの分解能は近似サブバンドP
N+1-tの分解能の2倍であり、近似サブバンドP
N-t内の奇数行係数または奇数列係数は第3の奇数サンプル成分に由来し、近似サブバンドP
N-t内の偶数行係数または偶数列係数は第3の偶数サンプル成分に由来する、または言い換えれば、近似サブバンドP
N-t内の奇数行係数または奇数列係数は第3の奇数サンプル成分の一部または全体であり、近似サブバンドP
N-t内の偶数行係数または偶数列係数は第3の偶数サンプル成分の一部または全体である、ステップと、
を含む。
【0084】
本明細書では、3N+1個のサブバンド内の近似サブバンドは、符号化対象画像に対してN番目のウェーブレット変換を実行することによって取得され、近似サブバンドはPNとして表すことができ、同時に取得される3つの詳細サブバンドは、それぞれ詳細サブバンドIN1、詳細サブバンドIN2、および詳細サブバンドIN3として表すことができることに留意されたい。詳細サブバンドIN1および近似サブバンドPNが同時に取得される。第1の逆ウェーブレット変換の対象は、近似サブバンドPN、詳細サブバンドIN1、詳細サブバンドIN2、および詳細サブバンドIN3である。第2の逆ウェーブレット変換の対象は、近似サブバンドPN-1、詳細サブバンドI(N-1)1、詳細サブバンドI(N-1)2、および詳細サブバンドI(N-1)3である。第3の逆ウェーブレット変換の対象は、近似サブバンドPN-2、詳細サブバンドI(N-2)1、詳細サブバンドI(N-2)2、および詳細サブバンドI(N-2)3である。この方法は類推によって適用される。t番目の逆ウェーブレット変換の対象は、近似サブバンドPN+1-t、詳細サブバンドI(N+1-t)1、詳細サブバンドI(N+1-t)2、および詳細サブバンドI(N+1-t)3である。
【0085】
前述の方法によれば、再構成画像を取得するためにN個の逆ウェーブレット変換が実行される。tがNに等しい場合、近似サブバンドPt-1は再構成画像である。
【0086】
ここで、tは0から開始してもよく、最大値はN-1であることに留意されたい。tがN-1に等しいとき、近似サブバンドPt-1は再構成画像である。
【0087】
可能な実施形態では、ウェーブレット変換モデルは、符号化対象画像に対してウェーブレット変換が実行される前に訓練され、逆ウェーブレット変換は、ウェーブレット変換モデルに基づいて再構成されたウェーブレット係数に対して実行される。
【0088】
図8は、本発明の一実施形態による、ニューラルネットワークに基づくウェーブレット変換のエンドツーエンド訓練フレームワークの概略図である。具体的には、ウェーブレット変換モデルを訓練する具体的なプロセスは、以下のステップを含む。
【0089】
ウェーブレット変換モデルが初期化され、N個のウェーブレット変換が、3N+1個のサブバンドを取得するために、初期化されたウェーブレット変換モデルに基づいて訓練画像に対して実行される。具体的なプロセスについては、
図2に示す実施形態の関連する説明を参照されたい。詳細は本明細書では繰り返し説明されない。3N個の再構成画像を取得するために、初期化されたウェーブレット変換モデルに基づいて、第1のサブバンド、第2のサブバンド、第3のサブバンド、...、および第3Nのサブバンドに対して順次逆ウェーブレット変換が実行される。具体的なプロセスについては、
図6に示す実施形態の関連する説明を参照されたい。詳細は本明細書では繰り返し説明されない。逆ウェーブレット変換中にサブバンドを選択するシーケンスについては、
図9を参照されたい。
図9は、N=2に基づいて提示されている。損失値は訓練画像および3N個の再構成画像に基づいて計算され、損失値
【数3】
R
iは3N個の再構成画像のi番目の画像であり、Iは訓練画像である。損失値に基づいてウェーブレット変換モデルのパラメータが更新され、新たなウェーブレット変換モデルが取得される。
【0090】
次に、3N個の新しい再構成画像を取得するために、新しいウェーブレット変換モデルを使用して前述の方法が実行される。次いで、損失値が、訓練画像および新しい3N個の再構成画像に基づいて再び計算される。そして、損失値の変動間隔が十分に小さいか、あるいは損失値が値に近ければ、ウェーブレット変換モデルの訓練が完了したと判定する。そうでない場合、ウェーブレット変換モデル内のパラメータは前述の方法に従って引き続き訓練され、次いで損失値が前述の方法に従って再び取得され、訓練が引き続き実行される。
【0091】
N個のウェーブレット変換におけるウェーブレット変換モデルのパラメータは一貫しているので、そのような訓練によって取得されたウェーブレット変換モデルは分解能に依存せず、任意の回数の分解を提供することができる。
【0092】
一実施形態では、Nは前の値、例えばN=3である。
【0093】
ここで、サブバンド符号化プロセス(すなわち、後続の量子化およびエントロピー符号化)では、従来のウェーブレット変換に基づいて各サブバンドの重要性が評価され、各サブバンドは同じ重要性を有すると見なされることに留意されたい。深層ニューラルネットワークに基づいてウェーブレット変換を実行することによって取得された各サブバンドのエネルギーのバランスをとり、事前設定されたアルゴリズムに基づいて3N+1個のサブバンドの利得係数を取得するために、サブバンド符号化プロセスでは、ウェーブレット変換を介して取得されたウェーブレット係数に対応する利得係数が乗算されて、最終的なウェーブレット係数が取得される。復号プロセスにおいて、復号または再構成されたウェーブレット係数が対応する利得係数で除算され、次いで逆ウェーブレット変換が実行されて再構成画像が取得される。
【0094】
以下、3N+1個のサブバンドの利得係数を取得するための予め設定されたアルゴリズムについて詳細に説明する。
【0095】
3N+1個のサブバンドは、c={c1,c2,c3,...,c3N+1}を用いて表すことができ、εは定数を示す。
【0096】
入力:xは訓練画像セットを示し、Leは、予想される誤差を示す。
【0097】
出力:3N+1個のサブバンドの利得係数{g1,g2,g3,...,g3N+1}。
【0098】
予め設定されたアルゴリズムの主要部は以下の通りである。
【0099】
t=1,2,3,...,3N+1のとき、
g
b=0、g=1、L=∞を初期化、
【数4】
または
【数5】
の場合、
平均値0および分散δ
2を有するガウシアンノイズnを生成する、
c=iWave
Fwd(x)、
c
t=(c
t×g+n)/g、
【数6】
【数7】
【数8】
の場合、
g
b=g、および
【数9】
および
【数10】
の場合、
g=(g
b+g)/2、および
g
t=g、ここで、
iWave
Fwdは深層ニューラルネットワークに基づくウェーブレット変換を示し、iWave
invは深層ニューラルネットワークに基づく逆ウェーブレット変換を示す。
【0100】
任意選択で、8ビット画像の場合、Le=1、ε=0.2、およびδ2=1である。
【0101】
前述の方法が画像符号化に適用される場合、利得係数は、前述の方法に従って各利用可能な値Nに基づく計算によって取得することができ、エンコーダおよびデコーダに組み込まれる。
【0102】
本出願のこの実施形態の解決策では、従来のウェーブレット変換に基づく画像符号化/復号方法では、深層ニューラルネットワークに基づいて取得されたウェーブレット変換モデルがウェーブレット変換および逆ウェーブレット変換を実行するために使用されることが分かる。深層ニューラルネットワークに基づくウェーブレット変換モデルは、訓練方法を使用して大量の自然画像を使用することによる最適化によって取得されるので、ウェーブレット変換モデルは、従来のウェーブレット変換よりもコンパクトな変換ドメイン表現を提供することができ、それによって符号化・復号性能を大幅に改善することができる。ウェーブレット変換モデルの機能をGPUを用いて実施する場合、ウェーブレット変換モデルは従来のウェーブレット変換と同じ速度を有する。複数の符号化試行を通して最適な方向パラメータを選択する適応指向性ウェーブレットと比較して、ウェーブレット変換モデルは、時間の複雑さが低いという利点を有し、自然画像特徴の多様性と複雑さとの間の矛盾、および人工的に設計されたウェーブレット基底関数の理想性と単純さを解決する。
【0103】
本明細書では、ウェーブレット変換に基づく画像符号化の別のプロセスについて説明する。
図10に示すように、ウェーブレット係数を取得するために、深層ニューラルネットワークに基づくウェーブレット変換が符号化対象画像に対して実行され、量子化されたウェーブレット係数を取得するために、ウェーブレット係数に対して量子化処理が実行され、圧縮されたビットストリームを取得するために、量子化されたウェーブレット係数に対して深層ニューラルネットワークに基づくエントロピー符号化が実行される。具体的なプロセスについては、
図11を参照されたい。
図11は、本出願の一実施形態によるウェーブレット変換に基づく別の画像符号化方法の概略フローチャートである。
図11に示されているように、方法は以下のステップを含む。
【0104】
S1101.ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得する。
【0105】
ウェーブレット変換モデルはCNNに基づいて実現され、ウェーブレット変換モデルは更新モデルおよび予測モデルを含み、更新モデルおよび予測モデル内のパラメータは異なる。
【0106】
実現可能な実施形態では、
図12に示すように、ウェーブレット変換モデルは予測モデルおよび更新モデルを含み、ウェーブレット係数を取得するために、ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行するステップは、
i番目のウェーブレット変換を実行するとき、奇数サンプル成分および偶数サンプル成分を取得するために、サブバンドXを分解するステップであって、奇数サンプル成分は、サブバンドX内の奇数行係数または奇数列係数を含み、偶数サンプル成分は、サブバンドX内の偶数行係数または偶数列係数を含む、ステップと、予測成分を取得するために、奇数サンプル成分を使用して予測モデルに基づいて予測を実行するステップであって、予測成分の分解能が奇数サンプル成分の分解能と一致する、ステップと、予測成分および偶数サンプル成分に基づいて中間詳細成分を取得するステップであって、中間詳細成分内の各係数が偶数サンプル成分および予測成分内の対応する位置における係数間の差のb倍である、ステップと、更新された成分を取得するために、中間詳細成分を使用して更新モデルに基づいて更新演算を実行するステップであって、更新された成分の分解能が中間詳細成分の分解能と一致する、ステップと、奇数サンプル成分と更新された成分とに基づいて中間近似成分を取得するステップであって、中間近似成分内の各係数は、奇数サンプル成分と更新された成分との対応する位置における係数の和のa倍である、ステップと、
を含む。
【0107】
同様に、サブバンドXの処理方法によれば、近似サブバンドおよび詳細サブバンドIi1を取得するために、中間近似成分が処理され、詳細サブバンドIi2および詳細サブバンドIi3を取得するために、中間詳細画像が処理される。
【0108】
iが1に等しい場合、サブバンドXは符号化対象画像である。iが1より大きい場合、サブバンドXは近似サブバンドPi-1であり、近似サブバンドPi-1は、(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドであり、ウェーブレット係数は、詳細サブバンドと、N個のウェーブレット変換を実行することによって取得された近似サブバンドと、を含み、合計3N+1個のサブバンドがある。
【0109】
別の可能な実施形態では、
図13に示すように、ウェーブレット変換モデルは予測モデルおよび更新モデルを含み、ウェーブレット変換モデルに基づいて符号化対象画像に対してi番目のウェーブレット変換を実行するステップは、具体的には、
奇数サンプル成分および偶数サンプル成分を取得するために、サブバンドXを分解するステップであって、奇数サンプル成分はサブバンドX内の奇数行係数または奇数列係数を含み、偶数サンプル成分はサブバンドX内の偶数行係数または偶数列係数を含む、ステップと、第1の予測成分を取得するために、奇数サンプル成分を使用して予測モデルに基づいて予測を実行するステップと、偶数サンプル成分および第1の予測成分に基づいて第1の補助更新成分を取得するステップであって、第1の補助更新成分内の各係数が、偶数サンプル成分および第1の予測成分内の対応する位置における係数間の差である、ステップと、第1の更新された成分を取得するために、第1の補助更新成分を使用して更新モデルに基づいて更新を実行するステップと、第1の更新された成分および奇数サンプル成分に基づいて第1の補助予測成分を取得するステップであって、第1の補助予測成分内の各係数が、第1の更新された成分および奇数サンプル成分内の対応する位置における係数の和である、ステップと、第2の予測成分を取得するために、第1の補助予測成分を使用して予測モデルに基づいて予測演算を実行するステップと、第1の補助更新成分と第2の予測成分とに基づいて第2の補助更新成分を取得するステップであって、第2の補助更新成分内の各係数が、第1の補助更新成分と第2の予測成分との対応する位置における係数の差である、ステップと、第2の補助更新成分に基づいて中間詳細成分を取得するステップであって、中間詳細成分内の各係数は、第2の補助更新成分内の対応する位置における係数のb倍である、ステップと、第2の補助更新成分を使用して更新モデルに基づいて第2の更新された成分を取得するステップと、第1の更新された成分および第2の更新された成分に基づいて中間近似成分を取得するステップであって、中間近似成分内の各係数は、第1の更新された成分および第2の更新された成分内の対応する位置における係数の和のa倍であり、aおよびbはスケーリングパラメータであり、ウェーブレット変換モデルのパラメータの一部である、ステップと、
を含む。
【0110】
サブバンドXを処理する上記のプロセスによれば、近似サブバンドPiおよび詳細サブバンドIi1を取得するために、中間近似成分も処理され、詳細サブバンドIi2および詳細サブバンドIi3を取得するために、中間詳細成分が処理される。
【0111】
iが1に等しい場合、サブバンドXは符号化対象画像である。iが1より大きい場合、サブバンドXは近似サブバンドPi-1であり、近似サブバンドPi-1は、(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドであり、ウェーブレット係数は、詳細サブバンドと、N個のウェーブレット変換を実行することによって取得された近似サブバンドと、を含み、合計3N+1個のサブバンドがある。
【0112】
本明細書では、iは0から開始してもよいことに留意されたい。この場合、iの最大値はN-1である。例えば、iが0に等しい場合、サブバンドXは符号化対象画像である。
【0113】
本明細書では、
図13および
図12から分かるように、
図13に示すウェーブレット変換プロセスは、
図12に示すものよりも1つ多い予測および更新プロセスを含むことに留意されたい。
図12は1つの予測および更新プロセスを含み、
図13は2つの予測および更新プロセスを含むと考えることができる。確かに、更新および予測の量は、代替的に別の値であってもよい。更新および予測の量は、本出願では限定されない。
【0114】
図14は、典型的な予測モデルの構造の図である。構造の図は、更新モデルの構造の図と考えることもできる。
図14において、「3×3×1個」は、現在の畳み込み層が、現在の畳み込み層を通過した後に1つの特徴マップを生成するために3×3のサイズの畳み込みカーネルを使用し、活性化関数を使用しないことを示す。「tanh/3×3×16」は、現在の畳み込み層が、3×3のサイズの畳み込みカーネルを使用して、現在の畳み込み層を通過した後に16個の特徴マップを生成し、tanhを活性化関数として使用することを示す。
【0115】
なお、N個のウェーブレット変換を実行する過程において、各ウェーブレット変換に用いられる予測モデルのパラメータは異なっていてもよく、用いられる予測モデルのパラメータも異なっていてもよい。
【0116】
一例では、ウェーブレット変換モデルのパラメータ(予測モデルのパラメータ、更新モデルのパラメータおよびスケーリング係数を含む)は、エンコーダおよびデコーダに埋め込まれ、送信される必要はない。
【0117】
S1102.ウェーブレット係数を量子化して、量子化されたウェーブレット係数を取得する。
【0118】
量子化されたウェーブレット係数は、
【数11】
として表すことができ、cは量子化前のウェーブレット係数であり、QPは量子化ステップであり、[・]は整数への丸めを意味する。
【0119】
量子化ステップQPは、ウェーブレット変換モデルとエントロピー符号化モデルとの統合訓練プロセスにおいて取得することができることに留意されたい。
【0120】
S1103.エントロピー符号化モデルに基づいて量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得する。
【0121】
量子化されたウェーブレット係数は3N+1個のサブバンドを含み、3N+1個のサブバンドは1つの近似サブバンドおよび3N個の詳細サブバンドを含む。
【0122】
実現可能な実施形態では、圧縮されたビットストリームを取得するためにエントロピー符号化モデルに基づいて量子化されたウェーブレット係数に対してエントロピー符号化を実行するステップは、
圧縮されたビットストリームを取得するために、エントロピー符号化モデルに基づいて量子化されたウェーブレット係数を符号化するステップであって、エントロピー符号化モデルは深層ニューラルネットワークに基づいて実現された、ステップを含む。
【0123】
さらに、圧縮されたビットストリームを取得するためにエントロピー符号化モデルに基づいて量子化されたウェーブレット係数に対してエントロピー符号化を実行するステップは、
計算によって符号化対象係数の累積確率分布関数のパラメータを取得するためにエントロピー符号化モデルにs番目のサブバンドを入力するステップであって、符号化対象係数はs番目のサブバンド内の任意の係数であり、s番目のサブバンドは3N+1個のサブバンドのうちの任意の1つである、ステップと、符号化対象係数の累積確率分布関数のパラメータに基づいて符号化対象係数の累積確率分布関数を取得するステップと、符号化対象係数および符号化対象係数の累積確率分布関数に基づいて符号化対象係数の確率分布を取得するステップと、符号化対象係数に対応するビットストリームを取得するために、算術エンコーダを使用して符号化対象係数の確率分布に基づいて符号化対象係数に対してエントロピー符号化を実行するステップであって、圧縮されたビットストリームは、符号化対象係数に対応するビットストリームを含む、ステップと、を含む。
【0124】
本明細書では、3N+1個のサブバンドは、
図9に示すサブバンドシーケンスに基づいて符号化され、第1のサブバンドは近似サブバンドであり、他のサブバンドは詳細サブバンドであり、近似サブバンドと詳細サブバンドとの間に差があることに留意されたい。したがって、近似サブバンドおよび詳細サブバンドには異なる符号化モードが使用される。言い換えれば、第1のサブバンドおよび第1でないサブバンドにおける係数の累積確率分布関数のパラメータは、異なる方法で取得される。
【0125】
可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドである場合、エントロピー符号化モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー符号化モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するためにs番目のサブバンドをエントロピー符号化モデルに入力するステップは、
Mが1に等しい場合、第1の窓処理された畳み込みカーネルを取得するために、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行するステップと、符号化対象係数の累積確率分布関数のパラメータを取得するために、第1の窓処理された畳み込みカーネルに基づいてs番目のサブバンドに対して畳み込み演算を実行するステップ、または、Mが1より大きい場合、第2の窓処理された畳み込みカーネルを取得するために、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行するステップと、j番目の出力データを取得するために、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行するステップと、
を含み、
jが1に等しい場合、j番目の畳み込み層の入力データは第1のサブバンドであり、jが1より大きくM以下である場合、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しい場合、j番目の出力データは、符号化対象係数の累積確率分布関数のパラメータを含む。
【0126】
例えば、エントロピー符号化モデルが
図15に示されていると仮定すると、エントロピー符号化モデルは4つの畳み込み層を含み、第1の畳み込み層「5×5×128/mask」は、現在の畳み込み層が5×5のサイズの畳み込みカーネルを使用して、現在の畳み込み層を通過した後に128個の特徴マップを生成することを示し、maskは、窓処理演算がこの層での畳み込み演算のためのものであることを示す。第2の畳み込み層「3×3×128/relu」は、現在の畳み込み層が、3×3のサイズの畳み込みカーネルを使用して、現在の畳み込み層を通過した後に128個の特徴マップを生成し、reluを活性化関数として使用することを示す。第3の畳み込み層は第2の畳み込み層と同じであり、「3×3×128/relu」は、現在の畳み込み層が、3×3のサイズの畳み込みカーネルを使用して、現在の畳み込み層を通過した後に128個の特徴マップを生成し、reluを活性化関数として使用することを示す。第4の畳み込み層3×3×58は、現在の畳み込み層が、3×3のサイズの畳み込みカーネルを使用して、現在の畳み込み層を通過した後に58個の特徴マップを生成し、活性化関数を使用しないことを示す。
【0127】
ここで、複数の畳み込み層を含むエントロピー符号化モデルについて、符号化対象係数の累積確率分布関数のパラメータを計算するプロセスでは、第1の畳み込み層に対応する畳み込みカーネルだけでなく、エントロピー符号化モデルにおける任意の1つまたは複数の畳み込み層に対応する畳み込みカーネルに対しても窓処理演算が実行されることに留意されたい。言い換えれば、符号化対象係数の累積確率分布関数のパラメータを計算するプロセスでは、エントロピー符号化モデルにおける任意の1つまたは複数の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行することができる。
【0128】
第1のサブバンドが
図15に示すエントロピー符号化モデルに入力されると、まず、
図16aに示す窓関数を使用して、窓処理された畳み込みカーネルを取得するために、第1の畳み込み層の畳み込みカーネル(すなわち、5×5)に対して窓処理演算を実行し、次いで、128個の特徴マップを取得するために、窓処理された畳み込みカーネルに基づいて第1のサブバンドに対して畳み込み演算が実行される。次に、
図16bに示す窓関数を使用して、窓処理された畳み込みカーネルを取得するために、第2の畳み込み層の畳み込みカーネル(すなわち、3×3)に対して窓処理演算を実行し、次いで、128個の特徴マップを取得するために、第1の畳み込み層によって出力された128個の特徴マップに対して畳み込み演算が実行される。
図16aおよび
図16bから、2つの窓関数の中心値が異なることが分かる。
図16bに示す窓関数を使用して、窓処理された畳み込みカーネルを取得するために、第3の畳み込み層の畳み込みカーネル(すなわち、3×3)に対して窓処理演算を実行し、次いで、128個の特徴マップを取得するために、第2の畳み込み層によって出力された128個の特徴マップに対して畳み込み演算が実行される。
図16bに示す窓関数を使用して、窓処理された畳み込みカーネルを取得するために、第4の畳み込み層の畳み込みカーネル(すなわち、3×3)に対して窓処理演算を実行し、次いで、58個の特徴マップを取得するために、第3の畳み込み層によって出力された128個の特徴マップに対して畳み込み演算が実行される。58個の特徴マップは、符号化対象関数の累積確率分布関数のパラメータを構成する。
【0129】
以下では、畳み込み層の畳み込みカーネルに対して窓処理演算を実行する目的を説明するために例を使用する。
図16に示すように、大きなブロックは、現在符号化されているサブバンドであり、サブバンド内の係数の符号化シーケンスは、左から右および上から下にあり、現在の畳み込み層の畳み込みカーネルは、5 x 5であり、現在の符号化対象係数は、
図17の5 x 5グリッドの中央位置で「X」である。係数の符号化シーケンスに基づいて、「X」の前の係数は符号化された係数であり、「X」の後の係数は符号化されていない係数である。現在の符号化対象係数の累積確率分布関数のパラメータは、符号化対象係数からの推論によってのみ取得することができる。したがって、畳み込み中に符号化された係数に対してのみ畳み込み演算を実行するために、畳み込み演算が実行される前に、畳み込みカーネルに対して窓処理演算を実行するために窓関数が使用される。窓関数のサイズは、畳み込みカーネルのサイズと同じである。
【0130】
図18は、畳み込みカーネル窓処理の原理の概略図である。
図18に示すように、窓処理された畳み込みカーネルを取得するために、畳み込みカーネルおよび窓関数に対して点乗算が実行される。窓処理された畳み込みカーネルでは、左から右へ、および上から下へのシーケンスにおいて、中心位置の前の値は不変のままであり、中心位置の後の値はすべて0に設定される。これは、畳み込み演算が窓処理された畳み込みカーネルを使用することによって実行されるとき、符号化された係数である「X」の前の係数のみが演算に関与することを可能にし、符号化された係数ではない「X」の後の係数が演算に関与することを可能にしないことを意味し、それによって復号論理の正確さが保証される。
【0131】
本明細書では、第1のサブバンド内の係数が符号化されるとき、いくつかの係数が中心として使用されるので、畳み込みカーネルのサイズと同じサイズの領域に空白部分があり、空白部分は埋められる必要があり、一般に「0」で埋められることに留意されたい。次に、係数の累積確率分布関数のパラメータが前述の方法に従って取得される。
【0132】
別の可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドではない場合、エントロピー符号化モデルは、第1のエントロピー符号化モデル、第2のエントロピー符号化モデル、および第3のエントロピー符号化モデルを含み、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルの両方は、pixelCNNに基づいて実現され、第3のエントロピー符号化モデルは、リカレントニューラルネットワーク(recurrent neural network、RNN)に基づいて実現され、第1のエントロピー符号化モデルは、T1個の畳み込み層を含み、第2のエントロピー符号化モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するためにs番目のサブバンドをエントロピー符号化モデルに入力するステップは、
第1の出力結果を取得するために、(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力するステップであって、第1の出力結果は第2のエントロピー符号化モデルの入力データであり、s番目のサブバンドは第1のエントロピー符号化モデルの入力データである、ステップと、
T1とT2の両方が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するステップであって、第2の出力結果が、符号化対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2が、それぞれ第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルにおける畳み込み層である、ステップ、または
T1が1より大きく、T2が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するステップであって、畳み込み層C1が、第1のエントロピー符号化モデルにおけるq番目の畳み込み層であり、畳み込み層C2が、第2のエントロピー符号化モデルにおける畳み込み層であり、qがT1に等しい場合、第2の出力結果が、符号化対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、T1より小さい場合、第2の出力結果が、第1のエントロピー符号化モデルにおける(q+1)番目の畳み込み層の入力データである、ステップ、または
T1およびT2の両方が1より大きい場合、第2の出力結果を取得するために畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するステップであって、畳み込み層C1が第1のエントロピー符号化モデルにおけるq1番目の畳み込み層であり、畳み込み層C2が第2のエントロピー符号化モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、q2がT2に等しい場合、第2の出力結果が符号化対象係数の累積確率分布関数のパラメータであるか、またはq1が0より大きくT1より小さく、q2が0より大きくT2より小さい場合、第2の出力結果が第1のエントロピー符号化モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー符号化モデルにおける(q2+1)番目の畳み込み層の入力データである、ステップと、
を含む。
【0133】
具体的には、T1とT2の両方が1に等しい場合、すなわち、第1のエントロピー符号化モデルと第2のエントロピー符号化モデルの両方が1つの畳み込み層を含む場合、
図19(a)に示すように、第1のエントロピー符号化モデルの入力データはs番目のサブバンドであり、第2のエントロピー符号化モデルの入力データは第3のエントロピー符号化モデルの出力データ(すなわち、第1の出力結果)である(すなわち、RNN)。第2の出力結果を取得するために、第1のエントロピー符号化モデルにおける畳み込み層(すなわち、畳み込み層C1)および第2のエントロピー符号化モデルにおける畳み込み層(すなわち、畳み込み層C2)に基づいて、s番目のサブバンドおよび第1の出力データに対して結合演算が実行される。一例では、第1のエントロピー符号化モデルの畳み込み層は「5×5×128/mask」であり、第2のエントロピー符号化モデルの畳み込み層は「5×5×128」である。
【0134】
T1が1より大きく、T2が1に等しい場合、第1のエントロピー符号化モデルは複数の畳み込み層を含み、第2のエントロピー符号化モデルは1つの畳み込み層を含む。可能な実施形態では、結合演算は、第1のエントロピー符号化モデルにおける任意の畳み込み層および第2のエントロピー符号化モデルにおける畳み込み層に基づいて実行されてもよく、すなわち、畳み込み層C1は、第1のエントロピー符号化モデルにおける任意の畳み込み層である。例えば、第1のエントロピー符号化モデルにおけるq番目の畳み込み層と、第2のエントロピー符号化モデルにおける畳み込み層とに基づいて、結合演算が実行される。qがT1に等しい場合、q番目の畳み込み層の入力データは、(q-1)番目の畳み込み層の出力データであり、第2の出力結果は、符号化対象係数の累積確率分布関数のパラメータである。qがT1より小さくかつ1より大きい場合、q番目の畳み込み層の入力データは、(q-1)番目の畳み込み層の出力データであり、q番目の畳み込み層の出力データは、(q+1)番目の畳み込み層の入力データである。qが1に等しい場合、q番目の畳み込み層の入力データはs番目のサブバンドであり、q番目の畳み込み層の出力データは(q+1)番目の畳み込み層の入力データである。
図19(b)に示すように、第1のエントロピー符号化モデルは4つの畳み込み層を含み、第2のエントロピー符号化モデルは1つの畳み込み層を含み、結合演算は、第1のエントロピー符号化モデルにおける第1の畳み込み層および第2のエントロピー符号化モデルにおける畳み込み層に基づいて実行される。
【0135】
T1およびT2の両方が1より大きい場合、すなわち、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルの両方が複数の畳み込み層を含むとき、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルにおける複数の畳み込み層に基づいて結合演算が実行される。
図19(c)に示すように、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルの両方は、4つの畳み込み層を含み、第1のエントロピー符号化モデルにおける第2の畳み込み層および第2のエントロピー符号化モデルにおける第3の畳み込み層に基づいて結合演算が実行され、第1のエントロピー符号化モデルにおける第4の畳み込み層および第2のエントロピー符号化モデルにおける第4の畳み込み層に基づいて結合演算が実行される。第1のエントロピー符号化モデルにおける第2の畳み込み層の入力データは、第1の畳み込み層においてs番目のサブバンドに対して畳み込み処理を実行することによって取得されたデータであり、第2のエントロピー符号化モデルにおける第3の畳み込み層の入力データは、第1の出力結果に対して、第1の畳み込み層および第2の畳み込み層で畳み込み処理を実行することによって取得されたデータであり、第1のエントロピー符号化モデルにおける第4の畳み込み層の入力データは、第3の畳み込み層の出力データであり、第2のエントロピー符号化モデルにおける第4の畳み込み層の入力データは、第3の畳み込み層の出力データであり、第2の出力結果は、第1のエントロピー符号化モデルにおける第4の畳み込み層と第2のエントロピー符号化モデルにおける第4の畳み込み層とに基づいて結合演算を実行することによって取得されたデータである。
【0136】
本明細書では、符号化プロセスにおいて、結合演算は第1のエントロピー符号化モデルによって実施されることに留意されたい。
【0137】
本明細書では、本出願で使用されるRNNは、3つのロングショートタームメモリ(long short term memory、LSTM)層を含むことに留意されたい。3つのLSTM層のパラメータは表1に示されており、ここでは詳細に説明しない。確かに、本出願で使用されるRNNは、代替的に別の形態のRNNであってもよい。これは、本出願では特に限定されない。
【0138】
【0139】
実現可能な実施形態では、(s-1)番目のサブバンドの分解能がs番目のサブバンドの分解能と異なる場合、第1の出力結果を取得するために、(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力するステップは、
畳み込み結果を取得するために、第3のエントロピー符号化モデルおよび第3のエントロピー符号化モデルの状態変数に基づいて、(s-1)番目のサブバンドに対して畳み込み演算を実行するステップと、第1の出力結果を取得するために畳み込み結果に対してアップサンプリングを実行するステップであって、第1の出力結果の分解能はs番目のサブバンドの分解能と同じである、ステップと、サンプリングされた状態変数を取得するために、畳み込み状態変数に対してアップサンプリングを実行するステップであって、サンプリングされた状態変数の分解能は、s番目のサブバンドの分解能と同じである、ステップと、を含む。
【0140】
例えば、
図9に示すように、第5のサブバンドが第4のサブバンドに基づいて符号化されるとき、第4のサブバンドと第5のサブバンドとの分解能は異なるため、第1の出力結果が取得されるとき、第1の出力結果の分解能が第5のサブバンドの分解能と一致するように、第3のエントロピー符号化モデルの出力に対してアップサンプリングが実行される必要がある。加えて、サンプリングされた状態変数を取得するために、畳み込み演算後の第3のエントロピー符号化モデルの状態変数に対してアップサンプリングが実行され、サンプリングされた状態変数の分解能は第5のサブバンドの分解能と同じである。
図20に示すように、第3のエントロピー符号化モデルに基づいて(s-1)番目のサブバンドに対して畳み込み演算が実行された後、サンプリングされた畳み込み結果が取得するために、畳み込み結果に対してアップサンプリングが実行され、サンプリングされた畳み込み結果は第1の出力結果であり、第1の出力結果の分解能はs番目のサブバンドの分解能と同じである。サンプリングされた状態変数を取得するために畳み込み状態変数に対してアップサンプリングが実行され、サンプリングされた状態変数の分解能はs番目のサブバンドの分解能と同じである。
【0141】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するステップは、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行するステップであって、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第1の入力データは、s番目のサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、第2の畳み込み結果を取得するために、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行するステップであって、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するステップと、を含む。
【0142】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するステップは、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、窓処理された第2の畳み込みカーネルを取得するために、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行するステップであって、第2の畳み込みカーネルが畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数が互いに相補的である、ステップと、第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいてs番目のサブバンドに対して畳み込み演算を実行するステップであって、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第1の入力データは、s番目のサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、第2の畳み込み結果を取得するために、窓処理された第2の畳み込みカーネルに基づいて第1の出力結果に対して畳み込み演算を実行するステップであって、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するステップと、
を含む。
【0143】
図21に示すように、第1の窓関数と第2の窓関数とは互いに相補的である。
【0144】
符号化対象係数の累積確率分布関数のパラメータは、前述の方法に従って取得され、パラメータはxで表される。符号化対象係数の累積確率分布関数のパラメータが58次元である場合、xで表される累積確率分布関数のパラメータは、以下のように表すことができる。
h=softplus(x[0:33])
b=x[33:46]
a=tanh(x[46:58])
【0145】
符号化対象係数をyで表し、累積確率分布関数のパラメータに基づいて符号化対象係数yの累積確率分布関数を計算する具体的なプロセスは以下の通りである。
y=matmul(reshape(h[0:3]、[3,1])、y)+reshape(b[0:3]、[3,1])、
y=y+reshape(a[0:3]、[3,1])・tanh(y)、
y=matmul(reshape(h[3:12]、[3、3])、y)+reshape(b[3:6]、[3,1])、
y=y+reshape(a[3:6]、[3,1])・tanh(y)、
y=matmul(reshape(h[12:21]、[3、3])、y)+reshape(b[6:9]、[3,1])、
y=y+reshape(a[6:9]、[3,1])・tanh(y)、
y=matmul(reshape(h[21:30]、[3、3])、y)+reshape(b[9:12]、[3,1])、
y=y+reshape(a[3,1]、[9:12])・tanh(y)、
y=matmul(reshape(h[30:33]、[1、3])、y)+b[12:13]、
y=sigmoid(y)
【0146】
前述の計算プロセスはcdf(y)と表され、すなわち、符号化対象係数の累積確率分布関数はcdf(y)である。
【0147】
次に、cdf(y)を用いてyの確率分布を計算する方法について説明する。
【0148】
yの値の範囲は既知であり、yの値の範囲は[y
min,y
max,QP]と表すことができ、y
minはyの最小値を表し、y
maxはyの最大値を表し、QPは量子化ステップを表し、y
minとy
maxとの間にQPの間隔でyの値が割り当てられることを表し、y
minおよびy
maxは訓練プロセスにおいて事前に制限される。y=y
0の場合、対応する確率値は以下のように与えられる。
【数12】
【0149】
他の値の確率も同様の方法で算出すれば、符号化対象係数の確率分布を取得することができる。次に、符号化対象係数のビットストリームを取得するために、符号化対象係数yの確率分布に基づいて、算術エンコーダを使用して符号化対象係数yに対してエントロピー符号化が実行される。
【0150】
前述の方法によれば、各サブバンドにおける各係数の累積確率分布関数のパラメータを取得することができ、次いで、各係数の確率分布関数が取得され、次いで、各係数の確率分布が取得され、次いで、圧縮されたビットストリームを取得するために、算術エンコーダを使用して各係数の確率分布に基づいて各係数に対してエントロピー符号化が実行される。
【0151】
ここで、エントロピー符号化モデルは、前述の実施形態で説明した深層ニューラルネットワークを使用して実装されることに限定されず、別の深層ニューラルネットワークを使用して実装されてもよいことに留意されたい。
【0152】
次に、ウェーブレット変換に基づく画像復号の他の処理について説明する。
図22に示すように、再構成されたウェーブレット係数を取得するために、深層ニューラルネットワークに基づくエントロピー復号が圧縮されたビットストリームに対して実行され、次いで、量子化解除されたウェーブレット係数を取得するために、再構成されたウェーブレット係数に対して量子化解除が実行され、再構成画像を取得するために、深層ニューラルネットワークに基づく逆ウェーブレット変換が量子化解除されたウェーブレット係数に対して実行される。詳細については、
図23を参照されたい。
図23は、本出願の一実施形態によるウェーブレット変換に基づく別の画像復号方法の概略フローチャートである。
図23に示されるように、方法は以下のステップを含む。
【0153】
S2301.エントロピー復号モデルに基づいて圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得し、エントロピー復号モデルは深層ニューラルネットワークに基づいて実現される。
【0154】
実現可能な実施形態では、圧縮されたビットストリームは3N+1個のサブバンドのビットストリームを含み、再構成されたウェーブレット係数は3N+1個の再構成されたサブバンドを含み、再構成されたウェーブレット係数を取得するためにエントロピー復号モデルに基づいて圧縮されたビットストリームに対してエントロピー復号を実行するステップは、
計算によって復号対象係数の累積確率分布関数のパラメータを取得するために、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力するステップであって、復号対象係数のビットストリームはs番目のサブバンドのビットストリームの一部であり、s番目のサブバンドは3N+1個のサブバンドのうちの任意の1つである、ステップと、復号対象係数の累積確率分布関数のパラメータに基づいて復号対象係数の累積確率分布関数を取得するステップと、復号対象係数と復号対象係数の累積確率分布関数とに基づいて復号対象係数の確率分布を取得するステップと、復号対象係数を取得するために、復号対象係数の確率分布に基づいて、算術デコーダを使用して復号対象係数のビットストリームに対してエントロピー復号を実行するステップであって、3N+1個の再構成されたサブバンドが復号対象係数を含む、ステップと、を含む。
【0155】
本明細書では、3N+1個のサブバンドは、
図9に示すサブバンドシーケンスに基づいて復号され、第1のサブバンドは近似サブバンドであり、他のサブバンドは詳細サブバンドであり、近似サブバンドと詳細サブバンドとの間に差があることに留意されたい。したがって、近似サブバンドおよび詳細サブバンドには異なる復号モードが使用される。言い換えれば、第1のサブバンドおよび第1でないサブバンドにおける係数の累積確率分布関数のパラメータは、異なる方法で取得される。
【0156】
ここで、サブバンドのビットストリームに対してエントロピー復号が実行されるとき、サブバンドの分解能と同じ分解能を有する再構成されたサブバンドが最初に作成され、再構成されたサブバンド内の係数はすべて0に設定されることに留意されたい。サブバンド内の係数が復号されるたびに、再構成されたサブバンド内の対応する位置の係数が復号された係数に更新され、次の係数を復号するために、更新された再構成されたサブバンドは、係数の後の次の係数を復号するためにエントロピー復号モデルに入力される必要がある。サブバンド内の係数の復号シーケンスは、左から右および上から下である。
【0157】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドである場合、エントロピー復号モデルはピクセルCNNに基づいて実現され、エントロピー復号モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、計算によって復号対象係数の累積確率分布関数のパラメータを取得するために、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力するステップは、
Mが1に等しい場合、第1の窓処理された畳み込みカーネルを取得するために、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行するステップと、復号対象係数の累積確率分布関数のパラメータを取得するために、第1の窓処理された畳み込みカーネルに基づいて、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行するステップ、または、Mが1より大きい場合、第2の窓処理された畳み込みカーネルを取得するために、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行するステップと、j番目の出力データを取得するために、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行するステップと、を含み、jが1に等しいとき、j番目の畳み込み層の入力データは、第1のサブバンドに対応する再構成されたサブバンドである、jが1より大きくM以下である場合、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しい場合、j番目の出力データは復号対象係数の累積確率分布関数のパラメータを含む。
【0158】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドではない場合、エントロピー復号モデルは、第1のエントロピー復号モデル、第2のエントロピー復号モデル、および第3のエントロピー復号モデルを含み、第1のエントロピー復号モデルおよび第3のエントロピー復号モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー復号モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、第1のエントロピー復号モデルは、T1個の畳み込み層を含み、第2のエントロピー復号モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、計算によって復号対象係数の累積確率分布関数のパラメータを取得するために、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力するステップは、
第1の出力結果を取得するために、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力するステップであって、(s-1)番目のサブバンドに対応する再構成されたサブバンドは、(s-1)番目のサブバンドのビットストリームに対してエントロピー復号を実行することによって取得され、第1の出力結果は、第2のエントロピー復号モデルの入力データであり、s番目のサブバンドに対応する再構成されたサブバンドは、第1のエントロピー復号モデルの入力データである、ステップと、
T1とT2の両方が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するステップであって、第2の出力結果が、復号対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2が、それぞれ第1のエントロピー復号モデルおよび第2のエントロピー復号モデルにおける畳み込み層である、ステップ、または
T1が1より大きく、T2が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおけるq番目の畳み込み層であり、畳み込み層C2が第2のエントロピー復号モデルにおける畳み込み層であり、qがT1に等しい場合、第2の出力結果が復号対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、T1より小さい場合、第2の出力結果が第1のエントロピー復号モデルにおける(q+1)番目の畳み込み層の入力データである、ステップ、または
T1およびT2の両方が1より大きい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおけるq1番目の畳み込み層であり、畳み込み層C2が第2のエントロピー復号モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、q2がT2に等しい場合、第2の出力結果が復号対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きくT1より小さく、q2が0より大きくT2より小さい場合、第2の出力結果が第1のエントロピー復号モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー復号モデルにおける(q2+1)番目の畳み込み層の入力データである、ステップと、
を含む。
【0159】
ここで、計算によって復号対象係数の累積確率分布関数のパラメータを取得するために、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力する具体的なプロセスについては、計算によって復号対象係数の累積確率分布関数のパラメータを取得するためにs番目のサブバンドをエントロピー復号モデルに入力するステップS1103の関連する説明を参照されたい。詳細は本明細書では繰り返し説明されない。
【0160】
実現可能な実施形態では、(s-1)番目のサブバンドに対応する再構成されたサブバンドの分解能がs番目のサブバンドに対応する再構成されたサブバンドの分解能と異なる場合、第1の出力結果を取得するために、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力し、方法は、
畳み込み結果を取得するために、第3のエントロピー復号モデルおよび第3のエントロピー復号モデルの状態変数に基づいて、(s-1)番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行するステップと、第1の出力結果を取得するために畳み込み結果に対してアップサンプリングを実行するステップであって、第1の出力結果の分解能はs番目のサブバンドに対応する再構成されたサブバンドの分解能と同じである、ステップと、サンプリングされた状態変数を取得するために、第3のエントロピー復号モデルに基づいて畳み込み状態変数に対してアップサンプリングを実行するステップであって、サンプリングされた状態変数の分解能はs番目のサブバンドの分解能と同じである、ステップと、
をさらに含む。
【0161】
第1の出力結果を取得するために、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力する具体的なプロセスについては、ステップS1103の関連する説明を参照されたい。詳細は本明細書では繰り返し説明されない。
【0162】
実現可能な実施形態では、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するステップは、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層である場合、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、第2の畳み込み結果を取得するために、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行するステップであって、畳み込み層C2が第2の復号/符号化モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するステップと、
を含む。
【0163】
実現可能な実施形態では、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するステップは、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、窓処理された第2の畳み込みカーネルを取得するために、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行するステップであって、第2の畳み込みカーネルが畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数が互いに相補的である、ステップと、
第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層である場合、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、第2の畳み込み結果を取得するために、窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行するステップであって、畳み込み層C2が第2の復号/符号化モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するステップと、
を含む。
【0164】
なお、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行する具体的なプロセスについては、ステップS1103の関連する説明を参照されたい。詳細は本明細書では繰り返し説明されない。
【0165】
S2302.再構成されたウェーブレット係数を量子化解除して、量子化解除されたウェーブレット係数を取得する。
【0166】
エントロピー復号(すなわち、再構成されたウェーブレット係数)によって取得されたウェーブレット係数は、
【数13】
として表されてもよく、量子化解除されたウェーブレット係数は、
【数14】
として表される。量子化解除プロセスは、以下のように表すことができる。
【数15】
【0167】
S2303.ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得し、Nは0より大きい整数である。
【0168】
ウェーブレット変換モデルはCNNに基づいて実現される。
【0169】
具体的には、量子化解除されたウェーブレット係数は3N+1個のサブバンドを含み、3N+1個のサブバンドは1つの近似サブバンドおよび3N個の詳細サブバンドを含む。再構成画像を取得するために、ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行するステップは、
t番目の逆ウェーブレット変換を実行するとき、第1の処理されたサブバンドおよび第2の処理されたサブバンドを取得するために近似サブバンドPN+1-tおよび詳細サブバンドI(N+1-t)1を更新および予測し、第1の処理されたサブバンドおよび第2の処理されたサブバンドに基づいて中間近似成分を取得するステップであって、中間近似成分の奇数列係数または奇数行係数は第1の処理されたサブバンドに由来し、中間近似成分の偶数列係数または偶数行係数は第2の処理されたサブバンドに由来する、ステップと、第3の処理されたサブバンドおよび第4の処理されたサブバンドを取得するために詳細サブバンドI(N+1-t)2および詳細サブバンドI(N+1-t)3を更新および予測し、第3の処理されたサブバンドおよび第4の処理されたサブバンドに基づいて中間詳細成分を取得するステップであって、中間詳細成分の奇数列係数または偶数行係数は第3の処理されたサブバンドに由来し、中間詳細成分の偶数列係数または偶数行係数は第4の処理されたサブバンドに由来する、ステップと、第5の処理されたサブバンドおよび第6の処理されたサブバンドを取得するために中間詳細成分および中間近似成分を更新および予測し、第5の処理されたサブバンドおよび第6の処理されたサブバンドに基づいて近似サブバンドPt-1を取得するステップであって、近似サブバンドPt-1の奇数行係数または奇数列係数は第5の処理されたサブバンドに由来し、近似サブバンドPt-1の偶数行係数または偶数列係数は第6の処理されたサブバンドに由来する、ステップと、
を含み、
詳細サブバンドI(N+1-t)1、詳細サブバンドI(N+1-t)2、および詳細サブバンドI(N+1-t)3の分解能は、近似サブバンドPN+1-tの分解能と同じであり、t番目の逆ウェーブレット変換が最後のウェーブレット変換である場合、近似サブバンドPt-1は再構成画像である。
【0170】
具体的には、ウェーブレット変換モデルは、更新モデルおよび予測モデルを含む。
図24に示すように、t番目の逆ウェーブレット変換が実行されるとき、近似サブバンドP
N+1-tに基づいて第1のスケーリングされた成分が取得され、第1のスケーリングされた成分内の各係数は、近似サブバンドP
N+1-t内の対応する位置における係数の1/aである。第2のスケーリングされた成分は、詳細サブバンドI
(N+1-t)1に基づいて取得され、第2のスケーリングされた成分内の各係数は、詳細サブバンド内の対応する位置における係数の1/bであり、更新された成分を取得するために、第2のスケーリングされた成分を使用して更新モデルに基づいて更新が実行される。第1の処理された成分(すなわち、奇数サンプル成分)は、更新された成分および第1のスケーリングされた成分に基づいて取得され、第1の処理された成分内の各係数は、第1のスケーリングされた成分および更新された成分内の対応する位置における係数間の差である。予測成分を取得するために、第1の処理された成分を使用して予測モデルに基づいて予測が実行される。第2の処理された成分(すなわち、偶数サンプル成分)は、第2のスケーリングされた成分および予測成分に基づいて取得され、第2の処理された成分内の各係数は、第2のスケーリングされた成分および予測成分内の対応する位置における係数の和である。中間近似成分は、第1の処理された成分および第2の処理された成分に基づいて取得され、中間近似成分の奇数行係数または奇数列係数は、第1の処理された成分に由来し、中間近似成分の偶数行係数または偶数列係数は、第2の処理された成分に由来する。換言すれば、中間近似成分における奇数行係数または奇数列係数は、第1の処理された成分の一部または全部に由来し、中間近似成分における偶数行係数または偶数列係数は、第2の処理された成分の一部または全部に由来する。
【0171】
前述の方法によれば、詳細サブバンドI(N+1-t)2および詳細サブバンドI(N+1-t)3が更新および予測されて、第3の処理された成分および第4の処理された成分が取得され、第3の処理された成分および第4の処理された成分に基づいて中間詳細成分が取得され、中間詳細成分の奇数行係数または奇数列係数は第3の処理された成分に由来し、中間詳細成分の偶数行係数または偶数列係数は第4の処理された成分に由来する。換言すれば、中間詳細成分内の奇数行係数または奇数列係数は第3の処理された成分の一部または全部であり、中間詳細成分内の偶数行係数または偶数列係数は第4の処理された成分の一部または全部である。
【0172】
前述の方法によれば、中間近似成分および中間詳細成分は、第5の処理された成分および第6の処理された成分を取得するために更新および予測され、近似サブバンドPN-tは、第5の処理された成分および第6の処理された成分に基づいて取得され、近似サブバンドPN-tの奇数列係数または奇数行係数は、第5の処理された成分に由来し、近似サブバンドPN-tの偶数列係数または偶数行係数は、第6の処理された成分に由来する。言い換えれば、近似サブバンドPN-t内の奇数列係数または奇数行係数は第5の処理された成分の一部または全部であり、近似サブバンドPN-t内の偶数列係数または偶数行係数は第6の処理された成分の一部または全部である。
【0173】
別の特定の実施形態では、ウェーブレット変換モデルは、更新モデルおよび予測モデルを含む。
図25に示すように、t番目の逆ウェーブレット変換が実行されると、近似サブバンドP
N+1-tに基づいて第1のスケーリングされた成分が取得され、詳細サブバンドI
(N+1-t)1に基づいて第2のスケーリングされた成分が取得され、第1のスケーリングされた成分内の各係数は、近似サブバンドP
N+1-t内の対応する位置における係数の1/aであり、第2のスケーリングされた成分内の各係数は、詳細サブバンドI
(N+1-t)1内の対応する位置における係数の1/bである。第2のスケーリングされた成分を使用して更新モデルに基づいて更新が実行され、第1の更新された成分が取得される。補助予測成分は、第1の更新された成分および第1のスケーリングされた成分に基づいて取得され、補助予測成分内の各係数は、第1のスケーリングされた成分および第1の更新された成分内の対応する位置における係数間の差である。第1の予測成分を取得するために、補助予測成分を使用して予測モデルに基づいて予測が実行される。補助更新成分は、第2のスケーリングされた成分および第1の予測成分に基づいて取得され、補助更新成分内の各係数は、第2のスケーリングされた成分および第1の予測成分内の対応する位置における係数の和である。第2の更新された成分を取得するために、補助更新成分を使用することによって更新モデルに基づいて更新が実行され、補助予測成分および第2の更新された成分に基づいて第1の処理された成分(すなわち、奇数サンプル成分)が取得され、第1の処理された成分の各係数は、第1の予測成分および第2の更新された成分の対応する位置における係数間の差である。第2の予測成分を取得するために、第1の処理された成分を使用して予測モデルに基づいて予測が実行される。第2の処理された成分(すなわち、偶数サンプル成分)は、第2の予測成分および補助更新成分に基づいて取得され、第2の処理された成分の各係数は、第2の予測成分および補助更新成分の対応する位置における係数の和である。
【0174】
中間近似成分は、第1の処理された成分および第2の処理された成分に基づいて取得され、中間近似成分の奇数行係数または奇数列係数は、第1の処理された成分に由来し、中間近似成分の偶数行係数または偶数列係数は、第2の処理された成分に由来する。換言すれば、中間近似成分における奇数行係数または奇数列係数は、第1の処理された成分の一部または全部に由来し、中間近似成分における偶数行係数または偶数列係数は、第2の処理された成分の一部または全部に由来する。
【0175】
前述の方法によれば、詳細サブバンドI(N+1-t)2および詳細サブバンドI(N+1-t)3が更新および予測されて、第3の処理された成分および第4の処理された成分が取得され、第3の処理された成分および第4の処理された成分に基づいて中間詳細成分が取得され、中間詳細成分の奇数行係数または奇数列係数は第3の処理された成分に由来し、中間詳細成分の偶数行係数または偶数列係数は第4の処理された成分に由来する。換言すれば、中間詳細成分内の奇数行係数または奇数列係数は第3の処理された成分の一部または全部であり、中間詳細成分内の偶数行係数または偶数列係数は第4の処理された成分の一部または全部である。
【0176】
前述の方法によれば、中間近似成分および中間詳細成分は、第5の処理された成分および第6の処理された成分を取得するために更新および予測され、近似サブバンドPN-tは、第5の処理された成分および第6の処理された成分に基づいて取得され、近似サブバンドPN-tの奇数列係数または奇数行係数は、第5の処理された成分に由来し、近似サブバンドPN-tの偶数列係数または偶数行係数は、第6の処理された成分に由来する。言い換えれば、近似サブバンドPN-t内の奇数列係数または奇数行係数は第5の処理された成分の一部または全部であり、近似サブバンドPN-t内の偶数列係数または偶数行係数は第6の処理された成分の一部または全部である。
【0177】
tがNに等しい場合、近似サブバンドPN-tは再構成画像である。
【0178】
本明細書では、tはさらに0から開始してもよいことに留意されたい。この場合、tの最大値はN-1である。例えば、tがN-1に等しい場合、近似サブバンドPN-tは再構成画像である。
【0179】
本明細書では、
図24および
図25から分かるように、
図25に示す逆ウェーブレット変換プロセスは、
図24に示すプロセスよりももう1つの予測および更新プロセスを含むことに留意されたい。
図24は1つの予測および更新プロセスを含み、
図25は2つの予測および更新プロセスを含むと考えることができる。確かに、更新および予測の量は、代替的に別の値であってもよい。更新および予測の量は、本出願では限定されない。
【0180】
なお、N個の逆ウェーブレット変換を実行するプロセスにおいて、各逆ウェーブレット変換に用いられる予測モデルのパラメータは異なっていてもよく、用いられる予測モデルのパラメータも異なっていてもよい。
【0181】
S2304.後処理モデルに基づいて再構成画像に対して後処理を実行して、処理された再構成画像を取得する。
【0182】
後処理モデルは、深層ニューラルネットワークに基づいて実現される。
【0183】
深層ニューラルネットワークに基づく後処理の目的は、再構成画像の品質を向上させることである。具体的には、再構成画像は、深層ニューラルネットワークに基づいて実現された後処理モデルに入力され、後処理モデルの出力は、処理された再構成画像、すなわち品質が向上した画像である。
図26は、典型的な後処理モデルの構造の概略図である。
図26において、「3×3×16」は、現在の畳み込み層が3×3の畳み込みカーネルを使用して16個の特徴マップを生成し、活性化関数を使用しないことを示す。「3×3×16/relu」は、現在の畳み込み層が3×3の畳み込みカーネルを使用して16個の特徴マップを生成し、活性化関数reluを使用することを示す。
【0184】
本明細書では、
図26に示す後処理モデルは単なる例であることに留意されたい。あるいは、後処理モデルは、別の形態の深層ニューラルネットワークに基づいて実現されてもよい。
【0185】
本明細書では、符号化および復号プロセスにおいて、エントロピー符号化モデルおよびエントロピー復号モデルも同じモデルであることに留意されたい。
【0186】
本出願の解決策では、従来のウェーブレット変換に基づく画像符号化/復号方法では、深層ニューラルネットワークに基づいて取得されたウェーブレット変換モデルがウェーブレット変換および逆ウェーブレット変換を実行するために使用されることが分かる。深層ニューラルネットワークに基づくウェーブレット変換モデルは、訓練方法を使用して大量の自然画像を使用することによる最適化によって取得されるので、ウェーブレット変換モデルは、従来のウェーブレット変換よりもコンパクトな変換ドメイン表現を提供することができ、それによって符号化・復号性能を大幅に改善することができる。ウェーブレット変換モデルの機能をGPUを用いて実施する場合、ウェーブレット変換モデルは従来のウェーブレット変換と同じ速度を有する。複数の符号化試行を通して最適な方向パラメータを選択する適応指向性ウェーブレットと比較して、ウェーブレット変換モデルは、時間の複雑さが低いという利点を有し、自然画像特徴の多様性と複雑さとの間の矛盾、および人工的に設計されたウェーブレット基底関数の理想性と単純さを解決する。加えて、エントロピー符号化・復号モデルおよび深層ニューラルネットワークに基づく後処理モデルが使用されるので、符号化・復号性能がさらに改善される。
【0187】
図27は、本発明の一実施形態による、ウェーブレット変換に基づく画像符号化装置の構造の概略図である。
図27に示すように、画像符号化装置2700は、
ウェーブレット係数を取得するために、ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行するように構成された変換モジュール2701であって、ウェーブレット変換モデルが畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nが0より大きい整数である、変換モジュール2701と、
量子化されたウェーブレット係数を取得するためにウェーブレット係数を量子化するように構成された量子化モジュール2702と、
圧縮されたビットストリームを取得するために量子化されたウェーブレット係数に対してエントロピー符号化を実行するように構成されたエントロピー符号化モジュール2703と、
を備える。
【0188】
実現可能な実施形態では、変換モジュール2701は、具体的には、
i番目のウェーブレット変換を実行するとき、奇数サンプル成分および偶数サンプル成分を取得するために、サブバンドXを分解し、奇数サンプル成分は、サブバンドX内の奇数行係数または奇数列係数を含み、偶数サンプル成分は、サブバンドX内の偶数行係数または偶数列係数を含み、
中間近似成分および中間詳細成分を取得するために、偶数サンプル成分および奇数サンプル成分に対して更新演算および予測演算を実行し、
第1のサンプル成分および第2のサンプル成分を取得するために中間近似成分を分解し、第1のサンプル成分は中間近似成分の奇数列係数または奇数行係数を含み、第2のサンプル成分は中間近似成分の偶数列係数または偶数行係数を含み、
第3のサンプル成分および第4のサンプル成分を取得するために中間詳細成分を分解し、第3のサンプル成分は中間詳細成分の奇数行係数または奇数行係数を含み、第4のサンプル成分は中間詳細成分の偶数列係数または偶数行係数を含み、
近似サブバンドPiおよび詳細サブバンドIi1を取得するために、第1のサンプル成分および第2のサンプル成分に対して更新演算および予測演算を実行し、詳細サブバンドIi2および詳細サブバンドIi3を取得するために、第3のサンプル成分および第4のサンプル成分に対して更新演算および予測演算を実行するように構成され、
ウェーブレット係数は、近似サブバンドPi、詳細サブバンドIi1、詳細サブバンドIi2、および詳細サブバンドIi3を含み、i番目のウェーブレット変換が第1のウェーブレット変換である場合、サブバンドXは符号化対象画像であり、または、i番目のウェーブレット変換が第1のウェーブレット変換でない場合、サブバンドXは近似サブバンドPi-1であり、近似サブバンドPi-1は(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドである。
【0189】
実現可能な実施形態では、予測演算がCNNに基づいて実現され、更新演算がCNNに基づいて実現され、または予測演算と更新演算の両方が、CNNに基づいて実現される。
【0190】
実現可能な実施形態では、エントロピー符号化モジュール2703は、具体的には、
圧縮されたビットストリームを取得するために、エントロピー符号化モデルに基づいて量子化されたウェーブレット係数を符号化するように構成され、エントロピー符号化モデルは深層ニューラルネットワークに基づいて実現される。
【0191】
実現可能な実施形態では、ウェーブレット係数は3N+1個のサブバンドを含み、エントロピー符号化モジュール2703は、具体的には、
計算によって符号化対象係数の累積確率分布関数のパラメータを取得するためにエントロピー符号化モデルにs番目のサブバンドを入力し、符号化対象係数はs番目のサブバンド内の任意の係数であり、s番目のサブバンドは3N+1個のサブバンドのうちの任意の1つであり、符号化対象係数の累積確率分布関数のパラメータに基づいて累積確率分布関数を取得し、符号化対象係数および符号化対象係数の累積確率分布関数に基づいて、符号化対象係数の確率分布を取得し、符号化対象係数に対応するビットストリームを取得するために、算術エンコーダを使用して符号化対象係数の確率分布に基づいて符号化対象係数に対してエントロピー符号化を実行し、圧縮されたビットストリームは、符号化対象係数に対応するビットストリームを含む、ように構成される。
【0192】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドである場合、エントロピー符号化モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー符号化モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するためにs番目のサブバンドをエントロピー符号化モデルに入力するとき、エントロピー符号化モジュール2703は、具体的には、
Mが1に等しい場合、第1の窓処理された畳み込みカーネルを取得するために、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行し、符号化対象係数の累積確率分布関数のパラメータを取得するために、第1の窓処理された畳み込みカーネルに基づいてs番目のサブバンドに対して畳み込み演算を実行し、または
Mが1より大きい場合、第2の窓処理された畳み込みカーネルを取得するために、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行し、j番目の出力データを取得するために、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行するように構成され、
jが1に等しい場合、j番目の畳み込み層の入力データは第1のサブバンドであり、jが1より大きくM以下である場合、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しい場合、j番目の出力データは、符号化対象係数の累積確率分布関数のパラメータを含む。
【0193】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドではない場合、エントロピー符号化モデルは、第1のエントロピー符号化モデル、第2のエントロピー符号化モデル、および第3のエントロピー符号化モデルを含み、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー符号化モデルは、RNNに基づいて実現され、第1のエントロピー符号化モデルは、T1個の畳み込み層を含み、第2のエントロピー符号化モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するためにs番目のサブバンドをエントロピー符号化モデルに入力するとき、エントロピー符号化モジュール2703は、具体的には、
第1の出力結果を取得するために、(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力し、第1の出力結果は第2のエントロピー符号化モデルの入力データであり、s番目のサブバンドは第1のエントロピー符号化モデルの入力データであり、
T1とT2の両方が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行し、第2の出力結果は、符号化対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2は、それぞれ第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルにおける畳み込み層であり、または
T1が1より大きく、T2が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行し、畳み込み層C1は、第1のエントロピー符号化モデルにおけるq番目の畳み込み層であり、畳み込み層C2は、第2のエントロピー符号化モデルにおける畳み込み層であり、qがT1に等しい場合、第2の出力結果は、符号化対象係数の累積確率分布関数のパラメータであり、またはqが0より大きくT1より小さい場合、第2の出力結果は、第1のエントロピー符号化モデルにおける(q+1)番目の畳み込み層の入力データであり、または
T1およびT2の両方が1より大きい場合、第2の出力結果を取得するために畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行し、畳み込み層C1は第1のエントロピー符号化モデルにおけるq1番目の畳み込み層であり、畳み込み層C2は第2のエントロピー符号化モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、q2がT2に等しい場合、第2の出力結果は符号化対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きくT1より小さく、q2が0より大きくT2より小さい場合、第2の出力結果は第1のエントロピー符号化モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー符号化モデルにおける(q2+1)番目の畳み込み層の入力データである、ように構成される。
【0194】
実現可能な実施形態では、(s-1)番目のサブバンドの分解能がs番目のサブバンドの分解能と異なる場合、第1の出力結果を取得するために、(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力するとき、エントロピー符号化モジュール2703は、具体的には、
畳み込み結果を取得するために、第3のエントロピー符号化モデルおよび第3のエントロピー符号化モデルの状態変数に基づいて、(s-1)番目のサブバンドに対して畳み込み演算を実行し、
第1の出力結果を取得するために、畳み込み結果に対してアップサンプリングを実行し、第1の出力結果の分解能はs番目のサブバンドの分解能と同じである、ように構成され、
第1の出力結果を取得するために畳み込み結果に対してアップサンプリングを実行した後に、エントロピー符号化モジュール2703は、
サンプリングされた状態変数を取得するために、畳み込み状態変数に対してアップサンプリングを実行し、サンプリングされた状態変数の分解能は、s番目のサブバンドの分解能と同じである、ようにさらに構成される。
【0195】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するとき、エントロピー符号化モジュール2703は、具体的には、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行し、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行し、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第1の入力データはs番目のサブバンドに対して畳み込み演算を実行することによって取得され、
第2の畳み込み結果を取得するために、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行し、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するように構成される。
【0196】
実現可能な実施形態では、第2の出力結果を取得するために畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するとき、エントロピー符号化モジュール2703は、具体的には、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行し、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
窓処理された第2の畳み込みカーネルを取得するために、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行し、第2の畳み込みカーネルは畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数は互いに相補的であり、
第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいてs番目のサブバンドに対して畳み込み演算を実行し、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第1の入力データはs番目のサブバンドに対して畳み込み演算を実行することによって取得され、
第2の畳み込み結果を取得するために、窓処理された第2の畳み込みカーネルに基づいて第1の出力結果に対して畳み込み演算を実行し、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するように構成される。
【0197】
前述のユニット(変換モジュール2701、量子化モジュール2702、およびエントロピー符号化モジュール2703)は、前述の方法における関連するステップを実行するように構成されることに留意されたい。例えば、変換モジュール2701は、ステップS201およびS1101における関連する内容を実行するように構成され、量子化モジュール2702は、ステップS1102における関連する内容を実行するように構成され、エントロピー符号化モジュール2703は、ステップS1103における関連する内容を実行するように構成される。
【0198】
この実施形態では、画像符号化装置2700はモジュールの形態で提示される。本明細書の「モジュール」は、特定用途向け集積回路(application-specific integrated circuit、ASIC)、1つまたは複数のソフトウェアまたはファームウェアプログラムを実行するためのプロセッサおよびメモリ、集積論理回路、および/または前述の機能を提供する。加えて、変換モジュール2701、量子化モジュール2702、およびエントロピー符号化モジュール2703は、
図30に示される画像符号化プロセッサ3001によって実現されてもよい。
【0199】
図28は、本発明の一実施形態による、ウェーブレット変換に基づく画像復号装置の構造の概略図である。
図28に示すように、画像復号装置2800は、
再構成されたウェーブレット係数を取得するために、圧縮されたビットストリームに対してエントロピー復号を実行するように構成されたエントロピー復号モジュール2801と、
量子化解除されたウェーブレット係数を取得するために、再構成されたウェーブレット係数を量子化解除するように構成された量子化解除モジュール2802と、
再構成画像を取得するためにウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行するように構成された逆変換モジュール2803であって、ウェーブレット変換モデルが畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nが0より大きい整数である、逆変換モジュールと、
を備える。
【0200】
実現可能な実施形態では、エントロピー復号モジュール2801は、具体的には、
再構成されたウェーブレット係数を取得するためにエントロピー復号モデルに基づいて圧縮されたビットストリームに対してエントロピー復号を実行するように構成され、エントロピー復号モデルは深層ニューラルネットワークに基づいて実現される。
【0201】
実現可能な実施形態では、エントロピー復号モジュール2801は、具体的には、
計算によって復号対象係数の累積確率分布関数のパラメータを取得するために、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力し、復号対象係数のビットストリームはs番目のサブバンドのビットストリームの一部であり、s番目のサブバンドに対応する再構成されたサブバンドは、3N+1個の再構成されたサブバンドのうちの任意の1つであり、復号対象係数の累積確率分布関数のパラメータに基づいて復号対象係数の累積確率分布関数を取得し、復号対象係数および復号対象係数の累積確率分布関数に基づいて、復号対象係数の確率分布を取得し、復号対象係数を取得するために、復号対象係数の確率分布に基づいて、算術デコーダを使用して復号対象係数のビットストリームに対してエントロピー復号を実行し、3N+1個の再構成されたサブバンドは復号対象係数を含む、ように構成される。
【0202】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドである場合、エントロピー復号モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー復号モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、計算によって復号対象係数の累積確率分布関数のパラメータを取得するためにs番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力するとき、エントロピー復号モジュール2801は、具体的には、
Mが1に等しい場合、第1の窓処理された畳み込みカーネルを取得するために、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行し、
復号対象係数の累積確率分布関数のパラメータを取得するために、第1の窓処理された畳み込みカーネルに基づいて、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行し、または
Mが1より大きい場合、第2の窓処理された畳み込みカーネルを取得するために、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行し、
j番目の出力データを取得するために、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行するように構成され、
jが1に等しい場合、j番目の畳み込み層の入力データは、第1のサブバンドに対応する再構成されたサブバンドであり、jが1より大きくM以下である場合、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しい場合、j番目の出力データは復号対象係数の累積確率分布関数のパラメータを含む。
【0203】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドではない場合、エントロピー復号モデルは、第1のエントロピー復号モデル、第2のエントロピー復号モデル、および第3のエントロピー復号モデルを含み、第1のエントロピー復号モデルおよび第3のエントロピー復号モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー復号モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、第1のエントロピー復号モデルは、T1個の畳み込み層を含み、第2のエントロピー復号モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、計算によって復号対象係数の累積確率分布関数のパラメータを取得するために、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力するとき、エントロピー復号モジュール2801は、具体的には、
第1の出力結果を取得するために、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力し、(s-1)番目のサブバンドに対応する再構成されたサブバンドは、(s-1)番目のサブバンドのビットストリームに対してエントロピー復号を実行することによって取得され、第1の出力結果は、第2のエントロピー復号モデルの入力データであり、s番目のサブバンドに対応する再構成されたサブバンドは、第1のエントロピー復号モデルの入力データであり、
T1とT2の両方が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1と畳み込み層C2とに基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行し、第2の出力結果は、復号対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2は、それぞれ第1のエントロピー復号モデルおよび第2のエントロピー復号モデルにおける畳み込み層であり、または
T1が1より大きく、T2が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行し、畳み込み層C1は第1のエントロピー復号モデルにおけるq番目の畳み込み層であり、畳み込み層C2は第2のエントロピー復号モデルにおける畳み込み層であり、qがT1に等しい場合、第2の出力結果は復号対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、T1より小さい場合、第2の出力結果は第1のエントロピー復号モデルにおける(q+1)番目の畳み込み層の入力データであり、または
T1とT2の両方が1より大きい場合、第2の出力結果を取得するために、畳み込み層C1と畳み込み層C2とに基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行し、畳み込み層C1は第1のエントロピー復号モデルにおけるq1番目の畳み込み層であり、畳み込み層C2は第2のエントロピー復号モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、q2がT2に等しい場合、第2の出力結果は復号対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きくT1より小さく、q2が0より大きくT2より小さい場合、第2の出力結果は第1のエントロピー復号モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー復号モデルにおける(q2+1)番目の畳み込み層の入力データである、ように構成される。
【0204】
実現可能な実施形態では、(s-1)番目のサブバンドに対応する再構成されたサブバンドの分解能がs番目のサブバンドに対応する再構成されたサブバンドの分解能と異なる場合、第1の出力結果を取得するために、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力するとき、エントロピー復号モジュール2801は、具体的には、
畳み込み結果を取得するために、第3のエントロピー復号モデルおよび第3のエントロピー復号モデルの状態変数に基づいて、(s-1)番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行し、
第1の出力結果を取得するために、畳み込み結果に対してアップサンプリングを実行し、第1の出力結果の分解能は、s番目のサブバンドに対応する再構成されたサブバンドの分解能と同じである、ように構成され、
第1の出力結果を取得するために畳み込み結果に対してアップサンプリングを実行した後に、エントロピー復号モジュール2801は、具体的には、
サンプリングされた状態変数を取得するために、畳み込み状態変数に対してアップサンプリングを実行し、サンプリングされた状態変数の分解能は、s番目のサブバンドの分解能と同じである、ようにさらに構成される。
実現可能な実施形態では、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するとき、エントロピー復号モジュール2801は、具体的には、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行し、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行し、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層である場合、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得され、
第2の畳み込み結果を取得するために、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行し、畳み込み層C2が第2の復号/符号化モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、
第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するように構成される。
【0205】
実現可能な実施形態では、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するとき、エントロピー復号モジュール2801は、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得し、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
窓処理された第2の畳み込みカーネルを取得するために、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行し、第2の畳み込みカーネルは畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数は互いに相補的であり、
第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行し、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層である場合、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得され、
第2の畳み込み結果を取得するために、窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行し、畳み込み層C2が第2の復号/符号化モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するように構成される。
【0206】
実現可能な実施形態では、逆変換モジュール2803は、具体的には、
t番目の逆ウェーブレット変換を実行するとき、第1の処理されたサブバンドおよび第2の処理されたサブバンドを取得するために、近似サブバンドPN+1-tおよび詳細サブバンドI(N+1-t)1に対して更新演算および予測演算を実行し、第1の処理されたサブバンドおよび第2の処理されたサブバンドに基づいて中間近似成分を取得し、中間近似成分の奇数列係数または奇数行係数は第1の処理されたサブバンドに由来し、中間近似成分の偶数列係数または偶数行係数は第2の処理されたサブバンドに由来し、
第3の処理されたサブバンドおよび第4の処理されたサブバンドを取得するために、詳細サブバンドI(N+1-t)2および詳細サブバンドI(N+1-t)3に対して更新演算および予測演算を実行し、第3の処理されたサブバンドおよび第4の処理されたサブバンドに基づいて中間詳細成分を取得し、中間詳細成分の奇数列係数または偶数行係数は第3の処理されたサブバンドに由来し、中間詳細成分の偶数列係数または偶数行係数は第4の処理されたサブバンドに由来し、
第5の処理されたサブバンドおよび第6の処理されたサブバンドを取得するために、中間詳細成分および中間近似成分に対して更新演算および予測演算を実行し、第5の処理されたサブバンドおよび第6の処理されたサブバンドに基づいて近似サブバンドPt-1を取得し、近似サブバンドPt-1の奇数行係数または奇数列係数は第5の処理されたサブバンドに由来し、近似サブバンドPt-1の偶数行係数または偶数列係数は第6の処理されたサブバンドに由来する、ように構成され、
詳細サブバンドI(N+1-t)1、詳細サブバンドI(N+1-t)2、および詳細サブバンドI(N+1-t)3の分解能は、近似サブバンドPN+1-tの分解能と同じであり、t番目の逆ウェーブレット変換が最後のウェーブレット変換である場合、近似サブバンドPt-1は再構成画像である。
【0207】
実現可能な実施形態では、予測演算がCNNに基づいて実現され、更新演算がCNNに基づいて実現され、または更新演算と予測演算の両方がCNNに基づいて実現される。
【0208】
実現可能な実施形態では、画像符号化装置2800は、
再構成画像を取得するために逆変換モジュール2803がウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行した後、処理された再構成画像を取得するために後処理モデルに基づいて再構成画像に対して後処理を実行するように構成された後処理モジュール2804であって、後処理モデルが深層ニューラルネットワークに基づいて実現された、後処理モジュールをさらに備える。
【0209】
前述のユニット(エントロピー復号モジュール2801、量子化解除モジュール2802、逆変換モジュール2803、および後処理モジュール2804)は、前述の方法における関連するステップを実行するように構成されることに留意されたい。例えば、エントロピー復号モジュール2801は、ステップS601およびS2301における関連する内容を実行するように構成され、量子化解除モジュール2802は、ステップS2302における関連する内容を実行するように構成され、逆変換モジュール2703は、ステップS2303における関連する内容を実行するように構成され、後処理モジュール2804は、ステップS2304における関連する内容を実行するように構成される。
【0210】
この実施形態では、画像符号化装置2800はモジュールの形態で提示される。本明細書の「モジュール」は、特定用途向け集積回路(application-specific integrated circuit、ASIC)、1つまたは複数のソフトウェアまたはファームウェアプログラムを実行するためのプロセッサおよびメモリ、集積論理回路、および/または前述の機能を提供する。加えて、エントロピー復号モジュール2801、量子化解除モジュール2802、逆変換モジュール2803、および後処理モジュール2804は、
図31に示す画像復号装置のプロセッサ3101によって実装されてもよい。
【0211】
図29は、本発明の一実施形態による訓練装置の構造の概略図である。
図29に示すように、訓練装置2900は、
ウェーブレット変換モデルを初期化するように構成された初期化モジュール2901と、
3N+1個のサブバンドを取得するために、初期化されたウェーブレット変換モデルに基づいて訓練画像に対してN個のウェーブレット変換を実行し、3N個の再構成画像を取得するために、初期化されたウェーブレット変換モデルに基づいて、第1のサブバンド、第2のサブバンド、第3のサブバンド、...、および第3Nのサブバンドに対して順次逆ウェーブレット変換を実行し、訓練画像および3N個の再構成画像に基づいて損失値を計算し、損失値
【数16】
R
iは3N個の再構成画像のi番目の画像であり、Iは訓練画像であり、前述の方法を数回繰り返し、損失値Lの変動幅が非常に小さい場合、ウェーブレット変換モデルの訓練が完了したと判定し、そうでない場合は、前述の方法に従ってウェーブレット変換モデルを訓練し続ける、ように構成された訓練モジュール2902と、
を備える。
【0212】
前述のユニット(初期化モジュール2901および訓練モジュール2902)は、前述の方法における関連するステップを実行するように構成されることに留意されたい。
【0213】
この実施形態では、訓練装置2900はモジュールの形態で提示される。本明細書の「モジュール」は、特定用途向け集積回路(application-specific integrated circuit、ASIC)、1つまたは複数のソフトウェアまたはファームウェアプログラムを実行するためのプロセッサおよびメモリ、集積論理回路、および/または前述の機能を提供する。さらに、初期化モジュール2901および訓練モジュール2902は、
図32に示す訓練装置のプロセッサ3201によって実装されてもよい。
【0214】
図30に示された画像符号化装置3000は、
図30の構造を使用して実装され得る。画像符号化装置3000は、少なくとも一つのプロセッサ3001と、少なくとも一つのメモリ3002と、少なくとも一つの通信インターフェース3003とを備える。プロセッサ3001、メモリ3002、および通信インターフェース3003は、通信バスを介して相互に接続され、通信する。
【0215】
プロセッサ3001は、汎用中央処理装置(CPU)、マイクロプロセッサ、特定用途向け集積回路(特定用途向け集積回路、ASIC)、または前述の解決策のプログラム実行を制御するための1つもしくは複数の集積回路とすることができる。
【0216】
通信インターフェース3003は、別のデバイス、またはイーサネット、無線アクセスネットワーク(RAN)、もしくは無線ローカルエリアネットワーク(Wireless Local Area Networks、WLAN)などの通信ネットワークと通信するように構成される。
【0217】
メモリ3002は、読取り専用メモリ(read-only memory、ROM)もしくは静的な情報および命令を記憶することができる別のタイプの静的記憶装置、ランダムアクセスメモリ(random access memory、RAM)もしくは情報および命令を記憶することができる別のタイプの動的記憶装置であってもよく、または電気的消去可能プログラマブル読取り専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROM)、コンパクトディスク読取り専用メモリ(Compact Disc Read-Only Memory、CD-ROM)もしくは別の光ディスク記憶装置、光ディスク記憶装置(圧縮された光ディスク、レーザディスク、光ディスク、デジタル多用途光ディスク、ブルーレイディスク等を含む)、磁気ディスク記憶媒体もしくは別の磁気記憶装置、または命令もしくはデータ構造の形態で予想されるプログラムコードを搬送もしくは記憶するために使用することができ、コンピュータによってアクセスすることができる任意の他の媒体であってもよい。メモリ3002はこれに限定されない。メモリは独立して存在してもよく、バスを介してプロセッサに接続される。あるいは、メモリは、プロセッサと一体化されていてもよい。
【0218】
メモリ3002は、前述の解決策を実行するためのアプリケーションプログラムコードを格納するように構成され、プロセッサ3001は実行を制御する。プロセッサ3001は、メモリ3002に格納されたアプリケーションプログラムコードを実行するように構成される。
【0219】
メモリ3002に記憶されたコードは、例えば、ウェーブレット変換に基づいて前述の画像符号化方法、すなわち、
ウェーブレット係数を取得するために、ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行するステップであって、ウェーブレット変換モデルは畳み込みニューラルネットワーク(CNN)に基づいて実現された、ステップと、量子化されたウェーブレット係数を取得するために、ウェーブレット係数を量子化するステップと、圧縮されたビットストリームを取得するために、量子化されたウェーブレット係数に対してエントロピー符号化を実行するステップと、
を含む方法を実行することができる。
【0220】
図31に示す画像復号装置3100は、
図31の構造を使用して実装することができる。画像復号装置3100は、少なくとも一つのプロセッサ3101と、少なくとも一つのメモリ3102と、少なくとも一つの通信インターフェース3103とを備える。プロセッサ3101、メモリ3102、および通信インターフェース3103は、通信バスを介して相互に接続され、通信する。
【0221】
プロセッサ3101は、汎用中央処理装置(CPU)、マイクロプロセッサ、特定用途向け集積回路(application-specific integrated circuit、ASIC)、または前述の解決策のプログラム実行を制御するための1つもしくは複数の集積回路とすることができる。
【0222】
通信インターフェース3103は、別のデバイス、またはイーサネット、無線アクセスネットワーク(RAN)、もしくは無線ローカルエリアネットワーク(Wireless Local Area Networks、WLAN)などの通信ネットワークと通信するように構成される。
【0223】
メモリ3102は、読取り専用メモリ(read-only memory、ROM)もしくは静的な情報および命令を記憶することができる別のタイプの静的記憶装置、ランダムアクセスメモリ(random access memory、RAM)もしくは情報および命令を記憶することができる別のタイプの動的記憶装置であってもよく、または電気的消去可能プログラマブル読取り専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROM)、コンパクトディスク読取り専用メモリ(Compact Disc Read-Only Memory、CD-ROM)もしくは別の光ディスク記憶装置、光ディスク記憶装置(圧縮された光ディスク、レーザディスク、光ディスク、デジタル多用途光ディスク、ブルーレイディスク等を含む)、磁気ディスク記憶媒体もしくは別の磁気記憶装置、または命令もしくはデータ構造の形態で予想されるプログラムコードを搬送もしくは記憶するために使用することができ、コンピュータによってアクセスすることができる任意の他の媒体であってもよい。メモリ3102はこれに限定されない。メモリは独立して存在してもよく、バスを介してプロセッサに接続される。あるいは、メモリは、プロセッサと一体化されていてもよい。
【0224】
メモリ3102は、前述の解決策を実行するためのアプリケーションプログラムコードを格納するように構成され、プロセッサ3101は実行を制御する。プロセッサ3101は、メモリ3102に格納されたアプリケーションプログラムコードを実行するように構成される。
【0225】
メモリ3102に記憶されたコードは、例えば、ウェーブレット変換に基づいて前述の画像復号方法、すなわち、
再構成されたウェーブレット係数を取得するために圧縮されたビットストリームに対してエントロピー復号を実行するステップと、量子化解除されたウェーブレット係数を取得するために再構成されたウェーブレット係数を量子化解除するステップと、再構成画像を取得するためにウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行するステップであって、ウェーブレット変換モデルは畳み込みニューラルネットワーク(CNN)に基づいて実現された、ステップと、
を含む方法を実行することができる。
【0226】
図32に示す訓練装置3200は、
図32の構造を使用して実装することができる。訓練装置3200は、少なくとも1つのプロセッサ3201と、少なくとも1つのメモリ3202と、少なくとも1つの通信インターフェース3203と、を備える。プロセッサ3201、メモリ3202、および通信インターフェース3203は、通信バスを介して相互に接続され、通信する。
【0227】
プロセッサ3201は、汎用CPU、マイクロプロセッサ、ASIC、または前述の解決策のプログラム実行を制御するように構成された1つもしくは複数の集積回路とすることができる。
【0228】
通信インターフェース3203は、別のデバイス、またはイーサネット、RAN、もしくはWLANなどの通信ネットワークと通信するように構成される。
【0229】
メモリ3202は、ROMもしくは静的情報および命令を記憶することができる別の種類の静的記憶装置、またはRAMもしくは情報および命令を記憶することができる別の種類の動的記憶装置、あるいは、EEPROM、CD-ROMもしくは別のコンパクトディスク記憶装置、光ディスク記憶装置(コンパクトディスク、レーザディスク、光ディスク、デジタル多用途ディスク、ブルーレイディスクなどを含む)、ディスク記憶媒体もしくは別の磁気記憶装置、または命令もしくはデータ構造の形態で予想されるプログラムコードを搬送もしくは記憶するために使用することができ、コンピュータによってアクセスすることができる任意の他の媒体であってもよい。しかしながら、メモリ3202はこれに限定されない。メモリは独立して存在してもよく、バスを介してプロセッサに接続される。あるいは、メモリは、プロセッサと一体化されていてもよい。
【0230】
メモリ3202は、前述の解決策を実行するためのアプリケーションプログラムコードを格納するように構成され、プロセッサ3201は実行を制御する。プロセッサ3201は、メモリ3202に格納されたアプリケーションプログラムコードを実行するように構成される。
【0231】
メモリ3202に記憶されたコードは、ウェーブレット変換モデルを訓練するための前述の方法、例えば、
ウェーブレット変換モデルを初期化するステップと、3N+1個のサブバンドを取得するために、初期化されたウェーブレット変換モデルに基づいて訓練画像に対してN個のウェーブレット変換を実行するステップと、3N個の再構成画像を取得するために、初期化されたウェーブレット変換モデルに基づいて、第1のサブバンド、第2のサブバンド、第3のサブバンド、...、および第3Nのサブバンドで逆ウェーブレット変換を順次実行するステップと、訓練画像および3N個の再構成画像に基づいて損失値を計算するステップであって、損失値
【数17】
R
iが3N個の再構成画像のi番目の画像であり、Iが訓練画像である、ステップと、前述の方法を数回繰り返し、損失値Lの変動幅が非常に小さい場合、ウェーブレット変換モデルの訓練が完了したと判定するステップと、そうでない場合、前述の方法に従ってウェーブレット変換モデルを訓練し続けるステップと、
を含む方法を実行することができる。
【0232】
なお、説明を簡潔にするため、前述した方法の実施形態は一連の行為として表現されている。しかし、当業者は、本発明によれば、いくつかのステップを他の順序で行い、または同時に行ってもよいため、本発明が記載されている動作順序だけに限定されないことを理解するはずである。さらに、当業者ならば、本明細書に説明されているすべての実施形態が好ましい実施形態であり、関連する動作およびモジュールが必ずしも本発明に必須ではないことも理解するはずである。
【0233】
前述の実施形態では、各実施形態の説明にはそれぞれの焦点がある。実施形態で詳細に説明されない部分については、他の実施形態の関連する説明を参照されたい。
【0234】
本出願で提供されるいくつかの実施形態において、開示の装置は他の方法でも実装され得ることを理解されたい。例えば、記載された装置実施形態は一例にすぎない。例えば、ユニットへの分割は、論理的な機能の分割にすぎず、実際の実装では他の分割であってもよい。例えば、複数のユニットまたは構成要素は、別のシステムに組み合わされるか統合されてもよいし、または一部の機能は無視されるか実行されなくてもよい。加えて、表示される、もしくは説明される相互結合または直接結合もしくは通信接続は、いくつかのインターフェースによって実装されてもよい。さらに、装置またはユニット間の間接結合または通信接続は、電気的または他の形態で実装されてもよい。
【0235】
別々の部分として記載されたユニットは、物理的に分離されていてもいなくてもよく、ユニットとして表示された部分は物理ユニットであってもなくてもよく、1つの場所に配置されてもよく、複数のネットワークユニットに分散されてもよい。ユニットの一部または全部は、実施形態において解決策の目的を達成するように実際の要件に応じて選択されてもよい。
【0236】
さらに、本発明の実施形態における機能ユニットは、1つの処理ユニットに統合されてもよいし、あるいはユニットの各々が物理的に単独で存在してもよいし、あるいは2つ以上のユニットが1つのユニットに統合されてもよい。統合ユニットは、ハードウェアの形態で実装されてもよく、またはソフトウェア機能ユニットの形態で実装されてもよい。
【0237】
統合ユニットがソフトウェア機能ユニットの形態で実装され、独立した製品として販売または使用される場合、統合ユニットはコンピュータ可読メモリに格納されてもよい。このような理解に基づいて、従来技術に本質的に寄与する本発明もしくはその一部の技術的解決策、または技術的解決策のすべてもしくは一部は、ソフトウェア製品の形態で実装することができる。コンピュータソフトウェア製品は、記憶媒体に格納され、本発明の実施形態において説明された方法のステップのすべてまたは一部を実行するために、コンピュータデバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスであってもよい)に命令するためのいくつかの命令を含む。上記記憶媒体は、USBフラッシュドライブ、読取り専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、取り外し可能ハードディスク、磁気ディスク、光ディスクといった、プログラムコードを記憶することができる任意の媒体を含む。
【0238】
当業者は、実施形態における方法のステップの全部または一部が関連ハードウェアに命令するプログラムによって実装されてよいことを理解されよう。プログラムはコンピュータ可読メモリに記憶されてもよい。メモリは、フラッシュメモリ、読取り専用メモリ(Read-Only Memory、略してROM)、ランダムアクセスメモリ(Random Access Memory、略してRAM)、磁気ディスク、光ディスクなどを含むことができる。
【0239】
以上、本発明の実施形態について詳細に説明した。本発明の原理および実装は、本明細書中の特定の例により説明される。本発明の実施形態に関する説明は、本発明の方法および中核となる思想の理解を助けるために提供されているにすぎない。さらに、当業者であれば、本発明の考え方に従った具体的な実装および適用範囲の観点から本発明を変形および修正することができる。したがって、本明細書の内容は、本発明に対する限定として解釈されるべきではない。
【符号の説明】
【0240】
2700 画像符号化装置
2701 変換モジュール
2702 量子化モジュール
2703 エントロピー符号化モジュール
2800 画像復号装置
2801 エントロピー復号モジュール
2802 量子化解除モジュール
2803 逆変換モジュール
2804 後処理モジュール
2900 訓練装置
2901 初期化モジュール
2902 訓練モジュール
3000 画像符号化装置
3001 プロセッサ
3002 メモリ
3003 通信インターフェース
3100 画像復号装置
3101 プロセッサ
3102 メモリ
3103 通信インターフェース
3200 訓練装置
3201 プロセッサ
3202 メモリ
3203 通信インターフェース
【手続補正書】
【提出日】2022-02-24
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2019年7月15日に中国国家知識産権局に出願された、発明の名称を「ウェーブレット変換に基づく画像符号化/復号方法および装置」とする中国特許出願第201910639304.5号の優先権を主張し、参照によりその全体が本明細書に組み入れられる。
【0002】
本発明は、画像符号化/復号の分野に関し、特に、ウェーブレット変換に基づく画像符号化/復号方法および装置に関する。
【背景技術】
【0003】
デジタル画像は、デジタル信号として記録された画像情報である。デジタル画像(以下、画像と呼ぶ)は、M×N個のサンプルを含むM行およびN列の2次元アレイと考えることができ、各サンプルの位置をサンプル位置と呼び、各サンプルの値をサンプル値と呼ぶ。
【0004】
画像保存や伝送などの用途では、通常、記憶容量や伝送帯域幅を削減するために画像符号化処理を実行する必要がある。典型的な画像符号化プロセスは、一般に、変換、量子化、およびエントロピー符号化の3つのステップを含む。符号化対象画像の場合、第1のステップは、より集中したエネルギー分布を有する変換係数を取得するために、変換を実行することによって符号化対象画像を非相関化することである。第2のステップは、量子化係数を取得するために、変換係数を量子化することである。第3のステップは、圧縮されたビットストリームを取得するために、量子化された係数に対してエントロピー符号化を実行することである。
【0005】
画像符号化に使用される一般的な変換モードは、離散コサイン変換、ウェーブレット変換などである。ウェーブレット変換は、画像の定位やマルチスケール解析を行い、信号変化の詳細に着目することができる局所変換方法であり、画像符号化タスクに非常に適している。
【0006】
異なるウェーブレット変換は、異なるフィルタ係数を指す。従来のウェーブレット変換のフィルタ係数は、一般に、理想的な仮定の下での信号処理の観点から設計される。このようにして取得されたウェーブレット変換は、自然画像の複雑さや多様性に適応することができない。また、2次元ウェーブレット変換は、行方向および列方向の1次元ウェーブレット変換の組み合わせを含み、行方向および列方向の特徴を処理するのに適しているが、他の方向の特徴および無指向性の特徴を処理することができない。
【0007】
前述の欠点を考慮して、従来技術ではいくつかの解決策が提案されている。例えば、信号処理分野では、Curvelet、Ridgelet、Contourlet、Bandelet、Shearletなどの複数の指向性ウェーブレットが提案され、設計されている。符号化中、ウェーブレット係数を取得するために、まず指向性ウェーブレットを使用して画像に対してウェーブレット変換が実行される。次いで、圧縮されたビットストリームを取得するために、ウェーブレット係数に対して量子化およびエントロピー符号化が実行される。画像復号中、再構成されたウェーブレット係数を取得するために、まずエントロピー復号および量子化解除が圧縮されたビットストリームに対して実行される。次いで、再構成画像を取得するために、逆方向ウェーブレット変換が実行される。指向性ウェーブレットの基本的な概念は、有限の指向性基底関数のグループを設計することである。しかしながら、任意の方向の空間相関は、本質的にコンパクトに表現することができない。さらに、指向性ウェーブレットは、一般に、ある量の冗長係数を生成し、指向性ウェーブレットを画像符号化に適用することは、圧縮比を改善するのに役立たない。最後に、指向性ウェーブレットは、画像内の異なる指向性特徴のみを処理し、自然な画像特徴の多様性および複雑性と、人工的に設計されたウェーブレット基底関数の理想性および単純性との間の矛盾を解決しない。したがって、指向性ウェーブレットが画像符号化に適用される場合、画像符号化効率は高くない。
【0008】
別の例は、適応指向性ウェーブレットに基づく画像符号化方法である。方法は、画像符号化においてブロック分割の概念を使用し、画像ブロックを符号化するとき、複数の方向のウェーブレット変換を試みることによって画像ブロックに最も適した方向パラメータを選択する。次に、画像ブロック内の特定の方向の特徴を処理するために、ウェーブレット基底関数を対応する方向に回転させ、ウェーブレット係数を取得するために変換ステップが実装され、サブバンド符号化方法を使用してウェーブレット係数を符号化することによって圧縮されたビットストリームが取得される。加えて、方向パラメータは、通常の復号プロセスをサポートするために圧縮されたビットストリームに書き込まれる。復号中、再構成されたウェーブレット係数を取得するために、まず圧縮されたビットストリームに対してエントロピー復号および量子化解除が実行され、圧縮されたビットストリームから方向パラメータが抽出される。再構成画像が取得するために、再構成されたウェーブレット係数および方向パラメータを使用して適応逆方向ウェーブレット変換が実行される。適応指向性ウェーブレットは、画像自体の指向特性に基づいて対応する方向のウェーブレット基底関数を適応的に選択することができるが、指向性ウェーブレットが有限基底関数のみを使用することができるという欠点は克服される。しかしながら、ブロック分割に基づく方向パラメータ選択は、複数の符号化決定プロセスに依存する。したがって、符号化の複雑さが大幅に増大する。加えて、適応指向性ウェーブレットは、依然として、自然な画像特徴の多様性および複雑性と、人工的に設計されたウェーブレット基底関数の理想性および単純性との間の矛盾を解決しない。
【0009】
要約すると、従来技術における画像符号化・復号の効率は低く、自然画像特徴の多様性および複雑性と人工的に設計されたウェーブレット基底関数の理想性および単純性との間の矛盾を解決することができない。
【発明の概要】
【課題を解決するための手段】
【0010】
本発明の実施形態は、ウェーブレット変換に基づく画像符号化/復号方法および装置を提供する。本発明の実施形態は、画像符号化・復号の効率を改善し、自然画像特徴の多様性および複雑性と人工的に設計されたウェーブレット基底関数の理想性および単純性との間の矛盾を解決するために使用される。
【0011】
第1の態様によれば、本発明の一実施形態は、ウェーブレット変換に基づく画像符号化方法を提供し、方法は、
ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得するステップであって、ウェーブレット変換モデルは畳み込みニューラルネットワーク(convolutional neural network(CNN))に基づいて実現され、Nは0より大きい整数である、ステップと、ウェーブレット係数を量子化して、量子化されたウェーブレット係数を取得するステップと、量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得するステップと、を含む。
【0012】
符号化対象画像に対するウェーブレット変換には、CNNに基づいて実現されたウェーブレット変換モデルが用いられる。深層ニューラルネットワークに基づくウェーブレット変換モデルは、訓練方法を用いて大量の自然画像を使用することによる最適化によって取得されるので、深層ニューラルネットワークに基づくウェーブレット変換モデルは、従来のウェーブレット変換よりもコンパクトな変換ドメイン表現を提供することができ、それによって符号化・復号性能を大幅に改善することができる。
【0013】
実現可能な実施形態では、ウェーブレット係数は3N+1個のサブバンドを含み、ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得するステップは、
i番目のウェーブレット変換を実行するとき、サブバンドXを分解して、奇数サンプル成分および偶数サンプル成分を取得するステップであって、奇数サンプル成分は、サブバンドX内の奇数行係数または奇数列係数を含み、偶数サンプル成分は、サブバンドX内の偶数行係数または偶数列係数を含む、ステップと、
偶数サンプル成分および奇数サンプル成分に対して更新演算および予測演算を実行して、中間近似成分および中間詳細成分を取得するステップと、
中間近似成分を分解して、第1のサンプル成分および第2のサンプル成分を取得するステップであって、第1のサンプル成分は中間近似成分の奇数列係数または奇数行係数を含み、第2のサンプル成分は中間近似成分の偶数列係数または偶数行係数を含む、ステップと、
中間詳細成分を分解して、第3のサンプル成分および第4のサンプル成分を取得するステップであって、第3のサンプル成分は中間詳細成分の奇数行係数または奇数列係数を含み、第4のサンプル成分は中間詳細成分の偶数列係数または偶数行係数を含む、ステップと、
第1のサンプル成分および第2のサンプル成分に対して更新演算および予測演算を実行して、近似サブバンドPiおよび詳細サブバンドIi1を取得するステップと、第3のサンプル成分および第4のサンプル成分に対して更新演算および予測演算を実行して、詳細サブバンドIi2および詳細サブバンドIi3を取得するステップと、
を含み、
ウェーブレット係数は、近似サブバンドPi、詳細サブバンドIi1、詳細サブバンドIi2、および詳細サブバンドIi3を含み、i番目のウェーブレット変換が第1のウェーブレット変換であるとき、サブバンドXは符号化対象画像であり、またはi番目のウェーブレット変換が第1のウェーブレット変換でないとき、サブバンドXは近似サブバンドPi-1であり、近似サブバンドPi-1は(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドである。
【0014】
符号化対象画像に対するウェーブレット変換には、CNNに基づいて実現されたウェーブレット変換モデルが用いられる。ウェーブレット変換モデルの機能をGPUを用いて実現するとき、ウェーブレット変換モデルは、従来のウェーブレット変換と同等の速度を有する。複数の符号化試行を通して最適な方向パラメータを選択する適応指向性ウェーブレットと比較して、ウェーブレット変換モデルは、時間の複雑さが低いという利点を有し、自然画像特徴の多様性と複雑さとの間の矛盾、および人工的に設計されたウェーブレット基底関数の理想性と単純さを解決する。
【0015】
実現可能な実施形態では、予測演算がCNNに基づいて実現され、更新演算がCNNに基づいて実現され、または予測演算と更新演算の両方が、CNNに基づいて実現される。
【0016】
実現可能な実施形態では、量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得するステップは、
エントロピー符号化モデルに基づいて量子化されたウェーブレット係数を符号化して、圧縮されたビットストリームを取得するステップであって、エントロピー符号化モデルは深層ニューラルネットワークに基づいて実現された、ステップ
を含む。
【0017】
実現可能な実施形態では、ウェーブレット係数は3N+1個のサブバンドを含み、エントロピー符号化モデルに基づいて量子化されたウェーブレット係数を符号化して、圧縮されたビットストリームを取得するステップは、
エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するステップであって、符号化対象係数はs番目のサブバンド内の任意の係数であり、s番目のサブバンドは3N+1個のサブバンドのうちの任意の1つである、ステップと、符号化対象係数の累積確率分布関数のパラメータに基づいて累積確率分布関数を取得するステップと、符号化対象係数および符号化対象係数の累積確率分布関数に基づいて符号化対象係数の確率分布を取得するステップと、算術エンコーダを使用して符号化対象係数の確率分布に基づいて符号化対象係数に対してエントロピー符号化を実行して、符号化対象係数に対応するビットストリームを取得するステップであって、圧縮されたビットストリームは、符号化対象係数に対応するビットストリームを含む、ステップと、を含む。
【0018】
量子化されたウェーブレット係数が符号化されるとき、深層ニューラルネットワークに基づくエントロピー符号化モデルが符号化に使用される。従来技術と比較して、画像の圧縮比性能を向上させることができる。
【0019】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドであるとき、エントロピー符号化モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー符号化モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するステップは、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得するステップと、第1の窓処理された畳み込みカーネルに基づいてs番目のサブバンドに対して畳み込み演算を実行して、符号化対象係数の累積確率分布関数のパラメータを取得するステップ、または、Mが1より大きいとき、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得するステップと、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するステップと、
を含み、
jが1に等しいとき、j番目の畳み込み層の入力データは第1のサブバンドであり、jが1より大きく、かつMより大きくないとき、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しいとき、j番目の出力データは、符号化対象係数の累積確率分布関数のパラメータを含む。
【0020】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドでないとき、エントロピー符号化モデルは、第1のエントロピー符号化モデル、第2のエントロピー符号化モデル、および第3のエントロピー符号化モデルを含み、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー符号化モデルは、リカレントニューラルネットワーク(recurrent neural network(RNN))に基づいて実現され、第1のエントロピー符号化モデルは、T1個の畳み込み層を含み、第2のエントロピー符号化モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するステップは、
(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力して、第1の出力結果を取得するステップであって、第1の出力結果は第2のエントロピー符号化モデルの入力データであり、s番目のサブバンドは第1のエントロピー符号化モデルの入力データである、ステップと、
T1およびT2の両方が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、第2の出力結果が、符号化対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2が、それぞれ第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルにおける畳み込み層である、ステップ、または
T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、畳み込み層C1が、第1のエントロピー符号化モデルにおけるq番目の畳み込み層であり、畳み込み層C2が、第2のエントロピー符号化モデルにおける畳み込み層であり、qがT1に等しいならば、第2の出力結果が、符号化対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、かつT1より小さいならば、第2の出力結果が、第1のエントロピー符号化モデルにおける(q+1)番目の畳み込み層の入力データである、ステップ、または
T1およびT2の両方が1より大きいとき、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、畳み込み層C1が第1のエントロピー符号化モデルにおけるq1番目の畳み込み層であり、畳み込み層C2が第2のエントロピー符号化モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、q2がT2に等しいならば、第2の出力結果が符号化対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、第2の出力結果が第1のエントロピー符号化モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー符号化モデルにおける(q2+1)番目の畳み込み層の入力データである、ステップと、
を含む。
【0021】
実現可能な実施形態では、(s-1)番目のサブバンドの分解能がs番目のサブバンドの分解能と異なるとき、(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力して、第1の出力結果を取得するステップは、
第3のエントロピー符号化モデルおよび第3のエントロピー符号化モデルの状態変数に基づいて、(s-1)番目のサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得するステップと、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得するステップであって、第1の出力結果の分解能はs番目のサブバンドの分解能と同じである、ステップと、
を含み、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得するステップの後に、方法は、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するステップであって、サンプリングされた状態変数の分解能はs番目のサブバンドの分解能と同じである、ステップ
をさらに含む。
【0022】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行することは、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第1の入力データは、s番目のサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するステップと、を含む。
【0023】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップは、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、
第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するステップであって、第2の畳み込みカーネルが畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数が互いに相補的である、ステップと、
窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第1の入力データは、s番目のサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するステップと、を含む。
【0024】
第2の態様によれば、本発明の一実施形態は、ウェーブレット変換に基づく画像復号方法を提供し、方法は、
圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するステップと、再構成されたウェーブレット係数を量子化解除して、量子化解除されたウェーブレット係数を取得するステップと、ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得するステップであって、ウェーブレット変換モデルは畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nは0より大きい整数である、ステップと、
を含む。
【0025】
実現可能な実施形態では、圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するステップは、
エントロピー復号モデルに基づいて圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するステップであって、エントロピー復号モデルは深層ニューラルネットワークに基づいて実現された、ステップ
を含む。
【0026】
実現可能な実施形態では、圧縮されたビットストリームは3N+1個のサブバンドのビットストリームを含み、再構成されたウェーブレット係数は3N+1個の再構成されたサブバンドを含み、エントロピー復号モデルに基づいて圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するステップは、
s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するステップであって、復号対象係数のビットストリームはs番目のサブバンドのビットストリームの一部であり、s番目のサブバンドに対応する再構成されたサブバンドは、3N+1個の再構成されたサブバンドのうちの任意の1つである、ステップと、復号対象係数の累積確率分布関数のパラメータに基づいて復号対象係数の累積確率分布関数を取得するステップと、復号対象係数と復号対象係数の累積確率分布関数とに基づいて復号対象係数の確率分布を取得するステップと、復号対象係数の確率分布に基づいて、算術デコーダを使用して復号対象係数のビットストリームに対してエントロピー復号を実行して、復号対象係数を取得するステップであって、3N+1個の再構成されたサブバンドが復号対象係数を含む、ステップと、
を含む。
【0027】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドであるとき、エントロピー復号モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー復号モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するステップは、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得するステップと、第1の窓処理された畳み込みカーネルに基づいて、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行して、復号対象係数の累積確率分布関数のパラメータを取得するステップ、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得するステップと、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するステップと、
を含み、
jが1に等しいとき、j番目の畳み込み層の入力データは、第1のサブバンドに対応する再構成されたサブバンドであり、jが1より大きく、かつMより大きくないとき、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しいとき、j番目の出力データは復号対象係数の累積確率分布関数のパラメータを含む。
【0028】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドではないとき、エントロピー復号モデルは、第1のエントロピー復号モデル、第2のエントロピー復号モデル、および第3のエントロピー復号モデルを含み、第1のエントロピー復号モデルおよび第2のエントロピー復号モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー復号モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、第1のエントロピー復号モデルは、T1個の畳み込み層を含み、第2のエントロピー復号モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するステップは、
(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力して、第1の出力結果を取得するステップであって、(s-1)番目のサブバンドに対応する再構成されたサブバンドは、(s-1)番目のサブバンドのビットストリームに対してエントロピー復号を実行することによって取得され、第1の出力結果は、第2のエントロピー復号モデルの入力データであり、s番目のサブバンドに対応する再構成されたサブバンドは、第1のエントロピー復号モデルの入力データである、ステップと、
T1およびT2の両方が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、第2の出力結果が、復号対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2が、それぞれ第1のエントロピー復号モデルおよび第2のエントロピー復号モデルにおける畳み込み層である、ステップ、または
T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおけるq番目の畳み込み層であり、畳み込み層C2が第2のエントロピー復号モデルにおける畳み込み層であり、qがT1に等しいならば、第2の出力結果が復号対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、かつT1より小さいならば、第2の出力結果が第1のエントロピー復号モデルにおける(q+1)番目の畳み込み層の入力データである、ステップ、または
T1およびT2の両方が1より大きいとき、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおけるq1番目の畳み込み層であり、畳み込み層C2が第2のエントロピー復号モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、q2がT2に等しいならば、第2の出力結果が復号対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、第2の出力結果が第1のエントロピー復号モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー復号モデルにおける(q2+1)番目の畳み込み層の入力データである、ステップと、
を含む。
【0029】
実現可能な実施形態では、(s-1)番目のサブバンドに対応する再構成されたサブバンドの分解能がs番目のサブバンドに対応する再構成されたサブバンドの分解能と異なるとき、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力して、第1の出力結果を取得するステップは、
第3のエントロピー復号モデルおよび第3のエントロピー復号モデルの状態変数に基づいて、(s-1)番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得するステップと、畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得するステップであって、第1の出力結果の分解能は、s番目のサブバンドに対応する再構成されたサブバンドの分解能と同じである、ステップと、
を含み、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得するステップの後に、方法は、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するステップであって、サンプリングされた状態変数の分解能はs番目のサブバンドの分解能と同じである、ステップ
をさらに含む。
【0030】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップは、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、
窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、
第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、畳み込み層C2が第2のエントロピー復号モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するステップと、を含む。
【0031】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップは、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するステップであって、第2の畳み込みカーネルが畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数が互いに相補的である、ステップと、
窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、
窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、畳み込み層C2が第2のエントロピー復号モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するステップと、を含む。
【0032】
実現可能な実施形態では、ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得するステップは、
t番目の逆ウェーブレット変換を実行するとき、近似サブバンドPN+1-tおよび詳細サブバンドI(N+1-t)1に対して更新演算および予測演算を実行して、第1の処理されたサブバンドおよび第2の処理されたサブバンドを取得し、第1の処理されたサブバンドおよび第2の処理されたサブバンドに基づいて中間近似成分を取得するステップであって、中間近似成分の奇数列係数または奇数行係数は第1の処理されたサブバンドに由来し、中間近似成分の偶数列係数または偶数行係数は第2の処理されたサブバンドに由来する、ステップと、
詳細サブバンドI(N+1-t)2および詳細サブバンドI(N+1-t)3に対して更新演算および予測演算を実行して、第3の処理されたサブバンドおよび第4の処理されたサブバンドを取得し、第3の処理されたサブバンドおよび第4の処理されたサブバンドに基づいて中間詳細成分を取得するステップであって、中間詳細成分の奇数列係数または奇数行係数は第3の処理されたサブバンドに由来し、中間詳細成分の偶数列係数または偶数行係数は第4の処理されたサブバンドに由来する、ステップと、
中間詳細成分および中間近似成分に対して更新演算および予測演算を実行して、第5の処理されたサブバンドおよび第6の処理されたサブバンドを取得し、第5の処理されたサブバンドおよび第6の処理されたサブバンドに基づいて近似サブバンドPt-1を取得するステップであって、近似サブバンドPt-1の奇数行係数または奇数列係数が第5の処理されたサブバンドに由来し、近似サブバンドPt-1の偶数行係数または偶数列係数が第6の処理されたサブバンドに由来する、ステップと、
を含み、
詳細サブバンドI(N+1-t)1、詳細サブバンドI(N+1-t)2、および詳細サブバンドI(N+1-t)3の分解能は、近似サブバンドPN+1-tの分解能と同じであり、t番目の逆ウェーブレット変換が最後のウェーブレット変換であるとき、近似サブバンドPt-1は再構成画像である。
【0033】
実現可能な実施形態では、予測演算がCNNに基づいて実現され、
更新演算がCNNに基づいて実現され、または
更新演算と予測演算の両方がCNNに基づいて実現される。
【0034】
実現可能な実施形態では、ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得するステップの後に、方法は、
後処理モデルに基づいて再構成画像に対して後処理を実行して、処理された再構成画像を取得するステップであって、後処理モデルは深層ニューラルネットワークに基づいて実現された、ステップ
をさらに含む。
【0035】
深層ニューラルネットワークに基づいて再構成画像に対して後処理が実行されるため、再構成画像の品質をさらに向上させることができ、復号性能を向上させることができる。
【0036】
第3の態様によれば、本発明の一実施形態は、
ウェーブレット変換モデルを訓練するステップであって、ウェーブレット変換モデルを訓練するステップは、
ウェーブレット変換モデルを初期化するステップと、
初期化されたウェーブレット変換モデルに基づいて訓練画像に対してN個のウェーブレット変換を実行して、3N+1個のサブバンドを取得するステップと、
初期化されたウェーブレット変換モデルに基づいて、第1のサブバンド、第2のサブバンド、第3のサブバンド、...、および第3Nのサブバンドで逆ウェーブレット変換を順次実行して、3N個の再構成画像を取得するステップと、
訓練画像および3N個の再構成画像に基づいて損失値を計算するステップであって、損失値
【数1】
であり、R
iは3N個の再構成画像のi番目の画像であり、Iは訓練画像である、ステップと、
前述の方法を数回繰り返し、損失値Lの変動幅が非常に小さいならば、ウェーブレット変換モデルの訓練が完了したと判定するステップと、そうでないならば、前述の方法に従ってウェーブレット変換モデルを訓練し続けるステップと、
を含む、ステップ
を含む、訓練方法をさらに提供する。
【0037】
第4の態様によれば、本発明の一実施形態は、ウェーブレット変換に基づく画像符号化装置を提供し、装置は、
ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得するように構成された変換モジュールであって、ウェーブレット変換モデルが畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nが0より大きい整数である、変換モジュールと、
ウェーブレット係数を量子化して、量子化されたウェーブレット係数を取得するように構成された量子化モジュールと、
量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得するように構成されたエントロピー符号化モジュールと、
を備える。
【0038】
実現可能な実施形態では、変換モジュールは、
i番目のウェーブレット変換を実行するとき、サブバンドXを分解して、奇数サンプル成分および偶数サンプル成分を取得するように構成され、奇数サンプル成分は、サブバンドX内の奇数行係数または奇数列係数を含み、偶数サンプル成分は、サブバンドX内の偶数行係数または偶数列係数を含み、
変換モジュールは、偶数サンプル成分および奇数サンプル成分に対して更新演算および予測演算を実行して、中間近似成分および中間詳細成分を取得し、
中間近似成分を分解して、第1のサンプル成分および第2のサンプル成分を取得するように構成され、第1のサンプル成分は中間近似成分の奇数列係数または奇数行係数を含み、第2のサンプル成分は中間近似成分の偶数列係数または偶数行係数を含み、
変換モジュールは、中間詳細成分を分解して、第3のサンプル成分および第4のサンプル成分を取得するように構成され、第3のサンプル成分は中間詳細成分の奇数行係数または奇数列係数を含み、第4のサンプル成分は中間詳細成分の偶数列係数または偶数行係数を含み、
変換モジュールは、第1のサンプル成分および第2のサンプル成分に対して更新演算および予測演算を実行して、近似サブバンドPiおよび詳細サブバンドIi1を取得し、第3のサンプル成分および第4のサンプル成分に対して更新演算および予測演算を実行して、詳細サブバンドIi2および詳細サブバンドIi3を取得するように構成され、
ウェーブレット係数は、近似サブバンドPi、詳細サブバンドIi1、詳細サブバンドIi2、および詳細サブバンドIi3を含み、i番目のウェーブレット変換が第1のウェーブレット変換であるとき、サブバンドXは符号化対象画像であり、またはi番目のウェーブレット変換が第1のウェーブレット変換でないとき、サブバンドXは近似サブバンドPi-1であり、近似サブバンドPi-1は(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドである。
【0039】
実現可能な実施形態では、予測演算がCNNに基づいて実現され、更新演算がCNNに基づいて実現され、または予測演算と更新演算の両方が、CNNに基づいて実現される。
【0040】
実現可能な実施形態では、エントロピー符号化モジュールは、具体的には、
エントロピー符号化モデルに基づいて量子化されたウェーブレット係数を符号化して、圧縮されたビットストリームを取得するように構成され、エントロピー符号化モデルは深層ニューラルネットワークに基づいて実現される。
【0041】
実現可能な実施形態では、ウェーブレット係数は3N+1個のサブバンドを含み、エントロピー符号化モジュールは、具体的には、
エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するように構成され、符号化対象係数はs番目のサブバンド内の任意の係数であり、s番目のサブバンドは3N+1個のサブバンドのうちの任意の1つであり、エントロピー符号化モジュールは、符号化対象係数の累積確率分布関数のパラメータに基づいて累積確率分布関数を取得し、符号化対象係数および符号化対象係数の累積確率分布関数に基づいて、符号化対象係数の確率分布を取得し、算術エンコーダを使用して符号化対象係数の確率分布に基づいて符号化対象係数に対してエントロピー符号化を実行して、符号化対象係数に対応するビットストリームを取得するように構成され、圧縮されたビットストリームは、符号化対象係数に対応するビットストリームを含む。
【0042】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドであるとき、エントロピー符号化モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー符号化モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するとき、エントロピー符号化モジュールは、具体的には、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得し、第1の窓処理された畳み込みカーネルに基づいてs番目のサブバンドに対して畳み込み演算を実行して、符号化対象係数の累積確率分布関数のパラメータを取得し、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得し、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するように構成され、
jが1に等しいとき、j番目の畳み込み層の入力データは第1のサブバンドであり、jが1より大きく、かつMより大きくないとき、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しいとき、j番目の出力データは、符号化対象係数の累積確率分布関数のパラメータを含む。
【0043】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドではないとき、エントロピー符号化モデルは、第1のエントロピー符号化モデル、第2のエントロピー符号化モデル、および第3のエントロピー符号化モデルを含み、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー符号化モデルは、RNNに基づいて実現され、第1のエントロピー符号化モデルは、T1個の畳み込み層を含み、第2のエントロピー符号化モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するとき、エントロピー符号化モジュールは、具体的には、
(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力して、第1の出力結果を取得するように構成され、第1の出力結果は第2のエントロピー符号化モデルの入力データであり、s番目のサブバンドは第1のエントロピー符号化モデルの入力データであり、
エントロピー符号化モジュールは、T1およびT2の両方が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、第2の出力結果は、符号化対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2は、それぞれ第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルにおける畳み込み層であり、または
エントロピー符号化モジュールは、T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、畳み込み層C1は、第1のエントロピー符号化モデルにおけるq番目の畳み込み層であり、畳み込み層C2は、第2のエントロピー符号化モデルにおける畳み込み層であり、qがT1に等しいならば、第2の出力結果は、符号化対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、かつT1より小さいならば、第2の出力結果は、第1のエントロピー符号化モデルにおける(q+1)番目の畳み込み層の入力データであり、または
エントロピー符号化モジュールは、T1およびT2の両方が1より大きいとき、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、畳み込み層C1は、第1のエントロピー符号化モデルにおけるq1番目の畳み込み層であり、畳み込み層C2は、第2のエントロピー符号化モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、かつq2がT2に等しいならば、第2の出力結果は、符号化対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、第2の出力結果は、第1のエントロピー符号化モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー符号化モデルにおける(q2+1)番目の畳み込み層の入力データである。
【0044】
実現可能な実施形態では、(s-1)番目のサブバンドの分解能がs番目のサブバンドの分解能と異なるとき、(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力して、第1の出力結果を取得するとき、エントロピー符号化モジュールは、具体的には、
第3のエントロピー符号化モデルおよび第3のエントロピー符号化モデルの状態変数に基づいて、(s-1)番目のサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得し、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得するように構成され、第1の出力結果の分解能はs番目のサブバンドの分解能と同じであり、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得した後に、エントロピー符号化モジュールは、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するようにさらに構成され、サンプリングされた状態変数の分解能は、s番目のサブバンドの分解能と同じである。
【0045】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するとき、エントロピー符号化モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
エントロピー符号化モジュールは、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第1の入力データはs番目のサブバンドに対して畳み込み演算を実行することによって取得され、
エントロピー符号化モジュールは、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、エントロピー符号化モジュールは、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するように構成される。
【0046】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するとき、エントロピー符号化モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
エントロピー符号化モジュールは、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するように構成され、第2の畳み込みカーネルは畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数は互いに相補的であり、
エントロピー符号化モジュールは、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第1の入力データはs番目のサブバンドに対して畳み込み演算を実行することによって取得され、
エントロピー符号化モジュールは、窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、エントロピー符号化モジュールは、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するように構成される。
【0047】
第5の態様によれば、本発明の一実施形態は、ウェーブレット変換に基づく画像復号装置を提供し、装置は、
圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するように構成されたエントロピー復号モジュールと、
再構成されたウェーブレット係数を量子化解除して、量子化解除されたウェーブレット係数を取得するように構成された量子化解除モジュールと、
ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得するように構成された逆変換モジュールであって、ウェーブレット変換モデルが畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nが0より大きい整数である、逆変換モジュールと、を備える。
【0048】
実現可能な実施形態では、エントロピー復号モジュールは、具体的には、
エントロピー復号モデルに基づいて圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するように構成され、エントロピー復号モデルは深層ニューラルネットワークに基づいて実現される。
【0049】
実現可能な実施形態では、圧縮されたビットストリームは3N+1個のサブバンドのビットストリームを含み、再構成されたウェーブレット係数は3N+1個の再構成されたサブバンドを含み、エントロピー復号モジュールは、具体的には、
s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するように構成され、復号対象係数のビットストリームはs番目のサブバンドのビットストリームの一部であり、s番目のサブバンドに対応する再構成されたサブバンドは、3N+1個の再構成されたサブバンドのうちの任意の1つであり、エントロピー復号モジュールは、復号対象係数の累積確率分布関数のパラメータに基づいて復号対象係数の累積確率分布関数を取得し、復号対象係数および復号対象係数の累積確率分布関数に基づいて、復号対象係数の確率分布を取得し、復号対象係数の確率分布に基づいて、算術デコーダを使用して復号対象係数のビットストリームに対してエントロピー復号を実行して、復号対象係数を取得するように構成され、3N+1個の再構成されたサブバンドは復号対象係数を含む。
【0050】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドであるとき、エントロピー復号モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー復号モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するとき、エントロピー復号モジュールは、具体的には、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得し、
第1の窓処理された畳み込みカーネルに基づいて、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行して、復号対象係数の累積確率分布関数のパラメータを取得し、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得し、
第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するように構成され、
jが1に等しいとき、j番目の畳み込み層の入力データは、第1のサブバンドに対応する再構成されたサブバンドであり、jが1より大きく、かつMより大きくないとき、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しいとき、j番目の出力データは復号対象係数の累積確率分布関数のパラメータを含む。
【0051】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドではないとき、エントロピー復号モデルは、第1のエントロピー復号モデル、第2のエントロピー復号モデル、および第3のエントロピー復号モデルを含み、第1のエントロピー復号モデルおよび第2のエントロピー復号モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー復号モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、第1のエントロピー復号モデルは、T1個の畳み込み層を含み、第2のエントロピー復号モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するとき、エントロピー復号モジュールは、具体的には、
(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力して、第1の出力結果を取得するように構成され、(s-1)番目のサブバンドに対応する再構成されたサブバンドは、(s-1)番目のサブバンドのビットストリームに対してエントロピー復号を実行することによって取得され、第1の出力結果は、第2のエントロピー復号モデルの入力データであり、s番目のサブバンドに対応する再構成されたサブバンドは、第1のエントロピー復号モデルの入力データであり、
エントロピー復号モジュールは、T1およびT2の両方が1に等しいとき、畳み込み層C1と畳み込み層C2とに基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、第2の出力結果は、復号対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2は、それぞれ第1のエントロピー復号モデルおよび第2のエントロピー復号モデルにおける畳み込み層であり、または
エントロピー復号モジュールは、T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、畳み込み層C1は第1のエントロピー復号モデルにおけるq番目の畳み込み層であり、畳み込み層C2は第2のエントロピー復号モデルにおける畳み込み層であり、qがT1に等しいならば、第2の出力結果は復号対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、かつT1より小さいならば、第2の出力結果は第1のエントロピー復号モデルにおける(q+1)番目の畳み込み層の入力データであり、または
エントロピー復号モジュールは、T1およびT2の両方が1より大きいとき、畳み込み層C1と畳み込み層C2とに基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、畳み込み層C1は第1のエントロピー復号モデルにおけるq1番目の畳み込み層であり、畳み込み層C2は第2のエントロピー復号モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、かつq2がT2に等しいならば、第2の出力結果は復号対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、第2の出力結果は第1のエントロピー復号モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー復号モデルにおける(q2+1)番目の畳み込み層の入力データである。
【0052】
実現可能な実施形態では、(s-1)番目のサブバンドに対応する再構成されたサブバンドの分解能がs番目のサブバンドに対応する再構成されたサブバンドの分解能と異なるとき、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力して、第1の出力結果を取得するとき、エントロピー復号モジュールは、具体的には、
第3のエントロピー復号モデルおよび第3のエントロピー復号モデルの状態変数に基づいて、(s-1)番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得し、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得するように構成され、第1の出力結果の分解能は、s番目のサブバンドに対応する再構成されたサブバンドの分解能と同じであり、
畳み込み結果に対してアップサンプリングを実行して、第1の出力結果を取得した後に、エントロピー復号モジュールは、具体的には、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するようにさらに構成され、サンプリングされた状態変数の分解能は、s番目のサブバンドの分解能と同じである。
【0053】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するとき、エントロピー復号モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
エントロピー復号モジュールは、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得され、
エントロピー復号モジュールは、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、畳み込み層C2が第2のエントロピー復号モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、
エントロピー復号モジュールは、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するように構成される。
【0054】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するとき、エントロピー復号モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
エントロピー復号モジュールは、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するように構成され、第2の畳み込みカーネルは畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数は互いに相補的であり、
エントロピー復号モジュールは、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得され、
エントロピー復号モジュールは、窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、畳み込み層C2が第2のエントロピー復号モデルにおける第1の畳み込み層であるとき、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、エントロピー復号モジュールは、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行して、第2の出力結果を取得するように構成される。
【0055】
実現可能な実施形態では、逆変換モジュールは、具体的には、
t番目の逆ウェーブレット変換を実行するとき、近似サブバンドPN+1-tおよび詳細サブバンドI(N+1-t)1に対して更新演算および予測演算を実行して、第1の処理されたサブバンドおよび第2の処理されたサブバンドを取得し、第1の処理されたサブバンドおよび第2の処理されたサブバンドに基づいて中間近似成分を取得するように構成され、中間近似成分の奇数列係数または奇数行係数は第1の処理されたサブバンドに由来し、中間近似成分の偶数列係数または偶数行係数は第2の処理されたサブバンドに由来し、
逆変換モジュールは、詳細サブバンドI(N+1-t)2および詳細サブバンドI(N+1-t)3に対して更新演算および予測演算を実行して、第3の処理されたサブバンドおよび第4の処理されたサブバンドを取得し、第3の処理されたサブバンドおよび第4の処理されたサブバンドに基づいて中間詳細成分を取得するように構成され、中間詳細成分の奇数列係数または奇数行係数は第3の処理されたサブバンドに由来し、中間詳細成分の偶数列係数または偶数行係数は第4の処理されたサブバンドに由来し、
逆変換モジュールは、中間詳細成分および中間近似成分に対して更新演算および予測演算を実行して、第5の処理されたサブバンドおよび第6の処理されたサブバンドを取得し、第5の処理されたサブバンドおよび第6の処理されたサブバンドに基づいて近似サブバンドPt-1を取得するように構成され、近似サブバンドPt-1の奇数行係数または奇数列係数は第5の処理されたサブバンドに由来し、近似サブバンドPt-1の偶数行係数または偶数列係数は第6の処理されたサブバンドに由来し、
詳細サブバンドI(N+1-t)1、詳細サブバンドI(N+1-t)2、および詳細サブバンドI(N+1-t)3の分解能は、近似サブバンドPN+1-tの分解能と同じであり、t番目の逆ウェーブレット変換が最後のウェーブレット変換であるとき、近似サブバンドPt-1は再構成画像である。
【0056】
実現可能な実施形態では、予測演算がCNNに基づいて実現され、更新演算がCNNに基づいて実現され、または更新演算と予測演算の両方がCNNに基づいて実現される。
【0057】
実現可能な実施形態では、画像符号化装置は、
逆変換モジュールが、ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得した後に、後処理モデルに基づいて再構成画像に対して後処理を実行して、処理された再構成画像を取得するように構成された後処理モジュールであって、後処理モデルが深層ニューラルネットワークに基づいて実現された、後処理モジュール
をさらに備える。
【0058】
第6の態様によれば、本発明の一実施形態は、
ウェーブレット変換モデルを初期化するように構成された初期化モジュールと、
初期化されたウェーブレット変換モデルに基づいて訓練画像に対してN個のウェーブレット変換を実行して、3N+1個のサブバンドを取得し、初期化されたウェーブレット変換モデルに基づいて、第1のサブバンド、第2のサブバンド、第3のサブバンド、...、および第3Nのサブバンドに対して順次逆ウェーブレット変換を実行して、3N個の再構成画像を取得し、訓練画像および3N個の再構成画像に基づいて損失値を計算するように構成された訓練モジュールであって、損失値
【数2】
であり、R
iは3N個の再構成画像のi番目の画像であり、Iは訓練画像であり、前述の方法を数回繰り返し、損失値Lの変動幅が非常に小さいならば、ウェーブレット変換モデルの訓練が完了したと判定し、そうでないならば、前述の方法に従ってウェーブレット変換モデルを訓練し続ける、訓練モジュールと、
を備える訓練装置を提供する。
【0059】
第7の態様によれば、本発明の一実施形態は、
実行可能なプログラムコードを記憶するメモリと、
メモリに結合されたプロセッサであって、メモリに記憶された実行可能なプログラムコードを呼び出すと、プロセッサは、第1の態様、第2の態様、または第3の態様による方法の一部または全部のステップを実行する、プロセッサと、
を備える装置を提供する。
【0060】
第8の態様によれば、本発明の一実施形態はコンピュータ記憶媒体をさらに提供し、コンピュータ記憶媒体はプログラムを記憶することができ、プログラムが処理能力を有するコンピューティングプラットフォームまたはプロセッサによって実行されると、第1の態様、第2の態様、または第3の態様による方法の一部または全部のステップが実装される。
【0061】
本発明のこれらの態様または他の態様は、以下の実施形態の説明においてより明確かつより理解可能である。
【0062】
本発明の実施形態における技術的解決策をより明確に説明するために、以下で、実施形態の説明で使用する必要がある添付の図面を簡単に説明する。以下の説明における添付の図面は、本発明のいくつかの実施形態を示すにすぎず、当業者は、創造的な努力なしにこれらの添付の図面から他の図面を導出することができることは明らかである。
【図面の簡単な説明】
【0063】
【
図1】本発明の一実施形態による画像符号化の概略フローチャートである。
【
図2】本発明の一実施形態による画像符号化の別の概略フローチャートである。
【
図3】本発明の一実施形態による画像符号化アーキテクチャの概略図である。
【
図4】本発明の一実施形態によるウェーブレット変換モデルにおける深層ニューラルネットワークに基づく予測モジュールの構造の図である。
【
図5】本発明の一実施形態による画像復号化の概略フローチャートである。
【
図6】本発明の一実施形態による画像復号化の別の概略フローチャートである。
【
図7】本発明の一実施形態による画像復号化アーキテクチャの概略図である。
【
図8】本発明の一実施形態による、ニューラルネットワークに基づくウェーブレット変換のエンドツーエンド訓練フレームワークの概略図である。
【
図9】本発明の一実施形態によるサブバンド符号化・復号シーケンスの概略図である。
【
図10】本発明の一実施形態による画像符号化の別の概略フローチャートである。
【
図11】本発明の一実施形態による画像符号化の別の概略フローチャートである。
【
図12】本発明の一実施形態による画像符号化アーキテクチャの概略図である。
【
図13】本発明の一実施形態による別の画像符号化アーキテクチャの概略図である。
【
図14】本発明の一実施形態による予測モデルおよび更新モデルの構造の図である。
【
図15】本発明の一実施形態によるエントロピー復号の構造の概略図である。
【
図16a】本発明の一実施形態による窓関数の概略図である。
【
図16b】本発明の一実施形態による窓関数の概略図である。
【
図17】本発明の一実施形態によるサブバンド符号化プロセスの概略図である。
【
図18】本発明の一実施形態による畳み込みカーネル窓処理プロセスの概略図である。
【
図19(a)】本発明の一実施形態による組み合わせ構造の概略図である。
【
図19(b)】本発明の一実施形態による別の組み合わせ構造の概略図である。
【
図19(c)】本発明の一実施形態による別の組み合わせ構造の概略図である。
【
図20】本発明の一実施形態によるアップサンプリングプロセスの概略図である。
【
図21】本発明の一実施形態による別の窓関数の概略図である。
【
図22】本発明の一実施形態による画像復号化の概略フローチャートである。
【
図23】本発明の一実施形態による画像復号化の別の概略フローチャートである。
【
図24】本発明の一実施形態による画像復号化アーキテクチャの概略図である。
【
図25】本発明の一実施形態による別の画像復号化アーキテクチャの概略図である。
【
図26】本発明の一実施形態による深層ニューラルネットワークに基づく後処理モデルの概略フレームワーク図である。
【
図27】本発明の一実施形態による画像符号化装置の構造の概略図である。
【
図28】本発明の一実施形態による画像復号装置の構造の概略図である。
【
図29】本発明の一実施形態による訓練装置の構造の概略図である。
【
図30】本発明の一実施形態による画像符号化装置の構造の別の概略図である。
【
図31】本発明の一実施形態による画像復号装置の構造の別の概略図である。および
【
図32】本発明の一実施形態による訓練装置の構造の別の概略図である。
【発明を実施するための形態】
【0064】
以下、添付の図面を参照して、本出願におけるウェーブレット変換に基づく画像符号化・復号の具体的なプロセスを詳細に説明する。
【0065】
本明細書では、本出願で使用される数は1から開始してもよく、または0から開始してもよく、それに応じて最大値が変化することに留意されたい。1から始まる番号は、以下の説明のために使用される。
【0066】
まず、ウェーブレット変換に基づく画像符号化の処理について説明する。
図1に示されるように、ウェーブレット係数を取得するために、深層ニューラルネットワークに基づくウェーブレット変換が符号化対象画像に対して実行され、圧縮されたビットストリームを取得するために、量子化およびエントロピー符号化がウェーブレット係数に対して実行される。詳細については
図2を参照されたい。
図2は、本出願の一実施形態によるウェーブレット変換に基づく画像符号化方法の概略フローチャートである。
図2に示されるように、方法は以下のステップを含む。
【0067】
S201.ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得する。
【0068】
ウェーブレット変換モデルは、畳み込みニューラルネットワーク(convolutional neural network、CNN)に基づいて実現される。ウェーブレット係数は3N+1個のサブバンドを含む。
【0069】
具体的には、
図3に示すように、ウェーブレット変換モデルに基づいて符号化対象画像に対してi番目のウェーブレット変換を実行するステップは、具体的には、
奇数サンプル成分および偶数サンプル成分を取得するために、サブバンドXを分解するステップであって、奇数サンプル成分はサブバンドX内の奇数行(または列)ピクセルを含み、偶数サンプル成分はサブバンドX内の偶数行(または列)ピクセルを含む、ステップと、奇数サンプル成分および偶数サンプル成分に基づいて中間近似成分を取得するステップであって、中間近似成分の分解能は奇数サンプル成分および偶数サンプル成分の分解能と一致し、中間近似成分内の各係数は、奇数サンプル成分および偶数サンプル成分内の対応する位置における係数の和の1/2である、ステップと、第1の予測成分を取得するために、ウェーブレット変換モデルに基づいて中間近似成分を使用して偶数サンプル成分を予測するステップであって、第1の予測成分の分解能が中間近似成分の分解能と一致する、ステップと、偶数サンプル成分および第1の予測成分に基づいて中間詳細成分を取得するステップであって、中間詳細成分内の各係数が偶数サンプル成分および第1の予測成分内の対応する位置における係数の間差である、ステップと、
第1の近似サンプル成分および第2の近似サンプル成分を取得するために中間近似成分を分解するステップであって、第1の近似サンプル成分は中間近似成分の奇数列係数または奇数行係数を含み、第2の近似サンプル成分は中間近似成分の偶数列係数または偶数行係数を含む、ステップと、第1の近似サンプル成分および第2の近似サンプル成分に基づいて近似サブバンドP
iを取得するステップであって、近似サブバンドP
iの分解能は、第1の近似サンプル成分および第2の近似サンプル成分の分解能と同じであり、近似サブバンドP
i内の各係数は、第1の近似サンプル成分および第2の近似サンプル成分内の対応する位置における係数の和の1/2である、ステップと、第2の予測成分を取得するために、ウェーブレット変換モデルに基づいて近似サブバンドP
iを使用して第2の近似サンプル成分を予測するステップであって、第2の予測成分の分解能が近似サブバンドP
iの分解能と一致する、ステップと、第2の近似サンプル成分と第2の予測成分とに基づいて詳細サブバンドI
i1を取得するステップであって、詳細サブバンドI
i1の分解能は、第2の近似サンプル成分と第2の予測成分との分解能と同じであり、詳細サブバンドI
i1内の各係数は、第2の近似サンプル成分と第2の予測成分との対応する位置における係数間の差である、ステップと、
を含む。
【0070】
同様に、中間近似成分を処理するための方法に従って中間詳細成分が処理され、詳細サブバンドIi2および詳細サブバンドIi3が取得される。詳細サブバンドIi2および詳細サブバンドIi3の分解能は、詳細サブバンドIi1の分解能と一致する。
【0071】
iが1に等しい場合、サブバンドXは符号化対象画像である。iが1より大きい場合、サブバンドXは近似サブバンドPi-1であり、近似サブバンドPi-1は、符号化対象画像に対して(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドである。
【0072】
本明細書では、iは0から開始してもよいことに留意されたい。この場合、最大値はN-1である。例えば、iが0に等しい場合、サブバンドXは符号化対象画像である。
【0073】
ここで、符号化対象画像および近似サブバンドはいずれも2次元データであるため、ウェーブレット変換は深層ニューラルネットワークに基づくウェーブレット変換であり、行方向および列方向に別々に実行する必要があることに留意されたい。したがって、上記の処理から、符号化対象画像に対して深層ニューラルネットワークに基づく完全なウェーブレット変換を実行する場合、CNNベースのウェーブレット変換モデルが合計3回使用されることが分かる。
【0074】
本明細書では、符号化対象画像に対して第1のウェーブレット変換が実行された後、1つの近似サブバンドおよび3つの詳細サブバンドが取得されることに留意されたい。符号化対象画像に対して第2のウェーブレット変換を実行することは、具体的には、近似サブバンドP2、詳細サブバンドI21、詳細サブバンドI22、および詳細サブバンドI23を取得するために、近似サブバンドP1に対してウェーブレット変換を実行することであり、これまで、合計で1つの近似サブバンドおよび6つの詳細サブバンドが取得される。符号化対象画像に対して第3のウェーブレット変換を実行することは、具体的には、近似サブバンドP3、詳細サブバンドI31、詳細サブバンドI32、および詳細サブバンドI33を取得するために、第2のウェーブレット変換を実行することによって取得された近似サブバンドP2に対してウェーブレット変換を実行することであり、これまで、合計1つの近似サブバンドおよび9つの詳細画像が取得される。類推すると、符号化対象画像に対してN個のウェーブレット変換が実行された後、合計で1つの近似サブバンドおよび3*N個の詳細サブバンドが取得される。したがって、符号化対象画像に対してN個のウェーブレット変換が実行された後、合計3*N+1個のサブバンドが取得される。
【0075】
図4は、ウェーブレット変換モデルにおける深層ニューラルネットワークに基づく予測モジュールの構造の図である。
図4において、「3×3×24/tanh」は、現在の畳み込み層が3×3のサイズの畳み込みカーネルを使用して24個の特徴マップを生成し、次いでtanh活性化関数を使用することを示す。「3×3×12/tanh」は、現在の畳み込み層が、3×3のサイズの畳み込みカーネルを用いて、12個の特徴マップを生成し、その後、tanh活性化関数を用い、「1×1×48/tanh」は、現在の畳み込み層が、1×1のサイズの畳み込みカーネルを用いて、48個の特徴マップを生成し、その後、tanh活性化関数を用い、「1×1×1/直線」は、現在の畳み込み層が、1×1のサイズの畳み込みカーネルを用いて1つの特徴マップを生成し、次いで、その特徴マップに対して線形演算を実行することを示す。「凹面」は、特徴マップに対して行われる連結演算を示す。
【0076】
一実施形態では、ウェーブレット変換モデルのパラメータは、エンコーダおよびデコーダに埋め込まれ、送信される必要はない。
【0077】
S202.ウェーブレット係数に対して量子化およびエントロピー符号化を実行して、符号化対象画像の圧縮されたビットストリームを取得する。
【0078】
本明細書では、ウェーブレット係数のサブバンド符号化方法は、量子化およびエントロピー符号化の2つのステップを含むことに留意されたい。一般的なサブバンド符号化方法は、埋め込みゼロツリーウェーブレット変換(embedded zerotrees wavelet transforms、EZW)符号化、階層木におけるセット分割(set partitioning in hierarchical trees、SPIHT)アルゴリズム、最適化された切り捨てによる埋め込みブロック符号化(embedded block coding with optimized truncation、EBCOT)などを含む。特定の要件を参照して選択することができる。具体的な量子化およびエントロピー符号化プロセスについては、ここでは再度説明しない。
【0079】
次に、ウェーブレット変換に基づく画像復号の処理について説明する。
図5に示すように、再構成されたウェーブレット係数を取得するために、圧縮されたビットストリームに対してエントロピー復号および量子化解除が実行され、再構成画像を取得するために、再構成されたウェーブレット係数に対して深層ニューラルネットワークに基づく逆ウェーブレット変換が実行される。詳細については、
図6を参照されたい。
図6は、本出願の一実施形態によるウェーブレット変換に基づく画像復号方法の概略フローチャートである。
図6に示されているように、方法は以下のステップを含む。
【0080】
S601.圧縮されたビットストリームに対してエントロピー復号および量子化解除を実行して、再構成されたウェーブレット係数を取得する。
【0081】
本明細書では、圧縮されたビットストリームのサブバンド復号方法は、エントロピー復号および量子化解除の2つのステップを含むことに留意されたい。サブバンド復号方法は、エンコーダ側のサブバンド符号化方法に対応し、ここでは詳細に説明しない。
【0082】
S602.ウェーブレット変換モデルに基づいて再構成されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得する。再構成されたウェーブレット係数は3N+1個のサブバンドを含み、3N+1個のサブバンドは1つの近似サブバンドおよび3N個の詳細サブバンドを含む。
【0083】
具体的には、
図7に示すように、ウェーブレット変換モデルに基づいて再構成されたウェーブレット係数に対してt番目の逆ウェーブレット変換を実行するステップは、具体的には、
近似サブバンドP
N+1-tと、その分解能が近似サブバンドP
N+1-tの分解能と同じである3つの詳細サブバンドとを取得するステップであって、3つの詳細サブバンドはそれぞれ詳細サブバンドI
(N+1-t)1、詳細サブバンドI
(N+1-t)2、および詳細サブバンドI
(N+1-t)3であり、詳細サブバンドI
(N+1-t)1と近似サブバンドP
N+1-tとは符号化段階で同時に生成される、ステップと、近似サブバンドP
N+1-tに基づいて第1の増幅成分を取得するステップであって、第1の増幅成分内の各係数は、近似サブバンドP
N+1-t内の対応する位置における係数の2倍である、ステップと、第1の予測近似成分を取得するために、ウェーブレット変換モデルに基づいて近似サブバンドP
N+1-tを使用して予測を実行するステップと、第1の予測近似成分および詳細サブバンドI
(N+1-t)1に基づいて第1の偶数サンプル成分を取得するステップであって、第1の偶数サンプル成分内の各係数は、第1の予測近似成分および詳細サブバンドI
(N+1-t)1内の対応する位置における係数の和である、ステップと、第1の増幅成分および第1の偶数サンプル成分に基づいて第1の奇数サンプル成分を取得するステップであって、第1の奇数サンプル成分内の各係数が、第1の増幅成分および第1の偶数サンプル成分内の対応する位置における係数間の差である、ステップと、その行(または列)分解能が近似サブバンドP
N+1-tの分解能の2倍である中間近似成分を取得するために、第1の偶数サンプル成分と第1の奇数サンプル成分とを組み合わせるステップであって、中間近似成分内の奇数行係数または奇数列係数が第1の奇数サンプル成分に由来し、中間近似成分内の偶数行係数または偶数列係数が第1の偶数サンプル成分に由来する、または言い換えれば、中間近似成分内の奇数行係数または奇数列係数が第1の奇数サンプル成分の一部または全体であり、中間近似成分内の偶数行係数または偶数列係数が第1の偶数サンプル成分の一部または全体である、ステップと、
詳細サブバンドI
(N+1-t)2に基づいて第2の増幅成分を取得するステップであって、第2の増幅成分内の各係数は、詳細サブバンドI
(N+1-t)2内の対応する位置における係数の2倍である、ステップと、第1の予測詳細成分を取得するために、ウェーブレット変換モデルに基づいて詳細サブバンドI
(N+1-t)2を使用して予測を実行するステップと、第1の予測詳細成分および詳細サブバンドI
(N+1-t)3に基づいて第2の偶数サンプル成分を取得するステップと、第2の増幅成分および第2の偶数サンプル成分に基づいて第2の奇数サンプル成分を取得するステップであって、第2の奇数サンプル
成分内の各係数が、第2の増幅成分および第2の偶数サンプル成分内の対応する位置における係数間の差である、ステップと、中間詳細成分を取得するために、第2の偶数サンプル成分と第2の奇数サンプル成分とを組み合わせるステップであって、中間詳細成分の列または行分解能は詳細サブバンドI
(N+1-t)2または詳細サブバンドI
(N+1-t)3の列または行分解能の2倍であり、中間詳細成分の奇数列係数または奇数行係数は第2の奇数サンプル成分に由来し、中間詳細成分の偶数列係数または偶数行係数は第2の偶数サンプル成分に由来する、または言い換えれば、中間詳細成分の奇数列係数または奇数行係数は第2の奇数サンプル成分の一部または全体であり、中間詳細成分の偶数列係数または偶数行係数は第2の偶数サンプル成分の一部または全体である、ステップと、
中間近似成分に基づいて第3の増幅
成分を取得するステップであって、第3の増幅成分内の各係数が中間近似成分内の対応する位置におけるピクセル値の2倍である、ステップと、第1の予測成分を取得するために、ウェーブレット変換モデルに基づいて中間近似成分を使用して予測を実行するステップと、第1の予測成分および中間詳細成分に基づいて第3の偶数サンプル成分を取得するステップと、第3の増幅成分および第3の偶数サンプル成分に基づいて第3の奇数サンプル成分を取得するステップであって、第3の奇数サンプル成分内の各係数が、第3の増幅成分および第3の偶数サンプル成分内の対応する位置における係数間の差である、ステップと、近似サブバンドP
N-tを取得するために第3の偶数サンプル成分と第3の奇数サンプル成分とを組み合わせるステップであって、近似サブバンドP
N-tの分解能は近似サブバンドP
N+1-tの分解能の2倍であり、近似サブバンドP
N-t内の奇数行係数または奇数列係数は第3の奇数サンプル成分に由来し、近似サブバンドP
N-t内の偶数行係数または偶数列係数は第3の偶数サンプル成分に由来する、または言い換えれば、近似サブバンドP
N-t内の奇数行係数または奇数列係数は第3の奇数サンプル成分の一部または全体であり、近似サブバンドP
N-t内の偶数行係数または偶数列係数は第3の偶数サンプル成分の一部または全体である、ステップと、
を含む。
【0084】
本明細書では、3N+1個のサブバンド内の近似サブバンドは、符号化対象画像に対してN番目のウェーブレット変換を実行することによって取得され、近似サブバンドはPNとして表すことができ、同時に取得される3つの詳細サブバンドは、それぞれ詳細サブバンドIN1、詳細サブバンドIN2、および詳細サブバンドIN3として表すことができることに留意されたい。詳細サブバンドIN1および近似サブバンドPNが同時に取得される。第1の逆ウェーブレット変換の対象は、近似サブバンドPN、詳細サブバンドIN1、詳細サブバンドIN2、および詳細サブバンドIN3である。第2の逆ウェーブレット変換の対象は、近似サブバンドPN-1、詳細サブバンドI(N-1)1、詳細サブバンドI(N-1)2、および詳細サブバンドI(N-1)3である。第3の逆ウェーブレット変換の対象は、近似サブバンドPN-2、詳細サブバンドI(N-2)1、詳細サブバンドI(N-2)2、および詳細サブバンドI(N-2)3である。この方法は類推によって適用される。t番目の逆ウェーブレット変換の対象は、近似サブバンドPN+1-t、詳細サブバンドI(N+1-t)1、詳細サブバンドI(N+1-t)2、および詳細サブバンドI(N+1-t)3である。
【0085】
前述の方法によれば、再構成画像を取得するためにN個の逆ウェーブレット変換が実行される。tがNに等しい場合、近似サブバンドPt-1は再構成画像である。
【0086】
ここで、tは0から開始してもよく、最大値はN-1であることに留意されたい。tがN-1に等しいとき、近似サブバンドPt-1は再構成画像である。
【0087】
可能な実施形態では、ウェーブレット変換モデルは、符号化対象画像に対してウェーブレット変換が実行される前に訓練され、逆ウェーブレット変換は、ウェーブレット変換モデルに基づいて再構成されたウェーブレット係数に対して実行される。
【0088】
図8は、本発明の一実施形態による、ニューラルネットワークに基づくウェーブレット変換のエンドツーエンド訓練フレームワークの概略図である。具体的には、ウェーブレット変換モデルを訓練する具体的なプロセスは、以下のステップを含む。
【0089】
ウェーブレット変換モデルが初期化され、N個のウェーブレット変換が、3N+1個のサブバンドを取得するために、初期化されたウェーブレット変換モデルに基づいて訓練画像に対して実行される。具体的なプロセスについては、
図2に示す実施形態の関連する説明を参照されたい。詳細は本明細書では繰り返し説明されない。3N個の再構成画像を取得するために、初期化されたウェーブレット変換モデルに基づいて、第1のサブバンド、第2のサブバンド、第3のサブバンド、...、および第3Nのサブバンドに対して順次逆ウェーブレット変換が実行される。具体的なプロセスについては、
図6に示す実施形態の関連する説明を参照されたい。詳細は本明細書では繰り返し説明されない。逆ウェーブレット変換中にサブバンドを選択するシーケンスについては、
図9を参照されたい。
図9は、N=2に基づいて提示されている。損失値は訓練画像および3N個の再構成画像に基づいて計算され、損失値
【数3】
R
iは3N個の再構成画像のi番目の画像であり、Iは訓練画像である。損失値に基づいてウェーブレット変換モデルのパラメータが更新され、新たなウェーブレット変換モデルが取得される。
【0090】
次に、3N個の新しい再構成画像を取得するために、新しいウェーブレット変換モデルを使用して前述の方法が実行される。次いで、損失値が、訓練画像および新しい3N個の再構成画像に基づいて再び計算される。そして、損失値の変動間隔が十分に小さいか、あるいは損失値が値に近ければ、ウェーブレット変換モデルの訓練が完了したと判定する。そうでない場合、ウェーブレット変換モデル内のパラメータは前述の方法に従って引き続き訓練され、次いで損失値が前述の方法に従って再び取得され、訓練が引き続き実行される。
【0091】
N個のウェーブレット変換におけるウェーブレット変換モデルのパラメータは一貫しているので、そのような訓練によって取得されたウェーブレット変換モデルは分解能に依存せず、任意の回数の分解を提供することができる。
【0092】
一実施形態では、Nは前の値、例えばN=3である。
【0093】
ここで、サブバンド符号化プロセス(すなわち、後続の量子化およびエントロピー符号化)では、従来のウェーブレット変換に基づいて各サブバンドの重要性が評価され、各サブバンドは同じ重要性を有すると見なされることに留意されたい。深層ニューラルネットワークに基づいてウェーブレット変換を実行することによって取得された各サブバンドのエネルギーのバランスをとり、事前設定されたアルゴリズムに基づいて3N+1個のサブバンドの利得係数を取得するために、サブバンド符号化プロセスでは、ウェーブレット変換を介して取得されたウェーブレット係数に対応する利得係数が乗算されて、最終的なウェーブレット係数が取得される。復号プロセスにおいて、復号または再構成されたウェーブレット係数が対応する利得係数で除算され、次いで逆ウェーブレット変換が実行されて再構成画像が取得される。
【0094】
以下、3N+1個のサブバンドの利得係数を取得するための予め設定されたアルゴリズムについて詳細に説明する。
【0095】
3N+1個のサブバンドは、c={c1,c2,c3,...,c3N+1}を用いて表すことができ、εは定数を示す。
【0096】
入力:xは訓練画像セットを示し、Leは、予想される誤差を示す。
【0097】
出力:3N+1個のサブバンドの利得係数{g1,g2,g3,...,g3N+1}。
【0098】
予め設定されたアルゴリズムの主要プロセスは以下の通りである。
【0099】
t=1,2,3,...,3N+1のとき、
g
b=0、g=1、L=∞を初期化、
【数4】
または
【数5】
の場合、
平均値0および分散δ
2を有するガウシアンノイズnを生成する、
c=iWave
Fwd(x)、
c
t=(c
t×g+n)/g、
【数6】
【数7】
【数8】
の場合、
g
b=g、および
【数9】
および
【数10】
の場合、
g=(g
b+g)/2、および
g
t=g、ここで、
iWave
Fwdは深層ニューラルネットワークに基づくウェーブレット変換を示し、iWave
invは深層ニューラルネットワークに基づく逆ウェーブレット変換を示す。
【0100】
任意選択で、8ビット画像の場合、Le=1、ε=0.2、およびδ2=1である。
【0101】
前述の方法が画像符号化に適用される場合、利得係数は、前述の方法に従って各利用可能な値Nに基づく計算によって取得することができ、エンコーダおよびデコーダに組み込まれる。
【0102】
本出願のこの実施形態の解決策では、従来のウェーブレット変換に基づく画像符号化/復号方法では、深層ニューラルネットワークに基づいて取得されたウェーブレット変換モデルがウェーブレット変換および逆ウェーブレット変換を実行するために使用されることが分かる。深層ニューラルネットワークに基づくウェーブレット変換モデルは、訓練方法を使用して大量の自然画像を使用することによる最適化によって取得されるので、ウェーブレット変換モデルは、従来のウェーブレット変換よりもコンパクトな変換ドメイン表現を提供することができ、それによって符号化・復号性能を大幅に改善することができる。ウェーブレット変換モデルの機能をGPUを用いて実施する場合、ウェーブレット変換モデルは従来のウェーブレット変換と同じ速度を有する。複数の符号化試行を通して最適な方向パラメータを選択する適応指向性ウェーブレットと比較して、ウェーブレット変換モデルは、時間の複雑さが低いという利点を有し、自然画像特徴の多様性と複雑さとの間の矛盾、および人工的に設計されたウェーブレット基底関数の理想性と単純さを解決する。
【0103】
本明細書では、ウェーブレット変換に基づく画像符号化の別のプロセスについて説明する。
図10に示すように、ウェーブレット係数を取得するために、深層ニューラルネットワークに基づくウェーブレット変換が符号化対象画像に対して実行され、量子化されたウェーブレット係数を取得するために、ウェーブレット係数に対して量子化処理が実行され、圧縮されたビットストリームを取得するために、量子化されたウェーブレット係数に対して深層ニューラルネットワークに基づくエントロピー符号化が実行される。具体的なプロセスについては、
図11を参照されたい。
図11は、本出願の一実施形態によるウェーブレット変換に基づく別の画像符号化方法の概略フローチャートである。
図11に示されているように、方法は以下のステップを含む。
【0104】
S1101.ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得する。
【0105】
ウェーブレット変換モデルはCNNに基づいて実現され、ウェーブレット変換モデルは更新モデルおよび予測モデルを含み、更新モデルおよび予測モデル内のパラメータは異なる。
【0106】
実現可能な実施形態では、
図12に示すように、ウェーブレット変換モデルは予測モデルおよび更新モデルを含み、ウェーブレット係数を取得するために、ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行するステップは、
i番目のウェーブレット変換を実行するとき、奇数サンプル成分および偶数サンプル成分を取得するために、サブバンドXを分解するステップであって、奇数サンプル成分は、サブバンドX内の奇数行係数または奇数列係数を含み、偶数サンプル成分は、サブバンドX内の偶数行係数または偶数列係数を含む、ステップと、予測成分を取得するために、奇数サンプル成分を使用して予測モデルに基づいて予測を実行するステップであって、予測成分の分解能が奇数サンプル成分の分解能と一致する、ステップと、予測成分および偶数サンプル成分に基づいて中間詳細成分を取得するステップであって、中間詳細成分内の各係数が偶数サンプル成分および予測成分内の対応する位置における係数間の差のb倍である、ステップと、更新された成分を取得するために、中間詳細成分を使用して更新モデルに基づいて更新演算を実行するステップであって、更新された成分の分解能が中間詳細成分の分解能と一致する、ステップと、奇数サンプル成分と更新された成分とに基づいて中間近似成分を取得するステップであって、中間近似成分内の各係数は、奇数サンプル成分と更新された成分との対応する位置における係数の和のa倍である、ステップと、
を含む。
【0107】
同様に、サブバンドXの処理方法によれば、近似サブバンドおよび詳細サブバンドIi1を取得するために、中間近似成分が処理され、詳細サブバンドIi2および詳細サブバンドIi3を取得するために、中間詳細成分が処理される。
【0108】
iが1に等しい場合、サブバンドXは符号化対象画像である。iが1より大きい場合、サブバンドXは近似サブバンドPi-1であり、近似サブバンドPi-1は、(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドであり、ウェーブレット係数は、詳細サブバンドと、N個のウェーブレット変換を実行することによって取得された近似サブバンドと、を含み、合計3N+1個のサブバンドがある。
【0109】
別の可能な実施形態では、
図13に示すように、ウェーブレット変換モデルは予測モデルおよび更新モデルを含み、ウェーブレット変換モデルに基づいて符号化対象画像に対してi番目のウェーブレット変換を実行するステップは、具体的には、
奇数サンプル成分および偶数サンプル成分を取得するために、サブバンドXを分解するステップであって、奇数サンプル成分はサブバンドX内の奇数行係数または奇数列係数を含み、偶数サンプル成分はサブバンドX内の偶数行係数または偶数列係数を含む、ステップと、第1の予測成分を取得するために、奇数サンプル成分を使用して予測モデルに基づいて予測を実行するステップと、偶数サンプル成分および第1の予測成分に基づいて第1の補助更新成分を取得するステップであって、第1の補助更新成分内の各係数が、偶数サンプル成分および第1の予測成分内の対応する位置における係数間の差である、ステップと、第1の更新された成分を取得するために、第1の補助更新成分を使用して更新モデルに基づいて更新を実行するステップと、第1の更新された成分および奇数サンプル成分に基づいて第1の補助予測成分を取得するステップであって、第1の補助予測成分内の各係数が、第1の更新された成分および奇数サンプル成分内の対応する位置における係数の和である、ステップと、第2の予測成分を取得するために、第1の補助予測成分を使用して予測モデルに基づいて予測演算を実行するステップと、第1の補助更新成分と第2の予測成分とに基づいて第2の補助更新成分を取得するステップであって、第2の補助更新成分内の各係数が、第1の補助更新成分と第2の予測成分との対応する位置における係数の差である、ステップと、第2の補助更新成分に基づいて中間詳細成分を取得するステップであって、中間詳細成分内の各係数は、第2の補助更新成分内の対応する位置における係数のb倍である、ステップと、第2の補助更新成分を使用して更新モデルに基づいて第2の更新された成分を取得するステップと、第1の更新された成分および第2の更新された成分に基づいて中間近似成分を取得するステップであって、中間近似成分内の各係数は、第1の更新された成分および第2の更新された成分内の対応する位置における係数の和のa倍であり、aおよびbはスケーリングパラメータであり、ウェーブレット変換モデルのパラメータの一部である、ステップと、
を含む。
【0110】
サブバンドXを処理する上記のプロセスによれば、近似サブバンドPiおよび詳細サブバンドIi1を取得するために、中間近似成分も処理され、詳細サブバンドIi2および詳細サブバンドIi3を取得するために、中間詳細成分が処理される。
【0111】
iが1に等しい場合、サブバンドXは符号化対象画像である。iが1より大きい場合、サブバンドXは近似サブバンドPi-1であり、近似サブバンドPi-1は、(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドであり、ウェーブレット係数は、詳細サブバンドと、N個のウェーブレット変換を実行することによって取得された近似サブバンドと、を含み、合計3N+1個のサブバンドがある。
【0112】
本明細書では、iは0から開始してもよいことに留意されたい。この場合、iの最大値はN-1である。例えば、iが0に等しい場合、サブバンドXは符号化対象画像である。
【0113】
本明細書では、
図13および
図12から分かるように、
図13に示すウェーブレット変換プロセスは、
図12に示すものよりも1つ多い予測および更新プロセスを含むことに留意されたい。
図12は1つの予測および更新プロセスを含み、
図13は2つの予測および更新プロセスを含むと考えることができる。確かに、更新および予測の量は、代替的に別の値であってもよい。更新および予測の量は、本出願では限定されない。
【0114】
図14は、典型的な予測モデルの構造の図である。構造の図は、更新モデルの構造の図と考えることもできる。
図14において、「3×3×1個」は、現在の畳み込み層が、現在の畳み込み層を通過した後に1つの特徴マップを生成するために3×3のサイズの畳み込みカーネルを使用し、活性化関数を使用しないことを示す。「tanh/3×3×16」は、現在の畳み込み層が、3×3のサイズの畳み込みカーネルを使用して、現在の畳み込み層を通過した後に16個の特徴マップを生成し、tanhを活性化関数として使用することを示す。
【0115】
なお、N個のウェーブレット変換を実行する過程において、各ウェーブレット変換に用いられる予測モデルのパラメータは同じでもよく、用いられる予測モデルのパラメータも異なっていてもよい。
【0116】
一例では、ウェーブレット変換モデルのパラメータ(予測モデルのパラメータ、更新モデルのパラメータおよびスケーリング係数を含む)は、エンコーダおよびデコーダに埋め込まれ、送信される必要はない。
【0117】
S1102.ウェーブレット係数を量子化して、量子化されたウェーブレット係数を取得する。
【0118】
量子化されたウェーブレット係数は、
【数11】
として表すことができ、cは量子化前のウェーブレット係数であり、QPは量子化ステップであり、[・]は整数への丸めを意味する。
【0119】
量子化ステップQPは、ウェーブレット変換モデルとエントロピー符号化モデルとの統合訓練プロセスにおいて取得することができることに留意されたい。
【0120】
S1103.エントロピー符号化モデルに基づいて量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得する。
【0121】
量子化されたウェーブレット係数は3N+1個のサブバンドを含み、3N+1個のサブバンドは1つの近似サブバンドおよび3N個の詳細サブバンドを含む。
【0122】
実現可能な実施形態では、圧縮されたビットストリームを取得するためにエントロピー符号化モデルに基づいて量子化されたウェーブレット係数に対してエントロピー符号化を実行するステップは、
圧縮されたビットストリームを取得するために、エントロピー符号化モデルに基づいて量子化されたウェーブレット係数を符号化するステップであって、エントロピー符号化モデルは深層ニューラルネットワークに基づいて実現された、ステップを含む。
【0123】
さらに、圧縮されたビットストリームを取得するためにエントロピー符号化モデルに基づいて量子化されたウェーブレット係数に対してエントロピー符号化を実行するステップは、
計算によって符号化対象係数の累積確率分布関数のパラメータを取得するためにエントロピー符号化モデルにs番目のサブバンドを入力するステップであって、符号化対象係数はs番目のサブバンド内の任意の係数であり、s番目のサブバンドは3N+1個のサブバンドのうちの任意の1つである、ステップと、符号化対象係数の累積確率分布関数のパラメータに基づいて符号化対象係数の累積確率分布関数を取得するステップと、符号化対象係数および符号化対象係数の累積確率分布関数に基づいて符号化対象係数の確率分布を取得するステップと、符号化対象係数に対応するビットストリームを取得するために、算術エンコーダを使用して符号化対象係数の確率分布に基づいて符号化対象係数に対してエントロピー符号化を実行するステップであって、圧縮されたビットストリームは、符号化対象係数に対応するビットストリームを含む、ステップと、を含む。
【0124】
本明細書では、3N+1個のサブバンドは、
図9に示すサブバンドシーケンスに基づいて符号化され、第1のサブバンドは近似サブバンドであり、他のサブバンドは詳細サブバンドであり、近似サブバンドと詳細サブバンドとの間に差があることに留意されたい。したがって、近似サブバンドおよび詳細サブバンドには異なる符号化モードが使用される。言い換えれば、第1のサブバンドおよび第1でないサブバンドにおける係数の累積確率分布関数のパラメータは、異なる方法で取得される。
【0125】
可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドである場合、エントロピー符号化モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー符号化モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するためにs番目のサブバンドをエントロピー符号化モデルに入力するステップは、
Mが1に等しい場合、第1の窓処理された畳み込みカーネルを取得するために、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行するステップと、符号化対象係数の累積確率分布関数のパラメータを取得するために、第1の窓処理された畳み込みカーネルに基づいてs番目のサブバンドに対して畳み込み演算を実行するステップ、または、Mが1より大きい場合、第2の窓処理された畳み込みカーネルを取得するために、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行するステップと、j番目の出力データを取得するために、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行するステップと、
を含み、
jが1に等しい場合、j番目の畳み込み層の入力データは第1のサブバンドであり、jが1より大きくM以下である場合、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しい場合、j番目の出力データは、符号化対象係数の累積確率分布関数のパラメータを含む。
【0126】
例えば、エントロピー符号化モデルが
図15に示されていると仮定すると、エントロピー符号化モデルは4つの畳み込み層を含み、第1の畳み込み層「5×5×128/mask」は、現在の畳み込み層が5×5のサイズの畳み込みカーネルを使用して、現在の畳み込み層を通過した後に128個の特徴マップを生成することを示し、maskは、窓処理演算がこの層での畳み込み演算のためのものであることを示す。第2の畳み込み層「3×3×128/relu」は、現在の畳み込み層が、3×3のサイズの畳み込みカーネルを使用して、現在の畳み込み層を通過した後に128個の特徴マップを生成し、reluを活性化関数として使用することを示す。第3の畳み込み層は第2の畳み込み層と同じであり、「3×3×128/relu」は、現在の畳み込み層が、3×3のサイズの畳み込みカーネルを使用して、現在の畳み込み層を通過した後に128個の特徴マップを生成し、reluを活性化関数として使用することを示す。第4の畳み込み層3×3×58は、現在の畳み込み層が、3×3のサイズの畳み込みカーネルを使用して、現在の畳み込み層を通過した後に58個の特徴マップを生成し、活性化関数を使用しないことを示す。
【0127】
ここで、複数の畳み込み層を含むエントロピー符号化モデルについて、符号化対象係数の累積確率分布関数のパラメータを計算するプロセスでは、第1の畳み込み層に対応する畳み込みカーネルだけでなく、エントロピー符号化モデルにおける任意の1つまたは複数の畳み込み層に対応する畳み込みカーネルに対しても窓処理演算が実行されることに留意されたい。言い換えれば、符号化対象係数の累積確率分布関数のパラメータを計算するプロセスでは、エントロピー符号化モデルにおける任意の1つまたは複数の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行することができる。
【0128】
第1のサブバンドが
図15に示すエントロピー符号化モデルに入力されると、まず、
図16aに示す窓関数を使用して、窓処理された畳み込みカーネルを取得するために、第1の畳み込み層の畳み込みカーネル(すなわち、5×5)に対して窓処理演算を実行し、次いで、128個の特徴マップを取得するために、窓処理された畳み込みカーネルに基づいて第1のサブバンドに対して畳み込み演算が実行される。次に、
図16bに示す窓関数を使用して、窓処理された畳み込みカーネルを取得するために、第2の畳み込み層の畳み込みカーネル(すなわち、3×3)に対して窓処理演算を実行し、次いで、128個の特徴マップを取得するために、第1の畳み込み層によって出力された128個の特徴マップに対して畳み込み演算が実行される。
図16aおよび
図16bから、2つの窓関数の中心値が異なることが分かる。
図16bに示す窓関数を使用して、窓処理された畳み込みカーネルを取得するために、第3の畳み込み層の畳み込みカーネル(すなわち、3×3)に対して窓処理演算を実行し、次いで、128個の特徴マップを取得するために、第2の畳み込み層によって出力された128個の特徴マップに対して畳み込み演算が実行される。
図16bに示す窓関数を使用して、窓処理された畳み込みカーネルを取得するために、第4の畳み込み層の畳み込みカーネル(すなわち、3×3)に対して窓処理演算を実行し、次いで、58個の特徴マップを取得するために、第3の畳み込み層によって出力された128個の特徴マップに対して畳み込み演算が実行される。58個の特徴マップは、符号化対象
係数の累積確率分布関数のパラメータを構成する。
【0129】
以下では、畳み込み層の畳み込みカーネルに対して窓処理演算を実行する目的を説明するために例を使用する。
図16に示すように、大きなブロックは、現在符号化されているサブバンドであり、サブバンド内の係数の符号化シーケンスは、左から右および上から下にあり、現在の畳み込み層の畳み込みカーネルは、5 x 5であり、現在の符号化対象係数は、
図17の5 x 5グリッドの中央位置で「X」である。係数の符号化シーケンスに基づいて、「X」の前の係数は符号化された係数であり、「X」の後の係数は符号化されていない係数である。現在の符号化対象係数の累積確率分布関数のパラメータは、符号化対象係数からの推論によってのみ取得することができる。したがって、畳み込み中に符号化された係数に対してのみ畳み込み演算を実行するために、畳み込み演算が実行される前に、畳み込みカーネルに対して窓処理演算を実行するために窓関数が使用される。窓関数のサイズは、畳み込みカーネルのサイズと同じである。
【0130】
図18は、畳み込みカーネル窓処理の原理の概略図である。
図18に示すように、窓処理された畳み込みカーネルを取得するために、畳み込みカーネルおよび窓関数に対して点乗算が実行される。窓処理された畳み込みカーネルでは、左から右へ、および上から下へのシーケンスにおいて、中心位置の前の値は不変のままであり、中心位置の後の値はすべて0に設定される。これは、畳み込み演算が窓処理された畳み込みカーネルを使用することによって実行されるとき、符号化された係数である「X」の前の係数のみが演算に関与することを可能にし、符号化された係数ではない「X」の後の係数が演算に関与することを可能にしないことを意味し、それによって復号論理の正確さが保証される。
【0131】
本明細書では、第1のサブバンド内の係数が符号化されるとき、いくつかの係数が中心として使用されるので、畳み込みカーネルのサイズと同じサイズの領域に空白部分があり、空白部分は埋められる必要があり、一般に「0」で埋められることに留意されたい。次に、係数の累積確率分布関数のパラメータが前述の方法に従って取得される。
【0132】
別の可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドではない場合、エントロピー符号化モデルは、第1のエントロピー符号化モデル、第2のエントロピー符号化モデル、および第3のエントロピー符号化モデルを含み、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルの両方は、pixelCNNに基づいて実現され、第3のエントロピー符号化モデルは、リカレントニューラルネットワーク(recurrent neural network、RNN)に基づいて実現され、第1のエントロピー符号化モデルは、T1個の畳み込み層を含み、第2のエントロピー符号化モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するためにs番目のサブバンドをエントロピー符号化モデルに入力するステップは、
第1の出力結果を取得するために、(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力するステップであって、第1の出力結果は第2のエントロピー符号化モデルの入力データであり、s番目のサブバンドは第1のエントロピー符号化モデルの入力データである、ステップと、
T1とT2の両方が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するステップであって、第2の出力結果が、符号化対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2が、それぞれ第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルにおける畳み込み層である、ステップ、または
T1が1より大きく、T2が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するステップであって、畳み込み層C1が、第1のエントロピー符号化モデルにおけるq番目の畳み込み層であり、畳み込み層C2が、第2のエントロピー符号化モデルにおける畳み込み層であり、qがT1に等しい場合、第2の出力結果が、符号化対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、T1より小さい場合、第2の出力結果が、第1のエントロピー符号化モデルにおける(q+1)番目の畳み込み層の入力データである、ステップ、または
T1およびT2の両方が1より大きい場合、第2の出力結果を取得するために畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するステップであって、畳み込み層C1が第1のエントロピー符号化モデルにおけるq1番目の畳み込み層であり、畳み込み層C2が第2のエントロピー符号化モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、q2がT2に等しい場合、第2の出力結果が符号化対象係数の累積確率分布関数のパラメータであるか、またはq1が0より大きくT1より小さく、q2が0より大きくT2より小さい場合、第2の出力結果が第1のエントロピー符号化モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー符号化モデルにおける(q2+1)番目の畳み込み層の入力データである、ステップと、
を含む。
【0133】
具体的には、T1とT2の両方が1に等しい場合、すなわち、第1のエントロピー符号化モデルと第2のエントロピー符号化モデルの両方が1つの畳み込み層を含む場合、
図19(a)に示すように、第1のエントロピー符号化モデルの入力データはs番目のサブバンドであり、第2のエントロピー符号化モデルの入力データは第3のエントロピー符号化モデルの出力データ(すなわち、第1の出力結果)である(すなわち、RNN)。第2の出力結果を取得するために、第1のエントロピー符号化モデルにおける畳み込み層(すなわち、畳み込み層C1)および第2のエントロピー符号化モデルにおける畳み込み層(すなわち、畳み込み層C2)に基づいて、s番目のサブバンドおよび第1の出力データに対して結合演算が実行される。一例では、第1のエントロピー符号化モデルの畳み込み層は「5×5×128/mask」であり、第2のエントロピー符号化モデルの畳み込み層は「5×5×128」である。
【0134】
T1が1より大きく、T2が1に等しい場合、第1のエントロピー符号化モデルは複数の畳み込み層を含み、第2のエントロピー符号化モデルは1つの畳み込み層を含む。可能な実施形態では、結合演算は、第1のエントロピー符号化モデルにおける任意の畳み込み層および第2のエントロピー符号化モデルにおける畳み込み層に基づいて実行されてもよく、すなわち、畳み込み層C1は、第1のエントロピー符号化モデルにおける任意の畳み込み層である。例えば、第1のエントロピー符号化モデルにおけるq番目の畳み込み層と、第2のエントロピー符号化モデルにおける畳み込み層とに基づいて、結合演算が実行される。qがT1に等しい場合、q番目の畳み込み層の入力データは、(q-1)番目の畳み込み層の出力データであり、第2の出力結果は、符号化対象係数の累積確率分布関数のパラメータである。qがT1より小さくかつ1より大きい場合、q番目の畳み込み層の入力データは、(q-1)番目の畳み込み層の出力データであり、q番目の畳み込み層の出力データは、(q+1)番目の畳み込み層の入力データである。qが1に等しい場合、q番目の畳み込み層の入力データはs番目のサブバンドであり、q番目の畳み込み層の出力データは(q+1)番目の畳み込み層の入力データである。
図19(b)に示すように、第1のエントロピー符号化モデルは4つの畳み込み層を含み、第2のエントロピー符号化モデルは1つの畳み込み層を含み、結合演算は、第1のエントロピー符号化モデルにおける第1の畳み込み層および第2のエントロピー符号化モデルにおける畳み込み層に基づいて実行される。
【0135】
T1およびT2の両方が1より大きい場合、すなわち、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルの両方が複数の畳み込み層を含むとき、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルにおける複数の畳み込み層に基づいて結合演算が実行される。
図19(c)に示すように、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルの両方は、4つの畳み込み層を含み、第1のエントロピー符号化モデルにおける第2の畳み込み層および第2のエントロピー符号化モデルにおける第3の畳み込み層に基づいて結合演算が実行され、第1のエントロピー符号化モデルにおける第4の畳み込み層および第2のエントロピー符号化モデルにおける第4の畳み込み層に基づいて結合演算が実行される。第1のエントロピー符号化モデルにおける第2の畳み込み層の入力データは、第1の畳み込み層においてs番目のサブバンドに対して畳み込み処理を実行することによって取得されたデータであり、第2のエントロピー符号化モデルにおける第3の畳み込み層の入力データは、第1の出力結果に対して、第1の畳み込み層および第2の畳み込み層で畳み込み処理を実行することによって取得されたデータであり、第1のエントロピー符号化モデルにおける第4の畳み込み層の入力データは、第3の畳み込み層の出力データであり、第2のエントロピー符号化モデルにおける第4の畳み込み層の入力データは、第3の畳み込み層の出力データであり、第2の出力結果は、第1のエントロピー符号化モデルにおける第4の畳み込み層と第2のエントロピー符号化モデルにおける第4の畳み込み層とに基づいて結合演算を実行することによって取得されたデータである。
【0136】
本明細書では、符号化プロセスにおいて、結合演算は第1のエントロピー符号化モデルによって実施されることに留意されたい。
【0137】
本明細書では、本出願で使用されるRNNは、3つのロングショートタームメモリ(long short term memory、LSTM)層を含むことに留意されたい。3つのLSTM層のパラメータは表1に示されており、ここでは詳細に説明しない。確かに、本出願で使用されるRNNは、代替的に別の形態のRNNであってもよい。これは、本出願では特に限定されない。
【0138】
【0139】
実現可能な実施形態では、(s-1)番目のサブバンドの分解能がs番目のサブバンドの分解能と異なる場合、第1の出力結果を取得するために、(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力するステップは、
畳み込み結果を取得するために、第3のエントロピー符号化モデルおよび第3のエントロピー符号化モデルの状態変数に基づいて、(s-1)番目のサブバンドに対して畳み込み演算を実行するステップと、第1の出力結果を取得するために畳み込み結果に対してアップサンプリングを実行するステップであって、第1の出力結果の分解能はs番目のサブバンドの分解能と同じである、ステップと、サンプリングされた状態変数を取得するために、畳み込み状態変数に対してアップサンプリングを実行するステップであって、サンプリングされた状態変数の分解能は、s番目のサブバンドの分解能と同じである、ステップと、を含む。
【0140】
例えば、
図9に示すように、第5のサブバンドが第4のサブバンドに基づいて符号化されるとき、第4のサブバンドと第5のサブバンドとの分解能は異なるため、第1の出力結果が取得されるとき、第1の出力結果の分解能が第5のサブバンドの分解能と一致するように、第3のエントロピー符号化モデルの出力に対してアップサンプリングが実行される必要がある。加えて、サンプリングされた状態変数を取得するために、畳み込み演算後の第3のエントロピー符号化モデルの状態変数に対してアップサンプリングが実行され、サンプリングされた状態変数の分解能は第5のサブバンドの分解能と同じである。
図20に示すように、第3のエントロピー符号化モデルに基づいて(s-1)番目のサブバンドに対して畳み込み演算が実行された後、サンプリングされた畳み込み結果が取得するために、畳み込み結果に対してアップサンプリングが実行され、サンプリングされた畳み込み結果は第1の出力結果であり、第1の出力結果の分解能はs番目のサブバンドの分解能と同じである。サンプリングされた状態変数を取得するために畳み込み状態変数に対してアップサンプリングが実行され、サンプリングされた状態変数の分解能はs番目のサブバンドの分解能と同じである。
【0141】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するステップは、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行するステップであって、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第1の入力データは、s番目のサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、第2の畳み込み結果を取得するために、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行するステップであって、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するステップと、を含む。
【0142】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するステップは、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、窓処理された第2の畳み込みカーネルを取得するために、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行するステップであって、第2の畳み込みカーネルが畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数が互いに相補的である、ステップと、第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行するステップであって、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第1の入力データは、s番目のサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、第2の畳み込み結果を取得するために、窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行するステップであって、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するステップと、
を含む。
【0143】
図21に示すように、第1の窓関数と第2の窓関数とは互いに相補的である。
【0144】
符号化対象係数の累積確率分布関数のパラメータは、前述の方法に従って取得され、パラメータはxで表される。符号化対象係数の累積確率分布関数のパラメータが58次元である場合、xで表される累積確率分布関数のパラメータは、以下のように表すことができる。
h=softplus(x[0:33])
b=x[33:46]
a=tanh(x[46:58])
【0145】
符号化対象係数をyで表し、累積確率分布関数のパラメータに基づいて符号化対象係数yの累積確率分布関数を計算する具体的なプロセスは以下の通りである。
y=matmul(reshape(h[0:3]、[3,1])、y)+reshape(b[0:3]、[3,1])、
y=y+reshape(a[0:3]、[3,1])・tanh(y)、
y=matmul(reshape(h[3:12]、[3、3])、y)+reshape(b[3:6]、[3,1])、
y=y+reshape(a[3:6]、[3,1])・tanh(y)、
y=matmul(reshape(h[12:21]、[3、3])、y)+reshape(b[6:9]、[3,1])、
y=y+reshape(a[6:9]、[3,1])・tanh(y)、
y=matmul(reshape(h[21:30]、[3、3])、y)+reshape(b[9:12]、[3,1])、
y=y+reshape(a[3,1]、[9:12])・tanh(y)、
y=matmul(reshape(h[30:33]、[1、3])、y)+b[12:13]、
y=sigmoid(y)
【0146】
前述の計算プロセスはcdf(y)と表され、すなわち、符号化対象係数の累積確率分布関数はcdf(y)である。
【0147】
次に、cdf(y)を用いてyの確率分布を計算する方法について説明する。
【0148】
yの値の範囲は既知であり、yの値の範囲は[y
min,y
max,QP]と表すことができ、y
minはyの最小値を表し、y
maxはyの最大値を表し、QPは量子化ステップを表し、y
minとy
maxとの間にQPの間隔でyの値が割り当てられることを表し、y
minおよびy
maxは訓練プロセスにおいて事前に制限される。y=y
0の場合、対応する確率値は以下のように与えられる。
【数12】
【0149】
他の値の確率も同様の方法で算出すれば、符号化対象係数の確率分布を取得することができる。次に、符号化対象係数のビットストリームを取得するために、符号化対象係数yの確率分布に基づいて、算術エンコーダを使用して符号化対象係数yに対してエントロピー符号化が実行される。
【0150】
前述の方法によれば、各サブバンドにおける各係数の累積確率分布関数のパラメータを取得することができ、次いで、各係数の確率分布関数が取得され、次いで、各係数の確率分布が取得され、次いで、圧縮されたビットストリームを取得するために、算術エンコーダを使用して各係数の確率分布に基づいて各係数に対してエントロピー符号化が実行される。
【0151】
ここで、エントロピー符号化モデルは、前述の実施形態で説明した深層ニューラルネットワークを使用して実装されることに限定されず、別の深層ニューラルネットワークを使用して実装されてもよいことに留意されたい。
【0152】
次に、ウェーブレット変換に基づく画像復号の他の処理について説明する。
図22に示すように、再構成されたウェーブレット係数を取得するために、深層ニューラルネットワークに基づくエントロピー復号が圧縮されたビットストリームに対して実行され、次いで、量子化解除されたウェーブレット係数を取得するために、再構成されたウェーブレット係数に対して量子化解除が実行され、再構成画像を取得するために、深層ニューラルネットワークに基づく逆ウェーブレット変換が量子化解除されたウェーブレット係数に対して実行される。詳細については、
図23を参照されたい。
図23は、本出願の一実施形態によるウェーブレット変換に基づく別の画像復号方法の概略フローチャートである。
図23に示されるように、方法は以下のステップを含む。
【0153】
S2301.エントロピー復号モデルに基づいて圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得し、エントロピー復号モデルは深層ニューラルネットワークに基づいて実現される。
【0154】
実現可能な実施形態では、圧縮されたビットストリームは3N+1個のサブバンドのビットストリームを含み、再構成されたウェーブレット係数は3N+1個の再構成されたサブバンドを含み、再構成されたウェーブレット係数を取得するためにエントロピー復号モデルに基づいて圧縮されたビットストリームに対してエントロピー復号を実行するステップは、
計算によって復号対象係数の累積確率分布関数のパラメータを取得するために、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力するステップであって、復号対象係数のビットストリームはs番目のサブバンドのビットストリームの一部であり、s番目のサブバンドは3N+1個のサブバンドのうちの任意の1つである、ステップと、復号対象係数の累積確率分布関数のパラメータに基づいて復号対象係数の累積確率分布関数を取得するステップと、復号対象係数と復号対象係数の累積確率分布関数とに基づいて復号対象係数の確率分布を取得するステップと、復号対象係数を取得するために、復号対象係数の確率分布に基づいて、算術デコーダを使用して復号対象係数のビットストリームに対してエントロピー復号を実行するステップであって、3N+1個の再構成されたサブバンドが復号対象係数を含む、ステップと、を含む。
【0155】
本明細書では、3N+1個のサブバンドは、
図9に示すサブバンドシーケンスに基づいて復号され、第1のサブバンドは近似サブバンドであり、他のサブバンドは詳細サブバンドであり、近似サブバンドと詳細サブバンドとの間に差があることに留意されたい。したがって、近似サブバンドおよび詳細サブバンドには異なる復号モードが使用される。言い換えれば、第1のサブバンドおよび第1でないサブバンドにおける係数の累積確率分布関数のパラメータは、異なる方法で取得される。
【0156】
ここで、サブバンドのビットストリームに対してエントロピー復号が実行されるとき、サブバンドの分解能と同じ分解能を有する再構成されたサブバンドが最初に作成され、再構成されたサブバンド内の係数はすべて0に設定されることに留意されたい。サブバンド内の係数が復号されるたびに、再構成されたサブバンド内の対応する位置の係数が復号された係数に更新され、更新された再構成されたサブバンドは、係数の後の次の係数を復号するためにエントロピー復号モデルに入力される必要がある。サブバンド内の係数の復号シーケンスは、左から右および上から下である。
【0157】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドである場合、エントロピー復号モデルはピクセルCNNに基づいて実現され、エントロピー復号モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、計算によって復号対象係数の累積確率分布関数のパラメータを取得するために、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力するステップは、
Mが1に等しい場合、第1の窓処理された畳み込みカーネルを取得するために、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行するステップと、復号対象係数の累積確率分布関数のパラメータを取得するために、第1の窓処理された畳み込みカーネルに基づいて、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行するステップ、または、Mが1より大きい場合、第2の窓処理された畳み込みカーネルを取得するために、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行するステップと、j番目の出力データを取得するために、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行するステップと、を含み、jが1に等しいとき、j番目の畳み込み層の入力データは、第1のサブバンドに対応する再構成されたサブバンドである、jが1より大きくM以下である場合、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しい場合、j番目の出力データは復号対象係数の累積確率分布関数のパラメータを含む。
【0158】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドではない場合、エントロピー復号モデルは、第1のエントロピー復号モデル、第2のエントロピー復号モデル、および第3のエントロピー復号モデルを含み、第1のエントロピー復号モデルおよび第2のエントロピー復号モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー復号モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、第1のエントロピー復号モデルは、T1個の畳み込み層を含み、第2のエントロピー復号モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、計算によって復号対象係数の累積確率分布関数のパラメータを取得するために、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力するステップは、
第1の出力結果を取得するために、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力するステップであって、(s-1)番目のサブバンドに対応する再構成されたサブバンドは、(s-1)番目のサブバンドのビットストリームに対してエントロピー復号を実行することによって取得され、第1の出力結果は、第2のエントロピー復号モデルの入力データであり、s番目のサブバンドに対応する再構成されたサブバンドは、第1のエントロピー復号モデルの入力データである、ステップと、
T1とT2の両方が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するステップであって、第2の出力結果が、復号対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2が、それぞれ第1のエントロピー復号モデルおよび第2のエントロピー復号モデルにおける畳み込み層である、ステップ、または
T1が1より大きく、T2が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおけるq番目の畳み込み層であり、畳み込み層C2が第2のエントロピー復号モデルにおける畳み込み層であり、qがT1に等しい場合、第2の出力結果が復号対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、T1より小さい場合、第2の出力結果が第1のエントロピー復号モデルにおける(q+1)番目の畳み込み層の入力データである、ステップ、または
T1およびT2の両方が1より大きい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおけるq1番目の畳み込み層であり、畳み込み層C2が第2のエントロピー復号モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、q2がT2に等しい場合、第2の出力結果が復号対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きくT1より小さく、q2が0より大きくT2より小さい場合、第2の出力結果が第1のエントロピー復号モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー復号モデルにおける(q2+1)番目の畳み込み層の入力データである、ステップと、
を含む。
【0159】
ここで、計算によって復号対象係数の累積確率分布関数のパラメータを取得するために、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力する具体的なプロセスについては、計算によって復号対象係数の累積確率分布関数のパラメータを取得するためにs番目のサブバンドをエントロピー復号モデルに入力するステップS1103の関連する説明を参照されたい。詳細は本明細書では繰り返し説明されない。
【0160】
実現可能な実施形態では、(s-1)番目のサブバンドに対応する再構成されたサブバンドの分解能がs番目のサブバンドに対応する再構成されたサブバンドの分解能と異なる場合、第1の出力結果を取得するために、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力し、方法は、
畳み込み結果を取得するために、第3のエントロピー復号モデルおよび第3のエントロピー復号モデルの状態変数に基づいて、(s-1)番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行するステップと、第1の出力結果を取得するために畳み込み結果に対してアップサンプリングを実行するステップであって、第1の出力結果の分解能はs番目のサブバンドに対応する再構成されたサブバンドの分解能と同じである、ステップと、サンプリングされた状態変数を取得するために、畳み込み状態変数に対してアップサンプリングを実行するステップであって、サンプリングされた状態変数の分解能はs番目のサブバンドの分解能と同じである、ステップと、
をさらに含む。
【0161】
第1の出力結果を取得するために、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力する具体的なプロセスについては、ステップS1103の関連する説明を参照されたい。詳細は本明細書では繰り返し説明されない。
【0162】
実現可能な実施形態では、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するステップは、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層である場合、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、第2の畳み込み結果を取得するために、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行するステップであって、畳み込み層C2が第2のエントロピー復号モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するステップと、
を含む。
【0163】
実現可能な実施形態では、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するステップは、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行するステップであって、第1の畳み込みカーネルが、畳み込み層C1に対応する畳み込みカーネルである、ステップと、窓処理された第2の畳み込みカーネルを取得するために、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行するステップであって、第2の畳み込みカーネルが畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数が互いに相補的である、ステップと、
第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行するステップであって、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層である場合、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、第2の畳み込み結果を取得するために、窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行するステップであって、畳み込み層C2が第2のエントロピー復号モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するステップと、
を含む。
【0164】
なお、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行する具体的なプロセスについては、ステップS1103の関連する説明を参照されたい。詳細は本明細書では繰り返し説明されない。
【0165】
S2302.再構成されたウェーブレット係数を量子化解除して、量子化解除されたウェーブレット係数を取得する。
【0166】
エントロピー復号(すなわち、再構成されたウェーブレット係数)によって取得されたウェーブレット係数は、
【数13】
として表されてもよく、量子化解除されたウェーブレット係数は、
【数14】
として表される。量子化解除プロセスは、以下のように表すことができる。
【数15】
【0167】
S2303.ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得し、Nは0より大きい整数である。
【0168】
ウェーブレット変換モデルはCNNに基づいて実現される。
【0169】
具体的には、量子化解除されたウェーブレット係数は3N+1個のサブバンドを含み、3N+1個のサブバンドは1つの近似サブバンドおよび3N個の詳細サブバンドを含む。再構成画像を取得するために、ウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行するステップは、
t番目の逆ウェーブレット変換を実行するとき、第1の処理されたサブバンドおよび第2の処理されたサブバンドを取得するために近似サブバンドPN+1-tおよび詳細サブバンドI(N+1-t)1を更新および予測し、第1の処理されたサブバンドおよび第2の処理されたサブバンドに基づいて中間近似成分を取得するステップであって、中間近似成分の奇数列係数または奇数行係数は第1の処理されたサブバンドに由来し、中間近似成分の偶数列係数または偶数行係数は第2の処理されたサブバンドに由来する、ステップと、第3の処理されたサブバンドおよび第4の処理されたサブバンドを取得するために詳細サブバンドI(N+1-t)2および詳細サブバンドI(N+1-t)3を更新および予測し、第3の処理されたサブバンドおよび第4の処理されたサブバンドに基づいて中間詳細成分を取得するステップであって、中間詳細成分の奇数列係数または奇数行係数は第3の処理されたサブバンドに由来し、中間詳細成分の偶数列係数または偶数行係数は第4の処理されたサブバンドに由来する、ステップと、第5の処理されたサブバンドおよび第6の処理されたサブバンドを取得するために中間詳細成分および中間近似成分を更新および予測し、第5の処理されたサブバンドおよび第6の処理されたサブバンドに基づいて近似サブバンドPt-1を取得するステップであって、近似サブバンドPt-1の奇数行係数または奇数列係数は第5の処理されたサブバンドに由来し、近似サブバンドPt-1の偶数行係数または偶数列係数は第6の処理されたサブバンドに由来する、ステップと、
を含み、
詳細サブバンドI(N+1-t)1、詳細サブバンドI(N+1-t)2、および詳細サブバンドI(N+1-t)3の分解能は、近似サブバンドPN+1-tの分解能と同じであり、t番目の逆ウェーブレット変換が最後のウェーブレット変換である場合、近似サブバンドPt-1は再構成画像である。
【0170】
具体的には、ウェーブレット変換モデルは、更新モデルおよび予測モデルを含む。
図24に示すように、t番目の逆ウェーブレット変換が実行されるとき、近似サブバンドP
N+1-tに基づいて第1のスケーリングされた成分が取得され、第1のスケーリングされた成分内の各係数は、近似サブバンドP
N+1-t内の対応する位置における係数の1/aである。第2のスケーリングされた成分は、詳細サブバンドI
(N+1-t)1に基づいて取得され、第2のスケーリングされた成分内の各係数は、詳細サブバンド内の対応する位置における係数の1/bであり、更新された成分を取得するために、第2のスケーリングされた成分を使用して更新モデルに基づいて更新が実行される。第1の処理された成分(すなわち、奇数サンプル成分)は、更新された成分および第1のスケーリングされた成分に基づいて取得され、第1の処理された成分内の各係数は、第1のスケーリングされた成分および更新された成分内の対応する位置における係数間の差である。予測成分を取得するために、第1の処理された成分を使用して予測モデルに基づいて予測が実行される。第2の処理された成分(すなわち、偶数サンプル成分)は、第2のスケーリングされた成分および予測成分に基づいて取得され、第2の処理された成分内の各係数は、第2のスケーリングされた成分および予測成分内の対応する位置における係数の和である。中間近似成分は、第1の処理された成分および第2の処理された成分に基づいて取得され、中間近似成分の奇数行係数または奇数列係数は、第1の処理された成分に由来し、中間近似成分の偶数行係数または偶数列係数は、第2の処理された成分に由来する。換言すれば、中間近似成分における奇数行係数または奇数列係数は、第1の処理された成分の一部または全部に由来し、中間近似成分における偶数行係数または偶数列係数は、第2の処理された成分の一部または全部に由来する。
【0171】
前述の方法によれば、詳細サブバンドI(N+1-t)2および詳細サブバンドI(N+1-t)3が更新および予測されて、第3の処理された成分および第4の処理された成分が取得され、第3の処理された成分および第4の処理された成分に基づいて中間詳細成分が取得され、中間詳細成分の奇数行係数または奇数列係数は第3の処理された成分に由来し、中間詳細成分の偶数行係数または偶数列係数は第4の処理された成分に由来する。換言すれば、中間詳細成分内の奇数行係数または奇数列係数は第3の処理された成分の一部または全部であり、中間詳細成分内の偶数行係数または偶数列係数は第4の処理された成分の一部または全部である。
【0172】
前述の方法によれば、中間近似成分および中間詳細成分は、第5の処理された成分および第6の処理された成分を取得するために更新および予測され、近似サブバンドPN-tは、第5の処理された成分および第6の処理された成分に基づいて取得され、近似サブバンドPN-tの奇数列係数または奇数行係数は、第5の処理された成分に由来し、近似サブバンドPN-tの偶数列係数または偶数行係数は、第6の処理された成分に由来する。言い換えれば、近似サブバンドPN-t内の奇数列係数または奇数行係数は第5の処理された成分の一部または全部であり、近似サブバンドPN-t内の偶数列係数または偶数行係数は第6の処理された成分の一部または全部である。
【0173】
別の特定の実施形態では、ウェーブレット変換モデルは、更新モデルおよび予測モデルを含む。
図25に示すように、t番目の逆ウェーブレット変換が実行されると、近似サブバンドP
N+1-tに基づいて第1のスケーリングされた成分が取得され、詳細サブバンドI
(N+1-t)1に基づいて第2のスケーリングされた成分が取得され、第1のスケーリングされた成分内の各係数は、近似サブバンドP
N+1-t内の対応する位置における係数の1/aであり、第2のスケーリングされた成分内の各係数は、詳細サブバンドI
(N+1-t)1内の対応する位置における係数の1/bである。第2のスケーリングされた成分を使用して更新モデルに基づいて更新が実行され、第1の更新された成分が取得される。補助予測成分は、第1の更新された成分および第1のスケーリングされた成分に基づいて取得され、補助予測成分内の各係数は、第1のスケーリングされた成分および第1の更新された成分内の対応する位置における係数間の差である。第1の予測成分を取得するために、補助予測成分を使用して予測モデルに基づいて予測が実行される。補助更新成分は、第2のスケーリングされた成分および第1の予測成分に基づいて取得され、補助更新成分内の各係数は、第2のスケーリングされた成分および第1の予測成分内の対応する位置における係数の和である。第2の更新された成分を取得するために、補助更新成分を使用することによって更新モデルに基づいて更新が実行され、補助予測成分および第2の更新された成分に基づいて第1の処理された成分(すなわち、奇数サンプル成分)が取得され、第1の処理された成分の各係数は、第1の予測成分および第2の更新された成分の対応する位置における係数間の差である。第2の予測成分を取得するために、第1の処理された成分を使用して予測モデルに基づいて予測が実行される。第2の処理された成分(すなわち、偶数サンプル成分)は、第2の予測成分および補助更新成分に基づいて取得され、第2の処理された成分の各係数は、第2の予測成分および補助更新成分の対応する位置における係数の和である。
【0174】
中間近似成分は、第1の処理された成分および第2の処理された成分に基づいて取得され、中間近似成分の奇数行係数または奇数列係数は、第1の処理された成分に由来し、中間近似成分の偶数行係数または偶数列係数は、第2の処理された成分に由来する。換言すれば、中間近似成分における奇数行係数または奇数列係数は、第1の処理された成分の一部または全部に由来し、中間近似成分における偶数行係数または偶数列係数は、第2の処理された成分の一部または全部に由来する。
【0175】
前述の方法によれば、詳細サブバンドI(N+1-t)2および詳細サブバンドI(N+1-t)3が更新および予測されて、第3の処理された成分および第4の処理された成分が取得され、第3の処理された成分および第4の処理された成分に基づいて中間詳細成分が取得され、中間詳細成分の奇数行係数または奇数列係数は第3の処理された成分に由来し、中間詳細成分の偶数行係数または偶数列係数は第4の処理された成分に由来する。換言すれば、中間詳細成分内の奇数行係数または奇数列係数は第3の処理された成分の一部または全部であり、中間詳細成分内の偶数行係数または偶数列係数は第4の処理された成分の一部または全部である。
【0176】
前述の方法によれば、中間近似成分および中間詳細成分は、第5の処理された成分および第6の処理された成分を取得するために更新および予測され、近似サブバンドPN-tは、第5の処理された成分および第6の処理された成分に基づいて取得され、近似サブバンドPN-tの奇数列係数または奇数行係数は、第5の処理された成分に由来し、近似サブバンドPN-tの偶数列係数または偶数行係数は、第6の処理された成分に由来する。言い換えれば、近似サブバンドPN-t内の奇数列係数または奇数行係数は第5の処理された成分の一部または全部であり、近似サブバンドPN-t内の偶数列係数または偶数行係数は第6の処理された成分の一部または全部である。
【0177】
tがNに等しい場合、近似サブバンドPN-tは再構成画像である。
【0178】
本明細書では、tはさらに0から開始してもよいことに留意されたい。この場合、tの最大値はN-1である。例えば、tがN-1に等しい場合、近似サブバンドPN-tは再構成画像である。
【0179】
本明細書では、
図24および
図25から分かるように、
図25に示す逆ウェーブレット変換プロセスは、
図24に示すプロセスよりももう1つの予測および更新プロセスを含むことに留意されたい。
図24は1つの予測および更新プロセスを含み、
図25は2つの予測および更新プロセスを含むと考えることができる。確かに、更新および予測の量は、代替的に別の値であってもよい。更新および予測の量は、本出願では限定されない。
【0180】
なお、N個の逆ウェーブレット変換を実行するプロセスにおいて、各逆ウェーブレット変換に用いられる予測モデルのパラメータは同じでもよく、用いられる予測モデルのパラメータも異なっていてもよい。
【0181】
S2304.後処理モデルに基づいて再構成画像に対して後処理を実行して、処理された再構成画像を取得する。
【0182】
後処理モデルは、深層ニューラルネットワークに基づいて実現される。
【0183】
深層ニューラルネットワークに基づく後処理の目的は、再構成画像の品質を向上させることである。具体的には、再構成画像は、深層ニューラルネットワークに基づいて実現された後処理モデルに入力され、後処理モデルの出力は、処理された再構成画像、すなわち品質が向上した画像である。
図26は、典型的な後処理モデルの構造の概略図である。
図26において、「3×3×16」は、現在の畳み込み層が3×3の畳み込みカーネルを使用して16個の特徴マップを生成し、活性化関数を使用しないことを示す。「3×3×16/relu」は、現在の畳み込み層が3×3の畳み込みカーネルを使用して16個の特徴マップを生成し、活性化関数reluを使用することを示す。
【0184】
本明細書では、
図26に示す後処理モデルは単なる例であることに留意されたい。あるいは、後処理モデルは、別の形態の深層ニューラルネットワークに基づいて実現されてもよい。
【0185】
本明細書では、符号化および復号プロセスにおいて、エントロピー符号化モデルおよびエントロピー復号モデルも同じモデルであることに留意されたい。
【0186】
本出願の解決策では、従来のウェーブレット変換に基づく画像符号化/復号方法では、深層ニューラルネットワークに基づいて取得されたウェーブレット変換モデルがウェーブレット変換および逆ウェーブレット変換を実行するために使用されることが分かる。深層ニューラルネットワークに基づくウェーブレット変換モデルは、訓練方法を使用して大量の自然画像を使用することによる最適化によって取得されるので、ウェーブレット変換モデルは、従来のウェーブレット変換よりもコンパクトな変換ドメイン表現を提供することができ、それによって符号化・復号性能を大幅に改善することができる。ウェーブレット変換モデルの機能をGPUを用いて実施する場合、ウェーブレット変換モデルは従来のウェーブレット変換と同じ速度を有する。複数の符号化試行を通して最適な方向パラメータを選択する適応指向性ウェーブレットと比較して、ウェーブレット変換モデルは、時間の複雑さが低いという利点を有し、自然画像特徴の多様性と複雑さとの間の矛盾、および人工的に設計されたウェーブレット基底関数の理想性と単純さを解決する。加えて、エントロピー符号化・復号モデルおよび深層ニューラルネットワークに基づく後処理モデルが使用されるので、符号化・復号性能がさらに改善される。
【0187】
図27は、本発明の一実施形態による、ウェーブレット変換に基づく画像符号化装置の構造の概略図である。
図27に示すように、画像符号化装置2700は、
ウェーブレット係数を取得するために、ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行するように構成された変換モジュール2701であって、ウェーブレット変換モデルが畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nが0より大きい整数である、変換モジュール2701と、
量子化されたウェーブレット係数を取得するためにウェーブレット係数を量子化するように構成された量子化モジュール2702と、
圧縮されたビットストリームを取得するために量子化されたウェーブレット係数に対してエントロピー符号化を実行するように構成されたエントロピー符号化モジュール2703と、
を備える。
【0188】
実現可能な実施形態では、変換モジュール2701は、具体的には、
i番目のウェーブレット変換を実行するとき、奇数サンプル成分および偶数サンプル成分を取得するために、サブバンドXを分解し、奇数サンプル成分は、サブバンドX内の奇数行係数または奇数列係数を含み、偶数サンプル成分は、サブバンドX内の偶数行係数または偶数列係数を含み、
中間近似成分および中間詳細成分を取得するために、偶数サンプル成分および奇数サンプル成分に対して更新演算および予測演算を実行し、
第1のサンプル成分および第2のサンプル成分を取得するために中間近似成分を分解し、第1のサンプル成分は中間近似成分の奇数列係数または奇数行係数を含み、第2のサンプル成分は中間近似成分の偶数列係数または偶数行係数を含み、
第3のサンプル成分および第4のサンプル成分を取得するために中間詳細成分を分解し、第3のサンプル成分は中間詳細成分の奇数行係数または奇数列係数を含み、第4のサンプル成分は中間詳細成分の偶数列係数または偶数行係数を含み、
近似サブバンドPiおよび詳細サブバンドIi1を取得するために、第1のサンプル成分および第2のサンプル成分に対して更新演算および予測演算を実行し、詳細サブバンドIi2および詳細サブバンドIi3を取得するために、第3のサンプル成分および第4のサンプル成分に対して更新演算および予測演算を実行するように構成され、
ウェーブレット係数は、近似サブバンドPi、詳細サブバンドIi1、詳細サブバンドIi2、および詳細サブバンドIi3を含み、i番目のウェーブレット変換が第1のウェーブレット変換である場合、サブバンドXは符号化対象画像であり、または、i番目のウェーブレット変換が第1のウェーブレット変換でない場合、サブバンドXは近似サブバンドPi-1であり、近似サブバンドPi-1は(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドである。
【0189】
実現可能な実施形態では、予測演算がCNNに基づいて実現され、更新演算がCNNに基づいて実現され、または予測演算と更新演算の両方が、CNNに基づいて実現される。
【0190】
実現可能な実施形態では、エントロピー符号化モジュール2703は、具体的には、
圧縮されたビットストリームを取得するために、エントロピー符号化モデルに基づいて量子化されたウェーブレット係数を符号化するように構成され、エントロピー符号化モデルは深層ニューラルネットワークに基づいて実現される。
【0191】
実現可能な実施形態では、ウェーブレット係数は3N+1個のサブバンドを含み、エントロピー符号化モジュール2703は、具体的には、
計算によって符号化対象係数の累積確率分布関数のパラメータを取得するためにエントロピー符号化モデルにs番目のサブバンドを入力し、符号化対象係数はs番目のサブバンド内の任意の係数であり、s番目のサブバンドは3N+1個のサブバンドのうちの任意の1つであり、符号化対象係数の累積確率分布関数のパラメータに基づいて累積確率分布関数を取得し、符号化対象係数および符号化対象係数の累積確率分布関数に基づいて、符号化対象係数の確率分布を取得し、符号化対象係数に対応するビットストリームを取得するために、算術エンコーダを使用して符号化対象係数の確率分布に基づいて符号化対象係数に対してエントロピー符号化を実行し、圧縮されたビットストリームは、符号化対象係数に対応するビットストリームを含む、ように構成される。
【0192】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドの第1のサブバンドである場合、エントロピー符号化モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー符号化モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するためにs番目のサブバンドをエントロピー符号化モデルに入力するとき、エントロピー符号化モジュール2703は、具体的には、
Mが1に等しい場合、第1の窓処理された畳み込みカーネルを取得するために、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行し、符号化対象係数の累積確率分布関数のパラメータを取得するために、第1の窓処理された畳み込みカーネルに基づいてs番目のサブバンドに対して畳み込み演算を実行し、または
Mが1より大きい場合、第2の窓処理された畳み込みカーネルを取得するために、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行し、j番目の出力データを取得するために、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行するように構成され、
jが1に等しい場合、j番目の畳み込み層の入力データは第1のサブバンドであり、jが1より大きくM以下である場合、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しい場合、j番目の出力データは、符号化対象係数の累積確率分布関数のパラメータを含む。
【0193】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドではない場合、エントロピー符号化モデルは、第1のエントロピー符号化モデル、第2のエントロピー符号化モデル、および第3のエントロピー符号化モデルを含み、第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー符号化モデルは、RNNに基づいて実現され、第1のエントロピー符号化モデルは、T1個の畳み込み層を含み、第2のエントロピー符号化モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するためにs番目のサブバンドをエントロピー符号化モデルに入力するとき、エントロピー符号化モジュール2703は、具体的には、
第1の出力結果を取得するために、(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力し、第1の出力結果は第2のエントロピー符号化モデルの入力データであり、s番目のサブバンドは第1のエントロピー符号化モデルの入力データであり、
T1とT2の両方が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行し、第2の出力結果は、符号化対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2は、それぞれ第1のエントロピー符号化モデルおよび第2のエントロピー符号化モデルにおける畳み込み層であり、または
T1が1より大きく、T2が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行し、畳み込み層C1は、第1のエントロピー符号化モデルにおけるq番目の畳み込み層であり、畳み込み層C2は、第2のエントロピー符号化モデルにおける畳み込み層であり、qがT1に等しい場合、第2の出力結果は、符号化対象係数の累積確率分布関数のパラメータであり、またはqが0より大きくT1より小さい場合、第2の出力結果は、第1のエントロピー符号化モデルにおける(q+1)番目の畳み込み層の入力データであり、または
T1およびT2の両方が1より大きい場合、第2の出力結果を取得するために畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行し、畳み込み層C1は第1のエントロピー符号化モデルにおけるq1番目の畳み込み層であり、畳み込み層C2は第2のエントロピー符号化モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、q2がT2に等しい場合、第2の出力結果は符号化対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きくT1より小さく、q2が0より大きくT2より小さい場合、第2の出力結果は第1のエントロピー符号化モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー符号化モデルにおける(q2+1)番目の畳み込み層の入力データである、ように構成される。
【0194】
実現可能な実施形態では、(s-1)番目のサブバンドの分解能がs番目のサブバンドの分解能と異なる場合、第1の出力結果を取得するために、(s-1)番目のサブバンドを計算のために第3のエントロピー符号化モデルに入力するとき、エントロピー符号化モジュール2703は、具体的には、
畳み込み結果を取得するために、第3のエントロピー符号化モデルおよび第3のエントロピー符号化モデルの状態変数に基づいて、(s-1)番目のサブバンドに対して畳み込み演算を実行し、
第1の出力結果を取得するために、畳み込み結果に対してアップサンプリングを実行し、第1の出力結果の分解能はs番目のサブバンドの分解能と同じである、ように構成され、
第1の出力結果を取得するために畳み込み結果に対してアップサンプリングを実行した後に、エントロピー符号化モジュール2703は、
サンプリングされた状態変数を取得するために、畳み込み状態変数に対してアップサンプリングを実行し、サンプリングされた状態変数の分解能は、s番目のサブバンドの分解能と同じである、ようにさらに構成される。
【0195】
実現可能な実施形態では、畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するとき、エントロピー符号化モジュール2703は、具体的には、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行し、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行し、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第1の入力データはs番目のサブバンドに対して畳み込み演算を実行することによって取得され、
第2の畳み込み結果を取得するために、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行し、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するように構成される。
【0196】
実現可能な実施形態では、第2の出力結果を取得するために畳み込み層C1および畳み込み層C2に基づいて第1の出力結果およびs番目のサブバンドに対して結合演算を実行するとき、エントロピー符号化モジュール2703は、具体的には、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行し、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
窓処理された第2の畳み込みカーネルを取得するために、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行し、第2の畳み込みカーネルは畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数は互いに相補的であり、
第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行し、畳み込み層C1が第1のエントロピー符号化モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドであり、または畳み込み層C1が第1のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第1の入力データはs番目のサブバンドに対して畳み込み演算を実行することによって取得され、
第2の畳み込み結果を取得するために、窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行し、畳み込み層C2が第2のエントロピー符号化モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー符号化モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するように構成される。
【0197】
前述のユニット(変換モジュール2701、量子化モジュール2702、およびエントロピー符号化モジュール2703)は、前述の方法における関連するステップを実行するように構成されることに留意されたい。例えば、変換モジュール2701は、ステップS201およびS1101における関連する内容を実行するように構成され、量子化モジュール2702は、ステップS1102における関連する内容を実行するように構成され、エントロピー符号化モジュール2703は、ステップS1103における関連する内容を実行するように構成される。
【0198】
この実施形態では、画像符号化装置2700はモジュールの形態で提示される。本明細書の「モジュール」は、特定用途向け集積回路(application-specific integrated circuit、ASIC)、1つまたは複数のソフトウェアまたはファームウェアプログラムを実行するためのプロセッサおよびメモリ、集積論理回路、および/または前述の機能を提供する。加えて、変換モジュール2701、量子化モジュール2702、およびエントロピー符号化モジュール2703は、
図30に示される画像符号化
装置3000のプロセッサ3001によって実現されてもよい。
【0199】
図28は、本発明の一実施形態による、ウェーブレット変換に基づく画像復号装置の構造の概略図である。
図28に示すように、画像復号装置2800は、
再構成されたウェーブレット係数を取得するために、圧縮されたビットストリームに対してエントロピー復号を実行するように構成されたエントロピー復号モジュール2801と、
量子化解除されたウェーブレット係数を取得するために、再構成されたウェーブレット係数を量子化解除するように構成された量子化解除モジュール2802と、
再構成画像を取得するためにウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行するように構成された逆変換モジュール2803であって、ウェーブレット変換モデルが畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nが0より大きい整数である、逆変換モジュールと、
を備える。
【0200】
実現可能な実施形態では、エントロピー復号モジュール2801は、具体的には、
再構成されたウェーブレット係数を取得するためにエントロピー復号モデルに基づいて圧縮されたビットストリームに対してエントロピー復号を実行するように構成され、エントロピー復号モデルは深層ニューラルネットワークに基づいて実現される。
【0201】
実現可能な実施形態では、エントロピー復号モジュール2801は、具体的には、
計算によって復号対象係数の累積確率分布関数のパラメータを取得するために、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力し、復号対象係数のビットストリームはs番目のサブバンドのビットストリームの一部であり、s番目のサブバンドに対応する再構成されたサブバンドは、3N+1個の再構成されたサブバンドのうちの任意の1つであり、復号対象係数の累積確率分布関数のパラメータに基づいて復号対象係数の累積確率分布関数を取得し、復号対象係数および復号対象係数の累積確率分布関数に基づいて、復号対象係数の確率分布を取得し、復号対象係数を取得するために、復号対象係数の確率分布に基づいて、算術デコーダを使用して復号対象係数のビットストリームに対してエントロピー復号を実行し、3N+1個の再構成されたサブバンドは復号対象係数を含む、ように構成される。
【0202】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドである場合、エントロピー復号モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、エントロピー復号モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、計算によって復号対象係数の累積確率分布関数のパラメータを取得するためにs番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力するとき、エントロピー復号モジュール2801は、具体的には、
Mが1に等しい場合、第1の窓処理された畳み込みカーネルを取得するために、第1の畳み込み層に対応する窓関数に基づいて、第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行し、
復号対象係数の累積確率分布関数のパラメータを取得するために、第1の窓処理された畳み込みカーネルに基づいて、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行し、または
Mが1より大きい場合、第2の窓処理された畳み込みカーネルを取得するために、j番目の畳み込み層の演算中に、j番目の畳み込み層に対応する窓関数に基づいて、j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行し、
j番目の出力データを取得するために、第2の窓処理された畳み込みカーネルに基づいてj番目の畳み込み層の入力データに対して畳み込み演算を実行するように構成され、
jが1に等しい場合、j番目の畳み込み層の入力データは、第1のサブバンドに対応する再構成されたサブバンドであり、jが1より大きくM以下である場合、j番目の畳み込み層の入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しい場合、j番目の出力データは復号対象係数の累積確率分布関数のパラメータを含む。
【0203】
実現可能な実施形態では、s番目のサブバンドが3N+1個のサブバンドのうちの第1のサブバンドではない場合、エントロピー復号モデルは、第1のエントロピー復号モデル、第2のエントロピー復号モデル、および第3のエントロピー復号モデルを含み、第1のエントロピー復号モデルおよび第2のエントロピー復号モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、第3のエントロピー復号モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、第1のエントロピー復号モデルは、T1個の畳み込み層を含み、第2のエントロピー復号モデルは、T2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、計算によって復号対象係数の累積確率分布関数のパラメータを取得するために、s番目のサブバンドに対応する再構成されたサブバンドをエントロピー復号モデルに入力するとき、エントロピー復号モジュール2801は、具体的には、
第1の出力結果を取得するために、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力し、(s-1)番目のサブバンドに対応する再構成されたサブバンドは、(s-1)番目のサブバンドのビットストリームに対してエントロピー復号を実行することによって取得され、第1の出力結果は、第2のエントロピー復号モデルの入力データであり、s番目のサブバンドに対応する再構成されたサブバンドは、第1のエントロピー復号モデルの入力データであり、
T1とT2の両方が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1と畳み込み層C2とに基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行し、第2の出力結果は、復号対象係数の累積確率分布関数のパラメータであり、畳み込み層C1および畳み込み層C2は、それぞれ第1のエントロピー復号モデルおよび第2のエントロピー復号モデルにおける畳み込み層であり、または
T1が1より大きく、T2が1に等しい場合、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行し、畳み込み層C1は第1のエントロピー復号モデルにおけるq番目の畳み込み層であり、畳み込み層C2は第2のエントロピー復号モデルにおける畳み込み層であり、qがT1に等しい場合、第2の出力結果は復号対象係数の累積確率分布関数のパラメータであり、またはqが0より大きく、T1より小さい場合、第2の出力結果は第1のエントロピー復号モデルにおける(q+1)番目の畳み込み層の入力データであり、または
T1とT2の両方が1より大きい場合、第2の出力結果を取得するために、畳み込み層C1と畳み込み層C2とに基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行し、畳み込み層C1は第1のエントロピー復号モデルにおけるq1番目の畳み込み層であり、畳み込み層C2は第2のエントロピー復号モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、q2がT2に等しい場合、第2の出力結果は復号対象係数の累積確率分布関数のパラメータであり、またはq1が0より大きくT1より小さく、q2が0より大きくT2より小さい場合、第2の出力結果は第1のエントロピー復号モデルにおける(q1+1)番目の畳み込み層の入力データであり、畳み込み層C2の出力結果は、第2のエントロピー復号モデルにおける(q2+1)番目の畳み込み層の入力データである、ように構成される。
【0204】
実現可能な実施形態では、(s-1)番目のサブバンドに対応する再構成されたサブバンドの分解能がs番目のサブバンドに対応する再構成されたサブバンドの分解能と異なる場合、第1の出力結果を取得するために、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために第3のエントロピー復号モデルに入力するとき、エントロピー復号モジュール2801は、具体的には、
畳み込み結果を取得するために、第3のエントロピー復号モデルおよび第3のエントロピー復号モデルの状態変数に基づいて、(s-1)番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行し、
第1の出力結果を取得するために、畳み込み結果に対してアップサンプリングを実行し、第1の出力結果の分解能は、s番目のサブバンドに対応する再構成されたサブバンドの分解能と同じである、ように構成され、
第1の出力結果を取得するために畳み込み結果に対してアップサンプリングを実行した後に、エントロピー復号モジュール2801は、具体的には、
サンプリングされた状態変数を取得するために、畳み込み状態変数に対してアップサンプリングを実行し、サンプリングされた状態変数の分解能は、s番目のサブバンドの分解能と同じである、ようにさらに構成される。
実現可能な実施形態では、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するとき、エントロピー復号モジュール2801は、具体的には、
窓処理された第1の畳み込みカーネルを取得するために、第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行し、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行し、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層である場合、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得され、
第2の畳み込み結果を取得するために、第2の入力データを第2のサブ畳み込み層に入力し、畳み込み演算を実行し、畳み込み層C2が第2のエントロピー復号モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、
第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するように構成される。
【0205】
実現可能な実施形態では、第2の出力結果を取得するために、畳み込み層C1および畳み込み層C2に基づいて、第1の出力結果およびs番目のサブバンドに対応する再構成されたサブバンドに対して結合演算を実行するとき、エントロピー復号モジュール2801は、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得し、第1の畳み込みカーネルは、畳み込み層C1に対応する畳み込みカーネルであり、
窓処理された第2の畳み込みカーネルを取得するために、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行し、第2の畳み込みカーネルは畳み込み層C2に対応する畳み込みカーネルであり、第1の窓関数および第2の窓関数は互いに相補的であり、
第1の畳み込み結果を取得するために、窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行し、畳み込み層C1が第1のエントロピー復号モデルにおける第1の畳み込み層である場合、第1の入力データはs番目のサブバンドに対応する再構成されたサブバンドであり、または畳み込み層C1が第1のエントロピー復号モデルにおける第1でない畳み込み層である場合、第1の入力データは、s番目のサブバンドに対応する再構成されたサブバンドに対して畳み込み演算を実行することによって取得され、
第2の畳み込み結果を取得するために、窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行し、畳み込み層C2が第2のエントロピー復号モデルにおける第1の畳み込み層である場合、第2の入力データは第1の出力結果であり、または畳み込み層C2が第2のエントロピー復号モデルにおける第1でない畳み込み層である場合、第2の入力データは、第1の出力結果に対して畳み込み演算を実行することによって取得され、第2の出力結果を取得するために、第1の畳み込み結果および第2の畳み込み結果に対して加算または連結演算を実行するように構成される。
【0206】
実現可能な実施形態では、逆変換モジュール2803は、具体的には、
t番目の逆ウェーブレット変換を実行するとき、第1の処理されたサブバンドおよび第2の処理されたサブバンドを取得するために、近似サブバンドPN+1-tおよび詳細サブバンドI(N+1-t)1に対して更新演算および予測演算を実行し、第1の処理されたサブバンドおよび第2の処理されたサブバンドに基づいて中間近似成分を取得し、中間近似成分の奇数列係数または奇数行係数は第1の処理されたサブバンドに由来し、中間近似成分の偶数列係数または偶数行係数は第2の処理されたサブバンドに由来し、
第3の処理されたサブバンドおよび第4の処理されたサブバンドを取得するために、詳細サブバンドI(N+1-t)2および詳細サブバンドI(N+1-t)3に対して更新演算および予測演算を実行し、第3の処理されたサブバンドおよび第4の処理されたサブバンドに基づいて中間詳細成分を取得し、中間詳細成分の奇数列係数または奇数行係数は第3の処理されたサブバンドに由来し、中間詳細成分の偶数列係数または偶数行係数は第4の処理されたサブバンドに由来し、
第5の処理されたサブバンドおよび第6の処理されたサブバンドを取得するために、中間詳細成分および中間近似成分に対して更新演算および予測演算を実行し、第5の処理されたサブバンドおよび第6の処理されたサブバンドに基づいて近似サブバンドPt-1を取得し、近似サブバンドPt-1の奇数行係数または奇数列係数は第5の処理されたサブバンドに由来し、近似サブバンドPt-1の偶数行係数または偶数列係数は第6の処理されたサブバンドに由来する、ように構成され、
詳細サブバンドI(N+1-t)1、詳細サブバンドI(N+1-t)2、および詳細サブバンドI(N+1-t)3の分解能は、近似サブバンドPN+1-tの分解能と同じであり、t番目の逆ウェーブレット変換が最後のウェーブレット変換である場合、近似サブバンドPt-1は再構成画像である。
【0207】
実現可能な実施形態では、予測演算がCNNに基づいて実現され、更新演算がCNNに基づいて実現され、または更新演算と予測演算の両方がCNNに基づいて実現される。
【0208】
実現可能な実施形態では、画像復号装置2800は、
再構成画像を取得するために逆変換モジュール2803がウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行した後、処理された再構成画像を取得するために後処理モデルに基づいて再構成画像に対して後処理を実行するように構成された後処理モジュール2804であって、後処理モデルが深層ニューラルネットワークに基づいて実現された、後処理モジュールをさらに備える。
【0209】
前述のユニット(エントロピー復号モジュール2801、量子化解除モジュール2802、逆変換モジュール2803、および後処理モジュール2804)は、前述の方法における関連するステップを実行するように構成されることに留意されたい。例えば、エントロピー復号モジュール2801は、ステップS601およびS2301における関連する内容を実行するように構成され、量子化解除モジュール2802は、ステップS2302における関連する内容を実行するように構成され、逆変換モジュール2803は、ステップS2303における関連する内容を実行するように構成され、後処理モジュール2804は、ステップS2304における関連する内容を実行するように構成される。
【0210】
この実施形態では、画像
復号装置2800はモジュールの形態で提示される。本明細書の「モジュール」は、特定用途向け集積回路(application-specific integrated circuit、ASIC)、1つまたは複数のソフトウェアまたはファームウェアプログラムを実行するためのプロセッサおよびメモリ、集積論理回路、および/または前述の機能を提供する。加えて、エントロピー復号モジュール2801、量子化解除モジュール2802、逆変換モジュール2803、および後処理モジュール2804は、
図31に示す画像復号装置のプロセッサ3101によって実装されてもよい。
【0211】
図29は、本発明の一実施形態による訓練装置の構造の概略図である。
図29に示すように、訓練装置2900は、
ウェーブレット変換モデルを初期化するように構成された初期化モジュール2901と、
3N+1個のサブバンドを取得するために、初期化されたウェーブレット変換モデルに基づいて訓練画像に対してN個のウェーブレット変換を実行し、3N個の再構成画像を取得するために、初期化されたウェーブレット変換モデルに基づいて、第1のサブバンド、第2のサブバンド、第3のサブバンド、...、および第3Nのサブバンドに対して順次逆ウェーブレット変換を実行し、訓練画像および3N個の再構成画像に基づいて損失値を計算し、損失値
【数16】
R
iは3N個の再構成画像のi番目の画像であり、Iは訓練画像であり、前述の方法を数回繰り返し、損失値Lの変動幅が非常に小さい場合、ウェーブレット変換モデルの訓練が完了したと判定し、そうでない場合は、前述の方法に従ってウェーブレット変換モデルを訓練し続ける、ように構成された訓練モジュール2902と、
を備える。
【0212】
前述のユニット(初期化モジュール2901および訓練モジュール2902)は、前述の方法における関連するステップを実行するように構成されることに留意されたい。
【0213】
この実施形態では、訓練装置2900はモジュールの形態で提示される。本明細書の「モジュール」は、特定用途向け集積回路(application-specific integrated circuit、ASIC)、1つまたは複数のソフトウェアまたはファームウェアプログラムを実行するためのプロセッサおよびメモリ、集積論理回路、および/または前述の機能を提供する。さらに、初期化モジュール2901および訓練モジュール2902は、
図32に示す訓練装置のプロセッサ3201によって実装されてもよい。
【0214】
図30に示された画像符号化装置3000は、
図30の構造を使用して実装され得る。画像符号化装置3000は、少なくとも一つのプロセッサ3001と、少なくとも一つのメモリ3002と、少なくとも一つの通信インターフェース3003とを備える。プロセッサ3001、メモリ3002、および通信インターフェース3003は、通信バスを介して相互に接続され、通信する。
【0215】
プロセッサ3001は、汎用中央処理装置(CPU)、マイクロプロセッサ、特定用途向け集積回路(特定用途向け集積回路、ASIC)、または前述の解決策のプログラム実行を制御するための1つもしくは複数の集積回路とすることができる。
【0216】
通信インターフェース3003は、別のデバイス、またはイーサネット、無線アクセスネットワーク(RAN)、もしくは無線ローカルエリアネットワーク(Wireless Local Area Networks、WLAN)などの通信ネットワークと通信するように構成される。
【0217】
メモリ3002は、読取り専用メモリ(read-only memory、ROM)もしくは静的な情報および命令を記憶することができる別のタイプの静的記憶装置、ランダムアクセスメモリ(random access memory、RAM)もしくは情報および命令を記憶することができる別のタイプの動的記憶装置であってもよく、または電気的消去可能プログラマブル読取り専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROM)、コンパクトディスク読取り専用メモリ(Compact Disc Read-Only Memory、CD-ROM)もしくは別の光ディスク記憶装置、光ディスク記憶装置(圧縮された光ディスク、レーザディスク、光ディスク、デジタル多用途光ディスク、ブルーレイディスク等を含む)、磁気ディスク記憶媒体もしくは別の磁気記憶装置、または命令もしくはデータ構造の形態で予想されるプログラムコードを搬送もしくは記憶するために使用することができ、コンピュータによってアクセスすることができる任意の他の媒体であってもよい。メモリ3002はこれに限定されない。メモリは独立して存在してもよく、バスを介してプロセッサに接続される。あるいは、メモリは、プロセッサと一体化されていてもよい。
【0218】
メモリ3002は、前述の解決策を実行するためのアプリケーションプログラムコードを格納するように構成され、プロセッサ3001は実行を制御する。プロセッサ3001は、メモリ3002に格納されたアプリケーションプログラムコードを実行するように構成される。
【0219】
メモリ3002に記憶されたコードは、例えば、ウェーブレット変換に基づいて前述の画像符号化方法、すなわち、
ウェーブレット係数を取得するために、ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行するステップであって、ウェーブレット変換モデルは畳み込みニューラルネットワーク(CNN)に基づいて実現された、ステップと、量子化されたウェーブレット係数を取得するために、ウェーブレット係数を量子化するステップと、圧縮されたビットストリームを取得するために、量子化されたウェーブレット係数に対してエントロピー符号化を実行するステップと、
を含む方法を実行することができる。
【0220】
図31に示す画像復号装置3100は、
図31の構造を使用して実装することができる。画像復号装置3100は、少なくとも一つのプロセッサ3101と、少なくとも一つのメモリ3102と、少なくとも一つの通信インターフェース3103とを備える。プロセッサ3101、メモリ3102、および通信インターフェース3103は、通信バスを介して相互に接続され、通信する。
【0221】
プロセッサ3101は、汎用中央処理装置(CPU)、マイクロプロセッサ、特定用途向け集積回路(application-specific integrated circuit、ASIC)、または前述の解決策のプログラム実行を制御するための1つもしくは複数の集積回路とすることができる。
【0222】
通信インターフェース3103は、別のデバイス、またはイーサネット、無線アクセスネットワーク(RAN)、もしくは無線ローカルエリアネットワーク(Wireless Local Area Networks、WLAN)などの通信ネットワークと通信するように構成される。
【0223】
メモリ3102は、読取り専用メモリ(read-only memory、ROM)もしくは静的な情報および命令を記憶することができる別のタイプの静的記憶装置、ランダムアクセスメモリ(random access memory、RAM)もしくは情報および命令を記憶することができる別のタイプの動的記憶装置であってもよく、または電気的消去可能プログラマブル読取り専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROM)、コンパクトディスク読取り専用メモリ(Compact Disc Read-Only Memory、CD-ROM)もしくは別の光ディスク記憶装置、光ディスク記憶装置(圧縮された光ディスク、レーザディスク、光ディスク、デジタル多用途光ディスク、ブルーレイディスク等を含む)、磁気ディスク記憶媒体もしくは別の磁気記憶装置、または命令もしくはデータ構造の形態で予想されるプログラムコードを搬送もしくは記憶するために使用することができ、コンピュータによってアクセスすることができる任意の他の媒体であってもよい。メモリ3102はこれに限定されない。メモリは独立して存在してもよく、バスを介してプロセッサに接続される。あるいは、メモリは、プロセッサと一体化されていてもよい。
【0224】
メモリ3102は、前述の解決策を実行するためのアプリケーションプログラムコードを格納するように構成され、プロセッサ3101は実行を制御する。プロセッサ3101は、メモリ3102に格納されたアプリケーションプログラムコードを実行するように構成される。
【0225】
メモリ3102に記憶されたコードは、例えば、ウェーブレット変換に基づいて前述の画像復号方法、すなわち、
再構成されたウェーブレット係数を取得するために圧縮されたビットストリームに対してエントロピー復号を実行するステップと、量子化解除されたウェーブレット係数を取得するために再構成されたウェーブレット係数を量子化解除するステップと、再構成画像を取得するためにウェーブレット変換モデルに基づいて量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行するステップであって、ウェーブレット変換モデルは畳み込みニューラルネットワーク(CNN)に基づいて実現された、ステップと、
を含む方法を実行することができる。
【0226】
図32に示す訓練装置3200は、
図32の構造を使用して実装することができる。訓練装置3200は、少なくとも1つのプロセッサ3201と、少なくとも1つのメモリ3202と、少なくとも1つの通信インターフェース3203と、を備える。プロセッサ3201、メモリ3202、および通信インターフェース3203は、通信バスを介して相互に接続され、通信する。
【0227】
プロセッサ3201は、汎用CPU、マイクロプロセッサ、ASIC、または前述の解決策のプログラム実行を制御するように構成された1つもしくは複数の集積回路とすることができる。
【0228】
通信インターフェース3203は、別のデバイス、またはイーサネット、RAN、もしくはWLANなどの通信ネットワークと通信するように構成される。
【0229】
メモリ3202は、ROMもしくは静的情報および命令を記憶することができる別の種類の静的記憶装置、またはRAMもしくは情報および命令を記憶することができる別の種類の動的記憶装置、あるいは、EEPROM、CD-ROMもしくは別のコンパクトディスク記憶装置、光ディスク記憶装置(コンパクトディスク、レーザディスク、光ディスク、デジタル多用途ディスク、ブルーレイディスクなどを含む)、ディスク記憶媒体もしくは別の磁気記憶装置、または命令もしくはデータ構造の形態で予想されるプログラムコードを搬送もしくは記憶するために使用することができ、コンピュータによってアクセスすることができる任意の他の媒体であってもよい。しかしながら、メモリ3202はこれに限定されない。メモリは独立して存在してもよく、バスを介してプロセッサに接続される。あるいは、メモリは、プロセッサと一体化されていてもよい。
【0230】
メモリ3202は、前述の解決策を実行するためのアプリケーションプログラムコードを格納するように構成され、プロセッサ3201は実行を制御する。プロセッサ3201は、メモリ3202に格納されたアプリケーションプログラムコードを実行するように構成される。
【0231】
メモリ3202に記憶されたコードは、ウェーブレット変換モデルを訓練するための前述の方法、例えば、
ウェーブレット変換モデルを初期化するステップと、3N+1個のサブバンドを取得するために、初期化されたウェーブレット変換モデルに基づいて訓練画像に対してN個のウェーブレット変換を実行するステップと、3N個の再構成画像を取得するために、初期化されたウェーブレット変換モデルに基づいて、第1のサブバンド、第2のサブバンド、第3のサブバンド、...、および第3Nのサブバンドで逆ウェーブレット変換を順次実行するステップと、訓練画像および3N個の再構成画像に基づいて損失値を計算するステップであって、損失値
【数17】
R
iが3N個の再構成画像のi番目の画像であり、Iが訓練画像である、ステップと、前述の方法を数回繰り返し、損失値Lの変動幅が非常に小さい場合、ウェーブレット変換モデルの訓練が完了したと判定するステップと、そうでない場合、前述の方法に従ってウェーブレット変換モデルを訓練し続けるステップと、
を含む方法を実行することができる。
【0232】
なお、説明を簡潔にするため、前述した方法の実施形態は一連の行為として表現されている。しかし、当業者は、本発明によれば、いくつかのステップを他の順序で行い、または同時に行ってもよいため、本発明が記載されている動作順序だけに限定されないことを理解するはずである。さらに、当業者ならば、本明細書に説明されているすべての実施形態が実施形態であり、関連する動作およびモジュールが必ずしも本発明に必須ではないことも理解するはずである。
【0233】
前述の実施形態では、各実施形態の説明にはそれぞれの焦点がある。実施形態で詳細に説明されない部分については、他の実施形態の関連する説明を参照されたい。
【0234】
本出願で提供されるいくつかの実施形態において、開示の装置は他の方法でも実装され得ることを理解されたい。例えば、記載された装置実施形態は一例にすぎない。例えば、ユニットへの分割は、論理的な機能の分割にすぎず、実際の実装では他の分割であってもよい。例えば、複数のユニットまたは構成要素は、別のシステムに組み合わされるか統合されてもよいし、または一部の機能は無視されるか実行されなくてもよい。加えて、表示される、もしくは説明される相互結合または直接結合もしくは通信接続は、いくつかのインターフェースによって実装されてもよい。さらに、装置またはユニット間の間接結合または通信接続は、電気的または他の形態で実装されてもよい。
【0235】
別々の部分として記載されたユニットは、物理的に分離されていてもいなくてもよく、ユニットとして表示された部分は物理ユニットであってもなくてもよく、1つの場所に配置されてもよく、複数のネットワークユニットに分散されてもよい。ユニットの一部または全部は、実施形態において解決策の目的を達成するように実際の要件に応じて選択されてもよい。
【0236】
さらに、本発明の実施形態における機能ユニットは、1つの処理ユニットに統合されてもよいし、あるいはユニットの各々が物理的に単独で存在してもよいし、あるいは2つ以上のユニットが1つのユニットに統合されてもよい。統合ユニットは、ハードウェアの形態で実装されてもよく、またはソフトウェア機能ユニットの形態で実装されてもよい。
【0237】
統合ユニットがソフトウェア機能ユニットの形態で実装され、独立した製品として販売または使用される場合、統合ユニットはコンピュータ可読メモリに格納されてもよい。このような理解に基づいて、従来技術に本質的に寄与する本発明もしくはその一部の技術的解決策、または技術的解決策のすべてもしくは一部は、ソフトウェア製品の形態で実装することができる。コンピュータソフトウェア製品は、記憶媒体に格納され、本発明の実施形態において説明された方法のステップのすべてまたは一部を実行するために、コンピュータデバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスであってもよい)に命令するためのいくつかの命令を含む。上記記憶媒体は、USBフラッシュドライブ、読取り専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、取り外し可能ハードディスク、磁気ディスク、光ディスクといった、プログラムコードを記憶することができる任意の媒体を含む。
【0238】
当業者は、実施形態における方法のステップの全部または一部が関連ハードウェアに命令するプログラムによって実装されてよいことを理解されよう。プログラムはコンピュータ可読メモリに記憶されてもよい。メモリは、フラッシュメモリ、読取り専用メモリ(Read-Only Memory、略してROM)、ランダムアクセスメモリ(Random Access Memory、略してRAM)、磁気ディスク、光ディスクなどを含むことができる。
【0239】
以上、本発明の実施形態について詳細に説明した。本発明の原理および実装は、本明細書中の特定の例により説明される。本発明の実施形態に関する説明は、本発明の方法および中核となる思想の理解を助けるために提供されているにすぎない。さらに、当業者であれば、本発明の考え方に従った具体的な実装および適用範囲の観点から本発明を変形および修正することができる。したがって、本明細書の内容は、本発明に対する限定として解釈されるべきではない。
【符号の説明】
【0240】
2700 画像符号化装置
2701 変換モジュール
2702 量子化モジュール
2703 エントロピー符号化モジュール
2800 画像復号装置
2801 エントロピー復号モジュール
2802 量子化解除モジュール
2803 逆変換モジュール
2804 後処理モジュール
2900 訓練装置
2901 初期化モジュール
2902 訓練モジュール
3000 画像符号化装置
3001 プロセッサ
3002 メモリ
3003 通信インターフェース
3100 画像復号装置
3101 プロセッサ
3102 メモリ
3103 通信インターフェース
3200 訓練装置
3201 プロセッサ
3202 メモリ
3203 通信インターフェース
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ウェーブレット変換に基づく画像符号化方法であって、
ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得するステップであって、前記ウェーブレット変換モデルは畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nは0より大きい整数である、ステップと、
前記ウェーブレット係数を量子化して、量子化されたウェーブレット係数を取得するステップと、
前記量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得するステップと、
を含む画像符号化方法。
【請求項2】
ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得する前記ステップが、
i番目のウェーブレット変換を実行するとき、サブバンドXを分解して、奇数サンプル成分および偶数サンプル成分を取得するステップであって、前記奇数サンプル成分が、前記サブバンドX内の奇数行係数または奇数列係数を含み、前記偶数サンプル成分が、前記サブバンドX内の偶数行係数または偶数列係数を含む、ステップと、
前記偶数サンプル成分および前記奇数サンプル成分に対して更新演算および予測演算を実行して、中間近似成分および中間詳細成分を取得するステップと、
前記中間近似成分を分解して、第1のサンプル成分および第2のサンプル成分を取得するステップであって、前記第1のサンプル成分は前記中間近似成分の奇数列係数または奇数行係数を含み、前記第2のサンプル成分は前記中間近似成分の偶数列係数または偶数行係数を含む、ステップと、
前記中間詳細成分を分解して、第3のサンプル成分および第4のサンプル成分を取得するステップであって、前記第3のサンプル成分が前記中間詳細成分の奇数行係数または奇数
列係数を含み、前記第4のサンプル成分が前記中間詳細成分の偶数列係数または偶数行係数を含む、ステップと、
前記第1のサンプル成分および前記第2のサンプル成分に対して前記更新演算および前記予測演算を実行して、近似サブバンドP
iおよび詳細サブバンドI
i1を取得するステップと、
前記第3のサンプル成分および前記第4のサンプル成分に対して前記更新演算および前記予測演算を実行して、詳細サブバンドI
i2および詳細サブバンドI
i3を取得するステップと、
を含み、
前記ウェーブレット係数は、前記近似サブバンドP
i、前記詳細サブバンドI
i1、前記詳細サブバンドI
i2、および前記詳細サブバンドI
i3を含み、前記i番目のウェーブレット変換が第1のウェーブレット変換であるとき、前記サブバンドXは前記符号化対象画像であり、または前記i番目のウェーブレット変換が第1のウェーブレット変換でないとき、前記サブバンドXは近似サブバンドP
i-1であり、前記近似サブバンドP
i-1は(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドである、
請求項1に記載の方法。
【請求項3】
前記予測演算が、前記CNNに基づいて実現され、
前記更新演算が、前記CNNに基づいて実現され、または
前記予測演算および前記更新演算の両方が、前記CNNに基づいて実現された、
請求項2に記載の方法。
【請求項4】
前記量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得する前記ステップが、
エントロピー符号化モデルに基づいて前記量子化されたウェーブレット係数を符号化して、前記圧縮されたビットストリームを取得するステップであって、前記エントロピー符号化モデルが深層ニューラルネットワークに基づいて実現された、ステップ
を含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記ウェーブレット係数は3N+1個のサブバンドを含み、エントロピー符号化モデルに基づいて前記量子化されたウェーブレット係数を符号化して、前記圧縮されたビットストリームを取得する前記ステップが、
前記エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するステップであって、前記符号化対象係数は前記s番目のサブバンド内の任意の係数であり、前記s番目のサブバンドは前記3N+1個のサブバンドのうちの任意の1つである、ステップと、
前記符号化対象係数の前記累積確率分布関数の前記パラメータに基づいて前記累積確率分布関数を取得するステップと、
前記符号化対象係数および前記符号化対象係数の前記累積確率分布関数に基づいて前記符号化対象係数の確率分布を取得するステップと、
算術エンコーダを使用して前記符号化対象係数の前記確率分布に基づいて前記符号化対象係数に対してエントロピー符号化を実行して、前記符号化対象係数に対応するビットストリームを取得するステップであって、前記圧縮されたビットストリームが、前記符号化対象係数に対応する前記ビットストリームを含む、ステップと、
を含む、請求項4に記載の方法。
【請求項6】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドであるとき、前記エントロピー符号化モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、前記エントロピー符号化モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、前記エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得する前記ステップが、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、前記第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得するステップと、
前記第1の窓処理された畳み込みカーネルに基づいて前記s番目のサブバンドに対して畳み込み演算を実行して、前記符号化対象係数の前記累積確率分布関数の前記パラメータを取得するステップ、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、前記j番目の畳み込み層に対応する窓関数に基づいて、前記j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得するステップと、
前記第2の窓処理された畳み込みカーネルに基づいて前記j番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するステップ、
を含み、
jが1に等しいとき、前記j番目の畳み込み層の前記入力データは前記第1のサブバンドであり、jが1より大きく、かつMより大きくないとき、前記j番目の畳み込み層の前記入力データは、(j-1)番目の畳み込み層の出力データであり、またはjがMに等しいとき、前記j番目の出力データは、前記符号化対象係数の前記累積確率分布関数の前記パラメータを含む、請求項5に記載の方法。
【請求項7】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドではないとき、前記エントロピー符号化モデルは、第1のエントロピー符号化モデル、第2のエントロピー符号化モデル、および第3のエントロピー符号化モデルを含み、前記第1のエントロピー符号化モデルおよび前記第2のエントロピー符号化モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、前記第3のエントロピー符号化モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、前記第1のエントロピー符号化モデルは、T1個の畳み込み層を含み、前記第2のエントロピー符号化モデルは、T2個の畳み込み層を含み、T1およびT2の両方は、0より大きい整数であり、前記エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得する前記ステップが、
(s-1)番目のサブバンドを計算のために前記第3のエントロピー符号化モデルに入力して、第1の出力結果を取得するステップであって、前記第1の出力結果は前記第2のエントロピー符号化モデルの入力データであり、前記s番目のサブバンドは前記第1のエントロピー符号化モデルの入力データである、ステップと、
T1およびT2の両方が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、前記第2の出力結果が、前記符号化対象係数の前記累積確率分布関数の前記パラメータであり、前記畳み込み層C1および前記畳み込み層C2が、それぞれ前記第1のエントロピー符号化モデルおよび前記第2のエントロピー符号化モデルにおける畳み込み層である、ステップ、または
T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、前記畳み込み層C1は前記第1のエントロピー符号化モデルにおけるq番目の畳み込み層であり、前記畳み込み層C2は前記第2のエントロピー符号化モデルにおける畳み込み層であり、qがT1に等しいならば、前記第2の出力結果は前記符号化対象係数の前記累積確率分布関数の前記パラメータであり、またはqが0より大きく、かつT1より小さいならば、前記第2の出力結果は前記第1のエントロピー符号化モデルにおける(q+1)番目の畳み込み層の入力データである、ステップ、または
T1およびT2の両方が1より大きいとき、畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、前記畳み込み層C1は、前記第1のエントロピー符号化モデルにおけるq1番目の畳み込み層であり、前記畳み込み層C2は、前記第2のエントロピー符号化モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、かつq2がT2に等しいならば、前記第2の出力結果は、前記符号化対象係数の前記累積確率分布関数の前記パラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、前記第2の出力結果は、前記第1のエントロピー符号化モデルにおける(q1+1)番目の畳み込み層の入力データであり、前記畳み込み層C2の出力結果は、前記第2のエントロピー符号化モデルにおける(q2+1)番目の畳み込み層の入力データである、ステップと、
を含む、請求項5に記載の方法。
【請求項8】
前記(s-1)番目のサブバンドの分解能が前記s番目のサブバンドの分解能と異なるとき、(s-1)番目のサブバンドを計算のために前記第3のエントロピー符号化モデルに入力して、第1の出力結果を取得する前記ステップが、
前記第3のエントロピー符号化モデルおよび前記第3のエントロピー符号化モデルの状態変数に基づいて、前記(s-1)番目のサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得するステップと、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得するステップであって、前記第1の出力結果の分解能は前記s番目のサブバンドの前記分解能と同じである、ステップと、
を含み、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得する前記ステップの後に、前記方法は、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するステップであって、前記サンプリングされた状態変数の分解能は前記s番目のサブバンドの前記分解能と同じである、ステップ
をさらに含む、請求項7に記載の方法。
【請求項9】
畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行することが、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、前記第1の畳み込みカーネルが、前記畳み込み層C1に対応する畳み込みカーネルである、ステップと、
前記窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、
第2の入力データを
前記畳み込み層
C2に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、
前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するステップと、
を含む、請求項7または8に記載の方法。
【請求項10】
畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得する前記ステップが、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、前記第1の畳み込みカーネルが、前記畳み込み層C1に対応する畳み込みカーネルである、ステップと、
第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するステップであって、前記第2の畳み込みカーネルが前記畳み込み層C2に対応する畳み込みカーネルであり、前記第1の窓関数および前記第2の窓関数が互いに相補的である、ステップと、
前記窓処理された第1の畳み込みカーネルに基づいて
第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、
前記窓処理された第2の畳み込みカーネルに基づいて
第2の入力データに対して畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、
前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するステップと、
を含む、請求項7または8に記載の方法。
【請求項11】
ウェーブレット変換に基づく画像復号方法であって、
圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するステップと、
前記再構成されたウェーブレット係数を量子化解除して、量子化解除されたウェーブレット係数を取得するステップと、
ウェーブレット変換モデルに基づいて前記量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得するステップであって、前記ウェーブレット変換モデルが畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nが0より大きい整数である、ステップと、
を含む画像復号方法。
【請求項12】
圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得する前記ステップが、
エントロピー復号モデルに基づいて前記圧縮されたビットストリームに対してエントロピー復号を実行して、前記再構成されたウェーブレット係数を取得するステップであって、前記エントロピー復号モデルは深層ニューラルネットワークに基づいて実現された、ステップ
を含む、請求項11に記載の方法。
【請求項13】
前記圧縮されたビットストリームは3N+1個のサブバンドのビットストリームを含み、前記再構成されたウェーブレット係数は3N+1個の再構成されたサブバンドを含み、エントロピー復号モデルに基づいて前記圧縮されたビットストリームに対してエントロピー復号を実行して、前記再構成されたウェーブレット係数を取得する前記ステップが、
s番目のサブバンドに対応する再構成されたサブバンドを前記エントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するステップであって、前記復号対象係数のビットストリームは前記s番目のサブバンドのビットストリームの一部であり、前記s番目のサブバンドに対応する前記再構成されたサブバンドは、前記3N+1個の再構成されたサブバンドのうちの任意の1つである、ステップと、
前記復号対象係数の前記累積確率分布関数の前記パラメータに基づいて前記復号対象係数の前記累積確率分布関数を取得するステップと、
前記復号対象係数と前記復号対象係数の前記累積確率分布関数とに基づいて前記復号対象係数の確率分布を取得するステップと、
前記復号対象係数の前記確率分布に基づいて、算術デコーダを使用して前記復号対象係数の前記ビットストリームに対してエントロピー復号を実行して、前記復号対象係数を取得するステップであって、前記3N+1個の再構成されたサブバンドが前記復号対象係数を含む、ステップと、
を含む、請求項12に記載の方法。
【請求項14】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドであるとき、前記エントロピー復号モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、前記エントロピー復号モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、s番目のサブバンドに対応する再構成されたサブバンドを前記エントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得する前記ステップが、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、前記第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得するステップと、
前記第1の窓処理された畳み込みカーネルに基づいて、前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行して、前記復号対象係数の前記累積確率分布関数の前記パラメータを取得するステップ、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、前記j番目の畳み込み層に対応する窓関数に基づいて、前記j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得するステップと、
前記第2の窓処理された畳み込みカーネルに基づいて前記j番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するステップ、
を含み、
jが1に等しいとき、前記j番目の畳み込み層の前記入力データは、前記第1のサブバンドに対応する再構成されたサブバンドであり、jが1より大きく、かつMより大きくないとき、前記j番目の畳み込み層の前記入力データは、(j-1)番目の畳み込み層の出力データであり、またはjがMに等しいとき、前記j番目の出力データは前記復号対象係数の前記累積確率分布関数の前記パラメータを含む、請求項13に記載の方法。
【請求項15】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドではないとき、前記エントロピー復号モデルは、第1のエントロピー復号モデル、第2のエントロピー復号モデル、および第3のエントロピー復号モデルを含み、前記第1のエントロピー復号モデルおよび前記第
2のエントロピー復号モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、前記第3のエントロピー復号モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、前記第1のエントロピー復号モデルは、T1個の畳み込み層を含み、前記第2のエントロピー復号モデルは、T2個の畳み込み層を含み、T1およびT2の両方は、0より大きい整数であり、s番目のサブバンドに対応する再構成されたサブバンドを前記エントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得する前記ステップが、
(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために前記第3のエントロピー復号モデルに入力して、第1の出力結果を取得するステップであって、前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドは、前記(s-1)番目のサブバンドのビットストリームに対してエントロピー復号を実行することによって取得され、前記第1の出力結果は、前記第2のエントロピー復号モデルの入力データであり、前記s番目のサブバンドに対応する前記再構成されたサブバンドは、前記第1のエントロピー復号モデルの入力データである、ステップと、
T1およびT2の両方が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、前記第2の出力結果が、前記復号対象係数の前記累積確率分布関数の前記パラメータであり、前記畳み込み層C1および前記畳み込み層C2が、それぞれ前記第1のエントロピー復号モデルおよび前記第2のエントロピー復号モデルにおける畳み込み層である、ステップ、または
T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、前記畳み込み層C1は、前記第1のエントロピー復号モデルにおけるq番目の畳み込み層であり、前記畳み込み層C2は、前記第2のエントロピー復号モデルにおける畳み込み層であり、qがT1に等しいならば、前記第2の出力結果は、前記復号対象係数の前記累積確率分布関数の前記パラメータであり、またはqが0より大きく、かつT1より小さいならば、前記第2の出力結果は、前記第1のエントロピー復号モデルにおける(q+1)番目の畳み込み層の入力データである、ステップ、または
T1およびT2の両方が1より大きいとき、畳み込み層C1および畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するステップであって、前記畳み込み層C1は、前記第1のエントロピー復号モデルにおけるq1番目の畳み込み層であり、前記畳み込み層C2は、前記第2のエントロピー復号モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、かつq2がT2に等しいならば、前記第2の出力結果は、前記復号対象係数の前記累積確率分布関数の前記パラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、前記第2の出力結果は、第1のエントロピー復号モデルにおける(q1+1)番目の畳み込み層の入力データであり、前記畳み込み層C2の出力結果は、前記第2のエントロピー復号モデルにおける(q2+1)番目の畳み込み層の入力データである、ステップと、
を含む、請求項13に記載の方法。
【請求項16】
前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドの分解能が前記s番目のサブバンドに対応する前記再構成されたサブバンドの分解能と異なるとき、(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために前記第3のエントロピー復号モデルに入力して、第1の出力結果を取得する前記ステップが、
前記第3のエントロピー復号モデルおよび前記第3のエントロピー復号モデルの状態変数に基づいて、前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得するステップと、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得するステップであって、前記第1の出力結果の分解能は、前記s番目のサブバンドに対応する前記再構成されたサブバンドの前記分解能と同じである、ステップと、を含み、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得する前記ステップの後に、前記方法は、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するステップであって、前記サンプリングされた状態変数の分解能は前記s番目のサブバンドの前記分解能と同じである、ステップ
をさらに含む、請求項15に記載の方法。
【請求項17】
畳み込み層C1および畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得する前記ステップが、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、前記第1の畳み込みカーネルが、前記畳み込み層C1に対応する畳み込みカーネルである、ステップと、
前記窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドに対応する前記再構成されたサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、
第2の入力データを
前記畳み込み層
C2に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、前記畳み込み層C2が前記第2の
エントロピー復
号モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、
前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するステップと、
を含む、請求項15または16に記載の方法。
【請求項18】
畳み込み層C1および畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得する前記ステップが、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するステップであって、前記第1の畳み込みカーネルが、前記畳み込み層C1に対応する畳み込みカーネルである、ステップと、
第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するステップであって、前記第2の畳み込みカーネルが前記畳み込み層C2に対応する畳み込みカーネルであり、前記第1の窓関数および前記第2の窓関数が互いに相補的である、ステップと、
前記窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するステップであって、前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドに対応する前記再構成されたサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行することによって取得される、ステップと、
前記窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行して、第2の畳み込み結果を取得するステップであって、前記畳み込み層C2が前記第2の
エントロピー復
号モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得される、ステップと、
前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するステップと、
を含む、請求項15または16に記載の方法。
【請求項19】
ウェーブレット変換モデルに基づいて前記量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得する前記ステップが、
t番目の逆ウェーブレット変換を実行するとき、近似サブバンドP
N+1-tおよび詳細サブバンドI
(N+1-t)1に対して更新演算および予測演算を実行して、第1の処理されたサブバンドおよび第2の処理されたサブバンドを取得し、前記第1の処理されたサブバンドおよび前記第2の処理されたサブバンドに基づいて中間近似成分を取得するステップであって、前記中間近似成分の奇数列係数または奇数行係数は前記第1の処理されたサブバンドに由来し、前記中間近似成分の偶数列係数または偶数行係数は前記第2の処理されたサブバンドに由来する、ステップと、
詳細サブバンドI
(N+1-t)2および詳細サブバンドI
(N+1-t)3に対して前記更新演算および前記予測演算を実行して、第3の処理されたサブバンドおよび第4の処理されたサブバンドを取得し、前記第3の処理されたサブバンドおよび前記第4の処理されたサブバンドに基づいて中間詳細成分を取得するステップであって、前記中間詳細成分の奇数列係数または
奇数行係数は前記第3の処理されたサブバンドに由来し、前記中間詳細成分の偶数列係数または偶数行係数は前記第4の処理されたサブバンドに由来する、ステップと、
前記中間詳細成分および前記中間近似成分に対して前記更新演算および前記予測演算を実行して、第5の処理されたサブバンドおよび第6の処理されたサブバンドを取得し、前記第5の処理されたサブバンドおよび前記第6の処理されたサブバンドに基づいて近似サブバンドP
t-1を取得するステップであって、前記近似サブバンドP
t-1の奇数行係数または奇数列係数は前記第5の処理されたサブバンドに由来し、前記近似サブバンドP
t-1の偶数行係数または偶数列係数は前記第6の処理されたサブバンドに由来する、ステップと、
を含み、
前記詳細サブバンドI
(N+1-t)1、前記詳細サブバンドI
(N+1-t)2、および前記詳細サブバンドI
(N+1-t)3の分解能は、前記近似サブバンドP
N+1-tの分解能と同じであり、前記t番目の逆ウェーブレット変換が最後のウェーブレット変換であるとき、前記近似サブバンドP
t-1は前記再構成画像である、請求項11から18のいずれか一項に記載の方法。
【請求項20】
前記予測演算が、前記CNNに基づいて実現され、
前記更新演算が、前記CNNに基づいて実現され、または
前記更新演算および前記予測演算の両方が、前記CNNに基づいて実現された、請求項19に記載の方法。
【請求項21】
ウェーブレット変換モデルに基づいて前記量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得する前記ステップの後に、前記方法は、
後処理モデルに基づいて前記再構成画像に対して後処理を実行して、処理された再構成画像を取得するステップであって、前記後処理モデルが深層ニューラルネットワークに基づいて実現された、ステップ
をさらに含む、請求項11、19または20に記載の方法。
【請求項22】
ウェーブレット変換モデルに基づいて符号化対象画像に対してN個のウェーブレット変換を実行して、ウェーブレット係数を取得するように構成された変換モジュールであって、前記ウェーブレット変換モデルは畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nは0より大きい整数である、変換モジュールと、
前記ウェーブレット係数を量子化して、量子化されたウェーブレット係数を取得するように構成された量子化モジュールと、
前記量子化されたウェーブレット係数に対してエントロピー符号化を実行して、圧縮されたビットストリームを取得するように構成されたエントロピー符号化モジュールと、
を備える画像符号化装置。
【請求項23】
前記変換モジュールは、具体的には、
i番目のウェーブレット変換を実行するとき、サブバンドXを分解して、奇数サンプル成分および偶数サンプル成分を取得するように構成され、前記奇数サンプル成分は、前記サブバンドX内の奇数行係数または奇数列係数を含み、前記偶数サンプル成分は、前記サブバンドX内の偶数行係数または偶数列係数を含み、
前記変換モジュールは、前記偶数サンプル成分および前記奇数サンプル成分に対して更新演算および予測演算を実行して、中間近似成分および中間詳細成分を取得し、
前記中間近似成分を分解して、第1のサンプル成分および第2のサンプル成分を取得するように構成され、前記第1のサンプル成分は前記中間近似成分の奇数列係数または奇数行係数を含み、前記第2のサンプル成分は前記中間近似成分の偶数列係数または偶数行係数を含み、
前記変換モジュールは、前記中間詳細成分を分解して、第3のサンプル成分および第4のサンプル成分を取得するように構成され、前記第3のサンプル成分は、前記中間詳細成分の奇数行係数または奇数
列係数を含み、前記第4のサンプル成分は、前記中間詳細成分の偶数列係数または偶数行係数を含み、
前記変換モジュールは、前記第1のサンプル成分および前記第2のサンプル成分に対して前記更新演算および前記予測演算を実行して、近似サブバンドP
iおよび詳細サブバンドI
i1を取得し、
前記第3のサンプル成分および前記第4のサンプル成分に対して前記更新演算および前記予測演算を実行して、詳細サブバンドI
i2および詳細サブバンドI
i3を取得するように構成され、
前記ウェーブレット係数は、前記近似サブバンドP
i、前記詳細サブバンドI
i1、前記詳細サブバンドI
i2、および前記詳細サブバンドI
i3を含み、前記i番目のウェーブレット変換が第1のウェーブレット変換であるとき、前記サブバンドXは前記符号化対象画像であり、または前記i番目のウェーブレット変換が第1のウェーブレット変換でないとき、前記サブバンドXは近似サブバンドP
i-1であり、前記近似サブバンドP
i-1は(i-1)番目のウェーブレット変換を実行することによって取得された近似サブバンドである、請求項22に記載の装置。
【請求項24】
前記予測演算が、前記CNNに基づいて実現され、
前記更新演算が、前記CNNに基づいて実現され、または
前記予測演算および前記更新演算の両方が、前記CNNに基づいて実現された、請求項23に記載の装置。
【請求項25】
前記エントロピー符号化モジュールは、具体的には、
エントロピー符号化モデルに基づいて前記量子化されたウェーブレット係数を符号化して、前記圧縮されたビットストリームを取得するように構成され、前記エントロピー符号化モデルは深層ニューラルネットワークに基づいて実現された、請求項22から24のいずれか一項に記載の装置。
【請求項26】
前記ウェーブレット係数は3N+1個のサブバンドを含み、前記エントロピー符号化モジュールは、具体的には、
前記エントロピー符号化モデルにs番目のサブバンドを入力して、計算によって符号化対象係数の累積確率分布関数のパラメータを取得するように構成され、前記符号化対象係数は、前記s番目のサブバンド内の任意の係数であり、前記s番目のサブバンドは、前記3N+1個のサブバンドのうちの任意の1つであり、
前記エントロピー符号化モジュールは、前記符号化対象係数の前記累積確率分布関数の前記パラメータに基づいて前記累積確率分布関数を取得し、
前記符号化対象係数および前記符号化対象係数の前記累積確率分布関数に基づいて、前記符号化対象係数の確率分布を取得し、
算術エンコーダを使用して前記符号化対象係数の前記確率分布に基づいて前記符号化対象係数に対してエントロピー符号化を実行して、前記符号化対象係数に対応するビットストリームを取得するように構成され、前記圧縮されたビットストリームは、前記符号化対象係数に対応する前記ビットストリームを含む、請求項25に記載の装置。
【請求項27】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドであるとき、前記エントロピー符号化モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、前記エントロピー符号化モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、前記エントロピー符号化モデルに前記s番目のサブバンドを入力して、計算によって前記符号化対象係数の前記累積確率分布関数の前記パラメータを取得するとき、前記エントロピー符号化モジュールは、具体的には、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、前記第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得し、
前記第1の窓処理された畳み込みカーネルに基づいて前記s番目のサブバンドに対して畳み込み演算を実行して、前記符号化対象係数の前記累積確率分布関数の前記パラメータを取得し、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、前記j番目の畳み込み層に対応する窓関数に基づいて、前記j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得し、
前記第2の窓処理された畳み込みカーネルに基づいて前記j番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するように構成され、
jが1に等しいとき、前記j番目の畳み込み層の前記入力データは前記第1のサブバンドであり、jが1より大きく、かつMより大きくないとき、前記j番目の畳み込み層の前記入力データは、(j-1)番目の畳み込み層の出力データであり、またはjがMに等しいとき、前記j番目の出力データは、前記符号化対象係数の前記累積確率分布関数の前記パラメータを含む、請求項26に記載の装置。
【請求項28】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドではないとき、前記エントロピー符号化モデルは、第1のエントロピー符号化モデル、第2のエントロピー符号化モデル、および第3のエントロピー符号化モデルを含み、前記第1のエントロピー符号化モデルおよび前記第2のエントロピー符号化モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、前記第3のエントロピー符号化モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、前記第1のエントロピー符号化モデルはT1個の畳み込み層を含み、前記第2のエントロピー符号化モデルはT2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であ
り、前記エントロピー符号化モデルに前記s番目のサブバンドを入力して、計算によって前記符号化対象係数の前記累積確率分布関数の前記パラメータを取得するとき、前記エントロピー符号化モジュールは、具体的には、
(s-1)番目のサブバンドを計算のために前記第3のエントロピー符号化モデルに入力して、第1の出力結果を取得するように構成され、前記第1の出力結果は前記第2のエントロピー符号化モデルの入力データであり、前記s番目のサブバンドは前記第1のエントロピー符号化モデルの入力データであり、
前記エントロピー符号化モジュールは、T1およびT2の両方が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して第2の出力結果を取得するように構成され、前記第2の出力結果は、前記符号化対象係数の前記累積確率分布関数の前記パラメータであり、前記畳み込み層C1および前記畳み込み層C2は、それぞれ前記第1のエントロピー符号化モデルおよび前記第2のエントロピー符号化モデルにおける畳み込み層であり、または
前記エントロピー符号化モジュールは、T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、前記畳み込み層C1は、前記第1のエントロピー符号化モデルにおけるq番目の畳み込み層であり、前記畳み込み層C2は、前記第2のエントロピー符号化モデルにおける畳み込み層であり、qがT1に等しいならば、前記第2の出力結果は、前記符号化対象係数の前記累積確率分布関数の前記パラメータであり、またはqが0より大きく、かつT1より小さいならば、前記第2の出力結果は、前記第1のエントロピー符号化モデルにおける(q+1)番目の畳み込み層の入力データであり、または
前記エントロピー符号化モジュールは、T1およびT2の両方が1より大きいとき、畳み込み層C1および畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、前記畳み込み層C1は、前記第1のエントロピー符号化モデルにおけるq1番目の畳み込み層であり、前記畳み込み層C2は、前記第2のエントロピー符号化モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、かつq2がT2に等しいならば、前記第2の出力結果は、前記符号化対象係数の前記累積確率分布関数の前記パラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、前記第2の出力結果は、前記第1のエントロピー符号化モデルにおける(q1+1)番目の畳み込み層の入力データであり、前記畳み込み層C2の出力結果は、前記第2のエントロピー符号化モデルにおける(q2+1)番目の畳み込み層の入力データである、請求項27に記載の
装置。
【請求項29】
前記(s-1)番目のサブバンドの分解能が前記s番目のサブバンドの分解能と異なるとき、前記(s-1)番目のサブバンドを計算のために前記第3のエントロピー符号化モデルに入力して、前記第1の出力結果を取得するとき、前記エントロピー符号化モジュールは、具体的には、
前記第3のエントロピー符号化モデルおよび前記第3のエントロピー符号化モデルの状態変数に基づいて、前記(s-1)番目のサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得し、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得するように構成され、前記第1の出力結果の分解能は前記s番目のサブバンドの前記分解能と同じであり、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得した後に、前記エントロピー符号化モジュールは、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するようにさらに構成され、前記サンプリングされた状態変数の分解能は、前記s番目のサブバンドの前記分解能と同じである、請求項28に記載の
装置。
【請求項30】
前記畳み込み層C1および前記畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して前記結合演算を実行するとき、前記エントロピー符号化モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、前記第1の畳み込みカーネルは、前記畳み込み層C1に対応する畳み込みカーネルであり、
前記エントロピー符号化モジュールは、前記窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対して畳み込み演算を実行することによって取得され、
前記エントロピー符号化モジュールは、第2の入力データを
前記畳み込み層
C2に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得され、
前記エントロピー符号化モジュールは、前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するように構成された、請求項28または29に記載の
装置。
【請求項31】
前記畳み込み層C1および前記畳み込み層C2に基づいて前記第1の出力結果および前記s番目のサブバンドに対して前記結合演算を実行して、前記第2の出力結果を取得するとき、前記エントロピー符号化モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、前記第1の畳み込みカーネルは、前記畳み込み層C1に対応する畳み込みカーネルであり、
前記エントロピー符号化モジュールは、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するように構成され、前記第2の畳み込みカーネルは前記畳み込み層C2に対応する畳み込みカーネルであり、前記第1の窓関数および前記第2の窓関数は互いに相補的であり、
前記エントロピー符号化モジュールは、前記窓処理された第1の畳み込みカーネルに基づいて
第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対して畳み込み演算を実行することによって取得され、
前記エントロピー符号化モジュールは、前記窓処理された第2の畳み込みカーネルに基づいて
第2の入力データに対して畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー符号化モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得され、
前記エントロピー符号化モジュールは、前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するように構成された、請求項28または29に記載の装置。
【請求項32】
圧縮されたビットストリームに対してエントロピー復号を実行して、再構成されたウェーブレット係数を取得するように構成されたエントロピー復号モジュールと、
前記再構成されたウェーブレット係数を量子化解除して、量子化解除されたウェーブレット係数を取得するように構成された量子化解除モジュールと、
ウェーブレット変換モデルに基づいて前記量子化解除されたウェーブレット係数に対してN個の逆ウェーブレット変換を実行して、再構成画像を取得するように構成された逆変換モジュールであって、前記ウェーブレット変換モデルが畳み込みニューラルネットワーク(CNN)に基づいて実現され、Nが0より大きい整数である、逆変換モジュールと、
を備える画像復号装置。
【請求項33】
前記エントロピー復号モジュールは、具体的には、
エントロピー復号モデルに基づいて前記圧縮されたビットストリームに対してエントロピー復号を実行して、前記再構成されたウェーブレット係数を取得するように構成され、前記エントロピー復号モデルは深層ニューラルネットワークに基づいて実現された、請求項32に記載の装置。
【請求項34】
前記圧縮されたビットストリームは3N+1個のサブバンドのビットストリームを含み、前記再構成されたウェーブレット係数は3N+1個の再構成されたサブバンドを含み、前記エントロピー復号モジュールは、具体的には、
s番目のサブバンドに対応する再構成されたサブバンドを前記エントロピー復号モデルに入力して、計算によって復号対象係数の累積確率分布関数のパラメータを取得するように構成され、前記復号対象係数のビットストリームは前記s番目のサブバンドのビットストリームの一部であり、前記s番目のサブバンドに対応する前記再構成されたサブバンドは、前記3N+1個の再構成されたサブバンドのうちの任意の1つであり、
前記エントロピー復号モジュールは、前記復号対象係数の前記累積確率分布関数の前記パラメータに基づいて前記復号対象係数の前記累積確率分布関数を取得し、
前記復号対象係数および前記復号対象係数の前記累積確率分布関数に基づいて、前記復号対象係数の確率分布を取得し、
前記復号対象係数の前記確率分布に基づいて、算術デコーダを使用して前記復号対象係数の前記ビットストリームに対してエントロピー復号を実行して、前記復号対象係数を取得するように構成され、前記3N+1個の再構成されたサブバンドが前記復号対象係数を含む、請求項33に記載の装置。
【請求項35】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドであるとき、前記エントロピー復号モデルはピクセル畳み込みニューラルネットワーク(pixelCNN)に基づいて実現され、前記エントロピー復号モデルはM個の畳み込み層を含み、Mは0より大きい整数であり、前記s番目のサブバンドに対応する前記再構成されたサブバンドを前記エントロピー復号モデルに入力して、計算によって前記復号対象係数の前記累積確率分布関数の前記パラメータを取得するとき、前記エントロピー復号モジュールは、具体的には、
Mが1に等しいとき、第1の畳み込み層に対応する窓関数に基づいて、前記第1の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第1の窓処理された畳み込みカーネルを取得し、
前記第1の窓処理された畳み込みカーネルに基づいて、前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行して、前記復号対象係数の前記累積確率分布関数の前記パラメータを取得し、または
Mが1より大きいとき、j番目の畳み込み層の演算中に、前記j番目の畳み込み層に対応する窓関数に基づいて、前記j番目の畳み込み層に対応する畳み込みカーネルに対して窓処理演算を実行して、第2の窓処理された畳み込みカーネルを取得し、
前記第2の窓処理された畳み込みカーネルに基づいて前記j番目の畳み込み層の入力データに対して畳み込み演算を実行して、j番目の出力データを取得するように構成され、
jが1に等しいとき、前記j番目の畳み込み層の前記入力データは、前記第1のサブバンドに対応する再構成されたサブバンドであり、jが1より大きく、かつMより大きくないとき、前記j番目の畳み込み層の前記入力データは、(j-1)番目の畳み込み層の出力データであり、または、jがMに等しいとき、前記j番目の出力データは前記復号対象係数の前記累積確率分布関数の前記パラメータを含む、
請求項34に記載の装置。
【請求項36】
前記s番目のサブバンドが前記3N+1個のサブバンドのうちの第1のサブバンドではないとき、前記エントロピー復号モデルは、第1のエントロピー復号モデル、第2のエントロピー復号モデル、および第3のエントロピー復号モデルを含み、前記第1のエントロピー復号モデルおよび前記第
2のエントロピー復号モデルの両方は、ピクセル畳み込みニューラルネットワークに基づいて実現され、前記第3のエントロピー復号モデルは、リカレントニューラルネットワーク(RNN)に基づいて実現され、前記第1のエントロピー復号モデルはT1個の畳み込み層を含み、前記第2のエントロピー復号モデルはT2個の畳み込み層を含み、T1およびT2の両方は0より大きい整数であり、前記s番目のサブバンドに対応する前記再構成されたサブバンドを前記エントロピー復号モデルに入力して、計算によって前記復号対象係数の前記累積確率分布関数の前記パラメータを取得するとき、前記エントロピー復号モジュールは、具体的には、
(s-1)番目のサブバンドに対応する再構成されたサブバンドを計算のために前記第3のエントロピー復号モデルに入力して、第1の出力結果を取得するように構成され、前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドは、前記(s-1)番目のサブバンドのビットストリームに対してエントロピー復号を実行することによって取得され、前記第1の出力結果は、前記第2のエントロピー復号モデルの入力データであり、前記s番目のサブバンドに対応する前記再構成されたサブバンドは、前記第1のエントロピー復号モデルの入力データであり、
前記エントロピー復号モジュールは、T1およびT2の両方が1に等しいとき、畳み込み層C1と畳み込み層C2とに基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、前記第2の出力結果は、前記復号対象係数の前記累積確率分布関数の前記パラメータであり、前記畳み込み層C1および前記畳み込み層C2は、それぞれ前記第1のエントロピー復号モデルおよび前記第2のエントロピー復号モデルにおける畳み込み層であり、
前記エントロピー復号モジュールは、T1が1より大きく、かつT2が1に等しいとき、畳み込み層C1および畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、前記畳み込み層C1は前記第1のエントロピー復号モデルにおけるq番目の畳み込み層であり、前記畳み込み層C2は前記第2のエントロピー復号モデルにおける畳み込み層であり、qがT1に等しいならば、前記第2の出力結果は前記復号対象係数の前記累積確率分布関数の前記パラメータであり、またはqが0より大きく、かつT1より小さいならば、前記第2の出力結果は前記第1のエントロピー復号モデルにおける(q+1)番目の畳み込み層の入力データであり、または
前記エントロピー復号モジュールは、T1およびT2の両方が1より大きいとき、畳み込み層C1と畳み込み層C2とに基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して結合演算を実行して、第2の出力結果を取得するように構成され、前記畳み込み層C1は前記第1のエントロピー復号モデルにおけるq1番目の畳み込み層であり、前記畳み込み層C2は前記第2のエントロピー復号モデルにおけるq2番目の畳み込み層であり、q1がT1に等しく、かつq2がT2に等しいならば、前記第2の出力結果は前記復号対象係数の前記累積確率分布関数の前記パラメータであり、またはq1が0より大きく、かつT1より小さく、かつq2が0より大きく、かつT2より小さいならば、前記第2の出力結果は前記第1のエントロピー復号モデルにおける(q1+1)番目の畳み込み層の入力データであり、前記畳み込み層C2の出力結果は、前記第2のエントロピー復号モデルにおける(q2+1)番目の畳み込み層の入力データである、請求項34に記載の装置。
【請求項37】
前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドの分解能が前記s番目のサブバンドに対応する前記再構成されたサブバンドの分解能と異なるとき、前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドを計算のために前記第3のエントロピー復号モデルに入力して、前記第1の出力結果を取得するとき、前記エントロピー復号モジュールは、具体的には、
前記第3のエントロピー復号モデルおよび前記第3のエントロピー復号モデルの状態変数に基づいて、前記(s-1)番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行して、畳み込み結果を取得し、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得するように構成され、前記第1の出力結果の分解能は、前記s番目のサブバンドに対応する前記再構成されたサブバンドの前記分解能と同じであり、
前記畳み込み結果に対してアップサンプリングを実行して、前記第1の出力結果を取得した後に、前記エントロピー復号モジュールは、具体的には、
畳み込み状態変数に対してアップサンプリングを実行して、サンプリングされた状態変数を取得するようにさらに構成され、前記サンプリングされた状態変数の分解能は、前記s番目のサブバンドの前記分解能と同じである、請求項36に記載の装置。
【請求項38】
前記畳み込み層C1および前記畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して前記結合演算を実行して、前記第2の出力結果を取得するとき、前記エントロピー復号モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、前記第1の畳み込みカーネルは、前記畳み込み層C1に対応する畳み込みカーネルであり、
前記エントロピー復号モジュールは、前記窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドに対応する前記再構成されたサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行することによって取得され、
前記エントロピー復号モジュールは、第2の入力データを
前記畳み込み層
C2に入力し、畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、前記畳み込み層C2が前記第2の
エントロピー復
号モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得され、
前記エントロピー復号モジュールは、前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するように構成された、請求項36または37に記載の装置。
【請求項39】
前記畳み込み層C1および前記畳み込み層C2に基づいて、前記第1の出力結果および前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して前記結合演算を実行して、前記第2の出力結果を取得するとき、前記エントロピー復号モジュールは、具体的には、
第1の窓関数に基づいて第1の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第1の畳み込みカーネルを取得するように構成され、前記第1の畳み込みカーネルは、前記畳み込み層C1に対応する畳み込みカーネルであり、
前記エントロピー復号モジュールは、第2の窓関数に基づいて第2の畳み込みカーネルに対して窓処理演算を実行して、窓処理された第2の畳み込みカーネルを取得するように構成され、前記第2の畳み込みカーネルは前記畳み込み層C2に対応する畳み込みカーネルであり、前記第1の窓関数および前記第2の窓関数は互いに相補的であり、
前記エントロピー復号モジュールは、前記窓処理された第1の畳み込みカーネルに基づいて第1の入力データに対して畳み込み演算を実行して、第1の畳み込み結果を取得するように構成され、前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1の畳み込み層であるとき、前記第1の入力データは前記s番目のサブバンドに対応する前記再構成されたサブバンドであり、または前記畳み込み層C1が前記第1のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第1の入力データは、前記s番目のサブバンドに対応する前記再構成されたサブバンドに対して畳み込み演算を実行することによって取得され、
前記エントロピー復号モジュールは、前記窓処理された第2の畳み込みカーネルに基づいて第2の入力データに対して畳み込み演算を実行して、第2の畳み込み結果を取得するように構成され、前記畳み込み層C2が前記第2の
エントロピー復
号モデルにおける第1の畳み込み層であるとき、前記第2の入力データは前記第1の出力結果であり、または前記畳み込み層C2が前記第2のエントロピー復号モデルにおける第1でない畳み込み層であるとき、前記第2の入力データは、前記第1の出力結果に対して畳み込み演算を実行することによって取得され、
前記エントロピー復号モジュールは、前記第1の畳み込み結果および前記第2の畳み込み結果に対して加算または連結演算を実行して、前記第2の出力結果を取得するように構成された、請求項36または37に記載の装置。
【請求項40】
前記逆変換モジュールは、具体的には、
t番目の逆ウェーブレット変換を実行するとき、近似サブバンドP
N+1-tおよび詳細サブバンドI
(N+1-t)1に対して更新演算および予測演算を実行して、第1の処理されたサブバンドおよび第2の処理されたサブバンドを取得し、前記第1の処理されたサブバンドおよび前記第2の処理されたサブバンドに基づいて中間近似成分を取得するように構成され、前記中間近似成分の奇数列係数または奇数行係数は前記第1の処理されたサブバンドに由来し、前記中間近似成分の偶数列係数または偶数行係数は前記第2の処理されたサブバンドに由来し、
前記逆変換モジュールは、詳細サブバンドI
(N+1-t)2および詳細サブバンドI
(N+1-t)3に対して前記更新演算および前記予測演算を実行して、第3の処理されたサブバンドおよび第4の処理されたサブバンドを取得し、前記第3の処理されたサブバンドおよび前記第4の処理されたサブバンドに基づいて中間詳細成分を取得するように構成され、前記中間詳細成分の奇数列係数または
奇数行係数は前記第3の処理されたサブバンドに由来し、前記中間詳細成分の偶数列係数または偶数行係数は前記第4の処理されたサブバンドに由来し、
前記逆変換モジュールは、前記中間詳細成分および前記中間近似成分に対して前記更新演算および前記予測演算を実行して、第5の処理されたサブバンドおよび第6の処理されたサブバンドを取得し、前記第5の処理されたサブバンドおよび前記第6の処理されたサブバンドに基づいて近似サブバンドP
t-1を取得するように構成され、前記近似サブバンドP
t-1の奇数行係数または奇数列係数は前記第5の処理されたサブバンドに由来し、前記近似サブバンドP
t-1の偶数行係数または偶数列係数は前記第6の処理されたサブバンドに由来し、
前記詳細サブバンドI
(N+1-t)1、前記詳細サブバンドI
(N+1-t)2、および前記詳細サブバンドI
(N+1-t)3の分解能は、前記近似サブバンドP
N+1-tの分解能と同じであり、前記t番目の逆ウェーブレット変換が最後のウェーブレット変換であるとき、前記近似サブバンドP
t-1は前記再構成画像である、請求項32から39のいずれか一項に記載の装置。
【請求項41】
前記予測演算が、前記CNNに基づいて実現され、
前記更新演算が、前記CNNに基づいて実現され、または
前記更新演算と前記予測演算の両方が、前記CNNに基づいて実現された、請求項40に記載の装置。
【請求項42】
前記装置は、
前記逆変換モジュールが、前記ウェーブレット変換モデルに基づいて前記量子化解除されたウェーブレット係数に対して前記N個の逆ウェーブレット変換を実行して、前記再構成画像を取得した後に、後処理モデルに基づいて前記再構成画像に対して後処理を実行して、処理された再構成画像を取得するように構成された後処理モジュールであって、前記後処理モデルが深層ニューラルネットワークに基づいて実現された、後処理モジュール
をさらに備える、請求項
32、40、または41に記載の装置。
【請求項43】
プログラムが記録されたコンピュータ可読記憶媒体であって、前記プログラムは、コンピュータに、請求項1から21のいずれか一項に記載の方法を実行させる、コンピュータ可読記憶媒体。
【請求項44】
コンピュータに、請求項1から21のいずれか一項に記載の方法を実行させるプログラム。
【請求項45】
装置であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによる実行のためのコンピュータ実行可能な命令を記憶したメモリと、を備え、前記コンピュータ実行可能な命令は、前記少なくとも1つのプロセッサに、請求項1から21のいずれか一項に記載の方法を実行するように命令する、装置。
【国際調査報告】