特開2025-25340 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2025-25340符号化装置、符号化プログラム、プリ処理装置、及びプリ処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025025340

(43)【公開日】2025-02-21

(54)【発明の名称】符号化装置、符号化プログラム、プリ処理装置、及びプリ処理プログラム

(51)【国際特許分類】

H04N 19/85 20140101AFI20250214BHJP

【ＦＩ】

H04N19/85

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023130025

(22)【出願日】2023-08-09

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】110001106

【氏名又は名称】弁理士法人キュリーズ

(72)【発明者】

【氏名】新井大地

(72)【発明者】

【氏名】岩村俊輔

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159LA00

5C159MA04

5C159MA05

5C159MA23

5C159MC11

5C159ME01

5C159PP04

5C159TA01

5C159TB04

5C159TC03

5C159TC08

5C159TC18

5C159UA02

5C159UA05

(57)【要約】

【課題】一定以上の精度を有する映像符号化モデル及びプリ処理モデルを有する符号化装置、符号化プログラム、プリ処理装置、及びプリ処理プログラムを提供する。
【解決手段】一態様に係る符号化装置１００は、第１映像信号に対して、学習済の第１ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を出力するプリ処理部１１０を有する。また、符号化装置１００は、プリ処理後の映像信号に対して符号化処理を行い、符号化された符号化映像信号を出力する映像符号化部１２０を有する。第１ニューラルネットワークモデルに対する学習は、学習済の第２ニューラルネットワークモデルを含むニューラルネットワーク映像符号化部１３０を用いて行われる。また、第２ニューラルネットワークモデルに対する学習は、映像符号化部１１０において第２映像信号を符号化する際に生成された第１予測画像の映像信号と、ニューラルネットワーク映像符号化部１３０において第２映像信号を符号化する際に生成された第２予測画像の映像信号とを利用して行われる。
【選択図】図２

【特許請求の範囲】

【請求項1】

第１映像信号に対して、学習済の第１ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を出力するプリ処理部と、
前記プリ処理後の映像信号に対して符号化処理を行い、符号化された符号化映像信号を出力する映像符号化部と、を有し、
前記第１ニューラルネットワークモデルに対する学習は、学習済の第２ニューラルネットワークモデルを含むニューラルネットワーク映像符号化部を用いて行われ、
前記第２ニューラルネットワークモデルに対する学習は、前記映像符号化部において第２映像信号を符号化する際に生成された第１予測画像の映像信号と、前記ニューラルネットワーク映像符号化部において前記第２映像信号を符号化する際に生成された第２予測画像の映像信号とを利用して行われる
符号化装置。

【請求項2】

前記ニューラルネットワーク映像符号化部は、前記第２映像信号に対して、前記第２ニューラルネットワークモデルを用いてイントラ符号化及びインター符号化を行い、ニューラルネットワーク符号化映像信号を出力する
請求項１記載の符号化装置。

【請求項3】

前記第２ニューラルネットワークモデルの学習の際に、前記第１予測画像の映像信号と、前記第２予測画像の映像信号とを利用して、前記第２ニューラルネットワークモデルのパラメータを最適化する第１誤差判定部を、更に有する
請求項２記載の符号化装置。

【請求項4】

前記第１誤差判定部は、前記第１予測画像の映像信号と前記第２予測画像の映像信号との歪みと、前記映像符号化部から出力される前記符号化映像信号と前記ニューラルネットワーク符号化映像から出力される前記ニューラルネットワーク符号化映像信号との歪みと、前記ニューラルネットワーク符号化映像信号の符号量と、を最小化させるように、前記第２ニューラルネットワークモデルのパラメータを最適化する
請求項３記載の符号化装置。

【請求項5】

前記第１ニューラルネットワークモデルの学習の際に、前記プリ処理後の映像信号に対する前記ニューラルネットワーク映像符号化部の出力であるニューラルネットワーク符号化映像信号と、前記プリ処理部に入力される第３映像信号とに対する誤差判定を行い、前記第１ニューラルネットワークモデルのパラメータを最適化する第２誤差判定部を、更に有する
請求項１記載の符号化装置。

【請求項6】

符号化装置のコンピュータに実行させる符号化プログラムであって、
第１映像信号に対して、学習済の第１ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を出力する処理と、
前記プリ処理後の映像信号に対して符号化処理を行い、符号化された符号化映像信号を出力する処理を、コンピュータに実行させ、
前記第１ニューラルネットワークモデルに対する学習は、学習済の第２ニューラルネットワークモデルを含むニューラルネットワーク映像符号化部を用いて行われ、
前記第２ニューラルネットワークモデルに対する学習は、前記映像符号化部において第２映像信号を符号化する際に生成された第１予測画像の映像信号と、前記ニューラルネットワーク映像符号化部において前記第２映像信号を符号化する際に生成された第２予測画像の映像信号とを利用して行われる
符号化プログラム。

【請求項7】

プリ処理装置であって、
第１映像信号に対して、学習済の第１ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を符号化装置へ出力するプリ処理部、を有し、
前記符号化装置では、前記プリ処理後の映像信号に対して符号化処理を行い、符号化された符号化映像信号を出力し、
前記第１ニューラルネットワークモデルに対する学習は、学習済の第２ニューラルネットワークモデルを含むニューラルネットワーク映像符号化部を用いて行われ、
前記第２ニューラルネットワークモデルに対する学習は、前記映像符号化部において第２映像信号を符号化する際に生成された第１予測画像の映像信号と、前記ニューラルネットワーク映像符号化部において前記第２映像信号を符号化する際に生成された第２予測画像の映像信号とを利用して行われる
プリ処理装置。

【請求項8】

プリ処理装置のコンピュータで実行されるプリ処理プログラムであって、
第１映像信号に対して、学習済の第１ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を符号化装置へ出力する処理、をコンピュータに実行させ、
前記符号化装置では、前記プリ処理後の映像信号に対して符号化処理を行い、符号化された符号化映像信号を出力し、
前記第１ニューラルネットワークモデルに対する学習は、学習済の第２ニューラルネットワークモデルを含むニューラルネットワーク映像符号化部を用いて行われ、
前記第２ニューラルネットワークモデルに対する学習は、前記映像符号化部において第２映像信号を符号化する際に生成された第１予測画像の映像信号と、前記ニューラルネットワーク映像符号化部において前記第２映像信号を符号化する際に生成された第２予測画像の映像信号とを利用して行われる
プリ処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、符号化装置、符号化プログラム、プリ処理装置、及びプリ処理プログラムに関する。

【背景技術】

【0002】

近年、ニューラルネットワークを用いた符号化方法が注目されつつある。

【0003】

例えば、現画像と過去画像との動きベクトルを検出する動き検出処理と、動きベクトルから予測画像を生成する動き補償処理と、原画像と予測画像との差分画像を変換（例えば、ＤＣＴ変換など）する変換処理などを、ＣＮＮ（Convolutional Neural Network）を用いて行う符号化手法がある（例えば、非特許文献１）。このような符号化手法をエンドツーエンド（ｅｎｄ－ｔｏ－ｅｎｄ）で最適化させることで、ＨＥＶＣ（High Efficiency Video Coding）などの従来型の符号化方式と同程度の符号化効率を得ることができる。

【0004】

また、ニューラルネットワークを用いた符号化手法と合わせて、符号化前に、プリ処理（ｐｒｅｐｒｏｃｅｓｓｉｎｇ）を行う符号化手法もある（例えば、非特許文献２及び非特許文献３）。プリ処理を用いた符号化手法に関し、ＭＳ－ＳＳＩＭ（Multi-Scale Structural Similarity）又はＶＭＡＦ（Video Multimethod Assessment Fusion）による主観画質指標を用いると、Ｈ．２６４などの従来型の符号化方式と比較して、符号化効率が向上することが報告されている。

【0005】

更に、ニューラルネットワークによるプリ処理と、映像符号化規格を模したニューラルネットワーク（「補助コーデックネットワーク」と呼ばれる）と、エンドツーエンドで発生するビット量を予測するニューラルネットワークと、復元画像に対してニューラルネットワークを用いたポスト処理と行う符号化手法もある（例えば非特許文献４）。非特許文献４では、全体としてビットレートを抑制しつつ、補助コーデックネットワークを映像符号化規格に模倣できるよう学習することについて報告されている。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】G. Lu, W. Ouyang, D. Xu, X. Zhang, C. Cai and Z. Gao, "DVC: An End-To-End Deep Video Compression Framework," 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019 April 7, pp. 10998-11007.

【非特許文献2】A. Chadha and Y. Andreopoulos, "Deep Perceptual Preprocessing for Video Coding," 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 14847-14856.

【非特許文献3】A. Chadha, R. Anam, I. Fadeev, V. Giotsas, and Y. Andreopoulos, “Escaping The Complexity-Bitrate-Quality Barriers Of Video Encoders Via Deep Perceptual Optimization,” SPIE2020, Optical Engineering + Applications.

【非特許文献4】Hanbin Son, Taeoh Kim, Hyeongmin Lee, Sangyoun Lee: “Enhanced Standard Compatible Image Compression Framework based on Auxiliary Codec Networks”, 2020; arXiv:2009.14754.

【発明の概要】

【発明が解決しようとする課題】

【0007】

本開示は、一定以上の精度を有する映像符号化モデル及びプリ処理モデルを有する符号化装置、符号化プログラム、プリ処理装置、及びプリ処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

第１の態様に係る符号化装置は、第１映像信号に対して、学習済の第１ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を出力するプリ処理部を有する。また、符号化装置は、プリ処理後の映像信号に対して符号化処理を行い、符号化された符号化映像信号を出力する映像符号化部を有する。第１ニューラルネットワークモデルに対する学習は、学習済の第２ニューラルネットワークモデルを含むニューラルネットワーク映像符号化部を用いて行われる。また、第２ニューラルネットワークモデルに対する学習は、映像符号化部において第２映像信号を符号化する際に生成された第１予測画像の映像信号と、ニューラルネットワーク映像符号化部において第２映像信号を符号化する際に生成された第２予測画像の映像信号とを利用して行われる。

【0009】

第２の態様に係る符号化プログラムは、符号化装置のコンピュータに実行させる符号化プログラムである。符号化プログラムは、第１映像信号に対して、学習済の第１ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を出力する処理をコンピュータに実行させる。また、符号化プログラムは、プリ処理後の映像信号に対して符号化処理を行い、符号化された符号化映像信号を出力する処理を、コンピュータに実行させる。第１ニューラルネットワークモデルに対する学習は、学習済の第２ニューラルネットワークモデルを含むニューラルネットワーク映像符号化部を用いて行われる。また、第２ニューラルネットワークモデルに対する学習は、映像符号化部において第２映像信号を符号化する際に生成された第１予測画像の映像信号と、ニューラルネットワーク映像符号化部において第２映像信号を符号化する際に生成された第２予測画像の映像信号とを利用して行われる。

【0010】

第３の態様に係るプリ処理装置は、第１映像信号に対して、学習済の第１ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を符号化装置へ出力するプリ処理部を有する。符号化装置では、プリ処理後の映像信号に対して符号化処理を行い、符号化された符号化映像信号を出力する。第１ニューラルネットワークモデルに対する学習は、学習済の第２ニューラルネットワークモデルを含むニューラルネットワーク映像符号化部を用いて行われる。また、第２ニューラルネットワークモデルに対する学習は、映像符号化部において第２映像信号を符号化する際に生成された第１予測画像の映像信号と、ニューラルネットワーク映像符号化部において第２映像信号を符号化する際に生成された第２予測画像の映像信号とを利用して行われる。

【0011】

第４の態様に係るプリ処理プログラムは、プリ処理装置のコンピュータで実行されるプリ処理プログラムである。プリ処理プリグラムは、第１映像信号に対して、学習済の第１ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を符号化装置へ出力する処理をコンピュータに実行させる。符号化装置では、プリ処理後の映像信号に対して符号化処理を行い、符号化された符号化映像信号を出力する。第１ニューラルネットワークモデルに対する学習は、学習済の第２ニューラルネットワークモデルを含むニューラルネットワーク映像符号化部を用いて行われる。また、第２ニューラルネットワークモデルに対する学習は、映像符号化部において第２映像信号を符号化する際に生成された第１予測画像の映像信号と、ニューラルネットワーク映像符号化部において第２映像信号を符号化する際に生成された第２予測画像の映像信号とを利用して行われる。

【発明の効果】

【0012】

本開示によれば、主観画質だけではなく客観画質を向上させることが可能な符号化装置、符号化プログラム、プリ処理装置、及びプリ処理プログラムを提供できる。

【図面の簡単な説明】

【0013】

【図1】図１は、第１実施形態に係る推論時における符号化装置の構成例を表す図である。

【図2】図２は、第１実施形態に係る学習時における符号化装置の構成例を表す図である。

【図3】図３は、第１実施形態に係る映像符号化部の構成例を表す図である。

【図4】図４は、第１実施形態に係るピクチャ参照構造の例を表す図である。

【図5】図５は、第１実施形態に係るニューラルネットワーク映像符号化部の構成例を表す図である。

【図6】図６は、第１実施形態に係る学習時の符号化装置の構成例を表す図である。

【図7】図７は、第１実施形態に係る学習時の動作例を表す図である。

【図8】図８は、第１実施形態に係る推論時の動作例を表す図である。

【図9】図９は、第２実施形態に係る推論時の符号化システムの構成例を表す図である。

【図10】図１０は、第２実施形態に係る学習時の符号化システムの構成例を表す図である。

【図11】図１１は、第１実施形態に係るＤＶＣエンコーダの構成例を表す図である。

【図12】図１２は、第１実施形態に係るＶＶＣエンコーダの構成例を表す図である。

【発明を実施するための形態】

【0014】

［第１実施形態］
（ニューラルネットワークを用いた符号化手法）
上述したように、ニューラルネットワークを用いた符号化手法が提案されている。ここで、非特許文献１による符号化手法と、非特許文献２による符号化手法とについて説明する。

【0015】

（非特許文献１による符号化手法）
非特許文献１では、ニューラルネットワークを用いた符号化手法を、ＤＶＣ（Deep Video Compression）と呼んでいる。図１１は、第１実施形態に係るＤＶＣエンコーダの構成例を表す図である。図１１を参照して、ＤＶＣエンコーダにおける符号化処理の手順を説明すると、以下のようになる。

【0016】

ステップＮ１（動き検出）：現フレームと、復号後の過去フレームとを入力とし、ＣＮＮ（オプティカルフローネットワーク）を用いて、オプティカルフロー値（すなわち、動き情報）を得る。そして、動き情報に対して、ＣＮＮ（ＭＶエンコーダネットワーク及びＭＶデコーダネットワーク）などを用いて、圧縮及び復号し、量子化された動き情報を得る。

【0017】

ステップＮ２（動き補償）：量子化された動き情報と過去フレームとを入力として、ＣＮＮ（動き補償ネットワーク）を用いて、予測フレームを得る。

【0018】

ステップＮ３－Ｎ４（変換、量子化、及び逆変換）：現フレームと予測フレームとの残差フレームを、ＣＮＮ（残差エンコーダネットワーク）を利用して出力を得て、当該出力を量子化することで、量子化値を得る。当該量子化値から、ＣＮＮ（残差デコーダネットワーク）を利用して、再構成された残差フレームを得る。

【0019】

ステップＮ５（エントロピーコーディング）：ステップＮ１で得た量子化された動き情報と、ステップＮ３－Ｎ４で得た量子化値とを入力として、ＣＮＮ（ビットレート推定ネットワーク）を利用して、符号化ビットを得る。

【0020】

ステップＮ６（フレーム再構成）：ステップＮ３－Ｎ４で得た再構成後の残差フレームに、ステップＮ２で得た予測フレームを加算することで、再構成されたフレーム（復号後のフレーム）を得る。

【0021】

以上が、ＤＶＣによる符号化手順である。ＤＶＣでは、学習時において、現フレームと、ステップＮ６で得た復号後のフレームとの間の歪みＤと、エンコードに使用されるビット数（ステップＮ６の入力）Ｒとを利用して、損失関数（λＤ＋Ｒ）が用いられる。ＤＶＣでは、損失関数（λＤ＋Ｒ）を用いて、ビット数Ｒを最小化するとともに歪みＤを最小化するパラメータを求める（又は最適化問題を解く）ことで、エンドツーエンドで最適なニューラルネットワークによる符号化モデルを構築することが可能となる。

【0022】

（非特許文献２による符号化手法）
また、上述したように、符号化が行われる前にプリ処理を行う符号化手法（例えば、非特許文献２）も提案されている。非特許文献２では、プリ処理のことを、ＤＰＰ（Deep Perceptual Preprocessing）と呼んでいる。ＤＰＰを用いた符号化手法では、学習時において、符号化の主要コンポーネントを仮想化して、ＤＰＰを学習させ、損失関数を用いて、ＤＰＰを最適化させる。そして、推論時において、最適化されたＤＰＰを用いて、入力画像に対してプリ処理を行い、プリ処理後の画像に対して、既存のコーデックを用いた符号化処理を行わせる。

【0023】

ＤＰＰを用いた符号化手法では、任意のコーデックで任意のビットレートで符号化処理が行われた場合でも、損失関数により、知覚と歪みとのバランスを取るように最適化されたＤＰＰを得ることができる。そのため、ＤＰＰを用いた符号化手法で符号化された画像を復号しても、ＤＰＰが行われない場合と比較して、視覚的品質を向上させることができる。すなわち、ＤＰＰを用いた符号化手法では、ＤＰＰを用いない符号化手法と比較して、符号化効率（同一データ量であっても画質が良いなど）を向上させることができる。

【0024】

以上が、ニューラルネットワークを用いた符号化手法の例である。

【0025】

図１２は、第１実施形態に係るＶＶＣエンコーダの構成例を表す図である。上述したようにＤＶＣでは、ニューラルネットワークを用いて、ＨＥＶＣ又はＶＶＣなどの映像符号化規格の構造を模した符号化を行っている。例えば、図１１に示すＤＶＣエンコーダと、図１２に示すＶＶＣエンコーダとを比較すると、２つのエンコーダは、入力映像ｘ_ｔに対して、復号映像ｘ_ｔ－１^から予測映像ｘ_ｔ ^-生成し、入力映像ｘ_ｔと予測映像ｘ_ｔ ^-との残差信号ｒ_ｔに対して変換及び量子化を施したｒ_ｔ^と、予測映像ｘ_ｔ ^-との和をとり、符号化映像ｘ_ｔ^を生成するフローについて同一である。

【0026】

上述した非特許文献３では、映像符号化規格を模したニューラルネットワークとして補助コーデックネットワークと呼ばれるニューラルネットワークを用いている。そして、非特許文献３では、補助コーデックネットワークからの出力映像と、映像符号化規格からの出力映像との差が最小となるように補助コーデックネットワークを学習することについて議論している。

【0027】

しかし、非特許文献３では、中間の予測画像を用いて補助コーデックネットワークを学習することについては議論されていない。

【0028】

上述したように、ＤＶＣエンコーダとＶＶＣエンコーダとは予測画像を用いる点で同一にも拘わらず、非特許文献３に示す技術では、予測画像を用いる点は考慮されていないため、補助コーデックネットワークを映像符号化規格に模倣させることができず、一定以上の精度を得ることができない場合がある。そのため、非特許文献３に示す技術では、全体としてニューラルネットワークモデルの性能が向上しない場合もある。

【0029】

そこで、第１実施形態では、一定以上の精度を有する映像符号化モデル及びプリ処理モデルを提供することを目的としている。

【0030】

なお、映像符号化モデルとは、上述したように、映像信号の符号化に用いられるニューラルネットワークモデルのことである。非特許文献１で示されたＤＶＣは映像符号化モデルの一例である。

【0031】

また、プリ処理モデルは、プリ処理に用いられるニューラルネットワークモデルのことである。非特許文献２で示されたＤＰＰはプリ処理モデルの一例である。

【0032】

以下、図面を参照して第１実施形態について説明する。なお、以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。

【0033】

（１．推論時における符号化装置の構成例）
次に、符号化装置の構成例について説明する。

【0034】

図１は、第１実施形態に係る符号化装置の構成例を表す図である。

【0035】

図１に示すように、符号化装置１００は、プリ処理部１１０と、映像符号化部１２０とを有する。ここで、図１に示す符号化装置１００は、推論時における符号化装置１００の構成例を表している。

【0036】

すなわち、プリ処理部１１０は、既に学習済のニューラルネットワークモデル（例えば第１ニューラルネットワークモデル）を含み、当該学習済モデルを用いて、プリ処理が行われる。当該ニューラルネットワークモデルを「プリ処理モデル」と称してもよい。プリ処理は、例えば、入力映像の解像度をアップスケーリングする処理でもよいし、入力映像の解像度をダウンスケーリングする処理でもよい。或いは、プリ処理は、解像度を変更しない処理であってもよい。プリ処理部１１０は、任意のピクチャ参照構造を利用してプリ処理を行ってもよいが、第１実施形態では、例えば、図４に示すようにＭＰＥＧ２のピクチャ参照構造（イントラピリオドが１５でフレームの連続数は２のＧＯＰ（Group Of Picture）構造）を用いるものとして説明する。このように、プリ処理部１１０は、学習済のニューラルネットワークを用いてプリ処理を行い、プリ処理部の映像信号を出力する。

【0037】

映像符号化部１２０は、プリ処理後の映像信号に対して符号化処理を行い、符号化された符号化映像信号を出力する。映像符号化部１２０における符号化手法は、ＨＥＶＣ又はＶＶＣなど、映像符号化規格の任意の手法が用いられてもよいが、第１実施形態ではＭＰＥＧ２が用いられるものとして説明する。映像符号化部１２０は、推論時において、学習時に用いた映像符号化規格を用いて符号化処理を行う。また、映像符号化部１２０は、推論時において、学習時に用いたピクチャ参照構造（例えば図４）と同一のピクチャ参照構造を用いて、符号化処理を行う。

【0038】

第１実施形態では、最初に、ニューラルネットワーク映像符号化部を学習させて、次に、学習済のニューラルネットワーク映像符号化部を用いてプリ処理部１１０に対する学習が行われる。ここで、映像符号化部１２０を用いてプリ処理部１１０に対する学習を行わせることも考えられる。しかし、第１実施形態では、映像符号化部１２０を用いてプリ処理部１１０に対する学習を行わせないで、学習済のニューラルネットワーク映像符号化部を用いてプリ処理部１１０に対する学習を行わせるようにしている。その理由は、例えば、以下である。

【0039】

すなわち、映像符号化部１２０では、変換処理（ここではＤＣＴ変換処理）後の信号に対して量子化処理が行われるが、量子化後の信号に対する丸め処理により信号成分の一部が削除される場合がある。このような丸め処理は微分不可能であるため、ニューラルネットワークの学習方法である誤差逆伝搬法が利用できない。一方、ニューラルネットワーク映像符号化部では、このような丸め処理を行うことなく、丸め処理をランダムノイズの付加で代替することで、ニューラルネットワークを用いて量子化処理などが再現される。そのため、映像符号化部１２０を用いるよりも、ニューラルネットワーク映像符号化部を用いた方が、プリ処理部１１０に対する学習結果が良好になることが想定される。

【0040】

第１実施形態では、ニューラルネットワークモデルを用いて符号化を行うニューラルネットワーク映像符号化部が、映像符号化規格を用いて符号化を行う映像符号化部に代替して、プリ処理部１１０の学習において使用される。当該ニューラルネットワークモデルを「映像符号化モデル」と称してもよい。

【0041】

以下では、学習時の符号化装置１００の構成例として、（２．１）ニューラルネットワーク映像符号化部に対する学習が行われる際の符号化装置１００の構成例について説明する。次に、（２．２）学習済のニューラルネットワーク映像符号化部を用いてプリ処理部１１０に対する学習が行われる際の符号化装置１００の構成例について説明する。

【0042】

なお、以下では、「ニューラルネットワークモデル」と「ニューラルネットワーク」とを区別しないで用いる場合がある。例えば、「ニューラルネットワークモデルを用いてプリ処理を行う」ことと、「ニューラルネットワークを用いてプリ処理を行う」こととは区別しないで用いる場合がある。

【0043】

また、プリ処理部１１０はニューラルネットワークモデル（例えば第１ニューラルネットワークモデル）を有しており、当該ニューラルネットワークモデルに対する学習又は推論が行われることになるが、「プリ処理部に含まれるニューラルネットワークモデルに対する学習及び推論」と、「プリ処理部１１０に対する学習及び推論」とを区別しないで用いる場合がある。

【0044】

更に、ニューラルネットワーク映像符号化部１３０もニューラルネットワークモデル（例えば第２ニューラルネットワークモデル）を有し、当該ニューラルネットワークモデルに対する学習又は推論が行われることになるが、「ニューラルネットワーク映像符号化部１３０に含まれるニューラルネットワークモデルに対する学習及び推論」と、「ニューラルネットワーク映像符号化部１３０に対する学習及び推論」とを区別しないで用いる場合がある。

【0045】

更に、「映像に対する処理」と「映像信号に対する処理」とを区別しないで用いる場合がある。例えば、「入力映像に対する符号化処理」と、「入力映像の映像信号に対する符号化処理」とを区別しないで用いる場合がある。

【0046】

（２．学習時における符号化装置の構成例）

【0047】

（２．１ニューラルネットワーク映像符号化部で学習が行われる際の符号化装置の構成例）
図２は、第１実施形態に係る符号化装置の構成例を表す図である。図２は、ニューラルネットワーク映像符号化部１３０に対する学習が行われる際の符号化装置１００の構成例を表している。

【0048】

図２に示すように、符号化装置１００は、映像符号化部１２０と、ニューラルネットワーク映像符号化部１３０と、誤差判定部１４０（例えば第１誤差判定部）とを有する。

【0049】

映像符号化部１２０は、推論の際に用いられる映像符号化部１２０（図１）と同一であってもよい。映像符号化部１２０は、入力映像の映像信号（例えば第２映像信号）に対して、ピクチャ参照構造を利用して符号化処理を行い、符号化された符号化映像信号を出力する。符号化自体は、映像符号化規格による手法が用いられてもよく、第１実施形態では、上述したようにＭＰＥＧ２が利用されるものとして説明する。

【0050】

図３は、第１実施形態に係る映像符号化部１２０の構成例を表す図である。図３に示すように、映像符号化部１２０は、イントラ符号化部１２１と、インター符号化部１２２とを有する。映像符号化部１２０は、図４に示すピクチャ参照構造に従って、各映像フレームの映像信号に対する符号化処理を行う。

【0051】

すなわち、ＧＯＰ内の最初の映像フレームをＩフレームとして、イントラ符号化部１２１においてイントラ符号化処理を行う。イントラ符号化部１２１は、符号化後のＩフレームの映像信号を出力する。ＧＯＰ内に２番目から１６番目までの各映像フレームについては、図４に示すピクチャ参照構造に従って、Ｂフレーム又はＰフレームとして、インター符号化部１２２に入力され、インター符号化処理が逐次行われる。インター符号化部１２２は、符号化後のＢフレームの映像信号、又は符号化後のＰフレームの映像信号を出力する。符号化後のＩフレームと、符号化後のＢフレームと、符号化後のＰフレームの各映像信号は、図４に示すピクチャ参照構造に示す時間的な順序に従って、符号化映像の映像信号として出力される。

【0052】

第１実施形態では、インター符号化部１２２は、予測画像（例えば第１予測画像）の映像信号を生成し、当該映像信号を出力する。図１２はＶＶＣエンコーダの例であるが、ＭＥＰＧ２エンコーダの場合であっても、復号画像に対して動き補償を行うことで予測画像を生成することができ、当該予測画像の映像信号をインター符号化部１２２から出力することが可能である。

【0053】

図２に戻り、映像符号化部１２０は、符号化映像の映像信号と予測画像の映像信号とを誤差判定部１４０へ出力する。

【0054】

ニューラルネットワーク映像符号化部１３０は、入力映像の映像信号（例えば第２映像信号）に対して、ニューラルネットワークモデル（例えば第２ニューラルネットワークモデル又は映像符号化モデル）を用いてイントラ符号化及びインター符号化を行い、ニューラルネットワーク符号化映像の映像信号（以下では、「ニューラルネットワーク符号化映像信号」と称する場合がある。）を出力する。ニューラルネットワーク映像符号化部１３０は、ニューラルネットワーク符号化映像信号を誤差判定部１４０へ出力する。

【0055】

図５は、ニューラルネットワーク映像符号化部１３０の構成例を表す図である。図５に示すように、ニューラルネットワーク映像符号化部１３０は、ニューラルネットワークイントラ符号化部１３１と、ニューラルネットワークインター符号化部１３２と、ニューラルネットワーク符号量計算部１３３とを有する。

【0056】

ニューラルネットワーク映像符号化部１３０は、任意のピクチャ参照構造を利用して符号化処理を行ってもよいが、第１実施形態では、映像符号化部１２０で用いたピクチャ参照構造と同一のピクチャ参照構造（例えば図４）を利用して符号化を行うものとして説明する。

【0057】

この場合、ＧＯＰ内の最初の映像フレームをＩフレームとして、ニューラルネットワークイントラ符号化部１３１に入力される。ニューラルネットワークイントラ符号化部１３１は、当該Ｉフレームに対してニューラルネットワークモデルを用いたイントラ符号化処理を行う。ニューラルネットワークイントラ符号化部１３１は、符号化されたＩフレームの映像信号を出力する。

【0058】

なお、Ｉフレームに対するニューラルネットワークモデルは任意のモデルが用いられてもよいが、第１実施形態では、以下の非特許文献５に記載されている符号化方法により、イントラ符号化処理が行われるものとして説明する。非特許文献５では、例えば、入力映像に対して、畳み込み層等を含むニューラルネットワークを用いたパラメータ変換を施して潜在変数へ変換し、当該潜在変数に対して更にニューラルネットワークを用いたパラメータ変換を施すことで標準偏差がまとめられた潜在変数へと変換させる。そして、当該潜在変数に対して量子化及び算術変換が行われる。

【0059】

非特許文献５：Johannes Balle, David Minnen, Saurabh Singh, Sung Jin Hwang, Nick Johnston: “Variational image compression with a scale hyperprior”, 2018; arXiv:1802.01436.
次に、ＧＯＰ内に２番目から１６番目までの各映像フレームについては、図４に示すピクチャ参照構造に従って、Ｂフレーム又はＰフレームとして、ニューラルネットワークインター符号化部１３２に入力される。ニューラルネットワークインター符号化部１３２では、各映像フレームの映像信号に対して、ニューラルネットワークを用いたインター符号化処理が逐次行われる。ニューラルネットワークインター符号化部１３２は、符号化後のＢフレームの映像信号と、符号化後のＰフレームの映像信号とを出力する。符号化後の各映像フレームの映像信号は、図４に示すピクチャ参照構造に示す時間的な順序に従って、ニューラルネットワーク符号化映像の映像信号として出力される。

【0060】

なお、Ｂフレーム及びＰフレームに対するニューラルネットワークモデルは任意のモデルが用いられてもよいが、第１実施形態では、双方向予測に対応する非特許文献１に記載されたＤＶＣが用いられるものとして説明する。或いは、Ｂフレーム及びＰフレームに対するニューラルネットワークモデルとして、以下の非特許文献６に示された複数フレームの動き補償を行うニューラルネットワークモデルが用いられてもよい。

【0061】

非特許文献６：M. Akin Yilmaz, A. Murat Tekalp: “End-to-End Rate-Distortion Optimized Learned Hierarchical Bi-Directional Video Compression”, 2021; arXiv:2112.09529.
例えば、ニューラルネットワークインター符号化部１３２において、非特許文献１に記載されたＤＶＣが用いられる場合、図１１に示すように、動き補償を模したニューラルネットワークモデルである動き補償ネットワークから予測画像を出力することができる。そのため、ニューラルネットワークインター符号化部１３２からは、予測画像（例えば第２予測画像）の映像信号を出力することが可能である。ニューラルネットワークインター符号化部１３２は、予測画像を、ニューラルネットワーク予測画像として出力する。

【0062】

図５に戻り、ニューラルネットワーク符号量計算部１３３は、ニューラルネットワーク符号化映像の映像信号を入力し、当該映像信号の符号量を計算する。ニューラルネットワーク符号量計算部１３３は、計算した符号量を、ニューラルネットワーク符号量として出力する。

【0063】

このように、ニューラルネットワーク映像符号化部１３０は、自身の学習の際に、ニューラルネットワーク符号化映像の映像信号と、ニューラルネットワーク符号量と、ニューラルネットワーク予測画像の映像信号とを出力する。

【0064】

なお、図５に示すように、ニューラルネットワーク映像符号化部１３０では、ニューラルネットワークイントラ符号化部１３１で用いられるニューラルネットワークモデルと、ニューラルネットワークインター符号化部１３２で用いられるニューラルネットワークモデルとを有する。２つのニューラルネットワークモデルは異なるが、以下では、ニューラルネットワーク映像符号化部１３０に含まれるニューラルネットワークモデルとしては１つのニューラルネットワークモデルとして説明する場合がある。すなわち、ニューラルネットワークイントラ符号化部１３１で用いられるニューラルネットワークモデルと、ニューラルネットワークインター符号化部１３２で用いられるニューラルネットワークモデルとを１つにまとめて、ニューラルネットワーク映像符号化部１３０におけるニューラルネットワークモデル（例えば第２ニューラルネットワークモデル又は映像符号化モデル）として説明する場合がある。

【0065】

図２に戻り、誤差判定部１４０は、入力映像の映像信号（例えば第２映像信号）に対するニューラルネットワーク映像符号化部１３０の出力であるニューラルネットワーク符号化映像信号と、入力映像の映像信号に対する映像符号化部１２０の出力である符号化映像信号とに対する誤差判定を行い、ニューラルネットワーク映像符号化部１３０のパラメータを最適化する。すなわち、誤差判定部１４０は、映像符号化部１２０において入力映像の映像信号を符号化する際に生成された予測画像（例えば第１予測画像）の映像信号と、ニューラルネットワーク映像符号化部１３０において入力映像の映像信号を符号化する際に生成された予測画像（例えば第２予測画像）の映像信号とを利用して、ニューラルネットワーク映像符号化部１３０で用いられるニューラルネットワークモデル（すなわち映像符号化モデル）のパラメータを最適化する。具体的には、誤差判定部１４０は、以下の損失関数Ｌ_１を用いて映像符号化モデルのパラメータを最適化する。

【0066】

【数1】

数１において、Ｉ_ＮＮはニューラルネットワーク映像符号化部１３０の出力であるニューラルネットワーク符号化映像を表し、Ｉ_{ＣＯＤＥＣ}は映像符号化部１２０の出力である符号化映像を表す。また、

【数2】

はニューラルネットワーク映像符号化部１３０の出力であるニューラルネットワーク予測映像を表し、

【数3】

は映像符号化部１２０の出力である予測映像を表す。更に、Ｒ_ＮＮはニューラルネットワーク符号量を表し、λ_１及びλ_２は正の定数を表す。

【0067】

誤差判定部１４０では、例えば、映像符号化部１２０からの予測映像の映像信号と、ニューラルネットワーク映像符号化部１３０からのニューラルネットワーク予測画像の映像信号とを利用して、映像符号化モデルのパラメータを最適化するようにしている。具体的には、誤差判定部１４０は、映像符号化部１２０から出力される予測映像の映像信号とニューラルネットワーク映像符号化部１３０から出力されるニューラルネットワーク予測画像の映像信号との歪みと、映像符号化部１２０から出力される符号化映像の映像信号とニューラルネットワーク映像符号化部１３０から出力されるニューラルネットワーク符号化映像の映像信号との歪みと、ニューラルネットワーク符号量と、を最小化させるように最適化を行う。

【0068】

このように、第１実施形態では、映像符号化モデルに対する学習は、映像符号化部１２０において入力映像の映像信号を符号化する際に生成された予測画像の映像信号と、ニューラルネットワーク映像符号化部１３０において入力映像の映像信号を符号化する際に生成された予測画像の映像信号とを利用して行われる。中間画像である予測画像を利用して、映像符号化モデルに対する学習が行われるため、中間画像を用いないで映像符号化モデルに対する学習が行われる場合と比較して、映像符号化モデルの映像符号化規格に対する模倣の精度を高めることが可能となる。そのため、映像符号化モデル、すなわち、ニューラルネットワーク映像符号化部１３０で用いられるニューラルネットワークモデルの精度を一定以上の精度にすることが可能となる。

【0069】

次に、符号化装置１００では、学習済モデルを有するニューラルネットワーク映像符号化部１３０を用いて、プリ処理部１１０のニューラルネットワークモデル（例えば第１ニューラルネットワークモデル又はプリ処理モデル）に対する学習を行う。

【0070】

（２．２プリ処理部１１０で学習が行われる際の符号化装置の構成例）
図６は、プリ処理部１１０で学習が行われる際の符号化装置１００の構成例を表す図である。

【0071】

図６に示すように、符号化装置１００は、プリ処理部１１０と、ニューラルネットワーク映像符号化部１３０と、誤差判定部１４５（例えば第２誤差判定部）とを有する。

【0072】

プリ処理部１１０は、入力映像の映像信号（例えば第３映像信号）に対してプリ処理を行い、プリ処理後のプリ処理映像信号を出力する。プリ処理部１１０は、任意のピクチャ参照構造を利用してプリ処理を行ってもよいが、第１実施形態では、映像符号化部１２０で用いられるピクチャ参照構造と同一のピクチャ参照構造（例えば図４）を利用してプリ処理を行うものとして説明する。すなわち、プリ処理部１１０は、１６枚の映像フレームを１ＧＯＰとして、１６枚の映像フレームの各映像フレームの映像信号を入力し、１６枚の映像フレームの各映像フレームの映像信号を出力する。プリ処理部１１０では、ニューラルネットワークモデル（例えば第１ニューラルネットワークモデル又はプリ処理モデル）を用いてプリ処理を行う。プリ処理部１１０におけるニューラルネットワークモデルは任意のモデルを用いてもよいが、第１実施形態では以下の非特許文献７に示されたＢａｓｉｃＶＳＲを用いるものとする。ＢａｓｉｃＶＳＲは、時系列相関を考慮することが可能なニューラルネットワークモデルである。ＢａｓｉｃＶＳＲは、画素数を拡大する超解像（ＶＳＲ：Video Super Resolution）ニューラルネットワークモデルであるが、当該モデル内の最終段の処理を変更することで、任意の解像度の映像を出力することができる。

【0073】

非特許文献７Kelvin C. K. Chan, Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy: “BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond”, 2020; arXiv:2012.02181.
ニューラルネットワーク映像符号化部１３０は、プリ処理後のプリ処理映像信号に対して、学習済のニューラルネットワークモデル（又は映像符号化モデル）を用いて、ニューラルネットワーク符号化映像信号を出力する。ニューラルネットワーク映像符号化部１３０は、任意のピクチャ参照構造を利用して符号化を行ってもよいが、第１実施形態では、映像符号化部１２０で用いられるピクチャ参照構造と同一のピクチャ参照構造（例えば図４）を利用するものとして説明する。すなわち、ニューラルネットワーク映像符号化部１３０は、１６枚のプリ処理後の各映像フレームに対して学習済のニューラルネットワークを用いて符号化処理を行い、１６枚のニューラルネットワーク符号化映像の各映像フレームを出力する。ニューラルネットワーク映像符号化部１３０は、ニューラルネットワーク符号化映像信号を誤差判定部１４５へ出力する。また、ニューラルネットワーク映像符号化部１３０は、ニューラルネットワーク符号化映像信号の符号量を計算し、ニューラルネットワーク符号量として、誤差判定部１４５へ出力する。ニューラルネットワーク符号量の計算は、ニューラルネットワーク符号量計算部１３３（図５）を用いて行われる。なお、プリ処理部１１０において学習が行われる際のニューラルネットワーク映像符号化部１３０の構成例は、図５に示す構成例であってもよい。

【0074】

誤差判定部１４５は、プリ処理後の映像信号に対するニューラルネットワーク映像符号化部１３０の出力であるニューラルネットワーク符号化映像信号と、プリ処理部１１０に入力される入力映像の映像信号とに対する誤差判定を行い、プリ処理部１１０で用いられるニューラルネットワーク（例えば第１ニューラルネットワーク又はプリ処理モデル）のパラメータを最適化する。誤差判定部１４５は、任意の損失関数を用いてもよいが、第１実施形態では、以下の損失関数Ｌ_２を利用して、最適化を行う。

【0075】

【数4】

数４において、Ｉ_ＮＮはニューラルネットワーク映像符号化部１３０の出力であるニューラルネットワーク符号化映像を表し、Ｉ_{ＩＮＰＵＴ}は入力映像を表す。また、Ｒ_ＮＮはニューラルネットワーク符号量を表し、λ₃は正の定数を表す。誤差判定部１４５では、例えば、ニューラルネットワーク符号化映像と入力映像とが近似しつつ、ニューラルネットワーク符号量が最小となるように、プリ処理部１１０におけるニューラルネットワークモデルのパラメータを設定することで、最適化を行う。

【0076】

このように、第１実施形態において、プリ処理モデルに対する学習は、学習済の映像符号化モデルを用いて行われる。従って、第１実施形態では、一定以上の精度を有する映像符号化モデルを用いてプリ処理モデルに対する学習を行っているため、学習後のプリ処理モデルは、予測画像を用いないで学習された映像符号化モデルを用いる場合と比較して、一定以上の精度を有する学習済モデルを導出することが可能となる。

【0077】

よって、第１実施形態では、一定以上の精度を有する映像符号化モデル及びプリ処理モデルを導出させることが可能となる。

【0078】

なお、図６において、プリ処理部１１０におけるプリ処理がアップスケーリングを含む場合、ニューラルネットワーク符号化映像信号に対してダウンスケーリングを施すことで、ニューラルネットワーク映像と入力映像とを同一解像度にすることができる。また、当該プリ処理がダウンスケーリングを含む場合、ニューラルネットワーク符号化映像信号に対してアップスケーリングを施すことで、ニューラルネットワーク映像と入力映像とを同一解像度にすることができる。ニューラルネットワーク符号化映像信号に対してダウンスケーリングを施したり、アップスケーリングを施したりする処理は、例えば、ニューラルネットワーク映像符号化部１３０で行われてもよいし、誤差判定部１４５で行われてもよい。

【0079】

（第１実施形態に係る動作例）
次に、第１実施形態に係る動作例について説明する。

【0080】

図７は、第１実施形態に係る学習時の動作例を表す図である。

【0081】

図７に示すように、ステップＳ１０において、符号化装置１００は処理を開始する。

【0082】

ステップＳ１１において、ニューラルネットワーク映像符号化部１３０は、入力映像の映像信号を入力し、ニューラルネットワーク符号化映像の映像信号と、ニューラルネットワーク予測画像の映像信号とを出力する。また、ステップＳ１１において、映像符号化部１２０は、入力映像の映像信号を入力し、符号化映像の映像信号を出力する。更に、ステップＳ１１において、ニューラルネットワーク映像符号化部１３０は、ニューラルネットワーク符号量を出力する。

【0083】

ステップＳ１２において、誤差判定部１４０は、数１を用いて、ニューラルネットワーク符号化映像と符号化映像との誤差判定を行い、予測画像を用いてニューラルネットワーク映像符号化部１３０におけるニューラルネットワークに対するパラメータを最適化する。ニューラルネットワーク映像符号化部１３０では、学習済のニューラルネットワークモデルが導出される。

【0084】

ステップＳ１３において、プリ処理部１１０は、入力映像に対して、ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理映像信号を、ニューラルネットワーク映像符号化部１３０へ出力する。ニューラルネットワーク映像符号化部１３０は、プリ処理映像信号に対して、学習済のニューラルネットワークモデルを用いて符号化処理を行い、ニューラルネットワーク符号化映像信号を出力する。

【0085】

ステップＳ１４において、誤差判定部１４５は、ニューラルネットワーク符号化映像と入力映像との誤差判定を行い、プリ処理部１１０のニューラルネットワークモデルのパラメータを最適化する。プリ処理部１１０では、学習済のニューラルネットワークモデルが導出される。

【0086】

ステップＳ１５において、符号化装置１００は、学習を終了する。

【0087】

図８は、第１実施形態に係る推論時の動作例を表す図である。

【0088】

図８に示すように、ステップＳ２０において、符号化装置１００は、推論を開始する。

【0089】

ステップＳ２１において、プリ処理部１１０は、入力映像に対して、学習済のニューラルネットワークモデルを用いてプリ処理を行い、プリ処理映像信号を出力する。

【0090】

ステップＳ２２において、映像符号化部１２０は、プリ処理映像信号に対して映像符号化規格による符号化処理を施し、符号化映像信号を出力する。映像符号化部１２０は、符号化映像信号をビットストリームとして、映像復号装置へ送信してもよい。

【0091】

ステップＳ２３において、符号化装置１００は、推論を終了する。

【0092】

［第２実施形態］
次に、第２実施形態について説明する。

【0093】

第１実施形態では、符号化装置１００内にプリ処理部１１０を有する例について説明した。第２実施形態では、プリ処理部１１０を有するプリ処理装置が符号化装置１００の前段に設けられている例について説明する。

【0094】

図９は、第２実施形態に係る符号化システム１０の構成例を表す図である。

【0095】

図９に示すように、符号化システム１０は、プリ処理装置２００と符号化装置１００とを有する。プリ処理装置２００は、プリ処理部１１０を有する。また、符号化装置１００は、映像符号化部１２０を有する。

【0096】

図９に示す符号化システム１０は、図１と同様に、推論時における構成例を表している。すなわち、プリ処理部１１０は、既に学習済のニューラルネットワークモデル（例えば第１ニューラルネットワークモデル又は映像符号化モデル）を用いてプリ処理を行う。具体的には、プリ処理部１１０は、入力映像の映像信号（例えば第１映像信号）に対して、学習済のニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を符号化装置１００へ出力する。

【0097】

符号化装置１００は、第１実施形態と同様に、プリ処理後の映像信号に対して、映像符号化規格を利用して符号化処理を行い、符号化映像の映像信号を出力する。

【0098】

図１０は、第２実施形態に係る学習時の符号化システム１０の構成例を表す図である。

【0099】

図１０に示すように、学習時において、プリ処理装置２００にはプリ処理部１１０を有し、符号化装置１００にはニューラルネットワーク映像符号化部１３０と誤差判定部１４５とを有する。

【0100】

プリ処理部１１０は、第１実施形態（図６）と同様に、入力映像の映像信号に対して、ニューラルネットワークモデル（例えば第１ニューラルネットワークモデル又はプリ処理モデル）を利用してプリ処理を行い、プリ処理後の映像信号を出力する。

【0101】

ニューラルネットワーク映像符号化部１３０は、第１実施形態と同様に、予測画像を利用して学習が行われた学習済のニューラルネットワークモデル（例えば第２ニューラルネットワークモデル又は映像符号化モデル）を有する。ニューラルネットワーク映像符号化部１３０は、第１実施形態と同様に、プリ処理映像の映像信号に対して、当該ニューラルネットワークモデルを用いて符号化処理を行い、ニューラルネットワーク符号化映像信号を出力する。

【0102】

誤差判定部１４５も、第１実施形態と同様に、数２に示す損失関数Ｌ_２を用いて、プリ処理部１１０で用いられるニューラルネットワークのパラメータを最適化させる。

【0103】

第２実施形態においても、プリ処理モデルに対する学習は、学習済の映像符号化モデルを用いて行われる。また、映像符号化モデルに対する学習は、予測画像を利用して行われる。そのため、第２実施形態においても、一定以上の精度を有する学習済の映像符号化モデルを導出することが可能であり、更に、当該映像符号化モデルを用いてプリ処理モデルの学習が行われることで、一定以上の精度を有する学習済のプリ処理モデルを導出することができる。よって、第２実施形態においても、第１実施形態と同様に、一定以上の精度を有する映像符号化モデル及びプリ処理モデルを導出することができる。

【0104】

［その他の実施形態］
上述した第１実施形態及び第２実施形態では、中間画像として、予測画像を例にして説明したが、映像符号化モデルの学習に用いる中間画像は予測画像に限らない。例えば、逆量子化後の残差信号に予測画像を加算して得られた復号画像を、映像符号化モデルの学習に用いる中間画像として用いてもよい。この場合、第１実施形態及び第２実施形態で説明した映像符号化部１２０で生成された予測画像を、映像符号化部１２０で生成された復号画像に置き換えれば実施可能である。また、第１実施形態及び第２実施形態で説明したニューラルネットワーク映像符号化部１３０で生成された予測画像を、ニューラルネットワーク映像符号化部１３０で生成された復号画像に置き換えれば実施可能である。映像符号化モデルの学習に用いる中間画像は、例えば、映像符号化規格において入力画像と符号化画像との間で生成される画像であればよい。

【0105】

また、第１実施形態及び第２実施形態では、ニューラルネットワーク映像符号化部１３０の学習後にプリ処理部１１０の学習を行う例について説明したが、プリ処理部１１０の学習後に、再び、ニューラルネットワーク映像符号化部１３０の学習と、その後のプリ処理部１１０の学習とが行われてもよい。すなわち、ニューラルネットワーク映像符号化部１３０の学習後にプリ処理部１１０の学習が行われることが繰り返されてもよい。

【0106】

また、上述の装置（符号化装置１００及びプリ処理装置２００）が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭなどの記録媒体であってもよい。また、上述の装置（符号化装置１００及びプリ処理装置２００）が行う各処理を実行する回路を集積化し、当該装置を半導体集積回路（チップセット、ＳｏＣ）により構成してもよい。

【0107】

以上、図面を参照して実施形態について詳しく説明したが、具体的な構成は上述のものに限られることはなく、要旨を逸脱しない範囲内において様々な設計変更などをすることが可能である。また、矛盾しない範囲で各動作例など組み合わせることも可能である。

【符号の説明】

【0108】

１００：符号化装置１１０：プリ処理部
１２０：映像符号化部１２１：イントラ符号化部
１２２：インター符号化部１３０：ニューラルネットワーク映像符号化部
１３１：ニューラルネットワークイントラ符号化部
１３２：ニューラルネットワークインター符号化部
１３３：ニューラルネットワーク符号量計算部
１４０，１４５：誤差判定部２００：プリ処理装置

【図1】