特開2024-7629 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2024-7629映像符号化装置、プリ処理装置、及び映像符号化方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024007629

(43)【公開日】2024-01-19

(54)【発明の名称】映像符号化装置、プリ処理装置、及び映像符号化方法

(51)【国際特許分類】

H04N 19/85 20140101AFI20240112BHJP

【ＦＩ】

H04N19/85

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022108814

(22)【出願日】2022-07-06

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】110001106

【氏名又は名称】弁理士法人キュリーズ

(72)【発明者】

【氏名】新井大地

(72)【発明者】

【氏名】岩村俊輔

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159MA04

5C159MA05

5C159MC11

5C159ME01

5C159PP04

5C159TA01

5C159TB04

5C159TC24

5C159UA02

(57)【要約】

【課題】符号化効率の向上を図る映像符号化装置、プリ処理装置、及び映像符号化方法を提供する。
【解決手段】映像符号化装置１００は、第１ピクチャ参照構造を利用した、入力映像フレームを含む複数フレームの映像信号に対して、第１ニューラルネットワークによるプリ処理を行い、プリ処理後の映像信号を出力するプリ処理部１１０を有する。また、映像符号化装置１００は、第１ピクチャ参照構造を利用してプリ処理後の映像信号を符号化する映像符号化部１２０を有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

第１ピクチャ参照構造を利用した、入力映像フレームを含む複数フレームの映像信号に対して、第１ニューラルネットワークを用いたプリ処理を行い、プリ処理後の映像信号を出力するプリ処理部と、
前記第１ピクチャ参照構造を利用して前記プリ処理後の映像信号を符号化する映像符号化部と、を有する
映像符号化装置。

【請求項2】

前記プリ処理後の映像信号に対して第２ニューラルネットワークによる映像符号化処理を行うニューラルネットワーク映像符号化部と、
前記プリ処理部に入力された映像信号と、前記映像符号化処理された映像信号との誤差を判定し、前記プリ処理で用いられるパラメータを最適化する誤差判定部と、を更に有し、
前記プリ処理部は、前記パラメータを用いて前記プリ処理を行う
請求項１記載の映像符号化装置。

【請求項3】

前記プリ処理部は、
入力映像の映像信号をＩ（Intra）フレームの第１映像信号とＢ（Bi-directional Predictive）フレーム及び／又はＰ（Predictive）フレームの第２映像信号に振り分ける振分部と、
前記第１映像信号に対して前記プリ処理を行い、前記プリ処理後の前記第１映像信号を出力するＩフレームプリ処理部と、
第２ピクチャ参照構造を利用して、前記第２映像信号と、当該Ｂフレーム又は当該Ｐフレームが参照するＩフレーム、Ｂフレーム、及び／又はＰフレームの映像信号と、前記プリ処理後の当該Ｉフレーム、当該Ｂフレーム、及び／又は当該Ｐフレームの映像信号とを入力し、当該入力に対して、前記第１ニューラルネットワークを利用して前記プリ処理を行い、前記プリ処理後の前記第２映像信号を出力するＢ／Ｐフレームプリ処理部と、を有し、
前記ニューラルネットワーク映像符号化部は、前記プリ処理後の前記第１映像信号と、前記プリ処理後の前記第２映像信号に対して、前記第２ピクチャ参照構造を利用して前記第２ニューラルネットワークによる前記映像符号化処理を行う
請求項２記載の映像符号化装置。

【請求項4】

前記プリ処理部は、
入力映像の映像信号をＩフレームの第１映像信号とＢフレーム及び／又はＰフレームの第２映像信号に振り分ける振分部と、
前記第１映像信号に対して前記プリ処理を行い、前記プリ処理後の前記第１映像信号を出力するＩフレームプリ処理部と、
前記第１ピクチャ参照構造を利用して、前記第２映像信号と、前記第２映像信号の当該Ｂフレーム及び／又は当該Ｐフレームが参照するＩフレーム、Ｂフレーム、及び／又はＰフレームの映像信号と、前記プリ処理後の当該Ｉフレーム、当該Ｂフレーム、及び／又は当該Ｐフレームの映像信号とを入力し、当該入力に対して、前記第１ニューラルネットワークを利用して前記プリ処理を行い、前記プリ処理後の前記第２映像信号を出力するＢ／Ｐフレームプリ処理部と、を有し、
前記映像符号化部は、前記プリ処理後の前記第１映像信号と前記プリ処理後の前記第２映像信号とに対して符号化を行う
請求項１記載の映像符号化装置。

【請求項5】

前記第１ピクチャ参照構造と前記第２ピクチャ参照構造とは同一である
請求項３記載の映像符号化装置。

【請求項6】

前記第１ピクチャ参照構造と前記第２ピクチャ参照構造とは、参照先のフレーム数が同一である
請求項３記載の映像符号化装置。

【請求項7】

入力映像フレームの映像信号に対してプリ処理後の映像信号を映像符号化装置へ出力するプリ処理装置であって、
第１ピクチャ参照構造を利用した、前記入力映像フレームを含む複数フレームの映像信号に対して、第１ニューラルネットワークを用いたプリ処理を行い、前記プリ処理後の映像信号を出力するプリ処理部、を有し、
前記映像符号化装置は、前記プリ処理後の映像信号に対して前記第１ピクチャ参照構造を利用して符号化を行う
プリ処理装置。

【請求項8】

映像符号化装置における映像符号化方法であって、
第１ピクチャ参照構造を利用した、入力映像フレームを含む複数フレームの映像信号に対して、第１ニューラルネットワークを用いたプリ処理を行い、プリ処理後の映像信号を出力し、
前記第１ピクチャ参照構造を利用して前記プリ処理後の映像信号を符号化する
映像符号化方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、映像符号化装置、プリ処理装置、及び映像符号化方法に関する。

【背景技術】

【0002】

近年、ニューラルネットワークを用いた符号化方法について注目されつつある。

【0003】

例えば、現画像と過去画像との動きベクトルを検出する動き検出処理と、動きベクトルから予測画像を生成する動き補償処理と、原画像と予測画像との差分画像を線形変換（例えば、ＤＣＴ変換など）する線形変換処理などを、ＣＮＮ（Convolutional Neural Network）を用いて行う符号化手法がある（例えば、非特許文献１）。このような符号化手法をエンドツーエンド（ｅｎｄ－ｔｏ－ｅｎｄ）で最適化させることで、ＨＥＶＣ（High Efficiency Video Coding）などの従来型の符号化方式と同程度の符号化効率を得ることができる。

【0004】

また、ニューラルネットワークを用いた符号化手法と合わせて、符号化前に、プリ処理（ｐｒｅｐｒｏｃｅｓｓｉｎｇ）を行う符号化手法もある（例えば、非特許文献２及び非特許文献３）。プリ処理を用いた符号化手法に関し、ＭＳ－ＳＳＩＭ（Multi-Scale Structural Similarity）又はＶＭＡＦ（Video Multimethod Assessment Fusion）による主観的画質指標を用いると、Ｈ．２６４などの従来型の符号化方式と比較して、符号化効率が向上することが報告されている。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】G. Lu, W. Ouyang, D. Xu, X. Zhang, C. Cai and Z. Gao, "DVC: An End-To-End Deep Video Compression Framework," 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019 April 7, pp. 10998-11007.

【非特許文献2】A. Chadha and Y. Andreopoulos, "Deep Perceptual Preprocessing for Video Coding," 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 14847-14856.

【非特許文献3】A. Chadha, R. Anam, I. Fadeev, V. Giotsas, and Y. Andreopoulos, “Escaping The Complexity-Bitrate-Quality Barriers Of Video Encoders Via Deep Perceptual Optimization,” SPIE2020, Optical Engineering + Applications.

【発明の概要】

【発明が解決しようとする課題】

【0006】

本開示は、符号化効率の向上を図る映像符号化装置、プリ処理装置、及び映像符号化方法を提供することを目的とする。

【課題を解決するための手段】

【0007】

第１の態様に係る映像符号化装置は、第１ピクチャ参照構造を利用した、入力映像フレームを含む複数フレームの映像信号に対して、第１ニューラルネットワークによるプリ処理を行い、プリ処理後の映像信号を出力するプリ処理部を有する。また、前記映像符号化装置は、第１ピクチャ参照構造を利用してプリ処理後の映像信号を符号化する映像符号化部を有する。

【0008】

第２の態様に係るプリ処理装置は、入力映像の映像信号に対してプリ処理後の映像信号を映像符号化装置へ出力するプリ処理装置である。前記プリ処理装置は、第１ピクチャ参照構造を利用した、入力映像フレームを含む複数フレームの映像信号に対して、第１ニューラルネットワークによるプリ処理を行い、プリ処理後の映像信号を出力するプリ処理部を有する。

【0009】

第３の態様に係る映像符号化方法は、映像符号化装置における映像符号化方法である。前記映像符号化方法は、第１ピクチャ参照構造を利用した、入力映像フレームを含む複数フレームの映像信号に対して、第１ニューラルネットワークによるプリ処理を行い、プリ処理後の映像信号を出力する。また、前記映像符号化方法は、第１ピクチャ参照構造を利用してプリ処理後の映像信号を符号化する。

【発明の効果】

【0010】

本開示によれば、符号化効率の向上を図る映像符号化装置、プリ処理装置、及び映像符号化方法を提供することができる。

【図面の簡単な説明】

【0011】

【図1】図１（Ａ）と図１（Ｂ）は、第１実施形態に係る映像符号化装置の構成例を表す図である。

【図2】図２は、第１実施形態に係るプリ処理部の構成例を表す図である。

【図3】図３は、第１実施形態に係るプリ処理部の構成例を表す図である。

【図4】図４は、第１実施形態に係る推論時におけるピクチャ参照構造の例を表す図である。

【図5】図５（Ａ）は第１実施形態に係る学習時におけるピクチャ参照構造の例を表し、図５（Ｂ）はＢ／Ｐフレームプリ処理部における入力と出力との関係例を表す図である。

【図6】図６は、第１実施形態に係るＢ／Ｐフレームプリ処理部における入力と出力との関係例を表す図である。

【図7】図７は、第１実施形態に係る動作例を表す図である。

【図8】図８は、第１実施形態に係る動作例を表す図である。

【発明を実施するための形態】

【0012】

［第１実施形態］

【0013】

（ニューラルネットワークを用いた符号化手法）
上述したように、ニューラルネットワークを用いた符号化手法が提案されている。ここで、非特許文献１による符号化手法と、非特許文献２による符号化手法とについて説明する。

【0014】

（非特許文献１による符号化手法）
非特許文献１では、ニューラルネットワークを用いた符号化手法を、ＤＶＣ（Deep Video Compression）と呼んでいる。ＤＶＣでは、以下の手順により符号化処理が行われる。

【0015】

ステップＮ１（動き検出）：現フレームと、復号後の過去フレームとを入力とし、ＣＮＮ（オプティカルフローネットワーク）を用いて、オプティカルフロー値（すなわち、動き情報）を得る。そして、動き情報に対して、ＣＮＮ（ＭＶエンコーダネットワーク及びＭＶデコーダネットワーク）などを用いて、圧縮及び復号し、量子化された動き情報を得る。

【0016】

ステップＮ２（動き補償）：量子化された動き情報と過去フレームとを入力として、ＣＮＮ（動き補償ネットワーク）を用いて、予測フレームを得る。

【0017】

ステップＮ３－Ｎ４（変換、量子化、及び逆変換）：現フレームと予測フレームとの残差フレームを、ＣＮＮ（残差エンコーダネットワーク）を利用して、出力を得て、当該出力を量子化することで、量子化値を得る。当該量子化値から、ＣＮＮ（残差デコーダネットワーク）を利用して、再構成された残差フレームを得る。

【0018】

ステップＮ５（エントロピーコーディング）：ステップＮ１で得た量子化された動き情報と、ステップＮ３－Ｎ４で得た量子化値とを入力として、ＣＮＮ（ビットレート推定ネットワーク）を利用して、符号化ビットを得る。

【0019】

ステップＮ６（フレーム再構成）：ステップＮ３－Ｎ４で得た再構成後の残差フレームに、ステップＮ２で得た予測フレームを加算することで、再構成されたフレーム（復号後のフレーム）を得る。

【0020】

以上が、ＤＶＣによる符号化手順である。ＤＶＣでは、学習時において、現フレームと、ステップＮ６で得た復号後のフレームとの間の歪みＤと、エンコードに使用されるビット数（ステップＮ６の入力）Ｒとを利用して、損失関数（λＤ＋Ｒ）が用いられる。ＤＶＣでは、損失関数（λＤ＋Ｒ）を用いて、ビット数Ｒを最小化するとともに歪みＤを最小化するパラメータを求める（又は最適化問題を解く）ことで、エンドツーエンドで最適なニューラルネットワークによる符号化モデルを構築することが可能となる。

【0021】

（非特許文献２による符号化手法）
また、上述したように、符号化が行われる前にプリ処理を行う符号化手法（例えば、非特許文献２）も提案されている。非特許文献２では、プリ処理のことを、ＤＰＰ（Deep Perceptual Preprocessing）と呼んでいる。ＤＰＰを用いた符号化手法では、学習時において、符号化の主要コンポーネントを仮想化して、ＤＰＰを学習させ、損失関数を用いて、ＤＰＰを最適化させる。そして、推論時において、最適化されたＤＰＰを用いて、入力画像に対してプリ処理を行い、プリ処理後の画像に対して、既存のコーデックを用いた符号化処理を行わせる。

【0022】

ＤＰＰを用いた符号化手法では、任意のコーデックで任意のビットレートで符号化処理が行われた場合でも、損失関数により、知覚と歪みとのバランスを取るように最適化されたＤＰＰを得ることができる。そのため、ＤＰＰを用いた符号化手法で符号化された画像を復号しても、ＤＰＰが行われない場合と比較して、視覚的品質を向上させることができる。すなわち、ＤＰＰを用いた符号化手法では、ＤＰＰを用いない符号化手法と比較して、符号化効率（同一データ量であっても画質が良いなど）を向上させることができる。

【0023】

以上が、ニューラルネットワークを用いた符号化手法の例である。

【0024】

しかし、非特許文献２の符号化手法では、プリ処理（ＤＰＰ）に関し、入力画像のフレームをプリ処理後のフレームに画素単位でマッピングするだけであって、後段のコーデック側のピクチャ参照構造を利用していない。そのため、非特許文献２のプリ処理を用いた符号化手法では、符号化後の画像を復号しても、符号化効率が劣化する場合がある。

【0025】

そこで、第１実施形態では、符号化効率を向上することを目的としている。

【0026】

以下、図面を参照して第１実施形態について説明する。なお、以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。

【0027】

（映像符号化装置の構成例）
図１（Ａ）と図１（Ｂ）は、映像符号化装置１００の構成例を表す図である。

【0028】

第１実施形態に係る映像符号化装置１００は、プリ処理部１１０を有する。プリ処理部１１０は、ニューラルネットワークを用いて構成することができる。すなわち、学習時において、プリ処理部１１０を最適化させ、推論時において、最適化されたプリ処理部１１０を用いて、プリ処理後の入力映像に対して符号化処理を行わせる。そこで、映像符号化装置１００について、学習時における映像符号化装置１００と、推論時における映像符号化装置１００とを分けて説明する。

【0029】

（学習時における映像符号化装置の構成例）
図１（Ａ）は、学習時における映像符号化装置１００の構成例を表す。

【0030】

図１（Ａ）に示すように、学習時における映像符号化装置１００は、プリ処理部１１０と、ニューラルネットワーク映像符号化部１３０と、誤差判定部１４０とを有する。

【0031】

プリ処理部１１０は、入力映像の映像フレームを入力し、プリ処理後の映像フレームを出力する。具体的には、プリ処理部１１０は、ピクチャ参照構造（第２ピクチャ参照構造）を利用した、当該入力映像フレームを含む複数フレームの映像信号に対して第１ニューラルネットワークを用いたプリ処理を行い、プリ処理後の映像信号を出力する。プリ処理部１１０の構成例とその詳細は後述する。

【0032】

なお、以下においては、第１ニューラルネットワークは、ＣＮＮを用いたニューラルネットワークであるとして説明するが、これに限定されない。例えば、第１ニューラルネットワークは、ＲＮＮ（Recurrent Neural Network）又はＤＮＮ（Deep Neural Network）など、他の深層学習によるニューラルネットワークが用いられてもよい。

【0033】

ニューラルネットワーク映像符号化部１３０は、プリ処理後の映像フレームに対して、符号化処理を行い、符号化された映像フレームを出力する。具体的には、ニューラルネットワーク映像符号化部１３０は、プリ処理後の映像信号に対して、第２ニューラルネットワークを用いた映像符号化処理を行う。第２ニューラルネットワークによる映像符号化処理は、例えば、非特許文献１によるＤＶＣにより行われてもよい。第２ニューラルネットワークのモデルは、既存の映像符号化処理をニューラルネットワークにより処理を行うモデルであれば、ＤＶＣ以外のモデルが用いられてもよい。

【0034】

誤差判定部１４０は、プリ処理部１１０に入力された映像フレームの映像信号と、ニューラルネットワーク映像符号化部１３０において映像符号化処理された映像信号との誤差を判定する。誤差判定に損失関数Ｌが用いられる。損失関数Ｌは、任意のものが用いられてもよいが、第１実施形態では、以下の式が用いられる。

【0035】

【数1】

【数2】

Ｌ_Ｄは、入力映像フレームの映像信号と、ニューラルネットワークによる映像符号化処理後の映像信号との歪みについての損失関数を表す。Ｒは、当該映像符号化処理後の映像信号のビットレートを表す。数１に示すように、損失関数Ｌは、歪みの損失関数Ｌ_Ｄと、ビットレートＲとの線形和で表されている。また、数２に示すように、歪みの損失関数Ｌ_Ｄは、Ｌ１ノルムＤ_Ｌ１と、ＭＳ－ＳＳＩＭによる画質評価であるＤ_{ＭＳ－ＳＳＩＭ}との線形和で表されている。数１と数２において、λ及びαは定数である。

【0036】

誤差判定部１４０は、数１を用いて損失（又は誤差）が小さくなるように、誤差伝搬法などを用いて、プリ処理部１１０及びニューラルネットワーク映像符号化部１３０で用いられるパラメータを修正する（又は学習する）。誤差判定部１４０では、プリ処理部１１０及びニューラルネットワーク映像符号化部１３０の全てで用いられるパラメータを学習（又は修正）してもよいし、一部を固定して学習（又は修正）してもよい。例えば、誤差判定部１４０では、ニューラルネットワーク映像符号化部１３０のパラメータを固定し、プリ処理部１１０のパラメータを学習（又は修正）してもよい。すなわち、誤差判定部１４０は、プリ処理部１１０で用いられるパラメータを学習（又は修正）することで、当該パラメータを最適化してもよい。図１（Ａ）では、プリ処理部１１０で用いられるパラメータを最適化する場合の構成例を表している。

【0037】

（推論時における映像符号化装置の構成例）
図１（Ｂ）に示すように、推論時における映像符号化装置１００は、プリ処理部１１０と映像符号化部１２０とを有する。

【0038】

プリ処理部１１０は、入力映像の映像フレームを入力し、プリ処理後の映像フレームを出力する。具体的には、プリ処理部１１０は、ピクチャ参照構造（第１ピクチャ参照構造）を利用した、当該入力映像フレームを含む複数フレームの映像信号に対して、第１ニューラルネットワークを用いたプリ処理を行い、プリ処理後の映像信号を出力する。推論時におけるプリ処理部１１０の構成例とその詳細は後述する。

【0039】

映像符号化部１２０は、ＨＥＶＣ又はＶＶＣなど、所定の符号化方式を用いて、プリ処理後の映像信号を符号化する。所定の符号化方式では、所定のピクチャ参照構造（第１ピクチャ参照構造）を利用して、Ｂフレーム又はＰフレームに対して符号化が行われる。映像符号化部１２０では、このような所定のピクチャ参照構造を用いた符号化処理が行われればよく、ＨＥＶＣ又はＶＶＣ以外の符号化方式が用いられてもよい。

【0040】

なお、図１（Ａ）に示す学習時の映像符号化装置１００と図１（Ｂ）に示す推論時の映像符号化装置１００とはマージされてもよい。すなわち、映像符号化装置１００は、プリ処理部１１０と、ニューラルネットワーク映像符号化部１３０と、誤差判定部１４０と、映像符号化部１２０とを有してもよい。

【0041】

（プリ処理部の構成例）
次に、プリ処理部１１０の構成例について説明する。

【0042】

第１実施形態におけるプリ処理部１１０は、ピクチャ参照構造を利用してプリ処理を行う。具体的には、プリ処理部１１０は、学習時においては、ニューラルネットワーク映像符号化部１３０で用いられるピクチャ参照構造（第２ピクチャ参照構造）を利用して、第１ニューラルネットワークを用いたプリ処理を行う。また、プリ処理部１１０は、推論時においては、映像符号化部１２０で用いられるピクチャ参照構造（第１ピクチャ参照構造）を利用して、第１ニューラルネットワークを用いたプリ処理を行う。

【0043】

以下では、ニューラルネットワーク映像符号化部１３０で用いられるピクチャ参照構造であって、学習時においてプリ処理部１１０で用いられるピクチャ参照構造を、「学習時のピクチャ参照構造」と称する場合がある。また、映像符号化部１２０で用いられるピクチャ参照構造であって、推論時においてプリ処理部１１０で用いられるピクチャ参照構造を、「推論時のピクチャ参照構造」と称する場合がある。

【0044】

学習時のピクチャ参照構造は、推論時のピクチャ参照構造とは同一でもよいし、映像符号化装置１００のメモリ容量を考慮して、異なっていてもよい。以下では、学習時のピクチャ参照構造が、推論時のピクチャ参照構造と異なる例を用いて説明する。

【0045】

図４は、第１実施形態に係る推論時のピクチャ参照構造の例を表す図である。図４に示すピクチャ参照構造は、ＩｎｔｒａＰｅｒｉｏｄ１６（Ｉフレーム間のフレーム数が「１６」）のランダムアクセスの例を表している。第１実施形態に係るプリ処理部１１０は、推論時において、図４に示すピクチャ参照構造を利用してプリ処理を行う。

【0046】

一方、図５（Ａ）は、第１実施形態に係る学習時のピクチャ参照構造の例を表す図である。図５（Ａ）に示すピクチャ参照構造は、ＩｎｔｒａＰｅｒｉｏｄ４（Ｉフレーム間のフレーム数が「４」）の例を表している。第１実施形態に係るプリ処理部１１０は、学習時において、図５（Ａ）に示すピクチャ参照構造を利用してプリ処理を行う。

【0047】

図４に示す推論時のピクチャ参照構造と、図５（Ａ）に示す学習時のピクチャ参照構造とは異なるものの、Ｂフレームに着目すると、当該Ｂフレームが参照する参照先のフレーム数は、双方とも「２」である。すなわち、プリ処理部１１０では、推論時と学習時とにおいて、厳密には、ピクチャ参照楮は異なってもよいが、その場合、少なくとも、参照先のフレーム数が双方とも同じことが条件となる。

【0048】

このように、プリ処理部１１０では、推論時に用いるピクチャ参照構造（第１ピクチャ参照構造）と、学習時に用いるピクチャ参照構造（第２ピクチャ参照構造）と、が厳密には異なる場合がある。そのため、プリ処理部１１０の構成例について、推論時と学習時とで分けて説明する。

【0049】

（学習時のプリ処理部の構成例）
図２は、学習時におけるプリ処理部１１０の構成例を表す図である。

【0050】

図２に示すように、プリ処理部１１０は、振分部１１１、Ｉフレームプリ処理部１１２と、Ｂ／Ｐフレームプリ処理部１１３と、結合部１１４とを有する。

【0051】

振分部１１１は、入力映像の映像信号を、Ｉフレームの映像信号（第１映像信号）と、Ｂフレーム及び／又はＰフレームの映像信号（第２映像信号）とに振り分ける。

【0052】

Ｉフレームプリ処理部１１２は、入力映像におけるＩフレームの映像信号に対してプリ処理を行う。Ｉフレームプリ処理部１１２は、１枚のＩフレームの映像信号を入力とし、１枚のプリ処理後のＩフレームの映像信号を出力する。Ｉフレームプリ処理部１１２は、２枚のＩフレーム（例えば、図５（Ａ）のＩＯフレームと、Ｉ４フレーム）の映像信号に対して別々にプリ処理を行い、２枚のプリ処理後のＩフレーム（Ｉ０’フレームとＩ４’フレーム）の映像信号を出力する。Ｉフレームプリ処理部１１２は、１枚のＩフレームを入力し、１枚のプリ処理後のＩフレームを出力するニューラルネットワーク（第３ニューラルネットワーク）であれば任意のモデルを用いてもよい。例えば、Ｉフレームプリ処理部１１２は、非特許文献２に記載されたＤＰＰのプリ処理と同じモデルを用いてもよい。この場合、Ｉフレームプリ処理部１１２では、ＣＮＮを用いたニューラルネットワークにより、知覚品質、ビットレート制御、及び入力映像に対する忠実度についてのバランスを維持できるように、入力Ｉフレームに対するプリ処理後のＩフレームを得るモデルが用いられる。

【0053】

なお、Ｉフレームプリ処理部１１２は、ニューラルネットワークによる学習を行わないで、入力Ｉフレームに対して、ガウシアンフィルタなどのフィルタリングベースの手法を施したり、恒等変換を行ったりすることで、プリ処理後のＩフレームを出力してもよい。

【0054】

また、Ｉフレームプリ処理部１１２は、Ｂ／Ｐフレームプリ処理部１１３で用いられるニューラルネットワークを流用してもよい。この場合、Ｉフレームプリ処理部１１２では、入力Ｉフレームを複製して５枚のＩフレームの映像信号を入力とし、当該ニューラルネットワークを用いて、１枚のプリ処理後のＩフレームの映像信号を出力してもよい。

【0055】

Ｂ／Ｐフレームプリ処理部１１３は、学習時のピクチャ参照構造（第２ピクチャ参照構造）を利用して、１枚のプリ処理後のＢフレーム又はＰフレームを出力する。学習時のピクチャ参照構造が図５（Ａ）の場合、Ｂ／Ｐフレームプリ処理部１１３は、振分部１１１から出力された１枚のＢフレームの映像信号（第２映像信号）と、当該Ｂフレームが参照する２枚のＩフレーム、Ｂフレーム、及び／又はＰフレームの映像信号と、プリ処理後の当該Ｉフレーム、当該Ｂフレーム、及び／又は当該Ｐフレームの映像信号とを入力する。そして、Ｂ／Ｐフレームプリ処理部１１３は、当該入力に対して、ニューラルネットワーク（第１ニューラルネットワーク）を利用してプリ処理を行い、プリ処理後のＢフレームの映像信号を出力する。

【0056】

例えば、図５（Ａ）において、Ｂ２フレームの映像信号がＢ／Ｐフレームプリ処理部１１３に入力されると仮定する。この場合、Ｂ／Ｐフレームプリ処理部１１３は、当該Ｂ２フレームの映像信号と、当該Ｂ２フレームが参照する２枚のＩフレーム（Ｉ０フレームとＩ４フレーム）と、当該２枚のＩフレームについてプリ処理後のＩフレーム（Ｉ０’フレームとＩ４’フレーム）とを入力する。そして、Ｂ／Ｐフレームプリ処理部１１３は、当該入力に対して、ニューラルネットワークを利用してプリ処理を行い、プリ処理後のＢ２フレーム（Ｂ２’フレーム）の映像信号を出力する。図５（Ｂ）は、Ｂ／Ｐフレームプリ処理部１１３における入力と出力の関係を表している。

【0057】

図５（Ａ）と図５（Ｂ）では、Ｂ／Ｐフレームプリ処理部１１３にＢフレームが入力される例で説明したが、Ｐフレームが入力されてもよい。Ｂフレーム又はＰフレームがＢ／Ｐフレームプリ処理部１１３に入力される場合、例えば、以下となる。すなわち、Ｂ／Ｐフレームプリ処理部１１３は、振分部１１１から出力された１枚のＢフレーム又はＰフレームの映像信号（第２映像信号）と、当該Ｂフレームが参照する２枚のＩフレーム、Ｂフレーム、及び／又はＰフレームの映像信号と、プリ処理後の当該Ｉフレーム、当該Ｂフレーム、及び／又は当該Ｐフレームの映像信号とを入力する。そして、Ｂ／Ｐフレームプリ処理部１１３は、当該入力に対して、ニューラルネットワーク（第１ニューラルネットワーク）を利用してプリ処理を行い、プリ処理後のＢフレーム又はＰフレームの映像信号を出力する。

【0058】

Ｂ／Ｐフレームプリ処理部１１３では、このように５枚のフレームを入力とし、１枚のフレームを出力するニューラルネットワークが用いられるものであれば任意のモデルが用いられてもよい。例えば、第１実施形態におけるＢ／Ｐフレームプリ処理部１１３では、非特許文献２のＤＰＰのプリ処理を複数枚のフレーム入力に拡張したモデルが用いられるものとして以下説明する。

【0059】

結合部１１４は、Ｉフレームプリ処理部１１２から出力されたプリ処理後のＩフレームの映像信号と、Ｂ／Ｐフレームプリ処理部１１３から出力されたプリ処理後のＢフレーム又はＰフレームの映像信号とを結合して、プリ処理後の映像信号として出力する。ニューラルネットワーク映像符号化部１３０は、プリ処理後の映像信号に対して、ニューラルネットワークを用いた符号化処理を行う。

【0060】

なお、結合部１１４はなくてもよい。その場合、ニューラルネットワーク映像符号化部１３０は、プリ処理後のＩフレームの映像信号と、プリ処理後のＢフレーム又はＰフレームの映像信号とを、プリ処理後の映像信号として、当該符号化処理を行えばよい。

【0061】

（推論時のプリ処理部の構成例）
図３は、推論時のプリ処理部１１０の構成例を表す図である。

【0062】

図３に示すように、プリ処理部１１０は、振分部１１１と、Ｉフレームプリ処理部１１２と、Ｂ／Ｐフレームプリ処理部１１５と、結合部１１４とを有する。

【0063】

振分部１１１は、学習時における振分部１１１と同一である。

【0064】

Ｉフレームプリ処理部１１２は、学習時のＩフレームプリ処理部１１２と同一である。ただし、Ｉフレームプリ処理部１１２は、推論時のピクチャ参照構造（第１ピクチャ参照構造）を利用してニューラルネットワークを用いて、プリ処理後のＩフレームの映像信号を出力してもよい。図４に示す推論時のピクチャ参照構造（第１ピクチャ参照構造）が用いられる場合、Ｉフレームプリ処理部１１２は、２枚のＩフレーム（Ｉ０フレームとＩ１６フレーム）の映像信号に対して別々にプリ処理を行い、プリ処理後の２枚のＩフレーム（Ｉ０’フレームとＩ１６’フレーム）の映像信号を出力する。

【0065】

Ｂ／Ｐフレームプリ処理部１１５は、推論時のピクチャ参照構造（第１ピクチャ参照構造）を利用して、１枚のプリ処理後のＢフレーム又はＰフレームを出力する。推論時のピクチャ参照構造が図４の場合、Ｂ／Ｐフレームプリ処理部１１３は、振分部１１１から出力された１枚のＢフレームの映像信号（第２映像信号）と、当該Ｂフレームが参照する２枚のＩフレーム、Ｂフレーム、及び／又はＰフレームの映像信号と、プリ処理後の当該Ｉフレーム、当該Ｂフレーム、及び／又は当該Ｐフレームの映像信号とを入力する。そして、Ｂ／Ｐフレームプリ処理部１１５は、当該入力に対して、ニューラルネットワーク（第１ニューラルネットワーク）を利用してプリ処理を行い、プリ処理後のＢフレームの映像信号を出力する。

【0066】

例えば、図４において、Ｂ４フレームの映像信号がＢ／Ｐフレームプリ処理部１１５に入力されると仮定する。この場合、Ｂ／Ｐフレームプリ処理部１１５は、当該Ｂ４フレームの映像信号と、当該Ｂ４フレームが参照する２枚のフレーム（Ｉ０フレームとＢ８フレーム）の映像信号と、当該２枚のフレームについてプリ処理後のフレーム（Ｉ０’フレームとＢ８’フレーム）の映像信号とを入力する。そして、Ｂ／Ｐフレームプリ処理部１１５は、当該入力に対して、ニューラルネットワークを利用してプリ処理を行い、プリ処理後のＢ４フレーム（Ｂ４’フレーム）の映像信号を出力する。図６は、Ｂ／Ｐフレームプリ処理部１１５における入力と出力の関係を表している。

【0067】

なお、図６において、Ｂ８フレームがＢ／Ｐフレームプリ処理部１１５に入力される場合、Ｂ８フレームの映像信号と、当該Ｂ８フレームが参照するＩ０フレームの映像信号と、プリ処理後の当該Ｉ０フレーム（Ｉ０’フレーム）の映像信号とが入力される。このため、Ｂ／Ｐフレームプリ処理部１１５では、Ｉ０フレームの映像信号とプリ処理後のＩ０フレーム（Ｉ０’フレーム）の映像信号とを複製し、他の場合と同様に、５枚のフレームを入力させるようにする。

【0068】

図４と図６では、Ｂ／Ｐフレームプリ処理部１１５にＢフレームが入力される例で説明したが、Ｐフレームが入力されてもよい。Ｂフレーム又はＰフレームがＢ／Ｐフレームプリ処理部１１５に入力される場合、例えば、以下となる。すなわち、Ｂ／Ｐフレームプリ処理部１１５は、振分部１１１から出力された１枚のＢフレーム又はＰフレームの映像信号（第２映像信号）と、当該Ｂフレーム又は当該Ｐフレームが参照する２枚のＩフレーム、Ｂフレーム、及び／又はＰフレームの映像信号と、プリ処理後の２枚の当該Ｉフレーム、当該Ｂフレーム、及び／又は当該Ｐフレームの映像信号とを入力する。そして、Ｂ／Ｐフレームプリ処理部１１５は、当該入力に対して、ニューラルネットワーク（第１ニューラルネットワーク）を利用してプリ処理を行い、プリ処理後のＢフレーム又はＰフレームの映像信号を出力する。

【0069】

Ｂ／Ｐフレームプリ処理部１１５も、学習時のＢ／Ｐフレームプリ処理部１１３と同様に、５枚のフレームを入力とし、１枚のフレームを出力するニューラルネットワークが用いられるものであれば任意のモデルが用いられてもよい。第１実施形態におけるＢ／Ｐフレームプリ処理部１１５も、学習時のＢ／Ｐフレームプリ処理部１１３と同様に、非特許文献２のＤＰＰのプリ処理を複数枚のフレーム入力に拡張したモデルが用いられるものとして以下説明する。

【0070】

結合部１１４は、学習時の結合部１１４と同一である。映像符号化部１２０は、プリ処理後の映像信号を符号化する。なお、結合部１１４はなくてもよい。その場合、映像符号化部１２０は、プリ処理後のＩフレームの映像信号と、プリ処理後のＢフレーム又はＰフレームの映像信号とを、プリ処理後の映像信号として、当該プリ処理後の映像信号を符号化すればよい。

【0071】

（第１実施形態に係る動作例）
次に、第１実施形態に係る動作例について説明する。動作例も、学習時と推論時とで分けて説明する。

【0072】

（学習時における動作例）
図７は、第１実施形態に係る学習時における動作例を表す図である。

【0073】

図７に示すように、ステップＳ１０において、映像符号化装置１００は処理を開始する。

【0074】

ステップＳ１１において、振分部１１１は、入力映像をＩフレームと、Ｂフレーム又はＰフレームとに振り分ける。

【0075】

ステップＳ１２において、Ｉフレームプリ処理部１１２は、Ｉフレームの映像信号に対して、プリ処理を行う。Ｉフレームプリ処理部１１２は、プリ処理後のＩフレームを出力する。

【0076】

ステップＳ１３において、Ｂ／Ｐフレームプリ処理部１１３は、Ｂフレーム又はＰフレームの映像信号に対して、学習時のピクチャ参照構造を利用して、プリ処理を行う。Ｂ／Ｐフレームプリ処理部１１３は、プリ処理後のＢフレーム又はＰフレームの映像信号を出力する。なお、ステップＳ１２とステップＳ１３の順番は逆でもよい。

【0077】

ステップＳ１４において、結合部１１４は、プリ処理後のＩフレームの映像信号と、プリ処理後のＢフレーム又はＰフレームの映像信号とを結合し、プリ処理後の映像信号として出力する。

【0078】

ステップＳ１５において、ニューラルネットワーク映像符号化部１３０は、プリ処理後の映像信号に対して、ニューラルネットワークを利用した映像符号化処理を行う。

【0079】

ステップＳ１６において、誤差判定部１４０は、プリ処理部１１０に入力された映像信号と、ニューラルネットワーク映像符号化部１３０にて映像符号化処理された映像信号（ステップＳ１５）との誤差を判定し、プリ処理部１１０で用いられるパラメータを修正する。

【0080】

以降、Ｉフレームプリ処理部１１２では、入力するＩフレームに対して、修正後のパラメータを用いてプリ処理を行う（ステップＳ１２）。また、Ｂ／Ｐフレームプリ処理部１１３では、入力するＢフレーム又はＰフレームに対して、修正後のパラメータを用いてプリ処理を行う（ステップＳ１３）。そして、ステップＳ１４の処理が繰り返される。これにより、Ｉフレームプリ処理部１１２とＢ／Ｐフレームプリ処理部１１３とで利用されるパラメータが最適化される。パラメータが最適化されたＩフレームプリ処理部１１２とＢ／Ｐフレームプリ処理部１１３とを用いて、推論が行われる。

【0081】

（推論時における動作例）
図８は、第１実施形態に係る推論時における動作例を表す図である。

【0082】

図８に示すように、ステップＳ２０において、映像符号化装置１００は処理を開始する。

【0083】

ステップＳ２１において、振分部１１１は、入力映像をＩフレームと、Ｂフレーム又はＰフレームとに振り分ける。

【0084】

ステップＳ２２において、Ｉフレームプリ処理部１１２は、Ｉフレームの映像信号に対して、プリ処理を行う。Ｉフレームプリ処理部１１２は、プリ処理後のＩフレームを出力する。

【0085】

ステップＳ２３において、Ｂ／Ｐフレームプリ処理部１１５は、Ｂフレーム又はＰフレームの映像信号に対して、推論時のピクチャ参照構造を利用して、プリ処理を行う。Ｂ／Ｐフレームプリ処理部１１５は、プリ処理後のＢフレーム又はＰフレームの映像信号を出力する。なお、ステップＳ２２とステップＳ２３の順番は逆でもよい。

【0086】

ステップＳ２４において、結合部１１４は、プリ処理後のＩフレームの映像信号と、プリ処理後のＢフレーム又はＰフレームの映像信号とを結合し、プリ処理後の映像信号として出力する。

【0087】

ステップＳ２５において、映像符号化部１２０は、プリ処理後の映像信号に対して、ＨＥＶＣ又はＶＶＣなど、所定の符号化方式を用いて符号化する。

【0088】

以上説明したように、第１実施形態におけるプリ処理部１１０は、映像符号化部１２０又はニューラルネットワーク映像符号化部１３０で用いられるピクチャ参照構造を利用して、プリ処理を行う。これにより、例えば、映像符号化装置１００では、ピクチャ参照構造を利用しない場合と比較して、映像符号化部１２０で符号化された映像信号を復号しても、符号化前に当該ピクチャ参照構造を利用しているために、復号後の映像信号の品質を向上させることができる。よって、映像符号化装置１００は、ピクチャ参照構造を利用しないでプリ処理を行う場合と比較して、符号化効率を向上させることができる。

【0089】

（第１実施形態の変形例１）
次に、第１実施形態の変形例１について説明する。変形例１では、主に、第１実施形態の相違点を中心に説明する。

【0090】

第１実施形態では、学習時においても、推論時において、Ｂ／Ｐフレームプリ処理部１１３（１１５）では、入力映像のＢフレーム又はＰフレームと、当該Ｂフレーム又は当該Ｐフレームが参照するＩフレーム、Ｂフレーム、及び／又はＰフレームと、プリ処理後の当該Ｉフレーム、当該Ｂフレーム、及び／又は当該Ｐフレームを入力する例について説明した。Ｂ／Ｐフレームプリ処理部１１３（１１５）では、例えば、以下の（１）及び（２）のいずれかを入力としてニューラルネットワークモデルを構成してもよい。

【0091】

（１）入力映像のＢフレーム又はＰフレームと、当該Ｂフレーム又は当該Ｐフレームが参照するＩフレーム、Ｂフレーム、及び／又はＰフレーム

【0092】

（２）入力映像のＢフレーム又はＰフレームと、当該Ｂフレーム又は当該Ｐフレームが参照するプリ処理後のＩフレーム、Ｂフレーム、及び／又はＰフレーム

【0093】

（第１実施形態の変形例２）
次に、第１実施形態の変形例２について説明する。変形例２においても、主に、第１実施形態の相違点を中心に説明する。

【0094】

第１実施形態では、Ｉフレームプリ処理部１１２と、Ｂ／Ｐフレームプリ処理部１１３（１１５）とについて、入力される映像の解像度を変更しない例について説明した。Ｉフレームプリ処理部１１２と、Ｂ／Ｐフレームプリ処理部１１３（１１５）とについて、入力される映像の解像度を変更してもよい。例えば、学習時においては、Ｉフレームプリ処理部１１２と、Ｂ／Ｐフレームプリ処理部１１３との前段において、入力映像に対してアップスケーリングを施す。この場合、ニューラルネットワーク映像符号化部１３０の後段において、符号化映像に対してダウンスケーリングを施して、入力映像と同一の解像度に変換する。アップスケーリングとダウンスケーリングは逆でもよい。誤差判定部１４０では、入力映像と同一解像度における符号化映像に対して誤差を判定することが可能となる。

【0095】

（第１実施形態の変形例３）
次に、第１実施形態の変形例３について説明する。変形例３においても、主に、第１実施形態の相違点を中心に説明する。

【0096】

第１実施形態では、プリ処理部１１０が映像符号化装置１００内に含まれるものとして説明したが、これに限定されない。例えば、プリ処理部１１０は、映像符号化装置１００の外部にあって、プリ処理装置として設けられてもよい。この場合、プリ処理装置には、図２又は図３に示すプリ処理部１１０に含まれる各構成部分が含まれてもよい。映像符号化装置１００は、ニューラルネットワーク映像符号化部１３０と誤差判定部１４０と映像符号化部１２０とを有し、映像符号化装置１００とプリ処理装置とで映像符号化システムが構成されてもよい。誤差判定部１４０による修正後のパラメータが、プリ処理装置へ出力される。

【0097】

（第１実施形態の変形例４）
次に、第１実施形態の変形例４について説明する。変形例４においても、主に、第１実施形態の相違点を中心に説明する。

【0098】

第１実施形態では、学習時のピクチャ参照構造と、推論時のピクチャ参照構造とにおいて、参照先のピクチャ数は「２」の例で説明したが、これに限定されない。例えば、学習時のピクチャ参照構造と、推論時のピクチャ参照構造とにおいて、参照先のピクチャ数は「３」以上であってもよい。参照先のピクチャ数が「３」のとき、Ｂ／Ｐフレームプリ処理部１１３（１１５）では、入力映像のＢフレーム又はＰフレームの映像信号と、当該Ｂフレーム又は当該Ｐフレームの参照先となる３枚のフレーム（Ｉフレーム、Ｂフレーム、及び／又はＰフレーム）の映像信号と、プリ処理後の当該３枚のフレームの映像信号とを入力とすればよい。また、参照先のピクチャ数が「４」のとき、Ｂ／Ｐフレームプリ処理部１１３（１１５）では、入力映像のＢフレーム又はＰフレームの映像信号と、当該Ｂフレーム又は当該Ｐフレームの参照先となる４枚のフレーム（Ｉフレーム、Ｂフレーム、及び／又はＰフレーム）の映像信号と、プリ処理後の当該４枚のフレームの映像信号とを入力とすればよい。Ｂ／Ｐフレームプリ処理部１１３（１１５）では、入力映像のＢフレーム又はＰフレームに対する参照先のフレーム数に応じた入力とすればよく、当該入力に対してニューラルネットワークにより、１枚のプリ処理後のＢフレーム又はＰフレームを出力すればよい。

【0099】

［その他の実施形態］
上述の装置（映像符号化装置１００）が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭなどの記録媒体であってもよい。また、上述の装置（映像符号化装置１００）が行う各処理を実行する回路を集積化し、当該装置を半導体集積回路（チップセット、ＳｏＣ）により構成してもよい。

【0100】

以上、図面を参照して実施形態について詳しく説明したが、具体的な構成は上述のものに限られることはなく、要旨を逸脱しない範囲内において様々な設計変更などをすることが可能である。また、矛盾しない範囲で各動作例など組み合わせることも可能である。

【符号の説明】

【0101】

１００：映像符号化装置１１０：プリ処理部
１１１：振分部１１２：Ｉフレームプリ処理部
１１３, １１５：Ｂ／Ｐフレームプリ処理部１１４：結合部
１２０：映像符号化部１３０：ニューラルネットワーク映像符号化部
１４０：誤差判定部

【図1】