IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特開-映像符号化装置、及び映像符号化方法 図1
  • 特開-映像符号化装置、及び映像符号化方法 図2
  • 特開-映像符号化装置、及び映像符号化方法 図3
  • 特開-映像符号化装置、及び映像符号化方法 図4
  • 特開-映像符号化装置、及び映像符号化方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024060505
(43)【公開日】2024-05-02
(54)【発明の名称】映像符号化装置、及び映像符号化方法
(51)【国際特許分類】
   H04N 19/103 20140101AFI20240424BHJP
   H04N 19/85 20140101ALI20240424BHJP
   H04N 19/154 20140101ALI20240424BHJP
   H04N 19/172 20140101ALI20240424BHJP
   G06N 3/045 20230101ALI20240424BHJP
【FI】
H04N19/103
H04N19/85
H04N19/154
H04N19/172
G06N3/04 154
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022167916
(22)【出願日】2022-10-19
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001106
【氏名又は名称】弁理士法人キュリーズ
(72)【発明者】
【氏名】新井 大地
(72)【発明者】
【氏名】井口 和久
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159LA02
5C159LB01
5C159LB11
5C159PP04
5C159RC11
5C159TA01
5C159TA16
5C159TB04
5C159TC08
5C159TD05
5C159UA02
5C159UA05
(57)【要約】      (修正有)
【課題】入力映像に依存しない主観的な画質を向上させる映像符号化装置及び映像符号化方法を提供する。
【解決手段】映像符号化装置は、入力映像信号に対して、第1ニューラルネットワークを用いて、解像度が異なる超解像映像の第1映像信号を出力するプリ処理部と、超解像映像の第1映像信号に対して、第2ニューラルネットワークを用いて符号化処理を行い、超解像符号化映像の第1映像信号を出力するニューラルネットワーク映像符号化部と、入力映像信号と超解像符号化映像の第1映像信号とを入力し、第3ニューラルネットワークを用いて、入力された映像信号が入力映像の映像信号であるのか又は超解像符号化映像の第1映像信号であるのかを弁別する弁別部と、弁別部の弁別結果に基づき入力映像の映像信号と超解像符号化映像の第1映像信号との誤差判定を行い、第1ニューラルネットワークで用いられるパラメータを最適化する誤差判定部と、を有する。
【選択図】図1
【特許請求の範囲】
【請求項1】
入力映像の映像信号に対して、第1ニューラルネットワークを用いて、解像度が異なる超解像映像の第1映像信号を出力するプリ処理部と、
前記超解像映像の第1映像信号に対して、第2ニューラルネットワークを用いて符号化処理を行い、超解像符号化映像の第1映像信号を出力するニューラルネットワーク映像符号化部と、
前記入力映像の映像信号と前記超解像符号化映像の第1映像信号とを入力し、第3ニューラルネットワークを用いて、入力された映像信号が前記入力映像の映像信号であるのか又は前記超解像符号化映像の第1映像信号であるのかを弁別する弁別部と、
前記弁別部の弁別結果に基づき前記入力映像の映像信号と前記超解像符号化映像の第1映像信号との誤差判定を行い、少なくとも前記第1ニューラルネットワークで用いられるパラメータを最適化する誤差判定部と、を有する
映像符号化装置。
【請求項2】
前記プリ処理部は、前記弁別部が前記入力映像の映像信号であるのか又は前記超解像符号化映像の第1映像信号であるのかを弁別することができない前記超解像映像の第1映像信号を出力するように前記第1ニューラルネットワークを用いた学習を行い、
前記弁別部は、前記入力映像の映像信号と前記超解像符号化映像の第1映像信号とを弁別できるように前記第3ニューラルネットワークを用いた学習を行う
請求項1記載の映像符号化装置。
【請求項3】
前記誤差判定部は、前記入力映像の映像信号と前記超解像符号化映像の第1映像信号との差分を前記弁別部において前記超解像符号化映像の第1映像信号であると弁別する誤差を小さくするように前記第1ニューラルネットワークのパラメータを最適化するとともに、前記弁別部において前記超解像符号化映像の第1映像信号を前記入力映像の映像信号であると弁別する誤差を小さくするように前記第3ニューラルネットワークのパラメータを最適化する
請求項1記載の映像符号化装置。
【請求項4】
映像符号化部を更に有し、
前記プリ処理部は、パラメータが最適化された前記第1ニューラルネットワークを用いて、前記入力映像の映像信号に対して前記超解像映像の第2映像信号を出力し、
前記映像符号化部は、前記超解像映像の第2映像信号に対して符号化処理を行い、前記超解像符号化映像の第2映像信号を出力する
請求項1記載の映像符号化装置。
【請求項5】
入力映像の映像信号に対して、第1ニューラルネットワークを用いて、解像度が異なる超解像映像の第1映像信号を出力し、
前記超解像映像の第1映像信号に対して、第2ニューラルネットワークを用いて符号化処理を行い、超解像符号化映像の第1映像信号を出力し、
前記入力映像の映像信号と前記超解像符号化映像の第1映像信号とを入力し、第3ニューラルネットワークを用いて、入力された映像信号が前記入力映像の映像信号であるのか又は前記超解像符号化映像の第1映像信号であるのかを弁別し、
弁別結果に基づき前記入力映像の映像信号と前記超解像符号化映像の第1映像信号との誤差判定を行い、少なくとも前記第1ニューラルネットワークで用いるパラメータを最適化する
映像符号化方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、映像符号化装置、及び映像符号化方法に関する。
【背景技術】
【0002】
近年、ニューラルネットワークを用いた符号化方法について注目されつつある。
【0003】
例えば、原画像と過去画像との動きベクトルを検出する動き検出処理と、動きベクトルから予測画像を生成する動き補償処理と、原画像と予測画像との差分画像を線形変換(例えば、DCT変換など)する線形変換処理などを、CNN(Convolutional Neural Network)を用いて行う符号化手法がある(例えば、非特許文献1)。このような符号化手法をエンドツーエンド(end-to-end)で最適化させることで、HEVC(High Efficiency Video Coding)などの従来型の符号化方式と同程度の符号化効率を得ることができる。
【0004】
また、ニューラルネットワークを用いた符号化手法と合わせて、符号化前に、プリ処理(preprocessing)を行う符号化手法もある(例えば、非特許文献2及び非特許文献3)。プリ処理を用いた符号化手法に関し、MS-SSIM(Multi-Scale Structural Similarity)又はVMAF(Video Multimethod Assessment Fusion)による主観画質指標を用いると、H.264などの従来型の符号化方式と比較して、符号化効率が向上することが報告されている。
【0005】
更に、敵対的生成ネットワーク(GAN:Generative Adversarial Network)と呼ばれる学習手法もある(例えば、非特許文献4及び非特許文献5)。GANは、生成器(generator)と弁別器(discriminator)とを有する。例えば、生成器では画像を出力し、弁別器ではその成否を判定する。生成器では、弁別器を欺こうと学習し、弁別器ではより正確に判定するように学習する。GANでは、2つのネットワーク(生成器と弁別器)が相反するように学習する。例えば、GANを用いて、低画質の入力映像に対して高画質の出力映像を得ることができる。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】G. Lu, W. Ouyang, D. Xu, X. Zhang, C. Cai and Z. Gao, "DVC: An End-To-End Deep Video Compression Framework," 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019 April 7, pp. 10998-11007.
【非特許文献2】A. Chadha and Y. Andreopoulos, "Deep Perceptual Preprocessing for Video Coding," 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 14847-14856.
【非特許文献3】A. Chadha, R. Anam, I. Fadeev, V. Giotsas, and Y. Andreopoulos, “Escaping The Complexity-Bitrate-Quality Barriers Of Video Encoders Via Deep Perceptual Optimization,” SPIE2020, Optical Engineering + Applications.
【非特許文献4】Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, Sepp Hochreiter: “GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium”, 2017, Advances in Neural Information Processing Systems 30 (NIPS 2017); arXiv:1706.08500.
【非特許文献5】Max Ehrlich, Jon Barker, Namitha Padmanabhan, Larry Davis, Andrew Tao, Bryan Catanzaro, Abhinav Shrivastava: “Leveraging Bitstream Metadata for Fast and Accurate Video Compression Correction”, 2022; arXiv:2202.00011.
【発明の概要】
【発明が解決しようとする課題】
【0007】
本開示は、入力映像に依存しない主観的な画質を向上させることが可能な映像符号化装置、及び映像符号化方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
第1の態様に係る映像符号化装置は、入力映像の映像信号に対して、第1ニューラルネットワークを用いて、解像度が異なる超解像映像の第1映像信号を出力するプリ処理部を有する。また、前記映像符号化装置は、超解像映像の第1映像信号に対して、第2ニューラルネットワークを用いて符号化処理を行い、超解像符号化映像の第1映像信号を出力するニューラルネットワーク映像符号化部を有する。更に、前記映像符号化装置は、入力映像の映像信号と超解像符号化映像の第1映像信号とを入力し、第3ニューラルネットワークを用いて、入力された映像信号が入力映像の映像信号であるのか又は超解像符号化映像の第1映像信号であるのかを弁別する弁別部を有する。更に、前記映像符号化装置は、弁別部の弁別結果に基づき入力映像の映像信号と超解像符号化映像の第1映像信号との誤差判定を行い、少なくとも第1ニューラルネットワークで用いられるパラメータを最適化する誤差判定部を有する。
【0009】
第2の態様に係る映像符号化方法は、入力映像の映像信号に対して、第1ニューラルネットワークを用いて、解像度が異なる超解像映像の第1映像信号を出力する。また、前記映像符号化方法は、超解像映像の第1映像信号に対して、第2ニューラルネットワークを用いて符号化処理を行い、超解像符号化映像の第1映像信号を出力する。更に、前記映像符号化方法は、入力映像の映像信号と超解像符号化映像の第1映像信号とを入力し、第3ニューラルネットワークを用いて、入力された映像信号が入力映像の映像信号であるのか又は超解像符号化映像の第1映像信号であるのかを弁別する。更に、前記映像符号化方法は、弁別結果に基づき入力映像の映像信号と超解像符号化映像の第1映像信号との誤差判定を行い、少なくとも第1ニューラルネットワークで用いるパラメータを最適化する。
【発明の効果】
【0010】
本開示によれば、入力映像に依存しない主観画質を向上させることが可能な映像符号化装置、及び映像符号化方法を提供できる。
【図面の簡単な説明】
【0011】
図1図1は、第1実施形態に係る映像符号化装置の構成例を表す図である。
図2図2は、第1実施形態に係る映像符号化装置の構成例を表す図である。
図3図3は、第1実施形態に係る学習時のピクチャ参照構造の例を表す図である。
図4図4は、第1実施形態に係る動作例を表す図である。
図5図5は、第1実施形態に係る動作例を表す図である。
【発明を実施するための形態】
【0012】
[第1実施形態]
【0013】
(ニューラルネットワークを用いた符号化手法)
上述したように、ニューラルネットワークを用いた符号化手法が提案されている。ここで、非特許文献1による符号化手法について説明する。
【0014】
非特許文献1では、ニューラルネットワークを用いた符号化手法を、DVC(Deep Video Compression)と呼んでいる。DVCでは、以下の手順により符号化処理が行われる。
【0015】
ステップN1(動き検出):現フレームと、復号後の過去フレームとを入力とし、CNN(オプティカルフローネットワーク)を用いて、オプティカルフロー値(すなわち、動き情報)を得る。そして、動き情報に対して、CNN(MVエンコーダネットワーク及びMVデコーダネットワーク)などを用いて、圧縮及び復号し、量子化された動き情報を得る。
【0016】
ステップN2(動き補償):量子化された動き情報と過去フレームとを入力として、CNN(動き補償ネットワーク)を用いて、予測フレームを得る。
【0017】
ステップN3-N4(変換、量子化、及び逆変換):現フレームと予測フレームとの残差フレームを、CNN(残差エンコーダネットワーク)を利用して、出力を得て、当該出力を量子化することで、量子化値を得る。当該量子化値から、CNN(残差デコーダネットワーク)を利用して、再構成された残差フレームを得る。
【0018】
ステップN5(エントロピーコーディング):ステップN1で得た量子化された動き情報と、ステップN3-N4で得た量子化値とを入力として、CNN(ビットレート推定ネットワーク)を利用して、符号化ビットを得る。
【0019】
ステップN6(フレーム再構成):ステップN3-N4で得た再構成後の残差フレームに、ステップN2で得た予測フレームを加算することで、再構成されたフレーム(復号後のフレーム)を得る。
【0020】
以上が、DVCによる符号化手順である。DVCでは、学習時において、現フレームと、ステップN6で得た復号後のフレームとの間の歪みdと、エンコードに使用されるビット数(ステップN6の入力)Rとを利用して、損失関数(λd+R)が用いられる。DVCでは、損失関数(λd+R)を用いて、ビット数Rを最小化するとともに歪みdを最小化するパラメータを求める(又は最適化問題を解く)ことで、エンドツーエンドで最適なニューラルネットワークによる符号化モデルを構築することが可能となる。
【0021】
(プリ処理)
また、上述したように、符号化が行われる前にプリ処理を行う符号化手法(例えば、非特許文献2)も提案されている。以下では、非特許文献2で説明されているプリ処理について説明する。
【0022】
非特許文献2では、プリ処理のことを、DPP(Deep Perceptual Preprocessing)と呼んでいる。DPPにおいて、入力画像のフレームをプリ処理後のフレームに画素単位でマッピングする等により、例えば、入力映像に対して解像度の異なるプリ処理後の出力映像を得ることが可能となる。DPPを用いた符号化手法では、学習時において、符号化処理ブロックの主要コンポーネントを仮想化して、DPPを学習させ、損失関数を用いて、DPPを最適化させる。そして、推論時において、最適化されたDPPを用いて、入力映像に対してプリ処理を行い、プリ処理後の画像に対して、既存のコーデックを用いた符号化処理を行わせる。
【0023】
DPPを用いた符号化手法では、任意のコーデックで任意のビットレートで符号化処理が行われた場合でも、損失関数により、知覚と歪みとのバランスを取るように最適化されたDPPを得ることができる。そのため、DPPを用いた符号化手法で符号化された画像を復号しても、DPPが行われない場合と比較して、視覚的品質を向上させることができる。DPPを用いた符号化手法に対して、S-SSIM(Multi-Scale Structural Similarity)又はVMAF(Video Multimethod Assessment Fusion)など、人間の主観的な画質評価を含む評価指標を用いて評価した結果、DPPを用いない符号化手法と比較して、主観的な画質を向上させることができる。
【0024】
(GAN)
一方、近年、GANと呼ばれる学習手法も提案されている(例えば、非特許文献4及び非特許文献5)。上述したように、GANには、生成器(generator)と弁別器(discriminator)とを有する。生成器も弁別器も、例えば、ニューラルネットワークで構成される。
【0025】
生成器は、確率変数から合成データを生成する。一方、弁別器は、合成データと実データと弁別(又は識別)する。生成器の目標は、弁別器が実データと合成データとを識別できないような合成データを生成することである。従って、弁別器では合成データと実データとの識別誤差を最小にしようと学習するのに対して、生成器では合成データと実データとの誤差を最大にしようと学習する。
【0026】
このように、GANでは、生成器では、弁別器における識別を「騙す」ような「偽物」を生成するように学習するのに対して、弁別器では、生成器で生成された「偽物」を実データと弁別できるように学習する。生成器と弁別器とにおいて互いに「敵対」しながら学習するため、敵対的生成ネットワークと称されている。
【0027】
例えば、GANを利用して、ランダムノイズを含むような低画質の画像から高画質の画像を生成するネットワークを構築することも可能である。また、非特許文献5に示すように、GANを利用して、圧縮された映像フレームから非圧縮映像フレームに可能な限り近い復元ネットワークを構築することも可能である。
【0028】
(GANの評価指標)
画質を評価する基準の1つに主観画質がある。主観画質とは、例えば、人間が実際に映像を見たときの画質のことである。MS-SSIM又はVMAFは、例えば、主観画質を反映した画質評価基準である。
【0029】
一方、GANを利用したネットワークにおいては、ランダムノイズを含む低画質の映像が入力され、高画質の映像を出力するケースがある。このようなケースにおいて、GANにより生成された高画質の映像の画質を評価する場合、基準として、入力映像である低画質の映像を用いることは、必ずしも、現実に即した画質評価とは言えない。従って、GANにより生成された高画質の映像の画質を評価する場合、入力映像に依存しない評価基準が用いられるべきである。
【0030】
そこで、非特許文献4では、フレシェ開始距離(FID:Frechet inception distance)を用いた画質評価が提案されている。FIDは、生成された映像(例えば高画質の映像)と、生成器において学習時に用いられた映像とを比較して、2つの映像の分布間の距離を測定したものとなっている。
【0031】
入力映像に依存しない主観画質評価として、FIDを用いることで、GANから出力される映像の主観画質を評価できることが知られている。
【0032】
(第1実施形態に係る映像符号化装置)
第1実施形態に係る映像符号化装置では、映像符号化前にプリ処理が行われる。プリ処理によって、映像符号化後の映像信号を復号した場合、プリ処理がない場合と比較して、MS-SSIM又はVMAFを評価指標とした主観画質が向上することが知られている(例えば非特許文献2)。
【0033】
しかし、MS-SSIM又はVMAFは、入力映像に依存した画質評価である。従って、映像符号化前にプリ処理を用いた場合、入力映像に依存した主観画質は、プリ処理を用いない場合と比較して向上することはあっても、入力映像に依存しない主観画質を評価基準にすると、当該主観画質が向上するとは必ずしも言えない。
【0034】
そこで、第1実施形態では、映像符号化前にプリ処理が用いられた場合であっても、入力映像に依存しない主観画質を向上させることを目的としている。
【0035】
以下、図面を参照して第1実施形態について説明する。なお、以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。
【0036】
(映像符号化装置の構成例)
図1及び図2は、映像符号化装置100の構成例を表す図である。
【0037】
第1実施形態に係る映像符号化装置100は、プリ処理部110を有する。プリ処理部110は、ニューラルネットワークを用いて構成することができる。すなわち、学習時において、プリ処理部110を最適化させ、推論時において、最適化されたプリ処理部110を用いて、プリ処理後の入力映像に対して符号化処理を行わせる。そこで、映像符号化装置100について、学習時における映像符号化装置100と、推論時における映像符号化装置100とを分けて説明する。
【0038】
(学習時における映像符号化装置の構成例)
図1は、学習時における映像符号化装置100の構成例を表す。
【0039】
図1に示すように、学習時における映像符号化装置100は、プリ処理部110と、ニューラルネットワーク映像符号化部120と、弁別部130と、誤差判定部140とを有する。
【0040】
プリ処理部110は、入力映像の映像信号を入力し、プリ処理後の映像の映像信号を出力する。具体的には、プリ処理部110は、入力映像の映像信号に対して、第1ニューラルネットワークを用いて、解像度が異なる超解像映像の映像信号(例えば超解像映像の第1映像信号)を出力する。プリ処理部110から出力される超解像映像は、入力映像に対して解像度が高くてもよいし、解像度が低くてもよい。例えば、プリ処理部110は、4枚の映像フレームを入力し、4枚の映像フレームを出力する。第1ニューラルネットワークのモデルは、4枚の映像フレームを入力し、4枚の映像フレームを出力するニューラルネットワークであれば任意のモデルが用いられてもよいが、一例として、以下の非特許文献6に記載されたBasicVSR(Video super-resolution)を用いるものとして以下説明する。BasicVSRは、画素数を拡大させる超解像ニューラルネットワークである。BasicVSRは、ニューラルネットワークモデル内の最終段の処理を調整することで、任意の解像度の出力を得ることができる。
【0041】
・非特許文献6 Kelvin C. K. Chan, Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy: “BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond”, 2020; arXiv:2012.02181.
ニューラルネットワーク映像符号化部120は、プリ処理後の超解像映像の映像信号に対して、第2ニューラルネットワークを用いて符号化処理を行い、符号化された超解像映像の映像信号を出力する。符号化された超解像映像の映像信号を、以下では、超解像符号化映像の映像信号(例えば超解像符号化映像の第1映像信号)と称する場合がある。符号化処理は、既存の符号化方式が用いられればよいが、一例として、非特許文献1によるDVCが用いられるものとして以下説明する。第2ニューラルネットワークのモデルは、既存の映像符号化処理をニューラルネットワークにより処理を行うモデルであればよく、DVC以外のモデルが用いられてもよい。例えば、ニューラルネットワーク映像符号化部120は、4枚の映像フレームに対して、1枚の映像フレームをIフレームとして符号化することなく、残りの3枚の映像フレームを逐次的に符号化してPフレームを生成するモデルが用いられる。図3は、このような学習時におけるピクチャ参照構造の例を表している。
【0042】
なお、ニューラルネットワーク映像符号化部120は、プリ処理部110及び弁別部130と同時に学習を行ってもよいが、事前学習済みのモデルを用いることで、誤差判定部140における最適化の対象からニューラルネットワーク映像符号化部120が除かれてもよい。
【0043】
弁別部130は、入力映像の映像信号と超解像符号化映像の映像信号とを入力し、第3ニューラルネットワークを用いて、弁別部130に入力された映像信号が入力映像の映像信号であるのか又は超解像符号化映像の映像信号であるのかを弁別する。弁別部130は、弁別結果として、弁別部130に入力された映像信号が入力映像の映像信号であるのか又は超解像符号化映像の映像信号であるのかを表す確率を出力する。第3ニューラルネットワークのモデルは、入力が、入力映像の映像信号と超解像符号化映像の映像信号とであり、弁別部130に入力された映像の映像信号が、入力映像の映像信号であるのか、超解像符号化映像の映像信号であるのかを表す確率を出力するのであれば、任意のモデルが用いられてもよい。このようなモデルの一例として、以下では、非特許文献4に示されたDCGAN(Deep Convolutional GAN)が用いられるものとして説明する。DCGANは、生成器のネットワークモデルと弁別器のネットワークモデルとにおいて、畳み込みニューラルネットワークを用いたモデルのことである。DCGANでは、プーリング層を用いることなく畳み込みニューラルネットワークを用いてサブサンプリングしており、通常のGANよりも鮮明な画像を生成できるとされている。
【0044】
第1実施形態では、図1に示す映像符号化装置において、プリ処理部110をGANの生成器(generator)とし、弁別部130をGANの弁別器(discriminator)としている。すなわち、プリ処理部110では、弁別部130において、入力映像と超解像符号化映像とを弁別できないような超解像映像を出力するように第1ニューラルネットワークを用いた学習が行われる。一方、弁別部130では、入力映像の映像信号と、超解像符号化映像の映像信号とを弁別できるように第3ニューラルネットワークを用いた学習が行われる。
【0045】
誤差判定部140は、弁別部130の弁別結果に基づき入力映像の映像信号と超解像符号化映像の映像信号との誤差判定を行う。そして、誤差判定部140は、少なくとも、プリ処理部110における第1ニューラルネットワークで用いられるパラメータを最適化する。誤差判定には損失関数が用いられる。損失関数は任意のものが用いられてもよいが、第1実施形態では、以下の損失関数が用いられる。
【0046】
【数1】
【0047】
【数2】
【0048】
ここで、Lはプリ処理部110の損失関数を表し、Lは弁別部130の損失関数を表す。また、Iinputは入力映像、Icodedは超解像符号化映像、Dは弁別部130、λは正の定数を夫々表す。なお、弁別部130の出力Dは、小さいほど、弁別部130が超解像符号化映像らしいと判別したことを表し、大きいほど、弁別部130が入力映像らしいと判別したことを表す。
【0049】
数1は、入力映像の映像信号と超解像符号化映像の映像信号との差分と、弁別部130において超解像符号化映像が入力映像の映像信号であると弁別する誤差(又は損失)との和を表している。また、数2は、弁別部130において超解像符号化映像の映像信号を入力映像の映像信号であると弁別する誤差(又は損失)と、弁別部130において入力映像の映像信号を超解像符号化映像の映像信号であると弁別する誤差(又は損失)との和を表している。
【0050】
誤差判定部140は、数1による誤差Lと数2による誤差Lとが最小となるように、誤差伝搬法等を用いて、プリ処理部110と、ニューラルネットワーク映像符号化部120と、弁別部130とで各々用いられるニューラルネットワークのパラメータを最適化する。パラメータを最適化する最適化アルゴリズムは、任意の最適化アルゴリズムが用いられてもよいが、第1実施形態では、RMSProp(例えば、非特許文献5)が用いられるものとして説明する。RMSPropは、例えば、学習率を調整することで、損失関数での誤差が最小となるパラメータに辿り着くまでの振幅を改善するようにした最適化アルゴリズムである。
【0051】
2つの誤差L及びLが最小となるように各ニューラルネットワークのパラメータが最適化されることで、弁別部130では、入力映像の映像信号と超符号化映像の映像信号とを見分けられるようになるとともに、プリ処理部110では、ニューラルネットワーク映像符号化部120の出力する超解像符号化映像が入力映像らしくなるような超解像映像の映像信号を出力する学習が可能となる。
【0052】
なお、誤差判定部140では、上述したように、プリ処理部110と、ニューラルネットワーク映像符号化部120と、弁別部130とで各々用いられるニューラルネットワークのパラメータを最適化してもよいし、一部のニューラルネットワークのパラメータを固定にして、他のニューラルネットワークのパラメータを最適化してもよい。ただし、誤差判定部140は、少なくとも、プリ処理部110における第1ニューラルネットワークで用いられるパラメータを最適化する。
【0053】
映像符号化装置100では、誤差判定部140によりパラメータが最適化された第1ニューラルネットワークを用いて、プリ処理部110において、推論が行われる。
【0054】
(推論時における映像符号化装置の構成例)
図2は、推論時における映像符号化装置100の構成例を表す図である。
【0055】
図2に示すように、推論時における映像符号化装置100は、プリ処理部110と映像符号化部150とを有する。
【0056】
プリ処理部110は、学習時においてパラメータが最適化された第1ニューラルネットワークを用いて、入力映像の映像信号に対して超解像映像の映像信号(例えば超解像映像の第2映像信号)を出力(又は推論)する。推論時に用いるピクチャ参照構造は任意の構造を用いてもよいが、第1実施形態では、VVC(Versatile Video Coding)の参照ソフトウェアであるVTM(VVC Test Model)で用いられるLDP(Low-delay B)を用いるものとして説明する。LDPは、インタラクティブなリアルタイム通信を可能にするために設計された符号化条件の1つであり、符号化条件にBピクチャが使用されている。推論時にはLDPのピクチャ参照構造に従って入力フレーム及び出力フレームを決定することが望ましいが、映像符号化装置100で用いるメモリ容量などを考慮して、任意のフレーム数を入力及び出力に用いてもよい。第1実施形態では、入力には2枚の映像フレームを用い、出力にも2枚の映像フレームを用いて推論が行われるものとして説明する。プリ処理部110では、逐次的に推論した映像フレームを結合して、超解像映像の映像信号を出力する。
【0057】
映像符号化部150は、超解像映像の映像信号に対して符号化処理を行い、超解像符号化映像の映像信号(例えば、超解像符号化映像の第2映像信号)を出力する。符号化方式は任意の方式を用いてもよいが、第1実施形態では、VVCを用いる。
【0058】
(第1実施形態に係る動作例)
次に、第1実施形態に係る動作例について説明する。
【0059】
図4は、第1実施形態に係る学習時の動作例を表す図である。
【0060】
図4に示すように、ステップS10において、映像符号化装置100は処理を開始する。
【0061】
ステップS11において、プリ処理部110は、入力映像の映像信号を入力し、第1ニューラルネットワークを用いてプリ処理を行い、超解像映像の映像信号を出力する。
【0062】
ステップS12において、ニューラルネットワーク映像符号化部120は、超解像映像の映像信号を入力し、第2ニューラルネットワークを用いて当該映像信号に対して符号化処理を行い、超解像符号化映像の映像信号を出力する。
【0063】
ステップS13において、弁別部130は、入力映像の映像信号と超解像符号化映像の映像信号とを入力し、第3ニューラルネットワークを用いて、入力された映像信号が入力映像の映像信号であるのか又は超解像符号化映像の映像信号であるのかを弁別する。
【0064】
ステップS14において、誤差判定部140は、弁別部130の弁別結果に基づいて、入力映像の映像信号と超解像符号化映像の映像信号との誤差判定を行う。そして、誤差判定部140は、少なくとも、プリ処理部110における第1ニューラルネットワークで用いられるパラメータを最適化する。誤差判定部140は、例えば、数1及び数2で示された損失関数を用いて、損失(又は誤差)が最小となるように当該パラメータを最適化する。
【0065】
そして、ステップS15において、映像符号化装置100は、一連の処理を終了する。
【0066】
図5は、第1実施形態に係る推論時の動作例を表す図である。
【0067】
図5に示すように、ステップ210において、映像符号化装置100は処理を開始する。
【0068】
ステップS21において、プリ処理部110は、入力映像の映像信号を入力し、学習時においてパラメータが最適化された第1ニューラルネットワークを用いて、超解像映像の映像信号を出力する。
【0069】
ステップS22において、映像符号化部150は、超解像映像の映像信号に対して、符号化処理を行い、超解像符号化映像の映像信号を出力する。
【0070】
以上説明したように、第1実施形態に係る映像符号化装置100では、プリ処理部110と弁別部130とにより、GANの学習方法を用いている。GANによる学習方法を用いると、FIDなど、入力映像に依存しない主観画質指標を用いると、その画質が向上することが知られている。従って、第1実施形態に係る映像符号化装置100は、映像符号化前にプリ処理が行われる場合であっても、GANの学習方法を用いているため、入力映像に依存しない画質評価を用いると、その画質を向上させることができる。よって、映像符号化装置100は、入力映像に依存しない主観画質を向上させることができる。
【0071】
(第1実施形態の他の例)
第1実施形態では、学習時に用いる映像符号化装置100と推論時に用いる映像符号化装置100が同じ装置である例について説明したが、これに限定されない。例えば、学習時に用いる装置は、推論時に用いる映像符号化装置100とは異なる装置であってもよい。例えば、学習時に用いる装置は、GANを利用してプリ処理部110を学習するために用いる装置であってもよい。このような装置としては、例えば、プリ処理装置であってもよい。すなわち、図1に示す映像符号化装置100に代えて、プリ処理装置であってもよい。プリ処理装置は、プリ処理部1120と、ニューラルネットワーク映像符号化部120と、弁別部130と、誤差判定部140とを有する。
【0072】
また、第1実施形態で説明したプリ処理部110は、超解像映像の映像信号を出力すればよく、そのため、プリ処理部110で行われるプリ処理は、アップスケーリング又はダウンスケーリングを含めた変換処理であってもよい。学習時において、プリ処理部110においてアップスケーリングによる変換処理が行われる場合、ニューラルネットワーク映像符号化部120と誤差判定部140との間に、ニューラルネットワーク映像符号化部120からの出力に対してダウンスケーリングを施す変換処理部が設けられてもよい。或いは、学習時において、プリ処理部110においてダウンスケーリングによる変換処理が行われる場合、当該変換処理部により、ニューラルネットワーク映像符号化部120から出力に対してアップスケーリングが施されてもよい。これにより、誤差判定部140に入力される超解像符号化映像は入力映像と同一解像度とすることができる。
【0073】
更に、第1実施形態では、プリ処理部110で用いられる第1ニューラルネットワークと、ニューラルネットワーク映像符号化部120で用いられる第2ニューラルネットワークと、弁別部130で用いられる第3ニューラルネットワークは、CNNを用いたニューラルネットワークの例で説明したがこれに限定されない。例えば、各ニューラルネットワークは、RNN(Recurrent Neural Network)又はDNN(Deep Neural Network)など、他の深層学習によるニューラルネットワークが用いられてもよい。
【0074】
[その他の実施形態]
上述の装置(映像符号化装置100)が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROMなどの記録媒体であってもよい。また、上述の装置(映像符号化装置100)が行う各処理を実行する回路を集積化し、当該装置を半導体集積回路(チップセット、SoC)により構成してもよい。
【0075】
以上、図面を参照して実施形態について詳しく説明したが、具体的な構成は上述のものに限られることはなく、要旨を逸脱しない範囲内において様々な設計変更などをすることが可能である。また、矛盾しない範囲で各動作例など組み合わせることも可能である。
【符号の説明】
【0076】
100 :映像符号化装置 110 :プリ処理部
120 :ニューラルネットワーク映像符号化部
130 :弁別部 140:誤差判定部
図1
図2
図3
図4
図5