IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2024-7635映像処理装置、アップスケーリング方法、及び映像処理システム
<>
  • 特開-映像処理装置、アップスケーリング方法、及び映像処理システム 図1
  • 特開-映像処理装置、アップスケーリング方法、及び映像処理システム 図2
  • 特開-映像処理装置、アップスケーリング方法、及び映像処理システム 図3
  • 特開-映像処理装置、アップスケーリング方法、及び映像処理システム 図4
  • 特開-映像処理装置、アップスケーリング方法、及び映像処理システム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024007635
(43)【公開日】2024-01-19
(54)【発明の名称】映像処理装置、アップスケーリング方法、及び映像処理システム
(51)【国際特許分類】
   H04N 19/85 20140101AFI20240112BHJP
   H04N 19/33 20140101ALI20240112BHJP
   G06N 3/02 20060101ALI20240112BHJP
【FI】
H04N19/85
H04N19/33
G06N3/02
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022108827
(22)【出願日】2022-07-06
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001106
【氏名又は名称】弁理士法人キュリーズ
(72)【発明者】
【氏名】新井 大地
(72)【発明者】
【氏名】岩村 俊輔
(72)【発明者】
【氏名】中島 奈緒
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159LA02
5C159LB15
5C159LB16
5C159MA32
5C159PP04
5C159RC11
5C159TA01
5C159TB04
5C159TC34
5C159TC43
5C159UA02
5C159UA05
(57)【要約】
【課題】符号化効率を向上させるようにした映像処理装置、アップスケーリング方法、及び映像処理システムを提供する。
【解決手段】映像処理装置200は、第1解像度映像の第1映像信号と、第1解像度映像よりも解像度が高い第2解像度映像の第2映像信号とを入力し、第1映像信号と第2映像信号とに対して、ニューラルネットワークを用いてアップスケーリングすることで、第2解像度映像よりも解像度の高い第3解像度映像の第3映像信号を生成し、当該第3映像信号を出力するアップスケーリング部220を有する。
【選択図】図2
【特許請求の範囲】
【請求項1】
第1解像度映像の第1映像信号と、前記第1解像度映像よりも解像度が高い第2解像度映像の第2映像信号とを入力し、前記第1映像信号と前記第2映像信号とに対して、ニューラルネットワークを用いてアップスケーリングすることで、前記第2解像度映像よりも解像度の高い第3解像度映像の第3映像信号を生成し、当該第3映像信号を出力するアップスケーリング部、を有する
映像処理装置。
【請求項2】
前記アップスケーリング部は、
前記ニューラルネットワークのうち第1ニューラルネットワークを用いて、前記第1映像信号をアップスケーリングする第1アップスケーリングモジュールと、前記ニューラルネットワークのうち第2ニューラルネットワークを用いて、アップスケーリングされた前記第1映像信号の特徴量を抽出する第1特徴量抽出モジュールと、
前記第1ニューラルネットワークを用いて、前記第1映像信号の特徴量を利用して前記第2映像信号をアップスケーリングすることで、前記第3映像信号を生成する第2アップスケーリングモジュールと、
を有する
請求項1記載の映像処理装置。
【請求項3】
前記アップスケーリング部は、
前記第2映像信号が、解像度の異なる複数の映像信号を含むとき、前記複数の映像信号のうち解像度が最も高い映像以外の映像の第4映像信号に対して、前記第1ニューラルネットワークを用いてアップスケーリングする第3アップスケーリングモジュールと、前記第2ニューラルネットワークを用いてアップスケーリングされた前記第4映像信号の特徴量を抽出する第3特徴量抽出モジュールと、を更に有し、
前記第2アップスケーリングモジュールは、アップスケーリングされた前記第1映像信号の特徴量とアップスケーリングされた前記第4映像信号の特徴量とを利用して、前記複数の映像信号のうち解像度が最も高い映像の前記映像信号をアップスケーリングする
請求項2記載の映像処理装置。
【請求項4】
前記第1映像信号と前記第2映像信号は、空間スケーラブル復号により復号された映像信号である
請求項1記載の映像処理装置。
【請求項5】
前記第1ニューラルネットワークは、前記第1ニューラルネットワークに含まれる畳み込みレイヤをスキップする残差ブロックを含み、
前記第2ニューラルネットワークは、前記第2ニューラルネットワークに含まれる畳み込みレイヤをスキップする残差ブロックを含む
請求項2記載の映像処理装置。
【請求項6】
第1解像度映像の第1映像信号と、前記第1解像度映像よりも解像度が高い第2解像度映像の第2映像信号とを入力し、
前記第1映像信号と前記第2映像信号とに対して、ニューラルネットワークを用いてアップスケーリングすることで、前記第2解像度映像よりも解像度の高い第3解像度映像の第3映像信号を生成し、
当該第3映像信号を出力する、
アップスケーリング方法。
【請求項7】
映像符号化装置と映像復号装置とを有する映像処理システムにおいて、
前記映像符号化装置は、
第3解像度映像の第3映像信号をダウンスケーリングすることで、第1解像度映像の第1映像信号と、前記第1解像度映像よりも解像度が高い第2解像度映像の第2映像信号とを生成するダウンスケーリング部と、
前記第1映像信号と前記第2映像信号とに対して空間スケーラブル符号化を行い、符号化された前記第1映像信号と前記第2映像信号とを出力する映像符号化部と、を有し、
前記映像復号装置は、
前記符号化された第1映像信号と第2映像信号とを空間スケーラブル復号により、前記第1映像信号と前記第2映像信号とを夫々復号する映像復号部と、
前記第1映像信号と前記第2映像信号とに対して、ニューラルネットワークを用いてアップスケーリングすることで、前記第2解像度映像よりも解像度の高い前記第3解像度映像に関する前記第3映像信号を生成し、当該第3映像信号を出力するアップスケーリング部と、を有する
映像処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像処理装置、アップスケーリング方法、及び映像処理システムに関する。
【背景技術】
【0002】
映像信号の符号化方法として、空間スケーラブル符号化がある。空間スケーラブル符号化は、HEVC(High-Efficiency Video Coding)の拡張規格であるSHVC(Scalable HEVC)又はVVC(Versatile Video Coding)においてサポートされている。
【0003】
空間スケーラブル符号化は、例えば、空間解像度の異なる複数の映像信号を符号化する符号化方法である。空間スケーラブル符号化では、各ピクチャが、元の画像より空間的に低解像度のベースレイヤと、ベースレイヤよりも空間的に高解像度(又は元の画像の空間解像度と同一の解像度)のエンハンスメントレイヤの2階層に階層化される。そして、空間スケーラブル符号化では、ベースレイヤの画像とエンハンスメントレイヤの画像の各映像信号に対して、符号化が行われる。空間スケーラブル符号化では、エンハンスメントレイヤの符号化の際に、ベースレイヤのアップサンプルにより生成された予測ピクチャが参照される。これにより、空間スケーラブル符号化では、予測ピクチャが参照されない場合と比較して、エンハンスメントレイヤの符号化効率を向上させることができる。
【0004】
一方、超解像(SR:Super-resolution)と呼ばれる技術が注目されつつある。超解像は、入力映像の解像度を高めて高解像度の映像に変換する映像処理技術の一つである。超解像に関して、ニューラルネットワークを用いた超解像手法がある(例えば、以下の非特許文献1及び2)。ニューラルネットワークを用いた超解像手法は、バイキュービック法又はランチョス法など、フィルタリングベースの超解像手法よりも、符号化効率が向上することが知られている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Charles Bonnineau, Wassim Hamidouche, Jean-Francois Travers and Olivier Deforges. “Versatile Video Coding and Super-Resolution for Efficient Delivery of 8k Video with 4k Backward-Compatibility”, In ICASSP 2020 (February 17, 2020).
【非特許文献2】Zhen Li, Jinglei Yang, Zheng Liu, Xiaomin Yang, Gwanggil Jeon, and Wei Wu. Feedback network for image superresolution. In CVPR 2019 (June 28, 2019).
【発明の概要】
【発明が解決しようとする課題】
【0006】
そこで、本開示は、符号化効率を向上させるようにした映像処理装置、アップスケーリング方法、及び映像処理システムを提供することを目的としている。
【課題を解決するための手段】
【0007】
第1の態様に係る映像処理装置は、第1解像度映像の第1映像信号と、前記第1解像度映像よりも解像度が高い第2解像度映像の第2映像信号とを入力し、前記第1映像信号と前記第2映像信号とに対して、ニューラルネットワークを用いてアップスケーリングすることで、前記第2解像度映像よりも解像度の高い第3解像度映像の第3映像信号を生成し、当該第3映像信号を出力するアップスケーリング部を有する。
【0008】
第2の態様に係るアップスケーリング方法は、第1解像度映像の第1映像信号と、前記第1解像度映像よりも解像度が高い第2解像度映像の第2映像信号とを入力する。また、前記アップスケーリング方法は、前記第1映像信号と前記第2映像信号とに対して、ニューラルネットワークを用いてアップスケーリングすることで、前記第2解像度映像よりも解像度の高い第3解像度映像の第3映像信号を生成する。更に、前記アップスケーリング方法は、当該第3映像信号を出力する。
【0009】
第3の態様に係る映像処理システムは、映像符号化装置と映像復号装置とを有する映像処理システムである。前記映像符号化装置は、第3解像度映像の第3映像信号をダウンスケーリングすることで、第1解像度映像の第1映像信号と、前記第1解像度映像よりも解像度が高い第2解像度映像の第2映像信号とを生成するダウンスケーリング部を有する。また、前記映像符号化装置は、前記第1映像信号と前記第2映像信号とに対して空間スケーラブル符号化を行い、符号化された前記第1映像信号と前記第2映像信号とを出力する映像符号化部を有する。一方、前記映像復号装置は、前記符号化された第1映像信号と第2映像信号とを空間スケーラブル復号により、前記第1映像信号と前記第2映像信号とを夫々復号する映像復号部を有する。また、前記映像復号装置は、前記第1映像信号と前記第2映像信号とに対して、ニューラルネットワークを用いてアップスケーリングすることで、前記第2解像度映像よりも解像度の高い前記第3解像度映像に関する前記第3映像信号を生成し、当該第3映像信号を出力するアップスケーリング部を有する。
【発明の効果】
【0010】
本開示によれば、符号化効率を向上させるようにした映像処理装置、アップスケーリング方法、及び映像処理システムを提供できる。
【図面の簡単な説明】
【0011】
図1図1は、第1実施形態に係る映像処理システムの構成例を表す図である。
図2図2は、第1実施形態に係るアップスケーリング部の構成例を表す図である。
図3図3(A)から図3(E)は、図2の各構成を説明するための図である。
図4図4は、第1実施形態に係る動作例を表す図である。
図5図5は、第1実施形態の変形例に係るアップスケーリング部の構成例を表す図である。
【発明を実施するための形態】
【0012】
[第1実施形態]
【0013】
(超解像について)
上述したように、超解像とは、例えば、低解像度(LR:Low-resolution)の映像を高解像度(HR:High-resolution)の映像へ変換する処理のことである。
【0014】
例えば、高解像度映像を低解像度映像にダウンスケーリングする場合がある。ダウンスケーリング後の低解像度映像を、伝送路へ伝送させたり、記録媒体へ記録したりすることで、高解像度映像の場合と比較して、少ないデータ量で伝送又は記録が可能となる。
【0015】
しかし、低解像度映像を受信した後、又は低解像度映像を記録媒体から読み出した後、高解像度映像へアップスケーリングしても、正確に高解像度映像を再現できない場合がある。高解像度映像をダウンスケーリングしたことによって失われた情報(特に高周波領域の情報)を正確に再現することができない場合があるからである。
【0016】
そこで、超解像の技術が用いられる場合がある。特に、SRFBN(Super-Resolution with Feedback Network)と呼ばれるニューラルネットを用いた超解像技術は、非特許文献1及び非特許文献2に記載するように、フィルタリングベース手法よりも、アップスケーリング後の映像の符号化効率が向上することが知られている。
【0017】
SRFBNでは、低解像度の映像を入力し、エンドツーエンドで畳み込みニューラルネット(CNN:Convolutional Neural Network)を用いて、高解像度の映像を出力する。その際、SRFBNでは、再構成された高解像度映像と、ダウンスケール前の高解像度映像との間の損失を反復して最小化できるようにフィードバック機構が含まれている。
【0018】
SRFBNを含む非特許文献1及び非特許文献2に記載するニューラルネットワークを用いた超解像技術は、単一の映像を入力することを基本としている。そのため、当該超解像技術では、複数の映像を入力して、ニューラルネットワークを用いてアップスケーリングすることは困難である。よって、当該超解像技術では、単一の映像を入力するだけでは、複数の映像を入力する場合と比較して、画質が向上することはなく、符号化効率(例えば、同一のデータ量でも視覚的画質が向上する否かを示す指標)が向上しない場合がある。
【0019】
ここで、以下のような場合を仮定する。すなわち、空間スケーラブル符号化を用いて符号化された低解像度映像と高解像度映像とを伝送する際に、十分な伝送帯域が用意できない場合がある。そのため、送信側において、高解像度映像に代えて、高解像度映像よりも解像度が低い中間解像度映像を符号化対象として、低解像度映像と中間解像度映像とを空間スケーラブル符号化する。そして、受信側において、空間スケーラブル復号により復号された中間解像度映像に対して、超解像手法を用いることで、高解像度映像を得る。
【0020】
この場合も、非特許文献1及び非特許文献2に記載するニューラルネットワークを用いた超解像技術を用いると、単一の中間解像度映像を入力し、当該中間解像度映像をアップスケーリングすることになる。そのため、この場合も、複数の映像を入力する場合と比較して、符号化効率が向上しない場合がある。
【0021】
そこで、第1実施形態では、符号化効率を向上させることを目的としている。例えば、第1実施形態では、中間解像度映像を空間スケーラブル符号化により符号化して受信側へ送信しても、受信側においてアップスケールした高解像度映像の符号化効率を向上させることを目的としている。
【0022】
以下、図面を参照して実施形態について説明する。なお、以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。
【0023】
(映像処理システムの構成例)
図1は、第1実施形態に係る映像処理システム10の構成例を表す図である。
【0024】
図1に示すように、映像処理システム10は、映像符号化装置100と映像復号装置200とを有する。また、映像符号化装置100は、ダウンスケーリング部110と、映像符号化部120とを有する。
【0025】
ダウンスケーリング部110は、高解像度映像の映像信号(第3解像度映像の第3映像信号)をダウンスケーリングすることで、低解像度映像の映像信号(第1解像度映像の第1映像信号)と、低解像度映像よりも解像度が高い中間解像度映像の映像信号(第2解像度映像の第2映像信号)と、を生成する。
【0026】
ダウンスケーリングの手法は、バイキュービック法又はランチョス法などのフィルタリングベースの手法が用いられてもよい。バイキュービック法は、例えば、4×4個の画素に対して、所定の3次式を用いて重み付けした画素値を処理対象の画素として補間する手法である。また、ランチョス法は、例えば、所定範囲(2×2、3×3など)の画素に対して、sinc関数を用いて重み付けした画素値を処理対象の画素として補間する手法である。フィルタリングベースによるダウンスケーリング手法は、バイキュービック法又はランチョス法以外の任意の手法が用いられてもよい。
【0027】
また、ダウンスケーリングの手法は、ニューラルネットワークを用いた解像度変換手法が用いられてもよい。ニューラルネットワークを用いた解像度変換手法として、TAD(Task-Aware Downscaling)又はIRN(Invertible Rescaling Network)などが用いられてもよい。
【0028】
TADは、非特許文献3(Heewon Kim, Myungsub Choi, Bee Lim, and Kyoung Mu Lee. Task-Aware Image Downscaling. In ECCV, 2018.)に記載されている解像度変換手法である。TADでは、ダウンスケーリングレイヤと、3つの残差ブロック(residual blocks)と、残差接続(residual connection)とを含む。ダウンスケーリングレイヤでは、ピクセルシャッフルレイヤ(pixel shuffle layer)を用いて、解像度を削減する。また、3つの残差ブロックを残差接続によりスキップさせることで、学習精度の劣化問題(degradation)を抑制させるようにしている。TADでは、高解像度の入力映像に対して、ダウンサンプリング後の中間解像度映像の出力映像を得ることができる。
【0029】
また、IRNは、非特許文献4(Mingqing Xiao, Shuxin Zheng, Chang Liu, Yaolong Wang, Di He, Guolin Ke, Jiang Bian, Zhouchen Lin, and Tie-Yan Liu. Invertible image rescaling. In ECCV, 2020 (May 12, 2020).)に記載されている解像度変換手法である。IRNでは、ハール関数と、反転可能なニューラルネットワークブロックとを含む。ハール関数により、高解像度映像が低周波成分と高周波成分とに分解される。反転可能なニューラルネットワークブロックにより、ダウンスケーリングで失われた高周波情報の分布がモデル化されるとともに、低周波成分と高周波成分とから中間解像度の出力映像が得られる。
【0030】
ニューラルネットワークによるダウンスケーリング手法が用いられる場合、ダウンスケーリング部110では、解像度毎に個別のモデルを用いて、低解像度映像と中間解像度映像を生成してもよいし、同一のモデルから複数の解像度の映像を生成するようにしてもよい。
【0031】
ダウンスケーリング部110は、このようなダウンスケーリング手法を用いて、高解像度(例えば、8K映像)の映像信号から、低解像度映像(例えば、2K映像)の映像信号と中間解像度映像(例えば、4K映像)の映像信号とを得る。なお、ダウンスケーリング部110は、中間解像度映像に関し、複数の中間解像度映像(例えば、4K映像と6K映像)の映像信号を出力してもよい。
【0032】
映像符号化部120は、低解像度映像(ベースレイヤ)の映像信号と、中間解像度映像(エンハンスメントレイヤ)の映像信号とに対して、空間スケーラブル符号化を行い、符号化された2つの映像信号を出力する。映像符号化部120は、1つの中間解像度映像(例えば、4K映像)に限らず、複数の中間解像度映像(例えば、4K映像と6K映像)の映像信号をエンハンスメントレイヤとして符号化してもよい。空間スケーラブル符号化は、例えば、SHVC又はVVCなどで用いられている公知の空間スケーラブル符号化が用いられてよい。
【0033】
なお、映像符号化部120では、符号化された、低解像度映像の映像信号と中間解像度映像の映像信号とを多重化して、1つのビットストリームとして、符号化後の2つの映像信号を映像復号装置200へ出力してもよい。
【0034】
映像復号装置200は、映像復号部210と、アップスケーリング部220とを有する。なお、映像復号装置200は、映像処理装置又はアップスケーリング装置であってもよい。
【0035】
映像復号部210は、空間スケーラブル符号化により符号化された、低解像度映像の映像信号と中間解像度映像の映像信号とを、空間スケーラブル復号により、低解像度映像の映像信号と中間解像度映像の映像信号とに夫々復号する。映像復号部210は、映像符号化装置100から出力されたビットストリームを入力し、当該ビットストリームから、符号化された映像信号を抽出してもよい。映像復号部210は、復号後の低解像度映像の映像信号と中間解像度映像の映像信号とを、アップスケーリング部220へ出力するとともに、映像復号装置200内外の他の処理ブロックへ出力する。
【0036】
アップスケーリング部220は、低解像度映像の映像信号(第1解像度映像の第1映像信号)と、低解像度映像の映像信号よりも解像度が高い中間解像度映像の映像信号(第2解像度映像の第2映像信号)とを入力する。そして、アップスケーリング部220は、低解像度映像の映像信号と中間解像度映像の映像信号とに対して、ニューラルネットワークを用いてアップスケーリングすることで、中間解像度映像よりも解像度の高い高解像度映像の映像信号(第3解像度映像の第3映像信号)を生成する。アップスケーリング部220では、中間解像度映像は1つに限らず、複数の中間解像度映像(例えば、4K映像と6K映像)の映像を用いて、高解像度映像の映像信号を生成してもよい。
【0037】
アップスケーリング部220で用いられニューラルネットワークは、複数解像度映像の映像信号を入力することができれば、任意のモデルが用いられてよい。以下では、非特許文献3に記載されたTAU(Task-Aware Upscaling)を複数解像度映像の入力に拡張したモデルを利用して説明する。
【0038】
図2は、第1実施形態に係るアップスケーリング部220の構成例を表す図である。また、図3(A)から図3(E)は、図2で用いられるニューラルネットワークを説明するための図である。
【0039】
図2では、低解像度映像が1つの映像Iであり、中間解像度映像が2つの映像Im1及びIm2の例を表している。例えば、低解像度映像Iが2K映像、中間解像度映像Im1が4K映像、中間解像度映像Im2が6K映像と夫々仮定して以下説明する。
【0040】
図2に示すように、アップスケーリング部220は、低解像度映像Iに対して、第1アップスケーリングモジュール221-1と、第1特徴量抽出モジュール222-1とを有する。また、アップスケーリング部220は、中間解像度映像Im2に対して、第2アップスケーリングモジュール221-2を有する。更に、アップスケーリング部220は、中間解像度映像Im1に対して、第3アップスケーリングモジュール221-3と、第3特徴量抽出モジュール222-3とを有する。
【0041】
第1アップスケーリングモジュール221-1は、ニューラルネットワーク(第1ニューラルネットワーク)を用いて、低解像度映像Iの映像信号(第1映像信号)を、中間解像度映像Im2の映像信号へアップスケーリングする。
【0042】
第1に、第1アップスケーリングモジュール221-1には、2つの畳み込みレイヤの間に3つの残差ブロックを含み、残差ブロックをスキップする残差接続を有する。残差ブロックは、図3(E)に示すように、2つの畳み込みレイヤとReLU関数とを有し、残差ブロックの入力が残差ブロックの出力に加算させる構成を有している。
【0043】
第2に、第1アップスケーリングモジュール221-1には、ピクセルシャッフルレイヤを含む。ピクセルシャッフルレイヤでは、残差接続後の出力に対して畳み込みレイヤで抽出された特徴量に対して、中間解像度映像Im2へのアップスケーリングを行う。
【0044】
ピクセルシャッフルレイヤ(pixel shuffle layer)は、非特許文献5(Wenzhe Shi, Jose Caballero, Ferenc Huszar, Johannes Totz, Andrew P. Aitken, Rob Bishop, Daniel Rueckert and Zehan Wang. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network. In CVPR 2016.)に記載されている。ピクセルシャッフルレイヤを、サブピクセル畳み込み(sub-pixel convolution)又はESPCN(Efficient Sub-Pixel Convolutional Neural Network )と称する場合がある。
【0045】
ピクセルシャッフルレイヤでは、入力映像に対して畳み込みを行って画素数を増加させた後、倍率に応じて画素を再配置することで、アップスケーリングされた映像を出力する。上述したように、サブピクセルの位置に応じて、フィルタの一部を周期的に活性化させることで、畳み込みが行われる。ピクセルシャッフルレイヤでは、畳み込みレイヤにより特徴量を抽出した後、最後にアップスケーリングするようにしており、最初にアップスケーリングする場合と比較して、フィルタサイズを小さくすることができ、メモリ容量などを削減させることが可能となる。
【0046】
第1特徴量抽出モジュール222-1は、アップスケーリングされた低解像度映像Iの映像信号の特徴量を抽出する。第1特徴量抽出モジュール222-1は、畳み込みレイヤと残差ブロックとを含む。第1特徴量抽出モジュール222-1は、このようなニューラルネットワークを用いることで、低解像度映像Iの映像信号に含まれる高周波領域の情報を、低解像度映像Iの映像信号の特徴量として抽出する。第1特徴量抽出モジュール222-1は、抽出した低解像度映像Iの映像信号の特徴量を、第2アップスケーリングモジュール221-2へ出力する。
【0047】
第3アップスケーリングモジュール221-3は、中間解像度映像Im1及びIm2(例えば、4K映像と6K映像)のうち、最も解像度が高い映像Im2(例えば6K映像)以外の映像Im1(例えば4K映像)の映像信号(第4映像信号)に対して、ニューラルネットワーク(第1ニューラルネットワーク)を用いてアップスケーリングする。第3アップスケーリングモジュール221-3に含まれるニューラルネットワークのモデル自体は、第1アップスケーリングモジュール221-1と同一である。第3アップスケーリングモジュール221-3は、中間解像度映像Im1の映像信号を、中間解像度映像Im2の映像信号へアップスケーリングを行う。
【0048】
第3特徴量抽出モジュール222-3は、アップスケーリングされた中間解像度映像Im1の映像信号(第4映像信号)の特徴量を抽出する。第3特徴量抽出モジュール222-3に含まれるニューラルネットワークのモデル自体は、第1特徴量抽出モジュール222-1のモデルと同一である。第3特徴量抽出モジュール222-3は、中間解像度映像Im1の映像信号に含まれる高周波領域の情報を、中間解像度映像Im1の映像信号の特徴量として抽出する。第3特徴量抽出モジュール222-3は、抽出した特徴量を第2アップスケーリングモジュール221-2へ出力する。
【0049】
なお、第1特徴量抽出モジュール222-1が出力する特徴量と、第3特徴量抽出モジュール222-3が出力する特徴量とは、夫々低解像度映像Iと中間解像度映像Im1とをベースにしているため、異なる特徴量となっている。
【0050】
第2アップスケーリングモジュール221-2は、中間解像度映像(例えば、4K映像と6K映像)の映像信号のうち、最も解像度の高い映像(例えば、6K映像)の映像信号をアップスケーリングする。その際、第2アップスケーリングモジュール221-2は、アップスケーリングされた低解像度映像Iの映像信号(第1映像信号)の特徴量と、アップスケーリングされた中間解像度映像Im1の映像信号(第4映像信号)の特徴量とを利用して、アップスケーリングを行う。具体的には、第2アップスケーリングモジュール221-2では、中間解像度映像Im2の映像信号に対する特徴量と、第1特徴量抽出モジュール222-1及び第3特徴量抽出モジュール222-3から出力された2つの特徴量とを加算する。そして、第2アップスケーリングモジュール221-2では、ピクセルシャッフルレイヤを利用して、高解像度映像Iの映像信号(第3映像信号)にアップスケーリングを行う。第2アップスケーリングモジュール221-2は、高解像度映像Iの映像信号を、映像復号装置200内外の処理ブロックへ出力する。
【0051】
(第1実施形態に係る動作例)
図4は、第1実施形態に係る動作例を表す図である。
【0052】
図4に示すように、ステップS10において、映像処理システム10は処理を開始する。
【0053】
ステップS11において、ダウンスケーリング部110は、入力した高解像度映像の映像信号(第3解像度映像の第3映像信号)を、低解像度映像の映像信号(第1解像度映像の第1映像信号)と、中間解像度映像の映像信号(第2解像度映像の第2映像信号)とにダウンスケーリングする。
【0054】
ステップS12において、映像符号化部120は、低解像度映像の映像信号と中間解像度映像の映像信号とを、空間スケーラブル符号化により符号化する。
【0055】
ステップS13において、映像復号部210は、符号化された、低解像度映像の映像信号と中間解像度映像の映像信号とを、空間スケーラブル復号により復号する。
【0056】
ステップS14において、アップスケーリング部220は、復号後の低解像度映像の映像信号と中間解像度映像の映像信号とを、ニューラルネットワークを用いてアップスケーリングを行い、高解像度映像の映像信号を生成する。
【0057】
ステップS15において、映像処理システム10は、一連の処理を終了する。
【0058】
このように、第1実施形態において、アップスケーリング部220では、低解像度映像の映像信号と、中間解像度映像の映像信号とを入力し、少なくとも2つの映像信号に対してニューラルネットワークを用いてアップスケーリングを行っている。この際、アップスケーリング部220では、中間解像度映像のダウンスケーリング及び符号化の過程で失われた高周波領域の情報だけではなく、低解像度映像のダウンスケーリング及び符号化の過程で失われた高周波領域の情報を用いて、中間解像度映像の映像信号をアップスケーリングしている。これにより、例えば、第1実施形態に係るアップスケーリング部220では、単一の中間解像度映像の映像信号をアップスケーリングする場合と比較して、映像品質が良くなることが想定されるため、符号化効率を向上させることが可能となる。
【0059】
(第1実施形態の変形例)
第1実施形態では、中間解像度映像が2つ(4K映像と6K映像の)の例について説明したが、アップスケーリング部220に入力される中間解像度映像の入力数はこれに限定されず、例えば、中間解像度映像の入力数は「1」であってもよい。
【0060】
図5は、中間解像度映像の入力数が「1」の場合のアップスケーリング部220の構成例を表す図である。図5に示すように、アップスケーリング部220は、低解像度映像Iの映像信号に対しては、第1実施形態と同様に、第1アップスケーリングモジュール221-1と、第1特徴量抽出モジュール222-1とを有する。第1アップスケーリングモジュール221-1は、ニューラルネットワーク(第1ニューラルネットワーク)を用いて、低解像度映像Iの映像信号(第1映像信号)を、中間解像度映像Iの映像信号にアップスケーリングする。第1特徴量抽出モジュール222-1は、ニューラルネットワーク(第2ニューラルネットワーク)を用いて、低解像度映像Iの映像信号の特徴量を抽出する。なお、第1アップスケーリングモジュール221-1と第1特徴量抽出モジュール222-1とに含まれるニューラルネットワークモデル自体は、第1実施形態と同様である。
【0061】
また、アップスケーリング部220は、中間解像度映像Iの映像信号に対しては、第2アップスケーリングモジュール221-2を有する。第2アップスケーリングモジュール221-2は、ニューラルネットワーク(第1ニューラルネットワーク)を用いて、低解像度映像Iの映像信号の特徴量を利用して中間解像度映像Iの映像信号をアップスケーリングする。第2アップスケーリングモジュール221-2に含まれるニューラルネットワークモデル自体は、第1実施形態と同様である。
【0062】
なお、アップスケーリング部220に入力される中間解像度映像の入力数は、「1」及び「2」に限らず、「3」以上であってもよい。この場合、中間解像度映像のうち、最も解像度が高い映像以外の(2つ以上の)映像の映像信号に対して、第3アップスケーリングモジュール221-3と第3特徴量抽出モジュール222-3が適用される。第3アップスケーリングモジュール221-3において、当該映像信号が中間解像度映像のうち最も高い解像度へアップスケーリングされる。第3特徴量抽出モジュール222-3において、当該映像信号に含まれる高周波領域の情報が抽出される。そして、第2アップスケーリングモジュール221-2において、低解像度映像の高周波領域の情報と、当該映像信号に含まれる高周波領域の情報と、中間解像度映像のうち最も解像度が高い映像の高周波領域の情報と、を利用して、高解像度映像の映像信号へアップスケーリングを行う。
【0063】
[その他の実施形態]
映像処理システム10は、映像処理装置として、1つの装置として設けられてもよい。この場合、映像符号化装置100が映像符号化部、映像復号装置(又は映像処理装置)200が映像復号部(又は映像処理部)であってもよい。
【0064】
上述の装置(映像符号化装置100と映像復号装置200)が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROMなどの記録媒体であってもよい。また、上述の装置(映像符号化装置100と映像復号装置200)が行う各処理を実行する回路を集積化し、当該装置を半導体集積回路(チップセット、SoC)により構成してもよい。
【0065】
以上、図面を参照して実施形態について詳しく説明したが、具体的な構成は上述のものに限られることはなく、要旨を逸脱しない範囲内において様々な設計変更などをすることが可能である。また、矛盾しない範囲で各動作例など組み合わせることも可能である。
【符号の説明】
【0066】
100 :映像符号化装置 110 :ダウンスケーリング部
120 :映像符号化部 200 :映像復号装置
210 :映像復号部 220 :アップスケーリング部
221-1 :第1アップスケーリングモジュール
222-1 :第1特徴量抽出モジュール
221-2 :第2アップスケーリングモジュール
221-3 :第3アップスケーリングモジュール
222-3 :第3特徴量抽出モジュール
図1
図2
図3
図4
図5