特許7588163 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グァンドン　オッポ　モバイル　テレコミュニケーションズ　コーポレーション　リミテッドの特許一覧

特許7588163ビデオ処理方法、装置、機器、デコーダ、システム及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5(a)
5(b)
5(c)
5(d)
6
7A
7B
8
9A
9B
9C
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-13

(45)【発行日】2024-11-21

(54)【発明の名称】ビデオ処理方法、装置、機器、デコーダ、システム及び記憶媒体

(51)【国際特許分類】

G06T 3/4053 20240101AFI20241114BHJP

H04N 19/70 20140101ALI20241114BHJP

H04N 19/85 20140101ALI20241114BHJP

G06T 3/4046 20240101ALI20241114BHJP

【ＦＩ】

G06T3/4053

H04N19/70

H04N19/85

G06T3/4046

【請求項の数】 13

(21)【出願番号】P 2022581541

(86)(22)【出願日】2020-07-14

(65)【公表番号】

(43)【公表日】2023-09-06

(86)【国際出願番号】 CN2020101968

(87)【国際公開番号】W WO2022011571

(87)【国際公開日】2022-01-20

【審査請求日】2023-06-15

(73)【特許権者】

【識別番号】516227559

【氏名又は名称】オッポ広東移動通信有限公司

【氏名又は名称原語表記】ＧＵＡＮＧＤＯＮＧＯＰＰＯＭＯＢＩＬＥＴＥＬＥＣＯＭＭＵＮＩＣＡＴＩＯＮＳＣＯＲＰ．，ＬＴＤ．

【住所又は居所原語表記】Ｎｏ．１８ＨａｉｂｉｎＲｏａｄ，Ｗｕｓｈａ，Ｃｈａｎｇ’ａｎ，Ｄｏｎｇｇｕａｎ，Ｇｕａｎｇｄｏｎｇ５２３８６０Ｃｈｉｎａ

(74)【代理人】

【識別番号】100120031

【弁理士】

【氏名又は名称】宮嶋学

(74)【代理人】

【識別番号】100107582

【弁理士】

【氏名又は名称】関根毅

(74)【代理人】

【識別番号】100152205

【弁理士】

【氏名又は名称】吉田昌司

(74)【代理人】

【識別番号】100137523

【弁理士】

【氏名又は名称】出口智也

(72)【発明者】

【氏名】ユアン、ホイ

(72)【発明者】

【氏名】フー、ツォンルイ

(72)【発明者】

【氏名】リー、ミン

【審査官】鈴木圭一郎

(56)【参考文献】

【文献】特開２０１９－１６４６１８（ＪＰ，Ａ）

【文献】中国特許出願公開第１１１１６１１５２（ＣＮ，Ａ）

【文献】Yang Zhou et al.，"Video Super-Resolution via Dynamic Local Filter Network"，2018 IEEE Global Conference on Signal and Information Processing (GlobalSIP)，2019年02月21日，インターネット<URL:https://ieeexplore.ieee.org/document/8646501>，［online］

【文献】Xiaoyu XIANG et al.，“Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution”，2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)，2020年06月，DOI: 10.1109/CVPR42600.2020.00343

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ３／４０４６

Ｈ０４Ｎ１９／７０

Ｈ０４Ｎ１９／８５

Ｇ０６Ｔ３／４０５３

(57)【特許請求の範囲】

【請求項1】

ビデオ機器に適用されるビデオ処理方法であって、
第１解像度のビデオ系列を取得することであって、前記ビデオ系列は、少なくとも１つのビデオフレームを含む、ことと、
前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得ることと、を含み、
前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を向上させるために用いられ、
前記第２サブネットワークモデルはさらに、第３サブネットワークモデルを含み、前記ビデオ処理方法は、
前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の初期ビデオ系列を得ることであって、前記初期ビデオ系列は、前記少なくとも１つのビデオフレーム及び少なくとも１つの補間フレームを含む、ことと、
前記第２サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも１つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得ることと、
前記第３サブネットワークモデルによって、前記ターゲットビデオ系列内の補間フレームに対して品質強化処理を行い、ターゲット補間フレームを得ることと、
前記ターゲット補間フレームに基づいて、前記ターゲットビデオ系列を更新することと、を更に含む、
ビデオ処理方法。

【請求項2】

前記ビデオ系列の解像度は、前記ビデオ系列の空間解像度と前記ビデオ系列の時間解像度のうちの少なくとも１つを含む、
請求項１に記載のビデオ処理方法。

【請求項3】

前記第２解像度は、前記第１解像度より高い、
請求項１に記載のビデオ処理方法。

【請求項4】

前記第１サブネットワークモデルは、分岐融合超解像度ネットワークモデルであり、前記第２サブネットワークモデルは、品質強化ネットワークモデルである、
請求項１に記載のビデオ処理方法。

【請求項5】

前記第３サブネットワークモデルは、補間フレーム強化ネットワークモデルである、
請求項１に記載のビデオ処理方法。

【請求項6】

前記第１サブネットワークモデルは、少なくとも１つの分岐モジュール及び１つの融合モジュールを含み、
前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の初期ビデオ系列を得ることは、
前記ビデオ系列に基づいて、少なくとも１つの次元の初期エピポーラ平面画像（ＥＰＩ）画像集合を構築することであって、各次元の初期ＥＰＩ画像集合は、１つの分岐モジュールに対応する、ことと、
前記少なくとも１つの次元の初期ＥＰＩ画像集合を前記少なくとも１つの分岐モジュールに対応的に入力して、少なくとも１つのターゲットＥＰＩ画像集合を得ることと、
前記融合モジュールによって、前記少なくとも１つのターゲットＥＰＩ画像集合に対して融合処理を行い、前記初期ビデオ系列を得ることと、を含み、
前記初期ＥＰＩ画像集合内の各ＥＰＩ画像の解像度は、第１解像度であり、前記ターゲットＥＰＩ画像集合内の各ＥＰＩ画像の解像度は、第２解像度である、
請求項３に記載のビデオ処理方法。

【請求項7】

前記ビデオ系列に基づいて、少なくとも１つの次元の初期ＥＰＩ画像集合を構築することは、
前記ビデオ系列を並べ重ねることによって、立体ビデオ集合を形成することであって、前記立体ビデオ集合の次元は、水平解像度次元、垂直解像度次元、及びフレームレート次元を含む、ことと、
前記立体ビデオ集合の１つの次元に基づいて、前記立体ビデオ集合の前記１つの次元で前記立体ビデオ集合に対して少なくとも一回のスライス操作を行った後、少なくとも１つのＥＰＩ画像を抽出し、前記少なくとも１つのＥＰＩ画像から、前記立体ビデオ集合の前記１つの次元における初期ＥＰＩ画像集合を構成することと、
前記立体ビデオ集合の少なくとも１つの次元に基づいて、前記少なくとも１つの次元の初期ＥＰＩ画像集合を得ることと、を含む、
請求項６に記載のビデオ処理方法。

【請求項8】

第１プロセッサによって実行されるときに、請求項１～７のいずれか一項に記載の方法を実行するコンピュータプログラムを記憶した、コンピュータ記憶媒体。

【請求項9】

普通デコーダと、ビデオ処理装置と、を備えるデコーダであって、
前記普通デコーダは、ビットストリームを解析して、第１解像度のビデオ系列を取得するために用いられ、
前記ビデオ処理装置は、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得るように構成され、
前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を調整するために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を調整するために用いられ、
前記第２サブネットワークモデルはさらに、第３サブネットワークモデルを含み、前記ビデオ処理装置は、
前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の初期ビデオ系列を得ることであって、前記初期ビデオ系列は、前記少なくとも１つのビデオフレーム及び少なくとも１つの補間フレームを含む、ことと、
前記第２サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも１つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得ることと、
前記第３サブネットワークモデルによって、前記ターゲットビデオ系列内の補間フレームに対して品質強化処理を行い、ターゲット補間フレームを得ることと、
前記ターゲット補間フレームに基づいて、前記ターゲットビデオ系列を更新することと、を実行するように更に構成される、
デコーダ。

【請求項10】

前記普通デコーダはさらに、ビットストリームを解析して、第１指示フラグビットを取得するように構成され、前記第１指示フラグビットは、前記第１解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の空間解像度を向上させる必要があることを示すために用いられ、
前記ビデオ処理装置はさらに、前記第１指示フラグビットに基づいて、前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の前記初期ビデオ系列を得るように構成され、前記第２解像度は、前記第１解像度より高い、
請求項９に記載のデコーダ。

【請求項11】

前記普通デコーダはさらに、ビットストリームを解析して、前記第２指示フラグビットを取得するように構成され、前記第２指示フラグビットは、前記第１解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の時間解像度を向上させる必要があることを示すために用いられ、
前記ビデオ処理装置はさらに、前記第２指示フラグビットに基づいて、前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の前記初期ビデオ系列を得るように構成される、
請求項９に記載のデコーダ。

【請求項12】

前記普通デコーダはさらに、ビットストリームを解析して、前記第３指示フラグビットを取得するように構成され、前記第３指示フラグビットは、前記第１解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の画質を向上させる必要があることを示すために用いられ、
前記ビデオ処理装置はさらに、前記第３指示フラグビットに基づいて、前記第２サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも１つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得るように構成される、
請求項９に記載のデコーダ。

【請求項13】

前記普通デコーダはさらに、ビットストリームを解析して、前記超解像度ネットワークモデルのモデルパラメータを取得するように構成され、
前記ビデオ処理装置はさらに、前記モデルパラメータに基づいて、前記超解像度ネットワークモデルを構築するように構成される、
請求項９に記載のデコーダ。

【発明の詳細な説明】

【技術分野】

【0001】

本願の実施例は、ビデオコーデック技術分野に関し、特に、ビデオ処理方法、装置、機器、デコーダ、システム及び記憶媒体に関する。

【背景技術】

【0002】

ビデオ産業チェーンの持続的な発展とコンピュータ技術の持続的な突破に伴い、ビデオを媒体とした情報伝播方式が広く適用されている。ビデオに含まれるデータ量は、通常の文字や画像より比較的に多く、また、イメージング装置の急速な発展に伴い、超高画質ビデオを使用するいくつかのシナリオでは、超高画質ビデオに含まれるデータ量が非常に大きいため、ビデオを保存又は伝送するとき、メモリ容量やネットワーク帯域幅の制限により、ビデオを圧縮する必要がある。しかしながら、ビデオ圧縮後のビデオの画質は、通常、ある程度で低下する。

【0003】

データ量と画質の矛盾を緩和するために、圧縮アルゴリズムの向上と圧縮ビデオに対する後処理は、ビデオ技術研究の重要な方向である。しかしながら、現在の関連技術方案では、アルゴリズムの複雑度が低い技術方案であれば、品質向上効果は明らかではなく、又は品質向上効果が明らかな技術方案であれば、アルゴリズムの複雑度が高すぎる。これは、ビデオ処理と圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決するのに不利である。

【発明の概要】

【0004】

本願実施例は、ビデオの画質及びフレームレートを向上させるだけでなく、コーデック効率も向上させることができるビデオ処理方法、装置、機器、デコーダ、システム及び記憶媒体を提供する。

【0005】

本願実施例の技術方案は、以下のように実現されることができる。

【0006】

第１態様では、本願実施例は、ビデオ機器に適用されるビデオ処理方法を提供し、前記方法は、
第１解像度のビデオ系列を取得することであって、前記ビデオ系列は、少なくとも１つのビデオフレームを含む、ことと、
前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得ることと、を含み、
ここで、前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を向上させるために用いられる。

【0007】

第２態様では、本願実施例は、ビデオ機器に適用されるビデオ処理装置を提供し、前記ビデオ処理装置は、取得ユニットと、処理ユニットと、を備え、
前記取得ユニットは、第１解像度のビデオ系列を取得するように構成され、前記ビデオ系列は、少なくとも１つのビデオフレームを含み、
前記処理ユニットは、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得るように構成され、
ここで、前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を向上させるために用いられる。

【0008】

第３態様では、本願実施例は、メモリと、プロセッサと、を備えるビデオ機器を提供し、
前記メモリは、プロセッサで実行可能なコンピュータプログラムを記憶するために用いられ、
前記プロセッサは、前記コンピュータプログラムが実行されるときに、第１態様に記載の方法を実行するために用いられる。

【0009】

第４態様では、本願実施例は、コンピュータプログラムが記憶されたコンピュータ記憶媒体を提供し、前記コンピュータプログラムが第１プロセッサによって実行されるときに、第１態様に記載の方法を実現する。

【0010】

第５態様では、本願実施例は、普通デコーダと、ビデオ処理装置と、を備えるデコーダを提供し、
前記普通デコーダは、ビットストリームを解析して、第１解像度のビデオ系列を取得するために用いられ、
前記ビデオ処理装置は、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得るように構成され、
ここで、前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を調整するために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を調整するために用いられる。

【0011】

第６態様では、本願実施例は、エンコーダと、デコーダと、を備えるビデオシステムを提供し、前記エンコーダは、前処理装置と、普通エンコーダと、を備え、前記デコーダは、普通デコーダと、ビデオ処理装置と、を備え、
前記前処理装置は、第２解像度の入力ビデオ系列を受信した後、受信した入力ビデオ系列を前処理して、第１解像度のビデオ系列を得るように構成され、
前記普通エンコーダは、前記ビデオ系列に対してビデオ圧縮を行い、ビットストリームを生成し、前記ビットストリームを前記標準デコーダに伝送するように構成され、
前記普通デコーダは、前記ビットストリームを解析して、前記第１解像度のビデオ系列を取得するように構成され、
前記ビデオ処理装置は、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得るように構成され、
ここで、前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を向上させるために用いられる。

【0012】

本願実施例は、ビデオ処理方法、装置、機器、デコーダ、システム及び記憶媒体を提供し、第１解像度のビデオ系列を取得することにより、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得、前記ビデオ系列は、少なくとも１つのビデオフレームを含み、ここで、前記第２解像度は、前記第１解像度より高く、且つ前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度及びフレームレートを向上させるために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果の各フレームの画質を向上させるために用いられる。このように、本願の技術方案では、現在のビデオ圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決できる超解像度ネットワーク設計を採用しており、また、１つのネットワーク（即ち、超解像度ネットワークモデル）を使用してビデオ画像の解像度及びフレームレートを同時に向上させる。したがって、超解像度ネットワークモデルをビデオ圧縮の処理プロセスに適用すると、圧縮ビデオの画質を大幅に向上させることができ、ビデオ画像の解像度及びフレームレートの向上にも大きな効果がある。また、圧縮されたビデオを符号化する前にビデオ系列をダウンサンプリング処理することも可能であるため、符号化対象のビデオデータ量を削減することができ、その後、復号化の後に超解像度ネットワークモデルを採用するときに対応するアップサンプリングを行い、それにより、ビットレートを低下させ、伝送ビットストリームを削減し、コーデック効率を向上させることもできる。

【図面の簡単な説明】

【0013】

【図1】本願実施例によるビデオ処理プロセスのフローチャートである。

【図2】本願実施例による別のビデオ処理プロセスのフローチャートである。

【図3】本願実施例によるビデオ処理方法のフローチャートである。

【図4】本願実施例による超解像度ネットワークモデルの概略構造図である。

【図5】本願実施例によるＥＰＩ画像を抽出するための概略構造図である。

【図6】本願実施例による分岐融合超解像度ネットワークモデルの詳細なネットワークの概略構造図である。

【図7A】本願実施例による分岐モジュールの概略構造図である。

【図7B】本願実施例によるＲｅｓＤＢモジュールの概略構造図である。

【図8】本願実施例による補間フレーム強化ネットワークモデルの詳細なネットワークの概略構造図である。

【図9A】本願実施例によるアテンションメカニズムモジュールの概略構造図である。

【図9B】本願実施例によるチャネルアテンションモジュールの概略構造図である。

【図9C】本願実施例による空間アテンションモジュールの概略構造図である。

【図10】本願実施例によるさらに別のビデオ処理プロセスのフローチャートである。

【図11】本願実施例によるさらに別のビデオ処理プロセスのフローチャートである。

【図12】本願実施例によるビデオ処理装置の概略構造図である。

【図13】本願実施例によるビデオ処理装置のハードウェアの概略構造図である。

【図14】本願実施例によるビデオ機器の概略構造図である。

【図15】本願実施例によるデコーダの概略構造図である。

【図16】本願実施例によるビデオシステムの概略構造図である。

【発明を実施するための形態】

【0014】

本願実施例の特徴及び技術的内容をより詳細に理解するために、以下では、図面を参照して本願実施例の実現を詳細に説明し、添付の図面は、参照用のものに過ぎず、本願実施例を限定することを意図するものではない。

【0015】

社会的ニーズと科学技術の進歩に伴い、マルチメディア情報産業が急速に発展し、ビデオの品質と数に対する要求がますます高くなり、それにより、ビデオデータが急増している。圧縮されていないビデオのデータ量が非常に多いため、保存や伝送ネットワークの制限のためにビデオを高効率的に圧縮することは不可欠である。しかしながら、ビデオ圧縮された後のビデオの画質は、通常、ある程度で低下する。データ量と画質の矛盾を緩和するために、圧縮アルゴリズムの向上と圧縮ビデオに対する後処理は、現在一般的に使われている２つの独立した方案であり、どちらもビデオ技術研究の重要な方向である。

【0016】

図１を参照すると、図１は、本願実施例によるビデオ処理プロセスのフローチャートである。図１に示すように、まず、ビデオデータ収集モジュール１０１によってデータ収集を行い、入力ビデオ系列を得、次に、当該入力ビデオ系列を、ビデオ前処理モジュール１０２によって関連処理を行い、次に、ビデオエンコーダ１０３によって符号化し、ビットストリームを生成し、当該ビットストリームは、チャネル伝送モジュール１０４によってビデオデコーダ１０５に伝送され、ビデオデコーダ１０５によってビットストリームを解析して、ビデオ系列を取得し、当該ビデオシーケンを、ビデオ後処理モジュール１０６によって関連処理を行い、それにより、元の入力ビデオ系列を復元し、ビデオディスプレイプレーヤ１０７でビデオ再生を行う。つまり、図１は、ビデオ処理プロセス及びビデオ圧縮処理方案全体におけるビデオ後処理モジュール１０６の位置を示す。ここで、ビデオ前処理モジュール１０２によってビデオ前処理を行う場合、帯域幅、ビットレートなどの制限により、入力ビデオ系列を調整、例えば、フレームをドロップすることができ、それにより、入力ビデオ系列のフレームレートを低下させることができ、同時に、ビデオ圧縮符号化中に画質が低下することもあり、このとき、ビデオ後処理モジュール１０６は、ビデオ画質を向上させる重要なステップである。

【0017】

図２を参照すると、図２は、本願実施例による別のビデオ処理プロセスのフローチャートである。図２に示すように、当該ビデオ処理プロセスは、低複雑度強化ビデオコーディング（ＬＣＥＶＣ：ＬｏｗＣｏｍｐｌｅｘｉｔｙＥｎｈａｎｃｅｍｅｎｔＶｉｄｅｏＣｏｄｉｎｇ）の適用シナリオに適用される。ここで、当該適用シナリオは、基本的なビデオエンコーダ及びビデオデコーダをすでに有しているが、品質強化のためにより低い複雑度を使用することが望ましく、そのプラットフォームは、ハードウェアプラットフォームである。ＬＣＥＶＣの基本的な考え方は多層であり、まず、基本となるビットストリームがあり、そのビットストリームを標準化された任意のビデオデコーダを採用して復号化し、それにより、基本的な品質を有するビデオを得ることができ、次に、より多くの層を使用することにより、高品質のビットストリームを得ることができる。例えば、Ｌ１層、即ち、残差層のビットストリームを基本的なビットストリームに追加した後、アップサンプリング処理を行うようにしてもよい。次に、Ｌ０層、即ち、より詳細な時間領域予測情報を有する高品質な残差層のビットストリームを追加する。したがって、これらの層を重ね合わせることで、再構築後の高品質なビデオを得ることができる。

【0018】

理解すべきこととして、画質の損失について、現在のビデオ後処理技術は、主に画像強化ベースの後処理アルゴリズムと画像復元ベースの後処理アルゴリズムに分類される。ここで、画像強化ベースの後処理アルゴリズムは、画像の主観的な品質を強化することに重点を置いている。典型的なアルゴリズムは、フィルタによって、圧縮された画像に対してフィルタリング処理を行い、画像の視覚効果を向上させるもので、画像のサンプル値そのものを復元するのではなく、圧縮によって生じた歪みを平滑化することで主に実現される。このようなアルゴリズムは、一般に複雑度は低いものの、向上効果は高くない。画像復元ベースの後処理アルゴリズムは、圧縮によって発生した影響を取り除くことに重点を置いており、事前知識とビデオデコーダ側の観測値に基づいて圧縮劣化モデルを構築し、次に、ターゲット関数を選択し、例えば、最大事後確率、スパース表現などの最適な方法を用いてターゲット関数を解く。このようなアルゴリズムは、一般に複雑度が高いが、向上効果は明らかである。

【0019】

フレームレートの損失について、ビデオ後処理技術は、フレームレートの向上を目的としている。フレームレートの向上は、主にブロックマッチングベースのフレームレートの向上アルゴリズムと非ブロックマッチングベースのフレームレートの向上アルゴリズムに分類される。ここで、非ブロックマッチングベースのフレームレートの向上アルゴリズムは、画像内の物体の動きは考慮せず、隣接する線形補間のみを考慮し、利点としては、演算の複雑度が低いことであるが、ビデオフレームに深刻なジッタとブレ現象が発生する。ブロックマッチングベースのフレームレートの向上アルゴリズムは、物体の動きベクトルを推定することにより、物体の動き軌跡上で補間を行い、ビデオのフレームレートを向上させることができる。このようにして、補間されたビデオフレームの品質は明らかに向上させるが、複雑度も増加する。

【0020】

これに基づき、本願実施例は、ビデオ処理方法を提供し、第１解像度のビデオ系列を取得することにより、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得、前記ビデオ系列は、少なくとも１つのビデオフレームを含み、ここで、前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を向上させるために用いられる。このように、本願の技術方案では、現在のビデオ圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決できる超解像度ネットワーク設計を採用しており、また、同一のネットワーク（即ち、超解像度ネットワークモデル）を使用してビデオ画像の解像度及びフレームレートを同時に向上させる。したがって、超解像度ネットワークモデルをビデオ圧縮の処理プロセスに適用すると、圧縮ビデオの画質を大幅に向上させることができ、ビデオ画像の解像度及びフレームレートの向上にも大きな効果がある。また、圧縮されたビデオを符号化する前にビデオ系列をダウンサンプリング処理することも可能であるため、符号化対象のビデオデータ量を削減することができ、その後、復号化の後に超解像度ネットワークモデルを採用するときに対応するアップサンプリングを行い、それにより、ビットレートを低下させ、伝送ビットストリームを削減し、コーデック効率を向上させることもできる。

【0021】

下記において、図面を参照しながら本願の各実施例について詳細に説明する。

【0022】

本願の一実施例では、図３を参照すると、図３は、本願実施例によるビデオ処理方法のフローチャートである。図３に示すように、当該方法は、ステップＳ３０１～ステップＳ３０２を含み得る。

【0023】

ステップＳ３０１において、第１解像度のビデオ系列を取得し、前記ビデオ系列は、少なくとも１つのビデオフレームを含む。

【0024】

ステップＳ３０２において、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得る。

【0025】

ここで、超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を向上させるために用いられる。

【0026】

説明すべきこととして、前記ビデオ処理方法は、ビデオ処理装置又は当該ビデオ処理装置を集積されたビデオ機器に適用される。第１解像度のビデオ系列を得た後、超解像度ネットワークモデルを利用して解像度を向上させ、第２解像度のターゲットビデオ系列を得ることができる。即ち、超解像度ネットワークモデルによって、低解像度、低フレームレートのビデオ系列を、高解像度、高フレームレートのビデオ系列になるように再構築することができる。

【0027】

さらに説明すべきこととして、前記ビデオ系列の解像度は、前記ビデオ系列の空間解像度と前記ビデオ系列の時間解像度のうちの少なくとも１つを含む。

【0028】

本願実施例では、ビデオ系列の空間解像度は、ビデオ系列の画像解像度とも呼ばれ得、ビデオ系列の時間解像度は、ビデオ系列のフレームレートとも呼ばれ得る。つまり、解像度について、超解像度ネットワークモデルは、ビデオ系列の画像解像度を向上させるためだけでなく、ビデオ系列のフレームレートを向上させるためにも用いられることができ、さらに、ビデオ系列の画像解像度とフレームレートを同時に向上させるためにも用いられることができ、本願実施例はこれに限定されない。

【0029】

具体的には、第１サブネットワークモデルについて、第１サブネットワークモデルがビデオ系列の画像解像度のみを向上させるために用いられる場合、いくつかの実施例では、超解像度ネットワークが前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得ることは、
前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の初期ビデオ系列を得ることであって、ここで、前記第２解像度は、前記第１解像度より高い、ことと、
前記第２サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも１つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得ることと、を含み得る。

【0030】

第１サブネットワークモデルについて、第１サブネットワークモデルがビデオ系列のフレームレートのみを向上させるために用いられる場合、いくつかの実施例では、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得ることは、
前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の初期ビデオ系列を得ることであって、ここで、前記初期ビデオ系列は、前記少なくとも１つのビデオフレーム及び少なくとも１つの補間フレームを含む、ことと、
前記第２サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも１つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得ることと、を含み得る。

【0031】

第１サブネットワークモデルについて、第１サブネットワークモデルがビデオ系列の画像解像度とフレームレートを同時に向上させるために用いられる場合、いくつかの実施例では、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得ることは、
前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の初期ビデオ系列を得ることであって、ここで、前記第２解像度は、前記第１解像度より高く、且つ前記初期ビデオ系列は、前記少なくとも１つのビデオフレーム及び少なくとも１つの補間フレームを含む、ことと、
前記第２サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも１つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得ることと、を含み得る。

【0032】

説明すべきこととして、超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み得る。ここで、第１サブネットワークモデルと第２サブネットワークモデルの役割は異なる。ここで、第１サブネットワークモデルは、分岐融合超解像度ネットワーク（ＢＦＳＲＮｅｔ：ＢｒａｎｃｈＦｕｓｉｏｎＳｕｐｅｒＲｅｓｏｌｕｔｉｏｎＮｅｔ）モデルであり得、主にビデオ系列に対して画像解像度及び／又はフレームレートの向上を行い、第２解像度を第１解像度より高くするために用いられ、また、得られた初期ビデオ系列に対応するフレーム数が第１解像度のビデオ系列に対応するフレーム数より多い、即ち、フレームレートを向上させるために、初期ビデオ系列に少なくとも１つの補間フレームを新たに追加する。第２サブネットワークモデルは、品質強化ネットワーク（ＱＥＮｅｔ：ＱｕａｌｉｔｙＥｎｈａｎｃｅｍｅｎｔＮｅｔ）モデルであり得、主にビデオ系列の少なくとも１フレームに対して品質強化を行うために用いられる。

【0033】

さらに、第１サブネットワークモデルがビデオ系列のフレームレートを向上させるために用いられる場合、初期ビデオ系列には、補間フレームも含まれ得る。補間フレームについて、第２サブネットワークモデルを利用して品質強化処理を行っても、補間フレームの画質がまだ悪い場合、第３サブネットワークモデルによって補間フレームのみに対して品質強化を再度行うこともできる。

【0034】

いくつかの実施例では、前記第２サブネットワークモデルはさらに、第３サブネットワークモデルを含み得、前記ビデオ処理方法は、
前記第３サブネットワークモデルによって、前記ターゲットビデオ系列内の補間フレームに対して品質強化処理を行い、ターゲット補間フレームを得ることと、
前記ターゲット補間フレームに基づいて、前記ターゲットビデオ系列を更新することと、を更に含み得る。

【0035】

ここで、第３サブネットワークモデルは、補間フレーム強化ネットワーク（ＩＦＥＮｅｔ：ＩｎｔｅｒｐｏｌａｔｅＦｒａｍｅＥｎｈａｎｃｅｍｅｎｔＮｅｔ）モデルであり、主にビデオ系列内の、補間のように得られる補間フレームに対して品質強化を更に行うために用いられる。

【0036】

つまり、本願実施例の核心は、ビデオ系列の画像解像度とフレームレート、即ち、空間及び時間超解像度を同時に向上させるために、分岐融合ニューラルネットワークモデル（即ち、超解像度ネットワークモデル）を設計することである。

【0037】

ここで、超解像度ネットワークモデルの全体構造は、図４に示す通りであり得、当該超解像度ネットワークモデルは、第１サブネットワークモデル４０１（例えば、分岐融合超解像度ネットワークモデル）及び第２サブネットワークモデル４０２（例えば、品質強化ネットワークモデル）の２つのサブネットワークモデルで構成され、第２サブネットワークモデル４０２は、普通強化ネットワークモデル４０２１及び補間フレーム強化ネットワークモデル４０２２で構成され得る。ここで、第１サブネットワークモデル４０１は、主に３つの異なる次元（解像度における２つの次元とフレームレートにおける１つの次元を含む）で同時にビデオ系列に対して超解像を行い、加重平均により融合して超解像の出力結果を得ることを実現する。第２サブネットワークモデル４０２は、主に超解像度の出力結果に対して少なくとも１フレームの品質向上を行い、具体的には、普通強化ネットワークモデル４０２１は、超解像度の出力結果に対してフレームごとに対して品質強化を行うことができ、補間フレーム強化ネットワークモデル４０２２は、補間のように得られる補間フレームに対して品質強化を更に行うことができる。

【0038】

第１サブネットワークモデルについて、第１サブネットワークモデルは、超解像機能を実現する核心とし、当該第１サブネットワークモデルは、少なくとも１つの分岐モジュール及び１つの融合モジュールを含み得る。ここで、いくつかの実施例では、前記第１サブネットワークモデルによって、前記ビデオ系列を処理して、第２解像度の初期ビデオ系列を得ることは、
前記ビデオ系列に基づいて、少なくとも１つの次元の初期エピポーラ平面画像ＥＰＩ画像集合を構築することであって、ここで、各次元の初期ＥＰＩ画像集合は、１つの分岐モジュールに対応する、ことと、
前記少なくとも１つの次元の初期ＥＰＩ画像集合を前記少なくとも１つの分岐モジュールに対応的に入力して、少なくとも１つのターゲットＥＰＩ画像集合を得ることと、
前記融合モジュールによって、前記少なくとも１つのターゲットＥＰＩ画像集合に対して融合処理を行い、前記初期ビデオ系列を得ることと、を含み得、
ここで、前記初期ＥＰＩ画像集合内の各ＥＰＩ画像の解像度は、第１解像度であり、前記ターゲットＥＰＩ画像集合内の各ＥＰＩ画像の解像度は、第２解像度である。

【0039】

説明すべきこととして、第１サブネットワークモデルが分岐融合超解像度ネットワークモデルであることを例とすると、分岐融合超解像度ネットワークモデルは、超解像機能を実現する核心であり、３つの分岐を有する１つのネットワークによって、ビデオ系列の異なる次元から解像度の向上を行ってから、融合を行い、最終的な超解像度の出力結果を得ることができる。

【0040】

ここで、この３つの分岐の設計思想は、エピポーラ平面画像（ＥＰＩ：ＥｐｉｐｏｌａｒＰｌａｎｅＩｍａｇｅ）画像の抽出を参考している。いくつかの実施例では、前記ビデオ系列に基づいて、少なくとも１つの次元の初期ＥＰＩ画像集合を構築することは、
前記ビデオ系列を並べ重ねることによって、立体ビデオ集合を形成することであって、ここで、前記立体ビデオ集合の次元は、水平解像度次元、垂直解像度次元、及びフレームレート次元を含む、ことと、
前記立体ビデオ集合の１つの次元に基づいて、前記立体ビデオ集合の前記１つの次元で前記立体ビデオ集合に対して少なくとも一回のスライス操作を行った後、少なくとも１つのＥＰＩ画像を抽出し、前記少なくとも１つのＥＰＩ画像から、前記立体ビデオ集合の前記１つの次元における初期ＥＰＩ画像集合を構成することと、
前記立体ビデオ集合の少なくとも１つの次元に基づいて、前記少なくとも１つの次元の初期ＥＰＩ画像集合を得ることと、を含み得る。

【0041】

つまり、図５を例にすると、図５は、本願実施例によるＥＰＩ画像を抽出するための概略構造図である。図５に示すように、（ａ）は、複数のビデオフレームを含む１つのビデオ系列を示す。一定の順序を有する複数の当該ビデオ系列を並べ重ねることによって、（ｂ）に示されるような、Ｖ（ｘ，ｙ，ｎ）で表される立体ビデオ集合を形成することができ、ここで、各ビデオフレームの画像解像度は、（Ｈ，Ｗ）であり、ビデオフレームの数は、Ｎである。次に、任意の軸の方向に沿って、任意の行をスライス点として選択し、当該立体ビデオ集合に対してスライス操作を行い、即ち、集合内のすべての画像の同じ高さの画素を抽出することによって、一連の線形特性を有する画像、即ち、ＥＰＩ画像を得る。（ｃ）に示すように、ｙ軸の方向に沿って、ｉ番目の行をスライス点として選択してスライス操作を行い、（ｄ）に示すような単一のＥＰＩ画像を得る。このようにして、１つの軸におけるすべての行に対してスライス操作を行うことによって、一連のＥＰＩ画像を得ることができ、それによって、この軸における１つの初期ＥＰＩ画像集合を構成する。ここで、１つの軸は１つの次元を表す。

【0042】

理解可能なこととして、分岐融合超解像度ネットワークモデルの詳細なネットワーク構成は、図６に示す通りであり、当該ネットワークモデルは、ビデオフレームの画像解像度とフレーム補間の効果を同時に実現することができる。図６において、当該ネットワークモデルの全体的なフレームワークは、第１分岐（Ｂ１＿ＳＲＮｅｔで表す）モジュール６０１、第２分岐（Ｂ２＿ＳＲＮｅｔで表す）モジュール６０２、第３分岐（Ｂ３＿ＳＲＮｅｔで表す）モジュール６０３、及び融合（Ｆｕｓｉｏｎで表す）モジュール６０４を含む。ここで、第１分岐モジュール６０１、第２分岐モジュール６０２、及び第３分岐モジュール６０３の３つの分岐モジュールは、立体ビデオ集合内の３つの次元を考慮しており、各分岐モジュールは、立体ビデオ集合内の異なる次元の初期ＥＰＩ画像集合における操作として見なすことができる。また、本願実施例では、３つの分岐モジュールは、３次元畳み込みモジュール内のＣｏｎｖＴｒａｎｓｐｏｓｅ３ｄ層のパラメータのみが異なる以外に、類似したネットワーク構造を採用しており、ここで、ＣｏｎｖＴｒａｎｓｐｏｓｅ３ｄ層は、転置３Ｄ畳み込み層と呼ばれ得、又は３Ｄ解畳み込み層、３Ｄ逆畳み込み層などとも呼ばれ得る。このようにして、３つの分岐モジュールは、それぞれの超解像が完了された後、融合モジュール６０４に入力される。いくつかの実施例では、前記融合モジュールによって、前記少なくとも１つのターゲットＥＰＩ画像集合に対して融合処理を行い、前記初期ビデオ系列を得ることは、
前記融合モジュールによって、前記少なくとも１つのターゲットＥＰＩ画像集合に対して加重平均処理を行い、前記初期ビデオ系列を得ることを含み得る。

【0043】

つまり、本願実施例では、単純な加重平均方式で融合することを採用することができ、融合の後に分岐融合超解像度ネットワークモデルの最終出力結果を得る。

【0044】

さらに説明すべきこととして、各分岐モジュールについて、いくつかの実施例では、前記分岐モジュールは、アップサンプリングモジュールと、畳み込み計算モジュールとを含み得、前記ビデオ処理方法は、
前記立体ビデオ集合の１つの次元における初期ＥＰＩ画像集合を対象にして、前記アップサンプリングモジュールによって、前記初期ＥＰＩ画像集合に対して解像度を向上させ、第１ＥＰＩ画像集合を得ることと、
前記畳み込み計算モジュールによって、前記第１ＥＰＩ画像集合に対して畳み込み演算を行い、前記立体ビデオ集合の１つの次元におけるターゲットＥＰＩ画像集合を得ることと、を更に含み得る。

【0045】

ここで、畳み込み計算モジュールは、２次元畳み込み（Ｃｏｎｖ２ｄ）モジュール、３次元畳み込み（Ｃｏｎｖ３ｄ）モジュール、及び補正畳み込み（ＲｅｓＤＢ）モジュールを含み得、これらの畳み込みモジュールによって、第１ＥＰＩ画像集合に対して畳み込み演算を行うことにより、前記立体ビデオ集合の１つの次元におけるターゲットＥＰＩ画像集合を得ることができる。

【0046】

具体的には、図７Ａに示すように、図７Ａは、本願実施例による分岐モジュールの概略構造図である。図７Ａにおいて、分岐融合超解像度ネットワークモデルは、まず、アップサンプリングモジュール（即ち、単純なアップサンプリング演算子）によって現在の次元の初期ＥＰＩ画像集合の解像度を向上させる。次に、畳み込み計算モジュールによって処理し、これは、２つのＣｏｎｖ２ｄ層による浅層特徴抽出と一連のＲｅｓＤＢモジュール（即ち、ＲｅｓＤＢ１モジュール、…、ＲｅｓＤＢｄモジュール、…、ＲｅｓＤＢＤモジュールなど）による深層特徴抽出を含み、ここで、各ＲｅｓＤＢモジュール自体は、残差学習方式を使用し、複数のＲｅｓＤＢモジュールの出力は、接続（Ｃｏｎｃａｔ）層によって特徴連結を行い、次に、１×１のＣｏｎｖ２ｄ層を使用して、特徴チャネルの数を削減する。さらに、残差再構築も１つのＣｏｎｖ２ｄ層を使用して、アップサンプリングモジュールをジャンプ式の接続により画像を得、更に、超解像のＥＰＩ画像集合を得る。最後に、ＣｏｎｖＴｒａｎｓｐｏｓｅ３ｄ層の３Ｄ逆畳み込みを使用して立体ビデオ集合の３つの次元解像度を向上させてから、Ｃｏｎｖ３ｄ層を使用して立体ビデオ集合の画像解像度及びフレームレートにおける超解像度再構築を遂行する必要がある。ここで、ＣｏｎｖＴｒａｎｓｐｏｓｅ３ｄ層はさらに、リーク補正付きリニアユニット（ＬｅａｋｙＲｅＬＵ：ＬｅａｋｙＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）関数を含む。

【0047】

また、図７Ｂに示すように、ＲｅｓＤＢモジュールの構成構造は、３つの活性化関数を有するＣｏｎｖ２ｄ層と１つの１＊１のＣｏｎｖ２ｄ層で構成され得る。ここで、各ＲｅｓＤＢモジュール内部はすべて、密集接続を採用しており、これら３つのＣｏｎｖ２ｄ層の出力は、Ｃｏｎｃａｔによって結合され、１＊１のＣｏｎｖ２ｄ層によって次元削減される。また、ＲｅｓＤＢモジュールとＲｅｓＤＢモジュールとの間にはジャンプ式の接続を使用しており、即ち、前のブロック（即ち、ＲｅｓＤＢｄ－１モジュール）の出力と現在のブロック（即ち、ＲｅｓＤＢｄモジュール）の出力とを重ね合わせ、次に、合計値を次のブロック（即ち、ＲｅｓＤＢｄ＋１モジュール）の入力として使用する。

【0048】

注意すべきこととして、活性化関数は、線形整流関数（ＲｅＬＵ：ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）であり得、補正線形ユニットとも呼ばれ、人工ニューラルネットワークでよく用いられる活性化関数であり、通常、ランプ関数とその派生を始めとする非線形関数を指す。また、ＬｅａｋｙＲｅＬＵ関数は、古典的な（及び広く使用されている）ＲｅＬｕ関数の変形である。ＲｅＬＵ関数の入力値が負の場合、出力は常に０であるため、その１次微分も常に０であり、ＲｅＬＵ関数のこの欠点を解決するために、ＲｅＬＵ関数の負の半分の区間に１つのリーク（Ｌｅａｋｙ）値、即ち、ＬｅａｋｙＲｅＬＵ関数を導入する。

【0049】

さらに、第１サブネットワークモデルによって、ビデオ系列の画像解像度及びフレームレートの向上を行った後、ビデオフレームの画質を更に向上させる必要があり、この場合、第２サブネットワークモデル、即ち、品質強化ネットワークモデルが追加される。ここで、品質強化ネットワークモデルは、フレームごとに画質を強化してもよく、フレームの一部の画質を強化してもよい。つまり、品質強化ネットワークモデルは、固定的ではなく、通常、第２サブネットワークモデルは、普通強化ネットワークモデル（即ち、本願実施例に記載のＱＥＮｅｔモデル）を含み、ＱＥＮｅｔモデルは、既存の任意の画像ビデオ品質強化ネットワークモデル、例えば、超解像畳み込みニューラルネットワーク（ＳＲＣＮＮ：Ｓｕｐｅｒ－ＲｅｓｏｌｕｔｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モデル、アーチファクト除去畳み込みニューラルネットワーク（ＡＲＣＮＮ：ＡｒｔｉｆａｃｔｓＲｅｄｕｃｔｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モデル、超解像超深度ネットワーク（ＶＤＳＲ：ＶｅｒｙＤｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒＳｕｐｅｒ－Ｒｅｓｏｌｕｔｉｏｎ）モデル、ビデオ超解像再帰反射ネットワーク（ＲＢＰＮ：ＲｅｃｕｒｒｅｎｔＢａｃｋ－ＰｒｏｊｅｃｔｉｏｎＮｅｔｗｏｒｋｆｏｒＶｉｄｅｏＳｕｐｅｒ－Ｒｅｓｏｌｕｔｉｏｎ）モデル、及び強化可変畳み込みネットワークに基づくビデオ再構築（ＥＤＶＲ：ＶｉｄｅｏＲｅｓｔｏｒａｔｉｏｎｗｉｔｈＥｎｈａｎｃｅｄＤｅｆｏｒｍａｂｌｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）モデルなどを採用することができる。ビデオ処理装置の設計の複雑度の必要性から、効果的で複雑度の低いネットワークを選択することをお勧めし、ここで、本願実施例は、ＡＲＣＮＮモデルを選択することが好適である。

【0050】

しかしながら、ビデオ系列内の一部の物体の動きが大きいため、フレームレートの向上のときに補間された補間フレームは、既存の動き傾向を満たしているものの、品質は良くない。この場合、１つの単純なネットワーク（即ち、第３サブネットワークモデル）によって補間フレームの画質を更に向上させることができる。

【0051】

いくつかの実施例では、前記第３サブネットワークモデルによって、前記ターゲットビデオ系列内の補間フレームに対して品質強化処理を行い、ターゲット補間フレームを得ることは、
処理待ちの補間フレーム及び所定の１つ又は複数のビデオフレームを取得することと、
前記補間フレーム及び前記所定の１つ又は複数のビデオフレームを第３サブネットワークモデルに入力して、前記補間フレームに対応するターゲット補間フレームを得ることと、を含み得る。

【0052】

ここで、前記所定の１つ又は複数のビデオフレームは、前記補間フレームに隣接する１つ又は複数のビデオフレームであり得、即ち、処理待ちの補間フレーム及び所定の１つ又は複数の隣接ビデオフレームを取得し、次に、取得した補間フレーム及び予定の１つ又は複数の隣接ビデオフレームを第３サブネットワークモデルに入力して、前記補間フレームに対応するターゲット補間フレームを得る。

【0053】

より具体的には、前記所定の１つ又は複数のビデオフレームは、隣接する２つのビデオフレーム、即ち、前記補間フレームに隣接する１つ前のビデオフレーム及び次のビデオフレームであり得る。この場合、いくつかの実施例では、前記第３サブネットワークモデルによって、前記ターゲットビデオ系列内の補間フレームに対して品質強化処理を行い、ターゲット補間フレームを得ることは、
前記ターゲットビデオ系列の再生順序に基づいて、処理待ちの補間フレームと、前記補間フレームに隣接する１つ前のビデオフレーム及び次のビデオフレームを取得することと、
前記補間フレーム、前記１つ前のビデオフレーム、及び前記次のビデオフレームを、前記第３サブネットワークモデルに入力して、前記補間フレームに対応するターゲット補間フレームを得ることと、を含み得る。

【0054】

つまり、処理待ちの補間フレームを取得した後、所定の１つ又は複数のビデオフレームを組み合わせてもよく、又は、具体的に１つ又は複数の隣接ビデオフレームを組み合わせてもよく、さらに、具体的に隣接する１つ前のビデオフレームと次のビデオフレームを組み合わせてもよく、次に、第３サブネットワークモデルによって、対応するターゲット補間フレームを得る。本願実施例では、「前と次」という表現について、１つの可能な実施形態は、ビデオ系列に対応する再生順序（ｄｉｓｐｌａｙｉｎｇｏｒｄｅｒ）であり、又は、別の可能な実施形態は、復号化されたビデオに対して、例えば、Ｈ．２６６／多機能ビデオ符号化（ＶＶＣ：ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）デコーダ、Ｈ．２６５／高効率ビデオ符号化（ＨＥＶＣ：ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）デコーダなどの従来のデコーダによって出力される復号化後のビデオ系列の画像順序（即ち、ｏｕｔｐｕｔｏｒｄｅｒ）であっても良い。ここで、ターゲットビデオ系列の再生順序を、「前と次」と定義される順序とすることができるが、本願実施例はこれに限定されない。

【0055】

また、説明すべきこととして、前記第３サブネットワークモデルは、第１畳み込みモジュール、アテンションメカニズムモジュール、第２畳み込みモジュール、及び加算モジュールを含み、前記第１畳み込みモジュールは、活性化関数を含み、前記第２畳み込みモジュールは、活性化関数を含まない。

【0056】

さらに、いくつかの実施例では、前記第１畳み込みモジュールの数は、１つ又は複数であり、前記アテンションメカニズムモジュールの数は、１つ又は複数であり、前記第２畳み込みモジュールの数は、１つであり、前記加算モジュールの数は、１つである。この場合、いくつかの実施例では、前記補間フレーム及び前記所定の１つ又は複数のビデオフレームを第３サブネットワークモデルに入力して、前記補間フレームに対応するターゲット補間フレームを得ることは、
前記第１畳み込みモジュール及び前記アテンションメカニズムモジュールによって、前記補間フレーム及び前記所定の１つ又は複数のビデオフレームに対して特徴抽出を行い、特徴画像を得ることと、
前記第２畳み込みモジュールによって、前記特徴画像に対して畳み込み演算を行い、残差画像を得ることと、
前記加算モジュールによって、前記強化された補間フレームと前記残差画像とを重ね合わせて、前記補間フレームに対応するターゲット補間フレームを得ることと、を含み得る。

【0057】

いくつかの実施例では、前記補間フレーム、前記１つ前のビデオフレーム、及び前記次のビデオフレームを、前記第３サブネットワークモデルに入力して、前記ターゲット補間フレームを得ることは、
前記第１畳み込みモジュール及び前記アテンションメカニズムモジュールによって、前記補間フレーム、前記１つ前のビデオフレーム及び前記次のビデオフレームに対して特徴抽出を行い、特徴画像を得ることと、
前記第２畳み込みモジュールによって、前記特徴画像に対して畳み込み演算を行い、残差画像を得ることと、
前記加算モジュールによって、前記強化された補間フレームと前記残差画像とを重ね合わせて、前記ターゲット補間フレームを得ることと、を含み得る。

【0058】

つまり、第２サブネットワークモデルには、画質を強化するための第３サブネットワークモデルが含まれ得る。ここで、第３サブネットワークモデルが補間フレーム強化ネットワークモデルであることを例とすると、当該ネットワーク構造は、図８に示す通りである。図８において、当該ネットワークモデルの入力は、品質を向上させる必要のある補間フレーム及びその前後の２つのビデオフレーム、合計３フレームの画像である。当該ネットワーク構造は、７つのＣｏｎｖ層で構成され、最初の６つのＣｏｎｖ層は、特徴抽出に用いられ、最後のＣｏｎｖ層は、残差再構築に用いられる。最後のＣｏｎｖ層を除いて、残りの６つのＣｏｎｖ層は、活性化関数（即ち、灰色で塗りつぶされたＲｅＬＵ関数）が追加される。向上させる必要のある補間フレームとネットワーク出力の残差画像を重ね合わせることで、最終的な補間フレームを得ることができる。また、図８のネットワーク構造にはアテンションメカニズムモジュール（ＣＢＡＭ：ＣｏｎｖｏｌｕｔｉｏｎａｌＢｌｏｃｋＡｔｔｅｎｔｉｏｎＭｏｄｕｌｅ）が追加され、当該アテンションメカニズムモジュールにも活性化関数を有し、抽出された特徴をより正確にすることができる。

【0059】

図９Ａに示すように、図９Ａは、アテンションメカニズムモジュールの構造の例を提供する。ここで、アテンションメカニズムモジュールは、チャネルアテンションモジュール（ＣＡ：ＣｈａｎｎｅｌＡｔｔｅｎｔｉｏｎｍｏｄｕｌｅ）９０１及び空間アテンションモジュール（ＳＡ：ＳｐａｔｉａｌＡｔｔｅｎｔｉｏｎｍｏｄｕｌｅ）９０２を含み得る。入力特徴をチャネルアテンションモジュール９０１及び空間アテンションモジュール９０２を順次に経由させた後、抽出された特徴をより正確にすることができる。

【0060】

ここで、チャネルアテンションモジュール９０１は、具体的には、図９Ｂに示す通りであり、特徴のチャネル間関係を利用して、チャネルアテンションマップを生成することを核心思想とする。このステップは、入力特徴（Ｆで表す）に対して、最大プール化（ＭａｘＰｏｏｌ）及び平均プール化（ＡｖｇＰｏｏｌ）をそれぞれ行って、空間情報を集約して、それぞれＦ＿ｍａｘ及びＦ＿ａｖｇで表される２つのＣ次元プーリング特徴画像を得ることと、Ｆ＿ｍａｘ及びＦ＿ａｖｇを１つの隠れ層を含む多層パーセプトロン（ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ，ＭＬＰ）に送り込み、２つの１×１×Ｃのチャネルアテンションマップを得ることと、ＭＬＰによって得られた２つのチャネルアテンションマップに対して、対応する要素を追加及び活性化して、最終的なチャネルアテンションマップ（ＭＣで表す）を得ることと、を含み得る。

【0061】

空間アテンションモジュールは、具体的には図９Ｃに示す通りであり、特徴間の空間関係を利用して、空間アテンションマップを生成することを核心思想とする。このステップは、チャネルアテンションモジュール９０１によって細分化された特徴（Ｆ’で表す）に対して、まず、チャネル方向に沿って、最大プール化及び平均プール化を行い、１×Ｈ×Ｗの属性の２つの２次元特徴マップ（Ｆ＿ａｖｇ及びＦ＿ｍａｘで表す）を得、得られた２つの２次元特徴マップを次元連結（ｃｏｎｃａｔｅｎａｔｅ）して、連結された特徴マップを得ることと、連結された特徴マップに対して、７×７サイズの畳み込み層を利用して、空間アテンションマップ（Ｍｓで表す）を生成することと、を含む。

【0062】

図８に示すネットワーク構造を参照すると、補間フレーム強化ネットワークモデルの具体的なステップは、普通強化ネットワークモデルによってフレームごとに強化されたビデオフレームに対して、補間フレーム強化が必要なフレームとその前後２フレームの計３フレームの結合を入力として、補間フレーム強化ネットワークモデルに送り込み、活性化関数を有する複数のＣｏｎｖ層及びアテンションメカニズムモジュールで構成された特徴抽出と１つの残差再構築を有するＣｏｎｖ層を経由して、残差画像を得、残差画像と補間フレーム強化が必要な元の補間フレーム画像を重ね合わせて、最終的に品質強化されたターゲット補間フレームを得ることを含む。即ち、当該ネットワーク構造の入力は、補間フレームに関連する前後２フレームと補間フレームの計３フレームであり、出力されるのは、品質強化された後の補間フレームの１フレームのみである。

【0063】

このようにして、第１サブネットワークモデル及び第２サブネットワークモデルに基づいて、本願実施例の超解像度ネットワークモデルを得ることができる。さらに、いくつかの実施例では、前記ビデオ処理方法は、
前記超解像度ネットワークモデルのモデルパラメータを決定することと、
決定されたモデルパラメータに基づいて、前記超解像度ネットワークモデルを構築することと、を更に含み得る。

【0064】

さらに、いくつかの実施例では、前記超解像度ネットワークモデルのモデルパラメータを決定することは、
訓練サンプルを取得することであって、ここで、前記訓練サンプルは、少なくとも第１解像度の複数のビデオフレーム及び第２解像度の複数のビデオフレームを含む、ことと、
前記訓練サンプルを利用して、ニューラルネットワークに基づく超解像度ネットワークモデルを訓練して、前記モデルパラメータを得ることと、を含み得る。

【0065】

さらに、いくつかの実施例では、前記超解像度ネットワークモデルのモデルパラメータを決定することは、
ビットストリームを解析することにより、前記モデルパラメータを取得することを含み得る。

【0066】

説明すべきこととして、訓練サンプルは、少なくとも第１解像度の複数のビデオフレーム及び第２解像度の複数のビデオフレーム、又は、第１解像度の複数のビデオ画像及び第２解像度の複数のビデオ画像を含み、モデルパラメータ訓練を行い、超解像度ネットワークモデルのモデルパラメータを得るために用いられる。

【0067】

つまり、超解像度ネットワークモデルのモデルパラメータについて、一方、訓練サンプルに基づいてモデルパラメータ訓練を行うことによって得られるものであり、もう一方、エンコーダ側によってモデルパラメータ訓練を行い、次に、訓練されたモデルパラメータをビットストリームに書き込み、デコーダ側がビットストリームを解析することによってモデルパラメータを直接取得するものでもあり得、本願実施例では限定されない。

【0068】

要するに、本願実施例は、主に現在のビデオ圧縮プロセスで発生する画質損失やビデオフレームレートの低下などの問題を解決すると同時に、前処理のときのダウンサンプリング（即ち、ダウンサンプリング処理）し、次に、ビデオ後処理のときの再構築を復元することにより、現在のコーデック効率が低いという問題も解決する。

【0069】

本願実施例は、主に超解像度ネットワークモデルをベースとして、それをビデオ処理プロセスに適用する。

【0070】

下記において、いくつかの適用シナリオにおける超解像度ネットワークモデルの適用について説明する。

【0071】

（１）ビデオ圧縮の後処理ステップに適用される。図１に示すように、データ収集及びビデオ前処理が行われた後、ビデオエンコーダ１０３によって符号化を行ってビットストリームを生成し、次に、復号化側ではビデオデコーダ１０５によってビットストリームを解析してビデオを再構築する。ビデオ処理プロセス全体で画質及びフレームレートの損失が生じるため、本願実施例における超解像度ネットワークモデルは、ビデオの後処理に適用され得、それにより、ビデオの画質を向上させ、同時に、復号化側のフレームレートに対する要求を満たすために、後処理時にフレームレートを同時に向上させることもできる。

【0072】

（２）ＬＣＥＶＣビデオ圧縮方案に適用される。図２に示すように、現在のＬＣＥＶＣ方案では、基本的なビットストリームを得た後、複数の層で高品質のビデオを取得する。本願実施例では、複数の層を１つの層に変更でき、即ち、基本的なビットストリームを復号化して基本的な品質のビデオを取得した後、本願実施例における超解像度ネットワークモデルを直接採用して、高品質のビデオを取得することができる。

【0073】

（３）低ビットレートのビデオ圧縮方案に適用される。現在のビデオ系列のほとんどは、高解像度及び高フレームレートであり、ビデオ系列全体を直接圧縮すると、符号化効率が低くなり、ビットストリーム量が大きくなる。この問題を解決するために、低ビットレートの圧縮方案を設計することができる。図１０に示すように、エンコーダ側のオリジナルの入力ビデオ系列について、ダウンサンプリングモジュール１００１によってダウンサンプリング処理を行い、低解像度、低フレームレートのビデオ系列を得、次に、ビデオエンコーダ１０３によって、ダウンサンプリングされたビデオ系列を符号化して、例えば、０１０１０００１０１１１０１０１０であるビットストリームを生成し、当該ビットストリームをデコーダ側に伝送し、ビデオデコーダ１０５によってビットストリームを解析して、復号化された低解像度、低フレームレートのビデオ系列を得、次に、超解像度再構築モジュール１００２によって、入力ビデオ系列と同じ高解像度、高フレームレートのビデオ系列を得ることができる。このとき、超解像度再構築モジュール１００２は、本願実施例における超解像度ネットワークモデルを利用して超解像度再構築を実現することができる。つまり、超解像度ネットワークモデルの核心は、復号化された低解像度、低フレームレートのビデオ系列を、入力ビデオ系列と同じ高解像度、高フレームレートのビデオ系列に超解像再構築することである。

【0074】

（４）スケーラブルビデオ符号化（ＳＶＣ：ＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ）方案に適用される。実際の適用環境に応じて選択することができ、ビデオ系列を異なる部分に分け、ダウンサンプリング符号化するか否か、何倍のダウンサンプリング符号化を行うか否か、一括符号化がいくつかのチャネルや端末に適応させるかなどを選択することができる。ここで、帯域幅によってビデオの伝送が制限される。帯域幅が不足する場合、異なるダウンサンプリング倍数のビデオ符号化のビットストリームを伝送及び復号化する必要があるが、このとき、復号化されたビデオの画質は高くなく、復号化の後、超解像度ネットワークモデルを採用して画質を向上させることができる。帯域幅が徐々に大きくなると、入力ビデオ系列のビットストリームを伝送及び復号化して、高品質のビデオを直接取得することができる。具体的には、図１１に示すように、当該プロセスは以下のステップを含み得る。

【0075】

ステップＳ１１０１において、入力ビデオ系列を取得する。

【0076】

ステップＳ１１０２において、帯域幅が要件を満たすか否かを判断する。

【0077】

ステップＳ１１０３において、判定結果が「はい」であれば、ビデオエンコーダを利用して符号化して、ビットストリームを生成する。

【0078】

ステップＳ１１０４において、判定結果が「いいえ」であれば、ダウンサンプリング処理を行い、ステップＳ１１０３を実行する。

【0079】

ステップＳ１１０５において、ビットストリームを伝送する。

【0080】

ステップＳ１１０６において、ビデオデコーダを利用してビットストリームを解析して、解析されたビデオ系列を取得する。

【0081】

ステップＳ１１０７において、ターゲット品質要件を満たすか否かを判断する。

【0082】

ステップＳ１１０８において、判定結果が「はい」であれば、解析されたビデオ系列をターゲットビデオ系列として決定する。

【0083】

ステップＳ１１０９において、判定結果が「いいえ」であれば、解析されたビデオ系列を超解像度ネットワークモデルに入力して処理し、超解像度ネットワークモデルの出力をターゲットビデオ系列として決定する。

【0084】

つまり、ビデオエンコーダ側では、現在検出された帯域幅環境に基づいて、入力ビデオ系列に対するダウンサンプリングが必要か否かを判断し、必要であれば、対応するダウンサンプリング倍数を選択して、入力ビデオ系列に対して空間解像度及びフレームレートでダウンサンプリングを行い、次に、既存のビデオエンコーダを使用して符号化して、ビットストリームを取得し、ビデオデコーダ側では、対応するビデオデコーダを採用して符号化し、次に、超解像度ネットワークモデルを入力して、それにより、必要な解像度及びフレームレートのターゲットビデオ系列を得ることができる。

【0085】

理解すべきこととして、本願実施例は、ビデオの画像解像度及びフレームレート、即ち、空間及び時間で超解像を同時に向上させることができる分岐融合ニューラルネットワーク構造を提案する。また、ネットワーク構造全体は、分岐融合超解像度ネットワークモデル及び品質強化ネットワークモデルの２つのサブネットワークモデルで構成され得、ここで、品質強化ネットワークモデルには、普通強化ネットワークモデル及び補間フレーム強化ネットワークモデルが含まれ得る。つまり、ネットワーク構造全体は、分岐融合超解像度ネットワークモデル、普通強化ネットワークモデル、及び補間フレーム強化ネットワークモデルの３つのサブネットワークモデルで構成され得る。具体的には、分岐融合超解像度ネットワークモデルは、３つの分岐を有するネットワークのネットワーク構造を採用しており、各分岐ネットワークは密結合残差学習法を採用することでネットワークの性能を向上させ、立体ビデオ集合の異なる次元から、ビデオ系列の画像解像度及びフレームレートを向上させる。一方、補間フレーム強化ネットワークモデルは、補間フレーム及び前後２つの隣接フレームを入力とし、アテンションメカニズムモデルと組み合わせることで、当該補間フレームに品質を更に向上させることができる。

【0086】

説明すべきこととして、本願実施例における超解像度ネットワークモデルの、ビデオ圧縮プロセスにおける適用シナリオは、３種類があり得、第１は、単純なビデオ圧縮後処理であり、圧縮及び再構築されたビデオに対してビデオ画像で超解像度してフレームレートを向上させ、第２は、これに基づいて設計された低ビットレートビデオ圧縮方案であり、符号化の前に、まずビデオに対して空間及び時間でダウンサンプリングを行い、復号化の後に、対応する超解像度の向上を行うことにより、ビットレートを大幅に低下させることができ、第３は、当該超解像度ネットワークモデルをビデオ符号化規格のフレーム間予測部に適用することであり、参照フレームの数を削減し、予測精度を向上させることができる。

【0087】

また、本願実施例における超解像度ネットワークモデルのネットワーク構造は変更可能である。具体的には、分岐融合超解像度ネットワークモデルの３つの分岐は、適切に削除することで、異なるシナリオ、異なる計算機能のニーズを満たすことができる。普通強化ネットワークモデルのネットワーク構造の実際の応用では、通常、ＡＲＣＮＮモデルを使用しているが、ビデオフレームの画質強化効果を満たす限り、これに限定されない。補間フレーム強化ネットワークモデルのＣｏｎｖ層の数とアテンションメカニズムモジュールの数も限定されず、適切に増減することができる。すべての変更により、ビデオ系列の最終的な画質にギャップが生じる可能性がある。

【0088】

このようにして、本願実施例で提案された低ビットレート圧縮方案は、符号化効率を大幅に向上させる。具体的には、圧縮符号化前にビデオに対して空間及び時間でダウンサンプリングすることにより、符号化が必要なビデオデータ量を大幅に削減し、復号化の後に超解像度ネットワークモデルを採用して、対応するアップサンプリングを行い、元のビデオを復元する。全体として、ビットレートを大幅に低下させ、符号化効率を大幅に向上させ、伝送ビットストリームを削減することができる。また、本願実施例で採用された超解像ネットワーク設計は、ビデオの画質及びフレームレートを大幅に向上させ、提案された超解像度ネットワークモデルは、ビデオ圧縮の処理プロセスに適用することにより、圧縮ビデオの品質を大幅に向上させることができ、ビデオ画像の超解像及びフレームレートの向上にも大きな効果がある。本願実施例で提案された超解像度ネットワークモデルは、主に１つのネットワークを使用して、ビデオフレーム画像の超解像及びフレームレートの向上の２つの効果を同時に実現する。

【0089】

例として、超解像度ネットワークモデルは、ＰｙＴｏｒｃｈプラットフォームを使用してＮｖｉｄｉａＧＴＸ１０８０ＴｉＧＰＵに実装でき、実験の訓練集合及びテスト集合は、いずれもＶｉｍｅｏ－９０Ｋを使用する。ビデオフレーム画像で４倍超解像を実現し、フレームレートを２倍向上させたと仮定すると、具体的な実験結果は表１に示す通りである。ここで、１行目は、第１サブネットワークモデル（即ち、ＢＦＳＲＮｅｔモデル）のみを使用した実験結果を示し、２行目は、ＢＦＳＲＮｅｔモデルに加えて、第２サブネットワークモデルにおけるＱＥＮｅｔモデルを追加した実験結果を示し、最後の行は、ＢＦＳＲＮｅｔモデルとＱＥＮｅｔモデルに加えて、ＩＦＥＮｅｔモデルを更に使用した実験結果を示す。表１において、ピーク信号対雑音比（ＰＳＮＲ：ＰｅａｋＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ）と構造類似性（ＳＳＩＭ：ＳｔｒｕｃｔｕｒａｌＳＩＭｉｌａｒｉｔｙ）は、１つのビデオ系列のすべてのフレームの平均結果として、超解像度（ＳＲ：Ｓｕｐｅｒ－Ｒｅｓｏｌｕｔｉｏｎ）のＰＳＮＲ／ＳＳＩＭは、単に了ビデオフレーム画像の超解像のみを行ったすべてのフレームの平均結果に相当し、ビデオフレーム補間（ＶＦＩ：ＶｉｄｅｏＦｒａｍｅＩｎｔｅｒｐｏｌａｔｉｏｎ）のＰＳＮＲ／ＳＳＩＭは、すべての補間フレームの平均結果に相当する。表１の結果から分かるように、本願実施例で追加された普通品質強化ネットワークモデル及び補間フレーム強化ネットワークモデルは、いずれも一定の効果を果たし、ＰＳＮＲ及びＳＳＩＭは、いずれも向上させることができる。

【表1】

本実施例は、ビデオ処理方法を提供し、第１解像度のビデオ系列を取得することにより、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得、前記ビデオ系列は、少なくとも１つのビデオフレームを含み、ここで、前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を向上させるために用いられる。このように、本願の技術方案では、現在のビデオ圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決できる超解像度ネットワーク設計を採用しており、また、１つのネットワーク（即ち、超解像度ネットワークモデル）を使用してビデオ画像の解像度及びフレームレートを同時に向上させる。したがって、超解像度ネットワークモデルをビデオ圧縮の処理プロセスに適用すると、圧縮ビデオの画質を大幅に向上させることができ、ビデオ画像の解像度及びフレームレートの向上にも大きな効果がある。また、圧縮されたビデオを符号化する前にビデオ系列をダウンサンプリング処理することも可能であるため、符号化対象のビデオデータ量を削減することができ、その後、復号化の後に超解像度ネットワークモデルを採用するときに対応するアップサンプリングを行い、それにより、ビットレートを低下させ、伝送ビットストリームを削減し、コーデック効率を向上させることもできる。

【0090】

本願の別の実施例では、前述した実施例と同じ技術的構想に基づいて、図１２を参照すると、図１２は、本願実施例によるビデオ処理装置１２０の概略構造図である。図１２に示すように、当該ビデオ処理装置１２０は、取得ユニット１２０１と、処理ユニット１２０２と、を備えることができ、
取得ユニット１２０１は、第１解像度のビデオ系列を取得するように構成され、ここで、前記ビデオ系列は、少なくとも１つのビデオフレームを含み、
処理ユニット１２０２は、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得るように構成され、
ここで、前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を向上させるために用いられる。

【0091】

いくつかの実施例では、前記ビデオ系列の解像度は、前記ビデオ系列の空間解像度と前記ビデオ系列の時間解像度のうちの少なくとも１つを含む。

【0092】

いくつかの実施例では、処理ユニット１２０２は具体的には、前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の初期ビデオ系列を得、前記第２サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも１つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得るように構成され、ここで、前記第２解像度は、前記第１解像度より高い。

【0093】

いくつかの実施例では、処理ユニット１２０２は、具体的には、前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の初期ビデオ系列を得、前記初期ビデオ系列は、前記少なくとも１つのビデオフレーム及び少なくとも１つの補間フレームを含み、前記第２サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも１つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得るように構成される。

【0094】

いくつかの実施例では、前記第１サブネットワークモデルは、分岐融合超解像度ネットワークモデルであり、前記第２サブネットワークモデルは、品質強化ネットワークモデルである。

【0095】

いくつかの実施例では、前記第２サブネットワークモデルはさらに、第３サブネットワークモデルを含み、
処理ユニット１２０２はさらに、前記第３サブネットワークモデルによって、前記ターゲットビデオ系列内の補間フレームに対して品質強化処理を行い、ターゲット補間フレームを得、前記ターゲット補間フレームに基づいて、前記ターゲットビデオ系列を更新するように構成される。

【0096】

いくつかの実施例では、前記第３サブネットワークモデルは、補間フレーム強化ネットワークモデルである。

【0097】

いくつかの実施例では、前記第１サブネットワークモデルは、少なくとも１つの分岐モジュール及び１つの融合モジュールを含み、
処理ユニット１２０２はさらに、前記ビデオ系列に基づいて、少なくとも１つの次元の初期エピポーラ平面画像ＥＰＩ画像集合を構築し、各次元の初期ＥＰＩ画像集合は、１つの分岐モジュールに対応し、前記少なくとも１つの次元の初期ＥＰＩ画像集合を前記少なくとも１つの分岐モジュールに対応的に入力して、少なくとも１つのターゲットＥＰＩ画像集合を得、前記融合モジュールによって、前記少なくとも１つのターゲットＥＰＩ画像集合に対して融合処理を行い、前記初期ビデオ系列を得るように構成され、前記初期ＥＰＩ画像集合内の各ＥＰＩ画像の解像度は、第１解像度であり、前記ターゲットＥＰＩ画像集合内の各ＥＰＩ画像の解像度は、第２解像度である。

【0098】

いくつかの実施例では、処理ユニット１２０２はさらに、前記ビデオ系列を並べ重ねることによって、立体ビデオ集合を形成し、前記立体ビデオ集合の次元は、水平解像度次元、垂直解像度次元、及びフレームレート次元を含み、前記立体ビデオ集合の１つの次元に基づいて、前記立体ビデオ集合の前記１つの次元で前記立体ビデオ集合に対して少なくとも一回のスライス操作を行った後、少なくとも１つのＥＰＩ画像を抽出し、前記少なくとも１つのＥＰＩ画像から、前記立体ビデオ集合の前記１つの次元における初期ＥＰＩ画像集合を構成し、前記立体ビデオ集合の少なくとも１つの次元に基づいて、前記少なくとも１つの次元の初期ＥＰＩ画像集合を得るように構成される。

【0099】

いくつかの実施例では、前記分岐モジュールは、アップサンプリングモジュール及び畳み込み計算モジュールを含み、
処理ユニット１２０２はさらに、前記立体ビデオ集合の１つの次元における初期ＥＰＩ画像集合を対象にして、前記アップサンプリングモジュールによって、前記初期ＥＰＩ画像集合に対して解像度を向上させ、第１ＥＰＩ画像集合を得、前記畳み込み計算モジュールによって、前記第１ＥＰＩ画像集合に対して畳み込み演算を行い、前記立体ビデオ集合の１つの次元におけるターゲットＥＰＩ画像集合を得るように構成される。

【0100】

いくつかの実施例では、処理ユニット１２０２はさらに、前記融合モジュールによって、前記少なくとも１つのターゲットＥＰＩ画像集合に対して加重平均処理を行い、前記初期ビデオ系列を得るように構成される。

【0101】

いくつかの実施例では、取得ユニット１２０１はさらに、処理待ちの補間フレーム及び所定の１つ又は複数のビデオフレームを取得するように構成され、
処理ユニット１２０２はさらに、前記補間フレーム及び前記所定の１つ又は複数のビデオフレームを第３サブネットワークモデルに入力して、前記補間フレームに対応するターゲット補間フレームを得るように構成される。

【0102】

いくつかの実施例では、所定の１つ又は複数のビデオフレームは、隣接する２つのビデオフレームを含み、
取得ユニット１２０１はさらに、前記ターゲットビデオ系列の再生順序に基づいて、処理待ちの補間フレームと、前記補間フレームに隣接する１つ前のビデオフレーム及び次のビデオフレームを取得するように構成され、
処理ユニット１２０２はさらに、前記補間フレーム、前記１つ前のビデオフレーム、及び前記次のビデオフレームを、前記第３サブネットワークモデルに入力して、前記補間フレームに対応するターゲット補間フレームを得るように構成される。

【0103】

いくつかの実施例では、前記第３サブネットワークモデルは、第１畳み込みモジュール、アテンションメカニズムモジュール、第２畳み込みモジュール、及び加算モジュールを含み、前記第１畳み込みモジュールは、活性化関数を含み、前記第２畳み込みモジュールは、活性化関数を含まない。

【0104】

いくつかの実施例では、前記第１畳み込みモジュールの数は、１つ又は複数であり、前記アテンションメカニズムモジュールの数は、１つ又は複数であり、前記第２畳み込みモジュールの数は、１つであり、前記加算モジュールの数は、１つであり、
処理ユニット１２０２はさらに、前記第１畳み込みモジュール及び前記アテンションメカニズムモジュールによって、前記補間フレーム及び前記所定の１つ又は複数のビデオフレームに対して特徴抽出を行い、特徴画像を得、前記第２畳み込みモジュールによって、前記特徴画像に対して畳み込み演算を行い、残差画像を得、前記加算モジュールによって、前記強化された補間フレームと前記残差画像とを重ね合わせて、前記補間フレームに対応するターゲット補間フレームを得るように構成される。

【0105】

いくつかの実施例では、処理ユニット１２０２はさらに、前記超解像度ネットワークモデルのモデルパラメータを決定し、決定されたモデルパラメータに基づいて、前記超解像度ネットワークモデルを構築するように構成される。

【0106】

いくつかの実施例では、取得ユニット１２０１はさらに、訓練サンプルを取得するように構成され、ここで、前記訓練サンプルは、少なくとも第１解像度の複数のビデオフレーム及び第２解像度の複数のビデオフレームを含み、
処理ユニット１２０２はさらに、前記訓練サンプルを利用して、ニューラルネットワークに基づく超解像度ネットワークモデルを訓練して、前記モデルパラメータを得るように構成される。

【0107】

いくつかの実施例では、取得ユニット１２０１はさらに、ビットストリームを解析することにより、前記モデルパラメータを取得するように構成される。

【0108】

理解可能なこととして、本実施例では、「ユニット」は、回路の一部、プロセッサの一部、プログラムの一部、又はソフトウェアなどであってもよく、もちろん、モジュールであってもよいし、非モジュール式であってもよいことが理解できる。また、本実施例における各構成要素は、１つの処理ユニットに統合されてもよく、各ユニットが物理的に別個に存在してもよく、２つ以上のユニットが１つのユニットに統合されてもよい。上記統合されたユニットは、ハードウェアの形で実現されてもよく、ソフトウェア機能モジュールの形で実現されてもよい。

【0109】

前記統合されたユニットが、ソフトウェア機能モジュールの形で実装され、独立した製品として販売又は使用されない場合、１つのコンピュータ可読記憶媒体に記憶することができる。このような理解に基づいて、本実施例の技術的解決策の本質的な部分、即ち、先行技術に貢献のある部分、又は当該技術の解決策の全部又は一部は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、１つの記憶媒体に記憶され、一台のコンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器などであリ得る）又はｐｒｏｃｅｓｓｏｒ（プロセッサ）に、本実施例に記載の方法のステップの全部又は一部を実行させるためのいくつかの命令を含む。前述した記憶媒体は、Ｕディスク、モバイルハードディスク、読み取り専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスクなど、プログラムコードを記憶することができる様々な媒体を含む。

【0110】

本願のさらに別の実施例では、本実施例は、ビデオ処理装置１２０に適用されるコンピュータ記憶媒体を提供し、当該コンピュータ記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムが少なくとも１つのプロセッサによって実行されるときに、前述した実施例のいずれかに記載の方法を実現する。

【0111】

上記したビデオ処理装置１２０の構成及びコンピュータ記憶媒体を基に、図１３を参照すると、図１３は、本願実施例によるビデオ処理装置１２０具体的なハードウェア構造の例を示しており、通信インターフェース１３０１と、メモリ１３０２と、プロセッサ１３０３と、を備えることができ、各コンポーネントは、バスシステム１３０４によって結合される。バスシステム１３０４は、これらのコンポーネント間の接続通信を実現するために用いられることが理解できる。データバスに加えて、バスシステム１３０４は、電力バス、制御バス及びステータス信号バスを含む。しかしながら、説明を明確にするために、図７では、各種バスをすべてバスシステム１３０４として表記している。ここで、通信インターフェース１３０１は、他の外部ネットワーク要素と情報を送受信するプロセスで、信号を送受信するように構成される。

【0112】

メモリ１３０２は、プロセッサ１３０３で実行可能なコンピュータプログラムを記憶するように構成される。

【0113】

プロセッサ１３０３は、前記コンピュータプログラムを実行するときに、
第１解像度のビデオ系列を取得することであって、前記ビデオ系列は、少なくとも１つのビデオフレームを含む、ことと、
前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得ることと、を実行し、
ここで、前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を向上させるために用いられる。

【0114】

理解可能なこととして、本願実施例のメモリ１３０２は、揮発性メモリ又は不揮発性メモリであってもよく、又は揮発性メモリ及び不揮発性メモリの両方を含んでもよい。ここで、不揮発性メモリは、読み取り専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ：ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰＲＯＭ）、電気的に消去可能なプログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ：ＥｌｅｃｔｒｉｃａｌｌｙＥＰＲＯＭ）又はフラッシュメモリであり得る。揮発性メモリは、外部キャッシュとして用いられるランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であり得る。例示的であるが限定的ではない例示によれば、多くの形のＲＡＭ、例えば、静的ランダムアクセスメモリ（ＳＲＡＭ：ＳｔａｔｉｃＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ：ＤｙｎａｍｉｃＲＡＭ）、同期ダイナミックランダムアクセスメモリ（ＳＤＲＡＭ：ＳｙｎｃｈｒｏｎｏｕｓＤＲＡＭ）、ダブルデータレートの同期ダイナミックランダムアクセスメモリ（ＤＤＲＳＤＲＡＭ：ＤｏｕｂｌｅＤａｔａＲａｔｅＳＤＲＡＭ）、拡張された同期ダイナミックランダムアクセスメモリ（ＥＳＤＲＡＭ：ＥｎｈａｎｃｅｄＳＤＲＡＭ）、同期接続ダイナミックランダムアクセスメモリ（ＳＬＤＲＡＭ：ＳｙｎｃｈｒｏｎｏｕｓｌｉｎｋＤＲＡＭ）、ダイレクトメモリバスランダムアクセスメモリ（ＤＲＲＡＭ：ＤｉｒｅｃｔＲａｍｂｕｓＲＡＭ）などが利用可能である。本明細書に記載のシステム及び方法のメモリ１３０２は、これら及び任意の他の適切なタイプのメモリを含むがこれらに限定されないことを意図する。

【0115】

プロセッサ１３０３は、信号処理機能を備えた集積回路チップであり得る。実現プロセスにおいて、前記方法の各ステップは、プロセッサ１３０３におけるハードウェアの集積論理回路又はソフトウェアの形の命令によって完了されることができる。上記のプロセッサ１３０３は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）又は他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポ―ネットなどであってもよく、本願実施例で開示される各方法、ステップ及び論理ブロックを実現又は実行することができる。汎用プロセッサは、マイクロプロセッサであってもよく、又は当該プロセッサは、任意の従来のプロセッサなどであってもよい。本願実施例で開示される方法のステップは、ハードウェア復号化プロセッサによって直接実行されてもよいし、復号化プロセッサ内のハードウェアとソフトウェアモジュールの組み合わせによって実行されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラマブル読み取り専用メモリ、又は電気的に消去可能なプログラマブルメモリ、レジスタなどの従来の記憶媒体に配置することができる。当該記憶媒体は、メモリ１３０２に配置され、プロセッサ１３０３は、メモリ１３０２内の情報を読み取り、そのハードウェアと組み合わせて上記の方法のステップを完成する。

【0116】

理解可能なこととして、本明細書に記載のこれらの実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はそれらの組み合わせで実現されることができる。ハードウェアの実現に対して、処理ユニットは、１つの或複数の特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ）、デジタル信号処理機器（ＤＳＰＤ：ＤＳＰＤｅｖｉｃｅ）、プログラマブルロジックデバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本出願に記載の機能を実行するように構成される他の電子ユニット又はその組み合わせに実現される。

【0117】

ソフトウェア実装の場合、本明細書に記載の機能のモジュール（例えば、プロセス、関数など）を実行することによって、本明細書で説明された技術的解決策を実現することができる。ソフトウェアコードは、メモリに記憶され、プロセッサによって実行されることができる。メモリは、プロセッサに実装することも、プロセッサの外部に実装することもできる。

【0118】

例示的に、別の実施例として、プロセッサ１３０３はさらに、前記コンピュータプログラムを実行するときに、前述した実施例のいずれかに記載の方法を実行するように構成される。

【0119】

本願のさらにいくつかの実施例では、本願実施例のビデオ機器は、ビデオ再生機器、エンコーダ、デコーダなどであり得る。図１４を参照すると、図１４は、本願実施例によるビデオ機器の概略構造図である。図１４に示すように、ビデオ機器１４０は、少なくとも前述した実施例のいずれかに記載のビデオ処理装置１２０を含み得る。

【0120】

本願のさらにいくつかの実施例では、図１５を参照すると、図１５は、本願実施例によるデコーダの概略構造図である。図１５に示すように、デコーダ１５０は、少なくとも普通デコーダ１５０１及び前述した実施例のいずれかに記載のビデオ処理装置１２００を含み得る。ここで、普通デコーダ１５０１は、即ち、前述した実施例に記載のビデオデコーダ１０５であり、即ち、Ｈ．２６６／ＶＶＣデコーダ、Ｈ．２６５／ＨＥＶＣデコーダなどでもある。

【0121】

いくつかの実施例では、普通デコーダ１５０１は、ビットストリームを解析して、第１解像度のビデオ系列を取得するために用いられ、
ビデオ処理装置１２０は、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得るように構成され、
ここで、前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を調整するために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を調整するために用いられる。

【0122】

いくつかの実施例では、普通デコーダ１５０１はさらに、ビットストリームを解析して、第１指示フラグビットを取得するように構成され、前記第１指示フラグビットは、前記第１解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の空間解像度を向上させる必要があることを示すために用いられ、
ビデオ処理装置１２０はさらに、前記第１指示フラグビットに基づいて、前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の初期ビデオ系列を得るように構成され、前記第２解像度は、前記第１解像度より高い。

【0123】

いくつかの実施例では、普通デコーダ１５０１はさらに、ビットストリームを解析して、前記第２指示フラグビットを取得するように構成され、前記第２指示フラグビットは、前記第１解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の時間解像度を向上させる必要があることを示すために用いられ、
ビデオ処理装置１２０はさらに、前記第２指示フラグビットに基づいて、前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の初期ビデオ系列を得るように構成され、前記初期ビデオ系列は、前記少なくとも１つのビデオフレーム及び少なくとも１つの補間フレームを含む。

【0124】

いくつかの実施例では、普通デコーダ１５０１はさらに、ビットストリームを解析して、前記第３指示フラグビットを取得するように構成され、前記第３指示フラグビットは、前記第１解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の画質を向上させる必要があることを示すために用いられ、
ビデオ処理装置１２０はさらに、前記第３指示フラグビットに基づいて、前記第２サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも１つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得るように構成される。

【0125】

いくつかの実施例では、普通デコーダ１５０１はさらに、ビットストリームを解析して、前記超解像度ネットワークモデルのモデルパラメータを取得するように構成され、
ビデオ処理装置１２０はさらに、前記モデルパラメータに基づいて、前記超解像度ネットワークモデルを構築するように構成される。

【0126】

説明すべきこととして、前述した実施例におけるビデオ処理装置１２０の機能は、デコーダ１５０にも適用可能である。このようにして、デコーダ１５０は、超解像度ネットワーク設計を利用して、現在のビデオ圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決でき、また、１つのネットワーク（即ち、超解像度ネットワークモデル）を使用してビデオ画像の解像度及びフレームレートを同時に向上させる。したがって、超解像度ネットワークモデルをビデオ圧縮の処理プロセスに適用すると、圧縮ビデオの画質を大幅に向上させることができ、ビデオ画像の解像度及びフレームレートの向上にも大きな効果がある。また、圧縮されたビデオを符号化する前にビデオ系列をダウンサンプリング処理することも可能であるため、符号化対象のビデオデータ量を削減することができ、その後、復号化の後に超解像度ネットワークモデルを採用するときに対応するアップサンプリングを行い、それにより、ビットレートを低下させ、伝送ビットストリームを削減し、コーデック効率を向上させることもできる。

【0127】

本願のさらにいくつかの実施例では、図１６を参照すると、図１６は、本願実施例によるビデオシステムの概略構造図である。図１６に示すように、当該ビデオシステム１６０は、エンコーダ１６１及びデコーダ１５０を備えることができる。ここで、エンコーダ１６１は、前処理装置１６１１及び普通エンコーダ１６１２を含み得、デコーダ１５０は、普通デコーダ１５０１及び前述した実施例のいずれかに記載のビデオ処理装置１２０を含み得る。ここで、普通エンコーダ１６１２は、即ち、前述した実施例に記載のビデオエンコーダ１０３であり、Ｈ．２６６／ＶＶＣエンコーダ、Ｈ．２６５／ＨＥＶＣエンコーダ等などでもあり、普通デコーダ１５０１は、即ち、前述した実施例に記載のビデオデコーダ１０５であり、Ｈ．２６６／ＶＶＣデコーダ、Ｈ．２６５／ＨＥＶＣデコーダなどでもある。

【0128】

いくつかの実施例では、前処理装置１６１１は、第２解像度の入力ビデオ系列を受信した後、受信した入力ビデオ系列を前処理して、第１解像度のビデオ系列を得るように構成され、
普通エンコーダ１６１２は、前記ビデオ系列に対してビデオ圧縮を行い、ビットストリームを生成し、前記ビットストリームを前記標準デコーダに伝送するように構成され、
普通デコーダ１５０１は、前記ビットストリームを解析して、前記第１解像度のビデオ系列を取得するように構成される。

【0129】

ビデオ処理装置１２０は、前記ビデオ系列を超解像度ネットワークモデルに入力して、第２解像度のターゲットビデオ系列を得るように構成され、
ここで、前記超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を向上させるために用いられる。

【0130】

いくつかの実施例では、前処理装置１６１１は、受信した入力ビデオ系列に対してダウンサンプリング処理を行い、第１解像度のビデオ系列を得、第１指示フラグビットを設定するように構成され、前記第１指示フラグビットは、前記第１解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の空間解像度を向上させる必要があることを示すために用いられ、
普通エンコーダ１６１２はさらに、前記第１指示フラグビットをビットストリームに書き込むように構成される。

【0131】

いくつかの実施例では、前処理装置１６１１は、受信した入力ビデオ系列に対してフレームレート調整処理を行い、第１解像度のビデオ系列を得、第２指示フラグビットを設定するように構成され、前記第２指示フラグビットは、前記第１解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の時間解像度を向上させる必要があることを示すために用いられ、
普通エンコーダ１６１２はさらに、前記第２指示フラグビットをビットストリームに書き込むように構成される。

【0132】

いくつかの実施例では、普通エンコーダ１６１２はさらに、前記ビデオ系列に対してビデオ圧縮を行った後、圧縮されたビデオ系列の画質が所定の画質基準を満たすか否かを判断し、第３指示フラグビットを設定し、前記第３指示フラグビットをビットストリームに書き込むように構成され、ここで、前記第３指示フラグビットは、前記第１解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の画質を向上させる必要があることを示すために用いられる。

【0133】

いくつかの実施例では、前処理装置１６１１はさらに、訓練サンプルを取得し、前記訓練サンプルを利用して、ニューラルネットワークに基づく超解像度ネットワークモデルを訓練して、前記超解像度ネットワークモデルのモデルパラメータを得るように構成され、前記訓練サンプルは、少なくとも第１解像度の複数のビデオフレーム及び第２解像度の複数のビデオフレームを含み、
普通エンコーダ１６１２はさらに、前記モデルパラメータをビットストリームに書き込むように構成される。

【0134】

いくつかの実施例では、普通デコーダ１５０１はさらに、ビットストリームを解析して、前記第１指示フラグビットを取得するように構成され、
ビデオ処理装置１２０はさらに、前記第１指示フラグビットに基づいて、前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の初期ビデオ系列を得るように構成され、前記第２解像度は、前記第１解像度より高い。

【0135】

いくつかの実施例では、普通デコーダ１５０１はさらに、ビットストリームを解析して、前記第２指示フラグビットを取得するように構成され、
ビデオ処理装置１２０はさらに、前記第２指示フラグビットに基づいて、前記第１サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第２解像度の初期ビデオ系列を得るように構成され、前記初期ビデオ系列は、前記少なくとも１つのビデオフレーム及び少なくとも１つの補間フレームを含む。

【0136】

いくつかの実施例では、普通デコーダ１５０１はさらに、ビットストリームを解析して、前記第３指示フラグビットを取得するように構成され、
ビデオ処理装置１２０はさらに、前記第３指示フラグビットに基づいて、前記第２サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも１つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得るように構成される。

【0137】

【0138】

説明すべきこととして、前述した実施例におけるビデオ処理装置１２００の機能は、ビデオシステム１６０にも適用可能である。このようにして、当該ビデオシステム１６０は、超解像度ネットワーク設計を利用して、現在のビデオ圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決でき、また、１つのネットワーク（即ち、超解像度ネットワークモデル）を使用してビデオ画像の解像度及びフレームレートを同時に向上させる。したがって、超解像度ネットワークモデルをビデオ圧縮の処理プロセスに適用すると、圧縮ビデオの画質を大幅に向上させることができ、ビデオ画像の解像度及びフレームレートの向上にも大きな効果がある。また、圧縮されたビデオを符号化する前にビデオ系列をダウンサンプリング処理することも可能であるため、符号化対象のビデオデータ量を削減することができ、その後、復号化の後に超解像度ネットワークモデルを採用するときに対応するアップサンプリングを行い、それにより、ビットレートを低下させ、伝送ビットストリームを削減し、コーデック効率を向上させることもできる。

【0139】

また、説明すべきこととして、本出願において、「備える」、「含む」という用語、又はその任意の他の変形は、非排他的な包含をカバーすることを意図するので、一連の要素を含むプロセス、方法、物品又は装置は、それらの要素だけでなく、明示的に列挙されていない他の要素、又は、そのようなプロセス、方法、物品、又は装置の固有の要素をさらに含む。特に限定されていない場合、「…を含む」という文で定義された要素は、当該要素を含むプロセス、方法、物品、又は装置に、他の同じ要素があることを排除しない。

【0140】

上記の本願実施例の番号は、説明のためのものに過ぎず、実施例の優劣を表すものではない。

【0141】

本願で提供されるいくつかの方法の実施例で開示される方法は、競合することなく任意に組み合わせて、新しい方法の実施例を取得することができる。

【0142】

本願で提供されるいくつかの製品の実施例で開示される特徴は、競合することなく任意に組み合わせて、新しい製品の実施例を取得することができる。

【0143】

本願で提供されるいくつかの方法又は機器の実施例で開示される特徴は、競合することなく任意に組み合わせて、新しい方法の実施例又は機器の実施例を取得することができる。

【0144】

上記の内容は、本願の特定の実施形態に過ぎず、本願の保護範囲はこれに限定されない。本願で開示された技術的範囲内で、当業者が容易に想到し得る変形又は置換はすべて、本願の保護範囲内に含まれるべきである。したがって、本願の保護範囲は、特許請求の保護範囲に従うものとする。

【産業上の利用可能性】

【0145】

本願実施例では、超解像度ネットワークモデルは、少なくとも第１サブネットワークモデル及び第２サブネットワークモデルを含み、前記第１サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第２サブネットワークモデルは、前記第１サブネットワークモデルの出力結果内の少なくとも１つのフレームの画質を向上させるために用いられる。このようにして、超解像度ネットワーク設計を利用して、現在のビデオ圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決でき、また、１つのネットワーク（即ち、超解像度ネットワークモデル）を使用してビデオ画像の解像度及びフレームレートを同時に向上させる。したがって、超解像度ネットワークモデルをビデオ圧縮の処理プロセスに適用すると、圧縮ビデオの画質を大幅に向上させることができ、ビデオ画像の解像度及びフレームレートの向上にも大きな効果がある。また、圧縮されたビデオを符号化する前にビデオ系列をダウンサンプリング処理することも可能であるため、符号化対象のビデオデータ量を削減することができ、その後、復号化の後に超解像度ネットワークモデルを採用するときに対応するアップサンプリングを行い、それにより、ビットレートを低下させ、伝送ビットストリームを削減し、コーデック効率を向上させることもできる。

【図1】