(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-13
(45)【発行日】2024-11-21
(54)【発明の名称】ビデオ処理方法、装置、機器、デコーダ、システム及び記憶媒体
(51)【国際特許分類】
G06T 3/4053 20240101AFI20241114BHJP
H04N 19/70 20140101ALI20241114BHJP
H04N 19/85 20140101ALI20241114BHJP
G06T 3/4046 20240101ALI20241114BHJP
【FI】
G06T3/4053
H04N19/70
H04N19/85
G06T3/4046
(21)【出願番号】P 2022581541
(86)(22)【出願日】2020-07-14
(86)【国際出願番号】 CN2020101968
(87)【国際公開番号】W WO2022011571
(87)【国際公開日】2022-01-20
【審査請求日】2023-06-15
(73)【特許権者】
【識別番号】516227559
【氏名又は名称】オッポ広東移動通信有限公司
【氏名又は名称原語表記】GUANGDONG OPPO MOBILE TELECOMMUNICATIONS CORP., LTD.
【住所又は居所原語表記】No. 18 Haibin Road,Wusha, Chang’an,Dongguan, Guangdong 523860 China
(74)【代理人】
【識別番号】100120031
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100107582
【氏名又は名称】関根 毅
(74)【代理人】
【識別番号】100152205
【氏名又は名称】吉田 昌司
(74)【代理人】
【識別番号】100137523
【氏名又は名称】出口 智也
(72)【発明者】
【氏名】ユアン、ホイ
(72)【発明者】
【氏名】フー、ツォンルイ
(72)【発明者】
【氏名】リー、ミン
【審査官】鈴木 圭一郎
(56)【参考文献】
【文献】特開2019-164618(JP,A)
【文献】中国特許出願公開第111161152(CN,A)
【文献】Yang Zhou et al.,"Video Super-Resolution via Dynamic Local Filter Network",2018 IEEE Global Conference on Signal and Information Processing (GlobalSIP),2019年02月21日,インターネット<URL:https://ieeexplore.ieee.org/document/8646501>,[online]
【文献】Xiaoyu XIANG et al.,“Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution”,2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2020年06月,DOI: 10.1109/CVPR42600.2020.00343
(58)【調査した分野】(Int.Cl.,DB名)
G06T 3/4046
H04N 19/70
H04N 19/85
G06T 3/4053
(57)【特許請求の範囲】
【請求項1】
ビデオ機器に適用されるビデオ処理方法であって、
第1解像度のビデオ系列を取得することであって、前記ビデオ系列は、少なくとも1つのビデオフレームを含む、ことと、
前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得ることと、を含み、
前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を向上させるために用いられ
、
前記第2サブネットワークモデルはさらに、第3サブネットワークモデルを含み、前記ビデオ処理方法は、
前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の初期ビデオ系列を得ることであって、前記初期ビデオ系列は、前記少なくとも1つのビデオフレーム及び少なくとも1つの補間フレームを含む、ことと、
前記第2サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも1つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得ることと、
前記第3サブネットワークモデルによって、前記ターゲットビデオ系列内の補間フレームに対して品質強化処理を行い、ターゲット補間フレームを得ることと、
前記ターゲット補間フレームに基づいて、前記ターゲットビデオ系列を更新することと、を更に含む、
ビデオ処理方法。
【請求項2】
前記ビデオ系列の解像度は、前記ビデオ系列の空間解像度と前記ビデオ系列の時間解像度のうちの少なくとも1つを含む、
請求項1に記載のビデオ処理方法。
【請求項3】
前記第2解像度は、前記第1解像度より高
い、
請求項1に記載のビデオ処理方法。
【請求項4】
前記第1サブネットワークモデルは、分岐融合超解像度ネットワークモデルであり、前記第2サブネットワークモデルは、品質強化ネットワークモデルである、
請求項1に記載のビデオ処理方法。
【請求項5】
前記第3サブネットワークモデルは、補間フレーム強化ネットワークモデルである、
請求項1に記載のビデオ処理方法。
【請求項6】
前記第1サブネットワークモデルは、少なくとも1つの分岐モジュール及び1つの融合モジュールを含み、
前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の初期ビデオ系列を得ることは、
前記ビデオ系列に基づいて、少なくとも1つの次元の初期エピポーラ平面画像(EPI)画像集合を構築することであって、各次元の初期EPI画像集合は、1つの分岐モジュールに対応する、ことと、
前記少なくとも1つの次元の初期EPI画像集合を前記少なくとも1つの分岐モジュールに対応的に入力して、少なくとも1つのターゲットEPI画像集合を得ることと、
前記融合モジュールによって、前記少なくとも1つのターゲットEPI画像集合に対して融合処理を行い、前記初期ビデオ系列を得ることと、を含み、
前記初期EPI画像集合内の各EPI画像の解像度は、第1解像度であり、前記ターゲットEPI画像集合内の各EPI画像の解像度は、第2解像度である、
請求項3に記載のビデオ処理方法。
【請求項7】
前記ビデオ系列に基づいて、少なくとも1つの次元の初期EPI画像集合を構築することは、
前記ビデオ系列を並べ重ねることによって、立体ビデオ集合を形成することであって、前記立体ビデオ集合の次元は、水平解像度次元、垂直解像度次元、及びフレームレート次元を含む、ことと、
前記立体ビデオ集合の1つの次元に基づいて、前記立体ビデオ集合の前記1つの次元で前記立体ビデオ集合に対して少なくとも一回のスライス操作を行った後、少なくとも1つのEPI画像を抽出し、前記少なくとも1つのEPI画像から、前記立体ビデオ集合の前記1つの次元における初期EPI画像集合を構成することと、
前記立体ビデオ集合の少なくとも1つの次元に基づいて、前記少なくとも1つの次元の初期EPI画像集合を得ることと、を含む、
請求項6に記載のビデオ処理方法。
【請求項8】
第1プロセッサによって実行されるときに、
請求項1~7のいずれか一項に記載の方法を実行するコンピュータプログラムを記憶した、コンピュータ記憶媒体。
【請求項9】
普通デコーダと、ビデオ処理装置と、を備えるデコーダであって、
前記普通デコーダは、ビットストリームを解析して、第1解像度のビデオ系列を取得するために用いられ、
前記ビデオ処理装置は、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得るように構成され、
前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を調整するために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を調整するために用いられ
、
前記第2サブネットワークモデルはさらに、第3サブネットワークモデルを含み、前記ビデオ処理装置は、
前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の初期ビデオ系列を得ることであって、前記初期ビデオ系列は、前記少なくとも1つのビデオフレーム及び少なくとも1つの補間フレームを含む、ことと、
前記第2サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも1つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得ることと、
前記第3サブネットワークモデルによって、前記ターゲットビデオ系列内の補間フレームに対して品質強化処理を行い、ターゲット補間フレームを得ることと、
前記ターゲット補間フレームに基づいて、前記ターゲットビデオ系列を更新することと、を実行するように更に構成される、
デコーダ。
【請求項10】
前記普通デコーダはさらに、ビットストリームを解析して、第1指示フラグビットを取得するように構成され、前記第1指示フラグビットは、前記第1解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の空間解像度を向上させる必要があることを示すために用いられ、
前記ビデオ処理装置はさらに、前記第1指示フラグビットに基づいて、前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の
前記初期ビデオ系列を得るように構成され、前記第2解像度は、前記第1解像度より高い、
請求項9に記載のデコーダ。
【請求項11】
前記普通デコーダはさらに、ビットストリームを解析して、前記第2指示フラグビットを取得するように構成され、前記第2指示フラグビットは、前記第1解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の時間解像度を向上させる必要があることを示すために用いられ、
前記ビデオ処理装置はさらに、前記第2指示フラグビットに基づいて、前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の
前記初期ビデオ系列を得るように構成される、
請求項9に記載のデコーダ。
【請求項12】
前記普通デコーダはさらに、ビットストリームを解析して、前記第3指示フラグビットを取得するように構成され、前記第3指示フラグビットは、前記第1解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の画質を向上させる必要があることを示すために用いられ、
前記ビデオ処理装置はさらに、前記第3指示フラグビットに基づいて、前記第2サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも1つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得るように構成される、
請求項9に記載のデコーダ。
【請求項13】
前記普通デコーダはさらに、ビットストリームを解析して、前記超解像度ネットワークモデルのモデルパラメータを取得するように構成され、
前記ビデオ処理装置はさらに、前記モデルパラメータに基づいて、前記超解像度ネットワークモデルを構築するように構成される、
請求項9に記載のデコーダ。
【発明の詳細な説明】
【技術分野】
【0001】
本願の実施例は、ビデオコーデック技術分野に関し、特に、ビデオ処理方法、装置、機器、デコーダ、システム及び記憶媒体に関する。
【背景技術】
【0002】
ビデオ産業チェーンの持続的な発展とコンピュータ技術の持続的な突破に伴い、ビデオを媒体とした情報伝播方式が広く適用されている。ビデオに含まれるデータ量は、通常の文字や画像より比較的に多く、また、イメージング装置の急速な発展に伴い、超高画質ビデオを使用するいくつかのシナリオでは、超高画質ビデオに含まれるデータ量が非常に大きいため、ビデオを保存又は伝送するとき、メモリ容量やネットワーク帯域幅の制限により、ビデオを圧縮する必要がある。しかしながら、ビデオ圧縮後のビデオの画質は、通常、ある程度で低下する。
【0003】
データ量と画質の矛盾を緩和するために、圧縮アルゴリズムの向上と圧縮ビデオに対する後処理は、ビデオ技術研究の重要な方向である。しかしながら、現在の関連技術方案では、アルゴリズムの複雑度が低い技術方案であれば、品質向上効果は明らかではなく、又は品質向上効果が明らかな技術方案であれば、アルゴリズムの複雑度が高すぎる。これは、ビデオ処理と圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決するのに不利である。
【発明の概要】
【0004】
本願実施例は、ビデオの画質及びフレームレートを向上させるだけでなく、コーデック効率も向上させることができるビデオ処理方法、装置、機器、デコーダ、システム及び記憶媒体を提供する。
【0005】
本願実施例の技術方案は、以下のように実現されることができる。
【0006】
第1態様では、本願実施例は、ビデオ機器に適用されるビデオ処理方法を提供し、前記方法は、
第1解像度のビデオ系列を取得することであって、前記ビデオ系列は、少なくとも1つのビデオフレームを含む、ことと、
前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得ることと、を含み、
ここで、前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を向上させるために用いられる。
【0007】
第2態様では、本願実施例は、ビデオ機器に適用されるビデオ処理装置を提供し、前記ビデオ処理装置は、取得ユニットと、処理ユニットと、を備え、
前記取得ユニットは、第1解像度のビデオ系列を取得するように構成され、前記ビデオ系列は、少なくとも1つのビデオフレームを含み、
前記処理ユニットは、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得るように構成され、
ここで、前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を向上させるために用いられる。
【0008】
第3態様では、本願実施例は、メモリと、プロセッサと、を備えるビデオ機器を提供し、
前記メモリは、プロセッサで実行可能なコンピュータプログラムを記憶するために用いられ、
前記プロセッサは、前記コンピュータプログラムが実行されるときに、第1態様に記載の方法を実行するために用いられる。
【0009】
第4態様では、本願実施例は、コンピュータプログラムが記憶されたコンピュータ記憶媒体を提供し、前記コンピュータプログラムが第1プロセッサによって実行されるときに、第1態様に記載の方法を実現する。
【0010】
第5態様では、本願実施例は、普通デコーダと、ビデオ処理装置と、を備えるデコーダを提供し、
前記普通デコーダは、ビットストリームを解析して、第1解像度のビデオ系列を取得するために用いられ、
前記ビデオ処理装置は、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得るように構成され、
ここで、前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を調整するために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を調整するために用いられる。
【0011】
第6態様では、本願実施例は、エンコーダと、デコーダと、を備えるビデオシステムを提供し、前記エンコーダは、前処理装置と、普通エンコーダと、を備え、前記デコーダは、普通デコーダと、ビデオ処理装置と、を備え、
前記前処理装置は、第2解像度の入力ビデオ系列を受信した後、受信した入力ビデオ系列を前処理して、第1解像度のビデオ系列を得るように構成され、
前記普通エンコーダは、前記ビデオ系列に対してビデオ圧縮を行い、ビットストリームを生成し、前記ビットストリームを前記標準デコーダに伝送するように構成され、
前記普通デコーダは、前記ビットストリームを解析して、前記第1解像度のビデオ系列を取得するように構成され、
前記ビデオ処理装置は、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得るように構成され、
ここで、前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を向上させるために用いられる。
【0012】
本願実施例は、ビデオ処理方法、装置、機器、デコーダ、システム及び記憶媒体を提供し、第1解像度のビデオ系列を取得することにより、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得、前記ビデオ系列は、少なくとも1つのビデオフレームを含み、ここで、前記第2解像度は、前記第1解像度より高く、且つ前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度及びフレームレートを向上させるために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果の各フレームの画質を向上させるために用いられる。このように、本願の技術方案では、現在のビデオ圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決できる超解像度ネットワーク設計を採用しており、また、1つのネットワーク(即ち、超解像度ネットワークモデル)を使用してビデオ画像の解像度及びフレームレートを同時に向上させる。したがって、超解像度ネットワークモデルをビデオ圧縮の処理プロセスに適用すると、圧縮ビデオの画質を大幅に向上させることができ、ビデオ画像の解像度及びフレームレートの向上にも大きな効果がある。また、圧縮されたビデオを符号化する前にビデオ系列をダウンサンプリング処理することも可能であるため、符号化対象のビデオデータ量を削減することができ、その後、復号化の後に超解像度ネットワークモデルを採用するときに対応するアップサンプリングを行い、それにより、ビットレートを低下させ、伝送ビットストリームを削減し、コーデック効率を向上させることもできる。
【図面の簡単な説明】
【0013】
【
図1】本願実施例によるビデオ処理プロセスのフローチャートである。
【
図2】本願実施例による別のビデオ処理プロセスのフローチャートである。
【
図3】本願実施例によるビデオ処理方法のフローチャートである。
【
図4】本願実施例による超解像度ネットワークモデルの概略構造図である。
【
図5】本願実施例によるEPI画像を抽出するための概略構造図である。
【
図6】本願実施例による分岐融合超解像度ネットワークモデルの詳細なネットワークの概略構造図である。
【
図7A】本願実施例による分岐モジュールの概略構造図である。
【
図7B】本願実施例によるResDBモジュールの概略構造図である。
【
図8】本願実施例による補間フレーム強化ネットワークモデルの詳細なネットワークの概略構造図である。
【
図9A】本願実施例によるアテンションメカニズムモジュールの概略構造図である。
【
図9B】本願実施例によるチャネルアテンションモジュールの概略構造図である。
【
図9C】本願実施例による空間アテンションモジュールの概略構造図である。
【
図10】本願実施例によるさらに別のビデオ処理プロセスのフローチャートである。
【
図11】本願実施例によるさらに別のビデオ処理プロセスのフローチャートである。
【
図12】本願実施例によるビデオ処理装置の概略構造図である。
【
図13】本願実施例によるビデオ処理装置のハードウェアの概略構造図である。
【
図14】本願実施例によるビデオ機器の概略構造図である。
【
図15】本願実施例によるデコーダの概略構造図である。
【
図16】本願実施例によるビデオシステムの概略構造図である。
【発明を実施するための形態】
【0014】
本願実施例の特徴及び技術的内容をより詳細に理解するために、以下では、図面を参照して本願実施例の実現を詳細に説明し、添付の図面は、参照用のものに過ぎず、本願実施例を限定することを意図するものではない。
【0015】
社会的ニーズと科学技術の進歩に伴い、マルチメディア情報産業が急速に発展し、ビデオの品質と数に対する要求がますます高くなり、それにより、ビデオデータが急増している。圧縮されていないビデオのデータ量が非常に多いため、保存や伝送ネットワークの制限のためにビデオを高効率的に圧縮することは不可欠である。しかしながら、ビデオ圧縮された後のビデオの画質は、通常、ある程度で低下する。データ量と画質の矛盾を緩和するために、圧縮アルゴリズムの向上と圧縮ビデオに対する後処理は、現在一般的に使われている2つの独立した方案であり、どちらもビデオ技術研究の重要な方向である。
【0016】
図1を参照すると、
図1は、本願実施例によるビデオ処理プロセスのフローチャートである。
図1に示すように、まず、ビデオデータ収集モジュール101によってデータ収集を行い、入力ビデオ系列を得、次に、当該入力ビデオ系列を、ビデオ前処理モジュール102によって関連処理を行い、次に、ビデオエンコーダ103によって符号化し、ビットストリームを生成し、当該ビットストリームは、チャネル伝送モジュール104によってビデオデコーダ105に伝送され、ビデオデコーダ105によってビットストリームを解析して、ビデオ系列を取得し、当該ビデオシーケンを、ビデオ後処理モジュール106によって関連処理を行い、それにより、元の入力ビデオ系列を復元し、ビデオディスプレイプレーヤ107でビデオ再生を行う。つまり、
図1は、ビデオ処理プロセス及びビデオ圧縮処理方案全体におけるビデオ後処理モジュール106の位置を示す。ここで、ビデオ前処理モジュール102によってビデオ前処理を行う場合、帯域幅、ビットレートなどの制限により、入力ビデオ系列を調整、例えば、フレームをドロップすることができ、それにより、入力ビデオ系列のフレームレートを低下させることができ、同時に、ビデオ圧縮符号化中に画質が低下することもあり、このとき、ビデオ後処理モジュール106は、ビデオ画質を向上させる重要なステップである。
【0017】
図2を参照すると、
図2は、本願実施例による別のビデオ処理プロセスのフローチャートである。
図2に示すように、当該ビデオ処理プロセスは、低複雑度強化ビデオコーディング(LCEVC:Low Complexity Enhancement Video Coding)の適用シナリオに適用される。ここで、当該適用シナリオは、基本的なビデオエンコーダ及びビデオデコーダをすでに有しているが、品質強化のためにより低い複雑度を使用することが望ましく、そのプラットフォームは、ハードウェアプラットフォームである。LCEVCの基本的な考え方は多層であり、まず、基本となるビットストリームがあり、そのビットストリームを標準化された任意のビデオデコーダを採用して復号化し、それにより、基本的な品質を有するビデオを得ることができ、次に、より多くの層を使用することにより、高品質のビットストリームを得ることができる。例えば、L1層、即ち、残差層のビットストリームを基本的なビットストリームに追加した後、アップサンプリング処理を行うようにしてもよい。次に、L0層、即ち、より詳細な時間領域予測情報を有する高品質な残差層のビットストリームを追加する。したがって、これらの層を重ね合わせることで、再構築後の高品質なビデオを得ることができる。
【0018】
理解すべきこととして、画質の損失について、現在のビデオ後処理技術は、主に画像強化ベースの後処理アルゴリズムと画像復元ベースの後処理アルゴリズムに分類される。ここで、画像強化ベースの後処理アルゴリズムは、画像の主観的な品質を強化することに重点を置いている。典型的なアルゴリズムは、フィルタによって、圧縮された画像に対してフィルタリング処理を行い、画像の視覚効果を向上させるもので、画像のサンプル値そのものを復元するのではなく、圧縮によって生じた歪みを平滑化することで主に実現される。このようなアルゴリズムは、一般に複雑度は低いものの、向上効果は高くない。画像復元ベースの後処理アルゴリズムは、圧縮によって発生した影響を取り除くことに重点を置いており、事前知識とビデオデコーダ側の観測値に基づいて圧縮劣化モデルを構築し、次に、ターゲット関数を選択し、例えば、最大事後確率、スパース表現などの最適な方法を用いてターゲット関数を解く。このようなアルゴリズムは、一般に複雑度が高いが、向上効果は明らかである。
【0019】
フレームレートの損失について、ビデオ後処理技術は、フレームレートの向上を目的としている。フレームレートの向上は、主にブロックマッチングベースのフレームレートの向上アルゴリズムと非ブロックマッチングベースのフレームレートの向上アルゴリズムに分類される。ここで、非ブロックマッチングベースのフレームレートの向上アルゴリズムは、画像内の物体の動きは考慮せず、隣接する線形補間のみを考慮し、利点としては、演算の複雑度が低いことであるが、ビデオフレームに深刻なジッタとブレ現象が発生する。ブロックマッチングベースのフレームレートの向上アルゴリズムは、物体の動きベクトルを推定することにより、物体の動き軌跡上で補間を行い、ビデオのフレームレートを向上させることができる。このようにして、補間されたビデオフレームの品質は明らかに向上させるが、複雑度も増加する。
【0020】
これに基づき、本願実施例は、ビデオ処理方法を提供し、第1解像度のビデオ系列を取得することにより、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得、前記ビデオ系列は、少なくとも1つのビデオフレームを含み、ここで、前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を向上させるために用いられる。このように、本願の技術方案では、現在のビデオ圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決できる超解像度ネットワーク設計を採用しており、また、同一のネットワーク(即ち、超解像度ネットワークモデル)を使用してビデオ画像の解像度及びフレームレートを同時に向上させる。したがって、超解像度ネットワークモデルをビデオ圧縮の処理プロセスに適用すると、圧縮ビデオの画質を大幅に向上させることができ、ビデオ画像の解像度及びフレームレートの向上にも大きな効果がある。また、圧縮されたビデオを符号化する前にビデオ系列をダウンサンプリング処理することも可能であるため、符号化対象のビデオデータ量を削減することができ、その後、復号化の後に超解像度ネットワークモデルを採用するときに対応するアップサンプリングを行い、それにより、ビットレートを低下させ、伝送ビットストリームを削減し、コーデック効率を向上させることもできる。
【0021】
下記において、図面を参照しながら本願の各実施例について詳細に説明する。
【0022】
本願の一実施例では、
図3を参照すると、
図3は、本願実施例によるビデオ処理方法のフローチャートである。
図3に示すように、当該方法は、ステップS301~ステップS302を含み得る。
【0023】
ステップS301において、第1解像度のビデオ系列を取得し、前記ビデオ系列は、少なくとも1つのビデオフレームを含む。
【0024】
ステップS302において、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得る。
【0025】
ここで、超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を向上させるために用いられる。
【0026】
説明すべきこととして、前記ビデオ処理方法は、ビデオ処理装置又は当該ビデオ処理装置を集積されたビデオ機器に適用される。第1解像度のビデオ系列を得た後、超解像度ネットワークモデルを利用して解像度を向上させ、第2解像度のターゲットビデオ系列を得ることができる。即ち、超解像度ネットワークモデルによって、低解像度、低フレームレートのビデオ系列を、高解像度、高フレームレートのビデオ系列になるように再構築することができる。
【0027】
さらに説明すべきこととして、前記ビデオ系列の解像度は、前記ビデオ系列の空間解像度と前記ビデオ系列の時間解像度のうちの少なくとも1つを含む。
【0028】
本願実施例では、ビデオ系列の空間解像度は、ビデオ系列の画像解像度とも呼ばれ得、ビデオ系列の時間解像度は、ビデオ系列のフレームレートとも呼ばれ得る。つまり、解像度について、超解像度ネットワークモデルは、ビデオ系列の画像解像度を向上させるためだけでなく、ビデオ系列のフレームレートを向上させるためにも用いられることができ、さらに、ビデオ系列の画像解像度とフレームレートを同時に向上させるためにも用いられることができ、本願実施例はこれに限定されない。
【0029】
具体的には、第1サブネットワークモデルについて、第1サブネットワークモデルがビデオ系列の画像解像度のみを向上させるために用いられる場合、いくつかの実施例では、超解像度ネットワークが前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得ることは、
前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の初期ビデオ系列を得ることであって、ここで、前記第2解像度は、前記第1解像度より高い、ことと、
前記第2サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも1つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得ることと、を含み得る。
【0030】
第1サブネットワークモデルについて、第1サブネットワークモデルがビデオ系列のフレームレートのみを向上させるために用いられる場合、いくつかの実施例では、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得ることは、
前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の初期ビデオ系列を得ることであって、ここで、前記初期ビデオ系列は、前記少なくとも1つのビデオフレーム及び少なくとも1つの補間フレームを含む、ことと、
前記第2サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも1つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得ることと、を含み得る。
【0031】
第1サブネットワークモデルについて、第1サブネットワークモデルがビデオ系列の画像解像度とフレームレートを同時に向上させるために用いられる場合、いくつかの実施例では、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得ることは、
前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の初期ビデオ系列を得ることであって、ここで、前記第2解像度は、前記第1解像度より高く、且つ前記初期ビデオ系列は、前記少なくとも1つのビデオフレーム及び少なくとも1つの補間フレームを含む、ことと、
前記第2サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも1つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得ることと、を含み得る。
【0032】
説明すべきこととして、超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み得る。ここで、第1サブネットワークモデルと第2サブネットワークモデルの役割は異なる。ここで、第1サブネットワークモデルは、分岐融合超解像度ネットワーク(BFSRNet:Branch Fusion Super Resolution Net)モデルであり得、主にビデオ系列に対して画像解像度及び/又はフレームレートの向上を行い、第2解像度を第1解像度より高くするために用いられ、また、得られた初期ビデオ系列に対応するフレーム数が第1解像度のビデオ系列に対応するフレーム数より多い、即ち、フレームレートを向上させるために、初期ビデオ系列に少なくとも1つの補間フレームを新たに追加する。第2サブネットワークモデルは、品質強化ネットワーク(QENet:Quality Enhancement Net)モデルであり得、主にビデオ系列の少なくとも1フレームに対して品質強化を行うために用いられる。
【0033】
さらに、第1サブネットワークモデルがビデオ系列のフレームレートを向上させるために用いられる場合、初期ビデオ系列には、補間フレームも含まれ得る。補間フレームについて、第2サブネットワークモデルを利用して品質強化処理を行っても、補間フレームの画質がまだ悪い場合、第3サブネットワークモデルによって補間フレームのみに対して品質強化を再度行うこともできる。
【0034】
いくつかの実施例では、前記第2サブネットワークモデルはさらに、第3サブネットワークモデルを含み得、前記ビデオ処理方法は、
前記第3サブネットワークモデルによって、前記ターゲットビデオ系列内の補間フレームに対して品質強化処理を行い、ターゲット補間フレームを得ることと、
前記ターゲット補間フレームに基づいて、前記ターゲットビデオ系列を更新することと、を更に含み得る。
【0035】
ここで、第3サブネットワークモデルは、補間フレーム強化ネットワーク(IFENet:Interpolate Frame Enhancement Net)モデルであり、主にビデオ系列内の、補間のように得られる補間フレームに対して品質強化を更に行うために用いられる。
【0036】
つまり、本願実施例の核心は、ビデオ系列の画像解像度とフレームレート、即ち、空間及び時間超解像度を同時に向上させるために、分岐融合ニューラルネットワークモデル(即ち、超解像度ネットワークモデル)を設計することである。
【0037】
ここで、超解像度ネットワークモデルの全体構造は、
図4に示す通りであり得、当該超解像度ネットワークモデルは、第1サブネットワークモデル401(例えば、分岐融合超解像度ネットワークモデル)及び第2サブネットワークモデル402(例えば、品質強化ネットワークモデル)の2つのサブネットワークモデルで構成され、第2サブネットワークモデル402は、普通強化ネットワークモデル4021及び補間フレーム強化ネットワークモデル4022で構成され得る。ここで、第1サブネットワークモデル401は、主に3つの異なる次元(解像度における2つの次元とフレームレートにおける1つの次元を含む)で同時にビデオ系列に対して超解像を行い、加重平均により融合して超解像の出力結果を得ることを実現する。第2サブネットワークモデル402は、主に超解像度の出力結果に対して少なくとも1フレームの品質向上を行い、具体的には、普通強化ネットワークモデル4021は、超解像度の出力結果に対してフレームごとに対して品質強化を行うことができ、補間フレーム強化ネットワークモデル4022は、補間のように得られる補間フレームに対して品質強化を更に行うことができる。
【0038】
第1サブネットワークモデルについて、第1サブネットワークモデルは、超解像機能を実現する核心とし、当該第1サブネットワークモデルは、少なくとも1つの分岐モジュール及び1つの融合モジュールを含み得る。ここで、いくつかの実施例では、前記第1サブネットワークモデルによって、前記ビデオ系列を処理して、第2解像度の初期ビデオ系列を得ることは、
前記ビデオ系列に基づいて、少なくとも1つの次元の初期エピポーラ平面画像EPI画像集合を構築することであって、ここで、各次元の初期EPI画像集合は、1つの分岐モジュールに対応する、ことと、
前記少なくとも1つの次元の初期EPI画像集合を前記少なくとも1つの分岐モジュールに対応的に入力して、少なくとも1つのターゲットEPI画像集合を得ることと、
前記融合モジュールによって、前記少なくとも1つのターゲットEPI画像集合に対して融合処理を行い、前記初期ビデオ系列を得ることと、を含み得、
ここで、前記初期EPI画像集合内の各EPI画像の解像度は、第1解像度であり、前記ターゲットEPI画像集合内の各EPI画像の解像度は、第2解像度である。
【0039】
説明すべきこととして、第1サブネットワークモデルが分岐融合超解像度ネットワークモデルであることを例とすると、分岐融合超解像度ネットワークモデルは、超解像機能を実現する核心であり、3つの分岐を有する1つのネットワークによって、ビデオ系列の異なる次元から解像度の向上を行ってから、融合を行い、最終的な超解像度の出力結果を得ることができる。
【0040】
ここで、この3つの分岐の設計思想は、エピポーラ平面画像(EPI:Epipolar Plane Image)画像の抽出を参考している。いくつかの実施例では、前記ビデオ系列に基づいて、少なくとも1つの次元の初期EPI画像集合を構築することは、
前記ビデオ系列を並べ重ねることによって、立体ビデオ集合を形成することであって、ここで、前記立体ビデオ集合の次元は、水平解像度次元、垂直解像度次元、及びフレームレート次元を含む、ことと、
前記立体ビデオ集合の1つの次元に基づいて、前記立体ビデオ集合の前記1つの次元で前記立体ビデオ集合に対して少なくとも一回のスライス操作を行った後、少なくとも1つのEPI画像を抽出し、前記少なくとも1つのEPI画像から、前記立体ビデオ集合の前記1つの次元における初期EPI画像集合を構成することと、
前記立体ビデオ集合の少なくとも1つの次元に基づいて、前記少なくとも1つの次元の初期EPI画像集合を得ることと、を含み得る。
【0041】
つまり、
図5を例にすると、
図5は、本願実施例によるEPI画像を抽出するための概略構造図である。
図5に示すように、(a)は、複数のビデオフレームを含む1つのビデオ系列を示す。一定の順序を有する複数の当該ビデオ系列を並べ重ねることによって、(b)に示されるような、V(x,y,n)で表される立体ビデオ集合を形成することができ、ここで、各ビデオフレームの画像解像度は、(H,W)であり、ビデオフレームの数は、Nである。次に、任意の軸の方向に沿って、任意の行をスライス点として選択し、当該立体ビデオ集合に対してスライス操作を行い、即ち、集合内のすべての画像の同じ高さの画素を抽出することによって、一連の線形特性を有する画像、即ち、EPI画像を得る。(c)に示すように、y軸の方向に沿って、i番目の行をスライス点として選択してスライス操作を行い、(d)に示すような単一のEPI画像を得る。このようにして、1つの軸におけるすべての行に対してスライス操作を行うことによって、一連のEPI画像を得ることができ、それによって、この軸における1つの初期EPI画像集合を構成する。ここで、1つの軸は1つの次元を表す。
【0042】
理解可能なこととして、分岐融合超解像度ネットワークモデルの詳細なネットワーク構成は、
図6に示す通りであり、当該ネットワークモデルは、ビデオフレームの画像解像度とフレーム補間の効果を同時に実現することができる。
図6において、当該ネットワークモデルの全体的なフレームワークは、第1分岐(B1_SRNetで表す)モジュール601、第2分岐(B2_SRNetで表す)モジュール602、第3分岐(B3_SRNetで表す)モジュール603、及び融合(Fusionで表す)モジュール604を含む。ここで、第1分岐モジュール601、第2分岐モジュール602、及び第3分岐モジュール603の3つの分岐モジュールは、立体ビデオ集合内の3つの次元を考慮しており、各分岐モジュールは、立体ビデオ集合内の異なる次元の初期EPI画像集合における操作として見なすことができる。また、本願実施例では、3つの分岐モジュールは、3次元畳み込みモジュール内のConvTranspose3d層のパラメータのみが異なる以外に、類似したネットワーク構造を採用しており、ここで、ConvTranspose3d層は、転置3D畳み込み層と呼ばれ得、又は3D解畳み込み層、3D逆畳み込み層などとも呼ばれ得る。このようにして、3つの分岐モジュールは、それぞれの超解像が完了された後、融合モジュール604に入力される。いくつかの実施例では、前記融合モジュールによって、前記少なくとも1つのターゲットEPI画像集合に対して融合処理を行い、前記初期ビデオ系列を得ることは、
前記融合モジュールによって、前記少なくとも1つのターゲットEPI画像集合に対して加重平均処理を行い、前記初期ビデオ系列を得ることを含み得る。
【0043】
つまり、本願実施例では、単純な加重平均方式で融合することを採用することができ、融合の後に分岐融合超解像度ネットワークモデルの最終出力結果を得る。
【0044】
さらに説明すべきこととして、各分岐モジュールについて、いくつかの実施例では、前記分岐モジュールは、アップサンプリングモジュールと、畳み込み計算モジュールとを含み得、前記ビデオ処理方法は、
前記立体ビデオ集合の1つの次元における初期EPI画像集合を対象にして、前記アップサンプリングモジュールによって、前記初期EPI画像集合に対して解像度を向上させ、第1EPI画像集合を得ることと、
前記畳み込み計算モジュールによって、前記第1EPI画像集合に対して畳み込み演算を行い、前記立体ビデオ集合の1つの次元におけるターゲットEPI画像集合を得ることと、を更に含み得る。
【0045】
ここで、畳み込み計算モジュールは、2次元畳み込み(Conv2d)モジュール、3次元畳み込み(Conv3d)モジュール、及び補正畳み込み(ResDB)モジュールを含み得、これらの畳み込みモジュールによって、第1EPI画像集合に対して畳み込み演算を行うことにより、前記立体ビデオ集合の1つの次元におけるターゲットEPI画像集合を得ることができる。
【0046】
具体的には、
図7Aに示すように、
図7Aは、本願実施例による分岐モジュールの概略構造図である。
図7Aにおいて、分岐融合超解像度ネットワークモデルは、まず、アップサンプリングモジュール(即ち、単純なアップサンプリング演算子)によって現在の次元の初期EPI画像集合の解像度を向上させる。次に、畳み込み計算モジュールによって処理し、これは、2つのConv2d層による浅層特徴抽出と一連のResDBモジュール(即ち、ResDB 1モジュール、…、ResDB dモジュール、…、ResDB Dモジュールなど)による深層特徴抽出を含み、ここで、各ResDBモジュール自体は、残差学習方式を使用し、複数のResDBモジュールの出力は、接続(Concat)層によって特徴連結を行い、次に、1×1のConv2d層を使用して、特徴チャネルの数を削減する。さらに、残差再構築も1つのConv2d層を使用して、アップサンプリングモジュールをジャンプ式の接続により画像を得、更に、超解像のEPI画像集合を得る。最後に、ConvTranspose3d層の3D逆畳み込みを使用して立体ビデオ集合の3つの次元解像度を向上させてから、Conv3d層を使用して立体ビデオ集合の画像解像度及びフレームレートにおける超解像度再構築を遂行する必要がある。ここで、ConvTranspose3d層はさらに、リーク補正付きリニアユニット(Leaky ReLU:Leaky Rectified Linear Unit)関数を含む。
【0047】
また、
図7Bに示すように、ResDBモジュールの構成構造は、3つの活性化関数を有するConv2d層と1つの1*1のConv2d層で構成され得る。ここで、各ResDBモジュール内部はすべて、密集接続を採用しており、これら3つのConv2d層の出力は、Concatによって結合され、1*1のConv2d層によって次元削減される。また、ResDBモジュールとResDBモジュールとの間にはジャンプ式の接続を使用しており、即ち、前のブロック(即ち、ResDB d-1モジュール)の出力と現在のブロック(即ち、ResDB dモジュール)の出力とを重ね合わせ、次に、合計値を次のブロック(即ち、ResDB d+1モジュール)の入力として使用する。
【0048】
注意すべきこととして、活性化関数は、線形整流関数(ReLU:Rectified Linear Unit)であり得、補正線形ユニットとも呼ばれ、人工ニューラルネットワークでよく用いられる活性化関数であり、通常、ランプ関数とその派生を始めとする非線形関数を指す。また、Leaky ReLU関数は、古典的な(及び広く使用されている)ReLu関数の変形である。ReLU関数の入力値が負の場合、出力は常に0であるため、その1次微分も常に0であり、ReLU関数のこの欠点を解決するために、ReLU関数の負の半分の区間に1つのリーク(Leaky)値、即ち、Leaky ReLU関数を導入する。
【0049】
さらに、第1サブネットワークモデルによって、ビデオ系列の画像解像度及びフレームレートの向上を行った後、ビデオフレームの画質を更に向上させる必要があり、この場合、第2サブネットワークモデル、即ち、品質強化ネットワークモデルが追加される。ここで、品質強化ネットワークモデルは、フレームごとに画質を強化してもよく、フレームの一部の画質を強化してもよい。つまり、品質強化ネットワークモデルは、固定的ではなく、通常、第2サブネットワークモデルは、普通強化ネットワークモデル(即ち、本願実施例に記載のQENetモデル)を含み、QENetモデルは、既存の任意の画像ビデオ品質強化ネットワークモデル、例えば、超解像畳み込みニューラルネットワーク(SRCNN:Super-Resolution Convolutional Neural Network)モデル、アーチファクト除去畳み込みニューラルネットワーク(ARCNN:Artifacts Reduction Convolutional Neural Network)モデル、超解像超深度ネットワーク(VDSR:Very Deep convolutional networks for Super-Resolution)モデル、ビデオ超解像再帰反射ネットワーク(RBPN:Recurrent Back-Projection Network for Video Super-Resolution)モデル、及び強化可変畳み込みネットワークに基づくビデオ再構築(EDVR:Video Restoration with Enhanced Deformable Convolutional Networks)モデルなどを採用することができる。ビデオ処理装置の設計の複雑度の必要性から、効果的で複雑度の低いネットワークを選択することをお勧めし、ここで、本願実施例は、ARCNNモデルを選択することが好適である。
【0050】
しかしながら、ビデオ系列内の一部の物体の動きが大きいため、フレームレートの向上のときに補間された補間フレームは、既存の動き傾向を満たしているものの、品質は良くない。この場合、1つの単純なネットワーク(即ち、第3サブネットワークモデル)によって補間フレームの画質を更に向上させることができる。
【0051】
いくつかの実施例では、前記第3サブネットワークモデルによって、前記ターゲットビデオ系列内の補間フレームに対して品質強化処理を行い、ターゲット補間フレームを得ることは、
処理待ちの補間フレーム及び所定の1つ又は複数のビデオフレームを取得することと、
前記補間フレーム及び前記所定の1つ又は複数のビデオフレームを第3サブネットワークモデルに入力して、前記補間フレームに対応するターゲット補間フレームを得ることと、を含み得る。
【0052】
ここで、前記所定の1つ又は複数のビデオフレームは、前記補間フレームに隣接する1つ又は複数のビデオフレームであり得、即ち、処理待ちの補間フレーム及び所定の1つ又は複数の隣接ビデオフレームを取得し、次に、取得した補間フレーム及び予定の1つ又は複数の隣接ビデオフレームを第3サブネットワークモデルに入力して、前記補間フレームに対応するターゲット補間フレームを得る。
【0053】
より具体的には、前記所定の1つ又は複数のビデオフレームは、隣接する2つのビデオフレーム、即ち、前記補間フレームに隣接する1つ前のビデオフレーム及び次のビデオフレームであり得る。この場合、いくつかの実施例では、前記第3サブネットワークモデルによって、前記ターゲットビデオ系列内の補間フレームに対して品質強化処理を行い、ターゲット補間フレームを得ることは、
前記ターゲットビデオ系列の再生順序に基づいて、処理待ちの補間フレームと、前記補間フレームに隣接する1つ前のビデオフレーム及び次のビデオフレームを取得することと、
前記補間フレーム、前記1つ前のビデオフレーム、及び前記次のビデオフレームを、前記第3サブネットワークモデルに入力して、前記補間フレームに対応するターゲット補間フレームを得ることと、を含み得る。
【0054】
つまり、処理待ちの補間フレームを取得した後、所定の1つ又は複数のビデオフレームを組み合わせてもよく、又は、具体的に1つ又は複数の隣接ビデオフレームを組み合わせてもよく、さらに、具体的に隣接する1つ前のビデオフレームと次のビデオフレームを組み合わせてもよく、次に、第3サブネットワークモデルによって、対応するターゲット補間フレームを得る。本願実施例では、「前と次」という表現について、1つの可能な実施形態は、ビデオ系列に対応する再生順序(displaying order)であり、又は、別の可能な実施形態は、復号化されたビデオに対して、例えば、H.266/多機能ビデオ符号化(VVC:Versatile Video Coding)デコーダ、H.265/高効率ビデオ符号化(HEVC:High Efficiency Video Coding)デコーダなどの従来のデコーダによって出力される復号化後のビデオ系列の画像順序(即ち、output order)であっても良い。ここで、ターゲットビデオ系列の再生順序を、「前と次」と定義される順序とすることができるが、本願実施例はこれに限定されない。
【0055】
また、説明すべきこととして、前記第3サブネットワークモデルは、第1畳み込みモジュール、アテンションメカニズムモジュール、第2畳み込みモジュール、及び加算モジュールを含み、前記第1畳み込みモジュールは、活性化関数を含み、前記第2畳み込みモジュールは、活性化関数を含まない。
【0056】
さらに、いくつかの実施例では、前記第1畳み込みモジュールの数は、1つ又は複数であり、前記アテンションメカニズムモジュールの数は、1つ又は複数であり、前記第2畳み込みモジュールの数は、1つであり、前記加算モジュールの数は、1つである。この場合、いくつかの実施例では、前記補間フレーム及び前記所定の1つ又は複数のビデオフレームを第3サブネットワークモデルに入力して、前記補間フレームに対応するターゲット補間フレームを得ることは、
前記第1畳み込みモジュール及び前記アテンションメカニズムモジュールによって、前記補間フレーム及び前記所定の1つ又は複数のビデオフレームに対して特徴抽出を行い、特徴画像を得ることと、
前記第2畳み込みモジュールによって、前記特徴画像に対して畳み込み演算を行い、残差画像を得ることと、
前記加算モジュールによって、前記強化された補間フレームと前記残差画像とを重ね合わせて、前記補間フレームに対応するターゲット補間フレームを得ることと、を含み得る。
【0057】
いくつかの実施例では、前記補間フレーム、前記1つ前のビデオフレーム、及び前記次のビデオフレームを、前記第3サブネットワークモデルに入力して、前記ターゲット補間フレームを得ることは、
前記第1畳み込みモジュール及び前記アテンションメカニズムモジュールによって、前記補間フレーム、前記1つ前のビデオフレーム及び前記次のビデオフレームに対して特徴抽出を行い、特徴画像を得ることと、
前記第2畳み込みモジュールによって、前記特徴画像に対して畳み込み演算を行い、残差画像を得ることと、
前記加算モジュールによって、前記強化された補間フレームと前記残差画像とを重ね合わせて、前記ターゲット補間フレームを得ることと、を含み得る。
【0058】
つまり、第2サブネットワークモデルには、画質を強化するための第3サブネットワークモデルが含まれ得る。ここで、第3サブネットワークモデルが補間フレーム強化ネットワークモデルであることを例とすると、当該ネットワーク構造は、
図8に示す通りである。
図8において、当該ネットワークモデルの入力は、品質を向上させる必要のある補間フレーム及びその前後の2つのビデオフレーム、合計3フレームの画像である。当該ネットワーク構造は、7つのConv層で構成され、最初の6つのConv層は、特徴抽出に用いられ、最後のConv層は、残差再構築に用いられる。最後のConv層を除いて、残りの6つのConv層は、活性化関数(即ち、灰色で塗りつぶされたReLU関数)が追加される。向上させる必要のある補間フレームとネットワーク出力の残差画像を重ね合わせることで、最終的な補間フレームを得ることができる。また、
図8のネットワーク構造にはアテンションメカニズムモジュール(CBAM:Convolutional Block Attention Module)が追加され、当該アテンションメカニズムモジュールにも活性化関数を有し、抽出された特徴をより正確にすることができる。
【0059】
図9Aに示すように、
図9Aは、アテンションメカニズムモジュールの構造の例を提供する。ここで、アテンションメカニズムモジュールは、チャネルアテンションモジュール(CA:Channel Attention module)901及び空間アテンションモジュール(SA:Spatial Attention module)902を含み得る。入力特徴をチャネルアテンションモジュール901及び空間アテンションモジュール902を順次に経由させた後、抽出された特徴をより正確にすることができる。
【0060】
ここで、チャネルアテンションモジュール901は、具体的には、
図9Bに示す通りであり、特徴のチャネル間関係を利用して、チャネルアテンションマップを生成することを核心思想とする。このステップは、入力特徴(Fで表す)に対して、最大プール化(Max Pool)及び平均プール化(Avg Pool)をそれぞれ行って、空間情報を集約して、それぞれF_max及びF_avgで表される2つのC次元プーリング特徴画像を得ることと、F_max及びF_avgを1つの隠れ層を含む多層パーセプトロン(Multilayer Perceptron,MLP)に送り込み、2つの1×1×Cのチャネルアテンションマップを得ることと、MLPによって得られた2つのチャネルアテンションマップに対して、対応する要素を追加及び活性化して、最終的なチャネルアテンションマップ(MCで表す)を得ることと、を含み得る。
【0061】
空間アテンションモジュールは、具体的には
図9Cに示す通りであり、特徴間の空間関係を利用して、空間アテンションマップを生成することを核心思想とする。このステップは、チャネルアテンションモジュール901によって細分化された特徴(F’で表す)に対して、まず、チャネル方向に沿って、最大プール化及び平均プール化を行い、1×H×Wの属性の2つの2次元特徴マップ(F_avg及びF_maxで表す)を得、得られた2つの2次元特徴マップを次元連結(concatenate)して、連結された特徴マップを得ることと、連結された特徴マップに対して、7×7サイズの畳み込み層を利用して、空間アテンションマップ(Msで表す)を生成することと、を含む。
【0062】
図8に示すネットワーク構造を参照すると、補間フレーム強化ネットワークモデルの具体的なステップは、普通強化ネットワークモデルによってフレームごとに強化されたビデオフレームに対して、補間フレーム強化が必要なフレームとその前後2フレームの計3フレームの結合を入力として、補間フレーム強化ネットワークモデルに送り込み、活性化関数を有する複数のConv層及びアテンションメカニズムモジュールで構成された特徴抽出と1つの残差再構築を有するConv層を経由して、残差画像を得、残差画像と補間フレーム強化が必要な元の補間フレーム画像を重ね合わせて、最終的に品質強化されたターゲット補間フレームを得ることを含む。即ち、当該ネットワーク構造の入力は、補間フレームに関連する前後2フレームと補間フレームの計3フレームであり、出力されるのは、品質強化された後の補間フレームの1フレームのみである。
【0063】
このようにして、第1サブネットワークモデル及び第2サブネットワークモデルに基づいて、本願実施例の超解像度ネットワークモデルを得ることができる。さらに、いくつかの実施例では、前記ビデオ処理方法は、
前記超解像度ネットワークモデルのモデルパラメータを決定することと、
決定されたモデルパラメータに基づいて、前記超解像度ネットワークモデルを構築することと、を更に含み得る。
【0064】
さらに、いくつかの実施例では、前記超解像度ネットワークモデルのモデルパラメータを決定することは、
訓練サンプルを取得することであって、ここで、前記訓練サンプルは、少なくとも第1解像度の複数のビデオフレーム及び第2解像度の複数のビデオフレームを含む、ことと、
前記訓練サンプルを利用して、ニューラルネットワークに基づく超解像度ネットワークモデルを訓練して、前記モデルパラメータを得ることと、を含み得る。
【0065】
さらに、いくつかの実施例では、前記超解像度ネットワークモデルのモデルパラメータを決定することは、
ビットストリームを解析することにより、前記モデルパラメータを取得することを含み得る。
【0066】
説明すべきこととして、訓練サンプルは、少なくとも第1解像度の複数のビデオフレーム及び第2解像度の複数のビデオフレーム、又は、第1解像度の複数のビデオ画像及び第2解像度の複数のビデオ画像を含み、モデルパラメータ訓練を行い、超解像度ネットワークモデルのモデルパラメータを得るために用いられる。
【0067】
つまり、超解像度ネットワークモデルのモデルパラメータについて、一方、訓練サンプルに基づいてモデルパラメータ訓練を行うことによって得られるものであり、もう一方、エンコーダ側によってモデルパラメータ訓練を行い、次に、訓練されたモデルパラメータをビットストリームに書き込み、デコーダ側がビットストリームを解析することによってモデルパラメータを直接取得するものでもあり得、本願実施例では限定されない。
【0068】
要するに、本願実施例は、主に現在のビデオ圧縮プロセスで発生する画質損失やビデオフレームレートの低下などの問題を解決すると同時に、前処理のときのダウンサンプリング(即ち、ダウンサンプリング処理)し、次に、ビデオ後処理のときの再構築を復元することにより、現在のコーデック効率が低いという問題も解決する。
【0069】
本願実施例は、主に超解像度ネットワークモデルをベースとして、それをビデオ処理プロセスに適用する。
【0070】
下記において、いくつかの適用シナリオにおける超解像度ネットワークモデルの適用について説明する。
【0071】
(1)ビデオ圧縮の後処理ステップに適用される。
図1に示すように、データ収集及びビデオ前処理が行われた後、ビデオエンコーダ103によって符号化を行ってビットストリームを生成し、次に、復号化側ではビデオデコーダ105によってビットストリームを解析してビデオを再構築する。ビデオ処理プロセス全体で画質及びフレームレートの損失が生じるため、本願実施例における超解像度ネットワークモデルは、ビデオの後処理に適用され得、それにより、ビデオの画質を向上させ、同時に、復号化側のフレームレートに対する要求を満たすために、後処理時にフレームレートを同時に向上させることもできる。
【0072】
(2)LCEVCビデオ圧縮方案に適用される。
図2に示すように、現在のLCEVC方案では、基本的なビットストリームを得た後、複数の層で高品質のビデオを取得する。本願実施例では、複数の層を1つの層に変更でき、即ち、基本的なビットストリームを復号化して基本的な品質のビデオを取得した後、本願実施例における超解像度ネットワークモデルを直接採用して、高品質のビデオを取得することができる。
【0073】
(3)低ビットレートのビデオ圧縮方案に適用される。現在のビデオ系列のほとんどは、高解像度及び高フレームレートであり、ビデオ系列全体を直接圧縮すると、符号化効率が低くなり、ビットストリーム量が大きくなる。この問題を解決するために、低ビットレートの圧縮方案を設計することができる。
図10に示すように、エンコーダ側のオリジナルの入力ビデオ系列について、ダウンサンプリングモジュール1001によってダウンサンプリング処理を行い、低解像度、低フレームレートのビデオ系列を得、次に、ビデオエンコーダ103によって、ダウンサンプリングされたビデオ系列を符号化して、例えば、01010001011101010であるビットストリームを生成し、当該ビットストリームをデコーダ側に伝送し、ビデオデコーダ105によってビットストリームを解析して、復号化された低解像度、低フレームレートのビデオ系列を得、次に、超解像度再構築モジュール1002によって、入力ビデオ系列と同じ高解像度、高フレームレートのビデオ系列を得ることができる。このとき、超解像度再構築モジュール1002は、本願実施例における超解像度ネットワークモデルを利用して超解像度再構築を実現することができる。つまり、超解像度ネットワークモデルの核心は、復号化された低解像度、低フレームレートのビデオ系列を、入力ビデオ系列と同じ高解像度、高フレームレートのビデオ系列に超解像再構築することである。
【0074】
(4)スケーラブルビデオ符号化(SVC:Scalable Video Coding)方案に適用される。実際の適用環境に応じて選択することができ、ビデオ系列を異なる部分に分け、ダウンサンプリング符号化するか否か、何倍のダウンサンプリング符号化を行うか否か、一括符号化がいくつかのチャネルや端末に適応させるかなどを選択することができる。ここで、帯域幅によってビデオの伝送が制限される。帯域幅が不足する場合、異なるダウンサンプリング倍数のビデオ符号化のビットストリームを伝送及び復号化する必要があるが、このとき、復号化されたビデオの画質は高くなく、復号化の後、超解像度ネットワークモデルを採用して画質を向上させることができる。帯域幅が徐々に大きくなると、入力ビデオ系列のビットストリームを伝送及び復号化して、高品質のビデオを直接取得することができる。具体的には、
図11に示すように、当該プロセスは以下のステップを含み得る。
【0075】
ステップS1101において、入力ビデオ系列を取得する。
【0076】
ステップS1102において、帯域幅が要件を満たすか否かを判断する。
【0077】
ステップS1103において、判定結果が「はい」であれば、ビデオエンコーダを利用して符号化して、ビットストリームを生成する。
【0078】
ステップS1104において、判定結果が「いいえ」であれば、ダウンサンプリング処理を行い、ステップS1103を実行する。
【0079】
ステップS1105において、ビットストリームを伝送する。
【0080】
ステップS1106において、ビデオデコーダを利用してビットストリームを解析して、解析されたビデオ系列を取得する。
【0081】
ステップS1107において、ターゲット品質要件を満たすか否かを判断する。
【0082】
ステップS1108において、判定結果が「はい」であれば、解析されたビデオ系列をターゲットビデオ系列として決定する。
【0083】
ステップS1109において、判定結果が「いいえ」であれば、解析されたビデオ系列を超解像度ネットワークモデルに入力して処理し、超解像度ネットワークモデルの出力をターゲットビデオ系列として決定する。
【0084】
つまり、ビデオエンコーダ側では、現在検出された帯域幅環境に基づいて、入力ビデオ系列に対するダウンサンプリングが必要か否かを判断し、必要であれば、対応するダウンサンプリング倍数を選択して、入力ビデオ系列に対して空間解像度及びフレームレートでダウンサンプリングを行い、次に、既存のビデオエンコーダを使用して符号化して、ビットストリームを取得し、ビデオデコーダ側では、対応するビデオデコーダを採用して符号化し、次に、超解像度ネットワークモデルを入力して、それにより、必要な解像度及びフレームレートのターゲットビデオ系列を得ることができる。
【0085】
理解すべきこととして、本願実施例は、ビデオの画像解像度及びフレームレート、即ち、空間及び時間で超解像を同時に向上させることができる分岐融合ニューラルネットワーク構造を提案する。また、ネットワーク構造全体は、分岐融合超解像度ネットワークモデル及び品質強化ネットワークモデルの2つのサブネットワークモデルで構成され得、ここで、品質強化ネットワークモデルには、普通強化ネットワークモデル及び補間フレーム強化ネットワークモデルが含まれ得る。つまり、ネットワーク構造全体は、分岐融合超解像度ネットワークモデル、普通強化ネットワークモデル、及び補間フレーム強化ネットワークモデルの3つのサブネットワークモデルで構成され得る。具体的には、分岐融合超解像度ネットワークモデルは、3つの分岐を有するネットワークのネットワーク構造を採用しており、各分岐ネットワークは密結合残差学習法を採用することでネットワークの性能を向上させ、立体ビデオ集合の異なる次元から、ビデオ系列の画像解像度及びフレームレートを向上させる。一方、補間フレーム強化ネットワークモデルは、補間フレーム及び前後2つの隣接フレームを入力とし、アテンションメカニズムモデルと組み合わせることで、当該補間フレームに品質を更に向上させることができる。
【0086】
説明すべきこととして、本願実施例における超解像度ネットワークモデルの、ビデオ圧縮プロセスにおける適用シナリオは、3種類があり得、第1は、単純なビデオ圧縮後処理であり、圧縮及び再構築されたビデオに対してビデオ画像で超解像度してフレームレートを向上させ、第2は、これに基づいて設計された低ビットレートビデオ圧縮方案であり、符号化の前に、まずビデオに対して空間及び時間でダウンサンプリングを行い、復号化の後に、対応する超解像度の向上を行うことにより、ビットレートを大幅に低下させることができ、第3は、当該超解像度ネットワークモデルをビデオ符号化規格のフレーム間予測部に適用することであり、参照フレームの数を削減し、予測精度を向上させることができる。
【0087】
また、本願実施例における超解像度ネットワークモデルのネットワーク構造は変更可能である。具体的には、分岐融合超解像度ネットワークモデルの3つの分岐は、適切に削除することで、異なるシナリオ、異なる計算機能のニーズを満たすことができる。普通強化ネットワークモデルのネットワーク構造の実際の応用では、通常、ARCNNモデルを使用しているが、ビデオフレームの画質強化効果を満たす限り、これに限定されない。補間フレーム強化ネットワークモデルのConv層の数とアテンションメカニズムモジュールの数も限定されず、適切に増減することができる。すべての変更により、ビデオ系列の最終的な画質にギャップが生じる可能性がある。
【0088】
このようにして、本願実施例で提案された低ビットレート圧縮方案は、符号化効率を大幅に向上させる。具体的には、圧縮符号化前にビデオに対して空間及び時間でダウンサンプリングすることにより、符号化が必要なビデオデータ量を大幅に削減し、復号化の後に超解像度ネットワークモデルを採用して、対応するアップサンプリングを行い、元のビデオを復元する。全体として、ビットレートを大幅に低下させ、符号化効率を大幅に向上させ、伝送ビットストリームを削減することができる。また、本願実施例で採用された超解像ネットワーク設計は、ビデオの画質及びフレームレートを大幅に向上させ、提案された超解像度ネットワークモデルは、ビデオ圧縮の処理プロセスに適用することにより、圧縮ビデオの品質を大幅に向上させることができ、ビデオ画像の超解像及びフレームレートの向上にも大きな効果がある。本願実施例で提案された超解像度ネットワークモデルは、主に1つのネットワークを使用して、ビデオフレーム画像の超解像及びフレームレートの向上の2つの効果を同時に実現する。
【0089】
例として、超解像度ネットワークモデルは、PyTorchプラットフォームを使用してNvidia GTX 1080Ti GPUに実装でき、実験の訓練集合及びテスト集合は、いずれもVimeo-90Kを使用する。ビデオフレーム画像で4倍超解像を実現し、フレームレートを2倍向上させたと仮定すると、具体的な実験結果は表1に示す通りである。ここで、1行目は、第1サブネットワークモデル(即ち、BFSRNetモデル)のみを使用した実験結果を示し、2行目は、BFSRNetモデルに加えて、第2サブネットワークモデルにおけるQENetモデルを追加した実験結果を示し、最後の行は、BFSRNetモデルとQENetモデルに加えて、IFENetモデルを更に使用した実験結果を示す。表1において、ピーク信号対雑音比(PSNR:Peak Signal to Noise Ratio)と構造類似性(SSIM:Structural SIMilarity)は、1つのビデオ系列のすべてのフレームの平均結果として、超解像度(SR:Super-Resolution)のPSNR/SSIMは、単に了ビデオフレーム画像の超解像のみを行ったすべてのフレームの平均結果に相当し、ビデオフレーム補間(VFI:Video Frame Interpolation)のPSNR/SSIMは、すべての補間フレームの平均結果に相当する。表1の結果から分かるように、本願実施例で追加された普通品質強化ネットワークモデル及び補間フレーム強化ネットワークモデルは、いずれも一定の効果を果たし、PSNR及びSSIMは、いずれも向上させることができる。
【表1】
本実施例は、ビデオ処理方法を提供し、第1解像度のビデオ系列を取得することにより、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得、前記ビデオ系列は、少なくとも1つのビデオフレームを含み、ここで、前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を向上させるために用いられる。このように、本願の技術方案では、現在のビデオ圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決できる超解像度ネットワーク設計を採用しており、また、1つのネットワーク(即ち、超解像度ネットワークモデル)を使用してビデオ画像の解像度及びフレームレートを同時に向上させる。したがって、超解像度ネットワークモデルをビデオ圧縮の処理プロセスに適用すると、圧縮ビデオの画質を大幅に向上させることができ、ビデオ画像の解像度及びフレームレートの向上にも大きな効果がある。また、圧縮されたビデオを符号化する前にビデオ系列をダウンサンプリング処理することも可能であるため、符号化対象のビデオデータ量を削減することができ、その後、復号化の後に超解像度ネットワークモデルを採用するときに対応するアップサンプリングを行い、それにより、ビットレートを低下させ、伝送ビットストリームを削減し、コーデック効率を向上させることもできる。
【0090】
本願の別の実施例では、前述した実施例と同じ技術的構想に基づいて、
図12を参照すると、
図12は、本願実施例によるビデオ処理装置120の概略構造図である。
図12に示すように、当該ビデオ処理装置120は、取得ユニット1201と、処理ユニット1202と、を備えることができ、
取得ユニット1201は、第1解像度のビデオ系列を取得するように構成され、ここで、前記ビデオ系列は、少なくとも1つのビデオフレームを含み、
処理ユニット1202は、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得るように構成され、
ここで、前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を向上させるために用いられる。
【0091】
いくつかの実施例では、前記ビデオ系列の解像度は、前記ビデオ系列の空間解像度と前記ビデオ系列の時間解像度のうちの少なくとも1つを含む。
【0092】
いくつかの実施例では、処理ユニット1202は具体的には、前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の初期ビデオ系列を得、前記第2サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも1つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得るように構成され、ここで、前記第2解像度は、前記第1解像度より高い。
【0093】
いくつかの実施例では、処理ユニット1202は、具体的には、前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の初期ビデオ系列を得、前記初期ビデオ系列は、前記少なくとも1つのビデオフレーム及び少なくとも1つの補間フレームを含み、前記第2サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも1つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得るように構成される。
【0094】
いくつかの実施例では、前記第1サブネットワークモデルは、分岐融合超解像度ネットワークモデルであり、前記第2サブネットワークモデルは、品質強化ネットワークモデルである。
【0095】
いくつかの実施例では、前記第2サブネットワークモデルはさらに、第3サブネットワークモデルを含み、
処理ユニット1202はさらに、前記第3サブネットワークモデルによって、前記ターゲットビデオ系列内の補間フレームに対して品質強化処理を行い、ターゲット補間フレームを得、前記ターゲット補間フレームに基づいて、前記ターゲットビデオ系列を更新するように構成される。
【0096】
いくつかの実施例では、前記第3サブネットワークモデルは、補間フレーム強化ネットワークモデルである。
【0097】
いくつかの実施例では、前記第1サブネットワークモデルは、少なくとも1つの分岐モジュール及び1つの融合モジュールを含み、
処理ユニット1202はさらに、前記ビデオ系列に基づいて、少なくとも1つの次元の初期エピポーラ平面画像EPI画像集合を構築し、各次元の初期EPI画像集合は、1つの分岐モジュールに対応し、前記少なくとも1つの次元の初期EPI画像集合を前記少なくとも1つの分岐モジュールに対応的に入力して、少なくとも1つのターゲットEPI画像集合を得、前記融合モジュールによって、前記少なくとも1つのターゲットEPI画像集合に対して融合処理を行い、前記初期ビデオ系列を得るように構成され、前記初期EPI画像集合内の各EPI画像の解像度は、第1解像度であり、前記ターゲットEPI画像集合内の各EPI画像の解像度は、第2解像度である。
【0098】
いくつかの実施例では、処理ユニット1202はさらに、前記ビデオ系列を並べ重ねることによって、立体ビデオ集合を形成し、前記立体ビデオ集合の次元は、水平解像度次元、垂直解像度次元、及びフレームレート次元を含み、前記立体ビデオ集合の1つの次元に基づいて、前記立体ビデオ集合の前記1つの次元で前記立体ビデオ集合に対して少なくとも一回のスライス操作を行った後、少なくとも1つのEPI画像を抽出し、前記少なくとも1つのEPI画像から、前記立体ビデオ集合の前記1つの次元における初期EPI画像集合を構成し、前記立体ビデオ集合の少なくとも1つの次元に基づいて、前記少なくとも1つの次元の初期EPI画像集合を得るように構成される。
【0099】
いくつかの実施例では、前記分岐モジュールは、アップサンプリングモジュール及び畳み込み計算モジュールを含み、
処理ユニット1202はさらに、前記立体ビデオ集合の1つの次元における初期EPI画像集合を対象にして、前記アップサンプリングモジュールによって、前記初期EPI画像集合に対して解像度を向上させ、第1EPI画像集合を得、前記畳み込み計算モジュールによって、前記第1EPI画像集合に対して畳み込み演算を行い、前記立体ビデオ集合の1つの次元におけるターゲットEPI画像集合を得るように構成される。
【0100】
いくつかの実施例では、処理ユニット1202はさらに、前記融合モジュールによって、前記少なくとも1つのターゲットEPI画像集合に対して加重平均処理を行い、前記初期ビデオ系列を得るように構成される。
【0101】
いくつかの実施例では、取得ユニット1201はさらに、処理待ちの補間フレーム及び所定の1つ又は複数のビデオフレームを取得するように構成され、
処理ユニット1202はさらに、前記補間フレーム及び前記所定の1つ又は複数のビデオフレームを第3サブネットワークモデルに入力して、前記補間フレームに対応するターゲット補間フレームを得るように構成される。
【0102】
いくつかの実施例では、所定の1つ又は複数のビデオフレームは、隣接する2つのビデオフレームを含み、
取得ユニット1201はさらに、前記ターゲットビデオ系列の再生順序に基づいて、処理待ちの補間フレームと、前記補間フレームに隣接する1つ前のビデオフレーム及び次のビデオフレームを取得するように構成され、
処理ユニット1202はさらに、前記補間フレーム、前記1つ前のビデオフレーム、及び前記次のビデオフレームを、前記第3サブネットワークモデルに入力して、前記補間フレームに対応するターゲット補間フレームを得るように構成される。
【0103】
いくつかの実施例では、前記第3サブネットワークモデルは、第1畳み込みモジュール、アテンションメカニズムモジュール、第2畳み込みモジュール、及び加算モジュールを含み、前記第1畳み込みモジュールは、活性化関数を含み、前記第2畳み込みモジュールは、活性化関数を含まない。
【0104】
いくつかの実施例では、前記第1畳み込みモジュールの数は、1つ又は複数であり、前記アテンションメカニズムモジュールの数は、1つ又は複数であり、前記第2畳み込みモジュールの数は、1つであり、前記加算モジュールの数は、1つであり、
処理ユニット1202はさらに、前記第1畳み込みモジュール及び前記アテンションメカニズムモジュールによって、前記補間フレーム及び前記所定の1つ又は複数のビデオフレームに対して特徴抽出を行い、特徴画像を得、前記第2畳み込みモジュールによって、前記特徴画像に対して畳み込み演算を行い、残差画像を得、前記加算モジュールによって、前記強化された補間フレームと前記残差画像とを重ね合わせて、前記補間フレームに対応するターゲット補間フレームを得るように構成される。
【0105】
いくつかの実施例では、処理ユニット1202はさらに、前記超解像度ネットワークモデルのモデルパラメータを決定し、決定されたモデルパラメータに基づいて、前記超解像度ネットワークモデルを構築するように構成される。
【0106】
いくつかの実施例では、取得ユニット1201はさらに、訓練サンプルを取得するように構成され、ここで、前記訓練サンプルは、少なくとも第1解像度の複数のビデオフレーム及び第2解像度の複数のビデオフレームを含み、
処理ユニット1202はさらに、前記訓練サンプルを利用して、ニューラルネットワークに基づく超解像度ネットワークモデルを訓練して、前記モデルパラメータを得るように構成される。
【0107】
いくつかの実施例では、取得ユニット1201はさらに、ビットストリームを解析することにより、前記モデルパラメータを取得するように構成される。
【0108】
理解可能なこととして、本実施例では、「ユニット」は、回路の一部、プロセッサの一部、プログラムの一部、又はソフトウェアなどであってもよく、もちろん、モジュールであってもよいし、非モジュール式であってもよいことが理解できる。また、本実施例における各構成要素は、1つの処理ユニットに統合されてもよく、各ユニットが物理的に別個に存在してもよく、2つ以上のユニットが1つのユニットに統合されてもよい。上記統合されたユニットは、ハードウェアの形で実現されてもよく、ソフトウェア機能モジュールの形で実現されてもよい。
【0109】
前記統合されたユニットが、ソフトウェア機能モジュールの形で実装され、独立した製品として販売又は使用されない場合、1つのコンピュータ可読記憶媒体に記憶することができる。このような理解に基づいて、本実施例の技術的解決策の本質的な部分、即ち、先行技術に貢献のある部分、又は当該技術の解決策の全部又は一部は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、一台のコンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器などであリ得る)又はprocessor(プロセッサ)に、本実施例に記載の方法のステップの全部又は一部を実行させるためのいくつかの命令を含む。前述した記憶媒体は、Uディスク、モバイルハードディスク、読み取り専用メモリ(ROM:Read Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスクなど、プログラムコードを記憶することができる様々な媒体を含む。
【0110】
本願のさらに別の実施例では、本実施例は、ビデオ処理装置120に適用されるコンピュータ記憶媒体を提供し、当該コンピュータ記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムが少なくとも1つのプロセッサによって実行されるときに、前述した実施例のいずれかに記載の方法を実現する。
【0111】
上記したビデオ処理装置120の構成及びコンピュータ記憶媒体を基に、
図13を参照すると、
図13は、本願実施例によるビデオ処理装置120具体的なハードウェア構造の例を示しており、通信インターフェース1301と、メモリ1302と、プロセッサ1303と、を備えることができ、各コンポーネントは、バスシステム1304によって結合される。バスシステム1304は、これらのコンポーネント間の接続通信を実現するために用いられることが理解できる。データバスに加えて、バスシステム1304は、電力バス、制御バス及びステータス信号バスを含む。しかしながら、説明を明確にするために、
図7では、各種バスをすべてバスシステム1304として表記している。ここで、通信インターフェース1301は、他の外部ネットワーク要素と情報を送受信するプロセスで、信号を送受信するように構成される。
【0112】
メモリ1302は、プロセッサ1303で実行可能なコンピュータプログラムを記憶するように構成される。
【0113】
プロセッサ1303は、前記コンピュータプログラムを実行するときに、
第1解像度のビデオ系列を取得することであって、前記ビデオ系列は、少なくとも1つのビデオフレームを含む、ことと、
前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得ることと、を実行し、
ここで、前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を向上させるために用いられる。
【0114】
理解可能なこととして、本願実施例のメモリ1302は、揮発性メモリ又は不揮発性メモリであってもよく、又は揮発性メモリ及び不揮発性メモリの両方を含んでもよい。ここで、不揮発性メモリは、読み取り専用メモリ(ROM:Read-Only Memory)、プログラマブル読み取り専用メモリ(PROM:Programmable ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM:Erasable PROM)、電気的に消去可能なプログラマブル読み取り専用メモリ(EEPROM:Electrically EPROM)又はフラッシュメモリであり得る。揮発性メモリは、外部キャッシュとして用いられるランダムアクセスメモリ(RAM:Random Access Memory)であり得る。例示的であるが限定的ではない例示によれば、多くの形のRAM、例えば、静的ランダムアクセスメモリ(SRAM:Static RAM)、ダイナミックランダムアクセスメモリ(DRAM:Dynamic RAM)、同期ダイナミックランダムアクセスメモリ(SDRAM:Synchronous DRAM)、ダブルデータレートの同期ダイナミックランダムアクセスメモリ(DDRSDRAM:Double Data Rate SDRAM)、拡張された同期ダイナミックランダムアクセスメモリ(ESDRAM:Enhanced SDRAM)、同期接続ダイナミックランダムアクセスメモリ(SLDRAM:Synchronous link DRAM)、ダイレクトメモリバスランダムアクセスメモリ(DRRAM:Direct Rambus RAM)などが利用可能である。本明細書に記載のシステム及び方法のメモリ1302は、これら及び任意の他の適切なタイプのメモリを含むがこれらに限定されないことを意図する。
【0115】
プロセッサ1303は、信号処理機能を備えた集積回路チップであり得る。実現プロセスにおいて、前記方法の各ステップは、プロセッサ1303におけるハードウェアの集積論理回路又はソフトウェアの形の命令によって完了されることができる。上記のプロセッサ1303は、汎用プロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)又は他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポ―ネットなどであってもよく、本願実施例で開示される各方法、ステップ及び論理ブロックを実現又は実行することができる。汎用プロセッサは、マイクロプロセッサであってもよく、又は当該プロセッサは、任意の従来のプロセッサなどであってもよい。本願実施例で開示される方法のステップは、ハードウェア復号化プロセッサによって直接実行されてもよいし、復号化プロセッサ内のハードウェアとソフトウェアモジュールの組み合わせによって実行されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラマブル読み取り専用メモリ、又は電気的に消去可能なプログラマブルメモリ、レジスタなどの従来の記憶媒体に配置することができる。当該記憶媒体は、メモリ1302に配置され、プロセッサ1303は、メモリ1302内の情報を読み取り、そのハードウェアと組み合わせて上記の方法のステップを完成する。
【0116】
理解可能なこととして、本明細書に記載のこれらの実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はそれらの組み合わせで実現されることができる。ハードウェアの実現に対して、処理ユニットは、1つの或複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuits)、デジタル信号プロセッサ(DSP:Digital Signal Processing)、デジタル信号処理機器(DSPD:DSP Device)、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本出願に記載の機能を実行するように構成される他の電子ユニット又はその組み合わせに実現される。
【0117】
ソフトウェア実装の場合、本明細書に記載の機能のモジュール(例えば、プロセス、関数など)を実行することによって、本明細書で説明された技術的解決策を実現することができる。ソフトウェアコードは、メモリに記憶され、プロセッサによって実行されることができる。メモリは、プロセッサに実装することも、プロセッサの外部に実装することもできる。
【0118】
例示的に、別の実施例として、プロセッサ1303はさらに、前記コンピュータプログラムを実行するときに、前述した実施例のいずれかに記載の方法を実行するように構成される。
【0119】
本願のさらにいくつかの実施例では、本願実施例のビデオ機器は、ビデオ再生機器、エンコーダ、デコーダなどであり得る。
図14を参照すると、
図14は、本願実施例によるビデオ機器の概略構造図である。
図14に示すように、ビデオ機器140は、少なくとも前述した実施例のいずれかに記載のビデオ処理装置120を含み得る。
【0120】
本願のさらにいくつかの実施例では、
図15を参照すると、
図15は、本願実施例によるデコーダの概略構造図である。
図15に示すように、デコーダ150は、少なくとも普通デコーダ1501及び前述した実施例のいずれかに記載のビデオ処理装置1200を含み得る。ここで、普通デコーダ1501は、即ち、前述した実施例に記載のビデオデコーダ105であり、即ち、H.266/VVCデコーダ、H.265/HEVCデコーダなどでもある。
【0121】
いくつかの実施例では、普通デコーダ1501は、ビットストリームを解析して、第1解像度のビデオ系列を取得するために用いられ、
ビデオ処理装置120は、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得るように構成され、
ここで、前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を調整するために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を調整するために用いられる。
【0122】
いくつかの実施例では、普通デコーダ1501はさらに、ビットストリームを解析して、第1指示フラグビットを取得するように構成され、前記第1指示フラグビットは、前記第1解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の空間解像度を向上させる必要があることを示すために用いられ、
ビデオ処理装置120はさらに、前記第1指示フラグビットに基づいて、前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の初期ビデオ系列を得るように構成され、前記第2解像度は、前記第1解像度より高い。
【0123】
いくつかの実施例では、普通デコーダ1501はさらに、ビットストリームを解析して、前記第2指示フラグビットを取得するように構成され、前記第2指示フラグビットは、前記第1解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の時間解像度を向上させる必要があることを示すために用いられ、
ビデオ処理装置120はさらに、前記第2指示フラグビットに基づいて、前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の初期ビデオ系列を得るように構成され、前記初期ビデオ系列は、前記少なくとも1つのビデオフレーム及び少なくとも1つの補間フレームを含む。
【0124】
いくつかの実施例では、普通デコーダ1501はさらに、ビットストリームを解析して、前記第3指示フラグビットを取得するように構成され、前記第3指示フラグビットは、前記第1解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の画質を向上させる必要があることを示すために用いられ、
ビデオ処理装置120はさらに、前記第3指示フラグビットに基づいて、前記第2サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも1つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得るように構成される。
【0125】
いくつかの実施例では、普通デコーダ1501はさらに、ビットストリームを解析して、前記超解像度ネットワークモデルのモデルパラメータを取得するように構成され、
ビデオ処理装置120はさらに、前記モデルパラメータに基づいて、前記超解像度ネットワークモデルを構築するように構成される。
【0126】
説明すべきこととして、前述した実施例におけるビデオ処理装置120の機能は、デコーダ150にも適用可能である。このようにして、デコーダ150は、超解像度ネットワーク設計を利用して、現在のビデオ圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決でき、また、1つのネットワーク(即ち、超解像度ネットワークモデル)を使用してビデオ画像の解像度及びフレームレートを同時に向上させる。したがって、超解像度ネットワークモデルをビデオ圧縮の処理プロセスに適用すると、圧縮ビデオの画質を大幅に向上させることができ、ビデオ画像の解像度及びフレームレートの向上にも大きな効果がある。また、圧縮されたビデオを符号化する前にビデオ系列をダウンサンプリング処理することも可能であるため、符号化対象のビデオデータ量を削減することができ、その後、復号化の後に超解像度ネットワークモデルを採用するときに対応するアップサンプリングを行い、それにより、ビットレートを低下させ、伝送ビットストリームを削減し、コーデック効率を向上させることもできる。
【0127】
本願のさらにいくつかの実施例では、
図16を参照すると、
図16は、本願実施例によるビデオシステムの概略構造図である。
図16に示すように、当該ビデオシステム160は、エンコーダ161及びデコーダ150を備えることができる。ここで、エンコーダ161は、前処理装置1611及び普通エンコーダ1612を含み得、デコーダ150は、普通デコーダ1501及び前述した実施例のいずれかに記載のビデオ処理装置120を含み得る。ここで、普通エンコーダ1612は、即ち、前述した実施例に記載のビデオエンコーダ103であり、H.266/VVCエンコーダ、H.265/HEVCエンコーダ等などでもあり、普通デコーダ1501は、即ち、前述した実施例に記載のビデオデコーダ105であり、H.266/VVCデコーダ、H.265/HEVCデコーダなどでもある。
【0128】
いくつかの実施例では、前処理装置1611は、第2解像度の入力ビデオ系列を受信した後、受信した入力ビデオ系列を前処理して、第1解像度のビデオ系列を得るように構成され、
普通エンコーダ1612は、前記ビデオ系列に対してビデオ圧縮を行い、ビットストリームを生成し、前記ビットストリームを前記標準デコーダに伝送するように構成され、
普通デコーダ1501は、前記ビットストリームを解析して、前記第1解像度のビデオ系列を取得するように構成される。
【0129】
ビデオ処理装置120は、前記ビデオ系列を超解像度ネットワークモデルに入力して、第2解像度のターゲットビデオ系列を得るように構成され、
ここで、前記超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を向上させるために用いられる。
【0130】
いくつかの実施例では、前処理装置1611は、受信した入力ビデオ系列に対してダウンサンプリング処理を行い、第1解像度のビデオ系列を得、第1指示フラグビットを設定するように構成され、前記第1指示フラグビットは、前記第1解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の空間解像度を向上させる必要があることを示すために用いられ、
普通エンコーダ1612はさらに、前記第1指示フラグビットをビットストリームに書き込むように構成される。
【0131】
いくつかの実施例では、前処理装置1611は、受信した入力ビデオ系列に対してフレームレート調整処理を行い、第1解像度のビデオ系列を得、第2指示フラグビットを設定するように構成され、前記第2指示フラグビットは、前記第1解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の時間解像度を向上させる必要があることを示すために用いられ、
普通エンコーダ1612はさらに、前記第2指示フラグビットをビットストリームに書き込むように構成される。
【0132】
いくつかの実施例では、普通エンコーダ1612はさらに、前記ビデオ系列に対してビデオ圧縮を行った後、圧縮されたビデオ系列の画質が所定の画質基準を満たすか否かを判断し、第3指示フラグビットを設定し、前記第3指示フラグビットをビットストリームに書き込むように構成され、ここで、前記第3指示フラグビットは、前記第1解像度のビデオ系列が、前記超解像度ネットワークモデルによって前記ビデオ系列の画質を向上させる必要があることを示すために用いられる。
【0133】
いくつかの実施例では、前処理装置1611はさらに、訓練サンプルを取得し、前記訓練サンプルを利用して、ニューラルネットワークに基づく超解像度ネットワークモデルを訓練して、前記超解像度ネットワークモデルのモデルパラメータを得るように構成され、前記訓練サンプルは、少なくとも第1解像度の複数のビデオフレーム及び第2解像度の複数のビデオフレームを含み、
普通エンコーダ1612はさらに、前記モデルパラメータをビットストリームに書き込むように構成される。
【0134】
いくつかの実施例では、普通デコーダ1501はさらに、ビットストリームを解析して、前記第1指示フラグビットを取得するように構成され、
ビデオ処理装置120はさらに、前記第1指示フラグビットに基づいて、前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の初期ビデオ系列を得るように構成され、前記第2解像度は、前記第1解像度より高い。
【0135】
いくつかの実施例では、普通デコーダ1501はさらに、ビットストリームを解析して、前記第2指示フラグビットを取得するように構成され、
ビデオ処理装置120はさらに、前記第2指示フラグビットに基づいて、前記第1サブネットワークモデルによって、前記ビデオ系列に対して解像度向上処理を行い、第2解像度の初期ビデオ系列を得るように構成され、前記初期ビデオ系列は、前記少なくとも1つのビデオフレーム及び少なくとも1つの補間フレームを含む。
【0136】
いくつかの実施例では、普通デコーダ1501はさらに、ビットストリームを解析して、前記第3指示フラグビットを取得するように構成され、
ビデオ処理装置120はさらに、前記第3指示フラグビットに基づいて、前記第2サブネットワークモデルによって、前記初期ビデオ系列内の少なくとも1つのフレームに対して品質強化処理を行い、前記ターゲットビデオ系列を得るように構成される。
【0137】
いくつかの実施例では、普通デコーダ1501はさらに、ビットストリームを解析して、前記超解像度ネットワークモデルのモデルパラメータを取得するように構成され、
ビデオ処理装置120はさらに、前記モデルパラメータに基づいて、前記超解像度ネットワークモデルを構築するように構成される。
【0138】
説明すべきこととして、前述した実施例におけるビデオ処理装置1200の機能は、ビデオシステム160にも適用可能である。このようにして、当該ビデオシステム160は、超解像度ネットワーク設計を利用して、現在のビデオ圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決でき、また、1つのネットワーク(即ち、超解像度ネットワークモデル)を使用してビデオ画像の解像度及びフレームレートを同時に向上させる。したがって、超解像度ネットワークモデルをビデオ圧縮の処理プロセスに適用すると、圧縮ビデオの画質を大幅に向上させることができ、ビデオ画像の解像度及びフレームレートの向上にも大きな効果がある。また、圧縮されたビデオを符号化する前にビデオ系列をダウンサンプリング処理することも可能であるため、符号化対象のビデオデータ量を削減することができ、その後、復号化の後に超解像度ネットワークモデルを採用するときに対応するアップサンプリングを行い、それにより、ビットレートを低下させ、伝送ビットストリームを削減し、コーデック効率を向上させることもできる。
【0139】
また、説明すべきこととして、本出願において、「備える」、「含む」という用語、又はその任意の他の変形は、非排他的な包含をカバーすることを意図するので、一連の要素を含むプロセス、方法、物品又は装置は、それらの要素だけでなく、明示的に列挙されていない他の要素、又は、そのようなプロセス、方法、物品、又は装置の固有の要素をさらに含む。特に限定されていない場合、「…を含む」という文で定義された要素は、当該要素を含むプロセス、方法、物品、又は装置に、他の同じ要素があることを排除しない。
【0140】
上記の本願実施例の番号は、説明のためのものに過ぎず、実施例の優劣を表すものではない。
【0141】
本願で提供されるいくつかの方法の実施例で開示される方法は、競合することなく任意に組み合わせて、新しい方法の実施例を取得することができる。
【0142】
本願で提供されるいくつかの製品の実施例で開示される特徴は、競合することなく任意に組み合わせて、新しい製品の実施例を取得することができる。
【0143】
本願で提供されるいくつかの方法又は機器の実施例で開示される特徴は、競合することなく任意に組み合わせて、新しい方法の実施例又は機器の実施例を取得することができる。
【0144】
上記の内容は、本願の特定の実施形態に過ぎず、本願の保護範囲はこれに限定されない。本願で開示された技術的範囲内で、当業者が容易に想到し得る変形又は置換はすべて、本願の保護範囲内に含まれるべきである。したがって、本願の保護範囲は、特許請求の保護範囲に従うものとする。
【産業上の利用可能性】
【0145】
本願実施例では、超解像度ネットワークモデルは、少なくとも第1サブネットワークモデル及び第2サブネットワークモデルを含み、前記第1サブネットワークモデルは、前記ビデオ系列の解像度を向上させるために用いられ、前記第2サブネットワークモデルは、前記第1サブネットワークモデルの出力結果内の少なくとも1つのフレームの画質を向上させるために用いられる。このようにして、超解像度ネットワーク設計を利用して、現在のビデオ圧縮プロセスで発生する画質の損失やビデオフレームレートの低下などの問題を解決でき、また、1つのネットワーク(即ち、超解像度ネットワークモデル)を使用してビデオ画像の解像度及びフレームレートを同時に向上させる。したがって、超解像度ネットワークモデルをビデオ圧縮の処理プロセスに適用すると、圧縮ビデオの画質を大幅に向上させることができ、ビデオ画像の解像度及びフレームレートの向上にも大きな効果がある。また、圧縮されたビデオを符号化する前にビデオ系列をダウンサンプリング処理することも可能であるため、符号化対象のビデオデータ量を削減することができ、その後、復号化の後に超解像度ネットワークモデルを採用するときに対応するアップサンプリングを行い、それにより、ビットレートを低下させ、伝送ビットストリームを削減し、コーデック効率を向上させることもできる。