(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-25
(45)【発行日】2023-05-08
(54)【発明の名称】フレームレベル超解像ベースビデオ符号化
(51)【国際特許分類】
H04N 19/59 20140101AFI20230426BHJP
H04N 19/33 20140101ALI20230426BHJP
H04N 19/46 20140101ALI20230426BHJP
【FI】
H04N19/59
H04N19/33
H04N19/46
(21)【出願番号】P 2020555473
(86)(22)【出願日】2019-04-12
(86)【国際出願番号】 EP2019059534
(87)【国際公開番号】W WO2019197661
(87)【国際公開日】2019-10-17
【審査請求日】2020-12-04
(32)【優先日】2018-04-13
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】512287702
【氏名又は名称】コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ
(73)【特許権者】
【識別番号】508351406
【氏名又は名称】ネダーランゼ・オルガニサティ・フォーア・トゥーゲパスト-ナトゥールヴェテンシャッペリーク・オンデルゾエク・ティーエヌオー
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100173565
【氏名又は名称】末松 亮太
(72)【発明者】
【氏名】ダ・シルヴァ・プラタス・ガブリエル,アレクサンダー
(72)【発明者】
【氏名】トーマス,エマニュエル
【審査官】鉢呂 健
(56)【参考文献】
【文献】国際公開第2017/129568(WO,A1)
【文献】特開2013-229768(JP,A)
【文献】THOMAS, Emmanuel and VAN BUERENPLEIN, Anna,Polyphase subsampled signal for spatial scalability,Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 2nd Meeting: San Diego, USA, 20-26 February 2016, [JVET-B0043],JVET-B0043 (version 2),ITU-T,2016年02月,<URL: http://phenix.it-sudparis.eu/jvet/doc_end_user/documents/2_San%20Diego/wg11/JVET-B0043-v2.zip>: JVET-B0043_r1.doc: pp. 1-5
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00-19/98
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
ビデオ・フレームを符号化してビットストリームにする方法であって、
前記方法は、インループ符号化処理を備え、
前記インループ符号化処理は、
第1低解像度(LR)オリジナル・フレーム及び1つ以上の第2LRオリジナル・フレームを判断するためのダウンサンプル方式を、第1解像度のオリジナル・ビデオ・フレームに適用するステップであって、前記第1LRオリジナル・フレーム及び前記1つ以上の第2LRオリジナル・フレームが、前記第1解像度より低い第2解像度を有する、ステップと、
前記第1LRオリジナル・フレームを第1オリジナル・ブロックに区分化し、また、前記1つ以上の第2LRフレームを第2オリジナル・ブロックに区分化するステップと、
前記第1LRオリジナル・フレームの前記第1オリジナル・ブロックの予測を定義する第1予測ブロックを判断するための予測法を使用するステップと、
前記第1予測ブロック及び前記第1オリジナル・ブロックに基づいて第1残余ブロックを判断し、その後に、前記第1残余ブロック及び前記第1予測ブロックに基づいて第1再構成ブロックを判断するステップと、
前記1つ以上の第2LRオリジナル・フレームの前記第2オリジナル・ブロックの予測を定義する第2予測ブロックを、前記第1再構成ブロックに基づいて判断するステップと、
前記第2予測ブロック及び前記第2オリジナル・ブロックに基づいて第2残余ブロックを判断するステップと、
前記第1残余ブロック及び前記第2残余ブロックをビットストリームに変換するステップであって、前記ビットストリームは、前記符号化中にダウンサンプリング方式が前記ビデオ・フレームをダウンサンプリングするために使用されたことを復号化装置にシグナリングするためのメタデータを含む、ステップと、
を含む、方法。
【請求項2】
請求項1に記載の方法において、
前記ビデオ・フレームはIフレームであり、前記第1予測ブロックを判断するステップが前記第1予測ブロックを判断するためのイントラ予測法を使用するステップを含む、或いは、
前記ビデオ・フレームはPフレーム又はBフレームであり、前記第1予測ブロックを判断することが前記第1予測ブロックを判断するためのインター予測法を使用するステップを含む、方法。
【請求項3】
請求項1又は2に記載の方法において、
前記第1再構成ブロックが第1LR再構成フレームを定義し、
前記第1LR再構成フレームが前記第2予測ブロックを判断するための基準フレームを定義する、方法。
【請求項4】
請求項3に記載の方法において、
ブロックマッチング予測法が前記第2予測ブロックを判断するため使用される、
方法。
【請求項5】
請求項1乃至3のいずれか一項に記載の方法において、
前記第1LRオリジナル・フレームに関連付けられた前記第1残余ブロックと、前記1つ以上の第2LRオリジナル・フレームに関連付けられた前記第2残余ブロックとが、データ構造を定義する、方法。
【請求項6】
請求項1乃至5のいずれか一項に記載の方法において、
前記ダウンサンプリング方式が多相ダウンサンプリング方式であり、
前記ダウンサンプリング方式が複数の空間ダウンサンプリング格子を含む、方法。
【請求項7】
請求項1乃至6のいずれか一項に記載の方法において、
前記第1LRオリジナル・フレーム及び前記1つ以上の第2LRオリジナル・フレームが空間的に多重化されて、前記第1解像度の多重化ビデオ・フレームとされる、方法。
【請求項8】
請求項1乃至7のいずれか一項に記載の方法において、
前記メタデータが、
符号化装置により使用されたダウンサンプリング方式のタイプを前記復号化装置にシグナリングするための1つ以上の第1パラメータを含み、及び/又は、
前記メタデータが、前記第1予測ブロックを予測するために使用された予測のタイプを前記復号化装置にシグナリングするための1つ以上の第2パラメータを含み、及び/又は、
前記メタデータは前記第2予測ブロックを予測するために使用された予測のタイプを前記復号化装置にシグナリングするための1つ以上の第3のパラメータを含む、方法。
【請求項9】
ビットストリームを復号化してビデオ・フレームにする方法であって、
前記方法は、インループ符号化処理を備え、
前記インループ符号化処理は、
第1低解像度(LR)オリジナル・フレームに関連付けられた第1符号化残余ブロックと、1つ以上の第2LRオリジナル・フレームに関連付けられた第2符号化残余ブロックとを含むビットストリームを受信するステップと、
前記第1符号化残余ブロック及び第2符号化残余ブロックに関連付けられたメタデータを受信するステップであって、前記メタデータは、第1解像度のオリジナル・フレームを前記第1LRオリジナル・フレーム及び前記1つ以上の第2LRオリジナル・フレームにダウンサンプリングするダウンサンプリング方式を符号化装置が使用したことを
復号化装置にシグナリングし、前記第1LRオリジナル・フレーム及び前記1つ以上の第2LRオリジナル・フレームが、前記第1解像度より低い第2解像度を有する、ステップと、
前記第1LRオリジナル・フレームの第1オリジナル・ブロックの予測を定義する第1予測ブロックを判断するための予測法を使用するステップと、
前記第1符号化残余ブロックを第1残余ブロックに変換し、第1LR再構成フレームを定義する第1再構成ブロックを、前記第1残余ブロック及び前記第1予測ブロックに基づいて判断するステップと、
前記1つ以上の第2LRオリジナル・フレームの第2オリジナル・ブロックの予測を定義する第2予測ブロックを、前記第1再構成ブロックに基づいて判断するステップと、
前記第2符号化残余ブロックを第2残余ブロックに変換し、1つ以上の第2LR再構成フレームを定義する第2再構成ブロックを前記第2残余ブロック及び前記第2予測ブロックに基づいて判断するステップと、
再構成されたオリジナル・ビデオ・フレームを、前記第1LR再構成フレーム及び前記1つ以上の第2LR再構成フレームに基づいて判断するステップと、
を含む方法。
【請求項10】
請求項9に記載の方法において、前記再構成ブロックを判断するステップが、
前記第1LR再構成フレーム及び前記1つ以上の第2LR再構成フレームをアップサンプリングする、ステップと、
前記アップサンプリングされた第1LR再構成フレーム及び前記アップサンプリングされた第2LR再構成フレームを、前記再構成されたオリジナル・ビデオ・フレームに合成するステップと、
を含む、方法。
【請求項11】
請求項9又は10に記載の方法において、
ブロックマッチング予測法が前記第2予測ブロックを判断するため使用される、方法。
【請求項12】
請求項1乃至
8のいずれか一項に記載の方法において、前記ビットストリームは、高効率ビデオ符号化(HEVC)ベース・ビットストリーム、Alliance for Open Media Video(AV1)ベース・ビットストリーム、或いは、汎用ビデオ符号化(VVC)ベース・ビットストリームである、方法。
【請求項13】
請求項9乃至11のいずれか一項に記載の方法において、前記ビットストリームは、高効率ビデオ符号化(HEVC)ベース・ビットストリーム、Alliance for Open Media Video(AV1)ベース・ビットストリーム、或いは、汎用ビデオ符号化(VVC)ベース・ビットストリームである、方法。
【請求項14】
ビデオ・フレームを符号化してビットストリームにするための装置であって、
プログラムの少なくとも一部分を具現化して有するコンピュータ可読ストレージ媒体と、
コンピュータ可読プログラム・コードを具現化して有するコンピュータ可読ストレージ媒体と、
前記コンピュータ可読ストレージ媒体に結合されたプロセッサと、を含み、
前記コンピュータ可読プログラム・コードを実行したことに応答して、前記プロセッサが、
第1低解像度(LR)オリジナル・フレーム及び1つ以上の第2LRオリジナル・フレームを判断するためのダウンサンプル方式を第1解像度のオリジナル・ビデオ・フレームに適用するステップであって、前記第1LRオリジナル・フレーム及び前記1つ以上の第2LRオリジナル・フレームが、前記第1解像度より低い第2解像度を有するステップと、
前記第1LRオリジナル・フレームを第1オリジナル・ブロックに区分化し、前記1つ以上の第2LRフレームを第2オリジナル・ブロックに区分化するステップと、
前記第1LRオリジナル・フレームの前記第1オリジナル・ブロックの予測を定義する第1予測ブロックを判断する予測法を使用するステップと、
前記第1予測ブロック及び前記第1オリジナル・ブロックに基づいて第1残余ブロックを判断し、その後に、前記第1残余ブロック及び前記第1予測ブロックに基づいて第1再構成ブロックを判断するステップと、
前記1つ以上の第2LRオリジナル・フレームの前記第2オリジナル・ブロックの予測を定義する第2予測ブロックを、前記第1再構成ブロックに基づいて判断するステップと、
前記第2予測ブロック及び前記第2オリジナル・ブロックに基づいて、第2残余ブロックを判断するステップと、
前記第1残余ブロック及び前記第2残余ブロックをビットストリームに変換するステ
ップであって、前記ビットストリームは前記符号化中にダウンサンプリング方式が前記ビデオ・フレームをダウンサンプリングするために使用されたことを復号化装置にシグナリングするためのメタデータを含むステップと、
を含むインループ符号化処理に関連付けられた実行可能動作を実行するように構成される、装置。
【請求項15】
ビットストリームを復号化してビデオ・フレームにするための装置であって、
プログラムの少なくとも一部分を具現化して有するコンピュータ可読ストレージ媒体と、
コンピュータ可読プログラム・コードを具現化して有するコンピュータ可読ストレージ媒体と、
前記コンピュータ可読ストレージ媒体に結合されたプロセッサ、と、を含み、
前記コンピュータ可読プログラム・コードを実行したことに応答して、前記プロセッサが、
第1低解像度(LR)オリジナル・フレームに関連付けられた第1符号化残余ブロックと、1つ以上の第2LRオリジナル・フレームに関連付けられた第2符号化残余ブロックとを含むビットストリームを受信するステップと、
前記第1符号化残余ブロック及び前記第2符号化残余ブロックに関連付けられたメタデータを受信するステップであって、前記メタデータは、第1解像度のオリジナル・フレームを前記第1LRオリジナル・フレーム及び前記1つ以上の第2LRオリジナル・フレームにダウンサンプリングするダウンサンプリング方式を符号化装置が使用したことを復号化装置にシグナリングし、前記第1LRオリジナル・フレーム及び前記1つ以上の第2LRオリジナル・フレームが、前記第1解像度より低い第2解像度を有する、ステップと、
前記第1LRオリジナル・フレームの第1オリジナル・ブロックの予測を定義する第1予測ブロックを判断する予測法を使用するステップと、
前記第1符号化残余ブロックを第1残余ブロックに変換し、第1LR再構成フレームを定義する第1再構成ブロックを、前記第1残余ブロック及び前記第1予測ブロックに基づいて判断するステップと、
前記1つ以上の第2LRオリジナル・フレームの第2オリジナル・ブロックの予測を定義する第2予測ブロックを第1再構成ブロックに基づいて判断するステップと、
前記第2符号化残余ブロックを第2残余ブロックに変換し、1つ以上の第2LR再構成フレームを定義する第2再構成ブロックを、前記第2残余ブロック及び前記第2予測ブロックに基づいて判断するステップと、
再構成されたオリジナル・ビデオ・フレームを、前記第1LR再構成フレーム及び前記1つ以上のLR再構成フレームに基づいて判断するステップと、
を含むインループ符号化処理に関連付けられた実行可能動作を実行するように構成される、装置。
【請求項16】
コンピュータのメモリ内で起動されると請求項1乃至8
および12のいずれか一項に記載の方法ステップを実行するように構成されるソフトウェアコード部を含む、コンピュータ・プログラム。
【請求項17】
コンピュータのメモリ内で起動されると請求項9乃至
11および1
3のいずれか一項に記載の方法ステップを実行するように構成されるソフトウェアコード部を含む、コンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオ符号化のための超解像(super-resolution)ベース予測に関し、具体的には、限定しないが、ビデオ符号化のための超解像ベース予測の方法及びシステム、超解像ベース予測ビデオ符号化のためのモジュールを含む符号器装置及び復号器装置、並びにこのような方法を実行するためのコンピュータプログラム製品に関する。
【背景技術】
【0002】
ビデオ符号化標準化では、MPEG及びITUジョイントグループはハイブリッドビデオ符号化システム(例えばAVC及びHEVC)を伝統的に採用してきた。このハイブリッドシステムは運動予測とビデオブロックベース変換符号化との組み合わせを含む。ここで、ビデオブロック(手短に言えばブロック)はビデオ標準規格の基本処理ユニットを指す。ビデオブロックは様々な符号化標準規格において異なるやり方で名付けられており、例えばH.264/AVCではブロックはマクロブロックと呼ばれ、HEVCではブロックは符号化ツリーユニット(CTU:Coding Tree Unit)と呼ばれ、VP9及びAV1では符号化ブロックはスーパーブロックを呼ばれる。ハイブリッドビデオ符号化システムはビデオフレーム内のビデオサンプルの冗長性を活用することを目的とする。特に、運動予測は連続フレームと所与のフレーム内の画素の空間的相関との間の時間的冗長性を活用する一方で、所謂「変換符号化」は信号成分を無相関化する。HEVC、AV1及び現在開発されているVVC(汎用ビデオ符号化:Versatile Video Coding)などの従来技術符号化標準仕様の現在状態は、H.264/AVC(MPEG-4、パート10)などの前世代の他の符号化標準と比較すると著しく高い圧縮効率を有する。
【0003】
時間的予測は、いくつかの状況(例えば、ビデオシーケンスの第1のフレームの場合、フレームがキーフレーム(すなわち復号化が圧縮ビットストリームの中央において開始され得るフレーム)の場合、又は2つのフレーム間の相関が余りに小さい場合(例えば突然の場面変化など))では使用することができない。これらの場合、イントラ予測方式がビデオシーケンスの当該位置においてフレームを圧縮するために使用され得る。イントラ予測は、現フレーム内の以前に符号化されたブロックと隣接画素間の想定される強い相関すなわち画素間の「空間的冗長性」とに基づく。この空間的冗長性はビデオフレームの輝度情報と色度情報との両方において存在し得る。例えば、サッカーゲーム画像では、緑色画素の隣接画素もまた主に緑色となる。また、一般的に、暗い画素に隣接する画素も暗くなる(例えば影領域内で)。
【0004】
通常、ビデオフレーム内のブロックは、ビデオフレームの左上角のブロックから始まるラスタ走査順序で(すなわち行毎に)処理される。したがって、現在のブロックの予測画素は隣接ブロック(通常は、現在のブロックの上及び/又は左側に位置するブロック)の以前に符号化されたサンプルに基づくことになる。HEVC及びAV1はマクロブロックに利用可能なそれぞれがそれ自身のモードを有する様々なタイプのイントラ予測方法を有する。例えば、輝度情報に関し、以下の様々なタイプのイントラ予測が存在する:16×16ブロック(マクロブロック全体)の予測方法、8×8ブロック(マクロブロック当たり4)の予測方法、又は4×4ブロック(マクロブロック当たり16)の予測方法。色度情報に関し、予測が当該マクロブロックの1つのブロックに基づき行われる方法が存在する。
【0005】
さらに、予測方法のタイプに依存して、利用可能な以下の様々なモードが存在する:8×8又は4×4輝度予測のための様々なモード、及び16×16輝度予測及び色度情報のための様々なモード。各モードは、どのように現在のブロック内の画素の値が、符号化される必要がある現在のブロックの隣のブロック内の先に符号化された画素値に基づき予測されるかを正確に判断する。(マクロ)ブロックが符号化される順序により、現在のブロックの左又は上に位置するブロックの画素だけが利用可能である。符号器がイントラ予測に基づき現在のブロックを予測することを判断する場合、符号器は、あるタイプのイントラ予測とこのイントラ予測タイプに属するモードのうちの1つのモードとを選択することになる。符号器は、残りブロックを判断するために予測ブロックを使用することになる。この予測ブロックはイントラ予測タイプ及び関連モードに関する情報と一緒に符号器により復号器へ送信される。どのタイプのイントラ予測を選択しそしてどのモードを使用すべきかは符号器次第である。
【0006】
予測処理におけるより小さなブロックサイズの使用はより精確な予測を多分生じることになるが、符号器はビットストリーム内のより多くのブロックの選択されたモードをシグナリングする必要があるのでより大きなオーバーヘッドもある。通常、より均質な領域に関し、予測は通常、より大きなブロック(16×16、64×64又はさらには128×128ブロックなど)に基づき行われることになり、より詳細な領域に関し、予測は通常、より小さなブロックに基づくことになる。
【0007】
しかし、いくつかの状況では、隣接画素間のビデオ信号の強い相関の仮定はもはや成り立たない。これは例えば、このような空間的相関が幾何学的継ぎ目(すなわちグリッドで配置された立体面)などの2D面(EPR又は立方)への投影の影響に起因してもはや存在しない又は少なくとも大幅に低減される360°ビデオの場合であり得る。また、従来の2Dビデオ符号化では、ビデオ信号(例えばビデオ内に大きなテクスチャ(草、砂、植物など)及び雑音を有する自然場面、2つの隣接画素間の相関を低減するあらゆる現象)は本来的に低い相関を有し得る。したがって、この場合、(ビデオブロックの)Iフレームは正確に予測されなく、したがって効率的に圧縮され得ない。これは、Iフレームがビットストリーム内の全データのかなりの部分(時に最大80%すら)を表し得るので、ビデオ信号の全体的圧縮効率をひどく劣化させ得る。
【0008】
より一般的には、圧縮される必要があるビデオフレームの領域内のビデオ信号のある相関に関し、イントラ予測は、2つの画素間の距離が増加すると相関が低下するので、当該領域内のビデオ信号の予測ビデオブロックの一定サイズまで効率的圧縮を提供することになる。
【0009】
したがって、上記から、効率的ビデオブロック符号化を可能にする改善された符号化方式(具体的には高解像度ビデオのための効率的ビデオブロック符号化)の必要性が当該技術領域においてあるということになる。
【発明の概要】
【課題を解決するための手段】
【0010】
当業者により理解されるように、本発明の態様はシステム、方法又はコンピュータプログラム製品として具現化され得る。したがって、本発明の態様は、完全にハードウェア実施形態、完全にソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又は本明細書ではソフトウェア態様と「回路」、「モジュール」又は「システム」とすべて一般的に呼ばれ得るハードウェア態様とを組み合わせる実施形態の形式を取り得る。本開示において説明される機能は、コンピュータのマイクロプロセッサにより実行されるアルゴリズムとして実装され得る。さらに、本発明の態様は、具現化される(例えば、その上に格納される)コンピュータ可読プログラムコードを有する1つ又は複数のコンピュータ可読媒体内に具現化されるコンピュータプログラム製品の形式を取り得る。
【0011】
1つ又は複数のコンピュータ可読媒体の任意の組み合わせが利用され得る。コンピュータ可読媒体はコンピュータ可読信号媒体であってもよいしコンピュータ可読ストレージ媒体であってもよい。コンピュータ可読ストレージ媒体は例えば、限定しないが、電子、磁気、光、電磁気、赤外線、又は半導体システム、装置、デバイス又はこれらの任意の組み合わせであり得る。コンピュータ可読ストレージ媒体のより具体的な例(非網羅的リスト)は以下のものを含むだろう:1つ又は複数のワイヤを有する電子的接続、携帯型コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、光学的ストレージデバイス、磁気的ストレージデバイス、又はこれらの任意の好適な組み合わせ。本文書の文脈では、「コンピュータ可読ストレージ媒体」は命令実行システム、装置又はデバイスにより使用するための又はそれに関連して使用するためのプログラムを含み得る又は格納し得る任意の有形媒体であり得る。
【0012】
コンピュータ可読信号媒体は、コンピュータ可読プログラムがその上に具現化された伝搬されたデータ信号を含み得る(例えばベースバンド内の又は搬送波の一部として)。このような伝播された信号は、限定しないが、電磁気、光、又はそれらの任意の好適な組み合せを含む多様な形式のうちの任意の形式を取り得る。コンピュータ可読信号媒体は、コンピュータ可読ストレージ媒体でない任意のコンピュータ可読媒体であって、命令実行システム、装置又はデバイスによる使用のための又はそれに関連する使用のためのプログラムを伝達、伝搬、又は輸送し得る任意のコンピュータ可読媒体であり得る。
【0013】
コンピュータ可読媒体上に具現化されるプログラムコードは、限定しないが、無線、有線、光ファイバ、ケーブル、RFなど又は上述したものの任意の好適な組み合わせを含む任意の適切な媒体を使用して送信され得る。本発明の態様の操作を行うためのコンピュータプログラムコードは、Java(TM)、Smalltalk、C++などのオブジェクト指向プログラミング言語、「C」プログラミング言語又は同様なプログラミング言語などの従来の手順プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで書かれ得る。プログラムコードは、ユーザのコンピュータ上で完全に、スタンドアロンソフトウェアパッケージとしてのユーザのコンピュータ上で部分的に、ユーザのコンピュータ上で部分的に、リモートコンピュータ上で部分的に、又はリモートコンピュータ又はサーバ上で完全に実行し得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意のタイプのネットワークを介しユーザのコンピュータへ接続され得る、又は、この接続は外部コンピュータに対しなされ得る(例えばインターネットサービスプロバイダを使用してインターネットを介し)。
【0014】
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータプログラム製品のフローチャート図及び/又はブロック図を参照して以下に説明される。フローチャート図及び/又はブロック図の各ブロック並びにフローチャート図及び/又はブロック図内のブロックの組み合わせはコンピュータプログラム命令により実施され得るということが理解されることになる。これらのコンピュータプログラム命令は、コンピュータ又は他のプログラマブルデータ処理装置又は他のデバイスのプロセッサを介し実行する命令がフローチャート及び/又はブロック図ブロック又はブロック群において規定された機能/行為を実施する手段を生成するように、マシンを製造するために汎用コンピュータ、特殊用途コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ(特に、マイクロプロセッサ又は処理ユニット(CPU))へ提供され得る。
【0015】
これらのコンピュータプログラム命令はまた、フローチャート及び/又はブロック図ブロック又はブロック群内に規定された機能/行為を実施する命令を含むコンピュータ可読媒体内に格納された命令が製品を生成するようにコンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスに特定のやり方で機能するように指示し得るコンピュータ可読媒体内に格納され得る。
【0016】
コンピュータプログラム命令はまた、コンピュータ又は他のプログラマブル装置上で実行する命令が、フローチャート及び/又はブロック図ブロック又はブロック群において規定された機能/行為を実施するための処理を提供するように、コンピュータ、他のプログラマブルデータ処理装置上に、又は一連の操作工程がコンピュータ上で行われるようにさせる他のデバイス上に、コンピュータ実施処理を生成するための他のプログラマブル装置又は他のデバイス上にロードされ得る。
【0017】
添付図面内のフローチャート及びブロック図は、本発明の様々な実施形態によるシステム、方法及びコンピュータプログラム製品の可能な実施形態のアーキテクチャ、機能及び動作を示す。この点に関し、フローチャート又はブロック図内の各ブロックは、規定された論理機能を実施するための1つ又は複数の実行可能命令を含むモジュール、セグメント、又はコードの一部分を表し得る。いくつかの代替実施形態ではブロック内に示された機能が添付図面において示された順番から外れて発生し得るということにも注意すべきである。例えば、連続して示された2つのブロックは実際にはほぼ同時に実行され得る、又はこれらのブロックは時に、関与する機能に依存して逆順で実行され得る。ブロック図及び/又はフローチャート図の各ブロック及びブロック図及び/又はフローチャート図内のブロックの組み合わせは、規定機能若しくは行為、又は特殊用途ハードウェアとコンピュータ命令との組み合わせを行う特殊用途ハードウェアベースシステムにより実施され得るということにも注意する必要があるだろう。
【0018】
一態様では、本発明はビデオフレームをビットストリームへ符号化する方法に関する。本方法は、復号器装置のプロセッサが、第1の低解像度(LR)(low-resolution)元フレーム及び1つ又は複数の第2の元LRフレームを判断するためのダウンサンプル方式を第1の解像度の元のビデオフレームに適用することであって、第1のLR元フレーム及び1つ又は複数の第2のLR元フレームは第1の解像度より低い第2の解像度である、適用すること;プロセッサが第1のLR元フレームを第1の元ブロックへ区分化し、1つ又は複数の第2のLRフレームを第2の元ブロックへ区分化すること;第1のLR元フレームの第1の元ブロックの予測を定義する第1の予測ブロックを判断する予測方法をプロセッサが使用すること;プロセッサが第1の予測ブロック及び第1の元ブロックに基づき第1の残りブロックを判断し、その後、第1の再構成ブロックを第1の残りブロック及び第1の予測ブロックに基づき判断すること;1つ又は複数の第2のLR元フレームの第2の元ブロックの予測を定義する第2の予測ブロックをプロセッサが第1の再構成ブロックに基づき判断すること;プロセッサが第2の予測ブロック及び第2の元ブロックに基づき第2の残りブロックを判断すること;及びプロセッサが第1の残りブロック及び第2の残りブロックを、「符号化中にダウンサンプリング方式がビデオフレームをダウンサンプリングするために使用された」ということを復号器装置へシグナリングするためのメタデータを含むビットストリームへ変換すること、を含む。
【0019】
したがって、本発明は、元のビデオフレームを空間的に複数の低解像度バージョンへサブサンプリングするための超解像技術がフレームレベルにおいて使用される符号化方法に関する。低解像度バージョンの1つは、他の低解像度バージョンの予測を判断するための基準フレームとして使用される再構成された低解像度フレームを判断するために符号化及び復号化され得る。本符号化方法はビデオフレームが低い空間的相関を有する画素値を含む場合に特に効率的である。
【0020】
一実施形態では、ビデオフレームはIフレームであり得、第1の予測ブロックを判断することは、第1の予測ブロックを判断するイントラ予測方法を使用することを含み得る。一実施形態では、ビデオフレームはPフレーム又はBフレームであり得、第1の予測ブロックを判断することは、第1の予測ブロックを判断するインター予測(inter-prediction)方法を使用することを含み得る。したがって、符号化方法はIフレーム又はP若しくはBフレームの両方に適用され得る。
【0021】
一実施形態では、第1の再構成ブロックは、第2の予測ブロックを判断するための基準フレームを定義する第1のLR再構成フレームを定義し得る。
【0022】
一実施形態では、ブロックマッチング予測方法が第2の予測ブロックを判断するために使用され得る。一実施形態では、ブロックマッチング予測方法はイントラ領域ベース(intra region-based)テンプレートマッチング方法又はイントラコピーブロック(intra copy block)方法に基づき得る。したがって、ブロックマッチング技術として知られたフレーム間予測に通常使用される技術がこれらの予測を判断するために使用され得る。イントラブロックコピー(IBC:Intra Block Copy)予測モードがHEVC Screen Content Coding extensionから知られる。使用され得る別のブロックマッチング技術はイントラ領域ベース(Intra Region-based)テンプレートマッチング技術である。
【0023】
一実施形態では、第1のLR元フレームに関連付けられた第1の残りブロックと1つ又は複数の第2のLR元フレームに関連付けられた第2の残りブロックはデータ構造(好適にはピクチャのサブグループ(sub Group of Pictures)「サブGOP」)を定義し得、好適にはデータ構造はサブGOPのメタデータと関連付けられる。サブGOPは、同じスーパーフレームのピクチャを参照するピクチャのグループである。この場合、サブGOPは様々なLRフレームを様々なフレームとして定義する。第1のLRフレームはIフレームを表し、他のLRフレームは既知タイプ(例えばP又はB)又は定義される新しいタイプのものであり得る。
【0024】
一実施形態では、ダウンサンプリング方式は、複数(好適には4つ)の空間的ダウンサンプリング格子を含む多相ダウンサンプリング方式であり得る。いかなるダウンサンプリングフィルタも、高解像度フレームの再構成が最適化され得るように、行われるダウンサンプリング操作が復号器へ知らされる限り使用され得る。特定ケースでは、ダウンサンプリングフィルタは多相ダウンサンプルであり得る。多相ダウンサンプルは、高解像度の元のビデオフレームから生成される4フレームが全ソース情報を含むという利点を与える。この操作はデータ損失を生じない。
【0025】
一実施形態では、第1のLR元フレームと1つ又は複数の第2のLR元フレームは第1の解像度の多重化ビデオフレームへ空間的に多重化され得る。LRフレームは、ブロック区分化に関するメタデータが第1のLRフレームに対応する領域(例えば多相ダウンサンプルの場合の左上部ブロック)に帰着し得るように1つのフレームへ空間的に多重化され得る。他のLRフレームのブロック区分化が第1のLRフレームと同様に考えられ得る。
【0026】
したがって、多相ダウンサンプリングされた元のビデオフレームの4つのLRフレームはその解像度がHRフレームに等しい単一フレームとして処理され得る又はその解像度がHRフレームの1/4である4つの(低解像度)フレームとして処理され得るかのいずれかであり得る。
【0027】
一実施形態では、メタデータは、符号器装置により使用されたダウンサンプリング方式のタイプを復号器装置へシグナリングするための1つ又は複数の第1のパラメータを含み得る。一実施形態では、メタデータは、第1の予測ブロックを予測するために使用された予測のタイプを復号器装置へシグナリングするための1つ又は複数の第2のパラメータを含み得る。一実施形態では、メタデータは、第2の予測ブロックを予測するために使用された予測のタイプを復号器装置へシグナリングするための1つ又は複数の第3のパラメータを含み得る。元のビデオフレームが様々な低解像度フレームへ分解されるということとそれがどのように分解されるかということとがフレーム毎にビットストリーム内でシグナリングされ得る。例えば、一実施形態では、スライスセグメントヘッダ(HEVC)又はタイルグループヘッダ(VVC)内のフラグが、ダウンサンプルを4つの多相化された位相で表現するために定義され得る。他の実施形態では、このシグナリングは、復号器が操作を元に戻し得るようにダウンサンプリングのタイプと生成された相の数とを表し得る。
【0028】
一態様では、本発明はビットストリームをビデオフレームへ復号化する方法に関し得る。本方法は、復号装置のプロセッサが、第1の低解像度(LR)元フレームに関連付けられた第1の符号化された残りブロックと1つ又は複数の第2のLR元フレームに関連付けられた第2の符号化された残りブロックとを含むビットストリームを受信すること;プロセッサが第1及び第2の符号化された残りブロックに関連付けられたメタデータを受信することであって、メタデータは、第1の解像度の元フレームを第1のLR元フレームと1つ又は複数の第2のLRの元のフレームとへダウンサンプリングするダウンサンプリング方式を符号器装置が使用したということを復号器装置へシグナリングし、第1のLR元フレーム及び1つ又は複数の第2のLR元フレームは第1の解像度より低い第2の解像度である、受信すること;第1のLR元フレームの第1の元ブロックの予測を定義する第1の予測ブロックを判断する予測方法をプロセッサが使用すること;プロセッサが、第1の符号化された残りブロックを第1の残りブロックへ変換し、そして第1のLR再構成フレームを定義する第1の再構成ブロックを第1の残りブロック及び第1の予測ブロックに基づき判断すること;1つ又は複数の第2のLR元フレームの第2の元ブロックの予測を定義する第2の予測ブロックをプロセッサが第1の再構成ブロックに基づき判断すること;プロセッサが、第2の符号化された残りブロックを第2の残りブロックへ変換し、そして1つ又は複数の第2のLR再構成フレームを定義する第2の再構成ブロックを第2の残りブロック及び第2の予測ブロックに基づき判断すること;及び、プロセッサが、再構成された元のビデオフレームを第1のLR再構成フレームと1つ又は複数の第2のLR再構成フレームとに基づき判断すること、を含み得る。
【0029】
一実施形態では、再構成ブロックを判断することは:第1のLR再構成フレームと1つ又は複数の第2のLR再構成フレームとをアップサンプリングすることであって、好適には、アップサンプリングすることはダウンサンプリング方式に関連付けられたアップサンプリング方式に基づく、アップサンプリングすること;及び、アップサンプリングされた第1のLR再構成フレームとアップサンプリングされた第2のLR再構成フレームとを、再構成された元のビデオフレームへ合成することを含み得る。
【0030】
一実施形態では、ブロックマッチング予測方法は第2の予測ブロックを判断するために使用され得、好適にはブロックマッチング予測方法はイントラ領域ベーステンプレートマッチング方法又はイントラコピーブロック方法に基づく。
【0031】
一実施形態では、ビットストリームは、高効率ビデオ符号化(HEVC:High Efficiency Video Coding)ベースビットストリーム、Alliance for Open Media Video(AV1)ベースビットストリーム、又は汎用ビデオ符号化(VVC:Versatile Video Coding)ベースビットストリームであり得る。
【0032】
一態様では、本発明はビデオフレームをビットストリームへ符号化するための装置に関し得る。本装置は:プログラムの少なくとも一部がその中に具現化されたコンピュータ可読ストレージ媒体と;コンピュータ可読プログラムコードがその中に具現化されたコンピュータ可読ストレージ媒体と、コンピュータ可読ストレージ媒体へ結合されたプロセッサ(好適にはマイクロプロセッサ)とを含み得、コンピュータ可読プログラムコードを実行することに応答して、プロセッサは、以下のことを含み得る実行可能操作を行うように構成される:第1の低解像度(LR)元フレーム及び1つ又は複数の第2の元LRフレームを判断するためのダウンサンプル方式を第1の解像度の元のビデオフレームに適用することであって、第1のLR元フレーム及び1つ又は複数の第2のLR元フレームは第1の解像度より低い第2の解像度である、適用すること;第1のLR元フレームを第1の元ブロックへ区分化し、1つ又は複数の第2のLRフレームを第2の元ブロックへ区分化すること;第1のLR元フレームの第1の元ブロックの予測を定義する第1の予測ブロックを判断する予測方法を使用すること;第1の予測ブロック及び第1の元ブロックに基づき第1の残りブロックを判断し、その後、第1の残りブロック及び第1の予測ブロックに基づき第1の再構成ブロックを判断すること;1つ又は複数の第2のLR元フレームの第2の元ブロックの予測を定義する第2の予測ブロックを第1の再構成ブロックに基づき判断すること;第2の予測ブロック及び第2の元ブロックに基づき第2の残りブロックを判断すること;及び第1の残りブロック及び第2の残りブロックを「符号化中にダウンサンプリング方式がビデオフレームをダウンサンプリングするために使用された」ということを復号器装置へシグナリングするためのメタデータを含むビットストリームへ変換すること。
【0033】
一態様では、本発明はビットストリームをビデオフレームへ復号化するための装置に関し得る。本装置は:プログラムの少なくとも一部がその中に具現化されたコンピュータ可読ストレージ媒体と;コンピュータ可読プログラムコードがその中に具現化されたコンピュータ可読ストレージ媒体と、コンピュータ可読ストレージ媒体へ結合されたプロセッサ(好適にはマイクロプロセッサ)とを含み得、コンピュータ可読プログラムコードを実行することに応答して、プロセッサは、以下のことを含む実行可能操作を行うように構成される:第1の低解像度(LR)元フレームに関連付けられた第1の符号化された残りブロックと1つ又は複数の第2のLR元フレームに関連付けられた第2の符号化された残りブロックとを含むビットストリームを受信すること;第1及び第2の符号化された残りブロックに関連付けられたメタデータを受信することであって、メタデータは「第1の解像度の元フレームを第1のLR元フレームと1つ又は複数の第2のLRの元のフレームとへダウンサンプリングするダウンサンプリング方式を符号器装置が使用した」ということを復号器装置へシグナリングし、第1のLR元フレーム及び1つ又は複数の第2のLR元フレームは第1の解像度より低い第2の解像度である、受信すること;第1のLR元フレームの第1の元ブロックの予測を定義する第1の予測ブロックを判断する予測方法を使用すること;第1の符号化された残りブロックを第1の残りブロックへ変換し、そして第1のLR再構成フレームを定義する第1の再構成ブロックを第1の残りブロック及び第1の予測ブロックに基づき判断すること;1つ又は複数の第2のLR元フレームの第2の元ブロックの予測を定義する第2の予測ブロックを第1の再構成ブロックに基づき判断すること;第2の符号化された残りブロックを第2の残りブロックへ変換し、そして1つ又は複数の第2のLR再構成フレームを定義する第2の再構成ブロックを第2の残りブロック及び第2の予測ブロックに基づき判断すること;及び再構成された元のビデオフレームを第1のLR再構成フレームと1つ又は複数の第2のLR再構成フレームとに基づき判断すること。
【0034】
一態様では、本発明は、本出願に記載される実施形態を参照して説明されるようにビデオデータをビットストリームへ符号化する方法を実行するように構成された符号器装置に関する。
【0035】
一態様では、本発明は、本出願に記載される実施形態を参照して説明されるようにビットストリームをビデオデータへ復号化する方法を実行するように構成された復号器装置に関する。
【0036】
本発明はさらに、コンピュータのメモリ内で実行されると上述の方法工程の任意の方法工程に従って方法工程を実行するように構成されたソフトウェアコード部分を含むコンピュータプログラム製品に関する。
【0037】
本発明はさらに、本発明による実施形態を概略的に示す添付図面を参照して示されることになる。本発明はこれらの特定実施形態へいかなるやり方でも制約されないということが理解されることになる。
【図面の簡単な説明】
【0038】
【
図1】本開示において説明される実施形態において使用され得る空間サブサンプリング方式の例を描写する。
【
図2】本開示において説明される実施形態において使用され得る多相サブサンプリング方式の例である。
【
図3】本発明の一実施形態による符号化処理の一部分を描写する。
【
図4】本発明の一実施形態による低解像度再構成ビデオブロックの形成を概略的に描写する。
【
図5】本発明の一実施形態によるサブGOP構造を含むGOP構造を概略的に描写する。
【
図6】本発明の一実施形態による空間サンプリング方式に基づきビデオフレームを符号化するための符号化処理の一部分を描写する。
【
図7】本発明の一実施形態によるブロックベース符号化処理を描写する。
【
図8】本発明の一実施形態によるブロックベース復号化処理を描写する。
【
図9】本発明の一実施形態による符号器装置を示すブロック図を描写する。
【
図10】本発明の一実施形態による復号器装置を示すブロック図を描写する。
【
図11】本開示において説明される実施形態において使用され得る解像度成分フォーマットの例を描写する。
【
図12】本出願において説明される実施形態を使用し得るビデオ符号化及び復号化システムの概略図を描写する。
【発明を実施するための形態】
【0039】
ビデオフレームを圧縮し符号化するために超解像技術を使用することが本出願における実施形態の目的である。超解像技術は、符号器が元のビデオフレームのダウンサンプリングされたフレームを符号化し得るようにインループ符号化処理中に使用され得る。したがって、インループ符号化処理中、符号器は、元のビデオフレームより低い解像度のフレームを符号化し得る。超解像技術を使用すべきかどうかを符号器により判断することは、符号器の速度歪最適化(RDO:rate distortion optimisation)ループ内の費用関数に基づき評価され得る。このようにして、高解像度ビデオフレーム(特に高解像度イントラ符号化(I)ビデオフレーム)及びビデオフレームの効率的符号化は従来の圧縮を使用して圧縮するのが困難であるいくつかの場面を表すビデオサンプルを含む。このようなビデオは例えば360°ビデオを含む。超解像技術の活性化は、復号器がビットストリームを正しく復号化し、復号化された低解像度ビデオブロックに基づき元のビデオフレームを再構成し得るようにビットストリーム内でシグナリングされ得る。
【0040】
本開示では、超解像処理は通常、一組の低解像度(LR:low resolution)観察(例えば画像)に基づき高解像度(HR:high resolution)画像又は一系列のHR画像を取得する画像処理方式を指し得る。これらの画像は時間においてコヒーレントであってもなくてもよい。例えば、一系列のビデオフレーム内で、第1の解像度(例えば標準精細度又は高解像度)の前後のビデオフレームは、ビデオシーケンスにおいて第2の解像度(例えば超解像又は4K)のビデオフレームの画像を再構成するために使用され得る。超解像処理は主として、LR観察がそれらの世代に関する極僅かの予備的知識でもって生成される場合に空間的及び時間的解像度向上を得るために使用されてきた。例えば、2つのLR観察間の空間的移動量は知られていないかもしれなくしたがって推定される必要がある。しかし、超解像処理はまた、制御され精確に定義された環境において使用され得る。例えば、符号化中、ビデオフレームは所定ダウンサンプリング方式(例えば多相ダウンサンプリング)を使用してダウンサンプリングされ得、超解像技術は、低解像度フレームをアップサンプリングすることとアップサンプリングされた低解像度フレームを高解像度ビデオフレームへ合成することとを使用することにより高解像度画像を構築するために使用され得る。この場合、超解像処理は、LR観察の特徴及びそれらの空間的及び時間的関係が知られており推定される必要がないので最適に働き得る。
【0041】
図1と
図2は本開示において説明される実施形態において使用され得る空間サブサンプリング方式の例を描写する。
図1は、(規則的)サンプリング格子(例えば、高解像度格子すなわちビデオサンプルのアレイ)に基づき連続画像の一部分をサンプリングすることにより形成され得るビデオフレーム102(例えばビデオブロック)の一部分を描写する。ここで、サンプリング格子内の各サンプリング点は高解像度ビデオフレーム内のビデオサンプルを形成し得る。ビデオサンプルはRGB又はYCbCrカラー方式における特定カラー成分を表し得る。例えば、3つのRGBビデオサンプルがビデオフレーム内の1つのカラー画素を形成し得る。様々なタイプの低解像度ビデオフレームが、様々な低解像度サンプリング格子104
1-4を使用することにより高解像度ビデオ信号の高解像度フレームに基づき形成され得る。一般的に、低解像度サンプリング格子は高解像度ビデオフレームのサンプリング格子より低いサンプリング密度を有する。例えばAVCのScalable Video Coding(SVC)及びScalable HEVC(SHVC)などのスケーリング可能ビデオ符号化標準規格から知られるダウンサンプリング操作において、ダウンサンプリングされたビデオ信号のビデオフレームの新しい画素値は元の高解像度ビデオ信号のビデオフレーム内の画素値の組に基づき計算され得る。
【0042】
しかし、いくつかのダウンサンプリング方式は画素値を変更しない。このような方式は以降、空間サブサンプリング方式と呼ばれ得る。このような空間サブサンプリング方式は、画像フレームを形成する一組の画素値から画素値のサブセットだけを選択する。空間サブサンプリング方式は、元のビデオ信号又はその低解像度バージョンの非常に効率的な再構成を可能にする。加えて、解像度成分の空間的にサブサンプリングされたビデオフレームは、高解像度ビデオフレームを構築するための超解像技術の使用を可能にする。
図1に示すサンプリング格子は本開示の実施形態において使用され得る多数の様々なサンプリング格子の一例と考えるべきであるということに注意すべきである。
【0043】
このような低解像度サンプリング格子により生成されるビデオフレームは解像度成分のビデオフレームを表し得る。様々な解像度成分は、様々なサンプリング格子に基づき高解像度ビデオフレームをサブサンプリングすることにより形成され得る。サンプリング格子のグループは、このサンプリング格子のグループに基づき生成される解像度成分が元の高解像度ビデオ信号を再構成する(すなわち、元の高解像度ビデオ信号と同一又はほぼ同一であるビデオ信号を再構成する)ために使用され得るように選択され得る。さらに、1つ又は複数の空間サンプリング格子は、1つ又は複数のサンプリング格子に基づき生成された解像度成分が、高解像度ビデオ信号の低解像度バージョンを構築するために使用され得るように選択され得る。
【0044】
いくつかの実施形態では、高解像度ビデオフレームをサブサンプリングするために使用されるサンプリング格子は同じサンプリング密度を有し得る。このようなサンプリング格子上に生成される解像度成分は同じ解像度を有する。他の実施形態では、サンプリング格子(のいくつか)は様々なサンプリング密度を有し得る。この場合、解像度成分(のいくつか)は様々な解像度を有する。さらに、
図1に示すように、いくつかの実施形態では、サンプリング格子は重畳部分(すなわち共通の1つ又は複数のサンプリング点)を有し得る。他の実施形態では、サンプリング格子間の重畳部分は無い。
【0045】
したがって、解像度成分のグループは
図1に描写するように空間サブサンプリングに基づき生成され得る。グループ内のすべての解像度成分は元の高解像度ビデオ信号を再構成するために使用され得、そしてグループ内の解像度成分のうちのいくつかは高解像度ビデオ信号の1つ又は複数の低解像度バージョンを構築するために使用され得る。
【0046】
図2は空間サブサンプリング方式の例を描写する。特に、同図は第2の解像度のビデオフレームの画素202に基づき第1の解像度の多く(この例では4つ)のビデオフレームを生成する多相サブサンプリング方式を描写し、第2の解像度は第1の解像度より高い。多相サブサンプリングでは、4×4画素行列は4つの2×2解像度成分203
1-4へサブサンプリングされ得、4×4画素行列では、各解像度成分は空間的にシフトされた2×2画素行列206
1-4を表す。4つの解像度成分は元(高解像度)のビデオ信号を再構成するために復号器により使用され得る解像度成分のグループ(解像度成分グループ)を形成し得る。
【0047】
高解像度ビデオは、それぞれが1920×1088画素解像度及び毎秒24フレーム(fps)のフレーム速度を有するYUV型カラーフォーマット(例えばYUV 4:2:0カラーフォーマット)を有し得る。この高解像度ビデオフレームを係数2(Y、U及びVへ適用される)でもって多相空間サブサンプリング処理へ付すことは、YUV 4:2:0カラーフォーマットの4つの低解像度ビデオフレームを生じるだろう。ここで、各フレームは960×544画素解像度及び24fpsのフレーム速度を有する。
【0048】
図2に描写する多相サブサンプリング方式は、符号器側と復号器側との両方において非常に速い操作を可能にするという利点を提供する。ここで、画素値は変更されない。しかし、この多相サブサンプリング方式は、元の信号がサブサンプリング周波数の2倍より高い周波数を含めば空間的エイリアシング効果により視覚アーチアファクトを導入し得る。この場合、4つの低解像度成分のいずれかが描画のために適切でないかもしれない。この効果を軽減するために、ポストフィルタリング操作が、解像度成分の出力フレームを強化し、これらの視覚的アーチアファクトを可能な限り多く相殺するために適用され得る。また、プリフィルタリングが、適用され、プリフィルタリング工程において適用された劣化の知識が効率的に適用され得るポストフィルタリング操作においてある程度元に戻され得る。
【0049】
例えば、一実施形態では、多相サブサンプリングは高解像度フレームの低域通過フィルタリング後に行われ得る。このようにして、エイリアシング効果に起因する視覚的アーチアファクトは除去され得る。低域通過フィルタリングの際、後処理工程が、描画する前に元画像を復元するために必要である。そうでなければ、せいぜい、再構成された信号は入力信号の低域通過バージョンである。無損失符号化では、低域通過フィルタを元に戻してHR画像を復元することは逆Wienerフィルタなどの技術によりある程度実行可能である。損失符号化では、低域通過フィルタリングは、特に再構成信号が圧縮により既に激しく損傷された場合に低ビットレート符号化においていくつかの困難を導入し得る。このような後処理復元方式は、低域通過フィルタにより除去されたが元の信号を真には復元しない高周波数の推定だけを提供し得る。すなわち、このような後処理復元方式は劣化を画素という観点で元に戻さない。
【0050】
空間成分の生成は多相サブサンプリングを参照して説明されたが、他のタイプの空間サブサンプリング方式も使用され得る。このような方式の例は5の目(quincunx)及び六角(hexagonal)サブサンプリング又はこれらの派生物を含む。このような空間サブサンプリング方式に基づき、解像度成分が形成され、そして高解像度ビデオを再構成するために使用され得る。
【0051】
N個の画素(行列N×1)を有する高解像度フレームxから、それぞれがM個の画素(行列M×1)を有する(ここでM<N)一組K個の低解像度フレームy(k)。各k番目の低解像度フレームy(k)に関し、HRフレームのフィルタリングは行列H(次元N×N)により記述され、サブサンプリングは行列A(次元M×N)により定義される。したがって、生成モデルは次のように表され得る:
y(k)=A(k)Hx
【0052】
ここで、同じプリフィルタリングが上述のようにHRフレームへ適用されるということが想定され得る。別の実施形態では、各k番目分解部は行列Hを有し得る。さらに別の実施形態では、1つの解像度成分はHRフレームの低域通過フィルタである行列HLPを有し得(したがって、モアレ効果としての視覚的アーチアファクトを回避する)、一方、他の解像度成分は単位行列である同じ行列HIを有する(HRフレームはフィルタリングされなく、純粋な多相サブサンプリングが行われるということを意味する)。
【0053】
上述の生成モデルに基づき、多くの再構成方法が、例えば参照により本明細書に援用する非特許文献Sung Cheol Park et
.al.,“Super-Resolution image reconstruction:a technical overview“
,IEEE signal processing magazine
,May 2003
,pp
.21-36に記載されるような公知の超解像技術を使用することにより
【数1】
(HRフレームxの推定)を生成するために適用され得る。HRビデオフレームを再構成するために使用され得るこの記事に記載される超解像画像再構成アルゴリズムの例は、非一様補間、周波数領域における再構成、規則化超解像再構成、凸射影法再構成、ML-POCSハイブリッド再構成、反復逆投影再構成、適応フィルタリング再構成及びモーションレス超解像再構成を含む。
【0054】
一実施形態では、元の高解像度ビデオフレームは、
図1と
図2において説明した多相サブサンプリング操作を使用して複数の低解像度フレームへ分解され得る。この場合、サブサンプリングされた低解像度ビデオフレームを再合成する処理はより一般的な場合より単純である。再合成処理は、低解像度ビデオフレームが元の高解像度信号内に持っていた位置に従って各低解像度ビデオフレームを再合成画像上へマッピングすることに帰する。この再合成処理は、零詰め(zero padding)により低解像度ビデオフレームのそれぞれをアップサンプリングすることと、元の高解像度ビデオフレームのビデオフレーム内のアップサンプリングされた低解像度ビデオフレームの位置に整合するように行列要素を空間的にシフトすることにより、アップサンプリングされた低解像度ビデオフレームを組み合わせることと、を含む。
【0055】
図1と
図2を参照して上に説明したサブサンプリング方式はビデオフレーム全体又はその一部を含む(が限定しない)様々なビデオ信号(例えば、ビデオ符号化中に使用される例えば1つ又は複数のブロックのビデオサンプル、ビデオブロック)へ適用され得るということに注意すべきである。
【0056】
本出願では、ビデオフレームを超解像方法に基づき符号化するための新しい符号化モードについて説明する。ここで、ビデオブロックは、ビデオ符号器又は復号器内の機能要素により1つのユニットとして処理されるビデオサンプルのブロックである。本出願では、用語「ビデオブロック」と「ブロック」は別途明記しない限り同じ意味を有する。符号化中、符号器が超解像モードに従ってビデオフレームを圧縮し符号化することを判断すれば、復号器はいつこれらのモードが活性化されるべきかを知る必要がある。超解像モードの活性化は、ビットストリーム内のメタデータとしてシグナリングされ得、多くの形式を取り得る。例えば、一実施形態では、ビデオフレームに関連付けられたフラグが「超解像モードがビデオフレームに関して活性化されるかどうか」を復号器へシグナリングし得る。
【0057】
伝統的符号器では、ビデオのあるフレームへ与えられるフレームタイプはピクチャグループ(GOP:group of picture)データ構造(例えばIPBBPなど)内の位置に依存する。GOP内の所定系列の様々なフレームタイプはコンテンツ分析に基づき符号器(特にプロ級の)によりオーバーライドされ得る。例えば、場面遷移が発生する場合、Iフレームで開始することは、場面が変わると以前のフレームが著しく異なるようになるので、P又はBフレームは符号化するのがより高価になり得るので、好ましい。
【0058】
従来のフレームタイプはI、P及びBタイプフレームを含み、ここで、Iフレームがイントラ符号化され、Pタイプ及びBタイプはそれぞれ後方だけへそして前方及び後方へ時間的に予測される。各ビデオフレーム内部で、各ビデオブロックはさらに2つのタイプ(イントラブロック及びインターブロック)へ定義される。イントラブロックは空間的予測方式(フレーム内の)を使用して符号化され、一方インターブロックは様々なビデオフレームに基づく予測方式を使用して符号化される。Iフレーム内部では、すべてのビデオブロックがイントラ符号化される。P及びBのフレーム内部では、「基準フレーム内のいかなる他の領域も効率的に予測しないということが分かったので、ビデオブロックがイントラ符号化される」ということが起こり得る。これは、例えば、ビデオ内で物体が突然現われる場合、又は360°ビデオ(又は、より一般的には球状ビデオデータ)の投影されたビデオフレームの場合であり得る。
【0059】
球状ビデオデータに基づく2D矩形画像フレーム又はピクチャの形成は通常、幾何学的物体(直線状縁を有する物体)の表面上への球状ビデオデータの投影と投影された表面の矩形上へのマッピングとを含み得る。球状ビデオコンテンツを符号化することに関し、2D矩形ビデオフレームは、既存ビデオ符号化標準規格に対する修正を必要としないので符号器装置への入力としての使用に最も好都合な形式である。エクイレクタングラー投影(ERP:equirectangular projection)、立体又はピラミッド投影モデルなどの様々な投影モデルが知られている。ERPの場合、球が、水平及び垂直座標として極角度を使用することにより矩形上へ投影される。この場合、マッピングは、EPR投影が矩形を直接生じるので投影工程に取り込まれる。エクイレクタングラーと他の投影フォーマットとの両方はH.264/AVC、HEVC、AV1又はVVCなどの符号化方式を使用して直接符号化され得る。
【0060】
超解像モードのビデオフレーム全体(すなわちビデオフレーム(超解像方法を使用して符号化されるIフレームだけでなくP及びBフレームも)のすべてのブロック)への適用がさらに提示される(速度歪最適化(RDO)解析が「このようなモードが符号化効率の観点で有益である」ということを示せば)。
【0061】
図3は本発明の一実施形態による符号化処理の一部分を描写する。本処理は符号器装置により実行され得る。この図に示すように、本処理は空間サブサンプリング方式304(例えば多相ダウンサンプリング方式)を第1の解像度(例えば超高解像度又は4K解像度などの高解像度(HR)タイプ)の元のビデオフレーム302へ適用することを開始し得る。ここで、元のビデオフレームは、限定しないがIフレーム、Pフレーム、Bフレーム又は超フレームを含む任意のタイプのフレームであり得る。
【0062】
空間サブサンプリングの適用は第1の解像度より低い第2の解像度の複数の低解像度(LR)元のビデオフレーム306を生じ得る。複数のLR元フレームは第1のLR元フレームと1つ又は複数の第2のLR元フレームとを含み得る。次に、複数のLR元ビデオフレームの第1のLR元ビデオフレームの予測310が判断され得る。この予測工程は、公知の予測方法(例えばIフレームの場合はイントラ予測方法、又はP若しくはBフレームの場合はインター予測方法)を使用して第1のLR元フレームの元ブロックの予測ブロックを判断することを含み得る。
【0063】
一実施形態では、元ブロックは別個に処理され得る。一実施形態では、第1のLR元フレーム及び1つ又は複数の第2のLR元フレームは第1の解像度の多重化ビデオフレームへ空間的に多重化され得る。この結果、多重化ビデオフレームは、元のビデオフレームの解像度と同一である第1の解像度を有することになる。多重化ビデオフレームは4つの部分に分割され得、左上部分は第1の元ブロックのサンプルを含み得、他の部分(右上、左下、右下)は3つの(多相ダウンサンプリングの場合)第2の元ブロックのサンプルを含み得る。
【0064】
予測ブロック及び元ブロックは、LR再構成フレーム312の再構成ブロック314を判断するために使用され得る。再構成ブロックは、元ブロック及び予測ブロックに基づき残りブロックを判断することにより、そしてLR再構成残りブロックを生成するために逆変換及び量子化工程が後に続く量子化及び変換工程を適用することにより、判断され得る。再構成された残りブロックと予測されたブロックは、LR再構成フレーム312の再構成ブロックを判断するために使用される。このフレームの再構成は符号器装置内の復号器ループにより実現され得る。
【0065】
次に、LR再構成フレーム312は、1つ又は複数の第2のLR元フレームの予測の判断の際にLR基準フレームとして使用され得る。この場合、ブロックマッチング予測方式316が1つ又は複数の第2のLR元フレーム(この場合、LR予測フレーム318)の予測を判断するために使用され得る。ブロックマッチング予測方法は、基準フレーム(又は基準フレーム群)からの現在のブロックに密に整合するブロック(又はブロック群)に基づき現在のブロックが予測される任意のブロックベース予測方法を指す。このようなブロックマッチング予測方式は、1つ又は複数の第2のLR元フレームの予測ブロックを、LR再構成フレーム(基準フレーム)の再構成ブロック314と、任意選択的に、既に復号化された1つ又は複数の第2のLR元フレームのうちの1つからの再構成ブロックとに基づき判断するために使用され得る。
【0066】
一実施形態では、ブロックマッチング予測方式は、参照により本出願に援用する非特許文献G.Venugopal,H.Schwarz,D.Marpe and T.Wiegandによる“Intra Region-based Template Matching,JVET-J0039,”San Diego,US,2018に記載の所謂イントラ領域ベーステンプレートマッチング(Intra Region-based Template Matching)技術に基づき得る。別の実施形態では、ブロックマッチング予測方式は、元ブロックのサンプルを予測するためのイントラブロックコピー技術に基づき得る。このようなイントラコピーブロックモードの例は、参照により本出願に援用する非特許文献X.Xu et al.,“Intra Block Copy in HEVC Screen Content Coding Extensions,”in IEEE Journal on Emerging and Selected Topics in Circuits and Systems,vol.6,no.4,pp.409-419,Dec.2016.,doi:10.1109/JETCAS.2016.2597645に記載されている。
【0067】
LR元フレーム306のこのように生成されたLR予測312、318は、量子化され、ビットストリームへ変換され、そしてエントロピー符号化される残りブロックを判断するために使用され得る。
図3に示すように、LR再構成フレーム及び1つ又は複数のLR予測フレームは、サブグループのピクチャ320(サブGOP)と呼ばれ得るデータ構造を形成し得る。サブGOPに関連付けられたメタデータは、空間サブサンプリングのタイプ、サブGOP内のLRフレームの数、第1のLR元フレームのブロック区分化、第1のLR元フレームの予測を判断するために使用される予測方法、及び1つ又は複数の第2のLR元フレームの予測を判断するために使用されるブロックマッチング予測方法を含み得る。これらのメタデータはビットストリーム内に含まれ得る。
【0068】
図3を参照して説明した予測処理は超解像予測モード(特には、フレームレベル超解像予測モード)と呼ばれ得、ダウンサンプリング方式が元のビデオフレームをLRフレーム内へダウンサンプリングするために符号化処理において使用されるということと、アップサンプリング方式が復号化LRフレームをアップサンプルしそしてアップサンプリングされた復号化LRフレームを、再構成された元のビデオフレームへ合成するために復号化処理において使用されるということとを指示する。超解像予測モードは、従来の予測処理を使用して圧縮するのが困難であるフレームの効率的圧縮に使用され得る。
【0069】
図4A~4Cは、
図3を参照してさらに詳細に説明したLR再構成フレームの再構成ブロックの形成を概略的に描写する。
図4AはLR元フレームの元ブロックとLR予測フレームの予測ブロックとを描写する。
図3を参照して説明したように、元ブロックのサンプルは公知の予測方法を使用して予測され得る。例えば、これらのサンプルは、既に符号化されたブロックの基準サンプル(すなわち再構成サンプル)に基づき予測され得る。例えば、元のビデオフレームがIフレームである場合、既に符号化されたブロック(通常は、現在のブロックの近くに位置する又はそれと境界を接するブロック)の基準サンプル(再構成サンプル)に基づき現在のブロック418が予測され得るイントラ予測方法が
図4Bに示すように使用され得る。任意のタイプのイントラ予測方法(例えばビデオ符号化標準規格(HEVC、AV1又は任意の他の公知の又は将来のビデオ符号化標準規格などの)から知られるイントラ予測モード)が使用され得る。代替的に、元のビデオフレームがP又はBフレームである場合、元のビデオフレーム422の現在のブロック424が1つ又は複数の既に符号化された基準フレームの1つ又は複数のブロック(例えば基準フレーム426のブロック428)の再構成サンプルに基づき予測される公知のインター予測方法が
図4Cに示すように使用され得る。運動ベクトル430が基準フレーム内のブロックの位置を判断するために使用される。
図4Cは1つの基準フレームが現在のブロックを予測するために使用される状況を描写するが、複数の基準ブロック内の複数ブロックが現在のブロックの予測を判断するために使用され得るということが知られている。
【0070】
残りブロック406は元ブロック402の元のサンプルと予測ブロック404の予測サンプルとの差として判断され得る。量子化及び変換工程は、LR量子化され変換された残りブロック408のサンプルを判断するために残りのサンプルへ適用され得、再構成された残りブロック410のサンプルを判断する逆量子化及び変換工程が後に続く。一実施形態では、インループフィルタリング工程が、ブロックベース変換工程から生じ得るアーチアファクトを除去する又は少なくとも低減するために、LR再構成された残りブロックへ適用され得る。次に、再構成ブロック414のサンプルが、再構成された残りブロックのサンプルと予測ブロックのサンプルとに基づき判断され得る。この方式をLR元フレームのすべてのブロックへ適用することは、
図3を参照して説明したように1つ又は複数の第2のLR元フレームを予測するための基準フレームとして使用され得るLR再構成フレームを生じる。
【0071】
図5は本発明の一実施形態によるサブGOP構造を含むGOP構造を概略的に描写する。この図に示すように、従来のGOP構造500は、所定数のB及びPフレームの基準フレームとして使用されるIフレームを含み得る。I、P、及び/又はBフレームのうちの1つ又は複数のフレームは本出願で説明したように超解像予測モードに基づき符号化され得る。
図5に提示される例では、Iフレームは、低解像度基準フレームと低解像度基準フレームに基づき構築される複数の低解像度フレームとを生じ得る超解像予測モードに基づき符号化される。
図3と
図4を参照して説明したように、低解像度基準フレームは、元(現在)のフレームを複数のLR元フレームへダウンサンプリングすること、予測方法(この場合、イントラ予測方法)に基づきLR予測フレームを判断すること、そしてLR予測フレームとLR元フレームとに基づきLR再構成フレームを判断することに基づき判断され得る。LR再構成フレームは、ブロックマッチング予測方法に基づき1つ又は複数の第2のLR元フレームの予測を判断するための基準フレームとして使用される。これらの予測は1つ又は複数の第2のLR予測フレームを形成し得る。
【0072】
したがって、低解像度再構成フレームはサブGOPの低解像度Iフレームを定義し得、低解像度Iフレームに基づき予測される1つ又は複数の第2の低解像度予測フレームは低解像度サブGOPのP及び/又はBフレームを定義し得る。多相ダウンサンプリング方式の場合、サブGOPはサブGOPの低解像度Iフレームに基づき導出される3つの低解像度フレームを含む。
図5に示すように、ブロックマッチング予測方法に依存して、様々なサブGOP構造が構築され得る。一実施形態では、サブGOP504は1つの低解像度Iフレームと複数の低解像度Bフレームとを含み得、各Bフレームは、低解像度Iフレームと他の低解像度Bフレームの(少なくとも)1つとに依存し得る(差し込み
図510矢印508により示すように)。別の実施形態では、サブGOP506は1つの低解像度Iフレームと複数の低解像度Pフレームとを含み得、各低解像度Pフレームは低解像度Iフレームだけに依存する(同図の特徴510により示すように)。
図5のサブGOP構造は1つ又は複数の低解像度Iフレーム並びに1つ又は複数のP及び/又はBフレームを含むサブGOP構造を含む本発明から逸脱することなく存在し得る多くの異なるサブGOP構造の非限定的例であるということが提示される。
【0073】
図6は、本発明の一実施形態による空間サンプリング方式(複数の空間サンプリング格子に基づく空間ダウンサンプリング及び空間アップサンプリングを含む)に基づきビデオフレームを符号化するための符号化処理の一部を描写する。この処理は、符号器装置が高解像度ビデオフレームを第1の低解像度(LR)フレーム及び1つ又は複数の第2のLRフレーム(第1及び第2のLRフレームの解像度)へダウンサンプリングすること(工程602)を含み得る。この工程では、低分解能ビデオブロックに基づく1つ又は複数の元(高解像度)のビデオブロックの再構成が達成され得るように、符号器装置により使用されるダウンサンプリング操作が復号器装置へ知らされる(明示的にシグナリング又は導出される)かぎり、任意の空間ダウンサンプリングフィルタ(例えば
図1と
図2を参照して説明した空間ダウンサンプリング方式)が使用され得る。一実施形態では、空間ダウンサンプリングフィルタが多相ダウンサンプリングを行うように構成され得る。このような場合、4つの低解像度フレームが周知の多相分解操作(polyphase decomposition operation)を適用することにより生成され得る。この実施形態は、高解像度ビデオブロックから生成される4つの低解像度ビデオブロックが全ソース情報を含むという利点を提供する。換言すれば、多相ダウンサンプリングはいかなるデータ損失も引き起こさない。
【0074】
その後、第1のLRフレームは精密な予測を判断するために使用され得る。そのために、第1のLRフレームの第1の(初期)予測は、
図3と
図4を参照して詳細に説明したようにイントラ予測又はインター予測(工程604)に基づき判断され得る。その後、第1の(初期)予測は、初期予測に基づき第1のLR再構成フレームを判断することにより改善され得る。第1のLR再構成フレームは1つ又は複数の第2のLRビデオフレームの予測を判断するための基準としてその後使用され得る(工程606)。
図6に描写される予測処理は、従来の予測方法が十分に高い符号化効率を生じないようなほとんど相関の無い大量の画素値を有するビデオフレームに特に好適である。
【0075】
図3~6を参照して説明した符号化処理はブロックベースビデオ符号化方式を使用して実施され得る。したがって、高解像度ビデオフレームをダウンサンプルした後、第1のLR元フレームはブロック(例えば、HEVCから知られる符号化ツリーブロック又は他の符号化標準規格から知られる類似ブロック)へ区分化され得る。この処理中、アルゴリズムがフレームの最良のブロック区分化を見出すために使用される。1つ又は複数の第2のLR元フレームは同じ高解像度の元フレームから導出されるので、これらのフレームのブロック区分化は第1のLR元フレームのブロック区分化と同じであるということが予想される。したがって、復号器装置へビットストリームで送信されるメタデータにおいて、第1のLR元フレームに関するブロック区分化が、シグナリングされ、そしてサブGOP内の他のLRフレームのために再使用され得る。これは、サブGOPのLRフレーム毎にこのメタデータを判断し次にシグナリングすることと比較して、著しいビット節約及び符号化時間を生じることになる。サブGOP構造内のLRフレーム間の密な関係により、他のタイプのメタデータもまたサブGOP内のLRフレームに使用され得る。例えば、量子化情報は、残りブロックの残りサンプルの量子化工程に関係する、又は第1のLR再構成フレームを判断するために使用される予測方法及び1つ又は複数の第2のLRフレームの予測を判断するために使用される予測方法に関する情報に関係する。
【0076】
図3~6に示す符号化方法はビデオフレームを効率的に符号化及び復号化するために使用され得る。以下では、このような符号化及び復号化処理及びこのような処理を実行するための装置の例がより詳細に説明される。
【0077】
図7は本発明の一実施形態によるブロックベース符号化処理を描写する。本処理は、ダウンサンプリング方式を、第1のLR元フレーム及び1つ又は複数の第2のLR元フレームを判断するための第1の解像度の元のビデオフレームへ適用する工程(工程702)を含み得る。ダウンサンプリング方式は
図1と
図2を参照して説明したような複数の空間ダウンサンプリング格子を含み得る。第1のLR元フレームはブロック区分化アルゴリズムに基づき第1の元ブロックへ区分化され得る。さらに、1つ又は複数の第2のLR元フレーム(のそれぞれ)は第2の元ブロック(工程704)へ区分化され得る。予測方法(好適にはイントラ予測又はインター予測)が第1のLR元フレームの第1の元ブロックを予測するための第1の予測ブロックを判断するために使用され得る(工程706)。次に、第1の残りブロックが第1の予測ブロック及び第1の元ブロックに基づき判断される。次に、第1の再構成ブロックが第1の残りブロック及び第1の予測ブロックに基づき判断され得る(工程708)。第1の再構成ブロックは、1つ又は複数の第2のLR元フレームの第2の元ブロックの予測を定義する第2の予測ブロックを判断するための基準として使用され得る(工程710)。第2の残りブロックは第2の予測ブロック及び第2の元ブロックに基づき判断され得る(工程712)。第1の残りブロック及び第2の残りブロックはビットストリームへ変換され得、ダウンサンプリング方式がビデオフレームの符号化中に使用されたということを復号器装置へシグナリングするためのメタデータがビットストリーム内に挿入され得る(工程714)。
【0078】
図8は本発明の一実施形態によるブロックベース復号化処理を描写する。本処理は、第1のLR元フレームに関連付けられた符号化された第1の残りブロックと1つ又は複数の第2のLR元フレームに関連付けられた第2の残りブロックとを含むビットストリーム(の一部)を受信する工程(工程802)を含み得る。符号化された第1及び第2の残りブロックは、本出願の様々な実施形態において説明されたサブGOP構造の一部分であり得る。さらに、元フレームを第1のLR元フレーム及び1つ又は複数の第2のLRフレームへ(符号化中に)ダウンサンプリングするためのダウンサンプリング方式が使用されたということを復号器装置へシグナリングするためのメタデータが受信され得る(工程804)。したがって、この場合、復号器は、元のビデオフレームを再構成するために低解像度フレームをアップサンプリングするためにアップサンプリング方式を使用する必要があるということとアップサンプリングされた低解像度フレームを元のビデオフレームの再構成フレームへ合成する必要があるということを通知される。
【0079】
第1のLR元フレームの第1の元ブロックの予測を定義する第1の予測ブロックを判断するイントラ予測方法が使用され得る(工程806)。その後、符号化された第1の残りブロックは第1の残りブロックへ変換され、第1の再構成ブロックは第1の残りブロック及び第1の予測ブロックに基づき判断される(工程808)。
【0080】
次に、第1の再構成ブロックは、1つ又は複数の第2のLR元フレームの第2の元ブロックの予測を定義する第2の予測ブロックを判断するために使用される(工程810)。符号化された第2の残りブロックは第2の残りブロックへ変換され、第2の再構成ブロックが第2の残りブロック及び第2の予測ブロックに基づき判断される(工程812)。最後に、再構成された元のビデオフレームは、第1の再構成ブロックにより定義された第1のLR再構成フレームと第2の再構成ブロックにより定義された1つ又は複数の第2のLR再構成フレームとに基づき判断される(工程814)。この工程では、再構成された元のビデオフレームはアップサンプリング方式を使用して判断され得、第1のLR再構成フレーム及び1つ又は複数の第2のLR再構成フレームは、アップサンプリングされ、第1の解像度の再構成された元のビデオフレームへ合成される。
【0081】
図9は本発明の一実施形態による符号器装置を示すブロック図を描写する。符号器装置900は、ビデオフレーム又はその一部分(例えばビデオスライス)内のブロックのイントラ予測及びインター予測を行い得る。イントラ予測は、所与のピクチャ又はビデオフレーム内のビデオ内の空間的冗長性を低減又は除去するために空間的予測に依存する。本出願では、インター予測は、ビデオシーケンスの隣接ピクチャ又は複数のピクチャ内のビデオの冗長性を低減又は除去する予測に依存する。インター予測は、GOP内のブロック予測に依存する従来のブロックベースインター予測方法を含む。加えて、インター予測はまた、本出願の実施形態において説明したようにサブGOP内のLRフレームのブロックを予測するために使用され得るブロックマッチング予測方法を含む。イントラモード(Iモード)は、イントラ予測に基づくいくつかの圧縮モードの任意のものを指し得る。単方向予測(Pモード)又は両方向予測(Bモード)などのインターモードはインター予測に基づくいくつかの圧縮モードの任意のものを指し得る。
【0082】
ビデオ符号器は、符号化される必要がある一系列のビデオフレームの形式でビデオデータを受信するための入力901を含み得る。
図9の例では、符号器装置はダウンサンプリングユニット902、区分化ユニット904、モード選択ユニット904、加算器906、変換ユニット908、量子化ユニット910、エントロピー符号化ユニット912及び基準ピクチャメモリ914を含み得る。モード選択ユニット904は、運動推定ユニット916、インター予測ユニット920及びイントラ予測ユニット922を含み得る。ビデオブロック再構成のために、符号器装置はまた、逆量子化ユニット924、逆変換ユニット926及び加算器928を含み得る。デブロッキングフィルタ918などのフィルタもまた、再構成ビデオフレームからアーチアファクトを除去するために含まれ得る。追加ループ(ループ内又はループ後)フィルタがまた、デブロッキングフィルタに加えて使用され得る。
【0083】
図9に示すように、符号器は、符号化処理を制御するとともに関連メタデータ(符号器装置により生成されるビットストリームへ符号化される必要がある)を収集するコントローラ910を含み得る。コントローラにより制御される選択器905はダウンサンプリングユニット902が使用されるか否かを判断し得る。これが使用されなければ、符号器装置の入力におけるビデオデータは、ブロック内のビデオフレームを区分化するための区分化ユニットへ送信されることになる。
【0084】
モード選択ユニットは、イントラ予測又はインター予測などの符号化モードの1つを(例えばエラー結果に基づき)選択するように構成され得、結果のイントラ又はインター符号化ブロックを、残りビデオデータのブロックを生成するために加算器906へ、そして基準ピクチャとしての使用のための符号化されたブロックを再構成するために加算器928へ提供する。符号化処理中、符号器装置は符号化されるべきピクチャ又はスライスを受信し得る。ピクチャ又はスライスは複数のビデオブロックへ分割され得る。モード選択ユニット内のインター予測ユニットは、時間圧縮を提供するために1つ又は複数の基準ピクチャ内の1つ又は複数のブロックに対する受信されたブロックのインター予測符号化を行い得る。さらに、モード選択ユニット内のイントラ予測ユニットは、空間圧縮を提供するために符号化されるべきブロックと同じピクチャ又はスライス内の1つ又は複数の隣接ブロックに対する受信されたビデオブロックのイントラ予測符号化を行い得る。符号器装置は、ビデオデータの各ブロックの適切な符号化モードを選択するために(例えば速度歪最適化(RDO)方式において)複数の符号化パスを行い得る。
【0085】
区分化ユニットは、以前の符号化パス内の以前の区分化方式の評価に基づき、ビデオデータのブロックをサブブロックへ区分化し得る。例えば、区分化ユニットは、ピクチャ又はスライスをLCUへ当初区分化し、そして速度歪解析(例えば速度歪最適化)に基づきLCUのそれぞれをサブCUへ区分化し得る。区分化ユニットはさらに、LCUのサブCUへの区分化を指示する4分木(quadtree)データ構造を生成し得る。4分木のリーフノードCUは1つ又は複数のPU及び1つ又は複数のTUを含み得る。
【0086】
運動ベクトル(MV:motion vector)推定ユニット916はビデオブロックの運動ベクトルを計算する処理を実行し得る。運動ベクトルは、例えば、現在のピクチャ内で符号化されている現在のブロックに対する基準ピクチャ(又は他の符号化ユニット)内の予測ブロックに対する現在のピクチャ内のビデオブロックの予測ブロック(予測ユニットすなわちPU:prediction unit)の移動量を指示し得る。運動ベクトル推定ユニットは、PUの位置とビデオブロックの画素値を近似する基準ピクチャの予測ブロックの位置とを比較することによりインター符号化スライス内のビデオブロックのPUの運動ベクトルを判断し得る。したがって、一般的に、運動ベクトルのデータは基準ピクチャリスト、基準ピクチャリストへの指標(ref_idx)、水平成分及び垂直成分を含み得る。基準ピクチャは、それぞれが基準ピクチャメモリ914内に格納された1つ又は複数の基準ピクチャを識別する第1の基準ピクチャリスト(リスト0)及び第2の基準ピクチャリスト(リスト1)から選択され得る。
【0087】
MV運動推定ユニットは、基準ピクチャの予測ブロックを識別する運動ベクトルを生成し、エントロピー符号化ユニット912及びインター予測ユニット920へ送信し得る。すなわち、運動推定ユニットは、予測ブロックを含む基準ピクチャリストを識別する運動ベクトルデータ、予測ブロックのピクチャを識別する基準ピクチャリストへの指標、そして識別されたピクチャ内の予測ブロックを定位するための水平方向及び垂直成分を生成し送信し得る。
【0088】
いくつかの例では、現在のPUの実際の運動ベクトルを送信するのではなく、運動ベクトル予測ユニット(図示せず)は運動ベクトルを伝達するために必要とされるデータ量をさらに低減する運動ベクトルを予測し得る。この場合、運動ベクトル自体を符号化し伝達するのではなく、運動ベクトル予測ユニットは既知の(又は知ることのできる)運動ベクトルに対する運動ベクトル差(MVD:motion vector difference)を生成し得る。
【0089】
運動ベクトル予測ユニットは、MVPの候補として空間的及び/又は時間的方向のいくつかの隣接ブロックを含む運動ベクトル予測子(motion vector predictor)候補リストを構築し得る。複数の運動ベクトル予測子候補が(複数の候補ブロックから)利用可能な場合、運動ベクトル予測ユニットは所定選択基準に従って現在のブロックの運動ベクトル予測子を判断し得る。例えば、運動ベクトル予測ユニットは、符号速度及び歪みの解析に基づき候補セットから最も正確な予測子を選択し得る(例えば、速度歪最適化方式又は他の符号化効率解析を使用して)。他の例では、運動ベクトル予測ユニット916は運動ベクトル予測子候補の平均値を生成し得る。運動ベクトル予測子を選択する他の方法も可能である。
【0090】
運動ベクトル予測子を選択すると、運動ベクトル予測ユニットは、MVPの候補ブロックを含む基準ピクチャリスト内のMVPをどこで見出すべきかをビデオ復号器に通知するために使用され得る運動ベクトル予測子指標(mvp_flag)を判断し得る。運動ベクトル予測ユニット916はまた、現在のブロックと選択されたMVPとの間のMVDを判断し得る。MVP指標及びMVDは運動ベクトルを再構成するために使用され得る。
【0091】
通常、区分化ユニットとモード選択ユニット(イントラ予測ユニット及びインター予測ユニット及び運動ベクトル推定ユニットを含む)は、高度に一体化され得るが、概念目的のために別個に示される。
【0092】
符号器装置の加算器906は、モード選択ユニット904から受信される予測ビデオブロック(運動ベクトルにより識別される)を、符号化される元のビデオブロックから減じることにより、残りのビデオブロックを形成するために使用され得る。
【0093】
変換処理ユニット908は、残りの変換係数値のブロックを形成するために、離散コサイン変換(DCT:discrete cosine transform)又は概念的に同様な変換などの変換を残りのビデオブロックへ適用するために使用され得る。変換処理ユニットはDCTと概念的に同様である他の変換を行うために使用され得る。ウェーブレット変換、整数変換、サブバンド変換又は他のタイプの変換が使用される可能性がある。いずれにせよ、変換処理ユニットは上記変換を残りブロックへ適用し得、残りの変換係数のブロックを生成する。この変換は、残り情報を画素値領域から周波数領域などの変換領域へ変換し得る。変換処理ユニットは、結果の変換係数を、ビットレートをさらに低減するために変換係数を量子化する量子化ユニットへ送信し得る。量子化処理は係数のいくつか又はすべてに関連付けられたビット深さを低減し得る。量子化の程度は量子化パラメータを調整することにより修正され得る。
【0094】
コントローラ910は、運動ベクトル、イントラモード指示子、区分化情報及び他のこのような構文情報などの構文要素(メタデータ)をエントロピー符号化ユニット912へ提供し得る。次に、エントロピー符号化ユニットは量子化された変換係数及び構文要素を符号化し得る。例えば、エントロピー符号化ユニットは、文脈適応可変長符号化(CAVLC:context adaptive variable length coding)、文脈適応2進演算符号化(CABAC:context adaptive binary arithmetic coding)、構文ベース文脈適応2進演算符号化(SBAC:syntax-based context-adaptive binary arithmetic coding)、確率間隔区分化エントロピー(PIPE:probability interval partitioning entropy)符号化、又は別のエントロピー符号化技術を行い得る。文脈ベースエントロピー符号化の場合、文脈は隣接ブロックに基づき得る。エントロピー符号化ユニットによるエントロピー符号化に続いて、符号化されたビットストリームは、別のデバイス(例えばビデオ復号器)へ送信されてもよいし、後の送信又は検索のために格納されてもよい。
【0095】
逆量子化及び逆変換ユニット916は、画素領域内で残りブロックを再構成するために(例えば基準ブロックとして後の使用のために)逆量子化と逆変換とをそれぞれ適用する。インター予測ユニットは、残りブロックを基準ピクチャメモリ914のピクチャのうちの1つのピクチャの予測ブロックへ加えることにより基準ブロックを計算し得る。インター予測ユニットはまた、運動推定における使用のためのサブ整数画素値を計算するために1つ又は複数の補間フィルタを再構成された残りブロックへ適用し得る。再構成された残りブロックは、基準ピクチャメモリ914内に格納するための再構成ビデオブロックを生成するために、インター予測ユニット920により生成された予測ブロックへ加えられる。再構成されたビデオブロックは、以降のピクチャ内のブロックをインター符号化するための基準ブロックとして運動ベクトル推定ユニット及びインター予測ユニットにより使用され得る。
【0096】
符号器装置を超解像モードで使用する場合、符号器装置のコントローラは、
図7を参照して説明した処理工程に従ってビデオフレームを符号化するように構成される。したがって、この場合、符号器装置は、元のビデオフレームのダウンサンプリングされたLRフレームを符号化することができる。
【0097】
符号器装置の入力におけるビデオフレームは、ダウンサンプリングユニットにより第1のLR元フレーム及び1つ又は複数の第2のLR元フレームへダウンサンプリングされ得る。第1のLR元フレームはブロック内の区分化のために区分化ユニットへ転送され得る。第1のLR元フレームの区分化は1つ又は複数の第2のLR元フレームへ適用され得るので、いくつかの実施形態では、1つ又は複数の第2のLRフレームは区分化ユニットにより処理されない(点線903により概略的に描写されるように)。次に、ビデオフレームがIフレーム又はP若しくはBフレームかに依存して、第1の元フレームの第1の元ブロックの予測を形成する第1の予測ブロックはイントラ予測ユニットのイントラ予測方法又はインター予測ユニットのインター予測方法により判断され得る。
【0098】
第1の予測ブロック及び第1の元ブロックは、第1の再構成された残りのブロックを判断するために変換及び量子化ユニットと逆量子化及び変換ユニットとにより処理され得る第1の残りブロックを判断するために使用され得る。次に、第1の再構成ブロックは、第1の再構成された残りブロックを第1の予測ブロックへ加える加算器928を使用することにより判断され得る。第1の再構成ブロックは、1つ又は複数の第2のLR元フレームの予測を判断するための基準フレームとして格納され得る第1のLR再構成ビデオフレームを定義する。
【0099】
図8を参照して上に既に説明したように、1つ又は複数の第2のLR元フレームの第2の元ブロックを予測するための第2の予測ブロックは、インター予測ユニットにおいて実施され得る好適なブロックマッチング予測方法を使用して判断され得る。1つ又は複数の第2のLR元フレームの第2の元ブロックの予測は、第1のLR再構成フレームの第1の再構成ブロックを基準として使用して判断され得る。第1及び第2の予測ブロック並びに第1及び第2の元ブロックは、エントロピー符号器によりビットストリームへ変換される前に変換され量子化されるサブGOPデータ構造の第1及び第2の残りブロックを判断するために使用され得る。コントローラは、サブGOPデータ構造に関連付けられたメタデータ(ダウンサンプリング方式、区分化、第1のLR元フレームの第1の元ブロックを予測するための第1の予測ブロックを判断するために使用された予測タイプ
、そして1つ又は複数の第2の元のLRフレームの第2の元ブロックを予測するための第2の予測ブロックを判断するために使用された予測タイプに関する情報を含み得る)を収集する。エントロピー符号化処理中、メタデータは符号化され、ビットストリーム内へ挿入される。
【0100】
符号器は、ピクチャ内ブロックを符号化するための最良符号化パラメータを見出すために既知の速度歪最適化(RDO)処理を行い得る。ここで、最良符号化パラメータ(モード決定;イントラ予測モード;インター予測モード又は超解像モード;及び量子化を含む)は、ブロックを符号化するために使用されるビットの数と、符号化のためにこの数のビットを使用することにより導入される歪みとの間の最良トレードオフを提供する一組のパラメータを指す。用語「速度歪最適化」は時にRD最適化又は単純に「RDO」とも呼ばれる。AVC及びHEVCタイプ符号化標準規格に好適なRDO方式は知られている。例えばSze,Vivienne,Madhukar Budagavi,and Gary J.Sullivan.“High efficiency video coding (HEVC).”Integrated Circuit and Systems,Algorithms and Architectures.Springer (2014):1-375;Section :9.2.7 RD Optimizationなどを参照。RDOは多くのやり方で実施され得る。1つのよく知られた実施形態では、RDO問題はラグランジュ乗数λに関するラグランジュ費用関数Jの最小化として表され得る:min(符号化パラメータ)J=(D+λ*R)。ここで、パラメータRは速度(すなわち符号化に必要なビットの数)を表し、パラメータDは一定速度Rに関連付けられたビデオ信号の歪みを表す。歪みDはビデオ品質の測度と見做され得る。品質を客観的に(メトリックがコンテンツ不可知であるという意味で客観的に)判断するための知られたメトリックは、平均2乗誤差(MSE:means-squared error)、ピーク信号対雑音(PSNR)及び絶対差の合計(SAD:sum of absolute differences)を含む。
【0101】
HEVCの文脈では、速度歪費用は、ビデオ符号器が利用可能予測モード(本出願で説明したような超解像モードを含む)のそれぞれを使用して予測ビデオブロックを計算するということを必要とし得る。次に、符号器装置は、予測ブロックのそれぞれと現在のブロック(すなわち残りビデオフレームの残りブロック)との差を判断し、残りブロックのそれぞれを空間領域から周波数領域へ変換する。次に、符号器装置は、対応符号化ビデオブロックを生成するために、変換された残りブロックのそれぞれを量子化し得る。符号器装置は、符号化ビデオブロックを復号化し、そして、歪みメトリックDを判断するために復号化ビデオブロックのそれぞれと現在のブロックとを比較し得る。さらに、この全速度歪解析は、予測モードのそれぞれのモードの速度R(すなわち、符号化されたビデオブロックのそれぞれをシグナリングするために使用されるビットの数)を計算することを含む。次に、このようにして判断されたRD費用は、ブロックを符号化するために使用されるビットの数と、符号化のためにこの数のビットを使用することにより導入される歪みとの間の最良トレードオフを提供するブロックを選択するために使用される。
【0102】
図10は本発明の一実施形態による復号器装置を示すブロック図を描写する。
図10の例では、復号器装置はエントロピー復号化ユニット1004、構文解析器(parser)1006、予測ユニット1018、逆量子化及び逆変換ユニット1008、加算器1009及び基準ピクチャメモリ1016を含み得る。予測ユニットは運動ベクトル(MV)推定ユニット1020、インター予測ユニット1022及びイントラ予測ユニット1024を含み得る。
【0103】
復号化処理中、ビデオ復号器1000は、符号器装置からの符号化ビデオスライスのビデオブロック及び関連構文要素を表す符号化ビデオビットストリーム1002を受信する。エントロピー復号ユニットは、量子化係数、運動ベクトル及び他の構文要素を生成するためにビットストリームを復号化し得る。構文解析器ユニット1006は運動ベクトル及び他の構文要素(メタデータ)を予測ユニット1018へ転送する。
【0104】
構文要素はビデオスライスレベル及び/又はビデオブロックレベルで受信され得る。例えば、バックグラウンドにより、ビデオ復号器1000は、所謂ネットワーク抽出層(NAL:network abstraction layer)ユニットへのネットワークを介した送信のための圧縮されたビデオデータを受信し得る。各NALユニットは、NALユニットへ格納されるデータのタイプを識別するヘッダを含み得る。NALユニットへ共通に格納される2つのタイプのデータが存在する。NALユニットへ格納される第1のタイプのデータは、圧縮されたビデオデータを含むビデオ符号化層(VCL:video coding layer)データである。NALユニットへ格納される第2のタイプのデータは、非VCLデータと呼ばれ、多数のNALユニットに共通なヘッダデータと補助的強化情報(SEI:supplemental enhancement information)とを定義するパラメータセットなどの追加情報を含む。
【0105】
ビデオフレームのブロックがイントラ符号化(I)ブロックとして符号化されるということを復号器がシグナリングされると、イントラ予測ユニットは、シグナリングされたイントラ予測モードと現在のピクチャの以前に復号化されたブロックからのデータ(例えば元ブロックの近くに位置する以前に復号化されたブロックからの基準画素)とに基づき、元(現在)のビデオフレームの元ブロックの予測データ、予測ブロックを生成し得る。
【0106】
同様に、ビデオフレームのブロックが超解像モードに基づき符号化されるということを復号器装置がシグナリングされると、復号器はビットストリーム内のサブGOP構造(空間ダウンサンプリング方式に基づき符号化される元フレームに関連付けられた)を判断し得る。メタデータに基づき、復号器装置は、ダウンサンプリング方式が元フレームを第1のLR元フレーム及び1つ又は複数の第2のLR元フレームへ(符号化中に)ダウンサンプリングするために使用されるということを判断し得る。さらに、この場合、復号器装置は、再構成された元のビデオフレームへLR再構成フレームをアップサンプリングするためのアップサンプリング方式を使用する必要があるということを知る。
【0107】
メタデータに基づき、復号器装置は、サブGOPを表すビットストリーム部分を、第1のLR元フレームに関連付けられた第1の残りブロックの第1の量子化係数と1つ又は複数の第2のLR元フレームに関連付けられた1つ又は複数の第2の残りブロックの第2の量子化係数とへエントロピー復号化し得る。これらの量子化係数はその後、第1のLR元フレームに関連付けられた第1の残りブロックと1つ又は複数の第2のLR元フレームに関連付けられた第2の残りブロックとへ逆変換され逆量子化され得る。さらに、予測方法は、第1のLR元フレームの第1の元ブロックの予測を定義する第1の予測ブロックを判断するために使用され得る。第1の予測ブロック及び第1の残りブロックに基づき、第1の再構成ブロックは判断され得る。第1の再構成ブロックは、1つ又は複数の第2のLR元フレームの第2の元ブロックの予測を定義する第2の予測ブロックを判断するためのインター予測ユニットにより実行されるブロックマッチング予測方法における基準として使用され得る第1のLR再構成フレームを定義し得る。次に、第1及び第2の予測ブロック並びに第1及び第2の残りブロックは、再構成された元のビデオフレームを判断するためにその後使用される第1のLR再構成フレームと1つ又は複数の第2のLR再構成フレームとを判断するために使用され得る。再構成された元のビデオフレームの生成は復号器装置のアップサンプリング及び合成ユニット1013により実行され得る。本処理は、第1のLR再構成フレーム及び第2のLR再構成フレームをアップサンプリングすることと、アップサンプリングされた第1のLR再構成フレームと第2のLR再構成フレームとを合成することとを含み得る。ここで、アップサンプリング処理は、符号化中に使用されたダウンサンプリング処理を逆にし得る。
【0108】
ピクチャがインター予測に基づき符号化されると、予測ユニットのインター予測ユニット1022は、現在のビデオスライスのビデオブロックの予測ブロックを運動ベクトルとエントロピー復号化ユニット1004から受信される他の構文要素とに基づき生成する。予測ブロックは、基準ピクチャリストのうちの1つのリスト内の基準ピクチャの1つから生成され得る。ビデオ復号器は、基準ピクチャメモリ1016内に格納された基準ピクチャに基づき周知の構築技術を使用して基準ピクチャを構築し得る。
【0109】
インター予測ユニットは、運動ベクトル及び他の構文要素を解析することにより現在のビデオスライスのビデオブロックの予測情報を判断し得、復号化される現在のビデオブロックの予測ブロックを生成するためにこの予測情報を使用する。例えば、インター予測ユニットは、ビデオスライスのビデオブロックを符号化するために使用される予測モード(例えばイントラ又はインター予測)、インター予測スライスタイプ(例えばBスライス、Pスライス又はGPBスライス)、スライスの基準ピクチャリストのうちの1つ又は複数の基準ピクチャリストの構成情報、スライスの各インター符号化ビデオブロックの運動ベクトル、スライスの各インター符号化ビデオブロックのインター予測ステータス、及び現在のビデオスライス内のビデオブロックを復号化するための他の情報を判断するために、受信された構文要素のうちのいくつかを使用し得る。いくつかの例では、インター予測ユニットは運動ベクトル予測ユニット(図示せず)から運動情報を受信し得る。
【0110】
運動ベクトル予測ユニットは、現在のブロックの運動ベクトルを予測するために使用される運動情報を識別するためにMVP又は指標を使用し得る。運動ベクトル予測ユニットは、現在のブロックの運動ベクトルを判断するために、識別されたMVPと受信されたMVDとを合成し得る。現在のブロックの運動情報を判断した後、運動ベクトル予測ユニットは現在のブロックの予測ブロックを生成し得る。
【0111】
逆量子化及び逆変換ユニット1008は、ビットストリーム内に提供されエントロピー復号化ユニットにより復号化された量子化された変換係数を逆量子化する(すなわち量子化解除する)。逆量子化処理は、量子化の程度そして同様に適用されるべき逆量子化の程度を判断するためにビデオスライス内のビデオブロック毎にビデオ符号器により計算される量子化パラメータの使用を含み得る。逆量子化処理はさらに、画素領域内の残りブロックを生成するために逆変換(例えば逆DCT)、逆整数変換、又は概念的に同様な逆変換処理を変換係数へ適用し得る。
【0112】
インター予測ユニット1022が運動ベクトル及び他の構文要素に基づき現在のビデオブロックの予測ブロックを生成した後、ビデオ復号器は、逆変換処理により判断された残りブロックとインター予測ユニット1020により生成された対応予測ブロックとを加算することにより復号化ビデオブロックを形成する。加算器1009はこの加算操作を行う部品又は部品群を表す。必要に応じ、デブロッキングフィルタもまた、ブロッキングアーチアファクトを除去するために、復号化されたブロックをフィルタリングするように適用され得る。他のループフィルタ(符号化ループ内の、又は符号化ループ後のいずれか)もまた、画素遷移を滑らかにする又はそうでなければビデオ品質を改善するために使用され得る。次に、所与のピクチャ内の復号化されたビデオブロックは、以降の運動予測に使用される基準ピクチャを格納する基準ピクチャメモリ1016内に格納される。基準ピクチャメモリ1016もまたディスプレイデバイス上の後の提示のために復号化ビデオを格納する。
【0113】
したがって、
図9及び
図10の符号器装置及び復号器装置はそれぞれ、元のビデオフレームを低解像度ビデオフレームへダウンサンプルしそして低解像度ビデオフレームを元のビデオフレームへアップサンプリングするためのダウンサンプリング方式を使用し得る超解像予測モードを支援し得る。
【0114】
第1のパラメータ(例えばフラグ)は超解像モードをシグナリングするために使用され得る。第2のパラメータはダウンサンプリング方式が使用される場合だけ存在し得る。この第2のパラメータは使用されるダウンサンプリングのタイプ方式(例えば多相ダウンサンプリング)を定義し得る。構文は単に一例であるということと、例えば、ただ1つのフラグ、より長い又は短いビット深さなど多くの他の代替案が使用され得るということとに注意すべきである。加えて及び/又は代替的に、シグナリングはまた、新しいSEIメッセージ内に挿入され得る。
【0115】
図11は本開示において説明される実施形態において使用され得る解像度成分タイプの例を描写する。例えば、4:2:0フォーマットは、解像度成分の1つのサンプルが高解像度ビデオブロックの最大4(適用されるダウンサンプリング操作に依存して1~4、例えば多相は1)画素に寄与し得る多相サブサンプリング方式に対応する。同様に、4:4:4フォーマットは、解像度成分と高解像度ビデオブロックとが同じ解像度を有する状況に対応する。この場合、空間サブサンプリングは無い。ビットストリームが4:4:4フォーマットを有する複数の解像度成分を含めば、これは、再構成された出力フレームがより高い解像度ではなくより良いPSNRから恩恵を受けるSNRスケーラビリティと同様なものである。解像度成分フォーマットによって、空間サブサンプリング(4:4:4)が無い場合と同様に所与の数の解像度成分が同じ全ビデオ信号を運ぶと期待される。
【0116】
【0117】
上記表は、元(高解像度)のビデオ信号を再構成するために使用され得る解像度成分のグループを形成し得る期待数の解像度成分を与える。ビットストリームによって代表されるビデオソースは復号順の一系列のピクチャであり、ソースピクチャと復号化されたピクチャはそれぞれ1つの解像度成分アレイを含み得、各解像度成分アレイは、次の1つ又は複数のカラーサンプルアレイ:輝度(Y)だけ(モノクロ);輝度及び2つの色度(YCbCr又はYCgCo);緑、青、赤(GBR、RGBとしても知られる);又は他の不特定モノクロサンプリング又は三刺激(tri-stimulus)カラーサンプリングを表すアレイ(例えばYZX、XYZとしても知られる)を含み得る。
【0118】
別の実施形態では、空間サブサンプリング方式は予め定義されない又は完全には予め定義されない。この場合、アップスケーリングフィルタ、LRビデオフレームからの画素の位置、及びHRビデオフレーム内の画素を計算するためのアルゴリズムが復号器へシグナリングされる必要がある。一般的やり方では、この情報は、例えば解像度成分当たりベクトルに基づき復号器情報内でシグナリングされ得る。一実施形態では、この情報は、サブ画素精度で定義され得、原点(例えば左上原点(0,0))に対する解像度成分の移動量を画素単位で指示するとともに、低解像度成分のビデオフレームの再合成に基づきHRフレームからあらゆる画素値を計算するためのアルゴリズムを指示する。この場合、再合成処理は本開示において参照された超解像画像再構成技術であり得る。
【0119】
図12は本出願において説明される実施形態を使用し得るビデオ符号化及び復号化システムの概略図を描写する。
図12に示すように、システム1200は、第2のビデオ処理デバイス1204(例えばビデオプレイアウトデバイス)により復号化され得る符号化ビデオデータを生成するように構成された第1のビデオ処理デバイス1202(例えばビデオキャプチャデバイスなど)を含み得る。第1及び第2のビデオ処理デバイスは、デスクトップコンピュータ、ノートブック(すなわちラップトップ)コンピュータ、タブレットコンピュータ、セットトップボックス、所謂「スマート」フォンなどの電話送受信器、所謂「スマート」パッド、テレビ、カメラ、ディスプレイデバイス、ディジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイスなどを含む広範囲のデバイスのうちの任意のものを含み得る。いくつかのケースでは、ビデオ処理デバイスは無線通信のために装備され得る。
【0120】
第2のビデオ処理デバイスは、送信チャネル1206を介し、又は第1のビデオ処理デバイスから第2のビデオ処理デバイスへ符号化ビデオデータを移動することができる任意のタイプの媒体又はデバイスを介し復号化される符号化ビデオデータを受信し得る。一例では、送信チャネルは、第1のビデオ処理デバイスが符号化ビデオデータを第2のビデオ処理デバイスへ直接リアルタイムに送信することを可能にする通信媒体を含み得る。符号化ビデオデータは、無線通信プロトコルなどの通信標準規格に基づき第2のビデオ処理デバイスへ送信され得る。通信媒体は、無線周波数(RF)スペクトル又は1つ又は複数の物理的伝送路などの任意の無線又は有線通信媒体を含み得る。通信媒体は、ローカルエリアネットワーク、広域ネットワークなどのパケットベースネットワーク、又はインターネットなどのグローバネットワークの一部分を形成し得る。通信媒体は、第1のビデオ処理デバイスと第2のビデオ処理デバイスとの間の通信を容易にするために有用であり得るルータ、スイッチ、基地局、サーバ又は任意の他の機器を含み得る。
【0121】
代替的に、符号化データは、第1のビデオ処理デバイスのI/Oインターフェース1208を介しストレージデバイス1210へ送信され得る。符号化データは第2のビデオ処理デバイスのI/Oインターフェース1212によりアクセスされ得る。ストレージデバイス1210は、ハードドライブ、ブルーレイディスク、DVD、CD-ROM、フラッシュメモリ、揮発性又は不揮発性メモリ、又は符号化ビデオデータを格納するための任意の他の好適なデジタルストレージ媒体などの多様な分散された又は局所的にアクセスされるデータストレージ媒体のうちの任意のものを含み得る。別の例では、ストレージデバイスは、第1のビデオ処理デバイスにより生成された符号化ビデオを保持し得るファイルサーバ又は別の中間ストレージデバイスに対応し得る。第2のビデオ処理デバイスは、ストリーミング又はダウンロードを介しストレージデバイスから、格納されたビデオデータにアクセスし得る。ファイルサーバは符号化ビデオデータを格納してこの符号化ビデオデータを第2のビデオ処理デバイスへ送信することができる任意のタイプのサーバであり得る。例示的ファイルサーバはウェブサーバ(例えばウェブサイトの)、FTPサーバ、ネットワーク接続ストレージ(NAS:network attached storage)デバイス又はローカルディスクドライブを含む。第2のビデオ処理デバイスはインターネット接続を含む任意の標準データ接続を介し符号化ビデオデータにアクセスし得る。これは、ファイルサーバ上に格納された符号化ビデオデータにアクセスするのに好適な無線チャネル(例えばWi-Fi接続)、有線接続(例えばDSL、ケーブルモデムなど)、又は両方の組み合わせを含み得る。ストレージデバイス36からの符号化ビデオデータの送信は、ストリーミング送信、ダウンロード送信、又は両方の組み合わせであり得る。
【0122】
本開示の技術は無線アプリケーション又はセッティングに必ずしも制限されない。これらの技術は、無線のテレビ放送、ケーブルテレビ送信、衛星テレビ送信、ストリーミングビデオ送信(例えばインターネットを介した)、データストレージ媒体上の格納のためのデジタルビデオの符号化、データストレージ媒体上に格納されたデジタルビデオの復号化、又は他のアプリケーションなどの多様なマルチメディアアプリケーションの任意のアプリケーションを支援するビデオ符号化へ適用され得る。いくつかの例では、システム1200は、ビデオストリーミング、ビデオ再生、ビデオ放送、及び/又はビデオ電話などのアプリケーションを支援するために一方向又は双方向ビデオ送信を支援するように構成され得る。
【0123】
図12の例では、第1のビデオ処理デバイスはビデオソース1214及びビデオ符号器1216をさらに含み得る。いくつかのケースでは、I/Oインターフェース1208は変調器/復調器(モデム)及び/又は送信器を含み得る。ビデオソースは、ビデオキャプチャデバイス(例えばビデオカメラ)、以前に捕捉されたビデオを含むビデオアーカイブ、ビデオコンテンツ供給者からビデオを受信するためのビデオ配信インターフェース、及び/又はソースビデオとしてコンピュータグラフィックデータを生成するためのンピュータグラフィックシステム、又はこのようなソースの組み合わせなどの任意のタイプのソースを含み得る。ビデオソース1214がビデオカメラであれば、第1と第2のビデオ処理デバイスは所謂カメラフォン又はビデオフォンを形成し得る。しかし、本開示において説明される技術は、ビデオ符号化全般へ適用可能であり得、無線及び/又は有線アプリケーションへ適用され得る。
【0124】
捕捉された、予め捕捉された、又はコンピュータ生成されたビデオはビデオ符号器1216により符号化され得る。符号化ビデオデータは、I/Oインターフェース1208を介し第2のビデオ処理デバイスへ直接送信され得る。符号化ビデオデータはまた(又は、代替的に)、復号及び/又は再生のための第2のビデオ処理デバイス又は他のデバイスによる後のアクセスのためにストレージデバイス1210上に格納され得る。
【0125】
第2のビデオ処理デバイスはビデオ復号器1218及びディスプレイデバイス1220をさらに含み得る。いくつかのケースでは、I/Oインターフェース1212は受信器及び/又はモデムを含み得る。第2のビデオ処理デバイスのI/Oインターフェース1212は符号化ビデオデータを受信し得る。通信チャネル上で伝達される符号化ビデオデータ又はストレージデバイス1210上に提供される符号化ビデオデータは、ビデオデータを復号化する際にビデオ復号器1218などのビデオ復号器による使用のためのビデオ符号器1216により生成された多様な構文要素を含み得る。このような構文要素は、通信媒体上で送信された、ストレージ媒体上に格納された、又はファイルサーバ上に格納された符号化ビデオデータと共に含まれ得る。
【0126】
ディスプレイデバイス1220は第2のビデオ処理デバイスと一体化されてもよいし第2のビデオ処理デバイスの外に在ってもよい。いくつかの例では、第2のビデオ処理デバイスは、一体化されたディスプレイデバイスを含み得、外部ディスプレイデバイスとインターフェースするように構成され得る。他の例では、第2のビデオ処理デバイスはディスプレイデバイスであり得る。一般的に、ディスプレイデバイスは復号化ビデオデータをユーザへ表示する。ディスプレイデバイスは液晶ディスプレイ(LCD:liquid crystal display)、プラズマディスプレイ、有機発光ダイオード(OLED:organic light emitting diode)ディスプレイ又は別のタイプのディスプレイデバイスなどの多様なディスプレイデバイスのうちの任意のものを含み得る。
【0127】
ビデオ符号器1216及びビデオ復号器1218は、高効率ビデオ符号化(HEVC:High Efficiency Video Coding)、VP9又はAV1などのビデオ圧縮標準規格に従って動作し得る。代替的に、ビデオ符号器1216及びビデオ復号器1218は、ITU-T H.264標準規格(代替的にMPEG-4,Part 10と呼ばれる)、高度ビデオ符号化(AVC:Advanced Video Coding)、又はこのような標準規格の拡張版などの他の独自仕様の規格又は工業規格に従って動作し得る。しかし、本開示の技術はいかなる特定の符号化標準規格へも制限されない。
【0128】
図12には示さないが、いくつかの態様では、ビデオ符号器1216及びビデオ復号器1218はそれぞれ、オーディオ符号器及び復号器と一体化され得、そして共通データストリーム又は別個のデータストリーム内のオーディオとビデオとの両方の符号化を扱うために、適切なMUX-DEMUXユニット、又は他のハードウェア及びソフトウェアを含み得る。妥当な場合、いくつかの例では、MUX-DEMUXユニットは、ITU H.223マルチプレクサプロトコル、又はユーザデータグラムプロトコル(UDP:user datagram protocol)などの他のプロトコルに準拠し得る。
【数2】
【0129】
ビデオ符号器1216及びビデオ復号器1218はそれぞれ、1つ又は複数のマイクロプロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ディスクリートロジック、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合せなどの多様な好適な符号器回路系のうちの任意の回路系として実装され得る。これらの技術が部分的にソフトウェアで実装される場合、1つのデバイスが、ソフトウェアのための指示を好適な非一時的コンピュータ可読媒体内に格納し、そして、本開示の技術を行うために1つ又は複数のプロセッサを使用してハードウェア内の指示を実行し得る。ビデオ符号器1216及びビデオ復号器1218のそれぞれは、そのうちのいずれかがデバイス内の組み合わせられた符号器/復号器(CODEC)の一部として一体化され得る1つ又は複数の符号器又は復号器内に含まれ得る。
【0130】
本開示は概して、ある情報をビデオ復号器などの別のデバイスへ「シグナリングする」ビデオ符号器を指し得る。用語「シグナリング」は通常、構文要素及び/又は圧縮されたビデオデータを復号化するために使用される他のデータ(メタデータ)の伝達を指し得る。このような伝達がリアルタイム又はほぼリアルタイムに発生し得る。代替的に、このような伝達は、一定期間にわたって発生し得、例えば、符号化時に符号化されたビットストリーム内の構文要素をコンピュータ可読ストレージ媒体へ格納する際に発生する可能性がある。この構文要素は、この媒体へ格納された後の任意の時点に復号化デバイスにより取り出され得る。
【0131】
本開示の技術は、無線送受信器、集積回路(IC)又は1組のIC(例えばチップセット)を含む広い多様なデバイス又は装置内に実装され得る。様々な部品、モジュール又はユニットは、開示された技術を実行するように構成されたデバイスの機能的態様を強調するために本開示に記載されるが必ずしも様々なハードウェアユニットにより実現されることを必要としない。むしろ、上述のように、様々なユニットは、好適なソフトウェア及び/又はファームウェアと共に、コーデックハードウェアユニット内に組み合わせられ得る、又は上述のように1つ又は複数のプロセッサを含む相互動作可能なハードウェアユニットの集合により提供され得る。
【0132】
本明細書で使用される専門用語は、特定の実施形態だけを説明する目的のためだけのものであり、本発明を制限するようには意図されていない。本明細書で使用されるように、文脈が明示しない限り単数形の定冠詞「a」、「an」と不定冠詞「the」は複数形も同様に含むように意図されている。用語「含む(comprises)」又は「含んでいる(comprising)」は本明細書で使用される場合、述べられた機能、完全体、工程、動作、要素、及び/又は部品の存在を明示するが、1つ又は複数の他の機能、完全体、工程、動作、要素、構成部品、及び/又はこれらのグループの存在又は追加を排除するものではないということもさらに理解されることになる。
【0133】
以下の特許請求の範囲内のすべての手段又は工程プラス機能要素の対応構造、材料、行為及び等価物は具体的に請求される他の請求された要素と組み合わせて機能を行うための任意の構造、材料、又は行為を含むように意図されている。本発明の説明は、例示及び説明の目的のために提示されたが、網羅的であるように意図されていない、又は開示された形式の本発明へ制限されるように意図されていない。多くの修正及び変形形態は本発明の範囲及び精神から逸脱することなく当業者に明らかになる。実施形態は、本発明の原理及びその実際のアプリケーションについて最も良く説明するために、そしてこれにより当業者が、企図される特定使用に適するような様々な修正を伴う様々な実施形態の本発明を理解できるようにするために、選択され説明された。