IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特許7323618相互予測と表示のための適応型画像解像度の再スケーリング
<>
  • 特許-相互予測と表示のための適応型画像解像度の再スケーリング 図1
  • 特許-相互予測と表示のための適応型画像解像度の再スケーリング 図2
  • 特許-相互予測と表示のための適応型画像解像度の再スケーリング 図3
  • 特許-相互予測と表示のための適応型画像解像度の再スケーリング 図4
  • 特許-相互予測と表示のための適応型画像解像度の再スケーリング 図5
  • 特許-相互予測と表示のための適応型画像解像度の再スケーリング 図6
  • 特許-相互予測と表示のための適応型画像解像度の再スケーリング 図7
  • 特許-相互予測と表示のための適応型画像解像度の再スケーリング 図8A
  • 特許-相互予測と表示のための適応型画像解像度の再スケーリング 図8B
  • 特許-相互予測と表示のための適応型画像解像度の再スケーリング 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-31
(45)【発行日】2023-08-08
(54)【発明の名称】相互予測と表示のための適応型画像解像度の再スケーリング
(51)【国際特許分類】
   H04N 19/59 20140101AFI20230801BHJP
   H04N 19/70 20140101ALI20230801BHJP
【FI】
H04N19/59
H04N19/70
【請求項の数】 11
(21)【出願番号】P 2021531790
(86)(22)【出願日】2019-12-27
(65)【公表番号】
(43)【公表日】2022-02-09
(86)【国際出願番号】 US2019068675
(87)【国際公開番号】W WO2020142358
(87)【国際公開日】2020-07-09
【審査請求日】2021-06-03
(31)【優先権主張番号】62/704,040
(32)【優先日】2019-01-02
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/710,389
(32)【優先日】2019-12-11
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】ステファン・ヴェンガー
(72)【発明者】
【氏名】ジン・イ
(72)【発明者】
【氏名】ビョンドゥ・チェ
(72)【発明者】
【氏名】シャン・リュウ
【審査官】久保 光宏
(56)【参考文献】
【文献】特表2018-533286(JP,A)
【文献】特表2021-514168(JP,A)
【文献】村上 篤道(外2名)編,「高効率映像符号化技術 HEVC/H.265とその応用」,第1版,日本,株式会社オーム社,2013年02月25日,第13~18頁,ISBN: 978-4-274-21329-8.
(58)【調査した分野】(Int.Cl.,DB名)
H04N19/00-19/98
CSDB(日本国特許庁)
学術文献等データベース(日本国特許庁)
IEEEXplore(IEEE)
(57)【特許請求の範囲】
【請求項1】
符号化された映像シーケンスの符号化された画像を復号化する方法であって、前記方法は少なくとも1つのプロセッサによって実行され、前記方法は
複数の画像の第1の高レベル構文構造から、参照セグメント解像度を取得するステップと、
第1の符号化画像から第2の符号化画像に変化したとき、前記第2の符号化画像の第2の高レベル構文構造から、復号化セグメント解像度を取得するステップと、
復号器による予測に使用するために参照画像バッファからサンプルを再サンプリングするステップであって、前記参照画像バッファからの前記サンプルは前記参照セグメント解像度である、ステップと、
前記第2の符号化画像におけるセグメントを前記再サンプリングされた前記サンプルを参照して前記復号化セグメント解像度で復号化するステップと、
前記復号化されたセグメントを前記参照画像バッファに保存するステップと、
を含む、方法。
【請求項2】
前記復号化されたセグメントを前記参照セグメント解像度に再サンプリングするステップをさらに含む、請求項1に記載の方法。
【請求項3】
復号器による予測に使用するための前記参照画像バッファからの前記サンプルを再サンプリングする前記ステップ、および前記復号化されたセグメントを前記参照セグメント解像度に再サンプリングする前記ステップ、の少なくとも1つに再サンプリングフィルタが使用され、前記再サンプリングフィルタは、双線形フィルタよりも計算が複雑で、非適応型である、請求項2に記載の方法。
【請求項4】
前記再サンプリングフィルタは、復号化セグメント解像度と参照セグメント解像度との間の関係に基づいて、複数の再サンプリングフィルタから選択される、請求項3に記載の方法。
【請求項5】
前記セグメントが画像の一部分である、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記第1の符号化画像および前記第2の符号化画像のそれぞれは、複数のセグメントを含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記第1の高レベル構文構造から、出力解像度を取得するステップと、
前記復号化されたセグメントのサンプルを前記出力解像度に再サンプリングするステップと、
をさらに含む、請求項1から6のいずれか一項に記載の方法。
【請求項8】
再サンプリングする前記ステップが、幅および高さに対して異なる再サンプリング係数を使用する、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記第1の符号化画像は、前記復号化セグメント解像度に対応する異なる解像度の複数のセグメントを含む、請求項1から8のいずれか一項に記載の方法。
【請求項10】
符号化された映像シーケンスの符号化された画像を復号化するための装置であって、前記装置は
コンピュータプログラムコードを格納するように構成された少なくとも1つのメモリと、
前記少なくとも1つのメモリにアクセスし、前記コンピュータプログラムコードに従って動作するように構成された少なくとも1つのプロセッサであって、前記コンピュータプログラムコードが、
請求項1から9のいずれか一項に記載の方法を実行するためのコード
を含む、少なくとも1つのプロセッサと、
を備えた装置。
【請求項11】
符号化された映像シーケンスの符号化された画像を復号化するためのコンピュータプログラムであって、前記コンピュータプログラムは、プロセッサに、請求項1から9のいずれか一項に記載の方法を行わせる命令を含む、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
この出願は、参照によりその全体が本明細書に組み込まれる、2019年1月2日に米国特許商標庁に提出された米国仮特許出願第62/704,040号、および2019年12月11日に米国特許商標庁に提出された米国特許出願第16/710,389からの優先権を主張する。
【0002】
開示される主題は、映像の符号化および復号化、より具体的には、高レベルの構文構造における適応画像解像度再スケーリングのための構文要素、ならびに画像セグメントの関連する復号化およびスケーリング処理に関する。
【背景技術】
【0003】
動作補償を伴う画像間予測を使用した映像の符号化および復号化は、何十年もの間知られている。非圧縮デジタル映像は一連の画像からなり得、各画像は、例えば1920 x 1080の輝度サンプルと関連するクロミナンスサンプルとの空間次元を有している。一連の画像は、例えば毎秒60画像すなわち60 Hzの固定または可変の画像速度(非公式にはフレームレートとも呼ばれる)を有し得る。非圧縮映像には、重要なビットレート要件がある。例えば、サンプルあたり8ビットの1080p60 4:2:0映像(60 Hzのフレームレートにおける1920x1080輝度サンプル解像度)には、1.5 Gbit/sに近い帯域幅が必要である。このような映像を1時間使用するには、600 GBを超える記憶領域が必要である。
【0004】
映像の符号化と復号化の1つの目的は、圧縮によって入力映像信号の冗長性を減らすことであり得る。圧縮は、前述の帯域幅または記憶領域の要件を、場合によっては2桁以上削減するのに役立ち得る。可逆圧縮と非可逆圧縮の両方、およびそれらの組み合わせを使用できる。可逆圧縮とは、圧縮された元の信号から元の信号の正確な複製を再構築できる手法を指す。非可逆圧縮を使用する場合、再構築された信号は元の信号と同一ではない可能性があるが、元の信号と再構築された信号との間の歪みは十分に小さいため、再構築された信号は目的の用途に役立つ。映像の場合、非可逆圧縮が広く採用されている。許容される歪みの量は用途によって異なる。例えば、特定の消費者ストリーミング用途のユーザは、テレビ投稿用途のユーザよりも高い歪みを許容し得る。達成可能な圧縮率は、より高い許容/許容歪みにより、より高い圧縮率が得られることを反映し得る。
【0005】
映像符号器および復号器は、例えば、そのうちのいくつかが以下に紹介される、動作補償、変換、量子化、エントロピー符号化など、いくつかの広範なカテゴリの手法を利用できる。
【0006】
基本的な情報理論は、特定のコンテンツの一連の画像の空間的に低い解像度の表現が、大きな表現よりも少ないビットに圧縮され得ることを示唆している。したがって、帯域幅やストレージが不十分な場合、または高い空間分解能が必要とされないコストに敏感な用途では、符号化前の入力一連の画像のダウンサンプリングと、表示に適した画像を取得するための復号化後のそれぞれのアップサンプリングが数十年にわたって使用されてきた。例えば、少なくとも一部のMPEG-2ベースのTV配信/ディスプレイシステムは、符号化ループの外側で、チャネル上で利用可能な帯域幅が十分な再生品質として許容できない場合に、画像のグループごとに画像の水平解像度を変更する可能性がある。その点で、多くの映像コーデックには(レート歪み曲線の)「ニー」としても知られる「ブレークポイント」があり、(レートエンベロープ内にとどまるために)量子化器の値を増やすことで品質が徐々に低下して故障し、突然重大な品質低下が発生することに注意されたい。一部の映像配信システムは、平均的な複雑さのコンテンツのブレークポイントの非常に近くで動作するため、活動が突然増加すると、後処理技術では簡単に補正できない厄介な中間生成物が発生する可能性がある。
【0007】
符号化ループの外側で解像度を変更することは、映像コーデックの実装と仕様の観点からは比較的単純な問題である可能性があるが、特に効果的でもない。これは、解像度の変更にはコード内画像が必要な場合があり、多くの場合、符号化された映像ビットストリームで最も一般的なインター符号化された画像よりも何倍も大きくなる可能性があるためである。本質的に帯域幅不足の問題である可能性があるものと戦うためにイントラ符号化された画像の追加のひずみを追加することは逆効果であり、大きなバッファとそれに関連する大きな可能な遅延が効果的である必要がある。
【0008】
遅延が重要な用途のために、符号化ループ内の映像シーケンスの解像度を変更できるメカニズムが考案されており、イントラ符号化された画像を使用する必要はない。これらの技術は参照画像の再サンプリングを必要とするため、一般に参照画像再サンプリング(RPR-)手法として知られている。RPRは、標準化された映像符号化に導入されており、1998年に発行されたITU-TRec.H.263AnnexPの特定の映像会議システムで比較的広く展開されている。この技術には、少なくとも次の欠点がある:1)参照画像の再サンプリングを通知するために使用される構文は、エラー耐性がない。2)採用されているアップサンプルフィルタとダウンサンプルフィルタ(双線形フィルタ)は、計算コストは低くなるが、優れた映像品質にはあまり役立たない。3)「ワーピング」を許容する指定された技術は、不要で不当な機能が多すぎる可能性がある。4)この技術は、画像全体にのみ適用でき、画像セグメントには適用できない。
【発明の概要】
【発明が解決しようとする課題】
【0009】
AV1として知られる最近の映像符号化技術でも、RPRのサポートは制限されている。上記の問題#1および#4と同様の問題が発生し、さらに、使用されるフィルタは特定の用途では非常に複雑である。
【課題を解決するための手段】
【0010】
実施形態によれば、符号化された映像シーケンスの符号化された画像を復号化する方法は、少なくとも1つのプロセッサによって実行され、この方法は、複数の画像の第1の高レベル構文構造から、参照セグメント解像度に関連する構文要素を復号化することと、第1の符号化画像から第2の符号化画像に変化する第2の高レベル構文構造から、復号化されたセグメント解像度に関連する構文要素を復号化することと、復号器による予測に使用するために参照画像バッファからサンプルを再サンプリングし、復号器は復号化解像度でセグメントを復号化し、参照画像バッファからのサンプルは参照セグメント解像度にある、ことと、復号化されたセグメント解像度のセグメントを、復号化されたセグメント解像度の復号化されたセグメントに復号化することと、復号化されたセグメントを参照画像バッファに保存することと、を含む。
【0011】
実施形態によれば、符号化された映像シーケンスの符号化された画像を復号化するための装置は、コンピュータプログラムコードを格納するように構成された少なくとも1つのメモリと、少なくとも1つのメモリにアクセスし、コンピュータプログラムコードに従って動作するように構成された少なくとも1つのプロセッサであって、コンピュータプログラムコードが、複数の画像の第1の高レベル構文構造から、参照セグメント解像度に関連する構文要素を復号化するように構成された第1の復号化コードと、第1の符号化画像から第2の符号化画像に変化する第2の高レベル構文構造から、復号化されたセグメント解像度に関連する構文要素を復号化するように構成された第2の復号化コードと、復号器による予測に使用するための参照画像バッファからのサンプルを再サンプリングするように構成された再サンプリングコードであって、復号器が復号化解像度でセグメントを復号化し、参照画像バッファからのサンプルが参照セグメント解像度にある、再サンプリングコードと、復号化されたセグメント解像度のセグメントを復号化されたセグメント解像度の復号化されたセグメントに復号化するように構成された第3の復号化コードと、復号化されたセグメントを参照画像バッファに格納するように構成された格納コードと、を含む、少なくとも1つのプロセッサと、を備えている。
【0012】
実施形態によれば、符号化された映像シーケンスの符号化された画像を復号するためのプログラムを格納する非一時的なコンピュータ可読記憶媒体は、プロセッサに、複数の画像の第1の高レベル構文構造から、参照セグメント解像度に関連する構文要素を復号化することと、第1の符号化画像から第2の符号化画像に変化する第2の高レベル構文構造から、復号化されたセグメント解像度に関連する構文要素を復号化することと、復号器による予測に使用するために参照画像バッファからサンプルを再サンプリングし、復号器は復号化解像度でセグメントを復号化し、参照画像バッファからのサンプルは参照セグメント解像度にある、ことと、復号化されたセグメント解像度のセグメントを、復号化されたセグメント解像度の復号化されたセグメントに復号化することと、復号化されたセグメントを参照画像バッファに保存することと、を行わせる命令を含む。
【0013】
開示される主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
【図面の簡単な説明】
【0014】
図1】一実施形態による通信システムの簡略化されたブロック図の概略図である。
図2】一実施形態による通信システムの簡略化されたブロック図の概略図である。
図3】一実施形態による復号器の簡略化されたブロック図の概略図である。
図4】一実施形態による符号器の簡略化されたブロック図の概略図である。
図5】一実施形態による構文図である。
図6】一実施形態による、参照画像再サンプリング対応復号器の簡略化されたブロック図の概略図である。
図7】一実施形態による、タイルごとの参照画像再サンプリングを使用するタイルレイアウトの概略図である。
図8A】一実施形態による、符号化された映像シーケンスの符号化された画像を復号化する方法を示すフローチャートである。
図8B】一実施形態による、映像シーケンスの復号を制御するための装置の簡略化されたブロック図である。
図9】一実施形態によるコンピュータシステムの概略図である。
【発明を実施するための形態】
【0015】
高活動コンテンツが発生したときに平均コンテンツのブレークポイント近くで映像符号化を操作するときに発生する可能性のある品質の問題を解決するには、ループ内RPR技術が必要である。既知の技術とは対照的に、この技術は、パフォーマンスと計算の複雑さの両方の観点から効率的なフィルタを使用する必要があり、エラー耐性が必要であり、画像の一部、つまり(少なくとも長方形の)画像セグメントにのみ適用できる必要がある。
【0016】
図1は、本開示の実施形態による通信システム(100)の簡略化されたブロック図を示す。システム(100)は、ネットワーク(150)を介して相互接続された少なくとも2つの端末(110~120)を含み得る。データの一方向送信の場合、第1の端末(110)は、ネットワーク(150)を介して他の端末(120)に送信するために、ローカル位置で映像データを符号化することができる。第2の端末(120)は、ネットワーク(150)から他の端末の符号化された映像データを受信し、符号化されたデータを復号化し、復元された映像データを表示することができる。一方向のデータ送信は、メディアサービング用途などでは一般的であり得る。
【0017】
図1は、例えば、映像会議中に発生する可能性がある符号化された映像の双方向送信をサポートするために提供される第2の対の端末(130、140)を示す。データの双方向送信の場合、各端末(130、140)は、ネットワーク(150)を介して他の端末に送信するために、ローカル位置でキャプチャされた映像データを符号化することができる。各端末(130、140)はまた、他の端末によって送信された符号化された映像データを受信し、符号化されたデータを復号化し、回復された映像データをローカルディスプレイ装置に表示し得る。
【0018】
図1の例では、端末装置(110~140)は、サーバ、パーソナルコンピュータおよびスマートフォンとして示され得るが、本開示の原理はそのように限定されない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、および/または専用の映像会議機器での用途を見出す。ネットワーク(150)は、例えば有線および/または無線通信ネットワークを含む、端末(110~140)間で符号化された映像データを伝達する任意の数のネットワークを表す。通信ネットワーク(150)は、回路交換チャネルおよび/またはパケット交換チャネルでデータを交換することができる。代表的なネットワークには、通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび/またはインターネットなどがある。本議論の目的のために、ネットワーク(150)のアーキテクチャおよびトポロジーは、以下に本明細書で説明されない限り、本開示の動作にとって重要ではない場合がある。
【0019】
図2は、開示された主題のための用途の例として、ストリーミング環境における映像符号器および復号器の配置を示す。開示された主題は、例えば、映像会議、デジタルTV、CD、DVD、メモリスティックなどを含むデジタルメディアへの圧縮映像の格納などを含む他の映像対応用途に等しく適用可能であり得る。
【0020】
ストリーミングシステムは、例えば非圧縮の映像サンプルストリーム(202)を作成する、例えばデジタルカメラなどの映像ソース(201)を含み得るキャプチャサブシステム(213)を含み得る。そのサンプルストリーム(202)は、符号化された映像ビットストリームと比較したときに大量のデータを強調するために太線で示され、カメラ(201)に結合された符号器(203)によって処理することができる。符号器(203)は、以下でより詳細に説明されるように、開示された主題の態様を可能にするまたは実装するためのハードウェア、ソフトウェア、またはそれらの組み合わせを含み得る。サンプルストリームと比較してデータ量が少ないことを強調するために細い線で示された符号化された映像ビットストリーム(204)は、将来の使用のためにストリーミングサーバ(205)に格納され得る。1つまたは複数のストリーミングクライアント(206、208)は、ストリーミングサーバ(205)にアクセスして、符号化された映像ビットストリーム(204)の複製(207、209)を検索することができる。クライアント(206)は、符号化された映像ビットストリーム(207)の着信複製を復号化し、ディスプレイ(212)または他のレンダリング装置(描かれていない)上でレンダリングすることができる発信映像サンプルストリーム(211)を作成する映像復号器(210)を含むことができる。一部のストリーミングシステムでは、映像ビットストリーム(204、207、209)を特定の映像符号化/圧縮規格に従って符号化できる。これらの規格の例には、ITU-T勧告H.265が含まれる。開発中の映像符号化規格は、非公式にVersatile Video CodingまたはVVCとして知られている。開示された主題は、VVCの文脈で使用され得る。
【0021】
図3は、本開示の実施形態による映像復号器(210)の機能ブロック図であり得る。
【0022】
受信機(310)は、復号器(210)によって復号化される1つまたはそれ以上のコーデック映像シーケンスを受信することができ、同じまたは別の実施形態では、一度に1つの符号化された映像シーケンスであり、各符号化された映像シーケンスの復号化は、他の符号化された映像シーケンスから独立している。符号化された映像シーケンスは、符号化された映像データを記憶する記憶装置へのハードウェア/ソフトウェアリンクであり得るチャネル(312)から受信され得る。受信機(310)は、それぞれの使用エンティティ(図示せず)に転送され得る他のデータ、例えば、符号化オーディオデータおよび/または補助データストリームとともに、符号化された映像データを受信し得る。受信機(310)は、符号化された映像シーケンスを他のデータから分離することができる。ネットワークジッタに対抗するために、受信機(310)とエントロピー復号器/パーサ(320)(以降、「パーサ」)との間にバッファメモリ(315)が結合され得る。受信機(310)が十分な帯域幅および制御性を有するストア/フォワード装置から、または等同期ネットワークからデータを受信している場合、バッファ(315)は必要ないか、小さくてもよい。インターネットなどのベストエフォートパケットネットワークで使用するために、バッファ(315)が必要とされる場合があり、比較的大きくすることができ、有利に適応サイズにすることができる。
【0023】
映像復号器(210)は、エントロピー符号化された映像シーケンスからシンボル(321)を再構築するためのパーサ(320)を含み得る。図2に示すように、これらのシンボルのカテゴリには、復号器(210)の動作を管理するために使用される情報、および復号器の不可欠な部分ではないがそれに結合することができるディスプレイ(212)などのレンダリング装置を制御するための潜在的な情報が含まれる。レンダリング装置の制御情報は、補足拡張情報(SEIメッセージ)または映像ユーザビリティ情報(VUI)パラメータセットフラグメント(図示せず)の形であり得る。パーサ(320)は、受信された符号化された映像シーケンスを解析/エントロピー復号化することができる。符号化された映像シーケンスの符号化は、映像符号化技術または映像符号化規格に従うことができ、可変長符号化、ハフマン符号化、文脈依存性の有無にかかわらず算術符号化などを含む、当業者に周知の原理に従い得る。パーサ(320)は、グループに対応する少なくとも1つのパラメータに基づいて、映像復号器内のピクセルのサブグループのうちの少なくとも1つのサブグループパラメータの組を、符号化された映像シーケンスから抽出することができる。サブグループは、画像のグループ(GOP)、画像、タイル、スライス、マクロブロック、符号化ユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)などを含み得る。エントロピー復号器/パーサはまた、変換係数、量子化パラメータ値、動きベクトルなどのような符号化された映像シーケンス情報から抽出することができる。
【0024】
パーサ(320)は、シンボル(321)を作成するために、バッファ(315)から受信された映像シーケンスに対してエントロピー復号化/パース操作を実行することができる。
【0025】
シンボル(321)の再構築には、符号化された映像画像またはその一部(インター画像およびイントラ画像、インターブロックおよびイントラブロックなど)のタイプ、およびその他の要因に応じて、複数の異なるユニットが含まれ得る。含まれるユニットおよびその方法は、パーサ(320)によって符号化された映像シーケンスから解析されたサブグループ制御情報によって制御され得る。パーサ(320)と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れは、明確にするために示されていない。
【0026】
すでに述べた機能ブロックのほかに、復号器210は、概念的には、以下で説明するように、いくつかの機能ユニットに細分化され得る。商業的な制約の下で動作する実際の実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的には互いに統合され得る。しかしながら、開示された主題を説明するために、以下の機能ユニットへの概念的な細分化が適切である。
【0027】
第1のユニットは、スケーラ/逆変換ユニット(351)である。スケーラ/逆変換ユニット(351)は、使用する変換、ブロックサイズ、量子化係数、量子化スケーリング行列などを含む制御情報と同様に、量子化された変換係数をパーサ(320)からシンボル(321)として受け取る。サンプル値を含むブロックを出力でき、アグリゲータ(355)に入力できる。
【0028】
場合によっては、スケーラ/逆変換(351)の出力サンプルは、イントラ符号化されたブロック、つまり、以前に再構築された画像からの予測情報を使用していないが、現在の画像の以前に再構築された部分からの予測情報を使用できるブロックに関係し得る。そのような予測情報は、イントラ画像予測ユニット(352)によって提供され得る。場合によっては、イントラ画像予測ユニット(352)は、現在の(部分的に再構築された)画像(356)からフェッチされた周囲のすでに再構成された情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成する。アグリゲータ(355)は、場合によっては、サンプルごとに、イントラ予測ユニット(352)が生成した予測情報をスケーラ/逆変換ユニット(351)によって提供された出力サンプル情報に追加する。
【0029】
他の場合では、スケーラ/逆変換ユニット(351)の出力サンプルは、インター符号化された、潜在的に動作補償されたブロックに関係する可能性がある。そのような場合、動作補償予測ユニット(353)は、参照画像メモリ(357)にアクセスして、予測に使用されるサンプルをフェッチすることができる。フェッチされたサンプルをブロックに関連するシンボル(321)に従って動作補償した後、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ(355)によってスケーラ/逆変換ユニットの出力に追加され得る(この場合、残差サンプルまたは残差信号と呼ばれる)。動作補償ユニットが予測サンプルをフェッチする参照画像メモリ内のアドレスは、例えば、X、Y、および参照画像構成要素を有し得るシンボル(321)の形で動作補償ユニットが利用できる動きベクトルによって制御され得る。動作補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照画像メモリからフェッチされたサンプル値の補間、動きベクトル予測メカニズムなどをも含み得る。
【0030】
アグリゲータ(355)の出力サンプルは、ループフィルタユニット(354)における様々なループフィルタリング技術の対象となり得る。映像圧縮技術には、符号化された映像ビットストリームに含まれるパラメータによって制御され、パーサ(320)からのシンボル(321)としてループフィルタユニット(354)で利用できるループ内フィルタ技術を含めることができるが、符号化された画像または符号化された映像シーケンスの以前の(復号化順で)部分の復号化中に取得されたメタ情報に応答したり、以前に再構築およびループフィルタされたサンプル値に応答したりすることもできる。
【0031】
ループフィルタユニット(354)の出力は、レンダリング装置(212)に出力され得るだけでなく、将来の画像間予測で使用するために参照画像メモリ(356)に保存できるサンプルストリームであり得る。
【0032】
特定の符号化された画像は、完全に再構成されると、将来の予測のための参照画像として使用され得る。符号化された画像が完全に再構築され、符号化された画像が(例えば、パーサ(320)によって)参照画像として識別されると、現在の参照画像(356)は参照画像バッファ(357)の一部になり得、次の符号化された画像の再構成を開始する前に、新鮮な現在の画像メモリを再割り当てすることができる。
【0033】
映像復号器320は、ITU-T Rec.H.265などの規格に文書化され得る所定の映像圧縮技術に従って復号化動作を実行することができる。符号化された映像シーケンスは、映像圧縮技術または規格の構文と、映像圧縮技術文書または規格、特にその中のプロフィール文書に準拠しているという意味において、使用されている映像圧縮技術または規格によって指定された構文に準拠している場合がある。また、符号化された映像シーケンスの複雑さが、映像圧縮技術または規格のレベルで定義されている範囲内にあることも、コンプライアンスに必要である。場合によっては、レベルによって、最大画像サイズ、最大フレームレート、最大再構成サンプルレート(例えば、メガサンプル/秒で測定)、最大参照画像サイズなどが制限される。レベルによって設定された制限は、場合によっては、仮想参照復号器(HRD)の仕様と、符号化された映像シーケンスで通知されるHRDバッファ管理のメタデータとによってさらに制限され得る。
【0034】
一実施形態では、受信機(310)は、符号化された映像とともに追加の(冗長な)データを受信することができる。追加のデータは、符号化された映像シーケンスの一部として含まれ得る。追加のデータは、データを適切に復号化し、および/または元の映像データをより正確に再構築するために、映像復号器(320)によって使用され得る。追加のデータは、例えば、時間的、空間的、またはSNR拡張レイヤ、冗長スライス、冗長画像、前方誤り訂正コードなどの形式であり得る。
【0035】
図4は、本開示の実施形態による映像符号器(203)の機能ブロック図であり得る。
【0036】
符号器(203)は、符号器(203)によって符号化される映像画像をキャプチャすることができる映像ソース(201)(符号器の一部ではない)から映像サンプルを受信することができる。
【0037】
映像ソース(201)は、符号器(203)によって符号化されるソース映像シーケンスを、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット、…)であり得、任意の色空間(例えば、BT.601 Y CrCB、RGB、…)および適切なサンプリング構造(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)であり得るデジタル映像サンプルストリームの形態で提供し得る。メディアサービングシステムでは、映像ソース(201)は、以前に準備された映像を格納する記憶装置であり得る。映像会議システムでは、映像ソース(203)は、ローカル画像情報を映像シーケンスとしてキャプチャするカメラであり得る。映像データは、順番に見たときに動きを与える複数の個別の画像として提供され得る。画像自体は、ピクセルの空間アレイとして編成することができ、各ピクセルは、使用中のサンプリング構造、色空間などに応じて、1つまたはそれ以上のサンプルを含み得る。当業者は、ピクセルとサンプルとの間の関係を容易に理解することができる。以下の説明では、サンプルを中心に説明する。
【0038】
一実施形態によれば、符号器(203)は、用途によって要求されるように、リアルタイムで、または任意の他の時間制約の下で、ソース映像シーケンスの画像を符号化し、符号化された映像シーケンス(443)に圧縮し得る。適切な符号化速度を強制することは、コントローラ(450)の1つの機能である。コントローラは、以下に説明するように他の機能ユニットを制御し、これらのユニットに機能的に結合される。分かりやすくするために、結合は描かれていない。コントローラによって設定されたパラメータには、レート制御関連パラメータ(画像スキップ、量子化、レート歪み最適化手法のラムダ値など)、画像サイズ、画像グループ(GOP)レイアウト、最大動きベクトル検索範囲などが含まれ得る。当業者は、特定のシステム設計用に最適化された映像符号器(203)に関係し得るので、コントローラ(450)の他の機能を容易に識別することができる。
【0039】
一部の映像符号器は、熟練した人が「符号化ループ」として容易に認識できる方法で動作する。過度に単純化された説明として、符号化ループは、符号器(430)(以下、「ソースコーダ」)の符号化部分(符号化される入力画像および参照画像に基づいてシンボルを作成する責任がある)からなることができる。符号器(203)に埋め込まれた(ローカル)復号器(433)は、シンボルを再構築してサンプルデータを作成する(リモート)復号器も作成する(シンボルと符号化された映像ビットストリーム間の圧縮は、映像圧縮技術では損失がないため)開示された主題で考慮される)。再構成されたサンプルストリームは、参照画像メモリ(434)に入力される。シンボルストリームの復号化は、復号器の場所(ローカルまたはリモート)に関係なくビット正確な結果をもたらすため、参照画像バッファコンテンツもローカル符号器とリモート符号器間でビットが正確である。言い換えると、符号器の予測部分は、復号器が復号化中に予測を使用するときに「参照」するのとまったく同じサンプル値を参照画像のサンプルとして「見なす」。参照画像の同期性のこの基本原理(および、例えばチャネルエラーのために同期性を維持できない場合に生じるドリフト)は、当業者によく知られている。
【0040】
「ローカル」復号器(433)の動作は、「リモート」復号器(210)の動作と同じであり得、これは、図3に関連して上で詳細にすでに説明されている。しかしながら、図3も簡単に参照すると、シンボルが利用可能であり、エントロピー符号器(445)およびパーサ(320)による符号化された映像シーケンスへのシンボルの符号化/復号化は無損失であり得るため、チャネル(312)、受信機(310)、バッファ(315)、およびパーサ(320)を含む映像復号器(210)のエントロピー復号化部分は、ローカル復号器(433)に完全に実装されない場合がある。
【0041】
この時点で行うことができる観察は、復号器に存在する構文解析/エントロピー復号化以外の復号器技術も、対応する符号器に実質的に同一の機能形式で必ず存在する必要があることである。このため、開示された主題は、復号器の動作に重点を置いている。符号器技術の説明は、包括的に説明された復号器技術の逆であるため、省略できる。特定の領域でのみ、より詳細な説明が必要であり、以下に提供される。
【0042】
動作の一部として、ソース符号器(430)は、「参照フレーム」として指定された映像シーケンスからの1つまたはそれ以上の以前に符号化されたフレームを参照して入力フレームを予測的に符号化する動作補償予測符号化を実行し得る。このようにして、符号化エンジン(432)は、入力フレームのピクセルブロックと、入力フレームへの予測参照として選択され得る参照フレームのピクセルブロックとの間の差異を符号化する。
【0043】
ローカル映像復号器(433)は、ソース符号器(430)によって作成されたシンボルに基づいて、参照フレームとして指定され得るフレームの符号化された映像データを復号化し得る。符号化エンジン(432)の動作は、不可逆処理であることが有利であり得る。符号化された映像データが映像復号器(図4には示されていない)で復号化され得るとき、再構築された映像シーケンスは、通常、いくつかのエラーを伴うソース映像シーケンスのレプリカであり得る。ローカル映像復号器(433)は、参照フレームに対して映像復号器によって実行され得る復号化処理を複製し、再構成された参照フレームを参照画像キャッシュ(434)に記憶させることができる。このようにして、符号器(203)は、遠端映像復号器によって得られる(送信エラーがない)再構成参照フレームとして共通のコンテンツを有する再構成参照フレームの複製をローカルに格納し得る。
【0044】
予測器(435)は、符号化エンジン(432)の予測検索を実行し得る。すなわち、符号化される新しいフレームについて、予測器(435)は、(候補参照ピクセルブロックとしての)サンプルデータまたは参照画像の動きベクトル、ブロック形状などの、新しい画像の適切な予測参照として機能する特定のメタデータについて参照画像メモリ(434)を検索することができる。予測器(435)は、適切な予測参照を見つけるために、サンプルブロック-ピクセルブロックごとに動作し得る。いくつかの場合において、予測器(435)によって得られた検索結果によって決定されるように、入力画像は、参照画像メモリ(434)に記憶された複数の参照画像から引き出された予測参照を有し得る。
【0045】
コントローラ(450)は、例えば、映像データを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、映像符号器(430)の符号化動作を管理し得る。
【0046】
前述のすべての機能ユニットの出力は、エントロピー符号器(445)においてエントロピー符号化を受けることができる。エントロピー符号器は、例えばハフマン符号化、可変長符号化、算術符号化などの当業者に知られている技術に従ってシンボルを可逆圧縮することにより、様々な機能ユニットにより生成されたシンボルを符号化された映像シーケンスに変換する。
【0047】
送信機(440)は、エントロピー符号器(445)によって作成された符号化された映像シーケンスをバッファリングして、符号化された映像データを格納する記憶装置へのハードウェア/ソフトウェアリンクであり得る通信チャネル(460)を介した送信に備えることができる。送信機(440)は、映像符号器(430)からの符号化された映像データを、送信される他のデータ、例えば符号化オーディオデータおよび/または補助データストリーム(ソースは図示せず)とマージすることができる。
【0048】
コントローラ(450)は、符号器(203)の動作を管理し得る。符号化中に、コントローラ(450)は、各々の符号化された画像に特定の符号化された画像タイプを割り当て得、これは、それぞれの画像に適用され得る符号化技法に影響を及ぼし得る。例えば、多くの場合、画像は次のフレームタイプのうちの1つとして割り当てられ得る。
【0049】
イントラ画像(I画像)は、シーケンス内の他のフレームを予測のソースとして使用せずに符号化および復号化できるものである。一部の映像コーデックでは、例えばIndependent Decoder Refresh画像など、さまざまなタイプのイントラ画像を使用できる。当業者は、I画像のそれらの変形およびそれらのそれぞれの用途および特徴を知っている。
【0050】
予測画像(P画像)は、各ブロックのサンプル値を予測するために最大で1つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して符号化および復号化され得るものであり得る。
【0051】
双方向予測画像(B画像)は、各ブロックのサンプル値を予測するために最大で2つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して符号化および復号され得るものであり得る。同様に、複数の予測画像は、単一のブロックの再構成に2つを超える参照画像と関連メタデータとを使用できる。
【0052】
ソース画像は、通常、空間的に複数のサンプルブロック(例えば、それぞれ4x4、8x8、4x8、または16x16サンプルのブロック)に細分化され、ブロックごとに符号化され得る。ブロックは、ブロックのそれぞれの画像に適用される符号化割り当てによって決定されるように、他の(すでに符号化された)ブロックを参照して予測的に符号化され得る。例えば、I画像のブロックは非予測的に符号化されてもよく、またはそれらは同じ画像の既に符号化されたブロックを参照して予測的に符号化されてもよい(空間予測またはイントラ予測)。P画像のピクセルブロックは、以前に符号化された1つの参照画像を参照して、空間的予測を介して、または時間的予測を介して、非予測的に符号化され得る。B画像のブロックは、1つまたは2つの以前に符号化された参照画像を参照して、空間的予測を介して、または時間的予測を介して、非予測的に符号化され得る。
【0053】
映像符号器(203)は、ITU-T Rec.H.265などの所定の映像符号化技術または規格に従って符号化動作を実行し得る。その動作において、映像符号器(203)は、入力映像シーケンスの時間的および空間的冗長性を活用する予測符号化操作を含む、さまざまな圧縮操作を実行し得る。したがって、符号化された映像データは、使用されている映像符号化技術または規格で指定された構文に準拠する場合がある。
【0054】
一実施形態では、送信機(440)は、符号化された映像とともに追加のデータを送信し得る。映像符号器(430)は、そのようなデータを、符号化された映像シーケンスの一部として含み得る。追加のデータには、時間的/空間的/SNR拡張レイヤ、冗長な画像やスライスなどの冗長データの他の形式、補足拡張情報(SEI)メッセージ、視覚ユーザビリティ情報(VUI)パラメータセットフラグメントなどが含まれ得る。
【0055】
図5を参照すると、一実施形態では、フラグ(例えば、adaptive_picture_resolution)(502)は、画像セグメント(例えば、タイル、タイルグループ、CTU、CTUグループ)の空間解像度が適応的に再サンプリング/再スケーリング/非スケーリングされ得るかどうかを示し得る(3つの用語は、復号化、予測のための参照、および表示のための出力(まとめてRPR情報)のために、全体を通して交換可能に使用される。上記のフラグがRPR情報の存在を示している場合、特定の構文要素は、それぞれ参照画像と出力画像の画像サイズを示すことができる。これらの構文要素および前述のフラグは、例えば、復号器/映像/シーケンス/画像/スライス/タイルパラメータセット、シーケンス/GOP/画像/スライス/GOB/タイルのグループ/タイルヘッダ、および/またはSEIメッセージを含む、任意の適切な高レベル構文構造であり得る。これらの構文要素のすべてが常に存在する必要はない。例えば、RPR解像度は動的である場合があるが、画像のアスペクト比は映像符号化技術または標準で固定されている場合がある。または、その固定は適切な高レベルの構文構造のフラグで通知される場合がある。同様に、映像符号化技術または規格は、参照画像の再サンプリングを指定し、出力画像の再サンプリングを省略し得る。その場合、出力画像サイズ情報も省略され得る。さらに別の例では、出力画像サイズ情報の存在は、それ自体のフラグ(図示せず)を条件とすることができる。
【0056】
一例では、限定としてではなく、特定のRPR情報は、シーケンスパラメータセット(501)に含まれ得る。構文要素reference_pic_width_in_luma_samples(503)およびreference_pic_height_in_luma_samples(504)は、それぞれ参照画像の幅と高さを示す場合がある。構文要素output_pic_width_in_luma_samples(505)およびoutput_pic_height_in_luma_samples(506)は、出力画像の解像度を指定できる。前述のすべての値は、映像圧縮技術または標準で一般的である可能性があるため、輝度サンプルの単位または他の単位にすることができる。それらの値に対する特定の制限は、映像符号化技術または標準によっても課せられる場合がある。例えば、1つまたは複数の構文要素の値が2の特定の累乗である必要がある場合(映像符号化で一般的に使用されるブロックに画像を簡単に適合できるようにするため)、または水平サイズ間の関係が、特定の値に制限される場合がある(以下で説明するように、特定の解像度比に最適化されたフィルタ設計の有限セットを可能にするため)。
【0057】
前置情報の符号化は、任意の適切な形式にすることができる。示されているように、1つの単純なオプションは、ue(v)で示される可変長のサイズ変更されていない整数値の使用である。従来の映像符号化技術やH.264やH.265などの規格で画像サイズを表示するために使用されるオプションなど、他のオプションは常に可能である。
【0058】
開示された主題の1つの目的は、符号化ループ内でRPRを可能にすることである。つまり、符号化された映像シーケンス(CVS)の異なる画像間である。したがって、画像の実際の復号化されたサイズを指定する構文要素は、CVS内で、場合によっては1つの画像から別の画像に変更できる構文構造である必要がある。一実施形態では、構文要素decoded_pic_width_in_luma_samples(508)およびdecoded_pic_height_in_luma_samples(509)は、適切な高レベルのsynatx構造(ここではPPS(507))に存在し、フィールドの値は符号化された映像シーケンス(CVS)内で変更できる。他の適切な高レベルの構文構造には、PPS、スライスパラメータセット、タイルパラメータセット、画像/スライス/GOB/タイル/タイルヘッダのグループ、および/またはSEIメッセージが含まれる場合がある。RPR手法は復号化処理に規範的な影響を与える可能性があるため、SEIメッセージの使用はあまりお勧めできない。これらの構文要素の符号化については、上記の注意事項が適用される。
【0059】
一実施形態では、reference_pic_width_in_luma_samplesおよびreference_pic_height_in_luma_samplesは、復号化された画像バッファ内の参照画像または参照画像セグメントの画像解像度を示し得る。これは、適用される再サンプリングに関係なく、参照画像が常にフル解像度で維持されることを意味する可能性があり、ここで説明する手法とH.263 AnnexPで説明する手法との1つの重要な違いである。
【0060】
上記の説明は、RPR手法が全体像に適用されることを前提としている。特定の環境は、タイルのグループ、タイル、スライス、GOBなど、画像セグメントに適用可能なRPR手法の恩恵を受ける可能性がある。例えば、画像は、一般にタイルとして知られている意味的に異なる空間領域に空間的に分割される場合がある。1つの例はセキュリティ映像であり、別の例は、例えば立方体投影を使用した360度映像のさまざまなビューである(立方体のサイズの表面に対応する6つのビューが、360度のシーンの表現を補う)。このような同様のシナリオでは、タイルごとのコンテンツ活動が異なる場合があるため、各タイルの意味的に異なるコンテンツでは、タイルベースごとに異なる方法でRPR手法を適用する必要がある。したがって、一実施形態では、RPR技術をタイルごとに適用することができる。これには、タイルごとのシグナリングが必要である(図には示されていない)。これらのシグナリング技術は、潜在的に複数のタイルにシグナリングを含める必要がある場合があることを除いて、画像ごとのシグナリングについて上記で説明したものと同様にすることができる。
【0061】
一実施形態では、各タイルまたはタイルグループは、タイルグループヘッダまたはヘッダパラメータセットまたは他の適切な高レベルの構文構造において、異なる値のreference_tile_width_in_luma_samplesおよびreference_tile_height_in_luma_samplesを有することができる。
【0062】
一実施形態では、参照画像の解像度が復号画像の解像度と異なる場合、復号画像は、参照画像の解像度と復号画像の解像度との間の比率に関して再スケーリングされ得、次いで、再スケーリングされた復号画像は、参照画像としての復号化された画像バッファ(DPB)に保存され得る。
【0063】
一実施形態では、復号画像解像度と参照画像解像度との間の垂直/水平解像度比が上で概説したように明示的に信号で送られる場合、復号画像は信号比に関連して再スケーリングされ得、次いで再スケーリングされた復号画像は記憶され得る。参照画像として復号化された画像バッファ(DPB)に保存され得る。
【0064】
一実施形態では、output_pic_width_in_luma_samplesおよびoutput_pic_height_in_luma_samplesは、映像プレーヤへの出力画像または出力画像セグメントの画像解像度を示し得る。
【0065】
一実施形態では、出力画像の解像度が参照画像の解像度と異なる場合、参照画像は、出力画像の解像度と参照画像の解像度との間の比率に関して再スケーリングされ得、次いで、再スケーリングされた参照画像は、DPBからの出力画像としてバンプアウトされ、画像を表示するために映像プレーヤに送られ得る。
【0066】
一実施形態では、参照画像解像度と出力画像解像度との間の垂直/水平解像度比が明示的に信号で伝えられる場合、参照画像は、出力画像解像度と参照画像解像度との間の比率に関して再スケーリングされ得、次いで、再スケーリングされた参照画像は、DPBからの出力画像としてバンプアウトされ、画像を表示するために映像プレーヤに送られ得る。
【0067】
一実施形態では、各タイルまたはタイルグループは、タイルグループヘッダまたはヘッダパラメータセットまたは他の適切なsynAtx構造において、output_tile_width_in_luma_samplesおよびoutput_tile_height_in_luma_samplesの異なる値を有し得る。
【0068】
特定の映像符号化技術または標準には、時間サブレイヤの形式で時間スケーラビリティが含まれている。一実施形態では、各サブレイヤは、reference_pic_width_in_luma_samples、reference_pic_height_in_luma_samples、output_pic_width_in_luma_samples、output_pic_height_in_luma_samples、decoded_pic_width_in_luma_samples、decoded_pic_height_in_lumaの異なる値を持つことができる。各サブレイヤの構文要素は、例えばSPS、またはその他の適切な高レベルの構文構造で通知できる。
【0069】
図6を参照すると、一実施形態では、映像ビットストリームパーサー(602)は、符号化画像バッファ(601)から受信した符号化映像ビットストリームから上記の構文要素および他の構文要素を解析および解釈することができる。映像復号器は、符号化された映像ビットストリームから非RPS関連の構文要素を受信すると、潜在的にダウンサンプリングされた解像度で符号化された画像を再構築することができる。そうするために、それは、復号化された画像バッファ(604)から受信され得る参照サンプルを必要とし得る。一実施形態によれば、復号化された画像バッファ(604)は、参照画像またはセグメントをフル解像度で格納するので、復号器(603)に適切に再サンプリングされた参照画像を提供するために、再スケーリング(605)が必要とされ得る。リコール(603)は、スケーリングパラメータ(例えば、上記の構文要素)(607)を受け取り、それらを、例えば、適切な再スケーリングフィルタパラメータを計算するリスケーラ(605)のための適切な情報(608)に変換し得る再スケーリングコントローラ(606)によって制御され得る。最後に、出力解像度の再スケーリングも望まれる場合、再スケーリングコントローラ(606)はまた、表示(610)のために再スケーリングするメカニズムに再スケーリング情報609を提供することができる。最後に、再構成された映像は、映像プレーヤ(611)によって再生され得るか、さもなければ消費または記憶のために処理され得る。
【0070】
再スケーリング処理で使用されるフィルタは、映像符号化技術または標準で指定できる。両方のフィルタリング方向が符号化ループの「内部」に必要であるため、つまり、ダウンサンプル(例えば、復号化された画像バッファ(604)から映像復号器(603)へ)とアップサンプル(例えば、映像復号器(603)から復号化された画像バッファ(604))の両方には、完全に指定されたとおりに両方のフィルタリング方向が必要になる場合があり、可能な限り多くの可逆性を実現するために、映像圧縮技術または標準で指定する必要がある。フィルタの設計自体に関しては、計算/実装の単純さとパフォーマンスのバランスを保つ必要があるかもしれない。特定の初期結果は、H.263 AnnexPで提案されている双線形フィルタがパフォーマンスの観点から最適ではない可能性があることを示している。他方、ニューラルネットワークベースの処理を採用する特定の適応フィルタリング技術は、計算が複雑すぎて、商業的に適切な時間枠で、商業的に適切な複雑さの制約の下で、映像符号化技術または標準の広範な採用を可能にしない可能性がある。バランスとして、SHVCで使用されるようなフィルタ設計またはHEVCで使用されるようなさまざまな補間フィルタが適切である可能性があり、それらの特性が十分に理解される可能性があるという追加の利点がある。
【0071】
図7を参照すると、一実施形態では、スライス、GOB、タイルまたはタイルグループ(以降、タイル)などの各画像セグメントは、復号化されたタイルから参照タイルに、および参照タイルから出力タイル(または画像)に、異なる解像度で、独立して再スケーリングされ得る。
【0072】
その正方形の符号器への入力画像(701)を考えてみる。これは、4つの正方形のソースタイル(702)に分割され、それぞれが入力画像の1/4をカバーする(4つのソースタイルのソースタイル2を示す)。もちろん、開示された主題によれば、他の画像形状およびタイルレイアウトも同様に可能である。各タイルの幅と高さをそれぞれWの2倍とHの2倍とする。以降、幅の2倍の場合は「2W」、高さの2倍の場合は「2H」と表記する(他の数字についても同様である。例えば、1Wは1倍の幅を意味し、3Hは高さの3倍を意味する。この規則は、図とその説明全体で使用される)。ソースタイルは、例えば、セキュリティカメラ環境のさまざまなシーンのカメラビュー用にすることができる。そのため、各タイルは、潜在的に根本的に異なるレベルの活動を持つコンテンツをカバーする可能性があり、タイルごとに異なるRPR選択が必要になる可能性がある。
【0073】
符号器(図示せず)が符号化された画像を作成し、再構築後、次のように解像度が再スケーリングされた4つのタイルになると仮定する。
【0074】
復号化されたタイル0(702):1Hおよび1W
【0075】
復号化されたタイル1(703):1H、および2W
【0076】
復号化されたタイル2(704):2Hおよび2W
【0077】
復号化されたタイル3(705):2Hおよび1W
【0078】
これにより、縮尺どおりに復号化されたタイルサイズが生成される。
【0079】
特定の映像符号化技術または標準では、復号化された画像に、どのタイルにも割り当てられていない特定のサンプルが存在する場合があることに注意されたい。これらのサンプルをどのように符号化するかは、映像符号化技術ごとに異なる可能性がある。一実施形態では、特定の場合において、図示されたタイルのいずれにも割り当てられていないサンプルは、他のタイルに割り当てられ得、それらのすべてのサンプルは、例えばスキップモードにおいて、少数の符号化ビットを作成する形態で符号化され得る。一実施形態では、映像符号化技術または標準は、画像のすべてのサンプルが各映像画像において何らかの形で符号化されなければならないという(現在いくらか一般的な)要件を持たない場合があり、したがって、それらのサンプルでビットが無駄になることはない。さらに別の実施形態では、特定のパディング技術を使用して、それらの符号化オーバーヘッドが無視できるように、未使用のサンプルを効率的に移入することができる。
【0080】
この例では、参照画像バッファは、参照画像サンプルをフル解像度で保持する。この場合、これはソース解像度と同じである。したがって、参照用に再スケーリングされた4つのタイル(706~709)は、それぞれ2Hおよび2Wの解像度に保つことができる。復号化されたタイル(702から705)の様々な解像度に一致させるために、復号器から参照画像バッファへの両方向、およびその逆の再スケーリング(710)は、タイルごとに異なることができる。
【0081】
出力再スケーリング(711)も使用されている場合、復号化された画像バッファの出力は、タイルごとまたは画像ごとの粒度のいずれかで、表示(または他の方法で処理)するための出力画像に再スケーリングされ得る(712)。表示用の出力画像(712)は、復号化された画像バッファ内の画像よりも解像度が大きくても小さくてもよい。
【0082】
図8Aは、一実施形態による、符号化された映像シーケンスの符号化された画像を復号化する方法(800)を示すフローチャートである。いくつかの実装形態では、図8Aの1つまたは複数の処理ブロックは、復号器(210)によって実行され得る。いくつかの実装形態では、図8Aの1つまたは複数の処理ブロックは、符号器(203)などの復号器(210)とは別の、またはそれを含む別の装置または装置のグループによって実行され得る。
【0083】
図8Aを参照すると、方法(800)は、RPR情報が存在するかどうかを決定すること(805)を含み、RPR情報が存在しないと決定される場合、方法は終了する(855)。RPR情報が存在すると判断された場合、この方法は、複数の画像の第1の高レベル構文構造から、参照セグメント解像度に関連する構文要素を復号化すること(810)を含む。
【0084】
方法(800)は、第1の符号化画像から第2の符号化画像に変化する第2の高レベル構文構造から、復号化されたセグメント解像度に関連する構文要素を復号化すること(820)を含む。
【0085】
方法(800)は、復号器による予測に使用するために参照画像バッファからのサンプルを再サンプリングすることを含み、復号器は復号化解像度でセグメントを復号化し、参照画像バッファからのサンプルは参照セグメント解像度にある(830)。
【0086】
方法(800)は、復号化されたセグメント解像度のセグメントを、復号化されたセグメント解像度の復号化されたセグメントに復号化すること(840)を含む。
【0087】
さらに、方法(800)は、復号化されたセグメントを参照画像バッファに格納すること(850)を含む。
【0088】
方法(800)は、復号化されたセグメントを参照セグメント解像度に再サンプリングすることをさらに含み得る。
【0089】
方法(800)は、復号器による予測に使用するための参照画像バッファからのサンプルを再サンプリングすること、および復号化されたセグメントを参照セグメント解像度に再サンプリングすることの少なくとも1つに使用される再サンプリングフィルタをさらに含むことができ、再サンプリングフィルタは、双線形フィルタよりも計算が複雑で、非適応型である。
【0090】
方法(800)は、再サンプリングフィルタが、復号化解像度と参照セグメント解像度との間の関係に基づいて、複数の再サンプリングフィルタから選択されることをさらに含み得る。
【0091】
方法(800)は、セグメントが画像である場合をさらに含み得る。
【0092】
方法(800)は、第1の符号化画像および第2の符号化画像のそれぞれが複数のセグメントを含むことをさらに含み得る。
【0093】
方法(800)は、第3の高レベル構文構造から、出力解像度に関連する構文要素を復号化すること、および復号化されたセグメントのサンプルを出力解像度に再サンプリングすることをさらに含み得る。
【0094】
方法(800)は、再サンプリングが幅および高さに対して異なる再サンプリング係数を使用することをさらに含み得る。
【0095】
図8Aは、方法(800)の例示的なブロックを示すが、いくつかの実装形態では、方法(800)は、図8Aに示されるものよりも追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含み得る。さらに、または代わりに、方法(800)の2つ以上のブロックを並行して実施することができる。
【0096】
さらに、提案された方法は、処理回路(例えば、1つもしくは複数のプロセッサまたは1つもしくは複数の集積回路)によって実装され得る。一例では、1つまたは複数のプロセッサは、非一時的なコンピュータ可読媒体に格納されているプログラムを実行して、提案された方法の1つまたは複数を実行する。
【0097】
図8Bは、一実施形態による、映像シーケンスの符号化された画像を復号するための装置(860)の簡略化されたブロック図である。
【0098】
図8Bを参照すると、装置(860)は、第1の復号化コード(870)、第2の復号化コード(875)、再サンプリングコード(880)、第3の復号化コード(885)、および格納コード(890)を含む。
【0099】
第1の復号化コード(870)は、複数の画像の第1の高レベル構文構造から、参照セグメント解像度に関連する構文要素を復号化するように構成される。
【0100】
第2の復号化コード(875)は、第1の符号化画像から第2の符号化画像に変化する第2の高レベル構文構造から、復号化されたセグメント解像度に関連する構文要素を復号化するように構成される。
【0101】
再サンプリングコード(880)は、復号器による予測に使用するための参照画像バッファからのサンプルを再サンプリングするように構成され、復号器は、復号化解像度でセグメントを復号化し、参照画像バッファからのサンプルは、参照セグメント解像度にある。
【0102】
第3の復号化コード(885)は、復号化されたセグメント解像度のセグメントを、復号化されたセグメント解像度の復号化されたセグメントに復号するように構成される。
【0103】
格納コード(890)は、復号化されたセグメントを参照画像バッファに格納するように構成される。
【0104】
上記の技法は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実装でき、1つまたはそれ以上のコンピュータ可読媒体に物理的に格納できる。
【0105】
上記の適応画像解像度再スケーリングのための技法は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実装でき、1つまたはそれ以上のコンピュータ可読媒体に物理的に格納できる。例えば、図9は、開示された主題の特定の実施形態を実装するのに適したコンピュータシステム900を示している。
【0106】
コンピュータソフトウェアは、任意の適切な機械コードまたはコンピュータ言語を使用して符号化でき、アセンブリ、コンパイル、リンク、または同様のメカニズムの対象となり、1つまたはそれ以上のコンピュータ中央処理装置(CPU)、グラフィック処理装置(GPU)などによる直接、または解釈、マイクロコードの実行などを通じて実行できる命令を含むコードを作成する。
【0107】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置などを含む、様々なタイプのコンピュータまたはその構成要素上で実行することができる。
【0108】
コンピュータシステム900について図9に示される構成要素は、本質的に例示であり、本開示の実施形態を実装するコンピュータソフトウェアの使用または機能の範囲に関していかなる制限を示唆することを意図しない。また、構成要素の構成は、コンピュータシステム900の実施形態に示されている構成要素のいずれか1つまたは組み合わせに関する依存性または要件を有するものとして解釈されるべきではない。
【0109】
コンピュータシステム900は、特定のヒューマンインターフェース入力装置を含み得る。そのようなヒューマンインターフェース入力装置は、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなど)、オーディオ入力(音声、拍手など)、視覚入力(ジェスチャなど)、嗅覚入力(図示せず)など、1人以上のユーザによる入力に応答し得る。ヒューマンインターフェース装置を使用して、音声(スピーチ、音楽、環境音など)、画像(スキャンした画像、静止画像カメラから得られる写真画像など)、映像(2次元映像、立体映像を含む3次元映像など)など、人間による意識的な入力に必ずしも直接関係しない特定のメディアをキャプチャすることもできる。
【0110】
入力ヒューマンインターフェース装置には、キーボード901、マウス902、トラックパッド903、タッチスクリーン910、データグローブ904、ジョイスティック905、マイク906、スキャナ907、カメラ908のうち1つまたはそれ以上(それぞれ図示のものの1つのみ)が含まれ得る。
【0111】
コンピュータシステム900はまた、特定のヒューマンインターフェース出力装置を含み得る。そのようなヒューマンインターフェース出力装置は、例えば、触覚出力、音、光、および嗅覚/味覚を通じて、1人または複数の人間のユーザの感覚を刺激している可能性がある。そのようなヒューマンインターフェース出力装置は、触覚出力装置(例えば、タッチスクリーン(910)、データグローブ904、またはジョイスティック(905)による触覚フィードバックを含み得るが、入力装置として機能しない触覚フィードバック装置もあり得る)、音声出力装置(スピーカ(909)、ヘッドホン(図示せず)など)、視覚的出力装置(それぞれにタッチスクリーン入力機能の有無にかかわらず、それぞれ触覚フィードバック機能の有無にかかわらず、ステレオグラフィック出力、仮想現実の眼鏡(図示せず)、ホログラフィックディスプレイおよびスモークタンク(図示せず)などの手段により、2次元の視覚的出力または3次元以上の出力を出力できるものもある、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン(910)など)、およびプリンタ(図示せず)を含み得る。
【0112】
コンピュータシステム900には、人間がアクセスできる記憶装置と、CD/DVDを含むCD/DVD ROM/RW920などの光学メディア921、サムドライブ922、リムーバブルハードドライブまたはソリッドステートドライブ923、テープおよびフロッピーディスク(図示せず)などのレガシー磁気媒体、セキュリティドングル(図示せず)などの専用のROM/ASIC/PLDベースの装置などの関連媒体も含めることができる。
【0113】
当業者はまた、ここで開示される主題に関連して使用される「コンピュータ可読媒体」という用語は、送信媒体、搬送波、または他の一時的な信号を包含しないことを理解するべきである。
【0114】
コンピュータシステム900は、1つまたはそれ以上の通信ネットワーク(955)へのインターフェースも含み得る。ネットワーク(955)は、例えば、無線、有線、光であり得る。さらに、ネットワーク(955)は、ローカル、広域、大都市圏、車両および産業、リアルタイム、遅延耐性などがある。ネットワーク(955)の例としては、イーサネット、無線LAN、GSM、3G、4G、5G、LTE、クラウドなどを含むセルラーネットワークなどのローカルエリアネットワーク、ケーブルテレビ、衛星テレビ、地上波放送テレビを含むTV有線または無線広域デジタルネットワーク、CANBusなどが含まれる車両用、産業用など、などがある。特定のネットワーク(955)では、一般に、特定の汎用データポートまたは周辺バス(949)(例えば、コンピュータシステムのUSBポート(900)など)に接続された外部ネットワークインターフェースアダプタ(954)が必要であり、他のものは一般に、以下に説明するようにシステムバスに接続することにより、コンピュータシステムのコア(900)に統合される(例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。これらのネットワーク(955)のいずれかを使用して、コンピュータシステム(900)は他のエンティティと通信できる。このような通信は、単方向、受信のみ(例えば、放送TV)、単方向送信のみ(例えば、CANbusから特定のCANbus装置)、または双方向、例えば、ローカルエリアデジタルネットワークまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムへの通信であり得る。上記のように、特定のプロトコルとプロトコルスタックは、これらのネットワーク(955)とネットワークインターフェース(954)のそれぞれで使用できる。
【0115】
前述のヒューマンインターフェース装置、ヒューマンアクセス可能な記憶装置、およびネットワークインターフェースは、コンピュータシステム900のコア940に接続することができる。
【0116】
コア940には、1つ以上の中央処理装置(CPU)941、グラフィックス処理装置(GPU)942、フィールドプログラマブルゲート領域(FPGA)943、特定のタスクのハードウェアアクセラレータ944などの形式の特殊なプログラマブル処理装置を含めることができる。これらの装置は、読み取り専用メモリ(ROM)945、ランダムアクセスメモリ946、グラフィックスアダプタ950、ユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量記憶装置947とともに、システムバス948を介して接続され得る。いくつかのコンピュータシステムでは、システムバス948に1つ以上の物理プラグの形でアクセスして、追加のCPU、GPUなどによる拡張を可能にすることができる。周辺機器は、コアのシステムバス948に直接、または周辺バス949を介して接続できる。周辺バスのアーキテクチャには、PCI、USBなどが含まれる。
【0117】
CPU941、GPU942、FPGA943、およびアクセラレータ944は、組み合わせて前述のコンピュータコードを構成できる特定の命令を実行できる。そのコンピュータコードは、ROM945またはRAM946に格納できる。移行データはRAM946にも保存できるが、永続データは、例えば内部大容量記憶装置947に保存できる。1つまたはそれ以上のCPU941、GPU942、大容量記憶装置947、ROM945、RAM946などと密接に関連付けることができるキャッシュメモリを使用することにより、任意のメモリ装置に対する高速記憶および読み出しが可能になる。
【0118】
コンピュータ可読媒体は、様々なコンピュータ実施操作を実行するためのコンピュータコードをその上に有することができる。メディアおよびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであり得るか、またはそれらは、コンピュータソフトウェア技術の当業者に周知であり利用可能な種類のものであり得る。
【0119】
限定ではなく例として、アーキテクチャ900、特にコア940を有するコンピュータシステムは、1つまたはそれ以上の有形のコンピュータ可読媒体に組み込まれたソフトウェアを実行するプロセッサ(CPU、GPU、FPGA、アクセラレータなどを含む)の結果として機能を提供できる。このようなコンピュータ可読媒体は、上で紹介したユーザがアクセス可能な大容量記憶装置、およびコア内部大容量記憶装置947やROM945などの非一時的な性質を持つコア940の特定の記憶装置に関連付けられた媒体であり得る。本開示の様々な実施形態を実装するソフトウェアは、そのような装置に格納され、コア940によって実行され得る。コンピュータ可読媒体は、特定のニーズに従って、1つまたはそれ以上のメモリ装置またはチップを含み得る。ソフトウェアは、コア940、特にその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM946に格納されているデータ構造の定義すること、およびソフトウェアで定義された処理に従ってそのようなデータ構造を変更することを含む、ここで説明する特定の処理または特定の処理の特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、ここで説明する特定の処理または特定の処理の特定の部分を実行するためにソフトウェアの代わりに、またはソフトウェアと一緒に動作できる、回路(例:アクセラレータ944)に組み込まれたまたは他の方法で実装されたロジックの結果として機能を提供できる。ソフトウェアへの参照はロジックを含むことができ、その逆も適宜可能である。コンピュータ可読媒体への言及は、適宜、実行のためのソフトウェア、実行のためのロジックを具体化する回路、またはその両方を格納する回路(集積回路(IC)など)を包含することができる。本開示は、ハードウェアとソフトウェアとの任意の適切な組み合わせを包含する。
【0120】
本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内にある変更、置換、および様々な代替均等物が存在する。したがって、当業者は、本明細書では明示的に示されていないか、または記載されていないが、本開示の原理を具現化し、したがってその精神および範囲内にある多数のシステムおよび方法を考案できることが理解されよう。
【符号の説明】
【0121】
100 通信システム
110 端末装置
120 端末装置
130 端末装置
140 端末装置
150 通信ネットワーク
201 カメラ、映像ソース
202 映像サンプルストリーム
203 映像符号器
204 映像ビットストリーム
205 ストリーミングサーバ
206 ストリーミングクライアント
207 映像ビットストリーム
208 ストリーミングクライアント
209 映像ビットストリーム
210 映像復号器
211 発信映像サンプルストリーム
212 レンダリング装置、ディスプレイ
213 キャプチャサブシステム
310 受信機
312 チャネル
315 バッファメモリ
320 エントロピー復号器/パーサ、映像復号器
321 シンボル
351 スケーラ/逆変換ユニット
352 イントラ画像予測ユニット
353 動作補償予測ユニット
354 ループフィルタユニット
355 アグリゲータ
356 参照画像メモリ、参照画像
357 参照画像バッファ
430 映像符号器、ソース符号器
432 符号化エンジン
433 ローカル映像復号器
434 参照画像キャッシュ、参照画像メモリ
435 予測器
440 送信機
443 映像シーケンス
445 エントロピー符号器
450 コントローラ
460 通信チャネル
501 シーケンスパラメータセット
601 符号化画像バッファ
602 映像ビットストリームパーサー
603 映像復号器、リコール
604 画像バッファ
605 再スケーリング、リスケーラ
606 再スケーリングコントローラ
607 構文要素
608 情報
609 再スケーリング情報
610 表示
611 映像プレーヤ
701 入力画像
702 ソースタイル
706 参照用に再スケーリングされたタイル
707 参照用に再スケーリングされたタイル
708 参照用に再スケーリングされたタイル
709 参照用に再スケーリングされたタイル
710 再スケーリング
711 出力再スケーリング
712 出力画像
800 方法
860 装置
870 復号化コード
875 復号化コード
880 再サンプリングコード
885 復号化コード
890 記憶コード
900 コンピュータシステム
901 キーボード
902 マウス
903 トラックパッド
904 データグローブ
905 ジョイスティック
906 マイク
907 スキャナ
908 カメラ
909 音声出力装置スピーカ
910 タッチスクリーン
921 光学メディア
922 サムドライブ
923 ソリッドステートドライブ
940 コア
941 中央処理装置(CPU)
942 グラフィックス処理装置(GPU)
943 フィールドプログラマブルゲート領域(FPGA)
944 ハードウェアアクセラレータ
945 読み取り専用メモリ(ROM)
946 ランダムアクセスメモリ(RAM)
947 内部大容量記憶装置
948 システムバス
949 周辺バス
950 グラフィックスアダプタ
954 外部ネットワークインターフェースアダプタ
955 通信ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8A
図8B
図9