(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024133577
(43)【公開日】2024-10-02
(54)【発明の名称】無指向性媒体符号化のためのラップアラウンドパディングの方法
(51)【国際特許分類】
H04N 19/70 20140101AFI20240925BHJP
【FI】
H04N19/70
【審査請求】有
【請求項の数】1
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024107340
(22)【出願日】2024-07-03
(62)【分割の表示】P 2023140481の分割
【原出願日】2019-12-27
(31)【優先権主張番号】62/787,063
(32)【優先日】2018-12-31
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/710,936
(32)【優先日】2019-12-11
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】ビョンドゥ・チェ
(72)【発明者】
【氏名】ウェイウェイ・フェン
(72)【発明者】
【氏名】シャン・リュウ
(57)【要約】 (修正有)
【課題】映像を復号するために、符号化された現画像を再構築する方法を提供する。
【解決手段】方法は、現画像に対応する画像分割情報を復号するステップと、パディングが適用されるという決定に基づき、画像分割情報を使用して、パディングがラップアラウンドパディングを含むかどうかを決定するステップと、パディングがラップアラウンドパディングを含まないという決定に基づき、サブ領域に反復パディングを適用し、反復パディングを使用してサブ領域を復号するステップと、パディングがラップアラウンドパディングを含むという決定に基づき、サブ領域にラップアラウンドパディングを適用し、ラップアラウンドパディングを使用してサブ領域を復号するステップと、復号されたサブ領域に基づき、現画像を再構築するステップと、を含む。
【選択図】
図8
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサを使用して映像を復号するために、符号化された現画像を再構築する方法であって、前記方法は、
前記現画像に対応する画像分割情報を復号するステップと、
前記画像分割情報を使用して、前記現画像の複数のサブ領域にパディングが適用されるかどうかを決定するステップと、
パディングが適用されないという決定に基づき、前記複数のサブ領域をパディングせずに前記複数のサブ領域を復号するステップと、
パディングが適用されるという決定に基づき、前記画像分割情報を使用して、前記パディングがラップアラウンドパディングを含むかどうかを決定するステップと、
前記パディングがラップアラウンドパディングを含まないという決定に基づき、前記複数のサブ領域に反復パディングを適用し、前記反復パディングを使用して前記複数のサブ領域を復号するステップと、
前記パディングがラップアラウンドパディングを含むという決定に基づき、前記複数のサブ領域に前記ラップアラウンドパディングを適用し、前記ラップアラウンドパディングを使用して前記複数のサブ領域を復号するステップと、
前記復号された複数のサブ領域に基づき、前記現画像を再構築するステップとを含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は米国特許法第119条のもと、米国特許商標庁に2018年12月31日に出願された米国仮特許出願第62/787,063号、及び米国特許商標庁に2019年12月11日に出願された米国特許出願第16/710,936号の優先権を主張し、これらの特許の開示内容は、参照することによってその全体が本明細書に組み込まれる。
【0002】
開示する主題は、映像の符号化及び復号に関し、より詳細には、360度無指向性媒体符号化のためにラップアラウンドパディング処理を含めることに関する。
【背景技術】
【0003】
動き補償を伴ったインター画像予測を使用する、映像の符号化及び復号の例は、数十年前から知られている。圧縮されていないデジタル映像は一連の画像からなっていてもよく、各画像は、例えば、1920×1080のルミナンスサンプルと、関連するクロミナンスサンプルの空間次元を有する。一連の画像は、例えば、1秒毎に60画像、又は60Hzの固定又は可変の画像レート(非公式にはフレームレートとしても知られている)を有することができる。圧縮されていない映像は、かなりのビットレート要件を有する。例えば、サンプル当り8ビットの1080p60 4:2:0の映像(60 Hzのフレームレートで1920×1080ルミナンスサンプル解像度)は、1.5ギガビット/秒近い帯域幅を必要とする。このような映像は1時間分で、600ギガバイトを超える記憶空間を必要とする。
【0004】
映像の符号化及び復号は、圧縮によって入力映像信号の冗長性を低減することを1つの目的とすることができる。圧縮は、前述した帯域幅又は記憶空間要件を、場合によっては100倍以上低減するのに役立ち得る。可逆圧縮及び非可逆圧縮の両方、並びにこれらの組合せが使用されてもよい。可逆圧縮とは、圧縮された原信号から、原信号の完全なコピーを再構築できる技術のことをいう。非可逆圧縮を使用すると、再構築された信号は原信号と同一にならない場合があるが、原信号と再構築された信号との間の歪みは、再構築された信号が意図した用途に充分に役立つほど小さくなる。映像に関しては、非可逆圧縮が広く使用されている。歪み量は用途に応じて許容され、例えば、いくつかの消費者ストリーミングアプリケーションのユーザは、テレビに寄与するアプリケーションのユーザよりも高次の歪みを許容し得る。達成可能な圧縮比は、可能な/許容可能な歪みが高次になるほど高い圧縮比が得られるということを反映し得る。
【0005】
映像エンコーダ及びデコーダは、例えば、動き補償、変換、量子化、及びエントロピー符号化を含む、いくつかの幅広い範疇の技術を使用でき、これらの一部が以下で紹介される。
【0006】
パケットネットワークでの伝送用に、符号化映像ビットストリームをパケットに分割する例が数十年前から使用されている。早期には、映像符号化の標準及び技術は、その大半がボット指向の伝送用に最適化され、ビットストリームが定義されていた。システム層インターフェースで生じるパケット化は、例えば、リアルタイム伝送プロトコル-(Real-time Transport Protocol、RTP-)ペイロード形式で指定された。インターネット上での映像の大量利用に適したインターネット接続の出現により、映像符号化標準は、映像符号化層(VCL)とネットワーク抽象層(NAL)とを概念的に区別することによって、その突出した使用事例を反映したものになった。NALユニットは2003年のH.264に導入され、以来わずかな修正を加えたのみで、いくつかの映像符号化標準及び技術で保持されている。
【0007】
NALユニットは多くの場合、符号化された映像シーケンスのすべての先行するNALユニットを復号する必要なくデコーダが作用できる、最小のエンティティとみなすことができる。この限りにおいて、選択的転送ユニット(SFU)又はマルチポイント制御ユニット(MCU)などの媒体アウェアネットワーク要素(MANE)によって、ビットストリームプルーニングを含めるために、NALユニットではいくつかのエラー耐性技術、並びにいくつかのビットストリーム操作技術が可能になる。
【発明の概要】
【発明が解決しようとする課題】
【0008】
図1は、H.264(101)及びH.265(102)による、NALユニットヘッダの構文解析図の関連部分を示し、両方の事例において、それぞれの拡張子はない。両方の事例において、forbidden_zero_bitは、いくつかのシステム層環境で開始符号エミュレーション防止に使用されるゼロビットである。nal_unit_type構文要素は、NALユニットが保持するデータの種類を示し、例えば、いくつかのスライス種別、パラメータ設定種別、補足拡張情報(SEI-)メッセージなどのうちの1つであってもよい。H.265 NALユニットヘッダは、nuh_layer_id及びnuh_temporal_id_plus1をさらに含み、これらはNALユニットが属する符号化画像の空間的/SNR及び時間層を示す。
【0009】
NALユニットヘッダは、容易に解析可能な固定長の符号語のみを含み、これはビットストリーム内の他のデータ、例えば、他のNALユニットヘッダ、パラメータセットなどに対し、いかなる解析依存性ももたないことが観察できる。NALユニット内では、NALユニットヘッダが最初のオクテットなので、MANEはこれらを容易に抽出し、解析し、かつこれらに対して作用することができる。これとは対照的に、他の上位構文要素、例えば、スライス又はタイルヘッダは、パラメータセットコンテキストを保持したり、可変長又は算術符号化されたコードポイントを処理したりすることが必要になるため、MANEにとってアクセスしにくい。
【0010】
図1に示すNALユニットヘッダは、NALユニットを複数のNALユニットからなる符号化画像に関連付けることが可能な情報を含まない、ということがさらに観察され得る(例えば、複数のタイル又はスライスを含み、その少なくともいくつかは個別のNALユニットでパケット化される)。
【0011】
RTP(RFC 3550)、MPEGシステム標準、ISOファイル形式などのいくつかの伝送技術は、いくつかの情報を、しばしば提示時間(MPEG及びISOファイル形式の場合)又は捕捉時間(RTPの場合)などのタイミング情報の形式で含む場合があり、このような形式はMANEが容易にアクセスでき、かつそのそれぞれの伝送ユニットを符号化画像に関連付けるのを補助することができる。しかしながら、これらの情報のセマンティクスは伝送/記憶技術ごとに異なる場合があり、かつ映像符号化に使用される画像構造と直接関係がない場合がある。したがって、このような情報はヒューリスティクスでしかなく、また、NALユニットストリーム内のNALユニットが同じ符号化画像に属するかどうかを特定するのに、特によく適しているとは言えない場合がある。
【課題を解決するための手段】
【0012】
実施形態では、少なくとも1つのプロセッサを使用して映像を復号するために、符号化された現画像を再構築する方法であって、方法は、現画像に対応する画像分割情報を復号するステップと、画像分割情報を使用して、現画像の複数のサブ領域にパディングが適用されるかどうかを決定するステップと、パディングが適用されないという決定に基づき、複数のサブ領域をパディングせずに複数のサブ領域を復号するステップと、パディングが適用されるという決定に基づき、画像分割情報を使用して、パディングがラップアラウンドパディングを含むかどうかを決定するステップと、パディングがラップアラウンドパディングを含まないという決定に基づき、複数のサブ領域に反復パディングを適用し、反復パディングを使用して複数のサブ領域を復号するステップと、パディングがラップアラウンドパディングを含むという決定に基づき、複数のサブ領域にラップアラウンドパディングを適用し、ラップアラウンドパディングを使用して複数のサブ領域を復号するステップと、復号された複数のサブ領域に基づき、現画像を再構築するステップとを含む、方法が提供される。
【0013】
実施形態では、映像を復号するために、符号化された現画像を再構築する装置であって、装置は、プログラムコードを記憶するように構成された、少なくとも1つのメモリと、プログラムコードを読み出し、プログラムコードによって命令された通りに動作するように構成された、少なくとも1つのプロセッサとを備え、プログラムコードは、少なくとも1つのプロセッサに、現画像に対応する画像分割情報を復号させるように構成された、第1の復号コードと、画像分割情報を使用して、少なくとも1つのプロセッサに、現画像の複数のサブ領域にパディングが適用されるかどうかを決定させるように構成された、第1の決定コードと、パディングが適用されないという決定に基づいて、少なくとも1つのプロセッサに、複数のサブ領域をパディングせずに複数のサブ領域を復号させるように構成された、第2の復号コードと、パディングが適用されるという決定に基づき、画像分割情報を使用して、パディングがラップアラウンドパディングを含むかどうかを決定するように構成された、第2の決定コードと、パディングがラップアラウンドパディングを含まないという決定に基づき、少なくとも1つのプロセッサに、複数のサブ領域に反復パディングを適用し、反復パディングを使用して複数のサブ領域を復号させるように構成された、第1の反復コードと、パディングがラップアラウンドパディングを含むという決定に基づき、少なくとも1つのプロセッサに、複数のサブ領域にラップアラウンドパディングを適用し、ラップアラウンドパディングを使用して複数のサブ領域を復号させるように構成された、第2の反復コードと、復号された複数のサブ領域に基づき、少なくとも1つのプロセッサに現画像を再構築させるように構成された、再構築コードとを含む、装置が提供される。
【0014】
実施形態では、命令を記憶する非一時的なコンピュータ可読媒体であって、命令は、映像を復号するために符号化された現画像を再構築する装置の1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、現画像に対応する画像分割情報を復号させ、画像分割情報を使用して、現画像の複数のサブ領域にパディングが適用されるかどうかを決定させ、パディングが適用されないという決定に基づき、複数のサブ領域をパディングせずに複数のサブ領域を復号させ、パディングが適用されるという決定に基づき、画像分割情報を使用して、パディングがラップアラウンドパディングを含むかどうかを決定させ、パディングがラップアラウンドパディングを含まないという決定に基づき、複数のサブ領域に反復パディングを適用し、反復パディングを使用して複数のサブ領域を復号させ、パディングがラップアラウンドパディングを含むという決定に基づき、複数のサブ領域にラップアラウンドパディングを適用し、ラップアラウンドパディングを使用して複数のサブ領域を復号させ、復号された複数のサブ領域に基づき、現画像を再構築させる、1つ以上の命令を含む、非一時的なコンピュータ可読媒体が提供される。
【0015】
本開示の主題のさらなる特徴、性質、及びさまざまな利点は、以下の詳細な説明、及び添付の図面でより明らかになるであろう。
【図面の簡単な説明】
【0016】
【
図1】H.264及びH.265による、NALユニットヘッダの概略図である。
【
図2】実施形態による、通信システムの簡素化されたブロック図の概略図である。
【
図3】実施形態による、通信システムの簡素化されたブロック図の概略図である。
【
図4】実施形態による、デコーダの簡素化されたブロック図の概略図である。
【
図5】実施形態による、エンコーダの簡素化されたブロック図の概略図である。
【
図6】実施形態による、オフセット信号送信のための構文要素の概略図である。
【
図7】実施形態による、エンコーダがパディング幅を信号送信するための構文要素の概略図である。
【
図8】実施形態による、映像を復号するために符号化された現画像を再構築する、例示的なプロセスのフローチャートである。
【
図9】実施形態による、コンピュータシステムの概略図である。
【発明を実施するための形態】
【0017】
発明が解決しようとする課題
360度映像は、正距円筒投影(equirectangular projection、ERP)などの3D-2D投影方法を使用して、2D映像上にマッピングされる。投影された映像は、従来の2D映像エンコーダによって符号化及び復号され、2D映像を3D表面に再投影することによってレンダリングされる。その後、符号化された領域を個別につなぎ合わせることによって、再投影プロセスからシームの視覚的アーティファクトが生じる。
【0018】
詳細な説明
図2は、本開示の実施形態による、通信システム(200)の簡素化されたブロック図を示す。システム(200)は、ネットワーク(250)を介して相互接続された、少なくとも2つの端末(210、220)を含んでもよい。データの一方向伝送の場合、第1の端末(210)は、ネットワーク(250)を介してもう一方の端末(220)に送信する映像データをローカル位置で符号化してもよい。第2の端末(220)は、ネットワーク(250)からもう一方の端末の符号化された映像データを受信し、符号化されたデータを復号して、回復された映像データを表示してもよい。一方向のデータ伝送は、媒体供給用途などにおいて一般的であろう。
【0019】
図2は、例えば、ビデオ会議中に生じる場合がある、符号化された映像の双方向伝送をサポートするために提供される、第2の対の端末(230、240)を示す。データの双方向伝送の場合、各端末(230、240)は、ネットワーク(250)を介してもう一方の端末に送信する、ローカル位置で捕捉した映像データを符号化してもよい。各端末(230、240)は、もう一方の端末によって送信された符号化された映像データを受信してもよく、符号化されたデータを復号してもよく、かつ回復された映像データをローカルの表示装置に表示してもよい。
【0020】
図2では、端末(210~240)は、サーバ、パソコン、及びスマートフォンとして示されてもよいが、本開示の原理はそのように限定されない場合がある。本開示の実施形態は、ノートパソコン、タブレットコンピュータ、メディアプレーヤ、及び/又は専用のビデオ会議機器にも適用される。ネットワーク(250)は、符号化された映像データを端末(210~240)間に伝達する、有線及び/又は無線通信ネットワークなどを含む任意の数のネットワークを表す。通信ネットワーク(250)は、回線交換チャネル及び/又はパケット交換チャネルでデータを交換してもよい。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、広域ネットワーク、及び/又はインターネットを含む。本考察の目的のために、ネットワーク(250)のアーキテクチャ及びトポロジは、以下で説明されない限り、本開示の運用には無関係な場合がある。
【0021】
図3は、開示される主題の適用例として、ストリーミング環境における映像エンコーダ及びデコーダの配置を示す。開示される主題は、例えば、ビデオ会議や、デジタルテレビや、CD、DVD、メモリスティックなどのデジタル媒体への圧縮映像の記憶などを含む、他の映像使用用途に等しく適用することができる。
【0022】
ストリーミングシステムは捕捉サブシステム(313)を含んでもよく、捕捉サブシステム(313)は、例えば、圧縮されていない映像サンプルストリーム(302)を作成する、デジタルカメラなどの映像ソース(301)を含むことができる。符号化映像ビットストリームと比較してデータ量が大きいことを強調するために太線で示されているサンプルストリーム(302)は、カメラ(301)に結合されたエンコーダ(303)によって処理することができる。以下でより詳細に説明するように、エンコーダ(303)は、開示される主題の態様を可能にする、又は実施するために、ハードウェア、ソフトウェア、又はこれらの組合せを含むことができる。サンプルストリームと比較してデータ量が小さいことを強調するために細線で示されている符号化映像ビットストリーム(304)は、後で使用するためにストリーミングサーバ(305)に記憶することができる。1つ以上のストリーミングクライアント(306、308)は、符号化映像ビットストリーム(304)のコピー(307、309)を検索するために、ストリーミングサーバ(305)にアクセスすることができる。クライアント(306)は、着信した符号化映像ビットストリームのコピー(307)を復号して、発信する映像サンプルストリーム(311)を生成する、映像デコーダ(310)を含むことができ、映像サンプルストリーム(311)は、表示装置(312)、又は他の表示装置(図示せず)に表示することができる。一部のストリーミングシステムでは、映像ビットストリーム(304、307、309)は、いくつかの映像符号化/圧縮標準に従って符号化することができる。このような標準の例は、ITU-T勧告H.265を含む。非公式には汎用映像符号化(Versatile Video Coding、即ちVVC)として知られる、映像符号化標準が開発中である。開示されている主題は、VVCとの関連において使用されてもよい。
【0023】
図4は、本開示の実施形態による、映像デコーダ(310)の機能ブロック図である。
【0024】
受信機(410)は、デコーダ(310)によって復号される1つ以上のコーデック映像シーケンスを受信してもよく、同一又は別の実施形態では、1つの符号化された映像シーケンスを同時に受信してもよく、符号化された映像シーケンスそれぞれの復号は、他の符号化された映像シーケンスから独立している。符号化された映像シーケンスは、チャネル(412)から受信されてもよく、チャネル(412)は、符号化された映像データを記憶する記憶装置と連結する、ハードウェア/ソフトウェアであってもよい。受信機(410)は、符号化された音声データ及び/又は補助データストリームなどの他のデータとともに符号化された映像データを受信してもよく、これはそれぞれが使用するエンティティ(図示せず)に転送されてもよい。受信機(410)は、符号化された映像シーケンスを他のデータから分離してもよい。ネットワークのジッタに対抗するために、受信機(410)とエントロピーデコーダ/構文解析器(420)(以下「構文解析器」とする)との間にバッファメモリ(415)が結合されてもよい。受信機(410)が、帯域幅及び制御性が充分な記憶装置/転送装置から、又はアイソシンクロナスネットワークからデータを受信しているときは、バッファ(415)は必要でない場合がある、或いは小さくすることができる。バッファ(415)は、インターネットなどのベストエフォートのパケットネットワークで使用するために必要とされる場合があり、比較的大型で、好適には適応可能なサイズにすることができる。
【0025】
映像デコーダ(310)は、エントロピー符号化された映像シーケンスからシンボル(421)を再構築するために、構文解析器(420)を備えてもよい。
図3に示されていたように、このようなシンボルの分類は、デコーダ(310)の動作を管理するのに使用される情報、及びデコーダの一体部品ではないがこれに結合できる表示装置(312)などの、表示装置を制御するための潜在的な情報を含む。(複数の)表示装置のための制御情報は、補助拡張情報(Supplementary Enhancement Information)(SEIメッセージ)、又は映像有用性情報(Video Usability Information、VUI)パラメータ集合フラグメント(図示せず)の形態にされてもよい。構文解析器(420)は、受信した符号化された映像シーケンスを、構文解析/エントロピー復号してもよい。符号化された映像シーケンスの符号は、映像符号化技術又は標準に従っていてもよく、可変長符号化、ハフマン符号化、文脈依存又は非文脈依存の算術符号化などを含む、当業者によく知られている原理に従っていてもよい。構文解析器(420)は、符号化された映像シーケンスから、グループに対応する少なくとも1つのパラメータに基づいて、映像デコーダ内の、画素のサブグループの少なくとも1つに対する、一群のサブグループパラメータを抽出してもよい。サブグループは、画像のグループ(GOP)、画像、サブ画像、タイル、スライス、ブリック、マクロブロック、符号化ツリーユニット(CTU)、符号化ユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)などを含むことができる。タイルは、画像における特定のタイルの列及び行内の、CU/CTUの長方形領域を示し得る。ブリックは、特定のタイル内CU/CTU行の長方形領域を示し得る。スライスは、画像の1つ以上のブリックを示してもよく、これらはNALユニットに含まれる。サブ画像は、画像内の1つ以上のスライスの長方形領域を示し得る。また、エントロピーデコーダ/構文解析器は、符号化された映像シーケンスから、変換係数、量子化器パラメータ値、動きベクトルなどの情報を抽出してもよい。
【0026】
構文解析器(420)は、シンボル(421)を生成するために、バッファ(415)から受信した映像シーケンスにエントロピー復号/構文解析動作を実行してもよい。
【0027】
シンボル(421)の再構築は、符号化された映像又はその部分の種別(例えば、インター画像及びイントラ画像、インターブロック及びイントラブロック)、並びに他の要素に応じて、複数の異なるユニットを含むことができる。どのユニットがどのように含まれるかについては、構文解析器(420)によって符号化された映像シーケンスから構文解析された、サブグループ制御情報によって制御することができる。構文解析器(420)と、以下の複数のユニットとの間のこのようなサブグループ制御情報の流れは、明確にするために図示されていない。
【0028】
すでに述べた機能ブロック以外に、デコーダ310は、以下で説明するように、概念的にいくつかの機能ユニットに再分割することができる。商業的な制約の下で運用される実際の実施では、このようなユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合することができる。しかしながら、開示する主題を説明する目的のためには、以下の機能ユニットに概念的に再分割するのが適切である。
【0029】
第1のユニットは、スケーラ/逆変換ユニット(451)である。スケーラ/逆変換ユニット(451)は、量子化変換係数、並びに制御情報を受信し、これには、構文解析器(420)からの(複数の)シンボル(421)として、使用する変換、ブロックサイズ、量子化因子、量子化スケーリング行列などが含まれている。スケーラ/逆変換ユニット(451)はサンプル値を含むブロックを出力でき、これを集約装置(455)に入力することができる。
【0030】
場合によっては、スケーラ/逆変換(451)の出力サンプルは、イントラ符号化されたブロックに関係することができ、つまり、以前に再構築された画像からの予測情報を使用していないブロックは、現画像の以前に再構築された部分からの予測情報を使用することができる。このような予測情報は、イントラ画像予測ユニット(452)によって提供することができる。場合によっては、イントラ画像予測ユニット(452)は、現在の(部分的に再構築された)画像(458)から取り出した、周囲のすでに再構築された情報を使用して、再構築中のブロックと同じサイズ及び形状のブロックを生成する。集約装置(455)は、場合により、イントラ予測ユニット(452)が生成した予測情報をサンプル毎に、スケーラ/逆変換ユニット(451)によって提供された出力サンプル情報に追加する。
【0031】
他の事例では、スケーラ/逆変換ユニット(451)の出力サンプルはインター符号化され、かつ潜在的には動き補償されたブロックに関係することができる。このような事例では、動き補償予測ユニット(453)が、予測に使用するサンプルを取り出すために、参照画像メモリ(457)にアクセスすることができる。ブロックに関連するシンボル(421)に従って、取り出されたサンプルを動き補償した後に、これらのサンプルは、出力サンプル情報を生成するように、集約装置(455)によってスケーラ/逆変換ユニットの出力(この場合は残差サンプル又は残差信号と呼ばれる)に追加することができる。動き補償ユニットが予測サンプルを取り出す参照画像メモリ内のアドレスは、動きベクトルによって制御することができ、シンボル(421)の形態で動き補償ユニットに使用可能で、例えば、X、Y、及び参照画像成分を有することができる。また動き補償は、サブサンプルの正確な動きベクトルが使用されているときに参照画像メモリから取り出されたサンプル値の補間、動きベクトル予測機構などを含むことができる。
【0032】
集約装置(455)の出力サンプルは、ループフィルタユニット(456)のさまざまなループフィルタリング技術にかけることができる。映像圧縮技術は、符号化映像ビットストリームに含まれるパラメータによって制御され、構文解析器(420)からのシンボル(421)としてループフィルタユニット(456)に対して使用可能になる、ループ内フィルタ技術を含むことができるが、さらに、符号化された画像又は符号化された映像シーケンスの以前の(復号順で)部分の復号中に取得されたメタ情報にも応答し、同様に以前に再構築されてループフィルタリングされたサンプル値にも応答することができる。
【0033】
ループフィルタユニット(456)の出力は、表示装置(312)に出力でき、かつ以後のインター画像予測に使用するために参照画像メモリに記憶できる、サンプルストリームであってもよい。
【0034】
いくつかの符号化画像は、いったん完全に再構築されると、以後の予測用の参照画像として使用することができる。符号化画像が完全に再構築され、符号化された画像が(例えば、構文解析器(420)によって)参照画像として特定されていると、現在の参照画像(458)が参照画像バッファ(457)の一部になることができ、後続の符号化された画像の再構築を開始する前に、新しい現画像メモリを再配分することができる。
【0035】
映像デコーダ420は、ITU-T Rec.H.265などの標準に記述され得る所定の映像圧縮技術に従って、復号動作を実行してもよい。符号化された映像シーケンスは、映像圧縮技術又は標準の構文を遵守しているという意味において、映像圧縮技術文書又は標準で、かつ具体的にはそこに記述されているプロファイルで指定される通りに、使用される映像圧縮技術又は標準によって指定される構文に従っているといえる。遵守のためにさらに必要なことは、符号化された映像シーケンスの複雑性が、映像圧縮技術又は標準のレベルによって規定される範囲内にあることであろう。場合によっては、水準によって最大画像サイズ、最大フレームレート、最大再構築サンプルレート(例えば、メガサンプル/秒で測定される)、最大参照画像サイズなどが制限される。水準によって設定される制限は、場合によっては、仮想参照デコーダ(Hypothetical Reference Decoder、HRD)仕様、及び符号化された映像シーケンスで信号送信されたHRDバッファ管理のメタデータによってさらに制限される可能性がある。
【0036】
実施形態では、受信機(410)は、符号化された映像とともに追加(冗長)データを受信してもよい。追加データは、(複数の)符号化された映像シーケンスの一部として含められてもよい。追加データは、映像デコーダ(420)によって、データを適切に復号するため、かつ/又は元の映像データをより正確に再構築するために使用されてもよい。追加データは、例えば、時間的、空間的、又はSNR強化層、冗長スライス、冗長画像、転送エラー修正コードなどの形態であってもよい。
【0037】
図5は、本開示の実施形態による、映像エンコーダ(303)の機能ブロック図である。
【0038】
エンコーダ(303)は、エンコーダ(303)によって符号化される(複数の)映像を捕捉し得る映像ソース(301)(エンコーダの一部ではない)から、映像サンプルを受信してもよい。
【0039】
映像ソース(301)は、エンコーダ(303)によって符号化されるソース映像シーケンスを、任意の適切なビット深度(8ビット、10ビット、12ビット~など)、任意の色空間(BT.601 Y CrCB、RGBなど)、及び任意の適切なサンプリング構造(Y CrCb 4:2:0、Y CrCb 4:4:4など)にすることが可能なデジタル映像サンプルストリームの形態で提供し得る。媒体供給システムでは、映像ソース(301)は、以前に準備した映像を記憶している記憶装置であってもよい。ビデオ会議システムでは、映像ソース(303)は、ローカル画像情報を映像シーケンスとして捕捉するカメラであってもよい。映像データは、シーケンスで見たときに動きを伝える複数の個別の画像として提供されてもよい。画像自体は画素の空間的配列として編成されてもよく、各画素は、使用時のサンプリング構造、色空間などに応じて1つ以上のサンプルを含むことができる。当業者であれば、画素とサンプルとの関係を容易に理解できるであろう。以下、サンプルを中心に説明する。
【0040】
実施形態によれば、エンコーダ(303)は、リアルタイムで、又は用途によって必要とされる他の時間制約下で、ソース映像シーケンスの画像を符号化し圧縮して、符号化された映像シーケンス(543)にし得る。適切な符号化速度にすることが、コントローラ(550)の1つの機能である。コントローラは、後述するように他の機能ユニットを制御し、かつこれらのユニットに機能的に結合される。明確にするために、結合については図示しない。コントローラによって設定されたパラメータは、レート制御関連パラメータ(画像スキップ、量子化、レート-歪み最適化技術のラムダ値など)、画像サイズ、画像のグループ(GOP)のレイアウト、最大動きベクトル検索範囲などを含むことができる。当業者であれば、コントローラ(550)の他の機能は、いくつかのシステム設計用に最適化された映像エンコーダ(303)に関連し得るため、容易に特定することができる。
【0041】
いくつかの映像エンコーダは、当業者には「符号化ループ」として容易に認識されるもので動作する。過度に単純化した説明になるが、符号化ループは、エンコーダ(530)(以後「ソースエンコーダ」)(符号化される入力画像、及び(複数の)参照画像に基づくシンボルの生成に関与する)の符号化部と、(シンボル及び符号化映像ビットストリーム間の圧縮は、開示されている主題で考慮される映像圧縮技術において可逆であるために)(リモート)デコーダも生成するサンプルデータを生成するために、シンボルを再構築するエンコーダ(303)に組み込まれた、(ローカル)デコーダ(533)と、からなっていてもよい。再構築されたサンプルストリームは、参照画像メモリ(534)に入力される。シンボルストリームの復号が、デコーダの位置(ローカル又はリモート)とは無関係に、結果としてビットパーフェクト(bit-exact)になると、参照画像バッファのコンテンツもまた、ローカルエンコーダとリモートエンコーダとの間でビットパーフェクトになる。言い換えれば、エンコーダの予測部は、参照画像サンプルを、復号中に予測を使用しているときにデコーダが「みなす」ものとまったく同じサンプル値と「みなす」。参照画像共時性のこの基本原理(及び、例えばチャネルエラーのために共時性を維持できない場合は、結果として生じるドリフト)は、当業者にはよく知られている。
【0042】
「ローカル」デコーダ(533)の動作は、「リモート」デコーダ(310)と同じであってもよく、これについては、
図4に関連してすでに詳細に上述した。しかしながら、一時的に
図4も参照すると、シンボルが使用可能であり、かつエントロピーエンコーダ(545)及び構文解析器(420)によって、シンボルを符号化された映像シーケンスに可逆的に符号化/復号できるので、チャネル(412)、受信機(410)、バッファ(415)、及び構文解析器(420)を含むデコーダ(310)のエントロピー復号部は、ローカルデコーダ(533)で完全に実施されなくてもよい。
【0043】
現時点で考えられることは、デコーダ内に存在する、構文解析/エントロピー復号を除くデコーダ技術はいずれも、対応するエンコーダ内にもほぼ同一の機能的形態で存在することが当然必要になる。このため、開示される主題はデコーダの動作に重点を置いている。エンコーダ技術の説明は、包括的に述べられているデコーダ技術の逆なので、省略することができる。いくつかの領域においてのみ、より詳細な説明が必要とされ以下で説明される。
【0044】
ソースエンコーダ(530)は、その動作の一部として動き補償された予測符号化を実行してもよく、「参照フレーム」として指定された映像シーケンスから、1つ以上の以前に符号化されたフレームに関して、入力フレームを予測的に符号化する。この方法では、符号化エンジン(532)は、入力フレームの画素ブロックと、入力フレームに対する(複数の)予測参照として選択され得る(複数の)参照フレームの画素ブロックとの差異を符号化する。
【0045】
ローカル映像デコーダ(533)は、ソースエンコーダ(530)によって生成されたシンボルに基づいて、参照フレームとして指定され得るフレームの符号化された映像データを復号してもよい。符号化エンジン(532)の動作は、好適には非可逆の工程であってもよい。符号化された映像データが、映像デコーダ(
図5には図示せず)で復号されてもよいときは、再構築された映像シーケンスは、通常はいくつかのエラーを伴う、ソース映像シーケンスの複製であってもよい。ローカル映像デコーダ(533)は、映像デコーダによって参照フレームに対して実行されてもよく、かつ再構築された参照フレームが参照画像キャッシュ(534)に記憶されるようにし得る、復号工程を複製する。この方法では、エンコーダ(303)は、遠端の映像デコーダ(伝送エラーのない)によって取得される、再構築された参照フレームと共通のコンテンツを有する、再構築された参照フレームのコピーを局所的に記憶してもよい。
【0046】
予測子(535)は、符号化エンジン(532)用の予測検索を実行してもよい。つまり、予測子(535)は、符号化される新しいフレームに対して、参照画像メモリ(534)からサンプルデータ(候補参照画素ブロックとしての)、又は参照画像動きベクトル、ブロック形状などのいくつかのメタデータを検索してもよく、これは新しい画像の適切な予測参照として機能する。予測子(535)は、適切な予測参照を見つけるために、ブロック×画素ブロックを基準として、サンプルで動作してもよい。場合によっては、予測子(535)によって取得された検索結果によって決定されるように、入力画像は、参照画像メモリ(534)に記憶された複数の参照画像から引き出された予測参照を有してもよい。
【0047】
コントローラ(550)は、例えば、映像データの符号化に使用される、パラメータ及びサブグループパラメータの設定を含む、映像エンコーダ(530)の符号化動作を管理してもよい。
【0048】
前述した全機能ユニットの出力は、エントロピーエンコーダ(545)でエントロピー符号化されてもよい。エントロピーエンコーダは、さまざまな機能ユニットによって生成されると、ハフマン符号化、可変長符号化、算術符号化などとして当業者に知られている技術でシンボルを可逆圧縮することによって、シンボルを符号化された映像シーケンスに変換する。
【0049】
送信機(540)は、通信チャネル(560)を介した送信に備えるために、エントロピーエンコーダ(545)によって生成された際に、(複数の)符号化された映像シーケンスをバッファリングしてもよく、これは、符号化された映像データを記憶する記憶装置に対するハードウェア/ソフトウェア連携であってもよい。送信機(540)は、映像エンコーダ(530)の符号化された映像データを、送信される他のデータ、例えば、符号化された音声データ及び/又は補助データストリーム(ソースは図示せず)とマージしてもよい。
【0050】
コントローラ(550)は、エンコーダ(303)の動作を管理してもよい。符号化中に、コントローラ(550)は、符号化された画像のそれぞれにいくつかの符号化画像種別を割り当ててもよく、これは、各画像に適用され得る符号化技術に影響を及ぼす場合がある。例えば、画像は、以下のフレーム種別のうちの1つに割り当てられることが多い。
【0051】
イントラ画像(Iピクチャ)は、予測のソースとしてシーケンス内の他のフレームを使用せずに符号化及び復号され得るものである。いくつかの映像コーデックは、例えば、即時デコーダリフレッシュ(Independent Decoder Refresh)画像を含む、異なる種類のイントラ画像を許容する。当業者には、このようなIピクチャの変形、並びにその各用途及び特徴が知られている。
【0052】
予測画像(Pピクチャ)は、各ブロックのサンプル値を予測するために、最大で1つの動きベクトル及び参照インデックスを使用して、イントラ予測又はインター予測を用いて符号化及び復号され得るものである。
【0053】
双方向予測画像(Bピクチャ)は、各ブロックのサンプル値を予測するために、最大で2つの動きベクトル及び参照インデックスを使用して、イントラ予測又はインター予測を用いて符号化及び復号され得るものである。同様に多重予測画像は、1つのブロックを再構築するために、2つよりも多い参照画像、及び関連するメタデータを使用することができる。
【0054】
ソース画像は、通常は空間的に複数のサンプルブロック(例えば、それぞれ4×4、8×8、4×8、又は16×16サンプルのブロック)に再分割されて、ブロック毎に符号化されてもよい。ブロックは、ブロックの各画像に適用された符号割当てによって決定される際に、他の(すでに符号化された)ブロックを参照して予測的に符号化されてもよい。例えば、Iピクチャのブロックは、非予測的に符号化されてもよく、或いは同じ画像のすでに符号化されたブロックを参照して、予測的に符号化されてもよい(空間予測又はイントラ予測)。Pピクチャの画素ブロックは、1つの以前に符号化された参照画像を参照して、空間予測によって、又は時間予測によって、非予測的に符号化されてもよい。Bピクチャのブロックは、1つ又は2つの以前に符号化された参照画像を参照して、空間予測によって、又は時間予測によって、非予測的に符号化されてもよい。
【0055】
映像エンコーダ(303)は、ITU-T Rec.H.265などの所定の映像符号化技術又は標準に従って、符号化動作を実行してもよい。その動作において、映像エンコーダ(303)はさまざまな圧縮動作を実行してもよく、これには入力映像シーケンスで時間的及び空間的冗長性を利用する予測符号化動作が含まれる。したがって符号化された映像データは、使用される映像符号化技術又は標準によって指定された構文に従っていてもよい。
【0056】
実施形態では、送信機(540)は、符号化された映像とともに追加データを送信してもよい。映像エンコーダ(530)は、符号化された映像シーケンスの一部としてこのようなデータを含んでもよい。追加データは、時間/空間/SNR強化層、冗長画像及びスライス、補足拡張情報(Supplementary Enhancement Information、SEI)メッセージ、視覚的有用性情報(Visual Usability Information、VUI)パラメータ集合フラグメントなどの他の形式の冗長データを含んでもよい。
【0057】
図6~
図7を参照すると、実施形態において、360度映像は、一組のカメラ、又は複数のレンズを有するカメラ装置によって捕捉される。カメラは、カメラセットの中心点の周囲を無指向にカバーし得る。同じ時間インスタンスの画像がつなぎ合わされ、場合によっては回転され、投影され、画像にマッピングされる。パッキングされた画像は、符号化映像ビットストリームに符号化されるものとして符号化され、特定の媒体コンテナファイル形式に従って配信される。ファイルは、投影及びパッキング情報などのメタデータを含む。
【0058】
実施形態において、360度映像は、正距円筒投影(ERP)を使用して、2D映像に投影されてもよい。ERP投影は、シームアーティファクトの原因になる場合がある。パディングされたERP(PERP)形式は、ERP画像の左右の境界を囲んでいる、再構築されたビューポートのシームアーティファクトを効果的に削減し得る。しかしながら、パディング及びブレンディングは、シームの問題を完全に解決するのに充分でない場合がある。
【0059】
実施形態では、シームアーティファクトを削減するために、ERP又はPERPに水平形状パディングが適用されてもよい。PERPのパディングのプロセスは、パディングされる領域の大きさを考慮するために、オフセットが画像幅ではなくパディングされていないERP幅に基づく場合があること以外は、ERPと同じであってもよい。参照ブロックが左(右)参照画像境界の外部にある場合は、ERP幅によって右(左)にシフトされる「ラップアラウンド」参照ブロックと置き換えられてもよい。垂直方向に、従来の反復パディングが使用されてもよい。左右のパディングされた領域のブレンディングは、後処理動作としてループには関与しない。
【0060】
実施形態では、ERP及びPERP形式の参照画像の水平形状パディングを可能にするseq_parameter_set_rbsp()(601)などの構文が
図6に示されている。
【0061】
実施形態では、sps_ref_wraparound_enabled_flag(602)が1の場合は、インター予測に水平ラップアラウンド動き補償が使用されることを指定する。実施形態では、sps_ref_wraparound_enabled_flag(602)が0の場合は、この動き補償方法が適用されないことを指定する。
【0062】
実施形態では、ref_wraparound_offset(603)は、水平ラップアラウンド位置の計算に使用されるルマサンプルのオフセットを指定する。実施形態では、ref_wraparound_offset(603)は、pic_width_in_luma_samples-1より大きくなるものとし、pic_width_in_luma_samplesより大きくなることはなく、かつMinCbSizeYの整数倍になるものとする。
【0063】
実施形態では、ERP及びPERP形式の参照画像の水平形状パディングを可能にするseq_parameter_set_rbsp()(701)などの構文が
図7に示されている。
【0064】
実施形態では、sps_ref_wraparound_enabled_flag(702)が1の場合は、インター予測に水平ラップアラウンド動き補償が使用されることを指定する。sps_ref_wraparound_enabled_flag(702)が0の場合は、この動き補償方法が適用されないことを指定する。
【0065】
実施形態では、left_wraparound_padding_width(703)は、ルマサンプルの左側パディング領域の幅を指定する。実施形態では、ref_wraparound_offsetは0以上になるものとし、pic_width_in_luma_samples/2より大きくなることはなく、かつMinCbSizeYの整数倍になるものとする。
【0066】
実施形態では、right_wraparound_padding_width(704)は、ルマサンプルの右側パディング領域の幅を指定する。実施形態では、ref_wraparound_offsetは0以上になるものとし、pic_width_in_luma_samples/2より大きくなることはなく、かつMinCbSizeYの整数倍になるものとする。
【0067】
実施形態では、ラップアラウンドのオフセット値は、以下の導出プロセスによって取得されてもよい。
if ref_wraparound_offset is present
wrapAroundOffset=ref_wraparound_offset
else if left_wraparound_padding_width and right_wraparound_padding_width are present
wrapAroundOffset=pic_width_in_luma_samples-(left_wraparound_padding_width+right_wraparound_padding_width)
else
wrapAroundOffset=pic_width_in_luma_samples
【0068】
実施形態では、ERP及びPERP形式の参照画像の水平形状パディングを可能にするために、ルマ及びクロマサンプル補間プロセスが修正されてもよい。
【数1】
【数2】
【0069】
実施形態によるルマサンプル補間プロセスの例、及び実施形態によるクロマサンプル補間プロセスの例が以下で説明される。
ルマサンプル補間プロセス
このプロセスに対する入力は、
-完全サンプルユニット(xIntL,yIntL)におけるルマ位置
-分数サンプルユニット(xFracL,yFracL)におけるルマ位置
-ルマ参照サンプル配列refPicLXL
このプロセスの出力は、予測されたルマサンプル値predSampleLXL
変数shift1、shift2、及びshift3は、以下の通り導出される。
-変数shift1はMin(4,BitDepthY-8)に設定され、変数shift2は6に設定され、変数shift3はMax(2,14-BitDepthY)に設定される。
-変数picWはpic_width_in_luma_samplesに設定され、変数picHはpic_height_in_luma_samplesに設定される。
-変数xOffsetはwrapAroundOffsetに設定される。
xFracL又はyFracLと等しいそれぞれの1/16分数サンプル位置pに対するルマ補間フィルタ係数fL[p]を以下に指定する。
予測されるルマサンプル値predSampleLXLは、以下の通り導出される。
-xFracL及びyFracLの両方が0であれば、以下が適用される。
-sps_ref_wraparound_enabled_flagが0であれば、predSampleLXLの値は以下の通り導出される。
predSampleLXL=refPicLXL[Clip3(0,picW-1,xIntL)][Clip3(0,picH-1,yIntL)]<<shift3
-或いは、predSampleLXLの値は以下の通り導出される。
predSampleLXL=refPicLXL[ClipH(xOffset,picW,xIntL)][Clip3(0,picH-1,yIntL)]<<shift3
-或いはxFracLが0でなく、yFracLが0であれば、以下が適用される。
-yPosLの値は、以下の通り導出される。
yPosL=Clip3(0,picH-1,yIntL)
-sps_ref_wraparound_enabled_flagが0であれば、predSampleLXLの値は以下の通り導出される。
predSampleLXL=(fL[xFracL][0]*refPicLXL[Clip3(0,picW-1,xIntL-3)][yPosL]+
fL[xFracL][1]*refPicLXL[Clip3(0,picW-1,xIntL-2)][yPosL]+
fL[xFracL][2]*refPicLXL[Clip3(0,picW-1,xIntL-1)][yPosL]+
fL[xFracL][3]*refPicLXL[Clip3(0,picW-1,xIntL)][yPosL]+
fL[xFracL][4]*refPicLXL[Clip3(0,picW-1,xIntL+1)][yPosL]+
fL[xFracL][5]*refPicLXL[Clip3(0,picW-1,xIntL+2)][yPosL]+
fL[xFracL][6]*refPicLXL[Clip3(0,picW-1,xIntL+3)][yPosL]+
fL[xFracL][7]*refPicLXL[Clip3(0,picW-1,xIntL+4)][yPosL])>>shift1
-或いはpredSampleLXLの値は以下の通り導出される。
predSampleLXL=(fL[xFracL][0]*refPicLXL[ClipH(xOffset,picW,xIntL-3)][yPosL]+
fL[xFracL][1]*refPicLXL[ClipH(xOffset,picW,xIntL-2)][yPosL]+
fL[xFracL][2]*refPicLXL[ClipH(xOffset,picW,xIntL-1)][yPosL]+
fL[xFracL][3]*refPicLXL[ClipH(xOffset,picW,xIntL)][yPosL]+
fL[xFracL][4]*refPicLXL[ClipH(xOffset,picW,xIntL+1)][yPosL]+
fL[xFracL][5]*refPicLXL[ClipH(xOffset,picW,xIntL+2)][yPosL]+
fL[xFracL][6]*refPicLXL[ClipH(xOffset,picW,xIntL+3)][yPosL]+
fL[xFracL][7]*refPicLXL[ClipH(xOffset,picW,xIntL+4)][yPosL])>>shift1
-或いはxFracLが0であり、yFracLが0でない場合は、predSampleLXLの値は以下の通り導出される。
-sps_ref_wraparound_enabled_flagが0であれば、xPosLの値は以下の通り導出される。
xPosL=Clip3(0,picW-1,xIntL)
-或いは、xPosLの値は以下の通り導出される。
xPosL=ClipH(xOffset,picW,xIntL)
-予測されるルマサンプル値predSampleLXLは以下の通り導出される。
predSampleLXL=(fL[yFracL][0]*refPicLXL[xPosL][Clip3(0,picH-1,yIntL-3)]+
fL[yFracL][1]*refPicLXL[xPosL][Clip3(0,picH-1,yIntL-2)]+
fL[yFracL][2]*refPicLXL[xPosL][Clip3(0,picH-1,yIntL-1)]+
fL[yFracL][3]*refPicLXL[xPosL][Clip3(0,picH-1,yIntL)]+
fL[yFracL][4]*refPicLXL[xPosL][Clip3(0,picH-1,yIntL+1)]+
fL[yFracL][5]*refPicLXL[xPosL][Clip3(0,picH-1,yIntL+2)]+
fL[yFracL][6]*refPicLXL[xPosL][Clip3(0,picH-1,yIntL+3)]+
fL[yFracL][7]*refPicLXL[xPosL][Clip3(0,picH-1,yIntL+4)])>>shift1
-或いはxFracLが0でなく、yFracLが0でない場合は、predSampleLXLの値は以下の通り導出される。
-sps_ref_wraparound_enabled_flagが0であれば、n=0~7のサンプル配列temp[n]は以下の通り導出される。
yPosL=Clip3(0,picH-1,yIntL+n-3)
temp[n]=(fL[xFracL][0]*refPicLXL[Clip3(0,picW-1,xIntL-3)][yPosL]+
fL[xFracL][1]*refPicLXL[Clip3(0,picW-1,xIntL-2)][yPosL]+
fL[xFracL][2]*refPicLXL[Clip3(0,picW-1,xIntL-1)][yPosL]+
fL[xFracL][3]*refPicLXL[Clip3(0,picW-1,xIntL)][yPosL]+
fL[xFracL][4]*refPicLXL[Clip3(0,picW-1,xIntL+1)][yPosL]+
fL[xFracL][5]*refPicLXL[Clip3(0,picW-1,xIntL+2)][yPosL]+
fL[xFracL][6]*refPicLXL[Clip3(0,picW-1,xIntL+3)][yPosL]+
fL[xFracL][7]*refPicLXL[Clip3(0,picW-1,xIntL+4)][yPosL])>>shift1
-或いは、n=0~7のサンプル配列temp[n]は以下の通り導出される。
yPosL=Clip3(0,picH-1,yIntL+n-3)
temp[n]=(fL[xFracL][0]*refPicLXL[ClipH(xOffset,picW,xIntL-3)][yPosL]+
fL[xFracL][1]*refPicLXL[ClipH(xOffset,picW,xIntL-2)][yPosL]+
fL[xFracL][2]*refPicLXL[ClipH(xOffset,picW,xIntL-1)][yPosL]+
fL[xFracL][3]*refPicLXL[ClipH(xOffset,picW,xIntL)][yPosL]+
fL[xFracL][4]*refPicLXL[ClipH(xOffset,picW,xIntL+1)][yPosL]+
fL[xFracL][5]*refPicLXL[ClipH(xOffset,picW,xIntL+2)][yPosL]+
fL[xFracL][6]*refPicLXL[ClipH(xOffset,picW,xIntL+3)][yPosL]+
fL[xFracL][7]*refPicLXL[ClipH(xOffset,picW,xIntL+4)][yPosL])>>shift1
-予測されるルマサンプル値predSampleLXLは以下の通り導出される。
predSampleLXL=(fL[yFracL][0]*temp[0]+
fL[yFracL][1]*temp[1]+
fL[yFracL][2]*temp[2]+
fL[yFracL][3]*temp[3]+
fL[yFracL][4]*temp[4]+
fL[yFracL][5]*temp[5]+
fL[yFracL][6]*temp[6]+
fL[yFracL][7]*temp[7])>>shift2
クロマサンプル補間プロセス
このプロセスに対する入力は、
-完全サンプルユニット(xIntC,yIntC)におけるクロマ位置
-1/32分数サンプルユニット(xFracC,yFracC)におけるクロマ位置
-クロマ参照サンプル配列refPicLXC
である。
このプロセスの出力は、予測されたクロマサンプル値predSampleLXC
変数shift1、shift2、及びshift3は、以下の通り導出される。
-変数shift1はMin(4,BitDepthC-8)に設定され、変数shift2は6に設定され、変数shift3はMax(2,14-BitDepthC)に設定される。
-変数picWCはpic_width_in_luma_samples/SubWidthCに設定され、変数picHCはpic_height_in_luma_samples/SubHeightCに設定される。
-変数xOffsetCはwrapAroundOffset/SubWidthCに設定される。
xFracC又はyFracCと等しいそれぞれの1/32分数サンプル位置pに対するルマ補間フィルタ係数fC[p]を以下に指定する。
予測されるクロマサンプル値predSampleLXCは、以下の通り導出される。
-xFracC及びyFracCの両方が0であれば、以下が適用される。
-sps_ref_wraparound_enabled_flagが0であれば、predSampleLXCの値は以下の通り導出される。
predSampleLXC=refPicLXC[Clip3(0,picWC-1,xIntC)][Clip3(0,picHC-1,yIntC)]<<shift3
-或いは、predSampleLXCの値は以下の通り導出される。
predSampleLXC=refPicLXC[ClipH(xOffsetC,picWC,xIntC)][Clip3(0,picHC-1,yIntC)]<<shift3
-或いはxFracCが0でなく、yFracCが0であれば以下が適用される。
-yPosCの値は以下の通り導出される。
yPosC=Clip3(0,picHC-1,yIntC)
-sps_ref_wraparound_enabled_flagが0であれば、predSampleLXCの値は以下の通り導出される。
predSampleLXC=(fC[xFracC][0]*refPicLXC[Clip3(0,picWC-1,xIntC-1)][yIntC]+
fC[xFracC][1]*refPicLXC[Clip3(0,picWC-1,xIntC)][yIntC]+
fC[xFracC][2]*refPicLXC[Clip3(0,picWC-1,xIntC+1)][yIntC]+
fC[xFracC][3]*refPicLXC[Clip3(0,picWC-1,xIntC+2)][yIntC])>>shift1
-或いは、predSampleLXCの値は以下の通り導出される。
predSampleLXC=(fC[xFracC][0]*refPicLXC[ClipH(xOffsetC,picWC,xIntC-1)][yPosC]+
fC[xFracC][1]*refPicLXC[ClipH(xOffsetC,picWC,xIntC)][yPosC]+
fC[xFracC][2]*refPicLXC[ClipH(xOffsetC,picWC,xIntC+1)][yPosC]+
fC[xFracC][3]*refPicLXC[ClipH(xOffsetC,picWC,xIntC+2)][yPosC])>>shift1
-或いはxFracCが0であり、yFracCが0でなければ、predSampleLXCの値は以下の通り導出される。
-sps_ref_wraparound_enabled_flagが0であれば、xPosCの値は以下の通り導出される。
xPosC=Clip3(0,picWC-1,xIntC)
-或いは、xPosCの値は以下の通り導出される。
xPosC=ClipH(xOffsetC,picWC,xIntC)
-予測されるクロマサンプル値predSampleLXCは以下の通り導出される。
predSampleLXC=(fC[yFracC][0]*refPicLXC[xPosC][Clip3(0,picHC-1,yIntC-1)]+
fC[yFracC][1]*refPicLXC[xPosC][Clip3(0,picHC-1,yIntC)]+
fC[yFracC][2]*refPicLXC[xPosC][Clip3(0,picHC-1,yIntC+1)]+
fC[yFracC][3]*refPicLXC[xPosC][Clip3(0,picHC-1,yIntC+2)])>>shift1
-或いはxFracCが0でなく、かつyFracCが0でなければ、predSampleLXCの値は以下の通り導出される。
-sps_ref_wraparound_enabled_flagが0であれば、n=0~3のサンプル配列temp[n]は以下の通り導出される。
yPosC=Clip3(0,picHC-1,yIntC+n-1)
temp[n]=(fC[xFracC][0]*refPicLXC[Clip3(0,picWC-1,xIntC-1)][yPosC]+
fC[xFracC][1]*refPicLXC[Clip3(0,picWC-1,xIntC)][yPosC]+
fC[xFracC][2]*refPicLXC[Clip3(0,picWC-1,xIntC+1)][yPosC]+
fC[xFracC][3]*refPicLXC[Clip3(0,picWC-1,xIntC+2)][yPosC])>>shift1
-或いは、n=0~3のサンプル配列temp[n]は以下の通り導出される。
yPosC=Clip3(0,picHC-1,yIntC+n-1)
temp[n]=(fC[xFracC][0]*refPicLXC[ClipH(xOffsetC,picWC,xIntC-1)][yPosC]+
fC[xFracC][1]*refPicLXC[ClipH(xOffsetC,picWC,xIntC)][yPosC]+
fC[xFracC][2]*refPicLXC[ClipH(xOffsetC,picWC,xIntC+1)][yPosC]+
fC[xFracC][3]*refPicLXC[ClipH(xOffsetC,picWC,xIntC+2)][yPosC])>>shift1
-予測されるクロマサンプル値predSampleLXCは、以下の通り導出される。
predSampleLXC=(fC[yFracC][0]*temp[0]+
fC[yFracC][1]*temp[1]+
fC[yFracC][2]*temp[2]+
fC[yFracC][3]*temp[3])>>shift2
【0070】
実施形態では、sps_ref_wraparound_enabled_flag(601)が0である、又はsps_ref_wraparound_enabled_flag(601)が存在しない場合は、従来の反復パディングが適用されてもよい。或いは、ラップアラウンドパディングが適用されてもよい。
【0071】
実施形態では、水平境界及び垂直境界の両方でラップアラウンドパディングが適用されてもよい。上位構文構造におけるフラグは、ラップアラウンドパディングが水平及び垂直の両方に適用されたことを示す場合がある。
【0072】
実施形態では、ブリック、タイル、スライス、又はサブ画像境界でラップアラウンドパディングが適用されてもよい。実施形態では、タイルグループ境界でラップアラウンドパディングが適用されてもよい。上位構文構造におけるフラグは、ラップアラウンドパディングが水平及び垂直の両方に適用されたことを示す場合がある。
実施形態では、参照画像は、動き補償予測用の現画像と同一であってもよい。現画像が参照画像のときは、現画像の境界にラップアラウンドパディングが適用されてもよい。
【0073】
図8は、中間候補を使用してマージ候補リストを生成するための、例示的なプロセス800のフローチャートである。いくつかの実施では、デコーダ310によって
図8の1つ以上のプロセスブロックが実行され得る。いくつかの実施では、エンコーダ303等の、デコーダ310とは別の装置、又はデコーダ310を含む一群の装置によって、
図8の1つ以上のプロセスブロックが実行されてもよい。
【0074】
図8に示すように、プロセス800は、現画像に対応する画像分割情報を復号するステップ(ブロック810)を含み得る。
【0075】
図8にさらに示すように、プロセス800は、画像分割情報を使用して、現画像の複数のサブ領域にパディングが適用されるかどうかを決定するステップ(ブロック820)を含み得る。
【0076】
図8にさらに示すように、パディングが適用されないという決定に基づいて、プロセス800は、複数のサブ領域をパディングせずに複数のサブ領域を復号するステップを含んでもよい(ブロック830)。プロセス800は、次に、復号された複数のサブ領域に基づいて、現画像を再構築するステップ(ブロック870)に進んでもよい。
【0077】
図8にさらに示すように、プロセス800は、パディングが適用されるという決定に基づいて、画像分割情報を使用して、パディングがラップアラウンドパディングを含むかどうかを決定するステップ(ブロック840)を含んでもよい。
【0078】
図8にさらに示すように、パディングがラップアラウンドパディングを含まないという決定に基づいて、プロセス800は、複数のサブ領域に反復パディングを適用し、反復パディングを使用して複数のサブ領域を復号するステップ(ブロック850)を含んでもよい。プロセス800は、次に、復号された複数のサブ領域に基づいて、現画像を再構築するステップ(ブロック870)に進んでもよい。
【0079】
図8にさらに示すように、プロセス800は、パディングがラップアラウンドパディングを含むという決定に基づいて、複数のサブ領域にラップアラウンドパディングを適用し、ラップアラウンドパディングを使用して複数のサブ領域を復号するステップ(ブロック860)を含んでもよい。プロセス800は、次に、復号された複数のサブ領域に基づいて、現画像を再構築するステップ(ブロック870)に進んでもよい。
【0080】
実施形態では、画像分割情報は、現画像に対応する画像パラメータセットに含まれてもよい。
【0081】
実施形態では、画像分割情報は、画像パラメータセットに含まれる少なくとも1つのフラグを含む。
【0082】
実施形態では、複数のサブ領域は、ブリック、タイル、スライス、タイルグループ、サブ画像、又はサブ層のうちの少なくとも1つを含む。
【0083】
実施形態では、パディングは、複数のサブ領域のうち、サブ領域の境界に適用されてもよい。
【0084】
実施形態では、境界は、サブ領域の垂直境界であってもよい。
【0085】
実施形態では、境界は、サブ領域の水平境界であってもよい。
【0086】
実施形態では、パディングは、複数のサブ領域のうちのサブ領域の垂直境界、及びサブ領域の水平境界に適用されてもよい。
【0087】
実施形態では、画像分割情報は、ラップアラウンドパディングのオフセット値を示し得る。
【0088】
実施形態では、画像分割情報は、左パディング幅情報及び右パディング幅情報を示し得る。
【0089】
図8はプロセス800の例示的なブロックを示しているが、いくつかの実施では、プロセス800は、追加のブロック、より少ないブロック、異なるブロック、又は
図8に示すものとは異なるように配置されたブロックを含んでもよい。これに加えて、又はこれに代えて、プロセス800の2つ以上のブロックが並行して実行されてもよい。
【0090】
また、提案されている方法は、処理回路(例えば、1つ以上のプロセッサ又は1つ以上の集積回路)によって実施されてもよい。一例では、1つ以上のプロセッサは、提案されている方法の1つ以上を実行するために、非一時的なコンピュータ可読媒体に記憶されているプログラムを実行する。
【0091】
前述した技術は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実施でき、1つ以上のコンピュータ可読媒体に物理的に記憶される。例えば、
図9は、開示される主題のいくつかの実施形態の実施に適したコンピュータシステム900を示す。
【0092】
コンピュータソフトウェアは、任意の適切な機械コード又はコンピュータ言語を使用して符号化でき、これは、コンピュータ中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)などによって、直接、又は解釈、マイクロコードの実行などを介して実行できる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクなどの機構に従ってもよい。
【0093】
命令は、パソコン、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、IoT(internet of things)装置など、さまざまな種類のコンピュータ又はその構成要素で実行することができる。
【0094】
図9に示すコンピュータシステム900の構成要素は本来例示的であって、本開示の実施形態を実施するコンピュータソフトウェアの使用又は機能の範囲に対して、限定を示唆することは意図されていない。構成要素の構成は、コンピュータシステム900の例示的な実施形態に示されている構成要素のいずれか1つ、又は構成要素の組合せに関して、依存性を有するものとも要件を有するものとも解釈されてはならない。
【0095】
コンピュータシステム900は、いくつかの人的インターフェース入力装置を備えてもよい。このような人的インターフェース入力装置は、例えば、触覚入力(キーを押す、スワイプする、データグローブを動かすなど)、音声入力(声、手をたたくなど)、視覚入力(身振りなど)、嗅覚入力(図示せず)による、1人以上のユーザによる入力に応答し得る。人的インターフェース装置は、音声(発話、音楽、周囲音など)、画像(走査画像、静止画カメラで取得される写真画像など)、映像(二次元映像、立体映像を含む三次元映像など)などの人による意識的な入力に必ずしも直接関与しない、いくつかの媒体の捕捉にさらに使用することができる。
【0096】
入力人的インターフェース装置は、キーボード901、マウス902、トラックパッド903、タッチスクリーン910、関連したグラフィックアダプタ950、データグローブ1204、ジョイスティック905、マイク906、スキャナ907、カメラ908のうちの1つ以上を含んでもよい(それぞれ1つのみが図示されている)。
【0097】
コンピュータシステム900は、いくつかの人的インターフェース出力装置を備えてもよい。このような人的インターフェース出力装置は、触覚出力、音声、光、及び臭い/味など、1人以上のユーザの感覚を刺激し得る。このような人的インターフェース出力装置は、触覚出力装置(例えば、タッチスクリーン910、データグローブ1204、又はジョイスティック905による触覚フィードバック、ただし入力装置として機能しない触覚フィードバック装置もあり得る)、音声出力装置(スピーカ909、ヘッドホン(図示せず))、視覚出力装置(それぞれがタッチスクリーン入力能力を有するか又は有さず、それぞれが触覚フィードバック能力を有するか又は有さず、そのうちのいくつかは二次元映像出力、又は立体出力などの手段によって三次元を上回る出力を出力可能であってもよい、ブラウン管(CRT)スクリーン、液晶表示(LCD)スクリーン、プラズマスクリーン、有機発光ダイオード(OLED)スクリーンを含むスクリーン910など、VRグラス(図示せず)、ホログラフィック表示、煙発生装置(smoke tank(図示せず))、並びにプリンタ(図示せず))を含んでもよい。
【0098】
コンピュータシステム900は、人的にアクセス可能な記憶装置、及びCD/DVDなどの媒体921を含むCD/DVD ROM/RW920、USBメモリ(thumb-drive)922、取り外し可能なハードドライブ又はソリッドステートドライブ923、テープ及びフロッピーディスクなどのレガシー磁気媒体(図示せず)、セキュリティドングルなどの専門化されたROM/ASIC/PLDに基づく装置(図示せず)を含む光学媒体などの、その関連媒体をさらに含むことができる。
【0099】
ここで開示されている主題に関して使用される「コンピュータ可読媒体」という用語は、伝送媒体、搬送波その他の一時的な信号は含まないことを当業者にはさらに理解されたい。
【0100】
コンピュータシステム900は、1つ以上の通信ネットワーク955に対するインターフェースをさらに備えることができる。ネットワークは、例えば、無線、有線、光であってもよい。ネットワークはさらに、ローカル、広域、メトロポリタン、車載及び産業用、リアルタイム、遅延耐性などであってもよい。ネットワークの例は、イーサネットなどのローカルエリアネットワーク、無線LAN、汎欧州デジタル移動電話方式(GSM)、第3世代(3G)、第4世代(4G)、第5世代(5G)、ロングタームエボリューション(LTE)などを含む移動体通信ネットワーク、ケーブルテレビ、衛星テレビ、及び地上波テレビを含む有線テレビ又は無線の広域デジタルネットワーク、車載及びCANBusを含む産業用ネットワークなどを含む。いくつかのネットワークは一般に、いくつかの汎用データポート又は周辺バス(949)(例えば、コンピュータシステム900のユニバーサルシリアルバス(USB)ポート)に取り付けられる外部ネットワークインターフェースアダプタ(954)を必要とし、他のネットワークは一般に、後述するようにシステムバスに取り付けることによって(例えば、イーサネットインターフェースをPCコンピュータシステムに、又は移動体通信ネットワークインターフェースをスマートフォンのコンピュータシステムに)、コンピュータシステム900のコアに統合される。例として、ネットワーク955は、ネットワークインターフェース954を使用して、周辺バス949に接続されてもよい。このような任意のネットワークを使用して、コンピュータシステム900は他のエンティティと通信することができる。このような通信は、一方向通信、受信専用通信(例えば、テレビ放送)、一方向送信専用通信(例えば、CANbusからCANbusに送信する装置)、或いは、例えば、ローカル又は広域デジタルネットワークを使用する、他のコンピュータシステムに対する双方向通信であってもよい。前述したように、いくつかのプロトコル及びプロトコルスタックをこのような各ネットワーク及び各ネットワークインターフェース(954)に使用することができる。
【0101】
前述した人的インターフェース装置、人的にアクセス可能な記憶装置、及びネットワークインターフェースは、コンピュータシステム900のコア940に取り付けることができる。
【0102】
コア940は、1つ以上の中央処理ユニット(CPU)941、グラフィック処理ユニット(GPU)942、FPGA(Field Programmable Gate Areas)の形態の専門化されたプログラム可能処理ユニット943、いくつかのタスク用のハードウェアアクセラレータ944などを含むことができる。このような装置は、読出し専用メモリ(ROM)945、ランダムアクセスメモリ(RAM)946、内部のユーザがアクセスできないハードドライブ、ソリッドステートドライブ(SSD)など947の内部大容量記憶装置とともに、システムバス1248を介して接続されてもよい。いくつかのコンピュータシステムでは、システムバス1248は、追加のCPU、GPUなどによる拡張が可能なように、1つ以上の物理プラグの形態でアクセスすることができる。周辺装置は、コアのシステムバス1248に直接取り付ける、又は周辺バス949を介して取り付けることができる。周辺バスのアーキテクチャは、周辺機器内部接続(PCI)、USBなどを含む。
【0103】
CPU941、GPU942、FPGA943、及びアクセラレータ944は、前述したコンピュータコードを作成できるいくつかの命令を、組み合わせて実行することができる。コンピュータコードは、ROM945又はRAM946に記憶させることができる。過渡的なデータもRAM946に記憶でき、これに反し永続的なデータは、例えば、内部大容量記憶装置947に記憶することができる。キャッシュメモリを使用することによって、任意のメモリ装置に素早く記憶し検索することが可能になり、1つ以上のCPU941、GPU942、大容量記憶装置947、ROM945、RAM946などに密接に関連付けることができる。
【0104】
コンピュータ可読媒体は、さまざまなコンピュータ実施動作を実行するためのコンピュータコードを有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計され構築されたものにすることができ、或いはコンピュータソフトウェアの分野の当業者によく知られ、当業者が使用可能な種類のものであってもよい。
【0105】
例として、かつ制限する目的ではなく、アーキテクチャ900、具体的にはコア940を有するコンピュータシステムは、1つ以上の有形のコンピュータ可読媒体に具体化されたソフトウェアを実行する、(複数の)プロセッサ(CPU、GPU、FPGA、アクセラレータなど)の結果としての機能性を提供することができる。このようなコンピュータ可読媒体は、先に紹介したようなユーザがアクセス可能な大容量記憶装置、並びにコア内部大容量記憶装置947又はROM945などの、非一時的な性質をもつ、コア940のいくつかの記憶装置に関連する媒体であってもよい。本開示のさまざまな実施形態を実施するソフトウェアは、このような装置に記憶させて、コア940によって実行することができる。コンピュータ可読媒体は、特定の需要に従って、1つ以上のメモリ装置又はチップを含むことができる。ソフトウェアは、コア940及び具体的にはその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM946に記憶されているデータ構造の定義、及びソフトウェアによって定義された工程に従ったこのようなデータ構造の変更を含む、本明細書で説明する特定の工程、又は特定の工程の特定の部分を実行させることができる。これに加えて、又はこれに代えて、コンピュータシステムは、回路(例えば、アクセラレータ944)に配線された、或いは回路で具体化された論理の結果としての機能性を提供でき、本明細書で説明する特定の工程、又は特定の工程の特定の部分を実行するために、ソフトウェアの代わりに、又はソフトウェアとともに動作させることができる。ソフトウェアに対する言及は、必要に応じて論理を包含することができ、その逆もまた可能である。コンピュータ可読媒体に対する言及は、必要に応じて実行するソフトウェアを記憶する(集積回路(IC)などの)回路、実行する論理を具体化する回路、又はその両方を包含することができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組合せを包含する。
【0106】
本開示は、いくつかの例示的な実施形態について説明してきたが、変更、置換、及びさまざまな代替的な等価物があり、これらは本開示の範囲内に含まれる。したがって当業者であれば、本明細書に明確に図示又は説明されていなくても、本開示の原理を具体化し、したがってその原理と範囲内に含まれる多くのシステム及び方法を考案できることは理解されよう。
【符号の説明】
【0107】
101 H.264によるNALユニットヘッダの構文解析図
102 H.265によるNALユニットヘッダの構文解析図
200 通信システム
210 第1の端末
220 第2の端末
230 端末
240 端末
250 通信ネットワーク
301 映像ソース(カメラ)
302 映像サンプルストリーム
303 エンコーダ
304 映像ビットストリーム
305 ストリーミングサーバ
306 ストリーミングクライアント
307 映像ビットストリームのコピー
308 ストリーミングクライアント
309 映像ビットストリームのコピー
310 デコーダ
311 映像サンプルストリーム
312 表示装置
313 捕捉サブシステム
410 受信機
412 チャネル
415 バッファメモリ
420 構文解析器(映像デコーダ)
421 シンボル
451 スケーラ/逆変換ユニット
452 イントラ画像予測ユニット
453 動き補償予測ユニット
455 集約装置
456 ループフィルタユニット
457 参照画像バッファ、参照画像メモリ
458 現在の参照画像
530 ソースエンコーダ、映像エンコーダ
532 符号化エンジン
533 ローカル映像デコーダ
534 参照画像メモリ、参照画像キャッシュ
535 予測子
540 送信機
543 映像シーケンス
545 エントロピーエンコーダ
550 コントローラ
560 通信チャネル
601 seq_parameter_set_rbsp()
602 sps_ref_wraparound_enabled_flag
603 ref_wraparound_offset
701 seq_parameter_set_rbsp()
702 sps_ref_wraparound_enabled_flag
703 left_wraparound_padding_width
704 right_wraparound_padding_width
800 プロセス
900 コンピュータシステム
901 キーボード
902 マウス
903 トラックパッド
905 ジョイスティック
906 マイク
907 スキャナ
908 カメラ
909 音声出力装置
910 タッチスクリーン
920 光学媒体
921 CD/DVDなどの媒体
922 USBメモリ
923 ソリッドステートドライブ
940 コア
941 中央処理ユニット(CPU)
942 グラフィック処理ユニット(GPU)
943 FPGA
944 アクセラレータ
945 読出し専用メモリ(ROM)
946 ランダムアクセスメモリ(RAM)
947 大容量記憶装置
949 周辺バス
950 グラフィックアダプタ
954 ネットワークインターフェース
955 通信ネットワーク
1248 システムバス
【外国語明細書】