(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-05-20
(54)【発明の名称】参照ピクチャー再サンプリングのための出力ピクチャー・サイズの信号伝達に関する方法、装置およびコンピュータ・プログラム
(51)【国際特許分類】
H04N 19/132 20140101AFI20220513BHJP
H04N 19/70 20140101ALI20220513BHJP
H04N 19/172 20140101ALI20220513BHJP
【FI】
H04N19/132
H04N19/70
H04N19/172
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021559110
(86)(22)【出願日】2020-11-09
(85)【翻訳文提出日】2021-10-01
(86)【国際出願番号】 US2020059695
(87)【国際公開番号】W WO2021137944
(87)【国際公開日】2021-07-08
(32)【優先日】2019-12-31
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-10-05
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】チョイ,ビョンドゥ
(72)【発明者】
【氏名】ウェンジャー,ステファン
(72)【発明者】
【氏名】リィウ,シャン
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159LB05
5C159MA04
5C159MA05
5C159MA21
5C159MC11
5C159ME01
5C159PP16
5C159RC12
5C159TA06
5C159UA02
5C159UA05
5C159UA16
(57)【要約】
プロセッサ(単数または複数)に、メタデータおよびビデオ・データを含む入力ビットストリームを取得する段階と;前記ビデオ・データをデコードする段階と;前記メタデータが、前記ビデオ・データの少なくとも1つのピクチャーのピクチャー・サイズの少なくとも1つの成分を信号伝達する少なくとも1つのフラグを含むかどうかを判定する段階と;前記メタデータが前記少なくとも1つのフラグを含むと判定された場合に、前記ビデオ・データからの前記少なくとも1つのピクチャーを前記少なくとも1つのフラグに従って表示するよう表示装置に信号伝達する段階とを実行させるように構成されたコンピュータ・コードを含む方法および装置が含まれる。
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサによって実行される、ビデオ・デコードのための方法であって、当該方法は:
メタデータおよびビデオ・データを含む入力ビットストリームを取得する段階と;
前記ビデオ・データをデコードする段階と;
前記メタデータが、前記ビデオ・データの少なくとも1つのピクチャーのピクチャー・サイズの少なくとも1つの成分を信号伝達する少なくとも1つのフラグを含むかどうかを判定する段階と;
前記メタデータが前記少なくとも1つのフラグを含むと判定された場合に、前記ビデオ・データからの前記少なくとも1つのピクチャーを前記少なくとも1つのフラグに従って表示するよう表示装置に信号伝達する段階とを含む、
方法。
【請求項2】
前記ビデオ・データは、多用途ビデオ符号化(VVC)フォーマットでエンコードされている、
請求項1に記載の方法。
【請求項3】
少なくとも1つのフラグが、事前設定され、前記メタデータによって示される前記成分の値に従って前記ピクチャー・サイズで前記少なくとも1つのピクチャーを表示するかどうかを指定する、
請求項1または2に記載の方法。
【請求項4】
前記成分は、前記少なくとも1つのピクチャーの幅および高さのうちの少なくとも1つを含む、
請求項1ないし3のうちいずれか一項に記載の方法。
【請求項5】
前記少なくとも1つのピクチャーの幅および高さのうちの前記少なくとも1つは、ルーマ・サンプルの単位で表わされる、
請求項4に記載の方法。
【請求項6】
前記メタデータが前記少なくとも1つのフラグを含むと判定することに応答して:
前記メタデータが、前記少なくとも1つのピクチャーを含む複数のピクチャーに関する幅を指定する幅値を含み、
前記メタデータが、前記複数のピクチャーに関する高さを指定する高さ値を含むかどうかを判定する段階をさらに含み、
前記成分の値の少なくとも1つは、前記幅および前記高さのうちの少なくとも1つを含む、
請求項1ないし5のうちいずれか一項に記載の方法。
【請求項7】
前記メタデータが前記幅値および前記高さ値のうちの少なくとも1つを含むと判定することに応答して、前記表示装置による前記少なくとも1つのピクチャーの表示について前記幅値および前記高さ値のうちの前記少なくとも1つを維持するよう、少なくとも1つのポスト再サンプリング・プロセスに信号伝達する段階をさらに含む、
請求項6に記載の方法。
【請求項8】
前記メタデータに前記幅値が存在しないと判定することに応答して、前記ビデオ・データのシーケンスパラメータセットによって示される大きさにおいて前記幅値を維持するよう、前記少なくとも1つのポスト再サンプリング・プロセスに信号伝達する段階をさらに含む、
請求項6または7に記載の方法。
【請求項9】
前記メタデータに前記高さ値が存在しないと判定することに応答して、前記ビデオ・データのシーケンスパラメータセットによって示される大きさにおいて前記高さ値を維持するよう、前記少なくとも1つのポスト再サンプリング・プロセスに信号伝達する段階をさらに含む、
請求項6または7に記載の方法。
【請求項10】
前記ビデオ・データは、前記少なくとも1つのフラグをビデオ使用情報(VUI)パラメータとして含む、
請求項6に記載の方法。
【請求項11】
請求項1ないし10のうちいずれか一項に記載の方法を実行するように構成された、ビデオ・デコードのための装置。
【請求項12】
コンピュータに請求項1ないし10のうちいずれか一項に記載の方法を実行させるためのコンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2019年12月31日に出願された米国仮特許出願第62/955,514号および2020年10月5日に出願された米国特許出願第17/063,253号に基づく優先権を主張するものである。それらの全体が本明細書に組み込まれる。
【0002】
1.分野
本開示は、一定のピクチャー・サイズ情報を、たとえばビデオ使用情報(video usage information、VUI)において信号伝達することに向けられ、ここで、例示的実施形態によれば、そのような情報は、本稿に記載される他の情報のなかでも、参照ピクチャー再サンプリング(reference picture resampling、RPR)のような処理に関して、表示のためのガイドされた出力ピクチャー・サイズを示しうる。これは、一つまたは複数の異なる幅および高さ値のいずれかを有する一つまたは複数のクロッピングされたピクチャーを伴っていてもいなくてもよい。
【背景技術】
【0003】
2.関連技術の説明
多用途ビデオ符号化(versatile video coding、VVC)仕様草案JVET-P2001(JVET-Q0041により編集上更新された)では、RPRは一つまたは複数のデコードされたピクチャーの空間解像度の変更を可能にしうる。ピクチャーパラメータセット(picture parameter set、PPS)において信号伝達されるピクチャー幅および高さならびにクロッピング窓オフセット値に依存して、各出力ピクチャーは、他の出力ピクチャーとは異なるピクチャー・サイズを有することがある。しかしながら、そのような特徴は、表示装置が、たとえば後処理として、表示装置の表示解像度に適合するよう出力ピクチャーを一定のピクチャー・サイズに再スケーリングする機能を有することを要求することに依存しており、不都合である。
【0004】
そのような後処理は、不都合なことに、純粋に各表示装置の役割であり、よって、表示装置における、表示装置表示分解能のような出力表示の前処理制御のための能力を技術的に制限する。たとえば、いくつかのコンテンツ・サービス・シナリオでは、コンテンツ・プロバイダーは、技術的な制限により、提供したコンテンツが特定の解像度によって消費される、または少なくとも出力されるようにすることを妨げられることがあり、さらには、たとえば監督の意図に従って、表示のための最良のもしくは推奨される解像度を示すことさえ妨げられることもある。
【0005】
さらに、JVET-N0052でさえも、そのようなプロセス(単数または複数)を後処理としてデコード・プロセスから切り離すために、SPSにおいて(一定の)出力ピクチャー・サイズを信号伝達することを拒否した。
【0006】
したがって、そのような問題に対する技術解決策が望まれる。
【発明の概要】
【発明が解決しようとする課題】
【0007】
監督の意図のような意図を伝えること、および、後処理のためのディスプレイの自由を残すことという一つまたは複数の異なる要件に対処するために、本発明者らは、VUIにおいて一定の出力ピクチャー・サイズのいずれかを、たとえば情報提供用のメタデータ(informative metadata)として信号伝達することを含む技術的解決策を本明細書に開示する。実施形態によれば、エンドユーザーの装置は、いまだ、表示ピクチャー解像度を選択する自由を有することができ、一方、任意的に、監督の提案を受け入れることもできる。
【0008】
コンピュータ・プログラム・コードを記憶するように構成されたメモリと、該コンピュータ・プログラム・コードにアクセスし、該コンピュータ・プログラム・コードによって命令されるように動作するように構成されたプロセッサ(単数または複数)とを有する方法および装置が含まれる。コンピュータ・プログラム・コードは、前記少なくとも1つのプロセッサに、メタデータおよびビデオ・データを含む入力ビットストリームを取得させるように構成された取得コードと、前記少なくとも1つのプロセッサに、前記ビデオ・データをデコードさせるように構成されたデコード・コードと、前記少なくとも1つのプロセッサに、前記メタデータが、前記ビデオ・データの少なくとも1つのピクチャーのピクチャー・サイズの少なくとも1つの成分を信号伝達する少なくとも1つのフラグを含むかどうかを決定させるように構成された決定コードと、前記メタデータが前記少なくとも1つのフラグを含むと決定された場合に、前記少なくとも1つのプロセッサに、前記ビデオ・データからの前記少なくとも1つのピクチャーを前記少なくとも1つのフラグに従って表示するよう表示装置に信号伝達させるように構成された信号伝達コードとを含む。
【0009】
例示的な実施形態によれば、ビデオ・データは、多用途ビデオ符号化(VVC)フォーマットでエンコードされる。
【0010】
例示的な実施形態によれば、前記少なくとも1つのフラグは、事前設定され、前記メタデータによって示される前記成分の値に従って前記ピクチャー・サイズで前記少なくとも1つのピクチャーを表示するかどうかを指定する。
【0011】
例示的な実施形態によれば、前記成分は、前記少なくとも1つのピクチャーの幅および高さのうちの少なくとも1つを含む。
【0012】
例示的な実施形態によれば、前記少なくとも1つのピクチャーの幅および高さのうちの前記少なくとも1つは、ルーマ・サンプルの単位を含む。
【0013】
例示的な実施形態によれば、前記決定コードは、前記メタデータが前記少なくとも1つのフラグを含むと決定することに応答して、前記メタデータが、前記少なくとも1つのピクチャーを含む複数のピクチャーに関する幅を指定する幅値を含むかどうか、および、
前記メタデータが、前記複数のピクチャーに関する高さを指定する高さ値を含むかどうかを、前記少なくとも1つのプロセッサに決定させるようにさらに構成される。例示的実施形態によれば、前記成分の値の少なくとも1つは、幅および高さのうちの少なくとも1つを含む。
【0014】
例示的な実施形態によれば、前記信号伝達コードは、前記少なくとも1つのプロセッサに、前記メタデータが前記幅値および前記高さ値のうちの少なくとも1つを含むと決定することに応答して、前記表示装置による前記少なくとも1つのピクチャーの表示について前記幅値および前記高さ値のうちの前記少なくとも1つを維持するよう、少なくとも1つのポスト再サンプリング・プロセス(post-resampling process)に信号伝達させるようにさらに構成される。
【0015】
例示的な実施形態によれば、前記信号伝達コードは、前記少なくとも1つのプロセッサに、前記メタデータに前記幅値が存在しないと決定することに応答して、前記ビデオ・データのシーケンスパラメータセットによって示される高さにおいて前記幅値を維持するよう、前記少なくとも1つのポスト再サンプリング・プロセス(post-resampling process)に信号伝達させるようにさらに構成される。
【0016】
例示的な実施形態によれば、前記信号伝達コードは、前記少なくとも1つのプロセッサに、前記メタデータに前記高さ値が存在しないと決定することに応答して、前記ビデオ・データのシーケンスパラメータセットによって示される高さにおいて前記高さ値を維持するよう、前記少なくとも1つのポスト再サンプリング・プロセス(post-resampling process)に信号伝達させるようにさらに構成される。
【0017】
例示的な実施形態によれば、前記ビデオ・データは、前記少なくとも1つのフラグをビデオ使用情報(VUI)パラメータとして含む。
【図面の簡単な説明】
【0018】
開示された主題のさらなる特徴、性質、およびさまざまな利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
【0019】
【0020】
【
図10】実施形態による簡略化されたブロック図である。
【0021】
【0022】
【発明を実施するための形態】
【0023】
以下で議論される提案された特徴は、別々に、または任意の順序で組み合わせて使用されうる。さらに、実施形態は、処理回路(たとえば、一つまたは複数のプロセッサまたは一つまたは複数の集積回路)によって実装されてもよい。一例では、一つまたは複数のプロセッサは、非一時的なコンピュータ読み取り可能媒体に格納されたプログラムを実行する。
【0024】
図1は、本開示のある実施形態による通信システム100の簡略化されたブロック図を示す。通信システム100は、ネットワーク105を介して相互接続された少なくとも2つの端末102および103を含んでいてもよい。データの一方向伝送については、第1の端末103は、ネットワーク105を介した他方の端末102への伝送のために、ローカル位置においてビデオ・データを符号化することができる。第2の端末102は、ネットワーク105から他方の端末の符号化されたビデオ・データを受信し、符号化されたデータをデコードし、回復されたビデオ・データを表示することができる。一方向性データ伝送は、メディア・サービス・アプリケーション等において一般的でありうる。
【0025】
図1は、たとえば、ビデオ会議中に発生しうる符号化されたビデオの双方向伝送をサポートするために設けられた端末101および104の第2の対を示す。データの双方向伝送については、各端末101および104は、ローカル位置で捕捉されたビデオ・データを、ネットワーク105を介した他方の端末への伝送のために符号化することができる。各端末101および104はまた、他方の端末によって送信された符号化されたビデオ・データを受信し、符号化されたデータをデコードし、回復されたビデオ・データをローカル表示装置において表示することができる。
【0026】
図1において、端末101、102、103および104は、サーバー、パーソナルコンピュータおよびスマートフォンとして図示されてもよいが、本開示の原理は、それに限定されるものではない。本開示の実施形態は、ラップトップ・コンピュータ、タブレット・コンピュータ、メディアプレーヤー、および/または専用のビデオ会議設備との応用を見出す。ネットワーク105は、たとえば有線および/または無線通信ネットワークを含む、端末101、102、103、および104の間で、符号化されたビデオ・データを伝達する任意の数のネットワークを表わす。通信ネットワーク105は、回線交換および/またはパケット交換チャネルにおいてデータを交換することができる。代表的なネットワークは、遠隔通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび/またはインターネットを含む。今の議論の目的のためには、ネットワーク105のアーキテクチャーおよびトポロジーは、下記で説明しない限り、本開示の動作には重要ではないことがある。
【0027】
図2は、開示された主題の適用のための例として、ストリーミング環境におけるビデオ・エンコーダおよびデコーダの配置を示す。開示された主題は、たとえば、ビデオ会議、デジタルTV、CD、DVD、メモリースティックなどを含むデジタルメディア上の圧縮ビデオの記憶などを含む、他のビデオ対応アプリケーションにも等しく適用可能でありうる。
【0028】
ストリーミング・システムは、ビデオ源201、たとえばデジタル・カメラを含むことができ、たとえば非圧縮のビデオ・サンプル・ストリーム213を生成する捕捉サブシステム203を含んでいてもよい。サンプル・ストリーム213は、エンコードされたビデオ・データと比較した場合の高いデータ・ボリュームとして強調されてもよく、カメラ201に結合されたエンコーダ202によって処理されることができる。エンコーダ202は、以下により詳細に説明されるように、開示される主題の諸側面を可能にし、または実現するためのハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。サンプル・ストリームと比較した場合の、より低いデータ・ボリュームとして強調されてもよいエンコードされたビデオ・ビットストリーム204は、将来の使用のためにストリーミング・サーバー205に記憶されることができる。一つまたは複数のストリーミング・クライアント217および207は、ストリーミング・サーバー205にアクセスして、エンコードされたビデオ・データ204のコピー208および206を取り出すことができる。クライアント212は、ビデオ・デコーダ211を含むことができる。ビデオ・デコーダ211は、エンコードされたビデオ・ビットストリーム208の入来コピーをデコードし、ディスプレイ209または他のレンダリング装置(図示せず)上にレンダリングできるビデオ・サンプル・ストリーム210を生成する。いくつかのストリーミング・システムでは、ビデオ・ビットストリーム204、206、208は、ある種のビデオ符号化/圧縮標準に従ってエンコードされることができる。これらの標準の例は上記されており、ここではさらに記載されない。
【0029】
図3は、本開示のある実施形態によるビデオ・デコーダ300の機能ブロック図であってもよい。
【0030】
受領機302は、デコーダ300によってデコードされるべき一つまたは複数の符号化されたビデオ・シーケンスを受領してもよい;同じまたは別の実施形態において、一度に1つの符号化されたビデオ・シーケンスであり、各符号化されたビデオ・シーケンスのデコードは、他の符号化されたビデオ・シーケンスから独立である。符号化されたビデオ・シーケンスは、チャネル301から受信されてもよく、該チャネルは、エンコードされたビデオ・データを記憶する記憶装置へのハードウェア/ソフトウェア・リンクであってもよい。受領機302は、エンコードされたビデオ・データを、他のデータ、たとえば符号化されたオーディオ・データおよび/または補助データ・ストリームと一緒に受領してもよく、これらのデータは、それぞれの使用エンティティ(図示せず)を転送されてもよい。受領機302は、符号化されたビデオ・シーケンスを他のデータから分離することができる。ネットワーク・ジッタ対策として、バッファメモリ303が、受領器302とエントロピー・デコーダ/パーサー304(以下「パーサー」)との間に結合されてもよい。受領器302が、十分な帯域幅および制御可能性の記憶/転送装置から、またはアイソクロナス・ネットワークからデータを受領している場合は、バッファ303は、必要とされなくてもよく、または小さくてもよい。インターネットのようなベストエフォート型のパケット・ネットワークでの使用のためには、バッファ303が要求されることがあり、比較的大きいことがあり、有利には適応サイズであることができる。
【0031】
ビデオ・デコーダ300は、エントロピー符号化されたビデオ・シーケンスからシンボル313を再構成するためのパーサー304を含んでいてもよい。これらのシンボルのカテゴリーは、デコーダ300の動作を管理するために使用される情報と、潜在的には、ディスプレイ312のようなレンダリング装置を制御するための情報とを含む。レンダリング装置は、デコーダの一体的な部分ではなく、デコーダに結合されることができる。レンダリング装置(単数または複数)のための制御情報は、補足向上情報(Supplementary Enhancement Information、SEIメッセージ)またはビデオユーザービリティ情報(Video Usability Information)パラメータ・セット・フラグメント(図示せず)の形であってもよい。パーサー304は、受領された符号化されたビデオ・シーケンスをパースする/エントロピー復号することができる。符号化されたビデオ・シーケンスの符号化は、ビデオ符号化技術または標準に従うことができ、可変長符号化、ハフマン符号化、コンテキスト感受性ありまたはなしの算術符号化などを含む、当業者によく知られたさまざまな原理に従うことができる。パーサー304は、符号化されたビデオ・シーケンスから、ビデオ・デコーダ内のピクセルのサブグループのうちの少なくとも1つについてのサブグループ・パラメータのセットを、グループに対応する少なくとも1つのパラメータに基づいて、抽出することができる。サブグループは、ピクチャーグループ(Group of Pictures、GOP)、ピクチャー、タイル、スライス、マクロブロック、符号化単位(Coding Unit、CU)、ブロック、変換単位(Transform Unit、TU)、予測単位(Prediction Unit、PU)などを含むことができる。エントロピー・デコーダ/パーサーも、符号化されたビデオ・シーケンスから、変換係数、量子化器パラメータ値、動きベクトル等の情報を抽出することができる。
【0032】
パーサー304は、バッファ303から受領されたビデオ・シーケンスに対してエントロピー・デコード/パース動作を実行し、それによりシンボル313を生成することができる。パーサー304は、エンコードされたデータを受領し、特定の諸シンボル313を選択的にデコードしてもよい。さらに、パーサー304は、特定の諸シンボル313が動き補償予測ユニット306、スケーラー/逆変換ユニット305、イントラ予測ユニット307またはループ・フィルタ311のいずれに与えられるべきかを決定してもよい。
【0033】
シンボル313の再構成は、符号化されたビデオ・ピクチャーまたはその諸部分のタイプ(たとえば、インターおよびイントラ・ピクチャー、インターおよびイントラ・ブロック)および他の要因に依存して、複数の異なるユニットに関わることができる。どのユニットがどのように関わるかは、符号化されたビデオ・シーケンスからパーサー304によってパースされたサブグループ制御情報によって制御されることができる。パーサー304と下記の複数のユニットとの間のそのようなサブグループ制御情報の流れは、明確のため、描かれていない。
【0034】
すでに述べた機能ブロックのほかに、デコーダ300は、以下に説明するように、概念的に、いくつかの機能ユニットに分割できる。商業的制約の下で機能する実際的な実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合されることができる。しかしながら、開示される主題を記述する目的のためには、下記の機能単位への概念的な細分が適切である。
【0035】
第1のユニットは、スケーラー/逆変換ユニット305である。スケーラー/逆変換ユニット305は、パーサー304から、量子化された変換係数および制御情報をシンボル(単数または複数)313として受領する。制御情報は、どの変換を使用するか、ブロック・サイズ、量子化因子、量子化スケーリング行列などを含む。スケーラー/逆変換ユニットは、集計器310に入力できるサンプル値を含むブロックを出力することができる。
【0036】
場合によっては、スケーラー/逆変換305の出力サンプルは、イントラ符号化されたブロック、すなわち、以前に再構成されたピクチャーからの予測情報を使用していないが、現在ピクチャーの、以前に再構成された部分からの予測情報を使用することができるブロックに関することができる。そのような予測情報は、イントラ・ピクチャー予測ユニット307によって提供されることができる。場合によっては、イントラ・ピクチャー予測ユニット307は、現在の(部分的に再構成された)ピクチャー309から取ってきた、周囲のすでに再構成された情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成する。集計器310は、場合によっては、サンプル毎に、イントラ予測ユニット307が生成した予測情報を、スケーラー/逆変換ユニット305によって提供される出力サンプル情報に加算する。
【0037】
他の場合には、スケーラー/逆変換ユニット305の出力サンプルは、インター符号化され、潜在的には動き補償されたブロックに関することができる。そのような場合、動き補償予測ユニット306は、予測のために使用されるサンプルを取ってくるために参照ピクチャー・メモリ308にアクセスすることができる。取ってきたサンプルを、ブロックに関するシンボル313に従って動き補償した後、これらのサンプルは、集計器310によってスケーラー/逆変換ユニットの出力(この場合、残差サンプルまたは残差信号と呼ばれる)に加算されて、それにより出力サンプル情報を生成することができる。動き補償ユニットが予測サンプルを取ってくる参照ピクチャー・メモリ内のアドレスは、シンボル313の形で動き補償ユニットに利用可能な動きベクトルによって制御できる。該シンボルは、たとえばX、Y、および参照ピクチャー成分を有することができる。動き補償は、サンプル以下の正確な動きベクトルが使用されるときの参照ピクチャー・メモリから取ってこられるサンプル値の補間、動きベクトル予測機構などを含むことができる。
【0038】
集計器310の出力サンプルは、ループ・フィルタ・ユニット311内でさまざまなループ・フィルタリング技法を受けることができる。ビデオ圧縮技術は、ループ内フィルタ技術を含むことができる。ループ内フィルタ技術は、符号化されたビデオ・ビットストリームに含まれるパラメータによって制御され、パーサー304からのシンボル313としてループ・フィルタ・ユニット311に利用可能にされるが、符号化されたピクチャーまたは符号化されたビデオ・シーケンスの(デコード順で)前の部分のデコード中に得られたメタ情報に応答するとともに、以前に再構成されループ・フィルタリングされたサンプル値に応答することもできる。
【0039】
ループ・フィルタ・ユニット311の出力はサンプル・ストリームであることができ、これは、レンダー装置312に出力されることができ、また将来のインターピクチャー予測において使用するために参照ピクチャー・メモリ557に記憶されることができる。
【0040】
符号化されたピクチャーは、いったん完全に再構成されると、将来の予測のための参照ピクチャーとして使用できる。たとえば、符号化されたピクチャーが完全に再構成され、該符号化されたピクチャーが(たとえば、パーサー304によって)参照ピクチャーとして同定されると、現在の参照ピクチャー309は参照ピクチャー・バッファ308の一部となることができ、後続の符号化されたピクチャーの再構成を開始する前に、新鮮な現在ピクチャー・メモリが再割当てされることができる。
【0041】
ビデオ・デコーダ300は、ITU-T勧告H.265のような標準において文書化されていてもよい所定のビデオ圧縮技術に従ってデコード動作を実行することができる。符号化されたビデオ・シーケンスは、ビデオ圧縮技術の文書もしくは標準において、特にその中のプロファイル文書において指定されているビデオ圧縮技術または標準のシンタックスに従うという意味で、使用されているビデオ圧縮技術または標準によって指定されたシンタックスに準拠することができる。準拠のためにはまた、符号化されたビデオ・シーケンスの複雑さが、ビデオ圧縮技術または標準のレベルによって定義される範囲内にあることも必要であることがある。いくつかの場合には、レベルは、最大ピクチャー・サイズ、最大フレーム・レート、最大再構成サンプル・レート(たとえば、毎秒メガサンプルの単位で測られる)、最大参照ピクチャー・サイズなどを制約する。レベルによって設定された限界は、場合によっては、符号化されたビデオ・シーケンスにおいて信号伝達される、HRDバッファ管理のための仮設参照デコーダ(Hypothetical Reference Decoder、HRD)仕様およびメタデータを通じてさらに制約されることができる。
【0042】
ある実施形態において、受領器302は、エンコードされたビデオとともに追加の(冗長な)データを受領してもよい。追加データは、符号化されたビデオ・シーケンス(単数または複数)の一部として含まれていてもよい。追加データは、データを適正にデコードするため、および/またはもとのビデオ・データをより正確に再構成するために、ビデオ・デコーダ300によって使用されてもよい。追加データは、たとえば、時間的、空間的、または信号対雑音比(SNR)の向上層、冗長スライス、冗長ピクチャー、前方誤り訂正符号などの形でありうる。
【0043】
図4は、本開示のある実施形態によるビデオ・エンコーダ400の機能ブロック図でありうる。
【0044】
エンコーダ400は、該エンコーダ400によって符号化されるべきビデオ画像を捕捉することができるビデオ源401(これはエンコーダの一部ではない)からビデオ・サンプルを受領することができる。
【0045】
ビデオ源401は、任意の好適なビット深さ(たとえば、8ビット、10ビット、12ビット、…)、任意の色空間(たとえば、BT.601 YCrCB、RGB、…)および任意の好適なサンプリング構造(たとえば、YCrCb 4:2:0、YCrCb 4:4:4)でありうるデジタル・ビデオ・サンプル・ストリームの形で、エンコーダ(303)によって符号化されるべき源ビデオ・シーケンスを提供することができる。メディア・サービス・システムにおいては、ビデオ源401は、事前に準備されたビデオを記憶している記憶装置であってもよい。ビデオ会議システムにおいては、ビデオ源401は、ローカルでの画像情報をビデオ・シーケンスとして捕捉するカメラであってもよい。ビデオ・データは、シーケンスで見たときに動きを付与する複数の個々のピクチャーとして提供されてもよい。ピクチャー自体は、ピクセルの空間的アレイとして編成されてもよく、各ピクセルは、使用中のサンプリング構造、色空間などに依存して、一つまたは複数のサンプルを含むことができる。当業者は、ピクセルとサンプルとの間の関係を容易に理解することができる。下記の説明は、サンプルに焦点を当てる。
【0046】
ある実施形態によれば、エンコーダ400は、源ビデオ・シーケンスのピクチャーを、リアルタイムで、またはアプリケーションによって要求される任意の他の時間的制約の下で、符号化および圧縮して、符号化されたビデオ・シーケンス410にすることができる。適切な符号化速度を施行することは、コントローラ402の一つの機能である。コントローラは、以下に記載されるような他の機能ユニットを制御し、それらのユニットに機能的に結合される。かかる結合は、明確のため描かれていない。コントローラによって設定されるパラメータは、レート制御に関連するパラメータ(ピクチャー・スキップ、量子化器、レート‐歪み最適化技術のラムダ値、…)、ピクチャー・サイズ、ピクチャーグループ(GOP)レイアウト、最大動きベクトル探索範囲などを含むことができる。当業者は、コントローラ402は、ある種のシステム設計のために最適化されたビデオ・エンコーダ400に関しうるようなコントローラ402の他の機能を容易に識別することができる。
【0047】
いくつかのビデオ・エンコーダは、当業者が「符号化ループ」として容易に認識するものにおいて動作する。思い切って単純化した説明として、一例では、符号化ループは、エンコーダ402(以下、「源符号化器」)(たとえば、符号化されるべき入力ピクチャーと参照ピクチャー(単数または複数)に基づいてシンボルを生成することを受け持つ)と、エンコーダ400に埋め込まれた(ローカル)デコーダ406とからなるエンコード部からなることができる。デコーダ406は、(リモートの)デコーダも生成するであろうサンプル・データを生成するよう前記シンボルを再構成する(開示される主題において考慮されるビデオ圧縮技術では、シンボルと符号化されたビデオ・ビットストリームとの間のどの圧縮も無損失である)。再構成されたサンプル・ストリームは、参照ピクチャー・メモリ405に入力される。シンボル・ストリームのデコードは、デコーダ位置(ローカルかリモートか)によらずビット正確な結果をもたらすので、参照ピクチャー・バッファの内容もローカル・エンコーダとリモート・エンコーダの間でビット正確である。言い換えると、エンコーダの予測部は、デコーダがデコード中に予測を使用するときに「見る」のとまったく同じサンプル値を参照ピクチャー・サンプルとして「見る」。参照ピクチャー同期性のこの基本原理(および、たとえば、チャネルエラーのために同期性が維持できない場合の結果として生じるドリフト)は、当業者にはよく知られている。
【0048】
「ローカル」デコーダ406の動作は、
図3との関連ですでに上記で詳細に述べた「リモート」デコーダ300の動作と同じであってよい。しかしながら、暫時
図4も参照すると、シンボルが利用可能であり、エントロピー符号化器408およびパーサー304による、シンボルの符号化されたビデオ・シーケンスへのエンコード/デコードが可逆でありうるので、チャネル301、受領器302、バッファ303およびパーサー304を含むデコーダ300のエントロピー復号部は、ローカル・デコーダ406においては完全には実装されなくてもよい。
【0049】
この時点で行なうことができる観察は、デコーダ内に存在するパース/エントロピー復号を除くどのデコーダ技術も、必ず、対応するエンコーダ内で実質的に同一の機能的形態で存在する必要があることである。エンコーダ技術の記述は、包括的に記述されるデコーダ技術の逆であるため、短縮することができる。ある種の領域においてのみ、より詳細な説明が必要であり、以下に提供される。
【0050】
その動作の一部として、源符号化器403は、「参照フレーム」として指定された、ビデオ・シーケンスからの一つまたは複数の以前に符号化されたフレームを参照して、入力フレームを予測的に符号化する、動き補償された予測符号化を実行することができる。このようにして、符号化エンジン407は、入力フレームのピクセル・ブロックと、入力フレームに対する予測参照として選択されうる参照フレーム(単数または複数)のピクセル・ブロックとの間の差分を符号化する。
【0051】
ローカル・ビデオ・デコーダ406は、源符号化器403によって生成されたシンボルに基づいて、参照フレームとして指定されうるフレームの符号化されたビデオ・データをデコードすることができる。符号化エンジン407の動作は、有利には、損失のあるプロセスでありうる。符号化されたビデオ・データがビデオ・デコーダ(
図4には示さず)でデコードされうるとき、再構成されたビデオ・シーケンスは、典型的には、いくつかのエラーを伴う源ビデオ・シーケンスの複製でありうる。ローカル・ビデオ・デコーダ406は、ビデオ・デコーダによって参照フレームに対して実行されうるデコード・プロセスを複製し、再構成された参照フレームを参照ピクチャー・キャッシュ405に格納させることができる。このようにして、エンコーダ400は、遠端のビデオ・デコーダによって得られるであろう再構成された参照フレームとしての共通の内容を(伝送エラーがなければ)有する再構成された参照フレームのコピーを、ローカルに記憶することができる。
【0052】
予測器404は、符号化エンジン407について予測探索を実行することができる。すなわち、符号化されるべき新しいフレームについて、予測器404は、新しいピクチャーのための適切な予測参照のはたらきをしうるサンプル・データ(候補参照ピクセル・ブロックとして)またはある種のメタデータ、たとえば参照ピクチャー動きベクトル、ブロック形状などを求めて、参照ピクチャー・メモリ405を探索することができる。予測器404は、適切な予測参照を見出すために、サンプル・ブロック/ピクセル・ブロック毎に(on a sample block-by-pixel block basis)動作しうる。場合によっては、予測器404によって得られた検索結果によって決定されるところにより、入力ピクチャーは、参照ピクチャー・メモリ405に記憶された複数の参照ピクチャーから引き出された予測参照を有することができる。
【0053】
コントローラ402は、たとえば、ビデオ・データをエンコードするために使用されるパラメータおよびサブグループ・パラメータの設定を含め、源符号化器403の符号化動作を管理してもよい。
【0054】
上記の機能ユニットすべての出力は、エントロピー符号化器408におけるエントロピー符号化を受けることができる。エントロピー符号化器は、ハフマン符号化、可変長符号化、算術符号化などといった当業者に既知の技術に従ってシンボルを無損失圧縮することによって、さまざまな機能ユニットによって生成されたシンボルを符号化されたビデオ・シーケンスに変換する。
【0055】
送信器409は、エントロピー符号化器408によって生成される符号化されたビデオ・シーケンスをバッファに入れて、通信チャネル411を介した送信のためにそれを準備することができる。通信チャネル411は、エンコードされたビデオ・データを記憶する記憶装置へのハードウェア/ソフトウェア・リンクであってもよい。送信器409は、ビデオ符号化器403からの符号化されたビデオ・データを、送信されるべき他のデータ、たとえば符号化されたオーディオ・データおよび/または補助データ・ストリーム(源は図示せず)とマージすることができる。
【0056】
コントローラ402は、エンコーダ400の動作を管理してもよい。符号化の間、コントローラ405は、それぞれの符号化されたピクチャーに、ある符号化ピクチャー・タイプを割り当てることができる。符号化ピクチャー・タイプは、それぞれのピクチャーに適用されうる符号化技法に影響しうる。たとえば、ピクチャーはしばしば、以下のフレーム・タイプのうちの1つとして割り当てられることがある。
【0057】
イントラピクチャー(Iピクチャー)は、予測の源としてシーケンス内の他のピクチャーを使用せずに、符号化され、デコードされうるものでありうる。いくつかのビデオ・コーデックは、たとえば、独立デコーダ・リフレッシュ(Independent Decoder Refresh)・ピクチャーを含む、異なるタイプのイントラ・ピクチャーを許容する。当業者は、Iピクチャーのこれらの変形、ならびにそれらのそれぞれの用途および特徴を認識する。
【0058】
予測ピクチャー(Pピクチャー)は、各ブロックのサンプル値を予測するために、最大で1つの動きベクトルおよび参照インデックスを用いるイントラ予測またはインター予測を用いて符号化およびデコードされうるものでありうる。
【0059】
双方向予測ピクチャー(Bピクチャー)は、各ブロックのサンプル値を予測するために、最大で2つの動きベクトルおよび参照インデックスを用いるイントラ予測またはインター予測を用いて符号化およびデコードされうるものでありうる。同様に、マルチ予測ピクチャーは、単一のブロックの再構成のために、3つ以上の参照ピクチャーおよび関連するメタデータを使用することができる。
【0060】
源ピクチャーは、普通、空間的に複数のサンプル・ブロック(たとえば、それぞれ4×4、8×8、4×8、または16×16サンプルのブロック)に分割され、ブロック毎に符号化されうる。ブロックは、ブロックのそれぞれのピクチャーに適用される符号化割り当てによって決定されるところにより、他の(すでに符号化された)ブロックを参照して予測的に符号化されうる。たとえば、Iピクチャーのブロックは、非予測的に符号化されてもよく、または、同じピクチャーのすでに符号化されたブロックを参照して予測的に符号化されてもよい(空間的予測またはイントラ予測)。Pピクチャーのピクセル・ブロックは、以前に符号化された一つの参照ピクチャーを参照して、空間的予測を介してまたは時間的予測を介して予測的に符号化されてもよい。Bピクチャーのブロックは、1つまたは2つの以前に符号化された参照ピクチャーを参照して、空間的予測を介して、または時間的予測を介して予測的に符号化されてもよい。
【0061】
ビデオ符号化器400は、ITU-T勧告H.265などの所定のビデオ符号化技術または標準に従って符号化動作を実行することができる。その動作において、ビデオ符号化器400は、入力ビデオ・シーケンスにおける時間的および空間的冗長性を活用する予測符号化動作を含む、さまざまな圧縮動作を実行することができる。よって、符号化されたビデオ・データは、使用されるビデオ符号化技術または標準によって指定されるシンタックスに準拠しうる。
【0062】
ある実施形態において、送信器409は、エンコードされたビデオと一緒に追加データを送信してもよい。源符号化器403は、符号化されたビデオ・シーケンスの一部としてそのようなデータを含めてもよい。追加データは、時間的/空間的/SNR向上層、冗長ピクチャーおよびスライスのような他の形の冗長データ、捕捉向上情報(SEI)メッセージ、視覚ユーザビリティー情報(VUI)パラメータ・セット・フラグメントなどを含んでいてもよい。
【0063】
図5は、HEVCおよびJEMで使用されるイントラ予測モードを示す。自然なビデオで提示された任意のエッジ方向を捕捉するために、方向性イントラモードの数は、HEVCで使用されるような33から65に拡張される。HEVCに加わるJEMにおける追加の方向性モードは、
図1(b)では点線矢印として示されており、平面(planar)モードとDCモードは同じままである。これらのより高密度の方向性イントラ予測モードは、すべてのブロック・サイズについて、またルーマおよびクロマ・イントラ予測の両方について適用される。
図5に示されるように奇数のイントラ予測モード・インデックスに関連付けられている点線矢印で識別される方向性イントラ予測モードは、奇数イントラ予測モードと呼ばれる。偶数のイントラ予測モード・インデックスに関連付けられている実線矢印で識別される方向性イントラ予測モードは、偶数イントラ予測モードと呼ばれる。本稿では、
図5における実線または点線の矢印によって示される方向性イントラ予測モードは、角度モード(angular mode)とも呼ばれる。
【0064】
JEMでは、合計67のイントラ予測モードがルーマ・イントラ予測のために使用される。イントラモードを符号化するために、サイズ6の最確モード(most probable mode、MPM)リストが、近傍ブロックのイントラモードに基づいて構築される。イントラモードがMPMリストからでない場合、イントラモードが選択されたモードに属するかどうかを示すフラグが信号伝達される。JEM-3.0では、16の選択されたモードがあり、4つ毎の角度モードとして一様に選ばれる。JVET-D0114およびJVET-G0060では、それら一様に選択されたモードを置き換えるために16個の二次MPMが導出される。
【0065】
図6は、イントラ方向性モードのために活用されるN個の参照層を示す。ブロック単位611、セグメントA 601、セグメントB 602、セグメントC 603、セグメントD 604、セグメントE 605、セグメントF 606、第1の参照層610、第2の参照層609、第3の参照層608、および第4の参照層607がある。
【0066】
HEVCおよびJEMの両方において、またH.264/AVCのようないくつかの他の規格において、現在ブロックを予測するために使用される参照サンプルは、最も近い参照ライン(行または列)に制約される。複数参照ライン・イントラ予測の方法では、候補参照ライン(行または列)の数は、イントラ方向性モードについて、1(すなわち最も近いもの)からNに増加される(ここで、Nは1以上の整数)。
図2は、4×4予測単位(PU)を例として、複数ライン・イントラ方向性予測方法の概念を示す。イントラ方向性モードは予測子を生成するためにN個の参照層のうちの一つを任意に選択することができる。言い換えると、予測子p(x,y)は、参照サンプルS1、S2、…、SNのうちの1つから生成される。イントラ方向性モードのためにどの参照層が選択されるかを示すために、フラグが信号伝達される。Nを1とした場合、イントラ方向性予測方法は、JEM 2.0における伝統的な方法と同じである。
図6では、参照ライン610、609、608、607は、6つのセグメント601、602、603、604、605、606を左上の参照サンプルと合わせたものから構成される。本稿では、参照層(reference tier)は参照ライン(reference line)とも呼ばれる。現在ブロック単位内の左上ピクセルの座標は(0,0)であり、第1の参照ラインにおける左上ピクセルは(-1,-1)である。
【0067】
JEMでは、ルーマ成分について、イントラ予測サンプル生成のために使用される近傍サンプルは生成プロセス前にフィルタリングされる。フィルタリングは、与えられたイントラ予測モードおよび変換ブロック・サイズによって制御される。イントラ予測モードがDCである、または変換ブロック・サイズが4×4に等しい場合、近傍サンプルはフィルタリングされない。所与のイントラ予測モードと垂直モード(または水平モード)との間の距離が事前に定義された閾値よりも大きい場合、フィルタリング・プロセスは有効にされる。近傍サンプル・フィルタリングのためには、[1,2,1]フィルタおよび双線形フィルタが使用される。
【0068】
位置依存イントラ予測組み合わせ(position dependent intra prediction combination、PDPC)法は、フィルタリングされていない境界参照サンプルとフィルタリングされた境界参照サンプルをもつHEVC式のイントラ予測との組み合わせを呼び出すイントラ予測法である。(x,y)に位置する各予測サンプルpred[x][y]は、以下のように計算される:
【数1】
ここで、R
x,-1、R
-1,yは現在サンプル(x,y)の上および左に位置するフィルタリングされていない参照サンプルを表わし、R
-1,-1は現在ブロックの左上隅に位置するフィルタリングされていない参照サンプルを表わす。重み付け因子は以下のように計算される。
【数2】
【0069】
図7は、1つの4×4ブロック内の(0,0)および(1,0)位置についてDCモードPDPCが重みをかける(wL、wT、wTL)描画700を示す。PDPCがDC、平面、水平、および垂直イントラモードに適用される場合、HEVC DCモード境界フィルタまたは水平/垂直モード・エッジフィルタのような追加の境界フィルタは必要とされない。
図7は、右上対角モードに適用されるPDPCのための参照サンプルR
x,-1、R
-1,y、R
-1,-1の定義を示している。予測サンプルpred(x',y')は予測ブロック内の(x',y')に位置する。参照サンプルR
x,-1の座標xはx=x'+y'+1によって与えられ、参照サンプルR
-1,yの座標yは同様にy=x'+y'+1によって与えられる。
【0070】
図8は、局所的照明補償(Local Illumination Compensation、LIC)の描画800を示し、スケーリング因子aおよびオフセットbを用いる、照明変化についての線形モデルに基づいている。また、LICは、それぞれのインターモード符号化単位(CU)について適応的に有効または無効にされる。
【0071】
LICがCUに適用される場合、最小二乗誤差法を用いて、現在CUの近傍サンプルおよびそれらの対応する参照サンプルを使用することによってパラメータaおよびbを導出する。より具体的には、
図8に示されるように、CUのサブサンプリング(2:1サブサンプリング)された近傍サンプルと、参照ピクチャー内の対応するサンプル(現在のCUまたはサブCUの動き情報によって同定される)が使用される。ICパラメータが導出され、各予測方向に別々に適用される。
【0072】
CUがマージモードで符号化される場合、LICフラグは、マージモードでの動き情報コピーと同様の仕方で近傍ブロックからコピーされる;それ以外の場合、LICフラグは、LICが適用されるか否かを示すために、そのCUについて信号伝達される。
【0073】
図9Aは、HEVCにおいて使用されるイントラ予測モード900を示す。HEVCでは、合計35のイントラ予測モードがあり、そのうちモード10は水平モード、モード26は垂直モード、モード2、モード18およびモード34は対角モードである。これらのイントラ予測モードは、3つの最確モード(MPM)と32の残りのモードによって信号伝達される。
【0074】
図9Bは、VVCの実施形態において、合計87のイントラ予測モードがあることを示す。ここで、モード18は水平モードであり、モード50は垂直モードであり、モード2、モード34およびモード66は対角モードである。モード-1~-10およびモード67~76は、広角イントラ予測(Wide-Angle Intra Prediction、WAIP)モードと呼ばれる。
【0075】
位置(x,y)に位置する予測サンプルpred(x,y)は、イントラ予測モード(DC、平面(planar)、角度(angular))およびPDPC表式に従った参照サンプルの線形結合を用いて予測される:
【数3】
ここで、R
x,-1、R
-1,yは現在サンプル(x,y)の上および左に位置する参照サンプル、R
-1,-1は現在ブロックの左上隅に位置する参照サンプルを表わす。
【0076】
DCモードについては、幅および高さの寸法を用いて、ブロックについての重みは次のように計算される:
【数4】
ここで、wTは同じ水平座標をもつ、上の参照ラインに位置する参照サンプルについての重み付け因子を表わし、wLは同じ垂直座標をもつ、左の参照ラインに位置する参照サンプルについての重み付け因子を表わし、wTLは現在ブロックの左上の参照サンプルについての重み付け因子を表わし、nScaleは、重み付け因子が軸に沿ってどのくらい急速に減少するか(wLが左から右に減少する、またはwTが上から下に減少する)、すなわち重み付け因子減少率を指定し、現在の設計ではx軸(左から右)およびy軸(上から下)に沿って同じである。また、32は、近傍サンプルについての初期重み付け因子を表わし、初期重み付け因子は、現在CBにおいて左上のサンプルに割り当てられた上(左または左上)の重み付けでもあり、PDPCプロセスにおける近傍サンプルの重み付け因子は、この初期重み付け因子以下であるべきである。
【0077】
平面モードについてはwTL=0であり、水平モードについてはwTL=wTであり、垂直モードについてはwTL=wLである。PDPC重みは、加算とシフトのみで計算できる。pred(x,y)の値は式(1)を用いて単一ステップで計算できる。
【0078】
図10は、実施形態に従った簡略化されたブロック図 1000であり、
図3に関する本明細書の説明に関する追加的な文脈を与える。ビデオ・シンタックス・パーサー1002に与えられる入力ビットストリーム1001が示されている。出力ピクチャー1011は、たとえば入力ビットストリーム1001とともに含まれるさまざまなメタデータに応じて構成される一つまたは複数の表示解像度をもち、一つまたは複数のディスプレイに提供されてもよい。
【0079】
本稿でさらに詳細に説明されているパーサー304と同様に、ビデオ・シンタックス・パーサー1002は、メタデータの取り扱いを含む処理を提供し、
図3の各ユニットで同様に説明される、量子化解除器/逆変換ユニット(単数または複数)1003、イントラ予測ユニット(単数または複数)1004、およびインター予測器(動き補償)ユニット1005のうちの一つまたは複数に対して同様の情報を提供する。集計器1006は、例示的実施形態によれば、ループ・フィルタ311と同様の、ループ内フィルタ・ユニット1007におけるさまざまなループ・フィルタリング技法の対象とされうる出力サンプルを提供する。フィルタリングは、たとえば、符号化されたピクチャーまたは符号化されたビデオ・シーケンスの、一つまたは複数の(デコード順で)以前の部分のデコードの際に得られてもよい、入力ビットストリームに関して上述したメタデータに応答してであり、また以前に再構成され、ループ・フィルタリングされたサンプル値に応答してである。
【0080】
ここで、RPRが、符号化ビデオ・シーケンス(coded video sequence、CVS)内のデコードされたピクチャーの空間解像度の変更を可能にしうる。デコードピクチャーバッファ(DPB)1008内に記憶されているようなデコードされたピクチャーは、デコードされたピクチャーを出力ピクチャーに変換することに関するアップサンプラー・ユニット1010を介して、表示のために出力されてもよい。
【0081】
図11は、VUIパラメータ・シンタックスの簡略化された図解1100であり、本明細書に記載されるようなフラグは、そのようなVUIパラメータに含まれていてもよい。実施形態によれば、集団的にまたは別個に使用されうるVUIパラメータの例示的実施形態を考えることに関して、一つまたは複数のアルゴリズムを示す。そのようなVUIパラメータの一つまたは複数は、
図10に関して上記したメタデータの諸側面を表わす。これは、VUIにおいて、たとえば情報提供用のメタデータとして一定の出力ピクチャー・サイズのいずれかを信号伝達することによって、監督の意図のような意図を伝えること、および、後処理のためのディスプレイの自由を残すことという一つまたは複数の異なる要件に対処することを可能にする。実施形態によれば、エンドユーザーの装置は、いまだ表示ピクチャー解像度を選択する自由を有しうる一方で、任意的には本明細書に記載されているように、監督の提案を受け入れることもできる。
【0082】
たとえば、図解1100は、constant_output_pic_size_flagを含み、これは、例示的実施形態によれば、1に等しい場合、それぞれのクロッピングされた出力ピクチャーに対して何らかのポスト再サンプリング・プロセス(post-resampling process)が適用されて、再サンプリングされた各出力ピクチャーが、constant_output_pic_width_in_luma_samplesおよびconstant_output_pic_height_in_luma_samplesによって指定される一定のピクチャー・サイズを有するようにすることを指定する。対照的に、実施形態によれば、0に等しいconstant_output_pic_size_flagは、ポスト再サンプリング・プロセスが、それぞれのクロッピングされた出力ピクチャーに適用されてもされなくてもよいことを指定する。
【0083】
さらに、図解1100は、guided_constant_output_pic_size_present_flagを含み、これは、1に等しい場合、constant_output_pic_width_in_luma_samplesおよびconstant_output_pic_height_in_luma_samplesの両方がこのVUI内に存在することを指定する。対照的に、実施形態によれば、guided_constant_output_pic_size_present_flagが0に等しいことは、constant_output_pic_width_in_luma_samplesおよびconstant_output_pic_height_in_luma_samplesの両方または少なくとも一方がこのVUI内に存在しないことを指定する。
【0084】
さらに、図解1100は、ルーマ・サンプルの単位でポスト再サンプリング・プロセス後の各出力ピクチャーの幅を指定する、一つまたは複数のconstant_output_pict_width_in_luma_samplesの値を含む。対照的に、存在しない場合、constant_output_pic_width_in_luma_samplesの値は、SPS内のpic_width_max_in_luma_samplesに等しいと推定される。
【0085】
さらに、図解1100は、ルーマ・サンプルの単位でポスト再サンプリング・プロセス後の各出力ピクチャーの高さを指定する一つまたは複数のconstant_output_pic_height_in_luma_samplesの値を含む。対照的に、存在しない場合、constant_output_pic_height_in_luma_samplesの値は、SPS内のpic_height_max_in_luma_samplesに等しいと推定される。
【0086】
したがって、例示的な実施形態によれば、メタデータが前記少なくとも1つのフラグを含むと判断することに応答して、メタデータが、前記少なくとも1つのピクチャーを含む複数のピクチャーに関する幅を指定する幅値を含むかどうか、および、メタデータが、前記複数のピクチャーに関する高さを指定する高さ値を含むかどうかの判断がある。さらに、例示的な実施形態によれば、メタデータが、幅値および高さ値のうちの少なくとも1つを含むと判断することに応答して、本明細書に記載される表示装置による前記少なくとも1つのピクチャーの表示のために、前記幅値および前記高さ値のうちの前記少なくとも1つを維持するよう、少なくとも1つのポスト再サンプリング・プロセスに信号伝達することがあり、メタデータに前記幅値および/または前記高さ値が存在しないと判断することに応答して、前記存在しない幅値および/または高さ値のうちの前記一つまたは複数の対応するものを、ビデオ・データのSPSによってそれぞれ示される幅および/または高さに維持するよう、前記少なくとも1つのポスト再サンプリング・プロセスに信号伝達することもある。
【0087】
よって、例示的な実施形態によれば、
図10に記載される処理とともにそのようなメタデータを含めることによって、出力表示、たとえば解像度は、該メタデータの少なくとも一部として入力ビットストリーム1001とともに伝送される意図に従って制御されうる。そのような制御情報は、メタデータとして出力ピクチャー1011に含まれてもよく、後処理装置に、
図11のフラグ値が存在し肯定的である場合に記載されるように、前記メタデータによって指定される出力表示解像度で出力ピクチャー1011を表示するだけとするかどうかを指令してもよく、該後処理装置に、たとえば前記データの入力時のユーザー選択を介してまたはあらかじめ決定されていてまたはデフォルトで、
図11のフラグ値の場合に記載されるように、前記メタデータによって指定される表示解像度を出力するかどうかと、それ以外の場合に、出力ディスプレイ装置の後処理によって制御される表示解像度を出力するかどうかとの間で判断するオプションを提供してもよい。本明細書に記載されるように、そのような指示は、少なくとも入力ビットストリーム1001および/または表示装置に出力される出力ピクチャー1011とともにメタデータとして含まれる一つまたは複数のフラグによって提供されてもよい。
【0088】
よって、本明細書に記載の例示的な実施形態によって、上述の技術的問題は、これらの技術的解決策の一つまたは複数によって有利に改善されうる。
【0089】
上述の技法は、コンピュータ読み取り可能な命令を用いてコンピュータ・ソフトウェアとして実装されることができ、一つまたは複数のコンピュータ読み取り可能な媒体に、または一つまたは複数のハードウェア・プロセッサによって物理的に記憶されることができる。たとえば、
図12は、開示された主題のある種の実施形態を実装するのに好適なコンピュータ・システム1200を示す。
【0090】
コンピュータ・ソフトウェアは、任意の好適な機械コードまたはコンピュータ言語を用いてコーディングされることができ、アセンブリ、コンパイル、リンク、または同様の機構の対象とされて、一つまたは複数のコンピュータ中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)などによって、直接的に、またはインタープリット、マイクロコード実行などを通じて実行可能な命令を含むコードを作成することができる。
【0091】
命令は、たとえば、パーソナルコンピュータ、タブレット・コンピュータ、サーバー、スマートフォン、ゲーム装置、モノのインターネット装置等を含むさまざまなタイプのコンピュータまたはそのコンポーネント上で実行されることができる。
【0092】
コンピュータ・システム1200について
図12に示されるコンポーネントは、例としての性質であり、本開示の実施形態を実装するコンピュータ・ソフトウェアの使用または機能の範囲に関する制限を示唆することを意図したものではない。コンポーネントの構成も、コンピュータ・システム1200の例示的実施形態において示されているコンポーネントの任意の1つまたは組み合わせに関する何らかの依存性または要件を有するものとして解釈されるべきではない。
【0093】
コンピュータ・システム1200は、ある種のヒューマン・インターフェース入力装置を含むことができる。そのようなヒューマン・インターフェース入力装置は、たとえば、触覚入力(たとえば、キーストローク、スワイプ、データグローブの動き)、音声入力(たとえば、声、拍手)、視覚入力(たとえば、ジェスチャー)、嗅覚入力(図示せず)を通じた一または複数の人間ユーザーによる入力に応答することができる。また、ヒューマン・インターフェース装置は、音声(たとえば、発話、音楽、周囲の音)、画像(たとえば、スキャンされた画像、スチール画像カメラから得られる写真画像)、ビデオ(たとえば、2次元ビデオ、立体視ビデオを含む3次元ビデオ)のような、人間による意識的入力に必ずしも直接関係しないある種のメディアを捕捉するために使用できる。
【0094】
入力ヒューマン・インターフェース装置は、キーボード1201、マウス1202、トラックパッド1203、タッチスクリーン1210、ジョイスティック1205、マイクロフォン1206、スキャナ1208、カメラ1207(それぞれの一つのみが描かれている)の一つまたは複数を含んでいてもよい。
【0095】
コンピュータ・システム1200はまた、ある種のヒューマン・インターフェース出力装置を含んでいてもよい。そのようなヒューマン・インターフェース出力装置は、たとえば、触覚出力、音、光、および臭い/味を通じて、一または複数の人間ユーザーの感覚を刺激するものであってもよい。そのようなヒューマン・インターフェース出力装置は、触覚出力装置(たとえば、タッチスクリーン1210またはジョイスティック1205による触覚フィードバック;ただし、入力装置のはたらきをしない触覚フィードバック装置もありうる)、音声出力装置(たとえば、スピーカー1209、ヘッドフォン(図示せず))、視覚出力装置(たとえば、CRT画面、LCD画面、プラズマスクリーン、OLED画面を含む画面1210;それぞれはタッチスクリーン入力機能があってもなくてもよく、それぞれは触覚フィードバック機能があってもなくてもよく、そのうちのいくつかは、2次元の視覚出力または立体視出力のような手段を通じた3次元より高い出力を出力することができる;仮想現実感眼鏡(図示せず)、ホログラフィーディスプレイおよび煙タンク(図示せず))、およびプリンタ(図示せず)を含んでいてもよい。
【0096】
コンピュータ・システム1200はまた、人間がアクセス可能な記憶装置および関連する媒体、たとえば、CD/DVD 1211または類似の媒体
とともにCD/DVD ROM/RW 1220を含む光学式媒体、サムドライブ1222、取り外し可能なハードドライブまたはソリッドステートドライブ1223、テープおよびフロッピーディスクといったレガシー磁気媒体(図示せず)、セキュリティ・ドングルのような特化したROM/ASIC/PLDベースの装置(図示せず)などを含むことができる。
【0097】
当業者はまた、現在開示されている主題に関連して使用される用語「コンピュータ読み取り可能な媒体」は、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解すべきである。
【0098】
コンピュータ・システム1200はまた、一つまたは複数の通信ネットワーク1298へのインターフェース1299を含むことができる。ネットワーク1298は、たとえば、無線、有線、光学式でありうる。ネットワーク1298は、さらに、ローカル、広域、都市圏、車載および工業用、リアルタイム、遅延耐性などでありうる。ネットワーク1298の例は、イーサネット〔登録商標〕、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラー・ネットワーク、ケーブルテレビ、衛星テレビ、地上放送テレビを含むTV有線または無線の広域デジタルネットワーク、CANBusを含む車載および工業用などを含む。ある種のネットワーク1298は、普通、ある種の汎用データ・ポートまたは周辺バス(1250および1251)(たとえば、コンピュータ・システム1200のUSBポートなど)に取り付けられる外部ネットワーク・インターフェース・アダプターを必要とする。他は、普通、後述するようなシステム・バスへの取り付けによって、コンピュータ・システム1200のコアに統合される(たとえば、PCコンピュータ・システムへのイーサネット・インターフェースまたはスマートフォン・コンピュータ・システムへのセルラー・ネットワーク・インターフェース)。これらのネットワーク1298のいずれかを使用して、コンピュータ・システム1200は、他のエンティティと通信することができる。そのような通信は、一方向性、受信のみ(たとえば、放送テレビ)、一方向性送信専用(たとえば、ある種のCANbus装置へのCANbus)、または、たとえば、ローカルまたは広域デジタルネットワークを使用する他のコンピュータ・システムへの双方向性であってもよい。上述のようなそれらのネットワークおよびネットワークインターフェースのそれぞれで、ある種のプロトコルおよびプロトコルスタックが使用できる。
【0099】
前述のヒューマン・インターフェース装置、人間がアクセス可能な記憶装置、およびネットワークインターフェースは、コンピュータ・システム1200のコア1240に取り付けることができる。
【0100】
コア1240は、一つまたは複数の中央処理装置(CPU)1241、グラフィックス処理装置(GPU)1242、グラフィックスアダプター1217、フィールドプログラマブルゲートアレイ(FPGA)1243の形の特化したプログラマブル処理装置、ある種のタスクのためのハードウェアアクセラレータ1244などを含むことができる。これらの装置は、読み出し専用メモリ(ROM)1245、ランダムアクセスメモリ(RAM)1246、内部のユーザー・アクセス可能でないハードドライブ、SSDなどの内蔵大容量記憶装置1247とともに、システム・バス1248を通じて接続されうる。いくつかのコンピュータ・システムでは、追加のCPU、GPUなどによる拡張を可能にするために、システム・バス1248は、一つまたは複数の物理プラグの形でアクセス可能であってもよい。周辺装置は、コアのシステム・バス1248に直接取り付けられることも、周辺バス1251を通じて取り付けられることもできる。周辺バスのためのアーキテクチャーは、PCI、USBなどを含む。
【0101】
CPU 1241、GPU 1242、FPGA 1243、およびアクセラレータ1244は、組み合わせて上述のコンピュータコードを構成することができるある種の命令を、実行することができる。そのコンピュータコードは、ROM 1245またはRAM 1246に記憶できる。一時的データも、RAM 1246に記憶されることができ、一方、持続的データは、たとえば、内部大容量記憶装置1247に記憶されることができる。一つまたは複数のCPU 1241、GPU 1242、大容量記憶装置1247、ROM 1245、RAM 1246などと密接に関連付けることができるキャッシュメモリを使用することを通じて、メモリデバイスのいずれかへの高速な記憶および取り出しを可能にすることができる。
【0102】
コンピュータ読み取り可能な媒体は、さまざまなコンピュータ実装された動作を実行するためのコンピュータコードをその上に有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってもよく、または、コンピュータ・ソフトウェア分野の技術を有する者に周知であり利用可能な種類のものであってもよい。
【0103】
限定ではなく一例として、アーキテクチャー1200、具体的にはコア1240を有するコンピュータ・システムは、プロセッサ(CPU、GPU、FPGA、アクセラレータ等を含む)が一つまたは複数の有形のコンピュータ可読媒体に具現化されたソフトウェアを実行することの結果として、機能性を提供することができる。そのようなコンピュータ読み取り可能媒体は、上記で紹介したようなユーザー・アクセス可能な大容量記憶ならびにコア内部の大容量記憶装置1247またはROM 1245のような非一時的な性質のコア1240のある種の記憶に関連する媒体であることができる。本開示のさまざまな実施形態を実装するソフトウェアは、そのような装置に記憶され、コア1240によって実行されることができる。コンピュータ読み取り可能媒体は、特定のニーズに応じて、一つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、RAM 1246に記憶されたデータ構造を定義し、ソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含む、本明細書に記載された特定のプロセスまたは特定のプロセスの特定の部分を、コア1240および具体的にその中のプロセッサ(CPU、GPU、FPGAなどを含む)に実行させることができる。追加的または代替的に、コンピュータ・システムは、回路(たとえば、アクセラレータ1244)内に配線された、または他の仕方で具現された論理の結果として機能性を提供することができ、これは、本明細書に記載される特定のプロセスまたは特定のプロセスの特定の部分を実行するためのソフトウェアの代わりに、またはそれと一緒に動作することができる。ソフトウェアへの言及は、論理を含み、適宜その逆も可能である。コンピュータ読み取り可能媒体への言及は、適宜、実行のためのソフトウェアを記憶する回路(たとえば集積回路(IC))、実行のための論理を具現する回路、またはその両方を包含することができる。本開示は、ハードウェアおよびソフトウェアの任意の好適な組み合わせを包含する。
【0104】
本開示は、いくつかの例示的実施形態を記載してきたが、変更、置換、およびさまざまな代替等価物があり、それらは本開示の範囲内にはいる。よって、当業者は、本明細書に明示的に示されていないかまたは記載されていないが、本開示の原理を具現し、よって、本開示の精神および範囲内にある多くのシステムおよび方法を考案することができることが理解されるであろう。
【国際調査報告】