IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイトダンス インコーポレイテッドの特許一覧

<>
  • 特表-ビデオ処理の方法、装置及び媒体 図1
  • 特表-ビデオ処理の方法、装置及び媒体 図2
  • 特表-ビデオ処理の方法、装置及び媒体 図3
  • 特表-ビデオ処理の方法、装置及び媒体 図4
  • 特表-ビデオ処理の方法、装置及び媒体 図5
  • 特表-ビデオ処理の方法、装置及び媒体 図6
  • 特表-ビデオ処理の方法、装置及び媒体 図7
  • 特表-ビデオ処理の方法、装置及び媒体 図8
  • 特表-ビデオ処理の方法、装置及び媒体 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-12
(54)【発明の名称】ビデオ処理の方法、装置及び媒体
(51)【国際特許分類】
   H04N 19/70 20140101AFI20240905BHJP
   H04N 19/30 20140101ALI20240905BHJP
【FI】
H04N19/70
H04N19/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024519072
(86)(22)【出願日】2022-09-26
(85)【翻訳文提出日】2024-03-27
(86)【国際出願番号】 US2022077043
(87)【国際公開番号】W WO2023049911
(87)【国際公開日】2023-03-30
(31)【優先権主張番号】63/248,832
(32)【優先日】2021-09-27
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520477474
【氏名又は名称】バイトダンス インコーポレイテッド
【氏名又は名称原語表記】BYTEDANCE INC.
【住所又は居所原語表記】12655 West Jefferson Boulevard, Sixth Floor, Suite No. 137 Los Angeles, California 90066 United States of America
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【弁理士】
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】ワン,イエ-クォイ
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159LA02
5C159MA04
5C159MA05
5C159MA21
5C159MA31
5C159MC11
5C159ME01
5C159PP03
5C159PP04
5C159RC11
5C159UA02
5C159UA05
(57)【要約】
本開示の実施形態は、ビデオを処理するための技術を提供している。ビデオを処理するための方法、第1ビデオのメディアファイルと第1ビデオのビットストリームとの間の変換を実行することを含み、メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む。本開示の方法によれば、ISOベースメディアファイルフォーマット(ISOBMFF)に基づくメディアファイル内のピクチャインピクチャサービスに容易に対応することができる。
【選択図】図8
【特許請求の範囲】
【請求項1】
ビデオを処理するための方法であって、
第1ビデオのメディアファイルと前記第1ビデオのビットストリームとの間の変換を実行することを含み、
前記メディアファイルは、前記第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、方法。
【請求項2】
前記第2ビデオの空間分解能が、前記第1ビデオの空間分解能よりも低い、請求項1に記載の方法。
【請求項3】
前記第1指示は、1ビットのフラグを含む、請求項1~2の何れか1項に記載の方法。
【請求項4】
前記フラグが第1値である場合、前記第1グループの符号化・復号化されたビデオデータユニットが、前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能であり、
前記フラグが第2値である場合、前記第1グループの符号化・復号化されたビデオデータユニットが、前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え不可能である、請求項3に記載の方法。
【請求項5】
前記第1指示は、前記第2ビデオのビットストリームを担持するトラックを指示する第1トラックリファレンスを含む、請求項1~2の何れか1項に記載の方法。
【請求項6】
前記第1トラックリファレンスが第1タイプを有する場合、前記第1グループの符号化・復号化されたビデオデータユニットが、前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能であるとともに、
前記第1トラックリファレンスが第2タイプを有する場合、前記第1グループの符号化・復号化されたビデオデータユニットが、前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能ではない、
請求項5に記載の方法。
【請求項7】
前記第1タイプの前記第1トラックリファレンスは、「ppsr」トラックリファレンスであり、前記第1タイプの前記第1トラックリファレンスは、「ppsn」トラックリファレンスである、請求項6に記載の方法。
【請求項8】
前記第2ビデオのメディアファイルは、前記第1グループの符号化・復号化されたビデオデータユニットが前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第2指示を含む、請求項5~7の何れか1項に記載の方法。
【請求項9】
前記第2指示は、前記第1ビデオの前記ビットストリームを担持するトラックを指示する第2トラックリファレンスを含む、請求項8に記載の方法。
【請求項10】
前記第2トラックリファレンスが第3タイプを有する場合、前記第1グループの符号化・復号化されたビデオデータユニットが、前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能であるとともに、
前記第2トラックリファレンスが第4タイプを有する場合、前記第1グループの符号化・復号化されたビデオデータユニットが、前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能ではない、
請求項9に記載の方法。
【請求項11】
前記第3タイプの前記第2トラックリファレンスは、「ppmr」トラックリファレンスであり、前記第4タイプの前記第2トラックリファレンスは、「ppmn」トラックリファレンスである、請求項10に記載の方法。
【請求項12】
前記第1グループの符号化・復号化されたビデオデータユニットは、ビデオコーデック層ネットワーク抽象化層(VCL NAL)ユニットを含み、
前記第2グループの符号化・復号化されたビデオデータユニットは、VCL NALユニットを含む、請求項1~11のいずれか1項に記載の方法。
【請求項13】
前記変換は、前記メディアファイルを作成して前記ビットストリームを前記メディアファイルに記憶することを含む、請求項1~12のいずれか1項に記載の方法。
【請求項14】
前記変換は、前記メディアファイルを解析して前記ビットストリームを再構成することを含む、請求項1~12のいずれか1項に記載の方法。
【請求項15】
ビデオデータを処理するための装置であって、
プロセッサと、指令を記憶した非一時的なメモリとを備え、
前記指令が前記プロセッサによって実行されると、請求項1~14のいずれか1項に記載の方法をプロセッサに実行させる、装置。
【請求項16】
請求項1~14のいずれか1項に記載の方法をプロセッサに実行させる指令を記憶するための非一時的なコンピュータ読み取り可能記憶媒体。
【請求項17】
ビデオ処理装置において実行される方法で生成された第1ビデオのビットストリームを記憶し、
前記方法は、前記第1ビデオのメディアファイルと前記ビットストリームとの間の変換を実行することを含み、前記メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、非一時的なコンピュータ読み取り可能記録媒体。
【請求項18】
第1ビデオのビットストリームを記憶するための方法であって、
前記第1ビデオのメディアファイルと前記ビットストリームとの変換を実行すること、
前記ビットストリームを非一時的なコンピュータ可読記録媒体に記憶すること、を含み、
前記メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、方法。
【請求項19】
ビデオ処理装置において実行される方法で生成された第1ビデオのメディアファイルを記憶し、
前記方法は、前記メディアファイルと前記第1ビデオのビットストリームとの間の変換を実行することを含み、
前記メディアファイルは、前記第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、非一時的なコンピュータ読み取り可能記録媒体。
【請求項20】
第1ビデオのメディアファイルを記憶するための方法であって、
前記メディアファイルと前記第1ビデオのビットストリームとの間の変換を実行すること、
前記メディアファイルを非一時的なコンピュータ可読記録媒体に記憶すること、を含み、
前記メディアファイルは、前記第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本願は、2021年9月27日に出願された米国仮出願第63/248,832号に基づく優先権を主張し、当該米国出願に記載されたすべての記載内容を援用により本願に組み込まれる。
【0002】
本開示の実施形態は、主にビデオ処理技術に関し、より具体的に、ピクチャインピクチャに対応するためのファイルフォーマットの設計に関する。
【背景技術】
【0003】
メディアストリームアプリケーションは、一般的にインターネットプロトコル(IP)や、伝送制御プロトコル(TCP)やハイパーテキスト転送プロトコル(HTTP)の伝送方法に準拠し、かつ、一般的に例えばISOベースメディアファイルフォーマット(ISOBMFF)のファイルフォーマットに依存している。このようなストリームシステムの1つは、HTTPに基づく動的適応ストリーミング(DASH)である。DASHでは、マルチメディアコンテンツのビデオ及び/又はオーディオデータについて、様々な表現が存在してもよく、異なる表現は、異なるコーデック特性(例えば、ビデオコーデック規格の異なるプロファイル又はレベルや、異なるビットレートや、異なる空間分解能など)に対応してもよい。更に、「ピクチャインピクチャ(picture-in-picture)」と呼ばれる技術も提出されていた。そのため、ピクチャインピクチャサービスに対応するファイルフォーマットは検討の余地がある。
【発明の概要】
【0004】
本開示の実施形態は、ビデオを処理するための技術案を提供している。
【0005】
第1の局面によれば、ビデオを処理するための方法を提供している。当該方法は、第1ビデオのメディアファイルと第1ビデオのビットストリームとの間の変換を実行することを含み、メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む。
【0006】
上記の方法によれば、指示を採用して、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示する。これにより、提出された方法は、ISOBMFFに基づくメディアファイル内のピクチャインピクチャサービスに対応することを容易に可能にする。
【0007】
第2局面によれば、ビデオデータを処理するための装置を提供している。当該ビデオデータを処理するための装置は、プロセッサと、指令を記憶した非一時的なメモリを備える。指令がプロセッサによって実行されると、本開示の第1局面に係る方法をプロセッサに実行させる。
【0008】
第3局面によれば、非一時的なコンピュータ読み取り可能記憶媒体を提供している。当該非一時的なコンピュータ読み取り可能記憶媒体は、本開示の第1局面に係る方法の指令をプロセッサに実行させる。
【0009】
第4局面によれば、別の非一時的なコンピュータ読み取り可能記録媒体を提供している。当該非一時的なコンピュータ読み取り可能記録媒体は、ビデオ処理装置において実行される方法で生成されたビデオのビットストリームを記憶する。当該方法は、第1ビデオのメディアファイルと第1ビデオのビットストリームとの間の変換を実行することを含む。当該メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む。
【0010】
第5局面によれば、第1ビデオのビットストリームを記憶するための方法を提供している。当該方法は、ビデオのメディアファイルと第1ビデオのビットストリームとの間の変換を実行すること、及びビットストリームを非一時的なコンピュータ読み取り可能記録媒体に記憶することを含む。当該メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む。
【0011】
第6局面によれば、別の非一時的なコンピュータ読み取り可能記録媒体を提供している。当該非一時的なコンピュータ読み取り可能記録媒体は、ビデオ処理装置において実行される方法で生成された第1ビデオのメディアファイルを記憶する。当該方法は、第1ビデオのメディアファイルと第1ビデオのビットストリームとの間の変換を実行することを含み、メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む。
【0012】
第7局面によれば、第1ビデオのメディアファイルを記憶するための方法を提供している。当該方法は、第1ビデオのメディアファイルと第1ビデオのビットストリームとの間の変換を実行すること、及びメディアファイルを非一時的なコンピュータ読み取り可能記録媒体に記憶することを含む。当該メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む。
【0013】
発明の概要についての記載は、簡素化された形態で概念の選択を説明するためであり、これらは以下の発明を実施するための形態において詳細に説明する。発明の概要は、本開示の重要な特徴又は必要な特徴を識別することを意図せず、本開示の範囲を限定することも意図していない。
【図面の簡単な説明】
【0014】
添付図面を参照した以下の詳細な説明によれば、本開示の例示的な実施形態の上記及び他の目的、特徴及び利点はより明らかになる。本開示の例示的な実施形態において、同一の符号は一般的に同一の構成要素を指す。
図1】本開示の幾つかの実施形態に係る例示的なビデオコーデックシステムのブロック図を示している。
図2】本開示の幾つかの実施形態に係る第1例示的なビデオエンコーダのブロック図を示している。
図3】本開示の幾つかの実施形態に係る例示的なビデオデコーダのブロック図を示している。
図4】18個のタイル、24個のスライス及び24個のサブピクチャに分割されたピクチャを示している。
図5】代表として、サブピクチャによるビューポートに関する360°ビデオ伝送方式を示している。
図6】2つのサブピクチャ及び4つのスライスを含むビットストリームから1つのサブピクチャを抽出することを示している。
図7】VVCサブピクチャによるピクチャインピクチャ対応の例を示している。
図8】本発明幾つかの実施形態に係るビデオを処理するための方法のフロー図を示している。
図9】本開示の各種の実施形態を実現可能なコンピュータ装置のブロック図を示している。 すべての添付図面において、同一又は同様な符号は、一般的に同一又は同様な元素を指す。
【発明を実施するための形態】
【0015】
次に、幾つかの実施形態を参照して、本開示の原理を説明する。これらの実施形態は、説明の目的、及び当業者が本開示を理解し実施するのを支援するためにのみ記載されており、本開示の範囲についての限定を意味するものではないことを理解されたい。本明細書に記載される開示内容は、以下に記載されるものに加えて、様々な方法で実施することができる。
【0016】
以下の説明及び特許請求の範囲において、本明細書で使用される全ての科学用語及び技術用語の意味は、特に断りがない限り、本開示が属する技術分野の当業者によって一般的に理解される意味と同じである。
【0017】
本開示における「1つの実施形態」、「実施形態」、「例示的な実施形態」などは、記載された実施形態が特定の特徴、構造、又は特性を含み得ることを示すが、すべての実施形態がそれぞれ上記の特定の特徴、構造、又は特性を含まなければならないわけではない。更に、これらの語句は、必ずしも同一の実施形態を指すとは限らない。更に、例示的な実施形態を参照して特定の特徴、構造、又は特性を説明する場合、明示的に記載されているか否かにかかわらず、他の実施形態に係る特徴、構造、又は特性に影響を及ぼすことは当業者の知識の範囲内であると考えられる。
【0018】
「第1」及び「第2」等の用語は、様々な要素を説明するために使用され得るが、これらの要素は、これらの用語によって限定されるべきではないことが理解されるべきである。これらの用語は、1つの要素を他の要素から区別するために使用されるだけである。例えば、例示的な実施形態の範囲から逸脱することなく、第1要素を第2要素と称することができ、同様に、第2要素を第1要素と称することができる。本明細書で使用される「及び/又は」の用語は、列挙された用語の1つ又は複数の任意の及び全ての組み合わせを含む。
【0019】
本明細書で使用される場合、用語は、特定の実施形態を説明する目的でのみ使用され、例示の実施形態を限定することを意図しない。本明細書で使用される単数形「一」、「一つ」、及び「当該」は、文脈において明らかに記載されない限り、複数形を含むことも意図される。また、本明細書で使用される「備える」、「含む」、及び/又は「有する」の用語は、記載された特徴、要素、及び/又はコンポーネントなどの存在を示すが、1つ又は複数の他の特徴、要素、コンポーネント、及び/又はそれらの組み合わせの存在又は追加を排除するものではないことを理解されたい。
【0020】
実施形態の環境
図1は、本開示の技術を適用可能な例示的なビデオコーデックシステム100のブロック図を図示している。このように、ビデオコーデックシステム100は、ソース装置110とターゲット装置120とを備えてもよい。ソース装置110は、ビデオ符号化装置とも称され、ターゲット装置120は、ビデオ復号化装置とも称される。操作中に、ソース装置110は、符号化されたビデオデータを生成するように配置されてもよく、ターゲット装置120は、ソース装置110によって生成された、符号化されたビデオデータを復号するように配置されてもよい。ソース装置110は、ビデオソース112と、ビデオエンコーダ114と、入出力(I/O)インターフェース116とを含んでもよい。
【0021】
ビデオソース112は、例えばビデオキャプチャ装置のようなソースを備えてもよい。ビデオキャプチャ装置は、ビデオコンテンツの事業者からビデオデータを受信するインターフェースや、ビデオデータを生成するためのコンピュータグラフィックスシステム及び/又はそれらの組み合わせが挙げられるが、これに限定されてない。
【0022】
ビデオデータは、1つ又は複数のピクチャを含むことができる。ビデオエンコーダ114ビデオソース112からのビデオデータを符号化して、ビットストリームを生成する。ビットストリームは、ビデオデータを形成し符号化されたビット系列を含んでもよい。ビットストリームは、符号化ピクチャとそれに関連するデータを含んでもよい。符号化ピクチャはピクチャを符号化して表現したものである。それに関連するデータは、シーケンスパラメータセットと、ピクチャパラメータセットと、その他の文法構成(構文構造)を含んでもよい。I/Oインターフェース116は、変復調機及び/又は送信機を含んでもよい。符号化されたビデオデータは、ネットワーク130AによりI/Oインターフェース116を介してターゲット装置120に直接伝送することができる。符号化されたビデオデータは、ターゲット装置120がアクセスするように記憶媒体/サーバ130Bに記憶することができる。
【0023】
ターゲット装置120は、I/Oインターフェース126と、ビデオデコーダ124と、表示装置122を含んでもよい。I/Oインターフェース126は、受信機及び/又は変復調機を含んでもよい。I/Oインターフェース126は、ソース装置110又は記憶媒体/サーバ130Bから符号化されたビデオデータを取得することができる。ビデオデコーダ124は符号化されたビデオデータを復号することができる。表示装置122は、ユーザに対して復号化されたビデオデータを表示することができる。表示装置122がターゲット装置120と一体的に構成されてもよく、ターゲット装置120の外部において、外部表示装置インターフェースがこのターゲット装置120と接続可能に配置されてもよい。
【0024】
ビデオエンコーダ114及びビデオデコーダ124は、ビデオ圧縮規格、例えば、高能率ビデオ符号化(HEVC)規格、汎用ビデオ符号化(VVC)規格及びその他の従来の及び/又は更なる規格に準じて操作することができる。
【0025】
図2は、本開示の幾つかの実施形態に係るビデオエンコーダ200を示している例示的なブロック図である。ビデオエンコーダ200は、図1に示すシステム100のビデオエンコーダ114の例であってもよい。
【0026】
ビデオエンコーダ200は、本開示の何れか又はすべての技術を実現するように構成することができる。図2の例では、ビデオエンコーダ200は、複数の機能コンポーネントを含む。本開示に記述の技術は、ビデオエンコーダ200の各コンポーネントの間で共用することができる。幾つかの例では、プロセッサは、本開示に記述の何れか又はすべての技術を実行するように構成されてもよい。
【0027】
幾つかの実施形態では、ビデオエンコーダ200は、分割ユニット201と、予測ユニット202と、残差生成ユニット207と、変換ユニット208と、量子化ユニット209と、逆量子化ユニット210と、逆変換ユニット211と、再構成ユニット212と、バッファ213と、エントロピー符号化・復号化ユニット214を含んでもよく、該予測ユニット202は、モード選択ユニット203と、動き推定ユニット204と、動き補償ユニット205と、フレーム内予測ユニット206を含んでもよい。
【0028】
別の例では、ビデオエンコーダ200は、より多い、又は、より少ない、又は、異なる機能コンポーネントを含んでもよい。一実施形態では、予測ユニット202は、ブロック内コピー(IBC)ユニットを含んでもよい。IBCユニットは、IBCモードにおいて予測を実行することができる。少なくとも1つのリファレンスピクチャは、現在のビデオブロックが位置するピクチャである。
【0029】
更に、幾つかコンポーネント(例えば、動き推定ユニット204と動き補償ユニット205)は、集約化可能であるが、解釈の便宜上、これらのコンポーネントは、図2の例では離間して示されている。
【0030】
分割ユニット201は、ピクチャを1つ又は複数のビデオブロックに分割することができる。ビデオエンコーダ200とビデオデコーダ300は、様々なビデオブロックの大きさに対応することができる。
【0031】
モード選択ユニット203は、例えば、誤差結果に基づいて、様々なコーデックモード(フレーム内符号化又はインター符号化)の1つを選択して、生じたフレーム内符号化ブロック又はインター符号化ブロックを残差生成ユニット207に提供し残差ブロックデータを生成して、再構成ユニット212に提供しリファレンスピクチャとして符号化ブロックを再構成することができる。幾つかの例では、モード選択ユニット203は、フレーム内及びフレーム間予測(CIIP)モードの結合を選択して、フレーム間予測信号及びフレーム内予測信号に基づいて予測することができる。フレーム間予測の場合、モード選択ユニット203は、ブロックに対して動きベクトルについての分解能(例えば、副画素精度又は整数画素精度)を選択することもできる。
【0032】
現在のビデオブロックについてフレーム間予測を実行するために、動き推定ユニット204は、バッファ213からの1つ又は複数のリファレンスフレームと現在のビデオブロックとを比較することで、現在のビデオブロックについての動き情報を生成することができる。動き補償ユニット205は、動き情報と、バッファ213からの現在のビデオブロックに関連するピクチャを除くピクチャの復号化されたサンプルに応じて、現在のビデオブロックについての予測ビデオブロックを特定することができる。
【0033】
動き推定ユニット204及び動き補償ユニット205は、現在のビデオブロックがIスライス、Pスライス又はBスライスのどっちに位置するかに応じて、現在のビデオブロックについて異なる操作を実行することができる。例えば、本明細書にいて使用される「Iスライス」は、マクロブロックからなるピクチャの一部分であってもよく、全てのマクロブロックは何れも同一のピクチャにおけるマクロブロックに由来する。更に、本明細書において使用されるように、ある局面では、「Pスライス」及び「Bスライス」は、同一のピクチャにおけるマクロブロックとは別のマクロブロックからなるピクチャの部分であってもよい。
【0034】
幾つかの例では、動き推定ユニット204は、現在のビデオブロックについて単方向予測を実行することができ、動き推定ユニット204は、リスト0又はリスト1のリファレンスピクチャを検索して、現在のビデオブロックに対するリファレンスビデオブロックを探すことができる。そして、動き推定ユニット204は、リスト0又はリスト1内のリファレンスビデオブロックを含むリファレンスピクチャを指示するリファレンスインデックスと、現在のビデオブロックとリファレンスビデオブロックとの間の空間変位を指示する動きベクトルとを生成することができる。動き推定ユニット204は、現在のビデオブロックの動き情報として、リファレンスインデックス、予測方向標識、及び動きベクトルを出力することができる。動き補償ユニット205は、現在のビデオブロックの動き情報で指示されるリファレンスビデオブロックに応じて、現在のビデオブロックの予測ビデオブロックを生成することができる。
【0035】
また、別の例では、動き推定ユニット204は、現在のビデオブロックについて両方向予測を実行することができる。動き推定ユニット204は、リスト0内のリファレンスピクチャを検索して、現在のビデオブロックに対するリファレンスビデオブロックを探すことができ、更に、リスト1内のリファレンスピクチャを検索して、現在のビデオブロックに対する他のリファレンスビデオブロックを探すことができる。そして、動き推定ユニット204は、リスト0及びリスト1内の複数のリファレンスビデオブロックを含む複数のリファレンスピクチャを指示する複数のリファレンスインデックスと、複数のリファレンスビデオブロックと現在のビデオブロックとの間の複数の空間変位を指示する複数の動きベクトルとを生成することができる。動き推定ユニット204は、現在のビデオブロックの複数のリファレンスインデックスと複数の動きベクトルを現在のビデオブロックの動き情報として出力することができる。動き補償ユニット205は、現在のビデオブロックの動き情報で指示される複数のリファレンスビデオブロックに応じて現在のビデオブロックについての予測ビデオブロックを生成することができる。
【0036】
幾つかの例では、動き推定ユニット204は、完全な動き情報セットを出力して、デコーダの復号化処理に用いることができる。或いは、幾つかの実施形態では、動き推定ユニット204は、他のビデオブロックの動き情報を参照して、信号で現在のビデオブロックの動き情報を伝送することができる。例えば、動き推定ユニット204は、現在のビデオブロックの動き情報と近隣のビデオブロックの動き情報とが十分に似ていることを確定することができる。
【0037】
一実施形態では、動き推定ユニット204は、現在のビデオブロックに関連する文法構成においてビデオデコーダ300に対して1つの値を指示することができ、この値は、現在のビデオブロックが他のビデオブロックと同じ動き情報を有することを指示する。
【0038】
別の例では、動き推定ユニット204は、現在のビデオブロックに関連する文法構成において、他のビデオブロックと動きベクトル差(MVD)を識別することができる。動きベクトル差は、現在のビデオブロックの動きベクトルと指示されるビデオブロックの動きベクトルとの間の差異を指示する。ビデオデコーダ300は、指示されるビデオブロックの動きベクトル及び動きベクトル差を使用して、現在のビデオブロックの動きベクトルを確定することができる。
【0039】
上述したように、ビデオエンコーダ200は、予測性の方式にて信号で動きベクトルを伝送することができる。ビデオエンコーダ200が実現可能な予測シグナリング技術についての2つの例は、高度な動きベクトル予測(AMVP)及びマージモードシグナリングを含む。
【0040】
フレーム内予測ユニット206は、現在のビデオブロックについてフレーム内予測を実行することができる。フレーム内予測ユニット206が、現在のビデオブロックについてフレーム内予測を実行する際に、フレーム内予測ユニット206は、同一のピクチャにおける他のビデオブロックの復号化されたサンプルに基づいて現在のビデオブロックに対する予測データを生成することができる。現在のビデオブロックに対する予測データは、予測ビデオブロックと各々のシンタックスエレメントを含んでもよい。
【0041】
残差生成ユニット207は、現在のビデオブロックから(例えば、マイナス記号で指示)現在のビデオブロックの(複数の)予測ビデオブロックを減算することで、現在のビデオブロックについての残差データを生成することができる。現在のビデオブロックの残差データは、現在のビデオブロックのサンプルの異なるサンプル部分に対応する残差ビデオブロックを含んでもよい。
【0042】
別の例では、例えばスキップモードでは、現在のビデオブロックについて現在のビデオブロックについての残差データが存在しないことがあり、残差生成ユニット207は、減算動作を実行しなくてもよい。
【0043】
変換処理ユニット208は、1つ又は複数の変換を現在のビデオブロックに関連する残差ビデオブロックに適用することで、現在のビデオブロックに対する1つ又は複数の変換係数ビデオブロックを生成することができる。
【0044】
変換処理ユニット208が現在のビデオブロックに関連する変換係数ビデオブロックを生成した後に、量子化ユニット209は、現在のビデオブロックに関連する1つ又は複数の量子化パラメータ(QP)値に基づいて、現在のビデオブロックに関連する変換係数ビデオブロックを量子化することができる。
【0045】
逆量子化ユニット210及び逆変換ユニット211は、それぞれ変換係数ビデオブロックに対して逆量子化及び逆変換を適用して、変換係数ビデオブロックから残差ビデオブロック再構成することができる。再構成ユニット212は、再構成された残差ビデオブロックを、予測ユニット202により生成される1つ又は複数の予測ビデオブロックからの対応するサンプルに追加して、現在のビデオブロックに関連する再構成ビデオブロックを生じて、バッファ213に記憶することができる。
【0046】
再構成ユニット212は、ビデオブロックを再構成した後に、ループフィルタ処理を実行してビデオブロックにおけるビデオブロック効果アーチファクトを低下させることができる。
【0047】
エントロピー符号化・復号化ユニット214は、ビデオエンコーダ200の他の機能コンポーネントからデータを受信することができる。エントロピー符号化・復号化ユニット214がデータを受信する際に、エントロピー符号化・復号化ユニット214は、1つ又は複数のエントロピー符号化処理を実行して、エントロピー符号化・復号化データを生成し、当該エントロピー符号化・復号化データを含むビットストリームを出力することができる。
【0048】
図3は、本開示の幾つかの実施形態に係るビデオデコーダ300の例示的なブロック図を示している。ビデオデコーダ300は、図1に示すシステム100内のビデオデコーダ124の例であってもよい。
【0049】
ビデオデコーダ300は、本開示の何れか又はすべての技術を実行するように構成してもよい。図3の例では、ビデオデコーダ300は、複数の機能コンポーネントを含む。本開示に記述の技術は、ビデオデコーダ300の各コンポーネントの間で共用されてもよい。幾つかの例では、プロセッサは、本開示に記述の何れか又はすべての技術を実行するように配置されてもよい。
【0050】
図3の例では、ビデオデコーダ300は、エントロピー復号化ユニット301と、動き補償ユニット302と、フレーム内予測ユニット303と、逆量子化ユニット304と、逆変換ユニット305と、再構成ユニット306と、バッファ307とを備える。幾つかの例では、ビデオデコーダ300は、一般的にビデオエンコーダ200について説明した符号化処理に対する復号化処理を実行することができる。
【0051】
エントロピー復号化ユニット301は、符号化されたビットストリームを取り戻すことができる。符号化されたビットストリームは、エントロピー符号化されたビデオデータ(例えば、符号化されたビデオデータブロック)を含んでもよい。エントロピー復号化ユニット301は、エントロピー符号化されたビデオデータを復号することができ、動き補償ユニット302は、エントロピー復号化されたビデオデータから、動きベクトルと、動きベクトル精度と、リファレンスピクチャリストインデックスとその他の動き情報とを含む動き情報を特定することができる。動き補償ユニット302は、例えば、AMVP及びマージモードを実行することで該情報を特定することができる。AMVPは、近隣のPBのデータ及びリファレンスピクチャから幾つかの最も可能性の高い候補を得ることを含めて使用される。動き情報は、一般的に、水平及び垂直動きベクトル変位値及び1つ又は2つのリファレンスピクチャインデックスを含み、Bスライスにおける予測領域の場合、どのリファレンスピクチャリストが各インデックスに関連するかの識別を更に含む。本明細書で使用されるように、ある局面において、「マージモード」は、空間的又は時間的に隣接するブロックから動き情報を導出することを指す場合がある。
【0052】
動き補償ユニット302は、場合によっては補間フィルタにより補間を実行するように動き補償ブロックを生成することができる。副画素精度で使用される補間フィルタの識別子は、シンタックスエレメントに含まれてもよい。
【0053】
動き補償ユニット302は、ビデオブロックの符号化中にビデオエンコーダ200に使用される補間フィルタを利用して、リファレンスブロックのサブ整数画素のための補間値を算出することができる。動き補償ユニット302は、受信したシンタックス情報に基づいてビデオエンコーダ200に使用される補間フィルタを決定することができ、動き補償ユニット302は、補間フィルタを利用して予測ブロックを生成することができる。
【0054】
動き補償ユニット302は、少なくとも一部のシンタックス情報を利用して、符号化されたビデオシーケンスを符号化するための(複数の)フレーム及び/又は(複数の)スライスのブロックの大きさ、符号化されたビデオシーケンスのピクチャの各マクロブロックがどのように分割されるかを説明する分割情報、各分割がどのように符号化されるかを指示するモード、各インター符号化ブロックに対する1つ又は複数のリファレンスフレーム(及びリファレンスフレームリスト)、及び符号化されたビデオシーケンスを復号する他の情報を決定することができる。本明細書において使用されるように、幾つかの局面において、「スライス」は、エントロピー符号化、信号予測及び残差信号再構成について、同一のピクチャの他のスライスから独立して復号化可能なデータ構成であってもよい。スライスは、ピクチャ全体であってもよく、又はピクチャの領域であってもよい。
【0055】
フレーム内予測ユニット303は、例えば、ビットストリームにおいて受信したフレーム内予測パターンを利用して、空間的に隣接するブロックから予測ブロックを形成することができる。逆量子化ユニット304は、ビットストリームにおいて提供される、エントロピー復号化ユニット301により復号化された量子化ビデオブロック係数を逆量子化する(即ち、非量子化する)。逆変換ユニット305は、逆変換を適用する。
【0056】
再構成ユニット306は、例えば、残差ブロックと動き補償ユニット302又はフレーム内予測ユニット303により生成された対応する予測ブロックとを加算することで復号化されたブロックを得ることができる。必要であれば、ブロック効果アーチファクトを除去するために、デブロッキング効果フィルタを適用して、復号化されたブロックをフィルタリングしてもよい。そして、復号化されたビデオブロックは、バッファ307に記憶され、バッファ307は、後続の動き補償/フレーム内予測に対してリファレンスブロックを提供し、バッファ307は更に、表示装置に提示するように、復号化されたビデオを生成する。
【0057】
以下、本開示の幾つかの例示的な実施形態を詳細に説明する。本明細書において章の見出しは、理解を容易にするために使用されるものであり、ある章において開示される実施形態をその章に限定するものではないことに留意されたい。更に、汎用のビデオコーデック又は他の特定のビデオコーデックを参照して幾つかの実施形態について説明したが、開示された技術は、他のビデオコーデック技術にも適用可能である。更に、幾つかの実施形態では、ビデオ符号化ステップを詳細に説明したが、符号化をキャンセルするための対応する復号化ステップは、デコーダによって実現することを理解されたい。更に、ビデオ処理という用語は、ビデオ符号化又は圧縮、ビデオ復号化又は展開、及びビデオ画素をある圧縮フォーマットから別の圧縮フォーマットへ、又は別の圧縮ビットレートで表現するビデオトランスコードを含む。

1.概要
本開示は、ビデオファイルフォーマットに関する。具体的には、メディアファイルにおけるピクチャインピクチャ対応に関する。メディアファイルフォーマット、例えばISOベースメディアファイルフォーマット(ISOBMFF)又はその拡張について、個別に又は様々な組み合わせでこれらの構想を適用することができる。
2.背景技術
2.1 ビデオコーデック規格について
ビデオコーデック規格は、主によく知られたITU-T及びISO/IEC規格の開発を通じて発展してきた。ITU-Tは、H.261及びH.263を制定し、ISO/IECは、MPEG-1及びMPEG-4Visualを制定し、2つの組織は、H.262/MPEG-2Video、H.264/MPEG-4高度なビデオコーデック(AVC)及びH.265/HEVC規格を共同制定した。H.262以降、ビデオコーデック規格は、時間予測及び変換コーデックを使用したハイブリッドビデオコーデックアーキテクチャに基づく。HEVC以外の将来のビデオ符号化技術を探求するために、VCEGとMPEGは、2015年に共同ビデオ探索チーム(JointVideoExplorationTeam、JVET)を共同で設立した。それ以来、JVETは、多くの新しいアプローチを採用し、共同探索モデル(JEM)と呼ばれる参照ソフトウェアに組み込んでいた。汎用ビデオコーデック(VVC)プロジェクトの正式発足に伴い、JVETは、その名称を共同ビデオ専門家チーム(JointVideoExpertSTeam、JVET)に変更した。VVCは、JVETが2020年7月1日に終わった第19回会合で最終決定された、HEVCと比較してビットレートを50%低減させることを目標とする新しいコーデック規格である。
汎用ビデオコーデック(VVC)規格(ITU-T H.266|ISO/IEC23090-3)及び関連する多機能補足強調情報(VSEI)規格(ITU-T H.274|ISO/IEC23002-7)は、従来の用途(例えば、テレビ放送、ビデオ会議又は記憶媒体からの再生など)、及びより新しく高度な用途(例えば、適応ビットレートストリーミング、ビデオ領域抽出、及び複数の符号化・復号化されたビデオビットストリーム、マルチビュービデオ、拡張レイヤコーデック及びビューポート適応(viewport-adaptive)360°没入型メディアのコンテンツの組み合わせ及びマージ)の両方を含む、最も幅広い用途で使用するように設計されている。
エレメンタリービデオコーデック(EVC)規格(ISO/IEC23094-1)は、MPEGが最近開発したもう1つのビデオコーデック規格である。
2.2 ファイルフォーマット規格について
メディアストリームアプリケーションは、通常、IP、TCPとHTTP伝送方法に基づくとともに、通常、例えばISOベースメディアファイルフォーマット(ISOBMFF)などのファイルフォーマットに依存する。これらのストリーミングシステムのうちの1つは、HTTPに準拠する動的適応ストリーミング(DASH)である。ISOBMFF及びDASHを持つビデオフォーマットを使用するには、ビデオコンテンツをISOBMFFのトラック及びDASHの表現やクリップにカプセル化するための、ビデオフォーマット固有のファイルフォーマット規格、例えばAVCファイルフォーマットおよびHEVCファイルフォーマットが必要である。ビデオビットストリームに関する重要な情報、例えば、プロファイル、レイヤ、クラス及び多くの他の情報は、コンテンツの選択目的、例えば、ストリーミングセッション開示時の初期化及びストリーミングセッション期間のストリーミング適応の両方の適切なメディアクリップの選択目的のために、ファイルフォーマットクラスメタデータ及び/又はDASHメディアプレゼンテーション記述(MPD)として披露される必要がある。
同様に、ISOBMFF画像フォーマットを使用するには、画像フォーマット固有のファイルフォーマット規格、例えば、AVC画像ファイルフォーマットおよびHEVC画像ファイルフォーマットが必要である。
ISOBMFFに基づくVVCビデオコンテンツを記憶するためのファイルフォーマットであるVVCビデオファイルフォーマットは、現在、MPEGによって開発されている。VVCによりエンコードされた画像コンテンツを記憶しISOBMFFに基づくVVC画像ファイルフォーマットは、現在、MPEGにより開発されている。
2.3 VVCにおけるピクチャ分割及びサブピクチャについて
VVCでは、1枚のピクチャは、1つ又は複数のタイル行と1つ又は複数のタイル列に分割される。タイルは、ピクチャをカバーする矩形領域のCTUシーケンスである。タイルにおけるCTUは、このタイルにおいてラスタースキャン順序でスキャンされる。
スライスは、ピクチャのタイル内の整数個の完全なタイル又は整数個の連続した完全なCTU行からなる。
2種類のスライスモード、即ち、ラスタースキャンスライスモードと矩形スライスモードはサポートされる。ラスタースキャンスライスモードでは、スライスは、ピクチャのタイルラスタースキャン中の完全なタイルシーケンスを含む。矩形スライスモードでは、スライスは、ピクチャの矩形領域を共同で形成する複数の完全なタイル、又はピクチャの矩形領域を共同で形成する1つのタイルの複数の連続した完全なCTU行を含む。矩形スライス内のタイルは、当該スライスに対応する矩形領域内で、タイルラスタースキャン順序でスキャンされる。
サブピクチャは、ピクチャの矩形領域を共同でカバーする1つ又は複数のスライスを含む。
2.3.1 サブピクチャの概念及び機能について
VVCでは、例えば、図4に示すように、各サブピクチャは、ピクチャの矩形領域を共同でカバーする1つ又は複数の完全な矩形スライスからなる。サブピクチャは、抽出可能(即ち、同一の画像の他のサブピクチャ及び復号化の順序での以前の画像の他のサブピクチャとは独立して符号化及び復号化される)又は抽出不可能であると限定されてもよい。サブピクチャが抽出可能であるか抽出不可能であるかにかかわらず、エンコーダは、各サブピクチャに対して個別にサブピクチャ境界を超えてループフィルタリング(デブロッキング、SAOと及びALFを含む)を適用するかどうかを制御することができる。
機能的には、サブピクチャは、HEVCにおける動き制約付きタイルセット(motion-constraineDtileset、MCTS)に似ている。両方の何れも、例えばビューポートに関する360°ビデオストリーム最適化及び感心領域(regionofinterest、ROI)アプリケーションなどの応用例について、独立してコーデックを行うこと、及び符号化・復号化されたピクチャシーケンスの矩形サブセットを抽出することが許容される。
360°ビデオストリーム(別名:全方位ビデオ)では、任意の特定の時点において、全方位ビデオ球全体のサブセット(即ち、現在のビューポート)のみがユーザに提示され、ユーザは、いつでも、彼/彼女の頭を回動させて視聴方向及び現在のビューポートを変更することができる。同時に、少なくともクライアント端末の現在のビューポートによってカバーされていない領域について、幾つかの低品質の表現を有することが望ましく、ユーザが突然彼/彼女の視聴方向を球面上の任意の位置に変更することを防止するように、ユーザに対してレンダリングされることを用意しておく。任意の所定の時点において、球面上の全方位ビデオの高品質表現は、ユーザに対するレンダリングが必要である現在のビューポートにのみ必要になる。このような最適化は、図4に示すように、全方位ビデオ全体の高品質表現をサブピクチャに適切な粒度で分割することで実現することができる。ここで、図4は、左側に位置する高分解能を持つ12つのサブピクチャと、右側に位置する低分解能を持つ全方位ビデオの残りの12つのサブピクチャとを有する。
別の代表的なサブピクチャによるビューポート関連360°ビデオ配信方式は、図5に示すように、完全なビデオの高分解能表現のみがサブピクチャで構成される一方で、完全なビデオの低分解能表現が、サブピクチャを使用せず、高分解能表現よりも少ない頻度のRAPで符号化及び復号化することができる。クライアント端末において、低分解能の完全なビデオを受信するが、高分解能のビデオについては、現在のビューポートをカバーするサブピクチャのみを受信して復号化する。
2.3.2 サブピクチャとMCTSとの間の違いについて
サブピクチャとMCTSとの間には、幾つかの重要な設計上での違いがある。第1に、ピクチャの境界と同様に、VVCのサブピクチャ特徴は、符号化ブロックの動きベクトルがサブピクチャ外側へ指向することを許容する。この場合であっても、サブピクチャ境界においてサンプルパディングを適用することで、サブピクチャを抽出することができる。第2に、マージモード及びVVCのデコーダ側の動き洗練の期間に、動きベクトルの選択及びエクスポートは、追加のバリエーションを導入する。MCTSエンコーダ側において適用される非正統的な動き制約と比較して、より高いコーデック効率が可能になる。第3に、画像シーケンスから1つ又は複数の抽出可能なサブピクチャを抽出して、サブビットストリーム(コヒーレントビットストリームである)を作成する場合、SH(及びPHNALユニット(存在する場合))を書き換える必要がない。HEVC MCTSベースのサブビットストリーム抽出において、SHの書き換えが必要である。なお、SPS及びPPSは、HEVC MCTS抽出及びVVCサブピクチャ抽出の両方において、書き換える必要がある。しかし、一般的に、1つのビットストリームには、幾つかのパラメータセットしかなく、各ピクチャは、少なくとも1つのスライスを有するため、SHの書き換えは、アプリケーションシステムにとって大きな負担となる。第4に、1枚のピクチャ内の異なるサブピクチャのスライスは、異なるNALユニットタイプを有することができる。以下、より詳細に説明するように、これは、一般的に、ピクチャにおける混合NALユニットタイプ又は混合サブピクチャタイプと称される特徴である。第5に、VVCがサブピクチャシーケンスのHRDとレベル定義を規定するため、エンコーダは、抽出可能な各サブピクチャシーケンスのサブビットストリームの一貫性を確保することができる。
2.3.3 ピクチャの混合サブピクチャタイプについて
AVC及びHEVCでは、1枚のピクチャにおける全てのVCL NALユニットは、同一のNALユニットタイプを持つ必要がある。VVCは、ピクチャには異なるVCL NALユニットタイプを持つサブピクチャが混在したというオプションを導入して、ピクチャレベルだけでなく、サブピクチャレベルでもランダムアクセスをサポートする。VVCでは、サブピクチャにおけるVCL NALユニットは、依然として同一のNALユニットタイプを持つ必要がある。
IRAPサブピクチャからのランダムアクセスの機能は、360°ビデオアプリケーションに有利である。図5に示すビューポートに依存する360°ビデオと同様な配信方式では、空間的に隣接するビューポートのコンテンツは大きく重なり合う、即ち、ビューポート方向が変化する間に、ビューポート内のサブピクチャのごく一部だけは新しいサブピクチャに入れ替えられるが、サブピクチャの大半はビューポート内に残る。ビューポートに新たに導入されたサブピクチャのシーケンスは、IRAPスライスから開示されなければならないが、残りのサブピクチャがビューポートの変更中にフレーム間予測を実行することが許容される場合、全体的な伝送ビットレートの大幅な低減を達成することができる。
ピクチャが単一のタイプのNALユニットのみを含むか、又は複数のタイプを含むかの指示は、ピクチャの参照されるPPSにおいて提供される(即ち、pps_mixed_nalu_types_in_pic_flagというフラグを使用する)。ピクチャは、IRAPスライスを含むサブピクチャと後続スライスを含むサブピクチャから構成することができる。ピクチャには、NALユニットタイプRASLとRADLの先行ピクチャスライスを含む、異なるNALユニットタイプの他の幾つかの組み合わせが存在することが可能である。これにより、異なるビットストリームから抽出された、open-GOP及びclose-GOPコーデック構造を持つサブピクチャシーケンスを、1つビットストリームにマージすることができる。
2.3.4 サブピクチャのレイアウト及びIDシグナリングについて
VVCのサブピクチャのレイアウトは、SPSにおいて信号通知されるため、CLVSにおいて変更しない。各サブピクチャが、その左上隅のCTUの位置と複数のCTUの幅及び高さで表現されるため、そのため、サブピクチャは、CTU粒度でピクチャをカバーする矩形領域を確保する。ピクチャ内の各サブピクチャのインデックスは、SPSにおいて信号通知されるサブピクチャの順序で決定される。
SH又はPHを書き換えることなく、サブピクチャシーケンスを抽出しマージできるようにするために、VVCにおけるスライスアドレス指定方式は、サブピクチャID及びサブピクチャの特定のスライスインデックスに基づいて、スライスとサブピクチャとを関連付ける。SHでは、スライスを含むサブピクチャのサブピクチャIDとサブピクチャレベルのスライスインデックスは信号通知される。なお、特定のサブピクチャのサブピクチャIDの値は、そのサブピクチャインデックスの値とは異なることがある。両方の間のマッピングは、SPS又はPPS(両方はない)において信号通知される、若しくは、暗黙的に推測される。サブピクチャIDのマッピングが存在する場合、サブピクチャサブビットストリーム抽出処理の期間に、SPS及びPPSを書き換える際に、サブピクチャIDのマッピングの書き換え又は追加の必要がある。サブピクチャIDは、サブピクチャレベルのスライスインデックスと共に、復号化画像のDPBタイムスリット内のスライスの最初の復号化されたCTUの正確な位置をデコーダに対して指示する。サブビットストリームの抽出後に、サブピクチャのサブピクチャIDは変化しないが、サブピクチャインデックスは変化する可能性がある。サブピクチャのスライスにおける最初のCTUのラスタースキャンCTUアドレスが、元のビットストリームにおける値と比較して変化しても、対応するSHにおける変化しないサブピクチャIDとサブピクチャレベルのスライスインデックスにより、抽出されたサブビットストリームの復号化画像における各CTUの位置を正しく決定する。図6は、2つのサブピクチャと4つのスライスを含む例によって、サブピクチャID、サブピクチャインデックス及びサブピクチャレベルのスライスインデックスを使用するサブピクチャの抽出を示す。
サブピクチャの抽出と同様に、サブピクチャのシグナリングについて、異なるビットストリームが協調して生成される(例えば、異なるサブピクチャIDを使用するが、それ以外は、CTUの大きさ、クロマフォーマット、コーデックツールなどのSPS、PPS及びPHパラメータを揃えることが多い)ことを前提として、SPSとPPSのみを書き換えることで、異なるビットストリームからの複数のサブピクチャを単一のビットストリームにマージすることができる。
サブピクチャとスライスはそれぞれSPS及びPPSにおいて独立して信号通知されるが、一貫性のあるビットストリームを形成するために、サブピクチャとスライスレイアウトの間には固有の相互制約がある。先ず、サブピクチャが存在するには、矩形スライスを使用するとともにラスタースキャンスライスを禁止する必要がる。次に、所定のサブピクチャのスライスは、復号化順序で連続したNALユニットである必要がる。これは、サブピクチャレイアウトが、ビットストリーム内の符号化・復号化されたスライスNALユニットの順序を制限することを意味する。
2.4 ピクチャインピクチャサービスについて
ピクチャインピクチャサービスは、高分解能のピクチャに低分解能のピクチャを含める機能を提供している。このようなサービスは、ユーザに対して2つのビデオを同時に表示することができるため、分解能の高い方のビデオを主ビデオとし、分解能の低い方のビデオを補足ビデオとする。このようなピクチャインピクチャサービスは、主ビデオが標識(signage)ビデオで補足されることで、アクセシビリティサービスを提供するために用いられる。
VVCサブピクチャは、その抽出及びマージ特性を利用することで、ピクチャインピクチャサービスに用いられる。このようなサービスでは、主ビデオは、複数のサブピクチャを利用して符号化が行われ、複数のサブピクチャの1つは、補足ビデオと同じサイズで、補足ビデオを主ビデオに合成しようとする正確な位置に位置し、抽出可能に独立して符号化される。ユーザが補足ビデオを含むサービスのバージョンを見る場合に、図7に示すように、主ビデオビットストリームから主ビデオのピクチャインピクチャ領域に対応するサブピクチャが抽出され、補足ビデオビットストリームがその主ビデオビットストリームにおける位置にマージされる。図7は、VVCサブピクチャによるピクチャインピクチャ対応の例を示している。
この場合、主ビデオと補足ビデオのピクチャは、同一のビデオ特性を共有しなければならず、特にビット深度、サンプルアスペクト比、サイズ、フレームレート、色空間、伝送特性、クロマサンプル位置が同じでなければならない。主ビデオビットストリーム及び補足ビデオビットストリームは、各ピクチャにおいてNALユニットタイプを使用する必要はない。しかし、マージには、主ビットストリームと補足ビットストリームのピクチャが同じ順序で符号化・復号化されることが必要である。
本開示では、マージサブピクチャが必要であるため、主ビデオと補足ビデオにおいて使用されるサブピクチャIDは重複してはならない。補足ビデオビットストリームは、任意の他のタイル又はスライス分割を有せず、1つのサブピクチャのみで構成されても、サブピクチャ情報、特にサブピクチャID及びサブピクチャID長さを信号通知することで、補足ビデオビットストリームを主ビデオビットストリームにマージする必要がある。補足ビデオビットストリームのシグナリング通知用のスライスNALユニット内のサブピクチャシンタックスエレメントのサブピクチャID長さは、主ビデオビットストリームのシグナリング通知用のスライスNALユニット内のサブピクチャIDのサブピクチャID長さと同じでなければならない。また、PPS分割情報を書き換えることなく、補足ビデオビットストリームと主ビデオビットストリームのマージを簡素化させるために、主ビデオの対応する領域において、1つのスライス及び1つのタイルのみを使用して補足ビデオを符号化することは有益である。主ビデオビットストリームと補助ビデオビットストリームは、SPS、PPS及びピクチャヘッダーにおいて使用される同一のコーデックツールをシグナリング通知しなければならない。これには、ブロック分割のための同一の最大許容サイズ、最小許容サイズ、及びPPSにおいて指示される初期量子化パラメータと同じ値(pps_init_qp_minus26シンタックスエレメントと同じ値)を使用することが含まれている。コーデックツールの使用は、スライスヘッダーレベルで変更可能である。
主ビットストリーム及び補足ビットストリームは、ISOBMFFに基づくメディアファイル内で利用可能な場合、これらは、2つの別々のファイルフォーマットトラックに記憶することができる。
3.問題点
ISOBMFFに基づくメディアファイルにおいてピクチャインピクチャをサポートする場合に、以下の問題点が指摘されている:
1)異なるファイルフォーマットトラックを使用してピクチャインピクチャ主ビットストリーム及び補足ビットストリームのそれぞれを記憶可能であるが、ISOBMFFに基づくメディアファイル内のこのようなトラックのペアを指示するためのメカニズムが欠如している。
2)VVCサブピクチャを使用してピクチャインピクチャの体験を実現可能であるが、例えば、上述したように、主ビデオにおける目標ピクチャインピクチャ領域を示す符号化ビデオデータユニットを補足ビデオの対応するビデオデータユニットに入れ替え可能ではない場合、他のデコーダ及び方法を利用してもよい。そのため、ISOBMFFに基づくメディアファイルにおいて、このような入れ替えが可能かどうかを指示する必要がある。
3)上述した入れ替えが可能である場合、クライアント端末では、主ビデオの各ピクチャにおける符号化・復号化されたビデオデータユニットのどれがターゲット図における画像領域を代表するかを知っていなければ、入れ替えを行うことができない。そのため、この場合、ISOBMFFに基づくメディアファイルにおいて、この情報を信号通知する必要がある。
4)コンテンツ選択の目的及び他の可能な目的のために、ISOBMFFに基づくメディアファイルにおいて主ビデオにおける目標ピクチャインピクチャ領域の位置及びサイズをシグナリング通知することは有用である。
4.例示的な実施形態
上述した問題点を解決するために、以下の概括的に説明する方法が開示されている。なお、本実施形態は、一般的な概念を説明するための例として、限定的に理解されるべきではない。更に、実施形態は、個別に適用してもよいし、任意の組み合わせで適用してもよい。便宜上、ピクチャインピクチャ体験を共同で提供する主ビットストリーム及び補足ビットストリームを担持する(carry)一対のトラックは、一対のピクチャインピクチャトラック又はピクチャインピクチャトラックのペアと称される。
1)最初の問題点を解決するために、トラックがトラックリファレンスを含み、かつ、トラックリファレンスによって参照されるトラックが一対のピクチャインピクチャトラックであることを指示するように、新しいトラックリファレンスタイプが定義される。
a.一実施形態では、このようなトラックリファレンスの新しいタイプは、特定の値に等しいトラックリファレンスタイプ、例えば、「pips」(「ピクチャインピクチャ補足ビットストリームを参照する」という意味)で指示されるとともに、該トラックリファレンスを含むトラックは、主ビットストリームを担持し、トラックリファレンスによって参照されるトラックは、補足ビットストリームを担持する。
b.別の例では、このトラックリファレンスの新しいタイプは、特定の値に等しいのトラックリファレンスタイプ、例えば、「pipm」(ピクチャインピクチャ主ビットストリームを参照する」という意味)で指示されるとともに、該トラックリファレンスを含むトラックは、補足ビットストリームを担持し、トラックリファレンスによって参照されるトラックは、主ビットストリームを担持する。
c.更に別の一例では、上記のような2種類のトラックリファレンスタイプが定義される。
2)第1及び第2の問題点を解決するために、主ビットストリームを担持するトラックに含まれる2種類のトラックリファレンスの新しいタイプが定義され、その一方は、補足ビットストリームの対応するビデオデータユニットで主ビデオにおける目標ピクチャインピクチャ領域を示す符号化されたビデオデータユニットを入れ替え可能な一対のピクチャインピクチャトラックを指示し、他方は、このようなビデオデータユニットの入れ替えを可能にしない一対のピクチャインピクチャトラックを指示する。
a.一実施形態では、この2種類のトラックリファレンスの新しいタイプは、「ppsr」(「ビデオデータユニットの入れ替えが可能なピクチャインピクチャ補足ビットストリームを参照する」という意味)と「ppsn」(「ビデオデータユニットの入れ替えを可能にしないピクチャインピクチャ補足ビットストリーム」の意味)に等しいトラックリファレンスタイプ値で指示する。
3)或いは、第1及び第2の問題点を解決するために、補足ビットストリームを担持するトラックに含まれる2種類のトラックリファレンスの新しいタイプ定義され、その一方は、補足ビットストリームの対応するビデオデータユニットで主ビデオにおける目標ピクチャインピクチャ領域を示す符号化・復号化されたビデオデータユニットを入れ替え可能な一対のピクチャインピクチャトラックを指示し、他方は、このようなビデオデータユニットの入れ替えを可能にしない一対のピクチャインピクチャトラックを指示する。
a.一実施形態では、この2種類のトラックリファレンスの新しいタイプは、「ppmr」(「ビデオデータユニットの入れ替えが可能であるピクチャインピクチャ主ビットストリームを参照する」という意味)と「ppmn」(「ビデオデータユニットの入れ替えを可能にしないピクチャインピクチャ主ビットストリームを参照する」という意味)に等しいトラックリファレンスタイプ値で指示する。
4)或いは、第1及び第2の問題点を解決するために、上記の第2項及び第3項に記載されたように、前記4つの種類のトラックリファレンスの新しいタイプが定義される。
5)上述した4つの問題点を解決するために、エンティティグループ化の新しいタイプが定義される。以下は詳細に説明する。
a.エンティティグループ化の新しいタイプは、ピクチャインピクチャエンティティグループ化と名付けられ、そのgrouping_typeが「pinp」(又は異なる名称又は異なるグループ化タイプ値であるが、以下に説明するように、同様な機能を持つ)に等しい。
b.一実施形態では、エンティティグループ内の各エンティティがビデオトラックでなければならないと規定する。
c.PicInPicEntityGroupBoxは、EntityToGroupBoxを拡張することで定義され、以下の情報のうちの少なくとも1つ又は複数を乗せる:
i.主ビットストリームトラックの数がNである。EntityToGroupBox内の最初のN个entity_id値で識別されるエンティティ(即ち、ここでのトラック)は、主ビットストリームトラックであり、エンティティEntityToGroupBox内の他のentity_id値で識別されるのは、補足ビットストリームトラックである。ピクチャインピクチャ体験を再生するために、主ビットストリームトラックにおける1つの主ビットストリームトラックが選択され、補足ビットストリームトラックにおける1つの補足ビットストリームトラックが選択される。
1.或いは、主のビットストリームトラックは、インデックスリストを介してEntityToGroupBox内のEntity_id値リストにシグナリング通知され、エンティティグループ内の他のエンティティ/トラックは、補足のビットストリームトラックである。
2.或いは、主ビットストリームトラックは、track_id値リストを介してシグナリング通知され、エンティティグループ内の他のエンティティ/トラックは、補足ビットストリームトラックである。
ii.主ビデオ内の目標ピクチャインピクチャ領域を代表する符号化・復号化されたビデオデータユニットを補足ビデオ中対応のビデオデータユニット入れ替え可能かどうかを指示するための指示について。
1.一実施形態では、当該指示は、data_units_replacableと称される1ビットのフラグでシグナリング通知され、値1及び0は、それぞれ、このビデオデータユニットの入れ替えを可能にすること及び可能しないことを指示する。
iii.主ビデオの各ピクチャにおける符号化・復号化されたビデオデータユニットのどれが目標ピクチャインピクチャ領域を示すかを指示するための領域IDリストについて。
1.一実施形態では、特定のビデオデコーダについて、領域IDの特定のセマンティクスを明示的に規定する必要があると規定される。
a.一実施形態では、以下のように規定される:VVCの場合、領域IDがサブピクチャIDであり、符号化・復号化されたビデオデータユニットがVCL NALユニットである。主ビデオにおける目標ピクチャインピクチャ領域を示すVCL NALユニットは、これらのサブピクチャIDを持つVCL NALユニットであり、これらのサブピクチャIDは、補足ビデオの対応するVCL NALユニットにおけるサブピクチャIDと同じである(一般的に、補足ビデオにおける1つ画面の全てのVCL NALユニットは、明確に信号通知される同一のサブピクチャIDを共用し、この場合、領域IDのリストには、領域IDが1つしか存在しない)。
b.一実施形態では、以下のように規定される:VVCの場合、ビデオデコーダに送信される前に、クライアント端末では、補足ビデオの対応するVCL NALユニットを使用して、主ビデオにおける目標ピクチャインピクチャ領域を示す符号化・復号化されたビデオデータユニット(即ち、VCL NALユニット)を入れ替えるするように選択すると、対応するVCL NALユニットの順序を変更することなく、各サブピクチャIDについて、主ビデオにおけるVCL NALユニットを補足ビデオ中具有該サブピクチャIDの対応するVCL NALユニットに入れ替える。
iv.補足ビデオを埋込/重畳するための主ビデオにおける位置及びサイズは、サイズの点で主ビデオよりも小さい。
1.一実施形態では、4つの値(x、y、幅、高さ)でシグナリング通知され、x、yは、領域の左上隅の位置を指定し、幅及び高さは、領域の幅及び高さを指定する。単位は、輝度サンプル/ピクセルであってもよい。
2.一実施形態では、data_units_replacableが1に等しく、位置及びサイズの情報が存在する場合、該位置及びサイズは、主ビデオにおける目標ピクチャインピクチャ領域を正しく示すべきであると規定される。
3.一実施形態では、data_units_replacableが0に等しく、位置及びサイズの情報が存する場合、位置及びサイズの情報は、補足ビデオを埋め込んでカバーするための好適な領域(即ち、クライアント端末では、補足ビデオを主ビデオの異なる領域に重畳することを選択可能である)を指示すると規定される。
4.一実施形態では、data_units_replacableが0に等しく、位置及びサイズの情報が存在しない場合、どこで補足ビデオをカバーするかに関する情報又は推奨はなく、クライアントの選択に完全に依存すると規定される。
5.実施形態
以下は、第5項及び上記のセクション4において概括的に説明した幾つかのサブ項目の幾つかの例示的な実施形態の実施形態である。
これらの実施形態は、ISOBMFFに適用可能である。
5.1 ピクチャインピクチャエンティティグループ化について
5.1.1 定義について
ピクチャインピクチャサービスは、空間分解能の低い方のビデオを空間分解能の高い方のビデオに含める機能を提供し、それぞれは、補足ビデオ及び主ビデオと呼ばれる。主ビデオを含むように指示されるトラックから1つのトラックを選択し、他のトラックから1つのトラック(補足ビデオを含む)を選択することで、grouping_typeが「pinp」に等しいの同一のエンティティグループ内のトラックは、ピクチャインピクチャサービスに対応するために用いられる。
ピクチャインピクチャエンティティグループ内の全てのエンティティは何れもビデオトラックであるべきである。
5.1.2 シンタックスについて
aligned(8)clasSPicInPicEntityGroupBoxextendSEntityToGroupBox(「pinp」,0,0){
unsigneDint(8)num_main_video_tracks;
unsigneDint(1)data_units_replacable;
unsigneDint(1)pinp_window_info_present;
bit(6)reserveD=0;
if(data_units_replacable){
unsigneDint(8)num_region_ids;
for(i=0;i<num_region_ids;i++)
unsigneDint(16)region_id[i];

if(pinp_window_info_present){
unsigneDint(16)x;
unsigneDint(16)y;
unsigneDint(16)width;
unsigneDint(16)height;


5.1.3 セマンティクスについて
num_main_video_tracksは、そのエンティティグループ内のピクチャインピクチャ主ビデオを担持するトラック数を指定する。
data_units_replacableは、主ビデオ内の、目標ピクチャインピクチャ領域を示す符号化・復号化されたビデオデータユニットが、補足ビデオの対応するビデオデータユニットで入れ替え可能かどうかを指示する。値1は、このようなビデオデータユニットの入れ替えを可能にすることを指示し、値0は、このようなビデオデータユニットの入れ替えを可能にしないことを指示する。
data_units_replacableが1に等しい場合、デコードのためにビデオデコーダに送信される前に、プレーヤは、補足ビデオに対応する符号化・復号化されたビデオデータユニットで主ビデオにおける目標ピクチャインピクチャ領域を示す符号化・復号化されたビデオデータユニットを入れ替えることを選択可能である。この場合、主ビデオにおける特定のピクチャについて、補足ビデオの対応するビデオデータユニットは、補足ビデオトラックにおける復号化時間同期サンプル内の符号化・復号化されたビデオデータユニットの全てである。VVCの場合、ビデオデコーダに送信される前に、クライアント端末では、主ビデオにおける目標ピクチャインピクチャ領域を示す符号化・復号化されたビデオデータユニット(即ち、VCL NALユニット)を補足ビデオにおける対応VCL NALユニットに入れ替えることを選択すると、各サブピクチャIDについて、対応VCL NALユニットの順序を変更することなく、主ビデオにおけるVCL NALユニットが補足ビデオのける該サブピクチャIDを持つ対応VCL NALユニットに入れ替えられる。
pinp_window_info_presentが1に等しいことは、フィールドx、y、幅及び高さが存在すると指定する。値0は、これらのフィールドが存在しないと指定する。
num_region_idsは、後続のフィールドRegion_id[i]の数を指定する。
region_id[i]は、目標ピクチャインピクチャ領域を示す符号化・復号化されたビデオデータユニットのi番目のIDを指定する。
特定のビデオデコーダについて、領域IDの特定のセマンティクスを明示的に規定する必要がある。VVCの場合、領域IDがサブピクチャIDであり、符号化・復号化されたビデオデータユニットがVCL NALユニットである。主ビデオにおける目標ピクチャインピクチャ領域を示すVCL NALユニットは、これらのサブピクチャIDを持つVCL NALユニットであり、これらのサブピクチャIDは、補足ビデオの対応するVCL NALユニット内のサブピクチャIDと同じである。
xは、主ビデオにおける目標ピクチャインピクチャ領域の左上隅に位置する符号化ビデオ画素(サンプル)の水平位置を指定する。単位は、ビデオ画素(サンプル)である。
yは、主ビデオにおける目標ピクチャインピクチャ領域の左上隅に位置する符号化ビデオ画素(サンプル)の垂直位置を指定する。単位は、ビデオ画素(サンプル)である。
幅は、主ビデオにおける目標ピクチャインピクチャ領域の幅を指定する。単位は、ビデオ画素(サンプル)である。
高さは、主ビデオにおける目標ピクチャインピクチャ領域の高さを指定する。単位は、ビデオ画素(サンプル)である。
【0058】
本開示の実施形態は、1種類のピクチャインピクチャに対応するためのファイルフォーマット設計に関する。本明細書で使用されるように、「ピクチャインピクチャ(picture-in-picture、PiP)サービス」は、空間分解能の低い方のビデオ(「補足ビデオ」又は「PiPビデオ」とも称される)を空間分解能の高い方のビデオに含める機能(「主ビデオ」とも称される)を提供している。
【0059】
図8は、本開示の幾つかの実施形態に係るビデオを処理するための方法800のフロー図を示している。方法800は、クライアント端末又はサーバにおいて実現可能である。本明細書において使用される「クライアント端末」という用語は、コンピュータネットワークとしてのクライアント端末-サーバモデルのサーバによって提供されるサービスにアクセスするコンピュータハードウェア又はソフトウェアの一部を指す場合がある。例えば、クライアント端末は、スマートフォン又はタブレットであってもよい。本明細書において使用される「サーバ」という用語は、演算機能を持つ装置を指す場合がある。この場合、クライアント端末は、ネットワークを介してサーバにアクセスする。サーバは、物理的なコンピュータ装置又は仮想的なコンピュータ装置であってもよい。
【0060】
図8に示すように、方法800は、ブロック802から開始し、ブロック802において、第1ビデオのメディアファイルと第1ビデオのビットストリームとの間の変換を実行する。当該メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む。例えば、第1指示は、1ビットのフラグを含んでもよい。1つ例では、フラグが第1値(例えば、1)である場合、第1グループの符号化・復号化されたビデオデータユニットが、第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能であると共に、フラグが第2値(例えば、0)である場合、第1グループの符号化・復号化されたビデオデータユニットが、第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能ではない。上記の例は、説明を目的とするものに過ぎないと理解されたい。本開示の範囲は、これらに限定されるものではない。
【0061】
方法800によれば、第1ビデオにおけるターゲットピクチャにおける画像領域を示す符号化・復号化されたビデオデータユニット第2ビデオに関連する符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するという指示が採用される。これにより、提出された方法は、ISOBMFFに基づくメディアファイル内のピクチャインピクチャサービスに対応することを容易に可能にする。
【0062】
幾つかの実施形態では、第2ビデオの空間分解能が、第1ビデオの空間分解能よりも低い。つまり、第2ビデオが補足ビデオであり、第1ビデオが主ビデオである。
【0063】
幾つかの実施形態では、第1指示は、第2ビデオのビットストリームを担持するトラックを指示する第1トラックリファレンスを含んでもよい。例えば、第1トラックリファレンスが第1タイプを有する場合、第1グループの符号化・復号化されたビデオデータユニットが、第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能であるとともに、第1トラックリファレンスが第2タイプを有する場合、第1グループの符号化・復号化されたビデオデータユニットが、第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能ではない。一実施形態では、第1タイプの第1トラックリファレンスは、「ppsr」トラックリファレンスであり、第2タイプの第1トラックリファレンスは、「ppsn」トラックリファレンスである。上記の例は、説明を目的とするものに過ぎないと理解されたい。本開示の範囲は、これらに限定されるものではない。
【0064】
幾つかの実施形態では、第2ビデオのメディアファイルは、第1グループの符号化・復号化されたビデオデータユニットが第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第2指示を含む。例えば、第2指示は、第1ビデオのビットストリームを担持するトラックを指示する第2トラックリファレンスを含む。第2トラックリファレンスが第3タイプを有する場合、第1グループの符号化・復号化されたビデオデータユニットが、第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能であるとともに、第2トラックリファレンスが第4タイプを有する場合、第1グループの符号化・復号化されたビデオデータユニットが、第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能ではない。一実施形態では、第3タイプの第2トラックリファレンスは、「ppmr」トラックリファレンスであり、第4タイプの第2トラックリファレンスは、「ppmn」トラックリファレンスである。上記の例は、説明を目的とするものに過ぎないと理解されたい。本開示の範囲は、これらに限定されるものではない。
【0065】
幾つかの実施形態では、第1グループの符号化・復号化されたビデオデータユニットは、ビデオデーデック層ネットワーク抽象化層(VCL NAL)ユニットを含み、第2グループの符号化・復号化されたビデオデータユニットは、VCL NALユニットを含む。
【0066】
幾つかの実施形態では、変換は、メディアファイルを作成しビットストリームをメディアファイルに記憶することを含む。代替的又は追加的に、幾つかの実施形態では、変換は、メディアファイルを解析してビットストリームを再構成することを含む。
【0067】
幾つかの実施形態では、第1ビデオのビットストリームは、非一時的なコンピュータ読み取り可能記録媒体に記憶可能である。第1ビデオのビットストリームは、ビデオ処理装置において実行される方法で生成可能である。当該方法によれば、第1ビデオのメディアファイルと第1ビデオのビットストリームとの間の変換を実行する。当該メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む。
【0068】
幾つかの実施形態では、第1ビデオのメディアファイルとビットストリームとの間の変換が実行される。当該メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む。ビットストリームは、非一時的なコンピュータ読み取り可能記録媒体に記憶可能である。
【0069】
幾つかの実施形態では、第1ビデオのメディアファイルは、非一時的なコンピュータ読み取り可能記録媒体に記憶可能である。第1ビデオのメディアファイルは、ビデオ処理装置において実行される方法で生成可能である。当該方法によれば、第1ビデオのメディアファイルと第1ビデオのビットストリームとの間の変換を実行する。当該メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む。
【0070】
幾つかの実施形態では、第1ビデオのメディアファイルとビットストリームとの間の変換が実行される。当該メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む。メディアファイルは、非一時的なコンピュータ読み取り可能記録媒体に記憶可能である。
【0071】
本開示の実施形態は、以下の条項に基づいて説明可能であり、これらの条項に係る特徴は、任意の合理的な形態で組み合わせることができる。
【0072】
条項1.ビデオを処理するための方法であって、第1ビデオのメディアファイルと第1ビデオのビットストリームとの間の変換を実行することを含み、メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、方法。
【0073】
条項2.第2ビデオの空間分解能が、第1ビデオの空間分解能よりも低い、条項1に記載の方法。
【0074】
条項3.第1指示は、1ビットのフラグを含む、条項1~2の何れか1つに記載の方法。
【0075】
条項4.フラグが第1値である場合、第1グループの符号化・復号化されたビデオデータユニットが、第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能であり、フラグが第2値である場合、第1グループの符号化・復号化されたビデオデータユニットが、第2グループの符号化・復号化されたビデオデータユニットで入れ替え不可能である、条項3に記載の方法。
【0076】
条項5.第1指示は、第2ビデオのビットストリームを担持するトラックを指示する第1トラックリファレンスを含む、条項1~2の何れか1つに記載の方法。
【0077】
条項6.第1トラックリファレンスが第1タイプを有する場合、第1グループの符号化・復号化されたビデオデータユニットが、第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能であるとともに、第1トラックリファレンスが第2タイプを有する場合、第1グループの符号化・復号化されたビデオデータユニットが、第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能ではない、条項5に記載の方法。
【0078】
条項7.第1タイプの第1トラックリファレンスは、「ppsr」トラックリファレンスであり、第1タイプの第1トラックリファレンスは、「ppsn」トラックリファレンスである、条項6に記載の方法。
【0079】
条項8.第2ビデオのメディアファイルは、第1グループの符号化・復号化されたビデオデータユニットが第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第2指示を含む、条項5~7の何れか1つに記載の方法。
【0080】
条項9.第2指示は、第1ビデオのビットストリームを担持するトラックを指示する第2トラックリファレンスを含む、条項8に記載の方法。
【0081】
条項10.第2トラックリファレンスが第3タイプを有する場合、第1グループの符号化・復号化されたビデオデータユニットが、第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能であるとともに、第2トラックリファレンスが第4タイプを有する場合、第1グループの符号化・復号化されたビデオデータユニットが、第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能ではない、条項9に記載の方法。
【0082】
条項11.第3タイプの第2トラックリファレンスは、「ppmr」トラックリファレンスであり、第4タイプの第2トラックリファレンスは、「ppmn」トラックリファレンスである、条項10に記載の方法。
【0083】
条項12.第1グループの符号化・復号化されたビデオデータユニットは、ビデオコーデック層ネットワーク抽象化層(VCL NAL)ユニットを含み、第2グループの符号化・復号化されたビデオデータユニットは、VCL NALユニットを含む、条項1~11のいずれか1つに記載の方法。
【0084】
条項13.変換は、メディアファイルを作成してビットストリームをメディアファイルに記憶することを含む、条項1~12のいずれか1つに記載の方法。
【0085】
条項14.変換は、メディアファイルを解析してビットストリームを再構成することを含む、条項1~12のいずれか1つに記載の方法。
【0086】
条項15.ビデオデータを処理するための装置であって、プロセッサと、指令を記憶した非一時的なメモリとを備え、指令がプロセッサによって実行されると、条項1~14のいずれか1つに記載の方法をプロセッサに実行させる、装置。
【0087】
条項16.条項1~14のいずれか1つに記載の方法をプロセッサに実行させる指令を記憶するための非一時的なコンピュータ読み取り可能記憶媒体。
【0088】
条項17.ビデオ処理装置において実行される方法で生成された第1ビデオのビットストリームを記憶し、方法は、第1ビデオのメディアファイルとビットストリームとの間の変換を実行することを含み、メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、非一時的なコンピュータ読み取り可能記録媒体。
【0089】
条項18.第1ビデオのビットストリームを記憶するための方法であって、第1ビデオのメディアファイルとビットストリームとの変換を実行すること、ビットストリームを非一時的なコンピュータ可読記録媒体に記憶すること、を含み、メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、方法。
【0090】
条項19.ビデオ処理装置において実行される方法で生成された第1ビデオのメディアファイルを記憶し、方法は、メディアファイルと第1ビデオのビットストリームとの間の変換を実行することを含み、メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、非一時的なコンピュータ読み取り可能記録媒体。
【0091】
条項20.第1ビデオのメディアファイルを記憶するための方法であって、メディアファイルと第1ビデオのビットストリームとの間の変換を実行すること、メディアファイルを非一時的なコンピュータ可読記録媒体に記憶すること、を含み、メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、方法。
【0092】
装置例
図9は、本開示の各実施形態を実現可能なコンピュータ装置900のブロック図を示している。コンピュータ装置900は、ソース装置110(又はビデオエンコーダ114又は200)又はターゲット装置120(又はビデオデコーダ124又は300)として構成されてもよい、或いは、在ソース装置110(又はビデオエンコーダ114又は200)又はターゲット装置120(又はビデオデコーダ124又は300)に含まれてもよい。
【0093】
図9に示されたコンピュータ装置900は、説明を目的とするに過ぎず、本開示の実施形態の機能及び範囲についてのいかなる限定も示唆するものではないと理解されたい。
【0094】
図9に示すように、コンピュータ装置900は、汎用コンピュータ装置900を含む。コンピュータ装置900は、少なくとも1つ又は複数のプロセッサ又は処理ユニット910と、メモリ920と、記憶装置930と、1つ又は複数の通信ユニット940と、1つ又は複数の入力装置950と、1つ又は複数の出力装置960を含んでもよい。
【0095】
幾つかの実施形態では、コンピュータ装置900は、演算機能を有する任意のユーザ端末又はサーバ端末として構成されてもよい。サーバ端末は、サービス事業者によって提供されるサーバ、大型コンピュータ装置などであってもよい。ユーザ端末は、例えば、携帯電話、ステーション、ユニット、デバイス、マルチメディアコンピュータ、マルチメディアタブレットコンピュータ、インターネットノード、コミュニケータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートコンピュータ、ネットブックコンピュータ、パーソナル通信システム(PCS)デバイス、パーソナルナビゲーションデバイス、パーソナルデジタルアシスタント(PDA)、オーディオ/ビデオプレーヤ、デジタルカメラ/ビデオカメラ、ロケーターデバイス、テレビ受信機、ラジオ放送受信機、電子ペーパーデバイス、ゲームデバイス、又はこれらの任意の組み合わせ、並びにこれらのデバイスのアタッチメントや周辺機器又はその任意の組み合わせを含む、任意のタイプの移動端末、固定端末又は便携式端末であってもよい。コンピュータ装置900は、ユーザの任意のタイプのインターフェース(例えば「ウェアラブル」回路装置など)に対応可能であることが想定される。
【0096】
処理ユニット910は、物理的なプロセッサ又は仮想的なプロセッサであってもよく、メモリ920内に記憶するプログラムにより様々な処理を実現する。マルチプロセッサシステムでは、複数の処理ユニットがコンピュータ実行可能な指令を並列に実行して、コンピュータ装置900の並列処理能力を向上させる。処理ユニット910は、中央処理装置(CPU)、マイクロプロセッサ、コントローラ又はマイクロコントローラとも称される。
【0097】
コンピュータ装置900は、一般的に、様々なコンピュータ記憶媒体を備える。このような媒体は、例えば、揮発性媒体及び不揮発性媒体、又はリムーバブル媒体及び非リムーバブル媒体など、コンピュータ装置900によってアクセス可能な任意の媒体であってもよい。メモリ920は、揮発性メモリ(例えば、レジスタ、キャッシュ、ランダムアクセスメモリ(RAM))、不揮発性メモリ(例えば、読み出し専用メモリ(ROM)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)又はフラッシュメモリ)又はこれらの任意の組み合わせであってもよい。記憶装置930は、任意のリムーバブル又は不リムーバブル媒体であってもよく、例えば、メモリ、フラッシュドライバ、ディスクなどの機器読み取り可能な媒体、又は他の、情報及び/又はデータを記憶するために用いられ、且つ、コンピュータ装置900においてアクセス可能な媒体を含むことができる。
【0098】
コンピュータ装置900は、追加のリムーバブル/不リムーバブル記憶媒体、揮発性/不揮発性記憶媒体をさらに含んでもよい。図9に示されていないが、リムーバブル不揮発性ディスクからの読み出し及び/又は書き込みのためのリムーバブル不揮発性ディスクのディスクドライバ、及びリムーバブル不揮発性ディスクからの読み出し及び/又は書き込みのためのリムーバブル不揮発性ディスクのディスクドライバを提供することができる。この場合、各ドライバは、1つ又は複数のデータ媒体インターフェースを介してバス(図示せず)に接続することができる。
【0099】
通信ユニット940は通信媒体を介してさらに他のコンピュータ装置と通信する。また、コンピュータ装置900内のコンポーネントの機能は、通信接続を介して通信可能な単一のコンピューティングクラスタ又は複数のコンピューティングマシンによって実現することができる。従って、コンピュータ装置900は、ネットワーク化された環境で動作するために、1つ又は複数の他のサーバ、ネットワーク化パーソナルコンピュータ(PC)又は他の汎用ネットワークノードへの論理的接続を利用することができる。
【0100】
入力装置950は、例えば、マウス、キーボード、トラックボール、音声入力装置などの様々な入力装置のうちの1つ又は複数であってもよい。出力装置960は、例えば、ディスプレイ、スピーカ、プリンタなどの様々な出力装置のうちの1つ又は複数であってもよい。コンピュータ装置900は、通信ユニット940を介して、1つ又は複数の外部装置(図示せず)と通信してもよく、外部装置は、例えば、記憶装置及び表示装置であり、コンピュータ装置900は、必要に応じて、ユーザがコンピュータ装置900に対して対話可能な1つ又は複数のデバイスと通信したり、コンピュータ装置900を1つ又は複数の他のコンピュータ装置と通信可能にさせる任意のデバイス(例えば、ネットワークカード、変復調機など)と通信したりすることができる。このような通信は、入出力(I/O)インターフェース(図示せず)を介して行われる。
【0101】
幾つかの実施形態では、コンピュータ装置900の幾つかの又は全てのコンポーネントは、単一のデバイスに集積されるものではなく、クラウドコンピューティングアーキテクチャに配置されるものであってもよい。クラウドコンピューティングアーキテクチャでは、コンポーネントは、遠隔で提供され、本開示に記述の機能を実現するように協働することができる。幾つかの実施形態では、クラウドコンピューティングは、コンピューティング、ソフトウェア、データアクセス及びストレージサービスを提供するが、これらのサービスを提供するシステム又はハードウェアの物理的な位置又は配置をエンドユーザが認識する必要はない。各実施形態では、クラウドコンピューティングは、適切なプロトコルを使用して、広域ネットワーク(例えば、インターネット)を介してサービスを提供する。例えば、クラウドコンピューティング事業者は、広域ネットワークを介して、ウェブブラウザ又は任意の他のコンピューティングコンポーネントを通じてアクセス可能なアプリケーションを提供する。クラウドコンピューティングアーキテクチャのソフトウェア又はコンポーネント及び対応するデータは、遠隔サーバに記憶することができる。クラウドコンピューティング環境におけるコンピューティングソースは、遠隔データセンタロケーションに集約又は分散することができる。クラウドコンピューティングインフラストラクチャは、ユーザにとっては単一のアクセスポイントとして動作するが、データセンタを介してサービスを提供することができる。従って、クラウドコンピューティングアーキテクチャは、遠隔地のサービス事業者から本明細書に記載された構成要素及び機能を提供するために用いることができる。或いは、従来のサーバによって提供されてもよく、又はクライアント端末装置にインストールされてもよい。
【0102】
本開示の実施形態では、コンピュータ装置900は、ビデオの符号化/復号化を実現するために用いることができる。メモリ920は、1つ又は複数のプログラム指令を有する1つ又は複数のビデオコーデックモジュール925を含んでもよい。これらのモジュールは、本明細書に記載された各実施形態の機能を実行するために、処理ユニット910によってアクセス及び実行することができる。
【0103】
ビデオ符号化を実行する例示的な実施形態では、入力装置950は、符号化される入力970として、ビデオデータを受信することができる。ビデオデータは、符号化されたビットストリームを生成するように、例えばビデオコーデックモジュール925によって処理することができる。符号化されたビットストリームは、出力980として、出力装置960を介して提供することができる。
【0104】
ビデオ復号化を実行する例示的な実施形態では、入力装置950は、入力970として符号化されたビットストリームを受信することができる。符号化されたビットストリームは、復号化されたビデオデータを生成するように、例えばビデオコーデックモジュール925によって処理することができる。復号化されたビデオデータは、出力980として、出力装置960を介して提供することができる。
【0105】
本開示の好ましい実施形態を参照して本開示を詳細に示して説明していたが、当業者は、添付の特許請求の範囲によって定義される本願の精神および範囲から逸脱することなく、形態及び詳細に対して様々に変更可能であることを理解するであろう。これらの変更は、本願の範囲によってカバーされることが意図される。従って、本願の実施形態に関する上記の説明は、限定を意図するものではない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【手続補正書】
【提出日】2024-03-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ビデオを処理するための方法であって、
第1ビデオのメディアファイルと前記第1ビデオのビットストリームとの間の変換を実行することを含み、
前記メディアファイルは、前記第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、方法。
【請求項2】
前記第2ビデオの空間分解能が、前記第1ビデオの空間分解能よりも低い、請求項1に記載の方法。
【請求項3】
前記第1指示は、1ビットのフラグを含む、請求項1に記載の方法。
【請求項4】
前記フラグが第1値である場合、前記第1グループの符号化・復号化されたビデオデータユニットが、前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能であり、
前記フラグが第2値である場合、前記第1グループの符号化・復号化されたビデオデータユニットが、前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え不可能である、請求項3に記載の方法。
【請求項5】
前記第1指示は、前記第2ビデオのビットストリームを担持するトラックを指示する第1トラックリファレンスを含む、請求項1に記載の方法。
【請求項6】
前記第1トラックリファレンスが第1タイプを有する場合、前記第1グループの符号化・復号化されたビデオデータユニットが、前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能であるとともに、
前記第1トラックリファレンスが第2タイプを有する場合、前記第1グループの符号化・復号化されたビデオデータユニットが、前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能ではない、
請求項5に記載の方法。
【請求項7】
前記第1タイプの前記第1トラックリファレンスは、「ppsr」トラックリファレンスであり、前記第1タイプの前記第1トラックリファレンスは、「ppsn」トラックリファレンスである、請求項6に記載の方法。
【請求項8】
前記第2ビデオのメディアファイルは、前記第1グループの符号化・復号化されたビデオデータユニットが前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能かどうかを指示するための第2指示を含む、請求項5に記載の方法。
【請求項9】
前記第2指示は、前記第1ビデオの前記ビットストリームを担持するトラックを指示する第2トラックリファレンスを含む、請求項8に記載の方法。
【請求項10】
前記第2トラックリファレンスが第3タイプを有する場合、前記第1グループの符号化・復号化されたビデオデータユニットが、前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能であるとともに、
前記第2トラックリファレンスが第4タイプを有する場合、前記第1グループの符号化・復号化されたビデオデータユニットが、前記第2グループの符号化・復号化されたビデオデータユニットで入れ替え可能ではない、
請求項9に記載の方法。
【請求項11】
前記第3タイプの前記第2トラックリファレンスは、「ppmr」トラックリファレンスであり、前記第4タイプの前記第2トラックリファレンスは、「ppmn」トラックリファレンスである、請求項10に記載の方法。
【請求項12】
前記第1グループの符号化・復号化されたビデオデータユニットは、ビデオコーデック層ネットワーク抽象化層(VCL NAL)ユニットを含み、
前記第2グループの符号化・復号化されたビデオデータユニットは、VCL NALユニットを含む、請求項1に記載の方法。
【請求項13】
前記変換は、前記メディアファイルを作成して前記ビットストリームを前記メディアファイルに記憶することを含む、請求項1に記載の方法。
【請求項14】
前記変換は、前記メディアファイルを解析して前記ビットストリームを再構成することを含む、請求項1に記載の方法。
【請求項15】
ビデオデータを処理するための装置であって、
プロセッサと、指令を記憶した非一時的なメモリとを備え、
前記指令が前記プロセッサによって実行されると、請求項1~14のいずれか1項に記載の方法をプロセッサに実行させる、装置。
【請求項16】
請求項1~14のいずれか1項に記載の方法をプロセッサに実行させる指令を記憶するための非一時的なコンピュータ読み取り可能記憶媒体。
【請求項17】
ビデオ処理装置において実行される方法で生成された第1ビデオのビットストリームを記憶し、
前記方法は、前記第1ビデオのメディアファイルと前記ビットストリームとの間の変換を実行することを含み、前記メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、非一時的なコンピュータ読み取り可能記録媒体。
【請求項18】
第1ビデオのビットストリームを記憶するための方法であって、
前記第1ビデオのメディアファイルと前記ビットストリームとの変換を実行すること、
前記ビットストリームを非一時的なコンピュータ可読記録媒体に記憶すること、を含み、
前記メディアファイルは、第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、方法。
【請求項19】
ビデオ処理装置において実行される方法で生成された第1ビデオのメディアファイルを記憶し、
前記方法は、前記メディアファイルと前記第1ビデオのビットストリームとの間の変換を実行することを含み、
前記メディアファイルは、前記第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、非一時的なコンピュータ読み取り可能記録媒体。
【請求項20】
第1ビデオのメディアファイルを記憶するための方法であって、
前記メディアファイルと前記第1ビデオのビットストリームとの間の変換を実行すること、
前記メディアファイルを非一時的なコンピュータ可読記録媒体に記憶すること、を含み、
前記メディアファイルは、前記第1ビデオにおける目標ピクチャインピクチャ領域を示す第1グループの符号化・復号化されたビデオデータユニットが、第2ビデオに関連する第2グループの符号化・復号化ビデオデータユニットで入れ替え可能かどうかを指示するための第1指示を含む、方法。
【国際調査報告】