(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-29
(45)【発行日】2024-03-08
(54)【発明の名称】サブ画像ビットストリーム抽出および再位置付け
(51)【国際特許分類】
H04N 19/70 20140101AFI20240301BHJP
H04N 19/33 20140101ALI20240301BHJP
【FI】
H04N19/70
H04N19/33
(21)【出願番号】P 2021555278
(86)(22)【出願日】2020-03-11
(86)【国際出願番号】 US2020022070
(87)【国際公開番号】W WO2020185878
(87)【国際公開日】2020-09-17
【審査請求日】2022-03-30
(32)【優先日】2019-03-11
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-05-31
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】514041959
【氏名又は名称】ヴィド スケール インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】フ、ヨン
【審査官】鉢呂 健
(56)【参考文献】
【文献】国際公開第2020/146665(WO,A1)
【文献】特表2016-518763(JP,A)
【文献】SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSTEMS Infrastructure of audiovisual services - Coding of moving video,Recommendation ITU-T H.265 (12/2016),pp.41-43,298,350-353,ITU-T,2017年03月16日,<URL:https://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-H.265-201612-S!!PDF-E&type=items>
【文献】HE, Yong and HAMZA, Ahmed et al.,AHG12: On layer-based sub-picture extraction and reposition,Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 15th Meeting: Gothenburg, SE, 3-12 July 2019, [JVET-O0183],JVET-O0183 (version 1),ITU-T,2019年06月26日,<URL:https://jvet-experts.org/doc_end_user/documents/15_Gothenburg/wg11/JVET-O0183-v1.zip>: JVET-O0183.docx: pp.1-4
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00-19/98
(57)【特許請求の範囲】
【請求項1】
方法であって、
複数のサブ画像を含む少なくとも1つの画像を含むビデオを符号化することと、
前記それぞれのサブ画像の各々についてのレベル情報を示すデータ構造を信号伝達すること
であって、前記サブ画像のうちの少なくとも1つが、複数の層を使用して、ビットストリームにおいて符号化された層化サブ画像であり、前記レベル情報が、前記層の各々について、前記ビットストリームにおいて信号伝達される、ことと、を含み、
前記レベル情報が、各サブ画像について、前記それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示す、方法。
【請求項2】
前記サブ画像の各々について、前記それぞれのサブ画像についての
ティアを示す情報を信号伝達することをさらに含む、請求項1に記載の方法。
【請求項3】
前記サブ画像の各々について、前記それぞれのサブ画像についてのプロファイルを示す情報を信号伝達することをさらに含む、請求項1または2に記載の方法。
【請求項4】
前記サブ画像の各々が、層と関連付けられ、層内の各サブ画像が、同じ層内の他のサブ画像から独立して符号化される、請求項1~
3のいずれか一項に記載の方法。
【請求項5】
前記ビットストリームにおいて少なくとも1つの出力サブ画像セットを信号伝達することをさらに含み、前記出力サブ画像セットが、前記複数のサブ画像のうちの少なくともサブセットを識別し、かつ前記サブセットにおける前記サブ画像の各々についての前記レベル情報を含む、請求項1~
4のいずれか一項に記載の方法。
【請求項6】
前記ビットストリームにおいて少なくとも1つの出力サブ画像セットを信号伝達することをさらに含み、前記出力サブ画像セットが、前記複数のサブ画像のうちの少なくともサブセットを識別し、かつ前記サブセットにおける前記サブ画像の各々についての位置オフセット情報を含む、請求項1~
5のいずれか一項に記載の方法。
【請求項7】
前記ビットストリームにおいて少なくとも1つの出力サブ画像セットを信号伝達することをさらに含み、前記出力サブ画像セットが、前記複数のサブ画像のうちの少なくともサブセットを識別し、かつ前記サブセットにおける前記サブ画像の各々についてのサイズ情報を含む、請求項1~
6のいずれか一項に記載の方法。
【請求項8】
前記サブ画像についての前記レベル情報が、profile_tier_level()データ構造に信号伝達される、請求項1~
7のいずれか一項に記載の方法。
【請求項9】
方法であって、
複数のそれぞれのサブ画像の各々についてのレベル情報を示すデータ構造を復号化することであって、前記レベル情報が、各サブ画像について、前記それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示
し、前記サブ画像のうちの少なくとも1つが、複数の層を使用して、ビットストリームにおいて符号化された層化サブ画像であり、前記レベル情報が、前記層のうちの少なくとも1つについて、前記ビットストリームから復号化される、ことと、
前記レベル情報に従って複数の前記サブ画像を復号化することと、を含む、方法。
【請求項10】
前記レベル情報に少なくとも部分的に基づいて前記サブ画像の出力サブ画像セットを選択することをさらに含み、複数の前記サブ画像を復号化することが前記選択された出力サブ画像セットを復号化することを含む、請求項
9に記載の方法。
【請求項11】
前記サブ画像の各々が、層と関連付けられ、層内の少なくとも1つのサブ画像が、同じ層内の他のサブ画像から独立して復号化される、請求項
9又は10に記載の方法。
【請求項12】
前記復号化された複数のサブ画像から少なくとも1つの出力フレームを構成することをさらに含む、請求項
9~
11のいずれか一項に記載の方法。
【請求項13】
請求項1~
12のいずれか一項に記載の方法を実行するように構成されたプロセッサを備える、装置。
【請求項14】
一つ以上のプロセッサに、請求項1~
12のいずれか一項に記載の方法を実行させる命令を含むコンピュータ読み取り可能な媒体。
【請求項15】
命令を含む
コンピュータプログラムであって、前記命令が一つ以上のプロセッサによって実行されたときに、前記命令は、前記一つ以上のプロセッサに、請求項1~
12のいずれか一項に記載の方法を実行させる、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2019年3月11日に出願された「Sub-Picture Bitstream Extraction and Reposition」と題された米国仮特許出願番号第62/816,703号、および2019年5月31日に出願された「Sub-Picture Bitstream Extraction and Reposition」と題された米国仮特許出願番号第62/855,446号の非仮出願であり、それら米国仮特許出願から米国特許法119条(e)に基づいて利益を主張するものであり、それら両方とも参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
360度ビデオは、メディア業界で急速に成長している新しいフォーマットである。これは、VRデバイスの可用性の向上によって可能になり、視聴者に非常に新しい存在感を提供することができる。従来の直線ビデオ(2Dまたは3D)と比較して、360度ビデオは、ビデオの処理と配信に関して、新たなかつ困難な一連のエンジニアリング上の課題をもたらす。快適で没入型のユーザエクスペリエンスを実現するには、高品質のビデオと非常に小さい遅延が必要であるが、ビデオサイズが大きいと、高品質の360度ビデオの配信が妨げられる可能性がある。
【0003】
ビデオ符号化標準は、ビットストリームにおいてビデオおよび関連情報を伝達するために従うべき構文を指定する。いくつかの場合では、例えば、複雑さを軽減するために、使用可能な構文の特定のサブセットのみを使用することが望ましい場合がある。ビットストリーム構文全体の異なるサブセットは、異なる「プロファイル」と称される。特定のプロファイルを使用している場合でさえも、ビデオ符号化器および復号化器デバイスのメモリと処理能力には大きなばらつきがある。様々なビデオが特定のプロファイルで指定された構文に従い得るが、それらの様々なビデオでは、符号化器と復号化器の性能に大きな変動が必要になり得る。必要な性能は、復号化された画像のサイズなど、ビットストリームにおいて信号伝達される特定の値と強く相関し得る。
【0004】
この問題に対処するために、いくつかのビデオ符号化標準では、各プロファイル内に「レベル」を指定する。「レベル」は、ビットストリームにおいて信号伝達される構文要素および変数によって取得される可能性のある値に対して課せられる事前定義された制約のセットである。これらの制約のいくつかは、個々の値に制限を課し、他の制約は、値の算術的な組み合わせに制限を課す。例えば、特定のレベルでは、画像の幅に画像の高さを乗算し、1秒あたりに復号化される画像の数を乗算する制限が課せられる場合がある。
【0005】
いくつかの規格では、レベルは「層」とともに指定される。一般に、下位層に指定されたレベルは、上位層に指定されたレベルよりも制約が厳しくなる。層は、ビットストリームにおいて信号伝達される値に対して課せられるレベル制約のカテゴリとして機能する。レベル制約は層内にネストされているので、特定の層とレベルによりビットストリームを復号化できる復号化器は、同じ層、そのレベルの下位層、またはその下の任意のレベルの層に準拠する全てのビットストリームを復号化することができることが予想される。
【0006】
一部のビデオ符号化標準では、プロファイル、層、およびレベルの情報は、「profile_tier_level()」構造などの構文構造で通知される。例えば、HEVCでは、「profile_tier_level()」構造体に「general_level_idc」要素が含まれており、これは、ビットストリームのコード化されたビデオシーケンスが準拠するレベルを示している。
【発明の概要】
【0007】
本明細書で説明される実施形態は、ビデオの符号化および復号化(総称して「コーディング」)およびビットストリームにおいて再書き込みプロセスで使用される方法を含む。
【0008】
いくつかの実施形態では、方法は、ビットストリームにおいて、複数のサブ画像を含む少なくとも1つの画像を含むビデオを符号化することと、ビットストリームにおいて、それぞれのサブ画像の各々のレベル情報を信号伝達することとを含み、レベル情報は、各サブ画像について、それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示す。
【0009】
いくつかの実施形態は、それぞれのサブ画像についての層またはプロファイルのうちの1つ以上を信号伝達することをさらに含む。
【0010】
いくつかの実施形態では、サブ画像の少なくとも1つは、複数の層を使用してビットストリームにおいて符号化された層状サブ画像であり、レベル情報は、層の各々についてビットストリームにおいて信号伝達される。
【0011】
いくつかの実施形態では、サブ画像の各々は層に関連付けられ、層内の各サブ画像は、同じ層内の他のサブ画像から独立して符号化される。
【0012】
いくつかの実施形態では、方法は、ビットストリームにおいて少なくとも1つの出力サブ画像セットを信号伝達することをさらに含み、出力サブ画像セットは、複数のサブ画像の少なくともサブセットを識別し、サブセットにおけるサブ画像の各々についてのレベル情報を含む。
【0013】
いくつかの実施形態では、方法は、ビットストリームにおいて少なくとも1つの出力サブ画像セットを信号伝達することをさらに含み、出力サブ画像セットは、複数のサブ画像の少なくともサブセットを識別し、サブセットにおけるサブ画像の各々についての位置オフセット情報を含む。
【0014】
いくつかの実施形態では、方法は、ビットストリームにおいて少なくとも1つの出力サブ画像セットを信号伝達することをさらに含み、出力サブ画像セットは、複数のサブ画像の少なくともサブセットを識別し、サブセットにおけるサブ画像の各々についてのサイズ情報を含む。
【0015】
いくつかの実施形態では、サブ画像のレベル情報は、profile_tier_level()データ構造で信号伝達される。
【0016】
いくつかの実施形態では、方法は、ビットストリームから、複数のそれぞれのサブ画像の各々のレベル情報を復号化することを含み、レベル情報は、各サブ画像について、それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示し、レベル情報に従って、ビットストリームから複数のサブ画像を復号化する。
【0017】
いくつかの実施形態では、方法は、レベル情報に少なくとも部分的に基づいてサブ画像の出力サブ画像セットを選択することをさらに含み、複数のサブ画像を復号化することは、選択された出力サブ画像セットを復号化することを含む。
【0018】
いくつかの実施形態では、方法は、サブ画像の少なくとも1つについて、それぞれのサブ画像の層を示す情報を復号化することをさらに含む。
【0019】
いくつかの実施形態では、方法は、サブ画像の少なくとも1つについて、それぞれのサブ画像についてプロファイルを示す情報を復号化することをさらに含む。
【0020】
いくつかの実施形態では、サブ画像の少なくとも1つは、複数の層を使用してビットストリームにおいて符号化された層状サブ画像であり、この方法は、少なくとも1つの層についてのビットストリームからのレベル情報を復号化することをさらに含む。
【0021】
いくつかの実施形態では、サブ画像の各々は層に関連付けられ、層内の少なくとも1つのサブ画像は、同じ層内の他のサブ画像から独立して復号化される。
【0022】
いくつかの実施形態は、ビットストリームから少なくとも1つの出力サブ画像セットを復号化することをさらに含み、出力サブ画像セットは、複数のサブ画像の少なくともサブセットを識別し、サブセットにおけるサブ画像の各々についてレベル情報を含む。
【0023】
いくつかの実施形態は、復号化された複数のサブ画像から少なくとも1つの出力フレームを構成することをさらに含む。
【0024】
いくつかの実施形態は、ビットストリームから少なくとも1つの出力サブ画像セットを復号化することをさらに含み、出力サブ画像セットは、複数のサブ画像の少なくともサブセットを識別し、サブセットにおいてサブ画像の各々について位置オフセット情報を含み、出力フレームは位置オフセット情報に基づいて構成される。
【0025】
いくつかの実施形態は、ビットストリームから少なくとも1つの出力サブ画像セットを復号化することをさらに含み、出力サブ画像セットは、複数のサブ画像の少なくともサブセットを識別し、サブセットにおいてサブ画像の各々についてサイズ情報を含み、出力フレームはサイズ情報に基づいて構成される。
【0026】
いくつかの実施形態では、サブ画像のレベル情報は、profile_tier_level()データ構造で復号化される。
【0027】
いくつかの実施形態では、信号は、複数のサブ画像を含む少なくとも1つの画像を含むビデオを符号化する情報と、それぞれのサブ画像の各々のレベル情報とを備え、レベル情報は、各サブ画像について、それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示す。信号は、コンピュータ可読媒体に記憶され得る。コンピュータ可読媒体は、非一時的な媒体であり得る。
【0028】
追加の実施形態では、符号化器、復号化器、およびビットストリーム書き換え/抽出システムが、本明細書に記載の方法を実行するために提供される。
【0029】
いくつかの実施形態は、本明細書に記載の方法のいずれかを実行するように構成されたプロセッサを含む。いくつかのそのような実施形態では、本明細書に記載の方法のいずれかを実行するように動作する命令を格納するコンピュータ可読媒体(例えば、非一時的媒体)が提供される。
【0030】
いくつかの実施形態は、本明細書に開示される1つ以上の方法を使用して符号化されたビデオを記憶するコンピュータ可読媒体(例えば、非一時的媒体)を含む。
【0031】
また、本実施形態のうちの1つ以上は、上で説明される方法のいずれかに従ってビデオデータを符号化または復号化するための命令が記憶されたコンピュータ可読記憶媒体を提供する。また、本実施形態は、上で説明される方法に従って生成されたビットストリームが保存されたコンピュータ可読記憶媒体を提供する。また、本実施形態は、上で説明される方法に従って生成されたビットストリームを送信するための方法および装置を提供する。また、本実施形態は、説明された方法のいずれかを実行するための命令を含むコンピュータプログラム製品を提供する。
【図面の簡単な説明】
【0032】
【
図1A】1つ以上の開示された実施形態が実装される例示的な通信システムを示すシステム図である。
【
図1B】一実施形態による、
図1Aに示す通信システム内で使用され得る例示的な無線送信/受信ユニット(WTRU)を示すシステム図である。
【
図1C】本明細書に記載のいくつかの実施形態で使用されるシステムの機能ブロック図である。
【
図2A】VVCに使用される符号化器などのブロックベースのビデオ符号化器の機能ブロック図である。
【
図2B】VVCに使用される復号化器などのブロックベースのビデオ復号化器の機能ブロック図である。
【
図3】2層スケーラブルビデオ符号化器の例示的なアーキテクチャの図である。
【
図4】2層スケーラブルビデオ復号化器の例示的なアーキテクチャの図である。
【
図5】2ビュービデオコーディング構造の例を示す図である。
【
図7】コード化されたビットストリーム構造の例を示す図である。
【
図9】360ビデオビューポートの適応ストリーミングの例を示す図である。
【
図10】出力画像のスキップされた領域の例を示す図である。
【
図12】パラメータセットのアクティブ化順序を示す図である。
【
図14】サブ画像の抽出と再位置付けのPOC導出の例を示す図である。
【
図15】サブ画像の階層パラメータセット構造の例を示す図である。
【
図16】複数のメディアタイプの層構造を示す図である。
【
図17】いくつかの実施形態で実行される方法のフローチャートである。
【0033】
実施のためのネットワークの例
図1Aは、1つ以上の開示された実施形態が実装され得る例示的な通信システム100を示す図である。通信システム100は、音声、データ、ビデオ、メッセージング、ブロードキャストなどのコンテンツを複数の無線ユーザに提供するマルチアクセスシステムであり得る。通信システム100は、複数の無線ユーザが、無線帯域幅を含むシステムリソースの共有を通じてそのようなコンテンツにアクセスすることを可能にし得る。例えば、通信システム100は、符号分割多重アクセス(CDMA)、時分割多重アクセス(TDMA)、周波数分割多重アクセス(FDMA)、直交FDMA(OFDMA)、シングルキャリアFDMA(SC-FDMA)、ゼロテールユニークワードDFT-スプレッドOFDM(ZT UW DTS-s OFDM)、ユニークワードOFDM(UW-OFDM)、リソースブロックフィルタリングOFDM、フィルタバンクマルチキャリア(FBMC)などの1つ以上のチャネルアクセス方法を採用し得る。
【0034】
図1Aに示すように、通信システム100は、無線送信/受信ユニット(WTRU)102a、102b、102c、102d、RAN104、CN106、公衆交換電話網(PSTN)108、インターネット110、および他のネットワーク112を含み得るが、開示された実施形態は、任意の数のWTRU、基地局、ネットワーク、および/またはネットワーク要素を想定することが理解されよう。WTRU102a、102b、102c、102dの各々は、無線環境で動作および/または通信するように構成された任意のタイプのデバイスであり得る。例として、WTRU102a、102b、102c、102d(これらのいずれも「ステーション」および/または「STA」と称され得る)は、無線信号を送信および/または受信するように構成され得、ユーザ機器(UE)、モバイルステーション、固定もしくはモバイル加入者ユニット、サブスクリプションベースのユニット、ページャー、携帯電話、パーソナルデジタルアシスタント(PDA)、スマートフォン、ラップトップ、ネットブック、パーソナルコンピュータ、無線センサ、ホットスポットもしくはMi-Fiデバイス、モノのインターネット(IoT)デバイス、時計もしくは他のウェアラブル、ヘッドマウントディスプレイ(HMD)、車両、ドローン、医療デバイスおよびアプリケーション(例えば、遠隔手術)、産業用デバイスおよびアプリケーション(例えば、産業用および/または自動処理チェーンの文脈で動作するロボットおよび/または他の無線デバイス)、家庭用電化製品デバイス、商用および/または産業用無線ネットワークで動作するデバイスなどを含み得る。WTRU102a、102b、102c、および102dのいずれも、交換可能にUEと称され得る。
【0035】
通信システム100はまた、基地局114aおよび/または基地局114bを含み得る。基地局114a、114bの各々は、CN106、インターネット110、および/または他のネットワーク112などの、1つ以上の通信ネットワークへのアクセスを容易にするために、WTRU102a、102b、102c、102dのうちの少なくとも1つと無線インターフェースするように構成された任意のタイプのデバイスであり得る。例として、基地局114a、114bは、基地トランシーバ局(BTS)、Node-B、eNode-B、ホームNode-B、ホームeNode-B、gNB、NR Node-B、サイトコントローラ、アクセスポイント(AP)、無線ルータなどであり得る。基地局114a、114bは、各々、単一の要素として示されているが、基地局114a、114bは、任意の数の相互接続された基地局および/またはネットワーク要素を含み得ることが理解されよう。
【0036】
基地局114aは、RAN104の一部であってもよく、これはまた、基地局コントローラ(BSC)、無線ネットワークコントローラ(RNC)、リレーノードなどの他の基地局および/またはネットワーク要素(図示せず)を含み得る。基地局114aおよび/または基地局114bは、セル(図示せず)と称され得る1つ以上のキャリア周波数で無線信号を送信および/または受信するように構成され得る。これらの周波数は、ライセンススペクトル、非ライセンススペクトル、またはライセンススペクトルと非ライセンススペクトルとの組み合わせであってもよい。セルは、比較的固定され得るか、時間の経過とともに変化し得る、特定の地理的領域に無線サービスのカバレッジを提供し得る。セルは、さらにセルセクタに分割され得る。例えば、基地局114aに関連するセルは、3つのセクタに分割され得る。したがって、一実施形態では、基地局114aは、3つのトランシーバ、すなわち、セルの各セクタに1つを含み得る。一実施形態では、基地局114aは、多入力多出力(MIMO)技術を採用し得、セルの各セクタに対して複数のトランシーバを利用し得る。例えば、ビームフォーミングが使用されて、所望の空間方向に信号を送信および/または受信し得る。
【0037】
基地局114a、114bは、任意の好適な無線通信リンク(例えば、無線周波数(RF)、マイクロ波、センチメートル波、マイクロメートル波、赤外線(IR)、紫外線(UV)、可視光など)であり得るエアインターフェース116を介して、1つ以上のWTRU102a、102b、102c、102dと通信し得る。エアインターフェース116は、任意の好適な無線アクセス技術(RAT)を使用して確立され得る。
【0038】
より具体的には、上記のように、通信システム100は、多元接続システムであってもよく、CDMA、TDMA、FDMA、OFDMA、SC-FDMAなどのような1つ以上のチャネルアクセス方式を採用し得る。例えば、RAN104の基地局114aおよびWTRU102a、102b、102cは、ユニバーサルモバイルテレコミュニケーションシステム(UMTS)地上無線アクセス(UTRA)などの無線技術を実装し得、これは、広帯域CDMA(WCDMA)を使用して、エアインターフェース116を確立し得る。WCDMAは、高速パケットアクセス(HSPA)および/または発展型HSPA(HSPA+)などの通信プロトコルを含み得る。HSPAは、高速ダウンリンク(DL)パケットアクセス(HSDPA)および/または高速ULパケットアクセス(HSUPA)を含み得る。
【0039】
一実施形態では、基地局114aおよびWTRU102a、102b、102cは、発展型UMTS地上無線アクセス(E-UTRA)などの無線技術を実装し得、これは、ロングタームエボリューション(LTE)および/またはLTE-アドバンスト(LTE-A)および/またはLTE-アドバンストプロ(LTE-A Pro)を使用してエアインターフェース116を確立し得る。
【0040】
一実施形態では、基地局114aおよびWTRU102a、102b、102cは、NR無線アクセスなどの無線技術を実装し得、これは、新しい無線(NR)を使用してエアインターフェース116を確立し得る。
【0041】
一実施形態では、基地局114aおよびWTRU102a、102b、102cは、複数の無線アクセス技術を実装し得る。例えば、基地局114aおよびWTRU102a、102b、102cは、例えば、二重接続(DC)原理を使用して、LTE無線アクセスおよびNR無線アクセスを一緒に実装し得る。したがって、WTRU102a、102b、102cによって利用されるエアインターフェースは、複数のタイプの無線アクセス技術および/または複数のタイプの基地局(例えば、eNBおよびgNB)との間で送信される送信によって特徴付けられ得る。
【0042】
他の実施形態では、基地局114aおよびWTRU102a、102b、102cは、IEEE802.11(すなわち、無線フィデリティ(WiFi)、IEEE802.16(すなわち、マイクロ波アクセスのための世界的相互運用性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000EV-DO、暫定規格2000(IS-2000)、暫定規格95(IS-95)、暫定規格856(IS-856)、グローバルシステムフォーモバイルコミュニケーションズ(GSM)、GSMエボリューションの拡張データレート(EDGE)、GSM EDGE(GERAN)などの無線技術を実装し得る。
【0043】
図1Aの基地局114bは、例えば、無線ルータ、ホームNode-B、ホームeNode-B、またはアクセスポイントであり得、事業所、家庭、車両、キャンパス、産業施設、(例えば、ドローンが使用するための)空中回廊、道路などの局所領域における無線接続を容易にするために任意の好適なRATを利用し得る。一実施形態では、基地局114bおよびWTRU102c、102dは、無線ローカルエリアネットワーク(WLAN)を確立するために、IEEE802.11などの無線技術を実装し得る。一実施形態では、基地局114bおよびWTRU102c、102dは、無線パーソナルエリアネットワーク(WPAN)を確立するために、IEEE802.15などの無線技術を実装し得る。さらに別の実施形態では、基地局114bおよびWTRU102c、102dは、セルラーベースのRAT(例えば、WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NRなど)を利用して、ピコセルまたはフェムトセルを確立し得る。
図1Aに示されるように、基地局114bは、インターネット110への直接接続を有し得る。したがって、基地局114bは、CN106を介してインターネット110にアクセスする必要がない場合がある。
【0044】
RAN104は、CN106と通信し得、これは、1つ以上のWTRU102a、102b、102c、102dに音声、データ、アプリケーション、および/またはボイスオーバーインターネットプロトコル(VoIP)サービスを提供するように構成された任意のタイプのネットワークであり得る。データは、異なるスループット要件、遅延要件、エラー許容要件、信頼性要件、データスループット要件、モビリティ要件など、様々なサービス品質(QoS)要件を有し得る。CN106は、呼制御、課金サービス、モバイル位置ベースのサービス、プリペイド通話、インターネット接続、ビデオ配信などを提供し、および/またはユーザ認証などの高レベルのセキュリティ機能を実行し得る。
図1Aには示されていないが、RAN104および/またはCN106は、RAN104と同じRATまたは異なるRATを使用する他のRANと直接または間接的に通信し得ることが理解されよう。例えば、NR無線技術を利用し得るRAN104に接続されることに加えて、CN106はまた、GSM、UMTS、CDMA2000、WiMAX、E-UTRA、またはWiFi無線テクノロジーを使用する別のRAN(図示せず)と通信し得る。
【0045】
CN106はまた、WTRU102a、102b、102c、102dがPSTN108、インターネット110、および/または他のネットワーク112にアクセスするためのゲートウェイとして機能し得る。PSTN108は、一般電話サービス(POTS)を提供する回線交換電話網を含み得る。インターネット110は、伝送制御プロトコル(TCP)、ユーザデータグラムプロトコル(UDP)、および/またはTCP/IPインターネットプロトコルスイートのインターネットプロトコル(IP)などの共通の通信プロトコルを使用する相互接続されたコンピュータネットワークおよびデバイスのグローバルシステムを含み得る。ネットワーク112は、他のサービスプロバイダによって所有および/または運用される有線および/または無線通信ネットワークを含み得る。例えば、ネットワーク112は、1つ以上のRANに接続された別のCNを含み得、これは、RAN104と同じRATまたは異なるRATを使用し得る。
【0046】
通信システム100内のWTRU102a、102b、102c、102dの一部または全ては、マルチモード機能を含み得る(例えば、WTRU102a、102b、102c、102dは、異なる無線リンクを介して異なる無線ネットワークと通信するための複数のトランシーバを含み得る)。例えば、
図1Aに示されるWTRU102cは、セルラーベースの無線技術を採用し得る基地局114aと、かつIEEE802無線技術を採用し得る基地局114bと通信するように構成され得る。
【0047】
図1Bは、例示的なWTRU102を示すシステム図である。
図1Bに示されるように、WTRU102は、とりわけ、プロセッサ118、トランシーバ120、送信/受信要素122、スピーカ/マイクロフォン124、キーパッド126、ディスプレイ/タッチパッド128、取り外し不能なメモリ130、取り外し可能なメモリ132、電源134、グローバルポジショニングシステム(GPS)チップセット136、および/または他の周辺機器138を含み得る。WTRU102は、実施形態と一致性を保ちながら、前述の要素の任意のサブコンビネーションを含み得ることが理解されよう。
【0048】
プロセッサ118は、汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタル信号プロセッサ(DSP)、複数のマイクロプロセッサ、DSPコアに関連する1つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)回路、他のタイプの集積回路(IC)、ステートマシンなどであり得る。プロセッサ118は、信号コード化、データ処理、電力制御、入力/出力処理、および/またはWTRU102が無線環境で動作することを可能にする他の任意の機能を実行し得る。プロセッサ118は、トランシーバ120に結合され得、トランシーバ120は、送信/受信要素122に結合され得る。
図1Bは、プロセッサ118およびトランシーバ120を別個のコンポーネントとして示しているが、プロセッサ118およびトランシーバ120は、電子パッケージまたはチップに一緒に集積され得ることが理解されよう。
【0049】
送信/受信要素122は、エアインターフェース116を介して基地局(例えば、基地局114a)に信号を送信するか、または基地局から信号を受信するように構成され得る。例えば、一実施形態では、送信/受信要素122は、RF信号を送信および/または受信するように構成されたアンテナであってもよい。一実施形態では、送信/受信要素122は、例えば、IR、UV、または可視光信号を送信および/または受信するように構成されたエミッタ/検出器であってもよい。さらに別の実施形態では、送信/受信要素122は、RF信号および光信号の両方を送信および/または受信するように構成され得る。送信/受信要素122は、無線信号の任意の組み合わせを送信および/または受信するように構成され得ることが理解されよう。
【0050】
送信/受信要素122は、単一の要素として
図1Bに示されているが、WTRU102は、任意の数の送信/受信要素122を含み得る。より具体的には、WTRU102は、MIMO技術を採用し得る。したがって、一実施形態では、WTRU102は、エアインターフェース116を介して無線信号を送信および受信するための2つ以上の送信/受信要素122(例えば、複数のアンテナ)を含み得る。
【0051】
トランシーバ120は、送信/受信要素122によって送信される信号を変調し、送信/受信要素122によって受信される信号を復調するように構成され得る。上記のように、WTRU102は、マルチモード機能を有し得る。したがって、トランシーバ120は、WTRU102が、例えば、NRおよびIEEE802.11などの複数のRATを介して通信することを可能にするための複数のトランシーバを含み得る。
【0052】
WTRU102のプロセッサ118は、スピーカ/マイクロフォン124、キーパッド126、および/またはディスプレイ/タッチパッド128(例えば、液晶ディスプレイ(LCD)ディスプレイユニットまたは有機発光ダイオード(OLED)ディスプレイユニット)に結合され得、かつそれらからユーザ入力データを受信し得る。プロセッサ118はまた、ユーザデータをスピーカ/マイクロフォン124、キーパッド126、および/またはディスプレイ/タッチパッド128に出力し得る。さらに、プロセッサ118は、取り外し不能なメモリ130および/または取り外し可能なメモリ132などの任意のタイプの好適なメモリからの情報にアクセスし、そこにデータを記憶し得る。取り外し不能なメモリ130は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、ハードディスク、または任意の他のタイプのメモリ記憶デバイスを含み得る。取り外し可能なメモリ132は、加入者識別モジュール(SIM)カード、メモリスティック、セキュアデジタル(SD)メモリカードなどを含み得る。他の実施形態では、プロセッサ118は、サーバまたはホームコンピュータ(図示せず)など、WTRU102上に物理的に位置していないメモリからの情報にアクセスし、そこにデータを記憶し得る。
【0053】
プロセッサ118は、電源134から電力を受け取ることができ、WTRU102内の他のコンポーネントに電力を分配および/または制御するように構成され得る。電源134は、WTRU102に電力を供給するための任意の好適なデバイスであり得る。例えば、電源134は、1つ以上の乾電池(例えば、ニッケルカドミウム(NiCd)、ニッケル亜鉛(NiZn)、ニッケル金属水素化物(NiMH)、リチウムイオン(Li-ion)など)、太陽電池、燃料電池などを含み得る。
【0054】
プロセッサ118はまた、GPSチップセット136に結合され得、これは、WTRU102の現在の位置に関する位置情報(例えば、経度および緯度)を提供するようにされ得る。GPSチップセット136からの情報に加えて、またはその代わりに、WTRU102は、基地局(例えば、基地局114a、114b)からエアインターフェース116を介して位置情報を受信し得、および/または2つ以上の近くの基地局から受信される信号のタイミングに基づいてその位置を判定し得る。WTRU102は、実施形態と一致性を保ちながら、任意の好適な位置判定方法によって位置情報を取得し得ることが理解されよう。
【0055】
プロセッサ118は、追加の特徴、機能、および/または有線もしくは無線接続を提供する1つ以上のソフトウェアおよび/またはハードウェアモジュールを含み得る、他の周辺機器138にさらに結合され得る。例えば、周辺機器138は、加速度計、eコンパス、衛星トランシーバ、デジタルカメラ(写真および/またはビデオ用)、ユニバーサルシリアルバス(USB)ポート、振動デバイス、テレビトランシーバ、ハンズフリーヘッドセット、ブルートゥース(登録商標)モジュール、周波数変調(FM)無線ユニット、デジタル音楽プレーヤ、メディアプレーヤ、ビデオゲームプレーヤモジュール、インターネットブラウザ、仮想現実および/または拡張現実(VR/AR)デバイス、アクティビティトラッカなどを含み得る。周辺機器138は、1つ以上のセンサを含み得、センサは、ジャイロスコープ、加速度計、ホール効果センサ、磁力計、方向センサ、近接センサ、温度センサ、時間センサ、地理位置情報センサ、高度計、光センサ、タッチセンサ、磁力計、気圧計、ジェスチャセンサ、生体認証センサ、および/または湿度センサのうちの1つ以上であり得る。
【0056】
WTRU102は、(例えば、UL(例えば、送信用)およびダウンリンク(例えば、受信用)の双方の特定のサブフレームに関連付けられる)信号の一部または全ての送信および受信が並行および/または同時に行われ得る全二重無線を含み得る。全二重無線は、ハードウェアまたはプロセッサ(例えば、別個のプロセッサ(図示せず)またはプロセッサ118を介した)を介した信号処理のいずれかを介した自己干渉(例えば、チョーク)を低減および/または実質的に排除するための干渉管理ユニットを含み得る。一実施形態では、WRTU102は、信号の一部または全ての送信および受信(例えば、UL(例えば、送信用)またはダウンリンク(例えば、受信用)のいずれかの特定のサブフレームに関連付けられる)のための半二重無線を含み得る。
【0057】
WTRUは、無線端末として
図1A~
図1Bに記載されているが、特定の代表的な実施形態では、そのような端末が、通信ネットワークとの有線通信インターフェースを(例えば、一時的または恒久的に)使用し得ることが想定される。
【0058】
代表的な実施形態では、他のネットワーク112は、WLANであり得る。
【0059】
図1A~1Bを見て、および対応する説明を考慮して、本明細書に記載の機能の1つ以上、または全ては、1つ以上のエミュレーションデバイス(図示せず)によって実行され得る。エミュレーションデバイスは、本明細書に記載の機能の1つ以上、または全てをエミュレートするように構成された1つ以上のデバイスであってもよい。例えば、エミュレーションデバイスは、他のデバイスをテストするために、ならびに/またはネットワークおよび/もしくはWTRU機能をシミュレートするために使用され得る。
【0060】
エミュレーションデバイスは、ラボ環境および/またはオペレータネットワーク環境で他のデバイスの1つ以上のテストを実装するように設計され得る。例えば、1つ以上のエミュレーションデバイスは、通信ネットワーク内の他のデバイスをテストするために、有線および/または無線通信ネットワークの一部として完全にまたは部分的に実装および/または展開されている間に、1つ以上または全ての機能を実行し得る。1つ以上のエミュレーションデバイスは、有線および/または無線通信ネットワークの一部として一時的に実装/展開されている間に、1つ以上、または全ての機能を実行し得る。エミュレーションデバイスは、テストの目的で別のデバイスに直接結合され得、および/または無線ネットワーク経由無線通信を使用してテストを実行し得る。
【0061】
1つ以上のエミュレーションデバイスは、有線および/または無線通信ネットワークの一部として実装/展開されていない間に、全てを含む1つ以上の機能を実行し得る。例えば、エミュレーションデバイスは、1つ以上のコンポーネントのテストを実装するために、テストラボでのテストシナリオおよび/または展開されていない(例えば、テスト)有線および/または無線通信ネットワークで利用され得る。1つ以上のエミュレーションデバイスは、テスト機器であってもよい。RF回路(例えば、1つ以上のアンテナを含み得る)を介した直接RF結合および/または無線通信は、データを送信および/または受信するためにエミュレーションデバイスによって使用され得る。
【0062】
例示的なシステム.
本明細書に記載の実施形態は、WTRU上に実装されることに限定されない。そのような実施形態は、
図1Cのシステムなどの他のシステムを使用して実施し得る。
図1Cは、様々な態様および実施形態が実装されるシステムの例のブロック図を示す。システム2000は、以下で説明される様々な構成要素を含むデバイスとして具現化することができ、本文献で説明される態様の1つ以上を実行するように構成されている。そのようなデバイスの例は、これらに限定されるものではないが、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受像機、パーソナルビデオ録画システム、コネクテッド家電、およびサーバなどの様々な電子デバイスを含む。システム2000の要素は、単独でも組み合わせでも、単一の集積回路(IC)、複数のIC、および/または個別の構成要素で具現化され得る。例えば、少なくとも1つの実施形態において、システム2000の処理および符号化器/復号化器要素は、複数のICおよび/または個別の構成要素にわたって分散している。様々な実施形態では、システム2000は、1つ以上の他のシステムに、または他の電子デバイスに、例えば、通信バスを介して、または専用の入力および/もしくは出力ポートを通して、通信可能に結合される。様々な実施形態では、システム2000は、本文献に記載の態様のうちの1つ以上を実装するように構成される。
【0063】
システム2000は、例えば、本文献に記載の様々な態様を実装するために、読み込まれた命令を実行するように構成された少なくとも1つのプロセッサ2010を含む。プロセッサ2010は、当技術分野で既知であるように、埋め込みメモリ、入出力インターフェース、および他の様々な回路を含み得る。システム2000は、少なくとも1つのメモリ2020(例えば、揮発性メモリデバイス、および/または不揮発性メモリデバイス)を含む。システム2000は、不揮発性メモリおよび/または揮発性メモリを含むことができる記憶デバイス2040を含み、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、読み取り専用メモリ(ROM)、プログラム可能な読み取り専用メモリ(PROM)、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、フラッシュ、磁気ディスクドライブ、および/または光ディスクドライブを含むが、これらに限定されない。記憶デバイス2040は、非限定的な例として、内部記憶デバイス、付属の記憶デバイス(取り外し可能および取り外し不可能な記憶デバイスを含む)、ならびに/またはネットワークアクセス可能な記憶デバイスを含み得る。
【0064】
システム2000は、例えば、符号化されたビデオまたは復号化されたビデオを提供するようにデータを処理するように構成された符号化器/復号化器モジュール2030を含み、符号化器/復号化器モジュール2030は、独自のプロセッサおよびメモリを含み得る。符号化器/復号化器モジュール2030は、符号化機能および/または復号化機能を実行するデバイスに含まれ得るモジュール(複数可)を表す。既知であるように、デバイスは、符号化および復号化モジュールの一方または両方を含み得る。さらに、符号化器/復号化器モジュール2030は、システム2000の別個の要素として実装され得るか、または、当業者には周知であるように、ハードウェアとソフトウェアとの組み合わせとして、プロセッサ2010内に組み込むことができる。
【0065】
本文献に記載の様々な態様を実行するようにプロセッサ2010または符号化器/復号化器2030に読み込まれるプログラムコードは、記憶デバイス2040に格納され、続いて、プロセッサ2010による実行のためにメモリ2020に読み込まれ得る。様々な実施形態によれば、プロセッサ2010、メモリ2020、記憶デバイス2040、および符号化器/復号化器モジュール2030のうちの1つ以上は、本文献に記載のプロセスの実行中、様々な項目のうちの1つ以上を記憶することができる。このような記憶される項目には、入力ビデオ、復号化されたビデオまたは復号化されたビデオの一部、ビットストリーム、マトリックス、変数、ならびに方程式、式、演算、および演算ロジックの処理からの中間結果または最終結果が含まれ得るが、これらに限定されない。
【0066】
いくつかの実施形態において、プロセッサ2010および/または符号化器/復号化器モジュール2030の内部メモリを使用して、命令を記憶し、符号化または復号化中に必要とされる処理のために、ワーキングメモリを提供する。しかしながら、他の実施形態において、処理デバイス(例えば、処理デバイスは、プロセッサ2010または符号化器/復号化器モジュール2030のいずれかであり得る)の外部メモリは、これらの機能のうちの1つ以上に使用される。外部メモリは、メモリ2020および/または記憶デバイス2040であり得、例えば、ダイナミック揮発性メモリおよび/または不揮発性フラッシュメモリであり得る。いくつかの実施形態において、例えば、テレビのオペレーティングシステムを記憶するために外部不揮発性フラッシュメモリが使用される。少なくとも1つの実施形態では、RAMなどの高速外部ダイナミック揮発性メモリが、MPEG-2(MPEGはMoving Picture Experts Groupを指し、MPEG-2は、ISO/IEC 13818とも称され、13818-1はH.222としても既知であり、13818-2はH.262としても既知である)、HEVC(HEVCはHigh Efficiency Video Codingを指し、H.265およびMPEG-H Part2としても既知である)、またはVVC(Versatile Video Codingであり、JVET、すなわちJoint Video Experts Teamによって開発された新標準規格)などのビデオコード化および復号化動作のためのワーキングメモリとして使用される。
【0067】
システム2000の要素への入力は、ブロック2130に示されるような様々な入力デバイスを通して提供され得る。このような入力デバイスは、(i)例えば、放送局によって無線で送信されたRF信号を受信する無線周波数(RF)部分、(ii)コンポーネント(COMP)入力端子(またはCOMP入力端子のセット)、(iii)ユニバーサルシリアルバス(USB)入力端子、および/または(iv)高品位マルチメディアインターフェース(HDMI)入力端子を含むが、これらに限定されない。
図1Cに示されていない他の実施例には、コンポジットビデオが含まれる。
【0068】
様々な実施形態において、ブロック2130の入力デバイスは、当技術分野で既知であるような関連するそれぞれの入力処理要素を有する。例えば、RF部は、(i)所望の周波数を選択する(信号を選択する、またはある周波数帯域に信号を帯域制限する、とも称される)、(ii)選択された信号をダウンコンバートする、(iii)(例えば)ある特定の実施形態ではチャネルと称され得る信号周波数帯域を選択するために、より狭い周波数帯域に再び帯域制限する、(iv)ダウンコンバートされ、帯域制限された信号を復調する、(v)誤り訂正を実行する、および(vi)逆多重化して、所望のデータパケットストリームを選択するのに好適な要素に関連付けられ得る。様々な実施形態のRF部は、これらの機能、例えば、周波数セレクタ、信号セレクタ、帯域リミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、誤り訂正器、および逆多重化器を実行する1つ以上の要素を含む。RF部は、例えば、受信された信号をより低い周波数に(例えば、中間周波数またはベースバンドに近い周波数)、またはベースバンドにダウンコンバートすることを含む、様々なこれらの機能を実行するチューナを含むことができる。1つのセットトップボックスの実施形態において、RF部およびその関連付けられた入力処理要素は、有線(例えば、ケーブル)媒体経由で送信されたRF信号を受信し、フィルタリングし、ダウンコンバートし、所望の周波数帯域に再びフィルタリングすることによって、周波数選択を実行する。様々な実施形態では、上記(および他の)要素の順番が並べ替えられ、これらの要素のうちのいくつかが取り除かれ、かつ/または同様もしくは異なる機能を実行する他の要素が追加される。要素を追加することは、既存の要素間に要素を挿入すること、例えば、増幅器およびアナログ-デジタル変換器を挿入することなどを含むことができる。様々な実施形態において、RF部は、アンテナを含む。
【0069】
さらに、USBおよび/またはHDMI端子は、USBおよび/またはHDMI接続を介して、他の電子デバイスにシステム2000を接続するためのそれぞれのインターフェースプロセッサを含み得る。入力処理の様々な態様、例えば、リードソロモン誤り訂正が、例えば、必要に応じて、別個の入力処理IC内、またはプロセッサ2010内に実装され得ることを理解されたい。同様に、USBまたはHDMIインターフェース処理の態様は、必要に応じて、別個のインターフェースIC内またはプロセッサ2010内に実装され得る。復調され、誤り訂正され、かつ逆多重化されたストリームは、例えば、プロセッサ2010と、出力デバイス上での表示用に、必要に応じてデータストリームを処理するためにメモリおよび記憶要素と組み合わせて動作する符号化器/復号化器2030と、を含む様々な処理要素に提供される。
【0070】
システム2000の様々な要素は、一体型ハウジング内に提供され得、一体型ハウジング内で、様々な要素は、相互接続され、好適な接続構成2140、例えば、Inter-IC(I2C)バス、配線、およびプリント回路基板を含む、当技術分野で周知であるような内部バスを使用して、それらの間でデータを送信することができる。
【0071】
システム2000は、通信チャネル2060を介して他のデバイスとの通信を可能にする通信インターフェース2050を含む。通信インターフェース2050は、通信チャネル2060経由でデータを送信および受信するように構成されたトランシーバを含むことができるが、これに限定されない。通信インターフェース2050は、モデムまたはネットワークカードを含むことができるが、これらに限定されず、通信チャネル2060は、例えば、有線および/または無線媒体内に実装され得る。
【0072】
データは、様々な実施形態において、Wi-Fiネットワーク、例えば、IEEE802.11(IEEEは、電気電子技術者協会を指す)などの無線ネットワークを使用して、システム2000にストリーミングされるか、または別様に提供される。これらの実施形態のWi-Fi信号は、Wi-Fi通信に適合された通信チャネル2060および通信インターフェース2050を介して受信される。これらの実施形態の通信チャネル2060は、典型的には、ストリーミングアプリケーションおよび他のオーバーザトップ通信を可能にするインターネットを含む外部ネットワークへのアクセスを提供するアクセスポイントまたはルータに接続される。他の実施形態は、入力ブロック2130のHDMI接続経由でデータを配信するセットトップボックスを使用して、ストリーミングされたデータをシステム2000に提供する。さらに他の実施形態は、入力ブロック2130のRF接続を使用して、ストリーミングされたデータをシステム2000に提供する。上記のように、様々な実施形態は、非ストリーミング方式でデータを提供する。さらに、様々な実施形態は、Wi-Fi以外の無線ネットワーク、例えば、セルラーネットワークまたはブルートゥースネットワークを使用する。
【0073】
システム2000は、ディスプレイ2100、スピーカ2110、および他の周辺デバイス2120を含む、様々な出力デバイスに出力信号を提供することができる。様々な実施形態のディスプレイ2100は、例えば、タッチスクリーンディスプレイ、有機発光ダイオード(OLED)ディスプレイ、湾曲ディスプレイ、および/または折り畳み式ディスプレイのうちの1つ以上を含む。ディスプレイ2100は、テレビ、タブレット、ラップトップ、携帯電話(モバイルフォン)、または他のデバイス用であり得る。ディスプレイ2100はまた、他の構成要素(例えば、スマートフォンのように)と統合され得るか、または別個(例えば、ラップトップ用の外部モニタ)であり得る。他の周辺デバイス2120は、実施形態の様々な例において、スタンドアロンデジタルビデオディスク(もしくはデジタル多用途ディスク)(両用語ともDVR)、ディスクプレーヤ、ステレオシステム、および/または照明システムのうちの1つ以上を含む。様々な実施形態は、システム2000の出力に基づく機能を提供する1つ以上の周辺デバイス2120を使用する。例えば、ディスクプレーヤは、システム2000の出力を再生する機能を実行する。
【0074】
様々な実施形態において、システム2000と、ディスプレイ2100、スピーカ2110、または他の周辺デバイス2120との間で、AV.Link、コンシューマエレクトロニクス制御(CEC)、またはユーザの介入の有無に関わらず、デバイス間制御を可能にする他の通信プロトコルなどを信号伝達することを使用して、制御信号が通信される。出力デバイスは、それぞれのインターフェース2070、2080、および2090を通して専用接続を介してシステム2000に通信可能に結合され得る。代替的に、出力デバイスは、通信インターフェース2050を介して、通信チャネル2060を使用してシステム2000に接続され得る。ディスプレイ2100およびスピーカ2110は、例えば、テレビなどの電子デバイス内のシステム2000の他の構成要素と、単一のユニット内に統合され得る。様々な実施形態において、ディスプレイインタフェース2070は、例えば、タイミングコントローラ(T Con)チップなどのディスプレイドライバを含む。
【0075】
ディスプレイ2100およびスピーカ2110は、代替的に、例えば、入力2130のRF部が別個のセットトップボックスの一部である場合、他の構成要素のうちの1つ以上とは別個であり得る。ディスプレイ2100およびスピーカ2110が外部構成要素である様々な実施形態において、例えば、HDMIポート、USBポート、またはCOMP出力部を含む専用出力接続を介して、出力信号が提供され得る。
【0076】
実施形態は、プロセッサ2010によって、またはハードウェアによって、またはハードウェアとソフトウェアとの組み合わせによって実装されるコンピュータソフトウェアによって、実行され得る。非限定的な例として、実施形態は、1つ以上の集積回路によって実装され得る。メモリ2020は、技術的環境に適切な任意のタイプのものであり得、非限定的な例として、光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリ、および取り外し可能なメモリなどの任意の適切なデータ記憶技術を使用して実装され得る。プロセッサ2010は、技術的環境に適切な任意のタイプのものであり得、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、専用コンピュータ、およびマルチコアアーキテクチャに基づくプロセッサのうちの1つ以上を包含し得る。
【発明を実施するための形態】
【0077】
ブロックベースのビデオコーディング.
HEVCと同様に、VVCはブロックベースのハイブリッドビデオコーディングフレームワークに基づいて構築される。
図2Aは、一般的なブロックベースのハイブリッドビデオ符号化システムのブロック図を与える。入力ビデオ信号103は、ブロックごとに処理される。HEVCでは、拡張ブロックサイズ(「コーディングユニット」またはCUと呼ばれる)を使用して、高解像度(1080p以上)のビデオ信号を効率的に圧縮する。HEVCでは、CUは、最大64×64ピクセルにすることができる。CUは、予測ユニットまたはPUにさらに分割でき、個別の予測方法が適用される。各入力ビデオブロック(MBまたはCU)について、空間予測(161)および/または時間予測(163)を実行し得る。空間予測(または「イントラ予測」)は、同じビデオ画像/スライス内の既にコード化された隣接ブロックからのピクセルを使用して、現在のビデオブロックを予測する。空間予測は、ビデオ信号に固有の空間冗長性を低減する。時間予測(「相互予測」または「動き補償予測」とも称される)は、既にコード化されたビデオ画像のピクセルを使用して、現在のビデオブロックを予測する。時間的予測は、ビデオ信号に固有の時間的冗長性を低減する。所与のビデオブロックの時間予測信号は、通常、現在のブロックとその参照ブロックとの間の動きの量および方向を示す1つ以上の動きベクトルによって信号伝達される。また、複数の参照画像がサポートされている場合(H.264/AVCまたはHEVCなどの最近のビデオコーディング規格の場合のように)、ビデオブロックごとに、その参照画像インデックスが追加で送信され、そして、参照インデックスは、参照画像ストア(165)内のどの参照画像から時間予測信号が来るかを識別するために使用される。空間的および/または時間的予測の後、符号化器のモード決定ブロック(181)は、例えば、レート歪み最適化方法に基づいて、最良の予測モードを選択する。次に、予測ブロックが現在のビデオブロックから差し引かれ(117)、予測残差は、変換(105)および量子化(107)を使用して非相関化されて、ターゲットビットレートを達成する。量子化された残差係数は、逆量子化(111)および逆変換(113)されて再構築された残差を形成し、次に予測ブロック(127)に追加されて再構築されたビデオブロックを形成する。非ブロック化フィルタおよび適応ループフィルタなどのさらなるインループフィルタリングは、それが参照画像ストアに配置され(165)、将来のビデオブロックをコード化するために使用される前に、再構築されたビデオブロックに適用され得る(167)。出力ビデオビットストリーム121を形成するために、コーディングモード(インターまたはイントラ)、予測モード情報、モーション情報、および量子化された残差係数は全てエントロピーコーディングユニット(109)に送信され、さらに圧縮およびパックされてビットストリームを形成する。
【0078】
図2Bは、ブロックベースのビデオ復号化器のブロック図を与える。ビデオビットストリーム202は、最初にアンパックされ、エントロピー復号化ユニット208でエントロピー復号化される。コーディングモードおよび予測情報は、空間予測ユニット260(イントラコード化されている場合)または時間予測ユニット262(インターコード化されている場合)のいずれかに送信されて、予測ブロックを形成する。残余変換係数は、残余ブロックを再構築するために、逆量子化ユニット210および逆変換ユニット212に送られる。次に、予測ブロックと残余ブロックが226で加算される。再構築されたブロックは、参照画像ストア264に記憶される前に、ループ内フィルタリングをさらに通過し得る。次に、参照画像ストアで再構築されたビデオは、ディスプレイデバイスを駆動するために送信され、将来のビデオブロックを予測するために使用される。
【0079】
最新のビデオコーデックでは、双方向動き補償予測(MCP)は、画像間の時間的相関を利用して時間的冗長性を除去する効率が高いことで知られており、ほとんどの最先端のビデオコーデックで広く採用されている。しかし、バイ予測信号は、0.5に等しい重み値を使用して2つのユニ予測信号を組み合わせるだけで形成される。これは、特に照度が1つの参照画像から別の参照画像に急速に変化する場合に、単一予測信号を組み合わせるのに必ずしも最適ではない。したがって、いくつかの予測技術は、参照画像のサンプル値の各々にグローバルまたはローカルの重みとオフセット値を適用することにより、時間の経過に伴う照度の変動を補正することを目的とする。
【0080】
スケーラブルビデオコーディング.
単層ビデオ符号化器は、単一のビデオシーケンス入力を受け取り、単層復号化器に送信される単一の圧縮ビットストリームを生成し得る。ビデオコーデックは、デジタルビデオサービス用に設計され得る(例えば、衛星、ケーブル、および地上波伝送チャネルを介したTV信号の送信など)。異種環境に展開されたビデオ中心のアプリケーションでは、様々なアプリケーションを可能にするビデオコーディング標準の拡張として、多層ビデオコーディング技術が開発される可能性がある。例えば、スケーラブルビデオコーディングおよび/またはマルチビュービデオコーディングなどの多層ビデオコーディング技術は、特定の空間解像度、時間分解能、忠実度、および/またはビューのビデオ信号を再構築するために各層が復号化器され得る複数のビデオ層を処理するように設計され得る。単層符号化器および復号化器が
図2Aおよび
図2Bを参照して説明されているが、本明細書に記載の概念は、例えば、マルチビューおよび/またはスケーラブルコーディング技術のために、多層符号化器および/または復号化器を利用し得る。
【0081】
スケーラブルビデオコーディングにより、異種ネットワーク上で様々な機能を備えたデバイスで実行されるビデオアプリケーションのエクスペリエンスの品質が向上し得る。スケーラブルビデオコーディングは、信号を最高の表現(例えば、時間解像度、空間解像度、品質など)で一度符号化し得るが、クライアントデバイスで実行されている特定のアプリケーションに必要な特定のレートおよび表現に依存して、ビデオストリームのサブセットからの復号化を可能にする。スケーラブルビデオコーディングは、スケーラブルでないソリューションと比較して、帯域幅および/または記憶を節約し得る。国際ビデオ規格、例えば、MPEG-2ビデオ、H.263、MPEG4ビジュアル、H.264などには、スケーラビリティのモードをサポートするツールおよび/またはプロファイルが含まれ得る。
【0082】
表1は、様々なタイプのスケーラビリティの例と、それらをサポートする可能性のある対応する標準を示している。ビット深度のスケーラビリティおよび/またはクロマフォーマットのスケーラビリティは、例えば、主にプロのビデオアプリケーションで使用される可能性のあるビデオフォーマット(例えば、8ビットビデオよりも高い、およびYUV4:2:0よりも高いクロマサンプリングフォーマット)に関連付け得る。アスペクト比のスケーラビリティが提供され得る。
【表1】
【0083】
スケーラブルビデオコーディングは、ベース層ビットストリームを使用して、ビデオパラメータの第1のセットに関連する第1のレベルのビデオ品質を提供し得る。スケーラブルビデオコーディングは、1つ以上の拡張層ビットストリームを使用して、拡張パラメータの1つ以上のセットに関連付けられた1つ以上の高品質のレベルを提供し得る。ビデオパラメータのセットには、空間解像度、フレームレート、再構築されたビデオ品質(例えば、SNR、PSNR、VOM、視覚品質などのフォーマットで)、3D機能(例えば、2つ以上のビュー)、輝度と彩度のビット深度、彩度フォーマット、および基礎となる単層コーディング標準の1つ以上が含まれ得る。例えば、表1に示すように、様々な使用ケースで様々なタイプのスケーラビリティが使用され得る。スケーラブルコーディングアーキテクチャは、1つ以上のスケーラビリティ(例えば、表1にリストされているスケーラビリティ)をサポートするように構成できる共通の構造を提供し得る。スケーラブルコーディングアーキテクチャは、柔軟であり得、最小限の構成努力で様々なスケーラビリティをサポートする。スケーラブルコーディングアーキテクチャは、コーディングロジック(例えば、符号化および/または復号化ロジック)がスケーラブルコーディングシステム内で最大限に再利用され得るように、ブロックレベルの動作への変更を必要としない可能性がある少なくとも1つの好ましい動作モードを含み得る。例えば、画像レベルの層間処理および管理ユニットに基づくスケーラブルコーディングアーキテクチャが提供され得、ここで、層間予測は、画像レベルで実行され得る。
【0084】
図3は、2層のスケーラブルビデオ符号化器の例示的なアーキテクチャの図である。ビデオ符号化器900は、ビデオ(例えば、拡張層ビデオ入力)を受信し得る。拡張層ビデオは、ダウンサンプラ902を使用してダウンサンプリングされ、より低いレベルのビデオ入力(例えば、ベース層ビデオ入力)を作成し得る。拡張層のビデオ入力とベース層のビデオ入力は、ダウンサンプリングプロセスを介して互いに対応し得、空間スケーラビリティを実現し得る。ベース層符号化器904(例えば、この例ではHEVC符号化器)は、ベース層ビデオ入力をブロックごとに符号化し得、ベース層ビットストリームを生成し得る。
図2Aは、
図3のベース層符号化器として使用され得る例示的なブロックベースの単層ビデオ符号化器の図である。
【0085】
拡張層では、拡張層(EL)符号化器906は、ベース層ビデオ入力よりも高い空間分解能(例えば、および/または他のビデオパラメータのより高い値)であり得るEL入力ビデオ入力を受信し得る。EL符号化器906は、例えば、圧縮を達成するために空間的および/または時間的予測を使用して、ベース層ビデオ符号化器904と実質的に同様の方法でELビットストリームを生成し得る。層間予測(ILP)は、そのコーディング性能を改善するために、EL符号化器906で利用可能であり得る。現在の拡張層のコード化されたビデオ信号に基づいて予測信号を導き出すことができる空間的および時間的予測とは異なり、層間予測は、ベース層(例えば、スケーラブルシステムに2つ以上の層があるとき、および/または他の下位層の場合)からのコード化されたビデオ信号に基づいて予測信号を導き出すことができる。スケーラブルシステムでは、画像レベルのILPとブロックレベルのILPという、少なくとも2つのフォーマットの層間予測を使用し得る。ここでは、画像レベルのILPおよびブロックレベルのILPについて考察する。ビットストリームマルチプレクサ908は、ベース層と拡張層ビットストリームを一緒に組み合わせ得、スケーラブルビットストリームを生成する。
【0086】
図4は、2層のスケーラブルビデオ復号化器の例示的なアーキテクチャの図である。
図4の2層スケーラブルビデオ復号化器アーキテクチャは、
図3のスケーラブル符号化器に対応し得る。ビデオ復号化器1000は、例えば、スケーラブル符号化器(例えば、スケーラブル符号化器900)からスケーラブルビットストリームを受信し得る。デマルチプレクサ1002は、スケーラブルビットストリームをベース層ビットストリームと拡張層ビットストリームに分離し得る。ベース層復号化器1004は、ベース層ビットストリームを復号化し得、ベース層ビデオを再構築し得る。
図2Bは、
図4のベース層復号化器として使用され得る例示的なブロックベースの単層ビデオ復号化器の図である。
【0087】
拡張層復号化器1006は、拡張層ビットストリームを復号化し得る。EL復号化器1006は、ベース層ビデオ復号化器1004と実質的に同様の方法でELビットストリームを復号化し得る。拡張層復号化器は、現在の層からの情報および/または1つ以上の依存層(例えば、ベース層)からの情報を使用して復号化し得る。例えば、1つ以上の依存層からのそのような情報は、層間処理を経ることができ、これは、画像レベルのILPおよび/またはブロックレベルのILPが使用されるときに達成され得る。図示されていないが、追加のILP情報は、MUX908でベースおよび拡張層ビットストリームと一緒に多重化され得る。ILP情報は、DEMUX1002によって逆多重化され得る。
【0088】
図5は、2ビュービデオコーディング構造の例を示す図である。概して1100で示されるように、
図5は、2ビュービデオコーディングのための時間的および次元間/層予測の例を示している。一般的な時間的予測に加えて、層間予測(例えば、破線で例示される)を使用し得、複数のビデオ層の間の相関を調査することによって圧縮効率を改善する。この例では、層間予測は2つのビュー間で実行し得る。
【0089】
層間予測は、例えば、複数の層の間の強い相関を調査するために、および/またはスケーラブルコーディング効率を改善するために、HEVCスケーラブルコーディング拡張で使用され得る。
【0090】
図6は、例えば、HEVCスケーラブルコーディングシステムについて考慮され得る、例示的な層間予測構造を示す図である。概して1200で示されているように、拡張層の予測は、再構築されたベース層信号からの動き補償予測(例えば、2つの層間の空間解像度が異なる場合のアップサンプリング後)、電流拡張層、および/またはベース層再構築信号を時間予測信号と平均化することによる。下層画像の完全な再構築を実行し得る。同様の概念は、3つ以上の層を持つHEVCスケーラブルコーディングに利用し得る。
【0091】
コード化されたビットストリーム構造.
図7は、コード化されたビットストリーム構造の例を示す図である。コード化されたビットストリーム1300は、いくつかのNAL(ネットワーク抽象化層)ユニット1301からなる。NALユニットは、コード化されたスライス1306などのコード化されたサンプルデータ、またはパラメータセットデータ、スライスヘッダーデータ1305または補足の拡張情報データ1307(SEIメッセージと称され得る)などの高レベルの構文メタデータを含み得る。パラメータセットは、複数のビットストリーム層に適用し得る(例えば、ビデオパラメータセット1302(VPS))、または1つの層内のコード化されたビデオシーケンスに適用し得る(例えば、シーケンスパラメータセット1303(SPS))、または1つのコード化されたビデオシーケンス内のいくつかのコード化された画像に適用し得る(例えば、画像パラメータセット1304(PPS))重要な構文要素を含む高レベルの構文構造である。パラメータセットは、ビデオビットストリームのコード化された画像と一緒に送信することも、他の手段(信頼できるチャネルを使用した帯域外送信、ハードコーディングなど)を介して送信することもできる。スライスヘッダー1305はまた、比較的小さいか、または特定のスライスまたは画像タイプにのみ関連するいくつかの画像関連情報を含み得る高レベルの構文構造である。SEIメッセージ1307は、復号化プロセスによって必要とされないかもしれないが、画像出力タイミングまたは表示、ならびに損失検出および隠蔽などの他の様々な目的のために使用され得る情報を運ぶ。
【0092】
通信デバイスおよびシステム.
図8は、通信システムの一例を示す図である。通信システム1400は、符号化器1402、通信ネットワーク1404、および復号化器1406を備え得る。符号化器1402は、有線接続または無線接続であり得る接続1408を介してネットワーク1404と通信し得る。符号化器1402は、
図2Aのブロックベースのビデオ符号化器と同様であり得る。符号化器1402は、単層コーデック(例えば、
図2A)または多層コーデックを含み得る。復号化器1406は、有線接続または無線接続であり得る接続1410を介してネットワーク1404と通信し得る。復号化器1406は、
図2Bのブロックベースのビデオ復号化器と同様であり得る。復号化器1406は、単層コーデック(例えば、
図2B)または多層コーデックを含み得る。
【0093】
符号化器1402および/または復号化器1406は、限定されるものではないが、デジタルテレビ、無線放送システム、ネットワーク要素/端末、コンテンツまたはウェブサーバなどのサーバ(ハイパーテキスト転送プロトコル(HTTP)サーバなど)、パーソナルデジタルアシスタント(PDA)、ラップトップまたはデスクトップコンピュータ、タブレットコンピュータ、デジタルカメラ、デジタル記録デバイス、ビデオゲームデバイス、ビデオゲームコンソール、携帯電話または衛星無線電話、デジタルメディアプレーヤなどの多種多様な有線通信デバイスおよび/または無線送信/受信ユニット(WTRU)に組み込まれ得る。
【0094】
通信ネットワーク1404は、好適なタイプの通信ネットワークであり得る。通信システム1404は、音声、データ、ビデオ、メッセージング、ブロードキャストなどのコンテンツを複数の無線ユーザに提供するマルチアクセスシステムであり得る。通信システム1404は、複数の無線ユーザが、無線帯域幅を含むシステムリソースの共有を通じてそのようなコンテンツにアクセスすることを可能にし得る。例えば、通信システム1404は、符号分割多重アクセス(CDMA)、時分割多重アクセス(TDMA)、周波数分割多重アクセス(FDMA)、直交FDMA(OFDMA)、シングルキャリアFDMA(SC-FDMA)などの1つ以上のチャネルアクセス方法を採用し得る。通信ネットワーク1404は、複数の接続された通信ネットワークを含み得る。通信ネットワーク1404は、インターネットおよび/またはセルラーネットワーク、WiFiホットスポット、インターネットサービスプロバイダ(ISP)ネットワークなどのような1つ以上のプライベート商用ネットワークを含み得る。
【0095】
サブ画像.
サブ画像は、元のビデオコンテンツの空間サブセットを表す画像であり、コンテンツ制作側でビデオ符号化する前に空間サブセットに分割されている。サブ画像ビットストリームは、サブ画像を含む1つ以上の表現の符号化されたバージョンである。(サブ画像およびサブ画像ビットストリームという用語は、このコンテキストでは交換可能に使用され得る。)
【0096】
サブ画像は、関心領域(ROI)アプリケーションまたはビューポート適応ストリーミング用の全方向性ビデオで使用され得る。
図9は、ビューポート適応ストリーミングの例を示している。この例では、サブ画像は、例えば、キューブマップ投影フォーマットの面を表し得る。コンテンツは2つの空間解像度で符号化されている。どちらの解像度でも、3×2のサブ画像グリッドが使用され、各サブ画像は他のサブ画像から独立して符号化されている。各コード化されたサブ画像シーケンスは、サブ画像ビットストリームとして記憶され、その結果、12個のサブ画像ビットストリームが抽出のために使用できる。ユーザの視聴配向に依存して、高解像度と低解像度のサブ画像の様々な組み合わせが抽出され得、ユーザの360ビデオストリーミングクライアントに配信するために再パッケージ化され得る。例えば、ユーザの配向が正面のサブ画像のコンテンツとよく一致している場合、高解像度の正面のサブ画像(例えば正面ビュー)が他の様々な低解像度のサブ画像(例えば、左、右、トップ、後、底ビュー)とともに抽出され得る。次に、抽出されたサブ画像が再位置付けされて出力ビットストリームを形成し、全体的に低減されたビットレートで高解像度のビューポートをユーザに提供する。
【0097】
サブビットストリーム.
サブビットストリーム抽出プロセスは、ターゲットセットに属さないビットストリームにおけるNALユニットによって、指定されたプロセスとして、HEVCで指定されており、ターゲットの最高のTemporalIDとターゲット層識別子リストによって判定され、ターゲットセットに属するビットストリームにおいてNALユニットで構成される出力サブ画像によって、ビットストリームから削除される。サブビットストリーム抽出プロセスへの入力は、ビットストリーム、ターゲットの最高のTemporalID値、およびターゲット層識別子リストであり、そのようなプロセスの出力はサブビットストリームである。
【0098】
サブ画像の抽出および再位置付けプロセスでは、サブビットストリームは1つのビットストリームから抽出されるだけでなく、別のビットストリームに再位置付けされて出力ビットストリームを形成する。
【0099】
いくつかの実施形態で対処される問題.
サブ画像関連の提案は、柔軟なタイリングと独立して復号化可能な長方形領域を可能にするために、第13回JVET会議で再検討された。サブ画像が、サブ画像サイズ信号伝達を備え、それ自体のPPSを参照し得、さらに、サブ画像が、例えば、パディングを使用してサブ画像境界を画像境界として扱うなど、復号化プロセスにおいて画像のように扱い得る、ことがJVET-M0261、「タイルのグループ化について」、2019年1月で提案された。同じコード化された画像のサブ画像が、各表現の異なるIRAP(イントラランダムアクセスポイント)距離を収容するために、異なるNALユニットタイプ値を有し得る、ことがJVET-M0388、「ビューポートに依存するストリーミングのためのMCTSのマージについて」、2019年1月で提案された。サブ画像は、SEIメッセージを使用して指定されたHEVCとして、モーション制約付きタイルセット(MCTS)として扱われる場合もある。
【0100】
本明細書に開示されるのは、復号化器バッファ管理、画像順序カウント(POC)値同期、サブ画像ベースの抽出および再位置付けプロセスを容易にするためのサブ画像パラメータセットの使用、および他の動作のためのシステムおよび方法である。
【0101】
JVET-N0826で説明されているように、サブ画像ベースのコーディングはVVCで実装され得る。画像はサブ画像に分割され得、各サブ画像は独自のタイル分割を備えた独自のPPSを参照し得る。各サブ画像の位置およびサイズはSPSに示されている。SPSは、1つ以上の出力サブ画像セットも指定する。各出力サブ画像セットは、特定の解像度、プロファイル、段、およびレベルを備えた出力画像を形成するために、複数のサブ画像を含み得る。ただし、このようなシステムによる出力サブ画像セットは、同じSPSを参照するサブ画像のみを適用する。対照的に、ビューポートに依存するストリーミングを使用して、様々なSPSを参照する様々な解像度の画像から様々なサブ画像を作成することが望ましい場合がある。さらに、サブ画像の1つのレイアウト構成のみがSPSにおいて信号伝達される場合、SPSは複数の層間で共有されない場合がある。
【0102】
没入型メディアへのアクセスおよび配信では、新しいアプリケーションに一般化されたシステム復号化器モデルを使用することが望ましい。新しいメディアアプリケーションは複数のコンポーネントで構成され得、メディアデータのレンダリングは、コンポーネントデータの全てまたは1つのサブセットを復号化するように動作する。各コンポーネントデータは、異なるメディアコーデックによって符号化され得、同じコンポーネントコンテンツの複数のスケーラブルバージョン(空間コーディング解像度、コーディング品質、時間コーディングレートなど)が、適応型アクセスおよび配信に利用可能であり得る。例えば、ビデオベースのポイントクラウド圧縮(VPCC)は、ポイントクラウドデータをジオメトリ、テクスチャ、占有マップ、およびパッチコンポーネントに投影し、各ビデオコンポーネントデータは、AVC、HEVC、またはVVC符号化器によって符号化され得、ポイントクラウドデータは、全てまたは部分的に復号化されたビデオコンポーネントデータと時限メタデータを組み合わせることによって再構築されることができる。3DoF+ビジュアルコーディングは、複数のベースビューと追加のビューデータをメタデータとともに提供して、クライアント側でのビューの合成とレンダリングを容易にする。これらのマルチストリームシナリオは、従来、ファイルフォーマットおよびストリーミングプロトコルなどのシステム仕様によって処理され、アクセス、配信、およびプレゼンテーションの同期に対応している。マルチストリームシナリオを処理するためのビデオコーディング標準には、新しい復号化モデルとNALユニットの設計が必要になり得る。
【0103】
層構造はマルチストリームを直接サポートできるため、層間予測のない層の概念は、VVCでの没入型メディアアクセスと配信をサポートするための開始点として採用されている。サブ画像シナリオについて、各サブ画像は特定の層の独立した画像として表し得、サブ画像は、VPCCデータのパッチまたはパッチのグループを表し得る。出力画像は、異なる層からの複数のサブ画像の合成画像であり得る。ただし、異なる層からのサブ画像間のコンテンツと空間相関を示すための適切な信号伝達はこれまで開発されていなかった。
【0104】
いくつかの実施形態の概要.
本明細書で説明される例示的なシステムおよび方法は、サブ画像の抽出および再位置付けプロセスをサポートする高レベルの構文設計を採用している。入力ビデオは複数の表現に符号化し得、各表現は層として表現し得る。層画像は、複数のサブ画像に分割し得る。各サブ画像には、独自のタイル分割、解像度、色フォーマット、ビット深度があり得る。各サブ画像は、同じ層の他のサブ画像から独立して符号化されるが、依存層の対応するサブ画像から相互予測され得る。各サブ画像は、解像度および座標などのサブ画像のプロパティが信号伝達されるサブ画像パラメータセットを参照し得る。各サブ画像パラメータセットは、画像全体の解像度が信号伝達されるPPSを参照し得る。
【0105】
関連する画像内の各サブ画像NALユニットのPOC値は、好ましくは一貫しており、NALユニットタイプはアクセスユニットによって異なり得る。POCリセット方法は、IDRNALユニットと非IDRNALユニットが同じPOC値を共有することを保証するために使用される。
【0106】
DPBは複数のサブDPBに分割され、各サブDPBはサブ画像に関連付けられる。最大サブDPBサイズと並べ替えられた画像番号は、セッションネゴシエーションについて各サブ画像について信号伝達され得る。
【0107】
出力サブ画像セットは、出力画像用に抽出および再位置付けされるサブ画像を示すために使用される。サブ画像抽出プロセスは、サブ画像識別子またはタイルグループIDが出力サブ画像セットに含まれていない全てのNALユニットを削除し、時間IDがターゲット時間IDよりも大きい全てのNALユニットを削除する。
【0108】
出力画像についてサブ画像を再位置付けした後、各サブ画像パラメータセットは、出力画像に関連付けられた新しいPPSを参照し得る。各サブ画像のPOC値は、新しい出力シーケンスのPOCアンカー画像に基づいて導出され得る。制約は、適応解像度変更(ARC)を有効にし、対応する参照画像をDPBで使用できるようにするために提案されている。ARC中に、前のサブ画像の参照画像は、切り替えられたARCサブ画像に一致するようにスケーリングおよび変換され得る。スケーリングおよび変換された参照画像は、新しいサブ画像に関連付けられたサブDPBに配置され、前のサブ画像に関連付けられたサブDPBが解放され得る。出力画像の各サブ画像のサイズが変わり得、出力画像のサイズも変わり得る。最大出力画像解像度、プロファイル、およびレベルは、出力サブ画像セット、またはサブ画像の抽出および再位置付けプロセスに関連する出力パラメータセットで信号伝達され得る。
【0109】
元のビデオコンテンツは、異なる解像度、深度、または色フォーマットで複数のバージョンまたは表現に符号化され得る。これらの表現の各々は、多層構造に詰め込まれ得る。各ビットストリームは、独立してコーディングされ得、または他の層から層間で予測され得る。各表現は、独自の層IDと時間IDを有する。各サブ画像にはタイルグループが1つしかないため、タイルグループIDをサブ画像の識別子(例えば、一意の識別子)として使用し得る。以下のサブセクションでさらに説明されるように、本明細書で説明されるのは、出力サブ画像セット、サブ画像パラメータセット、およびサブDPB管理である。
【0110】
サブ画像セットの出力.
ISO/IECDIS23008-2:2018(E)、「高効率ビデオコーディング」に記述されるように、スケーラブルHEVC(SHVC)は、サブビットストリーム抽出プロセスの動作によって別のビットストリームから作成されたビットストリーム内で表される層のセットを識別するための層セットを指定する。
【0111】
いくつかの実施形態では、サブ画像抽出プロセスの場合、出力サブ画像セットを使用して、出力ビットストリームに含まれる複数の層または複数の表現にわたるサブ画像をさらに識別する。出力サブ画像セットは、ビデオパラメータセット(VPS)、シーケンスパラメータセット(SPS)またはDPS(復号化器パラメータセット)などの階層化コーディングまたはセッションネゴシエーションのためのパラメータセットで運ばれ得る。出力サブ画像セットは、セットに含まれるサブ画像の数と各サブ画像のタイルグループIDを示す。各サブ画像は、層IDに関連付けられ得、別の依存層の別のサブ画像から層間予測され得る。出力サブ画像セットは、ターゲットの時間層IDとともに、サブ画像抽出動作点を識別する。ミドルボックスまたはクライアントは、出力サブ画像セットに含まれる値の間に含まれない層IDとサブ画像タイルグループIDを持つ全てのNALユニットを削除し、かつターゲット時間層IDより大きい時間IDを持つNALユニットを削除することによって、出力サブビットストリームを導出し得る。
【0112】
いくつかの実施形態では、出力サブ画像セットは、出力画像サイズ、色フォーマット、ビット深度、およびビットストリームパッキング、出力画像再構築、およびレンダリングのための出力画像内のサブ画像のレイアウトのうちの1つ以上を示すパラメータを含む。ビットストリームパッキングおよび出力画像再構築の目的で、複数のレイアウトが提供され得る。サブ画像レイアウトは、出力画像内の各サブ画像の位置およびサイズを示し得る。サブ画像レイアウトは、出力画像の再構築およびレンダリングのためのサブ画像のミラーリング、反転、回転、およびスケーリングなどの領域ごとの変換タイプを示し得る。いくつかの実施形態では、サブ画像は、低解像度でビットストリームにおいてパックされるが、出力サブ画像セット信号伝達に基づいて、アップスケールされた高解像度で再構築およびレンダリングされる。
【表2】
【0113】
表2に、提案された出力サブ画像セットの構文構造の例を示す。この例の各出力サブ画像セット(OSPS)は、出力フレーム解像度、出力されるサブ画像の数、および出力フレームを構成する各出力サブ画像の層ID、サブ画像ID、位置とサイズを指定する。表2の例では、出力サブ画像セットは、セット内の各サブ画像のプロファイル、段、および/またはレベルを信号伝達する。いくつかの実施形態では、この情報が、各サブ画像についてprofile_tier_level()データ構造にて信号伝達される。要素sub_pic_max_tId[i][j]は、抽出プロセスに関連するサブ画像の最大時間IDを指定する。変換構文要素は、出力画像を構成する特定のサブ画像の変換のタイプを指定する。各OSPSは、準拠するプロファイル、層、およびレベルを示し得る。
【0114】
別の実施形態では、x_offset、y_offsetによって指定される出力サブ画像レイアウトは、推奨される領域ごとのパッキングおよびレンダリングのためにオプションであり得、クライアントは、出力画像を任意の出力レイアウトフォーマットで構成およびレンダリングすることができる。出力画像には、サブ画像で埋められていない特定のスキップされた領域が含まれている場合があり、クライアントはこれらのスキップされた領域の埋め合わせとレンダリングの方法を決定し得る。
図10は、スキップされた領域(すなわち、スキップされた領域#0および#1)を伴う出力画像の例を示している。
【0115】
VPSまたはSPSなどのパラメータセットは、層全体で複数のサブ画像を指定し得、各サブ画像は、独自の一意のIDを持つ。同じVPSまたはSPSを参照しているサブ画像は、同じコンテンツに由来している可能性があり得るが、異なるバージョンに符号化されている。符号化されたバージョンは、特定の空間解像度、時間フレームレート、色空間、深度、またはコンポーネントを参照し得る。同じ符号化されたバージョンの全てのサブ画像は、層間で同じSPSを参照し得る。
【0116】
SPSが複数の層によって共有され得る場合、SPSは、各層の画像に関連する全てのサブ画像構成に信号伝達し得、PPSまたは複数のサブ画像からなる画像に関連するパラメータセットは、そのようなサブ画像構成リストの中にインデックスを参照し得る。表3は、提案されたSPS構文構造を示しており、num_sub_pic_cfgs_minus1 plus1は、使用可能なサブ画像構成の数を指定し、各サブ画像構成は、それぞれ独自の位置およびサイズを有する複数のサブ画像で構成し得る。表4で指定されているインデックスpps_sub_pic_cfg_idxは、SPSのサブ画像構成リストへのインデックスであり、対応するサブ画像レイアウトはPPSに関連付けられている画像に適用される。
【表3】
【表4】
【0117】
別の実施形態では、全てのサブ画像構成は、VPSに信号伝達され得、また、SPS、PPS、または複数のサブ画像からなる画像に関連付けられたパラメータセットは、そのようなサブ画像構成リストへのインデックスを参照し得る。
【0118】
別の実施形態では、コード化ビデオシーケンス(CVS)中にプロパティが変更されるサブ画像の画像レベルパラメータセットまたはヘッダでSPSサブ画像構成をオーバーライドすることが提案され得る。オーバーライド構文要素は、オーバーライドフラグ、更新されたサブ画像の数、およびオーバーライドフラグが設定されたときの更新されたサブ画像の構成を含み得る。表5は、SPSまたはVPSで指定されたサブ画像の位置とサイズをオーバーライドするためのSPS構文構造の例である。
【表5】
【0119】
別の実施形態では、SPSを参照する層に関連付けられたサブ画像構成が、VPSまたはDPSにおいて信号伝達されるデフォルトのサブ画像構成と異なると、各層に関連付けられたデフォルトのサブ画像構成が、VPSまたはDPSで信号伝達され得、SPSが、サブ画像構成をオーバーライドし得る。sps_sub_pic_cfg_override_flagは、SPSで示され得て、SPS内のサブ画像構成構文要素の存在を指定する。
【0120】
図11は、層構造の例を示している。サブ画像#0、#1、および#2は、第1のソースコンテンツの複数の領域を表す。サブ画像#5および#6は、第2のソースコンテンツの領域を表す。サブ画像#3は、サブ画像#0の拡張バージョン(例えば、より高い解像度)であり、サブ画像#4は、サブ画像#1の拡張バージョンであり、サブ画像#7は、サブ画像#6の拡張バージョンである。サブ画像#3はサブ画像#0から予測され得、サブ画像#4はサブ画像#1から予測され得る。サブ画像#7は独立してコード化されている。合計5つの層が使用可能であり(層0~層4)、各層には、コンテンツの1つのバージョンが含まれている。層は、画像全体、または1つ以上のサブ画像のみを含め得る。各サブ画像は、独自のPPSを参照し得る。同じソースに関連付けられている全ての層は、同じSPSまたはVPSを参照し得る。層間で同じSPSを共有する利点の1つは、CTUサイズ、ビット深度、彩度フォーマットなどのコーディング構成の保証である。いくつかの実施形態では、同じSPSを参照する各サブ画像が一意のサブ画像IDを持つという制約が提案される。
【0121】
表6は、層間のサブ画像の関係を示すサブ画像の対応および依存性指標の例を提供する。フラグsub_pic_corresponding_flag[i][j]が1に等しい場合、識別子corresponding_sub_pic_id[i][j]が提供されて、i番目の層のj番目のサブ画像に対応するサブ画像を指定する。対応するサブ画像は両方とも元のコンテンツの同じ領域をカバーし得るが、2つのサブ画像の解像度、品質、および変換は異なる場合がある。
【0122】
フラグsub_pic_dependent_flag[i][j]が1に等しい場合、識別子dependent_sub_pic_id[i][j]は、i番目の層のj番目のサブ画像が予測されるサブ画像のIDを指定する。
図11において、サブ画像#0は、サブ画像#3の依存サブ画像および対応するサブ画像である。サブ画像#1は、サブ画像#4の依存サブ画像および対応するサブ画像である。サブ画像#6は、サブ画像#7の依存サブ画像ではないが、サブ画像#7の対応するサブ画像である。ベース層画像は、ソースコンテンツの全ての領域を運び得、拡張層は、1つ以上のサブ画像領域を運び得る。ソースコンテンツ内の各拡張層サブ画像の相対的な調整は、ベース層サブ画像レイアウトから推測し得る。層構造においてコンテンツの複数のコンポーネントがある場合、対応するサブ画像の層は、ソースコンテンツの領域調整情報を運び得る。
【表6】
【0123】
別の実施形態では、サブ画像対応グループのリストがパラメータセットで指定され得る。同じコンテンツ領域をカバーするサブ画像は、サブ画像対応グループリストに同じインデックスを共有し得る。表7に示すように、複数の領域間の調整関係を個別に信号伝達し得る。
【表7】
【0124】
値num_regions_minus1は、独立してコード化された領域(サブ画像)によってカバーされる領域の総数より1つ少ない数を指定する。値nominal_pic_widthとnominal_pic_heightは、公称画像解像度を指定する。インデックスcorresponding_sub_pic_group_idx[i]は、対応するサブ画像グループリストへのインデックスを指定し、識別された対応するサブ画像は、画像のi番目の領域をカバーする。オフセット値region_x_offset[i]とregion_y_offset[i]はi番目の領域の位置を指定し、nominal_region_width[i]とnominal_region_height[i]はi番目の領域の公称サイズを指定する。
【0125】
サブ画像パラメータセット.
いくつかの実施形態では、パラメータセット、サブ画像パラメータセットは、タイル分割、サブ画像の座標およびサイズ、ならびに依存サブ画像層などの1つ以上のサブ画像パラメータを示すために使用される。
【0126】
サブ画像の座標は、画像内のサブ画像の位置を示し得る。依存サブ画像層は、現在のサブ画像が予測される可能性のある層を示している。サブ画像パラメータセットには、参照画像リストおよび各サブ画像に必要な最大DPBバッファサイズなどのDPB管理信号伝達も含まれ得る。各サブ画像は、サブ画像パラメータセットIDによって設定された独自のサブ画像パラメータを参照し得る。
図12は、シーケンスパラメータセット(SPS)、画像パラメータセット(PPS)、サブ画像パラメータセット(sPPS)の順序、およびそれらのアクティブ化を示している。サブ画像パラメータセットは、タイルグループによって参照されるときにアクティブになり、PPSは、sPPSまたはタイルグループによって参照されるときにアクティブになる。サブ画像パラメータセットは、そのアクティブ化の前に復号化プロセスで利用可能になり、sPPSを含むNALユニットは0に等しいNALユニット層IDを有し得る。タイルグループは、PPSIDとsPPSIDがタイルグループヘッダで信号伝達された状態で、PPSとsPPSの両方を参照し得もする。sPPSに構文要素を含めることの利点は、各タイルグループヘッダで信号伝達される冗長なオーバーヘッドを回避し、サブビットストリームの書き換えプロセスを簡素化することである。
【0127】
いくつかの実施形態では、サブ画像抽出中に、サブ画像セットに含まれるサブ画像のタイルグループによって参照されないサブ画像パラメータセットを含むそれらのNALユニットが削除される。
【0128】
サブ画像のDPB管理.
復号化された画像バッファ(DPB)は、仮想の参照復号化器について指定された参照、出力の並べ替え、または出力遅延のために、復号化された画像を保持する。いくつかの実施形態は、サブ画像レベルで動作するDPB構造を採用することによって、各サブ画像の独立したコーディングを利用する。いくつかの実施形態では、各サブ画像は、画像内の他のサブ画像と同じ参照画像リストを共有する。いくつかの実施形態では、各サブ画像は、コーディング性能を改善するためにそれ自身の参照画像リストを有し得、そのような実施形態では、対応する参照画像リストは、サブ画像パラメータセットで信号伝達され得る。
【0129】
JCTVC-O0217、「サブDPBベースのDPB動作」、2013年10月において、(i)各層について個別のサブDPBが割り当てられる層固有のサブDPBモード、および(ii)同じ空間解像度、色フォーマット、ビット深度を有する全ての画像が同じサブDPBを共有する、解像度固有のサブDPB動作モード、という2つのモードが提案された。
【0130】
いくつかの実施形態では、DPBは複数のサブDPBに分割され、各サブDPBは各サブ画像に対して独立して管理される。サブ画像固有のサブDPBモードでは、復号化されたサブ画像を他のサブ画像とは独立して挿入、マーク、および削除できる。いくつかの実施形態では、最大サブDPBサイズ、再順序付けされた画像の最大数、および最大待ち時間の増加は、セッションネゴシエーションについての各サブ画像のPPSまたはSEIメッセージで信号伝達される。これにより、ミドルボックスまたはクライアントは、サブ画像の再位置付けに使用される最大DPBサイズを導出できる。PPSは、複数のサブ画像にわたってサブ画像関連のプロパティを運ぶための適切なパラメータセットであり得る。
【0131】
図13は、複数の層ベースのサブDPBへのDPB分割の例を示している。各層ベースのサブDPBは、さらに複数のサブ画像ベースのサブDPBに分割され得る。各サブ画像は、対応するサブDPB内で異なる方法でコーディングされ得る。
【0132】
サブ画像にサブDPBを使用する本明細書で説明される方法は、領域ごとのパッキング方法がサブ画像を回転または反転するか、またはサブ画像を画像内の異なる位置にパックするとき、復号化プロセスを単純化し得る。各サブ画像は独立して符号化されるため、サブ画像は、画像内のサブ画像の座標に関係なく、画像順序カウント(POC)、時間ID、およびタイルグループIDに基づいて、特定のサブDPB内側で参照サブ画像を見つけ得る。
【0133】
適応解像度変更(ARC)などのサブ画像切り替えについて、SEIメッセージまたは外部手段は、ARC切り替え前の第1のサブ画像識別子およびARC切り替え後の第2のサブ画像を示し得る。一貫した復号化プロセスを提供するために、制約がARCサブ画像に適用され得る。例えば、切り替え後の第2のサブ画像は、ARC前の第1のサブ画像と同じ時間的サブ層構造およびコーディング構造を有する可能性があり、そのような制約は、第2のサブ画像の参照画像が、DPB(例えば、サブDPBの1つにおいて)で利用可能な第1のサブ画像の参照画像から導出され得ることを保証する。ARC切り替えの前後のサブ画像シーケンスのサブ画像のPOC値は、好ましくは合わせられる。例えば、ARC動作がサブ画像#Aからサブ画像#Bに切り替わる場合、サブ画像#Aと#Bは、異なる解像度、色フォーマット、またはビット深度でコード化され得る。サブDPB#Aはサブ画像#Aに対して割り当てられ、サブDPB#Bはサブ画像#Bに割り当てられる。ARC中に、クライアントはサブDPB#Bのサイズに一致するようにバッファサイズを増減し得る。サブDPB#Aの参照画像は、新しい解像度、色フォーマット、および/またはビット深度を含む、サブ画像#Bのプロパティに合わせてスケーリングまたは変換される。次に、これらのスケーリングまたは変換された参照画像がサブDPB#Bに割り当てられ、サブDPB#Aが解放され得る。
【0134】
POC値の導出.
HEVCおよびVVCは、瞬時復号化リフレッシュ(IDR)画像の場合はPOC値をゼロにリセットし、NoRaslOutputFlagが1に等しいイントラランダムアクセスポイント(IRAP)画像の場合はPicOrderCntMsbをゼロにリセットするように動作する。異なる表現のIRAP距離が異なる場合、サブ画像の抽出および再位置付けプロセスからの出力画像は、異なるタイプのサブ画像NALユニットで構成され、関連するサブ画像またはタイルグループの導出されたPOC値が合わせられない場合がある。
【0135】
いくつかの実施形態では、画像内のサブ画像間でPOC値を合わせるために、タイルグループヘッダで信号伝達されたPOCLSB値が書き換えられる。tile_group_pic_order_cnt_lsb構文要素の長さはlog2_max_pic_order_cnt_lsb_minus4+4ビットであり、log2_max_pic_order_cnt_lsb_minus4構文要素は関連する表現のSPSで信号伝達される。いくつかの実施形態では、表現全体でサブ画像に関連付けられたSPSがlog2_max_pic_order_cnt_lsb_minus4の同じ値を共有することを要求する制約が提案され、tile_group_pic_order_cnt_lsb要素の構文書き換えプロセスが簡素化される。他の実施形態では、log2_max_pic_order_cnt_lsb_minus4は、PPSまたはサブ画像パラメータセットで各サブ画像に対して明示的に信号伝達し得る。
【0136】
1つ以上のNALユニットタイプがIDRの場合、関連するサブ画像のPOC値はゼロであり、同じ画像内の他の非IDRサブ画像のPOC値と同じではない場合がある。いくつかの実施形態では、少なくとも1つのIDRサブ画像が画像に含まれている場合に、全てのサブ画像のtile_group_pic_order_cnt_lsb値をゼロにリセットするためのPOCリセットスキームが提案されている。
【0137】
PicOrderCntMsbは、入力サブ画像ビットストリームと出力再位置付けビットストリームの間で一貫性がない可能性があるため、ARC画像とARC画像に続く画像の復号化順序での長期参照画像が許可されない場合がある。
【0138】
いくつかの実施形態では、POCリセットフラグは、各サブ画像またはサブ画像パラメータセットによって運ばれるので、POC導出は、前の画像に関係なく、外部手段によって行われ得る。
【0139】
図14は、3つのサブ画像から作成された画像のPOC値リセットの例を示している。サブ画像#0のIDR間隔は8で、サブ画像#1と#2のIDR間隔は4である。新しく形成された画像POC値は、少なくとも1つのIDRNALユニットがアクセスユニットに含まれている場合、またはPOCリセットフラグが外部で設定されている場合に0にリセットされる。
【0140】
出力パラメータセット.
多数のコーディング構成パラメータおよびコーディング有効化フラグをSPSで指定し得、コード化ビデオシーケンス(CVS)全体に適用される構文要素の長さ、コーディングユニットのサイズ、およびツール構成を示す。例えば、log2_ctu_size_minus2は、CTUサイズを定義し、log2_min_luma_coding_block_size_minus2は、最小輝度コーディングブロックサイズを定義し、sps_sao_enabled_flagは、サンプルの適応オフセットプロセスを再構築された画像に適用するかどうかを判定する。各表現は独自のコーディングパラメータ設定を使用し得、各表現CVSは異なるSPSを参照し得る。サブ画像の抽出および再位置付けの後、単一の出力CVSが形成され、1つのSPSを参照する。これらのSPS構成パラメータの値は、複数の表現からの全てのサブ画像に適用され得る。それらを合わせる1つの方法は、出力サブ画像セットに含まれる全てのサブ画像が同一のSPSを参照するか、同じパラメータ値を共有することを要求することである。ただし、高解像度と低解像度の表現が同じ構成でコーディングされている場合、コーディングパフォーマンスに影響が出る可能性がある。1つの代替的な実施形態は、PPSまたはSPSに設定された出力サブ画像に含まれる各サブ画像についてこれらの構成パラメータまたはコーディングイネーブルフラグを個別に明示的に信号伝達することであり、各サブ画像は、サブ画像識別子を使用して対応するコーディング構成パラメータを参照し得る。
【0141】
別の実施形態では、各サブ画像は単一の画像として扱われ得、それはそれ自身のPPSを参照し得、各PPSはHEVCまたはVVCで指定されたSPSを参照し得、そして複数のSPSは、全体の復号化シーケンスについての、全ての潜在的なコーディングパラメータまたは最大コーディング機能をカバーするDPSを参照し得る。いくつかの実施形態では、出力画像の解像度およびサブ画像のレイアウトなどの合成された出力画像の特性は、PPSまたはSPSにおける構文要素として信号伝達される。いくつかの実施形態では、出力画像解像度およびサブ画像レイアウトなどの合成された出力画像の特性は、別個のパラメータセット、例えば、出力パラメータセット(OPS)で信号伝達される。OPSは、レンダリングおよびプレゼンテーション用の出力画像のプロパティを示すために使用し得、プロパティには、出力画像のサイズと再位置付けされたサブ画像のレイアウトが含まれ得る。OPSは、PPSまたはサブ画像パラメータセットによって参照され得る。
図15は、同じサブ画像が複数の出力画像解像度およびレイアウトに関連し得るパラメータセット間の関係の例を示している。
【0142】
サブ画像の抽出と再位置付けのプロセス.
HEVCは、TemporalIDがtIdTargetより大きい全てのNALユニットとnuh_layer_idがlidTargetと等しくない全てのNALユニットを削除することにより、入力層ビットストリームからサブビットストリームを抽出するサブビットストリーム抽出プロセスを指定する。
【0143】
新しいメディアアプリケーションは、層ビットストリームの異なる層から複数のサブ画像ストリームを抽出し、抽出されたサブビットストリームを特定の順序でマージして、新しい適合ビットストリームを形成するように動作し得る。ここでは、サブビットストリームの抽出と再位置付けのプロセスを提案する。このプロセスへの入力は、ビットストリームとターゲットサブ画像セットsubPicSetTargetである。このプロセスの出力はビットストリームである。
【0144】
入力ビットストリームについてのビットストリーム適合性を実現するために、以下の条件が課せられ得る。ここでビットストリームにおいて指定されたプロセスの出力である任意の出力サブビットストリーム、アクティブなVPSで指定されたsubPicSetTargetに関連付けられた全てのnuh_layer_id値、lidTargetは、0~126の範囲の任意の値に等しく、およびアクティブVPSで指定されたsubPicSetTargetに関連付けられた、全ての最も高い時間ID値、tIdTargetは、0~6の範囲の任意の値に等しく、および入力としてアクティブVPSで指定されたsubPicSetTargetに関連付けられたsub_pic_idに等しいサブ画像ID値sIdtarget、そして、以下の条件を満たす適合ビットストリームである。
・出力サブビットストリームには、sIdTargetに等しいsub_pic_id、tIdTargetに等しいTemporalID、lidTargetに等しいnuh_layer_idを有する少なくとも1つのVCNLALユニットが含まれている。
【0145】
抽出されたサブビットストリームは、(i)tIdTargetより大きいTemporalIDを持つ全てのNALユニットを削除すること、および(ii)lidTargetと等しくないnuh_layer_idを有する全てのNALユニットを削除することを含む方法で導出され得る。
【0146】
再位置付けされたビットストリームは、subPicSetTargetで指定された順序で抽出されたサブビットストリームの併置されたアクセスユニットをマージすることを含む方法で導出され得る。抽出されたサブビットストリームのアクセスユニットは、対応するサブ画像のフレームを表す。複数のサブ画像の併置されたアクセスユニットは、画像の順序数などの同じタイムスタンプを共有し得る。
【0147】
異なるサブ画像のNALユニットの順序は、出力サブ画像セットで信号伝達されるか、出力サブ画像セットで示されるサブ画像レイアウトから推測される。出力画像の各アクセスユニットは、出力サブ画像セットで指定された順序で、サブ画像のNALユニットの複数のグループで構成され得る。
【0148】
没入型メディアアクセスおよび配信のための層構造.
様々なメディアタイプ(例えば、ビデオデータ、メタデータ)、コンポーネント(例えば、ジオメトリ、テクスチャ、属性、深度、タイル)、符号化されたバージョン(解像度、フレームレート、ビット深度、色空間、コーデック)は、様々な層での様々な表現データと称され得る。特定の層の組み合わせは、アプリケーションをサポートするための出力ビットストリームを形成するために出力し得る。クライアントは、再構築されたメディアデータにアクセスし得、全体的または部分的な表現で提示し得る。
図16は、360度のスケーラブルビデオ、PCCデータ、および3DoF+データが層ビットストリームに多重化される一例を示している。異なる層は異なるフォーマットであり、異なるメディア符号化器によって符号化され得る。
【0149】
以下のように、没入型メディアアクセス、配信、およびレンダリングをサポートするために、いくつかの構文要素をクロス層メディアパラメータセットで指定し得る。構文構造の例を表8に示す。
【0150】
いくつかの実施形態では、層利用可能フラグを使用して、特定の層に関連付けられた表現データがビットストリーム内で利用可能であるか、または仕様範囲外の外部手段によって提供されるかを指定する。例えば、表8で指定されているmps_layer_available_flag[i]は、i番目の層が層ビットストリームにおいて使用可能か(mps_layer_available_flag[i]が1に等しい)、外部手段によって提供されるか(mps_layer_available_flag[i]が0に等しい)を示している。
【0151】
いくつかの実施形態では、層提示フラグは、関連する層の表現データが個別に出力されることを意図されているかどうかを指定するために使用される。例えば、点群オブジェクトに関連付けられたジオメトリビデオデータを含む層は、独立して出力、復号化、およびレンダリングされない場合がある。例えば、表8に示すmps_layer_output_flag[i]は、i番目の層を個別に復号化して出力できるかどうかを示している。
【0152】
マッピングテーブルは、各層表現データを特定のメディアタイプ、特定のメディアのコンポーネント、および/または表現データのサブセットにマッピングし得る。例えば、層表現データは、点群ジオメトリビデオデータの特定のタイルグループを表し得、そのようなマッピングは、層IDおよびサブ画像IDから導出され得る。例えば、表8で指定されているmps_media_typeは、層構造に含まれているメディアタイプまたはコーデックタイプを示している。インデックスmps_media_type_idx[i]は、特定のメディアまたはコンポーネントタイプにマッピングするために使用されるmps_media_type構文構造のリストへのインデックスを指定する。
【0153】
いくつかの実施形態では、出力メディアセットを使用して、いくつかの層表現データ、および/または時間ID、サブ画像ID、またはスライスIDを有する特定の層表現データのサブセットを指定して、全体または部分的メディアプレゼンテーションを表す出力ビットストリームを形成する。出力メディアセットは、出力表現データレート、最大解像度とコーデックプロファイル、サポートされている層とレベルを示す場合もある。表8で指定されている構文要素mps_num_output_set_minus1は、出力メディアセットの数を示す。要素mps_media_type_idx[i]は、i番目の出力セットのメディアタイプを指定し、num_sub_layers[i]は、i番目の出力セットに含まれるサブ画像またはサブコンポーネント(egVPCCジオメトリ層)の数を指定する。
【表8】
【0154】
各層表現データ内で、適合するサブ層ビットストリームを示すために、いくつかの実施形態のためにサブ層データセットが提案される。セットは、NALユニットタイプ、時間ID、サブ画像IDを使用して、サブ層出力データを識別できる。サブ層データセットは、バイトオフセットまたはバイト数を使用して、層データに含まれるサブ層データを示すこともできる。サブ層データセットIDは、出力メディア表現データを抽出および再位置付けするために出力メディアセットで使用され得る。
【0155】
表9に示す実施形態では、num_sub_layer_minus1は、特定の層データのサブ層の総数より1つ少ない数を指定する。i番目のサブ層の識別子はsub_layer_id[i]で指定される。要素sub_layer_entry_count_minus1 plus1は、層データで使用可能なサブ層エントリの数を指定する。i番目のエントリのデータ長はentry_byte_length[i]で示される。要素sub_layer_idx[i]は、i番目のエントリに関連付けられたサブ層セットのインデックスを指定する。
【表9】
【0156】
いくつかの実施形態では、クライアントまたはミドルボックスは、出力メディアセットに基づいて部分的なメディア表現データを抽出し得る。クライアントは、各層またはサブ層表現に特定のメディアコーデックを適用して、提案されたメディアパラメータセットおよびサブ層データセットに基づいて完全または部分的なメディアデータを再構築し得る。メディアデータの一部しか再構築できない場合は、層またはサブ層データとターゲットの3Dプレゼンテーションスペースとの間のスペースマッピングを使用できる。
【0157】
例えば、多層表現には、360度ビデオと点群オブジェクトの両方が含まれ得る。層のグループは特定のVPCCオブジェクトを表し得、別の層のグループは360度のビデオを表し得る。特定のVPCCオブジェクトに関連付けられた層データは、VPCCコンポーネント(例えば、属性)を表し得、サブ層データは、VPCCジオメトリスライスなどのコンポーネントの独立した復号化可能な領域、またはVPCCジオメトリ層もしくは属性タイプなどのコンポーネント次元を表し得る。クライアントが360度ビデオの背景にVPCCオブジェクトを部分的にレンダリングする場合、クライアントは、全ての360度ビデオおよびVPCCデータへのアクセスを有しない場合がある。クライアントは、1つの出力メディアセットに基づいてVPCCオブジェクトに関連付けられた各コンポーネントの1つのスライスにアクセスし得、クライアントは別の出力メディアセットに基づいて360度ビデオの特定のビューポートデータにアクセスし得る。クライアントは、2つの出力メディアセットを復号化、構成、およびレンダリングすることによって、部分的なVPCCオブジェクトと360度のビューポートを再構築することができる。
【0158】
構文設計の概要.
本明細書で説明される例示的なシステムおよび方法は、サブ画像の抽出および再位置付けプロセスをサポートする高レベルの構文設計を採用している。入力ビデオは複数の表現に符号化され得、各表現は層として表現され得る。層画像は、複数のサブ画像に分割され得る。各サブ画像は、独自のタイル分割、解像度、色フォーマット、ビット深度を有し得る。各サブ画像は、同じ層の他のサブ画像から独立して符号化されるが、依存層の対応するサブ画像から相互予測され得る。各サブ画像は、サブ画像のプロパティが信号伝達されるサブ画像パラメータセットを参照し得る。サブ画像プロパティは、各サブ画像の解像度および出力画像内の各サブ画像の位置を示す座標などの情報を含み得る。各サブ画像パラメータセットは、画像全体の解像度が信号伝達されるPPSを参照し得る。
【0159】
関連されている画像内の各サブ画像NALユニットのPOC値は、好ましくは一貫しており、NALユニットタイプはアクセスユニットによって異なり得る。POCリセット方法は、IDRNALユニットと非IDRNALユニットが同じPOC値を共有することを保証するために使用される。
【0160】
DPBは複数のサブDPBに分割され、各サブDPBはサブ画像に関連付けられる。最大サブDPBサイズと再順序付けされた画像番号は、セッションネゴシエーションのために各サブ画像に対して信号伝達され得る。
【0161】
出力サブ画像セットは、出力画像用に抽出および再位置付けされるサブ画像を示すために使用され得る。サブ画像抽出プロセスは、サブ画像識別子またはタイルグループIDが出力サブ画像セットに含まれていない全てのNALユニットを削除し、時間IDがターゲット時間IDよりも大きい全てのNALユニットを削除する。
【0162】
出力画像のサブ画像を再位置付けした後、各サブ画像パラメータセットは、出力画像に関連付けられた新しいPPSを参照し得る。各サブ画像のPOC値は、新しい出力シーケンスのPOCアンカー画像に基づいて導出され得る。制約は、ARCを有効にし、対応する参照画像をDPBで使用できるようにするために提案されている。ARC中に、前のサブ画像の参照画像は、切り替えられたARCサブ画像に一致するようにスケーリングおよび変換され得る。スケーリングおよび変換された参照画像は、新しいサブ画像に関連付けられたサブDPBに配置され、前のサブ画像に関連付けられたサブDPBが解放される。出力画像の各サブ画像のサイズが変わり得、出力画像のサイズも変わり得る。最大出力画像解像度、プロファイル、およびレベルは、出力サブ画像セット、またはサブ画像の抽出および再位置付けプロセスに関連する出力パラメータセットで信号伝達され得る。
【0163】
システムおよび方法の例.
図17に示されるように、いくつかの実施形態で実行される方法は、ビットストリームにおいて、複数のサブ画像を含む少なくとも1つの画像を含むビデオを符号化すること(1702)を含む。サブ画像は、サブ画像に対して判定された制約(1704)を使用して符号化され得る。それぞれのサブ画像の各々のレベル情報は、ビットストリームにおいて信号伝達され(1706)、レベル情報は、各サブ画像について、それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示す。
【0164】
いくつかの実施形態では、方法は、ビットストリームから、複数のそれぞれのサブ画像の各々のレベル情報を復号化することを含み、レベル情報は、各サブ画像について、それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示し、レベル情報に従って、ビットストリームから複数のサブ画像を復号化する。
【0165】
いくつかの実施形態では、信号が提供され、信号は、複数のサブ画像を含む少なくとも1つの画像を含むビデオを符号化する情報と、それぞれのサブ画像の各々のレベル情報とを備え、レベル情報は、各サブ画像について、それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示す。信号は、コンピュータ可読媒体に記憶され得る。コンピュータ可読媒体は、非一時的な媒体であり得る。
【0166】
いくつかの実施形態では、装置は、
図17に示されるような符号化方法を実行するように構成された1つ以上のプロセッサを備えている。
【0167】
いくつかの実施形態では、装置は、ビットストリームから、複数のそれぞれのサブ画像の各々のレベル情報を復号化することを含む方法を実行するように構成された1つ以上のプロセッサを備え、レベル情報は、各サブ画像について、それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示し、レベル情報に従って、ビットストリームから複数のサブ画像を復号化する。
【0168】
いくつかの実施形態では、本明細書に記載された装置は、(i)信号を受信するように構成されたアンテナであって、信号がイメージを表すデータを含む、アンテナと、(ii)受信された信号を、イメージを表すデータを含む周波数帯域に制限するように構成された帯域リミッタと、または(iii)イメージを表示するように構成されたディスプレイとのうちの少なくとも1つを含む。デバイスは、例えば、テレビ、携帯電話、タブレット、STB、またはミドルボックスであり得る。
【0169】
いくつかの実施形態では、装置は、複数のサブ画像およびサブ画像の各々についてのレベル情報を含むデータにアクセスするように構成されたアクセスユニットを含む。装置は、データを送信するように構成された送信機をさらに含み得る。
【0170】
いくつかの実施形態では、方法は、複数のサブ画像およびサブ画像の各々についてのレベル情報を含むデータにアクセスすることを含む。この方法は、複数のサブ画像およびサブ画像の各々についてのレベル情報を含むデータを送信することをさらに含み得る。
【0171】
いくつかの実施形態では、複数のサブ画像およびサブ画像の各々についてのレベル情報を含む、コンピュータ可読媒体およびコンピュータプログラム製品が提供される。
【0172】
いくつかの実施形態では、コンピュータ可読媒体は、複数のサブ画像およびサブ画像の各々についてのレベル情報を含む。
【0173】
いくつかの実施形態では、コンピュータ可読媒体は、1つ以上のプロセッサに、ビットストリームにおいて、複数のサブ画像を含む少なくとも1つの画像を含むビデオを符号化することと、ビットストリームにおいて、それぞれのサブ画像の各々のレベル情報を信号伝達することとを実行させる命令を含み、レベル情報が、各サブ画像について、それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示す。
【0174】
いくつかの実施形態では、コンピュータ可読媒体は、1つ以上のプロセッサに、ビットストリームから、複数のそれぞれのサブ画像の各々のレベル情報を復号化することと、レベル情報に従って、ビットストリームから複数のサブ画像を復号化することとを実行させる命令を含み、レベル情報が、各サブ画像について、それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示す。
【0175】
いくつかの実施形態では、コンピュータプログラム製品は、プログラムが1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、ビットストリームにおいて、複数のサブ画像を含む少なくとも1つの画像を含むビデオを符号化することと、ビットストリームにおいて、それぞれのサブ画像の各々のレベル情報を信号伝達することとを実行させる命令を含み、レベル情報が、各サブ画像について、それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示す。
【0176】
いくつかの実施形態では、コンピュータプログラム製品は、プログラムが1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、ビットストリームから、複数のそれぞれのサブ画像の各々のレベル情報を復号化することと、レベル情報に従って、ビットストリームから複数のサブ画像を復号化することとを実行させる命令を含み、レベル情報が、各サブ画像について、それぞれのサブ画像の構文要素の値に対する事前定義された制約のセットを示す。
【0177】
追加の実施形態.
いくつかの実施形態では、ビデオビットストリーム書き換え方法は、複数のNALユニットを含む入力ビットストリームを受信することであって、各NALユニットは、層IDおよびサブ画像タイルグループIDを有する、受信することと、時間的IDおよび出力サブ画像セットを選択することと、を含み、出力サブ画像セットは、少なくとも1つの層IDおよび少なくとも1つのタイルグループIDを識別し、サブビットストリームを生成するように入力ビットストリームに対して書き換えプロセスを実行することと、書き換えプロセスは、入力ビットストリームから(i)出力サブ画像セットで識別されない層IDを有するNALユニット(ii)出力サブ画像セットで識別されていないタイルグループIDを持つユニットを有するNALユニット、および(iii)選択された時間IDより大きい時間IDを有するNALユニットを除去することと、を含む。
【0178】
いくつかの実施形態では、入力ビットストリームは、少なくとも1つのサブ画像パラメータセットをさらに含む。
【0179】
いくつかの実施形態では、サブ画像パラメータセットは、タイル分割、画像内のサブ画像の座標、サブ画像のサイズ、および依存サブ画像層のうちの1つ以上を示す情報を含む。
【0180】
いくつかの実施形態では、サブ画像パラメータセットは、復号化された画像バッファ管理信号伝達を含む。
【0181】
いくつかの実施形態では、復号化画像バッファ管理信号伝達は、参照画像リストおよび各サブ画像の最大復号化画像バッファ(DPB)バッファサイズのうちの1つ以上を含む。
【0182】
いくつかの実施形態では、サブ画像パラメータセットは、画像パラメータセット(PPS)の識別子を含む。
【0183】
いくつかの実施形態では、再書き込みプロセスは、入力ビットストリームから、(iv)出力サブ画像セットに含まれるサブ画像のタイルグループによって参照されないサブ画像パラメータセットを含むNALユニットを除去すること、をさらに含む。
【0184】
いくつかの実施形態では、ビデオ復号化方法は、複数のサブ画像を含むビデオのビットストリームを受信することを含み、ビットストリームは、サブ画像のうちの少なくとも1つについて、最大サブDPBサイズ、再順序付けされた画像の最大数、および最大待ち時間の増加、DPB情報に基づいて、DPBを複数のサブDPBに分割し、各サブDPBは、対応するサブ画像に関連付けられ、対応するサブDPBを使用してサブ画像の各々を復号化することのうちの少なくとも1つを示すDPB情報を含む。
【0185】
いくつかの実施形態では、ビデオは複数の層を含み、各サブDPBは、対応する層および対応するサブ画像に関連付けられている。
【0186】
いくつかの実施形態では、DPB情報は、ビットストリームにおいてPPSに含まれる。
【0187】
いくつかの実施形態では、方法は、ビデオのビットストリームを受信することと、ビデオは複数の画像を含み、各画像は複数のサブ画像を含み、そして、対応する画像内のサブ画像の少なくとも1つが瞬時復号リフレッシュ(IDR)画像であるという判定に応答して、対応する画像の画像順序カウント(POC)値をゼロに設定することと、を含む。
【0188】
いくつかの実施形態では、方法は、ビデオのビットストリームを受信することと、ビットストリームが複数のサブ画像を符号化しており、ビットストリームは、出力パラメータセット(OPS)をさらに含み、OPSは、出力画像におけるサブ画像の位置を示し、サブ画像を復号化することと、さらに、OPSに従って復号化されたサブ画像を位置付けすることによって出力画像を構成することと、を含む。
【0189】
いくつかの実施形態では、方法は、入力画像を含むビデオを受信することと、入力画像を複数のサブ画像に分割することと、スケーラブルコーディングを使用して、少なくとも2つの層でサブ画像の各々を符号化することであって、サブ画像の各々が、他のサブ画像から独立して符号化される、符号化することと、各サブ画像についてのサブ画像パラメータセットを符号化することと、を含み、サブ画像パラメータセットは、それぞれのサブ画像の層間予測のための層依存性を示す。
【0190】
いくつかの実施形態では、各サブ画像はタイルグループに対応し、各それぞれのタイルグループのタイルグループヘッダは、対応するサブ画像パラメータセットを参照する。
【0191】
いくつかの実施形態では、サブ画像パラメータセットは、画像パラメータセット(PPS)を参照する。
【0192】
いくつかの実施形態では、各サブ画像パラメータセットは、対応するサブ画像の解像度を識別する。
【0193】
いくつかの実施形態では、各サブ画像パラメータセットは、出力画像内の対応するサブ画像の位置を識別する。
【0194】
いくつかの実施形態では、ビデオビットストリーム書き換え方法は、複数のNALユニットを含む入力ビットストリームを受信することであって、各NALユニットが、層IDおよびサブ画像IDを有する、受信することと、出力サブ画像パラメータセットを受信することであって、出力サブ画像パラメータセットが、複数の出力サブ画像セットの各々について、それぞれの出力サブ内の各サブ画像の層IDおよびサブ画像IDを指定する、受信することとを含み、(i)時間IDおよび(ii)出力サブ画像パラメータセットで識別された出力サブ画像セットを選択することと、サブビットストリームを生成するように入力ビットストリームに対して書き換えプロセスを実行することとを含み、書き換えプロセスは、入力ビットストリームから(i)層IDとサブ画像IDで示される、選択された出力サブ画像セットにないサブ画像のNALユニット、(ii)選択された時間IDよりも大きい時間IDを有するNALユニットを除去することと、を含む。
【0195】
いくつかの実施形態では、出力サブ画像パラメータセットは、各出力サブ画像セットについて、それぞれの出力サブ画像セット内の各サブ画像のサブ画像オフセット位置をさらに指定する。
【0196】
いくつかの実施形態では、出力サブ画像パラメータセットは、各出力サブ画像セットについて、それぞれの出力サブ画像セット内の各サブ画像のサブ画像の幅および高さをさらに指定する。
【0197】
いくつかの実施形態では、出力サブ画像パラメータセットは、各出力サブ画像セットについて、それぞれの出力サブ画像セットの幅および高さをさらに指定する。
【0198】
いくつかの実施形態では、サブ画像IDは、タイルグループIDである。
【0199】
いくつかの実施形態では、ビデオ復号方法は、複数のサブ画像を含む入力ビットストリームを受信することであって、各サブ画像が、それぞれのサブ画像IDを有する、受信することと、出力サブ画像パラメータセットを受信することであって、出力サブ画像パラメータセットが、少なくとも1つの選択された出力サブ画像セットを含む複数の出力サブ画像セットについて、選択された出力サブ画像セットにおける各サブ画像のサブ画像IDを指定する、受信することと、選択された出力サブ画像セットにおけるサブ画像の各々を復号化することと、復号化されたサブ画像を出力フレームに構成することと、を含む。
【0200】
いくつかの実施形態では、出力サブ画像パラメータセットは、選択された出力サブ画像セットについて、それぞれの出力サブ画像セット内の各サブ画像のサブ画像オフセット位置をさらに指定し、復号化されたサブ画像を構成することが、復号化されたサブ画像の各々をそれぞれのオフセット位置に位置付けすることを含む。
【0201】
いくつかの実施形態では、出力サブ画像パラメータセットは、選択された出力サブ画像セットについて、それぞれの出力サブ画像セット内の各サブ画像のサブ画像の幅および高さをさらに指定し、復号化されたサブ画像を構成することが、復号化されたサブ画像の各々をそれぞれの幅と高さにスケーリングすることを含む。
【0202】
いくつかの実施形態では、出力サブ画像パラメータセットは、選択された出力サブ画像セットについて、それぞれの出力サブ画像セットの幅および高さをさらに指定する。
【0203】
いくつかの実施形態では、サブ画像IDは、タイルグループIDである。
【0204】
いくつかの実施形態では、ビデオビットストリーム書き換え方法は、複数のNALユニットを含む入力ビットストリームを受信することであって、各NALユニットが、層IDおよびサブ画像IDを有する、受信することと、画像パラメータセットを受信することであって、画像パラメータセットが、複数のサブ画像構成の各々について、それぞれのサブ画像構成におけるサブ画像IDを指定する、受信することと、を含み、(i)時間IDおよび(ii)出力サブ画像パラメータセットで識別された出力サブ画像セットを選択することと、サブビットストリームを生成するように入力ビットストリームに対して書き換えプロセスを実行することと、を含み、書き換えプロセスは、入力ビットストリームから(i)サブ画像IDで示される、選択されたサブ画像構成にないサブ画像のNALユニット、(ii)選択された時間IDよりも大きい時間IDを有するNALユニットを除去することと、を含む。
【0205】
いくつかの実施形態では、ビデオ復号方法は、複数のサブ画像を含む入力ビットストリームを受信することであって、各サブ画像が、それぞれのサブ画像IDを有する、受信することと、シーケンスパラメータセットを受信することであって、シーケンスパラメータセットが、選択されたサブ画像構成を含む複数のサブ画像構成の各々について、それぞれのサブ画像構成における各サブ画像のサブ画像IDを指定する、受信することと、選択された出力サブ画像セットにおけるサブ画像の各々を復号化することと、復号化されたサブ画像を出力フレームに構成することと、を含む。
【0206】
いくつかの実施形態では、シーケンスパラメータセットは、選択されたサブ画像構成について、選択されたサブ画像構成における各サブ画像のサブ画像オフセット位置をさらに指定し、復号化されたサブ画像を構成することが、復号化されたサブ画像の各々をそれぞれのオフセット位置に位置付けすることを含む。
【0207】
いくつかの実施形態では、シーケンスパラメータセットは、選択されたサブ画像構成について、選択されたサブ画像構成内の各サブ画像のサブ画像の幅および高さをさらに指定し、復号化されたサブ画像を構成することが、復号化されたサブ画像の各々をそれぞれの幅と高さにスケーリングすること、を含む。
【0208】
いくつかの実施形態は、サブ画像構成インデックスを含む画像パラメータセットを受信することをさらに含み、選択されたサブ画像構成は、サブ画像構成インデックスに基づいて選択される。
【0209】
いくつかの実施形態では、ビデオ復号方法は、複数のサブ画像を含む入力ビットストリームを受信することであって、各サブ画像が、それぞれのサブ画像IDを有する、受信することと、画像パラメータセットを受信することであって、画像パラメータセットが、サブ画像構成オーバーライドフラグを含む、受信することと、サブ画像構成オーバーライドフラグが設定されているという判定に応答して、出力構成における各サブ画像のIDを含み、画像パラメータセットで伝達されるサブ画像出力構成を判定することと、出力構成の各サブ画像を復号化することと、復号化されたサブ画像を出力フレームに構成することと、を含む。
【0210】
いくつかの実施形態では、ビデオ復号方法は、複数のサブ画像を含む入力ビットストリームを受信することであって、各サブ画像が、それぞれのサブ画像IDを有する、受信することと、ビデオパラメータセットを受信することであって、ビデオパラメータセットが、各サブ画像について、そのサブ画像が別のサブ画像に依存しているかどうかを示す、受信することと、ビデオパラメータセットに従って入力ビットストリームを復号化することと、を含む。
【0211】
いくつかの実施形態では、ビデオパラメータセットは、別のサブ画像に依存することが示される各サブ画像について、それが依存するサブ画像のサブ画像IDをさらに示す。
【0212】
いくつかの実施形態では、ビデオパラメータセットは、別のサブ画像に依存することが示されていない各サブ画像について、そのサブ画像が別のサブ画像に対応するかどうかを示すフラグをさらに提供する。
【0213】
いくつかの実施形態では、ビデオパラメータセットは、別のサブ画像に対応することが示されている各サブ画像について、対応するサブ画像のサブ画像IDをさらに示す。
【0214】
いくつかの実施形態では、ビデオ復号方法は、複数のサブ画像を含む入力ビットストリームを受信することであって、各サブ画像が、それぞれのサブ画像IDを有する、受信することと、複数のサブ画像グループを識別するパラメータセットを受信することであって、各グループはインデックスを有する、受信することと、出力フレームの複数の領域の各々について、それぞれの領域に対応するサブ画像グループのインデックスを識別するパラメータセットを受信することと、領域の各々について、領域に対応するサブ画像グループにおけるサブ画像の少なくとも1つを復号化することと、復号化されたサブ画像から出力フレームを構成することと、を含む。
【0215】
いくつかの実施形態では、メディア復号方法は、複数の層およびサブ層を含むビットストリームを受信することであって、各サブ層が、それぞれのサブ層IDを有する、受信することと、メディアパラメータセットを受信することであって、メディアパラメータセットが、複数の層の各々について、その層がビットストリームにおいて利用可能であるかどうかを示す、受信することと、メディアパラメータセットに従ってビットストリームを復号化することと、を含む。
【0216】
いくつかの実施形態では、メディア復号方法は、複数の層およびサブ層を含むビットストリームを受信することであって、各サブ層が、それぞれのサブ層IDを有する、受信することと、メディアパラメータセットを受信することであって、メディアパラメータセットが、複数の層の各々について、その層が復号化され得、かつ独立的に出力され得かどうかを示す、受信することと、メディアパラメータセットに従ってビットストリームを復号化することと、を含む。
【0217】
いくつかの実施形態では、メディア復号方法は、複数の層およびサブ層を含むビットストリームを受信することであって、各サブ層が、それぞれのサブ層IDを有する、受信することと、メディアパラメータセットを受信することであって、メディアパラメータセットが、複数の層の各々についてのメディアタイプを示す、受信することと、メディアパラメータセットに従ってビットストリームを復号化することと、を含む。
【0218】
いくつかの実施形態では、メディア復号方法は、複数の層およびサブ層を含むビットストリームを受信することであって、各サブ層が、それぞれのサブ層IDを有する、受信することと、メディアパラメータセットを受信することであって、メディアパラメータセットが、少なくとも1つの選択された出力セットを含むサブ層の複数の出力セットを示す、受信することと、選択した出力セットのサブ層を復号化することと、を含む。
【0219】
いくつかの実施形態では、メディアパラメータセットは、出力セットの各々に対するメディアタイプをさらに示す。
【0220】
いくつかの実施形態では、メディアパラメータセットは、各出力セットの層IDをさらに示す。
【0221】
いくつかの実施形態では、ビットストリーム抽出方法は、複数の層およびサブ層を含むビットストリームを受信することであって、各サブ層は、それぞれのサブ層IDを有する、受信することと、サブ層パラメータセットを受信することであって、サブ層パラメータセットが、各サブ層のエントリバイト長を示す、受信することと、サブ層パラメータセットに従って、少なくとも部分的なメディア表現を抽出することと、を含む。
【0222】
いくつかの実施形態では、プロセッサと、本明細書に記載の方法のいずれかを実行するように動作する命令を格納する非一時的なコンピュータ可読媒体と、を含むシステムが提供される。
【0223】
いくつかの実施形態では、非一時的なコンピュータ可読記憶媒体が、本明細書に記載の方法のいずれかを使用して生成されたビデオビットストリームを記憶するように提供される。
【0224】
この開示では、ツール、特徴、実施形態、モデル、アプローチなどを含む多種多様な態様について説明する。これらの態様の多くは、特異的に説明されており、少なくとも個々の特性を示すために、限定的に聞こえ得るように説明されることがある。ただし、これは説明を明確にするためのものであり、これらの態様の開示または範囲を限定するものではない。実際、異なる態様の全てを組み合わせ、かつ交換して、さらなる態様を提供することができる。さらに、これらの態様は、以前の出願で説明された態様と組み合わせ、かつ交換することもできる。
【0225】
本出願で説明および企図される態様は、多くの異なるフォーマットで実装することができる。いくつかの実施形態が具体的に示されているが、他の実施形態が企図されており、特定の実施形態の考察は、実装の幅を制限するものではない。これらの態様のうちの少なくとも1つは、概して、ビデオ符号化および復号化に関し、少なくとも1つの他の態様は、概して、生成または符号化されたビットストリームを送信することに関する。これらおよび他の態様は、方法、装置、説明された方法のいずれかに従ってビデオデータを符号化または復号化するための命令を記憶したコンピュータ可読記憶媒体、および/または説明された方法のいずれかに従って生成されるビットストリームを記憶したコンピュータ可読記憶媒体として実装することができる。
【0226】
本出願では、「再構築された」および「復号化された」という用語は互換的に使用され得、「ピクセル」および「サンプル」という用語は互換的に使用され得、「イメージ」、「画像」、および「フレーム」という用語は互換的に使用され得る。
【0227】
様々な方法が、本明細書に記載されており、それらの方法の各々は、説明された方法を達成するための1つ以上のステップまたは行為を含む。本方法の正しい動作のために特定の順序のステップまたは行為が必要でない限り、特定のステップおよび/または行為の順序および/または使用は、変更され得、または組み合わされ得る。さらに、「第1の」、「第2の」などの用語は、例えば「第1の復号化」および「第2の復号化」など、要素、構成要素、ステップ、動作などを変更するために様々な実施形態において使用されることができる。そのような用語の使用は、特に必要な場合を除き、変更された動作の順序を意味するものではない。したがって、この例では、第1の復号は、第2の復号の前に実行される必要はなく、例えば、第2の復号との重複期間の前、最中、または重複する期間に発生し得る。
【0228】
例えば、本開示では、様々な数値が使用され得る。特定の値は、例示的な目的のためであり、記載された態様は、これらの特定の値に限定されるものではない。
【0229】
本明細書に記載の実施形態は、プロセッサまたは他のハードウェアによって実装されるコンピュータソフトウェアによって、またはハードウェアとソフトウェアの組み合わせによって実行され得る。非限定的な例として、実施形態は、1つ以上の集積回路によって実装され得る。プロセッサは、技術的環境に適切な任意のタイプのものであり得、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、専用コンピュータ、およびマルチコアアーキテクチャに基づくプロセッサのうちの1つ以上を包含し得る。
【0230】
様々な実装形態は、復号化を伴う。本出願で使用される「復号化」は、例えば、受信された符号化されたシーケンスで実行されるプロセスの全てまたは一部を包含して、表示に好適な最終出力を生成することができる。様々な実施形態では、そのようなプロセスは、復号化器によって通常実行されるプロセスのうちの1つ以上、例えば、エントロピー復号化、逆量子化、逆変換、および差分復号化を含む。様々な実施形態では、かかるプロセスはまた、または代替的に、本出願に記載の様々な実装形態の復号化器によって実行されるプロセス、例えば、タイル化された(パックされた)画像から画像を抽出することと、使用するアップサンプルフィルタを判定することと、次いで画像をアップサンプリングすることと、画像を意図した向きにフリップバックすることと、を含む。
【0231】
さらなる例として、一実施形態では、「復号化」は、エントロピー復号化のみを指し、別の実施形態では、「復号化」は、差分復号化のみを指し、別の実施形態では、「復号化」は、エントロピー復号化および差分復号化の組み合わせを指す。「復号化処理」という句が、具体的に動作のサブセットを指すことを意図しているか、または概してより広い復号化処理を指すことを意図しているかは、特定の説明の文脈に基づいて明確になり、当業者によって十分に理解されると考えられる。
【0232】
様々な実装形態は、符号化を伴う。「復号化」に関する上記の考察と同様に、本出願で使用される「符号化」は、例えば、符号化されたビットストリームを生成するために入力ビデオシーケンスで実行されるプロセスの全てまたは一部を包含することができる。様々な実施形態では、そのようなプロセスは、典型的には、符号化器によって実行される1つ以上のプロセス、例えば、分割、差分符号化、変換、量子化、およびエントロピー符号化を含む。様々な実施形態では、このようなプロセスはまた、または代替的に、本出願で説明される様々な実装形態の符号化器によって実行されるプロセスを含む。
【0233】
さらなる例として、一実施形態では、「符号化」は、エントロピー符号化のみを指し、別の実施形態では、「符号化」は、差分符号化のみを指し、別の実施形態では、「符号化」は、差分符号化およびエントロピー符号化の組み合わせを指す。「符号化プロセス」という句が、具体的に動作のサブセットを指すことを意図しているか、または概してより広い符号化プロセスを指すことを意図しているかは、特定の説明の文脈に基づいて明確になり、当業者によって十分に理解されると考えられる。
【0234】
図がフロー図として提示されている場合、それは、対応する装置のブロック図も提供することを理解されたい。同様に、図がブロック図として提示されている場合、それは、対応する方法/プロセスのフロー図も提供することを理解されたい。
【0235】
様々な実施形態は、レート歪み最適化について言及する。特に、符号化プロセスの間、多くの場合に計算の複雑さの制約を考えて、レートと歪みとの間のバランスまたはトレードオフが、通常、考慮される。レート歪みの最適化は、通常、レートと歪みの加重和であるレート歪み関数を最小化するように定式化される。レート歪みの最適化問題を解決するには、様々なアプローチがある。例えば、アプローチは、考慮される全てのモードまたはコード化パラメータ値を含む、全ての符号化オプションの広範なテストに基づき得、コード化および復号化後の再構築された信号のコード化コストおよび関連する歪みの完全な評価を伴う。特に、再構築された信号ではなく、予測または予測残差信号に基づいて近似歪みを計算することによって、符号化の複雑さを軽減するために、より高速なアプローチを使用することもできる。可能な符号化オプションの一部にのみ近似歪みを使用し、他の符号化オプションに完全な歪みを使用することなどによって、これら2つのアプローチを組み合わせて使用することもできる。他のアプローチでは、可能な符号化オプションのサブセットのみを評価する。より一般的には、多くのアプローチが、最適化を実行するための様々な技術のうちのいずれかを採用するが、最適化は、必ずしもコード化コストおよび関連する歪みの両方の完全な評価ではない。
【0236】
本明細書で説明された実装形態および態様は、例えば、方法もしくはプロセス、装置、ソフトウェアプログラム、データストリーム、または信号に実装され得る。単一の実装形態の文脈でのみ考察された(例えば、方法としてのみ考察された)としても、考察された特徴の実装形態はまた、他の形態(例えば、装置またはプログラム)で実装することもできる。装置は、例えば、適切なハードウェア、ソフトウェア、およびファームウェアで実装することができる。それらの方法は、例えば、プロセッサ内に実装することができ、このプロセッサは、例えば、コンピュータ、マイクロプロセッサ、集積回路、またはプログラマブルロジックデバイスを含む処理デバイス全般を指す。プロセッサは、通信デバイス、例えば、コンピュータ、携帯電話、ポータブル/パーソナルデジタルアシスタンス(「PDA」)、およびエンドユーザ間の情報の通信を容易にする他のデバイスなども含む。
【0237】
「1つの実施形態」もしくは「一実施形態」、または「1つの実装形態」もしくは「一実装形態」、ならびにそれらの他の変形への言及は、実施形態に関連して説明された特定の特徴、構造、特性などが、少なくとも1つの実施形態に含まれることを意味する。したがって、本出願全体にわたって様々な箇所においてみられる、「1つの実施形態では」もしくは「一実施形態では」または「1つの実装形態では」もしくは「一実装形態では」という句、ならびに任意の他の変形の出現は、必ずしも全てが同じ実施形態を指しているわけではない。
【0238】
さらに、本開示は、情報の様々な部分を「判定する」ことに言及する場合がある。情報の判定には、例えば、情報の評価、情報の計算、情報の予測、またはメモリからの情報の検索のうちの1つ以上が含まれ得る。
【0239】
さらに、本出願は、情報の様々な部分に「アクセスする」ことに言及し得る。情報のアクセスには、例えば、情報の受信、(例えば、メモリからの)情報の検索、情報の記憶、情報の移動、情報のコピー、情報の計算、情報の判定、情報の予測、または情報の評価のうちの1つ以上が含まれ得る。
【0240】
さらに、本出願は、情報の様々な部分を「受信すること」に言及し得る。受信することは、「アクセスすること」と同様に、広義の用語であることが意図されている。情報の受信には、例えば、情報へのアクセス、または(例えば、メモリからの)情報の検索のうちの1つ以上が含まれ得る。さらに、「受信すること」は、典型的には、何らかの方法で、例えば、情報の記憶、情報の処理、情報の送信、情報の移動、情報のコピー、情報の消去、情報の計算、情報の判定、情報の予測、または情報の評価などの動作中に伴う。
【0241】
例えば、「A/B」、「Aおよび/またはB」、ならびに「AおよびBのうちの少なくとも1つ」の場合、次の「/」、「および/または」、ならびに「のうちの少なくとも1つ」のいずれかの使用は、1番目に列記された選択肢(A)のみの選択、または2番目に列記された選択肢(B)のみの選択、または両方の選択肢(AおよびB)の選択を網羅することを意図していることが分かるはずである。さらなる例として、「A、B、および/またはC」ならびに「A、B、およびCのうちの少なくとも1つ」の場合、そのような言い回しは、1番目に列記された選択肢(A)のみの選択、または2番目に列記された選択肢(B)のみの選択、または3番目に列記された選択肢(C)のみの選択、または1番目および2番目に列記された選択肢(AおよびB)のみの選択、または1番目および3番目に列記された選択肢(AおよびC)のみの選択、または2番目および3番目に列記された選択肢(BおよびC)のみの選択、または3つ全ての選択肢(AおよびBおよびC)の選択、を網羅することを意図している。これは、リストされている多くのアイテムに拡張され得る。
【0242】
また、本明細書で使用される場合、「信号伝達する」という単語は、とりわけ、対応する復号化器に何かを指示することを指す。例えば、特定の実施形態では、符号化器は、リファインメントのための複数のパラメータのうちの特定の1つを信号伝達する。このようにして、実施形態では、同じパラメータが、符号化器側および復号化器側の両方で使用される。したがって、例えば、符号化器は、特定のパラメータを復号化器に送信することができ(明示的な信号伝達)、その結果、復号化器は、同じ特定のパラメータを使用することができる。逆に、復号化器が既に特定のパラメータならびに他のパラメータを有する場合、信号伝達は、送信(暗黙的な信号伝達)を行わずに使用されて、復号化器が簡単に特定のパラメータを認識および選択することを可能にすることができる。いかなる実際の機能の送信も回避することによって、ビットの節約が、様々な実施形態で実現される。信号伝達は、様々な方法で達成できることが分かるはずである。例えば、1つ以上の構文要素、フラグなどが、様々な実施形態で、対応する復号化器に情報を信号伝達するために使用される。上記は、「信号伝達する」という単語の動詞形に関するものであるが、「信号伝達」という単語はまた、本明細書では、名詞として使用することもできる。
【0243】
実装形態は、例えば、記憶または送信され得る情報を搬送するようにフォーマットされる様々な信号を生成することができる。情報は、例えば、方法を実行するための命令、または説明される実装形態のうちの1つにより生成されたデータを含むことができる。例えば、信号は、説明された実施形態のビットストリームを搬送するようにフォーマットされ得る。このような信号は、例えば、(例えば、スペクトルの無線周波数部分を使用する)、電磁波として、またはベースバンド信号としてフォーマットすることができる。フォーマットすることは、例えば、データストリームを符号化することと、搬送波を符号化データストリームで変調することと、を含むことができる。信号が搬送する情報は、例えば、アナログまたはデジタル情報であり得る。信号は、既知であるように、様々な異なる有線または無線リンクを介して送信することができる。信号は、プロセッサ可読媒体上に記憶することができる。
【0244】
いくつかの実施形態について説明する。これらの実施形態の特徴は、様々な請求項のカテゴリおよびタイプにわたって、単独で、または任意の組み合わせで提供することができる。さらに、実施形態は、様々な請求項のカテゴリおよびタイプにわたって、単独でまたは任意の組み合わせで、以下の特徴、デバイス、または態様のうちの1つ以上を含むことができる。
・復号化器またはミドルボックスがサブ画像のプロファイル、層、および/またはレベルを識別できるようにする信号伝達構文要素の挿入。
・記載された構文要素、またはその変形のうちの1つ以上を含むビットストリームまたは信号。
・記載された実施形態のいずれかに従って生成された情報を伝達する構文を含むビットストリームまたは信号。
・記載された構文要素、またはその変形のうちの1つ以上を含むビットストリームまたは信号を、作成および/または送信および/または受信および/または復号化。
・記載された実施形態のいずれかに従って作成および/または送信および/または受信および/または復号化。
・記載された実施形態のいずれかに従って、方法、プロセス、装置、命令を記憶する媒体、データを記憶する媒体、または信号。
・記載された実施形態のいずれかに従って、サブ画像のプロファイル、段、および/またはレベルを示す構文要素を復号化するように動作可能であるテレビ、セットトップボックス、携帯電話、タブレット、または他の電子デバイス。
・記載された実施形態のいずれかに従って、サブ画像のプロファイル、段、および/もしくはレベルを示す構文要素を復号化するように動作可能であり、結果のイメージを表示する(例えば、モニタ、画面、または他のタイプのディスプレイを使用して)テレビ、セットトップボックス、携帯電話、タブレット、または他の電子デバイス。
・符号化されたイメージを含む信号を受信するようにチャネルを選択し(例えば、チューナを使用して)、かつ記載された実施形態のいずれかに従って、サブ画像のプロファイル、段、および/もしくはレベルを示す構文要素を復号化するテレビ、セットトップボックス、携帯電話、タブレット、または他の電子デバイス。
・符号化されたイメージを含む信号を無線で(例えば、アンテナを使用して)受信し、記載されたいずれかの実施形態に従って、サブ画像のプロファイル、段、および/またはレベルを示す構文要素を復号化するテレビ、セットトップボックス、携帯電話、タブレット、または他の電子デバイス。
【0245】
説明された実施形態のうちの1つ以上の様々なハードウェア要素は、それぞれのモジュールに関連して本明細書で説明される様々な機能を実行する(すなわち、行う、実施など)「モジュール」と称されることに留意されたい。本明細書で使用される場合、モジュールは、所与の実装に対して関連技術の当業者によって好適であると見なされるハードウェア(例えば、1つ以上のプロセッサ、1つ以上のマイクロプロセッサ、1つ以上のマイクロコントローラ、1つ以上のマイクロチップ、1つ以上の特定用途向け集積回路(ASIC)、1つ以上のフィールドプログラマブルゲートアレイ(FPGA)、1つ以上のメモリデバイス)を含む。記載された各モジュールはまた、それぞれのモジュールによって実行されると記載された1つ以上の機能を実行するために実行可能な命令を含み得、これらの命令は、ハードウェア(すなわち、ハードワイヤード)命令、ファームウェア命令、ソフトウェア命令などの形態を採り得るか、一般にRAM、ROMなどと称される任意の好適な非一時的なコンピュータ可読媒体または複数の媒体に格納され得ることに留意されたい。
【0246】
特徴および要素が特定の組み合わせで上に説明されているが、当業者は、各特徴または要素を、単独で、または他の特徴および要素との任意の組み合わせで使用することができることを理解するであろう。さらに、本明細書に記載の方法は、コンピュータまたはプロセッサによって実行するために、コンピュータ可読媒体に組み込まれたコンピュータプログラム、ソフトウェア、またはファームウェアに実装され得る。コンピュータ可読記憶媒体の例は、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスクおよび取り外し可能なディスクなどの磁気媒体、磁気光学媒体、CD-ROMディスクなどの光学媒体、ならびにデジタル多用途ディスク(DVD)を含むが、これらに限定されるものではない。ソフトウェアに関連するプロセッサを使用して、WTRU、UE、端末、基地局、RNC、または任意のホストコンピュータで使用するための無線周波数トランシーバを実装し得る。