(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-24
(54)【発明の名称】ビデオ処理の方法、装置、及び媒体
(51)【国際特許分類】
H04N 21/2365 20110101AFI20250117BHJP
H04N 19/70 20140101ALI20250117BHJP
H04N 21/2665 20110101ALI20250117BHJP
H04N 21/84 20110101ALI20250117BHJP
【FI】
H04N21/2365
H04N19/70
H04N21/2665
H04N21/84
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024541849
(86)(22)【出願日】2023-01-10
(85)【翻訳文提出日】2024-08-09
(86)【国際出願番号】 US2023060413
(87)【国際公開番号】W WO2023137281
(87)【国際公開日】2023-07-20
(32)【優先日】2022-01-11
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520477474
【氏名又は名称】バイトダンス インコーポレイテッド
【氏名又は名称原語表記】BYTEDANCE INC.
【住所又は居所原語表記】12655 West Jefferson Boulevard, Sixth Floor, Suite No. 137 Los Angeles, California 90066 United States of America
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(72)【発明者】
【氏名】ワン,イエ-クォイ
【テーマコード(参考)】
5C159
5C164
【Fターム(参考)】
5C159MB02
5C159MB21
5C159RC11
5C159UA02
5C159UA05
5C164FA06
5C164MB13P
5C164MB44S
5C164SB13P
5C164SC04P
5C164UB85S
(57)【要約】
本開示の実施形態は、ビデオ処理のためのソリューションを提供する。ビデオ処理方法が提案される。前記方法は、複数のビデオのビットストリームと、前記複数のビデオのメディアファイルとの間の転換を実行するステップを含む。ここで、前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される。
【選択図】
図4
【特許請求の範囲】
【請求項1】
ビデオ処理方法であって、
複数のビデオのビットストリームと前記複数のビデオのメディアファイルとの間の転換を実行するステップ、を含み、
前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、
前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、
前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される、
方法。
【請求項2】
前記第1の指示は前記第1のトラックの第1のデータ構造に含まれ、
前記第1のデータ構造は、前記第1のトラックの特性を指定し、
前記第2の指示は前記第2のトラックの第2のデータ構造に含まれ、
前記第2のデータ構造は、前記第2のトラックの特性を指定する、
請求項1に記載の方法。
【請求項3】
前記第1のデータ構造及び前記第2のデータ構造のそれぞれは、トラックヘッダーボックスであり、
前記第1の指示及び前記第2の指示のそれぞれは、マトリックスフィールドである、
請求項2に記載の方法。
【請求項4】
前記第2のビデオのサイズは、前記第1のビデオのサイズよりも小さい、
請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記ターゲット領域は、ウィンドウである、
請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記第2のトラックは、前記第1のトラックよりも、前記メディアファイルのプレゼンテーションの視聴者に近い、
請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記第2のビデオは、前記第1のビデオの前に置かれる、
請求項1から5のいずれか一項に記載の方法。
【請求項8】
前記第2のトラックにおける第3の指示の値は、前記第1のトラックにおける第4の指示の値よりも小さく、
前記第3の指示は、前記第2のトラックの前から後ろへの順序を示し、
前記第4の指示は、前記第1のトラックの前から後ろへの順序を示す、
請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記第3の指示は、前記第2のトラックの第2のデータ構造に含まれ、
前記第2のデータ構造は、前記第2のトラックの特性を指定し、
前記第4の指示は、前記第1のトラックの第1のデータ構造に含まれ、
前記第1のデータ構造は、前記第1のトラックの特性を指定する、
請求項8に記載の方法。
【請求項10】
前記第1のデータ構造及び前記第2のデータ構造のそれぞれは、トラックヘッダーボックスであり、
前記第3の指示及び前記第4の指示のそれぞれは、レイヤーフィールドである、
請求項9に記載の方法。
【請求項11】
前記メディアファイル内のエンティティグループのグループ化タイプフィールドの値がピクチャインピクチャを表す所定の値に等しい場合、前記エンティティグループは、ピクチャインピクチャエンティティグループである、
請求項1から10のいずれか一項に記載の方法。
【請求項12】
前記所定の値は、「pinp」である、
請求項11に記載の方法。
【請求項13】
ピクチャーインピクチャーエンティティグループについて、データ構造EntityToGroupBoxは、データ構造PicInPicEntityGroupBoxに拡張される、
請求項11または12のいずれか一項に記載の方法。
【請求項14】
前記メディアファイルが前記ピクチャインピクチャエンティティグループを含む場合、前記ピクチャインピクチャエンティティグループは、前記メディアファイル内のファイルレベルデータ構造MetaBoxのデータ構造GroupsListBoxに含まれる、
請求項13に記載の方法。
【請求項15】
前記第1のビデオは、メインビデオであり、
前記第2のビデオは、ピクチャインピクチャ(PiP)ビデオである、
請求項1から14のいずれか一項に記載の方法。
【請求項16】
前記メディアファイルは、国際標準化機構(ISO)ベースのメディアファイルフォーマットである、
請求項1から15のいずれか一項に記載の方法。
【請求項17】
前記転換は、前記メディアファイルを生成し、前記ビットストリームを前記メディアファイルに記憶すること、を含む、
請求項1から16のいずれか一項に記載の方法。
【請求項18】
前記転換は、前記メディアファイルを解析して、前記ビットストリームを再構築すること、を含む、
請求項1から16のいずれか一項に記載の方法。
【請求項19】
プロセッサと、命令が記憶される非一時的なメモリとを含む、ビデオデータを処理する装置であって、
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、請求項1から18のいずれか一項に記載の方法を実行させる、
装置。
【請求項20】
プロセッサに、請求項1から18のいずれか一項に記載の方法を実行させる命令を記憶する、非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項21】
ビデオ処理装置によって実行される方法によって生成された複数のビデオのビットストリームを記憶する非一時的なコンピュータ読み取り可能な記録媒体であって、
前記方法は、前記ビットストリームと、前記複数のビデオのメディアファイルとの間の転換を実行するステップ、を含み、
前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、
前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、
前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される、
非一時的なコンピュータ読み取り可能な記録媒体。
【請求項22】
複数のビデオのビットストリームを記憶する方法であって、
前記ビットストリームと前記複数のビデオのメディアファイルとの間の転換を実行するステップと、
前記ビットストリームを非一時的なコンピュータ読み取り可能な記録媒体に記憶するステップと、を含み、
前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、
前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、
前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される、
方法。
【請求項23】
ビデオ処理装置によって実行される方法によって生成された複数のビデオのメディアファイルを記憶する非一時的なコンピュータ読み取り可能な記録媒体であって、
前記方法は、前記複数のビデオのビットストリームと、前記メディアファイルとの間の転換を実行するステップ、を含み、
前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、
前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、
前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される、
非一時的なコンピュータ読み取り可能な記録媒体。
【請求項24】
複数のビデオのメディアファイルを記憶する方法であって、
前記複数のビデオのビットストリームと、前記メディアファイルとの間の転換を実行するステップと、
前記メディアファイルを、非一時的なコンピュータ読み取り可能な記録媒体に記憶するステップと、を含み、
前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、
前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、
前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される、
方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施形態は、一般的にはビデオ処理技術に関し、より具体的には、メディアファイル内のピクチャインピクチャのシグナリングに関する。
【0002】
関連出願の相互参照
本出願は、2022年1月11日に出願された米国仮出願第63/298,443号の優先権の利益を主張し、その全内容は、参照により本明細書に明示的に組み込まれる。
【背景技術】
【0003】
メディアストリーミングアプリケーションは、通常、インターネットプロトコル(IP)、伝送制御プロトコル(TCP)、及びハイパーテキスト転送プロトコル(HTTP)トランスポートメソッドに基づいており、通常はISOベースメディアファイルルフォーマット(ISOBMFF)などのファイルフォーマットに依存している。このようなストリーミングシステムの1つが、HTTP経由の動的アダプティブストリーミング(DASH)である。DASHでは、マルチメディアコンテンツのビデオ及び/又はオーディオデータに対して複数の表現が存在し得、異なる表現は異なるコーディング特性(例:ビデオコーディング規格の異なるプロファイル又はレベル、異なるビットレート、異なる空間解像度など)に対応し得る。さらに、「ピクチャインピクチャ」という技術が提案されている。したがって、メディアファイルにおけるピクチャインピクチャのシグナリングについて研究する価値がある。
【発明の概要】
【0004】
本開示の実施形態は、ビデオ処理のためのソリューションを提供する。
【0005】
第1の態様では、ビデオ処理方法が提案される。前記方法は、複数のビデオのビットストリームと前記複数のビデオのメディアファイルとの間の転換を実行するステップを含み、ここで、前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される。
【0006】
本開示の第1の態様による方法によれば、第2のビデオをオーバーレイするための第1のビデオ内のターゲット領域は、第1のビデオについての第1のトラックにおける第1の指示及び第2のビデオについての第2のトラックにおける第2の指示によって示される。このターゲット領域が第2の指示によってのみ示される従来のソリューションと比較して、提案された方法は、ピクチャインピクチャ領域の適切な指示を確保することができ、したがってピクチャインピクチャサービスのパフォーマンスを向上させることができる。
【0007】
第2の態様では、ビデオデータを処理する装置が提案される。前記ビデオデータを処理する装置は、プロセッサと、命令が記憶される非一時的なメモリとを含む。前記命令は前記プロセッサによって実行されると、前記プロセッサに本開示の第1の態様による方法を実行させる。
【0008】
第3の態様では、非一時的なコンピュータ読み取り可能な記憶媒体が提案される。前記非一時的なコンピュータ読み取り可能な記憶媒体は、プロセッサに本開示の第1の態様による方法を実行させる命令を記憶する。
【0009】
第4の態様では、別の非一時的なコンピュータ読み取り可能な記録媒体が提案される。前記非一時的なコンピュータ読み取り可能な記録媒体は、ビデオ処理装置によって実行される方法によって生成された複数のビデオのビットストリームを記憶する。前記方法は、前記ビットストリームと前記複数のビデオのメディアファイルとの間の転換を実行するステップを含み、ここで、前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される。
【0010】
第5の態様では、複数のビデオのビットストリームを記憶する方法が提案される。前記方法は、前記ビットストリームと前記複数のビデオのメディアファイルとの間の転換を実行するステップと、前記ビットストリームを非一時的なコンピュータ読み取り可能な記録媒体に記憶するステップとを含み、ここで、前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される。
【0011】
第6の態様では、別の非一時的なコンピュータ読み取り可能な記録媒体が提案される。前記非一時的なコンピュータ読み取り可能な記録媒体は、ビデオ処理装置によって実行される方法によって生成された複数のビデオのメディアファイルを記憶する。前記方法は、前記複数のビデオのビットストリームと前記メディアファイルとの間の転換を実行するステップを含み、ここで、前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される。
【0012】
第7の態様では、複数のビデオのメディアファイルを記憶する方法が提案される。前記方法は、前記複数のビデオのビットストリームと、前記メディアファイルとの間の転換を実行するステップと、前記メディアファイルを非一時的なコンピュータ読み取り可能な記録媒体に記憶するステップとを含み、ここで、前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される。
【0013】
この発明の内容は、詳細な説明でさらに詳しく説明する概念の選択を簡略化した形で紹介するために提供される。この発明の内容は、請求された主題の主要な特徴又は本質的な特徴を特定することを意図したものではなく、請求された主題の範囲を制限するために使用されることも意図されていない。
【図面の簡単な説明】
【0014】
添付の図面を参照した以下の詳細な説明により、本開示の実施形態の上記及びその他の目的、特徴、及び利点がより明らかになる。本開示の例示的な実施形態において、同じ参照番号は通常、同じ構成要素を指す。
【
図1】本開示のいくつかの実施形態による、例示的なビデオコーディングシステムを示すブロック図を示す。
【
図2】本開示のいくつかの実施形態による、第1の例示的なビデオエンコーダを示すブロック図を示す。
【
図3】本開示のいくつかの実施形態による、例示的なビデオデコーダを示すブロック図を示す。
【
図4】本開示のいくつかの実施形態による、ビデオ処理方法のフローチャートを示す。
【
図5】本開示の様々な実施形態を具現できるコンピューティングデバイスのブロック図を示す。
【0015】
図面全体を通じて、同一又は類似の参照番号は通常、同一又は類似の要素を指す。
【発明を実施するための形態】
【0016】
次に、いくつかの実施形態を参照して、本開示の原理を説明する。これらの実施形態は、説明のみを目的として記載されており、当業者が本開示を理解し具現するのを助けるものであり、本開示の範囲に関していかなる限定も示唆するものではないことを理解すべきである。本明細書に記載の開示は、以下に記載する方法以外にも様々な方式で具現されることができる。
【0017】
以下の説明及び特許請求の範囲において、別段の定義がない限り、本明細書で使用される全ての技術用語及び科学用語は、本開示が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。
【0018】
本開示における「一つの実施形態」、「一実施形態」、「例示的な実施形態」などへの言及は、記載される実施形態が特定の特徴、構造、又は特性を含み得ることを示すが、必ずしも全ての実施形態が特定の特徴、構造、又は特性を含むとは限らない。また、そのような語句は必ずしも同じ実施形態を指しているわけではない。さらに、特定の特徴、構造、又は特性が例示的な実施形態に関連して説明される場合、明示的に記載されているか否かにかかわらず、他の実施形態に関連してそのような特徴、構造、又は特性に影響を与えることは当業者の知識の範囲内であることが指摘される。
【0019】
「第1の」及び「第2の」などの用語は、本明細書では様々な要素を説明するために使用され得るが、これらの要素はこれらの用語によって限定されるべきではないことを理解すべきである。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、例示的な実施形態の範囲から逸脱することなく、第1の要素が第2の要素と呼ばれ得、同様に、第2の要素が第1の要素と呼ばれ得る。本明細書で使用されるように、「及び/又は」という用語には、列挙された用語の1つ又は複数のあらゆる組み合わせが含まれる。
【0020】
本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、例示的な実施形態を限定することを意図したものではない。本明細書で使用されるように、単数形「a(一つの)」、「an(一つの)」、及び「the(その)」は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。「含む」、「備える」、「有する」、「持つ」、「含有する」及び/又は「包含する」という用語は、本明細書で使用される場合、記載された特徴、要素、及び/又は構成要素などの存在を指定するが、1つ又は複数の他の特徴、要素、構成要素及び/又はそれらの組み合わせの存在又は追加を排除するものではないことがさらに理解されるであろう。
【0021】
例示的な環境
図1は、本開示の技術を利用し得る例示的なビデオコーディングシステム100を示すブロック図である。図示されるように、ビデオコーディングシステム100は、ソースデバイス110と、宛先デバイス120とを含み得る。ソースデバイス110は、ビデオエンコーディングデバイスとも呼ばれ得、宛先デバイス120は、ビデオデコーディングデバイスとも呼ばれ得る。動作中、ソースデバイス110は、エンコードされたビデオデータを生成するように構成することができ、宛先デバイス120は、ソースデバイス110によって生成されたエンコードされたビデオデータをデコードするように構成することができる。ソースデバイス110は、ビデオソース112と、ビデオエンコーダ114と、入力/出力(I/O)インターフェース116とを含み得る。
【0022】
ビデオソース112は、ビデオキャプチャデバイスなどのソースを含み得る。ビデオキャプチャデバイスの例には、ビデオコンテンツプロバイダからビデオデータを受信するインターフェース、ビデオデータを生成するコンピュータグラフィックスシステム、及び/又はそれらの組み合わせが含まれるが、これらに限定されない。
【0023】
ビデオデータは、1つ又は複数の画像を含み得る。ビデオエンコーダ114は、ビデオソース112からのビデオデータをエンコードしてビットストリームを生成する。ビットストリームには、ビデオデータのコード化表現を形成する一連のビットが含まれ得る。ビットストリームには、コード化画像及び関連データが含まれ得る。コード化画像は、画像のコード化表現である。関連データには、シーケンスパラメータセット、画像パラメータセット、及び他の構文構造が含まれ得る。I/Oインターフェース116は、変調器/復調器及び/又は送信機を含み得る。エンコードされたビデオデータは、I/Oインターフェース116を介してネットワーク130Aを通して宛先デバイス120に直接送信され得る。エンコードされたビデオデータは、宛先デバイス120によるアクセスのために記憶媒体/サーバ130Bに記憶されても良い。
【0024】
宛先デバイス120は、I/Oインターフェース126と、ビデオデコーダ124と、表示デバイス122とを含み得る。I/Oインターフェース126は、受信機及び/又はモデムを含み得る。I/Oインターフェース126は、ソースデバイス110又は記憶媒体/サーバ130Bからエンコードされたビデオデータを取得し得る。ビデオデコーダ124は、エンコードされたビデオデータをデコードし得る。表示デバイス122は、デコードされたビデオデータをユーザに表示し得る。表示デバイス122は、宛先デバイス120と一体化されて得、或いは外部表示デバイスとインターフェースするように構成された宛先デバイス120の外部にあり得る。
【0025】
ビデオエンコーダ114及びビデオデコーダ124は、High Efficiency Video Coding(高効率ビデオコーディング、HEVC)規格、Versatile Video Coding(多用途ビデオコーディング、VVC)規格及び他の現在の及び/又はさらなる規格などのビデオ圧縮規格に従って動作し得る。
【0026】
図2は、本開示のいくつかの実施形態による、
図1に示されるシステム100内のビデオエンコーダ114の一例であり得るビデオエンコーダ200の一例を示すブロック図である。
【0027】
ビデオエンコーダ200は、本開示の技術のいずれか又は全てを具現するように構成され得る。
図2の例では、ビデオエンコーダ200は複数の機能コンポーネントを含む。本開示で説明される技術は、ビデオエンコーダ200の様々なコンポーネント間で共有され得る。いくつかの例では、プロセッサは、本開示で説明された技術のいずれか又は全てを実行するように構成され得る。
【0028】
いくつかの実施形態では、ビデオエンコーダ200は、分割ユニット201と、モード選択ユニット203、動き推定ユニット204、動き補償ユニット205及びイントラ予測ユニット206を含み得る予測ユニット202と、残差生成ユニット207と、変換ユニット208と、量子化ユニット209と、逆量子化ユニット210と、逆変換ユニット211と、再構築ユニット212と、バッファ213と、エントロピーエンコーディングユニット214とを含み得る。
【0029】
他の例では、ビデオエンコーダ200は、より多くの、より少ない、又は異なる機能コンポーネントを含み得る。一例では、予測ユニット202は、イントラブロックコピー(IBC)ユニットを含み得る。IBCユニットは、少なくとも1つの参照画像が現在のビデオブロックが位置する画像であるIBCモードで予測を実行し得る。
【0030】
さらに、動き推定ユニット204及び動き補償ユニット205などのいくつかの構成要素は統合され得るが、
図2の例では説明の目的で別々に表されている。
【0031】
分割ユニット201は、画像を1つ又は複数のビデオブロックに分割し得る。ビデオエンコーダ200及びビデオデコーダ300は、多様なビデオブロックサイズをサポートし得る。
【0032】
モード選択ユニット203は、例えば、エラー結果に基づいて、イントラ又はインターのコーディングモードのうちの1つを選択し、その結果から得られるイントラコード化又はインターコード化されたブロックを、残差ブロックデータを生成するように残差生成ユニット207に提供し、エンコードされたブロックを再構築して参照画像として使用するように再構築ユニット212に提供し得る。いくつかの例では、モード選択ユニット203は、予測がインター予測信号及びイントラ予測信号に基づくイントラ及びインター予測の組み合わせ(CIIP)モードを選択し得る。モード選択ユニット203は、インター予測の場合、ブロックの動きベクトルの解像度(例:サブピクセル又は整数ピクセル精度)を選択してもよい。
【0033】
現在のビデオブロックに対してインター予測を実行するために、動き推定ユニット204は、バッファ213からの1つ又は複数の参照フレームを現在のビデオブロックと比較することで現在のビデオブロックの動き情報を生成し得る。動き補償ユニット205は、現在のビデオブロックに関連付けられた画像以外のバッファ213からの画像の動き情報及びデコードされたサンプルに基づいて、現在のビデオブロックの予測ビデオブロックを決定し得る。
【0034】
動き推定ユニット204及び動き補償ユニット205は、例えば、現在のビデオブロックがIスライス、Pスライス、又はBスライスのいずれにあるかに応じて、現在のビデオブロックに対して異なる演算を実行し得る。本明細書で使用されるように、「Iスライス」は、マクロブロックから構成される画像の一部を指し得、その全てが同じ画像内のマクロブロックに基づいている。さらに、本明細書で使用されるように、いくつかの態様では、「Pスライス」及び「Bスライス」は、同じ画像内のマクロブロックに依存しないマクロブロックから構成される画像の部分を指し得る。
【0035】
いくつかの例では、動き推定ユニット204は、現在のビデオブロックに対して単方向予測を実行し得、動き推定ユニット204は、現在のビデオブロックの参照ビデオブロックについてのリスト0又はリスト1の参照画像を探し得る。次に、動き推定ユニット204は、参照ビデオブロックを含むリスト0又はリスト1内の参照画像を示す参照インデックスと、現在のビデオブロックと参照ビデオブロックとの間の空間的変位を示す動きベクトルとを生成し得る。動き推定ユニット204は、参照インデックス、予測方向指示子、及び動きベクトルを現在のビデオブロックの動き情報として出力し得る。動き補償ユニット205は、現在のビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在のビデオブロックの予測ビデオブロックを生成し得る。
【0036】
代替的に、他の例では、動き推定ユニット204は、現在のビデオブロックに対して双方向予測を実行し得る。動き推定ユニット204は、現在のビデオブロックの参照ビデオブロックについてのリスト0内の参照画像を探してもよいし、現在のビデオブロックの別の参照ビデオブロックについてのリスト1内の参照画像を探してもよい。次に、動き推定ユニット204は、参照ビデオブロックを含むリスト0及びリスト1内の参照画像を示す参照インデックスと、参照ビデオブロックと現在のビデオブロックとの間の空間的変位を示す動きベクトルとを生成し得る。動き推定ユニット204は、現在のビデオブロックの参照インデックス及び動きベクトルを現在のビデオブロックの動き情報として出力し得る。動き補償ユニット205は、現在のビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在のビデオブロックの予測ビデオブロックを生成し得る。
【0037】
いくつかの例では、動き推定ユニット204は、デコーダのデコーディング処理のためのフルセットの動き情報を出力し得る。代替的に、いくつかの実施形態では、動き推定ユニット204は、別のビデオブロックの動き情報を参照して現在のビデオブロックの動き情報をシグナリングし得る。例えば、動き推定ユニット204は、現在のビデオブロックの動き情報が隣接するビデオブロックの動き情報と十分に類似していると決定し得る。
【0038】
一例では、動き推定ユニット204は、現在のビデオブロックに関連付けられた構文構造において、現在のビデオブロックが別のビデオブロックと同じ動き情報を有することをビデオデコーダ300に示す値を示し得る。
【0039】
別の例では、動き推定ユニット204は、現在のビデオブロックに関連付けられた構文構造において、別のビデオブロック及び動きベクトル差分(MVD)を識別し得る。動きベクトル差分は、現在のビデオブロックの動きベクトルと、指示されたビデオブロックの動きベクトルとの間の差分を示す。ビデオデコーダ300は、指示されたビデオブロックの動きベクトル及び動きベクトル差分を使用して現在のビデオブロックの動きベクトルを決定し得る。
【0040】
上で論じたように、ビデオエンコーダ200は、動きベクトルを予測的にシグナリングし得る。ビデオエンコーダ200によって具現され得る予測シグナリング技術の2つの例には、アドバンスト動きベクトル予測(AMVP)とマージモードシグナリングとが含まれる。
【0041】
イントラ予測ユニット206は、現在のビデオブロックに対してイントラ予測を実行し得る。イントラ予測ユニット206が現在のビデオブロックに対してイントラ予測を実行するとき、イントラ予測ユニット206は、同じ画像内の他のビデオブロックのデコードされたサンプルに基づいて、現在のビデオブロックについての予測データを生成し得る。現在のビデオブロックについての予測データには、予測されたビデオブロック及び様々な構文要素が含まれ得る。
【0042】
残差生成ユニット207は、現在のビデオブロックから現在のビデオブロックの予測ビデオブロックを減算する(例:マイナス記号によって示される)ことで、現在のビデオブロックについての残差データを生成し得る。現在のビデオブロックの残差データは、現在のビデオブロック内のサンプルの異なるサンプル成分に対応する残差ビデオブロックを含み得る。
【0043】
他の例では、例えばスキップモードにおいて、現在のビデオブロックについての残差データが存在しなくてもよいし、残差生成ユニット207は減算演算を実行しなくてもよい。
【0044】
変換処理ユニット208は、現在のビデオブロックに関連付けられた残差ビデオブロックに1つ又は複数の変換を適用することによって、現在のビデオブロックについての1つ又は複数の変換係数ビデオブロックを生成し得る。
【0045】
変換処理ユニット208が現在のビデオブロックに関連付けられた変換係数ビデオブロックを生成した後、量子化ユニット209は、現在のビデオブロックに関連付けられた1つ又は複数の量子化パラメータ(QP)値に基づいて、現在のビデオブロックに関連付けられた変換係数ビデオブロックを量子化し得る。
【0046】
逆量子化ユニット210及び逆変換ユニット211は、それぞれ、変換係数ビデオブロックに逆量子化及び逆変換を適用して、変換係数ビデオブロックから残差ビデオブロックを再構築し得る。再構築ユニット212は、再構築された残差ビデオブロックを、予測ユニット202によって生成された1つ又は複数の予測ビデオブロックからの対応するサンプルに追加して、バッファ213に記憶するために現在のビデオブロックに関連付けられた再構築ビデオブロックを生成し得る。
【0047】
再構築ユニット212がビデオブロックを再構築した後、ループフィルタリング動作が実行されて、ビデオブロック内のビデオブロッキングアーティファクトを低減し得る。
【0048】
エントロピーエンコーディングユニット214は、ビデオエンコーダ200の他の機能コンポーネントからデータを受信し得る。エントロピーエンコーディングユニット214がデータを受信すると、エントロピーエンコーディングユニット214は、1つ又は複数のエントロピーエンコーディング動作を実行して、エントロピーエンコード化データを生成し、エントロピーエンコード化データを含むビットストリームを出力し得る。
【0049】
図3は、本開示のいくつかの実施形態による、
図1に示されるシステム100内のビデオデコーダ124の一例であり得るビデオデコーダ300の一例を示すブロック図である。
【0050】
ビデオデコーダ300は、本開示の技術のいずれか又は全てを実行するように構成され得る。
図3の例では、ビデオデコーダ300は複数の機能コンポーネントを含む。本開示で説明される技術は、ビデオデコーダ300の様々なコンポーネント間で共有され得る。いくつかの例では、プロセッサは、本開示で説明された技術のいずれか又は全てを実行するように構成され得る。
【0051】
図3の例では、ビデオデコーダ300は、エントロピーデコーディングユニット301と、動き補償ユニット302と、イントラ予測ユニット303と、逆量子化ユニット304と、逆変換ユニット305と、再構築ユニット306と、バッファ307とを含む。ビデオデコーダ300は、いくつかの例では、ビデオエンコーダ200に関して説明したエンコーディングパスと一般に逆のデコーディングパスを実行し得る。
【0052】
エントロピーデコーディングユニット301は、エンコードされたビットストリームを取り戻し得る。エンコードされたビットストリームは、エントロピーコード化されたビデオデータ(例:ビデオデータのエンコードされたブロック)を含み得る。エントロピーデコーディングユニット301は、エントロピーコード化されたビデオデータをデコードし得、エントロピーデコードされたビデオデータから、動き補償ユニット302は、動きベクトル、動きベクトル精度、参照画像リストインデックス及び他の動き情報を含む動き情報を決定し得る。動き補償ユニット302は、例えば、AMVP及びマージモードを実行することによってそのような情報を決定し得る。AMVPが使用され、隣接するPB及び参照画像からのデータに基づいた最もあり得るいくつかの候補の導出を含む。動き情報には、通常、水平及び垂直動きベクトル変位値、1つ又は2つの参照画像インデックス、及びBスライス内の予測領域の場合は、どの参照画像リストが各インデックスに関連付けられているかの識別が含まれる。本明細書で使用されるように、いくつかの態様では、「マージモード」は、空間的又は時間的に隣接するブロックから動き情報を導出することを指し得る。
【0053】
動き補償ユニット302は、おそらく補間フィルタに基づいて補間を実行しながら、動き補償されたブロックを生成し得る。サブピクセル精度で使用される補間フィルタの識別子が構文要素に含まれ得る。
【0054】
動き補償ユニット302は、ビデオブロックのエンコーディング中にビデオエンコーダ200によって使用される補間フィルタを使用して、参照ブロックのサブ整数ピクセルについての補間値を計算し得る。動き補償ユニット302は、受信した構文情報に従ってビデオエンコーダ200によって使用される補間フィルタを決定し、その補間フィルタを使用して予測ブロックを生成し得る。
【0055】
動き補償ユニット302は、構文情報の少なくとも一部を使用して、エンコードされたビデオシーケンスのフレーム及び/又はスライスをエンコードするために使用されるブロックのサイズ、エンコードされたビデオシーケンスの画像の各マクロブロックがどのように分割されるかを説明するパーティション情報、各パーティションがどのようにエンコードされるかを示すモード、各インターエンコードされたブロックの1つ又は複数の参照フレーム(及び参照フレームリスト)、及びエンコードされたビデオシーケンスをデコードするその他の情報を決定し得る。本明細書で使用されるように、いくつかの態様では、「スライス」は、エントロピーコーディング、信号予測、及び残差信号再構築に関して、同じ画像の他のスライスから独立してデコードできるデータ構造を指し得る。スライスは、画像全体又は画像の領域のいずれかになり得る。
【0056】
イントラ予測ユニット303は、例えばビットストリームで受信されたイントラ予測モードを使用して、空間的に隣接するブロックから予測ブロックを形成し得る。逆量子化ユニット304は、ビットストリームで提供され、エントロピーデコーディングユニット301によってデコードされた量子化ビデオブロック係数を逆量子化、即ち量子化解除する。逆変換ユニット305は、逆変換を適用する。
【0057】
再構築ユニット306は、例えば、残差ブロックと、動き補償ユニット302又はイントラ予測ユニット303によって生成された対応する予測ブロックとを加算することで、デコードされたブロックを取得し得る。必要に応じて、デブロッキングフィルタが適用されて、ブロックアーティファクトを除去するよう、デコードされたブロックをフィルタリングしてもよい。次に、デコードされたビデオブロックはバッファ307に記憶され、バッファ307は、後続の動き補償/イントラ予測のための参照ブロックを提供し、また、表示デバイス上にプレゼンテーションするためのデコードされたビデオも生成する。
【0058】
本開示のいくつかの例示的な実施形態について以下に詳細に説明することにする。本明細書では理解を容易にするためにセクション見出しが使用されているが、セクションで開示される実施形態をそのセクションのみに限定するものではないことを理解すべきである。さらに、特定の実施形態が多用途ビデオコーディング又は他の特定のビデオコーデックを参照して説明されるが、開示された技術は他のビデオコーディング技術にも適用可能である。さらに、いくつかの実施形態はビデオコーディングステップを詳細に説明するが、コーディングを元に戻す対応するデコーディングステップはデコーダによって実施されることが理解されるであろう。さらに、ビデオ処理という用語には、ビデオコーディング又は圧縮、ビデオデコーディング又は解凍、及びビデオピクセルを1つの圧縮フォーマットから別の圧縮フォーマット又は異なる圧縮ビットレートで表現するビデオトランスコーディングが包含される。
【表1】
【0059】
メディアファイル内のピクチャインピクチャのシグナリングに関連する本開示の実施形態のさらなる詳細を以下で説明する。本開示の実施形態は、一般的な概念を説明するための例として考えるべきであり、狭義に解釈されるべきではない。さらに、これらの実施形態は、個別に、又は、任意の方式で組み合わせて適用され得る。
【0060】
本明細書で使用されように、「トラック」という用語は、関連するサンプルのタイミングシーケンスを指し得る。「ボックス」という用語は、一意のタイプ識別子と長さによって定義されるオブジェクト指向のビルディングブロックを指し得る。ピクチャインピクチャ(PiP)サービスは、空間解像度の低いビデオ(「補足ビデオ」又は「PiPビデオ」とも呼ばれる)を、空間解像度の高いビデオ(「メインビデオ」とも呼ばれる)内に含める能力を提供する。
【0061】
図4は、本開示のいくつかの実施形態によるビデオ処理の方法400のフローチャートを示す。方法400は、クライアント又はサーバで具現され得る。本明細書で使用される「クライアント」という用語は、コンピュータネットワークのクライアントサーバモデルの一部としてサーバによって利用可能になるサービスにアクセスするコンピュータハードウェア又はソフトウェアを指し得る。例として、クライアントはスマートフォン又はタブレットであり得る。本明細書で使用される用語「サーバ」は、コンピューティングが可能なデバイスを指し得、その場合、クライアントはネットワークを介してサービスにアクセスする。サーバは、物理的なコンピューティングデバイス又は仮想コンピューティングデバイスであり得る。
【0062】
図4に示すように、402では、複数のビデオのビットストリームと複数のビデオのメディアファイルとの間の転換が実行される。メディアファイルは、ファイルフォーマット(例:国際標準化機構(ISO)ベースのメディアファイルフォーマット)のコンテキストでメディアコンテンツの有界又は無界のプレゼンテーションを確立するデータの収集である。いくつかの実施形態では、転換は、メディアファイルを生成し、ビットストリームをメディアファイルに記憶することを含み得る。追加的に又は代替的に、転換は、メディアファイルを解析してビットストリームを再構築することを含み得る。
【0063】
いくつかの実施形態では、複数のビデオは、第1のビデオと、第1のビデオとは異なる第2のビデオとを含む。限定ではなく例として、第2のビデオのサイズは、第1のビデオのサイズよりも小さくてもよい。さらに、メディアファイルは、第1のビデオのビットストリームについての第1のトラックと、第2のビデオのビットストリームについての第2のトラックとを含む。一例では、第1のトラックは第1のビデオのビットストリームをキャリーし得、第2のトラックは第2のビデオのビットストリームをキャリーし得る。ピクチャインピクチャサービスのコンテキストでは、第1のビデオはメインビデオであり、第2のビデオは補足ビデオ又はPiPビデオである。これに応じて、第1のトラックはメインビデオトラックであり、第2のトラックは補足ビデオトラックである。
【0064】
その上、第2のビデオをオーバーレイするための第1のビデオ内のターゲット領域(「PiP領域」とも呼ばれる)は、第1のトラックにおける第1の指示の値と第2のトラックにおける第2の指示の値とによって示される。即ち、ターゲット領域は、第1の指示と第2の指示との組み合わせによって示される。第1の指示自体も第2の指示自体も、ターゲット領域を示すことはできない。限定ではなく例として、ターゲット領域は、ウィンドウなどであり得る。
【0065】
上記を考慮すると、第2ビデオをオーバーレイするための第1のビデオ内のターゲット領域は、第1のビデオについての第1のトラックにおける第1の指示及び第2のビデオについての第2のトラックにおける第2の指示によって示される。このターゲット領域が第2の指示によってのみ示される従来のソリューションと比較して、提案された方法は、ピクチャインピクチャ領域の適切な指示を確保することができ、したがってピクチャインピクチャサービスのパフォーマンスを向上させることができる。
【0066】
いくつかの実施形態では、第1の指示は、第1のトラックの第1のデータ構造に含まれ得、第1のデータ構造は、第1のトラックの特性を指定し得る。さらに、第2の指示は、第2のトラックの第2のデータ構造に含まれ得、第2のデータ構造は第2のトラックの特性を指定し得る。一例では、第1のデータ構造及び第2のデータ構造のそれぞれは、トラックヘッダーボックス(TrackHeaderBoxとも記される)であり得る。さらに、第1の指示及び第2の指示のそれぞれは、マトリックスフィールドであり得る。上記の解説及び/又は例は、説明の目的でのみ記載されていることを理解すべきである。本開示の範囲は、この点に限定されない。
【0067】
いくつかの実施形態では、第2のトラックは、第1のトラックよりも、メディアファイルのプレゼンテーションの視聴者に近くてもよい。言い換えれば、第2のビデオは、第1のビデオの前に置かれ得る。例として、第2のトラックにおける第3の指示の値は、第1のトラックにおける第4の指示の値よりも小さくてもよい。第3の指示は、第2のトラックの前から後ろへの順序を示す場合があり、第4の指示は、第1のトラックの前から後ろへの順序を示す場合がある。いくつかの実施形態では、第3の指示は、第2のトラックの第2のデータ構造に含まれ得、第2のデータ構造は、第2のトラックの特性を指定し得る。さらに、第4の指示は、第1のトラックの第1のデータ構造に含まれ得、第1のデータ構造は、第1のトラックの特性を指定し得る。例えば、第1のデータ構造及び第2のデータ構造のそれぞれは、トラックヘッダーボックス(TrackHeaderBoxとも記され)であり得、第3の指示及び第4の指示のそれぞれは、レイヤーフィールドであり得る。これにより、補足ビデオトラックのTrackHeaderBoxのレイヤーフィールドの値がメインビデオトラックの値よりも小さくなることか確保され、2つのビデオが適切に表示されることを保証する。
【0068】
いくつかの実施形態では、メディアファイル内のエンティティグループのグループ化タイプフィールド(grouping_typeフィールドとも記される)の値がピクチャインピクチャを表す所定の値に等しい場合、エンティティグループはピクチャインピクチャエンティティグループであり得る。その上、ピクチャインピクチャエンティティグループの場合、データ構造EntityToGroupBoxは、データ構造PicInPicEntityGroupBoxに拡張され得る。限定ではなく例として、所定の値は「pinp」などであり得る。
【0069】
いくつかの実施形態では、メディアファイルがピクチャインピクチャエンティティグループを含む場合、ピクチャインピクチャエンティティグループは、メディアファイル内のファイルレベルデータ構造MetaBoxのデータ構造GroupsListBoxに含まれ得る。さらに、ピクチャインピクチャエンティティグループは、ムービーレベル、又はトラックレベルなどの他のレベルのデータ構造MetaBoxには含まれないものとする。データ構造GroupsListBoxには、ファイルに指定されたエンティティグループが含まれ得る。データ構造MetaBoxは、一般的な時間制限なしのメタデータを含むために使用される共通の基底構造である。
【0070】
本開示の実施形態によれば、非一時的なコンピュータ読み取り可能な記録媒体が提案される。複数のビデオのビットストリームは、前記非一時的なコンピュータ読み取り可能な記録媒体に記憶される。前記ビットストリームは、ビデオ処理装置によって実行される方法によって生成され得る。前記方法によれば、複数のビデオのビットストリームとメディアファイルとの間の転換が実行される。前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含む。前記メディアファイルは、第1のビデオのビットストリームについての第1のトラックと、第2のビデオのビットストリームについての第2のトラックとを含む。前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される。
【0071】
本開示の実施形態によれば、複数のビデオのビットストリームを記憶する方法が提案される。前記方法では、前記複数のビデオのビットストリームとメディアファイルとの間の転換が実行される。前記複数のビデオは、第1のビデオと、第1のビデオとは異なる第2のビデオとを含む。前記メディアファイルは、第1のビデオのビットストリームについての第1トラックと、第2のビデオのビットストリームについての第2のトラックとを含む。前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される。さらに、前記ビットストリームは、前記非一時的なコンピュータ読み取り可能な記録媒体に記憶される。
【0072】
本開示の実施形態によれば、別の非一時的なコンピュータ読み取り可能な記録媒体が提案される。複数のビデオメディアファイルは、前記非一時的なコンピュータ読み取り可能な記録媒体に記憶される。前記メディアファイルは、ビデオ処理装置によって実行される方法によって生成され得る。前記方法によれば、複数のビデオのビットストリームとメディアファイルとの間の転換が実行される。前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含む。前記メディアファイルは、前記第1のビデオのビットストリームについての第1トラックと、前記2のビデオのビットストリームについての第2のトラックとを含む。前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される。
【0073】
本開示の実施形態によれば、複数のビデオのメディアファイルを記憶する方法が提案される。前記方法では、前記複数のビデオのビットストリームとメディアファイルとの間の転換が実行される。前記複数のビデオは、第1のビデオと、第1のビデオとは異なる第2のビデオとを含む。前記メディアファイルは、第1のビデオのビットストリームについての第1のトラックと、第2のビデオのビットストリームについての第2のトラックとを含む。前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される。さらに、前記メディアファイルは、前記非一時的なコンピュータ読み取り可能な記録媒体に記憶される。
【0074】
本開示の具現は、以下の条項を考慮して説明され得、その特徴は任意の合理的な方式で組み合わされ得る。
【0075】
条項1.ビデオ処理方法であって、複数のビデオのビットストリームと前記複数のビデオのメディアファイルとの間の転換を実行するステップを含み、ここで、前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される、方法。
【0076】
条項2.前記第1の指示は前記第1のトラックの第1のデータ構造に含まれ、前記第1のデータ構造は、前記第1のトラックの特性を指定し、前記第2の指示は前記第2のトラックの第2のデータ構造に含まれ、前記第2のデータ構造は、前記第2のトラックの特性を指定する、条項1に記載の方法。
【0077】
条項3.前記第1のデータ構造及び前記第2のデータ構造のそれぞれはトラックヘッダーボックスであり、前記第1の指示及び前記第2の指示のそれぞれはマトリックスフィールドである、条項2に記載の方法。
【0078】
条項4.前記第2のビデオのサイズは、前記第1のビデオのサイズよりも小さい、条項1から3のいずれか一項に記載の方法。
【0079】
条項5.前記ターゲット領域は、ウィンドウである、条項1から4のいずれか一項に記載の方法。
【0080】
条項6.前記第2のトラックは、前記第1のトラックよりも、前記メディアファイルのプレゼンテーションの視聴者に近い、条項1から5のいずれか一項に記載の方法。
【0081】
条項7.前記第2のビデオは、前記第1のビデオの前に置かれる、条項1から5のいずれか一項に記載の方法。
【0082】
条項8.前記第2のトラックにおける第3の指示の値は、前記第1のトラックにおける第4の指示の値よりも小さく、前記第3の指示は、前記第2のトラックの前から後ろへの順序を示し、前記第4の指示は、前記第1のトラックの前から後ろへの順序を示す、条項1から7のいずれか一項に記載の方法。
【0083】
条項9.前記第3の指示は、前記第2のトラックの第2のデータ構造に含まれ、前記第2のデータ構造は、前記第2のトラックの特性を指定し、前記第4の指示は、前記第1のトラックの第1のデータ構造に含まれ、前記第1のデータ構造は、前記第1のトラックの特性を指定する、条項8に記載の方法。
【0084】
条項10.前記第1のデータ構造及び前記第2のデータ構造のそれぞれはトラックヘッダーボックスであり、前記第3の指示及び前記第4の指示のそれぞれはレイヤーフィールドである、条項9に記載の方法。
【0085】
条項11.前記メディアファイル内のエンティティグループのグループ化タイプフィールドの値がピクチャインピクチャを表す所定の値に等しい場合、前記エンティティグループは、ピクチャインピクチャエンティティグループである、条項1から10のいずれか一項に記載の方法。
【0086】
条項12.前記所定の値は、「pinp」である、条項11に記載の方法。
【0087】
条項13.ピクチャーインピクチャーエンティティグループについて、データ構造EntityToGroupBoxはデータ構造PicInPicEntityGroupBoxに拡張される、条項11又は12のいずれか一項に記載の方法。
【0088】
条項14.前記メディアファイルが前記ピクチャインピクチャエンティティグループを含む場合、前記ピクチャインピクチャエンティティグループは、前記メディアファイル内のファイルレベルデータ構造MetaBoxのデータ構造GroupsListBoxに含まれる、条項13に記載の方法。
【0089】
条項15.前記第1のビデオはメインビデオであり、前記第2のビデオはピクチャインピクチャ(PiP)ビデオである、条項1から14のいずれか一項に記載の方法。
【0090】
条項16.前記メディアファイルは、国際標準化機構(ISO)ベースのメディアファイルフォーマットである、条項1から15のいずれか一項に記載の方法。
【0091】
条項17.前記転換は、前記メディアファイルを生成し、前記ビットストリームを前記メディアファイルに記憶することを含む、条項1から16のいずれか一項に記載の方法。
【0092】
条項18.前記転換は、前記メディアファイルを解析して前記ビットストリームを再構築することを含む、条項1から16のいずれか一項に記載の方法
【0093】
条項19.プロセッサと命令が記憶される非一時的なメモリとを含む、ビデオデータを処理する装置であって、前記命令は前記プロセッサによって実行されると、前記プロセッサに条項1から18のいずれか一項に記載の方法を実行させる、装置。
【0094】
条項20.プロセッサに条項1から18のいずれか一項に記載の方法を実行させる命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体。
【0095】
条項21.ビデオ処理装置によって実行される方法によって生成された複数のビデオのビットストリームを記憶する非一時的なコンピュータ読み取り可能な記録媒体であって、前記方法は、前記ビットストリームと前記複数のビデオのメディアファイルとの間の転換を実行するステップを含み、ここで、前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される、非一時的なコンピュータ読み取り可能な記録媒体。
【0096】
条項22.複数のビデオのビットストリームを記憶する方法であって、
前記ビットストリームと前記複数のビデオのメディアファイルとの間の転換を実行するステップと、前記ビットストリームを非一時的なコンピュータ読み取り可能な記録媒体に記憶するステップとを含み、ここで、前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される、方法。
【0097】
条項23.ビデオ処理装置によって実行される方法によって生成された複数のビデオのメディアファイルを記憶する非一時的なコンピュータ読み取り可能な記録媒体であって、前記方法は、前記複数のビデオのビットストリームと前記メディアファイルとの間の転換を実行するステップを含み、ここで、前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される、非一時的なコンピュータ読み取り可能な記録媒体。
【0098】
条項24.複数のビデオのメディアファイルを記憶する方法であって、前記複数のビデオのビットストリームと、前記メディアファイルとの間の転換を実行するステップと、前記メディアファイルを非一時的なコンピュータ読み取り可能な記録媒体に記憶するステップとを含み、ここで、前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される、方法。
【0099】
例示的なデバイス
図5は、本開示の様々な実施形態を具現できるコンピューティングデバイス500のブロック図を示す。コンピューティングデバイス500は、ソースデバイス110(或いは、ビデオエンコーダ114又は200)又は宛先デバイス120(或いは、ビデオデコーダ124又は300)として具現されるか、又はそれに含まれ得る。
【0100】
図5に示されるコンピューティングデバイス500は、単に解説を目的としたものであり、本開示の実施形態の機能及び範囲をいかなる形でも制限することを示唆するものではないことが理解されるだろう。
【0101】
図5に示すように、コンピューティングデバイス500は、汎用コンピューティングデバイス500を含む。コンピューティングデバイス500は、少なくとも1つ又は複数のプロセッサ又は処理ユニット510と、メモリ520と、記憶ユニット530と、1つ又は複数の通信ユニット540と、1つ又は複数の入力デバイス550と、1つ又は複数の出力デバイス560とを含み得る。
【0102】
いくつかの実施形態では、コンピューティングデバイス500は、コンピューティング能力を有する任意のユーザ端末又はサーバ端末として具現され得る。前記サーバ端末は、サービスプロバイダが提供するサーバや大規模コンピューティングデバイスなどであり得る。前記ユーザ端末は、例えば、携帯電話、ステーション、ユニット、デバイス、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナルコミュニケーションシステム(PCS)デバイス、パーソナルナビゲーションデバイス、携帯情報端末(PDA)、オーディオ/ビデオプレーヤー、デジタルカメラ/ビデオカメラ、測位デバイス、テレビ受信機、ラジオ放送受信機、電子ブックデバイス、ゲームデバイス、又はそれらの任意の組み合わせ(これらのデバイスのアクセサリ及び周辺機器、又はそれらの任意の組み合わせを含む)を含む、任意のタイプの移動端末、固定端末、又は携帯端末であり得る。コンピューティングデバイス500は、ユーザに対する任意のタイプのインターフェース(「ウェアラブル」回路など)をサポートできることが考えられる。
【0103】
処理ユニット510は、物理又は仮想プロセッサであり得、メモリ520に記憶されたプログラムに基づいて様々なプロセスを具現することができる。マルチプロセッサシステムでは、コンピューティングデバイス500の並列処理能力を向上させるために、複数の処理ユニットがコンピュータ実行可能命令を並列に実行する。処理ユニット510は、中央処理ユニット(CPU)、マイクロプロセッサ、コントローラ又はマイクロコントローラと呼ばれても良い。
【0104】
コンピューティングデバイス500は、通常、様々なコンピュータ記憶媒体を含む。このような媒体は、揮発性及び不揮発性媒体、又は取り外し可能及び取り外し不可能な媒体を含むがこれらに限定されない、コンピューティングデバイス500によってアクセス可能な任意の媒体であり得る。メモリ520は、揮発性メモリ(例えば、レジスタ、キャッシュ、ランダムアクセスメモリ(RAM))、不揮発性メモリ(例えば、読み取り専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、フラッシュメモリ)、又はそれらの任意の組み合わせであり得る。記憶ユニット530は、任意の取り外し可能又は取り外し不可能な媒体であり得、情報及び/又はデータを記憶するために使用でき、コンピューティングデバイス500でアクセスできる、メモリ、フラッシュメモリドライブ、磁気ディスク又は別の他の媒体などの機械読み取り可能な媒体を含み得る。
【0105】
コンピューティングデバイス500は、追加の取り外し可能/取り外し不可能、揮発性/不揮発性メモリ媒体をさらに含み得る。なお、
図5には示していないが、着脱可能な不揮発性磁気ディスクの読み書きを行う磁気ディスクドライブや、着脱可能な不揮発性光ディスクの読み書きを行う光ディスクドライブを提供することが可能である。このような場合、各ドライブは、1つ又は複数のデータ媒体インターフェースを介してバス(図示せず)に接続され得る。
【0106】
通信ユニット540は、通信媒体を介してさらなるコンピューティングデバイスと通信する。その上、コンピューティングデバイス500内のコンポーネントの機能は、通信接続を介して通信できる単一のコンピューティングクラスタ又は複数のコンピューティングマシンによって具現され得る。したがって、コンピューティングデバイス500は、1つ又は複数の他のサーバ、ネットワーク化されたパーソナルコンピュータ(PC)、又はさらなる一般的なネットワークノードとの論理接続を使用して、ネットワーク化された環境で動作することができる。
【0107】
入力デバイス550は、マウス、キーボード、トラッキングボール、音声入力デバイスなどの様々な入力デバイスのうちの1つ又は複数であり得る。出力デバイス560は、ディスプレイ、ラウドスピーカ、プリンタなどの様々な出力デバイスのうちの1つ又は複数であり得る。通信ユニット540によって、コンピューティングデバイス500は、記憶デバイス及び表示デバイスなどの1つ又は複数の外部デバイス(図示せず)とさらに通信することができ、1つ又は複数のデバイスにより、ユーザがコンピューティングデバイス500と対話可能にするか、又は、必要に応じて、任意のデバイス(ネットワークカード、モデムなど)により、コンピューティングデバイス500が1つ又は複数の他のコンピューティングデバイスと通信可能にする。このような通信は、入力/出力(I/O)インターフェイス(図示せず)を介して実行され得る。
【0108】
いくつかの実施形態では、単一のデバイスに統合される代わりに、コンピューティングデバイス500のいくつかの又は全てのコンポーネントがクラウドコンピューティングアーキテクチャに配置され得る。クラウドコンピューティングアーキテクチャでは、コンポーネントは遠隔的に提供され、連携して本開示で説明される機能を実施し得る。いくつかの実施形態では、クラウドコンピューティングは、コンピューティング、ソフトウェア、データアクセス及びストレージサービスを提供し、これらのサービスを提供するシステム又はハードウェアの物理的な位置又は構成をエンドユーザが認識する必要はない。様々な実施形態において、クラウドコンピューティングは、適切なプロトコルを使用して広域ネットワーク(インターネットなど)を介してサービスを提供する。例えば、クラウドコンピューティングプロバイダーは、Webブラウザ又はその他のコンピューティングコンポーネントを通じてアクセスできる広域ネットワーク経由でアプリケーションを提供する。クラウドコンピューティングアーキテクチャのソフトウェア又はコンポーネント及び対応するデータは、遠隔地にあるサーバに保存され得る。クラウドコンピューティング環境におけるコンピューティングリソースは、リモートデータセンターの場所に併合又は分散され得る。クラウドコンピューティングインフラストラクチャは、ユーザにとって単一のアクセスポイントとして動作するが、共有データセンターを通じてサービスを提供し得る。したがって、クラウドコンピューティングアーキテクチャを使用して、本明細書で説明されるコンポーネント及び機能を遠隔地にあるサービスプロバイダから提供し得る。代替的に、それらは従来のサーバから提供されるか、又はクライアントデバイスに直接又はその他の方法でインストールされ得る。
【0109】
コンピューティングデバイス500は、本開示の実施形態においてビデオエンコーディング/デコーディングを具現するために使用され得る。メモリ520は、1つ又は複数のプログラム命令を有する1つ又は複数のビデオ処理モジュール525を含み得る。これらのモジュールは、本明細書で説明される様々な実施形態の機能を実行するように、処理ユニット510によってアクセス可能かつ実行可能である。
【0110】
ビデオエンコーディングを実行する例示的な実施形態では、入力デバイス550は、エンコードされるビデオデータを入力570として受信し得る。ビデオデータは、例えば、ビデオ処理モジュール525によって処理されて、エンコードされたビットストリームを生成し得る。エンコードされたビットストリームは、出力デバイス560を介して出力580として提供され得る。
【0111】
ビデオデコーディングを実行する例示的な実施形態では、入力デバイス550は、エンコードされたビットストリームを入力570として受信し得る。エンコードされたビットストリームは、例えば、ビデオ処理モジュール525によって処理されて、デコードされたビデオデータを生成し得る。デコードされたビデオデータは、出力デバイス560を介して出力580として提供され得る。
【0112】
本開示は、その好ましい実施形態を参照して特に図示及び説明されたが、添付の特許請求の範囲によって定義される本出願の精神及び範囲から逸脱することなく、形態及び詳細における様々な変更を行うことができることが当業者には理解されるであろう。このような変形は、本出願の範囲に含まれるものとする。したがって、本出願の実施形態に関する前述の説明は限定することを意図したものではない。
【手続補正書】
【提出日】2024-09-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ビデオ処理方法であって、
複数のビデオのビットストリームと前記複数のビデオのメディアファイルとの間の転換を実行するステップ、を含み、
前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、
前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、
前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される、
方法。
【請求項2】
前記第1の指示は前記第1のトラックの第1のデータ構造に含まれ、
前記第1のデータ構造は、前記第1のトラックの特性を指定し、
前記第2の指示は前記第2のトラックの第2のデータ構造に含まれ、
前記第2のデータ構造は、前記第2のトラックの特性を指定する、
請求項1に記載の方法。
【請求項3】
前記第1のデータ構造及び前記第2のデータ構造のそれぞれは、トラックヘッダーボックスであり、
前記第1の指示及び前記第2の指示のそれぞれは、マトリックスフィールドである、
請求項2に記載の方法。
【請求項4】
前記第2のビデオのサイズは、前記第1のビデオのサイズよりも小さい、
請求項
1に記載の方法。
【請求項5】
前記ターゲット領域は、ウィンドウである、
請求項
1に記載の方法。
【請求項6】
前記第2のトラックは、前記第1のトラックよりも、前記メディアファイルのプレゼンテーションの視聴者に近い、
請求項
1に記載の方法。
【請求項7】
前記第2のビデオは、前記第1のビデオの前に置かれる、
請求項
1に記載の方法。
【請求項8】
前記第2のトラックにおける第3の指示の値は、前記第1のトラックにおける第4の指示の値よりも小さく、
前記第3の指示は、前記第2のトラックの前から後ろへの順序を示し、
前記第4の指示は、前記第1のトラックの前から後ろへの順序を示す、
請求項
1に記載の方法。
【請求項9】
前記第3の指示は、前記第2のトラックの第2のデータ構造に含まれ、
前記第2のデータ構造は、前記第2のトラックの特性を指定し、
前記第4の指示は、前記第1のトラックの第1のデータ構造に含まれ、
前記第1のデータ構造は、前記第1のトラックの特性を指定する、
請求項8に記載の方法。
【請求項10】
前記第1のデータ構造及び前記第2のデータ構造のそれぞれは、トラックヘッダーボックスであり、
前記第3の指示及び前記第4の指示のそれぞれは、レイヤーフィールドである、
請求項9に記載の方法。
【請求項11】
前記第1のビデオは、メインビデオであり、
前記第2のビデオは、ピクチャインピクチャ(PiP)ビデオである、
請求項
1に記載の方法。
【請求項12】
前記メディアファイルは、国際標準化機構(ISO)ベースのメディアファイルフォーマットである、
請求項
1に記載の方法。
【請求項13】
前記転換は、前記メディアファイルを生成し、前記ビットストリームを前記メディアファイルに記憶すること、を含む、
請求項
1に記載の方法。
【請求項14】
前記転換は、前記メディアファイルを解析して、前記ビットストリームを再構築すること、を含む、
請求項
1に記載の方法。
【請求項15】
プロセッサと、命令が記憶される非一時的なメモリとを含む、ビデオデータを処理する装置であって、
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、請求項1から
14のいずれか一項に記載の方法を実行させる、
装置。
【請求項16】
プロセッサに、請求項1から
14のいずれか一項に記載の方法を実行させる命令を記憶する、非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項17】
複数のビデオのメディアファイルを記憶する方法であって、
前記複数のビデオのビットストリームと、前記メディアファイルとの間の転換を実行するステップと、
前記メディアファイルを、非一時的なコンピュータ読み取り可能な記録媒体に記憶するステップと、を含み、
前記複数のビデオは、第1のビデオと、前記第1のビデオとは異なる第2のビデオとを含み、
前記メディアファイルは、前記第1のビデオのビットストリームについての第1のトラックと、前記第2のビデオのビットストリームについての第2のトラックとを含み、
前記第2のビデオをオーバーレイするための前記第1のビデオ内のターゲット領域は、前記第1のトラックにおける第1の指示及び前記第2のトラックにおける第2の指示の値によって示される、
方法。
【国際調査報告】