IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

特表2023-527966可変フレームレートビデオのためのピクチャメタデータ
<>
  • 特表-可変フレームレートビデオのためのピクチャメタデータ 図1
  • 特表-可変フレームレートビデオのためのピクチャメタデータ 図2A
  • 特表-可変フレームレートビデオのためのピクチャメタデータ 図2B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-07-03
(54)【発明の名称】可変フレームレートビデオのためのピクチャメタデータ
(51)【国際特許分類】
   H04N 19/70 20140101AFI20230626BHJP
   H04N 19/132 20140101ALI20230626BHJP
   H04N 19/172 20140101ALI20230626BHJP
【FI】
H04N19/70
H04N19/132
H04N19/172
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022571226
(86)(22)【出願日】2021-05-26
(85)【翻訳文提出日】2022-11-21
(86)【国際出願番号】 US2021034275
(87)【国際公開番号】W WO2021242873
(87)【国際公開日】2021-12-02
(31)【優先権主張番号】20176416.4
(32)【優先日】2020-05-26
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】63/029,776
(32)【優先日】2020-05-26
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Blu-ray
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】アトキンズ,ロビン
(72)【発明者】
【氏名】ゴディン,イアン
(72)【発明者】
【氏名】イン,プオン
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159KK56
5C159PP04
5C159PP05
5C159RC04
5C159RC12
5C159TA07
5C159TB04
5C159TC11
5C159UA02
5C159UA05
(57)【要約】
可変フレームレート(VFR)ビデオ再生のためのメタデータおよび方法が提示される。提案されるメタデータは、プレゼンテーション持続時間、ピクチャソースタイプ(例えば、オリジナル、複製、または補間)、シーン内のピクチャ位置(例えば、最初、最後、または中間)、および前のピクチャに対する動き関連情報に関連するシンタックスパラメータを含む。デコーダは、これらのメタデータを使用して、適切なフレームレート変換技法を適用し、VFR再生中のアーチファクトを低減することができる。
【特許請求の範囲】
【請求項1】
可変フレームレートでビデオストリームを再生する方法であって、前記方法は、プロセッサによって実行され、
ビデオピクチャとメタデータとを含む前記ビデオストリームを受信することと、ここで、前記メタデータは、可変フレームレートで前記ビデオピクチャを表示することを可能にするためのシンタックスパラメータを含み、前記シンタックスパラメータは、picture-timing-presentフラグと、picture-source-typeフラグと、picture-position-typeフラグとを含み、
前記メタデータ中の前記シンタックスパラメータにしたがって前記ビデオピクチャを表示することと、
を含み、前記ビデオピクチャの中の現在のピクチャについて、
前記picture-timing-presentフラグが1に設定されていることを検出した場合、
前記メタデータ中のピクチャプレゼンテーション時間パラメータに基づいて、前記現在のピクチャについてのディスプレイでのプレゼンテーションの時間情報を生成し、
前記picture-source-typeフラグが1に設定されていることを検出した場合、
前記メタデータ中のピクチャソースパラメータに基づいて、前記現在のピクチャについてのピクチャソース情報を生成し、
前記picture-position-typeフラグが1に設定されていることを検出した場合、
前記メタデータ中の1つまたは複数のピクチャ位置パラメータに基づいて、前記現在のピクチャについてのピクチャ位置情報を生成する
方法。
【請求項2】
前記シンタックスパラメータは、picture-motion-information-presentフラグをさらに含み、
前記picture-motion-information-presentフラグが1に設定されていることを検出した場合、
前記メタデータ中の1つまたは複数のpicture-motion-relatedパラメータに基づいて、前記現在のピクチャについての動き統計を生成する、
請求項1に記載の方法。
【請求項3】
前記1つまたは複数のpicture-motion-relatedパラメータは、前記現在のピクチャと前記現在のピクチャに表示順序で先行するピクチャとの変位の平均および標準偏差を示す動き平均値および動き標準偏差値を含む、請求項2に記載の方法。
【請求項4】
前記ピクチャソースパラメータは、前記現在のピクチャが、オリジナルのピクチャを含むか、複製ピクチャを含むか、補間ピクチャを含むかを示す、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記1つまたは複数のピクチャ位置パラメータは、ピクチャグループにおける前記現在のピクチャの位置を含み、前記位置は、未知であるか、前記ピクチャグループの中で最初であるか、前記ピクチャグループの中で最後であるか、または前記ピクチャグループ中の他のピクチャの間にあり得る、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記1つまたは複数のピクチャ位置パラメータは、前記現在のピクチャに関連する動きを有する、前記現在のピクチャに表示順序で先行するピクチャの第1の数を示す第1のフィールドと、前記現在のピクチャに関連する動きを有する、前記現在のピクチャに表示順序で後続するピクチャの第2の数を示す第2のフィールドとを含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記第1のフィールドおよび前記第2のフィールドは、0とNとの間の正の整数を含み、Nは、2以上7以下である、請求項6に記載の方法。
【請求項8】
符号化ビデオストリーム構造を記憶した非一時的プロセッサ可読媒体であって、前記符号化ビデオストリーム構造は、
ビデオピクチャのシーケンスの符号化を含む符号化ピクチャセクションと、
可変フレームレートで前記ビデオピクチャのシーケンスを表示することを可能にするためのシンタックスパラメータを含むメタデータの符号化を含むシグナリングセクションと
を含み、ここで、前記シンタックスパラメータは、picture-timing-presentフラグと、picture-source-typeフラグと、picture-position-typeフラグとを含み、
前記ビデオピクチャのシーケンスの中の現在のピクチャについて、
前記picture-timing-presentフラグが1に設定されている場合、
前記メタデータ中にピクチャプレゼンテーション時間パラメータを含め、
前記picture-source-typeフラグが1に設定されている場合、
前記メタデータ中にピクチャソースパラメータを含め、
前記picture-position-typeフラグが1に設定されている場合、
前記メタデータ中に1つまたは複数のピクチャ位置パラメータを含める、
非一時的プロセッサ可読媒体。
【請求項9】
前記シンタックスパラメータは、picture-motion-information-presentフラグをさらに含み、
前記picture-motion-information-presentフラグが1に設定されている場合、
前記メタデータ中に1つまたは複数のpicture-motion-relatedパラメータを含める、
請求項8に記載の非一時的プロセッサ可読媒体。
【請求項10】
前記ピクチャソースパラメータは、前記現在のピクチャが、オリジナルのピクチャを含むか、複製ピクチャを含むか、補間ピクチャを含むかを示す、請求項8または9に記載の非一時的プロセッサ可読媒体。
【請求項11】
前記1つまたは複数のピクチャ位置パラメータは、ピクチャグループにおける前記現在のピクチャの位置を含み、前記位置は、未知であるか、前記ピクチャグループの中で最初であるか、前記ピクチャグループの中で最後であるか、または前記ピクチャグループ中の他のピクチャの間にあり得る、請求項8から10のいずれか一項に記載の非一時的プロセッサ可読媒体。
【請求項12】
前記1つまたは複数のピクチャ位置パラメータは、前記現在のピクチャに関連する動きを有する、前記現在のピクチャに表示順序で先行するピクチャの第1の数を示す第1のフィールドと、前記現在のピクチャに関連する動きを有する、前記現在のピクチャに表示順序で後続するピクチャの第2の数を示す第2のフィールドとを含む、請求項8から11のいずれか一項に記載の非一時的プロセッサ可読媒体。
【請求項13】
前記第1のフィールドおよび前記第2のフィールドは、0とNとの間の正の整数を含み、Nは、2以上7以下である、請求項12に記載の非一時的プロセッサ可読媒体。
【請求項14】
プロセッサを備え、請求項1から7に記載の方法のいずれか1つを実行するように構成された装置。
【請求項15】
請求項1から7のいずれか一項に記載の方法を1つまたは複数のプロセッサで実行するためのコンピュータ実行可能命令を記憶した非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、参照により本明細書に組み込まれる、2020年5月26日に出願された米国仮特許出願第63/029,776号、および2020年5月26日に出願された欧州特許出願第20176416.4号からの優先権の利益を主張する。
【0002】
[技術分野]
本発明は、一般に画像に関する。より詳細には、本発明の一実施形態は、可変フレームレートビデオシーケンスの再生に使用されるメタデータに関する。
【背景技術】
【0003】
従来のビデオシーケンスまたはビットストリームは、各々が固定の持続時間の間表示されるように意図されたフレームまたはピクチャのシーケンスを含んでいる。例えば、30フレーム/秒(fps)では、各画像は1/30秒間表示される。そのようなビットストリームは、「標準フレームレート」(SFR)または固定フレームレートビデオとして示され得る。
【0004】
新しいタイプのビデオビットストリームは、各個々のピクチャが、ピクチャごとに異なる可変時間の間表示されることを可能にし得る。そのようなビットストリームは、「可変フレームレート」ビデオとして示される。
【0005】
本明細書で使用される場合、「メタデータ」という用語は、コード化ビットストリームまたはシーケンスの一部として送信され、デコーダが復号画像をレンダリングするのを支援する任意の補助情報を指す。そのようなメタデータは、本明細書で説明されているような、色空間または色域情報、参照ディスプレイパラメータ、および補助信号パラメータを含み得るが、それらに限定されない。
【0006】
既存のおよび将来の表示方式を改善するために、本明細書の発明者らによって理解されるように、可変フレームレートビデオのためのメタデータを生成および使用するための改善された技法が必要とされる。
【0007】
このセクションで説明される手法は、追求され得る手法であるが、必ずしも以前に考案または追求された手法ではない。したがって、別段の指示がない限り、このセクションで説明されるいずれの手法も、単にこのセクションに含まれるという理由で先行技術とみなされると仮定されるべきではない。同様に、1つまたは複数の手法に関して特定された問題は、別途示されない限り、このセクションに基づいて任意の先行技術において認識されていると仮定されるべきではない。
【図面の簡単な説明】
【0008】
本発明の実施形態は、添付の図面の図において、限定としてではなく例として示され、同様の参照番号は同様の要素を指す。
図1】ビデオ配信パイプラインのための例示的なプロセスを示す。
図2A】本発明の一実施形態による、可変フレームレートビデオのためのメタデータを適用するための例示的なプロセスフローを示す。
図2B】本発明の一実施形態による、可変フレームレートビデオのためのメタデータを適用するための例示的なプロセスフローを示す。
【発明を実施するための形態】
【0009】
可変フレームレートビットストリームのための方法およびメタデータについて説明する。以下の説明では、説明の目的で、本発明の完全な理解を与えるために多数の具体的な詳細が記載される。しかしながら、本発明がこれらの具体的な詳細なしに実施され得ることは明らかであろう。他の事例では、本発明を不必要に隠蔽すること、不明瞭にすること、または難解にすることを回避するために、周知の構造およびデバイスは、徹底的に詳細には説明されない。
【0010】
[発明の概要]
本明細書で説明される例示的な実施形態は、可変フレームレートビデオのための方法およびメタデータに関する。デコーダにおいて、プロセッサは、ビデオピクチャのシーケンスおよびメタデータを受信し、ここで、メタデータは、可変フレームレートでビデオピクチャを表示することを可能にするためのシンタックスパラメータを含み、シンタックスパラメータは、picture-timing-presentフラグと、picture-source-typeフラグと、picture-position-typeフラグとを含む。プロセッサは、メタデータ中のシンタックスパラメータにしたがってビデオピクチャを表示し、ビデオピクチャの中の現在のピクチャについて、
picture-timing-presentフラグが1に設定されていることを検出した場合、
メタデータ中のピクチャプレゼンテーション時間パラメータに基づいて、現在のピクチャについてのディスプレイでのプレゼンテーションの時間情報を生成し、
picture-source-typeフラグが1に設定されていることを検出した場合、
メタデータ中のピクチャソースパラメータに基づいて、現在のピクチャについてのピクチャソース情報を生成し、
picture-position-typeフラグが1に設定されていることを検出した場合、
メタデータ中の1つまたは複数のピクチャ位置パラメータに基づいて、現在のピクチャについてのピクチャ位置情報を生成する。
【0011】
別の実施形態では、符号化ビデオストリーム構造を記憶した非一時的プロセッサ可読媒体において、符号化ビデオストリーム構造は:
ビデオピクチャのシーケンスの符号化を含む符号化ピクチャセクションと、
可変フレームレートでビデオピクチャのシーケンスを表示することを可能にするためのシンタックスパラメータを含むメタデータの符号化を含むシグナリングセクションと
を含み、シンタックスパラメータは、picture-timing-presentフラグと、picture-source-typeフラグと、picture-position-typeフラグとを含み、
ビデオピクチャのシーケンスの中の現在のピクチャについて、
picture-timing-presentフラグが1に設定されている場合、
メタデータ中にピクチャプレゼンテーション時間パラメータを含め、
picture-source-typeフラグが1に設定されている場合、
メタデータ中にピクチャソースパラメータを含め、
picture-position-typeフラグが1に設定されている場合、
メタデータ中に1つまたは複数のピクチャ位置パラメータを含める。
【0012】
可変フレームレートビデオのためのメタデータ
信号のビデオコーディング
図1は、ビデオキャプチャからビデオコンテンツ表示までの様々な段階を示す従来のビデオ配信パイプライン(100)の例示的なプロセスを示す。ビデオフレームのシーケンス(102)は、画像生成ブロック(105)を使用してキャプチャまたは生成される。ビデオフレーム(102)は、ビデオデータ(107)を提供するために、(例えば、デジタルカメラによって)デジタルにキャプチャされ得るか、または(例えば、コンピュータアニメーションを使用して)コンピュータによって生成され得る。代替的に、ビデオフレーム(102)は、フィルムカメラによってフィルム上にキャプチャされてもよい。フィルムは、デジタルフォーマットに変換され、ビデオデータ(107)が提供される。プロダクション段階(110)では、ビデオデータ(107)が編集されてビデオプロダクションストリーム(112)が提供される。
【0013】
次いで、プロダクションストリーム(112)のビデオデータは、ポストプロダクション編集のためにブロック(115)においてプロセッサに提供される。ブロック(115)のポストプロダクション編集は、ビデオ制作者の制作意図にしたがって、画質を向上させるためにまたは画像の特定の外観を達成するために、画像の特定のエリアの色または明るさを調整または修正することを含み得る。これは、「カラータイミング」または「カラーグレーディング」と呼ばれることもある。フレーム/ピクチャレートのリサンプリングも含まれ得る。他の編集(例えば、シーン選択およびシーケンシング、画像クロッピング、コンピュータにより生成される視覚的な特殊効果の追加、可変フレームレートシーケンシングなど)がブロック(115)において行われ得、配布のためのプロダクションの最終バージョン(117)を生成し得る。ポストプロダクション編集(115)の間、参照ディスプレイ(125)でビデオ画像を見ることができる。
【0014】
ポストプロダクション(115)に続いて、最終プロダクション(117)のビデオデータは、テレビジョンセット、セットトップボックス、映画館などの復号および再生デバイスへと下流に配信するために、符号化ブロック(120)に提供され得る。いくつかの実施形態では、コーディングブロック(120)は、コード化ビットストリーム(122)を生成するために、ATSC、DVB、DVD、Blu-Ray、および他の配信フォーマットによって定義されたものなどのオーディオおよびビデオエンコーダを含み得る。受信機において、コード化ビットストリーム(122)は、復号ユニット(130)によって復号され、信号(117)と同一のまたは近似する復号された信号(132)が生成される。受信機は、参照ディスプレイ(125)とは完全に異なる特性を有し得るターゲットディスプレイ(140)に取り付けられ得る。その場合、ディスプレイ管理ブロック(135)は、ディスプレイマッピングされた信号(137)を生成することによって、復号された信号(132)のダイナミックレンジまたはフレームレートをターゲットディスプレイ(140)の特性にマッピングするために使用され得る。
【0015】
可変フレームレート(VFR)ビットストリームは、ビデオエコシステムにおいて、以下を含むいくつかの新たな課題をもたらす。
1)コンテンツ作成中、一部のコンテンツは、より滑らかに見えるビデオを作成するために、低フレームレートからより高いフレームレートにアップサンプリングされ得る。これを行うための一般的な技法は、動き推定アルゴリズムおよび動き補償アルゴリズムを使用して、オリジナルのフレーム間に新しいフレームを補間することを含む。補間されたフレームは、動きのある状態で見たときには好ましくないものではないが、静止画で見たときには好ましくないものとなり得る画像アーチファクトを含む可能性がある。
2)VFRコンテンツ作成中、一部のフレームは複数回繰り返され得る。例えば、1/24秒間表示されることが意図されたオリジナルのフレームは、各フレームが1/120秒間表示されることを意図して、5回複製され得る。結果として得られる5つのフレームは、スクリーン上に表示されたとき、同じ画像を作り出すはずである。
3)VFR再生またはコンテンツ作成中、VFRコンテンツを異なるフレームレートの他のコンテンツと組み合わせる必要がある場合がある。これには、VFRビデオを異なるフレームレートにリサンプリングする必要がある。例示的な実施形態は、これらすべての問題に対処し、VFRビデオシーケンスの表示を改善するメタデータおよび復号処理を説明する。
【0016】
一実施形態では、提案される新しいメタデータフィールドは、可変フレームレートコンテンツの符号化、処理、および再生を改善することが意図される。そのようなフレームレート変換メタデータは、シーケンス全体において、シーンレベルにおいて、またはピクチャレベルにおいて適合され得る。これらのフレームレート変換メタデータは、伝送フレームレートではなく、視聴可能フレームレートを参照する。このフレームレートメタデータは、ポストプロダクション段階(115)中にコンテンツプロデューサによって(例えば、手動で、またはコンピュータベースのツールと人間の対話との組合せによって)選択されてもよいし、ポストプロダクション中に、もしくは符号化段階(120)の一環として、シーン特性に基づいて自動的に導出されてもよい。
【0017】
メタデータの説明
【0018】
ピクチャ時間(Picture Time)
このパラメータは、フレーム(またはピクチャ)が表示されることが意図される持続時間を示し得る。一実施形態では、これは、MPEG「プレゼンテーション時間」SEIメッセージの複製とすることができる。代替的な機構も、後に提示される。
【0019】
ピクチャソース(Picture Source)
このパラメータは、ピクチャのソースタイプを示す。例えば、限定するものではないが、一実施形態では、0はオリジナルのピクチャを示し得、1は複製ピクチャを示し得、2は補間ピクチャを示し得る。限定ではなく例として、このパラメータは、以下の目的のために使用され得る:
1)エンコーダは、ピクチャソースを使用して、瞬時復号リフレッシュ(IDR)ピクチャまたはクリアランダムアクセス(CRA)ピクチャを含む適切なイントラランダムアクセスポイントIRAPピクチャを決定するのを助ける。画像アーチファクトを含み得る補間ピクチャの使用を回避するために、一実施形態では、ピクチャソースが0に等しいピクチャのみがIRAPピクチャとして使用されるべきである。
2)エンコーダは、ピクチャソースを使用して、どの画像を復号ピクチャバッファに記憶すべきか、またはどれを符号化する必要があるかを決定するのを助ける。複製ピクチャは圧縮プロセスに付加情報を追加しないので、複製ピクチャにメモリを割り当てる必要はない。代わりに、メモリは、圧縮性能を改善するために、オリジナルのピクチャおよび補間ピクチャに使用され得る。
3)再生デバイスは、ピクチャソースを使用して、補間ピクチャまたは複製ピクチャでの休止を防ぐ。これにより、画像アーチファクトを含み得る補間ピクチャで視聴者が休止しないようにする。これは、コンテンツ作成中と再生中の両方で使用され得る。
4)再生時の画像処理は、ピクチャソースを使用して、同じピクチャの二重の追加処理を防ぎ、その代わりに、前のピクチャを繰り返して電力を節約する。
5)再生時のフレームレート変換アルゴリズムは、リサンプリングアルゴリズムを適用するときにピクチャソース情報を使用することができる。ピクチャレート変換アルゴリズムを適用するとき、複製ピクチャまたは補間ピクチャは無視することができる。
【0020】
ピクチャ位置(Picture Position)
このパラメータは、シーンまたはピクチャグループにおけるピクチャの位置を示す。例えば、2ビットフィールドを使用する場合、次のようにその値を割り当てることができる:0=未知/未指定、1=最初のピクチャ、2=中間のピクチャ、3=最後のピクチャ。このパラメータは、動きリサンプリングをガイドするために使用され得る。ピクチャがシーンの最初のピクチャである場合、動き推定アルゴリズムは、動きを推定するときに前のピクチャを無視する。最後のピクチャである場合、動き推定アルゴリズムは、後のピクチャを無視する。中間のピクチャである場合、動き推定アルゴリズムは、動きを推定するために前のピクチャと後のピクチャの両方を使用することができる。前のピクチャと後のピクチャのピクチャ位置を反復的に比較することによって、動き推定アルゴリズムは、動き補間に使用するための有効なピクチャのウィンドウを確立することができる。ピクチャ位置が未知または未指定である場合、動き推定アルゴリズムは、シーンカットを推測しようと試みるか、または単にすべての隣接ピクチャを使用することができる。
【0021】
動き平均および動き標準偏差(Motion Mean and Motion Standard Deviation)
パラメータは、前のピクチャを基準とした画像全体の平均および標準偏差変位を示す。例として、一実施形態では、動き平均は、(1-mean(motion))*255として整数形式で表され得、動き標準偏差は、(1-std_dev(motion))*255として表され得、ここで、関数mean(motion)およびstd_dev(motion)は、非整数表現で動きの平均および標準偏差を計算し、[0,1]で正規化される。
【0022】
一実施形態では、これらのパラメータは、ピクチャレートリサンプリング中に使用され得、ここで、動き平均値および動き標準偏差値は、一般にフレームレート変換(FRC)と呼ばれるピクチャレート変換アルゴリズムを選択するために使用され得る。例えば、平均動きは高いが標準偏差は低いピクチャは、動きがカメラパンによって支配されていることを示す。その場合、最適なピクチャレートリサンプリングアルゴリズムは、画像全体の全変位を計算することに基づき得る。代替的に、平均動きは低いが標準偏差は高いピクチャは、動きが画像内で動くオブジェクトによって支配されることを示す。その場合、最適なピクチャレートリサンプリングアルゴリズムは、補間なしにピクチャを複製することであり得る。
【0023】
動き統計は、平均および標準偏差に限定されないであろう。他の実施形態では、尖度、歪度、またはヒストグラム分布などのより高次の他の統計も使用することができる。動き特性はまた、ランダム、パン、ズームなどの動きのタイプに関する情報を含むことができる。動き統計はまた、より良好な時間的一貫性を提供するために、ピクチャグループまたは1つのシーンなど、2つ以上のピクチャについて示され得る。動き統計を計算する様々な手段がある。一実施形態では、動きは、ブロックベースの動き推定を使用して計算される。
【0024】
例えば、以下が考えられ得る:
・ フレームを重複しないブロックに細分する。
・ 前のフレームに対する各ブロックの動きベクトルmv[i]=(xi,yi)を計算する。
・ 各動きベクトルの大きさを計算し、例えば、
【数1】
・ 次いで、r[i]値の平均および標準偏差を計算する。
【0025】
「オプティカルフロー」およびフレームレート変換技法を計算する際に使用されるものとして、当技術分野で知られている代替方法の例は、参考文献[1~3]に記載されている。
【0026】
一実施形態では、振幅値(例えば、r[i])のみを使用することに加えて、動きの方向も使用することができ、動き振幅統計とは別個にシグナリングされ得る。別の実施形態では、カメラの動きとオブジェクトの動きとを分離することができる。上述した動き統計は、オブジェクトの動き(またはローカルな動き)を計算する。メタデータでは、カメラの動き(一般にグローバル動きと呼ばれる)も、ローカル動き統計に加えて、明示的にシグナリングされ得る。別の実施形態では、別個の背景および前景の動きならびに動き統計が、背景および前景オブジェクトについて、シグナリングされることができる。
【0027】
ピクチャまたはフレームが圧縮中に(例えば、I、P、またはBフレームとして)特徴付けられる方法は、それらが解凍後の動き補間のためにVFRメタデータ中でマークされる方法と一致する必要はないことに留意されたい。例えば、コーデックは、2秒ごとにIフレームを挿入して、新しいピクチャグループ(GOP)のコーディングを開始し得るが、フレームレート変換における動き補間アルゴリズムの場合、それらのIフレームはシーン内の動きとは関係がないので、そのコーディング境界にわたってフレームを使用することが望まれ得る。
【0028】
一例として、表1は、MPEGビデオコーディング規格における補足エンハンスメント情報(SEI)のためのシンタックスに準拠するシンタックスを使用するVFRメタデータの一実施形態を説明する。表1中の記述子フィールドは、既存のMPEGおよびITU規格(例えば、AVC、HEVCなど)で使用されるものに準拠する。
【表1】
【0029】
セマンティクス(Semantics)
表1のピクチャレート変換ヒント情報SEIメッセージは、フレームレート変換をガイドするために、関連するピクチャのコンテンツ特性を記述する。
1に等しいpicture_timing_present_flagは、シンタックス要素picture_presentation_timeが存在することを指定する。0に等しいpicture_timing_present_flagは、シンタックス要素picture_presentation_timeが存在しないことを指定する。
1に等しいpicture_source_type_present_flagは、シンタックス要素picture_source_typeが存在することを指定する。0に等しいpicture_source_type_present_flagは、シンタックス要素picture_source_typeが存在しないことを指定する。
1に等しいpicture_position_present_flagは、シンタックス要素picture_positionが存在することを指定する。0に等しいpicture_position_present_flagは、シンタックス要素picture_positionが存在しないことを指定する。
1に等しいpicture_motion_charateristics_present_flagは、シンタックス要素motion_meanおよびmotion_standard_deviationが存在することを指定する。0に等しいpicture_position_present_flagは、シンタックス要素motion_meanおよびmotion_standard_deviationが存在しないことを指定する。
注:ピクチャ動き特性関連のシンタックスは、ピクチャ、シーン、フレームのグループなどについて存在し得る。
注:ピクチャタイミングは、AVC、HEVC、もしくはVVCにおけるピクチャタイミングSEIメッセージング、またはAVCもしくはHEVCにおける時間コードSEIメッセージングなど、様々な方法によって示すことができる。一実施形態では、提案されたピクチャプレゼンテーションタイミング(PPT)メッセージは、MPEG-2トランスポート(H.222)(参考文献[4])で使用されているプレゼンテーションタイムスタンプ(PTS)変数のシンタックスと一致する。
picture_presentation_timeは、以下のように復号時間に関連するものとする:
picture_presentation_time(PPT)は、3つの別個のフィールドにコーディングされた33ビットの数である。これは、エレメンタリストリームnのプレゼンテーション単位kのシステムターゲットデコーダにおけるプレゼンテーションの時間tpn(k)を示す。PPTの値は、システムクロック周波数の周期を300で割った値(90kHzとなる)を単位として指定される。ピクチャプレゼンテーション時間は、以下の式にしたがってPPTから導出される。
PPT(k)=((system_clock_frequency x tpn(k))/300)%233
ここで、tpn(k))は、プレゼンテーション単位Pn(k)のプレゼンテーション時間である。
0に等しいpicture_source_typeは、関連するピクチャのソースタイプがオリジナルとして解釈されるべきであることを示す。1に等しいpicture_source_typeは、関連するピクチャのソースタイプが出力順序で前のピクチャの複製として解釈されるべきであることを示す。2に等しいpicture_source_typeは、関連するピクチャのソースタイプが出力順序で前のピクチャおよび/または後のピクチャからの補間ピクチャとして解釈されるべきであることを示す。3に等しいpicture_source_typeは、関連するピクチャのソースタイプが未知または未指定であるとして解釈されるべきであることを示す。
1に等しいpicture_positionは、関連するピクチャが出力順序でシーン中の最初のピクチャであることを示す。3に等しいpicture_positionは、関連するピクチャが出力順序でシーン中の最後のピクチャであることを示す。2に等しいpicture_positionは、関連するピクチャが出力順序でシーン中の最初のピクチャと最後のピクチャとの間にあることを示す。0に等しいpicture_positionは、関連するピクチャが出力順序でCVS中の未知(または未指定の)位置にあることを示す。
motion_meanは、前のピクチャからの現在のピクチャの平均変位を示す。
motion_standard_deviationは、前のピクチャからの現在のピクチャの変位の標準偏差を示す。
【0030】
別の実施形態では、ピクチャ位置を示すために2つのフィールドを使用することができる。例えば、1つのフィールド(例えば、picture_position_before)は、関連する動きを有する前のフレームの数を示し得、他方のフィールド(例えば、picture_position_after)は、関連する動きを有する後のフレームの数を示し得る。例えば、ピクチャの場合、値は以下の通りである:
・ 1,0は、それがシーンの最後のピクチャであり、前のピクチャにのみ関連することを示す。
・ 2,0は、それがシーンの最後のピクチャであり、前のピクチャのうちの2つに関連することを示す。
・ 0,0は、それが独立フレームであることを示す。
・ 0,1は、それが最初のフレームであり、次のフレームが関連することを示す。
・ 2,3は、前後に複数の関連するフレームがあることを示す(前に2つと後に3つ)。そのような表記は、フレーム補間のためのより良好な動き情報を得るために、単一のフレームを使用するよりも複数のフレーム(例えば、2つまたは3つのフレーム)を使用するようにFRCアルゴリズムをガイドし得る。一方、このような情報は、先に述べた単一フィールドpicture_positionパラメータを使用して抽出することもできる。例えば、現在の位置が中間のフレームであり、かつ、前の位置が中間のフレームである場合、デコーダは、動き補間のために少なくとも2つの前のフレームおよび将来のフレームを使用することができることを知る。2つのフィールドを使用するには、より多くのメタデータを送る必要があるが、複数のフレームにわたって動きを追跡するためのデコーダでの計算の複雑さはより少なくて済む。
【0031】
図2Aおよび図2Bは、一実施形態による、VFRビデオにおいてメタデータを使用するための例示的なプロセスフローを提供する。図2Aに示すように、VFR関連のメタデータを有する入力ビデオビットストリームが与えられると、デコーダは、ステップ210においてメタデータを解析した後、ステップ220において、ピクチャプレゼンテーション時間に関連する情報を抽出し得る。次に、それは、残りのプレゼンテーションフラグの間で反復適用され得る。例えば、ステップ225において、ピクチャソースデータが利用可能であることを検出した場合、ステップ230に進み、ピクチャソース情報(例えば、ピクチャがオリジナルであるか、複写であるか、または補間であるか)を識別する。
【0032】
図2Bに移り、ステップ250において、ピクチャ位置情報が利用可能であることを検出した場合、ステップ255に進み、ピクチャ位置情報(例えば、最初のピクチャであるか、最後のピクチャであるか、または中間のピクチャであるか)を識別する。次に、ステップ260において、動き情報が利用可能であることを検出した場合、ステップ265において、そのような情報(例えば、動き平均および/または動き標準偏差)を抽出して、後のフレームレート変換動作を容易かつ最適化する。
【0033】
限定することなく、VFRメタデータを有するビデオ信号の例示的な実施形態は、以下を含む:一実施形態では、入力ビデオビットストリームは、コーディングされた(例えば、圧縮された)ビットストリームを含み得、VFRメタデータは、補足エンハンスメント情報(SEI)メッセージングとして配信され得る。別の実施形態では、VFRメタデータは、例えば、ピクチャパラメータセット、ピクチャヘッダなどにおいて定義されるように、そのパラメータセットの一部としてコード化ビットストリームの一部であってもよい。別の実施形態では、ビデオビットストリームは、編集アプリケーションによって使用されるべき、および/またはディスプレイに送信されるべき有形記録媒体(例えば、ディスクドライブまたはテープ)中に非圧縮ピクチャを含んでもよい。
【0034】
これらの参考文献のそれぞれは、その全体が参照により本明細書に組み込まれる。
[参考文献]
[1]米国特許出願第2019/0180454号,「Detecting motion dragging artifacts for dynamic adjustment of frame rate conversion settings」,AKA Choudhuryら,2019年6月13日。
[2]米国特許出願第2018/0082429号、「Dynamic adjustment of frame rate conversion settings」,AKA Choudhuryら,2018年3月22日。
[3]G.Luら,「A novel frame rate up conversion using iterative non-local means interpolation」、2017年IEEE International Symposium on Broadband Multimedia Systems and Broadcasting(BMSB),pp.1-5.IEEE,2017。
[4]Infrastructure of audiovisual services-Transmission multiplexing and synchronization,H.222.0,Series H,Generic coding of moving pictures and associated audio information: Systems,ITU,08/2018.
【0035】
例示的なコンピュータシステム実装形態
本発明の実施形態は、コンピュータシステム、電子回路および構成要素で構成されたシステム、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA)、または別の構成可能もしくはプログラム可能な論理デバイス(PLD)などの集積回路(IC)デバイス、離散時間もしくはデジタルシグナルプロセッサ(DSP)、特定用途向けIC(ASIC)、および/またはそのようなシステム、デバイス、もしくは構成要素のうちの1つもしくは複数を含む装置を用いて実装され得る。コンピュータおよび/またはICは、本明細書で説明されているようなVFRビデオのためのメタデータに関連する命令を実施、制御、または実行し得る。コンピュータおよび/またはICは、本明細書で説明されているVFRビデオのためのメタデータに関連する様々なパラメータまたは値のいずれかを計算し得る。画像およびビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア、およびそれらの様々な組合せで実装され得る。
【0036】
本発明の特定の実装形態は、プロセッサに本発明の方法を実行させるソフトウェア命令を実行するコンピュータプロセッサを含む。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどにおける1つまたは複数のプロセッサは、プロセッサにアクセス可能なプログラムメモリ内のソフトウェア命令を実行することによって、上で説明したようなVFRビデオのためのメタデータに関連する方法を実装し得る。本発明はまた、プログラム製品の形態で提供され得る。プログラム製品は、データプロセッサによって実行されるとデータプロセッサに本発明の方法を実行させる命令を含むコンピュータ可読信号のセットを搬送する任意の有形の非一時的媒体を含み得る。本発明によるプログラム製品は、多種多様な形態のいずれであり得る。プログラム製品は、例えば、フロッピー(登録商標)ディスク、ハードディスクドライブを含む磁気データ記憶媒体、CD ROM、DVDを含む光データ記憶媒体、ROM、フラッシュRAMを含む電子データ記憶媒体などの物理媒体を含み得る。プログラム製品上のコンピュータ可読信号は、任意選択で圧縮または暗号化され得る。
【0037】
構成要素(例えば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路など)が上記で言及される場合、別段の指示がない限り、その構成要素への言及(「手段」への言及を含む)は、説明される構成要素の機能を実行する(例えば、機能的に同等である)任意の構成要素をその構成要素の同等物として含むものとして解釈されるべきであり、本発明の図示される例示的な実施形態における機能を実行する開示される構造と構造的に同等でない構成要素を含む。
【0038】
同等物、拡張物、代替物、およびその他
このように、VFRビデオのためのメタデータに関する例示的な実施形態が説明される。前述の明細書では、本発明の実施形態は、実装形態ごとに異なり得る多数の具体的な詳細を参照して説明された。したがって、何が本発明であり、出願人が何を本発明であると意図しているかを示す唯一かつ排他的な指標は、本出願から発行される特許請求の範囲のセットであり、その後のあらゆる補正を含め、かかる特許請求の範囲が発行する特定の形態である。かかる特許請求の範囲に含まれる用語について本明細書に明示的に記載される任意の定義は、特許請求の範囲で使用されるそのような用語の意味に適用されるものとする。したがって、特許請求の範囲に明示的に記載されていない限定、要素、特性、特徴、利点または属性は、そのような請求項の範囲を決して限定すべきではない。結果として、本明細書および図面は、限定的な意味ではなく例示的な意味で考慮されるべきである。
【0039】
本発明の様々な態様は、以下の列挙された例示的な実施形態(EEE)から理解され得る。
EEE1.可変フレームレートでビデオストリームを再生する方法であって、方法は、プロセッサによって実行され、
ビデオピクチャとメタデータとを含むビデオストリームを受信することと、ここで、メタデータは、可変フレームレートでビデオピクチャを表示することを可能にするためのシンタックスパラメータを含み、シンタックスパラメータは、picture-timing-presentフラグと、picture-source-typeフラグと、picture-position-typeフラグとを含み、
メタデータ中のシンタックスパラメータにしたがってビデオピクチャを表示することと、
を含み、ビデオピクチャの中の現在のピクチャについて、
picture-timing-presentフラグが1に設定されていることを検出した場合、
メタデータ中のピクチャプレゼンテーション時間パラメータに基づいて、現在のピクチャについてのディスプレイでのプレゼンテーションの時間情報を生成し、
picture-source-typeフラグが1に設定されていることを検出した場合、
メタデータ中のピクチャソースパラメータに基づいて、現在のピクチャについてのピクチャソース情報を生成し、
picture-position-typeフラグが1に設定されていることを検出した場合、
メタデータ中の1つまたは複数のピクチャ位置パラメータに基づいて、現在のピクチャについてのピクチャ位置情報を生成する、
方法。
EEE2.シンタックスパラメータは、picture-motion-information-presentフラグをさらに含み、
picture-motion-information-presentフラグが1に設定されていることを検出した場合、
メタデータ中の1つまたは複数のpicture-motion-relatedパラメータに基づいて、現在のピクチャについての動き統計を生成する、
EEE1の方法。
EEE3.1つまたは複数のpicture-motion-relatedパラメータは、現在のピクチャと現在のピクチャに表示順序で先行するピクチャとの変位の平均および標準偏差を示す動き平均値および動き標準偏差値を含む、EEE2の方法。
EEE4.ピクチャソースパラメータは、現在のピクチャが、オリジナルのピクチャを含むか、複製ピクチャを含むか、補間ピクチャを含むかを示す、EEE1~3のいずれかの方法。
EEE5.1つまたは複数のピクチャ位置パラメータは、ピクチャグループにおける現在のピクチャの位置を含み、位置は、未知であるか、ピクチャグループの中で最初であるか、ピクチャグループの中で最後であるか、またはピクチャグループ中の他のピクチャの間にあり得る、EEE1~4のいずれかの方法。
EEE6.1つまたは複数のピクチャ位置パラメータは、現在のピクチャに関連する動きを有する、現在のピクチャに表示順序で先行するピクチャの第1の数を示す第1のフィールドと、現在のピクチャに関連する動きを有する、現在のピクチャに表示順序で後続するピクチャの第2の数を示す第2のフィールドとを含む、EEE1~5のいずれかの方法。
EEE7.第1のフィールドおよび第2のフィールドは、0とNとの間の正の整数を含み、Nは、2以上7以下である、EEE6の方法。
EEE8.符号化ビデオストリーム構造を記憶した非一時的プロセッサ可読媒体であって、符号化ビデオストリーム構造は、
ビデオピクチャのシーケンスの符号化を含む符号化ピクチャセクションと、
可変フレームレートでビデオピクチャのシーケンスを表示することを可能にするためのシンタックスパラメータを含むメタデータの符号化を含むシグナリングセクションと
を含み、シンタックスパラメータは、picture-timing-presentフラグと、picture-source-typeフラグと、picture-position-typeフラグとを含み、
ビデオピクチャのシーケンスの中の現在のピクチャについて、
picture-timing-presentフラグが1に設定されている場合、
メタデータ中にピクチャプレゼンテーション時間パラメータを含め、
picture-source-typeフラグが1に設定されている場合、
メタデータ中にピクチャソースパラメータを含め、
picture-position-typeフラグが1に設定されている場合、
メタデータ中に1つまたは複数のピクチャ位置パラメータを含める、
非一時的プロセッサ可読媒体。
EEE9.シンタックスパラメータは、picture-motion-information-presentフラグをさらに含み、
picture-motion-information-presentフラグが1に設定されている場合、
メタデータ中に1つまたは複数のpicture-motion-relatedパラメータを含める、
EEE8の非一時的プロセッサ可読媒体。
EEE10.ピクチャソースパラメータは、現在のピクチャが、オリジナルのピクチャを含むか、複製ピクチャを含むか、補間ピクチャを含むかを示す、EEE8またはEEE9の非一時的プロセッサ可読媒体。
EEE11.1つまたは複数のピクチャ位置パラメータは、ピクチャグループにおける現在のピクチャの位置を含み、位置は、未知であるか、ピクチャグループの中で最初であるか、ピクチャグループの中で最後であるか、またはピクチャグループ中の他のピクチャの間にあり得る、EEE8~10のいずれかの非一時的プロセッサ可読媒体。
EEE12.1つまたは複数のピクチャ位置パラメータは、現在のピクチャに関連する動きを有する、現在のピクチャに表示順序で先行するピクチャの第1の数を示す第1のフィールドと、現在のピクチャに関連する動きを有する、現在のピクチャに表示順序で後続するピクチャの第2の数を示す第2のフィールドとを含む、EEE8~11のいずれかの非一時的プロセッサ可読媒体。
EEE13.第1のフィールドおよび第2のフィールドは、0とNとの間の正の整数を含み、Nは、2以上7以下である、EEE12に記載の非一時的プロセッサ可読媒体。
EEE14.プロセッサを備え、EEE1~7に記載の方法のいずれか1つを実行するように構成された装置。
EEE15.EEE1~7のいずれかの方法を1つまたは複数のプロセッサで実行するためのコンピュータ実行可能命令を記憶した非一時的コンピュータ可読記憶媒体。
図1
図2A
図2B
【国際調査報告】