(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-25
(45)【発行日】2024-11-05
(54)【発明の名称】HDRコンテンツを編集するための動的メタデータの計算
(51)【国際特許分類】
H04N 21/2343 20110101AFI20241028BHJP
H04N 21/84 20110101ALI20241028BHJP
H04N 5/92 20060101ALI20241028BHJP
H04N 5/91 20060101ALI20241028BHJP
G11B 27/02 20060101ALI20241028BHJP
【FI】
H04N21/2343
H04N21/84
H04N5/92 010
H04N5/91
G11B27/02 Z
(21)【出願番号】P 2022574122
(86)(22)【出願日】2021-06-02
(86)【国際出願番号】 US2021035402
(87)【国際公開番号】W WO2021247670
(87)【国際公開日】2021-12-09
【審査請求日】2022-12-01
(32)【優先日】2020-06-03
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2020-06-03
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】アトキンズ,ロビン
【審査官】鈴木 隆夫
(56)【参考文献】
【文献】国際公開第2018/231968(WO,A1)
【文献】特表2016-514395(JP,A)
【文献】特表2021-529339(JP,A)
【文献】特表2019-537320(JP,A)
【文献】特表2016-538736(JP,A)
【文献】米国特許出願公開第2017/0124983(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00-21/858
H04N 5/91-5/956
G11B 27/02
(57)【特許請求の範囲】
【請求項1】
ビデオコンテンツを編集する方法であって、
入力ビデオデータを受信するステップと、
前記入力ビデオデータを、ダイナミックレンジに関して前記入力ビデオデータのフォーマットと異なる所定のフォーマットに変換するステップであって、それにより変換済みビデオデータを生成する、ステップと、
前記変換済みビデオデータのフレームについて複数の初期メタデータ値を生成するステップであって、前記複数の初期メタデータ値は、前記フレームを含むコンテンツから計算されない第1固定値に対応する第1メタデータ値であって、前記第1固定値は前記コンテンツの最小許容輝度値に対応する、第1メタデータ値と、前記フレームの平均輝度値に対応する第2メタデータ値と、前記コンテンツから計算されない第2固定値に対応する第3メタデータ値であって、前記第2固定値は前記コンテンツの最大許容輝度値に対応する、第3メタデータ値と、を含み、前記第1メタデータ値、前記第2メタデータ値、及び前記第3メタデータ値は、ディスプレイで復号画像をレンダリングするためにデコーダにより使用される情報を含む、ステップと、
前記フレームを含む時間ウインドウを決定するステップであって、前記時間ウインドウは所定の時間長を有する、ステップと、
前記時間ウインドウに渡り最大メタデータ範囲と最小メタデータ範囲を計算するステップであって、それにより、第1フィルタリング済みメタデータ値と第2フィルタリング済みメタデータ
値を生成する、ステップと、
前記第1フィルタリング済みメタデータ値及び前記第2フィルタリング済みメタデータ値を平滑化するステップであって、それにより、第1平滑化済み且つフィルタリング済みメタデータ値及び第2平滑化済み且つフィルタリング済みメタデータ値を生成する、ステップと、
を含む方法。
【請求項2】
前記所定のフォーマットは、標準ダイナミックレンジフォーマットであり、前記入力ビデオデータは高ダイナミックレンジフォーマットである、請求項1に記載の方法。
【請求項3】
前記複数の初期メタデータ値を生成する前に、前記変換済みビデオデータに空間平滑化操作を適用するステップ、を更に含む請求項1又は2に記載の方法。
【請求項4】
前記空間平滑化操作を適用することは、前記変換済みビデオデータをサブサンプリングすることを含む、請求項3に記載の方法。
【請求項5】
前記空間平滑化操作を適用することは、前記変換済みビデオデータをより小さいサイズに間引くことを含む、請求項3又は4に記載の方法。
【請求項6】
前記フレームに対応するビデオデータの一部、前記第1メタデータ値、前記第2メタデータ値、及び前記第3メタデータ値を含む配信ビデオデータを出力するステップ、を更に含む請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記所定のフォーマットは知覚量子化高ダイナミックレンジフォーマットである、請求項1に記載の方法。
【請求項8】
前記所定の時間長は4秒である、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記時間ウインドウは、前記入力ビデオデータの中のシーンカットに跨がらないよう構成される、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記第1メタデータ値を生成する前に、前記変換済みビデオデータに空間平滑化操作を適用するステップ、を更に含む請求項1~9のいずれか一項に記載の方法。
【請求項11】
命令を格納している非一時的コンピュータ可読媒体であって、前記命令は、コンピュータシステムのプロセッサにより実行されると、前記コンピュータシステムに請求項1~10のいずれか一項に記載の方法を含む動作を実行させる、非一時的コンピュータ可読媒体。
【請求項12】
ビデオ編集システムであって、
メモリと、
プロセッサであって、前記ビデオ編集システムに以下:
入力ビデオデータを受信させ:
前記入力ビデオデータを、ダイナミックレンジに関して前記入力ビデオデータのフォーマットと異なる所定のフォーマットに変換させ、それにより変換済みビデオデータを生成させ、
前記変換済みビデオデータのフレームについて複数の初期メタデータ値を生成させ、前記複数の初期メタデータ値は、前記フレームを含むコンテンツから計算されない第1固定値に対応する第1メタデータ値であって、前記第1固定値は前記コンテンツの最小許容輝度値に対応する、第1メタデータ値と、前記フレームの平均輝度値に対応する第2メタデータ値と、前記コンテンツから計算されない第2固定値に対応する第3メタデータ値であって、前記第2固定値は前記コンテンツの最大許容輝度値に対応する、第3メタデータ値と、を含み、
前記フレームを含む時間ウインドウを決定し、前記時間ウインドウは所定の時間長を有し、
前記時間ウインドウに渡り最大メタデータ範囲と最小メタデータ範囲を計算し、それにより、第1フィルタリング済みメタデータ値と第2フィルタリング済みメタデータ
値を生成し、
前記第1フィルタリング済みメタデータ値及び前記第2フィルタリング済みメタデータ値を平滑化し、それにより、第1平滑化済み且つフィルタリング済みメタデータ値及び第2平滑化済み且つフィルタリング済みメタデータ値を生成する、プロセッサと、
を含むビデオ編集システム。
【請求項13】
前記所定のフォーマットは、標準ダイナミックレンジフォーマットであり、前記入力ビデオデータは高ダイナミックレンジフォーマットである、請求項12に記載のビデオ編集システム。
【請求項14】
前記プロセッサは、前記ビデオ編集システムに、
前記複数の初期メタデータ値を生成する前に、前記変換済みビデオデータに空間平滑化操作を適用させるよう構成される、請求項12又は13に記載のビデオ編集システム。
【請求項15】
前記空間平滑化操作は、前記変換済みビデオデータをサブサンプリングすることを含む、請求項14に記載のビデオ編集システム。
【請求項16】
前記空間平滑化操作は、前記変換済みビデオデータをより小さいサイズに間引くことを含む、請求項14又は15に記載のビデオ編集システム。
【請求項17】
前記プロセッサは、前記ビデオ編集システムに、
前記フレームに対応するビデオデータの一部、前記第1メタデータ値、前記第2メタデータ値、及び前記第3メタデータ値を含む配信ビデオデータを出力させるよう更に構成される、請求項12~16のいずれか一項に記載のビデオ編集システム。
【請求項18】
前記所定のフォーマットは知覚量子化高ダイナミックレンジフォーマットである、請求項12に記載のビデオ編集システム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願]
本願は、参照により全体がここに組み込まれる、共に2020年6月3日に出願した欧州特許出願番号第20178044.2号及び米国仮出願番号第63/034,006号の優先権を主張する。
【背景技術】
【0002】
1.関連分野
本願は概して画像に関連し、より具体的には、本願は、ビデオコンテンツに関連するディスプレイ管理のためのメタデータの生成に関連している。
【0003】
2.背景技術
本願明細書で使用されるとき、用語「ダイナミックレンジ(dynamic range (DR))」は、例えば最も暗い黒色(darks)から最も明るい白色(ハイライト)までの画像内の強度(例えば、輝度、ルマ)範囲を知覚する人間の視覚システム(human visual system (HVS))の能力に関連し得る。このシーンでは、DRは「シーン参照」強度に関連する。DRは、特定幅の強度範囲を適切に又は近似的にレンダリングするディスプレイ装置の能力にも関連してよい。このシーンでは、DRは「ディスプレイ参照」強度に関連する。本願明細書の説明の任意の点において、特定のシーンが特定の重要度を有すると明示的に指定されない限り、用語はいずれかのシーンで、例えば同義的に使用されてよいことが推定されるべきである。
【0004】
本願明細書で使用されるとき、用語「高ダイナミックレンジ(high dynamic range (HDR))」は、HVSの大きさの14~15倍又はそれより大きな程度に渡るDR幅に関連する。実際に、人間が強度範囲の中の広範な幅を同時に知覚し得るDRは、HDRに関連して、何らかの方法で省略され得る。本願明細書で使用されるとき、用語「拡張ダイナミックレンジ(enhanced dynamic range (EDR))」又は「視覚ダイナミックレンジ(visual dynamic range (VDR))」は、個々に又は同義的に、目の動きを含むHVSによりシーン又は画像内で知覚可能なDRに関連し、何からの光適応がシーン又は画像に渡り変化することを可能にする。本願明細書で使用されるとき、EDRは、5~6桁 の大きさに広がるDRに関連してよい。従って、HDRと呼ばれる実際のシーンに比べておそらくやや狭いが、それにも関わらず、EDRは広いDR幅を表し、更にHDRと呼ばれ得る。
【0005】
実際には、画像は色空間の1つ以上の色成分(例えば、RGB、ルマY及びクロマCb及びCr)を含み、量子化デジタルシステムでは、各色成分はピクセル当たりnビット(例えば、n=8)の精度により表される。ビット深度n≦8(例えば、カラー24ビットJPEG画像)は標準ダイナミックレンジ(SDR)の画像で使用することができ、一方、ビット深度n>8は輪郭や階段状アーチファクトを避けるために拡張ダイナミックレンジ(EDR)の画像で考慮することができる。整数データ型に加えて、EDR及び高ダイナミックレンジ(HDR)画像は、Industrial Light and Magicにより開発されたOpenEXRファイルフォーマットのような高精細(例えば、16ビット)浮動小数点フォーマットを用いて格納され配信されてもよい。
【0006】
所与のディスプレイのための参照電子光伝達関数(electro-optical transfer function (EOTF))は、入力ビデオ信号の色値(例えば、輝度)と、ディスプレイにより生成される出力スクリーン色値(例えば、スクリーン輝度)との間の関係を特徴付ける。例えば、ITU Rec.ITU-R BT1886「Reference electro-optical transfer function for flat panel displays used in HDTV studio production」(March 2011)は、参照によりその全体がここに組み込まれ、陰極線管(Cathode Ray Tube (CRT))の測定された特徴に基づき平面パネルディスプレイの参照EOTFを定義する。ビデオストリームが与えられると、そのEOTFに関する情報は、メタデータとしてビットストリームに埋め込まれてよい。
【0007】
多くの民生用デスクトップディスプレイでは、非HDRコンテンツを最大輝度200から300cd/m2(「nit」)でレンダリングし、民生用の高精細及び超高精細テレビ(「HDTV」及び「UHD TV」)を300から500nitでレンダリングする。このようなディスプレイ出力は、HDR又はEDRに関連してSDRとも呼ばれる低ダイナミックレンジ(low dynamic range (LDR))の典型である。HDR又はEDRコンテンツの利用可能性が、キャプチャ機器(例えばカメラ)及びHDRディスプレイ(例えば、Dolby LaboratoriesのPRM-4200プロフェッショナルリファレンスモニタ又はSony Trimaster HX31」 4K HDR Master Monitor))の両方における進歩により増大するにつれ、HDRコンテンツは、カラーグレーディングされ、より高いダイナミックレンジ(例えば、700nit~5000nit、又はそれより高い)をサポートするHDRディスプレイ上で表示されるようになり得る。このようなディスプレイは、高輝度能力(例えば0~10000nit)をサポートする代替のEOTFを使用して定義されてよい。このようなEOTFの例は、SMPTE ST 2084:2014「High Dynamic Range EOTF of Mastering Reference Displays」に定義されており、その全文は参照によりここに組み込まれている。
【0008】
ここでいうディスプレイ管理とは、第1ダイナミックレンジ(例えば、1000nit)の入力ビデオ信号を第2ダイナミックレンジ(例えば、500nit)のディスプレイにマッピングするために必要な処理(例えば、トーンと色域のマッピング)を指す。ディスプレイ管理プロセスの例は、参照によりその全文がここに組み込まれるPCT出願番号PCT/US2014/016304('304出願)、2014年2月13日出願、「Display management for high dynamic range video」、R. Atkins他、に記載されている。ディスプレイ管理は、入来コンテンツのソースによって生成され、コーディングビットストリームに多重化される入力メタデータによって支援又は制御されてよい。
【0009】
本章に記載されるアプローチは、追求可能なアプローチであるが、必ずしも以前に考案又は追求されたアプローチではない。従って、特に示されない限り、本章に記載したアプローチのうちのいずれも、単に本章に含まれることにより従来技術と見なされるべきではない。同様に、1つ以上のアプローチに関して特定される課題は、特に示されない限り、本章に基づき任意の従来技術の中で認識されたものと想定されるべきではない。
【発明の概要】
【0010】
本開示の様々な態様は、改善されたビデオ品質、改善された時間的安定性、低い計算要件、及び低減されたレイテンシを提供するために使用される可能性のあるメタデータを生成するための装置、システム、及び方法に関する。
【0011】
本開示の一態様によると、ビデオコンテンツを編集するシステム及び方法であって、
入力ビデオデータを受信するステップと、
前記入力ビデオデータを、所定のフォーマットに変換するステップであって、それにより、変換済みビデオデータを生成する、ステップと、
前記変換済みビデオデータのフレームについて複数の初期メタデータ値を生成するステップであって、前記複数の初期メタデータ値は、前記フレームを含むコンテンツから計算されない第1固定値に対応する第1メタデータ値と、前記フレームの平均輝度値に対応する第2メタデータ値と、前記コンテンツから計算されない第2固定値に対応する第3メタデータ値と、を含む、ステップと、
を含み、
前記第1メタデータ値、前記第2メタデータ値、及び前記第3メタデータ値は、ディスプレイで復号画像をレンダリングするためにデコーダにより使用される情報を含む、システム及び方法が提供される。
【0012】
本開示の別の態様によると、ビデオコンテンツを編集するシステムであって、
メモリと、
プロセッサと、
を含み、前記プロセッサは、前記ビデオ編集システムに、
入力ビデオデータを受信させ、
前記入力ビデオデータを、所定のフォーマットに変換させ、それにより、変換済みビデオデータを生成させ、
前記変換済みビデオデータのフレームについて複数の初期メタデータ値を生成させ、前記複数の初期メタデータ値は、前記フレームを含むコンテンツから計算されない第1固定値に対応する第1メタデータ値と、前記フレームの平均輝度値に対応する第2メタデータ値と、前記コンテンツから計算されない第2固定値に対応する第3メタデータ値と、を含む、
システムが提供される。
【0013】
本開示の別の態様によると、ビデオコンテンツを編集する方法であって、
入力ビデオデータを受信するステップと、
前記入力ビデオデータを所定のフォーマットに変換するステップであって、それにより、変換済みビデオデータを生成する、ステップと、
前記変換済みビデオデータのフレームについて第1メタデータ値を生成するステップであって、前記第1メタデータ値は前記フレームの平均輝度値に対応する、ステップと、
前記フレームを含む時間ウインドウを決定するステップであって、前記時間ウインドウは所定の時間長を有する、ステップと、
前記時間ウインドウに渡り最大メタデータ範囲と最小メタデータ範囲を計算するステップであって、それにより、第1フィルタリング済みメタデータ値と第2フィルタリング済みメタデータを生成する、ステップと、
前記フィルタリング済みメタデータ値及び前記第2フィルタリング済みメタデータ値を平滑化するステップであって、それにより、第1平滑化済み且つフィルタリング済みメタデータ値及び第2平滑化済み且つフィルタリング済みメタデータ値を生成する、ステップと、
を含む方法が提供される。
【0014】
このように、本開示の種々の態様は、ビデオキャプチャ、編集、及び信号処理、並びにビデオの関連フィールド及び他のコンテンツの配信を向上する効果がある。
【図面の簡単な説明】
【0015】
種々の実施形態のこれらの及び他のより詳細な及び特定の特徴は、以下の説明において更に完全に開示され、添付の図面を参照する。
【0016】
【
図1】本開示の種々の態様による別の例示的なビデオ配信パイプラインを示す。
【0017】
【
図2】本開示の種々の態様による例示的なメタデータ生成方法の処理フローを示す。
【0018】
【
図3】
図2の方法によって生成された例示的なメタデータを示す。
【0019】
【
図4】本開示の種々の態様による別の例示的なメタデータ生成方法の処理フローを示す。
【0020】
【
図5】
図2の方法によって生成された例示的なメタデータを示す。
【0021】
【
図6】本開示の種々の態様による別の例示的なメタデータ生成方法の処理フローを示す。
【0022】
【
図7A】
図6の方法によって生成された例示的なメタデータを各々示す。
【
図7B】
図6の方法によって生成された例示的なメタデータを各々示す。
【
図7C】
図6の方法によって生成された例示的なメタデータを各々示す。
【0023】
【
図8】本開示の種々の態様による別の例示的なシステムを示す。
【発明を実施するための形態】
【0024】
本開示及びその態様は、種々の形式で具現化でき、コンピュータにより実施される方法により制御されるハードウェア、装置、又は回路、コンピュータプログラムプロダクト、コンピュータシステム及びネットワーク、ユーザインタフェース、及びアプリケーションプログラミングインタフェース、並びに、ハードウェアにより実施される方法、信号処理回路、メモリアレイ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、等を含む。以上の概要は、単に本開示の種々の態様の全体的思想を与えることを意図し、本開示の範囲をいかようにも制限しない。
【0025】
以下の説明では、本開示の1つ以上の態様の理解を提供するために、光学装置構成、タイミング、動作、等のような多数の詳細事項が説明される。これらの特定の詳細事項は単なる例であり、本願の範囲を限定することを意図しないことが当業者に直ちに理解されるだろう。
【0026】
更に、本開示は主に、種々の回路がコンテンツ生成において使用される例に焦点を当てるが、これは実装の単なる一例であることが理解されるだろう。開示されたシステム及び方法は、画像データ及び/又は関連するメタデータを生成、修正又は表示する必要があるいかなる装置においても使用することができることが更に理解されるであろう。例えば、映画、消費者及びその他の商用投影システム、スマートフォン及びその他の消費者向け電子デバイス、ヘッドアップディスプレイ、仮想現実ディスプレイなどである。
【0027】
メタデータ
【0028】
ここで使用されるように、用語「メタデータ」は、本願明細書では、符号化ビットストリームの部分として送信される任意の補助情報に関連し、復号画像をレンダリングするためにデコーダを支援する。このようなメタデータは、限定ではないが、本願明細書に記載されるような、色空間又は全色域(gamut)情報、参照ディスプレイパラメータ、及び補助信号パラメータ、を含んでよく、集合的に「画像形成メタデータ」と呼ばれてよい。
【0029】
そのようなメタデータは、異なるレベルのメタデータに分割され又は分類されてよい。1つの特定の例では、本開示は、Dolby Visionアーキテクチャで実装され、マッピングメタデータは、L0メタデータ、L1メタデータ、L2/L8メタデータ、L3メタデータ、L4メタデータ、L11メタデータ、等を含んでよい。幾つかの例では、L0メタデータは、ビデオコンテンツ全体にわたる(つまり、複数のショット及び/又はシーンにまたがって)ビデオデータの動的範囲に関する情報を提供又は記述する。例えば、L0メタデータには、ビデオコンテンツの最小輝度と最大輝度を各々表すL0minとL0maxが含まれる場合がある。例えば、L0メタデータには、ビデオコンテンツの最小輝度と最大輝度を各々表すL0minとL0maxが含まれる場合がある。
【0030】
幾つかの例では、L1メタデータは、ソース画像、ソースシーン、ソース画像グループ(group of pictures:GOP)などの輝度値の分布に関する情報を、ビデオデータで表されるように提供又は記述する。輝度値の分布は、画像の画像コンテンツ(例えば、ピクセル値、ルミナンス値、クロマ値、Y値、Cb/Cr値、RGB値など)、シーン、GOPなどに基づいて導き出されるヒストグラムによって表すことができる。L1メタデータは、パラメータL1min、L1mid、L1maxを含んでよく、各々ビデオコンテンツ内の1つ以上の画像、シーン、GOPSなどの最小輝度(「crush、クラッシュ」)、中間調輝度(「mid、中間」)、最大輝度(「clip、クリップ」)を表す。
【0031】
他のレベルのメタデータも定義できる。例えば、L2は、監督、カラーグレーダ、ビデオプロフェッショナルなどが制作スタジオ及び/又はポストプロダクションで行った調整に由来する、又はその調整を遡るビデオ特性調整に関する情報を提供又は記述する。L8メタデータはL2メタデータに似ており、場合によっては(例えば、各々のトーンカーブによって)L2メタデータと同等の場合もある。L2及びL8メタデータは、「トリム」パラメータと呼ばれることがあり、画像データの利得/オフセット/パワーを示し又はそれに関連してよい。L2メタデータは、第1参照ダイナミックレンジを持つ第1参照ディスプレイに対応してよい。
【0032】
例えばL3メタデータは、監督、カラーグレーダ、ビデオプロフェッショナルなどが行った調整に由来する、又はその調整を遡るビデオ特性調整に関する情報を提供又は記述する。L2メタデータと比較して、L3メタデータは、第1参照ディスプレイの参照ダイナミックレンジとは異なる参照ダイナミックレンジを持つ第2参照ディスプレイに対応してよい。L3メタデータは、例えば、クラッシュ、中間、クリップの輝度値に対するオフセット又は調整を含む、L1メタデータからのオフセット又は調整を含んでよい。
【0033】
L4メタデータは、グローバル調光操作に関する情報を提供又は記述する。L4メタデータは、前処理中にエンコーダによって計算されてよく、RGB原色を使用して計算されてよい。一例では、L4メタデータは、フレーム単位でディスプレイパネルのグローバルなバックライト輝度レベルを指示するデータを含んでよい。L11メタデータなどの他の生成されたメタデータは、映画コンテンツ、コンピュータゲームコンテンツ、スポーツコンテンツなどのビデオデータのソースを識別するために使用される情報を提供又は記述することができる。このようなメタデータは、意図されたホワイトポイント、シャープネスなどの意図されたピクチャ設定をさらに提供又は記述することができる。
【0034】
総合すると、画像形成メタデータには、第1ダイナミックレンジから第1ダイナミックレンジとは異なる第2ダイナミックレンジに変換するための変換データを含むことができる。本開示の幾つかの態様では、第1ダイナミックレンジは、第2ダイナミックレンジよりも高い場合がある(例えば、HDRからSDRへの変換)。本開示の他の態様では、第2ダイナミックレンジは、第1ダイナミックレンジよりも高い場合がある(例えば、SDRからHDRへの変換)。
【0035】
画像形成メタデータを生成する比較方法には、フレームごとのメタデータを計算し(例えば、フレームごとのL1メタデータ)、IIRフィルタリングを適用するか(例えば、生放送やゲームの場合)、シーンの最小、中間、最大を計算してメタデータをシーンに結合する(例えば、スタジオやプロのオフラインコンテンツの場合)などがある。ただし、これらの方法では、編集中にコンテンツをすぐにプレビューできない。例えば、ユーザは、HDRピクチャをより明るくして、参照ディスプレイとしてのSDRモニタで結果を参照表示としてプレビューしたい場合がある。これを行うには、次の手順を実行する。HDRピクチャに調整が適用される;L1メタデータが、調整されたHDRピクチャに対して再計算される;トーンマッピング操作が変更される;調整したHDRピクチャに調整したトーンマッピングを適用してSDRプレビューピクチャを生成する。
【0036】
この一連の操作は、1つの画像に適用された場合には満足できる場合がある。これは、1つの画像をメモリに保存することが合理的なので、操作がすぐに連続して適用できるためである。しかしながら、L1メタデータ(及び結果として得られるトーンカーブ)がフレームごとに大きく異なる場合があり、マップされた画像がちらつく原因になる。これは「時間的不安定性」と呼ばれることがある。トーンカーブの時間的安定性を確保するために、何らかのフィルタリングを行うことがある。しかし、メタデータの再計算操作が複数の画像に依存している場合は、調整操作とメタデータの再計算操作を多くの画像に適用する必要があり、高速なビデオレートでは非現実的又は不可能な場合がある。
【0037】
したがって、画像形成メタデータを生成する比較方法は、結果の調整、更新、及びプレビューの反復サイクルへと減速してしまう可能性がある。さらに、IIRフィルタリング比較法では、現在のフレームがIIRフィルタのために前のすべてのフレームを必要とするため、現在のフレームの前に非常に多くのフレームを分析する必要がある場合がある。スタジオ又はプロの比較方法では、シーンのすべてのフレームが必要であり、場合によっては分又は時間のオーダーの長さを持つこともある。
【0038】
この観点から、本開示の様々な態様は、効率的な編集のためにメタデータを生成する、つまり、高い画質と高い時間的安定性をもたらす編集の方法を提供する。本開示の様々な態様は、このような編集を低い計算要件と低遅延又は無遅延で達成することができる。幾つかの態様では、メタデータを生成する方法がビデオ配信パイプラインに組み込まれたり、使用されたりしている。
【0039】
ビデオ配信パイプライン
【0040】
図1は、例示的なビデオ配信パイプライン100を示し、ビデオキャプチャからビデオコンテンツ表示までの種々の段階を示す。なお、以下の記述はビデオ(すなわち、動画像)の観点から提供されるが、本開示はこれに限定されない。幾つかの例では、画像コンテンツは静止画像、又はビデオと静止画像の組み合わせであってよい。画像コンテンツは、ラスタ(又はピクセル)グラフィックスにより、ベクトルグラフィックスにより、又はラスタとベクトルグラフィックスの組み合わせによって表すことができる。
図1は、画像生成ブロック101、プロダクションブロック102、ポストプロダクションブロック103、符号化ブロック104、復号ブロック105、ディスプレイ管理ブロック106を示している。
図1に示す様々なブロックは、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせとして、又はそれらを介して実装することができる。さらに、図示されたブロックの様々なグループは、各々の機能を組み合わせることができ、及び/又は異なる装置で、及び/又は異なる時間に実行することができる。図示されたブロックの個々の1つ又はグループは、中央処理装置(CPU)、グラフィックス処理装置(GPU)、ASIC、FPGA、及びそれらの組み合わせを含むがこれらに限定されない回路により実装することができる。1つ以上のブロックによって実行される操作は、ローカル、リモート(例えば、クラウドベース)、又はローカルとリモートの組み合わせで処理できる。
【0041】
図1に示すように、ビデオ配信パイプラインには、ポストプロダクションブロック103で行われる操作を支援又は監視するために提供される参照ディスプレイ111とターゲットディスプレイ112がさらに含まれる。説明のために、画像生成ブロック101、プロダクションブロック102、ポスト生成ブロック103、及び符号化ブロック104を「上流」ブロック又はコンポーネントと呼ぶことがあり、復号ブロック105及びディスプレイ管理ブロック106を「下流」ブロック又はコンポーネントと呼ぶことがある。
【0042】
図1の例では、一連のビデオフレーム121の形式のビデオコンテンツが、画像生成ブロック101でキャプチャ又は生成される。ビデオフレーム121は、デジタル方式で(例えば、デジタルカメラにより)キャプチャされ、又はコンピュータにより(例えば、コンピュータアニメーションを用いて)生成されてよく、ビデオデータ122を生成する。代替として、ビデオフレーム121はフィルムカメラでフィルムに撮影され、デジタル形式に変換されてビデオデータ122を提供してもよい。いずれの場合も、ビデオデータ122はプロダクションブロック102に提供され、そこで編集されてプロダクションストリーム123が提供される。ビデオフレーム121は、ショットやシーンなどのシーケンスにグループ化することができる。ショットは、例えば、一時的に接続されたフレームのセットである。ショットは(例えば、画像の一部だけではなく全体の内容が変化する時点)で区切ることができる。シーンとは、例えば、より大きなコンテンツのストーリーテリングのセグメントを説明する一連のショットのことである。ビデオコンテンツがアクション映画である1つの特定の例では、ビデオコンテンツには、(例えば、追跡する車両の運転手のショット、追跡される車両の運転手のショット、追跡が行われる通りのショットなど)一連のショットを含む追跡シーンが含まれる場合がある。
【0043】
プロダクショントリーム123の中のビデオデータは、次に、ポストプロダクションブロック103で、製作後(ポストプロダクション)編集のためにプロセッサに提供される。ポストプロダクションブロック103において実行される編集は、ビデオ制作者の(又は編集者の)製作意図に従い画像品質を向上するため又は特定の外観を達成するために、画像の特定領域の色又は明るさの調整又は変更を含んでよい。これは、「カラータイミング」又は「カラーグレーディング」とも呼ばれてよい。配信ストリーム124を生成するために、ポストプロダクションブロック103で他の編集(例えば、シーンの選択とシーケンス、画像のトリミング、コンピュータが生成した視覚的特殊効果又はオーバーレイの追加など)を実行することもできる。幾つかの例では、ポストプロダクションブロック103は、例えば編集プロセスを支援するために、画像をその画面で見ることができるように、中間ストリーム125を参照ディスプレイ111に提供することができる。プロダクションブロック102、ポストプロダクションブロック103、及び符号化ブロック104のうちの1、2、又はすべては、さらにビデオデータにメタデータを追加する処理を含んでよい。この追加処理は、コンテンツのプロパティの統計分析を含んでよいが、これに限定されない。その後の処理は、ローカル又はリモートで実行されてよい(例えば、クラウドベースの処理)。
【0044】
ポストプロダクション操作に続いて、配信ストリーム124は、テレビセット、セットトップボックス、映画劇場、ラップトップコンピュータ、タブレットコンピュータ、等のような復号及び再生装置へと下流に配信するために、符号化ブロック104に配信されてよい。幾つかの例では、符号化ブロック104は、符号化ビットストリーム126を生成するために、ATSC(Advanced Television Systems Committee)、DVB(Digital Video Broadcasting)、DVD(Digital Versatile Disc)、Blu-Ray(登録商標)、及び他の配信フォーマットにより定義されるような、オーディオ及びビデオエンコーダを含んでよく、それによりコーディングビットストリーム126を生成する。受信機では、コーディングビットストリーム126は、配信ストリーム124と同一のもの又は厳密な近似を表す復号信号127を生成するために、復号ユニット105により復号される。受信機は、参照ディスプレイ111と異なる特性を有してよいターゲットディスプレイ112に取り付けられてよい。参照ディスプレイ111とターゲットディスプレイ112の特性が異なる場合、ディスプレイ管理ブロック106を使用して、ディスプレイマッピング信号128を生成することにより、復号信号127のダイナミックレンジ又はその他の特性をターゲットディスプレイ112の特性にマッピングすることができる。ディスプレイ管理ブロック106は、ターゲットディスプレイ112の電源管理を提供するために追加的又は代替的に使用することができる。
【0045】
ターゲットディスプレイ112は、ピクセルのアレイを使用して画像を生成する。特定のアレイ構造は、ディスプレイのアーキテクチャと解像度によって異なる。例えば、ターゲットディスプレイ112がLCDアーキテクチャで動作する場合、比較的低解像度のバックライトアレイ(例えば、LED又は他の発光素子のアレイ)と、バックライトアレイからの白色光を選択的に減衰させ、カラー光を提供するための比較的高解像度の液晶アレイ及びカラーフィルタアレイ(しばしば二重変調ディスプレイ技術と呼ばれる)を含むことができる。ターゲットディスプレイ112がOLEDアーキテクチャで動作する場合、自己発光カラーピクセルの高解像度アレイを含むことがある。
【0046】
上流ブロックと下流ブロックとの間のリンク(すなわち、符号化ビットストリーム126が提供されるパス)は、電磁波を使用した空中でのブロードキャストや、光ファイバ、ツイストペア(イーサネット)、及び/又は同軸ケーブルなどのコンテンツ配信ラインを介したライブ又はリアルタイム転送によって実装される場合がある。他の例では、エンドユーザ装置(例えば、DVDプレイヤ)への物理的な配信のために、コーディングビットストリームを物理媒体(例えば、DVDやハードディスク)に記録するなど、時間に依存しない転送によってリンクを実装することができる。復号ブロック105及びディスプレイ管理ブロック106は、ターゲットディスプレイ112に関連する装置に組み込むことができる。例えば、復号、ディスプレイ管理、電源管理、ディスプレイ機能を含むスマートテレビの形式である。幾つかの例では、復号ブロック105及び/又はディスプレイ管理ブロック106は、ターゲットディスプレイ112とは別の装置に組み込まれている場合がある。例えば、セットトップボックスやメディアプレイヤの形である。
【0047】
復号ブロック105及び/又はディスプレイ管理ブロック106は、上流ブロックに含まれるか追加されたメタデータに応答して受信、分析、及び動作するように構成することができる。したがって、このようなメタデータは、ターゲットディスプレイ112の追加の制御又は管理を提供するために使用することができる。メタデータには、前述の画像形成メタデータ(例えば、DolbyVisionメタデータ)を含めることができる。メタデータは、参照ディスプレイ111とプロダクションストリーム123及び/又は中間ストリーム125を使用して、ポストプロダクションブロック103で生成できる。
【0048】
半動的メタデータ生成
【0049】
画像形成メタデータは、「半動的」方法を使用して生成することができ、その例を
図2に示す。
図2に示す操作は、
図1のポストプロダクションブロック103に関連するハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせを使用して自動的に実行することができる。
【0050】
図2に示すように、半動的メタデータ生成処理は、ビデオ信号が所定の形式(例えば、特定のEOTF)に変換される操作201で開始することができる。例えば、ビデオ信号は、Rec.ITU-RBT.2100-1(06/2017)で説明されているように、Hybrid Log-Gamma(HLG)又はSLOG-3HDRからRGB Perceptual Quantizer(PQ)HDRに変換される場合がある。幾つかの実装では、操作202で空間平滑化及び/又はサブサンプリングを適用することができる。操作202は、2次元平滑化カーネル(例えば、[1 1]/2又は[1 3 3 1]/8)を使用して実装できる。これにより、個々のピクセルに対する感度が低下する。幾つかの例では、フィルタリング後に画像がより小さいサイズ(例えばハーフサイズ)に間引きされる場合がある。他の実装では、操作202を省略して、半動的メタデータ生成処理は、操作201から操作203に直接進んでよい。操作203では、L1midの初期値が計算される(例えば、フレーム単位で)。例えば、L1midは最大RGB輝度の平均値を表す場合がある。言い換えると、L1midは各ピクセルの色成分値R、G、Bの最大値の平均値を表してよい。L1minとL1maxの値はコンテンツから計算されず、代わりに操作204で、L0メタデータ(例えば、Level0.Smin、Level0.Smax)で表されるように、画像コンテンツの最小及び最大許容範囲に対応する固定値が使用される。例えば、YCbCr表現を使用する場合、L1midはYコンポーネント値の平均輝度値を表してよい。
【0051】
図2の操作の1つの具体例として、次の擬似コードは、MATLAB(登録商標)のような形式を使用して示されている。
【数1】
【0052】
図3は、クラッシュ値、中間値、及びクリップ値に対応するメタデータに対する上記の操作の出力例を示している。各グラフは、フレーム番号の関数として正規化された輝度を示している。線310
min、310
mid、及び310
maxは、各々所与のフレームの輝度の最小値、平均値、及び最大値を示している。線320
min、320
mid、及び320
maxは、各々所与のフレームの値L1min、L1mid、及びL1maxを示している。
【0053】
L1minとL1maxは各々L0minとL0maxの値に設定されているため、クラッシュとクリップのメタデータ値はすべてのフレームの実際の輝度値と厳密に一致しない。
図3に示されている特定の例では、フレームごとの最小輝度値(線310
min)は約0.01から0.48の間で変化し、値L1min(線320
min)は約0に設定されている。フレームごとの最大輝度値(線310
max)は約0.53から0.82の間で変化し、値L1max(線320
max)は約0.82に設定されている。ただし、L1midは動的な値で決定されるため、midメタデータ値はすべてのフレームの実際の輝度値と密接に一致する。
図3に示すように、フレームごとの平均輝度値(線310
mid)と値L1mid(線320
mid)は高い対応関係にある。
【0054】
メタデータの半動的生成では、1つのフレームのみを処理するだけでよい。この方法は高効率をもたらす。ただし、
図3からわかるように、クラッシュとクリップのメタデータ値の静的な値を使用すると、コンテナの全ダイナミックレンジを使用しない画像のマッピング画像コントラストがわずかに低くなる。
【0055】
動的メタデータ生成
【0056】
画像形成メタデータは、「動的」方法を使用して生成することができ、その例を
図4に示す。
図4に示す操作は、
図1のポストプロダクションブロック103に関連するハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせを使用して自動的に実行することができる。
【0057】
図4に示すように、動的メタデータ生成処理は、ビデオ信号が所定の形式(例えば、特定のEOTF)に変換される操作401で開始することができる。例えば、ビデオ信号は、Rec.ITU-RBT.2100-1(06/2017で説明されているように、HLG又はSLOG-3HDRからRGB PQ HDRに変換される場合がある。幾つかの実装では、操作402で空間平滑化及び/又はサブサンプリングを適用することができる。操作402は、2次元平滑化カーネル(例えば、[1 1]/2又は[1 3 3 1]/8)を使用して実装できる。これにより、個々のピクセルに対する感度が低下する。幾つかの例では、フィルタリング後に画像がより小さいサイズ(例えばハーフサイズ)に間引きされる場合がある。他の実装では、操作402を省略して、半動的メタデータ生成処理は、操作401から操作403に直接進んでよい。操作403で、L1min、L1mid、L1maxの初期値が計算される(例えば、フレーム単位で)。例えば、L1minはRGB輝度の最小値を表してよく、L1midはRGB輝度の最大値の平均値を表してよく、L1maxはRGB輝度の最大値を表してよい。
【0058】
その後、操作404で、所与のショット又はシーンの動的値を使用してL1minとL1maxの値が再計算される。例えば、ショット又はシーンの各フレームを分析して、所与のショット又はシーン全体のRGB輝度の最小値と最大値を決定できる。操作405では、操作404で決定されたクリップ全体の最小値と最大値に対応する値を使用して、L1minとL1maxの値が再計算される。上記の半動的方式と比較して、動的方式は、コンテンツの許容(すなわち、可能である)最小及び最大RGB輝度ではなく、コンテンツの実際の最小及び最大RGB輝度に関してL1min及びL1maxが決定されるため、画像データにより密接に対応することができる。
【0059】
図4の操作の1つの具体例として、次の擬似コードは、MATLAB(登録商標)のような形式を使用して示されている。
【数2】
【0060】
図5は、クラッシュ値、中間値、及びクリップ値に対応するメタデータに対する上記の操作の出力例を示している。各グラフは、フレーム番号の関数として正規化された輝度を示している。線510
min、510
mid、及び510
maxは、各々所与のフレームの輝度の最小値、平均値、及び最大値を示している。線520
min、520
mid、及び520
maxは、各々所与のフレームの値L1min、L1mid、及びL1maxを示している。
【0061】
L1minとL1maxはクリップのフレーム全体の最小値に設定されているため、クラッシュとクリップのメタデータ値はすべてのフレームの実際の輝度値と厳密に一致しない。ただし、前述の半動的方式と比較すると、クラッシュとクリップのメタデータ値は実際の輝度値とより密接に一致する。
図5に示されている特定の例では、フレームごとの最小輝度値(線510
min)は約0.02から0.48の間で変化し、値L1min(線510
min)は約0.02に設定されている。一方、
図3に示す半動的方法では、L1min(線310
min)の値を0とした。フレームごとの最大輝度値(線510
max)は約0.53から0.82の間で変化し、値L1max(線520
max)は約0.82に設定されている。上述のように、L1midは動的な値で決定されるため、midメタデータ値はすべてのフレームの実際の輝度値と密接に一致する。
図5に示すように、フレームごとの平均輝度値(線510
mid)と値L1mid(線520
mid)は高い対応関係にある。
【0062】
メタデータの動的生成は、所与のショット又はシーン内のすべてのフレームの処理を必要とするため、メタデータの半動的生成と比較して計算要件が高くなる可能性がある。ただし、
図5からわかるように、クラッシュとクリップのメタデータ値の動的な値を使用すると、コンテナの全ダイナミックレンジを使用しない画像では、同じタイプのマップされた画像のコントラスト低減の影響を受けない。
【0063】
ウインドウ化FIRメタデータ生成
【0064】
画像形成メタデータは、「ウインドウ化」方法を使用して生成することができ、その例を
図6に示す。
図6に示す操作は、
図1のポストプロダクションブロック103に関連するハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせを使用して自動的に実行することができる。
【0065】
図6に示すように、ウインドウ化メタデータ生成処理は、ビデオ信号が所定の形式(例えば、特定のEOTF)に変換される操作601で開始することができる。例えば、ビデオ信号は、Rec.ITU-RBT.2100-1(06/2017で説明されているように、HLG又はSLOG-3HDRからRGB PQ HDRに変換される場合がある。その後、操作602で、空間平滑化及び/又はサブサンプリングが適用される。操作402は、2次元平滑化カーネル(例えば、[1 1]/2又は[1 3 3 1]/8)を使用して実装できる。これにより、個々のピクセルに対する感度が低下する。幾つかの例では、フィルタリング後に画像がより小さいサイズ(例えばハーフサイズ)に間引きされる場合がある。操作603で、L1min、L1mid、L1maxの初期値が計算される(例えば、ピクセル単位で)。例えば、L1minは最小RGB輝度の最小値を表してよく、L1midはRGB輝度の最大値の平均値を表してよく、L1maxは最大RGB輝度の最大値を表してよい。
【0066】
次に、操作604で、移動ウインドウ(k)内のフレームのリストを決定する。これは、時間Tの最大長にフレームレートを乗算して指定できる。時間ウインドウT(「時間的」ウインドウとも呼ばれる)は、オペレータによって設定可能である。幾つかの例では、時間ウインドウTは0.4秒から8秒の間で設定可能である。ある特定の例では、時間ウインドウTは4秒である。後述するように、時間的安定性と画質のバランスを取るために、時間ウインドウTの特定の値が選択される。例えば、ウインドウを短くするとある程度のちらつきが発生し得るが、ウインドウを長くするとより静的な処理になり得る。しかし、ウインドウ自体はシーンカットに跨がらないように構成されているため、現在のシーンの最初と最後のフレームによって囲まれている。
【0067】
操作605は第1パスであり、ウインドウの最小値と最大値が計算される。例えば、移動ウインドウkの各フレームfについて、操作605は、[1 1]/2、[1 2 1]/4、[1 3 3 1]/8、又は[1 3 8 3 1]/16のような1Dスムージングカーネルを使用してメタデータをスムージングし、それによってスムージングされたメタデータL1minS(f)及びL1maxS(f)を取得することができる。これにより、個々のフレームに対する感度が低下する。その後、操作605は、移動ウインドウkに渡り最大メタデータ範囲を決定することができる。例えば、L1minM(f)=min(L1minS(k))(すなわち、最小平滑化最小メタデータ値)とL1maxM(f)=max(L1max(S(k))(すなわち、最大平滑化最大メタデータ値)を計算する。
【0068】
操作606は第2パスであり、ウインドウの最小値と最大値が平滑化される。例えば、操作606は、Lタップと標準偏差s=L/6を持つガウス形状として平滑化フィルタFを計算し、次に、移動ウインドウk内の各フレームfについて、操作605で計算されたフィルタリングされたメタデータを平滑化フィルタFで平滑化して、平滑化及びフィルタリングされたメタデータ値L1minF及びL1maxFを取得することができる。操作606は、各フレームfについて、L1min及びL1maxを平滑化及びフィルタリングされたメタデータ値に設定し、L1midを操作603で決定された初期値に設定することもできる。
【0069】
操作605と606はフレームの移動ウインドウに適用されるため、所与のシーン内のすべての可能なウインドウが処理されるように、操作604、605と、及び606を繰り返すことができる。
【0070】
図6の操作の1つの具体例として、次の擬似コードは、MATLAB(登録商標)のような形式を使用して示されている。
【数3-1】
【数3-2】
【0071】
図7A~7Cは、異なるウインドウ長について、クラッシュ値、中間値、及びクリップ値に対応するメタデータに対する上記の操作の出力例を示している。各グラフは、フレーム番号の関数として正規化された輝度を示している。
図7A~7Cの各々で、線710
min、710
mid、及び710
maxは、各々所与のフレームの輝度の最小値、平均値、及び最大値を示している。
図7Aで、線721
min、721
mid、及び721
maxは、所与のフレームについて、1秒のウインドウ長で上述の方法に従い計算された値L1min、L1mid、L1maxを示す。
図7Bで、線722
min、722
mid、及び722
maxは、所与のフレームについて、4秒のウインドウ長で上述の方法に従い計算された値L1min、L1mid、L1maxを示す。
図7Cで、線723
min、723
mid、及び723
maxは、所与のフレームについて、1秒のウインドウ長で上述の方法に従い計算された値L1min、L1mid、L1maxを示す。
【0072】
図7A~7Cを互いに比較すると、ウインドウの長さを短くすると画質が向上するが(例えば、線721
maxは線710
maxをより密接に辿る)、ウインドウの長さを長くすると、時間的安定性が向上する(例えば、線723
maxはより大きな変動度を示す)ことが分かる。本開示の1つの特定の実装では、ウインドウ長は、
図7Bに示されているように、好ましくは4秒である。
【0073】
ウインドウ化されたメタデータの生成は、移動するウインドウのクラッシュ及びクリップの外側のエンベロープであるメタデータを生成する。メタデータの半動的生成と比較して、計算にはより多くのフレームを必要とするが、上記の比較方法とは異なり、任意の単一フレームのメタデータを計算するために必要なフレーム数は有限である。フィルタを2回連続して適用することで、結果として得られるフィルタは、基本的に指定されたウインドウの3倍の長さになる。例えば上記の擬似コードを使用して、連続する操作を1つの操作又はフローに結合できる。
【0074】
例示的なコンピュータシステム
【0075】
本開示の種々の態様は、コンピュータシステム、電子回路及びコンポーネント内に構成されるシステム、マイクロコントローラのような集積回路(IC)装置、FPGA、又は別の構成可能な又はプログラム可能な論理装置(PLD)、個別時間又はデジタル信号プロセッサ(DSP)、ASIC、及び/又はこのようなシステム、装置、又はコンポーネントのうちの1つ以上を含む機器により実装されてよい。コンピュータ及び/又はICは、上記の処理及び操作に関連する命令を実行、制御、又は実行することができる。コンピュータ及び/又はICは、上記の処理及び操作に関連する様々なパラメータ又は値のいずれかを計算することができる。。
【0076】
図8は、本開示の一以上の態様が実装され得るコンピュータシステム800の一例を示している。図示のようにコンピュータシステム800は、情報を通信するためのバス502又は他の通信メカニズム、及び情報を処理するためにバス801に結合されたハードウェアプロセッサ802を含む。プロセッサ802は、例えば、汎用マイクロプロセッサであってよい。
【0077】
コンピュータシステム800は、バス801に結合され、プロセッサ802により実行されるべき情報及び命令を格納するRAM(random access memory)又は他の動的記憶装置のようなメインメモリ803も含む。メインメモリ803は、プロセッサ802により実行されるべき命令の実行中に、時間変数又は他の中間情報を格納するためにも使用されてよい。このような命令は、プロセッサ802によりアクセス可能な非一時的記憶媒体に格納されるとき、コンピュータシステム800を、命令で指定された動作を実行するようカスタマイズされた専用マシンにする。
【0078】
コンピュータシステム800は、バス801に結合され、プロセッサ802のための静的情報及び命令を格納する、読み出し専用メモリ(ROM)804又は他の静的記憶装置を更に含む。情報及び命令を格納するために、磁気ディスク又は光ディスクのような記憶装置805が設けられ、バス801に結合されてよい。コンピュータシステム800は、バス801を介して、コンピュータユーザに情報を表示する液晶ディスプレイのようなディスプレイ811に結合されてよい。英数字及び他のキーを含む入力装置812は、プロセッサ802に情報及びコマンド選択を通信するために、バス801に結合される。コンピュータシステム800は、プロセッサ802に方向情報及びコマンド選択を通信するための、及びディスプレイ811上のカーソルの動きを制御するための、マウス、トラックボール、又はカーソル方向キーのようなカーソル制御813に、バス801を介して更に結合されてよい。
【0079】
コンピュータシステム800は、コンピュータシステムと結合してコンピュータシステム800を専用マシンにする又はプログラムする、カスタマイズされたハードワイヤドロジック、1つ以上のASIC又はFPGA、ファームウェア及び/又はプログラムロジックを用いて、本願明細書に記載の技術を実装してよい。一実施形態によると、本願明細書に記載の技術は、プロセッサ802がメインメモリ803に含まれる1つ以上の命令の1つ以上のシーケンスを実行することに応答して、コンピュータシステム800により実行される。このような命令は、記憶装置805のような別の記憶媒体からメインメモリ803に読み込まれてよい。メインメモリ803に含まれる命令シーケンスの実行は、プロセッサ802に、本願明細書に記載の処理ステップを実行させる。代替の実施形態では、ハードワイヤド回路は、ソフトウェア命令の代わりに又はそれと結合して使用されてよい。
【0080】
用語「記憶媒体」は、本願明細書で使用されるとき、機械を特定の方式で動作させるデータ及び/又は命令を格納する任意の非一時的媒体を表す。そのような記憶媒体は、不揮発性媒体及び/又は揮発性媒体を含んでよい。不揮発性媒体は、例えば、記憶装置805のような光学又は磁気ディスクを含む。揮発性媒体は、メインメモリ803のような動的メモリを含む。記憶媒体の一般的形式は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、固体ドライブ、磁気テープ、又は任意の他の磁気データ記憶媒体、CD-ROM、任意の他の光学データ記憶媒体、ホールのパターンを有する任意の物理媒体、RAM、PROM、EPROM、FLASH(登録商標)-EPROM、NVRAM、任意の他のメモリチップ又はカートリッジを含む。
【0081】
記憶媒体は、伝送媒体と異なるが、それと関連して使用されてよい。伝送媒体は、記憶媒体の間で情報を転送する際に関連する。例えば、伝送媒体は、バス801を含むワイヤを含む、同軸ケーブル、銅線、光ファイバを含む。伝送媒体は、無線波及び赤外線データ通信の間に生成されるような、音響又は光波の形式も取りうる。
【0082】
種々の形式の媒体は、実行のためにプロセッサ802に1つ以上の命令の1つ以上のシーケンスを運ぶ際に関連してよい。例えば、命令は、最初に、リモートコンピュータの磁気ディスク又は固体ドライブにより運ばれてよい。リモートコンピュータは、命令を自身の動的メモリにロードし、命令を光ファイバ、同軸ケーブル等のような通信リンクを介して送信できる。コンピュータシステム800のローカルにある通信インタフェース806は、コ通信回線上でデータを受信することができ、適切な回路はバス801上にデータを配置することができる。バス801は、データをメインメモリ803に運び、そこからプロセッサ802が命令を読み出し実行する。メインメモリ803により受信された命令は、任意で、プロセッサ802による実行の前又は後に記憶装置805に格納されてよい。
【0083】
通信インタフェース806は、ローカルネットワーク822に接続されるネットワークリンク821との2方向データ通信結合を提供する。例えば、通信インタフェース806は、ISDN(integrated services digital network)カード、ケーブルモデム、衛星モデム、又は対応する種類の電話線にデータ通信接続を提供するモデムであってよい。別の例として、通信インタフェース806は、互換LANにデータ通信接続を提供するLAN(local area network)カードであってよい。無線リンクも実装されてよい。任意のこのような実装では、通信インタフェース806は、種々の種類の情報を表すデジタルデータストリームを運ぶ電気、電磁気、又は光信号を送受信する。
【0084】
ネットワークリンク821は、標準的に、1つ以上のネットワークを通じて他のデータ装置にデータ通信を提供する。例えば、ネットワークリンク821は、ローカルネットワーク822を通じてホストコンピュータ823に又はISP(Internet Service Provider)824により運用されるデータ機器に接続を提供してよい。ISP824は、また、現在一般に「インターネット」825と呼ばれるワールドワイドパケットデータ通信ネットワークを通じて、データ通信サービスを提供する。ローカルネットワーク822及びインターネット825は、デジタルデータストリームを運ぶ電気、電磁気、又は光信号の両方を使用する。コンピュータシステム800へ及びそれからのデジタルデータを運ぶ種々のネットワークを通じる信号及びネットワークリンク821上の信号及び通信インタフェース806を通じる信号は、伝送媒体の例示的な形式である。
【0085】
コンピュータシステム800は、ネットワーク、ネットワークリンク821、及び通信インタフェース806を通じて、プログラムコードを含むメッセージを送信しデータを受信できる。インターネットの例では、サーバ826は、インターネット825、ISP824、ローカルネットワーク822、及び通信インタフェース806を通じて、アプリケーションプログラムのために必要なコードを送信し得る。受信したコードは、プロセッサ802により受信されるとプロセッサ504により実行され、及び/又は後の実行のために記憶装置805若しくは他の不揮発性記憶装置に格納される。
【0086】
応用と効果
【0087】
本開示の上述の態様は、改善されたビデオ品質、改善された時間的安定性、低い計算要件、及び低減されたレイテンシを提供するために使用される可能性のあるメタデータを生成するために提供され得る。
【0088】
本開示に従ったシステム、方法及び装置は、以下の構成のうちの1つ以上を取り入れることができる。
【0089】
ビデオコンテンツを編集する方法であって、
入力ビデオデータを受信するステップと、
前記入力ビデオデータを、所定のフォーマットに変換するステップであって、それにより、変換済みビデオデータを生成する、ステップと、
前記変換済みビデオデータのフレームについて複数の初期メタデータ値を生成するステップであって、前記複数の初期メタデータ値は、前記フレームを含むコンテンツから計算されない第1固定値に対応する第1メタデータ値と、前記フレームの平均輝度値に対応する第2メタデータ値と、前記コンテンツから計算されない第2固定値に対応する第3メタデータ値と、を含む、ステップと、
を含み、
前記第1メタデータ値、前記第2メタデータ値、及び前記第3メタデータ値は、ディスプレイで復号画像をレンダリングするためにデコーダにより使用される情報を含む、システム及び方法が提供される、方法。
【0090】
(2)前記複数の初期メタデータ値を生成する前に、前記変換済みビデオデータに空間平滑化操作を適用するステップ、を更に含む(1)に記載の方法。
【0091】
(3)前記空間平滑化操作は、前記変換済みビデオデータをサブサンプリングすることを含む、(2)に記載の方法。
【0092】
(4)前記空間平滑化操作を適用することは、前記変換済みビデオデータをより小さいサイズに間引くことを含む、(2)又は(3)に記載の方法。
【0093】
(5)前記フレームに対応するビデオデータの一部、前記第1メタデータ値、前記第2メタデータ値、及び前記第3メタデータ値を含む配信ビデオデータを出力するステップ、を更に含む(1)~(4)のいずれか一項に記載の方法。
【0094】
(6)前記第1固定値が前記コンテンツの許容輝度の最小値に対応し、前記第2固定値が前記コンテンツの許容輝度の最大値に対応する、(1)~(5)のいずれか一項に記載の方法。
【0095】
(7)前記所定のフォーマットは知覚量子化高ダイナミックレンジフォーマットである、(1)~(6)のいずれか一項に記載の方法。
【0096】
(8)命令を格納している非一時的コンピュータ可読媒体であって、前記命令は、コンピュータシステムのプロセッサにより実行されると、前記コンピュータシステムに(1)~(6)のいずれか一項に記載の方法を含む動作を実行させる、非一時的コンピュータ可読媒体。
【0097】
(9)ビデオコンテンツを編集するシステムであって、
メモリと、
プロセッサと、
を含み、前記プロセッサは、前記ビデオ編集システムに、
入力ビデオデータを受信させ、
前記入力ビデオデータを、所定のフォーマットに変換させ、それにより、変換済みビデオデータを生成させ、
前記変換済みビデオデータのフレームについて複数の初期メタデータ値を生成させ、前記複数の初期メタデータ値は、前記フレームを含むコンテンツから計算されない第1固定値に対応する第1メタデータ値と、前記フレームの平均輝度値に対応する第2メタデータ値と、前記コンテンツから計算されない第2固定値に対応する第3メタデータ値と、を含む、システム。
【0098】
(10)前記プロセッサは、前記ビデオ編集システムに、
前記複数の初期メタデータ値を生成する前に、前記変換済みビデオデータに空間平滑化操作を適用させるよう構成される、(9)に記載のビデオ編集システム。
【0099】
(11)前記空間平滑化操作は、前記変換済みビデオデータをサブサンプリングすることを含む、(10)に記載のビデオ編集システム。
【0100】
(12)前記空間平滑化操作は、前記変換済みビデオデータをより小さいサイズに間引くことを含む、(10)又は(11)に記載のビデオ編集システム。
【0101】
(13)前記プロセッサは、前記ビデオ編集システムに、
前記フレームに対応するビデオデータの一部、前記第1メタデータ値、前記第2メタデータ値、及び前記第3メタデータ値を含む配信ビデオデータを出力させるよう更に構成される、(9)~(12)のいずれか一項に記載のビデオ編集システム。
【0102】
(14)前記第1固定値が前記コンテンツの許容輝度の最小値に対応し、前記第2固定値が前記コンテンツの許容輝度の最大値に対応する、(9)~(13)のいずれか一項に記載のビデオ編集システム。
【0103】
(15)前記所定のフォーマットは知覚量子化高ダイナミックレンジフォーマットである、(9)~(14)のいずれか一項に記載のビデオ編集システム。
【0104】
(16)ビデオコンテンツを編集する方法であって、
入力ビデオデータを受信するステップと、
前記入力ビデオデータを所定のフォーマットに変換するステップであって、それにより、変換済みビデオデータを生成する、ステップと、
前記変換済みビデオデータのフレームについて第1メタデータ値を生成するステップであって、前記第1メタデータ値は前記フレームの平均輝度値に対応する、ステップと、
前記フレームを含む時間ウインドウを決定するステップであって、前記時間ウインドウは所定の時間長を有する、ステップと、
前記時間ウインドウに渡り最大メタデータ範囲と最小メタデータ範囲を計算するステップであって、それにより、第1フィルタリング済みメタデータ値と第2フィルタリング済みメタデータを生成する、ステップと、
前記フィルタリング済みメタデータ値及び前記第2フィルタリング済みメタデータ値を平滑化するステップであって、それにより、第1平滑化済み且つフィルタリング済みメタデータ値及び第2平滑化済み且つフィルタリング済みメタデータ値を生成する、ステップと、
を含む方法。
【0105】
(17)前記所定の時間長は4秒である、(16)に記載の方法。
【0106】
(18)前記ウインドウは、前記入力ビデオデータの中のシーンカットに跨がらないよう構成される、(16)又は(17)に記載の方法。
【0107】
(19)前記第1メタデータ値を生成する前に、前記変換済みビデオデータに空間平滑化操作を適用するステップ、を更に含む(16)~(18)のいずれか一項に記載の方法。
【0108】
(20)命令を格納している非一時的コンピュータ可読媒体であって、前記命令は、コンピュータシステムのプロセッサにより実行されると、前記コンピュータシステムに(16)~(19)のいずれか一項に記載の方法を含む動作を実行させる、非一時的コンピュータ可読媒体。
【0109】
処理、システム、方法、ヒューリスティック、等に関して本願明細書に説明されたが、理解されるべきことに、このような処理等のステップは、特定の順序付きシーケンスに従い生じるとして説明されたが、このような処理は、本願明細書に記載された順序と異なる順序で実行される記載されたステップと共に実施され得る。特定のステップは同時に実行され得ること、他のステップが追加され得ること、又は本願明細書に記載された特定のステップが省略され得ることが、更に理解されるべきである。言い換えると、本願明細書における処理の説明は、特定の実施形態を説明する目的で提供され、請求項を限定するものとして考えられるべきではない。
【0110】
従って、上記の説明は、説明を意図しており、限定的ではないことが理解されるべきである。上記の説明を読むと、提供された例以外の多くの実施例と適用が明らかになる。範囲は、上述の説明を参照せずに、しかし代わりに添付の請求の範囲を参照して、権利の与えられた該請求の範囲の均等な全範囲とともに、決定されるべきである。ここで議論されている技術に将来の発展が起こり、開示されたシステムと方法がそのような将来の実施形態に組み込まれることが予想され、意図されている。要約すると、本願は変更や変更が可能であることを理解すべきである。
【0111】
特許請求の範囲で使用されているすべての用語は、ここに記載されている技術に精通している者に理解されるように、それらの最も広範で合理的な構成と通常の意味を与えることを意図している。特に、「a」、「the」、「said」などの単数冠詞の使用は、請求項が明示的に反対の制限を述べていない限り、示された要素の1つ以上を述べるために読むべきである。
【0112】
本開示の要約は、読者が技術的開示の特性を素早く評価することを可能にするために提供される。それは、請求項の範囲又は意味を解釈し又は限定するために使用されるものではないことが理解される。更に、前述の詳細な説明では、本開示を合理化する目的で、種々の特徴が種々の実施形態に一緒にグループ化されることが分かる。本開示のこの方法は、請求される実施形態が各請求項に明示的に記載されたものより多くの特徴を組み込むという意図を反映するものと解釈されるべきではない。むしろ、以下の請求項が反映するように、本発明の主題は、単一の開示された実施形態の全部よりも少ない特徴にある。従って、以下の請求の範囲は、ここで詳細な説明に組み込まれ、各請求項は別個に請求される主題としてそれ自体独立である。
【0113】
本発明の種々の態様は、以下に列挙する例示的な実施形態(enumerated example embodiment:EEE)から明らかであり得る。
【0114】
(EEE1)ビデオコンテンツを編集する方法であって、
入力ビデオデータを受信するステップと、
前記入力ビデオデータを、所定のフォーマットに変換するステップであって、それにより、変換済みビデオデータを生成する、ステップと、
前記変換済みビデオデータのフレームについて複数の初期メタデータ値を生成するステップであって、前記複数の初期メタデータ値は、前記フレームを含むコンテンツから計算されない第1固定値に対応する第1メタデータ値と、前記フレームの平均輝度値に対応する第2メタデータ値と、前記コンテンツから計算されない第2固定値に対応する第3メタデータ値と、を含む、ステップと、
を含み、
前記第1メタデータ値、前記第2メタデータ値、及び前記第3メタデータ値は、ディスプレイで復号画像をレンダリングするためにデコーダにより使用される情報を含む、システム及び方法が提供される、方法。
【0115】
(EEE2)前記複数の初期メタデータ値を生成する前に、前記変換済みビデオデータに空間平滑化操作を適用するステップ、を更に含む(EEE1)に記載の方法。
【0116】
(EEE3)前記空間平滑化操作は、前記変換済みビデオデータをサブサンプリングすることを含む、EEE2に記載の方法。
【0117】
(EEE4)前記空間平滑化操作を適用することは、前記変換済みビデオデータをより小さいサイズに間引くことを含む、EEE2又は3に記載の方法。
【0118】
(EEE5)前記フレームに対応するビデオデータの一部、前記第1メタデータ値、前記第2メタデータ値、及び前記第3メタデータ値を含む配信ビデオデータを出力するステップ、を更に含むEEE1~4のいずれか一項に記載の方法。
【0119】
(EEE6)前記第1固定値が前記コンテンツの許容輝度の最小値に対応し、前記第2固定値が前記コンテンツの許容輝度の最大値に対応する、EEE1~5のいずれか一項に記載の方法。
【0120】
(EEE7)前記所定のフォーマットは知覚量子化高ダイナミックレンジフォーマットである、EEE1~6のいずれか一項に記載の方法。
【0121】
(EEE8)命令を格納している非一時的コンピュータ可読媒体であって、前記命令は、コンピュータシステムのプロセッサにより実行されると、前記コンピュータシステムにEEE1~7のいずれかに記載の方法を含む動作を実行させる、非一時的コンピュータ可読記憶媒体。
【0122】
(EEE9)ビデオコンテンツを編集するシステムであって、
メモリと、
プロセッサと、
を含み、前記プロセッサは、前記ビデオ編集システムに、
入力ビデオデータを受信させ、
前記入力ビデオデータを、所定のフォーマットに変換させ、それにより、変換済みビデオデータを生成させ、
前記変換済みビデオデータのフレームについて複数の初期メタデータ値を生成させ、前記複数の初期メタデータ値は、前記フレームを含むコンテンツから計算されない第1固定値に対応する第1メタデータ値と、前記フレームの平均輝度値に対応する第2メタデータ値と、前記コンテンツから計算されない第2固定値に対応する第3メタデータ値と、を含む、システム。
【0123】
(EEE10)前記プロセッサは、前記ビデオ編集システムに、
前記複数の初期メタデータ値を生成する前に、前記変換済みビデオデータに空間平滑化操作を適用させるよう構成される、EEE9に記載のビデオ編集システム。
【0124】
(EEE11)前記空間平滑化操作は、前記変換済みビデオデータをサブサンプリングすることを含む、EEE10に記載のビデオ編集システム。
【0125】
(EEE12)前記空間平滑化操作は、前記変換済みビデオデータをより小さいサイズに間引くことを含む、EEE10又は11に記載のビデオ編集システム。
【0126】
(EEE13)前記プロセッサは、前記ビデオ編集システムに、
前記フレームに対応するビデオデータの一部、前記第1メタデータ値、前記第2メタデータ値、及び前記第3メタデータ値を含む配信ビデオデータを出力させるよう更に構成される、EEE9~12のいずれか一項に記載のビデオ編集システム。
【0127】
(EEE14)前記第1固定値が前記コンテンツの許容輝度の最小値に対応し、前記第2固定値が前記コンテンツの許容輝度の最大値に対応する、EEE9~13のいずれか一項に記載のビデオ編集システム。
【0128】
(EEE15)前記所定のフォーマットは知覚量子化高ダイナミックレンジフォーマットである、EEE9~14のいずれか一項に記載のビデオ編集システム。