IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

特表2023-542897HDRビデオのクラウド・ベースの符号化のための再帰的なセグメントからシーンへのセグメンテーション
<>
  • 特表-HDRビデオのクラウド・ベースの符号化のための再帰的なセグメントからシーンへのセグメンテーション 図1A
  • 特表-HDRビデオのクラウド・ベースの符号化のための再帰的なセグメントからシーンへのセグメンテーション 図1B
  • 特表-HDRビデオのクラウド・ベースの符号化のための再帰的なセグメントからシーンへのセグメンテーション 図2
  • 特表-HDRビデオのクラウド・ベースの符号化のための再帰的なセグメントからシーンへのセグメンテーション 図3A
  • 特表-HDRビデオのクラウド・ベースの符号化のための再帰的なセグメントからシーンへのセグメンテーション 図3B
  • 特表-HDRビデオのクラウド・ベースの符号化のための再帰的なセグメントからシーンへのセグメンテーション 図3C
  • 特表-HDRビデオのクラウド・ベースの符号化のための再帰的なセグメントからシーンへのセグメンテーション 図3D
  • 特表-HDRビデオのクラウド・ベースの符号化のための再帰的なセグメントからシーンへのセグメンテーション 図4
  • 特表-HDRビデオのクラウド・ベースの符号化のための再帰的なセグメントからシーンへのセグメンテーション 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-12
(54)【発明の名称】HDRビデオのクラウド・ベースの符号化のための再帰的なセグメントからシーンへのセグメンテーション
(51)【国際特許分類】
   H04N 19/85 20140101AFI20231004BHJP
   H04N 19/46 20140101ALI20231004BHJP
【FI】
H04N19/85
H04N19/46
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023517840
(86)(22)【出願日】2021-09-17
(85)【翻訳文提出日】2023-03-17
(86)【国際出願番号】 US2021050838
(87)【国際公開番号】W WO2022061089
(87)【国際公開日】2022-03-24
(31)【優先権主張番号】20196876.5
(32)【優先日】2020-09-18
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】63/080,255
(32)【優先日】2020-09-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】カドゥ,ハルシャッド
(72)【発明者】
【氏名】スゥ,グワン-ミーン
(72)【発明者】
【氏名】ガドジル,ニーラジ ジェイ.
(72)【発明者】
【氏名】ホワーン,ツーン-ウエイ
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159LA02
5C159PP16
5C159RC11
5C159TA01
5C159TB02
5C159TB04
5C159TD03
5C159TD07
5C159TD12
5C159TD16
5C159UA02
5C159UA05
(57)【要約】
高ダイナミックレンジ(HDR)ビデオをエンコードするためのクラウド・ベースのシステムにおいて、各ノードはビデオ・セグメントとバンパー・フレームを受領する。各セグメントは、シーン・ベースの前方再整形関数を導出するために一次シーンおよび二次シーンに細分される。これは、複数のノードによって処理されるシーン間の時間的連続性を維持しながら、ビデオ・セグメントを符号化するときの再整形関連のメタデータの量を最小限にするようにする。ビデオ符号化を最適化し、再整形関連のメタデータの符号化効率を向上させるために、シーン・ベースの前方および後方再整形関数を生成する方法も検討される。
【特許請求の範囲】
【請求項1】
高ダイナミックレンジ・ビデオをエンコードするためのクラウド・ベースのシステムを用いてビデオ・セグメントをシーンにセグメンテーションする方法であって、当該方法は:
前記クラウド・ベースのシステムの現在コンピューティング・ノードによって、高ダイナミックレンジのビデオ・フレームを含む第1のビデオ・シーケンスを受領する段階と;
前記第1のビデオ・シーケンスにおける各ビデオ・フレームについて、前記ビデオ・フレームを前記高ダイナミックレンジから前記高ダイナミックレンジよりも低い第2のダイナミックレンジにマッピングするフレーム・ベースの前方再整形関数を生成する段階と;
前記第1のビデオ・シーケンスについてのシーン・カットの集合を使って、前記第1のビデオ・シーケンスについての一次シーンの集合を生成する段階と;
前記一次シーンの集合に基づいて、前記第1のビデオ・シーケンスについてのシーンの第2の集合を生成する段階であって、前記現在コンピューティング・ノードと前記クラウド・ベースのシステムの近傍コンピューティング・ノードにまたがって符号化されるビデオ・フレームをもつ親シーンに属する一次シーンが二次シーンに分割される、段階と;
シーンの前記第2の集合における各シーンについて、そのシーン内のビデオ・フレームを前記高ダイナミックレンジから前記第2のダイナミックレンジにマッピングするシーン・ベースの前方再整形関数を生成する段階と;
前記シーン・ベースの前方再整形関数を前記第1のビデオ・シーケンスにおけるビデオ・フレームに適用して、前記第2のダイナミックレンジのビデオ・フレームを含む出力ビデオ・シーケンスを生成する段階と;
前記出力ビデオ・シーケンスを圧縮して、符号化ビットストリームを生成する段階とを含む、
方法。
【請求項2】
一次シーンが与えられた場合、該一次シーンについての二次シーンのリストを生成することは:
前記一次シーンの集合に基づいて、二次シーンの集合と違反シーンの集合を初期化する段階と;
前記フレーム・ベースの前方再整形関数に基づいて、平滑性閾値の一つまたは複数の集合を生成する段階と;
境界違反がなくなるまで:
前記違反シーンの集合における各シーンを2つの新しいサブシーンに分割し;
空集合を用いて、違反シーンの更新された集合を生成し;
前記の新しいサブシーンを二次シーンの前記集合に追加することによって、二次シーンの更新された集合を生成し;
平滑性閾値の前記一つまたは複数の集合を使用して、二次シーンの前記集合における一つまたは複数の境界違反チェックを実行し;
二次シーンの前記集合における2つのサブシーンの間に少なくとも1つの境界違反がある場合は、該2つのサブシーンを前記違反シーンの集合に追加し、違反シーンの前記更新された集合と二次シーンの前記更新された集合を用いて前記一次シーンを細分することを続け;
そうでない場合は、境界違反がないことを信号伝達し、二次シーンの前記リストを出力することを繰り返す段階とを実行することを含む、
請求項1に記載の方法。
【請求項3】
前記第1のビデオ・シーケンスについてのシーン・カットの集合を使って前記一次シーンの集合を生成することは:
ファイルからの前記第1のビデオ・シーケンスについてのシーン・カットの第1の集合にアクセスする段階と;
自動シーン変化検出器を使用して前記第1のビデオ・シーケンスについてのシーン・カットの第2の集合を生成する段階と;
シーン・カットの前記第1の集合とシーン・カットの前記第2の集合の交わりに基づいてシーン・カットの最終集合を生成する段階と;
シーン・カットの前記最終集合を使用して前記一次シーンの集合を生成する段階とを含む、
請求項1または2に記載の方法。
【請求項4】
前記違反シーンの集合におけるシーンPgが与えられた場合、そのシーンはフレーム位置Csで分割され、
シーンPgが、現在コンピューティング・ノードより前の、前記クラウド・ベースのシステムのコンピューティング・ノードにおいて処理されるフレームをもつ親シーンの一部である一次シーンを含む場合、
Cs=C0+B
であり、ここで、C0は前記第1のビデオ・シーケンスの最初のフレームを表し、Bは前記クラウド・ベースのシステムの2つの隣接するコンピューティング・ノードによって共有されるバンパー・フレームの数を表し;
そうでない場合で、シーンPgが、現在コンピューティング・ノードより後の、前記クラウド・ベースのシステムのコンピューティング・ノードにおいて処理されるフレームをもつ親シーンの一部である一次シーンを含む場合、
Cs=CL-1-B
であり、ここで、CL-1は前記第1のビデオ・シーケンスにおける最後のフレームを示し;
そうでない場合で、シーンPgが2次シーンを含む場合、
【数59】
であり、ここで、
【数60】
は、入力符号語bの関数として、前記第1のビデオ・シーケンスにおけるフレームjについてのフレーム・ベースの前方再整形関数を表し、
【数61】
は、シーンPgに関連するフレームについてのフレーム・ベースの前方再整形関数の平均を表す、
請求項1ないし3のうちいずれか一項に記載の方法。
【請求項5】
前記一つまたは複数の平滑性閾値を生成することは、前記第1のビデオ・シーケンスにおける各フレームjについての平滑性閾値
【数62】
の第1の集合を計算することを含み、
【数63】
であり、ここで、
【数64】
であり、ここで、
【数65】
は、入力符号語bの関数として、前記第1のビデオ・シーケンスにおけるフレームjについてのフレーム・ベースの前方再整形関数を表し、hj v(b)は前記第1のビデオ・シーケンスにおけるj番目のフレームのヒストグラムを表し、HおよびWは前記第1のビデオ・シーケンスにおけるフレームについての幅および高さの値を表す、
請求項1ないし4のうちいずれか一項に記載の方法。
【請求項6】
平滑性閾値の第2の集合
【数66】
を計算する段階をさらに含み、
【数67】
であり、αおよびβは定数である、請求項5に記載の方法。
【請求項7】
フレームCg-1から始まる二次シーンPg-1およびフレームCgから始まる二次シーンPgについて、それら2つのシーンの間で前記一つまたは複数の境界違反チェックを実行することが:
【数68】
が真であるかどうかを試験し、真であれば境界違反を宣言し、ここで、ωは定数であり、
ΔCg=λCg-λCg-1
であり、シーンPg内のフレームjについて、
【数69】
であり、
【数70】
は、2次シーンPgおよび近傍2次シーンにおけるフレーム・ベースの前方再整形関数の平均を表す、
請求項6に記載の方法。
【請求項8】
【数71】
であり、θは2つのサブシーン間のフレーム重複を表す整数定数であり、C0およびCL-1は前記第1のビデオ・シーケンスにおける最初と最後のフレームを表す、
請求項7に記載の方法。
【請求項9】
【数72】
が真であるかどうかを試験し、真であれば境界違反を宣言することをさらに含み、
ここで、実数xについて、sign(x)はx=0であれば0、x>0であれば1、x<0であれば-1を返す、請求項7または8に記載の方法。
【請求項10】
【数73】
が真であるかどうかを試験し、真であれば境界違反を宣言することをさらに含む、請求項7ないし9のうちいずれか一項に記載の方法。
【請求項11】
シーンの前記第2の集合における各シーンについてシーン・ベースの前方再整形関数を生成することが:
シーンの前記第2の集合におけるシーンが一次シーンである場合、そのシーンについてのシーン・ベースの前方再整形関数を、シーン内のフレームから生成された統計データのみに基づいて生成し;それ以外の場合で、
シーンの前記第2の集合におけるシーンが二次シーンである場合、そのシーンについてのシーン・ベースの前方再整形関数を、シーン内のフレームと近傍の二次シーンからのフレームからの統計に基づいて生成することを含む、
請求項1ないし10のうちいずれか一項に記載の方法。
【請求項12】
前記出力ビデオ・シーケンス、前記第1のビデオ・シーケンス、および前記シーン・ベースの前方再整形関数に基づいて、シーン・ベースの後方再整形関数を生成する段階と;
前記シーン・ベースの後方再整形関数のパラメータに基づいてメタデータを生成する段階と;
前記符号化ビットストリームと前記メタデータを含む出力ビットストリームを出力する段階とをさらに含む、
請求項11に記載の方法。
【請求項13】
請求項1ないし請求項12のうちいずれか一項に記載の方法を一つまたは複数のプロセッサで実行するためのコンピュータ実行可能命令を記憶している、非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項14】
プロセッサを有しており、請求項1ないし12のうちいずれか一項に記載の方法を実行するように構成された装置。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2020年9月18日に出願された米国仮特許出願第63/080,255号および2020年9月18日に出願された欧州特許出願第20196876.5号による優先権の利益を主張するものであり、これらはここに参照により本願に組み込まれる。
【0002】
技術
本開示は一般的には画像に関する。より具体的には、本発明のある実施形態は、クラウド・ベースの符号化アーキテクチャーにおいてHDRビデオを処理するための再帰的なビデオ・セグメントからシーンへのセグメンテーションに関する。
【背景技術】
【0003】
本願で使用されるところでは、「ダイナミックレンジ」(DR)という用語は、たとえば最も暗い灰色(黒)から最も明るい白(ハイライト)までの、画像における強度の範囲(たとえば、ルミナンス、ルーマ)を知覚する人間の視覚系(HVS)の能力に関連しうる。この意味で、DRは「シーン基準の(scene-referred)」強度に関する。DRは、特定の幅の強度範囲を十分にまたは近似的にレンダリングするディスプレイ装置の能力に関することもある。この意味で、DRは「ディスプレイ基準の(display-referred)」強度に関する。ここでの説明におけるいずれかの時点で特定の意味が特定の重要性をもつと明示的に指定されているのでない限り、この用語はどちらの意味でも、たとえば互換的に使用されうると推定されるべきである。
【0004】
ここで使用されるところでは、高ダイナミックレンジ(HDR)という用語は、人間の視覚系(HVS)の14~15桁にまたがるDR幅に関連している。実際上は、人間が強度範囲における広範な幅を同時に知覚しうるDRは、HDRに比べて多少切り捨てられることがある。ここで使用されるところでは、視覚ダイナミックレンジ(VDR)または向上ダイナミックレンジ(EDR)という用語は、個々にまたは交換可能に、シーンまたはイメージ全体にわたるいくらかの光順応変化を考慮して、シーンまたは画像内で目の動きを含む人間の視覚系(HVS)によって知覚可能なDRに関しうる。ここで使用されるところでは、VDRは5から6桁にわたるDRに関しうる。よって、おそらくは真のシーン基準のHDRと比べるとやや狭いが、それでもVDRまたはEDRは広いDR幅を表し、HDRと呼ばれることもある。
【0005】
実際上は、画像は一つまたは複数の色成分(たとえば、ルーマYおよびクロマCbとCr)を含み、各色成分はピクセルあたりnビット(たとえばn=8)の精度で表される。たとえば、ガンマ・ルミナンス符号化を使用すると、n≦8(たとえばカラー24ビットJPEG画像)は標準ダイナミックレンジの画像と見なされ、n≧10は向上ダイナミックレンジの画像と見なされうる場合がある。HDR画像は、Industrial Light and Magicによって開発されたOpenEXRファイル・フォーマットなどの高精度(たとえば16ビット)の浮動小数点フォーマットを使用して記憶および配信されてもよい。
【0006】
現在、ほとんどの消費者向けデスクトップ・ディスプレイは、200から300cd/m2またはニトのルミナンスをサポートしている。ほとんどの消費者向けHDTVは300から500ニトの範囲であり、新しいモデルは1000ニト(cd/m2)に達する。そのような従来のディスプレイは、HDRに対して標準ダイナミックレンジ(SDR)とも呼ばれる低ダイナミックレンジ(LDR)の典型である。補足設備(たとえばカメラ)とHDRディスプレイ(たとえばドルビー・ラボラトリーズからのPRM-4200業務用参照モニター)の両方における進歩のため、HDRコンテンツの利用可能性が高まるにつれ、HDRコンテンツはカラーグレーディングされ、より高いダイナミックレンジ(たとえば1000ニトから5000ニトまたはそれ以上)をサポートするHDRディスプレイで表示されることがある。
【0007】
ここで使用されるところでは、「前方再整形(forward reshaping)」という用語は、もとのビット深さおよびもとの符号語分布または表現(たとえば、ガンマ、PQ、HLGなど)から、同じまたは異なるビット深さおよび異なる符号語分布または表現への、デジタル画像の、サンプルからサンプルへのまたは符号語から符号語へのマッピングのプロセスを表す。再整形は、固定ビットレートでの改善された圧縮性または改善された画像品質を許容する。たとえば、限定されるものではないが、10ビットのビデオ符号化アーキテクチャーにおける符号化効率を改善するために、10ビットまたは12ビットのPQ符号化されたHDRビデオに再整形が適用されてもよい。受信機において、受信信号(これは再整形されてもされなくてもよい)を圧縮解除した後、受信機は、「逆(または後方)再整形関数」を適用して、信号をもとの符号語分布に復元し、および/または、より高いダイナミックレンジを達成することができる。
【0008】
多くのビデオ配信シナリオでは、HDRビデオは、典型的には「クラウド・コンピューティング・サーバー」と呼ばれるマルチプロセッサ環境において符号化されることがある。そのような環境では、コンピューティングの容易さ、コンピューティング・ノード間の作業負荷バランス、およびビデオ品質の間のトレードオフによって、再整形関連のメタデータがフレームごとに更新されることが強制されることがあり、これは、特に低ビットレートでビデオを伝送する場合に、受け入れられないオーバーヘッドを生じる可能性がある。ここで発明者によって理解されているように、クラウド・ベースの環境において再整形関連のメタデータのオーバーヘッドを最小限にするための、セグメントからシーンへのセグメンテーションのための改善された技術が望まれている。
本セクションで記述されたアプローチは、追求されることができたが必ずしも以前に着想または追求されたアプローチではない。したがって、特に断りのない限り、本セクションにおいて記述されるアプローチはいずれも、本セクションに含まれているというだけのために従来技術の資格をもつと想定されるべきではない。同様に、特に断りのない限り、一つまたは複数のアプローチに関して特定されている問題は、このセクションに基づいて何らかの従来技術において認識されていたと想定されるべきではない。
下記の参考文献のそれぞれは、その全体が参照により援用される。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】米国特許第10,575,028号、H. Kadu et al.、"Coding of high-dynamic range video using segment-based reshaping"
【特許文献2】米国特許第8,811,490号、G-M. Su et al.、"Multiple color channel multiple regression predictor"
【特許文献3】国際公開第2019/217751号、Q. Song et al.、PCT特許出願第PCT/US2019/031620号、"High-fidelity full reference and high-efficiency reduced reference encoding in end-to-end single-layer backward compatible encoding pipeline"、2019年5月9日出願
【特許文献4】米国特許第10,264,287号、B. Wen et al.、"Inverse luma/chroma mappings with histogram transfer and approximation"
【特許文献5】米国特許第10,397,576号、H. Kadu and G-M. Su、"Reshaping curve optimization in HDR coding"
【特許文献6】米国仮特許出願第63/049,673号、G-M. Su et al., “Workload allocation and processing in cloud-based coding of HDR video”、2020年7月9日出願
【図面の簡単な説明】
【0010】
本発明の実施形態は、限定ではなく例として、添付の図面の図に示されており、同様の参照番号は同様の要素を指す。
【0011】
図1A】従来技術による、再整形関数を使用したHDRデータ用の例示的な単層エンコーダを示している。
【0012】
図1B】従来技術による、図1Aのエンコーダに対応する例示的なHDRデコーダを示している。
【0013】
図2】ある実施形態による、HDRビデオのクラウド・ベースのエンコードのための例示的なアーキテクチャーおよび処理パイプラインを示している。
【0014】
図3A】ビデオ入力をセグメントに分割し、バンパー・フレームを3つのノードに割り当てる例を示している。
【0015】
図3B】シーン・カットをマージして一次シーンのリストを生成する例を示している。
【0016】
図3C】2つのコンピューティング・ノードに分割された一次シーンの例を示している。
【0017】
図3D】ある実施形態による、シーン・ベースの前方再形成関数を導出するために使用される統計窓の例を示している。
【0018】
図4】ある実施形態による、逐次反復的なセグメントからシーンへのセグメンテーション・プロセスの例を示している。
【0019】
図5】本発明のある実施形態による、再整形を使用したシーン・ベースのエンコードのための例示的なエンコーダを示す。
【発明を実施するための形態】
【0020】
本願では、HDRビデオのクラウド・ベースのビデオ・コーディング〔符号化〕におけるシーン・セグメンテーションとノード・ベースの処理のための方法が記載される。以下の記述では、説明のために、本発明の十全な理解を提供するよう、多数の個別的な詳細が記載される。しかしながら、これらの個別的な詳細なしに本発明が実施されてもよいことは明らかであろう。他方では、本発明を不必要に埋没させたり、不明瞭にしたり、難読化したりすることを避けるために、よく知られた構造や装置は網羅的な詳細さでは説明されていない。
【0021】
概要
本願に記載されている例示的実施形態は、HDR画像のクラウド・ベースの再整形およびコーディングに関する。ある実施形態では、HDRビデオをエンコードするためのクラウド・ベースのシステムにおいて、現在のノードは、高ダイナミックレンジのビデオ・フレームを含む第1のビデオ・シーケンスを受領する。次いで、ノード内の一つまたは複数のプロセッサが:
第1のビデオ・シーケンス内の各ビデオ・フレームについて、フレーム・ベースの前方再整形関数を生成する段階であって、前方再整形関数は、フレーム・ピクセルを高ダイナミックレンジから高ダイナミックレンジよりも低い第2のダイナミックレンジにマッピングする、段階と;
第1のビデオ・シーケンスについての一次シーンの集合を生成する段階と;
一次シーンの集合、一つまたは複数の一次シーンから導出された二次シーン、および前記フレーム・ベースの前方再整形関数に基づいて、第1のビデオ・シーケンスについてのシーンの第2の集合を生成する段階と;
シーンの第2の集合に基づいてシーン・ベースの前方再整形関数を生成する段階と;
前記シーン・ベースの前方再整形関数を第1のビデオ・シーケンスに適用して、第2のダイナミックレンジの出力ビデオ・シーケンスを生成する段階と;
前記出力ビデオ・シーケンスを圧縮して、第2のダイナミックレンジの符号化ビットストリームを生成する段階とを実行し、ここで、一次シーンが与えられた場合、該一次シーンについての二次シーンのリストを生成することは:
一次シーンの集合に基づいて、二次シーンの集合と違反シーンの集合を初期化する段階と;
前記フレーム・ベースの前方再整形関数に基づいて、平滑性閾値の一つまたは複数の集合を生成する段階と;
境界違反がなくなるまで:
違反シーンの集合における各シーンを2つの新しいサブシーンに分割し;
空集合を用いて、違反シーンの更新された集合を生成し;
前記の新しいサブシーンを二次シーンの前記集合に追加することによって、二次シーンの更新された集合を生成し;
平滑性閾値の前記一つまたは複数の集合を使用して、二次シーンの前記集合における一つまたは複数の境界違反チェックを実行し;
二次シーンの前記集合における2つのサブシーンの間に少なくとも1つの境界違反がある場合は、該2つのサブシーンを違反シーンの集合に追加し、違反シーンの更新された集合と二次シーンの更新された集合を用いて一次シーンを細分することを続け;
そうでない場合は、境界違反がないことを信号伝達し、二次シーンのリストを出力することを繰り返す段階とを実行する。
【0022】
例示的なHDR符号化システム
図1Aおよび図1Bは、従来技術に基づき、画像再整形を用いた例示的な単一層の後方互換なコーデック・フレームワークを示す。より具体的には、図1Aは、上流のビデオ・エンコーダ内の一つまたは複数のコンピューティング・プロセッサで実装されうる例示的なエンコーダ・アーキテクチャーを示す。図1Bは、一つまたは複数の下流のビデオ・デコーダ内のやはり一つまたは複数のコンピューティング・プロセッサで実装されうる例示的なデコーダ・アーキテクチャーを示す。
【0023】
この枠組みの下では、参照HDRコンテンツ(120)および対応する参照SDRコンテンツ(125)(すなわち、HDRコンテンツと同じ画像を表すが、カラーグレーディングされ、標準ダイナミックレンジで表現されるコンテンツ)が与えられて、再整形されたHDRコンテンツ(134)が、エンコーダ・アーキテクチャーを実装する上流のエンコード装置によって、符号化されたビデオ信号(144)の単一層におけるSDRコンテンツとしてエンコードされ、伝送される。受領されたSDRコンテンツは、ビデオ信号の単一層において、デコーダ・アーキテクチャーを実装する下流のデコード装置によって受領され、デコードされる。後方再整形メタデータ(152)も、再整形されたコンテンツと一緒にビデオ信号においてエンコードされ、伝送され、それにより、HDR表示装置が(再整形された)SDRコンテンツおよび後方再整形メタデータに基づいてHDRコンテンツを再構成できる。一般性を失うことなく、非後方互換なシステムにおけるようないくつかの実施形態では、再整形されたSDRコンテンツは、それ自体では閲覧可能ではなくてもよく、閲覧可能なSDRまたはHDRコンテンツを生成する後方再整形関数と組み合わせて閲覧されなければならない。後方互換性をサポートする他の実施形態では、後方再整形関数を用いることなく、レガシーSDRデコーダでも、受領されたSDRコンテンツを再生できる。
【0024】
図1Aに示されるように、HDR画像(120)、SDR画像(125)および目標ダイナミックレンジを与えられて、ステップ130が前方再整形関数を生成する。該生成された前方再整形関数を与えられて、前方再整形マッピング・ステップ(132)がHDR画像(120)に適用されて、再整形されたSDR基本層(134)が生成される。圧縮ブロック(142)(たとえば、AVC、HEVC、AV1などの任意の既知のビデオ符号化アルゴリズムに従って実装されたエンコーダ)は、ビデオ信号の単一層(144)においてSDR画像(134)を圧縮/エンコードする。さらに、後方再整形関数生成器(150)は、メタデータ(152)としてデコーダに伝送されうる後方再整形関数を生成することができる。いくつかの実施形態では、メタデータ(152)は、前方再整形関数(130)を表すことができ、よって、後方再整形関数(図示せず)を生成するのはデコーダに任される。
【0025】
最適な後方再整形関数を表す/指定する後方再整形メタデータの例は、必ずしもこれらのみに限定されないが:逆トーンマッピング関数、逆ルーマ・マッピング関数、逆クロマ・マッピング関数、ルックアップテーブル(LUT)、多項式、逆表示管理係数/パラメータなどのうちの任意のものを含みうる。さまざまな実施形態において、ルーマ後方再整形関数およびクロマ後方再整形関数は、合同してまたは別個に導出/最適化されてもよく、たとえば限定なしに、本開示で後述するような多様な技術を使用して導出されてもよい。
【0026】
再整形されたSDR画像(134)および目標HDR画像(120)に基づいて後方再整形関数生成器(150)によって生成される後方再整形メタデータ(152)は、ビデオ信号144の一部として、たとえば補足向上情報(supplemental enhancement information、SEI)メッセージングとして多重化されてもよい。
【0027】
いくつかの実施形態では、後方再整形メタデータ(152)は、全体的な画像メタデータの一部としてビデオ信号において搬送され、該メタデータは、ビデオ信号においてSDR画像がエンコードされる単一層とは別個にビデオ信号において搬送される。たとえば、後方再整形メタデータ(152)は、符号化ビットストリームにおける成分ストリームにおいてエンコードされてもよく、該成分ストリームは、SDR画像(134)がエンコードされる(符号化ビットストリームの)単一層と別個であってもなくてもよい。
【0028】
このように、後方再整形メタデータ(152)は、エンコーダ側で利用可能な強力な計算資源およびオフライン・エンコード・フロー(コンテンツ適応多重パス(content adaptive multiple passes)、先読み動作、逆ルーマ・マッピング、逆クロマ・マッピング、CDFベースのヒストグラム近似および/または転送(transfer)等を含むが、これらに限定されない)を利用するために、エンコーダ側で生成または予備生成されることができる。
【0029】
図1Aのエンコーダ・アーキテクチャーは、目標HDR画像(120)をビデオ信号中の符号化された/圧縮されたHDR画像に直接エンコードすることを避けるために使用されることができ;その代わりに、ビデオ信号中の後方再整形メタデータ(152)を使うことで、下流のデコード装置が(ビデオ信号中にエンコードされた)SDR画像(134)を、参照HDR画像(120)と同一であるか、またはそれをよく近似する/最適に近似する再構成された画像に後方再整形することができるようにすることができる。
【0030】
いくつかの実施形態では、図1Bに示されるように、単一層(144)における再整形されたSDR画像でエンコードされたビデオ信号および全体的な画像メタデータの一部としての後方再整形メタデータ(152)が、コーデック・フレームワークのデコーダ側で入力として受領される。圧縮解除ブロック(154)は、ビデオ信号の単一層(144)における圧縮されたビデオ・データをデコードされたSDR画像(156)に圧縮解除/デコードする。圧縮解除154は、典型的には、圧縮142の逆に対応する。デコードされたSDR画像(156)は、SDR表示装置のために最適化されていてもよい圧縮ブロック(142)および圧縮解除ブロック(154)における量子化誤差のもとで、SDR画像(134)と同じであってもよい。後方互換なシステムでは、デコードされたSDR画像(156)は、SDR表示装置上でレンダリングされるよう出力SDRビデオ信号において(たとえばHDMI(登録商標)インターフェースを通じて、ビデオ・リンクを通じて、などで)出力されてもよい。
【0031】
任意的に、代替的にまたは追加的に、同じまたは別の実施形態において、後方再整形ブロック158は、入力ビデオ信号から後方(または前方)再整形メタデータ(152)を抽出し、再整形メタデータ(152)に基づいて後方再整形関数を構築し、最適な後方再整形関数に基づいて、デコードされたSDR画像(156)に対して後方再整形演算を実行して、後方再整形された画像(160)(または再構成されたHDR画像)を生成する。いくつかの実施形態では、後方再整形画像は、参照HDR画像(120)と同一であるかまたはそれをよく近似する/最適に近似する、プロダクション品質またはほぼプロダクション品質のHDR画像を表す。後方再整形画像(160)は、HDR表示装置上でレンダリングされるよう、出力HDRビデオ信号において(たとえばHDMI(登録商標)インターフェースを通じて、ビデオ・リンクを通じて、などで)出力されてもよい。
【0032】
いくつかの実施形態では、HDR表示装置に特有の表示管理動作が、HDR表示装置上で後方再整形された画像(160)をレンダリングするHDR画像レンダリング動作の一部として、後方再整形された画像(160)に対して実行されてもよい。
【0033】
クラウド・ベースの符号化
既存の再整形技術は、フレーム・ベースであってもよく、すなわち、新しい再整形メタデータが新しいフレームごとに送信される、あるいはシーン・ベースであってもよく、すなわち、新しい再整形メタデータが新しいシーンごとに送信される。本明細書で使用されるところでは、ビデオ・シーケンス(フレーム/画像のシーケンス)についての用語「シーン」は、同様のルミナンス、色、およびダイナミックレンジ特性を共有する、ビデオ・シーケンス内の一連の連続するフレームに関連しうる。シーン・ベースの方法は、完全なシーンにアクセスできるビデオ・ワークフロー・パイプラインではうまく機能する。だが、コンテンツ・プロバイダーがクラウド・ベースのマルチプロセッシングを使用することは珍しくなく、その場合、ビデオ・ストリームをセグメントに分割した後、各セグメントはクラウド内の単一の計算ノードによって独立して処理される。本明細書で使用するところでは、「セグメント」という用語は、ビデオ・シーケンスにおける一連の連続するフレームを示す。セグメントはシーンの一部であってもよく、または一つまたは複数のシーンを含んでいてもよい。よって、シーンの処理は、複数のプロセッサにまたがって分割されることがある。
【0034】
特許文献1で論じられているように、ある種のクラウド・ベースのアプリケーションでは、ある種の品質制約条件の下で、セグメント・ベースの処理は、フレームごとに再整形メタデータを生成することを必要とし、望ましくないオーバーヘッドをもたらす可能性がある。これは、非常に低いビットレート(たとえば、1Mbit/s未満)のアプリケーションで問題になりうる。特許文献6は、a)シーンをセグメントに割り当てる単一のコンピューティング・ノード上で実装される発注者ステージと、b)クラウド中の各ノードがセグメントのシーケンスをエンコードするエンコード・ステージとを含む2ステージのアーキテクチャーを使ってこの問題に対する解決策を提案した。シーンがセグメント化された後、提案されるシーンからセグメントの割り当てプロセスは、諸シーンの諸ノードへの初期のランダム割り当てと、それに続く、全ノードにわたる割り当てコストを最適化することに基づく洗練された割り当てとを用いた一つまたは複数の反復工程を含む。そのような実装では、各ノードにおいて処理されるビデオの全長は、すべてのノードにわたって変わりうる。
【0035】
本願で提示される実施形態は、代替的な解決策を提供する。各セグメントが別個のノードによって処理されるべくシーケンスがセグメントに分割された後、各ノードでは、各サブセグメントの対応する再整形関数を更新する必要を最小限にするように、各セグメントがサブセグメント(またはシーン)に細分され、こうして、再整形関連のメタデータを送信するために必要なオーバーヘッドが最小限にされる。
【0036】
図2は、ある実施形態によるHDRビデオのクラウド・ベースのエンコードのための例示的なアーキテクチャーおよび処理パイプラインを示す。典型的にはメザニン(mezzanine)ファイルと呼ばれる、コンテンツ配信のためのビデオ・ソース(202)と、作業ノードの集合とを与えられて、各ノード(たとえばノード205-N)は、次のようにして、処理されるべき、ビデオ・ピクチャー(またはフレーム)および対応するビデオ・メタデータ(207)を(たとえば、XMLファイルから)フェッチする。
【0037】
前処理段階210では、メザニン入力がセグメントに分割され、各セグメントが異なるコンピューティング・ノード(たとえばノード205-N)に割り当てられる。これらのセグメントは相互に排他的であり、つまり共通するフレームをもたない。各ノードは、セグメント内の最初のフレームの前にある、ある数のフレームと、セグメント内の最後のフレームの後にあるいくつかのフレームをも取得する。これらの前と後の重複フレームは、バンパー・フレーム(bumper frame)と呼ばれ、それぞれ前と次のノードとの時間的一貫性を維持するためにのみ使用される。バンパー・フレームはノードによってエンコードされない。一般性を失うことなく、ある実施形態では、これらのビデオ・セグメントは、おそらく最後のノードに割り当てられたセグメントを除いて、すべて等しい固定長であってもよい。例として、メザニン(305)をバンパー・フレーム(たとえば309)とともに3つのセグメント(307-1、307-2、307-3)に分配し、これらのフレームを異なるノードに割り当てるサンプルが図3Aに示されている。限定なしに、30秒の長さのセグメントと片側2秒の長さのバンパー・セクションについては、例示的実施形態は次の配置を含みうる:
・1800個のフレームをもつセグメント・セクションと120個のフレームをもつバンパー・セクション、60fps
・1500個のフレームをもつセグメント・セクションと100個のフレームをもつバンパー・セクション、50fps
・720個のフレームをもつセグメント・セクションと48個のフレームをもつバンパー・セクション、24fps
【0038】
前処理段階210が終わった後、各ノードはそのフレームへのアクセスを得て、2パスのアプローチが続く。
・パス1(段階215、220)では、セグメント内のシーンのリスト(222)が生成される。XMLファイルから抽出されたシーン・カット(209)と自動シーン・カット検出器(215)を使用して生成されたシーン・カットが段階220において組み合わされて、一次シーンの第1のリストが得られる。複数のノードにまたがって符号化される親シーンに属する一次シーンは、二次シーンに細分されてもよい。複数のノードにまたがって分散されたシーンにおける時間的一貫性を維持するために、バンパー・フレームと新規な再帰的シーン分割アルゴリズムも提供される。分割は追加のシーンを生成する。それがシーンの第1のリストに追加されて第2のリストが得られる。シーンのこの第2のリスト(222)はパス2に渡される。
・パス2(段階225、230、235)は、パス1から受け取ったシーンのリストを使用して、セグメント内の各シーンについて前方および後方再整形を実行する。シーン・ベースの前方再整形関数(227)を使用した前方再整形(225)は、再整形されたSDRセグメント(229)を生成し、後方再整形ユニット(235)は、HDR入力を再構成するためにデコーダによって使用されるメタデータ・パラメータを生成する。再整形されたSDR入力(229)は圧縮され(230)、圧縮されたビデオ・データと再整形されたメタデータが一緒に組み合わされて、圧縮されたビットストリーム(240)が生成される。
【0039】
議論の簡単のため、Lはセグメント内のフレーム数を表し、Bは各バンパー・セクション内のフレーム数を表すとする。メザニンにおけるi番目のフレームをfiと表すとする。ある実施形態では、第1のノードはセグメント部分にあるフレームf0~fL-1をエンコードする。このノードは左バンパーをもたず、その右バンパーはフレーム範囲fL~fL+B-1にまたがっている。ノードNのセグメント部分は、フレームf(N-1)L~fNL-1を処理する。ここで、f(N-1)L-B~fi(N-1)L-1は左バンパーであり、fNL~fNL+B-1は右バンパーである。最後のノードは右バンパー・セクションをもたず、セグメント部分においてL個よりも少ないフレームをもつことがありうる。
【0040】
ノードNが与えられると、ノードN-1は左/前の近傍ノードであり、ノードN+1は右/次の近傍である。Nに対して左/前のノードであるノードへの言及は、0からN-1のすべてのノードを表す。同様に、Nに対して右/次であるノードへの言及は、N+1から最後のノードまでのすべてのノードを表す。ここで、前述の2つのパスについて詳しく説明する。
【0041】
パス1:セグメントからシーンの生成
このパスの主な目的は、ノードに割り当てられたセグメント内のシーンのリストを生成することである。このプロセスは、ノード・セグメントおよび両方のバンパー・セクションを含む、ノードに割り当てられたすべてのフレーム内のシーン・カットを検出することによって始まる。セグメント内のシーン・カットのみが、最終的にパス2によって、シーン・ベースのエンコードのために使用される。しかし、バンパー・セクション内のシーンは、それでも、近傍ノードとの時間的な一貫性を維持するために有用である。
【0042】
カラリストが指定したシーン・カット(209)が、XMLファイル(207)から読み込まれる。自動シーン・カット検出器(215)が、可能なシーン・カット位置を識別してもよい。カラリストおよび自動検出器からのこれらのシーン・カットは、一次シーンとして知られるシーンの第1のリストを取得するためにマージされる。セグメント境界上の一次シーンは、バンパー・フレームおよび新規なシーン分割手法を使用して分割される。セグメント境界上の一次シーンを分割すると、二次シーンまたはサブシーンと呼ばれる追加のシーンが作成される。シーンの第1のリストに二次シーンが追加されて、第2のリストが得られる。次いでこのリストは、シーン・ベースのエンコードのためにパス2によって使用される。シーンのリストとは別に、パス2は、二次シーンの前方再整形のために補助データ(212)をも必要とすることがある。各段階についての詳細は、次に説明する。
【0043】
カラリストやプロのカラーグレーダーは、通例、各シーンを1つの単位として処理する。目標(たとえば、適切なカラーグレーディング、フェードインとフェードアウトの挿入など)を達成するには、シーケンス内のシーン・カットを手動で検出する必要がある。この情報はXMLファイルに格納され、他の目的にも使用できる。すべてのノードは、そのセグメントのための有意なシーン・カットのみをXMLファイルから読む。これらのシーン・カットは、セグメント・セクション内またはバンパー・セクション内にありうる。
【0044】
XMLシーン・カットはカラリストによって定義されるが、完全に正確ではない。グレーディングの目的で、時にカラリストは、ディゾルブ・シーンの途中で、またはシーンのフェードインまたはフェードアウト部分の先頭にシーン・カットを導入する。これらのシーン・カットは、再整形フェーズにおいて考慮に入れられると、再構成されたHDRビデオにおいて点滅を引き起こすことがあり、通常は避けられるべきである。この理由で、ある実施形態では、自動シーン・カット検出器(automatic scene-cut detector、Auto-SCD)215も採用されている。
【0045】
自動シーン・カット検出器またはAuto-SCDは、連続するビデオ・ピクチャーの異なるセクションにおけるルミナンス・レベルの変化を使用して、シーン変化を検出する。当技術分野で知られている任意のシーン・カット検出器が前記自動検出器として使用できる。ある実施形態では、そのような自動検出器はビデオの一部をディゾルブ、フェードイン、またはフェードアウトすることに関知せず、それでもすべての真のシーン・カットを正しく検出できる。
【0046】
自動検出器に関する潜在的な問題は偽陽性である。カメラのパン、動き、隠蔽などによるシーン内の明るさの変化があることがあり、これらの明るさの変化もAuto-SCDによってシーン・カットとして検出されることがある。これらの誤検出を破棄するために、ある実施形態では、XMLファイルからのシーン・カットと、Auto-SCDからのシーン・カットが段階220で一緒にマージされる。当業者は、XMLファイルにシーン・カットが定義されていなければ、単に自動シーン検出器の出力を使用してもよいことを理解するであろう。同様に、他の実施形態では、XMLファイルに定義されたシーン・カットに厳密に依存してもよい。あるいはまた、2つより多くのシーン・カット検出器を使用して、それぞれが関心のある異なる属性を検出し、次いでそれらの結果全部の組み合わせに基づいて、一次シーンを定義してもよい(たとえば、それらの交わりまたは他の集合演算の組み合わせ、たとえばそれらの和集合、交わりなど)。
【0047】
ΨXML Nを、XMLファイルにおいて報告される、ノードNにおけるシーン開始フレームを表すフレーム・インデックスの集合とする。同様に、ΨAuto-SCD Nを、Auto-SCDによって報告される、ノードNにおけるシーン開始フレームを表すフレーム・インデックスの集合とする。ある実施形態では、これら2つの集合からのシーン・カットをマージすることは、これら2つの集合の交わりを取ることと等価である。
Ψ1 N=ΨXML N∩ΨAuto-SCD N (1)
ここで、Ψ1 N=はノードNにおけるシーンカット(またはシーン)の第1のリストを示す。これらのシーンは、一次シーンとも呼ばれる。図3Bは、例示的なシナリオを示している。この例では、XMLファイルは3つのシーン・カットを報告する。Auto-SCDも3つのシーン・カットを報告する;2つはXMLシーン・カットと同じだが、3つ目は異なる位置にある。報告された6つのシーン・カットの間では2つだけが共通であるため、ノード・セグメントはそれら2つの共通シーン・カットに従って、3つだけの一次シーン(310-1、310-2、310-3)に分割される。いくつかの実施形態では、XMLとAuto-SCDのシーン・カットは、たとえ異なるフレーム上で報告されても、2つのリストの間のシーン・カット・インデックスが所与の小さな許容範囲内で異なっている場合(±nフレーム、たとえばnは[0,6]内)、同じものとして認識されてもよい。
【0048】
図3Bに示されるように、一次シーン2(310-2)は完全にノードNにある。そのため、それはパス2において完全にノードNによって処理されることができる。逆に、一次シーン1(310-1)と3(310-3)はセグメント境界上にある。その親シーンは複数のノードにわたって分散されており、それらのノードによって独立して処理される。異なるノードによってエンコードされる境界フレームにおいて一貫した見え方を保証するために、一次シーン1と3には何らかの特別な扱いが必要である。次に、いくつかの代替的なシナリオを検討する。
【0049】
図3Cに示されるように、Pが2つのノードNとN+1にまたがって分散した親シーンである単純なシナリオを考える。ノードNとN+1は、親シーンの一部のみにアクセスできる。これらのノードが(バンパーなしで)親シーンのそれぞれの部分を処理し、エンコードすると想定する。再整形パラメータはフレームの異なる集合に対して計算されるため、ノードNのセグメント内の最後のフレーム、つまりf(N+1)L-1とノードN+1のセグメント内の最初のフレーム、つまりf(N+1)Lについての再整形されたSDRおよび再構成されたHDRは、視覚的に異なるように見えることがある。そのような視覚的な違いは、通例、ちらつき、点滅、突然の明るさの変化という形で現れる。この問題は、ノードをまたいだ時間的非一貫性と呼ばれる。上記のシナリオにおける非一貫性の理由の一部は、再整形パラメータを計算する際の共通フレームがないことである。図3Cに示されるように、これらの統計を生成する際にバンパー・フレームが含められれば、ノードをまたぐ、よりなめらかな遷移が提供される。ただし、バンパー・セクションは親シーンと比較して比較的短いことがあるため、時間的な一貫性を保証するのに十分な長さではない可能性がある。ある実施形態では、これらの問題を解決するために、ノードNおよびN+1における親シーンの部分が、二次シーンまたはサブシーンに分割される。シーン内の再整形統計があるノードから次のノードにかけて大きく変化しても、それらの統計はフレームごとに大きく変化しない。二次シーンは、再整形パラメータを評価するために、小さな近傍内の統計のみを使用する。そのため、これらの再整形パラメータは、あるサブシーンから次のサブシーンへとあまり変化しない。こうして、分割は時間的な一貫性を達成する。近傍のサブシーンは、前/次のノードにもありうることに注意されたい。
【0050】
分割は追加的なシーンを生じ、よってメタデータ・ビットレートを増加させることに注意しておくべきである。課題は、メタデータ・ビットレートを低く保つために、最小限の数の分割を使用して時間的一貫性を達成することである。バンパー・フレームは、分割の数を減らしながら良好な視覚的品質を達成する上で重要な役割を果たす。
1.バンパー・フレームは、分割アルゴリズムが前/次のノードが通過する分割を模倣するのを助ける。他のノード上の分割を模倣することによって得られる貴重な洞察は、分割の数を最小限にするのを助ける。
2.再整形パラメータを計算するためにバンパー・フレームを使用することによって、セグメント境界において、よりなめらかな遷移が達成できる。
シーン分割アルゴリズムは、以下のサブセクションで説明される。議論は、マルチノード割り当てを考慮せずに親シーンを分割することから始め、次いで、その方法が、2つ以上の近傍ノードにまたがって分布する親シーンについてのシーン分割に拡張される。
【0051】
メザニンにおけるQ番目のインデックス・フレームからQ+M-1フレームまでの範囲のM個のフレーム(M>1)をもつ親シーンPがある場合を考える。図4は、ある実施形態による、一次シーンをサブシーンに分割する例示的なプロセス(400)を示す。このプロセスの目的は、一次シーンを「時間的安定性」または「時間的一貫性」のあるサブシーンに分割することである。各サブシーン内のすべてのフレームは、同じシーン・ベースの再整形関数を用いて再整形される。よって、時間的安定性は、所与のビットレートでビデオ品質を維持しながら、再整形メタデータの数を減らすことを許容する。
【0052】
プロセス400は初期化段階410で始まる。ここで、一次シーンPについての入力HDRおよびSDRフレーム(405)を与えられて、HDRおよびSDRヒストグラムhvおよびhsならびに個々の前方再整形関数(forward reshaping function)(FLUT)
【数1】
がシーンP内の各フレームについて計算される。例として、限定なしに、フレーム・ヒストグラムを与えられれば、累積密度関数(cumulative density function、CDF)マッチング(特許文献4~5)を適用して、HDRからSDRへの前方マッピング関数(FLUT)を生成できる。
【数2】
よって、j番目のフレームについて、この段階は
【数3】
を生成する。ここで、hj vはHDRフレームjのヒストグラムを表す。
【0053】
ここに記載されるセグメンテーション方法は、フレーム・ベースの再整形関数がどのように生成されるかには関知しない。よって、ある実施形態では、そのような再整形関数は、既知の再整形技術のいずれかを使用して、対応するSDRビデオの可用性に依存することなく、利用可能なHDRビデオから直接生成されてもよい。
【0054】
シーンFLUT
【数4】
は、シーン内のすべてのフレームFLUTを平均することによってPについて構築される。次式において、bはFLUT内のインデックスを示す。ある実施形態では、FLUT値は正規化されてもよい。すなわち、
【数5】
である。
【数6】
【0055】
シーンFLUTと生成されたヒストグラムは、シーンP内の一つ一つのフレームについての「DC」値χjを予測するために使用される。フレームの高さと幅がそれぞれHとWである場合、そのDC値は
【数7】
のように計算される。
【0056】
ある実施形態では、一つ一つのフレームの、その前のフレームとのDC差は、
【数8】
と表され、分割の決定を行うための閾値の1つの集合として使用される。これらのDC差の値は初期化フェーズの間に1回計算され、分割プロセスの間に何度か使用される:
【数9】
【0057】
一つ一つのフレームのFLUTとその前のフレームのFLUTとの間の要素ごとの差の最大の絶対値は、初期化段階でも格納され、平滑性違反を検出するための閾値の追加的な集合として使用される。ここで、αとβは構成可能なパラメータであり、典型的な値はそれぞれ2.0と0.60である。
【数10】
【0058】
二次シーン・カットCgが、ソートされたサブシーン集合ΩPに収集される。ここで、gは集合内のインデックスである。フレーム・インデックスQ+Mは、リスト末尾マーカーとして機能し、シーン・カットとしては使用されない。ある実施形態では、初期化時の二次シーン・カットは次のとおりである:
【数11】
【0059】
ある実施形態では、平滑性基準に違反するサブシーンを格納するために違反サブシーン集合Υが使用される。親シーンPの分割を開始するには、初期化時に、Υ={P}である。違反集合におけるシーンまたはサブシーンのみが後で分割される。まとめると、段階410で初期化段階は、
【数12】
違反集合Υ、およびソートされたシーン・カットの集合ΩPを生成する。
【0060】
段階415では、違反集合Υとソートされた二次シーン・カットの集合ΩPが入力として与えられると、新しいラウンドのサブシーン分割が開始される。違反集合Υ内のすべてのサブシーンを通じて逐次反復し、それらをどのように分割するかを決定する。
【0061】
Pgをフレーム範囲[Cg,Cg+1-1]にまたがる違反集合内のサブシーンとする。分割のためには、サブシーンFLUT
【数13】
をサブシーン内のすべてのフレームFLUT
【数14】
と比較し、最も類似したFLUTをもつインデックス位置Csのものを、分割フレームとして選択する。
【数15】
ここで、数学的演算子|・|は絶対値を表す。
【0062】
分割後、サブシーンPgは2つのサブシーンまたは二次シーンに分割され、新しい分割インデックスは正しい位置で二次集合に挿入される。
【数16】
違反集合内のすべてのサブシーンからのすべての新しい分割は、ソートされた仕方で集合ΩPに挿入される。違反集合Υは、その中のすべてのサブシーンを通じて逐次反復した後、空集合に設定される。更新された集合ΩPは、分割プロセスにおける次の段階に渡される。
【0063】
段階420では、更新された集合ΩP内のすべての二次シーンについて新しいサブシーンFLUTが計算される。このとき、集合ΩPが、次式に示されるように、C0からCGまでのG+1個の二次シーン・カットを含んでいるとする。
【数17】
この逐次反復ラウンドにはG個のサブシーンがあり、集合ΩP内のフレーム・インデックスは昇順である、すなわち、
【数18】
【0064】
フレーム範囲[Cg,Cg+1-1]にまたがるサブシーンPgを考える。g∈[0,G-1]についてのPgについてサブシーンFLUT、つまり
【数19】
を構築するために、近傍のサブシーン間の小さな重複を許容するために、サブシーン重複パラメータθが導入される。
【数20】
重複フレームは、サブシーンと重複部分におけるFLUTを平均することによって、サブシーンPgについての前方LUT(forward LUT)を推定するために使用される。
【数21】
【0065】
分割プロセスの現在のラウンドにおいて、DC値がλによって定義されるとする。これらのDC値は、後に段階425で、サブシーン境界における閾値違反を見つけるために使用される。
【数22】
とする。一次シーンP内のすべてのフレームについてのこれらの新しいDC値は、ΩP内のすべてのサブシーンを通じて逐次反復して、それらにおける統計を計算した後に収集される。
【0066】
段階425では、サブシーン間の境界における時間的安定性違反が検出される。たとえば、{Cg-1,Cg-1}における二次シーンPg-1および{Cg,Cg+1-1}における二次シーンPgについて、Cgにおいて境界チェックが計算される必要がある。それらのチェックのいずれかが失敗した場合、サブシーンPg-1とPgの両方が違反集合Υに移される。サブシーンPgとPg+1については、Cg+1において境界チェックが計算される必要がある。
セグメントの最初のフレームC0(Q)とセグメントの最後のフレームQ+M-1=CG-1のほかは、各サブシーン境界Cgにおいて同じチェックが適用される。
【0067】
式(15)を使用すると、ΩP内のすべてのサブシーンを通じて逐次反復した後、更新されたDC値(λj)が一次シーンPにおけるすべてのフレームについて利用可能になる。これらの値は、段階425と430において境界違反チェックを実行するために使用される。DC差ΔCgは、インデックスCgをもつフレームとインデックスCg-1をもつその前のフレームのDC値の差である。
【数23】
【0068】
違反チェック#1:
【数24】
絶対DC差|ΔCg|がDC閾値
【数25】
に負でないバイアスωを加えたものよりも大きい場合、サブシーンPg-1とPgの間の遷移点Cgに明るさの変化がある。これは閾値違反であり、これらのサブシーンは違反集合Υにアペンドされる。ここで、バイアスωは構成可能なパラメータを表し、デフォルト値は0.001(または8ビットでの1/4符号語)である。これは、次の2つのチェックよりも分割結果に大きな影響を与えるため、分割プロセスにおいて最も重要な違反チェックである。
【0069】
違反チェック#2:
【数26】
実数xについてのsign(x)(または符号)演算子は次のように定義される。
【数27】
正のDC差ΔCgは、DC値が前のフレームから現在のフレームにかけて増加したことを示す。同様に、負のDC差は、DC値が減少したことを示す。前のフレームから次のフレームへのDC値の増減の一般的な傾向は、サブシーンで分割した後も維持されるべきである。よって、閾値
【数28】
とDC差ΔCgが点Cgにおいて逆の符号をもつ場合は、サブシーンPg-1とPgの両方が、それらを違反集合Υに加えることによってさらに分割されるべきである。この基準は、フェードイン/アウト、ディゾルブするシーンまたは徐々に明るさが変化する任意のシーンにおいて時間的安定性を維持するのに役立つ。
【0070】
違反チェック#3:
【数29】
FLUT
【数30】
の間の要素ごとの差の絶対値の最大がCgにおける閾値
【数31】
よりも大きい場合、これらのサブシーンPg-1とPgは平滑性制約条件に違反し、よってΥに含めるべきである。
【0071】
すべての違反チェックはサブシーン境界においてである。違反がある場合は、両方のサブシーンが違反集合に入れられる。これにより、現在の分割ラウンドが終了する。段階430では、更新された違反集合が空でない場合、制御は、次の分割ラウンドのために、更新された集合ΩPおよびΥをもって、段階415に戻る。そうではなく、境界違反がなく、違反集合が空である場合、プロセスは終了し、段階440はサブシーンの最終的な二次集合を出力する。ある実施形態では、段階425において、Υ内の二次シーンが1フレームだけの長さである場合、それはそれ以上分割することはできないため、Υ集合から除去できる。あるいはまた、そのような単一フレームのシーンは段階415において無視されることができる。
【0072】
実際上は、親シーンは、2つ以上のノードにわたって処理される場合にのみ分割される。たとえば、ノードは左右のバンパー・セクションにおいてシーン・カットを探してもよい。そのようなシーン・カットが検出されない場合、そのセグメントの先頭または末尾は近傍ノードによっても処理されると推測でき、よって一つまたは複数の一次シーンが分割される必要がある。
【0073】
図3Cに示される、親シーンPが2つのノードによって処理されるシナリオを考える。ノード内の親シーンの各部分は、そのノードについての一次シーンである。1つのアプローチは、前述の分割アプローチを使用して独立して分割することである。その場合、欠けている統計のため、ノードNおよびN+1における重複する領域におけるシーン・カットは互いに一致しないことがある。提案される分割アルゴリズムは、近傍ノード上の近傍のサブシーン内の二次シーン境界の良好な推定があれば、時間的非一貫性の解決においてはるかによく機能する。
【0074】
ある実施形態では、図3Cの例については、それら2つの一次シーンにおける2つの新しい同期サブシーン・カット(320)が、各ノードに1つずつ導入される。これらの同期カットは、一次シーンを次の2つの部分に分割する:
1.第1の部分(たとえば、ノードNにおける最初のカットと最初の同期カットの間)は現在のノードには見えるが、他方のノードには見えない。図3Cに示されるように、ある実施形態では、ノードN上の最初の同期カットは位置CL-1-Bにあってもよく、Bはバンパー・フレームの数を示し、CL-1はセグメントの最後のフレームを示す。
2.第2の部分(たとえば、ノードNについての末尾の諸バンパー・フレームとノードN+1についての初期の諸バンパー・フレーム)は、両方のノードにとって「見える」。図3Cに示されるように、ある実施形態では、ノードN+1上の第2の同期カットは、位置C0+Bにあってもよい。ここで、C0はセグメントの最初のフレームを示す。
【0075】
ある実施形態では、これらの初期同期分割は段階410の一部として実行されてもよく、これらの一次シーンに対して分割アルゴリズム400を適用することができる。唯一のマイナーな変更は初期化段階410にあり、各ノードについての集合ΩPは1つの追加的な同期シーンカット(320)を含む。その後、それ以上の分割を行う必要がないため、初期化後に直接段階420にジャンプできる。次に、アルゴリズムは通常どおり進行する。
【0076】
あるいはまた、もとのΩP集合が与えられている場合、一次シーンが完全に現在のノードにあるのではないことを検出したら、この同期細分は、式(9)を使用する代わりに、前述の規則(たとえば、ノードNについて、一次シーンがノードNで終了していない場合、位置CL-1-Bにシーン・カットを追加する)を使用して実行されてもよい。
【0077】
これらの初期同期分割を用いると、孤立したノードNおよびN+1によって計算されたサブシーンカットは、合理的な程度に互いに整列されることが期待される。ノードNについては、Ψ1 Nを、図3Bに示される、XMLシーン・カットとAuto-SCDシーン・カットをマージした後に得られるシーンの第1のリストを表すとする。これらのシーンは、一次シーンと呼ばれる。セグメント境界上にあるシーンは、二次シーンまたはサブシーンに分割される。二次シーンまたはサブシーンは、第1のリストにアペンドされる追加的なシーン・カットを生成する。これらの二次シーン・カットとは別に、セグメントの最初のフレームfNLもシーン・カットである。ノードはセグメントの先頭からしかエンコードを開始できないため、そのフレームはシーン・カットとして扱われる。同様に、セグメントの最後のフレームf(N+1)L-1はセグメントにおける最後のシーンの末尾である。たとえば、次の初期割り当てをもつノードNを考える:一次シーン1、2、および3。一次シーン1は二次シーンA、B、およびCに細分され、一次シーン2は変更されないままであり、一次シーン3は二次シーンD、E、およびFに分割されてもよい。Ψl NおよびΨr Nがそれぞれ、ノードNについての左右のセグメント境界の近くのシーン・カットの集合を示しているとする。すると、シーンの第2のリストΨ2 Nは数学的に次のように表現できる。
【数32】
【0078】
セグメント長より長いシーンについては、左または右の別個の集合ではなく、二次シーン・カットの単一の集合が存在する可能性がある。Skは、リストΨ2 N内のk番目のシーンについての開始フレーム・インデックスを表すとする。リスト内にK個のシーンがあるとすると、リスト内の要素は次の式で表すことができる。ここで、SKはセグメントの最後のフレームの直後にあるダミーのシーン・カットを示す。それは、リストの終わりのマーカーとしてのみ使用される。
【数33】
デフォルトでは、セグメントの最初のフレームはノードNについての新しいシーンの開始でもあるので、S0=fNLである。シーンの第2のリストΨ2 N(222)は、サブシーン関連の補助データとともにパス2に渡される。
【0079】
シーンの第2のリストΨ2 Nは、セグメント内の一次および二次シーンについての詳細をもつ。一次シーンにはパス1からの追加データは必要としない
が、二次シーンはパス1からの次の補助データを必要とする。
1.一つ一つの二次シーンについての左側と右側の重複フレーム数。
2.トリム・パス補正データ。
【0080】
ここで使用されるところでは、「トリム・パス(trim pass)」データまたはメタデータは、ディレクターの意図を満たすためにカラーグレーディング中にカラリストによって生成される「トリム」データを指す。時に、トリムは、ハイライトのクリッピングおよび/または低強度値のつぶれにつながる。トリムの影響を受けたSDRからHDRを再構成すると、再構成されたHDRビデオに望ましくないアーティファクトが導入される。これらのアーティファクトを減らすには、特許文献5で論じられるように、トリム補正アルゴリズムはいくらかの補足データを必要とすることがある。トリム・パス補正処理はノード・ベースの処理の一部であってもよく、詳細は本発明の範囲を超えており、ここでは論じない。
【0081】
提案されるアーキテクチャーには、シーンの2つの主なタイプ、つまり一次シーンおよび二次シーンがある。パス2は、すべてのシーンを処理して、そのシーン内の一つ一つのフレームについて、コンポーザー・メタデータ・パラメータ(composer metadata parameter)の同じ集合を生成する。パス2の前方フェーズでは、再整形パラメータがそのシーンの統計収集窓内のすべてのフレームから計算される。
・一次シーンについては、統計収集窓は一次シーン内のすべてのフレームを含む。一次シーン外のフレームは参照されない。
・逆に、二次シーンについては、統計収集窓は、その二次シーン内のすべてのフレームに加えて、前または次のサブシーンからのいくつかの重複フレームを含む。これらの追加フレームは重複フレーム(overlapping frame)と呼ばれる。
【0082】
原則として、一次シーンはどの近傍シーンとも重複をもたず、二次シーンは近傍の二次シーンと重複をもつことが許容されるだけである。つまり、サブシーンについての重複フレームは、近傍の一次シーンからくることは決してない。重複パラメータθ(式(13)を参照)はユーザーによって設定され、デフォルト値は1である。パス2における後方フェーズは、一次または二次シーンについてそのような重複は使用しない。
【0083】
左右の重複フレームの数について詳しく説明するために、サブシーンAないしHをもつ例示的な実施形態を示す図3Dを参照されたい。サブシーンAについての前方再整形統計窓は、左側に追加フレームがなく、右側(サブシーンBの一部)にθ個の追加フレームがある。サブシーンHは、左側(サブシーンGの一部)にのみ追加フレームがある。サブシーンB、E、F、Gは、左右両方に追加フレームがある。サブシーンCとDについては、左右の重複フレームの数は、少し異なる仕方で計算される。サブシーンCは、サブシーンBからの、左側のθ個の追加フレームを使用する。右側では、次のシーン・カットまですべてのフレームを使用する。この例では、右側にシーン・カットがないため、すべてのバンパー・フレームを取る。セグメントの先頭の諸シーン・カットは、重複するフレームの数を計算するためには無視される。サブシーンC上にある点線のボックス(330)は、サブシーンC内のフレームと右側の重複するフレームを示している。サブシーンDについては、右側にθ個の追加フレームがある。左側では、前のシーン分割まですべてのフレームを取る。実線の縦線で示されるシーン分割はセグメントの開始をマークし、重複するフレームの計算については無視される。サブシーンD上にある点線のボックス(340)は、サブシーン内のフレームと左側の重複するフレームを示す。
【0084】
セグメント・シーン・カットの開始を無視する理由は、CとDについての前方再整形統計窓(たとえば330と340)を同じにするためである。CとDが異なるノード上にある場合でも、CとDについて同じ前方再整形パラメータが計算される。これは、ノードをまたぐ近傍のサブシーンでの一貫した見え方を達成する助けになる。同期シーン・カットは、ノードNおよびN+1上のすべてのシーン・カットを整列させ、CとDが同じ統計窓をもつ結果となるようにする上で重要な役割を果たす。
【0085】
パス2:シーン・ベースのエンコード
図2に示されるように、すべてのノードは、ビットストリームにエンコードされるセグメントを割り当てられる。上記で説明したパス1は、近傍ノードをまたぐ時間的一貫性を維持しながら、再整形関連のメタデータのビットレートを最小化する一次および二次シーンのリストを生成する。パス2は、このリストを使用して、セグメント内のシーンをエンコードし、再整形されたSDR符号化ビットストリームを生成する。図3Aに示されるように、バンパー・フレーム(309)はエンコードされず、二次シーンの時間的安定性を維持するために、前方再整形パスにおいて統計を収集するために使用される。
【0086】
図2に示されるように、パス2は段階225、230、235を含む。シーンまたはサブシーン・レベルでの、同じ処理パイプラインの代替的なビューも図5に示されている。前方再整形のために、一つの主要な相違を除いて、一次シーンと二次シーンは同様の仕方で処理される:一次シーンは前方再整形において重複をもたないが、二次シーンは近傍のサブシーンといくらかの重複をもつ。後方再整形については、一次シーンと二次シーンについて、プロセスは全く同じである。後方再整形フェーズに重複はない。再整形メタデータ(reshaping metadata)と圧縮された基本層からなる複合ビットストリーム(240)が出力として生成される。次に各ブロックの詳細について説明する。
【0087】
セグメントからシーンへのリスト(segment to scene list)(222)が与えられて、図5はクラウドにおける各ノードでのシーン・ベースのエンコードのための例示的なアーキテクチャーを示している。限定なしに、図2のブロック225は、ブロック505とブロック132を使用して、示されているように分割されうる。k番目のシーンについての開始フレーム・インデックスをSkと記すことにする。よって、シーンkが与えられると、ノードはフレームSk、Sk+1、Sk+2、…、およびSk+1-1を処理する必要がある。シーンについての参照HDRフレーム(504)と対応するSDRフレーム(502)は、対応するSDRおよびHDRシーン・バッファ(図示せず)に格納されうる。先に論じたように、バンパー・フレームは二次シーンについての統計データを生成するためにのみ使用され、一次シーンを処理するときには無視される。
【0088】
図5から、段階505では、入力SDRフレームとHDRフレームが、シーン・ベースの前方再整形関数を生成するために使用される。そのような関数のパラメータは、シーン全体について使用され(フレームごとに更新されるのではなく)、よって、メタデータ152のためのオーバーヘッドを削減する。次に、段階132では、前方再整形はHDRシーン(504)に適用されて、再整形された基本層229を生成し、それが圧縮ユニット(230)によって符号化されて、符号化されたビットストリーム144を生成する。最後に、段階235において、再整形されたSDRデータ229ともとのHDRデータ(504)が、下流のデコーダに一緒に送信されるべき、後方再整形関数のためのパラメータ152を生成するために使用される。これらの段階については、次により詳しく説明する。限定なしに、段階は3次元マッピングテーブル(three-dimensional mapping table、3DMT)表現と呼ばれるもののコンテキストで記述される。ここでは、動作を簡略化するために、各フレームは3次元マッピングテーブルとして表され、各色成分(たとえばY、Cb、またはCr)は「ビン」に細分され、画像を表現するために明示的なピクセル値を使用する代わりに、各ビン内のピクセル平均を使用する。3DMTの定式化の詳細は、特許文献3に見出すことができる。
【0089】
前方再整形関数(505)のシーン・ベースの生成は二つのレベルの動作からなる。まず各フレームについて統計が収集される。たとえばルーマについては、SDR(hj s(b))とHDR(hj v(b))フレーム両方についてのヒストグラムを計算し、それらをj番目のフレームについてのフレーム・バッファに格納する。ここで、bはビン・インデックスである。各フレームについての3DMT表現を生成した後、次のように表される「a/B」行列表現を生成する。
【数34】
ここで、chはクロマ・チャネル(たとえばCbまたはCr)を指し、(Sj F)Tは参照HDRシーン・データと前方再整形関数のパラメトリック・モデルに基づく転置行列を表し、vj F,chは、SDRシーン・データと前方再整形関数のパラメトリック・モデルに基づくベクトルを表す。
【0090】
現在のシーン内の各フレームの統計を与えられて、シーン・レベルのアルゴリズムを適用して、最適な前方再整形係数を計算できる。たとえば、ルーマについては、SDR(hs(b))およびHDRデータ(hv(b))についてのシーン・ベースのヒストグラムを、フレーム・ベースのヒストグラムを合計または平均することによって生成できる。たとえば、ある実施形態では、
【数35】
【0091】
両方のシーン・レベルのヒストグラムをもつと、累積密度関数(CDF)マッチング(特許文献4~5)を適用して、HDRからSDRへの前方マッピング関数(FLUT)を生成することができる。たとえば、
【数36】
クロマ(たとえばch=Cbまたはch=Cr)については、やはり式(22)におけるa/Bフレーム・ベースの表現を平均化して、次式
【数37】
によって与えられるシーン・ベースのa/B行列表現を生成し、再整形関数の多色多重回帰(MMR)モデル(特許文献2~3)のためのパラメータを生成することができる。
【数38】
次いで、再整形されたSDR信号(229)は
【数39】
として生成されることができる。
【0092】
シーン・ベースの後方再整形関数(152)の生成も、フレーム・レベルとシーン・レベルの両方の動作を含む。ルーマ・マッピング関数は単一チャネル予測器であるため、単に前方再整形関数を逆にして後方再整形関数を得ることができる。クロマについては、再整形されたSDRデータ(229)ともとのHDRデータ(504)を使用して3DMT表現を形成し、新しいフレーム・ベースのa/B表現を
【数40】
として計算する。
【0093】
シーン・レベルでは、ルーマについては、特許文献3のヒストグラム重み付けBLUT構築を適用して後方ルーマ再整形関数を生成してもよい。クロマについては、やはりフレーム・ベースのa/B表現を平均して、シーン・ベースのa/B表現を計算できる。
【数41】
ここで、後方再整形マッピング関数についてのMMRモデル解が
【数42】
によって与えられる。その場合、デコーダでは、再構成されたHDR信号(160)は、
【数43】
として生成できる。
【0094】
例示的なコンピュータ・システム実装
本発明の実施形態は、コンピュータ・システム、電子回路およびコンポーネントにおいて構成されるシステム、集積回路(IC)デバイス、たとえばマイクロコントローラ、フィールド・プログラマブル・ゲート・アレイ(FPGA)、または他の構成可能またはプログラマブルなロジック・デバイス(PLD)、離散時間またはデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)、および/またはそのようなシステム、デバイスまたはコンポーネントの一つまたは複数を含む装置を用いて実装されうる。コンピュータおよび/またはICは、ここに記載されるような、HDRビデオのクラウド・ベースのビデオ符号化における、セグメントからシーンへのセグメンテーションおよびノード・ベースの処理に関する命令を実行、制御、または執行することができる。コンピュータおよび/またはICは、ここに記載されるようなHDRビデオのクラウド・ベースのビデオ符号化における、シーン・セグメンテーションおよびノード・ベースの処理に関する多様なパラメータまたは値の任意のものを計算することができる。画像およびビデオのダイナミックレンジ拡張実施形態は、ハードウェア、ソフトウェア、ファームウェア、およびそれらのさまざまな組み合わせで実装されうる。
【0095】
本発明のある種の実装は、プロセッサに本発明の方法を実行させるソフトウェア命令を実行するコンピュータ・プロセッサを含む。たとえば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダ等における一つまたは複数のプロセッサは、該プロセッサにとってアクセス可能なプログラムメモリ内のソフトウェア命令を実行することによって、上述したようなHDRビデオのクラウド・ベースのビデオ符号化における、シーン・セグメンテーションおよびノード・ベースの処理のための方法を実装することができる。本発明は、プログラム・プロダクトの形で提供されてもよい。プログラム・プロダクトは、データ・プロセッサによって実行されると、該データ・プロセッサに本発明の方法を実行させる命令を含む一組のコンピュータ読み取り可能な信号を担持する任意の非一時的かつ有形の媒体を含んでいてもよい。本発明によるプログラム・プロダクトは、幅広い多様な非一時的かつ有形の形のいずれかであってもよい。プログラム・プロダクトは、たとえば、フロッピーディスケット、ハードディスクドライブを含む磁気データ記憶媒体、CD-ROM、DVDを含む光データ記憶媒体、ROM、フラッシュRAMを含む電子データ記憶媒体等の物理的な媒体を含むことができる。プログラム・プロダクト上のコンピュータ読み取り可能信号は、任意的に、圧縮または暗号化されてもよい。
【0096】
構成要素(たとえば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路等)が上記で言及されている場合、別段の指示がない限り、該構成要素への言及(「手段」への言及を含む)は、本発明の示されている例示的実施形態において機能を実行する開示された構造と構造的に等価でない構成要素を含む、記載された構成要素の機能を実行する(たとえば、機能的に同等である)任意の構成要素を、当該構成要素の等価物として含むものとして解釈されるべきである。
【0097】
等価物、拡張、代替物およびその他
このようにして、HDRビデオのクラウド・ベースのビデオ符号化におけるシーン・セグメンテーションおよびノード・ベースの処理に関連する例示的実施形態が記述されている。前述の明細において、本発明の実施形態は、実装によって変わりうる多数の個別的詳細を参照して記述されている。したがって、何が本発明であり、何が出願人によって本発明であると意図されているかの唯一かつ排他的な指標は、その後の訂正があればそれも含めて請求が認められる特定の形での、この出願から発行される一連のクレームである。そのようなクレームに含まれる用語について本稿に明示的に記載されている定義があれば、それは、そのクレームで使用されるそのような用語の意味を支配する。よって、クレームにおいて明示的に記載されていない限定、要素、特性、特徴、利点または属性は、いかなる仕方でもそのようなクレームの範囲を制限するべきではない。よって、明細書および図面は、制約する意味ではなく例解する意味で捉えられるべきである。
【0098】
本発明のさまざまな側面は、以下の箇条書き例示的実施形態(enumerated example embodiment、EEE)から理解されうる。
〔EEE1〕
プロセッサを用いてビデオ・セグメントをシーンにセグメンテーションする方法であって、当該方法は:
現在コンピューティング・ノードによって、高ダイナミックレンジのビデオ・フレームを含む第1のビデオ・シーケンスを受領する段階と;
前記第1のビデオ・シーケンスにおける各ビデオ・フレームについて、フレーム・ベースの前方再整形関数を生成する段階であって、前方再整形関数は、フレーム・ピクセルを前記高ダイナミックレンジから前記高ダイナミックレンジよりも低い第2のダイナミックレンジにマッピングするものである、段階と;
前記第1のビデオ・シーケンスについての一次シーンの集合を生成する段階と;
前記一次シーンの集合、一つまたは複数の一次シーンから導出された二次シーン、および前記フレーム・ベースの前方再整形関数に基づいて、前記第1のビデオ・シーケンスについてのシーンの第2の集合を生成する段階と;
シーンの前記第2の集合に基づいてシーン・ベースの前方再整形関数を生成する段階と;
前記シーン・ベースの前方再整形関数を前記第1のビデオ・シーケンスに適用して、前記第2のダイナミックレンジの出力ビデオ・シーケンスを生成する段階と;
前記出力ビデオ・シーケンスを圧縮して、前記第2のダイナミックレンジの符号化ビットストリームを生成する段階とを含み、一次シーンが与えられた場合、該一次シーンについての二次シーンのリストを生成することは:
前記一次シーンの集合に基づいて、二次シーンの集合と違反シーンの集合を初期化する段階と;
前記フレーム・ベースの前方再整形関数に基づいて、平滑性閾値の一つまたは複数の集合を生成する段階と;
境界違反がなくなるまで:
前記違反シーンの集合における各シーンを2つの新しいサブシーンに分割し;
空集合を用いて、違反シーンの更新された集合を生成し;
前記の新しいサブシーンを二次シーンの前記集合に追加することによって、二次シーンの更新された集合を生成し;
平滑性閾値の前記一つまたは複数の集合を使用して、二次シーンの前記集合における一つまたは複数の境界違反チェックを実行し;
二次シーンの前記集合における2つのサブシーンの間に少なくとも1つの境界違反がある場合は、該2つのサブシーンを前記違反シーンの集合に追加し、違反シーンの前記更新された集合と二次シーンの前記更新された集合を用いて前記一次シーンを細分することを続け;
そうでない場合は、境界違反がないことを信号伝達し、二次シーンの前記リストを出力することを繰り返す段階とを実行することを含む、
方法。
〔EEE2〕
前記一次シーンの集合を生成することは:
前記第1のビデオ・シーケンスに関連するXMLファイルからのシーン・カットの第1の集合にアクセスする段階と;
自動シーン変化検出器を使用して前記第1のビデオ・シーケンスについてのシーン・カットの第2の集合を生成する段階と;
シーン・カットの前記第1の集合とシーン・カットの前記第2の集合の交わりに基づいてシーン・カットの最終集合を生成する段階と;
シーン・カットの前記最終集合を使用して前記一次シーンの集合を生成する段階とを含む、
EEE1に記載の方法。
〔EEE3〕
一次シーンが、前記現在コンピューティング・ノードと前記現在コンピューティング・ノードに対する近傍コンピューティング・ノードにまたがって符号化されるピクチャー・フレームをもつ親シーンに属する場合にのみ、その一次シーンが二次シーンに分割される、EEE1または2に記載の方法。
〔EEE4〕
前記違反シーンの集合におけるシーンPgが与えられた場合、そのシーンはフレーム位置Csで分割され、
シーンPgが、現在のノードより前のノードにおいて処理されるフレームをもつ親シーンの一部である一次シーンを含む場合、
Cs=C0+B
であり、ここで、C0は前記第1のビデオ・シーケンスの最初のフレームを表し、Bは2つの隣接ノードによって共有されるバンパー・フレームの数を表し;
そうでない場合で、シーンPgが、現在のノードより後のノードにおいて処理されるフレームをもつ親シーンの一部である一次シーンを含む場合、
Cs=CL-1-B
であり、ここで、CL-1は前記第1のビデオ・シーケンスにおける最後のフレームを示し;
そうでない場合で、シーンPgが2次シーンを含む場合、
【数44】
であり、ここで、
【数45】
は、入力符号語bの関数として、前記第1のビデオ・シーケンスにおけるフレームjについてのフレーム・ベースの前方再整形関数を表し、
【数46】
は、シーンPgに関連するフレームについてのフレーム・ベースの前方再整形関数の平均を表す、
EEE1ないし3のうちいずれか一項に記載の方法。
〔EEE5〕
前記一つまたは複数の平滑化閾値を生成することは、前記第1のビデオ・シーケンスにおける各フレームjについての平滑化閾値
【数47】
の第1の集合を計算することを含み、
【数48】
であり、ここで、
【数49】
であり、ここで、
【数50】
は、入力符号語bの関数として、前記第1のビデオ・シーケンスにおけるフレームjについてのフレーム・ベースの前方再整形関数を表し、hj v(b)は前記第1のビデオ・シーケンスにおけるj番目のフレームのヒストグラムを表し、HおよびWは前記第1のビデオ・シーケンスにおけるフレームについての幅および高さの値を表す、
EEE1ないし4のうちいずれか一項に記載の方法。
〔EEE6〕
平滑化閾値の第2の集合
【数51】
を計算する段階をさらに含み、
【数52】
であり、αおよびβは定数である、EEE5に記載の方法。
〔EEE7〕
フレームCg-1から始まる二次シーンPg-1およびフレームCgから始まる二次シーンPgについて、それら2つのシーンの間で前記一つまたは複数の境界違反チェックを実行することが:
【数53】
が真であるかどうかを試験し、真であれば境界違反を宣言し、ここで、ωは定数であり、
ΔCg=λCg-λCg-1
であり、シーンPg内のフレームjについて、
【数54】
であり、
【数55】
は、2次シーンPgおよび近傍2次シーンにおけるフレーム・ベースの前方再整形関数の平均を表す、
EEE6に記載の方法。
〔EEE8〕
【数56】
であり、θは2つのサブシーン間のフレーム重複を表す整数定数であり、C0およびCL-1は前記第1のビデオ・シーケンスにおける最初と最後のフレームを表す、
EEE7に記載の方法。
〔EEE9〕
【数57】
が真であるかどうかを試験し、真であれば境界違反を宣言することをさらに含み、
ここで、実数xについて、sign(x)はx=0であれば0、x>0であれば1、x<0であれば-1を返す、EEE7または8に記載の方法。
〔EEE10〕
【数58】
が真であるかどうかを試験し、真であれば境界違反を宣言することをさらに含む、EEE7ないし9のうちいずれか一項に記載の方法。
〔EEE11〕
シーンの前記第2の集合に基づいてシーン・ベースの前方再整形関数を生成することが、さらに:
シーンの前記第2の集合におけるシーンが一次シーンである場合、そのシーンについてのシーン・ベースの前方再整形関数を、シーン内のフレームから生成された統計データのみに基づいて生成し;それ以外の場合で、
シーンの前記第2の集合におけるシーンが二次シーンである場合、そのシーンについてのシーン・ベースの前方再整形関数を、シーン内のフレームと近傍の二次シーンからのフレームからの統計に基づいて生成することを含む、
EEE1ないし10のうちいずれか一項に記載の方法。
〔EEE12〕
前記出力ビデオ・シーケンス、前記第1のビデオ・シーケンス、および前記シーン・ベースの前方再整形関数に基づいて、シーン・ベースの後方再整形関数を生成する段階と;
前記シーン・ベースの後方再整形関数のパラメータに基づいてメタデータを生成する段階と;
前記符号化ビットストリームと前記メタデータを含む出力ビットストリームを出力する段階とをさらに含む、
EEE11に記載の方法。
〔EEE13〕
EEE1ないしEEE12のうちいずれか一項に記載の方法を一つまたは複数のプロセッサで実行するためのコンピュータ実行可能命令を記憶している、非一時的なコンピュータ読み取り可能な記憶媒体。
〔EEE14〕
プロセッサを有しており、EEE1ないし12のうちいずれか一項に記載の方法を実行するように構成された装置。
図1A
図1B
図2
図3A
図3B
図3C
図3D
図4
図5
【国際調査報告】