(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-19
(54)【発明の名称】画像のダイナミックレンジ変換及び表示管理のためのニューラルネットワーク
(51)【国際特許分類】
H04N 5/20 20060101AFI20240711BHJP
G06T 5/60 20240101ALI20240711BHJP
【FI】
H04N5/20
G06T5/60
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024504814
(86)(22)【出願日】2022-07-22
(85)【翻訳文提出日】2024-01-25
(86)【国際出願番号】 US2022037991
(87)【国際公開番号】W WO2023009392
(87)【国際公開日】2023-02-02
(32)【優先日】2021-07-29
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2021-07-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】ワナット,ロバート
(72)【発明者】
【氏名】チョードゥリー,アヌスタプ クマール アタヌ
(72)【発明者】
【氏名】アトキンズ,ロビン
【テーマコード(参考)】
5B057
【Fターム(参考)】
5B057AA20
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CC01
5B057CE11
5B057DA16
5B057DB02
5B057DB09
(57)【要約】
標準ダイナミックレンジ(SDR)画像から高ダイナミックレンジ(HDR)表示へのダイナミックレンジの変換及び表示マッピングのための方法及びシステムが記載されている。SDR入力画像を考えると、プロセッサは強度(輝度)画像と、任意に、ベースレイヤ画像及びディテールレイヤ画像とを生成する。第1ニューラルネットワークは強度画像を使用して、より高いダイナミックレンジでのSDR画像の統計を予測する。これらの予測統計は、入力画像の元の画像統計とともに、入力されたSDR画像をHDR表示マッピングするための最適なトーンマッピング曲線を導出するために使用される。任意に、第2ニューラルネットワークは、強度画像及びディテールレイヤ画像を用いて、より高いダイナミックレンジへのベースレイヤ画像のトーンマッピングを強化するために、より高いダイナミックレンジで残差ディテールレイヤ画像を生成することができる。
【特許請求の範囲】
【請求項1】
ダイナミックレンジ変換及び表示マッピングの方法であって、
第1ダイナミックレンジ及び第1空間分解能での入力画像にアクセスすることと、
前記入力画像に基づき強度画像を生成することと、
前記第1ダイナミックレンジよりも高い第2ダイナミックレンジでマッピングされるときの前記強度画像の予測統計を生成するよう前記強度画像を第1ニューラルネットワークに適用することと、
前記強度画像の統計及び前記予測統計に基づきトーンマッピング曲線を生成することと
を有する方法。
【請求項2】
前記入力画像及び前記トーンマッピング曲線に基づき、目標ダイナミックレンジによるディスプレイでの表示のために、マッピングされた出力画像を生成することを更に有する、
請求項1に記載の方法。
【請求項3】
前記第2ダイナミックレンジとは異なる目標ダイナミックレンジによりディスプレイで前記入力画像を表示するよう前記トーンマッピング曲線を適用することを更に有する、
請求項1に記載の方法。
【請求項4】
前記強度画像の前記統計は、前記第1ダイナミックレンジでの前記強度画像の強度値を含み、前記予測統計は、前記第2ダイナミックレンジでの予測強度値を含む、
請求項1に記載の方法。
【請求項5】
前記強度画像の前記統計は、前記第1ダイナミックレンジでの前記強度画像の最小強度値、平均強度値、及び最大強度値を含み、前記予測統計は、前記第2ダイナミックレンジでの予測最小強度値、予測平均強度値、及び予測最大強度値を含む、
請求項1に記載の方法。
【請求項6】
前記第1ニューラルネットワークは4つのレイヤを含み、
最初のレイヤは、サイズが3×3×1×4であり、ストライドが2であり、バイアスが4つある第1フィルタバンクと、それに続く第1正規化線形ユニット(ReLU)活性化関数とを含み、
2番目のレイヤは、サイズが3×3×1×8であり、ストライドが2であり、バイアスが8つある第2フィルタバンクと、それに続く第2ReLUとを含み、
3番目のレイヤは、サイズが7×7×2×16であり、ストライドが5であり、バイアスが16個ある第3フィルタバンクと、それに続く第3ReLUとを含み、
4番目のレイヤは、サイズが48×27×16×3であり、全結合されており、バイアスが3つある第4フィルタバンクと、第2ダイナミックレンジでマッピングされるときの前記強度画像の前記予測統計を表す1つの1×3出力とを含む、
請求項1に記載の方法。
【請求項7】
前記強度画像に基づいてベースレイヤ画像及びディテールレイヤ画像を生成することと、
トーンマッピングされたベースレイヤ画像を前記第2ダイナミックレンジで生成するよう前記トーンマッピング曲線を前記ベースレイヤ画像に適用することと
を更に有する、請求項1に記載の方法。
【請求項8】
前記ベースレイヤ画像は、前記強度画像の空間的にブラーされた、エッジ保存されたバージョンを表し、
前記ディテールレイヤ画像を生成することは、
I
DL(x,y)=I(x,y)-I
BL(x,y)*dg
を計算することを含み、ここで、ピクセル位置(x,y)において、I
DLは前記ディテールレイヤ画像を表し、I
BLは前記ベースレイヤ画像を表し、Iは前記強度画像を表し、dgは[0,1]内のディテール-ゲインスカラーを表す、
請求項7に記載の方法。
【請求項9】
出力画像を前記第2ダイナミックレンジで生成するよう前記ディテールレイヤ画像を前記トーンマッピングされたベースレイヤ画像に加えることを更に有する、
請求項7に記載の方法。
【請求項10】
残差レイヤ画像を前記第2ダイナミックレンジで生成するよう前記強度画像及び前記ディテールレイヤ画像を第2ニューラルネットワークに適用することと、
第2ディテールレイヤ画像を生成するよう前記残差レイヤ画像を前記ディテールレイヤ画像に加えることと、
出力画像を前記第2ダイナミックレンジで生成するよう前記第2ディテールレイヤ画像を前記トーンマッピングされたベースレイヤ画像に加えることと
を更に有する、請求項7に記載の方法。
【請求項11】
前記第2ニューラルネットワークは、入力畳み込みネットワーク、それに続く5つの残差ネットワーク(ResNet)ブロック、それらに続く最終のReLU及び出力畳み込みネットワークを含む、
請求項10に記載の方法。
【請求項12】
前記入力畳み込みネットワークは、
M×N×2入力と、
3×3×2×32、ストライド1、バイアスなしのフィルタバンクと、
M×N×32出力と、を有し、
前記出力畳み込みネットワークは、
M×N×32入力と、
3×3×32×1、ストライド1、バイアスなしのフィルタバンクと、
M×N×1出力と、を有し、
ここで、M及びNは整数である、
請求項11に記載の方法。
【請求項13】
残差ネットワーク(ResNet)ブロックは、第1ReLUと、それに続く第1畳み込みレイヤと、それに続く第2ReLUと、それに続く第2畳み込みレイヤと、それに続く加算器とを含み、前記加算器は、ResNet出力を生成するよう、当該ResNetブロックへの入力を前記第2畳み込みレイヤの出力と加算し、
前記第1畳み込みレイヤ及び前記第2畳み込みレイヤの夫々が、バイアスがなく且つストライドが1である3×3×32×32フィルタバンクを備えている、
請求項11に記載の方法。
【請求項14】
前記第2ダイナミックレンジとは異なる目標ダイナミックレンジでディスプレイに前記出力画像をマッピングするよう表示マッピングプロセスを適用することを更に有する、
請求項9に記載の方法。
【請求項15】
前記強度画像を前記第1ニューラルネットワークに適用する前に、前記強度画像の前記第1空間分解能を低減させることを更に有する、
請求項1に記載の方法。
【請求項16】
プロセッサを有し、請求項1乃至15のうちいずれか一項に記載の方法を実行するよう構成される装置。
【請求項17】
請求項1乃至15のうちいずれか一項に記載の方法を1つ以上のプロセッサにより実行するためのコンピュータ実行可能命令を記憶している非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は概して画像に関係がある。より具体的には、本発明の実施形態は、高ダイナミックレンジ(High-Dynamic Range,HDR)表示への標準ダイナミックレンジ(Standard-Dynamic Range,SDR)のダイナミックレンジ変換及び表示管理に関係がある。
【背景技術】
【0002】
本明細書で使用されるように、「ダイナミックレンジ」(Dynamic Range,DR)という用語は、画像内の強さ(例えば、輝度、ルーマ)の範囲、例えば、最も暗い灰色(黒)から最も明るい白色(ハイライト)まで、を認知するための人間の視覚システム(Human Visual System,HVS)の能力に関係し得る。この意味で、DRは、‘シーンを参照した’強さに関係がある。DRはまた、特定の幅の強度範囲を適切に又は近似的にレンダリングする表示デバイスの能力にも関係し得る。この意味で、DRは、‘表示を参照した’強さに関係がある。本明細書の説明のいずれかの時点で、特定の意味が特定の重要性を有すると明示的に指定されない限り、この用語はいずれの意味でも(例えば、同義的に)使用できると推測されるべきである。
【0003】
本明細書で使用されるように、「高ダイナミックレンジ」(HDR)という用語は、人間の視覚システム(HVS)の約14~15倍に及ぶDR幅に関係がある。実際に、人間が広範囲の強度範囲を同時に知覚できるDRは、HDRと比較すると多少切り詰められる可能性がある。本明細書で使用されるように、「拡張ダイナミックレンジ」(Enhanced Dynamic Range,EDR)又は「視覚ダイナミックレンジ」(Visual Dynamic Range,VDR)という用語は、一部の光適応がシーン又は画像にわたって変化することを可能にする目の動きを含む人間の視覚システム(HVS)によってシーン又は画像内で認知可能であるDRに個別に又は同義的に関係し得る。
【0004】
実際に、画像は1つ以上の色成分(例えば、ルーマY及びクロマCbとCr)を含み、各色成分はピクセルごとにnビット(例えば、n=8)によって表現される。例えば、ガンマ輝度コーディングを用いて、n≦8である画像(例えば、カラー24ビットJPEG画像)は標準ダイナミックレンジの画像と見なされる一方で、n≧10である画像は拡張ダイナミックレンジの画像と見なされ得る。EDR画像及びHDR画像はまた、インダストリアル・ライト&マジックによって開発されたOpenEXRファイルフォーマットなどの、高精度(例えば、16ビット)の浮動小数点フォーマットを用いて記憶及び分配されてもよい。
【0005】
本明細書で使用されるように、「メタデータ」という用語は、コーディングされたビットストリームの部分として伝送される任意の補助情報に関係があり、デコーダが復号化画像をレンダリングするのを支援する。そのようなメタデータには、本明細書で記載されているような、画像の最小輝度値、平均輝度値、及び最大輝度値、色空間又はガマット情報、参照表示パラメータ、及び補助信号パラメータが含まれるが、これらに限られない。
【0006】
ほとんどのコンシューマデスクトップは、200から300cd/m2又はnitの輝度を現在サポートしている。ほとんどのコンシューマHDTVは300から500nitの範囲に及び、新しいモデルは1000nit(cd/m2)に到達している。そのような従来のディスプレイはこのように、HDR又はEDRに対して、標準ダイナミックレンジ(SDR)とも呼ばれる、より低いダイナミックレンジ(Lower Dynamic RangeLDR)を典型としている。HDRコンテンツの利用可能性が捕捉装置(例えば、カメラ)及びHDRディスプレイ(例えば、ドルビー・ラボラトリからのPRM-4200プロフェッショナル・リファレンス・モニタ)の両方の進歩により高まるにつれて、HDRコンテンツはカラーグレーディングされて、より高いダイナミックレンジ(例えば、1000nitから5000nit又はそれ以上)をサポートするHDRディスプレイで表示される可能性がある。一般に、制限なしに、本開示の方法は、SDRよりも高い任意のダイナミックレンジに関係がある。
【0007】
本明細書で使用されるように、「表示管理」という用語は、対象ディスプレイのためにピクチャをレンダリングするよう受信器で実行されるプロセスを指す。例えば、制限なしに、そのようなプロセスには、トーンマッピング、ガマットマッピング、色管理、フレームレート変換、などが含まれ得る。
【0008】
高ダイナミックレンジ(HDR)コンテンツの作成及び再生は、HDR技術が以前のフォーマットよりも現実的で実物に近い画像を提供するため、現在広く普及しつつある。しかし、レガシーコンテンツは標準ダイナミックレンジ(SDR)でしか利用可能でないことがあり、ブロードキャストインフラストラクチャは、そのようなコンテンツを、HDRディスプレイの能力を最大限に活用するのに適したフォーマットに変換するためのメタデータを伝送することを許されないことがある。既存の表示スキームを改善するために、ここで本発明者によって認識されているように、HRD表示へのSDR画像のアップコンバージョン及び表示管理のための改善された技術が開発されている。
【0009】
このセクションで記載されているアプローチは、追求され得るアプローチであるが、必ずしも以前より考案又は追求されてきたアプローチではない。従って、別なふうに述べられない限り、このセクションで記載されるアプローチのいずれも、単にこのセクションに含まれているというだけで従来技術として認定されると想定されるべきではない。同様に、1つ以上のアプローチに関して特定された問題は、別なふうに述べられない限り、このセクションに基づいていずれかの従来技術で認識されていると想定すべきではない。
【図面の簡単な説明】
【0010】
本発明の実施形態は、添付の図面の図の中で、限定としてではなく、一例として表されており、図中、同じ参照番号は、類似した要素を参照するものである。
【0011】
【
図1】ビデオ配信パイプラインためのプロセスの例を表す。
【
図2A】単一のニューラルネットワーク処理ユニットを含む本発明の第1実施例に係るダイナミックレンジアップコンバージョン及び表示管理パイプラインを表す。
【
図2B】2つのニューラルネットワーク処理ユニットを含む本発明の第2実施例に係るダイナミックレンジアップコンバージョン及び表示管理パイプラインを表す。
【
図3】本発明の実施例に係る、輝度メタデータを予測するためのニューラルネットワークアーキテクチャの例を表す。
【
図4A】本発明の実施例に係る、ディテールレイヤ残差画像を予測するためにニューラルネットワークで使用される残差ニューラルネットワーク(ResNet)ブロック内の処理パイプラインを表す。
【
図4B】本発明の実施例に係る、ディテールレイヤ残差画像を予測するためのニューラルネットワーク内の処理パイプラインを表す。
【発明を実施するための形態】
【0012】
HDR表示へのSDR画像のダイナミックレンジ変換及び表示管理の方法が本明細書で記載される。以下の記載では、説明を目的として、多数の具体的な詳細が、本発明の完全な理解をもたらすように示されている。なお、本発明がこれらの具体的な詳細なによらずとも実施され得ることは明らかであろう。他の事例では、よく知られている構造及びデバイスは、本発明を不必要に遮蔽したり、不明りょうにしたり、又は難読化したりすることを避けるために、徹底的に詳細には記載されない。
【0013】
[概要]
本明細書で記載される例示的な実施形態は、HDR表示へのSDR画像のダイナミックレンジ変換及び表示管理の方法に関係がある。実施形態で、プロセッサは、第1ダイナミックレンジ及び第1空間分解能で入力画像(202)を受け取る。プロセッサは、入力画像に基づき強度画像(207)を生成し、強度画像を第1ニューラルネットワーク(210)に適用して、第1ダイナミックレンジよりも高い第2ダイナミックレンジでマッピングされるときの強度画像の予測統計を生成し、強度画像の統計及び予測統計に基づきトーンマッピング曲線を生成(215)し、トーンマッピング曲線を適用して、入力画像を、第2ダイナミックレンジとは異なる目標ダイナミックレンジでディスプレイに表示する。実施形態で、ダイナミックレンジ変換及び表示マッピングの方法は、第1ダイナミックレンジ及び第1空間分解能での入力画像にアクセスすることと、入力画像に基づき強度画像を生成することと、第1ダイナミックレンジよりも高い第2ダイナミックレンジでマッピングされるときの強度画像の予測統計を生成するよう強度画像を第1ニューラルネットワークに適用することと、強度画像の統計及び予測統計に基づきトーンマッピング曲線を生成することとを有する。方法は、実施形態において、入力画像及びトーンマッピング曲線に基づき、目標ダイナミックレンジによるディスプレイでの表示のために、マッピングされた出力画像を生成することを有してもよい。目標ダイナミックレンジは第2ダイナミックレンジとは異なってもよい。実施形態で、強度画像の統計は、第1ダイナミックレンジでの強度画像の強度値を含み、予測統計は、第2ダイナミックレンジでの予測強度値(例えば、第2ダイナミックレンジでの対応する予測強度値)を含む。
【0014】
一実施形態で、第1ニューラルネットワークは、第2ダイナミックレンジ(例えば、HDR)での参照画像と第1ダイナミックレンジでの参照画像との対に対して訓練されてよい。第1ダイナミックレンジでの参照画像は、第2ダイナミックレンジでの各参照画像を、トーンマッピング操作により第1ダイナミックレンジにマッピングすることによって、生成され得る。第1ニューラルネットワークは、第1ダイナミックレンジでの参照画像についての予測統計(例えば、第1ダイナミックレンジでの参照画像に基づき生成されたおの各々強度画像の予測統計)と第2ダイナミックレンジでの参照画像の統計との間の関係を知る(例えば、誤差を最小限にする)ために、第1ダイナミックレンジ及び第2ダイナミックレンジでの参照画像の対に対して訓練されてよい。一実施形態で、これは、第1ダイナミックレンジ及び第2ダイナミックレンジでの参照画像の対について、第1ニューラルネットワークを用いて第1ダイナミックレンジでの参照画像についての予測統計を繰り返し計算し、該予測統計と第2ダイナミックレンジでの対応する参照画像の統計との間の誤差を第1ニューラルネットワークに逆伝播することによって、行われてもよい。訓練は、基準と予測統計との間の誤差が小さい閾値内にあるか又は非減少プラトー(non-decreasing plateau)に達する場合に終了される。代替的に、他の実施形態では、第1ニューラルネットワーク使用して第1ダイナミックレンジでの参照画像についての予測統計を生成した後、該予測統計は、第1ダイナミックレンジでの参照画像を第2ダイナミックレンジでのその対応する予測画像にアップコンバートするために適用されてもよい。第2ダイナミックレンジでの対応する参照画像と第2ダイナミックレンジでの予測画像とは比較されてよく、第2ダイナミックレンジでの予測画像と参照画像との間の誤差は第1ニューラルネットワークに逆伝播されてよい。
【0015】
一実施形態で、方法は、強度画像に基づいてベースレイヤ画像及びディテールレイヤ画像を生成することと、トーンマッピングされたベースレイヤ画像を第2ダイナミックレンジで生成するようトーンマッピング曲線をベースレイヤ画像に適用することとを更に有してもよい。一実施形態で、方法は、残差レイヤ画像を第2ダイナミックレンジで生成するよう強度画像及びディテールレイヤ画像を第2ニューラルネットワークに適用することと、第2ディテールレイヤ画像を生成するよう残差レイヤ画像をディテールレイヤ画像に加えることと、出力画像を第2ダイナミックレンジで生成するよう第2ディテールレイヤ画像をトーンマッピングされたベースレイヤ画像に加えることとを更に有してもよい。一実施形態で、第2ニューラルネットワークは、第2ダイナミックレンジ(例えば、HDR)での参照画像と第1ダイナミックレンジ(例えば、SDR)での参照画像との対に対して訓練されてよい。第1ダイナミックレンジでの参照画像は、第2ダイナミックレンジでの各参照画像を、トーンマッピング操作により第1ダイナミックレンジにマッピングすることによって、生成され得る。第2ニューラルネットワークは、第2ダイナミックレンジでの予測画像と第2ダイナミックレンジでの対応する参照画像との間の関係を知る(例えば、誤差を最小限にする)ために、第2ダイナミックレンジ及び第1ダイナミックレンジでの参照画像の対に対して訓練されてよい。第2ダイナミックレンジ及び第1ダイナミックレンジでの参照画像の各対は第2ニューラルネットワークによって処理されてよく、このとき、第2ダイナミックレンジでの参照画像と第2ダイナミックレンジでの対応する予測画像との間の誤差は第2ニューラルネットワークに逆伝播される。各対の予測画像は、第1ダイナミックレンジでの参照画像に基づき生成された強度画像と、対応するディテールレイヤ画像とを第2ニューラルネットワークに適用して、第2ダイナミックレンジでの残差レイヤ画像を生成し、残差レイヤ画像をディテールレイヤ画像に加えて第2ディテールレイヤ画像を生成し、そして、第2ディテールレイヤ画像を、トーンマッピング曲線を強度画像に適用することによって生成されたトーンマッピングされたベースレイヤ画像に加えて、予測出力画像を第2ダイナミックレンジで生成することによって、生成され得る。
【0016】
[SDRからHDRへの画像マッピング及び表示管理]
ビデオコーディングパイプライン
図1は、ビデオ捕捉からビデオコンテンツ表示までの様々な段階を示す従来のビデオ配信パイプライン(100)の例示的なプロセスを表す。一連のビデオフレームの(102)が画像生成ブロック(105)により捕捉又は生成される。ビデオフレーム(102)は、ビデオデータ(107)を生成するようコンピュータによってデジタルで(例えば、デジタルカメラによって)捕捉されるか又は(例えば、コンピュータアニメーションを用いて)生成され得る。代替的に、ビデオフレーム(102)はフィルムカメラによってフィルムに捕捉されてもよい。フィルムは、ビデオデータ(107)を供給するようデジタルフォーマットに変換される。プロダクション段階(110)で、ビデオデータ(107)は、ビデオプロダクションストリーム(112)を供給するよう編集される。
【0017】
プロダクションストリーム(112)のビデオデータは、次いで、ポストプロダクション編集のためのブロック(115)でプロセッサへ供給される。ポストプロダクション編集のブロック(115)は、ビデオ作成者の創造的意図に従って画像品質を高めたり又は画像の特定の外観を達成したりするために、画像の特定のエリア内の色又は明るさを調整又は変更することを含み得る。これは時々「カラータイミング」又は「カラーグレーディング」と呼ばれる。他の編集(例えば、シーンの選択及び順序付け、画像クロッピング、コンピュータにより生成された視覚特殊効果の追加、など)が、分配のための作品の最終的なバージョン(117)を得るためにブロック(115)で実行されてもよい。ポストプロダクション編集(115)の間、ビデオ画像は参照ディスプレイ(125)で見られる。
【0018】
ポストプロダクション(115)に続いて、最終的な作品(117)のビデオデータは、テレビ受像機、セットトップボックス、映画館、などの下流の復号及び再生デバイスへ配信するために符号化ブロック(120)へ供給されてもよい。いくつかの実施形態で、符号化ブロック(120)は、符号化されたビットストリーム(122)を生成するよう、ATSC、DVB、DVD、Blue-Ray、及び他の配信フォーマットによって定義されているようなオーディオ及びビデオエンコーダを含んでもよい。受信器において、符号化されたビットストリーム(122)は、信号(117)の同じ又は近い近似を表す復号化信号(132)を生成するよう復号化ユニット(130)によって復号される。受信器は、参照ディスプレイ(125)とは全く異なる特性を持ち得る対象ディスプレイ(140)に取り付けられてよい。その場合に、表示管理ブロック(135)が、表示マッピング信号(137)を生成することによって復号化信号(132)のダイナミックレンジを対象ディスプレイ(140)の特性にマッピングするために使用されてもよい。制限なしに、表示管理プロセスの例は、参考文献[1]及び[2]に記載されている。
【0019】
SDRからHDRへのダイナミックレンジ変換パイプライン
従来の表示マッピングでは、マッピングアルゴリズムは、入力ダイナミックレンジを対象ディスプレイのダイナミックレンジにマッピングするためにシグモイドのような関数を適用する(例えば、参考文献[3]及び[4]を参照。)。そのようなマッピング関数は、入力ソース及び対象ディスプレイの特性を用いて生成されたアンカーポイント、ピボット、及び他の多項式パラメータによって特徴付けられる区分線形又は非線形多項式として表され得る。例えば、参考文献[3]及び[4]では、マッピング関数は、入力画像及びディスプレイの輝度特性(例えば、最小輝度、中間(平均)輝度、及び最大輝度)に基づいたアンカーポイントを使用する。なお、他のマッピング関数は、ブロックレベルでの又は画像全体の輝度分散又は輝度標準偏差値などの別の統計データを使用することがある。SDR画像の場合、プロセスはまた、伝送されるビデオの部分として伝送されるか又はデコーダ若しくはディスプレイによって計算されるかのどちらかである追加のメタデータによっても支援されることがある。例えば、コンテンツプロバイダがソースコンテンツのSDR及びHDRの両方のバージョンを持っている場合に、ソースは、デコーダが入来するSDR画像をHDR画像に変換するのを助けるためのメタデータ(例えば、前方又は後方リシェイピング関数の区分線形近似)を生成するために両方のバージョンを使用してもよい。しかし、多くのブロードキャストシナリオで、HDRコンテンツの利用可能性、送信器、通信媒体、及び/又は受信器の制限により、そのようなメタデータの生成又は伝送は禁止され、よって、HDRディスプレイの最も効率的な使用は妨げられる。
【0020】
図2Aは、例示的な実施形態に係るダイナミックレンジアップコンバージョン及び表示管理パイプライン(200A)を表す。
図2Aに表されるように、入力ビデオ(202)は、ビデオデコーダから受信されたビデオ及び/又はグラフィクス処理ユニットから(例えば、セットトップボックスから)受信されたビデオ、及び/又は他のビデオ入力(例えば、カメラ、TV若しくはセットトップボックスのHDMI(登録商標)ポート、グラフィクス処理ユニット(GPU)、などからのビデオ)を含み得る。制限なしに、入力ビデオ202は、HDRディスプレイで表示される“HDR”ビデオにアップコンバージョンされる“SDR”ビデオとして特徴付けられてもよい。
【0021】
実施形態で、プロセス200Aは、最適化されたSDR-HDRマッピングの生成を促すよう予測HDR統計(又はメタデータ)の組を生成するためのニューラルネットワーク(Neural Network,NN)(210)を含む。計算上の制限のために、実施形態では、NNユニット(210)の前に前処理ユニット(205)を配置して、色フォーマット及び分解能に関して入力画像を適切な画像に変換することができる。NNユニット210の出力は、マッピングユニット(215)によって、最適化されたマッピング曲線を生成するために使用され、最適化されたマッピング曲線は、元の入力(202)とともに、マッピング出力222を生成するよう表示マッピングユニット(220)へ供給される。各コンポーネントの詳細については次に記載される。
【0022】
ニューラルネットワーク入力生成
ブロック205で、入力画像は、NNユニット210による処理に適したフォーマットに変換される。実施形態で、このプロセスは2つのステップ、つまり、a)入力画像の強さ又は輝度の抽出、及びb)その解像度の調整、を含む。例えば、強さを抽出するために、入力されたRGB画像は、当該技術で知られている色変換技術、例えば、ITU-R Rec. BT 2100などを用いて、YCbCr、ICtCp、などのルーマ-クロマ色フォーマットに変換されてよい。代替の実施形態では、強さは、そのR、G、及びB成分のピクセルごとの最大値として特徴付けられてもよい。強さ抽出ステップは、ソース画像が既に単一チャネル強度画像として表されている場合にはバイパスされてもよい。いくつかの実施形態で、ピクセル値はまた、画像統計の計算を容易にするために、予め定義された標準ダイナミックレンジ(例えば、0.005から100nitの間)に従って[0,1]に正規化されてもよい。
【0023】
大域的メタデータ生成ニューラルネットワーク(210)は、通常、固定の画像寸法に対して動作するが、画像の入力寸法はソースコンテンツに基づき変化する可能性がある(例えば、480p、720p、1080i、など)。実施形態で、ユニット205は、画像サイズを、NNメタデータ発生器を訓練し操作するために使用される寸法(例えば、960×540)にリサンプリングしてもよい。例えば、960×540分解能は、最先端のニューラルネットワークによれば、複雑さと分解能との間の良好なトレードオフを提供することが分かっている。
【0024】
実施形態で、入力画像がNNのサポートされている分解能よりも大きい場合、次いでそれは、幅及び高さの両方が所望の分解能以下になるまで、係数2により繰り返しダウンサンプリングされる。例として、制限なしに、ダウンサンプリング操作は、4タップの分離可能な水平及び垂直ローパスフィルタ(例えば、[1 3 3 1]/8)と、それに続く、水平及び垂直の両次元で1つおきにピクセルを破棄することとによって、実行されてよい。幅及び高さは、次いで、所望の画像寸法(例えば、960×540)を得るよう4辺全てにおいて対称的にパディング値でパディングされる。他の実施形態では、ニューラルネットワークは異なる画像寸法について訓練でき、それに応じてこのリサンプリングステップは調整され得る。
【0025】
推定HDR統計を生成するニューラルネットワーク
予測HDR統計ニューラルネットワーク(210)は、SDR画像(202)の単一チャネル(その輝度)を入力としてとり、必要に応じて、対応するHDR画像の統計を予測して、SDR-HDRマッピング曲線(例えば、最小輝度値、平均輝度値、及び最大輝度値)を生成する。いくつかの実施形態で、予測HDRメタデータ(212)は、ビデオシーン内のピクチャ間の時間的一貫性を確保するよう時間的にフィルタリングされてもよい。これらの値はまた、例えば、0から1の間に結果をクランプすることによって、又は結果として得られる画像統計の単調性を確保することによって、それらがマッピングに使用できることを確かにするように、一貫性のない結果に対して調整されてもよい。
【0026】
実施形態で、ニューラルネットワーク210は、4次元畳み込みの組として定義され、各畳み込みの後、全ての結果に一定のバイアスが加えられる。いくつかレイヤで、畳み込みの後には、負値を0にクランプすることが続く。畳み込みは、ピクセル単位でのそれらのサイズ(M×N)、処理対象の画像チャネルの数(C)、及びフィルタバンク内にあるカーネルの数(K)によって定義される。その意味で、各畳み込みは、フィルタバンクのサイズM×N×C×Kによって記述できる。例として、サイズ3×3×1×2のフィルタバンクは2つの畳み込みカーネルから成り、各カーネルは1つのチャネルに作用し、3ピクセル×3ピクセルのサイズを持っている。
【0027】
いくつかのフィルタバンクはまたストライドを有することがあり、これはつまり、畳み込みの一部の結果が破棄されることを意味する。1のストライドは、全ての入力ピクセルが出力ピクセルを生成することを意味する。2のストライドは、各次元の1つおきのピクセルのみが出力を生成することを意味する、など。よって、ストライドが2であるフィルタバンクは、(M/2)×(N/2)個のピクセルを持った出力を生成することになり、このとき、M×Nは入力画像サイズである。全結合されたカーネルへの入力を除く全ての入力は、1のストライドを設定することにより入力と同数のピクセルを有する出力が得られるように、パディングされる。各畳み込みバンクの出力は、次の畳み込みレイヤへの入力として供給される。
【0028】
図3に表されるように、実施形態で、ニューラルネットワーク(210)は、4つのそのような畳み込みレイヤから成る:
・サイズが3×3×1×4であり、ストライドが2であり、バイアスが4つある第1フィルタバンク(305)、及びそれに続く第1正規化線形ユニット(Rectified Linear Unit,ReLU)活性化関数;
・サイズが3×3×1×8であり、ストライドが2であり、バイアスが8つある第2フィルタバンク(310)、及びそれに続く第2ReLU;
・サイズが7×7×2×16であり、ストライドが5であり、バイアスが16個ある第3フィルタバンク(315)、及びそれに続く第3ReLU;
・サイズが48×27×16×3であり、全結合されており、バイアスが3つある第4フィルタバンク(320)、及びSDR入力に対応するHDR画像の推定される最小、中間、及び最大輝度レベルを表す1つの1×3出力(212)。
【0029】
実施形態で、NN(210)は、HDR画像とSDR画像との対に対して訓練される。例えば、HDR画像の大規模なコレクションは、参考文献[1]及び[2]に記載されているようなトーンマッピング操作を用いて、対応するSDR画像にマッピングされる。このプロセスは、トーンマッピングプロセスの間に使用されるHDR画像からの参照HDRメタデータ(例えば、最小、中間、及び最大輝度値)の分析を含む。ネットワークの目標は、推定HDR画像からのメタデータと参照HDR画像との間の関係を知ることである。一実施形態で、これは、ニューラルネットワークアーキテクチャを用いて予測HDRメタデータを繰り返し計算し、予測HDRメタデータと参照HDRメタデータとの間の誤差を、誤差をネットワーク重みに逆伝播することで最小化することによって、行われる。訓練は、参照メタデータと予測メタデータとの間の誤差が小さい閾値内になるか又は非減少プラトーに達すると終了する。
【0030】
代替的に、他の実施形態では、予測HDRメタデータの生成後、該予測メタデータは、入力SDR画像をその対応するHDR画像にアップコンバージョンするよう適用される。ソースHDR画像と予測HDR画像とは比較され、誤差はネットワークに逆伝播される。元のメタデータと予測されたメタデータとの間の誤差に基づいた訓練よりも、元の画像と予測された画像との間の誤差に基づいた訓練の方が、ニューラルネットワークのパフォーマンスの向上をもたらすことが観察されている。
【0031】
予測HDRメタデータ(212)が与えられると、ステップ215は、表示マッピングプロセス(220)によって使用される最適なマッピング曲線を生成する。ニューラルネットワーク210は、特定のディスプレイのためのマッピングを生成しないことに留意されたい。その結果、そのようなSDR-HDRマッピングの出力は、対象ディスプレイの能力を超える可能性があるため、対象ディスプレイの特性を考慮した第2のHDR(予測画像)-HDR(表示)マッピングが必要になる。この第2のHDR-HDRマッピングは、生成されたHDRデータが単にオフラインで記憶されるか、又は下流の他のデバイスによって表示されるよう伝送される場合には、スキップされてもよい。
【0032】
例えば、実施形態で、予測HDRメタデータ(212)は、予測されたHDRメタデータを有するHDR画像をSDR信号範囲にマッピングするための“順方向マッピング”曲線を生成するよう処理される(参考文献[3]又は[4]を参照。)。追加のステップで、順方向マッピング曲線は、ソース画像のSDR信号範囲を予測HDR画像のHDR信号範囲に変換する“逆方向マッピング”曲線を生成するよう反転されてもよい。この逆方向マッピング曲線は、次いで、対象ディスプレイの特性(例えば、その最小及び最大輝度)又は他のパラメータ、例えば、所望のコントラスト若しくは周囲の環境光、などに応じて予測HDR画像のダイナミックレンジをマッピングするように更に調整される。最終的に、ステップ220で、入力されたSDR画像(202)及びステップ215で導出されたマッピング曲線(217)を用いて、表示マッピングプロセスは対象ディスプレイのための最終的なHDR画像(222)を生成する(例えば、参考文献[1]及び[2]を参照。)。
【0033】
局所トーンマッピング適応
生成されたマッピング曲線(217)は画像(202)全体に適用されるので、アップコンバージョンプロセス200Aは大域的なダイナミックレンジマッピングプロセスと見なされ得る。参考文献[2]に更に詳細に記載されているように、表示マッピング220は、入力画像の局所コントラスト及びディテール情報を考慮することによって、更に改善され得る。例えば、付録に記載されるように、ダウンサンプリング及びアップサンプリング/フィルタリングプロセスが、入力画像を2つのレイヤ、つまり、フィルタリングされたベースレイヤ画像と、ディテールレイヤ画像とに分けるために使用されてもよい。トーンマッピング曲線(217)をフィルタリングされたベースレイヤに適用し、次いでその結果にディテールレイヤを加え直すことによって、画像の元のコントラストは大域的にも局所的にも保たれ得る。これは「ディテール保持」(detail preservation)又は「精度レンダリング」(precision rendering)と呼ばれ得る。
【0034】
よって、表示マッピングは多段階操作として実行できる:
a)SDR-HDRマッピングを導くようベースレイヤ(BL)画像を生成する;
b)ベースレイヤ画像へのトーンマッピングを実行する;
c)トーンマッピングされたベースレイヤ画像にディテールレイヤ画像を加える。
【0035】
参考文献[2]では、生成されたベースレイヤ(BL)は、元の画像の空間的にブラーされた、エッジ保存されたバージョンを表す。すなわち、それは、重要なエッジを保ちながら、より細かいディテールをぼやかす。より具体的には、BL画像の生成には、次が含まれ得る:
・元の画像の強さを使用して、より解像度の低いレイヤを含む画像ピラミッドを生成し、各レイヤを保存する;
・最も低い解像度のレイヤから開始して、より高いレイヤまでアップサンプリングしてベースレイヤを生成する。ベースレイヤ及びディテールレイヤ画像の生成の例は、参考文献[2]及び本明細書の付録に記載されている。
【0036】
図2Bは、入力画像のピラミッド表現及び精度レンダリングを利用する第2ニューラルネットワーク(230)を使用する逆方向マッピング及び表示管理プロセス(200B)の例示的な実施形態を表す。
図2Bに表されるように、プロセス200Bは新しいブロック(225)を含み、新しいブロック(225)は、元の画像の強さ(I)を考慮して、ベースレイヤ(BL)画像(I
BL)及びディテールレイヤ(DL)画像(I
DL)を生成する。実施形態で、ディテールレイヤ画像のピクセル(x,y)は、
I
DL(x,y)=I(x,y)-I
BL(x,y)*dg (1)
として生成される。ここで、dgは[0,1]内のディテール-ゲインスカラーを表す。
【0037】
予測HDRディテールニューラルネットワーク(230)は入力として2つのチャネル、つまり、SDR画像のディテールレイヤ(DL)及びソースSDR画像の強度(I)チャネル、をとる。それは、ディテールレイヤ画像に加えられる残差値を含みながらディテールレイヤ画像と同じ解像度を有する単一チャネル予測ディテールレイヤ(PDL)画像を生成する。実施形態で、ディテールレイヤ残差は、出力画像の局所的なコントラストを引き延ばして、その知覚されるコントラスト及びダイナミックレンジを増大させる。ディテールレイヤ入力及び入力画像の両方を利用することによって、ニューラルネットワークは、ディテールレイヤの内容にだけでなくソース画像の内容にも基づいてコントラストの引き延ばしを予測できる。ある意味、これにより、ベース画像及びディテール画像への固定精度レンダリング分解で発生する可能性がある問題を是正できる可能性がネットワークに与えられる。
【0038】
200Bにおける、輝度画像Iを既に生成しているブロック225を考えると、200Aのブロック205は、ニューラルネットワーク210の適切な入力解像度(例えば、960×540)へのIの適切なダウンサンプリングのみを実行することによって簡略化できる。
【0039】
ニューラルネットワーク230は、畳み込みレイヤと残差ニューラルネットワーク(ResNet)レイヤとから成る。
図4Aに表されるように、実施形態で、各ResNetブロック(410)は、ReLUユニットを伴った2つの畳み込みレイヤ(405a,405b)を含み、各ResNetユニットへの入力(402)は、ResNet出力(407)を生成するよう2番目の畳み込みレイヤ(405b)の出力に加えられる。実施形態で、各畳み込みレイヤ(405)は、ストライドが1であって、バイアスがない3×3×32×32のフィルタバンクを備えている。
【0040】
図4Bに表されるように、予測HDRディテールレイヤニューラルネットワーク230は、入力畳み込み(420)と、それに続く5つのResNetブロック(410)(各1つが
図4Aには表されている。)と、それに続く最後のReLUと、出力畳み込み(430)とから成る。ネットワークの出力はM×N画像を形成し、入力されたディテールレイヤ画像と同じサイズである。この出力は次いで、最終的なディテールレイヤ画像を形成するよう、入力されたディテールレイヤ画像に加えられる。いくつかの実施形態で、フル解像度(M×N)で入力画像(I,DL)を使用する代わりに、複雑さを低減するために、サブサンプリングされたバージョンが使用されてもよい。その場合、出力残差画像(PDL)はフル解像度にアップスケーリングされ得る。
【0041】
実施形態で、畳み込みネットワーク420は、M×N×2の入力と、3×3×2×32、ストライド1、バイアスなしのフィルタバンクと、M×N×32の出力とを有する。同様に、畳み込みネットワーク430は、M×N×32の入力と、3×3×32×1、ストライド1、バイアスなしのフィルタバンクと、M×N×1の出力とを有する。
【0042】
ネットワークは、HDR画像とSDR画像との対に対して訓練されてよい。実施形態で、HDR画像の大規模なコレクションが、例えば参考文献[2]で記載されるようなトーンマッピング操作を用いて、SDRにマッピングされる。この対は、次いで、HDRディテールレイヤ予測NNによって処理され、このとき、参照HDR画像と予測HDR画像との間の誤差はニューラルネットワークの重みに伝播される。訓練は、誤差が閾値を下回るか又は非減少プラトーに達すると終了する。NN230の訓練の間、式(1)中のdgスカラーは1にセットされてもよい。
【0043】
いくつかの実施形態で、
IB=α*IBL+(1-α)*1
のように、ベースレイヤIBLを直接に又は入力強度画像Iと組み合わせて使用できる。ここで、αは[0,1]内のスカラーである。α=0のとき、トーンマッピングは従来の帯域トーンマッピング(プロセス200Aを参照。)と同等である。α=1のとき、トーンマッピングはベースレイヤ画像に対してのみ実行される。
【0044】
IDLを考えると、画像IDL上の[0,1]内の任意のスカラーβは、最終的なトーンマッピング画像を生成するよう、トーンマッピングされた出力の鮮明化(sharpening)を調整するために使用されてもよい:
I’=I’BL+IDL*β (2)
ここで、I’BLは、IBL(又はIB)のトーンマッピングされた画像を表す。予測ニューラルネットワーク230が使用されている場合に:
I’=I’BL+(IDL+PDL)*β (3)
である。
【0045】
代替の実施では、プロセス200Bは、HDRディテールレイヤ予測のためのNN(230)をバイパス(除去)することによって、及び元のディテールレイヤ(DL)のみを使用することによって、簡略されてもよい。よって、入力されたSDR画像のピラミッド表現を考えると、プロセス200Bは、次のように調整され得る:
・ブロック225で、入力画像の強さをベースレイヤ及びディテールレイヤに分ける;
・従来通り、HDRメタデータ生成のためのNNの出力(212)を使用して、マッピング曲線217を生成する;
・マッピング曲線を使用して、入力画像のベースレイヤのみの最適化されたマッピングを生成する;
・最適化されたマッピングに元のディテールレイヤ(DL)を加えて、最終的なHDR画像を生成する(例えば、式(2)を参照。)。
【0046】
[参考文献]
ここで挙げられている参考文献の夫々は、その全文を参照により援用される。
[1]米国特許第9961237号
[2]国際特許出願第PCT/US2020/028552号(国際公開第2020/219341号)
[3]米国特許第8593480号
[4]米国特許第10600166号
【0047】
[例となるコンピュータシステム実施]
本発明の実施形態は、コンピュータシステム;電子回路及び部品において構成されたシステム;マイクロコントローラ、フィールドプログラマブルゲートアレイ(FGPA)又は他の設定可能若しくはプログラム可能なロジックデバイス(PLD)などの集積回路(IC)デバイス;離散時間又はデジタル信号プロセッサ(DSP);特定用途向けIC(ASIC);及び/又はそのようなシステム、デバイス若しくはコンポーネントの1つ以上を含む装置、により実施されてよい。コンピュータ及び/又はICは、本明細書で記載されているような画像伝送を実行若しくは制御しても、又は画像伝送に関する命令を実行してもよい。コンピュータ及び/又はICは、本明細書で記載される画像アップコンバージョン及び表示マッピングプロセスに関係がある様々なパラメータ又は値のいずれかを計算してもよい。画像及びビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア及びそれらの様々な組み合わせで実施されてもよい。
【0048】
本発明の特定の実施は、プロセッサに本発明の方法を実行させるソフトウェア命令を実行するコンピュータプロセッサを有する。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダ、などの1つ以上のプロセッサは、プロセッサがアクセスすることができるプログラムメモリ内のソフトウェア命令を実行することによって、上述された画像アップコンバージョン及び表示マッピングプロセスに関する方法を実施してもよい。本発明はまた、プログラム製品の形でも提供されてよい。プログラム製品は、データプロセッサによって実行される場合に、データプロセッサに本発明の方法を実行させる命令を含むコンピュータ可読信号の組を運ぶ任意の有形且つ非一時的な媒体を有してもよい。本発明に係るプログラム製品は、多種多様な有形な形態のいずれかであってもよい。プログラム製品は、例えば、フロッピー(登録商標)ディスケット、ハードディスクドライブ、CD ROMやDVDを含む光学データ記憶媒体、ROMやフラッシュRAMを含む電子データ記憶媒体、などのような物理媒体を有してもよい。プログラム製品上のコンピュータ可読信号は任意に、圧縮又は暗号化されてもよい。
【0049】
コンポーネント(例えば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路、など)が上記で言及される場合に、別なふうに述べられない限り、そのコンポーネントへ言及(「手段」への言及を含む。)は、そのコンポーネントの同等物として、本発明の例示されている実施例での機能を実行する開示されている構造と構造上同等でないコンポーネントを含め、記載されているコンポーネントの機能を実行する(例えば、機能上同等である)如何なるコンポーネントも含むものとして解釈されるべきである。
【0050】
[同等物、拡張、代替物、及びその他]
画像ダイナミックレンジ変換及び表示マッピングに関する例示的な実施形態がこのように記載されている。上記の明細書で、本発明の実施形態は、実施ごとに様々であることができる多数の具体的な詳細を参照して記載されてきた。よって、発明が何であるか、及び出願人が何を発明であると意図しているかを示す唯一のかつ排他的な指標は、その後の修正を含む、特許請求の範囲が発行される具体的な形態で、本願から発行される特許請求の範囲である。特許請求の範囲に含まれる用語について本明細書に明示的に記載される定義は、特許請求の範囲で使用される用語の意味を支配するものとする。従って、特許請求の範囲に明示的に記載されていない限定、要素、特性、特徴、利点、又は属性は、いかなる形であっても特許請求の範囲を制限するものではない。然るに、明細書及び図面は、限定的な意味ではなく、例示的な意味として見なされるべきである。
【0051】
[付録]
入力画像からベースレイヤ画像及びディテールレイヤ画像を生成するプロセスの例
【0052】
ピラミッドダウンサンプリング
ソース画像の強度画像が与えられる、ベースレイヤ(BL)画像は、強度画像に対するダウンサンプリング操作及びアップサンプリング操作の組み合わせによって構成され得る。いくつかの実施形態で、ダウンサンプリング中、ピラミッドのレイヤは、メモリ帯域幅を低減するためにスキップされてもよい。例えば、4K入力画像の場合、最初のレイヤ(例えば、2K解像度)はスキップされてもよい。次いで、アップサンプリング中、4分の1解像度の画像は単純に2倍に倍加されることになる。例えば、4K入力を考えると、実施形態で、ピラミッドは次のレイヤ:1024×576、512×288、256×144、128×72、64×36、32×18、及び16×9を生成することができる。同様に、8K入力画像の場合、2分の1解像度の画像及び4分の1解像度の画像の両方がスキップされてもよい。これは、入力画像サイズと無関係に、ピラミッドの後続のレイヤが同じ寸法を有することを確かにする。
【0053】
ピラミッドはアップサンプリング係数2、4、8などを使用するサブサンプリングに関して記載されているが、他のサブサンプリング係数が一般性を損なわずに使用されてもよい。
【0054】
例として、ピラミッドを生成する際に、n番目のピラミッドレイヤ(例えば、n=2~7)のk番目のラインは、前のレイヤのライン2×k及び2×k-1の適切なフィルタリングによって生成される。実施形態で、そのようなフィルタリングは、分離可能なローパス2×2フィルタ(例えば、フィルタ係数[1 1]/2を有する。)又は分離可能な4×4ローパスフィルタ(例えば、フィルタ係数[1 3 3 1]/8を有する。)のどちらか一方を用いて実行される。4×4フィルタは、ピラミッドレベル間のより良いアライメントをもたらすが、追加のラインバッファを必要とする。他の実施形態では、水平方向及び垂直方向で異なるフィルタ、例えば、4タップ水平フィルタ及び2タップ垂直フィルタ、又はその逆、が適用されてもよい。
【0055】
ピラミッドの最初のレベル(例えば、1024×576)を計算する前に、入力画像は次のためにパディングされてもよい:
・最小のピラミッドレベルから最大のピラミッドレベルまで、全ての空間次元が2で割り切れることを保証する;
・指定された関心領域(ROI)を考慮して、境界ピクセルを複製する;
・様々なサイズ又はアスペクト比の入力画像を考慮して、境界ピクセルを複製する。
【0056】
ピラミッドアップサンプリング
アップサンプリングにおいて、プロセッサは、ダウンサンプリングされたピラミッドデータを受信し、各レイヤでエッジ認識(edge-aware)アップサンプリングフィルタを使用して元の画像をその元の解像度で再構成する。ピラミッドの最小レベルが最初にアップサンプリングされ、それから更なるレベルが最も高いピラミッドレベルの解像度までアップサンプリングされる。
【0057】
レイヤiでのピラミッド画像をP(i)と表す。最低解像度レベル(例えば、i=7)から開始して、最低解像度ピラミッド画像(例えば、P(7))はエッジ保存フィルタに供給され、エッジ保存フィルタは、Ima(7)及びImb(7)(以下で定義される。)と表される2つの係数“画像”を生成する。次に、Ima及びImbは両方とも、アップサンプリングされた係数画像ImaU(7)及びImbU(7)を生成するよう係数2でアップサンプリングされる。
【0058】
次のレイヤi=6で、ピラミッドのP(6)レイヤが、画像
S(6)=ImaU(7)*P(6)+ImbU(7) (4)
を生成するよう、アップサンプリングされた係数画像ImaU(7)及びImbU(7)と結合される。画像S(6)は、画像P(6)とともに、係数“画像”Ima(6)及びImb(6)を生成するようエッジアップサンプルフィルタに供給される。次に、Ima(6)及びImb(6)は、アップサンプリングされた係数画像ImaU(6)及びImbU(6)を生成するよう、係数2でアップサンプリングされる。同じプロセスは残りのピラミッドレイヤについて続く。一般に、i=7,6,5,・・,2について、
S(i-1)=ImaU(i)*P(i-1)+ImbU(i) (5)
であり、ここで、係数画像に画像を乗じる演算「*」は、ピクセルごとにそれらの対応するピクセルを乗算することに対応する。例えば、ピクセル位置(m,n)で、寸法W(i)×H(i)を有するピラミッドレベルiについて、m=1,2,・・・,W(i-1)及びn=1,2,・・・,H(i-1)の場合に
S(i-1)m,n
=ImaU(i)m,n*P(i-1)m,n+ImbU(i)m,n (6)
である。
【0059】
ピラミッドの2番目のレベル(i=2)を処理した後、S(1)及びP(1)を与えられると、エッジフィルタは2つのパラメータ画像Ima(1)及びImb(1)を生成する。4K画像を生成するために、Ima(1)及びImb(1)は2でアップスケーリングされ得る。8K画像を生成するために、Ima(1)及びImb(1)は4でアップスケーリングされ得る。2つのアップスケーリングされた係数画像(ImaU(1)及びImbU(1))は、入力ビデオの強度画像(I)と組み合わされて、
BL=IBL=ImaU(1)*I*ImbU(1) (7)
として、ベースレイヤ画像を生成するために使用されてもよい。
【0060】
一般化すると、N個のレイヤピクチャ(例えば、P(1)からP(N))を考えると、係数画像Ima(1)及びImb(1)の生成は:
最低空間分解能を有するNレイヤピラミッド画像であるP(N)及びエッジフィルタを用いてIma(N)及びImb(N)を生成することと;
N-1レイヤの空間分解能と一致するように、Ima(N)及びImb(N)をアップスケーリングすることによってImaU(N)及びImbU(N)を生成することと;
for(i=N-1~2){
S(i)=ImaU(i+1)*P(i)+ImbU(i+1)
エッジフィルタ、S(i)及びP(i)を用いてIma(i)及びImb(i)を生成する
}
S(1)=ImaU(2)*P(1)+ImbU(2)を計算することと;
エッジフィルタ、S(1)及びP(1)を用いてIma(1)及びImb(1)を生成することと
を有する。
【0061】
実施形態で、S(i)、P(i)、P2(i)、及びP(i)*S(i)の各入力は、水平方向及び垂直方向で3×3の分離可能なローパスフィルタ(例えば、H=[1 2 1]/4)を用いて畳み込まれる。それらの対応する出力は、Sout、Pout、P2out、及びPSoutと表すことができる。これらの信号は各レイヤに特有であるが、簡単のために、インデックスiは使用されない。その場合に、
Pvar=P2out-Pout2
PScov=PSout-Sout*Pout
Ima(i)=PScov/(Pvar+PW(i)) (8)
Imb(i)=Sout-Ima(i)*Pout
である。
【0062】
[関連出願への相互参照]
本願は、2021年7月29日に出願された米国特許仮出願第63/226847号及び2021年7月29日に出願された欧州特許出願第21188516.5号からの優先権の利益を主張するものであり、これらの先の出願の夫々は、その全文を参照により本願に援用される。
【国際調査報告】