(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5744318
(24)【登録日】2015年5月15日
(45)【発行日】2015年7月8日
(54)【発明の名称】複数色チャネル多重回帰予測器
(51)【国際特許分類】
H04N 19/105 20140101AFI20150618BHJP
H04N 19/146 20140101ALI20150618BHJP
H04N 19/187 20140101ALI20150618BHJP
H04N 19/196 20140101ALI20150618BHJP
H04N 19/30 20140101ALI20150618BHJP
【FI】
H04N19/105
H04N19/146
H04N19/187
H04N19/196
H04N19/30
【請求項の数】21
【全頁数】28
(21)【出願番号】特願2014-505358(P2014-505358)
(86)(22)【出願日】2012年4月13日
(65)【公表番号】特表2014-520414(P2014-520414A)
(43)【公表日】2014年8月21日
(86)【国際出願番号】US2012033605
(87)【国際公開番号】WO2012142471
(87)【国際公開日】20121018
【審査請求日】2013年10月11日
(31)【優先権主張番号】61/475,359
(32)【優先日】2011年4月14日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】スゥ,グワン−ミーン
(72)【発明者】
【氏名】キュ,シェン
(72)【発明者】
【氏名】クープフェル,フーベルト
(72)【発明者】
【氏名】ユエン,ユフェイ
(72)【発明者】
【氏名】ヒュルヤルカール,サミール
【審査官】
坂東 大五郎
(56)【参考文献】
【文献】
特表2010−506440(JP,A)
【文献】
特表2010−532936(JP,A)
【文献】
特表2011−509536(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00−19/98
(57)【特許請求の範囲】
【請求項1】
多様な複数チャネル多重回帰(MMR)予測モデルを提供する段階であって、各MMR予測モデルは、色間画像予測を適用することにより、第二のダイナミックレンジをもつ画像および当該MMR予測モデルの予測パラメータを用いて、第一のダイナミックレンジをもつ画像を近似するよう適応されている、段階と;
第一の画像および第二の画像を受領する段階であって、前記第二の画像は前記第一の画像とは異なるダイナミックレンジを有する、段階と;
前記多様なMMRモデルから複数チャネル多重回帰(MMR)予測モデルを選択する段階と;
選択されたMMRモデルの予測パラメータの値を決定する段階と;
前記第二の画像および選択された前記MMR予測モデルに適用される前記予測パラメータの決定された値に基づいて、前記第一の画像を近似する出力画像を計算する段階と;
前記予測パラメータの決定された値および計算された前記出力画像を出力する段階とを含み、
前記多様なMMRモデルは、公式
【数1】
に従って各ピクセルの色成分間の相互乗算を組み込む一次複数チャネル多重回帰予測モデルを含み、ここで、
【数2】
は前記第一の画像のi番目のピクセルの予測された三つの色成分を表し、
【数3】
は前記第二の画像のi番目のピクセルの三つの色成分を表し、
【数4】
は3×3行列であり、nは1×3ベクトルであり、
【数5】
【数6】
【数7】
であり、前記一次複数チャネル多重回帰予測モデルの前記予測パラメータは、前記第一の画像と前記出力画像との間の平均二乗誤差を最小化することによって数値的に得られる、
方法。
【請求項2】
前記第一の画像がVDR画像であり、前記第二の画像がSDR画像である、請求項1記載の方法。
【請求項3】
前記選択されたMMRモデルが:一次MMRモデル、二次MMRモデル、三次MMRモデル、相互積のある一次MMRモデル、相互積のある二次MMRモデルまたは相互積のある三次MMRモデルの少なくとも一つである、請求項1記載の方法。
【請求項4】
前記MMRモデルのいずれかがさらに、近隣ピクセルに関係した予測パラメータを含む、請求項3記載の方法。
【請求項5】
前記近隣ピクセルが左隣のピクセル、右隣のピクセル、上の隣接ピクセルおよび下の隣接ピクセルを含む、請求項4記載の方法。
【請求項6】
前記多様なMMR予測モデルからMMR予測モデルを選択する段階がさらに:
(a)初期MMR予測モデルを選択して適用する段階と;
(b)前記第一の画像と前記出力画像との間の残差誤差を計算する段階と;
(c)前記残差誤差が誤差閾値より小さく、さらなるMMR予測モデルが選択可能でない場合には前記初期MMRモデルを選択し、そうでない場合には、前に選択されたMMR予測モデルとは異なる新しいMMR予測モデルを前記多様なMMR予測モデルから選択して段階(b)に戻る段階とを含む、
逐次反復的な選択プロセスを含む、請求項1記載の方法。
【請求項7】
第一のダイナミックレンジをもつ第一の画像を受領する段階と;
メタデータを受領する段階であって、前記メタデータは、色間画像予測を適用することにより、前記第一の画像およびMMR予測モデルの予測パラメータを用いて、第二のダイナミックレンジをもつ第二の画像を近似するよう適応されている多重回帰(MMR)予測モデルを含み、前記メタデータはさらに、前記予測パラメータの以前に決定された値を含む、段階と;
前記第一の画像および前記予測パラメータの前記以前に決定された値を前記MMR予測モデルに適用して、前記第二の画像を近似する出力画像を計算する段階とを含み、前記第二のダイナミックレンジは前記第一のダイナミックレンジとは異なり、前記MMR予測モデルは、公式
【数8】
に従って各ピクセルの色成分間の相互乗算を組み込む一次複数チャネル多重回帰予測モデルであり、ここで、
【数9】
は前記第
二の画像のi番目のピクセルの予測された三つの色成分を表し、
【数10】
は前記第
一の画像のi番目のピクセルの三つの色成分を表し、
【数11】
は3×3行列であり、nは1×3ベクトルであり、
【数12】
【数13】
【数14】
である、画像デコード方法。
【請求項8】
前記MMR予測モデルがさらに、近隣のピクセルに関係した予測パラメータを含む、請求項7記載の方法。
【請求項9】
前記第一の画像がSDR画像であり、前記第二の画像がVDR画像である、請求項7記載の方法。
【請求項10】
請求項1ないし6のうちいずれか一項記載の方法を実行するよう構成された、プロセッサを有する装置。
【請求項11】
請求項7ないし9のうちいずれか一項記載の方法を実行するよう構成された、プロセッサを有する装置。
【請求項12】
請求項1ないし6のうちいずれか一項記載の方法を実行するためのコンピュータ実行可能命令を記憶しているコンピュータ可読記憶媒体。
【請求項13】
請求項7ないし9のうちいずれか一項記載の方法を実行するためのコンピュータ実行可能命令を記憶しているコンピュータ可読記憶媒体。
【請求項14】
多様な複数チャネル多重回帰(MMR)予測モデルを提供する段階であって、各MMR予測モデルは、色間画像予測を適用することにより、第二のダイナミックレンジをもつ画像および当該MMR予測モデルの予測パラメータを用いて、第一のダイナミックレンジをもつ画像を近似するよう適応されている、段階と;
第一の画像および第二の画像を受領する段階であって、前記第二の画像は前記第一の画像とは異なるダイナミックレンジを有する、段階と;
前記多様なMMRモデルから複数チャネル多重回帰(MMR)予測モデルを選択する段階と;
選択されたMMRモデルの予測パラメータの値を決定する段階と;
前記第二の画像および選択された前記MMR予測モデルに適用される前記予測パラメータの決定された値に基づいて、前記第一の画像を近似する出力画像を計算する段階と;
前記予測パラメータの決定された値および計算された前記出力画像を出力する段階とを含み、
前記多様なMMRモデルは、公式
【数15】
に基づく二次複数チャネル多重回帰予測を含み、ここで、
【数16】
は前記第一の画像のi番目のピクセルの予測された三つの色成分を表し、
【数17】
は前記第二の画像のi番目のピクセルの三つの色成分を表し、
【数18】
は3×3行列であり、nは1×3ベクトルであり、
【数19】
であり、前記二次複数チャネル多重回帰予測モデルの前記予測パラメータは、前記第一の画像と前記出力画像との間の平均二乗誤差を最小化することによって数値的に得られる、
方法。
【請求項15】
前記MMRモデルのいずれかがさらに、近隣ピクセルに関係した予測パラメータを含む、請求項14記載の方法。
【請求項16】
前記近隣ピクセルが左隣のピクセル、右隣のピクセル、上の隣接ピクセルおよび下の隣接ピクセルを含む、請求項15記載の方法。
【請求項17】
前記多様なMMR予測モデルからMMR予測モデルを選択する段階がさらに:
(a)初期MMR予測モデルを選択して適用する段階と;
(b)前記第一の画像と前記出力画像との間の残差誤差を計算する段階と;
(c)前記残差誤差が誤差閾値より小さく、さらなるMMR予測モデルが選択可能でない場合には前記初期MMRモデルを選択し、そうでない場合には、前に選択されたMMR予測モデルとは異なる新しいMMR予測モデルを前記多様なMMR予測モデルから選択して段階(b)に戻る段階とを含む、
逐次反復的な選択プロセスを含む、請求項14記載の方法。
【請求項18】
第一のダイナミックレンジをもつ第一の画像を受領する段階と;
メタデータを受領する段階であって、前記メタデータは、色間画像予測を適用することにより、前記第一の画像およびMMR予測モデルの予測パラメータを用いて、第二のダイナミックレンジをもつ第二の画像を近似するよう適応されている多重回帰(MMR)予測モデルを含み、前記メタデータはさらに、前記予測パラメータの以前に決定された値を含む、段階と;
前記第一の画像および前記予測パラメータの前記以前に決定された値を前記MMR予測モデルに適用して、前記第二の画像を近似する出力画像を計算する段階とを含み、前記第二のダイナミックレンジは前記第一のダイナミックレンジとは異なり、前記MMR予測モデルは、公式
【数20】
に基づく二次複数チャネル多重回帰予測であり、ここで、
【数21】
は前記第二の画像のi番目のピクセルの予測された三つの色成分を表し、
【数22】
は前記第一の画像のi番目のピクセルの三つの色成分を表し、
【数23】
は3×3行列であり、nは1×3ベクトルであり、
【数24】
であり、前記二次複数チャネル多重回帰予測モデルの前記予測パラメータは、前記第一の画像と前記出力画像との間の平均二乗誤差を最小化することによって数値的に得られる、
画像デコード方法。
【請求項19】
前記MMR予測モデルがさらに、近隣のピクセルに関係した予測パラメータを含む、請求項18記載の方法。
【請求項20】
請求項14ないし17のうちいずれか一項記載の方法を実行するよう構成された、プロセッサを有する装置。
【請求項21】
請求項14ないし17のうちいずれか一項記載の方法を実行するためのコンピュータ実行可能命令を記憶しているコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は2011年4月14日に出願された米国仮特許出願第61/475,359号の優先権を主張する。該出願の内容はここにその全体において参照によって組み込まれる。
【0002】
本願は2011年4月14日に出願された同時係属中の米国仮特許出願第61/475,372号の優先権をも主張する。該出願の内容はここにその全体において参照によって組み込まれる。
【0003】
技術
本発明は概括的には画像に関する。より詳細には、本発明のある実施形態は、高ダイナミックレンジ画像と標準ダインミックレンジ画像との間の複数色チャネル、多重回帰予測器に関する。
【背景技術】
【0004】
本稿での用法では、用語「ダイナミックレンジ」(DR: dynamic range)は人間の心理視覚系(HVS)が画像中のある範囲の、たとえば最も暗い暗部から最も明るい明部までの強度(たとえばルミナンス、ルーマ)を知覚する能力に関することがある。この意味では、DRは「シーン基準の」(scene-referred)強度に関係する。DRはまた、表示装置が特定の幅の強度範囲を十分にまたは適切に表現する能力にも関することがある。この意味では、DRは「ディスプレイ基準の」(display-referred)強度に関係する。本稿の記述における任意の点において特定の意味が特に有意であることが明示的に指定されるのでない限り、上記用語はどちらの意味でも、たとえば交換可能に使用されうると推論されるべきである。
【0005】
本稿での用法では、用語「高ダイナミックレンジ」(HDR: high dynamic range)は人間の視覚系(HVS: human visual system)の14〜15桁ほどにまたがるDR幅に関係する。たとえば、
視覚が本質的に正常な(たとえば統計的、バイオメトリックまたは眼科的な意味で)、よく順応した人間は約15桁にまたがる強度範囲をもつ。順応した人間は、ほんの一握りの光子の弱い光源を知覚しうる。しかしながら、これらの同じ人間が、砂漠、海岸または雪原の痛々しいほどの明るい強度を感知することがある(あるいは、傷害を防ぐため短時間とはいえ太陽を見ることさえある)。ただし、この幅は「順応した」人間に利用可能である。たとえば人間のHVSは、リセットし調整するためのある時間期間をもつ。
【0006】
対照的に、人間が強度範囲の広範な幅を同時に知覚しうるDRは、HDRに対してある程度短縮されていることがある。本稿での用法では、「視覚的ダイナミックレンジ」または「可変ダイナミックレンジ」(VDR)は、個々にまたは交換可能に、HVSによって同時に知覚可能なDRに関係する。本稿での用法では、VDRは5〜6桁にまたがるDRに関しうる。よって、真のシーン基準のHDRに比べるといくぶん狭いかもしれないが、それでもVDRは幅広いDR幅を表す。本稿での用法では、用語「同時ダイナミックレンジ」はVDRに関することがある。
【0007】
かなり最近まで、ディスプレイはHDRまたはVDRよりかなり狭いDRを有していた。典型的な陰極線管(CRT)、常時の蛍光白色バックライトをもつ液晶ディスプレイ(LCD)またはプラズマスクリーン技術を使うテレビジョン(TV)およびコンピュータ・モニタ装置は、そのDR表現機能において、約3桁に制約されることがある。このように、そのような従来のディスプレイは、VDRおよびHDRに対して標準ダイナミックレンジ(SDR)とも称される低ダイナミックレンジ(LDR)の典型となる。
【0008】
しかしながら、基礎になる技術の進歩により、より近代的なディスプレイ設計は、画像およびビデオ・コンテンツを、それほど近代的でないディスプレイ上で表現される同じコンテンツに対して、さまざまな品質特性における著しい改善をもって表現できるようになっている。たとえば、より近代的なディスプレイ装置は、高精細度(HD)コンテンツおよび/または画像スケーラのようなさまざまなディスプレイ機能に従ってスケーリングされうるコンテンツをレンダリングする機能をもつことがある。さらに、いくつかの一層近代的なディスプレイは、従来のディスプレイのSDRより高いDRをもってコンテンツを表現する機能をもつ。
【0009】
たとえば、いくつかの近代的なLCDディスプレイは、発光ダイオード(LED)アレイを有するバックライト・ユニット(BLU: backlight unit)をもつ。BLUアレイの諸LEDは、アクティブなLCD要素の偏光状態の変調とは別個に変調されうる。この二重変調手法は、BLUアレイとLCDスクリーン要素との間に制御可能な介在層を用いることなどにより(たとえばNを2以上の整数としてN個の変調層に)拡張可能である。LEDアレイ・ベースのBLUおよび二重(またはN重)変調は、そのような機能をもつLCDモニタのディスプレイ基準のDRを効果的に高める。
【0010】
そのような、しばしば「HDRディスプレイ」と呼ばれるところのもの(ただし、実際にはその機能はVDRのレンジをよりよく近似することがある)およびそれらのディスプレイが行える、従来のSDRディスプレイに対するDR拡張は、画像、ビデオ・コンテンツおよび他の視覚的情報を表示する能力における著しい進歩を表す。そのようなHDRディスプレイが表現しうる色範囲は、より従来式のディスプレイの色範囲を有意に超えて、広色範囲(WCG: wide color gamut)を表現できるまでになることがある。「次世代」映画およびテレビ・カメラによって生成されうるようなシーン関係のHDRまたはVDRおよびWCG画像コンテンツは、今や、「HDR」ディスプレイ(以下では「HDRディスプレイ」と称する)を用いてより忠実かつ効果的に表示されうる。
【0011】
スケーラブル・ビデオ符号化およびHDTV技術と同様、画像DRの拡張は典型的には二方向からのアプローチに関わる。たとえば、近代的なHDR機能のあるカメラで取り込まれたシーン基準HDRコンテンツを使って、従来のSDRディスプレイ上で表示されうる該コンテンツのSDRバージョンが生成されうる。一つのアプローチでは、取り込まれたVDRバージョンからのSDRバージョンの生成は、グローバルなトーン・マッピング作用素(TMO: tone mapping operator)をHDRコンテンツ中の強度(たとえばルミナンス、ルーマ)関係のピクセル値に適用することを含みうる。第二のアプローチでは、ここに参照によってあらゆる目的について組み込まれる2011年8月23日に出願された特許文献1に記述されるように、SDR画像の生成は、VDRデータに対して可逆な作用素(または予測器(predictor))を適用することを含みうる。帯域幅節約のためまたは他の配慮から、実際の取り込まれたVDRコンテンツの伝送は最良のアプローチではないことがある。
【0012】
よって、もとのTMOに対して逆にされた、逆トーン・マッピング作用素(iTMO: inverse tone mapping operator)またはもとの予測器に対する逆作用素が、生成されたSDRコンテンツ・バージョンに対して適用されてもよい。これは、VDRコンテンツのあるバージョンが予測されることを許容する。予測されたVDRコンテンツ・バージョンはもともと捕捉されたHDRコンテンツに比べられてもよい。たとえば、予測されたVDRバージョンをもとのVDRバージョンから引くことで、残差画像が生成されうる。エンコーダは、生成されたSDRコンテンツを基本層(BL: base layer)として送り、生成されたSDRコンテンツ・バージョン、残差画像があればその残差画像およびiTMOまたは他の予測器を向上層(EL: enhancement layer)としてまたはメタデータとしてパッケージングしてもよい。
【0013】
そのSDRコンテンツ、残差および予測器をもつELおよびメタデータをビットストリーム中で送ることは、典型的には、HDRおよびSDRコンテンツを直接ビットストリーム中に送ることで消費されるより少ない帯域幅を消費する。エンコーダによって送られたビットストリームを受信する互換なデコーダは、従来のディスプレイ上でSDRをデコードおよびレンダリングしてもよい。しかしながら、互換なデコーダは、残差画像、iTMO予測器またはメタデータをも使ってそれからHDRコンテンツの予測されたバージョンを、より高機能のディスプレイでの使用のために計算してもよい。
【先行技術文献】
【特許文献】
【0014】
【特許文献1】国際特許出願第PCT/US2011/048861号
【非特許文献】
【0015】
【非特許文献1】Gaurav Sharma(編)、「Digital Color Imaging Handbook」、CRC Press、2002年、5.4.3章
【発明の概要】
【発明が解決しようとする課題】
【0016】
対応するSDRデータを使ってVDRデータの効率的な符号化、伝送および復号を許容する予測器を生成する新たな方法を提供することが本発明の目的である。
【課題を解決するための手段】
【0017】
上記のセクションで記述されたアプローチは、追求されることができたが必ずしも以前に着想または追求されたアプローチではない。したがって、特に断りのない限り、該セクションにおいて記述されるアプローチはいずれも、該セクションに含まれているというだけのために従来技術の資格をもつと想定されるべきではない。同様に、特に断りのない限り、一つまたは複数のアプローチに関して特定されている問題は、該セクションに基づいて何らかの従来技術において認識されていたと想定されるべきではない。
【図面の簡単な説明】
【0018】
本発明のある実施形態は、限定ではなく例として、付属の図面の図において例示される。図面において、同様の参照符号は同様の要素を指す。
【
図1】本発明のある実施形態に基づくVDR-SDRシステムのための例示的なデータ・フローを描く図である。
【
図2】本発明のある実施形態に基づく例示的なVDRエンコード・システムを描く図である。
【
図3】本発明のある実施形態に基づく、多変量多重回帰予測器の入力および出力インターフェースを描く図である。
【
図4】本発明のある実施形態に基づく、例示的な多変量多重回帰予測プロセスを描く図である。
【
図5】本発明のある実施形態に基づく、多変量多重回帰予測器のモデルについての決定についての例示的なプロセスを描く図である。
【
図6】本発明の前記実施形態に基づいて動作する予測器をもつ例示的な画像デコーダを描く図である。
【発明を実施するための形態】
【0019】
多変量多重回帰モデル化に基づく色間画像予測が本稿で記載される。一対の対応するVDRおよびSDR画像、すなわち同じシーンを、異なるレベルのダイナミックレンジで表現している画像が与えられたもとで、このセクションは、SDR画像に関してVDR画像を近似するエンコーダおよび多変量多重回帰(MMR: multivariate multi-regression)予測器を許容する諸方法を記述する。以下の記述では、説明の目的のために、数多くの個別的詳細が、本発明の十全な理解を与えるために記述される。しかしながら、本発明がそうした個別的詳細なしでも実施されうることは明白であろう。他方、よく知られた構造および装置は、本発明を無用に隠蔽し、埋没させ、あるいは曖昧にするのを避けるために、網羅的な詳細さでは記述されない。
【0020】
〈概観〉
本稿に記載される例示的な実施形態は、高ダイナミックレンジをもつ画像の符号化に関する。ある実施形態は、VDR画像がその対応するSDR表現との関係において表現されることを許容するMMR予測器を生成する。
【0021】
〈例示的なVDR-SDRシステム〉
図1は、本発明のある実施形態に基づくVDR-SDRシステム100における例示的なデータ・フローを描いている。HDR画像またはビデオ・シーケンスはHDRカメラ110を使って捕捉される。捕捉に続いて、捕捉された画像またはビデオは、マスタリング・プロセスによって処理されて、ターゲットVDR画像125を生成する。マスタリング・プロセスは、編集、一次および二次色補正、色変換およびノイズ・フィルタリングなどといった多様な処理ステップを組み込んでいてもよい。このプロセスのVDR出力125は、捕捉された画像がターゲットVDRディスプレイ上でどのように表示されるかについての監督(director)の意図を表す。
【0022】
マスタリング・プロセスはまた、捕捉された画像がレガシーのSDRディスプレイ上でどのように表示されるかについての監督の意図を表す対応するSDR画像145をも出力してもよい。SDR出力145はマスタリング回路120から直接与えられてもよいし、あるいは別個のVDRからSDRへの変換器140をもって生成されてもよい。
【0023】
この例示的な実施形態において、VDR 125およびSDR 145の信号はエンコーダ130に入力される。エコーだ130の目的は、VDRおよびSDR信号を伝送するのに必要とされる帯域幅を減らすが、対応するデコーダ150がSDRまたはVDR信号のいずれかをデコードし、レンダリングできるようにする符号化されたビットストリームを生成することである。ある例示的な実装では、エンコーダ130は、MPEG-2およびH.264符号化標準によって定義されるものの一つのような、その出力を基本層、任意的な向上層およびメタデータとして表す層構造をもつエンコーダであってもよい。本稿での用法では、用語「メタデータ」は符号化されたビットストリームの一部として伝送されて、デコーダがデコードされた画像をレンダリングするのを支援する任意の補助情報に関係する。そのようなメタデータは、これに限られないが、本稿に記載されるもののような、色空間または範囲情報、ダイナミックレンジ情報、トーン・マッピング情報またはMMR予測器作用素などのようなデータを含みうる。
【0024】
受信器では、デコーダ150は受信された符号化されたビットストリームおよびメタデータを、ターゲット・ディスプレイの機能に応じてSDR画像またはVDR画像のいずれか一方をレンダリングするために使う。たとえば、SDRディスプレイは基本層およびメタデータのみを使ってSDR画像をレンダリングしてもよい。対照的に、VDRディスプレイは、すべての入力層およびメタデータからの情報を使ってVDR信号をレンダリングしてもよい。
【0025】
図2は、本発明の方法を組み込むエンコーダ130の例示的な実装をより詳細に示している。
図2では、SDR'は向上されたSDR信号を表す。今日のSDRビデオは8ビット、4:2:0、ITU Rec.709データである。SDR'はSDRと同じ色空間(原色および白色点)を有していてもよいが、高い精度、たとえばピクセル当たり12ビットを使い、完全な空間解像度ですべての色成分をもってもよい(たとえば4:4:4 RGB)。
図2から、SDRは、たとえば12ビット毎ピクセルから8ビット毎ピクセルへの量子化、たとえばRGBからYUVへの色変換およびたとえば4:4:4から4:2:0への色サブサンプリングを含みうる一組の順変換を使ってSDR'から簡単に導出できる。変換器210のSDR出力は圧縮システム220に適用される。用途に依存して、圧縮システム220はH.264またはMPEG-2のような不可逆または可逆であることができる。圧縮システム220の出力は、基本層225として伝送されてもよい。エンコードされた信号とデコードされた信号の間のドリフトを減らすため、エンコーダ130が圧縮プロセス220に続けて対応する圧縮解除プロセス230および210の順変換に対応する逆変換240をもつことはめずらしくない。このように、予測器250は以下の入力をもちうる:VDR入力205と、対応するデコーダによって受信される際のSDR'信号に対応するSDR'信号245もしくは入力SDR' 207とである。予測器250は、入力VDRおよびSDR'データを使って、入力VDR 205の≒または推定値を表す信号257を生成する。加算器260は、もとのVDR 205から予測されたVDR 257を減算して、出力残差信号265を形成する。その後(図示せず)、残差265も別の不可逆または可逆なエンコーダによってエンコードされてもよく、向上層としてデコーダに伝送されてもよい。
【0026】
予測器250は、予測プロセスにおいて使われる予測パラメータをメタデータ255として提供してもよい。予測パラメータはエンコード・プロセスの際にたとえばフレームごとにまたはシーンごとに変化することがあるので、これらのメタデータは、基本層および向上層をも含むデータの一部としてデコーダに伝送されてもよい。
【0027】
VDR 205およびSDR' 207の両方は同じシーンを表すがダイナミックレンジおよび色範囲のような異なる特性をもつ異なるディスプレイをターゲットとしているので、これら二つの信号の間に非常に密接な相関があることが期待される。本発明のある例示的な実施形態では、入力VDR信号を、その対応するSDR'信号および多変量MMR作用素を使って予測することを許容する、新たな多変量多重回帰(MMR: multivariate, multi-regression)予測器250が発展させられる。
【0028】
〈例示的な予測モデル〉
図3は、本発明の例示的な実装に基づくMMR予測器300の入力および出力インターフェースを示している。
図3から、予測器330はそれぞれVDRおよびSDR画像データを表す入力ベクトルv 310およびs 320を受け取り、入力vの予測された値を表すベクトル340(^付きのv)を出力する。
【0029】
〈例示的な記法および命名法〉
SDR画像320中のi番目のピクセルの三つの色成分を次のように表す。
【0030】
【数1】
VDR入力310中のi番目のピクセルの三つの色成分を次のように表す。
【0031】
【数2】
予測されたVDR 340におけるi番目のピクセルの予測された三つの色成分を次のように表す。
【0032】
【数3】
一つの色成分中のピクセル総数をpと表す。
【0033】
式(1)〜(3)において、色ピクセルはRGB、YUV、YCbCr、XYZまたは他の任意の色表現であってもよい。式(1)〜(3)は画像またはビデオ・フレーム中の各ピクセルについて三色表現を想定しているが、のちに示すように、本稿に記載される方法はピクセル当たり四つ以上の色成分をもつ画像およびビデオ表現や、入力の一つが他の入力とは異なる数の色表現をもつピクセルを有していてもよい画像表現にも容易に拡張できる。
【0034】
〈一次モデル(MMR-1)〉
多変量多重回帰(MMR)モデルを使って一次予測モデルは次のように表せる。
【0035】
【数4】
ここで、チルダ付きのM
(1)は3×3行列であり、nは1×3ベクトルであり、次のように定義される。
【0036】
【数5】
これが複数色チャネル予測モデルであることを注意しておく。式(4)のチルダ付きのv
iにおいて、各色成分は入力中のすべての色成分の線形結合として表されている。換言すれば、各色チャネルがそれ自身で、互いとは独立に処理される他の単一チャネル色予測器とは異なり、各出力ピクセルについて、このモデルはピクセルのすべての色成分を考慮に入れ、よって色間相関および冗長性があればそれをフルに活用する。
【0037】
式(4)は、次の単一の行列ベースの表式を使って単純化できる。
【0038】
【数6】
ここで、
【数7】
あるフレームのpピクセル全部(または入力の他の好適なスライスまたはパーティション)を集めることによって、次の行列表式を得ることができる。
【0039】
【数8】
ここで、
【数9】
は入力および予測された出力データを表し、S'はp×4のデータ行列であり、^付きのVはp×3行列であり、M
(1)は4×3行列である。本稿での用法では、M
(1)は交換可能に、多変量作用素または予測行列と称されることがある。
【0040】
線形連立方程式(8)に基づいて、このMMRシステムを二つの異なる問題として定式化することができる:(a)最小二乗問題(least squares problem)または(b)全最小二乗問題(total least squares problem)。いずれもよく知られた数値的方法を使って解くことができる。たとえば、最小二乗アプローチを使うと、Mについて解く問題は、残差または予測平均二乗誤差を最小化する物として定式化できる。すなわち、
【数10】
ここで、Vは対応するVDR入力データを使って形成されるp×3行列である。
【0041】
式(8)および(10)を与えられると、M
(1)についての最適解は
【数11】
によって与えられる。ここで、S'
TはS'の転置を表し、S'
TS'は4×4行列である。
【0042】
S'がフルの列の階数をもつ、たとえば
rank(S')=4≦p
である場合、M
(1)は、SVD、QRまたはLU分解を含む多様な代替的な数値的技法を使っても解くことができる。
【0043】
〈二次モデル(MMR-2)〉
式(4)は一次のMMR予測モデルを表している。次に述べるように、より高次の予測を採用することを考えることもできる。
【0044】
二次予測MMRモデルは次のように表現できる。
【0045】
【数12】
ここで、チルダ付きのM
(2)は3×3行列である。
【0046】
【数13】
式(12)は、単一の予測行列を使って単純化できる。
【0047】
【数14】
ここで、
【数15】
また
【数16】
p個のピクセル全部を集めることによって、次の行列表式を定義することができる。
【0048】
【数17】
ここで、
【数18】
式(14)は、前節で述べたのと同じ最適化および解法を使って解くことができる。最小二乗問題についてのM
(2)についての最適解は
【数19】
であり、ここでS
(2)TS
(2)は今度は7×7行列である。
【0049】
三次またはさらに高次のMMRモデルも同様の仕方で構築できる。
【0050】
〈相互積(Cross-Product)のある一次モデル(MMR-1C)〉
ある代替的なMMRモデルでは、式(4)の一次の予測モデルは、各ピクセルの色成分間の相互乗算を組み込むよう次のように向上させることができる。
【0051】
【数20】
ここで、チルダ付きのM
(1)は3×3行列であり、nは1×3ベクトルであり、いずれも式(5)において定義されるものである。また、
【数21】
前と同じアプローチに従って、式(20)のMMR-1Cモデルは、単一の予測行列MCを使って次のように単純化できる。
【0052】
【数22】
ここで
【数23】
また
【数24】
p個のピクセル全部を集めることにより、次のように単純化された行列表式を導出できる。
【0053】
【数25】
ここで、
【数26】
SCはp×(1+7)行列であり、式(25)は先述した同じ最小二乗解法を使って解くことができる。
【0054】
〈相互積のある二次モデル(MMR-2C)〉
一次のMMC-1Cモデルは二次のデータをも含むよう拡張できる。たとえば、
【数27】
ここで、
【数28】
また、
【数29】
式(27)の残りの成分は式(5)〜(26)において先に定義したのと同じである。
【0055】
先と同様に、式(27)は簡単な予測行列MC
(2)を使って単純化できる。
【0056】
【数30】
ここで、
【数31】
p個のピクセル全部を集めることにより、単純化された行列表式を得ることができる。
【0057】
【数32】
ここで、
【数33】
SC
(2)はp×(1+2*7)行列であり、先述した同じ最小二乗解法を適用できる。
【0058】
相互積パラメータをもつ三次またはより高次のモデルも同様の仕方で構築できる。あるいはまた、非特許文献1に記載されるように、MMR相互積モデルのK次表現は次の定式化を使って記述することもできる。
【0059】
【数34】
【数35】
【数36】
ここで、KはMMR予測器の最高次数を表す。
【0060】
〈MMRに基づく空間的拡張(MMR-C-S)〉
ここまでに記述したMMRモデルのすべてにおいて、予測されたピクセルの値(^付きのv
i)は対応する、通常共位置の、入力値s
iのみに依存する。MMRベースの予測のもとでは、近隣ピクセルからのデータを考慮に入れることによっても裨益しうる。このアプローチは、MMRモデルに、FIRタイプのフィルタリングのような、空間領域における入力の何らかの線形タイプの処理を統合することに対応する。
【0061】
画像において8個の可能な近隣ピクセル全部を考える場合、このアプローチは、我々の予測行列Mに、色成分当たり8個までのさらなる一次変数を追加しうる。しかしながら、実際上は、通例、二つの水平方向および二つの垂直方向の近隣ピクセルに対応する予測変数のみを加え、対角方向の近隣は無視することで十分である。これは、予測行列に色成分当たり4個までの変数を加える。つまり、上、左、下および右のピクセルに対応するものを加えるのである。同様に、より高次の近隣ピクセル値に対応するパラメータを加えることもできる。
【0062】
そのようなMMR空間的モデルの複雑さおよび計算要求を単純化するため、(ルーマ‐クロマ表現などにおける)ルミナンス成分または(RGB表現などにおける)緑成分のような単一の色成分についてのみ伝統的なモデルに空間的拡張を加えることを考えてもよい。たとえば、緑のみの色成分について空間ベースのピクセル予測を加えるとすると、式(34)〜(36)から、緑の出力ピクセル値を予測するための一般的な表式は、
【数37】
となる。
【0063】
〈空間的拡張をもつ一次モデル(MMR-1-S)〉
もう一つの例示的な実装として、式(4)の一次MMRモデル(MMR-1)を再び、ただし今度は色成分の一つまたは複数において空間的拡張を組み込むよう向上させたものを考えてもよい。たとえば、第一の色成分中の各ピクセルの四つの近隣ピクセルに適用されるとき、
【数38】
ここで、チルダ付きのM
(1)は3×3行列であり、nは1×3ベクトルであり、いずれも式(5)で定義され、
【数39】
ここで、式(39)におけるmはm列n行をもつ、すなわちm×n=p個の全ピクセルをもつ入力フレーム中の列数を表す。式(39)はこれらの方法を他の色成分および代替的な近隣ピクセル配位の両方に適用するよう簡単に拡張できる。
【0064】
先と同じアプローチに従って、式(38)は線形連立方程式
【数40】
として簡単に定式化できる。この連立方程式は上記と同様に解くことができる。
【0065】
〈四つ以上の原色をもつVDRへの応用〉
提案されるMMR予測モデルのすべては、四つ以上の原色をもつ信号空間に簡単に拡張できる。例として、SDR信号が三原色、たとえばRGBをもつがVDR信号は六つの原色をもつP6色空間において定義されている場合を考えてもよい。この場合、式(1)〜(3)は次のように書き換えられる。
【0066】
【数41】
【数42】
【数43】
先と同様に、非オッツの色成分中のピクセル数をpと表す。ここで、式(4)の一次のMMR予測モデル(MMR-1)
【数44】
を考えると、チルダ付きのM(1)は今では3×6行列であり、nは1×6ベクトルであり、これらは次式によって与えられる。
【0067】
【数45】
【数46】
式(41)は単一の予測行列M
(1)を使って次のように表現できる。
【0068】
【数47】
ここで、
【数48】
p個のピクセル全部を集めることによって、この予測問題は次のように記述できる。
【0069】
【数49】
ここで、
【数50】
はp×6行列であり、
【数51】
はp×4行列であり、M
(1)は4×6行列である。
【0070】
より高次のMMR予測モデルも同様の仕方で拡張でき、予測行列についての解は先に呈示した方法を解して得ることができる。
【0071】
〈複数チャネル多重回帰予測のための例示的なプロセス〉
図4は、我々の発明の例示的な実装に基づく複数チャネル多重回帰予測のための例示的なプロセスを示している。
【0072】
プロセスはステップ410で始まる。ここで、予測器250のような予測器が入力VDRおよびSDR信号を受け取る。該二つの入力を与えられて、予測器はどのMMRモデルを選択すべきかについて決定する。先述したように、予測器は、(必ずしもこれに限られないが)一次(MMR-1)、二次(MMR-2)、三次またはより高次、相互積のある一次(MMR-1C)、相互積のある二次(MMR-2C)、相互積のある三次またはより高次または追加される空間的拡張をもつ上記のモデルのいずれかを含む多様なMMRモデルの間で選択をすることができる。
【0073】
MMRモデルの選択は、SDRおよびVDR入力についての事前の知識、利用可能な計算およびメモリ資源および目標符号化効率を含むいくつかの基準を考慮に入れる多様な方法を使ってできる。
図5は、残差が所定の閾値より小さいという要求に基づくステップ420の例示的な実装を示している。
【0074】
先述したように、任意のMMRモデルは
【数52】
の形の線形連立方程式として表現できる。ここで、Mは予測行列である。
【0075】
ステップ430では、多様な数値的方法を使ってMを解くことができる。たとえば、Vとその推定(^付きのV)との間の残差の平均平方を最小にするという制約のもとで、
【数53】
最後に、ステップ440において、式(50)を使って、予測器は^付きのVおよびMを出力する。
【0076】
図5は、予測の際のMMRモデルを選択するための例示的なプロセス420を示している。予測器250は、ステップ510において、初期MMRモデルをもって開始してもよい。初期MMRモデルは、前のフレームまたはシーンにおいて使われたもの、たとえば虹も出る(MMR-2)、あるいはMMR-1のような可能な最も単純なモデルなどである。Mについて解いたのち、ステップ520において、予測器は入力Vとその予測された値との間の予測誤差を計算する。ステップ530では、予測誤差が所与の閾値より小さければ、予測器は既存のモデルを選択し、選択プロセスを停止する(540);そうでなければ、ステップ550において、より複雑なモデルを使うかどうかを調べる。たとえば、現在のモデルがMMR-2であり、予測器がMMR-2-CまたはMMR-2-C-Sを使うことを決めてもよい。先述したように、この決定は、予測誤差の値、処理パワー要求および目標符号化効率を含む多様な基準に依存してもよい。より複雑なモデルを使うことが実現可能であれば、ステップ560で新たなモデルが選択され、プロセスはステップ520に戻る。そうでなければ、予測器は既存のモデル(540)を使う。
【0077】
予測プロセス400は、利用可能なコンピューティング資源を使いながら符号化効率を維持するために必要と見なされる多様な間隔で繰り返すことができる。たとえば、ビデオ信号を符号化するとき、プロセス400は、あらかじめ定義されたビデオ・スライス・サイズごとに、各フレーム、フレーム群について、または予測残差が特定の閾値を超えるときはいつも、反復されることができる。
【0078】
予測プロセス400は、すべての利用可能な入力ピクセルまたはそれらのピクセルのサブサンプルを使うこともできる。一つの例示的な実装では、入力データのk番目ごとのピクセル行およびk番目ごとのピクセル列からのピクセルのみを使ってもよい。ここで、kは2以上の整数である。もう一つの例示的な実装では、あるクリッピング閾値より下の(たとえば非常に0に近い)入力ピクセルを、あるいはある飽和閾値より上のピクセル(たとえば、nビット・データについて、2
n−1に非常に近いピクセル値)をスキップすることを決めてもよい。さらにもう一つの実装では、ピクセル・サンプル・サイズを小さくして、特定の実装の計算上の制約を受け入れるために、そのようなサブサンプリングおよび閾値処理技法の組み合わせを使ってもよい。
【0079】
〈画像復号〉
本発明の実施形態は、画像エンコーダまたは画像デコーダのいずれにおいて実装されてもよい。
図6は、本発明音ある実施形態に基づくデコーダ150の例示的な実装を示している。
【0080】
デコード・システム600は符号化されたビットストリームを受領する。符号化されたビットストリームは基本層690、任意的な向上層(または残差)665およびメタデータ645を組み合わせていてもよく、これらは圧縮解除630および雑多な逆変換640に従って抽出される。たとえば、VDR-SDRシステムでは、基本層690が符号化された信号のSDR表現を表していても翼、メタデータ645は、エンコーダ予測器250において使われたMMR予測モデルおよび対応する予測パラメータについての情報を含んでいてもよい。ある例示的な実施形態では、エンコーダが本発明の方法に基づくMMR予測器を使うとき、メタデータは使われているモデル(たとえばMMR-1、MMR-2など)の識別情報およびその特定のモデルに関連するすべての行列係数を含んでいてもよい。基本層690 sおよびメタデータ645から抽出された色MMR関係パラメータを与えられて、予測器650は、本稿に記載される対応する式のいずれかを使って予測される680(^付きのV)を計算できる。たとえば、識別されるモデルがMMR-2Cである場合、680(^付きのV)は式(32)を使って計算できる。残差がないまたは残差が無視できる場合には、予測される値680は最終的なVDR画像として直接出力されることができる。そうでない場合には、加算器660において、予測器680の出力が残差665に加算されて、VDR信号670を出力する。
【0081】
〈例示的なコンピュータ・システム実装〉
本発明の実施形態は、コンピュータ・システム、電子回路およびコンポーネントにおいて構成されたシステム、マイクロコントローラのような集積回路(IC)デバイス、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他の構成設定可能またはプログラム可能な論理デバイス(PLD)、離散時間またはデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)および/またはそのようなシステム、デバイスまたはコンポーネントの一つまたは複数を含む装置をもって実装されてもよい。コンピュータおよび/またはICは、本稿に記載されたもののようなMMRベースの予測に関係する命令を実行、制御または執行してもよい。コンピュータおよび/またはICは、本稿に記載されるようなMMR予測に関係する多様なパラメータまたは値の任意のものを計算してもよい。画像およびビデオのダイナミックレンジ拡張の実施形態は、ハードウェア、ソフトウェアおよびそれらのさまざまな組み合わせにおいて実装されてもよい。
【0082】
本発明のある種の実施形態は、プロセッサに本発明の方法を実行させるソフトウェア命令を実行するコンピュータ・プロセッサを有する。たとえば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどにおける一つまたは複数のプロセッサが、プロセッサにアクセス可能なプログラム・メモリ中のソフトウェア命令を実行することによって上記のMMRベースの予測方法を実装してもよい。本発明は、プログラム・プロダクトの形で提供されてもよい。プログラム・プロダクトは、データ・プロセッサによって実行されるときにデータ・プロセッサに本発明の方法を実行させる命令を含む一組のコンピュータ可読信号を担持する任意の媒体を含んでいてもよい。本発明に基づくプログラム・プロダクトは、幅広い多様な形のいずれであってもよい。プログラム・プロダクトは、たとえば、フロッピーディスケット、ハードディスク・ドライブを含む磁気データ記憶媒体、CD-ROM、DVDを含む光学式データ記憶媒体、ROM、フラッシュRAMを含む電子的データ記憶媒体などといった物理的な媒体であってもよい。プログラム・プロダクト上のコンピュータ可読信号は任意的に、圧縮または暗号化されてもよい。
【0083】
上記においてコンポーネント(たとえばソフトウェア・モジュール、プロセッサ、組立体、デバイス、回路など)に言及されるとき、解くに断りのない限り、そのコンポーネント(「手段」への言及も含め)は、本発明の例解される例示的な実施形態において当該機能を実行する開示されている構造と構造的に等価でないコンポーネントも含め、記載されるコンポーネントの当該機能を実行する(たとえば機能的に等価な)任意のコンポーネントをそのコンポーネントの等価物として含むものと解釈されるべきである。
【0084】
〈等価物、拡張、代替その他〉
このように、VDRおよびSDR画像を符号化する際にMMR予測を適用することに関係する例示的な実施形態が記述されている。以上の明細書では、本発明の諸実施形態について、実装によって変わりうる数多くの個別的詳細に言及しつつ述べてきた。このように、何が本発明であるか、何が出願人によって本発明であると意図されているかの唯一にして排他的な指標は、この出願に対して付与される特許の請求項の、その後の訂正があればそれも含めてかかる請求項が特許された特定の形のものである。かかる請求項に含まれる用語について本稿で明示的に記載される定義があったとすればそれは請求項において使用される当該用語の意味を支配する。よって、請求項に明示的に記載されていない限定、要素、属性、特徴、利点もしくは特性は、いかなる仕方であれかかる請求項の範囲を限定すべきではない。よって、明細書および図面は制約する意味ではなく例示的な意味で見なされるべきものである。