(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024170380
(43)【公開日】2024-12-10
(54)【発明の名称】ビデオ監視用途のための拡張ビデオコーディング
(51)【国際特許分類】
H04N 19/33 20140101AFI20241203BHJP
H04N 19/132 20140101ALI20241203BHJP
H04N 19/137 20140101ALI20241203BHJP
H04N 19/172 20140101ALI20241203BHJP
H04N 19/46 20140101ALI20241203BHJP
【FI】
H04N19/33
H04N19/132
H04N19/137
H04N19/172
H04N19/46
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024079257
(22)【出願日】2024-05-15
(31)【優先権主張番号】23175423
(32)【優先日】2023-05-25
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】502208205
【氏名又は名称】アクシス アーベー
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】ヨハンソン, マルテ
(72)【発明者】
【氏名】エドパルム, ヴィクトル
(57)【要約】 (修正有)
【課題】ビデオ監視用途のための拡張ビデオコーディングの方法及び記憶媒体を提供する。
【解決手段】ビデオフレームのシーケンスを含む入力ビデオをハイブリッドビデオストリームとして符号化する方法であって、入力ビデオを元の空間解像度から、低減された空間解像度および中間空間解像度にダウンサンプリングすることと、ベース符号化ストリームを取得するために、低減された空間解像度における入力ビデオをベースエンコーダに提供することと、中間空間解像度における第1の残差に基づく1の拡張ストリームを提供することと、時間予測を使用して少なくとも部分的に符号化される、元の空間解像度における第2の残差に基づく第2の拡張ストリームを提供することと、ビデオフレームにおける少なくとも1つの非動き領域を検出することと、第2の残差のセットではなく第1の残差のセットが非動き領域全体にわたって消失することを引き起こすことと、を含む。
【選択図】
図6
【特許請求の範囲】
【請求項1】
ビデオフレームのシーケンスを含む入力ビデオをハイブリッドビデオストリームとして符号化する方法であって、前記方法は、
前記入力ビデオを元の空間解像度から、低減された空間解像度および中間空間解像度にダウンサンプリングすることと、
ベース符号化ストリームを取得するために、前記低減された空間解像度における前記入力ビデオをベースエンコーダに提供することと、
第1の拡張ストリームを、
前記入力ビデオと前記中間空間解像度における再構成されたビデオとの間の差に基づいて、第1の残差のセットを生成することと、
第1の残差の前記セットを量子化することと、
量子化された第1の残差の前記セットから前記第1の拡張ストリームを形成することと
によって、提供することと、
第2の拡張ストリームを、
前記入力ビデオと前記元の空間解像度における再構成されたビデオとの間の差に基づいて、第2の残差のセットを生成することと、
第2の残差の前記セットを量子化することと、
量子化された第2の残差の前記セットから前記第2の拡張ストリームを形成することと
によって、提供することであって、
前記第2の拡張ストリームが、時間予測を使用して少なくとも部分的に符号化され、さらに、時間予測が使用されるかどうかを示す時間シグナリングを含む、
前記第2の拡張ストリームを提供することと、
前記ベース符号化ストリーム、前記第1の拡張ストリーム、および前記第2の拡張ストリームから、前記ハイブリッドビデオストリームを形成することと
を含み、
前記方法が、
ビデオフレームにおける少なくとも1つの非動き領域を検出することと、
第2の残差の前記セットではなく第1の残差の前記セットが前記非動き領域全体にわたって消失することを引き起こすことと
をさらに含むことを特徴とする、方法。
【請求項2】
第1の残差の前記セットが、量子化された第1の残差の前記セットにマスキングを適用することによって、前記非動き領域全体にわたって消失することを引き起こされる、請求項1に記載の方法。
【請求項3】
第1の残差の前記セットが、
前記ビデオフレームの前記非動き領域において、第1の残差の前記セットを生成することより前に、前記中間空間解像度における前記入力ビデオを、前記低減された空間解像度における前記入力ビデオからアップサンプリングされた置換ビデオと置き換えること
によって、前記非動き領域全体にわたって消失することを引き起こされる、請求項1に記載の方法。
【請求項4】
前記入力ビデオをダウンサンプリングすることが、
前記非動き領域における前記低減された空間解像度と他の場所における前記中間空間解像度とを有するデュアル解像度ビデオフレームを提供すること
を含む、請求項3に記載の方法。
【請求項5】
第1の残差の前記セットが、前記入力ビデオと前記中間空間解像度における再構成されたビデオとの間の前記差にマスキングを適用することによって、または前記量子化することより前に第1の残差の前記セットにマスキングを適用することによって、前記非動き領域全体にわたって消失することを引き起こされる、請求項1に記載の方法。
【請求項6】
第1の残差の前記セットが、
前記ビデオフレームの前記非動き領域において、第1の残差の前記セットを生成することより前に、前記入力ビデオから、前記入力ビデオと前記中間空間解像度における前記再構成されたビデオとの間の予測された差を減算すること
によって、前記非動き領域全体にわたって消失することを引き起こされる、請求項1に記載の方法。
【請求項7】
前記第1の拡張ストリームの各ビデオフレームが、前記第1の拡張ストリームの他のビデオフレームを参照せずに復号可能である、請求項1に記載の方法。
【請求項8】
前記第2の拡張ストリームを提供することが、ビデオフレームにおける第2の残差または量子化された第2の残差の各セットについて、1つまたは複数の他のビデオフレームを参照して時間予測を使用すべきかどうかを決定することと、時間予測が前記ビデオフレームにおいて使用されるかどうかを前記時間シグナリングによって示すこととをさらに含む、請求項1に記載の方法。
【請求項9】
前記少なくとも1つの非動き領域が、前記元の空間解像度における前記入力ビデオのビデオフレームにおいて、または前記中間空間解像度における前記入力ビデオのビデオフレームにおいて検出される、請求項1に記載の方法。
【請求項10】
前記中間空間解像度が、前記低減された空間解像度よりも細かいか、または前記中間空間解像度と前記低減された空間解像度とが等しい、請求項1に記載の方法。
【請求項11】
前記第1の残差および/または前記第2の残差が、前記入力ビデオと前記再構成されたビデオとの間の前記差に、サイズ2×2ピクセルまたは4×4ピクセルの変換カーネルを適用することによって生成される、請求項1に記載の方法。
【請求項12】
前記変換カーネルが、低複雑度拡張ビデオコーディング(LCEVC)変換カーネルである、請求項11に記載の方法。
【請求項13】
第1の残差の前記セットと第2の残差の前記セットとが、異なる量子化レベルを使用して量子化される、請求項1に記載の方法。
【請求項14】
請求項1に記載の方法を実施するように構成された処理回路を備えるデバイス。
【請求項15】
命令を含むコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体であって、前記命令は、前記プログラムが処理回路によって実行されたとき、前記処理回路に請求項1に記載の方法を行わせる、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ビデオコーディングの分野に関し、詳細には、ビデオ監視用途に好適な拡張ビデオコーディングの実装形態に関する。
【背景技術】
【0002】
拡張ビデオコーディングは、1つまたは複数の拡張レイヤが再構成されたベースビデオと組み合わせられたとき、拡張されたビデオストリームが作り出されるように、その拡張レイヤをベースコーデックで符号化されたベースビデオに追加するための技法を指す。拡張レイヤは、再構成されたビデオの、圧縮能力拡大、より低い符号化/復号複雑度、改善された解像度および改善された品質など、改善された特徴を既存のコーデックに提供する。ベースビデオと1つまたは複数の拡張レイヤとの組み合わせは、ハイブリッドビデオストリームと呼ばれることがある。
【0003】
そのような技法の中で、低複雑度拡張ビデオコーディング(LCEVC)仕様、またはMPEG-5は、ISO/IEC JTC1/SC29/WG04(MPEG)ビデオコーディングによって承認された最近の規格である。それは、他のコーディング方式の上で機能し、それによりマルチレイヤビデオコーディング技術を生じ、また、ベースビデオから独立して(1つまたは複数の)拡張レイヤを追加する。LCEVC技術は、より低い解像度における復号されたビデオを入力としてとり、元の品質における入力ビデオとの比較に基づいて、単純な時間予測、周波数変換、量子化、およびエントロピー符号化など、特殊な低複雑度コーディングツールで符号化された残差の最高2つの拡張サブレイヤを追加する。LCEVC規格の主な特徴の提示が、以下の参考文献のいずれかにおいて見られ得る。
[1]
S.Battistaら、「Overview of the Low Complexity Enhancement Video Coding(LCEVC) Standard」、IEEE Transactions on Circuits and Systems for Video Technology、vol.32、no.11、7983~7995ページ(DOI:10.1109/TCSVT.2022.3182793)、2022
[2]
「White paper on Low Complexity Enhancement Video Coding(LCEVC)」、ISO/IEC JTC1/SC29/AG3 N0058、2022年1月
[3]
WO2020188273A1
LCEVC規格の仕様が、次のように公開されている。
[4]
ISO/IEC 23094-2-Information Technology-General Video Coding-Part 2:Low Complexity Enhancement Video Coding、Standard ISO/IEC 23094-2:2021、2021年11月
[5]
ISO/IEC 23094-3-Information Technology-General Video Coding-Part 3:Conformance and Reference Software for Low Complexity Enhancement Video Coding、Standard ISO/IEC 23094-3:2021、2022
【0004】
LCEVCの設計は、ベースレイヤの圧縮されたビデオ表現に対する拡張の最高2つのサブレイヤを予見する。第1のレイヤ(サブレイヤ1)は、随意であり、LCEVCビットストリームにおける対応するシグナリングによって無効にされ得るが、第2のレイヤ(サブレイヤ2)は必須である。第1のレイヤとは異なり、第2のレイヤは、バッファされた値に基づいて残差の各ブロックを予測すること、または場合によっては時間予測なしにブロックを符号化することを試みる、時間予測段を含む。所与のブロックについて、時間予測を使用すべきか否かという判断は、異なるビデオフレームについて異なり得る。したがって、LCEVCが2つのサブレイヤとともに動作されるとき、拡張データのかなりの部分が、時間予測なしにサブレイヤ1において符号化されることになる。経験により、2レイヤLCEVCのコーディング効率は、ビデオ監視用途において獲得されるデータの特性である、局所的に強い時間相関を有するビデオデータについて、比較的不十分であることが確認されたと思われる。概してビデオデータが強い時間相関を有するような、または各フレームの領域が考慮されるときに強い時間相関が観測され得るような事例において、データ圧縮を改善することが望ましいであろう。
【先行技術文献】
【特許文献】
【0005】
【非特許文献】
【0006】
【非特許文献1】S.Battistaら、「Overview of the Low Complexity Enhancement Video Coding(LCEVC) Standard」、IEEE Transactions on Circuits and Systems for Video Technology、vol.32、no.11、7983~7995ページ(DOI:10.1109/TCSVT.2022.3182793)、2022
【非特許文献2】「White paper on Low Complexity Enhancement Video Coding(LCEVC)」、ISO/IEC JTC1/SC29/AG3 N0058、2022年1月
【非特許文献3】ISO/IEC 23094-2-Information Technology-General Video Coding-Part 2:Low Complexity Enhancement Video Coding、Standard ISO/IEC 23094-2:2021、2021年11月
【非特許文献4】ISO/IEC 23094-3-Information Technology-General Video Coding-Part 3:Conformance and Reference Software for Low Complexity Enhancement Video Coding、Standard ISO/IEC 23094-3:2021、2022
【発明の概要】
【0007】
本開示の1つの目的は、ビデオデータが強い時間相関を有する事例を識別する能力を用いた拡張ビデオコーディング技法を提案すること、およびコーディング効率、データ圧縮効率、または[1]において説明される品質メトリックのいずれかなど、様々な性能の態様を改善するために時間相関を利用することである。あるビデオ品質レベルに達するために、より良いコーディング効率、より低いビットレートが必要とされる。別の目的は、入力ビデオの各フレームの領域に限られた時間相関(局所的時間相関)を利用することができる拡張ビデオコーディング技法を提案することである。さらなる目的は、強い局所的時間相関をもつビデオデータに関して、2レイヤLCEVCの性能を改善することである。さらなる目的は、特にビデオ監視用途のためにLCEVCを適応させることである。またさらなる目的は、既存のLCEVC設計に最小限に干渉するそのような適応を提案することである。
【0008】
これらの目的のうちの少なくともいくつかが、独立請求項によって定義されるように本発明によって達成される。従属請求項は、有利な実施形態に関する。
【0009】
本開示の第1の態様によれば、ビデオフレームのシーケンスを含む入力ビデオをハイブリッドビデオストリームとして符号化する方法が提供される。本方法は、入力ビデオを元の空間解像度から、低減された空間解像度および中間空間解像度にダウンサンプリングすることと、ベース符号化ストリームを取得するために、低減された空間解像度における入力ビデオをベースエンコーダに提供することと、第1の拡張ストリームを、入力ビデオと中間空間解像度における再構成されたビデオとの間の差に基づいて、第1の残差のセットを生成すること(たとえば、再構成されたビデオは、ベース符号化ストリームを復号することと、出力をアップサンプリングすることとによって取得されていることがある)と、第1の残差のセットを量子化することと、量子化された第1の残差のセットから第1の拡張ストリームを形成することとによって、提供することと、第2の拡張ストリームを、入力ビデオと元の空間解像度における再構成されたビデオとの間の差に基づいて、第2の残差のセットを生成すること(たとえば、中間空間解像度における再構成されたビデオから開始して、元の空間解像度における再構成されたビデオは、第1の残差の再構成を加算することと、出力をアップサンプリングすることとによって取得されていることがある)と、第2の残差のセットを量子化することと、量子化された第2の残差のセットから第2の拡張ストリームを形成することとによって、提供することと、ベース符号化ストリーム、第1の拡張ストリーム、および第2の拡張ストリームから、ハイブリッドビデオストリームを形成することとを含む。第2の拡張ストリームは、時間予測を使用して少なくとも部分的に符号化され(すなわち、少なくともいくつかのブロック、いくつかのフレームまたはいくつかの時間セグメントが、時間予測を使用して符号化され)、さらに、時間予測が使用されるかどうかを示す時間シグナリングを含む。第1の態様によれば、本方法は、ビデオフレームにおける少なくとも1つの非動き領域を検出することと、第1の残差のセットが非動き領域全体にわたって消失する(vanish)ことを引き起こすこととをさらに含む。好ましくは、第2の残差のセットは、非動き領域において消失することを引き起こされない。
【0010】
本開示の第1の態様に関連する利点は、第1の拡張ストリームが、実質的に、非動き領域に関するデータがないことになることである。より正確には、本発明者は、強い局所的時間相関をもつビデオデータに適用されたときの2レイヤLCEVCの不十分なコーディング効率が、大部分は、第1の拡張レイヤによるものであることを了解した。第1の拡張ストリームは、時間予測なしに符号化され、したがって、強い時間相関をもつ入力ビデオのための最適なコーディング媒体(coding vehicle)である可能性が低い。代わりに、非動き領域の拡張コーディングの実質的にすべてが、時間予測が利用可能である第2の拡張ストリーム(LCEVC規格におけるサブレイヤ2)によって行われることになる。本開示の第1の態様に関するさらなる利点は、復号側で必要とされる修正がないことである。デコーダは、本明細書で開示される教示を使用してハイブリッドビデオストリームが準備されたことを知ることなしに、ハイブリッドビデオストリームを適切に復号することができる。
【0011】
本開示の専門用語では、第1の残差のセットは、ここで、それらの値が0であるかまたは0にほぼ等しい場合、非動き領域全体にわたって「消失する」と言われる。厳密な0からの許容できる偏差が、ベースエンコーダに関係するコーディングアーテファクトと、アップサンプリング/ダウンサンプリングアーテファクトと、信号雑音と、通常、本方法を実行するエンティティの影響外にある同様の寄与とに対応し得る。そのような消失を達成するためにとられ得るいくつかの異なる措置が、以下で提示される。しかしながら、本方法の実装形態は、通常、2×2または4×4ピクセルブロック構造など、有限グラニュラリティを有することになり、これは、残差のブロックが、概して、完全に非動き領域にあるのではない限り、消失することを引き起こされ得ないことを意味することを理解されたい。したがって、本開示の範囲内で、非動き領域とほんの部分的に重複する残差のブロックが、完全に消失することは必要でない。第1の残差が変換係数である(たとえば、入力ビデオと再構成されたビデオとの間のピクセルごとの差のブロックに変換カーネルを適用することによって、残差のブロックが生成される)実装形態に関して、係数ブロックは、概して、基礎をなすピクセルブロックが完全に非動き領域中にあるのではない限り、本明細書で開示される措置のアクションによって消失することができないことがさらに諒解される。これらの例の各々では、第1の残差のセットの不完全な消失でさえ、非動き領域の拡張コーディングの実質的にすべてが第2の拡張ストリームによって行われることになるという、目的の効果を達成することになる。
【0012】
実施形態の第1のグループでは、第1の残差のセットは、量子化された第1の残差のセットに適用されたマスキングの結果として、非動き領域全体にわたって消失する。マスキングは、非動き領域に関係するそれらの量子化された第1の残差を0値またはニュートラル(neutral)値と置き換えることを含み得る。
【0013】
実施形態の第2のグループでは、第1の残差のセットは、中間空間解像度における入力ビデオを、(入力ビデオをダウンサンプリングするステップから利用可能である)低減された空間解像度における入力ビデオからアップサンプリングされた置換ビデオと置き換えることの結果として、非動き領域全体にわたって消失する。この置き換えは、非動き領域に制限され、入力ビデオは、他の場所において実質的にそのままである。1回ダウンサンプリングされた入力ビデオではなく、ダウンサンプリング-アップサンプリングされたビデオデータとの局所置き換えを経た入力ビデオが、第1の残差のセットを生成するために、すなわち、中間空間解像度における再構成されたビデオに対する差を計算するために使用されるものとする。ダウンサンプリング-アップサンプリング動作のため、入力ビデオは、通常、第1の残差のセットが消失するように、非動き領域における再構成されたビデオとの著しくより良好な一致を有するべきであり、第1の残差は、ベースエンコーダにおけるデータ圧縮を補うための品質拡張構成要素を含んでいることがあるが、第1の残差は、通常、解像度拡張がないはずである。代替の言葉で説明すると、ダウンサンプリング-アップサンプリングされたビデオデータとの置き換えは、(空間解像度が、名目上、中間空間解像度に等しく保たれながら)入力ビデオの非動き領域における情報コンテンツを減少させ、それにより、それは、もはや、再構成されたビデオに対する拡張を引き起こすことができない。代わりに、非動き領域における再構成されたビデオの拡張は、実質的に、第2のレイヤに先送りされる。
【0014】
実施形態の第3のグループでは、第1の残差のセットは、入力ビデオと中間空間解像度における再構成されたビデオとの間の差にマスキングを適用すること、または第1の残差のセットを量子化することより前に第1の残差のセットにマスキングを適用することの結果として、非動き領域全体にわたって消失する。特に、マスキングは、変換係数であるそのような第1の残差に適用され得る。この場合も、マスキングは、非動き領域に関係するそれらの第1の残差を0値またはニュートラル値と置き換えることを適用し得る。
【0015】
実施形態の第4のグループでは、第1の残差のセットは、第1の残差のセットを生成することより前に、入力ビデオから、入力ビデオと中間空間解像度における再構成されたビデオとの間の予測された差を減算することの結果として、非動き領域全体にわたって消失する。この減算は、非動き領域に制限され、入力ビデオは、他の場所において実質的にそのままである。1回ダウンサンプリングされた入力ビデオではなく、予測された差での局所減算を経た入力ビデオが、第1の残差のセットを生成するために、すなわち、中間空間解像度における再構成されたビデオに対する差を計算するために使用されるものとする。
【0016】
本開示の第2の態様では、第1の態様の方法を行うためのデバイスおよびコンピュータプログラムが提供される。コンピュータプログラムは、データキャリア上に記憶または分散され得る。本明細書で使用される「データキャリア」は、変調された電磁波または光波などの一時的データキャリア、あるいは非一時的データキャリアであり得る。非一時的データキャリアは、磁気、光またはソリッドステートタイプの永続的および非永続的記憶媒体など、揮発性および不揮発性メモリを含む。依然として「データキャリア」の範囲内で、そのようなメモリは、固定式に取り付けられるかまたはポータブルであり得る。
【0017】
概して、特許請求の範囲において使用されるすべての用語は、本明細書で別段明示的に定義されない限り、本技術分野におけるその通例の意味に従って解釈されるべきである。「1つの(a/an)/その(the)要素、装置、構成要素、手段、ステップなど」へのすべての言及は、別段明示的に述べられていない限り、その要素、装置、構成要素、手段、ステップなどの少なくとも1つの事例を指すようにオープンに解釈されるべきである。本明細書で説明されるいずれの方法のステップも、明示的に述べられていない限り、説明される厳密な順序で実施される必要はない。
【0018】
次に、例として、添付の図面を参照しながら、態様および実施形態が説明される。
【図面の簡単な説明】
【0019】
【
図1A】機能ブロックに関して、LCEVCエンコーダのアーキテクチャを示す図である。
【
図1B】LCEVCエンコーダの時間予測ブロックの内部機能構造の例の図である。
【
図1C】LCEVCエンコーダの時間予測ブロックの内部機能構造の例の図である。
【
図2】LCEVCデコーダのアーキテクチャを示す図である。
【
図3】本明細書の実施形態の第1のグループに従って適応されたLCEVCエンコーダを示す図である。
【
図4】本明細書の実施形態の第2のグループに従って適応されたLCEVCエンコーダを示す図である。
【
図5A】本明細書の実施形態の第3のグループに従って適応されたLCEVCエンコーダを示す図である。
【
図5B】本明細書の実施形態の第4のグループに従って適応されたLCEVCエンコーダを示す図である。
【
図6】本明細書の実施形態による、入力ビデオをハイブリッドビデオストリームとして符号化する方法のフローチャートである。
【
図7】都市環境におけるビデオ監視カメラによって獲得される例示的なビデオフレームの図である。
【
図8】
図6の方法を実施するために好適なコーデックデバイスを示す図である。
【
図9】ローカルエリアネットワークおよび/またはワイドエリアネットワークによって接続された複数のコーデックデバイスを示す図である。
【発明を実施するための形態】
【0020】
次に、本発明のいくつかの実施形態が示されている添付の図面を参照しながら、本開示の態様が以下でより十分に説明される。しかしながら、これらの態様は、多くの異なる形態で具現化され得、限定的なものとして解釈されるべきではなく、むしろ、これらの実施形態は、本開示が徹底的かつ完全であり、本発明のすべての態様の範囲を当業者に十分に伝えるように、例として提供される。同様の番号は、説明全体にわたって同様の要素を指す。
【0021】
システムの全体像
当業者は、LCEVC規格に関係する最初に引用された参考文献[1]、[2]および[3]から、本開示が改善および適応しようとする拡張コーディング技術の一般的なカテゴリーの背景理解を獲得することができる。
【0022】
図1Aは、ブロック図の形態で、ビデオ入力シーケンス170を、ベースビットストリーム180と拡張ビットストリーム190とを含むハイブリッドビデオストリームに処理するように構成されたLCEVCエンコーダ100を示す。ハイブリッドビデオストリームは、入力シーケンス170の、受信側へのデジタル送信を容易にするために、またはそれの記憶のために使用され得る。ベースビットストリーム180は、ダウンスケーラ130、140からの出力である、入力シーケンス170の2回ダウンサンプリングされたバージョンの、任意のベースエンコーダ150によって提供されたコード化表現である。LCEVCにおいて指定されていないベースエンコーダ150は、アドバンストビデオコーディング(AVC)、高効率ビデオコーディング(HEVC)、エッセンシャルビデオコーディング(EVC)、多用途ビデオコーディング(VVC)、AOMediaビデオ1(AV1)などのために構成され得る。
【0023】
拡張ビットストリーム190は、一方では、L-1(サブレイヤ1)係数レイヤ191を含んでおり、他方では、L-2(サブレイヤ2)係数レイヤ192と、関連する時間レイヤ193とを含んでいる。さらに、拡張ビットストリーム190は、ヘッダ194を含んでいることがあり、そこから、ハイブリッドビットストリームの受信側が、正しい復号のために、ハイブリッドビットストリームが準備されたときに有効であったエンコーダ構成171に関する情報を取得し得る。エンコーダ構成171は、エンコーダ100の構成要素のいずれかに影響を及ぼし得る。規格化されたLCEVCエンコーダ100では、サブレイヤ1は随意であり、サブレイヤ2は必須である。直列アップスケーラ110、120は、ベースビットストリーム180の再構成されたバージョンをアップサンプリングする。ベースビットストリーム180の再構成されたバージョンは、(
図2中のベースデコーダ250を使用して)ベースエンコーダ150の出力を復号することによって取得され得る。代替的に、ベースエンコーダ150がフレーム間予測コーディングのために構成された場合、再構成されたバージョンの少なくとも一部が、ベースエンコーダ150の参照バッファからとられ得る。アップスケーラ110、120は、サブレイヤ1がアクティブであるかどうかにかかわらず、アクティブである。
【0024】
サブレイヤ1がアクティブであるとき、減算器111、変換ブロック112、量子化ブロック113、およびエントロピーコーディングブロック114が、L-1係数レイヤ191を提供するように動作する。減算器111は、(ダウンサンプリングの後の)中間空間解像度を有する入力ビデオと、(アップサンプリングの後の)中間空間解像度を有する再構成されたビデオとの間の差を計算する。
さらに、逆量子化115ブロック、逆変換ブロック116、L-1フィルタ(たとえば、デブロッキングフィルタ)117、および加算器118が、サブレイヤ2における処理を準備することを、すなわち、復号側における第1の拡張レイヤのアクションを模倣することによって、行うためにアクティブである。これらのブロック115、116、117、118の全アクションは、中間空間解像度における再構成されたビデオに、第1の残差の再構成を加算するためのものである。
【0025】
サブレイヤ2内では、減算器121、変換ブロック123、量子化ブロック124、およびエントロピーコーディングブロック125が、L-2係数レイヤ192を提供するように動作する。減算器121は、元の空間解像度における入力ビデオと、中間空間解像度における再構成されたビデオに第1の残差の再構成を加算することと、その和を元の空間解像度にアップサンプリングすることとによって取得される、元の空間解像度における再構成されたビデオとの間の差を計算する。量子化ブロック124は、量子化ブロック113と等しい量子化レベル、または異なる量子化レベルを適用し得る。
【0026】
さらにサブレイヤ2内では、データを変換ブロック123に出力し、時間シグナリングをエントロピーコーディングブロック126に出力する、時間予測ブロック122が提供される。エントロピーコーディングブロック126は、前記時間シグナリングを時間レイヤ193としてエントロピー符号化するために構成される。代替的に、エントロピーコーディングブロック125、126は、単一のブロック(図示せず)として実装され得る。単一のブロックは、2つの並列エントロピーコーディングプロセス、すなわち、量子化ブロック124の出力に対するものおよび時間シグナリングに対するもの、または量子化ブロック124の出力と時間シグナリングとの多重化されたストリームに対して動作する単一のエントロピーコーディングプロセスを実施し得る。サブレイヤ1内では、時間予測がないが、第1の拡張ストリームの各ビデオフレームが、第1の拡張ストリームの他のビデオフレームを参照せずに復号可能である。
【0027】
第1のダウンスケーラ130および第2のダウンスケーラ140のそれぞれのダウンサンプリングアクションが、独立して選定され得る。LCEVCの従来の実装形態では、第1のダウンスケーラ130のアクションは、第2のアップスケーラ120のアクションの逆であり、第2のダウンスケーラ140のアクションは、第1のアップスケーラ110のアクションの逆である。
【0028】
LCEVC実装形態では、変換ブロック112、123は、それぞれの空間解像度における2×2ピクセルまたは4×4ピクセルのブロックに対して動作する。変換ブロック112、123によって適用されるのに好適な例示的な変換カーネルDTが、[1]における式8および
図8によって与えられる。変換カーネルDTは、本開示では、LCEVC変換カーネルと呼ばれることになる。時間予測ブロック122は、変換ブロックベース、すなわち、それぞれの空間解像度における2×2ピクセルまたは4×4ピクセルで、時間予測を使用すべきかどうかを判断するように構成される。さらに、32×32残差の全ブロック(タイル)が、時間予測なしに符号化されるようにシグナリングされ得、したがって、ビデオフレームの高速サブシーケンスについての総シグナリングオーバーヘッドへの時間シグナリング193の寄与が、わずかに低減され得る。
【0029】
LCEVCおよびそれらのいくつかのさらなる発展において、時間予測は、以下のレベルで働き得る。
a) 入力ビデオと元の空間解像度を有するように処理された(たとえば、アップサンプリングされた)再構成されたビデオとの間の差、
b) 上記差に変換カーネルを適用することによって取得された係数、
c) 量子化された差、または
d) 量子化された係数。
たとえば、オプションa)の下で、上記差が明示的に符号化されるべきであるかどうか、または上記差が時間予測によって符号化されるべきであるかどうかが、好適な時間および空間グラニュラリティで、たとえば、各ビデオフレームにおける各あらかじめ定義されたピクセル/係数ブロックについて、判断される。すなわち、上記差が明示的に符号化されるべきであるのか、別のビデオフレームにおける対応する差のコピーとして表される(または場合によっては、1つまたは複数の他のビデオフレームにおける対応する差の線形結合として表される)べきであるのかが、判断される。
【0030】
図1Bは、一例では、オプションb)を実装するのに好適であるLCEVCエンコーダ100の時間予測122ブロックの内部の働きを示す。さしあたって、ビデオフレームのシーケンスにおける(たとえば、特定の係数ブロックインデックス、またはピクセルの特定のグループに対応する)特定の係数ブロックに注意が向けられる。時間予測122ブロックは、特定の係数ブロックが明示的に符号化された直近のビデオフレームについての特定の係数ブロックの値を記憶するためのメモリ122.2を備える。直近のビデオフレームは、この意味で、入力ビデオのフレームシーケンスにおける、前のいくつかのフレームであり得、非動き領域が長時間残っている場合、かなりの数の連続フレームが時間的に予測され得ることに留意されたい。さらなる発展において、時間的に予測されることを可能にされる連続フレームの数は、あらかじめ構成されたしきい値によって限定され得る。またさらなる発展において、時間予測は、1つのフレームだけでなく、複数のフレームへの参照によっても行われ得る。
【0031】
特定の係数ブロックが新しいビデオフレームにおいて明示的に符号化されるものとするかどうかを判断するために、比較器122.1が、メモリ122.2のコンテンツとの比較を行う。新しいビデオフレームにおける特定の係数ブロックが、メモリ122.2のコンテンツとはしきい値超異なる場合、新しいビデオフレームにおける特定の係数ブロックを明示的に符号化することが判断される。これは、スイッチ122.3を閉じることによって達成され得、それにより、新しいビデオフレームにおける特定の係数ブロックは、メモリ122.2のコンテンツを置き換え、量子化ブロック124に供給される。新しいビデオフレームにおける特定の係数ブロックが、メモリ122.2のコンテンツとはしきい値未満異なる場合、新しいビデオフレームにおける特定の係数ブロックは、1つまたは複数の他のフレームへの参照によって、すなわち、時間予測によって符号化される。比較器122.1からの信号は、スイッチ122.3を制御するために使用され、また、時間予測判断の裏付け(documentation)として働く時間シグナリングとして出力される。時間シグナリングのシーケンスは、拡張ビットストリーム190中に含まれる前に、エントロピー符号化(ブロック126)にかけられ得る。新しいビデオフレームにおける特定の係数ブロックとメモリ122.2のコンテンツとの間の差は、あるp≧1についてのlpノルムに関して比較され得る。
【0032】
図1Cは、オプションd)が実装される、別の例における時間予測ブロック122を指す。ここで、量子化ブロック124が、変換ブロック123のすぐ下流に配置される。結果として、時間予測ブロック122の主な出力が、エントロピーコーディングブロック125に供給される。
【0033】
オプションa)を実装するために、
図1Bに示されている時間予測122ブロックの修正されたバージョンが使用され得る。修正は、量子化ブロック124のわずかに上流のポイントに変換ブロック123を移動することにある。第2の残差が(変換係数であるのではなく)ピクセル値差に等しい実施形態では、変換ブロック123は、エンコーダ100から完全に省略され得る。
【0034】
概念的に、時間予測ブロック122は、ビデオフレームの各特定のピクセル/係数ブロックについて、比較器122.1、メモリ122.2、およびスイッチ122.3の1つのコピーを有して、これらのピクセル/係数ブロックの各々について、時間予測に関する独立した意思決定(decision-making)を可能にする。
図1Bおよび
図1Cに示されている構成要素が、必ずしも、必要な動作を行うためにエンコーダ実装のハードウェア構造がどのように使用され得るかを反映するとは限らず、むしろ、ソフトウェア命令がどのように使用され得るかを反映することが想起される。
【0035】
図2は、ベースビットストリーム180と拡張ビットストリーム190とを含むハイブリッドビデオストリームを、ビデオ出力シーケンス270に処理するように構成されたLCEVCデコーダ200を示す。LCEVCデコーダ200は、ベース復号段と、拡張サブレイヤ1および拡張サブレイヤ2における補正とを含む。ベースデコーダ250が、ベースビットストリーム180を復号することを担当する。エントロピー復号ブロック214、逆量子化ブロック213、逆変換ブロック212、L-1フィルタ217、および加算器211が、サブレイヤ1処理を実施するように動作する。エントロピー復号ブロック225、226、逆量子化ブロック224、逆変換ブロック223、時間予測(再構成)ブロック222、および加算器221が、サブレイヤ2に属する。これらのブロックは、
図1Aを参照しながら、および/または参考文献[1]において説明されるような、対応するツールまたは逆のツールで実装される。特に、逆変換ブロック212、223によって適用されるのに好適な例示的な逆変換カーネルITが、[1]における式10および
図9によって与えられる。受信側の観点から、適用可能なデコーダ構成271の少なくとも一部が、拡張ビットストリーム190におけるヘッダ194から導出され得る。ダウンスケーラがデコーダ200において必要とされないことは、注目に値する。
【0036】
拡張ビットストリーム190によって可能にされる改善のおかげで、出力シーケンス270は、ベースデコーダ250からのベース再構成がそのまま使用された場合よりも、入力ビデオシーケンス170(
図1A)により正確に一致し、および/またはより高い知覚品質のものであることが予想され得る。
【0037】
色入力ビデオでは、各ピクセルが、原色(たとえば、RGB)または明度およびクロマ(たとえば、YCbCr)に基づく空間を含む、色空間を参照する複数のチャネルを有する。このサブセクションにおいて説明されるLCEVCを含む拡張コーディング方式は、グレースケール入力ビデオならびに色入力ビデオに適用され得る。色入力ビデオの場合、各チャネルが別々に拡張コーディングされ得るか、または3つのチャネルが共同様式で、一緒に拡張コーディングされ得る。3つの色チャネルを別々に符号化すべきなのか共同で符号化すべきなのかは、ベースエンコーダ150において使用される設計選択と同等であり得るか、または、それは反対であり得る。同様に、以下のサブセクションにおいて説明されることになるLCEVCを含む既存の拡張コーディング方式に対する改善は、ベースライン拡張コーディング方式が色チャネルを別々に処理するのか共同で処理するのかにかかわらず、適用可能である。
【0038】
図1および
図2では、機能ブロックは、必ずしも、それぞれ、LCEVCエンコーダ100およびデコーダ200を実装する1つまたは複数のデバイスのハードウェアまたはソフトウェア構造を反映するとは限らない。実装形態では、1つの機能ブロックが、複数の識別可能なハードウェア構成要素によって実装され得、複数の機能ブロックが、共通のハードウェア構成要素で実装され得る。同様に、LCEVCエンコーダ100またはデコーダ200を実装するためにソフトウェア命令(1つまたは複数のコンピュータプログラム)が使用される場合、ソフトウェアコードは、実装者が好適と考える様式で、機能、ルーチン、ライブラリなどに構造化され得る。
【0039】
図8は、LCEVCエンコーダ100またはデコーダ200を実装するのに、または
図6を参照しながら説明されることになる符号化方法600を実施するのに、好適であるコーデックデバイス800を示す。図示のように、コーデックデバイス800は、処理回路810と、メモリ820と、外部インターフェース830とを含む。処理回路810は、1つまたは複数の処理コアを含み得、それらは、コロケートされるか、またはいくつかのサイトにわたって空間的に分散される。処理回路810は、1つまたは複数のネットワーク化された(または「クラウド」)処理リソースを含み得る。メモリ820は、ソフトウェア命令とともにコンピュータプログラム821を記憶するのに好適であり得る。外部インターフェース830は、コーデックデバイス800が、ハイブリッドビデオストリームの受信側によって保持された類似するデバイス(図示せず)と通信することを可能にする通信インターフェースであり得るか、または、外部インターフェース830は、ハイブリッドビデオストリームを記憶するのに好適な外部メモリ890における読取りおよび書込み動作を可能にし得る。コーデックデバイス800は、デジタルビデオカメラ(図示せず)中に含まれるか、またはそれに関連し得る。デジタルビデオカメラは、ビデオサーベイランス(video surveillance)を含むビデオ監視用途のために適応され得る。
【0040】
図9は、ハイブリッドビデオストリームがコーデックデバイス800のグループの間で交換されることを可能にする展開を示す。符号化方法600を実施するデバイスが、ローカルエリアネットワーク(
図9の下半分における接続線)上で、またはワイドエリアネットワーク990上で、受信側デバイスに接続され得ることに留意されたい。ビデオ監視用途では、リモートオペレータ端末が、コーデックデバイス800によって準備されたハイブリッドビデオストリームの受信側であり得る。ハイブリッドビデオストリームは、それ自体知られている暗号化および署名技術によって、不正な改ざんおよび/または盗聴から保護され得る。これは、ビデオストリームがネットワーク上で転送されるべきであるとき、特に関連があり得る。
【0041】
実施形態の第1のグループ
図6は、第1、第2、第3、および第4のグループ内の実施形態による、入力ビデオをハイブリッドビデオストリームとして符号化する方法600をフローチャート形式で示す。本サブセクションは、主に、実施形態の第1のグループに関係し、
図3に関連して読まれ得る。
【0042】
符号化方法600は、前のサブセクションにおいて概説されたLCEVCコンテキストに限定されず、LCEVC仕様に完全には準拠することなしに実装され得ることに留意されたい。たとえば、入力ビデオと中間空間解像度における再構成されたビデオとの間の(ピクセル値レベルでの)差に基づく第1の残差は、いくつかの実施形態では、この差に等しくなり得る。これは、
図3中のサブレイヤ1変換ブロック112が不在であるかまたは非アクティブであることを意味する。他の実施形態では、第1の残差は、前記差に変換カーネルを適用することによって取得された変換係数である。LCEVC仕様の完全な準拠は、特に、第1の残差が変換係数であることと、適用される変換カーネルが、[1]において説明されるものと同等であることとを必要とする。
【0043】
同様に、本開示の範囲から逸脱することなく、符号化方法600は、単に2つとは異なる数の拡張レイヤを提供するように、一般化され得る。たとえば、符号化方法600によって出力されたハイブリッドビデオストリームが、第3、第4などの拡張ストリームを含むことができる。追加の拡張ストリームの各々が、第1の拡張ストリームまたは第2の拡張ストリームのために使用されるものと類似する構成要素または動作によって生成され得、復号は、上記で説明された方針に沿って進み得る。
【0044】
方法600の第1のステップ610において、少なくとも1つの非動き領域が、ビデオフレームにおいて検出される(
図3中のブロック301)。そのような検出を示すために、
図7は、構築環境におけるビデオ監視機器によってキャプチャされた、歩行者およびサイクリストを伴う街路シーンからの例示的なビデオフレーム700を示す。ビデオフレーム700の上側部分において、検出された不規則な形状の非動き領域701が、破線境界線によって、およびハッシングによって示される。日常の経験により、非動き領域701は、歩行者およびサイクリストの手の届かないところにあり、したがって、移動している物体によってあまりめったに訪問されない外観のエリアを示すので、正しく検出されたことが確認されたと思われる。
【0045】
非動き領域701は、オペレータによる構成データ入力に基づいて検出され得るか、または、非動き領域701は、自動的に検出され得る。この目的で展開される自動検出アルゴリズムが、少なくとも16×16ピクセルの空間グラニュラリティを有し得、そのようなピクセルブロックの値は、移動が不在である(ピクセル値がほぼ一定である)のか、存在する(ピクセル値が変動する)のかを決定するために、連続するビデオフレームにわたって比較される。自動検出アルゴリズムは、ピクセル値差異の計算を含み得る。代替的に、自動検出アルゴリズムは、個々のピクセルまで、より細かいグラニュラリティを使用し得る。あるサイズの変換カーネルを適用することによって第1の残差が生成される実施形態では、カーネルサイズに等しいグラニュラリティまたはより粗いグラニュラリティで自動検出を実施することが好ましい。さらに、自動検出アルゴリズムは、1つのビデオフレームの持続時間、または10個のビデオフレームの持続時間、または数十個のビデオフレームの持続時間に対応する時間グラニュラリティを有し得る。より粗いグラニュラリティを使用することは、通常、検出アルゴリズムがより少ない処理リソースを消費することを意味し、ビデオ監視用途では、非動き期間が、数分、さらには数時間の持続時間を有し得、したがって、非動き領域の検出を、対応する、すなわち、数百個または数千個程度のビデオフレームの、グラニュラリティで、リフレッシュすることが十分であり得る。
【0046】
別の自動検出アルゴリズムは、画像統計、動き統計、画像コンテンツシグネチャなど、入力ビデオについての局所統計に基づいてサブレイヤ1符号化から除外されるのに好適な領域を認識するようにトレーニングされた機械学習モデルに依拠し得る。トレーニングされた機械学習モデルによって予測された画像領域が、本符号化方法600では、非動き領域701として利用され得る。いくつかの実装形態では、ステップ610は、ビデオカメラに組み込まれた雑音フィルタまたは画像安定化フィルタなど、非動き領域701の検出とは異なる目的をもつアルゴリズムによって行われ得る。非動き領域の存在を示す情報は、これらのフィルタのいずれかにおける内部変数から、それらのフィルタの好適な出力信号から、またはフィルタへの入力フレームを対応する出力フレームと比較することによって、導出可能であり得る。さらにまた、ステップ610は、フレーム間予測コーディングに関係するアルゴリズム、すなわち、ブロックを予測的に符号化することが経済的であるか否かをブロックレベルで決定するアルゴリズムによって行われ得、そのアルゴリズムが、ブロックを予測的に符号化することが経済的であることになると評価した場合、そのブロックは、非動き領域として扱われ得る。
【0047】
非動き領域701の検出は、元の空間解像度における入力ビデオのビデオフレームに適用され得る。代替的に、非動き領域701の検出は、中間空間解像度における入力ビデオのビデオフレームに適用され得る。その場合、ステップ610の実行は、後続のステップ620よりも前に始まることができない。
【0048】
自動検出アルゴリズムの感度(たとえば、ピクセル値がビデオフレーム間でほぼ変化していないと見なされる、許容差)は、検出感度を変動させながら、代表的なテストビデオについて符号化方法600の総ビットレートを最適化することによって設定され得る。いわゆるフォールスポジティブの適度の頻度は、それ自体問題ではなく、なぜなら、ステップ610において、領域が非移動領域として間違って分類された場合、その領域は、第1の残差が消失するのでサブレイヤ1補正から除外されることになるが、最終的に、サブレイヤ2において(場合によっては、より高いコーディングコストで)補正されることになるからである。具体的に、ビデオフレームの検出された非動き領域が、(たとえば、移動している物体または照明ゆらぎを表す)ピクセル値変動を含んでいる場合、時間予測ブロック122は、その領域に対して時間予測を使用しないことを判断することになり、その領域は、代わりに、明示的に符号化されることになり、必要な拡張がサブレイヤ2によって実現されることになる。
【0049】
方法600の実行フローは、入力ビデオを元の空間解像度から、低減された空間解像度および中間空間解像度にダウンサンプリングするステップ620に進む。低減された空間解像度における入力ビデオは、たとえば、
図1A中にあるような一連のダウンスケーラ130、140を使用して、元の空間解像度における入力ビデオを2回ダウンサンプリングすることによって、または元の空間解像度における入力ビデオから直接、提供され得る。
【0050】
本開示の範囲内で、ダウンスケーラ130、140の各々は、入力ビデオの2:2ダウンサンプリング(すなわち、幅解像度が1/2にされ、高さ解像度が1/2にされる)、入力ビデオの2:1ダウンサンプリング(すなわち、ビデオフレームの幅方向における解像度が1/2にされ、ビデオフレームの高さ方向における解像度が維持される)、入力ビデオの1:2ダウンサンプリング(すなわち、幅解像度が維持され、高さ解像度が1/2にされる)、または1:1ダウンサンプリング(すなわち、幅解像度が維持され、高さ解像度が維持される)のために適応され得る。第1のダウンスケーラ130および第2のダウンスケーラ140のそれぞれのダウンサンプリングアクションが、独立して選定され得る。LCEVCの従来の実装形態では、第1のダウンスケーラ130のアクションは、第2のアップスケーラ120のアクションの逆であり、第2のダウンスケーラ140のアクションは、第1のアップスケーラ110のアクションの逆である。第2のダウンスケーラ140が、(自明なダウンスケーリング1:1について)パススルーブロックとして構成されたとき、(特許請求の範囲における「低減された空間解像度」に対応する)ベースエンコーダ150の空間解像度と、(特許請求の範囲における「中間空間解像度」に対応する)サブレイヤ1の空間解像度とが、等しくなることになる。この構成では、サブレイヤ1は、入力ビデオに関して、出力ビデオの品質および/または出力ビデオの忠実度を改善するのを助け得るが、サブレイヤ1は、空間解像度を変更しない。アップスケーラ110、120によって行われるアップサンプリングが、[1]のセクションIIIにおいて説明される。
【0051】
次のステップ630において、ベース符号化ストリーム180を取得するために、低減された空間解像度における入力ビデオが、ベースエンコーダ150に提供される。ベースエンコーダ150が拡張レイヤから独立して動作することが強調される。むしろ、エンコーダ100は、ベースエンコーダ150の設定および内部変数を検査または修正する必要なしに、正常に実装され得る。
【0052】
次のステップ640において、第1の拡張ストリームが提供される。これは、入力ビデオと中間空間解像度における再構成されたビデオとの間の差に基づいて、第1の残差のセットを生成するステップ641を含む。上記差は、単一ピクセルのレベルで動作する減算器111によって計算され得る。この例では、再構成されたビデオは、ベース符号化ストリームを復号することと、出力をアップサンプリングする(または自明にアップサンプリングする)こととによって取得される。第1の残差は、さらなる処理が適用されない、上記差であり得るか、または、第1の残差は、上記差に変換カーネルを適用することによって取得された変換係数であり得る。変換カーネルのサイズは、2×2または4×4ピクセルブロックのために適応され得、出力は、等しいサイズの係数ブロック(「第1の残差のセット」)であり得る。
【0053】
ステップ640は、第1の残差のセットを量子化するステップ642(
図3中のブロック113)と、量子化された第1の残差のセットから第1の拡張ストリームを形成するステップ644とをさらに含む。随意に、ステップ644は、量子化された第1の残差のセットを、エントロピー符号化にかけることを含み得る。好適な量子化およびエントロピーコーディングアルゴリズムが、[1]のセクションVIおよびVIIにおいて説明される。
【0054】
実施形態の第1のグループによれば、ステップ640は、量子化された第1の残差のセットにマスキングを適用するステップ643(
図3中のブロック302)をさらに含む。マスキングは、非動き領域に関係するそれらの量子化された第1の残差を0値と(または、等価的に、画像コンテンツの不在を表すニュートラル値と)置き換えることを含み得る。概念的に、「マスク」は、検出された非動き領域に対応する。これは、第1の残差のセットが、非動き領域全体にわたって消失することを引き起こすことになるが、非動き領域外の第1の残差をそのままにする。置き換えは、第1の残差の1つのセットのグラニュラリティで、たとえば、変換が使用される場合、1つの変換ブロックで、または非動き領域の検出のためのステップ610において使用されたものと同じグラニュラリティで、実施され得る。
【0055】
次のステップ650において、第2の拡張ストリームが提供される。これは、入力ビデオと元の空間解像度における再構成されたビデオとの間の差に基づいて、第2の残差のセットを生成するステップ651を含む。ここで、元の空間解像度における再構成されたビデオは、中間空間解像度における再構成されたビデオから、すなわち、第1の残差の再構成を加算することと、出力をアップサンプリングする(または自明にアップサンプリングする)こととによって、取得される。第2の残差は、さらなる処理が適用されない、この差であり得るか、または、第2の残差は、上記差に変換カーネルを適用することによって取得された変換係数であり得る。第1の残差の場合のように、第2の残差は、第2の拡張ストリーム中に含まれる(ステップ654、これはエントロピー符号化、ブロック125を随意に含み得る)前に、量子化(ステップ652、ブロック124)にかけられる。ステップ652において使用されるべき量子化レベルが、入力ビデオの予想される雑音レベルに鑑みて構成され得、たとえば、量子化レベル(量子化ステップ)は、名目上0値の信号における雑音アーテファクトのかなりの部分が0に丸められるほど、十分に大きく設定され得る。ステップ652において使用される量子化レベルは、ステップ642において使用される量子化レベルとは独立して構成され得、この点について、拡張エンコーダ100の2つのサブレイヤは、独立している。
【0056】
本明細書で開示されるすべての実施形態に共通して、第2の拡張ストリームは、時間予測を使用して少なくとも部分的に符号化される。時間予測符号化は、入力ビデオ170における、少なくともいくつかのブロック、いくつかのビデオフレーム、またはビデオフレームのいくつかのサブシーケンスがこのやり方で符号化されるという意味で、部分的である。第2の拡張ストリームは、時間シグナリング193を含み、時間シグナリング193は、第2の残差が時間予測によって符号化される、すなわち、第2の残差が1つまたは複数の他のビデオフレームを参照することによって表されるかどうか、または第2の残差が明示的に符号化されるかどうかを、好適な時間および空間グラニュラリティで(たとえば、各ビデオフレームにおける各あらかじめ定義されたピクセル/係数ブロックについて)示す。時間シグナリング193は、それが時間レイヤとして拡張ビットストリーム190中に含まれる前に、エントロピー符号化され得る。明示的に符号化するという、または時間予測を使用するという判断(
図6中のブロック653)が、前記1つまたは複数の他のビデオフレームとの類似度、たとえば、時間予測の使用がもたらす誤差が許容できる大きさを有するかどうか、に基づき得る。時間予測は、以下のレベルで動作し得る。
a) 入力ビデオと元の空間解像度における再構成されたビデオとの間の差、
b) 上記差に変換カーネルを適用することによって取得された係数、
c) 量子化された差、または
d) 量子化された係数。
オプションa)は、いくつかのLCEVC実装形態のために選定された。[2]と、[1]におけるセクションIVとを参照されたい。オプションb)は、[3]において説明される。オプションc)およびd)は、
図6中のフローチャートによってカバーされる。
【0057】
入力ビデオのシーケンスのためのステップ650が完了した後の、次のステップ660において、ハイブリッドビデオストリームの対応するセグメントが形成され得る。符号化方法600の実行は、ここで終了するか、または非動き領域を検出するステップ610から再開するかのいずれかであり得る。ハイブリッドビデオストリームは、本明細書の教示に鑑みて修正されていない一般的なデコーダによって復号され得、これは、
図2中の規格化されたLCEVCデコーダ200を含む。
【0058】
上記の説明は
図3によって要約され、
図3は、第1の残差のセットが、量子化された第1の残差のセットに適用されたマスキングの結果として、非動き領域全体にわたって消失する、実施形態の第1のグループに従って適応されたLCEVCエンコーダ100を示す。ここで、ブロック301は、非動き領域を検出するように動作可能なアルゴリズムを表し、ステップ610に対応する。ブロック302は、ステップ643におけるマスキング動作を表す。代替的に、検出アルゴリズム301は、第1のダウンスケーラ130と第2のダウンスケーラ140との間のポイントからその入力をとり得、それにより、検出は、マスキングと同じ空間解像度で実施される。
【0059】
実施形態のこの第1のグループは、可能な変形形態および代替形態を含む、比較的完全なおよび詳細なやり方で説明されたが、実施形態の後続のグループは、無意味な繰返しを回避するために、より簡潔に説明されることになることに留意されたい。実施形態の第1のグループの技術的特徴が、量子化された第1の残差のセットのマスキング642に関係するものを除いて、このコンテキストから解され、第1のグループ以外の実施形態において利用され得ることを諒解されたい。
【0060】
実施形態の第2のグループ
図4は、第1の残差のセットが、中間空間解像度における入力ビデオを、低減された空間解像度における入力ビデオからアップサンプリングされた置換ビデオと置き換えることの結果として、非動き領域全体にわたって消失する、実施形態の第2のグループに従って適応されたLCEVCエンコーダ100を示す。
【0061】
図6に示されている方法600の第1のステップ610において、少なくとも1つの非動き領域が、ビデオフレームにおいて検出される(
図4中のブロック401)。検出は、実施形態の第1のグループのコンテキストにおける、上記で説明されたいくつかのやり方のうちの1つで行われ得る。
【0062】
次いで、ステップ620において、入力ビデオが、元の空間解像度から、低減された空間解像度におよび中間空間解像度にダウンサンプリングされる。実施形態の第2のグループでは、第1の残差のセットを生成すること641より前に、中間空間解像度における入力ビデオが、ビデオフレームの非動き領域全体にわたって、低減された空間解像度における入力ビデオからアップサンプリングされた置換ビデオと置き換えられる。これは、非動き領域が、低減された空間解像度を有し(ただし、たとえば、減算器111による、処理を可能にするために中間空間解像度において表される)、ビデオフレームの残部が中間空間解像度を有する、デュアル解像度ビデオフレームを提供すること(サブステップ620.1)に相当することが考えられ得る。したがって、アップサンプリング動作が滑らかな補間を含まない単純な実装形態では、デュアル解像度ビデオフレームは、形式的に、全体にわたって中間空間解像度を有するが、非動き領域におけるピクセル値は、低減された空間解像度に対応するグラニュラリティで、たとえば、2×2ピクセルのブロックで変動する。
【0063】
図4は、入力ビデオの各フレームが、ダウンサンプリングより前に、一方では、少なくとも1つの非動き領域に、他方では、非動き領域の補集合に分割される(ブロック402)、実装形態を示す。分割は、ブロック401によって符号で表される、非動き領域検出アルゴリズムの出力によって導かれ得る。補集合は、中間空間解像度へのダウンサンプリング(ダウンサンプラ130)を経る。少なくとも1つの非動き領域は、低減された空間解像度へのダウンサンプリングを経て、その後に中間解像度へのアップサンプリングが続く(ブロック404)。アップサンプリング動作は、好ましくは、再構成されたビデオに適用されるアップサンプリング動作(ブロック110)と同等または等価である。少なくとも1つの非動き領域とそれらの補集合とは、次いで、中間解像度におけるビデオフレームに合成される(ブロック403)。ブロック404における動作の結果として、少なくとも1つの非動き領域における情報密度が、ビデオフレームの残部におけるものよりも低いことが予想され得る。
【0064】
代替実装形態では、ダウンサンプリング-アップサンプリングブロック404は、第2のダウンスケーラ140の出力をとり、その出力をアップサンプリングし、アップサンプリングされたデータをビデオフレームの少なくとも1つの非動き領域に置換する、ブロック(図示せず)によって置き換えられる。
【0065】
次のステップ630において、ベース符号化ストリーム180を取得するために、低減された空間解像度における入力ビデオが、ベースエンコーダ150に提供される。
【0066】
次のステップ640において、第1の拡張ストリームが提供され、すなわち、第1の残差のセットを生成すること(ステップ641)と、第1の残差のセットを量子化すること(ステップ642)と、量子化された第1の残差のセットから第1の拡張ストリームを形成すること(ステップ644)とによって、提供される。ステップ641において、デュアル解像度ビデオフレームが使用されるので、非動き領域についての第1の残差のセットが、一方では、低減された空間解像度における(とはいえ、名目上、中間空間解像度にアップサンプリングされる)入力ビデオと、他方では、中間空間解像度における再構成されたビデオとの間の差に基づいて生成されることになる。非動き領域外では、第1の残差のセットは、入力ビデオと中間空間解像度における再構成されたビデオとの間の差に基づいて生成される。このようにして、第1の残差のセットは、非動き領域全体にわたって0であるかまたはほぼ0であり(すなわち、消失し)、補正は、拡張エンコーダ100の次のサブレイヤに先送りされる。
【0067】
次のステップ650において、第2の拡張ストリームが提供され、すなわち、入力ビデオと元の空間解像度における再構成されたビデオとの間の差に基づいて、第2の残差のセットを生成すること(ステップ651)と、前記第2の残差を量子化すること(ステップ652)と、前記第2の残差を第2の拡張ストリーム中に含めること(ステップ654)とによって、提供される。第2の拡張ストリームは、ステップ653において判断されるように、時間予測を使用して少なくとも部分的に符号化される。
【0068】
入力ビデオのシーケンスのためのステップ650が完了した後の、次のステップ660において、ハイブリッドビデオストリームの対応するセグメントが形成され得る。符号化方法600の実行は、終了するか、または非動き領域を検出するステップ610から再開するかのいずれかであり得る。
【0069】
実施形態の第3のグループ
図5Aは、第1の残差のセットが、入力ビデオと中間空間解像度における再構成されたビデオとの間の差にマスキングを適用することの結果として、非動き領域全体にわたって消失する、実施形態の第3のグループに従って適応されたLCEVCエンコーダ100を示す。いくつかの実施形態では、第1の残差のセットは、前記差をなすが、他の実施形態では、第1の残差のセットは、上記差から計算された変換係数である。第3のグループは、変換係数である第1の残差のセットにマスキングが適用される実施形態をさらに含み、
図5Aに示されている実施形態と同様に、マスキングは、第1の残差のセットを量子化することより前に、ブロック112の下流に適用される。
【0070】
図6に示されている方法600の第1のステップ610において、少なくとも1つの非動き領域が、ビデオフレームにおいて検出される(
図5A中のブロック501)。検出は、実施形態の第1のグループのコンテキストにおける、上記で説明されたいくつかのやり方のうちの1つで行われ得る。
【0071】
次いで、ステップ620において、入力ビデオが、元の空間解像度から、低減された空間解像度および中間空間解像度にダウンサンプリングされる。
【0072】
次のステップ630において、ベース符号化ストリーム180を取得するために、低減された空間解像度における入力ビデオが、ベースエンコーダ150に提供される。
【0073】
次のステップ640において、第1の拡張ストリームが提供され、すなわち、第1の残差のセットを生成すること(ステップ641)と、第1の残差のセットを量子化すること(ステップ642)と、量子化された第1の残差のセットから第1の拡張ストリームを形成すること(ステップ644)とによって、提供される。
【0074】
第3のグループ中のいくつかの実施形態によれば、ステップ641は、入力ビデオと中間空間解像度における再構成されたビデオとの間の差にマスキングを適用するサブステップ641.1(ブロック502)を含む。マスキングは、非動き領域に関係する上記差のそれらの値を0値と(または、等価的に、画像コンテンツの不在を表すニュートラル値と)置き換えることを含み得る。概念的に、「マスク」は、非動き領域に対応する。第1の残差が変換係数である、第3のグループ中の他の実施形態によれば、サブステップ641.1は、量子化(ステップ642、ブロック113)より前に、第1の残差のセットにそのようなマスキングを適用することを含む。ブロック112とブロック113との間にブロック502を置くことに対応し得るこの場合、マスキングは、非動き領域におけるピクセルから全体的に導出されたすべての変換ブロックに適用され得る。マスキングは、随意に、非動き領域におけるピクセルから全体的にまたは部分的に導出されたすべての変換ブロックに適用され得る。どちらにしても、(1つまたは複数の)非動き領域の補正は、拡張エンコーダ100の第2のサブレイヤに先送りされることになる。
【0075】
次のステップ650において、第2の拡張ストリームが提供され、すなわち、入力ビデオと元の空間解像度における再構成されたビデオとの間の差に基づいて、第2の残差のセットを生成すること(ステップ651)と、前記第2の残差を量子化すること(ステップ652)と、前記第2の残差を第2の拡張ストリーム中に含めること(ステップ654)とによって、提供される。第2の拡張ストリームは、ステップ653において判断されるように、時間予測を使用して少なくとも部分的に符号化される。
【0076】
入力ビデオのシーケンスのためのステップ650が完了した後の、次のステップ660において、ハイブリッドビデオストリームの対応するセグメントが形成され得る。符号化方法600の実行は、終了するか、または非動き領域を検出するステップ610から再開するかのいずれかであり得る。
【0077】
実施形態の第4のグループ
図5は、第1の残差のセットが、第1の残差のセットを生成することより前に、入力ビデオから、入力ビデオと中間空間解像度における再構成されたビデオとの間の予測された差を減算することの結果として、非動き領域全体にわたって消失する、実施形態の第4のグループに従って適応されたLCEVCエンコーダを示す。非動き領域外では、第1の残差のセットは、通常のやり方で、すなわち、入力ビデオと中間空間解像度における再構成されたビデオとの間の差に基づいて生成される。
【0078】
図6に示されている方法600の第1のステップ610において、少なくとも1つの非動き領域が、ビデオフレームにおいて検出される(
図5B中のブロック501)。検出は、実施形態の第1のグループのコンテキストにおける、上記で説明されたいくつかのやり方のうちの1つで行われ得る。
【0079】
次いで、ステップ620において、入力ビデオが、元の空間解像度から、低減された空間解像度および中間空間解像度にダウンサンプリングされる。
【0080】
次のステップ630において、ベース符号化ストリーム180を取得するために、低減された空間解像度における入力ビデオが、ベースエンコーダ150に提供される。
【0081】
次のステップ640において、第1の拡張ストリームが提供され、すなわち、第1の残差のセットを生成すること(ステップ641)と、第1の残差のセットを量子化すること(ステップ642)と、量子化された第1の残差のセットから第1の拡張ストリームを形成すること(ステップ644)とによって、提供される。
【0082】
第4のグループ中の実施形態によれば、ステップ635において、入力ビデオと中間空間解像度における再構成されたビデオとの間の差が予測され、入力ビデオの各ビデオフレームの(1つまたは複数の)非動き領域から減算される。予測された差は、減算器111の出力の予測であると見なされ得る。減算は、第1の残差が生成される(ステップ641)前に行われる。
図5Bは、この減算を達成する1つの可能な実装形態を示す。ここで、減算器505が、第1のダウンスケーラ130の出力(すなわち、中間空間解像度にダウンサンプリングされた入力ビデオ)から、第1のアップスケーラ110の出力(すなわち、中間空間解像度における再構成されたビデオ)を減算する。ブロック503は、(1つまたは複数の)非動き領域をビデオフレームの残部から分割し、ブロック506は、これから、減算器505の出力を減算し、そのときに、ブロック504は、(1つまたは複数の)非動き領域とその残部とを合成し、その出力を減算器111に供給する。その結果、減算器111の出力である差が、非動き領域において0であるかまたはほぼ0になる(すなわち、消失する)。
((中間解像度における入力ビデオ)-(予測された差))-(中間解像度における再構成されたビデオ)
=((中間解像度における入力ビデオ)-((中間解像度における入力ビデオ)-(中間解像度における再構成されたビデオ)))-(中間解像度における再構成されたビデオ)
=0。
このようにして、非動き領域の補正は、拡張エンコーダ100の第2のサブレイヤに先送りされることになる。ビデオフレームの残部は、通常どおり、すなわち、サブレイヤ1とサブレイヤ2の両方において処理されることになる。
【0083】
次のステップ650において、第2の拡張ストリームが提供され、すなわち、入力ビデオと元の空間解像度における再構成されたビデオとの間の差に基づいて、第2の残差のセットを生成すること(ステップ651)と、前記第2の残差を量子化すること(ステップ652)と、前記第2の残差を第2の拡張ストリーム中に含めること(ステップ654)とによって、提供される。第2の拡張ストリームは、ステップ653において判断されるように、時間予測を使用して少なくとも部分的に符号化される。
【0084】
入力ビデオのシーケンスのためのステップ650が完了した後の、次のステップ660において、ハイブリッドビデオストリームの対応するセグメントが形成され得る。符号化方法600の実行は、終了するか、または非動き領域を検出するステップ610から再開するかのいずれかであり得る。
【0085】
結語
本開示の態様が、主に、数個の実施形態を参照しながら上記で説明された。しかしながら、当業者によって直ちに諒解されるように、上記で開示された実施形態以外の実施形態が、添付の特許請求の範囲によって規定される本発明の範囲内で等しく可能である。
【外国語明細書】