特開2024-170380 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アクシス　アーベーの特許一覧

特開2024-170380ビデオ監視用途のための拡張ビデオコーディング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2
3
4
5A
5B
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024170380

(43)【公開日】2024-12-10

(54)【発明の名称】ビデオ監視用途のための拡張ビデオコーディング

(51)【国際特許分類】

H04N 19/33 20140101AFI20241203BHJP

H04N 19/132 20140101ALI20241203BHJP

H04N 19/137 20140101ALI20241203BHJP

H04N 19/172 20140101ALI20241203BHJP

H04N 19/46 20140101ALI20241203BHJP

【ＦＩ】

H04N19/33

H04N19/132

H04N19/137

H04N19/172

H04N19/46

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024079257

(22)【出願日】2024-05-15

(31)【優先権主張番号】23175423

(32)【優先日】2023-05-25

(33)【優先権主張国・地域又は機関】EP

(71)【出願人】

【識別番号】502208205

【氏名又は名称】アクシスアーベー

(74)【代理人】

【識別番号】110002077

【氏名又は名称】園田・小林弁理士法人

(72)【発明者】

【氏名】ヨハンソン，マルテ

(72)【発明者】

【氏名】エドパルム，ヴィクトル

(57)【要約】（修正有）

【課題】ビデオ監視用途のための拡張ビデオコーディングの方法及び記憶媒体を提供する。
【解決手段】ビデオフレームのシーケンスを含む入力ビデオをハイブリッドビデオストリームとして符号化する方法であって、入力ビデオを元の空間解像度から、低減された空間解像度および中間空間解像度にダウンサンプリングすることと、ベース符号化ストリームを取得するために、低減された空間解像度における入力ビデオをベースエンコーダに提供することと、中間空間解像度における第１の残差に基づく１の拡張ストリームを提供することと、時間予測を使用して少なくとも部分的に符号化される、元の空間解像度における第２の残差に基づく第２の拡張ストリームを提供することと、ビデオフレームにおける少なくとも１つの非動き領域を検出することと、第２の残差のセットではなく第１の残差のセットが非動き領域全体にわたって消失することを引き起こすことと、を含む。
【選択図】図６

【特許請求の範囲】

【請求項1】

ビデオフレームのシーケンスを含む入力ビデオをハイブリッドビデオストリームとして符号化する方法であって、前記方法は、
前記入力ビデオを元の空間解像度から、低減された空間解像度および中間空間解像度にダウンサンプリングすることと、
ベース符号化ストリームを取得するために、前記低減された空間解像度における前記入力ビデオをベースエンコーダに提供することと、
第１の拡張ストリームを、
前記入力ビデオと前記中間空間解像度における再構成されたビデオとの間の差に基づいて、第１の残差のセットを生成することと、
第１の残差の前記セットを量子化することと、
量子化された第１の残差の前記セットから前記第１の拡張ストリームを形成することと
によって、提供することと、
第２の拡張ストリームを、
前記入力ビデオと前記元の空間解像度における再構成されたビデオとの間の差に基づいて、第２の残差のセットを生成することと、
第２の残差の前記セットを量子化することと、
量子化された第２の残差の前記セットから前記第２の拡張ストリームを形成することと
によって、提供することであって、
前記第２の拡張ストリームが、時間予測を使用して少なくとも部分的に符号化され、さらに、時間予測が使用されるかどうかを示す時間シグナリングを含む、
前記第２の拡張ストリームを提供することと、
前記ベース符号化ストリーム、前記第１の拡張ストリーム、および前記第２の拡張ストリームから、前記ハイブリッドビデオストリームを形成することと
を含み、
前記方法が、
ビデオフレームにおける少なくとも１つの非動き領域を検出することと、
第２の残差の前記セットではなく第１の残差の前記セットが前記非動き領域全体にわたって消失することを引き起こすことと
をさらに含むことを特徴とする、方法。

【請求項2】

第１の残差の前記セットが、量子化された第１の残差の前記セットにマスキングを適用することによって、前記非動き領域全体にわたって消失することを引き起こされる、請求項１に記載の方法。

【請求項3】

第１の残差の前記セットが、
前記ビデオフレームの前記非動き領域において、第１の残差の前記セットを生成することより前に、前記中間空間解像度における前記入力ビデオを、前記低減された空間解像度における前記入力ビデオからアップサンプリングされた置換ビデオと置き換えること
によって、前記非動き領域全体にわたって消失することを引き起こされる、請求項１に記載の方法。

【請求項4】

前記入力ビデオをダウンサンプリングすることが、
前記非動き領域における前記低減された空間解像度と他の場所における前記中間空間解像度とを有するデュアル解像度ビデオフレームを提供すること
を含む、請求項３に記載の方法。

【請求項5】

第１の残差の前記セットが、前記入力ビデオと前記中間空間解像度における再構成されたビデオとの間の前記差にマスキングを適用することによって、または前記量子化することより前に第１の残差の前記セットにマスキングを適用することによって、前記非動き領域全体にわたって消失することを引き起こされる、請求項１に記載の方法。

【請求項6】

第１の残差の前記セットが、
前記ビデオフレームの前記非動き領域において、第１の残差の前記セットを生成することより前に、前記入力ビデオから、前記入力ビデオと前記中間空間解像度における前記再構成されたビデオとの間の予測された差を減算すること
によって、前記非動き領域全体にわたって消失することを引き起こされる、請求項１に記載の方法。

【請求項7】

前記第１の拡張ストリームの各ビデオフレームが、前記第１の拡張ストリームの他のビデオフレームを参照せずに復号可能である、請求項１に記載の方法。

【請求項8】

前記第２の拡張ストリームを提供することが、ビデオフレームにおける第２の残差または量子化された第２の残差の各セットについて、１つまたは複数の他のビデオフレームを参照して時間予測を使用すべきかどうかを決定することと、時間予測が前記ビデオフレームにおいて使用されるかどうかを前記時間シグナリングによって示すこととをさらに含む、請求項１に記載の方法。

【請求項9】

前記少なくとも１つの非動き領域が、前記元の空間解像度における前記入力ビデオのビデオフレームにおいて、または前記中間空間解像度における前記入力ビデオのビデオフレームにおいて検出される、請求項１に記載の方法。

【請求項10】

前記中間空間解像度が、前記低減された空間解像度よりも細かいか、または前記中間空間解像度と前記低減された空間解像度とが等しい、請求項１に記載の方法。

【請求項11】

前記第１の残差および／または前記第２の残差が、前記入力ビデオと前記再構成されたビデオとの間の前記差に、サイズ２×２ピクセルまたは４×４ピクセルの変換カーネルを適用することによって生成される、請求項１に記載の方法。

【請求項12】

前記変換カーネルが、低複雑度拡張ビデオコーディング（ＬＣＥＶＣ）変換カーネルである、請求項１１に記載の方法。

【請求項13】

第１の残差の前記セットと第２の残差の前記セットとが、異なる量子化レベルを使用して量子化される、請求項１に記載の方法。

【請求項14】

請求項１に記載の方法を実施するように構成された処理回路を備えるデバイス。

【請求項15】

命令を含むコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体であって、前記命令は、前記プログラムが処理回路によって実行されたとき、前記処理回路に請求項１に記載の方法を行わせる、非一時的コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、ビデオコーディングの分野に関し、詳細には、ビデオ監視用途に好適な拡張ビデオコーディングの実装形態に関する。

【背景技術】

【0002】

拡張ビデオコーディングは、１つまたは複数の拡張レイヤが再構成されたベースビデオと組み合わせられたとき、拡張されたビデオストリームが作り出されるように、その拡張レイヤをベースコーデックで符号化されたベースビデオに追加するための技法を指す。拡張レイヤは、再構成されたビデオの、圧縮能力拡大、より低い符号化／復号複雑度、改善された解像度および改善された品質など、改善された特徴を既存のコーデックに提供する。ベースビデオと１つまたは複数の拡張レイヤとの組み合わせは、ハイブリッドビデオストリームと呼ばれることがある。

【0003】

そのような技法の中で、低複雑度拡張ビデオコーディング（ＬＣＥＶＣ）仕様、またはＭＰＥＧ－５は、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ０４（ＭＰＥＧ）ビデオコーディングによって承認された最近の規格である。それは、他のコーディング方式の上で機能し、それによりマルチレイヤビデオコーディング技術を生じ、また、ベースビデオから独立して（１つまたは複数の）拡張レイヤを追加する。ＬＣＥＶＣ技術は、より低い解像度における復号されたビデオを入力としてとり、元の品質における入力ビデオとの比較に基づいて、単純な時間予測、周波数変換、量子化、およびエントロピー符号化など、特殊な低複雑度コーディングツールで符号化された残差の最高２つの拡張サブレイヤを追加する。ＬＣＥＶＣ規格の主な特徴の提示が、以下の参考文献のいずれかにおいて見られ得る。
［１］
Ｓ．Ｂａｔｔｉｓｔａら、「ＯｖｅｒｖｉｅｗｏｆｔｈｅＬｏｗＣｏｍｐｌｅｘｉｔｙＥｎｈａｎｃｅｍｅｎｔＶｉｄｅｏＣｏｄｉｎｇ（ＬＣＥＶＣ）Ｓｔａｎｄａｒｄ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．３２、ｎｏ．１１、７９８３～７９９５ページ（ＤＯＩ：１０．１１０９／ＴＣＳＶＴ．２０２２．３１８２７９３）、２０２２
［２］
「ＷｈｉｔｅｐａｐｅｒｏｎＬｏｗＣｏｍｐｌｅｘｉｔｙＥｎｈａｎｃｅｍｅｎｔＶｉｄｅｏＣｏｄｉｎｇ（ＬＣＥＶＣ）」、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＡＧ３Ｎ００５８、２０２２年１月
［３］
ＷＯ２０２０１８８２７３Ａ１
ＬＣＥＶＣ規格の仕様が、次のように公開されている。
［４］
ＩＳＯ／ＩＥＣ２３０９４－２－ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ－ＧｅｎｅｒａｌＶｉｄｅｏＣｏｄｉｎｇ－Ｐａｒｔ２：ＬｏｗＣｏｍｐｌｅｘｉｔｙＥｎｈａｎｃｅｍｅｎｔＶｉｄｅｏＣｏｄｉｎｇ、ＳｔａｎｄａｒｄＩＳＯ／ＩＥＣ２３０９４－２：２０２１、２０２１年１１月
［５］
ＩＳＯ／ＩＥＣ２３０９４－３－ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ－ＧｅｎｅｒａｌＶｉｄｅｏＣｏｄｉｎｇ－Ｐａｒｔ３：ＣｏｎｆｏｒｍａｎｃｅａｎｄＲｅｆｅｒｅｎｃｅＳｏｆｔｗａｒｅｆｏｒＬｏｗＣｏｍｐｌｅｘｉｔｙＥｎｈａｎｃｅｍｅｎｔＶｉｄｅｏＣｏｄｉｎｇ、ＳｔａｎｄａｒｄＩＳＯ／ＩＥＣ２３０９４－３：２０２１、２０２２

【0004】

ＬＣＥＶＣの設計は、ベースレイヤの圧縮されたビデオ表現に対する拡張の最高２つのサブレイヤを予見する。第１のレイヤ（サブレイヤ１）は、随意であり、ＬＣＥＶＣビットストリームにおける対応するシグナリングによって無効にされ得るが、第２のレイヤ（サブレイヤ２）は必須である。第１のレイヤとは異なり、第２のレイヤは、バッファされた値に基づいて残差の各ブロックを予測すること、または場合によっては時間予測なしにブロックを符号化することを試みる、時間予測段を含む。所与のブロックについて、時間予測を使用すべきか否かという判断は、異なるビデオフレームについて異なり得る。したがって、ＬＣＥＶＣが２つのサブレイヤとともに動作されるとき、拡張データのかなりの部分が、時間予測なしにサブレイヤ１において符号化されることになる。経験により、２レイヤＬＣＥＶＣのコーディング効率は、ビデオ監視用途において獲得されるデータの特性である、局所的に強い時間相関を有するビデオデータについて、比較的不十分であることが確認されたと思われる。概してビデオデータが強い時間相関を有するような、または各フレームの領域が考慮されるときに強い時間相関が観測され得るような事例において、データ圧縮を改善することが望ましいであろう。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】ＷＯ２０２０１８８２７３Ａ１

【非特許文献】

【0006】

【非特許文献1】Ｓ．Ｂａｔｔｉｓｔａら、「ＯｖｅｒｖｉｅｗｏｆｔｈｅＬｏｗＣｏｍｐｌｅｘｉｔｙＥｎｈａｎｃｅｍｅｎｔＶｉｄｅｏＣｏｄｉｎｇ（ＬＣＥＶＣ）Ｓｔａｎｄａｒｄ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．３２、ｎｏ．１１、７９８３～７９９５ページ（ＤＯＩ：１０．１１０９／ＴＣＳＶＴ．２０２２．３１８２７９３）、２０２２

【非特許文献2】「ＷｈｉｔｅｐａｐｅｒｏｎＬｏｗＣｏｍｐｌｅｘｉｔｙＥｎｈａｎｃｅｍｅｎｔＶｉｄｅｏＣｏｄｉｎｇ（ＬＣＥＶＣ）」、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＡＧ３Ｎ００５８、２０２２年１月

【非特許文献3】ＩＳＯ／ＩＥＣ２３０９４－２－ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ－ＧｅｎｅｒａｌＶｉｄｅｏＣｏｄｉｎｇ－Ｐａｒｔ２：ＬｏｗＣｏｍｐｌｅｘｉｔｙＥｎｈａｎｃｅｍｅｎｔＶｉｄｅｏＣｏｄｉｎｇ、ＳｔａｎｄａｒｄＩＳＯ／ＩＥＣ２３０９４－２：２０２１、２０２１年１１月

【非特許文献4】ＩＳＯ／ＩＥＣ２３０９４－３－ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ－ＧｅｎｅｒａｌＶｉｄｅｏＣｏｄｉｎｇ－Ｐａｒｔ３：ＣｏｎｆｏｒｍａｎｃｅａｎｄＲｅｆｅｒｅｎｃｅＳｏｆｔｗａｒｅｆｏｒＬｏｗＣｏｍｐｌｅｘｉｔｙＥｎｈａｎｃｅｍｅｎｔＶｉｄｅｏＣｏｄｉｎｇ、ＳｔａｎｄａｒｄＩＳＯ／ＩＥＣ２３０９４－３：２０２１、２０２２

【発明の概要】

【0007】

本開示の１つの目的は、ビデオデータが強い時間相関を有する事例を識別する能力を用いた拡張ビデオコーディング技法を提案すること、およびコーディング効率、データ圧縮効率、または［１］において説明される品質メトリックのいずれかなど、様々な性能の態様を改善するために時間相関を利用することである。あるビデオ品質レベルに達するために、より良いコーディング効率、より低いビットレートが必要とされる。別の目的は、入力ビデオの各フレームの領域に限られた時間相関（局所的時間相関）を利用することができる拡張ビデオコーディング技法を提案することである。さらなる目的は、強い局所的時間相関をもつビデオデータに関して、２レイヤＬＣＥＶＣの性能を改善することである。さらなる目的は、特にビデオ監視用途のためにＬＣＥＶＣを適応させることである。またさらなる目的は、既存のＬＣＥＶＣ設計に最小限に干渉するそのような適応を提案することである。

【0008】

これらの目的のうちの少なくともいくつかが、独立請求項によって定義されるように本発明によって達成される。従属請求項は、有利な実施形態に関する。

【0009】

本開示の第１の態様によれば、ビデオフレームのシーケンスを含む入力ビデオをハイブリッドビデオストリームとして符号化する方法が提供される。本方法は、入力ビデオを元の空間解像度から、低減された空間解像度および中間空間解像度にダウンサンプリングすることと、ベース符号化ストリームを取得するために、低減された空間解像度における入力ビデオをベースエンコーダに提供することと、第１の拡張ストリームを、入力ビデオと中間空間解像度における再構成されたビデオとの間の差に基づいて、第１の残差のセットを生成すること（たとえば、再構成されたビデオは、ベース符号化ストリームを復号することと、出力をアップサンプリングすることとによって取得されていることがある）と、第１の残差のセットを量子化することと、量子化された第１の残差のセットから第１の拡張ストリームを形成することとによって、提供することと、第２の拡張ストリームを、入力ビデオと元の空間解像度における再構成されたビデオとの間の差に基づいて、第２の残差のセットを生成すること（たとえば、中間空間解像度における再構成されたビデオから開始して、元の空間解像度における再構成されたビデオは、第１の残差の再構成を加算することと、出力をアップサンプリングすることとによって取得されていることがある）と、第２の残差のセットを量子化することと、量子化された第２の残差のセットから第２の拡張ストリームを形成することとによって、提供することと、ベース符号化ストリーム、第１の拡張ストリーム、および第２の拡張ストリームから、ハイブリッドビデオストリームを形成することとを含む。第２の拡張ストリームは、時間予測を使用して少なくとも部分的に符号化され（すなわち、少なくともいくつかのブロック、いくつかのフレームまたはいくつかの時間セグメントが、時間予測を使用して符号化され）、さらに、時間予測が使用されるかどうかを示す時間シグナリングを含む。第１の態様によれば、本方法は、ビデオフレームにおける少なくとも１つの非動き領域を検出することと、第１の残差のセットが非動き領域全体にわたって消失する（ｖａｎｉｓｈ）ことを引き起こすこととをさらに含む。好ましくは、第２の残差のセットは、非動き領域において消失することを引き起こされない。

【0010】

本開示の第１の態様に関連する利点は、第１の拡張ストリームが、実質的に、非動き領域に関するデータがないことになることである。より正確には、本発明者は、強い局所的時間相関をもつビデオデータに適用されたときの２レイヤＬＣＥＶＣの不十分なコーディング効率が、大部分は、第１の拡張レイヤによるものであることを了解した。第１の拡張ストリームは、時間予測なしに符号化され、したがって、強い時間相関をもつ入力ビデオのための最適なコーディング媒体（ｃｏｄｉｎｇｖｅｈｉｃｌｅ）である可能性が低い。代わりに、非動き領域の拡張コーディングの実質的にすべてが、時間予測が利用可能である第２の拡張ストリーム（ＬＣＥＶＣ規格におけるサブレイヤ２）によって行われることになる。本開示の第１の態様に関するさらなる利点は、復号側で必要とされる修正がないことである。デコーダは、本明細書で開示される教示を使用してハイブリッドビデオストリームが準備されたことを知ることなしに、ハイブリッドビデオストリームを適切に復号することができる。

【0011】

本開示の専門用語では、第１の残差のセットは、ここで、それらの値が０であるかまたは０にほぼ等しい場合、非動き領域全体にわたって「消失する」と言われる。厳密な０からの許容できる偏差が、ベースエンコーダに関係するコーディングアーテファクトと、アップサンプリング／ダウンサンプリングアーテファクトと、信号雑音と、通常、本方法を実行するエンティティの影響外にある同様の寄与とに対応し得る。そのような消失を達成するためにとられ得るいくつかの異なる措置が、以下で提示される。しかしながら、本方法の実装形態は、通常、２×２または４×４ピクセルブロック構造など、有限グラニュラリティを有することになり、これは、残差のブロックが、概して、完全に非動き領域にあるのではない限り、消失することを引き起こされ得ないことを意味することを理解されたい。したがって、本開示の範囲内で、非動き領域とほんの部分的に重複する残差のブロックが、完全に消失することは必要でない。第１の残差が変換係数である（たとえば、入力ビデオと再構成されたビデオとの間のピクセルごとの差のブロックに変換カーネルを適用することによって、残差のブロックが生成される）実装形態に関して、係数ブロックは、概して、基礎をなすピクセルブロックが完全に非動き領域中にあるのではない限り、本明細書で開示される措置のアクションによって消失することができないことがさらに諒解される。これらの例の各々では、第１の残差のセットの不完全な消失でさえ、非動き領域の拡張コーディングの実質的にすべてが第２の拡張ストリームによって行われることになるという、目的の効果を達成することになる。

【0012】

実施形態の第１のグループでは、第１の残差のセットは、量子化された第１の残差のセットに適用されたマスキングの結果として、非動き領域全体にわたって消失する。マスキングは、非動き領域に関係するそれらの量子化された第１の残差を０値またはニュートラル（ｎｅｕｔｒａｌ）値と置き換えることを含み得る。

【0013】

実施形態の第２のグループでは、第１の残差のセットは、中間空間解像度における入力ビデオを、（入力ビデオをダウンサンプリングするステップから利用可能である）低減された空間解像度における入力ビデオからアップサンプリングされた置換ビデオと置き換えることの結果として、非動き領域全体にわたって消失する。この置き換えは、非動き領域に制限され、入力ビデオは、他の場所において実質的にそのままである。１回ダウンサンプリングされた入力ビデオではなく、ダウンサンプリング－アップサンプリングされたビデオデータとの局所置き換えを経た入力ビデオが、第１の残差のセットを生成するために、すなわち、中間空間解像度における再構成されたビデオに対する差を計算するために使用されるものとする。ダウンサンプリング－アップサンプリング動作のため、入力ビデオは、通常、第１の残差のセットが消失するように、非動き領域における再構成されたビデオとの著しくより良好な一致を有するべきであり、第１の残差は、ベースエンコーダにおけるデータ圧縮を補うための品質拡張構成要素を含んでいることがあるが、第１の残差は、通常、解像度拡張がないはずである。代替の言葉で説明すると、ダウンサンプリング－アップサンプリングされたビデオデータとの置き換えは、（空間解像度が、名目上、中間空間解像度に等しく保たれながら）入力ビデオの非動き領域における情報コンテンツを減少させ、それにより、それは、もはや、再構成されたビデオに対する拡張を引き起こすことができない。代わりに、非動き領域における再構成されたビデオの拡張は、実質的に、第２のレイヤに先送りされる。

【0014】

実施形態の第３のグループでは、第１の残差のセットは、入力ビデオと中間空間解像度における再構成されたビデオとの間の差にマスキングを適用すること、または第１の残差のセットを量子化することより前に第１の残差のセットにマスキングを適用することの結果として、非動き領域全体にわたって消失する。特に、マスキングは、変換係数であるそのような第１の残差に適用され得る。この場合も、マスキングは、非動き領域に関係するそれらの第１の残差を０値またはニュートラル値と置き換えることを適用し得る。

【0015】

実施形態の第４のグループでは、第１の残差のセットは、第１の残差のセットを生成することより前に、入力ビデオから、入力ビデオと中間空間解像度における再構成されたビデオとの間の予測された差を減算することの結果として、非動き領域全体にわたって消失する。この減算は、非動き領域に制限され、入力ビデオは、他の場所において実質的にそのままである。１回ダウンサンプリングされた入力ビデオではなく、予測された差での局所減算を経た入力ビデオが、第１の残差のセットを生成するために、すなわち、中間空間解像度における再構成されたビデオに対する差を計算するために使用されるものとする。

【0016】

本開示の第２の態様では、第１の態様の方法を行うためのデバイスおよびコンピュータプログラムが提供される。コンピュータプログラムは、データキャリア上に記憶または分散され得る。本明細書で使用される「データキャリア」は、変調された電磁波または光波などの一時的データキャリア、あるいは非一時的データキャリアであり得る。非一時的データキャリアは、磁気、光またはソリッドステートタイプの永続的および非永続的記憶媒体など、揮発性および不揮発性メモリを含む。依然として「データキャリア」の範囲内で、そのようなメモリは、固定式に取り付けられるかまたはポータブルであり得る。

【0017】

概して、特許請求の範囲において使用されるすべての用語は、本明細書で別段明示的に定義されない限り、本技術分野におけるその通例の意味に従って解釈されるべきである。「１つの（ａ／ａｎ）／その（ｔｈｅ）要素、装置、構成要素、手段、ステップなど」へのすべての言及は、別段明示的に述べられていない限り、その要素、装置、構成要素、手段、ステップなどの少なくとも１つの事例を指すようにオープンに解釈されるべきである。本明細書で説明されるいずれの方法のステップも、明示的に述べられていない限り、説明される厳密な順序で実施される必要はない。

【0018】

次に、例として、添付の図面を参照しながら、態様および実施形態が説明される。

【図面の簡単な説明】

【0019】

【図1A】機能ブロックに関して、ＬＣＥＶＣエンコーダのアーキテクチャを示す図である。

【図1B】ＬＣＥＶＣエンコーダの時間予測ブロックの内部機能構造の例の図である。

【図1C】ＬＣＥＶＣエンコーダの時間予測ブロックの内部機能構造の例の図である。

【図2】ＬＣＥＶＣデコーダのアーキテクチャを示す図である。

【図3】本明細書の実施形態の第１のグループに従って適応されたＬＣＥＶＣエンコーダを示す図である。

【図4】本明細書の実施形態の第２のグループに従って適応されたＬＣＥＶＣエンコーダを示す図である。

【図5A】本明細書の実施形態の第３のグループに従って適応されたＬＣＥＶＣエンコーダを示す図である。

【図5B】本明細書の実施形態の第４のグループに従って適応されたＬＣＥＶＣエンコーダを示す図である。

【図6】本明細書の実施形態による、入力ビデオをハイブリッドビデオストリームとして符号化する方法のフローチャートである。

【図7】都市環境におけるビデオ監視カメラによって獲得される例示的なビデオフレームの図である。

【図8】図６の方法を実施するために好適なコーデックデバイスを示す図である。

【図9】ローカルエリアネットワークおよび／またはワイドエリアネットワークによって接続された複数のコーデックデバイスを示す図である。

【発明を実施するための形態】

【0020】

次に、本発明のいくつかの実施形態が示されている添付の図面を参照しながら、本開示の態様が以下でより十分に説明される。しかしながら、これらの態様は、多くの異なる形態で具現化され得、限定的なものとして解釈されるべきではなく、むしろ、これらの実施形態は、本開示が徹底的かつ完全であり、本発明のすべての態様の範囲を当業者に十分に伝えるように、例として提供される。同様の番号は、説明全体にわたって同様の要素を指す。

【0021】

システムの全体像
当業者は、ＬＣＥＶＣ規格に関係する最初に引用された参考文献［１］、［２］および［３］から、本開示が改善および適応しようとする拡張コーディング技術の一般的なカテゴリーの背景理解を獲得することができる。

【0022】

図１Ａは、ブロック図の形態で、ビデオ入力シーケンス１７０を、ベースビットストリーム１８０と拡張ビットストリーム１９０とを含むハイブリッドビデオストリームに処理するように構成されたＬＣＥＶＣエンコーダ１００を示す。ハイブリッドビデオストリームは、入力シーケンス１７０の、受信側へのデジタル送信を容易にするために、またはそれの記憶のために使用され得る。ベースビットストリーム１８０は、ダウンスケーラ１３０、１４０からの出力である、入力シーケンス１７０の２回ダウンサンプリングされたバージョンの、任意のベースエンコーダ１５０によって提供されたコード化表現である。ＬＣＥＶＣにおいて指定されていないベースエンコーダ１５０は、アドバンストビデオコーディング（ＡＶＣ）、高効率ビデオコーディング（ＨＥＶＣ）、エッセンシャルビデオコーディング（ＥＶＣ）、多用途ビデオコーディング（ＶＶＣ）、ＡＯＭｅｄｉａビデオ１（ＡＶ１）などのために構成され得る。

【0023】

拡張ビットストリーム１９０は、一方では、Ｌ－１（サブレイヤ１）係数レイヤ１９１を含んでおり、他方では、Ｌ－２（サブレイヤ２）係数レイヤ１９２と、関連する時間レイヤ１９３とを含んでいる。さらに、拡張ビットストリーム１９０は、ヘッダ１９４を含んでいることがあり、そこから、ハイブリッドビットストリームの受信側が、正しい復号のために、ハイブリッドビットストリームが準備されたときに有効であったエンコーダ構成１７１に関する情報を取得し得る。エンコーダ構成１７１は、エンコーダ１００の構成要素のいずれかに影響を及ぼし得る。規格化されたＬＣＥＶＣエンコーダ１００では、サブレイヤ１は随意であり、サブレイヤ２は必須である。直列アップスケーラ１１０、１２０は、ベースビットストリーム１８０の再構成されたバージョンをアップサンプリングする。ベースビットストリーム１８０の再構成されたバージョンは、（図２中のベースデコーダ２５０を使用して）ベースエンコーダ１５０の出力を復号することによって取得され得る。代替的に、ベースエンコーダ１５０がフレーム間予測コーディングのために構成された場合、再構成されたバージョンの少なくとも一部が、ベースエンコーダ１５０の参照バッファからとられ得る。アップスケーラ１１０、１２０は、サブレイヤ１がアクティブであるかどうかにかかわらず、アクティブである。

【0024】

サブレイヤ１がアクティブであるとき、減算器１１１、変換ブロック１１２、量子化ブロック１１３、およびエントロピーコーディングブロック１１４が、Ｌ－１係数レイヤ１９１を提供するように動作する。減算器１１１は、（ダウンサンプリングの後の）中間空間解像度を有する入力ビデオと、（アップサンプリングの後の）中間空間解像度を有する再構成されたビデオとの間の差を計算する。
さらに、逆量子化１１５ブロック、逆変換ブロック１１６、Ｌ－１フィルタ（たとえば、デブロッキングフィルタ）１１７、および加算器１１８が、サブレイヤ２における処理を準備することを、すなわち、復号側における第１の拡張レイヤのアクションを模倣することによって、行うためにアクティブである。これらのブロック１１５、１１６、１１７、１１８の全アクションは、中間空間解像度における再構成されたビデオに、第１の残差の再構成を加算するためのものである。

【0025】

サブレイヤ２内では、減算器１２１、変換ブロック１２３、量子化ブロック１２４、およびエントロピーコーディングブロック１２５が、Ｌ－２係数レイヤ１９２を提供するように動作する。減算器１２１は、元の空間解像度における入力ビデオと、中間空間解像度における再構成されたビデオに第１の残差の再構成を加算することと、その和を元の空間解像度にアップサンプリングすることとによって取得される、元の空間解像度における再構成されたビデオとの間の差を計算する。量子化ブロック１２４は、量子化ブロック１１３と等しい量子化レベル、または異なる量子化レベルを適用し得る。

【0026】

さらにサブレイヤ２内では、データを変換ブロック１２３に出力し、時間シグナリングをエントロピーコーディングブロック１２６に出力する、時間予測ブロック１２２が提供される。エントロピーコーディングブロック１２６は、前記時間シグナリングを時間レイヤ１９３としてエントロピー符号化するために構成される。代替的に、エントロピーコーディングブロック１２５、１２６は、単一のブロック（図示せず）として実装され得る。単一のブロックは、２つの並列エントロピーコーディングプロセス、すなわち、量子化ブロック１２４の出力に対するものおよび時間シグナリングに対するもの、または量子化ブロック１２４の出力と時間シグナリングとの多重化されたストリームに対して動作する単一のエントロピーコーディングプロセスを実施し得る。サブレイヤ１内では、時間予測がないが、第１の拡張ストリームの各ビデオフレームが、第１の拡張ストリームの他のビデオフレームを参照せずに復号可能である。

【0027】

第１のダウンスケーラ１３０および第２のダウンスケーラ１４０のそれぞれのダウンサンプリングアクションが、独立して選定され得る。ＬＣＥＶＣの従来の実装形態では、第１のダウンスケーラ１３０のアクションは、第２のアップスケーラ１２０のアクションの逆であり、第２のダウンスケーラ１４０のアクションは、第１のアップスケーラ１１０のアクションの逆である。

【0028】

ＬＣＥＶＣ実装形態では、変換ブロック１１２、１２３は、それぞれの空間解像度における２×２ピクセルまたは４×４ピクセルのブロックに対して動作する。変換ブロック１１２、１２３によって適用されるのに好適な例示的な変換カーネルＤＴが、［１］における式８および図８によって与えられる。変換カーネルＤＴは、本開示では、ＬＣＥＶＣ変換カーネルと呼ばれることになる。時間予測ブロック１２２は、変換ブロックベース、すなわち、それぞれの空間解像度における２×２ピクセルまたは４×４ピクセルで、時間予測を使用すべきかどうかを判断するように構成される。さらに、３２×３２残差の全ブロック（タイル）が、時間予測なしに符号化されるようにシグナリングされ得、したがって、ビデオフレームの高速サブシーケンスについての総シグナリングオーバーヘッドへの時間シグナリング１９３の寄与が、わずかに低減され得る。

【0029】

ＬＣＥＶＣおよびそれらのいくつかのさらなる発展において、時間予測は、以下のレベルで働き得る。
ａ）入力ビデオと元の空間解像度を有するように処理された（たとえば、アップサンプリングされた）再構成されたビデオとの間の差、
ｂ）上記差に変換カーネルを適用することによって取得された係数、
ｃ）量子化された差、または
ｄ）量子化された係数。
たとえば、オプションａ）の下で、上記差が明示的に符号化されるべきであるかどうか、または上記差が時間予測によって符号化されるべきであるかどうかが、好適な時間および空間グラニュラリティで、たとえば、各ビデオフレームにおける各あらかじめ定義されたピクセル／係数ブロックについて、判断される。すなわち、上記差が明示的に符号化されるべきであるのか、別のビデオフレームにおける対応する差のコピーとして表される（または場合によっては、１つまたは複数の他のビデオフレームにおける対応する差の線形結合として表される）べきであるのかが、判断される。

【0030】

図１Ｂは、一例では、オプションｂ）を実装するのに好適であるＬＣＥＶＣエンコーダ１００の時間予測１２２ブロックの内部の働きを示す。さしあたって、ビデオフレームのシーケンスにおける（たとえば、特定の係数ブロックインデックス、またはピクセルの特定のグループに対応する）特定の係数ブロックに注意が向けられる。時間予測１２２ブロックは、特定の係数ブロックが明示的に符号化された直近のビデオフレームについての特定の係数ブロックの値を記憶するためのメモリ１２２．２を備える。直近のビデオフレームは、この意味で、入力ビデオのフレームシーケンスにおける、前のいくつかのフレームであり得、非動き領域が長時間残っている場合、かなりの数の連続フレームが時間的に予測され得ることに留意されたい。さらなる発展において、時間的に予測されることを可能にされる連続フレームの数は、あらかじめ構成されたしきい値によって限定され得る。またさらなる発展において、時間予測は、１つのフレームだけでなく、複数のフレームへの参照によっても行われ得る。

【0031】

特定の係数ブロックが新しいビデオフレームにおいて明示的に符号化されるものとするかどうかを判断するために、比較器１２２．１が、メモリ１２２．２のコンテンツとの比較を行う。新しいビデオフレームにおける特定の係数ブロックが、メモリ１２２．２のコンテンツとはしきい値超異なる場合、新しいビデオフレームにおける特定の係数ブロックを明示的に符号化することが判断される。これは、スイッチ１２２．３を閉じることによって達成され得、それにより、新しいビデオフレームにおける特定の係数ブロックは、メモリ１２２．２のコンテンツを置き換え、量子化ブロック１２４に供給される。新しいビデオフレームにおける特定の係数ブロックが、メモリ１２２．２のコンテンツとはしきい値未満異なる場合、新しいビデオフレームにおける特定の係数ブロックは、１つまたは複数の他のフレームへの参照によって、すなわち、時間予測によって符号化される。比較器１２２．１からの信号は、スイッチ１２２．３を制御するために使用され、また、時間予測判断の裏付け（ｄｏｃｕｍｅｎｔａｔｉｏｎ）として働く時間シグナリングとして出力される。時間シグナリングのシーケンスは、拡張ビットストリーム１９０中に含まれる前に、エントロピー符号化（ブロック１２６）にかけられ得る。新しいビデオフレームにおける特定の係数ブロックとメモリ１２２．２のコンテンツとの間の差は、あるｐ≧１についてのｌ^ｐノルムに関して比較され得る。

【0032】

図１Ｃは、オプションｄ）が実装される、別の例における時間予測ブロック１２２を指す。ここで、量子化ブロック１２４が、変換ブロック１２３のすぐ下流に配置される。結果として、時間予測ブロック１２２の主な出力が、エントロピーコーディングブロック１２５に供給される。

【0033】

オプションａ）を実装するために、図１Ｂに示されている時間予測１２２ブロックの修正されたバージョンが使用され得る。修正は、量子化ブロック１２４のわずかに上流のポイントに変換ブロック１２３を移動することにある。第２の残差が（変換係数であるのではなく）ピクセル値差に等しい実施形態では、変換ブロック１２３は、エンコーダ１００から完全に省略され得る。

【0034】

概念的に、時間予測ブロック１２２は、ビデオフレームの各特定のピクセル／係数ブロックについて、比較器１２２．１、メモリ１２２．２、およびスイッチ１２２．３の１つのコピーを有して、これらのピクセル／係数ブロックの各々について、時間予測に関する独立した意思決定（ｄｅｃｉｓｉｏｎ－ｍａｋｉｎｇ）を可能にする。図１Ｂおよび図１Ｃに示されている構成要素が、必ずしも、必要な動作を行うためにエンコーダ実装のハードウェア構造がどのように使用され得るかを反映するとは限らず、むしろ、ソフトウェア命令がどのように使用され得るかを反映することが想起される。

【0035】

図２は、ベースビットストリーム１８０と拡張ビットストリーム１９０とを含むハイブリッドビデオストリームを、ビデオ出力シーケンス２７０に処理するように構成されたＬＣＥＶＣデコーダ２００を示す。ＬＣＥＶＣデコーダ２００は、ベース復号段と、拡張サブレイヤ１および拡張サブレイヤ２における補正とを含む。ベースデコーダ２５０が、ベースビットストリーム１８０を復号することを担当する。エントロピー復号ブロック２１４、逆量子化ブロック２１３、逆変換ブロック２１２、Ｌ－１フィルタ２１７、および加算器２１１が、サブレイヤ１処理を実施するように動作する。エントロピー復号ブロック２２５、２２６、逆量子化ブロック２２４、逆変換ブロック２２３、時間予測（再構成）ブロック２２２、および加算器２２１が、サブレイヤ２に属する。これらのブロックは、図１Ａを参照しながら、および／または参考文献［１］において説明されるような、対応するツールまたは逆のツールで実装される。特に、逆変換ブロック２１２、２２３によって適用されるのに好適な例示的な逆変換カーネルＩＴが、［１］における式１０および図９によって与えられる。受信側の観点から、適用可能なデコーダ構成２７１の少なくとも一部が、拡張ビットストリーム１９０におけるヘッダ１９４から導出され得る。ダウンスケーラがデコーダ２００において必要とされないことは、注目に値する。

【0036】

拡張ビットストリーム１９０によって可能にされる改善のおかげで、出力シーケンス２７０は、ベースデコーダ２５０からのベース再構成がそのまま使用された場合よりも、入力ビデオシーケンス１７０（図１Ａ）により正確に一致し、および／またはより高い知覚品質のものであることが予想され得る。

【0037】

色入力ビデオでは、各ピクセルが、原色（たとえば、ＲＧＢ）または明度およびクロマ（たとえば、ＹＣｂＣｒ）に基づく空間を含む、色空間を参照する複数のチャネルを有する。このサブセクションにおいて説明されるＬＣＥＶＣを含む拡張コーディング方式は、グレースケール入力ビデオならびに色入力ビデオに適用され得る。色入力ビデオの場合、各チャネルが別々に拡張コーディングされ得るか、または３つのチャネルが共同様式で、一緒に拡張コーディングされ得る。３つの色チャネルを別々に符号化すべきなのか共同で符号化すべきなのかは、ベースエンコーダ１５０において使用される設計選択と同等であり得るか、または、それは反対であり得る。同様に、以下のサブセクションにおいて説明されることになるＬＣＥＶＣを含む既存の拡張コーディング方式に対する改善は、ベースライン拡張コーディング方式が色チャネルを別々に処理するのか共同で処理するのかにかかわらず、適用可能である。

【0038】

図１および図２では、機能ブロックは、必ずしも、それぞれ、ＬＣＥＶＣエンコーダ１００およびデコーダ２００を実装する１つまたは複数のデバイスのハードウェアまたはソフトウェア構造を反映するとは限らない。実装形態では、１つの機能ブロックが、複数の識別可能なハードウェア構成要素によって実装され得、複数の機能ブロックが、共通のハードウェア構成要素で実装され得る。同様に、ＬＣＥＶＣエンコーダ１００またはデコーダ２００を実装するためにソフトウェア命令（１つまたは複数のコンピュータプログラム）が使用される場合、ソフトウェアコードは、実装者が好適と考える様式で、機能、ルーチン、ライブラリなどに構造化され得る。

【0039】

図８は、ＬＣＥＶＣエンコーダ１００またはデコーダ２００を実装するのに、または図６を参照しながら説明されることになる符号化方法６００を実施するのに、好適であるコーデックデバイス８００を示す。図示のように、コーデックデバイス８００は、処理回路８１０と、メモリ８２０と、外部インターフェース８３０とを含む。処理回路８１０は、１つまたは複数の処理コアを含み得、それらは、コロケートされるか、またはいくつかのサイトにわたって空間的に分散される。処理回路８１０は、１つまたは複数のネットワーク化された（または「クラウド」）処理リソースを含み得る。メモリ８２０は、ソフトウェア命令とともにコンピュータプログラム８２１を記憶するのに好適であり得る。外部インターフェース８３０は、コーデックデバイス８００が、ハイブリッドビデオストリームの受信側によって保持された類似するデバイス（図示せず）と通信することを可能にする通信インターフェースであり得るか、または、外部インターフェース８３０は、ハイブリッドビデオストリームを記憶するのに好適な外部メモリ８９０における読取りおよび書込み動作を可能にし得る。コーデックデバイス８００は、デジタルビデオカメラ（図示せず）中に含まれるか、またはそれに関連し得る。デジタルビデオカメラは、ビデオサーベイランス（ｖｉｄｅｏｓｕｒｖｅｉｌｌａｎｃｅ）を含むビデオ監視用途のために適応され得る。

【0040】

図９は、ハイブリッドビデオストリームがコーデックデバイス８００のグループの間で交換されることを可能にする展開を示す。符号化方法６００を実施するデバイスが、ローカルエリアネットワーク（図９の下半分における接続線）上で、またはワイドエリアネットワーク９９０上で、受信側デバイスに接続され得ることに留意されたい。ビデオ監視用途では、リモートオペレータ端末が、コーデックデバイス８００によって準備されたハイブリッドビデオストリームの受信側であり得る。ハイブリッドビデオストリームは、それ自体知られている暗号化および署名技術によって、不正な改ざんおよび／または盗聴から保護され得る。これは、ビデオストリームがネットワーク上で転送されるべきであるとき、特に関連があり得る。

【0041】

実施形態の第１のグループ
図６は、第１、第２、第３、および第４のグループ内の実施形態による、入力ビデオをハイブリッドビデオストリームとして符号化する方法６００をフローチャート形式で示す。本サブセクションは、主に、実施形態の第１のグループに関係し、図３に関連して読まれ得る。

【0042】

符号化方法６００は、前のサブセクションにおいて概説されたＬＣＥＶＣコンテキストに限定されず、ＬＣＥＶＣ仕様に完全には準拠することなしに実装され得ることに留意されたい。たとえば、入力ビデオと中間空間解像度における再構成されたビデオとの間の（ピクセル値レベルでの）差に基づく第１の残差は、いくつかの実施形態では、この差に等しくなり得る。これは、図３中のサブレイヤ１変換ブロック１１２が不在であるかまたは非アクティブであることを意味する。他の実施形態では、第１の残差は、前記差に変換カーネルを適用することによって取得された変換係数である。ＬＣＥＶＣ仕様の完全な準拠は、特に、第１の残差が変換係数であることと、適用される変換カーネルが、［１］において説明されるものと同等であることとを必要とする。

【0043】

同様に、本開示の範囲から逸脱することなく、符号化方法６００は、単に２つとは異なる数の拡張レイヤを提供するように、一般化され得る。たとえば、符号化方法６００によって出力されたハイブリッドビデオストリームが、第３、第４などの拡張ストリームを含むことができる。追加の拡張ストリームの各々が、第１の拡張ストリームまたは第２の拡張ストリームのために使用されるものと類似する構成要素または動作によって生成され得、復号は、上記で説明された方針に沿って進み得る。

【0044】

方法６００の第１のステップ６１０において、少なくとも１つの非動き領域が、ビデオフレームにおいて検出される（図３中のブロック３０１）。そのような検出を示すために、図７は、構築環境におけるビデオ監視機器によってキャプチャされた、歩行者およびサイクリストを伴う街路シーンからの例示的なビデオフレーム７００を示す。ビデオフレーム７００の上側部分において、検出された不規則な形状の非動き領域７０１が、破線境界線によって、およびハッシングによって示される。日常の経験により、非動き領域７０１は、歩行者およびサイクリストの手の届かないところにあり、したがって、移動している物体によってあまりめったに訪問されない外観のエリアを示すので、正しく検出されたことが確認されたと思われる。

【0045】

非動き領域７０１は、オペレータによる構成データ入力に基づいて検出され得るか、または、非動き領域７０１は、自動的に検出され得る。この目的で展開される自動検出アルゴリズムが、少なくとも１６×１６ピクセルの空間グラニュラリティを有し得、そのようなピクセルブロックの値は、移動が不在である（ピクセル値がほぼ一定である）のか、存在する（ピクセル値が変動する）のかを決定するために、連続するビデオフレームにわたって比較される。自動検出アルゴリズムは、ピクセル値差異の計算を含み得る。代替的に、自動検出アルゴリズムは、個々のピクセルまで、より細かいグラニュラリティを使用し得る。あるサイズの変換カーネルを適用することによって第１の残差が生成される実施形態では、カーネルサイズに等しいグラニュラリティまたはより粗いグラニュラリティで自動検出を実施することが好ましい。さらに、自動検出アルゴリズムは、１つのビデオフレームの持続時間、または１０個のビデオフレームの持続時間、または数十個のビデオフレームの持続時間に対応する時間グラニュラリティを有し得る。より粗いグラニュラリティを使用することは、通常、検出アルゴリズムがより少ない処理リソースを消費することを意味し、ビデオ監視用途では、非動き期間が、数分、さらには数時間の持続時間を有し得、したがって、非動き領域の検出を、対応する、すなわち、数百個または数千個程度のビデオフレームの、グラニュラリティで、リフレッシュすることが十分であり得る。

【0046】

別の自動検出アルゴリズムは、画像統計、動き統計、画像コンテンツシグネチャなど、入力ビデオについての局所統計に基づいてサブレイヤ１符号化から除外されるのに好適な領域を認識するようにトレーニングされた機械学習モデルに依拠し得る。トレーニングされた機械学習モデルによって予測された画像領域が、本符号化方法６００では、非動き領域７０１として利用され得る。いくつかの実装形態では、ステップ６１０は、ビデオカメラに組み込まれた雑音フィルタまたは画像安定化フィルタなど、非動き領域７０１の検出とは異なる目的をもつアルゴリズムによって行われ得る。非動き領域の存在を示す情報は、これらのフィルタのいずれかにおける内部変数から、それらのフィルタの好適な出力信号から、またはフィルタへの入力フレームを対応する出力フレームと比較することによって、導出可能であり得る。さらにまた、ステップ６１０は、フレーム間予測コーディングに関係するアルゴリズム、すなわち、ブロックを予測的に符号化することが経済的であるか否かをブロックレベルで決定するアルゴリズムによって行われ得、そのアルゴリズムが、ブロックを予測的に符号化することが経済的であることになると評価した場合、そのブロックは、非動き領域として扱われ得る。

【0047】

非動き領域７０１の検出は、元の空間解像度における入力ビデオのビデオフレームに適用され得る。代替的に、非動き領域７０１の検出は、中間空間解像度における入力ビデオのビデオフレームに適用され得る。その場合、ステップ６１０の実行は、後続のステップ６２０よりも前に始まることができない。

【0048】

自動検出アルゴリズムの感度（たとえば、ピクセル値がビデオフレーム間でほぼ変化していないと見なされる、許容差）は、検出感度を変動させながら、代表的なテストビデオについて符号化方法６００の総ビットレートを最適化することによって設定され得る。いわゆるフォールスポジティブの適度の頻度は、それ自体問題ではなく、なぜなら、ステップ６１０において、領域が非移動領域として間違って分類された場合、その領域は、第１の残差が消失するのでサブレイヤ１補正から除外されることになるが、最終的に、サブレイヤ２において（場合によっては、より高いコーディングコストで）補正されることになるからである。具体的に、ビデオフレームの検出された非動き領域が、（たとえば、移動している物体または照明ゆらぎを表す）ピクセル値変動を含んでいる場合、時間予測ブロック１２２は、その領域に対して時間予測を使用しないことを判断することになり、その領域は、代わりに、明示的に符号化されることになり、必要な拡張がサブレイヤ２によって実現されることになる。

【0049】

方法６００の実行フローは、入力ビデオを元の空間解像度から、低減された空間解像度および中間空間解像度にダウンサンプリングするステップ６２０に進む。低減された空間解像度における入力ビデオは、たとえば、図１Ａ中にあるような一連のダウンスケーラ１３０、１４０を使用して、元の空間解像度における入力ビデオを２回ダウンサンプリングすることによって、または元の空間解像度における入力ビデオから直接、提供され得る。

【0050】

本開示の範囲内で、ダウンスケーラ１３０、１４０の各々は、入力ビデオの２：２ダウンサンプリング（すなわち、幅解像度が１／２にされ、高さ解像度が１／２にされる）、入力ビデオの２：１ダウンサンプリング（すなわち、ビデオフレームの幅方向における解像度が１／２にされ、ビデオフレームの高さ方向における解像度が維持される）、入力ビデオの１：２ダウンサンプリング（すなわち、幅解像度が維持され、高さ解像度が１／２にされる）、または１：１ダウンサンプリング（すなわち、幅解像度が維持され、高さ解像度が維持される）のために適応され得る。第１のダウンスケーラ１３０および第２のダウンスケーラ１４０のそれぞれのダウンサンプリングアクションが、独立して選定され得る。ＬＣＥＶＣの従来の実装形態では、第１のダウンスケーラ１３０のアクションは、第２のアップスケーラ１２０のアクションの逆であり、第２のダウンスケーラ１４０のアクションは、第１のアップスケーラ１１０のアクションの逆である。第２のダウンスケーラ１４０が、（自明なダウンスケーリング１：１について）パススルーブロックとして構成されたとき、（特許請求の範囲における「低減された空間解像度」に対応する）ベースエンコーダ１５０の空間解像度と、（特許請求の範囲における「中間空間解像度」に対応する）サブレイヤ１の空間解像度とが、等しくなることになる。この構成では、サブレイヤ１は、入力ビデオに関して、出力ビデオの品質および／または出力ビデオの忠実度を改善するのを助け得るが、サブレイヤ１は、空間解像度を変更しない。アップスケーラ１１０、１２０によって行われるアップサンプリングが、［１］のセクションＩＩＩにおいて説明される。

【0051】

次のステップ６３０において、ベース符号化ストリーム１８０を取得するために、低減された空間解像度における入力ビデオが、ベースエンコーダ１５０に提供される。ベースエンコーダ１５０が拡張レイヤから独立して動作することが強調される。むしろ、エンコーダ１００は、ベースエンコーダ１５０の設定および内部変数を検査または修正する必要なしに、正常に実装され得る。

【0052】

次のステップ６４０において、第１の拡張ストリームが提供される。これは、入力ビデオと中間空間解像度における再構成されたビデオとの間の差に基づいて、第１の残差のセットを生成するステップ６４１を含む。上記差は、単一ピクセルのレベルで動作する減算器１１１によって計算され得る。この例では、再構成されたビデオは、ベース符号化ストリームを復号することと、出力をアップサンプリングする（または自明にアップサンプリングする）こととによって取得される。第１の残差は、さらなる処理が適用されない、上記差であり得るか、または、第１の残差は、上記差に変換カーネルを適用することによって取得された変換係数であり得る。変換カーネルのサイズは、２×２または４×４ピクセルブロックのために適応され得、出力は、等しいサイズの係数ブロック（「第１の残差のセット」）であり得る。

【0053】

ステップ６４０は、第１の残差のセットを量子化するステップ６４２（図３中のブロック１１３）と、量子化された第１の残差のセットから第１の拡張ストリームを形成するステップ６４４とをさらに含む。随意に、ステップ６４４は、量子化された第１の残差のセットを、エントロピー符号化にかけることを含み得る。好適な量子化およびエントロピーコーディングアルゴリズムが、［１］のセクションＶＩおよびＶＩＩにおいて説明される。

【0054】

実施形態の第１のグループによれば、ステップ６４０は、量子化された第１の残差のセットにマスキングを適用するステップ６４３（図３中のブロック３０２）をさらに含む。マスキングは、非動き領域に関係するそれらの量子化された第１の残差を０値と（または、等価的に、画像コンテンツの不在を表すニュートラル値と）置き換えることを含み得る。概念的に、「マスク」は、検出された非動き領域に対応する。これは、第１の残差のセットが、非動き領域全体にわたって消失することを引き起こすことになるが、非動き領域外の第１の残差をそのままにする。置き換えは、第１の残差の１つのセットのグラニュラリティで、たとえば、変換が使用される場合、１つの変換ブロックで、または非動き領域の検出のためのステップ６１０において使用されたものと同じグラニュラリティで、実施され得る。

【0055】

次のステップ６５０において、第２の拡張ストリームが提供される。これは、入力ビデオと元の空間解像度における再構成されたビデオとの間の差に基づいて、第２の残差のセットを生成するステップ６５１を含む。ここで、元の空間解像度における再構成されたビデオは、中間空間解像度における再構成されたビデオから、すなわち、第１の残差の再構成を加算することと、出力をアップサンプリングする（または自明にアップサンプリングする）こととによって、取得される。第２の残差は、さらなる処理が適用されない、この差であり得るか、または、第２の残差は、上記差に変換カーネルを適用することによって取得された変換係数であり得る。第１の残差の場合のように、第２の残差は、第２の拡張ストリーム中に含まれる（ステップ６５４、これはエントロピー符号化、ブロック１２５を随意に含み得る）前に、量子化（ステップ６５２、ブロック１２４）にかけられる。ステップ６５２において使用されるべき量子化レベルが、入力ビデオの予想される雑音レベルに鑑みて構成され得、たとえば、量子化レベル（量子化ステップ）は、名目上０値の信号における雑音アーテファクトのかなりの部分が０に丸められるほど、十分に大きく設定され得る。ステップ６５２において使用される量子化レベルは、ステップ６４２において使用される量子化レベルとは独立して構成され得、この点について、拡張エンコーダ１００の２つのサブレイヤは、独立している。

【0056】

本明細書で開示されるすべての実施形態に共通して、第２の拡張ストリームは、時間予測を使用して少なくとも部分的に符号化される。時間予測符号化は、入力ビデオ１７０における、少なくともいくつかのブロック、いくつかのビデオフレーム、またはビデオフレームのいくつかのサブシーケンスがこのやり方で符号化されるという意味で、部分的である。第２の拡張ストリームは、時間シグナリング１９３を含み、時間シグナリング１９３は、第２の残差が時間予測によって符号化される、すなわち、第２の残差が１つまたは複数の他のビデオフレームを参照することによって表されるかどうか、または第２の残差が明示的に符号化されるかどうかを、好適な時間および空間グラニュラリティで（たとえば、各ビデオフレームにおける各あらかじめ定義されたピクセル／係数ブロックについて）示す。時間シグナリング１９３は、それが時間レイヤとして拡張ビットストリーム１９０中に含まれる前に、エントロピー符号化され得る。明示的に符号化するという、または時間予測を使用するという判断（図６中のブロック６５３）が、前記１つまたは複数の他のビデオフレームとの類似度、たとえば、時間予測の使用がもたらす誤差が許容できる大きさを有するかどうか、に基づき得る。時間予測は、以下のレベルで動作し得る。
ａ）入力ビデオと元の空間解像度における再構成されたビデオとの間の差、
ｂ）上記差に変換カーネルを適用することによって取得された係数、
ｃ）量子化された差、または
ｄ）量子化された係数。
オプションａ）は、いくつかのＬＣＥＶＣ実装形態のために選定された。［２］と、［１］におけるセクションＩＶとを参照されたい。オプションｂ）は、［３］において説明される。オプションｃ）およびｄ）は、図６中のフローチャートによってカバーされる。

【0057】

入力ビデオのシーケンスのためのステップ６５０が完了した後の、次のステップ６６０において、ハイブリッドビデオストリームの対応するセグメントが形成され得る。符号化方法６００の実行は、ここで終了するか、または非動き領域を検出するステップ６１０から再開するかのいずれかであり得る。ハイブリッドビデオストリームは、本明細書の教示に鑑みて修正されていない一般的なデコーダによって復号され得、これは、図２中の規格化されたＬＣＥＶＣデコーダ２００を含む。

【0058】

上記の説明は図３によって要約され、図３は、第１の残差のセットが、量子化された第１の残差のセットに適用されたマスキングの結果として、非動き領域全体にわたって消失する、実施形態の第１のグループに従って適応されたＬＣＥＶＣエンコーダ１００を示す。ここで、ブロック３０１は、非動き領域を検出するように動作可能なアルゴリズムを表し、ステップ６１０に対応する。ブロック３０２は、ステップ６４３におけるマスキング動作を表す。代替的に、検出アルゴリズム３０１は、第１のダウンスケーラ１３０と第２のダウンスケーラ１４０との間のポイントからその入力をとり得、それにより、検出は、マスキングと同じ空間解像度で実施される。

【0059】

実施形態のこの第１のグループは、可能な変形形態および代替形態を含む、比較的完全なおよび詳細なやり方で説明されたが、実施形態の後続のグループは、無意味な繰返しを回避するために、より簡潔に説明されることになることに留意されたい。実施形態の第１のグループの技術的特徴が、量子化された第１の残差のセットのマスキング６４２に関係するものを除いて、このコンテキストから解され、第１のグループ以外の実施形態において利用され得ることを諒解されたい。

【0060】

実施形態の第２のグループ
図４は、第１の残差のセットが、中間空間解像度における入力ビデオを、低減された空間解像度における入力ビデオからアップサンプリングされた置換ビデオと置き換えることの結果として、非動き領域全体にわたって消失する、実施形態の第２のグループに従って適応されたＬＣＥＶＣエンコーダ１００を示す。

【0061】

図６に示されている方法６００の第１のステップ６１０において、少なくとも１つの非動き領域が、ビデオフレームにおいて検出される（図４中のブロック４０１）。検出は、実施形態の第１のグループのコンテキストにおける、上記で説明されたいくつかのやり方のうちの１つで行われ得る。

【0062】

次いで、ステップ６２０において、入力ビデオが、元の空間解像度から、低減された空間解像度におよび中間空間解像度にダウンサンプリングされる。実施形態の第２のグループでは、第１の残差のセットを生成すること６４１より前に、中間空間解像度における入力ビデオが、ビデオフレームの非動き領域全体にわたって、低減された空間解像度における入力ビデオからアップサンプリングされた置換ビデオと置き換えられる。これは、非動き領域が、低減された空間解像度を有し（ただし、たとえば、減算器１１１による、処理を可能にするために中間空間解像度において表される）、ビデオフレームの残部が中間空間解像度を有する、デュアル解像度ビデオフレームを提供すること（サブステップ６２０．１）に相当することが考えられ得る。したがって、アップサンプリング動作が滑らかな補間を含まない単純な実装形態では、デュアル解像度ビデオフレームは、形式的に、全体にわたって中間空間解像度を有するが、非動き領域におけるピクセル値は、低減された空間解像度に対応するグラニュラリティで、たとえば、２×２ピクセルのブロックで変動する。

【0063】

図４は、入力ビデオの各フレームが、ダウンサンプリングより前に、一方では、少なくとも１つの非動き領域に、他方では、非動き領域の補集合に分割される（ブロック４０２）、実装形態を示す。分割は、ブロック４０１によって符号で表される、非動き領域検出アルゴリズムの出力によって導かれ得る。補集合は、中間空間解像度へのダウンサンプリング（ダウンサンプラ１３０）を経る。少なくとも１つの非動き領域は、低減された空間解像度へのダウンサンプリングを経て、その後に中間解像度へのアップサンプリングが続く（ブロック４０４）。アップサンプリング動作は、好ましくは、再構成されたビデオに適用されるアップサンプリング動作（ブロック１１０）と同等または等価である。少なくとも１つの非動き領域とそれらの補集合とは、次いで、中間解像度におけるビデオフレームに合成される（ブロック４０３）。ブロック４０４における動作の結果として、少なくとも１つの非動き領域における情報密度が、ビデオフレームの残部におけるものよりも低いことが予想され得る。

【0064】

代替実装形態では、ダウンサンプリング－アップサンプリングブロック４０４は、第２のダウンスケーラ１４０の出力をとり、その出力をアップサンプリングし、アップサンプリングされたデータをビデオフレームの少なくとも１つの非動き領域に置換する、ブロック（図示せず）によって置き換えられる。

【0065】

次のステップ６３０において、ベース符号化ストリーム１８０を取得するために、低減された空間解像度における入力ビデオが、ベースエンコーダ１５０に提供される。

【0066】

次のステップ６４０において、第１の拡張ストリームが提供され、すなわち、第１の残差のセットを生成すること（ステップ６４１）と、第１の残差のセットを量子化すること（ステップ６４２）と、量子化された第１の残差のセットから第１の拡張ストリームを形成すること（ステップ６４４）とによって、提供される。ステップ６４１において、デュアル解像度ビデオフレームが使用されるので、非動き領域についての第１の残差のセットが、一方では、低減された空間解像度における（とはいえ、名目上、中間空間解像度にアップサンプリングされる）入力ビデオと、他方では、中間空間解像度における再構成されたビデオとの間の差に基づいて生成されることになる。非動き領域外では、第１の残差のセットは、入力ビデオと中間空間解像度における再構成されたビデオとの間の差に基づいて生成される。このようにして、第１の残差のセットは、非動き領域全体にわたって０であるかまたはほぼ０であり（すなわち、消失し）、補正は、拡張エンコーダ１００の次のサブレイヤに先送りされる。

【0067】

次のステップ６５０において、第２の拡張ストリームが提供され、すなわち、入力ビデオと元の空間解像度における再構成されたビデオとの間の差に基づいて、第２の残差のセットを生成すること（ステップ６５１）と、前記第２の残差を量子化すること（ステップ６５２）と、前記第２の残差を第２の拡張ストリーム中に含めること（ステップ６５４）とによって、提供される。第２の拡張ストリームは、ステップ６５３において判断されるように、時間予測を使用して少なくとも部分的に符号化される。

【0068】

入力ビデオのシーケンスのためのステップ６５０が完了した後の、次のステップ６６０において、ハイブリッドビデオストリームの対応するセグメントが形成され得る。符号化方法６００の実行は、終了するか、または非動き領域を検出するステップ６１０から再開するかのいずれかであり得る。

【0069】

実施形態の第３のグループ
図５Ａは、第１の残差のセットが、入力ビデオと中間空間解像度における再構成されたビデオとの間の差にマスキングを適用することの結果として、非動き領域全体にわたって消失する、実施形態の第３のグループに従って適応されたＬＣＥＶＣエンコーダ１００を示す。いくつかの実施形態では、第１の残差のセットは、前記差をなすが、他の実施形態では、第１の残差のセットは、上記差から計算された変換係数である。第３のグループは、変換係数である第１の残差のセットにマスキングが適用される実施形態をさらに含み、図５Ａに示されている実施形態と同様に、マスキングは、第１の残差のセットを量子化することより前に、ブロック１１２の下流に適用される。

【0070】

図６に示されている方法６００の第１のステップ６１０において、少なくとも１つの非動き領域が、ビデオフレームにおいて検出される（図５Ａ中のブロック５０１）。検出は、実施形態の第１のグループのコンテキストにおける、上記で説明されたいくつかのやり方のうちの１つで行われ得る。

【0071】

次いで、ステップ６２０において、入力ビデオが、元の空間解像度から、低減された空間解像度および中間空間解像度にダウンサンプリングされる。

【0072】

【0073】

次のステップ６４０において、第１の拡張ストリームが提供され、すなわち、第１の残差のセットを生成すること（ステップ６４１）と、第１の残差のセットを量子化すること（ステップ６４２）と、量子化された第１の残差のセットから第１の拡張ストリームを形成すること（ステップ６４４）とによって、提供される。

【0074】

第３のグループ中のいくつかの実施形態によれば、ステップ６４１は、入力ビデオと中間空間解像度における再構成されたビデオとの間の差にマスキングを適用するサブステップ６４１．１（ブロック５０２）を含む。マスキングは、非動き領域に関係する上記差のそれらの値を０値と（または、等価的に、画像コンテンツの不在を表すニュートラル値と）置き換えることを含み得る。概念的に、「マスク」は、非動き領域に対応する。第１の残差が変換係数である、第３のグループ中の他の実施形態によれば、サブステップ６４１．１は、量子化（ステップ６４２、ブロック１１３）より前に、第１の残差のセットにそのようなマスキングを適用することを含む。ブロック１１２とブロック１１３との間にブロック５０２を置くことに対応し得るこの場合、マスキングは、非動き領域におけるピクセルから全体的に導出されたすべての変換ブロックに適用され得る。マスキングは、随意に、非動き領域におけるピクセルから全体的にまたは部分的に導出されたすべての変換ブロックに適用され得る。どちらにしても、（１つまたは複数の）非動き領域の補正は、拡張エンコーダ１００の第２のサブレイヤに先送りされることになる。

【0075】

【0076】

【0077】

実施形態の第４のグループ
図５は、第１の残差のセットが、第１の残差のセットを生成することより前に、入力ビデオから、入力ビデオと中間空間解像度における再構成されたビデオとの間の予測された差を減算することの結果として、非動き領域全体にわたって消失する、実施形態の第４のグループに従って適応されたＬＣＥＶＣエンコーダを示す。非動き領域外では、第１の残差のセットは、通常のやり方で、すなわち、入力ビデオと中間空間解像度における再構成されたビデオとの間の差に基づいて生成される。

【0078】

図６に示されている方法６００の第１のステップ６１０において、少なくとも１つの非動き領域が、ビデオフレームにおいて検出される（図５Ｂ中のブロック５０１）。検出は、実施形態の第１のグループのコンテキストにおける、上記で説明されたいくつかのやり方のうちの１つで行われ得る。

【0079】

【0080】

【0081】

【0082】

第４のグループ中の実施形態によれば、ステップ６３５において、入力ビデオと中間空間解像度における再構成されたビデオとの間の差が予測され、入力ビデオの各ビデオフレームの（１つまたは複数の）非動き領域から減算される。予測された差は、減算器１１１の出力の予測であると見なされ得る。減算は、第１の残差が生成される（ステップ６４１）前に行われる。図５Ｂは、この減算を達成する１つの可能な実装形態を示す。ここで、減算器５０５が、第１のダウンスケーラ１３０の出力（すなわち、中間空間解像度にダウンサンプリングされた入力ビデオ）から、第１のアップスケーラ１１０の出力（すなわち、中間空間解像度における再構成されたビデオ）を減算する。ブロック５０３は、（１つまたは複数の）非動き領域をビデオフレームの残部から分割し、ブロック５０６は、これから、減算器５０５の出力を減算し、そのときに、ブロック５０４は、（１つまたは複数の）非動き領域とその残部とを合成し、その出力を減算器１１１に供給する。その結果、減算器１１１の出力である差が、非動き領域において０であるかまたはほぼ０になる（すなわち、消失する）。
（（中間解像度における入力ビデオ）－（予測された差））－（中間解像度における再構成されたビデオ）
＝（（中間解像度における入力ビデオ）－（（中間解像度における入力ビデオ）－（中間解像度における再構成されたビデオ）））－（中間解像度における再構成されたビデオ）
＝０。
このようにして、非動き領域の補正は、拡張エンコーダ１００の第２のサブレイヤに先送りされることになる。ビデオフレームの残部は、通常どおり、すなわち、サブレイヤ１とサブレイヤ２の両方において処理されることになる。

【0083】

【0084】

【0085】

結語
本開示の態様が、主に、数個の実施形態を参照しながら上記で説明された。しかしながら、当業者によって直ちに諒解されるように、上記で開示された実施形態以外の実施形態が、添付の特許請求の範囲によって規定される本発明の範囲内で等しく可能である。

【図1A】