IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オランジュの特許一覧

特表2024-510095重み付け画像予測、及びこのような重み付け予測を使用する画像符号化及び復号化
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-06
(54)【発明の名称】重み付け画像予測、及びこのような重み付け予測を使用する画像符号化及び復号化
(51)【国際特許分類】
   H04N 19/52 20140101AFI20240228BHJP
【FI】
H04N19/52
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023550089
(86)(22)【出願日】2022-02-15
(85)【翻訳文提出日】2023-08-24
(86)【国際出願番号】 FR2022050272
(87)【国際公開番号】W WO2022175625
(87)【国際公開日】2022-08-25
(31)【優先権主張番号】2101632
(32)【優先日】2021-02-19
(33)【優先権主張国・地域又は機関】FR
(81)【指定国・地域】
(71)【出願人】
【識別番号】591034154
【氏名又は名称】オランジュ
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ピエリック・フィリップ
(72)【発明者】
【氏名】テオ・ラデュネ
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA04
5C159MA05
5C159MA19
5C159MA21
5C159MC11
5C159PP04
5C159PP13
5C159RC11
5C159TA30
5C159TB10
5C159UA02
5C159UA05
(57)【要約】
本発明は、少なくとも一組の現在のピクセル(B)がピクセル予測重み付け関数の支援により少なくとも一組の基準ピクセル(BR;BR,BR)に基づき予測される予測デバイスにより実施される少なくとも一組の現在ピクセル(B)を予測する方法に関し、本方法は、少なくとも一組の現在のピクセル(B)のピクセル予測重み付け関数が、少なくとも一組の基準ピクセル(BR;BR,BR)の解析(P)に基づき計算された少なくとも1つの重み付け値(P~P)に関連付けられることを特徴とする。
【特許請求の範囲】
【請求項1】
予測デバイスにより実施される、少なくとも1つの現在のピクセルセット(B)を予測する方法であって、前記少なくとも1つの現在のピクセルセット(B)は、ピクセル予測重み付け関数を使用することにより、既に復号化された基準画像に属する少なくとも1つの基準ピクセルセット(BR;BR,BR)に基づき予測される、方法において、前記少なくとも1つの現在のピクセルセット(B)のための前記ピクセル予測重み付け関数は、少なくとも1つの基準ピクセルセット(BR;BR,BR)の解析(P1)に基づき計算された(P2~P3)少なくとも1つの重み付け値を含むことを特徴とする、方法。
【請求項2】
少なくとも1つの基準ピクセルセット(BR;BR,BR)の前記解析は、前記少なくとも1つの基準ピクセルセットの動き推定又はフィルタリングを実施する、請求項1に記載の予測方法。
【請求項3】
前記動き推定は、オプティカルフロー動き推定である、請求項2に記載の予測方法。
【請求項4】
前記予測重み付け関数は、前記少なくとも1つの現在のピクセルセットと少なくとも1つの基準ピクセルセットとの合同解析から生じる少なくとも1つの修正パラメータ(U’)を使用することにより修正される、請求項1に記載の予測方法。
【請求項5】
少なくとも1つの現在のピクセルセットを予測するためのデバイスであって、既に復号化された基準画像に属する少なくとも1つの基準ピクセルセットに基づき前記少なくとも1つの現在のピクセルセットをピクセル予測重み付け関数を使用することにより予測するように構成されたプロセッサを含むデバイスにおいて、前記少なくとも1つの現在のピクセルセット(B)のための前記ピクセル予測重み付け関数は少なくとも1つの基準ピクセルセットの解析に基づき計算された少なくとも1つの重み付け値を含むことを特徴とする、デバイス。
【請求項6】
ニューラルネットワーク(PRED2)を使用することを特徴とする、請求項5に記載の予測デバイス。
【請求項7】
コンピュータ上で実行されると請求項1乃至4のいずれか一項に記載の予測方法を実施するためのプログラムコード命令を含む、コンピュータプログラム。
【請求項8】
請求項7に記載のコンピュータプログラムの命令を含む、コンピュータ可読情報媒体。
【請求項9】
符号化デバイス(COD1;COD2;COD3;COD3’)により実施される、少なくとも1つの現在のピクセルセットを復号化する方法であって、
- 前記少なくとも1つの現在のピクセルセットと前記少なくとも1つの現在のピクセルセットの予測から生じる予測ピクセルセットとの差を表す信号を計算すること(C2)、
- 前記信号を符号化すること(C3)、
を含む方法において、
前記予測ピクセルセットは、請求項1乃至4のいずれか一項に記載の予測方法を使用することにより取得される(C1)ことを特徴とする、方法。
【請求項10】
- 前記予測重み付け関数の少なくとも1つの修正パラメータを符号化すること(C’3)、
- 前記少なくとも1つの符号化された修正パラメータを画像デコーダへ送信すること(C’4)
を含む、請求項9に記載の符号化方法。
【請求項11】
少なくとも1つの現在のピクセルセットを復号化するためのデバイスであって、
- 前記少なくとも1つの現在のピクセルセットと前記少なくとも1つの現在のピクセルセットの予測から生じる予測ピクセルセットとの差を表す信号を計算すること、
- 前記信号を符号化すること、
を実施するように構成されるプロセッサを含むデバイスにおいて、
前記予測ピクセルセットは、請求項5又は請求項6に記載の予測デバイスを使用することにより取得されることを特徴とする、デバイス。
【請求項12】
復号化デバイスにより実施される、少なくとも1つの現在のピクセルセットを復号化する方法であって、
- 前記少なくとも1つの現在のピクセルセットと前記少なくとも1つの現在のピクセルセットの予測から生じる予測ピクセルセットとの差を表す信号のデータ表現をデータ信号内で判断すること(D1)、
- 前記判断されたデータ及び前記予測ピクセルセットから前記少なくとも1つの現在のピクセルセットを再構築すること(D4)、
を含む方法において、
前記復号化する方法は、前記予測ピクセルセットが請求項1乃至4のいずれか一項に記載の予測方法を使用することにより取得される(D3)ことを特徴とする、方法。
【請求項13】
- 少なくとも1つの符号化パラメータを、前記データ信号又は別のデータ信号内で判断すること(D’2)であって、前記パラメータは前記予測重み付け関数の修正パラメータである、判断すること(D’2)、
- 前記符号化された修正パラメータを復号化すること、
- 修正された予測重み付け関数を、前記少なくとも1つの基準ピクセルセット及び前記少なくとも1つの復号化された修正パラメータの解析に基づき計算すること(D’3,P2~P3)
をさらに含む、請求項12に記載の復号化方法。
【請求項14】
少なくとも1つの現在のピクセルセットを復号化するためのデバイスであって、
- 前記少なくとも1つの現在のピクセルセットと前記少なくとも1つの現在のピクセルセットの予測から生じる予測ピクセルセットとの差を表す信号のデータ表現を、データ信号内で判断すること、
- 前記判断されたデータ及び前記予測ピクセルセットから前記少なくとも1つの現在のピクセルセットを再構築すること
を実施するように構成されるプロセッサを含む、デバイスにおいて、
前記予測ピクセルセットは、請求項5又は請求項6に記載の予測デバイスを使用することにより取得されることを特徴とするデバイス。
【請求項15】
コンピュータ上で実行されると請求項9又は10に記載の符号化方法又は請求項12又は13に記載の復号化方法を実施するためのプログラムコード命令を含む、コンピュータプログラム。
【請求項16】
請求項15に記載のコンピュータプログラムの命令を含む、コンピュータ可読情報媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的には画像処理の分野に関し、具体的にはディジタル画像及び一連のディジタル画像の符号化及び復号化に関する。
【0002】
ディジタル画像の符号化/復号化は特に、以下のものを含む少なくとも1つの映像系列から画像へ適用される:
- 同一カメラからの及び時間的連続な画像(2D符号化/復号化)、
- 様々な視野において配向された様々なカメラからの画像(3D符号化/復号化)、
- 対応テクスチャ及び深さ成分(3D符号化/復号化)、
- 等々。
【0003】
本発明は、2D又は3D画像の符号化/復号化に同様に適用される。
【0004】
本発明は、限定しないが特に、現在のAVC、HEVC及びVVC映像エンコーダ並びにそれらの拡張版(MVC、3D-AVC、MV-HEVC、3D-HEVCなど)において実施される映像符号化及び対応復号化へ適用され得る。
【背景技術】
【0005】
現在の映像エンコーダ(MPEG、AVC、HEVC、VVC、AV1など)は、映像系列のブロック的表現を使用する。画像は、再帰的に再び分割されることができるブロックへ分割される。次に、各ブロックは画像内又は画像間予測により符号化される。従って、いくつかの画像は、当業者によく知られている動き補償を使用することにより、空間的予測(イントラ予測、IBC(「ブロック内複製:Intra Block Copy」)予測)により符号化され、他の画像もまた、1つ又は複数の符号化-復号化された基準画像に対する時間的予測(インター予測)により符号化される。
【0006】
現在符号化されているブロックに関連付けられた予測ブロックBPは、現在符号化されているブロックが属する画像(又は既に復号化された画像(従来は基準画像と呼ばれる))の少なくとも1つの基準ブロックBRに直接関係付けられる。基準ブロックBRと現在符号化されているブロックとを整合するために、基準ブロックBRはそのピクセルの空間位置(x,y)毎に変位される。次に、動き補償された基準ブロックBCが取得される。次に、予測ブロックBPと動き補償された基準ブロックBCとの間の関係が次のように表現される:
BP(x,y)=(1-w)*BC(x,y)
ここでwは、以下に説明される予測重み付けパラメータ(たいていは0であるが調整可能であり得る)である。
【0007】
例えば、現在符号化されているブロックが1つ又は2つの既に復号化された基準画像に属する2つの基準ブロックBR、BRに対し予測される場合、2つの基準ブロックBR、BRは、動き補償され、2つの動き補償された基準ブロックBC、BCを生成し、これらは次に線形重み付けにより組み合わせられる。予測ブロックBPの各ピクセルは、2つの動き補償された基準ブロックBC、BCのピクセルの重み付けの結果である。より正確には、例えば、予測が行毎に及び左から右へ実施されると:
- 予測ブロックBPの左上における第1のピクセルは、動き補償された基準ブロックBCの左上における第1のピクセル及び動き補償された基準ブロックBCの左上における第1のピクセルの重み付けの結果である、
- 予測ブロックBPの第1行上の第1のピクセルに隣接する第2のピクセルは、動き補償された基準ブロックBCの第1行上の第1のピクセルに隣接する第2のピクセル及び動き補償された基準ブロックBCの第1行上の第1のピクセルに隣接する第2のピクセルの重み付けの結果である、
- 等々。
- 予測ブロックBPの右下における最後のピクセルは、動き補償された基準ブロックBCの右下における最後のピクセル及び動き補償された基準ブロックBCの右下における最後のピクセルの重み付けの結果である。
【0008】
最も一般的な重み付けはハーフサムである。この目的を達成するために、予測ブロックBPは以下の関係に従って計算される:
BP(x,y)=0.5*BC(x,y)+0.5*BC(x,y)
【0009】
より手の込んだ重み付けが可能である。
【0010】
HEVC標準規格では、線形重み付けが現在符号化されている画像へ一様に適用される。現在符号化されている「画像」の副画像又はスライス毎の重み付けパラメータwが、その中に固定され、デコーダへ信号伝達される。デフォルト設定では、現在符号化されているブロックの双方向予測の場合、平衡重み付け(0.5/0.5)が、PPS(「ピクチャパラメータセット:Picture Parameter Set」)情報内に明示的に指示されていないならば適用される。
【0011】
VVC標準規格では、予測は、BCW(「CUレベル重み付けによる双方向予測:bi-prediction with CU level weights」)ツールを使用することによりブロック毎に重み付けされる。予測ブロックBPは以下の関係に従って計算される:
BP(x,y)=(1-w)*BC(x,y)+w*BC(x,y)
ここで重み付けパラメータwは、5つの値(0.5,0.625,0.375,1.25,-0.25)を取り得る。
適用される重み付けパラメータwの最適値は、エンコーダにおいて判断され、各ブロックのデコーダへ信号伝達される。最適値は、使用される値w=0.5(すなわち、動き補償された基準ブロックBC、BCに対する等しい重み付け)かどうかを指示する文脈要素により符号化される。そうでなければ、重み付けは4つの残りの値のうちの1つを指示するために2ビット上で信号伝達される。
【0012】
この原理はAV1技術において採用される。
【0013】
「使用される映像標準規格に関係なく、重み付けパラメータwは比較的少ない数の値に関連付けられており、これにより、適用される重み付け予測における精度の欠如に至る」ということに注意すべきである。さらに、上述の標準規格によるエンコーダは、選択された重み付けパラメータwの値を系統的に符号化してデコーダへ送信する必要があり、これにより信号伝達費用を増加する。
【発明の概要】
【発明が解決しようとする課題】
【0014】
本発明の目的の1つは、有益には、重み付け予測に関係する信号伝達情報の費用を低減して、この予測の精度を従来技術から改善することにより、上述の従来技術の欠点を正すことである。
【課題を解決するための手段】
【0015】
この目的を達成するために、本発明の1つの主題は、予測デバイスにより実施される、少なくとも1つの現在のピクセルセットを予測する方法に関係し、前記少なくとも1つの現在のピクセルセットは、ピクセル予測重み付け関数を使用することにより少なくとも1つの基準ピクセルセットに基づき予測され、方法は、前記少なくとも1つの現在のピクセルセットのためのピクセル予測重み付け関数は、少なくとも1つの基準ピクセルセットの解析に基づき計算された少なくとも1つの重み付け値に関連付けられる、ということを特徴とする。
【0016】
本発明によるこのような予測方法は、有利には、現在のピクセルセットの予測の重み付けを推定するために1つ又は複数の基準ピクセルセット(換言すれば、予測の時点で既に復号されている1又は複数組のピクセル)だけに依存することを可能にする。この又はこれらの基準ピクセルセットは現在のピクセルセットの予測の時点で利用可能であるので、予測の重み付けの推定は、予測の1つ又は複数の重み付け値を近似又は量子化することを要求する従来技術において実施されるものより空間的により正確であるので改善される。
【0017】
一特定実施形態によると、予測重み付け関数は、前記少なくとも1つの現在のピクセルセットの解析から生じる少なくとも1つの修正パラメータを使用することにより修正される。
【0018】
このような実施形態は有利には、現在のピクセルセットが1つ又は複数の基準ピクセルセット内に存在しなかった要素/予測可能な要素を含む場合に、計算された予測重み付け関数へ補正を適用することを可能にする。
【0019】
本発明はまた、少なくとも1つの現在のピクセルセットを予測するためのデバイスであって、ピクセル予測重み付け関数を使用することにより、少なくとも1つの基準ピクセルセットに基づき前記少なくとも1つの現在のピクセルセットを予測するように構成されるプロセッサを含むデバイスに関する。
【0020】
このような予測デバイスは、前記少なくとも1つの現在のピクセルセットのピクセル予測重み付け関数が少なくとも1つの基準ピクセルセットの解析に基づき計算された少なくとも1つの重み付け値に関連付けられるということを特徴とする。
【0021】
一特定実施形態では、予測デバイスはニューラルネットワークである。
【0022】
ニューラルネットワークの使用は有利には、重み付け予測の品質を最適化することを可能にする。
【0023】
このような予測デバイスは特に、上述の予測方法を実施することができる。
【0024】
本発明はまた、少なくとも1つの現在のピクセルセットを復号化する方法であって符号化デバイスにより実施される方法に関する。本方法は以下のことを含む:
- 前記少なくとも1つの現在のピクセルセットと前記少なくとも1つの現在のピクセルセットの予測から生じる予測ピクセルセットとの差を表す信号を計算すること、
- この信号を符号化すること。
【0025】
このような符号化方法は、予測ピクセルセットが本発明による上述の予測方法を使用することにより取得されるということを特徴とする。
【0026】
このような符号化方法は、予測重み付け関数の1つ又は複数の予測重み付け値の符号化を要求しないという点で有利である。これは、この、又はこれらの予測重み付け値が現在のピクセルセットのデコーダへエンコーダにより送信される必要がなく、これにより、予測の改善された精度に関係する画像のより良い品質に賛成してエンコーダとデコーダとの間で送信される情報を信号伝達する費用を低減することを可能にする、ということを意味する。さらに、予測重み付け関数に関連付けられたいかなる重み付け値もデコーダへ送信されることを目的として近似又は量子化される必要がなく、これにより、この重み付け値を一組のピクセルが予測されるように連続にすることを可能にする。
【0027】
一特定実施形態によると、符号化方法は以下のことを含む:
- 予測重み付け関数の少なくとも1つの修正パラメータを符号化すること、
- 前記少なくとも1つの修正パラメータを画像デコーダへ送信すること。
【0028】
本発明はまた、少なくとも1つの現在のピクセルセットを復号化するための符号化デバイス又はエンコーダであって、以下のことを実施するように構成されたプロセッサを含む、符号化デバイス又はエンコーダに関する:
- 前記少なくとも1つの現在のピクセルセットと前記少なくとも1つの現在のピクセルセットの予測から生じる予測ピクセルセットとの差を表す信号を計算すること、
- 前記信号を符号化すること。
【0029】
このような符号化デバイスは、予測ピクセルセットが本発明による上述の予測デバイスを使用することにより取得される、ということを特徴とする。
【0030】
このような符号化デバイスは、特に上述の符号化方法を実施することができる。
【0031】
本発明はまた、復号化デバイスにより実施される少なくとも1つの現在のピクセルセットを復号化する方法に関し、本方法は以下のことを含む:
- 前記少なくとも1つの現在のピクセルセットと前記少なくとも1つの現在のピクセルセットの予測から生じる予測ピクセルセットとの差を表す信号のデータ表現をデータ信号内で判断すること、
- 判断されたデータ及び予測ピクセルセットから前記少なくとも1つの現在のピクセルセットを再構築すること。
【0032】
このような復号化方法は、予測ピクセルセットが本発明による上述の予測方法を使用することにより取得されるということを特徴とする。
【0033】
このような復号化方法の利点は、予測重み付け関数は、エンコーダから受信されたデータ信号からデコーダが特定情報を読み出す必要なく1つ又は複数の利用可能基準ピクセルセットに基づきデコーダにより自律的に計算される、という事実にある。さらに、上に既に説明したように、予測重み付け関数の少なくとも1つの重み付け値は、従来技術におけるケースと同様に、データ信号内で符号化も送信もされないので、近似又は量子化される必要なく連続にされ得る。
【0034】
一特定実施形態では、このような復号化方法はさらに、以下のことを含む:
- 予測重み付け関数の少なくとも1つの修正パラメータをデータ信号又は別のデータ信号内で判断すること、
- 修正された予測重み付け関数を、前記少なくとも1つの基準ピクセルセット及び前記少なくとも1つの判断された修正パラメータの解析に基づき計算すること。
【0035】
本発明はまた、プロセッサを含む少なくとも1つの現在のピクセルセットを復号化するための復号化デバイス又はデコーダに関し、プロセッサは以下のことを実施するように構成される:
- 前記少なくとも1つの現在のピクセルセットと前記少なくとも1つの現在のピクセルセットの予測から生じる予測ピクセルセットとの差を表す信号のデータ表現をデータ信号内で判断すること、
- 判断されたデータ及び予測ピクセルセットから前記少なくとも1つの現在のピクセルセットを再構築すること。
【0036】
このような復号化デバイスは、予測ピクセルセットが本発明による上述の予測デバイスを使用することにより取得されるということを特徴とする。
【0037】
このような復号化デバイスは、特に上述の復号化方法を実施することができる。
【0038】
本発明はまた、映像データ処理デバイスにより実施される、少なくとも1つの基準ピクセルセットから少なくとも一組のピクセルを構築する方法に関する。
【0039】
このような構築方法は、ピクセル予測重み付け関数(本発明の上述の予測方法において使用される予測関数など)を使用することにより一組のピクセルが構築されることを特徴とする。
【0040】
従って、本発明の予測重み付け関数は、予測残差を生成する又は生成しない画像予測の文脈だけに制限されず、1つ又は複数の既に復号化された基準画像に基づく内挿又は画像合成の場合に有利に使用され得る。
【0041】
本発明はまた、本発明による予測方法を実施するための命令を含むコンピュータプログラム、及びまた、本発明による予測方法を取り込む符号化又は復号化方法、又は、前記プログラムがプロセッサにより実行される場合には、上に説明された特定実施形態の任意の1つによる上述の構築方法に関する。
【0042】
このような命令は、上述の符号化方法を実施するエンコーダの、上述の復号化方法を実施するデコーダの、上述の構築方法を実施する映像処理デバイスの、上述の予測方法を実施する予測デバイスの非一時的記憶媒体内に恒久的に格納され得る。
【0043】
このプログラムは、任意のプログラミング言語を使用し得、ソースコード、オブジェクトコード、又はソースコードとオブジェクトコードとの間の中間コードの形式(部分的コンパイル形式など)、又は任意の他の望ましい形式のものであり得る。
【0044】
本発明はまた、上述のコンピュータプログラムの命令を含むコンピュータ可読記録媒体又は情報媒体を標的とする。
【0045】
記録媒体は、プログラムを格納することができる任意のエンティティ又はデバイスであり得る。例えば、媒体は、ROM(例えばCD-ROM、DVD-ROM、合成DNA(デオキシリボ核酸)など、又は超小形電子回路ROM)などの格納手段、そうでなければ磁気記録手段(例えばUSBキー、ハードディスク)を含み得る。
【0046】
さらに、記録媒体は、電気ケーブル又は光ケーブルを介し、又は無線により、又は他の手段により運ばれ得る電気信号又は光信号などの送信可能媒体であり得る。本発明によるプログラムは特に、インターネットなどのネットワークからダウンロードされ得る。
【0047】
代替的に、記録媒体は、プログラムが取り込まれる集積回路であり得、集積回路は上述の予測方法、符号化方法、復号化方法又は構築方法を実行する又はその実行において使用されるように設計される。
【0048】
他の特徴及び利点は、図示例及び非限定的例並びに添付図面として与えられる本発明の特定実施形態を読むことから明白になる。
【図面の簡単な説明】
【0049】
図1】本発明による画像予測方法の主工程を示す。
図2A】本発明の第1の特定実施形態における図1の予測方法において使用されるタイプの予測を示す。
図2B】本発明の第2の特定実施形態における図1の予測方法において使用されるタイプの予測を示す。
図3A】第1の実施形態における図1の予測方法を実施する予測デバイスを示す。
図3B】第2の実施形態における図1の予測方法を実施する予測デバイスを示す。
図4図3Aの予測デバイスにより実施される予測方法のいくつかの工程をより詳細に示す。
図5A】2つの基準ピクセルセットに対する現在のピクセルセットの予測版の第1の例示的変位を示す。
図5B】2つの基準ピクセルセットに対する現在のピクセルセットの予測版の第2の例示的変位を示す。
図5C】2つの基準ピクセルセットに対する現在のピクセルセットの予測版の第3の例示的変位を示す。
図5D】本発明の一特定実施形態における図5Aの変位のタイプの場合に実施される動き補償を示す。
図5E】本発明の一特定実施形態における図5Dの動き補償の終わりに実施される重み付け予測を示す。
図5F】本発明の一特定実施形態における図5Eの重み付け予測の終わりに実施される合計重み付けを示す。
図5G】本発明の一特定実施形態における図5Fの合計重み付けの終わりに実施される補償重み付けを示す。
図5H】本発明の一特定実施形態における図5Gに示す補償された重み付けからの現在のピクセルセットの予測版の取得を示す。
図6】本発明の一特定実施形態における図1の予測方法を実施する画像符号化方法の主工程を示す。
図7A】第1の実施形態における図6の符号化方法を実施するエンコーダを示す。
図7B】第2の実施形態における図6の符号化方法を実施するエンコーダを示す。
図8】本発明の一特定実施形態における図1の予測方法を実施する画像復号化方法の主工程を示す。
図9A】第1の実施形態における図8の復号化方法を実施するデコーダを示す。
図9B】第2の実施形態における図8の復号化方法を実施するデコーダを示す。
図10】本発明の一特定実施形態における図1の予測方法の修正を実施する画像符号化方法の工程を示す。
図11】本発明の一特定実施形態における図10の符号化方法を実施するエンコーダを示す。
図12】本発明の一特定実施形態における図1の予測方法の修正を実施する画像復号化方法の工程を示す。
図13】本発明の一特定実施形態における図12の復号化方法を実施するデコーダを示す。
図14】本発明の別の特定実施形態における図10の符号化方法を実施するエンコーダを示す。
図15】本発明の別の特定実施形態における図12の復号化方法を実施するデコーダを示す。
【発明を実施するための形態】
【0050】
画像予測方法の例示的実装形態
本発明の一般的原理
画像重み付け予測方法
例えばAVC、HEVC、VVC標準規格及びそれらの拡張版(MVC、3D-AVC、MV-HEVC、3D-HEVCなど)に準拠する任意のタイプの映像エンコーダ又はデコーダ、又は例えば畳み込みニューラルネットワーク(又はCNN:convolutional neural network)などにおいて実施されることができる2D又は3D画像予測方法の説明が以下に与えられる。
【0051】
図1を参照すると、本発明による予測方法は少なくとも1つの基準ピクセルセットBR(すなわち、既に符号化及び復号されており従って予測の時点で利用可能である基準ピクセルセット)を使用する。本発明による予測方法の1つの特徴は、現在のピクセルセットBが予測の時点で利用可能でないので予測のために考慮されないということである。
【0052】
本発明の意味の範囲内で、現在のピクセルセットBは以下のことを意味すると理解される:
- 元の現在画像;
- 元の現在画像の一部又は一領域、及び
- 標準化AVC、HEVC又はVVCエンコーダにおいて行われるものに準じたこの画像の分割から生じる現在画像のブロック。
【0053】
本発明によると、図2Aに示すように、基準ピクセルセットBRは現在のピクセルセットBを含む現在画像Iに属し得る。この場合、現在のピクセルセットBは、イントラ予測(例えば、イントラ又はIBC(「ブロック内複製」))を使用することにより基準ピクセルセットBRに対して予測される。
【0054】
当然、現在のピクセルセットBは、基準ピクセルセットBRに対して、及び現在画像Iに属する1つ又は複数の他の基準ピクセルセットに対して予測され得る。
【0055】
本発明によると、図2Bに示すように、基準ピクセルセットBRは、時間的に現在画像Iに先行する又はそれに続く既に符号化及び復号化された基準画像に属し得る。この場合、現在のピクセルセットBは、インター予測を使用することにより基準ピクセルセットBRに対して予測される。示された例では、現在のピクセルセットBは、タイプP単方向インター予測を使用することにより基準ピクセルセットBRに対して予測され得、基準ピクセルセットBRは例えば直前画像IRi-1に属するが、当然ながら別の基準画像(例えば画像IRi-2又は符号化順序において画像IRi-2に先行する他の基準画像など)に属することができる。当然、1又は複数の他の基準ピクセルセットは、現在のピクセルセットBを予測するために基準ピクセルセットBRと共に使用され得る。
【0056】
示された例では、現在のピクセルセットBはまた、現在画像Iに先行する基準画像内に配置された基準ピクセルセットBRに対して及び現在画像Iに続く基準画像内に配置された少なくとも1つの他の基準ピクセルセットBRに対して、タイプB双方向インター予測を使用することにより予測され得る。示された例では、基準ピクセルセットBRは基準画像IRi-2内に配置され、基準ピクセルセットBRは基準画像IRi+1内に配置される。依然としてこのようなタイプBインター予測の文脈内で、図2Bに示すように、現在のピクセルセットBは、現在画像Iに先行する基準画像内にそれぞれ配置された2つの基準ピクセルセットBR、BRに対して予測され得る。示された例では、基準ピクセルセットBRは基準画像IRi-2内に配置され、基準ピクセルセットBRは基準画像IRi-1内に配置される。
【0057】
当然、1つ又は複数の他の基準ピクセルセットが現在の予測ピクセルセットBPを計算するために基準ピクセルセットBR、BRと共に使用され得る。
【0058】
以下に提示される実施形態では、1つ又は複数の基準ピクセルセットBR,BRなどは予測される現在のピクセルセットBと同じ幾何学形状を有するということが仮定される。当然、予測の文脈に依存して、予測される現在のピクセルセットBのエリア以上のエリアをカバーするようにこの基準ピクセルセットのサイズを過大化することも可能である。
【0059】
図1を再び参照すると、本発明によるこのような予測方法は以下のことを含む:
【0060】
P1では、前記少なくとも1つの基準ピクセルセットBRが解析される。このような解析は、予め変位された前記少なくとも1つの基準ピクセルセットBRと、予測の時点で利用可能でない現在のピクセルセットBの予測版BPとの間のピクセルシフトの推定を含む動き推定を実施する。この動き推定は、従来の動き補償を実施し、その終わりに、動き補償された一組のピクセルBRCが取得される。この解析中、BRCの方向へのBRの変位を記述する変位ベクトルVなどの変位情報が取得される。
【0061】
P2では、動き補償された一組のピクセルBRCの各ピクセルの重み付け値wが、P1において行われた解析の結果に依存して計算される。
【0062】
P3では、動き補償された基準ピクセルセットBRCの考慮下でピクセルの各座標(x,y)の現在のピクセルセットBの予測版BPが次の関数に従って計算される:
BP(x,y)=w(x,y)*BRC(x,y)
【0063】
2つの基準ピクセルセットBR,BRが解析P1中に考慮され、これにより2つの動き補償された組のピクセルBRC、BRCと対応変位ベクトルV(V)を生成すると、動き補償された一組のピクセルBRC及び動き補償された一組のピクセルBRCの2つの重み付け値w、wがそれぞれP2において計算される。次に、現在の予測ピクセルセットBPが、動き補償された組のピクセルの考慮下でピクセルの座標(x,y)毎に以下関数に従ってP3において計算される:
BP(x,y)=w(x,y)*BRC(x,y)+w(x,y)*BRC(x,y)
【0064】
次に、たった今上に説明された予測方法は予測される現在のピクセルセット(予測の時点では利用不能であると考えられる)毎に実施され得る。
【0065】
重み付け予測デバイスの例示的実装形態
図3Aは、本発明の第1の実施形態による図1に示す予測方法を実施するために好適な予測デバイスPRED1を示す。
【0066】
この第1の実施形態によると、予測方法により行われる行為はコンピュータプログラム命令により実施される。この目的を達成するために、予測デバイスPRED1は、コンピュータの従来のアーキテクチャを有し、特にメモリMEM_P1と、例えばプロセッサPROC_P1を備えメモリMEM_P1内に格納されたコンピュータプログラムPG_P1により駆動される処理ユニットUT_P1とを含む。コンピュータプログラムPG_P1は、プロセッサPROC_P1により実行されると上述のような予測方法の行為を実施するための命令を含む。
【0067】
初期化時に、コンピュータプログラムPG_P1のコード命令は例えば、プロセッサPROC_P1により実行される前にRAMメモリ(示されない)内へロードされる。処理ユニットUT_P1のプロセッサPROC_P1は、特に上に説明された予測方法の行為をコンピュータプログラムPG_P1の命令に従って実施する。
【0068】
予測デバイスは、1つ又は複数の基準ピクセルセットBR,BRなどを入力E_P1において受信し、1及び/又は複数の対応重み付け値w、wなどと共に1及び/又は複数の対応変位ベクトルV、Vなどを計算し、上述の予測ピクセルセットBPを出力S_P1において送出する。
【0069】
図3Bは、本発明の第2の実施形態による図1に示す予測方法を実施するために好適な予測デバイスPRED2を示す。
【0070】
この第2の実施形態によると、予測デバイスPRED2は、例えば畳み込みニューラルネットワーク、多層パーセプトロン、LSTM(「長短期記憶:Long Short Term Memory」)などのニューラルネットワーク(RNC1で表される)であり、これは、以下のものを出力において送出するために、入力において受信された1つ又は複数の基準ピクセルセットBR,BRなどから図1の重み付け予測方法の工程P1~P2を実施する:
- 1つ又は複数のそれぞれの動きベクトルV、Vなど、及び
- 1つ又は複数のそれぞれの重み付け値w、wなど。
【0071】
コンピュータCALは上述の関係に従って予測ピクセルセットBPを計算するためにこの情報を入力において受信する:
BP(x,y)=w(x,y)*BRC(x,y)+w(x,y)*BRC(x,y)
【0072】
それ自体周知のやり方で、畳み込みニューラルネットワークRNC1はフィルタリング、非線形演算、及びスケーリング演算の一連の層を行う。使用される各フィルタは畳み込みカーネルによりパラメータ化され、非線形性がパラメータ化される(ReLU、leaky ReLU、GDN(「一般化分割正規化:generalized divisive normalization」)など)。ニューラルネットワークRNC1は例えば非特許文献D.Sun,et al.,“PWC-Net:CNNs for Optical Flow Using Pyramid,Warping,and Cost Volume”CVPR 2018において説明されるタイプのものである。
【0073】
この場合、ニューラルネットワークRNC1は、次のことをするようにトレーニングされ得る:
- 予測を行うために現在符号化されている現在画像へBR、BRなどから動きを補間するためにV、Vなどを推定すること;及び
- 重み付け値w、wなどを推定すること。
【0074】
この目的を達成するために、予備的局面において、ネットワークRNC1は演算P1を行うためにトレーニングされる。例えば、ネットワークRNC1は、近似される画像I図1の重み付け予測の結果BPとの間の二乗平均平方根誤差を最小化するためにトレーニングされる。この工程の終わりに、V、Vなど及びw、wなどを表す潜在空間Uが取得される。
【0075】
ネットワークRNC1は、現在のピクセルセットBと共に複数の関連基準ピクセルセットBR,BRなどを提示することにより、及びBと上述の関係に従って計算された結果BP(x,y)との間の平均二乗誤差を最小化するようにネットワークの重み付けを(例えば傾斜降下アルゴリズムを使用することにより)変更することにより、トレーニング局面中にトレーニングされる。
【0076】
この予備的トレーニング局面の終わりに、ネットワークRNC1は固定され、予測デバイスPRED2における使用に好適となる。
【0077】
従って、ネットワークRNC1は図1の重み付け予測の工程P1、P2を実施するために最適化される。
【0078】
予測デバイスPRED1により実施される重み付け予測方法の実施形態
次に、現在のピクセルセットの予測重み付けが図3Aの予測デバイスPRED1において実施される一実施形態の説明が図4及び図5A図5Hを参照して与えられる。
【0079】
示された例では、2つの基準ピクセルセットBR,BRが予測のために考慮される。
【0080】
この目的を達成するために、図4に示すように、少なくとも1つの基準ピクセルセットの解析P1は以下のことを含む:
P10において、BRとBRとの間の動き推定が計算される。このような工程は従来の動き探索工程(例えば変位ベクトルの推定など)を介し行われる。
【0081】
図5A図5Cは、この工程P10中に遭遇され得る2つの基準ピクセルセットBR,BRに対する現在のピクセルセットBの予測版BPの3つの異なる例示的変位をそれぞれ示す。図5A図5Cの例では、基準ピクセルセットBRとBRとの間の要素E(円により象徴化される)の変位は動きベクトルの場により表される。単純化のために、単一ベクトル(図5A図5CではV01で表され、点線で示される)が、示された例ではBRからBRへの要素Eの動きを説明するために示される(画像の他の部分に関する動きは零であると考えられる)。しかし、例えばオプティカルフロー動き推定の場合のように基準ピクセルセットBR~BRを表すピクセルの数と同数の動きベクトルが存在するということは言うまでもない。図5A図5Cに示さない別の例によると、BRからBRへの(反対方向)動きを説明するベクトルV10が計算される可能性がある。
【0082】
P10、P11(図4)において取得されたベクトルV01又はV10は、BRとBRに対し予測される現在のピクセルセットBの変位を推定することを含む。この推定は図5A図5Cに示され、ここでは、要素Eの変位は、現在のピクセルセットBが配置された時刻であるBR、BRが配置された時刻以外の時刻に推定される。V01又はV10の計算に関し同じ記法を使用することにより:
- 単一ベクトルV(BRからBの予測位置への動きを説明する)がベクトルV01から計算される、
- BRからBの予測位置への動きを説明する単一ベクトルVがベクトルV01から計算される。
【0083】
現在のピクセルセットBがBRとBRとの間の時間的に中間に配置される、図5Aの例では、現時点における要素Eの変位は、BRとBRとの間の変位の1/2(すなわちベクトルV01又はV10の1/2)に対応すると推定される。このような変位構成は、例えば図2Bと同じ表記法(BRが基準画像IRi-1に属し、BRは基準画像IRi+1に属する)を採用する場合に遭遇される。
【0084】
現在のピクセルセットBがBRよりBRに時間的により近くに配置される、図5Bの例では、現時点における要素Eの変位はBRとBRとの間の変位の1/2より短いと推定される。例えば、BRが基準画像IRi-1に属し、BRが基準画像IRi+2に属するならば、現時点における要素Eの変位はBRとBRとの間の変位の1/3(すなわちベクトルV01又はV10の1/3)に対応すると推定される。
【0085】
現在のピクセルセットBが時間的にBR(基準画像IRi-2に属する)に、次にBR(基準画像IRi-2に属する)の後に配置される、図5Cの例では、現時点における要素Eの変位はBRとBRとの間の変位の2倍(すなわちベクトルV01又はV10の2倍)と推定される。
【0086】
図4及び図5Dを参照すると、P12において、BR及びBRはそれぞれ、Bの2つの予測版(BRC及びBRCで表される)をそれぞれ生成するためにベクトルV、Vを使用することにより動き補償される。
【0087】
図5Dにおける図解により、ベクトルV、Vは、現時点における要素Eの変位がBRとBRとの間の変位の1/2(すなわちベクトルV01又はV10の1/2)に対応すると推定される例えば図5Aに示される動き構成に従って取得されたと考えられる。
【0088】
図5Dは以下のことを示す:
- 要素Eの補間された位置がベクトルVによるBRの要素Eの動き補償から生じる一組のピクセルERCを含む右動き補償された一組のピクセルBRC、及び
- 要素Eの補間された位置がベクトルVによるBRの要素Eの動き補償から生じる一組のピクセルERCを含む左動き補償された一組のピクセルBRC
【0089】
対照的に、ERCの部分Z及びERCの部分Zは、BRの要素E及びBRの要素Eの背後に配置される未知コンテンツに対応するので未定義である。しかし、図5Dに見られ得るように、部分ZはERC内に定義され、部分ZはERC内に定義される。
【0090】
次に、予測重み付け値w、wの計算P2は以下のものを含む:
図4及び図5Eを参照すると、本発明による動き補償された基準ピクセルセットBRC、BRCの効率的組み合わせを実現するために、P20は2つの予測版BRC及びBRCの中間重み付けwint (x,y)及びwint (x,y)をそれぞれピクセル毎に計算することを含む。このような計算は、BRC及びBRC内にそれぞれ定義されないBRの部分とBRの部分とを分離することを可能にする。
【0091】
この目的を達成するために、図5Eに示すように、以下のことが提案される:
- 白色で示される部分Z及びZの各ピクセルの重み付け値をそれぞれ零へ割り当てること(すなわち、wint (x,y)=0及びwint (x,y)=0)、
図5Eにおける灰色に対応する動き補償された基準ピクセルセットBRC及びBRCの各定義されたピクセルの重み付け値を定数Kへ割り当てること(すなわちwint (x,y)=K及びwint (x,y)=K(例えばK=0.5))。
【0092】
この操作の終わりに、取得されるものは、動き補償された基準ピクセルセットBRC及びBRCのそれぞれの中間重み付けであり、白色コンテンツはwint (x,y)=0及びwint (x,y)=0に対応し、灰色コンテンツwint (x,y)=0.5及びwint (x,y)=0.5に対応する。
【0093】
図4を参照すると、P21は中間重み付けwint (x,y)とwint (x,y)との合計w(x,y)を計算することを含み、ここで
【数1】
【0094】
中間重み付けwint (x,y)とwint (x,y)との合計の計算は図5Fに示され、ここでは、黒色コンテンツはw(x,y)=1に対応し、灰色コンテンツはw(x,y)=0.5に対応する。
【0095】
次に、予測重み付け関数を計算することP3は以下のことを含む:
図4を参照すると、演算P30中、動き補償された予測版BRC及びBRCはそれぞれの重み付けw及びwにより重み付けられる。次に、重み付け補償された予測版BRCW及びBRCWが取得される。
【0096】
この目的を達成するために、以下の補償重み付けw(x,y)及びw(x,y)が、動き補償された基準ピクセルセットBRC、BRC毎にそれぞれ計算される:
【数2】
及び
【数3】
【0097】
このような補償重み付けが図5Gに示される。白色コンテンツは、w(x,y)=0及びw(x,y)=0である未定義領域Z及びZに対応する。黒色コンテンツは、w(x,y)=1及びw(x,y)=1である完全に定義された領域に対応する。灰色コンテンツは、w(x,y)=0.5及びw(x,y)=0.5である背景及び要素Eに対応する。
【0098】
次に、予測版BRC及びBRCは、動き補償され、それぞれの重み付けw及びwにより重み付けられる。次に、重み付け補償された予測版BRCW及びBRCWが取得される。
【0099】
図4及び図5Hを参照すると、演算P31中、重み付け補償された予測版BRCW及びBRCWが合計され、動き補償された予測ピクセルセットBPを提供する。
【0100】
従って、これは、予測の時点にだけ(すなわち基準ピクセルセットBR及びBR上にだけ)存在する要素により判断された補償重み付けを含む動き補償を構築する。現在標準化された解と比較したこのような補償重み付けの1つの特定利点は次の点にある:BR及びBRだけを使用する本発明による予測の時点で完全に知られたBR及びBRにより、上述の閉塞(occluded)領域Z及びZが非常に良い空間精度により回復され得る、図5D~5Hに示すように予測中の閉塞解除(disocclusion)を効果的に取り扱うことが可能である。
【0101】
予測重み付けは別の形式で提示され得る。例えば、単一重み付けwが使用され得る。次に、wは動き補償された基準ピクセルセットBRCを重み付け、(1-w)は動き補償された基準ピクセルセットBRCを重み付ける。
【0102】
wは、予め計算された重み付け値w及びwから始まる上記実施形態に基づき、次式を行うことにより計算され得る:
【数4】
【0103】
予測方法が上に説明されたが、このような方法はまた、今説明した重み付け予測関数を使用することにより1つ又は複数の基準ピクセルセットBR,BRなどから一組のピクセルBを構築又は合成するために実施される可能性がある。例えばカメラ(360°ビデオ)により捕捉されない欠落した一組のピクセル又は一組のピクセルに対応する一組のピクセルBの予測方法は構築又は合成方法と呼ばれる可能性がある。この場合、厳密に言えば、予測デバイスPRED1及びPRED2はむしろ構築又は合成デバイスであると見做されることになる。従って、予測デバイスPRED1は所謂ビュー「合成」アルゴリズムを実施する可能性がある。例えば、VSRS(「View Synthesis Reference」)ソフトウェア、VVS(「Versatile View Synthesizer」)アルゴリズムがビュー合成アルゴリズムとして使用され得る。構築又は合成デバイスPRED2自体は上述のように、例えば畳み込みニューラルネットワーク、多層パーセプトロン、LSTM(「長短期記憶」)などのニューラルネットワークであり得る。
【0104】
画像符号化方法
一般的原理
図1を参照して説明した重み付け予測を実施する画像符号化方法の説明が図6を参照して以下に与えられる。
【0105】
このような符号化方法は以下のことを含む:
C1では、図1に示すその工程P1~P3の重み付け予測が実施され、現在の予測ピクセルセットBPを生成する。
【0106】
以下の符号化工程は従来のものであり、AVC、HEVC、VVC符号化などに準拠する。従って:
- C2では、現在のピクセルセットBとC1において取得された現在の予測ピクセルセットBPとの差を表す信号のBEが計算される;
- C3では、この信号BEは、従来の符号化性能基準に対して符号化を最適化する(例えば歪み/データ速度費用などを最小化すること、又はそうでなければ、当業者によく知られた判断基準である最良効率/複雑性妥協点の選択の)場合には量子化又は符号化される。
【0107】
この操作の終わりに、量子化又は符号化された差信号BE codが取得される。
【0108】
符号化C3中、複数の符号化可能性が探求され得、例えば、複数の予測重み付け値w、wなどが、最良データ速度/歪み又は効率/複雑性妥協点を発見するために調査され得る。
【0109】
エンコーダは、送信することを選択し得る重み付け値と競争して、上に説明された予測方法に従って計算された重み付け値を置き得る。この目的を達成するために、エンコーダは、上記予測方法から取得された予測BPの品質を評価し得、例えば二乗平均平方根誤差を使用することにより予測誤差を測定し得る。この予測誤差は、現在の映像標準規格において使用される一組の対の所定重み付け値(w,w)から生じる予測誤差と比較され得る。この組は、例えばHEVC(高効率ビデオ符号化:High Efficiency Video Coding)標準規格における(0.5,0.5)へ制限され得る、又は他の値(例えばVVC(「Versatile Video Coding」)標準規格のBCW(「Bi-prediction with CU level Weights」)ツールにおいて使用されるものなど)を含み得る。フラグが、上に説明された予測方法を使用するべきかどうか、又はVVC BCWツールを適用するべきかどうか、又はHEVCバランス型予測を適用するべきであるかどうかをデコーダに指示することになる。
【0110】
予測重み付け値w、wなどを競争に入れることは、従来技術からの予測デバイスにおいて実施されるデフォルト予測重み付けと比較して、重み付け予測の精度を最適化するという利点を有する。実際、本発明の予測重み付けは、より精密な重み付け値を生成するが、信号が予測可能でない場合はより大きな歪みに至り得る。従来の予測重み付けは、空間的に余り正確でないが、送信されるデータ速度を犠牲にしてより低い歪みに至り得る。
【0111】
C4では、量子化又は符号化された差信号BE codのデータは、デコーダへ送信されることができるトランスポートストリームFに書き込まれる(本明細書において後で説明される)。
【0112】
対照的に、本発明によると、重み付けw及び/又は重み付けwは有利には、符号化もされないしデコーダへ送信もされない。
【0113】
当然、量子化又は符号化された差信号BEが零である場合(SKIP符号化モードの場合であり得る)、上述の工程C2及びC4は実施されない。
【0114】
エンコーダ例示的実装形態
図7Aは、本発明の第1の実施形態による図6に示す符号化方法を実施するために好適なエンコーダCOD1を示す。エンコーダCOD1は予測デバイスPRED1を含む。
【0115】
この第1の実施形態によると、符号化方法により行われる行為はコンピュータプログラム命令により実施される。そのために、符号化デバイスCOD1はコンピュータの従来のアーキテクチャを有しており、特に、メモリMEM_C1と、例えばプロセッサPROC_C1を備えた処理ユニットUT_C1であってメモリMEM_C1内に格納されたプログラムPG_C1をコンピュータにより駆動される処理ユニットUT_C1とを含む。コンピュータプログラムPG_C1は、プログラムがプロセッサPROC_C1により実行されると上述の符号化方法の行為を実施するための命令を含む。
【0116】
初期化時に、コンピュータプログラムPG_C1のコード命令は例えば、プロセッサPROC_C1により実行される前にRAMメモリ(示されない)内へロードされる。処理ユニットUT_C1のプロセッサPROC_C1は特に、上に説明された符号化方法の行為をコンピュータプログラムPG_C1の命令に従って実施する。
【0117】
エンコーダCOD1は、現在のピクセルセットBを入力E_C1において受信し、好適な通信インターフェース(示されない)を使用することによりデコーダへ送信されるトランスポートストリームFを出力S_C1において送出する。
【0118】
図7Bは、本発明の第2の実施形態による図6に示す符号化方法を実施するために好適なエンコーダCOD2を示す。エンコーダCOD2は、畳み込みニューラルネットワークRNC2が続く上述の予測デバイスPRED2を含み、上述の予測デバイスPRED2は例えば、差信号BEを計算し、次にそれを符号化する、又は予測デバイスPRED2により生成された予測ピクセルセットBPと共に現在のピクセルセットBを符号化する。このようなネットワークRNC2は例えば非特許文献Ladune“Optical Flow and Mode Selection for Learning-based Video Coding”,IEEE MMSP 2020において説明されるタイプのものである。
【0119】
画像復号化方法
一般的原理
図1を参照して説明した重み付け予測を実施する画像復号化方法の説明が、図8を参照して以下に与えられる。
【0120】
このような復号化方法は、図6の画像符号化に対応する画像復号化を実施する。特に、重み付け予測とは別に、復号化方法は、AVC、HEVC、VVC復号化などに準拠する従来の復号ステップを実施する。
【0121】
復号化方法は以下のことを含む:
D1では、符号化された差信号BE codのデータは受信されたトランスポートストリームFから従来のやり方で抽出される。
【0122】
D2では、BE codは従来のやり方で復号化される。この操作の終わりに、復号化された差信号BE decが取得される。
【0123】
D3では、図1に示すその工程P1~P3における本発明による重み付け予測が実施され、現在の予測ピクセルセットBPを生成する。
【0124】
D4では、再構築された現在のピクセルセットBDが、D2において取得された復号化された差信号BE decとD3において取得された予測ピクセルセットBPとを組み合わせることにより計算される。
【0125】
それ自体周知のやり方で、再構築された現在のピクセルセットBDは恐らく、再構成された信号に対して行われるループフィルタによるフィルタリング(当業者によく知られている)を受け得る。
【0126】
当然、上述の符号化方法中に計算された差信号BEが零である場合(SKIP符号化モードのケースであり得る)、上述の工程D1及びD2は実施されない。
【0127】
デコーダ例示的実装形態
図9Aは、本発明の第1の実施形態による図8に示す復号化方法を実施するために好適なデコーダDEC1を示す。デコーダDEC1は予測デバイスPRED1を含む。
【0128】
この第1の実施形態によると、復号化方法により行われる行為はコンピュータプログラム命令により実施される。この目的を達成するために、デコーダDEC1は、コンピュータの従来のアーキテクチャを有しており、特に、メモリMEM_D1と、例えばプロセッサPROD_D1を備えた処理ユニットUT_D1であってメモリMEM_D1内に格納されたプログラムPG_D1をコンピュータにより駆動される処理ユニットUT_D1とを含む。コンピュータプログラムPG_D1は、プログラムがプロセッサPROC_D1により実行されると上述の復号化方法の行為を実施するための命令を含む。
【0129】
初期化時に、コンピュータプログラムPG_D1のコード命令は例えば、プロセッサPROC_D1により実行される前にRAMメモリ(示されない)内へロードされ得る。処理ユニットUT_D1のプロセッサPROC_D1は特に、図8に関連して上に説明された復号化方法の行為をコンピュータプログラムPG_D1の命令に従って実施する。
【0130】
デコーダDEC1は、図7AのエンコーダCOD1により送信されたトランスポートストリームFを入力E_D1において受信し、現在の復号化された一組のピクセルBDを出力S_D1において送出する。
【0131】
図9Bは、本発明の第2の実施形態による図8に示す復号化方法を実施するために好適なデコーダDEC2を示す。デコーダDEC2は、畳み込みニューラルネットワークRNC3が続く上述の予測デバイスPRED2を含み、例えば、符号化された差信号BE codを復号する又は符号化された差信号BE codを予測デバイスPRED2により生成された予測ピクセルセットBPと共に復号する。このようなネットワークRNC3は例えば非特許文献Ladune“Optical Flow and Mode Selection for Learning-based Video Coding”,IEEE MMSP 2020に説明されたタイプのものである。
【0132】
画像重み付け予測方法の変形形態
エンコーダCOD3において実施される図1に示す重み付け予測方法の一変形形態の説明が図10及び図11を参照して次に与えられる。
【0133】
このような変形形態は、取得される予測の精度/品質が満足できない場合に図1の重み付け予測方法を改善することを目的とする。
【0134】
この目的を達成するために、エンコーダ側では、図10に示すように、C’1において、前記少なくとも1つの基準ピクセルセットBRは現在のピクセルセットBと共に解析される。例えば、2つの基準ピクセルセットBR及びBRがBと共に解析される。示された例では、BRは、時間的にBの前に配置され、BRは時間的にBの後に配置される。
【0135】
図11に示すように、解析C’1は、非特許文献Ladune“Optical Flow and Mode Selection for Learning-based Video Coding”,IEEE MMSP 2020に説明されるように、2つの基準ピクセルセットBR及びBRから並びに現在のピクセルセットBから、一定数の層(例えば畳み込みフィルタ(CNN)を実施する層など)、続いて非線形及び間引きを実施する層を介した変換を生成する畳み込みニューラルネットワークRNC4を使用することにより実施される。
【0136】
工程C’1の終わりに、一組の潜在的変数が信号U’の形式で取得される。
【0137】
信号U’は、量子化器QUANT(例えば量子化パラメータにより制御される一様な又はベクトル量子化器)によりC’2において量子化される。次に、量子化信号U’が取得される。
【0138】
C’3において、量子化信号U’は、判断された統計量共にエントロピエンコーダCE(例えば算術型の)を使用することにより符号化される。この統計量は例えば、統計の確率によりパラメータ化される(例えばラプラス則の分散及び平均(σ,μ)をモデル化することにより、又はそうでなければ、BalleによりICLR 2018会議において開示された非特許文献“Variational image compression with a scaleにおけるようにhyperpriorを考慮することにより)。次に、符号化された量子化信号U’ codが取得される。
【0139】
C’4において、符号化された量子化信号U’ codは、デコーダDEC3(図13に示す)へ送信されるトランスポートストリームF’に書き込まれる。
【0140】
次に、デコーダDEC3において実施される図1に示す重み付け予測方法の一変形形態の説明が図12及び13を参照して与えられる。
【0141】
この目的を達成するために、デコーダ側では、図12に示すように、D’1において、少なくとも1つの基準ピクセルセットBRが解析される(示された例では2組の基準ピクセルBR及びBR)。このような解析はニューラルネットワークRNC1を使用することにより図1の工程P1において行われるものと同一である。この工程の終わりに、V、Vなど及びw、wなどを表す潜在空間Uが取得される。
【0142】
ストリームF’の受信に続いて、D’2において、エントロピー復号化が、図11のエントロピエンコーダCEに対応するエントロピデコーダDEを使用することにより、(同じ判断された統計量(ラプラス法の分散及び平均(σ、μ)のモデル化など)を有する)符号化された量子化信号U’ codに対して行われる。復号化された量子化信号U’はこの操作の終わりに取得される。
【0143】
D’3において、復号化された量子化信号U’は、図13のニューラルネットワークRNC1により取得された潜在空間Uであって基準ピクセルセットBR及びBRだけの解析を表す潜在空間Uと連結される。
【0144】
次に、ニューラルネットワークRNC1は、対応重み付け値w、wなどと共に動き情報V、Vなどを推定するために、図1の工程P2と同様なやり方で様々な層を介しこの連結を処理する。
【0145】
図3Bに対応するやり方で、コンピュータCALは上述の関係に従って予測ピクセルセットBPを計算するためにこの情報を入力において受信する。この工程は図1の工程P3と同一である。
【0146】
図3A以下(et seq)を参照して上に開示された実施形態では、2つの基準ピクセルセットBR,BRが重み付け予測方法において使用される。
【0147】
これらの実施形態は、3つ以上の基準ピクセルセットへ拡張され得る。この目的を達成するために、図3Bを参照して説明されたニューラルネットワークRNC1は、予測ピクセルセットBP(x,y)を取得するために3つ以上の基準ピクセルセットBR、BR、BRなどからトレーニングされることになる。
【0148】
当然ながら、例えばただ1つの基準座標系が予測のために使用される場合(映像符号化モードにおけるタイプP予測の場合)には、低級重み付け予測モードが可能である。このような低級モードが、図14図15を参照して示される。図14の例は図11のエンコーダCOD3と同様なエンコーダCOD3’を示す。エンコーダCOD3’は、単一基準ピクセルセット(図14のBR)からトレーニングされるそのニューラルネットワークRNC4’を通るエンコーダCOD3とは異なる。従って、ニューラルネットワークRNC4’は、単一基準ピクセルセットBRと現在のピクセルセットBとから信号U’を生成する。図10図11に関連して上に既に説明されたように、信号U’は量子化信号U’を取得するために量子化される。量子化信号U’はエントロピー的に符号化される。次に、符号化された量子化信号U’ codが取得される。符号化された量子化信号U’ codは、デコーダDEC3’(図15に示す)へ送信されるトランスポートストリームF’へ書き込まれる。
【0149】
デコーダDEC3’は、示された例における単一基準ピクセルセットBRを解析するそのニューラルネットワークRNC1’を通る図13のデコーダDEC3とは異なる。この解析の終わりに、V及びwを表す潜在空間Uが取得される。図12を参照して既に説明したように、ストリームF’の受信に続いて、符号化された量子化信号U’ codがエントロピー的に復号され、復号化された量子化信号U’を生成する。復号化された量子化信号U’は、ニューラルネットワークRNC1’により取得された潜在空間Uと連結される。次に、ニューラルネットワークRNC1’は、単一対応重み付け値wと共に単一の動き情報Vを推定するためにこの連結を処理する。コンピュータCALは、BRが考慮されていなく従って動き補償されていなかったので、BRC=0との上述の関係に従って予測ピクセルセットBPを従来のやり方で計算するためにこの情報を入力において受信する。同様に、w(x,y)=0。
【0150】
これは、図1の工程P3の終わりに取得されコンピュータCALの出力において送出される予測ピクセルセットBPが次式であるということを意味する:
BP(x,y)=w(x,y)*BRC(x,y)+0*0=w(x,y)*BRC(x,y)
【符号の説明】
【0151】
BR、BR、BR 基準ピクセルセット
,V 対応変位ベクトル
図1
図2A
図2B
図3A
図3B
図4
図5A
図5B
図5C
図5D
図5E
図5F
図5G
図5H
図6
図7A
図7B
図8
図9A
図9B
図10
図11
図12
図13
図14
図15
【国際調査報告】