(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2021-519542(P2021-519542A)
(43)【公表日】2021年8月10日
(54)【発明の名称】ブロック単位の画像符号化のためのイントラ予測モードの概念
(51)【国際特許分類】
H04N 19/11 20140101AFI20210712BHJP
H04N 19/176 20140101ALI20210712BHJP
【FI】
H04N19/11
H04N19/176
【審査請求】有
【予備審査請求】未請求
【全頁数】62
(21)【出願番号】特願2020-552199(P2020-552199)
(86)(22)【出願日】2019年3月28日
(85)【翻訳文提出日】2020年11月25日
(86)【国際出願番号】EP2019057882
(87)【国際公開番号】WO2019185808
(87)【国際公開日】20191003
(31)【優先権主張番号】18165224.9
(32)【優先日】2018年3月29日
(33)【優先権主張国】EP
(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】プファフ・ヨナサン
(72)【発明者】
【氏名】ヘレ・フィリップ
(72)【発明者】
【氏名】マークル・フィリップ
(72)【発明者】
【氏名】スタレンバーガー・ビョルン
(72)【発明者】
【氏名】シークマン・ミシャ
(72)【発明者】
【氏名】ヴィンケン・マーティン
(72)【発明者】
【氏名】ヴィーコウスキー・アダム
(72)【発明者】
【氏名】ザメク・ボイチェヒ
(72)【発明者】
【氏名】カルテンスタドラー・ステファン
(72)【発明者】
【氏名】シュワルツ・ハイコー
(72)【発明者】
【氏名】マルペ・デトレフ
(72)【発明者】
【氏名】ヴィーガンド・トーマス
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159LB05
5C159LC09
5C159MA04
5C159MA05
5C159MA21
5C159MA23
5C159MC11
5C159ME01
5C159RC12
5C159TA32
5C159TB08
5C159TC42
5C159TD17
5C159UA02
5C159UA05
5C159UA16
(57)【要約】
ブロック単位の画像符号化のためのイントラ予測モードの概念が開示される。特に、データストリーム(12)から画像(10)をブロック単位で復号するための、および/またはデータストリーム(12)に画像(10)を符号化するための装置(14−1、54−2)であって、画像の所定のサイズのブロック(136、172)のイントラ予測信号が、現在のブロックに隣接するサンプルの第1のテンプレート(130、170)をニューラルネットワーク(80)に適用することによって決定される、少なくとも1つのイントラ予測モードをサポートする、装置が開示される。装置は、所定のサイズとは異なる現在のブロック(18)に対して、以下のように構成されることができる:
再サンプリングされたテンプレート(130、170)を取得するために、第1のテンプレート(130、170)と一致するように、現在のブロック(18)に隣接するサンプルの第2のテンプレート(60)を再サンプリング(134、166)し、
予備的イントラ予測信号(138、172、176)を取得するために、サンプルの再サンプリングされたテンプレート(130、170)をニューラルネットワーク(80)に適用(138a、170a、44−1、44−2)し、
現在のブロック(18)についてのイントラ予測信号(142、24−1、24−2)を取得(140)するために、現在のブロック(18)と一致するように、予備的イントラ予測信号(138、172、176)を再サンプリング(140、180)する。
[この文献は図面を表示できません]
【特許請求の範囲】
【請求項1】
データストリーム(12)から画像(10)をブロック単位で復号するための装置(54−2)であって、前記画像の所定のサイズのブロック(136、172)のイントラ予測信号が現在のブロックに隣接するサンプルの第1のテンプレート(130、170)をニューラルネットワーク(80)に適用することによって判定される、少なくとも1つのイントラ予測モードをサポートする装置であって、前記所定のサイズとは異なる現在のブロック(18)に対して、
再サンプリングされたテンプレート(130、170)を取得するために、前記第1のテンプレート(130、170)と一致するように、前記現在のブロック(18)に隣接するサンプルの第2のテンプレート(60)を再サンプリング(134、166)し、
予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(130、170)を前記ニューラルネットワーク(80)に適用(138a、170a、44−1、44−2)し、
前記現在のブロック(18)の前記イントラ予測信号(142、24−1、24−2)を取得(140)するために、前記現在のブロック(18)に一致するように前記予備的イントラ予測信号(138、172、176)を再サンプリング(140、180)するように構成される、装置。
【請求項2】
前記第2のテンプレート(60)をダウンサンプリング(D)して前記第1のテンプレート(130、170)を取得することによって再サンプリング(134、166)するように構成される、請求項1に記載の装置。
【請求項3】
前記予備的イントラ予測信号(138、172)をアップサンプリング(U、140)することによって前記予備的イントラ予測信号(138、172、176)を再サンプリング(140)するように構成される、請求項1または2に記載の装置。
【請求項4】
前記予備的イントラ予測信号(138、176)を空間ドメインから変換ドメインに変換し、
前記変換ドメインにおいて前記予備的イントラ予測信号(176)を再サンプリングする
ように構成される、請求項1から3のいずれか一項に記載の装置。
【請求項5】
前記予備的イントラ予測信号(176)の係数をスケーリングすることによって、前記変換ドメイン予備的イントラ予測信号(176)を再サンプリング(140)する
ように構成される、請求項4に記載の装置。
【請求項6】
前記現在のブロック(18)の次元に一致するように(182)前記イントラ予測信号(176)の次元を増やし、
前記予備的イントラ予測信号(176)の追加された係数であって、より高い周波数のビンに関連する前記追加された係数の係数をゼロパディングする
ことによって前記変換ドメイン予備的イントラ予測信号(176)を再サンプリング(140)する
ように構成される、請求項4または5に記載の装置。
【請求項7】
予測残差信号(34)の逆量子化バージョン(39−1、39−2)によって前記変換ドメイン予備的イントラ予測信号(176)を構成する(42−1、42−2)
ように構成される、請求項4から6のいずれか一項に記載の装置。
【請求項8】
空間ドメインにおける前記予備的イントラ予測信号(138)を再サンプリング(140)する
ように構成される、請求項1から7のいずれか一項に記載の装置。
【請求項9】
双一次補間を実行することによって前記予備的イントラ予測信号(138)を再サンプリング(140)する
ように構成される、請求項8に記載の装置。
【請求項10】
さらに、前記再サンプリングおよび/または前記異なる次元のニューラルネットワークの使用に関する情報をデータフィールドに符号化する
ように構成される、請求項1から9のいずれか一項に記載の装置。
【請求項11】
現在のブロック(18)の隣接するサンプルの第1のセット(60)をニューラルネットワーク(80)に適用して、前記現在のブロック(18)の変換(34、39−1、39−2)の変換係数のセットの予測(45−1、45−2)を取得する
ことによって、前記画像の前記現在のブロック(18)の前記イントラ予測信号(24−1、24−2)が判定される少なくとも1つのイントラ予測モードをサポートする、請求項1から10のいずれか一項に記載の装置。
【請求項12】
データストリーム(12)から画像(10)をブロック単位で復号するための装置であって、現在のブロック(18)の隣接するサンプルの第1のセット(60)をニューラルネットワーク(80)に適用して、前記現在のブロック(18)の変換(34、39−1、39−2)の変換係数のセットの予測(45−1、45−2)を取得する
ことによって、前記画像の前記現在のブロック(18)の前記イントラ予測信号(24−1、24−2)が判定される少なくとも1つのイントラ予測モードをサポートする、装置。
【請求項13】
請求項1から11のいずれか一項に記載の装置としてさらに構成される、請求項12に記載の装置。
【請求項14】
再構成された信号(24−1、24−2)を取得するために前記予測(45−1、45−2)を逆変換(40−1、40−2)する
ように構成される、請求項1から13のいずれか一項に記載の装置。
【請求項15】
可変長コードを使用して前記データストリーム(12)からインデックス(70b)を復号し、
前記インデックス(70b)を使用して選択を実行する
ように構成される、請求項1から14のいずれか一項に記載の装置。
【請求項16】
イントラ予測モードのセット(72)のランキングを判定し、
その後、前記第2のテンプレート(60)を再サンプリングする
ように構成される、請求項1から15のいずれか一項に記載の装置。
【請求項17】
データストリーム(12)に画像(10)をブロック単位で符号化するための装置(14−1)であって、前記画像の所定のサイズのブロック(136、172)のイントラ予測信号が現在のブロックに隣接するサンプルの第1のテンプレート(130、170)をニューラルネットワーク(80)に適用することによって判定される、少なくとも1つのイントラ予測モードをサポートする装置(14−1)であって、前記所定のサイズとは異なる現在のブロック(18)に対して、
再サンプリングされたテンプレート(130、170)を取得するために、前記第1のテンプレート(130、170)と一致するように、前記現在のブロック(18)に隣接するサンプルの第2のテンプレート(60)を再サンプリング(134、166)し、
予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(130、170)を前記ニューラルネットワーク(80)に適用(138a、170a、44−1、44−2)し、
前記現在のブロック(18)のイントラ予測信号(142、24−1、24−2)を取得(140)するために、前記現在のブロック(18)に一致するように前記予備的イントラ予測信号(138、172、176)を再サンプリング(140、180)する
ように構成される、装置。
【請求項18】
前記第2のテンプレート(60)をダウンサンプリング(D)して前記第1のテンプレート(130、170)を取得することによって再サンプリング(134、166)するように構成される、請求項17に記載の装置。
【請求項19】
前記予備的イントラ予測信号(138、172)をアップサンプリング(U、140)することによって前記予備的イントラ予測信号(138、172、176)を再サンプリング(140)するように構成される、請求項17または18に記載の装置。
【請求項20】
前記予備的イントラ予測信号(138、176)を空間ドメインから変換ドメインに変換し、
前記変換ドメインにおいて前記予備的イントラ予測信号(176)を再サンプリングする
ように構成される、請求項17から19のいずれか一項に記載の装置。
【請求項21】
前記予備的イントラ予測信号(176)の係数をスケーリングすることによって、変換ドメイン予備的イントラ予測信号(176)を再サンプリング(140)する
ように構成される、請求項20に記載の装置。
【請求項22】
前記現在のブロック(18)の次元に一致するように(182)前記イントラ予測信号(176)の次元を増やし、
前記予備的イントラ予測信号(176)の追加された係数であって、より高い周波数のビンに関連する前記追加された係数の係数をゼロパディングする
ことによって前記変換ドメイン予備的イントラ予測信号(176)を再サンプリング(140)する
ように構成される、請求項20または21に記載の装置。
【請求項23】
予測残差信号(34)の逆量子化バージョン(39−1、39−2)によって前記変換ドメイン予備的イントラ予測信号(176)を構成する(42−1、42−2)
ように構成される、請求項20から22のいずれか一項に記載の装置。
【請求項24】
前記空間ドメインにおける前記予備的イントラ予測信号(138)を再サンプリング(140)する
ように構成される、請求項17から23のいずれか一項に記載の装置。
【請求項25】
双一次補間を実行することによって前記予備的イントラ予測信号(138)を再サンプリング(140)する
ように構成される、請求項24に記載の装置。
【請求項26】
さらに、前記再サンプリングおよび/または前記異なる次元のニューラルネットワークの使用に関する情報をデータフィールドに符号化する
ように構成される、請求項17から23のいずれか一項に記載の装置。
【請求項27】
現在のブロック(18)の隣接するサンプルの第1のセット(60)をニューラルネットワーク(80)に適用して、前記現在のブロック(18)の変換(34、39−1、39−2)の変換係数のセットの予測(45−1、45−2)を取得する
ことによって、前記画像の前記現在のブロック(18)の前記イントラ予測信号(24−1、24−2)が判定される少なくとも1つのイントラ予測モードをサポートする、請求項17から26のいずれか一項に記載の装置。
【請求項28】
データストリーム(12)から画像(10)をブロック単位で復号するおよび/またはデータストリーム(12)に画像(10)をブロック単位で符号化するための装置であって、
現在のブロック(18)の隣接するサンプルの第1のセット(60)をニューラルネットワーク(80)に適用して、前記現在のブロック(18)の変換(34、39−1、39−2)の変換係数のセットの予測(45−1、45−2)を取得することによって、前記画像の前記現在のブロック(18)の前記イントラ予測信号(24−1、24−2)が判定される少なくとも1つのイントラ予測モードをサポートする、装置。
【請求項29】
請求項17から28のいずれか一項に記載の装置としてさらに構成される、請求項28に記載の装置。
【請求項30】
再構成された信号(24−1、24−2)を取得するために前記予測(45−1、45−2)を逆変換(40−1、40−2)する
ように構成される、請求項17から29のいずれか一項に記載の装置。
【請求項31】
可変長コードを使用して前記データストリーム(12)からインデックス(70b)を復号し、
前記インデックス(70b)を使用して選択を実行する
ように構成される、請求項17から30のいずれか一項に記載の装置。
【請求項32】
イントラ予測モードのセット(72)のランキングを判定し、
その後、前記第2のテンプレート(60)を再サンプリングする
ように構成される、請求項17から31のいずれか一項に記載の装置。
【請求項33】
データストリーム(12)から画像(10)をブロック単位で復号するための方法であって、前記画像の所定のサイズのブロック(136、172)のイントラ予測信号が現在のブロックに隣接するサンプルの第1のテンプレート(130、170)をニューラルネットワーク(80)に適用することによって判定される、少なくとも1つのイントラ予測モードをサポートする方法であって、
再サンプリングされたテンプレート(130、170)を取得するために、第1のテンプレート(130、170)と一致するように、前記現在のブロック(18)に隣接するサンプルの第2のテンプレート(60)を再サンプリング(134、166)し、
予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(60)をニューラルネットワーク(80)に適用(138a、170a、44−1、44−2)し、
前記現在のブロック(18)の前記イントラ予測信号(142、24−1、24−2)を取得(140)するために、前記現在のブロック(18)に一致するように前記予備的イントラ予測信号(138、172、176)を再サンプリング(140)することを備える、方法。
【請求項34】
データストリーム(12)に画像(10)をブロック単位で符号化するための方法であって、前記画像の所定のサイズのブロック(136、172)のイントラ予測信号が現在のブロックに隣接するサンプルの第1のテンプレート(130、170)をニューラルネットワーク(80)に適用することによって判定される、少なくとも1つのイントラ予測モードをサポートする方法であって、
再サンプリングされたテンプレート(130、170)を取得するために、第1のテンプレート(130、170)と一致するように、前記現在のブロック(18)に隣接するサンプルの第2のテンプレート(60)を再サンプリング(134、166)し、
予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(60)をニューラルネットワーク(80)に適用(138a、170a、44−1、44−2)し、
前記現在のブロック(18)の前記イントラ予測信号(142、24−1、24−2)を取得(140)するために、前記現在のブロック(18)に一致するように前記予備的イントラ予測信号(138、172、176)を再サンプリング(140)することを備える、方法。
【請求項35】
データストリーム(12)から画像(10)をブロック単位で復号する方法であって、
現在のブロック(18)の隣接するサンプルの第1のセット(60)をニューラルネットワーク(80)に適用して、現在のブロック(18)の変換(34、39−1、39−2)の変換係数のセットの予測(45−1、45−2)を取得することを備える、方法。
【請求項36】
データストリーム(12)に画像(10)をブロック単位で符号化する方法であって、
現在のブロック(18)の隣接するサンプルの第1のセット(60)をニューラルネットワーク(80)に適用して、現在のブロック(18)の変換(34、39−1、39−2)の変換係数のセットの予測(45−1、45−2)を取得することを備える、方法。
【請求項37】
コンピュータによって実行されると、前記コンピュータに請求項33から36のいずれか一項に記載の方法を実行させる命令を備える、コンピュータ可読記憶媒体。
【請求項38】
画像(10)を符号化し、前記画像の所定のサイズのブロック(136、172)のイントラ予測信号が前記現在のブロックに隣接するサンプルの第1のテンプレート(130、170)をニューラルネットワーク(80)に適用することによって判定される、少なくとも1つのイントラ予測モードをサポートする方法によって取得されるデータストリームであって、
再サンプリングされたテンプレート(130、170)を取得するために、第1のテンプレート(130、170)と一致するように、前記現在のブロック(18)に隣接するサンプルの第2のテンプレート(60)を再サンプリング(134、166)し、
予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(60)をニューラルネットワーク(80)に適用(138a、170a、44−1、44−2)し、
前記現在のブロック(18)の前記イントラ予測信号(142、24−1、24−2)を取得(140)するために、前記現在のブロック(18)に一致するように前記予備的イントラ予測信号(138、172、176)を再サンプリング(140)することを備える、データストリーム。
【請求項39】
画像(10)を符号化し、方法によって取得されるデータストリームであって、
現在のブロック(18)の隣接するサンプルの第1のセット(60)をニューラルネットワーク(80)に適用して、現在のブロック(18)の変換(34、39−1、39−2)の変換係数のセットの予測(45−1、45−2)を取得することを備える、データストリーム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、HEVCまたはHEVCの後継物などのビデオコーデックで使用可能であるような、ブロック単位の画像符号化のための改良されたイントラ予測モードの概念に関する。
【背景技術】
【0002】
イントラ予測モードは、画像およびビデオの符号化で広く使用されている。ビデオ符号化では、イントラ予測モードは、動き補償予測モードなどの相互予測モードなどの他の予測モードと競合する。イントラ予測モードでは、現在のブロックは、隣接するサンプル、すなわち、エンコーダ側に関する限り既に符号化され、デコーダ側に関する限り既に復号されているサンプルに基づいて予測される。隣接するサンプル値が現在のブロックに外挿されて、現在のブロックの予測信号が形成され、予測残差が現在のブロックのデータストリームで送信される。予測信号が優れているほど、予測残差は少なくなり、したがって、予測残差をコード化するために必要なビット数は少なくなる。
【0003】
効果的であるためには、ブロック単位の画像符号化環境でのイントラ予測のための効果的なフレームワークを形成するために、いくつかの態様を考慮する必要がある。例えば、コーデックでサポートされるイントラ予測モードの数が多いほど、デコーダに選択を通知するためのサイド情報レートの消費量が多くなる。一方、サポートされているイントラ予測モードのセットは、良好な予測信号、すなわち、予測残差が低くなる予測信号を提供することができる必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願は、改良されたイントラ予測モードの概念を使用する場合に、ブロック単位の画像コーデックのより効率的な圧縮を可能にするイントラ予測モードの概念を提供しようとする。
【課題を解決するための手段】
【0005】
この目的は、本出願の独立請求項の主題によって達成される。
【0006】
データストリームから画像をブロック単位で復号するための装置(例えば、デコーダ)であって、画像の所定のサイズのブロックのイントラ予測信号が現在のブロックに隣接するサンプルの第1のテンプレートをニューラルネットワークに適用することによって判定される、少なくとも1つのイントラ予測モードをサポートする装置であって、所定のサイズとは異なる現在のブロックに対して、
再サンプリングされたテンプレートを取得するために、第1のテンプレートと一致するように、現在のブロックに隣接するサンプルの第2のテンプレートを再サンプリングし、
予備的イントラ予測を取得するために、サンプルの再サンプリングされたテンプレートをニューラルネットワークに適用し、
現在のブロックのイントラ予測信号を取得するために、現在のブロックに一致するように予備的イントラ予測信号を再サンプリングするように構成される、装置が開示される。
【0007】
データストリームに画像をブロック単位で符号化するための装置(例えば、エンコーダ)であって、画像の所定のサイズのブロックのイントラ予測信号が現在のブロックに隣接するサンプルの第1のテンプレートをニューラルネットワークに適用することによって判定される、少なくとも1つのイントラ予測モードをサポートする装置であって、所定のサイズとは異なる現在のブロックに対して、
再サンプリングされたテンプレートを取得するために、第1のテンプレートと一致するように、現在のブロックに隣接するサンプルの第2のテンプレートを再サンプリングし、
予備的イントラ予測を取得するために、サンプルの再サンプリングされたテンプレートをニューラルネットワークに適用し、
現在のブロックのイントラ予測信号を取得するために、現在のブロックに一致するように予備的イントラ予測信号を再サンプリングするように構成される、装置も開示される。
【0008】
装置は、第2のテンプレートをダウンサンプリングして第1のテンプレートを取得することによって再サンプリングするように構成されることができる。
【0009】
装置は、予備的イントラ予測信号をアップサンプリングすることによって予備的イントラ予測信号を再サンプリングするように構成されることができる。
【0010】
装置は、予備的イントラ予測信号を空間ドメインから変換ドメインに変換し、変換ドメインにおいて予備的イントラ予測信号を再サンプリングするように構成されることができる。
【0011】
装置は、予備的イントラ予測信号の係数をスケーリングすることによって、変換ドメイン予備的イントラ予測信号を再サンプリングするように構成されることができる。
【0012】
装置は、
現在のブロックの次元に一致するようにイントラ予測信号の次元を増やし、
予備的イントラ予測信号の追加された係数であって、より高い周波数のビンに関連する追加された係数の係数をゼロパディングする
ことによって変換ドメイン予備的イントラ予測信号を再サンプリングするように構成されることができる。
【0013】
装置は、予測残差信号の逆量子化バージョンによって変換ドメイン予備的イントラ予測信号を構成するように構成されることができる。
【0014】
装置は、空間ドメインにおける予備的イントラ予測信号を再サンプリングするように構成されることができる。
【0015】
装置は、双一次補間を実行することによって予備的イントラ予測信号を再サンプリングするように構成されることができる。
【0016】
装置は、再サンプリングおよび/または異なる次元のニューラルネットワークの使用に関する情報をデータフィールドに符号化するように構成されることができる。
【0017】
データストリームから画像をブロック単位で復号するための装置(例えば、デコーダ)であって、
現在のブロックの隣接するサンプルの第1のセットをニューラルネットワークに適用して、現在のブロックの変換の変換係数のセットの予測を取得することによって、画像の現在のブロックのイントラ予測信号が判定される少なくとも1つのイントラ予測モードをサポートする、装置も開示される。
【0018】
データストリームに画像をブロック単位で符号化するための装置(例えば、エンコーダ)であって、
現在のブロックの隣接するサンプルの第1のセットをニューラルネットワークに適用して、現在のブロックの変換の変換係数のセットの予測を取得することによって、画像の現在のブロックのイントラ予測信号が判定される少なくとも1つのイントラ予測モードをサポートする、装置も開示される。
【0019】
装置の1つは、再構成された信号を取得するために予測を逆変換するように構成されることができる。
【0020】
装置の1つは、可変長コードを使用してデータストリームからインデックスを復号し、インデックスを使用して選択を実行するように構成されることができる。
【0021】
装置の1つは、イントラ予測モードのセットのランキングを判定し、その後、第2のテンプレートを再サンプリングするように構成されることができる。
【0022】
現在のブロックに隣接するサンプルの第2のテンプレートを再サンプリングして、第1のテンプレートに準拠し、再サンプリングされたテンプレートを取得することと、
サンプルの再サンプリングされたテンプレートをニューラルネットワークに適用し、予備的イントラ予測信号を取得することと、
現在のブロックに一致するように予備的イントラ予測信号を再サンプリングし、現在のブロックのイントラ予測信号を取得することと、
を備える方法が開示される。
【0023】
データストリームから画像をブロック単位で復号する方法であって、
現在のブロックの隣接するサンプルの第1のセットをニューラルネットワークに適用して、現在のブロックの変換の変換係数のセットの予測を取得することを備える、方法が開示される。
【0024】
データストリームに画像をブロック単位で符号化する方法であって、
現在のブロックの隣接するサンプルの第1のセットをニューラルネットワークに適用して、現在のブロックの変換の変換係数のセットの予測を取得することを備える、方法が開示される。
【0025】
上記および/または以下の方法は、上記および/または以下の少なくとも1つの装置を備える機器を使用することができる。
【0026】
コンピュータによって実行されると、コンピュータに上記および/または以下の方法を実行させ、および/または装置の少なくとも1つの構成要素において上記および/または以下を実装させる命令を含むコンピュータ可読記憶媒体も開示される。
【0027】
上記および/または以下のような方法によって、および/または上記および/または以下のような装置によって取得されるデータストリームも開示される。
【0028】
上述したニューラルネットワークの設計に関する限り、本出願は、そのパラメータを適切に判定するための多くの例を提供する。
【0029】
本出願の有利な実装は、従属請求項の対象である。本出願の好ましい例は、図に関して以下に記載される。
【図面の簡単な説明】
【0030】
【
図1】本出願の例が実装されることができる一般的な例として、画像をデータストリームに符号化するためのエンコーダを示す概略ブロック図を示している。
【
図2】
図1にかかるエンコーダのより具体的な例のブロック図を示している。
【
図3】
図1のエンコーダに適合し、本出願の例が実装されることができるデコーダの例として機能するデコーダを示す概略ブロック図を示している。
【
図4】
図2のエンコーダに適合する、
図3のデコーダのより具体的な例のブロック図を示している。
【
図5】イントラ予測を使用してブロックを処理することに関して、本出願の例にかかるエンコーダおよびデコーダの動作モードを示す概略図を示している。
【
図6】いくつかのニューラルネットワークベースのイントラ予測モードを含む本出願の例にかかるデコーダを示す概略ブロック図を示している。
【
図7a】ニューラルネットワークベースのイントラ予測モードと、使用されるイントラ予測モードがニューラルネットワークベースのイントラ予測モードのセットのメンバーであるかどうかを示すフレックとともに、データストリーム内でインデックスをニューラルネットワークベースのイントラ予測モードの順序付きリストに送信することによってこれらのモードのニューラルネットワークベースの順序付けとをサポートする例にかかるエンコーダおよびデコーダの動作モードを示す概略図を示している。判定90によって判定される異なる周波数を利用するために、インデックスが可変長符号化を使用して符号化され得ることは言うまでもない。
【
図7b】フレック信号化が使用されないという点で
図7aとは異なる概略図を示している。
【
図7c】モード順序付けがニューラルネットワークを使用して制御されないという点で
図7bとは異なる概略図を示している。
【
図7d】モード信号化におけるニューラルネットワーク支援が、モード順序付けではなく、エントロピー符号化/復号における確率分布推定を制御するために使用されるという点で、
図7aとは異なる概略図を示している。
【
図8】例にかかるニューラルネットワークベースのイントラ予測モードのセットを設計するための装置を示している。
【
図9a】ニューラルネットワークベースであるかどうかに関係なく、サポートされたイントラ予測モードを順序付けるためにニューラルネットワークが使用される例にかかるエンコーダおよびデコーダの動作モードを示す概略図を示している。
【
図9b】ニューラルネットワークベースが、サポートされているイントラ予測モードのセットへのインデックスのエントロピー復号/符号化のための確率分布推定を制御するために使用されるという点で、
図9aとは異なる概略図を示している。
【
図10】例にかかるブロックベースの画像符号化のための一連のイントラ予測モードの中から支援および選択するためのニューラルネットワークを設計するための装置を示している。
【
図12】例にかかるエンコーダおよびデコーダの動作モードを示す概略図を示している。
【発明を実施するための形態】
【0031】
以下では、イントラ予測を使用するときに、より効果的な圧縮を実現するのに役立つ様々な例について説明する。いくつかの例は、ニューラルネットワークベースの一連のイントラ予測モードを使用することにより、圧縮効率の向上を実現する。後者は、例えばヒューリスティックに設計された他のイントラ予測モードに追加されることも、排他的に提供されることもできる。他の例は、複数のイントラ予測モードの中から選択を実行するためにニューラルネットワークを使用する。そして、他の例でさえも、ここで記載される専門分野の双方を利用する。
【0032】
本出願の以下の例の理解を容易にするために、説明は、本出願のその後に概説される例を構築することができる、それに適合する可能なエンコーダおよびデコーダの提示から始まる。
図1は、画像10をデータストリーム12にブロック単位で符号化するための装置を示している。装置は、参照符号14を使用して示され、静止画像エンコーダまたはビデオエンコーダとすることができる。換言すれば、画像10は、画像10を含むビデオ16をデータストリーム12に符号化するようにエンコーダ14が構成されている場合、またはエンコーダ14が画像10をデータストリーム12に排他的に符号化することができる場合、ビデオ16からの現在の画像とすることができる。
【0033】
前述のように、エンコーダ14は、ブロック単位の方法またはブロックベースで符号化を実行する。このため、エンコーダ14は、画像10をブロックに細分割し、そのエンコーダ14のユニットは、画像10をデータストリーム12に符号化する。画像10のブロック18への可能な細分割の例は、以下により詳細に示されている。一般に、細分割は、行および列に配置されたブロックの配列などの一定サイズのブロック18に、または画像10の画像領域全体からまたは画像10の事前パーティションからツリーブロックのアレイへのマルチツリー再分割を開始する階層的マルチツリー細分割の使用などによる異なるブロックサイズのブロック18に終わる可能性があり、これらの例は、画像10をブロック18に細分割する他の可能な方法を除外するものとして扱われてはならない。
【0034】
さらに、エンコーダ14は、画像10をデータストリーム12に予測的に符号化するように構成された予測エンコーダである。特定のブロック18について、これは、エンコーダ14がブロック18の予測信号を判定し、予測残差、すなわち、予測信号がブロック18内の実際の画像コンテンツから逸脱する予測誤差をデータストリーム12に符号化することを意味する。
【0035】
エンコーダ14は、特定のブロック18の予測信号を導出するために、異なる予測モードをサポートすることができる。以下の例で重要である予測モードは、ブロック18の内部が、隣接する、既に符号化された画像10のサンプルから空間的に予測されるイントラ予測モードである。画像10のデータストリーム12への符号化、したがって対応する復号手順は、ブロック18の間で定義された特定の符号化順序20に基づくことができる。例えば、符号化順序20は、各行を左から右にトラバースしながら、上から下に行単位などのラスタスキャン順序でブロック18をトラバースすることができる。階層的マルチツリーベースの細分割の場合、ラスタスキャンの順序は、各階層レベル内で適用されることができ、深さ優先のトラバーサル順序が適用されることができる。すなわち、特定の階層レベルのブロック内のリーフノートは、符号化順序20にしたがって同じ親ブロックを有する同じ階層レベルのブロックに先行する。符号化順序20に応じて、ブロック18の隣接する、既に符号化されたサンプルは、通常、ブロック18の1つ以上の側に配置されることができる。本明細書に提示された例の場合、例えば、ブロック18の隣接する、既に符号化されたサンプルは、ブロック18の上部および左側に配置されている。
【0036】
エンコーダ14によってサポートされるのは、イントラ予測モードだけでなくてもよい。例えば、エンコーダ14がビデオエンコーダである場合、エンコーダ14はまた、ブロック18が以前に符号化されたビデオ16の画像から一時的に予測されるイントラ予測モードをサポートすることができる。そのようなイントラ予測モードは、ブロック18の予測信号がコピーとして導出される部分の相対的な空間オフセットを示す、そのようなブロック18に対して動きベクトルがシグナリングされる動き補償予測モードとすることができる。追加的にまたは代替的に、エンコーダ14がマルチビューエンコーダである場合のビュー間予測モード、またはブロック18の内部が現状のまま、すなわち予測なしで符号化される非予測モードなど、他の非イントラ予測モードも利用可能とすることができる。
【0037】
本出願の説明をイントラ予測モードに焦点を当てることから始める前に、可能なブロックベースのエンコーダのより具体的な例、すなわち、
図2に関して説明した、次にそれぞれ
図1および
図2に適合するデコーダの2つの対応する例を提示するようなエンコーダ14の可能な実装について説明する。
【0038】
図2は、
図1のエンコーダ14の可能な実装、すなわち、エンコーダが予測残差を符号化するために変換符号化を使用するように構成されるものを示しているが、これはほぼ例であり、本出願は、その種の予測残差符号化に限定されるものではない。
図2によれば、エンコーダ14は、インバウンド信号、すなわち画像10、またはブロックベースで現在のブロック18から対応する予測信号24を減算して、後に予測残差エンコーダ28によってデータストリーム12に符号化される予測残差信号26を取得するように構成された減算器22を備える。予測残差エンコーダ28は、不可逆符号化ステージ28aおよび可逆符号化ステージ28bから構成される。不可逆ステージ28aは、予測残差信号26を受信し、予測残差信号26のサンプルを量子化する量子化器30を備える。既に上述したように、本例は、予測残差信号26の変換符号化を使用し、したがって、不可逆符号化ステージ28aは、残差信号26を提示する変換された係数で行われる量子化器30の量子化によってスペクトル分解されたそのような予測残差26を変換するように、減算器22と量子化器30との間に接続された変換ステージ32を含む。変換は、DCT、DST、FFT、アダマール変換などとすることができる。次に、変換および量子化された予測残差信号34は、量子化予測残差信号34をデータストリーム12にエントロピー符号化するエントロピーコーダである可逆符号化ステージ28bによる可逆符号化を受ける。エンコーダ14は、変換および量子化された予測残差信号34から、デコーダでも利用可能な方法で予測残差信号を再構成するように、量子化器30の出力に接続された予測残差信号再構成ステージ36をさらに備える。すなわち、符号化損失を考慮するのは量子化器30である。この目的のために、予測残差再構成ステージ36は、量子化器30の量子化の逆を実行する逆量子化器38と、それに続く、上述した特定の変換例のいずれかの逆などのスペクトル分解の逆などの変換器32によって実行される変換に対して逆変換を実行する逆変換器40とを備える。エンコーダ14は、再構成された信号、すなわち再構成されたサンプルを出力するために、逆変換器40によって出力される再構成された予測残差信号と予測信号24とを加算する加算器42を備える。この出力は、エンコーダ14の予測器44に供給され、エンコーダ14は、それに基づいて予測信号24を判定する。
図1に関して既に上述した全ての予測モードをサポートするのは予測器44である。
図2はまた、エンコーダ14がビデオエンコーダである場合、エンコーダ14がまた、フィルタリングされた後、相互予測ブロックに関して予測器44の参照画像を形成する完全に再構成された画像をフィルタするインループフィルタ46を含むことができることを示している。
【0039】
既に上述したように、エンコーダ14は、ブロックベースで動作する。以降の説明では、対象のブロックベースは、画像10をブロックに細分割したものであり、そのブロックに対して、予測器44またはエンコーダ14によってそれぞれサポートされるセットまたは複数のイントラ予測モードからイントラ予測モードが選択され、選択されたイントラ予測モードは個別に実行される。しかしながら、画像10が細分割されている他の種類のブロックも同様に存在することがある。例えば、画像10がインターコード化されているかイントラコード化されているかに関する上記の判定は、粒度で、またはブロック18から逸脱したブロックの単位で行うことができる。例えば、モード間/モード内決定は、画像10が細分割され、各符号化ブロックが予測ブロックに細分割される符号化ブロックのレベルで実行されることができる。イントラ予測が使用されることが決定された符号化ブロックを有する予測ブロックは、それぞれ、イントラ予測モード決定に細分割される。これに対して、これらの予測ブロックのそれぞれについて、サポートされているどのイントラ予測モードをそれぞれの予測ブロックに使用するかが決定される。これらの予測ブロックは、ここで関心のあるブロック18を形成する。相互予測に関連する符号化ブロック内の予測ブロックは、予測器44によって異なって扱われるであろう。それらは、動きベクトルを判定し、動きベクトルによって指し示される参照画像内の位置からこのブロックの予測信号をコピーすることによって、参照画像から相互予測されるであろう。別のブロック細分割は、変換器32および逆変換器40による変換が実行されるユニットでの変換ブロックへの細分割に関係する。変換されたブロックは、例えば、符号化ブロックをさらに再分割した結果とすることができる。当然のことながら、ここに記載されている例は、限定的なものとして扱われるべきではなく、他の例も存在する。完全を期すためだけに、符号化ブロックへの細分割は、例えば、マルチツリー細分割を使用することができ、同様に、予測ブロックおよび/または変換ブロックは、マルチツリー細分割を使用して符号化ブロックをさらに細分割することによって取得できることに留意されたい。
【0040】
図1のエンコーダ14に適合するブロック単位復号のためのデコーダまたは装置が
図3に示されている。このデコーダ54は、エンコーダ14とは逆のことを行う。すなわち、データストリーム12から画像10をブロック単位で復号し、この目的のために、複数のイントラ予測モードをサポートする。デコーダ54は、例えば、残差プロバイダ156を含むことができる。
図1に関して上述した他の全ての可能性は、デコーダ54にも有効である。このため、デコーダ54は、静止画像デコーダまたはビデオデコーダとすることができ、全ての予測モードおよび予測可能性は、デコーダ54によってもサポートされる。エンコーダ14とデコーダ54との違いは、主に、エンコーダ14が、例えば、符号化速度および/または符号化歪みに依存することができるいくつかのコスト関数を最小化するためなど、何らかの最適化にしたがって符号化決定を選択または選択するという事実にある。これらの符号化オプションまたは符号化パラメータの1つは、利用可能なまたはサポートされているイントラ予測モードの中から、現在のブロック18に使用されるイントラ予測モードの選択を含むことができる。次に、選択されたイントラ予測モードは、データストリーム12内の現在のブロック18のエンコーダ14によって信号を送られ、デコーダ54は、ブロック18のデータストリーム12のこの信号化を使用して選択をやり直す。同様に、画像10のブロック18への細分割は、エンコーダ14内で最適化の対象とすることができ、対応する細分割情報は、データストリーム12内で伝達されることができ、デコーダ54は、細分割情報に基づいて画像10の細分割をブロック18に回復する。上記を要約すると、デコーダ54は、ブロックベースで動作する予測デコーダとすることができ、イントラ予測モードに加えて、デコーダ54は、例えば、デコーダ54がビデオデコーダである場合、相互予測モードなどの他の予測モードをサポートすることができる。復号において、デコーダ54はまた、
図1に関して記載された符号化順序20を使用することができ、この符号化順序20は、エンコーダ14およびデコーダ54の双方で従われるので、同じ隣接サンプルが、エンコーダ14およびデコーダ54の双方で現在のブロック18に利用可能である。したがって、不必要な繰り返しを回避するために、エンコーダ14の動作モードの説明は、例えば、予測に関する限り、および予測残差の符号化が関係する限りなど、画像10のブロックへの再分割に関する限り、デコーダ54にも適用されなければならない。違いは、エンコーダ14が、最適化によって、いくつかの符号化オプションまたは符号化パラメータおよび信号をデータストリーム12内で選択するか、またはデータストリーム12に挿入するという事実にあり、これらは、再分割など、予測をやり直すために、デコーダ54によってデータストリーム12から導出される。
【0041】
図4は、
図3のデコーダ54の可能な実装、すなわち、
図2に示されるように、
図1のエンコーダ14の実装に適合するものを示している。
図4のエンコーダ54の多くの要素は、
図2の対応するエンコーダで発生するものと同じであるため、これらの要素を示すために、アポストロフィを有する同じ参照符号が
図4で使用される。特に、加算器42’、オプションのインループフィルタ46’および予測器44’は、それらが
図2のエンコーダにあるのと同じ方法で予測ループに接続されている。追加された42’に適用される再構成された、すなわち逆量子化および再変換された予測残差信号は、エントロピーエンコーダ28bのエントロピー符号化を逆にするエントロピーデコーダ56のシーケンス、続いて符号化側の場合と同じように逆量子化器38’および逆変換器40’で構成される残差信号再構成ステージ36’によって導出される。デコーダの出力は、画像10の再構成である。画像10の再構成は、加算器42’の出力で直接、あるいは、インループフィルタ46’の出力で利用可能であり得る。画像品質を改善するために、画像10の再構成をいくつかのポストフィルタリングにかけるために、いくつかのポストフィルタがデコーダの出力に配置されることができるが、このオプションは
図4には示されていない。
【0042】
繰り返すが、
図4に関して、
図2に関して上に示した説明は、エンコーダが最適化タスクと符号化オプションに関する関連する決定を実行するだけであることを除いて、
図4にも有効である。しかしながら、ブロック細分割、予測、逆量子化、および再変換に関する全ての説明は、
図4のデコーダ54についても有効である。
【0043】
本出願の可能な例の説明に進む前に、上記の例に関していくつかの注記をしなければならない。上記で明示的に言及されていないが、ブロック18が任意の形状を有することができることは明らかである。それは、例えば、長方形または二次形状とすることができる。さらに、エンコーダ14およびデコーダ54の動作モードの上記の説明は、多くの場合に「現在のブロック」18に言及しているが、エンコーダ14およびデコーダ54は、イントラ予測モードが選択される各ブロックに対してそれに応じて作用することは明らかである。上述したように、他のブロックもあり得るが、以下の説明は、画像10が再分割され、イントラ予測モードが選択されるブロック18に焦点を当てている。
【0044】
イントラ予測モードが選択される特定のブロック18の状況を要約するために、
図5を参照する。
図5は、現在のブロック18、すなわち、現在符号化または復号されているブロックを示している。
図5は、隣接するサンプル62のセット60、すなわち、空間的に隣接するブロック18を有するサンプル62を示す。ブロック18内のサンプル64が予測対象である。したがって、導出される予測信号は、ブロック18内の各サンプル64の予測である。既に上述したように、各ブロック18に対して複数の66の予測モードが利用可能であり、ブロック18がイントラ予測される場合、この複数の66のモードは、単に相互予測モードを含む。隣接するサンプルセット60に基づいてブロック18の予測信号を予測(71)するために使用される複数の66からイントラ予測モードの1つを決定するために、エンコーダ側およびデコーダ側で選択68が実行される。以下にさらに説明する例は、利用可能なイントラ予測モード66および選択68に関する動作モード、例えば、ブロック18に関する選択68に関してサイド情報がデータストリーム12に設定されているかどうかに関して異なる。しかしながら、これらの例の説明は、数学的な詳細を提供する具体的な説明から始まる。この最初の例によれば、イントラ予測される特定のブロック18の選択は、対応するサイド情報信号化70およびデータストリームに関連付けられ、複数の66のイントラ予測モードは、ニューラルネットワークベースのイントラ予測モードのセット72およびヒューリスティック設計のさらなるイントラ予測モードのセット74を含む。セット74のイントラ予測モードの1つは、例えば、隣接するサンプルセット60に基づいてある平均値が判定され、この平均値は、ブロック18内の全てのサンプル64に割り当てられるDC予測モードとすることができる。追加的にまたは代替的に、セット74は、隣接するサンプルセット60のサンプル値が、そのような角度のイントラ予測モード間で異なるこの予測内方向で特定の予測内方向に沿ってブロック18にコピーされる角度相互予測モードと呼ばれ得る相互予測モードを含むことができる。
図5は、データストリーム12が、複数の66のイントラ予測モードのうちの選択68に関する必要に応じて存在するサイド情報70に加えて、上述したように、符号化が必要に応じて変換ドメインでの量子化を伴う変換符号化を含むことができる予測残差が符号化された部分76を含むことを示す。
【0045】
特に、本出願の特定の例の以下の説明の理解を容易にするために、
図6は、エンコーダおよびデコーダでのイントラ予測ブロックの一般的な動作モードを示している。
図6は、ブロック18と、イントラ予測が実行されることに基づいて設定された隣接するサンプル60とを示している。このセット60は、カーディナリティに関して、複数の66個のイントラ予測モードのイントラ予測モード間で変動し得ることに留意されたい。すなわち、セット60のサンプルの数は、ブロック18の予測信号を判定するためのそれぞれのイントラ予測モードにしたがって実際に使用される。しかしながら、これは理解を容易にするためのものであり、
図6には示されていない。
図6は、エンコーダおよびデコーダが、セット72のニューラルネットワークベースのイントラ予測モードのそれぞれに対して1つのニューラルネットワーク80
0から80
KB−1を有することを示している。セット60は、セット72の間で対応するイントラ予測モードを導出するために、それぞれのニューラルネットワークに適用される。これに加えて、
図6は、入力、すなわち隣接するサンプルのセット60、例えば、DCモード予測信号および/または角度イントラ予測モード予測信号など、セット74の1つ以上のイントラ予測モードの1つ以上の予測信号に基づいて提供するものとして1つのブロック82をかなり代表的に示している。以下の説明は、i=0・・・K
B−1を有するニューラルネットワーク80
iのパラメータがどのように有利に判定され得るかに関して示している。以下に示す特定の例はまた、エンコーダおよびデコーダに、セット60と一致してもしなくてもよい隣接するサンプルのセット86に基づいて、セット72内の各ニューラルネットワークベースのイントラ予測モードの確率値を提供することに専用の別のニューラルネットワーク84を提供する。したがって、確率値は、ニューラルネットワーク84がモード選択のためのサイド情報70をより効果的にレンダリングするのを支援するときに提供される。例えば、以下に説明する例では、可変長コードがイントラ予測モードの1つを指すために使用され、少なくともセット72に関する限り、ニューラルネットワーク84によって提供される確率値は、セット72内のニューラルネットワークベースのイントラ予測モードについてニューラルネットワーク84によって出力された確率値にしたがって順序付けられたイントラ予測モードの順序付けられたリストへのインデックスとしてサイド情報70内の可変長コードを使用し、それによってサイド情報70のコードレートを最適化または低減する。このため、
図6に示されるように、モード選択68は、さらなるニューラルネットワーク84によって提供される確率値と、データストリーム12内のサイド情報70の双方に応じて効果的に実行される。
1.イントラ予測を実行するニューラルネットワークのパラメータをトレーニングするアルゴリズム
ビデオフレームのブロック、すなわちブロック18を
[この文献は図面を表示できません]
とする。
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
ピクセルを有すると仮定する。固定色成分の場合、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
のビデオ信号の内容とする。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の要素と見なす。
[この文献は図面を表示できません]
ピクセルを有し、既に再構成された画像
[この文献は図面を表示できません]
が利用可能である
[この文献は図面を表示できません]
の隣接
[この文献は図面を表示できません]
が利用可能であると仮定する。すなわち、サンプルセット60および86は、代わりに異なってもよい。イントラ予測関数により、関数
[この文献は図面を表示できません]
を意味する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の予測器と見なす。
【0046】
次に説明するのは、データ駆動型最適化アプローチを介して、典型的なハイブリッドビデオ符号化標準、すなわちセット72で発生する可能性のあるいくつかのブロック
[この文献は図面を表示できません]
のイントラ予測関数を設計するアルゴリズムである。その目標を達成するために、以下の主要な設計機能を考慮に入れた。
【0047】
1.我々が実施する最適化アルゴリズムでは、特に予測残差を通知するために費やすことができると予想できるビット数を含む、コスト関数の適切な近似を使用したい。
【0048】
2.様々な信号特性を処理できるようにするために、いくつかのイントラ予測を共同でトレーニングしたい。
【0049】
3.イントラ予測をトレーニングするときは、どのイントラモードを使用するかを通知するために必要なビット数を考慮する必要がある。
【0050】
4.既に定義されているイントラ予測のセット、例えば、HEVCイントラ予測を保持し、補完的な予測として我々の予測をトレーニングする。
【0051】
5.典型的なハイブリッドビデオ符号化標準は、通常、特定のブロック
[この文献は図面を表示できません]
をパーティションすることができるいくつかのブロック形状をサポートする。
【0052】
次の4つのセクションでは、これらの各要件にどのように対処できるかを説明することができる。より正確には、セクション1.1では、最初の項目の処理方法について説明する。セクション1.2では、項目2から3の処理方法について説明する。セクション1.4では、項目4を考慮に入れる方法について説明する。最後に、セクション1.5では、最後の項目の処理方法について説明する。
1.1 ビデオコーデックのレート関数を近似する損失関数をトレーニングするアルゴリズム
ビデオコーデックで使用される未知のパラメータを判定するためのデータ駆動型アプローチは、通常、特定のトレーニング例のセットで事前定義された損失関数を最小化しようとする最適化アルゴリズムとして設定される。通常、数値最適化アルゴリズムが実際に機能するためには、後者の損失関数がいくつかの滑らかさの要件を満たす必要がある。
【0053】
一方、HEVCのようなビデオエンコーダは、レート歪みコスト
[この文献は図面を表示できません]
を最小限に抑える決定を下すときに最高の性能を発揮する。ここで、
[この文献は図面を表示できません]
は、復号されたビデオ信号の再構成エラーであり、
[この文献は図面を表示できません]
は、レート、すなわちビデオ信号を符号化するために必要なビット数である。さらに、
[この文献は図面を表示できません]
は、選択した量子化パラメータに依存するラグランジュパラメータである。
【0054】
真の関数
[この文献は図面を表示できません]
は、通常、非常に複雑であり、データ駆動型最適化アルゴリズムに供給することができる閉じた式では与えられない。したがって、関数
[この文献は図面を表示できません]
の全体または少なくともレート関数
[この文献は図面を表示できません]
のいずれかを区分的に滑らかな関数で近似する。
【0055】
より正確には、前と同じように、
[この文献は図面を表示できません]
をビデオフレーム10の所与のブロック1/とし、
[この文献は図面を表示できません]
を固定色成分における
[この文献は図面を表示できません]
についての対応するビデオ信号とする。
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
ピクセルを有すると仮定する。次に、予測候補
[この文献は図面を表示できません]
について、予測残差
[この文献は図面を表示できません]
を考慮する。与えられた量子化パラメータと与えられた変換について、
[この文献は図面を表示できません]
を真のビデオエンコーダが
[この文献は図面を表示できません]
の量子化された変換を信号で送る必要があるレートとする。さらに、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の逆量子化と逆変換によって発生する再構成エラーとする。次に、
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
の適切な近似として機能し、
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
の適切な近似として機能するように、区分的に滑らかな関数
[この文献は図面を表示できません]
を判定したい。
【0056】
関数
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
としてモデル化するように、一部の
[この文献は図面を表示できません]
を修正し、事前定義された「アーキテクチャ」、すなわち区分的に滑らかな関数
[この文献は図面を表示できません]
を修正した後に
[この文献は図面を表示できません]
を求める。
【0057】
重み
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
を決定するために、特定のハイブリッドビデオ符号化標準を使用する一般的なエンコーダにおいて、有限の大きなインデックスセット
[この文献は図面を表示できません]
のレート値
[この文献は図面を表示できません]
のみである、予測残差
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
のトレーニング例の膨大なセット、および対応するレート歪み値
[この文献は図面を表示できません]
をそれぞれ収集した。次に、式
[この文献は図面を表示できません]
を最小化するか、少なくとも小さくするように、
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
を見つけようとする。
【0058】
そのタスクでは、通常、(確率的)勾配降下法を使用する。
1.2 固定ブロック形状の予測のトレーニング
このセクションでは、特定のブロック
[この文献は図面を表示できません]
18、st72の予測、および既に再構成されたサンプルの領域
[この文献は図面を表示できません]
60の
[この文献は図面を表示できません]
イントラ予測を設計するために設定したアルゴリズムについて説明する。
【0059】
我々の予測の事前定義された「アーキテクチャ」が与えられていると仮定する。これにより、いくつかの固定された
[この文献は図面を表示できません]
に対して関数
[この文献は図面を表示できません]
(1)
が与えられ、我々のイントラ予測が
[この文献は図面を表示できません]
として与えられるように「重み」
[この文献は図面を表示できません]
を判定したいことを意味し、ここで、
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
(2)
とする。
【0060】
以下のセクションでは、この点について詳しく説明する。(2)の関数は、
図6のニューラルネットワーク80
0−80
KB−1を定義する。
【0061】
次に、第2のパラメータ依存関数
[この文献は図面を表示できません]
(3)
を使用することによって設計しようとするイントラモードの信号化コストをモデル化する。
【0062】
同様に、
[この文献は図面を表示できません]
については、
[この文献は図面を表示できません]
(4)
によって
[この文献は図面を表示できません]
を定義する。
【0063】
同様に、
図6のニューラルネットワーク84を表す(4)の関数を使用した例がセクション1.3に示されている。
【0064】
関数
[この文献は図面を表示できません]
が与えられていると仮定する。
【0065】
この関数は、例えば、サイド情報70に使用されるVLCコード長分布、すなわち、より多くのセット72のcadポナイトを有するサイド情報70によって関連付けられたコード長を定義する。
【0066】
次に、
[この文献は図面を表示できません]
によって
[この文献は図面を表示できません]
を定義する。
【0067】
差し当たって、
[この文献は図面を表示できません]
の
[この文献は図面を表示できません]
番目のコンポーネント
[この文献は図面を表示できません]
は、トレーニングする
[この文献は図面を表示できません]
番目のイントラモードを通知するために必要なビット数をモデル化する。
[この文献は図面を表示できません]
がセクション2.1で定義された関数である場合、
[この文献は図面を表示できません]
について、与えられた再構成された画像
[この文献は図面を表示できません]
と元の画像
[この文献は図面を表示できません]
に対して、
[この文献は図面を表示できません]
は全ての
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
であるプロパティで最小
[この文献は図面を表示できません]
を示すものとする。
[この文献は図面を表示できません]
は、イントラモードの特異化のために真のビット数をモデル化するため、その勾配は、ゼロまたは未定義のいずれかである。したがって、最急降下法に基づくアルゴリズムを介して重み
[この文献は図面を表示できません]
を最適化するには、
[この文献は図面を表示できません]
だけでは十分ではない。したがって、softmax関数を使用して関数
[この文献は図面を表示できません]
を確率分布に変換することにより、イントラモードのクロスエントロピーも呼び出す。後者の関数の定義に留意されたい。
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
は
[この文献は図面を表示できません]
のi番目のコンポーネントを示すものとする。次に、softmax関数
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
のように定義される。
【0068】
勾配の更新では、残差の割合と、後者の確率分布に関するモード
[この文献は図面を表示できません]
のクロスエントロピーの合計を最小化しようとする。したがって、ブロック
[この文献は図面を表示できません]
の損失関数
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
[この文献は図面を表示できません]
(5)
のように定義する。ここで、
[この文献は図面を表示できません]
である。
【0069】
(5)の損失関数が与えられると、データ駆動型最適化によって重み
[この文献は図面を表示できません]
を決定する。したがって、有限で大きなインデックスセット
[この文献は図面を表示できません]
の場合、
[この文献は図面を表示できません]
[この文献は図面を表示できません]
の画像
[この文献は図面を表示できません]
とそれに対応する再構成された
[この文献は図面を表示できません]
の画像
[この文献は図面を表示できません]
のトレーニング例のセットが与えられ、例えば、(確率的)勾配降下法に基づく最適化アルゴリズムを適用して、式
[この文献は図面を表示できません]
(6)
を最小化する重み
[この文献は図面を表示できません]
を見つける。
1.3 関数
[この文献は図面を表示できません]
およびの仕様
このセクションでは、関数
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
の形式をより正確に定義する。同様に、ニューラルネットワーク80および84を定義するものに留意されたい。これらの関数のそれぞれは、1)アフィン変換
[この文献は図面を表示できません]
または2)非線形活性化関数
[この文献は図面を表示できません]
のいずれかである関数の一連の構成で構成されている。
【0070】
アフィン変換
[この文献は図面を表示できません]
により、
[この文献は図面を表示できません]
の形式の写像を意味する。ここで、
[この文献は図面を表示できません]
は線形変換であり、すなわち、全ての
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
を満たし、ここで、
[この文献は図面を表示できません]
である。各線形写像
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
の行列によって完全に決定され、すなわち、ベクトル
[この文献は図面を表示できません]
に一意に対応する。したがって、各アフィン関数
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
重み、すなわちベクトル
[この文献は図面を表示できません]
によって完全に決定される。各
[この文献は図面を表示できません]
について、前述の方法で
[この文献は図面を表示できません]
に対応する固有のアフィン変換について
[この文献は図面を表示できません]
を記述する。
【0071】
非線形活性化関数
[この文献は図面を表示できません]
により、
[この文献は図面を表示できません]
の形式の関数を意味する。
【0072】
ここで、
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
の
[この文献は図面を表示できません]
番目のコンポーネントを示し、
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
の
[この文献は図面を表示できません]
番目のコンポーネントを示す。最後に、
[この文献は図面を表示できません]
は、形式
[この文献は図面を表示できません]
(7)
または形式
[この文献は図面を表示できません]
(8)
からなることができるが、これらの例は、本出願の例をこれらの明示的な例に限定するものとして解釈されるべきではない。
[この文献は図面を表示できません]
または任意の他の非線形関数などの他の式も同様に使用することができる。あるいは、
[この文献は図面を表示できません]
は、例えば、区分的に滑らかな関数であってもよい。
【0073】
関数
[この文献は図面を表示できません]
は、ここで以下のように見える。固定された
[この文献は図面を表示できません]
の場合、
[この文献は図面を表示できません]
ように、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
を有する
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
が与えられていると仮定する。
【0074】
ここで、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
は、(1)におけるものと同じである。次に、
[この文献は図面を表示できません]
を有する
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
のように定義する。
【0075】
したがって、
[この文献は図面を表示できません]
は、パラメータ
[この文献は図面を表示できません]
を使用してパラメータ化されたニューラルネットワーク80
iを記述する。これは、線形関数
[この文献は図面を表示できません]
と非線形関数
[この文献は図面を表示できません]
のシーケンスであり、この例では、シーケンス内で交互に適用され、パラメータ
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
の線形関数重みを含む。線形関数
[この文献は図面を表示できません]
と非線形関数
[この文献は図面を表示できません]
のシーケンスでは、非線形関数
[この文献は図面を表示できません]
が続く線形関数
[この文献は図面を表示できません]
のペアは、例えば、
[この文献は図面を表示できません]
の次元mによって決定されるニューラルネットワークのフィードフォワード方向におけるこのニューロン層jの前に先行ノードの数、
[この文献は図面を表示できません]
の列の数、およびその行の数である
[この文献は図面を表示できません]
の次元nによって決定されるニューロン層j自体のニューロンの数を有するj番目の層などのニューロン層を表す。
[この文献は図面を表示できません]
の各行には、m個の先行ニューロンのそれぞれの信号強度のそれぞれの活性化がそれぞれの行に対応するニューロン層jのそれぞれのニューロンに転送される強度を制御する重みが組み込まれている。
[この文献は図面を表示できません]
は、ニューロン層jの各ニューロンを制御し、転送された先行ニューロンの活性化の線形結合をそれ自体の活性化に非線形マッピングする。上記の例では、
[この文献は図面を表示できません]
のそのようなニューロン層がある。層ごとのニューロンの数は異なる場合がある。ニューロン層
[この文献は図面を表示できません]
の数は、様々なニューラルネットワーク80
j間で、すなわち、異なるjについて変化し得る。非線形関数は、ニューロン層ごとに、あるいはニューロンごとに、あるいは他のいくつかのユニットでさえも変化する可能性があることに留意されたい。
【0076】
同様に、関数
[この文献は図面を表示できません]
は、以下のように見える。固定された
[この文献は図面を表示できません]
の場合、
[この文献は図面を表示できません]
ように、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
を有する
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
が与えられていると仮定する。
【0077】
ここで、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
は、(3)におけるものと同じである。次に、
[この文献は図面を表示できません]
を有する
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
のように定義する。
したがって、
[この文献は図面を表示できません]
は、パラメータ
[この文献は図面を表示できません]
を使用してパラメータ化されたニューラルネットワーク84を記述する。これは、予測信号の計算に関するニューロン層に関して上で説明したように、線形関数
[この文献は図面を表示できません]
および非線形関数
[この文献は図面を表示できません]
のシーケンスであろう。ニューラルネットワーク84のニューロン層の数
[この文献は図面を表示できません]
は、ニューラルネットワーク80
iのニューロン層の数
[この文献は図面を表示できません]
のうちの1つ以上とは異なることができる。
1.4 既存の予測を考慮したトレーニング
既存のイントラ予測を補完する予測をトレーニングできるように前のセクションのアルゴリズムを拡張した。
【0078】
すなわち、
[この文献は図面を表示できません]
を既に利用可能な固定イントラ予測関数のセットとする。例えば、
[この文献は図面を表示できません]
は、HEVCのDC予測または平面予測とHEVCにしたがって定義された角度予測から構成されることができ、これら全ての予測にはまた、再構成されたサンプルの予備的な平滑化も含むことができる。さらに、
[この文献は図面を表示できません]
が、
[この文献は図面を表示できません]
が与えられた元の画像
[この文献は図面を表示できません]
に適用された
[この文献は図面を表示できません]
番目のイントラ予測関数
[この文献は図面を表示できません]
の損失をモデル化するように、関数
[この文献は図面を表示できません]
が与えられていると仮定する。
【0079】
次に、損失関数を(5)から損失関数
[この文献は図面を表示できません]
(9)
[この文献は図面を表示できません]
に拡張する。
【0080】
トレーニング例の大規模なセットについて、前のセクションの終わりからの表記を維持し、
[この文献は図面を表示できません]
(10)
を最小化することによって重み
[この文献は図面を表示できません]
を決定する。
【0081】
そのために、通常、最初に最適化(6)によって重みを見つけ、次にそれらの重みで初期化して、最適化する重み(10)を見つける。
1.5 いくつかのブロック形状の予測の共同トレーニング
このセクションでは、予測のトレーニングにおいて、一般的なビデオ符号化標準では、ブロックを様々な方法で小さなサブブロックに分割し、小さなサブブロックでイントラ予測を実行することが通常可能であることを考慮に入れる方法について説明した。
【0082】
すなわち、いくつかの
[この文献は図面を表示できません]
について、各
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
の隣接であるように、一連の領域
[この文献は図面を表示できません]
とともに許容されるブロック
[この文献は図面を表示できません]
のセット
[この文献は図面を表示できません]
が与えられていると仮定する。通常は、
[この文献は図面を表示できません]
は、左上の2つの矩形
[この文献は図面を表示できません]
の和集合である。
【0083】
各
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
であるように、ブロック
[この文献は図面を表示できません]
が存在すると仮定する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
のべき集合とする。次に、各
[この文献は図面を表示できません]
について、ブロック
[この文献は図面を表示できません]
が互いに素な和集合
[この文献は図面を表示できません]
として記述できるように、
[この文献は図面を表示できません]
について、
セット
[この文献は図面を表示できません]
が与えられる。
【0084】
与えられた色成分について、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の画像とし、これは、制限により、各
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
の画像
[この文献は図面を表示できません]
と見なされる。さらに、
[この文献は図面を表示できません]
の再構成された画像
[この文献は図面を表示できません]
が存在すると仮定し、これは、制限により、各
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
の画像
[この文献は図面を表示できません]
と見なされる。
【0085】
セクション1.2の表記を維持しながら、各
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
イントラ予測関数
[この文献は図面を表示できません]
の重みのセットとして
[この文献は図面を表示できません]
を求め、モード予測関数
[この文献は図面を表示できません]
の重みとして
[この文献は図面を表示できません]
を求める。これらの重みを全ての
[この文献は図面を表示できません]
について共同で以下のように決定する。
[この文献は図面を表示できません]
および与えられた重みのセット
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
とする。
【0086】
さらに、
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
のように
[この文献は図面を表示できません]
を定義する。
【0087】
セクション1.4と同様に、各
[この文献は図面を表示できません]
について、空の可能性のあるイントラ予測関数のセット
[この文献は図面を表示できません]
が利用可能であると仮定する。
[この文献は図面を表示できません]
とする。
【0088】
次に、損失関数
[この文献は図面を表示できません]
を以下のように定義する。セットを含めてセット
[この文献は図面を表示できません]
における順序付け
[この文献は図面を表示できません]
を有する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の全ての最小要素のセットとする。
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
とし、ここで、後者の関数は、(9)におけるものと同じである。
【0089】
次に、
[この文献は図面を表示できません]
とし、
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
によって全ての
[この文献は図面を表示できません]
について既に定義されていると仮定する。
【0090】
次に、
[この文献は図面を表示できません]
[この文献は図面を表示できません]
を定義する。
【0091】
最後に、
[この文献は図面を表示できません]
の
[この文献は図面を表示できません]
画像のトレーニング例の固定セット
[この文献は図面を表示できません]
が与えられ、
式
[この文献は図面を表示できません]
を最小化するか、少なくとも小さくすることによって、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
を決定する。
【0092】
通常、最初に各
[この文献は図面を表示できません]
について(9)を個別に最小化することにより、重み
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
を初期化する。
2 トレーニングされたニューラルネットワークのビデオコーデックへの統合
特定の色成分について、特定のブロック
[この文献は図面を表示できません]
上のビデオ信号のコンテンツがデコーダによって生成されるハイブリッドビデオ符号化標準を検討する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
のピクセル数とする。さらに、
[この文献は図面を表示できません]
を、デコーダが
[この文献は図面を表示できません]
の再構成された画像
[この文献は図面を表示できません]
を自由に使えるように、
[この文献は図面を表示できません]
の固定された隣接とする。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
のピクセル数とする。次に、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の要素と見なす。コーデックは、現在のブロック
[この文献は図面を表示できません]
10の予測符号化によって動作すると仮定する。次に、
[この文献は図面を表示できません]
の予測信号
[この文献は図面を表示できません]
を生成するためにデコーダが実行できる以下の手順の著作権を主張する。これは、
[この文献は図面を表示できません]
の要素と見なされる:
1.デコーダは、その自由の固定数
[この文献は図面を表示できません]
において関数
[この文献は図面を表示できません]
、すなわち84
を有するとともに、重み
[この文献は図面を表示できません]
および重み
[この文献は図面を表示できません]
を有し、後者の重みは、前のセクションで説明したトレーニングアルゴリズムによって事前に決定される。
【0093】
2.デコーダは、サイド情報70の一部であるフラグをビットストリームから再構成し、次のオプションのいずれかが真であるかどうかを示す:[label=)
【0094】
(i)予測
[この文献は図面を表示できません]
の1つ、すなわち、セット72からのモードが使用され
【0095】
(ii)予測
[この文献は図面を表示できません]
は使用されず、すなわち、例えば、74から1つである
ここで、関数
[この文献は図面を表示できません]
は、(2)におけるものと同じである。
【0096】
3.ステップ2のオプション2が真の場合、デコーダは、基礎となるハイブリッドビデオ符号化標準の場合と同様に、指定されたブロック10に進む。
【0097】
4.ステップ2のオプション1が真である場合、デコーダは、(4)にしたがって定義された関数
[この文献は図面を表示できません]
、すなわち84を再構成された画像
[この文献は図面を表示できません]
に適用する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
として定義する。次に、デコーダが以下の2つのオプションのうちの正確に1つによって数値
[この文献は図面を表示できません]
を定義するように標準が変更される
【0098】
(i)デコーダは、
[この文献は図面を表示できません]
によってセット
[この文献は図面を表示できません]
の確率分布
[この文献は図面を表示できません]
を定義し、後者の確率分布
[この文献は図面を表示できません]
を使用して、データストリーム12からの基礎となる標準で使用され且つ
[この文献は図面を表示できません]
を定義するエントロピー符号化エンジンを介してサイド情報70の一部でもあるインデックス
[この文献は図面を表示できません]
を解析する。
【0099】
(ii)デコーダは、
[この文献は図面を表示できません]
を置くことによって帰納的に順列
[この文献は図面を表示できません]
を定義する。ここで、
[この文献は図面を表示できません]
は、全ての
[この文献は図面を表示できません]
についての且つ
[この文献は図面を表示できません]
を置くことによる
[この文献は図面を表示できません]
を有する最小数であり、
[この文献は図面を表示できません]
は、全ての
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
を有するような最小数である。
【0100】
次に、デコーダは、ビットストリーム12から、データストリーム12の一部でもある一意のインデックス
[この文献は図面を表示できません]
を再構成し、
[この文献は図面を表示できません]
を置く。
【0101】
後者のインデックス
[この文献は図面を表示できません]
を解析するコード設計では、
[この文献は図面を表示できません]
である場合且つエントロピー符号化エンジンによって使用される全ての関連する基礎となる確率が等しい確率に設定される場合、インデックス
[この文献は図面を表示できません]
を通知するために必要なビット数がインデックス
[この文献は図面を表示できません]
を通知するためのビット数以下である必要がある。
【0102】
5.ステップ2のオプション1が真であり且つデコーダが前のステップ4にしたがってインデックス
[この文献は図面を表示できません]
を決定した場合、デコーダは、すなわち、選択されたニューラルネットワーク80
mを使用して、
[この文献は図面を表示できません]
として予測信号
[この文献は図面を表示できません]
を生成する71。次に、デコーダは、予測信号として
[この文献は図面を表示できません]
を使用して、基礎となるハイブリッドビデオ符号化標準のように進める。
【0103】
データ駆動型学習アプローチに基づいて設計されたイントラ予測機能の既存のハイブリッドビデオコーデックへの統合。説明は2つの主要な部分を有した。第1の部分では、イントラ予測関数のオフライントレーニングのための具体的なアルゴリズムについて説明した。第2の部分では、ビデオデコーダが後者の予測関数を使用して、特定のブロックの予測信号を生成する方法について説明した。
【0104】
したがって、上記のセクション1.1から2で説明されたものは、とりわけ、データストリーム12から画像10をブロック単位で復号するための装置である。装置54は、少なくとも、画像10の現在のブロック18のイントラ予測信号が、ニューラルネットワーク80
iへの現在のブロック18の隣接するサンプルの第1のセット60を適用することによって決定されるイントラ予測モードのセット72を含む複数のイントラ予測モードをサポートする。装置54は、複数のイントラ予測モード66から現在のブロック18に対して1つのイントラ予測モードを選択(68)し、1つのイントラ予測モードを使用して、すなわち、選択された対応するニューラルネットワーク80
mを使用して、現在のブロック18を予測(71)するように構成される。セクション2に提示されたデコーダは、セット72のニューラルネットワークベースのものに加えて、サポートされた複数のイントラ予測モードの複数の66内のイントラ予測モード74を有したが、これは単なる例であり、そうである必要はない。さらに、セクション1および2の上記の説明は、デコーダ54がさらなるニューラルネットワーク84を使用せず、それを含まないという点で変更されてもよい。上記の最適化に関して、これは、知見
[この文献は図面を表示できません]
についてセクション1.2で提示された内部品質の第2の加算器が、確率値ニューラルネットワーク関数G
Bに適用された関数M
Bの連結である必要がないことを意味する。むしろ、選択の頻度がM
Bのコードレート表示に適切にしたがうように、ニューラルネットワーク80
iに適切なパラメータを決定するものの最適化アルゴリズムである。例えば、デコーダ54は、可変長コードを使用してブロック18のインデックスをデータストリーム12から復号することができ、そのコード長はM
Bで示され、デコーダ54は、このインデックスに基づいて選択68を実行する。インデックスは、サイド情報70の一部であろう。
【0105】
上記のセクション2で提示された説明のさらなる代替案は、デコーダ54が、データストリームの第1の部分以外の第2の部分に応じて、イントラ予測モードの順序付きリストから最終的に使用されるイントラ予測モードを選択してイントラ予測モードの順序付きリストを取得するために、現在のブロック18の隣接に関連するデータストリームの第1の部分に応じて、ニューラルネットワークベースのイントラ予測モードのセット72の間でランキングを代わりに導出することができることである。「第1の部分」は、例えば、現在のブロック18に隣接する1つ以上のブロックに関連する符号化パラメータまたは予測パラメータに関連することができる。そして、「第2の部分」は、例えば、ニューラルネットワークベースのイントラ予測モードセット72を指し示すインデックスか、またはそのインデックスとすることができる。上に概説したセクション2と整合して解釈される場合、デコーダ54は、セット72の各イントラ予測モードのランクを決定するためにこれらの確率値を順序付けし、それによってイントラ予測モードの順序付けられたリストを取得するために、イントラ予測モードのセット72の各イントラ予測モードについて、隣接するサンプルのセット86をその上に適用することによって確率値を決定するさらなるニューラルネットワーク84を備える。次に、サイド情報70の一部としてのデータストリーム12内のインデックスが、順序付きリストへのインデックスとして使用される。ここで、このインデックスは、M
Bがコード長を示す可変長コードを使用して符号化されることができる。そして、セクション2において上で説明したように、項目4iにおいて、さらなる代替例によれば、デコーダ54は、セット72へのインデックスのエントロピー符号化を効率的に実行するために、セット72の各ニューラルネットワークベースのイントラ予測モードについて、さらなるニューラルネットワーク84によって決定された上記の確率値を使用することができる。特に、サイド情報70の一部であり、セット72へのインデックスとして使用されるこのインデックスのシンボルアルファベットは、セット72内の各モードのシンボルまたは値を含み、ニューラルネットワーク84によって提供される確率値は、上記の説明にかかるニューラルネットワーク84の設計の場合、これらの確率値が実際のシンボル統計を厳密に表すという点で、効率的なエントロピー符号化につながる確率値を提供する。このエントロピー符号化には、例えば算術符号化、または確率区間分割エントロピー(PIPE)符号化を使用することができる。
【0106】
有利には、セット72のどのイントラ予測モードについても追加情報は必要ない。各ニューラルネットワーク80
iは、例えば、セクション1および2の上記の説明にしたがってエンコーダおよびデコーダ用に有利にパラメータ化されると、データストリームに追加のガイダンスなしで現在のブロック18の予測信号を導出する。既に上で示したように、セット72のニューラルネットワークベースのモード以外の他のイントラ予測モードの存在は任意である。それらは、セット74によって上に示されている。これに関して、セット60、すなわち、予測内71の入力を形成する隣接するサンプルのセットを選択する1つの可能な方法は、このセット60がセット74のイントラ予測モードについて同じであるようなもの、すなわちヒューリスティックなものであり得ることに留意されたい。ニューラルネットワークベースのイントラ予測モードのセット60は、セット60に含まれ且つイントラ予測71に影響を与える隣接サンプルの数の点で大きくなっている。換言すれば、セット60のカーディナリティは、セット74の他のモードと比較して、ニューラルネットワークベースのイントラ予測モード72の方が大きくすることができる。例えば、セット74の任意のイントラ予測モードのセット60は、左側のものおよび上部のものなどのブロック18の側面に沿って延びる一次元線に沿った隣接するサンプルを単に含むことができる。ニューラルネットワークベースのイントラ予測モードのセット60は、ブロック18のちょうど言及された側面に沿って延びるが、セット74のイントラ予測モードのセット60のように1サンプル幅よりも広いL字型部分をカバーすることができる。L字型部分は、ブロック18のちょうど述べた側面を超えてさらに延びることができる。このようにして、ニューラルネットワークベースのイントラ予測モードは、対応して低い予測残差でより良いイントラ予測をもたらすことができる。
【0107】
上記のセクション2で説明したように、データストリーム12でイントラ予測ブロック18に伝達されるサイド情報70は、ブロック18に対して選択されたイントラ予測モードがセット72のメンバーであるかまたはセット74のメンバーであるかを一般に示すフレックを含むことができる。しかしながら、このフレックは、例えば、セット72および74の双方を含む複数のイントラ予測モード全体66へのインデックスを示すサイド情報70を伴う単なるオプションである。
【0108】
以下では、ちょうど記載された代替案が、
図7aから
図7dに関して簡単に記載される。図は、デコーダおよびエンコーダの双方を同時に、すなわち、イントラ予測ブロック18に関するそれらの機能の観点から定義している。イントラ符号化ブロック18に関するエンコーダ動作モードとデコーダ動作モードとの違いは、一方では、エンコーダが利用可能なイントラ予測モード66の全てまたは少なくともいくつかを実行し、例えば、意味を最小化するコスト関数の観点から最適なものを90で決定し、エンコーダがデータストリーム12を形成する、すなわちコードがそこに日付を記入し、デコーダがそれぞれ復号および読み取りによってそこからデータを導出するという事実である。
図7aは、ブロック18のサイド情報70内のフラグ70aが、セット72内、すなわち、ニューラルネットワークベースのイントラ予測モードである、またはセット74内、すなわち、非ニューラルネットワークベースのイントラ予測モードの1つである、ステップ90でエンコーダによってブロック18にとって最良のモードであると決定されたイントラ予測モードであるかどうかを示す、上記で概説した代替案の動作モードを示す。エンコーダは、それに応じてフラグ70aをデータストリーム12に挿入する一方で、デコーダは、フラグ70aをそこから検索する。
図7aは、決定されたイントラ予測モード92がセット72内にあると仮定している。次に、別個のニューラルネットワーク84は、セット72の各ニューラルネットワークベースのイントラ予測モードの確率値を決定し、これらの確率値セット72を使用して、またはより正確には、その中のニューラルネットワークベースのイントラ予測モードは、確率値の降順などの確率値にしたがって順序付けられ、それにより、イントラ予測モードの順序付きリスト94をもたらす。次に、サイド情報70の一部であるインデックス70bは、エンコーダによってデータストリーム12に符号化され、そこからデコーダによって復号される。したがって、デコーダは、セット72および74のどのセットを決定することができる。ブロック18に使用されるイントラ予測モードは、使用されるイントラ予測モードがセット72に位置する場合、セット72の順序付け96を実行するように位置する。決定されたイントラ予測モードがセット74に位置する場合、インデックスもまた、データストリーム12で送信されることができる。したがって、デコーダは、それに応じて選択68を制御することによって、決定されたイントラ予測モードを使用して、ブロック18の予測信号を生成することができる。
【0109】
図7bは、フラグ70aがデータストリーム12に存在しない代替案を示している。代わりに、順序付けられたリスト94は、セット72のイントラ予測モードだけでなく、セット74のイントラ予測モードも含むであろう。サイド情報70内のインデックスは、このより大きな順序のリストへのインデックスであり、決定されたイントラ予測モード、すなわち、決定されたものが最適化90であることを示す。ニューラルネットワークベースのイントラ予測モードの確率値を72内でのみ提供するニューラルネットワーク84の場合、セット74のイントラ予測モードに対するセット72のイントラ予測モード間のランキングは、セット72のニューラルネットワークベースのイントラ予測モードを、順序リスト94のセット74のモードに先行するように、またはそれらを互いに交互に配置するように必然的に配置するなどの他の手段によって決定することができる。すなわち、デコーダは、データストリーム12からインデックスを導出することができ、ニューラルネットワーク84によって出力された確率値を使用して複数のイントラ予測モード66からオーダーリスト94を導出することにより、オーダーリスト94へのインデックスのようにインデックス70を使用する。
図7cは、さらなる変形を示している。
図7cは、フラグ70aを使用しない場合を示しているが、フラグは代わりに使用することができる。
図7cが対象とする問題は、エンコーダもデコーダもニューラルネットワーク84を使用しない可能性に関係している。むしろ、順序付け96は、1つ以上の隣接ブロック18、すなわち、そのような1つ以上の隣接ブロックに関係するデータストリーム12の部分98に関してデータストリーム12内で伝達される符号化パラメータなどの他の手段によって導出される。
【0110】
図7dは、
図7aのさらなる変形、すなわち、インデックス70bがエントロピー符号化を使用して符号化され、一般に参照符号100を使用して示されるエントロピー復号を使用してデータストリーム12から復号されるものを示している。エントロピー符号化100に使用されるサンプル統計または確率分布は、上で説明したようにニューラルネットワーク84によって出力される確率値によって制御され、これは、インデックス70bのエントロピー符号化を非常に効率的にする。
【0111】
全ての例7aから7dについて、セット74のモードが存在しない可能性があることは事実である。したがって、それぞれのモジュール82が欠落している可能性があり、フラグ70aは、とにかく不要である。
【0112】
さらに、どの図にも示されていないが、エンコーダおよびデコーダでのモード選択68は、明示的なシグナリング70がなくても、すなわち、サイド情報を消費することなく、互いに同期できることは明らかである。むしろ、選択は、必然的に順序付きリスト94の最初のものをとることによって、または1つ以上の隣接ブロックに関連する符号化パラメータに基づいて順序リスト94にインデックスを導出することによってなどの他の手段から導出することができる。
図8は、ブロックベースの画像符号化に使用されるセット72のイントラ予測モードのセットを設計するための装置を示している。装置108は、ニューラルネットワーク80
0から80
KB−1のパラメータ化可能なバージョン、ならびにニューラルネットワーク84を継承または含むパラメータ化可能なネットワーク109を備える。ここで、
図8では、個々のユニットとして、すなわち、ニューラルネットワークベースのイントラ予測モード0の確率値を提供するためのニューラルネットワーク84
0から、ニューラルネットワークベースのイントラ予測モードK
B−1内に関連する確率値を提供するためのニューラルネットワーク84
KB−1まで示されている。ニューラルネットワーク84をパラメータ化するためのパラメータ111およびニューラルネットワーク80
0から80
KB−1をパラメータ化するためのパラメータ113は、アップデータ110によってこれらのニューラルネットワークのそれぞれのパラメータ入力に入力または適用される。装置108は、対応する隣接するサンプルセット116とともに、リザーバまたは複数の画像テストブロック114へのアクセスを有する。これらのブロック114の対およびそれらに関連する隣接するサンプルセット116は、装置108によって順次使用される。特に、現在の画像テストブロック114は、パラメータ化可能なニューラルネットワーク109に適用され、ニューラルネットワーク80は、セット72の各ニューラルネットワークベースのイントラ予測モードに予測信号118を提供し、各ニューラルネットワーク80は、これらのモードのそれぞれに確率値を提供する。この目的のために、これらのニューラルネットワークは、現在のパラメータ111および113を使用する。
【0113】
上記の説明では、recは、画像テストブロック114を示すために使用されており、
[この文献は図面を表示できません]
(rec)は、モードBの予測残差118であり、確率値
[この文献は図面を表示できません]
(rec)は、確率値120である。各モード0・・・K
b−1について、それぞれのモードについて得られた予測信号118に基づいてそれぞれのモードのコスト推定値を計算する装置108によって構成されるコスト推定器122が存在する。上記の例では、コスト推定器122は、セクション1.2の不等式の左側および右側に示されているように、コスト推定値を計算した。すなわち、ここで、コスト推定器122はまた、各モードについて、対応する確率値120を使用した。しかしながら、これは、既に上で説明したように当てはまる必要はない。しかしながら、コスト推定は、いずれの場合も2つのアドインの合計であり、そのうちの一方は、上記の不等式内の
[この文献は図面を表示できません]
を有する項として示される予測残差の符号化コストの推定であり、他方は、モードを示すために符号化コストを推定するアドインである。予測残差に関連する符号化コストの推定値を計算するために、コスト推定器122はまた、現在の画像テストブロック114の元の内容を取得する。ニューラルネットワーク80および84は、それらの入力において、対応する隣接するサンプルセット116を適用した。コスト推定器122によって出力されたコスト推定値124は、最小コスト推定値を最小化するか、またはそれに関連する最小コスト推定値を有するモードを決定する最小コストセレクタ126によって受信される。上記の数学表記では、これは、
[この文献は図面を表示できません]
であった。アップデータは、この最適モードを受信し、最低の符号化推定値のイントラ予測モードに対して得られた予測信号118に応じて残差レート推定値を形成する第1のアドインと、セレクタ126によって示されるように、予測信号および最小の符号化コスト推定のイントラ予測モードについて得られた確率値に依存するサイド情報レート推定値をシグナリングするモードを形成する第2のアドインとを有する符号化コスト関数を使用する。上に示したように、これは、離れた勾配を使用して行うことができる。したがって、符号化コスト関数は、微分可能であり、上記の数学的表現では、この関数の例が式5に示されている。ここで、モードシグナリングサイド情報レート推定に関連する第2のアドインは、最小の符号化コスト推定のイントラ予測モードのクロスエントロピーを計算した。
【0114】
したがって、アップデータ110は、符号化コスト関数を低減するようにパラメータ111および113を更新しようとし、次に、これらの更新されたパラメータ111および113は、複数の112の次の画像テストブロックを処理するためにパラメータ化可能なニューラルネットワーク109によって使用される。セクション1.5に関して上述したように、主にそれらの画像テストブロック114のペアおよびそれらに関連する隣接するサンプルセット116が、レート歪みの意味で、イントラ予測が行われる再帰的更新プロセスに適用されることを制御するメカニズムが存在することができ、好ましくは、ブロックの再分割なしで行われ、それによって、パラメータ111および113が、とにかく、そのサブブロックの単位での符号化がより費用効果が高い画像テストブロックに基づいて過度に最適化されることを回避する。
【0115】
これまでのところ、上記の例は、主に、エンコーダおよびデコーダがサポートされているイントラ予測モード66内にニューラルネットワークベースのイントラ予測モードのセットを有していた場合に関係している。
図9aおよび
図9bに関して記載された例によれば、これは必ずしもそうである必要はない。
図9aは、
図7aに関して上に提示された説明との違いに焦点を合わせた方法でその説明が提供される例にしたがって、エンコーダおよびデコーダの動作モードを概説しようとしている。サポートされる複数の66のイントラ予測モードは、ニューラルネットワークベースのイントラ予測モードを含む場合も含まない場合もあり、非ニューラルネットワークベースのイントラ予測モードを含む場合も含まない場合もある。したがって、サポートされるモード66のそれぞれを提供するために、それぞれエンコーダおよびデコーダによって構成される
図9aのモジュール170は、対応する予測信号が必ずしもニューラルネットワークではない。既に上で示したように、そのようなイントラ予測モードは、ニューラルネットワークベースであるか、またはヒューリスティックに動機付けられ、DCイントラ予測モードまたは角度イントラ予測モードまたは他のいずれかに基づいて予測信号を計算することができる。したがって、これらのモジュール170は、予測信号コンピュータとして表すことができる。しかしながら、
図9aの例によるエンコーダおよびデコーダは、ニューラルネットワーク84を備える。ニューラルネットワーク84は、隣接するサンプルセット86に基づいて、サポートされているイントラ予測モード66の確率値を計算し、その結果、複数のイントラ予測モード66を順序付けられたリスト94に変えることができる。ブロック18のデータストリーム12内のインデックス70は、この順序付けられたリスト94を指している。したがって、ニューラルネットワーク84は、イントラ予測モードの信号化に費やされるサイド情報レートを下げるのを支援する。
【0116】
図9bは、順序付けの代わりに、インデックス70のエントロピー復号/符号化100が、その確率またはその単純な統計を制御する、すなわち、複数66の各モードについてニューラルネットワーク84に対して決定された確率値にしたがって、エンコーダ/デコーダにおけるエントロピー復号/符号化のエントロピー確率分布を制御することで使用されるという点で、
図9aの代替を示している。
【0117】
図10は、ニューラルネットワーク84を設計またはパラメータ化するための装置を示している。したがって、それは、イントラ予測モードのセット66の中から選択するのを支援するためのニューラルネットワークを設計するための装置108である。ここで、セット66の各モードについて、対応するニューラルネットワークブロックが一体になってニューラルネットワーク84を形成し、装置108のパラメータ化可能なニューラルネットワーク109は、これらのブロックに関して単にパラメータ化可能である。各モードについて、予測信号コンピュータ170もあるが、これは、
図10にしたがってパラメータ化可能である必要はない。したがって、
図10の装置108は、対応する予測信号コンピュータ170によって計算された予測信号118に基づいて、および必要に応じて、このモードについて対応するニューラルネットワークブロックによって決定された対応する確率値に基づいて、各モードのコスト推定値を計算する。結果として生じるコスト推定値124に基づいて、最小コストセレクタ126は、最小コスト推定値のモードを選択し、アップデータ110は、ニューラル84のパラメータ111を更新する。
【0118】
図7aから
図7dならびに
図9aおよび
図9bの説明に関して、以下に留意されたい。
図7aから
図7dのいくつかの例によっても使用される
図9aおよび
図9bの例の共通の特徴は、最適化プロセス90においてエンコーダ側で決定されたモードをデコーダに通知するためのサイド情報70に関連するオーバーヘッドを改善または低減するためのニューラルネットワーク値の確率値であるという事実であった。しかしながら、
図7aから
図7dの例に関して上に示したように、
図9aおよび
図9bの例は、モード選択に関してデータストリーム12にサイド情報70が全く費やされない程度まで変更され得ることは明らかであるはずである。むしろ、各モードについてニューラルネットワーク84によって出力される確率値を使用して、必然的にエンコーダとデコーダとの間でモード選択を同期させることができる。その場合、モード選択に関してエンコーダ側で最適化決定90は存在しないであろう。むしろ、セット66間で使用されるモードは、エンコーダ側およびデコーダ側で同じ方法で決定されるであろう。データストリーム12内のいかなる副次情報70も使用しないように変更された場合、
図7aから
図7dの対応する例に関して同様のステートメントが当てはまる。しかしながら、
図9aおよび
図9bの例に戻ると、確率値への順序付けまたは確率分布推定依存性がエンコーダに関する限り、サイド情報の解釈を変化させるという点で、デコーダ側での選択プロセス68がニューラルネットワークによって出力される確率値に依存していることは興味深く、確率値への依存性は、例えば、順序付けられたリストにインデックスのそれぞれの可変長符号化を使用する、またはニューラルネットワークの確率値に応じた確率分布推定を伴うエントロピー符号化/復号を使用するデータストリーム12へのサイド情報70の符号化に影響を与えるだけではなく、最適化ステップ90:ここでは、サイド情報70を送信するためのコードレートを考慮に入れることができ、したがって、決定90に影響を与える。
図11−1の例
図11−1は、エンコーダ14−1の可能な実装、すなわち、エンコーダが予測残差を符号化するために変換符号化を使用するように構成されるものを示しているが、これはほぼ例であり、本出願は、その種の予測残差符号化に限定されるものではない。
図11−1によれば、エンコーダ14−1は、インバウンド信号、すなわち画像10、またはブロックベースで現在のブロック18から対応する予測信号24−1を減算して、後に予測残差エンコーダ28によってデータストリーム12に符号化される空間ドメイン予測残差信号26を取得するように構成された空間ドメイン減算器22を備える。予測残差エンコーダ28は、不可逆符号化ステージ28aおよび可逆符号化ステージ28bを備える。不可逆符号化ステージ28aは、予測残差信号26を受信し、予測残差信号26のサンプルを量子化する量子化器30を備える。本例は、予測残差信号26の変換符号化を使用し、したがって、不可逆符号化ステージ28aは、残差信号26を提示する変換された係数で行われる量子化器30の量子化によってスペクトル分解されたそのような予測残差27を変換するように、減算器22と量子化器30との間に接続された変換ステージ32を含む。変換は、DCT、DST、FFT、アダマール変換などとすることができる。次に、変換および変換ドメイン量子化された予測残差信号34は、量子化予測残差信号34をデータストリーム12にエントロピー符号化するエントロピーコーダである可逆符号化ステージ28bによる可逆符号化を受ける。
【0119】
エンコーダ14−1は、変換および量子化された予測残差信号34(変換ドメインにおける)から、デコーダでも利用可能な方法で予測残差信号を再構成するように、すなわち、量子化器30の符号化損失を考慮するように、量子化器30の変換ドメイン出力に接続された変換ドメイン予測残差信号再構成ステージ36−1をさらに備える。この目的のために、予測残差再構成ステージ36−1は、予測残差信号34の逆量子化バージョン39−1を取得するために量子化器30の量子化の逆を実行する逆量子化器38−1と、それに続く、上述した特定の変換例のいずれかの逆などのスペクトル分解の逆などの変換器32によって実行される変換に対して逆変換を実行する逆変換器40−1とを備える。逆変換器40−1の下流には、予測信号24−1を取得するのに役立つテンプレートを含むことができる空間ドメイン出力60を有する。特に、予測器44−1は、変換ドメイン出力45−1を設けることができ、これは、逆変換器51−1で逆変換されると、空間ドメインで予測信号24−1(予測信号24−1は、時間ドメインにおける予測残差26を取得するためにインバウンド信号10から減算される)を提供する。フレーム間モードでは、ループ内フィルタ46−1が完全に再構成された画像60をフィルタリングし、フィルタリングされた後、相互予測ブロックに関して予測器44−1の参照画像47−1を形成することもできる(したがって、これらの場合、要素44−1および36−1からの加算器57−1入力が必要であるが、破線53−1で示されるように、予測信号24−1を減算器22に提供するために、逆変圧器51−1の必要はない)。
【0120】
しかしながら、
図2のエンコーダ14とは異なり、エンコーダ14−1(予測残差再構成ステージ36−1における)は、逆量子化器38−1と逆変換器40−1との間に配置された変換ドメイン加算器42−1を備える。変換ドメイン加算器42−1は、変換予測器44−1によって提供されるような変換ドメイン予測信号45−1を用いて、(逆量子化器38−1によって提供される)予測残差信号34の逆量子化バージョン39−1の合計43−1(変換ドメインにおける)を逆変換器40−1に提供する。予測器44−1は、フィードバック入力として、逆変圧器40−1からの出力を取得することができる。
【0121】
したがって、空間ドメインの予測信号24−1は、変換ドメインの予測信号45−1から取得される。また、上記の例にしたがってニューラルネットワークで動作することができる変換ドメイン予測器44−1は、空間ドメインの信号によって入力されるが、変換ドメインの信号を出力する。
図11−2の例
図11−2は、デコーダ54−2の可能な実装、すなわちエンコーダ14−1の実装に適合するものを示している。エンコーダ54−2の多くの要素は、
図11−1の対応するエンコーダで発生する要素と同じであるため、これらの要素を示すために、「−2」が付いた同じ参照符号が
図11−2で使用される。特に、加算器42−2、任意のインループフィルタ46−2、および予測器44−2は、
図11−1のエンコーダと同じ方法で予測ループに接続される。再構成された、すなわち逆量子化および再変換された予測残差信号24−2(例えば、60)は、エントロピーエンコーダ28bのエントロピー符号化を逆にするエントロピーデコーダ56のシーケンス、続いて符号化側の場合と同じように逆量子化器38−2および逆変換器40−2で構成される残差信号再構成ステージ36−2によって導出される。デコーダの出力は、画像10の再構成である。画像10の再構成を画像品質を改善するためにいくつかのポストフィルタリングにかけるために、いくつかのポストフィルタ46−2がデコーダの出力に配置されることができる。同様に、
図11−1に関して上に示した説明は、エンコーダが最適化タスクと符号化オプションに関する関連する決定を実行するだけであることを除いて、
図11−2にも有効である。しかしながら、ブロック細分割、予測、逆量子化、および再変換に関する全ての説明は、
図11−2のデコーダ54についても有効である。再構成された信号24−2は、予測器44−2に提供され、予測器44−2は、
図5〜
図10の例にしたがってニューラルネットワークで動作することができる。予測器44−2は、変換ドメイン予測値45−2を提供することができる。
【0122】
図4の例とは反対であるが、
図11−1の例と同様に、逆量子化器38−2は、逆変換器40−2に直接提供されない予測残差信号34(変換ドメイン内)の逆量子化バージョン39−2を提供する。代わりに、予測残差信号34の逆量子化バージョン39−2が加算器42−2に入力され、変換ドメイン予測値45−2によって構成される。したがって、変換ドメイン再構成信号43−2が取得され、これは、その後、逆変換器40−2によって逆変換されると、画像10を表示するために使用される空間ドメインで再構成信号24−2になる。
図12の例
ここで、
図12を参照する。デコーダおよびエンコーダの双方を同時に、すなわち、 イントラ予測ブロック18に関するそれらの機能の観点である。イントラ符号化ブロック18に関するエンコーダ動作モードとデコーダ動作モードとの違いは、一方では、エンコーダが利用可能なイントラ予測モード66の全てまたは少なくともいくつかを実行し、例えば、意味を最小化するコスト関数の観点から最適なものを90で決定し、エンコーダがデータストリーム12を形成する、すなわちコードがそこに日付を記入し、デコーダがそれぞれ復号および読み取りによってそこからデータを導出するという事実である。
図12は、ブロック18のサイド情報70内のフラグ70aが、セット72内、すなわち、ニューラルネットワークベースのイントラ予測モードである、またはセット74内、すなわち、非ニューラルネットワークベースのイントラ予測モードの1つである、ステップ90でエンコーダによってブロック18にとって最良のモードであると決定されたイントラ予測モードであるかどうかを示す、上記で概説した代替案の動作モードを示す。エンコーダは、それに応じてフラグ70aをデータストリーム12に挿入する一方で、デコーダは、フラグ70aをそこから検索する。
図12は、決定されたイントラ予測モード92がセット72内にあると仮定している。次に、別個のニューラルネットワーク84は、セット72の各ニューラルネットワークベースのイントラ予測モードの確率値を決定し、これらの確率値セット72を使用して、またはより正確には、その中のニューラルネットワークベースのイントラ予測モードは、確率値の降順などの確率値にしたがって順序付けられ、それにより、イントラ予測モードの順序付きリスト94をもたらす。次に、サイド情報70の一部であるインデックス70bは、エンコーダによってデータストリーム12に符号化され、そこからデコーダによって復号される。したがって、デコーダは、セット72および74のどのセットを決定することができる。ブロック18に使用されるイントラ予測モードは、使用されるイントラ予測モードがセット72に位置する場合、セット72の順序付け96を実行するように位置する。決定されたイントラ予測モードがセット74に位置する場合、インデックスもまた、データストリーム12で送信されることができる。したがって、デコーダは、それに応じて選択68を制御することによって、決定されたイントラ予測モードを使用して、ブロック18の予測信号を生成することができる。
【0123】
図12からわかるように、(変換ドメインにおける)予測残差信号34は、データストリーム12に符号化される。逆量子化器38−1、38−2は、変換ドメインの逆量子化予測残差信号39−1、39−2を導出する。予測器44−1、44−2から、変換ドメイン予測信号45−1、45−2が得られる。次に、加算器42−1は、値39−1および45−1を互いに合計し(または加算器42−2は、値39−2および45−2を合計し)、変換ドメイン再構成信号43−1 (または43−2)を取得する。逆変換器40−1、40−2の下流において、空間ドメイン予測信号24−1、24−2(例えば、テンプレート60)が取得され、(例えば、表示されることができる)ブロック18を再構成するために使用されることができる。
【0124】
図7b〜
図7dの変形は全て、
図11−1、
図11−2、および
図12の例を具体化するために使用されることができる。
議論
ニューラルネットワークを介してイントラ予測信号を生成する方法が定義されており、この方法がビデオまたは静止画像コーデックにどのように含まれるかが説明されている。これらの例では、空間ドメインに予測する代わりに、予測器44−1、44−2は、例えば離散コサイン変換などの基礎となるコーデックで既に利用可能である可能性のある事前定義された画像変換の変換ドメインに予測することができる。第2に、特定の形状のブロック上の画像に対して定義された各イントラ予測モードは、より大きなブロック上の画像に対してイントラ予測モードを誘導する。
【0125】
Bを、画像imが存在するM行N列のピクセルのブロックとする。既に再構成された画像recが利用可能なB(ブロック18)の隣接B
rec(テンプレート60または86)が存在すると仮定する。次に、
図5〜
図10の例では、ニューラルネットワークによって定義された新たなイントラ予測モードが導入される。これらのイントラ予測モードのそれぞれは、再構成されたサンプルrec(24−1、24−2)を使用して、同様にB
recの画像である予測信号pred(45−1、45−2)を生成する。
【0126】
Tを、B
rec上の画像で定義される画像変換(例えば、要素30によって出力される予測残差信号34)とし、SをTの逆変換(例えば、43−1または43−2)とする。次に、予測信号pred(45−1、45−2)は、T(im)の予測と見なされる。これは、再構成段階で、pred(45−1、45−2)の計算後、画像S(pred)(24−1、24−2)を計算して、画像im(10)の実際の予測を取得する必要があることを意味する。
【0127】
作業する変換Tには、自然画像に対していくつかのエネルギ圧縮特性を有することに留意されたい。これは、以下のように悪用される。ニューラルネットワークによって定義されたイントラモードのそれぞれについて、事前定義されたルールによって、変換ドメインの特定の位置でのpred(45−1、45−2)の値は、入力rec(24−1、24−2)とは無関係にゼロに設定される。これは、変換ドメインで予測信号pred(45−1、45−2)を取得するための計算の複雑さを軽減する。
【0128】
(
図5〜
図10を参照して、変換T(32)と逆変換S(40)が、基礎となるコーデックの変換残差符号化で使用されると仮定する。Bの再構成信号(24、24’)では、予測残差res(34)は、S(res)を取得するために逆変換S(40)によって逆変換され、S(res)は、最終的な再構成信号(24)を取得するために基礎となる予測信号(24)に追加される。)
対照的に、
図11および
図12は、以下の手順に言及している:予測信号pred(45−1、45−2)が上記のようなニューラルネットワークイントラ予測法によって生成される場合、最終的な再構成信号(24−1、24−2)は、pred+res(predは45−1または45−2、resは39−1または39−2)の逆変換(40−1、40−2)によって取得され、それらの合計は、43−1または43−2であり、これは、最終的な再構成信号24−1、24−2の変換ドメインバージョンである。
【0129】
最後に、上記のようにニューラルネットワークによって実行されるイントラ予測の上記の変更は任意であり、互いに不必要に相互に関連していることに留意されたい。これは、逆変換S(40−1、40−2)を使用した特定の変換T(32)および上記のニューラルネットワークによって定義されたイントラ予測モードの1つについて、モードがTに対応する変換ドメインへの予測と見なされるかどうかがビットストリームからまたは事前定義された設定から抽出される可能性があることを意味する。
図13aおよび
図13b
図13aおよび
図13bを参照すると、例えば、空間ドメインベースの方法(例えば、
図11aおよび
図11b)および/または変換ドメインベースの方法(例えば、
図1〜
図4)に適用され得る戦略が示されている。
【0130】
場合によっては、特定のサイズのブロックに適合したニューラルネットワークが自由に使用されることができる(例えば、M×N、ここで、Mは行数、Nは列数)が、再構成される画像の実際のブロック18は、異なるサイズを有する(例えば、M
1×N
1)。アドホックにトレーニングされたニューラルネットワークを使用する必要なく、特定のサイズ(例えば、M×N)に適合されたニューラルネットワークを利用することを可能にする操作を実行することが可能であることに留意されたい。
【0131】
特に、装置14または54は、データストリーム(例えば、12)から画像(例えば、10)をブロック単位で復号することを可能にすることができる。装置14、54は、少なくとも1つのイントラ予測モードをネイティブにサポートし、それによれば、画像の所定のサイズ(例えば、M×N)のブロック(例えば、136、172)のイントラ予測信号は、ニューラルネットワーク(例えば、80)上の現在のブロック(例えば、136、176)に隣接するサンプルの第1のテンプレート(例えば、130、170)を適用することによって決定される。装置は、所定のサイズ(例えば、M
1×N
1)とは異なる現在のブロック(例えば、18)に対して、以下のように構成されることができる:
−第1のテンプレート(例えば、130、170)に準拠させて再サンプリングされたテンプレート(例えば、130、170)を取得するために、現在のブロック(例えば、18)に隣接するサンプルの第2のテンプレート(例えば、60)を再サンプリング(例えば、D、134、166)し、
−予備的イントラ予測信号(例えば、138)を取得するために、ニューラルネットワーク(例えば、80)上のサンプルの再サンプリングされたテンプレート(例えば、130、170)を適用し、
−現在のブロックのイントラ予測信号を取得するために、現在のブロック(18、B
1)に一致するように予備的イントラ予測信号(138)を再サンプリング(例えば、U、V、182)する。
【0132】
図13aは、空間ドメインにおける例を示している。空間ドメインブロック18(B
1としても示される)は、(現時点で画像im
1がまだ利用可能でなくても)画像im
1が再構成されるM
1xN
1ブロックとすることができる。テンプレートB
1,rec(例えば、セット60)は、既に再構成された画像rec
1を有し、ここで、rec
1は、im
1に隣接している(そして、B
1,recは、B
1に隣接している)ことに留意されたい。ブロック18およびテンプレート60(「第2のテンプレート」)は、要素132を形成することができる。
【0133】
B
1の次元のおかげで、B
1を再構成するために自由に使用できるニューラルネットワークがない可能性が生じる。しかしながら、ニューラルネットワークが異なる次元のブロック(「第1のテンプレート」など)で自由に使用できる場合は、次の手順を実行することができる。
【0134】
変換操作(ここでは、Dまたは134として示されている)が、例えば、要素130に適用されることができる。しかしながら、B
1がまだ不明であるため、変換D(130)をB
1,recのみに適用することが容易に可能であることに留意されたい。変換130は、変換された(再サンプリングされた)テンプレート130およびブロック138から形成される要素136を提供することができる。
【0135】
例えば、M
1xN
1ブロックB
1(18)(未知の係数を有する)は、理論的には、M×NブロックB(138)(さらに未知の係数を有する)に変換されることができる。しかしながら、ブロックB(138)の係数は不明であるため、実際に変換を実行する必要はない。
【0136】
同様に、変換D(134)は、テンプレートB
1,rec(60)を、異なる次元を有する異なるテンプレートB
rec(130)に変換する。テンプレート130は、垂直方向の厚さL(すなわち、垂直部分のL列)および水平方向の厚さK(すなわち、水平部分のK行)を有し、B
rec=D(B
1,rec)を有するL字型とすることができる。テンプレート130は、以下を含むことができることが理解されることができる:
−B
rec(130)上のK×Nブロック、
−B
rec(130)の左側にあるM×Lブロック、および、
−B
rec(130)上、およびB
rec(130)の左側にあるM×Lブロック上のK×Nブロックの左側にあるK×Lブロック。
【0137】
場合によっては、変換操作D(134)は、M
1>MおよびN
1>N(特に、MがM
1の倍数であり、NがN
1の倍数である場合)、ダウンサンプリング操作とすることができる。例えば、M
1=2MおよびN
1=2Nの場合、変換操作Dは、チェスのような方法でいくつかのビンを非表示にすることに基づくことができる(例えば、B
1,rec60から対角線を削除して、B
rec130の値を取得する)。
【0138】
この時点で、B
rec(B
rec=D(rec
1))は、M×Nで再構成された画像である。通路138aにおいて、装置14、54は、MxNブロックのためにネイティブにトレーニングされた必要なニューラルネットワークを(例えば、予測器44、44’で)使用することができる(例えば、
図5〜
図10のように動作することによって)。上記の通路(138a)を適用することにより、ブロックBの画像im
1が取得される。(いくつかの例では、通路138aは、ニューラルネットワークを使用しないが、当該技術分野において知られている他の技術を使用する)。
【0139】
この時点で、ブロックB(138)の画像im
1のサイズはM×Nであるが、表示される画像のサイズは、M
1×N
1である必要がある。しかしながら、ブロックB(138)内の画像im
1をM
1xN
1に変換する変換(例えば、U)140を実行することが単に可能であることに留意されたい。
【0140】
134において実行されるDがダウンサンプリング操作である場合、140におけるUは、アップサンプリング操作である可能性があることに留意されたい。したがって、U(140)は、ニューラルネットワークを用いた動作138aで得られたM×Nブロック138の係数に加えて、M
1xN
1ブロックに係数を導入することによって得ることができる。
【0141】
例えば、M
1=2MおよびN
1=2Nの場合、変換Dによって破棄されたim
1の係数を近似(「推測」)するために、補間(例えば、双一次補間)を実行することが容易に可能である。したがって、M
1xN
1画像im
1は、要素142として取得され、画像10の一部としてブロック画像を表示するために使用されることができる。
【0142】
特に、ブロック144を取得することも理論的に可能であり、それにもかかわらず、それは、テンプレート60と同じである(変換DおよびUによるエラーを除いて)。したがって、有利には、テンプレート60として既に自由に使用することができるB
1,recの新たなバージョンを得るためにB
recを変換する必要はない。
【0143】
図13aに示される操作は、例えば、予測器44または44’で実行されることができる。したがって、M
1xN
1画像im
1(142)は、再構成された信号を得るために逆変圧器40または40’によって出力された予測残差信号と合計される予測信号24(
図2)または24’(
図4)として理解されることができる。
【0144】
図13bは、変換ドメインにおける例を示している(例えば、
図11−1、
図11−2の例における)。要素162は、空間ドメインテンプレート60(既に復号されている)および空間ドメインブロック18(未知の係数を有する)によって形成されたものとして表される。ブロック18は、サイズM
1xN
1を有することができ、未知の係数を有することができ、これらは、例えば、予測器44−1または44−2で決定されるべきである。
【0145】
決定されたM×Nサイズのニューラルネットワークを自由に使用できる一方で、変換ドメイン内のM
1×N
1ブロックを直接操作するニューラルネットワークがない可能性がある。
【0146】
しかしながら、予測器44−1、44−2において、テンプレート60(「第2のテンプレート」)に適用される変換D(166)を使用して、異なる次元(例えば、縮小次元)を有する空間ドメインテンプレート170を取得することが可能であることに留意されたい。テンプレート170(「第1のテンプレート」)は、例えば、テンプレート130の形状(上記を参照)などのL字型の形状を有することができる。
【0147】
この時点で、通路170aにおいて、ニューラルネットワーク(例えば、80
0−80
N)は、上記の例のいずれかにしたがって適用されることができる(
図5〜
図10を参照)。したがって、通路170aの終わりに、ブロック18のバージョン172の既知の係数を取得することができる。
【0148】
しかしながら、172の次元MxNは、視覚化されなければならないブロック18の次元M
1xN
1に適合しないことに留意されたい。したがって、変換ドメインへの変換(例えば、180において)を操作することができる。例えば、MxN変換ドメインブロックT(176)が取得されることができる。行数および列数をそれぞれM
1およびN
1に増やすために、例えば、M×N変換T(176)に存在しない周波数に関連付けられた周波数値に対応する値「0」を導入することによるゼロパディングと呼ばれる手法を使用することができる。したがって、ゼロパディング領域178を使用することができる(例えば、L字型を有することができる)。特に、ゼロパディング領域178は、ブロック182を得るためにブロック176に挿入される複数のビン(全てゼロ)を含む。これは、T(172から変換)からT
1(182)への変換Vによって取得されることができる。T(176)の次元は、ブロック18の次元と一致しないが、T
1(182)の次元は、ゼロパディング領域178の挿入により、実際にはブロック18の次元と一致する。さらに、ゼロパディングは、より高い周波数のビン(ゼロ値を有する)を挿入することによって取得され、これは、補間に類似した結果をもたらす。
【0149】
したがって、加算器42−1、42−2において、45−1、45−2のバージョンである変換T
1(182)を追加することができる。続いて、逆変換T
−1を実行して、画像10を視覚化するために使用される空間ドメインで再構成された値60を取得することができる。
【0150】
エンコーダは、再サンプリング(およびブロック18のサイズとは異なるサイズのブロックのためのニューラルネットワークの使用)に関する情報をデータストリーム12に符号化することができ、その結果、デコーダは、その知識を有する。
議論
B
1(例えば、18)をM
1行およびN
1列のブロックとし、M
1≧MおよびN
1≧Nと仮定する。B
1,recをB
1の隣接(例えば、隣接するテンプレート60)とし、B
1,recのサブセットと見なされる領域B
rec(例えば、130)を仮定する。im
1(例えば、138)をB
1の画像とし、rec
1(例えば、B
1,recの係数)をB
1,recの既に再構成された画像とする。上記の解決策は、B
1,recの画像をB
1の画像にマッピングする、事前定義されたダウンサンプリング操作D(例えば、134、166)に基づいている。例えば、M
1=2M、N
1=2Nの場合、B
recがBの上のK行とBの左側のL列、およびBの左上のサイズK×Lのコーナーで構成され、B
1,recがB
1上の2K行およびBの左側の2L列、B
1の左上のサイズ2K×2Lのコーナーから構成される場合、Dは、平滑化フィルタを適用した後、各方向に2倍のダウンサンプリング操作を行う操作とすることができる。したがって、D(rec
1)は、B
recで再構成された画像と見なすことができる。上記のニューラルネットワークベースのイントラ予測モードを使用して、D(rec
1)から、B上の画像である予測信号pred(45−1)を形成することができる。
【0151】
ここで、2つのケースを区別する:第1に、
図2、
図4、および
図13aのように、Bにおいて、ニューラルネットワークベースのイントラ予測がサンプル(空間)ドメインに予測すると仮定する。U(140)を、Bの画像(例えば、138)をB
1の画像(例えば、142)にマッピングする固定アップサンプリングフィルタとする。例えば、M
1=2MおよびN
1=2Nの場合、Uは、双一次内挿演算とすることができる。次に、U(pred)を形成して、im
1(例えば、10)の予測信号と見なすB
1(例えば、45−1)上の画像を取得することができる。
【0152】
第2に、
図11−1、
図11−2、および
図13bのように、Bにおいて、予測信号pred(例えば、45−2)は、逆変換Sを使用するB上の画像変換Tに関する変換ドメインにおける予測信号と見なされるべきであると仮定する。T
1を逆変換S
1を使用したB
1上の画像変換とする。Tの変換ドメインからT
1の変換ドメインに画像をマッピングする事前定義されたマッピングVが与えられていると仮定する。例えば、Tが逆変換Sを使用したM×Nブロックの離散コサイン変換であり、T
1が逆変換S
1を使用したM
1×N
1の離散コサイン変換である場合、Bの変換係数のブロックを、ゼロパディングおよびスケーリングによってB
1の変換係数のブロックにマッピングすることができる(例えば、178を参照)。これは、周波数空間の位置が水平応答垂直方向のMまたはNよりも大きい場合、B
1の全ての変換係数をゼロに設定し、Bの適切にスケーリングされた変換係数をB
1の残りのM*N変換係数にコピーすることを意味する。次に、V(pred)を形成して、T
1(im
1)の予測信号と見なされるT
1の変換ドメインの要素を取得することができる。信号V(pred)は、上記のようにさらに処理されることができる。
【0153】
図1〜
図10に関して上で説明したように、ニューラルネットワークベースの操作を使用して、これらのモード間の条件付き確率分布を生成することにより、特定のブロックBでいくつかのイントラ予測モードをランク付けする方法と、このランク付けが現在のブロックにおいてどのイントラ予測モードを適用するかを通知するために使用されることができるかについても説明した。実際の予測モードと同じ方法で後者のランク付けを生成するニューラルネットワークの入力でダウンサンプリング操作(例えば、166)を使用すると、予測モードをちょうど説明したよりも大きなブロックB
1に拡張するためのランク付けを生み出し、したがって、ブロックB
1でどの拡張モードを使用するかを通知するために使用される。所与のブロックB
1上で、より小さなブロックBからのニューラルネットワークベースのイントラ予測モードを使用して予測信号を生成するかどうかは、事前定義されるか、または基礎となるビデオコーデックのサイド情報としてシグナリングされることができる。
その他の例
一般的に言えば、上記のようなデコーダは、上記のようなエンコーダを備えることができ、および/またはその逆もしかりである。例えば、エンコーダ14は、デコーダ54であるか、またはデコーダ54を含む(またはその逆)ことができる。エンコーダ14−1は、デコーダ54−2(またはその逆)などとすることができる。さらに、エンコーダ14または14−1は、量子化された予測残差信号34が、予測信号24または24−1を得るために復号されるストリームを形成するため、それ自体がデコーダを含むと理解することもできる。
【0154】
いくつかの態様が装置の文脈で説明されたが、これらの態様は、対応する方法の説明も表すことは明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたは項目または機能の説明も表す。方法ステップの一部または全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって(または使用して)実行されることができる。いくつかの例では、1つ以上の最も重要な方法ステップが、そのような装置によって実行されることができる。
【0155】
本発明の符号化されたデータストリームは、デジタル記憶媒体に記憶されることができるか、または無線伝送媒体などの伝送媒体またはインターネットなどの有線伝送媒体上で送信されることができる。
【0156】
特定の実装要件に応じて、本発明の例は、ハードウェアまたはソフトウェアで実装されることができる。実装は、電子的に読み取り可能な制御信号が記憶され、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM、フラッシュメモリなどのデジタル記憶媒体を使用して行うことができる。したがって、デジタル記憶媒体は、コンピュータ可読とすることができる。
【0157】
本発明にかかるいくつかの例は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協調することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0158】
一般に、本発明の例は、プログラムコードを備えたコンピュータプログラム製品として実装されることができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するために機能する。プログラムコードは、例えば、機械可読キャリアに記憶されてもよい。
【0159】
他の例は、機械可読キャリアに記憶された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
【0160】
したがって、本発明の方法の一例は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0161】
したがって、本発明の方法のさらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをその上に記録したデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録された媒体は、通常、有形および/または非一時的である。
【0162】
したがって、本発明の方法のさらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
【0163】
さらなる例は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを含む。
【0164】
さらなる例は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを含む。
【0165】
本発明にかかるさらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを受信機に(例えば、電子的または光学的に)転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイル装置、メモリ装置などとすることができる。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含むことができる。
【0166】
いくつかの例では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能のいくつかまたは全てを実行することができる。いくつかの例では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協調することができる。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。
【0167】
本明細書で説明する装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実装されることができる。
【0168】
本明細書で説明される装置、または本明細書で説明される装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実装されることができる。
【0169】
本明細書で説明する方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実行されることができる。
【0170】
本明細書で説明される方法、または本明細書で説明される装置の任意の構成要素は、ハードウェアおよび/またはソフトウェアによって少なくとも部分的に実行されることができる。
【0171】
上記の実施例は、本発明の原理を単に例示するものである。本明細書に記載された構成および詳細の変更および変形は、当業者にとって明らかであろうことが理解される。したがって、本明細書の例の説明および説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ制限されることが意図されている。
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
【手続補正書】
【提出日】2020年11月25日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
データストリーム(12)から画像(10)をブロック単位で復号するための装置(54−2)であって、前記画像の所定のサイズのブロック(136、172)のイントラ予測信号が現在のブロックに隣接するサンプルの第1のテンプレート(130、170)を適用することによって判定される、少なくとも1つのイントラ予測モードをサポートする装置であって、前記所定のサイズとは異なる現在のブロック(18)に対して、
前記第1のテンプレートの次元を有する再サンプリングされたテンプレート(130、170)を取得するために、前記現在のブロック(18)に隣接する既に再構成されたサンプルの第2のテンプレート(60)を再サンプリング(134、166)し、
予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(130、170)を適用(138a、170a、44−1、44−2)することによってイントラ予測を実行し、
前記現在のブロック(18)の前記イントラ予測信号(142、24−1、24−2)を取得(140)するために、前記現在のブロック(18)の次元を有するように前記予備的イントラ予測信号(138、172、176)を再サンプリング(140、180)するように構成される、装置。
【請求項2】
前記装置が、前記画像の所定のサイズのブロック(136、172)の前記イントラ予測信号が、前記現在のブロックに隣接するサンプルの第1のテンプレート(130、170)を適用することによって決定される、少なくとも1つのイントラ予測モードをサポートし、
前記装置が、さらに、前記予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(130、170)をニューラルネットワーク(80)に適用(138a、170a、44−1、44−2)するように構成される、請求項1に記載の装置。
【請求項3】
前記第2のテンプレート(60)をダウンサンプリング(D)して前記再サンプリングされたテンプレート(130、170)を取得することによって再サンプリング(134、166)するように構成される、請求項1または2に記載の装置。
【請求項4】
前記予備的イントラ予測信号(138、172)をアップサンプリング(U、140)することによって前記予備的イントラ予測信号(138、172、176)を再サンプリング(140)するように構成される、請求項1または2または3に記載の装置。
【請求項5】
前記予備的イントラ予測信号(138)を空間ドメインから変換ドメインに変換し、
前記変換ドメインにおいて前記予備的イントラ予測信号を再サンプリングする
ように構成される、請求項1から4のいずれか一項に記載の装置。
【請求項6】
前記予備的イントラ予測信号(176)の係数をスケーリングすることによって、前記変換ドメイン予備的イントラ予測信号(176)を再サンプリングする
ように構成される、請求項5に記載の装置。
【請求項7】
前記現在のブロック(18)の次元を有するように前記イントラ予測信号(176)の次元を増やし、
前記予備的イントラ予測信号(176)の追加された係数であって、より高い周波数のビンの前記追加された係数の係数をゼロパディングする
ことによって前記変換ドメイン予備的イントラ予測信号(176)を再サンプリング(V)するように構成される、請求項5または6に記載の装置。
【請求項8】
予測残差信号(34)の逆量子化バージョン(39−1、39−2)に前記変換ドメイン予備的イントラ予測信号(176)を追加する(42−1、42−2)
ように構成される、請求項5から7のいずれか一項に記載の装置。
【請求項9】
空間ドメインにおける前記予備的イントラ予測信号(138)を再サンプリング(140)する
ように構成される、請求項1から8のいずれか一項に記載の装置。
【請求項10】
双一次補間を実行することによって前記予備的イントラ予測信号(138)を再サンプリング(140)する
ように構成される、請求項9に記載の装置。
【請求項11】
さらに、前記再サンプリングおよび/または異なる次元のニューラルネットワークの使用に関する情報をデータフィールドに復号する
ように構成される、請求項1から10のいずれか一項に記載の装置。
【請求項12】
現在のブロック(18)の隣接するサンプルの第1のセット(60)をニューラルネットワーク(80)に適用して、前記現在のブロック(18)の変換(34、39−1、39−2)の変換係数のセットの予測(45−1、45−2)を取得する
ことによって、前記画像の前記現在のブロック(18)の前記イントラ予測信号(24−1、24−2)が判定される少なくとも1つのイントラ予測モードをサポートする、請求項1から11のいずれか一項に記載の装置。
【請求項13】
再構成された信号(24−1、24−2)を取得するために前記予測(45−1、45−2)を逆変換(40−1、40−2、51−1)する
ように構成される、請求項1から12のいずれか一項に記載の装置。
【請求項14】
可変長コードを使用して前記データストリーム(12)からインデックス(70b)を復号し、
前記インデックス(70b)を使用して選択を実行する
ように構成される、請求項1から13のいずれか一項に記載の装置。
【請求項15】
イントラ予測モードのセット(72)のランキングを判定し、
その後、前記第2のテンプレート(60)を再サンプリングする
ように構成される、請求項1から14のいずれか一項に記載の装置。
【請求項16】
データストリーム(12)に画像(10)をブロック単位で符号化するための装置(14−1)であって、前記画像の所定のサイズのブロック(136、172)のイントラ予測信号が現在のブロックに隣接するサンプルの第1のテンプレート(130、170)を適用することによって判定される、少なくとも1つのイントラ予測モードをサポートする装置であって、前記所定のサイズとは異なる現在のブロック(18)に対して、
前記第1のテンプレートの次元を有する再サンプリングされたテンプレート(130、170)を取得するために、前記現在のブロック(18)に隣接する既に再構成されたサンプルの第2のテンプレート(60)を再サンプリング(134、166)し、
予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(130、170)を適用(138a、170a、44−1、44−2)することによってイントラ予測を実行し、
前記現在のブロック(18)の前記イントラ予測信号(142、24−1、24−2)を取得(140)するために、前記現在のブロック(18)の次元を有するように前記予備的イントラ予測信号(138、172、176)を再サンプリング(140、180)するように構成される、装置。
【請求項17】
前記装置が、前記画像の所定のサイズのブロック(136、172)の前記イントラ予測信号が、前記現在のブロックに隣接するサンプルの第1のテンプレート(130、170)を適用することによって決定される、少なくとも1つのイントラ予測モードをサポートし、
前記装置が、さらに、前記予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(130、170)をニューラルネットワーク(80)に適用(138a、170a、44−1、44−2)するように構成され、
前記装置が、さらに、前記予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(130、170)を前記ニューラルネットワーク(80)に適用(138a、170a、44−1、44−2)するように構成される、請求項16に記載の装置。
【請求項18】
前記第2のテンプレート(60)をダウンサンプリング(D)して前記再サンプリングされたテンプレート(130、170)を取得することによって再サンプリング(134、166)するように構成される、請求項17に記載の装置。
【請求項19】
前記予備的イントラ予測信号(138、172)をアップサンプリング(U、140)することによって前記予備的イントラ予測信号(138、172、176)を再サンプリング(140)するように構成される、請求項17または18に記載の装置。
【請求項20】
前記予備的イントラ予測信号(138)を空間ドメインから変換ドメインに変換し、
前記変換ドメインにおいて前記予備的イントラ予測信号を再サンプリングする
ように構成される、請求項17から19のいずれか一項に記載の装置。
【請求項21】
前記予備的イントラ予測信号(176)の係数をスケーリングすることによって、変換ドメイン予備的イントラ予測信号(176)を再サンプリング(140)する
ように構成される、請求項20に記載の装置。
【請求項22】
前記現在のブロック(18)の次元を有するように前記イントラ予測信号(176)の次元を増やし、
前記予備的イントラ予測信号(176)の追加された係数であって、より高い周波数のビンに関連する前記追加された係数の係数をゼロパディングする
ことによって前記変換ドメイン予備的イントラ予測信号(176)を再サンプリング(140)する
ように構成される、請求項20または21に記載の装置。
【請求項23】
予測残差信号(34)の逆量子化バージョン(39−1、39−2)に前記変換ドメイン予備的イントラ予測信号(176)を追加する(42−1、42−2)
ように構成される、請求項20から22のいずれか一項に記載の装置。
【請求項24】
前記空間ドメインにおける前記予備的イントラ予測信号(138)を再サンプリング(140)する
ように構成される、請求項17から23のいずれか一項に記載の装置。
【請求項25】
双一次補間を実行することによって前記予備的イントラ予測信号(138)を再サンプリング(140)する
ように構成される、請求項24に記載の装置。
【請求項26】
さらに、前記再サンプリングおよび/または前記異なる次元のニューラルネットワークの使用に関する情報をデータフィールドに符号化する
ように構成される、請求項17から23のいずれか一項に記載の装置。
【請求項27】
現在のブロック(18)の隣接するサンプルの第1のセット(60)をニューラルネットワーク(80)に適用して、前記現在のブロック(18)の変換(34、39−1、39−2)の変換係数のセットの予測(45−1、45−2)を取得する
ことによって、前記画像の前記現在のブロック(18)の前記イントラ予測信号(24−1、24−2)が判定される少なくとも1つのイントラ予測モードをサポートする、請求項17から26のいずれか一項に記載の装置。
【請求項28】
再構成された信号(24−1、24−2)を取得するために前記予測(45−1、45−2)を逆変換(40−1、40−2)する
ように構成される、請求項17から27のいずれか一項に記載の装置。
【請求項29】
可変長コードを使用して前記データストリーム(12)からインデックス(70b)を復号し、
前記インデックス(70b)を使用して選択を実行する
ように構成される、請求項17から28のいずれか一項に記載の装置。
【請求項30】
イントラ予測モードのセット(72)のランキングを判定し、
その後、前記第2のテンプレート(60)を再サンプリングする
ように構成される、請求項17から29のいずれか一項に記載の装置。
【請求項31】
データストリーム(12)から画像(10)をブロック単位で復号するための方法であって、前記画像の所定のサイズのブロック(136、172)のイントラ予測信号が現在のブロックに隣接するサンプルの第1のテンプレート(130、170)を適用することによって判定される、少なくとも1つのイントラ予測モードをサポートする方法であって、
再サンプリングされたテンプレート(130、170)を取得するために、第1のテンプレート(130、170)の次元を有するように、前記現在のブロック(18)に隣接するサンプルの第2のテンプレート(60)を再サンプリング(134、166)し、
予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(60)を適用(138a、170a、44−1、44−2)することによってイントラ予測を実行し、
前記現在のブロック(18)の前記イントラ予測信号(142、24−1、24−2)を取得(140)するために、前記現在のブロック(18)の次元を有するように前記予備的イントラ予測信号(138、172、176)を再サンプリング(140)することを備える、方法。
【請求項32】
前記方法が、前記画像の所定のサイズのブロック(136、172)の前記イントラ予測信号が、前記現在のブロックに隣接するサンプルの第1のテンプレート(130、170)をニューラルネットワークに適用することによって決定される、少なくとも1つのイントラ予測モードをサポートし、
イントラ予測を実行することが、予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(60)をニューラルネットワーク(80)に適用(138a、170a、44−1、44−2)することを含む、請求項31に記載の方法。
【請求項33】
データストリーム(12)に画像(10)をブロック単位で符号化するための方法であって、前記画像の所定のサイズのブロック(136、172)のイントラ予測信号が現在のブロックに隣接するサンプルの第1のテンプレート(130、170)を適用することによって判定される、少なくとも1つのイントラ予測モードをサポートする方法であって、
再サンプリングされたテンプレート(130、170)を取得するために、第1のテンプレート(130、170)の次元を有するように、前記現在のブロック(18)に隣接するサンプルの第2のテンプレート(60)を再サンプリング(134、166)し、
予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(60)を適用(138a、170a、44−1、44−2)することによってイントラ予測を実行し、
前記現在のブロック(18)の前記イントラ予測信号(142、24−1、24−2)を取得(140)するために、前記現在のブロック(18)の次元を有するように前記予備的イントラ予測信号(138、172、176)を再サンプリング(140)することを備える、方法。
【請求項34】
前記方法が、前記画像の所定のサイズのブロック(136、172)の前記イントラ予測信号が、前記現在のブロックに隣接するサンプルの第1のテンプレート(130、170)をニューラルネットワーク(80)に適用することによって決定される、少なくとも1つのイントラ予測モードをサポートし、
イントラ予測を実行することが、予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(60)をニューラルネットワーク(80)に適用(138a、170a、44−1、44−2)することを含む、請求項33に記載の方法。
【請求項35】
コンピュータによって実行されると、前記コンピュータに請求項31から34のいずれか一項に記載の方法を実行させる命令を備える、コンピュータ可読記憶媒体。
【請求項36】
画像(10)を符号化し、前記画像の所定のサイズのブロック(136、172)のイントラ予測信号が現在のブロックに隣接するサンプルの第1のテンプレート(130、170)を適用することによって判定される、少なくとも1つのイントラ予測モードをサポートする方法によって取得されるデータストリームであって、
再サンプリングされたテンプレート(130、170)を取得するために、第1のテンプレート(130、170)の次元を有するように、前記現在のブロック(18)に隣接するサンプルの第2のテンプレート(60)を再サンプリング(134、166)し、
予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(60)を適用(138a、170a、44−1、44−2)することによってイントラ予測を実行し、
前記現在のブロック(18)の前記イントラ予測信号(142、24−1、24−2)を取得(140)するために、前記現在のブロック(18)の次元を有するように前記予備的イントラ予測信号(138、172、176)を再サンプリング(140)することを備える、データストリーム。
【請求項37】
前記方法が、前記画像の所定のサイズのブロック(136、172)の前記イントラ予測信号が、前記現在のブロックに隣接するサンプルの第1のテンプレート(130、170)をニューラルネットワーク(80)に適用することによって決定される、少なくとも1つのイントラ予測モードをサポートし、
イントラ予測を実行することが、予備的イントラ予測信号(138、172、176)を取得するために、前記サンプルの再サンプリングされたテンプレート(60)をニューラルネットワーク(80)に適用(138a、170a、44−1、44−2)することを含む、請求項36に記載のデータストリーム。
【国際調査報告】
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]