(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2020-537445(P2020-537445A)
(43)【公表日】2020年12月17日
(54)【発明の名称】ブロック単位の画像符号化のためのイントラ予測モード概念
(51)【国際特許分類】
H04N 19/11 20140101AFI20201120BHJP
H04N 19/134 20140101ALI20201120BHJP
H04N 19/176 20140101ALI20201120BHJP
H04N 19/196 20140101ALI20201120BHJP
【FI】
H04N19/11
H04N19/134
H04N19/176
H04N19/196
【審査請求】有
【予備審査請求】未請求
【全頁数】94
(21)【出願番号】特願2020-520774(P2020-520774)
(86)(22)【出願日】2018年10月10日
(85)【翻訳文提出日】2020年6月9日
(86)【国際出願番号】EP2018077609
(87)【国際公開番号】WO2019072921
(87)【国際公開日】20190418
(31)【優先権主張番号】17196402.6
(32)【優先日】2017年10月13日
(33)【優先権主張国】EP
(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】プファフ・ヨナサン
(72)【発明者】
【氏名】ヘレ・フィリップ
(72)【発明者】
【氏名】マニリー・ドミニク
(72)【発明者】
【氏名】ヴィーガンド・トーマス
(72)【発明者】
【氏名】ザメック・ヴォイチェヒ
(72)【発明者】
【氏名】カルテンスタドラー・ステファン
(72)【発明者】
【氏名】シュバルツ・ヘイコ
(72)【発明者】
【氏名】マルペ・デトレフ
(72)【発明者】
【氏名】シークマン・ミシャ
(72)【発明者】
【氏名】ヴィンケン・マーティン
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA04
5C159MA05
5C159MA23
5C159MC11
5C159ME01
5C159PP04
5C159SS26
5C159TA32
5C159TB08
5C159TC02
5C159TC42
5C159TD16
5C159UA02
5C159UA05
(57)【要約】
第1の態様によれば、改善された圧縮効率は、現在のブロックの隣接サンプルの集合をニューラルネットワークに適用することによって画像の現在のブロックのイントラ予測信号が決定されるイントラ予測モードの集合をブロック単位の画像コーデックにサポートさせることによって、実現される。本出願の第2の態様は、ニューラルネットワークベースイントラ予測モードを費やすのに加えて、またはこれに代えて、イントラ予測モードの集合を含むかまたはこれと一致する複数のイントラ予測モードから1つのイントラ予測モードを選択するために使用されるランクまたは確率値を隣接サンプルの集合に適用することによってイントラ予測モードの集合の各々のランクまたは確率値を決定するための専用のニューラルネットワークの使用により、モード選択がより効率的になり得ることである。
[この文献は図面を表示できません]
【特許請求の範囲】
【請求項1】
データストリーム(12)から画像(10)をブロック単位でデコードするための装置であって、前記装置は、少なくともイントラ予測モードの集合(72)を備える複数(66)のイントラ予測モードをサポートし、これにしたがって前記画像の現在のブロック(18)のためのイントラ予測信号が、前記現在のブロック(18)の隣接サンプルの第1の集合(60)をニューラルネットワーク(80)に適用することによって決定され、前記装置は、
前記現在のブロック(18)のために前記複数(66)のイントラ予測モードから1つのイントラ予測モードを選択(68)し、
前記1つのイントラ予測モードを使用して前記現在のブロック(18)を予測(71)する
ように構成されている、装置。
【請求項2】
可変長コードを使用して前記データストリーム(12)からインデックス(70b)をデコードし、
前記インデックス(70b)を使用して前記選択を実行する
ように構成されている、請求項1に記載の装置。
【請求項3】
イントラ予測モードの順序リストを取得するために、前記現在のブロック(18)の近傍に関連する前記データストリーム(12)の第1部分(97)に応じてイントラ予測モードの前記集合(72)のランキングを決定し、
前記第1部分以外の前記データストリーム(12)の第2部分(98)に応じてイントラ予測モードの前記順序リストから前記1つのイントラ予測モードを選択する
ように構成されている、請求項1または2に記載の装置。
【請求項4】
イントラ予測モードの前記集合(72)の各イントラ予測モードについて、イントラ予測モードの順序リストを取得するために、隣接サンプルの第2の集合(86)をさらなるニューラルネットワークに適用することによってランクを決定し、
前記データストリーム(12)からインデックス(70b)を前記順序リストにデコードし、
前記インデックス(70b)および前記順序リストを使用して前記選択を実行する
ように構成されている、請求項1または2に記載の装置。
【請求項5】
可変長コードを使用して、前記データストリーム(12)から前記インデックス(70b)を前記順序リストにデコードするように構成されている、請求項4に記載の装置。
【請求項6】
イントラ予測モードの前記集合(72)の各イントラ予測モードについて、隣接サンプルの第2の集合(86)をさらなるニューラルネットワークに適用することによって確率値(120)を決定し、
前記確率値(120)を使用して、前記データストリーム(12)から、インデックス(70b)をイントラ予測モードの前記集合(72)にエントロピーデコードし、
前記インデックス(70b)を使用して前記選択を実行する
ように構成されている、請求項1または2に記載の装置。
【請求項7】
隣接サンプルの前記第1の集合(60)は、隣接サンプルの前記第2の集合(86)と一致する、請求項3から6のいずれか一項に記載の装置。
【請求項8】
イントラ予測モードの前記集合(72)の各々は、排他的に、前記現在のブロック(18)の隣接サンプルの前記第1の集合(60)から前記現在のブロック(18)のための前記イントラ予測信号を一意に決定する、請求項1から7のいずれか一項に記載の装置。
【請求項9】
前記複数のイントラ予測モードは、前記現在のブロック(18)がDC値で満たされるDCモード、または前記現在のブロック(18)の隣接サンプルの第3の集合から導出された前記現在のブロック(18)と一緒に、所定の方向に沿って前記現在のブロック(18)内に空間サンプル値分布を投影することによって前記イントラ予測信号が決定される方向モード、のうちの1つ以上を含む、イントラ予測モードのさらなる集合をさらに備える、請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記複数のイントラ予測モードは、現在のブロック(18)の前記イントラ予測信号が、線形関数を使用して前記現在のブロック(18)の隣接サンプルの第3の集合から決定されるイントラ予測モードのさらなる集合をさらに備え、隣接サンプルの前記第1の集合(60)の濃度は隣接サンプルの前記第3の集合の濃度よりも高い、請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記複数のイントラ予測モードから前記1つのイントラ予測モードを選択する際に、イントラ予測モードの前記集合またはイントラ予測モードの前記さらなる集合から前記1つのイントラ予測モードを選択するように、前記データストリーム(12)内の1つのフラグに応答するように構成されている、請求項10または11に記載の装置。
【請求項12】
画像(10)をデータストリーム(12)にブロック単位でエンコードするための装置であって、前記装置は、少なくともイントラ予測モードの集合(72)を備える複数のイントラ予測モードをサポートし、これにしたがって前記画像(10)の現在のブロック(18)のための前記イントラ予測信号が、前記現在のブロック(18)の隣接サンプルの第1の集合(60)をニューラルネットワーク(80)に適用することによって決定され、前記装置は、
前記現在のブロック(18)のために前記複数のイントラ予測モードから1つのイントラ予測モードを選択(90)し、
前記1つのイントラ予測モードを使用して前記現在のブロック(18)を予測する
ように構成されている、装置。
【請求項13】
可変長コードを使用してインデックス(70b)を前記データストリーム(12)にエンコードし、前記インデックス(70b)は前記選択を表している
ように構成されている、請求項12に記載の装置。
【請求項14】
イントラ予測モードの順序リストを取得するために、前記現在のブロック(18)の近傍に関連する前記データストリーム(12)の第1部分(97)に応じてイントラ予測モードの前記集合(72)のランキングを決定し、
イントラ予測モードの前記順序リストから前記1つのイントラ予測モードを選択し、
イントラ予測モードの前記順序リストからの前記選択を表すように、前記第1部分(97)以外の前記データストリーム(12)の第2部分(98)を形成する
ように構成されている、請求項12または13に記載の装置。
【請求項15】
イントラ予測モードの前記集合(72)の各イントラ予測モードについて、イントラ予測モードの順序リストを取得するために、隣接サンプルの第2の集合(86)をさらなるニューラルネットワークに適用することによってランクを決定し、
前記データストリーム(12)に、インデックス(70b)を前記順序リストにエンコードする
ように構成されており、
前記インデックス(70b)は、前記順序リストから前記1つのイントラ予測モードを選択する、
請求項12または14に記載の装置。
【請求項16】
可変長コードを使用して、前記データストリーム(12)から前記インデックスを前記順序リストにデコードするように構成されている、請求項15に記載の装置。
【請求項17】
イントラ予測モードの前記集合(72)の各イントラ予測モードについて、隣接サンプルの第2の集合(86)をさらなるニューラルネットワークに適用することによって確率値(120)を決定し、
前記確率値(120)を使用して、前記データストリーム(12)に、インデックス(70b)をイントラ予測モードの前記集合(72)にエントロピーエンコードし、前記インデックス(70b)は前記1つのイントラ予測モードを指す
ように構成されている、請求項12または13に記載の装置。
【請求項18】
隣接サンプルの前記第1の集合(60)は、隣接サンプルの前記第2の集合(86)と一致する、請求項14から17のいずれか一項に記載の装置。
【請求項19】
イントラ予測モードの前記集合(72)の各々は、排他的に、前記現在のブロック(18)の隣接サンプルの前記第1の集合(60)から前記現在のブロック(18)のための前記イントラ予測信号を一意に決定する、請求項12から18のいずれか一項に記載の装置。
【請求項20】
前記複数のイントラ予測モードは、前記現在のブロック(18)がDC値で満たされるDCモード、または前記現在のブロック(18)の隣接サンプルの第3の集合から導出された前記現在のブロック(18)と一緒に、所定の方向に沿って前記現在のブロック(18)内に空間サンプル値分布を投影することによって前記イントラ予測信号が決定される方向モード、のうちの1つ以上を含む、イントラ予測モードのさらなる集合をさらに備える、請求項12から19のいずれか一項に記載の装置。
【請求項21】
前記複数のイントラ予測モードは、現在のブロック(18)の前記イントラ予測信号が、線形関数を使用して前記現在のブロック(18)の隣接サンプルの第3の集合から選択されるイントラ予測モードのさらなる集合をさらに備え、隣接サンプルの前記第1の集合(60)の濃度は隣接サンプルの前記第3の集合の濃度よりも高い、請求項12から20のいずれか一項に記載の装置。
【請求項22】
データストリーム(12)に、前記1つのイントラ予測モードがイントラ予測モードの前記集合(72)の要素であるかイントラ予測モードの前記さらなる集合の要素であるかを示す1つのフラグを提供するように構成されている、請求項19または20に記載の装置。
【請求項23】
ブロック単位の画像符号化のためのイントラ予測モードの集合(72)を設計するための装置であって、
イントラ予測モードの前記集合(72)の各々について、第1テストブロックの予測信号(118)を取得するように、前記第1画像テストブロック(114)に隣接する隣接サンプル(116)の第1の集合(60)を第1ニューラルネットワーク(80)に、およびイントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードの確率を示す確率値(120)を取得するように、前記第1画像テストブロックに隣接する隣接サンプルの第2の集合(86)を第2ニューラルネットワーク(84)に、適用し、
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードのために取得された前記予測信号(118)を使用して、予測誤差符号化およびモード信号伝達に関連する符号化コストのコスト推定(124)を決定(122)し、
最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)に応じて残差レート推定を形成する第1加数、および最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)および前記確率値(120)に応じてモードシグナリング側情報レート推定を形成する第2加数を有する符号化コスト関数を低減するように、前記第1ニューラルネットワーク(80)の第1パラメータ(113)および前記第2ニューラルネットワーク(84)の第2パラメータ(111)を更新(110)し、
第2画像テストブロックに隣接する隣接サンプルを、更新された前記第1および第2パラメータ(113、111)を用いて、前記第1ニューラルネットワーク(80)に、および前記第2ニューラルネットワーク(84)に適用する
ように構成されている、装置。
【請求項24】
前記第1および第2ニューラルネットワーク(80、84)は、
線形および非線形関数のシーケンスであって、前記第1および第2パラメータ(113、111)は前記線形関数の重みを備える、シーケンス、
ニューロン層のシーケンスを形成する線形および非線形関数のシーケンス、または
ニューロンの層のシーケンスであって、前記第1および第2パラメータ(113、111)は相互接続されたニューロン間で転送される信号強度を制御する重みを備える、シーケンス
である、請求項23に記載の装置。
【請求項25】
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードのために取得された前記予測信号(118)および前記確率値(120)を使用して、予測誤差符号化およびモード信号伝達に関連する符号化コストの前記コスト推定を決定する
ように構成されている、請求項23または24に記載の装置。
【請求項26】
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードおよび前記第1画像テストブロックの元の歪みのないバージョンのために取得された前記予測信号(118)を予測誤差符号化レート推定にマッピングする第1加数と、前記それぞれのイントラ予測モードのために取得された前記確率値(120)をモード信号伝達レート推定にマッピングする第2加数との合計として、予測誤差符号化およびモード信号伝達に関連する符号化コストの前記コスト推定を決定する
ように構成されている、請求項23から25のいずれか一項に記載の装置。
【請求項27】
前記符号化コスト関数の第2加数は、最低符号化コスト推定の前記イントラ予測モードの交差エントロピーを示す全てのイントラ予測モードのために取得された前記確率値(120)の関数として、最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)に応じて前記モードシグナリング側情報レート推定を形成する
請求項23から26のいずれか一項に記載の装置。
【請求項28】
前記符号化コスト関数の第1加数は、前記それぞれのイントラ予測モードおよび前記第1画像テストブロックの元の歪みのないバージョンのために取得された前記予測信号(118)の関数として、最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)に応じて前記残差レート推定を形成する
請求項23から27のいずれか一項に記載の装置。
【請求項29】
複数の画像テストブロックの次の画像テストブロックの適用のために1つの画像テストブロックに対して更新された前記第1および第2パラメータ(113、111)を使用して、前記複数の画像テストブロックの前記適用、決定、および更新を順次繰り返す
ように構成されている、請求項23から28のいずれか一項に記載の装置。
【請求項30】
前記複数の画像テストブロックを、より効率的に符号化可能な未細分の第1の集合、およびより効率的に符号化可能であってサブブロックに細分された第2の集合に細分し、前記第1の集合の次の画像テストブロックの適用のために1つの画像テストブロックに対して更新された前記第1および第2パラメータ(113、111)を使用して、前記第1の集合の画像テストブロックの前記適用、決定、および更新を順次繰り返す
ように構成されている、請求項23から29のいずれか一項に記載の装置。
【請求項31】
勾配降下を使用して前記更新を実行する
ように構成されている、請求項23から30のいずれか一項に記載の装置。
【請求項32】
隣接サンプルの前記第1の集合(60)は、隣接サンプルの前記第2の集合(86)と一致する、請求項23から31のいずれか一項に記載の装置。
【請求項33】
データストリーム(12)から画像(10)をブロック単位でデコードするための装置であって、前記装置は複数のイントラ予測モードをサポートし、前記装置は、
前記複数(66)のイントラ予測モードの少なくともイントラ予測モードの集合(72)の各々について、現在のブロック(18)に隣接する隣接サンプルの第1の集合(68)をニューラルネットワーク(80)に適用することによって、ランクまたは確率値(120)を決定し、
前記現在のブロック(18)について、前記ランクまたは確率値(120)を使用して、前記複数のイントラ予測モードから1つのイントラ予測モードを選択し、
前記1つのイントラ予測モードを使用して、前記現在のブロック(18)を予測する
ように構成されている、装置。
【請求項34】
イントラ予測モードの順序リストを取得するために前記ランクにしたがってイントラ予測モードの前記集合(72)を順序付け、
可変長コードを使用して前記データストリーム(12)からインデックス(70b)をデコードし、
前記インデックス(70b)および前記順序リストを使用して前記選択を実行する
ように構成されている、請求項33に記載の装置。
【請求項35】
前記確率値(120)を使用して、前記データストリーム(12)から、インデックス(70b)をイントラ予測モードの前記集合(72)にエントロピーデコードし、
前記インデックス(70b)を使用して前記選択を実行する
ように構成されている、請求項33または34に記載の装置。
【請求項36】
イントラ予測モードの前記集合(72)の各々は、排他的に、前記現在のブロック(18)の隣接サンプルの第2の集合(86)から前記現在のブロック(18)のための前記イントラ予測信号を一意に決定する、請求項33から35のいずれか一項に記載の装置。
【請求項37】
前記複数のイントラ予測モードは、前記現在のブロック(18)がDC値で満たされるDCモード、または前記現在のブロック(18)の隣接サンプルの第3の集合から導出された前記現在のブロック(18)と一緒に、所定の方向に沿って前記現在のブロック(18)内に空間サンプル値分布を投影することによって前記イントラ予測信号が決定される方向モード、のうちの1つ以上を備える、請求項33から36のいずれか一項に記載の装置。
【請求項38】
それに基づいて前記現在のブロック(18)が前記複数のイントラ予測モードにしたがって予測される隣接サンプルの集合の濃度は、前記複数のイントラ予測モードの間で異なる、請求項33から37のいずれか一項に記載の装置。
【請求項39】
画像(10)をデータストリーム(12)にブロック単位でエンコードするための装置であって、前記装置は複数のイントラ予測モードをサポートし、前記装置は、
前記複数のイントラ予測モードの少なくともイントラ予測モードの集合(72)の各々について、現在のブロック(18)に隣接する隣接サンプルの第1の集合(68)をニューラルネットワーク(80)に適用することによって、ランクまたは確率値(120)を決定し、
前記現在のブロック(18)について、前記ランクまたは確率値(120)を使用して、前記複数のイントラ予測モードから1つのイントラ予測モードを選択(90)し、
前記1つのイントラ予測モードを使用して、前記現在のブロック(18)を予測する
ように構成されている、装置。
【請求項40】
イントラ予測モードの順序リストを取得するために前記ランクにしたがってイントラ予測モードの前記集合(72)を順序付け、
可変長コードを使用してインデックス(70b)を前記データストリーム(12)にエンコードする
ように構成されており、
前記インデックス(70b)は、前記順序リスト内の前記1つのイントラ予測モードにインデックスを付ける、
請求項39に記載の装置。
【請求項41】
前記確率値(120)を使用して、イントラ予測モードの前記集合(72)へのインデックス(70b)を前記データストリーム(12)にエントロピーエンコードするように構成されており、
前記インデックス(70b)は、イントラ予測モードの前記集合(72)内の前記1つのイントラ予測モードにインデックスを付ける、
請求項39または40に記載の装置。
【請求項42】
前記複数(66)のイントラ予測モードの各々は、排他的に、前記現在のブロック(18)の隣接サンプルの第2の集合(86)から前記現在のブロック(18)のための前記イントラ予測信号を一意に決定する、請求項39から41のいずれか一項に記載の装置。
【請求項43】
前記複数(66)のイントラ予測モードは、前記現在のブロック(18)がDC値で満たされるDCモード、または前記現在のブロック(18)の隣接サンプルの第3の集合から導出された前記現在のブロック(18)と一緒に、所定の方向に沿って前記現在のブロック(18)内に空間サンプル値分布を投影することによって前記イントラ予測信号が決定される方向モード、のうちの1つ以上を備える、請求項39から42のいずれか一項に記載の装置。
【請求項44】
それに基づいて前記現在のブロック(18)が前記複数(66)のイントラ予測モードにしたがって予測される隣接サンプルの集合の濃度は、前記複数(66)のイントラ予測モードの間で異なる、請求項39から43のいずれか一項に記載の装置。
【請求項45】
ブロック単位の画像符号化のためのイントラ予測モードの集合(72)の間での選択を支援するためのニューラルネットワーク(84)を設計するための装置であって、
イントラ予測モードの前記集合(72)の各々を使用して、イントラ予測モードの前記集合(72)の各々について、第1テストブロックの予測信号(118)を取得するように、前記第1画像テストブロックに隣接する隣接サンプルの第1の集合(68)から前記第1画像テストブロックを推定(170)し、イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードの確率を示す確率値(120)を取得するように、隣接サンプルの前記第1の集合(68)を前記ニューラルネットワーク(84)に適用し、
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードのために取得された前記予測信号(118)を使用して、予測誤差符号化およびモード信号伝達に関連する符号化コストのコスト推定を決定し、
最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)に応じて残差レート推定を形成する第1加数、および最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)および前記確率値(120)に応じてモードシグナリング側情報レート推定を形成する第2加数を有する符号化コスト関数を低減するように、前記ニューラルネットワーク(84)のパラメータを更新し、
前記更新されたパラメータを用いて第2予測テキストブロックおよび隣接サンプルのその集合の前記予測および適用をやり直す
ように構成されている、装置。
【請求項46】
前記ニューラルネットワークは、
線形および非線形関数のシーケンスであって、前記パラメータは線形関数重みを備える、シーケンス、
ニューロン層のシーケンスを形成する線形および非線形関数のシーケンス、または
ニューロンの層のシーケンスであって、前記パラメータは層と接続されたニューロン間で転送される信号強度を制御する重みを備える、シーケンス
である、請求項45に記載の装置。
【請求項47】
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードのために取得された前記予測信号(118)および前記確率値(120)を使用して、予測誤差符号化およびモード信号伝達に関連する符号化コストの前記コスト推定を決定する
ように構成されている、請求項45または46に記載の装置。
【請求項48】
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードおよび前記第1画像テストブロックの元の歪みのないバージョンのために取得された前記予測信号(118)を予測誤差符号化レート推定にマッピングする第1加数と、前記それぞれのイントラ予測モードのために取得された前記確率値(120)をモード信号伝達レート推定にマッピングする第2加数との合計として、予測誤差符号化およびモード信号伝達に関連する符号化コストの前記コスト推定を決定する
ように構成されている、請求項45から47のいずれか一項に記載の装置。
【請求項49】
前記符号化コスト関数の第2加数は、最低符号化コスト推定の前記イントラ予測モードの交差エントロピーを示す全てのイントラ予測モードのために取得された前記確率値(120)の関数として、最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)に応じて前記モードシグナリング側情報レート推定を形成する
請求項45から48のいずれか一項に記載の装置。
【請求項50】
前記符号化コスト関数の第1加数は、前記それぞれのイントラ予測モードおよび前記第1画像テストブロックの元の歪みのないバージョンのために取得された前記予測信号(118)の関数として、最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)に応じて前記残差レート推定を形成する
請求項45から49のいずれか一項に記載の装置。
【請求項51】
複数の画像テストブロックの次の画像テストブロックの適用のために1つの画像テストブロックに対して更新された前記パラメータを使用して、前記複数の画像テストブロックの前記予測、適用、決定、および更新を順次繰り返す
ように構成されている、請求項45から50のいずれか一項に記載の装置。
【請求項52】
勾配降下を使用して前記更新を実行する
ように構成されている、請求項45から51のいずれか一項に記載の装置。
【請求項53】
データストリーム(12)から画像(10)をブロック単位でデコードする方法であって、少なくともイントラ予測モードの集合(72)を備える複数(66)のイントラ予測モードをサポートし、これにしたがって前記画像の現在のブロック(18)のための前記イントラ予測信号が、前記現在のブロック(18)の隣接サンプルの第1の集合(60)をニューラルネットワーク(80)に適用することによって決定され、前記方法は、
前記現在のブロック(18)のために前記複数(66)のイントラ予測モードから1つのイントラ予測モードを選択(68)するステップと、
前記1つのイントラ予測モードを使用して前記現在のブロック(18)を予測(71)するステップと
を備える方法。
【請求項54】
画像(10)をデータストリーム(12)にブロック単位でエンコードする方法であって、少なくともイントラ予測モードの集合(72)を備える複数のイントラ予測モードをサポートし、これにしたがって前記画像(10)の現在のブロック(18)のための前記イントラ予測信号が、前記現在のブロック(18)の隣接サンプルの第1の集合(60)をニューラルネットワーク(80)に適用することによって決定され、前記方法は、
前記現在のブロック(18)のために前記複数のイントラ予測モードから1つのイントラ予測モードを選択(90)するステップと、
前記1つのイントラ予測モードを使用して前記現在のブロック(18)を予測するステップと
を備える方法。
【請求項55】
ブロック単位の画像符号化のためのイントラ予測モードの集合(72)を設計する方法であって、
イントラ予測モードの前記集合(72)の各々について、第1テストブロックの予測信号(118)を取得するように、前記第1画像テストブロック(114)に隣接する隣接サンプル(116)の第1の集合(60)を第1ニューラルネットワーク(80)に、およびイントラ予測モードの集合(72)の各々について、前記それぞれのイントラ予測モードの確率を示す確率値(120)を取得するように、前記第1画像テストブロックに隣接する隣接サンプルの第2の集合(86)を第2ニューラルネットワーク(84)に、適用するステップと、
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードのために取得された前記予測信号(118)を使用して、予測誤差符号化およびモード信号伝達に関連する符号化コストのコスト推定(124)を決定(122)するステップと、
最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)に応じて残差レート推定を形成する第1加数、および最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)および前記確率値(120)に応じてモードシグナリング側情報レート推定を形成する第2加数を有する符号化コスト関数を低減するように、前記第1ニューラルネットワーク(80)の第1パラメータ(113)および前記第2ニューラルネットワーク(84)の第2パラメータ(111)を更新(110)するステップと、
第2画像テストブロックに隣接する隣接サンプルを、更新された前記第1および第2パラメータ(113、111)を用いて、前記第1ニューラルネットワーク(80)に、および前記第2ニューラルネットワーク(84)に適用するステップと
を備える方法。
【請求項56】
データストリーム(12)から画像(10)をブロック単位でデコードする方法であって、複数のイントラ予測モードをサポートし、前記方法は、
前記複数(66)のイントラ予測モードの少なくともイントラ予測モードの集合(72)の各々について、現在のブロック(18)に隣接する隣接サンプルの第1の集合(68)をニューラルネットワーク(80)に適用することによって、ランクまたは確率値(120)を決定するステップと、
前記現在のブロック(18)について、前記ランクまたは確率値(120)を使用して、前記複数のイントラ予測モードから1つのイントラ予測モードを選択するステップと、
前記1つのイントラ予測モードを使用して、前記現在のブロック(18)を予測するステップと
を備える方法。
【請求項57】
画像(10)をデータストリーム(12)にブロック単位でエンコードする方法であって、複数のイントラ予測モードをサポートし、前記方法は、
前記複数のイントラ予測モードの少なくともイントラ予測モードの集合(72)の各々について、現在のブロック(18)に隣接する隣接サンプルの第1の集合(68)をニューラルネットワーク(80)に適用することによって、ランクまたは確率値(120)を決定するステップと、
前記現在のブロック(18)について、前記ランクまたは確率値(120)を使用して、前記複数のイントラ予測モードから1つのイントラ予測モードを選択(90)するステップと、
前記1つのイントラ予測モードを使用して、前記現在のブロック(18)を予測するステップと
を備える方法。
【請求項58】
ブロック単位の画像符号化のためのイントラ予測モードの集合(72)の間での選択を支援するためのニューラルネットワーク(84)を設計する方法であって、前記方法は、
イントラ予測モードの前記集合(72)の各々を使用して、イントラ予測モードの前記集合(72)の各々について、第1テストブロックの予測信号(118)を取得するように、前記第1画像テストブロックに隣接する隣接サンプルの第1の集合(68)から前記第1画像テストブロックを推定(170)し、イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードの確率を示す確率値(120)を取得するように、隣接サンプルの前記第1の集合(68)を前記ニューラルネットワーク(84)に適用するステップと、
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードのために取得された前記予測信号(118)を使用して、予測誤差符号化およびモード信号伝達に関連する符号化コストのコスト推定を決定するステップと、
最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)に応じて残差レート推定を形成する第1加数、および最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)および前記確率値(120)に応じてモードシグナリング側情報レート推定を形成する第2加数を有する符号化コスト関数を低減するように、前記ニューラルネットワーク(84)のパラメータを更新するステップと、
前記更新されたパラメータを用いて第2予測テキストブロックおよび隣接サンプルのその集合の前記予測および適用をやり直すステップと
を備える方法。
【請求項59】
コンピュータ上で実行されると、請求項53から58のいずれか一項に記載の方法を実行するための、プログラムコードを有するコンピュータプログラム。
【請求項60】
請求項54から57のいずれか一項に記載の方法を使用して生成されたデータストリーム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、HEVCまたはHEVCの任意の後継などのビデオコーデックで使用可能なものなどのブロック単位の画像符号化のための改善されたイントラ予測モード概念に関する。
【背景技術】
【0002】
イントラ予測モードは、画像およびビデオ符号化で広く使用されている。ビデオ符号化では、イントラ予測モードは動き補償予測モードなどのインター予測モードなどその他の予測モードと競合する。イントラ予測モードでは、現在のブロックは、隣接サンプル、すなわちエンコーダ側に関する限り既にエンコードされ、デコーダ側に関する限り既にデコードされているサンプルに基づいて、予測される。率直に言えば、隣接サンプル値は、現在のブロックのデータストリームで予測残差を送信して現在のブロックの予測信号を形成するように、現在のブロックに外挿される。予測信号が良好であるほど予測残差が低くなり、したがって予測残差を符号化するために必要なビット数が少なくなる。
【0003】
効果的であるためには、ブロック単位の画像符号化環境でのイントラ予測に効果的なフレームワークを形成するために、いくつかの態様を考慮すべきである。たとえば、コーデックによってサポートされるイントラ予測モードの数が大きいほど、デコーダに選択を通知するためのサイド情報レート消費が大きくなる。一方、サポートされるイントラ予測モードの集合は、良好な予測信号、すなわち低予測残差となる予測信号を提供できるべきである。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願は、改善されたイントラ予測モード概念を使用する場合にブロック単位の画像コーデックのより効率的な圧縮を可能にするイントラ予測モード概念を提供しようとするものである。
【課題を解決するための手段】
【0005】
この目的は、本出願の独立請求項の主題によって達成される。
【0006】
本出願の第1の態様によれば、改善された圧縮効率は、現在のブロックの隣接サンプルの集合をニューラルネットワークに適用することによって画像の現在のブロックのイントラ予測信号が決定されるイントラ予測モードの集合をブロック単位の画像コーデックにサポートさせることによって、実現される。この集合は、完全にサポートされた複数のイントラ予測モード、または単にその適切な小集合を形成し得る。サポートされた複数のイントラ予測モードのうち、1つは現在のブロック向けに選択され、現在のブロックは1つのイントラ予測モード、すなわち選択されたものを使用して予測される。データストリームには、選択されたイントラ予測モードを示す、現在のブロックのインデックスが提供され得る。ブロック単位の画像コーデックに、その間で現在のブロックの選択が実行される2つ以上のニューラルネットワークベースイントラ予測モードを提供することで、より高い尤度で特定のブロックのために予測誤差の低い予測信号を見つけるように、これらのニューラルネットワークベースイントラ予測モードを設計できるようにする。加えて、ニューラルネットワークイントラ予測モード設計は、イントラ予測モード選択のサイド情報が費やされた場合に、このサイド情報オーバヘッドが低く維持され得るような方法で実行され得る。これは、イントラ予測モード設計が、イントラ予測画像ブロック間で選択頻度が相互に異なるようにニューラルネットワークベースイントラ予測モードを自由に生成できる、という事実によって実現可能となる。言い換えると、複数のニューラルネットワークベースイントラ予測モードを費やすことにより、これらのモードの設計は、これらの統計的な選択頻度がエントロピー符号化を招くように選択信号伝達に適合するようなやり方で、ヒューリスティックに設計されたイントラ予測モード集合からの選択と比較してより低いサイド情報オーバヘッドを感知できるようになる。たとえば、選択されたイントラ予測モードを指すインデックスは、可変長コードを使用して、またはエントロピー符号化を使用して符号化されてもよく、ニューラルネットワークベースイントラ予測モードは、イントラ予測モード間のモード選択のための平均信号伝達オーバヘッドが減少または最小化されるように、それらの選択頻度または頻度分布が可変長コードに適合するような、またはそれらの頻度分布がエントロピーコードの基礎となるサンプル統計に適合するような方法で、設計されてもよい。
【0007】
本出願の第2の態様は、ニューラルネットワークベースイントラ予測モードを費やすのに加えて、またはこれに代えて、イントラ予測モードの集合を含むかまたはこれと一致する複数のイントラ予測モードから1つのイントラ予測モードを選択するために使用されるランクまたは確率値を隣接サンプルの集合に適用することによってイントラ予測モードの集合の各々のランクまたは確率値を決定するための専用のニューラルネットワークの使用により、モード選択がより効率的になり得ることである。イントラ予測モードから選択するためのサイド情報オーバヘッドは、完全に除外されるか、またはニューラルネットワークを使用することによってより効率的になり得る。
【0008】
上述のニューラルネットワークの設計に関する限り、本出願は、そのパラメータを適切に決定するための多くの実施形態を提供する。
【0009】
本出願の有利な実装は、従属請求項の主題である。本出願の好適な実施形態は、以下の図面を参照して後述される。
【図面の簡単な説明】
【0010】
【
図1】本出願の実施形態が実装され得る一般的な例として、画像をデータストリームにエンコードするためのエンコーダを示す概略ブロック図である。
【
図2】
図1によるエンコーダのより具体的な例のブロック図である。
【
図3】
図1のエンコーダに適合し、本出願の実施形態が実装され得るデコーダの一例として役立つデコーダを示す概略ブロック図である。
【
図4】
図2のエンコーダに適合する、
図3のデコーダのより具体的な例のブロック図である。
【
図5】イントラ予測を使用してブロックを処理することに関する本出願の実施形態によるエンコーダおよびデコーダにおける動作モードを示す概略図である。
【
図6】いくつかのニューラルネットワークベースイントラ予測モードを備える本出願の実施形態によるデコーダを示す概略ブロック図である。
【
図7a】使用されるイントラ予測モードがニューラルネットワークベースイントラ予測モードの集合の要素であるか否かを示すフレックと共に、データストリーム内でインデックスをニューラルネットワークベースイントラ予測モードの順序リスト内に送信しながら、ニューラルネットワークベースイントラ予測モードおよびこれらのモードのニューラルネットワークベースの順序付けをサポートする実施形態による、エンコーダおよびデコーダの動作モードを示す概略図である。言うまでもなく、異なる頻度が決定90によって決定されることを利用するように、インデックスは可変長符号化を使用して符号化され得る。
【
図7b】フレック信号伝達が使用されない点で
図7aとは異なる概略図である。
【
図7c】モード順序付けがニューラルネットワークを使用して制御されない点で
図7bとは異なる概略図である。
【
図7d】モード信号伝達におけるニューラルネットワーク支援がモード順序付けではなくエントロピーエンコード/デコードにおける確率分布推定の制御に使用される点で、
図7aとは異なる概略図である。
【
図8】一実施形態によるニューラルネットワークベースイントラ予測モードの集合を設計するための装置を示す図である。
【
図9a】ニューラルネットワークベースであるか否かにかかわらずサポートされたイントラ予測モードを順序付けるためにニューラルネットワークが使用される実施形態による、エンコーダおよびデコーダの動作モードを示す概略図である。
【
図9b】サポートされたイントラ予測モードの集合へのインデックスのエントロピーデコード/エンコードの確率分布推定を制御するためにニューラルネットワークベースが使用される点で、
図9aとは異なる概略図である。
【
図10】一実施形態によるブロック単位の画像符号化のためにイントラ予測モードの集合の中から支援および選択するためのニューラルネットワークを設計するための装置を示す図である。
【発明を実施するための形態】
【0011】
以下、イントラ予測を使用するときのより効果的な圧縮の実現を支援する様々な実施形態が記載される。いくつかの実施形態は、ニューラルネットワークベースのイントラ予測モードの集合を費やすことによって圧縮効率の増加を実現する。後者のものは、たとえばヒューリスティックに設計された別のイントラ予測モードに追加されてもよく、または排他的に提供されてもよい。別の実施形態は、複数のイントラ予測モード間の選択を実行するために、ニューラルネットワークを使用する。そしてさらに別の実施形態は、今議論されたばかりの特徴の両方を利用する。
【0012】
本出願の以下の実施形態の理解を容易にするために、後に概説される本出願の実施形態が組み込まれる、可能なエンコーダおよびこれに適合するデコーダの提示から、説明を始める。
図1は、画像10をデータストリーム12にブロック単位でエンコードするための装置を示す。装置は、参照符号14を使用して示されており、静止画像エンコーダまたはビデオエンコーダであり得る。言い換えると、画像10は、エンコーダ14が、画像10を含むビデオ16をデータストリーム12にエンコードするように構成されているときにビデオ16からの現在の画像であってもよく、またはエンコーダ14が画像10をデータストリーム12に排他的にエンコードしてもよい。
【0013】
前述のように、エンコーダ14は、ブロック単位で、またはブロックベースで、エンコードを実行する。これに対して、エンコーダ14は画像10をブロックに細分し、この単位でエンコーダ14は画像10をデータストリーム12にエンコードする。画像10のブロック18への可能な細分化の例は、以下により詳細に明記される。一般に、細分化は、一定サイズのブロック18となる可能性があり、これは行および列に配置されたブロックのアレイを示唆しており、または画像10の画像領域全体または画像10の予備分割からツリーブロックのアレイへのマルチツリー細分化を開始する階層的マルチツリー細分化の使用などによって異なるブロックサイズのブロック18となる可能性もあるが、これらの例は、画像10をブロック18に細分化する他の可能な方法を除外するように扱われるものではない。
【0014】
さらに、エンコーダ14は、画像10を予測的にデータストリーム12にエンコードするように構成された予測エンコーダである。特定のブロック18では、これは、エンコーダ14がブロック18の予測信号を決定して、予測残差、すなわち予測信号がブロック18内の実際の画像コンテンツから逸脱する予測残差を、データストリーム12にエンコードすることを意味する。
【0015】
エンコーダ14は、特定のブロック18の予測信号を導出するように異なる予測モードをサポートし得る。以下の実施形態において重要となる予測モードは、ブロック18の内部が画像10の隣接する既にエンコードされたサンプルから空間的に予測される、イントラ予測モードである。画像10のデータストリーム12へのエンコード、および相応に対応するデコード手順は、ブロック18の間で定義された特定の符号化順序20に基づくことができる。たとえば、符号化順序20は、たとえば左から右へ各行を横断して上から下まで行単位などのラスタ走査順序でブロック18を横断してもよい。階層的マルチツリーベースの細分化の場合、ラスタ走査順序は各階層レベル内で適用されてもよく、ここで深さ優先横断順序が適用されてもよく、すなわち特定の階層レベルのブロック内のリーフノートが、符号化順序20にしたがって同じ親ブロックを有する同じ階層レベルのブロックに先行してもよい。符号化順序20に応じて、ブロック18の隣接する既にエンコードされたサンプルは、通常、ブロック18の1つ以上の側に配置され得る。本明細書に提示される例の場合、たとえば、ブロック18の隣接する既にエンコードされたサンプルは、ブロック18の上に、および左に配置されている。
【0016】
イントラ予測モードは、エンコーダ14によってサポートされる唯一のものでなくてもよい。たとえば、エンコーダ14がビデオエンコーダである場合、エンコーダ14はまた、ビデオ16の以前にエンコードされた画像からブロック18が一時的に予測されるイントラ予測モードもサポートし得る。このようなイントラ予測モードは動き補償予測モードであってもよく、これにしたがって、ブロック18の予測信号が複製として導出される部分の相対空間オフセットを示すこのようなブロック18について、動きベクトルが通知される。加えて、または代わりに、エンコーダ14がマルチビューエンコーダである場合のインタービュー予測モード、またはブロック18の内部がそのまま、すなわちいかなる予測もなしに符号化される非予測モードなど、その他の非イントラ予測モードもまた利用可能であり得る。
【0017】
本出願の説明の焦点をイントラ予測モードに合わせることから始める前に、
図2に関連して記載されるように、可能なブロックベースのエンコーダ、すなわちエンコーダ14の可能な実装の、より具体的な実施形態であり、次いでそれぞれ
図1および
図2に適合するデコーダの2つの対応する実施形態を提示する。
【0018】
図2は、
図1のエンコーダ14の可能な実装、すなわち、これはほぼ一例であって本出願はこの種の予測残差符号化に限定されないものの、エンコーダが予測残差をエンコードするための変換符号化を使用するように構成されているものを示す。
図2によれば、エンコーダ14は、その後予測残差エンコーダ28によってデータストリーム12にエンコードされる予測残差信号26を取得するように、インバウンド信号、すなわち画像10、またはブロックベースで現在のブロック18から対応する予測信号24を減算するように構成された、減算器22を備える。予測残差エンコーダ28は、非可逆符号化段28aおよび可逆符号化段28bから構成される。非可逆段28aは、予測残差信号26を受信し、予測残差信号26のサンプルを量子化する量子化器30を備える。既に上記で述べられたように、本例は、予測残差信号26の変換符号化を使用し、したがって、非可逆符号化段28aは、残差信号26を表す変換された係数で行われる量子化器30の量子化でこのようなスペクトル分解予測残差26を変換するように、減算器22と量子化器30との間に接続された変換段32を備える。変換は、DCT、DST、FFT、アダマール変換などであり得る。次に、変換および量子化された予測残差信号34は、量子化された予測残差信号34をデータストリーム12にエントロピー符号化するエントロピーコーダである可逆符号化段28bによって、可逆符号化を受ける。エンコーダ14は、変換および量子化された予測残差信号34から予測残差信号をデコーダでも利用可能な方法で再構成するように、量子化器30の出力に接続された予測残差信号再構成段36をさらに備え、すなわち符号化損失は量子化器30であることを考慮している。この目的のため、予測残差再構成段36は、量子化器30の量子化の逆を実行する逆量子化器38を備え、上述の特定の変換例のいずれかの逆などのスペクトル分解の逆など、変換器32によって実行される変換に対する逆変換を実行する逆変換器40がこれに続く。エンコーダ14は、再構成された信号すなわち再構成例を出力するように、逆変換器40による出力として再構成された予測残差信号および予測信号24を加算する加算器42を備える。この出力は、後にこれに基づいて予測信号24を決定するエンコーダ14の予測器44に供給される。
図1に関して既に上記で論じられた全ての予測モードをサポートするのは、予測器44である。
図2はまた、エンコーダ14がビデオエンコーダである場合に、エンコーダ14はまた、フィルタリングされた後にインター予測ブロックに対して予測器44の基準画像を形成する完全に再構成された画像をフィルタリングするインループフィルタ46も備え得ることを示している。
【0019】
既に上述したように、エンコーダ14はブロックベースで動作する。後続の説明では、対象のブロックベースは、画像10をブロックに細分するものであり、このために、イントラ予測モードは、それぞれ予測器44またはエンコーダ14によってサポートされた集合または複数のイントラ予測モードから選択され、選択されたイントラ予測モードが個別に実行される。しかしながら、画像10が細分される他の種類のブロックもまた存在し得る。たとえば、画像10がインター符号化されるかイントラ符号化されるかという上述の決定は、ブロック18から逸脱する粒度またはブロックの単位で行われてもよい。たとえば、インター/イントラモード決定は、画像10が細分される符号化ブロックのレベルで実行されてもよく、各符号化ブロックは予測ブロックに細分される。イントラ予測が使用されると決定されたエンコードブロックを有する予測ブロックは、イントラ予測モード決定に各々細分される。これに対して、これらの予測ブロックの各々について、どのサポートされたイントラ予測モードがそれぞれの予測ブロックに使用されるべきかが決定される。これらの予測ブロックは、ここで対象となるブロック18を形成する。インター予測に関連付けられた符号化ブロック内の予測ブロックは、予測器44によって異なる扱い方をされる。これらは、動きベクトルを決定し、動きベクトルが指す基準画像内の場所からこのブロックの予測信号を複製することによって、基準画像からインター予測される。別のブロック細分化は、変換器32および逆変換器40による変換が実行される単位での変換ブロックへの細分化に関する。変換されたブロックは、たとえば、符号化ブロックをさらに細分化した結果であり得る。当然ながら、本明細書に明記される例は限定的なものとして扱われるべきではなく、他の例もまた存在する。完全性のためにのみ、符号化ブロックへの細分化は、たとえばマルチツリー細分化を使用してもよく、予測ブロックおよび/または変換ブロックは、やはりマルチツリー細分化を使用して符号化ブロックをさらに細分化することによって得られることに、留意する。
【0020】
図1のエンコーダ14に適合するブロック単位デコードのためのデコーダまたは装置が、
図3に示されている。このデコーダ54はエンコーダ14の逆を行い、すなわちこれはデータストリーム12からブロック単位で画像10をデコードし、この目的のために、複数のイントラ予測モードをサポートする。
図1に関して上記で論じられたその他全ての可能性は、デコーダ54に対しても有効である。これに対して、デコーダ54は、静止画像デコーダまたはビデオデコーダであってもよく、全ての予測モードおよび予測可能性もまた、デコーダ54によってサポートされる。エンコーダ14とデコーダ54との違いは主に、たとえば、符号化レートおよび/または符号化歪みに依存し得る何らかのコスト関数を最小化するために、何らかの最適化の示唆にしたがってエンコーダ14が符号化決定を選ぶまたは選択するという事実にある。これらの符号化オプションまたは符号化パラメータの1つは、利用可能またはサポートされたイントラ予測モードの中で現在のブロック18に使用すべきイントラ予測モードの選択を含み得る。次に、選択されたイントラ予測モードは、データストリーム12内の現在のブロック18についてエンコーダ14によって通知されてもよく、デコーダ54はブロック18についてデータストリーム12内のこの信号伝達を使用して選択をやり直す。同様に、ブロック18への画像10の細分化は、エンコーダ14内で最適化を受けてもよく、対応する細分化情報はデータストリーム12内で搬送され、デコーダ54は細分化情報に基づいてブロック18への画像10の細分化を回復してもよい。上記を要約すると、デコーダ54はブロックベースで動作する予測デコーダであってもよく、イントラ予測モードに加えて、デコーダ54は、たとえばデコーダ54がビデオデコーダである場合、インター予測モードなどの別の予測モードをサポートしてもよい。デコードにおいて、デコーダ54はまた、
図1に関して上記で論じられた符号化順序20を使用してもよく、この符号化順序20はエンコーダ14およびデコーダ54の両方で従われるので、エンコーダ14およびデコーダ54の両方で同じ隣接サンプルが現在のブロック18に利用可能である。したがって、不要な繰り返しを回避するために、画像10のブロックへの細分化に関する限り、たとえば予測に関する限り、および予測残差の符号化に関する限り、エンコーダ14の動作モードの説明がデコーダ54にも適用される。違いは、エンコーダ14が最適化によっていくつかの符号化オプションまたは符号化パラメータを選択して、データストリーム12内で、またはデータストリーム12内に、符号化パラメータを通知または挿入し、これはその後、予測、細分化などをやり直すように、デコーダ54によってデータストリーム12から導出される、という事実にある。
【0021】
図4は、
図3のデコーダ54の可能な実装、すなわち
図2に示されるような
図1のエンコーダ14の実装に適合するものを示す。
図4のエンコーダ54の多くの要素は
図2の対応するエンコーダで生じるものと同じなので、これらの要素を示すために、
図4ではアポストロフィを付けた同じ参照符号が使用される。特に、加算器42’、オプションのインループフィルタ46’、および予測器44’は、
図2のエンコーダと同じ方法で予測ループ内に接続される。追加42’に適用される、再構成、すなわち逆量子化および再変換された予測残差信号は、エントロピーエンコーダ28bのエントロピー符号化を逆転するエントロピーデコーダ56のシーケンスによって導出され、エンコード側の場合とまったく同じように、逆量子化器38’および逆変換器40’から構成された残差信号再構成段36’がこれに続く。デコーダの出力は、画像10の再構成である。画像10の再構成は、加算器42’の出力で、または代わりにインループフィルタ46’の出力で、直接利用可能であり得る。画質を改善するために画像10の再構成に何らかのポストフィルタリングを施すために、デコーダの出力に何らかのポストフィルタが配置されてもよいが、このオプションは
図4に示されていない。
【0022】
繰り返すが、
図4に関して、
図2に関して上記で述べられた説明は、エンコーダのみが符号化オプションに関して最適化タスクおよび関連する決定を実行することを除き、
図4にも適用される。しかしながら、ブロック細分化、予測、逆量子化、および再変換に関する全ての説明もまた、
図4のデコーダ54に適用される。
【0023】
本出願の可能な実施形態の説明を進める前に、上記の例に関していくつかの注記が行われる。上記では明示的に述べられていないが、ブロック18がいずれの形状を有してもよいことは明白である。これはたとえば、長方形または二次形状であってもよい。また、エンコーダ14およびデコーダ54の動作モードの上記説明はしばしば「現在のブロック」18に言及するものの、イントラ予測モードが選択される各ブロックについてエンコーダ14およびデコーダ54が相応に動作することは、明白である。上述のように、他のブロックもあってもよいが、以下の説明は、イントラ予測モードが選択される、画像10が細分されるこれらのブロック18に焦点を当てる。
【0024】
イントラ予測モードが選択される特定のブロック18の状況を要約するために、
図5が参照される。
図5は、現在のブロック18、すなわち現在エンコードまたはデコードされているブロックを示す。
図5は、隣接サンプル62、すなわち空間的に隣接するブロック18を有するサンプル62の集合60を示す。ブロック18内のサンプル64は、予測されるべきである。したがって、導出される予測信号は、ブロック18内の各サンプル64の予測である。既に上記で論じられたように、各ブロック18について複数66の予測モードが利用可能であり、ブロック18がイントラ予測される場合、この複数66のモードは単にインター予測モードを備える。隣接サンプル集合60に基づいてブロック18の予測信号を予測71するために使用される複数66からイントラ予測モードの1つを決定するために、エンコーダ側およびデコーダ側で選択68が実行される。以下でさらに説明される実施形態は、利用可能なイントラ予測モード66に関して異なっており、選択68に関する動作モードは、たとえば、ブロック18に関する選択68に関してデータストリーム12内でサイド情報が設定されるか否かを示唆する。しかしながら、これらの実施形態の説明は、数学的な詳細を提供する具体的説明から始まる。この最初の実施形態によれば、イントラ予測される特定のブロック18の選択は、対応するサイド情報信号伝達70およびデータストリームに関連付けられており、複数66のイントラ予測モードは、ニューラルネットワークベースイントラ予測モードの集合72ならびにヒューリスティック設計のさらなるイントラ予測モードの集合74を備える。モード74のイントラ予測モードの1つは、たとえば、いくつかの平均値が隣接サンプル集合60に基づいて決定されてこの平均値がブロック18内の全てのサンプル64に割り当てられる、DC予測モードであってもよい。加えて、または代わりに、集合74は、角度インター予測モードと呼ばれ得るインター予測モードを備えてもよく、これにしたがって、隣接サンプル集合60のサンプル値は特定のイントラ予測方向に沿ってブロック18内に複製され、このイントラ予測方向は、このような角度イントラ予測モード間で異なる。
図5は、データストリーム12が、複数66のイントラ予測モードからの選択68に関して任意選択的に存在するサイド情報70に加えて、上記で論じられたように、符号化でエンコードされた予測残差が変換ドメインにおける量子化を伴う変換符号化を任意選択的に含む部分76を備えることを、示している。
【0025】
特に、本出願の特定の実施形態の以下の説明の理解を容易にするために、
図6は、エンコーダおよびデコーダにおけるイントラ予測ブロックの一般的な動作モードを示す。
図6は、それに基づいてイントラ予測が実行される隣接サンプル集合60と共に、ブロック18を示す。なお、この集合60は、濃度、すなわちブロック18の予測信号を決定するためのそれぞれのイントラ予測モードにしたがって実際に使用される集合60のサンプルの数に関して、複数66のイントラ予測モードのイントラ予測モード間で異なる可能性があることに、留意すべきである。しかしながら、理解を容易にするために、これは
図6には示されていない。
図6は、エンコーダおよびデコーダが、集合72のニューラルネットワークベースイントラ予測モードの各々について1つのニューラルネットワーク80
0から80
KB−1を有することを示している。集合60は、集合72の間で対応するイントラ予測モードを導出するように、それぞれのニューラルネットワークに適用される。これに加えて、
図6は、入力、すなわち隣接サンプルの集合60に基づいて、集合74の1つ以上のイントラ予測モードの1つ以上の予測信号、たとえばDCモード予測信号および/または角度イントラ予測モード予測信号を提供するものとして、1つのブロック82をむしろ代表的に示す。以下の説明は、i=0…K
B−1を有するニューラルネットワーク80
iのパラメータがどのようにして有利に決定され得るかについて示す。以下に明記される特定の実施形態はまた、集合60と一致してもしなくてもよい隣接サンプルの集合86に基づいて、集合72の各ニューラルネットワークベースイントラ予測モードの確率値を提供するための専用の別のニューラルネットワーク84を、エンコーダおよびデコーダに提供する。ニューラルネットワーク84がモード選択のためのサイド情報70をより効果的にするのを支援するときにこのように提供される確率値。たとえば、以下に説明される実施形態では、イントラ予測モードのうちの1つを指すために可変長コードが使用され、少なくとも集合72に関する限り、ニューラルネットワーク84によって提供された確率値は、集合72内のニューラルネットワークベースイントラ予測モードのためのニューラルネットワーク84によって出力された確率値にしたがって順序付けられたイントラ予測モードの順序リストへのインデックスとして、サイド情報70内の可変長コードを使用できるようにし、これによりサイド情報70の符号化率を最適化または低下させることが、想定される。これに対して、
図6に示されるように、モード選択68は、さらなるニューラルネットワーク84によって提供される確率値、ならびにデータストリーム12内のサイド情報70の両方に基づいて、効果的に実行される。
【0026】
1.イントラ予測を実行するニューラルネットワークのパラメータをトレーニングするアルゴリズム
[この文献は図面を表示できません]
をビデオフレームのブロック、すなわちブロック18とする。
[この文献は図面を表示できません]
は
[この文献は図面を表示できません]
個のピクセルを有すると仮定する。固定色成分では、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
のビデオ信号のコンテンツとする。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の要素と見なす。
[この文献は図面を表示できません]
個のピクセルを有し、既に再構成された画像
[この文献は図面を表示できません]
が入手可能な
[この文献は図面を表示できません]
の近傍
[この文献は図面を表示できません]
、すなわちサンプル集合60および86が存在すると仮定するが、これらはあるいは異なってもよい。イントラ予測関数とは、関数
[この文献は図面を表示できません]
を意味する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の予測器と見なす。
【0027】
次に説明されるのは、データ駆動型の最適化アプローチを介して、典型的なハイブリッドビデオ符号化規格、すなわち集合72で生じる可能性のあるいくつかのブロック
[この文献は図面を表示できません]
のイントラ予測関数を設計するためのアルゴリズムである。この目標を達成するために、以下の主要な設計上の特徴を考慮した。
【0028】
1.実施する最適化アルゴリズムにおいて、予測残差を通知するために費やすと予想できるビット数を特に含むコスト関数の適切な近似値を使用したい。
【0029】
2.異なる信号特性を処理できるようにするために、いくつかのイントラ予測を共同でトレーニングしたい。
【0030】
3.イントラ予測をトレーニングするとき、どのイントラモードが使用されるべきかを通知する必要があるビット数を考慮しなければならない。
【0031】
4.既に定義されたイントラ予測、たとえばHEVCイントラ予測の集合を維持し、補完的予測として我々の予測をトレーニングしたい。
【0032】
5.典型的なハイブリッドビデオ符号化規格は通常、所与のブロック
[この文献は図面を表示できません]
が分割され得るいくつかのブロック形状をサポートする。
【0033】
次の4つのセクションでは、これらの要件の各々にどのように対処し得るかが説明される可能性がある。より正確には、セクション1.1では、最初のアイテムにどのように対処するかを説明する。セクション1.2では、アイテム2から3をどのように処理するかが説明される。セクション1.4では、アイテム4をどのように考慮するかが説明される。最後に、セクション1.5では、最後のアイテムにどのように対処するかが説明される。
【0034】
1.1 ビデオコーデックのレート関数に近似する損失関数をトレーニングするためのアルゴリズム
ビデオコーデックで使用される既知のパラメータを決定するためのデータ駆動型のアプローチは、通常、トレーニング例の所与の集合に対する所定の損失関数を最小化しようとする最適化アルゴリズムとして設定される。通常、数値最適化アルゴリズムが実際に機能するために、後者の損失関数は、いくつかの平滑度要件を満たすべきである。
【0035】
一方、HEVCのようなビデオエンコーダは、レート歪みコスト
[この文献は図面を表示できません]
を最小化することによって決定を行うときに最適に機能する。ここで、
[この文献は図面を表示できません]
はデコードされたビデオ信号であり、
[この文献は図面を表示できません]
はレート、すなわちビデオ信号を符号化するために必要なビット数である。また、
[この文献は図面を表示できません]
は、選択された量子化パラメータに依存するラグランジュパラメータである。
【0036】
真の関数
[この文献は図面を表示できません]
は、典型的には非常に複雑であり、データ駆動型の最適化アルゴリズムに供給できる閉じた式では与えられない。したがって、関数
[この文献は図面を表示できません]
全体、または少なくともレート関数
[この文献は図面を表示できません]
のいずれかを、区分ごとの平滑な関数によって近似させる。
【0037】
より正確には、以前のように、
[この文献は図面を表示できません]
をビデオフレーム10の所与のブロック1/とし、
[この文献は図面を表示できません]
を固定色成分中の
[この文献は図面を表示できません]
における対応するビデオ信号とする。
[この文献は図面を表示できません]
は
[この文献は図面を表示できません]
個のピクセルを有すると仮定する。次に、予測候補
[この文献は図面を表示できません]
について、予測残差
[この文献は図面を表示できません]
を検討する。所与の量子化パラメータおよび所与の変換について、
[この文献は図面を表示できません]
を、真のビデオエンコーダが
[この文献は図面を表示できません]
の量子化変換を通知するために必要なレートとする。また、
[この文献は図面を表示できません]
を、
[この文献は図面を表示できません]
の逆量子化および逆変換によって生じる再構成誤差とする。次に、
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
の適切な近似値として機能し、
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
の適切な近似値として機能するように、区分ごとに平滑な関数
[この文献は図面を表示できません]
を決定したい。
【0038】
何らかの
[この文献は図面を表示できません]
を固定し、所定の「アーキテクチャ」、すなわち区分ごとの平滑な関数
[この文献は図面を表示できません]
を固定し、次いで
[この文献は図面を表示できません]
を求めて、関数
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
としてモデル化する。
【0039】
重み
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
を決定するために、所与のハイブリッドビデオ符号化規格を使用する典型的なエンコーダ上で、予測残差
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、および対応するレート歪み値
[この文献は図面を表示できません]
のトレーニング例の巨大な集合を収集するが、それぞれ何らかの有限な大きいインデックス集合
[この文献は図面を表示できません]
のレート値
[この文献は図面を表示できません]
に過ぎない。次に、以下の式を最小化または少なくとも小さくするように、
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
を見出そうとする。
[この文献は図面を表示できません]
このタスクでは、通常、(確率的)勾配降下アプローチを使用する。
【0040】
1.2 固定ブロック形状の予測のトレーニング
このセクションでは、所与のブロック
[この文献は図面を表示できません]
18、st72のもの、および既に再構成されたサンプルの領域
[この文献は図面を表示できません]
60の
[この文献は図面を表示できません]
イントラ予測を設計するために設定するアルゴリズムについて説明する。
【0041】
我々の予測の所定の「アーキテクチャ」が与えられていると仮定する。これは、何らかの固定の
[この文献は図面を表示できません]
について、関数
[この文献は図面を表示できません]
(1)
が与えられること、および「重み」
[この文献は図面を表示できません]
を決定したいことを意味し、こうして
[この文献は図面を表示できません]
としてイントラ予測が与えられ、ここで
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
(2)
とする。
【0042】
以下のセクションで、この点について詳細を述べる。(2)の関数は、
図6のニューラルネットワーク80
0〜80
KB−1を定義する。
【0043】
次に、以下の第2パラメータ依存関数を使用して設計しようとしているイントラモードの信号伝達コストをモデル化する。
[この文献は図面を表示できません]
(3)
ここでも、
[この文献は図面を表示できません]
について、以下によって
[この文献は図面を表示できません]
を定義する。
[この文献は図面を表示できません]
(4)
再びセクション1.3で、
図6のニューラルネットワーク84を表す(4)の関数が例に与えられる。
【0044】
以下の関数が与えられると仮定する。
[この文献は図面を表示できません]
この関数は、たとえば、サイド情報70に使用されるVLCコード長分布、すなわちサイド情報70によって集合72のcad ponite moreに関連付けられたコード長を定義する。
【0045】
次に、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
によって定義する。
【0046】
とりあえず、
[この文献は図面を表示できません]
の
[この文献は図面を表示できません]
番目の成分
[この文献は図面を表示できません]
は、トレーニングする
[この文献は図面を表示できません]
番目のイントラモードを通知するために必要とされるビット数をモデル化する。
[この文献は図面を表示できません]
がセクション2.1で定義される関数である場合、所与の
[この文献は図面を表示できません]
、再構成画像
[この文献は図面を表示できません]
、および元の画像
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
により、最小の
[この文献は図面を表示できません]
を表し、その特性は全ての
[この文献は図面を表示できません]
に対して
[この文献は図面を表示できません]
とする。
[この文献は図面を表示できません]
はイントラモードの信号伝達の真のビット数をモデル化するので、その勾配はゼロもしくは未定義である。したがって、
[この文献は図面を表示できません]
のみでは、勾配降下ベースのアルゴリズムを介して重み
[この文献は図面を表示できません]
を最適化するのに十分ではない。したがって、ソフトマックス関数を使用して関数
[この文献は図面を表示できません]
を確率分布に変換することによって、イントラモードの交差エントロピーも呼び出す。後者の関数の定義を思い出す。
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
に
[この文献は図面を表示できません]
のi番目の成分を示させる。次に、ソフトマックス関数
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
として定義される。
【0047】
勾配の更新では、後者の確率分布に対して、残差のレートとモード
[この文献は図面を表示できません]
の交差エントロピーとの合計を最小化しようと試みる。したがって、ブロック
[この文献は図面を表示できません]
の損失関数
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
[この文献は図面を表示できません]
(5)
として定義し、ここで
[この文献は図面を表示できません]
である。
【0048】
(5)の損失関数が与えられると、データ駆動型の最適化によって重み
[この文献は図面を表示できません]
を決定する。したがって、有限な大きいインデックス集合
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
での画像
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
での対応する再構成画像
[この文献は図面を表示できません]
のトレーニング例の集合
[この文献は図面を表示できません]
が与えられた場合、式
[この文献は図面を表示できません]
(6)
を最小化する重み
[この文献は図面を表示できません]
を見つけるために、たとえば(確率的)勾配降下法に基づいて、最適化アルゴリズムを適用する。
【0049】
1.3 関数
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
の仕様
このセクションでは、関数
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
の形式をより正確に定義する。繰り返しになるが、ニューラルネットワーク80および84を定義するものがあることを思い出して欲しい。これらの関数の各々は、1)アフィン変換
[この文献は図面を表示できません]
または2)非線形活性化関数
[この文献は図面を表示できません]
のいずれかである関数の構成物のシーケンスからなる。
【0050】
アフィン変換
[この文献は図面を表示できません]
とは、
[この文献は図面を表示できません]
の形式のマップを意味し、ここで
[この文献は図面を表示できません]
は線形変換であり、すなわち全ての
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
を満たし、
[この文献は図面を表示できません]
である。各線形マップ
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
の行列によって完全に決定され、すなわちベクトル
[この文献は図面を表示できません]
に一意に対応する。したがって、各アフィン関数
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
の重みによって、すなわちベクトル
[この文献は図面を表示できません]
によって、完全に決定される。各
[この文献は図面を表示できません]
について、前述の方法で
[この文献は図面を表示できません]
に対応する一意のアフィン変換について
[この文献は図面を表示できません]
を記述するものとする。
【0051】
非線形活性化関数
[この文献は図面を表示できません]
とは、
[この文献は図面を表示できません]
の形式の関数を意味する。
【0052】
ここで、
[この文献は図面を表示できません]
は
[この文献は図面を表示できません]
の
[この文献は図面を表示できません]
番目の成分を示し、
[この文献は図面を表示できません]
は
[この文献は図面を表示できません]
の
[この文献は図面を表示できません]
番目の成分を示す。最後に、
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
(7)
の形式、または
[この文献は図面を表示できません]
(8)
の形式であってもよいが、ただしこれらの例は、本出願の実施形態をこれらの明示的な例に限定するように解釈されるべきではない。
[この文献は図面を表示できません]
またはその他いずれかの非線形関数などのその他の式も使用され得る。あるいは、たとえば
[この文献は図面を表示できません]
は区分ごとの平滑な関数であってもよい。
【0053】
これで、関数
[この文献は図面を表示できません]
は以下のようになる。固定の
[この文献は図面を表示できません]
では、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
を用いる
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
が与えられるので、
[この文献は図面を表示できません]
となる。
【0054】
ここで、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、および
[この文献は図面を表示できません]
は(1)の通りである。次に、
[この文献は図面を表示できません]
を用いる
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
を定義する。
【0055】
したがって、
[この文献は図面を表示できません]
は、パラメータ
[この文献は図面を表示できません]
を使用してパラメータ化されたニューラルネットワーク80
iを記述する。これは、本例ではシーケンス内で交互に適用される、線形関数
[この文献は図面を表示できません]
および非線形関数
[この文献は図面を表示できません]
のシーケンスであり、パラメータ
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
の線形関数の重みを備える。線形関数
[この文献は図面を表示できません]
および非線形関数
[この文献は図面を表示できません]
のシーケンスでは、線形関数
[この文献は図面を表示できません]
とこれに続く非線形関数
[この文献は図面を表示できません]
のペアは、たとえばj番目の層などのニューロン層を表し、ニューラルネットワークのフィードフォワード方向でこのニューロン層jに先行する先行ノードの数は、
[この文献は図面を表示できません]
の次元mによって決定され、
[この文献は図面を表示できません]
の列の数およびニューロン層j自体のニューロンの数は、
[この文献は図面を表示できません]
の次元n、その行の数によって決定される。
[この文献は図面を表示できません]
の各行は、それぞれ信号強度に関して制御する重みを組み込み、m個の先行ニューロンの各々の活性化は、それぞれの行に対応するニューロン層jのそれぞれのニューロンに転送される。
[この文献は図面を表示できません]
は、ニューロン層jの各ニューロンについて、それ自身の活性化への転送された先行ニューロン活性化のその線形結合の非線形マッピングを制御する。上記の例では、このようなニューロン層が
[この文献は図面を表示できません]
個ある。層ごとのニューロンの数は異なってもよい。ニューロン層の数
[この文献は図面を表示できません]
は、様々なニューラルネットワーク80
jの間で、すなわち異なるjに対して、異なってもよい。なお、非線形関数は、ニューロン層ごとに、もしくはニューロンごとに、あるいはその他何らかの単位で、異なってもよいことに留意する。
【0056】
同様に、関数
[この文献は図面を表示できません]
は以下のようになる。固定の
[この文献は図面を表示できません]
では、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
を用いる
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
が与えられるので、
[この文献は図面を表示できません]
となる。
【0057】
ここで、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、および
[この文献は図面を表示できません]
は(3)の通りである。次に、
[この文献は図面を表示できません]
を用いる
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
を定義する。
【0058】
したがって、
[この文献は図面を表示できません]
は、パラメータ
[この文献は図面を表示できません]
を使用してパラメータ化されたニューラルネットワーク84を記述する。これは、予測信号計算に関してニューロン層について上記で説明したように、線形関数
[この文献は図面を表示できません]
および非線形関数
[この文献は図面を表示できません]
のシーケンスとなる。ニューラルネットワーク84のニューロン層の数
[この文献は図面を表示できません]
は、ニューラルネットワーク80
iのニューロン層の数
[この文献は図面を表示できません]
の1つ以上とは異なり得る。
【0059】
1.4 既存の予測を考慮に入れたトレーニング
既に存在するイントラ予測を補完する予測をトレーニングできるように、前のセクションのアルゴリズムを拡張する。
【0060】
つまり、
[この文献は図面を表示できません]
を、既に利用可能な固定されたイントラ予測関数の集合とする。たとえば、
[この文献は図面を表示できません]
は、HEVCのDC予測または平面予測、およびHEVCにしたがって定義された角度予測から構成され得る。これら全ての予測はまた、再構成されたサンプルの予備的な平滑化も含み得る。また、関数
[この文献は図面を表示できません]
が与えられ、これにより、
[この文献は図面を表示できません]
は、元の画像
[この文献は図面を表示できません]
に与えられた
[この文献は図面を表示できません]
に適用される
[この文献は図面を表示できません]
番目のイントラ予測関数
[この文献は図面を表示できません]
の損失をモデル化する。
【0061】
次に、損失関数を、(5)から以下の損失関数に拡張する。
[この文献は図面を表示できません]
(9)
[この文献は図面を表示できません]
前のセクションの終わりからの注記を維持して、トレーニング例の大きい集合における
[この文献は図面を表示できません]
(10)
を最小化することによって、重み
[この文献は図面を表示できません]
を決定する。
【0062】
この目的のため、通常は最初に(6)を最適化することによって重みを見出し、次いで(10)を最適化する重みを見出すためにこれらの重みで初期化する。
【0063】
1.5 いくつかのブロック形状の予測の共同トレーニング
このセクションでは、典型的なビデオ符号化規格で、様々な方法でブロックをより小さいサブブロックに分割し、より小さいサブブロックに対してイントラ予測を実行することが通常は可能であることを、予測のトレーニングにおいてどのように考慮するかを説明した。
【0064】
つまり、何らかの
[この文献は図面を表示できません]
について、各
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
に隣接するように、許容可能なブロック
[この文献は図面を表示できません]
の集合
[この文献は図面を表示できません]
が、領域
[この文献は図面を表示できません]
の集合と共に与えられると仮定する。通常、
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
の左および上の2つの長方形の和集合である。
【0065】
各
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
となるように、ブロック
[この文献は図面を表示できません]
が存在すると仮定する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
のべき集合とする。次に、
[この文献は図面を表示できません]
について、集合
[この文献は図面を表示できません]
が与えられ、このため各
[この文献は図面を表示できません]
についてブロック
[この文献は図面を表示できません]
が直和
[この文献は図面を表示できません]
として記述され得ると仮定する。
【0066】
所与の色成分について、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の画像とし、限定により、これを各
[この文献は図面を表示できません]
に対する
[この文献は図面を表示できません]
の画像
[この文献は図面を表示できません]
と見なす。また、
[この文献は図面を表示できません]
の再構成画像
[この文献は図面を表示できません]
が存在し、限定により、これを各
[この文献は図面を表示できません]
に対する
[この文献は図面を表示できません]
の画像
[この文献は図面を表示できません]
と見なすと仮定する。
【0067】
セクション1.2の注記を維持して、各
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
個のイントラ予測関数
[この文献は図面を表示できません]
の重みの集合として
[この文献は図面を表示できません]
を求め、モード予測関数
[この文献は図面を表示できません]
の重みとして
[この文献は図面を表示できません]
を求める。全ての
[この文献は図面を表示できません]
について、これらの重みを以下のようにまとめて決定する。
[この文献は図面を表示できません]
および重み
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
の所与の集合について、
[この文献は図面を表示できません]
とする。
【0068】
また、
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
として定義する。
【0069】
セクション1.4と同様に、各
[この文献は図面を表示できません]
について、イントラ予測関数の空の可能性のある集合
[この文献は図面を表示できません]
が利用可能であると仮定する。
[この文献は図面を表示できません]
とする。
【0070】
次に、損失関数
[この文献は図面を表示できません]
を以下のように定義する。集合を含めることにより、集合
[この文献は図面を表示できません]
に対して順序付け
[この文献は図面を表示できません]
を行う。
[この文献は図面を表示できません]
を、
[この文献は図面を表示できません]
内の全ての極小元の集合とする。
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
とし、ここで後者の関数は(9)と同様である。
【0071】
次に、
[この文献は図面を表示できません]
とし、
[この文献は図面を表示できません]
は全ての
[この文献は図面を表示できません]
について既に
[この文献は図面を表示できません]
で定義されていると仮定する。
【0072】
次に、
[この文献は図面を表示できません]
[この文献は図面を表示できません]
を定義する。
【0073】
最後に、
[この文献は図面を表示できません]
の画像
[この文献は図面を表示できません]
のトレーニング例の固定集合
[この文献は図面を表示できません]
と仮定して、
[この文献は図面を表示できません]
を最小化するかまたは少なくとも小さくすることによって、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
を決定する。
【0074】
通常、最初に各
[この文献は図面を表示できません]
について個別に(9)を最小化することによって、重み
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
を初期化する。
【0075】
2 ビデオコーデックへのトレーニング済みニューラルネットワークの統合
所与の色成分について、所与のブロック
[この文献は図面を表示できません]
のビデオ信号のコンテンツがデコーダによって生成される、ハイブリッドビデオ符号化規格を検討する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
のピクセル数とする。また、デコーダが自由に
[この文献は図面を表示できません]
の再構成画像
[この文献は図面を表示できません]
を有するように、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の固定された近傍とする。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
のピクセル数とする。次に、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の要素と見なす。コーデックは、現在のブロック
[この文献は図面を表示できません]
10に対する予測符号化によって動作すると仮定する。次に、
[この文献は図面を表示できません]
の要素と見なす
[この文献は図面を表示できません]
の予測信号
[この文献は図面を表示できません]
を生成するためにデコーダが実行できる以下のステップの著作権を主張する。
【0076】
1.デコーダは、固定数
[この文献は図面を表示できません]
、関数
[この文献は図面を表示できません]
、すなわち84、ならびに重み
[この文献は図面を表示できません]
および重み
[この文献は図面を表示できません]
を自由に有し、後者の重みは、前のセクションで説明されたトレーニングアルゴリズムによって事前に決定される。
【0077】
2.デコーダは、ビットストリームから、サイド情報70の一部であって以下のオプションのいずれかがまさに真であるか否かを示すフラグを再構成する:[label=)
【0078】
(i)予測
[この文献は図面を表示できません]
のうちの1つ、すなわち集合72からのモードが使用され
【0079】
(ii)予測
[この文献は図面を表示できません]
のうちのいずれも、すなわち74のうちの1つも使用されない、たとえば
ここでは、関数
[この文献は図面を表示できません]
は(2)と同様である。
【0080】
3.ステップ2のオプション2が真である場合、デコーダは、基礎となるハイブリッドビデオ符号化規格と同様に所与のブロック10を進める。
【0081】
4.ステップ2のオプション1が真である場合、デコーダは、(4)にしたがって定義された関数
[この文献は図面を表示できません]
、すなわち84を、再構成画像
[この文献は図面を表示できません]
に適用する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
として定義する。次に、正確に以下の2つのオプションのうちの1つによってデコーダが数値
[この文献は図面を表示できません]
を定義するように、規格が変更される。
【0082】
(i)デコーダは、
[この文献は図面を表示できません]
によって集合
[この文献は図面を表示できません]
の確率分布
[この文献は図面を表示できません]
を定義し、データストリーム12から基礎となる規格で使用されるエントロピー符号化エンジンを介してやはりサイド情報70の一部であるインデックス
[この文献は図面を表示できません]
を解析するために後者の確率分布
[この文献は図面を表示できません]
を使用し、
[この文献は図面を表示できません]
を定義する。
【0083】
(ii)デコーダは、
[この文献は図面を表示できません]
が全ての
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
を用いる最小数である
[この文献は図面を表示できません]
を適用することによって、および
[この文献は図面を表示できません]
が全ての
[この文献は図面を表示できません]
で
[この文献は図面を表示できません]
を有するような最小数である
[この文献は図面を表示できません]
を適用することによって、順列
[この文献は図面を表示できません]
を帰納的に定義する。
【0084】
次に、デコーダは、ビットストリーム12から、やはりデータストリーム12の一部である一意のインデックス
[この文献は図面を表示できません]
を再構成し、
[この文献は図面を表示できません]
を適用する。
【0085】
後者のインデックス
[この文献は図面を表示できません]
を解析するためのコード設計では、
[この文献は図面を表示できません]
である場合、およびエントロピー符号化エンジンによって使用される全ての関連する基礎となる確率が等しい確率に設定される場合に、インデックス
[この文献は図面を表示できません]
に通知するために必要とされるビット数はインデックス
[この文献は図面を表示できません]
に通知するためのビット数以下であることが要求される。
【0086】
5.ステップ2のオプション1が真である場合、およびデコーダが前のステップ4にしたがってインデックス
[この文献は図面を表示できません]
を決定した場合、デコーダは、予測信号
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
として、すなわち選択されたニューラルネットワーク80
mを使用して、生成71する。次に、デコーダは、
[この文献は図面を表示できません]
を予測信号として使用する、基礎となるハイブリッドビデオ符号化規格と同様に進行する。
【0087】
その設計がデータ駆動型の学習アプローチに基づくイントラ予測関数の、既存のハイブリッドビデオコーデックへの統合。説明には2つの主要な部分があった。最初の部分では、イントラ予測関数のオフライントレーニングの具体的なアルゴリズムについて説明した。第2の部分では、所与のブロックの予測信号を生成するために、ビデオデコーダがどのように後者の予測関数を使用し得るかを説明した。
【0088】
したがって、セクション1.1から2で上述したのは、とりわけ、データストリーム12から画像10をブロック単位でデコードするための装置である。装置54は、少なくとも、現在のブロック18の隣接サンプルの第1の集合60をニューラルネットワーク80
iに適用することによって画像10の現在のブロック18のイントラ予測信号が決定されるイントラ予測モードの集合72を備える、複数のイントラ予測モードをサポートする。装置54は、現在のブロック18について、複数66のイントラ予測モードから1つのイントラ予測モードを選択68するように構成されており、この1つのイントラ予測モードを使用して、すなわち選択された対応するニューラルネットワーク80
mを使用して、現在のブロック18を予測71する。セクション2で提示されたデコーダは、集合72のニューラルネットワークベースのものに加えてサポートされた複数66のイントラ予測モード内のイントラ予測モード74を有していたが、これは単なる例であり、その通りでなくてもよい。さらに、セクション1および2における上記の説明は、デコーダ54がさらなるニューラルネットワーク84を使用せず、備えていない点において、異なってもよい。上記の最適化に関して、これは、
[この文献は図面を表示できません]
を見出すためにセクション1.2で提示された内部品質における第2の加算器が、任意の確率値ニューラルネットワーク関数G
Bに適用される関数M
Bの連結である必要はないことを意味する。むしろ、選択の頻度がM
Bの符号化率表示に適切に従うような方法でニューラルネットワーク80
iの適切なパラメータを決定するものの最適化アルゴリズム。たとえば、デコーダ54は、データストリーム12から、可変長コードを使用してブロック18のインデックスをデコードでき、このコード長はM
Bに示され、デコーダ54はこのインデックスに基づいて選択68を実行する。インデックスは、サイド情報70の一部である。
【0089】
セクション2で上述された説明のさらなる代替は、デコーダ54が代わりに、データストリームの第1部分ではなく第2部分に応じてイントラ予測モードの順序リストから最終的に使用されるイントラ予測モードを選択してイントラ予測モードの順序リストを取得するために、現在のブロック18の近傍に関連するデータストリームの第1部分に応じてニューラルネットワークベースイントラ予測モードの集合72からランキングを導出し得ることである。「第1部分」は、たとえば、現在のブロック18に隣接する1つ以上のブロックに関する符号化パラメータまたは予測パラメータに関連し得る。そして「第2部分」は、たとえば、ニューラルネットワークベースイントラ予測モード集合72を指す、またはそのインデックスである、インデックスであり得る。上記で概説されたセクション2に沿って解釈すると、デコーダ54は、イントラ予測モードの集合72の各イントラ予測モードについて、集合72の各イントラ予測モードのランクを決定するために、隣接サンプルの集合86をこれに適用してこれらの確率値を順序付けることによって確率値を決定し、これによってイントラ予測モードの順序リストを取得する、さらなるニューラルネットワーク84を備える。次に、サイド情報70の一部としてのデータストリーム12内のインデックスは、順序リストへのインデックスとして使用される。ここで、インデックスは、M
Bがコード長を示す可変長コードを使用して符号化され得る。そしてセクション2で説明されたように、アイテム4iにおいて、さらなる代替実施形態によれば、デコーダ54は、集合72へのインデックスのエントロピー符号化を効率的に実行するように、集合72の各ニューラルネットワークベースイントラ予測モードについてさらなるニューラルネットワーク84によって決定された、たった今言及した確率値を使用し得る。特に、サイド情報70の一部であって集合72へのインデックスとして使用されるこのインデックスの記号アルファベットは、集合72内のモードの各々について記号または値を備え、ニューラルネットワーク84によって提供される確率値は、上記説明によるニューラルネットワーク84設計の場合、これらの確率値が実際の記号統計を厳密に表すという点において、十分なエントロピー符号化をもたらす確率値を提供する。このエントロピー符号化では、たとえば、確率間隔区分エントロピー(PIPE)符号化などの算術符号化が使用され得る。
【0090】
好ましくは、集合72のイントラ予測モードのいずれにとっても追加の情報は必要ない。各ニューラルネットワーク80
iは、たとえばセクション1および2の上記説明にしたがってエンコーダおよびデコーダ向けに有利にパラメータ化されると、データストリームにおける追加のガイダンスをまったく伴わずに、現在のブロック18の予測信号を導出する。既に上記で示したように、集合72内のニューラルネットワークベースのもの以外の他のイントラ予測モードの存在は任意である。これらは、集合74によって上記で示されている。これに関して、集合60、すなわちイントラ予測71への入力を形成する隣接サンプルのセットを選択する1つの可能な方法は、この集合60が集合74のイントラ予測モード、すなわちヒューリスティックなものに対して同じになるように選択され、ニューラルネットワークベースイントラ予測モードのための集合60は、集合60に含まれる隣接サンプルの数に関してより大きく、イントラ予測71に影響を及ぼすことに、留意すべきである。言い換えると、集合60の濃度は、集合74の他のモードと比較して、ニューラルネットワークベースイントラ予測モード72にとってより大きくなり得る。たとえば、集合74のいずれかのイントラ予測モードの集合60は、左と上などブロック18の辺まで一緒に延在する一次元線に沿った隣接サンプルを単に備えてもよい。ニューラルネットワークベースイントラ予測モードの集合60は、ブロック18の上述の辺に沿って延在するが、集合74のイントラ予測モードでは集合60でのサンプル1つ分のみよりも広い、L字型部分をカバーする。このようにして、ニューラルネットワークベースイントラ予測モードは、相応に低い予測残差を有するより良いイントラ予測をもたらし得る。
【0091】
セクション2で上述したように、データストリーム12でイントラ予測されたブロック18に搬送されるサイド情報70は、一般にブロック18の選択されたイントラ予測モードが集合72の要素か集合74の要素かを示すフレックを備え得る。しかしながら、このフレックは、たとえば、集合72および74の両方を含む複数66のイントラ予測モード全体へのインデックスを示すサイド情報70を有する、単なるオプションである。
【0092】
たった今議論した代替は、以下において、
図7aから
図7dに関して簡単に論じられる。図面は、デコーダおよびエンコーダの両方を同時に、すなわちイントラ予測されたブロック18に関するそれらの機能の点から、定義する。イントラ符号化ブロック18に関するエンコーダ動作モードとデコーダ動作モードとの違いは、一方では、エンコーダが、たとえば、何らかのコスト関数最小化の意味で最良のものを90において決定するように、利用可能なイントラ予測モード66の全てまたは少なくともいくつかを実行し、エンコーダはデータストリーム12を形成する、すなわちそこに日付を符号化するが、デコーダは、それぞれデコードおよび読み取りをすることによってそこからデータを導出する、という事実である。
図7aは、上記で概説された代替の動作モードを示しており、これにしたがって、ブロック18のサイド情報70内のフラグ70aは、ステップ90でエンコーダによってブロック18の最良のモードであると決定されたイントラ予測モードが集合72に含まれるか、すなわち、ニューラルネットワークベースイントラ予測モードであるか、または集合74に含まれるか、すなわち非ニューラルネットワークベースイントラ予測モードの1つであるかを示す。エンコーダは、相応にデータストリーム12にフラグ70aを挿入し、その一方でデコーダは、これをそこから回収する。
図7aは、決定されたイントラ予測モード92が集合72に含まれると仮定する。次に、別個のニューラルネットワーク84は、集合72の各ニューラルネットワークベースイントラ予測モードについて確率値を決定し、これらの確率値を使用して、集合72、またはより正確にはその中のニューラルネットワークベースイントラ予測モードは、その確率値の降順など、確率値にしたがって順序付けられ、これにより、イントラ予測モードの順序リスト94を生成する。次に、サイド情報70の一部であるインデックス70bは、エンコーダによってデータストリーム12に符号化され、デコーダによってそこからデコードされる。したがって、デコーダは、集合72および74のどの集合かを決定できる。ブロック18に使用されるイントラ予測モードは、集合72に配置され、使用されるイントラ予測モードが集合72内に配置される場合には、集合72の順序付け96を実行する。決定されたイントラ予測モードが集合74内に配置される場合には、インデックスもまたデータストリーム12で送信される可能性がある。したがって、デコーダは、選択68を相応に制御することによって、決定されたイントラ予測モードを使用して、ブロック18の予測信号を生成することができる。
【0093】
図7bは、フラグ70aがデータストリーム12内に存在しない代替を示す。代わりに、順序リスト94は、集合72のイントラ予測モードのみならず集合74のイントラ予測モードも備えない。サイド情報70内のインデックスは、このさらに大きい順序リストへのインデックスとなり、決定されたイントラ予測モード、すなわち最適化90となるよう決定されたものを示す。ニューラルネットワーク84が72内でのみニューラルネットワークベースイントラ予測モードに確率値を提供する場合、集合74のイントラ予測モードに対する集合72のイントラ予測モードのランキングは、順序リスト94内の集合74のモードに先行するため、またはこれらを互いに交互に配置するために、集合72のニューラルネットワークベースイントラ予測モードを必然的に配置するなど、他の手段によって決定されてもよい。つまり、デコーダは、データストリーム12からインデックスを導出し、ニューラルネットワーク84から出力された確率値を使用して複数のイントラ予測モード66から順序リスト94を導出して順序リスト94へのインデックスとしてインデックス70を使用することができる。
図7cは、さらなる変形例を示す。
図7cは、フラグ70aを使用しない場合を示すが、フラグは代替的に使用され得る。
図7cが対象とする問題は、エンコーダもデコーダもニューラルネットワーク84を使用しない可能性に関する。むしろ、順序付け96は、1つ以上の隣接ブロック18に関するデータストリーム12、すなわちこのような1つ以上の隣接ブロックに関係するデータストリーム12の部分98で搬送される符号化パラメータなど、他の手段によって導出される。
【0094】
図7dは、
図7aのさらなる変形例、すなわち、通常は参照符号100を使用して示される、インデックス70bがエントロピー符号化を使用して符号化され、エントロピーデコードを使用してデータストリーム12からデコードされる変形例を示す。エントロピー符号化100に使用されるサンプル統計または確率分布は、上記で説明されたように、ニューラルネットワーク84によって出力された確率値によって制御され、これはインデックス70bのエントロピー符号化を非常に効率的にする。
【0095】
全ての実施形態7aから7dについて、集合74モードが存在しないことは事実である。したがって、それぞれのモジュール82は欠落している可能性があり、フラグ70aはいずれにせよ不要である。
【0096】
さらに、いずれの図にも示されていないが、エンコーダおよびデコーダにおけるモード選択68は、いかなる明示的なシグナリング70もなくても、すなわちいかなるサイド情報も費やさず、互いに同期できることが明らかである。むしろ、選択は、順序リスト94の最初のものを必然的に取ることによって、または1つ以上の隣接ブロックに関する符号化パラメータに基づいて順序リスト94へのインデックスを導出することによってなど、その他の手段から導出されることが可能である。
図8は、ブロック単位の画像符号化に使用される集合72のイントラ予測モードの集合を設計するための装置を示す。装置108は、ニューラルネットワーク80
0から80
KB−1ならびにニューラルネットワーク84のパラメータ化可能なバージョンを継承または備える、パラメータ化可能なネットワーク109を備える。ここで、
図8では、個々のユニット、すなわち、ニューラルネットワークベースイントラ予測モード0の確率値を提供するためのニューラルネットワーク84
0からニューラルネットワークベースイントラ予測モードK
B−1に関連付けられた確率値を提供するためのニューラルネットワーク84
KB−1として示されている。ニューラルネットワーク84をパラメータ化するためのパラメータ111およびニューラルネットワーク80
0から80
KB−1をパラメータ化するためのパラメータ113は、アップデータ110によって、これらのニューラルネットワークのそれぞれのパラメータ入力に入力または適用される。装置108は、対応する隣接サンプル集合116と共に、リザーバまたは複数の画像テストブロック114へのアクセスを有する。これらのブロック114およびそれらの関連する隣接サンプル集合116のペアは、装置108によって順次使用される。特に、現在の画像テストブロック114は、ニューラルネットワーク80が集合72の各ニューラルネットワークベースイントラ予測モードに予測信号118を提供し、各ニューラルネットワーク80がこれらのモードの各々に確率値を提供するように、パラメータ化可能なニューラルネットワーク109に適用される。この目的のために、これらのニューラルネットワークは、現在のパラメータ111および113を使用する。
【0097】
上記の説明では、画像テストブロック114を示すためにrecが使用されており、
[この文献は図面を表示できません]
(rec)はモードBの予測残差118であり、確率値は
[この文献は図面を表示できません]
(rec)は確率値120である。各モード0...K
b−1について、それぞれのモードについて取得された予測信号118に基づいてそれぞれのモードのコスト推定を計算する、装置108に含まれるコスト推定器122がある。上記の例では、コスト推定器122は、セクション1.2の不等式の右側および左側に示されるようなコスト推定を計算した。つまり、ここでは、コスト推定器122は、各モードについて、対応する確率値120も使用した。しかしながら、これは既に上記で論じられたようなケースである必要はない。しかしながら、コスト推定は、いずれの場合も2つのアドインの合計であり、そのうちの1つは、上記の不等式で
[この文献は図面を表示できません]
を有する項として示される予測残差の符号化コストの推定であり、他方のアドインは、モードを示すための符号化コストを推定する。予測残差に関連する符号化コストの推定を計算するために、コスト推定器122は、現在の画像テストブロック114の素のコンテンツも取得する。ニューラルネットワーク80および84は、適用される入力において、対応する隣接サンプル集合116を有する。コスト推定器122によって出力された通りのコスト推定124は、関連付けられたコスト推定を最小化する、または最小コスト推定を有するモードを決定する最小コスト選択器126によって受信される。上記の数学的表記では、これは
[この文献は図面を表示できません]
であった。アップデータは、この最適モードを受信し、最低符号化推定のイントラ予測モードのために取得された予測信号118に応じて残差レート推定を形成する第1のアドイン、および選択器126によって示されたとおりの最低符号化コスト推定のイントラ予測モードのために取得された予測信号および確率値に基づいてモードシグナリング側情報レート推定を形成する第2のアドインを有する符号化コスト関数を使用する。上記で示されたように、これは勾配距離を使用して行われ得る。したがって、符号化コスト関数は微分可能であり、上記の数学的表現では、この関数の例は式5に示された。ここで、モードシグナリング側情報レート推定に関連する第2のアドインは、最低符号化コスト推定のイントラ予測モードについて交差エントロピーを計算した。
【0098】
したがって、アップデータ110は、符号化コスト関数を低減するようにパラメータ111および113を更新しようとし、その後これらの更新されたパラメータ111および113は、複数112の次の画像テストブロックを処理するように、パラメータ化可能なニューラルネットワーク109によって使用される。セクション1.5に関して上記で論じられたように、主として、イントラ予測がレート歪みの意味でブロック細分化なしに行われることが好ましい回帰的な更新プロセスのために、画像テストブロック114およびこれらの関連付けられた隣接サンプル集合116のこれらのペアが適用されることを制御するメカニズムがあってもよく、これにより、いずれにせよそのサブブロック単位の符号化のコスト効率がより良い画像テストブロックに基づいて、パラメータ111および113が過度に最適化されるのを回避する。
【0099】
これまでのところ、上記で論じられた実施形態は主に、エンコーダおよびデコーダが、それらのサポートされたイントラ予測モード66内に、ニューラルネットワークベースイントラ予測モードの集合を有する場合に関係している。
図9aおよび
図9bに関して論じられた実施形態によれば、これは必ずしもそうである必要はない。
図9aは、
図7aに関して上記で提示された説明との違いに焦点を当ててその説明が提供される実施形態にしたがって、エンコーダおよびデコーダの動作モードを概説しようとするものである。複数66のサポートされたイントラ予測モードは、ニューラルネットワークベースイントラ予測モードを備えても備えなくてもよく、非ニューラルネットワークベースイントラ予測モードを備えても備えなくてもよい。したがって、サポートされたモード66の各々に対応する予測信号を提供するためにエンコーダおよびデコーダにそれぞれ含まれる
図9aのモジュール170は、必ずしもニューラルネットワークではない。既に上記で示されたように、このようなイントラ予測モードはニューラルネットワークベースであってもよく、またはこれらはヒューリスティックに動機付けされ、DCイントラ予測モードまたは角度イントラ予測モードまたはその他に基づいて予測信号を計算してもよい。したがって、これらのモジュール170は、予測信号コンピュータとして示されることが可能である。しかしながら、
図9aの実施形態によるエンコーダおよびデコーダは、ニューラルネットワーク84を備える。ニューラルネットワーク84は、複数66のイントラ予測モードが順序リスト94となり得るように、隣接サンプル集合86に基づいて、サポートされたイントラ予測モード66の確率値を計算する。ブロック18のデータストリーム12内のインデックス70は、この順序リスト94を指す。したがって、ニューラルネットワーク84は、イントラ予測モード信号伝達のために費やされるサイド情報レートを下げるのを助ける。
【0100】
図9bは、複数66の各モードのニューラルネットワーク84に対して決定された確率値にしたがって、確率またはその単純な統計を制御する、すなわちエンコーダ/デコーダでのエントロピーデコード/エンコードのエントロピー確率分布を制御すると共に、順序付けの代わりに、インデックス70のエントロピーデコード/エンコード100が使用される、
図9aの代替を示す。
【0101】
図10は、ニューラルネットワーク84を設計またはパラメータ化するための装置を示す。したがって、イントラ予測モードの集合66から選択するのを支援するためのニューラルネットワークを設計する装置108である。ここで、集合66の各モードについて、ニューラルネットワーク84を一緒に形成するための対応するニューラルネットワークブロックがあり、装置108のパラメータ化可能なニューラルネットワーク109は、単にこれらのブロックに関してパラメータ化可能である。しかしながら、各モードについて、
図10によれば、パラメータ可能でなくてもよい予測信号コンピュータ170もある。したがって、
図10の装置108は、対応する予測信号コンピュータ170によって計算されたとおりの予測信号118に基づいて、および任意選択的に、このモードの対応するニューラルネットワークブロックによって決定されたとおりの対応する確率値に基づいて、各モードのコスト推定を計算する。得られたコスト推定124に基づいて、最小コスト選択器126は最小コスト推定のモードを選択し、アップデータ110はニューラル84のパラメータ111を更新する。
【0102】
以下は、
図7aから
図7dおよび
図9aおよび
図9bの説明に関して注記される。
図7aから
図7dの実施形態のいくつかでも使用される
図9aおよび
図9bの実施形態の共通の特徴は、最適化プロセス90においてエンコーダ側で決定されたモードをデコーダに通知するためのサイド情報70に関連付けられたオーバヘッドを改善または低減するためのニューラルネットワーク値の確率値という事実であった。しかしながら、
図7aから
図7dの実施形態に関して上記で示されたように、
図9aおよび
図9bの実施形態が、モード選択に関してデータストリーム12内でサイド情報70がまったく費やされない程度に変化し得ることは、明らかである。むしろ、各モードについてニューラルネットワーク84によって出力された確率値は、必然的にエンコーダとデコーダとの間のモード選択を同期するために使用され得る。その場合、モード選択に関してエンコーダ側で最適化決定90はないだろう。むしろ、集合66の間で使用されるモードは、同じ方法でエンコーダ側およびデコーダ側で決定される。データストリーム12でサイド情報70をまったく使用しないように変化したとき、
図7aから
図7dの対応する実施形態に関して類似の説明が該当する。しかしながら、
図9aおよび
図9bの実施形態に戻ると、興味深いのは、エンコーダに関する限り、確率値に対する順序付けまたは確率分布推定の依存性はサイド情報の解釈を変化させるという点において、デコーダ側の選択プロセス68はニューラルネットワークによって出力された確率値に依存しているものの、確率値への依存性は、たとえば、順序リストへのインデックスのそれぞれの可変長符号化を使用する、またはニューラルネットワークの確率値に依存する確率分布推定を伴うエントロピーエンコード/デコードを使用する、データストリーム12へのサイド情報70の符号化に影響するのみならず、最適化ステップ90にも影響することである。ここで、サイド情報70を送信するための符号化率が考慮されてもよく、したがってこれは決定90に影響を及ぼす可能性がある。
【0103】
いくつかの態様は装置の文脈で説明されてきたが、これらの態様が対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の説明も表す。方法ステップの一部または全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって(またはこれを使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちの1つ以上が、このような装置によって実行されてもよい。
【0104】
本発明のエンコードされたデータストリームは、デジタル記憶媒体上に記憶されることが可能であり、またはインターネットなどの無線送信媒体または有線送信媒体のような送信媒体で送信されることが可能である。
【0105】
特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装され得る。本実装は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働可能な)、電子可読制御信号が記憶された、フロッピーディスク、DVD、Blu−ray(登録商標)、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリなどのデジタル記憶媒体を使用して、実行され得る。したがって、デジタル記憶媒体はコンピュータ可読であり得る。
【0106】
本発明によるいくつかの実施形態は、本明細書に記載される方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することが可能な、電子可読制御信号を有するデータキャリアを備える。
【0107】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装されることが可能であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されると、方法の1つを実行するように動作する。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。
【0108】
別の実施形態は、機械可読キャリア上に記憶された、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを備える。
【0109】
したがって、言い換えると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されると、本明細書に記載される方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0110】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを備え、それが記録された、データキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録媒体は、典型的には有形および/または非一時的である。
【0111】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、たとえばインターネットを介して、たとえばデータ通信接続を介して転送されるように構成されてもよい。
【0112】
さらなる実施形態は、本明細書に記載される方法の1つを実行するように構成または適合された、たとえばコンピュータまたはプログラマブル論理デバイスなどの処理手段を備える。
【0113】
さらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを備える。
【0114】
本発明によるさらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを受信機に(たとえば、電子的または光学的に)送信するように構成された、装置またはシステムを備える。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えてもよい。
【0115】
いくつかの実施形態では、プログラマブル論理デバイス(たとえばフィールドプログラマブルゲートアレイ)は、明細書に記載される方法の機能の一部または全てを実行するために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載される方法の1つを実行するためにマイクロプロセッサと協働し得る。一般に、方法は、好ましくはいずれかのハードウェア装置によって実行される。
【0116】
本明細書に記載される装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置およびコンピュータの組み合わせを使用して、実装され得る。
【0117】
本明細書に記載される装置、または本明細書に記載される装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実装され得る。
【0118】
本明細書に記載される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置およびコンピュータの組み合わせを使用して、実行され得る。
【0119】
本明細書に記載される方法、または本明細書に記載される装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアによって実行され得る。
【0120】
上記の実施形態は、本発明の原理を単に例示するものである。本明細書に記載される配置および詳細の修正および変形は、当業者にとって明らかとなることが理解される。したがって、差し迫った特許請求の範囲のみによって限定され、本明細書の実施形態の記載および説明によって提示される特定の詳細によっては限定されないことが意図される。
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
【手続補正書】
【提出日】2020年6月9日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
データストリーム(12)から画像(10)をブロック単位でデコードするための装置であって、前記装置は、少なくともイントラ予測モードの集合(72)を備える複数(66)のイントラ予測モードをサポートし、これにしたがって前記画像の現在のブロック(18)のためのイントラ予測信号が、前記現在のブロック(18)の隣接サンプルの第1の集合(60)をニューラルネットワーク(80)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスに適用することによって決定され、前記装置は、
前記現在のブロック(18)のために前記複数(66)のイントラ予測モードから1つのイントラ予測モードを選択(68)し、
前記1つのイントラ予測モードを使用して前記現在のブロック(18)を予測(71)する
ように構成されている、装置。
【請求項2】
可変長コードを使用して前記データストリーム(12)からインデックス(70b)をデコードし、
前記インデックス(70b)を使用して前記選択を実行する
ように構成されている、請求項1に記載の装置。
【請求項3】
イントラ予測モードの順序リストを取得するために、前記現在のブロック(18)の近傍に関連する前記データストリーム(12)の第1部分(97)に応じてイントラ予測モードの前記集合(72)のランキングを決定し、
前記第1部分以外の前記データストリーム(12)の第2部分(98)に応じてイントラ予測モードの前記順序リストから前記1つのイントラ予測モードを選択する
ように構成されている、請求項1または2に記載の装置。
【請求項4】
イントラ予測モードの前記集合(72)の各イントラ予測モードについて、イントラ予測モードの順序リストを取得するために、隣接サンプルの第2の集合(86)を、さらなるニューラルネットワーク、または各さらなる線形関数にそれぞれのさらなる非線形関数が続く1つ以上のさらなる線形関数のさらなるシーケンスに適用することによって、ランクを決定し、
前記データストリーム(12)からインデックス(70b)を前記順序リストにデコードし、
前記インデックス(70b)および前記順序リストを使用して前記選択を実行する
ように構成されている、請求項1または2に記載の装置。
【請求項5】
可変長コードを使用して、前記データストリーム(12)から前記インデックス(70b)を前記順序リストにデコードするように構成されている、請求項4に記載の装置。
【請求項6】
イントラ予測モードの前記集合(72)の各イントラ予測モードについて、隣接サンプルの第2の集合(86)をさらなるニューラルネットワークまたは1つ以上のさらなる線形関数の前記さらなるシーケンスに適用することによって確率値(120)を決定し、
前記確率値(120)を使用して、前記データストリーム(12)から、インデックス(70b)をイントラ予測モードの前記集合(72)にエントロピーデコードし、
前記インデックス(70b)を使用して前記選択を実行する
ように構成されている、請求項1または2に記載の装置。
【請求項7】
隣接サンプルの前記第1の集合(60)は、隣接サンプルの前記第2の集合(86)と一致する、請求項3から6のいずれか一項に記載の装置。
【請求項8】
イントラ予測モードの前記集合(72)の各々は、排他的に、前記現在のブロック(18)の隣接サンプルの前記第1の集合(60)から前記現在のブロック(18)のための前記イントラ予測信号を一意に決定する、請求項1から7のいずれか一項に記載の装置。
【請求項9】
前記複数のイントラ予測モードは、前記現在のブロック(18)がDC値で満たされるDCモード、または前記現在のブロック(18)の隣接サンプルの第3の集合から導出された前記現在のブロック(18)と一緒に、所定の方向に沿って前記現在のブロック(18)内に空間サンプル値分布を投影することによって前記イントラ予測信号が決定される方向モード、のうちの1つ以上を含む、イントラ予測モードのさらなる集合をさらに備える、請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記複数のイントラ予測モードは、現在のブロック(18)の前記イントラ予測信号が、線形関数を使用して前記現在のブロック(18)の隣接サンプルの第3の集合から決定されるイントラ予測モードのさらなる集合をさらに備え、隣接サンプルの前記第1の集合(60)の濃度は隣接サンプルの前記第3の集合の濃度よりも高い、請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記複数のイントラ予測モードから前記1つのイントラ予測モードを選択する際に、イントラ予測モードの前記集合またはイントラ予測モードの前記さらなる集合から前記1つのイントラ予測モードを選択するように、前記データストリーム(12)内の1つのフラグに応答するように構成されている、請求項10または11に記載の装置。
【請求項12】
画像(10)をデータストリーム(12)にブロック単位でエンコードするための装置であって、前記装置は、少なくともイントラ予測モードの集合(72)を備える複数のイントラ予測モードをサポートし、これにしたがって前記画像(10)の現在のブロック(18)のためのイントラ予測信号が、前記現在のブロック(18)の隣接サンプルの第1の集合(60)をニューラルネットワーク(80)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスに適用することによって決定され、前記装置は、
前記現在のブロック(18)のために前記複数のイントラ予測モードから1つのイントラ予測モードを選択(90)し、
前記1つのイントラ予測モードを使用して、前記現在のブロック(18)を予測する
ように構成されている、装置。
【請求項13】
可変長コードを使用してインデックス(70b)を前記データストリーム(12)にエンコードし、前記インデックス(70b)は前記選択を表している
ように構成されている、請求項12に記載の装置。
【請求項14】
イントラ予測モードの順序リストを取得するために、前記現在のブロック(18)の近傍に関連する前記データストリーム(12)の第1部分(97)に応じてイントラ予測モードの前記集合(72)のランキングを決定し、
イントラ予測モードの前記順序リストから前記1つのイントラ予測モードを選択し、
イントラ予測モードの前記順序リストからの前記選択を表すように、前記第1部分(97)以外の前記データストリーム(12)の第2部分(98)を形成する
ように構成されている、請求項12または13に記載の装置。
【請求項15】
イントラ予測モードの前記集合(72)の各イントラ予測モードについて、イントラ予測モードの順序リストを取得するために、隣接サンプルの第2の集合(86)を、さらなるニューラルネットワーク、または各さらなる線形関数にそれぞれのさらなる非線形関数が続く1つ以上のさらなる線形関数のさらなるシーケンスに適用することによって、ランクを決定し、
前記順序リストへのインデックス(70b)を前記データストリーム(12)にエンコードする
ように構成されており、
前記インデックス(70b)は、前記順序リストから前記1つのイントラ予測モードを選択する、
請求項12または14に記載の装置。
【請求項16】
可変長コードを使用して、前記データストリーム(12)から前記インデックスを前記順序リストにデコードするように構成されている、請求項15に記載の装置。
【請求項17】
イントラ予測モードの前記集合(72)の各イントラ予測モードについて、隣接サンプルの第2の集合(86)をさらなるニューラルネットワーク、または各さらなる線形関数にそれぞれのさらなる非線形関数が続く1つ以上のさらなる線形関数のさらなるシーケンスに適用することによって、確率値(120)を決定し、
前記確率値(120)を使用して、前記データストリーム(12)に、インデックス(70b)をイントラ予測モードの前記集合(72)にエントロピーエンコードし、前記インデックス(70b)は前記1つのイントラ予測モードを指す
ように構成されている、請求項12または13に記載の装置。
【請求項18】
隣接サンプルの前記第1の集合(60)は、隣接サンプルの前記第2の集合(86)と一致する、請求項14から17のいずれか一項に記載の装置。
【請求項19】
イントラ予測モードの前記集合(72)の各々は、排他的に、前記現在のブロック(18)の隣接サンプルの前記第1の集合(60)から前記現在のブロック(18)のための前記イントラ予測信号を一意に決定する、請求項12から18のいずれか一項に記載の装置。
【請求項20】
前記複数のイントラ予測モードは、前記現在のブロック(18)がDC値で満たされるDCモード、または前記現在のブロック(18)の隣接サンプルの第3の集合から導出された前記現在のブロック(18)と一緒に、所定の方向に沿って前記現在のブロック(18)内に空間サンプル値分布を投影することによって前記イントラ予測信号が決定される方向モード、のうちの1つ以上を含む、イントラ予測モードのさらなる集合をさらに備える、請求項12から19のいずれか一項に記載の装置。
【請求項21】
前記複数のイントラ予測モードは、現在のブロック(18)の前記イントラ予測信号が、線形関数を使用して前記現在のブロック(18)の隣接サンプルの第3の集合から選択されるイントラ予測モードのさらなる集合をさらに備え、隣接サンプルの前記第1の集合(60)の濃度は隣接サンプルの前記第3の集合の濃度よりも高い、請求項12から20のいずれか一項に記載の装置。
【請求項22】
データストリーム(12)に、前記1つのイントラ予測モードがイントラ予測モードの前記集合(72)の要素であるかイントラ予測モードの前記さらなる集合の要素であるかを示す1つのフラグを提供するように構成されている、請求項19または20に記載の装置。
【請求項23】
現在のブロック(18)の隣接サンプルの第1の集合(60)を、第1ニューラルネットワーク(80)またはイントラ予測モードに関連付けられた1つ以上の第1線形関数の第1シーケンスに適用することによって前記現在のブロック(18)のイントラ予測信号が決定されるブロック単位の画像符号化のためのイントラ予測モードの集合(72)の各々について、前記第1ニューラルネットワーク(80)または各第1線形関数にそれぞれの第1非線形関数が続く1つ以上の第1線形関数の前記第1シーケンスをトレーニングするための装置であって、
イントラ予測モードの前記集合(72)の各々について、第1画像テストブロック(114)に隣接する隣接サンプル(116)の第1の集合(60)を、イントラ予測モードの前記集合(72)の各々について、前記第1テストブロックの予測信号(118)を取得するように、前記第1ニューラルネットワーク(80)または前記それぞれのイントラ予測モードに関連付けられた1つ以上の第1線形関数に、および前記第1画像テストブロックに隣接する隣接サンプルの第2の集合(86)を、イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードの確率を示す確率値(120)を取得するように、第2ニューラルネットワーク(84)、または各第2線形関数にそれぞれの第2非線形関数が続く1つ以上の第2線形関数の第2シーケンスに、適用し、
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードのために取得された前記予測信号(118)を使用して、予測誤差符号化およびモード信号伝達に関連する符号化コストのコスト推定(124)を決定(122)し、
最低符号化コスト推定のイントラ予測モードのために取得された前記予測信号(118)に応じて残差レート推定を形成する第1加数、および最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)および前記確率値(120)に応じてモードシグナリング側情報レート推定を形成する第2加数を有する符号化コスト関数を低減するように、イントラ予測モードの前記集合(72)および前記第2ニューラルネットワーク(84)の第2パラメータ(111)または1つ以上の第2線形関数の第2シーケンスの各々について、前記第1ニューラルネットワーク(80)の第1パラメータ(113)または1つ以上の第1線形関数の第1シーケンスを更新(110)し、
第2画像テストブロックに隣接する隣接サンプルを、更新された前記第1および第2パラメータ(113、111)を用いて、イントラ予測モードの前記集合の各々について前記第1ニューラルネットワーク(80)または1つ以上の第1線形関数の第1シーケンスに、および前記第2ニューラルネットワーク(84)または1つ以上の第2線形関数の第2シーケンスに適用する
ように構成されている、装置。
【請求項24】
隣接サンプル(116)の前記第1の集合(60)を前記第1ニューラルネットワーク(80)に、および隣接サンプルの前記第2の集合(86)を前記第2ニューラルネットワーク(84)に適用するように構成されており、
前記第1および第2ニューラルネットワーク(80、84)は、
線形および非線形関数のシーケンスであって、前記第1および第2パラメータ(113、111)は前記線形関数の重みを備える、シーケンス、
ニューロン層のシーケンスを形成する線形および非線形関数のシーケンス、または
ニューロンの層のシーケンスであって、前記第1および第2パラメータ(113、111)は相互接続されたニューロン間で転送される信号強度を制御する重みを備える、シーケンス
である、請求項23に記載の装置。
【請求項25】
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードのために取得された前記予測信号(118)および前記確率値(120)を使用して、予測誤差符号化およびモード信号伝達に関連する符号化コストの前記コスト推定を決定する
ように構成されている、請求項23または24に記載の装置。
【請求項26】
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードおよび前記第1画像テストブロックの元の歪みのないバージョンのために取得された前記予測信号(118)を予測誤差符号化レート推定にマッピングする第1加数と、前記それぞれのイントラ予測モードのために取得された前記確率値(120)をモード信号伝達レート推定にマッピングする第2加数との合計として、予測誤差符号化およびモード信号伝達に関連する符号化コストの前記コスト推定を決定する
ように構成されている、請求項23から25のいずれか一項に記載の装置。
【請求項27】
前記符号化コスト関数の第2加数は、最低符号化コスト推定の前記イントラ予測モードの交差エントロピーを示す全てのイントラ予測モードのために取得された前記確率値(120)の関数として、最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)に応じて前記モードシグナリング側情報レート推定を形成する
請求項23から26のいずれか一項に記載の装置。
【請求項28】
前記符号化コスト関数の第1加数は、前記それぞれのイントラ予測モードおよび前記第1画像テストブロックの元の歪みのないバージョンのために取得された前記予測信号(118)の関数として、最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)に応じて前記残差レート推定を形成する
請求項23から27のいずれか一項に記載の装置。
【請求項29】
複数の画像テストブロックの次の画像テストブロックの適用のために1つの画像テストブロックに対して更新された前記第1および第2パラメータ(113、111)を使用して、前記複数の画像テストブロックの前記適用、決定、および更新を順次繰り返す
ように構成されている、請求項23から28のいずれか一項に記載の装置。
【請求項30】
前記複数の画像テストブロックを、より効率的に符号化可能な未細分の第1の集合、およびより効率的に符号化可能であってサブブロックに細分された第2の集合に細分し、前記第1の集合の次の画像テストブロックの適用のために1つの画像テストブロックに対して更新された前記第1および第2パラメータ(113、111)を使用して、前記第1の集合の画像テストブロックの前記適用、決定、および更新を順次繰り返す
ように構成されている、請求項23から29のいずれか一項に記載の装置。
【請求項31】
勾配降下を使用して前記更新を実行する
ように構成されている、請求項23から30のいずれか一項に記載の装置。
【請求項32】
隣接サンプルの前記第1の集合(60)は、隣接サンプルの前記第2の集合(86)と一致する、請求項23から31のいずれか一項に記載の装置。
【請求項33】
データストリーム(12)から画像(10)をブロック単位でデコードするための装置であって、前記装置は複数のイントラ予測モードをサポートし、前記装置は、
前記複数(66)のイントラ予測モードの少なくともイントラ予測モードの集合(72)の各々について、現在のブロック(18)に隣接する隣接サンプルの第1の集合(68)を、ニューラルネットワーク(84)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスに適用することによって、ランクまたは確率値(120)を決定し、
前記現在のブロック(18)について、前記ランクまたは確率値(120)を使用して、前記複数のイントラ予測モードから1つのイントラ予測モードを選択し、
前記1つのイントラ予測モードを使用して、前記現在のブロック(18)を予測する
ように構成されている、装置。
【請求項34】
イントラ予測モードの順序リストを取得するために前記ランクにしたがってイントラ予測モードの前記集合(72)を順序付け、
可変長コードを使用して前記データストリーム(12)からインデックス(70b)をデコードし、
前記インデックス(70b)および前記順序リストを使用して前記選択を実行する
ように構成されている、請求項33に記載の装置。
【請求項35】
前記確率値(120)を使用して、前記データストリーム(12)から、インデックス(70b)をイントラ予測モードの前記集合(72)にエントロピーデコードし、
前記インデックス(70b)を使用して前記選択を実行する
ように構成されている、請求項33または34に記載の装置。
【請求項36】
イントラ予測モードの前記集合(72)の各々は、排他的に、前記現在のブロック(18)の隣接サンプルの第2の集合(86)から前記現在のブロック(18)のための前記イントラ予測信号を一意に決定する、請求項33から35のいずれか一項に記載の装置。
【請求項37】
前記複数のイントラ予測モードは、前記現在のブロック(18)がDC値で満たされるDCモード、または前記現在のブロック(18)の隣接サンプルの第3の集合から導出された前記現在のブロック(18)と一緒に、所定の方向に沿って前記現在のブロック(18)内に空間サンプル値分布を投影することによって前記イントラ予測信号が決定される方向モード、のうちの1つ以上を備える、請求項33から36のいずれか一項に記載の装置。
【請求項38】
それに基づいて前記現在のブロック(18)が前記複数のイントラ予測モードにしたがって予測される隣接サンプルの集合の濃度は、前記複数のイントラ予測モードの間で異なる、請求項33から37のいずれか一項に記載の装置。
【請求項39】
画像(10)をデータストリーム(12)にブロック単位でエンコードするための装置であって、前記装置は複数のイントラ予測モードをサポートし、前記装置は、
前記複数のイントラ予測モードの少なくともイントラ予測モードの集合(72)の各々について、現在のブロック(18)に隣接する隣接サンプルの第1の集合(68)を、ニューラルネットワーク(84)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスに適用することによって、ランクまたは確率値(120)を決定し、
前記現在のブロック(18)について、前記ランクまたは確率値(120)を使用して、前記複数のイントラ予測モードから1つのイントラ予測モードを選択(90)し、
前記1つのイントラ予測モードを使用して、前記現在のブロック(18)を予測する
ように構成されている、装置。
【請求項40】
イントラ予測モードの順序リストを取得するために前記ランクにしたがってイントラ予測モードの前記集合(72)を順序付け、
可変長コードを使用してインデックス(70b)を前記データストリーム(12)にエンコードする
ように構成されており、
前記インデックス(70b)は、前記順序リスト内の前記1つのイントラ予測モードにインデックスを付ける、
請求項39に記載の装置。
【請求項41】
前記確率値(120)を使用して、イントラ予測モードの前記集合(72)へのインデックス(70b)を前記データストリーム(12)にエントロピーエンコードするように構成されており、
前記インデックス(70b)は、イントラ予測モードの前記集合(72)内の前記1つのイントラ予測モードにインデックスを付ける、
請求項39または40に記載の装置。
【請求項42】
前記複数(66)のイントラ予測モードの各々は、排他的に、前記現在のブロック(18)の隣接サンプルの第2の集合(86)から前記現在のブロック(18)のための前記イントラ予測信号を一意に決定する、請求項39から41のいずれか一項に記載の装置。
【請求項43】
前記複数(66)のイントラ予測モードは、前記現在のブロック(18)がDC値で満たされるDCモード、または前記現在のブロック(18)の隣接サンプルの第3の集合から導出された前記現在のブロック(18)と一緒に、所定の方向に沿って前記現在のブロック(18)内に空間サンプル値分布を投影することによって前記イントラ予測信号が決定される方向モード、のうちの1つ以上を備える、請求項39から42のいずれか一項に記載の装置。
【請求項44】
それに基づいて前記現在のブロック(18)が前記複数(66)のイントラ予測モードにしたがって予測される隣接サンプルの集合の濃度は、前記複数(66)のイントラ予測モードの間で異なる、請求項39から43のいずれか一項に記載の装置。
【請求項45】
ブロック単位の画像符号化のためのイントラ予測モードの集合(72)の間での選択を支援するためのニューラルネットワーク(84)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスを設計するための装置であって、
イントラ予測モードの前記集合(72)の各々を使用して、イントラ予測モードの前記集合(72)の各々について、第1テストブロックの予測信号(118)を取得するように、前記第1画像テストブロックに隣接する隣接サンプルの第1の集合(68)から前記第1画像テストブロックを推定(170)し、イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードの確率を示す確率値(120)を取得するように、隣接サンプルの前記第1の集合(68)を前記ニューラルネットワーク(84)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスに適用し、
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードのために取得された前記予測信号(118)を使用して、予測誤差符号化およびモード信号伝達に関連する符号化コストのコスト推定を決定し、
最低符号化コスト推定の前記イントラ予測モードのために取得された予測信号(118)に応じて残差レート推定を形成する第1加数、および最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)および前記確率値(120に応じてモードシグナリング側情報レート推定を形成する第2加数を有する符号化コスト関数を低減するように、前記ニューラルネットワーク(84)または1つ以上の線形関数のシーケンスのパラメータを更新し、
更新されたパラメータを用いて第2予測テキストブロックおよび隣接サンプルのその集合の前記予測および適用をやり直す
ように構成されている、装置。
【請求項46】
前記ニューラルネットワークは、
線形および非線形関数のシーケンスであって、前記パラメータは線形関数重みを備える、シーケンス、
ニューロン層のシーケンスを形成する線形および非線形関数のシーケンス、または
ニューロンの層のシーケンスであって、前記パラメータは層と接続されたニューロン間で転送される信号強度を制御する重みを備える、シーケンス
である、請求項45に記載の装置。
【請求項47】
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードのために取得された前記予測信号(118)および前記確率値(120)を使用して、予測誤差符号化およびモード信号伝達に関連する符号化コストの前記コスト推定を決定する
ように構成されている、請求項45または46に記載の装置。
【請求項48】
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードおよび前記第1画像テストブロックの元の歪みのないバージョンのために取得された前記予測信号(118)を予測誤差符号化レート推定にマッピングする第1加数と、前記それぞれのイントラ予測モードのために取得された前記確率値(120)をモード信号伝達レート推定にマッピングする第2加数との合計として、予測誤差符号化およびモード信号伝達に関連する符号化コストの前記コスト推定を決定する
ように構成されている、請求項45から47のいずれか一項に記載の装置。
【請求項49】
前記符号化コスト関数の第2加数は、最低符号化コスト推定の前記イントラ予測モードの交差エントロピーを示す全てのイントラ予測モードのために取得された前記確率値(120)の関数として、最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)に応じて前記モードシグナリング側情報レート推定を形成する
請求項45から48のいずれか一項に記載の装置。
【請求項50】
前記符号化コスト関数の第1加数は、前記それぞれのイントラ予測モードおよび前記第1画像テストブロックの元の歪みのないバージョンのために取得された前記予測信号(118)の関数として、最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)に応じて前記残差レート推定を形成する
請求項45から49のいずれか一項に記載の装置。
【請求項51】
複数の画像テストブロックの次の画像テストブロックの適用のために1つの画像テストブロックに対して更新された前記パラメータを使用して、前記複数の画像テストブロックの前記予測、適用、決定、および更新を順次繰り返す
ように構成されている、請求項45から50のいずれか一項に記載の装置。
【請求項52】
勾配降下を使用して前記更新を実行する
ように構成されている、請求項45から51のいずれか一項に記載の装置。
【請求項53】
データストリーム(12)から画像(10)をブロック単位でデコードする方法であって、少なくともイントラ予測モードの集合(72)を備える複数(66)のイントラ予測モードをサポートし、これにしたがって、現在のブロック(18)の隣接サンプルの第1の集合(60)の前記イントラ予測信号をニューラルネットワーク(80)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスに適用することによって前記画像の前記現在のブロック(18)の前記イントラ予測信号が決定され、前記方法は、
前記現在のブロック(18)のために前記複数(66)のイントラ予測モードから1つのイントラ予測モードを選択(68)するステップと、
前記1つのイントラ予測モードを使用して前記現在のブロック(18)を予測(71)するステップと
を備える、方法。
【請求項54】
画像(10)をデータストリーム(12)にブロック単位でエンコードする方法であって、少なくともイントラ予測モードの集合(72)を備える複数のイントラ予測モードをサポートし、これにしたがって前記画像(10)の現在のブロック(18)のためのイントラ予測信号が、前記現在のブロック(18)の隣接サンプルの第1の集合(60)をニューラルネットワーク(80)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスに適用することによって決定され、前記方法は、
前記現在のブロック(18)のために前記複数のイントラ予測モードから1つのイントラ予測モードを選択(90)するステップと、
前記1つのイントラ予測モードを使用して前記現在のブロック(18)を予測するステップと
を備える方法。
【請求項55】
現在のブロック(18)の隣接サンプルの第1の集合(60)を、第1ニューラルネットワーク(80)またはイントラ予測モードに関連付けられた1つ以上の第1線形関数の第1シーケンスに適用することによって前記現在のブロック(18)のイントラ予測信号が決定されるブロック単位の画像符号化のためのイントラ予測モードの集合(72)の各々について、前記第1ニューラルネットワーク(80)または各第1線形関数にそれぞれの第1非線形関数が続く1つ以上の第1線形関数の前記第1シーケンスをトレーニングするための方法であって、
イントラ予測モードの前記集合(72)の各々について、第1画像テストブロック(114)に隣接する隣接サンプル(116)の第1の集合(60)を、イントラ予測モードの前記集合(72)の各々について、前記第1テストブロックの予測信号(118)を取得するように、前記第1ニューラルネットワーク(80)またはそれぞれのイントラ予測モードに関連付けられた1つ以上の線形第1関数に、および前記第1画像テストブロックに隣接する隣接サンプルの第2の集合(86)を、イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードの確率を示す確率値(120)を取得するように、第2ニューラルネットワーク(84)、または各第2線形関数にそれぞれの第2非線形関数が続く1つ以上の第2線形関数の第2シーケンスに、適用するステップと、
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードのために取得された前記予測信号(118)を使用して、予測誤差符号化およびモード信号伝達に関連する符号化コストのコスト推定(124)を決定(122)するステップと、
最低符号化コスト推定のイントラ予測モードのために取得された前記予測信号(118)に応じて残差レート推定を形成する第1加数、および最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)および前記確率値(120)に応じてモードシグナリング側情報レート推定を形成する第2加数を有する符号化コスト関数を低減するように、イントラ予測モードの前記集合および前記第2ニューラルネットワーク(84)の第2パラメータ(111)または1つ以上の第2線形関数の第2シーケンスの各々について、前記第1ニューラルネットワーク(80)の第1パラメータ(113)または1つ以上の第1線形関数の第1シーケンスを更新(110)するステップと、
第2画像テストブロックに隣接する隣接サンプルを、更新された前記第1および第2パラメータ(113、111)を用いて、イントラ予測モードの前記集合の各々について前記第1ニューラルネットワーク(80)または第1線形関数の第1シーケンスに、および前記第2ニューラルネットワーク(84)または第2線形関数の第2シーケンスに適用するステップと
を備える方法。
【請求項56】
データストリーム(12)から画像(10)をブロック単位でデコードする方法であって、複数のイントラ予測モードをサポートし、前記方法は、
前記複数(66)のイントラ予測モードの少なくともイントラ予測モードの集合(72)の各々について、現在のブロック(18)に隣接する隣接サンプルの第1の集合(68)を、ニューラルネットワーク(80)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスに適用することによって、ランクまたは確率値(120)を決定するステップと、
前記現在のブロック(18)について、前記ランクまたは確率値(120)を使用して、前記複数のイントラ予測モードから1つのイントラ予測モードを選択するステップと、
前記1つのイントラ予測モードを使用して、前記現在のブロック(18)を予測するステップと
を備える方法。
【請求項57】
画像(10)をデータストリーム(12)にブロック単位でエンコードする方法であって、複数のイントラ予測モードをサポートし、前記方法は、
前記複数のイントラ予測モードの少なくともイントラ予測モードの集合(72)の各々について、現在のブロック(18)に隣接する隣接サンプルの第1の集合(68)を、ニューラルネットワーク(80)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスに適用することによって、ランクまたは確率値(120)を決定するステップと、
前記現在のブロック(18)について、前記ランクまたは確率値(120)を使用して、前記複数のイントラ予測モードから1つのイントラ予測モードを選択(90)するステップと、
前記1つのイントラ予測モードを使用して、前記現在のブロック(18)を予測するステップと
を備える方法。
【請求項58】
ブロック単位の画像符号化のためのイントラ予測モードの集合(72)の間での選択を支援するためのニューラルネットワーク(84)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスを設計する方法であって、前記方法は、
イントラ予測モードの前記集合(72)の各々を使用して、イントラ予測モードの前記集合(72)の各々について、第1テストブロックの予測信号(118)を取得するように、前記第1画像テストブロックに隣接する隣接サンプルの第1の集合(68)から前記第1画像テストブロックを推定(170)し、イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードの確率を示す確率値(120)を取得するように、隣接サンプルの前記第1の集合(68)を前記ニューラルネットワーク(84)または1つ以上の線形関数のシーケンスに適用するステップと、
イントラ予測モードの前記集合(72)の各々について、前記それぞれのイントラ予測モードのために取得された前記予測信号(118)を使用して、予測誤差符号化およびモード信号伝達に関連する符号化コストのコスト推定を決定するステップと、
最低符号化コスト推定の前記イントラ予測モードのために取得された予測信号(118)に応じて残差レート推定を形成する第1加数、および最低符号化コスト推定の前記イントラ予測モードのために取得された前記予測信号(118)および前記確率値(120に応じてモードシグナリング側情報レート推定を形成する第2加数を有する符号化コスト関数を低減するように、前記ニューラルネットワーク(84)または1つ以上の線形関数のシーケンスのパラメータを更新するステップと、
更新されたパラメータを用いて第2予測テキストブロックおよび隣接サンプルのその集合の前記予測および適用をやり直すステップと
を備える方法。
【請求項59】
コンピュータ上で実行されると、請求項53から58のいずれか一項に記載の方法を実行するための、プログラムコードを有するコンピュータプログラム。
【請求項60】
請求項54から57のいずれか一項に記載の方法を使用して生成されたデータストリーム。
【請求項61】
現在のブロック(18)の隣接サンプルの第1の集合(60)を第1ニューラルネットワーク(80)またはイントラ予測モードに関連付けられた1つ以上の第1線形関数の第1シーケンスに適用することによって前記現在のブロック(18)の前記イントラ予測信号が決定されるブロック単位の画像符号化のためのイントラ予測モードの集合(72)の各々について、第1ニューラルネットワーク(80)、または各第1線形関数にそれぞれの第1非線形関数が続く1つ以上の第1線形関数の前記第1シーケンスを記憶するデジタル記憶媒体であって、イントラ予測モードの前記集合(72)の各々について、前記第1ニューラルネットワーク(80)または1つ以上の第1線形関数の第1シーケンスは、請求項55に記載の方法によって取得される、デジタル記憶媒体。
【請求項62】
データストリーム(12)から画像(10)をブロック単位でデコードするための装置であって、前記装置は、少なくともイントラ予測モードの集合(72)を備える複数(66)のイントラ予測モードをサポートし、各々これにしたがって前記画像の現在のブロック(18)のためのイントラ予測信号が、前記現在のブロック(18)の隣接サンプルの第1の集合(60)をニューラルネットワーク(80)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスに適用することによって決定され、これはそれぞれのイントラ予測モードに関連付けられており、前記装置は、
前記現在のブロック(18)について、前記データストリーム内のモード信号伝達にしたがってイントラ予測モードの前記集合(66)から1つのイントラ予測モードを選択(68)し、
前記1つのイントラ予測モードを使用して前記現在のブロック(18)を予測(71)する
ように構成されており、
イントラ予測モードの前記集合(72)の各々について、前記ニューラルネットワーク(80)または1つ以上の線形関数のシーケンスは、請求項55に記載の方法によって取得される、装置。
【請求項63】
データストリーム(12)から画像(10)をブロック単位でデコードする方法であって、前記方法は、少なくともイントラ予測モードの集合(72)を備える複数(66)のイントラ予測モードをサポートし、各々これにしたがって前記画像の現在のブロック(18)のためのイントラ予測信号が、前記現在のブロック(18)の隣接サンプルの第1の集合(60)をニューラルネットワーク(80)または各線形関数にそれぞれの非線形関数が続く1つ以上の線形関数のシーケンスに適用することによって決定され、これはそれぞれのイントラ予測モードに関連付けられており、前記方法は、
前記現在のブロック(18)について、前記データストリーム内のモード信号伝達にしたがってイントラ予測モードの前記集合(66)から1つのイントラ予測モードを選択(68)するステップと、
前記1つのイントラ予測モードを使用して前記現在のブロック(18)を予測(71)するステップと、
を備え、
イントラ予測モードの前記集合(72)の各々について、前記ニューラルネットワーク(80)または1つ以上の線形関数のシーケンスは、請求項55に記載の方法によって取得される、方法。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、HEVCまたはHEVCの任意の後継などのビデオコーデックで使用可能なものなどのブロック単位の画像符号化のための改善されたイントラ予測モード概念に関する。
【背景技術】
【0002】
イントラ予測モードは、画像およびビデオ符号化で広く使用されている。ビデオ符号化では、イントラ予測モードは動き補償予測モードなどのインター予測モードなどその他の予測モードと競合する。イントラ予測モードでは、現在のブロックは、隣接サンプル、すなわちエンコーダ側に関する限り既にエンコードされ、デコーダ側に関する限り既にデコードされているサンプルに基づいて、予測される。率直に言えば、隣接サンプル値は、現在のブロックのデータストリームで予測残差を送信して現在のブロックの予測信号を形成するように、現在のブロックに外挿される。予測信号が良好であるほど予測残差が低くなり、したがって予測残差を符号化するために必要なビット数が少なくなる。
【0003】
効果的であるためには、ブロック単位の画像符号化環境でのイントラ予測に効果的なフレームワークを形成するために、いくつかの態様を考慮すべきである。たとえば、コーデックによってサポートされるイントラ予測モードの数が大きいほど、デコーダに選択を通知するためのサイド情報レート消費が大きくなる。一方、サポートされるイントラ予測モードの集合は、良好な予測信号、すなわち低予測残差となる予測信号を提供できるべきである。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願は、改善されたイントラ予測モード概念を使用する場合にブロック単位の画像コーデックのより効率的な圧縮を可能にするイントラ予測モード概念を提供しようとするものである。
【課題を解決するための手段】
【0005】
この目的は、本出願の独立請求項の主題によって達成される。
【0006】
本出願の第1の態様によれば、改善された圧縮効率は、現在のブロックの隣接サンプルの集合をニューラルネットワークに適用することによって画像の現在のブロックのイントラ予測信号が決定されるイントラ予測モードの集合をブロック単位の画像コーデックにサポートさせることによって、実現される。この集合は、完全にサポートされた複数のイントラ予測モード、または単にその適切な小集合を形成し得る。サポートされた複数のイントラ予測モードのうち、1つは現在のブロック向けに選択され、現在のブロックは1つのイントラ予測モード、すなわち選択されたものを使用して予測される。データストリームには、選択されたイントラ予測モードを示す、現在のブロックのインデックスが提供され得る。ブロック単位の画像コーデックに、その間で現在のブロックの選択が実行される2つ以上のニューラルネットワークベースイントラ予測モードを提供することで、より高い尤度で特定のブロックのために予測誤差の低い予測信号を見つけるように、これらのニューラルネットワークベースイントラ予測モードを設計できるようにする。加えて、ニューラルネットワークイントラ予測モード設計は、イントラ予測モード選択のサイド情報が費やされた場合に、このサイド情報オーバヘッドが低く維持され得るような方法で実行され得る。これは、イントラ予測モード設計が、イントラ予測画像ブロック間で選択頻度が相互に異なるようにニューラルネットワークベースイントラ予測モードを自由に生成できる、という事実によって実現可能となる。言い換えると、複数のニューラルネットワークベースイントラ予測モードを費やすことにより、これらのモードの設計は、これらの統計的な選択頻度がエントロピー符号化を招くように選択信号伝達に適合するようなやり方で、ヒューリスティックに設計されたイントラ予測モード集合からの選択と比較してより低いサイド情報オーバヘッドを感知できるようになる。たとえば、選択されたイントラ予測モードを指すインデックスは、可変長コードを使用して、またはエントロピー符号化を使用して符号化されてもよく、ニューラルネットワークベースイントラ予測モードは、イントラ予測モード間のモード選択のための平均信号伝達オーバヘッドが減少または最小化されるように、それらの選択頻度または頻度分布が可変長コードに適合するような、またはそれらの頻度分布がエントロピーコードの基礎となるサンプル統計に適合するような方法で、設計されてもよい。
【0007】
本出願の第2の態様は、ニューラルネットワークベースイントラ予測モードを費やすのに加えて、またはこれに代えて、イントラ予測モードの集合を含むかまたはこれと一致する複数のイントラ予測モードから1つのイントラ予測モードを選択するために使用されるランクまたは確率値を隣接サンプルの集合に適用することによってイントラ予測モードの集合の各々のランクまたは確率値を決定するための専用のニューラルネットワークの使用により、モード選択がより効率的になり得ることである。イントラ予測モードから選択するためのサイド情報オーバヘッドは、完全に除外されるか、またはニューラルネットワークを使用することによってより効率的になり得る。
【0008】
上述のニューラルネットワークの設計に関する限り、本出願は、そのパラメータを適切に決定するための多くの実施形態を提供する。
【0009】
本出願の有利な実装は、従属請求項の主題である。本出願の好適な実施形態は、以下の図面を参照して後述される。
【図面の簡単な説明】
【0010】
【
図1】本出願の実施形態が実装され得る一般的な例として、画像をデータストリームにエンコードするためのエンコーダを示す概略ブロック図である。
【
図2】
図1によるエンコーダのより具体的な例のブロック図である。
【
図3】
図1のエンコーダに適合し、本出願の実施形態が実装され得るデコーダの一例として役立つデコーダを示す概略ブロック図である。
【
図4】
図2のエンコーダに適合する、
図3のデコーダのより具体的な例のブロック図である。
【
図5】イントラ予測を使用してブロックを処理することに関する本出願の実施形態によるエンコーダおよびデコーダにおける動作モードを示す概略図である。
【
図6】いくつかのニューラルネットワークベースイントラ予測モードを備える本出願の実施形態によるデコーダを示す概略ブロック図である。
【
図7a】使用されるイントラ予測モードがニューラルネットワークベースイントラ予測モードの集合の要素であるか否かを示すフレックと共に、データストリーム内でインデックスをニューラルネットワークベースイントラ予測モードの順序リスト内に送信しながら、ニューラルネットワークベースイントラ予測モードおよびこれらのモードのニューラルネットワークベースの順序付けをサポートする実施形態による、エンコーダおよびデコーダの動作モードを示す概略図である。言うまでもなく、異なる頻度が決定90によって決定されることを利用するように、インデックスは可変長符号化を使用して符号化され得る。
【
図7b】フレック信号伝達が使用されない点で
図7aとは異なる概略図である。
【
図7c】モード順序付けがニューラルネットワークを使用して制御されない点で
図7bとは異なる概略図である。
【
図7d】モード信号伝達におけるニューラルネットワーク支援がモード順序付けではなくエントロピーエンコード/デコードにおける確率分布推定の制御に使用される点で、
図7aとは異なる概略図である。
【
図8】一実施形態によるニューラルネットワークベースイントラ予測モードの集合を設計するための装置を示す図である。
【
図9a】ニューラルネットワークベースであるか否かにかかわらずサポートされたイントラ予測モードを順序付けるためにニューラルネットワークが使用される実施形態による、エンコーダおよびデコーダの動作モードを示す概略図である。
【
図9b】サポートされたイントラ予測モードの集合へのインデックスのエントロピーデコード/エンコードの確率分布推定を制御するためにニューラルネットワークベースが使用される点で、
図9aとは異なる概略図である。
【
図10】一実施形態によるブロック単位の画像符号化のためにイントラ予測モードの集合の中から支援および選択するためのニューラルネットワークを設計するための装置を示す図である。
【発明を実施するための形態】
【0011】
以下、イントラ予測を使用するときのより効果的な圧縮の実現を支援する様々な実施形態が記載される。いくつかの実施形態は、ニューラルネットワークベースのイントラ予測モードの集合を費やすことによって圧縮効率の増加を実現する。後者のものは、たとえばヒューリスティックに設計された別のイントラ予測モードに追加されてもよく、または排他的に提供されてもよい。別の実施形態は、複数のイントラ予測モード間の選択を実行するために、ニューラルネットワークを使用する。そしてさらに別の実施形態は、今議論されたばかりの特徴の両方を利用する。
【0012】
本出願の以下の実施形態の理解を容易にするために、後に概説される本出願の実施形態が組み込まれる、可能なエンコーダおよびこれに適合するデコーダの提示から、説明を始める。
図1は、画像10をデータストリーム12にブロック単位でエンコードするための装置を示す。装置は、参照符号14を使用して示されており、静止画像エンコーダまたはビデオエンコーダであり得る。言い換えると、画像10は、エンコーダ14が、画像10を含むビデオ16をデータストリーム12にエンコードするように構成されているときにビデオ16からの現在の画像であってもよく、またはエンコーダ14が画像10をデータストリーム12に排他的にエンコードしてもよい。
【0013】
前述のように、エンコーダ14は、ブロック単位で、またはブロックベースで、エンコードを実行する。これに対して、エンコーダ14は画像10をブロックに細分し、この単位でエンコーダ14は画像10をデータストリーム12にエンコードする。画像10のブロック18への可能な細分化の例は、以下により詳細に明記される。一般に、細分化は、一定サイズのブロック18となる可能性があり、これは行および列に配置されたブロックのアレイを示唆しており、または画像10の画像領域全体または画像10の予備分割からツリーブロックのアレイへのマルチツリー細分化を開始する階層的マルチツリー細分化の使用などによって異なるブロックサイズのブロック18となる可能性もあるが、これらの例は、画像10をブロック18に細分化する他の可能な方法を除外するように扱われるものではない。
【0014】
さらに、エンコーダ14は、画像10を予測的にデータストリーム12にエンコードするように構成された予測エンコーダである。特定のブロック18では、これは、エンコーダ14がブロック18の予測信号を決定して、予測残差、すなわち予測信号がブロック18内の実際の画像コンテンツから逸脱する予測残差を、データストリーム12にエンコードすることを意味する。
【0015】
エンコーダ14は、特定のブロック18の予測信号を導出するように異なる予測モードをサポートし得る。以下の実施形態において重要となる予測モードは、ブロック18の内部が画像10の隣接する既にエンコードされたサンプルから空間的に予測される、イントラ予測モードである。画像10のデータストリーム12へのエンコード、および相応に対応するデコード手順は、ブロック18の間で定義された特定の符号化順序20に基づくことができる。たとえば、符号化順序20は、たとえば左から右へ各行を横断して上から下まで行単位などのラスタ走査順序でブロック18を横断してもよい。階層的マルチツリーベースの細分化の場合、ラスタ走査順序は各階層レベル内で適用されてもよく、ここで深さ優先横断順序が適用されてもよく、すなわち特定の階層レベルのブロック内のリーフノートが、符号化順序20にしたがって同じ親ブロックを有する同じ階層レベルのブロックに先行してもよい。符号化順序20に応じて、ブロック18の隣接する既にエンコードされたサンプルは、通常、ブロック18の1つ以上の側に配置され得る。本明細書に提示される例の場合、たとえば、ブロック18の隣接する既にエンコードされたサンプルは、ブロック18の上に、および左に配置されている。
【0016】
イントラ予測モードは、エンコーダ14によってサポートされる唯一のものでなくてもよい。たとえば、エンコーダ14がビデオエンコーダである場合、エンコーダ14はまた、ビデオ16の以前にエンコードされた画像からブロック18が一時的に予測されるイントラ予測モードもサポートし得る。このようなイントラ予測モードは動き補償予測モードであってもよく、これにしたがって、ブロック18の予測信号が複製として導出される部分の相対空間オフセットを示すこのようなブロック18について、動きベクトルが通知される。加えて、または代わりに、エンコーダ14がマルチビューエンコーダである場合のインタービュー予測モード、またはブロック18の内部がそのまま、すなわちいかなる予測もなしに符号化される非予測モードなど、その他の非イントラ予測モードもまた利用可能であり得る。
【0017】
本出願の説明の焦点をイントラ予測モードに合わせることから始める前に、
図2に関連して記載されるように、可能なブロックベースのエンコーダ、すなわちエンコーダ14の可能な実装の、より具体的な実施形態であり、次いでそれぞれ
図1および
図2に適合するデコーダの2つの対応する実施形態を提示する。
【0018】
図2は、
図1のエンコーダ14の可能な実装、すなわち、これはほぼ一例であって本出願はこの種の予測残差符号化に限定されないものの、エンコーダが予測残差をエンコードするための変換符号化を使用するように構成されているものを示す。
図2によれば、エンコーダ14は、その後予測残差エンコーダ28によってデータストリーム12にエンコードされる予測残差信号26を取得するように、インバウンド信号、すなわち画像10、またはブロックベースで現在のブロック18から対応する予測信号24を減算するように構成された、減算器22を備える。予測残差エンコーダ28は、非可逆符号化段28aおよび可逆符号化段28bから構成される。非可逆段28aは、予測残差信号26を受信し、予測残差信号26のサンプルを量子化する量子化器30を備える。既に上記で述べられたように、本例は、予測残差信号26の変換符号化を使用し、したがって、非可逆符号化段28aは、残差信号26を表す変換された係数で行われる量子化器30の量子化でこのようなスペクトル分解予測残差26を変換するように、減算器22と量子化器30との間に接続された変換段32を備える。変換は、DCT、DST、FFT、アダマール変換などであり得る。次に、変換および量子化された予測残差信号34は、量子化された予測残差信号34をデータストリーム12にエントロピー符号化するエントロピーコーダである可逆符号化段28bによって、可逆符号化を受ける。エンコーダ14は、変換および量子化された予測残差信号34から予測残差信号をデコーダでも利用可能な方法で再構成するように、量子化器30の出力に接続された予測残差信号再構成段36をさらに備え、すなわち符号化損失は量子化器30であることを考慮している。この目的のため、予測残差再構成段36は、量子化器30の量子化の逆を実行する逆量子化器38を備え、上述の特定の変換例のいずれかの逆などのスペクトル分解の逆など、変換器32によって実行される変換に対する逆変換を実行する逆変換器40がこれに続く。エンコーダ14は、再構成された信号すなわち再構成例を出力するように、逆変換器40による出力として再構成された予測残差信号および予測信号24を加算する加算器42を備える。この出力は、後にこれに基づいて予測信号24を決定するエンコーダ14の予測器44に供給される。
図1に関して既に上記で論じられた全ての予測モードをサポートするのは、予測器44である。
図2はまた、エンコーダ14がビデオエンコーダである場合に、エンコーダ14はまた、フィルタリングされた後にインター予測ブロックに対して予測器44の基準画像を形成する完全に再構成された画像をフィルタリングするインループフィルタ46も備え得ることを示している。
【0019】
既に上述したように、エンコーダ14はブロックベースで動作する。後続の説明では、対象のブロックベースは、画像10をブロックに細分するものであり、このために、イントラ予測モードは、それぞれ予測器44またはエンコーダ14によってサポートされた集合または複数のイントラ予測モードから選択され、選択されたイントラ予測モードが個別に実行される。しかしながら、画像10が細分される他の種類のブロックもまた存在し得る。たとえば、画像10がインター符号化されるかイントラ符号化されるかという上述の決定は、ブロック18から逸脱する粒度またはブロックの単位で行われてもよい。たとえば、インター/イントラモード決定は、画像10が細分される符号化ブロックのレベルで実行されてもよく、各符号化ブロックは予測ブロックに細分される。イントラ予測が使用されると決定されたエンコードブロックを有する予測ブロックは、イントラ予測モード決定に各々細分される。これに対して、これらの予測ブロックの各々について、どのサポートされたイントラ予測モードがそれぞれの予測ブロックに使用されるべきかが決定される。これらの予測ブロックは、ここで対象となるブロック18を形成する。インター予測に関連付けられた符号化ブロック内の予測ブロックは、予測器44によって異なる扱い方をされる。これらは、動きベクトルを決定し、動きベクトルが指す基準画像内の場所からこのブロックの予測信号を複製することによって、基準画像からインター予測される。別のブロック細分化は、変換器32および逆変換器40による変換が実行される単位での変換ブロックへの細分化に関する。変換されたブロックは、たとえば、符号化ブロックをさらに細分化した結果であり得る。当然ながら、本明細書に明記される例は限定的なものとして扱われるべきではなく、他の例もまた存在する。完全性のためにのみ、符号化ブロックへの細分化は、たとえばマルチツリー細分化を使用してもよく、予測ブロックおよび/または変換ブロックは、やはりマルチツリー細分化を使用して符号化ブロックをさらに細分化することによって得られることに、留意する。
【0020】
図1のエンコーダ14に適合するブロック単位デコードのためのデコーダまたは装置が、
図3に示されている。このデコーダ54はエンコーダ14の逆を行い、すなわちこれはデータストリーム12からブロック単位で画像10をデコードし、この目的のために、複数のイントラ予測モードをサポートする。
図1に関して上記で論じられたその他全ての可能性は、デコーダ54に対しても有効である。これに対して、デコーダ54は、静止画像デコーダまたはビデオデコーダであってもよく、全ての予測モードおよび予測可能性もまた、デコーダ54によってサポートされる。エンコーダ14とデコーダ54との違いは主に、たとえば、符号化レートおよび/または符号化歪みに依存し得る何らかのコスト関数を最小化するために、何らかの最適化の示唆にしたがってエンコーダ14が符号化決定を選ぶまたは選択するという事実にある。これらの符号化オプションまたは符号化パラメータの1つは、利用可能またはサポートされたイントラ予測モードの中で現在のブロック18に使用すべきイントラ予測モードの選択を含み得る。次に、選択されたイントラ予測モードは、データストリーム12内の現在のブロック18についてエンコーダ14によって通知されてもよく、デコーダ54はブロック18についてデータストリーム12内のこの信号伝達を使用して選択をやり直す。同様に、ブロック18への画像10の細分化は、エンコーダ14内で最適化を受けてもよく、対応する細分化情報はデータストリーム12内で搬送され、デコーダ54は細分化情報に基づいてブロック18への画像10の細分化を回復してもよい。上記を要約すると、デコーダ54はブロックベースで動作する予測デコーダであってもよく、イントラ予測モードに加えて、デコーダ54は、たとえばデコーダ54がビデオデコーダである場合、インター予測モードなどの別の予測モードをサポートしてもよい。デコードにおいて、デコーダ54はまた、
図1に関して上記で論じられた符号化順序20を使用してもよく、この符号化順序20はエンコーダ14およびデコーダ54の両方で従われるので、エンコーダ14およびデコーダ54の両方で同じ隣接サンプルが現在のブロック18に利用可能である。したがって、不要な繰り返しを回避するために、画像10のブロックへの細分化に関する限り、たとえば予測に関する限り、および予測残差の符号化に関する限り、エンコーダ14の動作モードの説明がデコーダ54にも適用される。違いは、エンコーダ14が最適化によっていくつかの符号化オプションまたは符号化パラメータを選択して、データストリーム12内で、またはデータストリーム12内に、符号化パラメータを通知または挿入し、これはその後、予測、細分化などをやり直すように、デコーダ54によってデータストリーム12から導出される、という事実にある。
【0021】
図4は、
図3のデコーダ54の可能な実装、すなわち
図2に示されるような
図1のエンコーダ14の実装に適合するものを示す。
図4のエンコーダ54の多くの要素は
図2の対応するエンコーダで生じるものと同じなので、これらの要素を示すために、
図4ではアポストロフィを付けた同じ参照符号が使用される。特に、加算器42’、オプションのインループフィルタ46’、および予測器44’は、
図2のエンコーダと同じ方法で予測ループ内に接続される。追加42’に適用される、再構成、すなわち逆量子化および再変換された予測残差信号は、エントロピーエンコーダ28bのエントロピー符号化を逆転するエントロピーデコーダ56のシーケンスによって導出され、エンコード側の場合とまったく同じように、逆量子化器38’および逆変換器40’から構成された残差信号再構成段36’がこれに続く。デコーダの出力は、画像10の再構成である。画像10の再構成は、加算器42’の出力で、または代わりにインループフィルタ46’の出力で、直接利用可能であり得る。画質を改善するために画像10の再構成に何らかのポストフィルタリングを施すために、デコーダの出力に何らかのポストフィルタが配置されてもよいが、このオプションは
図4に示されていない。
【0022】
繰り返すが、
図4に関して、
図2に関して上記で述べられた説明は、エンコーダのみが符号化オプションに関して最適化タスクおよび関連する決定を実行することを除き、
図4にも適用される。しかしながら、ブロック細分化、予測、逆量子化、および再変換に関する全ての説明もまた、
図4のデコーダ54に適用される。
【0023】
本出願の可能な実施形態の説明を進める前に、上記の例に関していくつかの注記が行われる。上記では明示的に述べられていないが、ブロック18がいずれの形状を有してもよいことは明白である。これはたとえば、長方形または二次形状であってもよい。また、エンコーダ14およびデコーダ54の動作モードの上記説明はしばしば「現在のブロック」18に言及するものの、イントラ予測モードが選択される各ブロックについてエンコーダ14およびデコーダ54が相応に動作することは、明白である。上述のように、他のブロックもあってもよいが、以下の説明は、イントラ予測モードが選択される、画像10が細分されるこれらのブロック18に焦点を当てる。
【0024】
イントラ予測モードが選択される特定のブロック18の状況を要約するために、
図5が参照される。
図5は、現在のブロック18、すなわち現在エンコードまたはデコードされているブロックを示す。
図5は、隣接サンプル62、すなわち空間的に隣接するブロック18を有するサンプル62の集合60を示す。ブロック18内のサンプル64は、予測されるべきである。したがって、導出される予測信号は、ブロック18内の各サンプル64の予測である。既に上記で論じられたように、各ブロック18について複数66の予測モードが利用可能であり、ブロック18がイントラ予測される場合、この複数66のモードは単にインター予測モードを備える。隣接サンプル集合60に基づいてブロック18の予測信号を予測71するために使用される複数66からイントラ予測モードの1つを決定するために、エンコーダ側およびデコーダ側で選択68が実行される。以下でさらに説明される実施形態は、利用可能なイントラ予測モード66に関して異なっており、選択68に関する動作モードは、たとえば、ブロック18に関する選択68に関してデータストリーム12内でサイド情報が設定されるか否かを示唆する。しかしながら、これらの実施形態の説明は、数学的な詳細を提供する具体的説明から始まる。この最初の実施形態によれば、イントラ予測される特定のブロック18の選択は、対応するサイド情報信号伝達70およびデータストリームに関連付けられており、複数66のイントラ予測モードは、ニューラルネットワークベースイントラ予測モードの集合72ならびにヒューリスティック設計のさらなるイントラ予測モードの集合74を備える。モード74のイントラ予測モードの1つは、たとえば、いくつかの平均値が隣接サンプル集合60に基づいて決定されてこの平均値がブロック18内の全てのサンプル64に割り当てられる、DC予測モードであってもよい。加えて、または代わりに、集合74は、角度インター予測モードと呼ばれ得るインター予測モードを備えてもよく、これにしたがって、隣接サンプル集合60のサンプル値は特定のイントラ予測方向に沿ってブロック18内に複製され、このイントラ予測方向は、このような角度イントラ予測モード間で異なる。
図5は、データストリーム12が、複数66のイントラ予測モードからの選択68に関して任意選択的に存在するサイド情報70に加えて、上記で論じられたように、符号化でエンコードされた予測残差が変換ドメインにおける量子化を伴う変換符号化を任意選択的に含む部分76を備えることを、示している。
【0025】
特に、本出願の特定の実施形態の以下の説明の理解を容易にするために、
図6は、エンコーダおよびデコーダにおけるイントラ予測ブロックの一般的な動作モードを示す。
図6は、それに基づいてイントラ予測が実行される隣接サンプル集合60と共に、ブロック18を示す。なお、この集合60は、濃度、すなわちブロック18の予測信号を決定するためのそれぞれのイントラ予測モードにしたがって実際に使用される集合60のサンプルの数に関して、複数66のイントラ予測モードのイントラ予測モード間で異なる可能性があることに、留意すべきである。しかしながら、理解を容易にするために、これは
図6には示されていない。
図6は、エンコーダおよびデコーダが、集合72のニューラルネットワークベースイントラ予測モードの各々について1つのニューラルネットワーク80
0から80
KB−1を有することを示している。集合60は、集合72の間で対応するイントラ予測モードを導出するように、それぞれのニューラルネットワークに適用される。これに加えて、
図6は、入力、すなわち隣接サンプルの集合60に基づいて、集合74の1つ以上のイントラ予測モードの1つ以上の予測信号、たとえばDCモード予測信号および/または角度イントラ予測モード予測信号を提供するものとして、1つのブロック82をむしろ代表的に示す。以下の説明は、i=0…K
B−1を有するニューラルネットワーク80
iのパラメータがどのようにして有利に決定され得るかについて示す。以下に明記される特定の実施形態はまた、集合60と一致してもしなくてもよい隣接サンプルの集合86に基づいて、集合72の各ニューラルネットワークベースイントラ予測モードの確率値を提供するための専用の別のニューラルネットワーク84を、エンコーダおよびデコーダに提供する。ニューラルネットワーク84がモード選択のためのサイド情報70をより効果的にするのを支援するときにこのように提供される確率値。たとえば、以下に説明される実施形態では、イントラ予測モードのうちの1つを指すために可変長コードが使用され、少なくとも集合72に関する限り、ニューラルネットワーク84によって提供された確率値は、集合72内のニューラルネットワークベースイントラ予測モードのためのニューラルネットワーク84によって出力された確率値にしたがって順序付けられたイントラ予測モードの順序リストへのインデックスとして、サイド情報70内の可変長コードを使用できるようにし、これによりサイド情報70の符号化率を最適化または低下させることが、想定される。これに対して、
図6に示されるように、モード選択68は、さらなるニューラルネットワーク84によって提供される確率値、ならびにデータストリーム12内のサイド情報70の両方に基づいて、効果的に実行される。
【0026】
1.イントラ予測を実行するニューラルネットワークのパラメータをトレーニングするアルゴリズム
[この文献は図面を表示できません]
をビデオフレームのブロック、すなわちブロック18とする。
[この文献は図面を表示できません]
は
[この文献は図面を表示できません]
個のピクセルを有すると仮定する。固定色成分では、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
のビデオ信号のコンテンツとする。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の要素と見なす。
[この文献は図面を表示できません]
個のピクセルを有し、既に再構成された画像
[この文献は図面を表示できません]
が入手可能な
[この文献は図面を表示できません]
の近傍
[この文献は図面を表示できません]
、すなわちサンプル集合60および86が存在すると仮定するが、これらはあるいは異なってもよい。イントラ予測関数とは、関数
[この文献は図面を表示できません]
を意味する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の予測器と見なす。
【0027】
次に説明されるのは、データ駆動型の最適化アプローチを介して、典型的なハイブリッドビデオ符号化規格、すなわち集合72で生じる可能性のあるいくつかのブロック
[この文献は図面を表示できません]
のイントラ予測関数を設計するためのアルゴリズムである。この目標を達成するために、以下の主要な設計上の特徴を考慮した。
【0028】
1.実施する最適化アルゴリズムにおいて、予測残差を通知するために費やすと予想できるビット数を特に含むコスト関数の適切な近似値を使用したい。
【0029】
2.異なる信号特性を処理できるようにするために、いくつかのイントラ予測を共同でトレーニングしたい。
【0030】
3.イントラ予測をトレーニングするとき、どのイントラモードが使用されるべきかを通知する必要があるビット数を考慮しなければならない。
【0031】
4.既に定義されたイントラ予測、たとえばHEVCイントラ予測の集合を維持し、補完的予測として我々の予測をトレーニングしたい。
【0032】
5.典型的なハイブリッドビデオ符号化規格は通常、所与のブロック
[この文献は図面を表示できません]
が分割され得るいくつかのブロック形状をサポートする。
【0033】
次の4つのセクションでは、これらの要件の各々にどのように対処し得るかが説明される可能性がある。より正確には、セクション1.1では、最初のアイテムにどのように対処するかを説明する。セクション1.2では、アイテム2から3をどのように処理するかが説明される。セクション1.4では、アイテム4をどのように考慮するかが説明される。最後に、セクション1.5では、最後のアイテムにどのように対処するかが説明される。
【0034】
1.1 ビデオコーデックのレート関数に近似する損失関数をトレーニングするためのアルゴリズム
ビデオコーデックで使用される既知のパラメータを決定するためのデータ駆動型のアプローチは、通常、トレーニング例の所与の集合に対する所定の損失関数を最小化しようとする最適化アルゴリズムとして設定される。通常、数値最適化アルゴリズムが実際に機能するために、後者の損失関数は、いくつかの平滑度要件を満たすべきである。
【0035】
一方、HEVCのようなビデオエンコーダは、レート歪みコスト
[この文献は図面を表示できません]
を最小化することによって決定を行うときに最適に機能する。ここで、
[この文献は図面を表示できません]
はデコードされたビデオ信号であり、
[この文献は図面を表示できません]
はレート、すなわちビデオ信号を符号化するために必要なビット数である。また、
[この文献は図面を表示できません]
は、選択された量子化パラメータに依存するラグランジュパラメータである。
【0036】
真の関数
[この文献は図面を表示できません]
は、典型的には非常に複雑であり、データ駆動型の最適化アルゴリズムに供給できる閉じた式では与えられない。したがって、関数
[この文献は図面を表示できません]
全体、または少なくともレート関数
[この文献は図面を表示できません]
のいずれかを、区分ごとの平滑な関数によって近似させる。
【0037】
より正確には、以前のように、
[この文献は図面を表示できません]
をビデオフレーム10の所与のブロック1/とし、
[この文献は図面を表示できません]
を固定色成分中の
[この文献は図面を表示できません]
における対応するビデオ信号とする。
[この文献は図面を表示できません]
は
[この文献は図面を表示できません]
個のピクセルを有すると仮定する。次に、予測候補
[この文献は図面を表示できません]
について、予測残差
[この文献は図面を表示できません]
を検討する。所与の量子化パラメータおよび所与の変換について、
[この文献は図面を表示できません]
を、真のビデオエンコーダが
[この文献は図面を表示できません]
の量子化変換を通知するために必要なレートとする。また、
[この文献は図面を表示できません]
を、
[この文献は図面を表示できません]
の逆量子化および逆変換によって生じる再構成誤差とする。次に、
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
の適切な近似値として機能し、
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
の適切な近似値として機能するように、区分ごとに平滑な関数
[この文献は図面を表示できません]
を決定したい。
【0038】
何らかの
[この文献は図面を表示できません]
を固定し、所定の「アーキテクチャ」、すなわち区分ごとの平滑な関数
[この文献は図面を表示できません]
を固定し、次いで
[この文献は図面を表示できません]
を求めて、関数
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
としてモデル化する。
【0039】
重み
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
を決定するために、所与のハイブリッドビデオ符号化規格を使用する典型的なエンコーダ上で、予測残差
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、および対応するレート歪み値
[この文献は図面を表示できません]
のトレーニング例の巨大な集合を収集するが、それぞれ何らかの有限な大きいインデックス集合
[この文献は図面を表示できません]
のレート値
[この文献は図面を表示できません]
に過ぎない。次に、以下の式を最小化または少なくとも小さくするように、
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
を見出そうとする。
[この文献は図面を表示できません]
このタスクでは、通常、(確率的)勾配降下アプローチを使用する。
【0040】
1.2 固定ブロック形状の予測のトレーニング
このセクションでは、所与のブロック
[この文献は図面を表示できません]
18、st72のもの、および既に再構成されたサンプルの領域
[この文献は図面を表示できません]
60の
[この文献は図面を表示できません]
イントラ予測を設計するために設定するアルゴリズムについて説明する。
【0041】
我々の予測の所定の「アーキテクチャ」が与えられていると仮定する。これは、何らかの固定の
[この文献は図面を表示できません]
について、関数
[この文献は図面を表示できません]
(1)
が与えられること、および「重み」
[この文献は図面を表示できません]
を決定したいことを意味し、こうして
[この文献は図面を表示できません]
としてイントラ予測が与えられ、ここで
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
(2)
とする。
【0042】
以下のセクションで、この点について詳細を述べる。(2)の関数は、
図6のニューラルネットワーク80
0〜80
KB−1を定義する。
【0043】
次に、以下の第2パラメータ依存関数を使用して設計しようとしているイントラモードの信号伝達コストをモデル化する。
[この文献は図面を表示できません]
(3)
ここでも、
[この文献は図面を表示できません]
について、以下によって
[この文献は図面を表示できません]
を定義する。
[この文献は図面を表示できません]
(4)
再びセクション1.3で、
図6のニューラルネットワーク84を表す(4)の関数が例に与えられる。
【0044】
以下の関数が与えられると仮定する。
[この文献は図面を表示できません]
この関数は、たとえば、サイド情報70に使用されるVLCコード長分布、すなわちサイド情報70によって集合72のcad ponite moreに関連付けられたコード長を定義する。
【0045】
次に、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
によって定義する。
【0046】
とりあえず、
[この文献は図面を表示できません]
の
[この文献は図面を表示できません]
番目の成分
[この文献は図面を表示できません]
は、トレーニングする
[この文献は図面を表示できません]
番目のイントラモードを通知するために必要とされるビット数をモデル化する。
[この文献は図面を表示できません]
がセクション2.1で定義される関数である場合、所与の
[この文献は図面を表示できません]
、再構成画像
[この文献は図面を表示できません]
、および元の画像
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
により、最小の
[この文献は図面を表示できません]
を表し、その特性は全ての
[この文献は図面を表示できません]
に対して
[この文献は図面を表示できません]
とする。
[この文献は図面を表示できません]
はイントラモードの信号伝達の真のビット数をモデル化するので、その勾配はゼロもしくは未定義である。したがって、
[この文献は図面を表示できません]
のみでは、勾配降下ベースのアルゴリズムを介して重み
[この文献は図面を表示できません]
を最適化するのに十分ではない。したがって、ソフトマックス関数を使用して関数
[この文献は図面を表示できません]
を確率分布に変換することによって、イントラモードの交差エントロピーも呼び出す。後者の関数の定義を思い出す。
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
に
[この文献は図面を表示できません]
のi番目の成分を示させる。次に、ソフトマックス関数
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
として定義される。
【0047】
勾配の更新では、後者の確率分布に対して、残差のレートとモード
[この文献は図面を表示できません]
の交差エントロピーとの合計を最小化しようと試みる。したがって、ブロック
[この文献は図面を表示できません]
の損失関数
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
[この文献は図面を表示できません]
(5)
として定義し、ここで
[この文献は図面を表示できません]
である。
【0048】
(5)の損失関数が与えられると、データ駆動型の最適化によって重み
[この文献は図面を表示できません]
を決定する。したがって、有限な大きいインデックス集合
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
での画像
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
での対応する再構成画像
[この文献は図面を表示できません]
のトレーニング例の集合
[この文献は図面を表示できません]
が与えられた場合、式
[この文献は図面を表示できません]
(6)
を最小化する重み
[この文献は図面を表示できません]
を見つけるために、たとえば(確率的)勾配降下法に基づいて、最適化アルゴリズムを適用する。
【0049】
1.3 関数
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
の仕様
このセクションでは、関数
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
の形式をより正確に定義する。繰り返しになるが、ニューラルネットワーク80および84を定義するものがあることを思い出して欲しい。これらの関数の各々は、1)アフィン変換
[この文献は図面を表示できません]
または2)非線形活性化関数
[この文献は図面を表示できません]
のいずれかである関数の構成物のシーケンスからなる。
【0050】
アフィン変換
[この文献は図面を表示できません]
とは、
[この文献は図面を表示できません]
の形式のマップを意味し、ここで
[この文献は図面を表示できません]
は線形変換であり、すなわち全ての
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
を満たし、
[この文献は図面を表示できません]
である。各線形マップ
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
の行列によって完全に決定され、すなわちベクトル
[この文献は図面を表示できません]
に一意に対応する。したがって、各アフィン関数
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
の重みによって、すなわちベクトル
[この文献は図面を表示できません]
によって、完全に決定される。各
[この文献は図面を表示できません]
について、前述の方法で
[この文献は図面を表示できません]
に対応する一意のアフィン変換について
[この文献は図面を表示できません]
を記述するものとする。
【0051】
非線形活性化関数
[この文献は図面を表示できません]
とは、
[この文献は図面を表示できません]
の形式の関数を意味する。
【0052】
ここで、
[この文献は図面を表示できません]
は
[この文献は図面を表示できません]
の
[この文献は図面を表示できません]
番目の成分を示し、
[この文献は図面を表示できません]
は
[この文献は図面を表示できません]
の
[この文献は図面を表示できません]
番目の成分を示す。最後に、
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
(7)
の形式、または
[この文献は図面を表示できません]
(8)
の形式であってもよいが、ただしこれらの例は、本出願の実施形態をこれらの明示的な例に限定するように解釈されるべきではない。
[この文献は図面を表示できません]
またはその他いずれかの非線形関数などのその他の式も使用され得る。あるいは、たとえば
[この文献は図面を表示できません]
は区分ごとの平滑な関数であってもよい。
【0053】
これで、関数
[この文献は図面を表示できません]
は以下のようになる。固定の
[この文献は図面を表示できません]
では、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
を用いる
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
が与えられるので、
[この文献は図面を表示できません]
となる。
【0054】
ここで、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、および
[この文献は図面を表示できません]
は(1)の通りである。次に、
[この文献は図面を表示できません]
を用いる
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
を定義する。
【0055】
したがって、
[この文献は図面を表示できません]
は、パラメータ
[この文献は図面を表示できません]
を使用してパラメータ化されたニューラルネットワーク80
iを記述する。これは、本例ではシーケンス内で交互に適用される、線形関数
[この文献は図面を表示できません]
および非線形関数
[この文献は図面を表示できません]
のシーケンスであり、パラメータ
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
の線形関数の重みを備える。線形関数
[この文献は図面を表示できません]
および非線形関数
[この文献は図面を表示できません]
のシーケンスでは、線形関数
[この文献は図面を表示できません]
とこれに続く非線形関数
[この文献は図面を表示できません]
のペアは、たとえばj番目の層などのニューロン層を表し、ニューラルネットワークのフィードフォワード方向でこのニューロン層jに先行する先行ノードの数は、
[この文献は図面を表示できません]
の次元mによって決定され、
[この文献は図面を表示できません]
の列の数およびニューロン層j自体のニューロンの数は、
[この文献は図面を表示できません]
の次元n、その行の数によって決定される。
[この文献は図面を表示できません]
の各行は、それぞれ信号強度に関して制御する重みを組み込み、m個の先行ニューロンの各々の活性化は、それぞれの行に対応するニューロン層jのそれぞれのニューロンに転送される。
[この文献は図面を表示できません]
は、ニューロン層jの各ニューロンについて、それ自身の活性化への転送された先行ニューロン活性化のその線形結合の非線形マッピングを制御する。上記の例では、このようなニューロン層が
[この文献は図面を表示できません]
個ある。層ごとのニューロンの数は異なってもよい。ニューロン層の数
[この文献は図面を表示できません]
は、様々なニューラルネットワーク80
jの間で、すなわち異なるjに対して、異なってもよい。なお、非線形関数は、ニューロン層ごとに、もしくはニューロンごとに、あるいはその他何らかの単位で、異なってもよいことに留意する。
【0056】
同様に、関数
[この文献は図面を表示できません]
は以下のようになる。固定の
[この文献は図面を表示できません]
では、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
を用いる
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
が与えられるので、
[この文献は図面を表示できません]
となる。
【0057】
ここで、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、および
[この文献は図面を表示できません]
は(3)の通りである。次に、
[この文献は図面を表示できません]
を用いる
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
を定義する。
【0058】
したがって、
[この文献は図面を表示できません]
は、パラメータ
[この文献は図面を表示できません]
を使用してパラメータ化されたニューラルネットワーク84を記述する。これは、予測信号計算に関してニューロン層について上記で説明したように、線形関数
[この文献は図面を表示できません]
および非線形関数
[この文献は図面を表示できません]
のシーケンスとなる。ニューラルネットワーク84のニューロン層の数
[この文献は図面を表示できません]
は、ニューラルネットワーク80
iのニューロン層の数
[この文献は図面を表示できません]
の1つ以上とは異なり得る。
【0059】
1.4 既存の予測を考慮に入れたトレーニング
既に存在するイントラ予測を補完する予測をトレーニングできるように、前のセクションのアルゴリズムを拡張する。
【0060】
つまり、
[この文献は図面を表示できません]
を、既に利用可能な固定されたイントラ予測関数の集合とする。たとえば、
[この文献は図面を表示できません]
は、HEVCのDC予測または平面予測、およびHEVCにしたがって定義された角度予測から構成され得る。これら全ての予測はまた、再構成されたサンプルの予備的な平滑化も含み得る。また、関数
[この文献は図面を表示できません]
が与えられ、これにより、
[この文献は図面を表示できません]
は、元の画像
[この文献は図面を表示できません]
に与えられた
[この文献は図面を表示できません]
に適用される
[この文献は図面を表示できません]
番目のイントラ予測関数
[この文献は図面を表示できません]
の損失をモデル化する。
【0061】
次に、損失関数を、(5)から以下の損失関数に拡張する。
[この文献は図面を表示できません]
(9)
[この文献は図面を表示できません]
前のセクションの終わりからの注記を維持して、トレーニング例の大きい集合における
[この文献は図面を表示できません]
(10)
を最小化することによって、重み
[この文献は図面を表示できません]
を決定する。
【0062】
この目的のため、通常は最初に(6)を最適化することによって重みを見出し、次いで(10)を最適化する重みを見出すためにこれらの重みで初期化する。
【0063】
1.5 いくつかのブロック形状の予測の共同トレーニング
このセクションでは、典型的なビデオ符号化規格で、様々な方法でブロックをより小さいサブブロックに分割し、より小さいサブブロックに対してイントラ予測を実行することが通常は可能であることを、予測のトレーニングにおいてどのように考慮するかを説明した。
【0064】
つまり、何らかの
[この文献は図面を表示できません]
について、各
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
に隣接するように、許容可能なブロック
[この文献は図面を表示できません]
の集合
[この文献は図面を表示できません]
が、領域
[この文献は図面を表示できません]
の集合と共に与えられると仮定する。通常、
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
の左および上の2つの長方形の和集合である。
【0065】
各
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
となるように、ブロック
[この文献は図面を表示できません]
が存在すると仮定する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
のべき集合とする。次に、
[この文献は図面を表示できません]
について、集合
[この文献は図面を表示できません]
が与えられ、このため各
[この文献は図面を表示できません]
についてブロック
[この文献は図面を表示できません]
が直和
[この文献は図面を表示できません]
として記述され得ると仮定する。
【0066】
所与の色成分について、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の画像とし、限定により、これを各
[この文献は図面を表示できません]
に対する
[この文献は図面を表示できません]
の画像
[この文献は図面を表示できません]
と見なす。また、
[この文献は図面を表示できません]
の再構成画像
[この文献は図面を表示できません]
が存在し、限定により、これを各
[この文献は図面を表示できません]
に対する
[この文献は図面を表示できません]
の画像
[この文献は図面を表示できません]
と見なすと仮定する。
【0067】
セクション1.2の注記を維持して、各
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
個のイントラ予測関数
[この文献は図面を表示できません]
の重みの集合として
[この文献は図面を表示できません]
を求め、モード予測関数
[この文献は図面を表示できません]
の重みとして
[この文献は図面を表示できません]
を求める。全ての
[この文献は図面を表示できません]
について、これらの重みを以下のようにまとめて決定する。
[この文献は図面を表示できません]
および重み
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
の所与の集合について、
[この文献は図面を表示できません]
とする。
【0068】
また、
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
として定義する。
【0069】
セクション1.4と同様に、各
[この文献は図面を表示できません]
について、イントラ予測関数の空の可能性のある集合
[この文献は図面を表示できません]
が利用可能であると仮定する。
[この文献は図面を表示できません]
とする。
【0070】
次に、損失関数
[この文献は図面を表示できません]
を以下のように定義する。集合を含めることにより、集合
[この文献は図面を表示できません]
に対して順序付け
[この文献は図面を表示できません]
を行う。
[この文献は図面を表示できません]
を、
[この文献は図面を表示できません]
内の全ての極小元の集合とする。
[この文献は図面を表示できません]
について、
[この文献は図面を表示できません]
とし、ここで後者の関数は(9)と同様である。
【0071】
次に、
[この文献は図面を表示できません]
とし、
[この文献は図面を表示できません]
は全ての
[この文献は図面を表示できません]
について既に
[この文献は図面を表示できません]
で定義されていると仮定する。
【0072】
次に、
[この文献は図面を表示できません]
[この文献は図面を表示できません]
を定義する。
【0073】
最後に、
[この文献は図面を表示できません]
の画像
[この文献は図面を表示できません]
のトレーニング例の固定集合
[この文献は図面を表示できません]
と仮定して、
[この文献は図面を表示できません]
を最小化するかまたは少なくとも小さくすることによって、
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
を決定する。
【0074】
通常、最初に各
[この文献は図面を表示できません]
について個別に(9)を最小化することによって、重み
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
を初期化する。
【0075】
2 ビデオコーデックへのトレーニング済みニューラルネットワークの統合
所与の色成分について、所与のブロック
[この文献は図面を表示できません]
のビデオ信号のコンテンツがデコーダによって生成される、ハイブリッドビデオ符号化規格を検討する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
のピクセル数とする。また、デコーダが自由に
[この文献は図面を表示できません]
の再構成画像
[この文献は図面を表示できません]
を有するように、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の固定された近傍とする。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
のピクセル数とする。次に、
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
の要素と見なす。コーデックは、現在のブロック
[この文献は図面を表示できません]
10に対する予測符号化によって動作すると仮定する。次に、
[この文献は図面を表示できません]
の要素と見なす
[この文献は図面を表示できません]
の予測信号
[この文献は図面を表示できません]
を生成するためにデコーダが実行できる以下のステップの著作権を主張する。
【0076】
1.デコーダは、固定数
[この文献は図面を表示できません]
、関数
[この文献は図面を表示できません]
、すなわち84、ならびに重み
[この文献は図面を表示できません]
および重み
[この文献は図面を表示できません]
を自由に有し、後者の重みは、前のセクションで説明されたトレーニングアルゴリズムによって事前に決定される。
【0077】
2.デコーダは、ビットストリームから、サイド情報70の一部であって以下のオプションのいずれかがまさに真であるか否かを示すフラグを再構成する:[label=)
【0078】
(i)予測
[この文献は図面を表示できません]
のうちの1つ、すなわち集合72からのモードが使用され
【0079】
(ii)予測
[この文献は図面を表示できません]
のうちのいずれも、すなわち74のうちの1つも使用されない、たとえば
ここでは、関数
[この文献は図面を表示できません]
は(2)と同様である。
【0080】
3.ステップ2のオプション2が真である場合、デコーダは、基礎となるハイブリッドビデオ符号化規格と同様に所与のブロック10を進める。
【0081】
4.ステップ2のオプション1が真である場合、デコーダは、(4)にしたがって定義された関数
[この文献は図面を表示できません]
、すなわち84を、再構成画像
[この文献は図面を表示できません]
に適用する。
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
として定義する。次に、正確に以下の2つのオプションのうちの1つによってデコーダが数値
[この文献は図面を表示できません]
を定義するように、規格が変更される。
【0082】
(i)デコーダは、
[この文献は図面を表示できません]
によって集合
[この文献は図面を表示できません]
の確率分布
[この文献は図面を表示できません]
を定義し、データストリーム12から基礎となる規格で使用されるエントロピー符号化エンジンを介してやはりサイド情報70の一部であるインデックス
[この文献は図面を表示できません]
を解析するために後者の確率分布
[この文献は図面を表示できません]
を使用し、
[この文献は図面を表示できません]
を定義する。
【0083】
(ii)デコーダは、
[この文献は図面を表示できません]
が全ての
[この文献は図面を表示できません]
について
[この文献は図面を表示できません]
を用いる最小数である
[この文献は図面を表示できません]
を適用することによって、および
[この文献は図面を表示できません]
が全ての
[この文献は図面を表示できません]
で
[この文献は図面を表示できません]
を有するような最小数である
[この文献は図面を表示できません]
を適用することによって、順列
[この文献は図面を表示できません]
を帰納的に定義する。
【0084】
次に、デコーダは、ビットストリーム12から、やはりデータストリーム12の一部である一意のインデックス
[この文献は図面を表示できません]
を再構成し、
[この文献は図面を表示できません]
を適用する。
【0085】
後者のインデックス
[この文献は図面を表示できません]
を解析するためのコード設計では、
[この文献は図面を表示できません]
である場合、およびエントロピー符号化エンジンによって使用される全ての関連する基礎となる確率が等しい確率に設定される場合に、インデックス
[この文献は図面を表示できません]
に通知するために必要とされるビット数はインデックス
[この文献は図面を表示できません]
に通知するためのビット数以下であることが要求される。
【0086】
5.ステップ2のオプション1が真である場合、およびデコーダが前のステップ4にしたがってインデックス
[この文献は図面を表示できません]
を決定した場合、デコーダは、予測信号
[この文献は図面を表示できません]
を
[この文献は図面を表示できません]
として、すなわち選択されたニューラルネットワーク80
mを使用して、生成71する。次に、デコーダは、
[この文献は図面を表示できません]
を予測信号として使用する、基礎となるハイブリッドビデオ符号化規格と同様に進行する。
【0087】
その設計がデータ駆動型の学習アプローチに基づくイントラ予測関数の、既存のハイブリッドビデオコーデックへの統合。説明には2つの主要な部分があった。最初の部分では、イントラ予測関数のオフライントレーニングの具体的なアルゴリズムについて説明した。第2の部分では、所与のブロックの予測信号を生成するために、ビデオデコーダがどのように後者の予測関数を使用し得るかを説明した。
【0088】
したがって、セクション1.1から2で上述したのは、とりわけ、データストリーム12から画像10をブロック単位でデコードするための装置である。装置54は、少なくとも、現在のブロック18の隣接サンプルの第1の集合60をニューラルネットワーク80
iに適用することによって画像10の現在のブロック18のイントラ予測信号が決定されるイントラ予測モードの集合72を備える、複数のイントラ予測モードをサポートする。装置54は、現在のブロック18について、複数66のイントラ予測モードから1つのイントラ予測モードを選択68するように構成されており、この1つのイントラ予測モードを使用して、すなわち選択された対応するニューラルネットワーク80
mを使用して、現在のブロック18を予測71する。セクション2で提示されたデコーダは、集合72のニューラルネットワークベースのものに加えてサポートされた複数66のイントラ予測モード内のイントラ予測モード74を有していたが、これは単なる例であり、その通りでなくてもよい。さらに、セクション1および2における上記の説明は、デコーダ54がさらなるニューラルネットワーク84を使用せず、備えていない点において、異なってもよい。上記の最適化に関して、これは、
[この文献は図面を表示できません]
を見出すためにセクション1.2で提示された内部品質における第2の加算器が、任意の確率値ニューラルネットワーク関数G
Bに適用される関数M
Bの連結である必要はないことを意味する。むしろ、選択の頻度がM
Bの符号化率表示に適切に従うような方法でニューラルネットワーク80
iの適切なパラメータを決定するものの最適化アルゴリズム。たとえば、デコーダ54は、データストリーム12から、可変長コードを使用してブロック18のインデックスをデコードでき、このコード長はM
Bに示され、デコーダ54はこのインデックスに基づいて選択68を実行する。インデックスは、サイド情報70の一部である。
【0089】
セクション2で上述された説明のさらなる代替は、デコーダ54が代わりに、データストリームの第1部分ではなく第2部分に応じてイントラ予測モードの順序リストから最終的に使用されるイントラ予測モードを選択してイントラ予測モードの順序リストを取得するために、現在のブロック18の近傍に関連するデータストリームの第1部分に応じてニューラルネットワークベースイントラ予測モードの集合72からランキングを導出し得ることである。「第1部分」は、たとえば、現在のブロック18に隣接する1つ以上のブロックに関する符号化パラメータまたは予測パラメータに関連し得る。そして「第2部分」は、たとえば、ニューラルネットワークベースイントラ予測モード集合72を指す、またはそのインデックスである、インデックスであり得る。上記で概説されたセクション2に沿って解釈すると、デコーダ54は、イントラ予測モードの集合72の各イントラ予測モードについて、集合72の各イントラ予測モードのランクを決定するために、隣接サンプルの集合86をこれに適用してこれらの確率値を順序付けることによって確率値を決定し、これによってイントラ予測モードの順序リストを取得する、さらなるニューラルネットワーク84を備える。次に、サイド情報70の一部としてのデータストリーム12内のインデックスは、順序リストへのインデックスとして使用される。ここで、インデックスは、M
Bがコード長を示す可変長コードを使用して符号化され得る。そしてセクション2で説明されたように、アイテム4iにおいて、さらなる代替実施形態によれば、デコーダ54は、集合72へのインデックスのエントロピー符号化を効率的に実行するように、集合72の各ニューラルネットワークベースイントラ予測モードについてさらなるニューラルネットワーク84によって決定された、たった今言及した確率値を使用し得る。特に、サイド情報70の一部であって集合72へのインデックスとして使用されるこのインデックスの記号アルファベットは、集合72内のモードの各々について記号または値を備え、ニューラルネットワーク84によって提供される確率値は、上記説明によるニューラルネットワーク84設計の場合、これらの確率値が実際の記号統計を厳密に表すという点において、十分なエントロピー符号化をもたらす確率値を提供する。このエントロピー符号化では、たとえば、確率間隔区分エントロピー(PIPE)符号化などの算術符号化が使用され得る。
【0090】
好ましくは、集合72のイントラ予測モードのいずれにとっても追加の情報は必要ない。各ニューラルネットワーク80
iは、たとえばセクション1および2の上記説明にしたがってエンコーダおよびデコーダ向けに有利にパラメータ化されると、データストリームにおける追加のガイダンスをまったく伴わずに、現在のブロック18の予測信号を導出する。既に上記で示したように、集合72内のニューラルネットワークベースのもの以外の他のイントラ予測モードの存在は任意である。これらは、集合74によって上記で示されている。これに関して、集合60、すなわちイントラ予測71への入力を形成する隣接サンプルのセットを選択する1つの可能な方法は、この集合60が集合74のイントラ予測モード、すなわちヒューリスティックなものに対して同じになるように選択され、ニューラルネットワークベースイントラ予測モードのための集合60は、集合60に含まれる隣接サンプルの数に関してより大きく、イントラ予測71に影響を及ぼすことに、留意すべきである。言い換えると、集合60の濃度は、集合74の他のモードと比較して、ニューラルネットワークベースイントラ予測モード72にとってより大きくなり得る。たとえば、集合74のいずれかのイントラ予測モードの集合60は、左と上などブロック18の辺まで一緒に延在する一次元線に沿った隣接サンプルを単に備えてもよい。ニューラルネットワークベースイントラ予測モードの集合60は、ブロック18の上述の辺に沿って延在するが、集合74のイントラ予測モードでは集合60でのサンプル1つ分のみよりも広い、L字型部分をカバーする。このようにして、ニューラルネットワークベースイントラ予測モードは、相応に低い予測残差を有するより良いイントラ予測をもたらし得る。
【0091】
セクション2で上述したように、データストリーム12でイントラ予測されたブロック18に搬送されるサイド情報70は、一般にブロック18の選択されたイントラ予測モードが集合72の要素か集合74の要素かを示すフレックを備え得る。しかしながら、このフレックは、たとえば、集合72および74の両方を含む複数66のイントラ予測モード全体へのインデックスを示すサイド情報70を有する、単なるオプションである。
【0092】
たった今議論した代替は、以下において、
図7aから
図7dに関して簡単に論じられる。図面は、デコーダおよびエンコーダの両方を同時に、すなわちイントラ予測されたブロック18に関するそれらの機能の点から、定義する。イントラ符号化ブロック18に関するエンコーダ動作モードとデコーダ動作モードとの違いは、一方では、エンコーダが、たとえば、何らかのコスト関数最小化の意味で最良のものを90において決定するように、利用可能なイントラ予測モード66の全てまたは少なくともいくつかを実行し、エンコーダはデータストリーム12を形成する、すなわちそこに日付を符号化するが、デコーダは、それぞれデコードおよび読み取りをすることによってそこからデータを導出する、という事実である。
図7aは、上記で概説された代替の動作モードを示しており、これにしたがって、ブロック18のサイド情報70内のフラグ70aは、ステップ90でエンコーダによってブロック18の最良のモードであると決定されたイントラ予測モードが集合72に含まれるか、すなわち、ニューラルネットワークベースイントラ予測モードであるか、または集合74に含まれるか、すなわち非ニューラルネットワークベースイントラ予測モードの1つであるかを示す。エンコーダは、相応にデータストリーム12にフラグ70aを挿入し、その一方でデコーダは、これをそこから回収する。
図7aは、決定されたイントラ予測モード92が集合72に含まれると仮定する。次に、別個のニューラルネットワーク84は、集合72の各ニューラルネットワークベースイントラ予測モードについて確率値を決定し、これらの確率値を使用して、集合72、またはより正確にはその中のニューラルネットワークベースイントラ予測モードは、その確率値の降順など、確率値にしたがって順序付けられ、これにより、イントラ予測モードの順序リスト94を生成する。次に、サイド情報70の一部であるインデックス70bは、エンコーダによってデータストリーム12に符号化され、デコーダによってそこからデコードされる。したがって、デコーダは、集合72および74のどの集合かを決定できる。ブロック18に使用されるイントラ予測モードは、集合72に配置され、使用されるイントラ予測モードが集合72内に配置される場合には、集合72の順序付け96を実行する。決定されたイントラ予測モードが集合74内に配置される場合には、インデックスもまたデータストリーム12で送信される可能性がある。したがって、デコーダは、選択68を相応に制御することによって、決定されたイントラ予測モードを使用して、ブロック18の予測信号を生成することができる。
【0093】
図7bは、フラグ70aがデータストリーム12内に存在しない代替を示す。代わりに、順序リスト94は、集合72のイントラ予測モードのみならず集合74のイントラ予測モードも備えない。サイド情報70内のインデックスは、このさらに大きい順序リストへのインデックスとなり、決定されたイントラ予測モード、すなわち最適化90となるよう決定されたものを示す。ニューラルネットワーク84が72内でのみニューラルネットワークベースイントラ予測モードに確率値を提供する場合、集合74のイントラ予測モードに対する集合72のイントラ予測モードのランキングは、順序リスト94内の集合74のモードに先行するため、またはこれらを互いに交互に配置するために、集合72のニューラルネットワークベースイントラ予測モードを必然的に配置するなど、他の手段によって決定されてもよい。つまり、デコーダは、データストリーム12からインデックスを導出し、ニューラルネットワーク84から出力された確率値を使用して複数のイントラ予測モード66から順序リスト94を導出して順序リスト94へのインデックスとしてインデックス70を使用することができる。
図7cは、さらなる変形例を示す。
図7cは、フラグ70aを使用しない場合を示すが、フラグは代替的に使用され得る。
図7cが対象とする問題は、エンコーダもデコーダもニューラルネットワーク84を使用しない可能性に関する。むしろ、順序付け96は、1つ以上の隣接ブロック18に関するデータストリーム12、すなわちこのような1つ以上の隣接ブロックに関係するデータストリーム12の部分98で搬送される符号化パラメータなど、他の手段によって導出される。
【0094】
図7dは、
図7aのさらなる変形例、すなわち、通常は参照符号100を使用して示される、インデックス70bがエントロピー符号化を使用して符号化され、エントロピーデコードを使用してデータストリーム12からデコードされる変形例を示す。エントロピー符号化100に使用されるサンプル統計または確率分布は、上記で説明されたように、ニューラルネットワーク84によって出力された確率値によって制御され、これはインデックス70bのエントロピー符号化を非常に効率的にする。
【0095】
全ての実施形態7aから7dについて、集合74モードが存在しないことは事実である。したがって、それぞれのモジュール82は欠落している可能性があり、フラグ70aはいずれにせよ不要である。
【0096】
さらに、いずれの図にも示されていないが、エンコーダおよびデコーダにおけるモード選択68は、いかなる明示的なシグナリング70もなくても、すなわちいかなるサイド情報も費やさず、互いに同期できることが明らかである。むしろ、選択は、順序リスト94の最初のものを必然的に取ることによって、または1つ以上の隣接ブロックに関する符号化パラメータに基づいて順序リスト94へのインデックスを導出することによってなど、その他の手段から導出されることが可能である。
図8は、ブロック単位の画像符号化に使用される集合72のイントラ予測モードの集合を設計するための装置を示す。装置108は、ニューラルネットワーク80
0から80
KB−1ならびにニューラルネットワーク84のパラメータ化可能なバージョンを継承または備える、パラメータ化可能なネットワーク109を備える。ここで、
図8では、個々のユニット、すなわち、ニューラルネットワークベースイントラ予測モード0の確率値を提供するためのニューラルネットワーク84
0からニューラルネットワークベースイントラ予測モードK
B−1に関連付けられた確率値を提供するためのニューラルネットワーク84
KB−1として示されている。ニューラルネットワーク84をパラメータ化するためのパラメータ111およびニューラルネットワーク80
0から80
KB−1をパラメータ化するためのパラメータ113は、アップデータ110によって、これらのニューラルネットワークのそれぞれのパラメータ入力に入力または適用される。装置108は、対応する隣接サンプル集合116と共に、リザーバまたは複数の画像テストブロック114へのアクセスを有する。これらのブロック114およびそれらの関連する隣接サンプル集合116のペアは、装置108によって順次使用される。特に、現在の画像テストブロック114は、ニューラルネットワーク80が集合72の各ニューラルネットワークベースイントラ予測モードに予測信号118を提供し、各ニューラルネットワーク80がこれらのモードの各々に確率値を提供するように、パラメータ化可能なニューラルネットワーク109に適用される。この目的のために、これらのニューラルネットワークは、現在のパラメータ111および113を使用する。
【0097】
上記の説明では、画像テストブロック114を示すためにrecが使用されており、
[この文献は図面を表示できません]
(rec)はモードBの予測残差118であり、確率値は
[この文献は図面を表示できません]
(rec)は確率値120である。各モード0...K
b−1について、それぞれのモードについて取得された予測信号118に基づいてそれぞれのモードのコスト推定を計算する、装置108に含まれるコスト推定器122がある。上記の例では、コスト推定器122は、セクション1.2の不等式の右側および左側に示されるようなコスト推定を計算した。つまり、ここでは、コスト推定器122は、各モードについて、対応する確率値120も使用した。しかしながら、これは既に上記で論じられたようなケースである必要はない。しかしながら、コスト推定は、いずれの場合も2つの加数の合計であり、そのうちの1つは、上記の不等式で
[この文献は図面を表示できません]
を有する項として示される予測残差の符号化コストの推定であり、他方の加数は、モードを示すための符号化コストを推定する。予測残差に関連する符号化コストの推定を計算するために、コスト推定器122は、現在の画像テストブロック114の素のコンテンツも取得する。ニューラルネットワーク80および84は、適用される入力において、対応する隣接サンプル集合116を有する。コスト推定器122によって出力された通りのコスト推定124は、関連付けられたコスト推定を最小化する、または最小コスト推定を有するモードを決定する最小コスト選択器126によって受信される。上記の数学的表記では、これは
[この文献は図面を表示できません]
であった。アップデータは、この最適モードを受信し、最低符号化推定のイントラ予測モードのために取得された予測信号118に応じて残差レート推定を形成する第1加数、および選択器126によって示されたとおりの最低符号化コスト推定のイントラ予測モードのために取得された予測信号および確率値に基づいてモードシグナリング側情報レート推定を形成する第2加数を有する符号化コスト関数を使用する。上記で示されたように、これは勾配降下を使用して行われ得る。したがって、符号化コスト関数は微分可能であり、上記の数学的表現では、この関数の例は式5に示された。ここで、モードシグナリング側情報レート推定に関連する第2のアドインは、最低符号化コスト推定のイントラ予測モードについて交差エントロピーを計算した。
【0098】
したがって、アップデータ110は、符号化コスト関数を低減するようにパラメータ111および113を更新しようとし、その後これらの更新されたパラメータ111および113は、複数112の次の画像テストブロックを処理するように、パラメータ化可能なニューラルネットワーク109によって使用される。セクション1.5に関して上記で論じられたように、主として、イントラ予測がレート歪みの意味でブロック細分化なしに行われることが好ましい回帰的な更新プロセスのために、画像テストブロック114およびこれらの関連付けられた隣接サンプル集合116のこれらのペアが適用されることを制御するメカニズムがあってもよく、これにより、いずれにせよそのサブブロック単位の符号化のコスト効率がより良い画像テストブロックに基づいて、パラメータ111および113が過度に最適化されるのを回避する。
【0099】
これまでのところ、上記で論じられた実施形態は主に、エンコーダおよびデコーダが、それらのサポートされたイントラ予測モード66内に、ニューラルネットワークベースイントラ予測モードの集合を有する場合に関係している。
図9aおよび
図9bに関して論じられた実施形態によれば、これは必ずしもそうである必要はない。
図9aは、
図7aに関して上記で提示された説明との違いに焦点を当ててその説明が提供される実施形態にしたがって、エンコーダおよびデコーダの動作モードを概説しようとするものである。複数66のサポートされたイントラ予測モードは、ニューラルネットワークベースイントラ予測モードを備えても備えなくてもよく、非ニューラルネットワークベースイントラ予測モードを備えても備えなくてもよい。したがって、サポートされたモード66の各々に対応する予測信号を提供するためにエンコーダおよびデコーダにそれぞれ含まれる
図9aのモジュール170は、必ずしもニューラルネットワークではない。既に上記で示されたように、このようなイントラ予測モードはニューラルネットワークベースであってもよく、またはこれらはヒューリスティックに動機付けされ、DCイントラ予測モードまたは角度イントラ予測モードまたはその他に基づいて予測信号を計算してもよい。したがって、これらのモジュール170は、予測信号コンピュータとして示されることが可能である。しかしながら、
図9aの実施形態によるエンコーダおよびデコーダは、ニューラルネットワーク84を備える。ニューラルネットワーク84は、複数66のイントラ予測モードが順序リスト94となり得るように、隣接サンプル集合86に基づいて、サポートされたイントラ予測モード66の確率値を計算する。ブロック18のデータストリーム12内のインデックス70は、この順序リスト94を指す。したがって、ニューラルネットワーク84は、イントラ予測モード信号伝達のために費やされるサイド情報レートを下げるのを助ける。
【0100】
図9bは、複数66の各モードのニューラルネットワーク84に対して決定された確率値にしたがって、確率またはその単純な統計を制御する、すなわちエンコーダ/デコーダでのエントロピーデコード/エンコードのエントロピー確率分布を制御すると共に、順序付けの代わりに、インデックス70のエントロピーデコード/エンコード100が使用される、
図9aの代替を示す。
【0101】
図10は、ニューラルネットワーク84を設計またはパラメータ化するための装置を示す。したがって、イントラ予測モードの集合66から選択するのを支援するためのニューラルネットワークを設計する装置108である。ここで、集合66の各モードについて、ニューラルネットワーク84を一緒に形成するための対応するニューラルネットワークブロックがあり、装置108のパラメータ化可能なニューラルネットワーク109は、単にこれらのブロックに関してパラメータ化可能である。しかしながら、各モードについて、
図10によれば、パラメータ可能でなくてもよい予測信号コンピュータ170もある。したがって、
図10の装置108は、対応する予測信号コンピュータ170によって計算されたとおりの予測信号118に基づいて、および任意選択的に、このモードの対応するニューラルネットワークブロックによって決定されたとおりの対応する確率値に基づいて、各モードのコスト推定を計算する。得られたコスト推定124に基づいて、最小コスト選択器126は最小コスト推定のモードを選択し、アップデータ110はニューラル84のパラメータ111を更新する。
【0102】
以下は、
図7aから
図7dおよび
図9aおよび
図9bの説明に関して注記される。
図7aから
図7dの実施形態のいくつかでも使用される
図9aおよび
図9bの実施形態の共通の特徴は、最適化プロセス90においてエンコーダ側で決定されたモードをデコーダに通知するためのサイド情報70に関連付けられたオーバヘッドを改善または低減するためのニューラルネットワーク値の確率値という事実であった。しかしながら、
図7aから
図7dの実施形態に関して上記で示されたように、
図9aおよび
図9bの実施形態が、モード選択に関してデータストリーム12内でサイド情報70がまったく費やされない程度に変化し得ることは、明らかである。むしろ、各モードについてニューラルネットワーク84によって出力された確率値は、必然的にエンコーダとデコーダとの間のモード選択を同期するために使用され得る。その場合、モード選択に関してエンコーダ側で最適化決定90はないだろう。むしろ、集合66の間で使用されるモードは、同じ方法でエンコーダ側およびデコーダ側で決定される。データストリーム12でサイド情報70をまったく使用しないように変化したとき、
図7aから
図7dの対応する実施形態に関して類似の説明が該当する。しかしながら、
図9aおよび
図9bの実施形態に戻ると、興味深いのは、エンコーダに関する限り、確率値に対する順序付けまたは確率分布推定の依存性はサイド情報の解釈を変化させるという点において、デコーダ側の選択プロセス68はニューラルネットワークによって出力された確率値に依存しているものの、確率値への依存性は、たとえば、順序リストへのインデックスのそれぞれの可変長符号化を使用する、またはニューラルネットワークの確率値に依存する確率分布推定を伴うエントロピーエンコード/デコードを使用する、データストリーム12へのサイド情報70の符号化に影響するのみならず、最適化ステップ90にも影響することである。ここで、サイド情報70を送信するための符号化率が考慮されてもよく、したがってこれは決定90に影響を及ぼす可能性がある。
【0103】
いくつかの態様は装置の文脈で説明されてきたが、これらの態様が対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の説明も表す。方法ステップの一部または全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって(またはこれを使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちの1つ以上が、このような装置によって実行されてもよい。
【0104】
本発明のエンコードされたデータストリームは、デジタル記憶媒体上に記憶されることが可能であり、またはインターネットなどの無線送信媒体または有線送信媒体のような送信媒体で送信されることが可能である。
【0105】
特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装され得る。本実装は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働可能な)、電子可読制御信号が記憶された、フロッピーディスク、DVD、Blu−ray(登録商標)、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリなどのデジタル記憶媒体を使用して、実行され得る。したがって、デジタル記憶媒体はコンピュータ可読であり得る。
【0106】
本発明によるいくつかの実施形態は、本明細書に記載される方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することが可能な、電子可読制御信号を有するデータキャリアを備える。
【0107】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装されることが可能であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されると、方法の1つを実行するように動作する。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。
【0108】
別の実施形態は、機械可読キャリア上に記憶された、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを備える。
【0109】
したがって、言い換えると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されると、本明細書に記載される方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0110】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを備え、それが記録された、データキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録媒体は、典型的には有形および/または非一時的である。
【0111】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、たとえばインターネットを介して、たとえばデータ通信接続を介して転送されるように構成されてもよい。
【0112】
さらなる実施形態は、本明細書に記載される方法の1つを実行するように構成または適合された、たとえばコンピュータまたはプログラマブル論理デバイスなどの処理手段を備える。
【0113】
さらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを備える。
【0114】
本発明によるさらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを受信機に(たとえば、電子的または光学的に)送信するように構成された、装置またはシステムを備える。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えてもよい。
【0115】
いくつかの実施形態では、プログラマブル論理デバイス(たとえばフィールドプログラマブルゲートアレイ)は、明細書に記載される方法の機能の一部または全てを実行するために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載される方法の1つを実行するためにマイクロプロセッサと協働し得る。一般に、方法は、好ましくはいずれかのハードウェア装置によって実行される。
【0116】
本明細書に記載される装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置およびコンピュータの組み合わせを使用して、実装され得る。
【0117】
本明細書に記載される装置、または本明細書に記載される装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実装され得る。
【0118】
本明細書に記載される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置およびコンピュータの組み合わせを使用して、実行され得る。
【0119】
本明細書に記載される方法、または本明細書に記載される装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアによって実行され得る。
【0120】
上記の実施形態は、本発明の原理を単に例示するものである。本明細書に記載される配置および詳細の修正および変形は、当業者にとって明らかとなることが理解される。したがって、差し迫った特許請求の範囲のみによって限定され、本明細書の実施形態の記載および説明によって提示される特定の詳細によっては限定されないことが意図される。
【国際調査報告】
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]