特表2024-525273 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ マイクロソフト　テクノロジー　ライセンシング，エルエルシーの特許一覧

特表2024-525273コンテキストベース画像コード化

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-12

(54)【発明の名称】コンテキストベース画像コード化

(51)【国際特許分類】

H04N 19/134 20140101AFI20240705BHJP

H04N 19/172 20140101ALI20240705BHJP

H04N 19/103 20140101ALI20240705BHJP

【ＦＩ】

H04N19/134

H04N19/172

H04N19/103

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023570174

(86)(22)【出願日】2022-05-23

(85)【翻訳文提出日】2024-01-09

(86)【国際出願番号】 US2022030462

(87)【国際公開番号】W WO2023278068

(87)【国際公開日】2023-01-05

(31)【優先権主張番号】202110738324.5

(32)【優先日】2021-06-30

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】314015767

【氏名又は名称】マイクロソフトテクノロジーライセンシング，エルエルシー

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(74)【代理人】

【識別番号】100108213

【弁理士】

【氏名又は名称】阿部豊隆

(72)【発明者】

【氏名】リー，ジアハオ

(72)【発明者】

【氏名】リー，ビン

(72)【発明者】

【氏名】ルー，ヤン

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159MA04

5C159MA05

5C159MC11

5C159ME11

5C159NN27

5C159NN36

5C159PP04

5C159RC11

5C159TA01

5C159TA16

5C159TA59

5C159TB04

5C159UA02

5C159UA05

(57)【要約】

本開示の実装形態によると、コンテキストベース画像コード化解決策が提供される。本解決策によると、標的画像の基準画像が取得される。標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現が基準画像から抽出される。条件付き符号化又は条件付き復号化がコンテキスト特徴表現に基づき標的画像に対し行われる。このようにして、性能の向上が再構築品質及び圧縮効率の観点で達成される。

【特許請求の範囲】

【請求項1】

標的画像の基準画像を取得することと、
前記標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現を前記基準画像から抽出することと、
条件付き符号化又は条件付き復号化を前記コンテキスト特徴表現に基づき前記標的画像に対し行うことと
を含む画像コード化方法。

【請求項2】

前記標的画像に対し前記条件付き符号化を行うことは、
前記条件付き符号化を行なうように構成された符号化モデルへの入力として前記コンテキスト特徴表現及び前記標的画像を適用することにより前記標的画像の符号化表現を生成することを含む、又は
前記標的画像に対し前記条件付き復号化を行うことは、
前記条件付き復号化を行うように構成された復号化モデルへの入力として前記標的画像の前記コンテキスト特徴表現及び符号化表現を適用することにより前記標的画像に対応する復号化済み画像を生成することを含む、請求項１に記載の方法。

【請求項3】

前記基準画像から前記コンテキスト特徴表現を抽出することは、
前記基準画像から初期コンテキスト特徴表現を抽出することと、
前記基準画像と前記標的画像との間の運動ベクトル情報を判断することと、
前記コンテキスト特徴表現を取得するために前記運動ベクトル情報に基づき前記初期コンテキスト特徴表現を調節することと
を含む、請求項１に記載の方法。

【請求項4】

前記標的画像に対し前記条件付き符号化又は条件付き復号化を行うことは更に、
前記コンテキスト特徴表現に基づき前記標的画像と前記基準画像との間の時間的相関情報を判断することと、
前記時間的相関情報に少なくとも基づき前記標的画像に対しエントロピー符号化又はエントロピー復号化を行うことと
を含む、請求項１に記載の方法。

【請求項5】

前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことは、
前記標的画像のサイド情報を取得することと、
前記時間的相関情報及び前記サイド情報に少なくとも基づき前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことと
を含む、請求項４に記載の方法。

【請求項6】

前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことは、
符号化表現から前記標的画像の空間的相関情報を取得することと、
前記時間的相関情報及び前記空間的相関情報に少なくとも基づき前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことと
を含む、請求項４に記載の方法。

【請求項7】

前記エントロピー符号化を行うことは、
前記標的画像の符号化表現を取得することと、
前記時間的相関情報に少なくとも基づき前記標的画像の符号化表現から前記標的画像のビットストリームを生成することと、
を含み、
前記エントロピー復号化を行うことは、
前記標的画像のビットストリームを取得することと、
前記時間的相関情報に少なくとも基づき前記ビットストリームから前記標的画像の符号化表現を判断することと、
前記標的画像の前記符号化表現から復号化済み画像を判断することと
を含む、請求項４に記載の方法。

【請求項8】

プロセッサと、
前記プロセッサへ結合されるメモリであってその上に格納された命令を有するメモリとを含む電子デバイスであって、前記命令は、前記プロセッサにより実行されると前記デバイスに、
標的画像の基準画像を取得することと、
前記標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現を前記基準画像から抽出することと、
条件付き符号化又は条件付き復号化を前記コンテキスト特徴表現に基づき前記標的画像に対し行うことと
を含む動作を行わせる、電子デバイス。

【請求項9】

前記標的画像に対し前記条件付き符号化を行うことは、
前記条件付き符号化を行うように構成された符号化モデルへの入力として前記コンテキスト特徴表現及び前記標的画像を適用することにより前記標的画像の符号化表現を生成することを含む、又は
前記標的画像に対し前記条件付き復号化を行うことは、
前記条件付き復号化を行うように構成された復号化モデルへの入力として前記標的画像の前記コンテキスト特徴表現及び符号化表現を適用することにより前記標的画像に対応する復号化済み画像を生成することを含む、請求項８に記載の電子デバイス。

【請求項10】

【請求項11】

前記標的画像に対し前記条件付き符号化又は条件付き復号化を行うことは更に、
前記コンテキスト特徴表現に基づき前記標的画像と前記基準画像との間の時間的相関情報を判断することと、
前記時間的相関情報に少なくとも基づき前記標的画像に対しエントロピー符号化又はエントロピー復号化を行うことと
を含む、請求項８に記載の電子デバイス。

【請求項12】

前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことは、
前記標的画像のサイド情報を取得することと、
前記時間的相関情報及び前記サイド情報に少なくとも基づき前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことと
を含む、請求項１１に記載の電子デバイス。

【請求項13】

前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことは、
符号化表現から前記標的画像の空間的相関情報を取得することと、
前記時間的相関情報及び前記空間的相関情報に少なくとも基づき前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことと
を含む、請求項１１に記載の電子デバイス。

【請求項14】

前記エントロピー符号化を行うことはと、
前記標的画像の符号化表現を取得することと、
前記時間的相関情報に少なくとも基づき前記標的画像の符号化表現から前記標的画像のビットストリームを生成することと
を含み、
前記エントロピー復号化を行うことは、
前記標的画像のビットストリームを取得することと、
前記時間的相関情報に少なくとも基づき前記ビットストリームから前記標的画像の符号化表現を判断することと、
前記標的画像の前記符号化表現に基づき復号化済み画像を判断することと
を含む、請求項１１に記載の電子デバイス。

【請求項15】

コンピュータストレージ媒体内に有形に格納されコンピュータ実行可能命令を含むコンピュータプログラム製品であって、前記コンピュータ実行可能命令はデバイスにより実行されると、
標的画像の基準画像を取得することと、
前記標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現を前記基準画像から抽出することと、
条件付き符号化又は条件付き復号化を前記コンテキスト特徴表現に基づき前記標的画像に対し行うことと
を含む動作を前記デバイスに行わせる、コンピュータプログラム製品。

【発明の詳細な説明】

【背景技術】

【0001】

背景
本明細書では、「コード化」は符号化及び／又は復号化を含み得る。通常、映像のフレームは、ネットワーク上の送信のための映像のフレームを圧縮するために送信端末において符号化器により符号化される。所与のフレームの符号化は基準映像内の別のフレームを参照することにより行われ得る。符号化を介し生成された符号化表現に対応するビットストリームが受信端末へ送信される。受信端末における対応復号化器は、復号化された所与のフレームを受信端末の画面へ出力するように受信ビットストリームから映像の所与のフレームを復号化し得る。コード化中、フレームの再構築品質及び圧縮効率は常に、注目に値する側面である。

【発明の概要】

【0002】

概要
本開示のいくつかの実装形態によると、コンテキストベース画像コード化解決策が提供される。この解決策では、標的画像の基準画像が取得される。標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現が基準画像から抽出される。条件付き符号化又は条件付き復号化がコンテキスト特徴表現に基づき標的画像に対し行われる。このようにして、性能の向上が再構築品質及び圧縮効率の観点で達成される。

【0003】

「発明の概要」は、「発明を実施するための形態」において以下に更に説明される概念の選択を単純化形式で導入することである。「発明の概要」は、本明細書において説明される主題の重要な特徴又は必須の特徴を識別するようには意図されていないし、本明細書において説明される主題の範囲を制限するために使用されるように意図されてもいない。

【図面の簡単な説明】

【0004】

図面の簡単な説明

【図1】従来の残差ベース映像コード化システムの概略ブロック図を示す。

【図2】本開示のいくつかの実装形態によるコンテキストベース映像コード化システムの概略ブロック図を示す。

【図3】本開示のいくつかの実装形態によるコンテキスト情報を特徴付けるコンテキスト特徴表現の能力の一例を示す。

【図4】本開示のいくつかの実装形態による図２のシステムにおけるコンテキスト生成器の例示的構造のブロック図を示す。

【図5】本開示のいくつかの実装形態による図２のシステムにおけるエントロピーモデルの例示的構造のブロック図を示す。

【図6】本開示のいくつかの実装形態によるコンテキストベース映像コード化解決策と従来の映像コード化解決策との比較を示す。

【図7】本開示のいくつかの実装形態による映像コード化プロセスのフローチャートを示す。

【図8】本開示の複数の実装形態を実装することができるコンピューティングデバイスのブロック図を示す。

【発明を実施するための形態】

【0005】

添付図面全体にわたって、同じ又は同様な参照符号は同じ又は同様な要素を指す。

【0006】

実施形態の詳細な説明
次に本開示はいくつかの例示的実装形態を参照して説明される。「これらの実装形態は、図示の目的のためだけに説明されており、本開示の範囲へのいかなる制限も示唆すること無く当業者がより良く理解しそして従って本開示を実施するのを助ける」ということを理解すべきである。

【0007】

本明細書で使用されるように、用語「含む」及びその変形は「限定しないが含む」を意味する開放用語として読まれるべきである。用語「に基づき」は「に少なくとも部分的に基づき」として読まれるべきである。用語「実装形態」及び「１つの実装形態」は「少なくとも１つの実装形態」として読まれるべきである。用語「別の実装形態」は「少なくとも１つの他の実装形態」として読まれるべきである。用語「第１の」、「第２の」等々は異なる又は同じ物体を参照し得る。他の定義（明示的又は暗黙的のいずれにせよ）が以下に含まれ得る。

【0008】

本明細書で使用されるように、用語「モデル」は、トレーニングデータから学習可能である対応入力と対応出力との関連を指し得、従って、対応出力はトレーニング後の所与の入力のために生成され得る。モデルの生成は機械学習技術に基づき得る。深層学習は、処理ユニットの複数の層を使用することにより入力を処理しそして対応出力を提供する機械学習アルゴリズムの１つである。ニューラルネットワークモデルは深層学習ベースモデルの一例である。本明細書で使用されるように、「モデル」は、「機械学習モデル」、「学習モデル」、「機械学習ネットワーク」又は「学習ネットワーク」とも呼ばれ得、これらの用語は本明細書において交換可能に使用される。

【0009】

「ニューラルネットワーク」は深層学習に基づく機械学習ネットワークである。ニューラルネットワークは、対応出力を提供するために入力を処理し得、そして通常、入力層、出力層、及び入力層と出力層との間の１又は複数の隠れ層を含む。深層学習アプリケーションにおいて使用されるニューラルネットワークは通常、多数の隠れ層を含み、これによりネットワークの深さを増加する。ニューラルネットワークの層は、前の層の出力が次の層の入力として提供されるように順番に接続され、ここでは、入力層はニューラルネットワークの入力を受信し、そして出力層の出力はニューラルネットワークの最終出力と見なされる。ニューラルネットワークの各層は、それぞれが前の層からの入力を処理する１又は複数のノード（処理ノード又はニューロンとも呼ばれる）を含む。

【0010】

一般的に、機械学習は３つの局面（すなわちトレーニング局面、試験局面、適用局面（干渉局面とも呼ばれる））を含み得る。トレーニング局面では、所与のモデルは大量のトレーニングデータを使用することによりトレーニングされ得、パラメータ値は、モデルが、期待標的を満たす一貫した干渉をトレーニングデータから取得し得るまで、繰り返し更新される。トレーニングを介し、モデルは、トレーニングデータから入力と出力との関連性（「入力・ツー・出力マッピング」とも呼ばれる）を学習することができると考えられ得る。トレーニング済みモデルのパラメータ値が判断される。試験局面では、試験入力が、モデルの性能を判断するようにモデルが正しい出力を提供し得るかどうかを試験するためにトレーニング済みモデルへ適用される。適用局面では、モデルはトレーニングにおいて取得されたパラメータ値に基づき実際の入力を処理しそして対応出力を判断するために使用され得る。

【0011】

本明細書では、「フレーム」又は「映像フレーム」は映像セグメント内の個々の画像を指す。「画像」及び「フレーム」は本明細書では交換可能に使用される。それぞれの画像がフレームと考えられる複数の連続画像が動的映像セグメントを形成し得る。

【0012】

現在、機械学習技術の発展と共に、機械学習を映像コード化プロセスへ適用することが提案されてきた。しかし、映像フレームの再構築品質及び圧縮効率は従来のコード化プロセスの制限に起因して依然として改善される必要がある。

【0013】

残差ベース従来型映像コード化
１９８８年に開発されたＨ．２６１映像コード化標準規格から２０２０年にリリースされたＨ．２６６映像コード化標準規格までを含む従来型映像コード化解決策はすべて、残差ベースコード化解決策を広く採用する。この解決策は、現在画像の基準画像を生成することによるそして符号化及び復号化を現在画像と基準画像との残差に対し行うことによる予測コード化パラダイムに基づく。図１は従来型残差ベース映像コード化システム１００の概略ブロック図を示す。システム１００は符号化器１１０、復号化器１２０、画像予測器１３０、残差生成モジュール１４０及び残差加算モジュール１５０を含む。残差ベースコード化プロセスでは、符号化器１１０は残差符号化器と呼ばれ、復号化器１２０は残差復号化器と呼ばれる。

【0014】

現在符号化されている画像１０２が映像セグメント内の時間ｔにおける画像ｘ_ｔであるということを仮定すると、画像予測器１３０は基準画像１７０に基づき画像１０２の予測画像

【数1】

１３２を生成するように構成される。基準画像１７０は、映像セグメント内に時間ｔの前の時間ｔ－１における復号化済み画像

【数2】

を含み得る。残差生成モジュール１４０は画像１０２ｘ_ｔと予測画像

【数3】

１３２との間の残差を計算する。符号化器１１０は画像１０２ｘ_ｔの符号化表現を生成するために残差を符号化する。符号化表現に対応するビットストリーム１１２は復号化側へ送信される。

【0015】

復号化側では、復号化器１２０はビットストリーム１１２を受信し、そして復号化済み画像を得るためにビットストリーム１１２を復号化する。残差加算モジュール１５０は、時間ｔにおける復号化済み画像１６０

【数4】

を取得するために、復号化器１２０より提供された復号化済み画像と画像予測器１３０により生成された予測画像

【数5】

１３２とを足し合わせる。

【0016】

残差ベース映像コード化は以下のように表され得る：

【数6】

上記式（１）では、ｆ_ｅｎｃ（・）は符号化器１１０の符号化プロセスを表し、ｆ_ｄｅｃ（・）は復号化器１２０の復号化プロセスを表し、ｆ_{ｐｒｅｄｉｃｔ}（・）は画像予測器１３０の予測処理を表し、そして「・」は量子化操作を表す。機械学習に基づくアプリケーションでは、符号化器１１０は残差符号化を実施するために機械学習モデルを使用し得、従って復号化器１２０は残差復号化を実施するために機械学習モデルを使用し得る。

【0017】

動作原理及び例示的システム
映像内のフレーム間の強い時間的相関を考えれば、残差符号化は過去の映像を圧縮する単純且つ有効なやり方と考えられた。しかし、本出願の発明者は、所与の予測画像

【数7】

により現在画像ｘ_ｔを符号化することによる残差コード化は、残差コード化が単純減算演算を使用することにより画像間の冗長性を常に除去するので最適ではないということを研究を通し発見した。残差コード化のエントロピーは条件付きコード化のエントロピー以上であり

【数8】

、ここでＨはシャノンエントロピーである。理論的に、現在画像ｘ_ｔの画素は前の時間における復号化済み画像内のすべて画素に関係し、そしてこれらの画素は画像ｘ_ｔ内で復号化された。伝統的コーデックに関して、前の時間における復号化済み画像と現在画像との間の相関のすべてを手作り規則により明示的に特徴付けることは困難である。従って、残差ベースコード化は、現在画像の画素が予測画像内の対応予測画素にだけ関係するという仮定を利用し、これによりコード化プロセスを単純化する。しかし、このようなコード化解決策は実際、再構築品質及び圧縮率の観点で十分に最適化されない。

【0018】

本開示のいくつかの例示的実装形態によると、コンテキストベースコード化解決策が提供される。標的画像の予測画像を生成しそして従来の解決策で必要とされるような標的画像と予測画像との間の残差に対し符号化を行うこととは異なり、条件付きコード化は、本開示の例示的実装形態においてコンテキスト特徴表現を基準画像から抽出することにより標的画像に対し行われる。この解決策では、特徴ドメインにおいて、コンテキスト情報は、標的画像に対する適応符号化をガイドするための条件と考えられる。このような解決策は、同じビットレートのケースではより高い圧縮率を取得し得る。加えて、現在画像に関係する様々な態様におけるコンテキスト情報は特徴ドメイン内のより高い次元を特徴とし得るので、コンテキストベース画像コード化はより高い再構築品質を実現し得る。このようにして、性能改善が再構築品質及び圧縮効率の観点で実現される。

【0019】

以下では、本開示のいくつかの例示的実装形態が添付図面を参照してより詳細に説明される。

【0020】

本開示のいくつかの実装形態によるコンテキストベース映像コード化システム２００の概略ブロック図を示す図２を最初に参照する。システム２００は符号化器２１０、復号化器２２０及びコンテキスト生成器２３０を含む。

【0021】

符号化器２１０は、符号化される画像（本明細書において標的画像と呼ばれる）ｘ_ｔ２０２の符号化表現（潜在的コードとも呼ばれる）ｙ_ｔを生成するために構成される。標的画像ｘ_ｔ２０２は時間ｔにおける映像セグメント内のフレームを含み得る。いくつかの実装形態では、システム２００は更に、エントロピー符号化（符号化側の）又はエントロピー復号化（復号化側の）を行うように構成されるエントロピーモデル２５０を含み得る。符号化側では、エントロピーモデル２５０は、量子化符号化表現（quantized encoded representation）

【数9】

を取得するために符号化表現ｙ_ｔを量子化し、そして量子化符号化表現

【数10】

から標的画像２０２のビットストリーム２１４を判断する。

【0022】

復号化側では、標的画像２０２に対応するビットストリーム２１４が受信され得、そして量子化符号化表現

【数11】

はビットストリーム２１４から生成され得る。復号化器２２０は、標的画像ｘ_ｔ２０２に対応する復号化済み画像

【数12】

２２２を生成するように構成される。復号化器２２０は、復号化済み画像２２２を判断するために量子化符号化表現

【数13】

を復号化し得る。

【0023】

いくつかの実装形態では、符号化器２１０及び復号化器２２０は同じ又は異なるデバイス内のそれぞれに置かれ得る。符号化器２１０及び復号化器２２０が異なるデバイス内に置かれる場合、異なるデバイスはすべてコンテキスト生成器２３０を含み得、そしてエントロピーモデル２５０を更に含み得る。

【0024】

本開示の一例実装形態によると、標的画像ｘ_ｔ２０２のコード化はその基準画像２４０に基づく。基準画像２４０は映像セグメント内の時間ｔの前の時間ｔ－１において復号化済み画像

【数14】

を含み得る。復号化側では、復号化済み画像

【数15】

は基準画像２４０として直接取得され得る。符号化側では、対応操作を復号化側に対し行うことにより生成された復号化済み画像

【数16】

は基準画像２４０として取られ得る。他の実装形態では、標的画像ｘ_ｔ２０２との時間的相関を有すると考えられる他の画像は基準画像２４０として選択され得る。例えば、時間ｔの前後の１又は複数の他の時間における復号化済み画像は基準画像として選択され得る。

【0025】

コンテキスト生成器２３０は基準画像

【数17】

２４０のコンテキスト特徴表現２３２（

【数18】

として表される）を抽出するように構成される。基準画像

【数19】

２４０及び標的画像ｘ_ｔ２０２が時間的相関を有するということを仮定すると、コンテキスト特徴表現

【数20】

２３２は、特徴ドメイン内の標的画像ｘ_ｔ２０２に関連付けられたコンテキスト情報を特徴付け得る。

【0026】

本明細書では、「特徴表現」は対応特徴情報（ここではコンテキスト情報）をベクトルの形式で特徴付け、そしてベクトルは複数の次元を有し得る。「特徴表現」は時々、「ベクトル化表現」、「特徴ベクトル」、「特徴」等々と呼ばれ得る。これらの用語は本明細書において交換可能に使用される。

【0027】

いくつかの実装形態では、コンテキスト生成器２３０は、コンテキスト特徴表現

【数21】

２３２を抽出するために機械学習モデルを使用し得る。コンテキスト特徴抽出のいくつかの例示的実装形態は以下の図４を参照してより詳細に論述されることになる。

【0028】

符号化プロセスでは、コンテキスト特徴表現

【数22】

２３２は符号化器２１０へ提供される。符号化器２１０はコンテキスト特徴表現

【数23】

２３２に基づき標的画像ｘ_ｔ２０２を符号化するように構成される。コンテキスト特徴表現

【数24】

２３２は、より良く符号化するのを支援するために符号化標的画像ｘ_ｔ２０２の条件として提供される。符号化器２１０は符号化表現ｙ_ｔを取得するために所与のコンテキスト特徴表現

【数25】

２３２の条件下で標的画像ｘ_ｔ２０２に対し符号化を行うように構成される。このような符号化は条件付き符号化とも呼ばれ、符号化器２１０はコンテキスト符号化器であり得る。本明細書では、条件付きコード化は、画像の符号化及び復号化を助けるための条件として任意の情報を与えることを意味する。

【0029】

これに応じて、コンテキスト特徴表現

【数26】

２３２は復号化プロセス中に復号化器２２０へ提供される。復号化器２２０は、コンテキスト特徴表現

【数27】

２３２に基づき復号化することにより、標的画像ｘ_ｔ２０２に対応する復号化済み画像２２２を取得するように構成される。復号化器２２０は、コンテキスト特徴表現

【数28】

２３２を所与として標的画像ｘ_ｔ２０２の条件付き復号化を行うように構成される。復号化側はまた、コンテキスト生成器２３０を含む。いくつかの実装形態では、ビットストリーム２１４は復号化側で受信され、そして復号化済み画像２２２はコンテキスト特徴表現

【数29】

２３２に基づきビットストリーム２１４から復号化される。

【0030】

従来の残差ベースコード化解決策から開始すると、コード化をガイドするためのいくつかの条件を取得することが期待される場合、直接的なやり方は条件として現在の標的画像ｘ_ｔの予測画像

【数30】

を取ることである可能性がある。このような条件付きコード化は次のように表され得る。

【数31】

上記式（２）では、

【数32】

は所与の予測画像

【数33】

の条件下での標的画像ｘ_ｔの符号化を表し、そして

【数34】

は所与の予測画像

【数35】

の条件下での符号化結果の復号化を表す。しかし、このような条件は画像の画素ドメインにより依然として制限されており、ここでは、各画素は制限されたチャネル次元（例えば３次元ＲＧＢの値）だけにより特徴付けられ得る。このような条件はコンテキスト情報の特徴付けを制限することになる。

【0031】

本開示の実装形態では、標的画像を符号化するためのより豊かであり且つより適切なコンテキスト情報は、基準画像

【数36】

２４０から特徴ドメイン内のより高い次元のコンテキスト特徴表現を使用することにより特徴付けられる。加えて、特徴表現はより高い次元情報を特徴付ける能力を有するので、コンテキスト特徴表現２３２内の様々なチャネルは、より高い自由度を有する様々なタイプのコンテキスト情報（色情報、テクスチャ情報、高周波数成分情報、物体縁情報などを含む）を抽出し得る。

【0032】

いくつかの実装形態では、コンテキストベース画像コード化は以下のように表され得る。

【数37】

上記式（３）では、ｆ_ｅｎｃ（・）は符号化器２１０の符号化プロセスを表し、ｆ_ｄｅｃ（・）は復号化器２２０の復号化プロセスを表し、ｆ_{ｃｏｎｔｅｘｔ}（・）はコンテキスト生成器２３０の処理操作を表し、そして「・」は丸め操作により実現される量子化を表す。

【0033】

本開示の例示的実装形態によると、コンテキストベース画像コード化（特に機械学習ベースコンテキスト画像コード化）解決策が提供される。特徴ドメインでは、標的画像を符号化するためのより豊かであり且つより適切なコンテキスト情報は、より高い次元のコンテキスト特徴表現を使用することにより特徴付けられる。コンテキスト特徴表現から抽出される様々なコンテキスト特徴を介し、コンテキストベース画像コード化はより高い再構築品質を実現し得る（特に、より多くの高周波数成分及び複雑な質感を有する画像に関して）。

【0034】

図３は、コンテキスト情報を特徴付けるコンテキスト生成器２３０により抽出されたコンテキスト特徴表現２３２の能力を示す。図３に示すように、標的画像３１０及びその基準画像３１２が提供される。特徴マップ３２０は、標的画像３１０から抽出されたコンテキスト特徴表現内の４つの異なるチャネルの特徴マップ３２１、３２２、３２３及び３２４を含む。これらの４つのチャネルは異なる強調を有する。

【0035】

特徴マップ３２１は、その中に示された運動中のバスケットボール選手が、より高い強度を有しそして標的画像３１０と基準画像３１２との間の運動ベクトル

【数38】

の視覚的表現３１４内の高強度領域に対応するので、運動情報を抽出することに焦点を合わす。標的画像３１０内に高周波数成分を有する視覚的表現３３０と比較して、特徴マップ３２３は高周波数成分に関係する特徴情報を特徴付けるために高周波数成分をより強調するということが理解され得る。対照的に、特徴マップ３２２、３２４は色情報により焦点を合わせ、ここでは、特徴マップ３２２は緑に焦点を合わせ、そして特徴マップ３２４は赤により焦点を合わせる。

【0036】

図３における再構築誤差低減グラフ３４０は、従来の残差ベースコード化解決策と比較した本開示の例示的実装形態によるコンテキストベースコード化解決策により取得され得る再構築誤差の低減の量を表す。本開示の例示的実装形態によるコンテキストベースコード化解決策は著しい誤差低減（特に、前景及び背景内の高周波数領域内の誤差低減）を実現し得るということが再構築誤差低減グラフ３４０から分かり得る。多くの従来のコーデックに関して、このような高周波数領域はすべて、圧縮することが困難であると考えられる。

【0037】

いくつかの実装形態では、符号化器２１０は符号化モデルを使用することにより条件付き符号化を行うように構成され得る。コンテキスト特徴表現

【数39】

２３２及び標的画像ｘ_ｔ２０２は、符号化モデルが標的画像２０２に対応する符号化表現を処理し出力するように入力として符号化モデルへ提供される。

【0038】

いくつかの実装形態では、復号化器２２０はまた、復号化モデルを使用することにより条件付き復号化を行うように構成され得る。コンテキスト特徴表現

【数40】

２３２及び標的画像ｘ_ｔ２０２に対応する符号化表現（量子化符号化表現

【数41】

など）は、復号化モデルが標的画像２０２に対応する復号化済み画像２２２を処理し出力するように入力として復号化モデルへ提供される。

【0039】

符号化モデル及び復号化モデルは様々な機械学習又は深層学習技術に基づき実施され得る。例えば、符号化モデル及び復号化モデルはニューラルネットワーク（ＮＮ：neural network）に基づき得、ここでは、各モデルは複数のネットワーク層を有する。これらのネットワーク層は、例えば１又は複数の畳み込み層、一般正規化（ＧＤＮ：general normalization）層（モデルを符号化するための）、逆ＧＤＮ（ＩＧＮＤ：inverse ＧＤＮ）（復号化モデルのための）、Ｒｅｓｂｌｏｃｋ層などを含み得る。本開示のいくつかの実装形態では、符号化モデル及び復号化モデルの構成は制限されない。

【0040】

機械学習技術を使用することにより、符号化モデルは、従来の残差ベースコード化解決策におけるように固定減算演算により冗長性を除去する代わりに、標的画像ｘ_ｔ２０２とコンテキスト特徴表現

【数42】

２３２との間の相関を自動的に学習しそしてこのような相関に基づき冗長情報の符号化を低減し得る。

【0041】

他方で、符号化モデルは更に、どのようにコンテキスト特徴表現

【数43】

２３２を使用するかを適応的に学習し得る。例えば、映像内の運動の存在に起因して、新しいコンテンツが常に物体の縁領域内に出現し得る。この場合、残差ベースコード化解決策は残差が符号化されることを常に必要とするので、新しく出現するコンテンツに関して、残差は非常に大きく、そして減算演算を介し行われるフレーム間符号化はフレーム内符号化ほど効率的ではない可能性がある。逆に、本開示の実装形態によるコンテキストベースコード化は条件としてコンテキスト特徴表現を適応的に使用し得る。新しく出現するコンテンツに関して、符号化モデルは、フレーム内符号化を行うことを適応的に学習し得、これにより圧縮効率を著しく改善する。図３の再構築誤差低減グラフ３４０に示すように、標的画像３１０内に出現する新しいコンテンツの再構築誤差が著しく低減される。本開示の実装形態によるコンテキストベースコード化はまた、運動により引き起こされる新しいコンテンツを非常にうまく符号化し得、そして再構築誤差を著しく低減し得るということが上記から分かり得る。

【0042】

符号化器２１０及び復号化器２２０内の標的画像２０２に対し符号化及び復号化を行うために使用されることに加えて、いくつかの実装形態では、コンテキスト特徴表現

【数44】

２３２は更に、ビットストリーム２１４を取得するために標的画像２０２により生成された符号化表現からエントロピー符号化を行うために、又は復号化器２２０による復号化のために対応量子化符号化表現を生成するためにビットストリーム２１４に対しエントロピー復号化を行うために、エントロピーモデル２５０において使用され得る。エントロピーモデル２５０に関する例示的処理が図５を参照しより詳細に以下に論述されることになる。

【0043】

コンテキスト特徴表現の抽出
いくつかの実装形態では、コンテキスト生成器２３０により使用される機械学習モデルは基準画像

【数45】

２４０を入力として取り、そして基準画像

【数46】

２４０からコンテキスト特徴表現

【数47】

２３２を抽出し得る。

【0044】

いくつかの実装形態では、映像セグメントがしばしば様々なタイプのコンテンツを含んでおりそして多くの複雑な運動を含む可能性があるということを考慮すると、運動関係情報がまた、コンテキスト特徴表現

【数48】

２３２をより良く抽出するのを助けるために使用され得る。例えば、標的画像ｘ_ｔ２０２内の位置に関して、基準画像

【数49】

２４０内の同じ位置はより小さい相関を有する可能性がある。この場合、コンテキスト特徴表現

【数50】

２３２の特徴マップ内の同じ位置はまた、標的画像ｘ_ｔ２０２内の当該位置との相関をほとんど有しない可能性があり、そしてより小さい相関を有するコンテキスト情報は恐らく、標的画像ｘ_ｔ２０２の圧縮及び符号化を促進し得ない。これに基づき、いくつかの実装形態では、コンテキスト特徴表現

【数51】

２３２を抽出するために運動ベクトル（ＭＶ）情報などの運動関係情報を使用することが提案される。

【0045】

図４は本開示のいくつかの実装形態による図２のシステムにおけるコンテキスト生成器２３０の例示的構造のブロック図を示す。図４の例示的実装形態では、コンテキスト生成器２３０は、基準画像

【数52】

２４０から初期コンテキスト特徴表現

【数53】

を抽出するように構成された特徴抽出器４１０を含む。特徴抽出器４１０は、基準画像２４０を画素ドメインから特徴ドメインへ変換するために機械学習モデルにより実施され得る。

【0046】

コンテキスト生成器２３０は更に、基準画像

【数54】

２４０と標的画像ｘ_ｔ２０２との間の運動ベクトル情報を判断するための部品を含む。図４はコンテキスト生成器２３０が運動ベクトル情報の推定を実施するために運動推定器４２０、ＭＶ符号化器４３０及びＭＶ復号化器４４０を含むということを示す。

【0047】

運動推定器４２０は、標的画像ｘ_ｔ２０２に基づき時間ｔ－１及び時間ｔとの間の運動ベクトル情報ｍ_ｔを生成するように構成される。いくつかの例では、運動推定器４２０は、運動ベクトル情報ｍ_ｔとして時間ｔ－１及び時間ｔとの間のオプティカルフローを判断するためにオプティカルフロー推定モデルを使用し得る。オプティカルフローは、観察撮像面上の空間内の移動物体の画素運動の瞬間速度を指す。従って、オプティカルフロー推定モデルがトレーニングされた後、時間ドメイン内の画像シーケンス内の画素の変化及び隣接画像間の相関が、前の時間と現在時間との間の対応関係を見出しそしてこれにより隣接画像間の物体の運動情報を計算するために使用され得る。いかなる現在存在している又は将来開発される運動ベクトル推定技術も運動ベクトル情報ｍ_ｔを判断するために使用され得る。本開示の実装形態はこの態様に制限されない。

【0048】

ＭＶ符号化器４３０は運動ベクトル情報の符号化表現４３２（ｇ_ｔとして表される）を取得するために運動ベクトル情報を符号化するように構成される。標的画像ｘ_ｔ２０２の符号化表現の処理と同様に、符号化表現４３２はビットストリーム４３０を取得するためにエントロピーモデルによりエントロピー符号化され得る。運動ベクトル情報に対応するビットストリームは標的画像ｘ_ｔ２０２のビットストリームと共に復号化端末へ送信され得る。従って、復号化側には、運動推定器４２０及びＭＶ符号化器４３０は存在しない。ＭＶ復号化器４４０は、運動ベクトル情報ｍ_ｔのビットストリーム４３０の量子化符号化表現

【数55】

を生成し、そして復号化済み運動ベクトル情報

【数56】

を取得するために量子化符号化表現

【数57】

を復号化するように構成される。ＭＶ符号化器４３０及びＭＶ復号化器４４０はまた、機械学習モデルに基づき実装され得る。

【0049】

コンテキスト生成器２３０は更に、標的画像２０２により関連するコンテキスト情報を抽出するように、復号化済み運動ベクトル情報

【数58】

に基づき、特徴抽出器４１０により抽出された初期コンテキスト特徴表現

【数59】

を調節するように構成されたサンプリングモジュール４５０を含む。いくつかの実装形態では、サンプリングモジュール４５０は中間コンテキスト特徴表現

【数60】

を取得するためにワーピング操作を介し初期コンテキスト特徴表現

【数61】

を変換するように構成される。サンプリングモジュール４５０の処理は

【数62】

として表され得、ここでｗａｒｐ（）はサンプリングモジュール４５０により行われるワーピング操作を表す。復号化済み運動ベクトル情報

【数63】

は初期コンテキスト特徴表現

【数64】

内のそれぞれの要素値の補間サンプリングをガイドするために使用され得る。

【0050】

中間コンテキスト特徴表現

【数65】

は、ワーピング操作がいくつかの空間的不連続性を導入し得るのでコンテキスト情報を比較的粗く特徴付けることができると考えられ得る。コンテキスト生成器２３０はまた、中間コンテキスト特徴表現

【数66】

から最終コンテキスト特徴表現

【数67】

２３２を生成するように構成されたコンテキスト微調整モジュール４６０を含み得、ここで

【数68】

である。コンテキスト微調整モジュール４６０はまた、特徴表現の微調整を実施するために機械学習モデルを使用し得る。機械学習モデルは、例えば複数のネットワーク層（１又は複数の畳み込み層、Ｒｅｓｂｌｏｃｋ層など）を含み得る。いくつかの実装形態では、コンテキストベース画像コード化は次のように表され得る：

【数69】

上記式（４）では、ｆ_ｆｅ（）は特徴抽出器４１０の特徴抽出処理を表し、ｗａｒｐ（）はサンプリングモジュール４５０により行われるワーピング操作を表し、そしてｆ_ｃｒ（・）はコンテキスト微調整モジュール４６０を表す。

【0051】

運動ベクトル情報に基づきコンテキスト特徴表現２３２を抽出する例示的実装形態は図４を参照して上に説明された。他の方法も採用され得るということが認識されるべきであり、例えば、様々な他のタイプの機械学習モデルが、標的画像のコード化を容易にするためにコンテキスト特徴表現を基準画像から抽出するように構成され得る。本開示の実装形態はこの点において制限されない。

【0052】

エントロピーモデルの例示的実装形態
上に簡潔に述べられたように、いくつかの実装形態では、コンテキスト特徴表現

【数70】

２３２は更に、スレーブ画像２０２に対しエントロピー符号化又はエントロピー復号化を行うためにエントロピーモデル２５０において使用され得る。エントロピーモデルは画像コード化において一般的に使用される量子化符号化モデルである。符号化側では、エントロピーモデル２５０は符号化器２１０により出力された符号化表現ｙ_ｔからビットストリームｙ２１４を生成し得る。復号化側では、エントロピーモデル２５０は、復号化器２２０による更なる復号化のためにビットストリーム２１４から標的画像２０２の量子化符号化表現

【数71】

を判断し得る。

【0053】

エントロピーモデルは量子化符号化表現

【数72】

の推定確率分布と量子化符号化表現の分布との間のクロスエントロピーを主に考慮するが、これは実際のコードレートの下限値である。これは次のように表され得る：

【数73】

ここで

【数74】

及び

【数75】

は量子化符号化表現

【数76】

の推定確率品質分布及び実際の確率品質関数をそれぞれ表し；

【数77】

は実際のコードレートを表し、そして

【数78】

はクロスエントロピーを表す。

【0054】

実際、算術コード化は、クロスエントロピーのコードレートで量子化符号化表現

【数79】

をほぼ符号化し得る。しかし、実際のコードレート

【数80】

とクロスエントロピーとの差が依然として存在する。従って、本開示のいくつかの実装形態では、コンテキスト特徴表現

【数81】

２３２は、エントロピーモデル２５０が潜在的コードの確率分布

【数82】

をより正確に推定することを可能にするために導入される。

【0055】

図５は本開示のいくつかの実装形態による図２のシステムにおけるエントロピーモデル２５０の例示的構造のブロック図を示す。図５では、エントロピーモデル２５０は、標的画像ｘ_ｔ２０２と基準画像

【数83】

２４０との間の時間的相関情報をコンテキスト特徴表現

【数84】

２３２に基づき判断するように構成された時間的相関部５１０を含む。時間的相関部５１０は、コンテキスト特徴表現

【数85】

２３２からの時間的相関情報を判断するために時間的事前符号化モデル５１２を使用し得る。時間的相関情報は、処理された潜在的コード間の時間的相関が考慮され得るように時間的事前情報を提供し得る。

【0056】

時間的相関部５１０に加えて、エントロピーモデル２５０は符号化表現ｙ_ｔからサイド情報を抽出するための典型的サイド情報抽出部５２０及び符号化表現ｙ_ｔから空間的相関情報を抽出するための空間的相関部５３０を含む。サイド情報は標的画像２０２内の階層的事前情報を提供し得、そして空間的相関情報は空間的事前情報を提供し得る。サイド情報抽出部５２０及び空間的相関部５３０は従来のエントロピーモデル内の２つのタイプの情報を抽出するためのモジュールを使用することにより実装され得る。図５は２つの部分に関する例示的実装形態だけを示す。

【0057】

図５に示すように、サイド情報抽出部５２０は次のものを含む：中間符号化表現を取得するために符号化表現ｙ_ｔを符号化するためのハイパー事前符号化器（ＨＰＥ：hyper prior encoder）５２１；量子化符号化表現

【数86】

を取得するために中間符号化表現ｚ_ｔを量子化するための量子化（Ｑ）５２２；サイド情報に対応するビットストリーム５２４を取得するために量子化符号化表現を量子化するための算術符号化器（ＡＥ：arithmetic encoder）５２３；量子化符号化表現

【数87】

を取得するためにサイド情報に対応するビットストリーム５２４を復号化するための算術復号化器（ＡＤ：arithmetic decoder）５２５；及びサイド情報を取得するために算術復号化量子化符号化表現

【数88】

を復号化するためのハイパー事前復号化器（ＨＰＤ：hyper prior decoder）５２６。サイド情報に対応するビットストリーム５２４は復号化側へ送信され得る。

【0058】

エントロピーモデル２５０は更に、量子化符号化表現

【数89】

を取得するために符号化表現ｙ_ｔを量子化するための量子化（Ｑ）５５０を含む。量子化５５０により出力される量子化符号化表現

【数90】

は空間的相関部５３０へ提供される。空間的相関部５３０は、量子化符号化表現

【数91】

から標的画像２０２の空間的相関情報の捕捉を行うために自己回帰モデル５３２を使用し得る。

【0059】

いくつかの実装形態では、時間的相関情報、サイド情報及び空間的相関情報は事前融合モジュール５６０へ提供される。事前融合モジュール５６０は時間ｔにおける確率分布の平均値μ_ｔ及び分散σ_ｔを判断するために時間的相関情報、サイド情報及び空間的相関情報を融合するように構成される。平均値μ_ｔ及び分散σ_ｔはＡＥ５５２へ提供され得る。ＡＥ５５２は、標的画像２０２に対応するビットストリーム５５４を取得するように平均値μ_ｔ及び分散σ_ｔに基づき、量子化５５０により出力される量子化符号化表現

【数92】

に対し算術符号化を行うように構成される。算術符号化表現５５４は、平均値μ_ｔ及び分散σ_ｔに基づきビットストリーム５５４から量子化符号化表現

【数93】

を復号化するように構成されたＡＤ５５６へ提供される。

【0060】

いくつかの実装形態では、サイド情報抽出部５２０内のＨＰＥ５２１、量子化５２２及びＡＥ５２３並びに量子化５５０及びＡＥ５５２は、符号化側にだけ含まれており、従って復号化側では必要ないかもしれない。サイド情報抽出部５２０により抽出されたサイド情報のビットストリーム５２４は復号化時の使用のために復号化側へ送信され得る。復号化中、量子化符号化表現はＡＤ５５６を介し標的画像２０２に対応するビットストリーム５５４に基づき判断され得る。このプロセスでは、事前融合モジュール５６０は平均値μ_ｔ及び分散σ_ｔに関する情報を依然として提供する。量子化符号化表現

【数94】

は復号化済み画像を生成するために符号化器２２０へ提供される。

【0061】

いくつかの実装形態では、エントロピーモデル２５０の処理を介し、

【数95】

の判断は以下のように表され得る。

【数96】

上記式（６）では、指標ｉは、

【数97】

がラプラス分布に従うと仮定すると画像内の空間的位置を表す。確かに、

【数98】

はガウス分布、混合ガウス分布などの別の分布に従うということも仮定され得る。上記式（６）では、ｆ_ｈｐｄ（・）はＨＰＤ５２６の処理を表し；ｆ_ａｒ（・）は自己回帰モデル５３２の処理を表し；

【数99】

は時間的事前符号化モデル５１２の処理を表し、そしてｆ_ｐｆ（・）は事前融合モジュール５６０の処理を表す。

【0062】

図５に与えられたものはサイド情報及び時間的相関情報を判断する一例であるということが認識されるべきである。他の例では、他の技術もまた、サイド情報及び時間的相関情報を判断するために使用され得る。代替的に又は追加的に、符号化表現に対しエントロピー符号化又はエントロピー復号化を行うために、他の情報もまた、判断され、そしてコンテキスト特徴表現により与えられた時間的相関情報と共に使用され得る。

【0063】

一般的に、空間的相関の抽出はしばしば比較的長い期間がかかる。いくつかの実装形態では、空間的相関部５３０はまた、エントロピーモデル２５０から省略され得る。例えば、空間的相関部５３０はスイッチモジュール５３４によりバイパスされ得る。事前融合モジュール５６０及び後続モジュールは時間的相関情報及びサイド情報に基づきビットストリーム２１４を生成する。本発明者は、空間的相関情報の省略が再構築品質に対し非常に小さな影響を及ぼすが処理効率の大きな改良を引き起こし得るということを多くの実験を介し発見した。

【0064】

モデルトレーニングの例示的実装形態
上の描写では、システム２００内の多くの部品は機械学習モデルにより実装され得るので、トレーニング過程を介しこれらの機械学習モデルのパラメータを判断することが必要である。様々な適切なモデルトレーニング技術が、システム２００内の機械学習モデルのトレーニングを実施するために採用され得る。いくつかの実装形態では、トレーニングされた損失関数が復号化済み画像の歪み及びビットレートオーバーヘッドに基づき構成され得る。例えば、損失関数は以下のように判断され得る：
Ｌ＝λ・Ｄ＋Ｒ（７）
ここでパラメータλは歪みＤとビットレートオーバーヘッドＲとの間のトレードオフを制御するための所定値であり得る。いくつかの例では、様々なアプリケーション要件に依存して、歪み度Ｄは平均二乗誤差（ＭＳＥ：mean squared error）又はマルチスケール構造類似性（ＭＳ－ＳＳＩＭ：multi-scale structural similarity）により表され得る。トレーニング過程では、Ｒは量子化符号化表現の真の確率分布と推定確率分布との間のクロスエントロピーとして判断され得る。

【0065】

例示的性能比較
図６は、本開示によるコンテキストベースコード化解決策（深層コンテキスト画像圧縮（ＤＣＶＣ：deep contextual video compression）として表される）と２つの態様（再構築品質（ＰＳＮＲにより表される：ＰＳＮＲはピーク信号対雑音比を指す）；及びビットレートオーバーヘッドＢＰＰ（ビット／画素））における性能指標の観点からの４つの従来のコード化解決策との比較を示す。４つの従来のコード化解決策は、ＤＶＣ（深層画像圧縮：deep video compression）、ＤＶＣＰｒｏ、ｘ２６４及びｘ２６５（選択された「非常に遅い」構成レベルを有する）としてそれぞれ表される。

【0066】

グラフ６１０、６２０、６３０、６４０、６５０及び６６０は、２つの映像データセットに関する５つの解決策（ＭＣＬ－ＪＣＶ、ＵＶＧ、ＨＥＶＣＣｌａｓｓＢ、ＨＥＶＣＣｌａｓｓＣ、ＨＥＶＣＣｌａｓｓＤ及びＨＥＶＣＣｌａｓｓＥ）の性能指標の測定をそれぞれ示す。同じＢＰＰ下で本開示によるコンテキストベースコード化解決策ＤＣＶＣはより高い再構築品質（すなわちＰＳＮＲ）を実現し得るということがこれらのグラフから分かり得る。同じＰＳＮＲ下で、本開示によるコンテキストベースコード化解決策ＤＣＶＣはより低いＢＰＰを実現し得る。

【0067】

例示的プロセス
図７は本開示のいくつかの実装形態による画像コード化プロセス７００のフローチャートを示す。プロセス７００は図２に示されるシステム２００において実施され得る。

【0068】

ブロック７００では、標的画像の基準画像が取得される。ブロック７２０では、コンテキスト特徴表現が基準画像から抽出される。コンテキスト特徴表現は標的画像に関連するコンテキスト情報を特徴とする。ブロック７３０では、条件付き符号化又は条件付き復号化がコンテキスト特徴表現に基づき標的画像に対し行われる。

【0069】

いくつかの実装形態では、標的画像に対し条件付き符号化を行うことは、条件付き符号化を行うように構成された符号化モデルへの入力としてコンテキスト特徴表現及び標的画像を適用することにより標的画像の符号化表現を生成することを含む。いくつかの実装形態では、標的画像を復号化することは：条件付き復号化を行うように構成された復号化モデルへの入力として標的画像のコンテキスト特徴表現及び符号化表現を適用することにより標的画像に対応する復号化済み画像を生成することを含む。

【0070】

いくつかの実装形態では、基準画像からコンテキスト特徴表現を抽出することは：基準画像から初期コンテキスト特徴表現を抽出すること；基準画像と標的画像との間の運動ベクトル情報を判断すること；及びコンテキスト特徴表現を取得するために運動ベクトル情報に基づき初期コンテキスト特徴表現を調節することを含む。

【0071】

いくつかの実装形態では、標的画像に対し条件付き符号化又は条件付き復号化を行うことは更に：コンテキスト特徴表現に基づき標的画像と基準画像との間の時間的相関情報を判断すること；及び時間的相関情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。

【0072】

いくつかの実装形態では、標的画像に対しエントロピー符号化又はエントロピー復号化を行うことは：標的画像のサイド情報を取得すること；並びに時間的相関情報及びサイド情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。

【0073】

いくつかの実装形態では、標的画像に対しエントロピー符号化又はエントロピー復号化を行うことは：符号化表現から標的画像の空間的相関情報を取得すること；並びに時間的相関情報及び空間的相関情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。

【0074】

いくつかの実装形態では、エントロピー符号化を行うことは：標的画像の符号化表現を取得すること、及び時間的相関情報に少なくとも基づき標的画像の符号化表現から標的画像のビットストリームを生成することを含む。いくつかの実装形態では、エントロピー復号化を行うことは：標的画像のビットストリームを取得すること、時間的相関情報に少なくとも基づきビットストリームから標的画像の符号化表現を判断すること、及び標的画像の符号化表現から復号化済み画像を判断することを含む。

【0075】

例示的デバイス
図８は本開示の様々な実装形態が実装され得るコンピューティングデバイス８００のブロック図を示す。図８に示すコンピューティングデバイス８００は、本開示の実装形態の機能及び範囲へのいかなる制限も示唆すること無く単に一例として提供されるということが認識されるだろう。コンピューティングデバイス８００は本開示の実装形態による画像符号化及び／又は画像復号化プロセスを実施するために使用され得る。

【0076】

図８に示すように、コンピューティングデバイス８００は汎用コンピューティングデバイスの形式のコンピューティングデバイス８００を含む。コンピューティングデバイス８００の部品は、限定しないが１又は複数のプロセッサ又は処理ユニット８１０、メモリ８２０、ストレージデバイス８３０、１又は複数の通信ユニット８４０、１又は複数の入力デバイス８５０、及び１又は複数の出力デバイス８６０を含む。

【0077】

いくつかの実装形態では、コンピューティングデバイス８００は計算能力を有する任意のユーザ端末又はサーバ端末として実装され得る。サーバ端末は、多種多様なサービスプロバイダにより提供される任意のサーバ、大規模コンピューティングデバイス等々であり得る。ユーザ端末は、例えば任意のタイプのモバイル端末、固定端末又はポータブル端末（モバイルフォン、ステーション、ユニット、デバイス、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、通信機、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナル通信システム（ＰＣＳ：personal communication system）デバイス、パーソナルナビゲーションデバイス、パーソナルディジタルアシスタント（ＰＤＡ）、オーディオ／ビデオプレーヤ、ディジタルカメラ／ビデオカメラ、測位デバイス、ＴＶ受像機、無線放送受信機、Ｅブックデバイス、ゲーミングデバイス、又はこれらの任意の組み合わせ（これらのデバイスのアクセサリ及び周辺装置又はこれらの任意の組み合わせを含む））であり得る。コンピューティングデバイス８００は、ユーザへの任意のタイプのインターフェース（「ウェアラブル」回路構成等々など）を支援し得るということも予測される。

【0078】

処理ユニット８１０は、物理的又は仮想的プロセッサであり得、そしてメモリ８２０内に格納されたプログラムに基づき様々なプロセスを実行し得る。マルチプロセッサシステムでは、複数の処理ユニットが、コンピューティングデバイス８００の並列処理能力を強化するようにコンピュータ実行可能命令を並列に実行する。処理ユニット８１０はまた、中央処理ユニット（ＣＰＵ）、マイクロプロセッサ、コントローラ又はマイクロコントローラと呼ばれ得る。

【0079】

コンピューティングデバイス８００は通常、様々なコンピュータストレージ媒体を含む。このような媒体は、コンピューティングデバイス８００によりアクセス可能な任意の入手可能媒体（限定しないが揮発性及び不揮発性媒体、又は取り外し可能及び取り外し不能媒体を含む）であり得る。メモリ８２０は、揮発性メモリ（例えばレジスタ、キャッシュ及びランダムアクセスメモリ（ＲＡＭ））、不揮発性メモリ（例えば読み取り専用メモリ（ＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ）又はこれらの任意の組み合わせであり得る。メモリ８２０は、本明細書において説明される様々な実装形態の機能を行うように構成される画像コード化モジュール８２２を含み得る。画像コード化モジュール８２２は対応機能を実施するために処理ユニット８１０によりアクセスされ実行され得る。

【0080】

ストレージデバイス８３０は、任意の取り外し可能又は取り外し不能媒体であり得、そして情報及び／又はデータを格納するために使用され得そしてコンピューティングデバイス８００内でアクセス可能である機械可読媒体を含み得る。コンピューティングデバイス８００は更に、追加の取り外し可能／取り外し不能、揮発性／不揮発性メモリ媒体を含み得る。図８には示されないが、取り外し可能且つ不揮発性ディスクから読み出す又はそれへ書き込むためのディスクドライブ、及び取り外し可能不揮発性光ディスクから読み出しそしてそれへ書き込むための光ディスクドライブも設けられ得る。このようなケースでは、各ドライブは１又は複数のデータ媒体インターフェースを介しバス（示されない）へ接続され得る。

【0081】

通信ユニット８４０は通信媒体を介した別のコンピューティングデバイスとの通信を実施する。加えて、コンピューティングデバイス８００内の部品の機能は、通信結合を介し互いに通信し得る単一コンピューティングクラスタ又は複数のコンピューティング機械により実施され得る。従って、コンピューティングデバイス８００は、１又は複数の他のサーバ、パーソナルコンピュータ（ＰＣ）又は更に一般ネットワークノードとの論理接続を使用することによりネットワーク環境において動作し得る。

【0082】

入力デバイス８５０はマウス、キーボード、トラッキングボール、音声入力デバイス等々などの多種多様な入力デバイスのうちの１又は複数であり得る。出力デバイス８６０はディスプレイ、ラウドスピーカ、プリンタ等々などの多種多様な出力デバイスのうちの１又は複数を含み得る。通信ユニット８４０により、コンピューティングデバイス８００は更に必要に応じ、ストレージデバイス及びディスプレイデバイスなどの１又は複数の外部デバイス（示されない）、ユーザがコンピューティングデバイス８００と相互作用することを可能にする１又は複数のデバイス、又はコンピューティングデバイス８００が１又は複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス（ネットワークカード、モデム等々など）と通信し得る。このような通信は入出力（Ｉ／Ｏ）インターフェース（示されない）を介し行われ得る。

【0083】

いくつかの実装形態では、単一デバイス上に集積化される代替案として、コンピューティングデバイス８００のいくつかの又はすべての部品はまた、クラウドコンピューティングアーキテクチャの形式で配置され得る。クラウドコンピューティングアーキテクチャでは、これらの部品は、遠隔的に設けられ、そして本開示において説明される機能を実施するために一緒に働き得る。いくつかの実装形態では、クラウドコンピューティングは、これらのサービスを提供するシステム又はハードウェアの物理的位置又は構成にエンドユーザが気付くことを必要としなくなる計算、ソフトウェアサービス、データアクセスサービス及びストレージサービスを提供する。様々な実装形態では、クラウドコンピューティングは適切なプロトコルを使用することにより広域ネットワーク（インターネットなど）を介しサービスを提供する。例えば、クラウドコンピューティングプロバイダは、ウェブブラウザ又は任意の他のコンピューティング部品を介しアクセスされ得る広域ネットワーク全体にわたってアプリケーションを提供する。クラウドコンピューティングアーキテクチャのソフトウェア又は部品及び対応データは遠隔位置に在るサーバ内に格納され得る。クラウドコンピュータ環境内のコンピューティング資源はリモートデータセンタの場所に集約されてもよいし、又は分散されてもよい。クラウドコンピューティングインフラストラクチャは共用データセンタ（これはユーザの単一アクセス点として振る舞うが）を介しサービスを提供し得る。従って、クラウドコンピューティングインフラストラクチャは本明細書において説明される部品及び機能を遠隔地においてサービスプロバイダから提供するために利用され得る。代替的に、クラウドコンピューティングインフラストラクチャは従来のサーバから提供されてもよいし、又はクライアントデバイス上に直接的に若しくは間接的に設置されてもよい。

【0084】

コンピューティングデバイス８００は本開示の様々な実装形態におけるコンテキストベース画像コード化を実施するために使用され得る。コンピューティングデバイス８００（例えばメモリ８２０）は画像コード化モジュール８２２を含む。画像符号化を実施する際、画像コード化モジュール８２２は画像符号化に関する上記機能を行うように構成され得る。画像復号化時、画像コード化モジュール８２２は画像復号化に関する上記機能を行うように構成され得る。

【0085】

コンピューティングデバイス８００は入力デバイス８５０又は通信ユニット８４０を介し入力８７０を受信し得る。符号化を行う際、入力８７０は符号化される標的画像を含む。復号化を行う際、入力８０７は復号化されるビットストリームを含む。入力８７０は画像コード化操作を行うために画像コード化モジュール８２２へ提供される。符号化を行う際、画像コード化モジュール８２２は出力８００として標的画像のビットストリームを生成する。復号化を行う際、画像コード化モジュール８２２は出力８００として標的画像の復号化済み画像を生成する。いくつかの実装形態では、出力８００は出力デバイス８６０により出力されてもよいし、又は通信ユニット８４０を介し他のデバイスへ送信されてもよい。

【0086】

例示的実装形態
本開示のいくつかの例示的実装形態は以下のように列挙される。

【0087】

一態様では、本開示はコンピュータ実装型方法を提供する。本方法は、標的画像の基準画像を取得すること；標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現を基準画像から抽出すること；及びコンテキスト特徴表現に基づき標的画像に対し条件付き符号化又は条件付き復号化を行うことを含む。

【0088】

いくつかの実装形態では、標的画像に対し条件付き符号化を行うことは条件付き符号化を行うように構成された符号化モデルへの入力としてコンテキスト特徴表現及び標的画像を適用することにより標的画像の符号化表現を生成することを含む。いくつかの実装形態では、標的画像に対し条件付き復号化を行うことは：条件付き復号化を行うように構成された復号化モデルへの入力として標的画像のコンテキスト特徴表現及び符号化表現を適用することにより標的画像に対応する復号化済み画像を生成することを含む。

【0089】

【0090】

【0091】

【0092】

【0093】

いくつかの実装形態では、エントロピー符号化を行うことは：標的画像の符号化表現を取得すること；及び時間的相関情報に少なくとも基づき標的画像の符号化表現から標的画像のビットストリームを生成することを含む。いくつかの実装形態では、エントロピー復号化を行うことは：標的画像のビットストリームを取得すること；時間的相関情報に少なくとも基づきビットストリームから標的画像の符号化表現を判断すること、及び標的画像の符号化表現から復号化済み画像を判断することを含む。

【0094】

別の態様では、本開示は電子デバイスを提供する。電子デバイスは：プロセッサ；及びプロセッサへ結合されるメモリであってその上に格納された命令を有するメモリを含み、命令は、プロセッサにより実行されると本デバイスに以下のことを含む動作を行わせる：標的画像の基準画像を取得すること；標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現を基準画像から抽出すること；及び条件付き符号化又は条件付き復号化をコンテキスト特徴表現に基づき標的画像に対し行うこと。

【0095】

【0096】

【0097】

【0098】

【0099】

【0100】

いくつかの実装形態では、エントロピー符号化を行うことは：標的画像の符号化表現を取得すること、及び時間的相関情報に少なくとも基づき標的画像の符号化表現から標的画像のビットストリームを生成することを含む。いくつかの実装形態では、エントロピー復号化を行うことは：標的画像のビットストリームを取得すること；時間的相関情報に少なくとも基づきビットストリームから標的画像の符号化表現を判断すること；及び標的画像の符号化表現に基づき復号化済み画像を判断することを含む。

【0101】

別の態様では、本開示は、コンピュータストレージ媒体内に有形に格納されるコンピュータプログラム製品であってコンピュータ実行可能命令を含むコンピュータプログラム製品を提供し、コンピュータ実行可能命令はデバイスにより実行されると以下のことを含む動作を本デバイスに行わせる：標的画像の基準画像を取得すること；標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現を基準画像から抽出すること；及び条件付き符号化又は条件付き復号化をコンテキスト特徴表現に基づき標的画像に対し行うこと。

【0102】

いくつかの実装形態では、標的画像に対し条件付き符号化を行うことは、条件付き符号化を行うように構成された符号化モデルへの入力としてコンテキスト特徴表現及び標的画像を適用することにより標的画像の符号化表現を生成することを含み；いくつかの実装形態では、標的画像に対し条件付き復号化を行うことは：条件付き復号化を行うように構成された復号化モデルへの入力として標的画像のコンテキスト特徴表現及び符号化表現を適用することにより標的画像に対応する復号化済み画像を生成することを含む。

【0103】

【0104】

【0105】

【0106】

【0107】

いくつかの実装形態では、エントロピー符号化を行うことは：標的画像の符号化表現を取得すること；及び時間的相関情報に少なくとも基づき標的画像の符号化表現から標的画像のビットストリームを生成することを含む。いくつかの実装形態では、エントロピー復号化を行うことは：標的画像のビットストリームを取得すること；時間的相関情報に少なくとも基づきビットストリームから標的画像の符号化表現を判断すること；及び標的画像の符号化表現に基づき復号化済み画像を判断することを含む。

【0108】

別の態様では、本開示は、その上に格納されたコンピュータ実行可能命令を有するコンピュータ可読媒体を提供し、コンピュータ実行可能命令は、デバイスにより実行されると本デバイスに上記態様における方法を行わせる。

【0109】

本明細書において説明される機能は１又は複数のハードウェア論理部品により少なくとも部分的に行われ得る。一例として、そして制限無く、使用され得る例示的タイプのハードウェア論理部品は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向集積回路（ＡＳＩＣ：application-specific integrated circuit）、特定用途標準品（ＡＳＳＰ：application-specific standard product）、システムオンチップシステム（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）等々を含む。

【0110】

本開示の方法を実行するためのプログラムコードは１又は複数のプログラミング言語の任意の組み合わせで書かれ得る。プログラムコードは、プログラムコードがプロセッサ又はコントローラにより実行されるとフローチャート及び／又はブロック図に規定される機能／操作を実施させるように、汎用コンピュータ、特定用途コンピュータ又は他のプログラム可能データ処理装置のプロセッサ又はコントローラへ提供され得る。プログラムコードは、マシン上で完全に又は部分的に実行されてもよいし、マシン上で部分的に、リモートマシン上で部分的に、又はリモートマシン若しくはサーバ上で完全にスタンドアロンソフトウェアパッケージとして実行されてもよい。

【0111】

本開示のコンテキストでは、機械可読媒体は、命令実行システム、装置又はデバイスによる又はそれとの関連で使用されるためのプログラムを含み得る又は格納し得る任意の有形媒体であり得る。機械可読媒体は機械可読信号媒体又は機械可読ストレージ媒体であり得る。機械可読媒体は、制限しないが電子、磁気、光学的、電磁気、赤外線、又は半導体システム、装置又はデバイス、又はこれらの任意の好適な組み合わせを含む。機械可読ストレージ媒体のより具体的な例は、１又は複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能ＲＯＭ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光学的ストレージデバイス、磁気ストレージデバイス又はこれらの任意の好適な組み合わせを含むだろう。

【0112】

更に、いくつかの操作は特定順番で描写されているが、これは、このような操作が示された特定順番で又は連続的順番で行われるということ又はすべての示された操作が望ましい結果を実現するために行われるということを必要とするものと理解されるべきではない。いくつかの環境では、マルチタスキング及び並列処理が有利であり得る。同様に、いくつかの具体的実装形態詳細が上の論述に含まれるが、これらは本開示の範囲に対する制限として解釈されるべきでなく、むしろ特定実装形態に固有であり得る特徴の説明として解釈されるべきである。別々の実装形態のコンテキストで説明されるいくつかの特徴はまた単一実装形態における組み合わせで実装され得る。むしろ、単一実装形態において説明された様々な特徴はまた、複数実装形態において別々に又は任意の好適なサブ組み合わせで実装され得る。

【0113】

本主題は構造的特徴及び／又は方法論的行為に固有な言語で説明されたが、添付の特許請求の範囲において規定される主題は上述の特定特徴又は行為に必ずしも限定されないということを理解すべきである。むしろ、上述の特定特徴及び行為は特許請求項を実施する例示的形式として開示される。

【図1】