(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-12
(54)【発明の名称】コンテキストベース画像コード化
(51)【国際特許分類】
H04N 19/134 20140101AFI20240705BHJP
H04N 19/172 20140101ALI20240705BHJP
H04N 19/103 20140101ALI20240705BHJP
【FI】
H04N19/134
H04N19/172
H04N19/103
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023570174
(86)(22)【出願日】2022-05-23
(85)【翻訳文提出日】2024-01-09
(86)【国際出願番号】 US2022030462
(87)【国際公開番号】W WO2023278068
(87)【国際公開日】2023-01-05
(31)【優先権主張番号】202110738324.5
(32)【優先日】2021-06-30
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】314015767
【氏名又は名称】マイクロソフト テクノロジー ライセンシング,エルエルシー
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】リー,ジアハオ
(72)【発明者】
【氏名】リー,ビン
(72)【発明者】
【氏名】ルー,ヤン
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA04
5C159MA05
5C159MC11
5C159ME11
5C159NN27
5C159NN36
5C159PP04
5C159RC11
5C159TA01
5C159TA16
5C159TA59
5C159TB04
5C159UA02
5C159UA05
(57)【要約】
本開示の実装形態によると、コンテキストベース画像コード化解決策が提供される。本解決策によると、標的画像の基準画像が取得される。標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現が基準画像から抽出される。条件付き符号化又は条件付き復号化がコンテキスト特徴表現に基づき標的画像に対し行われる。このようにして、性能の向上が再構築品質及び圧縮効率の観点で達成される。
【特許請求の範囲】
【請求項1】
標的画像の基準画像を取得することと、
前記標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現を前記基準画像から抽出することと、
条件付き符号化又は条件付き復号化を前記コンテキスト特徴表現に基づき前記標的画像に対し行うことと
を含む画像コード化方法。
【請求項2】
前記標的画像に対し前記条件付き符号化を行うことは、
前記条件付き符号化を行なうように構成された符号化モデルへの入力として前記コンテキスト特徴表現及び前記標的画像を適用することにより前記標的画像の符号化表現を生成することを含む、又は
前記標的画像に対し前記条件付き復号化を行うことは、
前記条件付き復号化を行うように構成された復号化モデルへの入力として前記標的画像の前記コンテキスト特徴表現及び符号化表現を適用することにより前記標的画像に対応する復号化済み画像を生成することを含む、請求項1に記載の方法。
【請求項3】
前記基準画像から前記コンテキスト特徴表現を抽出することは、
前記基準画像から初期コンテキスト特徴表現を抽出することと、
前記基準画像と前記標的画像との間の運動ベクトル情報を判断することと、
前記コンテキスト特徴表現を取得するために前記運動ベクトル情報に基づき前記初期コンテキスト特徴表現を調節することと
を含む、請求項1に記載の方法。
【請求項4】
前記標的画像に対し前記条件付き符号化又は条件付き復号化を行うことは更に、
前記コンテキスト特徴表現に基づき前記標的画像と前記基準画像との間の時間的相関情報を判断することと、
前記時間的相関情報に少なくとも基づき前記標的画像に対しエントロピー符号化又はエントロピー復号化を行うことと
を含む、請求項1に記載の方法。
【請求項5】
前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことは、
前記標的画像のサイド情報を取得することと、
前記時間的相関情報及び前記サイド情報に少なくとも基づき前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことと
を含む、請求項4に記載の方法。
【請求項6】
前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことは、
符号化表現から前記標的画像の空間的相関情報を取得することと、
前記時間的相関情報及び前記空間的相関情報に少なくとも基づき前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことと
を含む、請求項4に記載の方法。
【請求項7】
前記エントロピー符号化を行うことは、
前記標的画像の符号化表現を取得することと、
前記時間的相関情報に少なくとも基づき前記標的画像の符号化表現から前記標的画像のビットストリームを生成することと、
を含み、
前記エントロピー復号化を行うことは、
前記標的画像のビットストリームを取得することと、
前記時間的相関情報に少なくとも基づき前記ビットストリームから前記標的画像の符号化表現を判断することと、
前記標的画像の前記符号化表現から復号化済み画像を判断することと
を含む、請求項4に記載の方法。
【請求項8】
プロセッサと、
前記プロセッサへ結合されるメモリであってその上に格納された命令を有するメモリとを含む電子デバイスであって、前記命令は、前記プロセッサにより実行されると前記デバイスに、
標的画像の基準画像を取得することと、
前記標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現を前記基準画像から抽出することと、
条件付き符号化又は条件付き復号化を前記コンテキスト特徴表現に基づき前記標的画像に対し行うことと
を含む動作を行わせる、電子デバイス。
【請求項9】
前記標的画像に対し前記条件付き符号化を行うことは、
前記条件付き符号化を行うように構成された符号化モデルへの入力として前記コンテキスト特徴表現及び前記標的画像を適用することにより前記標的画像の符号化表現を生成することを含む、又は
前記標的画像に対し前記条件付き復号化を行うことは、
前記条件付き復号化を行うように構成された復号化モデルへの入力として前記標的画像の前記コンテキスト特徴表現及び符号化表現を適用することにより前記標的画像に対応する復号化済み画像を生成することを含む、請求項8に記載の電子デバイス。
【請求項10】
前記基準画像から前記コンテキスト特徴表現を抽出することは、
前記基準画像から初期コンテキスト特徴表現を抽出することと、
前記基準画像と前記標的画像との間の運動ベクトル情報を判断することと、
前記コンテキスト特徴表現を取得するために前記運動ベクトル情報に基づき前記初期コンテキスト特徴表現を調節することと
を含む、請求項8に記載の電子デバイス。
【請求項11】
前記標的画像に対し前記条件付き符号化又は条件付き復号化を行うことは更に、
前記コンテキスト特徴表現に基づき前記標的画像と前記基準画像との間の時間的相関情報を判断することと、
前記時間的相関情報に少なくとも基づき前記標的画像に対しエントロピー符号化又はエントロピー復号化を行うことと
を含む、請求項8に記載の電子デバイス。
【請求項12】
前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことは、
前記標的画像のサイド情報を取得することと、
前記時間的相関情報及び前記サイド情報に少なくとも基づき前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことと
を含む、請求項11に記載の電子デバイス。
【請求項13】
前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことは、
符号化表現から前記標的画像の空間的相関情報を取得することと、
前記時間的相関情報及び前記空間的相関情報に少なくとも基づき前記標的画像に対し前記エントロピー符号化又はエントロピー復号化を行うことと
を含む、請求項11に記載の電子デバイス。
【請求項14】
前記エントロピー符号化を行うことはと、
前記標的画像の符号化表現を取得することと、
前記時間的相関情報に少なくとも基づき前記標的画像の符号化表現から前記標的画像のビットストリームを生成することと
を含み、
前記エントロピー復号化を行うことは、
前記標的画像のビットストリームを取得することと、
前記時間的相関情報に少なくとも基づき前記ビットストリームから前記標的画像の符号化表現を判断することと、
前記標的画像の前記符号化表現に基づき復号化済み画像を判断することと
を含む、請求項11に記載の電子デバイス。
【請求項15】
コンピュータストレージ媒体内に有形に格納されコンピュータ実行可能命令を含むコンピュータプログラム製品であって、前記コンピュータ実行可能命令はデバイスにより実行されると、
標的画像の基準画像を取得することと、
前記標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現を前記基準画像から抽出することと、
条件付き符号化又は条件付き復号化を前記コンテキスト特徴表現に基づき前記標的画像に対し行うことと
を含む動作を前記デバイスに行わせる、コンピュータプログラム製品。
【発明の詳細な説明】
【背景技術】
【0001】
背景
本明細書では、「コード化」は符号化及び/又は復号化を含み得る。通常、映像のフレームは、ネットワーク上の送信のための映像のフレームを圧縮するために送信端末において符号化器により符号化される。所与のフレームの符号化は基準映像内の別のフレームを参照することにより行われ得る。符号化を介し生成された符号化表現に対応するビットストリームが受信端末へ送信される。受信端末における対応復号化器は、復号化された所与のフレームを受信端末の画面へ出力するように受信ビットストリームから映像の所与のフレームを復号化し得る。コード化中、フレームの再構築品質及び圧縮効率は常に、注目に値する側面である。
【発明の概要】
【0002】
概要
本開示のいくつかの実装形態によると、コンテキストベース画像コード化解決策が提供される。この解決策では、標的画像の基準画像が取得される。標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現が基準画像から抽出される。条件付き符号化又は条件付き復号化がコンテキスト特徴表現に基づき標的画像に対し行われる。このようにして、性能の向上が再構築品質及び圧縮効率の観点で達成される。
【0003】
「発明の概要」は、「発明を実施するための形態」において以下に更に説明される概念の選択を単純化形式で導入することである。「発明の概要」は、本明細書において説明される主題の重要な特徴又は必須の特徴を識別するようには意図されていないし、本明細書において説明される主題の範囲を制限するために使用されるように意図されてもいない。
【図面の簡単な説明】
【0004】
図面の簡単な説明
【
図1】従来の残差ベース映像コード化システムの概略ブロック図を示す。
【
図2】本開示のいくつかの実装形態によるコンテキストベース映像コード化システムの概略ブロック図を示す。
【
図3】本開示のいくつかの実装形態によるコンテキスト情報を特徴付けるコンテキスト特徴表現の能力の一例を示す。
【
図4】本開示のいくつかの実装形態による
図2のシステムにおけるコンテキスト生成器の例示的構造のブロック図を示す。
【
図5】本開示のいくつかの実装形態による
図2のシステムにおけるエントロピーモデルの例示的構造のブロック図を示す。
【
図6】本開示のいくつかの実装形態によるコンテキストベース映像コード化解決策と従来の映像コード化解決策との比較を示す。
【
図7】本開示のいくつかの実装形態による映像コード化プロセスのフローチャートを示す。
【
図8】本開示の複数の実装形態を実装することができるコンピューティングデバイスのブロック図を示す。
【発明を実施するための形態】
【0005】
添付図面全体にわたって、同じ又は同様な参照符号は同じ又は同様な要素を指す。
【0006】
実施形態の詳細な説明
次に本開示はいくつかの例示的実装形態を参照して説明される。「これらの実装形態は、図示の目的のためだけに説明されており、本開示の範囲へのいかなる制限も示唆すること無く当業者がより良く理解しそして従って本開示を実施するのを助ける」ということを理解すべきである。
【0007】
本明細書で使用されるように、用語「含む」及びその変形は「限定しないが含む」を意味する開放用語として読まれるべきである。用語「に基づき」は「に少なくとも部分的に基づき」として読まれるべきである。用語「実装形態」及び「1つの実装形態」は「少なくとも1つの実装形態」として読まれるべきである。用語「別の実装形態」は「少なくとも1つの他の実装形態」として読まれるべきである。用語「第1の」、「第2の」等々は異なる又は同じ物体を参照し得る。他の定義(明示的又は暗黙的のいずれにせよ)が以下に含まれ得る。
【0008】
本明細書で使用されるように、用語「モデル」は、トレーニングデータから学習可能である対応入力と対応出力との関連を指し得、従って、対応出力はトレーニング後の所与の入力のために生成され得る。モデルの生成は機械学習技術に基づき得る。深層学習は、処理ユニットの複数の層を使用することにより入力を処理しそして対応出力を提供する機械学習アルゴリズムの1つである。ニューラルネットワークモデルは深層学習ベースモデルの一例である。本明細書で使用されるように、「モデル」は、「機械学習モデル」、「学習モデル」、「機械学習ネットワーク」又は「学習ネットワーク」とも呼ばれ得、これらの用語は本明細書において交換可能に使用される。
【0009】
「ニューラルネットワーク」は深層学習に基づく機械学習ネットワークである。ニューラルネットワークは、対応出力を提供するために入力を処理し得、そして通常、入力層、出力層、及び入力層と出力層との間の1又は複数の隠れ層を含む。深層学習アプリケーションにおいて使用されるニューラルネットワークは通常、多数の隠れ層を含み、これによりネットワークの深さを増加する。ニューラルネットワークの層は、前の層の出力が次の層の入力として提供されるように順番に接続され、ここでは、入力層はニューラルネットワークの入力を受信し、そして出力層の出力はニューラルネットワークの最終出力と見なされる。ニューラルネットワークの各層は、それぞれが前の層からの入力を処理する1又は複数のノード(処理ノード又はニューロンとも呼ばれる)を含む。
【0010】
一般的に、機械学習は3つの局面(すなわちトレーニング局面、試験局面、適用局面(干渉局面とも呼ばれる))を含み得る。トレーニング局面では、所与のモデルは大量のトレーニングデータを使用することによりトレーニングされ得、パラメータ値は、モデルが、期待標的を満たす一貫した干渉をトレーニングデータから取得し得るまで、繰り返し更新される。トレーニングを介し、モデルは、トレーニングデータから入力と出力との関連性(「入力・ツー・出力マッピング」とも呼ばれる)を学習することができると考えられ得る。トレーニング済みモデルのパラメータ値が判断される。試験局面では、試験入力が、モデルの性能を判断するようにモデルが正しい出力を提供し得るかどうかを試験するためにトレーニング済みモデルへ適用される。適用局面では、モデルはトレーニングにおいて取得されたパラメータ値に基づき実際の入力を処理しそして対応出力を判断するために使用され得る。
【0011】
本明細書では、「フレーム」又は「映像フレーム」は映像セグメント内の個々の画像を指す。「画像」及び「フレーム」は本明細書では交換可能に使用される。それぞれの画像がフレームと考えられる複数の連続画像が動的映像セグメントを形成し得る。
【0012】
現在、機械学習技術の発展と共に、機械学習を映像コード化プロセスへ適用することが提案されてきた。しかし、映像フレームの再構築品質及び圧縮効率は従来のコード化プロセスの制限に起因して依然として改善される必要がある。
【0013】
残差ベース従来型映像コード化
1988年に開発されたH.261映像コード化標準規格から2020年にリリースされたH.266映像コード化標準規格までを含む従来型映像コード化解決策はすべて、残差ベースコード化解決策を広く採用する。この解決策は、現在画像の基準画像を生成することによるそして符号化及び復号化を現在画像と基準画像との残差に対し行うことによる予測コード化パラダイムに基づく。
図1は従来型残差ベース映像コード化システム100の概略ブロック図を示す。システム100は符号化器110、復号化器120、画像予測器130、残差生成モジュール140及び残差加算モジュール150を含む。残差ベースコード化プロセスでは、符号化器110は残差符号化器と呼ばれ、復号化器120は残差復号化器と呼ばれる。
【0014】
現在符号化されている画像102が映像セグメント内の時間tにおける画像x
tであるということを仮定すると、画像予測器130は基準画像170に基づき画像102の予測画像
【数1】
132を生成するように構成される。基準画像170は、映像セグメント内に時間tの前の時間t-1における復号化済み画像
【数2】
を含み得る。残差生成モジュール140は画像102 x
tと予測画像
【数3】
132との間の残差を計算する。符号化器110は画像102 x
tの符号化表現を生成するために残差を符号化する。符号化表現に対応するビットストリーム112は復号化側へ送信される。
【0015】
復号化側では、復号化器120はビットストリーム112を受信し、そして復号化済み画像を得るためにビットストリーム112を復号化する。残差加算モジュール150は、時間tにおける復号化済み画像160
【数4】
を取得するために、復号化器120より提供された復号化済み画像と画像予測器130により生成された予測画像
【数5】
132とを足し合わせる。
【0016】
残差ベース映像コード化は以下のように表され得る:
【数6】
上記式(1)では、f
enc(・)は符号化器110の符号化プロセスを表し、f
dec(・)は復号化器120の復号化プロセスを表し、f
predict(・)は画像予測器130の予測処理を表し、そして「・」は量子化操作を表す。機械学習に基づくアプリケーションでは、符号化器110は残差符号化を実施するために機械学習モデルを使用し得、従って復号化器120は残差復号化を実施するために機械学習モデルを使用し得る。
【0017】
動作原理及び例示的システム
映像内のフレーム間の強い時間的相関を考えれば、残差符号化は過去の映像を圧縮する単純且つ有効なやり方と考えられた。しかし、本出願の発明者は、所与の予測画像
【数7】
により現在画像x
tを符号化することによる残差コード化は、残差コード化が単純減算演算を使用することにより画像間の冗長性を常に除去するので最適ではないということを研究を通し発見した。残差コード化のエントロピーは条件付きコード化のエントロピー以上であり
【数8】
、ここでHはシャノンエントロピーである。理論的に、現在画像x
tの画素は前の時間における復号化済み画像内のすべて画素に関係し、そしてこれらの画素は画像x
t内で復号化された。伝統的コーデックに関して、前の時間における復号化済み画像と現在画像との間の相関のすべてを手作り規則により明示的に特徴付けることは困難である。従って、残差ベースコード化は、現在画像の画素が予測画像内の対応予測画素にだけ関係するという仮定を利用し、これによりコード化プロセスを単純化する。しかし、このようなコード化解決策は実際、再構築品質及び圧縮率の観点で十分に最適化されない。
【0018】
本開示のいくつかの例示的実装形態によると、コンテキストベースコード化解決策が提供される。標的画像の予測画像を生成しそして従来の解決策で必要とされるような標的画像と予測画像との間の残差に対し符号化を行うこととは異なり、条件付きコード化は、本開示の例示的実装形態においてコンテキスト特徴表現を基準画像から抽出することにより標的画像に対し行われる。この解決策では、特徴ドメインにおいて、コンテキスト情報は、標的画像に対する適応符号化をガイドするための条件と考えられる。このような解決策は、同じビットレートのケースではより高い圧縮率を取得し得る。加えて、現在画像に関係する様々な態様におけるコンテキスト情報は特徴ドメイン内のより高い次元を特徴とし得るので、コンテキストベース画像コード化はより高い再構築品質を実現し得る。このようにして、性能改善が再構築品質及び圧縮効率の観点で実現される。
【0019】
以下では、本開示のいくつかの例示的実装形態が添付図面を参照してより詳細に説明される。
【0020】
本開示のいくつかの実装形態によるコンテキストベース映像コード化システム200の概略ブロック図を示す
図2を最初に参照する。システム200は符号化器210、復号化器220及びコンテキスト生成器230を含む。
【0021】
符号化器210は、符号化される画像(本明細書において標的画像と呼ばれる)x
t 202の符号化表現(潜在的コードとも呼ばれる)y
tを生成するために構成される。標的画像x
t 202は時間tにおける映像セグメント内のフレームを含み得る。いくつかの実装形態では、システム200は更に、エントロピー符号化(符号化側の)又はエントロピー復号化(復号化側の)を行うように構成されるエントロピーモデル250を含み得る。符号化側では、エントロピーモデル250は、量子化符号化表現(quantized encoded representation)
【数9】
を取得するために符号化表現y
tを量子化し、そして量子化符号化表現
【数10】
から標的画像202のビットストリーム214を判断する。
【0022】
復号化側では、標的画像202に対応するビットストリーム214が受信され得、そして量子化符号化表現
【数11】
はビットストリーム214から生成され得る。復号化器220は、標的画像x
t 202に対応する復号化済み画像
【数12】
222を生成するように構成される。復号化器220は、復号化済み画像222を判断するために量子化符号化表現
【数13】
を復号化し得る。
【0023】
いくつかの実装形態では、符号化器210及び復号化器220は同じ又は異なるデバイス内のそれぞれに置かれ得る。符号化器210及び復号化器220が異なるデバイス内に置かれる場合、異なるデバイスはすべてコンテキスト生成器230を含み得、そしてエントロピーモデル250を更に含み得る。
【0024】
本開示の一例実装形態によると、標的画像x
t 202のコード化はその基準画像240に基づく。基準画像240は映像セグメント内の時間tの前の時間t-1において復号化済み画像
【数14】
を含み得る。復号化側では、復号化済み画像
【数15】
は基準画像240として直接取得され得る。符号化側では、対応操作を復号化側に対し行うことにより生成された復号化済み画像
【数16】
は基準画像240として取られ得る。他の実装形態では、標的画像x
t 202との時間的相関を有すると考えられる他の画像は基準画像240として選択され得る。例えば、時間tの前後の1又は複数の他の時間における復号化済み画像は基準画像として選択され得る。
【0025】
コンテキスト生成器230は基準画像
【数17】
240のコンテキスト特徴表現232(
【数18】
として表される)を抽出するように構成される。基準画像
【数19】
240及び標的画像x
t 202が時間的相関を有するということを仮定すると、コンテキスト特徴表現
【数20】
232は、特徴ドメイン内の標的画像x
t 202に関連付けられたコンテキスト情報を特徴付け得る。
【0026】
本明細書では、「特徴表現」は対応特徴情報(ここではコンテキスト情報)をベクトルの形式で特徴付け、そしてベクトルは複数の次元を有し得る。「特徴表現」は時々、「ベクトル化表現」、「特徴ベクトル」、「特徴」等々と呼ばれ得る。これらの用語は本明細書において交換可能に使用される。
【0027】
いくつかの実装形態では、コンテキスト生成器230は、コンテキスト特徴表現
【数21】
232を抽出するために機械学習モデルを使用し得る。コンテキスト特徴抽出のいくつかの例示的実装形態は以下の
図4を参照してより詳細に論述されることになる。
【0028】
符号化プロセスでは、コンテキスト特徴表現
【数22】
232は符号化器210へ提供される。符号化器210はコンテキスト特徴表現
【数23】
232に基づき標的画像x
t 202を符号化するように構成される。コンテキスト特徴表現
【数24】
232は、より良く符号化するのを支援するために符号化標的画像x
t 202の条件として提供される。符号化器210は符号化表現y
tを取得するために所与のコンテキスト特徴表現
【数25】
232の条件下で標的画像x
t 202に対し符号化を行うように構成される。このような符号化は条件付き符号化とも呼ばれ、符号化器210はコンテキスト符号化器であり得る。本明細書では、条件付きコード化は、画像の符号化及び復号化を助けるための条件として任意の情報を与えることを意味する。
【0029】
これに応じて、コンテキスト特徴表現
【数26】
232は復号化プロセス中に復号化器220へ提供される。復号化器220は、コンテキスト特徴表現
【数27】
232に基づき復号化することにより、標的画像x
t 202に対応する復号化済み画像222を取得するように構成される。復号化器220は、コンテキスト特徴表現
【数28】
232を所与として標的画像x
t 202の条件付き復号化を行うように構成される。復号化側はまた、コンテキスト生成器230を含む。いくつかの実装形態では、ビットストリーム214は復号化側で受信され、そして復号化済み画像222はコンテキスト特徴表現
【数29】
232に基づきビットストリーム214から復号化される。
【0030】
従来の残差ベースコード化解決策から開始すると、コード化をガイドするためのいくつかの条件を取得することが期待される場合、直接的なやり方は条件として現在の標的画像x
tの予測画像
【数30】
を取ることである可能性がある。このような条件付きコード化は次のように表され得る。
【数31】
上記式(2)では、
【数32】
は所与の予測画像
【数33】
の条件下での標的画像x
tの符号化を表し、そして
【数34】
は所与の予測画像
【数35】
の条件下での符号化結果の復号化を表す。しかし、このような条件は画像の画素ドメインにより依然として制限されており、ここでは、各画素は制限されたチャネル次元(例えば3次元RGBの値)だけにより特徴付けられ得る。このような条件はコンテキスト情報の特徴付けを制限することになる。
【0031】
本開示の実装形態では、標的画像を符号化するためのより豊かであり且つより適切なコンテキスト情報は、基準画像
【数36】
240から特徴ドメイン内のより高い次元のコンテキスト特徴表現を使用することにより特徴付けられる。加えて、特徴表現はより高い次元情報を特徴付ける能力を有するので、コンテキスト特徴表現232内の様々なチャネルは、より高い自由度を有する様々なタイプのコンテキスト情報(色情報、テクスチャ情報、高周波数成分情報、物体縁情報などを含む)を抽出し得る。
【0032】
いくつかの実装形態では、コンテキストベース画像コード化は以下のように表され得る。
【数37】
上記式(3)では、f
enc(・)は符号化器210の符号化プロセスを表し、f
dec(・)は復号化器220の復号化プロセスを表し、f
context(・)はコンテキスト生成器230の処理操作を表し、そして「・」は丸め操作により実現される量子化を表す。
【0033】
本開示の例示的実装形態によると、コンテキストベース画像コード化(特に機械学習ベースコンテキスト画像コード化)解決策が提供される。特徴ドメインでは、標的画像を符号化するためのより豊かであり且つより適切なコンテキスト情報は、より高い次元のコンテキスト特徴表現を使用することにより特徴付けられる。コンテキスト特徴表現から抽出される様々なコンテキスト特徴を介し、コンテキストベース画像コード化はより高い再構築品質を実現し得る(特に、より多くの高周波数成分及び複雑な質感を有する画像に関して)。
【0034】
図3は、コンテキスト情報を特徴付けるコンテキスト生成器230により抽出されたコンテキスト特徴表現232の能力を示す。
図3に示すように、標的画像310及びその基準画像312が提供される。特徴マップ320は、標的画像310から抽出されたコンテキスト特徴表現内の4つの異なるチャネルの特徴マップ321、322、323及び324を含む。これらの4つのチャネルは異なる強調を有する。
【0035】
特徴マップ321は、その中に示された運動中のバスケットボール選手が、より高い強度を有しそして標的画像310と基準画像312との間の運動ベクトル
【数38】
の視覚的表現314内の高強度領域に対応するので、運動情報を抽出することに焦点を合わす。標的画像310内に高周波数成分を有する視覚的表現330と比較して、特徴マップ323は高周波数成分に関係する特徴情報を特徴付けるために高周波数成分をより強調するということが理解され得る。対照的に、特徴マップ322、324は色情報により焦点を合わせ、ここでは、特徴マップ322は緑に焦点を合わせ、そして特徴マップ324は赤により焦点を合わせる。
【0036】
図3における再構築誤差低減グラフ340は、従来の残差ベースコード化解決策と比較した本開示の例示的実装形態によるコンテキストベースコード化解決策により取得され得る再構築誤差の低減の量を表す。本開示の例示的実装形態によるコンテキストベースコード化解決策は著しい誤差低減(特に、前景及び背景内の高周波数領域内の誤差低減)を実現し得るということが再構築誤差低減グラフ340から分かり得る。多くの従来のコーデックに関して、このような高周波数領域はすべて、圧縮することが困難であると考えられる。
【0037】
いくつかの実装形態では、符号化器210は符号化モデルを使用することにより条件付き符号化を行うように構成され得る。コンテキスト特徴表現
【数39】
232及び標的画像x
t 202は、符号化モデルが標的画像202に対応する符号化表現を処理し出力するように入力として符号化モデルへ提供される。
【0038】
いくつかの実装形態では、復号化器220はまた、復号化モデルを使用することにより条件付き復号化を行うように構成され得る。コンテキスト特徴表現
【数40】
232及び標的画像x
t 202に対応する符号化表現(量子化符号化表現
【数41】
など)は、復号化モデルが標的画像202に対応する復号化済み画像222を処理し出力するように入力として復号化モデルへ提供される。
【0039】
符号化モデル及び復号化モデルは様々な機械学習又は深層学習技術に基づき実施され得る。例えば、符号化モデル及び復号化モデルはニューラルネットワーク(NN:neural network)に基づき得、ここでは、各モデルは複数のネットワーク層を有する。これらのネットワーク層は、例えば1又は複数の畳み込み層、一般正規化(GDN:general normalization)層(モデルを符号化するための)、逆GDN(IGND:inverse GDN)(復号化モデルのための)、Resblock層などを含み得る。本開示のいくつかの実装形態では、符号化モデル及び復号化モデルの構成は制限されない。
【0040】
機械学習技術を使用することにより、符号化モデルは、従来の残差ベースコード化解決策におけるように固定減算演算により冗長性を除去する代わりに、標的画像x
t 202とコンテキスト特徴表現
【数42】
232との間の相関を自動的に学習しそしてこのような相関に基づき冗長情報の符号化を低減し得る。
【0041】
他方で、符号化モデルは更に、どのようにコンテキスト特徴表現
【数43】
232を使用するかを適応的に学習し得る。例えば、映像内の運動の存在に起因して、新しいコンテンツが常に物体の縁領域内に出現し得る。この場合、残差ベースコード化解決策は残差が符号化されることを常に必要とするので、新しく出現するコンテンツに関して、残差は非常に大きく、そして減算演算を介し行われるフレーム間符号化はフレーム内符号化ほど効率的ではない可能性がある。逆に、本開示の実装形態によるコンテキストベースコード化は条件としてコンテキスト特徴表現を適応的に使用し得る。新しく出現するコンテンツに関して、符号化モデルは、フレーム内符号化を行うことを適応的に学習し得、これにより圧縮効率を著しく改善する。
図3の再構築誤差低減グラフ340に示すように、標的画像310内に出現する新しいコンテンツの再構築誤差が著しく低減される。本開示の実装形態によるコンテキストベースコード化はまた、運動により引き起こされる新しいコンテンツを非常にうまく符号化し得、そして再構築誤差を著しく低減し得るということが上記から分かり得る。
【0042】
符号化器210及び復号化器220内の標的画像202に対し符号化及び復号化を行うために使用されることに加えて、いくつかの実装形態では、コンテキスト特徴表現
【数44】
232は更に、ビットストリーム214を取得するために標的画像202により生成された符号化表現からエントロピー符号化を行うために、又は復号化器220による復号化のために対応量子化符号化表現を生成するためにビットストリーム214に対しエントロピー復号化を行うために、エントロピーモデル250において使用され得る。エントロピーモデル250に関する例示的処理が
図5を参照しより詳細に以下に論述されることになる。
【0043】
コンテキスト特徴表現の抽出
いくつかの実装形態では、コンテキスト生成器230により使用される機械学習モデルは基準画像
【数45】
240を入力として取り、そして基準画像
【数46】
240からコンテキスト特徴表現
【数47】
232を抽出し得る。
【0044】
いくつかの実装形態では、映像セグメントがしばしば様々なタイプのコンテンツを含んでおりそして多くの複雑な運動を含む可能性があるということを考慮すると、運動関係情報がまた、コンテキスト特徴表現
【数48】
232をより良く抽出するのを助けるために使用され得る。例えば、標的画像x
t 202内の位置に関して、基準画像
【数49】
240内の同じ位置はより小さい相関を有する可能性がある。この場合、コンテキスト特徴表現
【数50】
232の特徴マップ内の同じ位置はまた、標的画像x
t 202内の当該位置との相関をほとんど有しない可能性があり、そしてより小さい相関を有するコンテキスト情報は恐らく、標的画像x
t 202の圧縮及び符号化を促進し得ない。これに基づき、いくつかの実装形態では、コンテキスト特徴表現
【数51】
232を抽出するために運動ベクトル(MV)情報などの運動関係情報を使用することが提案される。
【0045】
図4は本開示のいくつかの実装形態による
図2のシステムにおけるコンテキスト生成器230の例示的構造のブロック図を示す。
図4の例示的実装形態では、コンテキスト生成器230は、基準画像
【数52】
240から初期コンテキスト特徴表現
【数53】
を抽出するように構成された特徴抽出器410を含む。特徴抽出器410は、基準画像240を画素ドメインから特徴ドメインへ変換するために機械学習モデルにより実施され得る。
【0046】
コンテキスト生成器230は更に、基準画像
【数54】
240と標的画像x
t 202との間の運動ベクトル情報を判断するための部品を含む。
図4はコンテキスト生成器230が運動ベクトル情報の推定を実施するために運動推定器420、MV符号化器430及びMV復号化器440を含むということを示す。
【0047】
運動推定器420は、標的画像xt 202に基づき時間t-1及び時間tとの間の運動ベクトル情報mtを生成するように構成される。いくつかの例では、運動推定器420は、運動ベクトル情報mtとして時間t-1及び時間tとの間のオプティカルフローを判断するためにオプティカルフロー推定モデルを使用し得る。オプティカルフローは、観察撮像面上の空間内の移動物体の画素運動の瞬間速度を指す。従って、オプティカルフロー推定モデルがトレーニングされた後、時間ドメイン内の画像シーケンス内の画素の変化及び隣接画像間の相関が、前の時間と現在時間との間の対応関係を見出しそしてこれにより隣接画像間の物体の運動情報を計算するために使用され得る。いかなる現在存在している又は将来開発される運動ベクトル推定技術も運動ベクトル情報mtを判断するために使用され得る。本開示の実装形態はこの態様に制限されない。
【0048】
MV符号化器430は運動ベクトル情報の符号化表現432(g
tとして表される)を取得するために運動ベクトル情報を符号化するように構成される。標的画像x
t 202の符号化表現の処理と同様に、符号化表現432はビットストリーム430を取得するためにエントロピーモデルによりエントロピー符号化され得る。運動ベクトル情報に対応するビットストリームは標的画像x
t 202のビットストリームと共に復号化端末へ送信され得る。従って、復号化側には、運動推定器420及びMV符号化器430は存在しない。MV復号化器440は、運動ベクトル情報m
tのビットストリーム430の量子化符号化表現
【数55】
を生成し、そして復号化済み運動ベクトル情報
【数56】
を取得するために量子化符号化表現
【数57】
を復号化するように構成される。MV符号化器430及びMV復号化器440はまた、機械学習モデルに基づき実装され得る。
【0049】
コンテキスト生成器230は更に、標的画像202により関連するコンテキスト情報を抽出するように、復号化済み運動ベクトル情報
【数58】
に基づき、特徴抽出器410により抽出された初期コンテキスト特徴表現
【数59】
を調節するように構成されたサンプリングモジュール450を含む。いくつかの実装形態では、サンプリングモジュール450は中間コンテキスト特徴表現
【数60】
を取得するためにワーピング操作を介し初期コンテキスト特徴表現
【数61】
を変換するように構成される。サンプリングモジュール450の処理は
【数62】
として表され得、ここでwarp()はサンプリングモジュール450により行われるワーピング操作を表す。復号化済み運動ベクトル情報
【数63】
は初期コンテキスト特徴表現
【数64】
内のそれぞれの要素値の補間サンプリングをガイドするために使用され得る。
【0050】
中間コンテキスト特徴表現
【数65】
は、ワーピング操作がいくつかの空間的不連続性を導入し得るのでコンテキスト情報を比較的粗く特徴付けることができると考えられ得る。コンテキスト生成器230はまた、中間コンテキスト特徴表現
【数66】
から最終コンテキスト特徴表現
【数67】
232を生成するように構成されたコンテキスト微調整モジュール460を含み得、ここで
【数68】
である。コンテキスト微調整モジュール460はまた、特徴表現の微調整を実施するために機械学習モデルを使用し得る。機械学習モデルは、例えば複数のネットワーク層(1又は複数の畳み込み層、Resblock層など)を含み得る。いくつかの実装形態では、コンテキストベース画像コード化は次のように表され得る:
【数69】
上記式(4)では、f
fe()は特徴抽出器410の特徴抽出処理を表し、warp()はサンプリングモジュール450により行われるワーピング操作を表し、そしてf
cr(・)はコンテキスト微調整モジュール460を表す。
【0051】
運動ベクトル情報に基づきコンテキスト特徴表現232を抽出する例示的実装形態は
図4を参照して上に説明された。他の方法も採用され得るということが認識されるべきであり、例えば、様々な他のタイプの機械学習モデルが、標的画像のコード化を容易にするためにコンテキスト特徴表現を基準画像から抽出するように構成され得る。本開示の実装形態はこの点において制限されない。
【0052】
エントロピーモデルの例示的実装形態
上に簡潔に述べられたように、いくつかの実装形態では、コンテキスト特徴表現
【数70】
232は更に、スレーブ画像202に対しエントロピー符号化又はエントロピー復号化を行うためにエントロピーモデル250において使用され得る。エントロピーモデルは画像コード化において一般的に使用される量子化符号化モデルである。符号化側では、エントロピーモデル250は符号化器210により出力された符号化表現y
tからビットストリームy214を生成し得る。復号化側では、エントロピーモデル250は、復号化器220による更なる復号化のためにビットストリーム214から標的画像202の量子化符号化表現
【数71】
を判断し得る。
【0053】
エントロピーモデルは量子化符号化表現
【数72】
の推定確率分布と量子化符号化表現の分布との間のクロスエントロピーを主に考慮するが、これは実際のコードレートの下限値である。これは次のように表され得る:
【数73】
ここで
【数74】
及び
【数75】
は量子化符号化表現
【数76】
の推定確率品質分布及び実際の確率品質関数をそれぞれ表し;
【数77】
は実際のコードレートを表し、そして
【数78】
はクロスエントロピーを表す。
【0054】
実際、算術コード化は、クロスエントロピーのコードレートで量子化符号化表現
【数79】
をほぼ符号化し得る。しかし、実際のコードレート
【数80】
とクロスエントロピーとの差が依然として存在する。従って、本開示のいくつかの実装形態では、コンテキスト特徴表現
【数81】
232は、エントロピーモデル250が潜在的コードの確率分布
【数82】
をより正確に推定することを可能にするために導入される。
【0055】
図5は本開示のいくつかの実装形態による
図2のシステムにおけるエントロピーモデル250の例示的構造のブロック図を示す。
図5では、エントロピーモデル250は、標的画像x
t 202と基準画像
【数83】
240との間の時間的相関情報をコンテキスト特徴表現
【数84】
232に基づき判断するように構成された時間的相関部510を含む。時間的相関部510は、コンテキスト特徴表現
【数85】
232からの時間的相関情報を判断するために時間的事前符号化モデル512を使用し得る。時間的相関情報は、処理された潜在的コード間の時間的相関が考慮され得るように時間的事前情報を提供し得る。
【0056】
時間的相関部510に加えて、エントロピーモデル250は符号化表現y
tからサイド情報を抽出するための典型的サイド情報抽出部520及び符号化表現y
tから空間的相関情報を抽出するための空間的相関部530を含む。サイド情報は標的画像202内の階層的事前情報を提供し得、そして空間的相関情報は空間的事前情報を提供し得る。サイド情報抽出部520及び空間的相関部530は従来のエントロピーモデル内の2つのタイプの情報を抽出するためのモジュールを使用することにより実装され得る。
図5は2つの部分に関する例示的実装形態だけを示す。
【0057】
図5に示すように、サイド情報抽出部520は次のものを含む:中間符号化表現を取得するために符号化表現y
tを符号化するためのハイパー事前符号化器(HPE:hyper prior encoder)521;量子化符号化表現
【数86】
を取得するために中間符号化表現z
tを量子化するための量子化(Q)522;サイド情報に対応するビットストリーム524を取得するために量子化符号化表現を量子化するための算術符号化器(AE:arithmetic encoder)523;量子化符号化表現
【数87】
を取得するためにサイド情報に対応するビットストリーム524を復号化するための算術復号化器(AD:arithmetic decoder)525;及びサイド情報を取得するために算術復号化量子化符号化表現
【数88】
を復号化するためのハイパー事前復号化器(HPD:hyper prior decoder)526。サイド情報に対応するビットストリーム524は復号化側へ送信され得る。
【0058】
エントロピーモデル250は更に、量子化符号化表現
【数89】
を取得するために符号化表現y
tを量子化するための量子化(Q)550を含む。量子化550により出力される量子化符号化表現
【数90】
は空間的相関部530へ提供される。空間的相関部530は、量子化符号化表現
【数91】
から標的画像202の空間的相関情報の捕捉を行うために自己回帰モデル532を使用し得る。
【0059】
いくつかの実装形態では、時間的相関情報、サイド情報及び空間的相関情報は事前融合モジュール560へ提供される。事前融合モジュール560は時間tにおける確率分布の平均値μ
t及び分散σ
tを判断するために時間的相関情報、サイド情報及び空間的相関情報を融合するように構成される。平均値μ
t及び分散σ
tはAE552へ提供され得る。AE552は、標的画像202に対応するビットストリーム554を取得するように平均値μ
t及び分散σ
tに基づき、量子化550により出力される量子化符号化表現
【数92】
に対し算術符号化を行うように構成される。算術符号化表現554は、平均値μ
t及び分散σ
tに基づきビットストリーム554から量子化符号化表現
【数93】
を復号化するように構成されたAD556へ提供される。
【0060】
いくつかの実装形態では、サイド情報抽出部520内のHPE521、量子化522及びAE523並びに量子化550及びAE552は、符号化側にだけ含まれており、従って復号化側では必要ないかもしれない。サイド情報抽出部520により抽出されたサイド情報のビットストリーム524は復号化時の使用のために復号化側へ送信され得る。復号化中、量子化符号化表現はAD556を介し標的画像202に対応するビットストリーム554に基づき判断され得る。このプロセスでは、事前融合モジュール560は平均値μ
t及び分散σ
tに関する情報を依然として提供する。量子化符号化表現
【数94】
は復号化済み画像を生成するために符号化器220へ提供される。
【0061】
いくつかの実装形態では、エントロピーモデル250の処理を介し、
【数95】
の判断は以下のように表され得る。
【数96】
上記式(6)では、指標iは、
【数97】
がラプラス分布に従うと仮定すると画像内の空間的位置を表す。確かに、
【数98】
はガウス分布、混合ガウス分布などの別の分布に従うということも仮定され得る。上記式(6)では、f
hpd(・)はHPD526の処理を表し;f
ar(・)は自己回帰モデル532の処理を表し;
【数99】
は時間的事前符号化モデル512の処理を表し、そしてf
pf(・)は事前融合モジュール560の処理を表す。
【0062】
図5に与えられたものはサイド情報及び時間的相関情報を判断する一例であるということが認識されるべきである。他の例では、他の技術もまた、サイド情報及び時間的相関情報を判断するために使用され得る。代替的に又は追加的に、符号化表現に対しエントロピー符号化又はエントロピー復号化を行うために、他の情報もまた、判断され、そしてコンテキスト特徴表現により与えられた時間的相関情報と共に使用され得る。
【0063】
一般的に、空間的相関の抽出はしばしば比較的長い期間がかかる。いくつかの実装形態では、空間的相関部530はまた、エントロピーモデル250から省略され得る。例えば、空間的相関部530はスイッチモジュール534によりバイパスされ得る。事前融合モジュール560及び後続モジュールは時間的相関情報及びサイド情報に基づきビットストリーム214を生成する。本発明者は、空間的相関情報の省略が再構築品質に対し非常に小さな影響を及ぼすが処理効率の大きな改良を引き起こし得るということを多くの実験を介し発見した。
【0064】
モデルトレーニングの例示的実装形態
上の描写では、システム200内の多くの部品は機械学習モデルにより実装され得るので、トレーニング過程を介しこれらの機械学習モデルのパラメータを判断することが必要である。様々な適切なモデルトレーニング技術が、システム200内の機械学習モデルのトレーニングを実施するために採用され得る。いくつかの実装形態では、トレーニングされた損失関数が復号化済み画像の歪み及びビットレートオーバーヘッドに基づき構成され得る。例えば、損失関数は以下のように判断され得る:
L=λ・D+R (7)
ここでパラメータλは歪みDとビットレートオーバーヘッドRとの間のトレードオフを制御するための所定値であり得る。いくつかの例では、様々なアプリケーション要件に依存して、歪み度Dは平均二乗誤差(MSE:mean squared error)又はマルチスケール構造類似性(MS-SSIM:multi-scale structural similarity)により表され得る。トレーニング過程では、Rは量子化符号化表現の真の確率分布と推定確率分布との間のクロスエントロピーとして判断され得る。
【0065】
例示的性能比較
図6は、本開示によるコンテキストベースコード化解決策(深層コンテキスト画像圧縮(DCVC:deep contextual video compression)として表される)と2つの態様(再構築品質(PSNRにより表される:PSNRはピーク信号対雑音比を指す);及びビットレートオーバーヘッドBPP(ビット/画素))における性能指標の観点からの4つの従来のコード化解決策との比較を示す。4つの従来のコード化解決策は、DVC(深層画像圧縮:deep video compression)、DVCPro、x264及びx265(選択された「非常に遅い」構成レベルを有する)としてそれぞれ表される。
【0066】
グラフ610、620、630、640、650及び660は、2つの映像データセットに関する5つの解決策(MCL-JCV、UVG、HEVC ClassB、HEVC ClassC、HEVC ClassD及びHEVC ClassE)の性能指標の測定をそれぞれ示す。同じBPP下で本開示によるコンテキストベースコード化解決策DCVCはより高い再構築品質(すなわちPSNR)を実現し得るということがこれらのグラフから分かり得る。同じPSNR下で、本開示によるコンテキストベースコード化解決策DCVCはより低いBPPを実現し得る。
【0067】
例示的プロセス
図7は本開示のいくつかの実装形態による画像コード化プロセス700のフローチャートを示す。プロセス700は
図2に示されるシステム200において実施され得る。
【0068】
ブロック700では、標的画像の基準画像が取得される。ブロック720では、コンテキスト特徴表現が基準画像から抽出される。コンテキスト特徴表現は標的画像に関連するコンテキスト情報を特徴とする。ブロック730では、条件付き符号化又は条件付き復号化がコンテキスト特徴表現に基づき標的画像に対し行われる。
【0069】
いくつかの実装形態では、標的画像に対し条件付き符号化を行うことは、条件付き符号化を行うように構成された符号化モデルへの入力としてコンテキスト特徴表現及び標的画像を適用することにより標的画像の符号化表現を生成することを含む。いくつかの実装形態では、標的画像を復号化することは:条件付き復号化を行うように構成された復号化モデルへの入力として標的画像のコンテキスト特徴表現及び符号化表現を適用することにより標的画像に対応する復号化済み画像を生成することを含む。
【0070】
いくつかの実装形態では、基準画像からコンテキスト特徴表現を抽出することは:基準画像から初期コンテキスト特徴表現を抽出すること;基準画像と標的画像との間の運動ベクトル情報を判断すること;及びコンテキスト特徴表現を取得するために運動ベクトル情報に基づき初期コンテキスト特徴表現を調節することを含む。
【0071】
いくつかの実装形態では、標的画像に対し条件付き符号化又は条件付き復号化を行うことは更に:コンテキスト特徴表現に基づき標的画像と基準画像との間の時間的相関情報を判断すること;及び時間的相関情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。
【0072】
いくつかの実装形態では、標的画像に対しエントロピー符号化又はエントロピー復号化を行うことは:標的画像のサイド情報を取得すること;並びに時間的相関情報及びサイド情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。
【0073】
いくつかの実装形態では、標的画像に対しエントロピー符号化又はエントロピー復号化を行うことは:符号化表現から標的画像の空間的相関情報を取得すること;並びに時間的相関情報及び空間的相関情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。
【0074】
いくつかの実装形態では、エントロピー符号化を行うことは:標的画像の符号化表現を取得すること、及び時間的相関情報に少なくとも基づき標的画像の符号化表現から標的画像のビットストリームを生成することを含む。いくつかの実装形態では、エントロピー復号化を行うことは:標的画像のビットストリームを取得すること、時間的相関情報に少なくとも基づきビットストリームから標的画像の符号化表現を判断すること、及び標的画像の符号化表現から復号化済み画像を判断することを含む。
【0075】
例示的デバイス
図8は本開示の様々な実装形態が実装され得るコンピューティングデバイス800のブロック図を示す。
図8に示すコンピューティングデバイス800は、本開示の実装形態の機能及び範囲へのいかなる制限も示唆すること無く単に一例として提供されるということが認識されるだろう。コンピューティングデバイス800は本開示の実装形態による画像符号化及び/又は画像復号化プロセスを実施するために使用され得る。
【0076】
図8に示すように、コンピューティングデバイス800は汎用コンピューティングデバイスの形式のコンピューティングデバイス800を含む。コンピューティングデバイス800の部品は、限定しないが1又は複数のプロセッサ又は処理ユニット810、メモリ820、ストレージデバイス830、1又は複数の通信ユニット840、1又は複数の入力デバイス850、及び1又は複数の出力デバイス860を含む。
【0077】
いくつかの実装形態では、コンピューティングデバイス800は計算能力を有する任意のユーザ端末又はサーバ端末として実装され得る。サーバ端末は、多種多様なサービスプロバイダにより提供される任意のサーバ、大規模コンピューティングデバイス等々であり得る。ユーザ端末は、例えば任意のタイプのモバイル端末、固定端末又はポータブル端末(モバイルフォン、ステーション、ユニット、デバイス、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、通信機、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナル通信システム(PCS:personal communication system)デバイス、パーソナルナビゲーションデバイス、パーソナルディジタルアシスタント(PDA)、オーディオ/ビデオプレーヤ、ディジタルカメラ/ビデオカメラ、測位デバイス、TV受像機、無線放送受信機、Eブックデバイス、ゲーミングデバイス、又はこれらの任意の組み合わせ(これらのデバイスのアクセサリ及び周辺装置又はこれらの任意の組み合わせを含む))であり得る。コンピューティングデバイス800は、ユーザへの任意のタイプのインターフェース(「ウェアラブル」回路構成等々など)を支援し得るということも予測される。
【0078】
処理ユニット810は、物理的又は仮想的プロセッサであり得、そしてメモリ820内に格納されたプログラムに基づき様々なプロセスを実行し得る。マルチプロセッサシステムでは、複数の処理ユニットが、コンピューティングデバイス800の並列処理能力を強化するようにコンピュータ実行可能命令を並列に実行する。処理ユニット810はまた、中央処理ユニット(CPU)、マイクロプロセッサ、コントローラ又はマイクロコントローラと呼ばれ得る。
【0079】
コンピューティングデバイス800は通常、様々なコンピュータストレージ媒体を含む。このような媒体は、コンピューティングデバイス800によりアクセス可能な任意の入手可能媒体(限定しないが揮発性及び不揮発性媒体、又は取り外し可能及び取り外し不能媒体を含む)であり得る。メモリ820は、揮発性メモリ(例えばレジスタ、キャッシュ及びランダムアクセスメモリ(RAM))、不揮発性メモリ(例えば読み取り専用メモリ(ROM)、電気的消去可能PROM(EEPROM)、フラッシュメモリ)又はこれらの任意の組み合わせであり得る。メモリ820は、本明細書において説明される様々な実装形態の機能を行うように構成される画像コード化モジュール822を含み得る。画像コード化モジュール822は対応機能を実施するために処理ユニット810によりアクセスされ実行され得る。
【0080】
ストレージデバイス830は、任意の取り外し可能又は取り外し不能媒体であり得、そして情報及び/又はデータを格納するために使用され得そしてコンピューティングデバイス800内でアクセス可能である機械可読媒体を含み得る。コンピューティングデバイス800は更に、追加の取り外し可能/取り外し不能、揮発性/不揮発性メモリ媒体を含み得る。
図8には示されないが、取り外し可能且つ不揮発性ディスクから読み出す又はそれへ書き込むためのディスクドライブ、及び取り外し可能不揮発性光ディスクから読み出しそしてそれへ書き込むための光ディスクドライブも設けられ得る。このようなケースでは、各ドライブは1又は複数のデータ媒体インターフェースを介しバス(示されない)へ接続され得る。
【0081】
通信ユニット840は通信媒体を介した別のコンピューティングデバイスとの通信を実施する。加えて、コンピューティングデバイス800内の部品の機能は、通信結合を介し互いに通信し得る単一コンピューティングクラスタ又は複数のコンピューティング機械により実施され得る。従って、コンピューティングデバイス800は、1又は複数の他のサーバ、パーソナルコンピュータ(PC)又は更に一般ネットワークノードとの論理接続を使用することによりネットワーク環境において動作し得る。
【0082】
入力デバイス850はマウス、キーボード、トラッキングボール、音声入力デバイス等々などの多種多様な入力デバイスのうちの1又は複数であり得る。出力デバイス860はディスプレイ、ラウドスピーカ、プリンタ等々などの多種多様な出力デバイスのうちの1又は複数を含み得る。通信ユニット840により、コンピューティングデバイス800は更に必要に応じ、ストレージデバイス及びディスプレイデバイスなどの1又は複数の外部デバイス(示されない)、ユーザがコンピューティングデバイス800と相互作用することを可能にする1又は複数のデバイス、又はコンピューティングデバイス800が1又は複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(ネットワークカード、モデム等々など)と通信し得る。このような通信は入出力(I/O)インターフェース(示されない)を介し行われ得る。
【0083】
いくつかの実装形態では、単一デバイス上に集積化される代替案として、コンピューティングデバイス800のいくつかの又はすべての部品はまた、クラウドコンピューティングアーキテクチャの形式で配置され得る。クラウドコンピューティングアーキテクチャでは、これらの部品は、遠隔的に設けられ、そして本開示において説明される機能を実施するために一緒に働き得る。いくつかの実装形態では、クラウドコンピューティングは、これらのサービスを提供するシステム又はハードウェアの物理的位置又は構成にエンドユーザが気付くことを必要としなくなる計算、ソフトウェアサービス、データアクセスサービス及びストレージサービスを提供する。様々な実装形態では、クラウドコンピューティングは適切なプロトコルを使用することにより広域ネットワーク(インターネットなど)を介しサービスを提供する。例えば、クラウドコンピューティングプロバイダは、ウェブブラウザ又は任意の他のコンピューティング部品を介しアクセスされ得る広域ネットワーク全体にわたってアプリケーションを提供する。クラウドコンピューティングアーキテクチャのソフトウェア又は部品及び対応データは遠隔位置に在るサーバ内に格納され得る。クラウドコンピュータ環境内のコンピューティング資源はリモートデータセンタの場所に集約されてもよいし、又は分散されてもよい。クラウドコンピューティングインフラストラクチャは共用データセンタ(これはユーザの単一アクセス点として振る舞うが)を介しサービスを提供し得る。従って、クラウドコンピューティングインフラストラクチャは本明細書において説明される部品及び機能を遠隔地においてサービスプロバイダから提供するために利用され得る。代替的に、クラウドコンピューティングインフラストラクチャは従来のサーバから提供されてもよいし、又はクライアントデバイス上に直接的に若しくは間接的に設置されてもよい。
【0084】
コンピューティングデバイス800は本開示の様々な実装形態におけるコンテキストベース画像コード化を実施するために使用され得る。コンピューティングデバイス800(例えばメモリ820)は画像コード化モジュール822を含む。画像符号化を実施する際、画像コード化モジュール822は画像符号化に関する上記機能を行うように構成され得る。画像復号化時、画像コード化モジュール822は画像復号化に関する上記機能を行うように構成され得る。
【0085】
コンピューティングデバイス800は入力デバイス850又は通信ユニット840を介し入力870を受信し得る。符号化を行う際、入力870は符号化される標的画像を含む。復号化を行う際、入力807は復号化されるビットストリームを含む。入力870は画像コード化操作を行うために画像コード化モジュール822へ提供される。符号化を行う際、画像コード化モジュール822は出力800として標的画像のビットストリームを生成する。復号化を行う際、画像コード化モジュール822は出力800として標的画像の復号化済み画像を生成する。いくつかの実装形態では、出力800は出力デバイス860により出力されてもよいし、又は通信ユニット840を介し他のデバイスへ送信されてもよい。
【0086】
例示的実装形態
本開示のいくつかの例示的実装形態は以下のように列挙される。
【0087】
一態様では、本開示はコンピュータ実装型方法を提供する。本方法は、標的画像の基準画像を取得すること;標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現を基準画像から抽出すること;及びコンテキスト特徴表現に基づき標的画像に対し条件付き符号化又は条件付き復号化を行うことを含む。
【0088】
いくつかの実装形態では、標的画像に対し条件付き符号化を行うことは条件付き符号化を行うように構成された符号化モデルへの入力としてコンテキスト特徴表現及び標的画像を適用することにより標的画像の符号化表現を生成することを含む。いくつかの実装形態では、標的画像に対し条件付き復号化を行うことは:条件付き復号化を行うように構成された復号化モデルへの入力として標的画像のコンテキスト特徴表現及び符号化表現を適用することにより標的画像に対応する復号化済み画像を生成することを含む。
【0089】
いくつかの実装形態では、基準画像からコンテキスト特徴表現を抽出することは:基準画像から初期コンテキスト特徴表現を抽出すること;基準画像と標的画像との間の運動ベクトル情報を判断すること;及びコンテキスト特徴表現を取得するために運動ベクトル情報に基づき初期コンテキスト特徴表現を調節することを含む。
【0090】
いくつかの実装形態では、標的画像に対し条件付き符号化又は条件付き復号化を行うことは更に:コンテキスト特徴表現に基づき標的画像と基準画像との間の時間的相関情報を判断すること;及び時間的相関情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。
【0091】
いくつかの実装形態では、標的画像に対しエントロピー符号化又はエントロピー復号化を行うことは:標的画像のサイド情報を取得すること;並びに時間的相関情報及びサイド情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。
【0092】
いくつかの実装形態では、標的画像に対しエントロピー符号化又はエントロピー復号化を行うことは:符号化表現から標的画像の空間的相関情報を取得すること;並びに時間的相関情報及び空間的相関情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。
【0093】
いくつかの実装形態では、エントロピー符号化を行うことは:標的画像の符号化表現を取得すること;及び時間的相関情報に少なくとも基づき標的画像の符号化表現から標的画像のビットストリームを生成することを含む。いくつかの実装形態では、エントロピー復号化を行うことは:標的画像のビットストリームを取得すること;時間的相関情報に少なくとも基づきビットストリームから標的画像の符号化表現を判断すること、及び標的画像の符号化表現から復号化済み画像を判断することを含む。
【0094】
別の態様では、本開示は電子デバイスを提供する。電子デバイスは:プロセッサ;及びプロセッサへ結合されるメモリであってその上に格納された命令を有するメモリを含み、命令は、プロセッサにより実行されると本デバイスに以下のことを含む動作を行わせる:標的画像の基準画像を取得すること;標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現を基準画像から抽出すること;及び条件付き符号化又は条件付き復号化をコンテキスト特徴表現に基づき標的画像に対し行うこと。
【0095】
いくつかの実装形態では、標的画像に対し条件付き符号化を行うことは条件付き符号化を行うように構成された符号化モデルへの入力としてコンテキスト特徴表現及び標的画像を適用することにより標的画像の符号化表現を生成することを含む。いくつかの実装形態では、標的画像に対し条件付き復号化を行うことは:条件付き復号化を行うように構成された復号化モデルへの入力として標的画像のコンテキスト特徴表現及び符号化表現を適用することにより標的画像に対応する復号化済み画像を生成することを含む
【0096】
いくつかの実装形態では、基準画像からコンテキスト特徴表現を抽出することは:基準画像から初期コンテキスト特徴表現を抽出すること;基準画像と標的画像との間の運動ベクトル情報を判断すること;及びコンテキスト特徴表現を取得するために運動ベクトル情報に基づき初期コンテキスト特徴表現を調節することを含む。
【0097】
いくつかの実装形態では、標的画像に対し条件付き符号化又は条件付き復号化を行うことは更に:コンテキスト特徴表現に基づき標的画像と基準画像との間の時間的相関情報を判断すること;及び時間的相関情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。
【0098】
いくつかの実装形態では、標的画像に対しエントロピー符号化又はエントロピー復号化を行うことは:標的画像のサイド情報を取得すること;並びに時間的相関情報及びサイド情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。
【0099】
いくつかの実装形態では、標的画像に対しエントロピー符号化又はエントロピー復号化を行うことは:符号化表現から標的画像の空間的相関情報を取得すること;並びに時間的相関情報及び空間的相関情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。
【0100】
いくつかの実装形態では、エントロピー符号化を行うことは:標的画像の符号化表現を取得すること、及び時間的相関情報に少なくとも基づき標的画像の符号化表現から標的画像のビットストリームを生成することを含む。いくつかの実装形態では、エントロピー復号化を行うことは:標的画像のビットストリームを取得すること;時間的相関情報に少なくとも基づきビットストリームから標的画像の符号化表現を判断すること;及び標的画像の符号化表現に基づき復号化済み画像を判断することを含む。
【0101】
別の態様では、本開示は、コンピュータストレージ媒体内に有形に格納されるコンピュータプログラム製品であってコンピュータ実行可能命令を含むコンピュータプログラム製品を提供し、コンピュータ実行可能命令はデバイスにより実行されると以下のことを含む動作を本デバイスに行わせる:標的画像の基準画像を取得すること;標的画像に関連付けられたコンテキスト情報を特徴付けるコンテキスト特徴表現を基準画像から抽出すること;及び条件付き符号化又は条件付き復号化をコンテキスト特徴表現に基づき標的画像に対し行うこと。
【0102】
いくつかの実装形態では、標的画像に対し条件付き符号化を行うことは、条件付き符号化を行うように構成された符号化モデルへの入力としてコンテキスト特徴表現及び標的画像を適用することにより標的画像の符号化表現を生成することを含み;いくつかの実装形態では、標的画像に対し条件付き復号化を行うことは:条件付き復号化を行うように構成された復号化モデルへの入力として標的画像のコンテキスト特徴表現及び符号化表現を適用することにより標的画像に対応する復号化済み画像を生成することを含む。
【0103】
いくつかの実装形態では、基準画像からコンテキスト特徴表現を抽出することは:基準画像から初期コンテキスト特徴表現を抽出すること;基準画像と標的画像との間の運動ベクトル情報を判断すること;及びコンテキスト特徴表現を取得するために運動ベクトル情報に基づき初期コンテキスト特徴表現を調節することを含む。
【0104】
いくつかの実装形態では、標的画像に対し条件付き符号化又は条件付き復号化を行うことは更に:コンテキスト特徴表現に基づき標的画像と基準画像との間の時間的相関情報を判断すること;及び時間的相関情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。
【0105】
いくつかの実装形態では、標的画像に対しエントロピー符号化又はエントロピー復号化を行うことは:標的画像のサイド情報を取得すること;並びに時間的相関情報及びサイド情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。
【0106】
いくつかの実装形態では、標的画像に対しエントロピー符号化又はエントロピー復号化を行うことは:符号化表現から標的画像の空間的相関情報を取得すること;並びに時間的相関情報及び空間的相関情報に少なくとも基づき標的画像に対しエントロピー符号化又はエントロピー復号化を行うことを含む。
【0107】
いくつかの実装形態では、エントロピー符号化を行うことは:標的画像の符号化表現を取得すること;及び時間的相関情報に少なくとも基づき標的画像の符号化表現から標的画像のビットストリームを生成することを含む。いくつかの実装形態では、エントロピー復号化を行うことは:標的画像のビットストリームを取得すること;時間的相関情報に少なくとも基づきビットストリームから標的画像の符号化表現を判断すること;及び標的画像の符号化表現に基づき復号化済み画像を判断することを含む。
【0108】
別の態様では、本開示は、その上に格納されたコンピュータ実行可能命令を有するコンピュータ可読媒体を提供し、コンピュータ実行可能命令は、デバイスにより実行されると本デバイスに上記態様における方法を行わせる。
【0109】
本明細書において説明される機能は1又は複数のハードウェア論理部品により少なくとも部分的に行われ得る。一例として、そして制限無く、使用され得る例示的タイプのハードウェア論理部品は、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向集積回路(ASIC:application-specific integrated circuit)、特定用途標準品(ASSP:application-specific standard product)、システムオンチップシステム(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)等々を含む。
【0110】
本開示の方法を実行するためのプログラムコードは1又は複数のプログラミング言語の任意の組み合わせで書かれ得る。プログラムコードは、プログラムコードがプロセッサ又はコントローラにより実行されるとフローチャート及び/又はブロック図に規定される機能/操作を実施させるように、汎用コンピュータ、特定用途コンピュータ又は他のプログラム可能データ処理装置のプロセッサ又はコントローラへ提供され得る。プログラムコードは、マシン上で完全に又は部分的に実行されてもよいし、マシン上で部分的に、リモートマシン上で部分的に、又はリモートマシン若しくはサーバ上で完全にスタンドアロンソフトウェアパッケージとして実行されてもよい。
【0111】
本開示のコンテキストでは、機械可読媒体は、命令実行システム、装置又はデバイスによる又はそれとの関連で使用されるためのプログラムを含み得る又は格納し得る任意の有形媒体であり得る。機械可読媒体は機械可読信号媒体又は機械可読ストレージ媒体であり得る。機械可読媒体は、制限しないが電子、磁気、光学的、電磁気、赤外線、又は半導体システム、装置又はデバイス、又はこれらの任意の好適な組み合わせを含む。機械可読ストレージ媒体のより具体的な例は、1又は複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能ROM(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光学的ストレージデバイス、磁気ストレージデバイス又はこれらの任意の好適な組み合わせを含むだろう。
【0112】
更に、いくつかの操作は特定順番で描写されているが、これは、このような操作が示された特定順番で又は連続的順番で行われるということ又はすべての示された操作が望ましい結果を実現するために行われるということを必要とするものと理解されるべきではない。いくつかの環境では、マルチタスキング及び並列処理が有利であり得る。同様に、いくつかの具体的実装形態詳細が上の論述に含まれるが、これらは本開示の範囲に対する制限として解釈されるべきでなく、むしろ特定実装形態に固有であり得る特徴の説明として解釈されるべきである。別々の実装形態のコンテキストで説明されるいくつかの特徴はまた単一実装形態における組み合わせで実装され得る。むしろ、単一実装形態において説明された様々な特徴はまた、複数実装形態において別々に又は任意の好適なサブ組み合わせで実装され得る。
【0113】
本主題は構造的特徴及び/又は方法論的行為に固有な言語で説明されたが、添付の特許請求の範囲において規定される主題は上述の特定特徴又は行為に必ずしも限定されないということを理解すべきである。むしろ、上述の特定特徴及び行為は特許請求項を実施する例示的形式として開示される。
【国際調査報告】