(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-07
(54)【発明の名称】ビデオ圧縮のための時間的構造ベースの条件付き畳み込みニューラルネットワーク
(51)【国際特許分類】
H04N 19/51 20140101AFI20240229BHJP
【FI】
H04N19/51
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023554294
(86)(22)【出願日】2022-03-16
(85)【翻訳文提出日】2023-09-21
(86)【国際出願番号】 US2022020504
(87)【国際公開番号】W WO2022197772
(87)【国際公開日】2022-09-22
(32)【優先日】2021-03-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】514041959
【氏名又は名称】ヴィド スケール インコーポレイテッド
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(74)【代理人】
【識別番号】110002848
【氏名又は名称】弁理士法人NIP&SBPJ国際特許事務所
(72)【発明者】
【氏名】ラカペ、ファビアン
(72)【発明者】
【氏名】ビゲイン、ジョーン
(72)【発明者】
【氏名】フェルトマン、サイモン
(72)【発明者】
【氏名】プシュパラジャ、アクシェイ
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159NN01
(57)【要約】
ビデオ符号化及び復号は、クロミナンス予測のための動き情報を導出するために輝度情報を使用するオートエンコーダを用いて実施される。一実施形態では、条件付き畳み込みを使用して、動きフロー情報を符号化する。現在の条件、例えば、GOP構造は、条件付き畳み込みを実施するために、一連の全結合層への入力として使用される。関連する実施形態では、動きフロー情報を符号化するために2つ以上の参照フレームが使用される。
【選択図】
図4
【特許請求の範囲】
【請求項1】
方法であって、
条件付き畳み込み層への入力を受信することであって、前記入力は、現在のブロックと少なくとも1つの参照ブロックとの連結テンソルを含む、受信することと、
現在の条件を表すデータに基づいて前記入力に対して少なくとも1つの条件付き畳み込みを実行することであって、前記条件付き畳み込みは、一連の全結合層を含む、実行することと、
前記少なくとも1つの条件付き畳み込みからの出力を使用して動きフローを符号化することであって、前記現在の条件はGOP構造に基づく、符号化することと、
符号化された前記動きフローを含むビットストリームを生成することと、を含む、方法。
【請求項2】
装置であって、
プロセッサを備え、前記プロセッサは、
条件付き畳み込み層への入力を受信することであって、前記入力は、現在のブロックと少なくとも1つの参照ブロックとの連結テンソルを含む、受信することと、
現在の条件を表すデータに基づいて前記入力に対して少なくとも1つの条件付き畳み込みを実行することであって、前記条件付き畳み込みは、一連の全結合層を含む、実行することと、
前記少なくとも1つの条件付き畳み込みからの出力を使用して動きフローを符号化することであって、前記現在の条件はGOP構造に基づく、符号化することと、
符号化された前記動きフローを含むビットストリームを生成することと、を行うように構成されている、装置。
【請求項3】
方法であって、
ビデオデータの現在ブロックの動きフローデータを含むビットストリームをエントロピー復号することと、
再構成された残差を生成するために、前記ビットストリームに対して少なくとも1つの条件付き逆畳み込みを実行することであって、前記条件付き逆畳み込みは、一連の全結合層を含む、実行することと、
復号されたブロックを生成するために、前記再構成された残差を前記現在のブロックの予測と組み合わせることと、を含む、方法。
【請求項4】
装置であって、
プロセッサを備え、前記プロセッサは、
ビデオデータの現在ブロックの動きフローデータを含むビットストリームをエントロピー復号することと、
再構成された残差を生成するために、前記ビットストリームに対して少なくとも1つの条件付き逆畳み込みを実行することであって、前記条件付き逆畳み込みは、一連の全結合層を含む、実行することと、
復号されたブロックを生成するために、前記再構成された残差を前記現在のブロックの予測と組み合わせることと、を行うように構成されている、装置。
【請求項5】
オートエンコーダを使用して実施される、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
【請求項6】
前記動きフローは輝度に基づく、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
【請求項7】
前記現在の条件は、2つの参照ブロックを分離するフレームの数と、前記ブロックを含む収集されたビデオのフレームレートとを含む、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
【請求項8】
予測子を生成するために動き情報を使用して前記参照ブロックを前記現在のブロック上にワープすることを更に含む、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
【請求項9】
前記条件付き畳み込み又は条件付き逆畳み込みは、非線形関数を更に含む、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
【請求項10】
前記条件付き畳み込みは、少なくとも1つのスケーリング関数を更に含む、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
【請求項11】
前記ビットストリームは、エントロピーコード化されている、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
【請求項12】
デバイスであって、
請求項1に記載の装置と、
(i)信号を受信するように構成されたアンテナであって、前記信号がビデオブロックを含む、アンテナ、(ii)受信された前記信号を、前記ビデオブロックを含む周波数帯域に制限するように構成されたバンドリミッタ、及び(iii)ビデオブロックを表す出力を表示するように構成されたディスプレイ、のうちの少なくとも1つと、を備える、デバイス。
【請求項13】
プロセッサを使用して再生するための、請求項1のいずれか一項に記載の方法に従って、又は請求項2に記載の装置によって生成されたデータコンテンツを含む、非一時的コンピュータ可読媒体。
【請求項14】
プロセッサを使用して再生するための、請求項1に記載の方法に従って、又は請求項2に記載の装置によって生成されたビデオデータを含む、信号。
【請求項15】
命令を含むコンピュータプログラム製品であって、前記命令は、前記プログラムがコンピュータによって実行されるときに、請求項1に記載の方法を前記コンピュータに実行させる、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本実施形態のうちの少なくとも1つは、概して、人工ニューラルネットワーク(Artificial Neural Network、ANN)ベースのツールを使用して画像及びビデオを圧縮するための方法又は装置に関する。
【背景技術】
【0002】
ISO/MPEGとITUとの間の共同ビデオ探索チーム(Joint Video Exploration Team、JVET)は、現在、最新の標準H.266/VVCのいくつかのモジュールを置き換えるためのツール、並びにエンドツーエンドのオートエンコーダ方法による構造全体の置き換えを研究している。
【発明の概要】
【0003】
本実施形態のうちの少なくとも1つは、概して、新規の人工ニューラルネットワーク(ANN)ベースのツールを使用する画像及びビデオの圧縮のコンテキストにおける方法又は装置に関する。
【0004】
第1の態様によれば、方法が提供される。この方法は、条件付き畳み込み層への入力を受信するステップであって、上記の入力は、現在のブロックと少なくとも1つの参照ブロックとの連結テンソルを含む、受信するステップと、現在の条件を表すデータに基づいて上記の入力に対して少なくとも1つの条件付き畳み込みを実行するステップであって、上記条件付き畳み込みは、一連の全結合層を含む、実行するステップと、上記の少なくとも1つの条件付き畳み込みからの出力を使用して動きフローを符号化するステップであって、上記の現在の条件はGOP構造に基づいている、符号化するステップと、上記の符号化された動きフローを含むビットストリームを生成するステップと、を含む。
【0005】
第2の態様によれば、方法が提供される。この方法は、ビデオデータの現在ブロックの動きフローデータを含むビットストリームをエントロピー復号するステップと、再構成された残差を生成するために、上記のビットストリームに対して少なくとも1つの条件付き逆畳み込みを実行するステップであって、上記の条件付き逆畳み込みは、一連の全結合層を含む、実行するステップと、復号されたブロックを生成するために、上記の再構成された残差を上記の現在のブロックの予測と組み合わせるステップと、を含む。
【0006】
別の態様によれば、装置が提供される。装置は、プロセッサを備える。このプロセッサは、説明された方法のいずれかを実行することによって汎用態様を実施するように構成され得る。
【0007】
少なくとも1つの実施形態の別の汎用態様によれば、復号する実施形態のいずれかによる装置と、(i)信号を受信するように構成されたアンテナであって、信号がビデオブロックを含む、アンテナ、(ii)受信された信号を、ビデオブロックを含む周波数帯域に制限するように構成されたバンドリミッタ、又は(iii)ビデオブロックを表す出力を表示するように構成されたディスプレイ、のうちの少なくとも1つと、を備えるデバイス、が提供される。
【0008】
少なくとも1つの実施形態の別の汎用態様によれば、記載される復号する実施形態又は変形形態のいずれかに従って生成されたデータコンテンツを含む非一時的コンピュータ可読媒体が提供される。
【0009】
少なくとも1つの実施形態の別の汎用態様によれば、説明した符号化実施形態又は変形形態のいずれかに従って生成されたビデオデータを含む信号が提供される。
【0010】
少なくとも1つの実施形態の別の汎用態様によれば、記載される復号する実施形態又は変形形態のいずれかに従って生成されたデータコンテンツを含むようにビットストリームがフォーマットされる。
【0011】
少なくとも1つの実施形態の別の汎用形態によれば、命令を含むコンピュータプログラム製品であって、命令は、プログラムがコンピュータによって実行されるとき、記載される復号する実施形態又は変形形態のうちのいずれかをコンピュータに行わせる、コンピュータプログラム製品が提供される。
【0012】
汎用態様の上記及び他の態様、特徴、及び利点は、例示的な実施形態の以下の詳細な説明を添付の図面を参照しながら読み進めることによって明らかになるであろう。
【図面の簡単な説明】
【0013】
【
図2】8つのフレームのピクチャグループ(Group of Pictures、GOP)を有するランダムアクセス構造を示す。
【
図3】ビデオフレームを圧縮するためのAgustssonらによるアーキテクチャを示す。
【
図4】条件付き畳み込みを使用する提案されたアーキテクチャを示す。
【
図5】本原理を使用してビデオを符号化するための方法の一実施形態を示す。
【
図6】本原理を使用してビデオを復号するための方法の一実施形態を示す。
【
図7】本原理を使用した符号化又は復号のための装置の一実施形態を示す。
【
図10】一般的な説明された態様下で符号化/復号するためのプロセッサベースのシステムを示す。
【発明を実施するための形態】
【0014】
近年、ニューラルネットワークに基づく新規の画像及びビデオ圧縮方法が開発されている。手作りの予測モード及び変換を適用する従来の方法とは対照的に、ANNベースの方法は、損失関数を反復的に最小化することによって、トレーニング中に大きなデータセットで学習されるパラメータに依存する。圧縮の場合、損失関数は、符号化されたビットストリームのビットレートの推定と、復号されたコンテンツの目的関数との両方を記述する。従来、再構成された画像の品質は、例えば、信号歪みの尺度又は人間が知覚する視覚的品質の近似に基づいて最適化される。
【0015】
図1に、例示的なエンドツーエンドの圧縮システムを示す。ネットワークのエンコーダ部分への入力Xは、以下のものからなることができる。
-ビデオの画像又はフレーム、
-画像の一部
-画像/フレームのグループを表すテンソル
-画像/フレームのグループの一部(クロップ)を表すテンソル。
【0016】
いずれの場合も、入力は、1つ又は複数の色成分、例えば、モノクロ、RGB、又はYCbCr(YUV)成分を有することができる。
1.入力テンソルXは、エンコーダネットワークに供給される。エンコーダネットワークは、通常、非線形活性化関数を有する畳み込み層のシーケンスである。畳み込み又は空間-深さ1演算における大きなストライドを使用して、チャネルの数を増加させながら空間解像度を低減することができる。エンコーダネットワークは、学習済み分析変換と見なすことができる。
2.エンコーダネットワークの出力、「特徴マップ」又は「潜在」Zは、量子化され、記憶又は送信のためにバイナリストリーム(ビットストリーム)としてエントロピーコード化(entropy coded、EC)される。
3.ビットストリームは、Zの量子化されたバージョンである
【0017】
【数1】
を取得するためにエントロピー復号(entropy decoded、ED)される。
4.デコーダネットワークは、潜在
【0018】
【0019】
【数3】
を生成する。デコーダネットワークは、通常、アップサンプリング畳み込み(例えば、「逆畳み込み」若しくはアップサンプリングフィルタが後に続く畳み込み)又は深さ-空間演算のシーケンスである。デコーダネットワークは、学習済み逆変換、又は雑音除去及び生成変換と見なすことができる。
【0020】
より洗練されたアーキテクチャが存在し、例えば、効率的な圧縮のために潜在分布のパラメータを一緒に学習するために、ネットワークに「ハイパーオートエンコーダ」(ハイパー事前分布)を追加することに留意されたい。本発明は、オートエンコーダの使用に限定されない。任意のエンドツーエンド微分可能コーデックを考慮することができる。
1.再整形及び置換、例えば、サイズ(N、H、W)のテンソルは、(N*2*2、H//2、W//2)に再整形及び置換される。
【0021】
ビデオコーディング
従来のビデオ圧縮
ビデオシーケンスのフレーム間の冗長性を除去するために、従来のビデオコーディング方法は、インター予測ツールを含む。画像はブロックに分割される。
【0022】
符号化される各ブロックについて、動き推定器は、前に再構成された参照ピクチャ内の予測子を見つけようと試みる。従来、純粋な変換が考慮され、動き推定器は、予測すべき現在のブロックと同じ位置にあるウィンドウ内の同じ形状のブロックを解析する。最良の一致が見つかると、動きベクトル、すなわち、現在のブロックの位置とその予測子との水平及び垂直座標差がコード化され、参照ピクチャのインデックスとともにビットストリームで送信される。残差とも呼ばれる、ソースブロックと予測子との差は、一般に、ビットストリームにおいて変換され、量子化され、エントロピーコード化される。
【0023】
デコーダにおいて、動き情報及び残差が復号される。予測子は、復号された動きベクトルを使用して、シグナリングされた参照フレームにおいてアクセスされる。次に、復号された残差を予測子に追加することによって、復号されたブロックが構成される。
【0024】
このスキームでは、エンコーダは、現在のブロックの位置を中心とする、参照フレーム内のウィンドウ内で最良一致ブロックを見つけるという複雑なタスクを実行する。デコーダは、動き情報を解析するだけでよい。
【0025】
時間的構造
前のセクションでは、予測すべき現在のフレームと参照ピクチャとの間の動きベクトルの探索及び送信について説明した。いくつかの時間的構造は、エンコーダが、前に復号されたピクチャの中から参照フレームを選択することを可能にする。
【0026】
ブロードキャストエコシステムで使用される典型的な構造は、ランダムアクセス構造と名付けられている。これは、繰り返される最小時間的タイムフレーム構造からなる周期的なピクチャグループ(GOP)から構成される。
【0027】
図2は、8フレームのGOPの場合のそのような構造を示す。第1のフレームはイントラフレーム、すなわち、Iフレームであり、復号される他のフレームに依存しないことを意味する。その後、デコーダがシーケンスの復号を開始することができるランダムアクセスポイントとして使用することができる。ブロードキャストにおいて、それらは、典型的には、1秒のビデオによって分離され、これにより、TV視聴者が、チャネルを切り替え、選択した新しいチャネルの復号を開始し、ビデオが表示され始めるのをあまりに長く待たないことを可能にする。しかしながら、これらのフレームは、前に復号されたコンテンツを使用して予測されないので、通常、送信するのに要するビットが多い。Iフレーム間において、他のフレームは、前に復号されたフレームを使用して予測される。
図2の構造では、コーディング順序が表示の順序と異なることに気付くことができる。これにより、エンコーダが過去及び将来の前に再構成されたピクチャを使用してフレームを予測することが可能になる。したがって、これらのフレームは、双方向予測にちなんでBフレームと呼ばれる。この場合、構造は、タイプB
0、B
1、B
2、及びB
3のフレームを有する階層パターンに従う。各GOPのB
0は、コード化される最初のフレームであり、前のGOPからの最後のキーフレーム(I又はB
0)を使用して予測され、例えば、表示順序におけるフレーム8は、フレーム0から予測される。コーディング順序における次のフレームは、矢印で描写されているように、過去及び将来のフレームを使用して予測することができる。フレームB
1は、タイプIのフレームB
0を使用することができ、フレームB
2は、フレームI、B
0、及びB
1などから予測することができる。現在のフレームと参照フレームとの間の距離は、エンコーダによって行われた決定に応じて変化する。
【0028】
他のGOP構造が存在し、この実施例は、基準と予測との間の異なる距離におけるフレーム間の可能な依存性を示すために選択されたものであり、コーディング効率を劇的に向上させる。上記の実施例では、シーン内の動きが速すぎず、不規則でなく、シーンカットがないとき、B3ピクチャは、ほとんどが隣接フレームから補間されるので、要するビットはほとんどない。
【0029】
人工ニューラルネットワークを使用したビデオ圧縮
このセクションは、本発明の説明のための基本モデルとして機能する人工ニューラルネットワークに基づく最新のビデオ圧縮方法を詳述する。それらは、オートエンコーダアーキテクチャに依存して、異なる要素を符号化し、かつオプティカルフローを計算することによってフレーム間冗長性の除去に取り組み、オプティカルフローは、フレーム間の密な動きフローを推定する、すなわち、各ピクセル位置は、別個の2次元動きベクトル(水平及び垂直)を割り当てられる。
【0030】
従来のブロックベースのインター予測及び残差コーディングと結合されて、オプティカルフローは、これまでのところ、妥当な複雑さで、前に説明されたブロックベースの方法を上回る利点を示すことができていない。しかしながら、動きフィールドを符号化するためにオートエンコーダを使用する最近の研究は、有望な結果を示している。
【0031】
図3は、従来の手法において提示される一般的なアーキテクチャを示す。左側のIフレームは、独立して(イントラ)符号化されるキーフレームの符号化を表す。このブロックは、ANNベースの画像圧縮のために開発された、畳み込み分析及び合成モジュールから構成される単純なオートエンコーダからなる。推論では、エントロピーコーダー(Entropy Coder、EC)及びエントロピーデコーダ(Entropy Decoder、ED)を使用して、冗長性を算術的に除去する。
【0032】
予測されたフレーム(P)は、右側のプロセスに従って符号化される。エンコーダでは、入力は現在のフレームxcur及び前に再構成された参照フレーム
【0033】
【数4】
である。両方の画像を使用して、動き情報を導出し符号化する。これらは、一意のテンソルとして連結され、一意のテンソルは動きフローオートエンコーダ(f
a、f
s)の入力であり、動きフローオートエンコーダは再構成されたフロー
【0034】
【数5】
を生成する。後者を使用して、参照フレーム
【0035】
【数6】
を現在上にワープする。これは、デコーダが、再構成されたフローのみにアクセスするからである。これは、現在のフレームに対する予測子
【0036】
【0037】
【数8】
に対応する)は、(r
a、r
s)によって符号化される。再構成された残差は、最終的に、再構成された予測に追加されて、復号された画像
【0038】
【0039】
次いで、
図3において[1 0 0...1 1]によって示されるビットストリームは、Iフレームの潜在表現、又は予測されたフレームの場合には動きフィールド及び残差の潜在表現のいずれかを表すバイナリコードから構成される。
【0040】
本発明は、オプティカルフロー推定及びコーディングに基づく動き補償を使用することによってビデオの圧縮を最適化する問題を解決することを目的とする。2つのピクチャ間でモデル化することができる依存性は、2つのフレーム間の時間の距離に大きく依存する。この距離は、2つの主なパラメータ、すなわち、2つの参照フレームを分離するフレーム数と、ビデオが収集されたフレームレートとからもたらされる。
【0041】
ANNベースのオプティカルフロー推定器は、通常、畳み込み層に依存して、フレーム間のテクスチャの動き及び変形に関連する特徴をキャプチャする。フロー振幅及び精度は、シーン内のアクション、カメラ運動、並びに2つのフレーム間の時間的距離を定義する上記のパラメータに応じて劇的に異なる。したがって、畳み込みモデルの設計は、異なる時間的コーディング構造についての多種多様な変位をキャプチャすることができる必要がある。本発明では、オプティカルフローオートエンコーダの畳み込み層を参照フレーム間の距離で条件付けることによって、結合フロー推定及び圧縮の性能を向上させることを提案する。
【0042】
従来のビデオコーディング方法は、セクション1で詳述されたように、ブロックベースの動き推定に依存する。この設計は、フレーム間の動きが各ブロックの単純な平行移動によってモデル化され得るという仮定に依存する。エンコーダは、このモデル化によって生じるエラーを補正するために送信される必要がある残差を最小化するブロック分割を選択する。符号化する各ブロックに対して、エンコーダは、前に復号された参照ピクチャ内の最良一致予測子を見つける。大きな動きをキャプチャし、離れたフレーム間の動きを推定できるようにするために、従来のコーデックは、最大動きベクトルを定義する。最近の研究は、ビデオのフレーム間の密な動きフローを推定し符号化するためにディープニューラルネットワークを使用することの有望さを示している。しかしながら、既存の方法は、通常、各フレームが表示順序において直前のフレームのみに依存する低遅延構造の最も単純な可能な変形などの単純な時間的構造に依存する。上記のセクションで提示されたランダムアクセスとは対照的に、表示順序及びコーディング順序は同一であり、これは、予測されたフレームと参照フレームとの間の距離の問題を解決するが、深層学習ベースの動きモデルも複雑な双方向の時間的構造を活用することができるので、コーディング効率を制限する。
【0043】
最近の研究では、双方向予測を活用するディープ動きフロー推定ベースのフレームワークが提案されている。これは、コーディング順序における次のフレームのために各フレームの状態を保持するリカレントモデルに依存する。しかしながら、モデルがピクチャの全グループに対して学習されるので、この手法がスケーリングできるようには見えない。別のGOP構造を使用する必要がある場合には、モデルを適応させ、再トレーニングする必要がある。
【0044】
本発明では、時間的構造に応じて動きフロー推定器を特殊化することによって、人工ニューラルネットワークに基づいてビデオ圧縮を向上させることが提案される。全体的なアーキテクチャは、参照ピクチャが
図2に示されるような構造によって決定され得る
図3に描写されるものと同様である。
【0045】
特に、(標準的な(逆)畳み込みの代わりに)ネットワークモジュール内の条件付き(逆)畳み込みを使用して、参照フレーム間の変化する距離で、複雑なGOP構造を扱うことができる一般的ネットワークをトレーニングすることを提案する。
【0046】
提案される一般的方法
本文書では、GOP構造における相互依存性に依存する条件付き畳み込みを使用することによってモデルを適応させることが提案されている。以下の段落は、本発明を適用することができる動きフロー推定及び符号化の文脈及び設計を説明する。
【0047】
動きフローを符号化するために使用されるオートエンコーダは、通常、現在及び参照フレームピクセル値を入力として取る畳み込み層に基づく。
図3に見られるように、フレームは、成分軸に沿って連結されて、畳み込みモデル(f
a、f
s)に入る。例えば、画像がRGBフォーマットで表される場合、それらは、サイズ3×h×wのテンソルとして成形され得、ここで、h及びwは、フレームの高さ及び幅をそれぞれ示す。フローオートエンコーダへの入力は6×h×wからなる。連続する畳み込み層は、符号化されるより低い次元及び圧縮可能な潜在表現につながる。典型的には、潜在は、より多くのチャネル(RGBの実施例ではN>6)を含むが、空間次元がより小さい、例えば
【0048】
【数10】
を含むテンソルである。YUVカラーフォーマットで表されるビデオを符号化するとき、特にY、U、及びVが同じサイズを有するとき、YUVコンテンツをRGBのように処理することが可能である。動きを導出するためだけにルーマ(Y)チャネルを使用することも適切であり得る。その場合、各入力の1つの成分のみが考慮され、入力テンソルは形状2×h×wを有する。デコーダでは、転置畳み込みを使用して、動き情報をベクトルの形(すなわち、垂直及び水平動き成分)で含む出力、したがって形状2×h×wのテンソルを生成する。これは、参照ピクチャを現在のフレーム上にワープするために使用される。
【0049】
例えば、オクルージョンが発生して参照ピクチャ内に一致するテクスチャが見つからないときに、動き推定が失敗した領域を識別してぼかすために追加のチャネルが使用される従来の方法で提案されたスケール空間フロースキームのように、追加の成分を推定することができることに留意されたい。これらの技術は、以下に説明する提案された発明と互換性がある。
【0050】
そのようなオートエンコーダは、トレーニングされる必要がある。すなわち、畳み込みの重み及びエントロピーボトルネックが、ビデオの大きなデータセットに対して最適化される。前のセクションで説明したように、効率的なGOP構造は、互いに異なる距離にあり、異なるコンテキスト(過去、将来のコンテンツタイプなど)にあるフレーム間で生じる予測につながる。
【0051】
この問題に対処するための第1の自明なやり方は、所与のGOP構造における各可能なマッピングを学習し、符号化することである。しかしながら、それは、複数のフローオートエンコーダが必要とされるので、エンコーダ/デコーダモデル全体のサイズを劇的に増加させる。加えて、これは、新しいタイプ又はサイズのGOPが使用されるとき、スケーリング及び適応することが困難である。例えば、従来のビデオコーディングにおいて、動き推定及びコーディングが向上されるおかげで、標準化において考慮されるランダムアクセスGOPは、今度は16又は32フレームを含むのに対して、
図2に示すように、過去では8フレームしか有していなかった。
【0052】
これを解決する別のやり方は、異なるフレーム間予測コンテキストについて1つのモデルのみを学習することである。しかしながら、この解決策は、同じ重みが異なる条件で使用されるので、準最適なモーションフロー構成につながる。
【0053】
本文書では、GOP構造における相互依存性に依存する条件付き畳み込みを使用することによってモデルを適応させることが提案されている。
図4は、全体的なアーキテクチャを示す。右側では、動きフローオートエンコーダ(f
a、f
s)が、
図3と同様に表される。しかしながら、f
a及びf
sでそれぞれ使用される畳み込み及び逆畳み込みは、条件付き畳み込み、resp.逆畳み込みで置き換えられる。現在の条件cをコード化するベクトルは、一連の層、例えば、畳み込みの出力テンソルのチャネル数に対応するサイズのベクトルを生成する、
図4の全結合(fully connected、FC)層への入力として使用される。次に、畳み込みの出力の各チャネルに、条件を伝搬する小規模ネットワークのベクトル出力内の対応する値を乗算する。関数fは、任意のスケーリング関数、例えば、指数関数とすることができる。
【0054】
少なくとも1つの層を置き換えることが提案されることに留意されたい。例えば、全ての畳み込みを置き換えることができるが、モデルサイズと圧縮効率との適切なバランスを見つけるために、いくつかの層のみを置き換えることも想定することができる。
【0055】
例示的な
図4では、タイプreluの非線形性が表されている。本発明は、relu活性化の使用に限定されず、任意のタイプの非線形性が、条件付き畳み込みの間並びに条件付きモジュールの内部で考慮され得る。
【0056】
条件は、ワンホット符号化として符号化することができる。例えば、参照間の3つの可能な距離を考慮する場合、条件ベクトルは3の長さを有し、3つの値は[0、0、1]、[0、1、0]、[1、0、0]のように符号化することができる。他のスキームも考慮することができるが、条件付きモジュールのためのワンホット符号化は、深層学習アプリケーションにおいて非常に効果的であることが証明されている。
【0057】
変形形態
このセクションでは、提案される方法の異なる変形形態、実施例、及び実施形態を提示する。
【0058】
条件の拡張
異なる変形形態において修正され得る第1のパラメータは、畳み込みモジュールの入力である実際の条件パラメータである。Cは、単一の値、例えば、予測されたフレームと参照フレームとの間の距離であってもよいが、いくつかのパラメータを含むベクトルであってもよい。以下の条件も、別々に又は組み合わせて考慮することができる。
-現在のフレームと参照フレームとの間の距離、
-参照が、表示順序において現在のフレームの過去又は未来にあるかどうか、
-現在のフレームを予測するためにいくつのフレームが使用されるか、
-シーケンスが撮影されたフレームレート、
-コンテンツのタイプ:ゲーム、VR360コンテンツ、画面コンテンツ
【0059】
より多くの条件付きモジュール
この提案の主な実施形態は、論理的に影響を受けるのが主モジュールであるため、結合オプティカルフロー推定/圧縮を異なる予測構造に条件付けることに焦点を当てているが、モデルの他の部分を適応させることができる。
【0060】
例えば、残差コーディング又は復元フィルタを使用して予測を向上させることができる。これらのモジュールはまた、現在の予測タイプに基づいて異なる挙動を学習するために、上記で説明したように、「C」に基づいて条件付けされ得る。
【0061】
アフィン条件付き関数
主な実施形態は、畳み込みの出力を修正する以下の関数の使用を説明した。
Y=f(s(c).(W
*X))
ここで、Xは入力であり、Wは畳み込み重みであり、f(
図4でもfと示されている)は任意の活性化関数(例えば、指数関数、ソフトプラス)であり、sは条件cで学習された関数のスケーリングセットである。
【0062】
この変形形態では、以下のように出力の計算にバイアスを含めることが提案される。
Y=f(s(c).(W.X))+b(c)
ここで、b(c)は、出力テンソルのチャネル数と同数の要素を含むバイアスベクトルである。
【0063】
シンタックス
条件cは、異なる要素、例えば、フレーム間の距離並びに予測の時間的方向を計算するために使用される参照及び現在のフレームのピクチャ順序カウント(Picture Order Count、POC)をシグナリングするメタデータを使用して導出される。
【0064】
提案された条件付きモジュールを活性化するために、シンタックス要素を追加することができる。
【0065】
加えて、符号化を最適化するためにいくつかのメタデータが必要とされる場合がある。例えば、ビデオのフレームレートを使用してcを導出することができる。フレームレートは、通常、従来のビデオ圧縮ではほとんど使用されず、復号プロセスに干渉しないので、デコーダに送信される必須のハイレベルシンタックスの一部ではない。この変形形態では、このメタデータは、cを導出するために必要な場合に送信されるべきである。
【0066】
別の変形形態では、情報cは、ハイレベルシンタックスの一部としてデコーダに送信することができる。シーケンス又はフレーム/スライスレベルで。エンコーダは、コンテンツ又は時間的構造に応じていくつかの決定を行い、従って条件cを調整することができる。デコーダでは、送信されたcを使用して適切な条件付き逆畳み込みが導出される。
【0067】
図5に、符号化方法500の一実施形態を示す。この方法は、開始ブロック501から始まり、条件付き畳み込み層への入力を受信するためのブロック510に進み、上記の入力は、現在のブロック及び少なくとも1つの参照ブロックの連結テンソルを含む。制御はブロック510から、現在の条件を表すデータに基づいて上記の入力に対して少なくとも1つの条件付き畳み込みを実行するためのブロック520に進み、上記の条件付き畳み込みは一連の全結合層を含む。制御はブロック520から、少なくとも1つの条件付き畳み込みからの出力を使用して動きフローを符号化するためのブロック530に進み、ここで、現在の条件はGOP構造に基づく。制御はブロック530から、上記の符号化された動きフローを含むビットストリームを生成するためのブロック540に進む。
【0068】
図6に、ビデオデータを復号するための方法600の一実施形態を示す。この方法は、開始ブロック601から始まり、ビデオデータの現在のブロックの動きフローデータを含むビットストリームをエントロピー復号するためのブロック610に進む。制御はブロック610から、再構成された残差を生成するために、上記のビットストリームに対して少なくとも1つの条件付き逆畳み込みを実行するためのブロック620に進み、上記の条件付き逆畳み込みは、一連の全結合層を含む。制御はブロック620から、復号されたブロックを生成するために、上記の再構成された残差を上記の現在のブロックの予測と組み合わせるためのブロック630に進む。
【0069】
図7は、前述の方法を使用してビデオを圧縮、符号化、又は復号するための装置700の一実施形態を示す。この装置は、プロセッサ710を備えており、少なくとも1つのポートを通じてメモリ720に相互接続することができる。プロセッサ710及びメモリ720は両方とも、外部接続への1つ以上の追加の相互接続を有することもできる。
【0070】
更にプロセッサ710は、ビットストリームにおいて情報を挿入又は受信し、かつ前述の方法を使用して圧縮、符号化、又は復号するように構成されている。
【0071】
本明細書で説明する実施形態は、ツール、特徴、例、モデル、手法などを含む、様々な態様を含む。これらの態様の多くは、具体的に記載され、少なくとも個々の特性を示すために、多くの場合、限定的に聞こえ得る方法で記載されている。しかしながら、これは、説明を明確にすることを目的としており、それらの態様の適用又は範囲を限定するものではない。実際には、異なる態様の全てを組み合わせ、かつ置き換えて、更なる態様を提供することができる。更に、これらの態様はまた同様に、以前の出願に記載の態様と組み合わせ、かつ置き換えすることができる。
【0072】
本出願において説明され、企図される態様は、多くの異なる形態で実装することができる。
図8、
図9、及び
図10は、いくつかの実施形態を提供するが、他の実施形態も企図されており、
図8、
図9、及び
図10の説明は、実装形態の範囲を制限しない。態様のうちの少なくとも1つは、概して、ビデオ符号化及び復号に関し、少なくとも1つの他の態様は、概して、生成又は符号化されたビットストリームを送信することに関する。これら及び別の態様は、方法、装置、説明した方法のいずれかに従ってビデオデータを符号化又は復号するための命令を自体に記憶したコンピュータ可読記憶媒体、及び/又は、説明した方法のいずれかに従って生成されたビットストリームを自体に記憶したコンピュータ可読記憶媒体、として実装することができる。
【0073】
本出願では、「再構成された(reconstructed)」及び「復号された(decoded)」という用語は、交換可能に使用され得、「ピクセル(pixel)」及び「サンプル(sample)」という用語は、交換可能に使用され得、「画像(image)」、「ピクチャ(picture)」、及び「フレーム(frame)」という用語は、交換可能に使用され得る。通常、必ずしもそうではないが、「再構成された」という用語は、エンコーダ側で使用され、一方、「復号された」という用語は、デコーダ側で使用される。
【0074】
様々な方法が本明細書に説明されており、本方法の各々は、説明された方法を達成するための1つ以上のステップ又はアクションを含む。ステップ又はアクションの特定の順序が方法の適切な動作のために必要とされない限り、特定のステップ及び/又はアクションの順序及び/又は使用は、修正又は組み合わされ得る。加えて、「第1の(first)」、「第2の(second)」などの用語は、様々な実施形態において、例えば、「第1の復号(first decoding)」及び「第2の復号(second decoding)」などの要素、コンポーネント、ステップ、動作などを修正するために使用され得る。かかる用語の使用は、具体的に必要とされない限り、修正された動作に対する順序付けを意味するものではない。そのため、この実施例では、第1の復号は、第2の復号の前に実行される必要はなく、例えば、第2の復号の前、第2の復号の間、又は第2の復号と重複する時間中に発生し得る。
【0075】
本出願に説明されている様々な方法及び他の態様を使用して、
図8及び
図9に示されるようなビデオエンコーダ100及びビデオデコーダ200のモジュール、例えば、イントラ予測モジュール、エントロピーコーディングモジュール、及び/又は復号モジュール(160、360、145、330)を修正することができる。更に、本開示の態様は、VVC又はHEVCに限定されず、例えば、既存のものであれ将来進展するものであれ、他の規格及び勧告、またこのようないかなる規格及び勧告(VVC及びHEVCを含む)の拡張にも適用することができる。特に断りのない限り、又は技術上除外されない限り、本出願に記載の態様は、個々に、又は組み合わせて使用することができる。
【0076】
本出願において、様々な数値が使用されている。具体的な値は、例示目的のためであり、記載の態様は、これらの具体的な値に限定されない。
【0077】
図8は、エンコーダ100を示す。このエンコーダ100の変形形態も企図されるが、以下では、分かりやすいように、予想される全ての変形形態を説明せずに、エンコーダ100について説明される。
【0078】
符号化される前に、ビデオシーケンスは、符号化前処理(101)、例えば、カラー変換を入力カラーピクチャに適用すること(例えば、RGB4:4:4からYCbCr4:2:0への転換)、又は圧縮に対してより弾力的な信号分布を得るために入力ピクチャ成分の再マッピングを実行する(例えば、色成分のうちの1つのヒストグラム等化を使用して)ことを経得る。メタデータを前処理に関連付け、ビットストリームに付加することができる。
【0079】
エンコーダ100では、以下に説明されるように、ピクチャが、エンコーダ要素によって符号化される。符号化されるピクチャは、例えば、CUという単位に分割され(102)、処理される。各ユニットは、例えば、イントラモード又はインターモードのいずれかを使用して符号化される。ユニットがイントラモードで符号化されるとき、そのユニットは、イントラ予測(160)を実行する。インターモードでは、動き推定(175)及び動き補償(170)が実行される。エンコーダは、ユニットを符号化するためにイントラモード又はインターモードのうちのどちらを使用すべきかを決定し(105)、例えば、予測モードフラグによってイントラ/インターの決定を示す。予測残差は、例えば、元の画像ブロックから予測されたブロックを減算すること(110)によって計算される。
【0080】
その予測残差は、次いで、変換され(125)、量子化される(130)。量子化された変換係数、並びに動きベクトル及び他のシンタックス要素は、ビットストリームを出力するためにエントロピーコード化される(145)。エンコーダは、変換をスキップし、量子化を非変換残差信号に直接適用することができる。エンコーダは、変換及び量子化の両方をバイパスすることができ、すなわち、残差は、変換プロセス又は量子化プロセスを適用することなく直接コード化される。
【0081】
エンコーダは、符号化されたブロックを復号して、更なる予測のための参照を提供する。量子化された変換係数は、予測残差を復号するために逆量子化され(140)、逆変換される(150)。復号された予測残差と予測されたブロックとを組み合わせて(155)、画像ブロックが再構成される。ループ内フィルタ(165)を再構成されたピクチャに適用して、例えば、符号化アーチファクトを低減するための非ブロック化/サンプル適応オフセット(Sample Adaptive Offset、SAO)フィルタリングを実行する。フィルタリングされた画像は、参照ピクチャバッファ(180)に記憶される。
【0082】
図9は、ビデオデコーダ200のブロック図を示す。デコーダ200では、以下に説明されるように、ビットストリームが、デコーダ要素によって復号される。ビデオデコーダ200は、概して、
図8に説明したような符号化パスとは逆向きの復号パスを実行する。エンコーダ100はまた、概して、ビデオデータを符号化することの一部としてビデオ復号を実行する。
【0083】
特に、デコーダの入力は、ビデオビットストリームを含み、これは、ビデオエンコーダ100によって生成され得る。ビットストリームは、最初にエントロピー復号されて(230)、変換係数、動きベクトル、及び他のコード化された情報を取得する。ピクチャ分割情報は、ピクチャがどのように分割されているかを示す。デコーダは、したがって、復号されたピクチャ分割情報に従ってピクチャを分割し得る(235)。変換係数は、逆量子化され(240)、逆変換されて(250)、予測残差を復号する。復号された予測残差と予測されたブロックとを組み合わせて(255)、画像ブロックが再構成される。イントラ予測(260)又は動き補償予測(すなわち、インター予測)(275)から、予測ブロックを得ることができる(270)。ループ内フィルタ(265)が、再構成された画像に適用される。フィルタリングされた画像は、参照ピクチャバッファ(280)に記憶される。
【0084】
復号されたピクチャは、復号後処理(285)、例えば、逆カラー変換(例えば、YcbCr4:2:0からRGB4:4:4への転換)、又は符号化前処理(101)において実行された再マッピングプロセスの逆を実行する逆再マッピングを更に経ることができる。復号後処理は、符号化前処理において導出され、ビットストリームにおいてシグナリングされたメタデータを使用することができる。
【0085】
図10は、様々な態様及び実施形態が実装されているシステムの一実施例のブロック図を示す。システム1000は、以下に記載の様々な構成要素を含むデバイスとして具体化することができ、本明細書に記載の態様のうちの1つ以上を行うように構成されている。このようなデバイスの例としては、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ録画システム、接続型家電、及びサーバなどの様々な電子デバイスが挙げられるが、これらに限定されない。システム1000の要素は、単独で又は組み合わせて、1つの集積回路(integrated circuit、IC)、複数のIC、及び/又は別個の構成要素に具現化することができる。例えば、少なくとも1つの実施形態では、システム1000の処理要素及びエンコーダ要素/デコーダ要素は、複数のIC及び/又は個別のコンポーネントにわたって分散している。様々な実施形態では、システム1000は、例えば、通信バスを介して、又は専用の入力ポート及び/若しくは出力ポートを通して、1つ以上の他のシステム又は他の電子デバイスに通信可能に結合される。様々な実施形態では、システム1000は、本文書に説明される態様のうちの1つ以上を実装するように構成されている。
【0086】
システム1000は、例えば、本明細書に記載される様々な態様を実装するために、内部にロードされた命令を実行するように構成された少なくとも1つのプロセッサ1010を含む。プロセッサ1010は、埋め込みメモリ、入出力インターフェース、及び当該技術分野において知られている様々な他の回路を含むことができる。システム1000は、少なくとも1つのメモリ1020(例えば、揮発性メモリデバイス及び/又は不揮発性メモリデバイス)を含む。システム1000は、記憶デバイス1040を含み、これは、不揮発性メモリ及び/又は揮発性メモリを含むことができ、これらのメモリとしては、電気的消去可能なプログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROM)、読み出し専用メモリ(ROM)、プログラマブル読み出し専用メモリ(Programmable Read-Only Memory、PROM)、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(Dynamic Random Access Memory、DRAM)、スタティックランダムアクセスメモリ(Static Random Access Memory、SRAM)、フラッシュ、磁気ディスクドライブ、及び/又は光ディスクドライブが挙げられるが、これらに限定されない。記憶デバイス1040は、非限定的な例として、内部記憶デバイス、取り付け型の記憶デバイス(取り外し可能及び非取り外し可能記憶デバイスを含む)、及び/又はネットワークアクセス可能な記憶デバイスを含むことができる。
【0087】
システム1000は、例えば、符号化されたビデオ又は復号されたビデオを提供するためにデータを処理するように構成されたエンコーダ/デコーダモジュール1030を含み、エンコーダ/デコーダモジュール1030は、それ自体のプロセッサ及びメモリを含むことができる。エンコーダ/デコーダモジュール1030は、符号化機能及び/又は復号機能を果たすデバイスに含めることができるモジュールに相当する。既知であるように、デバイスは、符号化モジュール及び復号モジュールのうちの一方又は両方を含むことができる。更に、エンコーダ/デコーダモジュール1030は、システム1000の別個の要素として実装することができるか、又は当業者には既知であるように、ハードウェアとソフトウェアとの組み合わせとしてプロセッサ1010内に組み込むことができる。
【0088】
本明細書に記載の様々な態様を行うためにプロセッサ1010又はエンコーダ/デコーダ1030に読み込まれるプログラムコードは、記憶デバイス1040に格納することができ、続いて、プロセッサ1010による実行のためにメモリ1020に読み込むことができる。様々な実施形態によれば、プロセッサ1010、メモリ1020、記憶デバイス1040、及びエンコーダ/デコーダモジュール1030のうちの1つ以上は、本明細書に記憶のプロセスの実行中に様々なアイテムのうちの1つ以上を記憶することができる。かかる記憶されたアイテムは、これらに限定されないが、入力ビデオ、復号されたビデオ、又は復号されたビデオの一部分、ビットストリーム、マトリクス、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含むことができる。
【0089】
いくつかの実施形態では、プロセッサ1010及び/又はエンコーダ/デコーダモジュール1030の内部のメモリは、命令を記憶し、かつ符号化中又は復号中に必要とされる処理のための作業メモリを提供するために使用される。しかし、他の実施形態では、処理デバイス(例えば、処理デバイスは、プロセッサ1010又はエンコーダ/デコーダモジュール1030であり得る)の外部のメモリが、これらの機能のうちの1つ以上に使用される。外部メモリは、メモリ1020及び/又は記憶デバイス1040、例えば、ダイナミック揮発性メモリ及び/又は不揮発性フラッシュメモリとすることができる。いくつかの実施形態では、外部不揮発性フラッシュメモリを使用して、例えば、テレビのオペレーティングシステムを記憶する。少なくとも1つの実施形態では、RAMなどの高速な外部の動的揮発性メモリは、MPEG-2(MPEGはMoving Picture Experts Groupと称され、MPEG-2はISO/IEC13818とも称され、13818-1はH.222としても既知であり、13818-2はH.262としても既知である)、HEVC(HEVCは高効率映像符号化と称され、H.265及びMPEG-H Part2としても既知である)、又はVVC(JVETによって開発中の新しい標準である多用途ビデオコーディング)などのビデオの符号化動作及び復号動作のための作業メモリとして使用される。
【0090】
システム1000の要素への入力は、ブロック1130に示される様々な入力デバイスを通して、提供することができる。このような入力デバイスには、(i)例えば、放送事業者による放送全体にわたり送信されるRF信号を受信する無線周波数(Radio Frequency、RF)部分、(ii)コンポーネント(Component、COMP)入力端子(又はCOMP入力端子セット)、(iii)ユニバーサルシリアルバス(Universal Serial Bus、USB)入力端子、及び/又は(iv)高解像度マルチメディアインターフェース(High Definition Multimedia Interface、HDMI)入力端子が含まれるが、これらに限定されない。
図10には示されていないが、他の例としては、コンポジットビデオが挙げられる。
【0091】
様々な実施形態では、ブロック1130の入力デバイスは、当該技術分野で知られているように、関連するそれぞれの入力処理要素を有する。例えば、RF部分は、(i)所望の周波数を選択すること(信号を選択すること、又は信号をある帯域の周波数に帯域制限することとも称される)と、(ii)選択された信号をダウンコンバートすることと、(iii)(例えば)特定の実施形態でチャネルと称され得る信号周波数帯域を選択するために、より狭い帯域の周波数に再び帯域制限することと、(iv)ダウンコンバートされ、帯域制限された信号を復調することと、(v)エラー訂正を実行することと、(vi)所望のデータパケットのストリームを選択するために逆多重化することと、に好適な要素と関連付けられ得る。様々な実施形態のRF部分は、これらの機能を実行する1つ以上の要素、例えば、周波数セレクタ、信号セレクタ、バンドリミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、エラー訂正器、及びデマルチプレクサを含む。RF部分は、様々なこれらの機能を実行するチューナを含むことができ、例えば、受信した信号をより低い周波数(例えば、中間周波数又は近ベースバンド周波数)に又はベースバンドにダウンコンバートすることを含む。セットトップボックスの一実施形態では、RF部分及びその関連する入力処理要素は、有線(例えば、ケーブル)媒体を介して送信されるRF信号を受信し、所望の周波数バンドにフィルタリング、ダウンコンバート、及び再フィルタリングすることによって周波数選択を実行する。様々な実施形態では、上で説明される(及び他の)要素の順序を並べ替える、これらの要素の一部を削除する、並びに/又は、類似若しくは異なる機能を実行する他の要素を追加する。要素を追加することは、例えば、増幅器及びアナログ-デジタル変換器を挿入するなど、既存の要素間に要素を挿入することを含み得る。様々な実施形態において、RF部分は、アンテナを含む。
【0092】
加えて、USB端子及び/又はHDMI端子は、システム1000をUSB接続及び/又はHDMI接続を介して他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含むことができる。入力処理の様々な側面、例えば、リード-ソロモンエラー訂正は、例えば、必要に応じて、別個の入力処理IC内で実装する、又はプロセッサ1010内で実装することができることを理解されたい。同様に、USB又はHDMIインターフェース処理の態様は、必要に応じて、別個のインターフェースIC内、又はプロセッサ1010内で実装することができる。復調され、エラー訂正され、逆多重化されたストリームは、例えば、プロセッサ1010と、出力デバイス上に提示するために必要に応じてデータストリームを処理するためにメモリ及び記憶要素と組み合わせて動作するエンコーダ/デコーダ1030とを含む、様々な処理要素に提供される。
【0093】
システム1000の様々な要素は、統合されたハウジング内に提供され得、統合されたハウジング内では、様々な要素は、好適な接続配設、例えば、Inter-IC(I2C)バス、配線、及びプリント回路基板を含む、当該技術分野で既知の内部バスを使用して相互に接続され、互いの間でデータを送信することができる。
【0094】
システム1000は、通信チャネル1060を介した他のデバイスとの通信を可能にする通信インターフェース1050を含む。通信インターフェース1050は、通信チャネル1060介してデータを送信及び受信するように構成されたトランシーバを含むことができるが、これに限定されない。通信インターフェース1050は、モデム又はネットワークカードを含むことができるが、これらに限定されず、通信チャネル1060は、例えば、有線媒体及び/又は無線媒体内で実装することができる。
【0095】
データは、様々な実施形態では、Wi-Fiネットワーク、例えば、IEEE802.11(IEEEは、米国電気電子技術者協会(Institute of Electrical and Electronics Engineers)を指す)などの無線ネットワークを使用して、システム1000にストリーミングされるか、又は別様に提供される。これらの実施形態のWi-Fi信号は、Wi-Fi通信に適応している通信チャネル1060及び通信インターフェース1050を介して受信される。これらの実施形態の通信チャネル1060は、典型的に、ストリーミングアプリケーション及び他のオーバザトップ通信を可能にするために、インターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施形態では、入力ブロック1130のHDMI接続を介してデータを配信するセットトップボックスを使用して、システム1000にストリーミングデータを提供する。更に他の実施形態では、入力ブロック1130のRF接続を使用して、システム1000にストリーミングデータを提供する。上で示されるように、様々な実施形態は、データを非ストリーミングの様式で提供する。追加的に、様々な実施形態は、Wi-Fi以外の無線ネットワーク、例えば、セルラネットワーク又はBluetoothネットワークを使用する。
【0096】
システム1000は、ディスプレイ1100、スピーカ1110、及び他の周辺デバイス1120を含む様々な出力デバイスに出力信号を提供することができる。様々な実施形態のディスプレイ1100は、例えば、タッチスクリーンディスプレイ、有機発光ダイオード(organic light-emitting diode、OLED)ディスプレイ、湾曲ディスプレイ、及び/又は折り畳み可能なディスプレイのうちの1つ以上を含む。ディスプレイ1100は、テレビ、タブレット、ラップトップ、携帯電話(移動電話)、又は別のデバイス用とすることができる。ディスプレイ1100はまた、他のコンポーネントと統合され得るか(例えば、スマートフォンのように)、又は別個に(例えば、ラップトップのための外部モニタ)され得る。他の周辺デバイス1120としては、実施形態の様々な実施例において、スタンドアロンデジタルビデオディスク(又はデジタル多用途ディスク)(両方の用語について、digital versatile disc、DVR)、ディスクプレーヤ、ステレオシステム、及び/又は照明システム、のうちの1つ以上が挙げられる。様々な実施形態は、システム1000の出力に基づいて機能を提供する1つ以上の周辺デバイス1120を使用する。例えば、ディスクプレーヤは、システム1000の出力を再生する機能を実行する。
【0097】
様々な実施形態では、制御信号が、システム1000と、ディスプレイ1100、スピーカ1110、又は他の周辺デバイス1120との間で、AV.Link、家庭用電子制御(Consumer Electronics Control、CEC)、又はユーザ介入の有無にかかわらずデバイス間の制御を可能にする他の通信プロトコルなどのシグナリングを使用して通信される。出力デバイスは、それぞれのインターフェース1070、1080、及び1090を通した専用接続を介してシステム1000に通信可能に結合することができる。代替的に、出力デバイスは、通信インターフェース1050を介して、通信チャネル1060を使用してシステム1000に接続することができる。ディスプレイ1100及びスピーカ1110は、例えば、テレビなどの電子デバイスにおいてシステム1000の他の構成要素と1つの単位に一体化され得る。様々な実施形態において、ディスプレイインターフェース1070は、例えば、タイミングコントローラ(timing controller、T Con)チップなどのディスプレイドライバを含む。
【0098】
例えば、入力1130のRF部が別個のセットトップボックスの一部である場合、ディスプレイ1100及びスピーカ1110は、代替的に、他の構成要素のうちの1つ以上とは別個とすることができる。ディスプレイ1100及びスピーカ1110が外部構成要素である様々な実施形態では、例えば、HDMIポート、USBポート、又はCOMP出力を含む専用の出力接続を介して出力信号を提供することができる。
【0099】
実施形態は、プロセッサ1010によって、又はハードウェアによって、又はハードウェアとソフトウェアとの組み合わせによって、実装されるコンピュータソフトウェアによって行うことができる。非限定的な例として、1つ以上の集積回路によって実施形態を実装することができる。メモリ1020は、技術環境に適切な任意のタイプのものとすることができ、非限定的な例として、光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリ、及びリブ-バブルメモリなどの相応しいいかなるデータストレージ技術を使用しても実装することができる。プロセッサ1010は、技術環境に適切な任意のタイプのものとすることができ、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、特殊目的コンピュータ、及びマルチコアアーキテクチャに基づくプロセッサのうちの1つ以上を包含することができる。
【0100】
様々な実装形態は、復号することを含む。本出願で使用される「復号」は、例えば、表示するのに適した最終出力を生成するために、受信した符号化シーケンスに対して実行される処理の全て又は一部を包含することができる。様々な実施形態において、このようなプロセスには、例えば、エントロピー復号、逆量子化、逆変換、及び差動復号など、通常、デコーダによって行われるプロセスのうちの1つ以上が含まれる。様々な実施形態において、このようなプロセスには、更に又は代替として、本出願に記載の様々な実装形態のデコーダによって行われるプロセスも含まれる。
【0101】
更なる例として、一実施形態では、「復号」とは、エントロピー復号のみを指し、別の実施形態では、「復号」とは、差動復号のみを指し、別の実施形態では、「復号」とは、エントロピー復号と差動復号との組み合わせを指す。「符号化プロセス」という句が、具体的に作業部分集合を指すことを目的とするものであるか、又は全体としてより広範な符号化プロセスを指すことを目的とするものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。
【0102】
様々な実装形態は、符号化を伴う。本出願で使用される「符号化」は、「復号」に関する上記の説明と同様に、例えば、符号化されたビットストリームを生成するために入力ビデオシーケンスに対して実行される処理の全て又は一部を包含することができる。様々な実施形態において、このようなプロセスは、例えば、分割、差動符号化、変換、量子化、及びエントロピー符号化など、エンコーダによって典型的に実行されるプロセスのうちの1つ以上を含む。様々な実施形態において、このようなプロセスには、更に又は代替的に、本出願に記載の様々な実装形態のエンコーダによって行われるプロセスが含まれる。
【0103】
更なる例として、一実施形態では、「符号化」とは、エントロピー符号化のみを指し、別の実施形態では、「符号化」とは、差動符号化のみを指し、別の実施形態では、「符号化」とは、差動符号化とエントロピー符号化との組み合わせを指す。「符号化プロセス」という句が、具体的に作業部分集合を指すこと目的とするものであるか、又は全体としてより広範な符号化プロセスを指すことを目的とするものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。
【0104】
本明細書で使用されるシンタックス要素は、説明上の用語であることに留意されたい。したがって、これらは他のシンタックス要素名の使用を排除するものではない。
【0105】
図がフローチャートとして提示されている場合、その図は対応する装置のブロック図も提供するものと理解されたい。同様に、図がブロック図として提示されている場合、その図は対応する方法/プロセスのフローチャートも提供するものと理解されたい。
【0106】
様々な実施形態が、パラメトリックモデル又はレート歪み最適化に関連し得る。具体的には、符号化プロセス中に、レートと歪みとの間のバランス又はトレードオフは、通常、多くの場合、計算複雑性の制約を与えるものと考えられる。レート歪み最適化(Rate Distortion Optimization、RDO)メトリックを通して、あるいは最小二乗平均(Least Mean Square、LMS)、絶対誤差平均(Mean of Absolute Errors、MAE)、又は他のこのような測定を通して、これを測定することができる。レート歪み最適化は、通常、レートと歪みとの加重和であるレート歪み関数を最小化するように定式化される。レート歪み最適化問題を解くには、異なる手法がある。例えば、これらの手法は、全ての考慮されるモード又は符号化パラメータ値を含む全ての符号化オプションの広範なテストに基づき得、それらの符号化コスト、並びに符号化及び復号後の再構成された信号の関連する歪みの完全な評価を伴う。符号化複雑性を抑えるために、特に、再構成された信号ではなく、予測又は予測残差信号に基づく近似歪みの計算とともに、より素早い手法を使用することもできる。考えられる符号化選択肢の一部のみに対して近似歪みを使用し、他の符号化選択肢に対しては完全な歪みを使用することなどによって、これらの2つの手法の混合を使用することもできる。他の手法では、考えられる符号化選択肢部分集合のみを評価する。より一般的には、多くの手法は、最適化を実行するために様々な技術のいずれかを採用するが、最適化は、必ずしもコーディングコスト及び関連する歪みの両方の完全な評価ではない。
【0107】
本明細書に記載の実装形態及び態様は、例えば、方法若しくはプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装することができる。たとえ単一の形態の実装形態の文脈でのみ考察される場合でも(例えば、方法としてのみ考察される)、考察された特徴の実装形態は、他の形態(例えば、装置又はプログラム)でも実装することができる。例えば、適切なハードウェア、ソフトウェア、及びファームウェアにおいて装置を実装することができる。方法は、例えば、プロセッサにおいて実施することができ、プロセッサとは、例えば、コンピュータ、マイクロプロセッサ、集積回路、又はプログラマブルロジックデバイスを含む一般的な処理デバイスを指す。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型/携帯情報端末(portable/personal digital assistant、「PDA」)及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。
【0108】
「一実施形態」若しくは「ある実施形態」又は「一実装形態」若しくは「ある実装形態」、またそれらの他の変形形態への言及は、その実施形態に関連して説明する特定の特徴、構造、特性などが、少なくとも1つの実施形態に含まれることを意味する。したがって、本出願全体を通して様々な場所に現れる「一実施形態では」若しくは「ある実施形態では」又は「一実装形態では」若しくは「ある実装形態では」、また他の変形形態という句が現れるとき、必ずしも全てが同じ実施形態を指しているのではない。
【0109】
加えて、本出願は、様々な情報を「判定する」ことに言及し得る。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの1つ以上を含むことができる。
【0110】
更に、本出願は、様々な情報に「アクセスすること」に言及する場合がある。情報にアクセスすることは、例えば、情報を受信すること、(例えば、メモリから)情報を取得すること、情報を記憶すること、情報を移動すること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの1つ以上を含むことができる。
【0111】
加えて、本出願は、様々な情報を「受信すること」に言及する場合がある。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は(例えば、メモリから)情報を取得することのうちの1つ以上を含むことができる。更に、「受信すること」は、一般には、例えば、情報を記憶する、情報を処理する、情報を送信する、情報を移動する、情報をコピーする、情報を消去する、情報を計算する、情報を判定する、情報を予測する、又は情報を推定するなどの操作時に、何らかの形で関与する。
【0112】
例えば、「A/B」、「A及び/又はB(A and/or B)」及び「A及びBのうちの少なくとも1つ(at least one of A and B)」の場合、次の「/」、「及び/又は(and/or)」、及び「のうちの少なくとも1つ(at least one of)」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は両方の選択肢(A及びB)の選択を包含することが意図されていることを理解されるべきである。更なる実施例として、「A、B、及び/又はC(A,B,and/or C)」及び「A、B、及びCのうちの少なくとも1つ(at least one of A,B,and C)」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は第3のリストされた選択肢(C)のみの選択、又は第1及び第2のリストされた選択肢(A及びB)のみの選択、又は第1及び第3のリストされた選択肢(A及びC)のみの選択、又は第2及び第3のリストされた選択肢のみの選択(B及びC)のみ、又は3つ全ての選択肢の選択(A及びB及びC)を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。
【0113】
また、本明細書で使用されるとき、「シグナリングする」という語は、特に、対応するデコーダに対して何かを示すことを意味する。例えば、特定の実施形態では、エンコーダは、複数の変換、符号化モード又はフラグのうちの特定の1つをシグナリングする。このように、ある実施形態では、同じ変換、パラメータ又はモードが、エンコーダ側及びデコーダ側の両方で使用される。したがって、例えば、エンコーダは、デコーダが同じ特定のパラメータを使用することができるように、特定のパラメータをデコーダに送信することができる(明確なシグナリング)。これに対し、デコーダがすでにその特定のパラメータと共に他のパラメータも有する場合は、単にデコーダがその特定のパラメータを知ること、及びそれを選択することを可能にするように、送信を行わないシグナリング(暗黙的なシグナリング)を使用することができる。いかなる実際の機能の送信も回避することにより、様々な実施形態において、ビットの節約が実現される。シグナリングは、様々な方法で達成することができることが理解されよう。例えば、1つ以上のシンタックス要素、フラグなどが、様々な実施形態において、対応するデコーダに情報をシグナリングするために使用される。上記は、「信号」という語の動詞形に関連し、「信号」という語は、本明細書では名詞としても使用されることがある。
【0114】
当業者には明白であるように、実装形態は、例えば、格納され得る、又は送信され得る情報を搬送するようにフォーマットされた様々な信号をもたらすことができる。情報は、例えば、方法を実行するための命令、又は説明されている実装形態の1つによって生成されるデータを含むことができる。例えば、記載の実施形態のビットストリームを搬送するように、信号をフォーマットすることができる。例えば、電磁波として(例えば、スペクトルの無線周波数部分を使用して)、又はベースバンド信号として、このような信号をフォーマットすることができる。フォーマットすることは、例えば、データストリームを符号化することと、符号化されたデータストリームで搬送波を変調することと、を含むことができる。信号が搬送する情報は、例えば、アナログ情報又はデジタル情報とすることができる。既知であるように、様々な異なる有線リンク又は無線リンク上で信号を送信することができる。信号は、プロセッサ可読媒体に格納することができる。
【0115】
前述のセクションは、様々な請求項のカテゴリ及びタイプにわたって、いくつかの実施形態を説明している。これらの実施形態の特徴は、単独で、又は任意の組み合わせで提供することができる。更に、実施形態は、様々な特許請求の範疇及びタイプにわたって、以下の特徴、デバイス、又は態様のうちの1つ以上を、単独で、又は任意の組み合わせにおいて、含むことができる。
・ 条件付き畳み込みを使用したビデオ情報の符号化及び復号。
・ GOP構造に基づく条件付き符号化による上記の符号化及び復号。
・ 動きフローを決定するために輝度を使用する上記の符号化及び復号。
・ 一連の全結合層を用いて実装される上記の符号化及び復号。
・ 動き情報を生成するために転置畳み込みを使用する上記の符号化及び復号。
・ 動き情報を使用して参照フレームを現在のフレーム上にワープして、現在のフレームの予測子を生成することをさらに含む上記の符号化及び復号。
・ 記載されるシンタックス要素、又はその変形形態のうちの1つ以上を含むビットストリーム又は信号。
・ 記載される実施形態のうちのいずれかに従って生成される情報を運ぶシンタックスを含むビットストリーム又は信号。
・ 記載される実施形態のいずれかにより、作り出しかつ/又は送信しかつ/又は受信しかつ/又は復号する。
・ 記載される実施形態のいずれかによる、方法、プロセス、装置、命令を格納する媒体、データを記憶する媒体、又は信号。
・ エンコーダによって使用されることに対応する様態で、デコーダが復号情報を決定することを可能にするシンタックス要素をシグナリングに挿入する。
・ 記載されるシンタックス要素、又はその変形形態のうちの1つ以上を含むビットストリーム又は信号を作り出しかつ/又は送信しかつ/又受信しかつ/又は復号する。
・ 記載される実施形態のいずれかによる、変換方法を行う、テレビ、セットトップボックス、携帯電話、タブレットなどの電子デバイス。
・ 記載される実施形態のいずれかにより、変換方法判定を下し、結果としてもたらされた画像を表示する(例えば、モニタ、スクリーン、などのタイプのディスプレイを使用して)表示する、テレビ、セットトップボックス、携帯電話、タブレットなどの電子デバイス。
・ 符号化済み画像を含む信号を受信するように、チャネルを選択し、帯域制限し、又はチューニングし(例えば、チューナを使用して)、記載される実施形態のいずれかにより変換方法を行う、テレビ、セットトップボックス、携帯電話、タブレット、又は他の電子デバイス。
・ 符号化済み画像を含む信号を放送全体にわたって受信し、変換方法を行う、TV、セットトップボックス、携帯電話、タブレット、又はそれ以外の電子デバイス。
【国際調査報告】