IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特表2023-542332倍率を有するDNNに基づくクロスコンポーネント予測のためのコンテンツ適応型オンライントレーニング
<>
  • 特表-倍率を有するDNNに基づくクロスコンポーネント予測のためのコンテンツ適応型オンライントレーニング 図1
  • 特表-倍率を有するDNNに基づくクロスコンポーネント予測のためのコンテンツ適応型オンライントレーニング 図2
  • 特表-倍率を有するDNNに基づくクロスコンポーネント予測のためのコンテンツ適応型オンライントレーニング 図3
  • 特表-倍率を有するDNNに基づくクロスコンポーネント予測のためのコンテンツ適応型オンライントレーニング 図4
  • 特表-倍率を有するDNNに基づくクロスコンポーネント予測のためのコンテンツ適応型オンライントレーニング 図5
  • 特表-倍率を有するDNNに基づくクロスコンポーネント予測のためのコンテンツ適応型オンライントレーニング 図6
  • 特表-倍率を有するDNNに基づくクロスコンポーネント予測のためのコンテンツ適応型オンライントレーニング 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-06
(54)【発明の名称】倍率を有するDNNに基づくクロスコンポーネント予測のためのコンテンツ適応型オンライントレーニング
(51)【国際特許分類】
   H04N 19/117 20140101AFI20230929BHJP
   H04N 19/186 20140101ALI20230929BHJP
【FI】
H04N19/117
H04N19/186
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023518070
(86)(22)【出願日】2022-05-31
(85)【翻訳文提出日】2023-03-20
(86)【国際出願番号】 US2022031509
(87)【国際公開番号】W WO2022265850
(87)【国際公開日】2022-12-22
(31)【優先権主張番号】63/210,762
(32)【優先日】2021-06-15
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/825,339
(32)【優先日】2022-05-26
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】リン,シェン
(72)【発明者】
【氏名】ジャン,ウェイ
(72)【発明者】
【氏名】ワン,ウェイ
(72)【発明者】
【氏名】ディン,ディン
(72)【発明者】
【氏名】リウ,シャン
(72)【発明者】
【氏名】シュー,シャオジョン
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA04
5C159MA05
5C159MA21
5C159MC11
5C159ME01
5C159ME02
5C159PP15
5C159PP16
5C159TA69
5C159TC08
5C159TC18
5C159TD12
5C159TD17
5C159UA02
5C159UA05
5C159UA16
(57)【要約】
画像フレーム又はビデオシーケンスの符号化又は復号中の倍率によるニューラルネットワークに基づくクロスコンポーネント予測のための方法及び機器であって、少なくとも1つ以上の倍率で深層ニューラルネットワーク(DNN)クロスコンポーネント予測(CCP)モデルをトレーニングするステップであって、前記少なくとも1つ以上の倍率は、ルマコンポーネントを含む入力ビデオシーケンスに基づきレート歪み損失を最適化することにより、学習される、ステップと、クロマ予測のために、前記少なくとも1つ以上の倍率で、前記トレーニングされたDNN CCPモデルを用いて、前記ルマコンポーネントに基づきクロマコンポーネントを再構成するステップと、を含んでよい。前記トレーニングされたDNN CCPモデルは、前記1つ以上の倍率を用いて、前記入力ビデオシーケンスのクロマ予測のために更新されてよく、前記1つ以上の倍率で、前記更新されたDNN CCPを用いて、前記入力ビデオシーケンスのクロマ予測を実行する。
【特許請求の範囲】
【請求項1】
復号中の倍率によるニューラルネットワーク(NN)に基づくクロスコンポーネント予測のための方法であって、前記方法は1つ以上のプロセッサにより実行され、前記方法は、
少なくとも1つ以上の倍率で深層ニューラルネットワーク(DNN)クロスコンポーネント予測(CCP)モデルをトレーニングするステップであって、前記少なくとも1つ以上の倍率は、ルマコンポーネントを含む入力ビデオシーケンスに基づきレート歪み損失を最適化することにより、学習される、ステップと、
クロマ予測のために、前記少なくとも1つ以上の倍率で、前記トレーニングされたDNN CCPモデルを用いて、前記ルマコンポーネントに基づきクロマコンポーネントを再構成するステップと、
前記1つ以上の倍率を用いて、前記入力ビデオシーケンスのクロマ予測のために前記トレーニングされたDNN CCPモデルを更新するステップと、
前記1つ以上の倍率で、前記更新されたDNN CCPモデルを用いて、前記入力ビデオシーケンスのクロマ予測を実行するステップと、
を含む方法。
【請求項2】
前記トレーニングされたDNN CCPモデルを更新するステップは、前記1つ以上の倍率に基づき、前記トレーニングされたDNN CCPモデルの1つ以上のバイアスパラメータを最適化するステップを含む、請求項1に記載の方法。
【請求項3】
前記トレーニングされたDNN CCPモデルを更新するステップは、前記1つ以上の倍率に基づき、前記トレーニングされたDNN CCPモデルの1つ以上の重みパラメータを最適化するステップを含む、請求項1に記載の方法。
【請求項4】
前記トレーニングされたDNN CCPモデルを更新するステップは、前記1つ以上の倍率に基づき、前記トレーニングされたDNN CCPモデルの1つ以上のバイアスパラメータ及び1つ以上の重みパラメータを共同で最適化するステップを含む、請求項1に記載の方法。
【請求項5】
前記トレーニングされたDNN CCPモデルを更新するステップは、前記1つ以上の倍率に基づき、前記トレーニングされたDNN CCPモデルの1つ以上のレイヤの中から1つ以上のパラメータを最適化するステップを含む、請求項1に記載の方法。
【請求項6】
前記1つ以上のレイヤは、前記トレーニングされたDNN CCPモデルの1つ以上の畳み込みレイヤを含む、請求項5に記載の方法。
【請求項7】
前記1つ以上のレイヤは、前記トレーニングされたDNN CCPモデルの最終レイヤのセットを含む、請求項5に記載の方法。
【請求項8】
前記1つ以上のレイヤは、同じレイヤプロパティを有する前記トレーニングされたDNN CCPモデルの全部のレイヤを含む、請求項5に記載の方法。
【請求項9】
前記トレーニングされたDNN CCPモデルを更新するステップは、単一のビデオシーケンス又は前記ビデオシーケンスのセットに基づき更新するステップを更に含む、請求項1に記載の方法。
【請求項10】
前記再構成されたクロマコンポーネントの品質計算は、他の予測モードからの1つ以上のクロマコンポーネント、及び前記再構成されたクロマコンポーネントに関連付けられた元のクロマコンポーネントに基づく、請求項1に記載の方法。
【請求項11】
更新するステップは、
前記1つ以上の倍率で最適化された1つ以上のパラメータを含む更新済みニューラルネットワークモデルの第1圧縮性能を計算するステップと、
1つ以上の関連パラメータを含むトレーニングされたDNN CCPモデルの第2圧縮性能を計算すステップと、
前記第1圧縮性能及び前記第2圧縮性能の比較が閾値より高いことに基づき、前記1つ以上の倍率により最適化された1つ以上のパラメータを含むよう、前記トレーニングされたDNN CCPモデルを更新するかどうかを決定する、ステップと、
を含む、請求項1に記載の方法。
【請求項12】
復号中の倍率によるニューラルネットワーク(NN)に基づくクロスコンポーネント予測のための機器であって、前記機器は、請求項1~11のいずれか一項に記載の方法を実行する機器。
【請求項13】
復号中の倍率によるニューラルネットワーク(NN)に基づくクロスコンポーネント予測のためのコンピュータプログラムであって、少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに、請求項1~11のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【請求項14】
符号化中の倍率によるニューラルネットワーク(NN)に基づくクロスコンポーネント予測のための方法であって、前記方法は1つ以上のプロセッサにより実行され、前記方法は、
少なくとも1つ以上の倍率で深層ニューラルネットワーク(DNN)クロスコンポーネント予測(CCP)モデルをトレーニングするステップであって、前記少なくとも1つ以上の倍率は、ルマコンポーネントを含む入力ビデオシーケンスに基づきレート歪み損失を最適化することにより、学習される、ステップと、
クロマ予測のために、前記少なくとも1つ以上の倍率で、前記トレーニングされたDNN CCPモデルを用いて、前記ルマコンポーネントに基づきクロマコンポーネントを再構成するステップと、
前記1つ以上の倍率を用いて、前記入力ビデオシーケンスのクロマ予測のために前記トレーニングされたDNN CCPモデルを更新するステップと、
前記1つ以上の倍率で、前記更新されたDNN CCPを用いて、前記入力ビデオシーケンスのクロマ予測を実行するステップと、
を含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願]
本願は、参照により全体がここに組み込まれる、2021年6月15日に出願した米国仮出願番号第63/210,762号、及び2022年5月26日に出願した米国特許出願番号第17/825,339号の優先権を主張する。
【0002】
[技術分野]
本開示の実施形態は、画像及び/又はビデオシーケンスの符号化又は復号中のニューラルネットワークに基づくクロスコンポーネント予測に関する。
【背景技術】
【0003】
ビデオコーディング及び復号は、圧縮を通じて、入力ビデオ信号の中の冗長性を削減する。圧縮は、可逆(無損失)及び不可逆(損失)の両方とも、幾つかの場合には大きさで2桁以上も、帯域幅又は記憶空間要件を軽減するのを助けることができる。無損失圧縮は、元の信号の正確なコピーが圧縮された元の信号から再構成可能である技術を表す。損失圧縮を用いると、再構成された信号は、元の信号と同一ではないが、元の信号と再構成された信号との間の歪みは、意図される用途のために有用な再構成された信号を生成するのに十分に小さい。損失圧縮は、ビデオ符号化又は復号において広く利用されている。歪み耐性の量は、アプリケーションに依存してよい。例えば、特定の消費者ストリーミングアプリケーションのユーザは、テレビジョン投稿アプリケーションのユーザよりも高い歪みに耐え得る。
【0004】
H.264/Advanced Video Coding (H.264/AVC)、High-Efficiency Video Coding (HEVC)、及びVersatile Video Coding (VVC)のような伝統的なビデオコーディング規格は、同様の(再帰的な)ブロックに基づくハイブリッド予測/変換の枠組みの上に設計されている。ここで、イントラ/インター予測、整数変換、及びコンテキスト適応型エントロピーコーディングのような個々のコーディングツールは、全体の効率を最適化するために徹底的に手作業で作られている。基本的に、時空間ピクセルの近傍は、後続の変換、量子化、及びエントロピーコーディングのための対応する残差を得るために、予測信号構成に利用される。しかしながら、このアプローチは、種々のレイヤの時空間情報を分析することにより異なるレベルの時空間刺激を抽出することができない。従って、より良い圧縮効率及びより良い圧縮品質のために、非線形性及び非局所的な時空間相関を探求する装置が必要である。
【発明の概要】
【0005】
本開示の態様によると、符号化又は復号中の倍率によるニューラルネットワーク(NN)に基づくクロスコンポーネント予測のための方法が提供され得る。前記方法は、
少なくとも1つ以上の倍率で深層ニューラルネットワーク(DNN)クロスコンポーネント予測(CCP)モデルをトレーニングするステップであって、前記少なくとも1つ以上の倍率は、ルマコンポーネントを含む入力ビデオシーケンスに基づきレート歪み損失を最適化することにより、学習される、ステップと、
クロマ予測のために、前記少なくとも1つ以上の倍率で、前記トレーニングされたDNN CCPモデルを用いて、前記ルマコンポーネントに基づきクロマコンポーネントを再構成するステップと、
前記1つ以上の倍率を用いて、前記入力ビデオシーケンスのクロマ予測のために前記トレーニングされたDNN CCPモデルを更新するステップと、
前記1つ以上の倍率で、前記更新されたDNN CCPを用いて、前記入力ビデオシーケンスのクロマ予測を実行するステップと、を含んでよい。
【0006】
本開示の態様によると、符号化又は復号中の倍率によるニューラルネットワーク(NN)に基づくクロスコンポーネント予測のための機器が提供されうる。前記機器は、
プログラムコードを格納するよう構成される少なくとも1つのメモリと、
前記プログラムコードを読み出し、前記プログラムコードにより指示されるように動作させるよう構成される少なくとも1つのプロセッサと、
を含んでよい。
前記プログラムコードは、
前記少なくとも1つのプロセッサに、少なくとも1つ以上の倍率で深層ニューラルネットワーク(DNN)クロスコンポーネント予測(CCP)モデルをトレーニングさせるよう構成されるトレーニングコードであって、前記少なくとも1つ以上の倍率は、ルマコンポーネントを含む入力ビデオシーケンスに基づきレート歪み損失を最適化することにより、学習される、トレーニングコードと、
前記少なくとも1つのプロセッサに、クロマ予測のために、前記少なくとも1つ以上の倍率で、前記トレーニングされたDNN CCPモデルを用いて、前記ルマコンポーネントに基づきクロマコンポーネントを再構成させる再構成コードと、
前記1つ以上の倍率を用いて、前記入力ビデオシーケンスのクロマ予測のために前記トレーニングされたDNN CCPモデルを更新させる更新コードと、
前記1つ以上の倍率で、前記更新されたDNN CCPを用いて、前記入力ビデオシーケンスのクロマ予測を実行させる実行コードと、
を含んでよい。
【0007】
本開示の態様によると、符号化又は復号中の倍率によるニューラルネットワーク(NN)に基づくクロスコンポーネント予測のための非一時的コンピュータ可読媒体が提供され得る。前記非一時的コンピュータ可読媒体は、
少なくとも1つ以上の倍率で深層ニューラルネットワーク(DNN)クロスコンポーネント予測(CCP)モデルをトレーニングするステップであって、前記少なくとも1つ以上の倍率は、ルマコンポーネントを含む入力ビデオシーケンスに基づきレート歪み損失を最適化することにより、学習される、ステップと、
クロマ予測のために、前記少なくとも1つ以上の倍率で、前記トレーニングされたDNN CCPモデルを用いて、前記ルマコンポーネントに基づきクロマコンポーネントを再構成するステップと、
前記1つ以上の倍率を用いて、前記入力ビデオシーケンスのクロマ予測のために前記トレーニングされたDNN CCPモデルを更新するステップと、
前記1つ以上の倍率で、前記更新されたDNN CCPを用いて、前記入力ビデオシーケンスのクロマ予測を実行するステップと、を含んでよい。
【図面の簡単な説明】
【0008】
開示の主題の更なる特徴、特性、及び種々の利点は、以下の詳細な説明及び添付の図面から一層明らかになるだろう。
【0009】
図1】実施形態による通信システムの簡略ブロック図である。
【0010】
図2図1の1つ以上の装置の例示的なコンポーネントのブロック図である。
【0011】
図3】実施形態による、符号化又は復号中の倍率を有する例示的な深層ニューラルネットワーク(DNN)に基づくクロスコンポーネント予測の図である。
【0012】
図4】実施形態による、符号化又は復号中の倍率を有する深層ニューラルネットワーク(DNN)に基づくクロスコンポーネント予測(CCP)のための方法のフローチャートを示す。
【0013】
図5】実施形態によるストリーミング環境の図である。
【0014】
図6】実施形態によるビデオデコーダのブロック図である。
【0015】
図7】実施形態によるビデオエンコーダのブロック図である。
【発明を実施するための形態】
【0016】
上述のように、従来の方法は、後続の変換、量子化、及びエントロピーコーディングのための対応する残差を得るために、予測信号構成のために時空間ピクセルの近傍を利用することがある。しかしながら、このアプローチは、種々のレイヤの時空間情報を分析することにより異なるレベルの時空間刺激を抽出することができない。従って、より良い圧縮効率及びより良い圧縮品質のために、非線形性及び非局所的な時空間相関を探求する装置が必要である。
【0017】
異なるコンポーネントからの情報及び追加サイド情報を利用して、非ニューラルネットワークに基づくエンコーダは、他のコンポーネントを予測して、より良い圧縮性能を達成することができる。しかしながら、それらの性能は、にゅーらに基づくエンコーダと比べて劣る。例えば、イントラ予測のクロスコンポーネント線形予測モードは、深層ニューラルネットワーク(deep neural network (DNN))に基づく方法と比べると、実行に失敗し、効率的ではない。
【0018】
DNNは、基本的に、異なるレベルの刺激を抽出するようプログラムされ、高度な非線形性及び非局所的相関を探求する能力を有する。これは、高い圧縮品質を実現する有望な機会を提供する。
【0019】
本開示の実施形態によると、倍率によりオンラインでトレーニングすることにより、圧縮性能を向上させる、コンテンツ適応型クロスコンポーネント予測方法が提供され得る。オンライントレーニングは、1つ以上のモデルをトレーニングすることを含んでよい。本開示の実施形態によると、DNNに基づくエンコーダ及び/又はデコーダは、推定中に又は推定後の特定の時に、部分的に更新されてよく、入力ビデオのために最適化された1つ又は複数の再構成コンポーネントに対してより良好な圧縮性能を提供する。
【0020】
図1は、本開示の実施形態による通信システム(100)の簡易ブロック図を示す。通信システム100は、ネットワーク150を介して相互接続される少なくとも2つの端末140~130を含んでよい。データの一方向送信では、第1端末(140)は、ネットワーク(150)を介して他の端末(130)へ送信するために、ビデオデータをローカル位置でコーディングしてよい。第2端末(130)は、ネットワーク(150)から他の端末のコーディングビデオデータを受信し、コーディングデータを復号して、復元したビデオデータを表示してよい。単方向データ伝送は、メディアサービングアプリケーション等で共通であってよい。
【0021】
図1は、例えばビデオ会議中に生じ得る、コーディングビデオの双方向送信をサポートするために適用される第2端末ペア(110、120)を示す。データの双方向送信では、各端末(110、120)は、ネットワーク(150)を介して他の端末へ送信するために、ローカルでキャプチャしたビデオデータをコーディングしてよい。各端末110、120は、また、他の端末により送信されたコーディングビデオデータを受信してよく、コーディングデータを復号してよく、及び復元したビデオデータをローカルディスプレイ装置で表示してよい。
【0022】
図1では、端末装置140~120は、サーバ、パーソナルコンピュータ、及びスマートフォンとして示されてよいが、本開示の原理はこれらに限定されない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤ、及び/又は専用ビデオ会議設備による適用がある。ネットワーク(150)は、端末(140~120)の間でコーディングビデオデータを運ぶ任意の数のネットワークを表し、例えば有線及び/又は無線通信ネットワークを含む。通信ネットワーク(150)は、回線切り換え及び/又はパケット切り換えチャネルでデータを交換してよい。代表的なネットワークは、電子通信ネットワーク、ローカルエリアネットワーク、広域ネットワーク、及び/又はインターネットを含む。本発明の議論の目的で、ネットワーク(150)のアーキテクチャ及びトポロジは、以下で特に断りの無い限り、本開示の動作にとって重要でないことがある。
【0023】
図2は、図1の1つ以上の装置の例示的なコンポーネントのブロック図である。
【0024】
装置(200)は、端末(110~140)のうちのいずれか1つに対応してよい。図2に示すように、装置(200)は、バス(210)、プロセッサ(220)、メモリ(230)、記憶コンポーネント(240)、入力コンポーネント(250)、出力コンポーネント(260)、及び通信インタフェース(270)を含んでよい。
【0025】
バス(210)は、装置(200)のコンポーネントの間で通信を可能にするコンポーネントを含む。プロセッサ(220)は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせで実装される。プロセッサ(220)は、中央処理装置(CPU)、グラフィックス処理装置(GPU)、加速処理装置(APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、又は別のタイプの処理コンポーネントである。幾つかの実施態様では、プロセッサ(220)は、機能を実行するようにプログラム可能な1つ以上のプロセッサを含む。メモリ(230)は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、及び/又は、プロセッサ(220)により使用するための情報及び/又は命令を格納する別のタイプの動的若しくは静的記憶装置(例えば、フラッシュメモリ、磁気メモリ、及び/又は光メモリ)を含む。
【0026】
記憶コンポーネント(240)は、装置(200)の動作及び使用に関連する情報及び/又はソフトウェアを格納する。例えば、記憶コンポーネント(240)は、対応するドライブと一緒に、ハードディスク(例えば、磁気ディスク、光ディスク、光磁気ディスク、及び/又は固体ディスク)、コンパクトディスク(CD)、デジタルバーサタイルディスク(DVD)、フロッピディスク、カートリッジ、磁気テープ、及び/又は別の種類の非一時的コンピュータ可読媒体を含んでよい。
【0027】
入力コンポーネント(250)は、装置(200)が、例えばユーザ入力(例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、及び/又はマイクロフォン)を介して情報を受信することを可能にするコンポーネントを含む。追加又は代替として、入力コンポーネント(250)は、情報を検知するセンサを含んでよい(例えば、全地球測位システム(GPS)コンポーネント、加速度計、ジャイロスコープ、及び/又はアクチュエータ)。出力コンポーネント(260)は、装置(200)からの出力情報を提供するコンポーネントを含む(例えば、ディスプレイ、スピーカ、及び/又は1つ以上の発光ダイオード(LED))。
【0028】
通信インタフェース(270)は、例えば有線接続、無線接続、又は有線及び無線接続の組合せを介して装置(200)が他の装置と通信することを可能にするトランシーバのようなコンポーネント(例えば、トランシーバ、及び/又は別個の受信機及び送信機)を含む。通信インタフェース(270)は、装置(200)が別の装置から情報を受信し、及び/又は別の装置に情報を提供できるようにしてよい。例えば、通信インタフェース(270)は、Ethernet(登録商標)インタフェース、光インタフェース、同軸インタフェース、赤外線インタフェース、無線周波数(RF)インタフェース、ユニバーサルシリアルバス(USB)インタフェース、WiFiインタフェース、セルラネットワークインタフェース、等を含んでよい。
【0029】
装置(200)は、本願明細書に記載された1つ以上の処理を実行してよい。装置(200)は、プロセッサ(220)が、メモリ(230)及び/又は記憶コンポーネント(240)のような一時的コンピュータ可読媒体に格納されたソフトウェア命令を実行することに応答して、これらの処理を実行してよい。コンピュータ可読媒体は、本願明細書では非一時的メモリ装置として定義される。メモリ装置は、単一の物理記憶装置内のメモリ空間、又は複数の物理的記憶装置に渡り広がるメモリ空間を含む。
【0030】
ソフトウェア命令は、別のコンピュータ可読媒体から又は別の装置から通信インタフェース(270)を介して、メモリ(230)及び/又は記憶コンポーネント(240)に読み込まれてよい。実行されると、メモリ(230)及び/又は記憶コンポーネント(240)に格納されたソフトウェア命令は、プロセッサ(220)に、本願明細書に記載された1つ以上の処理を実行させてよい。追加又は代替として、本願明細書に記載の1つ以上の処理を実行するために、ハード結線回路が、ソフトウェア命令の代わりに又はそれと組合せて使用さてよい。従って、本願明細書に記載される実装は、ハードウェア回路及びソフトウェアの任意の特定の組み合わせに限定されない。
【0031】
図2に示すコンポーネントの数及び配置は、例として提供される。実際に、装置(200)は、図2に示されるものより、追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、又は異なる配置のコンポーネントを含んでよい。追加又は代替として、装置(200)のコンポーネントのセット(例えば、1つ以上のコンポーネント)は、装置(200)の装置の別のセットによって実行されるものとして説明される1つ以上の機能を実行してよい。
【0032】
ビデオ圧縮の枠組みは、以下に説明され得る。入力ビデオxは、複数の画像フレームx、...,xTを含んでよい。ここで、Tはビデオの中のフレームの総数を表す。フレームは、空間ブロックにパーティションされてよく、各ブロックはより小さなブロックに繰り返しパーティションされることができる。パーティションのために任意の適切な方法が使用されてよい。例えば、3Dツリーコーディング(例えば、8分木パーティション)が使用されてよい。パーティション済みブロックは、ルマコンポーネント及びクロマコンポーネントの両方を含んでよい。イントラ予測処理中に、ルマコンポーネントが先ず予測されてよく、次に、2つのクロマチャネルが後に予測されてよい。実施形態によると、両方のクロマチャネルの予測は、共同で又は別個に生成されてよい。再構成クロマコンポーネントは、エンコーダ及びデコーダの両方で、DNNに基づくモデルにより生成されてよい。幾つかの実施形態では、再構成クロマコンポーネントは、デコーダでのみ、DNNに基づくモデルにより生成されてよい。実施形態によると、信号処理、空間又は時間フィルタリング、スケーリング、加重平均、アップ/ダウンサンプリング、プーリング、メモリによる再帰処理、線形システム処理、非線形システム処理、ニューラルネットワーク処理、深層学習に基づく処理、AI処理、予めトレーニングされたネットワーク処理、機械学習に基づく処理、又はそれらの組み合わせを含む1つ以上の処理は、画像フレームの前処理及び/又は画像フレームの後処理のために、モジュールとして使用できる。
【0033】
図3は、実施形態によると、符号化又は復号中の倍率(scaling factor)を有する例示的な深層ニューラルネットワーク(deep neural network (DNN))に基づくクロスコンポーネント予測処理(300)の図である。図3に示すように、処理300は、ニューラルネットワークモデル(302)、及び再構成品質計算(304)を含んでよい。
【0034】
(例えば、符号化中に)ルマコンポーネント又は(例えば復号中に)再構成ルマコンポーネント、特定のサイド情報、又は隣接ルマ参照ブロック及び隣接クロマ参照ブロックに関連する情報が、ニューラルネットワークモデル(302)の入力として与えられると、ニューラルネットワークモデル(302)は、トレーニングされ、及び共同で推定を実行できる。
【0035】
幾つかの実施形態では、ニューラルネットワークモデル(302)は、ニューラルネットワークモデル(302)を用いて符号化又は復号する前又は後の時間に微調整される予めトレーニングされたモデルであってよい。幾つかの実施形態では、ニューラルネットワークモデル(302)は、予めトレーニングされてよいが、各々の符号化又は復号中に、推定加速及び連続チューニングを利用して連続的に更新されてよい。連続更新のために、幾つかの実施形態では、ニューラルネットワークモデル(302)は、カスタマイズされたハードウェアプロセッサによりサポートされてよく、トレーニング中に使用される低精度浮動小数点表現によりサポートされてもよい。
【0036】
実施形態によると、追加サイド情報は、限定ではないが、ルマコンポーネント、ブロックサイズ、ブロックコンポーネント、量子化パラメータ(QP)値、等を含むエンコーダにより提供される画像特性及び情報を含んでよい。
【0037】
ニューラルネットワークモデル(302)の出力は、予測されたクロマコンポーネントであってよい。2つのクロマチャネルは、異なるニューラルネットワークに基づくモデルを使用するか、又は同じものを使用してもよい。本開示の実施形態は結合を許容し、これらのコンポーネントが入力としてどのように使用されるかの連結又は順序は任意に変更できる。
【0038】
予測されたクロマコンポーネントは、再構成クロマブロックを生成するために、再構成品質計算(304)への入力として使用されてよい。幾つかの実施形態では、再構成品質計算(304)は、他の予測モードからのクロマブロックを入力として使用してもよい。幾つかの実施形態では、再構成品質計算(304)は、再構成クロマブロックに関連付けられた元のクロマブロックを受信してよく、圧縮品質を決定し、ニューラルネットワークモデルの1つ以上のパラメータが更新される必要があるか又は更新されてよいか、従ってニューラルネットワークモデルを更新するかを決定する。
【0039】
ニューラルネットワークに基づくクロスコンポーネント予測モデルの学習速度及び正確さを向上するために、幾つかの追加パラメータが、本開示のニューラルネットワークに基づくクロスコンポーネント予測モデルに追加されてよい。これらの1つ以上の追加パラメータは、初期トレーニング、微調整、又は連続調整の間に、学習可能なパラメータとして追加されてよい。トレーニング中、追加パラメータは、入力ビデオシーケンスに基づきレート歪み損失を最適化することにより学習できる。これらの追加パラメータは、倍率(scaling factor)αと呼ばれる。一実施形態では、倍率αは、重み項又はバイアス項に適用され、重み項又はバイアス項として重みを共有してよい。例えば、重みテンソルWは、新しい重みテンソルW^を得るために、倍率αにより乗算され/加算されてよい。任意のパターンがαに適用できる。例えば、αが2D行列であるとすると、各行は同じ値を共有するか、又は各列は同じ値を共有する。
【0040】
一実施形態によると、クロスコンポーネント予測のためのニューラルネットワークに基づくモデルは、微調整されてよく、又は単一ビデオシーケンスに基づき連続的に更新されてよい。一実施形態によると、クロスコンポーネント予測のためのニューラルネットワークに基づくモデルは、微調整されてよく、又はビデオシーケンスのセットに基づき連続的に更新されてよい。
【0041】
実施形態によると、ニューラルネットワークに基づくモデルは予めトレーニングされてよい。一実施形態によると、ニューラルネットワークモデルの1つのレイヤ又は特定のタイプのレイヤのみの中の1つ以上のパラメータは、更新されてよく、新しいモデルが生成される。他の好適な実施形態では、パラメータは、ニューラルネットワークモデルの複数の又は全部のレイヤで更新される。一実施形態では、1つ以上のバイアス項/パラメータのみが、最適化され更新されてよい。一実施形態では、1つ以上の重み(係数)項/パラメータが、最適化され更新されてよい。一実施形態では、1つ以上のバイアスパラメータ及び1つ以上の重み項/パラメータの両方が、共同で最適化されるか、又は一緒に最適化されてよい。
【0042】
トレーニング及び/又は微調整の終わりに、更新済みパラメータが計算されてよい。実施形態では、圧縮性能は、更新済みパラメータと既存の予めトレーニングされたパラメータとの間で計算されてよい。実施形態では、更新済みパラメータは、微調整パラメータである。つまり、ニューラルネットワークモデルは、微調整パラメータにより更新され、既存の予めトレーニングされたパラメータを置き換えてよい。他の好適な実施形態では、更新済みパラメータは、微調整済みパラメータの幾つかの特定の変換であってよい。
【0043】
実施形態によると、データ圧縮が、更新済みパラメータに対して実行されてよい。例えば、LZMA2アルゴリズムが、更新済みパラメータの圧縮に使用されてよい。実施形態では、圧縮が実行されなくてよい。
【0044】
ここに開示されるニューラルネットワークに基づくクロスコンポーネント予測方法と比べると、イントラ予測モードにおけるクロスコンポーネント予測方法は、より良い圧縮品質を有してよい。幾つかの実施形態によると、最適化されるべき1つ以上のパラメータは、倍率に基づき更新されてよく、特定のビデオをオンライントレーニングの入力として、圧縮性能を向上する。更に、1つ以上の倍率は、モデルに統合されてよい。これは、ニューラルネットワークに基づく前のクロスコンポーネント予測方法と比較して、推定速度に影響を与えない。
【0045】
図4は、実施形態によると、符号化又は復号中の倍率を有する深層ニューラルネットワーク(deep neural network (DNN))に基づくクロスコンポーネント予測のための処理400のフローチャートを示す。処理400は、エンコーダ又はデコーダ又はその両者を用いて実行されてよい。
【0046】
幾つかの実施形態では、動作405で、予めトレーニングされたニューラルネットワークモデルは、追加パラメータとして1つ以上の倍率を用いて、トレーニングされてよい。ここで、1つ以上の倍率は、予めトレーニングされたニューラルネットワークモデルの1つ以上のパラメータがレート歪み損失について最適化されていること基づいてよい。動作405で、ルマコンポーネントが受信されてよい。幾つかの例では、ルマコンポーネントは、既に再構成されていてよい。
【0047】
動作410で、クロマコンポーネントは、クロマ予測のための予めトレーニングされたニューラルネットワークモデルを用いて、ルマコンポーネントに基づき予測されてよい。幾つかの実施形態では、予めトレーニングされたニューラルネットワークモデルは、追加パラメータとして1つ以上の倍率を用いて、トレーニングされてよい。ここで、1つ以上の倍率は、予めトレーニングされたニューラルネットワークモデルの1つ以上のパラメータがレート歪み損失について最適化されていること基づいてよい。
【0048】
動作415で、再構成クロマコンポーネントは、予測されたクロマコンポーネント、及び予測モードのセットを用いてコーディングされた1つ以上のクロマコンポーネントに基づき、生成されてよい。実施形態によると、再構成クロマコンポーネントを生成することは、予測されたクロマコンポーネントの品質計算に基づいてよい。ここで、予測されたクロマコンポーネントの品質計算は、他の予測モードからの1つ以上のクロマコンポーネント、及び予測されたクロマコンポーネントに関連付けられた元のクロマコンポーネントに基づいてよい。
【0049】
動作420で、クロマ予測のための予めトレーニングされたニューラルネットワークモデルは、1つ以上の倍率を用いて更新されてよい。幾つかの実施形態では、予めトレーニングされたニューラルネットワークモデルを更新することは、1つ以上の倍率に基づき、予めトレーニングされたニューラルネットワークモデルの1つ以上のパラメータを最適化することを含んでよい。予めトレーニングされたニューラルネットワークモデルを更新することは、1つ以上の倍率に基づき、予めトレーニングされたニューラルネットワークモデルの1つ以上のパラメータを最適化することを含んでよい。予めトレーニングされたニューラルネットワークモデルを更新することは、1つ以上の倍率に基づき、予めトレーニングされたニューラルネットワークモデルの1つ以上のバイアスパラメータ及び11つ以上の重みパラメータを共同で最適化することを含んでよい。
【0050】
幾つかの実施形態では、更新するステップは、
1つ以上の倍率で最適化された1つ以上のパラメータを含む更新済みニューラルネットワークモデルの第1圧縮性能を計算するステップと、
1つ以上の関連パラメータを含む予めトレーニングされたニューラルネットワークの第2圧縮性能を計算すステップと、
第1圧縮性能及び第2圧縮性能の比較が閾値より高いことに基づき、1つ以上の倍率により最適化された1つ以上のパラメータを含むよう、予めトレーニングされたニューラルネットワークモデルを更新するかどうかを決定する、ステップと、
を含んでよい。
【0051】
幾つかの実施形態によると、予めトレーニングされたニューラルネットワークモデルを更新することは、1つ以上の倍率で予めトレーニングされたニューラルネットワークモデルの1つ以上のレイヤの中から1つ以上のパラメータを最適化することを含んでよい。選択された1つ以上のレイヤは、1つ以上の畳み込みレイヤ、最終レイヤのセット、又は予めトレーニングされたニューラルネットワークモデルの全部のレイヤを含んでよい。実施形態によると、予めトレーニングされたニューラルネットワークモデルを更新することは、単一ビデオシーケンス又はビデオシーケンスのセットに基づき更新することを含んでよい。
【0052】
図5は、開示の主題の適用の一例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。開示の主題は、例えばビデオ会議、デジタルTV、CD、DVD、メモリスティック、等を含むデジタル媒体への圧縮ビデオの格納、他のビデオ可能アプリケーション、等に等しく適用可能である。
【0053】
ストリーミングシステムは、例えば非圧縮ビデオサンプルストリーム(502)を生成するビデオソース(501)、例えばデジタルカメラを含み得るキャプチャサブシステム(513)を含んでよい。サンプルストリーム(502)は、符号化ビデオビットストリームと比べるとき高データ容量を強調するために太線で示され、カメラ(501)に結合されるエンコーダ(503)により処理できる。エンコーダ(503)は、ハードウェア、ソフトウェア、又はそれらの組み合わせを含み、以下に詳述するように開示の主題の態様を可能にし又は実装することができる。符号化ビデオビットストリーム(504)は、サンプルストリームと比べたとき、低データ容量を強調するために細線で示され、将来の使用のためにストリーミングサーバ(505)に格納できる。1つ以上のストリーミングクライアント(506、508)は、ストリーミングサーバ(505)にアクセスして、符号化ビデオビットストリーム(504)のコピー(507、509)を読み出すことができる。クライアント(506)は、ビデオデコーダ(510)を含むことができる。ビデオデコーダ(310)は、符号化ビットストリーム(507)の入来するコピーを復号し、ディスプレイ(512)又は他のレンダリング装置(図示しない)においてレンダリング可能な出力ビデオサンプルストリーム(511)を生成する。幾つかのストリーミングシステムでは、ビデオビットストリーム(504、507、509)は、特定のビデオコーディング/圧縮規格に従い符号化できる。それらの規格の例は、H.265 HEVCを含む。策定中のビデオ符号化標準は、略式にVVC(Versatile Video Coding)として知られている。開示の主題は、VVCの文脈で使用されてよい。
【0054】
図6は、本開示の一実施形態によるビデオデコーダ510のブロック図を示す。
【0055】
受信機(610)は、ビデオデコーダ(610)により復号されるべき1つ以上のコーディングビデオシーケンス、同じ又は別の実施形態では、一度に1つのコーディングビデオシーケンスを受信してよい。ここで、各コーディングビデオシーケンスの復号は、他のコーディングビデオシーケンスと独立している。コーディングビデオシーケンスは、符号化ビデオデータを格納する記憶装置へのハードウェア/ソフトウェアリンクであってよいチャネル(612)から受信されてよい。受信機(610)は、他のデータ、例えば、各々の使用エンティティ(図示しない)へと転送され得るコーディング音声データ及び/又は補助データストリームと共に、符号化ビデオデータを受信してよい。受信機(610)は、他のデータからコーディングビデオシーケンスを分離してよい。ネットワークジッタを除去するために、バッファメモリ(615)は、受信機(610)とエントロピーデコーダ/パーサ(620)(以後、「パーサ」)との間に接続されてよい。受信機(610)が、十分な帯域幅の記憶/転送装置から制御可能に、又はアイソクロナス(isosynchronous)ネットワークから、データを受信しているとき、バッファ(615)は、必要なくてよく又は小さくできる。インターネットのようなベストエフォート型パケットネットワークで使用する場合、バッファ(615)が必要であってよく、比較的大きくすることができ、有利なことに適応サイズにすることができる。
【0056】
ビデオデコーダ(510)は、エントロピーコーディングビデオシーケンスからシンボル(621)を再構成するために、パーサ(620)を含んでよい。これらのシンボルのカテゴリは、デコーダ(510)の動作を管理するために使用される情報、及び場合によっては図6に示したようにデコーダの統合部分ではないがデコーダに接続され得るディスプレイ(512)のようなレンダリング装置を制御するための情報を含む。レンダリング装置のための制御情報は、SEI(Supplementary Enhancement Information)メッセージ又はVUI(Video Usability Information)パラメータセットフラグメント(図示しない)の形式であってよい。パーサ(620)は、受信された符号かビデオシーケンスをパース/エントロピー復号してよい。コーディングビデオシーケンスのコーディングは、ビデオコーディング技術又は規格に従うことができ、可変長コーディング、ハフマンコーディング、コンテキスト依存関係を有する又は有しない算術的コーディング、等を含む、当業者によく知られた原理に従うことができる。パーサ620は、符号化ビデオシーケンスから、ビデオデコーダの中のピクセルのサブグループのうちの少なくとも1つについて、該グループに対応する少なくとも1つのパラメータに基づき、サブグループパラメータのセットを抽出してよい。サブグループは、GOP(Groups of Picture)、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット(Coding Units:CU)、ブロック、変換ユニット(Transform Units:TU)予測ユニット(Prediction Units:PU)、等を含み得る。エントロピーデコーダ/パーサは、符号化ビデオシーケンスから、変換係数、量子化パラメータ(quantizer parameter(QP))値、動きベクトル、等のような情報も抽出してよい。
【0057】
パーサ(620)は、バッファ(615)から受信したビデオシーケンスに対してエントロピー復号/パース動作を実行して、シンボル(621)を生成してよい。パーサ620は、符号化データを受信し、及び特定のシンボル621を選択的に復号してよい。さらに、パーサ620は、特定のシンボル621が動き補償予測ユニット653、スケーラ/逆変換ユニット651、イントラ予測ユニット652、又はループフィルタ656に提供されるべきか否かを決定してよい。
【0058】
シンボル(621)の再構成は、コーディングビデオピクチャ又はその部分の種類(例えば、インター及びイントラピクチャ、インター及びイントラブロック)及び他の要因に依存して、複数の異なるユニットを含み得る。どのユニットがどのように含まれるかは、パーサ(620)によりコーディングビデオシーケンスからパースされたサブグループ制御情報により制御できる。パーサ(620)と以下の複数のユニットとの間のこのようなサブグループ制御情報のフローは、明確さのために示されない。
【0059】
既に言及した機能ブロックを超えて、デコーダ(510)は、後述のように、多数の機能ユニットに概念的に細分化されてよい。商用的制約の下で動作する実際の実装では、これらのユニットの多くは、互いに密に相互作用し、少なくとも部分的に互いに統合され得る。しかしながら、開示の主題を説明する目的で、機能ユニットへの以下の概念的細分化は適切である。
【0060】
第1ユニットは、スケーラ/逆変換ユニット651である。スケーラ/逆変換ユニット(651)は、量子化された変換係数、及び、どの変換が使用されるべきか、ブロックサイズ、量子化係数、量子化スケーリングマトリクス、等を含む制御情報を、パーサ(620)からのシンボル(621)として受信する。これは、アグリゲータ(655)に入力され得るサンプル値を含むブロックを出力できる。
【0061】
幾つかの例では、スケーラ/逆変換(651)の出力サンプルは、イントラコーディングブロック、つまり、前に再構成されたピクチャからの予測情報を使用しないが現在ピクチャの前に再構成された部分からの予測情報を使用可能なブロックに関連してよい。このような予測情報は、イントラピクチャ予測ユニット(652)により提供できる。幾つかの場合には、イントラピクチャ予測ユニット(652)は、再構成中のブロックと同じサイズ及び形状のブロックを、現在(部分的に再構成された)ピクチャ(666)からフェッチした周囲の既に再構成された情報を用いて、生成する。アグリゲータ(655)は、幾つかの場合には、サンプル毎に、イントラ予測ユニット(652)の生成した予測情報を、スケーラ/逆変換ユニット(651)により提供された出力サンプル情報に追加する。
【0062】
他の場合には、スケーラ/逆変換ユニット(651)の出力サンプルは、インターコーディングされた、場合によっては動き補償されたブロックに関連し得る。このような場合には、動き補償予測ユニット(653)は、参照ピクチャメモリ(657)にアクセスして、予測のために使用されるサンプルをフェッチできる。ブロックに関連するシンボル(621)に従いフェッチしたサンプルを動き補償した後に、これらのサンプルは、アグリゲータ(655)により、出力サンプル情報を生成するために、スケーラ/逆変換ユニットの出力に追加され得る(この場合、残差サンプル又は残差信号と呼ばれる)。動き補償予測ユニットが予測サンプルをフェッチする参照ピクチャメモリ内のアドレスは、例えばX、Y及び参照ピクチャコンポーネントを有し得るシンボル(621)の形式で、動き補償予測ユニットの利用可能な動きベクトルにより制御できる。動き補償は、サブサンプルの正確な動きベクトルが使用中であるとき参照ピクチャメモリからフェッチされたサンプル値の補間、動きベクトル予測メカニズム、等も含み得る。
【0063】
アグリゲータ(655)の出力サンプルは、ループフィルタユニット(656)において種々のループフィルタリング技術を受け得る。ビデオ圧縮技術は、コーディングビデオビットストリームに含まれ且つパーサ(620)からのシンボル(621)としてループフィルタユニット(656)に利用可能にされたパラメータにより制御されるが、コーディングピクチャ又はコーディングビデオシーケンスの(復号順序で)前の部分の復号中に取得されたメタ情報にも応答し、前に再構成されループフィルタリングされたサンプル値にも応答し得るインループフィルタ技術を含み得る。
【0064】
ループフィルタユニット(656)の出力は、レンダー装置(512)へと出力でき及び将来のインターピクチャ予測で使用するために参照ピクチャメモリ(666)に格納され得るサンプルストリームであり得る。
【0065】
特定のコーディングピクチャは、一旦完全に再構成されると、将来の予測のための参照ピクチャとして使用できる。コーディングピクチャが完全に再構成され、コーディングピクチャが(例えばパーサ(620)により)参照ピクチャとして識別されると、現在参照ピクチャ(666)は、参照ピクチャバッファ(657)の一部になることができ、後続のコーディングピクチャの再構成を開始する前に、新鮮な現在ピクチャメモリを再割り当てできる。
【0066】
ビデオデコーダ(510)はH.265 HEVCのような規格で策定され得る所定のビデオ圧縮技術に従い復号動作を実行してよい。コーディングビデオシーケンスが、ビデオ圧縮技術又は規格で、具体的にはその中のプロファイル文書で指定された、ビデオ圧縮技術又は規格のシンタックスに従うという意味で、コーディングビデオシーケンスは、使用中のビデオ圧縮技術又は規格により指定されたシンタックスに従ってよい。また、遵守のために必要なことは、コーディングビデオシーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルにより定められる限界の範囲内であることであり得る。幾つかの場合には、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えばメガサンプル/秒で測定される)、最大参照ピクチャサイズ、等を制限する。レベルにより設定される限界は、幾つかの場合には、HRD(Hypothetical Reference Decoder)仕様及びコーディングビデオシーケンスの中でシグナリングされるHRDバッファ管理のためのメタデータを通じて更に制限され得る。
【0067】
実施形態では、受信機(610)は、符号化ビデオと共に追加(冗長)データを受信してよい。追加データは、コーディングビデオシーケンスの部分として含まれてよい。追加データは、データを正しく復号するため及び/又は元のビデオデータをより正確に再構成するために、ビデオデコーダ(510)により使用されてよい。追加データは、例えば、時間的、空間的、又は信号雑音比(SNR)の拡張レイヤ、冗長スライス、冗長ピクチャ、前方誤り訂正符号、等の形式であり得る。
【0068】
図7は、本開示の一実施形態によるビデオエンコーダ(503)の機能ブロック図であり得る。
【0069】
エンコーダ(503)は、ビデオサンプルを、エンコーダ(503)によりコーディングされるべきビデオ画像をキャプチャし得るビデオソース(501)(エンコーダの部分ではない)から受信してよい。
【0070】
ビデオソース(501)は、エンコーダ(503)によりコーディングされるべきソースビデオシーケンスを、任意の適切なビット深さ(例えば、8ビット、10ビット、12ビット、...)、任意の色空間(例えば、BT.601 Y CrCb, RGB,...)、及び任意の適切なサンプリング構造(例えば、Y CrCb 4:2:0, Y CrCb 4:4:4)のデジタルビデオサンプルストリームの形式で、提供してよい。メディア提供システムでは、ビデオソース(501)は、前に準備されたビデオを格納する記憶装置であってよい。ビデオ会議システムでは、ビデオソース(503)は、ビデオシーケンスとしてローカル画像情報をキャプチャするカメラであってよい。ビデオデータは、続けて閲覧されると動きを与える複数の個別ピクチャとして提供されてよい。ピクチャ自体は、ピクセルの空間的配列として組織化されてよい。各ピクセルは、使用中のサンプリング構造、色空間、等に依存して、1つ以上のサンプルを含み得る。当業者は、ピクセルとサンプルとの間の関係を直ちに理解できる。以下の説明はサンプルに焦点を当てる。
【0071】
一実施形態によると、エンコーダ(503)は、ソースビデオシーケンスのピクチャを、コーディングビデオシーケンス(743)へと、リアルタイムに又はアプリケーションにより要求される任意の他の時間制約の下でコーディングし圧縮してよい。適切なコーディング速度の実施は、制御部(750)の1つの機能である。制御部(750)は、後述するように他の機能ユニットを制御してよく、これらのユニットに機能的に結合される。結合は、明確さのために図示されない。制御部により設定されるパラメータは、レート制御関連パラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、等)、ピクチャサイズ、GOP(group of pictures)レイアウト、最大動きベクトル探索範囲、等を含み得る。当業者は、特定のシステム設計のために最適化されたビデオエンコーダ(503)に関連し得るとき、制御部(750)の他の機能を直ちに識別できる。
【0072】
幾つかのビデオエンコーダは、当業者が「コーディングループ」として直ちに認識する中で動作する。非常に簡略化した説明として、コーディングループは、エンコーダ(730)(以後、「ソースコーダ」)(コーディングされるべき入力ピクチャと参照ピクチャとに基づき、シンボルを生成する)及びエンコーダ(503)内に組み込まれ、シンボルを再構成して、(シンボルとコーディングビデオビットストリームとの間の任意の圧縮が開示の主題において考慮されるビデオ圧縮技術の中で無損失であるとき)(リモート)デコーダが生成し得るサンプルデータを生成する(ローカル)デコーダ(733)の符号化部分を含むことができる。再構成されたサンプルストリームは、参照ピクチャメモリ734に入力される。シンボルストリームの復号が、デコーダ位置(ローカル又はリモート)と独立にビット正確な結果をもたらすとき、参照ピクチャバッファの内容も、ローカルエンコーダとリモートエンコーダとの間でビット正確である。言い換えると、エンコーダの予測部分が、復号中に予測を用いるときデコーダが「見る」のと正確に同じサンプル値を、参照ピクチャサンプルとして「見る」。参照ピクチャ同期性のこの基本原理(及び、例えばチャネルエラーのために同期性が維持できない場合には、結果として生じるドリフト)は、当業者によく知られている。
【0073】
「ローカル」デコーダ(733)の動作は、図16と関連して以上に詳述した「リモート」デコーダ(510)のものと同じであり得る。簡単に図16も参照すると、しかしながら、シンボルが利用可能であり、エントロピーコーダ(745)及びパーサ(620)によるコーディングビデオシーケンスへのシンボルの符号化/復号が無損失であり得るので、チャネル(612)、受信機(610)、バッファ(615)、及びパーサ(620)を含むデコーダ(510)のエントロピー復号部分は、ローカルデコーダ(733)に完全に実装されなくてよい。
【0074】
この点で行われる考察は、デコーダ内に存在するパース/エントロピー復号を除く任意のデコーダ技術も、対応するエンコーダ内と実質的に同一の機能形式で存在する必要があるということである。エンコーダ技術の説明は、それらが包括的に説明されるデコーダ技術の逆であるので、省略できる。特定の領域においてのみ、より詳細な説明が必要であり、以下に提供される。
【0075】
動作中、幾つかの例では、ソースコーダ(730)は、動き補償された予測コーディングを実行してよい。これは、「参照フレーム」として指定されたビデオシーケンスからの1つ以上の前にコーディングされたフレームを参照して予測的に入力フレームをコーディングする。この方法では、コーディングエンジン(732)は、入力フレームのピクセルブロックと、入力フレームに対する予測基準として選択されてよい参照フレームのピクセルブロックとの間の差分をコーディングする。
【0076】
ローカルビデオデコーダ(733)は、ソースコーダ(730)により生成されたシンボルに基づき、参照フレームとして指定されてよいフレームのコーディングビデオデータを復号してよい。コーディングエンジン(732)の動作は、有利なことに、損失処理であってよい。コーディングビデオデータがビデオデコーダ(図17に図示されない)において復号され得るとき、再構成ビデオシーケンスは、標準的に、幾つかのエラーを有するソースビデオシーケンスの複製であってよい。ローカルビデオデコーダ(733)は、参照フレームに対してビデオデコーダにより実行され得る復号処理を複製し、参照ピクチャキャッシュ(734)に格納されるべき再構成参照フレームを生じ得る。このように、エンコーダ(503)は、(伝送誤りが無ければ)遠端ビデオデコーダにより取得される再構成参照フレームと共通の内容を有する再構成参照フレームのコピーをローカルに格納してよい。
【0077】
予測器(735)は、コーディングエンジン(732)のために予測探索を実行してよい。つまり、コーディングされるべき新しいフレームについて、予測器(735)は、新しいピクチャのための適切な予測基準として機能し得る(候補参照ピクセルブロックのような)サンプルデータ又は参照ピクチャ動きベクトル、ブロック形状、等のような特定のメタデータについて、参照ピクチャメモリ(734)を検索してよい。予測器(735)は、適切な予測基準を見付けるために、サンプルブロック-ピクセルブロック毎に動作してよい。幾つかの例では、予測器(735)により取得された検索結果により決定されるように、入力ピクチャは、参照ピクチャメモリ(734)に格納された複数の参照ピクチャから引き出された予測基準を有してよい。
【0078】
制御部(750)は、例えば、ビデオデータの符号化のために使用されるパラメータ及びサブグループパラメータの設定を含む、ビデオコーダ(730)のコーディング動作を管理してよい。
【0079】
全ての前述の機能ユニットの出力は、エントロピーコーダ(745)におけるエントロピーコーディングを受けてよい。エントロピーコーダは、ハフマンコーディング、可変長コーディング、算術コーディング、等のような当業者によく知られた技術に従いシンボルを無損失圧縮することにより、種々の機能ユニットにより生成されたシンボルを、コーディングビデオシーケンスへと変換する。
【0080】
送信機(740)は、コーディングビデオデータを格納し得る記憶装置へのハードウェア/ソフトウェアリンクであってよい通信チャネル(760)を介する伝送のために準備するために、エントロピーコーダ(745)により生成されたコーディングビデオシーケンスをバッファリングしてよい。送信機(740)は、ビデオコーダ(730)からのコーディングビデオデータを、送信されるべき他のデータ、例えばコーディング音声データ及び/又は補助データストリーム(図示されないソース)とマージ(merge)してよい。
【0081】
制御部(750)は、エンコーダ(503)の動作を管理してよい。コーディング中、制御部(750)は、各々のピクチャに適用され得るコーディング技術に影響し得る特定のコーディングピクチャタイプを、各コーディングピクチャに割り当ててよい。例えば、ピクチャは、多くの場合、以下のピクチャタイプのうちの1つとして割り当てられてよい。
【0082】
イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンス内の任意の他のフレームを使用せずにコーディング及び復号され得るピクチャであってよい。幾つかのビデオコーデックは、例えばIDR(Independent Decoder Refresh)ピクチャを含む異なる種類のイントラピクチャを許容する。当業者は、Iピクチャの変形、及びそれらの個々の適用及び特徴を認識する。
【0083】
予測ピクチャ(Pピクチャ)は、殆どの場合、各ブロックのサンプル値を予測するために1つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測を用いてコーディング及び復号され得るピクチャであってよい。
【0084】
双方向予測ピクチャ(Bピクチャ、Bi-directionally Predictive Picture (B Picture))は、各ブロックのサンプル値を予測するために最大で2つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測を用いてコーディング及び復号され得るピクチャであってよい。同様に、マルチ予測ピクチャは、単一のブロックの再構成のために、2つより多くの参照ピクチャ及び関連付けられたメタデータを使用できる。
【0085】
ソースピクチャは、一般に、複数のサンプルブロック(例えば、各々4×4、8×8、4×8、又は16×16個のサンプルのブロック)に空間的に細分化され、ブロック毎にコーディングされてよい。ブロックは、ブロックの各々のピクチャに適用されるコーディング割り当てにより決定される他の(既にコーディングされた)ブロックへの参照により予測的にコーディングされてよい。例えば、Iピクチャのブロックは、非予測的にコーディングされてよく、又はそれらは同じピクチャの既にコーディングされたブロックを参照して予測的にコーディングされてよい(空間予測又はイントラ予測)。Pピクチャのピクセルブロックは、1つの前にコーディングされた参照ピクチャを参照して、空間予測を介して又は時間予測を介して、予測的にコーディングされてよい。Bピクチャのブロックは、1つ又は2つの前にコーディングされた参照ピクチャを参照して、空間予測を介して又は時間予測を介して、非予測的にコーディングされてよい。
【0086】
ビデオコーダ(503)はH.265 HEVCのような所定のビデオコーディング技術又は規格に従いコーディング動作を実行してよい。その動作において、ビデオコーダ(503)は、入力ビデオシーケンスの中の時間的及び空間的冗長性を利用する予測コーディング動作を含む種々の圧縮動作を実行してよい。コーディングビデオデータは、従って、使用されているビデオコーディング技術又は規格により指定されたシンタックスに従ってよい。
【0087】
一実施形態では、送信機(740)は、符号化ビデオと共に追加データを送信してよい。ビデオコーダ(730)は、このようなデータをコーディングビデオシーケンスの部分として含んでよい。追加データは、時間/空間/SNR拡張レイヤ、冗長ピクチャ及びスライスのような他の形式の冗長データ、SEI(Supplementary Enhancement Information)メッセージ、VUI(Visual Usability Information)パラメータセットフラグメント、等を含んでよい。
【0088】
本開示は、動き情報がビデオ符号化のためのツリー分割中に考慮される、幾つかのブロックパーティション方法を対象としている。より具体的には、本開示の技術は、動きフィールド情報に基づく柔軟なツリー構造のためのツリー分割方法に関する。本開示で提案された技術は、同種及び異種の導出された動きフィールドの両方に適用されてよい。
【0089】
ブロックの導出された動きフィールドは、導出された動きフィールドがブロック内の全部のサブブロックに利用可能であり、導出された動きフィールド内の全部の動きベクトルが同様であるならば、例えば、動きベクトルが同じ参照フレームを共有し、動きベクトル間の絶対差が全部特定の閾値より低いならば、同種であると定義される。閾値は、ビットストリーム内でシグナリングされるか、又は予め定められてよい。
【0090】
ブロックの導出された動きフィールドは、導出された動きフィールドがブロック内の全部のサブブロックに利用可能であり、導出された動きフィールド内の動きベクトルが同様ではないならば、例えば、少なくとも1つの動きベクトルが他の動きベクトルにより参照されない参照フレームを参照するか、又はフィールド内の2つの動きベクトル間の少なくとも1つの絶対差がシグナリングされた又は所定の閾値より大きいならば、異種であると定義される。
【0091】
本開示は、幾つかの例示的な実施形態を記載したが、代替、置換、及び種々の代用の均等物が存在し、それらは本開示の範囲に包含される。当業者に明らかなことに、ここに明示的に示され又は説明されないが、本開示の原理を実施し、従って、本開示の精神及び範囲に含まれる多数のシステム及び方法を考案可能である。
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】