IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン、ターチア、インターネット、インフォメーション、テクノロジー、カンパニー、リミテッドの特許一覧

特表2025-501391ビデオ・コーディングのためのクロスコンポーネント予測のための方法および装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-17
(54)【発明の名称】ビデオ・コーディングのためのクロスコンポーネント予測のための方法および装置
(51)【国際特許分類】
   H04N 19/117 20140101AFI20250109BHJP
   H04N 19/136 20140101ALI20250109BHJP
   H04N 19/176 20140101ALI20250109BHJP
   H04N 19/593 20140101ALI20250109BHJP
【FI】
H04N19/117
H04N19/136
H04N19/176
H04N19/593
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024541757
(86)(22)【出願日】2023-01-09
(85)【翻訳文提出日】2024-07-10
(86)【国際出願番号】 US2023010395
(87)【国際公開番号】W WO2023133312
(87)【国際公開日】2023-07-13
(31)【優先権主張番号】63/298,159
(32)【優先日】2022-01-10
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521248394
【氏名又は名称】ベイジン、ターチア、インターネット、インフォメーション、テクノロジー、カンパニー、リミテッド
【氏名又は名称原語表記】BEIJING DAJIA INTERNET INFORMATION TECHNOLOGY CO.,LTD.
(74)【代理人】
【識別番号】100120031
【弁理士】
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100107582
【弁理士】
【氏名又は名称】関根 毅
(74)【代理人】
【識別番号】100217940
【弁理士】
【氏名又は名称】三並 大悟
(72)【発明者】
【氏名】クオ、チョー-ウェイ
(72)【発明者】
【氏名】シウ、シャオユー
(72)【発明者】
【氏名】ヤン、ニン
(72)【発明者】
【氏名】チュー、ホン-チェン
(72)【発明者】
【氏名】チェン、イー-ウェン
(72)【発明者】
【氏名】チェン、ウェイ
(72)【発明者】
【氏名】カオ、ハン
(72)【発明者】
【氏名】ワン、シャンリン
(72)【発明者】
【氏名】ユイ、ビン
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA04
5C159MA21
5C159MC11
5C159ME01
5C159PP15
5C159PP16
5C159RC11
5C159TA31
5C159TB08
5C159TC42
5C159TD16
5C159UA02
5C159UA05
(57)【要約】
本開示は、ビデオ・データを復号するための方法を提供する。本方法は、ビットストリームからビデオ・ブロックを取得することと、多重線形回帰(MLR)モデルを導出するための領域を決定することと、領域におけるルーマ・サンプル値とクロマ・サンプル値とを取得することと、領域におけるルーマ・サンプル値とクロマ・サンプル値とを使用して、MLRモデルを導出することと、ビデオ・ブロックにおけるクロマ・サンプルの各々を、MLRモデルをそのクロマ・サンプルについての対応するルーマ・サンプルに適用することによって、予測することと、予測されたクロマ・サンプルを使用して、復号されたビデオ・ブロックを取得することとを含む。
【特許請求の範囲】
【請求項1】
ビデオ・データを復号するための方法であって、
ビットストリームからビデオ・ブロックを取得することと、
多重線形回帰(MLR)モデルを導出するための領域を決定することと、
前記領域におけるルーマ・サンプル値とクロマ・サンプル値とを取得することと、
前記領域における前記ルーマ・サンプル値と前記クロマ・サンプル値とを使用して、前記MLRモデルを導出することと、
前記ビデオ・ブロックにおけるクロマ・サンプルの各々を、前記MLRモデルをそのクロマ・サンプルについての対応するルーマ・サンプルに適用することによって、予測することと、
前記予測されたクロマ・サンプルを使用して、復号されたビデオ・ブロックを取得することと
を含む、方法。
【請求項2】
前記MLRモデルが、少なくとも2つの係数α(i=0・・・N-1、Nがフィルタ・タップの数である)と1つのオフセットβとを備える、請求項1に記載の方法。
【請求項3】
前記領域が、前記ビデオ・ブロックに隣接する再構成されたクロマ・サンプルおよび対応するルーマ・サンプルの左の1つもしくは複数の列および/または上の1つもしくは複数の行を含む、請求項1に記載の方法。
【請求項4】
前記領域におけるルーマ・サンプル値とクロマ・サンプル値とを前記取得することが、
前記再構成されたクロマ・サンプルおよび対応するルーマ・サンプルの値を、変更なしに、直接使用すること
を含む、請求項3に記載の方法。
【請求項5】
前記領域における前記ルーマ・サンプル値と前記クロマ・サンプル値とを使用して、前記MLRモデルを前記導出することが、
6つのルーマ・サンプルと1つのオフセットとを使用して1つのクロマ・サンプルを予測するために、6つの係数α(i=0・・・5)と1つのオフセットβとをもつMLRモデルを導出すること
を含む、請求項1に記載の方法。
【請求項6】
前記領域における前記ルーマ・サンプル値と前記クロマ・サンプル値とを使用して、前記MLRモデルを前記導出することが、
擬似逆行列計算と正規方程式とを使用して前記MLRモデルを導出すること
を含む、請求項1に記載の方法。
【請求項7】
前記ビデオ・ブロックにおけるクロマ・サンプルの各々を前記予測することが、
再構成された対応するルーマ・サンプルの値を、変更なしに、直接使用すること
を含む、請求項1に記載の方法。
【請求項8】
ビデオ・データを符号化するための方法であって、
ビデオ・フレームからビデオ・ブロックを取得することと、
多重線形回帰(MLR)モデルを導出するための領域を決定することと、
前記領域におけるルーマ・サンプル値とクロマ・サンプル値とを取得することと、
前記領域における前記ルーマ・サンプル値と前記クロマ・サンプル値とを使用して、前記MLRモデルを導出することと、
前記ビデオ・ブロックにおけるクロマ・サンプルの各々を、前記MLRモデルをそのクロマ・サンプルについての対応するルーマ・サンプルに適用することによって、予測することと、
前記予測されたクロマ・サンプルを使用して、符号化されたビデオ・ブロックを取得することと
を含む、方法。
【請求項9】
前記MLRモデルが、少なくとも2つの係数α(i=0・・・N-1、Nがフィルタ・タップの数である)と1つのオフセットβとを備える、請求項8に記載の方法。
【請求項10】
前記領域が、前記ビデオ・ブロックに隣接する再構成されたクロマ・サンプルおよび対応するルーマ・サンプルの左の1つもしくは複数の列および/または上の1つもしくは複数の行を含む、請求項8に記載の方法。
【請求項11】
前記領域におけるルーマ・サンプル値とクロマ・サンプル値とを前記取得することが、
前記再構成されたクロマ・サンプルおよび対応するルーマ・サンプルの値を、変更なしに、直接使用すること
を含む、請求項10に記載の方法。
【請求項12】
前記領域における前記ルーマ・サンプル値と前記クロマ・サンプル値とを使用して、前記MLRモデルを前記導出することが、
6つのルーマ・サンプルと1つのオフセットとを使用して1つのクロマ・サンプルを予測するために、6つの係数α(i=0・・・5)と1つのオフセットβとをもつMLRモデルを導出すること
を含む、請求項8に記載の方法。
【請求項13】
前記領域における前記ルーマ・サンプル値と前記クロマ・サンプル値とを使用して、前記MLRモデルを前記導出することが、
擬似逆行列計算と正規方程式とを使用して前記MLRモデルを導出すること
を含む、請求項8に記載の方法。
【請求項14】
前記ビデオ・ブロックにおけるクロマ・サンプルの各々を前記予測することが、
再構成された対応するルーマ・サンプルの値を、変更なしに、直接使用すること
を含む、請求項8に記載の方法。
【請求項15】
1つまたは複数のプロセッサと、
コンピュータ実行可能命令を記憶する1つまたは複数のストレージ・デバイスであって、前記コンピュータ実行可能命令は、実行されたとき、前記1つまたは複数のプロセッサに、請求項1から14のいずれか一項に記載の方法の動作を実施させる、ストレージ・デバイスと、
を備えるコンピュータ・システム。
【請求項16】
コンピュータ実行可能命令を記憶するコンピュータ・プログラム製品であって、前記コンピュータ実行可能命令は、実行されたとき、1つまたは複数のプロセッサに、請求項1から14のいずれか一項に記載の方法の動作を実施させる、コンピュータ・プログラム製品。
【請求項17】
コンピュータ実行可能命令を記憶するコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、実行されたとき、1つまたは複数のプロセッサに、ビットストリームを受信することと、前記ビットストリームに基づいて、請求項1から7のいずれか一項に記載の方法の動作を実施することとを行わせる、コンピュータ可読媒体。
【請求項18】
コンピュータ実行可能命令を記憶するコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、実行されたとき、1つまたは複数のプロセッサに、請求項8から14のいずれか一項に記載の方法の動作を実施することと、予測されたクロマ・サンプルに関連する符号化されたビデオ情報を含むビットストリームを送信することとを行わせる、コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の態様は、一般に、ビデオ・コーディングおよび圧縮に関し、より詳細には、クロスコンポーネント予測技術のための方法および装置に関する。
【背景技術】
【0002】
ビデオ・データを圧縮するために、様々なビデオ・コーディング技法が使用され得る。ビデオ・コーディングは、1つまたは複数のビデオ・コーディング規格に従って実施される。たとえば、ビデオ・コーディング規格は、多用途ビデオ・コーディング(VVC)、高効率ビデオ・コーディング(H.265/HEVC)、アドバンスト・ビデオ・コーディング(H.264/AVC)、ムービング・ピクチャ・エキスパート・グループ(MPEG)コーディングなどを含む。ビデオ・コーディングは、一般に、ビデオ画像またはシーケンスに存在する冗長性を活用する予測方法(たとえば、インター予測、イントラ予測など)を利用する。ビデオ・コーディング技法の重要な目的は、ビデオ品質に対する劣化を回避するかまたは最小限に抑えながら、ビデオ・データを、より低いビット・レートを使用する形式に圧縮することである。
【0003】
クロスコンポーネント冗長性を低減するために、クロスコンポーネント線形モデル(CCLM:cross-component linear model)予測モードが一般的にビデオ・コーディング規格において使用され、これについて、クロマ・サンプルが、同じCUの再構成されたルーマ・サンプルに基づいて予測される。既存のCCLMまたはマルチモデルLM(MMLM:Multi-model LM)予測モードでは、ルーマ・サンプルが分類された1つまたは複数のサンプル・グループに従って、1つまたは複数の線形予測モデルが予測のために使用される。既存のCCLMまたはMMLM予測モードにおける分類は、一般に、ルーマDC値を考慮し得、これは、コーディング効率をさらに改善することができる他の態様における潜在的余地を残す。
【発明の概要】
【0004】
以下は、本開示による1つまたは複数の態様の簡略化された概要を、そのような態様の基本的理解を提供するために提示する。この概要は、すべての企図された態様の広範な概観ではなく、すべての態様の主要なまたは重要な要素を識別するものでも、いずれかのまたはすべての態様の範囲を定めるものでもない。その唯一の目的は、後で提示されるより詳細な説明の前置きとして、1つまたは複数の態様のいくつかの概念を簡略化された形式で提示することである。
【0005】
一実施形態によれば、ビデオ・データを復号するための方法を提供する。本方法は、ビットストリームからビデオ・ブロックを取得することと、多重線形回帰(MLR)モデルを導出するための領域を決定することと、領域におけるルーマ・サンプル値とクロマ・サンプル値とを取得することと、領域におけるルーマ・サンプル値とクロマ・サンプル値とを使用して、MLRモデルを導出することと、ビデオ・ブロックにおけるクロマ・サンプルの各々を、MLRモデルをそのクロマ・サンプルについての対応するルーマ・サンプルに適用することによって、予測することと、予測されたクロマ・サンプルを使用して、復号されたビデオ・ブロックを取得することとを含む。
【0006】
一実施形態によれば、ビデオ・データを符号化するための方法を提供する。本方法は、ビデオ・フレームからビデオ・ブロックを取得することと、多重線形回帰(MLR)モデルを導出するための領域を決定することと、領域におけるルーマ・サンプル値とクロマ・サンプル値とを取得することと、領域におけるルーマ・サンプル値とクロマ・サンプル値とを使用して、MLRモデルを導出することと、ビデオ・ブロックにおけるクロマ・サンプルの各々を、MLRモデルをそのクロマ・サンプルについての対応するルーマ・サンプルに適用することによって、予測することと、予測されたクロマ・サンプルを使用して、符号化されたビデオ・ブロックを取得することとを含む。
【0007】
一実施形態によれば、1つまたは複数のプロセッサと、コンピュータ実行可能命令を記憶する1つまたは複数のストレージ・デバイスとを備えるコンピュータ・システムであって、コンピュータ実行可能命令は、実行されたとき、1つまたは複数のプロセッサに、ビットストリームからビデオ・ブロックを取得することと、多重線形回帰(MLR)モデルを導出するための領域を決定することと、領域におけるルーマ・サンプル値とクロマ・サンプル値とを取得することと、領域におけるルーマ・サンプル値とクロマ・サンプル値とを使用して、MLRモデルを導出することと、ビデオ・ブロックにおけるクロマ・サンプルの各々を、MLRモデルをそのクロマ・サンプルについての対応するルーマ・サンプルに適用することによって、予測することと、予測されたクロマ・サンプルを使用して、復号されたビデオ・ブロックを取得することとを含む動作を実施させる、コンピュータ・システムを提供する。
【0008】
提案される多重線形回帰(MLR)モデルを使用することによって、予測されるべき、コロケートされたルーマ・サンプル、隣接するルーマ・サンプル、およびクロマ・サンプルの間のサンプル間(inter-sample)相関がキャプチャされて、予測精度をさらに改善し得る。本開示の他の利点は、以下の説明から明らかになろう。
【0009】
開示される態様を例示するためにおよび限定しないように提供される添付の図面とともに、開示される態様が以下で説明される。
【図面の簡単な説明】
【0010】
図1図1は、一般的なブロックベースのハイブリッド・ビデオ符号化システムのブロック図である。
図2図2A図2Eは、4分区分と、水平2分区分と、垂直2分区分と、水平3分区分と、垂直3分区分とを含む、5つの分割タイプを示す図である。
図3図3は、ブロックベースのビデオ・デコーダの概略ブロック図である。
図4図4は、CCLMモードに関与する、左および上のサンプルと、現在のブロックのサンプルとのロケーションの一例を示す図である。
図5図5は、しきい値(Threshold)の値に基づいて、隣接するサンプルを2つのグループに分類する一例を示す図である。
図6図6は、ニー・ポイントに基づいて、隣接するサンプルを2つのグループに分類する一例を示す図である。
図7図7は、本開示の1つまたは複数の態様による、ビデオ・データを復号するための方法のワークフローを示す図である。
図8図8は、本開示の1つまたは複数の態様による、ビデオ・データを符号化するための方法のワークフローを示す図である。
図9図9Aおよび図9Bは、クロマ・サンプルと1つまたは複数のルーマ・サンプルとの間の相関についての概略図である。
図10図10は、本開示の1つまたは複数の態様による、多重線形回帰(MLR)モデルにおいて6タップが使用される一例を示す図である。
図11図11は、本開示の1つまたは複数の態様による、ビデオ・データを符号化するための方法のワークフローを示す図である。
図12図12は、本開示の1つまたは複数の態様による、ビデオ・データを復号するための方法のワークフローを示す図である。
図13図13は、本開示の1つまたは複数の態様による、例示的なコンピューティング・システムを示す図である。
【発明を実施するための形態】
【0011】
次に、いくつかの例示的な実装形態を参照しながら、本開示が論じられる。これらの実装形態は、本開示の範囲に対する限定を示唆するのではなく、当業者が、本開示の実施形態をより良く理解し、したがって実装することを可能にするために論じられるにすぎないことを理解されたい。
【0012】
VVC規格の第1のバージョンが、2020年7月に確定され、これは、前の世代のビデオ・コーディング規格HEVCと比較して、約50%のビットレート節約または等価な知覚品質を与える。VVC規格は、それの前身よりも有意なコーディング改善を提供するが、追加のコーディング・ツールにより、優れたコーディング効率が達成され得るという証拠がある。最近、ITU-T VECGおよびISO/IEC MPEGのコラボレーション下でのジョイント・ビデオ探索チーム(JVET:Joint Video Exploration Team)が、VVCに勝るコーディング効率の実質的な拡張を可能にすることができる先進技術の探索を開始した。2021年4月に、拡張圧縮モデル(ECM:Enhanced Compression Model)と呼ばれる、あるソフトウェア・コードベースが、将来のビデオ・コーディング探索作業のために確立された。ECM参照ソフトウェアは、VVCのためにJVETによって開発されたVVCテスト・モデル(VTM:VVC Test Model)に基づいており、いくつかの既存のモジュール(たとえば、イントラ/インター予測、変換、ループ内フィルタなど)がさらに拡張および/または改善された。将来、VVC規格を越えたいかなる新しいコーディング・ツールも、ECMプラットフォームに組み込まれ、JVET共通テスト条件(CTC:common test condition)を使用してテストされる必要がある。
【0013】
すべての先行するビデオ・コーディング規格と同様に、ECMは、ブロックベースのハイブリッド・ビデオ・コーディング・フレームワーク上に構築される。図1は、一般的なブロックベースのハイブリッド・ビデオ符号化システムのブロック図を示す。入力ビデオ信号が、ブロックごとに処理される(コーディング・ユニット(CU)と呼ばれる)。ECM-1.0では、CUは、最高128×128ピクセルであり得る。しかしながら、VVCと同じく、1つのコーディング・ツリー・ユニット(CTU)が、4分木/2分木/3分木に基づいて、変動するローカル特性に適応するようにCUに分割される。マルチタイプ木構造では、1つのCTUが、最初に、4分木構造によって区分される。次いで、各4分木リーフ・ノードが、2分木および3分木構造によってさらに区分され得る。図2A図2B図2C図2Dおよび図2Eに示されているように、5つの分割タイプ、4分区分と、垂直2分区分と、水平2分区分と、垂直拡張4分区分と、水平拡張4分区分とがある。図1では、空間予測および/または時間予測が実施され得る。空間予測(または「イントラ予測」)は、同じビデオ・ピクチャ/スライスにおけるすでにコーディングされた隣接するブロックのサンプル(これは参照サンプルと呼ばれる)からのピクセルを使用して、現在のビデオ・ブロックを予測する。空間予測は、ビデオ信号に固有の空間冗長性を低減する。時間予測(「インター予測」または「動き補償予測」とも呼ばれる)は、すでにコーディングされたビデオ・ピクチャからの再構成されたピクセルを使用して、現在のビデオ・ブロックを予測する。時間予測は、ビデオ信号に固有の時間冗長性を低減する。所与のCUについての時間予測信号が、通常、現在のCUとそれの時間参照との間の動きの量および方向を示す1つまたは複数の動きベクトル(MV)によってシグナリングされる。また、複数の参照ピクチャがサポートされる場合、1つの参照ピクチャ・インデックスがさらに送られ、これは、参照ピクチャ・ストア中のどの参照ピクチャから時間予測信号が来るかを識別するために使用される。空間および/または時間予測の後に、エンコーダにおけるモード判断ブロックが、たとえば、レートひずみ最適化方法に基づいて、最良の予測モードを選定する。次いで、予測ブロックが現在のビデオ・ブロックから減算され、予測残差が、変換を使用して無相関化され、量子化される。量子化された残差係数は、再構成された残差を形成するために逆量子化および逆変換され、再構成された残差は、次いで、CUの再構成された信号を形成するために予測ブロックに加算される。再構成されたCUが参照ピクチャ・ストアに入れられ、将来のビデオ・ブロックをコーディングするために使用される前に、デブロッキング・フィルタ、サンプル適応オフセット(SAO)、および適応ループ内フィルタ(ALF)など、さらなるループ内フィルタ処理が、再構成されたCUに適用される。出力ビデオ・ビットストリームを形成するために、コーディング・モード(インターまたはイントラ)と、予測モード情報と、動き情報と、量子化された残差係数とがすべて、エントロピー・コーディング・ユニットに送られて、ビットストリームを形成するためにさらに圧縮およびパックされる。
【0014】
図3は、ブロックベースのビデオ・デコーダの概略ブロック図を示す。ビデオ・ビットストリームが、最初に、エントロピー復号ユニットにおいてエントロピー復号される。コーディング・モードおよび予測情報が、(イントラ・コーディングされる場合)空間予測ユニット、または(インター・コーディングされる場合)時間予測ユニットのいずれかに送られて、予測ブロックを形成する。残差変換係数が、逆量子化ユニットおよび逆変換ユニットに送られて、残差ブロックを再構成する。次いで、予測ブロックと残差ブロックとが合算される。再構成されたブロックはさらに、それが参照ピクチャ・ストアに記憶される前に、ループ内フィルタ処理を通り得る。次いで、参照ピクチャ・ストア中の再構成されたビデオが、ディスプレイ・デバイスを駆動するために送出され、また、将来のビデオ・ブロックを予測するために使用される。
【0015】
クロスコンポーネント冗長性を低減するために、クロスコンポーネント線形モデル(CCLM)予測モードがVVCにおいて使用され、これについて、クロマ・サンプルが、以下のような線形モデルを使用することによって、同じCUの再構成されたルーマ・サンプルに基づいて予測される。
pred(i,j)=α・rec’(i,j)+β (1)
【0016】
ここで、pred(i,j)は、CUにおける予測されたクロマ・サンプルを表し、rec’(i,j)は、再構成されたルーマ・サンプルrec(i,j)に対してダウンサンプリングを実施することによって取得された、同じCUのダウンサンプリングされた再構成されたルーマ・サンプルを表し、αおよびβは、隣接するルーマ・クロマ・サンプル・ペアと呼ばれることがある、多くとも4つの隣接するクロマ・サンプルとそれらの対応するダウンサンプリングされたルーマ・サンプルとから導出された線形モデル・パラメータである。現在のクロマ・ブロックがW×Hのサイズを有すると仮定すると、W’およびH’が、以下のように取得される。
【0017】
LMモードが適用されるとき、W’=W、H’=H。
【0018】
LM-Aモードが適用されるとき、W’=W+H。
【0019】
LM-Lモードが適用されるとき、H’=H+W。
【0020】
ここで、LMモードでは、線形モデル係数を計算するためにCUの上のサンプルと左のサンプルとが一緒に使用され、LM_Aモードでは、線形モデル係数を計算するためにCUの上のサンプルのみが使用され、LM_Lモードでは、線形モデル係数を計算するためにCUの左のサンプルのみが使用される。
【0021】
クロマ・ブロックの上の隣接するサンプルのロケーションが、S[0,-1]...S[W’-1,-1]として示され、クロマ・ブロックの左の隣接するサンプルのロケーションが、S[-1,0]...S[-1,H’-1]として示される場合、4つの隣接するクロマ・サンプルの位置が、以下のように選択される。
- LMモードが適用され、上の隣接するサンプルと左の隣接するサンプルの両方が利用可能であるとき、S[W’/4,-1]、S[3*W’/4,-1]、S[-1,H’/4]、S[-1,3*H’/4]が、4つの隣接するクロマ・サンプルの位置として選択される。
- LM-Aモードが適用されるか、または上の隣接するサンプルのみが利用可能であるとき、S[W’/8,-1]、S[3*W’/8,-1]、S[5*W’/8,-1]、S[7*W’/8,-1]が、4つの隣接するクロマ・サンプルの位置として選択される。
- LM-Lモードが適用されるか、または左の隣接するサンプルのみが利用可能であるとき、S[-1,H’/8]、S[-1,3*H’/8]、S[-1,5*H’/8]、S[-1,7*H’/8]が、4つの隣接するクロマ・サンプルの位置として選択される。
【0022】
選択されたロケーションに対応する4つの隣接するルーマ・サンプルが、ダウンサンプリング動作によって取得され、取得された4つの隣接するルーマ・サンプルは、2つのより大きい値、すなわちx およびx と、2つのより小さい値、すなわちx およびx とを見つけるために4回比較される。2つのより大きい値および2つのより小さい値に対応するクロマ・サンプル値は、それぞれy 、y 、y およびy として示される。次いで、X、X、YおよびYが、次のように導出される。
=(x +x +1)>>1、
=(x +x +1)>>1、
=(y +y +1)>>1、
=(y +y +1)>>1
(2)
【0023】
最後に、線形モデル・パラメータαおよびβが、以下の式に従って取得される。
【数1】
【0024】
図4は、CUにおけるN×Nクロマ・ブロックの左および上のサンプルのロケーションと、CUにおける2N×2Nルーマ・ブロックの左および上のサンプルのロケーションとを含む、CCLMモードに関与する、左および上のサンプルと、現在のブロックのサンプルとのロケーションの一例を示す。
【0025】
パラメータαを計算するための除算演算が、ルックアップ表により実装される。表を記憶するために必要とされるメモリを低減するために、diff値(最大値と最小値との間の差)およびパラメータαが、指数表記によって表される。たとえば、diffは、4ビット有効部分と指数とを用いて近似される。したがって、1/diffについての表が、以下のように、仮数の16個の値について16個の要素に低減される。
DivTable[ ]={0,7,6,5,5,4,4,3,3,2,2,1,1,1,1,0} (5)
【0026】
これは、計算の複雑さを低減することと、必要とされる表を記憶するために必要とされるメモリ・サイズを低減することとの両方の利益を有することになる。
【0027】
上のテンプレートおよび左のテンプレートは、線形モデル係数を計算するために一緒に使用され得るほかに、それらは、LM_AモードおよびLM_Lモードと呼ばれる他の2つのLMのモードにおいても代替的に使用され得る。
【0028】
LM_Tモードでは、線形モデル係数を計算するために上のテンプレートのみが使用される。より多くのサンプルを得るために、上のテンプレートは、(W+H)個のサンプルに拡張される。LM_Lモードでは、線形モデル係数を計算するために左のテンプレートのみが使用される。より多くのサンプルを得るために、左のテンプレートは、(H+W)個のサンプルに拡張される。
【0029】
LM_LTモードでは、線形モデル係数を計算するために左および上のテンプレートが使用される。
【0030】
4:2:0ビデオ・シーケンスについてのクロマ・サンプル・ロケーションを整合させるために、2つのタイプのダウンサンプリング・フィルタがルーマ・サンプルに適用されて、水平方向と垂直方向の両方において2対1ダウンサンプリング比を達成する。ダウンサンプリング・フィルタの選択が、SPSレベル・フラグによって指定される。2つのダウンサンプリング・フィルタは以下の通りであり、それらは、それぞれ、「タイプ-0」コンテンツおよび「タイプ-2」コンテンツに対応する。
【数2】
【0031】
上側基準線がCTU境界にあるとき、ダウンサンプリングされたルーマ・サンプルを作るために、1つのルーマ線(イントラ予測における一般的なライン・バッファ)のみが使用されることに留意されたい。
【0032】
このパラメータ算出は、復号プロセスの一部として実施され、単にエンコーダ検索動作としてのものではない。その結果、αおよびβ値をデコーダに伝達するために、シンタックスが使用されない。
【0033】
クロマ・イントラ・モード・コーディングの場合、合計8つのイントラ・モードが、クロマ・イントラ・モード・コーディングについて可能にされる。それらのモードは、5つの旧来のイントラ・モードと、3つのクロスコンポーネント線形モデル・モード(CCLM、LM_A、およびLM_L)とを含む。クロマ・モード・シグナリングおよび導出プロセスが、表1に示されている。クロマ・モード・コーディングは、対応するルーマ・ブロックのイントラ予測モードに直接依存する。ルーマ成分およびクロマ成分についての別個のブロック区分構造がI個のスライスにおいて有効にされるので、1つのクロマ・ブロックが複数のルーマ・ブロックに対応し得る。したがって、クロマDMモードの場合、現在のクロマ・ブロックの中心位置をカバーする、対応するルーマ・ブロックのイントラ予測モードが、直接継承される。
【表1】
【0034】
表2に示されているように、sps_cclm_enabled_flagの値にかかわらず、単一の2値化表が使用される。
【表2】
【0035】
表2では、第1のビンは、それが通常モード(0)であるのかLMモード(1)であるのかを示す。それがLMモードである場合、次のビンは、それがLM_CHROMA(0)であるか否かを示す。それがLM_CHROMAでない場合、次の1つのビンは、それがLM_L(0)であるのかLM_A(1)であるのかを示す。この場合、sps_cclm_enabled_flagが0であるとき、対応するintra_chroma_pred_modeについての2値化表の第1のビンは、エントロピー・コーディングより前に廃棄され得る。または、言い換えれば、第1のビンは、0であると推論され、したがってコーディングされない。この単一の2値化表は、sps_cclm_enabled_flagが0に等しい場合と1に等しい場合の両方について使用される。表22中の最初の2つのビンは、それ自体のコンテキスト・モデルでコンテキストコーディング(context code)され、残りのビンはバイパス・コーディングされる。
【0036】
さらに、デュアル・ツリーにおけるルーマ・クロマ・レイテンシを低減するために、64×64ルーマ・コーディング・ツリー・ノードが、非分割(Not Split)(また、ISPが64×64CUについて使用されない)またはQTにより区分されるとき、32×32/32×16クロマ・コーディング・ツリー・ノードにおけるクロマCUは、以下のようにしてCCLMを使用することを可能にされる。
【0037】
32×32クロマ・ノードが、非分割または区分QT分割である場合、32×32ノードにおけるすべてのクロマCUが、CCLMを使用することができる。
【0038】
32×32クロマ・ノードが水平BTで区分され、32×16子ノードが分割しないかまたは垂直BT分割を使用する場合、32×16クロマ・ノードにおけるすべてのクロマCUが、CCLMを使用することができる。
【0039】
すべての他のルーマおよびクロマ・コーディング・ツリー分割条件では、CCLMは、クロマCUについて可能にされない。
【0040】
ECM展開中に、αおよびβの簡略化された導出(min-max近似(min-max approximation))が除去される。代わりに、モデル・パラメータαおよびβを導出するための、ダウンサンプリングされたルーマ・サンプルの因果的再構成されたデータと、因果的クロマ・サンプルとの間の線形最小2乗解である。
【数3】
【0041】
ここで、Rec(i)およびRec’(i)は、ターゲット・ブロックの周りの、再構成されたクロマ・サンプルと、ダウンサンプリングされたルーマ・サンプルとを示し、Iは、隣接するデータの合計サンプル数を示す。
【0042】
ECM-1.0では、マルチモデルLM(MMLM)予測モードが提案され、これについて、クロマ・サンプルが、以下のように2つの線形モデルを使用することによって、同じCUの再構成されたルーマ・サンプルに基づいて予測される。
【数4】
【0043】
ここで、pred(i,j)は、CUにおける予測されたクロマ・サンプルを表し、rec’(i,j)は、同じCUのダウンサンプリングされた再構成されたルーマ・サンプルを表す。しきい値(Threshold)は、隣接する再構成されたルーマ・サンプルの平均値として計算される。図5は、しきい値の値に基づいて、隣接するサンプルを2つのグループに分類する一例を示す。各グループについて、iがそれぞれ1および2に等しい、パラメータαおよびβが、グループ内の最小ルーマ・サンプルA(X,Y)および最大ルーマ・サンプルB(X,Y)である、2つのサンプルからのルーマ値とクロマ値との間の直線関係から導出される。ここで、X、Yは、サンプルAについてのx座標(すなわち、ルーマ値)値およびy座標(すなわち、クロマ値)値であり、X、Yは、サンプルBについてのx座標値およびy座標値である。線形モデル・パラメータαおよびβが、以下の式に従って取得される。
【数5】
【0044】
そのような方法は、min-max法(min-max method)とも呼ばれる。上記の式中の除算は、乗算およびシフトによって回避され、置き換えられ得る。
【0045】
正方形形状をもつコーディング・ブロックの場合、上記の2つの式が、直接適用される。非正方形コーディング・ブロックの場合、より長い境界の隣接するサンプルが、より短い境界の場合と同じ数のサンプルを有するように、最初にサブサンプリングされる。
【0046】
上のテンプレートおよび左のテンプレートが、線形モデル係数を計算するために一緒に使用されるシナリオのほかに、それら2つのテンプレートは、MMLM_Aモード、およびMMLM_Lモードと呼ばれる他の2つのMMLMモードにおいても代替的に使用され得る。
【0047】
MMLM_Aモードでは、線形モデル係数を計算するために、上のテンプレート中のピクセル・サンプルのみが使用される。より多くのサンプルを得るために、上のテンプレートは、(W+W)のサイズに拡張される。MMLM_Lモードでは、線形モデル係数を計算するために、左のテンプレート中のピクセル・サンプルのみが使用される。より多くのサンプルを得るために、左のテンプレートは、(H+H)のサイズに拡張される。
【0048】
上側基準線がCTU境界にあるとき、ダウンサンプリングされたルーマ・サンプルを作るために、(イントラ予測のためにライン・バッファに記憶される)1つのルーマ行のみが使用されることに留意されたい。
【0049】
クロマ・イントラ・モード・コーディングの場合、合計11個のイントラ・モードが、クロマ・イントラ・モード・コーディングについて可能にされる。それらのモードは、5つの旧来のイントラ・モードと、6つのクロスコンポーネント線形モデル・モード(CCLM、LM_A、LM_L、MMLM、MMLM_AおよびMMLM_L)とを含む。クロマ・モード・シグナリングおよび導出プロセスが、表に示されている。クロマ・モード・コーディングは、対応するルーマ・ブロックのイントラ予測モードに直接依存する。ルーマ成分およびクロマ成分についての別個のブロック区分構造がI個のスライスにおいて有効にされるので、1つのクロマ・ブロックが複数のルーマ・ブロックに対応し得る。したがって、クロマDMモードの場合、現在のクロマ・ブロックの中心位置をカバーする対応するルーマ・ブロックのイントラ予測モードが、直接継承される。
【0050】
【表3】
【0051】
また、MMLMモードおよびLMモードが、適応様式で一緒に使用され得る。MMLMの場合、2つの線形モデルは、以下の通りである。
【数6】
【0052】
ここで、pred(i,j)は、CUにおける予測されたクロマ・サンプルを表し、rec’(i,j)は、同じCUのダウンサンプリングされた再構成されたルーマ・サンプルを表す。しきい値(Threshold)は、単に、ルーマ平均値およびクロマ平均値に基づいて、それらの最小値および最大値とともに、決定され得る。図6は、矢印によって示されているニー・ポイントTに基づいて、隣接するサンプルを2つのグループに分類する一例を示す。線形モデル・パラメータαおよびβが、最小ルーマ・サンプルA(X,Y)およびしきい値(X,Y)である、2つのサンプルからのルーマ値とクロマ値との間の直線関係から導出される。線形モデル・パラメータαおよびβが、最大ルーマ・サンプルB(X,Y)およびしきい値(X,Y)である、2つのサンプルからのルーマ値とクロマ値との間の直線関係から導出される。ここで、X、Yは、サンプルAについてのx座標(すなわち、ルーマ値)値およびy座標(すなわち、クロマ値)値であり、X、Yは、サンプルBについてのx座標値およびy座標値である。iがそれぞれ1および2に等しい、各グループについての線形モデル・パラメータαおよびβは、以下の式に従って取得される。
【数7】
【0053】
正方形形状をもつコーディング・ブロックの場合、上記の式が、直接適用される。非正方形コーディング・ブロックの場合、より長い境界の隣接するサンプルが、より短い境界の場合と同じ数のサンプルを有するように、最初にサブサンプリングされる。
【0054】
上のテンプレートおよび左のテンプレートが、線形モデル係数を決定するために一緒に使用されるシナリオのほかに、それら2つのテンプレートは、それぞれMMLM_Aモード、およびMMLM_Lモードと呼ばれる他の2つのMMLMモードにおいても代替的に使用され得る。
【0055】
MMLM_Aモードでは、線形モデル係数を計算するために、上のテンプレート中のピクセル・サンプルのみが使用される。より多くのサンプルを得るために、上のテンプレートは、(W+W)のサイズに拡張される。MMLM_Lモードでは、線形モデル係数を計算するために、左のテンプレート中のピクセル・サンプルのみが使用される。より多くのサンプルを得るために、左のテンプレートは、(H+H)のサイズに拡張される。
【0056】
上側基準線がCTU境界にあるとき、ダウンサンプリングされたルーマ・サンプルを作るために、(イントラ予測のためにライン・バッファに記憶される)1つのルーマ行のみが使用されることに留意されたい。
【0057】
クロマ・イントラ・モード・コーディングの場合、LMモード(CCLM、LM_A、およびLM_L)またはマルチモデルLMモード(MMLM、MMLM_A、およびMMLM_L)を選択するために使用される条件チェックがある。条件チェックは以下の通りである。
【数8】
【0058】
ここで、BlkSizeThresLMは、LMモード(LM mode)の最も小さいブロック・サイズを表し、BlkSizeThresMMpred(i,j)は、MMLMモード(MMLM mode)の最も小さいブロック・サイズを表す。シンボルdは、所定のしきい値を表す。一例では、dは0の値をとり得る。別の例では、dは8の値をとり得る。
【0059】
クロマ・イントラ・モード・コーディングの場合、合計8つのイントラ・モードが、クロマ・イントラ・モード・コーディングについて可能にされる。それらのモードは、5つの旧来のイントラ・モードと、3つのクロスコンポーネント線形モデル・モードとを含む。クロマ・モード・シグナリングおよび導出プロセスが、表1表に示されている。所与のCUについて、それが線形モデル・モード下でコーディングされる場合、それが従来の単一モデルLMモードであるのかMMLMモードであるのかが、上記の条件チェックに基づいて決定されることは、注目に値する。表3に示されている場合とは異なり、シグナリングされるべき別個のMMLMモードがない。クロマ・モード・コーディングは、対応するルーマ・ブロックのイントラ予測モードに直接依存する。ルーマ成分およびクロマ成分についての別個のブロック区分構造がI個のスライスにおいて有効にされるので、1つのクロマ・ブロックが複数のルーマ・ブロックに対応し得る。したがって、クロマDMモードの場合、現在のクロマ・ブロックの中心位置をカバーする、対応するルーマ・ブロックのイントラ予測モードが、直接継承される。
【0060】
既存のCCLM設計またはMMLM設計では、隣接する再構成されたルーマ・クロマ・サンプル・ペアが、しきい値の値に基づいて、1つまたは複数のサンプル・グループに分類され、これは、ルーマDC値のみを考慮する。すなわち、ルーマ・クロマ・サンプル・ペアは、ルーマ・サンプルの強さのみを考慮することによって分類される。しかしながら、ルーマ成分は、通常、豊富なテクスチャを保存し、現在のルーマ・サンプルは、隣接するルーマ・サンプルと大いに相関され得、そのようなサンプル間相関(AC相関)は、ルーマ・クロマ・サンプル・ペアの分類に利益を与え得、追加のコーディング効率をもたらすことができる。
【0061】
さらに、図9Aに示されているように、CCLMは、所与のクロマ・サンプルが、対応するルーマ・サンプル(小数ルーマ・サンプル位置としてとられ得る、L0.5)のみに相関すると仮定し、所与のクロマ・サンプルを予測するために、通常の最小2乗(OLS:ordinary least squares)推定による単純線形回帰(SLR:simple linear regression)が使用される。しかしながら、図9Bに示されているように、あるビデオ・コンテンツでは、1つのクロマ・サンプルが複数のルーマ・サンプルに同時に相関し得(AC相関またはDC相関)、したがって、多重線形回帰(MLR)モデルが、さらに、予測精度を改善し得る。
【0062】
本開示の焦点は、ルーマ・エッジまたはAC情報を考慮する分類器を導入することによって、ルーマ成分およびクロマ成分のコーディング効率を改善することである。既存の帯域分類されたMMLMのほかに、本開示は、例示的な提案される分類器を提供する。異なるサンプル・グループについての線形予測モデルを生成するプロセスは、(たとえば、最小2乗法、または簡略化されたmin-max法などを介した)CCLMまたはMMLMと同様であり得るが、分類のために異なるメトリックをもつ。
【0063】
本開示の焦点はまた、予測精度をさらに改善するために、フィルタ・ベースの線形モデル(FLM)を導出することである。
【0064】
本開示の一態様では、第1の分類器が、(たとえば、隣接するルーマ・クロマ・サンプル・ペアの)隣接するルーマ・サンプル、および/または予測されるべきクロマ・サンプルに対応するルーマ・サンプルを分類するために使用され得る。クロマ・サンプルに対応するルーマ・サンプルは、4:2:0ビデオ・シーケンスについての対応するクロマ・サンプルのロケーションを整合させるために、ダウンサンプリング動作によって取得され得る。たとえば、クロマ・サンプルに対応するルーマ・サンプルは、(たとえば、クロマ・サンプルの周りに位置する)クロマ・サンプルに対応する2つ以上の(たとえば、4つの)再構成されたルーマ・サンプルに対して、ダウンサンプリング動作を実施することによって取得され得る。代替的に、ルーマ・サンプルは、たとえば、4:4:4ビデオ・シーケンスの場合、再構成されたルーマ・サンプルから直接取得され得る。代替的に、ルーマ・サンプルは、対応するクロマ・サンプルについてのそれぞれのコロケートされた位置にある再構成されたルーマ・サンプルの各々から取得され得る。たとえば、分類されるべきルーマ・サンプルが、クロマ・サンプルについてのコロケートされた位置と見なされ得る、4つの再構成されたルーマ・サンプルの左上位置にある、クロマ・サンプルに対応する4つの再構成されたルーマ・サンプルのうちの1つから取得され得る。第1の分類器は、ルーマ・サンプルを、それらのエッジ強度に従って分類し得る。たとえば、エッジ強度を計算するために、1つの方向(たとえば、0度、45度、または90度など)が選択され得る。方向は、現在のサンプルと、その方向に沿った隣接するサンプル(たとえば、45度の場合、現在のサンプルの右上に位置する隣接するサンプル)とによって形成され得る。エッジ強度は、現在のサンプルからネイバー・サンプルを減算することによって計算され得る。エッジ強度は、M-1個のしきい値によってM個のセグメントのうちの1つに量子化され得、第1の分類器は、現在のサンプルを分類するためにM個のクラスを使用し得る。代替または追加として、N個の方向が、現在のサンプルと、N個の方向に沿ったN個の隣接するサンプルとによって形成され得る。N個のエッジ強度は、それぞれ、現在のサンプルからN個の隣接するサンプルを減算することによって計算され得る。同様に、N個のエッジ強度の各々が、M-1個のしきい値によってM個のセグメントのうちの1つに量子化され得る場合、第1の分類器は、現在のサンプルを分類するために、M個のクラスを使用し得る。
【0065】
本開示の別の態様では、ローカル・パターンに従って分類するために、第2の分類器が使用され得る。たとえば、現在のルーマ・サンプルY0が、それの隣接するN個のルーマ・サンプルYiと比較され得る。Y0の値がYiの値よりも大きい場合、スコアが1だけ加算され得、他の場合、スコアは1だけ低減され得る。スコアは、K個のクラスを形成するために量子化され得る。第2の分類器は、現在のサンプルをK個のクラスのうちの1つに分類し得る。たとえば、隣接するルーマ・サンプルは、現在のルーマ・サンプルの上、左、右、および下に位置する、すなわち、対角ネイバーなしの、4つのネイバーから取得され得る。
【0066】
本開示の1つまたは複数の態様では、複数の第1の分類器、第2の分類器、または第1もしくは第2の分類器もしくは本明細書で説明される他の分類器の異なるインスタンスが、組み合わせられ得る。たとえば、第1の分類器は、既存のMMLMしきい値ベースの分類器と組み合わせられ得る。別の例では、第1の分類器のインスタンスAが、第1の分類器の別のインスタンスBと組み合わせられ得、ここで、インスタンスAおよびインスタンスBは、異なる方向を採用する(たとえば、それぞれ、垂直方向および水平方向を採用する)。
【0067】
VVC規格における既存のCCLM設計が、本明細書における基本的CCLM方法として使用されるが、本開示で説明される提案されるクロスコンポーネント方法が、同様の設計趣旨をもつ他の予測コーディング・ツールにも適用され得ることが、当業者によって諒解されよう。たとえば、AV1規格におけるルーマからのクロマ(CfL:chroma from luma)について、提案される方法はまた、ルーマ/クロマ・サンプル・ペアを複数のサンプル・グループに分けることによって適用され得る。
【0068】
Y/Cb/Crが、ビデオ・コーディング・エリアにおいてY/U/Vとしても示され得ることが、当業者によって諒解されよう。ビデオ・データがRGBフォーマットのものである場合、提案される方法はまた、たとえば、単に、YUV表記をGBRにマッピングすることによって適用され得る。
【0069】
図7は、本開示の1つまたは複数の態様による、ビデオ・データを復号するための方法700のワークフローを示す。方法700は、本明細書で説明される分類器のうちのいずれか1つ、またはそれらの任意の組合せを使用し得、(たとえば、図3の)ビデオ・デコーダによって使用され得る。ステップ710において、ビデオ・データのビデオ・ブロック(たとえば、CU)が、ビットストリームから取得され得る。たとえば、ビデオ・データのルーマ・サンプルの符号化されたブロックが受信され得る。ルーマ・サンプルの符号化されたブロックは、再構成されたルーマ・サンプルを取得するために復号され得る。ステップ720において、ルーマ・サンプルは、ルーマ・サンプルのエッジ情報に基づいて、複数のサンプル・グループのうちの1つに分類され得る。ルーマ・サンプルは、ビデオ・ブロックの予測されるべきクロマ・サンプルに対応し得、再構成されたルーマ・サンプルのうちの1つまたは複数から取得され得る。たとえば、ルーマ・サンプルを取得するために、ダウンサンプリング動作が、再構成されたルーマ・サンプルに対して実施されることも実施されないこともある。たとえば、分類は、本明細書で説明される分類器のうちの1つ、またはそれらの任意の組合せを使用することによって実施され得る。ステップ730において、クロマ・サンプルは、分類されたサンプル・グループに対応する複数の線形予測モデルのうちの1つを、ルーマ・サンプルに適用することによって予測され得る。
【0070】
一実施形態では、ルーマ・サンプルを複数のサンプル・グループのうちの1つに分類することは、さらに、ルーマ・サンプルの強さ値に基づき得る(たとえば、既存のMMLMしきい値ベースの分類器と組み合わせられる)。
【0071】
一実施形態では、複数のサンプル・グループの各々は、複数の線形予測モデルのうちの異なる線形予測モデルに対応し得る。
【0072】
一実施形態では、エッジ情報は、ルーマ・サンプルのエッジの方向と強度とを含み得る。
【0073】
一実施形態では、ルーマ・サンプルを複数のサンプル・グループのうちの1つに分類することは、ルーマ・サンプルについての1つの方向に沿ったエッジの強度、またはルーマ・サンプルについての異なる方向に沿ったエッジの複数の強度に基づいて、ルーマ・サンプルを複数のサンプル・グループのうちの1つに分類することを含み得る。
【0074】
一実施形態では、方法700は、隣接するルーマ・サンプルのエッジ情報に基づいて、ビデオ・ブロックの周りの隣接するルーマ・サンプルを、複数のサンプル・グループに分類することを含み得る。複数の線形予測モデルの各々は、たとえば、最小2乗法、または簡略化されたmin-max法などを通して、その線形予測モデルに対応するサンプル・グループに分類された隣接するルーマ・サンプルと、そのサンプル・グループに分類された隣接するルーマ・サンプルに対応する隣接するクロマ・サンプルと(たとえば、その中のルーマ・サンプルが、その線形予測モデルに対応するサンプル・グループに分類された、隣接するルーマ・クロマ・サンプル・ペア)から導出され得る。
【0075】
本開示の1つまたは複数の態様による、ビデオ・データを符号化するための方法800のワークフローを示す。方法800は、本明細書で説明される分類器のうちのいずれか1つ、またはそれらの任意の組合せを使用し得、(たとえば、図1の)ビデオ・エンコーダによって使用され得る。ステップ810において、ビデオ・データのビデオ・ブロックが、ビデオ・フレームから取得され得る。たとえば、ルーマ・サンプルの符号化されたブロックを取得するために、ビデオ・データのルーマ・サンプルのブロックが符号化され得る。ルーマ・サンプルの符号化されたブロックは、再構成されたルーマ・サンプルを取得するために復号され得る。ステップ820において、クロマ・サンプルに対応するルーマ・サンプルが、ルーマ・サンプルのエッジ情報に基づいて、複数のサンプル・グループのうちの1つに分類され得、ルーマ・サンプルは、再構成されたルーマ・サンプルのうちの1つまたは複数から取得される。ステップ830において、クロマ・サンプルは、分類されたサンプル・グループに対応する複数の線形予測モデルのうちの1つを、ルーマ・サンプルに適用することによって予測され得る。
【0076】
本開示の1つまたは複数の態様では、予測されるべきクロマ・サンプルについて、そのクロマ・サンプルを予測するために、再構成されたコロケートされたおよび隣接するルーマ・サンプルが使用されて、コロケートされたルーマ・サンプル、隣接するルーマ・サンプル、およびクロマ・サンプルの間のサンプル間相関をキャプチャし得る。再構成されたルーマ・サンプルは、予測されたクロマ・サンプルを生成するために、線形重み付けされ、1つの「オフセット」と組み合わせられる(C:予測されたクロマ・サンプル、L:i番目の再構成されたコロケートされたまたは隣接するルーマ・サンプル、α:フィルタ係数、β:オフセット、N:フィルタ・タップ)。線形重み付けされた+オフセットの値は、予測されたクロマ・サンプルを直接形成し(ビデオ・コンテンツに従って、適応的にロー・パス、ハイ・パスであり得る)、それは、次いで、再構成されたクロマ・サンプルを形成するために残差だけ加算されることに留意されたい。
【数9】
【0077】
所与のCUについて、FLMパラメータ(α、β)を導出またはトレーニングするために、上および左の再構成されたルーマ・サンプルおよびクロマ・サンプルが使用され得る。CCLMと同様に、αおよびβが、OLSを介して導出され得る。上および左のトレーニング・サンプルが収集され、1つの擬似逆行列が、エンコーダ側とデコーダ側の両方において計算されて、パラメータを導出し、そのパラメータは、次いで、所与のCUにおいてクロマ・サンプルを予測するために使用される。Nが、ルーマ・サンプルに適用されるフィルタ・タップの数を示し、Mが、パラメータをトレーニングするために使用される合計の上および左の再構成されたルーマ・サンプルおよびクロマ・サンプル・ペアを示し、
【数10】
が、i番目のサンプル・ペアとj番目のフィルタ・タップとをもつルーマ・サンプルを示し、Cが、i番目のサンプル・ペアをもつクロマ・サンプルを示すものとし、以下の式は、擬似逆行列Aと、また、パラメータとの導出を示す。図10は、Nが6(6タップ)であり、Mが8であり、パラメータを導出またはトレーニングするために、上の2行および左の3列のルーマ・サンプルと、上の1行および左の1列のクロマ・サンプルとが使用される、一例を示す。
【数11】
【0078】
オフセットβなしにαのみによってクロマ・サンプルを予測することができ、これが、提案される方法のサブセットであり得ることに留意されたい。
【0079】
VVC規格における既存のCCLM設計が、以下の説明における基本的CCLM方法として使用されるが、ビデオ・コーディングの当業者には、本開示で説明される提案されるクロスコンポーネント方法が、同様の設計趣旨をもつ他の予測コーディング・ツールにも適用され得ることに留意されたい。たとえば、AV1規格におけるルーマからのクロマ(CfL)について、提案されるFLMはまた、MLRモデルに対する複数のルーマ・サンプルを含むことによって適用され得る。
【0080】
Y/Cb/Crが、ビデオ・コーディング・エリアにおいてY/U/Vとしても示され得ることに留意されたい。
【0081】
ビデオがRGBフォーマットである場合、提案されるFLMはまた、たとえば、単に、以下の段落においてYUV表記をGBRにマッピングすることによって適用され得ることに留意されたい。
【0082】
本開示の図は、本開示で言及されるすべての例と組み合わせられ得ることに留意されたい。
【0083】
図11は、本開示の1つまたは複数の態様による、ビデオ・データを符号化するための方法1100のワークフローを示す。ステップ1110において、ビデオ・ブロック(たとえば、ルーマ・ブロックおよび/またはクロマ・ブロックを備えるCU)が、ビデオ・フレームから取得され得る。ステップ1120において、多重線形回帰(MLR)モデルを導出するために使用される領域が、決定され得る。たとえば、領域は、クロマ・ブロックおよびそれのコロケートされたルーマ・ブロックに隣接する再構成されたクロマ・サンプルおよびルーマ・サンプルの左の1つもしくは複数の列および/または上の1つもしくは複数の行を含み、たとえば、図10に示されているように、コロケートされたルーマ・ブロックに隣接する再構成されたルーマ・サンプルの左の3列および上の2行と、クロマ・ブロックに隣接する左の1列および上の1行とを含み得る。
【0084】
ステップ1130において、領域におけるルーマ・サンプル値とクロマ・サンプル値とが取得され得る。たとえば、領域における再構成されたルーマ・サンプルおよびクロマ・サンプルの値は、ダウンサンプリングなどの変更なしに、ダイレクトされ使用され得る。
【0085】
ステップ1140において、領域におけるルーマ・サンプル値とクロマ・サンプル値とを使用して、MLRモデルが導出され得る。MLRモデルは、少なくとも2つの係数α(i=0・・・N-1、Nがフィルタ・タップの数である)と1つのオフセットβとを備え得る。たとえば、1つのクロマ・サンプルを予測するために6つのルーマ・サンプルと1つのオフセットとを使用するために、6つの係数α(すなわち、フィルタ・タップの数が6であり、i=0・・・5)と1つのオフセットβとをもつMLRモデルが導出され得る。MLRモデルの導出は、擬似逆行列計算と正規方程式(normal equation)とを含み得、スカラーβを導出するために、Aにおける最右列が1に設定されなければならない。
【0086】
ステップ1150において、ビデオ・ブロックにおけるクロマ・サンプルの各々が、MLRモデルをそのクロマ・サンプルについての対応するルーマ・サンプルに適用することによって、予測され得る。各クロマ・サンプル(たとえば、図10に示されているクロマ・サンプル0’)についての対応するルーマ・サンプルが、そのクロマ・サンプルについてのコロケートされたルーマ・サンプル(たとえば、図10に示されているルーマ・サンプル0’、1’、2’、3’、4’および5’)を含み得る。たとえば、再構成されたコロケートされたルーマ・サンプルの値は、ダウンサンプリングなどの変更なしに、ダイレクトされ使用され得る。
【0087】
ステップ1160において、予測されたクロマ・サンプルを使用して、符号化されたビデオ・ブロックが取得され得る。たとえば、符号化されたビデオ・ブロックは、送信するためにまたは記憶のためにビットストリーム中に含まれ得る。
【0088】
図12は、本開示の1つまたは複数の態様による、ビデオ・データを復号するための方法1200のワークフローを示す。方法1200は、方法1100と同様であり得、方法1200のプロセスまたはステップは、方法1100のプロセスまたはステップに対応し得る。ステップ1210において、ビデオ・ブロック(たとえば、CU)が、ビットストリームから取得され得る。ステップ1220において、多重線形回帰(MLR)モデルを導出するために使用される領域が、決定され得る。ステップ1230において、領域におけるルーマ・サンプル値とクロマ・サンプル値とが取得され得る。ステップ1240において、領域におけるルーマ・サンプル値とクロマ・サンプル値とを使用して、MLRモデルが導出され得る。ステップ1250において、ビデオ・ブロックにおけるクロマ・サンプルの各々が、MLRモデルをそのクロマ・サンプルについての対応するルーマ・サンプルに適用することによって、予測され得る。ステップ1260において、予測されたクロマ・サンプルを使用して、復号されたビデオ・ブロックが取得され得る。
【0089】
図13は、本開示の1つまたは複数の態様による、例示的なコンピューティング・システム1300を示す。コンピューティング・システム1300は、少なくとも1つのプロセッサ1310を備え得る。コンピューティング・システム1300は、少なくとも1つのストレージ・デバイス1320をさらに備え得る。ストレージ・デバイス1320は、実行されたとき、プロセッサ1310に、図7図8、および図11図12を参照しながら上記で説明された方法700、800、1100および1200のステップを実施させる、コンピュータ実行可能命令を記憶し得る。プロセッサ1310は、汎用プロセッサであり得るか、または、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携した1つもしくは複数のマイクロプロセッサ、もしくは任意の他のそのような構成としても実装され得る。ストレージ・デバイス1320は、入力データ、出力データ、プロセッサ1310によって生成されたデータ、および/またはプロセッサ1310によって実行される命令を記憶し得る。
【0090】
ストレージ・デバイス1320は、実行されたとき、プロセッサ1310に、図1図12に関連して説明された本開示の実施形態によるいずれかの動作を実施させる、コンピュータ実行可能命令を記憶し得ることを諒解されたい。
【0091】
本開示の実施形態は、非一時的コンピュータ可読媒体などのコンピュータ可読媒体において具現され得る。非一時的コンピュータ可読媒体は、実行されたとき、1つまたは複数のプロセッサに、図1図12に関連して説明された本開示の実施形態によるいずれかの動作を実施させる、命令を備え得る。たとえば、命令は、実行されたとき、1つまたは複数のプロセッサに、上記で説明された、ビットストリームを受信することと、復号動作を実施することとを行わせ得る。別の例では、命令は、実行されたとき、1つまたは複数のプロセッサに、上記で説明された、符号化動作を実施することと、予測されたクロマ・サンプルに関連する符号化されたビデオ情報を含むビットストリームを送信することとを行わせ得る。
【0092】
上記で説明された方法におけるすべての動作は例にすぎず、本開示は、その方法におけるいかなる動作、またはこれらの動作のシーケンス順序に限定されず、同じまたは同様の概念のもとですべての他の等価物をカバーするべきであることを諒解されたい。
【0093】
また、上記で説明された方法におけるすべてのモジュールが、様々な手法において実装され得ることを諒解されたい。これらのモジュールは、ハードウェア、ソフトウェア、またはそれらの組合せとして実装され得る。その上、これらのモジュールのいずれも、さらに、機能的にサブモジュールに分けられるかまたは一緒に組み合わせられ得る。
【0094】
前の説明は、当業者が、本明細書で説明される様々な態様を実践することを可能にするために提供される。これらの態様への様々な変更は当業者に容易に明らかとなり、本明細書で定義される一般原理は他の態様に適用され得る。したがって、特許請求の範囲は、本明細書で示される態様に限定されるものではない。当業者に知られているかまたは当業者に後で知られることになる、本開示全体にわたって説明される様々な態様の要素に対するすべての構造的および機能的等価物は、参照により本明細書に明確に組み込まれ、特許請求の範囲によって包含されるものとする。
図1
図2A
図2B
図2C
図2D
図2E
図3
図4
図5
図6
図7
図8
図9A-9B】
図10
図11
図12
図13
【手続補正書】
【提出日】2024-07-11
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ビデオ・データを復号するための方法であって、
ビットストリームからビデオ・ブロックを取得することと、
多重線形回帰(MLR)モデルを導出するための領域を決定することと、
前記領域におけるルーマ・サンプル値とクロマ・サンプル値とを取得することと、
前記領域における前記ルーマ・サンプル値と前記クロマ・サンプル値とを使用して、前記MLRモデルを導出することと、
前記ビデオ・ブロックにおけるクロマ・サンプルの各々を、前記MLRモデルをそのクロマ・サンプルについての対応するルーマ・サンプルに適用することによって、予測することと、
前記予測されたクロマ・サンプルを使用して、復号されたビデオ・ブロックを取得することと
を含む、方法。
【請求項2】
前記MLRモデルが、少なくとも2つの係数α(i=0・・・N-1、Nがフィルタ・タップの数である)と1つのオフセットβとを備える、請求項1に記載の方法。
【請求項3】
前記領域が、前記ビデオ・ブロックに隣接する再構成されたクロマ・サンプルおよび対応するルーマ・サンプルの左の1つもしくは複数の列および/または上の1つもしくは複数の行を含む、請求項1に記載の方法。
【請求項4】
前記領域におけるルーマ・サンプル値とクロマ・サンプル値とを前記取得することが、
前記再構成されたクロマ・サンプルおよび対応するルーマ・サンプルの値を、変更なしに、直接使用すること
を含む、請求項3に記載の方法。
【請求項5】
前記領域における前記ルーマ・サンプル値と前記クロマ・サンプル値とを使用して、前記MLRモデルを前記導出することが、
6つのルーマ・サンプルと1つのオフセットとを使用して1つのクロマ・サンプルを予測するために、6つの係数α(i=0・・・5)と1つのオフセットβとをもつMLRモデルを導出すること
を含む、請求項1に記載の方法。
【請求項6】
前記領域における前記ルーマ・サンプル値と前記クロマ・サンプル値とを使用して、前記MLRモデルを前記導出することが、
擬似逆行列計算と正規方程式とを使用して前記MLRモデルを導出すること
を含む、請求項1に記載の方法。
【請求項7】
前記ビデオ・ブロックにおけるクロマ・サンプルの各々を前記予測することが、
再構成された対応するルーマ・サンプルの値を、変更なしに、直接使用すること
を含む、請求項1に記載の方法。
【請求項8】
ビデオ・データを符号化するための方法であって、
ビデオ・フレームからビデオ・ブロックを取得することと、
多重線形回帰(MLR)モデルを導出するための領域を決定することと、
前記領域におけるルーマ・サンプル値とクロマ・サンプル値とを取得することと、
前記領域における前記ルーマ・サンプル値と前記クロマ・サンプル値とを使用して、前記MLRモデルを導出することと、
前記ビデオ・ブロックにおけるクロマ・サンプルの各々を、前記MLRモデルをそのクロマ・サンプルについての対応するルーマ・サンプルに適用することによって、予測することと、
前記予測されたクロマ・サンプルを使用して、符号化されたビデオ・ブロックを取得することと
を含む、方法。
【請求項9】
前記MLRモデルが、少なくとも2つの係数α(i=0・・・N-1、Nがフィルタ・タップの数である)と1つのオフセットβとを備える、請求項8に記載の方法。
【請求項10】
前記領域が、前記ビデオ・ブロックに隣接する再構成されたクロマ・サンプルおよび対応するルーマ・サンプルの左の1つもしくは複数の列および/または上の1つもしくは複数の行を含む、請求項8に記載の方法。
【請求項11】
前記領域におけるルーマ・サンプル値とクロマ・サンプル値とを前記取得することが、
前記再構成されたクロマ・サンプルおよび対応するルーマ・サンプルの値を、変更なしに、直接使用すること
を含む、請求項10に記載の方法。
【請求項12】
前記領域における前記ルーマ・サンプル値と前記クロマ・サンプル値とを使用して、前記MLRモデルを前記導出することが、
6つのルーマ・サンプルと1つのオフセットとを使用して1つのクロマ・サンプルを予測するために、6つの係数α(i=0・・・5)と1つのオフセットβとをもつMLRモデルを導出すること
を含む、請求項8に記載の方法。
【請求項13】
前記領域における前記ルーマ・サンプル値と前記クロマ・サンプル値とを使用して、前記MLRモデルを前記導出することが、
擬似逆行列計算と正規方程式とを使用して前記MLRモデルを導出すること
を含む、請求項8に記載の方法。
【請求項14】
前記ビデオ・ブロックにおけるクロマ・サンプルの各々を前記予測することが、
再構成された対応するルーマ・サンプルの値を、変更なしに、直接使用すること
を含む、請求項8に記載の方法。
【請求項15】
1つまたは複数のプロセッサと、
コンピュータ実行可能命令を記憶する1つまたは複数のストレージ・デバイスであって、前記コンピュータ実行可能命令は、実行されたとき、前記1つまたは複数のプロセッサに、請求項1から14のいずれか一項に記載の方法の動作を実施させる、ストレージ・デバイスと、
を備えるコンピュータ・システム。
【請求項16】
コンピュータ実行可能命令を含むコンピュータ・プログラム製品であって、前記コンピュータ実行可能命令は、実行されたとき、1つまたは複数のプロセッサに、請求項1から14のいずれか一項に記載の方法の動作を実施させる、コンピュータ・プログラム製品。
【請求項17】
コンピュータ実行可能命令を記憶するコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、実行されたとき、1つまたは複数のプロセッサに、請求項1から14のいずれか一項に記載の方法の動作を実施することを行わせる、コンピュータ可読媒体。
【請求項18】
請求項1から7のいずれか一項に記載の方法によって復号されるビットストリーム、または請求項8から14のいずれか一項に記載の方法によって生成されるビットストリームを記憶するための方法。
【請求項19】
ビットストリームを受信するための方法であって、前記ビットストリームは、請求項1から7のいずれか一項に記載の方法によって復号される、方法。
【請求項20】
ビットストリームを送信するための方法であって、前記ビットストリームは、請求項8から14のいずれか一項に記載の方法によって生成される、方法。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0035
【補正方法】変更
【補正の内容】
【0035】
表2では、第1のビンは、それが通常モード(0)であるのかLMモード(1)であるのかを示す。それがLMモードである場合、次のビンは、それがLM_CHROMA(0)であるか否かを示す。それがLM_CHROMAでない場合、次の1つのビンは、それがLM_L(0)であるのかLM_A(1)であるのかを示す。この場合、sps_cclm_enabled_flagが0であるとき、対応するintra_chroma_pred_modeについての2値化表の第1のビンは、エントロピー・コーディングより前に廃棄され得る。または、言い換えれば、第1のビンは、0であると推論され、したがってコーディングされない。この単一の2値化表は、sps_cclm_enabled_flagが0に等しい場合と1に等しい場合の両方について使用される。表2中の最初の2つのビンは、それ自体のコンテキスト・モデルでコンテキストコーディング(context code)され、残りのビンはバイパス・コーディングされる。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0051
【補正方法】変更
【補正の内容】
【0051】
また、MMLMモードおよびLMモードが、適応様式で一緒に使用され得る。MMLMの場合、2つの線形モデルは、以下の通りである。
【数6】
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0057
【補正方法】変更
【補正の内容】
【0057】
クロマ・イントラ・モード・コーディングの場合、LMモード(CCLM、LM_A、およびLM_L)またはマルチモデルLMモード(MMLM、MMLM_A、およびMMLM_L)を選択するために使用される条件チェックがある。条件チェックは以下の通りである。
【数8】
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0058
【補正方法】変更
【補正の内容】
【0058】
ここで、BlkSizeThresLMは、LMモード(LM mode)の最も小さいブロック・サイズを表し、BlkSizeThre MM 、MMLMモード(MMLM mode)の最も小さいブロック・サイズを表す。シンボルdは、所定のしきい値を表す。一例では、dは0の値をとり得る。別の例では、dは8の値をとり得る。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0075
【補正方法】変更
【補正の内容】
【0075】
図8は、本開示の1つまたは複数の態様による、ビデオ・データを符号化するための方法800のワークフローを示す。方法800は、本明細書で説明される分類器のうちのいずれか1つ、またはそれらの任意の組合せを使用し得、(たとえば、図1の)ビデオ・エンコーダによって使用され得る。ステップ810において、ビデオ・データのビデオ・ブロックが、ビデオ・フレームから取得され得る。たとえば、ルーマ・サンプルの符号化されたブロックを取得するために、ビデオ・データのルーマ・サンプルのブロックが符号化され得る。ルーマ・サンプルの符号化されたブロックは、再構成されたルーマ・サンプルを取得するために復号され得る。ステップ820において、クロマ・サンプルに対応するルーマ・サンプルが、ルーマ・サンプルのエッジ情報に基づいて、複数のサンプル・グループのうちの1つに分類され得、ルーマ・サンプルは、再構成されたルーマ・サンプルのうちの1つまたは複数から取得される。ステップ830において、クロマ・サンプルは、分類されたサンプル・グループに対応する複数の線形予測モデルのうちの1つを、ルーマ・サンプルに適用することによって予測され得る。
【国際調査報告】