(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-12
(54)【発明の名称】特徴マップ符号化および復号化方法および装置
(51)【国際特許分類】
H04N 19/13 20140101AFI20240905BHJP
H04N 19/46 20140101ALI20240905BHJP
【FI】
H04N19/13
H04N19/46
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024516958
(86)(22)【出願日】2022-09-08
(85)【翻訳文提出日】2024-04-25
(86)【国際出願番号】 CN2022117819
(87)【国際公開番号】W WO2023040745
(87)【国際公開日】2023-03-23
(31)【優先権主張番号】202111101920.9
(32)【優先日】2021-09-18
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】202210300566.0
(32)【優先日】2022-03-25
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】503433420
【氏名又は名称】華為技術有限公司
【氏名又は名称原語表記】HUAWEI TECHNOLOGIES CO.,LTD.
【住所又は居所原語表記】Huawei Administration Building, Bantian, Longgang District, Shenzhen, Guangdong 518129, P.R. China
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133569
【氏名又は名称】野村 進
(72)【発明者】
【氏名】▲師▼ 一博
(72)【発明者】
【氏名】葛 ▲運▼英
(72)【発明者】
【氏名】王 晶
(72)【発明者】
【氏名】毛 ▲ジュエ▼
(72)【発明者】
【氏名】▲趙▼ 寅
(72)【発明者】
【氏名】▲楊▼ ▲海▼涛
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159ME01
5C159ME11
5C159RC12
5C159TA59
5C159TD02
5C159TD10
5C159TD12
5C159UA02
5C159UA05
(57)【要約】
本出願は、特徴マップ符号化および復号化方法および装置を提供し、人工知能(AI)ベースのデータ符号化および復号化技術の分野に関し、具体的には、ニューラルネットワークベースのデータ符号化および復号化技術の分野に関する。特徴マップ復号化方法は、複数の特徴要素を含む復号化対象特徴マップのビットストリームを取得することと、ビットストリームに基づいて、各特徴要素に対応する第1の確率推定結果を取得することであって、第1の確率推定結果は、第1のピーク確率を含む、ことと、第1の閾値および各特徴要素に対応する第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素のセットおよび第2の特徴要素のセットを決定することと、第1の特徴要素のセットおよび第2の特徴要素のセットに基づいて、復号化された特徴マップを取得することと、を含む。各特徴要素の復号化方式は、確率推定結果および各特徴要素に対応する第1のピーク確率に基づいて決定される。これは、符号化および復号化の複雑さを低減しながら、符号化および復号化の性能を改善することができる。
【特許請求の範囲】
【請求項1】
特徴マップ復号化方法であって、前記方法は、
復号化対象特徴マップのビットストリームを取得するステップであって、前記復号化対象特徴マップは、複数の特徴要素を含む、ステップと、
前記復号化対象特徴マップの前記ビットストリームに基づいて前記複数の特徴要素の各々に対応する第1の確率推定結果を取得するステップであって、前記第1の確率推定結果は、第1のピーク確率を含む、ステップと、
第1の閾値および各特徴要素に対応する前記第1のピーク確率に基づいて、前記複数の特徴要素から第1の特徴要素セットおよび第2の特徴要素セットを決定するステップと、
前記第1の特徴要素セットおよび前記第2の特徴要素セットに基づいて、復号化された特徴マップを取得するステップと、を含む、方法。
【請求項2】
前記第1の確率推定結果は、ガウス分布であり、前記第1のピーク確率は、前記ガウス分布の平均確率であるか、または、
前記第1の確率推定結果は、混合ガウス分布であり、前記混合ガウス分布は、複数のガウス分布を含み、前記第1のピーク確率は、前記ガウス分布の平均確率における最大値であるか、または、前記第1のピーク確率は、前記混合ガウス分布における前記ガウス分布の平均確率および前記ガウス分布の重みに基づいて計算される、請求項1に記載の方法。
【請求項3】
前記復号化された特徴マップの値は、前記第1の特徴要素セット内の全ての第1の特徴要素の数値と、前記第2の特徴要素セット内の全ての第2の特徴要素の数値と、を含む、請求項1または2に記載の方法。
【請求項4】
前記第1の特徴要素セットは、空集合であるか、または前記第2の特徴要素セットは、空集合である、請求項3に記載の方法。
【請求項5】
前記第1の確率推定結果は、前記第1のピーク確率に対応する特徴値をさらに含み、前記方法は、
前記第1の特徴要素の前記数値を取得するために、前記第1の特徴要素に対応する第1の確率推定結果に基づいて前記第1の特徴要素に対してエントロピー復号化を実施するステップと、
前記第2の特徴要素の第1のピーク確率に対応する特徴値に基づいて、前記第2の特徴要素の前記数値を取得するステップと、をさらに含む、請求項3または4に記載の方法。
【請求項6】
第1の閾値および各特徴要素に対応する前記第1のピーク確率に基づいて、前記複数の特徴要素から第1の特徴要素セットおよび第2の特徴要素セットを決定する前記ステップの前に、前記方法は、
前記復号化対象特徴マップの前記ビットストリームに基づいて前記第1の閾値を取得するステップをさらに含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記第1の特徴要素の第1のピーク確率は、前記第1の閾値以下であり、前記第2の特徴要素の第1のピーク確率は、前記第1の閾値より大きい、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記復号化対象特徴マップの前記ビットストリームに基づいて前記複数の特徴要素の各々に対応する第1の確率推定結果を取得する前記ステップは、
前記復号化対象特徴マップの前記ビットストリームに基づいて前記復号化対象特徴マップに対応するサイド情報を取得するステップと、
前記サイド情報に基づいて各特徴要素に対応する前記第1の確率推定結果を取得するステップと、を含む、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記復号化対象特徴マップの前記ビットストリームに基づいて前記複数の特徴要素の各々に対応する第1の確率推定結果を取得する前記ステップは、
前記復号化対象特徴マップの前記ビットストリームに基づいて前記復号化対象特徴マップに対応するサイド情報を取得するステップと、
前記サイド情報および第1のコンテキスト情報に基づいて前記符号化対象特徴マップ内の各特徴要素について各特徴要素の前記第1の確率推定結果を推定するステップであって、前記第1のコンテキスト情報は、前記特徴要素の特徴要素であり、前記復号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である、ステップと、を含む、請求項1から7のいずれか一項に記載の方法。
【請求項10】
特徴マップ符号化方法であって、前記方法は、
第1の符号化対象特徴マップを取得するステップであって、前記第1の符号化対象特徴マップは、複数の特徴要素を含む、ステップと、
前記第1の符号化対象特徴マップに基づいて、前記複数の特徴要素の各々の第1の確率推定結果を決定するステップであって、前記第1の確率推定結果は、第1のピーク確率を含む、ステップと、
前記第1の符号化対象特徴マップ内の各特徴要素の前記第1のピーク確率に基づいて、前記特徴要素が第1の特徴要素であるかどうかを決定するステップと、
前記特徴要素が前記第1の特徴要素である場合にのみ、前記第1の特徴要素に対してエントロピー符号化を実施するステップと、を含む、方法。
【請求項11】
前記第1の確率推定結果は、ガウス分布であり、前記第1のピーク確率は、前記ガウス分布の平均確率であるか、または、
前記第1の確率推定結果は、混合ガウス分布であり、前記混合ガウス分布は、複数のガウス分布を含み、前記第1のピーク確率は、前記ガウス分布の平均確率における最大値であるか、または、前記第1のピーク確率は、前記混合ガウス分布における前記ガウス分布の平均確率および前記ガウス分布の重みに基づいて計算される、請求項10に記載の方法。
【請求項12】
前記第1の符号化対象特徴マップ内の各特徴要素の前記第1のピーク確率に基づいて、前記特徴要素が第1の特徴要素であるかどうかを決定する前記ステップは、
第1の閾値および前記特徴要素の前記第1のピーク確率に基づいて、前記特徴要素が前記第1の特徴要素であるかどうかを決定するステップを含む、請求項10または11に記載の方法。
【請求項13】
前記方法は、
前記第1の符号化対象特徴マップに基づいて前記複数の特徴要素の各々の第2の確率推定結果を決定するステップであって、前記第2の確率推定結果は、第2のピーク確率を含む、ステップと、
各特徴要素の前記第2の確率推定結果に基づいて前記複数の特徴要素から第3の特徴要素セットを決定するステップと、
前記第3の特徴要素セット内の全ての特徴要素の第2のピーク確率に基づいて前記第1の閾値を決定するステップと、
前記第1の閾値に対してエントロピー符号化を実施するステップと、をさらに含む、請求項12に記載の方法。
【請求項14】
前記第1の閾値は、前記第3の特徴要素セット内の特徴要素に対応する前記第2のピーク確率内の最大の第2のピーク確率である、請求項13に記載の方法。
【請求項15】
前記第1の特徴要素の第1のピーク確率は、前記第1の閾値以下である、請求項14に記載の方法。
【請求項16】
前記第2の確率推定結果は、前記第2のピーク確率に対応する特徴値をさらに含み、各特徴要素の前記第2の確率推定結果に基づいて、前記複数の特徴要素から第3の特徴要素セットを決定する前記ステップは、
事前設定された誤差、各特徴要素の数値、および各特徴要素の前記第2のピーク確率に対応する前記特徴値に基づいて、前記複数の特徴要素から前記第3の特徴要素セットを決定するステップを含む、請求項13から15のいずれか一項に記載の方法。
【請求項17】
前記第3の特徴要素セット内の特徴要素は、
【数1】
の特徴を有し、
【数2】
は、前記特徴要素の数値であり、p(x,y,i)は、前記特徴要素の第2のピーク確率に対応する特徴値であり、TH_2は、前記事前設定された誤差である、請求項16に記載の方法。
【請求項18】
前記第1の確率推定結果は、前記第2の確率推定結果と同じであり、前記第1の符号化対象特徴マップに基づいて前記複数の特徴要素の各々の第1の確率推定結果を決定する前記ステップは、
前記第1の符号化対象特徴マップに基づいて前記第1の符号化対象特徴マップのサイド情報を取得するステップと、
各特徴要素の前記第1の確率推定結果を取得するために、前記サイド情報に対して確率推定を実施するステップと、を含む、請求項13から17のいずれか一項に記載の方法。
【請求項19】
前記第1の確率推定結果は、前記第2の確率推定結果とは異なり、前記第1の符号化対象特徴マップに基づいて前記複数の特徴要素の各々の第2の確率推定結果を決定する前記ステップは、
前記第1の符号化対象特徴マップのサイド情報と、前記第1の符号化対象特徴マップに基づいて各特徴要素の第2のコンテキスト情報と、を取得するステップであって、前記第2のコンテキスト情報は、前記特徴要素の特徴要素であり、前記第1の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である、ステップと、
前記サイド情報および前記第2のコンテキスト情報に基づいて各特徴要素の前記第2の確率推定結果を取得するステップと、を含む、請求項13から17のいずれか一項に記載の方法。
【請求項20】
前記第1の符号化対象特徴マップに基づいて前記複数の特徴要素の各々の第1の確率推定結果を決定する前記ステップは、
前記第1の符号化対象特徴マップに基づいて前記第1の符号化対象特徴マップの前記サイド情報を取得するステップと、
前記第1の符号化対象特徴マップ内の任意の特徴要素について、第1のコンテキスト情報および前記サイド情報に基づいて、前記特徴要素の第1の確率推定結果を決定するステップであって、前記第1の確率推定結果は、前記第1の確率ピークに対応する特徴値をさらに含み、前記第1のコンテキスト情報は、前記特徴要素の特徴要素であり、第2の符号化対象特徴マップ内の事前設定された領域範囲内にあり、前記第2の符号化対象特徴マップの値は、前記第1の特徴要素の数値および前記第2の特徴要素の第1のピーク確率に対応する特徴値を含み、前記第2の特徴要素は、前記第1の符号化対象特徴マップ内の前記第1の特徴要素以外の特徴要素である、ステップと、を含む、請求項19に記載の方法。
【請求項21】
前記方法は、
全ての前記第1の特徴要素のエントロピー符号化結果を符号化ビットストリームに書き込むステップをさらに含む、請求項10から20のいずれか一項に記載の方法。
【請求項22】
特徴マップ復号化装置であって、
取得モジュールであって、復号化対象特徴マップのビットストリームを取得し、前記復号化対象特徴マップは、複数の特徴要素を含み、前記復号化対象特徴マップの前記ビットストリームに基づいて前記複数の特徴要素の各々に対応する第1の確率推定結果を取得し、前記第1の確率推定結果は、第1のピーク確率を含むように構成される、取得モジュールと、
復号化モジュールであって、第1の閾値および各特徴要素に対応する前記第1のピーク確率に基づいて、前記複数の特徴要素から第1の特徴要素セットおよび第2の特徴要素セットを決定し、前記第1の特徴要素セットおよび前記第2の特徴要素セットに基づいて、前記復号化対象特徴マップを取得するように構成される、復号化モジュールと、を備える、特徴マップ復号化装置。
【請求項23】
前記第1の確率推定結果は、ガウス分布であり、前記第1のピーク確率は、前記ガウス分布の平均確率であるか、または、
前記第1の確率推定結果は、混合ガウス分布であり、前記混合ガウス分布は、複数のガウス分布を含み、前記第1のピーク確率は、前記ガウス分布の平均確率における最大値であるか、または、前記第1のピーク確率は、前記混合ガウス分布における前記ガウス分布の平均確率および前記ガウス分布の重みに基づいて計算される、請求項22に記載の装置。
【請求項24】
前記復号化対象特徴マップの値は、前記第1の特徴要素セット内の全ての第1の特徴要素の数値と、前記第2の特徴要素セット内の全ての第2の特徴要素の数値と、を含む、請求項22または23に記載の装置。
【請求項25】
前記第1の特徴要素セットは、空集合であるか、または前記第2の特徴要素セットは、空集合である、請求項24に記載の装置。
【請求項26】
前記第1の確率推定結果は、前記第1のピーク確率に対応する特徴値をさらに含み、前記復号化モジュールは、
前記第1の特徴要素の前記数値を取得するために、前記第1の特徴要素に対応する第1の確率推定結果に基づいて前記第1の特徴要素に対してエントロピー復号化を実施し、
前記第2の特徴要素の第1のピーク確率に対応する特徴値に基づいて、前記第2の特徴要素の前記数値を取得するようにさらに構成される、請求項24または25に記載の装置。
【請求項27】
第1の閾値および各特徴要素に対応する前記第1のピーク確率に基づいて、前記複数の特徴要素から第1の特徴要素セットおよび第2の特徴要素セットを決定することの前に、前記復号化モジュールは、
前記復号化対象特徴マップの前記ビットストリームに基づいて前記第1の閾値を取得するようにさらに構成される、請求項22から26のいずれか一項に記載の装置。
【請求項28】
前記第1の特徴要素の第1のピーク確率は、前記第1の閾値以下であり、前記第2の特徴要素の第1のピーク確率は、前記第1の閾値より大きい、請求項22から27のいずれか一項に記載の装置。
【請求項29】
前記復号化対象特徴マップの前記ビットストリームに基づいて前記複数の特徴要素の各々に対応する第1の確率推定結果を取得することは、
前記復号化対象特徴マップの前記ビットストリームに基づいて前記復号化対象特徴マップに対応するサイド情報を取得することと、
前記サイド情報に基づいて各特徴要素に対応する前記第1の確率推定結果を取得することと、を含む、請求項22から28のいずれか一項に記載の装置。
【請求項30】
前記復号化対象特徴マップの前記ビットストリームに基づいて前記複数の特徴要素の各々に対応する第1の確率推定結果を取得することは、
前記復号化対象特徴マップの前記ビットストリームに基づいて前記復号化対象特徴マップに対応するサイド情報を取得することと、
前記サイド情報および第1のコンテキスト情報に基づいて前記符号化対象特徴マップ内の各特徴要素について各特徴要素の前記第1の確率推定結果を推定することであって、前記第1のコンテキスト情報は、前記特徴要素の特徴要素であり、前記復号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である、ことと、を含む、請求項22から28のいずれか一項に記載の装置。
【請求項31】
特徴マップ符号化装置であって、
第1の符号化対象特徴マップを取得し、前記第1の符号化対象特徴マップは、複数の特徴要素を含むように構成される、取得モジュールと、
符号化モジュールであって、前記第1の符号化対象特徴マップに基づいて、前記複数の特徴要素の各々の第1の確率推定結果を決定し、前記第1の確率推定結果は、第1のピーク確率を含み、前記第1の符号化対象特徴マップ内の各特徴要素の前記第1のピーク確率に基づいて、前記特徴要素が第1の特徴要素であるかどうかを決定し、前記特徴要素が前記第1の特徴要素である場合にのみ、前記第1の特徴要素に対してエントロピー符号化を実施するように構成される、符号化モジュールと、を備える、特徴マップ符号化装置。
【請求項32】
前記第1の確率推定結果は、ガウス分布であり、前記第1のピーク確率は、前記ガウス分布の平均確率であるか、または、
前記第1の確率推定結果は、混合ガウス分布であり、前記混合ガウス分布は、複数のガウス分布を含み、前記第1のピーク確率は、前記ガウス分布の平均確率における最大値であるか、または、前記第1のピーク確率は、前記混合ガウス分布における前記ガウス分布の平均確率および前記ガウス分布の重みに基づいて計算される、請求項31に記載の装置。
【請求項33】
前記第1の符号化対象特徴マップ内の各特徴要素の前記第1のピーク確率に基づいて、前記特徴要素が第1の特徴要素であるかどうかを決定することは、
第1の閾値および前記特徴要素の前記第1のピーク確率に基づいて、前記特徴要素が前記第1の特徴要素であるかどうかを決定することを含む、請求項31または32に記載の装置。
【請求項34】
前記装置は、
前記第1の符号化対象特徴マップに基づいて前記複数の特徴要素の各々の第2の確率推定結果を決定することであって、前記第2の確率推定結果は、第2のピーク確率を含む、ことと、
各特徴要素の前記第2の確率推定結果に基づいて前記複数の特徴要素から第3の特徴要素セットを決定することと、
前記第3の特徴要素セット内の全ての特徴要素の第2のピーク確率に基づいて前記第1の閾値を決定することと、
前記第1の閾値に対してエントロピー符号化を実施することと、をさらに含む、請求項33に記載の装置。
【請求項35】
前記第1の閾値は、前記第3の特徴要素セット内の前記特徴要素に対応する前記第2のピーク確率内の最大の第2のピーク確率である、請求項34に記載の装置。
【請求項36】
前記第1の特徴要素の第1のピーク確率は、前記第1の閾値以下である、請求項35に記載の装置。
【請求項37】
前記第2の確率推定結果は、前記第2のピーク確率に対応する特徴値をさらに含み、各特徴要素の前記第2の確率推定結果に基づいて、前記複数の特徴要素から第3の特徴要素セットを決定することは、
事前設定された誤差、各特徴要素の数値、および各特徴要素の前記第2のピーク確率に対応する前記特徴値に基づいて、前記複数の特徴要素から前記第3の特徴要素セットを決定することを含む、請求項34から36のいずれか一項に記載の装置。
【請求項38】
前記第3の特徴要素セット内の特徴要素は、
【数3】
の特徴を有し、
【数4】
は、前記特徴要素の数値であり、p(x,y,i)は、前記特徴要素の第2のピーク確率に対応する特徴値であり、TH_2は、前記事前設定された誤差である、請求項37に記載の装置。
【請求項39】
前記第1の確率推定結果は、前記第2の確率推定結果と同じであり、前記第1の符号化対象特徴マップに基づいて前記複数の特徴要素の各々の第1の確率推定結果を決定することは、
前記第1の符号化対象特徴マップに基づいて前記第1の符号化対象特徴マップのサイド情報を取得することと、
各特徴要素の前記第1の確率推定結果を取得するために、前記サイド情報に対して確率推定を実施することと、を含む、請求項34から38のいずれか一項に記載の装置。
【請求項40】
前記第1の確率推定結果は、前記第2の確率推定結果とは異なり、前記第1の符号化対象特徴マップに基づいて前記複数の特徴要素の各々の第2の確率推定結果を決定することは、
前記第1の符号化対象特徴マップのサイド情報と、前記第1の符号化対象特徴マップに基づいて各特徴要素の第2のコンテキスト情報と、を取得することであって、前記第2のコンテキスト情報は、前記特徴要素の特徴要素であり、前記第1の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である、ことと、
前記サイド情報および前記第2のコンテキスト情報に基づいて各特徴要素の前記第2の確率推定結果を取得することと、を含む、請求項34から38のいずれか一項に記載の装置。
【請求項41】
前記第1の符号化対象特徴マップに基づいて前記複数の特徴要素の各々の第1の確率推定結果を決定することは、
前記第1の符号化対象特徴マップに基づいて前記第1の符号化対象特徴マップの前記サイド情報を取得することと、
前記第1の符号化対象特徴マップ内の任意の特徴要素について、第1のコンテキスト情報および前記サイド情報に基づいて、前記特徴要素の第1の確率推定結果を決定することであって、前記第1の確率推定結果は、前記第1の確率ピークに対応する特徴値をさらに含み、前記第1のコンテキスト情報は、前記特徴要素の特徴要素であり、第2の符号化対象特徴マップ内の事前設定された領域範囲内にあり、前記第2の符号化対象特徴マップの値は、前記第1の特徴要素の数値および前記第2の特徴要素の第1のピーク確率に対応する特徴値を含み、前記第2の特徴要素は、前記第1の符号化対象特徴マップ内の前記第1の特徴要素以外の特徴要素である、ことと、を含む、請求項40に記載の装置。
【請求項42】
前記装置は、
全ての前記第1の特徴要素のエントロピー符号化結果を符号化ビットストリームに書き込むことをさらに含む、請求項31から41のいずれか一項に記載の装置。
【請求項43】
請求項1から9のいずれか一項に記載の方法を実施するように構成された処理回路を備える、デコーダ。
【請求項44】
請求項10から21のいずれか一項に記載の方法を実施するように構成された処理回路を備える、エンコーダ。
【請求項45】
プログラムコードを含むコンピュータプログラム製品であって、前記プログラムコードがコンピュータまたはプロセッサによって決定されると、請求項1から9のいずれか一項に記載の方法、または請求項10から21のいずれか一項に記載の方法が決定される、コンピュータプログラム製品。
【請求項46】
請求項21に記載の符号化方法によって取得されたビットストリームを含む、非一時的コンピュータ可読記憶媒体。
【請求項47】
デコーダであって、
1つ以上のプロセッサと、
前記プロセッサに結合され、前記プロセッサによって決定されたプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記プロセッサによって決定されると、前記プログラムは、請求項1から9のいずれか一項に記載の方法を実施するように前記デコーダを構成する、非一時的コンピュータ可読記憶媒体と、を備える、デコーダ。
【請求項48】
エンコーダであって、
1つ以上のプロセッサと、
前記プロセッサに結合され、前記プロセッサによって決定されたプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記プロセッサによって決定されると、前記プログラムは、請求項10から21のいずれか一項に記載の方法を実施するように前記エンコーダを構成する、非一時的コンピュータ可読記憶媒体と、を備える、エンコーダ。
【請求項49】
請求項1から9のいずれか一項に記載の方法を実施するように構成された、または請求項10から21のいずれか一項に記載の方法を実施するように構成された処理回路を備える、データプロセッサ。
【請求項50】
プログラムコードを含む非一時的コンピュータ可読記憶媒体であって、前記プログラムコードがコンピュータデバイスによって決定されると、請求項1から9のいずれか一項に記載の方法、または請求項10から21のいずれか一項に記載の方法が実施される、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年9月18日に中国国家知識産権局に出願された「FEATURE MAP ENCODING AND DECODING METHOD AND APPARATUS」という名称の中国特許出願第202111101920.9号の優先権を主張し、その全体が参照により本明細書に組み込まれる。本出願は、2022年3月25日に中国国家知識産権局に出願された「FEATURE MAP ENCODING AND DECODING METHOD AND APPARATUS」と題する中国特許出願第202210300566.0号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
【0002】
本出願の実施形態は、人工知能(AI)ベースのオーディオ/ビデオまたは画像圧縮技術の分野に関し、詳細には、特徴マップ符号化および復号化方法および装置に関する。
【背景技術】
【0003】
画像圧縮は、画像情報の効果的な伝送および記憶を実装するために、空間冗長性、視覚的冗長性、および統計的冗長性などの画像データ特徴を使用して、元の画像ピクセル行列をより少ないビットで非可逆または可逆方式で表す技術である。画像圧縮は、可逆圧縮と非可逆圧縮に分類される。可逆圧縮は、画像細部の損失を全く引き起こさないが、非可逆圧縮は、特定の程度まで画質を低減することを犠牲にして大きな圧縮比を達成している。非可逆画像圧縮アルゴリズムでは、通常、画像データの冗長情報を除去するために多くの技術が使用されている。例えば、量子化技術は、画像内の隣接するピクセル間の相関によって引き起こされる空間的冗長性、および人間の視覚系の知覚によって決定される視覚的冗長性を除去するために使用されている。画像データの統計的冗長性を除去するために、エントロピーコーディングおよび変換技術が使用されている。従来の非可逆画像圧縮技術に関する当業者による数十年の研究および最適化の後、JPEGおよびBPGなどの成熟した非可逆画像圧縮規格が形成されている。
【0004】
しかしながら、画像圧縮技術が圧縮効率を改善し、画像圧縮品質を保証することができない場合、画像圧縮技術は、現代のマルチメディアアプリケーションデータの増加する要件を満たすことができない。
【発明の概要】
【課題を解決するための手段】
【0005】
本出願は、符号化および復号化の複雑さを低減し、符号化および復号化の性能を改善するための特徴マップ符号化および復号化方法および装置を提供する。
【0006】
第1の態様によれば、本出願は、特徴マップ復号化方法を提供する。本方法は、複数の特徴要素を含む復号化対象特徴マップのビットストリームを取得することと、復号化対象特徴マップのビットストリームに基づいて、複数の特徴要素の各々に対応する第1の確率推定結果を取得することであって、第1の確率推定結果は、第1のピーク確率を含む、ことと、第1の閾値および各特徴要素に対応する第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素セットおよび第2の特徴要素セットを決定することと、第1の特徴要素セットおよび第2の特徴要素セットに基づいて、復号化された特徴マップを取得することと、を含む。
【0007】
第1の閾値および各特徴要素の数値が固定値である対応する確率に基づいて複数の特徴要素から第1の特徴要素および第2の特徴要素を決定するための方法と比較して、本出願では、第1の閾値および各特徴要素に対応するピーク確率に基づいて第1の特徴要素および第2の特徴要素を決定するための方法はより正確であり、それによって、取得された復号化された特徴マップの精度を改善し、データ復号化性能を改善する。
【0008】
可能な実装形態では、第1の確率推定結果はガウス分布であり、第1のピーク確率はガウス分布の平均確率である。
【0009】
代替的に、第1の確率推定結果は混合ガウス分布である。混合ガウス分布は、複数のガウス分布を含む。第1のピーク確率は、ガウス分布の平均確率における最大値であるか、または第1のピーク確率は、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算される。
【0010】
可能な実装形態では、復号化された特徴マップの値は、第1の特徴要素セット内の全ての第1の特徴要素の数値と、第2の特徴要素セット内の全ての第2の特徴要素の数値と、を含む。
【0011】
可能な実装形態では、第1の特徴要素セットは、空集合であるか、または第2の特徴要素セットは、空集合である。
【0012】
可能な実装形態では、第1の確率推定結果は、第1のピーク確率に対応する特徴値をさらに含む。さらに、第1の特徴要素の数値を取得するために、第1の特徴要素に対応する第1の確率推定結果に基づいて、第1の特徴要素に対してエントロピー復号化が実施されてもよい。第2の特徴要素の数値は、第2の特徴要素の第1のピーク確率に対応する特徴値に基づいて取得される。この可能な実装形態では、コーディングされていない特徴要素(すなわち、第2の特徴要素)の値に固定値を割り当てることと比較して、本出願では、第2の特徴要素の第1のピーク確率に対応する特徴値が、コーディングされていない特徴要素(すなわち、第2の特徴要素)の値に割り当てられ、それによって、復号化されたデータマップの値における第2の特徴要素の数値の精度を改善し、データ復号化性能を改善する。
【0013】
可能な実装形態では、第1の閾値および各特徴要素に対応する第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素セットおよび第2の特徴要素セットを決定することの前に、第1の閾値は、復号化対象特徴マップのビットストリームに基づいてさらに取得され得る。この可能な実装形態では、第1の閾値が経験的なプリセット値である方法と比較して、復号化対象特徴マップは、復号化対象特徴マップの第1の閾値に対応し、第1の閾値の変更可能性および柔軟性が増加され、それによって、コーディングされていない特徴要素(すなわち、第2の特徴要素)の置換値と真の値との間の差を低減し、復号化された特徴マップの精度を改善する。
【0014】
可能な実装形態では、第1の特徴要素の第1のピーク確率は第1の閾値以下であり、第2の特徴要素の第1のピーク確率は第1の閾値よりも大きい。
【0015】
可能な実装形態では、第1の確率推定結果はガウス分布である。第1の確率推定結果は、第1の確率分散値をさらに含む。この場合、第1の特徴要素の第1の確率分散値は、第1の閾値以上であり、第2の特徴要素の第1の確率分散値は、第1の閾値未満である。この可能な実装形態では、確率推定結果がガウス分布であるとき、確率分散値に基づいて第1の特徴要素および第2の特徴要素を決定する時間計算量は、ピーク確率に基づいて第1の特徴要素および第2の特徴要素を決定する方式の時間計算量よりも低く、それによって、データ復号化速度を改善する。
【0016】
可能な実装形態では、復号化対象特徴マップに対応するサイド情報は、復号化対象特徴マップのビットストリームに基づいて取得される。各特徴要素に対応する第1の確率推定結果は、サイド情報に基づいて取得される。
【0017】
可能な実装形態では、復号化対象特徴マップに対応するサイド情報は、復号化対象特徴マップのビットストリームに基づいて取得される。各特徴要素の第1の確率推定結果は、サイド情報および第1のコンテキスト情報に基づいて、符号化対象特徴マップ内の各特徴要素について推定される。第1のコンテキスト情報は、その特徴要素の特徴要素であり、復号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である。この可能な実装形態では、各特徴要素の確率推定結果は、サイド情報およびコンテキスト情報に基づいて取得され、それによって、確率推定結果の精度を改善し、符号化および復号化性能を改善する。
【0018】
第2の態様によれば、本出願は、特徴マップ符号化方法を提供する。本方法は、第1の符号化対象特徴マップを取得することであって、第1の符号化対象特徴マップは、複数の特徴要素を含む、ことと、第1の符号化対象特徴マップに基づいて複数の特徴要素の各々の第1の確率推定結果を決定することであって、第1の確率推定結果は、第1のピーク確率を含む、ことと、第1の符号化対象特徴マップ内の各特徴要素の第1のピーク確率に基づいて、特徴要素が第1の特徴要素であるかどうかを決定することと、特徴要素が第1の特徴要素である場合にのみ、第1の特徴要素に対してエントロピー符号化を実施することと、を含む。
【0019】
第2の態様における方法によれば、符号化対象特徴マップ内の各特徴要素に対してエントロピー符号化が実施される必要があるかどうかが決定され、それによって、符号化対象特徴マップ内の一部の特徴要素の符号化プロセスをスキップし、エントロピー符号化を実施するための要素の量を大幅に低減し、エントロピー符号化の複雑さを低減する。加えて、各特徴要素に対応する確率推定結果内の固定値に対応する確率に基づいて、特徴要素が符号化される必要があるかどうかを決定することと比較して、各特徴要素の確率ピークに基づいて、決定結果(特徴要素に対してエントロピー符号化が実施される必要があるかどうか)の信頼性が改善され、より多くの特徴要素の符号化プロセスがスキップされ、それによって、符号化速度をさらに改善し、符号化性能を改善する。
【0020】
可能な実装形態では、第1の確率推定結果はガウス分布であり、第1のピーク確率はガウス分布の平均確率である。
【0021】
代替的に、第1の確率推定結果は混合ガウス分布である。混合ガウス分布は、複数のガウス分布を含む。第1のピーク確率は、ガウス分布の平均確率における最大値であるか、または第1のピーク確率は、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算される。
【0022】
可能な実装形態では、第1の符号化対象特徴マップ内の各特徴要素について、特徴要素が第1の特徴要素であるかどうかが、特徴要素の第1の閾値および第1のピーク確率に基づいて決定される。
【0023】
可能な実装形態では、複数の特徴要素の各々の第2の確率推定結果が、第1の符号化対象特徴マップに基づいて決定され、第2の確率推定結果は、第2のピーク確率を含む。各特徴要素の第2の確率推定結果に基づいて、複数の特徴要素から第3の特徴要素セットが決定される。第1の閾値は、第3の特徴要素セット内の全ての特徴要素の第2のピーク確率に基づいて決定される。第1の閾値に対してエントロピー符号化が実施される。この可能な実装形態では、符号化対象特徴マップの第1の閾値は、符号化対象特徴マップの特徴要素に基づいて符号化対象特徴マップについて決定されてもよく、その結果、第1の閾値は、符号化対象特徴マップに対してより良好な適合性を有し、それにより、第1の閾値および特徴要素の第1のピーク確率に基づいて決定される決定結果(すなわち、特徴要素に対してエントロピー符号化が実施される必要があるかどうか)の信頼性を改善する。
【0024】
可能な実装形態では、第1の閾値は、第3の特徴要素セット内の特徴要素に対応する第2のピーク確率のうちの最大の第2のピーク確率である。
【0025】
可能な実装形態では、第1の特徴要素の第1のピーク確率は第1の閾値以下である。
【0026】
可能な実装形態では、第2の確率推定結果はガウス分布であり、第2の確率推定結果は第2の確率分散値をさらに含む。第1の閾値は、第3の特徴要素セット内の特徴要素に対応する第2の確率分散値のうちの最小の第2の確率分散値である。この場合、第1の確率推定結果はガウス分布であり、第1の確率推定結果は第1の確率分散値をさらに含む。第1の特徴要素の第1の確率分散値は、第1の閾値以上である。この可能な実装形態では、確率推定結果がガウス分布であるとき、確率分散値に基づいて第1の特徴要素を決定する時間計算量は、ピーク確率に基づいて第1の特徴要素を決定する時間計算量よりも低く、それによって、データ符号化速度を改善する。
【0027】
可能な実装形態では、第2の確率推定結果は、第2のピーク確率に対応する特徴値をさらに含む。さらに、第3の特徴要素セットは、事前設定された誤差、各特徴要素の数値、および各特徴要素の第2のピーク確率に対応する特徴値に基づいて、複数の特徴要素から決定される。
【0028】
可能な実装形態では、第3の特徴要素セット内の特徴要素は、
【数1】
の特徴を有する。
【数2】
は、特徴要素の数値である。p(x,y,i)は、特徴要素の第2のピーク確率に対応する特徴値である。TH_2は、事前設定された誤差である。
【0029】
可能な実装形態では、第1の確率推定結果は第2の確率推定結果と同じである。この場合、第1の符号化対象特徴マップのサイド情報は、第1の符号化対象特徴マップに基づいて取得される。各特徴要素の第1の確率推定結果を取得するために、サイド情報に対して確率推定が実施される。
【0030】
可能な実装形態では、第1の確率推定結果は第2の確率推定結果とは異なる。この場合、第1の符号化対象特徴マップのサイド情報および各特徴要素の第2のコンテキスト情報が、第1の符号化対象特徴マップに基づいて取得される。第2のコンテキスト情報は、その特徴要素の特徴要素であり、第1の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である。各特徴要素の第2の確率推定結果は、サイド情報および第2のコンテキスト情報に基づいて取得される。
【0031】
可能な実装形態では、第1の符号化対象特徴マップのサイド情報は、第1の符号化対象特徴マップに基づいて取得される。第1の符号化対象特徴マップ内の任意の特徴要素について、特徴要素の第1の確率推定結果が、第1のコンテキスト情報およびサイド情報に基づいて決定される。第1の確率推定結果は、第1の確率ピークに対応する特徴値をさらに含む。第1のコンテキスト情報は、その特徴要素の特徴要素であり、第2の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である。第2の符号化対象特徴マップの値は、第1の特徴要素の数値と、第2の特徴要素の第1のピーク確率に対応する特徴値と、を含む。第2の特徴要素は、第1の符号化対象特徴マップ内の第1の特徴要素以外の特徴要素である。このようにして、各特徴要素の確率推定結果は、サイド情報およびコンテキスト情報を参照して取得され、それによって、各特徴要素の確率推定結果がサイド情報のみに基づいて取得される方式と比較して、各特徴要素の確率推定結果の精度を改善する。
【0032】
可能な実装形態では、全ての第1の特徴要素のエントロピー符号化結果が符号化ビットストリームに書き込まれる。
【0033】
第3の態様によれば、本出願は、
取得モジュールであって、復号化対象特徴マップのビットストリームを取得し、復号化対象特徴マップは、複数の特徴要素を含み、復号化対象特徴マップのビットストリームに基づいて複数の特徴要素の各々に対応する第1の確率推定結果を取得し、第1の確率推定結果は、第1のピーク確率を含むように構成される、取得モジュールと、
復号化モジュールであって、第1の閾値および各特徴要素に対応する第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素セットおよび第2の特徴要素セットを決定し、第1の特徴要素セットおよび第2の特徴要素セットに基づいて、復号化された特徴マップを取得するように構成される、復号化モジュールと、を含む、特徴マップ復号化装置を提供する。
【0034】
取得モジュールおよび復号化モジュールのさらなる実装機能については、第1の態様または第1の態様の実装形態のいずれか1つを参照されたい。詳細は本明細書では再び説明されない。
【0035】
第4の態様によれば、本出願は、
第1の符号化対象特徴マップを取得し、第1の符号化対象特徴マップは、複数の特徴要素を含むように構成される、取得モジュールと、
符号化モジュールであって、第1の符号化対象特徴マップに基づいて、複数の特徴要素の各々の第1の確率推定結果を決定し、第1の確率推定結果は、第1のピーク確率を含み、第1の符号化対象特徴マップ内の各特徴要素の第1のピーク確率に基づいて、特徴要素が第1の特徴要素であるかどうかを決定し、特徴要素が第1の特徴要素である場合にのみ、第1の特徴要素に対してエントロピー符号化を実施するように構成される、符号化モジュールと、を含む、特徴マップ符号化装置を提供する。
【0036】
取得モジュールおよび符号化モジュールのさらなる実装機能については、第2の態様または第2の態様の実装形態のいずれか1つを参照されたい。詳細は本明細書では再び説明されない。
【0037】
第5の態様によれば、本出願は、デコーダを提供する。デコーダは、処理回路を含み、第1の態様および第1の態様の実装形態のいずれか1つによる方法を決定するように構成される。
【0038】
第6の態様によれば、本出願は、エンコーダを提供する。エンコーダは、処理回路を含み、第2の態様および第2の態様の実装形態のいずれか1つによる方法を決定するように構成される。
【0039】
第7の態様によれば、本出願は、プログラムコードを含むコンピュータプログラム製品を提供する。プログラムコードがコンピュータまたはプロセッサによって決定されるとき、第1の態様および第1の態様の実装形態のいずれか1つによる方法、または第2の態様および第2の態様の実装形態のいずれか1つによる方法が決定される。
【0040】
第8の態様によれば、本出願は、1つ以上のプロセッサと、プロセッサに結合され、プロセッサによって決定されたプログラムを記憶する非一時的コンピュータ可読記憶媒体とを含む、デコーダを提供する。プロセッサによって決定されるとき、プログラムは、デコーダが、第1の態様および第1の態様の実装形態のいずれか1つによる方法を決定することを可能にする。
【0041】
第9の態様によれば、本出願は、1つ以上のプロセッサと、プロセッサに結合され、プロセッサによって決定されたプログラムを記憶する非一時的コンピュータ可読記憶媒体とを含むエンコーダを提供する。プロセッサによって決定されると、プログラムは、エンコーダが、第2の態様および第2の態様の実装形態のいずれか1つによる方法を決定することを可能にする。
【0042】
第10の態様によれば、本出願は、プログラムコードを含む非一時的コンピュータ可読記憶媒体を提供する。プログラムコードがコンピュータデバイスによって決定されるとき、第1の態様および第1の態様の実装形態のいずれか1つによる方法、または第2の態様および第2の態様の実装形態のいずれか1つによる方法が決定される。
【0043】
第11の態様によれば、本発明は、復号化装置に関する。復号化装置は、第1の態様または第1の態様の方法の実施形態のいずれか1つによる挙動を実装する機能を有する。機能は、ハードウェアによって実装されてもよく、または対応するソフトウェアを決定するハードウェアによって実装されてもよい。ハードウェアまたはソフトウェアは、前述の機能に対応する1つ以上のモジュールを含む。
【0044】
第12の態様によれば、本発明は、符号化装置に関する。符号化装置は、第2の態様または第2の態様の方法の実施形態のいずれか1つによる挙動を実装する機能を有する。機能は、ハードウェアによって実装されてもよく、または対応するソフトウェアを決定するハードウェアによって実装されてもよい。ハードウェアまたはソフトウェアは、前述の機能に対応する1つ以上のモジュールを含む。
【図面の簡単な説明】
【0045】
【
図1】本出願の一実施形態によるデータ復号化システムのアーキテクチャの概略図である。
【
図2a】本出願の一実施形態による確率推定モジュール103の出力結果の概略図である。
【
図2b】本出願の一実施形態による確率推定結果の概略図である。
【
図3】本出願の一実施形態による特徴マップ符号化方法の概略フローチャートである。
【
図4a】本出願の一実施形態による確率推定モジュール103の入出力結果の概略図である。
【
図4b】本出願の一実施形態による確率推定ネットワークの構造の概略図である。
【
図4c】本出願の一実施形態による第1の閾値決定方法の概略フローチャートである。
【
図5】本出願の一実施形態による特徴マップ復号化方法の概略フローチャートである。
【
図6a】本出願の一実施形態による別の特徴マップ符号化方法の概略フローチャートである。
【
図6b】本出願の一実施形態による別の確率推定モジュール103の入出力結果の概略図である。
【
図7a】本出願の一実施形態による別の特徴マップ復号化方法の概略フローチャートである。
【
図7b】本出願の一実施形態による圧縮性能比較試験の実験結果の概略図である。
【
図7c】本出願の一実施形態による別の圧縮性能比較試験の実験結果の概略図である。
【
図8】本出願の一実施形態による特徴マップ符号化装置の構造の概略図である。
【
図9】本出願の一実施形態による特徴マップ復号化装置の構造の概略図である。
【
図10】本出願の一実施形態によるコンピュータデバイスの構造の概略図である。
【発明を実施するための形態】
【0046】
以下では、添付の図面を参照して、本出願の実施形態における技術的解決策を明確かつ完全に説明する。説明される実施形態は、本出願の一部の実施形態にすぎず、全ての実施形態ではないことは明らかである。
【0047】
本出願の明細書および添付の図面では、「第1」、「第2」などの用語は、異なるオブジェクトを区別すること、または同じオブジェクトの異なる処理を区別することが意図されるが、オブジェクトの特定の順序を説明するために使用されないことに留意されたい。加えて、本出願の説明における「含む(including)」、「有する(having)」という用語、またはそれらの任意の他の変形は、非排他的な包含をカバーすることが意図される。例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品、またはデバイスは、列挙されたステップまたはユニットに限定されず、他の列挙されていないステップまたはユニットを任意選択で含むか、あるいはプロセス、方法、製品、またはデバイスの他の固有のステップまたはユニットを任意選択で含む。本出願の実施形態では、「例(an example)」、「例えば(for example)」などの単語は、例、例示、または説明を与えることを表すために使用されることに留意されたい。本出願の実施形態において「例」または「例えば」として説明される任意の実施形態または設計方式は、別の実施形態または設計方式よりも好ましい、またはより多くの利点を有するものとして説明されるべきではない。具体的には、「例(example)」および「例えば(for example)」という単語の使用は、関連する概念を特定の方法で提示することが意図されている。本出願の実施形態では、「Aおよび/またはB」は、AおよびB、ならびにAまたはBという2つの意味を表す。A、および/またはB、および/またはCは、A、B、およびCのうちのいずれか1つを表すか、またはA、B、およびCのうちのいずれか2つを表すか、またはA、B、およびCを表す。以下では、添付の図面を参照して、本出願の技術的解決策を説明する。
【0048】
本出願の実施形態において提供される特徴マップ復号化方法および特徴マップ符号化方法は、データコーディング分野(オーディオコーディング分野、ビデオコーディング分野、および画像コーディング分野を含む)において使用され得る。具体的には、特徴マップ復号化方法および特徴マップ符号化方法は、アルバム管理、人間とコンピュータとの対話、オーディオ圧縮または伝送、ビデオ圧縮または伝送、画像圧縮または伝送、およびデータ圧縮または伝送のシナリオにおいて使用され得る。理解を容易にするために、本出願の実施形態は、特徴マップ復号化方法および特徴マップ符号化方法が画像コーディング分野において使用される例を使用することによって説明されているにすぎず、これは、本出願において提供される方法に対する限定と見なされることはできないことに留意されたい。
【0049】
具体的には、特徴マップ符号化方法および特徴マップ復号化方法がエンドツーエンド画像特徴マップ符号化および復号化システムにおいて使用される例が使用される。エンドツーエンド画像特徴マップ符号化および復号化システムは、画像符号化および画像復号化の2つの部分を含む。画像符号化は、ソース側において決定され、通常、(より効率的な記憶および/または伝送のために)ビデオ画像を表すために必要とされるデータの量を低減するために元のビデオ画像を(例えば、圧縮することによって)処理することを含む。画像復号化は、宛先側で決定され、通常、画像を再構成するためのエンコーダに対する逆処理を含む。エンドツーエンド画像特徴マップ符号化および復号化システムでは、本出願で提供される特徴マップ復号化方法および特徴マップ符号化方法に従って、符号化対象特徴マップ内の各特徴要素に対してエントロピー符号化が実施される必要があるかどうかが決定され得、それによって、一部の特徴要素の符号化プロセスをスキップし、エントロピー符号化を実施するための要素の量を低減し、エントロピー符号化の複雑さを低減する。加えて、各特徴要素の確率ピークに基づいて、決定結果(特徴要素に対してエントロピー符号化が実施される必要があるかどうか)の信頼性が改善され、それにより、画像圧縮性能を改善する。
【0050】
本出願の実施形態は、ニューラルネットワークの大規模なアプリケーションに関する。したがって、理解を容易にするために、以下では、本出願の実施形態におけるニューラルネットワークに関連する用語および概念について、まず説明する。
【0051】
1.エントロピーコーディング
エントロピーコーディングは、エントロピー原理に従って情報が失われないコーディングプロセスである。エントロピーコーディングは、量子化係数または別のシンタックス要素におけるエントロピーコーディングアルゴリズムまたはソリューションを使用して、コーディングされたビットストリームなどの形態で出力端によって出力され得るコーディングされたデータを取得し、その結果、デコーダなどは、復号化のために使用されるパラメータを受信し、使用することができる。コーディングされたビットストリームは、デコーダに伝送され得るか、またはデコーダによる後の伝送または取出しのためにメモリに記憶され得る。エントロピーコーディングアルゴリズムまたはソリューションは、可変長コーディング(variable length coding、VLC)ソリューション、コンテキスト適応型VLCソリューション(context adaptive VLC、CALVC)、算術コーディング方式、バイナリ化アルゴリズム、コンテキスト適応型バイナリ算術コーディング(context adaptive binary arithmetic coding、CABAC)、シンタックスベースコンテキスト適応型バイナリ算術コーディング(syntax-based context-adaptive binary arithmetic coding、SBAC)、確率間隔分割エントロピー(probability interval partitioning entropy、PIPE)コーディング、または別のエントロピーコーディング方法もしくは技術を含むが、これらに限定されない。
【0052】
2.ニューラルネットワーク
ニューラルネットワークは、ニューロンを含み得る。ニューロンは、x
sおよび1の切片を入力として使用する演算単位であり得る。演算単位の出力は、式(1)のように示されることができる:
【数3】
【0053】
s=1、2、・・・、またはnであり、nは1より大きい自然数であり、Wsはxsの重みであり、bはニューロンのバイアスである。fは、ニューラルネットワークに非線形特徴を導入して、ニューロンにおける入力信号を出力信号に変換するために使用されるニューロンの活性化関数(activation functions)である。活性化関数から出力された信号は、次の畳み込み層の入力として機能し得る。活性化関数はシグモイド関数であってもよい。ニューラルネットワークは、多数の単一のニューロンを互いに接続することによって形成されるネットワークである。具体的には、ニューロンの出力は、別のニューロンの入力であり得る。各ニューロンの入力は、ローカル受容野の特徴を抽出するために前のレイヤのローカル受容野に接続され得る。ローカル受容野は、複数のニューロンを含む領域であってもよい。
【0054】
3.深層ニューラルネットワーク(deep neural network、DNN)
DNNは、多層ニューラルネットワークとも称され、複数の隠れ層を有するニューラルネットワークとして理解されることができる。DNNは、異なる層の位置に基づいて分割され、その結果、DNN内のニューラルネットワークは、入力層、隠れ層、および出力層の3つのタイプに分類され得る。概して、第1の層は入力層であり、最後の層は出力層であり、中間層は隠れ層である。層は全結合されている。具体的には、i番目の層の任意のニューロンは、i+1番目の層の任意のニューロンに必ず接続される。
【0055】
DNNは複雑に見えるが、各層の作業は複雑ではない。簡単に言えば、DNNは、
【数4】
の線形関係式で表される。xは入力ベクトル、yは出力ベクトル、bはバイアスベクトル、Wは重み行列(係数とも称される)、α()は活性化関数である。各層では、かかる簡単な演算を入力ベクトルxに対して実施することにより、出力ベクトルyが取得される。大量のDNNレイヤに起因して、係数Wおよびバイアスベクトルbの量も大きい。これらのパラメータは、DNNにおいて以下のように定義される:係数Wは、一例として使用される。3層のDNNにおいて、第2の層の第4のニューロンから第3の層の第2のニューロンへの線形係数が、
【数5】
と定義されると仮定される。上付き文字3は、係数Wが位置される層を表し、下付き文字は、出力第3の層インデックス2および入力第2の層インデックス4に対応する。
【0056】
結論として、第(L-1)層のk番目のニューロンから第L層のj番目のニューロンへの係数が
【数6】
と定義される。
【0057】
入力層はパラメータWを有さないことに留意されたい。深層ニューラルネットワークでは、より多くの隠れ層が、ネットワークが現実世界において複雑なケースを説明することをより可能にする。理論的には、より多くのパラメータを有するモデルは、より高い複雑性およびより大きい「容量」を有する。これは、モデルがより複雑な学習タスクを完了できることを示す。深層ニューラルネットワークを訓練する過程は、重み行列を学習する過程であり、訓練の最終目的は、訓練された深層ニューラルネットワークの全ての層の重み行列(複数の層のベクトルWからなる重み行列)を取得することである。
【0058】
4.畳み込みネットワーク(convolutional neuron network、CNN)
CNNは、畳み込み構造を有する深層ニューラルネットワークである。畳み込みネットワークは、畳み込み層およびサブサンプリング層を含む特徴抽出器を含む。特徴抽出器は、フィルタと見なされることができる。畳み込みプロセスは、訓練可能なフィルタおよび入力画像または畳み込み特徴平面(feature map)を使用することによって畳み込みを実施することと見なされ得る。畳み込み層は、入力信号に対して畳み込み処理を実施する畳み込みネットワーク内のニューロン層である。畳み込みネットワークの畳み込み層部では、1つのニューロンが、一部の隣接層ニューロンにのみ接続され得る。1つの畳み込み層は、通常、一部の特徴平面を含み、各特徴平面は、矩形配置にある一部のニューロンを含み得る。同じ特徴平面内のニューラルユニットは重みを共有し、本明細書で共有される重みは畳み込みカーネルである。重み共有は、画像情報抽出方式が位置と無関係であることとして理解され得る。本明細書で暗示される原理は、画像の一部の統計情報が他の部分の統計情報と同じであるということである。これは、ある部分で学習された画像情報が他の部分でも利用されることができることを意味する。したがって、学習によって取得された同じ画像情報は、画像上の全ての位置に対して使用されることができる。同じ畳み込み層で、複数の畳み込みカーネルが使用されて、異なる画像情報を抽出することができる。通常、畳み込みカーネルの量が多いほど、畳み込み演算に反映される画像情報が豊富であることを示す。
【0059】
畳み込みカーネルは、ランダムサイズ行列の形式で初期化されてもよい。畳み込みネットワークを訓練する過程において、畳み込みカーネルは、学習によって適切な重みを取得することができる。加えて、重み共有によって直接もたらされる利点は、畳み込みネットワークの層間の接続が低減され、過剰適合リスクが低減されることである。
【0060】
5.リカレントニューラルネットワーク(recurrent neural networks、RNN)
現実世界では、多くの要素が順序付けられ、相互接続される。機械が人間のような記憶能力を有することを可能にするために、RNNは、コンテキストから推論を実施するように開発される。
【0061】
RNNは、シーケンスデータを処理する。具体的には、シーケンスの現在の出力は、前の出力にも関連される。換言すれば、RNNの出力は、現在の入力情報および履歴メモリ情報に依存する。特定の表現形態は、ネットワークが以前の情報を記憶し、以前の情報を現在の出力の計算に適用することである。具体的には、隠れ層におけるノードが接続され、隠れ層の入力は、入力層の出力を含むだけでなく、前の瞬間における隠れ層の出力も含む。理論的には、RNNは任意の長さのシーケンスデータを処理することができる。RNNの訓練は、従来のCNNまたはDNNの訓練と同様である。誤差逆伝搬アルゴリズムも使用されるが、RNNが拡張される場合、RNNのパラメータ(Wなど)が共有されるという違いがある。これは、前述の例で説明した従来のニューラルネットワークとは異なる。加えて、勾配降下アルゴリズムの使用中、各ステップにおける出力は、現在のステップにおけるネットワークだけでなく、一部の前のステップにおけるネットワーク状態にも依存する。学習アルゴリズムは、逆伝搬スルータイム(back propagation through time、BPTT)アルゴリズムと称される。
【0062】
6.損失関数
深層ニューラルネットワークを訓練するプロセスでは、深層ニューラルネットワークの出力が実際に予想される予測値に可能な限り近いことが予想されるため、現在のネットワークの予測値と実際に予想される目標値とが比較されてもよく、次いで、ニューラルネットワークの各層の重みベクトルが、予測値と目標値との間の差に基づいて更新される(確かに、通常、第1の更新の前に初期化プロセスがあり、具体的には、パラメータは、深層ニューラルネットワークの全ての層について事前構成される)。例えば、ネットワークの予測値が大きい場合、重みベクトルは、予測値を減少させるように調整され、深層ニューラルネットワークが実際に期待される目標値、または実際に期待される目標値に非常に近い値を予測することができるまで、調整が継続的に実施される。したがって、「比較を通して、予測値と目標値との間の差異をどのように取得するか」は、事前定義される必要がある。これは、損失関数(loss function)または目的関数(objective function)である。損失関数および目的関数は、予測値と目標値との間の差を測定する重要な方程式である。損失関数が一例として使用される。損失関数の出力値(損失)が高いほど、差が大きいことを示す。したがって、深層ニューラルネットワークの学習は、損失を可能な限り最小化する過程である。
【0063】
7.逆伝搬アルゴリズム
畳み込みネットワークは、誤差逆伝搬(back propagation、BP)アルゴリズムに従って訓練プロセスにおいて初期超解像モデルのパラメータの値を補正してもよく、その結果、超解像モデルを再構成することの誤差損失がより小さくなる。具体的には、出力で誤差損失が発生するまで入力信号が順方向に転送され、誤差損失を収束させるように、逆伝搬誤差損失情報に基づいて初期超解像モデルのパラメータが更新される。逆伝搬アルゴリズムは、最適な超解像モデルの重み行列などのパラメータを取得することが意図された、誤差損失中心の逆伝搬運動である。
【0064】
8.敵対的生成ネットワーク
敵対的生成ネットワーク(generative adversarial network、GAN)は、深層ラーニングモデルである。モデルは、少なくとも2つのモジュールを含む:一方のモジュールは生成モデル(Generative Model)であり、他方のモジュールは弁別モデル(Discriminative Model)である。2つのモジュールは、より良い出力を生成するために、互いにゲームを通して学習するために使用される。生成モデルおよび弁別モデルの両方は、ニューラルネットワークであってもよく、具体的には、深層ニューラルネットワークまたは畳み込みニューラルネットワークであってもよい。GANの基本原理は以下の通りである:ピクチャを生成するためのGANを例として使用して、2つのネットワーク、すなわちG(Generator)およびD(Discriminator)が存在すると仮定される。Gはピクチャを生成するためのネットワークである。Gはランダムノイズzを受信し、ノイズを使用することによってピクチャを生成し、ここでピクチャはG(z)として示される。Dは、ピクチャが「リアル」であるかどうかを決定するために使用される弁別器ネットワークである。Dの入力パラメータはxであり、xはピクチャを表し、出力D(x)はxがリアルなピクチャである確率を表す。D(x)の値が1である場合、それはピクチャが100%リアルであることを示す。D(x)の値が0である場合、ピクチャがリアルではあり得ないことを示す。敵対的生成ネットワークを訓練する過程において、生成ネットワークGの目的は、できるだけリアルなピクチャを生成して、弁別ネットワークDを欺くことであり、弁別ネットワークDの目的は、Gによって生成されたピクチャとリアルなピクチャとをできるだけ区別することである。このようにして、動的な「ゲーム」プロセス、具体的には、「敵対的生成ネットワーク」における「敵対者」が、GとDとの間に存在する。最終的なゲーム結果は、理想的な状態では、Gが、リアルの画像と区別することが困難な画像G(z)を生成する可能性があり、Dが、Gによって生成された画像がリアルのものであるかどうかを決定することが困難であるということである。具体的には、D(G(z))=0.5である。このようにして、優れた生成モデルGが取得され、ピクチャを生成するために使用されることができる。
【0065】
9.ピクセル値
画像のピクセル値は、赤-緑-青(RGB)色値であり得る。ピクセル値は、色を表す長い整数であってもよい。例えば、ピクセル値は、256*Red+100*Green+76 Blueであり、ここで、Blueは青色成分を表し、Greenは緑色成分を表し、Redは赤色成分を表す。各色成分において、数値が小さいほど輝度が低いことを示し、数値が大きいほど輝度が高いことを示す。グレースケール画像の場合、ピクセル値はグレースケール値であり得る。
【0066】
以下では、本出願の実施形態において提供されるシステムアーキテクチャについて説明する。
図1は、本出願の一実施形態によるデータ復号化システムのアーキテクチャを示す。データ復号化システムのアーキテクチャは、データ取り込みモジュール101と、特徴抽出モジュール102と、確率推定モジュール103と、データ符号化モジュール104と、データ復号化モジュール105と、データ再構成モジュール106と、ディスプレイモジュール107と、を含む。
【0067】
データ取り込みモジュール101は、元の画像を取り込むように構成される。データ取り込みモジュール101は、例えば、現実世界画像を取り込むための任意の種類の画像取り込みデバイス、および/または任意のタイプの画像生成デバイス、例えば、コンピュータアニメーション画像を生成するためのコンピュータグラフィックスプロセッサ、または現実世界画像、コンピュータ生成画像(例えば、スクリーンコンテンツ、仮想現実(virtual reality、VR)画像)および/またはそれらの任意の組み合わせ(例えば、拡張現実(augmented reality、AR)画像)を取得および/または提供するための任意のタイプの他のデバイスを含んでもよく、またはそれらであってもよい。データ取り込みモジュール101はまた、画像を記憶するための任意のタイプのメモリまたはストレージであり得る。
【0068】
特徴抽出モジュール102は、データ取り込みモジュール101から元の画像を受信し、元の画像を前処理し、特徴抽出ネットワークを介して、前処理された画像から特徴マップ(すなわち、符号化対象特徴マップ)をさらに抽出するように構成される。特徴マップ(すなわち、符号化対象特徴マップ)は、複数の特徴要素を含む。具体的には、元の画像に対する前処理は、トリミング、色フォーマット変換(例えば、RGBからYcbCrへの変換)、色補正、ノイズ除去、正規化などを含むが、これらに限定されない。特徴抽出ネットワークは、ニューラルネットワーク、DNN、CNN、またはRNNのうちの1つまたは変形であり得る。特徴抽出ネットワークの具体的な形態は、本明細書では具体的には限定されない。任意選択で、特徴抽出モジュール102は、例えば、スカラ量子化またはベクトル量子化を通じて、特徴マップ(すなわち、符号化対象特徴マップ)に対して丸めを実施するようにさらに構成される。特徴マップは複数の特徴要素を含み、特徴マップの値は全ての特徴要素の数値を含むことが学習されるべきである。任意選択で、特徴抽出モジュール102は、サイド情報抽出ネットワークをさらに含む。具体的には、特徴抽出ネットワークによって出力された特徴マップを出力することに加えて、特徴抽出モジュール102は、特徴マップのものであり、サイド情報抽出ネットワークを介して抽出されたサイド情報をさらに出力する。サイド情報抽出ネットワークは、ニューラルネットワーク、DNN、CNN、またはRNNのうちの1つまたは変形であってもよい。特徴抽出ネットワークの具体的な形態は、本明細書では具体的には限定されない。
【0069】
確率推定モジュール103は、特徴マップ(すなわち、符号化対象特徴マップ)の複数の特徴要素の各々に対応する値の確率を推定する。例えば、符号化対象特徴マップは、m個の特徴要素を含み、mは正の整数である。
図2aに示すように、確率推定モジュール103は、m個の特徴要素の各々の確率推定結果を出力する。例えば、特徴要素の確率推定結果が
図2bに示されることができる。
図2bの水平座標は、特徴要素の可能な数値(または特徴要素の可能な値と称される)である。垂直座標は、各可能な数値の可能性(または特徴要素の可能な値と称される)を示す。例えば、点Pは、特徴要素の値が[a-0.5,a+0.5]である確率がpであることを示す。
【0070】
データ符号化モジュール104は、特徴抽出モジュール102からの特徴マップ(すなわち、符号化対象特徴マップ)および確率推定モジュール103からの各特徴要素の確率推定結果に基づいてエントロピー符号化を実施して、符号化されたビットストリーム(本明細書では、復号化対象特徴マップのビットストリームとも称される)を生成するように構成される。
【0071】
データ復号化モジュール105は、データ符号化モジュール104から符号化されたビットストリームを受信し、符号化されたビットストリームおよび確率推定モジュール103からの各特徴要素の確率推定結果に基づいてエントロピー復号化をさらに実施して、復号化された特徴マップ(または、復号化された特徴マップの値として理解される)を取得するように構成される。
【0072】
データ再構成モジュール106は、データ復号化モジュール105からの復号化画像特徴マップに対して後処理を実施し、画像再構成ネットワークを介して後処理された復号化画像特徴マップに対して画像再構成を実施して、復号化画像を取得するように構成される。後処理操作は、色フォーマット変換(例えば、YcbCrからRGBへの変換)、色補正、トリミング、リサンプリングなどを含むが、これらに限定されない。画像再構成ネットワークは、ニューラルネットワーク、DNN、CNN、またはRNNのうちの1つまたは変形であり得る。特徴抽出ネットワークの具体的な形態は、本明細書では具体的には限定されない。
【0073】
ディスプレイモジュール107は、データ再構成モジュール106からの復号化された画像を表示して、ユーザ、視聴者などに画像を表示するように構成される。ディスプレイモジュール107は、再構成されたオーディオまたは再構成された画像を表すために使用される任意のタイプのプレーヤまたはディスプレイ、例えば、統合されたまたは外部のディスプレイまたはディスプレイであるか、またはそれを含み得る。例えば、ディスプレイは、液晶ディスプレイ(liquid crystal display、LCD)、有機発光ダイオード(organic light emitting diode、OLED)ディスプレイ、プラズマディスプレイ、プロジェクタ、マイクロLEDディスプレイ、液晶オンシリコン(liquid crystal on silicon、LcoS)、デジタルライトプロセッサ(digital light processor、DLP)、または任意のクラスの他のディスプレイを含み得る。
【0074】
データ復号化システムのアーキテクチャは、デバイスの機能モジュールであり得ることに留意されたい。データ復号化システムのアーキテクチャは、代替的に、エンドツーエンドデータ復号化システムであってもよく、すなわち、データ復号化システムのアーキテクチャは、2つのデバイス、すなわち、ソースデバイスおよび宛先デバイスを含む。ソースデバイスは、データ取り込みモジュール101と、特徴抽出モジュール102と、確率推定モジュール103と、データ符号化モジュール104とを含み得る。宛先デバイスは、データ復号化モジュール105と、データ再構成モジュール106と、ディスプレイモジュール107とを含み得る。ソースデバイスが符号化ビットストリームを宛先デバイスに提供するように構成される方式1:ソースデバイスは、通信インターフェースを介して符号化ビットストリームを宛先デバイスに送信することができる。通信インターフェースは、ソースデバイスと宛先デバイスとの間の直接通信リンク、例えば、直接ワイヤードまたはワイヤレス接続、あるいは任意のタイプのネットワーク、例えば、ワイヤードネットワーク、ワイヤレスネットワーク、それらの任意の組み合わせ、任意のタイプのプライベートネットワークおよびパブリックネットワーク、またはそれらの任意の組み合わせを通したものであり得る。ソースデバイスが符号化ビットストリームを宛先デバイスに提供するように構成される方式2:代替的に、ソースデバイスは、符号化ビットストリームを記憶デバイスに記憶し得、宛先デバイスは、記憶デバイスから符号化ビットストリームを取得し得る。
【0075】
本出願で言及される特徴マップ符号化方法は、
図1の確率推定モジュール103およびデータ符号化モジュール104によって主に実施され得ることに留意されたい。本出願で言及される特徴マップ復号化方法は、
図1の確率推定モジュール103およびデータ復号化モジュール105によって、主に実施され得る。
【0076】
一例では、本出願で提供される特徴マップ符号化方法は、符号化デバイスによって実施され、符号化デバイスは、
図1の確率推定モジュール103およびデータ符号化モジュール104を主に含み得る。本出願において提供される特徴マップ符号化方法に関して、符号化デバイスは、以下のステップ、すなわち、ステップ11からステップ14を含み得る。
【0077】
ステップ11:符号化デバイスは、第1の符号化対象特徴マップを取得し、第1の符号化対象特徴マップは、複数の特徴要素を含む。
【0078】
ステップ12:符号化デバイス内の確率推定モジュール103は、第1の符号化対象特徴マップに基づいて、複数の特徴要素の各々の第1の確率推定結果を決定し、第1の確率推定結果は、第1のピーク確率を含む。
【0079】
ステップ13:符号化デバイスは、第1の符号化対象特徴マップ内の各特徴要素の第1のピーク確率に基づいて、特徴要素が第1の特徴要素であるかどうかを決定する。
【0080】
ステップ14:符号化デバイス内のデータ符号化モジュール104は、特徴要素が第1の特徴要素である場合にのみ、第1の特徴要素に対してエントロピー符号化を実施する。
【0081】
別の例では、本出願において提供される特徴マップ復号化方法は、復号化デバイスによって実行され、復号化デバイスは、
図1の確率推定モジュール103およびデータ復号化モジュール105を主に含む。本出願において提供される特徴マップ復号化方法に関して、復号化デバイスは、以下のステップ、すなわち、ステップ21からステップ24を含み得る。
【0082】
ステップ21:復号化デバイスは、復号化対象特徴マップのビットストリームを取得し、復号化対象特徴マップは、複数の特徴要素を含む。
【0083】
ステップ22:復号化デバイス内の確率推定モジュール103は、復号化対象特徴マップのビットストリームに基づいて、複数の特徴要素の各々に対応する第1の確率推定結果を取得し、第1の確率推定結果は、第1のピーク確率を含む。
【0084】
ステップ23:復号化デバイスは、第1の閾値および各特徴要素に対応する第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素セットおよび第2の特徴要素セットを決定する。
【0085】
ステップ24:復号化デバイス内のデータ復号化モジュール105は、第1の特徴要素セットおよび第2の特徴要素セットに基づいて、復号化された特徴マップを取得する。
【0086】
以下では、添付の図面を参照して、本出願において提供される特徴マップ復号化方法および特徴マップ符号化方法の特定の実装形態を詳細に説明する。以下では、
図3に示されるエンコーダ側での実施手順の概略図、および
図5に示されるデコーダ側での実施手順の概略図は、特徴マップ符号化および復号化方法の概略フローチャートと見なされ得る。
図6aに示されるエンコーダ側での実施手順の概略図、および
図7aに示されるデコーダ側での実施手順の概略図は、特徴マップ符号化および復号化方法の概略フロー図と見なされることができる。
【0087】
エンコーダ側:
図3は、本出願の一実施形態による特徴マップ符号化方法の概略フローチャートである。特徴マップ符号化方法の手順は、S301~S306を含む。
【0088】
S301:第1の符号化対象特徴マップを取得し、第1の符号化対象特徴マップは複数の特徴要素を含む。
【0089】
元のデータに対して特徴抽出が実施された後、符号化対象特徴マップyが取得される。さらに、符号化対象特徴マップyが量子化され、すなわち、浮動小数点数の特徴値が整数特徴値を取得するために丸められて、量子化された符号化対象特徴マップ
【数7】
(すなわち、第1の符号化対象特徴マップ)を取得し、特徴マップ
【数8】
内の特徴要素は、
【数9】
によって示される。具体的な例では、
図1に示されるデータ取り込みモジュール101によって取り込まれた元の画像の具体的な説明、および特徴抽出モジュール102によって符号化対象特徴マップを取得することの具体的な説明を参照されたい。
【0090】
S302:第1の符号化対象特徴マップに基づいて、第1の符号化対象特徴マップのサイド情報を取得する。
【0091】
サイド情報は、符号化対象特徴マップに対するさらなる特徴抽出を通じて取得された特徴マップとして理解されてよく、サイド情報に含まれる特徴要素の量は、符号化対象特徴マップ内の特徴要素の量より少ない。
【0092】
可能な実装形態では、第1の符号化対象特徴マップのサイド情報は、サイド情報抽出ネットワークを介して取得され得る。サイド情報抽出ネットワークは、RNN、CNN、RNNの変形、CNNの変形、または別の深層ニューラルネットワーク(または別の深層ニューラルネットワークの変形)を使用し得る。これは、本出願では具体的には限定されない。
【0093】
S303:サイド情報に基づいて各特徴要素の第1の確率推定結果を取得し、第1の確率推定結果は、第1のピーク確率を含む。
【0094】
図4aに示されるように、サイド情報は、
図1の確率推定モジュール103への入力として使用され、確率推定モジュール103からの出力は、各特徴要素の第1の確率推定結果である。確率推定モジュール103は、確率推定ネットワークであってもよく、確率推定ネットワークは、RNN、CNN、RNNの変形、CNNの変形、または他の深層ニューラルネットワーク(または他の深層ニューラルネットワークの変形)を使用してもよい。
図4bは、確率推定ネットワークの構造の概略図である。
図4bでは、確率推定ネットワークは畳み込みネットワークであり、畳み込みネットワークは5つのネットワーク層、すなわち3つの畳み込み層と2つの非線形活性化層とを含む。確率推定モジュール103は、非ネットワークの従来の確率推定方法に従って、代替的に実装されてもよい。確率推定方法は、最大尤度推定、最大事後推定、および最大尤度推定などの統計的方法を含むが、これらに限定されない。
【0095】
第1の符号化対象特徴マップ内の任意の特徴要素
【数10】
に対して、特徴要素
【数11】
の第1の確率推定結果は、特徴要素
【数12】
の各可能な値(または各可能な数値と称される)の確率である。
図2bを参照する。例えば、横軸は、特徴要素
【数13】
の各可能な値(または各可能な数値と称される)を示し、縦軸は、各可能な値(または各可能な数値と称される)の可能性を示す。第1のピーク確率は、第1の確率推定結果における最大確率であり、第1の確率推定結果における確率ピークと称されることもある。
図2bに示すように、点Pの垂直座標上の数値pは、第1の確率推定結果における第1のピーク確率である。
【0096】
可能な実装形態では、第1の確率推定結果はガウス分布であり、第1のピーク確率はガウス分布の平均確率である。例えば、第1の確率推定結果は、
図2bに示されるガウス分布であり、第1のピークは、ガウス分布の平均確率、すなわち、平均値aに対応する確率pである。
【0097】
別の可能な実装形態では、第1の確率推定結果は混合ガウス分布である。混合ガウス分布は、複数のガウス分布を含む。換言すれば、混合ガウス分布は、重み付けを介してガウス分布にガウス分布の重みを乗算することによって取得され得る。可能なケースでは、第1のピーク確率は、ガウス分布の平均確率における最大値である。代替的に、別の可能なケースでは、第1のピーク確率は、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算される。
【0098】
例えば、第1の確率推定結果は混合ガウス分布であり、混合ガウス分布は、ガウス分布1、ガウス分布2、およびガウス分布3を重み付けすることによって取得される。ガウス分布1の重みはw1であり、ガウス分布2の重みはw2であり、ガウス分布3の重みはw3である。ガウス分布1の平均確率はp1である。ガウス分布2の平均確率はp2である。ガウス分布3の平均確率はp3であり、p1>p2>p3である。第1のピーク確率がガウス分布の平均確率における最大値であるとき、第1のピーク確率は、ガウス分布の平均確率の最大値である(すなわち、ガウス分布1の平均確率はp1である)。第1のピーク確率が、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算されるとき、第1のピーク確率は式(2)に示される。
第1のピーク確率=p1×w1+p2×w2+p3×w3 (2)
【0099】
第1の確率推定結果が混合ガウス分布である場合、混合ガウス分布における各ガウス分布に対応する重みが取得され、確率推定ネットワーク(例えば、確率推定モジュール103)を介して出力されてもよいことが学習されるべきである。換言すれば、各特徴要素の第1の確率推定結果(すなわち、混合ガウス分布)を取得するとき、確率推定ネットワークは、混合ガウス分布に含まれる各ガウス分布に対応する重みも取得する。
【0100】
S304:各特徴要素の第1の確率結果に基づいて第1の閾値を決定する。
【0101】
可能な実装形態では、第3の特徴要素セットが、第1の符号化対象特徴マップ内の各特徴要素の第1の確率推定結果に基づいて、第1の符号化対象特徴マップ内の複数の特徴要素から決定される。さらに、第1の閾値は、第3の特徴要素セット内の全ての特徴要素の第1の確率推定結果に基づいて決定される。
【0102】
換言すれば、第1の閾値を決定するプロセスは、2つのステップに分割され得る。具体的には、ステップS401~S402を含む、第1の閾値を決定する概略フローチャートが
図4cに示されている。
【0103】
S401:第1の符号化対象特徴マップに含まれる複数の特徴要素から第3の特徴要素セットを決定する。
【0104】
第3の特徴要素セットは、第1の符号化対象特徴マップ内の各特徴要素の第1の確率推定結果に基づいて、第1の符号化対象特徴マップ内の複数の特徴要素から決定される。第3の特徴要素セットは、第1の閾値を決定するための特徴要素セットとして理解されてもよい。
【0105】
可能な実装形態では、第3の特徴要素セットは、事前設定された誤差、第1の符号化対象特徴マップ内の各特徴要素の数値、および各特徴要素の第1のピーク確率に対応する特徴値に基づいて、複数の特徴要素から決定されてもよい。各特徴要素の第2のピーク確率に対応する特徴値は、特徴要素の第1の確率推定結果における第1のピーク確率に対応する特徴要素の可能な値(または可能な数値)、例えば、
図2bにおける点Pの水平座標数値aである。事前設定された誤差値は、特徴マップ符号化方法における許容可能な誤差として理解されてもよく、経験値に基づいて、またはアルゴリズムに従って決定されてもよい。
【0106】
具体的には、決定された第3の特徴要素セット内の特徴要素は、式(3)に示される特徴を有する。
【数14】
【0107】
【数15】
は、特徴要素
【数16】
の数値であり、p(x,y,i)は、特徴要素
【数17】
の第1のピーク確率に対応する特徴値であり、TH_2は、事前設定された誤差である。
【0108】
例えば、第1の符号化対象特徴マップに含まれる複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。第1の符号化対象特徴マップの複数の特徴要素における各特徴要素の第1の確率推定結果は、確率推定モジュールを介して取得されている。この場合、事前設定された誤差e、各特徴要素の数値、および各特徴要素に対応する第1の確率推定結果の第1のピーク確率(以下、略して特徴要素の第1のピーク確率と称される)に基づいて、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5から、式(3)を満たす特徴要素が選択されて、第3の特徴要素セットを形成する。特徴要素1の数値と特徴要素1に対応する第1のピーク確率の特徴値との間の絶対差がTH_2よりも大きい場合、特徴要素1は式(3)を満たす。特徴要素2の数値と特徴要素2に対応する第1のピーク確率の特徴値との間の絶対差がTH_2よりも大きい場合、特徴要素2は式(3)を満たす。特徴要素3の数値と特徴要素3に対応する第1のピーク確率の特徴値との間の絶対差がTH_2未満である場合、特徴要素3は式(3)を満たさない。特徴要素4の数値と特徴要素4に対応する第1のピーク確率の特徴値との間の絶対差がTH_2に等しい場合、特徴要素4は式(3)を満たさない。特徴要素5の数値と特徴要素5に対応する第1のピーク確率の特徴値との間の絶対差がTH_2よりも大きい場合、特徴要素5は式(3)を満たす。結論として、特徴要素1、特徴要素2、および特徴要素5は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5からの第3の特徴要素であると決定され、第3の特徴要素セットを形成する。
【0109】
S402:第3の特徴要素セット内の全ての特徴要素の第1の確率推定結果に基づいて第1の閾値を決定する。
【0110】
第1の閾値は、第3の特徴要素セット内の特徴要素の第1の確率推定結果の形式に基づいて決定される。第1の確率推定結果の形態は、ガウス分布または別の形態の確率分布(限定はしないが、ラプラス分布または混合ガウス分布を含む)を含む。
【0111】
以下は、第1の確率分布結果の形式に基づいて第1の閾値を決定する方式を詳細に説明する。
【0112】
方式1:第1の閾値は、第3の特徴要素セット内の特徴要素に対応する第1のピーク確率のうちの最大の第1のピーク確率である。
【0113】
このようにして、第1の確率分布結果の形式は、ガウス分布または別の形式の確率分布(限定はしないが、ラプラス分布または混合ガウス分布を含む)であってもよいことが学習されるべきである。
【0114】
例えば、特徴要素1、特徴要素2、および特徴要素5は、第3の特徴要素セットを形成するために、第3の特徴要素であると決定される。特徴要素1の第1のピーク確率が70%であり、特徴要素2の第1のピーク確率が65%であり、特徴要素5の第1のピーク確率が75%である場合、第3の特徴要素セット内の特徴要素に対応する最大の第1のピーク確率(すなわち、特徴要素5の第1のピーク確率75%)が第1の閾値であると決定される。
【0115】
方式2:第1の確率推定結果はガウス分布であり、第1の確率推定結果は第1の確率分散値をさらに含む。第1の閾値は、第3の特徴要素セット内の特徴要素に対応する第1の確率分散値のうちの最小の第1の確率分散値である。
【0116】
ガウス分布の数学的特徴は、以下のように要約され得ることが学習されるべきである:ガウス分布では、より大きい第1の確率分散値は、より小さい第1のピーク確率を示す。加えて、第1の確率推定結果がガウス分布である場合、第1の確率推定結果から第1の確率分散値を取得する速度は、第1の確率推定結果から第1のピーク確率を取得する速度よりも速い。第1の確率推定結果がガウス分布であるとき、第1の確率分散値に基づいて第1の閾値を決定する効率は、第1のピーク確率に基づいて第1の閾値を決定する効率よりも高くなり得ることが学習され得る。
【0117】
例えば、特徴要素1、特徴要素2、および特徴要素5は、第3の特徴要素セットを形成するために、第3の特徴要素であると決定される。特徴要素1の第1の確率分散値σが0.6であり、特徴要素2の第1の確率分散値σが0.7であり、特徴要素5の第1の確率分散値σが0.5である場合、第3の特徴要素セット内の特徴要素に対応する最小の第1の確率分散値σ(すなわち、特徴要素5の確率分散値0.5)が第1の閾値であると決定される。
【0118】
第1の閾値は第1の符号化対象特徴マップ内の特徴要素に基づいて決定されるため、すなわち、第1の閾値は第1の符号化対象特徴マップに対応することが知られるべきである。データ復号化を容易にするために、第1の閾値に対してエントロピー符号化が実施されてもよく、エントロピー符号化の結果は、第1の符号化対象特徴マップの符号化されたビットストリームに書き込まれる。
【0119】
S305:各特徴要素の第1の閾値および第1の確率推定結果に基づいて、特徴要素が第1の特徴要素であるかどうかを決定する。
【0120】
第1の符号化対象特徴マップ内の複数の特徴要素の各々について、特徴要素が第1の特徴要素であるかどうかが、第1の閾値および特徴要素の第1の確率推定結果に基づいて決定され得る。特徴要素が第1の特徴要素であるかどうかを決定するための重要な決定条件は第1の閾値であることが学習され得る。以下では、第1の閾値を決定する特定の方法に基づいて、特徴要素が第1の特徴要素であるかどうかを決定する方法を具体的に考察する。
【0121】
方式1:第1の閾値が第3の特徴要素セット内の特徴要素に対応する第1のピーク確率内の最大の第2のピーク確率であるとき、第1の閾値に基づいて決定された第1の特徴要素は、以下の条件、すなわち、第1の特徴要素の第1のピーク確率は、第1の閾値以下であることを満たす。
【0122】
例えば、第1の符号化対象特徴マップに含まれる複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。特徴要素1、特徴要素2、および特徴要素5は、第3の特徴要素セットを形成し、第3の特徴要素セットに基づいて、第1の閾値が75%であると決定される。この場合、特徴要素1の第1のピーク確率が70%であり、第1の閾値未満である場合、特徴要素2の第1のピーク確率は65%であり、第1の閾値未満であり、特徴要素3の第1のピーク確率は80%であり、第1の閾値より大きく、特徴要素4の第1のピーク確率は60%であり、第1の閾値未満であり、特徴要素5の第1のピーク確率は75%であり、第1の閾値に等しい。結論として、特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素であると決定される。
【0123】
方式2:第1の閾値が第3の特徴要素セット内の特徴要素に対応する第1の確率分散値のうちの最小の第1の確率分散値であるとき、第1の閾値に基づいて決定された第1の特徴要素は、第1の特徴要素の第1の確率分散値が第1の閾値以上であるという条件を満たす。
【0124】
例えば、第1の符号化対象特徴マップに含まれる複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。特徴要素1、特徴要素2、および特徴要素5は、第3の特徴要素セットを形成し、第3の特徴要素セットに基づいて、第1の閾値が0.5であると決定される。この場合、特徴要素1の第1のピーク確率が0.6であり、第1の閾値よりも大きい場合、特徴要素2の第1のピーク確率は0.7であり、第1の閾値よりも大きく、特徴要素3の第1のピーク確率は0.4であり、第1の閾値よりも小さく、特徴要素4の第1のピーク確率は0.75であり、第1の閾値よりも大きく、特徴要素5の第1のピーク確率は0.5であり、第1の閾値に等しい。結論として、特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素であると決定される。
【0125】
S306:特徴要素が第1の特徴要素であるときのみ、第1の特徴要素に対してエントロピー符号化を実施する。
【0126】
第1の符号化対象特徴マップ内の各特徴要素が決定され、特徴要素が第1の特徴要素であるかどうかが決定される。特徴要素が第1の特徴要素である場合、第1の特徴要素が符号化され、第1の特徴要素の符号化結果が符号化ビットストリームに書き込まれる。換言すれば、特徴マップ内の全ての第1の特徴要素に対してエントロピー符号化が実施され、全ての第1の特徴要素のエントロピー符号化結果が符号化ビットストリームに書き込まれることが理解され得る。
【0127】
例えば、第1の符号化対象特徴マップに含まれる複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素であると決定される。この場合、エントロピー符号化は、特徴要素2に対して実施されないが、特徴要素1、特徴要素2、特徴要素4、および特徴要素5に対して実施され、全ての第1の特徴要素のエントロピー符号化結果が符号化ビットストリームに書き込まれる。
【0128】
S305における各特徴要素の決定結果が、特徴要素が第1の特徴要素ではないというものである場合、エントロピー符号化は、特徴要素のいずれに対しても実施されないことに留意されたい。S305における各特徴要素の決定結果が、特徴要素が第1の特徴要素であるというものである場合、各特徴要素に対してエントロピー符号化が実施され、各特徴要素のエントロピー符号化結果が符号化ビットストリームに書き込まれる。
【0129】
可能な実装形態では、第1の符号化対象特徴マップのサイド情報に対してエントロピー符号化がさらに実施されてよく、サイド情報のエントロピー符号化結果がビットストリームに書き込まれる。代替的に、第1の符号化対象特徴マップのサイド情報は、後続のデータ復号化を容易にするために、デコーダ側に送信されてもよい。
【0130】
デコーダ側:
図5は、本出願の一実施形態による特徴マップ符号化方法の概略フローチャートである。特徴符号化方法の手順は、S501~S504を含む。
【0131】
S501:復号化対象特徴マップのビットストリームを取得し、復号化対象特徴マップは複数の特徴要素を含む。
【0132】
符号化対象特徴マップのビットストリームは、S306において取得された符号化されたビットストリームとして理解され得る。復号化対象特徴マップは、ビットストリームに対してデータ復号化が実施された後に取得された特徴マップである。復号化対象特徴マップは、複数の特徴要素を含む。複数の特徴要素は、第1の特徴要素セットおよび第2の特徴要素セットという2つの部分に分割される。第1の特徴要素セットは、
図3の特徴マップ符号化段階においてエントロピー符号化が実施される特徴要素のセットである。第2の特徴要素セットは、
図3の特徴マップ符号化段階においてエントロピー符号化が実施されない特徴要素のセットである。
【0133】
可能な実装形態では、第1の特徴要素セットは、空集合であるか、または第2の特徴要素セットは、空集合である。第1の特徴要素セットは、空集合であり、すなわち、
図3の特徴マップ符号化段階では、エントロピー符号化は特徴要素のいずれに対しても実施されない。第2の特徴要素セットは、空集合であり、すなわち、
図3の特徴マップ符号化段階では、エントロピー符号化が各特徴要素に対して実施される。
【0134】
S502:復号化対象特徴マップのビットストリームに基づいて、複数の特徴要素の各々に対応する第1の確率推定結果を取得し、第1の確率推定結果は、第1のピーク確率を含む。
【0135】
復号化対象特徴マップのビットストリームに対してエントロピー復号化が実施される。さらに、複数の特徴要素の各々に対応する第1の確率推定結果は、エントロピー復号化結果に基づいて取得されてもよい。第1の確率推定結果は、第1のピーク確率を含む。
【0136】
可能な実装形態では、復号化対象特徴マップに対応するサイド情報は、復号化対象特徴マップのビットストリームに基づいて取得される。各特徴要素に対応する第1の確率推定結果は、サイド情報に基づいて取得される。
【0137】
具体的には、復号化対象特徴マップのビットストリームは、サイド情報のエントロピー符号化結果を含む。したがって、エントロピー復号化は、復号化対象特徴マップのビットストリームに対して実施されてよく、取得されたエントロピー復号化結果は、復号化対象特徴マップに対応するサイド情報を含む。さらに、
図4aに示すように、サイド情報は、
図1の確率推定モジュール103への入力として使用され、確率推定モジュール103からの出力は、各特徴要素(第1の特徴要素セット内の特徴要素および第2の特徴要素セット内の特徴要素を含む)の第1の確率推定結果である。
【0138】
例えば、特徴要素の第1の確率推定結果については、
図2bを参照されたい。横軸は、特徴要素
【数18】
の各可能な値(または各可能な数値と称される)を示し、縦軸は、各可能な値(または各可能な数値と称される)の可能性を示す。第1のピーク確率は、第1の確率推定結果における最大確率であり、第1の確率推定結果における確率ピークと称されることもある。
図2bに示すように、点Pの垂直座標上の数値pは、第1の確率推定結果における第1のピーク確率である。第1の確率推定結果はガウス分布であり、第1のピーク確率はガウス分布の平均確率であることが学習されるべきである。代替的に、第1の確率推定結果は混合ガウス分布である。混合ガウス分布は、複数のガウス分布を含む。第1のピーク確率は、ガウス分布の平均確率における最大値であるか、または第1のピーク確率は、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算される。第1の確率推定結果に基づいて第1のピーク確率を取得する具体的な実装形態については、S303における第1の確率推定結果および第1のピーク確率の関連する説明を参照されたい。繰り返される内容は、再び説明されない。
【0139】
確率推定モジュール103は、確率推定ネットワークであってもよく、確率推定ネットワークは、RNN、CNN、RNNの変形、CNNの変形、または他の深層ニューラルネットワーク(または他の深層ニューラルネットワークの変形)を使用してもよい。
図4bは、確率推定ネットワークの構造の概略図である。
図4bにおいて、確率推定ネットワークは畳み込みネットワークであり、畳み込みネットワークは5つのネットワーク層、すなわち3つの畳み込み層と2つの非線形活性化層とを含む。確率推定モジュール103は、非ネットワークの従来の確率推定方法に従って、代替的に実装されてもよい。確率推定方法は、最尤推定、最大事後推定、および最尤推定などの統計的方法を含むが、これらに限定されない。
【0140】
S503:各特徴要素に対応する第1の閾値および第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素セットおよび第2の特徴要素セットを決定する。
【0141】
第1の特徴要素セットおよび第2の特徴要素セットは、第1の閾値と各特徴要素に対応する第1のピーク確率との間の数値関係に基づいて、復号化対象特徴マップ内の複数の特徴要素から決定される。第1の閾値は、特徴マップ符号化方法に対応するデバイスと特徴マップ復号化方法に対応するデバイスとの間のネゴシエーションを通して決定され得るか、または経験値に基づいて設定され得る。代替的に、第1の閾値は、復号化対象特徴マップのビットストリームに基づいて取得されてもよい。
【0142】
具体的には、第1の閾値は、S402における方式1で設定された第3の特徴要素セット内の最大の第1のピーク確率であってもよい。この場合、復号化対象特徴マップ内の各特徴要素について、特徴要素の第1のピーク確率が第1の閾値よりも大きい場合、特徴要素は第2の特徴要素(すなわち、第2の特徴要素セット内の特徴要素)であると決定される。代替的に、特徴要素の第1のピーク確率が第1の閾値以下(未満または以下を含む)である場合、特徴要素は、第1の特徴要素(すなわち、第1の特徴要素セット内の特徴要素)であると決定される。
【0143】
例えば、第1の閾値は75%であり、復号化対象特徴マップの複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。特徴要素1の第1のピーク確率は70%であり、第1の閾値未満であり、特徴要素2の第1のピーク確率は65%であり、第1の閾値未満であり、特徴要素3の第1のピーク確率は80%であり、第1の閾値より大きく、特徴要素4の第1のピーク確率は60%であり、第1の閾値未満であり、特徴要素5の第1のピーク確率は75%であり、第1の閾値に等しい。結論として、特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素であると決定される。結論として、特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素セット内の特徴要素であると決定され、特徴要素3は、第2の特徴要素セット内の特徴要素であると決定される。
【0144】
ある場合には、第1の確率推定結果の形式はガウス分布であり、第1の確率推定結果は第1の確率分散値をさらに含む。この場合、S3の任意選択の実装形態は、各特徴要素の第1の閾値および第1の確率分散値に基づいて、複数の特徴要素から第1の特徴要素セットおよび第2の特徴要素セットを決定することである。具体的には、第1の閾値は、S402における方式2で設定された第3の特徴要素セット内の最小の第1の確率分散値であってもよい。さらに、復号化対象特徴マップ内の各特徴要素について、特徴要素の第1の確率分散値が第1の閾値未満である場合、特徴要素は第2の特徴要素(すなわち、第2の特徴要素セット内の特徴要素)であると決定される。特徴要素の第1の確率分散値が第1の閾値以上である場合、特徴要素は、第1の特徴要素(すなわち、第1の特徴要素セット内の特徴要素)であると決定される。
【0145】
例えば、第1の閾値は0.5であり、第1の符号化対象特徴マップに含まれる複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。特徴要素1の第1のピーク確率は0.6であり、第1の閾値より大きく、特徴要素2の第1のピーク確率は0.7であり、第1の閾値より大きく、特徴要素3の第1のピーク確率は0.4であり、第1の閾値より小さく、特徴要素4の第1のピーク確率は0.75であり、第1の閾値より大きく、特徴要素5の第1のピーク確率は0.5であり、第1の閾値に等しい。結論として、特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素セット内の特徴要素であると決定され、特徴要素3は、第2の特徴要素セット内の特徴要素であると決定される。
【0146】
S504:第1の特徴要素セットおよび第2の特徴要素セットに基づいて、復号化された特徴マップを取得する。
【0147】
換言すれば、復号化された特徴マップの値は、第1の特徴要素セット内の各特徴要素の数値と、第2の特徴要素セット内の各特徴要素の第1の確率推定結果とに基づいて取得される。
【0148】
可能な実装形態では、第1の特徴要素に対応する第1の確率推定結果に対してエントロピー復号化が実施されて、(第1の特徴要素セット内の特徴要素の一般用語として理解される)第1の特徴要素の数値を取得する。第1の確率推定結果は、第1のピーク確率と、第1のピーク確率に対応する特徴値とを含む。さらに、第2の特徴要素の数値は、第2の特徴要素の第1のピーク確率に対応する特徴値に基づいて取得される(第2の特徴要素セット内の特徴要素の一般用語として理解される)。換言すれば、第1の特徴要素セット内の全ての特徴要素の数値を取得するために、第1の特徴要素セット内の全ての特徴要素に対応する第1の確率推定結果に対してエントロピー復号化が実施されることが理解され得る。第2の特徴要素セット内の全ての特徴要素の数値は、第2の特徴要素内の全ての特徴要素の第1のピーク確率に対応する特徴値に基づいて取得され、エントロピー復号化は、第2の特徴要素セット内のいずれの特徴要素に対しても実施される必要はない。
【0149】
例えば、データ復号化が復号化対象特徴マップに対して実施され、すなわち、各特徴要素の数値が取得される。復号化対象特徴マップ内の複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素セット内の特徴要素であると決定され、特徴要素3は、第2の特徴要素セット内の特徴要素であると決定される。さらに、第1の特徴要素に対応するビットストリームおよび第1の確率推定結果が入力として使用され、
図1に示されるデータ復号化モジュール104に入力されて、特徴要素1の数値、特徴要素2の数値、特徴要素4の数値、および特徴要素5の数値を取得する。特徴要素3の第1の確率推定結果における第1のピーク確率に対応する特徴値が、復号化対象特徴マップ内の特徴要素3の数値であると決定される。このようにして、特徴要素1の数値、特徴要素2の数値、特徴要素3の数値、特徴要素4の数値、および特徴要素5の数値は、復号化対象特徴マップの値に組み合わされる。
【0150】
第1の特徴要素セットが空集合である(すなわち、エントロピー符号化が特徴要素のいずれにも実施されない)場合、復号化された特徴マップの値は、各特徴要素の第1の確率推定結果(本明細書では、第1の確率推定結果における第1のピーク確率に対応する特徴値を示す)に基づいて取得され得ることに留意されたい。第2の特徴要素セットが空集合である(すなわち、各特徴要素に対してエントロピー符号化が実施される)場合、各特徴要素に対応する第1の確率推定結果に対してエントロピー復号化が実施されて、復号化された特徴マップの値を取得する。
【0151】
各特徴要素に対応する確率推定結果内の固定値に対応する確率に基づいて、特徴要素に対して符号化が実施される必要があるかどうかを決定することと比較して、特徴要素に対応する確率推定結果のピーク確率に基づいて、特徴要素に対してエントロピー符号化プロセスがスキップされる必要があるかどうかを決定するための
図3で提供される方法は、決定結果(特徴要素に対してエントロピー符号化が実施される必要があるかどうか)の信頼性を改善することができ、エントロピー符号化を実施するための要素の量を大幅に低減し、エントロピー符号化の複雑さを低減することができる。加えて、
図5に示されるように、エントロピー符号化が実施されない特徴要素(すなわち、第2の特徴要素)の第1の確率ピークの特徴値を第2の特徴要素の数値として使用して、復号化対象特徴マップの値を形成することの信頼性は、従来技術において第2の特徴要素の数値を固定値で置き換えて、復号化対象特徴マップの値を形成することよりも良好であり、それによって、データ符号化および復号化方法のデータ復号化精度および性能をさらに改善する。
【0152】
エンコーダ側:
図6aは、本出願の一実施形態による別の特徴マップ符号化方法の概略フローチャートである。特徴マップ符号化方法の手順は、S601~S607を含む。
【0153】
S601:第1の符号化対象特徴マップを取得し、第1の符号化対象特徴マップは複数の特徴要素を含む。
【0154】
S601の具体的な実装形態については、S301の具体的な実装形態の説明を参照されたい。詳細は本明細書では再び説明されない。
【0155】
S602:第1の符号化対象特徴マップに基づいて、第1の符号化対象特徴マップのサイド情報および各特徴要素の第2のコンテキスト情報を取得する。
【0156】
第1の符号化対象特徴マップのサイド情報を取得する具体的な実装形態については、S302の具体的な実装形態の説明を参照されたい。詳細は本明細書では再び説明されない。
【0157】
第2のコンテキストを取得する方式は、ネットワークモジュールを介して第1の符号化対象特徴マップから第2のコンテキスト情報を取得することであってもよく、ネットワークモジュールは、RNNまたはRNNのネットワーク変形であってもよい。第2のコンテキスト情報は、その特徴要素の特徴要素であり、第1の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素(または特徴要素の数値)として理解され得る。
【0158】
S603:サイド情報および第2のコンテキスト情報に基づいて、各特徴要素の第2の確率推定結果を取得する。
【0159】
図6bに示されるように、サイド情報および第2のコンテキスト情報は、
図1の確率推定モジュール103への入力として使用され、確率推定モジュール103からの出力は、各特徴要素の第2の確率推定結果である。確率推定モジュール103の具体的な説明については、S303を参照されたい。第2の確率推定結果の形態は、ガウス分布または別の形態の確率分布(限定はしないが、ラプラス分布または混合ガウス分布を含む)を含む。特徴要素の第2の確率結果の概略図は、
図2bに示される第1の確率結果の概略図と同じである。詳細は本明細書では再び説明されない。
【0160】
S604:各特徴要素の第2の確率結果に基づいて第1の閾値を決定する。
【0161】
1つの可能な実装形態では、第1の符号化対象特徴マップ内の各特徴要素の第2の確率推定結果に基づいて、第1の符号化対象特徴マップ内の複数の特徴要素から第3の特徴要素セットが決定される。さらに、第1の閾値は、第3の特徴要素セット内の全ての特徴要素の第2の確率推定結果に基づいて決定される。具体的には、第3の特徴要素セット内の各特徴要素の第2の確率推定結果に基づいて第1の閾値を決定する具体的な方式については、
図4cに示される第3の特徴要素セット内の各特徴要素の第1の確率推定結果に基づいて第1の閾値を決定する具体的な方式を参照されたい。詳細は本明細書では再び説明されない。
【0162】
S605:特徴要素のサイド情報および第1のコンテキスト情報に基づいて、第1の符号化対象特徴マップ内の各特徴要素の第1の確率推定結果を決定する。
【0163】
第1のコンテキスト情報は、第2の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素の特徴要素であり、第2の符号化対象特徴マップの値は、第1の特徴要素の数値と、第2の特徴要素の第1のピーク確率に対応する特徴値とを含み、第2の特徴要素は、第1の符号化対象特徴マップ内の第1の特徴要素以外の特徴要素である。第1の符号化対象特徴マップに含まれる特徴要素の量は、第2の符号化対象特徴マップに含まれる特徴要素の量と同じであり、第1の符号化対象特徴マップの値は、第2の符号化対象特徴マップの値とは異なり、第2の符号化対象特徴マップは、第1の符号化対象特徴マップが復号化された後に取得される特徴マップ(すなわち、本出願における復号化対象特徴マップ)として理解され得ることを理解されたい。第1のコンテキスト情報は、第2の符号化対象特徴マップ内の特徴要素間の関係を説明し、第2のコンテキスト情報は、第1の符号化対象特徴マップ内の特徴要素間の関係を説明する。
【0164】
例えば、第1の符号化対象特徴マップに含まれる特徴要素は、特徴要素1、特徴要素2、特徴要素3、…、および特徴要素mである。S604の特定の記述方式に基づいて第1の閾値が取得された後、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5に対して代替の確率推定およびエントロピー符号化が実施される。すなわち、特徴要素1に対して確率推定およびエントロピー符号化がまず実施されることが理解され得る。特徴要素1は、エントロピー符号化が実施される第1の特徴要素であるため、特徴要素1の第1のコンテキスト情報は空である。この場合、特徴要素1に対応する第1の確率推定結果を取得するために、サイド情報に基づいて特徴要素1に対して確率推定のみが実施される必要がある。さらに、特徴要素1が第1の特徴要素であるかどうかが、第1の確率推定結果および第1の閾値に基づいて決定され、特徴要素1が第1の特徴要素であるときのみ、特徴要素1に対してエントロピー符号化が実施され、第2の符号化対象特徴マップ内の特徴要素1の数値が決定される。次に、特徴要素2について、特徴要素2の第1の確率推定結果が、サイド情報および第1のコンテキスト情報(この場合、第2の符号化対象特徴マップ内の第1の特徴要素の数値として理解され得る)に基づいて推定される。さらに、特徴要素2が第1の特徴要素であるかどうかが、第1の確率推定結果および第1の閾値に基づいて決定され、特徴要素2が第1の特徴要素であるときのみ、特徴要素2に対してエントロピー符号化が実施され、第2の符号化対象特徴マップ内の特徴要素2の数値が決定される。次いで、特徴要素3について、特徴要素3の第1の確率推定結果が、サイド情報および第1のコンテキスト情報(この場合、第2の符号化対象特徴マップ内の第1の特徴要素の数値および第2の符号化対象特徴マップ内の第2の特徴要素の数値として理解され得る)に基づいて推定される。さらに、特徴要素3が第1の特徴要素であるかどうかが、第1の確率推定結果および第1の閾値に基づいて決定され、特徴要素3が第1の特徴要素であるときのみ、特徴要素3に対してエントロピー符号化が実施され、第2の符号化対象特徴マップ内の特徴要素3の数値が決定される。残りは、第1の符号化対象特徴マップ内の全ての特徴要素の確率が推定されるまで、類推によって推論され得る。
【0165】
S606:特徴要素の第1の確率推定結果および第1の閾値に基づいて、特徴要素が第1の特徴要素であるかどうかを決定する。
【0166】
S607:特徴要素が第1の特徴要素であるときのみ、第1の特徴要素に対してエントロピー符号化を実施する。
【0167】
S606およびS607の具体的な実装形態については、S305およびS306の具体的な実装形態の説明を参照されたい。詳細は本明細書では再び説明されない。
【0168】
特徴マップ内の任意の特徴要素について、特徴要素が第1の特徴要素(すなわち、エントロピー符号化を必要とする特徴要素)であるかどうかを決定するための確率推定結果は、特徴要素の第1の確率推定結果として示され、第1の閾値を決定するための確率結果は、第2の確率推定結果として示されることを理解されたい。
図6aに示す特徴マップ符号化方法では、特徴要素の第1の確率推定結果は、特徴要素の第2の確率推定結果とは異なる。しかしながら、
図3に示される特徴マップ符号化方法では、確率推定のためにコンテキスト特徴が導入されないため、特徴要素の第1の確率推定結果は、特徴要素の第2の確率推定結果と同じである。
【0169】
デコーダ側:
図7aは、本出願の一実施形態による特徴マップ復号化方法の概略フローチャートである。特徴マップ復号化方法の手順は、S701~S706を含む。
【0170】
S701:復号化対象特徴マップのビットストリームを取得し、復号化対象特徴マップは複数の特徴要素を含む。
【0171】
S701の具体的な実装形態については、S501の具体的な実装形態の説明を参照されたい。詳細は本明細書では再び説明されない。
【0172】
S702:復号化対象特徴マップのビットストリームに基づいて、復号化対象特徴マップに対応するサイド情報を取得する。
【0173】
可能な実装形態では、復号化対象特徴マップに対応するサイド情報は、復号化対象特徴マップのビットストリームに基づいて取得される。各特徴要素に対応する第1の確率推定結果は、サイド情報に基づいて取得される。
【0174】
具体的には、復号化対象特徴マップのビットストリームは、サイド情報のエントロピー符号化結果を含む。したがって、エントロピー復号化は、復号化対象特徴マップのビットストリームに対して実施されてよく、取得されたエントロピー復号化結果は、復号化対象特徴マップに対応するサイド情報を含む。
【0175】
S703:特徴要素のサイド情報および第1のコンテキスト情報に基づいて、各特徴要素の第1の確率推定結果を推定する。
【0176】
第1のコンテキスト情報は、その特徴要素の特徴要素であり、復号化対象特徴マップ(すなわち、S605における第2の符号化対象特徴マップ)内の事前設定された領域範囲内にある特徴要素である。この場合、確率推定およびエントロピー復号化は、復号化対象特徴マップ内の特徴要素に対して順次かつ交互に実施されることが知られるべきである。
【0177】
例えば、復号化対象特徴マップ内の特徴要素は、特徴要素1、特徴要素2、特徴要素3、…、および特徴要素mである。まず、特徴要素1に対して確率推定とエントロピー復号化が実施される。特徴要素1は、エントロピー復号化が実施される第1の特徴要素であるため、特徴要素1の第1のコンテキスト情報は空である。この場合、特徴要素1に対応する第1の確率推定結果を取得するために、サイド情報に基づいて特徴要素1に対して確率推定のみが実施される必要がある。さらに、特徴要素1が第1の特徴要素または第2の特徴要素であると決定され(または決定され)、決定結果に基づいて、復号化対象特徴マップ内の特徴要素1の数値が決定される。次に、特徴要素2について、特徴要素2の第1の確率推定結果が、サイド情報および第1のコンテキスト情報(この場合、復号化対象特徴マップ内の第1の特徴要素の数値として理解され得る)に基づいて推定される。さらに、特徴要素2が第1の特徴要素であるか第2の特徴要素であるかが決定される(または決定される)。復号化対象特徴マップ内の特徴要素2の数値は、決定結果に基づいて決定される。次いで、特徴要素3について、特徴要素3の第1の確率推定結果が、サイド情報および第1のコンテキスト情報(この場合、復号化対象特徴マップ内の第1の特徴要素の数値および復号化対象特徴マップ内の第2の特徴要素の数値として理解され得る)に基づいて推定される。また、特徴要素3は、第1の特徴要素または第2の特徴要素であると決定される。復号化対象特徴マップ内の特徴要素3の数値は、決定結果に基づいて決定される。残りは、全ての特徴要素の確率が推定されるまで、類推によって推論され得る。
【0178】
S704:特徴要素の第1の確率推定結果および第1の閾値に基づいて、特徴要素が第1の特徴要素または第2の特徴要素であると決定する。
【0179】
S704の具体的な実装形態については、S503の具体的な実装形態の説明を参照されたい。詳細は本明細書では再び説明されない。
【0180】
S705:特徴要素が第1の特徴要素であるとき、第1の特徴要素の第1の確率推定結果と復号化対象特徴マップのビットストリームとに基づいてエントロピー復号化を実施して、第1の特徴要素の数値を取得する。
【0181】
特徴要素の決定結果が、特徴要素が第1の特徴要素であるというものである場合、第1の特徴要素の第1の確率推定結果に基づいて第1の特徴要素に対してエントロピー復号化が実施され、復号化された特徴マップ内の第1の特徴要素の数値を取得する。復号化された特徴マップ内の第1の特徴要素の数値は、符号化対象特徴マップ内の第1の特徴要素の数値と同じである。
【0182】
S706:特徴要素が第2の特徴要素であるとき、第2の特徴要素の第1の確率推定結果に基づいて、第2の特徴要素の数値を取得する。
【0183】
特徴要素についての決定結果が、特徴要素が第2の特徴要素であるというものである場合、第2の特徴要素の第1のピーク確率に対応する特徴値が、第2の特徴要素の数値であると決定される。換言すれば、エントロピー復号化は、第2の特徴要素に対して実施される必要はなく、復号化された特徴マップ内の第2の特徴要素の数値は、符号化対象特徴マップ内の第2の特徴要素の数値と同じであってもよいし、異なっていてもよい。復号化された特徴マップの値は、復号化された特徴マップを取得するために、全ての第2の特徴要素の数値と全ての第1の特徴要素の数値の両方に基づいて決定される。
【0184】
図3で提供される特徴マップ符号化方法と比較して、
図6aで提供される特徴マップ符号化方法では、確率推定は、コンテキスト情報を参照して実施され、それにより、各特徴要素に対応する確率推定結果の精度を改善し、符号化プロセスがスキップされる特徴要素の量を増加させ、データ符号化効率性をさらに改善する。
図5において提供される特徴マップ復号化方法と比較して、
図7aにおいて提供される特徴マップ復号化方法では、確率推定は、コンテキスト情報を参照して実施され、それにより、各特徴要素に対応する確率推定結果の精度を改善し、復号化対象特徴マップにおいてエントロピー符号化が実施されない特徴要素(すなわち、第2の特徴要素)の信頼性を改善し、データ復号化性能を改善する。
【0185】
本出願人は、符号化をスキップしない特徴マップ符号化および復号化方法(すなわち、符号化対象特徴マップに対してエントロピー符号化が実施される場合、符号化対象特徴マップ内の全ての特徴要素に対してエントロピー符号化プロセスが実施される)をベースライン方法と称し、
図6aおよび
図7aに提供された特徴マップ符号化および復号化方法(動的ピークに基づいたスキップを有する特徴マップ符号化および復号化方法と称される)と、各特徴要素に対応する確率推定結果内の固定値に対応する確率に基づいてスキップされた特徴要素を有する特徴マップ符号化のための方法(固定ピークに基づいたスキップを有する特徴マップ符号化および復号化方法と称される)との間の比較実験を実施する。
【0186】
比較実験の結果については、表1を参照されたい。ベースライン方法と比較して、固定ピークに基づくスキップを用いる特徴マップ復号化方法では、同じ画質を取得するためのデータの量が0.11%低減され、この解決策では、同じ画質を取得するためのデータの量が1%低減される。
【0187】
【0188】
復号化された画質が保証されるとき、本出願で提供される技術的方法は、より大量のデータを低減し、データ圧縮性能(限定はしないが、圧縮率を含む)を改善することができることが学習され得る。
【0189】
本出願人は、
図6aおよび
図7aで提供される特徴マップ符号化および復号化方法と、固定ピークに基づいてスキップする特徴マップ符号化および復号化方法との間の比較実験をさらに実施する。比較実験結果図が
図7bおよび
図7cに示される。
図7bにおいて、縦軸は、再構成画像の画質として理解されることができ、横軸は、映像圧縮率である。通常、画像圧縮率が増加するにつれて、再構成ピクチャの画質は良好になる。
図7bから、動的ピークに基づいてスキップする特徴マップ符号化および復号化方法の曲線(すなわち、
図7bでは動的ピークとしてマークされている)は、固定ピークに基づいてスキップする特徴マップ符号化方法の曲線(すなわち、
図7bでは固定ピークとしてマークされている)とほぼ重なることが理解され得る。換言すれば、再構成されたピクチャ画質(すなわち、垂直座標の数値が同じである)が同じであるとき、動的ピークに基づいてスキップする特徴マップ符号化および復号化方法(すなわち、
図7bで動的ピークとしてマークされる)は、固定ピークに基づいてスキップする特徴マップ符号化方法(すなわち、
図7bで固定ピークとしてマークされる)よりもわずかに良好である。
図7cにおいて、縦軸はスキップされた特徴要素の割合であり、横軸は映像圧縮率である。通常、画像圧縮率が増加するにつれて、スキップ可能な特徴要素の割合は徐々に減少する。
図7cから、動的ピークに基づいてスキップする特徴マップ符号化および復号化方法の曲線(すなわち、
図7cでは動的ピークとしてマークされている)は、固定ピークに基づいてスキップする特徴マップ符号化方法の曲線(すなわち、
図7cでは固定ピークとしてマークされている)の上にあることが理解され得る。換言すれば、画像圧縮率(すなわち、水平座標の数値が同じである)が同じである場合、動的ピークに基づいてスキップする特徴マップ符号化および復号化方法(すなわち、
図7cで動的ピークとしてマークされている)では、符号化プロセスがスキップされ得る特徴要素は、固定ピークに基づいてスキップする特徴マップ符号化方法(すなわち、
図7cで固定ピークとしてマークされている)よりも多い。
【0190】
図8は、本出願による特徴マップ符号化装置の構造の概略図である。特徴マップ符号化装置は、
図1の確率推定モジュール103およびデータ符号化モジュール104の統合であってもよい。本装置は、
第1の符号化対象特徴マップを取得し、第1の符号化対象特徴マップは、複数の特徴要素を含むように構成される、取得モジュール80と、符号化モジュール81であって、第1の符号化対象特徴マップに基づいて、複数の特徴要素の各々の第1の確率推定結果を決定し、第1の確率推定結果は、第1のピーク確率を含み、第1の符号化対象特徴マップ内の各特徴要素の第1のピーク確率に基づいて、特徴要素が第1の特徴要素であるかどうかを決定し、特徴要素が第1の特徴要素である場合にのみ、第1の特徴要素に対してエントロピー符号化を実施するように構成される、符号化モジュール81と、を含む。
【0191】
可能な実装形態では、第1の確率推定結果はガウス分布であり、第1のピーク確率はガウス分布の平均確率である。
【0192】
代替的に、第1の確率推定結果は混合ガウス分布である。混合ガウス分布は、複数のガウス分布を含む。第1のピーク確率は、ガウス分布の平均確率における最大値であるか、または第1のピーク確率は、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算される。
【0193】
可能な実装形態では、符号化モジュール81は、第1の閾値および特徴要素の第1のピーク確率に基づいて、特徴要素が第1の特徴要素であるかどうかを決定するように具体的には構成される。
【0194】
可能な実装形態では、符号化モジュール81は、第1の符号化対象特徴マップに基づいて複数の特徴要素の各々の第2の確率推定結果を決定し、第2の確率推定結果は第2のピーク確率を含み、各特徴要素の第2の確率推定結果に基づいて複数の特徴要素から第3の特徴要素セットを決定し、第3の特徴要素セット内の全ての特徴要素の第2のピーク確率に基づいて第1の閾値を決定し、第1の閾値に対してエントロピー符号化を実施するようにさらに構成される。
【0195】
可能な実装形態では、第1の閾値は、第3の特徴要素セット内の特徴要素に対応する第2のピーク確率のうちの最大の第2のピーク確率である。
【0196】
可能な実装形態では、第1の特徴要素の第1のピーク確率は第1の閾値以下である。
【0197】
可能な実装形態では、第2の確率推定結果はガウス分布であり、第2の確率推定結果は第2の確率分散値をさらに含む。第1の閾値は、第3の特徴要素セット内の特徴要素に対応する第2の確率分散値のうちの最小の第2の確率分散値である。
【0198】
可能な実装形態では、第1の確率推定結果はガウス分布であり、第1の確率推定結果は第1の確率分散値をさらに含む。第1の特徴要素の第1の確率分散値は、第1の閾値以上である。
【0199】
可能な実装形態では、第2の確率推定結果は、第2のピーク確率に対応する特徴値をさらに含む。符号化モジュール81は、事前設定された誤差、各特徴要素の数値、および各特徴要素の第2のピーク確率に対応する特徴値に基づいて、複数の特徴要素から第3の特徴要素セットを決定するように、具体的には構成される。
【0200】
可能な実装形態では、第3の特徴要素セット内の特徴要素は、
【数19】
の特徴を有する。
【数20】
は、特徴要素である。p(x,y,i)は、特徴要素の第2のピーク確率に対応する特徴値である。TH_2は、事前設定された誤差である。
【0201】
可能な実装形態では、第1の確率推定結果は第2の確率推定結果と同じである。符号化モジュール81は、第1の符号化対象特徴マップに基づいて第1の符号化対象特徴マップのサイド情報を取得し、各特徴要素の第1の確率推定結果を取得するために、サイド情報に対して確率推定を実施するように、具体的には構成される。
【0202】
可能な実装形態では、第1の確率推定結果は第2の確率推定結果とは異なる。符号化モジュール81は、第1の符号化対象特徴マップのサイド情報と、第1の符号化対象特徴マップに基づいて各特徴要素の第2のコンテキスト情報とを取得し、第2のコンテキスト情報は、その特徴要素の特徴要素であり、第1の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素であり、サイド情報および第2のコンテキスト情報に基づいて各特徴要素の第2の確率推定結果を取得するように具体的には構成される。
【0203】
可能な実装形態では、符号化モジュール81は、第1の符号化対象特徴マップに基づいて第1の符号化対象特徴マップのサイド情報を取得し、第1の符号化対象特徴マップ内の任意の特徴要素について、第1のコンテキスト情報およびサイド情報に基づいて特徴要素の第1の確率推定結果を決定するように具体的には構成される。第1の確率推定結果は、第1の確率ピークに対応する特徴値をさらに含む。第1のコンテキスト情報は、その特徴要素の特徴要素であり、第2の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である。第2の符号化対象特徴マップの値は、第1の特徴要素の数値と、第2の特徴要素の第1のピーク確率に対応する特徴値とを含む。第2の特徴要素は、第1の符号化対象特徴マップ内の第1の特徴要素以外の特徴要素である。
【0204】
可能な実装形態では、符号化モジュール81は、全ての第1の特徴要素のエントロピー符号化結果を符号化ビットストリームに書き込むようにさらに構成される。
【0205】
図9は、本出願による特徴マップ復号化装置の構造の概略図である。特徴マップ復号化装置は、
図1の確率推定モジュール103とデータ復号化モジュール105との統合であってもよい。特徴マップ復号化装置は、
取得モジュール90であって、復号化対象特徴マップのビットストリームを取得し、復号化対象特徴マップは、複数の特徴要素を含み、復号化対象特徴マップのビットストリームに基づいて複数の特徴要素の各々に対応する第1の確率推定結果を取得し、第1の確率推定結果は、第1のピーク確率を含むように構成される、取得モジュール90と、
復号化モジュール91であって、第1の閾値および各特徴要素に対応する第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素セットおよび第2の特徴要素セットを決定し、第1の特徴要素セットおよび第2の特徴要素セットに基づいて、復号化対象特徴マップを取得するように構成される、復号化モジュール91と、を含む。
【0206】
可能な実装形態では、第1の確率推定結果はガウス分布であり、第1のピーク確率はガウス分布の平均確率である。
【0207】
代替的に、第1の確率推定結果は混合ガウス分布である。混合ガウス分布は、複数のガウス分布を含む。第1のピーク確率は、ガウス分布の平均確率における最大値であるか、または第1のピーク確率は、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算される。
【0208】
可能な実装形態では、復号化対象特徴マップの値は、第1の特徴要素セット内の全ての第1の特徴要素の数値と、第2の特徴要素セット内の全ての第2の特徴要素の数値と、を含む。
【0209】
可能な実装形態では、第1の特徴要素セットは、空集合であるか、または第2の特徴要素セットは、空集合である。
【0210】
可能な実装形態では、第1の確率推定結果は、第1のピーク確率に対応する特徴値をさらに含む。復号化モジュール91は、第1の特徴要素に対応する第1の確率推定結果に基づいて、第1の特徴要素に対してエントロピー復号化を実施して、第1の特徴要素の数値を取得し、第2の特徴要素の第1のピーク確率に対応する特徴値に基づいて、第2の特徴要素の数値を取得するようにさらに構成される。
【0211】
可能な実装形態では、復号化モジュール91は、復号化対象特徴マップのビットストリームに基づいて第1の閾値を取得するようにさらに構成される。
【0212】
可能な実装形態では、第1の特徴要素の第1のピーク確率は第1の閾値以下であり、第2の特徴要素の第1のピーク確率は第1の閾値よりも大きい。
【0213】
可能な実装形態では、第1の確率推定結果はガウス分布である。第1の確率推定結果は、第1の確率分散値をさらに含む。第1の特徴要素の第1の確率分散値は、第1の閾値以上であり、第2の特徴要素の第1の確率分散値は、第1の閾値未満である。
【0214】
可能な実装形態では、取得モジュール90は、復号化対象特徴マップのビットストリームに基づいて復号化対象特徴マップに対応するサイド情報を取得し、サイド情報に基づいて各特徴要素に対応する第1の確率推定結果を取得するようにさらに構成される。
【0215】
可能な実装形態では、復号化モジュール91は、復号化対象特徴マップのビットストリームに基づいて、復号化対象特徴マップに対応するサイド情報を取得し、サイド情報および第1のコンテキスト情報に基づいて、符号化対象特徴マップ内の特徴要素ごとに各特徴要素の第1の確率推定結果を推定するようにさらに構成される。第1のコンテキスト情報は、その特徴要素の特徴要素であり、復号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である。
【0216】
図10は、本出願の一実施形態による特徴マップ符号化装置または特徴マップ復号化装置のハードウェア構造の概略図である。
図10に示される装置(装置は具体的にはコンピュータデバイス1000であってよい)は、メモリ1001と、プロセッサ1002と、通信インターフェース1003と、バス1004と、を含む。メモリ1001、プロセッサ1002、および通信インターフェース1003は、バス1004を介して互いに通信可能に接続される。
【0217】
メモリ1001は、読み出し専用メモリ(Read Only Memory、ROM)、静的記憶デバイス、動的記憶デバイス、またはランダムアクセスメモリ(Random Access Memory、RAM)であり得る。メモリ1001は、プログラムを記憶してよい。メモリ1001に記憶されたプログラムがプロセッサ1002によって実行されると、本出願の実施形態において提供される特徴マップ符号化方法のステップが実施されるか、または本出願の実施形態において提供される特徴マップ復号化方法のステップが実施される。
【0218】
プロセッサ1002は、汎用中央処理装置(Central Processing Unit、CPU)、マイクロプロセッサ、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、グラフィックス処理ユニット(graphics processing unit、GPU)、または1つ以上の集積回路とすることができ、関連するプログラムを実行して、本出願の実施形態における特徴マップ符号化装置もしくは特徴マップ復号化装置のユニットによって実施される必要がある機能を実装するか、または本出願の方法実施形態における特徴マップ符号化方法のステップを実施するか、または本出願の実施形態で提供される特徴マップ復号化方法のステップを実施するように構成される。
【0219】
代替的に、プロセッサ1002は、集積回路チップであってもよく、信号処理能力を有する。一実装形態プロセスでは、本出願における特徴マップ符号化方法のステップまたは特徴マップ復号化方法のステップは、プロセッサ1002内のハードウェアの統合論理回路またはソフトウェアの形態の命令を介して完了され得る。プロセッサ1002は、汎用プロセッサ、デジタルシグナルプロセッサ(Digital Signal Processing、DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)もしくは別のプログラマブルロジックデバイス、ディスクリートゲートもしくはトランジスタ論理デバイス、またはディスクリートハードウェア構成要素とすることができる。それは、本出願の実施形態において開示される方法、ステップ、および論理ブロック図を実装または実施することができる。汎用プロセッサはマイクロプロセッサであってもよく、またはプロセッサは任意の従来のプロセッサなどであってもよい。本出願の実施形態を参照して開示された方法におけるステップは、ハードウェア復号化プロセッサによって直接実施および完了されてよく、または、復号化プロセッサ内のハードウェアとソフトウェアモジュールとの組み合わせを使用することによって実施および完了されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリ、電気的消去可能プログラマブルメモリ、またはレジスタなど、当技術分野における成熟した記憶媒体内に位置されることができる。記憶媒体は、メモリ1001内に位置される。プロセッサ1002は、メモリ1001内の情報を読み出し、プロセッサ1002のハードウェアと組み合わせて、本出願の実施形態における特徴マップ符号化装置または特徴マップ復号化装置に含まれるユニットによって実施される必要がある機能を完了するか、または本出願の方法の実施形態における特徴マップ符号化方法または特徴マップ復号化方法を実施する。
【0220】
通信インターフェース1003は、コンピュータデバイス1000と別のデバイスまたは通信ネットワークとの間の通信を実装するために、トランシーバ装置、例えば、限定はしないが、トランシーバを使用する。
【0221】
バス1004は、コンピュータデバイス1000の構成要素(例えば、メモリ1001、プロセッサ1002、および通信インターフェース1003)の間で情報を伝送するための経路を含んでもよい。
【0222】
図8の特徴マップ符号化装置では、取得モジュール80は、コンピュータデバイス1000内の通信インターフェース1003に相当し、符号化モジュール81は、コンピュータデバイス1000内のプロセッサ1002に相当することを理解されたい。代替的に、
図9の特徴マップ復号化装置では、取得モジュール90は、コンピュータデバイス1000内の通信インターフェース1003に相当し、復号化モジュール91は、コンピュータデバイス1000内のプロセッサ1002に相当する。
【0223】
本出願のこの実施形態において説明されるコンピュータデバイス1000内の機能ユニットの機能については、前述の方法の実施形態における関連するステップの説明を参照されたいことに留意されたい。詳細は本明細書では再び説明されない。
【0224】
本出願の一実施形態は、コンピュータ可読記憶媒体をさらに提供する。コンピュータ可読記憶媒体は、コンピュータプログラムを記憶する。プログラムは、プロセッサによって実行されると、前述の方法の実施形態のいずれか1つに記録されたステップの一部または全部と、
図10に示される任意の機能モジュールの機能とを実装し得る。
【0225】
本出願の一実施形態は、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品がコンピュータまたはプロセッサ上で動作するとき、コンピュータまたはプロセッサは、前述の方法のうちのいずれか1つにおける1つ以上のステップを実施することが可能にされる。デバイス内の前述のモジュールがソフトウェア機能ユニットの形態で実装され、独立した製品として販売または使用されるとき、モジュールは、コンピュータ可読記憶媒体に記憶され得る。
【0226】
前述の実施形態では、実施形態における説明は、それぞれの焦点を有する。一実施形態において詳細に説明されていない部分については、他の実施形態における関連する説明を参照されたい。前述のプロセスのシーケンス番号は、本出願の種々の実施形態における実行シーケンスを意味しないことを理解されたい。プロセスの実行順序は、プロセスの機能および内部論理に従って決定されるべきであり、本出願の実施形態の実装形態プロセスに対するいかなる限定としても解釈されるべきではない。
【0227】
当業者は、本明細書で開示および説明された種々の例示的な論理ブロック、モジュール、およびアルゴリズムステップを参照して説明された機能が、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせによって実装され得ることを理解することができる。ソフトウェアによって実装される場合、例示的な論理ブロック、モジュール、およびステップを参照しながら説明した機能は、1つ以上の命令またはコードとしてコンピュータ可読媒体に記憶されるか、またはコンピュータ可読媒体を介して伝送され、ハードウェアベースの処理ユニットによって決定され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得るか、または(例えば、通信プロトコルに従って)ある場所から別の場所へのコンピュータプログラムの伝送を容易にする任意の通信媒体を含み得る。このようにして、コンピュータ可読媒体は、概して、(1)非一時的有形コンピュータ可読記憶媒体、または(2)信号もしくはキャリアなどの通信媒体に対応し得る。データ記憶媒体は、本出願で説明する技術を実装するための命令、コード、および/またはデータ構造を取り出すために1つ以上のコンピュータあるいは1つ以上のプロセッサによってアクセスされ得る任意の使用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。
【0228】
限定ではなく例として、かかるコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、CD-ROMもしくは別の光ディスク記憶装置、磁気ディス記憶装置もしくは別の磁気記憶装置、フラッシュメモリ、または命令もしくはデータ構造の形態で必要とされるプログラムコードを記憶することができ、コンピュータによってアクセスされ得る任意の他の媒体を含み得る。加えて、任意の接続は、コンピュータ可読媒体と適切に称される。例えば、命令が、ウェブサイト、サーバ、または別のリモートソースから、同軸ケーブル、光ファイバ、ツイストペア、デジタル加入者回線(digital subscriber line、DSL)、または赤外線、無線、もしくはマイクロウェーブなどのワイヤレス技術を介して伝送される場合、同軸ケーブル、光ファイバ、ツイストペア、DSL、または赤外線、無線、もしくはマイクロウェーブなどのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、キャリア、信号、または他の一時的媒体を含まないが、実際には非一時的有形媒体を意味することを理解されたい。本明細書で使用されるディスク(diskおよびdisc)は、コンパクトディスク(compact disc、CD)、レーザディスク、光ディスク、デジタル多用途ディスク(digital versatile disc、DVD)、およびブルーレイディスクを含む。ディスクは、通常、磁気的にデータを再生するが、ディスクは、レーザを使用することによって光学的にデータを再生する。上記の組み合わせも、コンピュータ可読媒体の範囲内に含まれるべきである。
【0229】
命令は、1つ以上のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または同等の集積回路もしくはディスクリート論理回路などの1つ以上のプロセッサによって決定され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または本明細書で説明された技術の実装形態に適用され得る任意の他の構造を指し得る。さらに、一部の態様では、本明細書で説明した例示的な論理ブロック、モジュール、およびステップを参照しながら説明した機能は、符号化および復号化のために構成された専用ハードウェアおよび/またはソフトウェアモジュール内に提供され得るか、あるいは複合コーデックに組み込まれ得る。さらに、本技術は、1つ以上の回路または論理要素において完全に実装され得る。
【0230】
本出願における技術は、ワイヤレスハンドセット、集積回路(integrated circuit、IC)、またはICのセット(例えば、チップセット)を含む、種々の装置またはデバイスにおいて実装され得る。本出願では、開示する技術を決定するように構成された装置の機能的態様を強調するために種々の構成要素、モジュール、またはユニットが説明されたが、それらの構成要素、モジュール、またはユニットは、異なるハードウェアユニットによる実現を必ずしも必要としない。実際には、上記で説明したように、種々のユニットは、適切なソフトウェアおよび/またはファームウェアと組み合わせてコーデックハードウェアユニットに組み合わせられ得るか、または(上記で説明した1つ以上のプロセッサを含む)相互運用可能なハードウェアユニットによって提供され得る。
【0231】
前述の説明は、本出願の例示的な特定の実装形態にすぎず、本出願の保護範囲を限定するように意図されていない。本出願において開示される技術的範囲内で当業者によって容易に考え出される任意の変形または置換は、本出願の保護範囲内に含まれるものとする。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
【符号の説明】
【0232】
1 特徴要素
2 特徴要素
3 特徴要素
4 特徴要素
5 特徴要素
80 取得モジュール
81 符号化モジュール
90 取得モジュール
91 復号化モジュール
101 データ取り込みモジュール
102 特徴抽出モジュール
103 確率推定モジュール
104 データ符号化モジュール
105 データ復号化モジュール
106 データ再構成モジュール
107 ディスプレイモジュール
1000 コンピュータデバイス
1001 メモリ
1002 プロセッサ
1003 通信インターフェース
1004 バス
【手続補正書】
【提出日】2024-04-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
特徴マップ復号化方法であって、前記方法は、
復号化対象特徴マップのビットストリームを取得するステップであって、前記復号化対象特徴マップは、複数の特徴要素を含む、ステップと、
前記復号化対象特徴マップの前記ビットストリームに基づいて前記複数の特徴要素の各々に対応する第1の確率推定結果を取得するステップであって、前記第1の確率推定結果は、第1のピーク確率を含む、ステップと、
第1の閾値および各特徴要素に対応する前記第1のピーク確率に基づいて、前記複数の特徴要素から第1の特徴要素
のセットおよび第2の特徴要素
のセットを決定するステップと、
前記第1の特徴要素
のセットおよび前記第2の特徴要素
のセットに基づいて、復号化された特徴マップを取得するステップと、を含む、方法。
【請求項2】
前記第1の確率推定結果は、ガウス分布であり、前記第1のピーク確率は、前記ガウス分布の平均確率であるか、または、前記第1の確率推定結果は、混合ガウス分布であり、前記混合ガウス分布は、複数のガウス分布を含み、前記第1のピーク確率は、前記ガウス分布の平均確率における最大値であるか、または、前記第1のピーク確率は、前記混合ガウス分布における前記ガウス分布の平均確率および前記ガウス分布の重みに基づいて計算される、請求項1に記載の方法。
【請求項3】
前記復号化された特徴マップの値は、前記第1の特徴要素
のセット内の全ての第1の特徴要素の数値と、前記第2の特徴要素
のセット内の全ての第2の特徴要素の数値と、を含む、請求項1または2に記載の方法。
【請求項4】
前記第1の特徴要素
のセットは、空集合であるか、または前記第2の特徴要素
のセットは、空集合である、請求項3に記載の方法。
【請求項5】
前記第1の確率推定結果は、前記第1のピーク確率に対応する特徴値をさらに含み、前記方法は、
前記第1の特徴要素の前記数値を取得するために、前記第1の特徴要素に対応する第1の確率推定結果に基づいて前記第1の特徴要素に対してエントロピー復号化を実施するステップと、
前記第2の特徴要素の第1のピーク確率に対応する特徴値に基づいて、前記第2の特徴要素の前記数値を取得するステップと、をさらに含む、請求項
3に記載の方法。
【請求項6】
第1の閾値および各特徴要素に対応する前記第1のピーク確率に基づいて、前記複数の特徴要素から第1の特徴要素
のセットおよび第2の特徴要素
のセットを決定する前記ステップの前に、前記方法は、
前記復号化対象特徴マップの前記ビットストリームに基づいて前記第1の閾値を取得するステップをさらに含む、請求項1
または2に記載の方法。
【請求項7】
前記第1の特徴要素の第1のピーク確率は、前記第1の閾値以下であり、前記第2の特徴要素の第1のピーク確率は、前記第1の閾値より大きい、請求項1
または2に記載の方法。
【請求項8】
前記復号化対象特徴マップの前記ビットストリームに基づいて前記複数の特徴要素の各々に対応する第1の確率推定結果を取得する前記ステップは、
前記復号化対象特徴マップの前記ビットストリームに基づいて前記復号化対象特徴マップに対応するサイド情報を取得するステップと、
前記サイド情報に基づいて各特徴要素に対応する前記第1の確率推定結果を取得するステップと、を含む、請求項1
または2に記載の方法。
【請求項9】
前記復号化対象特徴マップの前記ビットストリームに基づいて前記複数の特徴要素の各々に対応する第1の確率推定結果を取得する前記ステップは、
前記復号化対象特徴マップの前記ビットストリームに基づいて前記復号化対象特徴マップに対応するサイド情報を取得するステップと、
前記サイド情報および第1のコンテキスト情報に基づいて前記
復号化対象特徴マップ内の各特徴要素について各特徴要素の前記第1の確率推定結果を推定するステップであって、前記第1のコンテキスト情報は、前記特徴要素の特徴要素であり、前記復号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である、ステップと、を含む、請求項1
または2に記載の方法。
【請求項10】
特徴マップ符号化方法であって、前記方法は、
第1の符号化対象特徴マップを取得するステップであって、前記第1の符号化対象特徴マップは、複数の特徴要素を含む、ステップと、
前記第1の符号化対象特徴マップに基づいて、前記複数の特徴要素の各々の第1の確率推定結果を決定するステップであって、前記第1の確率推定結果は、第1のピーク確率を含む、ステップと、
前記第1の符号化対象特徴マップ内の各特徴要素の前記第1のピーク確率に基づいて、前記特徴要素が第1の特徴要素であるかどうかを決定するステップと、
前記特徴要素が前記第1の特徴要素である場合にのみ、前記第1の特徴要素に対してエントロピー符号化を実施するステップと、を含む、特徴マップ符号化方法。
【請求項11】
前記第1の符号化対象特徴マップ内の各特徴要素の前記第1のピーク確率に基づいて、前記特徴要素が第1の特徴要素であるかどうかを決定する前記ステップは、
第1の閾値および前記特徴要素の前記第1のピーク確率に基づいて、前記特徴要素が前記第1の特徴要素であるかどうかを決定するステップを含む、請求項1
0に記載の方法。
【請求項12】
前記方法は、
前記第1の符号化対象特徴マップに基づいて前記複数の特徴要素の各々の第2の確率推定結果を決定するステップであって、前記第2の確率推定結果は、第2のピーク確率を含む、ステップと、
各特徴要素の前記第2の確率推定結果に基づいて前記複数の特徴要素から第3の特徴要素
のセットを決定するステップと、
前記第3の特徴要素
のセット内の全ての特徴要素の第2のピーク確率に基づいて前記第1の閾値を決定するステップと、
前記第1の閾値に対してエントロピー符号化を実施するステップと、をさらに含む、請求項1
1に記載の方法。
【請求項13】
前記第1の閾値は、前記第3の特徴要素
のセット内の
前記特徴要素に対応する前記第2のピーク確率内の最大の第2のピーク確率である、請求項1
2に記載の方法。
【請求項14】
前記第1の特徴要素の第1のピーク確率は、前記第1の閾値以下である、請求項1
3に記載の方法。
【請求項15】
前記第2の確率推定結果は、前記第2のピーク確率に対応する特徴値をさらに含み、各特徴要素の前記第2の確率推定結果に基づいて、前記複数の特徴要素から第3の特徴要素
のセットを決定する前記ステップは、
事前設定された誤差、各特徴要素の数値、および各特徴要素の前記第2のピーク確率に対応する前記特徴値に基づいて、前記複数の特徴要素から前記第3の特徴要素
のセットを決定するステップを含む、請求項1
2に記載の方法。
【請求項16】
前記第3の特徴要素
のセット内の特徴要素は、
【数1】
の特徴を有し、
【数2】
は、前記特徴要素の数値であり、p(x,y,i)は、前記特徴要素の第2のピーク確率に対応する特徴値であり、TH_2は、前記事前設定された誤差である、請求項1
5に記載の方法。
【請求項17】
前記第1の確率推定結果は、前記第2の確率推定結果と同じであり、前記第1の符号化対象特徴マップに基づいて前記複数の特徴要素の各々の第1の確率推定結果を決定する前記ステップは、
前記第1の符号化対象特徴マップに基づいて前記第1の符号化対象特徴マップのサイド情報を取得するステップと、
各特徴要素の前記第1の確率推定結果を取得するために、前記サイド情報に対して確率推定を実施するステップと、を含む、請求項1
2に記載の方法。
【請求項18】
前記第1の確率推定結果は、前記第2の確率推定結果とは異なり、前記第1の符号化対象特徴マップに基づいて前記複数の特徴要素の各々の第2の確率推定結果を決定する前記ステップは、
前記第1の符号化対象特徴マップのサイド情報と、前記第1の符号化対象特徴マップに基づいて各特徴要素の第2のコンテキスト情報と、を取得するステップであって、前記第2のコンテキスト情報は、前記特徴要素の特徴要素であり、前記第1の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である、ステップと、
前記サイド情報および前記第2のコンテキスト情報に基づいて各特徴要素の前記第2の確率推定結果を取得するステップと、を含む、請求項1
2に記載の方法。
【請求項19】
前記第1の符号化対象特徴マップに基づいて前記複数の特徴要素の各々の第1の確率推定結果を決定する前記ステップは、
前記第1の符号化対象特徴マップに基づいて前記第1の符号化対象特徴マップの前記サイド情報を取得するステップと、
前記第1の符号化対象特徴マップ内の任意の特徴要素について、第1のコンテキスト情報および前記サイド情報に基づいて、前記特徴要素の第1の確率推定結果を決定するステップであって、前記第1の確率推定結果は、前記第1の
ピーク確率に対応する特徴値をさらに含み、前記第1のコンテキスト情報は、前記特徴要素
に対応し、第2の符号化対象特徴マップ内の事前設定された領域範囲内にあ
る特徴要素であり、前記第2の符号化対象特徴マップの値は、前記第1の特徴要素の数値およ
び第2の特徴要素の第1のピーク確率に対応する特徴値を含み、前記第2の特徴要素は、前記第1の符号化対象特徴マップ内の前記第1の特徴要素以外の特徴要素である、ステップと、を含む、請求項1
8に記載の方法。
【請求項20】
前記方法は、
全ての前記第1の特徴要素のエントロピー符号化結果を符号化ビットストリームに書き込むステップをさらに含む、請求項10
または11に記載の方法。
【請求項21】
特徴マップ復号化装置であって、
取得モジュールであって、復号化対象特徴マップのビットストリームを取得し、前記復号化対象特徴マップは、複数の特徴要素を含み、前記復号化対象特徴マップの前記ビットストリームに基づいて前記複数の特徴要素の各々に対応する第1の確率推定結果を取得し、前記第1の確率推定結果は、第1のピーク確率を含むように構成される、取得モジュールと、
復号化モジュールであって、第1の閾値および各特徴要素に対応する前記第1のピーク確率に基づいて、前記複数の特徴要素から第1の特徴要素
のセットおよび第2の特徴要素
のセットを決定し、前記第1の特徴要素
のセットおよび前記第2の特徴要素
のセットに基づいて、前記復号化対象特徴マップを取得するように構成される、復号化モジュールと、を備える、特徴マップ復号化装置。
【請求項22】
特徴マップ符号化装置であって、
第1の符号化対象特徴マップを取得し、前記第1の符号化対象特徴マップは、複数の特徴要素を含むように構成される、取得モジュールと、
符号化モジュールであって、前記第1の符号化対象特徴マップに基づいて、前記複数の特徴要素の各々の第1の確率推定結果を決定し、前記第1の確率推定結果は、第1のピーク確率を含み、前記第1の符号化対象特徴マップ内の各特徴要素の前記第1のピーク確率に基づいて、前記特徴要素が第1の特徴要素であるかどうかを決定し、前記特徴要素が前記第1の特徴要素である場合にのみ、前記第1の特徴要素に対してエントロピー符号化を実施するように構成される、符号化モジュールと、を備える、特徴マップ符号化装置。
【請求項23】
請求項1
または2に記載の方法を実施するように構成された処理回路を備える、デコーダ。
【請求項24】
請求項10
または11に記載の方法を実施するように構成された処理回路を備える、エンコーダ。
【請求項25】
プログラムコードを含むコンピュータプログラム製品であって、前記プログラムコードがコンピュータまたはプロセッサによって決定されると、請求項1
または2に記載の方法、または請求項10
または11に記載の方法が決定される、コンピュータプログラム製品。
【請求項26】
請求項
10に記載の符号化方法によって取得されたビットストリームを含む、非一時的コンピュータ可読記憶媒体。
【請求項27】
デコーダであって、
1つ以上のプロセッサと、
前記プロセッサに結合され、前記プロセッサによって決定されたプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記プロセッサによって決定されると、前記プログラムは、
前記デコーダが請求項1または2に記載の方法を実施することを可能にする、非一時的コンピュータ可読記憶媒体と、を備える、デコーダ。
【請求項28】
エンコーダであって、
1つ以上のプロセッサと、
前記プロセッサに結合され、前記プロセッサによって決定されたプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記プロセッサによって決定されると、前記プログラムは、
前記エンコーダが請求項10または11に記載の方法を実施することを可能にする、非一時的コンピュータ可読記憶媒体と、を備える、エンコーダ。
【請求項29】
請求項1
または2に記載の方法を実施するように構成された、または請求項10
または11に記載の方法を実施するように構成された処理回路を備える、データプロセッサ。
【請求項30】
プログラムコードを含む非一時的コンピュータ可読記憶媒体であって、前記プログラムコードがコンピュータデバイスによって決定されると、請求項1
または2に記載の方法、または請求項10
または11に記載の方法が実施される、非一時的コンピュータ可読記憶媒体。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年9月18日に中国国家知識産権局に出願された「FEATURE MAP ENCODING AND DECODING METHOD AND APPARATUS」という名称の中国特許出願第202111101920.9号の優先権を主張し、その全体が参照により本明細書に組み込まれる。本出願は、2022年3月25日に中国国家知識産権局に出願された「FEATURE MAP ENCODING AND DECODING METHOD AND APPARATUS」と題する中国特許出願第202210300566.0号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
【0002】
本出願の実施形態は、人工知能(AI)ベースのオーディオ/ビデオまたは画像圧縮技術の分野に関し、詳細には、特徴マップ符号化および復号化方法および装置に関する。
【背景技術】
【0003】
画像圧縮は、画像情報の効果的な伝送および記憶を実装するために、空間冗長性、視覚的冗長性、および統計的冗長性などの画像データ特徴を使用して、元の画像ピクセル行列をより少ないビットで非可逆または可逆方式で表す技術である。画像圧縮は、可逆圧縮と非可逆圧縮に分類される。可逆圧縮は、画像細部の損失を全く引き起こさないが、非可逆圧縮は、特定の程度まで画質を低減することを犠牲にして大きな圧縮比を達成している。非可逆画像圧縮アルゴリズムでは、通常、画像データの冗長情報を除去するために多くの技術が使用されている。例えば、量子化技術は、画像内の隣接するピクセル間の相関によって引き起こされる空間的冗長性、および人間の視覚系の知覚によって決定される視覚的冗長性を除去するために使用されている。画像データの統計的冗長性を除去するために、エントロピーコーディングおよび変換技術が使用されている。JPEGおよびBPGなどの成熟した非可逆画像圧縮規格は、従来の非可逆画像圧縮技術に関する当業者による数十年の研究および最適化の後に形成された。
【0004】
しかしながら、画像圧縮技術が、圧縮効率を改善しながら画像圧縮品質を保証することができない場合、画像圧縮技術は、現代のマルチメディアアプリケーションデータの増加する要件を満たすことができない。
【発明の概要】
【課題を解決するための手段】
【0005】
本出願は、符号化および復号化の複雑さを低減しながら符号化および復号化の性能を改善するための、特徴マップ符号化および復号化方法ならびに装置を提供する。
【0006】
第1の態様によれば、本出願は、特徴マップ復号化方法を提供する。本方法は、複数の特徴要素を含む復号化対象特徴マップのビットストリームを取得することと、復号化対象特徴マップのビットストリームに基づいて、複数の特徴要素の各々に対応する第1の確率推定結果を取得することであって、第1の確率推定結果は、第1のピーク確率を含む、ことと、第1の閾値および各特徴要素に対応する第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素のセットおよび第2の特徴要素のセットを決定することと、第1の特徴要素のセットおよび第2の特徴要素のセットに基づいて、復号化された特徴マップを取得することと、を含む。
【0007】
第1の閾値および各特徴要素の数値が固定値である対応する確率に基づいて複数の特徴要素から第1の特徴要素および第2の特徴要素を決定するための方法と比較して、本出願では、第1の閾値および各特徴要素に対応するピーク確率に基づいて第1の特徴要素および第2の特徴要素を決定するための方法はより正確であり、それによって、取得された復号化された特徴マップの精度を改善し、データ復号化性能を改善する。
【0008】
可能な実装形態では、第1の確率推定結果はガウス分布であり、第1のピーク確率はガウス分布の平均確率である。
【0009】
代替的に、第1の確率推定結果は混合ガウス分布である。混合ガウス分布は、複数のガウス分布を含む。第1のピーク確率は、ガウス分布の平均確率における最大値であるか、または第1のピーク確率は、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算される。
【0010】
可能な実装形態では、復号化された特徴マップの値は、第1の特徴要素のセット内の全ての第1の特徴要素の数値と、第2の特徴要素のセット内の全ての第2の特徴要素の数値と、を含む。
【0011】
可能な実装形態では、第1の特徴要素のセットは、空集合であるか、または第2の特徴要素のセットは、空集合である。
【0012】
可能な実装形態では、第1の確率推定結果は、第1のピーク確率に対応する特徴値をさらに含む。さらに、第1の特徴要素の数値を取得するために、第1の特徴要素に対応する第1の確率推定結果に基づいて、第1の特徴要素に対してエントロピー復号化が実施されてもよい。第2の特徴要素の数値は、第2の特徴要素の第1のピーク確率に対応する特徴値に基づいて取得される。この可能な実装形態では、コーディングされていない特徴要素(すなわち、第2の特徴要素)の値に固定値を割り当てることと比較して、本出願では、第2の特徴要素の第1のピーク確率に対応する特徴値が、コーディングされていない特徴要素(すなわち、第2の特徴要素)の値に割り当てられ、それによって、復号化された特徴マップの値における第2の特徴要素の数値の精度を改善し、データ復号化性能を改善する。
【0013】
可能な実装形態では、第1の閾値および各特徴要素に対応する第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素のセットおよび第2の特徴要素のセットを決定することの前に、第1の閾値は、復号化対象特徴マップのビットストリームに基づいてさらに取得され得る。この可能な実装形態では、第1の閾値が経験的なプリセット値である方法と比較して、復号化対象特徴マップは、復号化対象特徴マップの第1の閾値に対応し、第1の閾値の変更可能性および柔軟性が増加され、それによって、コーディングされていない特徴要素(すなわち、第2の特徴要素)の置換値と真の値との間の差を低減し、復号化された特徴マップの精度を改善する。
【0014】
可能な実装形態では、第1の特徴要素の第1のピーク確率は第1の閾値以下であり、第2の特徴要素の第1のピーク確率は第1の閾値よりも大きい。
【0015】
可能な実装形態では、第1の確率推定結果はガウス分布である。第1の確率推定結果は、第1の確率分散値をさらに含む。この場合、第1の特徴要素の第1の確率分散値は、第1の閾値以上であり、第2の特徴要素の第1の確率分散値は、第1の閾値未満である。この可能な実装形態では、確率推定結果がガウス分布であるとき、確率分散値に基づいて第1の特徴要素および第2の特徴要素を決定する時間計算量は、ピーク確率に基づいて第1の特徴要素および第2の特徴要素を決定する方式の時間計算量よりも低く、それによって、データ復号化速度を改善する。
【0016】
可能な実装形態では、復号化対象特徴マップに対応するサイド情報は、復号化対象特徴マップのビットストリームに基づいて取得される。各特徴要素に対応する第1の確率推定結果は、サイド情報に基づいて取得される。
【0017】
可能な実装形態では、復号化対象特徴マップに対応するサイド情報は、復号化対象特徴マップのビットストリームに基づいて取得される。各特徴要素の第1の確率推定結果は、サイド情報および第1のコンテキスト情報に基づいて、復号化対象特徴マップ内の各特徴要素について推定される。第1のコンテキスト情報は、特徴要素に対応し、復号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である。この可能な実装形態では、各特徴要素の確率推定結果は、サイド情報およびコンテキスト情報に基づいて取得され、それによって、確率推定結果の精度を改善し、符号化および復号化性能を改善する。
【0018】
第2の態様によれば、本出願は、特徴マップ符号化方法を提供する。本方法は、第1の符号化対象特徴マップを取得することであって、第1の符号化対象特徴マップは、複数の特徴要素を含む、ことと、第1の符号化対象特徴マップに基づいて複数の特徴要素の各々の第1の確率推定結果を決定することであって、第1の確率推定結果は、第1のピーク確率を含む、ことと、第1の符号化対象特徴マップ内の各特徴要素の第1のピーク確率に基づいて、特徴要素が第1の特徴要素であるかどうかを決定することと、特徴要素が第1の特徴要素である場合にのみ、第1の特徴要素に対してエントロピー符号化を実施することと、を含む。
【0019】
第2の態様における方法によれば、符号化対象特徴マップ内の各特徴要素に対してエントロピー符号化が実施される必要があるかどうかが決定され、それによって、符号化対象特徴マップ内の一部の特徴要素の符号化プロセスをスキップし、エントロピー符号化を実施するための要素の量を大幅に低減し、エントロピー符号化の複雑さを低減する。加えて、各特徴要素に対応する確率推定結果内の固定値に対応する確率に基づいて、特徴要素が符号化される必要があるかどうかを決定することと比較して、各特徴要素の確率ピークに基づいて、決定結果(特徴要素に対してエントロピー符号化が実施される必要があるかどうか)の信頼性が改善され、より多くの特徴要素の符号化プロセスがスキップされ、それによって、符号化速度をさらに改善し、符号化性能を改善する。
【0020】
可能な実装形態では、第1の確率推定結果はガウス分布であり、第1のピーク確率はガウス分布の平均確率である。
【0021】
代替的に、第1の確率推定結果は混合ガウス分布である。混合ガウス分布は、複数のガウス分布を含む。第1のピーク確率は、ガウス分布の平均確率における最大値であるか、または第1のピーク確率は、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算される。
【0022】
可能な実装形態では、第1の符号化対象特徴マップ内の各特徴要素について、特徴要素が第1の特徴要素であるかどうかが、特徴要素の第1の閾値および第1のピーク確率に基づいて決定される。
【0023】
可能な実装形態では、複数の特徴要素の各々の第2の確率推定結果が、第1の符号化対象特徴マップに基づいて決定され、第2の確率推定結果は、第2のピーク確率を含む。各特徴要素の第2の確率推定結果に基づいて、複数の特徴要素から第3の特徴要素のセットが決定される。第1の閾値は、第3の特徴要素のセット内の全ての特徴要素の第2のピーク確率に基づいて決定される。第1の閾値に対してエントロピー符号化が実施される。この可能な実装形態では、符号化対象特徴マップの第1の閾値は、符号化対象特徴マップの特徴要素に基づいて符号化対象特徴マップについて決定されてもよく、その結果、第1の閾値は、符号化対象特徴マップに対してより良好な適合性を有し、それにより、第1の閾値および特徴要素の第1のピーク確率に基づいて決定される決定結果(すなわち、特徴要素に対してエントロピー符号化が実施される必要があるかどうか)の信頼性を改善する。
【0024】
可能な実装形態では、第1の閾値は、第3の特徴要素のセット内の特徴要素に対応する第2のピーク確率のうちの最大の第2のピーク確率である。
【0025】
可能な実装形態では、第1の特徴要素の第1のピーク確率は第1の閾値以下である。
【0026】
可能な実装形態では、第2の確率推定結果はガウス分布であり、第2の確率推定結果は第2の確率分散値をさらに含む。第1の閾値は、第3の特徴要素のセット内の特徴要素に対応する第2の確率分散値のうちの最小の第2の確率分散値である。この場合、第1の確率推定結果はガウス分布であり、第1の確率推定結果は第1の確率分散値をさらに含む。第1の特徴要素の第1の確率分散値は、第1の閾値以上である。この可能な実装形態では、確率推定結果がガウス分布であるとき、確率分散値に基づいて第1の特徴要素を決定する時間計算量は、ピーク確率に基づいて第1の特徴要素を決定する時間計算量よりも低く、それによって、データ符号化速度を改善する。
【0027】
可能な実装形態では、第2の確率推定結果は、第2のピーク確率に対応する特徴値をさらに含む。さらに、第3の特徴要素のセットは、事前設定された誤差、各特徴要素の数値、および各特徴要素の第2のピーク確率に対応する特徴値に基づいて、複数の特徴要素から決定される。
【0028】
可能な実装形態では、第3の特徴要素
のセット内の特徴要素は、
【数1】
の特徴を有する。
【数2】
は、特徴要素の数値である。p(x,y,i)は、特徴要素の第2のピーク確率に対応する特徴値である。TH_2は、事前設定された誤差である。
【0029】
可能な実装形態では、第1の確率推定結果は第2の確率推定結果と同じである。この場合、第1の符号化対象特徴マップのサイド情報は、第1の符号化対象特徴マップに基づいて取得される。各特徴要素の第1の確率推定結果を取得するために、サイド情報に対して確率推定が実施される。
【0030】
可能な実装形態では、第1の確率推定結果は第2の確率推定結果とは異なる。この場合、第1の符号化対象特徴マップのサイド情報および各特徴要素の第2のコンテキスト情報が、第1の符号化対象特徴マップに基づいて取得される。第2のコンテキスト情報は、特徴要素に対応し、第1の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である。各特徴要素の第2の確率推定結果は、サイド情報および第2のコンテキスト情報に基づいて取得される。
【0031】
可能な実装形態では、第1の符号化対象特徴マップのサイド情報は、第1の符号化対象特徴マップに基づいて取得される。第1の符号化対象特徴マップ内の任意の特徴要素について、特徴要素の第1の確率推定結果が、第1のコンテキスト情報およびサイド情報に基づいて決定される。第1の確率推定結果は、第1の確率ピークに対応する特徴値をさらに含む。第1のコンテキスト情報は、特徴要素に対応し、第2の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である。第2の符号化対象特徴マップの値は、第1の特徴要素の数値と、第2の特徴要素の第1のピーク確率に対応する特徴値とを含む。第2の特徴要素は、第1の符号化対象特徴マップ内の第1の特徴要素以外の特徴要素である。このようにして、各特徴要素の確率推定結果は、サイド情報およびコンテキスト情報を参照して取得され、それによって、各特徴要素の確率推定結果がサイド情報のみに基づいて取得される方式と比較して、各特徴要素の確率推定結果の精度を改善する。
【0032】
可能な実装形態では、全ての第1の特徴要素のエントロピー符号化結果が符号化ビットストリームに書き込まれる。
【0033】
第3の態様によれば、本出願は、
取得モジュールであって、復号化対象特徴マップのビットストリームを取得し、復号化対象特徴マップは、複数の特徴要素を含み、復号化対象特徴マップのビットストリームに基づいて複数の特徴要素の各々に対応する第1の確率推定結果を取得し、第1の確率推定結果は、第1のピーク確率を含むように構成される、取得モジュールと、
復号化モジュールであって、第1の閾値および各特徴要素に対応する第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素のセットおよび第2の特徴要素のセットを決定し、第1の特徴要素のセットおよび第2の特徴要素のセットに基づいて、復号化された特徴マップを取得するように構成される、復号化モジュールと、を含む、特徴マップ復号化装置を提供する。
【0034】
取得モジュールおよび復号化モジュールのさらなる実装機能については、第1の態様または第1の態様の実装形態のいずれか1つを参照されたい。詳細は本明細書では再び説明されない。
【0035】
第4の態様によれば、本出願は、
第1の符号化対象特徴マップを取得し、第1の符号化対象特徴マップは、複数の特徴要素を含むように構成される、取得モジュールと、
符号化モジュールであって、第1の符号化対象特徴マップに基づいて、複数の特徴要素の各々の第1の確率推定結果を決定し、第1の確率推定結果は、第1のピーク確率を含み、第1の符号化対象特徴マップ内の各特徴要素の第1のピーク確率に基づいて、特徴要素が第1の特徴要素であるかどうかを決定し、特徴要素が第1の特徴要素である場合にのみ、第1の特徴要素に対してエントロピー符号化を実施するように構成される、符号化モジュールと、を含む、特徴マップ符号化装置を提供する。
【0036】
取得モジュールおよび符号化モジュールのさらなる実装機能については、第2の態様または第2の態様の実装形態のいずれか1つを参照されたい。詳細は本明細書では再び説明されない。
【0037】
第5の態様によれば、本出願は、デコーダを提供する。デコーダは、処理回路を含み、第1の態様および第1の態様の実装形態のいずれか1つによる方法を決定するように構成される。
【0038】
第6の態様によれば、本出願は、エンコーダを提供する。エンコーダは、処理回路を含み、第2の態様および第2の態様の実装形態のいずれか1つによる方法を決定するように構成される。
【0039】
第7の態様によれば、本出願は、プログラムコードを含むコンピュータプログラム製品を提供する。プログラムコードがコンピュータまたはプロセッサによって決定されるとき、第1の態様および第1の態様の実装形態のいずれか1つによる方法、または第2の態様および第2の態様の実装形態のいずれか1つによる方法が決定される。
【0040】
第8の態様によれば、本出願は、1つ以上のプロセッサと、プロセッサに結合され、プロセッサによって決定されたプログラムを記憶する非一時的コンピュータ可読記憶媒体とを含む、デコーダを提供する。プロセッサによって決定されるとき、プログラムは、デコーダが、第1の態様および第1の態様の実装形態のいずれか1つによる方法を決定することを可能にする。
【0041】
第9の態様によれば、本出願は、1つ以上のプロセッサと、プロセッサに結合され、プロセッサによって決定されたプログラムを記憶する非一時的コンピュータ可読記憶媒体とを含むエンコーダを提供する。プロセッサによって決定されると、プログラムは、エンコーダが、第2の態様および第2の態様の実装形態のいずれか1つによる方法を決定することを可能にする。
【0042】
第10の態様によれば、本出願は、プログラムコードを含む非一時的コンピュータ可読記憶媒体を提供する。プログラムコードがコンピュータデバイスによって決定されるとき、第1の態様および第1の態様の実装形態のいずれか1つによる方法、または第2の態様および第2の態様の実装形態のいずれか1つによる方法が決定される。
【0043】
第11の態様によれば、本出願は、復号化装置に関する。復号化装置は、第1の態様または第1の態様の方法の実施形態のいずれか1つによる挙動を実装する機能を有する。機能は、ハードウェアによって実装されてもよく、または対応するソフトウェアを決定するハードウェアによって実装されてもよい。ハードウェアまたはソフトウェアは、前述の機能に対応する1つ以上のモジュールを含む。
【0044】
第12の態様によれば、本出願は、符号化装置に関する。符号化装置は、第2の態様または第2の態様の方法の実施形態のいずれか1つによる挙動を実装する機能を有する。機能は、ハードウェアによって実装されてもよく、または対応するソフトウェアを決定するハードウェアによって実装されてもよい。ハードウェアまたはソフトウェアは、前述の機能に対応する1つ以上のモジュールを含む。
【図面の簡単な説明】
【0045】
【
図1】本出願の一実施形態によるデータ
コーディングシステムのアーキテクチャの概略図である。
【
図4a】本出願の一実施形態による確率推定モジュール103の入出力結果の概略図である。
【
図2a】本出願の一実施形態による確率推定モジュール103の出力結果の概略図である。
【
図2b】本出願の一実施形態による確率推定結果の概略図である。
【
図3】本出願の一実施形態による特徴マップ符号化方法の概略フローチャートである。
【
図4a】本出願の一実施形態による確率推定モジュール103の入出力結果の概略図である。
【
図4b】本出願の一実施形態による確率推定ネットワークの構造の概略図である。
【
図4c】本出願の一実施形態による
第1の閾値を決定する方法の概略フローチャートである。
【
図5】本出願の一実施形態による特徴マップ復号化方法の概略フローチャートである。
【
図6a】本出願の一実施形態による別の特徴マップ符号化方法の概略フローチャートである。
【
図6b】本出願の一実施形態による別の確率推定モジュール103の入出力結果の概略図である。
【
図7a】本出願の一実施形態による別の特徴マップ復号化方法の概略フローチャートである。
【
図7b】本出願の一実施形態による圧縮性能比較試験の実験結果の概略図である。
【
図7c】本出願の一実施形態による別の圧縮性能比較試験の実験結果の概略図である。
【
図8】本出願の一実施形態による特徴マップ符号化装置の構造の概略図である。
【
図9】本出願の一実施形態による特徴マップ復号化装置の構造の概略図である。
【
図10】本出願の一実施形態によるコンピュータデバイスの構造の概略図である。
【発明を実施するための形態】
【0046】
以下では、添付の図面を参照して、本出願の実施形態における技術的解決策を明確かつ完全に説明する。説明される実施形態は、本出願の一部の実施形態にすぎず、全ての実施形態ではないことは明らかである。
【0047】
本出願の明細書および添付の図面では、「第1」、「第2」などの用語は、異なるオブジェクトを区別すること、または同じオブジェクトの異なる処理を区別することが意図されるが、オブジェクトの特定の順序を説明するために使用されないことに留意されたい。加えて、本出願の説明における「含む(including)」、「有する(having)」という用語、またはそれらの任意の他の変形は、非排他的な包含をカバーすることが意図される。例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品、またはデバイスは、列挙されたステップまたはユニットに限定されず、他の列挙されていないステップまたはユニットを任意選択で含むか、あるいはプロセス、方法、製品、またはデバイスの他の固有のステップまたはユニットを任意選択で含む。本出願の実施形態では、「例(an example)」、「例えば(for example)」などの単語は、例、例示、または説明を与えることを表すために使用されることに留意されたい。本出願の実施形態において「例」または「例えば」として説明される任意の実施形態または設計方式は、別の実施形態または設計方式よりも好ましい、またはより多くの利点を有するものとして説明されるべきではない。具体的には、「例(example)」および「例えば(for example)」という単語の使用は、関連する概念を特定の方法で提示することが意図されている。本出願の実施形態では、「Aおよび/またはB」は、AおよびB、ならびにAまたはBという2つの意味を表す。A、および/またはB、および/またはCは、A、B、およびCのうちのいずれか1つを表すか、またはA、B、およびCのうちのいずれか2つを表すか、またはA、B、およびCを表す。以下では、添付の図面を参照して、本出願の技術的解決策を説明する。
【0048】
本出願の実施形態において提供される特徴マップ復号化方法および特徴マップ符号化方法は、データコーディング分野(オーディオコーディング分野、ビデオコーディング分野、および画像コーディング分野を含む)において使用され得る。具体的には、特徴マップ復号化方法および特徴マップ符号化方法は、アルバム管理、人間とコンピュータとの対話、オーディオ圧縮または伝送、ビデオ圧縮または伝送、画像圧縮または伝送、およびデータ圧縮または伝送のシナリオにおいて使用され得る。理解を容易にするために、本出願の実施形態は、特徴マップ復号化方法および特徴マップ符号化方法が画像コーディング分野において使用される例を使用することによって説明されているにすぎず、これは、本出願において提供される方法に対する限定と見なされることはできないことに留意されたい。
【0049】
具体的には、特徴マップ符号化方法および特徴マップ復号化方法がエンドツーエンド画像特徴マップ符号化および復号化システムにおいて使用される例が使用される。エンドツーエンド画像特徴マップ符号化および復号化システムは、画像符号化および画像復号化の2つの部分を含む。画像符号化は、ソース側において決定され、通常、(より効率的な記憶および/または伝送のために)ビデオ画像を表すために必要とされるデータの量を低減するために元のビデオ画像を(例えば、圧縮することによって)処理することを含む。画像復号化は、宛先側で決定され、通常、画像を再構成するためのエンコーダに対する逆処理を含む。エンドツーエンド画像特徴マップ符号化および復号化システムでは、本出願で提供される特徴マップ復号化方法および特徴マップ符号化方法に従って、符号化対象特徴マップ内の各特徴要素に対してエントロピー符号化が実施される必要があるかどうかが決定され得、それによって、一部の特徴要素の符号化プロセスをスキップし、エントロピー符号化を実施するための要素の量を低減し、エントロピー符号化の複雑さを低減する。加えて、各特徴要素の確率ピークに基づいて、決定結果(特徴要素に対してエントロピー符号化が実施される必要があるかどうか)の信頼性が改善され、それにより、画像圧縮性能を改善する。
【0050】
本出願の実施形態は、ニューラルネットワークの大規模なアプリケーションに関する。したがって、理解を容易にするために、以下では、本出願の実施形態におけるニューラルネットワークに関連する用語および概念について、まず説明する。
【0051】
1.エントロピーコーディング
エントロピーコーディングは、エントロピー原理に従って情報が失われないコーディングプロセスである。エントロピーコーディングは、量子化係数または別のシンタックス要素におけるエントロピーコーディングアルゴリズムまたはソリューションを使用して、コーディングされたビットストリームなどの形態で出力端によって出力され得るコーディングされたデータを取得し、その結果、デコーダなどは、復号化のために使用されるパラメータを受信し、使用することができる。コーディングされたビットストリームは、デコーダに伝送され得るか、またはデコーダによる後の伝送または取出しのためにメモリに記憶され得る。エントロピーコーディングアルゴリズムまたはソリューションは、可変長コーディング(variable length coding、VLC)ソリューション、コンテキスト適応型VLCソリューション(context adaptive VLC、CALVC)、算術コーディング方式、バイナリ化アルゴリズム、コンテキスト適応型バイナリ算術コーディング(context adaptive binary arithmetic coding、CABAC)、シンタックスベースコンテキスト適応型バイナリ算術コーディング(syntax-based context-adaptive binary arithmetic coding、SBAC)、確率間隔分割エントロピー(probability interval partitioning entropy、PIPE)コーディング、または別のエントロピーコーディング方法もしくは技術を含むが、これらに限定されない。
【0052】
2.ニューラルネットワーク
ニューラルネットワークは、ニューロンを含み得る。ニューロンは、x
sおよび1の切片を入力として使用する演算単位であり得る。演算単位の出力は、式(1)のように示されることができる:
【数3】
【0053】
s=1、2、・・・、またはnであり、nは1より大きい自然数であり、Wsはxsの重みであり、bはニューロンのバイアスである。fは、ニューラルネットワークに非線形特徴を導入して、ニューロンにおける入力信号を出力信号に変換するために使用されるニューロンの活性化関数(activation functions)である。活性化関数から出力された信号は、次の畳み込み層の入力として機能し得る。活性化関数はシグモイド関数であってもよい。ニューラルネットワークは、多数の単一のニューロンを互いに接続することによって形成されるネットワークである。具体的には、ニューロンの出力は、別のニューロンの入力であり得る。各ニューロンの入力は、ローカル受容野の特徴を抽出するために前のレイヤのローカル受容野に接続され得る。ローカル受容野は、複数のニューロンを含む領域であってもよい。
【0054】
3.深層ニューラルネットワーク(deep neural network、DNN)
DNNは、多層ニューラルネットワークとも称され、複数の隠れ層を有するニューラルネットワークとして理解されることができる。DNNは、異なる層の位置に基づいて分割され、その結果、DNN内のニューラルネットワークは、入力層、隠れ層、および出力層の3つのタイプに分類され得る。概して、第1の層は入力層であり、最後の層は出力層であり、中間層は隠れ層である。層は全結合されている。具体的には、i番目の層の任意のニューロンは、i+1番目の層の任意のニューロンに必ず接続される。
【0055】
DNNは複雑に見えるが、各層の作業は複雑ではない。簡単に言えば、DNNは、
【数4】
の線形関係式で表される。xは入力ベクトル、yは出力ベクトル、bはバイアスベクトル、Wは重み行列(係数とも称される)、α()は活性化関数である。各層では、かかる簡単な演算を入力ベクトルxに対して実施することにより、出力ベクトルyが取得される。大量のDNNレイヤに起因して、係数Wおよびバイアスベクトルbの量も大きい。これらのパラメータは、DNNにおいて以下のように定義される:係数Wは、一例として使用される。3層のDNNにおいて、第2の層の第4のニューロンから第3の層の第2のニューロンへの線形係数が、
【数5】
と定義されると仮定される。上付き文字3は、係数Wが位置される層を表し、下付き文字は、出力第3の層インデックス2および入力第2の層インデックス4に対応する。
【0056】
結論として、第(L-1)層のk番目のニューロンから第L層のj番目のニューロンへの係数が
【数6】
と定義される。
【0057】
入力層はパラメータWを有さないことに留意されたい。深層ニューラルネットワークでは、より多くの隠れ層が、ネットワークが現実世界において複雑なケースを説明することをより可能にする。理論的には、より多くのパラメータを有するモデルは、より高い複雑性およびより大きい「容量」を有する。これは、モデルがより複雑な学習タスクを完了できることを示す。深層ニューラルネットワークを訓練する過程は、重み行列を学習する過程であり、訓練の最終目的は、訓練された深層ニューラルネットワークの全ての層の重み行列(複数の層のベクトルWからなる重み行列)を取得することである。
【0058】
4.畳み込みネットワーク(convolutional neural network、CNN)
CNNは、畳み込み構造を有する深層ニューラルネットワークである。畳み込みネットワークは、畳み込み層およびサブサンプリング層を含む特徴抽出器を含む。特徴抽出器は、フィルタと見なされることができる。畳み込みプロセスは、訓練可能なフィルタおよび入力画像または畳み込み特徴平面(feature map)を使用することによって畳み込みを実施することと見なされ得る。畳み込み層は、入力信号に対して畳み込み処理を実施する畳み込みネットワーク内のニューロン層である。畳み込みネットワークの畳み込み層部では、1つのニューロンが、一部の隣接層ニューロンにのみ接続され得る。1つの畳み込み層は、通常、一部の特徴平面を含み、各特徴平面は、矩形配置にある一部のニューロンを含み得る。同じ特徴平面内のニューラルユニットは重みを共有し、本明細書で共有される重みは畳み込みカーネルである。重み共有は、画像情報抽出方式が位置と無関係であることとして理解され得る。本明細書で暗示される原理は、画像の一部の統計情報が他の部分の統計情報と同じであるということである。これは、ある部分で学習された画像情報が他の部分でも利用されることができることを意味する。したがって、学習によって取得された同じ画像情報は、画像上の全ての位置に対して使用されることができる。同じ畳み込み層で、複数の畳み込みカーネルが使用されて、異なる画像情報を抽出することができる。通常、畳み込みカーネルの量が多いほど、畳み込み演算に反映される画像情報が豊富であることを示す。
【0059】
畳み込みカーネルは、ランダムサイズ行列の形式で初期化されてもよい。畳み込みネットワークを訓練する過程において、畳み込みカーネルは、学習によって適切な重みを取得することができる。加えて、重み共有によって直接もたらされる利点は、畳み込みネットワークの層間の接続が低減され、過剰適合リスクが低減されることである。
【0060】
5.リカレントニューラルネットワーク(recurrent neural networks、RNN)
現実世界では、多くの要素が順序付けられ、相互接続される。機械が人間のような記憶能力を有することを可能にするために、RNNは、コンテキストから推論を実施するように開発される。
【0061】
RNNは、シーケンスデータを処理する。具体的には、シーケンスの現在の出力は、前の出力にも関連される。換言すれば、RNNの出力は、現在の入力情報および履歴メモリ情報に依存する。特定の表現形態は、ネットワークが以前の情報を記憶し、以前の情報を現在の出力の計算に適用することである。具体的には、隠れ層におけるノードが接続され、隠れ層の入力は、入力層の出力を含むだけでなく、前の瞬間における隠れ層の出力も含む。理論的には、RNNは任意の長さのシーケンスデータを処理することができる。RNNの訓練は、従来のCNNまたはDNNの訓練と同様である。誤差逆伝搬アルゴリズムも使用されるが、RNNが拡張される場合、RNNのパラメータ(Wなど)が共有されるという違いがある。これは、前述の例で説明した従来のニューラルネットワークとは異なる。加えて、勾配降下アルゴリズムの使用中、各ステップにおける出力は、現在のステップにおけるネットワークだけでなく、一部の前のステップにおけるネットワーク状態にも依存する。学習アルゴリズムは、逆伝搬スルータイム(back propagation through time、BPTT)アルゴリズムと称される。
【0062】
6.損失関数
深層ニューラルネットワークを訓練するプロセスでは、深層ニューラルネットワークの出力が実際に予想される予測値に可能な限り近いことが予想されるため、現在のネットワークの予測値と実際に予想される目標値とが比較されてもよく、次いで、ニューラルネットワークの各層の重みベクトルが、予測値と目標値との間の差に基づいて更新される(確かに、通常、第1の更新の前に初期化プロセスがあり、具体的には、パラメータは、深層ニューラルネットワークの全ての層について事前構成される)。例えば、ネットワークの予測値が大きい場合、重みベクトルは、予測値を減少させるように調整され、深層ニューラルネットワークが実際に期待される目標値、または実際に期待される目標値に非常に近い値を予測することができるまで、調整が継続的に実施される。したがって、「比較を通して、予測値と目標値との間の差異をどのように取得するか」は、事前定義される必要がある。これは、損失関数(loss function)または目的関数(objective function)である。損失関数および目的関数は、予測値と目標値との間の差を測定する重要な方程式である。損失関数が一例として使用される。損失関数の出力値(損失)が高いほど、差が大きいことを示す。したがって、深層ニューラルネットワークの学習は、損失を可能な限り最小化する過程である。
【0063】
7.逆伝搬アルゴリズム
畳み込みネットワークは、誤差逆伝搬(back propagation、BP)アルゴリズムに従って訓練プロセスにおいて初期超解像モデルのパラメータの値を補正してもよく、その結果、超解像モデルを再構成することの誤差損失がより小さくなる。具体的には、出力で誤差損失が発生するまで入力信号が順方向に転送され、誤差損失を収束させるように、逆伝搬誤差損失情報に基づいて初期超解像モデルのパラメータが更新される。逆伝搬アルゴリズムは、最適な超解像モデルの重み行列などのパラメータを取得することが意図された、誤差損失中心の逆伝搬運動である。
【0064】
8.敵対的生成ネットワーク
敵対的生成ネットワーク(generative adversarial network、GAN)は、深層ラーニングモデルである。モデルは、少なくとも2つのモジュールを含む:一方のモジュールは生成モデル(Generative Model)であり、他方のモジュールは弁別モデル(Discriminative Model)である。2つのモジュールは、より良い出力を生成するために、互いにゲームを通して学習するために使用される。生成モデルおよび弁別モデルの両方は、ニューラルネットワークであってもよく、具体的には、深層ニューラルネットワークまたは畳み込みニューラルネットワークであってもよい。GANの基本原理は以下の通りである:ピクチャを生成するためのGANを例として使用して、2つのネットワーク、すなわちG(Generator)およびD(Discriminator)が存在すると仮定される。Gはピクチャを生成するためのネットワークである。Gはランダムノイズzを受信し、ノイズを使用することによってピクチャを生成し、ここでピクチャはG(z)として示される。Dは、ピクチャが「リアル」であるかどうかを決定するために使用される弁別器ネットワークである。Dの入力パラメータはxであり、xはピクチャを表し、出力D(x)はxがリアルなピクチャである確率を表す。D(x)の値が1である場合、それはピクチャが100%リアルであることを示す。D(x)の値が0である場合、ピクチャがリアルではあり得ないことを示す。敵対的生成ネットワークを訓練する過程において、生成ネットワークGの目的は、できるだけリアルなピクチャを生成して、弁別ネットワークDを欺くことであり、弁別ネットワークDの目的は、Gによって生成されたピクチャとリアルなピクチャとをできるだけ区別することである。このようにして、動的な「ゲーム」プロセス、具体的には、「敵対的生成ネットワーク」における「敵対者」が、GとDとの間に存在する。最終的なゲーム結果は、理想的な状態では、Gが、リアルの画像と区別することが困難な画像G(z)を生成する可能性があり、Dが、Gによって生成された画像がリアルのものであるかどうかを決定することが困難であるということである。具体的には、D(G(z))=0.5である。このようにして、優れた生成モデルGが取得され、ピクチャを生成するために使用されることができる。
【0065】
9.ピクセル値
画像のピクセル値は、赤-緑-青(RGB)色値であり得る。ピクセル値は、色を表す長い整数であってもよい。例えば、ピクセル値は、256*Red+100*Green+76*Blueであり、ここで、Blueは青色成分を表し、Greenは緑色成分を表し、Redは赤色成分を表す。各色成分において、数値が小さいほど輝度が低いことを示し、数値が大きいほど輝度が高いことを示す。グレースケール画像の場合、ピクセル値はグレースケール値であり得る。
【0066】
以下では、本出願の実施形態において提供されるシステムアーキテクチャについて説明する。
図1は、本出願の一実施形態によるデータ
コーディングシステムのアーキテクチャを示す。データ
コーディングシステムのアーキテクチャは、データ取り込みモジュール101と、特徴抽出モジュール102と、確率推定モジュール103と、データ符号化モジュール104と、データ復号化モジュール105と、データ再構成モジュール106と、ディスプレイモジュール107と、を含む。
【0067】
データ取り込みモジュール101は、元の画像を取り込むように構成される。データ取り込みモジュール101は、例えば、現実世界画像を取り込むための任意の種類の画像取り込みデバイス、および/または任意のタイプの画像生成デバイス、例えば、コンピュータアニメーション画像を生成するためのコンピュータグラフィックス処理ユニット、または現実世界画像、コンピュータ生成画像(例えば、スクリーンコンテンツ、仮想現実(virtual reality、VR)画像)および/またはそれらの任意の組み合わせ(例えば、拡張現実(augmented reality、AR)画像)を取得および/または提供するための任意のタイプの他のデバイスを含んでもよく、またはそれらであってもよい。データ取り込みモジュール101はまた、画像を記憶するための任意のタイプのメモリまたはストレージであり得る。
【0068】
特徴抽出モジュール102は、データ取り込みモジュール101から元の画像を受信し、元の画像を前処理し、特徴抽出ネットワークを介して、前処理された画像から特徴マップ(すなわち、符号化対象特徴マップ)をさらに抽出するように構成される。特徴マップ(すなわち、符号化対象特徴マップ)は、複数の特徴要素を含む。具体的には、元の画像に対する前処理は、トリミング、色フォーマット変換(例えば、RGBからYcbCrへの変換)、色補正、ノイズ除去、正規化などを含むが、これらに限定されない。特徴抽出ネットワークは、ニューラルネットワーク、DNN、CNN、またはRNNのうちの1つまたは変形であり得る。特徴抽出ネットワークの具体的な形態は、本明細書では具体的には限定されない。任意選択で、特徴抽出モジュール102は、例えば、スカラ量子化またはベクトル量子化を通じて、特徴マップ(すなわち、符号化対象特徴マップ)に対して丸めを実施するようにさらに構成される。特徴マップは複数の特徴要素を含み、特徴マップの値は全ての特徴要素の数値を含むことが学習されるべきである。任意選択で、特徴抽出モジュール102は、サイド情報抽出ネットワークをさらに含む。具体的には、特徴抽出ネットワークによって出力された特徴マップを出力することに加えて、特徴抽出モジュール102は、特徴マップのものであり、サイド情報抽出ネットワークを介して抽出されたサイド情報をさらに出力する。サイド情報抽出ネットワークは、ニューラルネットワーク、DNN、CNN、またはRNNのうちの1つまたは変形であってもよい。特徴抽出ネットワークの具体的な形態は、本明細書では具体的には限定されない。
【0069】
確率推定モジュール103は、特徴マップ(すなわち、符号化対象特徴マップ)の複数の特徴要素の各々に対応する値の確率を推定する。例えば、符号化対象特徴マップは、m個の特徴要素を含み、mは正の整数である。
図2aに示すように、確率推定モジュール103は、m個の特徴要素の各々の確率推定結果を出力する。例えば、特徴要素の確率推定結果が
図2bに示されることができる。
図2bの水平座標は、特徴要素の可能な数値(または特徴要素の可能な値と称される)である。垂直座標は、各可能な数値の可能性(または特徴要素の可能な値と称される)を示す。例えば、点Pは、特徴要素の値が[a-0.5,a+0.5]である確率がpであることを示す。
【0070】
データ符号化モジュール104は、特徴抽出モジュール102からの特徴マップ(すなわち、符号化対象特徴マップ)および確率推定モジュール103からの各特徴要素の確率推定結果に基づいてエントロピー符号化を実施して、符号化されたビットストリーム(本明細書では、復号化対象特徴マップのビットストリームとも称される)を生成するように構成される。
【0071】
データ復号化モジュール105は、データ符号化モジュール104から符号化されたビットストリームを受信し、符号化されたビットストリームおよび確率推定モジュール103からの各特徴要素の確率推定結果に基づいてエントロピー復号化をさらに実施して、復号化された特徴マップ(または、復号化された特徴マップの値として理解される)を取得するように構成される。
【0072】
データ再構成モジュール106は、データ復号化モジュール105からの復号化画像特徴マップに対して後処理を実施し、画像再構成ネットワークを介して後処理された復号化画像特徴マップに対して画像再構成を実施して、復号化画像を取得するように構成される。後処理操作は、色フォーマット変換(例えば、YcbCrからRGBへの変換)、色補正、トリミング、リサンプリングなどを含むが、これらに限定されない。画像再構成ネットワークは、ニューラルネットワーク、DNN、CNN、またはRNNのうちの1つまたは変形であり得る。特徴抽出ネットワークの具体的な形態は、本明細書では具体的には限定されない。
【0073】
ディスプレイモジュール107は、データ再構成モジュール106からの復号化された画像を表示して、ユーザ、視聴者などに画像を表示するように構成される。ディスプレイモジュール107は、再構成されたオーディオまたは再構成された画像を表すための任意のタイプのプレーヤまたはディスプレイ、例えば、統合されたまたは外部のディスプレイまたはディスプレイであるか、またはそれを含み得る。例えば、ディスプレイは、液晶ディスプレイ(liquid crystal display、LCD)、有機発光ダイオード(organic light-emitting diode、OLED)ディスプレイ、プラズマディスプレイ、プロジェクタ、マイクロLEDディスプレイ、液晶オンシリコン(liquid crystal on silicon、LCoS)、デジタルライトプロセッサ(digital light processor、DLP)、または任意のクラスの他のディスプレイを含み得る。
【0074】
データコーディングシステムのアーキテクチャは、デバイスの機能モジュールであり得ることに留意されたい。データコーディングシステムのアーキテクチャは、代替的に、エンドツーエンドデータコーディングシステムであってもよく、すなわち、データコーディングシステムのアーキテクチャは、2つのデバイス、すなわち、ソースデバイスおよび宛先デバイスを含む。ソースデバイスは、データ取り込みモジュール101と、特徴抽出モジュール102と、確率推定モジュール103と、データ符号化モジュール104とを含み得る。宛先デバイスは、データ復号化モジュール105と、データ再構成モジュール106と、ディスプレイモジュール107とを含み得る。ソースデバイスが符号化ビットストリームを宛先デバイスに提供するように構成される方式1では、ソースデバイスは、通信インターフェースを介して符号化ビットストリームを宛先デバイスに送信することができる。通信インターフェースは、ソースデバイスと宛先デバイスとの間の直接通信リンク、例えば、直接ワイヤードまたはワイヤレス接続、あるいは任意のタイプのネットワーク、例えば、ワイヤードネットワーク、ワイヤレスネットワーク、それらの任意の組み合わせ、任意のタイプのプライベートネットワークおよびパブリックネットワーク、またはそれらの任意の組み合わせを通したものであり得る。ソースデバイスが符号化ビットストリームを宛先デバイスに提供するように構成される方式2では、ソースデバイスは、符号化ビットストリームを記憶デバイスに記憶し得、宛先デバイスは、記憶デバイスから符号化ビットストリームを取得し得る。
【0075】
本出願で言及される特徴マップ符号化方法は、
図1の確率推定モジュール103およびデータ符号化モジュール104によって主に実施され得ることに留意されたい。本出願で言及される特徴マップ復号化方法は、
図1の確率推定モジュール103およびデータ復号化モジュール105によって、主に実施され得る。
【0076】
一例では、本出願で提供される特徴マップ符号化方法は、符号化デバイスによって実施され、符号化デバイスは、
図1の確率推定モジュール103およびデータ符号化モジュール104を主に含み得る。本出願において提供される特徴マップ符号化方法に関して、符号化デバイスは、以下のステップ、すなわち、ステップ11からステップ14を
実施し得る。
【0077】
ステップ11:符号化デバイスは、第1の符号化対象特徴マップを取得し、第1の符号化対象特徴マップは、複数の特徴要素を含む。
【0078】
ステップ12:符号化デバイス内の確率推定モジュール103は、第1の符号化対象特徴マップに基づいて、複数の特徴要素の各々の第1の確率推定結果を決定し、第1の確率推定結果は、第1のピーク確率を含む。
【0079】
ステップ13:符号化デバイスは、第1の符号化対象特徴マップ内の各特徴要素の第1のピーク確率に基づいて、特徴要素が第1の特徴要素であるかどうかを決定する。
【0080】
ステップ14:符号化デバイス内のデータ符号化モジュール104は、特徴要素が第1の特徴要素である場合にのみ、第1の特徴要素に対してエントロピー符号化を実施する。
【0081】
別の例では、本出願において提供される特徴マップ復号化方法は、復号化デバイスによって
実施され、復号化デバイスは、
図1の確率推定モジュール103およびデータ復号化モジュール105を主に含む。本出願において提供される特徴マップ復号化方法に関して、復号化デバイスは、以下のステップ、すなわち、ステップ21からステップ24を含み得る。
【0082】
ステップ21:復号化デバイスは、復号化対象特徴マップのビットストリームを取得し、復号化対象特徴マップは、複数の特徴要素を含む。
【0083】
ステップ22:復号化デバイス内の確率推定モジュール103は、復号化対象特徴マップのビットストリームに基づいて、複数の特徴要素の各々に対応する第1の確率推定結果を取得し、第1の確率推定結果は、第1のピーク確率を含む。
【0084】
ステップ23:復号化デバイスは、第1の閾値および各特徴要素に対応する第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素のセットおよび第2の特徴要素のセットを決定する。
【0085】
ステップ24:復号化デバイス内のデータ復号化モジュール105は、第1の特徴要素のセットおよび第2の特徴要素のセットに基づいて、復号化された特徴マップを取得する。
【0086】
以下では、添付の図面を参照して、本出願において提供される特徴マップ復号化方法および特徴マップ符号化方法の特定の実装形態を詳細に説明する。以下では、
図3に示されるエンコーダ側での実施手順の概略図、および
図5に示されるデコーダ側での実施手順の概略図は、特徴マップ符号化および復号化方法の概略フローチャートと見なされ得る。
図6aに示されるエンコーダ側での実施手順の概略図、および
図7aに示されるデコーダ側での実施手順の概略図は、特徴マップ符号化および復号化方法の概略フロー図と見なされることができる。
【0087】
エンコーダ側:
図3は、本出願の一実施形態による特徴マップ符号化方法の概略フローチャートである。特徴マップ符号化方法の手順は、S301~S306を含む。
【0088】
S301:第1の符号化対象特徴マップを取得し、第1の符号化対象特徴マップは複数の特徴要素を含む。
【0089】
元のデータに対して特徴抽出が実施された後、符号化対象特徴マップyが取得される。さらに、符号化対象特徴マップyが量子化され、すなわち、浮動小数点数の特徴値が整数特徴値を取得するために丸められて、量子化された符号化対象特徴マップ
【数7】
(すなわち、第1の符号化対象特徴マップ)を取得し、特徴マップ
【数8】
内の特徴要素は、
【数9】
によって示される。具体的な例では、
詳細については、図1に示されるデータ取り込みモジュール101によって取り込まれた元の画像の具体的な説明、および特徴抽出モジュール102によって符号化対象特徴マップを取得することの具体的な説明を参照されたい。
【0090】
S302:第1の符号化対象特徴マップに基づいて、第1の符号化対象特徴マップのサイド情報を取得する。
【0091】
サイド情報は、符号化対象特徴マップに対するさらなる特徴抽出を通じて取得された特徴マップとして理解されてよく、サイド情報に含まれる特徴要素の量は、符号化対象特徴マップ内の特徴要素の量より少ない。
【0092】
可能な実装形態では、第1の符号化対象特徴マップのサイド情報は、サイド情報抽出ネットワークを介して取得され得る。サイド情報抽出ネットワークは、RNN、CNN、RNNの変形、CNNの変形、または別の深層ニューラルネットワーク(または別の深層ニューラルネットワークの変形)を使用し得る。これは、本出願では具体的には限定されない。
【0093】
S303:サイド情報に基づいて各特徴要素の第1の確率推定結果を取得し、第1の確率推定結果は、第1のピーク確率を含む。
【0094】
図4aに示されるように、サイド情報は、
図1の確率推定モジュール103への入力として使用され、確率推定モジュール103からの出力は、各特徴要素の第1の確率推定結果である。確率推定モジュール103は、確率推定ネットワークであってもよく、確率推定ネットワークは、RNN、CNN、RNNの変形、CNNの変形、または他の深層ニューラルネットワーク(または他の深層ニューラルネットワークの変形)を使用してもよい。
図4bは、確率推定ネットワークの構造の概略図である。
図4bでは、確率推定ネットワークは畳み込みネットワークであり、畳み込みネットワークは5つのネットワーク層、すなわち3つの畳み込み層と2つの非線形活性化層とを含む。確率推定モジュール103は、非ネットワークの従来の確率推定方法に従って、代替的に実装されてもよい。確率推定方法は、最大尤度推定、最大事後推定、および最大尤度推定などの統計的方法を含むが、これらに限定されない。
【0095】
第1の符号化対象特徴マップ内の任意の特徴要素
【数10】
に対して、特徴要素
【数11】
の第1の確率推定結果は、特徴要素
【数12】
の各可能な値(または各可能な数値と称される)の確率である。
図2bを参照する。例えば、横軸は、特徴要素
【数13】
の各可能な値(または各可能な数値と称される)を示し、縦軸は、各可能な値(または各可能な数値と称される)の可能性を示す。第1のピーク確率は、第1の確率推定結果における最大確率であり、第1の確率推定結果における確率ピークと称されることもある。
図2bに示すように、点Pの垂直座標上の数値pは、第1の確率推定結果における第1のピーク確率である。
【0096】
可能な実装形態では、第1の確率推定結果はガウス分布であり、第1のピーク確率はガウス分布の平均確率である。例えば、第1の確率推定結果は、
図2bに示されるガウス分布であり、第1のピークは、ガウス分布の平均確率、すなわち、平均値aに対応する確率pである。
【0097】
別の可能な実装形態では、第1の確率推定結果は混合ガウス分布である。混合ガウス分布は、複数のガウス分布を含む。換言すれば、混合ガウス分布は、重み付けを介してガウス分布にガウス分布の重みを乗算することによって取得され得る。可能なケースでは、第1のピーク確率は、ガウス分布の平均確率における最大値である。代替的に、別の可能なケースでは、第1のピーク確率は、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算される。
【0098】
例えば、第1の確率推定結果は混合ガウス分布であり、混合ガウス分布は、ガウス分布1、ガウス分布2、およびガウス分布3を重み付けすることによって取得される。ガウス分布1の重みはw1であり、ガウス分布2の重みはw2であり、ガウス分布3の重みはw3である。ガウス分布1の平均確率はp1である。ガウス分布2の平均確率はp2である。ガウス分布3の平均確率はp3であり、p1>p2>p3である。第1のピーク確率がガウス分布の平均確率における最大値であるとき、第1のピーク確率は、ガウス分布の平均確率の最大値である(すなわち、ガウス分布1の平均確率はp1である)。第1のピーク確率が、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算されるとき、第1のピーク確率は式(2)に示される。
第1のピーク確率=p1×w1+p2×w2+p3×w3 (2)
【0099】
第1の確率推定結果が混合ガウス分布である場合、混合ガウス分布におけるガウス分布に対応する重みが取得され、確率推定ネットワーク(例えば、確率推定モジュール103)を介して出力されてもよいことが学習されるべきである。換言すれば、各特徴要素の第1の確率推定結果(すなわち、混合ガウス分布)を取得するとき、確率推定ネットワークは、混合ガウス分布に含まれるガウス分布に対応する重みも取得する。
【0100】
S304:各特徴要素の第1の確率推定結果に基づいて第1の閾値を決定する。
【0101】
可能な実装形態では、第3の特徴要素のセットが、第1の符号化対象特徴マップ内の各特徴要素の第1の確率推定結果に基づいて、第1の符号化対象特徴マップ内の複数の特徴要素から決定される。さらに、第1の閾値は、第3の特徴要素のセット内の全ての特徴要素の第1の確率推定結果に基づいて決定される。
【0102】
換言すれば、第1の閾値を決定するプロセスは、2つのステップに分割され得る。具体的には、ステップS401
およびS402を含む、第1の閾値を決定する概略フローチャートが
図4cに示されている。
【0103】
S401:第1の符号化対象特徴マップに含まれる複数の特徴要素から第3の特徴要素のセットを決定する。
【0104】
第3の特徴要素のセットは、第1の符号化対象特徴マップ内の各特徴要素の第1の確率推定結果に基づいて、第1の符号化対象特徴マップ内の複数の特徴要素から決定される。第3の特徴要素のセットは、第1の閾値を決定するための特徴要素セットとして理解されてもよい。
【0105】
可能な実装形態では、第3の特徴要素
のセットは、事前設定された誤差、第1の符号化対象特徴マップ内の各特徴要素の数値、および各特徴要素の第1のピーク確率に対応する特徴値に基づいて、複数の特徴要素から決定されてもよい。各特徴要素の第
1のピーク確率に対応する特徴値は、特徴要素の第1の確率推定結果における第1のピーク確率に対応する特徴要素の可能な値(または可能な数値)、例えば、
図2bにおける点Pの水平座標数値aである。事前設定された誤差値は、特徴マップ符号化方法における許容可能な誤差として理解されてもよく、経験値に基づいて、またはアルゴリズムに従って決定されてもよい。
【0106】
具体的には、決定された第3の特徴要素セット内の特徴要素は、式(3)に示される特徴を有する。
【数14】
【0107】
【数15】
は、特徴要素
【数16】
の数値であり、p(x,y,i)は、特徴要素
【数17】
の第1のピーク確率に対応する特徴値であり、TH_2は、事前設定された誤差である。
【0108】
例えば、第1の符号化対象特徴マップに含まれる複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。第1の符号化対象特徴マップの複数の特徴要素における各特徴要素の第1の確率推定結果は、確率推定モジュールを介して取得されている。この場合、事前設定された誤差e、各特徴要素の数値、および各特徴要素に対応する第1の確率推定結果の第1のピーク確率(以下、略して特徴要素の第1のピーク確率と称される)に基づいて、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5から、式(3)を満たす特徴要素が選択されて、第3の特徴要素のセットを形成する。特徴要素1の数値と特徴要素1に対応する第1のピーク確率の特徴値との間の絶対差がTH_2よりも大きい場合、特徴要素1は式(3)を満たす。特徴要素2の数値と特徴要素2に対応する第1のピーク確率の特徴値との間の絶対差がTH_2よりも大きい場合、特徴要素2は式(3)を満たす。特徴要素3の数値と特徴要素3に対応する第1のピーク確率の特徴値との間の絶対差がTH_2未満である場合、特徴要素3は式(3)を満たさない。特徴要素4の数値と特徴要素4に対応する第1のピーク確率の特徴値との間の絶対差がTH_2に等しい場合、特徴要素4は式(3)を満たさない。特徴要素5の数値と特徴要素5に対応する第1のピーク確率の特徴値との間の絶対差がTH_2よりも大きい場合、特徴要素5は式(3)を満たす。結論として、特徴要素1、特徴要素2、および特徴要素5は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5からの第3の特徴要素であると決定され、第3の特徴要素のセットを形成する。
【0109】
S402:第3の特徴要素のセット内の全ての特徴要素の第1の確率推定結果に基づいて第1の閾値を決定する。
【0110】
第1の閾値は、第3の特徴要素のセット内の特徴要素の第1の確率推定結果の形式に基づいて決定される。第1の確率推定結果の形態は、ガウス分布または別の形態の確率分布(限定はしないが、ラプラス分布または混合ガウス分布を含む)を含む。
【0111】
以下は、第1の確率推定結果の形式に基づいて第1の閾値を決定する方式を詳細に説明する。
【0112】
方式1:第1の閾値は、第3の特徴要素のセット内の特徴要素に対応する第1のピーク確率のうちの最大の第1のピーク確率である。
【0113】
このようにして、第1の確率推定結果の形式は、ガウス分布または別の形式の確率分布(限定はしないが、ラプラス分布または混合ガウス分布を含む)であってもよいことが学習されるべきである。
【0114】
例えば、特徴要素1、特徴要素2、および特徴要素5は、第3の特徴要素のセットを形成するために、第3の特徴要素であると決定される。特徴要素1の第1のピーク確率が70%であり、特徴要素2の第1のピーク確率が65%であり、特徴要素5の第1のピーク確率が75%である場合、第3の特徴要素のセット内の特徴要素に対応する最大の第1のピーク確率(すなわち、特徴要素5の第1のピーク確率75%)が第1の閾値であると決定される。
【0115】
方式2:第1の確率推定結果はガウス分布であり、第1の確率推定結果は第1の確率分散値をさらに含む。第1の閾値は、第3の特徴要素のセット内の特徴要素に対応する第1の確率分散値のうちの最小の第1の確率分散値である。
【0116】
ガウス分布の数学的特徴は、以下のように要約され得ることが学習されるべきである:ガウス分布では、より大きい第1の確率分散値は、より小さい第1のピーク確率を示す。加えて、第1の確率推定結果がガウス分布である場合、第1の確率推定結果から第1の確率分散値を取得する速度は、第1の確率推定結果から第1のピーク確率を取得する速度よりも速い。第1の確率推定結果がガウス分布であるとき、第1の確率分散値に基づいて第1の閾値を決定する効率は、第1のピーク確率に基づいて第1の閾値を決定する効率よりも高くなり得ることが学習され得る。
【0117】
例えば、特徴要素1、特徴要素2、および特徴要素5は、第3の特徴要素のセットを形成するために、第3の特徴要素であると決定される。特徴要素1の第1の確率分散値σが0.6であり、特徴要素2の第1の確率分散値σが0.7であり、特徴要素5の第1の確率分散値σが0.5である場合、第3の特徴要素のセット内の特徴要素に対応する最小の第1の確率分散値σ(すなわち、特徴要素5の確率分散値0.5)が第1の閾値であると決定される。
【0118】
第1の閾値は第1の符号化対象特徴マップ内の特徴要素に基づいて決定されるため、すなわち、第1の閾値は第1の符号化対象特徴マップに対応することが知られるべきである。データ復号化を容易にするために、第1の閾値に対してエントロピー符号化が実施されてもよく、エントロピー符号化の結果は、第1の符号化対象特徴マップの符号化されたビットストリームに書き込まれる。
【0119】
S305:各特徴要素の第1の閾値および第1の確率推定結果に基づいて、特徴要素が第1の特徴要素であるかどうかを決定する。
【0120】
第1の符号化対象特徴マップ内の複数の特徴要素の各々について、特徴要素が第1の特徴要素であるかどうかが、第1の閾値および特徴要素の第1の確率推定結果に基づいて決定され得る。特徴要素が第1の特徴要素であるかどうかを決定するための重要な決定条件は第1の閾値であることが学習され得る。以下では、第1の閾値を決定する特定の方法に基づいて、特徴要素が第1の特徴要素であるかどうかを決定する方法を具体的に考察する。
【0121】
方式1:第1の閾値が第3の特徴要素のセット内の特徴要素に対応する第1のピーク確率内の最大の第1のピーク確率であるとき、第1の閾値に基づいて決定された第1の特徴要素は、以下の条件、すなわち、第1の特徴要素の第1のピーク確率は、第1の閾値以下であることを満たす。
【0122】
例えば、第1の符号化対象特徴マップに含まれる複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。特徴要素1、特徴要素2、および特徴要素5は、第3の特徴要素のセットを形成し、第3の特徴要素のセットに基づいて、第1の閾値が75%であると決定される。この場合、特徴要素1の第1のピーク確率が70%であり、第1の閾値未満である場合、特徴要素2の第1のピーク確率は65%であり、第1の閾値未満であり、特徴要素3の第1のピーク確率は80%であり、第1の閾値より大きく、特徴要素4の第1のピーク確率は60%であり、第1の閾値未満であり、特徴要素5の第1のピーク確率は75%であり、第1の閾値に等しい。結論として、特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素であると決定される。
【0123】
方式2:第1の閾値が第3の特徴要素のセット内の特徴要素に対応する第1の確率分散値のうちの最小の第1の確率分散値であるとき、第1の閾値に基づいて決定された第1の特徴要素は、第1の特徴要素の第1の確率分散値が第1の閾値以上であるという条件を満たす。
【0124】
例えば、第1の符号化対象特徴マップに含まれる複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。特徴要素1、特徴要素2、および特徴要素5は、第3の特徴要素のセットを形成し、第3の特徴要素のセットに基づいて、第1の閾値が0.5であると決定される。この場合、特徴要素1の第1のピーク確率が0.6であり、第1の閾値よりも大きい場合、特徴要素2の第1のピーク確率は0.7であり、第1の閾値よりも大きく、特徴要素3の第1のピーク確率は0.4であり、第1の閾値よりも小さく、特徴要素4の第1のピーク確率は0.75であり、第1の閾値よりも大きく、特徴要素5の第1のピーク確率は0.5であり、第1の閾値に等しい。結論として、特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素であると決定される。
【0125】
S306:特徴要素が第1の特徴要素であるときのみ、第1の特徴要素に対してエントロピー符号化を実施する。
【0126】
第1の符号化対象特徴マップ内の各特徴要素が決定され、特徴要素が第1の特徴要素であるかどうかが決定される。特徴要素が第1の特徴要素である場合、第1の特徴要素が符号化され、第1の特徴要素の符号化結果が符号化ビットストリームに書き込まれる。換言すれば、特徴マップ内の全ての第1の特徴要素に対してエントロピー符号化が実施され、全ての第1の特徴要素のエントロピー符号化結果が符号化ビットストリームに書き込まれることが理解され得る。
【0127】
例えば、第1の符号化対象特徴マップに含まれる複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素であると決定される。この場合、エントロピー符号化は、特徴要素3に対して実施されないが、特徴要素1、特徴要素2、特徴要素4、および特徴要素5に対して実施され、全ての第1の特徴要素のエントロピー符号化結果が符号化ビットストリームに書き込まれる。
【0128】
S305における各特徴要素の決定結果が、特徴要素が第1の特徴要素ではないというものである場合、エントロピー符号化は、特徴要素のいずれに対しても実施されないことに留意されたい。S305における各特徴要素の決定結果が、特徴要素が第1の特徴要素であるというものである場合、各特徴要素に対してエントロピー符号化が実施され、各特徴要素のエントロピー符号化結果が符号化ビットストリームに書き込まれる。
【0129】
可能な実装形態では、第1の符号化対象特徴マップのサイド情報に対してエントロピー符号化がさらに実施されてよく、サイド情報のエントロピー符号化結果がビットストリームに書き込まれる。代替的に、第1の符号化対象特徴マップのサイド情報は、後続のデータ復号化を容易にするために、デコーダ側に送信されてもよい。
【0130】
デコーダ側:
図5は、本出願の一実施形態による特徴マップ
復号化方法の概略フローチャートである。特徴
マップ復号化方法の手順は、S501~S504を含む。
【0131】
S501:復号化対象特徴マップのビットストリームを取得し、復号化対象特徴マップは複数の特徴要素を含む。
【0132】
復号化対象特徴マップのビットストリームは、S306において取得された符号化されたビットストリームとして理解され得る。復号化対象特徴マップは、ビットストリームに対してデータ復号化が実施された後に取得された特徴マップである。復号化対象特徴マップは、複数の特徴要素を含む。複数の特徴要素は、第1の特徴要素
のセットおよび第2の特徴要素
のセットという2つの部分に分割される。第1の特徴要素
のセットは、
図3の特徴マップ符号化段階においてエントロピー符号化が実施される特徴要素のセットである。第2の特徴要素
のセットは、
図3の特徴マップ符号化段階においてエントロピー符号化が実施されない特徴要素のセットである。
【0133】
可能な実装形態では、第1の特徴要素
のセットは、空集合であるか、または第2の特徴要素
のセットは、空集合である。第1の特徴要素
のセットは、空集合であり、すなわち、
図3の特徴マップ符号化段階では、エントロピー符号化は特徴要素のいずれに対しても実施されない。第2の特徴要素
のセットは、空集合であり、すなわち、
図3の特徴マップ符号化段階では、エントロピー符号化が各特徴要素に対して実施される。
【0134】
S502:復号化対象特徴マップのビットストリームに基づいて、複数の特徴要素の各々に対応する第1の確率推定結果を取得し、第1の確率推定結果は、第1のピーク確率を含む。
【0135】
復号化対象特徴マップのビットストリームに対してエントロピー復号化が実施される。さらに、複数の特徴要素の各々に対応する第1の確率推定結果は、エントロピー復号化結果に基づいて取得されてもよい。第1の確率推定結果は、第1のピーク確率を含む。
【0136】
可能な実装形態では、復号化対象特徴マップに対応するサイド情報は、復号化対象特徴マップのビットストリームに基づいて取得される。各特徴要素に対応する第1の確率推定結果は、サイド情報に基づいて取得される。
【0137】
具体的には、復号化対象特徴マップのビットストリームは、サイド情報のエントロピー符号化結果を含む。したがって、エントロピー復号化は、復号化対象特徴マップのビットストリームに対して実施されてよく、取得されたエントロピー復号化結果は、復号化対象特徴マップに対応するサイド情報を含む。さらに、
図4aに示すように、サイド情報は、
図1の確率推定モジュール103への入力として使用され、確率推定モジュール103からの出力は、各特徴要素(第1の特徴要素
のセット内の特徴要素および第2の特徴要素
のセット内の特徴要素を含む)の第1の確率推定結果である。
【0138】
例えば、特徴要素の第1の確率推定結果については、
図2bを参照されたい。横軸は、特徴要素
【数18】
の各可能な値(または各可能な数値と称される)を示し、縦軸は、各可能な値(または各可能な数値と称される)の可能性を示す。第1のピーク確率は、第1の確率推定結果における最大確率であり、第1の確率推定結果における確率ピークと称されることもある。
図2bに示すように、点Pの垂直座標上の数値pは、第1の確率推定結果における第1のピーク確率である。第1の確率推定結果はガウス分布であり、第1のピーク確率はガウス分布の平均確率であることが学習されるべきである。代替的に、第1の確率推定結果は混合ガウス分布である。混合ガウス分布は、複数のガウス分布を含む。第1のピーク確率は、ガウス分布の平均確率における最大値であるか、または第1のピーク確率は、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算される。第1の確率推定結果に基づいて第1のピーク確率を取得する具体的な実装形態については、S303における第1の確率推定結果および第1のピーク確率の関連する説明を参照されたい。繰り返される内容は、再び説明されない。
【0139】
確率推定モジュール103は、確率推定ネットワークであってもよく、確率推定ネットワークは、RNN、CNN、RNNの変形、CNNの変形、または他の深層ニューラルネットワーク(または他の深層ニューラルネットワークの変形)を使用してもよい。
図4bは、確率推定ネットワークの構造の概略図である。
図4bにおいて、確率推定ネットワークは畳み込みネットワークであり、畳み込みネットワークは5つのネットワーク層、すなわち3つの畳み込み層と2つの非線形活性化層とを含む。確率推定モジュール103は、非ネットワークの従来の確率推定方法に従って、代替的に実装されてもよい。確率推定方法は、最尤推定、最大事後推定、および最尤推定などの統計的方法を含むが、これらに限定されない。
【0140】
S503:各特徴要素に対応する第1の閾値および第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素のセットおよび第2の特徴要素のセットを決定する。
【0141】
第1の特徴要素のセットおよび第2の特徴要素のセットは、第1の閾値と各特徴要素に対応する第1のピーク確率との間の数値関係に基づいて、復号化対象特徴マップ内の複数の特徴要素から決定される。第1の閾値は、特徴マップ符号化方法に対応するデバイスと特徴マップ復号化方法に対応するデバイスとの間のネゴシエーションを通して決定され得るか、または経験値に基づいて設定され得る。代替的に、第1の閾値は、復号化対象特徴マップのビットストリームに基づいて取得されてもよい。
【0142】
具体的には、第1の閾値は、S402における方式1で設定された第3の特徴要素のセット内の最大の第1のピーク確率であってもよい。この場合、復号化対象特徴マップ内の各特徴要素について、特徴要素の第1のピーク確率が第1の閾値よりも大きい場合、特徴要素は第2の特徴要素(すなわち、第2の特徴要素のセット内の特徴要素)であると決定される。代替的に、特徴要素の第1のピーク確率が第1の閾値以下(未満又は以下を含む)である場合、特徴要素は、第1の特徴要素(すなわち、第1の特徴要素のセット内の特徴要素)であると決定される。
【0143】
例えば、第1の閾値は75%であり、復号化対象特徴マップの複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。特徴要素1の第1のピーク確率は70%であり、第1の閾値未満であり、特徴要素2の第1のピーク確率は65%であり、第1の閾値未満であり、特徴要素3の第1のピーク確率は80%であり、第1の閾値より大きく、特徴要素4の第1のピーク確率は60%であり、第1の閾値未満であり、特徴要素5の第1のピーク確率は75%であり、第1の閾値に等しい。結論として、特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素であると決定される。結論として、特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素のセット内の特徴要素であると決定され、特徴要素3は、第2の特徴要素のセット内の特徴要素であると決定される。
【0144】
ある場合には、第1の確率推定結果の形式はガウス分布であり、第1の確率推定結果は第1の確率分散値をさらに含む。この場合、S503の任意選択の実装形態は、各特徴要素の第1の閾値および第1の確率分散値に基づいて、複数の特徴要素から第1の特徴要素のセットおよび第2の特徴要素のセットを決定することである。具体的には、第1の閾値は、S402における方式2で設定された第3の特徴要素のセット内の最小の第1の確率分散値であってもよい。さらに、復号化対象特徴マップ内の各特徴要素について、特徴要素の第1の確率分散値が第1の閾値未満である場合、特徴要素は第2の特徴要素(すなわち、第2の特徴要素のセット内の特徴要素)であると決定される。特徴要素の第1の確率分散値が第1の閾値以上である場合、特徴要素は、第1の特徴要素(すなわち、第1の特徴要素のセット内の特徴要素)であると決定される。
【0145】
例えば、第1の閾値は0.5であり、第1の符号化対象特徴マップに含まれる複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。特徴要素1の第1のピーク確率は0.6であり、第1の閾値より大きく、特徴要素2の第1のピーク確率は0.7であり、第1の閾値より大きく、特徴要素3の第1のピーク確率は0.4であり、第1の閾値より小さく、特徴要素4の第1のピーク確率は0.75であり、第1の閾値より大きく、特徴要素5の第1のピーク確率は0.5であり、第1の閾値に等しい。結論として、特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素のセット内の特徴要素であると決定され、特徴要素3は、第2の特徴要素のセット内の特徴要素であると決定される。
【0146】
S504:第1の特徴要素のセットおよび第2の特徴要素のセットに基づいて、復号化された特徴マップを取得する。
【0147】
換言すれば、復号化された特徴マップの値は、第1の特徴要素のセット内の各特徴要素の数値と、第2の特徴要素のセット内の各特徴要素の第1の確率推定結果とに基づいて取得される。
【0148】
可能な実装形態では、第1の特徴要素に対応する第1の確率推定結果に対してエントロピー復号化が実施されて、(第1の特徴要素のセット内の特徴要素の一般用語として理解される)第1の特徴要素の数値が取得される。第1の確率推定結果は、第1のピーク確率と、第1のピーク確率に対応する特徴値とを含む。さらに、第2の特徴要素の数値は、第2の特徴要素の第1のピーク確率に対応する特徴値に基づいて取得される(第2の特徴要素のセット内の特徴要素の一般用語として理解される)。換言すれば、第1の特徴要素のセット内の全ての特徴要素の数値を取得するために、第1の特徴要素のセット内の全ての特徴要素に対応する第1の確率推定結果に対してエントロピー復号化が実施されることが理解され得る。第2の特徴要素のセット内の全ての特徴要素の数値は、第2の特徴要素内の全ての特徴要素の第1のピーク確率に対応する特徴値に基づいて取得され、エントロピー復号化は、第2の特徴要素のセット内のいずれの特徴要素に対しても実施される必要はない。
【0149】
例えば、データ復号化が復号化対象特徴マップに対して実施され、すなわち、各特徴要素の数値が取得される。復号化対象特徴マップ内の複数の特徴要素は、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5である。特徴要素1、特徴要素2、特徴要素4、および特徴要素5は、第1の特徴要素
のセット内の特徴要素であると決定され、特徴要素3は、第2の特徴要素
のセット内の特徴要素であると決定される。さらに、第1の特徴要素に対応するビットストリームおよび第1の確率推定結果が入力として使用され、
図1に示されるデータ復号化モジュール104に入力されて、特徴要素1の数値、特徴要素2の数値、特徴要素4の数値、および特徴要素5の数値を取得する。特徴要素3の第1の確率推定結果における第1のピーク確率に対応する特徴値が、復号化対象特徴マップ内の特徴要素3の数値であると決定される。このようにして、特徴要素1の数値、特徴要素2の数値、特徴要素3の数値、特徴要素4の数値、および特徴要素5の数値は、復号化対象特徴マップの値に組み合わされる。
【0150】
第1の特徴要素のセットが空集合である(すなわち、エントロピー符号化が特徴要素のいずれにも実施されない)場合、復号化された特徴マップの値は、各特徴要素の第1の確率推定結果(本明細書では、第1の確率推定結果における第1のピーク確率に対応する特徴値を示す)に基づいて取得され得ることに留意されたい。第2の特徴要素のセットが空集合である(すなわち、各特徴要素に対してエントロピー符号化が実施される)場合、各特徴要素に対応する第1の確率推定結果に対してエントロピー復号化が実施されて、復号化された特徴マップの値を取得する。
【0151】
各特徴要素に対応する確率推定結果内の固定値に対応する確率に基づいて、特徴要素に対して符号化が実施される必要があるかどうかを決定することと比較して、特徴要素に対応する確率推定結果のピーク確率に基づいて、特徴要素に対してエントロピー符号化プロセスがスキップされる必要があるかどうかを決定するための
図3で提供される方法は、決定結果(特徴要素に対してエントロピー符号化が実施される必要があるかどうか)の信頼性を改善することができ、エントロピー符号化を実施するための要素の量を大幅に低減し、エントロピー符号化の複雑さを低減することができる。加えて、
図5に示されるように、エントロピー符号化が実施されない特徴要素(すなわち、第2の特徴要素)の第1の確率ピークの特徴値を第2の特徴要素の数値として使用して、復号化対象特徴マップの値を形成することの信頼性は、従来技術において第2の特徴要素の数値を固定値で置き換えて、復号化対象特徴マップの値を形成することよりも良好であり、それによって、データ符号化および復号化方法のデータ復号化精度および性能をさらに改善する。
【0152】
エンコーダ側:
図6aは、本出願の一実施形態による別の特徴マップ符号化方法の概略フローチャートである。特徴マップ符号化方法の手順は、S601~S607を含む。
【0153】
S601:第1の符号化対象特徴マップを取得し、第1の符号化対象特徴マップは複数の特徴要素を含む。
【0154】
S601の具体的な実装形態については、S301の具体的な実装形態の説明を参照されたい。詳細は本明細書では再び説明されない。
【0155】
S602:第1の符号化対象特徴マップに基づいて、第1の符号化対象特徴マップのサイド情報および各特徴要素の第2のコンテキスト情報を取得する。
【0156】
第1の符号化対象特徴マップのサイド情報を取得する具体的な実装形態については、S302の具体的な実装形態の説明を参照されたい。詳細は本明細書では再び説明されない。
【0157】
第2のコンテキストを取得する方式は、ネットワークモジュールを介して第1の符号化対象特徴マップから第2のコンテキスト情報を取得することであってもよく、ネットワークモジュールは、RNNまたはRNNのネットワーク変形であってもよい。第2のコンテキスト情報は、その特徴要素の特徴要素であり、第1の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素(または特徴要素の数値)として理解され得る。
【0158】
S603:サイド情報および第2のコンテキスト情報に基づいて、各特徴要素の第2の確率推定結果を取得する。
【0159】
図6bに示されるように、サイド情報および第2のコンテキスト情報は、
図1の確率推定モジュール103への入力として使用され、確率推定モジュール103からの出力は、各特徴要素の第2の確率推定結果である。確率推定モジュール103の具体的な説明については、S303を参照されたい。第2の確率推定結果の形態は、ガウス分布または別の形態の確率分布(限定はしないが、ラプラス分布または混合ガウス分布を含む)を含む。特徴要素の第2の確率
推定結果の概略図は、
図2bに示される第1の確率
推定結果の概略図と同じである。詳細は本明細書では再び説明されない。
【0160】
S604:各特徴要素の第2の確率推定結果に基づいて第1の閾値を決定する。
【0161】
1つの可能な実装形態では、第1の符号化対象特徴マップ内の各特徴要素の第2の確率推定結果に基づいて、第1の符号化対象特徴マップ内の複数の特徴要素から第3の特徴要素
のセットが決定される。さらに、第1の閾値は、第3の特徴要素
のセット内の全ての特徴要素の第2の確率推定結果に基づいて決定される。具体的には、第3の特徴要素
のセット内の各特徴要素の第2の確率推定結果に基づいて第1の閾値を決定する具体的な方式については、
図4cに示される第3の特徴要素
のセット内の各特徴要素の第1の確率推定結果に基づいて第1の閾値を決定する具体的な方式を参照されたい。詳細は本明細書では再び説明されない。
【0162】
S605:特徴要素のサイド情報および第1のコンテキスト情報に基づいて、第1の符号化対象特徴マップ内の各特徴要素の第1の確率推定結果を決定する。
【0163】
第1のコンテキスト情報は、特徴要素に対応し、第2の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素であり、第2の符号化対象特徴マップの値は、第1の特徴要素の数値と、第2の特徴要素の第1のピーク確率に対応する特徴値とを含み、第2の特徴要素は、第1の符号化対象特徴マップ内の第1の特徴要素以外の特徴要素である。第1の符号化対象特徴マップに含まれる特徴要素の量は、第2の符号化対象特徴マップに含まれる特徴要素の量と同じであり、第1の符号化対象特徴マップの値は、第2の符号化対象特徴マップの値とは異なり、第2の符号化対象特徴マップは、第1の符号化対象特徴マップが復号化された後に取得される特徴マップ(すなわち、本出願における復号化対象特徴マップ)として理解され得ることを理解されたい。第1のコンテキスト情報は、第2の符号化対象特徴マップ内の特徴要素間の関係を説明し、第2のコンテキスト情報は、第1の符号化対象特徴マップ内の特徴要素間の関係を説明する。
【0164】
例えば、第1の符号化対象特徴マップに含まれる特徴要素は、特徴要素1、特徴要素2、特徴要素3、…、および特徴要素mである。S604の特定の記述方式に基づいて第1の閾値が取得された後、特徴要素1、特徴要素2、特徴要素3、特徴要素4、および特徴要素5に対して代替の確率推定およびエントロピー符号化が実施される。すなわち、特徴要素1に対して確率推定およびエントロピー符号化がまず実施されることが理解され得る。特徴要素1は、エントロピー符号化が実施される第1の特徴要素であるため、特徴要素1の第1のコンテキスト情報は空である。この場合、特徴要素1に対応する第1の確率推定結果を取得するために、サイド情報に基づいて特徴要素1に対して確率推定のみが実施される必要がある。さらに、特徴要素1が第1の特徴要素であるかどうかが、第1の確率推定結果および第1の閾値に基づいて決定され、特徴要素1が第1の特徴要素であるときのみ、特徴要素1に対してエントロピー符号化が実施され、第2の符号化対象特徴マップ内の特徴要素1の数値が決定される。次に、特徴要素2について、特徴要素2の第1の確率推定結果が、サイド情報および第1のコンテキスト情報(この場合、第2の符号化対象特徴マップ内の第1の特徴要素の数値として理解され得る)に基づいて推定される。さらに、特徴要素2が第1の特徴要素であるかどうかが、第1の確率推定結果および第1の閾値に基づいて決定され、特徴要素2が第1の特徴要素であるときのみ、特徴要素2に対してエントロピー符号化が実施され、第2の符号化対象特徴マップ内の特徴要素2の数値が決定される。次いで、特徴要素3について、特徴要素3の第1の確率推定結果が、サイド情報および第1のコンテキスト情報(この場合、第2の符号化対象特徴マップ内の第1の特徴要素の数値および第2の符号化対象特徴マップ内の第2の特徴要素の数値として理解され得る)に基づいて推定される。さらに、特徴要素3が第1の特徴要素であるかどうかが、第1の確率推定結果および第1の閾値に基づいて決定され、特徴要素3が第1の特徴要素であるときのみ、特徴要素3に対してエントロピー符号化が実施され、第2の符号化対象特徴マップ内の特徴要素3の数値が決定される。残りは、第1の符号化対象特徴マップ内の全ての特徴要素の確率が推定されるまで、類推によって推論され得る。
【0165】
S606:特徴要素の第1の確率推定結果および第1の閾値に基づいて、特徴要素が第1の特徴要素であるかどうかを決定する。
【0166】
S607:特徴要素が第1の特徴要素であるときのみ、第1の特徴要素に対してエントロピー符号化を実施する。
【0167】
S606およびS607の具体的な実装形態については、S305およびS306の具体的な実装形態の説明を参照されたい。詳細は本明細書では再び説明されない。
【0168】
特徴マップ内の任意の特徴要素について、特徴要素が第1の特徴要素(すなわち、エントロピー符号化を必要とする特徴要素)であるかどうかを決定するための確率推定結果は、特徴要素の第1の確率推定結果として示され、第1の閾値を決定するための確率
推定結果は、第2の確率推定結果として示されることを理解されたい。
図6aに示す特徴マップ符号化方法では、特徴要素の第1の確率推定結果は、特徴要素の第2の確率推定結果とは異なる。しかしながら、
図3に示される特徴マップ符号化方法では、確率推定のためにコンテキスト特徴が導入されないため、特徴要素の第1の確率推定結果は、特徴要素の第2の確率推定結果と同じである。
【0169】
デコーダ側:
図7aは、本出願の一実施形態による特徴マップ復号化方法の概略フローチャートである。特徴マップ復号化方法の手順は、S701~S706を含む。
【0170】
S701:復号化対象特徴マップのビットストリームを取得し、復号化対象特徴マップは複数の特徴要素を含む。
【0171】
S701の具体的な実装形態については、S501の具体的な実装形態の説明を参照されたい。詳細は本明細書では再び説明されない。
【0172】
S702:復号化対象特徴マップのビットストリームに基づいて、復号化対象特徴マップに対応するサイド情報を取得する。
【0173】
可能な実装形態では、復号化対象特徴マップに対応するサイド情報は、復号化対象特徴マップのビットストリームに基づいて取得される。各特徴要素に対応する第1の確率推定結果は、サイド情報に基づいて取得される。
【0174】
具体的には、復号化対象特徴マップのビットストリームは、サイド情報のエントロピー符号化結果を含む。したがって、エントロピー復号化は、復号化対象特徴マップのビットストリームに対して実施されてよく、取得されたエントロピー復号化結果は、復号化対象特徴マップに対応するサイド情報を含む。
【0175】
S703:特徴要素のサイド情報および第1のコンテキスト情報に基づいて、各特徴要素の第1の確率推定結果を推定する。
【0176】
第1のコンテキスト情報は、特徴要素に対応し、復号化対象特徴マップ(すなわち、S605における第2の符号化対象特徴マップ)内の事前設定された領域範囲内にある特徴要素である。この場合、確率推定およびエントロピー復号化は、復号化対象特徴マップ内の特徴要素に対して順次かつ交互に実施されることが知られるべきである。
【0177】
例えば、復号化対象特徴マップ内の特徴要素は、特徴要素1、特徴要素2、特徴要素3、…、および特徴要素mである。まず、特徴要素1に対して確率推定とエントロピー復号化が実施される。特徴要素1は、エントロピー復号化が実施される第1の特徴要素であるため、特徴要素1の第1のコンテキスト情報は空である。この場合、特徴要素1に対応する第1の確率推定結果を取得するために、サイド情報に基づいて特徴要素1に対して確率推定のみが実施される必要がある。さらに、特徴要素1が第1の特徴要素または第2の特徴要素であると決定され(または決定され)、決定結果に基づいて、復号化対象特徴マップ内の特徴要素1の数値が決定される。次に、特徴要素2について、特徴要素2の第1の確率推定結果が、サイド情報および第1のコンテキスト情報(この場合、復号化対象特徴マップ内の第1の特徴要素の数値として理解され得る)に基づいて推定される。さらに、特徴要素2が第1の特徴要素であるか第2の特徴要素であるかが決定される(または決定される)。復号化対象特徴マップ内の特徴要素2の数値は、決定結果に基づいて決定される。次いで、特徴要素3について、特徴要素3の第1の確率推定結果が、サイド情報および第1のコンテキスト情報(この場合、復号化対象特徴マップ内の第1の特徴要素の数値および復号化対象特徴マップ内の第2の特徴要素の数値として理解され得る)に基づいて推定される。また、特徴要素3は、第1の特徴要素または第2の特徴要素であると決定される。復号化対象特徴マップ内の特徴要素3の数値は、決定結果に基づいて決定される。残りは、全ての特徴要素の確率が推定されるまで、類推によって推論され得る。
【0178】
S704:特徴要素の第1の確率推定結果および第1の閾値に基づいて、特徴要素が第1の特徴要素または第2の特徴要素であると決定する。
【0179】
S704の具体的な実装形態については、S503の具体的な実装形態の説明を参照されたい。詳細は本明細書では再び説明されない。
【0180】
S705:特徴要素が第1の特徴要素であるとき、第1の特徴要素の第1の確率推定結果と復号化対象特徴マップのビットストリームとに基づいてエントロピー復号化を実施して、第1の特徴要素の数値を取得する。
【0181】
特徴要素の決定結果が、特徴要素が第1の特徴要素であるというものである場合、第1の特徴要素の第1の確率推定結果に基づいて第1の特徴要素に対してエントロピー復号化が実施され、復号化された特徴マップ内の第1の特徴要素の数値を取得する。復号化された特徴マップ内の第1の特徴要素の数値は、符号化対象特徴マップ内の第1の特徴要素の数値と同じである。
【0182】
S706:特徴要素が第2の特徴要素であるとき、第2の特徴要素の第1の確率推定結果に基づいて、第2の特徴要素の数値を取得する。
【0183】
特徴要素についての決定結果が、特徴要素が第2の特徴要素であるというものである場合、第2の特徴要素の第1のピーク確率に対応する特徴値が、第2の特徴要素の数値であると決定される。換言すれば、エントロピー復号化は、第2の特徴要素に対して実施される必要はなく、復号化された特徴マップ内の第2の特徴要素の数値は、符号化対象特徴マップ内の第2の特徴要素の数値と同じであってもよいし、異なっていてもよい。復号化された特徴マップの値は、復号化された特徴マップを取得するために、全ての第2の特徴要素の数値と全ての第1の特徴要素の数値の両方に基づいて決定される。
【0184】
図3で提供される特徴マップ符号化方法と比較して、
図6aで提供される特徴マップ符号化方法では、確率推定は、コンテキスト情報を参照して実施され、それにより、各特徴要素に対応する確率推定結果の精度を改善し、符号化プロセスがスキップされる特徴要素の量を増加させ、データ符号化効率性をさらに改善する。
図5において提供される特徴マップ復号化方法と比較して、
図7aにおいて提供される特徴マップ復号化方法では、確率推定は、コンテキスト情報を参照して実施され、それにより、各特徴要素に対応する確率推定結果の精度を改善し、復号化対象特徴マップにおいてエントロピー符号化が実施されない特徴要素(すなわち、第2の特徴要素)の信頼性を改善し、データ復号化性能を改善する。
【0185】
本出願人は、符号化をスキップしない特徴マップ符号化および復号化方法(すなわち、符号化対象特徴マップに対してエントロピー符号化が実施される場合、符号化対象特徴マップ内の全ての特徴要素に対してエントロピー符号化プロセスが実施される)をベースライン方法と称し、
図6aおよび
図7aに提供された特徴マップ符号化および復号化方法(動的ピークに基づいたスキップを有する特徴マップ符号化および復号化方法と称される)と、各特徴要素に対応する確率推定結果内の固定値に対応する確率に基づいてスキップされた特徴要素を有する特徴マップ符号化のための方法(固定ピークに基づいたスキップを有する特徴マップ符号化および復号化方法と称される)との間の比較実験を実施する。
【0186】
比較実験の結果については、表1を参照されたい。ベースライン方法と比較して、固定ピークに基づくスキップを用いる特徴マップ復号化方法では、同じ画質を取得するためのデータの量が0.11%低減され、この解決策では、同じ画質を取得するためのデータの量が1%低減される。
【0187】
【0188】
復号化された画質が保証されるとき、本出願で提供される技術的方法は、より大量のデータを低減し、データ圧縮性能(限定はしないが、圧縮率を含む)を改善することができることが学習され得る。
【0189】
本出願人は、
図6aおよび
図7aで提供される特徴マップ符号化および復号化方法と、固定ピークに基づいてスキップする特徴マップ符号化および復号化方法との間の比較実験をさらに実施する。比較実験結果図が
図7bおよび
図7cに示される。
図7bにおいて、縦軸は、再構成画像の画質として理解されることができ、横軸は、映像圧縮率である。通常、画像圧縮率が増加するにつれて、再構成ピクチャの画質は良好になる。
図7bから、動的ピークに基づいてスキップする特徴マップ符号化および復号化方法の曲線(すなわち、
図7bでは動的ピークとしてマークされている)は、固定ピークに基づいてスキップする特徴マップ符号化方法の曲線(すなわち、
図7bでは固定ピークとしてマークされている)とほぼ重なることが理解され得る。換言すれば、再構成されたピクチャ画質(すなわち、垂直座標の数値が同じである)が同じであるとき、動的ピークに基づいてスキップする特徴マップ符号化および復号化方法(すなわち、
図7bで動的ピークとしてマークされる)は、固定ピークに基づいてスキップする特徴マップ符号化方法(すなわち、
図7bで固定ピークとしてマークされる)よりもわずかに良好である。
図7cにおいて、縦軸は
スキップ可能な特徴要素の
比率であり、横軸は映像圧縮率である。通常、画像圧縮率が増加するにつれて、スキップ可能な特徴要素の
比率は徐々に減少する。
図7cから、動的ピークに基づいてスキップする特徴マップ符号化および復号化方法の曲線(すなわち、
図7cでは動的ピークとしてマークされている)は、固定ピークに基づいてスキップする特徴マップ符号化方法の曲線(すなわち、
図7cでは固定ピークとしてマークされている)の上にあることが理解され得る。換言すれば、画像圧縮率(すなわち、水平座標の数値が同じである)が同じである場合、動的ピークに基づいてスキップする特徴マップ符号化および復号化方法(すなわち、
図7cで動的ピークとしてマークされている)では、符号化プロセスがスキップされ得る特徴要素は、固定ピークに基づいてスキップする特徴マップ符号化方法(すなわち、
図7cで固定ピークとしてマークされている)よりも多い。
【0190】
図8は、本出願による特徴マップ符号化装置の構造の概略図である。特徴マップ符号化装置は、
図1の確率推定モジュール103およびデータ符号化モジュール104の統合であってもよい。本装置は、
第1の符号化対象特徴マップを取得し、第1の符号化対象特徴マップは、複数の特徴要素を含むように構成される、取得モジュール80と、符号化モジュール81であって、第1の符号化対象特徴マップに基づいて、複数の特徴要素の各々の第1の確率推定結果を決定し、第1の確率推定結果は、第1のピーク確率を含み、第1の符号化対象特徴マップ内の各特徴要素の第1のピーク確率に基づいて、特徴要素が第1の特徴要素であるかどうかを決定し、特徴要素が第1の特徴要素である場合にのみ、第1の特徴要素に対してエントロピー符号化を実施するように構成される、符号化モジュール81と、を含む。
【0191】
可能な実装形態では、第1の確率推定結果はガウス分布であり、第1のピーク確率はガウス分布の平均確率である。
【0192】
代替的に、第1の確率推定結果は混合ガウス分布である。混合ガウス分布は、複数のガウス分布を含む。第1のピーク確率は、ガウス分布の平均確率における最大値であるか、または第1のピーク確率は、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算される。
【0193】
可能な実装形態では、符号化モジュール81は、第1の閾値および特徴要素の第1のピーク確率に基づいて、特徴要素が第1の特徴要素であるかどうかを決定するように具体的には構成される。
【0194】
可能な実装形態では、符号化モジュール81は、第1の符号化対象特徴マップに基づいて複数の特徴要素の各々の第2の確率推定結果を決定し、第2の確率推定結果は第2のピーク確率を含み、各特徴要素の第2の確率推定結果に基づいて複数の特徴要素から第3の特徴要素のセットを決定し、第3の特徴要素のセット内の全ての特徴要素の第2のピーク確率に基づいて第1の閾値を決定し、第1の閾値に対してエントロピー符号化を実施するようにさらに構成される。
【0195】
可能な実装形態では、第1の閾値は、第3の特徴要素のセット内の特徴要素に対応する第2のピーク確率のうちの最大の第2のピーク確率である。
【0196】
可能な実装形態では、第1の特徴要素の第1のピーク確率は第1の閾値以下である。
【0197】
可能な実装形態では、第2の確率推定結果はガウス分布であり、第2の確率推定結果は第2の確率分散値をさらに含む。第1の閾値は、第3の特徴要素のセット内の特徴要素に対応する第2の確率分散値のうちの最小の第2の確率分散値である。
【0198】
可能な実装形態では、第1の確率推定結果はガウス分布であり、第1の確率推定結果は第1の確率分散値をさらに含む。第1の特徴要素の第1の確率分散値は、第1の閾値以上である。
【0199】
可能な実装形態では、第2の確率推定結果は、第2のピーク確率に対応する特徴値をさらに含む。符号化モジュール81は、事前設定された誤差、各特徴要素の数値、および各特徴要素の第2のピーク確率に対応する特徴値に基づいて、複数の特徴要素から第3の特徴要素のセットを決定するように、具体的には構成される。
【0200】
可能な実装形態では、第3の特徴要素
のセット内の特徴要素は、
【数19】
の特徴を有する。
【数20】
は、特徴要素である。p(x,y,i)は、特徴要素の第2のピーク確率に対応する特徴値である。TH_2は、事前設定された誤差である。
【0201】
可能な実装形態では、第1の確率推定結果は第2の確率推定結果と同じである。符号化モジュール81は、第1の符号化対象特徴マップに基づいて第1の符号化対象特徴マップのサイド情報を取得し、各特徴要素の第1の確率推定結果を取得するために、サイド情報に対して確率推定を実施するように、具体的には構成される。
【0202】
可能な実装形態では、第1の確率推定結果は第2の確率推定結果とは異なる。符号化モジュール81は、第1の符号化対象特徴マップのサイド情報と、第1の符号化対象特徴マップに基づいて各特徴要素の第2のコンテキスト情報とを取得し、第2のコンテキスト情報は、特徴要素に対応し、第1の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素であり、サイド情報および第2のコンテキスト情報に基づいて各特徴要素の第2の確率推定結果を取得するように、具体的には構成される。
【0203】
可能な実装形態では、符号化モジュール81は、第1の符号化対象特徴マップに基づいて第1の符号化対象特徴マップのサイド情報を取得し、第1の符号化対象特徴マップ内の任意の特徴要素について、第1のコンテキスト情報およびサイド情報に基づいて特徴要素の第1の確率推定結果を決定するように具体的には構成される。第1の確率推定結果は、第1の確率ピークに対応する特徴値をさらに含む。第1のコンテキスト情報は、特徴要素に対応し、第2の符号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である。第2の符号化対象特徴マップの値は、第1の特徴要素の数値と、第2の特徴要素の第1のピーク確率に対応する特徴値とを含む。第2の特徴要素は、第1の符号化対象特徴マップ内の第1の特徴要素以外の特徴要素である。
【0204】
可能な実装形態では、符号化モジュール81は、全ての第1の特徴要素のエントロピー符号化結果を符号化ビットストリームに書き込むようにさらに構成される。
【0205】
図9は、本出願による特徴マップ復号化装置の構造の概略図である。特徴マップ復号化装置は、
図1の確率推定モジュール103とデータ復号化モジュール105との統合であってもよい。特徴マップ復号化装置は、
取得モジュール90であって、復号化対象特徴マップのビットストリームを取得し、復号化対象特徴マップは、複数の特徴要素を含み、復号化対象特徴マップのビットストリームに基づいて複数の特徴要素の各々に対応する第1の確率推定結果を取得し、第1の確率推定結果は、第1のピーク確率を含むように構成される、取得モジュール90と、
復号化モジュール91であって、第1の閾値および各特徴要素に対応する第1のピーク確率に基づいて、複数の特徴要素から第1の特徴要素
のセットおよび第2の特徴要素
のセットを決定し、第1の特徴要素
のセットおよび第2の特徴要素
のセットに基づいて、復号化対象特徴マップを取得するように構成される、復号化モジュール91と、を含む。
【0206】
可能な実装形態では、第1の確率推定結果はガウス分布であり、第1のピーク確率はガウス分布の平均確率である。
【0207】
代替的に、第1の確率推定結果は混合ガウス分布である。混合ガウス分布は、複数のガウス分布を含む。第1のピーク確率は、ガウス分布の平均確率における最大値であるか、または第1のピーク確率は、混合ガウス分布におけるガウス分布の平均確率およびガウス分布の重みに基づいて計算される。
【0208】
可能な実装形態では、復号化対象特徴マップの値は、第1の特徴要素のセット内の全ての第1の特徴要素の数値と、第2の特徴要素のセット内の全ての第2の特徴要素の数値と、を含む。
【0209】
可能な実装形態では、第1の特徴要素のセットは、空集合であるか、または第2の特徴要素のセットは、空集合である。
【0210】
可能な実装形態では、第1の確率推定結果は、第1のピーク確率に対応する特徴値をさらに含む。復号化モジュール91は、第1の特徴要素に対応する第1の確率推定結果に基づいて、第1の特徴要素に対してエントロピー復号化を実施して、第1の特徴要素の数値を取得し、第2の特徴要素の第1のピーク確率に対応する特徴値に基づいて、第2の特徴要素の数値を取得するようにさらに構成される。
【0211】
可能な実装形態では、復号化モジュール91は、復号化対象特徴マップのビットストリームに基づいて第1の閾値を取得するようにさらに構成される。
【0212】
可能な実装形態では、第1の特徴要素の第1のピーク確率は第1の閾値以下であり、第2の特徴要素の第1のピーク確率は第1の閾値よりも大きい。
【0213】
可能な実装形態では、第1の確率推定結果はガウス分布である。第1の確率推定結果は、第1の確率分散値をさらに含む。第1の特徴要素の第1の確率分散値は、第1の閾値以上であり、第2の特徴要素の第1の確率分散値は、第1の閾値未満である。
【0214】
可能な実装形態では、取得モジュール90は、復号化対象特徴マップのビットストリームに基づいて復号化対象特徴マップに対応するサイド情報を取得し、サイド情報に基づいて各特徴要素に対応する第1の確率推定結果を取得するようにさらに構成される。
【0215】
可能な実装形態では、復号化モジュール91は、復号化対象特徴マップのビットストリームに基づいて、復号化対象特徴マップに対応するサイド情報を取得し、サイド情報および第1のコンテキスト情報に基づいて、復号化対象特徴マップ内の特徴要素ごとに各特徴要素の第1の確率推定結果を推定するようにさらに構成される。第1のコンテキスト情報は、特徴要素に対応し、復号化対象特徴マップ内の事前設定された領域範囲内にある特徴要素である。
【0216】
図10は、本出願の一実施形態による特徴マップ符号化装置または特徴マップ復号化装置のハードウェア構造の概略図である。
図10に示される装置(装置は具体的にはコンピュータデバイス1000であってよい)は、メモリ1001と、プロセッサ1002と、通信インターフェース1003と、バス1004と、を含む。メモリ1001、プロセッサ1002、および通信インターフェース1003は、バス1004を介して互いに通信可能に接続される。
【0217】
メモリ1001は、読み出し専用メモリ(Read-Only Memory、ROM)、静的記憶デバイス、動的記憶デバイス、またはランダムアクセスメモリ(Random Access Memory、RAM)であり得る。メモリ1001は、プログラムを記憶してよい。メモリ1001に記憶されたプログラムがプロセッサ1002によって実行されると、本出願の実施形態において提供される特徴マップ符号化方法のステップが実施されるか、または本出願の実施形態において提供される特徴マップ復号化方法のステップが実施される。
【0218】
プロセッサ1002は、汎用中央処理装置(Central Processing Unit、CPU)、マイクロプロセッサ、特定用途向け集積回路(Application-Specific Integrated Circuit、ASIC)、グラフィックス処理ユニット(graphics processing unit、GPU)、または1つ以上のICとすることができ、関連するプログラムを実行して、本出願の実施形態における特徴マップ符号化装置もしくは特徴マップ復号化装置のユニットによって実施される必要がある機能を実装するか、または本出願の方法実施形態における特徴マップ符号化方法のステップを実施するか、または本出願の実施形態で提供される特徴マップ復号化方法のステップを実施するように構成される。
【0219】
代替的に、プロセッサ1002は、集積回路チップであってもよく、信号処理能力を有する。一実装形態プロセスでは、本出願における特徴マップ符号化方法のステップまたは特徴マップ復号化方法のステップは、プロセッサ1002内のハードウェアの統合論理回路またはソフトウェアの形態の命令を介して完了され得る。プロセッサ1002は、汎用プロセッサ、デジタルシグナルプロセッサ(Digital Signal Processor、DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)もしくは別のプログラマブルロジックデバイス、ディスクリートゲートもしくはトランジスタ論理デバイス、またはディスクリートハードウェア構成要素とすることができる。それは、本出願の実施形態において開示される方法、ステップ、および論理ブロック図を実装または実施することができる。汎用プロセッサはマイクロプロセッサであってもよく、またはプロセッサは任意の従来のプロセッサなどであってもよい。本出願の実施形態を参照して開示された方法におけるステップは、ハードウェアコーディングプロセッサによって直接実施および完了されてよく、または、コーディングプロセッサ内のハードウェアとソフトウェアモジュールとの組み合わせを使用することによって実施および完了されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリ、電気的消去可能プログラマブルメモリ、またはレジスタなど、当技術分野における成熟した記憶媒体内に位置されることができる。記憶媒体は、メモリ1001内に位置される。プロセッサ1002は、メモリ1001内の情報を読み出し、プロセッサ1002のハードウェアと組み合わせて、本出願の実施形態における特徴マップ符号化装置または特徴マップ復号化装置に含まれるユニットによって実施される必要がある機能を完了するか、または本出願の方法の実施形態における特徴マップ符号化方法または特徴マップ復号化方法を実施する。
【0220】
通信インターフェース1003は、コンピュータデバイス1000と別のデバイスまたは通信ネットワークとの間の通信を実装するために、トランシーバ装置、例えば、限定はしないが、トランシーバを使用する。
【0221】
バス1004は、コンピュータデバイス1000の構成要素(例えば、メモリ1001、プロセッサ1002、および通信インターフェース1003)の間で情報を伝送するための経路を含んでもよい。
【0222】
図8の特徴マップ符号化装置では、取得モジュール80は、コンピュータデバイス1000内の通信インターフェース1003に相当し、符号化モジュール81は、コンピュータデバイス1000内のプロセッサ1002に相当することを理解されたい。代替的に、
図9の特徴マップ復号化装置では、取得モジュール90は、コンピュータデバイス1000内の通信インターフェース1003に相当し、復号化モジュール91は、コンピュータデバイス1000内のプロセッサ1002に相当する。
【0223】
本出願のこの実施形態において説明されるコンピュータデバイス1000内の機能ユニットの機能については、前述の方法の実施形態における関連するステップの説明を参照されたいことに留意されたい。詳細は本明細書では再び説明されない。
【0224】
本出願の一実施形態は、コンピュータ可読記憶媒体をさらに提供する。コンピュータ可読記憶媒体は、コンピュータプログラムを記憶する。プログラムは、プロセッサによって実行されると、前述の方法の実施形態のいずれか1つに記録されたステップの一部または全部と、
図10に示される任意の機能モジュールの機能とを実装し得る。
【0225】
本出願の一実施形態は、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品がコンピュータまたはプロセッサ上で動作するとき、コンピュータまたはプロセッサは、前述の方法のうちのいずれか1つにおける1つ以上のステップを実施することが可能にされる。デバイス内の前述のモジュールがソフトウェア機能ユニットの形態で実装され、独立した製品として販売または使用されるとき、モジュールは、コンピュータ可読記憶媒体に記憶され得る。
【0226】
前述の実施形態では、実施形態における説明は、それぞれの焦点を有する。一実施形態において詳細に説明されていない部分については、他の実施形態における関連する説明を参照されたい。前述のプロセスのシーケンス番号は、本出願の種々の実施形態における実行シーケンスを意味しないことを理解されたい。プロセスの実行順序は、プロセスの機能および内部論理に従って決定されるべきであり、本出願の実施形態の実装形態プロセスに対するいかなる限定としても解釈されるべきではない。
【0227】
当業者は、本明細書で開示および説明された種々の例示的な論理ブロック、モジュール、およびアルゴリズムステップを参照して説明された機能が、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせによって実装され得ることを理解することができる。ソフトウェアによって実装される場合、例示的な論理ブロック、モジュール、およびステップを参照しながら説明した機能は、1つ以上の命令またはコードとしてコンピュータ可読媒体に記憶されるか、またはコンピュータ可読媒体を介して伝送され、ハードウェアベースの処理ユニットによって決定され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得るか、または(例えば、通信プロトコルに従って)ある場所から別の場所へのコンピュータプログラムの伝送を容易にする任意の通信媒体を含み得る。このようにして、コンピュータ可読媒体は、概して、(1)非一時的有形コンピュータ可読記憶媒体、または(2)信号もしくはキャリアなどの通信媒体に対応し得る。データ記憶媒体は、本出願で説明する技術を実装するための命令、コード、および/またはデータ構造を取り出すために1つ以上のコンピュータあるいは1つ以上のプロセッサによってアクセスされ得る任意の使用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。
【0228】
限定ではなく例として、かかるコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、CD-ROMもしくは別の光ディスク記憶装置、磁気ディス記憶装置もしくは別の磁気記憶装置、フラッシュメモリ、または命令もしくはデータ構造の形態で必要とされるプログラムコードを記憶することができ、コンピュータによってアクセスされ得る任意の他の媒体を含み得る。加えて、任意の接続は、コンピュータ可読媒体と適切に称される。例えば、命令が、ウェブサイト、サーバ、または別のリモートソースから、同軸ケーブル、光ファイバ、ツイストペア、デジタル加入者回線(digital subscriber line、DSL)、または赤外線、無線、もしくはマイクロウェーブなどのワイヤレス技術を介して伝送される場合、同軸ケーブル、光ファイバ、ツイストペア、DSL、または赤外線、無線、もしくはマイクロウェーブなどのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、キャリア、信号、または他の一時的媒体を含まないが、実際には非一時的有形媒体を意味することを理解されたい。本明細書で使用されるディスク(diskおよびdisc)は、コンパクトディスク(compact disc、CD)、レーザディスク、光ディスク、デジタル多用途ディスク(digital versatile disc、DVD)、およびブルーレイディスクを含む。ディスクは、通常、磁気的にデータを再生するが、ディスクは、レーザを使用することによって光学的にデータを再生する。上記の組み合わせも、コンピュータ可読媒体の範囲内に含まれるべきである。
【0229】
命令は、1つ以上のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または同等の集積回路もしくはディスクリート論理回路などの1つ以上のプロセッサによって決定され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または本明細書で説明された技術の実装形態に適用され得る任意の他の構造を指し得る。さらに、一部の態様では、本明細書で説明した例示的な論理ブロック、モジュール、およびステップを参照しながら説明した機能は、符号化および復号化のために構成された専用ハードウェアおよび/またはソフトウェアモジュール内に提供され得るか、あるいは複合コーデックに組み込まれ得る。さらに、本技術は、1つ以上の回路または論理要素において完全に実装され得る。
【0230】
本出願における技術は、ワイヤレスハンドセット、集積回路(integrated circuit、IC)、またはICのセット(例えば、チップセット)を含む、種々の装置またはデバイスにおいて実装され得る。本出願では、開示する技術を決定するように構成された装置の機能的態様を強調するために種々の構成要素、モジュール、またはユニットが説明されたが、それらの構成要素、モジュール、またはユニットは、異なるハードウェアユニットによる実現を必ずしも必要としない。実際には、上記で説明したように、種々のユニットは、適切なソフトウェアおよび/またはファームウェアと組み合わせてコーデックハードウェアユニットに組み合わせられ得るか、または(上記で説明した1つ以上のプロセッサを含む)相互運用可能なハードウェアユニットによって提供され得る。
【0231】
前述の説明は、本出願の例示的な特定の実装形態にすぎず、本出願の保護範囲を限定するように意図されていない。本出願において開示される技術的範囲内で当業者によって容易に考え出される任意の変形または置換は、本出願の保護範囲内に含まれるものとする。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
【符号の説明】
【0232】
1 特徴要素
2 特徴要素
3 特徴要素
4 特徴要素
5 特徴要素
80 取得モジュール
81 符号化モジュール
90 取得モジュール
91 復号化モジュール
101 データ取り込みモジュール
102 特徴抽出モジュール
103 確率推定モジュール
104 データ符号化モジュール
105 データ復号化モジュール
106 データ再構成モジュール
107 ディスプレイモジュール
1000 コンピュータデバイス
1001 メモリ
1002 プロセッサ
1003 通信インターフェース
1004 バス
【手続補正3】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正4】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【国際調査報告】