特表2024-519675 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特表2024-519675圧縮領域におけるマルチレートのコンピュータビジョンタスクニューラルネットワーク

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-05-21

(54)【発明の名称】圧縮領域におけるマルチレートのコンピュータビジョンタスクニューラルネットワーク

(51)【国際特許分類】

H04N 19/40 20140101AFI20240514BHJP

G06N 3/0455 20230101ALI20240514BHJP

G06N 3/0464 20230101ALI20240514BHJP

G06T 9/00 20060101ALI20240514BHJP

G06T 7/00 20170101ALI20240514BHJP

G06V 10/82 20220101ALI20240514BHJP

G06T 5/60 20240101ALI20240514BHJP

G06T 3/4046 20240101ALI20240514BHJP

G06T 5/70 20240101ALI20240514BHJP

G06T 3/4053 20240101ALI20240514BHJP

H04N 19/30 20140101ALI20240514BHJP

H04N 19/46 20140101ALI20240514BHJP

【ＦＩ】

H04N19/40

G06N3/0455

G06N3/0464

G06T9/00 200

G06T7/00 350C

G06V10/82

G06T5/60

G06T3/4046

G06T5/70

G06T3/4053

H04N19/30

H04N19/46

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023564403

(86)(22)【出願日】2023-03-23

(85)【翻訳文提出日】2023-10-20

(86)【国際出願番号】 US2023016068

(87)【国際公開番号】W WO2023200571

(87)【国際公開日】2023-10-19

(31)【優先権主張番号】63/331,168

(32)【優先日】2022-04-14

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】18/124,828

(32)【優先日】2023-03-22

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】520353802

【氏名又は名称】テンセント・アメリカ・エルエルシー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ディン，ディン

(72)【発明者】

【氏名】シュー，シャオジョン

(72)【発明者】

【氏名】リウ，シャン

【テーマコード（参考）】

5B057

5C159

5L096

【Ｆターム（参考）】

5B057BA02

5B057CA08

5B057CA12

5B057CA16

5B057CB08

5B057CB18

5B057CC01

5B057CD05

5B057CE02

5B057CG01

5B057DA08

5B057DB02

5B057DB09

5B057DC40

5C159KK53

5C159MA31

5C159RB09

5C159RC11

5C159UA02

5C159UA05

5L096AA06

5L096CA01

5L096DA01

5L096EA03

5L096EA05

5L096GA10

5L096HA08

5L096HA11

5L096KA04

5L096KA07

(57)【要約】

いくつかの例では、処理回路は、圧縮画像を搬送するコーディングしたビットストリームから、パラメータの値のセット内の値を指すインデックスを復号化する。パラメータの値を変更することにより、圧縮画像の圧縮レートが調整される。圧縮画像は、パラメータに基づいてニューラルネットワークベースのエンコーダによって生成される。処理回路は、パラメータの値を、マルチレート圧縮領域コンピュータビジョンタスクデコーダに入力する。マルチレート圧縮領域コンピュータビジョンタスクデコーダは、圧縮画像を生成するために使用されるパラメータの対応する値に従って、圧縮画像からコンピュータビジョンタスクを実行するための１つ又は複数のニューラルネットワークを含む。マルチレート圧縮領域コンピュータビジョンタスクデコーダは、コーディングしたビットストリーム内の圧縮画像とパラメータの値とに従って、コンピュータビジョンタスク結果を生成する。

【特許請求の範囲】

【請求項1】

画像処理のための方法であって、当該方法は、
圧縮画像を搬送するコーディングしたビットストリームから、パラメータの値のセット内の値を指すインデックスを復号化するステップであって、前記パラメータの値を変更することにより前記圧縮画像の圧縮レートが調整され、前記圧縮画像は、前記パラメータに基いてニューラルネットワークベースのエンコーダによって生成される、ステップと、
前記パラメータの前記値を、圧縮領域コンピュータビジョンタスクフレームワーク（ＣＤＣＶＴＦ）内のマルチレート圧縮領域コンピュータビジョンタスクデコーダに入力するステップであって、前記マルチレート圧縮領域コンピュータビジョンタスクデコーダには、複数の異なる圧縮レートで前記圧縮画像を生成するために使用される前記パラメータの対応する値に従って、圧縮画像からコンピュータビジョンタスクを実行するための１つ又は複数のニューラルネットワークが含まれる、ステップと、
前記マルチレート圧縮領域コンピュータビジョンタスクデコーダが、前記パラメータの前記値に基づいて、前記複数の異なる圧縮レートから対応する圧縮レートで圧縮した前記コーディングしたビットストリーム内の前記圧縮画像に従ってコンピュータビジョンタスク結果を生成するステップと、を含む、
方法。

【請求項2】

前記コンピュータビジョンタスク結果を生成するステップは、
前記マルチレート圧縮領域コンピュータビジョンタスクデコーダ内の第１のニューラルネットワークが、前記パラメータの前記値をテンソルに変換するステップと、
前記マルチレート圧縮領域コンピュータビジョンタスクデコーダ内の第２のニューラルネットワークの１つ又は複数の層に前記テンソルを入力するステップと、
前記第２のニューラルネットワークが、前記圧縮画像及び前記テンソルに従って前記コンピュータビジョンタスク結果を生成するステップと、を含む、
請求項１に記載の方法。

【請求項3】

前記第１のニューラルネットワークには、１つ又は複数の畳み込み層が含まれる、請求項２に記載の方法。

【請求項4】

前記第１のニューラルネットワークには、活性化関数を有する畳み込み層が含まれる、請求項２に記載の方法。

【請求項5】

前記第２のニューラルネットワークは、前記圧縮画像から再構成画像を生成することなく、前記コンピュータビジョンタスク結果を生成するように構成される、請求項２に記載の方法。

【請求項6】

前記第２のニューラルネットワークは、前記圧縮画像から再構成画像を生成し、該再構成画像から前記コンピュータビジョンタスク結果を生成するように構成される、請求項２に記載の方法。

【請求項7】

前記ニューラルネットワークベースのエンコーダは、ニューラル画像圧縮（ＮＩＣ）フレームワークにおけるエンコーダモデルに基づいており、前記マルチレート圧縮領域コンピュータビジョンタスクデコーダは、前記ＮＩＣフレームワークにおけるデコーダモデルに基づいており、前記ＮＩＣフレームワークはエンドツーエンドでトレーニングされる、請求項１に記載の方法。

【請求項8】

前記マルチレート圧縮領域コンピュータビジョンタスクデコーダのデコーダモデルは、前記ニューラルネットワークベースのエンコーダのエンコーダモデルとは別にトレーニングされる、請求項１に記載の方法。

【請求項9】

前記パラメータは、レート歪み損失の計算において歪みに重み付けするためのハイパーパラメータである、請求項１に記載の方法。

【請求項10】

前記コンピュータビジョンタスクには、画像分類、画像ノイズ除去、オブジェクト検出、及び超解像のうちの少なくとも１つが含まれる、請求項１に記載の方法。

【請求項11】

画像処理のための機器であって、当該機器は処理回路を含み、該処理回路は、
請求項１乃至１０のいずれか一項に記載の方法を行うように構成される、
機器。

【請求項12】

画像処理のためのプログラムを記憶する非一時的なコンピュータ可読記憶媒体であって、前記プログラムが処理回路によって実行されると、該処理回路に、請求項１乃至１０のいずれか一項に記載の方法を実行させる、
非一時的なコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

参照による組込み
本願は、２０２３年３月２２日に出願した、“MULTI-RATE OF COMPUTER VISON TASK NEURAL NETWORKS IN COMPRESSION
DOMAIN”という表題の米国特許出願第１８／１２４，８２８号に対する優先権の利益を主張するものであり、この出願は、２０２２年４月１４日に出願した、“Multi-rate of Computer Vison Task Neural Networks in Compression
Domain”という表題の仮出願第６３／３３１，１６８号に対する優先権の利益を主張する。これら先行出願の開示は、その全体が参照により本明細書に組み込まれる。

【0002】

本開示は、概して画像／ビデオ処理に関連する実施形態について説明する。

【背景技術】

【0003】

本明細書で提供する背景技術の説明は、本開示の内容を概ね提示することを目的としている。現在名前が記載されている発明者の成果（work）は、この背景技術の段落に記載している成果の範囲に限り、出願時に先行技術として認定され得ない記載の態様と同様に、明示的にも黙示的にも、本開示に対して先行技術として認められるものではない。

【0004】

画像／ビデオ圧縮は、品質劣化を最小限に抑えながら、異なる装置、ストレージ、及びネットワーク間で画像／ビデオファイルを送信するのに役立つことができる。画像／ビデオ圧縮ツールを改善するには、多くの専門知識、努力、時間が必要になり得る。機械学習技術を画像／ビデオ圧縮に適用すると、圧縮ツールの改善を簡易且つ迅速に行うことができる。

【発明の概要】

【0005】

本開示の態様は、画像／ビデオ処理（例えば、符号化及び復号化）のための方法及び機器を提供する。いくつかの例では、画像／ビデオ処理のための機器は処理回路を含む。処理回路は、圧縮画像を搬送するコーディングしたビットストリームから、パラメータの値のセット内の値を指すインデックスを復号化する。パラメータの値を変更することにより、圧縮画像の圧縮レートが調整される。圧縮画像は、パラメータに基づいてニューラルネットワークベースのエンコーダによって生成される。処理回路は、パラメータの値を、圧縮領域コンピュータビジョンタスクフレームワーク（ＣＤＣＶＴＦ）内のマルチレート圧縮領域コンピュータビジョンタスクデコーダに入力する。マルチレート圧縮領域コンピュータビジョンタスクデコーダは、複数の異なる圧縮レートで圧縮画像を生成するために使用されるパラメータの対応する値に従って、圧縮画像からコンピュータビジョンタスクを実行するための１つ又は複数のニューラルネットワークを含む。マルチレート圧縮領域コンピュータビジョンタスクデコーダは、パラメータの値に基づいて、複数の異なる圧縮レートから対応する圧縮レートで圧縮したコーディングしたビットストリーム内の圧縮画像に従ってコンピュータビジョンタスク結果を生成する。

【0006】

いくつかの例では、マルチレート圧縮領域コンピュータビジョンタスクデコーダ内の第１のニューラルネットワークが、パラメータの値をテンソルに変換する。テンソルは、マルチレート圧縮領域コンピュータビジョンタスクデコーダ内の第２のニューラルネットワークの１つ又は複数の層に入力される。第２のニューラルネットワークは、圧縮画像及びテンソルに従ってコンピュータビジョンタスク結果を生成する。

【0007】

いくつかの例では、第１のニューラルネットワークには、１つ又は複数の畳み込み層が含まれる。

【0008】

いくつかの例では、第１のニューラルネットワークには、活性化関数を有する畳み込み層が含まれる。

【0009】

いくつかの例では、第２のニューラルネットワークは、圧縮画像から再構成画像を生成することなく、コンピュータビジョンタスク結果を生成するように構成される。

【0010】

いくつかの例では、第２のニューラルネットワークは、圧縮画像から再構成画像を生成し、再構成画像からコンピュータビジョンタスク結果を生成するように構成される。

【0011】

いくつかの例では、ニューラルネットワークベースのエンコーダは、ニューラル画像圧縮（ＮＩＣ）フレームワークにおけるエンコーダモデルに基づいており、マルチレート圧縮領域コンピュータビジョンタスクデコーダは、ＮＩＣフレームワークにおけるデコーダモデルに基づいており、ＮＩＣフレームワークはエンドツーエンドでトレーニングされる。

【0012】

いくつかの例では、マルチレート圧縮領域コンピュータビジョンタスクデコーダのデコーダモデルは、ニューラルネットワークベースのエンコーダのエンコーダモデルとは別にトレーニングされる。

【0013】

いくつかの例では、パラメータは、レート歪み損失の計算において歪みに重み付けするためのハイパーパラメータである。

【0014】

いくつかの例では、コンピュータビジョンタスクには、画像分類、画像ノイズ除去、オブジェクト検出、及び超解像のうちの少なくとも１つが含まれる。

【0015】

本開示の態様は、画像／ビデオの符号化及び／又は復号化のための方法を実行するために少なくとも１つのプロセッサによって実行可能なプログラムを記憶する非一時的なコンピュータ可読記憶媒体も提供する。

【図面の簡単な説明】

【0016】

開示する主題の更なる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになろう。

【図1】いくつかの例におけるニューラル画像圧縮（ＮＩＣ）フレームワークを示す図である。

【図2】いくつかの例におけるメインエンコーダネットワークの例を示す図である。

【図3】いくつかの例におけるメインデコーダネットワークの例を示す図である。

【図4】いくつかの例におけるハイパーエンコーダネットワークの例を示す図である。

【図5】いくつかの例におけるハイパーデコーダネットワークの例を示す図である。

【図6】いくつかの例におけるコンテキストモデル・ニューラルネットワークの例を示す図である。

【図7】いくつかの例におけるエントロピーパラメータ・ニューラルネットワークの例を示す図である。

【図8】いくつかの例における画像エンコーダを示す図である。

【図9】いくつかの例における画像デコーダを示す図である。

【図10】いくつかの例における画像エンコーダ及び対応する画像デコーダを示す図である。

【図11】いくつかの例における画像エンコーダ及び対応する画像デコーダを示す図である。

【図12】いくつかの例における、コンピュータビジョン（ＣＶ）タスクを圧縮領域で実行するシステムを示す図である。

【図13】いくつかの例における、ＣＶタスクを圧縮領域で実行するためのシステムを示す図である。

【図14】いくつかの例において、ＣＶタスクをマルチレート圧縮領域において実行するためのシステムを示す図である。

【図15】いくつかの例において、ＣＶタスクをマルチレート圧縮領域において実行するためのシステムを示す図である。

【図16】いくつかの例におけるプロセスの概要を示すフローチャートである。

【図17】いくつかの例におけるプロセスの概要を示すフローチャートである。

【図18】いくつかの例におけるコンピュータシステムの概略図である。

【発明を実施するための形態】

【0017】

本開示の一態様によれば、一部のビデオコーデックは、全体として最適化することが困難である可能性がある。例えば、ビデオコーデックの単一モジュール（例えば、エンコーダ）を改良しても、全体的なパフォーマンスのコーディングゲインが向上しない可能性がある。対照的に、人工ニューラルネットワーク（ＡＮＮ）ベースのビデオ／画像コーディングフレームワークでは、機械学習プロセスを実行し、次にＡＮＮベースのビデオ／画像コーディングフレームワークの様々なモジュールを入力から出力まで共同で最適化して、最終的な目標（例えば、本開示で説明するレート歪み損失Ｌ等のレート歪み性能）を向上させることができる。例えば、学習プロセス又はトレーニングプロセス（例えば、機械学習プロセス）は、ＡＮＮベースのビデオ／画像コーディングフレームワーク上で実行され、ＡＮＮベースのビデオ／画像コーディングフレームワークのモジュールを共同で最適化し、全体的に最適化したレート歪み性能を達成することができる。こうして、最適化の結果は、エンドツーエンド（Ｅ２Ｅ）で最適化したニューラル画像圧縮（ＮＩＣ）になり得る。

【0018】

以下の説明では、ＡＮＮベースのビデオ／画像コーディングフレームワークは、ニューラル画像圧縮（ＮＩＣ）フレームワークによって示される。以下の説明では画像圧縮（例えば、符号化及び復号化）について説明するが、画像圧縮の技術はビデオ圧縮にも適切に適用できることに留意されたい。

【0019】

本開示のいくつかの態様によれば、ＮＩＣフレームワークは、オフライン・トレーニングプロセス及び／又はオンライン・トレーニングプロセスでトレーニングすることができる。オフライン・トレーニングプロセスでは、以前に収集したトレーニング画像のセットを使用して、ＮＩＣフレームワークをトレーニングし、ＮＩＣフレームワークを最適化することができる。いくつかの例では、オフライン・トレーニングプロセスによって決定したＮＩＣフレームワークのパラメータは、事前トレーニング済みパラメータと呼ばれ得、事前トレーニング済みパラメータを含むＮＩＣフレームワークは、事前トレーニング済みＮＩＣフレームワークと呼ばれ得る。事前トレーニング済みＮＩＣフレームワークは、画像圧縮操作に使用することができる。

【0020】

いくつかの例では、１つ又は複数の画像（１つ又は複数のターゲット画像とも呼ばれる）が画像圧縮操作に利用できる場合に、事前トレーニング済みＮＩＣフレームワークは、オンライン・トレーニングプロセスで１つ又は複数のターゲット画像に基づいてさらにトレーニングされ、ＮＩＣフレームワークのパラメータを調整する。オンライン・トレーニングプロセスによって調整したＮＩＣフレームワークのパラメータは、オンライン・トレーニング済みパラメータと呼ばれ得、オンライン・トレーニング済みパラメータを含むＮＩＣフレームワークは、オンライン・トレーニング済みＮＩＣフレームワークと呼ばれ得る。オンライン・トレーニング済みＮＩＣフレームワークは、次に１つ又は複数のターゲット画像に対して画像圧縮操作を実行することができる。本開示のいくつかの態様は、ニューラル画像圧縮におけるオンライン・トレーニングベースのエンコーダ調整のための技術を提供する。

【0021】

ニューラルネットワークとは、生物学的な脳をモデル化する計算アーキテクチャを指す。ニューラルネットワークは、接続線を介して接続された多数の人工ニューロンを使用して生物学的システムの計算能力をエミュレートする、ソフトウェア又はハードウェアで実現されたモデルである。ノードと呼ばれる人工ニューロンは互いに接続され、集合的に動作して入力データを処理する。ニューラルネットワーク（ＮＮ）は、人工ニューラルネットワーク（ＡＮＮ）としても知られている。

【0022】

ＡＮＮ内のノードは、任意の適切なアーキテクチャで編成することができる。いくつかの実施形態では、ＡＮＮ内のノードは、ＡＮＮへの入力信号を受信する入力層と、ＡＮＮから出力信号を出力する出力層とを含む層（layer：レイヤ）で編成される。一実施形態では、ＡＮＮは、入力層と出力層との間に隠れ層と呼ばれる層をさらに含む。異なる層は、異なる層のそれぞれの入力に対して異なる種類の変換を実行することができる。信号は入力層から出力層に伝えることができる。

【0023】

入力層と出力層との間に複数の層を含むＡＮＮは、ディープニューラルネットワーク（ＤＮＮ）と呼ばれ得る。ＤＮＮは任意の適切な構造を有し得る。いくつかの例では、ＤＮＮは、データがループバックせずに入力層から出力層に流れるフィードフォワードネットワーク構造で構成される。いくつかの例では、ＤＮＮは、ある層の各ノードが次の層の全てのノードに接続される完全接続ネットワーク構造で構成される。いくつかの例では、ＤＮＮは、データが任意の方向に流れることができるリカレントニューラルネットワーク（ＲＮＮ）構造で構成される。

【0024】

畳み込み演算を行う少なくとも畳み込み層を含むＡＮＮは、畳み込みニューラルネットワーク（ＣＮＮ）と呼ばれ得る。ＣＮＮには、入力層、出力層、及び入力層と出力層との間の隠れ層を含めることができる。隠れ層は、２次元（２Ｄ）畳み込み等の畳み込みを行う畳み込み層（例えば、エンコーダで使用される）を含むことができる。一実施形態では、畳み込み層で行われる２Ｄ畳み込みは、畳み込み層に対して畳み込みカーネル（５×５行列等のフィルタ又はチャネルとも呼ばれる）と入力信号（例えば、２Ｄブロック（２５６×２５６行列）等の２Ｄ行列）との間で行われる。畳み込みカーネルの次元（例えば、５×５）は、入力信号の次元（例えば、２５６×２５６）よりも小さい。畳み込み演算中に、畳み込みカーネルと、畳み込みカーネルと同じサイズの入力信号（例えば、２５６×２５６行列）内のパッチ（例えば、５×５領域）に対してドット積演算を行い、次の層に入力するための出力信号が生成される。畳み込みカーネルのサイズである入力信号（例えば、２５６×２５６行列）内のパッチ（例えば、５×５領域）は、次の層のそれぞれのノードの受容野と呼ばれ得る。

【0025】

畳み込み中に、畳み込みカーネルと入力信号内の対応する受容野とのドット積が計算される。畳み込みカーネルには要素として重みが含まれており、畳み込みカーネルの各要素は、受容野内の対応するサンプルに適用される重みである。例えば、５×５行列で表される畳み込みカーネルには２５の重みがある。いくつかの例では、畳み込み層の出力信号にバイアスが適用され、出力信号はドット積とバイアスとの和に基づく。

【0026】

いくつかの例では、畳み込みカーネルは、ストライド（stride）と呼ばれるサイズだけ入力信号（例えば、２Ｄ行列）に沿ってシフトすることができ、こうして、畳み込み演算は、特徴マップ又は活性化マップ（例えば、別の２Ｄ行列）を生成し、次にこれがＣＮＮの次の層の入力に寄与する。例えば、入力信号は２５６×２５６サンプルを有する２Ｄブロックであり、ストライドは２サンプル（例えば、ストライド２）である。ストライドが２の場合に、畳み込みカーネルは、Ｘ方向（例えば、水平方向）及び／又はＹ方向（例えば、垂直方向）に沿って２サンプルずつシフトする。

【0027】

いくつかの例では、複数の畳み込みカーネルを同じ畳み込み層において入力信号に適用して複数の特徴マップをそれぞれ生成することができ、各特徴マップは入力信号の特定の特徴を表すことができる。いくつかの例では、畳み込みカーネルは特徴マップに対応することができる。Ｎ個の畳み込みカーネル（又はＮチャネル）を含み、（各畳み込みカーネルにはＭ×Ｍサンプルがあり、）ストライドＳの畳み込み層は、Ｃｏｎｖ：Ｍ×ＭｃＮｓＳとして指定できる。例えば、１９２個の畳み込みカーネル（又は１９２チャネル）を含み、（各畳み込みカーネルには５×５サンプルがあり、）ストライドが２である畳み込み層は、Ｃｏｎｖ：５×５ｃ１９２ｓ２として指定される。隠れ層は、２Ｄ逆畳み込み等の逆畳み込みを行う逆畳み込み層（例えば、デコーダで使用される）を含むことができる。逆畳み込みは畳み込みの逆である。１９２個の逆畳み込みカーネル（又は１９２チャネル）を含み、（各逆畳み込みカーネルには５×５サンプルがあり）、ストライドが２である逆畳み込み層は、ＤｅＣｏｎｖ：５×５ｃ１９２ｓ２として指定される。

【0028】

ＣＮＮでは、比較的多数のノードが同じフィルタ（例えば、同じ重み）及び同じバイアス（バイアスが使用される場合）を共有することができ、こうして、単一のバイアス及び単一の重みベクトルを、同じフィルタを共有する全ての受容野に亘って使用することができるため、メモリ設置面積を減らすことができる。例えば、１００×１００サンプルを有する入力信号の場合に、畳み込みカーネルが５×５サンプルを有する畳み込み層は、２５個の学習可能なパラメータ（例えば、重み）を有する。バイアスが使用される場合に、次に、１つのチャネルは２６個の学習可能なパラメータ（例えば、２５個の重み及び１つのバイアス）を使用する。畳み込み層にＮ個の畳み込みカーネルがある場合に、学習可能なパラメータの合計は２６×Ｎである。学習可能なパラメータの数は、完全に接続されたフィードフォワードニューラルネットワーク層と比較して比較的少数である。例えば、完全に接続されたフィードフォワード層の場合に、１００×１００（つまり、１００００）個の重みを使用して、次の層の各ノードに入力するための結果信号を生成する。次の層にＬ個のノードがある場合に、次に、学習可能なパラメータの合計は１００００×Ｌになる。

【0029】

ＣＮＮは、プーリング層、ある層の全てのノードを別の層の全てのノードに接続できる全結合層（fully connected layer(s)）、及び／又は正規化層等の１つ又は複数の他の層をさらに含むことができる。ＣＮＮの層は、任意の適切な順序及び適切なアーキテクチャ（フィードフォワード・アーキテクチャ、リカレント・アーキテクチャ等）で配置することができる。一例では、畳み込み層の後には、プーリング層、全結合層、及び／又は正規化層等の他の層が続く。

【0030】

プーリング層を使用して、ある層の複数のノードからの出力を次の層の単一のノードに結合することによってデータの次元を縮減することができる。入力として特徴マップを有するプーリング層に対するプーリング動作を以下に説明する。この説明は他の入力信号にも適切に適用できる。特徴マップはサブ領域（例えば、長方形のサブ領域）に分割することができ、それぞれのサブ領域内の特徴は、例えば平均プーリングの場合に平均値、又は最大プーリングの場合に最大値を取ることによって、単一の値に独立してダウンサンプリング（又はプール）することができる。

【0031】

プーリング層は、ローカルプーリング、グローバルプーリング、最大プーリング、及び／又は平均プーリング等のプーリングを実行することができる。プーリングは、非線形ダウンサンプリングの形式である。ローカルプーリングは、特徴マップ内の少数のノード（例えば、２×２ノード等のノードのローカルクラスタ）を結合する。グローバルプーリングでは、例えば特徴マップの全てのノードを結合することができる。

【0032】

プーリング層は、表現のサイズを削減することができ、こうして、ＣＮＮにおけるパラメータの数、メモリ設置面積、及び計算量を削減することができる。一例では、ＣＮＮの連続する畳み込み層の間にプーリング層が挿入される。一例では、プーリング層の後には、整流線形ユニット（ＲｅＬＵ）層等の活性化関数が続く。一例では、ＣＮＮの連続する畳み込み層の間でプーリング層が省略される。

【0033】

正規化層は、ＲｅＬＵ、ｌｅａｋｙＲｅＬＵ、一般化分割正規化（ＧＤＮ）、又は逆ＧＤＮ（ＩＧＤＮ）等であり得る。ＲｅＬＵは、非飽和活性化関数を適用して、負の値をゼロに設定することで、特徴マップ等の入力信号から負の値を除去することができる。ｌｅａｋｙＲｅＬＵは、負の値に対して平坦な傾き（例えば、０）の代わりに小さな傾き（例えば、０．０１）を有することができる。従って、値ｘが０より大きい場合に、次に、ｌｅａｋｙＲｅＬＵからの出力はｘになる。それ以外の場合に、ｌｅａｋｙＲｅＬＵからの出力は、値ｘに小さな傾き（例えば、０．０１）を乗算したものになる。一例では、傾きはトレーニング前に決定されるため、トレーニング中には学習されない。

【0034】

ＮＩＣフレームワークは、画像圧縮の圧縮モデルに対応することができる。ＮＩＣフレームワークは入力画像ｘを受け取り、入力画像ｘに対応する再構成画像ｘ－を出力する（ここで、ｘ－は、

【数1】

を表す）。ＮＩＣフレームワークは、ニューラルネットワーク・エンコーダ（例えば、ＤＮＮ等のニューラルネットワークに基づくエンコーダ）及びニューラルネットワーク・デコーダ（例えば、ＤＮＮ等のニューラルネットワークに基づくデコーダ）を含むことができる。入力画像ｘは、ニューラルネットワーク・エンコーダへの入力として提供され、圧縮表現（例えば、コンパクトな表現）ｘ＾が計算され（ここで、ｘ＾は、

【数2】

を表し）、この圧縮表現は例えば保存や送信の目的でコンパクトにすることができる。圧縮表現ｘ＾はニューラルネットワーク・デコーダへの入力として提供され、再構成画像ｘ－が生成される。様々な実施形態において、入力画像ｘ及び再構成画像ｘ－は空間領域内にあり、圧縮表現ｘ＾は空間領域とは異なる領域内にある。いくつかの例では、圧縮表現ｘ＾が量子化され、エントロピーコーディングされる。

【0035】

いくつかの例では、ＮＩＣフレームワークは変分オートエンコーダ（ＶＡＥ）構造を使用することができる。ＶＡＥ構造では、入力画像ｘ全体をニューラルネットワーク・エンコーダに入力することができる。入力画像ｘ全体は、ブラックボックスとして機能する（ニューラルネットワーク・エンコーダの）あるセットのニューラルネットワーク層を通過して、圧縮表現ｘ＾を計算することができる。圧縮表現ｘ＾は、ニューラルネットワーク・エンコーダの出力である。ニューラルネットワーク・デコーダは、圧縮表現ｘ＾全体を入力として受け取ることができる。圧縮表現ｘ＾は、別のブラックボックスとして機能する（ニューラルネットワーク・デコーダの）の別のセットのニューラルネットワーク層を通過して、再構成画像ｘ－を計算することができる。レート歪み（Ｒ－Ｄ）損失

【数3】

を最適化して、式１に従うように、再構成画像ｘ－の歪み損失

【数4】

と、コンパクトな表現ｘ＾のビット消費Ｒとの間のトレードオフを、トレードオフ・ハイパーパラメータλを用いて達成することができる。

【数5】

【0036】

ニューラルネットワーク（例えば、ＡＮＮ）は、タスク固有のプログラミングを行わなくても、例からタスクの実行方法を学習することができる。ＡＮＮは、接続されたノード又は人工ニューロンで構成することができる。ノード同士の間の接続によって、第１のノードから第２のノード（例えば、受信ノード）に信号を送信することができ、信号は、接続の重み係数によって示され得る重みによって修正することができる。受信ノードは、ノードからの信号（つまり、受信ノードの入力信号）を処理し、この信号を受信ノードに送信し、次に関数を入力信号適用することで出力信号を生成することができる。関数は線形関数であってよい。一例では、出力信号は入力信号の重み付けされた合計である。一例では、出力信号は、バイアス項によって示されるバイアスによってさらに修正され、こうして、出力信号は、バイアスと入力信号の重み付けされた合計との和となる。この関数には、例えば、重み付けされた合計、又はバイアスと入力信号の重み付けされた合計の和に対する非線形演算が含まれ得る。出力信号は、ノード（受信ノードに接続される下流ノード）に送信することができる。ＡＮＮは、パラメータ（例えば、接続の重み及び／又はバイアス）によって表現又は構成することができる。重み及び／又はバイアスは、重み及び／又はバイアスを反復的に調整することができる例を用いてＡＮＮをトレーニング（例えば、オフライン・トレーニング、及びオンライン・トレーニング等）することによって取得することができる。決定した重み及び／又は決定したバイアスを用いて構成されたトレーニングされたＡＮＮを使用して、タスクを実行することができる。

【0037】

図１は、いくつかの例におけるＮＩＣフレームワーク（１００）（例えば、ＮＩＣシステム）を示す。ＮＩＣフレームワーク（１００）は、ＤＮＮ及び／又はＣＮＮ等のニューラルネットワークに基づくことができる。ＮＩＣフレームワーク（１００）を使用して、画像を圧縮（例えば、符号化）し、圧縮画像（例えば、符号化画像）を解凍（例えば、復号化又は再構成）することができる。

【0038】

具体的には、図１の例では、ＮＩＣフレームワーク（１００）内の圧縮モデルは、圧縮モデルのメインレベル及び圧縮モデルのハイパーレベルと呼ばれる２つのレベルを含む。圧縮モデルのメインレベルと圧縮モデルのハイパーレベルとは、ニューラルネットワークを使用して実現することができる。図１において、圧縮モデルのメインレベルのニューラルネットワークは第１のサブＮＮ（１５１）として示され、圧縮モデルのハイパーレベルは第２のサブＮＮ（１５２）として示される。

【0039】

第１のサブＮＮ（１５１）は、オートエンコーダに類似することができ、入力画像ｘの圧縮画像ｘ＾を生成し、その圧縮画像（すなわち、符号化画像）ｘ＾を解凍して再構成画像ｘ－を取得するようにトレーニングすることができる。第１のサブＮＮ（１５１）は、メインエンコーダ・ニューラルネットワーク（又はメインエンコーダネットワーク）（１１１）、量子化器（１１２）、エントロピーエンコーダ（１１３）、エントロピーデコーダ（１１４）、及びメインデコーダ・ニューラルネットワーク（又はメインエンコーダネットワーク）（１１５）等の複数のコンポーネント（又はモジュール）を含むことができる。

【0040】

図１を参照すると、メインエンコーダネットワーク（１１１）は、入力画像ｘ（例えば、圧縮又は符号化すべき画像）から潜在（latent）又は潜在表現ｙを生成することができる。一例では、メインエンコーダネットワーク（１１１）は、ＣＮＮを使用して実装される。潜在表現ｙと入力画像ｘとの間の関係は、式２を使用して記述することができる。

【数6】

ここで、パラメータθ_１は、メインエンコーダネットワーク（１１１）の畳み込みカーネルで使用される重み及びバイアス（バイアスがメインエンコーダネットワーク（１１１）で使用される場合）等のパラメータを表す。

【0041】

潜在表現ｙは、量子化器（１１２）を使用して量子化され、量子化した潜在ｙ＾を生成することができる（ここで、ｙ＾は、

【数7】

を表す）。量子化した潜在ｙ＾は、例えば、エントロピーエンコーダ（１１３）による可逆圧縮を使用して圧縮され、入力画像の圧縮表現ｘ＾である圧縮画像（例えば、符号化画像）ｘ＾（１３１）を生成することができる。エントロピーエンコーダ（１１３）は、ハフマンコーディング、又は算術コーディング等のエントロピーコーディング技術を使用することができる。一例では、エントロピーエンコーダ（１１３）は算術符号化を使用し、算術エンコーダである。一例では、符号化画像（１３１）は、コーディングしたビットストリームで送信される。

【0042】

符号化画像（１３１）は、エントロピーデコーダ（１１４）によって解凍（例えば、エントロピー復号化）されて、出力を生成することができる。エントロピーデコーダ（１１４）は、エントロピーエンコーダ（１１３）で使用されるエントロピー符号化技術に対応する、ハフマンコーディング、又は算術コーディング等のエントロピーコーディング技術を使用することができる。一例では、エントロピーデコーダ（１１４）は算術復号化を使用し、算術デコーダである。一例では、エントロピーエンコーダ（１１３）で可逆圧縮が使用され、エントロピーデコーダ（１１４）で可逆解凍が使用され、符号化画像（１３１）の送信によるノイズ等は省略可能であり、エントロピーデコーダ（１１４）からの出力は、量子化した潜在ｙ＾である。

【0043】

メインデコーダネットワーク（１１５）は、量子化した潜在ｙ＾を復号化して再構成画像ｘ－を生成することができる。一例では、メインデコーダネットワーク（１１５）は、ＣＮＮを使用して実装される。再構成画像ｘ－（すなわち、メインデコーダネットワーク（１１５）の出力）と量子化した潜在ｙ＾（すなわち、メインデコーダネットワーク（１１５）の入力）との間の関係は、式３を使用して記述することができる。

【数8】

ここで、パラメータθ_２は、メインデコーダネットワーク（１１５）の畳み込みカーネルで使用される重み及びバイアス（バイアスがメインデコーダネットワーク（１１５）で使用される場合）等のパラメータを表す。こうして、第１のサブＮＮ（１５１）は、入力画像ｘを圧縮（例えば、符号化）して符号化画像（１３１）を取得し、符号化画像（１３１）を解凍（例えば、復号化）して再構成画像ｘ－を取得することができる。再構成画像ｘ－は、量子化器（１１２）によって導入された量子化損失により、入力画像ｘとは異なる可能性がある。

【0044】

いくつかの例では、第２のサブＮＮ（１５２）は、エントロピー符号化に使用される量子化した潜在ｙ＾に対してエントロピーモデル（例えば、以前の確率モデル）を学習することができる。こうして、エントロピーモデルは、入力画像ｘに依存する条件付きエントロピーモデル、例えば混合ガウスモデル（ＧＭＭ）、ガウススケールモデル（ＧＳＭ）にすることができる。

【0045】

いくつかの例では、第２のサブＮＮ（１５２）は、コンテキストモデルＮＮ（１１６）、エントロピーパラメータＮＮ（１１７）、ハイパーエンコーダネットワーク（１２１）、量子化器（１２２）、エントロピーエンコーダ（１２３）、エントロピーデコーダ（１２４）、及びハイパーデコーダネットワーク（１２５）を含むことができる。コンテキストモデルＮＮ（１１６）で使用されるエントロピーモデルは、潜在的な自己回帰モデル（例えば、量子化した潜在ｙ＾）であり得る。一例では、ハイパーエンコーダネットワーク（１２１）、量子化器（１２２）、エントロピーエンコーダ（１２３）、エントロピーデコーダ（１２４）、及びハイパーデコーダネットワーク（１２５）は、ハイパーレベルのニューラルネットワーク（例えば、ハイパー事前ＮＮ）を使用して実装できるハイパー事前（hyperprior）モデルを形成する。ハイパー事前モデルは、コンテキストベースの予測を修正するために役立つ情報を表すことができる。コンテキストモデルＮＮ（１１６）及びハイパー事前モデルからのデータは、エントロピーパラメータＮＮ（１１７）によって結合することができる。エントロピーパラメータＮＮ（１１７）は、条件付きガウスエントロピーモデル（例えば、ＧＭＭ）等のエントロピーモデルの平均パラメータ及びスケールパラメータ等のパラメータを生成することができる。

【0046】

図１を参照すると、エンコーダ側では、量子化器（１１２）からの量子化した潜在ｙ＾がコンテキストモデルＮＮ（１１６）に供給される。デコーダ側では、エントロピーデコーダ（１１４）からの量子化した潜在ｙ＾がコンテキストモデルＮＮ（１１６）に供給される。コンテキストモデルＮＮ（１１６）は、ＣＮＮ等のニューラルネットワークを使用して実装することができる。コンテキストモデルＮＮ（１１６）は、コンテキストモデルＮＮ（１１６）に利用可能な量子化した潜在ｙ＾であるコンテキストｙ＾_＜ｉに基づいて出力ｏ_ｃｍ，ｉを生成することができる。コンテキストｙ＾_＜ｉは、エンコーダ側で以前に量子化した潜在、又はデコーダ側で以前にエントロピー復号化した量子化した潜在を含むことができる。コンテキストモデルＮＮ（１１６）の出力ｏ_ｃｍ，ｉと入力（例えば、ｙ＾_＜ｉ）との間の関係は、式４を使用して記述することができる。

【数9】

ここで、パラメータθ_３は、コンテキストモデルＮＮ（１１６）の畳み込みカーネルで使用される重み及びバイアス（バイアスがコンテキストモデルＮＮ（１１６）で使用される場合）等のパラメータを表す。

【0047】

コンテキストモデルＮＮ（１１６）からの出力ｏ_ｃｍ，ｉ及びハイパーデコーダネットワーク（１２５）からの出力ｏ_ｈｃは、エントロピーパラメータＮＮ（１１７）に供給されて、出力ｏ_ｅｐを生成する。エントロピーパラメータＮＮ（１１７）は、ＣＮＮ等のニューラルネットワークを使用して実装することができる。エントロピーパラメータＮＮ（１１７）の出力ｏ_ｅｐと入力（例えば、ｏ_ｃｍ，ｉ及びｏ_ｈｃ）との間の関係は、式５を使用して記述することができる。

【数10】

ここで、パラメータθ_４は、エントロピーパラメータＮＮ（１１７）の畳み込みカーネルで使用される重み及びバイアス（バイアスがエントロピーパラメータＮＮ（１１７）で使用される場合）等のパラメータを表す。エントロピーパラメータＮＮ（１１７）の出力ｏ_ｅｐは、エントロピーモデルを決定する（例えば、条件付けする）際に使用することができ、こうして、条件付きエントロピーモデルは、例えば、ハイパーデコーダネットワーク（１２５）からの出力ｏ_ｈｃを介して、入力画像ｘに依存し得る。一例では、出力ｏ_ｅｐには、エントロピーモデル（ＧＭＭ等）を条件付けするために使用される平均パラメータ及びスケールパラメータ等のパラメータが含まれる。図１を参照すると、エントロピーモデル（例えば、条件付きエントロピーモデル）は、エントロピーコーディング及びエントロピー復号化それぞれにおいて、エントロピーエンコーダ（１１３）及びエントロピーデコーダ（１１４）によって使用され得る。

【0048】

第２のサブＮＮ（１５２）は以下のように説明できる。潜在ｙをハイパーエンコーダネットワーク（１２１）に供給して、ハイパー潜在ｚを生成することができる。一例では、ハイパーエンコーダネットワーク（１２１）は、ＣＮＮ等のニューラルネットワークを使用して実装される。ハイパー潜在ｚと潜在ｙとの間の関係は、式６を使用して記述することができる。

【数11】

ここで、パラメータθ_５は、ハイパーエンコーダネットワーク（１２１）の畳み込みカーネルで使用される重み及びバイアス（バイアスがハイパーエンコーダネットワーク（１２１）で使用される場合）等のパラメータを表す。

【0049】

ハイパー潜在ｚは量子化器（１２２）によって量子化され、量子化した潜在ｚ＾が生成される（ここで、ｚ＾は、

【数12】

を表す）。量子化した潜在ｚ＾は、例えば、エントロピーエンコーダ（１２３）による可逆圧縮を使用して圧縮され、ハイパーニューラルネットワークからの符号化ビット（１３２）等のサイド情報を生成することができる。エントロピーエンコーダ（１２３）は、ハフマンコーディング、又は算術コーディング等のエントロピーコーディング技術を使用することができる。一例では、エントロピーエンコーダ（１２３）は算術符号化を使用し、算術エンコーダである。一例では、符号化ビット（１３２）等のサイド情報は、例えば符号化画像（１３１）とともにコーディングしたビットストリームで送信することができる。

【0050】

符号化ビット（１３２）等のサイド情報は、エントロピーデコーダ（１２４）によって解凍（例えば、エントロピー復号化）されて、出力を生成することができる。エントロピーデコーダ（１２４）は、ハフマンコーディング、算術コーディング等のエントロピーコーディング技術を使用することができる。一例では、エントロピーデコーダ（１２４）は、算術復号化を使用し、算術デコーダである。一例では、可逆圧縮がエントロピーエンコーダ（１２３）で使用され、可逆解凍がエントロピーデコーダ（１２４）で使用され、サイド情報の送信等によるノイズが省かれ、エントロピーデコーダ（１２４）からの出力は、量子化した潜在ｚ＾とすることができる。ハイパーデコーダネットワーク（１２５）は、量子化した潜在ｚ＾を復号化して、出力ｏ_ｈｃを生成することができる。出力ｏ_ｈｃと量子化した潜在ｚ＾との間の関係は、式７を使用して記述することができる。

【数13】

ここで、パラメータθ_６は、ハイパーデコーダネットワーク（１２５）の畳み込みカーネルで使用される重み及びバイアス（バイアスがハイパーデコーダネットワーク（１２５）で使用される場合）等のパラメータを表す。

【0051】

上述したように、圧縮ビット又は符号化ビット（１３２）をサイド情報としてコーディングしたビットストリームに追加することができ、これによりエントロピーデコーダ（１１４）が条件付きエントロピーモデルを使用できるようになる。こうして、エントロピーモデルは画像に依存し、空間的に適応できるため、固定エントロピーモデルよりも正確になり得る。

【0052】

ＮＩＣフレームワーク（１００）は、例えば、図１に示される１つ又は複数のコンポーネントを省略する、図１に示される１つ又は複数の構成要素を修正する、及び／又は図１に示されていない１つ又は複数のコンポーネントを含むように適切に適合させることができる。一例では、固定エントロピーモデルを使用するＮＩＣフレームワークは、第１のサブＮＮ（１５１）を含み、第２のサブＮＮ（１５２）を含まない。一例では、ＮＩＣフレームワークは、エントロピーエンコーダ（１２３）及びエントロピーデコーダ（１２４）を除く、ＮＩＣフレームワーク（１００）内のコンポーネントを含む。

【0053】

一実施形態では、図１に示されるＮＩＣフレームワーク（１００）内の１つ又は複数のコンポーネントは、ＣＮＮ等のニューラルネットワークを使用して実装される。各ＮＮベースのコンポーネント（ＮＩＣフレームワーク（例えば、ＮＩＣフレームワーク（１００））内の、例えばメインエンコーダネットワーク（１１１）、メインデコーダネットワーク（１１５）、コンテキストモデルＮＮ（１１６）、エントロピーパラメータＮＮ（１１７）、ハイパーエンコーダネットワーク（１２１）、又はハイパーデコーダネットワーク（１２５））は、任意の適切なアーキテクチャ（例えば、任意の適切な層の組合せを有する）を含むことができ、任意の適切なタイプのパラメータ（例えば、重み、バイアス、及び／又は重み及びバイアスの組合せ等）を含むことができ、及び任意の適切な数のパラメータを含むことができる。

【0054】

一実施形態では、メインエンコーダネットワーク（１１１）、メインデコーダネットワーク（１１５）、コンテキストモデルＮＮ（１１６）、エントロピーパラメータＮＮ（１１７）、ハイパーエンコーダネットワーク（１２１）、及びハイパーデコーダネットワーク（１２５）は、それぞれのＣＮＮを使用して実装される。

【0055】

図２は、本開示の一実施形態によるメインエンコーダネットワーク（１１１）の例示的なＣＮＮを示す。例えば、メインエンコーダネットワーク（１１１）は、４セットのレイヤ（layers：層）を含み、各レイヤセットは、畳み込みレイヤ５×５ｃ１９２ｓ２と、その後に続くＧＤＮレイヤとを含む。図２に示される１つ又は複数の層は変更及び／又は省略してもよい。追加の層をメインエンコーダネットワーク（１１１）に加えることができる。

【0056】

図３は、本開示の一実施形態によるメインデコーダネットワーク（１１５）の例示的なＣＮＮを示す。例えば、メインデコーダネットワーク（１１５）は、３セットのレイヤを含み、各レイヤセットは、逆畳み込みレイヤ５×５ｃ１９２ｓ２と、その後に続くＩＧＤＮレイヤとを含む。さらに、３セットのレイヤの後には逆畳み込みレイヤ５×５ｃ３ｓ２が続き、その後にＩＧＤＮレイヤが続く。図３に示される１つ又は複数の層は変更及び／又は省略してもよい。追加の層をメインデコーダネットワーク（１１５）に加えることができる。

【0057】

図４は、本開示の一実施形態によるハイパーエンコーダネットワーク（１２１）の例示的なＣＮＮを示す。例えば、ハイパーエンコーダネットワーク（１２１）は、畳み込み層３×３ｃ１９２ｓ１とその後に続くｌｅａｋｙＲｅＬＵ、畳み込み層５×５ｃ１９２ｓ２とその後に続くｌｅａｋｙＲｅＬＵ、及び畳み込み層５×５ｃ１９２ｓ２を含む。図４に示される１つ又は複数の層は変更及び／又は省略してもよい。追加の層をハイパーエンコーダネットワーク（１２１）に加えることができる。

【0058】

図５は、本開示の一実施形態によるハイパーデコーダネットワーク（１２５）の例示的なＣＮＮを示す。例えば、ハイパーデコーダネットワーク（１２５）は、逆畳み込み層５×５ｃ１９２ｓ２とその後に続くｌｅａｋｙＲｅＬＵ、逆畳み込み層５×５ｃ２８８ｓ２とその後に続くｌｅａｋｙＲｅＬＵ、及び逆畳み込み層３×３ｃ３８４ｓ１を含む。図５に示される１つ又は複数の層５は変更及び／又は省略してもよい。追加の層をハイパーデコーダネットワーク（１２５）に加えることができる。

【0059】

図６は、本開示の一実施形態によるコンテキストモデルＮＮ（１１６）の例示的なＣＮＮを示す。例えば、コンテキストモデルＮＮ（１１６）は、コンテキスト予測のためのマスクした畳み込み５×５ｃ３８４ｓ１を含み、こうして、式４のコンテキストｙ＾_＜ｉは、制限したコンテキスト（例えば、５×５畳み込みカーネル）を含む。図６の畳み込み層は修正可能である。追加の層をコンテキストモデルＮＮ（１０１６）に加えることができる。

【0060】

図７は、本開示の一実施形態によるエントロピーパラメータＮＮ（１１７）の例示的なＣＮＮを示す。例えば、エントロピーパラメータＮＮ（１１７）は、畳み込み層１×１ｃ６４０ｓ１とその後に続くｌｅａｋｙＲｅＬＵ、畳み込み層１×１ｃ５１２ｓ１とその後に続くｌｅａｋｙＲｅＬＵ、及び畳み込み層１×１ｃ３８４ｓ１を含む。図７に示される１つ又は複数の層は変更及び／又は省略してもよい。追加の層をエントロピーパラメータＮＮ（１１７）に加えることができる。

【0061】

ＮＩＣフレームワーク（１００）は、図２～図７を参照して説明したように、ＣＮＮを使用して実装することができる。ＮＩＣフレームワーク（１００）は、ＮＩＣフレームワーク（１００）内の１つ又は複数のコンポーネント（例えば、（１１１）、（１１５）、（１１６）、（１１７）、（１２１）、及び／又は（１２５））が任意の適切なタイプのニューラルネットワーク（例えば、ＣＮＮ又は非ＣＮＮベースのニューラルネットワーク）を使用して実装されるように適切に適合させることができる。ＮＩＣフレームワーク（１００）の１つ又は複数の他のコンポーネントは、ニューラルネットワークを使用して実装することができる。

【0062】

ニューラルネットワーク（例えば、ＣＮＮ）を含むＮＩＣフレームワーク（１００）は、ニューラルネットワークで使用されるパラメータを学習するようにトレーニングすることができる。例えば、ＣＮＮが使用される場合に、メインエンコーダネットワーク（１１１）の畳み込みカーネルで使用される重み及びバイアス（バイアスがメインエンコーダネットワーク（１１１）で使用される場合）、メインデコーダネットワーク（１１５）の畳み込みカーネルで使用される重み及びバイアス（バイアスがメインデコーダネットワーク（１１５）で使用される場合）、ハイパーエンコーダネットワーク（１２１）の畳み込みカーネルで使用される重み及びバイアス（バイアスがハイパーエンコーダネットワーク（１２１）で使用される場合）、ハイパーデコーダネットワーク（１２５）の畳み込みカーネルで使用される重み及びバイアス（バイアスがハイパーデコーダネットワーク（１２５）で使用される場合）、コンテキストモデルＮＮ（１１６）の畳み込みカーネルで使用される重み及びバイアス（バイアスがコンテキストモデルＮＮ（１１６）で使用される場合）、及びエントロピーパラメータＮＮ（１１７）の畳み込みカーネルで使用される重み及びバイアス（バイアスがエントロピーパラメータＮＮ（１１７）で使用される場合）等の、θ_１～θ_６で表されるパラメータは、それぞれトレーニングプロセス（例えば、オフライン・トレーニングプロセス、及びオンライン・トレーニングプロセス等）で学習することができる。

【0063】

一例として、図２を参照すると、メインエンコーダネットワーク（１１１）は４つの畳み込み層を含み、各畳み込み層は５×５の畳み込みカーネル及び１９２チャネルを有する。こうして、メインエンコーダネットワーク（１１１）の畳み込みカーネルで使用される重みの数は１９２００（すなわち、４×５×５×１９２）である。メインエンコーダネットワーク（１１１）で使用されるパラメータには、１９２００の重みとオプションのバイアスとが含まれる。バイアス及び／又は追加のＮＮがメインエンコーダネットワーク（１１１）で使用される場合に、追加のパラメータを含めることができる。

【0064】

図１を参照すると、ＮＩＣフレームワーク（１００）は、ニューラルネットワーク上に構築された少なくとも１つのコンポーネント又はモジュールを含む。少なくとも１つのコンポーネントは、メインエンコーダネットワーク（１１１）、メインデコーダネットワーク（１１５）、ハイパーエンコーダネットワーク（１２１）、ハイパーデコーダネットワーク（１２５）、コンテキストモデルＮＮ（１１６）、及びエントロピーパラメータＮＮ（１１７）のうちの１つ又は複数を含むことができる。少なくとも１つのコンポーネントは個別にトレーニングすることができる。一例では、トレーニングプロセスは、各コンポーネントのパラメータを個別に学習するために使用される。少なくとも１つのコンポーネントは、グループとして共同してトレーニングすることができる。一例では、トレーニングプロセスは、少なくとも１つのコンポーネントのサブセットのパラメータを共同で学習するために使用される。一例では、トレーニングプロセスは、少なくとも１つのコンポーネントの全てのパラメータを学習するために使用され、こうして、Ｅ２Ｅ最適化と呼ばれる。

【0065】

ＮＩＣフレームワーク（１００）における１つ又は複数のコンポーネントのトレーニングプロセスにおいて、１つ又は複数のコンポーネントの重み（又は重み係数）を初期化することができる。一例では、重みは、対応する事前トレーニング済みニューラルネットワークモデル（例えば、ＤＮＮモデル、ＣＮＮモデル）に基づいて初期化される。一例では、重みを乱数に設定することによって、重みが初期化される。

【0066】

例えば、重みを初期化した後に、トレーニング画像のセットを使用して、１つ又は複数のコンポーネントをトレーニングすることができる。トレーニング画像のセットには、任意の適切なサイズを有する任意の適切な画像を含めることができる。いくつかの例では、トレーニング画像のセットには、空間領域内にある生の画像、自然画像、及び／又はコンピュータ生成画像等からの画像が含まれる。いくつかの例では、トレーニング画像のセットには、残差画像からの画像、又は空間領域に残差データを有する残差画像が含まれる。残差データは残差計算機によって計算することができる。いくつかの例では、生の画像及び／又は残差データを含む残差画像は、ＮＩＣフレームワーク（１００）等のＮＩＣフレームワークにおいてニューラルネットワークをトレーニングするために直接使用され得る。こうして、生の画像、残差画像、生の画像からの画像、及び／又は残差画像からの画像を使用して、ＮＩＣフレームワークでニューラルネットワークをトレーニングすることができる。

【0067】

簡潔にするために、以下のトレーニングプロセス（例えば、オフライン・トレーニングプロセス、及びオンライン・トレーニングプロセス等）について、トレーニング画像を例として使用して説明する。この説明はトレーニングブロックに適切に適合させることができる。トレーニング画像のセットのうちのトレーニング画像ｔは、図１の符号化プロセスを通して、圧縮表現（例えば、ビットストリームへの符号化情報）を生成することができる。符号化情報は、図１で説明した復号化プロセスを通して、再構成画像ｔ－を計算して再構成するすることができる（ここで、再構成画像ｔ－は、

【数14】

を表す）。

【0068】

ＮＩＣフレームワーク（１００）では、２つの競合するターゲット、例えば、再構成品質及びビット消費量のバランスが取られる。品質損失関数（例えば、歪み又は歪み損失）

【数15】

を使用して、再構成（例えば、再構成画像ｔ－）と元の画像（例えば、トレーニング画像ｔ）との間の差等の再構成品質を示すことができる。レート（又はレート損失）Ｒを使用して、圧縮表現のビット消費を示すことができる。一例では、レート損失Ｒは、例えばコンテキストモデルを決定する際に使用されるサイド情報をさらに含む。

【0069】

ニューラル画像圧縮の場合に、量子化の微分可能な近似をＥ２Ｅ最適化で使用することができる。様々な例において、ニューラルネットワークベースの画像圧縮のトレーニングプロセスにおいて、量子化をシミュレートするためにノイズ注入が使用され、こうして、量子化は、量子化器（例えば、量子化器（１１２））によって実行される代わりに、ノイズ注入によってシミュレートされる。こうして、ノイズ注入を使用したトレーニングにより、量子化エラーを変分的に（variationally）近似することができる。ピクセル当たりのビット数（ＢＰＰ）推定器を使用してエントロピーコーダをシミュレートすることができるため、エントロピーコーディングは、エントロピーエンコーダ（例えば、（１１３））及びエントロピーデコーダ（例えば、（１１４））によって実行される代わりにＢＰＰ推定器によってシミュレートされる。従って、トレーニングプロセス中に式１に示される損失関数Ｌにおけるレート損失Ｒは、例えばノイズ注入及びＢＰＰ推定器に基づいて推定することができる。一般に、レートＲを高くすると歪みＤを低くすることができ、レートＲを低くすると歪みＤが大きくなり得る。こうして、式１のトレードオフ・ハイパーパラメータλを使用して、結合Ｒ－Ｄ損失Ｌを最適化することができ、ここで、Ｌは、λＤ及びＲの和として最適化することができる。トレーニングプロセスは、結合Ｒ－Ｄ損失Ｌが最小化又は最適化されるように、ＮＩＣフレームワーク（１００）内の１つ又は複数のコンポーネント（例えば、（１１１）（１１５））のパラメータを調整するために使用され得る。いくつかの例では、トレードオフ・ハイパーパラメータλを使用して、結合レート歪み（Ｒ－Ｄ）損失を次のように最適化することができる。

【数16】

ここで、Ｅは、符号化前の元の画像残差と比較した、復号化した画像残差の歪みを測定し、これは、残差符号化／復号化ＤＮＮ及び符号化／復号化ＤＮＮの正則化損失として機能する。βは、正則化損失の重要性のバランスをとるためのハイパーパラメータである。

【0070】

様々なモデルを使用して、歪み損失Ｄ及びレート損失Ｒを決定し、こうして式１の結合Ｒ－Ｄ損失Ｌを決定することができる。一例では、歪み損失

【数17】

は、平均二乗誤差、マルチスケール構造類似性（ＭＳ－ＳＳＩＭ）品質インデックス、又はＰＳＮＲ及びＭＳ－ＳＳＩＭの重み付けされた組合せ等に基づくメトリックであるピーク信号対雑音比（ＰＳＮＲ）として表される。

【0071】

一例では、トレーニングプロセスのターゲットは、エンコーダ側で使用されるビデオエンコーダ等の符号化ニューラルネットワーク（例えば、符号化ＤＮＮ）、及びデコーダ側で使用されるビデオデコーダ等の復号化ニューラルネットワーク（例えば、復号ＤＮＮ）をトレーニングすることである。一例として、図１を参照すると、符号化ニューラルネットワークは、メインエンコーダネットワーク（１１１）、ハイパーエンコーダネットワーク（１２１）、ハイパーデコーダネットワーク（１２５）、コンテキストモデルＮＮ（１１６）、及びエントロピーパラメータＮＮ（１１７）を含むことができる。復号化ニューラルネットワークは、メインデコーダネットワーク（１１５）、ハイパーデコーダネットワーク（１２５）、コンテキストモデルＮＮ（１１６）、及びエントロピーパラメータＮＮ（１１７）を含むことができる。ビデオエンコーダ及び／又はビデオデコーダは、ＮＮに基づく及び／又はＮＮに基づかない、他のコンポーネントを含むことができる。

【0072】

ＮＩＣフレームワーク（例えば、ＮＩＣフレームワーク（１００））は、Ｅ２Ｅ方式でトレーニングすることができる。一例では、符号化ニューラルネットワーク及び復号化ニューラルネットワークは、例えば勾配降下法アルゴリズムを使用して、Ｅ２Ｅ方式で逆伝播された勾配に基づいてトレーニングプロセスにおいて一緒に更新される。勾配降下法アルゴリズムは、ＮＩＣフレームワークの微分可能関数の極小値（例えば、レート歪み損失の極小値）を見つけるために、ＮＩＣフレームワークのパラメータを繰り返し最適化することができる。例えば、勾配降下法アルゴリズムは、現在の点における微分可能関数の勾配（又は近似勾配）の反対方向にステップを繰り返すことができる。

【0073】

ＮＩＣフレームワーク（１００）内のニューラルネットワークのパラメータをトレーニングした後に、ＮＩＣフレームワーク（１００）内の１つ又は複数のコンポーネントを使用して画像を符号化及び／又は復号化することができる。一実施形態では、エンコーダ側で、画像エンコーダは、入力画像ｘをビットストリームで送信される符号化画像（１３１）に符号化するように構成される。画像エンコーダは、ＮＩＣフレームワーク（１００）内に複数のコンポーネントを含むことができる。一実施形態では、デコーダ側で、対応する画像デコーダは、ビットストリームで搬送される符号化画像（１３１）を再構成画像ｘ－に復号化するように構成される。画像デコーダは、ＮＩＣフレームワーク（１００）内に複数のコンポーネントを含むことができる。

【0074】

ＮＩＣフレームワークによる画像エンコーダ及び画像デコーダは、対応する構造を有することができることに留意されたい。

【0075】

図８は、本開示の一実施形態による例示的な画像エンコーダ（８００）を示す。画像エンコーダ（８００）は、メインエンコーダネットワーク（８１１）、量子化器（８１２）、エントロピーエンコーダ（８１３）、及び第２のサブＮＮ（８５２）を含む。メインエンコーダネットワーク（８１１）はメインエンコーダネットワーク（１１１）と同様に構成され、量子化器（８１２）は量子化器（１１２）と同様に構成され、エントロピーエンコーダ（８１３）はエントロピーエンコーダ（１１３）と同様に構成され、第２のサブＮＮ（８５２）は第２のサブＮＮ（１５２）と同様に構成される。これは、図１を参照して上で説明しており、明確にするためにここでは省略する。

【0076】

図９は、本開示の一実施形態による例示的な画像デコーダ（９００）を示す。画像デコーダ（９００）は画像エンコーダ（８００）に対応することができる。画像デコーダ（９００）は、メインデコーダネットワーク（９１５）、エントロピーデコーダ（９１４）、コンテキストモデルＮＮ（９１６）、エントロピーパラメータＮＮ（９１７）、エントロピーデコーダ（９２４）、及びハイパーデコーダネットワーク（９２５）を含むことができる。メインデコーダネットワーク（９１５）はメインデコーダネットワーク（１１５）と同様に構成され、エントロピーデコーダ（９１４）はエントロピーデコーダ（１１４）と同様に構成され、コンテキストモデルＮＮ（９１６）はコンテキストモデルＮＮ（１１６）と同様に構成され、エントロピーパラメータＮＮ（９１７）はエントロピーパラメータＮＮ（１１７）と同様に構成され、エントロピーデコーダ（９２４）はエントロピーデコーダ（１２４）と同様に構成され、ハイパーデコーダネットワーク（９２５）はハイパーデコーダネットワーク（１２５）と同様に構成される。これは、図１を参照して上で説明しており、明確にするためにここでは省略する。

【0077】

図８～図９を参照すると、エンコーダ側では、画像エンコーダ（８００）は、ビットストリームで送信される符号化画像（８３１）及び符号化ビット（８３２）を生成することができる。デコーダ側では、画像デコーダ（９００）は、符号化画像（９３１）及び符号化ビット（９３２）を受信して復号化することができる。符号化画像（９３１）及び符号化ビット（９３２）は、受信したビットストリームから解析することができる。

【0078】

図１０～図１１は、本開示の実施形態による例示的な画像エンコーダ（１０００）及び対応する画像デコーダ（１１００）をそれぞれ示す。図１０を参照すると、画像エンコーダ（１０００）は、メインエンコーダネットワーク（１０１１）、量子化器（１０１２）、及びエントロピーエンコーダ（１０１３）を含む。メインエンコーダネットワーク（１０１１）はメインエンコーダネットワーク（１１１）と同様に構成され、量子化器（１０１２）は量子化器（１１２）と同様に構成され、エントロピーエンコーダ（１０１３）はエントロピーエンコーダ（１１３）と同様に構成される。これは、図１を参照して上で説明しており、明確にするためにここでは省略する。

【0079】

図１１を参照すると、画像デコーダ（１１００）は、メインデコーダネットワーク（１１１５）及びエントロピーデコーダ（１１１４）を含む。メインデコーダネットワーク（１１１５）はメインデコーダネットワーク（１１５）と同様に構成され、エントロピーデコーダ（１１１４）はエントロピーデコーダ（１１４）と同様に構成される。これは、図１を参照して上で説明しており、明確にするためにここでは省略する。

【0080】

図１０及び図１１を参照すると、画像エンコーダ（１０００）は、ビットストリームに含められる符号化画像（１０３１）を生成することができる。画像デコーダ（１１００）は、ビットストリームを受信し、ビットストリームで搬送される符号化画像（１１３１）を復号化することができる。

【0081】

本開示のいくつかの態様によれば、画像圧縮は画像の冗長性を除去することができ、こうして、圧縮画像を表すために使用することができるビット数を大幅に減らすことができる。画像圧縮は、画像の送信及び保存に利点をもたらす。圧縮画像は、圧縮領域の画像と呼ばれ得る。圧縮画像に対する画像処理は、圧縮領域における画像処理と呼ばれ得る。いくつかの例では、画像圧縮は異なる圧縮レートで実行することができ、いくつかの例では、圧縮領域はマルチレート圧縮領域と呼ばれ得る。

【0082】

コンピュータビジョン（ＣＶ）は、ニューラルネットワークを備えたコンピュータを使用して画像の内容を検出、理解、及び処理する人工知能（ＡＩ）の分野である。ＣＶタスクには、画像分類、オブジェクト検出、超解像度（１つ又は複数の低解像度画像から高解像度画像を生成する）、及び画像ノイズ除去等が含まれ得るが、これらに限定されない。いくつかの関連する例では、ＣＶタスクは、圧縮していない元の画像、及び圧縮画像からの再構成画像等の解凍画像に対して実行される。いくつかの例では、圧縮画像を解凍して再構成画像が生成され、再構成画像に対してＣＶタスクが実行される。再構成には大量の計算が必要になる場合がある。画像を再構成せずに圧縮領域でＣＶタスクを実行すると、計算の複雑さが軽減され、ＣＶタスクの待ち時間が短縮される。

【0083】

本開示のいくつかの態様は、圧縮領域におけるマルチレート・コンピュータビジョンタスク・ニューラルネットワークのための技術を提供する。いくつかの例では、この技術は、マルチレート圧縮領域ＣＶタスクフレームワーク（ＣＤＣＶＴＦ）のモデルを含むエンドツーエンド（Ｅ２Ｅ）最適化フレームワークで使用することができる。Ｅ２Ｅ最適化フレームワークには、エンコーダ及びデコーダが含まれる。エンコーダは入力画像のコーディングしたビットストリームを生成することができ、デコーダはコーディングしたビットストリームを復号化して、ＣＶタスクベースの結果を生成する。エンコーダとデコーダとは両方とも画像圧縮のマルチレートをサポートしている。エンドツーエンド（Ｅ２Ｅ）最適化フレームワークは、事前トレーニング済みの人工ニューラルネットワーク（ＡＮＮ）ベースのフレームワークにすることができる。

【0084】

いくつかの例では、圧縮画像に対するＣＶタスクは、ニューラルネットワークの２つの部分によって実行され得る。いくつかの例では、ニューラルネットワークの２つの部分は、エンドツーエンドでトレーニングすることができるＥ２Ｅフレームワークを形成する。ニューラルネットワークの２つの部分には、画像コーディング・ニューラルネットワークの第１の部分と、ＣＶタスク・ニューラルネットワークの第２の部分とが含まれる。画像コーディング・ニューラルネットワークは、画像圧縮エンコーダとも呼ばれる。ＣＶタスク・ニューラルネットワークは、ＣＶタスクデコーダとも呼ばれる。画像圧縮エンコーダは、画像をコーディングされるビットストリームに符号化することができる。ＣＶタスクデコーダは、コーディングしたビットストリームを復号化して、圧縮領域においてＣＶタスクの結果を生成することができる。ＣＶタスクデコーダは、圧縮画像に基づいてＣＶタスクを実行する。

【0085】

いくつかの例では、ＮＩＣフレームワークのエンコーダによって画像を圧縮して、圧縮画像又は圧縮特徴マップを搬送するコーディングしたビットストリームを生成する。さらに、圧縮画像又は圧縮特徴マップをＣＶタスク・ニューラルネットワークに提供して、ＣＶタスクの結果を生成することができる。

【0086】

図１２は、いくつかの例において、圧縮領域でＣＶタスクを実行するためのシステム（１２００）を示す。システム（１２００）は、画像圧縮エンコーダ（１２２０）、画像圧縮デコーダ（１２５０）、及びＣＶタスクデコーダ（１２７０）を含む。画像圧縮デコーダ（１２５０）は、画像圧縮エンコーダ（１２２０）に対応することができる。例えば、画像圧縮エンコーダ（１２２０）は画像エンコーダ（８００）と同様に構成することができ、画像圧縮デコーダ（１２５０）は画像デコーダ（９００）と同様に構成することができる。別の例では、画像圧縮エンコーダ（１２２０）は画像エンコーダ（１０００）と同様に構成することができ、画像圧縮デコーダ（１２５０）は画像デコーダ（１１００）と同様に構成することができる。いくつかの例では、画像圧縮エンコーダ（１２２０）は、ＮＩＣフレームワークの（エンコーダモデルを有する）符号化部分として構成され、画像圧縮デコーダ（１２５０）は、ＮＩＣフレームワークの（デコーダモデルを有する）復号化部分として構成される。ＮＩＣフレームワークをエンドツーエンドでトレーニングして、Ｅ２Ｅ最適化フレームワークのエンコーダモデル及びデコーダモデルの事前トレーニング済みパラメータを決定することができる。画像圧縮エンコーダ（１２２０）及び画像圧縮デコーダ（１２５０）は、事前トレーニング済みパラメータを有するエンコーダモデル及びデコーダモデルに従って構成される。画像圧縮エンコーダ（１２２０）は、入力画像を受け取り、入力画像を圧縮し、入力画像に対応する圧縮画像を搬送するコーディングしたビットストリームを生成することができる。画像圧縮デコーダ（１２５０）は、コーディングしたビットストリームを受信し、圧縮画像を解凍し、再構成画像を生成することができる。

【0087】

ＣＶタスクデコーダ（１２７０）は、圧縮画像を搬送するコーディングしたビットストリームを復号化し、入力画像に対応するＣＶタスク結果を生成するように構成される。ＣＶタスクデコーダ（１２７０）は、シングル・タスクデコーダであってもよく、又はマルチ・タスクデコーダであってもよい。ＣＶタスクには、超解像、オブジェクト検出、画像ノイズ除去、及び画像分類等が含まれるが、これらに限定されない。

【0088】

ＣＶタスクデコーダ（１２７０）は、トレーニングデータに基づいてトレーニングされるニューラルネットワーク（例えば、ＣＶタスクデコーダモデル）を含む。例えば、トレーニングデータは、トレーニング画像、（例えば、画像圧縮エンコーダ（１２２０）による）圧縮したトレーニング画像、トレーニング画像のガイドラインＣＶタスク結果を含むことができる。例えば、ＣＶタスクデコーダ（１２７０）は、圧縮したトレーニング画像を入力として受け取り、トレーニングＣＶタスクの結果を生成することができる。次に、（例えば、調整可能なニューラルネットワーク構造及び調整可能なパラメータを有する）ＣＶタスクデコーダ（１２７０）は、ガイドラインＣＶタスク結果とトレーニングＣＶタスクの結果との間の損失を最小限に抑えるようにトレーニングされる。トレーニングにより、ＣＶタスクデコーダ（１２７０）の構造及び事前トレーニング済みパラメータが決定される。

【0089】

ＣＶタスクデコーダ（１２７０）は、ＣＶタスク結果を生成するために任意の適切なニューラルネットワーク構造を有することができることに留意されたい。いくつかの実施形態では、ＣＶタスクデコーダ（１２７０）は、コーディングしたビットストリームを復号化して、画像再構成を行わずにＣＶタスク結果を直接生成する。いくつかの実施形態では、ＣＶタスクデコーダ（１２７０）は、まず、コーディングしたビットストリームを復号化し、解凍画像（再構成画像とも呼ばれる）を生成し、次に、ＣＶタスクモデルを解凍画像に適用して、ＣＶタスク結果を生成する。

【0090】

いくつかの例では、画像圧縮エンコーダ（１２２０）、画像圧縮デコーダ（１２５０）、及びＣＶタスクデコーダ（１２７０）は、異なる電子装置内にある。例えば、画像圧縮エンコーダ（１２２０）は第１の装置（１２１０）内にあり、画像圧縮デコーダ（１２５０）は第２の装置（１２４０）内にあり、ＣＶタスクデコーダ（１２７０）は第３の装置（１２６０）内にある。いくつかの例では、画像圧縮デコーダ（１２５０）及びＣＶタスクデコーダ（１２７０）は、同じ装置内にあってもよい。いくつかの例では、画像圧縮エンコーダ（１２２０）と画像圧縮デコーダ（１２５０）は同じ装置内にあってもよい。いくつかの例では、画像圧縮エンコーダ（１２２０）、ＣＶタスクデコーダ（１２７０）は、同じ装置内にあってもよい。いくつかの例では、画像圧縮エンコーダ（１２２０）、画像圧縮デコーダ（１２５０）、及びＣＶタスクデコーダ（１２７０）は、同じ装置内にあってもよい。

【0091】

図１３は、いくつかの例において、圧縮領域でＣＶタスクを実行するためのシステム（１３００）を示す。システム（１３００）は、画像圧縮エンコーダ（１３２０）及びＣＶタスクデコーダ（１３７０）を含む。いくつかの例では、画像圧縮エンコーダ（１３２０）は、ＮＩＣフレームワークの（エンコーダモデルを有する）符号化部分として構成され、ＣＶタスクデコーダ（１３７０）は、ＮＩＣフレームワークの（デコーダモデルを有する）復号化部分として構成される。ＮＩＣフレームワークは、トレーニングデータに基づいてエンドツーエンドでトレーニングして、Ｅ２Ｅ最適化フレームワークのエンコーダモデルとデコーダモデルの事前トレーニング済みパラメータを決定することができる。例えば、トレーニングデータには、トレーニング画像（解凍）、トレーニング画像のガイドラインＣＶタスク結果が含まれる場合がある。例えば、ＮＩＣフレームワークはトレーニング画像を入力として受け取り、トレーニングＣＶタスクの結果を生成することができる。次に、ＮＩＣフレームワークが（調整可能なニューラルネットワーク構造と調整可能なパラメータとを使用して）トレーニングされ、ガイドラインＣＶタスク結果とトレーニングＣＶタスクの結果との間の損失が最小限に抑えられる。画像圧縮エンコーダ（１３２０）及びＣＶタスクデコーダ（１３７０）は、事前トレーニング済みパラメータに従って構成される。

【0092】

次に、画像圧縮エンコーダ（１３２０）は、入力画像を受信し、圧縮画像又は圧縮特徴マップを搬送するコーディングしたビットストリームを生成することができる。ＣＶタスクデコーダ（１３７０）は、コーディングしたビットストリームを受信し、圧縮画像又は圧縮特徴マップを解凍し、ＣＶタスク結果を生成することができる。

【0093】

ＣＶタスクデコーダ（１３７０）は、シングル・タスクデコーダであってもよく、又はマルチ・タスクデコーダであってもよい。ＣＶタスクには、超解像、オブジェクト検出、画像ノイズ除去、画像分類等が含まれ得るが、これらに限定されない。

【0094】

ＣＶタスクデコーダ（１３７０）は、任意の適切なニューラルネットワーク構造を使用することができることに留意されたい。いくつかの実施形態では、ＣＶタスクデコーダ（１３７０）は、コーディングしたビットストリームを復号化して、画像再構成を行わずにＣＶタスク結果を直接生成する。いくつかの実施形態では、ＣＶタスクデコーダ（１３７０）は、まず、コーディングしたビットストリームを復号化し、解凍した画像（再構成画像とも呼ばれる）を生成し、次に、ＣＶタスクモデルを解凍した画像に適用して、ＣＶタスク結果を生成する。

【0095】

いくつかの例では、画像圧縮エンコーダ（１３２０）及びＣＶタスクデコーダ（１３７０）は、異なる電子装置内にある。例えば、画像圧縮エンコーダ（１３２０）は第１の装置（１３１０）内にあり、ＣＶタスクデコーダ（１３７０）は第２の装置（１３６０）内にある。いくつかの例では、画像圧縮エンコーダ（１３２０）及びＣＶタスクデコーダ（１３７０）は、同じ装置内にあってもよい。

【0096】

本開示のいくつかの態様によれば、システム（１２００）及びシステム（１３００）における圧縮領域は、マルチレート圧縮のために適切に調整され得る。いくつかの例では、ハイパーパラメータλを使用して圧縮レートを調整する。いくつかの例では、圧縮レートはピクセル当たりのビット数として規定され、式９に従って計算することができる。
圧縮レート＝Ｒ／（Ｗ×Ｈ）式９
ここで、Ｒは、圧縮画像のビット消費量であり、式１でも使用され、Ｗは入力画像の幅であり、Ｈは入力画像の高さである。式１及び式９によると、ハイパーパラメータλが増加すると、圧縮レートも増加する。

【0097】

本開示のいくつかの態様は、圧縮領域ＣＶタスクフレームワーク（ＣＤＣＶＴＦ）におけるマルチレートのニューラルネットワークモデルを提供する。いくつかの例では、ハイパーパラメータλはＣＤＣＶＴＦへの入力であるため、ＣＤＣＶＴＦは圧縮レートを理解するようにトレーニングされ、次に、ハイパーパラメータλの値を使用して、ＣＤＣＶＴＦモデルの圧縮レートを調整することができる。ハイパーパラメータλは、ＣＤＣＶＴＦにおけるマルチレートの技術を説明するために以下の説明で使用され、圧縮レートを調整することができる他の適切なパラメータを使用するように技術を適切に調整することができることに留意されたい。

【0098】

図１４は、いくつかの例において、ＣＶタスクをマルチレート圧縮領域において実行するためのシステム（１４００）を示す。システム（１４００）は、マルチレート画像圧縮エンコーダ（１４１１）、マルチレート画像圧縮デコーダ（１４４１）、及びマルチレートＣＶタスクデコーダ（１４６１）を含む。いくつかの例では、マルチレート画像圧縮デコーダ（１４４１）は、マルチレート画像圧縮エンコーダ（１４１１）に対応することができる。いくつかの例では、マルチレート画像圧縮エンコーダ（１４１１）は、マルチレートＮＩＣフレームワークの（エンコーダモデルを有する）符号化部分として構成され、マルチレート画像圧縮デコーダ（１４４１）は、マルチレートＮＩＣフレームワークの（デコーダモデルを有する）復号化部分として構成される。マルチレートＮＩＣフレームワークは、エンドツーエンド（例えば、Ｅ２ＥマルチレートＮＩＣトレーニング）でトレーニングされて、マルチレート画像圧縮のためのＥ２Ｅ最適化フレームワークのエンコーダモデル及びデコーダモデルの事前トレーニング済みパラメータを決定することができる。

【0099】

図１４の例では、マルチレート画像圧縮エンコーダ（１４１１）は、変換モジュール（１４３０）及び画像圧縮エンコーダ（１４２０）を含む。変換モジュール（１４３０）は、ハイパーパラメータλをテンソル（１４３１）に変換するニューラルネットワークを含む。画像圧縮エンコーダ（１４２０）は、テンソル（１４３１）に基づいて入力画像を圧縮して、入力画像に対応する圧縮画像を搬送するコーディングしたビットストリームを生成することができる。いくつかの例では、変換モジュール（１４３０）内のニューラルネットワークは、Ｅ２ＥマルチレートＮＩＣトレーニング中に調整して事前トレーニング済みパラメータを決定することができる調整可能な構造又は調整可能なパラメータを含む。

【0100】

図１４の例では、マルチレート画像圧縮デコーダ（１４４１）は、変換モジュール（１４４５）及び画像圧縮デコーダ（１４５０）を含む。変換モジュール（１４４５）は、ハイパーパラメータλをテンソル（１４４６）に変換するニューラルネットワークを含む。画像圧縮デコーダ（１４５０）は、テンソル（１４４６）に基づいて圧縮画像を解凍して、再構成画像を生成することができる。いくつかの例では、変換モジュール（１４４５）内のニューラルネットワークは、Ｅ２ＥマルチレートＮＩＣトレーニング中に調整して事前トレーニング済みパラメータを決定することができる調整可能な構造又は調整可能なパラメータを含む。

【0101】

図１４の例では、マルチレートＣＶタスクデコーダ（１４６１）は、変換モジュール（１４８０）及びＣＶタスクデコーダ（１４７０）を含む。変換モジュール（１４８０）は、ハイパーパラメータλをテンソル（１４８１）に変換するニューラルネットワークを含む。ＣＶタスクデコーダ（１４７０）は、テンソル（１４８１）に基づいて圧縮画像を復号化して、ＣＶタスク結果を生成することができる。いくつかの例では、変換モジュール（１４８０）内のニューラルネットワークは、トレーニング（ＣＶタスクトレーニングと呼ばれる）中に調整して事前トレーニング済みパラメータを決定することができる調整可能な構造又は調整可能なパラメータを含む。

【0102】

マルチレートＣＶタスクデコーダ（１４６１）は、シングル・タスクデコーダであってもよく、又はマルチ・タスクデコーダであってもよい。ＣＶタスクには、超解像、オブジェクト検出、画像ノイズ除去、画像分類等が含まれ得るが、これらに限定されない。

【0103】

マルチレートＣＶタスクデコーダ（１４６１）は、トレーニングデータに基づいてＣＶタスクトレーニングでトレーニングすることができる。例えば、トレーニングデータには、トレーニング画像、（例えば、マルチレート画像圧縮デコーダ（１４４１）に基づく）対応するレートを有する圧縮トレーニング画像、トレーニング画像のガイドラインＣＶタスク結果が含まれ得る。例えば、マルチレートＣＶタスクデコーダ（１４６１）は、対応するレートを有する圧縮トレーニング画像を入力として受け取り、トレーニングＣＶタスクの結果を生成することができる。次に、マルチレートＣＶタスクデコーダ（１４６１）は、ガイドラインＣＶタスク結果とトレーニングＣＶタスクの結果との間の損失を最小限に抑えるために（調整可能なニューラルネットワーク構造及び調整可能なパラメータを用いて）トレーニングされる。

【0104】

いくつかの実施形態では、マルチレートＣＶタスクデコーダ（１４６１）は、コーディングしたビットストリームを復号化して、画像再構成を行わずにＣＶタスク結果を直接生成する。いくつかの実施形態では、マルチレートＣＶタスクデコーダ（１４６１）は、最初にコーディングしたビットストリームを復号化し、解凍した画像を生成し、次に、ＣＶタスクモデルを解凍した画像に適用して、ＣＶタスク結果を生成する。

【0105】

いくつかの例では、マルチレート画像圧縮エンコーダ（１４１１）、マルチレート画像圧縮デコーダ（１４４１）、及びマルチレートＣＶタスクデコーダ（１４６１）は、異なる電子装置内にある。例えば、マルチレート画像圧縮エンコーダ（１４１１）は第１の装置内にあり、マルチレート画像圧縮デコーダ（１４４１）は第２の装置内にあり、マルチレートＣＶタスクデコーダ（１４６１）は第３の装置内にある。いくつかの例では、マルチレート画像圧縮デコーダ（１４４１）及びマルチレートＣＶタスクデコーダ（１４６１）は、同じ装置内にあってもよい。いくつかの例では、マルチレート画像圧縮エンコーダ（１４１１）及びマルチレート画像圧縮デコーダ（１４４１）は、同じ装置内にあってもよい。いくつかの例では、マルチレート画像圧縮エンコーダ（１４１１）、マルチレートＣＶタスクデコーダ（１４６１）は、同じ装置内にあってもよい。いくつかの例では、マルチレート画像圧縮エンコーダ（１４１１）、マルチレート画像圧縮デコーダ（１４４１）、及びマルチレートＣＶタスクデコーダ（１４６１）は、同じ装置内にあってもよい。

【0106】

いくつかの例では、変換モジュール（１４３０）、変換モジュール（１４４５）、及び変換モジュール（１４８０）は、同じニューラルネットワーク構造及び同じ事前トレーニング済みパラメータを有することができる。いくつかの例では、変換モジュール（１４３０）、変換モジュール（１４４５）、及び変換モジュール（１４８０）は、同じニューラルネットワーク構造を有するが、異なる事前トレーニング済みパラメータを有することができる。いくつかの例では、変換モジュール（１４３０）、変換モジュール（１４４５）、及び変換モジュール（１４８０）は、異なるニューラルネットワーク構造を有することができる。

【0107】

ハイパーパラメータλの値に従って生成されたテンソルは、ニューラルネットワーク内の任意の適切な層に提供できることに留意されたい。例えば、ハイパーパラメータλの値に従って生成されるテンソル（１４８１）は、ＣＶタスクデコーダ（１４７０）のニューラルネットワーク内の１つ又は複数の層に提供され得る。

【0108】

図１５は、いくつかの例において、ＣＶタスクをマルチレート圧縮領域において実行するためのシステム（１５００）を示す。システム（１５００）は、マルチレート画像圧縮エンコーダ（１５１１）及びマルチレートＣＶタスクデコーダ（１５６１）を含む。いくつかの例では、マルチレート画像圧縮エンコーダ（１６１１）は、マルチレートＮＩＣフレームワークの（エンコーダモデルを有する）符号化部分として構成され、マルチレートＣＶタスクデコーダ（１５６１）は、マルチレートＮＩＣフレームワークの（デコーダモデルを有する）復号化部分として構成される。マルチレートＮＩＣフレームワークは、エンドツーエンド（例えば、Ｅ２ＥマルチレートＮＩＣトレーニング）でトレーニングして、マルチレートＣＶタスクのためのＥ２Ｅ最適化フレームワークのエンコーダモデル及びデコーダモデルの事前トレーニング済みパラメータを決定することができる。

【0109】

図１５の例では、マルチレート画像圧縮エンコーダ（１５１１）は、変換モジュール（１５３０）及び画像圧縮エンコーダ（１５２０）を含む。変換モジュール（１５３０）は、ハイパーパラメータλをテンソル（１５３１）に変換するニューラルネットワークを含む。画像圧縮エンコーダ（１５２０）は、テンソル（１５３１）に基づいて入力画像を圧縮して、入力画像に対応する圧縮画像又は圧縮特徴マップを搬送するコーディングしたビットストリームを生成することができる。いくつかの例では、変換モジュール（１５３０）内のニューラルネットワークは、Ｅ２ＥマルチレートＮＩＣトレーニング中に調整して事前トレーニング済みパラメータを決定することができる調整可能な構造又は調整可能なパラメータを含む。

【0110】

図１５の例では、マルチレートＣＶタスクデコーダ（１５６１）は、変換モジュール（１５８０）及びＣＶタスクデコーダ（１５７０）を含む。変換モジュール（１５８０）は、ハイパーパラメータλをテンソル（１５８１）に変換するニューラルネットワークを含む。ＣＶタスクデコーダ（１５７０）は、テンソル（１５８１）に基づいて圧縮画像又は圧縮特徴マップを復号化して、ＣＶタスク結果を生成することができる。いくつかの例では、変換モジュール（１５８０）内のニューラルネットワークは、Ｅ２ＥマルチレートＮＩＣトレーニング中に調整して事前トレーニング済みパラメータを決定することができる調整可能な構造又は調整可能なパラメータを含む。

【0111】

マルチレートＣＶタスクデコーダ（１５６１）は、シングル・タスクデコーダであってもよく、又はマルチ・タスクデコーダであってもよい。ＣＶタスクには、超解像、オブジェクト検出、画像ノイズ除去、画像分類等が含まれるが、これらに限定されない。

【0112】

マルチレートＣＶタスクデコーダ（１５６１）は、トレーニングデータに基づいて、Ｅ２ＥマルチレートＮＩＣトレーニングにおいてマルチレート画像圧縮エンコーダ（１５１１）を用いてトレーニングすることができる。例えば、トレーニングデータには、トレーニング画像、ハイパーパラメータλの値、トレーニング画像のガイドラインＣＶタスク結果を含めることができる。例えば、マルチレート画像圧縮エンコーダ（１５１１）は、入力としてハイパーパラメータλの値を有するトレーニング画像を受け取って、圧縮した特徴マップを生成することができ、圧縮した特徴マップ及びハイパーパラメータλの値は、マルチレートＣＶタスクデコーダ（１５６１）に入力され、トレーニング画像及びハイパーパラメータλの値に対応するトレーニングＣＶタスクの結果を生成する。マルチレートＣＶタスクデコーダ（１５６１）及びマルチレート画像圧縮エンコーダ（１５１１）は、ガイドラインＣＶタスク結果とトレーニングＣＶタスクの結果との間の損失を最小限に抑えるように（調整可能なニューラルネットワーク構造及び調整可能なパラメータを用いて）トレーニングされる。

【0113】

いくつかの実施形態では、マルチレートＣＶタスクデコーダ（１５６１）は、コーディングしたビットストリームを復号化して、画像再構成を行わずにＣＶタスク結果を直接生成する。いくつかの実施形態では、マルチレートＣＶタスクデコーダ（１５６１）は、最初にコーディングしたビットストリームを復号化し、解凍した画像を生成し、次に、ＣＶタスクモデルを解凍した画像に適用して、ＣＶタスク結果を生成する。

【0114】

いくつかの例では、マルチレート画像圧縮エンコーダ（１５１１）及びマルチレートＣＶタスクデコーダ（１５６１）は、異なる電子装置内にある。いくつかの例では、マルチレート画像圧縮エンコーダ（１５１１）及びマルチレートＣＶタスクデコーダ（１５６１）は、同じ電子装置内にある。

【0115】

いくつかの例では、変換モジュール（１５３０）及び変換モジュール（１５８０）は、同じニューラルネットワーク構造及び同じ事前トレーニング済みパラメータを有することができる。いくつかの例では、変換モジュール（１５３０）及び変換モジュール（１５８０）は、同じニューラルネットワーク構造を有するが、異なる事前トレーニング済みパラメータを有することがある。いくつかの例では、変換モジュール（１５３０）及び変換モジュール（１５８０）は、異なるニューラルネットワーク構造を有することができる。

【0116】

ハイパーパラメータλの値に従って変換モジュールによって生成されたテンソルは、ニューラルネットワーク内の任意の適切な層に提供できることに留意されたい。例えば、ハイパーパラメータλの値に従って生成されるテンソル（１５８１）は、ＣＶタスクデコーダ（１５７０）のニューラルネットワーク内の１つ又は複数の層に提供され得る。

【0117】

いくつかの例では、圧縮レートを制御するパラメータの値は、圧縮画像又は圧縮特徴マップを搬送するコーディングしたビットストリーム内でシグナリングされる。例えば、ハイパーパラメータλの値は、マルチレート画像圧縮エンコーダ（１４１１）、及びマルチレート画像圧縮エンコーダ（１５１１）等のエンコーダ側からコーディングしたビットストリーム内でシグナリングされる。次に、マルチレートＣＶタスクデコーダ（１４６１）、及びマルチレートＣＶタスクデコーダ（１５６１）等のＣＶタスクデコーダは、ハイパーパラメータλ情報を受信することができる。

【0118】

画像圧縮エンコーダ、ＣＶタスクデコーダ、及び変換モジュールのニューラルネットワーク構造等のネットワークアーキテクチャは、任意の適切な構造を有することができることに留意されたい。一実施形態では、変換モジュールは、畳み込み層のセットを含む。別の実施形態では、変換モジュールは、活性化関数を有する畳み込み層を含む。

【0119】

いくつかの実施形態では、ハイパーパラメータλは、エンコーダ側とデコーダ側との両方に知られている事前に規定した値のセットから選択される。エンコーダ側で選択されたλ値について、セット内の値のインデックスがコーディングしたビットストリームでシグナリングされる。インデックスに従って、デコーダは、符号化に使用されるハイパーパラメータλの値を決定し、同じハイパーパラメータλの値をデコーダネットワークへの入力として使用することができる。

【0120】

一例では、ハイパーパラメータλの８つの値が事前に規定され、セット内に配置される。エンコーダ側とデコーダ側との両方が、８つの値とセット内の８つの値の位置等のセットの情報を有する。次に、エンコーダ側でハイパーパラメータλの選択した値を送信する代わりに、セット内の選択した値を示すインデックスをエンコーダ側からデコーダセットに送信することができる。例えば、インデックスは０～７とすることができる。インデックスに従って、デコーダは、エンコーダ側で選択されたハイパーパラメータλの値を決定することができる。

【0121】

本開示の一態様によれば、通常のＣＤＣＶＴＦと比較して、マルチレートＣＤＣＶＴＦはマルチレート機能を含み、ハイパーパラメータλ等のパラメータがマルチレートＣＤＣＶＴＦの入力である。ハイパーパラメータλの値等のパラメータの値を変更して、画像圧縮レートを調整することができる。

【0122】

図１６は、本開示の一実施形態による処理（１６００）の概要を示すフローチャートを示す。処理（１６００）は、符号化処理である。処理（１６００）は電子装置で実行することができる。いくつかの実施形態では、処理（１６００）はソフトウェア命令で実装され、こうして、処理回路がソフトウェア命令を実行するときに、処理回路は処理（１６００）を実行する。処理は（Ｓ１６０１）で開始され、（Ｓ１６１０）へ進む。

【0123】

（Ｓ１６１０）において、圧縮レートを調整するためのパラメータの値が、マルチレート画像圧縮エンコーダ（１４１１）、及びマルチレート画像圧縮エンコーダ（１５１１）等のマルチレート画像圧縮エンコーダに入力される。マルチレート画像圧縮エンコーダは、パラメータのそれぞれの値を用いて画像を符号化するための１つ又は複数のニューラルネットワークを含む。

【0124】

（Ｓ１６２０）において、マルチレート画像圧縮エンコーダは、パラメータの値に従って、入力画像を圧縮画像に符号化して、コーディングしたビットストリームで搬送する。パラメータの値は、入力画像を圧縮画像に符号化するための圧縮レートを調整する。

【0125】

（Ｓ１６３０）において、インデックスがコーディングしたビットストリームに符号化され、インデックスは、パラメータの値（例えば、事前に規定した値）のセット内の値を指す。

【0126】

次に、処理（１６００）は（Ｓ１６９９）に進み、終了する。

【0127】

処理（１６００）は、様々なシナリオに適切に適合させることができ、処理（１６００）のステップは、それに応じて調整することができる。処理（１６００）における１つ又は複数のステップは、適応、省略、反復、及び／又は組み合わせることができる。処理（１６００）を実施するために任意の適切な順序を使用してもよい。追加のステップを加えることができる。

【0128】

図１７は、本開示の一実施形態による処理（１７００）の概要を示すフローチャートを示す。処理（１７００）は復号化処理である。処理（１７００）は電子装置で実行することができる。いくつかの実施形態では、処理（１７００）はソフトウェア命令で実装され、こうして、処理回路がソフトウェア命令を実行するときに、処理回路は処理（１７００）を実行する。処理は（Ｓ１７０１）で開始され、（Ｓ１７１０）へ進む。

【0129】

（Ｓ１７１０）において、圧縮画像を搬送するコーディングしたビットストリームから、パラメータの値のセット内の値を指すインデックスが復号化される。パラメータの値を変更することにより、圧縮画像の圧縮レートが調整される。圧縮画像は、パラメータの値に従って、マルチレート画像圧縮エンコーダ（１４１１）、及びマルチレート画像圧縮エンコーダ（１５１１）等のニューラルネットワークベースのエンコーダによって生成される。

【0130】

（Ｓ１７２０）において、パラメータの値は、マルチレートＣＶタスクデコーダ（１４６１）、及びマルチレートＣＶタスクデコーダ（１５６１）等のマルチレート圧縮領域コンピュータビジョンタスクデコーダに入力される。マルチレート圧縮領域コンピュータビジョンタスクデコーダは、圧縮画像の生成に使用されるパラメータの対応する値に従って圧縮画像からコンピュータビジョンタスクを実行するための１つ又は複数のニューラルネットワークを含む。

【0131】

（Ｓ１７３０）において、マルチレート圧縮領域コンピュータビジョンタスクデコーダは、コーディングしたビットストリーム内の圧縮画像及びパラメータの値に従ってコンピュータビジョンタスク結果を生成する。

【0132】

いくつかの例では、マルチレート圧縮領域コンピュータビジョンタスクデコーダ内の第１のニューラルネットワーク（例えば、変換モデル（１４８０）、変換モデル（１５８０））は、パラメータの値をテンソルに変換する。テンソルは、マルチレート圧縮領域コンピュータビジョンタスクデコーダ内の第２のニューラルネットワーク（例えば、ＣＶタスクデコーダ（１４７０）、ＣＶタスクデコーダ（１５７０））の１つ又は複数の層に入力される。第２のニューラルネットワークは、圧縮画像及びテンソルに従ってコンピュータビジョンタスク結果を生成する。

【0133】

いくつかの例では、第１のニューラルネットワークは、１つ又は複数の畳み込み層を含む。いくつかの例では、第１のニューラルネットワークは、活性化関数を有する畳み込み層を含む。

【0134】

【0135】

【0136】

いくつかの例では、ニューラルネットワークベースのエンコーダは、ニューラル画像圧縮（ＮＩＣ）フレームワークのエンコーダモデルに基づいており、マルチレート圧縮領域コンピュータビジョンタスクデコーダは、ＮＩＣフレームワークのデコーダモデルに基づいており、ＮＩＣフレームワークは、図１５を参照して説明したように、エンドツーエンドでトレーニングされる。

【0137】

いくつかの例では、マルチレート圧縮領域コンピュータビジョンタスクデコーダのデコーダモデルは、図１４を参照して説明したように、ニューラルネットワークベースのエンコーダのエンコーダモデルとは別にトレーニングされる。

【0138】

いくつかの例では、パラメータは、式１のハイパーパラメータλ等、レート歪み損失の計算において歪みに重み付けするためのハイパーパラメータである。

【0139】

コンピュータビジョンタスクは、画像分類、画像ノイズ除去、オブジェクト検出、及び超解像等の任意の適切なコンピュータビジョンタスクであり得ることに留意されたい。

【0140】

次に、処理（１７００）は（Ｓ１７９９）に進み、終了する。

【0141】

処理（１７００）は、様々なシナリオに適切に適合させることができ、処理（１７００）のステップは、それに応じて調整することができる。処理（１７００）における１つ又は複数のステップは、適応、省略、繰り返し、及び／又は組み合わせることができる。処理（１７００）を実行するために、任意の適切な順序を使用してもよい。追加のステップを加えることができる。

【0142】

上述の技術は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装することができ、１つ又は複数のコンピュータ可読媒体に物理的に記憶することができる。例えば、図１８は、開示する主題の特定の実施形態を実装するのに適したコンピュータシステム（１８００）を示す。

【0143】

コンピュータソフトウェアは、任意の適切な機械コード又はコンピュータ言語を使用してコーディングすることができ、アセンブリ、コンパイル、リンク、又は同様のメカニズムを受けて、１つ又は複数のコンピュータ中央処理装置（ＣＰＵ）、及びグラフィックス処理装置（ＧＰＵ）等によって直接実行できる、或いは解釈、及びマイクロコードの実行等を通じて実行できる命令を含むコードを作成することができる。

【0144】

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置等を含む、様々な種類のコンピュータ又はそのコンポーネント上で実行することができる。

【0145】

図１８に示されるコンピュータシステム（１８００）に関するコンポーネントは、本質的に例示であり、本開示の実施形態を実装するコンピュータソフトウェアの使用又は機能の範囲に関していかなる制限を示唆することを意図するものではない。また、コンポーネントの構成は、コンピュータシステム（１８００）の例示的な実施形態に示されるコンポーネントのいずれか１つ又は組合せに関連する依存性又は要件を有するものとして解釈すべきではない。

【0146】

コンピュータシステム（１８００）は、特定のヒューマンインターフェイス入力装置を含むことができる。このようなヒューマンインターフェイス入力装置は、例えば、触覚入力（キーストローク、スワイプ、データグローブの動き等）、音声入力（音声、拍手等）、視覚入力（ジェスチャ等）、嗅覚入力（図示せず）等を介した１人又は複数の人間ユーザによる入力に応答することができる。ヒューマンインターフェイス装置は、音声（音声、音楽、環境音等）、画像（スキャン画像、静止画カメラから取得した写真画像等）、動画（２次元動画、立体視動画を含む３次元動画等）等、人間による意識的な入力に必ずしも直接関係しない特定のメディアをキャプチャするために使用することもできる。

【0147】

入力ヒューマンインターフェイス装置は、キーボード（１８０１）、マウス（１８０２）、トラックパッド（１８０３）、タッチスクリーン（１８１０）、データグローブ（図示せず）、ジョイスティック（１８０５）、マイク（１８０６）、スキャナ（１８０７）、カメラ（１８０８）のうちの１つ又は複数を含むことができる（各１つのみが示される）。

【0148】

コンピュータシステム（１８００）は、特定のヒューマンインターフェイス出力装置も含むこともできる。このようなヒューマンインターフェイス出力装置は、例えば、触覚出力、音、光、及び匂い／味を通じて、１人又は複数の人間のユーザの感覚を刺激することができる。このようなヒューマンインターフェイス出力装置には、触覚出力装置（例えば、タッチスクリーン（１８１０）、データグローブ（図示せず）、又はジョイスティック（１８０５）による触覚フィードバックであるが、入力装置として機能しない触覚フィードバック装置もあり得る）、音声出力装置（スピーカ（１８０９）、ヘッドフォン（図示せず）等）、視覚出力装置（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（１８１０）等、それぞれのタッチスクリーン入力機能の有無にかかわらず、それぞれの触覚フィードバック機能の有無にかかわらず、そのいつくかは、ステレオグラフィック出力、仮想現実メガネ（図示せず）、ホログラフィックディスプレイ及びスモークタンク（図示せず）等の手段を通じて、２次元の視覚出力又は３次元以上の出力を出力できるものもある）、及びプリンタ（図示せず）が含まれ得る。

【0149】

コンピュータシステム（１８００）は、人間がアクセス可能な記憶装置と、ＣＤ／ＤＶＤ、ＣＤ／ＤＶＤを備えたＲＯＭ／ＲＷ（１８２０）を含む光媒体、又は同様の媒体（１８２１）等の関連媒体、サムドライブ（１８２２）、リムーバブルハードドライブ又はソリッドステートドライブ（１８２３）、テープ及びフロッピーディスク（図示せず）等の従来の磁気媒体、セキュリティドングル（図示せず）等の特殊なＲＯＭ／ＡＳＩＣ／ＰＬＤベースの装置等を含むこともできる。

【0150】

当業者は、現在開示する主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、又は他の一時的な信号を包含しないことも理解すべきである。

【0151】

コンピュータシステム（１８００）は、１つ又は複数の通信ネットワーク（１８５５）へのインターフェイス（１８５４）を含むこともできる。ネットワークは、例えば、無線、有線、光等であってもよい。さらに、ネットワークは、ローカル、広域、大都市、車両及び産業用、リアルタイム、遅延耐性等のネットワークにすることができる。ネットワークの例には、イーサネット、無線ＬＡＮ等のローカルエリアネットワーク、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥ等を含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、及び地上波放送ＴＶを含むＴＶ有線又は無線広域デジタルネットワーク、及びＣＡＮＢｕｓ等を含む車両及び産業用が含まれる。特定のネットワークは、一般に、特定の汎用データポート又は周辺バス（１８４９）（例えば、コンピュータシステム（１８００）のＵＳＢポート等）に接続される外部ネットワークインターフェイスアダプタを必要とする。他のものは一般に、後述するようにシステムバス（例えば、ＰＣコンピュータシステムへのイーサネットインターフェイス、又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェイス）に接続することによってコンピュータシステム（１８００）のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム（１８００）は他のエンティティと通信することができる。このような通信は、一方向、受信専用（テレビ放送等）、一方向送信専用（ＣＡＮＢｕｓから特定のＣＡＮＢｕｓ装置等）、又は双方向（ローカル又はワイドエリアデジタルネットワークを使用する他のコンピュータシステム等）にすることができる。特定のプロトコル及びプロトコルスタックは、上で説明したように、これらのネットワーク及びネットワークインターフェイスのそれぞれで使用することができる。

【0152】

前述のヒューマンインターフェイス装置、人間がアクセス可能な記憶装置、及びネットワークインターフェイスは、コンピュータシステム（１８００）のコア（１８４０）に取り付けることができる。

【0153】

コア（１８４０）は、１つ又は複数の中央処理装置（ＣＰＵ）（１８４１）、グラフィックス処理装置（ＧＰＵ）（１８４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）（１８４３）の形態の特殊なプログラマブル処理装置、特定のタスクのためのハードウェアアクセラレータ（１８４４）、及びグラフィックスアダプタ（１８５０）等を含むことができる。これらの装置は、読み取り専用メモリ（ＲＯＭ）（１８４５）、ランダムアクセスメモリ（１８４６）、ユーザがアクセスできない内部ハードドライブ等の内部大容量記憶装置、ＳＳＤ等（１８４７）とともに、システムバス（１８４８）を介して接続され得る。一部のコンピュータシステムでは、システムバス（１８４８）は、追加のＣＰＵ、及びＧＰＵ等による拡張を可能にするために、１つ又は複数の物理プラグの形態でアクセス可能にすることができる。周辺装置は、コアのシステムバス（１８４８）に直接接続することも、又は周辺バス（１８４９）経由で接続することもできる。一例では、スクリーン（１８１０）はグラフィックアダプタ（１８５０）に接続することができる。周辺バスのアーキテクチャには、ＰＣＩ、及びＵＳＢ等が含まれる。

【0154】

ＣＰＵ（１８４１）、ＧＰＵ（１８４２）、ＦＰＧＡ（１８４３）、及びアクセラレータ（１８４４）は、組み合わせて前述のコンピュータコードを構成できる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ（１８４５）又はＲＡＭ（１８４６）に記憶され得る。移行データはＲＡＭ（１８４６）に格納することもできるが、永続データは例えば内部大容量記憶装置（１８４７）に格納することができる。任意のメモリ装置への高速ストレージ及び取得は、１つ又は複数のＣＰＵ（１８４１）、ＧＰＵ（１８４２）、大容量ストレージ（１８４７）、ＲＯＭ（１８４５）、及びＲＡＭ（１８４６）等に密接に関連し得るキャッシュメモリの使用によって可能になる。

【0155】

コンピュータ可読媒体は、コンピュータによって実現される様々な動作を実行するためのコンピュータコードをその上に有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであってもよく、又はコンピュータソフトウェア技術の当業者によく知られ利用可能な種類のものであってもよい。

【0156】

限定ではなく一例として、アーキテクチャ（１８００）、特にコア（１８４０）を有するコンピュータシステムは、プロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、及びアクセラレータ等を含む）が１つ又は複数の有形のコンピュータ可読媒体に組み込まれたソフトウェアを実行する結果として機能を提供することができる。このようなコンピュータ可読媒体は、上で紹介したようなユーザがアクセス可能な大容量記憶装置に関連付けられた媒体であってもよく、コア内部大容量記憶装置（１８４７）又はＲＯＭ（１８４５）等の非一時的な性質を有するコア（１８４０）の特定の記憶装置であってもよい。本開示の様々な実施形態を実装するソフトウェアは、そのような装置に格納され、コア（１８４０）によって実行され得る。コンピュータ可読媒体には、特定のニーズに応じて、１つ又は複数のメモリ装置又はチップを含めることができる。ソフトウェアは、コア（１８４０）、特にその中のプロセッサ（ＣＰＵ、ＧＰＵ、及びＦＰＧＡ等を含む）に、ＲＡＭ（１８４６）に格納されたデータ構造の規定を含み且つソフトウェアによって規定されたプロセスに従ってそのようなデータ構造を変更する、本明細書で説明した特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。加えて又は代わりに、コンピュータシステムは、回路（例えば、アクセラレータ（１８４４））にハードワイヤード又は他の方法で組み込まれたロジックの結果として機能を提供することができ、これは、本明細書で説明した特定のプロセス又は特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに、又はソフトウェアと一緒に動作することができる。ソフトウェアへの参照には、必要に応じてロジックが含まれる場合もあり、その逆も同様である。コンピュータ可読媒体への言及は、必要に応じて、実行用のソフトウェアを格納する回路（集積回路（ＩＣ）等）、実行用のロジックを具体化した回路、又はその両方を包含することができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組合せを包含する。

【0157】

本開示はいくつかの例示的な実施形態を説明したが、本開示の範囲内に含まれる変更、置換、及び様々な代替均等物が存在する。こうして、当業者であれば、本明細書では明示的に図示又は説明していないが、本開示の原理を具体化し、こうして本開示の精神及び範囲内にある多くのシステム及び方法を想起することができることが理解されよう。

【図1】