特表2023-553369 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ クゥアルコム・インコーポレイテッドの特許一覧

特表2023-553369ニューラルネットワークベースのビデオコーディングのためのフロントエンドアーキテクチャ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
2D
3
4
5
6A
6B
6C
6D
6E
6F
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-12-21

(54)【発明の名称】ニューラルネットワークベースのビデオコーディングのためのフロントエンドアーキテクチャ

(51)【国際特許分類】

H04N 19/186 20140101AFI20231214BHJP

【ＦＩ】

H04N19/186

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023532549

(86)(22)【出願日】2021-12-09

(85)【翻訳文提出日】2023-05-29

(86)【国際出願番号】 US2021072824

(87)【国際公開番号】W WO2022126120

(87)【国際公開日】2022-06-16

(31)【優先権主張番号】63/124,016

(32)【優先日】2020-12-10

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/131,802

(32)【優先日】2020-12-30

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/643,383

(32)【優先日】2021-12-08

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】595020643

【氏名又は名称】クゥアルコム・インコーポレイテッド

【氏名又は名称原語表記】ＱＵＡＬＣＯＭＭＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】110003708

【氏名又は名称】弁理士法人鈴榮特許綜合事務所

(72)【発明者】

【氏名】エギルメス、ヒルミ・エネス

(72)【発明者】

【氏名】シン、アンキテシュ・クマー

(72)【発明者】

【氏名】コバン、ムハンメド・ゼイド

(72)【発明者】

【氏名】カルチェビチ、マルタ

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159MC11

5C159ME01

5C159PP16

5C159TD17

5C159UA02

5C159UA05

5C159UA31

(57)【要約】

ニューラルネットワークシステムを使用してビデオデータを処理するための技法が本明細書に記載される。たとえば、プロセスは、ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値を生成することを含むことができる。プロセスは、エンコーダサブネットワークの第２の畳み込みレイヤにより、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成することを含むことができる。プロセスは、第３の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値およびフレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値に基づいて、フレームの結合表現を生成することを含むことができる。プロセスは、フレームの結合表現に基づいて符号化ビデオデータを生成することをさらに含むことができる。
【選択図】図６Ｂ

【特許請求の範囲】

【請求項1】

ビデオデータを処理する方法であって、
ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値を生成することと、
前記エンコーダサブネットワークの第２の畳み込みレイヤにより、前記フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成することと、
第３の畳み込みレイヤにより、前記フレームの前記ルミナンスチャネルに関連付けられた前記出力値および前記フレームの前記少なくとも１つのクロミナンスチャネルに関連付けられた前記出力値に基づいて、前記フレームの結合表現を生成することと、
前記フレームの前記結合表現に基づいて符号化ビデオデータを生成することと、
を備える、方法。

【請求項2】

前記第３の畳み込みレイヤは１×１畳み込みレイヤを含み、前記１×１畳み込みレイヤは１つまたは複数の１×１畳み込みフィルタを含む、請求項１に記載の方法。

【請求項3】

前記エンコーダサブネットワークの第１の非線形レイヤを使用して、前記フレームの前記ルミナンスチャネルに関連付けられた前記出力値を処理することと、
前記エンコーダサブネットワークの第２の非線形レイヤを使用して、前記フレームの前記少なくとも１つのクロミナンスチャネルに関連付けられた前記出力値を処理することと、
をさらに備え、
前記結合表現は、前記第１の非線形レイヤの出力および前記第２の非線形レイヤの出力に基づいて生成される、
請求項１に記載の方法。

【請求項4】

前記フレームの前記結合表現は、入力として前記第１の非線形レイヤの前記出力と前記第２の非線形レイヤの前記出力とを使用して、前記第３の畳み込みレイヤによって生成される、請求項３に記載の方法。

【請求項5】

前記符号化ビデオデータを量子化すること、
をさらに備える、請求項１に記載の方法。

【請求項6】

前記符号化ビデオデータをエントロピーコーディングすること、
をさらに備える、請求項１に記載の方法。

【請求項7】

前記符号化ビデオデータをメモリに記憶すること、
をさらに備える、請求項１に記載の方法。

【請求項8】

少なくとも１つのデバイスに、伝送媒体を介して前記符号化ビデオデータを送信すること、
をさらに備える、請求項１に記載の方法。

【請求項9】

符号化フレームを取得することと、
前記ニューラルネットワークシステムのデコーダサブネットワークの第１の畳み込みレイヤにより、前記符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成することと、
前記デコーダサブネットワークの第２の畳み込みレイヤにより、前記符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成することと、
をさらに備える、請求項１に記載の方法。

【請求項10】

前記デコーダサブネットワークの第３の畳み込みレイヤを使用して、前記符号化フレームの前記少なくとも１つのクロミナンスチャネルから前記符号化フレームの前記ルミナンスチャネルを分離すること、
をさらに備える、請求項９に記載の方法。

【請求項11】

前記デコーダサブネットワークの前記第３の畳み込みレイヤは１×１畳み込みレイヤを含み、前記１×１畳み込みレイヤは１つまたは複数の１×１畳み込みフィルタを含む、請求項１０に記載の方法。

【請求項12】

前記フレームはビデオフレームを含む、請求項１に記載の方法。

【請求項13】

前記少なくとも１つのクロミナンスチャネルは、クロミナンス青チャネルとクロミナンス赤チャネルとを含む、請求項１に記載の方法。

【請求項14】

前記フレームは、ルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する、請求項１に記載の方法。

【請求項15】

ビデオデータを処理するための装置であって、
メモリと、
前記メモリに結合されたプロセッサと、を備え、前記プロセッサは、
ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値を生成することと、
前記エンコーダサブネットワークの第２の畳み込みレイヤを使用して、前記フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成することと、
第３の畳み込みレイヤを使用して、前記フレームの前記ルミナンスチャネルに関連付けられた前記出力値および前記フレームの前記少なくとも１つのクロミナンスチャネルに関連付けられた前記出力値に基づいて、前記フレームの結合表現を生成することと、
前記フレームの前記結合表現に基づいて符号化ビデオデータを生成することと、
を行うように構成された、装置。

【請求項16】

前記第３の畳み込みレイヤは１×１畳み込みレイヤを含み、前記１×１畳み込みレイヤは１つまたは複数の１×１畳み込みフィルタを含む、請求項１５に記載の装置。

【請求項17】

前記プロセッサは、
前記エンコーダサブネットワークの第１の非線形レイヤを使用して、前記フレームの前記ルミナンスチャネルに関連付けられた前記出力値を処理することと、
前記エンコーダサブネットワークの第２の非線形レイヤを使用して、前記フレームの前記少なくとも１つのクロミナンスチャネルに関連付けられた前記出力値を処理することと、
を行うように構成され、
前記結合表現は、前記第１の非線形レイヤの出力および前記第２の非線形レイヤの出力に基づいて生成される、
請求項１５に記載の装置。

【請求項18】

前記フレームの前記結合表現は、入力として前記第１の非線形レイヤの前記出力と前記第２の非線形レイヤの前記出力とを使用して、前記第３の畳み込みレイヤによって生成される、請求項１７に記載の装置。

【請求項19】

前記プロセッサは、
前記符号化ビデオデータを量子化するように構成される、請求項１５に記載の装置。

【請求項20】

前記プロセッサは、
前記符号化ビデオデータをエントロピーコーディングするように構成される、請求項１５に記載の装置。

【請求項21】

前記プロセッサは、
前記符号化ビデオデータをメモリに記憶するように構成される、請求項１５に記載の装置。

【請求項22】

前記プロセッサは、
少なくとも１つのデバイスに、伝送媒体を介して前記符号化ビデオデータを送信するように構成される、請求項１５に記載の装置。

【請求項23】

前記プロセッサは、
符号化フレームを取得することと、
前記ニューラルネットワークシステムのデコーダサブネットワークの第１の畳み込みレイヤを使用して、前記符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成することと、
前記デコーダサブネットワークの第２の畳み込みレイヤを使用して、前記符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成することと、
を行うように構成される、請求項１５に記載の装置。

【請求項24】

前記プロセッサは、
前記デコーダサブネットワークの第３の畳み込みレイヤを使用して、前記符号化フレームの前記少なくとも１つのクロミナンスチャネルから前記符号化フレームの前記ルミナンスチャネルを分離するように構成される、請求項２３に記載の装置。

【請求項25】

前記デコーダサブネットワークの前記第３の畳み込みレイヤは１×１畳み込みレイヤを含み、前記１×１畳み込みレイヤが１つまたは複数の１×１畳み込みフィルタを含む、請求項２４に記載の装置。

【請求項26】

前記フレームはビデオフレームを含む、請求項１５に記載の装置。

【請求項27】

前記少なくとも１つのクロミナンスチャネルは、クロミナンス青チャネルとクロミナンス赤チャネルとを含む、請求項１５に記載の装置。

【請求項28】

前記フレームは、ルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する、請求項１５に記載の装置。

【請求項29】

前記プロセッサは、ニューラル処理装置（ＮＰＵ）を含む、請求項１５に記載の装置。

【請求項30】

前記装置はモバイルデバイスを備える、請求項１５に記載の装置。

【請求項31】

ディスプレイと、１つまたは複数のフレームをキャプチャするように構成されたカメラとのうちの少なくとも１つをさらに備える、請求項１５に記載の装置。

【請求項32】

ビデオデータを処理する方法であって、
符号化フレームを取得することと、
デコーダサブネットワークの第１の畳み込みレイヤにより、前記符号化フレームの少なくとも１つのクロミナンスチャネルから前記符号化フレームのルミナンスチャネルを分離することと、
ニューラルネットワークシステムの前記デコーダサブネットワークの第２の畳み込みレイヤにより、前記符号化フレームの前記ルミナンスチャネルに関連付けられた復元出力値を生成することと、
前記デコーダサブネットワークの第３の畳み込みレイヤにより、前記符号化フレームの前記少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成することと、
前記ルミナンスチャネルに関連付けられた前記復元出力値と前記少なくとも１つのクロミナンスチャネルに関連付けられた前記復元出力値とを含む出力フレームを生成することと、
を備える、方法。

【請求項33】

前記デコーダサブネットワークの前記第１の畳み込みレイヤは１×１畳み込みレイヤを含み、前記１×１畳み込みレイヤは１つまたは複数の１×１畳み込みフィルタを含む、請求項３２に記載の方法。

【請求項34】

前記デコーダサブネットワークの第１の非線形レイヤを使用して、前記符号化フレームの前記ルミナンスチャネルに関連付けられた値を処理することと、ここにおいて、前記ルミナンスチャネルに関連付けられた前記復元出力値は、前記第１の非線形レイヤの出力に基づいて生成される、
前記デコーダサブネットワークの第２の非線形レイヤを使用して、前記符号化フレームの前記少なくとも１つのクロミナンスチャネルに関連付けられた値を処理することと、ここにおいて、前記少なくとも１つのクロミナンスチャネルに関連付けられた前記復元出力値は、前記第２の非線形レイヤの出力に基づいて生成される、
をさらに備える、請求項３２に記載の方法。

【請求項35】

前記符号化フレームのサンプルを逆量子化すること、
をさらに備える、請求項３２に記載の方法。

【請求項36】

前記符号化フレームのサンプルをエントロピー復号すること、
をさらに備える、請求項３２に記載の方法。

【請求項37】

前記出力フレームをメモリに記憶すること、
をさらに備える、請求項３２に記載の方法。

【請求項38】

前記出力フレームを表示すること、
をさらに備える、請求項３２に記載の方法。

【請求項39】

前記ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値を生成することと、
前記エンコーダサブネットワークの第２の畳み込みレイヤにより、前記フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成することと、
前記エンコーダサブネットワークの第３の畳み込みレイヤにより、前記フレームの前記ルミナンスチャネルに関連付けられた前記出力値および前記フレームの前記少なくとも１つのクロミナンスチャネルに関連付けられた前記出力値に基づいて、前記フレームの結合表現を生成することと、
前記フレームの前記結合表現に基づいて前記符号化フレームを生成することと、
をさらに備える、請求項３２に記載の方法。

【請求項40】

前記エンコーダサブネットワークの前記第３の畳み込みレイヤは１×１畳み込みレイヤを含み、前記１×１畳み込みレイヤは１つまたは複数の１×１畳み込みフィルタを含む、請求項３９に記載の方法。

【請求項41】

【請求項42】

前記フレームの前記結合表現は、入力として前記第１の非線形レイヤの前記出力と前記第２の非線形レイヤの前記出力とを使用して、前記エンコーダサブネットワークの前記第３の畳み込みレイヤによって生成される、請求項４１に記載の方法。

【請求項43】

前記符号化フレームは符号化ビデオフレームを含む、請求項３２に記載の方法。

【請求項44】

前記少なくとも１つのクロミナンスチャネルは、クロミナンス青チャネルとクロミナンス赤チャネルとを含む、請求項３２に記載の方法。

【請求項45】

前記符号化フレームは、ルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する、請求項３２に記載の方法。

【請求項46】

ビデオデータを処理するための装置であって、
メモリと、
前記メモリに結合されたプロセッサと、を備え、前記プロセッサは、
符号化フレームを取得することと、
デコーダサブネットワークの第１の畳み込みレイヤを使用して、前記符号化フレームの少なくとも１つのクロミナンスチャネルから前記符号化フレームのルミナンスチャネルを分離することと、
ニューラルネットワークシステムの前記デコーダサブネットワークの第２の畳み込みレイヤを使用して、前記符号化フレームの前記ルミナンスチャネルに関連付けられた復元出力値を生成することと、
前記デコーダサブネットワークの第３の畳み込みレイヤを使用して、前記符号化フレームの前記少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成することと、
前記ルミナンスチャネルに関連付けられた前記復元出力値と前記少なくとも１つのクロミナンスチャネルに関連付けられた前記復元出力値とを含む出力フレームを生成することと、
を行うように構成された、装置。

【請求項47】

前記デコーダサブネットワークの前記第１の畳み込みレイヤは１×１畳み込みレイヤを含み、前記１×１畳み込みレイヤは１つまたは複数の１×１畳み込みフィルタを含む、請求項４６に記載の装置。

【請求項48】

前記プロセッサは、
前記デコーダサブネットワークの第１の非線形レイヤを使用して、前記符号化フレームの前記ルミナンスチャネルに関連付けられた値を処理することと、ここにおいて、前記ルミナンスチャネルに関連付けられた前記復元出力値は、前記第１の非線形レイヤの出力に基づいて生成される、
前記デコーダサブネットワークの第２の非線形レイヤを使用して、前記符号化フレームの前記少なくとも１つのクロミナンスチャネルに関連付けられた値を処理することと、ここにおいて、前記少なくとも１つのクロミナンスチャネルに関連付けられた前記復元出力値は、前記第２の非線形レイヤの出力に基づいて生成される、
を行うように構成される、請求項４６に記載の装置。

【請求項49】

前記プロセッサは、
前記符号化フレームのサンプルを逆量子化するように構成される、請求項４６に記載の装置。

【請求項50】

前記プロセッサは、
前記符号化フレームのサンプルをエントロピー復号するように構成される、請求項４６に記載の装置。

【請求項51】

前記プロセッサは、
前記出力フレームをメモリに記憶するように構成される、請求項４６に記載の装置。

【請求項52】

前記プロセッサは、
前記出力フレームを表示するように構成される、請求項４６に記載の装置。

【請求項53】

前記プロセッサは、
前記ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値を生成することと、
前記エンコーダサブネットワークの第２の畳み込みレイヤにより、前記フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成することと、
前記エンコーダサブネットワークの第３の畳み込みレイヤにより、前記フレームの前記ルミナンスチャネルに関連付けられた前記出力値および前記フレームの前記少なくとも１つのクロミナンスチャネルに関連付けられた前記出力値に基づいて、前記フレームの結合表現を生成することと、
前記フレームの前記結合表現に基づいて前記符号化フレームを生成することと、
を行うように構成される、請求項４６に記載の装置。

【請求項54】

前記エンコーダサブネットワークの前記第３の畳み込みレイヤは１×１畳み込みレイヤを含み、前記１×１畳み込みレイヤは１つまたは複数の１×１畳み込みフィルタを含む、請求項５３に記載の装置。

【請求項55】

【請求項56】

前記フレームの前記結合表現は、入力として前記第１の非線形レイヤの前記出力と前記第２の非線形レイヤの前記出力とを使用して、前記エンコーダサブネットワークの前記第３の畳み込みレイヤによって生成される、請求項５５に記載の装置。

【請求項57】

前記符号化フレームは符号化ビデオフレームを含む、請求項４６に記載の装置。

【請求項58】

前記少なくとも１つのクロミナンスチャネルは、クロミナンス青チャネルとクロミナンス赤チャネルとを含む、請求項５７に記載の装置。

【請求項59】

前記符号化フレームは、ルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する、請求項４６に記載の装置。

【請求項60】

ディスプレイと、１つまたは複数のビデオフレームをキャプチャするように構成されたカメラとのうちの少なくとも１つをさらに備える、請求項４６に記載の装置。

【発明の詳細な説明】

【技術分野】

【0001】

[0001]本開示は、概して、画像および／またはビデオの符号化（または圧縮）と復号（解凍）とを含む、画像およびビデオのコーディングに関する。たとえば、本開示の態様は、エンドツーエンド機械学習（たとえば、ニューラルネットワーク）ベースの画像およびビデオコーディングシステムを使用して、ルミナンス－クロミナンス（ＹＵＶ）入力フォーマット（たとえば、４：２：０ＹＵＶ入力フォーマット、４：４：４ＹＵＶ入力フォーマット、４：２：２ＹＵＶ入力フォーマットなど）および／または他の入力フォーマットを処理するための技法に関する。

【背景技術】

【0002】

[0002]多くのデバイスおよびシステムは、ビデオデータが消費のために処理および出力されることを可能にする。デジタルビデオデータは、消費者およびビデオプロバイダの需要を満たすための大量のデータを含む。たとえば、ビデオデータの消費者は、高い忠実度、解像度、フレームレートなどを含む高い品質のビデオを望む。その結果、これらの需要を満たすために必要とされる大量のビデオデータは、ビデオデータを処理および記憶する通信ネットワークおよびデバイスに負担をかける。

【0003】

[0003]ビデオコーディング技法は、ビデオデータを圧縮するために使用され得る。ビデオコーディングの目標は、ビデオ品質に対する劣化を回避または最小化しながら、より低いビットレートを使用する形式にビデオデータを圧縮することである。常に発展しつつあるビデオサービスが利用可能になるとともに、より良いコーディング効率を有する符号化技法が必要とされる。

【発明の概要】

【0004】

[0004]１つまたは複数の機械学習システムを使用して画像および／またはビデオのコンテンツをコーディング（たとえば、符号化および／または復号）するためのシステムおよび技法が記載される。たとえば、ＹＵＶ（デジタルドメインＹＣｂＣｒ）入力フォーマット（および場合によっては他の入力フォーマット）、場合によっては、具体的に４：２：０ＹＵＶ入力フォーマットを処理することができるエンドツーエンド機械学習（たとえば、ニューラルネットワーク）ベースの画像およびビデオコーディング（Ｅ２Ｅ－ＮＮＶＣ）システムが提供される。Ｅ２Ｅ－ＮＮＶＣシステムは、（画像もしくはピクチャとも呼ばれる）スタンドアロンフレームおよび／または複数のフレームを含むビデオデータを処理することができる。ＹＵＶフォーマットは、１つのルミナンスチャネル（Ｙ）と、一対のクロミナンスチャネル（ＵおよびＶ）とを含む。ＵチャネルおよびＶチャネルは、視覚的品質に重要で顕著な影響を与えることなく、Ｙチャネルに対してサブサンプリングされ得る。チャネル間の相関関係はＹＵＶフォーマットでは低減され、それは他の色フォーマット（たとえば、赤緑青（ＲＧＢ）フォーマット）には当てはまらない場合がある。本明細書に記載されたシステムおよび技法の態様は、ＲＧＢ入力フォーマット用に設計されたＥ２Ｅ－ＮＮＶＣ（および場合によっては他の入力フォーマット用に設計されたＥ２Ｅ－ＮＮＶＣ）においてＹＵＶ４：２：０入力フォーマットに適応するために、フロントエンドアーキテクチャ（たとえば、新しいサブネットワーク）を提供する。フロントエンドアーキテクチャは、多くのＥ２Ｅ－ＮＮＶＣアーキテクチャに適用可能である。

【0005】

[0005]１つの例示的な例では、ビデオデータを処理する方法が提供される。方法は、ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値を生成することと、エンコーダサブネットワークの第２の畳み込みレイヤにより、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成することと、第３の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値およびフレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値に基づいて、フレームの結合表現（a combined representation）を生成することと、フレームの結合表現に基づいて符号化ビデオデータを生成することとを含む。

【0006】

[0006]別の例では、メモリと、メモリに結合された（たとえば、回路内に実装された）プロセッサとを含む、ビデオデータを処理するための装置が提供される。いくつかの例では、２つ以上のプロセッサがメモリに結合され得、動作のうちの１つまたは複数を実行するために使用され得る。プロセッサは、ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値を生成し、エンコーダサブネットワークの第２の畳み込みレイヤを使用して、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成し、第３の畳み込みレイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値およびフレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値に基づいて、フレームの結合表現を生成し、フレームの結合表現に基づいて符号化ビデオデータを生成するように構成される。

【0007】

[0007]別の例では、１つまたは複数のプロセッサによって実行されると、ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値を生成することと、エンコーダサブネットワークの第２の畳み込みレイヤを使用して、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成することと、第３の畳み込みレイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値およびフレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値に基づいて、フレームの結合表現を生成することと、フレームの結合表現に基づいて符号化ビデオデータを生成することとを１つまたは複数のプロセッサに行わせる命令を記憶している、ビデオデータを符号化するための非一時的コンピュータ可読媒体が提供される。

【0008】

[0008]別の例では、ビデオデータを処理するための装置が提供される。装置は、ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値を生成するための手段と、エンコーダサブネットワークの第２の畳み込みレイヤにより、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成するための手段と、第３の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値およびフレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値に基づいて、フレームの結合表現を生成するための手段と、フレームの結合表現に基づいて符号化ビデオデータを生成するための手段とを含む。

【0009】

[0009]いくつかの態様では、第３の畳み込みレイヤは１×１畳み込みレイヤを含む。１×１畳み込みレイヤは、１つまたは複数の１×１畳み込みフィルタを含む。

【0010】

[0010]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、エンコーダサブネットワークの第１の非線形レイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値を処理することと、エンコーダサブネットワークの第２の非線形レイヤを使用して、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を処理することとをさらに備える。そのような態様では、結合表現は、第１の非線形レイヤの出力および第２の非線形レイヤの出力に基づいて生成される。

【0011】

[0011]いくつかの態様では、結合表現は、入力として第１の非線形レイヤの出力と第２の非線形レイヤの出力とを使用して、第３の畳み込みレイヤによって生成される。

【0012】

[0012]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、符号化ビデオデータを量子化することをさらに備える。

【0013】

[0013]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、符号化ビデオデータをエントロピーコーディングすることをさらに備える。

【0014】

[0014]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、符号化ビデオデータをメモリに記憶することをさらに備える。

【0015】

[0015]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、少なくとも１つのデバイスに伝送媒体を介して符号化ビデオデータを送信することをさらに備える。

【0016】

[0016]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、符号化フレームを取得することと、ニューラルネットワークシステムのデコーダサブネットワークの第１の畳み込みレイヤにより、符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成することと、デコーダサブネットワークの第２の畳み込みレイヤにより、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成することとをさらに備える。

【0017】

[0017]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、デコーダサブネットワークの第３の畳み込みレイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルから符号化フレームのルミナンスチャネルを分離することをさらに備える。

【0018】

[0018]いくつかの態様では、デコーダサブネットワークの第３の畳み込みレイヤは、１×１畳み込みレイヤを含む。１×１畳み込みレイヤは、１つまたは複数の１×１畳み込みフィルタを含む。

【0019】

[0019]いくつかの態様では、フレームはビデオフレームを含む。いくつかの態様では、少なくとも１つのクロミナンスチャネルは、クロミナンス青チャネルとクロミナンス赤チャネルとを含む。いくつかの態様では、フレームはルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する。

【0020】

[0020]１つの例示的な例では、ビデオデータを処理する方法が提供される。方法は、符号化フレームを取得することと、デコーダサブネットワークの第１の畳み込みレイヤにより、符号化フレームの少なくとも１つのクロミナンスチャネルから符号化フレームのルミナンスチャネルを分離することと、ニューラルネットワークシステムのデコーダサブネットワークの第２の畳み込みレイヤにより、符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成することと、デコーダサブネットワークの第３の畳み込みレイヤにより、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成することと、ルミナンスチャネルに関連付けられた復元出力値と少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値とを含む出力フレームを生成することとを含む。

【0021】

[0021]別の例では、メモリと、メモリに結合された（たとえば、回路内に実装された）プロセッサとを含む、ビデオデータを処理するための装置が提供される。いくつかの例では、２つ以上のプロセッサがメモリに結合され得、動作のうちの１つまたは複数を実行するように使用され得る。プロセッサは、符号化フレームを取得し、デコーダサブネットワークの第１の畳み込みレイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルから符号化フレームのルミナンスチャネルを分離し、ニューラルネットワークシステムのデコーダサブネットワークの第２の畳み込みレイヤを使用して、符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成し、デコーダサブネットワークの第３の畳み込みレイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成し、ルミナンスチャネルに関連付けられた復元出力値と少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値とを含む出力フレームを生成するように構成される。

【0022】

[0022]別の例では、１つまたは複数のプロセッサによって実行されると、符号化フレームを取得することと、デコーダサブネットワークの第１の畳み込みレイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルから符号化フレームのルミナンスチャネルを分離することと、ニューラルネットワークシステムのデコーダサブネットワークの第２の畳み込みレイヤを使用して、符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成することと、デコーダサブネットワークの第３の畳み込みレイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成することと、ルミナンスチャネルに関連付けられた復元出力値と少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値とを含む出力フレームを生成することとを１つまたは複数のプロセッサに行わせる命令を記憶している、ビデオデータを符号化するための非一時的コンピュータ可読媒体が提供される。

【0023】

[0023]別の例では、ビデオデータを処理するための装置が提供される。装置は、符号化フレームを取得するための手段と、デコーダサブネットワークの第１の畳み込みレイヤにより、符号化フレームの少なくとも１つのクロミナンスチャネルから符号化フレームのルミナンスチャネルを分離するための手段と、ニューラルネットワークシステムのデコーダサブネットワークの第２の畳み込みレイヤにより、符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成するための手段と、デコーダサブネットワークの第３の畳み込みレイヤにより、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成するための手段と、ルミナンスチャネルに関連付けられた復元出力値と少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値とを含む出力フレームを生成するための手段とを含む。

【0024】

[0024]いくつかの態様では、デコーダサブネットワークの第１の畳み込みレイヤは、１×１畳み込みレイヤを含む。１×１畳み込みレイヤは、１つまたは複数の１×１畳み込みフィルタを含む。

【0025】

[0025]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、デコーダサブネットワークの第１の非線形レイヤを使用して、符号化フレームのルミナンスチャネルに関連付けられた値を処理することと、ここにおいて、ルミナンスチャネルに関連付けられた復元出力値が第１の非線形レイヤの出力に基づいて生成される；デコーダサブネットワークの第２の非線形レイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた値を処理することと、ここにおいて、少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値が第２の非線形レイヤの出力に基づいて生成される、をさらに備える。

【0026】

[0026]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、符号化フレームのサンプルを逆量子化することをさらに備える。

【0027】

[0027]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、符号化フレームのサンプルをエントロピー復号することをさらに備える。

【0028】

[0028]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、出力フレームをメモリに記憶することをさらに備える。

【0029】

[0029]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、出力フレームを表示することをさらに備える。

【0030】

[0030]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値を生成することと、エンコーダサブネットワークの第２の畳み込みレイヤにより、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成することと、エンコーダサブネットワークの第３の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値およびフレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値に基づいて、フレームの結合表現を生成することと、フレームの結合表現に基づいて符号化フレームを生成することとをさらに備える。

【0031】

[0031]いくつかの態様では、エンコーダサブネットワークの第３の畳み込みレイヤは、１×１畳み込みレイヤを含む。１×１畳み込みレイヤは、１つまたは複数の１×１畳み込みフィルタを含む。

【0032】

[0032]いくつかの態様では、ビデオデータを処理するための上述された方法、装置、およびコンピュータ可読媒体は、エンコーダサブネットワークの第１の非線形レイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値を処理することと、エンコーダサブネットワークの第２の非線形レイヤを使用して、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を処理することとをさらに備え、結合表現は、第１の非線形レイヤの出力および第２の非線形レイヤの出力に基づいて生成される。

【0033】

[0033]いくつかの態様では、フレームの結合表現は、入力として第１の非線形レイヤの出力と第２の非線形レイヤの出力とを使用して、エンコーダサブネットワークの第３の畳み込みレイヤによって生成される。

【0034】

[0034]いくつかの態様では、符号化フレームは符号化ビデオフレームを含む。

【0035】

[0035]いくつかの態様では、少なくとも１つのクロミナンスチャネルは、クロミナンス青チャネルとクロミナンス赤チャネルとを含む。

【0036】

[0036]いくつかの態様では、符号化フレームはルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する。

【0037】

[0037]いくつかの態様では、装置は、モバイルデバイス（たとえば、携帯電話もしくはいわゆる「スマートフォン」、タブレットコンピュータ、もしくは他のタイプのモバイルデバイス）、ネットワーク接続されたウェアラブルデバイス、エクステンデッドリアリティデバイス（たとえば、仮想現実（ＶＲ）デバイス、拡張現実（ＡＲ）デバイス、もしくは複合現実（ＭＲ）デバイス）、パーソナルコンピュータ、ラップトップコンピュータ、サーバコンピュータ（たとえば、ビデオサーバもしくは他のサーバデバイス）、テレビジョン、車両（もしくは車両のコンピューティングデバイスもしくはシステム）、カメラ（たとえば、デジタルカメラ、インターネットプロトコル（ＩＰ）カメラなど）、マルチカメラシステム、ロボティックスデバイスもしくはシステム、航空デバイスもしくはシステム、または他のデバイスであり得るか、またはその一部であり得る。いくつかの態様では、装置は、１つまたは複数の画像またはビデオフレーム（またはピクチャ）をキャプチャするための少なくとも１つのカメラを含む。たとえば、装置は、１つもしくは複数の画像および／またはビデオフレームを含む１つもしくは複数のビデオをキャプチャするためのカメラ（たとえば、ＲＧＢカメラ）または複数のカメラを含むことができる。いくつかの態様では、装置は、１つまたは複数の画像、ビデオ、通知、または他の表示可能なデータを表示するためのディスプレイを含む。いくつかの態様では、装置は、少なくとも１つのデバイスに伝送媒体を介して１つまたは複数のビデオフレームおよび／またはシンタックスデータを送信するように構成された送信機を含む。いくつかの態様では、上述された装置は１つまたは複数のセンサを含むことができる。いくつかの態様では、プロセッサには、ニューラル処理装置（ＮＰＵ）、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、または他の処理デバイスもしくは構成要素が含まれる。

【0038】

[0038]本概要は、請求される主題の主要または本質的な特徴を識別するものではなく、請求される主題の範囲を決定するために切り離して使用されるものでもない。本主題は、本特許の明細書全体、いずれかまたはすべての図面、および各請求項の適切な部分を参照して理解されるべきである。

【0039】

[0039]上記は、他の特徴および実施形態とともに、以下の明細書、特許請求の範囲、および添付の図面を参照すると、より明らかになるであろう。

【0040】

[0040]本出願の例示的な実施形態は、以下の図を参照して以下で詳細に記載される。

【図面の簡単な説明】

【0041】

【図1】[0041]システムオンチップ（ＳＯＣ）の例示的な実装形態を示す図。

【図2A】[0042]全結合ニューラルネットワークの一例を示す図。

【図2B】[0043]局所結合ニューラルネットワークの一例を示す図。

【図2C】[0044]畳み込みニューラルネットワークの一例を示す図。

【図2D】[0045]画像から視覚特徴を認識するように設計された深層畳み込みネットワーク（ＤＣＮ）の詳細な一例を示す図。

【図3】[0046]深層畳み込みネットワーク（ＤＣＮ）を示すブロック図。

【図4】[0047]いくつかの例による、ニューラルネットワークベースのシステムを使用して画像および／またはビデオのコーディング（符号化および復号）を実行するように動作可能なデバイスを含むシステムの一例を示す図。

【図5】[0048]いくつかの例による、赤緑青（ＲＧＢ）フォーマットを有する入力用のエンドツーエンドニューラルネットワークベースの画像およびビデオのコーディングシステムの一例を示す図。

【図6A】[0049]いくつかの例による、エンドツーエンドニューラルネットワークベースの画像およびビデオのコーディングシステムの一部であり得るフロントエンドニューラルネットワークアーキテクチャの一例を示す図。

【図6B】[0050]いくつかの例による、１×１畳み込みレイヤの例示的な動作を示す図。

【図6C】[0051]いくつかの例による、エンドツーエンドニューラルネットワークベースの画像およびビデオのコーディングシステムの一部であり得るフロントエンドニューラルネットワークアーキテクチャの別の例を示す図。

【図6D】[0052]いくつかの例による、エンドツーエンドニューラルネットワークベースの画像およびビデオのコーディングシステムの一部であり得るフロントエンドニューラルネットワークアーキテクチャの別の例を示す図。

【図6E】[0053]いくつかの例による、エンドツーエンドニューラルネットワークベースの画像およびビデオのコーディングシステムの一部であり得るフロントエンドニューラルネットワークアーキテクチャの別の例を示す図。

【図6F】[0054]いくつかの例による、エンドツーエンドニューラルネットワークベースの画像およびビデオのコーディングシステムの一部であり得るフロントエンドニューラルネットワークアーキテクチャの別の例を示す図。

【図7】[0055]いくつかの例による、ビデオデータを処理するためのプロセスの一例を示すフローチャート。

【図8】[0056]いくつかの例による、ビデオデータを処理するためのプロセスの別の例を示すフローチャート。

【図9】[0057]本明細書に記載された様々な技法を実装することができる例示的なコンピューティングデバイスの例示的なコンピューティングデバイスアーキテクチャを示す図。

【発明を実施するための形態】

【0042】

[0058]本開示のいくつかの態様および実施形態が以下に提供される。当業者に明らかであるように、これらの態様および実施形態のうちのいくつかは独立して適用されてもよく、それらのうちのいくつかは組み合わせて適用されてもよい。以下の記載では、説明の目的で、本出願の実施形態の完全な理解を提供するために具体的な詳細が記載される。しかしながら、様々な実施形態は、これらの具体的な詳細なしに実践され得ることが明らかであろう。図および説明は限定するものではない。

【0043】

[0059]その後の説明は、例示的な実施形態を提供するにすぎず、本開示の範囲、適用性、または構成を限定するものではない。むしろ、例示的な実施形態のその後の説明は、例示的な実施形態を実装することを可能にする説明を当業者に提供するであろう。添付の特許請求の範囲に記載されるように、本出願の趣旨および範囲から逸脱することなく、要素の機能および構成において様々な変更が行われ得ることを理解されたい。

【0044】

[0060]デジタルビデオデータは、特に、高品質のビデオデータに対する需要が成長し続けるにつれて大量のデータを含むことができる。たとえば、ビデオデータの消費者は、通常、高い忠実度、解像度、フレームレートなどを有するますます高い品質のビデオを望む。しかしながら、そのような需要を満たすために必要とされる大量のビデオデータは、通信ネットワーク、ならびにビデオデータを処理し記憶するデバイスに著しい負担をかける可能性がある。

【0045】

[0061]ビデオデータをコーディングするために、様々な技法が使用され得る。ビデオコーディングは、特定のビデオコーディング規格に従って実行され得る。例示的なビデオコーディング規格には、高効率ビデオコーディング（ＨＥＶＣ）、アドバンストビデオコーディング（ＡＶＣ）、ムービングピクチャエキスパートグループ（ＭＰＥＧ）コーディング、および多用途ビデオコーディング（ＶＶＣ）が含まれる。ビデオコーディングは、しばしば、ビデオ画像またはシーケンス内に存在する冗長構成を利用するインター予測またはイントラ予測などの予測方法を使用する。ビデオコーディング技法の共通の目標は、ビデオ品質の劣化を回避または最小化しながら、より低いビットレートを使用する形式にビデオデータを圧縮することである。ビデオサービスに対する需要が高まり、新しいビデオサービスが利用可能になるにつれて、より良いコーディング効率、性能、およびレート制御を有するコーディング技法が必要とされる。

【0046】

[0062]１つまたは複数の機械学習（ＭＬ）システムを使用して画像および／またはビデオのコーディングを実行するための（「システムおよび技法」と総称される）システム、装置、（方法とも呼ばれる）プロセス、およびコンピュータ可読媒体が本明細書に記載される。一般に、ＭＬは人工知能（ＡＩ）のサブセットである。ＭＬシステムは、明示的な命令を使用せずにパターンおよび推測に依存することによって様々なタスクを実行するためにコンピュータシステムが使用することができるアルゴリズムと統計モデルとを含むことができる。ＭＬシステムの一例は、人工ニューロン（たとえば、ニューロンモデル）の相互接続されたグループを含む場合がある、（人工ニューラルネットワークとも呼ばれる）ニューラルネットワークである。ニューラルネットワークは、とりわけ、画像および／またはビデオのコーディング、画像解析および／またはコンピュータビジョンアプリケーション、インターネットプロトコル（ＩＰ）カメラ、モノのインターネット（ＩｏＴ）デバイス、自律車両、サービスロボットなどの様々なアプリケーションおよび／またはデバイスに使用される場合がある。

【0047】

[0063]ニューラルネットワーク内の個々のノードは、入力データを取得し、データに対して単純な演算を実行することにより、生体ニューロンをエミュレートすることができる。入力データに対して実行された単純な演算の結果は、他のニューロンに選択的に渡される。重み値がネットワーク内の各々のベクトルおよびノードに関連付けられ、これらの値は、入力データがどのように出力データに関係するかを制約する。たとえば、各ノードの入力データは、対応する重み値によって乗算される場合があり、積は合計される場合がある。積の合計は任意選択のバイアスによって調整される場合があり、活性化関数が結果に適用され、ノードの出力信号または（活性化マップもしくは特徴マップと呼ばれることがある）「出力活性化」をもたらす。重み値は、最初に、ネットワークを介して訓練データの反復フローによって決定される場合がある（たとえば、重み値は、ネットワークが特定のクラスの典型的な入力データ特性によってそれらのクラスをどのように識別するべきかを学習する訓練フェーズ中に確立される）。

【0048】

[0064]とりわけ、畳み込みニューラルネットワーク（ＣＮＮ）、再帰型ニューラルネットワーク（ＲＮＮ）、敵対的生成ネットワーク（ＧＡＮ）、多層パーセプトロン（ＭＬＰ）ニューラルネットワークなどの、異なるタイプのニューラルネットワークが存在する。たとえば、畳み込みニューラルネットワーク（ＣＮＮ）は、フィードフォワード人工ニューラルネットワークのタイプである。畳み込みニューラルネットワークは、各々が受容野（たとえば、入力空間の空間的に局所化された領域）を有し、入力空間を集合的にタイリングする人工ニューロンの集合を含む場合がある。ＲＮＮは、レイヤの出力を節約し、この出力を、レイヤの結果を予測するのに役立つために入力にフィードバックするという原理で動作する。ＧＡＮは、ニューラルネットワークモデルが合理的に元のデータセットからである可能性がある新しい合成出力を生成することができるように、入力データ内のパターンを学習することができる生成ニューラルネットワークの一形態である。ＧＡＮは、合成された出力を生成する生成ニューラルネットワークと、信頼性について出力を評価する識別ニューラルネットワークとを含む、一緒に動作する２つのニューラルネットワークを含むことができる。ＭＬＰニューラルネットワークでは、データは入力レイヤに供給される場合があり、１つまたは複数の隠れレイヤがデータに抽象化レベルを提供する。次いで、抽象化されたデータに基づいて出力レイヤ上で予測が行われる場合がある。

【0049】

[0065]（複数の隠れレイヤが存在するときに深層ニューラルネットワークと呼ばれる）階層型ニューラルネットワークアーキテクチャでは、人工ニューロンの第１のレイヤの出力は人工ニューロンの第２のレイヤへの入力になり、人工ニューロンの第２のレイヤの出力は人工ニューロンの第３のレイヤの入力になり、以下同様である。ＣＮＮは、たとえば、特徴の階層を認識するように訓練される場合がある。ＣＮＮアーキテクチャにおける計算は、１つまたは複数の計算チェーンにおいて構成され得る処理ノードの集団にわたって分散される場合がある。これらの多層化アーキテクチャは、一度に１つのレイヤを訓練される場合があり、逆伝搬を使用して微調整される場合がある。

【0050】

[0066]いくつかの態様では、本明細書に記載されたシステムおよび技法は、ルミナンス－クロミナンス（ＹＵＶ）入力フォーマットを有する入力データを処理するために設計された、（たとえば、ニューラルネットワークアーキテクチャを使用する）エンドツーエンドＭＬベースの画像およびビデオのコーディング（Ｅ２Ｅ－ＮＮＶＣ）システムを含む。ＹＵＶフォーマットは、１つのルミナンスチャネル（Ｙ）と、一対のクロミナンスチャネル（ＵおよびＶ）とを含む。Ｕチャネルは、クロミナンス（またはクロマ）青チャネルと呼ぶことができ、Ｖチャネルは、クロミナンス（またはクロマ）赤チャネルと呼ぶことができる。場合によっては、ルミナンス（Ｙ）チャネルまたは成分は、ルーマチャネルまたは成分と呼ぶこともできる。場合によっては、クロミナンス（ＵおよびＶ）チャネルまたは成分は、クロマチャネルまたは成分と呼ぶこともできる。ＹＵＶ入力フォーマットは、とりわけ、ＹＵＶ４：２：０、ＹＵＶ４：４：４、ＹＵＶ４：２：２を含むことができる。場合によっては、本明細書に記載されたシステムおよび技法は、Ｙ－クロマ青（Ｃｂ）－クロマ赤（Ｃｒ）（ＹＣｂＣｒ）フォーマット、赤緑青（ＲＧＢ）フォーマット、および／または他のフォーマットなどの他の入力フォーマットを処理するように設計され得る。本明細書に記載されたＥ２Ｅ－ＮＮＶＣシステムは、（画像もしくはピクチャとも呼ばれる）スタンドアロンフレームおよび／または複数のフレームを含むビデオデータを符号化および／または復号することができる。

【0051】

[0067]多くの場合、Ｅ２Ｅ－ＮＮＶＣシステムは、オートエンコーダサブネットワーク（エンコーダサブネットワーク）、およびエントロピーコーディングに使用される量子化ラテント上で確率モデルを学習することに関与する（場合によってはハイパープライアネットワークとも呼ばれる）第２のサブネットワーク（デコーダサブネットワーク）の組合せとして設計される。場合によっては、デコーダの他のサブネットワークが存在する可能性がある。そのようなＥ２Ｅ－ＮＮＶＣシステムアーキテクチャは、変換プラス量子化モジュール（またはエンコーダサブネットワーク）およびエントロピーモデリングサブネットワークモジュールの組合せとして見ることができる。

【0052】

[0068]ほとんどのＥ２Ｅ－ＮＮＶＣシステムアーキテクチャは、ＲＧＢ、ＹＵＶ４：４：４、または他の非サブサンプル入力フォーマットなどの、非サブサンプル入力フォーマットで動作するように設計される。しかしながら、ＨＥＶＣおよびＶＶＣなどのビデオコーディング規格は、それらそれぞれのメインプロファイル内でＹＵＶ４：２：０色フォーマットをサポートするように設計される。４：２：０ＹＵＶフォーマットをサポートするために、非サブサンプル入力フォーマットで動作するように設計されたＥ２Ｅ－ＮＮＶＣアーキテクチャは、修正される必要がある。

【0053】

[0069]本明細書に記載されたシステムおよび技法は、既存のＥ２Ｅ－ＮＮＶＣアーキテクチャに適用可能な１つまたは複数の特定の色フォーマット（たとえば、ＹＵＶ４：２：０色フォーマット）を処理するためのフロントエンドアーキテクチャ（たとえば、サブネットワーク）を提供する。システムおよび技法は、ＹチャネルおよびＵＶチャネルの異なる特性、ならびに解像度の違いを考慮する。たとえば、フレームまたはフレームの部分のＹチャネルおよびＵＶチャネルは、ニューラルネットワークシステムのエンコーダサブネットワークの２つの別々のニューラルネットワークレイヤに入力され得る。いくつかの例では、２つのニューラルネットワークレイヤは畳み込みレイヤを含む。いくつかの態様では、２つの別々のニューラルネットワークレイヤの出力は、エンコーダサブネットワークの一対の非線形レイヤまたは演算子によって処理される。一対の非線形レイヤまたは演算子は、一般化神経活動正規化（ＧＤＮ）レイヤもしくは演算子、パラメトリック整流線形ユニット（ＰＲｅＬＵ）レイヤもしくは演算子、および／または他の非線形レイヤもしくは演算子を含むことができる。２つの別々のニューラルネットワークレイヤの出力（または非線形レイヤもしくは演算子の出力）は、エンコーダサブネットワークの追加のニューラルネットワークレイヤを使用して結合される。

【0054】

[0070]いくつかの例では、追加のニューラルネットワークレイヤは、１×１畳み込みレイヤである。１×１畳み込みレイヤは、Ｙ成分およびＵＶ成分の（たとえば、線形結合を生成することによる）ピクセル当たりまたは値当たりのクロスチャネル混合を実行し、コーディング性能を向上させるクロス成分（たとえば、クロス－ルミナンスおよびクロミナンス成分）の予測をもたらす。たとえば、Ｙ成分およびＵＶ成分のクロスチャネル混合は、Ｕ成分およびＶ成分からＹ成分を非相関化し、それにより、コーディング性能が向上する（たとえば、コーディング効率が改善される）。場合によっては、１×１畳み込みレイヤは、Ｎ個の１×１畳み込みフィルタを含むことができる（ここで、Ｎは１×１畳み込みレイヤに入力されるチャネルの数に対応する整数値に等しい）。各１×１畳み込みフィルタは、Ｙ成分の対応するＮ番目のチャネルおよびＵＶ成分の対応するＮ番目のチャネルに適用されるそれぞれのスケーリングファクタを有する。

【0055】

[0071]追加のニューラルネットワークレイヤ（たとえば、１×１畳み込みレイヤ）の出力は、エンコーダサブネットワークの１つもしくは複数の非線形レイヤおよび／または１つもしくは複数のさらなるニューラルネットワークレイヤ（たとえば、畳み込みレイヤ）によって処理され得る。量子化エンジンは、量子化出力を生成するために、エンコーダサブネットワークの最後のニューラルネットワークレイヤによって出力された特徴に対して量子化を実行することができる。エントロピー符号化エンジンは、ビットストリームを生成するために、量子化エンジンからの量子化出力をエントロピー符号化することができる。ニューラルネットワークシステムは、格納のため、別のデバイス、サーバデバイス、またはサーバシステムへの送信のためなどにビットストリームを出力することができる。

【0056】

[0072]ニューラルネットワークシステムのデコーダサブネットワークまたは（別のデバイスの）別のニューラルネットワークシステムのデコーダサブネットワークは、ビットストリームを復号することができる。たとえば、デコーダサブネットワークのエントロピー復号エンジンは、ビットストリームをエントロピー復号し、エントロピー復号データを逆量子化エンジンに出力することができる。逆量子化エンジンは、データを逆量子化することができる。逆量子化データは、デコーダサブネットワークの１つもしくは複数のニューラルネットワークレイヤ（たとえば、畳み込みレイヤ）および／または１つもしくは複数の逆非線形レイヤによって処理され得る。たとえば、１つもしくは複数の畳み込みレイヤおよび１つもしくは複数の逆非線形レイヤによって処理された後、１×１畳み込みレイヤがデータを処理することができる。１×１畳み込みレイヤは、データをＹチャネル特徴および結合ＵＶチャネル特徴に分割することができる。Ｙチャネル特徴および結合ＵＶチャネル特徴は、２つの最後のニューラルネットワークレイヤ（たとえば、２つの畳み込みレイヤ）および場合によっては２つの最後の逆非線形レイヤによって処理され得る。たとえば、第１の最後のニューラルネットワークレイヤは、Ｙチャネル特徴を処理し、復元フレームのピクセルまたはサンプル毎の復元Ｙチャネル（たとえば、ルミナンスサンプルもしくはピクセル）を出力することができる。第２の最後のニューラルネットワークレイヤは、結合ＵＶチャネル特徴を処理し、復元フレームのピクセルまたはサンプル毎の復元Ｕチャネル（たとえば、クロミナンス青サンプルもしくはピクセル）と、復元フレームのピクセルまたはサンプル毎の復元Ｖチャネル（たとえば、クロミナンス赤サンプルもしくはピクセル）とを出力することができる。

【0057】

[0073]システムおよび技法に関するさらなる詳細が図を参照して記載される。

【0058】

[0074]図１は、本明細書に記載された機能のうちの１つまたは複数を実行するように構成された中央処理装置（ＣＰＵ）１０２またはマルチコアＣＰＵを含む場合があるシステムオンチップ（ＳＯＣ）１００の例示的な実装形態を示す。いくつかある情報の中で特に、パラメータまたは変数（たとえば、ニューラル信号およびシナプス荷重）、算出デバイスに関連付けられたシステムパラメータ（たとえば、重みを有するニューラルネットワーク）、遅延、周波数ビン情報、タスク情報は、ニューラル処理装置（ＮＰＵ）１０８に関連付けられたメモリブロック、ＣＰＵ１０２に関連付けられたメモリブロック、グラフィックス処理装置（ＧＰＵ）１０４に関連付けられたメモリブロック、デジタル信号プロセッサ（ＤＳＰ）１０６に関連付けられたメモリブロック、メモリブロック１１８に記憶される場合があり、および／または複数のブロックにわたって分散される場合がある。ＣＰＵ１０２において実行される命令は、ＣＰＵ１０２に関連付けられたプログラムメモリからロードされてもよく、メモリブロック１１８からロードされてもよい。

【0059】

[0075]ＳＯＣ１００はまた、ＧＰＵ１０４、ＤＳＰ１０６などの特定の機能に適合された追加の処理ブロックと、第５世代（５Ｇ）接続、第４世代ロングタームエボリューション（４ＧＬＴＥ（登録商標））接続、Ｗｉ－Ｆｉ（登録商標）接続、ＵＳＢ接続、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続などを含む場合がある接続ブロック１１０と、たとえば、ジェスチャを検出および認識することができるマルチメディアプロセッサ１１２とを含む場合がある。一実装形態では、ＮＰＵは、ＣＰＵ１０２、ＤＳＰ１０６、および／またはＧＰＵ１０４内に実装される。ＳＯＣ１００はまた、センサプロセッサ１１４、画像信号プロセッサ（ＩＳＰ）１１６、および／または全地球測位システムを含む場合があるナビゲーションモジュール１２０を含む場合がある。

【0060】

[0076]ＳＯＣ１００はＡＲＭ命令セットに基づく場合がある。本開示の一態様では、ＣＰＵ１０２にロードされる命令は、入力値とフィルタ重みの乗算積に対応するルックアップテーブル（ＬＵＴ）内の記憶された乗算結果を探索するためのコードを備えることができる。ＣＰＵ１０２にロードされる命令はまた、乗算積のルックアップテーブルヒットが検出されたとき、乗算積の乗算演算中に乗算器を無効にするためのコードを備えることができる。さらに、ＣＰＵ１０２にロードされる命令は、乗算積のルックアップテーブルミスが検出されたとき、入力値とフィルタ重みの算出された乗算積を記憶するためのコードを備えることができる。

【0061】

[0077]ＳＯＣ１００および／またはその構成要素は、本明細書で説明された本開示の態様に従って機械学習技法を使用して、（ビデオ符号化および／または復号とも呼ばれ、ビデオコーディングと総称される）ビデオ圧縮および／または解凍を実行するように構成される場合がある。ビデオ圧縮および／または解凍を実行するために深層学習アーキテクチャを使用することにより、本開示の態様は、デバイス上でのビデオ圧縮および／または解凍の効率を増大させることができる。たとえば、記載されたビデオコーディング技法を使用するデバイスは、機械学習ベースの技法を使用してより効率的にビデオを圧縮することができ、別のデバイスに圧縮されたビデオを送信することができ、他のデバイスは、本明細書に記載された機械学習ベースの技法を使用してより効率的に圧縮されたビデオを解凍することができる。

【0062】

[0078]上述されたように、ニューラルネットワークは機械学習システムの一例であり、入力レイヤと、１つまたは複数の隠れレイヤと、出力レイヤとを含むことができる。データは入力レイヤの入力ノードから提供され、処理は１つまたは複数の隠れレイヤの隠れノードによって実行され、出力は出力レイヤの出力ノードを介して生成される。深層学習ネットワークは、通常、複数の隠れレイヤを含む。ニューラルネットワークの各レイヤは、人工ニューロン（またはノード）を含むことができる特徴マップまたは活性化マップを含むことができる。特徴マップは、フィルタ、カーネルなどを含むことができる。ノードは、レイヤのうちの１つまたは複数のノードの重要度を示すために使用される１つまたは複数の重みを含むことができる。場合によっては、深層学習ネットワークは、一連の多くの隠れレイヤを有することができ、初期のレイヤは、入力の単純で低レベルの特性を決定するために使用され、後のレイヤは、より複雑で抽象的な特性の階層を構築する。

【0063】

[0079]深層学習アーキテクチャは特徴の階層を学習することができる。たとえば、視覚データが提示された場合、第１のレイヤは、入力ストリーム内のエッジなどの比較的単純な特徴を認識するように学習することができる。別の例では、聴覚データが提示された場合、第１のレイヤは、特定の周波数のスペクトル電力を認識するように学習することができる。第１のレイヤの出力を入力として取得する第２のレイヤは、視覚データの場合の単純な形状、または聴覚データの場合の音の組合せなどの特徴の組合せを認識するように学習することができる。たとえば、上位レイヤは、視覚データ内の複雑な形状、または聴覚データ内の単語を表すように学習することができる。さらに上位のレイヤは、共通の視覚オブジェクトまたは発話フレーズを認識するように学習することができる。

【0064】

[0080]深層学習アーキテクチャは、自然階層構造を有する問題に適用されたときに特にうまく実行することができる。たとえば、原動機付き車両の分類は、ホイール、フロントガラス、および他の特徴を認識するための最初の学習から恩恵を受けることができる。これらの特徴は、車、トラック、および飛行機を認識するために、異なる方法で上位レイヤにおいて組み合わされる場合がある。

【0065】

[0081]ニューラルネットワークは、様々な接続パターンを用いて設計される場合がある。フィードフォワードネットワークでは、情報が下位レイヤから上位レイヤに渡され、所与のレイヤにおける各ニューロンは、上位レイヤにおけるニューロンに伝える。上述されたように、フィードフォワードネットワークの連続するレイヤにおいて、階層表現が構築される場合がある。ニューラルネットワークはまた、再帰型接続または（トップダウンとも呼ばれる）フィードバック接続を有する場合がある。再帰型接続では、所与のレイヤにおけるニューロンからの出力は、同じレイヤにおける別のニューロンに伝えられる場合がある。再帰型アーキテクチャは、ニューラルネットワークに順次配信される入力データチャンクのうちの２つ以上にわたるパターンを認識する際に役立つ場合がある。所与のレイヤにおけるニューロンから下位レイヤにおけるニューロンへの接続は、フィードバック（またはトップダウン）接続と呼ばれる。高レベルの概念の認識が、入力の特定の低レベルの特徴を区別するのに役立つ場合があるとき、多くのフィードバック接続を有するネットワークが役立つ場合がある。

【0066】

[0082]ニューラルネットワークのレイヤ間の接続は、全結合または局所結合であり得る。図２Ａは、全結合ニューラルネットワーク２０２の一例を示す。全結合ニューラルネットワーク２０２では、第２のレイヤにおける各ニューロンが第１のレイヤにおけるあらゆるニューロンから入力を受け取るように、第１のレイヤにおけるニューロンはその出力を第２のレイヤにおけるあらゆるニューロンに通信することができる。図２Ｂは、局所結合ニューラルネットワーク２０４の一例を示す。局所結合ニューラルネットワーク２０４では、第１のレイヤにおけるニューロンは、第２のレイヤにおける限られた数のニューロンに接続される場合がある。より一般的には、局所結合ニューラルネットワーク２０４の局所結合レイヤは、レイヤにおける各ニューロンが同じまたは同様の接続パターンを有するように構成される場合があるが、異なる値を有する場合がある接続強度で構成される場合がある（たとえば、２１０、２１２、２１４、および２１６）。局所結合の接続パターンは、所与の領域内の上位レイヤニューロンが、ネットワークへの総入力のうちの制限された部分のプロパティに訓練を介して調節された入力を受け取るので、上位レイヤにおいて空間的に別個の受容野を生じる場合がある。

【0067】

[0083]局所結合ニューラルネットワークの一例は、畳み込みニューラルネットワークである。図２Ｃは、畳み込みニューラルネットワーク２０６の一例を示す。畳み込みニューラルネットワーク２０６は、第２のレイヤにおける各ニューロンのための入力に関連付けられた接続強度が共有されるように構成される場合がある（たとえば、２０８）。畳み込みニューラルネットワークは、入力の空間位置が有意味である問題に好適であり得る。畳み込みニューラルネットワーク２０６は、本開示の態様による、ビデオ圧縮および／または解凍の１つまたは複数の態様を実行するために使用される場合がある。

【0068】

[0084]１つのタイプの畳み込みニューラルネットワークは、深層畳み込みネットワーク（ＤＣＮ）である。図２Ｄは、車載カメラなどの画像キャプチャデバイス２３０から入力された画像２２６から視覚特徴を認識するように設計されたＤＣＮ２００の詳細な例を示す。本例のＤＣＮ２００は、交通標識および交通標識上に提供された数字を識別するように訓練される場合がある。当然、ＤＣＮ２００は、車線マーキングを識別すること、または交通信号を識別することなどの他のタスクのために訓練される場合がある。

【0069】

[0085]ＤＣＮ２００は、教師あり学習を用いて訓練される場合がある。訓練中に、ＤＣＮ２００は、速度制限標識の画像２２６などの画像を提示される場合があり、次いで、出力２２２を生成するために、フォワードパスが算出される場合がある。ＤＣＮ２００は、特徴抽出セクションと分類セクションとを含む場合がある。画像２２６を受信すると、畳み込みレイヤ２３２は、特徴マップの第１のセット２１８を生成するために、畳み込みカーネル（図示せず）を画像２２６に適用することができる。一例として、畳み込みレイヤ２３２用の畳み込みカーネルは、２８×２８特徴マップを生成する５×５カーネルであり得る。本例では、４つの異なる特徴マップが特徴マップの第１のセット２１８において生成されるので、４つの異なる畳み込みカーネルが、畳み込みレイヤ２３２において画像２２６に適用された。畳み込みカーネルは、フィルタまたは畳み込みフィルタと呼ばれる場合もある。

【0070】

[0086]特徴マップの第１のセット２１８は、特徴マップの第２のセット２２０を生成するために、最大プーリングレイヤ（図示せず）によってサブサンプリングされる場合がある。最大プーリングレイヤは、特徴マップの第１のセット２１８のサイズを削減する。すなわち、１４×１４などの特徴マップの第２のセット２２０のサイズは、２８×２８などの特徴マップの第１のセット２１８のサイズよりも小さい。削減されたサイズは、メモリ消費を削減しながら、後続のレイヤに同様の情報を提供する。特徴マップの第２のセット２２０は、特徴マップの１つまたは複数の後続のセット（図示せず）を生成するために、１つまたは複数の後続の畳み込みレイヤ（図示せず）を介してさらに畳み込まれる場合がある。

【0071】

[0087]図２Ｄの例では、特徴マップの第２のセット２２０は、第１の特徴ベクトル２２４を生成するために畳み込まれる。さらに、第１の特徴ベクトル２２４は、第２の特徴ベクトル２２８を生成するためにさらに畳み込まれる。第２の特徴ベクトル２２８の各特徴は、「標識」、「６０」、および「１００」などの画像２２６の可能な特徴に対応する数を含む場合がある。ソフトマックス関数（図示せず）が、第２の特徴ベクトル２２８内の数を確率に変換することができる。したがって、ＤＣＮ２００の出力２２２は、画像２２６が１つまたは複数の特徴を含む確率である。

【0072】

[0088]本例では、「標識」および「６０」についての出力２２２における確率は、「３０」、「４０」、「５０」、「７０」、「８０」、「９０」、および「１００」などの出力２２２の他のものの確率よりも高い。訓練の前に、ＤＣＮ２００によって生成される出力２２２は、不正確である可能性がある。したがって、出力２２２とターゲット出力との間で誤差が計算される場合がある。ターゲット出力は、画像２２６（たとえば、「標識」および「６０」）のグランドトゥルース（ground truth）である。次いで、ＤＣＮ２００の重みは、ＤＣＮ２００の出力２２２がターゲット出力とより密接に整合されるように調整される場合がある。

【0073】

[0089]重みを調整するために、学習アルゴリズムは、重みのための勾配ベクトルを算出することができる。勾配は、重みが調整された場合に誤差が増加または減少する量を示すことができる。最上レイヤにおいて、勾配は、最後から２番目のレイヤにおける活性化ニューロンと出力レイヤにおけるニューロンとを接続する重みの値に直接対応することができる。下位レイヤでは、勾配は、重みの値、および上位レイヤの算出された誤差勾配に依存する場合がある。次いで、重みは、誤差を低減するために調整される場合がある。重みを調整するこの方式は、それがニューラルネットワークを介する「バックワードパス」を伴うので、「逆伝搬」と呼ばれる場合がある。

【0074】

[0090]実際には、重みの誤差勾配(error gradient)は、計算された勾配が真の誤差勾配を近似するように、少数の例にわたって計算される場合がある。この近似方法は、確率的勾配降下法と呼ばれる場合がある。確率的勾配降下法は、システム全体の達成可能な誤差レートが減少しなくなるまで、または誤差レートがターゲットレベルに達するまで繰り返される場合がある。学習の後に、ＤＣＮは新しい画像を提示される場合があり、ネットワークを介するフォワードパスは、ＤＣＮの推論または予測と見なされ得る出力２２２をもたらすことができる。

【0075】

[0091]深層信念ネットワーク（ＤＢＮ）は、隠れノードの複数のレイヤを備える確率モデルである。ＤＢＮは、訓練データセットの階層表現を抽出するために使用される場合がある。ＤＢＮは、制限ボルツマンマシン（ＲＢＭ）のレイヤを積層することによって取得される場合がある。ＲＢＭは、入力のセットにわたる確率分布を学習することができる人工ニューラルネットワークのタイプである。ＲＢＭは、各入力がそれに分類されるべきクラスに関する情報の不在下で確率分布を学習することができるので、ＲＢＭは教師なし学習においてしばしば使用される。ハイブリッド教師なしおよび教師ありパラダイムを使用して、ＤＢＮの下部ＲＢＭは、教師なし方式で訓練される場合があり、特徴抽出器として機能することができ、上部ＲＢＭは、（前のレイヤからの入力およびターゲットクラスの同時分布上で）教師あり方式で訓練される場合があり、分類器として機能することができる。

【0076】

[0092]深層畳み込みネットワーク（ＤＣＮ）は、追加のプーリングレイヤおよび非線形（たとえば、正規化）レイヤで構成された畳み込みネットワークのネットワークである。ＤＣＮは、多くのタスクに関して最先端の性能を実現している。ＤＣＮは、入力ターゲットと出力ターゲットの両方が、多くの標本について知られており、勾配降下法の使用によってネットワークの重みを修正するために使用される教師あり学習を使用して訓練され得る。

【0077】

[0093]ＤＣＮは、フィードフォワードネットワークであり得る。加えて、上述されたように、ＤＣＮの第１のレイヤにおけるニューロンから次の上位レイヤにおけるニューロンのグループへの接続は、第１のレイヤにおけるニューロンにわたって共有される。ＤＣＮのフィードフォワード接続および共有接続は、高速処理のために活用される場合がある。ＤＣＮの計算負担は、たとえば、再帰型接続またはフィードバック接続を備える同様のサイズのニューラルネットワークのそれよりもはるかに少ない場合がある。

【0078】

[0094]畳み込みネットワークの各レイヤの処理は、空間的に不変のテンプレートまたは基底投影と見なされる場合がある。入力が、カラー画像の赤色、緑色、および青色のチャネルなどの複数のチャネルに最初に分解された場合、その入力に関して訓練された畳み込みネットワークは、画像の軸に沿った２つの空間次元と、色情報をキャプチャする第３の次元とを有する３次元であると見なされる場合がある。畳み込み接続の出力は、後続のレイヤにおいて特徴マップを形成すると見なされる場合があり、特徴マップ（たとえば、２２０）の各要素が、前のレイヤ（たとえば、特徴マップ２１８）における様々なニューロンから、および複数のチャネルの各々から入力を受信する。特徴マップにおける値は、整流、ｍａｘ（０，ｘ）などの非線形性を用いてさらに処理される場合がある。隣接するニューロンからの値はさらにプールされる場合があり、これはダウンサンプリングに対応し、さらなる局所不変性および次元削減を提供することができる。

【0079】

[0095]図３は、深層畳み込みネットワーク３５０の一例を示すブロック図である。深層畳み込みネットワーク３５０は、接続および重みの共有に基づく複数の異なるタイプのレイヤを含む場合がある。図３に示されたように、深層畳み込みネットワーク３５０は、畳み込みブロック３５４Ａ、３５４Ｂを含む。畳み込みブロック３５４Ａ、３５４Ｂの各々は、畳み込みレイヤ（ＣＯＮＶ）３５６、正規化レイヤ（ＬＮｏｒｍ）３５８、および最大プーリングレイヤ（ＭＡＸＰＯＯＬ）３６０で構成される場合がある。

【0080】

[0096]畳み込みレイヤ３５６は、１つまたは複数の畳み込みフィルタを含む場合があり、それらは、特徴マップを生成するために入力データ３５２に適用される場合がある。２つの畳み込みブロック３５４Ａ、３５４Ｂのみが示されているが、本開示はそのように限定しておらず、代わりに、設計上の選好に応じて、任意の数の畳み込みブロック（たとえば、ブロック３５４Ａ、３５４Ｂ）が深層畳み込みネットワーク３５０に含まれてもよい。正規化レイヤ３５８は、畳み込みフィルタの出力を正規化することができる。たとえば、正規化レイヤ３５８は、白色化または側方抑制を提供することができる。最大プーリングレイヤ３６０は、局所不変性および次元削減のために、空間にわたってダウンサンプリングアグリゲーションを提供することができる。

【0081】

[0097]たとえば、深層畳み込みネットワークの並列フィルタバンクは、高性能および低電力消費を実現するために、ＳＯＣ１００のＣＰＵ１０２またはＧＰＵ１０４にロードされる場合がある。代替実施形態では、並列フィルタバンクは、ＳＯＣ１００のＤＳＰ１０６またはＩＳＰ１１６にロードされてもよい。加えて、深層畳み込みネットワーク３５０は、それぞれ、センサおよびナビゲーションに専用のセンサプロセッサ１１４およびナビゲーションモジュール１２０などの、ＳＯＣ１００上に存在する場合がある他の処理ブロックにアクセスすることができる。

【0082】

[0098]深層畳み込みネットワーク３５０はまた、（「ＦＣ１」とラベル付けされた）レイヤ３６２Ａおよび（「ＦＣ２」とラベル付けされた）レイヤ３６２Ｂなどの１つまたは複数の全結合レイヤを含む場合がある。深層畳み込みネットワーク３５０は、ロジスティック回帰（ＬＲ）レイヤ３６４をさらに含む場合がある。深層畳み込みネットワーク３５０の各レイヤ３５６、３５８、３６０、３６２Ａ、３６２Ｂ、３６４の間には、更新されるべき重み（図示せず）がある。レイヤ（たとえば、３５６、３５８、３６０、３６２Ａ、３６２Ｂ、３６４）の各々の出力は、最初の畳み込みブロック３５４Ａにおいて供給された入力データ３５２（たとえば、画像、オーディオ、ビデオ、センサデータ、および／または他の入力データ）から階層特徴表現を学習するために、深層畳み込みネットワーク３５０内のレイヤ（たとえば、３５６、３５８、３６０、３６２Ａ、３６２Ｂ、３６４）のうちの後続の１つの入力として機能することができる。深層畳み込みネットワーク３５０の出力は、入力データ３５２についての分類スコア３６６である。分類スコア３６６は、確率のセットであり得、ここで、各確率は、入力データが特徴のセットからの特徴を含む確率である。

【0083】

[0099]上述されたように、デジタルビデオデータは大量のデータを含むことができ、それは、通信ネットワークならびにビデオデータを処理し記憶するデバイスにかなりの負担をかける可能性がある。たとえば、圧縮されていないビデオコンテンツを記録することは、概して、記録されるビデオコンテンツの解像度が増大するにつれて大幅に増加する大きいファイルサイズをもたらす。１つの例示的な例では、１０８０ｐ／２４（たとえば、２４フレーム毎秒でキャプチャされた幅が１９２０ピクセルで高さが１０８０ピクセルの解像度）で記録された圧縮されていないチャネル当たり１６ビットのビデオは、フレーム当たり１２．４メガバイトまたは毎秒２９７．６メガバイトを占有する場合がある。２４フレーム毎秒において４Ｋ解像度で記録された圧縮されていないチャネル当たり１６ビットのビデオは、フレーム当たり４９．８メガバイトまたは毎秒１１９５．２メガバイトを占有する場合がある。

【0084】

[0100]ネットワーク帯域幅は、大きいビデオファイルが問題になる可能性がある別の制約である。たとえば、ビデオコンテンツは、しばしば、ワイヤレスネットワークを介して（たとえば、ＬＴＥ、ＬＴＥアドバンスト、新無線（ＮＲ）、ＷｉＦｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ、または他のワイヤレスネットワークを介して）配信され、消費者のインターネットトラフィックの大部分を構成する可能性がある。ワイヤレスネットワークにおける利用可能な帯域幅の量の進歩にもかかわらず、これらのネットワークにおいてビデオコンテンツを配信するために使用される帯域幅の量を削減することが依然として望ましい場合がある。

【0085】

[0101]圧縮されていないビデオコンテンツは、物理記憶用のかなりのメモリと送信用のかなりの帯域幅とを要する場合がある大きいファイルをもたらす可能性があるので、そのようなビデオコンテンツを圧縮し、次いで解凍するためにビデオコーディング技法が利用され得る。

【0086】

[0102]ビデオコンテンツのサイズ、したがってビデオコンテンツを記憶するために要するストレージの量、およびビデオコンテンツを配信する際に要する帯域幅の量を削減するために、とりわけ、ＨＥＶＣ、ＡＶＣ、ＭＰＥＧ、ＶＶＣなどの特定のビデオコーディング規格に従って、様々なビデオコーディング技法が実行され得る。ビデオコーディングは、しばしば、ビデオ画像またはシーケンス内に存在する冗長構成を利用するインター予測またはイントラ予測などの予測方法を使用する。ビデオコーディング技法の共通の目標は、ビデオ品質の劣化を回避または最小化しながら、より低いビットレートを使用する形式にビデオデータを圧縮することである。ビデオサービスに対する需要が高まり、新しいビデオサービスが利用可能になるにつれて、より良いコーディング効率、性能、およびレート制御を有するコーディング技法が必要とされる。

【0087】

[0103]概して、符号化デバイスは、符号化ビデオビットストリームを生成するためにビデオコーディング規格に従ってビデオデータを符号化する。いくつかの例では、符号化ビデオビットストリーム（または「ビデオビットストリーム」または「ビットストリーム」）は、一連の１つまたは複数のコード化ビデオシーケンスである。符号化デバイスは、各ピクチャを複数のスライスに区分化することによってピクチャのコード化表現を生成することができる。スライスは、スライス内の情報が、同じピクチャ内の他のスライスからのデータへの依存関係なしにコード化されるように、他のスライスから独立している。スライスは、独立しているスライスセグメントを含む１つまたは複数のスライスセグメントと、存在する場合、前のスライスセグメントに依存する１つまたは複数の依存しているスライスセグメントとを含む。ＨＥＶＣでは、スライスは、ルーマサンプルおよびクロマサンプルのコーディングツリーブロック（ＣＴＢ）に区分化される。ルーマサンプルのＣＴＢおよびクロマサンプルの１つまたは複数のＣＴＢは、サンプル用のシンタックスとともに、コーディングツリーユニット（ＣＴＵ）と呼ばれる。ＣＴＵは、「ツリーブロック」または「最大コーディングユニット」（ＬＣＵ）と呼ばれる場合もある。ＣＴＵは、ＨＥＶＣ符号化のための基本処理単位である。ＣＴＵは、様々なサイズの複数のコーディングユニット（ＣＵ）に分割され得る。ＣＵは、コーディングブロック（ＣＢ）と呼ばれるルーマおよびクロマのサンプル配列を含んでいる。

【0088】

[0104]ルーマＣＢおよびクロマＣＢは、予測ブロック（ＰＢ）にさらに分割され得る。ＰＢは、（利用可能なとき、または使用のために有効にされたとき）インター予測またはイントラブロックコピー（ＩＢＣ）予測のために同じ動きパラメータを使用するルーマ成分またはクロマ成分のサンプルのブロックである。ルーマＰＢおよび１つまたは複数のクロマＰＢは、関連するシンタックスとともに、予測ユニット（ＰＵ）を形成する。インター予測の場合、動きパラメータのセット（たとえば、１つまたは複数の動きベクトル、参照インデックスなど）は、ＰＵごとにビットストリーム内でシグナリングされ、ルーマＰＢおよび１つまたは複数のクロマＰＢのインター予測のために使用される。動きパラメータは動き情報と呼ばれる場合もある。ＣＢはまた、１つまたは複数の変換ブロック（ＴＢ）に区分化され得る。ＴＢは、予測残差信号をコーディングするために残差変換（たとえば、場合によっては、同じ２次元変換）が適用される色成分のサンプルの正方形ブロックを表す。変換ユニット（ＴＵ）は、ルーマサンプルおよびクロマサンプルのＴＢと、対応するシンタックス要素とを表す。変換コーディングが以下でより詳細に記載される。

【0089】

[0105]ＨＥＶＣ規格によれば、変換はＴＵを使用して実行される場合がある。ＴＵは、所与のＣＵ内のＰＵのサイズに基づいてサイズ決定される場合がある。ＴＵは、ＰＵと同じサイズであるか、またはＰＵよりも小さい場合がある。いくつかの例では、ＣＵに対応する残差サンプルは、残差４分木（ＲＱＴ）として知られる４分木構造を使用して、より小さいユニットに再分割される場合がある。ＲＱＴのリーフノードはＴＵに対応することができる。ＴＵに関連付けられたピクセル差分値は、変換係数を生成するために変換される場合がある。変換係数は、次いで、符号化デバイスによって量子化される場合がある。

【0090】

[0106]ビデオデータのピクチャがＣＵに区分化されると、符号化デバイスは予測モードを使用して各ＰＵを予測する。予測ユニットまたは予測ブロックは、次いで、（以下に記載される）残差を得るために元のビデオデータから減算される。ＣＵごとに、シンタックスデータを使用してビットストリーム内で予測モードがシグナリングされる場合がある。予測モードは、イントラ予測（もしくはイントラピクチャ予測）またはインター予測（もしくはインターピクチャ予測）を含む場合がある。イントラ予測は、ピクチャ内の空間的に隣接するサンプル間の相関関係を利用する。たとえば、イントラ予測を使用して、各ＰＵは、たとえば、ＰＵに関する平均値を見つけるためのＤＣ予測、平坦面をＰＵに適合させるための平面予測、隣接データから外挿するための方向予測、または任意の他の適切なタイプの予測を使用して、同じピクチャ内の隣接する画像データから予測される。インター予測は、画像サンプルのブロックについての動き補償予測を導出するためにピクチャ間の時間的な相関関係を使用する。たとえば、インター予測を使用して、各ＰＵは、（出力順序で現在ピクチャの前または後の）１つまたは複数の参照ピクチャ内の画像データからの動き補償予測を使用して予測される。インターピクチャ予測を使用してピクチャエリアをコード化するべきか、イントラピクチャ予測を使用してピクチャエリアをコード化するべきかの決定は、たとえば、ＣＵレベルにおいて行われる場合がある。

【0091】

[0107]イントラ予測および／またはインター予測を使用して予測を実行した後に、符号化デバイスは、変換と量子化とを実行することができる。たとえば、予測の後に、符号化デバイスは、ＰＵに対応する残差値を計算することができる。残差値は、コーディングされているピクセルの現在ブロック（ＰＵ）と、現在ブロックを予測するために使用される予測ブロック（たとえば、現在ブロックの予測されたバージョン）との間のピクセル差分値を備えることができる。たとえば、予測ブロックを生成した（たとえば、インター予測またはイントラ予測を発行した）後に、符号化デバイスは、現在ブロックから予測ユニットによって生成された予測ブロックを減算することによって残差ブロックを生成することができる。残差ブロックは、現在ブロックのピクセル値と予測ブロックのピクセル値との間の差分を定量化するピクセル差分値のセットを含む。いくつかの例では、残差ブロックは、２次元ブロックフォーマット（たとえば、ピクセル値の２次元行列または２次元配列）で表される場合がある。そのような例では、残差ブロックはピクセル値の２次元表現である。

【0092】

[0108]予測が実行された後に残存している場合があるいずれの残差データも、離散コサイン変換、離散サイン変換、整数変換、ウェーブレット変換、他の適切な変換関数、またはそれらの任意の組合せに基づく場合があるブロック変換を使用して変換される。場合によっては、１つまたは複数のブロック変換（たとえば、サイズ３２×３２、１６×１６、８×８、４×４、または他の適切なサイズ）が各ＣＵにおける残差データに適用される場合がある。いくつかの実施形態では、ＴＵは、符号化デバイスによって実装される変換プロセスおよび量子化プロセスに使用される場合がある。１つまたは複数のＰＵを有する所与のＣＵはまた、１つまたは複数のＴＵを含む場合がある。以下でさらに詳細に記載されるように、残差値は、ブロック変換を使用して変換係数に変換される場合があり、次いで、エントロピーコーディング用のシリアル化変換係数を生成するために、ＴＵを使用して量子化および走査される場合がある。

【0093】

[0109]符号化デバイスは変換係数の量子化を実行することができる。量子化は、係数を表すために使用されるデータの量を低減するために変換係数を量子化することによってさらなる圧縮を提供する。たとえば、量子化は、係数の一部または全部に関連付けられたビット深度を低減することができる。一例では、ｎビット値を有する係数は、量子化中にｍビット値に切り捨てられる場合があり、ｎはｍよりも大きい。

【0094】

[0110]量子化が実行されると、コード化ビデオビットストリームは、量子化変換係数と、予測情報（たとえば、予測モード、動きベクトル、ブロックベクトルなど）と、区分化情報と、他のシンタックスデータなどの任意の他の適切なデータとを含む。コード化ビデオビットストリームの異なる要素は、次いで、符号化デバイスによってエントロピー符号化される場合がある。いくつかの例では、符号化デバイスは、量子化変換係数を走査してエントロピー符号化され得るシリアル化ベクトルを生成するために、あらかじめ定義された走査順序を利用することができる。いくつかの例では、符号化デバイスは適応型走査を実行することができる。ベクトル（たとえば、１次元ベクトル）を形成するために量子化変換係数を走査した後に、符号化デバイスは、ベクトルをエントロピー符号化することができる。たとえば、符号化デバイスは、コンテキスト適応型可変長コーディング、コンテキスト適応型バイナリ算術コーディング、シンタックスベースコンテキスト適応型バイナリ算術コーディング、確率間隔区分化エントロピーコーディング、または別の適切なエントロピー符号化技法を使用することができる。

【0095】

[0111]符号化デバイスは、符号化ビデオビットストリームを記憶することができ、および／または復号デバイスを含むことができる受信デバイスに通信リンクを介して符号化ビデオビットストリームデータを送ることができる。符号化デバイスは、（たとえば、エントロピーデコーダを使用して）エントロピー復号し、符号化ビデオデータを構成する１つまたは複数のコード化ビデオシーケンスの要素を抽出することにより、符号化ビデオビットストリームデータを復号することができる。復号デバイスは、次いで、符号化ビデオビットストリームデータを再スケーリングし、符号化ビデオビットストリームデータに対して逆変換を実行することができる。次いで、残差データが復号デバイスの予測段階に渡される。復号デバイスは、次いで、イントラ予測、インター予測、ＩＢＣ、および／または他のタイプの予測を使用してピクセルのブロック（たとえば、ＰＵ）を予測する。いくつかの例では、予測は逆変換の出力（残差データ）に加算される。復号デバイスは、ビデオ宛先デバイスに復号ビデオを出力することができ、ビデオ宛先デバイスは、コンテンツの消費者に復号ビデオデータを表示するためのディスプレイまたは他の出力デバイスを含む場合がある。

【0096】

[0112]様々なビデオコーディング規格（たとえば、上述されたＨＥＶＣビデオコーディング技法）によって定義されたビデオコーディングのシステムおよび技法は、未加工のビデオコンテンツ内の情報の大部分を保持することができる場合があり、信号処理および情報理論の概念に基づいてアプリオリに定義される場合がある。しかしながら、場合によっては、機械学習（ＭＬ）ベースの画像および／またはビデオシステムは、エンドツーエンドニューラルネットワークベースの画像およびビデオコーディング（Ｅ２Ｅ－ＮＮＶＣ）システムなどの、非ＭＬベースの画像およびビデオコーディングシステムと比べて利益を提供することができる。上述されたように、多くのＥ２Ｅ－ＮＮＶＣシステムは、オートエンコーダサブネットワーク（エンコーダサブネットワーク）、およびエントロピーコーディングに使用される量子化ラテント上で確率モデルを学習することに関与する第２のサブネットワークの組合せとして設計される。そのようなアーキテクチャは、変換プラス量子化モジュール（エンコーダサブネットワーク）およびエントロピーモデリングサブネットワークモジュールの組合せとして見ることができる。

【0097】

[0113]図４は、Ｅ２Ｅ－ＮＮＶＣシステム４１０を使用してビデオの符号化および復号を実行するように構成されたデバイス４０２を含むシステム４００を描写する。デバイス４０２は、カメラ４０７および記憶媒体４１４（たとえば、データストレージデバイス）に結合される。いくつかの実装形態では、カメラ４０７は、Ｅ２Ｅ－ＮＮＶＣシステム４１０によって符号化するためにプロセッサ４０４に画像データ４０８（たとえば、ビデオデータストリーム）を提供するように構成される。いくつかの実装形態では、デバイス４０２は、複数のカメラ（たとえば、デュアルカメラシステム、３つのカメラ、または他の数のカメラ）に結合され得、および／またはそれらを含むことができる。場合によっては、デバイス４０２は、マイクロフォンならびに／または他の入力デバイス（たとえば、キーボード、マウス、タッチスクリーンおよび／もしくはタッチパッドなどのタッチ入力デバイス、ならびに／または他の入力デバイス）に結合され得る。いくつかの例では、カメラ４０７、記憶媒体４１４、マイクロフォン、および／または他の入力デバイスは、デバイス４０２の一部であり得る。

【0098】

[0114]デバイス４０２はまた、１つもしくは複数のワイヤレスネットワーク、１つもしくは複数の有線ネットワーク、またはそれらの組合せなどの伝送媒体４１８を介して、第２のデバイス４９０に結合される。たとえば、伝送媒体４１８は、ワイヤレスネットワーク、有線ネットワーク、または有線ネットワークとワイヤレスネットワークの組合せによって提供されるチャネルを含むことができる。伝送媒体４１８は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなどのパケットベースネットワークの一部を形成することができる。伝送媒体４１８は、ルータ、スイッチ、基地局、またはソースデバイスから受信デバイスへの通信を容易にするために有用であり得る任意の他の機器を含む場合がある。ワイヤレスネットワークは、任意のワイヤレスインターフェースまたはワイヤレスインターフェースの組合せを含む場合があり、任意の適切なワイヤレスネットワーク（たとえば、インターネットまたは他のワイドエリアネットワーク、パケットベースネットワーク、ＷｉＦｉ、無線周波数（ＲＦ）、ＵＷＢ、ＷｉＦｉ－Ｄｉｒｅｃｔ、セルラー、ロングタームエボリューション（ＬＴＥ）、ＷｉＭａｘ（登録商標）など）を含む場合がある。有線ネットワークは、任意の有線インターフェース（たとえば、ファイバ、イーサネット（登録商標）、電力線イーサネット、同軸ケーブルを介したイーサネット、デジタル信号線（ＤＳＬ）など）を含む場合がある。有線および／またはワイヤレスのネットワークは、基地局、ルータ、アクセスポイント、ブリッジ、ゲートウェイ、スイッチなどの様々な機器を使用して実装される場合がある。符号化ビデオビットストリームデータは、ワイヤレス通信プロトコルなどの通信規格に従って変調され、受信デバイスに送信される場合がある。

【0099】

[0115]デバイス４０２は、メモリ４０６、第１のインターフェース（「Ｉ／Ｆ１」）４１２、および第２のインターフェース（「Ｉ／Ｆ２」）４１６に結合された（本明細書では「プロセッサ」と呼ばれる）１つまたは複数のプロセッサ４０４を含む。プロセッサ４０４は、カメラ４０７から、メモリ４０６から、および／または記憶媒体４１４から画像データ４０８を受け取るように構成される。プロセッサ４０４は、第１のインターフェース４１２を介して（たとえば、メモリバスを介して）記憶媒体４１４に結合され、第２のインターフェース４１６（たとえば、ネットワークインターフェースデバイス、ワイヤレストランシーバおよびアンテナ、１つもしくは複数の他のネットワークインターフェースデバイス、またはそれらの組合せ）を介して伝送媒体４１８に結合される。

【0100】

[0116]プロセッサ４０４はＥ２Ｅ－ＮＮＶＣシステム４１０を含む。Ｅ２Ｅ－ＮＮＶＣシステム４１０は、エンコーダ部分４６２とデコーダ部分４６６とを含む。いくつかの実装形態では、Ｅ２Ｅ－ＮＮＶＣシステム４１０は、１つまたは複数のオートエンコーダを含むことができる。エンコーダ部分４６２は、入力データ４７０を受け取り、入力データ４７０に少なくとも部分的に基づいて出力データ４７４を生成するために入力データ４７０を処理するように構成される。

【0101】

[0117]いくつかの実装形態では、Ｅ２Ｅ－ＮＮＶＣシステム４１０のエンコーダ部分４６２は、出力データ４７４を生成するために入力データ４７０の不可逆圧縮を実行するように構成され、その結果、出力データ４７４は入力データ４７０よりも少ないビットを有する。エンコーダ部分４６２は、任意の前の表現（たとえば、１つまたは複数の前に復元されたフレーム）に基づいて、動き補償を使用せずに入力データ４７０（たとえば、画像またはビデオフレーム）を圧縮するように訓練され得る。たとえば、エンコーダ部分４６２は、ビデオフレームを、そのビデオフレームからのビデオデータのみを使用し、前に復元されたフレームのいかなるデータも使用せずに圧縮することができる。エンコーダ部分４６２によって処理されるビデオフレームは、本明細書ではイントラ予測フレーム（Ｉフレーム）と呼ばれ得る。いくつかの例では、Ｉフレームは、旧来のビデオコーディング技法を使用して（たとえば、ＨＥＶＣ、ＶＶＣ、ＭＰＥＧ－４、または他のビデオコーディング規格に従って）生成され得る。そのような例では、プロセッサ４０４は、ＨＥＶＣ規格に関して上述されたものなどの、ブロックベースのイントラ予測を実行するように構成されたビデオコーディングデバイス（たとえば、符号化デバイス）を含むか、またはそれと結合される場合がある。そのような例では、Ｅ２Ｅ－ＮＮＶＣシステム４１０は、プロセッサ４０４から除外される場合がある。

【0102】

[0118]いくつかの実装形態では、Ｅ２Ｅ－ＮＮＶＣシステム４１０のエンコーダ部分４６２は、前の表現（たとえば、１つまたは複数の前に復元されたフレーム）に基づいて、動き補償を使用して入力データ４７０（たとえば、ビデオフレーム）を圧縮するように訓練され得る。たとえば、エンコーダ部分４６２は、ビデオフレームを、そのビデオフレームからのビデオデータを使用し、前に復元されたフレームのデータを使用して圧縮することができる。エンコーダ部分４６２によって処理されるビデオフレームは、本明細書ではイントラ予測フレーム（Ｐフレーム）と呼ばれ得る。動き補償は、前に復元されたフレームからのピクセルが残差情報とともに現在フレーム内の新しい位置にどのように移動するかを記述することにより、現在フレームのデータを決定するために使用され得る。

【0103】

[0119]図示されたように、Ｅ２Ｅ－ＮＮＶＣシステム４１０のエンコーダ部分４６２は、ニューラルネットワーク４６３と量子化器４６４とを含むことができる。ニューラルネットワーク４６３は、１つもしくは複数の畳み込みニューラルネットワーク（ＣＮＮ）、１つもしくは複数の全結合ニューラルネットワーク、１つもしくは複数のゲート付き再帰型ユニット（ＧＲＵ）、１つもしくは複数の長短期記憶（ＬＳＴＭ）ネットワーク、１つもしくは複数のＣｏｎｖＲＮＮ、１つもしくは複数のＣｏｎｖＧＲＵ、１つもしくは複数のＣｏｎｖＬＳＴＭ、１つもしくは複数のＧＡＮ、それらの任意の組合せ、および／または中間データ４７２を生成する他のタイプのニューラルネットワークアーキテクチャを含むことができる。中間データ４７２は量子化器４６４への入力である。エンコーダ部分４６２に含まれ得る構成要素の例が、図６Ａ～図６Ｅに示されている。

【0104】

[0120]量子化器４６４は、出力データ４７４を生成するために中間データ４７２の量子化と、場合によってはエントロピーコーディングとを実行するように構成される。出力データ４７４は、量子化（および場合によってはエントロピーコード化）データを含むことができる。量子化器４６４によって実行される量子化演算は、中間データ４７２から、量子化コード（またはＥ２Ｅ－ＮＮＶＣシステム４１０によって生成された量子化コードを表すデータ）の生成をもたらすことができる。量子化コード（または量子化コードを表すデータ）はまた、（ｚと表記された）ラテントコード（latent code）またはラテントと呼ばれ得る。ラテントに適用されるエントロピーモデルは、本明細書では「プライア（prior）」と呼ばれ得る。いくつかの例では、量子化および／またはエントロピーコーディング演算は、既存のビデオコーディング規格に従ってビデオデータを符号化および／または復号するときに実行される既存の量子化およびエントロピーコーディング演算を使用して実行され得る。いくつかの例では、量子化および／またはエントロピーコーディング演算は、Ｅ２Ｅ－ＮＮＶＣコーディングシステム４１０によって行われ得る。１つの例示的な例では、Ｅ２Ｅ－ＮＮＶＣシステム４１０は、教師あり訓練を使用して訓練され得、訓練中に残差データが入力として使用され、量子化コードおよびエントロピーコードが既知の出力（ラベル）として使用される。

【0105】

[0121]Ｅ２Ｅ－ＮＮＶＣシステム４１０のデコーダ部分４６６は、（たとえば、量子化器４６４から直接、および／または記憶媒体４１４から）出力データ４７４を受け取るように構成される。デコーダ部分４６６は、出力データ４７４に少なくとも部分的に基づいて入力データ４７０の表現４７６を生成するために、出力データ４７４を処理することができる。いくつかの例では、Ｅ２Ｅ－ＮＮＶＣシステム４１０のデコーダ部分４６６は、１つもしくは複数のＣＮＮ、１つもしくは複数の全結合ニューラルネットワーク、１つもしくは複数のＧＲＵ、１つもしくは複数の長短期記憶（ＬＳＴＭ）ネットワーク、１つもしくは複数のＣｏｎｖＲＮＮ、１つもしくは複数のＣｏｎｖＧＲＵ、１つもしくは複数のＣｏｎｖＬＳＴＭ、１つもしくは複数のＧＡＮ、それらの任意の組合せ、および／または他のタイプのニューラルネットワークアーキテクチャを含む場合があるニューラルネットワーク４６８を含む。デコーダ部分４６６に含まれ得る構成要素の例が、図６Ａ～図６Ｅに示されている。

【0106】

[0122]プロセッサ４０４は、伝送媒体４１８または記憶媒体４１４のうちの少なくとも１つに出力データ４７４を送るように構成される。たとえば、出力データ４７４は、復元データとして入力データ４７０の表現４７６を生成するためにデコーダ部分４６６による後の検索および復号（または復元）のために記憶媒体４１４において記憶される場合がある。復元データは、出力データ４７４を生成するために符号化／圧縮されたビデオデータの再生用などの様々な目的に使用され得る。いくつかの実装形態では、出力データ４７４は、復元データとして入力データ４７０の表現４７６を生成するために、（たとえば、デバイス４０２内の、第２のデバイス４９０内の、または別のデバイス内の）デコーダ部分４６６に一致する別のデコーダデバイスにおいて復号される場合がある。たとえば、第２のデバイス４９０は、デコーダ部分４６６に一致する（または実質的に一致する）デコーダを含む場合があり、出力データ４７４は、伝送媒体４１８を介して第２のデバイス４９０に送信される場合がある。第２のデバイス４９０は、復元データとして入力データ４７０の表現４７６を生成するために、出力データ４７４を処理することができる。

【0107】

[0123]システム４００の構成要素は、本明細書に記載された様々な動作を実行するために、１つもしくは複数のプログラマブル電子回路（たとえば、マイクロプロセッサ、グラフィックス処理装置（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、中央処理装置（ＣＰＵ）、および／または他の適切な電子回路）を含むことができる、電子回路もしくは他の電子ハードウェアを含むことができ、および／またはそれらを使用して実装され得、ならびに／あるいは、コンピュータソフトウェア、ファームウェア、もしくはそれらの任意の組合せを含むことができ、および／またはそれらを使用して実装され得る。

【0108】

[0124]システム４００はいくつかの構成要素を含むように示されているが、システム４００が図４に示された構成要素よりも多いかまたは少ない構成要素を含むことができることを当業者は諒解されよう。たとえば、システム４００はまた、入力デバイスと出力デバイス（図示せず）とを含むコンピューティングデバイスを含むことができるか、またはその一部であり得る。いくつかの実装形態では、システム４００はまた、１つもしくは複数のメモリデバイス（たとえば、１つもしくは複数のランダムアクセスメモリ（ＲＡＭ）構成要素、読取り専用メモリ（ＲＯＭ）構成要素、キャッシュメモリ構成要素、バッファ構成要素、データベース構成要素、および／もしくは他のメモリデバイス）、１つもしくは複数のメモリデバイスと通信している、および／またはそれらに電気的に接続された１つもしくは複数の処理デバイス（たとえば、１つもしくは複数のＣＰＵ、ＧＰＵ、および／もしくは他の処理デバイス）、ワイヤレス通信を実行するための（たとえば、ワイヤレスインターフェースごとに１つもしくは複数のトランシーバとベースバンドプロセッサとを含む）１つもしくは複数のワイヤレスインターフェース、１つもしくは複数のハードウェア接続を介した通信を実行するための１つもしくは複数の有線インターフェース（たとえば、ユニバーサルシリアルバス（ＵＳＢ）入力などのシリアルインターフェース、ライトニングコネクタ、および／もしくは他の有線インターフェース）、ならびに／または図４に示されていない他の構成要素を含むコンピューティングデバイスを含む場合があるか、もしくはその一部であり得る。

【0109】

[0125]いくつかの実装形態では、システム４００は、コンピューティングデバイスによって局所的に実装され、および／またはコンピューティングデバイスに含まれ得る。たとえば、コンピューティングデバイスは、モバイルデバイス、パーソナルコンピュータ、タブレットコンピュータ、仮想現実（ＶＲ）デバイス（たとえば、ヘッドマウントディスプレイ（ＨＭＤ）もしくは他のＶＲデバイス）、拡張現実（ＡＲ）デバイス（たとえば、ＨＭＤ、ＡＲグラス、もしくは他のＡＲデバイス）、ウェアラブルデバイス、（たとえば、サービスとしてのソフトウェア（ＳａａＳ）システムもしくは他のサーバベースシステム内の）サーバ、テレビジョン、および／または本明細書に記載された技法を実行するリソース能力を有する任意の他のコンピューティングデバイスを含むことができる。

【0110】

[0126]一例では、Ｅ２Ｅ－ＮＮＶＣシステム４１０は、プロセッサ４０４に結合され、プロセッサ４０４によって実行可能な命令を記憶するように構成されたメモリ４０６と、アンテナおよびプロセッサ４０４に結合され、リモートデバイスに出力データ４７４を送信するように動作可能なワイヤレストランシーバとを含むポータブル電子デバイスに組み込まれ得る。

【0111】

[0127]Ｅ２Ｅ－ＮＮＶＣシステムは、通常、ＲＧＢ入力を処理するように設計される。ＲＧＢ入力を対象にする画像およびビデオのコーディング方式の例は、（「Ｊ．ＢａｌｌｅＰａｐｅｒ」と呼ばれる）Ｊ．Ｂａｌｌｅ、Ｄ．Ｍｉｎｎｅｎ、Ｓ．Ｓｉｎｇｈ、Ｓ．Ｊ．Ｈｗａｎｇ、Ｎ．Ｊｏｈｎｓｔｏｎ、「Ｖａｒｉａｔｉｏｎａｌｉｍａｇｅｃｏｍｐｒｅｓｓｉｏｎｗｉｔｈａｓｃａｌｅｈｙｐｅｒｐｒｉｏｒ」、ＩＣＬＲ、２０１８年、および（「Ｄ．ＭｉｎｎｅｎＰａｐｅｒ」と呼ばれる）Ｄ．Ｍｉｎｎｅｎ、Ｊ．Ｂａｌｌｅ、Ｇ．Ｔｏｄｅｒｉｃｉ、「ＪｏｉｎｔＡｕｔｏｒｅｇｒｅｓｓｉｖｅａｎｄＨｉｅｒａｒｃｈｉｃａｌＰｒｉｏｒｓｆｏｒＬｅａｒｎｅｄＩｍａｇｅＣｏｍｐｒｅｓｓｉｏｎ」、ＣＶＰＲ、２０１８年に記載されており、それらの全体がすべての目的のために参照により本明細書に組み込まれている。

【0112】

[0128]図５は、Ｊ．ＢａｌｌｅＰａｐｅｒに記載されたＥ２Ｅ－ＮＮＶＣシステムの一例を示す図である。図５のＥ２Ｅ－ＮＮＶＣシステム内のｇ_aサブネットワークおよびｇ_sサブネットワークは、それぞれ、エンコーダサブネットワーク（たとえば、エンコーダ部分４６２）およびデコーダサブネットワーク（たとえば、デコーダ部分４６６）に対応する。図５のｇ_aサブネットワークおよびｇ_sサブネットワークは、３チャネルＲＧＢ入力向けに設計され、すべての３つのＲ入力チャネル、Ｇ入力チャネル、およびＢ入力チャネルは、同じニューラルネットワークレイヤ（畳み込みレイヤおよび一般化神経活動正規化（ＧＤＮ）レイヤ）を通過し、それらによって処理される。ニューラルネットワークレイヤは、畳み込み演算を実行する畳み込みレイヤと、局所神経活動正規化を実装する逆ＧＤＮ（ＩＧＤＮ）非線形レイヤとを含むことができる。局所神経活動正規化は、特に画像の密度モデリングおよび圧縮に適切であるように示された変換のタイプである。（図５に示されたものなどの）Ｅ２Ｅ－ＮＮＶＣシステムは、ＲＧＢデータなどの同様の統計特性を有する入力チャネルを対象とする（ここで、異なるＲチャネル、Ｇチャネル、およびＢチャネルの統計特性は同様である）。

【0113】

[0129]Ｅ２Ｅ－ＮＮＶＣシステムは、通常、ＲＧＢ入力を処理するように設計されるが、ほとんどの画像およびビデオのコーディングシステムは、ＹＵＶ入力フォーマット（たとえば、多くの場合ＹＵＶ４２０フォーマット）を使用する。ＹＵＶフォーマットにおけるクロミナンス（ＵおよびＶ）チャネルは、ルミナンス（Ｙ）チャネルに対してサブサンプリングされ得る。サブサンプリングは視覚的品質に対して最小の影響しかもたらさない（たとえば、視覚的品質に対して重要または顕著な影響がない）。サブサンプリングフォーマットには、ＹＵＶ４２０フォーマット、ＹＵＶ４２２フォーマット、および／または他のＹＵＶフォーマットが含まれる。チャネル間の相関関係はＹＵＶフォーマットでは低減され、それは他の色フォーマット（たとえば、ＲＧＢフォーマット）には当てはまらない場合がある。さらに、ルミナンス（Ｙ）チャネルならびにクロミナンス（ＵおよびＶ）チャネルの統計値は異なる。たとえば、ＵチャネルおよびＶチャネルはルミナンスチャネルと比較してばらつきが少ないが、たとえば、ＲＧＢフォーマットは、Ｒチャネル、Ｇチャネル、およびＢチャネルの統計特性はよく似ている。ビデオコーダ－デコーダ（またはコーデック）は、データの入力特性に応じて設計される（たとえば、コーデックはデータの入力フォーマットに従ってデータを符号化および／または復号することができる）。たとえば、フレームのクロミナンスチャネルがサブサンプリングされる場合（たとえば、クロミナンスチャネルはルミナンスチャネルと比較して半分の解像度である）、コーデックが動き補償のためにフレームのブロックを予測するとき、ルミナンスブロックは、クロミナンスブロックと比較して幅と高さの両方で２倍の大きさである。別の例では、コーデックは、とりわけ、クロミナンスおよびルミナンスに対してどのくらいのピクセルが符号化または復号されようとするかを決定することができる。

【0114】

[0130]（上述されたように、ほとんどのＥ２Ｅ－ＮＮＶＣシステムが処理するように設計される）ＲＧＢ入力データが（すべてのチャネルが同じ次元を有する）ＹＵＶ４：４：４入力データと置き換えられた場合、入力データを処理するＥ２Ｅ－ＮＮＶＣシステムの性能は、ルミナンス（Ｙ）チャネルならびにクロミナンス（ＵおよびＶ）チャネルの異なる統計特性に起因して低下する。上述されたように、クロミナンス（ＵおよびＶ）チャネルは、ＹＵＶ４２０の場合などのいくつかのＹＵＶフォーマットでサブサンプリングされる。たとえば、ＹＵＶ４：２：０フォーマットを有するコンテンツの場合、ＵチャネルおよびＶチャネルの解像度は、Ｙチャネルの解像度の半分である（ＵチャネルおよびＶチャネルは、幅および高さが半分であることに起因して、Ｙチャネルの４分の１のサイズを有する）。そのようなサブサンプリングは、入力データをＥ２Ｅ－ＮＮＶＣシステムの入力と互換性がないようにする可能性がある。入力データは、Ｅ２Ｅ－ＮＮＶＣシステムが符号化および／または復号しようと試みている情報（たとえば、ルミナンス（Ｙ）チャネルとクロミナンス（ＵおよびＶ）チャネルとを含む３つのチャネルを含むＹＵＶフレーム）である。多くのニューラルネットワークベースのシステムは、入力データのすべてのチャネル次元が同じであると想定し、したがって入力チャネルのすべてを同じネットワークに供給する。そのような場合、いくつかの演算の出力が（たとえば、行列加算を使用して）加算され得、その場合、チャネルの次元は同じである必要がある。

【0115】

[0131]いくつかの例では、そのような問題に対処するために、Ｙチャネルは、４つの半分の解像度のＹチャネルにサブサンプリングされ得る。４つの半分の解像度のＹチャネルは、２つのクロミナンスチャネルと結合され得、６つの入力チャネルをもたらす。６つの入力チャネルは、ＲＧＢ入力向けに設計されたＥ２Ｅ－ＮＮＶＣシステムに入力または供給され得る。そのような手法は、ルミナンス（Ｙ）チャネルならびにクロミナンス（ＵおよびＶ）チャネルの解像度の違いに関する問題に対処することができる。しかしながら、ルミナンス（Ｙ）チャネルとクロミナンス（ＵおよびＶ）チャネルとの間の固有の違いが依然として存在し、不十分なコーディング（たとえば、符号化および／または復号）性能をもたらす。

【0116】

[0132]上述されたように、１つまたは複数のＭＬベースのシステムを使用して画像および／またはビデオのコーディングを実行するためのシステムおよび技法が本明細書に記載されている。本明細書に記載されたシステムおよび技法は、ルミナンス－クロミナンス（ＹＵＶ）入力フォーマット（たとえば、とりわけ、ＹＵＶ４２０、ＹＵＶ４４４、ＹＵＶ４２２）を有する入力データを処理するために設計されたフロントエンドアーキテクチャ（たとえば、エンドツーエンドニューラルネットワークベース画像およびビデオコーディング（Ｅ２Ｅ－ＮＮＶＣ）システムなどの新しいサブネットワーク）を提供する。いくつかの例では、フロントエンドアーキテクチャは、ＲＧＢ入力フォーマット向けに設計されたＥ２Ｅ－ＮＮＶＣにおいてＹＵＶ４：２：０入力フォーマットに適応するように構成される。上述されたように、フロントエンドアーキテクチャは、（たとえば、Ｊ．ＢａｌｌｅＰａｐｅｒおよびＤ．ＭｉｎｎｅｎＰａｐｅｒに記載されたアーキテクチャを含む）多くのＥ２Ｅ－ＮＮＶＣアーキテクチャに適用可能である。本明細書に記載されたシステムおよび技法は、ルミナンス（Ｙ）チャネルとクロミナンス（ＵおよびＶ）チャネルの異なる特性、ならびにルミナンス（Ｙ）チャネルとクロミナンス（ＵおよびＶ）チャネルの解像度における違いを考慮する。Ｅ２Ｅ－ＮＮＶＣシステムは、スタンドアロンフレーム（もしくは画像）および／または複数のフレームを含むビデオデータを符号化および／または復号することができる。

【0117】

[0133]いくつかの例では、本明細書に記載されたシステムおよび技法は、最初に、ＹチャネルとＵＶチャネルとを２つの分離されたレイヤに入力または供給することができる。Ｅ２Ｅ－ＮＮＶＣシステムは、次いで、一定数のレイヤの後に（たとえば、以下に記載される図６Ａ～図６Ｅに示されたように、畳み込みレイヤと非線形レイヤの第１のペアまたは他のレイヤの後に）、ＹチャネルおよびＵＶチャネルに関連付けられたデータを結合することができる。ＵおよびＶのクロマ成分はルミナンス（Ｙ）チャネルに対してサブサンプリングされるので、第１の畳み込みレイヤにおけるサブサンプリングはスキップされ得、（たとえば、（Ｎ／２＋１）×（Ｎ／２＋１）のサイズを有する）特定のサイズの畳み込み（たとえば、ＣＮＮ）カーネルは、クロミナンス（ＵおよびＶ）チャネルへのサブサンプリングされた入力に使用され得る。次いで、クロミナンス（ＵおよびＶ）チャネルに使用されるカーネルと比較して異なるサイズを有するＣＮＮカーネル（たとえば、Ｎ×ＮのＣＮＮカーネル）がルミナンス（Ｙ）チャネルに使用され得る。フロントエンドアーキテクチャの（ルーマチャネルおよびクロマチャネルまたは成分情報を別々に搬送する）２つの分岐は、チャネルにわたって値を結合する畳み込みレイヤ（たとえば、１×１畳み込みレイヤ）を使用して結合され得る。１×１畳み込みレイヤの使用は、コーディング効率の向上を含む本明細書に記載された様々な恩恵を提供することができる。

【0118】

[0134]図６Ａ～図６Ｆは、ニューラルネットワークシステムのフロントエンドアーキテクチャの例示的な例を示す。いくつかの例では、図６Ａ～図６Ｆのフロントエンドアーキテクチャは、ＹＵＶ４：２：０フォーマットを有するデータを処理（符号化および／または復号）するために設計されたＥ２Ｅ－ＮＮＶＣシステムの一部であり得る。たとえば、フロントエンドアーキテクチャは、ＹＵＶ４：２：０フォーマットを有する入力データを処理するために構成され得る。図６Ａ、図６Ｃ、図６Ｄ、および図６Ｅのフロントエンドアーキテクチャは、１×１畳み込みレイヤの後に適用される２つの異なる非線形演算子を有する。たとえば、一般化神経活動正規化（ＧＤＮ）演算子は、図６Ａのアーキテクチャにおいて使用され、パラメトリック整流線形ユニット（ＰＲｅＬＵ）非線形演算子は、図６Ｃ～図６Ｅのアーキテクチャにおいて適用される。いくつかの例では、図６Ａおよび図６Ｃ～図６Ｆに示されたものと同様のニューラルネットワークアーキテクチャが、他のタイプのＹＵＶコンテンツ（たとえば、ＹＵＶ４：４：４フォーマット、ＹＵＶ４：２：２フォーマットなどを有するコンテンツ）および／または他の入力フォーマットを有するコンテンツを符号化および／または復号するために使用され得る。

【0119】

[0135]たとえば、図６Ａは、４：２：０入力（Ｙ、Ｕ、およびＶ）データと直接連携するように構成され得るフロントエンドニューラルネットワークシステムまたはアーキテクチャの一例を示す図である。図６Ａに示されたように、ニューラルネットワークシステムのエンコーダサブネットワークにおいて、分岐されたルーマチャネルおよびクロマチャネル（ルーマ（Ｙ）チャネル６０２ならびにクロマ（ＵおよびＶ）チャネル６０４）は、１×１畳み込みレイヤ６０６を使用して結合され、次いで、ＧＤＮ非線形演算子６０８が適用される。ニューラルネットワークシステムのデコーダサブネットワーク上で同様の演算が実行されるが、逆の順序である。たとえば、図６Ａに示されたように、逆ＧＤＮ（ＩＧＤＮ）演算子６０９が適用され、ＹチャネルおよびＵ、Ｖチャネルが１×１畳み込みレイヤ６１３を使用して分離され、別々のＹチャネルおよびＵ、Ｖチャネルが、それぞれのＩＧＤＮ６１５、６１６および畳み込みレイヤ６１７、６１８を使用して処理される。

【0120】

[0136]たとえば、図６Ａのニューラルネットワークシステムのエンコーダサブネットワーク内の最初の２つのニューラルネットワークレイヤは、（Ｎｃｏｎｖ｜３×３｜↓１と表記された）第１の畳み込みレイヤ６１１と、（Ｎｃｏｎｖ｜５×５｜↓２と表記された）第２の畳み込みレイヤ６１０と、第１のＧＤＮレイヤ６１４と、第２のＧＤＮレイヤ６１２とを含む。図６Ａのフロントエンドニューラルネットワークアーキテクチャのデコーダサブネットワーク内の最後の２つのニューラルネットワークレイヤは、フレームの復元クロミナンス（ＵおよびＶ）成分を生成するための第１の逆ＧＤＮ（ＩＧＤＮ）レイヤ６１６と、第２の逆ＧＤＮ（ＩＧＤＮ）レイヤ６１５と、（２ｃｏｎｖ｜３×３｜↑１と表記された）第１の畳み込みレイヤ６１８と、フレームの復元ルミナンス（Ｙ）成分を生成するための（１ｃｏｎｖ｜５×５｜↑２と表記された）第２の畳み込みレイヤ６１７とを含む。「Ｎｃｏｎｖ」という表記法は、（出力チャネルの数を定義するＮの値を有する）所与の畳み込みレイヤの（出力特徴の数に対応する）出力チャネルの数（Ｎ）を指す。３×３および５×５という表記法は、それぞれの畳み込みカーネル（たとえば、３×３カーネルおよび５×５カーネル）のサイズを示す。「↓１」および「↓２」という表記法はストライド値を指し、ここで↓１は（「↓」によって示されたダウンサンプリング用の）１のストライドを指し、↓２は（ダウンサンプリング用の）１のストライドを指す。「↑１」および「↑２」という表記法はストライド値を指し、ここで↑１は（「↑」によって示されたアップサンプリング用の）１のストライドを指し、↑２は（アップサンプリング用の）１のストライドを指す。

【0121】

[0137]たとえば、畳み込みレイヤ６１０は、２のストライド値によって水平次元および垂直次元の５×５畳み込みフィルタを適用することにより、入力ルーマチャネルを４倍にダウンサンプリングする。畳み込みレイヤ６１０の結果として得られた出力は、特徴値の（Ｎ個のチャネルに対応する）Ｎ個の配列である。畳み込みレイヤ６１１は、１のストライド値によって水平次元および垂直次元の３×３畳み込みフィルタを適用することにより、入力クロマ（ＵおよびＶ）チャネル６０４を処理する。畳み込みレイヤ６１１の結果として得られた出力は、特徴値の（Ｎ個のチャネルに対応する）Ｎ個の配列である。畳み込みレイヤ６１０によって出力された特徴値の配列は、畳み込みレイヤ６１１によって出力された特徴値の配列と同じ次元を有する。次いで、ＧＤＮレイヤ６１２は、畳み込みレイヤ６１０によって出力された特徴値を処理することができ、ＧＤＮレイヤ６１４は、畳み込みレイヤ６１１によって出力された特徴値を処理することができる。

【0122】

[0138]次いで、１×１畳み込みレイヤ６０６は、ＧＤＮレイヤ６１２、６１４によって出力された特徴値を処理することができる。１×１畳み込みレイヤ６０６は、ルーマチャネル６０２およびクロマチャネル６０４に関連付けられた特徴の線形結合を生成することができる。線形結合演算は、Ｙ成分およびＵＶ成分の値当たりのクロスチャネル混合として動作し、コーディング性能を向上させるクロス成分（たとえば、クロス－ルミナンスおよびクロミナンス成分）の予測をもたらす。１×１畳み込みレイヤ６０６の各１×１畳み込みフィルタは、ルーマチャネル６０２の対応するＮ番目のチャネルおよびクロマチャネル６０４の対応するＮ番目のチャネルに適用されるそれぞれのスケーリングファクタを含むことができる。

【0123】

[0139]図６Ｂは、１×１畳み込みレイヤ６３８の例示的な動作を示す図である。上述されたように、Ｎは出力チャネルの数を表す。図６Ｂに示されたように、Ｎ個のチャネルクロマ（結合されたＵおよびＶ）出力６３２とＮ個のチャネルルーマ（Ｙ）出力６３４とを含む、２Ｎ個のチャネルが１×１畳み込みレイヤ６３８への入力として提供される。図６Ｂの例では、Ｎの値は２に等しく、Ｎ個のチャネルクロマ出力６３２用の値の２つのチャネルと、Ｎ個のチャネルルーマ出力６３４用の値の２つのチャネルとを示す。図６Ａを参照すると、Ｎ個のチャネルクロマ出力６３２はＧＤＮレイヤ６１４からの出力であり得、Ｎ個のチャネルルーマ出力６３４はＧＤＮレイヤ６１２からの出力であり得る。しかしながら、他の例では、Ｎ個のチャネルクロマ出力６３２およびＮ個のチャネルルーマ出力６３４は、他の非線形レイヤから（たとえば、図６ＤのそれぞれｐＲｅＬＵレイヤ６５２および６５４から、図６ＥのそれぞれｐＲｅＬＵレイヤ６６２および６６４から）の出力、または直接畳み込みレイヤからの出力（たとえば、図６Ｆのそれぞれ畳み込みレイヤ６７０および６７１からの出力）であり得る。

【0124】

[0140]１×１畳み込みレイヤ６３８は、２Ｎ個のチャネルを処理し、２Ｎ個のチャネルの特徴別線形結合を実行し、次いで、特徴または係数のＮ個のチャネルセットを出力する。１×１畳み込みレイヤ６３８は、（Ｎ＝２に基づいて）２つの１×１畳み込みフィルタを含む。第１の１×１畳み込みフィルタはＳ₁の値で示され、第２の１×１畳み込みフィルタはＳ₂の値で示されている。Ｓ₁の値は第１のスケーリングファクタを表し、Ｓ₂の値は第２のスケーリングファクタを表す。１つの例示的な例では、Ｓ₁の値は３に等しく、Ｓ₂の値は４に等しい。１×１畳み込みレイヤ６３８の１×１畳み込みフィルタの各々は１のストライド値を有し、スケーリングファクタＳ₁およびＳ₂がＵＶ出力６３２およびＹ出力６３４における各値に適用されることを示す。

【0125】

[0141]たとえば、第１の１×１畳み込みフィルタのスケーリングファクタＳ₁は、ＵＶ出力６３２の第１のチャネル（Ｃ１）内の各値およびＹ出力６３４の第１のチャネル（Ｃ１）内の各値に適用される。ＵＶ出力６３２の第１のチャネル（Ｃ１）の各値およびＹ出力６３４の第１のチャネル（Ｃ１）の各値が第１の１×１畳み込みフィルタのスケーリングファクタＳ₁によってスケーリングされると、スケーリング値は出力値６３９の第１のチャネル（Ｃ１）に結合される。第２の１×１畳み込みフィルタのスケーリングファクタＳ₂は、ＵＶ出力６３２の第２のチャネル（Ｃ２）内の各値およびＹ出力６３４の第２のチャネル（Ｃ２）内の各値に適用される。ＵＶ出力６３２の第２のチャネル（Ｃ２）の各値およびＹ出力６３４の第２のチャネル（Ｃ２）の各値が第２の１×１畳み込みフィルタのスケーリングファクタＳ₂によってスケーリングされた後、スケーリング値は出力値６３９の第２のチャネル（Ｃ２）に結合される。結果として、４つのＹおよびＵＶチャネル（２つのＹチャネルおよび２つの結合ＵＶチャネル）は混合され、２つの出力チャネルＣ１およびＣ２に結合される。

【0126】

[0142]図６Ａに戻ると、１×１畳み込みレイヤ６０６の出力は、エンコーダサブネットワークの追加のＧＤＮレイヤおよび追加の畳み込みレイヤによって処理される。量子化エンジン６２０は、量子化出力を生成するために、エンコーダサブネットワークの最後のニューラルネットワークレイヤ６１９によって出力された特徴に対して量子化を実行することができる。エントロピー符号化エンジン６２１は、ビットストリームを生成するために、量子化エンジン６２０からの量子化出力をエントロピー符号化することができる。図６Ａに示されたように、エントロピー符号化エンジン６２１は、エントロピー符号化を実行するためにハイパープライアネットワークによって生成されたプライアを使用することができる。ニューラルネットワークシステムは、格納のため、別のデバイス、サーバデバイス、もしくはサーバシステムへの送信のためにビットストリームを出力し、および／またはそうでない場合、ビットストリームを出力することができる。

【0127】

[0143]ニューラルネットワークシステムのデコーダサブネットワークまたは（別のデバイスの）別のニューラルネットワークシステムのデコーダサブネットワークは、ビットストリームを復号することができる。たとえば、図６Ａに示されたように、デコーダサブネットワークのエントロピー復号エンジン６２２は、ビットストリームをエントロピー復号し、エントロピー復号データを逆量子化エンジン６２３に出力することができる。エントロピー復号エンジン６２２は、図６Ａに示されたように、エントロピー復号を実行するためにハイパープライアネットワークによって生成されたプライアを使用することができる。逆量子化エンジン６２３は、データを逆量子化することができる。逆量子化データは、デコーダサブネットワークのいくつかの畳み込みレイヤおよびいくつかの逆ＧＤＮ（ＩＧＤＮ）によって処理され得る。

【0128】

[0144]ＩＧＤＮレイヤ６０９によって処理された後、１×１畳み込みレイヤ６１３がデータを処理することができる。１×１畳み込みレイヤ６１３は、データをＹチャネル特徴および結合ＵＶチャネル特徴に分割することができる２Ｎ個の畳み込みフィルタを含むことができる。たとえば、ＩＧＤＮレイヤ６０９によって出力されたＮ個のチャネルの各々は、１×１畳み込みレイヤ６１３の（スケーリングをもたらす）２Ｎ個の１×１畳み込みを使用して処理され得る。Ｎ個の入力チャネルに適用される（合計２Ｎ個の出力チャネルからの）出力チャネルに対応するスケーリングファクタｎ_iごとに、デコーダサブネットワークは、Ｎ個の入力チャネルにわたって合計を実行することができ、２Ｎ個の出力をもたらす。１つの例示的な例では、スケーリングファクタｎ₁の場合、デコーダサブネットワークは、Ｎ個の入力チャネルにスケーリングファクタｎ₁を適用することができ、結果を合計することができ、それにより、１つの出力チャネルがもたらされる。デコーダサブネットワークは、２Ｎ個の異なるスケーリングファクタ（たとえば、スケーリングファクタｎ₁、スケーリングファクタｎ₂、スケーリングファクタｎ_2Nまで）についてこの演算を実行することができる。

【0129】

[0145]１×１畳み込みレイヤ６１３によって出力されたＹチャネル特徴は、ＩＧＤＮ６１５によって処理され得る。１×１畳み込みレイヤ６１３によって出力された結合ＵＶチャネル特徴は、ＩＧＤＮ６１６によって処理され得る。畳み込みレイヤ６１７は、Ｙチャネル特徴を処理し、復元Ｙ成分６２４として示された、ピクセル当たりの復元Ｙチャネルまたは復元フレームのサンプル（たとえば、ルミナンスサンプルもしくはピクセル）を出力することができる。畳み込みレイヤ６１８は、結合ＵＶチャネル特徴を処理し、復元ＵおよびＶ成分６２５として示された、ピクセル当たりの復元Ｕチャネルまたは復元フレームのサンプル（たとえば、クロミナンス青サンプルもしくはピクセル）およびピクセル当たりの復元Ｖチャネルまたは復元フレームのサンプル（たとえば、クロミナンス赤サンプルもしくはピクセル）を出力することができる。

【0130】

[0146]図６Ｃは、４：２：０入力（Ｙ、Ｕ、およびＶ）入力データと直接動作するように構成され得るフロントエンドニューラルネットワークシステムまたはアーキテクチャの別の例を示す図である。図６Ｃに示されたように、ニューラルネットワークシステムのエンコーダサブネットワークにおいて、分岐されたルーマチャネルおよびクロマチャネル（ルーマチャネル６４２およびクロマチャネル６４４）は、（図６Ａの１×１畳み込みレイヤ６０６に関して上述されたのと同様に）１×１畳み込みレイヤ６４８を使用して結合され、次いで、ｐＲｅＬＵ非線形演算子６４９が適用される。他の例では、ｐＲｅＬＵ非線形演算子以外の演算子が適用され得る。（図６Ａに関して上述されたのと同様に）図６Ｃのニューラルネットワークシステムのデコーダサブネットワークによって同様の演算が実行されるが、逆の順序である（たとえば、ｐＲｅＬＵ演算子が適用され、１×１畳み込みレイヤを使用してＹチャネルおよびＵ、Ｖチャネルが分離され、それぞれ逆ＩＧＤＮレイヤおよび畳み込みレイヤを使用して別々のＹチャネルおよびＵ、Ｖチャネルが処理される）。

【0131】

[0147]図５に記載されたＥ２Ｅ－ＮＮＶＣシステム（ニューラルネットワークベースのコーデック）と比較して、図６Ａおよび図６Ｃのフロントエンドアーキテクチャの入力処理は、（エンコーダ側の）ｇ_aおよび（デコーダ側の）対応するｇ_sにおける最初の２つのネットワークレイヤ内のＹチャネルおよびＵＶチャネルの別個の処理によって修正される。Ｙ成分を処理するために使用される、Ｎｃｏｎｖ｜５ｘ５｜↓２と表記された最初の畳み込みレイヤ（たとえば、図６Ａの畳み込みレイヤ６１０および図６Ｃの畳み込みレイヤ６４６）は、図５の最初の畳み込みレイヤ５１０と同じかまたは同様であり得る。同様に、復元ルミナンス（Ｙ）成分を生成するために使用される、図６Ａおよび図６Ｃのデコーダサブネットワークの（１ｃｏｎｖ｜５ｘ５｜↑２と表記された）２番目の畳み込みレイヤは、図５のシステム内のデコーダサブネットワークｇ_sの最後の畳み込みレイヤと同じかまたは同様であり得る。図５のシステムとは異なり、ＵおよびＶクロマチャネルは、その後に特定のＧＤＮレイヤ（ルミナンスＹ用の１つのＧＤＮレイヤならびにクロミナンスＵおよびＶ用の１つのＧＤＮレイヤ）が続く、図６ＡのＮｃｏｎｖ｜５ｘ５｜↓２畳み込みレイヤ６１０または図６ＣのＮｃｏｎｖ｜５ｘ５｜↓２畳み込みレイヤ６４６のＹカーネルの半分のサイズを有する（１に等しいストライドに対応するダウンサンプリングがない）カーネルを有する、Ｎｃｏｎｖ｜３ｘ３｜↓１と表記された別個の畳み込みレイヤ（たとえば、図６Ａの畳み込みレイヤ６１１または図６Ｃの畳み込みレイヤ６４７などの別個のＣＮＮ）を使用して、図６Ａおよび図６Ｃのアーキテクチャによって処理される。

【0132】

[0148]図６Ａおよび図６Ｃの畳み込みレイヤ（ＣＮＮの第１のペアＮｃｏｎｖ｜５ｘ５｜↓２レイヤおよびＮｃｏｎｖ｜３ｘ３｜↓１レイヤ）ならびにＧＤＮレイヤの後に、ルミナンス（Ｙ）チャネルならびにクロミナンス（ＵおよびＶ）チャネル（たとえば、入力チャネルの変換バージョンまたはフィルタリングバージョン）の表現および特徴は、同じ次元を有し、次いで、図６Ａの１×畳み込みレイヤ６０６または図６Ｃの１×畳み込みレイヤ６４８を使用して結合される。たとえば、ルミナンス（Ｙ）チャネルは、ＹＵＶ４：２：０フォーマットにおいて、各次元でクロミナンス（ＵおよびＶ）チャネルの２倍のサイズである。クロミナンス（ＵおよびＶ）チャネルが２によってサブサンプリングされると、それらのチャネルを処理することに基づいて生成された出力は、（ルミナンスチャネルはサブサンプリングされないので）ルミナンスチャネルのｃｏｎｖ２ｄ出力と同じ次元になる。チャネルの別個の正規化は、ルミナンスチャネルとクロミナンスチャネルのばらつきにおける違いに対処する。上述されたように、次いで、量子化ステップに到達するまで３つ以上の畳み込みレイヤを使用する前に（たとえば、ＧＤＮ６０８またはｐＲｅＬＵ６４９を使用して）非線形演算子が適用される。

【0133】

[0149]図６Ａおよび図６Ｃのアーキテクチャのデコーダサブネットワークでは、復元ルミナンス（Ｙ）成分と復元クロミナンス（ＵおよびＶ）成分とを別々に生成するために、別個のＩＧＤＮレイヤおよび畳み込みレイヤが使用される。たとえば、復元クロミナンス（ＵおよびＶ）成分６２５を生成するために使用される図６Ａの畳み込みレイヤ６１８（デコーダサブネットワークの２ｃｏｎｖ｜３ｘ３｜↑１レイヤ）は、復元ルミナンス（Ｙ）成分６２４を生成するために使用される畳み込みレイヤ６１７（デコーダサブネットワークの１ｃｏｎｖ｜５ｘ５｜↑２レイヤ）内で使用されるカーネルの約半分のサイズである（１に等しいストライドに対応するアップサンプリングがない）カーネルサイズを有する。

【0134】

[0150]図６Ｄは、４：２：０入力（Ｙ、Ｕ、およびＶ）入力データと直接動作するように構成され得るフロントエンドニューラルネットワークアーキテクチャの別の例を示す図である。図６Ｄに示されたように、エンコーダ側において、分岐されたルーマチャネルおよびクロマチャネルは、１×１畳み込みレイヤを使用して結合され、次いで、ｐＲｅＬＵ非線形演算子が適用される。図６Ａおよび図６Ｃに示されたアーキテクチャと比較して、ルーマ分岐およびクロマ分岐におけるＧＤＮレイヤは、ｐＲｅＬＵ演算子と置き換えられている。

【0135】

[0151]図６Ｅは、４：２：０入力（Ｙ、Ｕ、およびＶ）入力データと直接動作するように構成され得るフロントエンドニューラルネットワークアーキテクチャの別の例を示す図である。図６Ｅに示されたように、エンコーダ側において、分岐されたルーマチャネルおよびクロマチャネルは、１×１畳み込みレイヤを使用して結合され、次いで、ｐＲｅＬＵ非線形演算子が適用される。図６Ａ、図６Ｃ、および図６Ｄに示されたアーキテクチャと比較して、図６ＥのアーキテクチャのすべてのＧＤＮレイヤは、ｐＲｅＬＵ演算子と置き換えられている
[0152]図６Ｆは、４：２：０入力（Ｙ、Ｕ、およびＶ）入力データと直接動作するように構成され得るフロントエンドニューラルネットワークアーキテクチャの別の例を示す図である。図６Ｆに示されたように、エンコーダ側において、分岐されたルーマチャネルおよびクロマチャネルは、１×１畳み込みレイヤを使用して結合される。図６Ａ～図６Ｅに示されたアーキテクチャと比較して、すべてのＧＤＮレイヤは完全に取り除かれ、畳み込みレイヤ間で非線形活性化演算子は使用されない。

【0136】

[0153]図６Ｃ～図６Ｆに示されたニューラルネットワークアーキテクチャ設計は、（たとえば、図６Ｃのアーキテクチャに示されたように）ＧＤＮレイヤを減らすか、または（たとえば、図６Ｅおよび図６Ｆのアーキテクチャに示されたように）ＧＤＮレイヤを完全に取り除くために使用され得る。

【0137】

[0154]いくつかの例では、本明細書に記載されたシステムおよび技法は、畳み込み（たとえば、ＣＮＮ）を使用する他のエンコーダ－デコーダサブネットワーク、およびニューラルネットワークベースのコーディングシステムの入力における正規化段階の結合に使用され得る。

【0138】

[0155]図７は、本明細書に記載された機械学習技法のうちの１つまたは複数を使用してビデオを処理するプロセス７００の一例を示すフローチャートである。ブロック７０２において、プロセス７００は、ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値を生成することを含む。

【0139】

[0156]ブロック７０４において、プロセス７００は、エンコーダサブネットワークの第２の畳み込みレイヤにより、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成することを含む。ブロック７０６において、プロセス７００は、第３の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値およびフレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値に基づいて、フレームの結合表現を生成することを含む。場合によっては、第３の畳み込みレイヤは、１つまたは複数の１×１畳み込みフィルタを含む１×１畳み込みレイヤ（たとえば、図６Ａ～図６Ｆのエンコーダサブネットワークの１×１畳み込みレイヤ）を含む。ブロック７０８において、プロセス７００は、フレームの結合表現に基づいて符号化ビデオデータを生成することを含む。

【0140】

[0157]いくつかの例では、プロセス７００は、エンコーダサブネットワークの第１の非線形レイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値を処理することを含む。プロセス７００は、エンコーダサブネットワークの第２の非線形レイヤを使用して、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を処理することを含むことができる。そのような例では、結合表現は、第１の非線形レイヤの出力および第２の非線形レイヤの出力に基づいて生成される。場合によっては、フレームの結合表現は、入力として第１の非線形レイヤの出力と第２の非線形レイヤの出力とを使用して、第３の畳み込みレイヤ（たとえば、図６Ａ～図６Ｆのエンコーダサブネットワークの１×１畳み込みレイヤ）によって生成される。

【0141】

[0158]いくつかの例では、プロセス７００は、（たとえば、量子化エンジン６２０を使用して）符号化ビデオデータを量子化することを含む。いくつかの例では、プロセス７００は、（たとえば、エントロピー符号化エンジン６２１を使用して）符号化ビデオデータをエントロピーコーディングすることを含む。いくつかの例では、プロセス７００は、符号化ビデオデータをメモリに記憶することを含む。いくつかの例では、プロセス７００は、少なくとも１つのデバイスに伝送媒体を介して符号化ビデオデータを送信することを含む。

【0142】

[0159]いくつかの例では、プロセス７００は、符号化フレームを取得することを含む。プロセス７００は、ニューラルネットワークシステムのデコーダサブネットワークの第１の畳み込みレイヤにより、符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成することを含むことができる。プロセス７００は、デコーダサブネットワークの第２の畳み込みレイヤにより、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成することをさらに含むことができる。いくつかの例では、プロセス７００は、デコーダサブネットワークの第３の畳み込みレイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルから符号化フレームのルミナンスチャネルを分離することを含む。場合によっては、デコーダサブネットワークの第３の畳み込みレイヤは、１つまたは複数の１×１畳み込みフィルタを含む１×１畳み込みレイヤ（たとえば、図６Ａ～図６Ｆのデコーダサブネットワークの１×１畳み込みレイヤ）を含む。

【0143】

[0160]いくつかの例では、フレームはビデオフレームを含む。いくつかの例では、少なくとも１つのクロミナンスチャネルは、クロミナンス青チャネルとクロミナンス赤チャネルとを含む。いくつかの例では、フレームはルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する。

【0144】

[0161]図８は、本明細書に記載された機械学習技法のうちの１つまたは複数を使用してビデオを処理するプロセス８００の一例を示すフローチャートである。ブロック８０２において、プロセス８００は、符号化フレームを取得することを含む。ブロック８０４において、プロセス８００は、デコーダサブネットワークの第１の畳み込みレイヤにより、符号化フレームの少なくとも１つのクロミナンスチャネルから符号化フレームのルミナンスチャネルを分離することを含む。場合によっては、デコーダサブネットワークの第１の畳み込みレイヤは、１つまたは複数の１×１畳み込みフィルタを含む１×１畳み込みレイヤ（たとえば、図６Ａ～図６Ｆのデコーダサブネットワークの１×１畳み込みレイヤ）を含む。ブロック８０６において、プロセス８００は、ニューラルネットワークシステムのデコーダサブネットワークの第２の畳み込みレイヤにより、符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成することを含む。ブロック８０８において、プロセス８００は、デコーダサブネットワークの第３の畳み込みレイヤにより、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成することを含む。ブロック８１０において、プロセス８００は、ルミナンスチャネルに関連付けられた復元出力値と少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値とを含む出力フレームを生成することを含む。

【0145】

[0162]いくつかの例では、プロセス８００は、デコーダサブネットワークの第１の非線形レイヤを使用して、符号化フレームのルミナンスチャネルに関連付けられた値を処理することを含む。ルミナンスチャネルに関連付けられた復元出力値は、第１の非線形レイヤの出力に基づいて生成される。プロセス８００は、デコーダサブネットワークの第２の非線形レイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた値を処理することを含むことができる。少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値は、第２の非線形レイヤの出力に基づいて生成される。

【0146】

[0163]いくつかの例では、プロセス８００は、（たとえば、逆量子化エンジン６２３によって）符号化フレームのサンプルを逆量子化することを含む。いくつかの例では、プロセス８００は、（たとえば、エントロピー復号エンジン６２２によって）符号化フレームのサンプルをエントロピー復号することを含む。いくつかの例では、プロセス８００は、出力フレームをメモリに記憶することを含む。いくつかの例では、プロセス８００は、出力フレームを表示することを含む。

【0147】

[0164]いくつかの例では、プロセス８００は、ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値を生成することを含む。プロセス８００は、エンコーダサブネットワークの第２の畳み込みレイヤにより、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成することを含むことができる。プロセス８００は、エンコーダサブネットワークの第３の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値およびフレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値に基づいて、フレームの結合表現を生成することをさらに含むことができる。プロセス８００は、フレームの結合表現に基づいて符号化フレームを生成することを含むことができる。場合によっては、エンコーダサブネットワークの第３の畳み込みレイヤは、１つまたは複数の１×１畳み込みフィルタを含む１×１畳み込みレイヤ（たとえば、図６Ａ～図６Ｆのエンコーダサブネットワークの１×１畳み込みレイヤ）を含む。

【0148】

[0165]いくつかの例では、プロセス８００は、エンコーダサブネットワークの第１の非線形レイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値を処理することと、エンコーダサブネットワークの第２の非線形レイヤを使用して、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を処理することとを含む。そのような例では、結合表現は、第１の非線形レイヤの出力および第２の非線形レイヤの出力に基づいて生成される。いくつかの例では、フレームの結合表現は、入力として第１の非線形レイヤの出力と第２の非線形レイヤの出力とを使用して、エンコーダサブネットワークの第３の畳み込みレイヤによって生成される。

【0149】

[0166]いくつかの例では、符号化フレームは符号化ビデオフレームを含む。いくつかの例では、少なくとも１つのクロミナンスチャネルは、クロミナンス青チャネルとクロミナンス赤チャネルとを含む。いくつかの例では、符号化フレームはルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する。

【0150】

[0167]いくつかの例では、本明細書に記載されたプロセス（たとえば、プロセス７００、プロセス８００、および／または本明細書に記載された他のプロセス）は、図９に示されたコンピューティングデバイスアーキテクチャ９００を有するコンピューティングデバイスなどの、コンピューティングデバイスまたは装置によって実行される場合がある。一例では、プロセス７００および／またはプロセス８００は、図６Ａ～図６Ｆに示されたニューラルネットワークアーキテクチャのうちの１つを実装するコンピューティングデバイスアーキテクチャ９００を有するコンピューティングデバイスによって実行され得る。いくつかの例では、コンピューティングデバイスは、モバイルデバイス（たとえば、携帯電話、タブレットコンピューティングデバイスなど）、ウェアラブルデバイス、エクステンデッドリアリティデバイス（たとえば、仮想現実（ＶＲ）デバイス、拡張現実（ＡＲ）デバイス、もしくは複合現実（ＭＲ）デバイス）、パーソナルコンピュータ、ラップトップコンピュータ、ビデオサーバ、テレビジョン、車両（もしくは車両のコンピューティングデバイス）、ロボティックデバイス、ならびに／または、プロセス７００および／もしくはプロセス８００を含む、本明細書に記載されたプロセスを実行するリソース能力を有する任意の他のコンピューティングデバイスを含むことができる。

【0151】

[0168]場合によっては、コンピューティングデバイスまたは装置は、１つもしくは複数の入力デバイス、１つもしくは複数の出力デバイス、１つもしくは複数のプロセッサ、１つもしくは複数のマイクロプロセッサ、１つもしくは複数のマイクロコンピュータ、１つもしくは複数の送信機、受信機、もしくは（たとえば、トランシーバと呼ばれる）組み合わされた送信機－受信機、１つもしくは複数のカメラ、１つもしくは複数のセンサ、および／または本明細書に記載されたプロセスのステップを実行するように構成された他の構成要素などの様々な構成要素を含む場合がある。いくつかの例では、コンピューティングデバイスは、ディスプレイ、データを通信および／もしくは受信するように構成されたネットワークインターフェース、それらの任意の組合せ、ならびに／または他の構成要素を含む場合がある。ネットワークインターフェースは、インターネットプロトコル（ＩＰ）ベースのデータまたは他のタイプのデータを通信および／または受信するように構成される場合がある。

【0152】

[0169]コンピューティングデバイスの構成要素は、回路内に実装され得る。たとえば、構成要素は、本明細書に記載された様々な動作を実行するために、１つまたは複数のプログラマブル電子回路（たとえば、マイクロプロセッサ、グラフィックス処理装置（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、中央処理装置（ＣＰＵ）、ニューラル処理装置（ＮＰＵ）、および／または他の適切な電子回路）を含むことができる、電子回路もしくは他の電子ハードウェアを含むことができ、および／またはそれらを使用して実装され得、ならびに／あるいは、コンピュータソフトウェア、ファームウェア、もしくはそれらの任意の組合せを含むことができ、および／またはそれらを使用して実装され得る。

【0153】

[0170]プロセス７００および８００は論理流れ図として示され、それらの動作は、ハードウェア、コンピュータ命令、またはそれらの組合せにおいて実施され得る動作のシーケンスを表す。コンピュータ命令のコンテキストでは、動作は、１つまたは複数のプロセッサによって実行されたとき、列挙された動作を実行する、１つまたは複数のコンピュータ可読記憶媒体に記憶されたコンピュータ実行可能命令を表す。概して、コンピュータ実行可能命令は、特定の機能を実行するか、または特定のデータタイプを実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。動作が記載される順序は限定として解釈されるものではなく、任意の数の記載された動作は、プロセスを実装するために任意の順序で、および／または並行して組み合わされ得る。

【0154】

[0171]さらに、（プロセス７００、プロセス８００、および／または本明細書に記載された他のプロセスを含む）本明細書に記載されたプロセスは、実行可能命令で構成された１つまたは複数のコンピュータシステムの制御下で実行される場合があり、１つまたは複数のプロセッサ上で、ハードウェアによって、またはそれらの組合せで一括して実行するコード（たとえば、実行可能命令、１つもしくは複数のコンピュータプログラム、または１つもしくは複数のアプリケーション）として実装される場合がある。上述されたように、コードは、たとえば、１つまたは複数のプロセッサによって実行可能な複数の命令を備えるコンピュータプログラムの形態で、コンピュータ可読記憶媒体または機械可読記憶媒体に記憶される場合がある。コンピュータ可読記憶媒体または機械可読記憶媒体は、非一時的であり得る。

【0155】

[0172]図９は、本明細書に記載された様々な技法を実装することができる例示的なコンピューティングデバイスの例示的なコンピューティングデバイスアーキテクチャ９００を示す。いくつかの例では、コンピューティングデバイスは、モバイルデバイス、ウェアラブルデバイス、エクステンデッドリアリティデバイス（たとえば、仮想現実（ＶＲ）デバイス、拡張現実（ＡＲ）デバイス、もしくは複合現実（ＭＲ）デバイス）、パーソナルコンピュータ、ラップトップコンピュータ、ビデオサーバ、車両（もしくは車両のコンピューティングデバイス）、または他のデバイスを含むことができる。たとえば、コンピューティングデバイスアーキテクチャ９００は、図６のシステムを実装することができる。コンピューティングデバイスアーキテクチャ９００の構成要素は、バスなどの接続９０５を使用して互いに電気通信しているように図示されている。例示的なコンピューティングデバイスアーキテクチャ９００は、処理ユニット（ＣＰＵまたはプロセッサ）９１０と、読取り専用メモリ（ＲＯＭ）９２０およびランダムアクセスメモリ（ＲＡＭ）９２５などのコンピューティングデバイスメモリ９１５を含む様々なコンピューティングデバイス構成要素をプロセッサ９１０に結合するコンピューティングデバイス接続９０５とを含む。

【0156】

[0173]コンピューティングデバイスアーキテクチャ９００は、プロセッサ９１０と直接接続された、プロセッサ９１０に極めて近接した、またはプロセッサ９１０の一部として統合された高速メモリのキャッシュを含むことができる。コンピューティングデバイスアーキテクチャ９００は、プロセッサ９１０による迅速なアクセスのために、メモリ９１５および／またはストレージデバイス９３０からキャッシュ９１２にデータをコピーすることができる。このようにして、キャッシュは、データを待つ間のプロセッサ９１０の遅延を回避する性能の向上を提供することができる。これらおよび他のモジュールは、様々なアクションを実行するためにプロセッサ９１０を制御することができるか、またはプロセッサ９１０を制御するように構成され得る。他のコンピューティングデバイスメモリ９１５も、使用のために利用可能であり得る。メモリ９１５は、異なる性能特性を有する複数の異なるタイプのメモリを含むことができる。プロセッサ９１０は、任意の汎用プロセッサ、プロセッサ９１０を制御するように構成された、ストレージデバイス９３０に記憶されたサービス１９３２、サービス２９３４、およびサービス３９３６などのハードウェアまたはソフトウェアサービス、ならびにソフトウェア命令がプロセッサ設計に組み込まれる専用プロセッサを含むことができる。プロセッサ９１０は、複数のコアまたはプロセッサ、バス、メモリコントローラ、キャッシュなどを含んでいる自給式システムであり得る。マルチコアプロセッサは、対称であっても、非対称であってもよい。

【0157】

[0174]コンピューティングデバイスアーキテクチャ９００とのユーザ対話を可能にするために、入力デバイス９４５は、音声用のマイクロフォン、ジェスチャまたはグラフィカル入力用のタッチ式スクリーン、キーボード、マウス、動き入力、音声などの、任意の数の入力機構を表すことができる。出力デバイス９３５も、ディスプレイ、プロジェクタ、テレビジョン、スピーカデバイスなどの、当業者に知られたいくつかの出力機構のうちの１つまたは複数であり得る。いくつかの事例では、マルチモーダルコンピューティングデバイスは、ユーザがコンピューティングデバイスアーキテクチャ９００と通信するために複数のタイプの入力を提供することを可能にすることができる。通信インターフェース９４０は、概して、ユーザ入力とコンピューティングデバイス出力とを統制および管理することができる。任意の特定のハードウェア構成上で動作することに対する制限はなく、したがって、本明細書での基本的な特徴は、改善されたハードウェア構成またはファームウェア構成が開発されるにつれて、それらで容易に代用されてもよい。

【0158】

[0175]ストレージデバイス９３０は不揮発性メモリであり、磁気カセット、フラッシュメモリカード、ソリッドステートメモリデバイス、デジタル多用途ディスク、カートリッジ、ランダムアクセスメモリ（ＲＡＭ）９２５、読取り専用メモリ（ＲＯＭ）９２０、およびそれらのハイブリッドなどの、コンピュータによってアクセス可能なデータを記憶することができる、ハードディスクまたは他のタイプのコンピュータ可読媒体であり得る。ストレージデバイス９３０は、プロセッサ９１０を制御するためのサービス９３２、９３４、９３６を含むことができる。他のハードウェアモジュールまたはソフトウェアモジュールが考えられる。ストレージデバイス９３０は、コンピューティングデバイス接続９０５に接続され得る。一態様では、特定の機能を実行するハードウェアモジュールは、その機能を実行するために、プロセッサ９１０、接続９０５、出力デバイス９３５などの必要なハードウェア構成要素とともに、コンピュータ可読媒体に記憶されたソフトウェア構成要素を含むことができる。

【0159】

[0176]本開示の態様は、１つまたは複数のアクティブ深度検知システムを含むか、またはそれに結合された（セキュリティシステム、スマートフォン、タブレット、ラップトップコンピュータ、車両、ドローン、または他のデバイスなどの）任意の適切な電子デバイスに適用可能である。１つの光プロジェクタを有するか、またはそれに結合されたデバイスに関して以下に記載されるが、本開示の態様は、任意の数の光プロジェクタを有するデバイスに適用可能であり、したがって、特定のデバイスに限定されない。

【0160】

[0177]「デバイス」という用語は、（１つのスマートフォン、１つのコントローラ、１つの処理システムなどの）１つまたは特定の数の物理オブジェクトに限定されない。本明細書で使用されるデバイスは、本開示の少なくともいくつかの部分を実装することができる１つまたは複数の部分を有する任意の電子デバイスであり得る。以下の説明および例は、本開示の様々な態様を記載するために「デバイス」という用語を使用するが、「デバイス」という用語は、特定の構成、タイプ、またはオブジェクトの数に限定されない。さらに、「システム」という用語は、複数の構成要素または特定の実施形態に限定されない。たとえば、システムは、１つまたは複数のプリント回路基板または他の基板上に実装される場合があり、可動または静的な構成要素を有する場合がある。以下の説明および例は、本開示の様々な態様を記載するために「システム」という用語を使用するが、「システム」という用語は、特定の構成、タイプ、またはオブジェクトの数に限定されない。

【0161】

[0178]本明細書で提供される実施形態および例の完全な理解を提供するために、上記の説明で具体的な詳細が提供されている。しかしながら、実施形態はこれらの具体的な詳細なしに実践され得ることが当業者によって理解されよう。説明を明確にするために、いくつかの事例では、本技術は、デバイス、デバイス構成要素、ソフトウェアで具現された方法におけるステップもしくはルーチン、またはハードウェアとソフトウェアの組合せを備える機能ブロックを含む、個々の機能ブロックを含むものとして提示される場合がある。図に示された、および／または本明細書に記載された構成要素以外のさらなる構成要素が使用されてもよい。たとえば、回路、システム、ネットワーク、プロセス、および他の構成要素は、不要な詳細で実施形態を不明瞭にしないためにブロック図の形態で構成要素として示される場合がある。他の事例では、実施形態を不明瞭にすることを回避するために、よく知られている回路、プロセス、アルゴリズム、構造、および技法は、不要な詳細なしに示される場合がある。

【0162】

[0179]個々の実施形態は、フローチャート、流れ図、データフロー図、構造図、またはブロック図として描写されたプロセスまたは方法として上述されている場合がある。フローチャートは動作を逐次プロセスとして記載する場合があるが、動作の多くは並行してまたは同時に実行され得る。加えて、動作の順序は並べ替えられてもよい。プロセスの動作が完了したときにプロセスは終了するが、図に含まれない追加のステップを有する可能性がある。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラムなどに対応することができる。プロセスが関数に対応するとき、その終了は、呼出し関数またはメイン関数への関数のリターンに対応することができる。

【0163】

[0180]上述された例によるプロセスおよび方法は、記憶されるかまたはさもなければコンピュータ可読媒体から利用可能であるコンピュータ実行可能命令を使用して実装され得る。そのような命令は、たとえば、汎用コンピュータ、専用コンピュータ、または処理デバイスにある機能または機能のグループを実行させるか、またはさもなければそれらを実行するように構成する、命令とデータとを含むことができる。使用されるコンピュータリソースの部分は、ネットワークを介してアクセス可能であり得る。コンピュータ実行可能命令は、たとえば、バイナリ、アセンブリ言語などの中間フォーマット命令、ファームウェア、ソースコードなどであり得る。

【0164】

[0181]「コンピュータ可読媒体」という用語は、限定はしないが、ポータブルまたは非ポータブルのストレージデバイス、光ストレージデバイス、ならびに命令および／またはデータを記憶、含有、または搬送することが可能な様々な他の媒体を含む。コンピュータ可読媒体は、データがそこに記憶され得、ワイヤレスに、または有線接続を介して伝搬する搬送波および／または一時的電子信号を含まない非一時的媒体を含む場合がある。非一時的媒体の例には、限定はしないが、とりわけ、磁気ディスクまたは磁気テープ、フラッシュメモリなどの光記憶媒体、メモリまたはメモリデバイス、磁気ディスクまたは光学ディスク、フラッシュメモリ、不揮発性メモリを備えたＵＳＢデバイス、ネットワーク接続されたストレージデバイス、コンパクトディスク（ＣＤ）またはデジタル多用途ディスク（ＤＶＤ）、それらの任意の適切な組合せが含まれ得る。コンピュータ可読媒体は、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令、データ構造、もしくはプログラムステートメントの任意の組合せを表すことができるコードおよび／または機械実行可能命令をその上に記憶している場合がある。コードセグメントは、情報、データ、引数、パラメータ、またはメモリコンテンツをパスおよび／または受信することにより、別のコードセグメントまたはハードウェア回路に結合される場合がある。情報、引数、パラメータ、データなどは、メモリ共有、メッセージパッシング、トークンパッシング、ネットワーク送信などを含む、任意の適切な手段を介してパス、転送、または送信される場合がある。

【0165】

[0182]いくつかの実施形態では、コンピュータ可読記憶デバイス、媒体、およびメモリは、ビットストリームなどを含んでいるケーブルまたはワイヤレス信号を含むことができる。しかしながら、述べられるとき、非一時的コンピュータ可読記憶媒体は、エネルギー、キャリア信号、電磁波、および信号自体などの媒体を明確に除外する。

【0166】

[0183]これらの開示によるプロセスおよび方法を実装するデバイスは、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組合せを含むことができ、様々なフォームファクタのいずれかをとることができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードに実装されると、必要なタスクを実行するためのプログラムコードまたはコードセグメント（たとえば、コンピュータプログラム製品）は、コンピュータ可読媒体または機械可読媒体に記憶される場合がある。プロセッサが必要なタスクを実行することができる。フォームファクタの典型的な例には、ラップトップ、スマートフォン、携帯電話、タブレットデバイス、または他のスモールフォームファクタパーソナルコンピュータ、携帯情報端末、ラックマウントデバイス、スタンドアロンデバイスなどが含まれる。本明細書に記載された機能はまた、周辺機器またはアドインカード内で具現化され得る。そのような機能はまた、さらなる例として、単一のデバイス内で実行する異なるチップまたは異なるプロセスの間の回路基板上に実装され得る。

【0167】

[0184]命令、そのような命令を伝達するための媒体、それらを実行するためのコンピューティングリソース、およびそのようなコンピューティングリソースをサポートするための他の構造は、本開示に記載された機能を提供するための例示的な手段である。

【0168】

[0185]上記の説明では、本出願の態様がその特定の実施形態を参照して記載されているが、本出願はそれに限定されないことを当業者は認識されよう。したがって、本出願の例示的な実施形態が本明細書で詳細に記載されているが、従来技術によって限定される場合を除き、本発明の概念は、場合によっては様々に具現化および採用される場合があり、添付の特許請求の範囲は、そのような変形形態を含むように解釈されるものであることを理解されたい。上述された適用例の様々な特徴および態様は、個々にまたは一緒に使用されてもよい。さらに、実施形態は、本明細書のより広い趣旨および範囲から逸脱することなく、本明細書に記載されたもの以外に、任意の数の環境および適用例において利用され得る。したがって、本明細書および図面は、限定的ではなく例示的と見なされるべきである。説明の目的で、方法は特定の順序で記載された。代替の実施形態では、方法は、記載された順序とは異なる順序で実行されてもよいことを諒解されたい。

【0169】

[0186]本明細書で使用される、より小さい（「＜」）およびより大きい（「＞」）というシンボルまたは用語は、本明細書の範囲から逸脱することなく、それぞれ、より小さいかまたはそれに等しい（「≦」）およびより大きいかまたはそれに等しい（「≧」）というシンボルと置き換えられ得ることを当業者は諒解されよう。

【0170】

[0187]構成要素が特定の動作を実行する「ように構成される」ものとして記載される場合、そのような構成は、たとえば、その動作を実行するように電子回路もしくは他のハードウェアを設計することにより、その動作を実行するようにプログラム可能な電子回路（たとえば、マイクロプロセッサ、もしくは他の適切な電子回路）をプログラムすることにより、またはそれらの任意の組合せで達成され得る。

【0171】

[0188]「に結合された」という句は、直接的または間接的のいずれかで別の構成要素に物理的に接続された任意の構成要素、ならびに／あるいは直接的または間接的のいずれかで別の構成要素と通信している（たとえば、有線もしくはワイヤレス接続、および／または他の適切な通信インターフェースを介して他の構成要素に接続された）任意の構成要素を指す。

【0172】

[0189]セット「のうちの少なくとも１つ」、および／またはセットのうちの「１つもしくは複数」を列挙するクレームの文言または他の文言は、（任意の組合せの）セットのうちの１つのメンバーまたはセットのうちの複数のメンバーがクレームを満たすことを示す。たとえば、「ＡおよびＢのうちの少なくとも１つ」または「ＡもしくはＢのうちの少なくとも１つ」を列挙するクレームの文言は、Ａ、Ｂ、またはＡおよびＢを意味する。別の例では、「Ａ、Ｂ、およびＣのうちの少なくとも１つ」または「Ａ、Ｂ、もしくはＣのうちの少なくとも１つ」を列挙するクレームの文言は、Ａ、Ｂ、Ｃ、またはＡおよびＢ、またはＡおよびＣ、またはＢおよびＣ、またはＡおよびＢおよびＣを意味する。セットの「うちの少なくとも１つ」および／またはセットのうちの「１つもしくは複数」という文言は、セット内に列挙された項目にそのセットを限定しない。たとえば、「ＡおよびＢのうちの少なくとも１つ」または「ＡもしくはＢのうちの少なくとも１つ」を列挙するクレームの文言は、Ａ、Ｂ、またはＡおよびＢを意味することができ、さらに、ＡおよびＢのセット内に列挙されていない項目を含むことができる。

【0173】

[0190]本明細書に開示された実施形態に関して記載された様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、ファームウェア、またはそれらの組合せとして実装される場合がある。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップが、概してそれらの機能に関して上述されている。そのような機能がハードウェアとして実装されるか、ソフトウェアとして実装されるかは、特定の適用例および全体的なシステムに課された設計制約に依存する。当業者は、記載された機能を特定の適用例ごとに様々な方法で実装することができるが、そのような実装の決定は、本出願の範囲からの逸脱を生じるものと解釈されるべきではない。

【0174】

[0191]本明細書に記載された技法はまた、電子ハードウェア、コンピュータソフトウェア、ファームウェア、またはそれらの任意の組合せで実装される場合がある。そのような技法は、汎用コンピュータ、ワイヤレス通信デバイスハンドセット、またはワイヤレス通信デバイスハンドセットおよび他のデバイス内のアプリケーションを含む複数の用途を有する集積回路デバイスなどの様々なデバイスのいずれかに実装される場合がある。モジュールまたは構成要素として記載された任意の特徴は、集積論理デバイスに一緒に、または個別であるが相互運用可能な論理デバイスとして別個に実装される場合がある。ソフトウェアに実装された場合、技法は、実行されると、上述された方法のうちの１つまたは複数を実行する命令を含むプログラムコードを備えるコンピュータ可読データ記憶媒体によって少なくとも部分的に実現される場合がある。コンピュータ可読データ記憶媒体は、パッケージング材料を含む場合があるコンピュータプログラム製品の一部を形成することができる。コンピュータ可読媒体は、同期型ダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、電気的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ（登録商標））、ＦＬＡＳＨ（登録商標）メモリ、磁気または光学データ記憶媒体などのメモリまたはデータ記憶媒体を備えることができる。技法は、追加または代替として、伝搬信号または電波などの、命令またはデータ構造の形式でプログラムコードを搬送または通信し、コンピュータによってアクセスされ、読み取られ、および／または実行され得るコンピュータ可読通信媒体によって少なくとも部分的に実現される場合がある。

【0175】

[0192]プログラムコードは、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブル論理アレイ（ＦＰＧＡ）、または他の等価な集積論理回路もしくはディスクリート論理回路などの、１つまたは複数のプロセッサを含む場合があるプロセッサによって実行される場合がある。そのようなプロセッサは、本開示に記載された技法のうちのいずれかを実行するように構成される場合がある。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つもしくは複数のマイクロプロセッサ、または任意の他のそのような構成として実装される場合がある。したがって、本明細書で使用される「プロセッサ」という用語は、上記の構造、上記の構造の任意の組合せ、または本明細書に記載された技法の実装に適切な任意の他の構造もしくは装置のいずれかを指すことができる。

【0176】

[0193]本開示の例示的な例は、以下を含む。

【0177】

[0194]態様１：ビデオデータを処理する方法であって、ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値を生成することと、エンコーダサブネットワークの第２の畳み込みレイヤにより、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成することと、第３の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値およびフレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値に基づいて、フレームの結合表現を生成することと、フレームの結合表現に基づいて符号化ビデオデータを生成することとを備える、方法。

【0178】

[0195]態様２：第３の畳み込みレイヤが１×１畳み込みレイヤを含み、１×１畳み込みレイヤが１つまたは複数の１×１畳み込みフィルタを含む、態様１に記載の方法。

【0179】

[0196]態様３：エンコーダサブネットワークの第１の非線形レイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値を処理することと、エンコーダサブネットワークの第２の非線形レイヤを使用して、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を処理することとをさらに備え、結合表現が、第１の非線形レイヤの出力および第２の非線形レイヤの出力に基づいて生成される、態様１または２のいずれか１つに記載の方法。

【0180】

[0197]態様４：フレームの結合表現が、入力として第１の非線形レイヤの出力と第２の非線形レイヤの出力とを使用して、第３の畳み込みレイヤによって生成される、態様３に記載の方法。

【0181】

[0198]態様５：符号化ビデオデータを量子化することをさらに備える、態様１から４のいずれか１つに記載の方法。

【0182】

[0199]態様６：符号化ビデオデータをエントロピーコーディングすることをさらに備える、態様１から５のいずれか１つに記載の方法。

【0183】

[0200]態様７：符号化ビデオデータをメモリに記憶することをさらに備える、態様１から６のいずれか１つに記載の方法。

【0184】

[0201]態様８：少なくとも１つのデバイスに伝送媒体を介して符号化ビデオデータを送信することをさらに備える、態様１から７のいずれか１つに記載の方法。

【0185】

[0202]態様９：符号化フレームを取得することと、ニューラルネットワークシステムのデコーダサブネットワークの第１の畳み込みレイヤにより、符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成することと、デコーダサブネットワークの第２の畳み込みレイヤにより、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成することとをさらに備える、態様１から８のいずれか１つに記載の方法。

【0186】

[0203]態様１０：デコーダサブネットワークの第３の畳み込みレイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルから符号化フレームのルミナンスチャネルを分離することをさらに備える、態様９に記載の方法。

【0187】

[0204]態様１１：デコーダサブネットワークの第３の畳み込みレイヤが１×１畳み込みレイヤを含み、１×１畳み込みレイヤが１つまたは複数の１×１畳み込みフィルタを含む、態様１０に記載の方法。

【0188】

[0205]態様１２：フレームがビデオフレームを含む、態様１から１１のいずれか１つに記載の方法。

【0189】

[0206]態様１３：少なくとも１つのクロミナンスチャネルが、クロミナンス青チャネルとクロミナンス赤チャネルとを含む、態様１から１２のいずれか１つに記載の方法。

【0190】

[0207]態様１４：フレームがルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する、態様１から１３のいずれか１つに記載の方法。

【0191】

[0208]態様１５：ビデオデータを処理するための装置。装置は、メモリと、メモリに結合され、ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値を生成し、エンコーダサブネットワークの第２の畳み込みレイヤを使用して、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成し、第３の畳み込みレイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値およびフレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値に基づいて、フレームの結合表現を生成し、フレームの結合表現に基づいて符号化ビデオデータを生成するように構成されたプロセッサとを備える。

【0192】

[0209]態様１６：第３の畳み込みレイヤが１×１畳み込みレイヤを含み、１×１畳み込みレイヤが１つまたは複数の１×１畳み込みフィルタを含む、態様１５に記載の装置。

【0193】

[0210]態様１７：プロセッサが、エンコーダサブネットワークの第１の非線形レイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値を処理し、エンコーダサブネットワークの第２の非線形レイヤを使用して、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を処理するように構成され、結合表現が、第１の非線形レイヤの出力および第２の非線形レイヤの出力に基づいて生成される、態様１５または１６のいずれか１つに記載の装置。

【0194】

[0211]態様１８：フレームの結合表現が、入力として第１の非線形レイヤの出力と第２の非線形レイヤの出力とを使用して、第３の畳み込みレイヤによって生成される、態様１７に記載の装置。

【0195】

[0212]態様１９：プロセッサが、符号化ビデオデータを量子化するように構成される、態様１５から１８のいずれか１つに記載の装置。

【0196】

[0213]態様２０：プロセッサが、符号化ビデオデータをエントロピーコーディングするように構成される、態様１５から１９のいずれか１つに記載の装置。

【0197】

[0214]態様２１：プロセッサが、符号化ビデオデータをメモリに記憶するように構成される、態様１５から２０のいずれか１つに記載の装置。

【0198】

[0215]態様２２：プロセッサが、少なくとも１つのデバイスに伝送媒体を介して符号化ビデオデータを送信するように構成される、態様１５から２１のいずれか１つに記載の装置。

【0199】

[0216]態様２３：プロセッサが、符号化フレームを取得し、ニューラルネットワークシステムのデコーダサブネットワークの第１の畳み込みレイヤを使用して、符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成し、デコーダサブネットワークの第２の畳み込みレイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成するように構成される、態様１５から２２のいずれか１つに記載の装置。

【0200】

[0217]態様２４：プロセッサが、
デコーダサブネットワークの第３の畳み込みレイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルから符号化フレームのルミナンスチャネルを分離する
ように構成される、態様２３に記載の装置。

【0201】

[0218]態様２５：デコーダサブネットワークの第３の畳み込みレイヤが１×１畳み込みレイヤを含み、１×１畳み込みレイヤが１つまたは複数の１×１畳み込みフィルタを含む、態様２４に記載の装置。

【0202】

[0219]態様２６：フレームがビデオフレームを含む、態様１５から２５のいずれか１つに記載の装置。

【0203】

[0220]態様２７：少なくとも１つのクロミナンスチャネルが、クロミナンス青チャネルとクロミナンス赤チャネルとを含む、態様１５から２６のいずれか１つに記載の装置。

【0204】

[0221]態様２８：フレームがルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する、態様１５から２７のいずれか１つに記載の装置。

【0205】

[0222]態様２９：プロセッサがニューラル処理装置（ＮＰＵ）を含む、態様１５から２８のいずれか１つに記載の装置。

【0206】

[0223]態様３０：装置がモバイルデバイスを備える、態様１５から２９のいずれか１つに記載の装置。

【0207】

[0224]態様３１：装置がエクステンデッドリアリティデバイスを備える、態様１５から３０のいずれか１つに記載の装置。

【0208】

[0225]態様３２：ディスプレイをさらに備える、態様１５から３１のいずれか１つに記載の装置。

【0209】

[0226]態様３３：装置がテレビジョンを備える、態様１５から２９のいずれか１つに記載の装置。

【0210】

[0227]態様３４：装置が、１つまたは複数のビデオフレームをキャプチャするように構成されたカメラを備える、態様１５から３３のいずれか１つに記載の装置。

【0211】

[0228]態様３５：実行されると、１つまたは複数のプロセッサに、態様１から１４に記載の動作のいずれかを実行させる命令を記憶する、コンピュータ可読記憶媒体。

【0212】

[0229]態様３６：態様１から１４に記載の動作のいずれかを実行するための手段を備える、装置。

【0213】

[0230]態様３７：ビデオデータを処理する方法であって、符号化フレームを取得することと、デコーダサブネットワークの第１の畳み込みレイヤにより、符号化フレームの少なくとも１つのクロミナンスチャネルから符号化フレームのルミナンスチャネルを分離することと、ニューラルネットワークシステムのデコーダサブネットワークの第２の畳み込みレイヤにより、符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成することと、デコーダサブネットワークの第３の畳み込みレイヤにより、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成することと、
ルミナンスチャネルに関連付けられた復元出力値と少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値とを含む出力フレームを生成することとを備える、方法。

【0214】

[0231]態様３８：デコーダサブネットワークの第１の畳み込みレイヤが１×１畳み込みレイヤを含み、１×１畳み込みレイヤが１つまたは複数の１×１畳み込みフィルタを含む、態様３７に記載の方法。

【0215】

[0232]態様３９：デコーダサブネットワークの第１の非線形レイヤを使用して、符号化フレームのルミナンスチャネルに関連付けられた値を処理することと、ここにおいて、ルミナンスチャネルに関連付けられた復元出力値が第１の非線形レイヤの出力に基づいて生成される、デコーダサブネットワークの第２の非線形レイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた値を処理することと、ここにおいて、少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値が第２の非線形レイヤの出力に基づいて生成される、をさらに備える、態様３７または３８のいずれか１つに記載の方法。

【0216】

[0233]態様４０：符号化フレームのサンプルを逆量子化することをさらに備える、態様３７から３９のいずれか１つに記載の方法。

【0217】

[0234]態様４１：符号化フレームのサンプルをエントロピー復号することをさらに備える、態様３７から４０のいずれか１つに記載の方法。

【0218】

[0235]態様４２：出力フレームをメモリに記憶することをさらに備える、態様３７から４１のいずれか１つに記載の方法。

【0219】

[0236]態様４３：出力フレームを表示することをさらに備える、態様３７から４２のいずれか１つに記載の方法。

【0220】

[0237]態様４４：ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値を生成することと、エンコーダサブネットワークの第２の畳み込みレイヤにより、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成することと、エンコーダサブネットワークの第３の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値およびフレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値に基づいて、フレームの結合表現を生成することと、フレームの結合表現に基づいて符号化フレームを生成することとをさらに備える、態様３７から４３のいずれか１つに記載の方法。

【0221】

[0238]態様４５：エンコーダサブネットワークの第３の畳み込みレイヤが１×１畳み込みレイヤを含み、１×１畳み込みレイヤが１つまたは複数の１×１畳み込みフィルタを含む、態様４４に記載の方法。

【0222】

[0239]態様４６：エンコーダサブネットワークの第１の非線形レイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値を処理することと、エンコーダサブネットワークの第２の非線形レイヤを使用して、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を処理することとをさらに備え、結合表現が、第１の非線形レイヤの出力および第２の非線形レイヤの出力に基づいて生成される、態様４４または４５のいずれか１つに記載の方法。

【0223】

[0240]態様４７：フレームの結合表現が、入力として第１の非線形レイヤの出力と第２の非線形レイヤの出力とを使用して、エンコーダサブネットワークの第３の畳み込みレイヤによって生成される、態様４６に記載の方法。

【0224】

[0241]態様４８：符号化フレームが符号化ビデオフレームを含む、態様３７から４７のいずれか１つに記載の方法。

【0225】

[0242]態様４９：少なくとも１つのクロミナンスチャネルが、クロミナンス青チャネルとクロミナンス赤チャネルとを含む、態様３７から４８のいずれか１つに記載の方法。

【0226】

[0243]態様５０：符号化フレームがルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する、態様３７から４９のいずれか１つに記載の方法。

【0227】

[0244]態様４９：ビデオデータを処理するための装置。装置は、メモリと、メモリに結合され、符号化フレームを取得し、デコーダサブネットワークの第１の畳み込みレイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルから符号化フレームのルミナンスチャネルを分離し、ニューラルネットワークシステムのデコーダサブネットワークの第２の畳み込みレイヤを使用して、符号化フレームのルミナンスチャネルに関連付けられた復元出力値を生成し、デコーダサブネットワークの第３の畳み込みレイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値を生成し、ルミナンスチャネルに関連付けられた復元出力値と少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値とを含む出力フレームを生成するように構成されたプロセッサとを備える。

【0228】

[0245]態様５０：デコーダサブネットワークの第１の畳み込みレイヤが１×１畳み込みレイヤを含み、１×１畳み込みレイヤが１つまたは複数の１×１畳み込みフィルタを含む、態様４９に記載の装置。

【0229】

[0246]態様５１：プロセッサが、デコーダサブネットワークの第１の非線形レイヤを使用して、符号化フレームのルミナンスチャネルに関連付けられた値を処理することと、ここにおいて、ルミナンスチャネルに関連付けられた復元出力値が第１の非線形レイヤの出力に基づいて生成される、デコーダサブネットワークの第２の非線形レイヤを使用して、符号化フレームの少なくとも１つのクロミナンスチャネルに関連付けられた値を処理することと、ここにおいて、少なくとも１つのクロミナンスチャネルに関連付けられた復元出力値が第２の非線形レイヤの出力に基づいて生成される、を行うように構成される、態様４９または５０のいずれか１つに記載の装置。

【0230】

[0247]態様５２：プロセッサが、符号化フレームのサンプルを逆量子化するように構成される、態様４９から５１のいずれか１つに記載の装置。

【0231】

[0248]態様５３：プロセッサが、符号化フレームのサンプルをエントロピー復号するように構成される、態様４９から５２のいずれか１つに記載の装置。

【0232】

[0249]態様５４：プロセッサが、出力フレームをメモリに記憶するように構成される、態様４９から５３のいずれか１つに記載の装置。

【0233】

[0250]態様５５：プロセッサが、出力フレームを表示するように構成される、態様４９から５４のいずれか１つに記載の装置。

【0234】

[0251]態様５６：プロセッサが、ニューラルネットワークシステムのエンコーダサブネットワークの第１の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値を生成し、エンコーダサブネットワークの第２の畳み込みレイヤにより、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を生成し、エンコーダサブネットワークの第３の畳み込みレイヤにより、フレームのルミナンスチャネルに関連付けられた出力値およびフレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値に基づいて、フレームの結合表現を生成し、フレームの結合表現に基づいて符号化フレームを生成するように構成される、態様４９から５５のいずれか１つに記載の装置。

【0235】

[0252]態様５７：エンコーダサブネットワークの第３の畳み込みレイヤが１×１畳み込みレイヤを含み、１×１畳み込みレイヤが１つまたは複数の１×１畳み込みフィルタを含む、態様５６に記載の装置。

【0236】

[0253]態様５８：プロセッサが、エンコーダサブネットワークの第１の非線形レイヤを使用して、フレームのルミナンスチャネルに関連付けられた出力値を処理し、エンコーダサブネットワークの第２の非線形レイヤを使用して、フレームの少なくとも１つのクロミナンスチャネルに関連付けられた出力値を処理するように構成され、結合表現が、第１の非線形レイヤの出力および第２の非線形レイヤの出力に基づいて生成される、態様４４または５７のいずれか１つに記載の装置。

【0237】

[0254]態様５９：フレームの結合表現が、入力として第１の非線形レイヤの出力と第２の非線形レイヤの出力とを使用して、エンコーダサブネットワークの第３の畳み込みレイヤによって生成される、態様５８に記載の装置。

【0238】

[0255]態様６０：符号化フレームが符号化ビデオフレームを含む、態様４９から５９のいずれか１つに記載の装置。

【0239】

[0256]態様６１：少なくとも１つのクロミナンスチャネルが、クロミナンス青チャネルとクロミナンス赤チャネルとを含む、態様４９から６０のいずれか１つに記載の装置。

【0240】

[0257]態様６２：符号化フレームがルミナンス－クロミナンス（ＹＵＶ）フォーマットを有する、態様４９から６１のいずれか１つに記載の装置。

【0241】

[0258]態様６３：プロセッサがニューラル処理装置（ＮＰＵ）を含む、態様４９から６２のいずれか１つに記載の装置。

【0242】

[0259]態様６４：装置がモバイルデバイスを備える、態様４９から６３のいずれか１つに記載の装置。