特表2024-509435 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン　ダイジャ　インターネット　インフォメーション　テクノロジー　カンパニー　リミテッドの特許一覧

特表2024-509435映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法および装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
3D
3E
4
5A
5B
6
7A
7B
8
9A
9B
9C
9D
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-03-01

(54)【発明の名称】映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法および装置

(51)【国際特許分類】

H04N 19/192 20140101AFI20240222BHJP

H04N 19/82 20140101ALI20240222BHJP

H04N 19/196 20140101ALI20240222BHJP

【ＦＩ】

H04N19/192

H04N19/82

H04N19/196

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023553445

(86)(22)【出願日】2022-03-02

(85)【翻訳文提出日】2023-09-27

(86)【国際出願番号】 US2022018582

(87)【国際公開番号】W WO2022187409

(87)【国際公開日】2022-09-09

(31)【優先権主張番号】63/156,350

(32)【優先日】2021-03-03

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】521289098

【氏名又は名称】ベイジンダジアインターネットインフォメーションテクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢＥＩＪＩＮＧＤＡＪＩＡＩＮＴＥＲＮＥＴＩＮＦＯＲＭＡＴＩＯＮＴＥＣＨＮＯＬＯＧＹＣＯ．，ＬＴＤ．

【住所又は居所原語表記】Ｒｏｏｍ１０１，８ｔｈＦｌｏｏｒ，Ｂｕｉｌｄｉｎｇ１２，Ｎｏ．１６，ＸｉｅｒｑｉＷｅｓｔＲｏａｄ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｐ．Ｒ．Ｃｈｉｎａ

(74)【代理人】

【識別番号】100112656

【弁理士】

【氏名又は名称】宮田英毅

(74)【代理人】

【識別番号】100089118

【弁理士】

【氏名又は名称】酒井宏明

(72)【発明者】

【氏名】チェン，ウェイ

(72)【発明者】

【氏名】シュウ，シャオユウ

(72)【発明者】

【氏名】チェン，イウェン

(72)【発明者】

【氏名】ジュ，ホンジェン

(72)【発明者】

【氏名】クオ，チェウェイ

(72)【発明者】

【氏名】ワン，シャンリン

(72)【発明者】

【氏名】ユ，ビン

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159LC09

5C159MA04

5C159MA05

5C159MA21

5C159MC11

5C159ME01

5C159TA69

5C159TB08

5C159TD17

5C159UA02

5C159UA05

5C159UA16

5C159UA33

(57)【要約】

映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法および装置を提供する。この方法は、オフライン訓練段階で、複数の第１データセットを使用して、ニューラルネットワークをオフラインで訓練することによってオフライン訓練ネットワークを取得することと、オンライン訓練段階で、複数の第２データセットを使用して、複数のニューラルネットワーク層を精緻化することと、を含み、複数のニューラルネットワーク層は、オフライン訓練ネットワークまたはオフライン訓練ネットワークに接続されたシンプルニューラルネットワーク内に少なくとも１つのニューラルネットワーク層を含んでいてよい。

【特許請求の範囲】

【請求項1】

オフライン訓練段階で、複数の第１データセットを使用して、ニューラルネットワークをオフラインで訓練することによってオフライン訓練ネットワークを取得することと、
オンライン訓練段階で、複数の第２データセットを使用して、複数のニューラルネットワーク層を精緻化することと、を含み、前記複数のニューラルネットワーク層は、前記オフライン訓練ネットワークまたは前記オフライン訓練ネットワークに接続されたシンプルニューラルネットワーク内に少なくとも１つのニューラルネットワーク層を含む、
映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法。

【請求項2】

前記複数の第２データセットを使用して前記複数のニューラルネットワーク層を精緻化することは、前記複数の第２データセットを使用して前記複数のニューラルネットワーク層を繰り返し精緻化することを含む、請求項１に記載の方法。

【請求項3】

前記オフライン訓練ネットワークは、精緻化される前記複数のニューラルネットワーク層よりも多いニューラルネットワーク層を含む、請求項１に記載の方法。

【請求項4】

前記オフライン訓練ネットワークは、複数の残差ブロックを含み、精緻化される前記複数のニューラルネットワーク層は、前記オフライン訓練ネットワーク内の最後の残差ブロックを含む、請求項３に記載の方法。

【請求項5】

前記シンプルニューラルネットワークは、２つの畳み込み層を含み、かつ前記シンプルニューラルネットワークは、前記オフライン訓練ネットワークよりも少ないニューラルネットワーク層を含み、かつ精緻化される前記複数のニューラルネットワーク層は、前記シンプルニューラルネットワーク内の前記２つの畳み込み層を含む、請求項１に記載の方法。

【請求項6】

同じ訓練段階もしくは異なる訓練段階で、異なる学習アルゴリズムを実施することか、または
同じ訓練段階もしくは異なる訓練段階で、学習アルゴリズム内の学習率パラメータの異なる開始値を適用すること、
をさらに含む、請求項１に記載の方法。

【請求項7】

異なる訓練段階で異なる学習アルゴリズムを実施することは、
前記オフライン訓練段階で確率的勾配降下法（ＳＧＤ）アルゴリズムを実施し、前記オンライン訓練段階で適応モーメント推定（ＡＤＡＭ）アルゴリズムを実施することを含む、請求項６に記載の方法。

【請求項8】

同じ訓練段階で異なる学習アルゴリズムを実施することは、
前記オフライン訓練段階で、損失関数によって生成される損失が所定の閾値未満であると判定するのに応じて、適応モーメント推定（ＡＤＡＭ）アルゴリズムから確率的勾配降下法（ＳＧＤ）アルゴリズムに切り替えることを含む、請求項６に記載の方法。

【請求項9】

前記複数のニューラルネットワーク層は、周期的にか、またはトリガーイベントに応じてか、の少なくとも一方で精緻化される、請求項１に記載の方法。

【請求項10】

前記トリガーイベントは、
即時的復号器リフレッシュ（Instantaneous Decoder Refresh：ＩＤＲ）符号化ピクチャの生成、
映像符号器構成の変更、または
映像フレーム内に物体または物体のバックグラウンドを含んでいる映像コンテンツの変化、
のうち１つを含む、請求項９に記載の方法。

【請求項11】

前記複数の第２データセットは、符号化情報、映像コンテンツ、または映像フレーム以外の情報を含み、
前記符号化情報は、時間層情報を含み、
前記映像コンテンツは、映像フレームから関心領域に基づいて抽出された複数のパッチを含み、かつ
前記映像フレーム以外の情報は、動き情報を含む、請求項１に記載の方法。

【請求項12】

前記複数のパッチは、同じクラスターに属しているパッチ、または異なるクラスターに属しているパッチから選択され、映像フレームからクロップされる異なるパッチは、表現類似性または歪みのレベルに基づく異なるクラスターに対応している、請求項１１に記載の方法。

【請求項13】

前記複数の第２データセットは、所定の閾値を下回る品質の映像フレームまたはパッチを含む、請求項１に記載の方法。

【請求項14】

前記複数の第１データセットは、前記複数の第２データセットよりもデータが多い、請求項１に記載の方法。

【請求項15】

前記複数のニューラルネットワーク層を繰り返し精緻化することは、
ネットワークパラメータの部分集合を訓練可能となるように構成することによって前記ネットワークパラメータの訓練可能な構造を制御することを含む、請求項２に記載の方法。

【請求項16】

前記複数のニューラルネットワーク層を繰り返し精緻化することは、
ネットワークパラメータのデータタイプを制御することによって前記ネットワークパラメータのダイナミックレンジを制御することを含む、請求項２に記載の方法。

【請求項17】

前記複数のニューラルネットワーク層を繰り返し精緻化することは、
重み正則化を使用して前記複数のニューラルネットワーク層のネットワークパラメータを制御することを含む、請求項２に記載の方法。

【請求項18】

前記複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得することと、
前記複数の精緻化済みネットワークパラメータをプルーニングまたは量子化することか、または
平均シフトもしくは重み共有を使用して前記複数の精緻化済みネットワークパラメータを処理すること、
のうち１つの操作によって、前記複数の精緻化済みネットワークパラメータに基づく複数の処理済みネットワークパラメータを取得することと、
前記複数の処理済みネットワークパラメータを伝達することと、をさらに含む、
請求項１に記載の方法。

【請求項19】

前記複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得することと、
前記複数のニューラルネットワーク層の元のネットワークパラメータと前記複数の精緻化済みネットワークパラメータとの差異を取得することと、
前記差異に基づいて差分マップを構築することと、
をさらに含む、請求項１に記載の方法。

【請求項20】

前記複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得することと、
前記複数の精緻化済みネットワークパラメータを近似するように、符号器の適応ループ内フィルタ（ＡＬＦ）のフィルタ係数を拡張または調整することと、
をさらに含む、請求項１に記載の方法。

【請求項21】

１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサによって実行可能な命令を記憶するように構成されたメモリと、
を備え、
前記１つまたは複数のプロセッサは、前記命令を実行すると、請求項１から２０のいずれか１つに記載の方法を実施するように構成されている、映像符号化のためにニューラルネットワークをハイブリッド訓練するための装置。

【請求項22】

１つまたは複数のコンピュータプロセッサによって実行されると、前記１つまたは複数のコンピュータプロセッサに、請求項１から２０のいずれか１つに記載の方法を実施させる、コンピュータ実行可能命令を記憶した非一時的コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０２１年３月３日に出願された米国仮出願番号第６３／１５６，３５０号、題名「Methods and Apparatus for Hybrid Training of Neural Networks for Video Coding」に対する優先権を主張し、その全体が参照により本明細書に援用される。

【0002】

本開示は、映像符号化に関し、とりわけ、限定はされないが、映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法および装置に関する。

【背景技術】

【0003】

種々の映像符号化技法が、映像データを圧縮するために使用される場合がある。映像符号化は、１つまたは複数の映像符号化規格に従って実施される。例えば、映像符号化規格としては、汎用映像符号化（Versatile Video Coding：ＶＶＣ）、ジョイント探索テストモデル（Joint Exploration test Model：ＪＥＭ）、高性能映像符号化（H.265/High-Efficiency Video Coding：ＨＥＶＣ）、高度映像符号化（H.264/Advanced Video Coding：ＡＶＣ）、動画専門家集団（Moving Picture Expert Group：ＭＰＥＧ）符号化などが挙げられる。映像符号化は、一般に、映像画像またはシーケンスに存在する冗長性を活用する予測方法（例えば、インター予測、イントラ予測など）を利用する。映像符号化技法の重要な目的は、映像品質の低下を回避するかまたは最小化するのと共に、より低いビットレートを使用する形式に映像データを圧縮することである。

【0004】

ＨＥＶＣ規格の最初のバージョンは２０１３年１０月に確定され、これは、前世代の映像符号化規格Ｈ．２６４／ＭＰＥＧＡＶＣと比較して、約５０％のビットレート節減または同等の知覚的品質を提供する。ＨＥＶＣ規格は、その前身のものよりも大幅な符号化の改善が見られるが、ＨＥＶＣより優る符号化ツールを追加することで、さらに優れた符号化効率を達成できるという証拠が存在する。これに基づいて、ＶＣＥＧおよびＭＰＥＧの両方は、将来的な映像符号化規格に向けた新たな符号化技術の探索作業を開始した。１つの共同映像探索チーム（Joint Video Exploration Team：ＪＶＥＴ）がＩＴＵ－ＴＶＥＣＧおよびＩＳＯ／ＩＥＣＭＰＥＧによって２０１５年１０月に結成され、符号化効率の大幅な向上を可能にし得る先進技術の重要な検討が開始された。ＪＶＥＴは、ＨＥＶＣテストモデル（HEVC test Model：ＨＭ）に加えて、いくつかの追加の符号化ツールを統合することによって共同探索モデル（Joint Exploration Model：ＪＥＭ）と呼ばれる１つの参照ソフトウェアを維持している。

【0005】

ＨＥＶＣを超える映像圧縮能力に関して共同研究公募（joint Call for Proposal：ＣｆＰ）が、ＩＴＵ－ＴおよびＩＳＯ／ＩＥＣによって発表された。２３のＣｆＰの返答があり、第１０回ＪＶＥＴ会議で評価された。これにより、およそ４０％を上回るＨＥＶＣの圧縮効率利得が実証された。このような評価結果に基づいて、汎用映像符号化（ＶＶＣ）と名付けられた新世代映像符号化規格を開発するためにＪＶＥＴは新しいプロジェクトを立ち上げた。ＶＶＣテストモデル（VVC Test Model：ＶＴＭ）と呼ばれる１つの参照ソフトウェアコードベースが、ＶＶＣ規格の照合基準製品を実証するために確立された。

【発明の概要】

【0006】

本開示は、映像符号化のためのニューラルネットワークに対するハイブリッド訓練を使用して映像符号化効率を向上させることに関する技術の例を提供する。

【0007】

本開示の第１の態様によれば、映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法が提供される。この方法は、オフライン訓練段階で、複数の第１データセットを使用して、ニューラルネットワークをオフラインで訓練することによってオフライン訓練ネットワークを取得することと、オンライン訓練段階で、複数の第２データセットを使用して、複数のニューラルネットワーク層を精緻化することと、を含み、複数のニューラルネットワーク層は、オフライン訓練ネットワークまたはオフライン訓練ネットワークに接続されたシンプルニューラルネットワーク内に少なくとも１つのニューラルネットワーク層を含んでいてよい。

【0008】

本開示の第２の態様によれば、映像符号化のためにニューラルネットワークをハイブリッド訓練するための装置が提供される。この装置は、１つまたは複数のプロセッサ、および１つまたは複数のプロセッサによって実行可能な命令を記憶するように構成されたメモリを備える。さらに、１つまたは複数のプロセッサは、命令を実行すると、第１の態様による方法を実施するように構成されている。

【0009】

本開示の第３の態様によれば、１つまたは複数のコンピュータプロセッサによって実行されると、１つまたは複数のコンピュータプロセッサに第１の態様による方法を実施させるコンピュータ実行可能命令を記憶する非一時的コンピュータ可読記憶媒体が提供される。

【図面の簡単な説明】

【0010】

本開示の例のより具体的な説明は、添付図面に示されている特定の例を参照することによって行われる。これらの図面は、いくつかの例のみを描いており、したがって、範囲を限定するものではないと見なされるものであり、各例について、添付の図面を使用することによって、さらに具体的かつ詳細に説明および解説する。

【0011】

【図1】本開示のいくつかの実装形態に従ったブロックベースの映像符号器を示したブロック図である。

【0012】

【図2】本開示のいくつかの実装形態に従ったブロックベースの映像復号器を示したブロック図である。

【0013】

【図3A】本開示のいくつかの実装形態に従った４分ツリー分割モードを示した略図である。

【0014】

【図3B】本開示のいくつかの実装形態に従った垂直２分ツリー分割モードを示した略図である。

【0015】

【図3C】本開示のいくつかの実装形態に従った水平２分ツリー分割モードを示した略図である。

【0016】

【図3D】本開示のいくつかの実装形態に従った垂直３分ツリー分割モードを示した略図である。

【0017】

【図3E】本開示のいくつかの実装形態に従った水平３分ツリー分割モードを示した略図である。

【0018】

【図4】本開示のいくつかの実装形態に従った入力層、出力層、および複数の隠れ層からなるシンプルＦＣ－ＮＮを示した図である。

【0019】

【図5A】本開示のいくつかの実装形態に従った２つの隠れ層を含むＦＣ－ＮＮを示した図である。

【0020】

【図5B】本開示のいくつかの実装形態に従った第２隠れ層の次元が［Ｗ、Ｈ、深さ］であるＣＮＮの例を示した図である。

【0021】

【図6】本開示のいくつかの実装形態に従った入力画像を空間フィルタに適用する例を示した図である。

【0022】

【図7A】本開示のいくつかの実装形態に従った、恒等結合によってその入力と共に要素的に加算されるＲｅｓＮｅｔの要素である残差ブロックを含む単一の画像超解像（ＲｅｓＮｅｔ）を示した図である。

【0023】

【図7B】本開示のいくつかの実装形態に従った残差モジュールのステーキングによるＲｅｓＮｅｔの例を示した図である。

【0024】

【図8】本開示のいくつかの実装形態に従ったハイブリッド訓練フレームワークを示した図である。

【0025】

【図9A】本開示のいくつかの実装形態に従ったオフライン訓練ネットワークおよびオフライン訓練ネットワークに接続されたシンプルネットワークに対するオンライン訓練の例を示した図である。

【0026】

【図9B】本開示のいくつかの実装形態に従ったオフライン訓練ネットワークに対するオンライン訓練の例を示した図である。

【0027】

【図9C】本開示のいくつかの実装形態に従ったオフライン訓練ネットワークおよびオフライン訓練ネットワークに接続されたシンプルネットワークに対するオンライン訓練の例を示した図である。

【0028】

【図9D】本開示のいくつかの実装形態に従ったオフライン訓練ネットワークに含まれる残差ブロックの例を示した図である。

【0029】

【図10】本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するための装置を示したブロック図である。

【0030】

【図11】本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。

【0031】

【図12】本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。

【0032】

【図13】本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。

【0033】

【図14】本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。

【発明を実施するための形態】

【0034】

次に、添付図面にその例が示されている具体的な実装形態を詳細に参照する。以下、発明を実施するための形態では、本明細書で提示する主題に対する理解を助力するために、多数の非限定的な具体的な詳細について記載する。しかし、様々な変形例を使用できることは、当業者には明らかであろう。例えば、本明細書で提示する主題は、デジタル映像能力を備える電子デバイスの多くのタイプに実装され得ることが当業者には明らかであろう。

【0035】

本明細書全体における「一実施形態」、「ある実施形態」、「例」、「いくつかの実施形態」、「いくつかの例」、または類似の用語に対する言及は、記載されている特定の特性、構造、または特徴が、少なくとも１つの実施形態または例に含まれることを意味する。さらに、１つまたはいくつかの実施形態に関して記載される特性、構造、要素、または特徴もまた、別段の明示的な定めがない限り、他の実施形態に適用可能である。

【0036】

本開示の全体を通して、用語「第１」、「第２」、「第３」などは、全て、例えば、デバイス、コンポーネント、組成物、ステップなどの関連する要素に対する参照のために命名されるものであり、別段の明示的な定めがない限り、空間的または時間的順序を意味するものではない。例えば、「第１デバイス」および「第２デバイス」は、別々に形成された２つのデバイス、または同じデバイスの２つのパーツ、コンポーネントもしくは動作可能状態を意味する場合があり、任意に命名されてよい。

【0037】

用語「モジュール」、「サブモジュール」、「電気回路」、「サブ電気回路」、「回路」、「サブ回路」、「ユニット」、または「サブユニット」は、１つまたは複数のプロセッサによって実行され得る符号または命令を記憶するメモリ（共有、専用、またはグループ）を含んでいてよい。モジュールは、記憶される符号または命令を含む、または含まない１つまたは複数の電気回路を含んでいてよい。モジュールまたは電気回路は、直接または間接的に接続された１つまたは複数のコンポーネントを含んでいてよい。これらのコンポーネントは、互いに物理的に接続されていてもいなくてもよく、または互いに近くに配置されていてもいなくてもよい。

【0038】

本明細書で使用される場合、用語「～する場合」または「～するとき」は、文脈によっては「の際に」または「に応じて」と理解されてよい。これらの用語は、請求項に記載されていたとしても、関連する制限または特性が条件付きまたは任意であることを意味しない場合がある。例えば、方法は、ｉ）条件Ｘが存在するとき、または存在する場合、機能または動作Ｘ’が実施され、ｉｉ）条件Ｙが存在するとき、または存在する場合、機能または動作Ｙ’が実施される、というステップを含んでいてよい。方法は、機能または動作Ｘ’を実施する能力および機能または動作Ｙ’を実施する能力の両方を用いて実行されてよい。したがって、機能Ｘ’およびＹ’の両方が、方法の複数の実行時に異なる時間に、実施されてよい。

【0039】

ユニットまたはモジュールは、純粋にソフトウェアによって、純粋にハードウェアによって、またはハードウェアとソフトウェアとの組み合わせによって実装されてよい。純粋なソフトウェア実装形態では、例えば、ユニットまたはモジュールは、特定の機能を実施するために互いに直接または間接的に接続された、機能上関連する符号化ブロックまたはソフトウェアコンポーネントを含んでいてよい。

【0040】

ＨＥＶＣと同様に、ＶＶＣは、ブロックベースのハイブリッド映像符号化フレームワークに基づいて構築されている。図１は、本開示のいくつかの実装形態に従ったブロックベースの映像符号器を示すブロック図である。符号器１００では、入力映像信号が、符号化ユニット（Coding Unit：ＣＵ）と呼ばれるブロックごとに処理される。ＶＴＭ－１．０では、ＣＵは１２８×１２８画素まで可能であった。
しかし、４分ツリーだけに基づいてブロックを分割するＨＥＶＣとは異なり、ＶＶＣでは、１つの符号化木ユニット（Coding Tree Unit：ＣＴＵ）がＣＵに分割されて、４分／２分／３分ツリーに基づいて様々なローカル特徴に適合される。加えて、ＨＥＶＣにおける複数の分割ユニットタイプの構想が削除され、すなわちＶＶＣには、ＣＵ、予測ユニット（Prediction Unit：ＰＵ）、および変換ユニット（Transform Unit：ＴＵ）の分割が存在せず、その代わりに、さらなる分割を伴わずに予測および変換の両方に向けて各ＣＵが基本ユニットとして常に使用される。マルチタイプツリー構造では、１つのＣＴＵが、まず４分ツリー構造によって分割される。次に、各４分ツリーリーフノードが、２分および３分ツリー構造によってさらに分割され得る。

【0041】

図３Ａから３Ｅは、本開示のいくつかの実装形態に従ったマルチタイプツリー分割モードを示す略図である。図３Ａから３Ｅは、４分（図３Ａ）、垂直２分（図３Ｂ）、水平２分（図３Ｃ）、垂直３分（図３Ｄ）、水平３分（図３Ｅ）を含む５つの分割タイプをそれぞれ示している。

【0042】

所与の映像ブロックごとに、空間予測および／または時間予測が行われてよい。空間予測（または「イントラ予測」）は、同じ映像ピクチャ／スライス内の既に符号化されている近傍のブロックのサンプル（参照サンプルと称される）からの画素を使用して、現在の映像ブロックを予測する。空間予測により、映像信号に固有の空間的冗長性が低減される。時間予測（「インター予測」または「運動補償式予測」とも称される）は、既に符号化されている映像ピクチャからの再構築画素を使用して、現在の映像ブロックを予測する。時間予測により、映像信号に固有の時間的冗長性が低減される。所与ＣＵに関する時間予測信号は、通常、現在のＣＵとその時間的参照との間の動きの量および方向を示す１つまたは複数の動きベクトル（Motion Vector：ＭＶ）によって伝達される。また、複数の参照ピクチャがサポートされている場合、１つの参照ピクチャインデックスが追加的に送信され、これは、時間予測信号が参照ピクチャ記憶装置内のどの参照ピクチャから来るかを識別するために使用される。

【0043】

空間予測および／または時間予測後、符号器１００内のイントラ／インターモード決定回路１２１は、例えば、レート－歪み最適化法に基づいて、最良の予測モードを選択する。次に、ブロック予測因子１２０が、現在の映像ブロックから減算され、かつ得られた予測残差は、変換回路１０２および量子化回路１０４を使用して非相関化される。得られた量子化された残差係数は、逆量子化回路１１６によって逆量子化され、逆変換回路によって逆変換されて、再構築残差が形成され、次に、この再構築残差が予測ブロックに再度追加されて、ＣＵの再構築信号が形成される。さらに、デブロッキングフィルタ、サンプル適応オフセット（Sample Adaptive Offset：ＳＡＯ）、および／または適応ループ内フィルタ（Adaptive in-Loop Filter：ＡＬＦ）などのループ内フィルタ１１５が、再構築ＣＵに適用されてよく、その後、再構築ＣＵは、ピクチャバッファ１１７の参照ピクチャ記憶装置に入れられ、さらなる映像ブロックを符号化するために使用される。出力映像ビットストリーム１１４を形成するために、符号化モード（インターまたはイントラ）、予測モード情報、動き情報、および量子化された残差係数は、全て、エントロピー符号化ユニット１０６に送信され、さらに圧縮およびパックされてビットストリームが形成される。

【0044】

例えば、デブロッキングフィルタは、ＡＶＣ、ＨＥＶＣだけではなく、ＶＶＣの最新バージョンで利用可能である。ＨＥＶＣでは、ＳＡＯと呼ばれる追加のループ内フィルタが、符号化効率をさらに向上させるために規定されている。ＶＶＣ規格の最新バージョンでは、ＡＬＦと呼ばれるさらに別のループ内フィルタが、積極的に調査されており、最終的な規格に含まれる可能性が高い。

【0045】

これらのループ内フィルタ操作は任意のものである。これらの操作の実施は、符号化効率およびビジュアル品質の改善を助力する。これらはまた、計算量を節約するために、符号器１００によって決定される場合にオフにされることもある。

【0046】

イントラ予測は、通常、フィルタ無し再構築画素に基づき、一方、インター予測は、これらのフィルタオプションが、符号器１００によってオンにされる場合フィルタ有り再構築画素に基づくという点に留意すべきである。

【0047】

図２は、多数の映像符号化規格と共に使用されてよいブロックベース映像復号器２００を示すブロック図である。この復号器２００は、図１の符号器１００内に常駐する再構築関連セクションに類似している。復号器２００では、入力映像ビットストリーム２０１が、まず、エントロピー復号化２０２を通して復号化されて、量子化係数レベルおよび予測関連情報が導出される。次に、量子化係数レベルは、逆量子化２０４および逆変換２０６を通して処理され、再構築予測残差が得られる。イントラ／インターモード選択器２１２に実装されているブロック予測子メカニズムは、復号化された予測情報に基づいて、イントラ予測２０８または動き補償２１０のいずれかを実施するように構成される。フィルタ無し再構築画素のセットは、加算器２１４を使用して、逆変換２０６からの再構築予測残差およびブロック予測子メカニズムによって生成された予測出力を加算することによって得られる。

【0048】

再構築ブロックは、さらに、ループ内フィルタ２０９に通され、その後、参照ピクチャ記憶装置として機能するピクチャバッファ２１３に記憶される。ピクチャバッファ２１３内の再構築映像は、表示デバイスを駆動するために送信され、さらに、将来の映像ブロックを予測するために使用される。ループ内フィルタ２０９がオンになっている状況では、これらの再構築画素に対してフィルタリング操作が実施されて、最終の再構築映像出力２２２が導出される。

【0049】

ニューラルネットワークが映像符号化システムで使用される場合、ニューラルネットワークモデルは、オフラインまたはオンラインで訓練されてよい。本開示では、オンラインおよびオフライン訓練方法の両方が映像符号化効率を向上させるために使用される、ハイブリッド訓練フレームワークの方法および装置について記載する。説明を容易にするために、本開示では、例として、ループ内フィルタを取り上げるが、提案する着想は映像符号化システムの他の機能部分、例えば、図１における予測モード決定または変換にも同様に拡張されてよい。提案するハイブリッド訓練法は、従来のブロックベースの映像符号化システムまたはエンドツーエンドニューラルネットワークベースの映像符号化システムに適用することができる。

【0050】

ニューラルネットワーク技法、例えば、全結合ニューラルネットワーク（Fully Connected Neural Network：ＦＣ－ＮＮ）、畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）、および長短期記憶ネットワーク（Long Short-Term Memory network：ＬＳＴＭ）は、コンピュータビジョンおよび映像理解を含む、多くの研究領域で既に著しい成功を収めている。

【0051】

全結合ニューラルネットワーク（ＦＣ－ＮＮ）
図４は、本開示のいくつかの実装形態に従った入力層、出力層、および複数の隠れ層からなるシンプルＦＣ－ＮＮを示している。ｋ番目の層で、出力f^k(x^k-1,W^k,B^k)は、下記式によって生成される。

【数1】

式中

【数2】

は、（ｋ－ｌ）番目の層の出力であり、

【数3】

および

【数4】

は、ｋ番目の層の重みおよびバイアスである。δ(・)は、式（３）で定義付けられるような活性化関数、例えば、正規化線形ユニット（Rectified Linear Unit：ＲｅＬＵ）関数である。

【数5】

したがって、ｋ層ＦＣ－ＮＮの一般的な形式は以下のようになる。

【数6】

【0052】

普遍近似仮定および式（４）に従って、任意の連続関数g(x)およびいくつかのε>0が適用されると、

【数7】

となるような非線形の合理的な選択肢、例えば、ＲｅＬＵを含むニューラルネットワークf(x)が存在する。したがって、多くの経験的研究は、表面下の説明可能な特徴を抽出するために、隠れた変数を有するモデルを模倣する近似器としてニューラルネットワークを適用した。例えば、画像認識に応用することで、ＦＣ－ＮＮは、研究者が単一画素だけではなく、いっそう深く複雑な部分構造、例えば、エッジ、テクスチャー、幾何学的形状、および物体を把握するシステムを構築する助けになる。

【0053】

畳み込みニューラルネットワーク（ＣＮＮ）
図５Ａは、本開示のいくつかの実装形態に従った２つの隠れ層を含むＦＣ－ＮＮを示している。画像または映像アプリケーション向けの一般的なニューラルネットワーク構成であるＣＮＮは、重みおよびバイアス行列を含む、図５Ａに示すようなＦＣ－ＮＮと非常に類似している。ＣＮＮは、ニューラルネットワークの３Ｄバージョンと見ることができる。図５Ｂは、本開示のいくつかの実装形態に従った第２隠れ層の次元が［Ｗ、Ｈ、深さ］であるＣＮＮの例を示している。図５Ｂでは、ニューロンは、ＣＮＮを形成するために３次元構造（幅、高さ、および深さ）で配列されており、かつ第２隠れ層が視覚化されている。この例では、入力層は、入力画像または映像フレームを維持するため、その幅および高さは入力データと同じである。画像または映像アプリケーションと共に適用するために、ＣＮＮ内の各ニューロンは、その入力と整合するように深さが拡張された空間フィルタ要素である。例えば、入力画像に３色の構成要素がある場合、深さは３である。

【0054】

図６は、本開示のいくつかの実装形態に従った入力画像と共に空間フィルタを適用する例を示している。図６に示すように、ＣＮＮの基本要素の次元は、［Filter_width, Filter_height, Input_depth, Output_depth］と定義付けられ、かつ、この例では［５、５、３、４］に設定されている。各空間フィルタは、入力画像に対して５×５×３の重みを用いて２次元空間畳み込みを実施する。入力画像は、６４×６４×３の画像である。その場合、４つの畳み込み結果が出力される。そのため、さらに２画素で境界をパディングすると、フィルタ処理された結果の次元は、［６４＋４、６４＋４、４］となる。

【0055】

残差ネットワーク（ＲｅｓＮｅｔ）
画像分類では、ニューラルネットワークの深さが深くなると、精度が飽和し、急激に低下する。より詳細には、より多くの層を深層ニューラルネットワークに加えると、勾配が深層ネットワークに沿って徐々に消失し、最終的に勾配がゼロに近づくため、訓練エラーが多くなる。その場合、残差ブロックから構成されるＲｅｓＮｅｔにより、恒等結合を導入することによって精度低下の問題が解決されるようになる。

【0056】

図７Ａは、本開示のいくつかの実装形態に従った、恒等結合によってその入力と共に要素的に加算されるＲｅｓＮｅｔの要素である残差ブロックを含むＲｅｓＮｅｔを示している。図７Ａに示すように、ＲｅｓＮｅｔの基本モジュールは、残差ブロックおよび恒等結合からなる。普遍近似仮定によれば、入力ｘが適用されると、残差ブロックの活性化関数を有する重み付けされた層は、出力H(x)=F(x)+xではなく隠れ関数F(x)を近似する。

【0057】

非線形多層ニューラルネットワークを積み重ねることで、残差ブロックは、入力画像のローカル特徴を表す特徴を探索する。図７Ａに示すように、追加のパラメータおよび計算の複雑さのいずれも導入することなく、恒等結合は、１つまたは複数の非線形の重み付けされた層を省略することによって訓練可能な深層学習ネットワークを構築することが証明されている。重み付けされた層を省略することにより、残差層の差分出力を以下のように表すことができる。

【数8】

【0058】

したがって、差分項∂H(x)/∂xが、段階的にゼロに近づいていく場合であっても、勾配がゼロのまま留まり、さらに情報伝搬が妨げられる代わりに、恒等項は、依然として入力を受け継いで次の層に渡すことができる。ニューロンが情報を次のニューロンに伝搬できない場合、ニューロンが死んでいるように見え、ニューラルネットワークの中で訓練不可能な要素となる。追加の後、別の非線形活性化関数も同様に適用することができる。図７Ｂは、本開示のいくつかの実装形態に従った残差モジュールのステーキングによるＲｅｓＮｅｔの例を示している。図７Ｂに示すように、残差特徴は、次のモジュールに伝搬される前に、恒等特徴と融合される。

【0059】

より良好な汎化のために、オフライン訓練ニューラルネットワークは、複数の層を含んでいてよく、訓練段階中に繰り返し更新される。層の数が比較的多くなると、パラメータのサイズが大きくなる場合があり、その結果、過度な処理遅延およびメモリ消費が推論段階で発生する可能性がある。加えて、オフライン訓練ニューラルネットワークモデルは、所与のデータセットによって学習されるが、そのモデルが他の部分に適用される場合、実際のデータ特徴、例えば、照度、テクスチャー、物体変形などを反映しない可能性がある。

【0060】

一方、オンライン訓練ニューラルネットワークは、実際のアプリケーションシナリオによく適応するが、より小さいパラメータサイズにより制約され、それにより、ニューラルネットワークの非線形表現能力の利用が制限される可能性がある。

【0061】

映像符号化システムの場合、グラウンドトゥルース、例えば、非圧縮映像データは、符号器側で常にアクセス可能であるため、オンライン訓練が実行可能になる。複合的な利点を追求するために、オンラインおよびオフライン訓練の両方を含むハイブリッド訓練フレームワークについて開示する。

【0062】

ハイブリッド訓練フレームワーク
本開示では、映像符号化システム向けに使用されるニューラルネットワークの符号化効率を改善するハイブリッド訓練フレームワークを提案する。提案するハイブリッド訓練フレームワークは、以下の特徴の任意の組み合わせを含んでいてもよい。

【0063】

一部の例では、同じまたは異なるネットワーク構成を有する１つまたは複数のニューラルネットワークが、最初にオフラインで訓練されてよい。オフライン訓練向けに選択されるデータセットは、より良好な汎化の目的のために、異なるデータ特徴、例えば、様々なバックグラウンドテクスチャーを含む静止画像、物体の動きが少ない映像などを含むんでいてよい。

【0064】

次に、オフライン訓練モデルは、オンライン訓練によって精緻化され、例えば、特定の映像コンテンツに適応させるためにオンラインで訓練される。このオンライン訓練段階では、少数の層を更新するだけでよい。更新されない層については、例えば、訓練アルゴリズムが勾配降下法に基づくものである場合、それらの層の勾配は、強制的にゼロに設定されてよい。特定のニューラルネットワークフレームワークでは、更新されない層は、例えば、ＰｙＴｏｒｃｈのように、訓練不可能に設定されることがある。

【0065】

他のいくつかの例では、オンライン訓練段階で、オフライン訓練モデルは、さらなる精緻化の有無にかかわらず、特徴抽出器として扱われてよく、層または重みが非常に少ない新しいシンプルネットワークがオフライン訓練モデルの後に接続されてよい。

【0066】

異なる訓練段階で、同じまたは異なる学習アルゴリズムが使用されてよい。１つまたは複数の例では、収束速度が厳しくなく、かつ汎化がより重要なオフライン訓練段階では、確率的勾配降下法（Stochastic Gradient Descent：ＳＧＤ）などの学習アルゴリズムの使用が好ましい場合がある。一方、訓練速度および訓練データへの高速適合の両方が重要なオンライン訓練段階では、適応モーメント推定（Adaptive Moment Estimation：ＡＤＡＭ）などの高速学習アルゴリズムの使用が好ましい場合がある。

【0067】

１つまたは複数の例では、同じ訓練段階で、異なるアルゴリズム間の切り替えが行われてよい。例えば、オフライン訓練段階では、最初のエポックで、ＡＤＡＭなどの高速アルゴリズムが使用され、次に、損失関数が所定の閾値を下回る損失を生成する場合に学習アルゴリズムがＳＧＤに切り替えられる。

【0068】

一部の例では、学習アルゴリズムが同じ訓練段階で、または異なる訓練段階間で切り替えられる場合、学習率パラメータの好適な開始値も同時に切り替えられてよい。学習率の特定の値は、損失関数またはそれ自体のアルゴリズムに関連付けられてよい。

【0069】

オンライン訓練ベースモデル精緻化では、時間範囲に関連する２つの係数は、時間的頻度および時間的カバレッジを含む。時間的頻度は、いつオンライン訓練ベースモデル精緻化が行われるかを決定する。

【0070】

１つまたは複数の例では、オンライン訓練は、周期的に、例えば、２秒ごとに、１秒ごとに、またはＮ個の映像フレームごとに行われてよい。この際、Ｎは、正整数であってよい。一部の例では、オンライン訓練は、イベントに基づいて始動されてよい。

【0071】

１つまたは複数の例では、オンライン訓練は、映像符号器の挙動、例えば、即時的復号器リフレッシュ（Instantaneous Decoder Refresh：ＩＤＲ）符号化ピクチャの生成によって始動されてよい。新しいＩＤＲフレームが生成されるたびに、その後の動き予測映像フレームは、例えば、参照ピクチャの変更に起因して、完全に異なるレベルのアーチファクトを含む可能性がある。

【0072】

１つまたは複数の例では、オンライン訓練は、映像符号器の構成、例えば、イントラ周期値またはフレームレートによって始動されてよい。符号器の構成は、ビットレート制御、エラーコンシールメントなどの様々な理由から動的に変更されてよい。符号器の構成の変更は、所定のプロファイルまたはデバイス上で動作しているオペレーションシステムのより低いプロトコル層によって実行されてよい。

【0073】

１つまたは複数の例では、オンライン訓練は、映像コンテンツ、例えば、シーン検出によって始動されてよい。映像フレーム内の物体、物体のバックグラウンド、または物体および物体のバックグラウンドが変化する場合、映像フレーム内の予測、仕切り粒度、または映像フレーム内の予測および仕切り粒度も同時に変更される可能性がある。これらのコンテンツの変化は、映像符号化ビット、符号化歪み、または映像符号化ビットおよび符号化歪みが発生する主な原因となる。

【0074】

一部の例では、オンライン訓練は、周期的なものと、イベントトリガーとを組み合わせた仕方で始動されてよい。例えば、オンライン訓練は、まず周期的に行われ、次に、トリガーイベントに応じて省略されてよい。

【0075】

さらに、時間的カバレッジは、モデル更新に使用される訓練データを決定する。収束速度は、オンライン訓練では重要である。訓練データは、処理遅延だけではなく、訓練収束にも影響を与え、例えば、多様性の高い映像データは、訓練の収束が難しい。

【0076】

１つまたは複数の例では、時間層情報などの符号化情報は、訓練データを選択する基準として使用されてよい。例えば、ピクチャの各グループ内で、各時間層から１つのピクチャがオンライン訓練向けに選択されてよい。

【0077】

１つまたは複数の例では、映像コンテンツは、訓練データを選択する基準として使用してよい。例えば、各オンライン訓練期間内で、隣接する映像フレームは、時間的に冗長性が高い可能性があり、これは、物体およびバックグラウンドが極めて類似していることを意味する。このケースでは、物体およびバックグラウンドテクスチャーの両方を含むシーン情報または関心領域が、符号器側で抽出されてよく、かつ全ピクチャの代わりにこれらの抽出された小さなパッチが、オンライン訓練データとして使用されてよい。

【0078】

一部の例では、映像フレーム以外の情報もまた、例えば、マルチフレームベース訓練向けの訓練データとして使用される。例えば、各選択された映像フレームと固定フレーム、例えば、参照ピクチャとの間の動き情報が、動き予測フレームを訓練するために使用されてよい。このケースでは、オプティカルフローマップが動き情報の表現として生成されてよい。

【0079】

オンライン訓練段階で、各選択された映像フレームは、オンライン訓練データとして使用される前に、小さなパッチに分割されるか、またはクロップされてよい。小さなパッチは、特定の基準に従ってクラスター化されてよい。一部の例では、同じまたは異なるクラスターとして分類されたパッチのみが、オンライン訓練データとして選択される。

【0080】

一部の例では、各小さなパッチは、スケール不変特徴記述子、例えば、指向型勾配のヒストグラムまたはテンプレート、例えば、単語の集合に基づく特徴ベクトルで表されてよい。異なるパッチは、表現の類似性によってクラスター化される。

【0081】

いくつかの例では、パッチは、異なるレベルの歪みによってクラスター化される。

【0082】

オンライン訓練段階では、品質の低い、例えば、量子化パラメータが特定の閾値を超えている映像フレームまたはパッチは、物体の境界またはテクスチャーの詳細にボケがある可能性がある。したがって、これらのデータは、訓練の収束を困難にする深刻な訓練混乱を引き起こす可能性があり、訓練データとして選択すべきではない。

【0083】

映像符号化では、オフライン訓練ニューラルネットワークモデルは、訓練後に様々な多様な映像シーケンスに対して働かせることが想定され、したがって、十分な汎化が必要であり、一方で、オンライン訓練ニューラルネットワークモデルは、小さな時間空間内に映像データに適合する、例えば、イントラ期間内に映像フレームに適合することのみが必要であり、したがって、良い過適合が必要である。様々な要件のために、モデル訓練プロセスは、汎化と過適合とのトレードオフの観点から検討されてよい。

【0084】

１つまたは複数の例では、汎化と過適合とのトレードオフのバランスは、十分な量のデータに基づいてネットワークを訓練することによって制御することができる。このことについては、既に説明した。例えば、オフラインモデルはより大きくかつ多様なデータセットに基づいて訓練され、その一方で、オンラインモデルまたはモデル精緻化は、制約された時間範囲、空間範囲、および品質範囲内で訓練される。

【0085】

１つまたは複数の例では、汎化と過適合とのトレードオフのバランスは、ネットワークの複雑さを変えることによって制御することができる。１つの例では、ネットワークの複雑さは、ネットワーク構造を調整することによって変えることができる。具体的には、訓練可能なモデルパラメータまたは重みの数は、柔軟に設定可能である。例えば、オンライン訓練ネットワークは、少数の層のみを訓練可能に設定してよく、その一方で、オフライン訓練ネットワークは、多数の層または全ての層を訓練可能に設定してよい。この方法は、構造的安定化と呼ばれる場合がある。

【0086】

別の例では、ネットワークの複雑さは、ネットワークパラメータのダイナミックレンジを調整することによって変えることができる。ダイナミックレンジが小さいパラメータは、入力訓練データの統計的変動の影響を受けにくいため、汎化能力が高い。しかし、オンラインモデルのように過適合が望ましい場合、ダイナミックレンジがより大きいパラメータが望ましい。

【0087】

一部の例では、データタイプ、例えば、整数または浮動小数点が、ネットワークパラメータまたは重みのダイナミックレンジを制御するために使用される。一部の他の例では、正則化法が、ネットワークパラメータまたは重みのダイナミックレンジを制御するために使用される。典型的な正則化法の１つは、訓練プロセス中に、パラメータまたは重みの値の大きさに基づいて、モデルにペナルティ、例えば、損失関数を付与することである。このアプローチは、重み正則化または重み減少と呼ばれる。

【0088】

図８は、本開示のいくつかの実装形態に従ったハイブリッド訓練フレームワークを示している。図８に示すように、１つまたは複数のモデルは、まず多様なデータ特徴を有する大量の画像または映像データを用いてオフラインで訓練され、次に、モデルは、少量のデータを用いてオンライン訓練によって繰り返し精緻化される。オンライン訓練の目的は、ネットワークが各精緻化期間内に少量のデータをより良好に過適合できるようにネットワークの複雑さを低減することである。ネットワークの複雑さは、ネットワーク内の訓練可能な層、パラメータ、または重みの数を制限することによって、またはそのような訓練可能なパラメータまたは重みの好適なダイナミックレンジを設定することによって低減することができる。

【0089】

図９Ａから９Ｄは、オフライン訓練ネットワークおよび／またはオフライン訓練ネットワークに接続されたシンプルネットワークに加えて、オンライン訓練を実施する方法の例を示している。図９Ａから９Ｄに示すように、図９Ａに示すようにオフライン訓練ネットワークに接続された新しいシンプルネットワークがオンライン訓練段階で訓練されてよく、または図９Ｂに示すようにオフライン訓練ネットワーク内の層の部分集合が精緻化されるか、または図９Ｃに示すように新しいシンプルネットワークおよびオフライン訓練ネットワーク内の層の部分集合の両方がオンライン訓練段階で訓練される。

【0090】

オンライン訓練されたパラメータまたは重みの送信
各オンライン訓練後の出力は、ネットワークパラメータまたは重みのサイズが制限されている。シグナリングオーバーヘッドを低減するために、パラメータまたは重みは、ビットストリームへの書き込みの前に圧縮される必要がある。

【0091】

１つまたは複数の例では、更新されたパラメータが、大きく、かつ過適合に起因する入力データの変動の影響を受けやすいことがあっても、パラメータプルーニングおよび量子化は、依然として実施することができる。しかし、感度を維持するために、感度の手動設定が有益であり、これは層の数が一般的に少ないため実行可能である。

【0092】

１つまたは複数の例では、更新されたパラメータを直接伝達する代わりに、平均シフトまたは重み共有のような方法が、前処理ステップとして使用されてよい。パラメータ更新前と後との差異は、差分マップとして導出して、構築することができ、これにより、更新されたパラメータを伝達するビットをさらに低減することができる。

【0093】

他の既存ループ内フィルタとの相互作用
映像符復号化のために訓練されたネットワークがループ内フィルタとして使用される場合、オンライン訓練後の更新されたパラメータを使用して、他のループ内フィルタの訓練を導くことができる。例えば、適応ループ内フィルタ（ＡＬＦ）の場合、導出されたフィルタ係数は、更新されたパラメータを近似するように拡張または調整することができる。一旦、ＡＬＦフィルタ係数が精緻化されると、更新されたニューラルネットワークパラメータを伝達する必要がなくなり、ビットを節約できるだけではなく、ニューラルネットワークモデルフィルタリングの使用に起因する処理遅延も低減できる。

【0094】

図１０は、本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するための装置を示したブロック図である。装置１０００は、モバイル電話、タブレットコンピュータ、デジタルブロードキャスト端末、タブレットデバイスまたは携帯情報端末などの端末であってよい。

【0095】

図１０に示すように、装置１０００は、処理コンポーネント１００２、メモリ１００４、電源供給コンポーネント１００６、マルチメディアコンポーネント１００８、オーディオコンポーネント１０１０、入力／出力（Input/Output：Ｉ／Ｏ）インターフェース１０１２、センサコンポーネント１０１４、および通信コンポーネント１０１６のうち１つまたは複数を含んでいてもよい。

【0096】

処理コンポーネント１００２は、通常、表示、電話、データ通信、カメラ操作および録音動作に関する操作など、装置１０００の全体的な操作を制御する。処理コンポーネント１００２は、上記方法のステップの全てまたは一部を完了するための命令を実行する１つまたは複数のプロセッサ１０２０を含んでいてもよい。さらに、処理コンポーネント１００２は、処理コンポーネント１００２と他のコンポーネントとの間の相互作用を促進する１つまたは複数のモジュールを含んでいてもよい。例えば、処理コンポーネント１００２は、マルチメディアコンポーネント１００８と処理コンポーネント１００２との間の相互作用を促進するマルチメディアモジュールを含んでいてもよい。

【0097】

メモリ１００４は、装置１０００の動作をサポートするために様々なタイプのデータを記憶するように構成される。そのようなデータの例としては、装置１０００上で動作する任意のアプリケーションまたは方法に対する命令、連絡先データ、電話帳データ、メッセージ、写真、映像、などが挙げられる。メモリ１００４は、任意のタイプの揮発性もしくは不揮発性記憶デバイスまたはこれらの組み合わせによって実装されていてよく、またはメモリ１００４は、静的ランダムアクセスメモリ（Static Random Access Memory：ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（Electrically Erasable Programmable Read-Only Memory：ＥＥＰＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（Erasable Programmable Read-Only Memory：ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（Programmable Read-Only Memory：ＰＲＯＭ）、読み取り専用メモリ（Read-Only Memory：ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたはコンパクトディスクであってよい。

【0098】

電源供給コンポーネント１００６は、装置１０００の異なるコンポーネントに電力を供給する。電源供給コンポーネント１００６は、電源供給管理システム、１つまたは複数の電源供給部、および装置１０００の電力を生成、管理、および分配することに関する他のコンポーネントを含んでいてもよい。

【0099】

マルチメディアコンポーネント１００８は、装置１０００とユーザとの間の出力インターフェースを提供するスクリーンを含む。いくつかの例では、スクリーンは、液晶ディスプレイ（Liquid Crystal Display：ＬＣＤ）およびタッチパネル（Touch Panel：ＴＰ）を含んでいてよい。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するタッチスクリーンとして実装されてよい。タッチパネルは、タッチパネルへの接触、スライド、およびジェスチャを検出する１つまたは複数のタッチセンサを含んでいてもよい。タッチセンサは、接触またはスライド操作の境界のみを検出するだけではなく、接触またはスライド操作に関連する期間および圧力も検出することができる。いくつかの例では、マルチメディアコンポーネント１００８は、フロントカメラおよび／またはリアカメラを含んでいてもよい。装置１０００が、撮影モードまたは映像モードなどの動作モードの場合、フロントカメラおよび／またはリアカメラは、外部マルチメディアデータを受信することができる。

【0100】

オーディオコンポーネント１０１０は、音声信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント１０１０は、マイクロフォン（MICrophone：ＭＩＣ）を含む。装置１０００が、コールモード、録音モード、および音声認識モードなどの動作モードの場合、マイクロフォンは、外部音声信号を受信するように構成される。受信された音声信号は、さらに、メモリ１００４に記憶されるか、または通信コンポーネント１０１６を介して送信されてよい。いくつかの例では、オーディオコンポーネント１０１０は、音声信号を出力するスピーカーをさらに含んでいてもよい。

【0101】

Ｉ／Ｏインターフェース１０１２は、処理コンポーネント１００２と周辺装置インターフェースモジュールとの間にインターフェースを形成する。上記の周辺装置インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンとしては、ホームボタン、ボリュームボタン、スタートボタン、およびロックボタンを挙げることができるが、これらに限定されない。

【0102】

センサコンポーネント１０１４は、装置１０００に関する異なる態様の状態評価を提供するための１つまたは複数のセンサを含む。例えば、センサコンポーネント１０１４は、装置１０００のオン／オフ状態、およびコンポーネントの相対位置を検出することができる。例えば、コンポーネントは、装置１０００のディスプレイおよびキーパッドである。センサコンポーネント１０１４はまた、装置１０００または装置１０００のコンポーネントの配置変化、装置１０００に対するユーザの接触の存在もしくは不存在、装置１０００の方向もしくは加速／減速、および装置１０００の温度変化を検出することもできる。センサコンポーネント１０１４は、なんらかの物理的接触を伴わずに近くの物体の存在を検出するように構成された近接センサを含んでいてもよい。センサコンポーネント１０１４は、イメージングアプリケーションで使用されるＣＭＯＳまたはＣＣＤ画像センサなどの光学的センサをさらに含んでいてもよい。いくつかの例では、センサコンポーネント１０１４は、加速センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ、または温度センサをさらに含んでいてもよい。

【0103】

通信コンポーネント１０１６は、装置１０００と他のデバイスとの間の有線または無線通信を促進するように構成される。装置１０００は、ＷｉＦｉ、４Ｇまたはこれらの組み合わせなどの通信規格に基づいて、無線ネットワークにアクセスすることができる。一例では、通信コンポーネント１０１６は、ブロードキャスト信号またはブロードキャスト関連情報を、ブロードキャストチャネルを介して外部ブロードキャスト管理システムから受信する。一例では、通信コンポーネント１０１６は、短距離通信を促進するための近距離無線通信（Near Field Communication：ＮＦＣ）モジュールをさらに含んでいてもよい。例えば、ＮＦＣモジュールは、無線周波数識別情報（Radio Frequency IDentification：ＲＦＩＤ）技術、赤外線データ協会（Infrared Data Association：ＩｒＤＡ）技術、超広帯域（Ultra-Wide Band：ＵＷＢ）技術、ブルートゥース(登録商標)（BlueTooth：ＢＴ）技術、および他の技術に基づいて実装されてよい。

【0104】

一例では、装置１０００は、前述の方法を実施するために、特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）、デジタル信号プロセッサ（Digital Signal Processor：ＤＳＰ）、デジタル信号処理デバイス（Digital Signal Processing Device：ＤＳＰＤ）、プログラマブル論理デバイス（Programmable Logic Device：ＰＬＤ）、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array：ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたはその他の電子的要素のうち１つまたは複数によって実装されてよい。非一時的コンピュータ可読記憶媒体は、例えば、ハードディスクドライブ（Hard Disk Drive：ＨＤＤ）、ソリッドステートドライブ（Solid-State Drive：ＳＳＤ）、フラッシュメモリ、ハイブリッドドライブもしくはソリッドステートハイブリッドドライブ（Solid-State Hybrid Drive：ＳＳＨＤ）、読み取り専用メモリ（ＲＯＭ）、コンパクトディスク読み取り専用メモリ（Compact Disc Read-Only Memory：ＣＤ－ＲＯＭ）、磁気テープ、フロッピー（登録商標）ディスクなどであってよい。

【0105】

図１１は、本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。

【0106】

ステップ１１０１で、プロセッサ１０２０は、オフライン訓練段階で、複数の第１データセットを使用してニューラルネットワークをオフラインで訓練することによりオフライン訓練ネットワークを取得する。図８に示すように、複数の第１データセットは、大きなオフラインデータ、例えば、画像、映像を含んでいてよい。

【0107】

一部の例では、複数の第１データセットは、より良好な汎化目的のための様々な特徴、例えば、様々なバックグラウンドテクスチャーを有する静止画像、物体の動きが少ない映像を含むデータセットを含んでいてよい。

【0108】

ステップ１１０２で、プロセッサ１０２０は、オンライン訓練段階で、複数の第２データセットを使用して複数のニューラルネットワーク層を精緻化する。

【0109】

一部の例では、図９Ａから９Ｃに示すように、複数のニューラルネットワーク層は、オフライン訓練ネットワークまたはオフライン訓練ネットワークに接続されたシンプルニューラルネットワーク内に少なくとも１つのニューラルネットワーク層を含んでいてよい。図９Ａに示すように、オフライン訓練ネットワークまたはモデルは、複数の残差ブロック（Residual Block：ＲＢ）を含む。各ＲＢは、図９Ｄに示す構造と同じ構造を有していてよい。図９Ｄに示すように、ＲＢは、２つの畳み込み層および２つの畳み込み層に挟まれた正規化線形ユニット（Ｒｅｌｕ）層を含む。オフライン訓練ネットワークに接続されたシンプルネットワークは、限定はされないが、２つの畳み込み層を含む。オンライン訓練は、シンプルネットワーク内の２つの畳み込み層のみ（図９Ａ）、オフライン訓練ネットワーク内の最後のＲＢのみ（図９Ｂ）、またはオフライン訓練ネットワーク内の最後のＲＢおよびシンプルネットワーク内の２つの畳み込み層（図９Ｃ）で実施されてよい。

【0110】

一部の例では、プロセッサ１０２０は、複数の第２データセットを使用して複数のニューラルネットワーク層を繰り返し精緻化する。

【0111】

一部の例では、オフライン訓練ネットワークは、図９Ａから９Ｃに示すように、精緻化される複数のニューラルネットワーク層よりも多いニューラルネットワーク層を含んでいてよい。

【0112】

一部の例では、シンプルニューラルネットワークは、オフライン訓練ネットワークよりも少ないニューラルネットワーク層を含んでいてよい。

【0113】

一部の例では、プロセッサ１０２０は、さらに、同じ訓練段階もしくは異なる訓練段階で、異なる学習アルゴリズムを実施するか、または同じ訓練段階もしくは異なる訓練段階で、学習アルゴリズム内の学習率パラメータの異なる開始値を適用してよい。例えば、ＳＧＤアルゴリズムおよびＡＤＡＭアルゴリズムの両方が、オフライン訓練段階またはオンライン訓練段階で、実施されてよい。一部の例では、ＳＧＤアルゴリズムがオフライン訓練段階で実施されて、ＡＤＡＭアルゴリズムがオンライン訓練段階で実施されてよい。

【0114】

一部の例では、プロセッサ１０２０は、オフライン訓練段階で、損失関数によって生成される損失が所定の閾値未満であると判定するのに応じて、ＡＤＡＭアルゴリズムからＳＧＤアルゴリズムに切り替えてもよい。

【0115】

一部の例では、複数のニューラルネットワーク層は、周期的にか、またはトリガーイベントに応じてか、の少なくとも一方で精緻化されてよい。さらに、トリガーイベントは、ＩＤＲ符号化ピクチャの生成、映像符号器構成の変更、または映像コンテンツの変化のうち１つを含んでいてよく、この際、映像コンテンツは、映像フレーム内に物体および／または物体のバックグラウンドを含んでいてよい。

【0116】

一部の例では、複数の第２データセットは、符号化情報、映像コンテンツ、および／または映像フレーム以外の情報を含んでいてよく、この際、符号化情報は、時間層情報を含んでいてよく、映像コンテンツは、映像フレームから関心領域に基づいて抽出された複数のパッチを含んでいてよく、映像フレーム以外の情報は、動き情報を含んでいてよい。

【0117】

一部の例では、複数のパッチは、同じクラスターに属しているパッチ、または異なるクラスターに属しているパッチから選択されてよく、ここで、映像フレームからクロップされる異なるパッチは、表現類似性または歪みのレベルに基づく異なるクラスターに対応している。

【0118】

一部の例では、複数の第２データセットは、品質の低い映像フレームまたはパッチを含んでいてよい。例えば、品質の低い映像フレームまたはパッチは、所定の閾値未満の品質を有していてよい。一例では、所定の閾値は、３２に等しい量子化パラメータ（Quantization Parameter：ＱＰ）に相当する。

【0119】

一部の例では、複数の第１データセットは、複数の第２データセットよりもデータが多くてよい。複数の第２データセットは、図８に示すように少量のデータ、例えば、少数の映像フレームであってよい。

【0120】

一部の例では、プロセッサ１０２０は、ネットワークパラメータの部分集合が訓練可能となるように構成することでネットワークパラメータの訓練可能な構造を制御することによって、複数のニューラルネットワーク層を繰り返し精緻化する。

【0121】

一部の例では、プロセッサ１０２０は、ネットワークパラメータのデータタイプを制御することによって複数のニューラルネットワーク層を繰り返し精緻化する。

【0122】

一部の例では、プロセッサ１０２０は、重み正則化を使用して複数のニューラルネットワーク層のネットワークパラメータを制御することによって複数のニューラルネットワーク層を繰り返し精緻化する。

【0123】

図１２は、本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。

【0124】

ステップ１２０１で、プロセッサ１０２０は、複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得する。

【0125】

ステップ１２０２で、プロセッサ１０２０は、複数の精緻化済みネットワークパラメータに基づく複数の処理済みネットワークパラメータを取得する。

【0126】

一部の例では、プロセッサ１０２０は、複数の精緻化済みネットワークパラメータをプルーニングもしくは量子化することによって、または平均シフトまたは重み共有を使用して、複数の精緻化済みネットワークパラメータを処理することによって、複数の精緻化済みネットワークパラメータに基づく複数の処理済みネットワークパラメータを取得する。

【0127】

ステップ１２０３で、プロセッサ１０２０は、複数の処理済みネットワークパラメータを伝達する。

【0128】

図１３は、本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。

【0129】

ステップ１３０１で、プロセッサ１０２０は、複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得する。

【0130】

ステップ１３０２で、プロセッサ１０２０は、複数のニューラルネットワーク層の元のネットワークパラメータと、複数の精緻化済みネットワークパラメータとの差異を取得する。

【0131】

ステップ１３０３で、プロセッサ１０２０は、差異に基づいて差分マップを構築する。一部の例では、複数の処理済みネットワークパラメータを直接または間接的に伝達する代わりに、符号器が、差分マップを復号器に送信してよい。

【0132】

図１４は、本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。

【0133】

ステップ１４０１で、プロセッサ１０２０は、複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得する。

【0134】

ステップ１４０２で、プロセッサ１０２０は、複数の精緻化済みネットワークパラメータを近似するように、符号器のＡＬＦのフィルタ係数を拡張または調整する。

【0135】

一部の他の例では、命令を記憶した非一時的コンピュータ可読記憶媒体１００４が提供される。これらの命令が、１つまたは複数のプロセッサ１０２０によって実行されると、これらの命令は、このプロセッサに図１１から１４に記載の方法および上述の方法のいずれかを実施させる。

【0136】

本開示の説明は、例示の目的で提示したが、本開示を網羅するまたは制限することを意図していない。いくつかの修正、変形、および代替の実装形態が、上記の説明および関連する図面で提示した教示の利益を有する当業者にとって明らかであろう。

【0137】

これらの例は、開示の原理を説明し、当業者が様々な実装形態に関する開示を理解し、意図された特定の用途に適した様々な修正を加えた基礎となる原則および様々な実装形態を最善に利用できるようにするために選択され、記載された。したがって、開示の範囲は、開示された実装形態の具体例に限定されるものではなく、修正およびその他の実装形態が、本開示の範囲に含まれることを意図していると理解されるべきである。

【図1】

【図2】

【図3A】

【図3B】

【図3C】

【図3D】

【図3E】

【図4】

【図5A】

【図5B】

【図6】

【図7A】

【図7B】

【図8】

【図9A】

【図9B】

【図9C】

【図9D】

【図10】

【図11】

【図12】

【図13】

【図14】

【手続補正書】

【提出日】2023-09-27

【手続補正1】

【補正対象書類名】明細書

【補正対象項目名】０００７

【補正方法】変更

【補正の内容】

【0007】

本開示の第１の態様によれば、映像符号化のために第１ニューラルネットワークをハイブリッド訓練するための方法が提供される。この方法は、オフライン訓練段階で、複数の第１データセットを使用して、ニューラルネットワークをオフラインで訓練することによってオフライン訓練ネットワークを取得することと、オンライン訓練段階で、複数の第２データセットを使用して、複数のニューラルネットワーク層を精緻化することと、を含み、該複数のニューラルネットワーク層は、オフライン訓練ネットワークまたはオフライン訓練ネットワークに接続された第２ニューラルネットワーク内に少なくとも１つのニューラルネットワーク層を含んでいてよい。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】０００９

【補正方法】変更

【補正の内容】

【0009】

本開示の第３の態様によれば、１つまたは複数のコンピュータプロセッサによって実行されると、１つまたは複数のコンピュータプロセッサに第１の態様による方法を実施させるコンピュータ実行可能命令を記憶する非一時的コンピュータ可読記憶媒体が提供される。
本開示の第４の態様によれば、映像符号化方法が提供される。この方法は、復号器で、符号化された映像情報とオンラインで訓練されたパラメータを含むビットストリームを受け取ることと、ビットストリームを用いた復号により、復号された映像情報を取得することを含み、ビットストリームにおけるオンラインで訓練されたパラメータは、第１の態様による方法によって生成される。

【手続補正3】

【補正対象書類名】明細書

【補正対象項目名】００２５

【補正方法】変更

【補正の内容】

【0025】

【図9A】本開示のいくつかの実装形態に従ったオフライン訓練ネットワークおよびオフライン訓練ネットワークに接続されたシンプルニューラルネットワークに対するオンライン訓練の例を示した図である。

【手続補正4】

【補正対象書類名】明細書

【補正対象項目名】００２７

【補正方法】変更

【補正の内容】

【0027】

【図9C】本開示のいくつかの実装形態に従ったオフライン訓練ネットワークおよびオフライン訓練ネットワークに接続されたシンプルニューラルネットワークに対するオンライン訓練の例を示した図である。

【手続補正5】

【補正対象書類名】明細書

【補正対象項目名】００６５

【補正方法】変更

【補正の内容】

【0065】

他のいくつかの例では、オンライン訓練段階で、オフライン訓練モデルは、さらなる精緻化の有無にかかわらず、特徴抽出器として扱われてよく、層または重みが非常に少ない新しいシンプルニューラルネットワークがオフライン訓練モデルの後に接続されてよい。本開示において、オフラインで訓練されるニューラルネットワークは、第１ニューラルネットワークとも呼ぶ場合もあり、シンプルニューラルネットワークは、第２ニューラルネットークとも呼ぶ場合もある。

【手続補正6】

【補正対象書類名】明細書

【補正対象項目名】００８９

【補正方法】変更

【補正の内容】

【0089】

図９Ａから９Ｄは、オフライン訓練ネットワークおよび／またはオフライン訓練ネットワークに接続されたシンプルニューラルネットワークに加えて、オンライン訓練を実施する方法の例を示している。図９Ａから９Ｄに示すように、図９Ａに示すようにオフライン訓練ネットワークに接続された新しいシンプルニューラルネットワークがオンライン訓練段階で訓練されてよく、または図９Ｂに示すようにオフライン訓練ネットワーク内の層の部分集合が精緻化されるか、または図９Ｃに示すように新しいシンプルネットワークおよびオフライン訓練ネットワーク内の層の部分集合の両方がオンライン訓練段階で訓練される。

【手続補正7】

【補正対象書類名】明細書

【補正対象項目名】０１０６

【補正方法】変更

【補正の内容】

【0106】

ステップ１１０１で、プロセッサ１０２０は、オフライン訓練段階で、複数の第１データセットを使用してニューラルネットワークをオフラインで訓練することによりオフライン訓練ネットワークを取得する。図８に示すように、複数の第１データセットは、大きなオフラインデータ、例えば、画像、映像を含んでいてよい。オフラインで訓練されるニューラルネットワークは、第１ニューラルネットワークとも呼ぶ場合もある。

【手続補正8】

【補正対象書類名】明細書

【補正対象項目名】０１０９

【補正方法】変更

【補正の内容】

【0109】

一部の例では、図９Ａから９Ｃに示すように、複数のニューラルネットワーク層は、オフライン訓練ネットワークまたはオフライン訓練ネットワークに接続されたシンプルニューラルネットワーク内に少なくとも１つのニューラルネットワーク層を含んでいてよい。シンプルニューラルネットワークは、第２ニューラルネットークとも呼ぶ場合もある。図９Ａに示すように、オフライン訓練ネットワークまたはモデルは、複数の残差ブロック（Residual Block：ＲＢ）を含む。各ＲＢは、図９Ｄに示す構造と同じ構造を有していてよい。図９Ｄに示すように、ＲＢは、２つの畳み込み層および２つの畳み込み層に挟まれた正規化線形ユニット（Ｒｅｌｕ）層を含む。オフライン訓練ネットワークに接続されたシンプルニューラルネットワークは、限定はされないが、２つの畳み込み層を含む。オンライン訓練は、シンプルニューラルネットワーク内の２つの畳み込み層のみ（図９Ａ）、オフライン訓練ネットワーク内の最後のＲＢのみ（図９Ｂ）、またはオフライン訓練ネットワーク内の最後のＲＢおよびシンプルニューラルネットワーク内の２つの畳み込み層（図９Ｃ）で実施されてよい。第２ニューラルネットークのニューラルネットワーク層の数は、第１ニューラルネットークのニューラルネットワーク層の数より少ない。

【手続補正9】

【補正対象書類名】明細書

【補正対象項目名】０１３５

【補正方法】変更

【補正の内容】

【0135】

一部の他の例では、命令を記憶した非一時的コンピュータ可読記憶媒体１００４が提供される。これらの命令が、１つまたは複数のプロセッサ１０２０によって実行されると、これらの命令は、このプロセッサに図１１から１４に記載の方法および上述の方法のいずれかを実施させる。１つの例では、これらの命令は、符号化工程で上記の方法を実行して、映像情報（例えば、映像フレームおよび／または関連する１つまたは複数のシンタックス要素を示す映像ブロックなど）と、オンラインで訓練されたパラメータまたは重みをビットストリームまたはデータストリームへと符号化すように、装置１０００のプロセッサ１０２０によって実行されてよく、このビットストリームまたはデータストリームを（例えば、図２の映像復号器２００に）送信するように、装置１０００のプロセッサ１０２０によって実行されてもよい。あるいは、例えば、上記の方法を用いて、符号化工程で、符号器（例えば、図１の映像符号器１００）によって生成された、符号化された映像情報（例えば、符号化された映像フレームおよび／または関連する１つまたは複数のシンタックス要素を示す映像ブロックなど）と、オンラインで訓練されたパラメータまたは重みを有するビットストリームまたはデータストリームを、復号器（例えば、図２の映像復号器２００）で映像データを復号するのに利用するために、非一時的コンピュータ可読記憶媒体が記憶していてよい。非一時的コンピュータ可読記憶媒は、例えば、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピディスク、光学データ記憶装置などであってよい。
いくつかの例では、映像符号化方法が提供される。この方法は、復号器で、符号化された映像情報とオンラインで訓練されたパラメータを有するビットストリームを受け取ることと、このビットストリームを用いた復号により、復号された映像情報を取得することを含み、このビットストリームにおけるオンラインで訓練されたパラメータは、ニューラルネットワークをハイブリッド訓練するための上述の方法によって生成される。

【手続補正10】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

オフライン訓練段階で、複数の第１データセットを使用して、第１ニューラルネットワークをオフラインで訓練することによってオフライン訓練ネットワークを取得することと、
オンライン訓練段階で、複数の第２データセットを使用して、複数のニューラルネットワーク層を精緻化することと、を含み、前記複数のニューラルネットワーク層は、前記オフライン訓練ネットワークまたは前記オフライン訓練ネットワークに接続された第２ニューラルネットワーク内に少なくとも１つのニューラルネットワーク層を含む、
映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法。

【請求項2】

【請求項3】

【請求項4】

前記オフライン訓練ネットワークは、複数の残差ブロックを含み、精緻化される前記複数のニューラルネットワーク層は、前記オフライン訓練ネットワーク内の最後の残差ブロックを含む、請求項１に記載の方法。

【請求項5】

前記第２ニューラルネットワークは、少なくとも１つの畳み込み層を含み、かつ前記第２ニューラルネットワークのニューラルネットワーク層の数は前記オフライン訓練ネットワークのニューラルネットワーク層の数より少なく、かつ精緻化される前記複数のニューラルネットワーク層は、前記第２ニューラルネットワーク内の前記少なくとも１つの畳み込み層を含む、請求項１に記載の方法。

【請求項6】

オンライン訓練段階またはオフライン訓練段階である訓練段階のうち、同じ訓練段階もしくは異なる訓練段階で、異なる学習アルゴリズムを実施することか、または
同じ訓練段階もしくは異なる訓練段階で、学習アルゴリズム内の学習率パラメータの異なる開始値を適用すること、
をさらに含む、請求項１に記載の方法。

【請求項7】

異なる訓練段階で異なる学習アルゴリズムを実施することは、
前記オフライン訓練段階で確率的勾配降下法（ＳＧＤ）アルゴリズムを実施し、前記オンライン訓練段階で適応モーメント推定（ＡＤＡＭ）アルゴリズムを実施することを含み、
同じ訓練段階で異なる学習アルゴリズムを実施することは、
前記オフライン訓練段階で、損失関数によって生成される損失が所定の閾値未満であると判定するのに応じて、適応モーメント推定（ＡＤＡＭ）アルゴリズムから確率的勾配降下法（ＳＧＤ）アルゴリズムに切り替えることを含む、
請求項６に記載の方法。

【請求項8】

前記複数のニューラルネットワーク層は、周期的にか、またはトリガーイベントに応じてか、の少なくとも一方で精緻化され、
前記トリガーイベントは、
映像符号器の挙動、
映像符号器構成の変更、または
映像フレーム内に物体または物体のバックグラウンドを含んでいる映像コンテンツの変化、
のうち１つのイベントを含む、請求項１に記載の方法。

【請求項9】

前記複数の第２データセットは、符号化情報、映像コンテンツ、および映像フレーム以外の情報のうちの少なくとも１つを含み、
前記符号化情報は、時間層情報を含み、
前記映像コンテンツは、映像フレームから関心領域に基づいて抽出された複数のパッチを含み、かつ
前記映像フレーム以外の情報は、動き情報を含む、請求項１に記載の方法。

【請求項10】

前記複数のパッチは、同じクラスターに属しているパッチ、または異なるクラスターに属しているパッチから選択され、映像フレームからクロップされる異なるパッチは、表現類似性または歪みのレベルに基づく異なるクラスターに対応している、請求項９に記載の方法。

【請求項11】

前記複数の第１データセットのデータ量は、前記複数の第２データセットのデータ量よりも多い、請求項１に記載の方法。

【請求項12】

前記複数のニューラルネットワーク層を繰り返し精緻化することは、
ネットワークパラメータの部分集合を訓練可能となるように構成することによって前記ネットワークパラメータの訓練可能な構造を制御することか、
ネットワークパラメータのデータタイプを制御することによって前記ネットワークパラメータのダイナミックレンジを制御することか、
重み正則化を使用して前記複数のニューラルネットワーク層のネットワークパラメータを制御することか
のうちの少なくとも１つを含む、請求項２に記載の方法。

【請求項13】

【請求項14】

【請求項15】

【請求項16】

１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサによって実行可能な命令を記憶するように構成されたメモリと、
を備え、
前記１つまたは複数のプロセッサは、前記命令を実行すると、請求項１から１５のいずれか１つに記載の方法を実施するように構成されている、映像符号化のためにニューラルネットワークをハイブリッド訓練するための装置。

【請求項17】

１つまたは複数のコンピュータプロセッサによって実行されると、前記１つまたは複数のコンピュータプロセッサに、請求項１から１５のいずれか１つに記載の方法を実施させる、コンピュータ実行可能命令を記憶した非一時的コンピュータ可読記憶媒体。

【請求項18】

命令を含み、該命令は、プロセサによって該命令が実行された時に、請求項１から１５のいずれか１つに記載の方法を実施する、コンピュータ可読記憶媒体に記憶されたコンユータプログラム。

【請求項19】

符号化された映像情報とオンラインで訓練されたパラメータを有するビットストリームであって、該ビットストリーム内の前記オンラインで訓練されたパラメータは、請求項１から１５のいずれか１つに記載の方法によって生成される、ビットストリーム。

【請求項20】

画像符号化装置によって生成されたビットストリームを送信する方法であって、
前記画像符号化装置は、
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサによって実行可能な命令を記憶するように構成されたメモリと、
を備え、
前記１つまたは複数のプロセッサは、前記命令を実行すると、請求項１から１５のいずれか１つに記載の方法を実施するように構成されている、方法。

【手続補正11】

【補正対象書類名】図面

【補正対象項目名】図８

【補正方法】変更

【補正の内容】

【図8】