(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-01
(54)【発明の名称】映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法および装置
(51)【国際特許分類】
H04N 19/192 20140101AFI20240222BHJP
H04N 19/82 20140101ALI20240222BHJP
H04N 19/196 20140101ALI20240222BHJP
【FI】
H04N19/192
H04N19/82
H04N19/196
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023553445
(86)(22)【出願日】2022-03-02
(85)【翻訳文提出日】2023-09-27
(86)【国際出願番号】 US2022018582
(87)【国際公開番号】W WO2022187409
(87)【国際公開日】2022-09-09
(32)【優先日】2021-03-03
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521289098
【氏名又は名称】ベイジン ダジア インターネット インフォメーション テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】BEIJING DAJIA INTERNET INFORMATION TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 101,8th Floor,Building 12,No.16,Xierqi West Road,Haidian District,Beijing 100085,P.R.China
(74)【代理人】
【識別番号】100112656
【氏名又は名称】宮田 英毅
(74)【代理人】
【識別番号】100089118
【氏名又は名称】酒井 宏明
(72)【発明者】
【氏名】チェン,ウェイ
(72)【発明者】
【氏名】シュウ,シャオユウ
(72)【発明者】
【氏名】チェン,イウェン
(72)【発明者】
【氏名】ジュ,ホンジェン
(72)【発明者】
【氏名】クオ,チェウェイ
(72)【発明者】
【氏名】ワン,シャンリン
(72)【発明者】
【氏名】ユ,ビン
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159LC09
5C159MA04
5C159MA05
5C159MA21
5C159MC11
5C159ME01
5C159TA69
5C159TB08
5C159TD17
5C159UA02
5C159UA05
5C159UA16
5C159UA33
(57)【要約】
映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法および装置を提供する。この方法は、オフライン訓練段階で、複数の第1データセットを使用して、ニューラルネットワークをオフラインで訓練することによってオフライン訓練ネットワークを取得することと、オンライン訓練段階で、複数の第2データセットを使用して、複数のニューラルネットワーク層を精緻化することと、を含み、複数のニューラルネットワーク層は、オフライン訓練ネットワークまたはオフライン訓練ネットワークに接続されたシンプルニューラルネットワーク内に少なくとも1つのニューラルネットワーク層を含んでいてよい。
【特許請求の範囲】
【請求項1】
オフライン訓練段階で、複数の第1データセットを使用して、ニューラルネットワークをオフラインで訓練することによってオフライン訓練ネットワークを取得することと、
オンライン訓練段階で、複数の第2データセットを使用して、複数のニューラルネットワーク層を精緻化することと、を含み、前記複数のニューラルネットワーク層は、前記オフライン訓練ネットワークまたは前記オフライン訓練ネットワークに接続されたシンプルニューラルネットワーク内に少なくとも1つのニューラルネットワーク層を含む、
映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法。
【請求項2】
前記複数の第2データセットを使用して前記複数のニューラルネットワーク層を精緻化することは、前記複数の第2データセットを使用して前記複数のニューラルネットワーク層を繰り返し精緻化することを含む、請求項1に記載の方法。
【請求項3】
前記オフライン訓練ネットワークは、精緻化される前記複数のニューラルネットワーク層よりも多いニューラルネットワーク層を含む、請求項1に記載の方法。
【請求項4】
前記オフライン訓練ネットワークは、複数の残差ブロックを含み、精緻化される前記複数のニューラルネットワーク層は、前記オフライン訓練ネットワーク内の最後の残差ブロックを含む、請求項3に記載の方法。
【請求項5】
前記シンプルニューラルネットワークは、2つの畳み込み層を含み、かつ前記シンプルニューラルネットワークは、前記オフライン訓練ネットワークよりも少ないニューラルネットワーク層を含み、かつ精緻化される前記複数のニューラルネットワーク層は、前記シンプルニューラルネットワーク内の前記2つの畳み込み層を含む、請求項1に記載の方法。
【請求項6】
同じ訓練段階もしくは異なる訓練段階で、異なる学習アルゴリズムを実施することか、または
同じ訓練段階もしくは異なる訓練段階で、学習アルゴリズム内の学習率パラメータの異なる開始値を適用すること、
をさらに含む、請求項1に記載の方法。
【請求項7】
異なる訓練段階で異なる学習アルゴリズムを実施することは、
前記オフライン訓練段階で確率的勾配降下法(SGD)アルゴリズムを実施し、前記オンライン訓練段階で適応モーメント推定(ADAM)アルゴリズムを実施することを含む、請求項6に記載の方法。
【請求項8】
同じ訓練段階で異なる学習アルゴリズムを実施することは、
前記オフライン訓練段階で、損失関数によって生成される損失が所定の閾値未満であると判定するのに応じて、適応モーメント推定(ADAM)アルゴリズムから確率的勾配降下法(SGD)アルゴリズムに切り替えることを含む、請求項6に記載の方法。
【請求項9】
前記複数のニューラルネットワーク層は、周期的にか、またはトリガーイベントに応じてか、の少なくとも一方で精緻化される、請求項1に記載の方法。
【請求項10】
前記トリガーイベントは、
即時的復号器リフレッシュ(Instantaneous Decoder Refresh:IDR)符号化ピクチャの生成、
映像符号器構成の変更、または
映像フレーム内に物体または物体のバックグラウンドを含んでいる映像コンテンツの変化、
のうち1つを含む、請求項9に記載の方法。
【請求項11】
前記複数の第2データセットは、符号化情報、映像コンテンツ、または映像フレーム以外の情報を含み、
前記符号化情報は、時間層情報を含み、
前記映像コンテンツは、映像フレームから関心領域に基づいて抽出された複数のパッチを含み、かつ
前記映像フレーム以外の情報は、動き情報を含む、請求項1に記載の方法。
【請求項12】
前記複数のパッチは、同じクラスターに属しているパッチ、または異なるクラスターに属しているパッチから選択され、映像フレームからクロップされる異なるパッチは、表現類似性または歪みのレベルに基づく異なるクラスターに対応している、請求項11に記載の方法。
【請求項13】
前記複数の第2データセットは、所定の閾値を下回る品質の映像フレームまたはパッチを含む、請求項1に記載の方法。
【請求項14】
前記複数の第1データセットは、前記複数の第2データセットよりもデータが多い、請求項1に記載の方法。
【請求項15】
前記複数のニューラルネットワーク層を繰り返し精緻化することは、
ネットワークパラメータの部分集合を訓練可能となるように構成することによって前記ネットワークパラメータの訓練可能な構造を制御することを含む、請求項2に記載の方法。
【請求項16】
前記複数のニューラルネットワーク層を繰り返し精緻化することは、
ネットワークパラメータのデータタイプを制御することによって前記ネットワークパラメータのダイナミックレンジを制御することを含む、請求項2に記載の方法。
【請求項17】
前記複数のニューラルネットワーク層を繰り返し精緻化することは、
重み正則化を使用して前記複数のニューラルネットワーク層のネットワークパラメータを制御することを含む、請求項2に記載の方法。
【請求項18】
前記複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得することと、
前記複数の精緻化済みネットワークパラメータをプルーニングまたは量子化することか、または
平均シフトもしくは重み共有を使用して前記複数の精緻化済みネットワークパラメータを処理すること、
のうち1つの操作によって、前記複数の精緻化済みネットワークパラメータに基づく複数の処理済みネットワークパラメータを取得することと、
前記複数の処理済みネットワークパラメータを伝達することと、をさらに含む、
請求項1に記載の方法。
【請求項19】
前記複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得することと、
前記複数のニューラルネットワーク層の元のネットワークパラメータと前記複数の精緻化済みネットワークパラメータとの差異を取得することと、
前記差異に基づいて差分マップを構築することと、
をさらに含む、請求項1に記載の方法。
【請求項20】
前記複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得することと、
前記複数の精緻化済みネットワークパラメータを近似するように、符号器の適応ループ内フィルタ(ALF)のフィルタ係数を拡張または調整することと、
をさらに含む、請求項1に記載の方法。
【請求項21】
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行可能な命令を記憶するように構成されたメモリと、
を備え、
前記1つまたは複数のプロセッサは、前記命令を実行すると、請求項1から20のいずれか1つに記載の方法を実施するように構成されている、映像符号化のためにニューラルネットワークをハイブリッド訓練するための装置。
【請求項22】
1つまたは複数のコンピュータプロセッサによって実行されると、前記1つまたは複数のコンピュータプロセッサに、請求項1から20のいずれか1つに記載の方法を実施させる、コンピュータ実行可能命令を記憶した非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年3月3日に出願された米国仮出願番号第63/156,350号、題名「Methods and Apparatus for Hybrid Training of Neural Networks for Video Coding」に対する優先権を主張し、その全体が参照により本明細書に援用される。
【0002】
本開示は、映像符号化に関し、とりわけ、限定はされないが、映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法および装置に関する。
【背景技術】
【0003】
種々の映像符号化技法が、映像データを圧縮するために使用される場合がある。映像符号化は、1つまたは複数の映像符号化規格に従って実施される。例えば、映像符号化規格としては、汎用映像符号化(Versatile Video Coding:VVC)、ジョイント探索テストモデル(Joint Exploration test Model:JEM)、高性能映像符号化(H.265/High-Efficiency Video Coding:HEVC)、高度映像符号化(H.264/Advanced Video Coding:AVC)、動画専門家集団(Moving Picture Expert Group:MPEG)符号化などが挙げられる。映像符号化は、一般に、映像画像またはシーケンスに存在する冗長性を活用する予測方法(例えば、インター予測、イントラ予測など)を利用する。映像符号化技法の重要な目的は、映像品質の低下を回避するかまたは最小化するのと共に、より低いビットレートを使用する形式に映像データを圧縮することである。
【0004】
HEVC規格の最初のバージョンは2013年10月に確定され、これは、前世代の映像符号化規格H.264/MPEG AVCと比較して、約50%のビットレート節減または同等の知覚的品質を提供する。HEVC規格は、その前身のものよりも大幅な符号化の改善が見られるが、HEVCより優る符号化ツールを追加することで、さらに優れた符号化効率を達成できるという証拠が存在する。これに基づいて、VCEGおよびMPEGの両方は、将来的な映像符号化規格に向けた新たな符号化技術の探索作業を開始した。1つの共同映像探索チーム(Joint Video Exploration Team:JVET)がITU-T VECGおよびISO/IEC MPEGによって2015年10月に結成され、符号化効率の大幅な向上を可能にし得る先進技術の重要な検討が開始された。JVETは、HEVCテストモデル(HEVC test Model:HM)に加えて、いくつかの追加の符号化ツールを統合することによって共同探索モデル(Joint Exploration Model:JEM)と呼ばれる1つの参照ソフトウェアを維持している。
【0005】
HEVCを超える映像圧縮能力に関して共同研究公募(joint Call for Proposal:CfP)が、 ITU-TおよびISO/IECによって発表された。23のCfPの返答があり、第10回JVET会議で評価された。これにより、およそ40%を上回るHEVCの圧縮効率利得が実証された。このような評価結果に基づいて、汎用映像符号化(VVC)と名付けられた新世代映像符号化規格を開発するためにJVETは新しいプロジェクトを立ち上げた。VVCテストモデル(VVC Test Model:VTM)と呼ばれる1つの参照ソフトウェアコードベースが、VVC規格の照合基準製品を実証するために確立された。
【発明の概要】
【0006】
本開示は、映像符号化のためのニューラルネットワークに対するハイブリッド訓練を使用して映像符号化効率を向上させることに関する技術の例を提供する。
【0007】
本開示の第1の態様によれば、映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法が提供される。この方法は、オフライン訓練段階で、複数の第1データセットを使用して、ニューラルネットワークをオフラインで訓練することによってオフライン訓練ネットワークを取得することと、オンライン訓練段階で、複数の第2データセットを使用して、複数のニューラルネットワーク層を精緻化することと、を含み、複数のニューラルネットワーク層は、オフライン訓練ネットワークまたはオフライン訓練ネットワークに接続されたシンプルニューラルネットワーク内に少なくとも1つのニューラルネットワーク層を含んでいてよい。
【0008】
本開示の第2の態様によれば、映像符号化のためにニューラルネットワークをハイブリッド訓練するための装置が提供される。この装置は、1つまたは複数のプロセッサ、および1つまたは複数のプロセッサによって実行可能な命令を記憶するように構成されたメモリを備える。さらに、1つまたは複数のプロセッサは、命令を実行すると、第1の態様による方法を実施するように構成されている。
【0009】
本開示の第3の態様によれば、1つまたは複数のコンピュータプロセッサによって実行されると、1つまたは複数のコンピュータプロセッサに第1の態様による方法を実施させるコンピュータ実行可能命令を記憶する非一時的コンピュータ可読記憶媒体が提供される。
【図面の簡単な説明】
【0010】
本開示の例のより具体的な説明は、添付図面に示されている特定の例を参照することによって行われる。これらの図面は、いくつかの例のみを描いており、したがって、範囲を限定するものではないと見なされるものであり、各例について、添付の図面を使用することによって、さらに具体的かつ詳細に説明および解説する。
【0011】
【
図1】本開示のいくつかの実装形態に従ったブロックベースの映像符号器を示したブロック図である。
【0012】
【
図2】本開示のいくつかの実装形態に従ったブロックベースの映像復号器を示したブロック図である。
【0013】
【
図3A】本開示のいくつかの実装形態に従った4分ツリー分割モードを示した略図である。
【0014】
【
図3B】本開示のいくつかの実装形態に従った垂直2分ツリー分割モードを示した略図である。
【0015】
【
図3C】本開示のいくつかの実装形態に従った水平2分ツリー分割モードを示した略図である。
【0016】
【
図3D】本開示のいくつかの実装形態に従った垂直3分ツリー分割モードを示した略図である。
【0017】
【
図3E】本開示のいくつかの実装形態に従った水平3分ツリー分割モードを示した略図である。
【0018】
【
図4】本開示のいくつかの実装形態に従った入力層、出力層、および複数の隠れ層からなるシンプルFC-NNを示した図である。
【0019】
【
図5A】本開示のいくつかの実装形態に従った2つの隠れ層を含むFC-NNを示した図である。
【0020】
【
図5B】本開示のいくつかの実装形態に従った第2隠れ層の次元が[W、H、深さ]であるCNNの例を示した図である。
【0021】
【
図6】本開示のいくつかの実装形態に従った入力画像を空間フィルタに適用する例を示した図である。
【0022】
【
図7A】本開示のいくつかの実装形態に従った、恒等結合によってその入力と共に要素的に加算されるResNetの要素である残差ブロックを含む単一の画像超解像(ResNet)を示した図である。
【0023】
【
図7B】本開示のいくつかの実装形態に従った残差モジュールのステーキングによるResNetの例を示した図である。
【0024】
【
図8】本開示のいくつかの実装形態に従ったハイブリッド訓練フレームワークを示した図である。
【0025】
【
図9A】本開示のいくつかの実装形態に従ったオフライン訓練ネットワークおよびオフライン訓練ネットワークに接続されたシンプルネットワークに対するオンライン訓練の例を示した図である。
【0026】
【
図9B】本開示のいくつかの実装形態に従ったオフライン訓練ネットワークに対するオンライン訓練の例を示した図である。
【0027】
【
図9C】本開示のいくつかの実装形態に従ったオフライン訓練ネットワークおよびオフライン訓練ネットワークに接続されたシンプルネットワークに対するオンライン訓練の例を示した図である。
【0028】
【
図9D】本開示のいくつかの実装形態に従ったオフライン訓練ネットワークに含まれる残差ブロックの例を示した図である。
【0029】
【
図10】本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するための装置を示したブロック図である。
【0030】
【
図11】本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。
【0031】
【
図12】本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。
【0032】
【
図13】本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。
【0033】
【
図14】本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。
【発明を実施するための形態】
【0034】
次に、添付図面にその例が示されている具体的な実装形態を詳細に参照する。以下、発明を実施するための形態では、本明細書で提示する主題に対する理解を助力するために、多数の非限定的な具体的な詳細について記載する。しかし、様々な変形例を使用できることは、当業者には明らかであろう。例えば、本明細書で提示する主題は、デジタル映像能力を備える電子デバイスの多くのタイプに実装され得ることが当業者には明らかであろう。
【0035】
本明細書全体における「一実施形態」、「ある実施形態」、「例」、「いくつかの実施形態」、「いくつかの例」、または類似の用語に対する言及は、記載されている特定の特性、構造、または特徴が、少なくとも1つの実施形態または例に含まれることを意味する。さらに、1つまたはいくつかの実施形態に関して記載される特性、構造、要素、または特徴もまた、別段の明示的な定めがない限り、他の実施形態に適用可能である。
【0036】
本開示の全体を通して、用語「第1」、「第2」、「第3」などは、全て、例えば、デバイス、コンポーネント、組成物、ステップなどの関連する要素に対する参照のために命名されるものであり、別段の明示的な定めがない限り、空間的または時間的順序を意味するものではない。例えば、「第1デバイス」および「第2デバイス」は、別々に形成された2つのデバイス、または同じデバイスの2つのパーツ、コンポーネントもしくは動作可能状態を意味する場合があり、任意に命名されてよい。
【0037】
用語「モジュール」、「サブモジュール」、「電気回路」、「サブ電気回路」、「回路」、「サブ回路」、「ユニット」、または「サブユニット」は、1つまたは複数のプロセッサによって実行され得る符号または命令を記憶するメモリ(共有、専用、またはグループ)を含んでいてよい。モジュールは、記憶される符号または命令を含む、または含まない1つまたは複数の電気回路を含んでいてよい。モジュールまたは電気回路は、直接または間接的に接続された1つまたは複数のコンポーネントを含んでいてよい。これらのコンポーネントは、互いに物理的に接続されていてもいなくてもよく、または互いに近くに配置されていてもいなくてもよい。
【0038】
本明細書で使用される場合、用語「~する場合」または「~するとき」は、文脈によっては「の際に」または「に応じて」と理解されてよい。これらの用語は、請求項に記載されていたとしても、関連する制限または特性が条件付きまたは任意であることを意味しない場合がある。例えば、方法は、i)条件Xが存在するとき、または存在する場合、機能または動作X’が実施され、ii)条件Yが存在するとき、または存在する場合、機能または動作Y’が実施される、というステップを含んでいてよい。方法は、機能または動作X’を実施する能力および機能または動作Y’を実施する能力の両方を用いて実行されてよい。したがって、機能X’およびY’の両方が、方法の複数の実行時に異なる時間に、実施されてよい。
【0039】
ユニットまたはモジュールは、純粋にソフトウェアによって、純粋にハードウェアによって、またはハードウェアとソフトウェアとの組み合わせによって実装されてよい。純粋なソフトウェア実装形態では、例えば、ユニットまたはモジュールは、特定の機能を実施するために互いに直接または間接的に接続された、機能上関連する符号化ブロックまたはソフトウェアコンポーネントを含んでいてよい。
【0040】
HEVCと同様に、VVCは、ブロックベースのハイブリッド映像符号化フレームワークに基づいて構築されている。
図1は、本開示のいくつかの実装形態に従ったブロックベースの映像符号器を示すブロック図である。符号器100では、入力映像信号が、符号化ユニット(Coding Unit:CU)と呼ばれるブロックごとに処理される。VTM-1.0では、CUは128×128画素まで可能であった。
しかし、4分ツリーだけに基づいてブロックを分割するHEVCとは異なり、VVCでは、1つの符号化木ユニット(Coding Tree Unit:CTU)がCUに分割されて、4分/2分/3分ツリーに基づいて様々なローカル特徴に適合される。加えて、HEVCにおける複数の分割ユニットタイプの構想が削除され、すなわちVVCには、CU、予測ユニット(Prediction Unit:PU)、および変換ユニット(Transform Unit:TU)の分割が存在せず、その代わりに、さらなる分割を伴わずに予測および変換の両方に向けて各CUが基本ユニットとして常に使用される。マルチタイプツリー構造では、1つのCTUが、まず4分ツリー構造によって分割される。次に、各4分ツリーリーフノードが、2分および3分ツリー構造によってさらに分割され得る。
【0041】
図3Aから3Eは、本開示のいくつかの実装形態に従ったマルチタイプツリー分割モードを示す略図である。
図3Aから3Eは、4分(
図3A)、垂直2分(
図3B)、水平2分(
図3C)、垂直3分(
図3D)、水平3分(
図3E)を含む5つの分割タイプをそれぞれ示している。
【0042】
所与の映像ブロックごとに、空間予測および/または時間予測が行われてよい。空間予測(または「イントラ予測」)は、同じ映像ピクチャ/スライス内の既に符号化されている近傍のブロックのサンプル(参照サンプルと称される)からの画素を使用して、現在の映像ブロックを予測する。空間予測により、映像信号に固有の空間的冗長性が低減される。時間予測(「インター予測」または「運動補償式予測」とも称される)は、既に符号化されている映像ピクチャからの再構築画素を使用して、現在の映像ブロックを予測する。時間予測により、映像信号に固有の時間的冗長性が低減される。所与CUに関する時間予測信号は、通常、現在のCUとその時間的参照との間の動きの量および方向を示す1つまたは複数の動きベクトル(Motion Vector:MV)によって伝達される。また、複数の参照ピクチャがサポートされている場合、1つの参照ピクチャインデックスが追加的に送信され、これは、時間予測信号が参照ピクチャ記憶装置内のどの参照ピクチャから来るかを識別するために使用される。
【0043】
空間予測および/または時間予測後、符号器100内のイントラ/インターモード決定回路121は、例えば、レート-歪み最適化法に基づいて、最良の予測モードを選択する。次に、ブロック予測因子120が、現在の映像ブロックから減算され、かつ得られた予測残差は、変換回路102および量子化回路104を使用して非相関化される。得られた量子化された残差係数は、逆量子化回路116によって逆量子化され、逆変換回路によって逆変換されて、再構築残差が形成され、次に、この再構築残差が予測ブロックに再度追加されて、CUの再構築信号が形成される。さらに、デブロッキングフィルタ、サンプル適応オフセット(Sample Adaptive Offset:SAO)、および/または適応ループ内フィルタ(Adaptive in-Loop Filter:ALF)などのループ内フィルタ115が、再構築CUに適用されてよく、その後、再構築CUは、ピクチャバッファ117の参照ピクチャ記憶装置に入れられ、さらなる映像ブロックを符号化するために使用される。出力映像ビットストリーム114を形成するために、符号化モード(インターまたはイントラ)、予測モード情報、動き情報、および量子化された残差係数は、全て、エントロピー符号化ユニット106に送信され、さらに圧縮およびパックされてビットストリームが形成される。
【0044】
例えば、デブロッキングフィルタは、AVC、HEVCだけではなく、VVCの最新バージョンで利用可能である。HEVCでは、SAOと呼ばれる追加のループ内フィルタが、符号化効率をさらに向上させるために規定されている。VVC規格の最新バージョンでは、ALFと呼ばれるさらに別のループ内フィルタが、積極的に調査されており、最終的な規格に含まれる可能性が高い。
【0045】
これらのループ内フィルタ操作は任意のものである。これらの操作の実施は、符号化効率およびビジュアル品質の改善を助力する。これらはまた、計算量を節約するために、符号器100によって決定される場合にオフにされることもある。
【0046】
イントラ予測は、通常、フィルタ無し再構築画素に基づき、一方、インター予測は、これらのフィルタオプションが、符号器100によってオンにされる場合フィルタ有り再構築画素に基づくという点に留意すべきである。
【0047】
図2は、多数の映像符号化規格と共に使用されてよいブロックベース映像復号器200を示すブロック図である。この復号器200は、
図1の符号器100内に常駐する再構築関連セクションに類似している。復号器200では、入力映像ビットストリーム201が、まず、エントロピー復号化202を通して復号化されて、量子化係数レベルおよび予測関連情報が導出される。次に、量子化係数レベルは、逆量子化204および逆変換206を通して処理され、再構築予測残差が得られる。イントラ/インターモード選択器212に実装されているブロック予測子メカニズムは、復号化された予測情報に基づいて、イントラ予測208または動き補償210のいずれかを実施するように構成される。フィルタ無し再構築画素のセットは、加算器214を使用して、逆変換206からの再構築予測残差およびブロック予測子メカニズムによって生成された予測出力を加算することによって得られる。
【0048】
再構築ブロックは、さらに、ループ内フィルタ209に通され、その後、参照ピクチャ記憶装置として機能するピクチャバッファ213に記憶される。ピクチャバッファ213内の再構築映像は、表示デバイスを駆動するために送信され、さらに、将来の映像ブロックを予測するために使用される。ループ内フィルタ209がオンになっている状況では、これらの再構築画素に対してフィルタリング操作が実施されて、最終の再構築映像出力222が導出される。
【0049】
ニューラルネットワークが映像符号化システムで使用される場合、ニューラルネットワークモデルは、オフラインまたはオンラインで訓練されてよい。本開示では、オンラインおよびオフライン訓練方法の両方が映像符号化効率を向上させるために使用される、ハイブリッド訓練フレームワークの方法および装置について記載する。説明を容易にするために、本開示では、例として、ループ内フィルタを取り上げるが、提案する着想は映像符号化システムの他の機能部分、例えば、
図1における予測モード決定または変換にも同様に拡張されてよい。提案するハイブリッド訓練法は、従来のブロックベースの映像符号化システムまたはエンドツーエンドニューラルネットワークベースの映像符号化システムに適用することができる。
【0050】
ニューラルネットワーク技法、例えば、全結合ニューラルネットワーク(Fully Connected Neural Network:FC-NN)、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)、および長短期記憶ネットワーク(Long Short-Term Memory network:LSTM)は、コンピュータビジョンおよび映像理解を含む、多くの研究領域で既に著しい成功を収めている。
【0051】
全結合ニューラルネットワーク(FC-NN)
図4は、本開示のいくつかの実装形態に従った入力層、出力層、および複数の隠れ層からなるシンプルFC-NNを示している。k番目の層で、出力f
k(x
k-1,W
k,B
k)は、下記式によって生成される。
【数1】
式中
【数2】
は、(k-l)番目の層の出力であり、
【数3】
および
【数4】
は、k番目の層の重みおよびバイアスである。δ(・)は、式(3)で定義付けられるような活性化関数、例えば、正規化線形ユニット(Rectified Linear Unit:ReLU)関数である。
【数5】
したがって、k層FC-NNの一般的な形式は以下のようになる。
【数6】
【0052】
普遍近似仮定および式(4)に従って、任意の連続関数g(x)およびいくつかのε>0が適用されると、
【数7】
となるような非線形の合理的な選択肢、例えば、ReLUを含むニューラルネットワークf(x)が存在する。したがって、多くの経験的研究は、表面下の説明可能な特徴を抽出するために、隠れた変数を有するモデルを模倣する近似器としてニューラルネットワークを適用した。例えば、画像認識に応用することで、FC-NNは、研究者が単一画素だけではなく、いっそう深く複雑な部分構造、例えば、エッジ、テクスチャー、幾何学的形状、および物体を把握するシステムを構築する助けになる。
【0053】
畳み込みニューラルネットワーク(CNN)
図5Aは、本開示のいくつかの実装形態に従った2つの隠れ層を含むFC-NNを示している。画像または映像アプリケーション向けの一般的なニューラルネットワーク構成であるCNNは、重みおよびバイアス行列を含む、
図5Aに示すようなFC-NNと非常に類似している。CNNは、ニューラルネットワークの3Dバージョンと見ることができる。
図5Bは、本開示のいくつかの実装形態に従った第2隠れ層の次元が[W、H、深さ]であるCNNの例を示している。
図5Bでは、ニューロンは、CNNを形成するために3次元構造(幅、高さ、および深さ)で配列されており、かつ第2隠れ層が視覚化されている。この例では、入力層は、入力画像または映像フレームを維持するため、その幅および高さは入力データと同じである。画像または映像アプリケーションと共に適用するために、CNN内の各ニューロンは、その入力と整合するように深さが拡張された空間フィルタ要素である。例えば、入力画像に3色の構成要素がある場合、深さは3である。
【0054】
図6は、本開示のいくつかの実装形態に従った入力画像と共に空間フィルタを適用する例を示している。
図6に示すように、CNNの基本要素の次元は、[Filter
width, Filter
height, Input
depth, Output
depth]と定義付けられ、かつ、この例では[5、5、3、4]に設定されている。各空間フィルタは、入力画像に対して5×5×3の重みを用いて2次元空間畳み込みを実施する。入力画像は、64×64×3の画像である。その場合、4つの畳み込み結果が出力される。そのため、さらに2画素で境界をパディングすると、フィルタ処理された結果の次元は、[64+4、64+4、4]となる。
【0055】
残差ネットワーク(ResNet)
画像分類では、ニューラルネットワークの深さが深くなると、精度が飽和し、急激に低下する。より詳細には、より多くの層を深層ニューラルネットワークに加えると、勾配が深層ネットワークに沿って徐々に消失し、最終的に勾配がゼロに近づくため、訓練エラーが多くなる。その場合、残差ブロックから構成されるResNetにより、恒等結合を導入することによって精度低下の問題が解決されるようになる。
【0056】
図7Aは、本開示のいくつかの実装形態に従った、恒等結合によってその入力と共に要素的に加算されるResNetの要素である残差ブロックを含むResNetを示している。
図7Aに示すように、ResNetの基本モジュールは、残差ブロックおよび恒等結合からなる。普遍近似仮定によれば、入力xが適用されると、残差ブロックの活性化関数を有する重み付けされた層は、出力H(x)=F(x)+xではなく隠れ関数F(x)を近似する。
【0057】
非線形多層ニューラルネットワークを積み重ねることで、残差ブロックは、入力画像のローカル特徴を表す特徴を探索する。
図7Aに示すように、追加のパラメータおよび計算の複雑さのいずれも導入することなく、恒等結合は、1つまたは複数の非線形の重み付けされた層を省略することによって訓練可能な深層学習ネットワークを構築することが証明されている。重み付けされた層を省略することにより、残差層の差分出力を以下のように表すことができる。
【数8】
【0058】
したがって、差分項∂H(x)/∂xが、段階的にゼロに近づいていく場合であっても、勾配がゼロのまま留まり、さらに情報伝搬が妨げられる代わりに、恒等項は、依然として入力を受け継いで次の層に渡すことができる。ニューロンが情報を次のニューロンに伝搬できない場合、ニューロンが死んでいるように見え、ニューラルネットワークの中で訓練不可能な要素となる。追加の後、別の非線形活性化関数も同様に適用することができる。
図7Bは、本開示のいくつかの実装形態に従った残差モジュールのステーキングによるResNetの例を示している。
図7Bに示すように、残差特徴は、次のモジュールに伝搬される前に、恒等特徴と融合される。
【0059】
より良好な汎化のために、オフライン訓練ニューラルネットワークは、複数の層を含んでいてよく、訓練段階中に繰り返し更新される。層の数が比較的多くなると、パラメータのサイズが大きくなる場合があり、その結果、過度な処理遅延およびメモリ消費が推論段階で発生する可能性がある。加えて、オフライン訓練ニューラルネットワークモデルは、所与のデータセットによって学習されるが、そのモデルが他の部分に適用される場合、実際のデータ特徴、例えば、照度、テクスチャー、物体変形などを反映しない可能性がある。
【0060】
一方、オンライン訓練ニューラルネットワークは、実際のアプリケーションシナリオによく適応するが、より小さいパラメータサイズにより制約され、それにより、ニューラルネットワークの非線形表現能力の利用が制限される可能性がある。
【0061】
映像符号化システムの場合、グラウンドトゥルース、例えば、非圧縮映像データは、符号器側で常にアクセス可能であるため、オンライン訓練が実行可能になる。複合的な利点を追求するために、オンラインおよびオフライン訓練の両方を含むハイブリッド訓練フレームワークについて開示する。
【0062】
ハイブリッド訓練フレームワーク
本開示では、映像符号化システム向けに使用されるニューラルネットワークの符号化効率を改善するハイブリッド訓練フレームワークを提案する。提案するハイブリッド訓練フレームワークは、以下の特徴の任意の組み合わせを含んでいてもよい。
【0063】
一部の例では、同じまたは異なるネットワーク構成を有する1つまたは複数のニューラルネットワークが、最初にオフラインで訓練されてよい。オフライン訓練向けに選択されるデータセットは、より良好な汎化の目的のために、異なるデータ特徴、例えば、様々なバックグラウンドテクスチャーを含む静止画像、物体の動きが少ない映像などを含むんでいてよい。
【0064】
次に、オフライン訓練モデルは、オンライン訓練によって精緻化され、例えば、特定の映像コンテンツに適応させるためにオンラインで訓練される。このオンライン訓練段階では、少数の層を更新するだけでよい。更新されない層については、例えば、訓練アルゴリズムが勾配降下法に基づくものである場合、それらの層の勾配は、強制的にゼロに設定されてよい。特定のニューラルネットワークフレームワークでは、更新されない層は、例えば、PyTorchのように、訓練不可能に設定されることがある。
【0065】
他のいくつかの例では、オンライン訓練段階で、オフライン訓練モデルは、さらなる精緻化の有無にかかわらず、特徴抽出器として扱われてよく、層または重みが非常に少ない新しいシンプルネットワークがオフライン訓練モデルの後に接続されてよい。
【0066】
異なる訓練段階で、同じまたは異なる学習アルゴリズムが使用されてよい。1つまたは複数の例では、収束速度が厳しくなく、かつ汎化がより重要なオフライン訓練段階では、確率的勾配降下法(Stochastic Gradient Descent:SGD)などの学習アルゴリズムの使用が好ましい場合がある。一方、訓練速度および訓練データへの高速適合の両方が重要なオンライン訓練段階では、適応モーメント推定(Adaptive Moment Estimation:ADAM)などの高速学習アルゴリズムの使用が好ましい場合がある。
【0067】
1つまたは複数の例では、同じ訓練段階で、異なるアルゴリズム間の切り替えが行われてよい。例えば、オフライン訓練段階では、最初のエポックで、ADAMなどの高速アルゴリズムが使用され、次に、損失関数が所定の閾値を下回る損失を生成する場合に学習アルゴリズムがSGDに切り替えられる。
【0068】
一部の例では、学習アルゴリズムが同じ訓練段階で、または異なる訓練段階間で切り替えられる場合、学習率パラメータの好適な開始値も同時に切り替えられてよい。学習率の特定の値は、損失関数またはそれ自体のアルゴリズムに関連付けられてよい。
【0069】
オンライン訓練ベースモデル精緻化では、時間範囲に関連する2つの係数は、時間的頻度および時間的カバレッジを含む。時間的頻度は、いつオンライン訓練ベースモデル精緻化が行われるかを決定する。
【0070】
1つまたは複数の例では、オンライン訓練は、周期的に、例えば、2秒ごとに、1秒ごとに、またはN個の映像フレームごとに行われてよい。この際、Nは、正整数であってよい。一部の例では、オンライン訓練は、イベントに基づいて始動されてよい。
【0071】
1つまたは複数の例では、オンライン訓練は、映像符号器の挙動、例えば、即時的復号器リフレッシュ(Instantaneous Decoder Refresh:IDR)符号化ピクチャの生成によって始動されてよい。新しいIDRフレームが生成されるたびに、その後の動き予測映像フレームは、例えば、参照ピクチャの変更に起因して、完全に異なるレベルのアーチファクトを含む可能性がある。
【0072】
1つまたは複数の例では、オンライン訓練は、映像符号器の構成、例えば、イントラ周期値またはフレームレートによって始動されてよい。符号器の構成は、ビットレート制御、エラーコンシールメントなどの様々な理由から動的に変更されてよい。符号器の構成の変更は、所定のプロファイルまたはデバイス上で動作しているオペレーションシステムのより低いプロトコル層によって実行されてよい。
【0073】
1つまたは複数の例では、オンライン訓練は、映像コンテンツ、例えば、シーン検出によって始動されてよい。映像フレーム内の物体、物体のバックグラウンド、または物体および物体のバックグラウンドが変化する場合、映像フレーム内の予測、仕切り粒度、または映像フレーム内の予測および仕切り粒度も同時に変更される可能性がある。これらのコンテンツの変化は、映像符号化ビット、符号化歪み、または映像符号化ビットおよび符号化歪みが発生する主な原因となる。
【0074】
一部の例では、オンライン訓練は、周期的なものと、イベントトリガーとを組み合わせた仕方で始動されてよい。例えば、オンライン訓練は、まず周期的に行われ、次に、トリガーイベントに応じて省略されてよい。
【0075】
さらに、時間的カバレッジは、モデル更新に使用される訓練データを決定する。収束速度は、オンライン訓練では重要である。訓練データは、処理遅延だけではなく、訓練収束にも影響を与え、例えば、多様性の高い映像データは、訓練の収束が難しい。
【0076】
1つまたは複数の例では、時間層情報などの符号化情報は、訓練データを選択する基準として使用されてよい。例えば、ピクチャの各グループ内で、各時間層から1つのピクチャがオンライン訓練向けに選択されてよい。
【0077】
1つまたは複数の例では、映像コンテンツは、訓練データを選択する基準として使用してよい。例えば、各オンライン訓練期間内で、隣接する映像フレームは、時間的に冗長性が高い可能性があり、これは、物体およびバックグラウンドが極めて類似していることを意味する。このケースでは、物体およびバックグラウンドテクスチャーの両方を含むシーン情報または関心領域が、符号器側で抽出されてよく、かつ全ピクチャの代わりにこれらの抽出された小さなパッチが、オンライン訓練データとして使用されてよい。
【0078】
一部の例では、映像フレーム以外の情報もまた、例えば、マルチフレームベース訓練向けの訓練データとして使用される。例えば、各選択された映像フレームと固定フレーム、例えば、参照ピクチャとの間の動き情報が、動き予測フレームを訓練するために使用されてよい。このケースでは、オプティカルフローマップが動き情報の表現として生成されてよい。
【0079】
オンライン訓練段階で、各選択された映像フレームは、オンライン訓練データとして使用される前に、小さなパッチに分割されるか、またはクロップされてよい。小さなパッチは、特定の基準に従ってクラスター化されてよい。一部の例では、同じまたは異なるクラスターとして分類されたパッチのみが、オンライン訓練データとして選択される。
【0080】
一部の例では、各小さなパッチは、スケール不変特徴記述子、例えば、指向型勾配のヒストグラムまたはテンプレート、例えば、単語の集合に基づく特徴ベクトルで表されてよい。異なるパッチは、表現の類似性によってクラスター化される。
【0081】
いくつかの例では、パッチは、異なるレベルの歪みによってクラスター化される。
【0082】
オンライン訓練段階では、品質の低い、例えば、量子化パラメータが特定の閾値を超えている映像フレームまたはパッチは、物体の境界またはテクスチャーの詳細にボケがある可能性がある。したがって、これらのデータは、訓練の収束を困難にする深刻な訓練混乱を引き起こす可能性があり、訓練データとして選択すべきではない。
【0083】
映像符号化では、オフライン訓練ニューラルネットワークモデルは、訓練後に様々な多様な映像シーケンスに対して働かせることが想定され、したがって、十分な汎化が必要であり、一方で、オンライン訓練ニューラルネットワークモデルは、小さな時間空間内に映像データに適合する、例えば、イントラ期間内に映像フレームに適合することのみが必要であり、したがって、良い過適合が必要である。様々な要件のために、モデル訓練プロセスは、汎化と過適合とのトレードオフの観点から検討されてよい。
【0084】
1つまたは複数の例では、汎化と過適合とのトレードオフのバランスは、十分な量のデータに基づいてネットワークを訓練することによって制御することができる。このことについては、既に説明した。例えば、オフラインモデルはより大きくかつ多様なデータセットに基づいて訓練され、その一方で、オンラインモデルまたはモデル精緻化は、制約された時間範囲、空間範囲、および品質範囲内で訓練される。
【0085】
1つまたは複数の例では、汎化と過適合とのトレードオフのバランスは、ネットワークの複雑さを変えることによって制御することができる。1つの例では、ネットワークの複雑さは、ネットワーク構造を調整することによって変えることができる。具体的には、訓練可能なモデルパラメータまたは重みの数は、柔軟に設定可能である。例えば、オンライン訓練ネットワークは、少数の層のみを訓練可能に設定してよく、その一方で、オフライン訓練ネットワークは、多数の層または全ての層を訓練可能に設定してよい。この方法は、構造的安定化と呼ばれる場合がある。
【0086】
別の例では、ネットワークの複雑さは、ネットワークパラメータのダイナミックレンジを調整することによって変えることができる。ダイナミックレンジが小さいパラメータは、入力訓練データの統計的変動の影響を受けにくいため、汎化能力が高い。しかし、オンラインモデルのように過適合が望ましい場合、ダイナミックレンジがより大きいパラメータが望ましい。
【0087】
一部の例では、データタイプ、例えば、整数または浮動小数点が、ネットワークパラメータまたは重みのダイナミックレンジを制御するために使用される。一部の他の例では、正則化法が、ネットワークパラメータまたは重みのダイナミックレンジを制御するために使用される。典型的な正則化法の1つは、訓練プロセス中に、パラメータまたは重みの値の大きさに基づいて、モデルにペナルティ、例えば、損失関数を付与することである。このアプローチは、重み正則化または重み減少と呼ばれる。
【0088】
図8は、本開示のいくつかの実装形態に従ったハイブリッド訓練フレームワークを示している。
図8に示すように、1つまたは複数のモデルは、まず多様なデータ特徴を有する大量の画像または映像データを用いてオフラインで訓練され、次に、モデルは、少量のデータを用いてオンライン訓練によって繰り返し精緻化される。オンライン訓練の目的は、ネットワークが各精緻化期間内に少量のデータをより良好に過適合できるようにネットワークの複雑さを低減することである。ネットワークの複雑さは、ネットワーク内の訓練可能な層、パラメータ、または重みの数を制限することによって、またはそのような訓練可能なパラメータまたは重みの好適なダイナミックレンジを設定することによって低減することができる。
【0089】
図9Aから9Dは、オフライン訓練ネットワークおよび/またはオフライン訓練ネットワークに接続されたシンプルネットワークに加えて、オンライン訓練を実施する方法の例を示している。
図9Aから9Dに示すように、
図9Aに示すようにオフライン訓練ネットワークに接続された新しいシンプルネットワークがオンライン訓練段階で訓練されてよく、または
図9Bに示すようにオフライン訓練ネットワーク内の層の部分集合が精緻化されるか、または
図9Cに示すように新しいシンプルネットワークおよびオフライン訓練ネットワーク内の層の部分集合の両方がオンライン訓練段階で訓練される。
【0090】
オンライン訓練されたパラメータまたは重みの送信
各オンライン訓練後の出力は、ネットワークパラメータまたは重みのサイズが制限されている。シグナリングオーバーヘッドを低減するために、パラメータまたは重みは、ビットストリームへの書き込みの前に圧縮される必要がある。
【0091】
1つまたは複数の例では、更新されたパラメータが、大きく、かつ過適合に起因する入力データの変動の影響を受けやすいことがあっても、パラメータプルーニングおよび量子化は、依然として実施することができる。しかし、感度を維持するために、感度の手動設定が有益であり、これは層の数が一般的に少ないため実行可能である。
【0092】
1つまたは複数の例では、更新されたパラメータを直接伝達する代わりに、平均シフトまたは重み共有のような方法が、前処理ステップとして使用されてよい。パラメータ更新前と後との差異は、差分マップとして導出して、構築することができ、これにより、更新されたパラメータを伝達するビットをさらに低減することができる。
【0093】
他の既存ループ内フィルタとの相互作用
映像符復号化のために訓練されたネットワークがループ内フィルタとして使用される場合、オンライン訓練後の更新されたパラメータを使用して、他のループ内フィルタの訓練を導くことができる。例えば、適応ループ内フィルタ(ALF)の場合、導出されたフィルタ係数は、更新されたパラメータを近似するように拡張または調整することができる。一旦、ALFフィルタ係数が精緻化されると、更新されたニューラルネットワークパラメータを伝達する必要がなくなり、ビットを節約できるだけではなく、ニューラルネットワークモデルフィルタリングの使用に起因する処理遅延も低減できる。
【0094】
図10は、本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するための装置を示したブロック図である。装置1000は、モバイル電話、タブレットコンピュータ、デジタルブロードキャスト端末、タブレットデバイスまたは携帯情報端末などの端末であってよい。
【0095】
図10に示すように、装置1000は、処理コンポーネント1002、メモリ1004、電源供給コンポーネント1006、マルチメディアコンポーネント1008、オーディオコンポーネント1010、入力/出力(Input/Output:I/O)インターフェース1012、センサコンポーネント1014、および通信コンポーネント1016のうち1つまたは複数を含んでいてもよい。
【0096】
処理コンポーネント1002は、通常、表示、電話、データ通信、カメラ操作および録音動作に関する操作など、装置1000の全体的な操作を制御する。処理コンポーネント1002は、上記方法のステップの全てまたは一部を完了するための命令を実行する1つまたは複数のプロセッサ1020を含んでいてもよい。さらに、処理コンポーネント1002は、処理コンポーネント1002と他のコンポーネントとの間の相互作用を促進する1つまたは複数のモジュールを含んでいてもよい。例えば、処理コンポーネント1002は、マルチメディアコンポーネント1008と処理コンポーネント1002との間の相互作用を促進するマルチメディアモジュールを含んでいてもよい。
【0097】
メモリ1004は、装置1000の動作をサポートするために様々なタイプのデータを記憶するように構成される。そのようなデータの例としては、装置1000上で動作する任意のアプリケーションまたは方法に対する命令、連絡先データ、電話帳データ、メッセージ、写真、映像、などが挙げられる。メモリ1004は、任意のタイプの揮発性もしくは不揮発性記憶デバイスまたはこれらの組み合わせによって実装されていてよく、またはメモリ1004は、静的ランダムアクセスメモリ(Static Random Access Memory:SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(Electrically Erasable Programmable Read-Only Memory:EEPROM)、消去可能プログラマブル読み取り専用メモリ(Erasable Programmable Read-Only Memory:EPROM)、プログラマブル読み取り専用メモリ(Programmable Read-Only Memory:PROM)、読み取り専用メモリ(Read-Only Memory:ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたはコンパクトディスクであってよい。
【0098】
電源供給コンポーネント1006は、装置1000の異なるコンポーネントに電力を供給する。電源供給コンポーネント1006は、電源供給管理システム、1つまたは複数の電源供給部、および装置1000の電力を生成、管理、および分配することに関する他のコンポーネントを含んでいてもよい。
【0099】
マルチメディアコンポーネント1008は、装置1000とユーザとの間の出力インターフェースを提供するスクリーンを含む。いくつかの例では、スクリーンは、液晶ディスプレイ(Liquid Crystal Display:LCD)およびタッチパネル(Touch Panel:TP)を含んでいてよい。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するタッチスクリーンとして実装されてよい。タッチパネルは、タッチパネルへの接触、スライド、およびジェスチャを検出する1つまたは複数のタッチセンサを含んでいてもよい。タッチセンサは、接触またはスライド操作の境界のみを検出するだけではなく、接触またはスライド操作に関連する期間および圧力も検出することができる。いくつかの例では、マルチメディアコンポーネント1008は、フロントカメラおよび/またはリアカメラを含んでいてもよい。装置1000が、撮影モードまたは映像モードなどの動作モードの場合、フロントカメラおよび/またはリアカメラは、外部マルチメディアデータを受信することができる。
【0100】
オーディオコンポーネント1010は、音声信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント1010は、マイクロフォン(MICrophone:MIC)を含む。装置1000が、コールモード、録音モード、および音声認識モードなどの動作モードの場合、マイクロフォンは、外部音声信号を受信するように構成される。受信された音声信号は、さらに、メモリ1004に記憶されるか、または通信コンポーネント1016を介して送信されてよい。いくつかの例では、オーディオコンポーネント1010は、音声信号を出力するスピーカーをさらに含んでいてもよい。
【0101】
I/Oインターフェース1012は、処理コンポーネント1002と周辺装置インターフェースモジュールとの間にインターフェースを形成する。上記の周辺装置インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンとしては、ホームボタン、ボリュームボタン、スタートボタン、およびロックボタンを挙げることができるが、これらに限定されない。
【0102】
センサコンポーネント1014は、装置1000に関する異なる態様の状態評価を提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント1014は、装置1000のオン/オフ状態、およびコンポーネントの相対位置を検出することができる。例えば、コンポーネントは、装置1000のディスプレイおよびキーパッドである。センサコンポーネント1014はまた、装置1000または装置1000のコンポーネントの配置変化、装置1000に対するユーザの接触の存在もしくは不存在、装置1000の方向もしくは加速/減速、および装置1000の温度変化を検出することもできる。センサコンポーネント1014は、なんらかの物理的接触を伴わずに近くの物体の存在を検出するように構成された近接センサを含んでいてもよい。センサコンポーネント1014は、イメージングアプリケーションで使用されるCMOSまたはCCD画像センサなどの光学的センサをさらに含んでいてもよい。いくつかの例では、センサコンポーネント1014は、加速センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ、または温度センサをさらに含んでいてもよい。
【0103】
通信コンポーネント1016は、装置1000と他のデバイスとの間の有線または無線通信を促進するように構成される。装置1000は、WiFi、4Gまたはこれらの組み合わせなどの通信規格に基づいて、無線ネットワークにアクセスすることができる。一例では、通信コンポーネント1016は、ブロードキャスト信号またはブロードキャスト関連情報を、ブロードキャストチャネルを介して外部ブロードキャスト管理システムから受信する。一例では、通信コンポーネント1016は、短距離通信を促進するための近距離無線通信(Near Field Communication:NFC)モジュールをさらに含んでいてもよい。例えば、NFCモジュールは、無線周波数識別情報(Radio Frequency IDentification:RFID)技術、赤外線データ協会(Infrared Data Association:IrDA)技術、超広帯域(Ultra-Wide Band:UWB)技術、ブルートゥース(登録商標)(BlueTooth:BT)技術、および他の技術に基づいて実装されてよい。
【0104】
一例では、装置1000は、前述の方法を実施するために、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、デジタル信号プロセッサ(Digital Signal Processor:DSP)、デジタル信号処理デバイス(Digital Signal Processing Device:DSPD)、プログラマブル論理デバイス(Programmable Logic Device:PLD)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたはその他の電子的要素のうち1つまたは複数によって実装されてよい。非一時的コンピュータ可読記憶媒体は、例えば、ハードディスクドライブ(Hard Disk Drive:HDD)、ソリッドステートドライブ(Solid-State Drive:SSD)、フラッシュメモリ、ハイブリッドドライブもしくはソリッドステートハイブリッドドライブ(Solid-State Hybrid Drive:SSHD)、読み取り専用メモリ(ROM)、コンパクトディスク読み取り専用メモリ(Compact Disc Read-Only Memory:CD-ROM)、磁気テープ、フロッピー(登録商標)ディスクなどであってよい。
【0105】
図11は、本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。
【0106】
ステップ1101で、プロセッサ1020は、オフライン訓練段階で、複数の第1データセットを使用してニューラルネットワークをオフラインで訓練することによりオフライン訓練ネットワークを取得する。
図8に示すように、複数の第1データセットは、大きなオフラインデータ、例えば、画像、映像を含んでいてよい。
【0107】
一部の例では、複数の第1データセットは、より良好な汎化目的のための様々な特徴、例えば、様々なバックグラウンドテクスチャーを有する静止画像、物体の動きが少ない映像を含むデータセットを含んでいてよい。
【0108】
ステップ1102で、プロセッサ1020は、オンライン訓練段階で、複数の第2データセットを使用して複数のニューラルネットワーク層を精緻化する。
【0109】
一部の例では、
図9Aから9Cに示すように、複数のニューラルネットワーク層は、オフライン訓練ネットワークまたはオフライン訓練ネットワークに接続されたシンプルニューラルネットワーク内に少なくとも1つのニューラルネットワーク層を含んでいてよい。
図9Aに示すように、オフライン訓練ネットワークまたはモデルは、複数の残差ブロック(Residual Block:RB)を含む。各RBは、
図9Dに示す構造と同じ構造を有していてよい。
図9Dに示すように、RBは、2つの畳み込み層および2つの畳み込み層に挟まれた正規化線形ユニット(Relu)層を含む。オフライン訓練ネットワークに接続されたシンプルネットワークは、限定はされないが、2つの畳み込み層を含む。オンライン訓練は、シンプルネットワーク内の2つの畳み込み層のみ(
図9A)、オフライン訓練ネットワーク内の最後のRBのみ(
図9B)、またはオフライン訓練ネットワーク内の最後のRBおよびシンプルネットワーク内の2つの畳み込み層(
図9C)で実施されてよい。
【0110】
一部の例では、プロセッサ1020は、複数の第2データセットを使用して複数のニューラルネットワーク層を繰り返し精緻化する。
【0111】
一部の例では、オフライン訓練ネットワークは、
図9Aから9Cに示すように、精緻化される複数のニューラルネットワーク層よりも多いニューラルネットワーク層を含んでいてよい。
【0112】
一部の例では、シンプルニューラルネットワークは、オフライン訓練ネットワークよりも少ないニューラルネットワーク層を含んでいてよい。
【0113】
一部の例では、プロセッサ1020は、さらに、同じ訓練段階もしくは異なる訓練段階で、異なる学習アルゴリズムを実施するか、または同じ訓練段階もしくは異なる訓練段階で、学習アルゴリズム内の学習率パラメータの異なる開始値を適用してよい。例えば、SGDアルゴリズムおよびADAMアルゴリズムの両方が、オフライン訓練段階またはオンライン訓練段階で、実施されてよい。一部の例では、SGDアルゴリズムがオフライン訓練段階で実施されて、ADAMアルゴリズムがオンライン訓練段階で実施されてよい。
【0114】
一部の例では、プロセッサ1020は、オフライン訓練段階で、損失関数によって生成される損失が所定の閾値未満であると判定するのに応じて、ADAMアルゴリズムからSGDアルゴリズムに切り替えてもよい。
【0115】
一部の例では、複数のニューラルネットワーク層は、周期的にか、またはトリガーイベントに応じてか、の少なくとも一方で精緻化されてよい。さらに、トリガーイベントは、IDR符号化ピクチャの生成、映像符号器構成の変更、または映像コンテンツの変化のうち1つを含んでいてよく、この際、映像コンテンツは、映像フレーム内に物体および/または物体のバックグラウンドを含んでいてよい。
【0116】
一部の例では、複数の第2データセットは、符号化情報、映像コンテンツ、および/または映像フレーム以外の情報を含んでいてよく、この際、符号化情報は、時間層情報を含んでいてよく、映像コンテンツは、映像フレームから関心領域に基づいて抽出された複数のパッチを含んでいてよく、映像フレーム以外の情報は、動き情報を含んでいてよい。
【0117】
一部の例では、複数のパッチは、同じクラスターに属しているパッチ、または異なるクラスターに属しているパッチから選択されてよく、ここで、映像フレームからクロップされる異なるパッチは、表現類似性または歪みのレベルに基づく異なるクラスターに対応している。
【0118】
一部の例では、複数の第2データセットは、品質の低い映像フレームまたはパッチを含んでいてよい。例えば、品質の低い映像フレームまたはパッチは、所定の閾値未満の品質を有していてよい。一例では、所定の閾値は、32に等しい量子化パラメータ(Quantization Parameter:QP)に相当する。
【0119】
一部の例では、複数の第1データセットは、複数の第2データセットよりもデータが多くてよい。複数の第2データセットは、
図8に示すように少量のデータ、例えば、少数の映像フレームであってよい。
【0120】
一部の例では、プロセッサ1020は、ネットワークパラメータの部分集合が訓練可能となるように構成することでネットワークパラメータの訓練可能な構造を制御することによって、複数のニューラルネットワーク層を繰り返し精緻化する。
【0121】
一部の例では、プロセッサ1020は、ネットワークパラメータのデータタイプを制御することによって複数のニューラルネットワーク層を繰り返し精緻化する。
【0122】
一部の例では、プロセッサ1020は、重み正則化を使用して複数のニューラルネットワーク層のネットワークパラメータを制御することによって複数のニューラルネットワーク層を繰り返し精緻化する。
【0123】
図12は、本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。
【0124】
ステップ1201で、プロセッサ1020は、複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得する。
【0125】
ステップ1202で、プロセッサ1020は、複数の精緻化済みネットワークパラメータに基づく複数の処理済みネットワークパラメータを取得する。
【0126】
一部の例では、プロセッサ1020は、複数の精緻化済みネットワークパラメータをプルーニングもしくは量子化することによって、または平均シフトまたは重み共有を使用して、複数の精緻化済みネットワークパラメータを処理することによって、複数の精緻化済みネットワークパラメータに基づく複数の処理済みネットワークパラメータを取得する。
【0127】
ステップ1203で、プロセッサ1020は、複数の処理済みネットワークパラメータを伝達する。
【0128】
図13は、本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。
【0129】
ステップ1301で、プロセッサ1020は、複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得する。
【0130】
ステップ1302で、プロセッサ1020は、複数のニューラルネットワーク層の元のネットワークパラメータと、複数の精緻化済みネットワークパラメータとの差異を取得する。
【0131】
ステップ1303で、プロセッサ1020は、差異に基づいて差分マップを構築する。一部の例では、複数の処理済みネットワークパラメータを直接または間接的に伝達する代わりに、符号器が、差分マップを復号器に送信してよい。
【0132】
図14は、本開示のいくつかの実装形態に従った映像符号化のためにニューラルネットワークをハイブリッド訓練するためのプロセスを示したフローチャートである。
【0133】
ステップ1401で、プロセッサ1020は、複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得する。
【0134】
ステップ1402で、プロセッサ1020は、複数の精緻化済みネットワークパラメータを近似するように、符号器のALFのフィルタ係数を拡張または調整する。
【0135】
一部の他の例では、命令を記憶した非一時的コンピュータ可読記憶媒体1004が提供される。これらの命令が、1つまたは複数のプロセッサ1020によって実行されると、これらの命令は、このプロセッサに
図11から14に記載の方法および上述の方法のいずれかを実施させる。
【0136】
本開示の説明は、例示の目的で提示したが、本開示を網羅するまたは制限することを意図していない。いくつかの修正、変形、および代替の実装形態が、上記の説明および関連する図面で提示した教示の利益を有する当業者にとって明らかであろう。
【0137】
これらの例は、開示の原理を説明し、当業者が様々な実装形態に関する開示を理解し、意図された特定の用途に適した様々な修正を加えた基礎となる原則および様々な実装形態を最善に利用できるようにするために選択され、記載された。したがって、開示の範囲は、開示された実装形態の具体例に限定されるものではなく、修正およびその他の実装形態が、本開示の範囲に含まれることを意図していると理解されるべきである。
【手続補正書】
【提出日】2023-09-27
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】
本開示の第1の態様によれば、映像符号化のために第1ニューラルネットワークをハイブリッド訓練するための方法が提供される。この方法は、オフライン訓練段階で、複数の第1データセットを使用して、ニューラルネットワークをオフラインで訓練することによってオフライン訓練ネットワークを取得することと、オンライン訓練段階で、複数の第2データセットを使用して、複数のニューラルネットワーク層を精緻化することと、を含み、該複数のニューラルネットワーク層は、オフライン訓練ネットワークまたはオフライン訓練ネットワークに接続された第2ニューラルネットワーク内に少なくとも1つのニューラルネットワーク層を含んでいてよい。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0009
【補正方法】変更
【補正の内容】
【0009】
本開示の第3の態様によれば、1つまたは複数のコンピュータプロセッサによって実行されると、1つまたは複数のコンピュータプロセッサに第1の態様による方法を実施させるコンピュータ実行可能命令を記憶する非一時的コンピュータ可読記憶媒体が提供される。
本開示の第4の態様によれば、映像符号化方法が提供される。この方法は、復号器で、符号化された映像情報とオンラインで訓練されたパラメータを含むビットストリームを受け取ることと、ビットストリームを用いた復号により、復号された映像情報を取得することを含み、ビットストリームにおけるオンラインで訓練されたパラメータは、第1の態様による方法によって生成される。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0025
【補正方法】変更
【補正の内容】
【0025】
【
図9A】本開示のいくつかの実装形態に従ったオフライン訓練ネットワークおよびオフライン訓練ネットワークに接続されたシンプル
ニューラルネットワークに対するオンライン訓練の例を示した図である。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0027
【補正方法】変更
【補正の内容】
【0027】
【
図9C】本開示のいくつかの実装形態に従ったオフライン訓練ネットワークおよびオフライン訓練ネットワークに接続されたシンプル
ニューラルネットワークに対するオンライン訓練の例を示した図である。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0065
【補正方法】変更
【補正の内容】
【0065】
他のいくつかの例では、オンライン訓練段階で、オフライン訓練モデルは、さらなる精緻化の有無にかかわらず、特徴抽出器として扱われてよく、層または重みが非常に少ない新しいシンプルニューラルネットワークがオフライン訓練モデルの後に接続されてよい。本開示において、オフラインで訓練されるニューラルネットワークは、第1ニューラルネットワークとも呼ぶ場合もあり、シンプルニューラルネットワークは、第2ニューラルネットークとも呼ぶ場合もある。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0089
【補正方法】変更
【補正の内容】
【0089】
図9Aから9Dは、オフライン訓練ネットワークおよび/またはオフライン訓練ネットワークに接続されたシンプル
ニューラルネットワークに加えて、オンライン訓練を実施する方法の例を示している。
図9Aから9Dに示すように、
図9Aに示すようにオフライン訓練ネットワークに接続された新しいシンプル
ニューラルネットワークがオンライン訓練段階で訓練されてよく、または
図9Bに示すようにオフライン訓練ネットワーク内の層の部分集合が精緻化されるか、または
図9Cに示すように新しいシンプルネットワークおよびオフライン訓練ネットワーク内の層の部分集合の両方がオンライン訓練段階で訓練される。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0106
【補正方法】変更
【補正の内容】
【0106】
ステップ1101で、プロセッサ1020は、オフライン訓練段階で、複数の第1データセットを使用してニューラルネットワークをオフラインで訓練することによりオフライン訓練ネットワークを取得する。
図8に示すように、複数の第1データセットは、大きなオフラインデータ、例えば、画像、映像を含んでいてよい。
オフラインで訓練されるニューラルネットワークは、第1ニューラルネットワークとも呼ぶ場合もある。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0109
【補正方法】変更
【補正の内容】
【0109】
一部の例では、
図9Aから9Cに示すように、複数のニューラルネットワーク層は、オフライン訓練ネットワークまたはオフライン訓練ネットワークに接続されたシンプルニューラルネットワーク内に少なくとも1つのニューラルネットワーク層を含んでいてよい。
シンプルニューラルネットワークは、第2ニューラルネットークとも呼ぶ場合もある。図9Aに示すように、オフライン訓練ネットワークまたはモデルは、複数の残差ブロック(Residual Block:RB)を含む。各RBは、
図9Dに示す構造と同じ構造を有していてよい。
図9Dに示すように、RBは、2つの畳み込み層および2つの畳み込み層に挟まれた正規化線形ユニット(Relu)層を含む。オフライン訓練ネットワークに接続されたシンプル
ニューラルネットワークは、限定はされないが、2つの畳み込み層を含む。オンライン訓練は、シンプル
ニューラルネットワーク内の2つの畳み込み層のみ(
図9A)、オフライン訓練ネットワーク内の最後のRBのみ(
図9B)、またはオフライン訓練ネットワーク内の最後のRBおよびシンプル
ニューラルネットワーク内の2つの畳み込み層(
図9C)で実施されてよい。
第2ニューラルネットークのニューラルネットワーク層の数は、第1ニューラルネットークのニューラルネットワーク層の数より少ない。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0135
【補正方法】変更
【補正の内容】
【0135】
一部の他の例では、命令を記憶した非一時的コンピュータ可読記憶媒体1004が提供される。これらの命令が、1つまたは複数のプロセッサ1020によって実行されると、これらの命令は、このプロセッサに
図11から14に記載の方法および上述の方法のいずれかを実施させる。
1つの例では、これらの命令は、符号化工程で上記の方法を実行して、映像情報(例えば、映像フレームおよび/または関連する1つまたは複数のシンタックス要素を示す映像ブロックなど)と、オンラインで訓練されたパラメータまたは重みをビットストリームまたはデータストリームへと符号化すように、装置1000のプロセッサ1020によって実行されてよく、このビットストリームまたはデータストリームを(例えば、図2の映像復号器200に)送信するように、装置1000のプロセッサ1020によって実行されてもよい。あるいは、例えば、上記の方法を用いて、符号化工程で、符号器(例えば、図1の映像符号器100)によって生成された、符号化された映像情報(例えば、符号化された映像フレームおよび/または関連する1つまたは複数のシンタックス要素を示す映像ブロックなど)と、オンラインで訓練されたパラメータまたは重みを有するビットストリームまたはデータストリームを、復号器(例えば、図2の映像復号器200)で映像データを復号するのに利用するために、非一時的コンピュータ可読記憶媒体が記憶していてよい。非一時的コンピュータ可読記憶媒は、例えば、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピディスク、光学データ記憶装置などであってよい。
いくつかの例では、映像符号化方法が提供される。この方法は、復号器で、符号化された映像情報とオンラインで訓練されたパラメータを有するビットストリームを受け取ることと、このビットストリームを用いた復号により、復号された映像情報を取得することを含み、このビットストリームにおけるオンラインで訓練されたパラメータは、ニューラルネットワークをハイブリッド訓練するための上述の方法によって生成される。
【手続補正10】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オフライン訓練段階で、複数の第1データセットを使用して、
第1ニューラルネットワークをオフラインで訓練することによってオフライン訓練ネットワークを取得することと、
オンライン訓練段階で、複数の第2データセットを使用して、複数のニューラルネットワーク層を精緻化することと、を含み、前記複数のニューラルネットワーク層は、前記オフライン訓練ネットワークまたは前記オフライン訓練ネットワークに接続された
第2ニューラルネットワーク内に少なくとも1つのニューラルネットワーク層を含む、
映像符号化のためにニューラルネットワークをハイブリッド訓練するための方法。
【請求項2】
前記複数の第2データセットを使用して前記複数のニューラルネットワーク層を精緻化することは、前記複数の第2データセットを使用して前記複数のニューラルネットワーク層を繰り返し精緻化することを含む、請求項1に記載の方法。
【請求項3】
前記オフライン訓練ネットワークは、精緻化される前記複数のニューラルネットワーク層よりも多いニューラルネットワーク層を含む、請求項1に記載の方法。
【請求項4】
前記オフライン訓練ネットワークは、複数の残差ブロックを含み、精緻化される前記複数のニューラルネットワーク層は、前記オフライン訓練ネットワーク内の最後の残差ブロックを含む、請求項
1に記載の方法。
【請求項5】
前記
第2ニューラルネットワークは、
少なくとも1つの畳み込み層を含み、
かつ前記第2ニューラルネットワークのニューラルネットワーク層の数は前記オフライン訓練ネットワークのニューラルネットワーク層の数より少なく、かつ精緻化される前記複数のニューラルネットワーク層は、前記
第2ニューラルネットワーク内の前記
少なくとも1つの畳み込み層を含む、請求項1に記載の方法。
【請求項6】
オンライン訓練段階またはオフライン訓練段階である訓練段階のうち、同じ訓練段階もしくは異なる訓練段階で、異なる学習アルゴリズムを実施することか、または
同じ訓練段階もしくは異なる訓練段階で、学習アルゴリズム内の学習率パラメータの異なる開始値を適用すること、
をさらに含む、請求項1に記載の方法。
【請求項7】
異なる訓練段階で異なる学習アルゴリズムを実施することは、
前記オフライン訓練段階で確率的勾配降下法(SGD)アルゴリズムを実施し、前記オンライン訓練段階で適応モーメント推定(ADAM)アルゴリズムを実施することを含
み、
同じ訓練段階で異なる学習アルゴリズムを実施することは、
前記オフライン訓練段階で、損失関数によって生成される損失が所定の閾値未満であると判定するのに応じて、適応モーメント推定(ADAM)アルゴリズムから確率的勾配降下法(SGD)アルゴリズムに切り替えることを含む、
請求項6に記載の方法。
【請求項8】
前記複数のニューラルネットワーク層は、周期的にか、またはトリガーイベントに応じてか、の少なくとも一方で精緻化さ
れ、
前記トリガーイベントは、
映像符号器の挙動、
映像符号器構成の変更、または
映像フレーム内に物体または物体のバックグラウンドを含んでいる映像コンテンツの変化、
のうち1つのイベントを含む、請求項1に記載の方法。
【請求項9】
前記複数の第2データセットは、符号化情報、映像コンテンツ、
および映像フレーム以外の情報
のうちの少なくとも1つを含み、
前記符号化情報は、時間層情報を含み、
前記映像コンテンツは、映像フレームから関心領域に基づいて抽出された複数のパッチを含み、かつ
前記映像フレーム以外の情報は、動き情報を含む、請求項1に記載の方法。
【請求項10】
前記複数のパッチは、同じクラスターに属しているパッチ、または異なるクラスターに属しているパッチから選択され、映像フレームからクロップされる異なるパッチは、表現類似性または歪みのレベルに基づく異なるクラスターに対応している、請求項
9に記載の方法。
【請求項11】
前記複数の第1データセット
のデータ量は、前記複数の第2データセット
のデータ量より
も多い、請求項1に記載の方法。
【請求項12】
前記複数のニューラルネットワーク層を繰り返し精緻化することは、
ネットワークパラメータの部分集合を訓練可能となるように構成することによって前記ネットワークパラメータの訓練可能な構造を制御することか
、
ネットワークパラメータのデータタイプを制御することによって前記ネットワークパラメータのダイナミックレンジを制御することか、
重み正則化を使用して前記複数のニューラルネットワーク層のネットワークパラメータを制御することか
のうちの少なくとも1つを含む、請求項2に記載の方法。
【請求項13】
前記複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得することと、
前記複数の精緻化済みネットワークパラメータをプルーニングまたは量子化することか、または
平均シフトもしくは重み共有を使用して前記複数の精緻化済みネットワークパラメータを処理すること、
のうち1つの操作によって、前記複数の精緻化済みネットワークパラメータに基づく複数の処理済みネットワークパラメータを取得することと、
前記複数の処理済みネットワークパラメータを伝達することと、をさらに含む、
請求項1に記載の方法。
【請求項14】
前記複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得することと、
前記複数のニューラルネットワーク層の元のネットワークパラメータと前記複数の精緻化済みネットワークパラメータとの差異を取得することと、
前記差異に基づいて差分マップを構築することと、
をさらに含む、請求項1に記載の方法。
【請求項15】
前記複数のニューラルネットワーク層を繰り返し精緻化することによって、複数の精緻化済みネットワークパラメータを取得することと、
前記複数の精緻化済みネットワークパラメータを近似するように、符号器の適応ループ内フィルタ(ALF)のフィルタ係数を拡張または調整することと、
をさらに含む、請求項1に記載の方法。
【請求項16】
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行可能な命令を記憶するように構成されたメモリと、
を備え、
前記1つまたは複数のプロセッサは、前記命令を実行すると、請求項1から
15のいずれか1つに記載の方法を実施するように構成されている、映像符号化のためにニューラルネットワークをハイブリッド訓練するための装置。
【請求項17】
1つまたは複数のコンピュータプロセッサによって実行されると、前記1つまたは複数のコンピュータプロセッサに、請求項1から
15のいずれか1つに記載の方法を実施させる、コンピュータ実行可能命令を記憶した非一時的コンピュータ可読記憶媒体。
【請求項18】
命令を含み、該命令は、プロセサによって該命令が実行された時に、請求項1から15のいずれか1つに記載の方法を実施する、コンピュータ可読記憶媒体に記憶されたコンユータプログラム。
【請求項19】
符号化された映像情報とオンラインで訓練されたパラメータを有するビットストリームであって、該ビットストリーム内の前記オンラインで訓練されたパラメータは、請求項1から15のいずれか1つに記載の方法によって生成される、ビットストリーム。
【請求項20】
画像符号化装置によって生成されたビットストリームを送信する方法であって、
前記画像符号化装置は、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行可能な命令を記憶するように構成されたメモリと、
を備え、
前記1つまたは複数のプロセッサは、前記命令を実行すると、請求項1から15のいずれか1つに記載の方法を実施するように構成されている、方法。
【手続補正11】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正12】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正13】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【国際調査報告】