特許7573986 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7573986分割パターン決定装置、分割パターン決定方法、学習装置、学習方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-18

(45)【発行日】2024-10-28

(54)【発明の名称】分割パターン決定装置、分割パターン決定方法、学習装置、学習方法およびプログラム

(51)【国際特許分類】

H04N 19/119 20140101AFI20241021BHJP

H04N 19/136 20140101ALI20241021BHJP

H04N 19/176 20140101ALI20241021BHJP

【ＦＩ】

H04N19/119

H04N19/136

H04N19/176

【請求項の数】 12

(21)【出願番号】P 2020079325

(22)【出願日】2020-04-28

(65)【公開番号】P2021175126

(43)【公開日】2021-11-01

【審査請求日】2023-04-17

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】100125254

【弁理士】

【氏名又は名称】別役重尚

(72)【発明者】

【氏名】宮内大

【審査官】坂東大五郎

(56)【参考文献】

【文献】特開２０１８－１８２５３１（ＪＰ，Ａ）

【文献】国際公開第２０２０／０６１００８（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ１９／００－１９／９８

(57)【特許請求の範囲】

【請求項1】

所定の領域ごとに分割パターンが階層構造で表される画像が入力され、入力された前記画像に基づいて、前記所定の領域ごとに、該所定の領域のうちの複数のブロックのそれぞれに対してブロックサイズを示す値が対応付けられた階層マップを生成する生成手段と、
生成した前記階層マップに基づいて、前記画像の分割パターンを決定する決定手段と、
を備え、
前記生成手段は、機械学習された学習モデルを用いて、前記階層マップを生成することを特徴とする分割パターン決定装置。

【請求項2】

前記階層マップのうち、前記階層構造の階層間で不整合が生じているブロックがある場合、該ブロックおよび該ブロックの周辺の複数のブロックに基づいて、前記不整合を補正する補正手段、をさらに備えることを特徴とする請求項１に記載の分割パターン決定装置。

【請求項3】

前記補正手段は、前記階層構造の階層が所定階層より浅いブロックについて、分割する階層を深くする補正を行うことを特徴とする請求項２に記載の分割パターン決定装置。

【請求項4】

前記学習モデルは、ニューラルネットワークであり、
前記ニューラルネットワークは、誤差逆伝搬法を用いて機械学習されることを特徴とする請求項１に記載の分割パターン決定装置。

【請求項5】

前記ニューラルネットワークは、複数の畳み込み部と複数のプーリング部とを有し、前記畳み込み部は、前記所定の領域の周辺画素を合わせて畳み込むことを特徴とする請求項４に記載の分割パターン決定装置。

【請求項6】

前記生成手段は、前記ニューラルネットワークの出力が浮動小数点である場合、前記浮動小数点を、前記ブロックのサイズを示す整数値に変換することを特徴とする請求項４または５に記載の分割パターン決定装置。

【請求項7】

前記画像は、ＨＥＶＣ規格により符号化される動画像を構成する画像であることを特徴とする請求項１乃至６のうち何れか１項に記載の分割パターン決定装置。

【請求項8】

所定の領域ごとに分割パターンが階層構造で表される画像が入力され、入力された前記画像に基づいて、前記所定の領域ごとに、該所定の領域のうちの複数のブロックのそれぞれに対してブロックサイズを示す値が対応付けられた階層マップを生成する工程と、
生成した前記階層マップに基づいて、前記画像の分割パターンを決定する工程と、
を備え、
前記生成する工程では、機械学習された学習モデルを用いて、前記階層マップが生成されることを特徴とする分割パターン決定方法。

【請求項9】

所定の領域ごとに分割パターンが階層構造で表される学習用の画像が入力され、入力された前記画像に基づいて、前記所定の領域ごとに、該所定の領域のうちの複数のブロックのそれぞれに対してブロックサイズを示す値が対応付けられた階層マップを、機械学習された学習モデルを用いて、生成する生成手段、を備え、
前記学習用の画像に対応する教師データと前記階層マップとの平均二乗誤差が小さくなるように機械学習を行うことを特徴とする学習装置。

【請求項10】

所定の領域ごとに分割パターンが階層構造で表される学習用の画像が入力され、入力された前記画像に基づいて、前記所定の領域ごとに、該所定の領域のうちの複数のブロックのそれぞれに対してブロックサイズを示す値が対応付けられた階層マップを、機械学習された学習モデルを用いて、生成する工程と、
前記学習用の画像に対応する教師データと前記階層マップとの平均二乗誤差が小さくなるように機械学習を行う工程と、
を備えることを特徴とする学習方法。

【請求項11】

コンピュータを、請求項１乃至７のうち何れか１項に記載の分割パターン決定装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。

【請求項12】

コンピュータを、請求項９に記載の学習装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、分割パターン決定装置、分割パターン決定方法、学習装置、学習方法およびプログラムに関する。

【背景技術】

【0002】

動画像符号化の標準規格として、Ｈ.２６５／ＨＥＶＣ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）（以下、「ＨＥＶＣ」）が２０１３年に標準化されている。ＨＥＶＣでは、符号化対象画像は、６４画素×６４画素サイズのブロックであるＣＴＵ（ＣｏｄｉｎｇＴｒｅｅＵｎｉｔ）の単位で分割される。そして、ＣＴＵごとに符号化処理が行われる。ＨＥＶＣでは、ＣＴＵは、符号化単位であるＣＵ（ＣｏｄｉｎｇＵｎｉｔ）に再帰的に分割される。ここで、ＣＴＵにおけるＣＵの分割パターンを決定するための演算量は膨大になる。

【0003】

そこで、ＣＴＵにおけるＣＵの分割パターンを決定するために、機械学習されたニューラルネットワーク等の学習モデルを利用して、ＣＵの分割パターンを推論することが考えられる。しかしながら、ＣＴＵにおけるＣＵの全ての分割パターンを網羅する場合、出力パターンの数が膨大な数になるという問題がある。また、機械学習の際には、膨大な数の教師データを予め用意しておく必要があるという問題もある。

【0004】

関連する技術として、特許文献１の技術が提案されている。特許文献１の技術では、四分木データ構造で２１通りの出力ラベルが正解ラベルに近づくよう、学習の際に学習モデルの学習パラメータが更新される。そして、分割確率の閾値を超える分割確率を保持しているノードに対応付けられたＣＵを分割すると決定される。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１８－１８２５３１号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

上述した特許文献１の技術では、２１通りの出力ラベルが正解ラベルに近づくように、機械学習が行われている。従って、分割パターンを決定する際の演算量は、依然として多いという問題がある。

【0007】

本発明は、画像の分割パターンを決定する際の演算量を低減することを目的とする。

【課題を解決するための手段】

【0008】

上記目的を達成するために、本発明の分割パターン決定装置は、所定の領域ごとに分割パターンが階層構造で表される画像が入力され、入力された前記画像に基づいて、前記所定の領域ごとに、該所定の領域のうちの複数のブロックのそれぞれに対してブロックサイズを示す値が対応付けられた階層マップを生成する生成手段と、生成した前記階層マップに基づいて、前記画像の分割パターンを決定する決定手段と、を備え、前記生成手段は、機械学習された学習モデルを用いて、前記階層マップを生成することを特徴とする。

【発明の効果】

【0009】

本発明によれば、画像の分割パターンを決定する際の演算量を低減することができる。

【図面の簡単な説明】

【0010】

【図1】画像符号化装置の一例を示す図である

【図2】分割パターン決定部の一例を示す図である。

【図3】第１実施形態の階層マップの一例を示す図である。

【図4】第１実施形態における中間特徴マップの不整合補正の一例を示す図である。

【図5】第１実施形態の不整合補正部の処理の流れを示すフローチャートである。

【図6】第１実施形態の学習装置の一例を示す図である。

【図7】第２実施形態の不整合補正部の処理の流れを示すフローチャートである。

【図8】第２実施形態における中間特徴マップの不整合補正方法を示す図である。

【図9】第３実施形態の分割パターン決定部の一例を示す図である。

【図10】着目ＣＴＵに対する階層ごとの中間特徴マップの一例を示す図である。

【図11】第３実施形態の不整合補正を説明する図である。

【図12】不整合の補正例を示す図である。

【図13】特定階層特徴マップの一例を示す図である。

【図14】演算対象から除外される特定階層特徴マップの一例を示す図である。

【図15】補正済みの特定階層特徴マップのデータ列の一例を示す図を示す。

【図16】第５実施形態の学習装置の一例を示す図である。

【発明を実施するための形態】

【0011】

以下、本発明の各実施の形態について図面を参照しながら詳細に説明する。しかしながら、以下の各実施の形態に記載されている構成はあくまで例示に過ぎず、本発明の範囲は各実施の形態に記載されている構成によって限定されることはない。

【0012】

＜第１実施形態＞
図１は、画像符号化装置１００の一例を示す図である。画像符号化装置１００は、画像を符号化する装置である。各実施形態では、画像符号化装置１００は、動画像を構成する画像を符号化する。画像符号化装置１００は、所定のサーバやコンピュータ等であってもよいし、例えば、撮像装置やスマートフォン、タブレット端末等に内蔵されていてもよい。画像符号化装置１００は、ＣＰＵ、ＲＡＭおよびＲＯＭを有する。ＲＯＭに記憶された制御プログラムがＲＡＭに展開され、ＣＰＵがＲＡＭに展開された制御プログラムを実行することで、各実施形態の処理が実現される。また、画像符号化装置１００は、所定のプログラミング回路により実現されてもよい。

【0013】

画像符号化装置１００は、符号化の対象となる画像（符号化対象画像）を、６４画素×６４画素のサイズであるＣＴＵ（ＣｏｄｉｎｇＴｒｅｅＵｎｉｔ）のブロック単位で符号化する。ＣＴＵは、所定の領域に対応する。分割パターン決定部１０１は、フレームメモリ部１０８が保持している符号化対象画像について分割パターンを決定し、階層構造で再帰的に決定されるＣＵ（ＣｏｄｉｎｇＵｎｉｔ）をＣＴＵごとに生成する。

【0014】

画像符号化装置１００は、Ｈ.２６５規格（ＨＥＶＣ規格）に準拠した動画像符号化を行う。ＨＥＶＣでは、ＣＵは、６４画素×６４画素、３２画素×３２画素、１６画素×１６画素または８画素×８画素の何れかで構成される。例えば、画像のうち複雑な領域はＣＵが小さくサイズ調整され、平坦な領域はＣＵが大きくサイズ調整される。これにより、符号化効率が向上する。ＨＥＶＣの場合、ＣＵは、予測単位であるＰＵ（ＰｒｅｄｉｃｔｉｏｎＵｎｉｔ）や変換単位であるＴＵ（ＴｒａｎｓｆｏｒｍＵｎｉｔ）にさらに分割される。ＣＵサイズやＴＵサイズが調整されることで、符号化効率が向上する。各実施形態では、ＰＵサイズおよびＴＵサイズは、ＣＵサイズに応じて一意に決定したサイズであるものとする。ＰＵサイズおよびＴＵサイズは、ＰＵおよびＴＵに対する総当たりのコスト計算に基づいて決定されてもよい。なお、符号化対象画像は、ＨＥＶＣ規格に準拠した動画像符号化で符号化される画像には限定されない。

【0015】

分割パターン決定部１０１は、予め学習済みの係数パラメータを用いて、分割パターンを決定する。以下、ニューラルネットワークの機械学習により更新されるパラメータを、係数パラメータと総称する。分割パターン決定部１０１は、画像符号化装置１００に組み込まれてもよいし、単独の装置として構成されてもよい。分割パターン決定部１０１は、分割パターン決定装置に対応する。分割パターン決定部１０１による処理は、例えば、ＧＰＵ（グラフィックス・プロセッシング・ユニット）により実現されてもよいし、ＣＰＵとＧＰＵとの協働動作により実現されてもよい。各実施形態では、分割パターン決定部１０１は、ＣＴＵにおけるＣＵの分割パターンを決定する。分割パターン決定部１０１は、ＰＵおよびＴＵについてもＣＵと同様に分割パターンを決定してもよい。

【0016】

減算器１０２は、分割パターン決定部１０１が出力する画像ブロックと切替部１１１が出力する予測画像との差分を算出し、算出された差分に基づいて、差分画像データを生成する。直交変換・量子化部１０３は、生成された差分画像データに直交変換を施し、直交変換後のデータである変換係数に量子化処理を行い、量子化済み変換係数を生成する。エントロピー符号化部１０４は、量子化済み変換係数にＣＡＶＬＣ（Ｃｏｎｔｅ×ｔ－ｂａｓｅｄＡｄａｐｔｉｖｅＶａｒｉａｂｌｅＬｅｎｇｔｈＣｏｄｉｎｇ）等のエントロピー符号化を施して、符号化データとして出力する。エントロピー符号化部１０４は、ＣＡＢＡＣ（Ｃｏｎｔｅ×ｔ－ｂａｓｅｄＡｄａｐｔｉｖｅＢｉｎａｒｙＡｒｉｔｈｍｅｔｉｃＣｏｄｉｎｇ）等のエントロピー符号化を施してもよい。また、エントロピー符号化部１０４は、切替部１１１から通知される動きベクトルやイントラ予測モードも併せて符号化データとして出力する。

【0017】

逆量子化・逆直交変換部１０５は、直交変換・量子化部１０３から通知される量子化済み変換係数を逆量子化して、逆直交変換し、逆変換済みデータを生成する。加算器１０６は、逆変換済みデータと、切替部から通知される予測画像とを加算することで、再構成画像を生成する。ループフィルタ部１０７は、再構成画像データにフィルタ処理を施すことで、符号化歪を軽減し、フィルタ処理済みの再構成画像を生成する。フレームメモリ部１０８は、フィルタ処理済みの再構成画像データを記憶する。フレームメモリ部１０８は、上述の通り符号化対象画像も記憶する。フィルタ処理済みの再構成画像は、イントラ予測部１０９に通知され、イントラ予測に用いられる。

【0018】

イントラ予測部１０９は、フレームメモリ部１０８に記憶された符号化済みの符号化対象ブロックの周辺の画素データから生成される複数のイントラ予測画像データと符号化対象ブロックとの相関に基づいて、イントラ予測方式を選択する。イントラ予測部１０９は、選択されたイントラ予測方式を切替部１１１に通知する。インター予測部１１０は、フレームメモリ部１０８に記憶された符号化対象画像の原画像と参照画像との間で、画面間の差分が最小となるような動きベクトルを探索し、探索した動きベクトルを切替部１１１に通知する。切替部１１１は、インター予測部１１０とイントラ予測部１０９とのそれぞれの予測結果に基づいて、最も差分画像データが小さい予測方式を選択する。以上により、符号化データが生成される。

【0019】

次に、分割パターン決定部１０１について、説明する。図２は、分割パターン決定部１０１の一例を示す図である。特徴抽出部２００は、予め学習済みの係数パラメータを用いた、機械学習に基づくフィルタ処理を行う。特徴抽出部２００は、生成手段に対応する。特徴抽出部２００は、畳み込み部とプーリング部とが交互に積層されて構造を含む畳み込みニューラルネットワーク等のニューラルネットワークであってもよい。畳み込み部は、入力画像（符号化対象画像）または畳み込み処理済みの画像特徴データに対して、予め学習により決定した係数パラメータを用いて畳み込み演算を行い、画像特徴データを生成する。プーリング部は、畳み込み部が出力した画像特徴データにプーリング処理を行う。

【0020】

図２の例では、特徴抽出部２００は、畳み込み部２０１、２０３、２０５、２０７およびプーリング部２０２、２０４、２０６、２０８で構成されている。ただし、畳み込み部およびプーリング部の数は、図２の例には限定されない。各畳み込み部はそれぞれ複数のフィルタや複数の畳み込み層を有していてもよい。各プーリング部は、２画素×２画素単位に最大値を取得する最大プーリング層であるが、最大プーリング層には限定されない。また、特徴抽出部２００は、プーリング部を含まなくてもよい。中間特徴マップメモリ２０９は、特徴抽出部２００が生成した中間特徴マップを記憶する。中間特徴マップは、不整合補正前の階層マップである。補正手段としての不整合補正部２１０は、ブロック分割の階層構造が成立するように、ＣＴＵごとに中間特徴マップの不整合データを補正し、ブロック分割に関する階層マップを生成する。

【0021】

以上の分割パターン決定部１０１は、ＣＵの分割パターンを生成する。分割パターン決定部１０１に入力される画像の解像度は、メモリの制約の範囲内で、ＣＴＵ以上であれば任意の解像度であってもよい。ただし、特徴抽出部２００の畳み込み部の受容野に対応する周辺画素を、着目するＣＴＵ（着目ＣＴＵ）と合わせて畳み込むことが好ましい。この場合、着目ＣＴＵだけでなく、その周辺画素の情報も利用できることから、分割パターンを決定する精度が向上する。特徴抽出部２００には、符号化対象画像の全面が入力される。そして、各畳み込み部による処理と各プーリング部による処理とがラスタ順に行われる。これにより、特徴抽出部２００は、符号化対象画像の全面に対応する階層マップを生成する。

【0022】

中間特徴マップメモリ２０９に記憶された中間特徴マップは、符号化対象画像のＣＴＵに相当するブロックごとに、不整合補正部２１０で不整合補正処理される。また、各畳み込み部および各プーリング部の入出力データを記憶するローカルメモリは、各畳み込み部およびプーリング部の内部に設けられているものとする。ただし、各畳み込み部および各プーリング部の入出力データは、任意の記憶部に記憶されてもよい。決定手段としての決定部２１１は、生成された階層マップに基づいて、ＣＴＵにおけるＣＵの分割パターンを決定する。

【0023】

図３は、第１実施形態の階層マップの一例を示す図である。図３（ａ）は、１つのＣＴＵについての階層マップを示している。以下、着目ＣＴＵのうち着目する領域を着目領域とする。特徴抽出部２００は、ＣＴＵにおけるＣＵの分割パターンを決定するために、各領域の分割パターンの特徴を抽出する。具体的には、特徴抽出部２００は、着目ＣＴＵの着目領域が、６４画素×６４画素のブロックであるか、３２画素×３２画素のブロックであるか、１６画素×１６画素ブロックであるか、または８画素×８画素ブロックであるかを抽出する。階層マップ値は、上記の何れかのブロックに対応付けられる。階層マップ値は、何れの階層で分割を行うかを示す値であり、分割されたブロックのサイズ（ブロックサイズ）を示す値である。「０」は、着目領域が６４画素×６４画素であることを示す。の着目領域に対応付けられる。「１」は、着目領域が３２画素×３２画素であることを示す。「２」は、着目領域が１６画素×１６画素であることを示す。「３」は、着目領域が８画素×８画素であることを示す。

【0024】

特徴抽出部２００は、以上のように、インデックス「０」～「３」を定める。そして、分割パターン決定部１０１は、符号化対象画像の１６画素×１６画素を、階層マップの１要素（以下、符号化対象画像の画素と区別するため、階層マップの１画素を１要素と表記する）として階層マップ値を算出する。これにより、２ビットで全ての分割パターンを表現することができる。従って、ＣＴＵ単位に換算すると、４要素×４要素の計１６要素で１つのＣＴＵの分割パターンを表現できる。各要素は、ブロックに対応する。

【0025】

図３（ｂ）～（ｆ）は、ＣＴＵあたりの階層マップと分割パターンとの対応関係の例を示している。図３（ｂ）～（ｆ）において、階層マップ値に対応するＣＴＵの分割イメージの例が示されている。図３（ｂ）は、全ての階層マップ値が「０」のため、「ＣＴＵ＝ＣＵ＝６４画素×６４画素」であり、ＣＴＵは分割されない。図３（ｃ）は、全ての階層マップ値が「１」のため、ＣＴＵは、「ＣＵ＝３２画素×３２画素×４個」に分割される。図３（ｄ）は、全ての階層マップ値が「２」であるため、ＣＴＵは、「ＣＵ＝１６画素×１６画素×１６個」に分割される。図３（ｅ）は、全ての階層マップ値が「３」であるため、ＣＴＵは、「ＣＵ＝８画素×８画素×６４個」に分割される。図３（ｆ）は、１つのＣＴＵ内で異なる階層マップ値が組み合わされた分割パターンの一例を示す。階層マップは、中間特徴マップを変換することで得られるマップデータである。機械学習に用いられる教師データは、階層マップと同一の仕様のものが使用される。

【0026】

分割パターン決定部１０１は、ＣＴＵに対して４要素×４要素の階層マップを生成するため、特徴抽出部２００は４つのプーリング部を有する構成を採用している。ただし、特徴抽出部２００の構成は、図２の例には限定されない。分割パターン決定部１０１は、予め縮小させた符号化対象画像を特徴抽出部２００に入力してもよいし、ＣＴＵあたりの要素が４要素×４要素を超える中間特徴マップから、周辺要素の平均を算出する等して階層マップを生成してもよい。

【0027】

次に、不整合補正について説明する。特徴抽出部２００は、例えば、畳み込みニューラルネットワーク等のニューラルネットワークにより構成される。中間特徴マップは、予め深層学習等の機械学習により得られた係数パラメータに基づく、フィルタ処理そのものの結果である。従って、中間特徴マップは浮動小数点の小数精度を有しており、必ずしも階層マップの整数値と一致しない。なお、特徴抽出部２００における演算精度は整数の精度であってもよい。この場合、浮動小数点演算と異なり回路規模が削減される。これらの点は、以下の各実施形態で共通である。不整合補正部２１０は、特徴抽出部２００の出力データを、「０」、「１」、「２」または「３」で表現される値に変換する。具体的には、不整合補正部２１０は、以下の式（１）に基づいて各中間特徴マップの値を変換する。
「ｙ＝０（ｘ＜０．５）
ｙ＝１（０．５≦ｘ＜１．５）
ｙ＝２（１．５≦ｘ＜２．５）
ｙ＝３（２．５≦ｘ）」・・・（１）
ｘは中間特徴マップが出力する値、ｙは階層マップのインデックス値へ変換後の中間特徴マップの値である。なお、以上の式において、ｙを決定するためのｘに対する閾値は、上記の値には限定されない。

【0028】

図４は、第１実施形態における中間特徴マップの不整合補正の一例を示す図である。特徴抽出部２００は、符号化対象画像の１６画素×１６画素ごとに階層マップの１要素を生成する。このため、図４の補正前に示すように、階層構造が成立しない中間特徴マップを生成する場合がある。例えば、図４では、補正前の中間特徴マップは階層マップ値（以下、マップ値と称することがある）が「０」である要素は、ＣＴＵ内に２つしか存在しない。しかしながら、ＣＴＵを、６４画素×６４画素のＣＵとするためには、補正前の４要素×４要素のマップ値は全て「０」である必要がある。

【0029】

また、図４の階層マップの中には、２要素×２要素（符号化対象画像の３２画素×３２画素）の中に、マップ値が「１」の要素とマップ値が「２」以上の要素とが共存している（図４の補正前における左上の２要素×２要素）。この場合、補正前における左上の２要素×２要素の領域については、３２画素×３２画素のＣＵに分割するか、または更に分割をして１６画素×１６画素以下のＣＵとするかが不明である。そこで、分割パターン決定部１０１は、図４の補正後に示すように、上位階層から順に、中間特徴マップの各マップ値の数を比較し、多数決に基づき、不整合が補正された階層マップを生成する。

【0030】

次に、不整合補正部２１０の処理について説明する。図５は、不整合補正部２１０の処理の流れを示すフローチャートである。Ｓ５０１で、不整合補正部２１０は、特徴抽出部２００が出力した出力データを小数精度から整数精度にし、階層マップ値を示すインデックス値へ変換する処理（インデックス化処理）を行う。不整合補正部２１０は、上述した式（１）を用いて、インデックス化処理を行う。Ｓ５０２で、不整合補正部２１０は、着目ＣＴＵに対応する中間特徴マップにおける４要素×４要素中の各インデックス値について、インデックス値「０」の総数が、インデックス値「１」と「２」と「３」との合計の総数以上であるかを判定する。不整合補正部２１０は、Ｓ５０２でＹＥＳと判定した場合、処理をＳ５０３に進める。

【0031】

Ｓ５０３で、不整合補正部２１０は、着目ＣＴＵに対応する中間特徴マップ４要素×４要素中のインデックス値を全て０に変換する。これは、インデックス値が、ＣＴＵを分割しないと想定されるためである。不整合補正部２１０は、Ｓ５０２でＮＯと判定した場合、処理をＳ５０４に進める。Ｓ５０４で、不整合補正部２１０は、変数ｉ（ｉは整数）に「０」を代入して初期化する。次に、Ｓ５０５で、不整合補正部２１０は、変数ｉの値を判定する。そして、不整合補正部２１０は、変数ｉの値に応じて、処理をＳ５０６、Ｓ５０７、Ｓ５０８またはＳ５０９の何れかに進める。以下、着目ＣＴＵ内の３２画素×３２画素に対応する中間特徴マップの２要素×２要素を着目要素領域と表記し、変数ｉの値に応じて、着目要素領域を設定する。

【0032】

不整合補正部２１０は、「ｉ＝０」である場合、処理をＳ５０６に進める。Ｓ５０６で、不整合補正部２１０は、着目要素領域を、（ｘ，ｙ）＝（０，０）を左上要素とした２要素×２要素を着目要素領域に設定する。不整合補正部２１０は、「ｉ＝１」である場合、処理をＳ５０７に進める。Ｓ５０７で、不整合補正部２１０は、着目要素領域を、（ｘ，ｙ）＝（２，０）を左上要素とした２要素×２要素を着目要素領域に設定する。不整合補正部２１０は、「ｉ＝２」である場合、処理をＳ５０８に進める。不整合補正部２１０は、「ｉ＝３」である場合、処理をＳ５０９に進める。Ｓ５０９で、不整合補正部２１０は、着目要素領域を、（ｘ，ｙ）＝（２，２）を左上要素とした２要素×２要素を着目要素領域に設定する。なお、以上の（ｘ，ｙ）は、図４の４要素×４要素における座標系であり、ｘ軸は左右方向に対応し、ｙ軸は上下方向に対応する。

【0033】

Ｓ５１０で、不整合補正部２１０は、着目要素領域中のインデックス値について、インデックス値「１」の総数が、インデックス値「２」と「３」との合計の総数以上であるかを判定する（Ｓ５１０）。不整合補正部２１０は、Ｓ５１０でＹＥＳと判定した場合、処理をＳ５１１に進める。Ｓ５１１で、不整合補正部２１０は、着目要素領域（２要素×２要素）中の全ての要素のインデックス値を「１」に変換する。不整合補正部２１０は、Ｓ５１０でＮＯと判定した場合、Ｓ５１２の処理を実行することなく、処理をＳ５１２に進める。Ｓ５１２で、不整合補正部２１０は、「ｉ＝３」であるかを判定する。

【0034】

不整合補正部２１０は、Ｓ５１２でＹＥＳと判定した場合、図５の処理を終了させる。一方、不整合補正部２１０は、Ｓ５１２でＮＯと判定した場合、処理をＳ５１３に進める。Ｓ５１３で、不整合補正部２１０は、変数ｉの値をインクリメントする。ここで、上述したように、１６画素×１６画素は階層マップの１要素である。このため、中間特徴マップの値が「２」または「３」の場合には不整合が生じない。従って、不整合補正部２１０は、中間特徴マップの値に「０」または「１」が含まれる場合のみ、所定の要素領域内で不整合を補正すればよい。不整合補正部２１０が図５の各処理を実行することにより、中間特徴マップから分割パターンを示す階層マップが生成される。

【0035】

上述した例では、ＣＵに着目しているが、より階層の深い分割を行う場合にも本実施形態を適用できる。不整合補正部２１０が、図５の着目要素領域を分割対象となる画素位置に合わせて適宜設定し、多数決を行うことで、不整合の補正を行うことができる。以上より、不整合補正部２１０は、生成された階層マップの階層間に不整合が生じている要素がある場合、不整合が生じている要素の周辺の要素も考慮して不整合を補正する。これにより、階層構造が成立しない中間特徴マップが生成されたとしても、階層構造を成立させることができる。

【0036】

次に、ニューラルネットワークの機械学習について説明する。上述したように、特徴抽出部２００は、例えば、畳み込みニューラルネットワーク等のニューラルネットワークにより構成される。ニューラルネットワークのフィルタ演算に用いる重みやバイアス等のパラメータは、多数の学習用の画像が入力されて機械学習されることで、調整される。

【0037】

図６は、第１実施形態の学習装置６００の一例を示す図である。学習装置６００は、分割パターンを決定するための係数パラメータを学習するための装置である。学習装置６００のうち、特徴抽出部２００、中間特徴マップメモリ２０９および不整合補正部２１０は、図２と同様であるため、説明を省略する。学習装置６００は、特徴抽出部２００、中間特徴マップメモリ２０９および不整合補正部２１０に加えて、Ｍｓｅ算出部６０１を有する。学習装置６００には、教師データセットから教師データが入力される。また、学習装置６００には、入力画像セットから学習用の画像が入力される。教師データと学習用の入力画像とは一対で構成される。

【0038】

各実施形態では、教師データは、ＪＣＴ－ＶＣが作成したＨＥＶＣＴｅｓｔＭｏｄｅｌ（ＨＭ）を用いた際にソフトウェア上で算出される、符号化に利用されたＣＵ分割パターンが適用されるものとする。ＪＣＴ－ＶＣは、ＪｏｉｎｔＣｏｌｌａｂｏｒａｔｉｖｅＴｅａｍｏｎＶｉｄｅｏＣｏｄｉｎｇの略称である。教師データは、ＨＭを用いて算出したデータには限定されない。教師データは、図３で示される階層マップと同様のマップ形式であり、以下、教師階層マップと称する。Ｍｓｅ算出部６０１は、機械学習が行われる際の損失を取得するため、教師階層マップと不整合補正部２１０が出力する階層マップとの平均二乗誤差(ｍｓｅ：ｍｅａｎｓｑｕａｒｅｄｅｒｒｏｒ)を算出する。

【0039】

ここでは、不整合補正後のデータに対して、機械学習時の損失を算出する例について説明するが、不整合補正前の中間特徴マップに対して、機械学習時の損失が算出されてもよい。これにより、浮動小数の精度で演算を行うことができる。また、学習装置６００は、ｍｓｅを損失関数とし、誤差逆伝搬法により係数パラメータの変化量である勾配を取得し、パラメータ最適化手法として確率的勾配降下法で係数パラメータを更新する。機械学習における勾配の取得方法やパラメータ最適化手法等については他の方式が適用されてもよい。以上のような機械学習を多くの画像を用いて繰り返し行うことで、ニューラルネットワークの係数パラメータは、教師データの分割パターンに近づくように補正される。

【0040】

従って、第１実施形態では、分割パターン決定部１０１は、画像（符号化対象画像）の中のＣＴＵの分割パターンを、要素領域ごとに分割要否を示す階層マップとして取得できる。これにより、階層ごとにクラス分類を行う場合と比較して、分割パターンを決定するための演算量を抑制できる。また、分割パターン決定部１０１は、ＣＴＵごとのクラス分類に対して、周辺画素の情報も加味して畳み込みを行う。このため、周辺画素の情報を加味しない場合と比較して、分割パターンの決定の精度を向上させることができる。

【0041】

ここで、学習装置６００が、ニューラルネットワークの機械学習を行い、生成された学習済みのニューラルネットワークは、画像符号化装置１００の分割パターン決定部１０１に供給される。例えば、学習装置６００と画像符号化装置１００とが異なる装置である場合、画像符号化装置１００は、学習装置６００から、有線通信または無線通信を介して、学習済みのニューラルネットワークを取得する。これにより、分割パターン決定部１０１は、学習済みのニューラルネットワークを用いて、分割パターンを決定できる。分割パターン決定部１０１が単独の装置である場合、分割パターン決定部１０１が、学習装置６００から、学習済みのニューラルネットワークを取得してもよい。

【0042】

学習済みのニューラルネットワークは、未知の符号化対象画像が入力されると、推論した階層マップを出力する。また、上述した例では、特徴抽出部２００は、学習モデルとしてニューラルネットワークを用いているが、学習モデルとしては、ニューラルネットワーク以外のモデルが用いられてもよい。例えば、サポートベクターマシン等が学習モデルとして用いられてもよい。また、上述した例では、ＨＥＶＣに準拠した動画像符号化の例について説明したが、階層構成を構成する画像のブロック分割に基づいて符号化を行う任意に手法に、各実施形態を適用することができる。

【0043】

＜第２実施形態＞
次に、第２実施形態について説明する。第２実施形態は、不整合補正部２１０による補正方法が、第１実施形態と異なる。第１実施形態と重複する部分についての説明は省略する。ＣＵの分割において、分割するブロックのサイズが小さくなるほど画質に影響する。従って、ブロックを分割するサイズが小さくなるに応じて、細かい制御が可能になる。そこで、第２実施形態の分割パターン決定部１０１は、中間特徴マップに基づくインデックス値を、小さいブロックに分割する値を優先して、中間特徴マップの補正を行う。具体的には、第２実施形態の分割パターン決定部１０１は、各要素のうちインデックス値が所定値以上である場合（階層が所定階層より浅い場合）、インデックス値を大きくする補正（階層を深くする補正）を行う。

【0044】

図７は、第２実施形態の不整合補正部２１０の処理の流れを示すフローチャートである。Ｓ７０１で、不整合補正部２１０は、図５のＳ５０１と同様のインデックス化処理を行う。Ｓ７０２で、不整合補正部２１０は、着目ＣＴＵに対応する中間特徴マップ４要素×４要素中のインデックス値について、全ての値が「０」であるかを判定する。不整合補正部２１０は、Ｓ７０２でＹＥＳと判定した場合、図７の処理を終了させる。一方、不整合補正部２１０は、Ｓ７０２でＮＯと判定した場合、処理をＳ７０３に進める。Ｓ７０３～Ｓ７０８の各処理は、図５のＳ５０４～Ｓ５０９と同様である。Ｓ７０９で、不整合補正部２１０は、着目要素領域の中のインデックス値について、全ての値が１以下であるかを判定する。不整合補正部２１０は、Ｓ７０９でＮＯと判定した場合、処理をＳ７１０に進める。

【0045】

Ｓ７１０で、不整合補正部２１０は、着目要素領域（２要素×２要素）の中のインデックス値が「１」以下のインデックス値を「２」に変換する。そして、不整合補正部２１０は、処理をＳ７１１に進める。不整合補正部２１０は、Ｓ７０９でＮＯと判定した場合も、処理をＳ７１１に進める。Ｓ７１１およびＳ７１２は、図５のＳ５１２およびＳ５１３と同様である。

【0046】

図８は、第２実施形態における中間特徴マップの不整合補正方法を示す図である。図８の補正前は、図４の補正前と同様である。第２実施形態では、不整合補正部２１０は、Ｓ７１０の処理を行うことで、ブロックを分割するサイズを小さくさせることができる。これにより、細かい制御が可能になるため、動画像を構成する画像を符号化する際の画像の画質を向上させることができる。

【0047】

＜第３実施形態＞
次に、第３実施形態について説明する。第３実施形態は、ブロックサイズごとに複数の中間特徴マップを生成する点で、第１実施形態と異なる。図９は、第３実施形態の分割パターン決定部１０１の一例を示す図である。第３実施形態の特徴抽出部９００は、畳み込み部９０１、９０３、９０５、９０７、９０９、９１１、９１３、９１４、９１５、およびプーリング部９０２、９０４、９０６、９０８、９１０、９１２を有する。畳み込み部とプーリング部とは交互に積層されている。各畳み込み部は、複数のフィルタや畳み込み層を有していてもよい。特徴抽出部９００の構成は、第１実施形態と同様、図９の例には限定されない。特徴抽出部９００は、生成手段に対応する。

【0048】

中間特徴マップメモリ９１６は、後述する複数の異なる中間特徴マップを記憶する。補正手段としての不整合補正部９１７は、階層構造が成立するように、ＣＴＵごとに中間特徴マップの不整合データを補正し、階層マップを生成する。決定手段としての決定部９１８は、生成された階層ごとの中間特徴マップに基づいて、ＣＴＵにおけるＣＵの分割パターンを決定する。以上のようにして、分割パターン決定部１０１はＣＵを生成する。不整合補正部９１７による不整合補正処理は、第１実施形態と同様である。

【0049】

図１０は、着目ＣＴＵに対する階層ごとの中間特徴マップの一例を示す図である。以下、階層ごとの中間特徴マップを、特定階層特徴マップ（特徴マップ）と称する。図１０（ａ）は、ＣＴＵあたりの６４画素×６４画素の分割要否を表す１要素を示す。図１０（ｂ）は、ＣＴＵあたりの３２画素×３２画素の分割要否を表す合計４要素を示す。図１０（ｃ）は、ＣＴＵあたりの１６画素×１６画素の分割要否を表す合計１６要素を示す。各要素は「０」または「１」の値で表現され、値が「０」の要素は分割しないことを示し、値が「１」の要素は分割することを示す。つまり、第３実施形態では、各特定階層特徴マップは、着目ＣＵに対して、分割要否は１ｂｉｔで表現される。第３実施形態では、特徴抽出部９００は、３つの特定階層特徴マップが、図１０で示す要素数になるようなプーリングを行う。

【0050】

ここでは、プーリング部９０８の出力が、１６画素×１６画素の分割要否を表す特定階層特徴マップに関連付けられる。また、プーリング部９１０の出力が、３２画素×３２画素の分割要否を表す特定階層特徴マップに関連付けられる。プーリング部９１２の出力が、６４画素×６４画素の分割要否を表す特定階層特徴マップに関連付けられる。第３実施形態では、プーリング処理により、ＣＴＵに対して各階層で最小画素の特定階層特徴マップを算出する構成が採用されるが、プーリング処理の手法は、上記の例には限定されない。また、第３実施形態の分割パターン決定部１０１は、符号化対象画像を予め縮小させてから特徴抽出部２００へ入力してもよい。また、分割パターン決定部１０１は、特定階層特徴マップの１要素を分割要否の単位として取り扱わず、例えば、特定階層特徴マップの４要素の平均値を、１つの分割要否の結果として取り扱ってもよい。つまり、６４画素×６４画素の分割要否を表す特定階層特徴マップが、図１０（ｂ）の解像度、またはそれ以上の解像度で出力されていてもよい。

【0051】

不整合補正部９１７は、特徴抽出部９００からの出力データを「０」または「１」の二値に変換する。具体的には、不整合補正部９１７は、以下の式（２）に基づいて各特定階層特徴マップ値を変換する。

【0052】

ｙ＝０（ｘ＜０．５）・・・（２）
ただし、ｘはインデックスへ変換する前の特定階層特徴のマップ値であり、ｙはインデックスへ変換した後の特定階層特徴のマップ値である。なお、以上の式において、ｙを決定するためのｘに対する閾値は、上記の値には限定されない。また、式（２）は、全ての階層の特定階層特徴マップに適用されるものとして説明するが、不整合補正部９１７は、階層ごとに閾値を変更してもよい。

【0053】

次に、不整合補正処理について説明する。第３実施形態では、分割パターン決定部１０１は、特定階層特徴マップに基づいて、階層ごとに中間特徴マップを算出する。従って、上位階層で分割しないと判定されたブロックの下位階層で分割すると判定されることがあり、階層間の不整合が生じることがある。そこで、不整合補正部９１７は、階層間に生じた不整合を補正する。図１１は、第３実施形態の不整合補正を説明する図である。図１１において、「分割」はインデックス化処理がされた後の特定階層特徴マップの値が「１」であり、「非分割」は特定階層特徴マップの値が「０」である。

【0054】

ここで、符号化効率を高めるには、動画像を構成する画像を符号化して、復号された画像の画質が高いブロック分割パターンを決定することが好ましい。このため、動画像を構成する各画像やビットレートにも左右されるが、サイズが小さいブロックの分割要否が画質に大きく関わるケースが多い。そこで、第３実施形態の不整合補正部９１７は、サイズが小さいブロックの分割要否を、サイズが大きいブロックの分割要否より優先して、不整合の補正を行う。図１１の例は、サイズが小さいブロック（下位階層のブロック）の分割要否を、サイズが大きいブロック（上位階層のブロック）の分割要否より優先させた場合の不整合の補正結果を示す。つまり、不整合補正部９１７は、サイズが小さいブロックの分割要否に基づいて、サイズが大きいブロックの分割要否を決定する。

【0055】

具体的には、上位階層のブロックが「非分割」であるにもかかわらず、下位階層のブロックが「分割」である場合に、不整合補正部９１７は、不整合状態であると判定する。この場合、不整合補正部９１７は、「分割」である下位階層の上位階層に相当する「非分割」のブロックを「分割」とする補正を行う。これにより、不整合の補正が図られる。例えば、図１１において、３２画素×３２画素のブロックが「非分割」を示し、且つ１６画素×１６画素のブロックが「分割」を示している場合、不整合補正部９１７は、不整合状態であると判定する。この場合、不整合補正部９１７は、３２画素×３２画素のブロックを「分割」に補正する。

【0056】

図１２は、不整合の補正例を示す図である。３階層の特定階層特徴マップのうち３２画素×３２画素の特定階層特徴マップの４つの要素のうち補正前の左上の要素は「０」になっており、「非分割」であることを示している。一方、対応する下位階層の１６画素×１６画素の特定階層特徴マップのうち１つの要素は「１」になっており、「分割」であることを示している。この場合、不整合が生じているため、不整合補正部９１７は、３２画素×３２画素の特定階層特徴マップの左上の要素を「１」に補正する。これにより、不整合が解消される。

【0057】

不整合補正部９１７は、サイズが小さいブロックの分割要否を、サイズが大きいブロックの分割要否より優先しているが、不整合の補正の手法は、上記の例には限定されない。例えば、不整合補正部９１７は、機械学習が行われる際の画質向上度に基づいて、不整合の補正方法を決定してもよい。また、不整合補正部９１７は、画質向上度の指標としてＰＳＮＲ（Ｐｅａｋｓｉｇｎａｌ－ｔｏ－ｎｏｉｓｅｒａｔｉｏ）を用いてもよい。この場合、不整合補正部９１７は、各種の不整合補正を行った後に、ＨＭ等を利用して、復号後の画像の画質を、ＰＳＮＲを用いて比較することで、最も画質が高くなる不整合の補正方法を決定してもよい。

【0058】

また、不整合補正部９１７は、機械学習されたニューラルネットワーク等の学習モデルを用いて、不整合の補正を行ってもよい。ここでの学習モデルは、第１実施形態および第２実施形態の学習モデルとは異なる。例えば、不整合補正部９１７は、３つ特定階層特徴マップと符号化対象画像とを入力として、何れの分割パターンで不整合を補正するかをクラス分類により選択して、選択結果を出力してもよい。分割要否を決定する対象の画像群の内容に応じて分割要否の精度が異なってくるため、機械学習された学習モデルに基づいて不整合の補正方法を決定することは有効である。以上の不整合補正部９１７に用いられる学習モデルは、学習用の３つ特定階層特徴マップと符号化対象画像とを入力として、何れの分割パターンで不整合を補正するかを示す教師データを用いて、機械学習されてもよい。

【0059】

次に、補正済みの特定階層特徴マップの集約について説明する。図１３は、特定階層特徴マップの一例を示す図である。不整合補正部９１７は、不整合補正処理により補正された特定階層特徴マップから、第１実施形態で説明した図３（ｂ）～図３（ｆ）のような特徴マップ形式に変換することで、分割パターンを決定する。

【0060】

以上のように、第３実施形態では、分割パターン決定部１０１は、階層ごとに１ビットの特定階層特徴マップを算出して分割要否を決定する。これにより、第３実施形態の特徴抽出部９００がニューラルネットワーク等の学習モデルで構成される場合、学習モデルは分割するか否かの二値の何れかのみを推論すればよい。このため、ブロックの分割要否の精度を向上させることができる。

【0061】

＜第４実施形態＞
次に、第４実施形態について説明する。第４実施形態の分割パターン決定部１０１の構成は、第３実施形態の図９と同様である。第４実施形態は、不整合補正方法が第３実施形態と異なる。一般的に、ニューラルネットワーク等の学習モデルの推論精度は、推論する対象のデータの情報量が多くなるに応じて低くなる。従って、ニューラルネットワーク等の学習モデルによる推論精度は、解像度の低い画像よりも解像度の高い画像の方が低い。換言すれば、ニューラルネットワーク等の学習モデルによる推論精度は、上位階層の分割要否を示す特定階層特徴マップの方が下位階層の分割要否を示す特定階層特徴マップよりも高い。従って、サイズが大きいブロックの方が、推論精度を高め易いため、図９の畳み込み部９１３の演算量は、畳み込み部９１４、９１５より演算量が少なくなる。

【0062】

そこで、第４実施形態の分割パターン決定部１０１は、サイズが小さいブロックの特定階層特徴マップよりも、サイズが大きいブロックの特定階層特徴マップを優先して不整合補正を行う。そして、第４実施形態の分割パターン決定部１０１は、「非分割」と判定された上位階層のブロックと同じ画素位置の下位階層の特定階層特徴マップは演算対象から除外する。

【0063】

図１４は、演算対象から除外される特定階層特徴マップの一例を示す図である。図１４の例に示されるように、最上位階層である６４画素×６４画素の特定階層特徴マップには、３つの「非分割」の画素の領域がある。「非分割」の画素に対応する下位階層の２つの特定階層特徴マップの画素の領域は演算対象から除外される。また、３２画素×３２画素の特定特徴マップのうち「非分割」の画素に対応する下位階層の特定階層特徴マップの画素の領域は、演算対象から除外される。

【0064】

図１５は、補正済みの特定階層特徴マップのデータ列の一例を示す図を示す。図１５では、便宜上、連続する３つのＣＴＵ（ＣＴＵ０、ＣＴＵ１およびＣＴＵ２）の特定階層特徴マップが示されている。上述したように、分割パターン決定部１０１は、上位階層の要素が「非分割」である場合、対応する下位階層の各要素を演算対象（処理対象）から除外する。これにより、演算対象から除外された各要素についての演算（処理）は実施されない。演算対象から除外された各要素についての値を保持する必要はない。

【0065】

そこで、分割パターン決定部１０１は、図１５に示されるように、階層ごとの特定階層特徴マップのうち、演算対象から除外された各要素を省いたデータ列を生成する。図１５の特定階層特徴マップのデータ列では、省かれた部分の画素位置のデータは詰められている。例えば、ＣＴＵ１に対応する３２画素×３２画素の特定階層特徴マップおよび１６画素×１６画素の特定階層特徴マップには、値が設定されていない。そこで、分割パターン決定部１０１は、特定階層特徴マップの各要素のうち値が設定されていない要素をスキップしたデータ列を生成する。これにより、特定階層特徴マップのデータ量の削減が図られる。また、階層構造を辿ることにより、スキップされた要素の位置を特定することができる。

【0066】

以上のように、第３実施形態では、「非分割」の上位階層の要素の領域に対応する下位階層の特定階層特徴マップの演算が行われない。これにより、各階層の特定階層特徴マップの全ての要素について演算が行われる場合と比較して、演算量を低減させることができる。例えば、対応する上位階層の要素の領域が「非分割」である場合、図９の畳み込み部９１４、９１５の処理を省略することができる。演算量が低減できることから、電力削減を図ることも可能である。なお、分割パターン決定部１０１は、各特定階層特徴マップを生成する特徴抽出部９００が階層ごとにそれぞれ独立な構成を採用してもよい。これにより、演算量をさらに削減することができる。

【0067】

＜第５実施形態＞
次に、第５実施形態について説明する。第５実施形態の分割パターン決定部１０１の構成は、第３実施形態の図９と同様である。第５実施形態は、機械学習の方法が、第４実施形態と異なる。図１６は、第５実施形態の学習装置１６００の一例を示す図である。特徴抽出部９００の構成は、図９と同様である。図１６に示されるように、第５実施形態の分割パターン決定部１０１は、上記の特徴抽出部９００に加えて、第１のＭｓｅ算出部１６０１、第２のＭｓｅ算出部１６０２および第３のＭｓｅ算出部１６０３を有する。各Ｍｓｅ算出部が出力するデータは、ＴｏｔａｌＭｓｅ算出部１６０４に入力される。ＴｏｔａｌＭｓｅ算出部１６０４は、学習装置１６００に含まれていてもよい。教師データは、階層ごとに、「分割」示す値が「１」、「非分割」を示す値が「０」である正解を示す特定階層特徴マップであり、その形式は図１０と同様である。第１のＭｓｅ算出部１６０１には第１の教師データが対応しており、第２のＭｓｅ算出部１６０２には第２の教師データが対応しており、第３のＭｓｅ算出部１６０３には、第３の教師データが対応している。各教師データのそれぞれと学習用の入力画像とは一対で構成される。

【0068】

第１のＭｓｅ算出部１６０１は、６４画素×６４画素の特定階層特徴マップと第１の教師データとの平均二乗誤差ｌｏｓｓ６４を算出する。第２のＭｓｅ算出部１６０２は、３２画素×３２画素の特定階層特徴マップと第２の教師データとの平均二乗誤差ｌｏｓｓ３２を算出する。第３のＭｓｅ算出部１６０３は、１６画素×１６画素の特定階層特徴マップと第３の教師データとの平均二乗誤差ｌｏｓｓ１６を算出する。ＴｏｔａｌＭｓｅ算出部１６０４は、各階層の平均特徴マップに基づく以下の式（３）を用いて、合計の損失ｌｏｓｓ＿ｓｕｍを算出する。ただし、以下の式（３）において、「α≦β≦γ」が成立するものとする。
ｌｏｓｓ＿ｓｕｍ=α×ｌｏｓｓ６４+β×ｌｏｓｓ３２+γ×ｌｏｓｓ１６・・・（３）
上記ｌｏｓｓ＿ｓｕｍは、各平均二乗誤差の単純加算であってもよい。上述した式（３）では、下位階層の特定階層特徴マップの平均二乗誤差に対して高い値の重みで重み付けがされ、上位階層の特定階層特徴マップの平均二乗誤差に対して低い値の重みで重み付けがされる。ＴｏｔａｌＭｓｅ算出部１６０４は、式（３）により、合計の損失ｌｏｓｓ＿ｓｕｍを算出する。

【0069】

上述したように、サイズが小さいブロックの分割精度の方が、サイズが大きいブロックの分割精度よりも画像の画質に対して大きな影響を与える。そこで、ＴｏｔａｌＭｓｅ算出部１６０４は、特定階層特徴マップの階層が深くなるに応じて、高い値の重み付けをする。そして、学習装置１１００は、上記の重み付けがされた合計の損失ｌｏｓｓ＿ｓｕｍをゼロに近づけるようなニューラルネットワークの機械学習を行う。これにより、分割精度を高めることが難しいサイズが小さいブロックの分割に関わる機械学習を重点的に行うことができる。従って、ブロックの分割精度を向上させることができる。なお、学習装置１１００は、上記の機械学習を行った結果、分割精度が高まりにくかったブロックサイズを探索し、探索結果に基づいて、上記の重みα、β、γの関係を決定してもよい。この場合、「α≦β≦γ」が成立しない場合もある。

【0070】

以上、本発明の好ましい実施の形態について説明したが、本発明は上述した各実施の形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。本発明は、上述の各実施の形態の１以上の機能を実現するプログラムを、ネットワークや記憶媒体を介してシステムや装置に供給し、そのシステム又は装置のコンピュータの１つ以上のプロセッサーがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【符号の説明】

【0071】

１００画像符号化装置
１０１分割パターン決定部
２００特徴抽出部
２１０不整合補正部
６００学習装置

【図1】