特許7296270 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7296270画像特徴抽出装置およびそのプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-06-14

(45)【発行日】2023-06-22

(54)【発明の名称】画像特徴抽出装置およびそのプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20230615BHJP

G06N 3/04 20230101ALI20230615BHJP

【ＦＩ】

G06T7/00 350C

G06N3/04

【請求項の数】 4

(21)【出願番号】P 2019139406

(22)【出願日】2019-07-30

(65)【公開番号】P2021022256

(43)【公開日】2021-02-18

【審査請求日】2022-06-09

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】河合吉彦

【審査官】山田辰美

(56)【参考文献】

【文献】米国特許出願公開第２０１８／０３１５１６２（ＵＳ，Ａ１）

【文献】Yongbing Zhang, et al，Adaptive Residual Networks for High-Quality Image Restoration，IEEE Transactions on Image Processing ( Volume: 27, Issue: 7, July 2018，IEEE，2018年，3150-3163，https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8306452

【文献】内田祐介，畳み込みニューラルネットワークの研究動向，電子情報通信学会技術研究報告Ｖｏｌ．１１７Ｎｏ．３６２，一般社団法人電子情報通信学会，2017年，Ｖｏｌ．１１７Ｎｏ．３６２，25～38

【文献】Dakai Jin, et al，White matter hyperintensity segmentation from T1 and FLAIR images using fully convolutional neural networks enhanced with residual connections，2018 IEEE 15th International Symposium on Biomedical Imaging (ISBI 2018)，IEEE，2018年，1060-1064，https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8363754

【文献】山下隆義，畳み込みニューラルネットワークの研究動向，画像ラボ第２９巻第１０号，日本工業出版株式会社，2018年，第２９巻第１０号，27～35

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｎ３／０４

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

画像のデータから前記画像の特徴量を抽出する画像特徴抽出装置であって、
畳み込みニューラルネットワークのパラメータとして予め学習したカーネルを用いて、入力したデータに対して複数の畳み込み層の演算を行う畳み込み手段と、
前記畳み込みニューラルネットワークのパラメータとして予め学習したスケーリング係数を用いて、前記入力したデータに前記スケーリング係数を乗算するスケーリング手段と、
前記畳み込み手段の演算結果と前記スケーリング手段の演算結果とを加算する加算手段と、を有する基本構成部を多段構成で備え、
最終段の基本構成部の演算結果を前記特徴量とすることを特徴とする画像特徴抽出装置。

【請求項2】

前記基本構成部の少なくとも１つ以上は、
前記畳み込み手段が、複数の畳み込み層の演算において、入力したデータとは異なる次元の演算結果を生成するものであって、
前記スケーリング手段が、前記入力したデータを線形射影して前記次元のデータに変換した後に、前記スケーリング係数を乗算することを特徴とする請求項１に記載の画像特徴抽出装置。

【請求項3】

前記特徴量を画像分類用の特徴量とする場合、最終段の基本構成部が出力するデータのチャンネル数を前記画像分類用の分類数とすることを特徴とする請求項１または請求項２に記載の画像特徴抽出装置。

【請求項4】

コンピュータを、請求項１から請求項３のいずれか一項に記載の画像特徴抽出装置として機能させるための画像特徴抽出プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、畳み込みニューラルネットワークにより画像の特徴を抽出する画像特徴抽出装置およびそのプログラムに関する。

【背景技術】

【0002】

従来、画像内の物体認識、顔認識等の画像認識の分野において、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を利用する手法が知られている。
このＣＮＮは、ＶＧＧ（Visual Geometry Group）等のように、ネットワークの層を深くして学習を行うことで、認識の精度を向上させている。図９に、ＣＮＮの基本構造を示す。従来のＣＮＮは、図９に示すように、複数（図９では２層）の畳み込み層を連結し、入力ｘに対して、出力Ｈ（ｘ）を最適化したネットワーク構造である。この場合、学習対象である写像Ｆ（ｘ）は、Ｈ（ｘ）そのものである。
しかし、従来のＣＮＮは、単純にネットワークの層を深くしていくと、学習を行う際の勾配が消失したり、発散したりすることで、正しく学習が行われず、認識精度が劣化してしまうことが知られている。

【0003】

そこで、近年では、残差ニューラルネットワーク（ＲｅｓＮｅｔ：Residual Network）を使用する手法が知られている。図１０に、ＲｅｓＮｅｔの基本構造を示す。
このＲｅｓＮｅｔは、図１０に示すように、複数（図１０では２層）の畳み込み層を連結するとともに、その出力と入力ｘとを足し合わせた出力Ｈ（ｘ）を最適化したネットワーク構造である。この場合、学習対象である写像Ｆ（ｘ）は、出力Ｈ（ｘ）と入力ｘとの残差であるＨ（ｘ）－ｘである。
このように、ＲｅｓＮｅｔは、入力ｘをそのまま伝達するパスを設けることで、情報をネットワークの下層に伝達させ、学習時における勾配消失等の不具合を抑えて、ネットワークの多層化を実現している。

【先行技術文献】

【非特許文献】

【0004】

【文献】K. He, X. Zhang, S. Ren, and J. Sun,“Deep Residual Learning for Image Recognition”, in Proc. CVPR, 2015.

【発明の概要】

【発明が解決しようとする課題】

【0005】

図１０で説明したように、ＲｅｓＮｅｔの基本構造は、畳み込み層による畳み込みを行わずに、入力ｘをネットワークの下層にそのまま伝達するパスを設けている。
このＲｅｓＮｅｔの基本構造を多層化して、画像認識等を行う畳み込みニューラルネットワークを構築する場合、どの層においても、学習対象である写像Ｆ（ｘ）と、畳み込み層を通らない入力ｘとは、同じ重みで加算されることになる。
しかし、入力ｘの重要性は、層の位置によって異なる場合があり、必ずしも均一に加算することがネットワークの最適化に寄与しない場合がある。
そのため、畳み込みニューラルネットワークを最適化するさらなる工夫が求められていた。

【0006】

本発明は、このような問題に鑑みてなされたものであり、畳み込みニューラルネットワークの複数の畳み込み層を通さずに下層に伝達するデータに重みを付加して、画像特徴を抽出することが可能な画像特徴抽出装置およびそのプログラムを提供することを課題とする。

【課題を解決するための手段】

【0007】

前記課題を解決するため、本発明に係る画像特徴抽出装置は、画像のデータから前記画像の特徴量を抽出する画像特徴抽出装置であって、畳み込み手段と、スケーリング手段と、加算手段と、を有する基本構成部を多段構成で備える構成とした。

【0008】

かかる構成において、画像特徴抽出装置は、基本構成部の畳み込み手段によって、畳み込みニューラルネットワークのパラメータとして予め学習したカーネルを用いて、入力したデータに対して複数の畳み込み層の演算を行う。これによって、畳み込み手段は、画像の特徴を順次畳み込んで抽出する。
また、画像特徴抽出装置は、基本構成部のスケーリング手段によって、畳み込みニューラルネットワークのパラメータとして予め学習したスケーリング係数を用いて、入力したデータにスケーリング係数を乗算する。これによって、スケーリング手段は、畳み込み層を通らない経路において、入力したデータに学習に応じた重みを付加する。
そして、画像特徴抽出装置は、基本構成部の加算手段によって、畳み込み手段の演算結果とスケーリング手段の演算結果とを加算する。
また、画像特徴抽出装置は、この基本構成部を多段構成で備え、順次演算を行うことで、畳み込みニューラルネットワークの複数の畳み込み層を通さずに下層に伝達するデータに対して、基本構成部ごとに予め学習した重みを付加することが可能になる。

【0009】

また、本発明は、コンピュータを、前記画像特徴抽出装置として機能させるための画像特徴抽出プログラムで実現することもできる。

【発明の効果】

【0010】

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、畳み込みニューラルネットワークにおいて、複数の畳み込み層を通さずに下層に伝達するデータに重みを付加することができる。
これによって、本発明は、入力データの重要性を層の位置によって異なるように学習した畳み込みニューラルネットワークを用いて、精度の高い画像特徴を抽出することができる。

【図面の簡単な説明】

【0011】

【図1】本発明の実施形態に係る画像特徴抽出装置で使用するＣＮＮの基本構造を示すネットワーク図である。

【図2】本発明の実施形態に係る画像特徴抽出装置の基本構成部の構成を示すブロック図である。

【図3】本発明の実施形態に係る画像特徴抽出装置の基本構成部の他の構成を示すブロック図である。

【図4】本発明の実施形態に係る画像特徴抽出装置が用いるＣＮＮのモデルを示すネットワーク図である。

【図5】本発明の実施形態に係る画像特徴抽出装置の構成を示す全体構成図である。

【図6】本発明の実施形態に係る画像特徴抽出装置の動作を示すフローチャートである。

【図7】画像特徴抽出装置のパラメータを学習するためのパラメータ学習装置が用いるＣＮＮのモデルを示すネットワーク図である。

【図8】画像特徴抽出装置のパラメータを学習するためのパラメータ学習装置の構成を示す全体構成図である。

【図9】従来のＣＮＮの基本構造を示すネットワーク図である。

【図10】従来のＲｅｓＮｅｔの基本構造を示すネットワーク図である。

【発明を実施するための形態】

【0012】

以下、本発明の実施形態について図面を参照して説明する。
＜畳み込みニューラルネットワークの基本構造の概要＞
図１を参照して、本発明の実施形態に係る画像特徴抽出装置１（図５）で用いる畳み込みニューラルネットワーク（以下、ＣＮＮ）の基本構造Ｎの概要について説明する。
図１に示すように、画像特徴抽出装置１（図５）で用いるＣＮＮの基本構造Ｎは、複数（図１では２層）の畳み込み層ＣＬ，ＣＬを連結して入力ｘを畳み込んだデータ（Ｆ（ｘ））と、スケーリング層ＳＬで入力ｘをスケーリング（ａ倍）したデータ（ａｘ）とを加算した出力Ｈ（ｘ）を最適化したネットワークモデルである。
ＣＮＮの基本構造Ｎは、複数の畳み込み層ＣＬ，ＣＬで行う写像Ｆ（ｘ）が、出力Ｈ（ｘ）と入力ｘとのａ倍のデータ（ａｘ）との残差であるＨ（ｘ）－ａｘとなるように予め学習したネットワークモデルである。
このように、ＣＮＮの基本構造Ｎは、複数の畳み込み層ＣＬ，ＣＬで畳み込み演算を行ったデータと、畳み込み層ＣＬ，ＣＬを通さずに下層に伝達するデータとを、重みを付けて加算する。
なお、ＣＮＮの基本構造Ｎの畳み込み層ＣＬは、２層に限定されず、３層以上であっても構わない。

【0013】

＜画像特徴抽出装置の基本構成部＞
次に、図２，図３を参照して、本発明の実施形態に係る画像特徴抽出装置１（図５）を構成する基本構成部について説明する。
図２は、図１で説明したＣＮＮの基本構造Ｎを装置構成として具現化した画像特徴抽出装置１の基本構成部１０の構成図である。
基本構成部１０は、入力データを畳み込み演算し、特徴を抽出して出力データとするものである。

【0014】

入力データは、Ｗ×Ｈ×Ｃのサイズを持つ３次元の行列（特徴量行列）である。行列の列Ｗおよび行Ｈは、特徴量の幅と高さを表し、行列の深さＣは、チャンネルの数（特徴量の種類数）を表す。なお、画像特徴抽出装置１の先頭階層の基本構成部１０への入力データは、画像データである。この場合、入力データは、予め定めた幅Ｗ画素、高さＨ画素、チャンネル数Ｃ（ＲＧＢの場合“３”）のデータである。
基本構成部１０の入力データと出力データとは、行列の次元が同じである。ここで、行列の次元とは、行列の幅、高さ、チャンネル数のそれぞれの配列の数をいう。
図２に示すように、基本構成部１０は、畳み込み手段１１と、スケーリング手段１２と、加算手段１３と、を備える。

【0015】

畳み込み手段１１は、予め定めたサイズの学習済のパラメータ（結合重み係数）を有する複数のカーネルを用いて、入力データに対して畳み込み演算を行うものである。
例えば、畳み込み手段１１は、１つの畳み込み層の演算として、Ｗ（幅）×Ｈ（高さ）×Ｃ（チャンネル）のサイズの入力データに対して、予め学習した３×３サイズのカーネルをＣ個用いて、入力データの幅および高さ方向の両端に１画素分の画素を付加（例えば、ゼロパディング）する。そして、畳み込み手段１１は、ストライド“１”で順次カーネルをシフトして畳み込み演算を行う。これによって、畳み込み手段１１は、入力データの行列の次元（幅、高さ、チャンネル数）と同じデータを生成する。
畳み込み手段１１は、この畳み込み層の演算を、図１に示したＣＮＮの予め定めた複数の畳み込み層ＣＬの数だけ行う。
畳み込み手段１１は、演算後のデータを加算手段１３に出力する。

【0016】

スケーリング手段１２は、入力データの各要素に対して、予め学習済みのパラメータであるスケーリング係数を乗算するものである。このスケーリング手段１２は、畳み込み層の演算を行わないようにバイパスする。
スケーリング係数は、予めＣＮＮのパラメータとして学習したスカラ値である。このスケーリング係数は、畳み込み手段１１を通る経路と、スケーリング手段１２を通る経路との重みを示す。
スケーリング手段１２は、Ｗ（幅）×Ｈ（高さ）×Ｃ（チャンネル）のサイズの入力データである行列の各要素を、すべて、スケーリング係数倍する。
スケーリング手段１２が演算したデータの次元（幅、高さ、チャンネル数）は、入力データと同じである。
スケーリング手段１２は、演算後のデータを加算手段１３に出力する。

【0017】

加算手段１３は、畳み込み手段１１で演算されたデータと、スケーリング手段１２で演算されたデータとを加算するものである。
加算手段１３に入力される畳み込み手段１１で演算されたデータと、スケーリング手段１２で演算されたデータとは、共に同じ次元（幅、高さ、チャンネル数）のデータであるため、加算手段１３は、２つの行列の同じ位置の要素をそれぞれ加算する。
これによって、加算手段１３は、入力データと同じ次元で、特徴量を抽出した出力データを生成する。

【0018】

次に、図３を参照して、画像特徴抽出装置１の基本構成部の他の構成（基本構成部１０Ｂ）について説明する。
基本構成部１０Ｂは、基本構成部１０（図２）と同様、入力データを畳み込み演算し、特徴を抽出して出力データとするものである。
図２で説明した基本構成部１０における入力データと出力データとは、同じ次元の行列であった。しかし、基本構成部１０Ｂにおける入力データと出力データとは、異なる次元の行列である。

【0019】

図３に示すように、基本構成部１０Ｂは、畳み込み手段１１Ｂと、スケーリング手段１２Ｂと、加算手段１３と、を備える。
加算手段１３は、図２で説明した基本構成部１０の構成と同じであるため、説明を省略する。

【0020】

畳み込み手段１１Ｂは、予め定めたサイズの学習済のパラメータ（結合重み係数）を有する複数のカーネルを用いて、入力データに対して畳み込み演算を行うものである。なお、畳み込み手段１１Ｂは、入力データの行列の次元を変えたデータを生成する。
例えば、畳み込み手段１１Ｂは、１つの畳み込み層の演算として、Ｗ（幅）×Ｈ（高さ）×Ｃ（チャンネル）のサイズの入力データに対して、予め学習した３×３サイズのカーネルを２×Ｃ個用いて、入力データの幅および高さ方向の両端に１画素分の画素を付加（例えば、ゼロパディング）する。そして、畳み込み手段１１Ｂは、ストライド“２”で順次カーネルをシフトして畳み込み演算を行う。これによって、畳み込み手段１１Ｂは、入力データの行列の幅および高さを半分にするとともに、チャンネル数を２倍にしたデータを生成する。

【0021】

なお、畳み込み手段１１Ｂは、複数の畳み込み層の演算すべてにおいて、行列の次元を変える必要はなく、最初の畳み込み層の演算のみ、行列の次元を変え、それ以降の畳み込み層の演算においては、行列の次元を変えないように演算してもよい。
畳み込み手段１１Ｂは、この畳み込み層の演算を、図１に示したＣＮＮの予め定めた複数の畳み込み層ＣＬの数だけ行う。
畳み込み手段１１Ｂは、演算後のデータを加算手段１３に出力する。

【0022】

スケーリング手段１２Ｂは、入力データの行列の次元を、畳み込み手段１１Ｂが出力するデータの次元に揃えて、行列の各要素に対して、予め学習済みのパラメータであるスケーリング係数を乗算するものである。
このスケーリング手段１２Ｂは、入力データの行列を、畳み込み手段１１Ｂが出力するデータの次元に線形射影する。

【0023】

例えば、畳み込み手段１１Ｂが、Ｗ（幅）×Ｈ（高さ）×Ｃ（チャンネル）のサイズの入力データを、（Ｗ／２）×（Ｈ／２）×（２×Ｃ）の行列に畳み込み演算を行うものとする。
この場合、スケーリング手段１２Ｂは、１チャンネルごとにＷ×Ｈのデータを（Ｗ／２）×（Ｈ／２）に縮小し、さらに、チャンネルを線形補間して、２×Ｃのチャンネル数の行列を生成する。
そして、スケーリング手段１２Ｂは、Ｗ／２（幅）×Ｈ／２（高さ）×２×Ｃ（チャンネル）のサイズの入力データである行列の各要素を、すべて、スケーリング係数倍する。
これによって、スケーリング手段１２Ｂが演算したデータの次元（幅、高さ、チャンネル数）は、畳み込み手段１１Ｂが演算したデータの次元と一致させることができる。
スケーリング手段１２Ｂは、演算後のデータを加算手段１３に出力する。

【0024】

以上説明したように、基本構成部１０，１０Ｂは、畳み込み手段１１，１１Ｂにおける入力データに対する複数の畳み込み層の演算結果と、畳み込み層を通らない入力データとを、重みを付けて加算することができる。

【0025】

＜画像特徴抽出装置のＣＮＮの概要＞
次に、図４を参照して、画像特徴抽出装置１（図５）が動作するＣＮＮのモデルＭの概要について説明する。

【0026】

モデルＭは、画像Ｉのデータを入力し、画像Ｉの特徴量Ｖを抽出する畳み込みニューラルネットワーク（ＣＮＮ）である
モデルＭは、予め定めた複数の畳み込み層ＣＬ（ここでは、〔ＣＬ_１，ＣＬ_２〕と〔ＣＬ_３，ＣＬ_４〕と〔ＣＬ_５，ＣＬ_６〕と〔ＣＬ_７，ＣＬ_８〕）ごとに、畳み込み層ＣＬを通らない（バイパスした）スケーリング層ＳＬ（ＳＬ_１～ＳＬ_４）を備える。
そして、モデルＭは、予め定めた複数の畳み込み層ＣＬの出力と当該畳み込み層を通らないスケーリング層ＳＬの出力とを加算し、後段の畳み込み層ＣＬに画像特徴を順次出力する。
モデルＭの最終出力は、予め定めた次元の特徴量Ｖである。
このように、モデルＭは、ネットワークの深さに応じて、畳み込みを行わない経路の重みを変えたネットワークとなる。

【0027】

なお、このモデルＭは、一例であって、全体の畳み込み層ＣＬの数や、スケーリング層ＳＬがバイパスする畳み込み層ＣＬの数は、この例に限定されるものではない。また、それぞれの畳み込み層ＣＬの出力データや、加算後のデータに対して活性化関数（ＲｅＬＵ：Rectified Linear Units等）を適用してもよい。

【0028】

＜画像特徴抽出装置の構成＞
次に、図５を参照して、本発明の実施形態に係る画像特徴抽出装置１の構成について説明する。
画像特徴抽出装置１は、図４で説明したモデルＭによって、画像Ｉから特徴量Ｖを抽出するものである。
図５に示すように、画像特徴抽出装置１は、複数の基本構成部１０，１０Ｂと、パラメータ記憶手段２０と、を備える。

【0029】

基本構成部１０，１０Ｂは、入力データを畳み込み演算し、特徴を抽出して出力データとするもので、図２，図３で説明したものと同じである。
ここでは、画像特徴抽出装置１は、基本構成部１０_１、１０Ｂ_２、１０Ｂ_３、１０Ｂ_４の順に多段に構成している。

【0030】

基本構成部１０_１は、畳み込み手段１１_１（１１）と、スケーリング手段１２_１（１２）と、加算手段１３_１（１３）と、を備える。
畳み込み手段１１_１は、Ｗ（幅）×Ｈ（高さ）×Ｃ（チャンネル）の画像Ｉに対して、２つの畳み込み層ＣＬ_１，ＣＬ_２の演算を行うものである。なお、畳み込み層ＣＬ_１，ＣＬ_２の「３×３ｃｏｎｖ，６４」は、３×３サイズのカーネルを６４個用いて、畳み込み演算を行うことを示す。
これによって、畳み込み手段１１_１は、画像Ｉから、Ｗ（幅）×Ｈ（高さ）が同じで６４個のチャンネルのデータを生成する。
畳み込み手段１１_１が行う畳み込み層ＣＬ_１，ＣＬ_２の演算として使用するカーネルのパラメータ（結合重み係数）は、予め学習済のパラメータとしてパラメータ記憶手段２０に記憶されている。
畳み込み手段１１_１は、演算後のデータを加算手段１３_１に出力する。

【0031】

スケーリング手段１２_１は、Ｗ（幅）×Ｈ（高さ）×Ｃ（チャンネル）の画像Ｉの行列の各要素に対して、予め学習済みのパラメータであるスケーリング係数を乗算するものである。なお、学習済のスケーリング係数は、予めパラメータ記憶手段２０に記憶されている。
スケーリング手段１２_１は、演算後のデータを加算手段１３_１に出力する。

【0032】

加算手段１３_１は、畳み込み手段１１_１で演算されたデータと、スケーリング手段１２_１で演算されたデータとを加算するものである。
加算手段１３_１は、加算結果のデータ（特徴行列）を、後段の基本構成部１０Ｂ_２に出力する。

【0033】

基本構成部１０Ｂ_２は、畳み込み手段１１Ｂ_２（１１Ｂ）と、スケーリング手段１２Ｂ_２（１２Ｂ）と、加算手段１３_２（１３）と、を備える。
畳み込み手段１１Ｂ_２は、基本構成部１０_１で演算された特徴行列に対して、２つの畳み込み層ＣＬ_３，ＣＬ_４の演算を行うものである。なお、畳み込み層ＣＬ_３，ＣＬ_４の「３×３ｃｏｎｖ，１２８」は、３×３サイズのカーネルを１２８個用いて、畳み込み演算を行うことを示す。また、畳み込み層ＣＬ_３の「／２」は、ストライド“２”でカーネルをシフトさせることを示す。なお、「／２」がない他の畳み込み層ＣＬは、ストライド“１”とする。
これによって、畳み込み手段１１Ｂ_２は、特徴行列から、Ｗ／２（幅）×Ｈ／２（高さ）、１２８個のチャンネルのデータを生成する。
畳み込み手段１１Ｂ_２が行う畳み込み層ＣＬ_３，ＣＬ_４の演算として使用するカーネルのパラメータ（結合重み係数）は、予め学習済のパラメータとしてパラメータ記憶手段２０に記憶されている。
畳み込み手段１１Ｂ_２は、演算後のデータを加算手段１３_２に出力する。

【0034】

スケーリング手段１２Ｂ_２は、基本構成部１０_１で演算された特徴行列を、畳み込み手段１１Ｂ_２が出力する行列と同じ次元に揃え、行列の各要素に対して、予め学習済みのパラメータであるスケーリング係数を乗算するものである。なお、学習済のスケーリング係数は、予めパラメータ記憶手段２０に記憶されている。
スケーリング手段１２Ｂ_２は、演算後のデータを加算手段１３_２に出力する。

【0035】

加算手段１３_２は、畳み込み手段１１Ｂ_２で演算されたデータと、スケーリング手段１２Ｂ_２で演算されたデータとを加算するものである。
加算手段１３_２は、加算結果のデータ（特徴行列）を、後段の基本構成部１０Ｂ_３に出力する。

【0036】

基本構成部１０Ｂ_３，１０Ｂ_４は、カーネルのサイズが異なるだけで、基本構成部１０Ｂ_２と同じ構成であるため説明を省略する。
最終段の基本構成部１０Ｂ_４は、最終演算結果を、画像Ｉの特徴量Ｖとして出力する。

【0037】

パラメータ記憶手段２０は、図４で説明したモデルＭの構造および学習済のパラメータを予め記憶するものである。パラメータ記憶手段２０は、半導体メモリ等の一般的な記憶媒体で構成することができる。

【0038】

以上説明したように、画像特徴抽出装置１は、画像Ｉから畳み込み演算によって特徴量Ｖを抽出する際に、畳み込みを行わずに下層にデータを経由する経路に重みを付けて学習したモデルを用いる。これによって、画像特徴抽出装置１は、ネットワークの深さによる特徴を重みによって反映させて、より精度よく画像の特徴量を抽出することができる。
なお、画像特徴抽出装置１は、コンピュータを、前記した各手段として機能させるための画像特徴抽出プログラムで動作させることができる。

【0039】

＜画像特徴抽出装置の動作＞
次に、図６を参照（構成については、適宜図２，図３，図５参照）して、本発明の実施形態に係る画像特徴抽出装置１の動作について説明する。なお、パラメータ記憶手段２０には、予め学習したパラメータが記憶されているものとする。また、基本構成部１０または基本構成部１０Ｂは、モデルＭ（図４）の構造によってどちらを使用するかが異なるため、ここでは、基本的に基本構成部１０のみで説明し、基本構成部１０，１０Ｂで動作が異なる場合のみ、その相違について説明を行う。

【0040】

ステップＳ１において、最前段の基本構成部１０が、画像Ｉをデータとして入力する。
ステップＳ２において、基本構成部１０は、畳み込み手段１１によって、パラメータ記憶手段２０に記憶されているパラメータであるカーネルの結合重み係数を参照して、複数の畳み込み層における畳み込み演算を行う。なお、このとき、基本構成部が基本構成部１０Ｂの場合、入力したデータの行列と、畳み込み演算後のデータの行列の次元が異なる。

【0041】

ステップＳ３において、畳み込み演算前後で行列の次元が異なる場合、すなわち、ステップＳ２の演算を基本構成部１０Ｂで行っている場合（ステップＳ３でＹｅｓ）、ステップＳ４において、スケーリング手段１２Ｂは、畳み込み演算前の入力データを、畳み込み演算後の行列の次元に揃えるように線形射影を行い、次元変換を行う。
一方、畳み込み演算前後で行列の次元が同じ場合、すなわち、ステップＳ２の演算を基本構成部１０で行っている場合（ステップＳ３でＮｏ）、スケーリング手段１２は、ステップＳ４の動作を行わずにステップＳ５に動作を進める。

【0042】

ステップＳ５において、スケーリング手段１２は、入力データまたはステップＳ４で次元変換された入力データを、パラメータ記憶手段２０に記憶されているパラメータであるスケーリング係数を参照して、入力データの各要素に対して、スケーリング係数を乗算する。

【0043】

ステップＳ６において、加算手段１３は、ステップＳ２で畳み込み演算を行った演算結果の行列と、ステップＳ５でスケーリング係数が乗算された行列とを、要素ごとに加算する。

【0044】

ステップＳ７において、後段に基本構成部１０が連結されている場合（ステップＳ７でＹｅｓ）、ステップＳ２に戻って、後段の基本構成部１０がステップＳ６の加算結果のデータに対して、畳み込み演算を行う。
一方、後段に基本構成部１０が連結されていない場合（ステップＳ７でＮｏ）、ステップＳ８において、基本構成部１０は、演算結果を特徴量Ｖとして出力する。
以上の動作によって、画像特徴抽出装置１は、画像Ｉから、特徴量を抽出することができる。

【0045】

以上、本発明の実施形態に係る画像特徴抽出装置１の構成および動作について説明したが、本発明はこの実施形態に限定されるものではない。
ここでは、説明を簡略化するため、基本構成部１０（１０Ｂ）の段数を“４”、基本構成部１０（１０Ｂ）内の畳み込み層の数を“２”として説明したが、この数は、これ以外であっても構わない。例えば、基本構成部１０（１０Ｂ）の段数を、一般的なニューラルネットワークで使用される１０～５０段程度としてもよい。また、基本構成部１０（１０Ｂ）内の畳み込み層は、３層以上あっても構わない。

【0046】

また、ここでは、基本構成部１０（１０Ｂ）を物理的に連結した。しかし、１つの基本構成部がモデルＭに応じて繰り返し演算を行うことで、基本構成部を多段構成した処理と同様の演算を行うこととしてもよい。

【0047】

また、ここでは、基本構成部１０Ｂが入力データと出力データとで行列の次元を変換（幅を１／２、高さを１／２に変換）する構成とした。しかし、基本構成部１０Ｂは、行列の幅および高さを縮小（それぞれ１／２）するプーリング層の演算（最大プーリング等）を行うプーリング手段（不図示）と基本構成部１０とを連結して構成してもよい。

【0048】

また、画像特徴抽出装置１は、画像内に映る人物や物体を分類するための画像分類用の特徴量を抽出する場合、最終段の基本構成部１０（１０Ｂ）の出力のチャンネル数を、画像分類用の分類数にしてもよい。そして、画像特徴抽出装置１は、グローバルアベレージプーリング（Global Average Pooling：ＧＡＰ）層の演算を行うグローバルアベレージプーリング手段を、最終段の基本構成部１０（１０Ｂ）に連結した構成として、画像分類装置として構成することができる。

【0049】

また、ここでは、ＲｅｓＮｅｔをベースにしてスケーリング層を付加したが、本発明は、ＣＮＮのすべてのネットワーク構造に適用することができる。例えば、以下の参考文献に記載されているＩｎｃｅｐｔｉｏｎ－ＲｅｓＮｅｔにおいて、データを畳み込み演算を行わずに下層に伝送する経路に、スケーリング層を設けることとしてもよい。
（参考文献）
C. Szegedy, S. Ioffe, V. Vanhoucke, and A. Alemi,“Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning”, in Proc. CVPR, 2016.

【0050】

＜パラメータ学習装置＞
次に、図７，図８を参照して、画像特徴抽出装置１が用いるＣＮＮのパラメータを学習するパラメータ学習装置２の例について説明する。
パラメータ学習装置２は、図７に示すＣＮＮのモデル（学習用モデル）Ｍ２によって、予め準備した学習データである学習画像ＬＩと、学習画像ＬＩの認識結果の正解データＬＣとから、モデルＭ２のパラメータを学習する。
なお、モデルＭ２は、モデルＭ（図４）に全結合層ＦＬを付加したモデルである。

【0051】

学習データは、例えば、多数（約１０万人）の人物をそれぞれ複数（約１００枚）撮影した学習画像（顔画像）ＬＩと、学習画像ＬＩに映る人物のラベルである正解データＬＣと、を対としたデータを用いることができる。
パラメータ学習装置２は、モデルＭ２のパラメータを学習することで、モデルＭ２を構成するモデルＭのパラメータを学習する。

【0052】

図８に示すように、パラメータ学習装置２は、複数の基本構成部１０，１０Ｂと、パラメータ記憶手段２０と、全結合手段３０と、誤差演算手段４０と、を備える。
ここでは、パラメータ学習装置２は、画像特徴抽出装置１と同じ構成で基本構成部１０_１、１０Ｂ_２、１０Ｂ_３、１０Ｂ_４の順に多段に構成している。

【0053】

基本構成部１０，１０Ｂは、画像特徴抽出装置１の構成と同様、パラメータ記憶手段２０に記憶されているパラメータを参照して、入力データに対して畳み込み演算を行うとともに、畳み込みを行わない経路で入力データをスケーリングし、それぞれを加算するものである。
また、パラメータ学習装置２の基本構成部１０，１０Ｂは、ネットワークの後段から入力される誤差に基づいて誤差逆伝播法により結合重み係数、スケーリング係数を更新し、誤差を前段に伝播するものでもある。

【0054】

パラメータ記憶手段２０は、図７で説明したモデルＭ２の構造およびパラメータを記憶するものである。なお、パラメータには予め乱数等の初期値が設定されている。そして、パラメータ記憶手段２０は、基本構成部１０，１０Ｂ、全結合手段３０によって、パラメータが更新される。

【0055】

全結合手段３０は、パラメータ記憶手段２０に記憶されているパラメータを参照して、基本構成部１０_１、１０Ｂ_２、１０Ｂ_３、１０Ｂ_４で順次畳み込みされたデータの各要素を、１つ以上の全結合層によって、全結合演算を行い、予め定めたデータ長の１次元のベクトルを生成するものである。この演算結果は、学習画像ＬＩを認識（ここでは、顔認識）した認識結果Ｒである。
また、全結合手段３０は、誤差演算手段４０から入力される誤差に基づいて誤差逆伝播法により結合重み係数を更新し、誤差を前段の基本構成部１０に伝播するものでもある。
なお、全結合手段３０は、正解データＬＣのデータと次元を揃えるための全結合層が最終段に付加されている。

【0056】

誤差演算手段４０は、全結合手段３０の出力（認識結果Ｒ）と、正解データＬＣとの誤差を演算するものである。誤差演算手段４０は、誤差を全結合手段３０に出力する。なお、誤差演算手段４０は、予め定めた回数、あるいは、パラメータ記憶手段２０に記憶されているパラメータの変化の度合いが予め定めた閾値を下回るまで、基本構成部１０，１０Ｂ、全結合手段３０を動作させる。

【0057】

以上説明したように、パラメータ学習装置２は、学習データを用いて、画像特徴抽出装置１が用いるＣＮＮのパラメータを学習することができる。
これによって、パラメータ学習装置２は、人物の顔を認識するための画像特徴を抽出するモデルのパラメータを学習することができる。

【0058】

なお、ここでは、学習データとして、画像とその画像に映る人物のラベルとを用いたが、画像特徴を抽出したい対象に応じて、種々の学習データを用いればよい。例えば、画像内の物体（例えば、動物）を識別するためのパラメータを学習したければ、画像とそれに対応する物体のラベルを学習データとすればよい。その場合、全結合手段３０の最終段に付加する全結合層の次元は、物体のラベルの数に合わせればよい。

【0059】

また、ここでは、全結合手段３０を備えることとしたが、最終段の基本構成部１０，１０Ｂの出力のチャンネル数を、物体のラベルの数とした場合、全結合手段３０の代わりに、グローバルアベレージプーリング（ＧＡＰ）層の演算を行うプーリング手段を備えてもよい。これによって、学習するパラメータの数を減らすことができる。

【0060】

＜スケーリング層を設けた場合の性能評価＞
前記した参考文献に記載されているＩｎｃｅｐｔｉｏｎ－ＲｅｓＮｅｔＶ２（従来手法）と、Ｉｎｃｅｐｔｉｏｎ－ＲｅｓＮｅｔＶ２にスケーリング層を設けたＣＮＮ（本手法）との性能比較を行った。なお、従来手法および本手法ともに、同じ学習データで学習を行っている。

【0061】

性能評価として、顔認識分野で広く利用されているＬＦＷ（Labeled Faces in the Wild）データセット（http://vis-www.cs.umass.edu/lfw/）を用いた。
このデータセットは、２枚の顔画像と、両画像に映っている人物が同一人物であるか否かを示す正解データとからなる組を、約６０００組有するデータである。
ここでは、２枚の顔画像についてそれぞれ特徴量を抽出し、その特徴量の距離（ユークリッド距離等）が予め定めた閾値以下である場合に、両画像に映っている人物が同一であると判定し、閾値よりも大きい場合に、両画像に映っている人物が同一ではないと判定した。この判定結果を正解データと比較し、正しく判定できた割合を認識精度と定義する。
従来手法および本手法を用いた認識精度の結果を以下の表に示す。

【0062】

【表1】