特許第6713162号(P6713162)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人豊橋技術科学大学の特許一覧

特許6713162画像認識装置、画像認識方法、及び画像認識プログラム
<>
  • 特許6713162-画像認識装置、画像認識方法、及び画像認識プログラム 図000016
  • 特許6713162-画像認識装置、画像認識方法、及び画像認識プログラム 図000017
  • 特許6713162-画像認識装置、画像認識方法、及び画像認識プログラム 図000018
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6713162
(24)【登録日】2020年6月5日
(45)【発行日】2020年6月24日
(54)【発明の名称】画像認識装置、画像認識方法、及び画像認識プログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20200615BHJP
【FI】
   G06T7/00 350C
【請求項の数】9
【全頁数】12
(21)【出願番号】特願2016-8273(P2016-8273)
(22)【出願日】2016年1月19日
(65)【公開番号】特開2017-129990(P2017-129990A)
(43)【公開日】2017年7月27日
【審査請求日】2019年1月16日
(73)【特許権者】
【識別番号】304027349
【氏名又は名称】国立大学法人豊橋技術科学大学
(72)【発明者】
【氏名】立間 淳司
(72)【発明者】
【氏名】青野 雅樹
【審査官】 佐田 宏史
(56)【参考文献】
【文献】 特開2008−310796(JP,A)
【文献】 中山 英樹,“深層畳み込みニューラルネットによる画像特徴抽出と転移学習”,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2015年 7月 9日,Vol.115, No.146,pp.55-59
【文献】 韓 先花、陳 延偉,“Deep Convolutional Neural Networkによる食事画像認識”,情報処理学会 研究報告,日本,情報処理学会,2015年 9月 7日,Vol.2015-CVIM-198, No.12,pp.1-6
【文献】 山下 亮、外2名,“ARCOによる顔検出を併用した人誤検出の棄却について”,情報処理学会 画像の認識・理解シンポジウム(MIRU2011)論文集,日本,情報処理学会,2011年 7月20日,Vol.2011,pp.608-614
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,7/00−7/90
(57)【特許請求の範囲】
【請求項1】
複数の畳み込み層を備える畳み込みニューラルネットワークを使用する画像認識装置であって、
画像から共分散記述子を抽出する演算部と、画像データセットに含まれる画像について前記演算部によって処理されて抽出された共分散記述子を記憶する記憶部と、新たに入力される画像について前記演算部によって処理されて抽出される共分散記述子を前記記憶部に記憶される共分散記述子と比較する識別処理部とを備え、
前記演算部は、前記畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算手段と、前記局所特徴量について共分散行列を導く共分散行列導出手段と、前記共分散行列をベクトル化するための演算を行うベクトル演算手段と、前記ベクトルにかかる各要素を下式による符号付平方根正規化およびl正規化により最終的な特徴量を得るための正規化手段とを備え
前記ベクトル演算手段は、ユークリッド空間に写像するとき、ベクトルとノルムとを一致させるように処理されるものであることを特徴とする画像認識装置。
【数11】
【請求項2】
前記局所特徴量演算手段は、前記畳み込みニューラルネットワークの全ての畳み込み層から出力される特徴マップについて局所特徴量を演算するものであることを特徴とする請求項1に記載の画像認識装置。
【請求項3】
前記局所特徴量演算手段は、一つの畳み込み層からdチャンネルで大きさw×hの特徴マップが得られるとき、前記特徴マップをn=w×hの点によるd次元の局所特徴量を演算するものであることを特徴とする請求項1または2に記載の画像認識装置。
【請求項4】
前記演算部は、前記共分散行列の大きさをd×dとするとき、抽出される共分散記述子の次元が(d+d)/2であることを特徴とする請求項3に記載の画像認識装置。
【請求項5】
複数の畳み込み層を備える畳み込みニューラルネットワークを使用する画像認識方法であって、
画像から共分散記述子を抽出する抽出ステップと、画像データセットに含まれる画像について前記抽出ステップによって処理されて抽出された共分散記述子を記憶する記憶ステップと、新たに入力される画像について前記抽出ステップによって処理されて抽出される共分散記述子を前記記憶ステップによって記憶される共分散記述子と比較する識別処理ステップとを備え、
前記抽出ステップは、前記畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算ステップと、前記局所特徴量について共分散行列を導く共分散行列導出ステップと、前記共分散行列をベクトル化するための演算を行うベクトル演算ステップと、前記ベクトルにかかる各要素を下式による符号付平方根正規化およびl正規化により最終的な特徴量を得るための正規化ステップとを含み、
前記ベクトル演算ステップは、ユークリッド空間に写像するとき、ベクトルとノルムとを一致させるように処理されるものであることを特徴とする画像認識方法。
【数12】
【請求項6】
前記局所特徴量演算ステップは、前記畳み込みニューラルネットワークの全ての畳み込み層から出力される特徴マップについて局所特徴量を演算するものであることを特徴とする請求項5に記載の画像認識方法。
【請求項7】
前記局所特徴量演算ステップは、一つの畳み込み層からdチャンネルで大きさw×hの特徴マップが得られるとき、前記特徴マップをn=w×hの点によるd次元の局所特徴量を演算するものであることを特徴とする請求項5または6に記載の画像認識方法。
【請求項8】
前記抽出ステップは、前記共分散行列の大きさをd×dとするとき、抽出される共分散記述子の次元が(d+d)/2であることを特徴とする請求項7に記載の画像認識方法。
【請求項9】
複数の畳み込み層を備える畳み込みニューラルネットワークを使用する画像認識のためのコンピュータプログラムであって、コンピュータを、
画像から共分散記述子を抽出する演算手段と、画像データセットに含まれる画像について前記演算部によって処理されて抽出された共分散記述子を記憶する記憶手段と、新たに入力される画像について前記演算部によって処理されて抽出される共分散記述子を前記記憶部に記憶される共分散記述子と比較する識別処理手段として機能させ、
さらに、前記演算手段において、前記畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算手段と、前記局所特徴量について共分散行列を導く共分散行列導出手段と、前記共分散行列をベクトル化するための演算を行うベクトル演算手段と、前記ベクトルにかかる各要素を下式による符号付平方根正規化およびl正規化により最終的な特徴量を得るための正規化手段として機能させ
前記ベクトル演算手段は、ユークリッド空間に写像するとき、ベクトルとノルムとを一致させるように処理されるものであることを特徴とする画像認識プログラム。
【数13】
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像認識装置、画像認識方法、及び画像認識プログラムに関する。とくに、ニューラルネットワークを用いて画像認識を実現するものである。
【背景技術】
【0002】
近年、畳み込みニューラルネットワーク(Convolutional Neural Networks、以下CNNと記す。たとえば、非特許文献1を参照。)が、画像認識において優れた認識性能を得ている。
【0003】
ニューラルネットワークによる画像認識技術には、たとえば、特許文献1及び2がある。特許文献1では、学習結果あるいは識別結果に応じて、共分散による線形分類と、ニューラルネットワークなどによる非線形分類を切り替えることにより画像認識の性能を向上させている。
【0004】
また、特許文献2では、CNNによる画像認識の精度を向上させるため、CNNの計算コストを削減し、かつ畳み込み層の複数の重みを適正に設定する装置が開示されている。
【0005】
一方、料理の盛り付け写真など食事画像の認識(以下、食事画像認識ということがある。)は、食生活に関する多くのアプリケーションにとって、重要な研究課題となっている。食事画像認識のベンチマーク(非特許文献2)においても、CNNは従来手法のBag-of-Visual-Words Histogram(以下、BoVWと記す。たとえば、非特許文献3を参照。)やFisher Vector(たとえば、非特許文献4を参照。)よりも優れた認識性能を得ている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特許第4121061号公報
【特許文献2】特開2015-052832号公報
【非特許文献】
【0007】
【非特許文献1】A. Krizhevsky, I. Sutskever, and G.E. Hinton, “ImageNet classification with deep convolutional neural networks,” Advances in Neural Information Processing Systems (NIPS’12), vol.25, pp.1097-1105, 2012.
【非特許文献2】L. Bossard, M. Guillaumin, and L. Van Gool, “Food-101 - Mining discriminative components with random forests,” Proc. of the 13th European Conference on Computer Vision, ECCV’14, pp.446-461, 2014.
【非特許文献3】S. Lazebnik, C. Schmid, and J. Ponce, “Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories,” Proc. of the 2006 IEEE Conference on Computer Vision and Pattern Recognition (CVPR’06), vol.2, pp.2169-2178, 2006.
【非特許文献4】J. Sanchez, F. Perronnin, T. Mensink, and J. Verbeek, “Image classification with the fisher vector: Theory and practice,” International Journal of Computer Vision, vol.105, no.3, pp.222-245, 2013.
【非特許文献5】X. Pennec, P. Fillard, and N. Ayache, “A riemannian framework for tensor computing,” International Journal of Computer Vision, 66 (1), pp.41-66, 2006.
【非特許文献6】D. Tosato, M. Spera, M. Cristani, and V. Murino, “Characterizing humans on Riemannian manifolds,” IEEE Trans. Pattern Analysis and Machine Intelligence, 35 (8), pp. 1972-1984, 2013.
【非特許文献7】H. Jegou and O. Chum, “Negative evidences and co-occurences in image retrieval: The benefit of PCA and whitening,” Proc. of the 12th European Conference on Computer Vision (ECCV’12), 2, pp.774-787, 2012.
【非特許文献8】S. Singh, A. Gupta, and A.A. Efros, “Unsupervised discovery of mid-level discriminative patches,” Proc. of the 12th European Conference on Computer Vision (ECCV’12), vol.2, pp.73-86, 2012.
【非特許文献9】A.S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson, “CNN features off-the-shelf: An astounding baseline for recognition,” Proc. of the 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW ’14), pp.512-519, 2014.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、CNNで優れた高い認識性能を得るためには、大規模な画像データセットでニューラルネットワークを訓練する必要がある。さらに、現実的な時間で訓練を行うためには、GPU(Graphical Processing Unit)による並列処理システムなどの高度な処理能力を必要とする。
【0009】
前記の問題の解決策として、種々雑多な画像データセットで学習済みのCNNの全結合層の出力を特徴量として、Support Vector Machine(以下、SVMと記す。)などの識別器を訓練する手法が提案されている。当該手法は、大規模な画像データセットによるニューラルネットワークの訓練を必要としない一方で、食事画像認識などのドメインを限定した画像認識タスクでは、十分な認識性能が得られないという課題がある。特定のドメインの画像認識を行うためには、対象となるドメインの画像データセットを用意して、ニューラルネットワークを再度訓練する必要があり、画像認識の前処理に時間がかかる。
【課題を解決するための手段】
【0010】
本発明は、上記の先行技術の課題を鑑み、なされたものである。
【0011】
本発明に係る第一の画像認識装置は、複数の畳み込み層を備える畳み込みニューラルネットワークを使用する画像認識装置であって、画像から共分散記述子を抽出する演算部と、画像データセットに含まれる画像について前記演算部によって処理されて抽出された共分散記述子を記憶する記憶部と、新たに入力される画像について前記演算部によって処理されて抽出される共分散記述子を前記記憶部に記憶される共分散記述子と比較する識別処理部とを備え、前記演算部は、前記畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算手段と、前記局所特徴量について共分散行列を導く共分散行列導出手段と、前記共分散行列をベクトル化するための演算を行うベクトル演算手段と、前記ベクトルを正規化する正規化手段とを備えることを特徴とする。
【0012】
本発明に係る第二の画像装置は、前記本発明に係る第一の画像認識装置であって、前記局所特徴量演算手段は、前記畳み込みニューラルネットワークの全ての畳み込み層から出力される特徴マップについて局所特徴量を演算するものであることを特徴とする。
【0013】
本発明に係る第三の画像認識装置は、前記本発明に係る第一または第二の画像認識装置であって、前記局所特徴量演算手段は、一つの畳み込み層からdチャンネルで大きさw×hの特徴マップが得られるとき、前記特徴マップをn=w×hの点によるd次元の局所特徴量を演算するものであることを特徴とする。
【0014】
本発明に係る第四の画像認識装置は、前記本発明に係る第三の画像認識装置であって、前記演算部は、前記共分散行列の大きさをd×dとするとき、抽出される共分散記述子の次元が(d+d)/2であることを特徴とする。
【0015】
本発明に係る第一の画像認識方法は、複数の畳み込み層を備える畳み込みニューラルネットワークを使用する画像認識方法であって、画像から共分散記述子を抽出する抽出ステップと、画像データセットに含まれる画像について前記抽出ステップによって処理されて抽出された共分散記述子を記憶する記憶ステップと、新たに入力される画像について前記抽出ステップによって処理されて抽出される共分散記述子を前記記憶ステップによって記憶される共分散記述子と比較する識別処理ステップとを備え、前記抽出ステップは、前記畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算ステップと、前記局所特徴量について共分散行列を導く共分散行列導出ステップと、前記共分散行列をベクトル化するための演算を行うベクトル演算ステップと、前記ベクトルを正規化する正規化ステップとを含むことを特徴とする。
【0016】
本発明に係る第二の画像認識方法は、前記本発明に係る第一の画像認識方法であって、前記局所特徴量演算ステップは、前記畳み込みニューラルネットワークの全ての畳み込み層から出力される特徴マップについて局所特徴量を演算するものであることを特徴とする。
【0017】
本発明に係る第三の画像認識方法は、前記本発明に係る第一または第二の画像認識方法であって、前記局所特徴量演算ステップは、一つの畳み込み層からdチャンネルで大きさw×hの特徴マップが得られるとき、前記特徴マップをn=w×hの点によるd次元の局所特徴量を演算するものであることを特徴とする。
【0018】
本発明に係る第四の画像認識方法は、前記本発明に係る第三の画像認識方法であって、前記抽出ステップは、前記共分散行列の大きさをd×dとするとき、抽出される共分散記述子の次元が(d+d)/2であることを特徴とする。
【0019】
本発明に係る画像認識プログラムは、複数の畳み込み層を備える畳み込みニューラルネットワークを使用する画像認識のためのコンピュータプログラムであって、コンピュータを、画像から共分散記述子を抽出する演算手段と、画像データセットに含まれる画像について前記演算部によって処理されて抽出された共分散記述子を記憶する記憶手段と、新たに入力される画像について前記演算部によって処理されて抽出される共分散記述子を前記記憶部に記憶される共分散記述子と比較する識別処理手段として機能させ、さらに、前記演算手段において、前記畳み込み層のうちの任意の層から出力される特徴マップから局所特徴量を演算する局所特徴量演算手段と、前記局所特徴量について共分散行列を導く共分散行列導出手段と、前記共分散行列をベクトル化するための演算を行うベクトル演算手段と、前記ベクトルを正規化する正規化手段として機能させることを特徴とする。
【発明の効果】
【0020】
CNNのもつ複数の畳み込み層のうち、第1層や第2層など低層の畳み込み層は、それぞれエッジ(edge)やコーナー(corner)といった画像の低レベルの特徴を捉えており、該画像の特徴は、ニューラルネットワークの全結合層と比較して、特定ドメインの訓練画像データセットの影響が少ない。本発明により、低レベルの特徴を用いることで、画像の抽象的な特徴を抽出することができる。
【0021】
さらに、本発明では、CNNの畳み込み層の出力(特徴マップ:feature maps)の共分散を画像の特徴量とすることにより、特定ドメインの画像による該CNNの再度の訓練なしで、特定ドメインにおける画像認識を実現し、特定ドメインにおける画像認識の精度を向上させることができる。
【図面の簡単な説明】
【0022】
図1】本発明係る特徴マップ共分散記述子の概要図である。
図2】本発明係る特徴マップ共分散記述子による画像認識装置の概要図である。
図3】本発明係る特徴マップ共分散記述子の抽出処理のフローチャートを示す図である。
【発明を実施するための形態】
【0023】
本発明係る画像認識は、対象となるドメインの画像データセットについての畳み込みニューラルネットワークの再度の訓練及びそのための訓練画像データセットを要することなく、本発明に係る特徴量、及び識別器により、精度よく実現される。前記畳み込みニューラルネットワークは種々雑多な画像で構成される画像データセットにより訓練済みである。また、前記識別器の訓練には、前記対象となるドメインの画像データセットの訓練画像データセットを用いる。
【0024】
(畳み込み層の特徴マップの共分散)
図1に示すように、学習済みCNNから有効な特徴量を得るために、全結合層より以前の畳み込み層の特徴マップから特徴量を抽出する。当該畳み込み層には画像のedgeやcornerなど基礎的な特徴が含まれる。当該画像の特徴は、全結合層と比較して、学習用画像データセットの内容に影響をうけない。そこで、畳み込み層の特徴マップの共分散行列を特徴量として求める。なお、本発明では、ニューラルネットワークや識別器の学習とニューラルネットワークや識別器の訓練は同じ意味で用いている。
【0025】
学習済みCNNに画像を入力すると、各層に配置されたユニットから値が出力される。畳み込み層における出力は、特徴マップと呼ばれる。特徴マップは、ユニットから出力された値が配置された、複数枚の二次元平面で構成される。一般に、特徴マップを構成する1つの二次元平面は、1チャネルと数えられる。いま、1番目の畳込み層から、dチャネルで大きさw×hの特徴マップが得られたとする。本発明では、この特徴マップをn=w×h点のd次元の局所特徴量Fとし、
【0026】
【数1】
と考える。すると、局所特徴量Fの共分散行列Cは、
【0027】
【数2】
で得られる。ここで、mは局所特徴量Fの平均ベクトルである。共分散行列は、多次元空間上での局所特徴量のばら付きの傾向を表すことから、画像のedgeやcornerといった特徴の傾向を捉えることができる。
【0028】
共分散行列Cは、ユークリッド空間ではなく、半正定値行列のリーマン多様体上にある。多くの機械学習アルゴリズムは、入力としてユークリッド空間上のベクトルを前提としているため、このままでは識別器の学習などを行うことができない。そこで、共分散行列Cをユークリッド空間に写像する。前記写像の手段として、行列演算とベクトル操作により、正定値行列をユークリッド空間に写像し、ベクトルの形式に変換する。たとえば、非特許文献5記載のPennecらが提案した方法を用いることができる。ユークリッド空間上のベクトルに変換することで、SVMなどの一般的な識別器での学習が可能となる。
【0029】
まず、共分散行列Cを接点Pにおいてリーマン多様体に接しているユークリッド空間に射影する。射影した共分散行列CのベクトルYは数3で与えられる。
【0030】
【数3】
ここで、log(・)は行列対数であり、固有値分解をA=UΛU(Tは転置行列を示す)とすると、数4で求める事ができる。
【0031】
【数4】
また、行列Λのような対角行列の行列対数は、その対角要素λ,・・・,λの対数を計算することで数5として得られる。
【0032】
【数5】
そして、射影したベクトルの直交座標系を数6のベクトル操作により得る。
【0033】
【数6】
ここで、vecは、単位行列による接空間上でのベクトル操作であり、
【0034】
【数7】
で定義される。これは、Yの上三角要素を並べてベクトルとしたものである。ここで、Yの非対角要素(たとえば、y1,2やy1,3など)に2の平方根を掛けているのは、ベクトルとYのノルムを一致させるためである。
【0035】
計算コストの観点から行列Pには単位行列を使用する。結果として、ベクトル化した共分散行列Cは、数8から与えられる。つまり、共分散行列Cの対数行列を求め、その上三角要素を並べてベクトルとする。
【0036】
【数8】
共分散行列Cの大きさをd×dとすると、特徴量の次元数(ベクトルの要素の数)は(d+d)/2となる。
【0037】
最終的な特徴量は、ベクトルcを符号付平方根正規化とl正規化することで得る。符号付平方根正規化とは、ベクトルの各要素xに以下の操作を行う。
【0038】
【数9】
ここで、sign(x)は、xの符号を返す関数である。この正規化処理は、ベクトルのスパース性を緩和する効果がある(ベクトルcがスパースでない場合には必要のない処理であり、必ずしも行わなければならない処理ではない)。l正規化は、ベクトルの各要素を、ベクトルのユークリッドノルムで割ることである。ベクトルの大きさを一定にする効果がある。
【0039】
(特徴マップ共分散記述子による画像認識システムの構築)
図2は、特徴マップ共分散記述子を利用した、画像認識システムの概要図である。まず、識別器を学習するためのラベルが付与された認識対象ドメインの画像で構成された訓練画像データセットと、特徴マップ共分散記述子を抽出するための学習済みCNNを用意する。
【0040】
次に、訓練画像データセットに含まれる全ての画像から、特徴マップ共分散記述子を抽出し、ラベル情報とともに識別器学習部に入力する。本発明では、該識別器にSupport Vector Machineを用いる。前記該識別器学習部は、与えられた訓練画像データセットの特徴マップ共分散記述子とラベル情報から、識別モデルを学習する。得られた識別モデルを記憶装置に記憶しておく。
【0041】
そして、識別段階では、識別対象画像が与えられると、訓練時と同様にして,画像から特徴マップ共分散記述子を抽出し、識別処理部に入力する。該識別処理部は入力された特徴マップ共分散記述子と、記憶装置に保存しておいた前記識別モデルから、識別画像対象の識別結果を計算し出力する。
【0042】
図3は、特徴マップ共分散記述子の抽出処理の流れをフローチャートで示したものである。特徴マップ共分散記述子抽出部は、画像が与えられると、CNNのネットワーク構成に合わせて、画像のリサイズを行う(たとえば、OverFeatのaccurateネットワークであれば221×221の大きさ)。リサイズした前記画像に対して、必要であれば、平均ピクセル値を引くなどの前処理を行う。さらに、学習済みCNN内部で前処理も行われる場合がある。
【0043】
次に、CNNにリサイズを含む前処理を施した前記画像を入力し、任意のl番目の畳み込み層の出力(特徴マップ)を得る。さらに、特徴マップを局所特徴量とみなしてサンプル行列の形式に変換し、行列演算ライブラリ(例えばC++であればEigen,PythonであればNumpy)を用いて、共分散行列を計算する。また、行列演算ライブラリを用いて、前記共分散行列の行列対数を計算する。
【0044】
得られた、前記行列対数を計算した前記共分散行列の上三角部分に該当する要素を並べ、ベクトルの形式にする。必要であれば、得られた該ベクトルに対して、符号付平方根正規化とl正規化を行う。
【0045】
以上から得られたベクトルが、特徴マップ共分散記述子である。
【実施例】
【0046】
(実験環境)
食事画像データセットETHZ Food-101 (Food-101)(非特許文献2を参照)を用いて認識精度の評価を行った。Food-101には、101個のクラスに分類された101,000枚の食事画像が含まれている。各クラスには、750枚の訓練画像、250枚のテスト画像が含まれている。食事画像の認識を課題として選択した理由は、一般に公開されている学習済みCNNは、ImageNetから取得した種々雑多な画像で学習されている。認識対象を食事画像に絞ることで、学習に用いた画像と、認識対象となる画像の分野が異なっていても、優れた認識精度が得られるかを確認できる。
【0047】
学習済みCNNには、ニューヨーク大学が提供するOverFeat (http://cilvr.nyu.edu/doku.php?id=software:overfeat:startを参照)を用いた。OverFeatではfastネットワークとaccurateネットワークの二種類が提供されているが、本実験ではaccurateネットワークを用いた。識別器にはSVMを用いて、その実装にはliblinear(https://www.csie.ntu.edu.tw/~cjlin/liblinear/を参照)を用いた。
【0048】
実験に使用した計算機のスペックは、CPUがデュアルコア・プロセッサで、Intel社製 Xeon(登録商標) E5-2630 2.3GHzであり、メモリが64GBである。また、OSはDebian GNU/Linux(登録商標) 8.2である。
【0049】
従来手法には、Bag-of-Visual-Wordsヒストグラム(BoVW)法(非特許文献3)、Improved Fisher Vector(IFV)法(非特許文献4)、Mid-Level Discriminative Superpixels(MLDS)法(非特許文献8)、Random Forest Discriminant Components(RFDC)法(非特許文献2)、Food-101で訓練したCNN(非特許文献1)、OverFeatの全結合層を特徴量としてSVMで分類する方法(CNN-SVM)(非特許文献9)を用いた。CNN-SVMを除いた従来手法の評価尺度の値は、Food-101が提案された非特許文献2からの引用である(表1上部)。CNN-SVMは、OverFeatの全結合層の出力によるベクトルをl正規化したものを画像の特徴量として、識別器であるSVMを訓練した。いずれの手法も実験のデータ及び条件は、本発明と同様となる。
【0050】
認識精度をはかる評価尺度には、正確度(Accuracy)を用いた。全データ数をN、正しく認識されたデータ数をRとすると、正確度は以下で定義される。
【0051】
【数10】
【0052】
(実験結果)
本発明では、OverFeatの第1層の特徴マップを使用したもの(FMCD-L1)、第2層の特徴マップから抽出したもの(FMCD-L2)、それらの要素を並べて1つのベクトルとすることで連結したもの(FMCD-L1+FMCD-L2)、全結合層と連結したもの(FMCD-L1+FUL及びFMCD-L2+FUL)、全てを連結したもの(FMCD-L1+FMCD-L2+FUL)を用いた。識別器には全て線形SVMを用いた。
【0053】
OverFeatの第1層では、96チャンネルで大きさ36×36ユニットの特徴マップが取得できる。これを、96次元で1,296(=36×36)サンプルの局所特徴と考え、特徴マップ共分散記述子を計算する。結果として、4,656(=(96+96)/2)次元の特徴マップ共分散記述子が抽出される。同様に、第2層では、256チャンネルで大きさ15×15ユニットの特徴マップが取得できる。
【0054】
表1は、Food-101データセットにおける各手法の識別性能を示すものである。正確度(Accuracy)で評価した各手法の識別性能をまとめたものである。
【0055】
【表1】
【0056】
表1よりFMCD-L1とFMCD-L2が全結合層を特徴量とする手法CNN-SVMを上回っていることがわかる。また、FMCD-L1+FMCD-L2では、CNNと同等の識別性能を得ている。本発明と全結合層の出力を連結したFMCD-L1+FUL、FMCD-L2+FULも同様の識別性能を得ている。さらに、全てを連結したFMCD-L1+FMCD-L2+FULでは、Food-101により学習したCNNを上回っており、本発明の有効性がわかる。

図1
図2
図3