IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人九州工業大学の特許一覧

<>
  • 特開-画像認識装置および画像認識方法 図1
  • 特開-画像認識装置および画像認識方法 図2
  • 特開-画像認識装置および画像認識方法 図3
  • 特開-画像認識装置および画像認識方法 図4
  • 特開-画像認識装置および画像認識方法 図5
  • 特開-画像認識装置および画像認識方法 図6
  • 特開-画像認識装置および画像認識方法 図7
  • 特開-画像認識装置および画像認識方法 図8
  • 特開-画像認識装置および画像認識方法 図9
  • 特開-画像認識装置および画像認識方法 図10
  • 特開-画像認識装置および画像認識方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023073127
(43)【公開日】2023-05-25
(54)【発明の名称】画像認識装置および画像認識方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230518BHJP
   G06N 3/02 20060101ALI20230518BHJP
【FI】
G06T7/00 350C
G06N3/02
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021185971
(22)【出願日】2021-11-15
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、国立研究開発法人新エネルギー・産業技術総合開発機構「高効率・高速処理を可能とするAIチップ・次世代コンピューティングの技術開発/次世代コンピューティング技術の開発/未来共生社会にむけたニューロモルフィックダイナミクスのポテンシャルの解明」に係る委託事業、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】504174135
【氏名又は名称】国立大学法人九州工業大学
(74)【代理人】
【識別番号】100149711
【弁理士】
【氏名又は名称】服部 耕市
(72)【発明者】
【氏名】金岡 大樹
(72)【発明者】
【氏名】田向 権
(72)【発明者】
【氏名】田中 悠一朗
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA08
5L096DA02
5L096GA51
5L096HA11
5L096JA11
5L096JA18
5L096KA04
5L096KA15
(57)【要約】
【課題】学習を行っていない未知クラスの画像について、未知クラスである旨の判定を可能にする。
【解決手段】ニューラルネットワークを用いてオープンセット認識を行う画像認識装置1であって、入力画像3のクラス分けの推論結果を出力するように、既知クラスに属する学習用データを使用して学習された学習済みモデル6と、学習済みモデル6の中間層に形成される多次元特徴空間7における学習用データの特徴量から算出した各クラスのガウス分布と、入力画像3の特徴量との距離に基づき、入力画像3が未知クラスに属すか否かを判定し、学習済みモデル6の推論結果を必要に応じて修正する未知判定部10とを備えている。
【選択図】図1
【特許請求の範囲】
【請求項1】
ニューラルネットワークを用いてオープンセット認識を行う画像認識装置であって、
入力画像のクラス分けの推論結果を出力するように、既知クラスに属する学習用データを使用して学習された学習済みモデルと、
前記学習済みモデルの中間層に形成される多次元特徴空間における前記学習用データの特徴量から算出した各クラスのガウス分布と、前記入力画像の特徴量との距離に基づき、前記入力画像が未知クラスに属すか否かを判定し、前記学習済みモデルの推論結果を必要に応じて修正する未知判定部と、
を備えることを特徴とする画像認識装置。
【請求項2】
前記多次元特徴空間における前記学習用データの特徴量に対して距離学習が行われて前記多次元特徴空間のオープンスペースが拡大されることを特徴とする請求項1記載の画像認識装置。
【請求項3】
前記未知判定部は、
前記学習済みモデルが推論したクラスの前記ガウス分布と前記入力画像の特徴量との距離を求める距離算出部と、
求められた前記距離が所定の閾値を超えている場合に前記入力画像が未知クラスに属すると判定し、前記学習済みモデルの推論結果を修正する判定部と、
を備えることを特徴とする請求項1又は2に記載の画像認識装置。
【請求項4】
ニューラルネットワークを用いてオープンセット認識を行う画像認識方法であって、
入力画像のクラス分けの推論結果を出力するように既知クラスに属する学習用データを使用して学習された学習済みモデルを用いて、前記入力画像のクラス分けの推論結果を出力するクラス分けステップと、
前記学習済みモデルの中間層に形成される多次元特徴空間における前記学習用データの特徴量から算出した各クラスのガウス分布と、前記入力画像の特徴量との距離に基づき、前記入力画像が未知クラスに属すか否かを判定し、前記学習済みモデルの推論結果を必要に応じて修正する未知判定ステップと、
を有することを特徴とする画像認識方法。
【請求項5】
前記多次元特徴空間における前記学習用データの特徴量に対して距離学習を行い、前記多次元特徴空間のオープンスペースを拡大する距離学習ステップを有することを特徴とする請求項4記載の画像認識手法。
【請求項6】
前記未知判定ステップは、
前記学習済みモデルが推論したクラスの前記ガウス分布と前記入力画像の特徴量との距離を求める距離算出ステップと、
求められた前記距離が所定の閾値を超えている場合に前記入力画像が未知クラスに属すると判定し、前記学習済みモデルの推論結果を修正する判定ステップと、
を有することを特徴とする請求項4又は5に記載の画像認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニューラルネットワークを用いてオープンセット認識を行う画像認識装置および画像認識方法に関する。
【背景技術】
【0002】
オープンセット認識は、学習した物体の認識だけでなく、学習していない物体を未知として判定することを可能した物体認識手法である。近年研究・開発されている物体認識では、入力データは全て既知である、という仮定を持っていることがほとんどである。このような手法はクローズセット認識と呼ばれている。クローズセット認識では未学習データの入力を考慮していない。そのため、未学習のデータを入力した時、学習した物体のいずれかであると認識する。本発明はクローズセット認識のアーキテクチャをほとんど変更せず、オープンセット認識への拡張を可能とする。本発明は変化し続ける環境での動作を想定しているホームサービスロボットなどの分野への応用が可能になる。
【0003】
オープンセット認識における最先端な手法の一つに非特許文献1に記載されたものがある。この手法ではladder networkと呼ばれるネットワークアーキテクチャを参考に、分類を行いながら入力の再構成を行うことで、再構成誤差が閾値以上であれば未知として判定を行う。しかしながら、一般的なクローズセット認識では入力の再構成は行わないため、既存のクローズセット認識モデルの流用は難しい。また、認識モデルの学習時に再構成ネットワークの学習も行わなければならないため、学習コストが高い。他にも再構成を行わないオープンセット認識手法として被特許文献2に記載のものも提案されているが、非特許文献1に記載の手法と比べ認識精度が低くなっている。以上より既存のクローズセット認識からオープンセット認識への拡張が容易で学習コストも低く、認識性能が高い手法は存在しないのが現状である。
【先行技術文献】
【特許文献】
【0004】
【非特許文献1】X. Sun, Z. Yang, C. Zhang, K.-V. Ling, and G. Peng, “Conditional gaussian distribution learning for open set recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pp. 13480-13489, 2020。
【非特許文献2】A. Bendale and T. E. Boult, “Towards open set deep networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp. 1563-1572, 2016。
【発明の概要】
【発明が解決しようとする課題】
【0005】
既存のクローズセット認識モデルを流用可能で、学習コストが低く、認識精度の高いオープンセット認識手法を実現する。既存のオープンセット認識手法で高い認識精度を出すためには、分類問題では一般的に用いない再構成ネットワークを設ける必要があった。そのため、既存のクローズセット認識モデルの流用が難しく、再構成ネットワークも学習をする必要があるため、学習コストが高くなってしまう問題があった。
【0006】
本発明は、既存のクローズセット認識モデルからファインチューニングすることで容易にオープンセット認識への拡張可能で、学習コスト、認識精度に優れた手法を提供することを目的とする。
【課題を解決するための手段】
【0007】
かかる目的を達成するため、本発明の画像認識装置は、ニューラルネットワークを用いてオープンセット認識を行うものであって、入力画像のクラス分けの推論結果を出力するように、既知クラスに属する学習用データを使用して学習された学習済みモデルと、前記学習済みモデルの中間層に形成される多次元特徴空間における前記学習用データの特徴量から算出した各クラスのガウス分布と、前記入力画像の特徴量との距離に基づき、前記入力画像が未知クラスに属すか否かを判定し、前記学習済みモデルの推論結果を必要に応じて修正する未知判定部と、を備えている。
【0008】
また、本発明の画像認識装置は、前記多次元特徴空間における前記学習用データの特徴量に対して距離学習が行われて前記多次元特徴空間のオープンスペースが拡大されるようにすることもできる。
【0009】
また、本発明の画像認識装置は、前記未知判定部が、前記学習済みモデルが推論したクラスの前記ガウス分布と前記入力画像の特徴量との距離を求める距離算出部と、求められた前記距離が所定の閾値を超えている場合に前記入力画像が未知クラスに属すると判定し、前記学習済みモデルの推論結果を修正する判定部と、を備えるものとしても良い。
【0010】
さらに、本発明の画像認識方法は、ニューラルネットワークを用いてオープンセット認識を行うものであって、入力画像のクラス分けの推論結果を出力するように既知クラスに属する学習用データを使用して学習された学習済みモデルを用いて、前記入力画像のクラス分けの推論結果を出力するクラス分けステップと、前記学習済みモデルの中間層に形成される多次元特徴空間における前記学習用データの特徴量から算出した各クラスのガウス分布と、前記入力画像の特徴量との距離に基づき、前記入力画像が未知クラスに属すか否かを判定し、前記学習済みモデルの推論結果を必要に応じて修正する未知判定ステップと、を有している。
【0011】
また、本発明の画像認識方法は、前記多次元特徴空間における前記学習用データの特徴量に対して距離学習を行い、前記多次元特徴空間のオープンスペースを拡大する距離学習ステップを有することもできる。
【0012】
また、本発明の画像認識方法は、前記未知判定ステップが、前記学習済みモデルが推論したクラスの前記ガウス分布と前記入力画像の特徴量との距離を求める距離算出ステップと、求められた前記距離が所定の閾値を超えている場合に前記入力画像が未知クラスに属すると判定し、前記学習済みモデルの推論結果を修正する判定ステップと、を有するものとしても良い。
【0013】
すなわち、物体認識で一般的に用いられるニューラルネットワークの中間層に形成される多次元特徴空間に対して距離学習を適用する。これにより、学習が進むにつれて多次元特徴空間上で同じクラスの特徴量は近くに、違うクラスの特徴量は遠くに位置する。
ニューラルネットワークの学習完了後、学習に用いたデータをニューラルネットワークに入力し、多次元特徴空間上での各クラスの特徴量を取得する。
次に、得られた各クラスの特徴量に対してガウスフィッティングを行い、各クラスの特徴量のガウス分布を求める。
実際の認識では、最初にあるデータを入力した時のクラスを推測する。この時、推測したクラスのガウス分布と多次元特徴空間上での入力データの特徴量とのマハラノビス距離を計算する。このマハラノビス距離が閾値を超えていたとき、未知として検知する。閾値を超えていないときは、最初に推測したクラスと判断する。
【発明の効果】
【0014】
本発明によれば、既存の物体認識では不可能であった、通常の物体認識を行いながら、高精度で未知物体を未知として検知することが可能になる。また、既存のオープンセット認識手法と比べ認識性能が高い。また、認識性能が高いとされる入力の再構成を行う手法と比べ、本発明では再構成を行う必要がないため、学習コストも低くなっている。さらに、本発明では既存のクローズセット認識モデルを流用したファインチューニングが容易になっており、既に学習済みの認識モデルを未知物体の検知が可能となる。
【図面の簡単な説明】
【0015】
図1】本発明の画像認識装置の一例を示すブロック図である。
図2図1の学習済みモデルの作成を示すブロック図である。
図3図1の学習済みモデルのブロック図である。
図4】距離学習を説明するためのもので、(A)は距離学習前の多次元特徴空間を示す概念図、(B)は距離学習後の多次元特徴空間を示す概念図である。
図5】ガウスフィッテングを説明するためのもので、(A)はガウスフィッテング前の多次元特徴空間を示す概念図、(B)はガウスフィッテング後の多次元特徴空間を示す概念図である。
図6】本発明の画像認識装置による画像認識の流れを示す概念図である。
図7】本発明の画像認識方法の処理の手順を示すフローチャートである。
図8】学習済みモデルの作成の手順を示すフローチャートである。
図9】検証で使用したデータセットを示す図である。
図10】検証で行ったランダム試行の説明図である。
図11】検証の実験結果を一覧であらわした図である。
【発明を実施するための形態】
【0016】
以下、本発明に係る画像認識装置の実施形態の一例について、図面を参照しながら説明する。
図1図6に、本発明に係る画像認識装置を示す。画像認識装置1は、ニューラルネットワーク2を用いてオープンセット認識を行うもので、入力画像3のクラス分けの推論結果4を出力するように、既知クラスに属する学習用データ5を使用して学習された学習済みモデル6と、未知判定部10とを備えている。未知判定部10は、学習済みモデル6の中間層2aに形成される多次元特徴空間7における学習用データ5の特徴量8から算出した各クラスのガウス分布と、入力画像3の特徴量9との距離Dに基づき、入力画像3が未知クラスに属すか否かを判定し、学習済みモデル6の推論結果4を必要に応じて修正する。
【0017】
図2に示すように、学習済みモデル6は、多数の学習用データ5を用いて教師あり学習を行うことで作成される。学習用データ5には、属するクラスが異なる画像(データ)5aと、当該画像5aの属するクラスを示す正解教師ラベル5bが含まれる。図3に示すように、学習済みモデル6はニューラルネットワーク2により構成され、入力画像3が入力される入力部11、入力された画像3の特徴を抽出する特徴抽出部12、抽出された特徴量8に基づきクラス分けを推論する分類部13、分類部13の出力を確率に変換して最も高い確率のクラスを推論結果4として出力する出力部14を備えている。なお、図6では、分類部13と出力部14とを併せて分類器15としている。特徴抽出部12と分類部13はニューラルネットワーク2の中間層2aに形成される。
【0018】
特徴抽出部12では既知の特徴抽出手法が実施される。例えば、HOG(Histogram of Oriented Gradients)、Harrisコーナー検出、SIFT(Scale-Invariant Feature Transform)等の手法の採用が可能であるが、これらに限るものではない。入力画像3の種類等に応じて適宜採用可能である。特徴抽出部12で抽出された特徴量8,9は、ニューラルネットワーク2の中間層2aに形成される多次元特徴空間7に配置される。
【0019】
分類部13による分類では既知の分類アルゴリズムが採用される。例えば、k近傍法、サポートベクターマシン等の採用が可能であるが、これらに限るものではない。
出力部14での確率(確信度)への変換には、例えば、Softmax関数が使用可能であるが、これに限るものではない。
【0020】
また、学習済みモデル6では、多次元特徴空間7における学習用データ5の特徴量8に対して距離学習が行われており、多次元特徴空間7のオープンスペース7aが拡大されている。すなわち、同じクラスの特徴量8は距離が近く、違うクラスの特徴量8は距離が遠くなるように距離学習が行われる。本実施形態では、特徴量8間の距離としてマハラノビス距離が用いられ、距離学習としてマハラノビス距離学習が行われる。また、本実施形態の距離学習では、Centerlossと分類問題で使われるCross-entropy lossを組み合わせた損失を定義する(数式1)。
【数1】
【0021】
距離学習としてのCenterlossの利点として、学習時の制約が少ない、アルゴリズムがシンプルである等があげられる。したがって、Centerlossを採用することで、既存の学習済みモデル6への距離学習の組み込みが簡単になる。ただし、Centerloss 以外を採用しても良い。Centerlossの損失関数を数式2に示す。
【数2】
【0022】
また、距離学習の概念を図4に示す。同図(A)は距離学習前の多次元特徴空間7を、同図(B)は距離学習後の多次元特徴空間7を示している。同図において、丸印は学習用データ5の特徴量xi(特徴量8)、星印はラベル(同じクラスの学習用データ5の分布)yiの中心点Cyiである。同図に示すように、距離学習によって同じクラスの特徴量8を近づけ、違うクラスの特徴量8を遠ざけることができ、多次元特徴空間7のオープンスペース7aを広げることができる。
【0023】
距離学習を、クラス分けを目的とした学習済みモデル6を作成するための教師あり学習と一緒に行っても良いし、クラス分けを目的とした学習済みモデル6を作成した後、当該学習済みモデル6に対して距離学習を行うようにしても良い。
【0024】
また、学習済みモデル6では、距離学習後の多次元特徴空間7における学習用データ5の特徴量8を多変量ガウス分布に当てはめて各クラスのガウス分布16を求めるガウスフィッテングが行われている。すなわち、学習用データ5の入力によって作成された学習済みモデル6に対し学習用データ5が再度入力されて多次元特徴空間7上での学習用データ5の特徴量8が再度取得され、この多次元特徴空間7に対してガウスフィッテングが行われる。ガウスフィッテングの概念を図5に示す。同図(A)はガウスフィッテング前の多次元特徴空間7を、同図(B)はガウスフィッテング後の多次元特徴空間7を示している。同図に示すように、学習用データ5の特徴量8(同図(A)の丸印)が各クラスのガウス分布16に変換される。ガウスフィッテングはガウスフィッテング部17によって行われる。
【0025】
未知判定部10は、学習済みモデル6が推論したクラスのガウス分布16と入力画像3の特徴量9との距離Dを求める距離算出部20と、求められた距離Dが所定の閾値を超えている場合に入力画像3が未知クラスに属すると判定し、学習済みモデル6の推論結果4を修正する判定部21を備えている。
【0026】
距離算出部20による距離Dの算出は、実際の画像認識が行われる際に行われる。すなわち、学習済みモデル6の作成と多次元特徴空間7に対するガウスフィッテングは実際の画像認識の前段階として行われている。したがって、実際に入力画像3の画像認識を行う場合、既に各クラスのガウス分布16が求められているので、迅速に処理を行うことができる。学習済みモデル6が入力画像3の画像認識を行なう場合、距離算出部20は学習済みモデル6によって推論されたクラスのガウス分布16と入力画像3の特徴量9との距離D(マハラノビス距離)を求める。
【0027】
判定部21は、距離算出部20が求めた距離Dと予め設定されている所定の閾値とを比較し、距離Dが閾値を超えている場合には、入力画像3が未知クラスに分類されると判定して学習済みモデル6による推論結果4を修正する。すなわち、最終推論結果22として、未知クラスが出力される。また、距離Dが閾値以下の場合には、学習済みモデル6による推論結果4が最終推論結果22として出力される。閾値としては、例えば、信頼区間95%点やホテリング理論における異常度を参考にした値が採用される。
【0028】
ニューラルネットワーク2及び未知判定部10は、コンピュータに所定のプログラムを実行させることで実現される。
【0029】
次に、本発明の画像認識方法について説明する。図7及び図8に、画像認識方法を示す。画像認識方法は、ニューラルネットワーク2を用いてオープンセット認識を行うもので、入力画像3のクラス分けの推論結果4を出力するように既知クラスに属する学習用データ5を使用して学習された学習済みモデル6を用いて、入力画像3のクラス分けの推論結果4を出力するクラス分けステップS51と、学習済みモデル6の中間層2aに形成される多次元特徴空間7における学習用データ5の特徴量8から算出した各クラスのガウス分布と、入力画像3の特徴量9との距離Dに基づき、入力画像3が未知クラスに属すか否かを判定し、学習済みモデル6の推論結果4を必要に応じて修正する未知判定ステップS52とを有している。
【0030】
また、画像認識方法は、未知判定ステップS52において、学習済みモデル6が推論したクラスのガウス分布16と入力画像3の特徴量9との距離Dを求める距離算出ステップS53と、求められた距離Dが所定の閾値を超えている場合に入力画像3が未知クラスに属すると判定し、学習済みモデル6の推論結果4を修正する判定ステップS54とを有している。
【0031】
画像認識方法では、入力画像3の認識を行うための準備として、まず、学習済みモデル6が作成される(図8のステップS61)。学習済みモデル6は学習用データ5を使用した教師あり学習(ステップS62)によって作成される。また、この学習の際、多次元特徴空間7の学習用データ5の特徴量8に対して距離学習を行い(ステップS63)、多次元特徴空間7のオープンスペース7aを拡大させる。これにより、多次元特徴空間7上の学習用データ5の特徴量8のガウスフィッテングをより容易且つ精確に行うことが可能になると共に、学習済みモデル6による画像認識をより精確に行うことが可能になる。
【0032】
なお、距離学習ステップS63は、図8に示すように、学習済みモデル6を作成するステップS61において、教師あり学習S62と一緒に行っても良いし、あるいは、学習済みモデル6を作成するステップの後で行っても良い。
【0033】
その後、学習済みモデル6に学習用データ5を再度入力し、多次元特徴空間7上での学習用データ5の特徴量8を取得する(ステップS64)。この状態では、既に距離学習が行われているので、取得された学習用データ5の特徴量8は、距離学習後の位置に配置される。
【0034】
次に、ガウスフィッテング部17が多次元特徴空間7上の学習用データ5の特徴量8を多変量ガウス分布に当てはめ、各クラスのガウス分布16を求める(ステップS65)。これによって、学習済みモデル6が作成され、入力画像3の認識を行うための準備が完了する。
【0035】
いま、例えば、MNIST(Modified National Institute of Standards and Technology)データベースの「4」、「5」、「6」の数字の画像データを学習用データ5として使用した場合、「4」、「5」、「6」の数字の画像データをクラス分けする学習済みモデル6が作成される(ステップS61)。多次元特徴空間7上には入力画像3の特徴量9がクラス毎、即ち数字の種類毎にある程度纏まって現れる(図4(A))。そして、距離学習が行われる(ステップS63)ことで、各クラスの特徴量8の纏まりの間のオープンスペース7aが拡大される(図4(B))。その後、学習済みモデル6に学習用データ5が再度入力され、多次元特徴空間7上に学習用データ5の特徴量8が取得される(ステップS64)。そして、多次元特徴空間7上の学習用データ5の特徴量8に対してガウスフィッテングが行われると(ステップS65)、「4」、「5」、「6」のクラス毎にガウス分布16が求められる。
【0036】
そして、学習済みモデル6に入力画像3が入力されると、画像認識が行われる。すなわち、学習済みモデル6に入力画像3が入力されると、特徴抽出部12が入力画像3の特徴を抽出し、抽出された特徴に基づいて分類部13が入力画像3のクラス分けを推論する。この推論結果4は出力部14から出力される。
【0037】
一方、未知判定部10は、学習済みモデル6が推論したクラスのガウス分布16と入力画像3の特徴量9との距離Dを求める(ステップS53)。そして、求めた距離Dが所定の閾値を超えている場合、入力画像3が未知クラスに分類されると判定され、学習済みモデル6による推論結果4を修正する。すなわち、最終推論結果22として、未知クラスが出力される(ステップS54)。また、距離Dが閾値以下の場合には、学習済みモデル6による推論結果4が最終推論結果22として出力される(ステップS54)。
【0038】
上記の「4」、「5」、「6」の数字の例では、入力画像3として例えば「5」の数字の画像が学習済みモデル6に入力されると、「5」は既知クラスであり、学習済みモデル6の推論結果4としてクラス:5が出力される。一方、未知判定部10は、クラス:5のガウス分布16と入力画像3の特徴量9との距離Dを求める。いま、クラス:5は既知クラスであり、求められた距離Dは閾値以下となる。したがって、未知判定部10は最終推論結果22として、クラス:5を出力する(図6の既知クラスの処理)。
【0039】
次に、入力画像3として例えば「7」の数字の画像が学習済みモデル6に入力された場合を考える。「7」の数字の画像は学習済みモデル6の学習に使用されていない未知クラスの画像であり、未知クラスとして判定されるべきである。ところが、学習済みモデル6は「4」、「5」、「6」の数字の学習用データ5を使用して学習が行われたクローズセット認識を行う学習済みモデル6であるので、「7」の数字の入力画像3を、「4」、「5」、「6」のいずれかのクラスに分類する。いま、クラス:5に分類した場合を考える。この場合、未知判定部10はクラス:5のガウス分布16と「7」の数字の入力画像3の特徴量9との距離Dを求めることになるが、クラスが異なることから両者は離れており、求められた距離Dは閾値を超えることになる。したがって、未知判定部10は「7」の数字の入力画像3は未知クラスに分類されると判定して学習済みモデル6による推論結果4を修正する。すなわち、最終推論結果22として、未知クラスを出力する(図6の未知クラスの処理)。
【0040】
このように、本発明の画像認識装置1及び画像認識方法では、既存の物体認識では不可能であった、通常の物体認識を行いながら、高精度で未知物体を未知として検知することが可能になる。また、既存のオープンセット認識手法と比べ認識性能が高い。また、認識性能が高いとされる入力の再構成を行う手法と比べ、本発明では再構成を行う必要がないため、学習コストも低くなっている。さらに、本発明では既存のクローズセット認識モデルを流用したファインチューニングが容易になっており、既に学習済みの認識モデルを未知物体の検知が可能となる。
【0041】
本発明の画像認識装置1及び画像認識方法は、特に産業用ロボット、家庭用ロボット等の画像認識等に好適であるが、これらに限るものではない。
【実施例0042】
本発明の画像認識装置1の性能を確認するための検証を行った。既存の公開データセットの一部のクラスのみを学習させ、テスト時は全クラスを用いて検証を行った。評価指標はmacro-F1を用いた。
学習済みモデル6の学習時には、データセットの一部のクラスを学習した。例えば、データセットをMNISTにした場合の例を図9に示す。データセットの10クラス中、6クラスを学習した。具体的には、クラス:0、クラス:1、・・・、クラス:5の6クラスを学習クラスにした。テスト時は学習しなかった4つのクラスをunknownクラス(未知クラス)として、推論を行い、評価を行った。
【0043】
既知クラスと未知クラスの割合の指標をopennessといい、今回の例では13.4%となった。この指標を数式3に示す。
【数3】
【0044】
検証では、ランダム試行を行った。この様子を図10に示す。既知クラスと未知クラスをランダムに分けて評価を5回行った。モデルの学習時は、データセットの一部のクラス、具体的には10クラス中、6クラスを学習した。
検証では、学習しなかった4つのクラスをunknownクラスとして、推論を行い、評価を行った。既知クラスと未知クラスの割合の指標はを13.4%にした。
【0045】
実験結果を図11に示す。検証の条件として、学習エポック数を300、未知検知を行う特徴空間の次元を512とした。検証を5回行った時のmacro-F1の平均と分散で評価した。データセットとして、MNIST、SVHN、CIFAR10を使用した。いずれも既知クラスと未知クラスの割合の指標を13.4%とした。比較のために、既存の手法(識別モデルベース:Softomax手法、Openmax手法、再構成モデルベース:CROSR手法、GDFR手法、CGDL手法)を用いて同様の実験を行った。図11の実験結果からも明らかなように、本発明の画像認識の手法(図11のProposed手法)は、MNIST、SVHN、CIFAR10のいずれについても最も良い結果となった。
【符号の説明】
【0046】
1 画像認識装置
2 ニューラルネットワーク
2a ニューラルネットワークの中間層
3 入力画像
4 学習済みモデルの推論結果
5 学習用データ
6 学習済みモデル
7 多次元特徴空間
7a オープンスペース
8 学習用データの特徴量
9 入力画像の特徴量
10 未知判定部
11 入力部
12 特徴抽出部
13 分類部
14 出力部
15 分類器
16 ガウス分布
17 ガウスフィッテング部
18 計算基準点
19 基準点算出部
20 距離算出部
21 判定部
22 最終推論結果
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11