2023-73127 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2023-73127画像認識装置および画像認識方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023073127

(43)【公開日】2023-05-25

(54)【発明の名称】画像認識装置および画像認識方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20230518BHJP

G06N 3/02 20060101ALI20230518BHJP

【ＦＩ】

G06T7/00 350C

G06N3/02

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021185971

(22)【出願日】2021-11-15

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成３０年度、国立研究開発法人新エネルギー・産業技術総合開発機構「高効率・高速処理を可能とするＡＩチップ・次世代コンピューティングの技術開発／次世代コンピューティング技術の開発／未来共生社会にむけたニューロモルフィックダイナミクスのポテンシャルの解明」に係る委託事業、産業技術力強化法第１７条の適用を受ける特許出願

(71)【出願人】

【識別番号】504174135

【氏名又は名称】国立大学法人九州工業大学

(74)【代理人】

【識別番号】100149711

【弁理士】

【氏名又は名称】服部耕市

(72)【発明者】

【氏名】金岡大樹

(72)【発明者】

【氏名】田向権

(72)【発明者】

【氏名】田中悠一朗

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096BA08

5L096DA02

5L096GA51

5L096HA11

5L096JA11

5L096JA18

5L096KA04

5L096KA15

(57)【要約】

【課題】学習を行っていない未知クラスの画像について、未知クラスである旨の判定を可能にする。
【解決手段】ニューラルネットワークを用いてオープンセット認識を行う画像認識装置１であって、入力画像３のクラス分けの推論結果を出力するように、既知クラスに属する学習用データを使用して学習された学習済みモデル６と、学習済みモデル６の中間層に形成される多次元特徴空間７における学習用データの特徴量から算出した各クラスのガウス分布と、入力画像３の特徴量との距離に基づき、入力画像３が未知クラスに属すか否かを判定し、学習済みモデル６の推論結果を必要に応じて修正する未知判定部１０とを備えている。
【選択図】図１

【特許請求の範囲】

【請求項1】

ニューラルネットワークを用いてオープンセット認識を行う画像認識装置であって、
入力画像のクラス分けの推論結果を出力するように、既知クラスに属する学習用データを使用して学習された学習済みモデルと、
前記学習済みモデルの中間層に形成される多次元特徴空間における前記学習用データの特徴量から算出した各クラスのガウス分布と、前記入力画像の特徴量との距離に基づき、前記入力画像が未知クラスに属すか否かを判定し、前記学習済みモデルの推論結果を必要に応じて修正する未知判定部と、
を備えることを特徴とする画像認識装置。

【請求項2】

前記多次元特徴空間における前記学習用データの特徴量に対して距離学習が行われて前記多次元特徴空間のオープンスペースが拡大されることを特徴とする請求項１記載の画像認識装置。

【請求項3】

前記未知判定部は、
前記学習済みモデルが推論したクラスの前記ガウス分布と前記入力画像の特徴量との距離を求める距離算出部と、
求められた前記距離が所定の閾値を超えている場合に前記入力画像が未知クラスに属すると判定し、前記学習済みモデルの推論結果を修正する判定部と、
を備えることを特徴とする請求項１又は２に記載の画像認識装置。

【請求項4】

ニューラルネットワークを用いてオープンセット認識を行う画像認識方法であって、
入力画像のクラス分けの推論結果を出力するように既知クラスに属する学習用データを使用して学習された学習済みモデルを用いて、前記入力画像のクラス分けの推論結果を出力するクラス分けステップと、
前記学習済みモデルの中間層に形成される多次元特徴空間における前記学習用データの特徴量から算出した各クラスのガウス分布と、前記入力画像の特徴量との距離に基づき、前記入力画像が未知クラスに属すか否かを判定し、前記学習済みモデルの推論結果を必要に応じて修正する未知判定ステップと、
を有することを特徴とする画像認識方法。

【請求項5】

前記多次元特徴空間における前記学習用データの特徴量に対して距離学習を行い、前記多次元特徴空間のオープンスペースを拡大する距離学習ステップを有することを特徴とする請求項４記載の画像認識手法。

【請求項6】

前記未知判定ステップは、
前記学習済みモデルが推論したクラスの前記ガウス分布と前記入力画像の特徴量との距離を求める距離算出ステップと、
求められた前記距離が所定の閾値を超えている場合に前記入力画像が未知クラスに属すると判定し、前記学習済みモデルの推論結果を修正する判定ステップと、
を有することを特徴とする請求項４又は５に記載の画像認識方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラルネットワークを用いてオープンセット認識を行う画像認識装置および画像認識方法に関する。

【背景技術】

【0002】

オープンセット認識は、学習した物体の認識だけでなく、学習していない物体を未知として判定することを可能した物体認識手法である。近年研究・開発されている物体認識では、入力データは全て既知である、という仮定を持っていることがほとんどである。このような手法はクローズセット認識と呼ばれている。クローズセット認識では未学習データの入力を考慮していない。そのため、未学習のデータを入力した時、学習した物体のいずれかであると認識する。本発明はクローズセット認識のアーキテクチャをほとんど変更せず、オープンセット認識への拡張を可能とする。本発明は変化し続ける環境での動作を想定しているホームサービスロボットなどの分野への応用が可能になる。

【0003】

オープンセット認識における最先端な手法の一つに非特許文献１に記載されたものがある。この手法ではladder networkと呼ばれるネットワークアーキテクチャを参考に、分類を行いながら入力の再構成を行うことで、再構成誤差が閾値以上であれば未知として判定を行う。しかしながら、一般的なクローズセット認識では入力の再構成は行わないため、既存のクローズセット認識モデルの流用は難しい。また、認識モデルの学習時に再構成ネットワークの学習も行わなければならないため、学習コストが高い。他にも再構成を行わないオープンセット認識手法として被特許文献２に記載のものも提案されているが、非特許文献１に記載の手法と比べ認識精度が低くなっている。以上より既存のクローズセット認識からオープンセット認識への拡張が容易で学習コストも低く、認識性能が高い手法は存在しないのが現状である。

【先行技術文献】

【特許文献】

【0004】

【非特許文献1】X. Sun, Z. Yang, C. Zhang, K.-V. Ling, and G. Peng, “Conditional gaussian distribution learning for open set recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pp. 13480-13489, 2020。

【非特許文献2】A. Bendale and T. E. Boult, “Towards open set deep networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp. 1563-1572, 2016。

【発明の概要】

【発明が解決しようとする課題】

【0005】

既存のクローズセット認識モデルを流用可能で、学習コストが低く、認識精度の高いオープンセット認識手法を実現する。既存のオープンセット認識手法で高い認識精度を出すためには、分類問題では一般的に用いない再構成ネットワークを設ける必要があった。そのため、既存のクローズセット認識モデルの流用が難しく、再構成ネットワークも学習をする必要があるため、学習コストが高くなってしまう問題があった。

【0006】

本発明は、既存のクローズセット認識モデルからファインチューニングすることで容易にオープンセット認識への拡張可能で、学習コスト、認識精度に優れた手法を提供することを目的とする。

【課題を解決するための手段】

【0007】

かかる目的を達成するため、本発明の画像認識装置は、ニューラルネットワークを用いてオープンセット認識を行うものであって、入力画像のクラス分けの推論結果を出力するように、既知クラスに属する学習用データを使用して学習された学習済みモデルと、前記学習済みモデルの中間層に形成される多次元特徴空間における前記学習用データの特徴量から算出した各クラスのガウス分布と、前記入力画像の特徴量との距離に基づき、前記入力画像が未知クラスに属すか否かを判定し、前記学習済みモデルの推論結果を必要に応じて修正する未知判定部と、を備えている。

【0008】

また、本発明の画像認識装置は、前記多次元特徴空間における前記学習用データの特徴量に対して距離学習が行われて前記多次元特徴空間のオープンスペースが拡大されるようにすることもできる。

【0009】

また、本発明の画像認識装置は、前記未知判定部が、前記学習済みモデルが推論したクラスの前記ガウス分布と前記入力画像の特徴量との距離を求める距離算出部と、求められた前記距離が所定の閾値を超えている場合に前記入力画像が未知クラスに属すると判定し、前記学習済みモデルの推論結果を修正する判定部と、を備えるものとしても良い。

【0010】

さらに、本発明の画像認識方法は、ニューラルネットワークを用いてオープンセット認識を行うものであって、入力画像のクラス分けの推論結果を出力するように既知クラスに属する学習用データを使用して学習された学習済みモデルを用いて、前記入力画像のクラス分けの推論結果を出力するクラス分けステップと、前記学習済みモデルの中間層に形成される多次元特徴空間における前記学習用データの特徴量から算出した各クラスのガウス分布と、前記入力画像の特徴量との距離に基づき、前記入力画像が未知クラスに属すか否かを判定し、前記学習済みモデルの推論結果を必要に応じて修正する未知判定ステップと、を有している。

【0011】

また、本発明の画像認識方法は、前記多次元特徴空間における前記学習用データの特徴量に対して距離学習を行い、前記多次元特徴空間のオープンスペースを拡大する距離学習ステップを有することもできる。

【0012】

また、本発明の画像認識方法は、前記未知判定ステップが、前記学習済みモデルが推論したクラスの前記ガウス分布と前記入力画像の特徴量との距離を求める距離算出ステップと、求められた前記距離が所定の閾値を超えている場合に前記入力画像が未知クラスに属すると判定し、前記学習済みモデルの推論結果を修正する判定ステップと、を有するものとしても良い。

【0013】

すなわち、物体認識で一般的に用いられるニューラルネットワークの中間層に形成される多次元特徴空間に対して距離学習を適用する。これにより、学習が進むにつれて多次元特徴空間上で同じクラスの特徴量は近くに、違うクラスの特徴量は遠くに位置する。
ニューラルネットワークの学習完了後、学習に用いたデータをニューラルネットワークに入力し、多次元特徴空間上での各クラスの特徴量を取得する。
次に、得られた各クラスの特徴量に対してガウスフィッティングを行い、各クラスの特徴量のガウス分布を求める。
実際の認識では、最初にあるデータを入力した時のクラスを推測する。この時、推測したクラスのガウス分布と多次元特徴空間上での入力データの特徴量とのマハラノビス距離を計算する。このマハラノビス距離が閾値を超えていたとき、未知として検知する。閾値を超えていないときは、最初に推測したクラスと判断する。

【発明の効果】

【0014】

本発明によれば、既存の物体認識では不可能であった、通常の物体認識を行いながら、高精度で未知物体を未知として検知することが可能になる。また、既存のオープンセット認識手法と比べ認識性能が高い。また、認識性能が高いとされる入力の再構成を行う手法と比べ、本発明では再構成を行う必要がないため、学習コストも低くなっている。さらに、本発明では既存のクローズセット認識モデルを流用したファインチューニングが容易になっており、既に学習済みの認識モデルを未知物体の検知が可能となる。

【図面の簡単な説明】

【0015】

【図1】本発明の画像認識装置の一例を示すブロック図である。

【図2】図１の学習済みモデルの作成を示すブロック図である。

【図3】図１の学習済みモデルのブロック図である。

【図4】距離学習を説明するためのもので、（Ａ）は距離学習前の多次元特徴空間を示す概念図、（Ｂ）は距離学習後の多次元特徴空間を示す概念図である。

【図5】ガウスフィッテングを説明するためのもので、（Ａ）はガウスフィッテング前の多次元特徴空間を示す概念図、（Ｂ）はガウスフィッテング後の多次元特徴空間を示す概念図である。

【図6】本発明の画像認識装置による画像認識の流れを示す概念図である。

【図7】本発明の画像認識方法の処理の手順を示すフローチャートである。

【図8】学習済みモデルの作成の手順を示すフローチャートである。

【図9】検証で使用したデータセットを示す図である。

【図10】検証で行ったランダム試行の説明図である。

【図11】検証の実験結果を一覧であらわした図である。

【発明を実施するための形態】

【0016】

以下、本発明に係る画像認識装置の実施形態の一例について、図面を参照しながら説明する。
図１～図６に、本発明に係る画像認識装置を示す。画像認識装置１は、ニューラルネットワーク２を用いてオープンセット認識を行うもので、入力画像３のクラス分けの推論結果４を出力するように、既知クラスに属する学習用データ５を使用して学習された学習済みモデル６と、未知判定部１０とを備えている。未知判定部１０は、学習済みモデル６の中間層２ａに形成される多次元特徴空間７における学習用データ５の特徴量８から算出した各クラスのガウス分布と、入力画像３の特徴量９との距離Ｄに基づき、入力画像３が未知クラスに属すか否かを判定し、学習済みモデル６の推論結果４を必要に応じて修正する。

【0017】

図２に示すように、学習済みモデル６は、多数の学習用データ５を用いて教師あり学習を行うことで作成される。学習用データ５には、属するクラスが異なる画像（データ）５ａと、当該画像５ａの属するクラスを示す正解教師ラベル５ｂが含まれる。図３に示すように、学習済みモデル６はニューラルネットワーク２により構成され、入力画像３が入力される入力部１１、入力された画像３の特徴を抽出する特徴抽出部１２、抽出された特徴量８に基づきクラス分けを推論する分類部１３、分類部１３の出力を確率に変換して最も高い確率のクラスを推論結果４として出力する出力部１４を備えている。なお、図６では、分類部１３と出力部１４とを併せて分類器１５としている。特徴抽出部１２と分類部１３はニューラルネットワーク２の中間層２ａに形成される。

【0018】

特徴抽出部１２では既知の特徴抽出手法が実施される。例えば、HOG（Histogram of Oriented Gradients）、Harrisコーナー検出、SIFT（Scale-Invariant Feature Transform）等の手法の採用が可能であるが、これらに限るものではない。入力画像３の種類等に応じて適宜採用可能である。特徴抽出部１２で抽出された特徴量８，９は、ニューラルネットワーク２の中間層２ａに形成される多次元特徴空間７に配置される。

【0019】

分類部１３による分類では既知の分類アルゴリズムが採用される。例えば、ｋ近傍法、サポートベクターマシン等の採用が可能であるが、これらに限るものではない。
出力部１４での確率（確信度）への変換には、例えば、Softmax関数が使用可能であるが、これに限るものではない。

【0020】

また、学習済みモデル６では、多次元特徴空間７における学習用データ５の特徴量８に対して距離学習が行われており、多次元特徴空間７のオープンスペース７ａが拡大されている。すなわち、同じクラスの特徴量８は距離が近く、違うクラスの特徴量８は距離が遠くなるように距離学習が行われる。本実施形態では、特徴量８間の距離としてマハラノビス距離が用いられ、距離学習としてマハラノビス距離学習が行われる。また、本実施形態の距離学習では、Centerlossと分類問題で使われるCross-entropy lossを組み合わせた損失を定義する（数式１）。

【数1】

【0021】

距離学習としてのCenterlossの利点として、学習時の制約が少ない、アルゴリズムがシンプルである等があげられる。したがって、Centerlossを採用することで、既存の学習済みモデル６への距離学習の組み込みが簡単になる。ただし、Centerloss 以外を採用しても良い。Centerlossの損失関数を数式２に示す。

【数2】

【0022】

また、距離学習の概念を図４に示す。同図（Ａ）は距離学習前の多次元特徴空間７を、同図（Ｂ）は距離学習後の多次元特徴空間７を示している。同図において、丸印は学習用データ５の特徴量ｘi（特徴量８）、星印はラベル（同じクラスの学習用データ５の分布）yiの中心点Ｃyiである。同図に示すように、距離学習によって同じクラスの特徴量８を近づけ、違うクラスの特徴量８を遠ざけることができ、多次元特徴空間７のオープンスペース７ａを広げることができる。

【0023】

距離学習を、クラス分けを目的とした学習済みモデル６を作成するための教師あり学習と一緒に行っても良いし、クラス分けを目的とした学習済みモデル６を作成した後、当該学習済みモデル６に対して距離学習を行うようにしても良い。

【0024】

また、学習済みモデル６では、距離学習後の多次元特徴空間７における学習用データ５の特徴量８を多変量ガウス分布に当てはめて各クラスのガウス分布１６を求めるガウスフィッテングが行われている。すなわち、学習用データ５の入力によって作成された学習済みモデル６に対し学習用データ５が再度入力されて多次元特徴空間７上での学習用データ５の特徴量８が再度取得され、この多次元特徴空間７に対してガウスフィッテングが行われる。ガウスフィッテングの概念を図５に示す。同図（Ａ）はガウスフィッテング前の多次元特徴空間７を、同図（Ｂ）はガウスフィッテング後の多次元特徴空間７を示している。同図に示すように、学習用データ５の特徴量８（同図（Ａ）の丸印）が各クラスのガウス分布１６に変換される。ガウスフィッテングはガウスフィッテング部１７によって行われる。

【0025】

未知判定部１０は、学習済みモデル６が推論したクラスのガウス分布１６と入力画像３の特徴量９との距離Ｄを求める距離算出部２０と、求められた距離Ｄが所定の閾値を超えている場合に入力画像３が未知クラスに属すると判定し、学習済みモデル６の推論結果４を修正する判定部２１を備えている。

【0026】

距離算出部２０による距離Ｄの算出は、実際の画像認識が行われる際に行われる。すなわち、学習済みモデル６の作成と多次元特徴空間７に対するガウスフィッテングは実際の画像認識の前段階として行われている。したがって、実際に入力画像３の画像認識を行う場合、既に各クラスのガウス分布１６が求められているので、迅速に処理を行うことができる。学習済みモデル６が入力画像３の画像認識を行なう場合、距離算出部２０は学習済みモデル６によって推論されたクラスのガウス分布１６と入力画像３の特徴量９との距離Ｄ（マハラノビス距離）を求める。

【0027】

判定部２１は、距離算出部２０が求めた距離Ｄと予め設定されている所定の閾値とを比較し、距離Ｄが閾値を超えている場合には、入力画像３が未知クラスに分類されると判定して学習済みモデル６による推論結果４を修正する。すなわち、最終推論結果２２として、未知クラスが出力される。また、距離Ｄが閾値以下の場合には、学習済みモデル６による推論結果４が最終推論結果２２として出力される。閾値としては、例えば、信頼区間９５％点やホテリング理論における異常度を参考にした値が採用される。

【0028】

ニューラルネットワーク２及び未知判定部１０は、コンピュータに所定のプログラムを実行させることで実現される。

【0029】

次に、本発明の画像認識方法について説明する。図７及び図８に、画像認識方法を示す。画像認識方法は、ニューラルネットワーク２を用いてオープンセット認識を行うもので、入力画像３のクラス分けの推論結果４を出力するように既知クラスに属する学習用データ５を使用して学習された学習済みモデル６を用いて、入力画像３のクラス分けの推論結果４を出力するクラス分けステップＳ５１と、学習済みモデル６の中間層２ａに形成される多次元特徴空間７における学習用データ５の特徴量８から算出した各クラスのガウス分布と、入力画像３の特徴量９との距離Ｄに基づき、入力画像３が未知クラスに属すか否かを判定し、学習済みモデル６の推論結果４を必要に応じて修正する未知判定ステップＳ５２とを有している。

【0030】

また、画像認識方法は、未知判定ステップＳ５２において、学習済みモデル６が推論したクラスのガウス分布１６と入力画像３の特徴量９との距離Ｄを求める距離算出ステップＳ５３と、求められた距離Ｄが所定の閾値を超えている場合に入力画像３が未知クラスに属すると判定し、学習済みモデル６の推論結果４を修正する判定ステップＳ５４とを有している。

【0031】

画像認識方法では、入力画像３の認識を行うための準備として、まず、学習済みモデル６が作成される（図８のステップＳ６１）。学習済みモデル６は学習用データ５を使用した教師あり学習（ステップＳ６２）によって作成される。また、この学習の際、多次元特徴空間７の学習用データ５の特徴量８に対して距離学習を行い（ステップＳ６３）、多次元特徴空間７のオープンスペース７ａを拡大させる。これにより、多次元特徴空間７上の学習用データ５の特徴量８のガウスフィッテングをより容易且つ精確に行うことが可能になると共に、学習済みモデル６による画像認識をより精確に行うことが可能になる。

【0032】

なお、距離学習ステップＳ６３は、図８に示すように、学習済みモデル６を作成するステップＳ６１において、教師あり学習Ｓ６２と一緒に行っても良いし、あるいは、学習済みモデル６を作成するステップの後で行っても良い。

【0033】

その後、学習済みモデル６に学習用データ５を再度入力し、多次元特徴空間７上での学習用データ５の特徴量８を取得する（ステップＳ６４）。この状態では、既に距離学習が行われているので、取得された学習用データ５の特徴量８は、距離学習後の位置に配置される。

【0034】

次に、ガウスフィッテング部１７が多次元特徴空間７上の学習用データ５の特徴量８を多変量ガウス分布に当てはめ、各クラスのガウス分布１６を求める（ステップＳ６５）。これによって、学習済みモデル６が作成され、入力画像３の認識を行うための準備が完了する。

【0035】

いま、例えば、MNIST（Modified National Institute of Standards and Technology）データベースの「４」、「５」、「６」の数字の画像データを学習用データ５として使用した場合、「４」、「５」、「６」の数字の画像データをクラス分けする学習済みモデル６が作成される（ステップＳ６１）。多次元特徴空間７上には入力画像３の特徴量９がクラス毎、即ち数字の種類毎にある程度纏まって現れる（図４（Ａ））。そして、距離学習が行われる（ステップＳ６３）ことで、各クラスの特徴量８の纏まりの間のオープンスペース７ａが拡大される（図４（Ｂ））。その後、学習済みモデル６に学習用データ５が再度入力され、多次元特徴空間７上に学習用データ５の特徴量８が取得される（ステップＳ６４）。そして、多次元特徴空間７上の学習用データ５の特徴量８に対してガウスフィッテングが行われると（ステップＳ６５）、「４」、「５」、「６」のクラス毎にガウス分布１６が求められる。

【0036】

そして、学習済みモデル６に入力画像３が入力されると、画像認識が行われる。すなわち、学習済みモデル６に入力画像３が入力されると、特徴抽出部１２が入力画像３の特徴を抽出し、抽出された特徴に基づいて分類部１３が入力画像３のクラス分けを推論する。この推論結果４は出力部１４から出力される。

【0037】

一方、未知判定部１０は、学習済みモデル６が推論したクラスのガウス分布１６と入力画像３の特徴量９との距離Ｄを求める（ステップＳ５３）。そして、求めた距離Ｄが所定の閾値を超えている場合、入力画像３が未知クラスに分類されると判定され、学習済みモデル６による推論結果４を修正する。すなわち、最終推論結果２２として、未知クラスが出力される（ステップＳ５４）。また、距離Ｄが閾値以下の場合には、学習済みモデル６による推論結果４が最終推論結果２２として出力される（ステップＳ５４）。

【0038】

上記の「４」、「５」、「６」の数字の例では、入力画像３として例えば「５」の数字の画像が学習済みモデル６に入力されると、「５」は既知クラスであり、学習済みモデル６の推論結果４としてクラス：５が出力される。一方、未知判定部１０は、クラス：５のガウス分布１６と入力画像３の特徴量９との距離Ｄを求める。いま、クラス：５は既知クラスであり、求められた距離Ｄは閾値以下となる。したがって、未知判定部１０は最終推論結果２２として、クラス：５を出力する（図６の既知クラスの処理）。

【0039】

次に、入力画像３として例えば「７」の数字の画像が学習済みモデル６に入力された場合を考える。「７」の数字の画像は学習済みモデル６の学習に使用されていない未知クラスの画像であり、未知クラスとして判定されるべきである。ところが、学習済みモデル６は「４」、「５」、「６」の数字の学習用データ５を使用して学習が行われたクローズセット認識を行う学習済みモデル６であるので、「７」の数字の入力画像３を、「４」、「５」、「６」のいずれかのクラスに分類する。いま、クラス：５に分類した場合を考える。この場合、未知判定部１０はクラス：５のガウス分布１６と「７」の数字の入力画像３の特徴量９との距離Ｄを求めることになるが、クラスが異なることから両者は離れており、求められた距離Ｄは閾値を超えることになる。したがって、未知判定部１０は「７」の数字の入力画像３は未知クラスに分類されると判定して学習済みモデル６による推論結果４を修正する。すなわち、最終推論結果２２として、未知クラスを出力する（図６の未知クラスの処理）。

【0040】

このように、本発明の画像認識装置１及び画像認識方法では、既存の物体認識では不可能であった、通常の物体認識を行いながら、高精度で未知物体を未知として検知することが可能になる。また、既存のオープンセット認識手法と比べ認識性能が高い。また、認識性能が高いとされる入力の再構成を行う手法と比べ、本発明では再構成を行う必要がないため、学習コストも低くなっている。さらに、本発明では既存のクローズセット認識モデルを流用したファインチューニングが容易になっており、既に学習済みの認識モデルを未知物体の検知が可能となる。

【0041】

本発明の画像認識装置１及び画像認識方法は、特に産業用ロボット、家庭用ロボット等の画像認識等に好適であるが、これらに限るものではない。

【実施例0042】

本発明の画像認識装置１の性能を確認するための検証を行った。既存の公開データセットの一部のクラスのみを学習させ、テスト時は全クラスを用いて検証を行った。評価指標はmacro-F1を用いた。
学習済みモデル６の学習時には、データセットの一部のクラスを学習した。例えば、データセットをMNISTにした場合の例を図９に示す。データセットの１０クラス中、６クラスを学習した。具体的には、クラス：０、クラス：１、・・・、クラス：５の６クラスを学習クラスにした。テスト時は学習しなかった4つのクラスをunknownクラス（未知クラス）として、推論を行い、評価を行った。

【0043】

既知クラスと未知クラスの割合の指標をopennessといい、今回の例では１３．４％となった。この指標を数式３に示す。

【数3】

【0044】

検証では、ランダム試行を行った。この様子を図１０に示す。既知クラスと未知クラスをランダムに分けて評価を５回行った。モデルの学習時は、データセットの一部のクラス、具体的には１０クラス中、６クラスを学習した。
検証では、学習しなかった４つのクラスをunknownクラスとして、推論を行い、評価を行った。既知クラスと未知クラスの割合の指標はを１３．４％にした。

【0045】

実験結果を図１１に示す。検証の条件として、学習エポック数を３００、未知検知を行う特徴空間の次元を５１２とした。検証を５回行った時のmacro-F1の平均と分散で評価した。データセットとして、MNIST、SVHN、CIFAR10を使用した。いずれも既知クラスと未知クラスの割合の指標を１３．４％とした。比較のために、既存の手法（識別モデルベース：Softomax手法、Openmax手法、再構成モデルベース：CROSR手法、GDFR手法、CGDL手法）を用いて同様の実験を行った。図１１の実験結果からも明らかなように、本発明の画像認識の手法（図１１のProposed手法）は、MNIST、SVHN、CIFAR10のいずれについても最も良い結果となった。

【符号の説明】

【0046】

１画像認識装置
２ニューラルネットワーク
２ａニューラルネットワークの中間層
３入力画像
４学習済みモデルの推論結果
５学習用データ
６学習済みモデル
７多次元特徴空間
７ａオープンスペース
８学習用データの特徴量
９入力画像の特徴量
１０未知判定部
１１入力部
１２特徴抽出部
１３分類部
１４出力部
１５分類器
１６ガウス分布
１７ガウスフィッテング部
１８計算基準点
１９基準点算出部
２０距離算出部
２１判定部
２２最終推論結果

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

IP Force 特許公報掲載プロジェクト 2022.1.31 β版