IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 京セラ株式会社の特許一覧

特許7148462画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム
<>
  • 特許-画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム 図1
  • 特許-画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム 図2
  • 特許-画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム 図3
  • 特許-画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム 図4
  • 特許-画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-27
(45)【発行日】2022-10-05
(54)【発明の名称】画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム
(51)【国際特許分類】
   G06T 7/11 20170101AFI20220928BHJP
【FI】
G06T7/11
【請求項の数】 7
(21)【出願番号】P 2019133589
(22)【出願日】2019-07-19
(65)【公開番号】P2021018576
(43)【公開日】2021-02-15
【審査請求日】2021-10-12
(73)【特許権者】
【識別番号】000006633
【氏名又は名称】京セラ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】菅原 俊
(72)【発明者】
【氏名】田口 賢佑
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2018-97807(JP,A)
【文献】特表2018-535491(JP,A)
【文献】特開2019-109691(JP,A)
【文献】清水 育,ラベル尤度を大局的特徴として用いたセマンティックセグメンテーション,電子情報通信学会技術研究報告 Vol.117 No.514 IEICE Technical Report,日本,一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,第117巻
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/11
(57)【特許請求の範囲】
【請求項1】
画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される画像認識評価プログラムであって、
前記評価装置に、
前記画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成する第1のステップと、
生成した複数の前記加工入力画像を前記画像認識装置に入力し、前記画像認識装置により画像セグメンテーションが行われることでクラス分類された複数の出力画像を取得する第2のステップと、
取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出する第3のステップと、を実行させる画像認識評価プログラム。
【請求項2】
前記出力画像の前記分散値は、前記出力画像の各画素に対応付けられたクラスの分散値である請求項1に記載の画像認識評価プログラム。
【請求項3】
前記画像認識装置によるクラス分類の推定が、点推定状態であるか否かを判定するためのしきい値が予め設定されており、
前記評価装置に、
前記第3のステップにおいて算出された前記出力画像の前記分散値と前記しきい値とに基づいて、点推定状態か否かを判定する第4のステップを、さらに実行させる請求項2に記載の画像認識評価プログラム。
【請求項4】
前記画像加工は、パーリンノイズ加工、ガウシアンノイズ加工、ガンマ変換加工、ホワイトバランス加工、ブラー加工のうち、少なくとも1つの加工を含む請求項1から3のいずれか1項に記載の画像認識評価プログラム。
【請求項5】
画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される画像認識評価方法であって、
前記画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成する第1のステップと、
生成した複数の前記加工入力画像を、前記画像認識装置に入力し、前記画像認識装置による画像セグメンテーション行って、クラス分類された複数の出力画像を取得する第2のステップと、
取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出する第3のステップと、を実行する画像認識評価方法。
【請求項6】
画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置であって、
前記画像認識装置に入力画像を入力すると共に、前記画像認識装置で生成された出力画像を取得する入出力部と、
前記画像認識装置に入力する前記入力画像に対して画像加工を行い、複数の加工入力画像を生成し、生成した複数の前記加工入力画像を、前記画像認識装置に入力し、前記画像認識装置によって画像セグメンテーションが行われることにより、クラス分類された複数の前記出力画像を取得し、取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出する制御部と、を備える評価装置。
【請求項7】
請求項6に記載の評価装置と、
前記評価装置から入力される複数の前記加工入力画像に対して画像セグメンテーションを行って、クラス分類された複数の前記出力画像を前記評価装置へ向けて出力する前記画像認識装置と、を備える評価システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像認識評価プログラム、画像認識評価方法、評価装置及び評価システムに関する。
【背景技術】
【0002】
画像認識技術として、Fully Convolutional Network(FCN:全層畳み込みネットワーク)を用いたSemantic Segmentation(セマンティック・セグメンテーション)が知られている(例えば、非特許文献1参照)。セマンティック・セグメンテーションは、入力画像として入力されたデジタル画像に対して、ピクセル単位でのクラス分類(推論)を行っている。つまり、セマンティック・セグメンテーションは、デジタル画像の各ピクセルに対してクラス分類を行い、推論結果として、クラス分けした各ピクセル対してカテゴリをラベリングすることで、デジタル画像を複数のカテゴリの画像領域に分割し、出力画像として出力する。
【0003】
また、画像認識精度を評価する技術として、Bayesian SegNetと呼ばれる手法が知られている(例えば、非特許文献2参照)。Bayesian SegNetでは、DropOutと呼ばれる手法でNetworkの内部状態をランダムに振動させ、推論結果の揺らぎを算出している。そして、算出した推論結果が大きく揺らぐ場合には、信頼度(認識精度)が低いと判定し、算出した推論結果が揺らがない場合には、信頼度(認識精度)が高いと判定している。
【先行技術文献】
【非特許文献】
【0004】
【文献】Hengshuang Zhao, et al. "Pyramid scene parsing network" IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2017
【文献】Alex Kendall, et al. "Bayesian SegNet: Model Uncertainty in Deep Convolutional Encoder-Decoder Architectures for Scene Understanding" arXiv:1511.02680v2 [cs.CV], 10 Oct 2016
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献2では、Networkの内部状態をランダムに振動させることから、Network構造の変更が必要となる。ここで、評価するNetworkとしては、Network構造がブラックボックス化された、いわゆるBlack Box Networkがある。この場合、非特許文献2では、Network構造の変更が前提となる一方で、Black Box Networkに対しては、変更を行うことができない。このため、Black Box Networkに対しては、非特許文献2の手法を適用することはできず、Networkの認識精度の評価を行うことが困難である。
【0006】
本発明は、画像認識装置がブラックボックス化されたものであっても、画像認識装置の認識精度を評価することができる画像認識評価プログラム、画像認識評価方法、評価装置及び評価システムを提供することを目的とする。
【課題を解決するための手段】
【0007】
態様の1つに係る画像認識評価プログラムは、画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される画像認識評価プログラムであって、前記評価装置に、前記画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成する第1のステップと、生成した複数の前記加工入力画像を前記画像認識装置に入力し、前記画像認識装置により画像セグメンテーションが行われることでクラス分類された複数の出力画像を取得する第2のステップと、取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出する第3のステップと、を実行させる。
【0008】
態様の1つに係る画像認識評価方法は、画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される画像認識評価方法であって、前記画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成する第1のステップと、生成した複数の前記加工入力画像を、前記画像認識装置に入力し、前記画像認識装置による画像セグメンテーション行って、クラス分類された複数の出力画像を取得する第2のステップと、取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出する第3のステップと、を実行する。
【0009】
態様の1つに係る評価装置は、画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置であって、前記画像認識装置に入力画像を入力すると共に、前記画像認識装置で生成された出力画像を取得する入出力部と、前記画像認識装置に入力する前記入力画像に対して画像加工を行い、複数の加工入力画像を生成し、生成した複数の前記加工入力画像を、前記画像認識装置に入力し、前記画像認識装置によって画像セグメンテーションが行われることにより、クラス分類された複数の前記出力画像を取得し、取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出する制御部と、を備える。
【0010】
態様の1つに係る評価システムは、上記の評価装置と、前記評価装置から入力される複数の前記加工入力画像に対して画像セグメンテーションを行って、クラス分類された複数の前記出力画像を前記評価装置へ向けて出力する前記画像認識装置と、を備える。
【図面の簡単な説明】
【0011】
図1図1は、実施形態に係る評価システムの概要を示す図である。
図2図2は、実施形態に係る評価システムの評価時における機能の概要を示す図である。
図3図3は、入力画像、加工入力画像、出力画像の一例を示す図である。
図4図4は、入力画像と出力画像とを重ね合わせた画像、分散画像の一例を示す図である。
図5図5は、画像認識装置の評価に関する処理の一例を示す図である。
【発明を実施するための形態】
【0012】
本出願に係る実施形態を、図面を参照しつつ詳細に説明する。以下の説明において、同様の構成要素について同一の符号を付すことがある。さらに、重複する説明は省略することがある。また、本出願に係る実施形態を説明する上で密接に関連しない事項は、説明及び図示を省略することがある。
【0013】
(実施形態)
図1は、実施形態に係る評価システムの概要を示す図である。図2は、実施形態に係る評価システムの評価時における機能の概要を示す図である。評価システム1は、画像認識装置5による画像認識の精度を評価するシステムであり、評価対象となる画像認識装置5と、画像認識装置5を評価する評価装置6とを含んで構成されている。評価システム1において、画像認識装置5と評価装置6とは、双方向にデータを通信可能に接続されている。なお、本実施形態において、評価システム1は、画像認識装置5と評価装置6とがそれぞれ独立した別体の構成となっているが、この構成に特に限定されない。評価システム1は、画像認識装置5と評価装置6とが一体となる単一の装置として構成してもよい。
【0014】
画像認識装置5は、入力される入力画像Iに含まれるオブジェクトを認識し、認識した結果を出力画像Oとして出力するものである。画像認識装置5は、カメラ等の撮像装置において撮像された撮影画像が入力画像Iとして入力される。なお、詳細は後述するが、評価時において、画像認識装置5には、評価装置6において生成された加工入力画像Iaが入力される。
【0015】
画像認識装置1は、入力画像Iに対して画像セグメンテーションを行う。画像セグメンテーションとは、デジタル画像の分割された画像領域に対してクラスをラベリングすることであり、クラス推論(クラス分類)ともいう。つまり、画像セグメンテーションとは、デジタル画像の分割された所定の画像領域が、何れのクラスであるかを判別して、画像領域が示すクラスを識別するための識別子(カテゴリ)を付すことで、複数のカテゴリに領域分割することである。画像認識装置1は、入力画像Iを画像セグメンテーション(クラス推論)した画像を、出力画像Oとして出力する。
【0016】
画像認識装置1は、例えば、車の車載認識カメラに設けられている。車載認識カメラは、車の走行状況を所定のフレームレートでリアルタイムに撮像し、撮像した撮影画像を画像認識装置1に入力する。画像認識装置1は、所定のフレームレートで入力される撮影画像を入力画像Iとして取得する。画像認識装置1は、入力画像Iに含まれるオブジェクトをクラス分類して、クラス分類された画像を出力画像Oとして、所定のフレームレートで出力する。なお、画像認識装置1は、車載認識カメラへの搭載に限定されず、他の装置に設けてもよい。
【0017】
画像認識装置5は、制御部11と、記憶部12と、画像認識部13とを備えている。記憶部12は、プログラム及びデータを記憶する。また、記憶部12は、制御部11の処理結果を一時的に記憶する作業領域としても利用してもよい。記憶部12は、半導体記憶デバイス、及び磁気記憶デバイス等の任意の記憶デバイスを含んでよい。また、記憶部12は、複数の種類の記憶デバイスを含んでよい。また、記憶部12は、メモリカード等の可搬の記憶媒体と、記憶媒体の読み取り装置との組み合わせを含んでよい。
【0018】
制御部11は、画像認識装置5の動作を統括的に制御して各種の機能を実現する。制御部11は、例えば、CPU(Central Processing Unit)等の集積回路を含んでいる。具体的に、制御部11は、記憶部12に記憶されているプログラムに含まれる命令を実行して、画像認識部13等を制御することによって各種機能を実現する。制御部11は、例えば、画像認識に関するプログラムを実行することにより、画像認識部13による画像認識を実行する。
【0019】
画像認識部13は、GPU(Graphics Processing Unit)等の集積回路を含んでいる。画像認識部13は、例えば、セマンティック・セグメンテーションを用いた画像セグメンテーションを行っている。セマンティック・セグメンテーションは、入力画像Iの各ピクセルに対してクラス推論を行い、クラス分けされた各ピクセルに対してカテゴリをラベリングすることで、入力画像Iを複数のカテゴリごとに領域分割する。画像認識部13は、入力画像Iが入力されると、画像セグメンテーションを行うことで、入力画像Iのピクセルごとにクラス分類された画像を、出力画像Oとして出力する。
【0020】
画像認識部13は、全てが畳み込み層で構成されるFCN(Fully Convolutional Network)等のニューラル・ネットワーク(以下、単にネットワークともいう)を用いた画像セグメンテーションを行っている。画像認識部13は、学習済みのネットワークを用いており、例えば、どのような学習が行われたか不明となる、ブラックボックス化されたネットワークとなっている。画像認識部13は、エンコーダ22と、デコーダ23とを有している。
【0021】
エンコーダ22は、入力画像Iに対してエンコード処理を実行する。エンコード処理は、入力画像Iの特徴量を抽出した特徴マップ(Feature Map)を生成しつつ、特徴マップの解像度を低くするダウンサンプリング(プーリングともいう)を実行する処理である。具体的に、エンコード処理では、畳み込み層とプーリング層とにおいて入力画像Iに処理が行われる。畳み込み層では、入力画像Iの特徴量を抽出するためのカーネル(フィルタ)を、入力画像Iにおいて所定のストライドで移動させる。そして、畳み込み層では、畳み込み層の重みに基づいて、入力画像Iの特徴量を抽出するための畳み込み計算が行われ、この畳み込み計算により特徴量が抽出された特徴マップを生成する。生成される特徴マップは、カーネルのチャネル数に応じた数だけ生成される。プーリング層では、特徴量が抽出された特徴マップを縮小して、低解像度となる特徴マップを生成する。エンコード処理では、畳み込み層における処理とプーリング層における処理とを複数回繰り返し実行することで、ダウンサンプリングされた特徴量を有する特徴マップを生成する。
【0022】
デコーダ23は、エンコード処理後の特徴マップに対してデコード処理を実行する。デコード処理は、特徴マップの解像度を高くするアップサンプリング(アンプーリングともいう)を実行する処理である。具体的に、デコード処理は、逆畳み込み層とアンプーリング層とにおいて特徴マップに処理が行われる。アンプーリング層では、特徴量を含む低解像度の特徴マップを拡大して、高解像度となる特徴マップを生成する。逆畳み込み層では、特徴マップに含まれる特徴量を、復元させるための逆畳み込み計算が、逆畳み込み層の重みに基づいて実行され、この計算により特徴量を復元させた特徴マップを生成する。そして、デコード処理では、アンプーリング層における処理と逆畳み込み層における処理とを複数回繰り返し実行することで、アップサンプリングされ、領域分割された画像である出力画像Oを生成する。出力画像Oは、画像認識部7に入力される入力画像Iと同じ解像度になるまで、アップサンプリングされる。
【0023】
以上のように、画像認識部13は、入力画像Iに対して、エンコード処理及びデコード処理を実行し、ピクセル単位でクラス推論(クラス分類)を行うことで、入力画像Iの画像セグメンテーションを行う。そして、画像認識部13は、入力画像Iをクラスごとに領域分割した画像を、出力画像Oとして出力する。
【0024】
評価装置6は、画像認識装置5の認識精度を評価している。評価装置6は、画像認識装置5に入力される入力画像Iを加工すると共に、画像認識装置5から出力される出力画像Oに基づいて認識精度を評価している。
【0025】
評価装置6は、制御部15と、記憶部16と、入出力部17とを備えている。なお、記憶部16は、画像認識装置5の記憶部12とほぼ同様の構成であるため、説明を省略する。
【0026】
入出力部17は、画像認識装置5との間で各種データの入出力を行うためのインターフェースであり、画像認識装置5に加工した入力画像Iである加工入力画像Iaを入力すると共に、画像認識装置5で生成された出力画像Oを取得する。
【0027】
制御部15は、評価装置6の動作を統括的に制御して各種の機能を実現する。制御部15は、例えば、CPU(Central Processing Unit)等の集積回路を含んでいる。具体的に、制御部15は、記憶部16に記憶されているプログラムに含まれる命令を実行して、入出力部17等を制御することによって各種機能を実現する。制御部15は、例えば、画像認識装置5の評価に関する画像認識評価プログラムPを実行することにより、画像認識装置5から出力画像Oを取得し、取得した出力画像Oに基づいて、画像認識装置5の認識精度を評価する。また、制御部15は、画像認識評価プログラムPを実行することにより、画像認識装置5に入力する入力画像Iを加工して、加工入力画像Iaを生成する。
【0028】
図2に示すように、評価システム1は、評価装置6が入力画像Iを取得すると、入力画像Iを加工して加工入力画像Iaを生成し、生成した加工入力画像Iaを画像認識部13に入力する。画像認識部13は、加工入力画像Iaに対して、エンコード処理及びデコード処理を実行することで、加工入力画像Iaの画像セグメンテーションを行う。そして、画像認識部13は、加工入力画像Iaをクラスごとに領域分割した画像を、出力画像Oとして評価装置6へ向けて出力する。評価装置6は、出力画像Oを取得し、取得した出力画像Oに基づいて、画像認識装置5を評価するための分散画像Vを生成する。
【0029】
なお、画像認識装置5及び評価装置6が一体となる単一の装置である場合、制御部11及び制御部15を同一の制御部としてもよく、また、記憶部12及び記憶部16を同一の記憶部としてもよい。
【0030】
次に、図3及び図4を参照して、入力画像I、加工入力画像Ia、出力画像O及び分散画像Vについて説明する。図3は、入力画像、加工入力画像、出力画像の一例を示す図である。図4は、入力画像と出力画像とを重ね合わせた画像、分散画像の一例を示す図である。
【0031】
入力画像Iは、複数の画素(ピクセル)からなるデジタル画像である。入力画像Iは、例えば、カメラ等の撮像装置に設けられる撮像素子によって生成される、撮像素子の画素数に応じた解像度の画像となっている。つまり、入力画像Iは、画像の画素数を高くするアップサンプリング処理、または、画像の画素数を低くするダウンサンプリング処理が行われていない、高解像度となるオリジナルの原画像となっている。
【0032】
加工入力画像Iaは、入力画像Iを画像加工したものである。図3では、加工入力画像Iaの加工例として、画像加工例1から画像加工例3を図示している。画像加工としては、例えば、パーリンノイズ加工、ガウシアンノイズ加工、ガンマ変換加工、ホワイトバランス加工、ブラー加工等がある。画像加工例1の加工入力画像Iaは、入力画像Iにガンマ変換加工を行った画像となっている。画像加工例2の加工入力画像Iaは、入力画像Iにガウシアンノイズ加工を行った画像となっている。画像加工例3の加工入力画像Iaは、入力画像Iにホワイトバランス加工を行った画像となっている。
【0033】
出力画像Oは、クラスごとに領域分割されている。クラスは、例えば、入力画像Iに含まれるオブジェクトを含み、人、車、道、建物等である。出力画像Oは、ピクセル単位でオブジェクトごとのクラス分類がなされ、ピクセル単位(画素単位)ごとに分類されたクラスがラベリングされることで、クラスごとに領域分割されている。図3では、例えば、人、車、道路、空等のクラスに分類されている。また、出力画像Oとしては、加工入力画像Iaに対応した出力画像Oがある。図4では、画像加工例1から画像加工例3の加工入力画像Iaに対応する出力画像例1から出力画像例3を図示している。出力画像例1の出力画像Oは、画像加工例1の加工入力画像Iaに対応する出力画像となっている。出力画像例2の出力画像Oは、画像加工例2の加工入力画像Iaに対応する出力画像となっている。出力画像例3の出力画像Oは、画像加工例3の加工入力画像Iaに対応する出力画像となっている。図3に示す例では、出力画像例1から出力画像例3において、認識精度が低下した出力画像Oとなっている。なお、図3の出力画像Oは一例であり、このクラス分類に、特に限定されない。また、出力画像Oは、入力画像Iと同じ解像度となっている。
【0034】
図4に示す画像は、上側の画像が、入力画像Iと出力画像Oとを重ね合わせた画像となっており、下側の画像が、入力画像I及び出力画像Oに基づく分散画像Vとなっている。分散画像Vは、入力画像Iを画像加工することで複数の加工入力画像Iaを生成し、生成した複数の加工入力画像Iaを画像認識装置5に入力して生成された複数の出力画像Oを用いて生成される。ここで、分散画像Vを生成する場合は、画像加工の種類を変えて生成した複数の加工入力画像Iaに対応する複数の出力画像Oを用いてもよい。また、分散画像Vを生成する場合は、画像加工の種類は変えずにランダムに画像加工を行うことで生成した複数の加工入力画像Iaに対応する複数の出力画像Oを用いてもよい。
【0035】
具体的に、分散画像Vは、複数の出力画像Oに基づいて、各画素における分散値を可視化したものである。分散画像Vにおいて、白い画像領域は、分散値が低いものとなっており、黒い画像領域は、分散値が高いものとなっている。つまり、分散画像Vの所定の画素における分散値は、複数の出力画像Oの所定の画素におけるクラスが分散している場合、分散値が高く設定されて黒い画像領域となる。一方で、分散画像Vの所定の画素における分散値は、複数の出力画像Oの所定の画素におけるクラスが分散していない場合、分散値が低く設定されて白い画像領域となる。このように、分散画像Vは、画素毎に分散値が設定された画像となっている。
【0036】
次に、図5を参照して、評価装置6による画像認識装置5の評価に関する処理について説明する。図5は、画像認識装置の評価に関する処理の一例を示す図である。
【0037】
先ず、評価装置6に、画像認識装置5に入力される入力画像Iが入力される(ステップS1)。すると、評価装置6の制御部11は、入力画像Iに対して画像加工を行い、複数の加工入力画像Iaを生成する(ステップS2:第1のステップ)。ステップS2では、入力画像Iに対して、所定の種類の画像加工を複数回行うことで、複数の加工入力画像Iaを生成してもよいし、異なる複数の種類の画像加工を行うことで、複数の加工入力画像Iaを生成してもよいし、その両方を行うことで、複数の加工入力画像Iaを生成してもよい。また、入力画像Iに対して画像加工を行う場合、予め設定された摂動範囲内における加工度で、入力画像Iの画像加工を行っている。ここで、摂動範囲としては、入力画像Iに映っている物体が画像加工を行っても認識可能な範囲となっている。
【0038】
続いて、評価装置6は、生成した複数の加工入力画像Iaを画像認識装置5に入力する(ステップS3)。加工入力画像Iaが入力されると、画像認識部13は、加工入力画像Iaに対してエンコード処理を実行する(ステップS4)。画像認識部13は、エンコード処理を実行することで、ダウンサンプリングされた特徴量を含む特徴マップを生成する。画像認識部13は、ダウンサンプリングされた特徴量を含む特徴マップに対してデコード処理を実行する(ステップS5)。画像認識部13は、デコード処理を実行することで、特徴量を含む特徴マップを復元しながらアップサンプリングして、加工入力画像Iaと同じ解像度とする。そして、画像認識部13は、画像をピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS6)。画像認識部13は、クラス推論の結果として、出力画像Oを生成し、生成した出力画像Oを評価装置6へ向けて出力することで、評価装置6は、出力画像Oを取得する(ステップS7:第2のステップ)。ステップS4からステップS6は、加工入力画像Iaの数に応じて複数回実行することで、ステップS7では、複数の加工入力画像Iaに応じた複数の出力画像Oを取得している。
【0039】
次に、評価装置6は、取得した複数の出力画像Oに基づいて、出力画像Oの分散値を算出する(ステップS8:第3のステップ)。ステップ8では、複数の出力画像Oを用いて、各画素におけるクラスの分散値を算出している。この後、評価装置6は、各画素におけるクラスの分散値に基づいて、分散画像Vを生成して取得する(ステップS9)。
【0040】
続いて、評価装置6は、予め設定されたしきい値に対して、出力画像Oの分散値が大きいか否かを判定する(ステップS10)。ここで、しきい値は、画像認識装置5によるクラス分類の推定が、点推定状態であるか否かを判定するための値である。点推定状態とは、画像認識装置5の学習において、ロバスト性の低い学習が行われることで、画像認識装置5の推定に際して、ピーキーな(鋭敏な)推定を行ってしまう状態である。具体的に、点推定状態とは、画像認識装置5の学習において、物体の正面だけの画像を用いた学習が行われた場合、画像認識装置5の推定に際して、物体の正面だけの画像でしか、物体の推定を行うことができず、物体の背面の画像では、物体の推定が困難となる状態である。また、ステップS10では、具体的に、予め設定されたしきい値に対して、出力画像Oのクラスの分散値が大きいか否かを判定しており、クラスごとに点推定状態であるか否かを判定している。
【0041】
評価装置6は、出力画像Oの(クラスの)分散値がしきい値よりも大きい場合(ステップS10:Yes)、画像認識装置5が点推定状態であると判定する(ステップS11)。一方で、評価装置6は、出力画像Oの(クラスの)分散値がしきい値以下である場合(ステップS10:No)、画像認識装置5が点推定状態でないと判定する(ステップS12)。
【0042】
以上のように、実施形態に係る画像認識装置5の評価では、入力画像Iの画像加工を行うことで、入力画像Iを摂動させ、摂動させた入力画像Iである加工入力画像Iaを画像認識装置5に入力して、出力画像Oの分散値を算出することができる。このため、画像認識装置がブラックボックス化されたものであっても、入力画像Iを摂動させて、分散値に基づく評価を行うことで、画像認識装置5の認識精度を適切に評価することができる。
【0043】
また、実施形態に係る画像認識装置5の評価では、出力画像Oの各画素におけるクラスの分散値を算出することができるため、画像認識装置5のクラス単位での認識精度を適切に評価することができる。
【0044】
また、実施形態に係る画像認識装置5の評価では、出力画像Oの分散値と予め設定されたしきい値とを比較することにより、画像認識装置5が点推定状態であるか否かを適切に判定することができる。
【0045】
また、実施形態に係る画像認識装置5の評価では、パーリンノイズ加工、ガウシアンノイズ加工、ガンマ変換加工、ホワイトバランス加工、ブラー加工等の各種の画像加工を用いることができる。このため、入力画像Iに対して様々な摂動を行うことができるため、画像認識装置5に対する多様な認識精度の評価を行うことができる。
【0046】
なお、本実施形態において、画像認識装置5は、セマンティック・セグメンテーションを用いた画像セグメンテーションを行ったが、この構成に特に限定されない。画像認識に用いられるネットワークとしては、他のニューラル・ネットワークを用いてもよい。
【符号の説明】
【0047】
1 評価システム
5 画像認識装置
6 評価装置
11 制御部
12 記憶部
13 画像認識部
15 制御部
16 記憶部
17 入出力部
22 エンコーダ
23 デコーダ
P 画像認識評価プログラム
I 入力画像
Ia 加工入力画像
O 出力画像
V 分散画像
図1
図2
図3
図4
図5