IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 住友電気工業株式会社の特許一覧 ▶ 学校法人中部大学の特許一覧

<>
  • 特開-画像認識装置及び画像認識方法 図1
  • 特開-画像認識装置及び画像認識方法 図2
  • 特開-画像認識装置及び画像認識方法 図3
  • 特開-画像認識装置及び画像認識方法 図4
  • 特開-画像認識装置及び画像認識方法 図5
  • 特開-画像認識装置及び画像認識方法 図6
  • 特開-画像認識装置及び画像認識方法 図7
  • 特開-画像認識装置及び画像認識方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025012529
(43)【公開日】2025-01-24
(54)【発明の名称】画像認識装置及び画像認識方法
(51)【国際特許分類】
   G06V 10/98 20220101AFI20250117BHJP
   G06T 7/00 20170101ALI20250117BHJP
   G06V 10/82 20220101ALI20250117BHJP
   G06V 10/56 20220101ALI20250117BHJP
   G06N 20/00 20190101ALI20250117BHJP
   G06N 3/08 20230101ALI20250117BHJP
【FI】
G06V10/98
G06T7/00 350C
G06V10/82
G06V10/56
G06N20/00
G06N3/08
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023115418
(22)【出願日】2023-07-13
(71)【出願人】
【識別番号】000002130
【氏名又は名称】住友電気工業株式会社
(71)【出願人】
【識別番号】500433225
【氏名又は名称】学校法人中部大学
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【弁理士】
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100136722
【弁理士】
【氏名又は名称】▲高▼木 邦夫
(74)【代理人】
【識別番号】100176658
【弁理士】
【氏名又は名称】和田 謙一郎
(74)【代理人】
【識別番号】100183438
【弁理士】
【氏名又は名称】内藤 泰史
(72)【発明者】
【氏名】松本 悠希
(72)【発明者】
【氏名】平川 満
(72)【発明者】
【氏名】三浦 勝司
(72)【発明者】
【氏名】藤吉 弘亘
(72)【発明者】
【氏名】平川 翼
(72)【発明者】
【氏名】山下 隆義
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA02
5L096HA11
5L096KA04
5L096MA03
(57)【要約】
【課題】アテンションマップを適切に修正することにより、入力画像に対する認識結果の精度を向上させること。
【解決手段】教師無し学習済みのニューラルネットワークに画像を入力する入力部と、前記ニューラルネットワークによって、入力された前記画像の注視領域を表現するアテンションマップが生成された場合において、前記アテンションマップに対して、ユーザの修正操作又は所定のプログラムに応じた修正を行うマップ修正部と、前記ニューラルネットワークによって、修正後の前記アテンションマップ及び前記画像に基づき前記画像の認識結果が生成された場合において、生成された前記認識結果を出力する出力部と、を備える画像認識装置。
【選択図】図1

【特許請求の範囲】
【請求項1】
教師無し学習済みのニューラルネットワークに画像を入力する入力部と、
前記ニューラルネットワークによって、入力された前記画像の注視領域を表現するアテンションマップが生成された場合において、前記アテンションマップに対して、ユーザの修正操作又は所定のプログラムに応じた修正を行うマップ修正部と、
前記ニューラルネットワークによって、修正後の前記アテンションマップ及び前記画像に基づき前記画像の認識結果が生成された場合において、生成された前記認識結果を出力する出力部と、を備える画像認識装置。
【請求項2】
前記ニューラルネットワークは、特徴量抽出部と、アテンション部と、合成部と、認知部と、を有し、
前記特徴量抽出部は、複数の畳み込み層を含むと共に前記画像の情報を前記複数の畳み込み層を伝搬させることで前記画像の特徴量を示す特徴量マップを生成し、
前記アテンション部は、前記特徴量マップに基づいて前記アテンションマップを生成し、
前記合成部は、前記特徴量マップと修正された前記アテンションマップとを合成することにより合成マップを生成し、
前記認知部は、前記合成マップに基づいて前記認識結果を生成する、請求項1記載の画像認識装置。
【請求項3】
前記マップ修正部は、前記特徴量マップに示される各特徴量をグループ化して、含まれる特徴量が所定値よりも少ないグループを特定すると共に該グループの特徴量を修正対象特徴量として特定し、前記アテンションマップにおける前記修正対象特徴量に対応する特徴量を、修正候補として出力し、前記ユーザの修正操作又は前記所定のプログラムによる修正指示を受け付ける、請求項2記載の画像認識装置。
【請求項4】
前記画像の複数の認識対象は、互いに同一色又は類似色である、請求項1~3のいずれか一項記載の画像認識装置。
【請求項5】
画像認識装置が実行する画像認識方法であって、
教師無し学習済みのニューラルネットワークに画像を入力するステップと、
前記ニューラルネットワークによって、入力された前記画像の注視領域を表現するアテンションマップが生成された場合において、前記アテンションマップに対して、ユーザの修正操作又は所定のプログラムに応じた修正を行うステップと、
前記ニューラルネットワークによって、修正後の前記アテンションマップ及び前記画像に基づき前記画像の認識結果が生成された場合において、生成された前記認識結果を出力するステップと、を含む画像認識方法。
【請求項6】
前記修正を行うステップは、
画像の特徴量を示す特徴量マップに示される各特徴量をグループ化して、含まれる特徴量が所定値よりも少ないグループを特定すると共に該グループの特徴量を修正対象特徴量として特定することと、
前記特徴量マップに基づき生成される前記アテンションマップにおける前記修正対象特徴量に対応する特徴量を修正候補として出力することと、
前記修正候補の出力に応じた、前記ユーザの修正操作又は前記所定のプログラムによる修正指示を受け付けることと、を含む、請求項5記載の画像認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像認識装置及び画像認識方法に関する。
【背景技術】
【0002】
特許文献1には、アテンション部と認識部とを備えるネットワークモデルが開示されている。特許文献1のアテンション部は、入力画像上で注目される注目度の分布を示すアテンションマップを出力する。認識部は、アテンションマップと、入力画像から抽出された特徴を示す特徴マップとに基づいて、入力画像に対する認識結果を出力する。アテンションマップが考慮されて入力画像の認識結果が出力されることにより、認識結果の精度を向上させることができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2021/220990号
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、アテンションマップにおける注視領域が適切に設定されていない場合には、認識結果の精度が悪化するおそれがある。例えば教師無し学習によりネットワークモデルが生成されている場合においては、学習データに正解が与えられていないため、アテンションマップを適切に修正することが容易でない。
【0005】
本開示は、アテンションマップを適切に修正することにより、入力画像に対する認識結果の精度を向上させることを目的とする。
【課題を解決するための手段】
【0006】
一実施形態に係る画像認識装置は、教師無し学習済みのニューラルネットワークに画像を入力する入力部と、ニューラルネットワークによって、入力された画像の注視領域を表現するアテンションマップが生成された場合において、アテンションマップに対して、ユーザの修正操作又は所定のプログラムに応じた修正を行うマップ修正部と、ニューラルネットワークによって、修正後のアテンションマップ及び画像に基づき画像の認識結果が生成された場合において、生成された認識結果を出力する出力部と、を備える。
【発明の効果】
【0007】
本開示によれば、アテンションマップを適切に修正することにより、入力画像に対する認識結果の精度を向上させることができる。
【図面の簡単な説明】
【0008】
図1図1は、本実施形態に係る画像認識装置の構成図である。
図2図2は、ニューラルネットワークの構成を示す図である。
図3図3は、アテンション部の構成を示す図である。
図4図4は、処理部が実行する処理のフローチャートである。
図5図5は、モデル訓練処理のフローチャートである。
図6図6は、アテンションマップ修正前の特徴量空間を示す図である。
図7図7は、アテンションマップ修正後の特徴量空間を示す図である。
図8図8は、ハーネスの画像認識を説明する図である。
【発明を実施するための形態】
【0009】
[本開示の実施形態の説明]
最初に、本開示の実施形態の内容を列記して説明する。
【0010】
[1]一実施形態に係る画像認識装置は、教師無し学習済みのニューラルネットワークに画像を入力する入力部と、ニューラルネットワークによって、入力された画像の注視領域を表現するアテンションマップが生成された場合において、アテンションマップに対して、ユーザの修正操作又は所定のプログラムに応じた修正を行うマップ修正部と、ニューラルネットワークによって、修正後のアテンションマップ及び画像に基づき画像の認識結果が生成された場合において、生成された認識結果を出力する出力部と、を備える。
【0011】
上記[1]に記載の画像認識装置では、教師無し学習済みのニューラルネットワークに画像が入力され、入力された画像の注視領域を表現するアテンションマップが、ユーザの修正指示又は所定のプログラムに応じて修正され、修正後のアテンションマップ及び画像に基づき画像の認識結果が生成されて出力される。教師無し学習によりニューラルネットワークが生成されている場合には、学習データに正解が与えられていないため、アテンションマップにおける注視領域が適切に設定されていない場合において、アテンションマップを適切に修正することが難しい場合がある。この点、ユーザの修正指示又は所定のプログラムに応じてアテンションマップが修正されることにより、アテンションマップを適切に修正することができる。そして、このように修正されたアテンションマップを用いて認識結果が出力されることにより、入力画像に対する認識結果の精度を向上させることができる。
【0012】
[2]上記[1]に記載の画像認識装置において、ニューラルネットワークは、特徴量抽出部と、アテンション部と、合成部と、認知部と、を有し、特徴量抽出部は、複数の畳み込み層を含むと共に画像の情報を複数の畳み込み層を伝搬させることで画像の特徴量を示す特徴量マップを生成し、アテンション部は、特徴量マップに基づいてアテンションマップを生成し、合成部は、特徴量マップと修正されたアテンションマップとを合成することにより合成マップを生成し、認知部は、合成マップに基づいて認識結果を生成してもよい。このような構成によれば、アテンションマップを用いた認識結果の生成を適切に行うことができる。
【0013】
[3]上記[2]に記載の画像認識装置において、マップ修正部は、特徴量マップに示される各特徴量をグループ化して、含まれる特徴量が所定値よりも少ないグループを特定すると共に該グループの特徴量を修正対象特徴量として特定し、アテンションマップにおける修正対象特徴量に対応する特徴量を、修正候補として出力し、ユーザの修正操作又は所定のプログラムによる修正指示を受け付けてもよい。含まれる特徴量が少ないグループの特徴量に対応するアテンションマップにおける特徴量(修正候補)については、修正すべき(注視領域として適切でない)特徴量である可能性が高い。そのため、このような特徴量が修正候補として出力されることにより、ユーザに、修正すべき特徴量について修正操作等を促すことができ、アテンションマップを適切に修正することができる。
【0014】
[4]上記[1]~[3]のいずれかに記載の画像認識装置において、画像の複数の認識対象は、互いに同一色又は類似色であってもよい。複数の認識対象が互いに同一色又は類似色である場合においては、高精度に認識結果を出力することが難しい場合がある。このように一般的に高精度に認識することが難しい複数の認識対象であっても、本開示に係る画像認識装置においてはアテンションマップを適切に修正することができるため、認識結果の精度を向上させることができる。
【0015】
[5]一実施形態に係る画像認識方法は、画像認識装置が実行する画像認識方法であって、教師無し学習済みのニューラルネットワークに画像を入力するステップと、ニューラルネットワークによって、入力された画像の注視領域を表現するアテンションマップが生成された場合において、アテンションマップに対して、ユーザの修正操作又は所定のプログラムに応じた修正を行うステップと、ニューラルネットワークによって、修正後のアテンションマップ及び画像に基づき画像の認識結果が生成された場合において、生成された認識結果を出力するステップと、を含む。
【0016】
[6]上記[5]に記載の画像認識方法において、修正を行うステップは、画像の特徴量を示す特徴量マップに示される各特徴量をグループ化して、含まれる特徴量が所定値よりも少ないグループを特定すると共に該グループの特徴量を修正対象特徴量として特定することと、特徴量マップに基づき生成されるアテンションマップにおける修正対象特徴量に対応する特徴量を修正候補として出力することと、修正候補の出力に応じた、ユーザの修正操作又は所定のプログラムによる修正指示を受け付けることと、を含んでいてもよい。
【0017】
[本開示の実施形態の詳細]
本開示の実施形態の具体例を、以下に図面を参照しつつ説明する。本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
【0018】
図1は、本実施形態に係る画像認識装置1の構成図である。図1に示されるように、画像認識装置1は、操作装置2と、表示装置3と、メモリ4と、処理部5と、を備えている。
【0019】
操作装置2は、ユーザの操作を受け付け、受け付けた操作に応じた信号を処理部5に出力する装置である。操作装置2は、例えば、マウス、キーボード、タッチパネル等であってもよい。表示装置3は、映像をユーザに表示する装置である。
【0020】
メモリ4は、書き換え可能な揮発性記憶媒体であるRAM、書き換え不可能な不揮発性記憶媒体であるROM、書き換え可能な不揮発性記憶媒体であるフラッシュメモリを含む。RAM、ROM、フラッシュメモリは、非遷移的実体的記憶媒体である。フラッシュメモリには、学習済みのニューラルネットワーク10のデータがあらかじめ記録されている。
【0021】
処理部5は、ROM又はフラッシュメモリに記憶された不図示のプログラムを実行し、その実行の際にRAMを作業領域として用いることで、後述する種々の処理を実現する。
【0022】
図2は、ニューラルネットワーク10の構成を示す図である。図2に示されるように、ニューラルネットワーク10は、特徴量抽出部11と、アテンション部12と、合成部13と、認知部14と、を含んだ、ディープニューラルネットワークである。
【0023】
ニューラルネットワーク10は、入力画像51が入力されると、アテンションマップ53を生成する。アテンションマップ53は、ニューラルネットワーク10の推論時の注視領域を表現するデータである。つまり、アテンションマップ53は、ニューラルネットワーク10の推論時において、入力画像51のどの領域が重視されているかを説明する視覚的説明用のデータである。
【0024】
ニューラルネットワーク10は、入力画像51及びアテンションマップ53に基づいて入力画像51の分類結果を出力する。入力画像51の分類結果とは、画像の認識対象に相当する複数のクラスにそれぞれ対応する複数の尤度である。認識対象に相当する複数のクラスとは、例えば入力画像が図8に示されるようなハーネス500(ケーブルハーネス)に関する画像である場合において、テープ510が全く巻かれていないハーネス500A(図8(a)参照)、テープ510が巻かれている箇所511とテープ510が巻かれていない箇所512とを有するハーネス500B(図8(b)参照)、及び、テープ510が完全に巻かれているハーネス500C(図8(c)参照)等を含んでいてもよい。この場合の、画像における複数の認識対象は、互いに同一色又は類似色であってもよい。例えば、テープ510及びハーネス500A,500B,500Cは、いずれも黒色であってもよい。ここでは、クラスの数をKとする。
【0025】
特徴量抽出部11は、複数の層を有するニューラルネットワークである。これら複数の層は、複数の畳み込み層を少なくとも含む。更にこれら複数の層は、更に複数の残差ブロックの構成要素となっていてもよいし、複数のプーリング層等を有していてもよい。そして特徴量抽出部11は、入力された入力画像51の情報をこれら複数の層に伝播させることで、特徴量マップ52を生成する。
【0026】
特徴量マップ52は、K個のクラスにそれぞれ対応するK個の解像度h×wのマップである。h、wは、任意の整数である。したがって、特徴量マップ52のチャンネル数はKである。特徴量マップ52の解像度は、入力画像51の解像度と同じであってもよいし、入力画像51の解像度よりも低くてもよい。
【0027】
特徴量抽出部11は、ベースラインモデルのうち入力層から始まり最初の全結合層よりも前の部分によって構成されていてもよい。ベースラインモデルとしては、複数の畳み込み層を有し、ニューラルネットワーク10と同じ種類の複数のクラスの尤度を生成するものが選ばれる。例えば、ベースラインモデルとしては、VGGNetが用いられてもよいし、ResNetが用いられてもよいし、他のCNN(Convolutional Neural Network)が用いられてもよい。
【0028】
アテンション部12は、特徴量抽出部11によって生成された特徴量マップ52からアテンションマップ53を生成する。アテンション部12は、複数の層を有するニューラルネットワークである。図3は、アテンション部12の構成を示す図である。図3に示されるように、上記複数の層は、1つ以上の畳み込み層又は1つ以上の残差ブロックを有する第1部分12aと、第1部分の後段におけるK×1×1畳み込み層12bと、を有する。ここで、L、a、bを任意の自然数とすると、L×a×b畳み込み層は、L個のチャネルの各々でa×bのカーネルを用いた畳み込み層を意味する。
【0029】
そしてアテンション部12は、畳み込み層12bの後段において分岐する2つのK×1×1畳み込み層12cと、1×1×1畳み込み層12dと、を有する。そしてアテンション部12は、畳み込み層12cの後段におけるGAP(Global Average Pooling)層12eを有する。
【0030】
アテンション部12に入力された特徴量マップ52の情報が、第1部分12a、畳み込み層12b、畳み込み層12c、GAP層12eを伝播し、GAP層12eの出力がSoftmax関数に入力されることで、ニューラルネットワーク10と同じ種類の複数のクラスの尤度が分類結果として生成される。分類結果は、認識結果の一種である。
【0031】
また、アテンション部12に入力された特徴量マップ52の情報が、第1部分12a、畳み込み層12b、畳み込み層12dに伝播されることで、アテンションマップ53が生成される。全結合層ではなく畳み込み層12bを介してアテンションマップ53が生成されることで、注視領域の情報が局所化されたままでアテンションマップ53に伝播される。また、1×1×1畳み込み層12eを介することで、すべてのクラスに対応した注視領域の重み付き総和として1チャンネルのアテンションマップ53が生成される。畳み込み層12dのカーネルの各値は、すべて1でもよいし、それ以外でもよい。
【0032】
アテンション部12は、特徴量マップ52の各マップの解像度とアテンションマップ53の解像度とが同じになるように構成されている。アテンションマップ53は、注視領域に該当する画素には比較的高い画素値が与えられ、注視領域に該当しない画素には注視領域と比べて低い画素値が与えられる。アテンションマップ53の各画素値が取り得る値は、2値でもよいし、256段階の値でもよい。ある画素の画素値が高いほど、その画素の位置における注目度が高い。
【0033】
合成部13は、特徴量マップ52とアテンションマップ53との合成を行う。具体的には、特徴量マップ52におけるK個のチャネルの各々における解像度h×wのマップに対し、アテンションマップ53が乗算される。アテンションマップ53と解像度h×wのマップとの乗算は、同じ位置座標の画素同士で行われる。なお、合成は、上記のように乗算であってもよいし、加算であってもよいし、加算と乗算の組み合わせから成る演算であってもよい。この合成によって、合成マップ54が得られる。合成マップ54のチャネル数と解像度は、特徴量マップ52と同じである。
【0034】
認知部14は、合成マップ54に基づいて各クラスの尤度を出力する。認知部14は、複数の層を有するニューラルネットワークである。これら複数の層は、複数の畳み込み層を少なくとも含む。また、これら複数の層は、全結合層及びGAP層のうち一方又は両方を含む。更にこれら複数の層は、更に複数の残差ブロックの構成要素となっていてもよいし、複数のプーリング層を有していてもよい。認知部14は、入力された合成マップ54の情報をこれら複数の層に伝播させることで、各クラスの尤度を分類結果として出力する。分類結果は、認識結果でもある。認知部14は、上述のベースラインモデルのうち、アテンション部12で利用された部分のすぐ後段から出力層までの部分によって構成されていてもよい。
【0035】
なお、ニューラルネットワーク10、特徴量抽出部11、アテンション部12、合成部13、認知部14が行うと上で説明した機能は、実際には、処理部5が当該ニューラルネットワーク10の構造及びパラメータに従った処理を行うことで実現される。特徴量抽出部11、アテンション部12、合成部13は、上記のような機能が実現するよう、教師無し学習によって学習されている。
【0036】
以下、このように構成された教師無し学習済みのニューラルネットワーク10を用いた処理部5の画像分類処理について説明する。
【0037】
図4は、処理部5が実行する処理のフローチャートである。処理部5は、ユーザによる操作装置2に対する実行開始操作等の所定の条件が満たされると、メモリ4に記録された所定のプログラムに規定された図4に示される処理を開始する。この処理において処理部5は、まずメモリ4からニューラルネットワーク10を読み出す(ステップS1)。
【0038】
つづいて、処理部5は、入力画像51を取得して、該入力画像51を教師無し学習済みのニューラルネットワーク10に入力する入力部として機能する(ステップS2)。入力画像51は、あらかじめメモリ4に記録されている複数の画像のうちからユーザの操作装置2に対する操作等によって選択された画像であってもよいし、不図示の通信ネットワークを介して他の装置から受信した画像であってもよい。
【0039】
ニューラルネットワーク10に入力画像51が入力されると、ニューラルネットワーク10は、上述の通り、特徴量抽出部11が入力画像51から特徴量マップ52及び分類結果を生成し、アテンション部12が特徴量マップ52からアテンションマップ53を生成する。
【0040】
処理部5は、このように生成されたアテンションマップ53を取得する(ステップS3)。すなわち、処理部5は、ニューラルネットワーク10によってメモリ4内に生成されたアテンションマップ53をメモリ4内の他の領域にコピー又は移動する。
【0041】
つづいて、処理部5は、取得された(すなわち、コピー先又は移動先の)アテンションマップ53を、ユーザの操作装置2に対する修正操作に基づいて、修正するマップ修正部として機能する(ステップS4)。これにより、ユーザの知見によってアテンションマップ53が修正される。
【0042】
具体的には、処理部5は、修正前のアテンションマップ53及びポインタを表示装置3に表示させる。ポインタは、表示装置3に表示されたアテンションマップ53の表示範囲内を操作装置2に対するユーザの操作に応じて移動する画像である。ユーザは、操作装置2に対して所定の修正操作(例えば、消去操作、追加操作等)を行うことで、表示されたアテンションマップ53中のポインタと重なる位置範囲の値を修正する。この際、処理部5は、入力画像51をアテンションマップ53に透過的に位置を合わせて重ねて、表示装置3に表示させた状態で、上記修正操作に応じた修正をアテンションマップ53に反映させてもよい。この際、入力画像51とアテンションマップ53の解像度が異なる場合は、処理部5は、入力画像51の解像度をアテンションマップ53と一致するよう下げた上で、アテンションマップ53に透過的に重ねる。
【0043】
このように、入力画像51がアテンションマップ53に重ねられて表示装置3に表示されることで、ユーザは、入力画像51のどの部分を注視領域とすべきかを判断できる場合は、その知見を効率よく利用して、アテンションマップ53中の注視領域を容易に指定できる。このようなステップS4の処理により、ステップS3で取得されたアテンションマップ53がメモリ4中で修正される。
【0044】
つづいて、処理部5はステップ、直前のステップS4で修正されたアテンションマップ53を、合成部13に入力する(ステップS5)。すると、合成部13は、特徴量マップ52とアテンションマップ53を上述の通り合成して合成マップ54を生成して認知部14の最初の層に入力する。合成マップ54が入力された認知部14は、上述の通り合成マップ54に基づいて分類結果を生成する。
【0045】
処理部5は、認知部14が生成した分類結果を取得して出力する出力部として機能する(ステップS6)。出力先は、不図示の通信ネットワークを介した他の装置であってもよいし、メモリ4であってもよいし、表示装置3であってもよい。
【0046】
このように、ユーザの知見を利用してアテンションマップ53が修正されることで、認知部14がユーザの意図した領域により高い重み付けがされる。その結果、ユーザの意図に沿った画像認識をすることができる。つまり、ユーザの知見に基づいて手動で修正されたアテンションマップを用いることで認識結果の調整が可能となる。
【0047】
図5は、アテンションマップ修正時に実行されるモデル訓練処理のフローチャートである。図5を参照して、アテンションマップ修正時のモデル(ニューラルネットワーク10)訓練処理について説明する。
【0048】
モデル訓練処理では、最初に、ニューラルネットワーク10に画像が入力される(ステップS101)。ここでの画像は、上述した入力画像51であってもよいし、別の訓練用画像であってもよい。これにより、特徴量抽出部11によって画像の特徴量を示す特徴量マップが生成される。
【0049】
マップ修正部として機能する処理部5は、特徴量マップ52に示された特徴量を取得し(ステップS102)、特徴量マップ52に示された各特徴量をグループ化する(ステップS103)。なお、特徴量マップ52は、K個のチャネルを二次元に圧縮した特徴量マップであってもよいし、圧縮せずにK個のチャネルの特徴量マップであってもよい。図6は、アテンションマップ修正前の特徴量マップ52における特徴量空間を示す図である。処理部5は、図6に示されるように、特徴量マップ52に示される各特徴量を、互いの類似度に基づきグループ化する。図6に示される例では、所属する特徴量が多いグループとして3グループ、所属する特徴量が少ないグループとして1グループが特定されている。この場合、処理部5は、含まれる(所属する)特徴量が所定値よりも少ないグループを「所属する特徴量が少ないグループ」として特定してもよい。処理部5は、所属する特徴量が少ないグループの各特徴量を修正対象特徴量として特定し、修正対象特徴量に対応するアテンションマップにおける特徴量を修正候補(修正対象)に設定する(ステップS104)。処理部5は、修正候補(修正対象)を出力して、ユーザの修正操作による修正指示を受け付ける。処理部5からの修正候補(修正対象)の出力に基づき、ユーザは、例えば、操作装置2に対して修正候補(修正対象)の消去操作を行う。
【0050】
つづいて、処理部5は、ユーザから、アテンションマップの修正操作(修正指示)があったか否かを判定する(ステップS105)。修正指示があった場合には、処理部5は、ユーザからの修正指示に応じてアテンションマップを再生成する(ステップS106)。ステップS105において修正指示が無かった場合、又は、ステップS106においてアテンションマップの再生成が完了した場合には、修正処理が全て完了しているか否かが判定され(ステップS107)、完了している場合に、訓練用データを用いた再訓練が行われる(ステップS108)。ここでの訓練用データとは、再生成後のアテンションマップを含んでいる。そして、再訓練が完了すると(ステップS109)、モデル訓練処理が完了する。
【0051】
図7は、アテンションマップ修正後の特徴量マップ52における特徴量空間を示す図である。図7に示されるように、修正後の特徴量マップ52においては、修正前において所属する特徴量が少ないグループとされていたグループが無くなっており、所属する特徴量が多いグループのみとなっている。修正前において所属する特徴量が少ないグループに含まれていた特徴量は、修正後において、所属する特徴量が多いグループに含まれるように修正されている。
【0052】
次に、本実施形態に係る画像認識装置1の作用効果について説明する。
【0053】
画像認識装置1は、教師無し学習済みのニューラルネットワーク10に画像を入力する入力部、ニューラルネットワーク10によって、入力された画像の注視領域を表現するアテンションマップ53が生成された場合において、アテンションマップ53に対して、ユーザの修正操作に応じた修正を行うマップ修正部、及び、ニューラルネットワーク10によって、修正後のアテンションマップ53及び画像に基づき画像の認識結果が生成された場合において、生成された認識結果を出力する出力部、として機能する処理部5を備える。
【0054】
画像認識装置1では、教師無し学習済みのニューラルネットワーク10に画像が入力され、入力された画像の注視領域を表現するアテンションマップ53が、ユーザの修正指示に応じて修正され、修正後のアテンションマップ53及び画像に基づき画像の認識結果が生成されて出力される。教師無し学習によりニューラルネットワーク10が生成されている場合には、学習データに正解が与えられていないため、アテンションマップ53における注視領域が適切に設定されていない場合において、アテンションマップ53を適切に修正することが難しい場合がある。この点、ユーザの修正指示に応じてアテンションマップ53が修正されることにより、アテンションマップ53を適切に修正することができる。そして、このように修正されたアテンションマップ53を用いて認識結果が出力されることにより、入力画像に対する認識結果の精度を向上させることができる。
【0055】
上記画像認識装置1において、ニューラルネットワーク10は、特徴量抽出部11と、アテンション部12と、合成部13と、認知部14と、を有し、特徴量抽出部11は、複数の畳み込み層を含むと共に画像の情報を複数の畳み込み層を伝搬させることで画像の特徴量を示す特徴量マップ52を生成し、アテンション部12は、特徴量マップ52に基づいてアテンションマップ53を生成し、合成部13は、特徴量マップ52と修正されたアテンションマップ53とを合成することにより合成マップ54を生成し、認知部14は、合成マップ54に基づいて認識結果を生成してもよい。このような構成によれば、アテンションマップ53を用いた認識結果の生成を適切に行うことができる。
【0056】
上記画像認識装置1において、マップ修正部として機能する処理部5は、特徴量マップ52に示される各特徴量をグループ化して、含まれる特徴量が所定値よりも少ないグループを特定すると共に該グループの特徴量を修正対象特徴量として特定し、アテンションマップ53における修正対象特徴量に対応する特徴量を、修正候補として出力し、ユーザの修正操作による修正指示を受け付けてもよい。含まれる特徴量が少ないグループの特徴量に対応するアテンションマップ53における特徴量(修正候補)については、修正すべき(注視領域として適切でない)特徴量である可能性が高い。そのため、このような特徴量が修正候補として出力されることにより、ユーザに、修正すべき特徴量について修正操作等を促すことができ、アテンションマップ53を適切に修正することができる。
【0057】
上記画像認識装置1において、画像の複数の認識対象は、互いに同一色又は類似色であってもよい。本実施形態においては、複数の認識対象が、例えば、テープ510が全く巻かれていないハーネス500A(図8(a)参照)、テープ510が巻かれている箇所511とテープ510が巻かれていない箇所512とを有するハーネス500B(図8(b)参照)、及び、テープ510が完全に巻かれているハーネス500C(図8(c)参照)等を含んでいる。そして、これらの複数の認識対象は、互いに同一色(例えば、テープ510及びハーネス500A,500B,500Cは、いずれも黒色)である。複数の認識対象が互いに同一色又は類似色である場合においては、高精度に認識結果を出力することが難しい場合がある。このように一般的に高精度に認識することが難しい複数の認識対象であっても、本実施形態に係る画像認識装置1においてはアテンションマップ53を適切に修正することができるため、認識結果の精度を向上させることができる。
【0058】
以上、本開示に係る種々の実施形態及び変形例を説明したが、本開示は、例示した実施形態に限定されない。
【0059】
例えば、マップ修正部が、ユーザの修正操作に応じてアテンションマップを修正するとして説明したがこれに限定されない。マップ修正部は、例えば、所定のプログラムに応じてアテンションマップを修正するものであってもよい。
【0060】
また、複数の認識対象が、互いに同一色又は類似色であるとして説明したがこれに限定されない。また、複数の認識対象が、ハーネスである例を説明したがこれに限定されず、認識対象はハーネス以外のものであってもよい。
【0061】
以上説明した種々の実施形態及び変形例は、本開示の趣旨を逸脱しない範囲で適宜組み合わされてもよい。
【符号の説明】
【0062】
1…画像認識装置
2…操作装置
3…表示装置
4…メモリ
5…処理部(入力部,マップ修正部,出力部)
10…ニューラルネットワーク
11…特徴量抽出部
12…アテンション部
12a…第1部分
12b,12c,12d…畳み込み層
12e…GAP層
13…合成部
14…認知部
51…入力画像
52…特徴量マップ
53…アテンションマップ
54…合成マップ
500,500A,500B,500C…ハーネス
510…テープ
511…テープが巻かれている箇所
512…テープが巻かれていない箇所。
図1
図2
図3
図4
図5
図6
図7
図8