IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7459924画像処理装置、画像認識システム、画像処理方法および画像処理プログラム
<>
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図1
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図2
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図3
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図4
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図5
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図6
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図7
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図8
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図9A
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図9B
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図9C
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図10
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図11
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図12
  • 特許-画像処理装置、画像認識システム、画像処理方法および画像処理プログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-25
(45)【発行日】2024-04-02
(54)【発明の名称】画像処理装置、画像認識システム、画像処理方法および画像処理プログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240326BHJP
【FI】
G06T7/00 350B
【請求項の数】 10
(21)【出願番号】P 2022505663
(86)(22)【出願日】2020-03-12
(86)【国際出願番号】 JP2020010908
(87)【国際公開番号】W WO2021181627
(87)【国際公開日】2021-09-16
【審査請求日】2022-08-23
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】宮本 貴也
【審査官】田中 幸雄
(56)【参考文献】
【文献】特表2019-528113(JP,A)
【文献】国際公開第2019/017403(WO,A1)
【文献】NIE, Xuan et al.,Attention Mask R-CNN for Ship Detection and Segmentation From Remote Sensing Images,IEEE Access,IEEE,2020年01月07日,Pages9325-9334,DOI: 10.1109/ACCESS.2020.2964540
【文献】HU, Jie et al.,Squeeze-and-Excitation Networks,Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,IEEE,2018年06月18日,Pages7132-7141,DOI: 10.1109/CVPR.2018.00745
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
画像の特徴を示す特徴量マップを取得する中間取得部と、
取得した前記特徴量マップの各々について画素値に対する重み付け演算を行い、重み付けられた前記画素値の統計値を前記特徴量マップの各々について算出する前処理部と、
前記特徴量マップの各々に対応する前記画素値の前記統計値から、前記特徴量マップの各々に対する重要度を示す注意重みを予測する注意重み予測部と、
前記注意重みを用いて、取得した前記特徴量マップの各々に対して重み付けを行う注意重み付け部と、
を備える画像処理装置。
【請求項2】
前記前処理部は、取得した前記特徴量マップの各々について、前記画像の注目領域に対応する画素領域を抽出するフィルタを用いて重み付け演算を行う
請求項1に記載の画像処理装置。
【請求項3】
前記前処理部は、取得した前記特徴量マップの各々について、前記画像の注目領域の注目度に応じた重みで前記注目領域に対応する画素領域に重み付けをするフィルタを用いて重み付け演算を行う
請求項1または2に記載の画像処理装置。
【請求項4】
前記フィルタが有する複数の画素の各々は、機械学習により最適化された学習済のフィルタ重みを含む
請求項2または3に記載の画像処理装置。
【請求項5】
前記前処理部は、前記画像に応じて前記注目領域に対応する画素領域を予測する学習済の注目領域予測モデルを用いて、前記フィルタを生成するフィルタ生成部をさらに含む
請求項2または3に記載の画像処理装置。
【請求項6】
前記前処理部は、取得した前記特徴量マップの種別に応じた、複数の異なるフィルタを有し、取得した前記特徴量マップの各々に対して、対応するフィルタを用いて重み付け演算を行う
請求項2から5のいずれか一項に記載の画像処理装置。
【請求項7】
画像の特徴を示す特徴量マップを取得する中間取得部と、取得した前記特徴量マップの各々について画素値に対する重み付け演算を行い、重み付けられた前記画素値の統計値を前記特徴量マップの各々について算出する前処理部と、前記特徴量マップの各々に対応する前記画素値の前記統計値から、前記特徴量マップの各々に対する重要度を示す注意重みを予測する注意重み予測部と、前記注意重みを用いて、前記中間取得部が取得した前記特徴量マップの各々に対して重み付けを行う注意重み付け部と、を有する画像処理装置と、
学習済の認識モデルにより、重み付けられた前記特徴量マップに基づく情報を用いて、前記画像に含まれる被写体を認識する認識装置と、
を備える画像認識システム。
【請求項8】
機械学習により、前記注意重みを予測する注意重み予測モデルのパラメータと前記認識モデルのパラメータとを最適化する学習装置をさらに備える
請求項7に記載の画像認識システム。
【請求項9】
コンピュータが、
画像の特徴を示す特徴量マップを取得する段階と、
取得した前記特徴量マップの各々について画素値に対する重み付け演算を行い、重み付けられた前記画素値の統計値を前記特徴量マップの各々について算出する段階と、
前記特徴量マップの各々に対応する前記画素値の前記統計値から、前記特徴量マップの各々に対する重要度を示す注意重みを予測する段階と、
前記注意重みを用いて、取得した前記特徴量マップの各々に対して重み付けを行う段階と、
実行する画像処理方法。
【請求項10】
画像の特徴を示す特徴量マップを取得する中間取得機能と、
取得した前記特徴量マップの各々について画素値に対する重み付け演算を行い、重み付けられた前記画素値の統計値を前記特徴量マップの各々について算出する前処理機能と、
前記特徴量マップの各々に対応する前記画素値の前記統計値から、前記特徴量マップの各々に対する重要度を示す注意重みを予測する注意重み予測機能と、
前記注意重みを用いて、取得した前記特徴量マップの各々に対して重み付けを行う注意重み付け機能と、
をコンピュータに実現させるための画像処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像処理装置、画像認識システム、画像処理方法および非一時的なコンピュータ可読媒体に関する。
【背景技術】
【0002】
畳み込みニューラルネットワーク(CNN)を用いて、対象画像の特徴を抽出した特徴量マップを生成し、特徴量マップから被写体を認識する画像認識システムが知られている。特許文献1および2には、中間特徴量マップから不要領域を削除した特徴量マップを用いて被写体を認識する方法が開示されている。また非特許文献1には、注意機構を用いて、各中間特徴量マップの重要度に応じた注意重みを予測し、各中間特徴量マップに対して注意重みで重み付けをすることが知られている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2020-008896号公報
【文献】特開2019-096006号公報
【非特許文献】
【0004】
【文献】J. Hu, L. Shen, S. Albanie, G. Sun, E. Wu, "Squeeze-and-Excitation Networks", Computer Vision and Pattern Recognition, 2017年9月5日提出
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示の目的は、関連する技術を改善することにある。
【課題を解決するための手段】
【0006】
本開示の一態様における画像処理装置は、画像の特徴を示す特徴量マップを取得する中間取得部と、取得した前記特徴量マップの各々について画素値に対する重み付け演算を行い、重み付けられた前記画素値の統計値を前記特徴量マップの各々について算出する前処理部と、前記特徴量マップの各々に対応する前記画素値の前記統計値から、前記特徴量マップの各々に対する重要度を示す注意重みを予測する注意重み予測部と、前記注意重みを用いて、取得した前記特徴量マップの各々に対して重み付けを行う注意重み付け部と、を備える。
【0007】
本開示の一態様における画像認識システムは、画像の特徴を示す特徴量マップを取得する中間取得部と、取得した前記特徴量マップの各々について画素値に対する重み付け演算を行い、重み付けられた前記画素値の統計値を前記特徴量マップの各々について算出する前処理部と、前記特徴量マップの各々に対応する前記画素値の前記統計値から、前記特徴量マップの各々に対する重要度を示す注意重みを予測する注意重み予測部と、前記注意重みを用いて、前記中間取得部が取得した前記特徴量マップの各々に対して重み付けを行う注意重み付け部と、を有する画像処理装置と、学習済の認識モデルにより、重み付けられた前記特徴量マップに基づく情報を用いて、前記画像に含まれる被写体を認識する認識装置と、を備える。
【0008】
本開示の一態様における画像処理方法は、画像の特徴を示す特徴量マップを取得する段階と、取得した前記特徴量マップの各々について画素値に対する重み付け演算を行い、重み付けられた前記画素値の統計値を前記特徴量マップの各々について算出する段階と、前記特徴量マップの各々に対応する前記画素値の前記統計値から、前記特徴量マップの各々に対する重要度を示す注意重みを予測する段階と、前記注意重みを用いて、取得した前記特徴量マップの各々に対して重み付けを行う段階と、を備える。
【0009】
本開示の一態様における非一時的なコンピュータ可読媒体は、画像の特徴を示す特徴量マップを取得する中間取得機能と、取得した前記特徴量マップの各々について画素値に対する重み付け演算を行い、重み付けられた前記画素値の統計値を前記特徴量マップの各々について算出する前処理機能と、前記特徴量マップの各々に対応する前記画素値の前記統計値から、前記特徴量マップの各々に対する重要度を示す注意重みを予測する注意重み予測機能と、前記注意重みを用いて、取得した前記特徴量マップの各々に対して重み付けを行う注意重み付け機能と、をコンピュータに実現させるための画像処理プログラムが格納されている。
【図面の簡単な説明】
【0010】
図1】実施形態1にかかる画像処理装置の構成を示すブロック図である。
図2】実施形態2にかかる画像処理装置が適用されることができる画像認識システムの一例を示す概略構成図である。
図3】実施形態2にかかる特徴変換部の構成の一例を示す図である。
図4】実施形態2にかかる注意機構部の処理を説明するための図である。
図5】実施形態2にかかる注意機構部の構成を示すブロック図である。
図6】実施形態2にかかる画像認識システムの処理を示すフローチャートである。
図7】実施形態2にかかる注意機構部の注意機構処理を示すフローチャートである。
図8】実施形態2にかかる学習装置の学習処理を示すフローチャートである。
図9A】実施形態3にかかる抽出フィルタFの一例を示す図である。
図9B】実施形態3にかかる抽出フィルタFの一例を示す図である。
図9C】実施形態3にかかる抽出フィルタFの一例を示す図である。
図10】実施形態4にかかる抽出フィルタの一例を示す図である。
図11】実施形態5にかかる注意機構部の構成を示すブロック図である。
図12】実施形態5にかかる注意機構部の注意機構処理を示すフローチャートである。
図13】実施形態1~5にかかるコンピュータの概略構成図である。
【発明を実施するための形態】
【0011】
(実施形態1)
以下、図面を参照して本開示の実施形態1について説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
【0012】
図1は、実施形態1にかかる画像処理装置10の構成を示すブロック図である。画像処理装置10は、中間取得部100と、前処理部102と、注意重み予測部104と、注意重み付け部106とを備える。
【0013】
中間取得部100は、画像の特徴を示す特徴量マップを取得する。
前処理部102は、取得した特徴量マップの各々について画素値に対する重み付け演算を行い、重み付けられた画素値の統計値を特徴量マップの各々について算出する。
注意重み予測部104は、特徴量マップの各々に対応する画素値の統計値から、特徴量マップの各々に対する重要度を示す注意重みを予測する。
注意重み付け部106は、注意重みを用いて、中間取得部が取得した特徴量マップの各々に対して重み付けを行う。
【0014】
上述の特許文献1に記載の方法では、不要領域を削除した特徴量マップを生成するためにクラス毎の活性化マップを生成するため、計算コストが高いという問題がある。
上述の特許文献2に記載の方法では、注目領域に対する詳細な特徴量を抽出するため、注目領域以外の領域の影響を過度に排除してしまい、認識精度が不十分であるという問題がある。
また上述の非特許文献1に記載の方法では、注意重みを予測する場合に、認識の際に考慮されるべき領域の特徴と背景等の不要領域を含む特徴とを同等に扱うため、認識精度が不十分であるという問題がある。
【0015】
しかし実施形態1の構成によれば、画像処理装置10は、注意重みを予測する前に、特徴量マップの各々について画素値の重み付け演算を行う。これにより注意重み予測処理の計算コストの増大を防ぎつつ、精度の高い特徴量マップを生成することができる。そしてこれにより、後続の認識処理の計算コストの増大を防ぎつつ、認識精度を向上させることができる。
【0016】
(実施形態2)
次に図2~9を用いて、本開示の実施形態2について説明する。図2は、実施形態2にかかる画像処理装置20が適用されることができる画像認識システム1の一例を示す概略構成図である。また図3は、実施形態2にかかる特徴変換部24の構成の一例を示す図である。
【0017】
画像認識システム1は、入力画像Iに含まれる被写体を認識するコンピュータ等である。一例として被写体は、人物、車両または動物等である。本実施形態2で被写体は、人物の顔である。図2に示すように、画像認識システム1は、画像処理装置20と、認識装置5と、学習装置6とを備える。
【0018】
画像処理装置20は、入力画像Iから特徴量ベクトルVを生成し、特徴量ベクトルVを認識装置5に出力するコンピュータ等である。特徴量ベクトルVは、入力画像Iの領域ごとの特徴をベクトルで表現したものである。画像処理装置20は、画像取得部22と、正規化部23と、特徴変換部24とを有する。
【0019】
画像取得部22は、入力画像Iを取得する。画像取得部22は、取得した入力画像Iを正規化部23に出力する。
正規化部23は、入力画像Iに含まれる被写体の位置に基づいて被写体を正規化した正規化画像を生成する。正規化画像は、被写体以外の周辺領域を含んでもよい。正規化部23は、正規化画像を特徴変換部24の畳み込み演算部25に出力する。
【0020】
特徴変換部24は、正規化画像から入力画像Iの特徴を抽出した特徴量マップMを生成し、特徴量マップMに基づいて特徴量ベクトルVを生成する。ここで各特徴量マップMは、入力画像Iの領域ごとの、後述する畳み込み演算処理および注意機構処理を含む特徴変換処理において用いられるカーネル(フィルタ)に対する反応の強さ(すなわち、特徴量)を表す行列である。すなわち各特徴量マップMは、入力画像Iの特徴を示す。特徴変換部24は、生成した特徴量ベクトルVを認識装置5に出力する。
【0021】
ここで特徴変換部24は、深層学習等の機械学習により学習された畳み込みニューラルネットワーク等のニューラルネットワークに含まれる畳み込み層または全結合層等の機能を有する。特徴変換部24は、畳み込み演算部25と、注意機構部26とを有する。
【0022】
畳み込み演算部25は、学習済のパラメータを用いて、入力画像Iに対して畳み込み演算を行うことにより入力画像Iの特徴を抽出し、1または複数の特徴量マップMを生成する。なお畳み込み演算は、プーリング演算を含んでよい。畳み込み演算部25は、生成した特徴量マップMを注意機構部26に出力する。
【0023】
注意機構部26は、注意機構アルゴリズムを用いて、畳み込み演算部25から出力された特徴量マップMの各々に対して、対応する注意重みで重み付けられた特徴量マップMを生成する。ここで注意機構アルゴリズムは、複数の特徴量マップMの各々に対して注意重みを算出し、特徴量マップMの各々に対して、対応する注意重みで重み付けするアルゴリズムである。注意重みは、畳み込み演算部25から出力された特徴量マップMの各々に対する重要度を示す重みである。本注意重みは、特徴量マップMの重要度に応じて特徴量マップMを取捨選択し、または重み付けをする巨視的な重みであるという点で、畳み込み演算で用いられるカーネルの各画素の重みと相違する。注意機構部26は、重み付けられた特徴量マップMを後続の要素に出力する。
【0024】
なお特徴変換部24は、図3に示すように、畳み込み演算部25および注意機構部26の組が複数個直列に接続される構成を有する。したがって、末端の注意機構部26は、重み付けられた特徴量マップMを特徴量ベクトルVに変換し、特徴量ベクトルVを認識装置5に出力する。末端以外の注意機構部26は、重み付けられた特徴量マップMを後続の畳み込み演算部25に出力する。なお畳み込み演算部25と注意機構部26とは、規則的に繰り返し接続されてもよく、畳み込み演算部25→注意機構部26→畳み込み演算部25→畳み込み演算部25→…のように不規則に接続されてもよい。しかしこれに限らず、特徴変換部24は、1組の畳み込み演算部25および注意機構部26のみを有してもよい。
【0025】
認識装置5は、学習済の認識モデルにより、重み付けられた特徴量マップに基づく情報を用いて、画像に含まれる被写体を認識するコンピュータ等である。認識装置5は、入力画像Iに含まれる被写体を検出する処理、識別する処理、追跡する処理、分類する処理、およびその他の任意の認識処理のうちの1または複数を行い、出力値Oを出力する。認識装置5も、深層学習等の機械学習により学習された畳み込みニューラルネットワーク等のニューラルネットワークに含まれる全結合層等の機能を有する。
【0026】
学習装置6は、画像処理装置20の特徴変換部24の畳み込み演算部25および注意機構部26と、認識装置5とに接続され、これらの要素または装置の処理に用いられる各種パラメータを学習により更新し、最適化するコンピュータ等である。学習装置6は、学習データを特徴変換部24の最初の畳み込み演算部25に入力し、認識装置5から出力された出力値Oと正解ラベルとの差に基づいて、各種パラメータを更新する学習処理を行う。そして学習装置6は、最適化した各種パラメータを畳み込み演算部25、注意機構部26および認識装置5に出力する。なお本実施形態2では学習装置6は、学習データを記憶する学習データベース(不図示)を備える。しかしこれに限らず、学習データベースは、学習装置6と通信可能に接続された他の装置(不図示)等に含まれていてもよい。
【0027】
なお画像処理装置20、認識装置5および学習装置6は、複数のコンピュータ等で構成されてもよく、単一のコンピュータ等で構成されてもよい。複数のコンピュータ等で構成される場合は、各装置が、インターネット、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)等の各種ネットワークを通じて通信可能に接続されてよい。
【0028】
次に図4は、実施形態2にかかる注意機構部26の処理の概要を説明するための図である。
まず注意機構部26は、畳み込み演算部25から複数の特徴量マップM(M0)を取得する。各特徴量マップM0は、H×Wの行列であり、複数の特徴量マップM0は、C×H×Wの3階テンソルで表される(C、HおよびWは自然数)。ここでHは各特徴量マップMの縦方向の画素数を示し、Wは各特徴量マップMの横方向の画素数を示す。またCは、チャンネル数を示す。
【0029】
次に注意機構部26は、複数の特徴量マップM0から抽出フィルタFを用いて複数の特徴量マップM1を生成する。複数の特徴量マップM1は、C×H×Wの3階テンソルで表されてよい。なお抽出フィルタFは、特徴量マップM0における抽出対象領域を抽出するフィルタである。抽出対象領域は、入力画像Iまたは正規化画像に含まれる注目領域に対応する画素領域である。ここで注目領域は、正規化画像に含まれる被写体または被写体の一部の領域であってよい。また注目領域は、正規化画像に含まれる被写体の一部の領域であってもよい。たとえば被写体が人物の顔である場合、注目領域は、目、鼻または口等の部分領域であってよい。本実施形態2で抽出フィルタFは、抽出対象領域以外の画素領域を除去するフィルタであってよい。一例として抽出フィルタFは、正規化画像に含まれる背景等の被写体以外の領域に対応する画素領域を除去するフィルタであってよい。このとき抽出フィルタFは、1チャンネルの特徴量マップM0と等しいスケールを有してよい。すなわち抽出フィルタFは、H×Wの行列であってよい。
【0030】
そして注意機構部26は、複数の特徴量マップM1の各々に対応する値を成分とする特徴量ベクトルV1を生成する。ここで特徴量ベクトルV1の次元数はCである。
【0031】
注意機構部26は、全結合層FCを用いて特徴量ベクトルV1の各成分に対応する注意重みを算出し、注意重みを成分とする特徴量ベクトルV2を生成する。ここで特徴量ベクトルV2の次元数はCである。
【0032】
そして注意機構部26は、複数の特徴量マップM0の各々に対して、対応する注意重みを用いて重み付けし、複数の特徴量マップM2を生成する。複数の特徴量マップM2は、C×H×Wの3階テンソルで表されてよい。
【0033】
このような処理を行う注意機構部26の構成について、図5を用いて説明する。図5は、実施形態2にかかる注意機構部26の構成を示すブロック図である。注意機構部26は、中間取得部200と、前処理部202と、注意重み予測部204と、注意重み付け部206と、中間出力部208とを有する。
【0034】
中間取得部200は、畳み込み演算部25から出力される複数の特徴量マップM0を取得する。中間取得部200は、取得した複数の特徴量マップM0を前処理部202に出力する。
【0035】
前処理部202は、取得した複数の特徴量マップM0の各々について画素値に対する重み付け演算を行い、複数の特徴量マップM1を生成する。本実施形態2で前処理部202は、抽出フィルタFを用いて上記重み付け演算を行う。そして前処理部202は、重み付けられた画素値の統計値を複数の特徴量マップM1の各々について算出し、特徴量ベクトルV1を生成する。ここで統計値は、平均値、中央値または最頻値等であってよい。そして前処理部202は、特徴量ベクトルV1を注意重み予測部204に出力する。
【0036】
注意重み予測部204は、複数の特徴量マップM1の各々に対応する画素値の統計値から、複数の特徴量マップM1の各々に対する重要度を示す注意重みを予測し、特徴量ベクトルV2を生成する。ここで本実施形態2では、複数の特徴量マップM1の各々に対応する画素値の統計値は、複数の特徴量マップM0の各々に対応する画素値の統計値でもある。また複数の特徴量マップM1の各々に対する重要度を示す注意重みは、複数の特徴量マップM0の各々に対する重要度も示す。注意重み予測部204は、注意重みを予測する注意重み予測モデルを用いる。注意重み予測モデルは、注意重み予測パラメータを含む全結合層FCを有する。注意重み予測パラメータは、学習装置6が最適化し、学習装置6から出力されるパラメータである。注意重み予測部204は、特徴量ベクトルV2を注意重み付け部206に出力する。
【0037】
注意重み付け部206は、特徴量ベクトルV2に含まれる注意重みを用いて、中間取得部200が取得した複数の特徴量マップM0の各々に対して重み付けを行う。そして注意重み付け部206は、重み付けられた複数の特徴量マップM2を生成し、複数の特徴量マップM2を中間出力部208に出力する。
【0038】
中間出力部208は、複数の特徴量マップM2を後続の要素に出力する。
【0039】
図6は、実施形態2にかかる画像認識システム1の処理を示すフローチャートである。
まずS10において、画像処理装置20の画像取得部22は、入力画像Iを取得する。画像取得部22は、取得した入力画像Iを正規化部23に出力する。
【0040】
次にS11において、正規化部23は、入力画像Iに含まれる被写体の位置を検出し、検出した位置に基づいて被写体を正規化した正規化画像を生成する。本実施形態2で正規化部23は、入力画像I中の被写体である人物の顔の位置を検出し、検出された顔の縦および横の長さに対応する画素数を算出する。そして正規化部23は、画像の縦および横の画素数と顔の縦および横の画素数とに基づいて、画像中の顔を正規化する。これに代えて正規化部23は、被写体の代表位置を検出し、被写体の代表位置を基準に所定の範囲だけ切り出した画像を正規化画像としてもよい。正規化部23は、正規化画像を特徴変換部24の最初の畳み込み演算部25に出力する。
【0041】
次にS12において、畳み込み演算部25は学習装置6から畳み込み演算のパラメータを取得し、正規化画像に対して当該パラメータを用いて畳み込み演算を行う。これにより畳み込み演算部25は、複数の特徴量マップM0を生成する。畳み込み演算部25は、複数の特徴量マップM0を注意機構部26に出力する。
【0042】
次にS13において、注意機構部26は、注意機構処理を行い、複数の特徴量マップM2を生成する。注意機構処理の詳細については、後述する。
【0043】
次にS14において、注意機構部26は、S12に示す畳み込み演算およびS13に示す注意機構処理を終了するか否かを判定する。注意機構部26は、終了する場合(S14でYes)、複数の特徴量マップM2を認識装置5に出力し、処理をS15に進める。注意機構部26は、終了しない場合(S14でNo)、複数の特徴量マップM2を後続の畳み込み演算部25に出力し、処理をS12に戻す。
なお、二回目以降のS12においては、畳み込み演算部25は、正規化画像に代えて、注意機構部26から出力された、複数の特徴量マップM2に対して畳み込み演算を行う。
【0044】
S15において、認識装置5は、複数の特徴量マップM2に基づく情報を用いて、所定の認識処理を行う。そして認識装置5は、処理を終了する。
【0045】
図7は、実施形態2にかかる注意機構部26の注意機構処理を示すフローチャートである。
まずS20において、注意機構部26の中間取得部200は、畳み込み演算部25から出力される複数の特徴量マップM0を取得する。中間取得部200は、取得した複数の特徴量マップM0を前処理部202および注意重み付け部206に出力する。
【0046】
次にS21において、中間取得部200は、抽出フィルタFを取得し、前処理部202に出力する。具体的には、中間取得部200は、抽出フィルタFに含まれる画素の画素値であるフィルタ重みを抽出フィルタFに含まれるすべての画素について取得し、前処理部202に出力する。また中間取得部200は、学習装置6から注意重み予測モデルの注意重み予測パラメータを取得し、注意重み予測パラメータを注意重み予測部204に出力する。
【0047】
次にS22において、前処理部202は、複数の特徴量マップM0の各々に対して抽出フィルタFを適用させ、複数の特徴量マップM0の各々に含まれる画素の画素値に対して重み付け演算をする。すなわち前処理部202は、複数の特徴量マップM0の各々に含まれる各画素位置の画素値と、抽出フィルタFに含まれ、当該画素位置に対応する画素位置の画素値とを乗算する。これにより前処理部202は、複数の特徴量マップM1を生成する。
【0048】
次にS23において、前処理部202は、複数の特徴量マップM1の各々について、その特徴量マップM1に含まれる全ての画素値についての統計値を算出する。前処理部202は、特徴量マップM1の各々に対応する統計値を成分とする特徴量ベクトルV1を生成する。そして前処理部202は、特徴量ベクトルV1を注意重み予測部204に出力する。
【0049】
次にS24において、注意重み予測部204は、注意重み予測パラメータを含む注意重み予測モデルを用いて、特徴量ベクトルV1から、特徴量マップM1ごとに注意重みを予測する。注意重み予測部204は、各注意重みを成分とする特徴量ベクトルV2を生成し、特徴量ベクトルV2を注意重み付け部206に出力する。
【0050】
次にS25において、注意重み付け部206は、中間取得部200から出力された特徴量マップM0の各々を、特徴量ベクトルV2の対応する成分(注意重み)で重み付けする。そして注意重み付け部206は、複数の特徴量マップM2を生成し、複数の特徴量マップM2を中間出力部208に出力する。
【0051】
次にS26において、中間出力部208は、特徴量マップM2を後続の要素に出力する。このとき注意機構部26が特徴変換部24の末端の注意機構部26である場合は、中間出力部208は、特徴量マップM2をベクトルに変換し、特徴量ベクトルVを生成する。そして中間出力部208は、認識装置5に特徴量ベクトルVを出力する。
【0052】
このように実施形態2によれば、画像処理装置20の注意機構部26は、注意機構アルゴリズムを用いた注意重みの予測の前に、複数の特徴量マップM0の各々について画素値の重み付け演算を行う。したがって不要な情報による注意重みの予測への影響を小さくすることができる。これにより注意重み予測処理の計算コストの増大を防ぎつつ、精度の高い特徴量マップM2を生成することができる。そしてこれにより、後続の認識処理の計算コストの増大を防ぎつつ、認識精度を向上させることができる。
【0053】
また注意機構部26は、画素値の重み付け演算に注目領域に対応する抽出対象領域を抽出する抽出フィルタFを用いる。したがって注意機構部26は、目的に応じた抽出フィルタFを使用することにより、目的に応じた精度の特徴量マップM2を生成することができ、目的に応じた認識精度を得ることができる。
【0054】
なお注意機構部26は、抽出フィルタFが適用される前の特徴量マップM0に対して注意重みで重み付けを行うため、注目領域以外の領域の影響を過度に排除することを防止することができる。
【0055】
なお本実施形態2において、S22で前処理部202は、複数の特徴量マップM0の各々に対して同じ抽出フィルタFを適用させる。しかしこれに限らず、前処理部202は、取得した複数の特徴量マップM0の種別に応じた、複数の異なる抽出フィルタFを有し、取得した複数の特徴量マップの各々に対して、対応する抽出フィルタFを用いて重み付け演算を行ってもよい。たとえば、複数の特徴量マップM0のうち、畳み込み演算部25で顔の鼻の特徴が抽出されるように畳み込み演算がされた特徴量マップM0に対しては、前処理部202は、正規化画像の鼻領域を注目領域とする抽出フィルタFを適用させてよい。ここで正規化画像の注目領域の画素位置は、注目領域の種別(たとえば、眼、鼻または口等)に応じて予め定められてよい。そして、特徴量マップM0における抽出対象領域の画素位置は、注目領域の画素位置に基づいて、予め算出されてよい。
【0056】
この場合前処理部202は、特徴量マップM0の各々に対して、畳み込み演算部25で抽出された特徴に応じて好ましい抽出フィルタFを選択し、適用させることが可能となる。したがって注意機構部26は、より効率よく精度の高い注意重みを算出することが可能となる。
【0057】
なおS22およびS23において、前処理部202は、特徴量マップM1を生成せずに、重み付け演算と画素値の統計値の算出とを並行して行ってよい。また前処理部202は、特徴量マップM0の各々に対して、抽出フィルタFを用いずに、重み付け平均等の所定の重み付けを行ってよい。
【0058】
図8は、実施形態2にかかる学習装置6の学習処理を示すフローチャートである。なお、図6に示すステップと同様のステップについては、同一の記号を付して説明を省略する。
まずS30において学習装置6は、学習データベース(不図示)から大量の学習データを取得する。一例として学習データは、画像と当該画像の被写体の分類を示す正解ラベルとを含むデータセットであってよい。ここで学習データの画像は、予め正規化処理が行われた正規化画像であってよい。なお交差検定を行う場合は、学習データは訓練データとテストデータとに分類されていてよい。学習装置6は、画像処理装置20の特徴変換部24の最初の畳み込み演算部25に学習データに含まれる画像を入力し、処理をS12に進める。
【0059】
S34において学習装置6は、S15で認識装置5が認識処理を行ったことに応じて、出力値Oと学習データの正解ラベルとの間の誤差を算出する。
次にS35において学習装置6は、学習を終了するか否かを判定する。本実施形態2において学習装置6は、更新回数が予め設定された回数に達したか否かを判定することにより、学習を終了するか否かを判定してよい。また学習装置6は、誤差が予め定められた閾値未満であるか否かを判定することにより、学習を終了するか否かを判定してもよい。学習装置6は、学習を終了する場合(S35でYes)処理をS37に進め、そうでなければ(S35でNo)処理をS36に進める。
【0060】
S36において学習装置6は、算出した誤差に基づいて、畳み込み演算部25の畳み込み演算、注意機構部26の注意重み予測モデルおよび認識装置5の認識モデルに用いられる各種パラメータを更新する。学習装置6は一例として誤差逆伝播法を用いて、各種パラメータを更新してよい。そして学習装置6は、処理をS12に戻す。
S37において学習装置6は、各種パラメータを決定する。そして学習装置6は処理を終了する。
【0061】
このように学習装置6は、機械学習により、畳み込み演算のパラメータと注意重み予測モデルのパラメータと認識モデルのパラメータとを最適化する。
【0062】
以上実施形態2について説明したが、画像認識システム1が生体認証により被写体を認証するシステムである場合には、画像認識システム1は、被写体の特徴量を格納する特徴量データベースを備えていてよい。特徴量データベースは、画像処理装置20と認識装置5とに接続されてよい。このとき特徴量の登録においては、図6に示すS14で末端の注意機構部26が注意機構処理を終了する場合(S14でY)、図7に示すS26に代えて中間出力部208は特徴量ベクトルVを、認識装置5に代えて特徴量データベースに格納してよい。このとき図6に示すS15および16は、省略されてよい。
【0063】
(実施形態3)
次に図9A~Cを用いて、本開示の実施形態3について説明する。実施形態3は、抽出フィルタFが注目領域に対応する抽出対象領域を注目領域の注目度に応じて重み付けすることに特徴を有する。なお注目度は、注目領域に対して注目すべき度合を示す。実施形態3にかかる画像認識システム1は、実施形態2にかかる画像認識システム1と基本的に同様の構成および機能を有するため、以下相違点について説明する。図9A~Cは、実施形態3にかかる抽出フィルタFの一例を示す図である。
【0064】
図9A~Cに示すように、抽出フィルタFは、特徴量マップM0に含まれる画素のうち、被写体(ここでは、顔)の注目度の高い注目領域に対応する抽出対象領域については大きな値のフィルタ重みで重み付けするものであってよい。一方抽出フィルタFは、それ以外の被写体の注目領域に対応する抽出対象領域については小さな値のフィルタ重みで重み付けするものであってよい。なお抽出フィルタFは、被写体以外の背景に対応する画素領域を除去するものであってよい。なお図9A、BおよびCは、注目度の高い注目領域がそれぞれ、、眼、鼻および口である例を示している。
【0065】
このように実施形態3によれば、注意機構部26は、目的に応じた抽出フィルタFを使用することにより、目的に応じた精度の特徴量マップM2を生成することができる。したがって後続の認識装置5の認識精度が向上する。
なお注意機構部26は、特徴量マップM0の各画素の注目度に応じたフィルタ重みで重み付けができるため、注目領域以外の領域の影響を過度に排除することを防止することができる。
【0066】
(実施形態4)
次に本開示の実施形態4について図10を用いて説明する。実施形態3では、注目領域は予めユーザが特定しうる領域であったが、ユーザが特定した注目領域が認識処理の上で最適な領域でない場合がある。図10は、実施形態4にかかる抽出フィルタFの一例を示す図である。本図に示す抽出フィルタFの内側の実線は、フィルタ重みの等値線を示す。本図に示すように、等値線は複雑な形状を有する。
【0067】
実施形態4は、このような抽出フィルタFに含まれる画素の画素値であるフィルタ重みが、パラメータとして機械学習により学習されたフィルタ重みであることに特徴を有する。ここで、このパラメータをフィルタ重みパラメータと呼ぶ。なお実施形態4にかかる画像認識システム1は、実施形態2~3にかかる画像認識システム1と基本的に同様の構成および機能を有するため、以下では相違点について説明する。
【0068】
まず図7に示すS21に代えて、中間取得部200は、学習装置6から抽出フィルタFを取得し、前処理部202に出力する。このとき中間取得部200は、抽出フィルタFの学習済のフィルタ重みパラメータを抽出フィルタFに含まれるすべての画素について学習装置6から取得し、前処理部202に出力する。また中間取得部200は、学習装置6から注意重み予測モデルの注意重み予測パラメータを取得し、注意重み予測パラメータを注意重み予測部204に出力する。
【0069】
また図8に示すS36に代えて、学習装置6は、算出した誤差に基づいて、畳み込み演算、注意重み予測モデルおよび認識モデルに用いられる各種パラメータに加えて、フィルタ重みパラメータを更新する。学習装置6は一例として誤差逆伝播法を用いて、これらのパラメータを更新してよい。そして学習装置6は、処理をS12に戻す。
また図8に示すS37に代えて、学習装置6は、畳み込み演算、注意重み予測モデルおよび認識モデルに用いられる各種パラメータに加えて、フィルタ重みパラメータを決定する。そして学習装置6は処理を終了する。
【0070】
このように実施形態4によれば、抽出フィルタFが有する複数の画素の各々は、機械学習により最適化された学習済のフィルタ重みを含む。注意機構部26は、このような抽出フィルタFを使用して、精度の高い特徴量マップM2を生成することができる。したがって後続の認識装置5の認識精度が向上する。
【0071】
(実施形態5)
次に本開示の実施形態5について、図11~12を用いて説明する。注目領域は入力画像Iまたは正規化画像によって異なるため、抽出フィルタFは入力画像Iまたは正規化画像に応じて生成されることが好ましい。実施形態5は、入力画像Iに応じて異なる画素値、すなわち重みが抽出フィルタFの各画素に割り当てられることに特徴を有する。
【0072】
図11は、実施形態5にかかる注意機構部36の構成を示すブロック図である。注意機構部36は、実施形態2~3の注意機構部26と基本的には同様の構成および機能を有するコンピュータ等である。ただし注意機構部36は、前処理部202に代えて前処理部302を備える点で注意機構部26と相違する。
【0073】
前処理部302は、前処理部202の構成および機能に加えて、フィルタ生成部303を有する。
フィルタ生成部303は、入力画像Iまたは正規化画像に応じて、注目領域に対応する抽出対象領域を予測する学習済の注目領域予測モデルを用いて、抽出フィルタFを生成する。ここで注目領域予測モデルは、注目領域予測パラメータを含む畳み込み層および全結合層等を有してよい。
なお前処理部302は、生成された抽出フィルタFを用いて、複数の特徴量マップM0の各々に対して重み付け演算を行う。
【0074】
図12は、実施形態5にかかる注意機構部36の注意機構処理を示すフローチャートである。図12に示すステップは、図7に示すS21に代えて、S40~44を有する。なお、図7に示すステップと同様のステップについては、同一の記号を付して説明を省略する。
【0075】
S40において、中間取得部200は、学習装置6から注目領域予測モデルの注目領域予測パラメータと注意重み予測モデルの注意重み予測パラメータとを取得する。中間取得部200は、注目領域予測パラメータをフィルタ生成部303に出力し、注意重み予測パラメータを注意重み予測部204に出力する。
【0076】
S42において、フィルタ生成部303は、取得した注目領域予測パラメータを含む注目領域予測モデルに特徴量マップM0を入力し、特徴量マップM0における注目領域に対応する抽出対象領域を予測する。このときフィルタ生成部303は、注目領域に対応する抽出対象領域の重み、すなわち抽出フィルタFにおける抽出対象領域に対応する画素値も予測してよい。
S44において、フィルタ生成部303は予測結果に基づいて、各画素に注目度に応じた重みが付与された抽出フィルタFを生成する。
【0077】
そしてS22において、前処理部302は、生成された抽出フィルタFを用いて重み付け演算を行う。
【0078】
このように実施形態5によれば、注意機構部36は注意機構処理において入力画像Iまたは正規化画像に応じた抽出フィルタFを生成するため、注目領域に対応する抽出対象領域の抽出精度が向上する。これにより、注意機構部36はより精度の高い注意重みを予測し、より精度の高い特徴量マップM2を生成することができる。
【0079】
上述の実施形態1~5ではコンピュータは、パーソナルコンピュータやワードプロセッサ等を含むコンピュータシステムで構成される。しかしこれに限らず、コンピュータは、LAN(ローカル・エリア・ネットワーク)のサーバ、コンピュータ(パソコン)通信のホスト、インターネット上に接続されたコンピュータシステム等によって構成されることも可能である。また、ネットワーク上の各機器に機能分散させ、ネットワーク全体でコンピュータを構成することも可能である。
【0080】
なお上述の実施形態1~5では、この開示をハードウェアの構成として説明したが、この開示は、これに限定されるものではない。この開示は、上述の正規化処理、畳み込み演算処理、注意機構処理、認識処理および学習処理等の各種処理を、後述のプロセッサ1010にコンピュータプログラムを実行させることにより実現することも可能である。
【0081】
図13は、実施形態1~5にかかるコンピュータ1900の概略構成図の一例である。図13に示すように、コンピュータ1900は、システム全体を制御するための制御部1000を備えている。この制御部1000には、データバス等のバスラインを介して、入力装置1050、記憶装置1200、記憶媒体駆動装置1300、通信制御装置1400、および入出力I/F1500が接続されている。
【0082】
制御部1000は、プロセッサ1010と、ROM1020と、RAM1030とを備えている。
プロセッサ1010は、ROM1020や記憶装置1200等の各種記憶部に記憶されたプログラムに従って、各種の情報処理や制御を行う。
ROM1020は、プロセッサ1010が各種制御や演算を行うための各種プログラムやデータが予め格納されたリードオンリーメモリである。
【0083】
RAM1030は、プロセッサ1010にワーキングメモリとして使用されるランダムアクセスメモリである。このRAM1030には、本実施形態1~5による各種処理を行うための各種エリアが確保可能になっている。
【0084】
入力装置1050は、キーボード、マウスおよびタッチパネル等のユーザからの入力を受け付ける入力装置である。たとえばキーボードは、テンキー、各種機能を実行するための機能キーおよびカーソルキー等の各種キーが配置されている。マウスは、ポインティングデバイスであり、表示装置1100に表示されたキーやアイコン等をクリックすることで対応する機能の指定を行う入力装置である。タッチパネルは、表示装置1100の表面に配置される入力機器で、表示装置1100に画面表示された各種操作キーに対応した、ユーザのタッチ位置を特定し、当該タッチ位置に対応して表示された操作キーの入力を受け付ける。
【0085】
表示装置1100は、例えばCRTや液晶ディスプレイ等が使用される。この表示装置には、キーボードやマウスによる入力結果が表示されたり、最終的に検索されたイメージ情報が表示されたりするようになっている。また表示装置1100は、コンピュータ1900の各種機能に応じて、タッチパネルから必要な各種操作を行うための操作キーを画像表示する。
【0086】
記憶装置1200は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータ等の各種情報を読み書きするための駆動装置で構成されている。
この記憶装置1200に使用される記憶媒体は、主としてハードディスク等が使用されるが、後述の記憶媒体駆動装置1300で使用される非一時的なコンピュータ可読媒体を使用するようにしてもよい。
記憶装置1200は、データ格納部1210、プログラム格納部1220および図示しないその他の格納部(例えば、この記憶装置1200内に格納されているプログラムやデータ等をバックアップするための格納部)等を有している。プログラム格納部1220には、本実施形態1~5における各種処理を実現するためのプログラムが格納されている。データ格納部1210には、本実施形態1~5にかかる各種データベースの各種データを格納する。
【0087】
記憶媒体駆動装置1300は、プロセッサ1010が外部の記憶媒体(外部記憶媒体)からコンピュータプログラムや文書を含むデータ等を読み込むための駆動装置である。
ここで、外部記憶媒体とは、コンピュータプログラムやデータ等が記憶される非一時的なコンピュータ可読媒体をいう。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また各種プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路並びに記憶媒体駆動装置1300を介して、各種プログラムをコンピュータに供給できる。
【0088】
つまりコンピュータ1900は、制御部1000のプロセッサ1010が、記憶媒体駆動装置1300にセットされた外部の記憶媒体から各種プログラムを読み込んで、記憶装置1200の各部に格納する。
【0089】
そして、コンピュータ1900が各種処理を実行する場合、記憶装置1200から該当プログラムをRAM1030に読み込み、実行するようになっている。但しコンピュータ1900は、記憶装置1200からではなく、記憶媒体駆動装置1300により外部の記憶媒体から直接RAM1030にプログラムを読み込んで実行することも可能である。また、コンピュータによっては各種プログラム等を予めROM1020に記憶させておき、これをプロセッサ1010が実行するようにしてもよい。さらに、コンピュータ1900は、各種プログラムやデータを、通信制御装置1400を介して他の記憶媒体からダウンロードし、実行するようにしてもよい。
【0090】
通信制御装置1400は、コンピュータ1900と他のパーソナルコンピュータやワードプロセッサ等の各種外部電子機器との間をネットワーク接続するための制御装置である。通信制御装置1400は、これら各種外部電子機器からコンピュータ1900にアクセスすることを可能とする。
【0091】
入出力I/F1500は、パラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続するためのインターフェースである。
【0092】
なおプロセッサ1010は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(digital signal processor)およびASIC(application specific integrated circuit)等が用いられてよい。
【0093】
請求の範囲、明細書、および図面中において示したシステムおよび方法における各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのではない限り、任意の順序で実現しうる。請求の範囲、明細書および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順序で実施することが必須であることを意味するものではない。
【0094】
以上、実施形態を参照して本開示を説明したが、本開示は上記によって限定されるものではない。本開示の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0095】
1 画像認識システム、5 認識装置、6 学習装置、10,20 画像処理装置、22 画像取得部、23 正規化部、24 特徴変換部、25 畳み込み演算部、26,36 注意機構部、100,200 中間取得部、102,202,302 前処理部、104,204 注意重み予測部、106,206 注意重み付け部、208 中間出力部、303 フィルタ生成部、1000 制御部、1010 プロセッサ、1020 ROM、1030 RAM、1050 入力装置、1100 表示装置、1200 記憶装置、1210 データ格納部、1220 プログラム格納部、1300 記憶媒体駆動装置、1400 通信制御装置、1500 入出力I/F、1900 コンピュータ、I 入力画像、O 出力値、M 特徴量マップ、M0 特徴量マップ、M1 特徴量マップ、M2 特徴量マップ、V 特徴量ベクトル、V1 特徴量ベクトル、V2 特徴量ベクトル、FC 全結合層、F 抽出フィルタ
図1
図2
図3
図4
図5
図6
図7
図8
図9A
図9B
図9C
図10
図11
図12
図13