IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セコム株式会社の特許一覧

特許7441654認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム
<>
  • 特許-認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム 図1
  • 特許-認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム 図2
  • 特許-認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム 図3
  • 特許-認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム 図4
  • 特許-認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム 図5
  • 特許-認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム 図6
  • 特許-認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム 図7
  • 特許-認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム 図8
  • 特許-認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-21
(45)【発行日】2024-03-01
(54)【発明の名称】認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240222BHJP
【FI】
G06T7/00 350C
G06T7/00 300F
【請求項の数】 8
(21)【出願番号】P 2020007381
(22)【出願日】2020-01-21
(65)【公開番号】P2021114223
(43)【公開日】2021-08-05
【審査請求日】2022-12-21
(73)【特許権者】
【識別番号】000108085
【氏名又は名称】セコム株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】佐野 友祐
(72)【発明者】
【氏名】糸賀 健
【審査官】新井 則和
(56)【参考文献】
【文献】国際公開第2014/030399(WO,A1)
【文献】特開2019-016298(JP,A)
【文献】映像からのオブジェクト識別技術,NHK技研R&D No.142,2013年11月15日,企業技報201300118006
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
処理対象データを入力とし、区分領域毎の特徴量を抽出する畳み込みニューラルネットワークを用いて、入力された前記処理対象データである入力データの区分領域毎に特徴量を抽出する特徴量抽出手段と、
検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段と、
前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、
前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段と、
を含み、
前記畳み込みニューラルネットワークは、前記認識対象を表すデータを入力したときに、前記畳み込みニューラルネットワークよりも多層の畳み込みニューラルネットワークである学習済みの教師特徴量抽出モデルによって抽出された教師特徴量と、前記統合手段が出力する前記統合特徴量とが一致するように予め学習されたものである認識装置。
【請求項2】
前記検査領域を、位置又は大きさの少なくとも一方を異ならせて複数設定し、
前記重み計算手段は、前記検査領域毎に、当該検査領域と重複する前記区分領域の各々について前記重みを計算し、
前記統合手段は、前記検査領域毎に、前記統合特徴量を求め、
前記認識手段は、前記検査領域毎に、当該検査領域が、前記認識対象を表しているか否かを認識する請求項1記載の認識装置。
【請求項3】
処理対象データを入力とし、区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、学習用の前記処理対象データの区分領域毎に特徴量を抽出する特徴量抽出手段と、
認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段と、
前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、
前記特徴量抽出モデルよりも多層の畳み込みニューラルネットワークである学習済みの教師特徴量抽出モデルによって抽出された前記認識対象領域の教師特徴量と、前記認識対象領域の前記統合特徴量とが一致するように前記特徴量抽出モデルを学習する学習手段と、
を含む学習装置。
【請求項4】
請求項1又は2に記載の認識装置と、
請求項3に記載の学習装置とを含み、
前記認識装置の前記特徴量抽出手段は、前記学習装置によって学習された前記特徴量抽出モデルを用いて、前記入力データの区分領域毎に特徴量を抽出する
認識システム。
【請求項5】
特徴量抽出手段が、処理対象データを入力とし、区分領域毎の特徴量を抽出する畳み込みニューラルネットワークを用いて、入力された前記処理対象データである入力データの区分領域毎に特徴量を抽出し、
重み計算手段が、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算し、
統合手段が、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求め、
認識手段が、前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識することを含み、
前記畳み込みニューラルネットワークは、前記認識対象を表すデータを入力したときに、前記畳み込みニューラルネットワークよりも多層の畳み込みニューラルネットワークである学習済みの教師特徴量抽出モデルによって抽出された教師特徴量と、前記統合特徴量とが一致するように予め学習されたものである
認識方法。
【請求項6】
コンピュータを、
処理対象データを入力とし、区分領域毎の特徴量を抽出する畳み込みニューラルネットワークを用いて、入力された前記処理対象データである入力データの区分領域毎に特徴量を抽出する特徴量抽出手段、
検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段、
前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段、及び
前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段
として機能させるための認識プログラムであって、
前記畳み込みニューラルネットワークは、前記認識対象を表すデータを入力したときに、前記畳み込みニューラルネットワークよりも多層の畳み込みニューラルネットワークである学習済みの教師特徴量抽出モデルによって抽出された教師特徴量と、前記統合特徴量とが一致するように予め学習されたものである認識プログラム
【請求項7】
特徴量抽出手段が、処理対象データを入力とし、区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、学習用の前記処理対象データの区分領域毎に特徴量を抽出し、
重み計算手段が、認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算し、
統合手段が、前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求め、
学習手段が、前記特徴量抽出モデルよりも多層の畳み込みニューラルネットワークである学習済みの教師特徴量抽出モデルによって抽出された前記認識対象領域の教師特徴量と、前記認識対象領域の前記統合特徴量とが一致するように前記特徴量抽出モデルを学習する
学習方法。
【請求項8】
コンピュータを、
処理対象データを入力とし、区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、学習用の前記処理対象データの区分領域毎に特徴量を抽出する特徴量抽出手段、
認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段、
前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段、及び
前記特徴量抽出モデルよりも多層の畳み込みニューラルネットワークである学習済みの教師特徴量抽出モデルによって抽出された前記認識対象領域の教師特徴量と、前記認識対象領域の前記統合特徴量とが一致するように前記特徴量抽出モデルを学習する学習手段
として機能させるための学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、処理対象データ中の領域が認識対象を表しているか否かを認識するための認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラムに関する。
【背景技術】
【0002】
雑踏を撮影した画像を基に特定の人物を検出する、画像内の人や車両を検出するなどの各種認識処理においては、一般に、画像内の全域に様々な大きさで検査領域を設定し、設定した検査領域の数だけ特徴量抽出と特徴量比較を繰り返す必要がある。この特徴量は、検査領域ごとに抽出し直すのが最も高精度であるが膨大な処理となってしまう。そのため検査領域の特徴量抽出などに対する高速化が強く望まれている。
【0003】
特許文献1には、予めブロックごとに抽出された特徴量を利用する画像特徴量比較装置が記載されている。すなわち、異なる基準でブロック分割された2つの画像をブロック単位で比較する際、一方の画像のブロックに重なる他方の画像の複数のブロックの特徴量を、重なっている部分の面積の割合で重みづけ加算して他方の画像の特徴量としている。
【0004】
このように、予めブロックごとに抽出した特徴量を統合して任意の検査領域の特徴量を近似的に算出すれば、高速な特徴量抽出が可能となる。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2002-042134号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来技術では、統合した特徴量(統合特徴量)がブロック内の背景成分の影響を受けやすく、統合特徴量による近似誤差が大きくなり得る問題があった。同様の問題は、三次元データなど、二次元画像以外の各種処理対象データでも生じる。
【0007】
そこで、本発明は、上記問題を鑑みてなされたものであり、近似誤差が小さな特徴量を高速に算出して、認識対象を高速且つ高精度に認識できる認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記の目的を達成するために本発明に係る認識装置は、処理対象データを入力とし、区分領域毎の特徴量を抽出する畳み込みニューラルネットワークを用いて、入力された前記処理対象データである入力データの区分領域毎に特徴量を抽出する特徴量抽出手段と、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段と、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段と、を含んで構成されている。
【0009】
本発明に係る認識装置によれば、特徴量抽出手段によって、処理対象データを入力とし、区分領域毎の特徴量を抽出する畳み込みニューラルネットワークを用いて、入力された前記処理対象データである入力データの区分領域毎に特徴量を抽出する。重み計算手段によって、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する。統合手段によって、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める。認識手段によって、前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する。
【0010】
このように、畳み込みニューラルネットワークを用いて、前記入力データの区分領域毎に特徴量を抽出し、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算し、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、重みを用いて統合する。これにより、学習済みの畳み込みニューラルネットワークによって、統合前の特徴量が統合に適した特徴量として算出できるため、近似精度の高い統合特徴量を高速に算出して、認識対象を高速且つ高精度に認識できる。
【0011】
また、前記重み計算手段は、前記重複度合いが所定値未満の区分領域に対する重みを0とすることができる。
【0012】
また、前記検査領域を、位置又は大きさの少なくとも一方を異ならせて複数設定し、
前記重み計算手段は、前記検査領域毎に、当該検査領域と重複する前記区分領域の各々について前記重みを計算し、
前記統合手段は、前記検査領域毎に、前記統合特徴量を求め、
前記認識手段は、前記検査領域毎に、当該検査領域が、前記認識対象を表しているか否かを認識することができる。
【0013】
本発明に係る学習装置は、処理対象データを入力とし、区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、学習用の前記処理対象データの区分領域毎に特徴量を抽出する特徴量抽出手段と、認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段と、前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する学習手段と、を含んで構成されている。
【0014】
本発明に係る学習装置によれば、特徴量抽出手段によって、区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、学習用の処理対象データの区分領域毎に特徴量を抽出する。重み計算手段によって、認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する。統合手段によって、前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める。学習手段によって、前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する。
【0015】
このように、学習用の処理対象データの区分領域毎に特徴量を抽出し、認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算し、前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、重みを用いて統合し、前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する。これにより、統合前の特徴量が統合に適した特徴量として算出できるため、近似精度の高い統合特徴量を高速に算出して、認識対象を高速且つ高精度に認識するための特徴量抽出モデルを学習することができる。
【0016】
本発明に係る認識システムは、上記の認識装置と、上記の学習装置とを含み、前記認識装置の前記特徴量抽出手段は、前記学習装置によって学習された前記特徴量抽出モデルを用いて、前記入力データの区分領域毎に特徴量を抽出する。
【0017】
本発明に係る認識方法は、特徴量抽出手段が、区分領域毎の特徴量を抽出する畳み込みニューラルネットワークを用いて、入力された処理対象データである入力データの区分領域毎に特徴量を抽出し、重み計算手段が、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算し、統合手段が、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求め、認識手段が、前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する。
【0018】
本発明に係る認識プログラムは、コンピュータを、区分領域毎の特徴量を抽出する畳み込みニューラルネットワークを用いて、入力された処理対象データである入力データの区分領域毎に特徴量を抽出する特徴量抽出手段、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段、及び前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段として機能させるためのプログラムである。
【0019】
本発明に係る学習方法は、特徴量抽出手段が、区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、学習用の処理対象データの区分領域毎に特徴量を抽出し、重み計算手段が、認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算し、統合手段が、前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求め、学習手段が、前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する。
【0020】
本発明に係る学習プログラムは、コンピュータを、処理対象データを入力とし、区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、学習用の前記処理対象データの区分領域毎に特徴量を抽出する特徴量抽出手段、認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段、前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段、及び前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する学習手段として機能させるためのプログラムである。
【発明の効果】
【0021】
以上説明したように、本発明に係る認識装置、認識システム、認識方法、及び認識プログラムによれば、学習済みの畳み込みニューラルネットワークによって、統合前の特徴量を統合に適した特徴量として算出できるため、近似精度の高い統合特徴量を高速に算出して、認識対象を高速且つ高精度に認識できる、という効果が得られる。
【0022】
また、本発明に係る学習装置、学習方法、及び学習プログラムによれば、統合前の特徴量を統合に適した特徴量として算出できるよう特徴量抽出モデルを学習するため、近似精度の高い統合特徴量を高速に算出して認識対象を高速且つ高精度に認識するための特徴量抽出モデルを学習することができる、という効果が得られる。
【図面の簡単な説明】
【0023】
図1】本発明の実施の形態に係る認識システムの構成を示す概略図である。
図2】本発明の実施の形態に係る学習装置の構成を示すブロック図である。
図3】区分領域の設定と重みの例を示す図である。
図4】本発明の実施の形態に係る学習装置の特徴量抽出手段の構成を示すブロック図である。
図5】本発明の実施の形態に係る学習装置による学習処理の動作を示すフローチャートである。
図6】本発明の実施の形態に係る認識装置の構成を示すブロック図である。
図7】本発明の実施の形態に係る認識装置による認識処理の動作を示すフローチャートである。
図8】重複度合いの値を変換するための非線形関数の例を示す図である。
図9】重複度合いの値を変換するための関数の例を示す図である。
【発明を実施するための形態】
【0024】
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、認識システムの実施形態の一例として、特定人物の立位全身のテンプレートが指定され、さらに複数の撮影部(カメラ)のうちのどれを検索範囲とするかが指定されると、検索範囲のカメラによって撮影された画像内に検査領域を順次設定して各検査領域の特徴量をテンプレートと照合し、テンプレートと同一人物の立位全身の像が撮影されている領域を検出する人物同定システムを説明する。
すなわち、本実施形態において、処理対象データは画像であり、認識処理は照合ないしReID(再同定)であり、認識対象は特定人物の立位全身である。
【0025】
<認識システムの構成>
以下、本発明を適用した認識システム1の概略構成を示した図1を参照し、本発明の実施の形態の構成を説明する。
【0026】
認識システム1は、撮影部2a,2b,2c,…、通信部3、記憶部4、画像処理部5、表示部6、及び操作入力部7を有する。
【0027】
撮影部2a,2b,2c,…は、所定の領域を監視する目的で設置される監視カメラであり、異なる監視対象領域の各々について、当該領域内に滞在する人物が撮影できる位置に取り付けられる。撮影部2a,2b,2c,…で撮影した画像は通信部3を介して画像処理部5に送信される。
【0028】
通信部3は、撮影部2a,2b,2c、画像処理部5、及び表示部6の間でデータの送受信を行なう。LAN(Local Area Network)や、インターネット等の公衆回線を利用できる。
【0029】
記憶部4は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等で構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
【0030】
画像処理部5は、CPU、MPU、周辺回路、端子、各種メモリ等で構成され、撮影部2a,2b,2c,…が撮影した画像に対して画像処理を施した結果を、通信部3を介して表示部6に送信する。
【0031】
表示部6は、例えば、液晶ディスプレイであり、各種の情報を表示する。
【0032】
操作入力部7は、ユーザーにより操作され、テンプレートや検索範囲の指定入力を受け付けるためのマウスやキーボード等である。
【0033】
認識システム1は、後述する学習装置200及び認識装置600として機能する。
【0034】
<学習装置の構成例>
認識システム1が図2に示す学習装置200として機能するとき、記憶部4は、学習用データ記憶手段40、区分領域情報記憶手段41、及び特徴量抽出モデル記憶手段42として機能する。画像処理部5は、特徴量抽出手段50、重み計算手段51、統合手段52、及び学習手段53として機能する。
【0035】
[学習用データ記憶手段40]
学習用データ記憶手段40は、多数の学習用画像、認識対象領域、及び教師特徴量を含む学習用データを記憶する。
【0036】
学習用画像は、例えば、認識対象である人が撮影された画像である。認識対象領域は画像において認識対象が撮影されている領域である。学習用データ記憶手段40に記憶される認識対象領域は、各学習用画像における認識対象領域を意味し、例えば、学習用画像内の人の像の外接矩形である。この外接矩形は、認識対象ではない背景の部分が少なくなるよう設定される。なお、矩形ではなく楕円でもよいし、認識対象の外形そのものであってもよい。認識対象領域は、例えば、予め学習用データの作成者が目視確認の上、手作業により設定される。認識対象を自動認識する処理により仮設定した後に作成者が修正して設定されてもよい。
【0037】
また、認識対象領域それぞれの情報は、当該領域が設定された学習用画像と対応付けて、学習用データ記憶手段40に記憶される。ちなみに1枚の学習用画像に複数の認識対象が撮影されている場合、学習用画像と認識対象領域が1対多で対応付けて記憶される。
【0038】
教師特徴量は、認識対象領域における学習用画像の特徴量である。教師特徴量は、計算時間を度外視して、後述する認識手段56に入力されたときの認識精度を追求した特徴量である。教師特徴量は、特徴量抽出モデルの学習において、後述する統合手段52が出力する統合特徴量の目標値となる。
【0039】
教師特徴量は、少なくとも統合特徴量とデータ形式が同一である。本実施形態では、教師特徴量は、Cチャンネル分の次元数を有するベクトル(C≧2)である。また、本実施形態では、教師特徴量は、後述する区分特徴量及び統合特徴量と同種のCNN特徴量である。
【0040】
例えば、特徴量抽出モデルとは別に教師特徴量抽出モデルを用意し、上述した学習用データに認識手段56が出力すべき正解データを加えた学習用データを用いて当該教師特徴量抽出モデルの学習を十分に行い、学習済みの教師特徴量抽出モデルに学習用データを入力して得られる特徴量を教師特徴量とすることができる。
具体的には、例えば、教師特徴量抽出モデルを特徴量抽出モデルよりも多層のCNNとし、教師特徴量抽出モデルの出力値が認識手段56に入力されるよう教師特徴量抽出モデルと認識手段56を接続した装置を用意する。この装置に、学習用画像から認識対象領域を切り出した切り出し画像を入力して得られる出力値(認識手段56の出力値)が正解データとなるよう十分に反復させて教師特徴量抽出モデルを学習する。そして、学習済みの教師特徴量抽出モデルに再び各切り出し画像を入力して得られる出力値を認識対象領域に対応する教師特徴量とすることができる。
【0041】
[区分領域情報記憶手段41]
区分領域情報記憶手段41は、画像を所定サイズの複数の領域に区分する区分領域の設定を表す区分領域情報を予め記憶している。区分領域情報は、区分領域そのものを定めた情報とすることができ、具体的には各区分領域の位置及び大きさ(幅、高さ)である。区分の対象となる画像は学習用画像及び入力画像である。なお、本実施形態では、学習用画像のサイズは入力画像のサイズと同一とする。
【0042】
好適には、区分領域は、様々なサイズの検査領域に適応するために、大きさや間隔が異なる複数種類の区分にて設定される。
本実施形態では、図3に示すように、128×128画素の画像800に対し、複数種類の区分803、804、805にて設定される。区分803は、幅、高さ、及び間隔がそれぞれ64画素の2×2区分である。また、区分804は、幅、高さ、及び間隔がそれぞれ32画素の4×4区分である。また、区分805は、幅、高さ、及び間隔がそれぞれ16画素の8×8区分である。また、これら3種類の区分803、804、805の区分領域に0から83までの通し番号を付与しておく。
【0043】
なお、区分領域そのものを定めた設定に代えて「区分するための設定」を記憶してもよい。区分するための設定とは、区分領域の大きさ、及び区分領域間の間隔である。
【0044】
また、区分領域間の間隔は、後述する検査領域設定手段55が検査領域を設定する間隔よりも大きいという条件を満たす範囲内であれば、隣り合う区分領域同士のオーバーラップを許容して区分領域の幅及び高さより小さく設定してもよい。
【0045】
[特徴量抽出モデル記憶手段42]
特徴量抽出モデル記憶手段42は、特徴量抽出モデルを記憶する。本実施形態においては、特徴量抽出モデルを深層学習(Deep Learning)で用いられるような多層のネットワークで構成された畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)でモデル化する。すなわち、特徴量抽出モデルは、畳み込み層や活性化関数、プーリング(pooling)層などの複数の層が直列に接続されたネットワーク構造を有し、特徴量抽出モデル記憶手段42は、ネットワークを構成するフィルタのフィルタ係数やネットワーク構造などを含めた情報を記憶する。
【0046】
そして、上記フィルタ係数など、これら各層のパラメータが学習によって更新される。
【0047】
[特徴量抽出手段50]
特徴量抽出手段50は、特徴量抽出モデルを用いて、区分領域の各々についての画像の特徴量を抽出する。以下、区分領域の各々についての特徴量を区分特徴量と称する。抽出の対象となる画像は学習用画像及び入力画像である。
【0048】
学習装置200の特徴量抽出手段50は、特徴量抽出モデル記憶手段42から特徴量抽出モデルを、区分領域情報記憶手段41から区分領域情報をそれぞれ読み出すとともに、学習用データ記憶手段40から学習用画像を読み出す。そして、特徴量抽出手段50は、学習用画像を特徴量抽出モデルに入力し、各区分領域に対応して特徴量抽出モデルが出力した特徴量のそれぞれを当該学習用画像における当該区分領域の区分特徴量として統合手段52に出力する。
【0049】
CNNでモデル化された特徴量抽出モデルは少なくとも畳み込み層を含み、特徴量抽出手段50は近傍画素の特徴量を畳み込んだ特徴量マップを求める処理を繰り返し行うことで周囲の画素との関係を集約して区分特徴量を抽出することとなる。
【0050】
より具体的には、図4に示すように、特徴量抽出手段50は、マルチスケール画像生成手段500と畳み込み手段501を備える。これらの手段を用いた特徴量抽出手段50の処理を、図4を参照して説明する。
【0051】
[マルチスケール画像生成手段500]
マルチスケール画像生成手段500は、区分の種類によらず1区分領域当たりの画素数が同一となるよう、画像をスケーリング処理して区分の種類ごとの正規化画像を生成する。処理の対象となる画像は学習用画像及び入力画像である。
【0052】
学習装置200のマルチスケール画像生成手段500は、学習用画像及び区分領域情報を入力とし、学習用画像をスケーリング処理して区分の種類ごとの正規化画像を生成し、生成した正規化画像を畳み込み手段501に出力する。
【0053】
図3に例示した3種類の区分を用いる本実施形態においては、例えば、8×8区分を基準とし、128×128画素の画像に対して1区分領域当たり256画素となるようなスケーリング処理を施す。区分の各種類に対するスケーリング処理の倍率は、当該種類における区分領域の幅または高さの、基準とする種類における区分領域の幅または高さに対する比となる。例えば、8×8区分を基準とする場合、2×2区分、4×4区分、8×8区分に対応する倍率はそれぞれ1/4、1/2、1/1である。
【0054】
[畳み込み手段501]
畳み込み手段501は、CNNでモデル化された特徴量抽出モデルを用いて、マルチスケール画像生成手段500から入力された複数の正規化画像から複数種類の区分の区分特徴量を抽出し、抽出した区分特徴量を統合手段52に出力する。
【0055】
学習装置200の畳み込み手段501は、正規化画像それぞれを特徴量抽出モデルに入力し、各区分領域に対応して特徴量抽出モデルが出力した特徴量のそれぞれを学習用画像における当該区分領域の区分特徴量とする。
【0056】
ここで、図4を参照して、図3に例示した3種類の区分で128×128の画像から特徴量を算出する例について説明する。
特徴量抽出手段50のマルチスケール画像生成手段500が1/4縮小処理を行って2×2区分用の1/4画像900を生成し、特徴量抽出手段50の畳み込み手段501が特徴量抽出モデルに1/4画像900を入力し、その出力値として要素数が2×2×C個のテンソルデータ910を得る。テンソルデータ910は、xy方向に2×2の配置で区分領域#0~#3の区分特徴量が束になったものである。つまり、各区分特徴量はCチャンネル分の要素を有するベクトルである。
また、マルチスケール画像生成手段500は4×4区分用の1/2画像901を生成し、畳み込み手段501は特徴量抽出モデルに1/2画像901を入力して区分特徴量#4~#19が束になった4×4×C要素のテンソルデータ911を得る。
また、マルチスケール画像生成手段500は元の画像をそのまま出力して8×8区分用の1/1画像902を生成し、畳み込み手段501は特徴量抽出モデルに1/1画像902を入力して区分特徴量#20~#83が束になった8×8×C要素のテンソルデータ912を得る。
【0057】
[重み計算手段51]
重み計算手段51は、任意の注目領域と重複する区分領域の各々について、重複度合いに応じた重みを算出する。好適には、注目領域に対する重みは、総和が一定値になるように正規化される。
【0058】
学習装置200の重み計算手段51は、区分領域情報記憶手段41から区分領域情報を読み出すとともに、学習用データ記憶手段40から学習用画像及び認識対象領域を読み出し、認識対象領域ごとに、当該認識対象領域と重複する区分領域の各々について、重複度合いに応じた重みを算出する。算出した重みの情報は統合手段52に入力される。
【0059】
ここで、重みの情報とは、重み、その算出の基となった画像、注目領域、及び区分領域との対応関係である。本実施形態では、注目領域と重複しない区分領域に対しても重みとして0を設定し、重みと注目領域と区分領域との対応関係を、注目領域ごとに全ての区分領域に対する重みを区分領域の通し番号順に並べたベクトルで表す。
【0060】
重複度合いは、IoU(Intersection Of Union)または領域の重心間の距離の逆数などとすることができる。
注目領域と区分領域の重複部分(Intersection)の面積をI、2つの領域の和領域(Union)の面積をUとすると、IoU=I/Uである。IoUの値域は0~1で、0に近いほど2つの領域の重なり度合いが低いことを表す。
領域の重心間の距離は、注目領域の重心と区分領域の重心の間の距離である。
【0061】
本実施形態では、重み計算手段51は、注目領域ごとに各区分領域とのIoUを算出し、注目領域ごとの総和が1となるように正規化したIoUを重みとする。
【0062】
上記図3の例では、画像800に設定した2つの認識対象領域802,812に対して、それぞれ重みのベクトル806,816が算出される。
重みのベクトル806は、6個の区分領域#1,#7,#26,#27,#34,#35に認識対象領域802との重複部分があり、それぞれに対する重みが0.06,0.20,0.09,0.16,0.16,0.33であること、上記6個の区分領域以外は認識対象領域802との重複部分を有さないこと、を表している。
重みのベクトル816は、23個の区分領域#0,#2,#8,#9,#12,#13,#16,#17,#44~#46,#52~#55,#60~#62,#68~#70,#76~#78に認識対象領域812との重複部分があり、それぞれに対する重みが0.025,0.375,…,0.015,0.005であること、上記20個の区分領域以外は認識対象領域812との重複部分を有さないこと、を表している。
なお、重みのベクトル806,816それぞれの要素の総和は1になっている。
【0063】
[統合手段52]
統合手段52は、注目領域が重複する区分領域について抽出された区分特徴量を、当該区分領域のそれぞれについて計算された重みにて重みづけて統合して当該注目領域の統合特徴量を求める。
【0064】
学習装置200の統合手段52は、特徴量抽出手段50から各区分領域の区分特徴量を入力されるとともに、重み計算手段51から各区分領域の重みを入力され、認識対象領域ごとに、当該認識対象領域が重複する区分領域について抽出された区分特徴量を、当該区分領域のそれぞれについて計算された重みにて重みづけて統合して統合特徴量を算出し、算出した統合特徴量を学習手段53へ出力する。
【0065】
本実施形態では、統合手段52は区分特徴量の重みづけ和を求めることで統合する。すなわち、統合手段52は、区分領域ごとに当該区分領域の区分特徴量の全要素に当該区分領域の重みを乗じた上で、全ての区分領域について対応する要素同士を足し合わせる。
【0066】
このとき、上位の重みに対応する区分特徴量のみを用いてもよい。例えば、統合手段52は、重みの大きい区分領域から順に重みを累積し、累積値が予め定めた閾値に達するまでの区分領域を統合対象とし、それ以外の区分領域を統合対象外とする。
【0067】
[学習手段53]
学習手段53は、認識対象を表している認識対象領域の統合特徴量が、認識対象を表す画像から予め求められた特徴量と一致するように特徴量抽出モデルを学習する。具体的には、学習手段53は、認識対象領域について統合手段52が算出した統合特徴量の、当該領域について学習用データ記憶手段40に記憶されている教師特徴量に対する誤差を最小化する特徴量抽出モデルを学習する。
【0068】
例えば、統合特徴量と教師特徴量の平均2乗誤差を算出して当該誤差をエネルギー関数とする勾配法や座標降下法によって当該誤差を小さくするための特徴量抽出モデルのパラメータ更新量を算出し、当該更新量だけ特徴量抽出モデルを更新しては再び統合特徴量を算出させて平均2乗誤差を評価するという処理を、反復終了条件を満たすまで反復する。
ここで、反復終了条件としては、例えば、誤差が予め定めた閾値以下となる、または反復回数(特徴量抽出モデルの更新回数)が予め定めた上限回数に達することとすればよい。
【0069】
<学習装置の動作例>
次に、図5を参照して、学習装置200の動作例について説明する。
【0070】
まず、ステップS100にて、重み計算手段51は、区分領域情報記憶手段41が記憶している区分領域と、学習用データ記憶手段40が記憶している認識対象領域を比較し、認識対象領域のそれぞれに対して各区分領域との重複度合いに応じた重みを算出する。そして、重み計算手段51は、認識対象領域ごとの重みの情報を記憶部4に一時記憶させる。
【0071】
ステップS101にて、特徴量抽出手段50のマルチスケール画像生成手段500は、学習用データ記憶手段40が記憶している学習用画像を区分の種類のそれぞれと対応する倍率でスケーリング処理する。そして、マルチスケール画像生成手段500は、処理結果である正規化画像を元となった学習用画像及び区分の種類と対応付けて記憶部4に一時記憶させる。
【0072】
ステップS102にて、特徴量抽出手段50の畳み込み手段501は、ステップS101にて生成した各正規化画像を特徴量抽出モデル記憶手段42が記憶している特徴量抽出モデルに入力する。その出力値として、当該正規化画像に対応した学習用画像と、当該正規化画像に対応した種類の区分領域それぞれとの組み合わせについての区分特徴量が得られる。そして、畳み込み手段501は取得した区分特徴量を学習用画像及び区分領域と対応付けて記憶部4に一時記憶させる。
【0073】
ステップS103にて、統合手段52は、学習用データ記憶手段40が記憶している学習用画像の認識対象領域ごとに、当該画像に対してステップS102で算出した区分特徴量を、当該領域に対してステップS101で算出した重みにて重みづけ加算して、当該領域の統合特徴量を算出する。そして、統合手段52は、算出した統合特徴量を算出対象の認識対象領域と対応付けて記憶部4に一時記憶させる。
【0074】
ステップS104にて、学習手段53は、認識対象領域ごとに、当該領域についてステップS103で算出した統合特徴量の、当該領域について学習用データ記憶手段40が記憶している教師特徴量との誤差を算出する。
【0075】
ステップS105にて、学習手段53は、特徴量抽出モデルのパラメータについてステップS104で算出した誤差を小さくするための更新量を求め、特徴量抽出モデル記憶手段42が記憶している特徴量抽出モデルのパラメータを当該更新量だけ更新する。
【0076】
ステップS106にて、学習手段53は、学習が反復終了条件を満たすか否かを判定する。すなわち、ステップS104で算出した誤差が予め定めた閾値以下であるか、または、ステップS102~S104を反復した回数が予め定めた上限回数に達したかを判定する。
【0077】
誤差が閾値を超えており且つ反復が上限回数に達していない場合は、反復終了条件を満たしていないとして処理をステップS102に戻して反復を続ける。反復継続に際し、ステップS102~S103での一時記憶結果はクリアする。
【0078】
誤差が閾値以下であったまたは反復が上限回数に達した場合は、反復終了条件を満たしたとして学習を終了する。
【0079】
以上説明したように、本発明の実施の形態に係る学習装置によれば、学習用の処理対象データの区分領域毎に特徴量を抽出し、認識対象を表している認識対象領域と重複する区分領域の各々について、重複度合いに応じた重みを計算し、認識対象領域と重複する区分領域の各々について抽出された特徴量を、重みを用いて統合し、認識対象領域の統合特徴量が、認識対象を表すデータから予め求められた特徴量と一致するように特徴量抽出モデルを学習する。これにより、統合前の特徴量が統合に適した特徴量として算出できるため、近似精度の高い統合特徴量を高速に算出して、認識対象を高速且つ高精度に認識するための特徴量抽出モデルを学習することができる。
【0080】
すなわち、統合特徴量は重みを用いた区分特徴量の統合によって高速に求まる。
そしてその際に、背景を含んだ区分領域について抽出される区分特徴量を統合することによって検査領域(学習時は認識対象領域)に現れている認識対象の特徴量を精度よく近似するには、背景の成分が極力除かれて認識対象の成分が支配的な区分特徴量を抽出できる特徴量抽出モデルを得る必要がある。教師特徴量として極力背景の成分を除いて抽出した特徴量を用い、そのような教師特徴量に統合特徴量を近づける学習により、背景を含んだ区分領域に対して認識対象の成分が支配的な区分特徴量を抽出するような特徴量抽出モデルを得ることができる。よって、教師特徴量に統合特徴量を近づける学習により、統合に適した特徴量抽出モデルを得ることができる。
【0081】
また、精度の高い認識を可能にする特徴量は、認識対象について近傍のデータ(画像の例では近傍の画素)の関係を記述したものであることが多い。精度を追求した教師特徴量もそのような特徴量である。例示したCNNは、畳み込み層やプーリング層の働きによって近傍のデータ同士の関係を記述できる。よって、特徴量抽出モデルをCNNでモデル化して教師特徴量に統合特徴量が一致するように学習を行うことにより、精度の高い認識(すなわち、統合特徴量による教師特徴量の高精度な近似)を可能にし、且つ統合に適した特徴量抽出モデルを得ることができる。
【0082】
<認識装置の構成例>
認識システム1が図6に示す認識装置600として機能するとき、通信部3は、画像入力手段30として動作するとともに、表示部6と協働して認識結果出力手段31として機能する。記憶部4は、区分領域情報記憶手段41、特徴量抽出モデル記憶手段42、及びテンプレート特徴量記憶手段43として機能する。画像処理部5は、検査領域設定手段55、特徴量抽出手段50、重み計算手段51、統合手段52、及び認識手段56として機能する。
【0083】
[画像入力手段30]
画像入力手段30は、撮影部2a,2b,2c,…が撮影した画像のうち、検索範囲として指定された画像を画像処理部5の特徴量抽出手段50及び検査領域設定手段55に入力する。画像入力手段30により入力される画像を入力画像と称する。画像入力手段30は本発明におけるデータ入力手段であり、入力画像は本発明における入力データである。
【0084】
[区分領域情報記憶手段41]
区分領域情報記憶手段41は学習装置200の構成として上述した同手段と同様の情報を記憶する。すなわち、認識装置600の区分領域情報記憶手段41は、入力画像を所定サイズの複数の領域に区分する区分領域の設定を表す区分領域情報を予め記憶する。好適には、区分領域は、様々なサイズの検査領域に適応するために、大きさや間隔が異なる複数種類の区分にて設定される。本実施形態では、区分領域の設定は、学習装置200の構成で上述した設定と共通設定とする。
【0085】
[特徴量抽出モデル記憶手段42]
特徴量抽出モデル記憶手段42は学習装置200の構成として上述した同手段と同様の情報を記憶する。特徴量抽出モデル記憶手段42に記憶される特徴量抽出モデルは、上述した学習を経て得られた学習済みの特徴量抽出モデルである。
【0086】
[検査領域設定手段55]
検査領域設定手段55は、入力画像に対して検査領域を設定し、検査領域の情報を重み計算手段51へ出力する。ここで、検査領域とは認識対象領域の候補として任意に設定される領域である。検査領域の情報とは、検査領域の位置及び大きさであり、例えば矩形領域の1頂点の座標と高さと幅である。
【0087】
入力画像に撮影されている認識対象の位置及び大きさは未知であり、入力画像に認識対象が撮影されていない場合もある。そのため、検査領域設定手段55は、検査領域を、位置又は大きさの少なくとも一方を異ならせて複数設定する。本実施形態では、入力画像内の全域に予め定めた間隔で予め定めた8種の大きさの検査領域を設定する。
例えば、128×128画素の入力画像に、2画素間隔で、10×20、16×32、20×40、24×48、32×64、40×80、48×96、64×128画素の検査領域を設定する。なお、別途の画像処理または外部指示によって検査領域の位置を限定してもよい。例えば、背景差分処理を行って差分領域とその周辺の位置にのみ検査領域を設定するようにしてもよい。また、撮影条件を参照して、または外部指示によって、検査領域の大きさを限定してもよい。例えば、入力画像の上部2/3は上記8種の大きさのうち10×20~40×80画素の大きさのみを設定し、下部2/3は20×40~64×128画素の大きさのみを設定するようにしてもよい。また、検査領域の形状を、楕円形状としてもよい。
【0088】
認識装置600の特徴量抽出手段50、マルチスケール画像生成手段500、畳み込み手段501、重み計算手段51、及び統合手段52のそれぞれは学習装置200の構成として上述した同手段と入出力先が一部異なり、入出力されるデータの形式やデータの処理方法は同様である。
【0089】
[特徴量抽出手段50]
認識装置600の特徴量抽出手段50は、特徴量抽出モデルを用いて、区分領域の各々についての入力画像の区分特徴量を抽出し、抽出した区分特徴量を統合手段52に出力する。すなわち、特徴量抽出手段50は、特徴量抽出モデル記憶手段42から特徴量抽出モデルを、区分領域情報記憶手段41から区分領域の設定をそれぞれ読み出し、画像入力手段30から入力された入力画像を特徴量抽出モデルに入力し、各区分領域に対応して特徴量抽出モデルが出力した特徴量のそれぞれを当該入力画像における当該区分領域の区分特徴量とする。
【0090】
[マルチスケール画像生成手段500]
認識装置600のマルチスケール画像生成手段500は、入力画像及び区分領域情報を入力され、入力画像をスケーリング処理して区分の種類ごとの正規化画像を生成し、生成した正規化画像を畳み込み手段501に出力する。
【0091】
[畳み込み手段501]
認識装置600の畳み込み手段501は、CNNでモデル化された特徴量抽出モデルを用いて、区分領域の各々についての正規化画像の区分特徴量を抽出し、抽出した区分特徴量を対応する入力画像の区分特徴量として統合手段52に出力する。すなわち、畳み込み手段501は、特徴量抽出モデル記憶手段42から特徴量抽出モデルを読み出し、マルチスケール画像生成手段500から入力された複数の正規化画像それぞれを特徴量抽出モデルに入力し、各区分領域に対応して特徴量抽出モデルが出力した特徴量のそれぞれを入力画像における当該区分領域の区分特徴量とする。
【0092】
[重み計算手段51]
認識装置600の重み計算手段51は、区分領域情報記憶手段41から区分領域の設定を読み出し、画像入力手段30から入力画像が入力され、当該入力画像に対する検査領域が検査領域設定手段55から入力されると、検査領域ごとに、当該検査領域と重複する区分領域の各々について、重複度合いに応じた重みを算出し、算出した重みの情報を統合手段52へ出力する。
【0093】
重複度合いは学習装置200と共通であり、本実施形態ではIoUを用いる。また、学習装置200と同様、重みは、検査領域ごとに総和が一定値になるように正規化される。
【0094】
[統合手段52]
認識装置600の統合手段52は、特徴量抽出手段50から各区分領域の区分特徴量を入力されるとともに、重み計算手段51から各区分領域の重みを入力され、検査領域ごとに、当該検査領域が重複する区分領域について抽出された区分特徴量を、当該区分領域のそれぞれについて計算された重みにて重みづけて統合して統合特徴量を算出し、算出した統合特徴量を認識手段56に出力する。
【0095】
統合手段52における統合方法は学習装置200と共通であり、本実施形態では全要素についての重みづけ和により統合を行う。
【0096】
[テンプレート特徴量記憶手段43]
本実施形態における認識システム1の目的は、指定された入力画像の中から、指定された特定人物の像が撮影されている領域を検出することである。これに対応して、テンプレート特徴量記憶手段43は当該特定人物のテンプレート特徴量を記憶する。
【0097】
例えば、特定人物を指定するために通信部3が外部から当該人物のテンプレート特徴量を受信してテンプレート特徴量記憶手段43が当該特徴量を記憶してもよい。
また、他の例として、特定人物を指定するために通信部3が外部から当該人物の画像を受信する。または認識システム1のユーザーが操作入力部7を操作して撮影部2からの画像上で当該人物の領域を指定する。このように画像で指定された場合、認識手段56が、教師特徴量の抽出と同様の手法で特徴量を抽出するテンプレート特徴量抽出手段(不図示)を備え、テンプレート特徴量抽出手段を用いて特定人物の画像からテンプレート特徴量を抽出し、テンプレート特徴量記憶手段43に記憶させてもよい。または、テンプレート特徴量抽出手段の代わりに、特徴量抽出手段50、重み計算手段51、及び統合手段52が協働して特定人物の領域についての統合特徴量をテンプレート特徴量として求めてもよい。
【0098】
なお、特定人物1人に対してテンプレート特徴量は1つであってもよいし複数であってもよい。
【0099】
[認識手段56]
認識手段56は、統合特徴量を用いて、検査領域が認識対象を表しているか否かを認識する。
【0100】
例えば、認識手段56は、テンプレート特徴量が1つの場合、検査領域について算出された統合特徴量とテンプレート特徴量の距離を算出して予め定めた閾値と比較し、距離が閾値以下であれば当該検査領域にテンプレート特徴量が表す特定人物が撮影されていると判断し、その旨を認識結果出力手段31に出力する。
【0101】
また、認識手段56は、テンプレート特徴量が複数の場合、統合特徴量を入力して特定人物か否かを出力するようモデル化したロジスティック回帰モデルやSVM(サポートベクターマシーン)等の線形識別モデルを、テンプレート特徴量を用いて学習し、学習済みの線形識別モデルに検査領域について算出された統合特徴量を入力して特定人物であるとの出力が得られた検査領域を認識結果出力手段31に出力する。
【0102】
[認識結果出力手段31]
認識結果出力手段31は、認識手段56による認識結果を出力する。例えば、認識結果出力手段31は、認識手段56から入力された検査領域を表す矩形を当該認識対象が設定された入力画像に重畳して、重畳した画像を表示部6にて表示する。
【0103】
<認識装置の動作>
次に、図7を参照して、認識装置600の動作例について説明する。
【0104】
まず、ステップS200にて、画像処理部5は、通信部3により外部からテンプレート特徴量を受信してテンプレート特徴量記憶手段43に記憶させ、操作入力部7によりユーザーから検索範囲として指定された撮影部2を識別する情報を記憶部4に記憶させる。
【0105】
ステップS201にて、検査領域設定手段55は、入力画像中に検査領域を設定する。
【0106】
ステップS202にて、重み計算手段51は、区分領域情報記憶手段41が記憶している区分領域と、検査領域設定手段55が設定した検査領域を比較し、検査領域のそれぞれに対して各区分領域との重複度合いに応じた重みを算出する。そして、重み計算手段51は、検査領域ごとの重みの情報を記憶部4に一時記憶させる。
【0107】
ステップS203にて、ステップS200にて検索範囲に指定された撮像部2からの入力画像を画像入力手段30により取得する。
【0108】
ステップS204にて、特徴量抽出手段50のマルチスケール画像生成手段500は、入力画像を区分の種類のそれぞれと対応する倍率でスケーリング処理し、処理結果である正規化画像を区分の種類と対応付けて特徴量抽出手段50の畳み込み手段501に出力する。
【0109】
ステップS205にて、畳み込み手段501は入力された各正規化画像を特徴量抽出モデル記憶手段42が記憶している特徴量抽出モデルに入力し、その出力値として当該画像に対応した種類の区分領域それぞれについての区分特徴量を取得する。そして、畳み込み手段501は取得した区分特徴量を区分領域と対応付けて記憶部4に一時記憶させる。
【0110】
ステップS206にて、画像処理部5は、設定した全ての検査領域について、順次、注目領域に設定する。
【0111】
ステップS207にて、統合手段52は、ステップS205で算出した区分特徴量を、注目領域に対してステップS202で算出した重みにて重みづけ加算して、注目領域の統合特徴量を算出し、算出した統合特徴量を認識手段56に出力する。
【0112】
ステップS208にて、認識手段56は、入力された統合特徴量をテンプレート特徴量記憶手段43に記憶されているテンプレート特徴量と比較して、統合特徴量が表しているものが認識対象であるか否か(すなわち注目領域に特定人物が撮影されているか否か)を判定する。認識手段56は認識対象であると判定した注目領域(認識対象領域)と入力画像を記憶部4に記憶させる。
【0113】
ステップS209にて、画像処理部5は、全ての検査領域について、上記ステップS206~ステップS208の処理を実行したか否かを判定する。上記ステップS206~ステップS208の処理を実行していない検査領域が存在する場合には、上記ステップS206へ戻り、当該検査領域を注目領域に設定する。一方、全ての検査領域について、上記ステップS206~ステップS208の処理を実行した場合には、ステップS210へ移行する。
【0114】
ステップS210にて、画像処理部5は、検索範囲の入力画像の全てについて上記ステップS203~ステップS209の処理を実行したか否かを判定する。上記ステップS203~ステップS209の処理を実行していない入力画像が存在する場合には、上記ステップS203へ戻り、当該入力画像を取得する。一方、検索範囲の入力画像の全てについて、上記ステップS203~ステップS209の処理を実行した場合には、ステップS211へ移行する。
【0115】
ステップS211にて、認識結果出力手段31は、ステップS208にて認識手段56が認識した認識対象領域と入力画像の情報を認識結果として表示する。
【0116】
以上説明したように、本発明の実施の形態に係る認識装置によれば、畳み込みニューラルネットワーク(CNN)を用いて、入力データの区分領域毎に特徴量を抽出し、検査領域と重複する区分領域の各々について、重複度合いに応じた重みを計算し、検査領域と重複する区分領域の各々について抽出された特徴量を、重みを用いて統合する。これにより、学習済みのCNNによって、統合前の特徴量が統合に適した特徴量として算出できるため、近似精度の高い統合特徴量を高速に算出して、認識対象を高速且つ高精度に認識できる。
【0117】
すなわち、特徴量抽出手段50が入力データからの区分特徴量の抽出を一度行い、任意の検査領域の特徴量は、当該領域の特徴量を抽出し直すよりも格段に処理量の少ない重み計算手段51と、同じく格段に処理量の少ない統合手段52によって算出するので、入力データ内の任意の検査領域の特徴量に基づく対象の認識を高速に行うことが可能となる。
また、上述したように、学習装置200により学習した特徴量抽出モデルは、教師特徴量に統合特徴量を近づける学習とCNNでモデル化することとが相まって、精度の高い認識(すなわち、統合特徴量による教師特徴量の高精度な近似)を可能にし、且つ統合に適した区分特徴量を抽出可能なものとなっている。
よって、CNNでモデル化され、教師特徴量に統合特徴量を一致させる学習が行われた特徴量抽出モデルを用いて区分特徴量を抽出することにより、近似精度の高い統合特徴量を高速に算出して、対象を高速且つ高精度に認識することが可能となる。
【0118】
<変形例>
なお、本発明は、上述した実施形態の装置構成及び作用に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0119】
上記実施形態では、特定人物の立位全身を認識対象とする例を示したが、上半身、顔など、他の部分を認識対象としてもよい。また、人を認識対象としても良い(人であるか否かを認識)。また、車両、犬など、人以外を認識対象としても良い。また、個体や物体の種類ではなく、姿勢、笑顔など、状態を認識対象としても良い。なお、例えば特定人物の上半身を認識対象とする場合は学習用画像における認識対象領域を上半身の外接矩形とし且つ教師特徴量を上半身による認識のために特化した学習を行ったCNNに入力して得られた特徴量とするなど、認識対象に適合した学習用データを用意して学習装置200に供すればよい。
【0120】
また、処理対象データを二次元の可視光画像とする例を示したが、処理対象データは近赤外画像、距離画像など他の二次元画像としてもよい。また、撮影部2の代わりに多視点カメラや三次元計測器を用い、処理対象データを多視点の二次元画像から構築した三次元データやポイントクラウドなどの三次元データとしてもよい。その場合の区分領域、検査領域、認識対象領域は三次元の領域となる。また、処理対象データを二次元画像の時系列、三次元データの時系列としてもよい。その場合の区分領域、検査領域、認識対象領域は時空間での領域となる。また、処理対象データは、例えば二次元画像にエッジオペレータを施したエッジ画像、或いは二次元画像から各画素における認識対象の存在度を解析した存在度マップなど、上述したデータを一次加工したデータでもよい。
【0121】
また、学習装置200と認識装置600を別体として構成してもよい。この場合、両装置に共通の処理手段については共通のプログラムを複製して各装置の記憶部に記憶させ、学習装置200での学習を終えた特徴量抽出モデルを認識装置600の特徴量抽出モデルに複製すればよい。その場合、学習装置200と認識装置600は1対多であってもよい。また、撮影部2に代えて録画機や外部ストレージを接続してもよい。データ入力手段は、録画機から順次出力される画像を特徴量抽出手段50等に入力し、または外部ストレージが記憶している画像を順次読み出して特徴量抽出手段50等に入力してもよい。
【0122】
また、教師特徴量が、区分特徴量及び統合特徴量と同種とする例を示したが、区分特徴量及び統合特徴量とは異種の特徴量であってもよい。例えば、区分特徴量及び統合特徴量がCNN特徴量である場合に、教師特徴量がHOG(Histogram of Oriented Gradient)特徴量、LBP(Local Binary Pattern)特徴量、あるいはそれらの特徴量及びCNN特徴量のうちの2以上の組み合わせ、などであってもよい。
【0123】
また、学習手段53による更新量の算出では、CNNのようにパラメータが微分可能な特徴量抽出モデルの場合は勾配法や座標降下法で更新量を算出でき、パラメータが微分不能な特徴量抽出モデルの場合は、焼きなまし法等で更新量を算出できる。
【0124】
また、教師特徴量が、区分特徴量及び統合特徴量とデータ形式(ベクトルの次元数など)を同一とする例を示したが、データ形式が異なっていてもよい。ただしデータ形式を異ならせる場合は、学習手段53に教師特徴量と統合特徴量のデータ形式を同一にするデータ形式変換手段を備えさせ、学習手段53はデータ形式変換手段によりデータ形式を同一にした統合特徴量と教師特徴量の間の誤差を算出すればよい。例えば、教師特徴量が、区分特徴量及び統合特徴量とベクトルの次元数が異なっている場合には、データ形式変換手段により、ベクトルの次元数を同一にするように変換する。また、教師特徴量が行列形式で、区分特徴量及び統合特徴量がベクトル形式である場合には、データ形式変換手段により、行列形式及びベクトル形式の何れか一方に合わせるように変換する。
【0125】
また、認識装置600の重み計算手段51は、重複度合いが所定値未満の区分領域に対する重みを0とすることによって、背景のみが重複している可能性の高い区分領域を排除してもよい。所定値には、例えば0.01程度の値が、事前の実験を通じて予め設定される。好適には認識装置600に合わせて学習装置200の重み計算手段51も重複度合いが上記所定値未満の区分領域に対する重みを0とする。なお、この場合、重みの総和を一定値にする正規化は重みを0にする調整の後に行われる。
【0126】
また、学習装置200と認識装置600の重み計算手段51は、注目領域と区分領域の重複度合いの算出の際、算出した重複度合いに対し、特徴量の特性に応じて単調増加する非線形関数により値を変換してもよい。
例えば、図8に示すように、非線形関数930を用いて、重複度合いの値を変換してもよい。これにより、重複度合いの大きい区分領域に対して、より大きな重みを割り当てる効果が得られる。また、非線形関数931を用いて、重複度合いの値を変換してもよい。これにより、ある程度以上の重複度合いをもつ区分領域に対して、同程度の重みを割り当てる効果が得られる。また、非線形関数932を用いて、重複度合いの値を変換してもよい。これにより、非線形関数930と931で得られる効果の両方が得られる。例えば、位置ずれに敏感な特徴量を用いる場合は非線形関数930を適応し、位置ずれに頑健な特徴量を用いる場合は非線形関数931又は非線形関数932を適応するのが好適である。位置ずれに頑健な特徴量の代表例はCNN特徴量である。なお、この場合、重みの総和を一定値にする正規化は重複度合いの変換の後に行われる。
【0127】
また、学習装置200と認識装置600の重み計算手段51は、注目領域と区分領域の重複度合いの算出の際、算出した重複度合いに対し、認識対象の特性に応じて非線形な変換を適用してもよい。例えば、認識対象が人物の場合、人物を特定するのに有益な情報は、髪型、顔、上着の服装などである。一方、下半身は人物以外の領域が多いため、人物を特定するのに有益な情報は得られにくい。そこで、人物の認識に有益な情報を多く含む区分領域の重複度合いを増幅することで、認識精度向上が期待できる。具体的には、図9に示すように、関数940を用いて、人物の高さ方向の位置に応じて設定した、重複度合いの増幅率により、重複度合いの値を変換してもよい。ここで、区分領域情報941における黒丸は、注目領域と重複する区分領域の重心点を示し、各区分領域の重心点のY座標値を関数940に入力して増幅率を算出すればよい。重複度合いを増幅する範囲は、注目領域内のみであり、注目領域外の増幅率は1.0に設定している。また、区分領域情報941に記載した数値は、増幅前の重複度合いであり、区分領域情報942に記載した数値は、増幅後の重複度合いである。また、この場合、重みの総和を一定値にする正規化は重複度合いの変換の後に行われる。
【0128】
また、区分領域の設定が複数種類ある場合を例に説明したが、これに限定されるものではない。撮影部の設置条件や探索条件によっては検査領域の大きさが1種類で良い場合がある。そのような場合、区分の種類は1種類とすることもできる。また、その場合、区分領域の大きさを検査領域の大きさに対して適正に設定すれば、マルチスケール画像生成手段500は不要である。
【0129】
以上のように、当業者は本発明の範囲内で、実施される形態に合わせて様々な変更を行うことができる。
【符号の説明】
【0130】
1 認識システム
2 撮影部
3 通信部
4 記憶部
5 画像処理部
6 表示部
7 操作入力部
30 画像入力手段
31 認識結果出力手段
40 学習用データ記憶手段
41 区分領域情報記憶手段
42 特徴量抽出モデル記憶手段
43 テンプレート特徴量記憶手段
50 特徴量抽出手段
51 重み計算手段
52 統合手段
53 学習手段
55 検査領域設定手段
56 認識手段
200 学習装置
500 マルチスケール画像生成手段
501 畳み込み手段
600 認識装置
図1
図2
図3
図4
図5
図6
図7
図8
図9