特許第6981543号(P6981543)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許6981543動作認識装置、動作認識方法、及びプログラム
<>
  • 特許6981543-動作認識装置、動作認識方法、及びプログラム 図000002
  • 特許6981543-動作認識装置、動作認識方法、及びプログラム 図000003
  • 特許6981543-動作認識装置、動作認識方法、及びプログラム 図000004
  • 特許6981543-動作認識装置、動作認識方法、及びプログラム 図000005
  • 特許6981543-動作認識装置、動作認識方法、及びプログラム 図000006
  • 特許6981543-動作認識装置、動作認識方法、及びプログラム 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6981543
(24)【登録日】2021年11月22日
(45)【発行日】2021年12月15日
(54)【発明の名称】動作認識装置、動作認識方法、及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20211202BHJP
【FI】
   G06T7/00 350B
【請求項の数】15
【全頁数】19
(21)【出願番号】特願2020-513040(P2020-513040)
(86)(22)【出願日】2018年4月13日
(86)【国際出願番号】JP2018015561
(87)【国際公開番号】WO2019198233
(87)【国際公開日】20191017
【審査請求日】2020年9月17日
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110002044
【氏名又は名称】特許業務法人ブライタス
(72)【発明者】
【氏名】細井 利憲
(72)【発明者】
【氏名】川合 諒
【審査官】 新井 則和
(56)【参考文献】
【文献】 特開平06−274636(JP,A)
【文献】 国際公開第2017/154630(WO,A1)
【文献】 国際公開第2018/008593(WO,A1)
【文献】 米国特許出願公開第2018/0012411(US,A1)
【文献】 高垣 幸秀,青野 雅樹,Deep Spatio−Temporal Transformationを用いた逐次人物動作検出,電子情報通信学会技術研究報告 Vol.117 No.238 PRMU2017−63−PRMU2017−100 パターン認識・メディア理解,日本,一般社団法人電子情報通信学会,2017年10月05日,第117巻 第238号,pp. 31-35,ISSN 0913-5685
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00−7/90
(57)【特許請求の範囲】
【請求項1】
対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、生成部と、
前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報を出力する、動作認識・推定部と、
前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、動作認識損失算出部と、
前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、推定損失算出部と、
前記動作認識損失と前記推定損失とを用いて学習パラメータを更新する、学習パラメータ更新部と、
を有することを特徴とする動作認識装置。
【請求項2】
請求項1に記載の動作認識装置であって、
前記生成部は、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
ことを特徴とする動作認識装置。
【請求項3】
請求項1又は2に記載の動作認識装置であって、
前記生成部は、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗り潰した画像として、前記付加画像を生成する
ことを特徴とする動作認識装置。
【請求項4】
請求項1から3のいずれか一つに記載の動作認識装置であって、
前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
ことを特徴とする動作認識装置。
【請求項5】
請求項1から4のいずれか一つに記載の動作認識装置であって、
前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
ことを特徴とする動作認識装置。
【請求項6】
(A)対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
(B)前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
(C)前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
(D)前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
(E)前記動作認識損失と前記推定損失とを用いて学習パラメータを更新する、ステップと、
を有することを特徴とする動作認識方法。
【請求項7】
請求項6に記載の動作認識方法であって、
前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
ことを特徴とする動作認識方法。
【請求項8】
請求項6又は7に記載の動作認識方法であって、
前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗り潰した画像として、前記付加画像を生成する
ことを特徴とする動作認識方法。
【請求項9】
請求項6から8のいずれか一つに記載の動作認識方法であって、
前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
ことを特徴とする動作認識方法。
【請求項10】
請求項6から9のいずれか一つに記載の動作認識方法であって、
前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
ことを特徴とする動作認識方法。
【請求項11】
コンピュータに、
(A)対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
(B)前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
(C)前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
(D)前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
(E)前記動作認識損失と前記推定損失とを用いて学習パラメータを更新する、ステップと、
を実行させるプログラム。
【請求項12】
請求項11に記載のプログラムであって、
前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
ことを特徴とするプログラム
【請求項13】
請求項11又は12に記載のプログラムであって、
前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗りつぶした画像として、前記付加画像を生成する
ことを特徴とするプログラム
【請求項14】
請求項11から13のいずれか一つに記載のプログラムであって、
前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
ことを特徴とするプログラム
【請求項15】
請求項11から14のいずれか一つに記載のプログラムであって、
前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
ことを特徴とするプログラム
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象物体の動作を認識する動作認識装置、動作認識方法、及びプログラムに関する。
【背景技術】
【0002】
対象物体の動作を認識する方法として、撮像装置により撮像した複数の画像から抽出した特徴を用いて、対象物体の動作を認識する方法がある。
【0003】
また、対象物体の動作を認識する方法として、深層学習の一種であるTwo-Stream ConvNets(Two-Stream Convolutional Networks for Action Recognition in Videos)という技術が開示されている。非特許文献1を参照。その技術によれば、画像を入力して物体と背景との特徴を抽出する空間方向のCNN(Convolutional Neural Network)と、オプティカルフローの水平方向成分と垂直方向成分の系列を入力して物体の動作に関する特徴を抽出する時系列方向のCNNとを有する。そして、これらCNNにより抽出された特徴を統合することで、対象物体の動作を精度よく認識している。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Karen Simonyan、Andrew Zisserman、“Two-Stream Convolutional Networks for Action Recognition in Videos”、[online]、平成26年6月9日、Visual Geometry Group, University of Oxford、[平成17年10月3日検索]、インターネット<URL:https://papers.nips.cc/paper/5353-two-stream-convolutional-networks-for-action-recognition-in-videos.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献1に開示されているTwo-Stream ConvNetsでは、画像に撮像された対象物体に対応する対象物体画像に、対象物体画像と別の画像が、重なった状態又は隣接した状態である場合、対象物体の動作を精度よく認識することができない。
【0006】
本発明の目的の一例は、対象物体の動作認識精度を向上させる動作認識装置、動作認識方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明の一側面における動作認識装置は、
対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、生成部と、
前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報を出力する、動作認識・推定部と、
前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、動作認識損失算出部と、
前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、推定損失算出部と、
前記動作認識損失と前記推定損失とを用いて学習パラメータを更新する、学習パラメータ更新部と、
を有することを特徴とする。
【0008】
また、上記目的を達成するため、本発明の一側面における動作認識方法は、
(A)対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
(B)前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
(C)前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
(D)前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
(E)前記動作認識損失と前記推定損失とを用いて学習パラメータを更新する、ステップと、
を有することを特徴とする。
【0009】
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
(A)対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
(B)前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
(C)前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
(D)前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
(E)前記動作認識損失と前記推定損失とを用いて学習パラメータを更新する、ステップと、
を実行させることを特徴とする。
【発明の効果】
【0010】
以上のように本発明によれば、対象物体の動作認識精度を向上させることができる。
【図面の簡単な説明】
【0011】
図1図1は、学習する場合における動作認識装置の一例を示す図である。
図2図2は、学習する場合における動作認識装置を有する動作認識システムの一例を示す図である。
図3図3は、対象物体画像、設定画像、付加画像の一例を示す図である。
図4図4は、学習後における動作認識装置と、その動作認識装置を有するシステムの一例を図である。
図5図5は、学習する場合における動作認識装置の動作の一例を示す図である。
図6図6は、動作認識装置を実現するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0012】
(実施の形態)
以下、本発明の実施の形態における動作認識装置について、図1から図6を参照しながら説明する。
【0013】
[装置構成]
最初に、図1を用いて、本実施の形態における動作認識装置の構成について説明する。図1は、学習する場合における動作認識装置の一例を示す図である。
【0014】
図1に示すように、動作認識装置1は、対象物体の動作を精度よく認識する装置である。動作認識装置1は、生成部2と、動作認識・推定部3と、動作認識損失算出部4と、推定損失算出部5と、学習パラメータ更新部6とを有する。
【0015】
このうち、生成部2は、対象物体に対応する対象物体画像に対して、予め設定された設定画像を付加し、付加画像を生成する。対象物体は、人体、人体部位、人間以外の生物、機械など、動作認識を行う対象となる物体を示す。対象物体画像は、撮像装置により撮像された画像(例えば、動画像の画像など)における、対象物体に対応する画像である。設定画像は、例えば、学習において、画像に撮像された対象物体画像を、画像上で認識困難にするために設定される画像である。また、設定画像は、上述した対象物体に加え、静物、又は建造物などに対応する画像である。付加画像は、対象物体画像のみを有する画像、対象物体画像と設定画像とを有する画像である。付加画像は、例えば、対象物体画像の前面、又は背面、又はその両方に、設定画像を配置した画像である。
【0016】
続いて、動作認識・推定部3は、付加画像を用いて対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、付加画像を用いて設定画像を推定し、推定結果を示す推定情報を出力する。
【0017】
続いて、動作認識損失算出部4は、付加画像に基づいて予め生成した基準となる動作認識情報と、動作認識情報とを用いて動作認識損失を算出する。また、推定損失算出部5は、付加画像に基づいて予め生成した基準となる推定情報と、推定情報とを用いて推定損失を算出する。そして、学習パラメータ更新部6は、動作認識損失と推定損失とを用いて、学習パラメータを更新する。
【0018】
このように、本実施の形態では、多種多様な対象物体画像と設定画像とを用意し、パターンの異なる大量の付加画像を生成し、大量の付加画像を用いて、動作認識装置1を学習できる。そのため、動作認識装置1の動作認識精度を向上させることができる。すなわち、従来のように実際に撮像した画像を用いて学習をさせるのではなく、コンピュータなどを利用して生成した大量の付加画像を用いて、動作認識装置1を学習させるので、動作認識装置1の動作認識精度を向上させることができる。付加画像すべてを、コンピュータグラフィクスを用いて作成してもよい。例えば、二次元(2D)モデル又は三次元(3D)モデルを用いて作成してもよい。
【0019】
なお、動作認識装置1が行う学習は、機械学習などである。具体的には、深層学習などを用いる。また、学習パラメータの更新は、深層学習におけるニューラルネットワークの学習パラメータを更新することである。
【0020】
また、本実施の形態では、動作認識装置1に学習をさせる場合、予め生成した大量の付加画像を利用して、対象物体の動作認識に対する学習をさせるとともに、設定画像の推定に対する学習もさせる。すなわち、動作認識装置1に学習をさせる場合、動作認識の学習と、設定画像の推定の学習とを同時に行う。更に、設定画像の推定よりも動作認識に重点をおいて学習ができるよう定式化しておく。そうすることで、付加画像から設定画像を除去した後に、対象物体の動作を認識する、高精度な動作認識が可能な動作認識装置1を構築できる。言い換えれば、動作認識装置1は、設定画像の推定が不正確でも、トータルとして動作認識の精度がよくなるように学習できる。
【0021】
具体的には、街頭などの人混みで撮像した監視動画像から不審者を検出する場合、上述した高精度な動作認識モデルを適用した動作認識装置1を用いることで、監視動画像から不審者に対応する対象物体画像の前面又は背面又はそれら両方に撮像されている画像を除去して、不審者の動作を検出することができる。
【0022】
続いて、図2図3を用いて、本実施の形態における動作認識装置1の構成をより具体的に説明する。図2は、学習する場合における動作認識装置を有する動作認識システムの一例を示す図である。図3は、対象物体画像、設定画像、付加画像の一例を示す図である。
【0023】
図2に示すように、本実施の形態における動作認識装置1は、生成部2、動作認識・推定部3、動作認識損失算出部4、推定損失算出部5、学習パラメータ更新部6に加えて、対象物体画像記憶部21、付加画像記憶部22、動作特徴抽出部23、特徴抽出部24、を有する。また、動作認識・推定部3は、動作認識部25(識別器)と推定部26(推定器)と保持部27とを有する。
【0024】
生成部2は、対象物体に対応する対象物体画像を有する画像を取得し、取得した画像に設定画像を付加して、付加画像を生成する。
【0025】
具体的には、生成部2は、まず、対象物体画像記憶部21に記憶されている対象物体のみが撮像された画像又は動画像を取得する。動画像とは、例えば、時系列に撮像された画像である。続いて、生成部2は、取得した対象物体画像を有する画像に対して、設定画像を付加する。例えば、生成部2は、図3に示す画像31の対象物体画像T_IMGに、設定画像S1_IMG、S2_IMG、S3_IMGを付加したり、画像31の一部にノイズを加えたり、塗り潰したりして、付加画像35を生成する。そして、生成部2は、生成した付加画像を付加画像記憶部22に記憶する。なお、図3の付加画像35では、設定画像S1_IMG、S2_IMG、S3_IMGを全て付加しているが、設定画像S1_IMG、S2_IMG、S3_IMGのいずれか一つ、又は二つ以上を組み合わせて設定してもよい。
【0026】
また、対象物体画像又は設定画像は、人体画像又は人体を模した画像としてもよい。また、対象物体画像又は設定画像は、輪郭内を一つ以上の色を用いて塗り潰した画像としてもよい。例えば、シルエット画像。また、設定画像は、強い日光の影響による画像が白くなる現象、又は一部の露出が過剰に低くなり画像が黒くなる現象などを模した、対象物体画像の一部を隠蔽する画像でもよい。更に、設定画像は、物理的な物体に限らず、霧やガラスのように透過的に対象物体を隠蔽する画像でもよい。
【0027】
動作認識・推定部3は、動作認識部25と推定部26と保持部27とを有する。動作認識部25は、付加画像を入力とし、保持部27に保持されている学習パラメータに基づいて、対象物体の動作認識をする。また、推定部26は、動作認識部25が動作認識の学習を実行中に、付加画像を入力とし、保持部27に保持されている学習パラメータに基づいて、付加画像に設定された設定画像の推定をする。
【0028】
具体的には、動作認識部25は、付加画像記憶部22から、付加画像を取得する。続いて、動作認識部25は、取得した付加画像を入力とし、保持部27に保持されている学習パラメータに基づいて、対象物体の動作認識をする。そして、動作認識部25は、動作認識結果を示す動作認識情報を出力する。
【0029】
動作認識部25は、例えば、歩く動作を認識した場合にはラベル1、走る動作を認識した場合にはラベル2、しゃがむ動作又はしゃがんだ状態を認識した場合にはラベル3、立ち止まっている動作又は立ち止まっている状態を認識した場合にはラベル4などを、動作認識情報として出力する。
【0030】
また、動作認識部25は、図2に示すように、動作特徴抽出部23を介して、付加画像における対象物体画像の特徴を抽出した情報を用いて、対象物体の動作認識をしてもよい。その場、動作認識部25は、付加画像における対象物体画像の特徴を用いて、保持部27に保持されている学習パラメータに基づいて、対象物体の動作認識をする。
【0031】
具体的には、推定部26は、動作認識部25が動作認識の学習を実行中に、付加画像記憶部22から、付加画像を取得する。続いて、推定部26は、取得した付加画像を入力とし、保持部27に保持されている学習パラメータに基づいて、設定画像を推定する。そして、推定部26は、推定結果を示す推定情報を出力する。
【0032】
推定部26は、例えば、(1)設定画像を人体画像とした付加画像から複数の関節点を推定してもよいし、(2)設定画像を人体を模したシルエット画像とした付加画像からシルエット画像を推定してもよいし、(3)設定画像を塗りつぶした画像とした付加画像から塗りつぶした画像を推定してもよいし、(4)対象物体から設定画像を除去した付加画像を推定してもよい。
【0033】
また、推定部26は、図2に示すように、特徴抽出部24を介して、付加画像における設定画像の特徴を抽出した情報を取得し、設定画像を推定してもよい。その場、推定部26は、付加画像から抽出した設定画像の特徴を用いて、保持部27に保持されている学習パラメータに基づいて、設定画像の推定をする。
【0034】
なお、図2では、動作認識・推定部3の前段に、動作特徴抽出部23及び特徴抽出部24を設ける例を示したが、それらは設けず、直接付加画像を動作認識・推定部3へ入力してもよい。又は、動作特徴抽出部23又は特徴抽出部24のいずれか一方のみを用いてもよい。
【0035】
また、図2では、付加画像記憶部22に付加画像を記憶しているが、付加画像記憶部22を介さず、生成部2から動作認識・推定部3、又は、動作特徴抽出部23及び特徴抽出部24へ直接付加画像を出力してもよい。
【0036】
動作認識損失算出部4は、付加画像に基づいて、予め生成しておいた基準となる動作認識情報と、動作認識部25から取得した動作認識情報とを用いて動作認識損失を算出する。
【0037】
具体的には、動作認識損失算出部4は、動作認識部25から出力された動作認識情報と、基準となる動作認識情報とを比較し、基準となる動作認識情報に近づくほど動作認識損失を小さい値に設定し、遠くなるほど動作認識損失を大きな値に設定する。
【0038】
例えば、動作認識情報として、歩く動作にラベル1、走る動作にラベル2、しゃがむ動作又はしゃがんだ状態にラベル3、立ち止まっている動作又は立ち止まっている状態にラベル4などを対応付けた場合について説明する。上述したような場合において、動作認識損失算出部4は、例えば、基準となる動作認識情報のラベルと、動作認識情報のラベルとが一致した場合、動作認識損失を0.0とし、不一致の場合、動作認識損失を1.0とすることが考えられる。
【0039】
また、上述した四つのラベル1から4を設定した場合、動作認識部25の出力として、四つのスコアを出力するため、それら四つのスコアにSoftMax関数をかけて変換する。そして、四つのスコアを変換した後のスコア{0.1,0.0, 0.9, 0.1}と、基準となる動作認識情報のラベル{0,0, 1, 0}とのベクトル間距離を損失としてもよい。
【0040】
推定損失算出部5は、付加画像に基づいて、生成部2が予め生成した基準となる推定情報と、推定部26より取得した推定情報とを用いて推定損失を算出する。
【0041】
具体的には、推定損失算出部5は、推定部26から出力された推定情報と、生成部2で生成された基準となる推定情報とを比較し、基準となる推定情報に近づくほど推定損失を小さい値に設定し、遠くなるほど推定損失を大きな値に設定する。
【0042】
推定損失について、上述した(1)から(4)に示した推定情報を用いた場合について説明する。
【0043】
(1)関節点を推定情報として利用する場合
推定情報として、人体の複数の関節点を利用して推定損失を算出する場合、推定損失算出部5は、まず、生成部2が生成した付加画像に関連付けられている、生成した付加画像における関節点に対応する座標を取得する。続いて、推定損失算出部5は、基準となる関節点に対応する座標と、推定部26から出力された推定情報が示す付加画像から推定した関節点に対応する座標との距離を、関節点それぞれに対して算出する。そして、推定損失算出部5は、関節点ごとに算出した距離の総和を算出し、算出した総和を人体のサイズ(付加画像における対象物体画像の面積)で除算し、除算した値を推定損失とする。
【0044】
(2)シルエット画像を推定情報として利用する場合
推定情報として、シルエット画像を利用して推定損失を算出する場合、推定損失算出部5は、まず、生成部2が生成した付加画像に関連付けられている、生成した付加画像において基準となるシルエット画像が配置されている付加画像の座標と面積(例えば、付加画像上のシルエット画像の画素数など)を取得する。続いて、推定損失算出部5は、基準となるシルエット画像と、推定部26から出力された推定情報が示す付加画像から推定したシルエット画像とが重複する面積を算出する。そして、推定損失算出部5は、重複する面積を基準となるシルエット画像の面積で除算した値の逆数を推定損失とする。
【0045】
(3)塗りつぶした画像を推定情報として利用する場合
推定情報として、塗りつぶした画像を利用して推定損失を算出する場合、推定損失算出部5は、まず、生成部2が生成した付加画像に関連付けられている、生成した付加画像において基準となる塗りつぶした画像が配置されている付加画像の座標と面積(例えば、付加画像上の塗りつぶした画像の画素数など)を取得する。続いて、推定損失算出部5は、基準となる塗りつぶした画像と、推定部26から出力された推定情報が示す付加画像から推定した塗りつぶした画像とが重複する面積を算出する。そして、推定損失算出部5は、重複する面積を基準となる塗りつぶした画像の面積で除算した値の逆数を推定損失とする。
【0046】
(4)付加画像から設定画像を除去した画像を推定情報として利用する場合
推定情報として、設定画像を除去した画像を利用して推定損失を算出する場合、推定損失算出部5は、まず、生成部2が生成した付加画像に関連付けられている、生成した付加画像において基準となる設定画像を除去した画像を取得する。続いて、推定損失算出部5は、基準となる設定画像を除去した画像と、推定部26から出力された推定情報が示す付加画像から推定した設定画像を除去した画像とについて、それぞれをベクトルと見做してベクトル間の正規化相関をとった値、又はベクトル間の距離を推定損失とする。
【0047】
学習パラメータ更新部は、動作認識損失と推定損失とを用いて学習パラメータを更新し、動作認識・推定部3が有する保持部27に保持されている、学習パラメータを更新する。保持部27は、動作認識装置1又は動作認識装置1の外部に設けられた記憶部を用いてもよい。
【0048】
具体的には、学習パラメータ更新部は、動作認識損失算出部4から出力された動作認識損失と、推定損失算出部5から出力された推定損失とを取得し、例えば、機械学習において用いられる誤差逆伝播法により更新パラメータを導出し、保持部27の更新パラメータを更新する。
【0049】
学習後における動作認識装置1の動作認識について説明する。図4は、学習後における動作認識装置と、その動作認識装置を有するシステムの一例を図である。図4に示すシステムは、撮像装置41と、動作認識装置1と、出力部42とを有する。具体的には、システムは、画像監視システムなどに適用するシステムである。
【0050】
撮像装置41は、例えば、ビデオカメラ、ディジタルカメラなどである。具体的には、撮像装置41は、撮像した監視動画像を、学習した後の動作認識装置1に送信する。
【0051】
動作認識装置1は、実際に、監視動画像を用いて、動作認識をして、動作認識情報を出力する。動作認識装置1は、実際に動作認識をする場合、図4に示すように動作認識・推定部3を用いて、動作認識をする。この際、動作認識・推定部3が有する動作認識部25が動作認識情報を出力し、推定部26も推定情報を出力するが、動作認識情報のみを用いればよい。
【0052】
具体的には、動作認識装置1は、不審者を検出する場合、監視動画像から不審者に対応する対象物体画像の前面又は背面又はそれら両方に撮像されている画像を除去して、不審者の動作を検出する。
【0053】
出力部42は、例えば、動作認識情報を出力部42に出力可能な形式に変換された情報を取得すると、動作認識情報が示す動作認識結果を出力する。出力部42は、例えば、表示装置、音声出力装置などである。
【0054】
[装置動作]
次に、本発明の実施の形態における動作認識装置の動作について図5を用いて説明する。図5は、学習する場合における動作認識装置の動作の一例を示す図である。以下の説明においては、適宜図1から図4を参酌する。また、本実施の形態では、動作認識装置を動作させることによって、動作認識方法が実施される。よって、本実施の形態における動作認識方法の説明は、以下の動作認識装置の動作説明に代える。
【0055】
図5に示すように、最初に、生成部2は、対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加した、付加画像を生成する(ステップA1)。続いて、動作認識・推定部3は、付加画像を用いて対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、設定画像を推定し、推定結果を示す推定情報を出力する(ステップA2)。続いて、動作認識損失算出部4は、付加画像に基づいて予め生成した基準となる動作認識情報と、動作認識情報とを用いて動作認識損失を算出する(ステップA3)。また、推定損失算出部5は、付加画像に基づいて予め生成した基準となる推定情報と、推定情報とを用いて推定損失を算出する(ステップA4)。学習パラメータ更新部6と、動作認識損失と推定損失とを用いて学習パラメータを更新する(ステップA5)。
【0056】
続いて、図5に示したステップA1からA5について詳細に説明する。
【0057】
まず、動作認識装置1の学習を実行する前に、初期パラメータを、保持部27に設定する。続いて、ステップA1において、生成部2は、対象物体画像記憶部21に記憶されている対象物体のみが撮像された画像又は動画像を取得する。続いて、生成部2は、取得した対象物体画像を有する画像に対して、設定画像を付加する。生成部2は、例えば、図3に示す画像31の対象物体画像T_IMGに、設定画像S1_IMG、S2_IMG、S3_IMGを付加して、付加画像35を生成する。そして、生成部2は、生成した付加画像を付加画像記憶部22に記憶する。
【0058】
ステップA2において、動作認識・推定部3は、付加画像を取得する。続いて、動作認識・推定部3は、取得した付加画像を入力とし、保持部27に保持されている学習パラメータに基づいて、対象物体の動作認識をする。そして、動作認識・推定部3は、動作認識結果を示す動作認識情報を出力する。
【0059】
また、動作認識・推定部3は、動作認識の学習を実行中に、付加画像を取得する。続いて、推定部26は、取得した付加画像を入力とし、保持部27に保持されている学習パラメータに基づいて、設定画像を推定する。そして、推定部26は、推定結果を示す推定情報を出力する。
【0060】
なお、動作認識・推定部3は、同じ付加画像を用いて、動作認識情報と設定画像の推定情報とを学習することが好適である。
【0061】
ステップA3において、動作認識損失算出部4は、動作認識部25から出力された動作認識情報と、生成部2が予め生成した基準となる動作認識情報とを用いて、基準となる動作認識情報に対する動作認識損失を算出する。
【0062】
ステップA4において、推定損失算出部5は、推定部26から出力された推定情報と、生成部2で生成された基準となる推定情報とを用いて、基準となる推定情報に対する推定損失を算出する。
【0063】
ステップA5において、学習パラメータ更新部は、動作認識損失算出部4から出力された動作認識損失と、推定損失算出部5から出力された推定損失とを取得し、機械学習において用いられる誤差逆伝播法により更新パラメータを導出し、保持部27の更新パラメータを更新する。
【0064】
ステップA6において、動作認識装置1は、学習を終了するか否かを判定する。例えば、対象物体画像記憶部21に記憶されているすべて又は所定の対象物体画像に対してステップA1からA5に示した処理を実施した場合(ステップA6:Yes)、学習を終了する。また、対象物体画像記憶部21に記憶されている対象物体画像がある場合(ステップA6:No)、ステップA1の処理を再度実行する。
【0065】
なお、ステップA1において、生成部2は、更新が進むほど、設定画像が対象物体画像に重なる部分を大きく設定した付加画像を生成する。そして、ステップA2において、動作認識・推定部3は、これらの付加画像を使用して、動作認識と設定画像の推定との結果に基づいて、更新パラメータを更新する。
【0066】
具体的には、設定画像が対象物画像に重なる面積と対象物体画像の面積との比率が小さくなるように付加画像を生成する。その後、ステップA1からA6の処理を繰り返す回数が進むにつれ比率を大きくする。例えば、繰り返し回数一回目は、比率を10[%]として付加画像を生成し、十回繰り返した場合には比率を20[%]にする。そして百回繰り返した場合には比率を40[%]とする。
このように、初期の段階では対象物体画像と設定画像との重複を最小にした付加画像を利用し、徐々に重複する部分の面積を大きくした付加画像を用いることで、高精度な学習モデルを構築できる。また、動作認識装置1の学習をする際、初期の段階で、設定画像を推定し難い付加画像を用いた場合、動作認識の学習精度が低下するため、初期の段階では、設定画像を推定し易い付加画像を用いるのが好適である。
【0067】
また、学習パラメータは、推定損失が大きい場合、推定損失の大きい付加画像を用いずに更新をする。具体的には、推定損失が大きい付加画像を除外して、再度学習をやり直す。また、ステップA4において、推定損失算出部5が損失が大きいと判定した場合、推定損失算出部5から学習パラメータ更新部6へ、保持部27への更新をしないように指示をする。
【0068】
理由は、動作認識装置1の学習をする際、設定画像を推定し難い付加画像を用いた場合、動作認識の学習精度が低下するため、設定画像を推定し易い付加画像を用いるのが好適である。特に、初期段階に適用した場合に有効である。
【0069】
[本実施の形態の効果]
以上のように本実施の形態によれば、多種多様な対象物体画像と設定画像とを用意し、パターンの異なる大量の付加画像を用意し、大量の付加画像を用いて、動作認識装置1を学習できる。そのため、動作認識装置1の動作認識精度を向上させることができる。すなわち、従来のように実際に撮像した画像を用いて学習をさせるのではなく、コンピュータなどを利用して生成した大量の付加画像を用いて、動作認識装置1を学習させるので、動作認識装置1の動作認識精度を向上させることができる。
【0070】
また、本実施の形態では、動作認識装置1に学習をさせる場合、予め生成した大量の付加画像を利用して、対象物体の動作認識に対する学習をさせるとともに、設定画像の推定に対する学習もさせる。すなわち、動作認識装置1に学習をさせる場合、動作認識の学習と、設定画像の推定の学習とを同時に行う。更に、設定画像の推定よりも動作認識に重点をおいて学習ができるよう定式化しておく。そうすることで、付加画像から設定画像を除去した後、対象物体の動作を認識する、高精度な動作認識が可能な動作認識装置1を構築できる。言い換えれば、動作認識装置1は、設定画像の推定が不正確でも、トータルとして動作認識の精度がよくなるように学習できる。
【0071】
[プログラム]
本発明の実施の形態におけるプログラムは、コンピュータに、図5に示すステップA1からA5を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における動作認識装置と動作認識方法とを実現することができる。この場合、コンピュータのプロセッサは、生成部2、動作認識・推定部3、動作認識損失算出部4、推定損失算出部5、学習パラメータ更新部6として機能し、処理を行なう。
【0072】
また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、生成部2、動作認識・推定部3、動作認識損失算出部4、推定損失算出部5、学習パラメータ更新部6のいずれかとして機能してもよい。
【0073】
[物理構成]
ここで、実施の形態におけるプログラムを実行することによって、動作認識装置を実現するコンピュータについて図6を用いて説明する。図6は、本発明の実施の形態における動作認識装置を実現するコンピュータの一例を示すブロック図である。
【0074】
図6に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。なお、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていてもよい。
【0075】
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであってもよい。
【0076】
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置があげられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
【0077】
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
【0078】
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記録媒体があげられる。
【0079】
[付記]
以上の実施の形態に関し、更に以下の付記を開示する。上述した実施の形態の一部又は全部は、以下に記載する(付記1)から(付記15)により表現することができるが、以下の記載に限定されるものではない。
【0080】
(付記1)
対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、生成部と、
前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報を出力する、動作認識・推定部と、
前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、動作認識損失算出部と、
前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、推定損失算出部と、
前記動作認識損失と前記推定損失とを用いて学習パラメータを更新する、学習パラメータ更新部と、
を有することを特徴とする動作認識装置。
【0081】
(付記2)
付記1に記載の動作認識装置であって、
前記生成部は、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
ことを特徴とする動作認識装置。
【0082】
(付記3)
付記1又は2に記載の動作認識装置であって、
前記生成部は、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗り潰した画像として、前記付加画像を生成する
ことを特徴とする動作認識装置。
【0083】
(付記4)
付記1から3のいずれか一つに記載の動作認識装置であって、
前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
ことを特徴とする動作認識装置。
【0084】
(付記5)
付記1から4のいずれか一つに記載の動作認識装置であって、
前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
ことを特徴とする動作認識装置。
【0085】
(付記6)
(A)対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
(B)前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
(C)前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
(D)前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
(E)前記動作認識損失と前記推定損失とを用いて学習パラメータを更新する、ステップと、
を有することを特徴とする動作認識方法。
【0086】
(付記7)
付記6に記載の動作認識方法であって、
前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
ことを特徴とする動作認識方法。
【0087】
(付記8)
付記6又は7に記載の動作認識方法であって、
前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗り潰した画像として、前記付加画像を生成する
ことを特徴とする動作認識方法。
【0088】
(付記9)
付記6から8のいずれか一つに記載の動作認識方法であって、
前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
ことを特徴とする動作認識方法。
【0089】
(付記10)
付記6から9のいずれか一つに記載の動作認識方法であって、
前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
ことを特徴とする動作認識方法。
【0090】
(付記11)
コンピュータに、
(A)対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
(B)前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
(C)前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
(D)前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
(E)前記動作認識損失と前記推定損失とを用いて学習パラメータを更新する、ステップと、
を実行させるプログラム。
【0091】
(付記12)
付記11に記載のプログラムであって、
前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
ことを特徴とするプログラム
【0092】
(付記13)
付記11又は12に記載のプログラムであって、
前記(A)のステップにおいて、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗りつぶした画像として、前記付加画像を生成する
ことを特徴とするプログラム
【0093】
(付記14)
付記11から13のいずれか一つに記載のプログラムであって、
前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
ことを特徴とするプログラム
【0094】
(付記15)
付記11から14のいずれか一つに記載のプログラムであって、
前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
ことを特徴とするプログラム
【0095】
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【産業上の利用可能性】
【0096】
以上のように本発明によれば、対象物体の動作認識精度を向上させることができる。本発明は、対象物体の動作認識精度を向上させることが必要な分野において有用である。
【符号の説明】
【0097】
1 動作認識装置
2 生成部
3 動作認識・推定部
4 動作認識損失算出部
5 推定損失算出部
6 学習パラメータ更新部
21 対象物体画像記憶部
22 付加画像記憶部
23 動作特徴抽出部
24 特徴抽出部
25 動作認識部
26 推定部
27 保持部
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
図1
図2
図3
図4
図5
図6