【文献】
宇佐美 剛司,山内 悠嗣,山下 隆義,藤吉 弘亘,DPMのスコア回帰を用いたオクルージョン対応による人検出性能の高精度化,情報処理学会研究報告,日本,2015年 5月11日,2015-CVIM-197,pp.1-6
(58)【調査した分野】(Int.Cl.,DB名)
所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の前記位置を含むが一個以上の前記位置が不足している前記部位データを入力され不足位置を補完して出力する補完器を学習する学習装置であって、
付与データとして、前記対象物の複数のサンプルについて、前記必須個数を超える前記要導出部位の前記位置を付与された前記部位データを予め記憶している付与データ記憶手段と、
前記付与データから一個以上の前記位置を欠落させて、前記必須個数以上の前記位置を含む劣化データを生成する劣化データ生成手段と、
前記劣化データを入力とし前記付与データを出力の目標値とする学習によって前記補完器を生成する補完器学習手段と、
を備えたことを特徴とする学習装置。
所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、計測データを入力され当該計測データに計測された前記対象物の前記部位データを推定する推定器を学習する学習装置であって、
前記対象物の複数のサンプルについて得られ所定の必須個数を超える前記要導出部位の前記位置を付与された前記部位データを付与データとして、前記付与データから一個以上の前記位置を欠落させて生成される前記必須個数以上の前記位置を含む劣化データを入力とし前記付与データを出力の目標値とする学習によって予め生成された補完器を記憶している補完器記憶手段と、
学習用の前記計測データに計測された前記対象物について得た前記部位データを前記補完器に入力して補完済み部位データを生成する補完データ生成手段と、
前記学習用の計測データを入力とし前記補完済み部位データを出力の目標値とする学習によって前記推定器を生成する推定器学習手段と、
を備えたことを特徴とする学習装置。
所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の前記位置を含むが一個以上の前記位置が不足している前記部位データを入力され不足位置を補完して出力する補完器を学習する学習方法であって、
付与データとして、前記対象物の複数のサンプルについて、前記必須個数を超える前記要導出部位の前記位置を付与された前記部位データを予め用意するステップと、
前記付与データから一個以上の前記位置を欠落させて、前記必須個数以上の前記位置を含む劣化データを生成する劣化データ生成ステップと、
前記劣化データを入力とし前記付与データを出力の目標値とする学習によって前記補完器を生成する補完器学習ステップと、
を備えたことを特徴とする学習方法。
所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、計測データを入力され当該計測データに計測された前記対象物の前記部位データを推定する推定器を学習する学習方法であって、
前記対象物の複数のサンプルについて得られ所定の必須個数を超える前記要導出部位の前記位置を付与された前記部位データを付与データとして、前記付与データから一個以上の前記位置を欠落させて生成される前記必須個数以上の前記位置を含む劣化データを入力とし前記付与データを出力の目標値とする学習によって予め生成された補完器を用意するステップと、
学習用の前記計測データに計測された前記対象物について得た前記部位データを前記補完器に入力して補完済み部位データを生成する補完データ生成ステップと、
前記学習用の計測データを入力とし前記補完済み部位データを出力の目標値とする学習によって前記推定器を生成する推定器学習ステップと、
を備えたことを特徴とする学習方法。
所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の前記位置を含むが一個以上の前記位置が不足している前記部位データを入力され不足位置を補完して出力する補完器を学習する処理をコンピュータに行わせるプログラムであって、
当該コンピュータを、
付与データとして、前記対象物の複数のサンプルについて、前記必須個数を超える前記要導出部位の前記位置を付与された前記部位データを予め記憶している付与データ記憶手段、
前記付与データから一個以上の前記位置を欠落させて、前記必須個数以上の前記位置を含む劣化データを生成する劣化データ生成手段、及び、
前記劣化データを入力とし前記付与データを出力の目標値とする学習によって前記補完器を生成する補完器学習手段、
として機能させることを特徴とする学習プログラム。
所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、計測データを入力され当該計測データに計測された前記対象物の前記部位データを推定する推定器を学習する処理をコンピュータに行わせるプログラムであって、
当該コンピュータを、
前記対象物の複数のサンプルについて得られ所定の必須個数を超える前記要導出部位の前記位置を付与された前記部位データを付与データとして、前記付与データから一個以上の前記位置を欠落させて生成される前記必須個数以上の前記位置を含む劣化データを入力とし前記付与データを出力の目標値とする学習によって予め生成された補完器を記憶している補完器記憶手段、
学習用の前記計測データに計測された前記対象物について得た前記部位データを前記補完器に入力して補完済み部位データを生成する補完データ生成手段、及び、
前記学習用の計測データを入力とし前記補完済み部位データを出力の目標値とする学習によって前記推定器を生成する推定器学習手段、
として機能させることを特徴とする学習プログラム。
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来技術では、撮影画像に現れていない部位を推定する精度が低いため、隠蔽があると対象物の姿勢、存在領域、属性等の認識が困難となる問題があった。
【0007】
例えば、人物の腰の辺りがテーブルなどの物体で隠れテーブルの天板より上に上半身、天板より下に脚が撮影された画像を、従来技術により生成した学習済みモデルに入力した場合、上半身および脚のキーポイントの両方とも検出されないか、一方のみ検出されるか、上半身および脚のキーポイントが別々に検出されるか(つまり上半身と脚とが同一人物の部位として検出されない)のいずれかとなってしまう。
【0008】
そのため当該検出結果を基に人の存在領域の認識を行った場合、存在領域無し、1人分の存在領域、2人分の存在領域との認識になり、高精度の認識が難しい。また、1つの存在領域から人の一部の部位の位置しか特定できないため姿勢や属性の認識も困難である。
【0009】
このように、従来技術では、学習用画像と当該画像に現れている部位との関係を学習させていたため、撮影画像に現れていない部位の検出は困難であった。そのため、従来技術では、隠蔽があると姿勢、存在領域、属性などの認識が困難となる場合があった。
【0010】
また、上記問題は、二次元計測データ(画像)のみならず三次元計測データにおいても生じ、同様に二次元計測データの時系列、三次元計測データの時系列においても生じる。
【0011】
本発明は上記問題を鑑みてなされたものであり、対象物のデータにおいて欠落している部位のデータを精度良く補完できる補完器または推定器を生成できる学習装置、学習方法および学習プログラムを提供することを目的とする。
【0012】
また、本発明は、一部が隠蔽された対象物が計測されても隠蔽されている部位の位置を補完して当該対象物を認識できる対象物認識装置を提供することを別の目的とする。
【課題を解決するための手段】
【0013】
(1)本発明に係る学習装置は、所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の前記位置を含むが一個以上の前記位置が不足している前記部位データを入力され不足位置を補完して出力する補完器を学習する学習装置であって、付与データとして、前記対象物の複数のサンプルについて、前記必須個数を超える前記要導出部位の前記位置を付与された前記部位データを予め記憶している付与データ記憶手段と、前記付与データから一個以上の前記位置を欠落させて、前記必須個数以上の前記位置を含む劣化データを生成する劣化データ生成手段と、前記劣化データを入力とし前記付与データを出力の目標値とする学習によって前記補完器を生成する補完器学習手段と、を備える。
【0014】
(2)本発明に係る他の学習装置は、所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、計測データを入力され当該計測データに計測された前記対象物の前記部位データを推定する推定器を学習する学習装置であって、前記対象物の複数のサンプルについて得られ所定の必須個数を超える前記要導出部位の前記位置を付与された前記部位データを付与データとして、前記付与データから一個以上の前記位置を欠落させて生成される前記必須個数以上の前記位置を含む劣化データを入力とし前記付与データを出力の目標値とする学習によって予め生成された補完器を記憶している補完器記憶手段と、学習用の前記計測データに計測された前記対象物について得た前記部位データを前記補完器に入力して補完済み部位データを生成する補完データ生成手段と、前記学習用の計測データを入力とし前記補完済み付与データを出力の目標値とする学習によって前記推定器を生成する推定器学習手段と、を備える。
【0015】
(3)本発明に係る学習方法は、所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の前記位置を含むが一個以上の前記位置が不足している前記部位データを入力され不足位置を補完して出力する補完器を学習する学習方法であって、付与データとして、前記対象物の複数のサンプルについて、前記必須個数を超える前記要導出部位の前記位置を付与された前記部位データを予め用意するステップと、前記付与データから一個以上の前記位置を欠落させて、前記必須個数以上の前記位置を含む劣化データを生成する劣化データ生成ステップと、前記劣化データを入力とし前記付与データを出力の目標値とする学習によって前記補完器を生成する補完器学習ステップと、を備える。
【0016】
(4)本発明に係る他の学習方法は、所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、計測データを入力され当該計測データに計測された前記対象物の前記部位データを推定する推定器を学習する学習方法であって、前記対象物の複数のサンプルについて得られ所定の必須個数を超える前記要導出部位の前記位置を付与された前記部位データを付与データとして、前記付与データから一個以上の前記位置を欠落させて生成される前記必須個数以上の前記位置を含む劣化データを入力とし前記付与データを出力の目標値とする学習によって予め生成された補完器を用意するステップと、学習用の前記計測データに計測された前記対象物について得た前記部位データを前記補完器に入力して補完済み部位データを生成する補完データ生成ステップと、前記学習用の計測データを入力とし前記補完済み部位データを出力の目標値とする学習によって前記推定器を生成する推定器学習ステップと、を備える。
【0017】
(5)本発明に係る学習プログラムは、所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、所定の必須個数以上の前記位置を含むが一個以上の前記位置が不足している前記部位データを入力され不足位置を補完して出力する補完器を学習する処理をコンピュータに行わせるプログラムであって、当該コンピュータを、付与データとして、前記対象物の複数のサンプルについて、前記必須個数を超える前記要導出部位の前記位置を付与された前記部位データを予め記憶している付与データ記憶手段、前記付与データから一個以上の前記位置を欠落させて、前記必須個数以上の前記位置を含む劣化データを生成する劣化データ生成手段、及び、前記劣化データを入力とし前記付与データを出力の目標値とする学習によって前記補完器を生成する補完器学習手段、として機能させる。
【0018】
(6)本発明に係る他の学習プログラムは、所定の対象物を構成する複数の要導出部位それぞれと対応付けて当該部位の位置を表す部位データに関し、計測データを入力され当該計測データに計測された前記対象物の前記部位データを推定する推定器を学習する処理をコンピュータに行わせるプログラムであって、当該コンピュータを、前記対象物の複数のサンプルについて得られ所定の必須個数を超える前記要導出部位の前記位置を付与された前記部位データを付与データとして、前記付与データから一個以上の前記位置を欠落させて生成される前記必須個数以上の前記位置を含む劣化データを入力とし前記付与データを出力の目標値とする学習によって予め生成された補完器を記憶している補完器記憶手段、学習用の前記計測データに計測された前記対象物について得た前記部位データを前記補完器に入力して補完済み部位データを生成する補完データ生成手段、及び、前記学習用の計測データを入力とし前記補完済み部位データを出力の目標値とする学習によって前記推定器を生成する推定器学習手段、として機能させる。
【0019】
(7)本発明に係る対象物認識装置は、計測データから所定の対象物について当該対象物を構成する複数の要導出部位の位置を推定する対象物認識装置であって、前記対象物の前記複数の要導出部位それぞれと対応付けて当該部位の位置を表す付与データであって学習用の前記計測データにおける前記対象物の複数のサンプルから得たものを学習用付与データとし、当該学習用付与データから一個以上の前記位置を欠落させた劣化データを入力とし前記学習用付与データを出力の目標値とする学習によって生成された補完器に前記学習用付与データを入力して得た出力を補完済み付与データとして、前記学習用の計測データを入力とし前記補完済み付与データを出力の目標値とする学習によって生成され
た推定器を記憶している推定器記憶手段と、前記計測データを前記推定器に入力して前記要導出部位の位置を推定する部位推定手段と、を備える。
【発明の効果】
【0020】
本発明の学習装置、学習方法および学習プログラムによれば、対象物のデータにおいて欠落している部位のデータを精度良く補完できる補完器または推定器を生成することが可能となる。
【0021】
また、本発明の対象物認識装置によれば、一部が隠蔽されて対象物が計測されても、隠蔽されている部位の位置を補完して当該対象物を認識することが可能となる。
【発明を実施するための形態】
【0023】
以下、本発明の実施の形態(以下実施形態という)である対象物認識装置1について、図面に基づいて説明する。本発明に係る対象物認識装置は、計測データから所定の対象物について当該対象物を構成する複数の部位の位置を推定し、その結果に基づいて計測データにおける対象物の有無や位置を求めるものであり、本実施形態にて一例として示す対象物認識装置1は、監視空間を撮影した撮影画像から監視空間に現れた人の領域を抽出する。すなわち、本実施形態において、計測データは二次元画像であり、対象物は人である。対象物認識装置1は二次元画像において人を構成する複数の部位の位置を推定して、部位を囲む領域を抽出する。
上記対象物認識に用いる複数の部位を要導出部位、要導出部位の代表点をキーポイントと称する。キーポイントの情報は、少なくとも対応する部位の種別と位置の組み合わせで表され、この組み合わせを含むデータを部位データと称する。そして、各キーポイントを推定することによって、対応する要導出部位の位置が推定される。なお、要導出部位とする部位の種別は、対象物や認識の目的に応じて予め定められる。
【0024】
特に、対象物認識装置1は、学習用画像に現れる部位のアノテーション(付与データ)を用いて、隠れた部位を補完する補完器を学習し、当該補完器によって学習用画像にて隠れている部位の付与データを補完する。ここで、付与データは、学習用の計測データに現れている対象物や、対象物の三次元モデルなどに対して付与される部位データである。また、学習用画像と当該学習用画像についての補完した付与データとを用いて、隠れた部位を含む部位の位置を推定する推定器を学習し、当該推定器によって撮影画像における部位の位置の推定を行う。すなわち、対象物認識装置1は、補完器を学習する学習装置、および推定器を学習する学習装置を含む。
【0025】
[対象物認識装置1の構成]
図1は対象物認識装置1の概略の構成を示すブロック図である。対象物認識装置1は撮影部2、通信部3、記憶部4、画像処理部5および出力部6からなる。
【0026】
撮影部2は、計測データを取得する計測部であり、本実施形態においては監視カメラである。撮影部2は通信部3を介して画像処理部5と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部5に入力する。例えば、撮影部2は、監視空間であるイベント会場の一角に設置されたポールに当該監視空間を俯瞰する所定の固定視野を有して設置され、監視空間をフレーム周期1秒で撮影してカラー画像を生成する。なお、撮影部2はカラー画像の代わりにモノクロ画像を生成してもよい。
【0027】
通信部3は通信回路であり、その一端が画像処理部5に接続され、他端が撮影部2および出力部6と接続される。通信部3は撮影部2から撮影画像を取得して画像処理部5に入力し、画像処理部5から対象物の認識結果を入力され出力部6へ出力する。
【0028】
なお、撮影部2、通信部3、記憶部4、画像処理部5および出力部6の間は各部の設置場所に応じた形態で適宜接続される。例えば、撮影部2と通信部3および画像処理部5とが遠隔に設置される場合、撮影部2と通信部3との間をインターネット回線にて接続することができる。また、通信部3と画像処理部5との間はバスで接続する構成とすることができる。その他、接続手段として、LAN(Local Area Network)、各種ケーブルなどを用いることができる。
【0029】
記憶部4は、ROM(Read Only Memory)、RAM(Random Access Memory)等のメモリ装置であり、各種プログラムや各種データを記憶する。例えば、記憶部4は学習用画像、学習用画像に対する付与データ、学習済みモデルである補完器や推定器の情報を記憶する。記憶部4は画像処理部5と接続されて、画像処理部5との間でこれらの情報を入出力する。すなわち、対象物の認識に必要な情報や、認識処理の過程で生じた情報が記憶部4と画像処理部5との間で入出力される。
【0030】
画像処理部5は、計測データを処理する計測データ処理部であり、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、MCU(Micro Control Unit)、GPU(Graphics Processing Unit)等の演算装置で構成される。画像処理部5は記憶部4からプログラムを読み出して実行することにより各種の処理手段・制御手段として動作し、必要に応じて、各種データを記憶部4から読み出し、生成したデータを記憶部4に記憶させる。例えば、画像処理部5は補完器、推定器を学習し生成する。また、画像処理部5は、生成した補完器、推定器を通信部3経由で記憶部4に記憶させる。また、画像処理部5は推定器を用いて、撮影画像における対象物を認識する処理を行う。
【0031】
出力部6は、液晶ディスプレイまたは有機EL(Electro-Luminescence)ディスプレイ等であり、通信部3から入力された認識結果を表示する。監視員は表示された認識結果に応じて対処の要否等を判断し、必要に応じて対処員を急行させる等の対処を行う。
【0032】
対象物認識装置1は、画像に現れている人についてキーポイントを推定する推定器を構築する学習動作を行い、それにより構築された推定器を用いて画像に写った人のキーポイントを推定し、人の姿勢や外接矩形を検出する認識動作を行う。つまり、対象物認識装置1は、補完器および推定器の学習装置として先に動作される。そこで、以下、対象物認識装置1の構成について、先ず、学習段階に関する構成について説明し、次いで、認識段階に関する構成について説明する。
【0033】
[学習段階に関する対象物認識装置1の構成]
図2は学習段階に関する対象物認識装置1の概略の機能ブロック図であり、記憶部4が学習用データ記憶手段40、補完器記憶手段41および推定器記憶手段42として機能し、画像処理部5が劣化データ生成手段50、補完器学習手段51、キーポイント補完手段52および推定器学習手段53として機能する。
【0034】
学習用データ記憶手段40は多数の学習用の画像を予め記憶する学習用画像記憶手段であると共に、当該学習用画像に撮影されている人について付与された部位データを付与データとして予め記憶している付与データ記憶手段である。学習用データ記憶手段40は、学習用画像と当該画像に撮影されている各人(以下、サンプルと称する。別人物は別サンプルであり、同一人物であっても画像が異なれば別サンプルである)の付与データとを紐づけて保持する。具体的には、各サンプルには互いに識別するためのサンプルIDが付与され、学習用画像には画像IDが付与され、学習用データ記憶手段40にはこれらIDの対応関係が記憶される。学習用画像は、カメラで実際に撮影された実画像でなくてもよく、例えば、コンピュータグラフィックス(CG)などで作られた画像であってもよい。付与データは、各サンプルのキーポイントそれぞれについての種別および位置の情報を含む。また、位置が不明なキーポイントについてはその旨を示す情報とすることができる。つまり、付与データにより、各サンプルの複数のキーポイントについてその種別ごとに当該キーポイントの位置が付与されたか否かと付与された位置がわかる。付与データは、人手によって作成されてもよいし、機械が抽出したものを人が確認し必要に応じて修正することによって作成されてもよいし、それらが混在していてもよい。
【0035】
図3は付与データの例を説明する模式図である。
図3(a)は、要導出部位を17個とし、対象物のキーポイントのトポロジーを図化した例である。キーポイントの位置を表す17個の白丸と、キーポイント間の連結関係を表す16本の線分にて図化されている。
図3(b)は付与データをテーブル形式のデータベースとして定義した例を示している。テーブルの各行がサンプルごとの付与データのレコードを表す。各レコードにおいては、先頭(左側)にサンプルIDを表すインデックスn(n=1,2,…,N)が格納され、続いてキーポイントの情報を表す3つの値の組がキーポイントの種別に対応に対応するインデックスi(i=1,2,…,17)の昇順に17組格納される。
【0036】
上記3つの値の組は、各キーポイントのx座標x
n,i、y座標y
n,i、および当該キーポイントが欠落していないかを表すフラグ(付与フラグ)v
n,iである。付与フラグv
n,iに設定する値は、座標が付与されていれば“1”、座標が付与されていなければ“0”としている。各組において3つの値はx
n,i、y
n,i、v
n,iの順に格納されている。
【0037】
なお、キーポイントの位置は画像上にて相対位置で表されているため、劣化データ生成手段50は付与データにおけるキーポイントの位置を正規化してから劣化データを生成する。例えば、正規化は、各サンプルの付与フラグが1であるキーポイントに対して、当該サンプルの両肩に対応するキーポイントの中心を原点とした座標系に平行移動するといった方法で行うことができる。ちなみに、この場合、右肩および左肩のいずれかの付与フラグが0であるサンプルについては正規化されないことになるが、このように正規化されないサンプルについては学習に用いないこととすればよい。
【0038】
劣化データ生成手段50は、学習用データ記憶手段40から付与データを読み出し、当該付与データにおける各サンプルのキーポイントの一部を欠落させて劣化データを作成する。そして、付与データと劣化データとをセットにして補完器学習手段51へ出力する。例えば、劣化データ生成手段50は、欠落させるキーポイントをランダムに或いは規則的に選択して選択したキーポイントの位置を不明値に置換することによって劣化データを作成することができ、具体的には、劣化データ生成手段50は、選択したキーポイントのx座標、y座標、および付与フラグをそれぞれ0に置換して劣化データを作成する。ただし、劣化データ生成手段50は、付与フラグが1であるキーポイントを予め定めた必須個数以上残す。また、欠落数の最大値を事前に決めておき、劣化データ生成手段50は、最大値を超えない個数のキーポイントを欠落させる。
【0039】
すなわち、劣化データ生成手段50は学習用データ記憶手段40から、必須個数を超えるキーポイントの位置を付与された付与データを読み出し、当該付与データから1個以上の位置を欠落させて、必須個数以上の位置を含む劣化データを生成する。一方、付与データのうち、付与フラグが1のキーポイントが必須個数以下であるものは補完器の学習に用いない。本実施形態では必須個数は1個とする。
【0040】
また、本実施形態では、魚眼レンズ画像や全天球画像などに写っている人の姿勢についても適切に補完できるように、xy座標が(0,0)の点を中心としてランダムな角度でサンプルを回転させ、補完器の学習に用いる。すなわち、劣化データ生成手段50は、正規化後の付与データに対し回転処理を行ってキーポイントのxy座標を変換してから劣化データを生成する。
【0041】
補完器学習手段51は、劣化データ生成手段50から入力された、付与データと劣化データとのペアを用いて補完器を学習する。すなわち、補完器学習手段51は、劣化データを入力とし付与データを出力の目標値とする学習によって補完器を生成する。ここでの学習とは、補完器のパラメータを求めることである。
【0042】
本実施形態においては、補完器を変分自己符号化器(variational autoencoder:VAE)でモデル化する。VAEは線形変換処理、活性化関数等から構成され、ここでは、活性化関数としてReLU関数を用いる。本実施形態では、補完器学習手段51はVAEを構成する各要素のパラメータについて誤差関数を最小化する学習を行う。誤差関数として、劣化データを補完器に入力して得られたキーポイントの座標と、付与データのキーポイントの座標との二乗誤差などを用いる。このとき、付与フラグが0であるキーポイントについては誤差関数に含めない。最小化には確率的最急降下法などを用いる。
【0043】
補完器記憶手段41は、補完器学習手段51によって得られた補完器のパラメータを記憶する。また、補完器記憶手段41には補完器として用いるVAEの構造が格納される。
【0044】
キーポイント補完手段52は、補完器記憶手段41に格納されている学習済みの補完器を用いて、学習用データ記憶手段40に記憶されている各サンプルの付与データに対して補完を行う。つまり、キーポイント補完手段52は、学習用画像に写るサンプルについて得た付与データを、補完器に入力して補完済み付与データを生成する補完データ生成手段である。キーポイント補完手段52により、各サンプルについて全てのキーポイントの座標が算出される。つまり、キーポイント補完手段52への入力時に欠落していたキーポイントの位置が補完され、当該キーポイントについて、算出された座標と付与フラグの値“1”とからなる位置情報を格納した補完済み付与データが生成される。なお、入力時に既に位置が付与されていたキーポイントについては、補完済み付与データにおける位置情報として、入力時の座標を用いてもよいし、補完器の出力の座標を用いてもよい。本実施形態では入力時の値を用いる。
【0045】
キーポイント補完手段52は生成した補完済み付与データを、補完前の付与データのサンプルIDと共に推定器学習手段53へ供する。補完済み付与データとサンプルIDとをセットにすることで、当該サンプルIDを介して補完済み付与データと学習用画像との対応関係を保持することができる。補完済み付与データはキーポイント補完手段52から推定器学習手段53に直接入力してもよいし、一旦、学習用データ記憶手段40に格納し、推定器学習手段53が学習用データ記憶手段40から読み出して利用してもよい。
【0046】
ここで、補完前の付与データに含まれるキーポイントの位置は、画像上にて相対位置で表されているため、キーポイント補完手段52は付与データに劣化データ生成手段50と同様の正規化処理を行ってから補完処理を行う。そして、キーポイント補完手段52での補完処理で得られた位置に対して、補完前に正規化により平行移動した分を元に戻す処理を行って、補完済み付与データのキーポイントの位置とする。なお、上述のように正規化できないサンプルが存在し得るが、当該サンプルについては補完前の付与データを補完済み付与データとしてそのまま出力することにする。
【0047】
本実施形態でのキーポイント補完手段52による処理の例を
図4、
図5を用いて説明する。
図4は補完前の画像と付与データの例を示す模式図である。
図4(a)は学習用画像の例であり、当該画像にはサンプルとして2人が写っており、一方の人物60(サンプルID=001)は全身が画像に現れているが、他方の人物61(サンプルID=002)は腰の辺りが机で隠蔽されている。
図4(b)は人物60,61についての付与データを模式的に表しており、人物61の2つのキーポイント“9”,“10”について付与フラグが“0”に設定され、これらの部位の位置が付与されていないことを示している。
【0048】
図5は
図4の人物60,61の部位データであって、キーポイント補完手段52へ入力される補完前の付与データと、キーポイント補完手段52から出力される補完後の補完済み付与データとを
図3(a)と同様に図化した模式図である。ただし、黒丸は補完されたキーポイントを表している。
図5(a),(b)はそれぞれ人物60,人物61について表しており、左側の付与データ62,63が補完前、右側の付与データ64,65が補完後である。人物60に関しては補完前時点で欠落がないので、付与データ62と補完済みの付与データ64との間に変化はないが、人物61に関しては補完前の付与データ63では腰の辺りのキーポイント“9”,“10”が欠落し、これら欠落したキーポイントがキーポイント補完手段52の出力の付与データ64では黒丸で示す位置に補完されている。
【0049】
推定器学習手段53は、学習用画像と、当該画像に対応する補完済み付与データとを用いて、後述するキーポイント推定手段54が用いる推定器を学習する。つまり、推定器学習手段53は、学習用画像を入力とし、当該画像に対応する補完済み付与データを出力の目標値(正解データ)とする学習によって推定器を生成する。目標値は、全サンプルについての付与フラグを含む補完済み付与データであってもよいし、付与フラグが0のキーポイントを有するサンプルを除いた付与フラグ抜きの補完済み付与データであってもよい。推定器学習手段53は学習により得られた推定器を推定器記憶手段42へ出力する。
【0050】
なお、推定器は、画像を入力として対象物ごとのキーポイントを出力するものであれば、どのような手段を用いてもよい。本実施形態では、推定器として非特許文献1で提案された手法を用いる。また、推定器学習手段53は補完済み付与データのうち、全てのキーポイントを用いて学習してもよいし、事前に定めた一部の種別のキーポイントのみを用いて学習してもよい。
【0051】
推定器記憶手段42は推定器学習手段53により学習した学習済みモデルである推定器を記憶する。
【0052】
上述したように本発明の推定器は補完済みのキーポイントを用いて学習されるので、撮影画像に写る対象物にて欠落しているキーポイントを推定する能力が向上する。
【0053】
これに対して、補完されたキーポイントを用いずに推定器を学習する従来の構成にて当該推定器の精度向上を図るには、サンプルとする対象物の大量の画像に対し、全てのキーポイントについてアノテーションが適切になされていることが望ましい。しかし、実際には
図4(a)の人物61のように対象物である人の手前に物体があり、人の像に隠蔽が生じる場合がある。このように隠蔽が存在する人画像に対して、適切にキーポイントの座標を付与することは難しい。また、作業負荷の観点からも、隠蔽が多い画像に対して全キーポイントの座標を適切に付与することは現実的でない。
【0054】
このような隠蔽の多いサンプルを用いて推定器を生成する場合に、隠蔽に対する補完をせずに学習を行う、つまり、見えている部分のみで学習を行ったり、隠蔽されているキーポイントの大部分に対してアノテーションを行わずに学習を行ったりすると、それにより得られた推定器では、同様に隠蔽の多い人画像に関して正しく姿勢を推定できない場合が多く、十分な性能が得られない要因となっている。
【0055】
本発明はこの問題に対処したものであり、一部の要導出部位が欠落した付与データを補完器により自動的に補完し、補完済み付与データを用いて推定器を学習することで、コストを低く抑えつつ推定器の性能向上を図ることができる。
【0056】
[認識段階に関する対象物認識装置1の構成]
図6は認識段階に関する対象物認識装置1の概略の機能ブロック図であり、記憶部4が推定器記憶手段42として機能し、画像処理部5がキーポイント推定手段54および対象物領域検出手段55として機能し、通信部3が画像処理部5と協働し、撮影画像取得手段30および認識結果出力手段31として機能する。
【0057】
撮影画像取得手段30は撮影部2から撮影画像を順次取得して画像処理部5に出力する。
【0058】
推定器記憶手段42は上述したように、学習段階で生成された推定器を記憶している。
【0059】
キーポイント推定手段54(部位推定手段)は、推定器記憶手段42に格納されている推定器を用いて、撮影部2から順次取得した撮影画像を入力として、当該画像に写っている各人物のキーポイントの位置を人物ごとに推定する。ただし、一部のキーポイントしか推定できない場合もあるため、複数のキーポイントについてその種別ごとに画像上での当該キーポイントを推定できたか否かを示す推定フラグとともに当該キーポイントの位置を出力する。
【0060】
対象物領域検出手段55は、キーポイント推定手段54で推定されたキーポイントをもとに対象物領域を検出する。例えば、各人の像に含まれるキーポイントの外接矩形を対象物領域として検出する。
【0061】
認識結果出力手段31は、対象物領域検出手段55が検出した対象物領域を出力部6に出力する。例えば、認識結果出力手段31は、撮影画像に対象物領域を表す矩形を表示した画像を生成して出力部6に出力する。
【0062】
[対象物認識装置1の動作]
次に、対象物認識装置1の動作を、学習段階と認識段階とに分けて説明する。
【0063】
[学習段階での対象物認識装置1の動作]
図7は学習段階での対象物認識装置1の動作に関する概略のフロー図である。
【0064】
対象物認識装置1は撮影画像に現れる対象物を認識する動作に先立って、補完器を学習し、さらに当該補完器による補完済み付与データを用いて推定器を学習する動作を行う。
【0065】
当該学習の動作が開始されると、画像処理部5は、補完器の学習に用いるデータとして学習用データ記憶手段40からサンプルごとの付与データを読み込む(ステップS100)。画像処理部5は当該付与データに対して正規化処理を行い、さらに劣化データ生成手段50として機能し、正規化された付与データに対して欠落処理を行い劣化データを生成する(ステップS105)。
【0066】
画像処理部5は補完器学習手段51として機能し、劣化データ生成手段50により生成された劣化データを入力とし、欠落処理前の付与データを出力の目標値とする学習によって補完器を生成する(ステップS110)。補完器学習手段51は、生成した補完器を補完器記憶手段41に記憶させる。
【0067】
画像処理部5は、補完器を学習により生成すると、続いて推定器の学習動作を開始する。まず、画像処理部5はキーポイント補完手段52として機能する。キーポイント補完手段52は推定器の学習に用いるデータとして、学習用データ記憶手段40から、サンプルIDと対応付けて格納されている各サンプルの付与データを読み込む(ステップS115)。キーポイント補完手段52は当該付与データを、上述の処理で生成された補完器に入力して補完済み付与データを生成する(ステップS120)。
【0068】
画像処理部5は推定器学習手段53として機能し、補完済み付与データのサンプルIDに対応する学習用画像を学習用データ記憶手段40から読み込み、当該画像を入力とし、当該画像に写るサンプルについての補完済み付与データを出力の目標値とする学習によって推定器を生成する(ステップS125)。推定器学習手段53は、生成した推定器を推定器記憶手段42に記憶させる。
【0069】
[認識段階での対象物認識装置1の動作]
図8は認識段階での対象物認識装置1の動作に関する概略のフロー図である。
【0070】
対象物認識装置1は上述の学習段階にて生成した推定器を用いて、撮影画像に現れる対象物を認識する動作を行う。
【0071】
対象物認識装置1が当該動作を開始すると、イベント会場に設置されている撮影部2は所定時間おきに監視空間を撮影して撮影画像を順次、画像処理部5が設置されている画像解析センター宛に送信する。画像処理部5は通信部3と協働して、撮影部2から撮影画像を受信するたびに
図8のフロー図に示す動作を繰り返す。
【0072】
通信部3は撮影画像取得手段30として機能し、撮影画像を受信すると当該撮影画像を画像処理部5に出力する(ステップS200)。
【0073】
画像処理部5はキーポイント推定手段54として機能し、推定器記憶手段42に記憶されている推定器を用いて、入力された撮影画像から人ごとにキーポイントを推定する(ステップS205)。
【0074】
続いて画像処理部5は対象物領域検出手段55として機能し、キーポイント推定手段54が推定したキーポイントを入力として、各人のキーポイントの外接矩形を対象物領域として算出する対象物認識処理を行う(ステップS210)。
【0075】
対象物領域検出手段55による認識処理の結果は、通信部3を介して出力部6に出力される(ステップS215)。具体的には、画像処理部5と通信部3とが協働して認識結果出力手段31として機能し、対象物領域検出手段55から入力された人ごとの外接矩形などの情報から認識画像を作成し、これを出力部6に出力する。
【0076】
[変形例]
(1)上記実施形態では、人の全身を対象物とする例を示したが、対象物は、人の上半身などの人体の一部としてもよいし、車両や椅子などの人以外の物体としてもよい。
【0077】
(2)上記実施形態では、対象物が計測される計測データが二次元画像であり、計測データを取得する計測部は撮影部2とし二次元画像を撮影するカメラである例を示したが、計測データ、計測部はこの例に限られない。例えば、計測データは三次元空間を計測したものであってもよい。三次元計測データの例として、距離画像センサを計測部に用いて得られる距離画像や、多視点カメラで撮影した画像から構築した三次元データを挙げることができる。また、計測データは、二次元画像の時系列(二次元計測データの時系列)、三次元計測データの時系列とすることもできる。
【0078】
(3)上記実施形態では、両肩のキーポイントの中点を正規化後の原点に定めるという1通りのキーポイントの組を用いて正規化を行う例を示した。別の実施形態においては、他のキーポイントの組を用いた正規化を含めて複数通りの正規化を定義しておき、正規化の対象とする付与データごとに当該付与データにおいて利用可能なキーポイントの組に応じた正規化を選択する手法とすることもできる。このようにすることで、サンプルを無駄なく用いた学習を行うことが可能になり、補完器および推定器をより高精度化できる。
【0079】
また、上記実施形態では原点を2つのキーポイントを用いて決める例としたが、原点は1つのキーポイント、または3つ以上のキーポイントを用いて定めてもよい。
【0080】
(4)上記実施形態では、部位データはキーポイントの位置を座標で表現する形態としたが、画像の形態で表現したものとすることもできる。例えば、キーポイントの座標位置のみ画素値が1となるようなバイナリ画像を各キーポイントに対して作成したものや、そのバイナリ画像に対してガウシアンフィルタを適用したものを用いてもよい。その場合、各キーポイントの座標は当該画像での最大値をとる点に対応する。また、劣化データ生成手段50や補完器学習手段51の入力と出力とでキーポイントの位置の表現形態を異ならせてもよく、入力では位置を座標で表し出力では画像で表す構成や、逆に入力を画像とし出力を座標で表す構成とすることができる。
【0081】
(5)補完器への入力は、キーポイントの位置の情報だけでなく、属性情報などを含むものとしてもよい。例えば、キーポイントの位置の情報に加え、子供か大人であるかを属性情報として入力に与えて補完器の学習を行うことで、子供のような体格、大人のような体格に対応したキーポイントの推定ができるようになる。この場合、学習用データ記憶手段40は属性情報などを含んだ付与データを格納する。
【0082】
(6)補完器は、キーポイントの座標の推定値に加えて、座標推定値の信頼度を出力してもよい。この場合、キーポイント補完手段52は、一定以上の信頼度を有するキーポイントのみ、補完済み付与データにおける付与フラグを“1”に設定することができる。例えば、サンプルに元から付与されているキーポイントが少なく座標の推定が難しいような場合には、誤った座標の推定がなされやすい。この点、得られた座標推定値の信頼度が低いキーポイントについては付与フラグを“1”に設定しないことで、補完済み付与データに含まれるキーポイントの位置情報の誤りを抑制できる。例えば、この補完済み付与データを用いることで、推定器学習手段53ではフラグが“1”ではない信頼度の低いキーポイントを無視して推定器を学習することができる。
【0083】
また、信頼度をバイナリで表現される付与フラグに変換せずに補完済み付与データと合わせてそのまま保持すれば、推定器の学習時にサンプルごとの複数のキーポイントそれぞれに対して信頼度で重みづけして学習に利用することもできる。
【0084】
(7)上記実施形態では、補完器としてVAEを用いたが、ニューラルネットワークやガウシアンプロセスなど連続値を出力可能な他のモデルを用いてもよい。また、事前にキーポイントの座標を離散化して、部位の位置の推定を各キーポイントはそれらのいずれかに属するクラス分類問題として定式化することにより、補完器として、アダブースト(AdaBoost)などの識別モデルを用いることもできる。
【0085】
(8)上記実施形態では、キーポイント補完手段52での活性化関数としてReLU関数を用いたが、活性化関数としてtanh関数、シグモイド(Sigmoid)関数などを用いてもよい。また、ResNet(residual network:残差ネットワーク)で用いられるようなショートカット構造を有する構成としてもよい。
【0086】
(9)推定器学習手段53において、入力となる補完済み付与データのうち、一定数以上の部位が欠落した付与データから生成された補完済み付与データについては、それに代えて補完前の付与データを用いて学習してもよい。これによって、例えば、画像内では立っている人物の上半身のみ付与データから生成された補完済み付与データが座っている姿勢のものとなってしまうことによる推定器の精度低下を防ぐことができる。
【0087】
(10)上記実施形態では、補完器と推定器の学習に、共通の学習用データ(学習用画像(学習用の計測データ)と付与データの組)を用いる例を示したが、互いに異なる学習用データを用いてもよい。なお、補完器の学習用データには、付与データが含まれていれば十分であり、学習用の計測データは含まれていなくてもよい。また、補完器のみに用いる付与データは学習用画像と無関係に作成したものでもよい(例えば、対象物の部位データ付き三次元モデルを二次元投影して作成)。また、補完器の学習段階、推定器の学習段階および認識段階に時期差があってもよい。すなわち、推定器の学習段階や認識段階に学習済みの補完器が補完器記憶手段41に記憶されており、認識段階に学習済みの推定器が推定器記憶手段42に記憶されていればよい。
【0088】
(11)上記実施形態では、対象物領域検出手段55は各人の像に含まれるキーポイントの外接矩形を対象物領域としたが、対象物領域は他の方法で定めてもよく、例えば、キーポイントが存在する領域を、事前に定めた規則で変換して(例えばマージンを加えて)対象物領域としてもよい。また、キーポイントの配置から外接矩形への変換を学習して得られた方法を用いてもよい。
【0089】
(12)上記実施形態では、推定器記憶手段42、キーポイント推定手段54、対象物領域検出手段55を画像センター側に設ける例を示したが、これらを撮影部2側に設けてもよい。