(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-27
(45)【発行日】2024-12-05
(54)【発明の名称】データ処理装置、データ処理方法、及びデータ処理プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241128BHJP
【FI】
G06T7/00 300F
(21)【出願番号】P 2020192448
(22)【出願日】2020-11-19
【審査請求日】2023-08-28
(73)【特許権者】
【識別番号】000108085
【氏名又は名称】セコム株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】吉山 智之
【審査官】鈴木 圭一郎
(56)【参考文献】
【文献】特開2019-079487(JP,A)
【文献】特開2019-049572(JP,A)
【文献】特開2013-218605(JP,A)
【文献】特開2018-136632(JP,A)
【文献】中国特許出願公開第110163091(CN,A)
【文献】米国特許出願公開第2015/0269427(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出する特徴量抽出部と、
前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する特徴量統合部と、
を含むデータ処理装置。
【請求項2】
前記データ特徴量は、要素が循環するように配列された循環型のベクトル又は行列であり、
前記特徴量統合部は、前記対応関係として、対応する要素のずれであり、前記ずれに応じて前記データ特徴量の要素をずらして前記異なる計測点の前記データのデータ特徴量を統合する請求項1記載のデータ処理装置。
【請求項3】
前記対応する要素のずれは、前記異なる計測点の各々から前記対象物への計測方向の相対角度に応じたずれである請求項2記載のデータ処理装置。
【請求項4】
前記特徴量統合部によって前記データ特徴量を統合した特徴量に基づいて
前記対象物の形状を推
定する推定部を更に含み、
機械学習した学習モデルが、
前記特徴量抽出部、前記特徴量統合部、及び前記推定部として機能し、
前記学習モデルは、前記データと、前記位置関係を規定した情報と、前記対象物の位置と、正しい推定結果
である形状データとを、学習データとして用いて機械学習されたものである請求項1~請求項3の何れか1項記載のデータ処理装置。
【請求項5】
特徴量抽出部は、複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出し、
特徴量統合部は、前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する
データ処理方法。
【請求項6】
コンピュータを、
複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出する特徴量抽出部、及び
前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する特徴量統合部
として機能させるためのデータ処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理装置、データ処理方法、及びデータ処理プログラムに係り、特に、複数の計測点から計測されたデータの特徴量を抽出するデータ処理装置、データ処理方法、及びデータ処理プログラムに関する。
【背景技術】
【0002】
画像から対象の位置や形状を推定するタスクでは、画像1枚だけを用いて推定を行うよりも、異なる位置から撮影した複数の画像を用いて推定を行うほうが高精度な結果を得ることができる。特に各画像を撮影したカメラの位置や姿勢(以後、これらを外部パラメータと呼ぶ)が既知の場合は、いわゆる三角測量の原理を用いて、対象までの位置を計算することができるようになるからである。また、あるカメラからでは隠れていて見えなかったものが別のカメラからは観測できることもあり、このような場合も複数枚の画像を用いることで精度を向上させることができる。
【0003】
近年では機械学習を用いて対象までの距離や形状、姿勢を推定する研究が盛んに行われている。例えば、非特許文献1では1枚の画像から対象の姿勢と体型を推定するDeep Learningを用いたアルゴリズムが記載されている。また、非特許文献2では家具などの種類を複数枚の画像から推定するために、対象の周りに複数台のカメラを等間隔に配置して画像を撮影することで、1枚のカメラのみを使用する場合よりもより高精度に形状復元を行うことができることが記載されている。
【先行技術文献】
【非特許文献】
【0004】
【文献】Kolotouros, Nikos, Georgios Pavlakos, and Kostas Daniilidis. ”Convolutional Mesh Regression for Single-Image Human Shape Reconstruction.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
【文献】Su, Hang, et al. ”Multi-view convolutional neural networks for 3d shape recognition.” Proceedings of the IEEE international conference on computer vision. 2015.
【発明の概要】
【発明が解決しようとする課題】
【0005】
このような技術を応用して、複数の監視カメラから得られる画像を元に、ある人物の姿勢や体型を推定することを考える。この場合、例えば非特許文献1を各々の画像に適用して推定結果を得る手法が考えられる。
【0006】
この手法では、1つのカメラから得られる画像のみで推定した、誤差が大きい推定結果が複数得られることになるため、複数の推定結果をどのように統合するかが難しい問題になる。
【0007】
例えば各監視カメラと対象の位置関係や、対象の写り具合などを加味しながら結果の統合を行うことが考えられるが、様々な状況下で安定して高精度な推定結果が得られる統合アルゴリズムを作成することは困難である。
【0008】
また、監視カメラは予め壁や天井に固定されているため、人物が監視空間内を移動する場合は、非特許文献2のように常に対象とカメラの位置関係を維持し続けることは難しい。
【0009】
そこで、本発明は、複数の計測点からの計測データの特徴量を、計測点と対象物との関係を考慮して統合することができるデータ処理装置、データ処理方法、及びデータ処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記の目的を達成するために本発明に係るデータ処理装置は、複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出する特徴量抽出部と、前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する特徴量統合部と、を含んで構成されている。
【0011】
本発明に係るデータ処理装置によれば、特徴量抽出部によって、複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出する。
【0012】
そして、特徴量統合部によって、前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する。
【0013】
このように、複数の計測点の各々と、データが表す対象物との実空間上の位置関係に基づいて、異なる計測点のデータ特徴量間の要素の対応関係を決定して、対応する要素同士を統合することにより、複数の計測点からの計測データの特徴量を、計測点と対象物との関係を考慮して統合することができる。
【0014】
また、前記データ特徴量は、要素が循環するように配列された循環型のベクトル又は行列であり、前記特徴量統合部は、前記対応関係として、対応する要素のずれであり、前記ずれに応じて前記データ特徴量の要素をずらして前記異なる計測点の前記データのデータ特徴量を統合することができる。
【0015】
また、前記対応する要素のずれは、前記異なる計測点の各々から前記対象物への計測方向の相対角度に応じたずれである、とすることができる。
【0016】
また、前記データ処理装置は、前記特徴量統合部によって前記データ特徴量を統合した特徴量に基づいて推定結果を出力する推定部を更に含み、機械学習した学習モデルが、少なくとも前記推定部として機能し、前記学習モデルは、前記データと、前記位置関係を規定した情報と、前記対象物の位置と、正しい推定結果とを、学習データとして用いて機械学習されたものである、とすることができる。
【0017】
本発明に係るデータ処理方法は、特徴量抽出部は、複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出し、特徴量統合部は、前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する。
【0018】
本発明に係るデータ処理プログラムは、コンピュータを、複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出する特徴量抽出部、及び前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する特徴量統合部として機能させるためのプログラムである。
【発明の効果】
【0019】
本発明のデータ処理装置、データ処理方法、及びデータ処理プログラムによれば、複数の計測点からの計測データの特徴量を、計測点と対象物との関係を考慮して統合することができる、という効果が得られる。
【図面の簡単な説明】
【0020】
【
図1】本発明の実施の形態に係る画像処理システムの構成を示す概略図である。
【
図2】本発明の実施の形態に係る画像処理装置の構成を示す概略図である。
【
図4】形状あり特徴量ベクトルを示す模式図である。
【
図5】形状あり特徴量ベクトルを統合する例を示す模式図である。
【
図6】本発明の実施の形態に係る学習装置の構成を示す概略図である。
【
図7】本発明の実施の形態に係る学習装置による学習処理の動作を示すフローチャートである。
【
図8】本発明の実施の形態に係る画像処理装置による画像処理の動作を示すフローチャートである。
【
図9】複数の監視画像から人物の形状を復元するイメージを示す図である。
【発明を実施するための形態】
【0021】
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、監視空間に複数の撮影装置が存在し、その中を移動する人物について姿勢や体型などの形状を推定する画像処理システムに本発明を適用した場合を例に説明する。
【0022】
<システム構成>
以下、本発明を適用した画像処理システム1000の概略構成を示した
図1を参照し、本発明の実施の形態の構成を説明する。
【0023】
(画像処理システム1000)
画像処理システム1000は、複数の撮影装置1100、ネットワーク1200、画像処理装置100、及び学習装置150を有する。なお、画像処理装置100が、データ処理装置の一例である。
【0024】
(撮影装置1100)
複数の撮影装置1100は、複数の視点から監視画像を撮影する。ここで、視点が計測点の一例である。具体的には、複数の撮影装置1100は、所定の監視空間を監視する目的で複数の設置個所に設置される監視カメラである。撮影装置1100で撮影した監視画像は、画像処理装置100に送信される。
【0025】
(ネットワーク1200)
ネットワーク1200は、複数の撮影装置1100、画像処理装置100、及び学習装置150の間でデータの送受信を行なうために利用される回線である。LAN(Local Area Network)や、インターネット等の公衆回線が本発明のネットワーク1200として利用できる。ネットワーク1200上の電文については、公知のVPN技術等を用いて、電文を暗号化する等の安全措置が講じられることが望ましい。
【0026】
(画像処理装置100)
画像処理装置100は、CPU、GPU、MPU、周辺回路、端子、各種メモリなどから構成され、複数の撮影装置1100が送信した監視画像を受信し、監視画像に写る人物の形状を推定する。
【0027】
図2に示すように、画像処理装置100は、機能的には、入力部10、演算部20、及び出力部50を備えている。
【0028】
入力部10は、受信した複数の監視画像を受け付ける。ここで、複数の撮影装置1100の位置、監視画像に写る対象人物の位置は既知であるとし、
図3に示すような、複数の監視画像が得られる。対象人物の位置の計測には画像によるトラッキングなどによって得ても良いし、レーザーセンサ、赤外線センサ、超音波センサ、無線電波測位などを用いても良い。
【0029】
演算部20には、事前に学習されたニューラルネットワークが実装されており、複数の監視画像をニューラルネットワークに入力して、監視画像に写る人物の形状を推定し、出力部50により出力する。
【0030】
以下、演算部20を構成する特徴量抽出部22、形状変換部24、特徴量統合部26、及び推定部28の各部について、詳細に説明する。なお、特徴量抽出部22及び形状変換部24が、特徴量抽出部の一例である。
【0031】
特徴量抽出部22は、複数の視点から撮影された監視画像の各々について、特徴量ベクトルを抽出する。具体的には、畳み込みニューラルネットワークにより、それぞれの監視画像を特徴量ベクトルへと変換する。この際、インスタンスセグメンテーション技術などを使用することで、監視画像内の人物のマスク画像を作成し、それを同時に畳み込みニューラルネットワークに入力しても良い。この場合、背景の多様性によって推定精度が低下する可能性を低減できるほか、監視画像内に複数人物が写り込んだ際に処理対象の人物を選択することができるようになる。また、監視画像から対象人物の人物領域を切り出し、当該切り出した人物領域の各々について特徴量ベクトルを抽出してもよい。また、監視画像全体から抽出した特徴量ベクトルにおける人物領域に対応する位置の特徴量を抜き出し、後段の処理に利用する特徴量ベクトルとしてもよい。
【0032】
形状変換部24は、監視画像の各々について抽出された特徴量ベクトルを、要素が循環するように配列された循環型のベクトルである形状あり特徴量ベクトルに変換する。具体的には、循環型のベクトルは、任意の角度で回転しても回転前の図形と重なる軸を持つ形状に沿うよう要素が配列されたものである。なお、形状あり特徴量ベクトルは、データ特徴量の一例である。
【0033】
例えば、形状変換部24は、特徴量ベクトルに基づいて、特徴量を表す要素がリング状に分布する形状あり特徴量ベクトル90を作成する(
図4)。
図4のようなリング形状に沿って、中心に計測対象(被写体)が来るように要素を配列し、計測対象の特徴量を表す要素が、方位角別に配列されているように形状変換を行う。
【0034】
この操作には例えばDeep Learningにおける全結合層を用いてもよいし、計測対象の形を円筒で近似し、円筒を画像に投影した際の対応を用いて特徴量ベクトルを円筒上に配置し、円筒の高さ方向に平均をとることによって得てもよい。ここで、特徴量抽出部22の特徴量ベクトルは、撮影装置1100の外部パラメータを用いずに算出したものであるので、特徴量ベクトルには、撮影装置1100の位置の情報が含まれていないことに留意する必要がある。よって、形状あり特徴量ベクトル90を作成する際には、例えば、
図5の形状あり特徴量ベクトル90aは撮影装置1100aの撮影画像に対応し、形状あり特徴量ベクトル90bは撮影装置1100bの撮影画像に対応する場合、撮影装置1100と計測対象の人物が最も近くなる位置の特徴量を表す要素(撮影装置1100a,bから伸びる実線で接続された要素)が配置されるように形状変換して形状あり特徴量ベクトル90a,bを作成する。このように、形状変換に撮影装置1100の外部パラメータを用いない手法を使用する。
【0035】
特徴量統合部26は、複数の視点の各々と、監視画像が表す人物との実空間上の位置関係に基づいて、異なる視点の監視画像の形状あり特徴量ベクトル90間の要素の対応関係として、対応する要素のずれを決定し、ずれに応じて、形状あり特徴量ベクトル90の要素をずらすように操作する。ここで、対応する要素のずれは、異なる視点の各々から人物の位置へ向かう撮影方向の相対角度に応じたずれである。
【0036】
具体的には、特徴量統合部26は、形状あり特徴量ベクトル90の要素を、撮影装置1100の外部パラメータと人物の位置に基づいて並べ替える操作を行う。
【0037】
例えば、まず、形状あり特徴量ベクトル90のリングを床面などの基準面に置き、形状あり特徴量ベクトル90の要素の中で、撮影装置1100の方位角を表しているもの、すなわち、撮影装置1100と計測対象の人物が最も近くなる位置の特徴量を表す、リングの要素が、実際に撮影装置1100の方位角を向くように、形状あり特徴量ベクトル90のリングを回転させる。回転量は、監視画像中の人物の位置と、撮影装置1100の外部パラメータから算出することができる。
【0038】
回転操作は、実際には特徴量ベクトルを一列に並べた後に右や左に要素をシフトさせ、一端をはみ出した要素を他端に移す操作に相当する。また、シフト量が整数にならない場合は、前後の要素の重み付き平均を用いるなどして、連続的な回転を表現することができる。
【0039】
このように、形状あり特徴量ベクトル90では、撮影装置1100から監視画像が表す人物への方位角の関係を、リングの回転として表現することができる(
図5)。ここで、方位角の関係が、実空間上の位置関係の一例である。この場合、俯角の情報は失われるので、俯角の角度を、形状あり特徴量ベクトル90の次元に追加しても良いし、俯角の角度を、コサイン関数及びサイン関数の2つで表し、その2つの値を、形状あり特徴量ベクトル90の次元に追加しても良い。また、撮影装置1100と、監視画像が表す人物との間の距離に関しては、距離の値もしくはその逆数を表す要素を、形状あり特徴量ベクトル90に追加するか、入力する画像の視野角を一定にすることで、遠くの対象は小さく写るようにするといった手法で反映させることができる。
【0040】
また、特徴量統合部26は、監視画像の各々の形状あり特徴量ベクトル90の対応する要素同士を統合することにより、異なる視点の監視画像の形状あり特徴量ベクトル90を統合し、1つの形状あり特徴量ベクトル90を出力する。
【0041】
この操作には、例えば、並べ替え操作後の各形状あり特徴量ベクトル90の要素和を取ることで、全ての形状あり特徴量ベクトル90の情報を含む1つの形状あり特徴量ベクトル90を作成するという手法を用いることができる。もしくは、並べ替え操作後の2つの形状あり特徴量ベクトル90を重ね、円周方向に1次元の畳み込みを行うことで、1つの形状あり特徴量ベクトル90を出力するような操作を行っても良い。これら2つの手法は、2つの形状あり特徴量ベクトル90から1つの形状あり特徴量ベクトル90を作成する手法であるので、これを複数回適用することで、どのような数の形状あり特徴量ベクトルが入力されても1つの形状あり特徴量ベクトル90を出力することができる。撮影装置1100の台数が変化しない場合、撮影装置1100の台数分の形状あり特徴量ベクトル90を同時に統合してもよい。
【0042】
推定部28は、特徴量統合部26により出力された1つの形状あり特徴量ベクトル90を入力として、監視画像が表す人物の形状を推定し、出力部50により出力する。具体的には、1つの形状あり特徴量ベクトル90を、ニューラルネットワークに入力し、人物の形状を表す出力を得る。
【0043】
例えば、人物の3次元形状と姿勢を表現するパラメータを、全結合層を用いて推定する。パラメータと人物姿勢や形状の結びつけには、例えば非特許文献3の手法を用いてもよいし、人物形状を表すメッシュモデルの全頂点を推定して求めても良い。
【0044】
[非特許文献3]Loper, Matthew, et al. ”SMPL: A skinned multi-person linear model.” ACM transactions on graphics (TOG) 34.6 (2015): 1-16.
【0045】
(学習装置150)
画像処理装置100で用いるモデルのパラメータは、学習装置150によって学習される。
【0046】
学習装置150は、CPU、GPU、MPU、周辺回路、端子、各種メモリなどから構成され、複数の視点から撮影された複数の監視画像と、複数の監視画像が表す人物の形状と、その撮影を行った際の撮影装置1100の位置や姿勢を表す外部パラメータと、人物の位置情報とを受け付け、監視画像に写る人物の形状を推定するためのモデルのパラメータを学習する。
【0047】
図6に示すように、学習装置150は、機能的には、入力部60、及び演算部70を備えている。
【0048】
入力部60は、複数の視点から撮影された複数の監視画像と、当該複数の監視画像が表す人物の形状と、その撮影を行った際の撮影装置1100の位置や姿勢を表す外部パラメータと、人物の位置情報とを受け付ける。
【0049】
例えば、学習データとして、人物を複数の視点から撮影した複数の画像と、その撮影を行った際の撮影装置1100の位置や姿勢を表す外部パラメータと、人物の形状や位置情報とを複数セット用意しておき、入力部60が複数の学習データを受け付ける。これらは例えばCGを用いることで用意することができる。
【0050】
以下、演算部70を構成する学習部72及びモデル記憶部74の各部について、詳細に説明する。
【0051】
学習部72は、複数の学習データに基づいて、監視画像に写る人物の形状を推定するためのモデルのパラメータを学習する。
【0052】
具体的には、画像処理装置100の特徴量抽出部22、形状変換部24、特徴量統合部26、及び推定部28で用いている操作は全て微分可能であるため、一般的に広く使用されているDeep Learningの学習アルゴリズムを用いて、特徴量抽出部22、形状変換部24、特徴量統合部26、及び推定部28の全体として機能するニューラルネットワークモデルのパラメータを学習する。
【0053】
例えば、学習データの複数の監視画像と外部パラメータと人物の位置情報を元に、特徴量抽出部22、形状変換部24、特徴量統合部26、及び推定部28の全体として機能するニューラルネットワークモデルが出力した推定結果と、正解データとしてのCGで作成した形状データとの誤差関数を最小化するように各種パラメータを繰り返し更新することで、求めるニューラルネットワークモデルのパラメータを得ることができる。
【0054】
モデル記憶部74は、学習部72によって学習されたモデルのパラメータを記憶している。
【0055】
<画像処理システムの動作>
以下、
図7、
図8に示したフローチャートを参照しつつ、本発明を適用した画像処理システム1000の動作を説明する。なお、学習装置150に、入力部60により、予め用意された複数の学習データが入力されている場合を例に説明する。
【0056】
図7に示す学習装置150の学習処理は事前に実行される。学習処理では、学習データ毎に、画像処理装置100の特徴量抽出部22、形状変換部24、特徴量統合部26、及び推定部28の全体として機能するニューラルネットワークモデルを用いて、人物の形状を推定する(ステップS100)。
【0057】
そして、上記ステップS100での推定結果と、正解データとの誤差関数を最小化するようにニューラルネットワークモデルのパラメータを更新する(ステップS102)。
【0058】
そして、予め定められた反復終了条件を満たしたか否かを判定する(ステップS104)。予め定められた反復終了条件を満たさない場合には、ステップS100へ戻り、一方、予め定められた反復終了条件を満たす場合には、ステップS106へ移行する。
【0059】
なお、反復終了条件としては、誤差関数の値が収束したことや、反復回数が上限に到達したことなどを用いればよい。
【0060】
そして、最終的に学習されたニューラルネットワークモデルのパラメータをモデル記憶部74に格納し(ステップS106)、学習処理を終了する。
【0061】
そして、学習装置150によって学習された、特徴量抽出部22、形状変換部24、特徴量統合部26、及び推定部28の全体として機能するニューラルネットワークモデルのパラメータが、画像処理装置100に設定される。
【0062】
複数の撮影装置1100から複数の監視画像を受信した画像処理装置100は、
図8に示す画像処理を行う。なお、以下に説明する
図8の画像処理装置100の動作は、複数の撮影装置1100によって撮影された複数の監視画像を1セット受信するごとに実行される。なお、監視画像から対象人物の人物領域を切り出し、当該切り出した人物領域の各々について特徴量ベクトルを抽出する場合は、複数の撮影装置1100によって撮影された複数の監視画像を1セット受信するごとに各監視画像から対象人物の人物領域を切り出し、切り出した人物領域の画像に対して
図8に示す画像処理を行う。
【0063】
まず、特徴量抽出部22は、複数の視点から撮影された複数の監視画像の各々について、特徴量ベクトルを抽出する(ステップS110)。
【0064】
形状変換部24は、複数の監視画像の各々について抽出された特徴量ベクトルを、要素が循環するように配列された形状あり特徴量ベクトル90に変換する(ステップS112)。
【0065】
特徴量統合部26は、複数の視点の各々と、監視画像が表す人物との実空間上の位置関係に基づいて、異なる視点の監視画像の形状あり特徴量ベクトル90間の要素の対応関係として、対応する要素のずれを決定し、ずれに応じて、形状あり特徴量ベクトル90の要素をずらすように操作する(ステップS114)。この際、ずれ量が整数にならない場合は、隣接する要素をもとに線形補間などの補間操作を行い、回転後の要素の値を算出する。
【0066】
また、特徴量統合部26は、監視画像の各々の形状あり特徴量ベクトル90の対応する要素同士を統合することにより、異なる視点の監視画像の形状あり特徴量ベクトル90を統合し、1つの形状あり特徴量ベクトル90を出力する(ステップS116)。
【0067】
推定部28は、特徴量統合部26により出力された1つの形状あり特徴量ベクトル90を入力として、監視画像が表す人物の形状を推定し、出力部50により出力する(ステップS118)。具体的には、1つの形状あり特徴量ベクトル90を、全結合層に入力し、人物の形状を表す出力を得る。
【0068】
以上説明してきたように、本発明の実施の形態に係る画像処理装置100では、複数の視点の各々と、監視画像が表す人物との実空間上の位置関係に基づいて、異なる視点の監視画像の形状あり特徴量ベクトル90間の要素の対応関係を決定して、対応する要素同士を統合することにより、複数の視点からの監視画像の特徴量を、視点と人物との関係を考慮して統合することができる。例えば、上記
図5に示すように、複数の撮影装置から得られた監視画像の特徴量を、撮影装置と人物との位置関係を考慮しながら統合することができる。よって、撮影装置と人物との位置関係が常に変化する状況、例えば、監視空間を人物が歩き回る状況であっても、当該人物を同時刻に撮影した複数の撮影装置の監視画像から、効果的に特徴量ベクトルを統合することにより、他の視点からの監視画像の特徴量ベクトルを復元することができ、人物の形状を精度よく推定することができる(
図9(a)参照)。
図9(a)では、複数の撮影装置の監視画像から、人物の形状を推定し、当該推定した形状を用いて他の視点からの監視画像を復元するイメージを示している。
【0069】
<変形例>
以上、本発明の好適な実施形態について説明してきたが、本発明はこれらの実施形態に限定されるものではない。例えば、本実施形態では、リング形状に要素が配列された形状あり特徴量ベクトル90に変換する場合を例に説明したが、これに限定されない。例えば、円筒や球面に要素が配列された形状あり特徴量ベクトル90に変換するようにしてもよい。この場合にも、同様に要素和を取ることで統合することができる。また、統合に畳み込みを利用するならば、2次元の畳み込みを利用することで同様に統合が可能である。
【0070】
また、形状あり特徴量ベクトル90の形状として、例えば球面を使用した場合は、リングと異なり球面を3次元的に回転させることができるので、人物から撮影装置への方位角のみならず俯角も表現することができる。このように、循環型のベクトルは、任意の角度で回転しても回転前の図形と重なる軸を持つ形状に沿うよう配列するのが好適である。
【0071】
また、撮影装置は移動していてもよい。この場合、撮影装置にIMU(Inertial Measurement Unit)を組み合わせるなどして、撮影した時点での外部パラメータを逐次取得する必要がある。
【0072】
また、推定部が人物の形状を推定する場合を例に説明したが、これに限定されない。例えば、推定部が、一般物体の形状を推定したり、人物の3次元キーポイントを推定したり、人物同定を行うようにしてもよい。
【0073】
また、画像処理装置100の各部が、ニューラルネットワークを用いる場合を例に説明したが、これに限定されない。例えば、特徴量抽出部22が、画像からHOG(Histogram of Oriented Gradients)特徴量を抽出し、形状変換部24は、円筒面にHOG特徴量を表す要素を貼り付けた形状あり特徴量ベクトル90に変換し、特徴量統合部26が、形状あり特徴量ベクトル90を統合し、推定部28が、SVM(Support Vector Machine)を用いた回帰によって形状の推定を行うようにしてもよい。このように、Deep Learningによらない他の機械学習の手法に適用してもよい。また、形状変換部24、特徴量統合部26のそれぞれは機械学習を用いることなくても実現することが可能である。
【0074】
また、複数の視点から撮影した監視画像の特徴量を統合する場合を例に説明したが、これに限定されない。例えば、複数の視点から撮影した距離画像の人物領域の3次元点群の特徴量を統合するようにしてもよい(
図9(b))。
図9(b)では、複数の距離画像撮影装置の距離画像の人物領域の3次元点群から、他の視点からの人物領域の3次元点群を復元するイメージを示している。また、距離画像撮影装置以外の計測装置を用いて複数の計測点から計測した計測データの特徴量を統合するようにしてもよい。例えば、マイクを用いて複数の計測点から音を計測してもよいし、LiDARを用いて複数の計測点から点群を計測してもよい。また、wifiの電波を用いて複数の計測点から計測した計測データから、姿勢推定をするようにしてもよい。
【0075】
また、本実施形態では、人物を計測対象物として計測する場合を例に説明したが、これに限定されない。人物以外を計測対象物として計測してもよい。
【0076】
また、学習部72が、画像処理装置100とは別の学習装置150ではなく、画像処理装置100に設けられてもよい。
【0077】
以上のように、当業者は本発明の範囲内で、実施される形態に合わせて様々な変更を行うことができる。
【符号の説明】
【0078】
10、60 入力部
20、70 演算部
22 特徴量抽出部
24 形状変換部
26 特徴量統合部
28 推定部
50 出力部
72 学習部
74 モデル記憶部
100 画像処理装置
150 学習装置
1000 画像処理システム
1100 撮影装置