特許7594889 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ セコム株式会社の特許一覧

特許7594889データ処理装置、データ処理方法、及びデータ処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-27

(45)【発行日】2024-12-05

(54)【発明の名称】データ処理装置、データ処理方法、及びデータ処理プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20241128BHJP

【ＦＩ】

G06T7/00 300F

【請求項の数】 6

(21)【出願番号】P 2020192448

(22)【出願日】2020-11-19

(65)【公開番号】P2022081112

(43)【公開日】2022-05-31

【審査請求日】2023-08-28

(73)【特許権者】

【識別番号】000108085

【氏名又は名称】セコム株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】吉山智之

【審査官】鈴木圭一郎

(56)【参考文献】

【文献】特開２０１９－０７９４８７（ＪＰ，Ａ）

【文献】特開２０１９－０４９５７２（ＪＰ，Ａ）

【文献】特開２０１３－２１８６０５（ＪＰ，Ａ）

【文献】特開２０１８－１３６６３２（ＪＰ，Ａ）

【文献】中国特許出願公開第１１０１６３０９１（ＣＮ，Ａ）

【文献】米国特許出願公開第２０１５／０２６９４２７（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出する特徴量抽出部と、
前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する特徴量統合部と、
を含むデータ処理装置。

【請求項2】

前記データ特徴量は、要素が循環するように配列された循環型のベクトル又は行列であり、
前記特徴量統合部は、前記対応関係として、対応する要素のずれであり、前記ずれに応じて前記データ特徴量の要素をずらして前記異なる計測点の前記データのデータ特徴量を統合する請求項１記載のデータ処理装置。

【請求項3】

前記対応する要素のずれは、前記異なる計測点の各々から前記対象物への計測方向の相対角度に応じたずれである請求項２記載のデータ処理装置。

【請求項4】

前記特徴量統合部によって前記データ特徴量を統合した特徴量に基づいて前記対象物の形状を推定する推定部を更に含み、
機械学習した学習モデルが、前記特徴量抽出部、前記特徴量統合部、及び前記推定部として機能し、
前記学習モデルは、前記データと、前記位置関係を規定した情報と、前記対象物の位置と、正しい推定結果である形状データとを、学習データとして用いて機械学習されたものである請求項１～請求項３の何れか１項記載のデータ処理装置。

【請求項5】

特徴量抽出部は、複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出し、
特徴量統合部は、前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する
データ処理方法。

【請求項6】

コンピュータを、
複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出する特徴量抽出部、及び
前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する特徴量統合部
として機能させるためのデータ処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ処理装置、データ処理方法、及びデータ処理プログラムに係り、特に、複数の計測点から計測されたデータの特徴量を抽出するデータ処理装置、データ処理方法、及びデータ処理プログラムに関する。

【背景技術】

【0002】

画像から対象の位置や形状を推定するタスクでは、画像１枚だけを用いて推定を行うよりも、異なる位置から撮影した複数の画像を用いて推定を行うほうが高精度な結果を得ることができる。特に各画像を撮影したカメラの位置や姿勢（以後、これらを外部パラメータと呼ぶ）が既知の場合は、いわゆる三角測量の原理を用いて、対象までの位置を計算することができるようになるからである。また、あるカメラからでは隠れていて見えなかったものが別のカメラからは観測できることもあり、このような場合も複数枚の画像を用いることで精度を向上させることができる。

【0003】

近年では機械学習を用いて対象までの距離や形状、姿勢を推定する研究が盛んに行われている。例えば、非特許文献１では１枚の画像から対象の姿勢と体型を推定するＤｅｅｐＬｅａｒｎｉｎｇを用いたアルゴリズムが記載されている。また、非特許文献２では家具などの種類を複数枚の画像から推定するために、対象の周りに複数台のカメラを等間隔に配置して画像を撮影することで、１枚のカメラのみを使用する場合よりもより高精度に形状復元を行うことができることが記載されている。

【先行技術文献】

【非特許文献】

【0004】

【文献】Kolotouros, Nikos, Georgios Pavlakos, and Kostas Daniilidis. ”Convolutional Mesh Regression for Single-Image Human Shape Reconstruction.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

【文献】Su, Hang, et al. ”Multi-view convolutional neural networks for 3d shape recognition.” Proceedings of the IEEE international conference on computer vision. 2015.

【発明の概要】

【発明が解決しようとする課題】

【0005】

このような技術を応用して、複数の監視カメラから得られる画像を元に、ある人物の姿勢や体型を推定することを考える。この場合、例えば非特許文献１を各々の画像に適用して推定結果を得る手法が考えられる。

【0006】

この手法では、１つのカメラから得られる画像のみで推定した、誤差が大きい推定結果が複数得られることになるため、複数の推定結果をどのように統合するかが難しい問題になる。

【0007】

例えば各監視カメラと対象の位置関係や、対象の写り具合などを加味しながら結果の統合を行うことが考えられるが、様々な状況下で安定して高精度な推定結果が得られる統合アルゴリズムを作成することは困難である。

【0008】

また、監視カメラは予め壁や天井に固定されているため、人物が監視空間内を移動する場合は、非特許文献２のように常に対象とカメラの位置関係を維持し続けることは難しい。

【0009】

そこで、本発明は、複数の計測点からの計測データの特徴量を、計測点と対象物との関係を考慮して統合することができるデータ処理装置、データ処理方法、及びデータ処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0010】

上記の目的を達成するために本発明に係るデータ処理装置は、複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出する特徴量抽出部と、前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する特徴量統合部と、を含んで構成されている。

【0011】

本発明に係るデータ処理装置によれば、特徴量抽出部によって、複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出する。

【0012】

そして、特徴量統合部によって、前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する。

【0013】

このように、複数の計測点の各々と、データが表す対象物との実空間上の位置関係に基づいて、異なる計測点のデータ特徴量間の要素の対応関係を決定して、対応する要素同士を統合することにより、複数の計測点からの計測データの特徴量を、計測点と対象物との関係を考慮して統合することができる。

【0014】

また、前記データ特徴量は、要素が循環するように配列された循環型のベクトル又は行列であり、前記特徴量統合部は、前記対応関係として、対応する要素のずれであり、前記ずれに応じて前記データ特徴量の要素をずらして前記異なる計測点の前記データのデータ特徴量を統合することができる。

【0015】

また、前記対応する要素のずれは、前記異なる計測点の各々から前記対象物への計測方向の相対角度に応じたずれである、とすることができる。

【0016】

また、前記データ処理装置は、前記特徴量統合部によって前記データ特徴量を統合した特徴量に基づいて推定結果を出力する推定部を更に含み、機械学習した学習モデルが、少なくとも前記推定部として機能し、前記学習モデルは、前記データと、前記位置関係を規定した情報と、前記対象物の位置と、正しい推定結果とを、学習データとして用いて機械学習されたものである、とすることができる。

【0017】

本発明に係るデータ処理方法は、特徴量抽出部は、複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出し、特徴量統合部は、前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する。

【0018】

本発明に係るデータ処理プログラムは、コンピュータを、複数の計測点から計測されたデータの各々について、前記データから所定次元で配列された要素からなるデータ特徴量を抽出する特徴量抽出部、及び前記複数の計測点の各々と、前記データが表す対象物との実空間上の位置関係に基づいて、異なる計測点の前記データのデータ特徴量間の要素の対応関係を決定し、対応する要素同士を統合することにより、前記異なる計測点の前記データのデータ特徴量を統合する特徴量統合部として機能させるためのプログラムである。

【発明の効果】

【0019】

本発明のデータ処理装置、データ処理方法、及びデータ処理プログラムによれば、複数の計測点からの計測データの特徴量を、計測点と対象物との関係を考慮して統合することができる、という効果が得られる。

【図面の簡単な説明】

【0020】

【図1】本発明の実施の形態に係る画像処理システムの構成を示す概略図である。

【図2】本発明の実施の形態に係る画像処理装置の構成を示す概略図である。

【図3】複数の監視画像の一例を示す図である。

【図4】形状あり特徴量ベクトルを示す模式図である。

【図5】形状あり特徴量ベクトルを統合する例を示す模式図である。

【図6】本発明の実施の形態に係る学習装置の構成を示す概略図である。

【図7】本発明の実施の形態に係る学習装置による学習処理の動作を示すフローチャートである。

【図8】本発明の実施の形態に係る画像処理装置による画像処理の動作を示すフローチャートである。

【図9】複数の監視画像から人物の形状を復元するイメージを示す図である。

【発明を実施するための形態】

【0021】

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、監視空間に複数の撮影装置が存在し、その中を移動する人物について姿勢や体型などの形状を推定する画像処理システムに本発明を適用した場合を例に説明する。

【0022】

＜システム構成＞
以下、本発明を適用した画像処理システム１０００の概略構成を示した図１を参照し、本発明の実施の形態の構成を説明する。

【0023】

（画像処理システム１０００）
画像処理システム１０００は、複数の撮影装置１１００、ネットワーク１２００、画像処理装置１００、及び学習装置１５０を有する。なお、画像処理装置１００が、データ処理装置の一例である。

【0024】

（撮影装置１１００）
複数の撮影装置１１００は、複数の視点から監視画像を撮影する。ここで、視点が計測点の一例である。具体的には、複数の撮影装置１１００は、所定の監視空間を監視する目的で複数の設置個所に設置される監視カメラである。撮影装置１１００で撮影した監視画像は、画像処理装置１００に送信される。

【0025】

（ネットワーク１２００）
ネットワーク１２００は、複数の撮影装置１１００、画像処理装置１００、及び学習装置１５０の間でデータの送受信を行なうために利用される回線である。ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）や、インターネット等の公衆回線が本発明のネットワーク１２００として利用できる。ネットワーク１２００上の電文については、公知のＶＰＮ技術等を用いて、電文を暗号化する等の安全措置が講じられることが望ましい。

【0026】

（画像処理装置１００）
画像処理装置１００は、ＣＰＵ、ＧＰＵ、ＭＰＵ、周辺回路、端子、各種メモリなどから構成され、複数の撮影装置１１００が送信した監視画像を受信し、監視画像に写る人物の形状を推定する。

【0027】

図２に示すように、画像処理装置１００は、機能的には、入力部１０、演算部２０、及び出力部５０を備えている。

【0028】

入力部１０は、受信した複数の監視画像を受け付ける。ここで、複数の撮影装置１１００の位置、監視画像に写る対象人物の位置は既知であるとし、図３に示すような、複数の監視画像が得られる。対象人物の位置の計測には画像によるトラッキングなどによって得ても良いし、レーザーセンサ、赤外線センサ、超音波センサ、無線電波測位などを用いても良い。

【0029】

演算部２０には、事前に学習されたニューラルネットワークが実装されており、複数の監視画像をニューラルネットワークに入力して、監視画像に写る人物の形状を推定し、出力部５０により出力する。

【0030】

以下、演算部２０を構成する特徴量抽出部２２、形状変換部２４、特徴量統合部２６、及び推定部２８の各部について、詳細に説明する。なお、特徴量抽出部２２及び形状変換部２４が、特徴量抽出部の一例である。

【0031】

特徴量抽出部２２は、複数の視点から撮影された監視画像の各々について、特徴量ベクトルを抽出する。具体的には、畳み込みニューラルネットワークにより、それぞれの監視画像を特徴量ベクトルへと変換する。この際、インスタンスセグメンテーション技術などを使用することで、監視画像内の人物のマスク画像を作成し、それを同時に畳み込みニューラルネットワークに入力しても良い。この場合、背景の多様性によって推定精度が低下する可能性を低減できるほか、監視画像内に複数人物が写り込んだ際に処理対象の人物を選択することができるようになる。また、監視画像から対象人物の人物領域を切り出し、当該切り出した人物領域の各々について特徴量ベクトルを抽出してもよい。また、監視画像全体から抽出した特徴量ベクトルにおける人物領域に対応する位置の特徴量を抜き出し、後段の処理に利用する特徴量ベクトルとしてもよい。

【0032】

形状変換部２４は、監視画像の各々について抽出された特徴量ベクトルを、要素が循環するように配列された循環型のベクトルである形状あり特徴量ベクトルに変換する。具体的には、循環型のベクトルは、任意の角度で回転しても回転前の図形と重なる軸を持つ形状に沿うよう要素が配列されたものである。なお、形状あり特徴量ベクトルは、データ特徴量の一例である。

【0033】

例えば、形状変換部２４は、特徴量ベクトルに基づいて、特徴量を表す要素がリング状に分布する形状あり特徴量ベクトル９０を作成する（図４）。図４のようなリング形状に沿って、中心に計測対象（被写体）が来るように要素を配列し、計測対象の特徴量を表す要素が、方位角別に配列されているように形状変換を行う。

【0034】

この操作には例えばＤｅｅｐＬｅａｒｎｉｎｇにおける全結合層を用いてもよいし、計測対象の形を円筒で近似し、円筒を画像に投影した際の対応を用いて特徴量ベクトルを円筒上に配置し、円筒の高さ方向に平均をとることによって得てもよい。ここで、特徴量抽出部２２の特徴量ベクトルは、撮影装置１１００の外部パラメータを用いずに算出したものであるので、特徴量ベクトルには、撮影装置１１００の位置の情報が含まれていないことに留意する必要がある。よって、形状あり特徴量ベクトル９０を作成する際には、例えば、図５の形状あり特徴量ベクトル９０ａは撮影装置１１００ａの撮影画像に対応し、形状あり特徴量ベクトル９０ｂは撮影装置１１００ｂの撮影画像に対応する場合、撮影装置１１００と計測対象の人物が最も近くなる位置の特徴量を表す要素（撮影装置１１００ａ，ｂから伸びる実線で接続された要素）が配置されるように形状変換して形状あり特徴量ベクトル９０ａ，ｂを作成する。このように、形状変換に撮影装置１１００の外部パラメータを用いない手法を使用する。

【0035】

特徴量統合部２６は、複数の視点の各々と、監視画像が表す人物との実空間上の位置関係に基づいて、異なる視点の監視画像の形状あり特徴量ベクトル９０間の要素の対応関係として、対応する要素のずれを決定し、ずれに応じて、形状あり特徴量ベクトル９０の要素をずらすように操作する。ここで、対応する要素のずれは、異なる視点の各々から人物の位置へ向かう撮影方向の相対角度に応じたずれである。

【0036】

具体的には、特徴量統合部２６は、形状あり特徴量ベクトル９０の要素を、撮影装置１１００の外部パラメータと人物の位置に基づいて並べ替える操作を行う。

【0037】

例えば、まず、形状あり特徴量ベクトル９０のリングを床面などの基準面に置き、形状あり特徴量ベクトル９０の要素の中で、撮影装置１１００の方位角を表しているもの、すなわち、撮影装置１１００と計測対象の人物が最も近くなる位置の特徴量を表す、リングの要素が、実際に撮影装置１１００の方位角を向くように、形状あり特徴量ベクトル９０のリングを回転させる。回転量は、監視画像中の人物の位置と、撮影装置１１００の外部パラメータから算出することができる。

【0038】

回転操作は、実際には特徴量ベクトルを一列に並べた後に右や左に要素をシフトさせ、一端をはみ出した要素を他端に移す操作に相当する。また、シフト量が整数にならない場合は、前後の要素の重み付き平均を用いるなどして、連続的な回転を表現することができる。

【0039】

このように、形状あり特徴量ベクトル９０では、撮影装置１１００から監視画像が表す人物への方位角の関係を、リングの回転として表現することができる（図５）。ここで、方位角の関係が、実空間上の位置関係の一例である。この場合、俯角の情報は失われるので、俯角の角度を、形状あり特徴量ベクトル９０の次元に追加しても良いし、俯角の角度を、コサイン関数及びサイン関数の２つで表し、その２つの値を、形状あり特徴量ベクトル９０の次元に追加しても良い。また、撮影装置１１００と、監視画像が表す人物との間の距離に関しては、距離の値もしくはその逆数を表す要素を、形状あり特徴量ベクトル９０に追加するか、入力する画像の視野角を一定にすることで、遠くの対象は小さく写るようにするといった手法で反映させることができる。

【0040】

また、特徴量統合部２６は、監視画像の各々の形状あり特徴量ベクトル９０の対応する要素同士を統合することにより、異なる視点の監視画像の形状あり特徴量ベクトル９０を統合し、１つの形状あり特徴量ベクトル９０を出力する。

【0041】

この操作には、例えば、並べ替え操作後の各形状あり特徴量ベクトル９０の要素和を取ることで、全ての形状あり特徴量ベクトル９０の情報を含む１つの形状あり特徴量ベクトル９０を作成するという手法を用いることができる。もしくは、並べ替え操作後の２つの形状あり特徴量ベクトル９０を重ね、円周方向に１次元の畳み込みを行うことで、１つの形状あり特徴量ベクトル９０を出力するような操作を行っても良い。これら２つの手法は、２つの形状あり特徴量ベクトル９０から１つの形状あり特徴量ベクトル９０を作成する手法であるので、これを複数回適用することで、どのような数の形状あり特徴量ベクトルが入力されても１つの形状あり特徴量ベクトル９０を出力することができる。撮影装置１１００の台数が変化しない場合、撮影装置１１００の台数分の形状あり特徴量ベクトル９０を同時に統合してもよい。

【0042】

推定部２８は、特徴量統合部２６により出力された１つの形状あり特徴量ベクトル９０を入力として、監視画像が表す人物の形状を推定し、出力部５０により出力する。具体的には、１つの形状あり特徴量ベクトル９０を、ニューラルネットワークに入力し、人物の形状を表す出力を得る。

【0043】

例えば、人物の３次元形状と姿勢を表現するパラメータを、全結合層を用いて推定する。パラメータと人物姿勢や形状の結びつけには、例えば非特許文献３の手法を用いてもよいし、人物形状を表すメッシュモデルの全頂点を推定して求めても良い。

【0044】

［非特許文献３］Loper, Matthew, et al. ”SMPL: A skinned multi-person linear model.” ACM transactions on graphics (TOG) 34.6 (2015): 1-16.

【0045】

（学習装置１５０）
画像処理装置１００で用いるモデルのパラメータは、学習装置１５０によって学習される。

【0046】

学習装置１５０は、ＣＰＵ、ＧＰＵ、ＭＰＵ、周辺回路、端子、各種メモリなどから構成され、複数の視点から撮影された複数の監視画像と、複数の監視画像が表す人物の形状と、その撮影を行った際の撮影装置１１００の位置や姿勢を表す外部パラメータと、人物の位置情報とを受け付け、監視画像に写る人物の形状を推定するためのモデルのパラメータを学習する。

【0047】

図６に示すように、学習装置１５０は、機能的には、入力部６０、及び演算部７０を備えている。

【0048】

入力部６０は、複数の視点から撮影された複数の監視画像と、当該複数の監視画像が表す人物の形状と、その撮影を行った際の撮影装置１１００の位置や姿勢を表す外部パラメータと、人物の位置情報とを受け付ける。

【0049】

例えば、学習データとして、人物を複数の視点から撮影した複数の画像と、その撮影を行った際の撮影装置１１００の位置や姿勢を表す外部パラメータと、人物の形状や位置情報とを複数セット用意しておき、入力部６０が複数の学習データを受け付ける。これらは例えばＣＧを用いることで用意することができる。

【0050】

以下、演算部７０を構成する学習部７２及びモデル記憶部７４の各部について、詳細に説明する。

【0051】

学習部７２は、複数の学習データに基づいて、監視画像に写る人物の形状を推定するためのモデルのパラメータを学習する。

【0052】

具体的には、画像処理装置１００の特徴量抽出部２２、形状変換部２４、特徴量統合部２６、及び推定部２８で用いている操作は全て微分可能であるため、一般的に広く使用されているＤｅｅｐＬｅａｒｎｉｎｇの学習アルゴリズムを用いて、特徴量抽出部２２、形状変換部２４、特徴量統合部２６、及び推定部２８の全体として機能するニューラルネットワークモデルのパラメータを学習する。

【0053】

例えば、学習データの複数の監視画像と外部パラメータと人物の位置情報を元に、特徴量抽出部２２、形状変換部２４、特徴量統合部２６、及び推定部２８の全体として機能するニューラルネットワークモデルが出力した推定結果と、正解データとしてのＣＧで作成した形状データとの誤差関数を最小化するように各種パラメータを繰り返し更新することで、求めるニューラルネットワークモデルのパラメータを得ることができる。

【0054】

モデル記憶部７４は、学習部７２によって学習されたモデルのパラメータを記憶している。

【0055】

＜画像処理システムの動作＞
以下、図７、図８に示したフローチャートを参照しつつ、本発明を適用した画像処理システム１０００の動作を説明する。なお、学習装置１５０に、入力部６０により、予め用意された複数の学習データが入力されている場合を例に説明する。

【0056】

図７に示す学習装置１５０の学習処理は事前に実行される。学習処理では、学習データ毎に、画像処理装置１００の特徴量抽出部２２、形状変換部２４、特徴量統合部２６、及び推定部２８の全体として機能するニューラルネットワークモデルを用いて、人物の形状を推定する（ステップＳ１００）。

【0057】

そして、上記ステップＳ１００での推定結果と、正解データとの誤差関数を最小化するようにニューラルネットワークモデルのパラメータを更新する（ステップＳ１０２）。

【0058】

そして、予め定められた反復終了条件を満たしたか否かを判定する（ステップＳ１０４）。予め定められた反復終了条件を満たさない場合には、ステップＳ１００へ戻り、一方、予め定められた反復終了条件を満たす場合には、ステップＳ１０６へ移行する。

【0059】

なお、反復終了条件としては、誤差関数の値が収束したことや、反復回数が上限に到達したことなどを用いればよい。

【0060】

そして、最終的に学習されたニューラルネットワークモデルのパラメータをモデル記憶部７４に格納し（ステップＳ１０６）、学習処理を終了する。

【0061】

そして、学習装置１５０によって学習された、特徴量抽出部２２、形状変換部２４、特徴量統合部２６、及び推定部２８の全体として機能するニューラルネットワークモデルのパラメータが、画像処理装置１００に設定される。

【0062】

複数の撮影装置１１００から複数の監視画像を受信した画像処理装置１００は、図８に示す画像処理を行う。なお、以下に説明する図８の画像処理装置１００の動作は、複数の撮影装置１１００によって撮影された複数の監視画像を１セット受信するごとに実行される。なお、監視画像から対象人物の人物領域を切り出し、当該切り出した人物領域の各々について特徴量ベクトルを抽出する場合は、複数の撮影装置１１００によって撮影された複数の監視画像を１セット受信するごとに各監視画像から対象人物の人物領域を切り出し、切り出した人物領域の画像に対して図８に示す画像処理を行う。

【0063】

まず、特徴量抽出部２２は、複数の視点から撮影された複数の監視画像の各々について、特徴量ベクトルを抽出する（ステップＳ１１０）。

【0064】

形状変換部２４は、複数の監視画像の各々について抽出された特徴量ベクトルを、要素が循環するように配列された形状あり特徴量ベクトル９０に変換する（ステップＳ１１２）。

【0065】

特徴量統合部２６は、複数の視点の各々と、監視画像が表す人物との実空間上の位置関係に基づいて、異なる視点の監視画像の形状あり特徴量ベクトル９０間の要素の対応関係として、対応する要素のずれを決定し、ずれに応じて、形状あり特徴量ベクトル９０の要素をずらすように操作する（ステップＳ１１４）。この際、ずれ量が整数にならない場合は、隣接する要素をもとに線形補間などの補間操作を行い、回転後の要素の値を算出する。

【0066】

また、特徴量統合部２６は、監視画像の各々の形状あり特徴量ベクトル９０の対応する要素同士を統合することにより、異なる視点の監視画像の形状あり特徴量ベクトル９０を統合し、１つの形状あり特徴量ベクトル９０を出力する（ステップＳ１１６）。

【0067】

推定部２８は、特徴量統合部２６により出力された１つの形状あり特徴量ベクトル９０を入力として、監視画像が表す人物の形状を推定し、出力部５０により出力する（ステップＳ１１８）。具体的には、１つの形状あり特徴量ベクトル９０を、全結合層に入力し、人物の形状を表す出力を得る。

【0068】

以上説明してきたように、本発明の実施の形態に係る画像処理装置１００では、複数の視点の各々と、監視画像が表す人物との実空間上の位置関係に基づいて、異なる視点の監視画像の形状あり特徴量ベクトル９０間の要素の対応関係を決定して、対応する要素同士を統合することにより、複数の視点からの監視画像の特徴量を、視点と人物との関係を考慮して統合することができる。例えば、上記図５に示すように、複数の撮影装置から得られた監視画像の特徴量を、撮影装置と人物との位置関係を考慮しながら統合することができる。よって、撮影装置と人物との位置関係が常に変化する状況、例えば、監視空間を人物が歩き回る状況であっても、当該人物を同時刻に撮影した複数の撮影装置の監視画像から、効果的に特徴量ベクトルを統合することにより、他の視点からの監視画像の特徴量ベクトルを復元することができ、人物の形状を精度よく推定することができる（図９（ａ）参照）。図９（ａ）では、複数の撮影装置の監視画像から、人物の形状を推定し、当該推定した形状を用いて他の視点からの監視画像を復元するイメージを示している。

【0069】

＜変形例＞
以上、本発明の好適な実施形態について説明してきたが、本発明はこれらの実施形態に限定されるものではない。例えば、本実施形態では、リング形状に要素が配列された形状あり特徴量ベクトル９０に変換する場合を例に説明したが、これに限定されない。例えば、円筒や球面に要素が配列された形状あり特徴量ベクトル９０に変換するようにしてもよい。この場合にも、同様に要素和を取ることで統合することができる。また、統合に畳み込みを利用するならば、２次元の畳み込みを利用することで同様に統合が可能である。

【0070】

また、形状あり特徴量ベクトル９０の形状として、例えば球面を使用した場合は、リングと異なり球面を３次元的に回転させることができるので、人物から撮影装置への方位角のみならず俯角も表現することができる。このように、循環型のベクトルは、任意の角度で回転しても回転前の図形と重なる軸を持つ形状に沿うよう配列するのが好適である。

【0071】

また、撮影装置は移動していてもよい。この場合、撮影装置にＩＭＵ（ＩｎｅｒｔｉａｌＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ）を組み合わせるなどして、撮影した時点での外部パラメータを逐次取得する必要がある。

【0072】

また、推定部が人物の形状を推定する場合を例に説明したが、これに限定されない。例えば、推定部が、一般物体の形状を推定したり、人物の３次元キーポイントを推定したり、人物同定を行うようにしてもよい。

【0073】

また、画像処理装置１００の各部が、ニューラルネットワークを用いる場合を例に説明したが、これに限定されない。例えば、特徴量抽出部２２が、画像からＨＯＧ（Histogram of Oriented Gradients）特徴量を抽出し、形状変換部２４は、円筒面にＨＯＧ特徴量を表す要素を貼り付けた形状あり特徴量ベクトル９０に変換し、特徴量統合部２６が、形状あり特徴量ベクトル９０を統合し、推定部２８が、ＳＶＭ（Support Vector Machine）を用いた回帰によって形状の推定を行うようにしてもよい。このように、ＤｅｅｐＬｅａｒｎｉｎｇによらない他の機械学習の手法に適用してもよい。また、形状変換部２４、特徴量統合部２６のそれぞれは機械学習を用いることなくても実現することが可能である。

【0074】

また、複数の視点から撮影した監視画像の特徴量を統合する場合を例に説明したが、これに限定されない。例えば、複数の視点から撮影した距離画像の人物領域の３次元点群の特徴量を統合するようにしてもよい（図９（ｂ））。図９（ｂ）では、複数の距離画像撮影装置の距離画像の人物領域の３次元点群から、他の視点からの人物領域の３次元点群を復元するイメージを示している。また、距離画像撮影装置以外の計測装置を用いて複数の計測点から計測した計測データの特徴量を統合するようにしてもよい。例えば、マイクを用いて複数の計測点から音を計測してもよいし、ＬｉＤＡＲを用いて複数の計測点から点群を計測してもよい。また、ｗｉｆｉの電波を用いて複数の計測点から計測した計測データから、姿勢推定をするようにしてもよい。

【0075】

また、本実施形態では、人物を計測対象物として計測する場合を例に説明したが、これに限定されない。人物以外を計測対象物として計測してもよい。

【0076】

また、学習部７２が、画像処理装置１００とは別の学習装置１５０ではなく、画像処理装置１００に設けられてもよい。

【0077】

以上のように、当業者は本発明の範囲内で、実施される形態に合わせて様々な変更を行うことができる。

【符号の説明】

【0078】

１０、６０入力部
２０、７０演算部
２２特徴量抽出部
２４形状変換部
２６特徴量統合部
２８推定部
５０出力部
７２学習部
７４モデル記憶部
１００画像処理装置
１５０学習装置
１０００画像処理システム
１１００撮影装置

【図1】