特許第6052533号(P6052533)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人大阪大学の特許一覧
<>
  • 特許6052533-特徴量抽出装置および特徴量抽出方法 図000011
  • 特許6052533-特徴量抽出装置および特徴量抽出方法 図000012
  • 特許6052533-特徴量抽出装置および特徴量抽出方法 図000013
  • 特許6052533-特徴量抽出装置および特徴量抽出方法 図000014
  • 特許6052533-特徴量抽出装置および特徴量抽出方法 図000015
  • 特許6052533-特徴量抽出装置および特徴量抽出方法 図000016
  • 特許6052533-特徴量抽出装置および特徴量抽出方法 図000017
  • 特許6052533-特徴量抽出装置および特徴量抽出方法 図000018
  • 特許6052533-特徴量抽出装置および特徴量抽出方法 図000019
  • 特許6052533-特徴量抽出装置および特徴量抽出方法 図000020
  • 特許6052533-特徴量抽出装置および特徴量抽出方法 図000021
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6052533
(24)【登録日】2016年12月9日
(45)【発行日】2016年12月27日
(54)【発明の名称】特徴量抽出装置および特徴量抽出方法
(51)【国際特許分類】
   G06T 7/20 20060101AFI20161219BHJP
   G06T 7/00 20060101ALI20161219BHJP
【FI】
   G06T7/20 C
   G06T7/00 300F
【請求項の数】8
【全頁数】22
(21)【出願番号】特願2012-149702(P2012-149702)
(22)【出願日】2012年7月3日
(65)【公開番号】特開2014-13432(P2014-13432A)
(43)【公開日】2014年1月23日
【審査請求日】2015年5月21日
【新規性喪失の例外の表示】特許法第30条第2項適用 「平成23年度 卒業研究発表会」(開催期間:平成24年2月22日〜平成24年2月23日)において文書をもって発表
(73)【特許権者】
【識別番号】504176911
【氏名又は名称】国立大学法人大阪大学
(74)【代理人】
【識別番号】100109210
【弁理士】
【氏名又は名称】新居 広守
(72)【発明者】
【氏名】森 裕紀
(72)【発明者】
【氏名】広瀬 大
(72)【発明者】
【氏名】浅田 稔
【審査官】 ▲広▼島 明芳
(56)【参考文献】
【文献】 特開2011−248664(JP,A)
【文献】 鈴木 一史,3次元高次局所自己相関特徴マスクを用いたソリッドテクスチャの分類,情報処理学会論文誌 第48巻 第3号 IPSJ Journal,日本,社団法人情報処理学会 Information Processing Society of Japan,2007年 3月,Vol.48 No.3,pp.1524-1531
【文献】 池村 翔,藤吉 弘亘,時空間情報と距離情報を用いたJoint Boostingによる動作識別,電気学会論文誌C Vol.130 No.9 IEEJ,日本,(社)電気学会 The Institute of Electrical Engineers of Japan,2010年,Vol.130 No.9,pp.1554-1560
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 − 7/60
(57)【特許請求の範囲】
【請求項1】
3次元点群データの時系列データである4次元点群データの特徴量を抽出する特徴量抽出装置であって、
着目データを含む少なくも1つのデータのデータ位置を指定するマスクごとに、当該マスクを前記4次元点群データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元点群データの画素値の積の前記4次元点群データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元点群データの特徴量として抽出する特徴量抽出部を備え、
各前記マスクに対し、4次元のいずれかの方向に平行移動させた場合に一致する他の前記マスクは存在しない
特徴量抽出装置。
【請求項2】
さらに、
前記4次元点群データを構成する各前記3次元点群データを所定サイズの格子状に区切ることにより得られる各ボクセル内に点が存在するか否かを当該ボクセルのボクセル値として示すことにより、各前記3次元点群データを3次元ボクセルデータに変換することで、前記3次元点群データの時系列データである前記4次元点群データを、前記3次元ボクセルデータの時系列データである4次元ボクセルデータに変換するボクセル変換部を備え、
前記特徴量抽出部は、前記マスクごとに、当該マスクを前記4次元点群データに代えて前記4次元ボクセルデータ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元ボクセルデータのボクセル値の積の前記4次元ボクセルデータにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元ボクセルデータの特徴量として抽出する
請求項1記載の特徴量抽出装置。
【請求項3】
さらに、
時間的に隣接するフレーム間での前記3次元ボクセルデータの各ボクセル値の差分値を算出することにより、差分値をボクセル値とする差分画像の時系列データである4次元差分画像データを算出するフレーム間差分部を備え、
前記特徴量抽出部は、前記マスクごとに、当該マスクを前記4次元点群データおよび前記4次元ボクセルデータに代えて前記4次元差分画像データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元差分画像データのボクセル値の積の前記4次元差分画像データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元差分画像データの特徴量として抽出する
請求項2記載の特徴量抽出装置。
【請求項4】
さらに、
時間的に隣接するフレーム間での前記3次元点群データの各画素値の差分値を算出することにより、差分値を画素値とする差分画像の時系列データである4次元差分画像データを算出するフレーム間差分部を備え、
前記特徴量抽出部は、前記マスクごとに、当該マスクを前記4次元点群データに代えて前記4次元差分画像データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元差分画像データの画素値の積の前記4次元差分画像データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元差分画像データの特徴量として抽出する
請求項1記載の特徴量抽出装置。
【請求項5】
前記特徴量抽出部での走査対象のデータが1または0の2値データである場合には、マスク中に、同一のデータ位置を複数回指定する第1マスクと、前記第1マスクが指定するデータ位置と同じデータ位置を指定し、かつ前記第1マスクが複数回指定するデータ位置を1回のみ指定する第2マスクとが存在する場合には、前記第1マスクを削除する
請求項1〜4のいずれか1項に記載の特徴量抽出装置。
【請求項6】
前記マスクは、前記着目データのデータ位置と、前記着目データから所定距離範囲内に位置するN個(Nは0以上の整数)のデータのデータ位置とを指定する
請求項1〜5のいずれか1項に記載の特徴量抽出装置。
【請求項7】
3次元点群データの時系列データである4次元点群データの特徴量を抽出する特徴量抽出方法であって、
着目データを含む少なくも1つのデータのデータ位置を指定するマスクごとに、当該マスクを前記4次元点群データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元点群データの画素値の積の前記4次元点群データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元点群データの特徴量として抽出する特徴量抽出ステップを含み、
各前記マスクに対し、4次元のいずれかの方向に平行移動させた場合に一致する他の前記マスクは存在しない
特徴量抽出方法。
【請求項8】
請求項7に記載の特徴量抽出方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴量抽出装置および特徴量抽出方法に関し、特に、3次元点群データの時系列データである4次元点群データの特徴量を抽出する特徴量抽出装置および特徴量抽出方法に関する。
【背景技術】
【0002】
動画像データから対象の動きを識別するモーション識別技術は、ジェスチャ認識、不審者の検出、または動物の監視などのあらゆるアプリケーションに応用されることが考えられる。このため、その社会的貢献度合いは大きい。特に、ステレオビジョンまたはレーザレンジファインダなどにより獲得された3次元空間の情報(3次元情報)を用いたモーション識別では、立体情報を用いない通常のカメラ等により撮像された画像を用いたモーション識別に比べ、より現実に忠実な情報が得られる。このため、高い識別能力とあらゆる対象に適用できる汎用性とが期待される。
【0003】
2次元画像のパターン認識に用いられる特徴量として、SIFT(Scale−Invariant Feature Transform)、SURF(Speeded Up Robust Feature)、HOG(Histogram of Oriented Gradients)、HLAC(Higher−order Local Auto−Correlation:高次局所自己相関)(例えば、特許文献1参照)、CHLAC(CubicHLAC)(例えば、特許文献2参照)などが存在する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第2982814号公報
【特許文献2】特開2008−97624号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
実世界における対象の動きは、3次元空間における対象の位置の時間変化として記述できる。つまり、対象の動きは4次元情報として記述できる。一方、上述の特徴量は、特徴量を取得するために用いられる情報が3次元情報または2次元情報に限定されている。このため、これらの特徴量を用いて対象の動きを識別したとしても、次元数の不足により対象の動きを高精度に識別することが困難である。
【0006】
本発明は、上述の課題を解決するためになされたものであり、識別対象を限定せずに、高精度で対象の動きを識別することができる特徴量を抽出する特徴量抽出装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明のある局面に係る特徴量抽出装置は、3次元点群データの時系列データである4次元点群データの特徴量を抽出する特徴量抽出装置であって、着目データを含む少なくも1つのデータのデータ位置を指定するマスクごとに、当該マスクを前記4次元点群データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元点群データの画素値の積の前記4次元点群データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元点群データの特徴量として抽出する特徴量抽出部を備え、各前記マスクに対し、4次元のいずれかの方向に平行移動させた場合に一致する他の前記マスクは存在しない。
【0008】
なお、本発明は、このような特徴的な処理部を備える特徴量抽出装置として実現することができるだけでなく、特徴量抽出装置に含まれる特徴的な処理部が実行する処理をステップとする特徴量抽出方法として実現することができる。また、特徴量抽出装置に含まれる特徴的な処理部としてコンピュータを機能させるためのプログラムまたは特徴量抽出方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムを、CD−ROM(Compact Disc−Read Only Memory)等のコンピュータ読取可能な非一時的な記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
【発明の効果】
【0009】
本発明によると、識別対象を限定せずに、高精度で対象の動きを識別することができる特徴量を抽出する特徴量抽出装置を提供することができる。
【図面の簡単な説明】
【0010】
図1】本発明の実施の形態に係る動画像識別装置の機能的な構成を示すブロック図である。
図2】HLACにおける変位ベクトルの組み合わせ(マスク)を示す図である。
図3】4次元に拡張したHLAC(4D−HLAC)による特徴量の算出処理を模式的に示す図である。
図4】パターン識別部による動作の数の推定処理の原理を説明するための図である。
図5】3つの動作を説明するための図である。
図6A】輝度画像の一例を示す図である。
図6B】深度画像の一例を示す図である。
図6C】ボクセル変換部から出力された3次元ボクセルデータの画像の一例を示す図である。
図7】本手法と他の手法を比較した結果を示す図である。
図8】3人が同時に動作を行っている状況を示す図である。
図9】動きの判別結果の一例を示す図である。
【発明を実施するための形態】
【0011】
(本発明の基礎となった知見)
モーション識別の手法として、カメラにより撮像された動画像を用いて、対象の動きを識別する手法が多く存在する。しかし、これらの手法は、対象の奥行き方向の動きに鈍感であり、対象の奥行き方向の移動と対象の大きさの変化とを区別することが困難である。このため、これらの手法により識別可能な動きは限定的である。3次元情報を用いたモーション識別の手法として、モーションキャプチャを用いた手法がある。しかし、この手法では、識別対象に予めマーカーを付けなければならない。このため、識別対象が限定されるため、使用できる状況が限られる。また、大量の学習データに対して機械学習を適用することにより、対象の動きを示す骨格モデルを推定する骨格推定の手法も存在する。しかし、この方法は今のところ人物以外に適用することができず、新たな対象に適用するためには骨格モデルを再定義する必要がある。このため、対象の変更に容易に対応することができない。また、道具を用いた人物の動作のモーション識別を行う場合には新たな識別器を生成する必要があり、この場合も容易に対応することができない。
【0012】
画像データに適用でき、識別対象を限定しない特徴量として、上述のSIFT、SURF、HOG、HLACなどが存在する。その中でも本開示では汎用性に特徴のあるHLACに注目する。HLACは計算コストの小さい簡素な手法で、画像に限らず触覚センサデータまたは音声データ等にも適用可能な、位置不変性および加法性等の優れた性質を有する特徴量である。また、点群データ(x,y,z)または動画像(x,y,t)などの3次元配列データの特徴量を計算するために上述のCHLACが提案されおり、人物の歩容認識で優れた性質を有することが実証されている。
【0013】
しかしながら、このような識別対象を限定しない特徴量を利用したとしても、対象の奥行き方向の動きに鈍感であり、対象の奥行き方向の移動と対象の大きさの変化とを区別することが困難である。例えば、CHLACは、点群データ(x,y,z)または動画像(x,y,t)などから算出される特徴量である。しかし、点群データには時間情報が含まれていないため、1つの点群データから対象の動きを識別することは困難である。また、動画像には奥行き方向の情報が含まれていないため、対象の奥行き方向の移動と対象の大きさの変化とを区別することが困難である。
【0014】
そこで、本開示では、識別対象を限定せずに、高精度で対象の動きを識別することができる特徴量を抽出する特徴量抽出装置について説明する。
【0015】
このような問題を解決するために、本発明の一態様に係る特徴量抽出装置は、3次元点群データの時系列データである4次元点群データの特徴量を抽出する特徴量抽出装置であって、着目データを含む少なくも1つのデータのデータ位置を指定するマスクごとに、当該マスクを前記4次元点群データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元点群データの画素値の積の前記4次元点群データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元点群データの特徴量として抽出する特徴量抽出部を備え、各前記マスクに対し、4次元のいずれかの方向に平行移動させた場合に一致する他の前記マスクは存在しない。
【0016】
この構成によると、4次元点群データから、特徴量を抽出することができる。4次元点群データには、対象の奥行き方向の情報と、対象の時間的な動きの情報とが含まれている。また、特徴量抽出部の処理は、特定の対象に限定されるものでもない。このため、識別対象を限定せずに、高精度で対象の動きを識別することができる特徴量を抽出することができる。
【0017】
また、上述の特徴量抽出装置は、さらに、前記4次元点群データを構成する各前記3次元点群データを所定サイズの格子状に区切ることにより得られる各ボクセル内に点が存在するか否かを当該ボクセルのボクセル値として示すことにより、各前記3次元点群データを3次元ボクセルデータに変換することで、前記3次元点群データの時系列データである前記4次元点群データを、前記3次元ボクセルデータの時系列データである4次元ボクセルデータに変換するボクセル変換部を備え、前記特徴量抽出部は、前記マスクごとに、当該マスクを前記4次元点群データに代えて前記4次元ボクセルデータ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元ボクセルデータのボクセル値の積の前記4次元ボクセルデータにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元ボクセルデータの特徴量として抽出しても良い。
【0018】
この構成によると、4次元ボクセルデータが含むボクセル数は、4次元点群データが含む点群数よりも少ない。また、4次元ボクセルデータが含む各ボクセルの値は2値である。このため、4次元ボクセルデータのデータサイズは、4次元点群データのデータサイズよりも小さい。よって、この特徴量抽出装置で抽出された特徴量を用いると、対象の動きを高速に識別することができる。
【0019】
また、上述の特徴量抽出装置は、さらに、時間的に隣接するフレーム間での前記3次元ボクセルデータの各ボクセル値の差分値を算出することにより、差分値をボクセル値とする差分画像の時系列データである4次元差分画像データを算出するフレーム間差分部を備え、前記特徴量抽出部は、前記マスクごとに、当該マスクを前記4次元点群データおよび前記4次元ボクセルデータに代えて前記4次元差分画像データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元差分画像データのボクセル値の積の前記4次元差分画像データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元差分画像データの特徴量として抽出しても良い。
【0020】
フレーム間での3次元ボクセルデータの各ボクセル値の差分は、各ボクセルで変化があったか否かを示している。これにより、対象の動きがあった箇所を際立たせた4次元差分画像データを生成することができる。この4次元差分画像データから抽出した特徴量を用いることで、対象の動きを高精度で識別することができる。
【0021】
また、上述の特徴量抽出装置は、さらに、時間的に隣接するフレーム間での前記3次元点群データの各画素値の差分値を算出することにより、差分値を画素値とする差分画像の時系列データである4次元差分画像データを算出するフレーム間差分部を備え、前記特徴量抽出部は、前記マスクごとに、当該マスクを前記4次元点群データに代えて前記4次元差分画像データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元差分画像データの画素値の積の前記4次元差分画像データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元差分画像データの特徴量として抽出しても良い。
【0022】
フレーム間での3次元点群データの各画素値の差分は、各画素で変化があったか否かを示している。これにより、対象の動きがあった箇所を際立たせた4次元差分画像データを生成することができる。この4次元差分画像データから抽出した特徴量を用いることで、対象の動きを高精度で識別することができる。
【0023】
また、前記特徴量抽出部での走査対象のデータが1または0の2値データである場合には、マスク中に、同一のデータ位置を複数回指定する第1マスクと、前記第1マスクが指定するデータ位置と同じデータ位置を指定し、かつ前記第1マスクが複数回指定するデータ位置を1回のみ指定する第2マスクとが存在する場合には、前記第1マスクを削除しても良い。
【0024】
1のn乗(nは自然数)の値は、全て1である。このため、第1マスクを用いて算出された4次元点群データの画素値の積と、第2マスクを用いて算出された4次元点群データの画素値の積とは同じ値になる。よって、第1マスクを削除することで、特徴量抽出のための演算量を削減することができる。
【0025】
例えば、前記マスクは、前記着目データのデータ位置と、前記着目データから所定距離範囲内に位置するN個(Nは0以上の整数)のデータのデータ位置とを指定する。
【0026】
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
【0027】
以下、本発明の一態様に係る動画像識別装置および特徴量抽出装置について、図面を参照しながら具体的に説明する。
【0028】
なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
【0029】
(実施の形態)
図1は、本発明の実施の形態に係る動画像識別装置の機能的な構成を示すブロック図である。
【0030】
動画像識別装置100は、3次元点群データの時系列データである4次元点群データから、対象の動きを識別する装置であり、特徴量抽出装置10と、パターン識別部20とを備える。
【0031】
4次元点群データを構成する各画素の位置は、x座標、y座標、z座標およびt座標で表すことができる。ここで、x座標、y座標およびz座標は、3次元空間中におけるx軸、y軸およびz軸のそれぞれの座標値を示す。また、t座標は、t軸(時間軸)の座標値を示す。また、4次元点群データを構成する各画素の画素値は、I(x、y、z、t)と表すことができる。
【0032】
4次元点群データを構成する1枚の3次元点群データの各画素の位置は、x座標、y座標およびz座標で表すことができる。3次元点群データを構成する各画素の画素値は、I(x、y、z)と表すことができる。
【0033】
特徴量抽出装置10は、4次元点群データの特徴量を抽出する装置であり、ボクセル変換部11と、フレーム間差分部12と、特徴量抽出部13とを含む。
【0034】
ボクセル変換部11は、4次元点群データを構成する各3次元点群データを所定サイズの格子状に区切ることにより得られる各ボクセル内に点が存在するか否かを当該ボクセルのボクセル値として示すことにより、各3次元点群データを3次元ボクセルデータに変換することで、3次元点群データの時系列データである4次元点群データを、3次元ボクセルデータの時系列データである4次元ボクセルデータに変換する。
【0035】
図1に示す画像31は、4次元点群データを構成する1枚の3次元点群データを所定方向から見た画像である。画像31の各画素値は、4次元点群データのいずれかの画素の画素値に対応する。
【0036】
また、図1に示す画像32は、4次元ボクセルデータを構成する1枚の3次元ボクセルデータを所定方向から見た画像である。画像32に示されている各立方体は、3次元ボクセルデータを構成するボクセルのうち、当該ボクセル内に点が存在するボクセルを示している。つまり、当該立方体で表現されたボクセルの3次元空間中での位置に、対象物が存在することを示している。
【0037】
フレーム間差分部12は、時間的に隣接するフレーム間での3次元ボクセルデータの各ボクセル値の差分値を算出することにより、差分値をボクセル値とする差分画像の時系列データである4次元差分画像データを算出する。
【0038】
図1に示す画像33は、4次元差分画像データを構成する1枚の差分画像を所定方向から見た画像である。画像33に示されている各立方体は、フレーム間での3次元ボクセルデータのボクセル値の差分値が0以外のボクセルを示している。つまり、各立方体(差分値が0以外のボクセル)は、ボクセル内で対象物が存在しない状態から存在する状態への変化があったボクセル、または、ボクセル内で対象物が存在する状態から存在しない状態への変化があったボクセルを示す。さらに言えば、各立方体は、対象の動きがあったボクセルの位置を示している。一方、差分値が0のボクセルは、画像33には示されておらず、当該ボクセルは、対象の動きがなかったボクセルの位置を示す。
【0039】
特徴量抽出部13は、着目データを含む少なくも1つのデータのデータ位置を指定するマスクごとに、当該マスクを4次元差分画像データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の4次元差分画像データのボクセル値の積の4次元差分画像データにおける和を算出し、各マスクについて算出した和を要素とする特徴量ベクトルを4次元差分画像データの特徴量として抽出する。
【0040】
以下、特徴量抽出部13による特徴量の抽出処理について詳細に説明する。まず、従来の特徴量であるHLAC(高次局所自己相関)について説明し、次に、特徴量抽出部13によって抽出される特徴量について説明する。
【0041】
(HLACについて)
高次局所自己相関(HLAC)は2次元配列状のデータであれば汎用的に適用できる特徴量である。関数I(r)のN次のHLAC特徴量Rの一つは以下の式1で表される。
【0042】
【数1】
【0043】
ここで、rは位置ベクトル、a(n=1,・・・,N)は変位ベクトルであり、それぞれHLACの場合は2次元ベクトル、CHLACの場合は3次元ベクトルとなる。Rはa,・・・,aの組み合わせを変えることにより異なる複数の値が得られる。このため、それら複数の値を要素とするベクトルにより特徴ベクトルを構成することができる。一般的に、N=0,1,2、a=−1,0,1(i=x,y)とすることが多く、その条件下では平行移動で等価な要素を除くと2次元のHLACで特徴ベクトルの次元は35、3次元のCHLACでは279になる。HLACにおける35の変位ベクトルの組み合わせを図2に示す。図2では、3×3のサイズのマスクを想定し、マスクの中心が位置ベクトルrの位置を示し、マスクの中心以外でハッチングを施している部分が、変位ベクトルa(n=1,・・・,N)が示す位置を表している。なお、マスク205のように、数字が記してある部分については、HLAC特徴量算出の際に、同一の位置の値を数字の回数だけ掛け合わせることを示す。
【0044】
(4次元配列データのためのHLAC)
本実施の形態では上述したHLACの位置ベクトルと変位ベクトルをそれぞれr=(x,y,z,t)、a=(a,a,a,aの4次元ベクトルに拡張する。これにより、HLACを4次元配列状の関数(4次元ボクセルデータ)I(x,y,z,t)に適用する。それに伴い、特徴ベクトルの次元は、N=0,1,2、a=−1,0,1(i=x,y,z,t)の条件で、2563となる。なお、4次元配列状の関数I(x,y,z,t)は、図1に示す動画像識別装置100の構成においては、フレーム間差分部12が出力する4次元差分画像データである。しかし、4次元配列状の関数I(x,y,z,t)は、これに限定されるものではなく、3次元点群データの時系列データであればどのようなデータであっても良い。ここでは、4次元配列状の関数I(x,y,z,t)が、4次元点群データであるとして説明する。ただし、4次元配列状の関数I(x,y,z,t)が4次元ボクセルデータであっても良い。
【0045】
図3は、4次元に拡張したHLAC(以下、「4D−HLAC」という)による特徴量の算出処理を模式的に示す図である。図3(a)は、4次元点群データ300の一例を示す。4次元点群データ300は、複数の3次元点群データ301〜303を含む。各3次元点群データの各画素は画素値を有する。図3(b)は、4D−HLACの位置ベクトルおよび変位ベクトルの一例を示す。図3(b)では、3×3×3×3のサイズのマスク310を想定し、マスク310の中心の画素312aが位置ベクトルrの位置を示し、マスクの中心以外でハッチングを施している画素311aおよび画素313aが、画素312aを原点としたときの変位ベクトルa(n=1,・・・,N)が示す位置を表している。マスク310を4次元点群データ300上で走査しながら、各走査位置における当該マスク310が指定する画素位置の4次元点群データ300の画素値の積が算出される。例えば、マスク310を構成するサブマスク311、312および313を、それぞれ、3次元点群データ301、302および303の同一の位置に重ね合わせ、画素311a、312aおよび313aの位置における画素値の積が算出される。算出された積の4次元点群データ300における和が算出される。このような積がマスクごとに算出されるため、各マスクについて算出した前記和を要素とする特徴量ベクトルを算出することにより、4次元点群データ300の特徴量を算出することができる。なお、マスク310の走査は、マスク310をx軸方向、y軸方向、z軸方向またはt軸方向に1画素(1ボクセル)ずつずらせながら、4次元点群データ300の各位置にマスク310を当てはめることにより行われる。
【0046】
HLACを4次元に拡張することで4次元ボクセルデータに対する特徴量を抽出することが可能になる。4次元ボクセルデータを用いたパターン認識をすることで、動画像によるパターン認識にはない次の性質が現れる。
【0047】
(性質1)空間的に位置不変性が成り立つ。
【0048】
動画像上の場合は、画面に平行な移動に対する位置不変性はあるが、奥行き方向に対しては画像上の大きさが変化してしまい位置不変性が成り立たない。3次元情報を用いると奥行きに対しても等価に位置不変性が成り立つ。
【0049】
(性質2)直接的に幾何情報を用いることができる。
【0050】
カメラ等で取得できる動画像は対象物体から反射して到達する光を検出しているため、直接的に得られる情報は色情報または輝度情報である。その動画像にエッジ検出等の処理を施すことによってある程度の幾何的な情報を間接的に得ることができるが、その物体の色の影響を少なからず受けてしまう。一方、レーザレンジファインダ等による3次元情報測定機器から得られる情報は直接的な幾何情報である。色が多彩な対象物も、幾何情報を用いればその影響を受けることがない。
【0051】
(性質3)認識対象の奥行き方向の領域を制限することができる。
【0052】
2次元画像の動画像は奥行き情報を持っていないので、同時に遠方にある背景も映り込むことになる。一方、奥行き情報をもった3次元画像の動画像は、奥行き方向の認識領域を制限することによって背景を排除することができる。
【0053】
(性質4)対象物を任意の軸で回転させることができる。
【0054】
対象物の遮蔽の問題は存在するが、対象物を任意に回転させることができる。これによって、ある向きから取得したデータであっても回転させて複製することにより、仮想的にあらゆる向きから取得したデータを生成することが可能である。
【0055】
また、計算コストや性能向上のため、HLACはエッジ画像のように値が0か1しかとらない2値関数I(r)に適用することが多い。その場合、複数の同じ変位ベクトルを有する組み合わせ(図2において数字が記してある部分)は、変位ベクトルの数を減らして一つにまとめた組み合わせと同じ値を出力するようになる。例えば、マスク201とマスク202とマスク203とでは、同じ値を出力する。また、マスク204とマスク205とでは、同じ値を出力する。そのため、HLACを多値関数I(r)に適用した場合に比べ、独立した特徴ベクトルの要素数は少なくなり、HLACで25、CHLACで251となる。また、4D−HLACでは、独立した特徴ベクトルの要素数は2481となる。
【0056】
4D−HLAC特徴量は、局所パターンの総和を算出することにより得られる。このため、4D−HLAC特徴量は、対象物の出現位置が変化しても同じ値が出力される性質(位置不変性)や、データ中に複数の対象物が存在する場合、全体の特徴量はそれぞれの対象物の特徴量の和と等しくなる性質(加法性)を有する。また、4D−HLAC特徴量は積と和のみで演算を行えるために計算コストが小さく、リアルタイム処理に向いている。また、4D−HLAC特徴量は様々な対象に適用することが可能なモデルフリーな特徴量であり、特徴量ベクトルはデータの対象かかわらず常に一定の長さであるため、この特徴量をそのまま識別手法に適用することが可能である。
【0057】
以上のように、特徴量抽出部13は、フレーム間差分部12より出力される4次元差分画像データ上で、図3(b)に示したようなマスク310を走査しながら、2値のボクセル値の積和演算を行うことにより、特徴量ベクトルを4次元差分画像データの特徴量として抽出する。
【0058】
パターン識別部20は、特徴量抽出部13で抽出された4次元差分画像データの特徴量に基づいて、対象の動きを識別し、識別結果を出力する。パターン識別方法は限定されるものではないが、本実施の形態では、一例としてフィッシャーの線形判別を用いたパターン識別を用いる。
【0059】
まず、パターン識別部20が行う動作の数の推定処理の原理について説明し、その後、推定処理の詳細を説明する。
【0060】
図4は、パターン識別部20による動作の数の推定処理の原理を説明するための図である。図4(a)に示すように、例えば、「前方向に回す(Forward)」、「後ろ方向に回す(Backward)」、「上下させる(UpDown)」という3つの動作を学習させ、それぞれの動作に対応する4D−HLAC特徴量をm、m、mとする。一方、入力された4次元差分画像データから得られた4D−HLAC特徴量をxとする(図4(b))。このとき、xは、図4(c)に記載のようにm、m、mの重み付き線形和で表現することができる。ここで、a、a、aはそれぞれの動作の動作数を表す。動作の学習時には、m、m、mをそれぞれ複数取得する。これら取得した特徴量の次元を3次元に削減し、図4(d)に示すように各動作を代表する特徴量をm´、m´、m´とし、xの次元数を同様に3次元に削減した特徴ベクトルをx´とすると、各動作の動作数は、図4(e)に示す式により算出することができる。次に、このような処理を詳細に説明する。
【0061】
(フィッシャーの線形判別を用いたパターン識別)
フィッシャーの線形判別はデータのクラス構造を保ったまま次元削減を行う手法である。K個のクラスCk(k=1,2,・・・,K)にラベリングされた入力ベクトルxを、行列Wを用いた写像(式2)を用いて次元削減することを考える。
【0062】
y=Wx (式2)
【0063】
ここで、
【数2】
は出力ベクトルであり、この空間上で、クラスタリングが容易になるように、写像後のクラス内分散sを小さく、クラス間分散sを大きくする写像行列Wを学習フェーズで求める。
【0064】
それぞれのクラスの写像後の重心vおよび、全データの重心vは、式4および式5で表すことができる。
【0065】
【数3】
【0066】
ただし、Nはそれぞれのクラスのデータ数、Nは全データ数である。写像後のクラス内分散s、クラス間分散sを次の式6および式7でそれぞれ求める。
【0067】
【数4】
【0068】
ただし、このとき、Wのスカラ関数J(W)を最大化するWを求める。
【0069】
【数5】
【0070】
これは、写像前のクラス内分散S、クラス間分散Sをそれぞれのクラスの写像後の重心vおよび、全データの重心vは
【数6】
としたとき、一般化固有値問題
ψ=λSψ (式13)
を解き、得られた上位K−1個の固有ベクトル
ψ、ψ、・・・、ψK−1 (式14)
を用いて、
W=[ψψ・・・ψK−1] (式15)
と並べることにより行列Wが得られる。
【0071】
判別フェーズでは、このWを用いて式2に従い写像を行って次元削減を行った後に、それぞれのクラス重心vとの差のノルムを求め、最も短い距離のクラスにデータが属するとする。
【0072】
(動作の数推定のための方法)
ここでは、それぞれのクラスの重心ベクトルmが既知である特徴ベクトルxが与えられた時に、特徴ベクトルxをそれぞれのクラスに分解し、各クラスに属する動作の数を数える問題を考える。
【0073】
前節で説明したフィッシャーの線形判別による写像(式2)はクラスをよりよく分類するための部分空間を与えてくれるが、その次元はクラス数より1つ少ないため、その部分空間に写像されたクラス重心のベクトルvは線形従属になってしまう。このため、式16のような線形結合の形で表したときのそれぞれのクラスに属する動作の数aを一意に求めることができない。
【0074】
y=[v・・・vK−1]a (式16)
【0075】
このaを一意に求めるためには少なくともクラス数と写像後の空間の次元を一致させる必要がある。そのために、判別する動作のKクラスに加えてもう一つ零ベクトルを(K+1)番目のクラスとして追加し、フィッシャーの線形判別を行う。そうすることで次の効果がある。
【0076】
(効果1)各動作のクラスが原点から離れるような部分空間が求まる。
【0077】
(効果2)部分空間の次元が一つ増える。
【0078】
ここで加えた零ベクトルは何も動作を行っていない状態を意味し、各動作の数を推定する上ですべての動作数が0を意味する本質的に重要な点である。さらにこの(K+1)番目のクラスに環境から得られたノイズの特徴ベクトルを追加することにより、環境ノイズ成分が原点に重なり除去される部分空間が得られることが期待される。これらの処理によって、動作の数は増やさずに部分空間の次元が増えるので式16を変形した式17によって、各動作の数aを求めることができる。
【0079】
a=[v・・・vK−1−1y (式17)
【0080】
次に、動画像識別装置100を用いた実験の結果について説明する。
【0081】
(基礎実験)
図5に示すように、腕を「前方向に回す(Forward)」、「後ろ方向に回す(Backward)」、「上下させる(UpDown)」という3つの動作を正面から採取したデータを使って判別する性能評価実験を行った。この3つの動作は奥行き情報が重要であるにも関わらず情報が得られないため、2次元の動画像のみでは判別が困難であることから本手法が有用である。比較のために、3次元画像の時系列データを取得すると共に、輝度画像(各画素値が対象の輝度値を示す画像)の時系列データ(輝度動画)および深度画像(各画素値が対象までの距離を示す画像)の時系列データ(深度動画)を同時に取得する。輝度動画および深度動画からはCHLACを用いて特徴量を抽出し、抽出した特徴量を用いてパターン識別を行う。3次元画像の時系列データからは4D−HLACを用いて特徴量を抽出し、抽出した特徴量を用いてパターン識別を行う。図6Aは、輝度画像の一例を示す図である。図6Bは、深度画像の一例を示す図である。図6Cは、ボクセル変換部11から出力された3次元ボクセルデータの画像の一例を示す図である。
【0082】
(実験条件・手法)
4次元点群データ(3次元点群データの時系列データ)採取には、Microsoft社のKinectを用いる。データ採取は250フレーム(8.3秒)のブロックを「1試行」とし、1人につき1動作あたり、10試行のデータを採取した。その他、実験条件を表1に示す。また、特徴ベクトルは20フレーム毎に区切って計算し、1試行あたり231のベクトルを算出し、学習および判別に用いた。
【0083】
【表1】
【0084】
ここで、採取したデータ人数Mにおいて、M−1人のデータを学習データとして用い、残りの1人のデータを検証データとして使用した場合の、判別結果とラベリングの一致率を識別率とする。
【0085】
比較対象として輝度動画および深度動画を用いて識別する。これらは、両者とも3次元の配列データとして取り扱うことが可能であるため、従来手法であるCHLACによる特徴抽出が可能である。特徴抽出プロセスのみを取り替え、他のプロセスおよび条件は等しくする。特徴量抽出プロセスでは、Kinectセンサから得られる二種の元動画(輝度動画、深度動画)に対し、時間差分を行うことにより得られる画像から抽出された特徴ベクトルを用いて検証を行う。正面からの輝度動画では判別し難い3つの運動を取り上げたため、輝度動画による識別の識別率は落ち込むと考えられるが、深度動画は3次元情報を含むため、深度動画による識別率は高くなると考えられる。
【0086】
(実験結果および考察)
本手法と他の手法を比較した結果を図7に示す。4D−HLACを用いて4次元差分画像データより抽出された特徴量を用いた動きの識別率は98.2%である。これに対し、輝度動画からCHLACを用いて抽出した特徴量を用いた動きの識別率は63.5%であり、深度動画からCHLACを用いて抽出した特徴量を用いた動きの識別率は75.8%であり、いずれも本手法よりも劣る。
【0087】
3クラス識別の問題であるので、無作為に回答した場合の識別率は33.3%となる。正面から判断し難い3動作を実験に用いたにも関わらず、輝度動画による識別率が33.3%より高くなった理由は、人が腕を回す運動に回転方向によって癖がありそれが正面からの動画で確認できるためであると考えられる。
【0088】
深度動画による識別率は、3次元情報を用いているが本手法に比べ劣っている。この深度動画を用いた方法と、本手法の違いは、動画データ(3次元配列データ)として特徴抽出するかボクセル動画データ(4次元配列データ)として特徴抽出するかであり、元データとしては両者とも深度情報のみである。それにも関わらず本手法の識別率が高い理由として以下が考えられる。
【0089】
(理由1)3次元的な位置不変性がこの手法では成り立たないこと。
【0090】
3次元ボクセルデータ上では物体の奥行き方向の位置は、左右上下と同様にボクセルの位置として現れるが、深度画像上では、ピクセル値および対象物体の大小の2つの変化として現れる。そのため、奥行き方向の位置が変わることにより、深度動画から抽出した特徴は変化するため、識別に悪影響を与えている可能性がある。
【0091】
(理由2)3次元的には離れた物体が深度画像上では隣り合わせになっているため、深度画像は情報表現として好ましくない。
【0092】
HLAC等は局所パターンをベースとした特徴抽出手法である。深度画像では、ピクセル値により深度を表現することで3次元情報を格納しているが、そのピクセルの配置は2次元配列状であるため、3次元的に離れた場所にある物体が隣り合うことは、通常の画像と同様にあり得る。そのため、物体の形状の特徴に加え物体間の情報が加わってしまい、識別に悪影響を与える可能性がある。一方、本手法のように深度情報を3次元ボクセルデータとして取り扱う場合、離れた場所にある物体は、3次元ボクセルデータ上でも離れた場所にある。そのため、4D−HLACにより特徴抽出をしたとき、隣接していない物体同士はお互いに特徴値が独立する。特徴抽出を行う前に深度情報を3次元ボクセルデータに変換することは、3次元情報の本質的な特徴を抽出するためであるといえる。
【0093】
(複数動作の同時認識)
動画像に対するCHLACでは画面に平行な平面上の位置不変性のみが成立するのに対し、3次元ボクセルデータに対する4D−HLACでは奥行きも含めた3次元的な位置不変性が成り立つはずである。また、HLACは積分演算により算出される特徴であるため加法性も成り立つ。これらの特徴より複数の動作を同時に認識し、それぞれの動作を行っている人数の推定が、対象領域を区切ることなく、対象領域全体に渡って4D−HLAC特徴量を抽出することにより可能であると考えられる。そこで図8のように、3人が同時に動作を行っている場合にそれぞれの動作の数を推定することを試みた。動作の数の判別には上述した手法を用いる。
【0094】
動きの判別結果の一例を図9に示す。これは、以下のような3つの動きを3人で行った場合の250フレーム(約8。3秒)分の推定結果である。
【0095】
(動き1)3人全員「腕を前方向に回す」動き(1フレーム〜70フレーム)。
【0096】
(動き2)2人「腕を前方向に回す」動き、1人「腕を後ろ方向に回す」動き(71フレーム〜151フレーム)。
【0097】
(動き3)1人「腕を前方向に回す」動き、1人「腕を後ろ方向に回す」動き、1人「腕を上下させる」動き(152フレーム〜250フレーム)。
【0098】
図9(a)は、3つの動きのそれぞれの実際の数を示すグラフである。図9(b)は、3つの動きのそれぞれの数の推定結果を示すグラフである。図9(c)は、図9(b)に示す3つの動きのそれぞれの数の単純移動平均を算出し、算出した単純移動平均を四捨五入した結果を示すグラフである。いずれのグラフも横軸がフレーム数を示し、縦軸が動きの数を示す。
【0099】
図9(b)に示す推定結果が20フレーム目から始まっているのは、20フレーム分のデータが集まるまで、4D−HLACの特徴量を求めることができないためである。
【0100】
図9(b)によると、推定結果には多くのノイズ成分が含まれているが、およその数は推定できることを示している。多くのノイズ成分は対象動作が周期運動であることが理由であると考えられる。このため、図9(c)に示すように、20フレームの単純移動平均を算出し、単純移動平均を四捨五入することにより改善することができる。
【0101】
(リアルタイム識別)
動画像識別装置100の計算コストの少なさを実証するために、動画像識別装置100を実現するためのプログラムを作成し、パーソナルコンピュータ(以下、「PC」という)上で実行させた。使用したPCのスペックは、以下の表2の通りである。
【0102】
【表2】
【0103】
プログラムは、Process1とProcess2の2つのプロセスに大きく分かれる。Process1は、ボクセル変換部11が時系列の3次元ボクセルデータ(4次元ボクセルデータ)を生成するプロセスであり、Process2は、フレーム間差分部12、特徴量抽出部13およびパターン識別部20が、4次元ボクセルデータから動きを識別するプロセスである。他の処理と比べて時間のかかる4D−HLACによる特徴量抽出のプロセスが、高速な4次元点群データのキャプチャ速度を落とすことのないように、このようなプロセスの構成になっている。
【0104】
ボクセル変換部11は、次の手順で上記キャプチャ速度に合わせて繰り返し処理し時系列の3次元ボクセルデータ(4次元ボクセルデータ)を生成する。
【0105】
1.ボクセル変換部11は、Kinectセンサから3次元情報(3次元点群データ)を取得する。
【0106】
2.ボクセル変換部11は、取得した3次元情報を、3次元ボクセルデータに変換する。
【0107】
3.ボクセル変換部11は、ボクセル変換部11が備える時系列ボクセルデータバッファに1フレームの3次元ボクセルデータを書き込み、更新する。
【0108】
フレーム間差分部12、特徴量抽出部13およびパターン識別部20は、次の手順に従い、ボクセル変換部11で生成された時系列の3次元ボクセルデータから動きの識別を繰り返し行う。
【0109】
1.フレーム間差分部12は、時系列ボクセルデータバッファから3次元ボクセルデータを取得する。
【0110】
2.フレーム間差分部12は、隣接するフレーム間で3次元ボクセルデータの各ボクセル値の差分値を算出することにより、差分画像の時系列データである4次元差分画像データを算出する。
【0111】
3.特徴量抽出部13は、4次元差分画像データから、4D−HLAC特徴量を抽出する。
【0112】
4.パターン識別部20は、特徴量抽出部13が抽出した4D−HLAC特徴量を用いて、対象の動きを識別する。
【0113】
表3にリアルタイム識別についてのパラメータを示す。4D−HLACは対象物の種類や量によって処理内容が変化しない特徴であるが、本手法のようにバイナリデータに対する4D−HLACを実装する際、マスク内にボクセル値が0の部分が存在する場合には、マスクが指定する位置ベクトルおよび変位ベクトルのボクセル値の積は0になる。このため、そのマスクについての演算をスキップすることができる。このため、ボクセル値に0が多いほど処理コストが小さくなる。本実施の形態では、隣り合うフレーム間でボクセル値の差分を算出している。このため、大きく動く動作は静止に近い動作に比べて、ボクセル値が0以外のボクセル数が多くなる。そのためProcess2の処理速度にはばらつきが生じている。なお、Process2に含まれているフレーム間差分部12による差分処理は、Process1に含めた方が処理が重複する可能性がないので好ましい。しかし、差分処理をProcess1に含めると毎秒30回の速度を落としてしまうため、Process2に入れている。
【0114】
【表3】
【0115】
(結論)
本章では4D−HLACの性能を検証するために基礎実験を行った。以下のことが、結論として分かった。
【0116】
(1)輝度動画を用いた従来手法に比べ、奥行き方向の動きが重要な動きに対する認識に4D−HLACは有効である。
【0117】
(2)同じ情報量を持つ深度動画を用いたCHLACの特徴抽出によるパターン識別に比べても、一度4次元ボクセルデータに変換する本手法は識別率が高い。
【0118】
(3)現実的な学習データ量で十分な学習ができる。
【0119】
(4)3次元空間上の位置不変性、加法性が本手法では成り立ち、それを利用した複数の動作の同時認識が可能である。
【0120】
(5)HLACの低計算コストの性質は本手法も引き継いでおり、一般的なデスクトップPCにてリアルタイム識別が可能である。
【0121】
以上説明したように、本実施の形態によると、4次元点群データから、特徴量を抽出することができる。4次元点群データには、対象の奥行き方向の情報と、対象の時間的な動きの情報とが含まれている。また、特徴量抽出部の処理は、特定の対象に限定されるものでもない。このため、識別対象を限定せずに、高精度で対象の動きを識別することができる特徴量を抽出することができる。
【0122】
また、4次元ボクセルデータが含むボクセル数は、4次元点群データが含む画素数よりも少ない。また、4次元ボクセルデータが含む各ボクセルの値は2値である。このため、4次元ボクセルデータのデータサイズは、4次元点群データのデータサイズよりも小さい。よって、この特徴量抽出装置で抽出された特徴量を用いると、対象の動きを高速に識別することができる。
【0123】
さらに、フレーム間での3次元ボクセルデータの各ボクセル値の差分は、各ボクセルで変化があったか否かを示している。これにより、対象の動きがあった箇所を際立たせた4次元差分画像データを生成することができる。この4次元差分画像データから抽出した特徴量を用いることで、対象の動きを高精度で識別することができる場合がある。なお、4次元点群データや識別対象とされる動きによっては、フレーム間差分を行わないほうが高精度で対象の動きを識別することができる場合がある。
【0124】
以上、本発明の実施の形態に係る動画像識別装置100および特徴量抽出装置10について説明したが、本発明は、この実施の形態に限定されるものではない。
【0125】
例えば、3次元点群データは、Kinectから採取するものとしたが、3次元点群データはこれ以外の装置により採取されても良い。また、3次元点群データの各画素値は、輝度を表すものであっても良いし、その画素に対応する3次元位置における対象の存在確率を表すものであっても良い。
【0126】
例えば、フレーム間差分部12は、隣接するフレーム間で3次元ボクセルデータの差分を行ったが、パターン識別対象が映っていない背景画像から生成された3次元ボクセルデータを背景画像として、背景差分を行うものであっても良い。
【0127】
また、特徴量抽出装置10の構成要素であるボクセル変換部11、フレーム間差分部12および特徴量抽出部13のうち、ボクセル変換部11およびフレーム間差分部12は任意の構成要素であり、特徴量抽出装置10に備えられていても良いし備えられていなくても良い。
【0128】
例えば、特徴量抽出装置10が特徴量抽出部13のみを備えていても良い。この場合には、特徴量抽出部13は、動画像識別装置100に入力された4次元点群データ上から4D−HLAC特徴量を抽出する。
【0129】
また、特徴量抽出装置10は、ボクセル変換部11および特徴量抽出部13を備えており、フレーム間差分部12を備えていなくても良い。この場合には、特徴量抽出部13は、ボクセル変換部11で生成された4次元ボクセルデータから4D−HLAC特徴量を抽出する。
【0130】
また、特徴量抽出装置10は、フレーム間差分部12および特徴量抽出部13を備えており、ボクセル変換部11を備えていなくても良い。この場合には、フレーム間差分部12は、動画像識別装置100に入力された4次元点群データを構成する3次元点群データのフレーム間での差分値を算出することにより、差分値を画素値とする差分画像の時系列データである4次元差分画像データを算出する。特徴量抽出部13は、フレーム間差分部12が算出した4次元差分画像データから4D−HLAC特徴量を抽出する。
【0131】
また、上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクドライブ、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムとして構成されても良い。RAMまたはハードディスクドライブには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
【0132】
さらに、上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしても良い。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
【0133】
さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしても良い。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールは、上記の超多機能LSIを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしても良い。
【0134】
また、本発明は、上記に示す方法であるとしても良い。また、本発明は、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。
【0135】
さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な非一時的な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc(登録商標))、半導体メモリなどに記録したものとしても良い。また、これらの非一時的な記録媒体に記録されている上記デジタル信号であるとしても良い。
【0136】
また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。
【0137】
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。
【0138】
また、上記プログラムまたは上記デジタル信号を上記非一時的な記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。
【0139】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【産業上の利用可能性】
【0140】
本発明は、3次元画像の時系列画像から特徴量を抽出する特徴量抽出装置に適用でき、特に、抽出された特徴量を利用したパターン識別を行う動画像識別装置等に適用できる。
【符号の説明】
【0141】
10 特徴量抽出装置
11 ボクセル変換部
12 フレーム間差分部
13 特徴量抽出部
20 パターン識別部
31〜33 画像
100 動画像識別装置
201〜205、310 マスク
300 4次元点群データ
301〜303 3次元点群データ
311〜313 サブマスク
311a、312a、313a ボクセル
図2
図3
図7
図9
図1
図4
図5
図6A
図6B
図6C
図8