特開2015-130151(P2015-130151A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッドの特許一覧

特開2015-130151感情および行動を認識するための方法およびシステム
<>
  • 特開2015130151-感情および行動を認識するための方法およびシステム 図000017
  • 特開2015130151-感情および行動を認識するための方法およびシステム 図000018
  • 特開2015130151-感情および行動を認識するための方法およびシステム 図000019
  • 特開2015130151-感情および行動を認識するための方法およびシステム 図000020
  • 特開2015130151-感情および行動を認識するための方法およびシステム 図000021
  • 特開2015130151-感情および行動を認識するための方法およびシステム 図000022
  • 特開2015130151-感情および行動を認識するための方法およびシステム 図000023
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2015-130151(P2015-130151A)
(43)【公開日】2015年7月16日
(54)【発明の名称】感情および行動を認識するための方法およびシステム
(51)【国際特許分類】
   G06T 7/20 20060101AFI20150619BHJP
   G06T 13/40 20110101ALI20150619BHJP
【FI】
   G06T7/20 300Z
   G06T13/40
【審査請求】未請求
【請求項の数】21
【出願形態】OL
【外国語出願】
【全頁数】23
(21)【出願番号】特願2014-230124(P2014-230124)
(22)【出願日】2014年11月12日
(31)【優先権主張番号】14/145132
(32)【優先日】2013年12月31日
(33)【優先権主張国】US
(71)【出願人】
【識別番号】507031918
【氏名又は名称】コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
(74)【代理人】
【識別番号】110000671
【氏名又は名称】八田国際特許業務法人
(72)【発明者】
【氏名】チェン カオ
(72)【発明者】
【氏名】ヨンミャン ツァン
(72)【発明者】
【氏名】ハイソン グ
(57)【要約】      (修正有)
【課題】人間の感情及び行動を認識する方法を提供する。
【解決手段】被検者についてビデオデータストリームをキャプチャーする段階、ビデオデータストリームから身体の骨格データを抽出する段階、身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、身体の骨格データについて特徴の抽出を演算する段階、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することで、各フレームについて複数のヒストグラムシーケンスを生成する段階、時間に対し複数の球ビンをマッピングすることで、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する段階、方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する段階及び行動及び/又は感情として単一の列ベクトルを分類する段階、を有する。
【選択図】図2
【特許請求の範囲】
【請求項1】
行動を認識する方法であって、
一以上の被検者について、少なくとも一つのビデオデータストリームをキャプチャーする段階と、
少なくとも一つのビデオデータストリームから身体の骨格データを抽出する段階と、
抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する段階と、
複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する段階と、
時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する段階と、
方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する段階と、
行動および/または感情として単一の列ベクトルを分類する段階と、
を有する方法。
【請求項2】
抽出された身体の骨格データについて特徴の抽出を演算する段階は、抽出された身体の骨格データの各フレームについて、姿勢の特徴、速度の特徴、および動作の特徴を演算する、請求項1に記載の方法。
【請求項3】
姿勢の特徴は、各フレームtにおける接合nと他の接合との間の相対的位置を表現する、請求項2に記載の方法。
【請求項4】
速度の特徴は、フレームtにおける接合nと、先行するフレーム(t−k)における各接合との間の相対的位置を表現し、kは速度推定ステップサイズのパラメータである、請求項2または3に記載の方法。
【請求項5】
パラメータは記録されたアクションビデオのフレームレートに依存し、かつ、期間内に顕著な動作を有する場合に、接合nについての明確な動作を示すために、フレーム(t−k)とフレームtとの間の最小のギャップである、請求項4に記載の方法。
【請求項6】
動作の特徴は、フレームtにおける接合nと、最初のフレームにおける各接合との間の相対的な位置を表現する、請求項2〜5のいずれか一つに記載の方法。
【請求項7】
複数の球ビンは、複数の等しいビンに分割される、請求項1〜6のいずれか一項に記載の方法。
【請求項8】
複数の等しいビンから離隔されている内部球ビンを追加することにより動作ノイズを除外する段階を有する、請求項7に記載の方法。
【請求項9】
エネルギーマップを複数の重複領域に等しく分割する段階であって、重複領域における各ポイントは、Y−勾配はY軸において隣接する上と下で異なり、X−勾配はX軸において隣接する右と左で異なる、段階と、
Y−勾配/X−勾配によるタンジェント角度を演算し、タンジェント角度をいくつかのビンに投射して重複領域内にヒストグラムを形成する段階と、
を有する請求項1〜8のいずれか一項に記載の方法。
【請求項10】
重複領域内に各ヒストグラムを結び付けることにより単一の列ベクトルを得る段階を有する請求項9に記載の方法。
【請求項11】
行動を認識するシステムであって、
一以上の被検者について、少なくとも一つのビデオデータストリームをキャプチャーするように構成されたビデオカメラと、
少なくとも一つのビデオデータストリームから身体の骨格データを抽出し、
抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算し、
複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成し、
時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成し、
方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成し、
行動および/または感情として単一の列ベクトルを分類する、ための実行可能命令を有する、一以上のモジュールと、を有するシステム。
【請求項12】
抽出された身体の骨格データについて特徴の抽出を演算する段階は、抽出された身体の骨格データの各フレームについて、姿勢の特徴、速度の特徴、および動作の特徴を演算する、請求項11に記載のシステム。
【請求項13】
姿勢の特徴は、各フレームtにおける接合nと他の接合のそれぞれとの間の相対的位置を表現し、
速度の特徴は、フレームtにおける接合nと、先行するフレーム(t−k)における各接合との間の相対的位置を表現し、kは速度推定ステップサイズのパラメータであり、
動作の特徴は、フレームtにおける接合nと、最初のフレームにおける各接合との間の相対的な位置を表現する、請求項12に記載のシステム。
【請求項14】
パラメータは記録されたアクションビデオのフレームレートに依存し、かつ、期間内に顕著な動作を有する場合に、接合nについての明確な動作を示すために、フレーム(t−k)とフレームtとの間の最小のギャップである、請求項13に記載のシステム。
【請求項15】
複数の球ビンは、複数の等しいビンに分割され、
複数の等しいビンから離隔されている内部球ビンを追加することにより動作ノイズを除外する、請求項11〜14のいずれか一項に記載のシステム。
【請求項16】
エネルギーマップを複数の重複領域に等しく分割し、重複領域における各ポイントは、Y−勾配はY軸において隣接する上と下で異なり、X−勾配はX軸において隣接する右と左で異なり、
Y−勾配/X−勾配によるタンジェント角度を演算し、タンジェント角度をいくつかのビンに投射して重複領域内にヒストグラムを形成する、
請求項11〜15のいずれか一項に記載のシステム。
【請求項17】
行動を認識するためのコンピュータ読み取り可能なコードを有するプログラムであって、前記コードは、
少なくとも一つのビデオデータストリームから身体の骨格データを抽出する手順と、
抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する手順と、
複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する手順と、
時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する手順と、
方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する手順と、
行動および/または感情として単一の列ベクトルを分類する手順と、
を有するプログラム。
【請求項18】
抽出された身体の骨格データについて特徴の抽出を演算する手順は、抽出された身体の骨格データの各フレームについて、姿勢の特徴、速度の特徴、および動作の特徴を演算し、
姿勢の特徴は、各フレームtにおける接合nと他の接合のそれぞれとの間の相対的位置を表現し、
速度の特徴は、フレームtにおける接合nと、先行するフレーム(t−k)における各接合との間の相対的位置を表現し、kは速度推定ステップサイズのパラメータであり、
動作の特徴は、フレームtにおける接合nと、最初のフレームにおける各接合との間の相対的な位置を表現し、
パラメータは記録されたアクションビデオのフレームレートに依存し、かつ、期間内に顕著な動作を有する場合に、接合nについての明確な動作を示すために、パラメータはフレーム(t−k)とフレームtとの間の最小のギャップである、請求項17に記載のプログラム。
【請求項19】
複数の球ビンは、複数の等しいビンに分割され、
複数の等しいビンから離隔されている内部球ビンを追加することにより動作ノイズを除外する手順を有する、請求項17または18に記載のプログラム。
【請求項20】
エネルギーマップを複数の重複領域に等しく分割する手順であって、重複領域における各ポイントは、Y−勾配はY軸において隣接する上と下で異なり、X−勾配はX軸において隣接する右と左で異なる、手順と、
Y−勾配/X−勾配によるタンジェント角度を演算し、タンジェント角度をいくつかのビンに投射して重複領域内にヒストグラムを形成する手順と、
を有する請求項17〜19のいずれか一項に記載のプログラム。
【請求項21】
請求項17〜20のいずれか一項に記載のプログラムを記録したコンピュータ読取可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
発明の分野
本開示は、感情および行動を認識するための方法およびシステムであって、感情の検出を含み、人間の感情および行動をリアルタイムでモニターすることに適用することができるもの、に関する。
【背景技術】
【0002】
背景
顔の表情および人間の動作が、感情および行動の検出のために利用されることができる。動作の認識はまた、人間の動作の自動的な認識および/またはビデオ監視、人間とコンピュータの相互作用、および感情検出のような様々な実用的応用のための感情の検出のために利用されることができる。3Dセンサーおよび姿勢の推定といった新たな技術により、伝統的なカラービデオベースの方法に代替可能な、深さおよび骨格の情報に基づく動作認識アプローチを行うことができる。
【発明の概要】
【0003】
概要
上述の点を考慮すると、計算時間を削減するとともに身体接合情報に依存可能な、身振り検出の方法およびシステムを利用して、感情および行動を検出する方法およびシステムを有することが望ましい。
【0004】
実施形態の例として、行動を認識する方法が開示される。当該方法は、一以上の被検者について、少なくとも一つのビデオデータストリームをキャプチャーする段階と、少なくとも一つのビデオデータストリームから身体の骨格データを抽出する段階と、抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する段階と、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する段階と、時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する段階と、方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する段階と、行動および/または感情として単一の列ベクトルを分類する段階と、を有する。
【0005】
実施形態の例として、行動を認識するシステムが開示される。当該システムは、一以上の被検者について、少なくとも一つのビデオデータストリームをキャプチャーするように構成されたビデオカメラと、少なくとも一つのビデオデータストリームから身体の骨格データを抽出し、抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算し、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成し、時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成し、方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して単一の列ベクトルを生成し、および行動および/または感情として単一の列ベクトルを分類する、ための実行可能命令を有する、一以上のモジュールと、を有する。
【0006】
実施形態の例として、行動の認識のためのコンピュータ読み取り可能なコードを有するプログラムが開示される。当該コードは、少なくとも一つのビデオデータストリームから身体の骨格データを抽出する手順と、抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する手順と、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する手順と、時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する手順と、方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する手順と、行動および/または感情として単一の列ベクトルを分類する手順と、を有する。
【図面の簡単な説明】
【0007】
図面の簡単な説明
添付の図面は発明のさらなる理解を提供するために含まれており、また、組み込まれて本明細書の一部を構成する。図面は発明の実施形態を図示しており、明細書とともに発明の本質を説明することに寄与する。図面においては、
図1図1は、実施形態の例による、行動の検出のためのシステムを示す。
図2図2は、実施形態の例による、システムのフローチャートを示す。
図3図3は、実施形態の例による、3Dセンサーにより得られた、15個の接合部を有する人体であって、各点に対し三次元位置(X,Y,D)が得られるものを示す。
図4図4は、実施形態の例により、ビデオ入力からどのように姿勢、速度、および動作の特徴を抽出できるかを表わすチャートを示す。
図5図5は、実施形態の例による、一組の接合部の同心球ビン(concentric spherical bin)の表現を示す。
図6図6は、実施形態の例による、ヒストグラムシーケンスのエネルギーギャップの表現であって、X軸はフレーム長、Y軸は基本的特徴から計算された方位のビンである。
図7図7は、実施形態の例による、例としての感情および/または行動のデータセットにおけるサンプルプロファイルを示す。
【発明を実施するための形態】
【0008】
詳細な説明
本発明の実施形態についてここに詳細に言及される。実施形態の例が添付された図面により示されている。同じまたは類似の部分を指すために、図面および明細書において可能な限り同じ参照番号が使用されている。
【0009】
実施形態の例により、身振りおよび動作による感情および行動の検出のための方法およびシステムが開示される。方法およびシステムは、三次元(3D)空間における身体関節の対応する動きと組み合わされる身振りの検出に基づいて感情および行動を検出するために使用される。
【0010】
実施形態の例によれば、一以上の被検者が一連の動きを行う際、身体動作を記録するために、3Dセンサー/ビデオカメラまたはビデオ入力を使用することができる。例えば、身体関節は、図3に示すように、15個の身体関節(またはポイント)から構成されることができ、それらは、センサーの機能としての3Dビデオの各フレームから推定することができる。実施形態の例によれば、姿勢、速度、および動きのような基本的な特徴は、被検者の動きを描写するために、フレームごとに抽出されることができる。それらの抽出された特徴(例えば、姿勢、速度、および動き)は、一以上の関節の組合せの大きさおよび位置から算出することができる。ヒストグラムのシーケンスは、抽出された特徴の統計的投射として形成されることができ、方向づけられた勾配のヒストグラムのアルゴリズム(HOG)が、ビデオにおいて検出された感情および行動に対応し、またはこれらを描写するベクトルディスクリプターを得るシーケンスに採用されることができる。リニアSVMのような分類エンジンが、生成されたベクトルディスクリプターを感情および/または動作として分類するために使用されることができる。
【0011】
実施形態の例によれば、本開示は、身体関節の組合せに対応する動きの検出に基づいて感情および行動を認識するシステムおよび方法に関する。行動認識システム100は、例えば、ビデオプロセスモジュール112、行動認識モジュール114、オフライン分析モジュール116、および分類データベースモジュール118を含む処理モジュールまたはシステム110を含むことができる。各モジュール112、114、116、118は、メモリー、プロセッサー、オペレーティングシステム、および/またはソフトウェアおよび/または光グラフィカルユーザーインターフェース(GUI)および/またはディスプレイを有する一以上のコンピュータまたは処理デバイスを含むことができる。例えば、各モジュール112、114、116、118は、例えばスタンドアロンのコンピュータといった一つのコンピュータデバイスに組み込まれることができ、または、一つ以上のコンピュータデバイスであってそれぞれメモリー、プロセッサー、オペレーティングシステム、および/またはソフトウェア、およびグラフィカルユーザーインターフェース(GUI)またはディスプレイを有するものの中に含まれることができる。
【0012】
図1に示すように、処理モジュールまたはシステム110は、オンラインビデオ処理モジュール112、行動認識モジュール114、オフライン分析モジュール116、およびデータベースモジュール118を含む。実施形態の例によれば、オンラインビデオ処理モジュール112は、ビデオカメラ120から受信されるビデオストリーム122から受信されるビデオフレームから、身体骨格関節データ(図3)をモニターし、キャプチャーし、抽出するために使用されることができる。オフライン分析モジュール116は、キャプチャーされた骨格フレームを一以上のファイルに保存し、行動分類データベースモジュール118を管理するためのデータベースマネージメントインターフェースを提供する。実施形態の例によれば、オンラインビデオ処理モジュール112は、一以上の被検者710(図7)を描写する当初のビデオストリーム122から受信された未処理の入力データから行動の特徴を抽出する。抽出された行動の特徴は、行動認識モジュール114に入力されることができ、行動認識モジュール114は、基本的な特徴抽出240(図4)、球ビン投射250(図5)、方向づけられたヒストグラムシーケンス260(図6)、および、単一の列ベクトルまたはディスクリプターを得るための、方向づけられた勾配のヒストグラム(HOG)の方向づけられたヒストグラムシーケンス260への適用を行う。被検者710のビデオ入力122と関連する感情または行動の認識または検出のために、単一の列ベクトルまたはディスクリプターは、機械学習分類器に入力(すなわち、それにより解析)される。実施形態の例によれば、機械学習分類器は、データベースモジュール118内で提供されることができる。
【0013】
実施形態の例によれば、オフライン分析モジュール116は、行動分類データベースモジュール118を手動で登録および管理するためのユーザーインターフェースを提供することができる。行動分類データベースモジュール118は、例えば、分類された行動および/または感情と関連させることができる単一の列ベクトルまたはディスクリプターといった特定可能な特徴のデータベースを含んで構成されることができる。例えば、実施形態の例によれば、システム100は、例えば、医療における検出および予防のために使用できる、転倒のような行動および/または全体的な雰囲気または感情の検出が可能な、可変環境人間行動検出システムとして使用されることができる。
【0014】
実施形態の例によれば、当初のビデオストリームまたはビデオ入力122は、ビデオカメラ120と例えば組み合わされる、一以上の動きおよび/または深さセンサー、および/または他の既知の動きおよび深さセンサーおよび/またはデバイスを使用して生成されることができる。実施形態の例によれば、ビデオカメラと組み合わされた単体の動きおよび深さセンサーよりもむしろ、3D(三次元の)ビデオカメラ技術を使用して、当初のビデオストリーム122を得ることができる。当初のビデオストリーム120から抽出されたデータはファイルに保存されることができ、および/または3Dビデオカメラ120からビデオ処理モジュール112および/または行動認識モジュール114へ直接入力されることができる。
【0015】
図2は、実施形態の例による、感情の検出を含む行動を検出するための、行動認識システム200のフローチャートである。図2に示すように、システム200は、被検者710(図7)の行動、感情、および/または動作210を含むビデオ入力またはビデオストリーム122を含む。被検者710は、例えば、人間、動物、および/または他の生き物であることができる。
【0016】
実施形態の例によれば、ビデオ入力122は、ビデオ入力122を処理してキャプチャーされたデータ220にするビデオ処理モジュール112に入力される。キャプチャーされたデータ220は、行動認識モジュール116に送信222されることができる。行動認識モジュール116は、キャプチャーされたデータから、各フレームに関する身体関節フレーム230、および、身体関節310(図3)の一以上の組合せの姿勢、速度、および動きを含む基本的な特徴240を抽出することができる一以上のモジュールを含むことができる。
【0017】
実施形態の例によれば、姿勢、速度、および動きを含む基本的な特徴240の抽出の後、基本的な特徴240のそれぞれのために、球ビン投射ユニット250を使用して、オリジナルのデカルト座標から抽出された各特徴に関するデルタユニット(すなわち、三次元位置(X,Y,D)における変化)が球座標に投射される。各球ビン投射は、次に、方向づけされたヒストグラムシーケンスユニット260を使用してエネルギーマップ600(図6)に変換される。ヒストグラムシーケンスはエネルギーマップ600として動作し、方向を動かす関節と、動作の時間的変化とを表示する。
【0018】
方向づけられた勾配のヒストグラム(HOG)のアルゴリズム262は、次に、複数のエネルギーマップ600に適用されることで、単一の列ベクトル(またはディスクリプターベクトル)270を得ることができる。単一の列ベクトルまたはディスクリプターベクトル270は、動作の分類の学習および認識のために、分類データベースモジュール118内で例えば提供されることができる機械学習アルゴリズム(学習分類器)280に入力されることができる。実施形態の例によれば、機械学習アルゴリズム280は、ベクトル270を認識し、動作または感情210を分類する。
【0019】
図3は、実施例による、センサーおよび/またはビデオカメラまたは3Dセンサー/カメラ122と向かい合う典型的なユーザーの例についての骨格表現300を図示する。図3に示すように、人間の骨格は、人体の頭、肩、手足を表わす、15個の接合(またはポイント)310および11の対応する線分320から構成されることができる。図3に示すように、線分320は接合310により互いに接続され、一方の線分320は他方により動きが制約され得る。さらに、例えば、他方が頭の動きのように比較的固定のままである一方で、いくつかの部分または線分320は独立の動きを行い得る。実施形態の例によれば、例えば、胸の胴(中央ポイント)は、ここに記載されるように、方法および工程の基準点として使用されることができる。人間以外の動物の検知または認識のために、例えば犬または猫の類似の骨格を生成し得ることは理解できる。
【0020】
実施形態の例によれば、3Dにおける各身体関節の相対的な位置を特定可能な、3Dセンサーまたはビデオ入力を使用して、人間の動作または感情をキャプチャーすることができる。例えば、実施形態の例によれば、15個の各接合310および対応する線分320は、動作の各フレームについてキャプチャーされることができる。加えて、各接合310について、三次元位置(X,Y,D)を得ることができる。実施形態の例によれば、各接合310の三次元位置は、デカルト座標系の(X,Y,D)として記述されることができる。
【0021】
図4は、実施形態の例による、姿勢、速度、および動きの特徴をどのように抽出するかを表示するチャートを示す。図4に示すように、T個のフレームと各フレームのN個の接合を伴うアクションビデオは、下記式(数1)として記載される一組の3Dポイントのシーケンスとして表現されることができる。
【0022】
【数1】
【0023】
実施形態の例によれば、例えば、15個の接合(またはポイント)310および11個の対応する線分320から構成される人間の骨格により、システム100は、N=15、および各異なるシーケンスで変化するTを含むことができる。人間の骨格は、15個の接合310および11個の対応する線分320より多いまたは少ない接合310および線分320を含んでもよく、対応する計算は、接合310の数および対応する線分320の数に基づいて変更および/または調整されることができると考えられる。
【0024】
実施形態の例によれば、特徴の抽出の第一段階は、一つのフレームにおける各接合の姿勢、速度、および動きの情報を表現する、各フレームにおける基本的特徴を演算することである。
【0025】
実施形態の例によれば、例えば、下記式(数2)の姿勢の特徴41は、接合nと各フレームtにおける各他の接合との間の相対的位置を、下記式(数3)のように記述することができる。
【0026】
【数2】
【0027】
【数3】
【0028】
例えば、各N接合について、フレームごとに、(N−1)の寸法要素(減算結果)を伴うT長のシーケンスが存在する。姿勢の特徴は、各フレームにおける身体の姿勢をキャプチャーできる。
【0029】
実施形態の例によれば、下記式(数4)の速度の特徴420は、フレームtにおける接合と先行するフレーム(t−k)における各接合との間の相対的位置を表現することができる。ここで、kは、速度推定ステップサイズのパラメータである。
【0030】
【数4】
【0031】
このパラメーターは、記録されたアクションビデオのフレームレートに依存することができ、かつ、その間に著しい動作があった場合に、接合nについて明らかな動きを示すための、フレーム(t−k)とフレームtとの間の最小のギャップであり得る。実施形態の例によれば、速度の特徴は、下記式(式5)のように記載できる。
【0032】
【数5】
【0033】
その名前が暗示するように、速度の特徴420は、各フレームにおいてどのくらい速く身体が動いているかという情報を供給する。
【0034】
実施形態の例によれば、下記式(数6)の動きの特徴430は、フレームtにおける接合nと最初のフレームにおける各接合との間の相対的位置を表現することができる。
【0035】
【数6】
【0036】
動きの特徴430は、下記式のように記述できる。
【0037】
【数7】
【0038】
例えば、十分にセグメント化またはアライメントされたアクションビデオについては、開始のフレームは、最初は静止していること、すなわち、動きのないという特徴であることが望ましい。実施形態の例によれば、動きの特徴430は、最初の状態と比較された各フレームにおける身体の動きをキャプチャーすることができる。
【0039】
実施形態の例によれば、各接合が3D座標情報(X,Y,D)を含むため、下記式(数8)のすべての減算単位もまた、三次元のデルタユニット(ΔX,ΔY,ΔD)という結果となることができる。
【0040】
【数8】
【0041】
基本的特徴の抽出後、当初のデカルト座標からの各デルタユニットは、例えば、(ΔX,ΔY,ΔZ)→(r,θ,φ)というように、球座標に投影されることができ、ビンヒストグラムがこれらの球面角を表現するために使用されることができる。図5は、実施形態の例による、一組の接合510、512の同心球ビン500の表現を示す。図5に示すように、各ポイント(または小さい円)510、512は接合を示し、線520はこれらを接続するリンクを示す。例えば、一方の接合510は、球を形成するための原点(または基点)として設定されることができ、他方の接合512は、座標値(r,θ,φ)をもつことができる。
【0042】
実施形態の例によれば、球500は、経度と緯度の両方の角度により、32個の等しいビン530に切り分けられることができる。球500は、例えば、2、4、8、16、32、62、128など、2のべき乗としていくらにでも切り分けられることができると理解される。実施形態の例によれば、例えば、一組の接合510、512は、これらのビン530の一つ以上に配置されることができる。さらに、小さなムーブメントノイズを除外するために、33番目のビン540が半径Rの内部のボールまたは球として追加されることができる。線長r<Rの場合、状態は、2つの接合間で「隣接」と称する。これは、32個の方位ビン以外の独立状態である。パラメータRはビンの分配と釣り合うように設定される。例えば、基本的特徴からのサンプルの3D値は、データの1/33が「隣接」のビンとなるようにRが設定される。
【0043】
図6は、30個のフレームをもつサンプルビデオからのこれらのヒストグラムシーケンス600のうちの一つを示す。実施形態の例によれば、ヒストグラムの統計値は、各フレームtにおける各参照ポイント(原点としてとられる)nとともに下記式に基づくことができる。
【0044】
【数9】
【0045】
例えば、アクションビデオについて、長さTの3Nヒストグラムシーケンスを、システムはそれぞれもつことができる。
【0046】
実施形態の例によれば、ヒストグラムシーケンスは、方向を動かす接合、および動作の時間的変化を表示するためのエネルギーマップ600として機能する。実施形態の例によれば、機械学習のためのより簡明な時空間ディスクリプターをさらに抽象化するために、方向づけられた勾配のヒストグラム(HOG)のアルゴリズム262がマップに採用されて、単一の列ベクトル270を得ることができる。実施形態の例によれば、マップ600は、数個の50%重複領域(すなわち、「セル」)に均等に分割されることができる。セル内の各ポイントについて、Y−勾配はY軸において隣接する上と下との差であることができ、X−勾配はX軸において隣接する右と左との差であることができる。Y−勾配/X−勾配によるタンジェント角度が演算され、セル内にヒストグラムを形成するためにいくつかのビンに投射される。HOGディスクリプターは、すべてのセルについてのヒストグラムの連結であることができる。
【0047】
例えば、アクションビデオについて、3Nヒストグラムシーケンスは3NのHOG表現という結果となるであろう。ここで、Nは検出された接合の数である。実施形態の例によれば、例えば、機械学習アルゴリズムを使用する動作の分類のための最終的なビデオディスクリプターとして単一の列ベクトルを形成するために、複数のHOG表現が連結されることができる。実施形態の例によれば、線形SVMが、動作分類の学習および認識のための機械学習アルゴリズムとして採用されることができる。トレーニング/テスティングセットにおける全部のVビデオのうちのビデオvについて、開示された方法により演算されたディスクリプターはdνであり、カテゴリーラベルはc=1ポジティブおよびc=−1ネガティブである。実施形態の例によれば、システムの目的は、すべてのポジティブのラベルが付されたデータについてw・dν>0で、かつすべてのネガティブのラベルが付されたデータについてw・dν<0である線形分類器wを、下記式を最適化することにより、見出すことであり得る。
【0048】
【数10】
【0049】
全部でC個のカテゴリーがある場合、1−対−全部(1−vs−all)戦略を通じて、下記式のトレーニングされたC分類が存在することになるであろう。
【0050】
【数11】
【0051】
認識の決定のルールは、下記式にdνが属することである。
【0052】
【数12】
【0053】
実施形態の例によれば、例えば、ここに開示される方法およびシステムにおいて、シーケンスごとに平均50個のフレームをもち、方法およびシステムに関する各フレームにおける接合の数が15である、1000個のビデオシーケンス(接合の位置はすでに評価されている)についての開示された特徴抽出方法のランニングタイムの推定ができる。例えば、2.5GHzのCPUおよび6GBメモリのPC上でC++コードの実行によれば、特徴抽出時間は、シーケンスごとに43.07ミリ秒であり得る。このように、実施形態の例によれば、ここに開示された方法およびシステムは、リアルタイムの動作認識システムとして使用されることができる。
【0054】
図7は、実施形態の例による、例としての感情および/または行動のデータセット700におけるサンプルプロファイルを示す。実施形態の例によれば、3Dセンサーを通じての人間の感情の状態の認識に注目したデータセットが集められた。6人の被検者710が感情動作を行うように依頼され、一人の被検者は、一つの動作を二回行うように依頼され、その結果、132の動作シーケンスとなった。開始のフレームと終了のフレームに手動でラベルを付すことにより、各動作の有効なシーケンスが得られた。有効なシーケンスの平均の長さは、データセットについて動作ごとに約86フレームだった。
【0055】
実施形態の例によれば、6個の感情状態に属する11個の動作を集めた。心理学的研究の要素に基づいて、これらの状態は一様に文化を超えて認識されることができ、それゆえに被検者の感情を解析しようとする際に非常に有益である。データセットの詳細な情報は、表1に示されている。図7は、我々のデータセットにおける感情状態のプロファイル画像をさらに示す。
【0056】
【表1】
【0057】
実施形態の例によれば、我々のデータセットの感情検出のタスクのための線形SVMの例が提案される。このデータセットの動作の種類により、leave−one−out cross subject試験が行われた。例えば、5人の被検者がトレーニングに使用され、残りが試験に使用されることができる。実施形態の例によれば、すべての可能なトレーニング/試験を分けて平均を計算する。認識率の平均は73.5%である。
【0058】
実施形態の例によれば、一般的な動作認識のための最も評判のよい公共のデータセットにおける認識の正確性、および本願における最先端の提案との比較が評価された。
【0059】
実施形態の例によれば、MSRアクション3Dデータセットは、各フレームにおいて20個の接合をもつ10人の被検者により行われた20個の動作を有した。20個の動作は、動作認識の3個のタスクのために、3個のサブセットに分割された。各タスクについては、半分の被検者がトレーニングに使用され、他の半分が試験に使用された。計算結果は表2に示されている。
【0060】
【表2】
【0061】
実施形態の例によれば、行動の認識のためのコンピュータ読み取り可能なコードを有するコンピュータプログラムを含むコンピュータ読み取り可能な記憶媒体が開示される。コンピュータプログラムは、少なくとも一つのビデオデータストリームから身体の骨格データを抽出する段階と、抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する段階と、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する段階と、時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する段階と、方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する段階と、行動および/または感情として単一の列ベクトルを分類する段階と、を有する。
【0062】
実施形態の例によれば、コンピュータ読み取り可能な記憶媒体は磁気記録媒体、光磁気記録媒体、または将来開発されるであろう他の記録媒体であることができ、これらのすべては、本発明をすべて同様な方法で適用できると考えられる。
そのような媒体の、最初のおよび二次的な複製製品その他を含む複製物は上記媒体と同等と考えられることは疑いもない。さらに、本発明の実施形態がソフトウェアとハードウェアとの組合せである場合でも、本発明の概念から全く逸脱しない。本発明は、そのソフトウェア部分が事前に記録媒体に記載されることにより実装されることができ、作業において要求されるときに読み出される。
【0063】
ここに開示された行動認識のための方法およびシステムは、ハードウェア、ソフトウェア、またはその組合せを使用して実行されることができる。加えて、ここに開示された行動認識のための方法およびシステムは、一以上のコンピュータシステムまたは他の処理システムに実装されることができ、または個人用デジタル補助装置(PDA)のような処理システムにおいて部分的に実行されることができる。さらに他の実施形態においては、本発明はハードウェアおよびソフトウェアの組合せを使用して実行される。
【0064】
当業者であれば、本発明の範囲および精神から逸脱せずに本発明の構成に対して多様な変更および変形が可能であることは明らかであろう。上記観点から、本発明は、本発明の変更および変更が以下のクレームおよびその均等物の範囲内に含まれている限り、それらの発明をも包含することが意図されている。
図1
図2
図3
図4
図5
図6
図7
【外国語明細書】
2015130151000001.pdf
2015130151000002.pdf
2015130151000003.pdf
2015130151000004.pdf