特許第5931215号(P5931215)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ゲスティゴン ゲゼルシャフト ミット ベシュレンクテル ハフツングの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5931215
(24)【登録日】2016年5月13日
(45)【発行日】2016年6月8日
(54)【発明の名称】姿勢を推定する方法及び装置
(51)【国際特許分類】
   G06T 7/20 20060101AFI20160526BHJP
【FI】
   G06T7/20 300A
【請求項の数】8
【全頁数】19
(21)【出願番号】特願2014-546326(P2014-546326)
(86)(22)【出願日】2011年12月16日
(65)【公表番号】特表2015-505089(P2015-505089A)
(43)【公表日】2015年2月16日
(86)【国際出願番号】EP2011006388
(87)【国際公開番号】WO2013087084
(87)【国際公開日】20130620
【審査請求日】2014年11月21日
(73)【特許権者】
【識別番号】516027661
【氏名又は名称】ゲスティゴン ゲゼルシャフト ミット ベシュレンクテル ハフツング
(74)【代理人】
【識別番号】100086771
【弁理士】
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100088694
【弁理士】
【氏名又は名称】弟子丸 健
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100158469
【弁理士】
【氏名又は名称】大浦 博司
(72)【発明者】
【氏名】マルティネツ トーマス
(72)【発明者】
【氏名】エーラース クリスティアン
(72)【発明者】
【氏名】ティム ファビアン
(72)【発明者】
【氏名】バルト エルハルト
(72)【発明者】
【氏名】クレメント サッシャ
【審査官】 佐藤 実
(56)【参考文献】
【文献】 国際公開第2010/130245(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/20
(57)【特許請求の範囲】
【請求項1】
3D点雲のシーケンスに連続的にフィッティングされる骨格モデルのノードの3D位置座標の移動のコンピュータ計算による、動いている物体の姿勢推定の方法であって、前記ノードの座標は、電子メモリ内に表形式で存在し、前記3D点雲は、前記動いている物体を表す、深度センサカメラの電子的に記録された画像から決定され、
前記骨格モデルは、N1、N2>0及びN3≧0であるN1個のノード、N2個のエッジ、及びN3個の三角形をトポロジー要素として示すトポロジーであり、各々のトポロジー要素は、ノード、ノード対、又はノード三つ組によって記述され、前記動いている物体の一部分に堅固に割り当てられており、算術演算装置が、以下の
a.前記3D点雲のデータ点Xをランダムに選択するステップと、
b.各トポロジー要素を基準としたXに関する交差点Pを計算し、Pが各場合において前記トポロジー要素の内部に在るかどうかを識別するステップと、
c.Xから各トポロジー要素までの距離を差分ベクトルX−Pのノルムとして計算するステップと、
d.その交差点Pがトポロジー要素の内部に在る全てのトポロジー要素の中で、Xからの最短距離を示すトポロジー要素を決定するステップと、
e.ステップdで決定された前記トポロジー要素を、該トポロジー要素を確立する全てのノードを前記ベクトルX−Pの方向に移動させることによって移動させるステップであって、ノードの移動ベクトルに、学習率と、前記ステップdで決定された前記トポロジー要素を基準としたXに関する交差点Pから生じる重みとが掛けられている、移動させるステップと、
f.前記学習率を徐々に低減しながら、ステップaからステップeまでを所定の学習ステップ数にわたって繰返すステップと、
g.K≧1として、前記所定の学習ステップ数のK回のパスの後で前記電子メモリの前記表内の前記ノード座標を更新するステップと、
h.さらなる処理のために、少なくとも前記表内の前記更新されたノード座標を提供するステップと、
を実行することを特徴とする方法。
【請求項2】
前記ステップbにおいて、トポロジー要素を基準とした交差点Pは、該トポロジー要素を確立するノードの座標ベクトルの一次結合として表され、Pが該トポロジー要素の内部に在るかどうかは表示係数から決定されることを特徴とする、請求項1に記載の方法。
【請求項3】
前記ステップeにおける前記重みは、Pの表示係数から計算されることを特徴とする、請求項1〜請求項2のいずれかに記載の方法。
【請求項4】
前記ステップaから前記ステップeまでの前記繰返し回数が1,000と5,000との間であり、特に2,000と3,000との間であることを特徴とする、請求項1〜請求項3のいずれか記載の方法。
【請求項5】
前記学習率は、出発値0.5と最終値0.01との間であることを特徴とする、請求項1〜請求項4のいずれかに記載の方法。
【請求項6】
制御される装置に対する制御コマンドを、前記更新されたノード座標の前記表からの情報に基づいて生成するステップと、前記制御される装置を前記制御コマンドによって制御するステップと、をさらに含むことを特徴とする、請求項1〜請求項5のいずれかに記載の方法。
【請求項7】
動いている物体の姿勢推定のための装置であって、
前記動いている物体の電子画像を検出するための深度センサカメラと、
前記深度センサカメラの前記電子画像を格納するための電子メモリと、
前記カメラによる画像記録と時間的に歩調を合わせて、前記電子画像から前記物体を表す3D点雲を決定するように設計された算術演算装置と、
を備え、
前記メモリは、骨格モデルのノードの3D座標のリストをさらに格納し、前記算術演算装置は、前記骨格モデルのトポロジー要素の表現としての個々のノード、所定のノード対、及び所定のノード三つ組に関するこれらの座標を読み出し及び変更することが可能であり、
前記算術演算装置は、前記物体を表す前記3D点雲を決定した後で、
a.前記3D点雲のデータ点Xをランダムに選択するステップと、
b.各トポロジー要素を基準としたXに関する交差点Pを計算し、Pが各場合において前記トポロジー要素の内部に在るかどうかを識別するステップと、
c.Xから各トポロジー要素までの距離を差分ベクトルX−Pのノルムとして計算するステップと、
d.前記交差点Pがトポロジー要素の内部に在る全てのトポロジー要素の中で、Xからの最短距離を示すトポロジー要素を決定するステップと、
e.ステップdで決定された前記トポロジー要素を、該トポロジー要素を確立する全てのノードを前記ベクトルX−Pの方向に移動させることによって移動させるステップであって、ノードの移動ベクトルに、学習率と、前記ステップdで決定された前記トポロジー要素を基準としたXに関する前記交差点Pから生じる重みとが掛けられている、移動させるステップと、
f.前記学習率を徐々に低減しながら、ステップaからステップeまでを所定数の学習ステップ数について繰返すステップと、
g.K≧1として、前記所定の学習ステップ数のK回のパスの後で前記電子メモリの前記表内の前記ノード座標を更新するステップと、
h.さらなる処理のために、少なくとも前記表内の前記更新されたノード座標を提供するステップと、
を実行するようにさらに設計されることを特徴とする装置。
【請求項8】
算術演算装置によって実行されると前記算術演算装置に請求項1〜請求項6のいずれかに記載の方法を実行させるコマンドを格納することを特徴とする、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像シーケンスとしてキャプチャされた可動物体の位置及び向きを推定するための、すなわち可動物体の姿勢を推定するための、電子画像シーケンスの実時間対応解析の方法及び装置に関する。本発明はさらに、本発明をソフトウェアに実装すること、及びこれに関連して本発明による方法を実施させるための実行コマンドを格納したコンピュータ可読媒体に関する。
【背景技術】
【0002】
コンピュータによって人間の姿勢を推定することは、ジェスチャ制御型人間−機械対話の基礎である。身体又は手のジェスチャは、カメラによってキャプチャされ、キャプチャされたデジタル画像は、コンピュータ内で処理され、コンピュータによって又はコンピュータにより制御される装置によって最終的に実行されるコマンドとして解釈される。人間のユーザは、命令ジェスチャを習得すればもはや別個の入力装置を必要としなくなる。
【0003】
ジェスチャ制御の適用が特に関心を持たれる分野の中には、一方では、手術中の医師が補助装置(例えば、超音波又はMRTなどの画像化装置)を直接制御したいが、無菌状態を保護するために自身の手でいずれの制御装置にも触れることができない外科分野があり、他方では、現在でも依然としてどちらかといえば非衛生的なタッチパッドが装備されている公共情報端末又は切符販売機の分野がある。既に商業的に開拓されたさらなる用途の分野は、コンピュータゲーム部門である。
【0004】
ジェスチャ制御方法の目的は、人間の光学画像に、機械での解釈が可能な意味を与えることである。このことは、人間を電子的に評価できるように画像化し、この画像をその情報内容に関して圧縮し、最終的に人間の圧縮画像を機械での解釈が可能な出力に変換する装置を必要とする。装置の出力は、制御される下流の装置に対する制御命令からなるものとすることができる。しかし、出力は、圧縮画像情報のみを含み、この情報の解釈のための下流装置に提供されるものとすることも可能である。
【0005】
圧縮画像情報の一例は、例えば、人間の右手の3D座標系における位置座標の連続的出力である。このプロセスにおいては、例えば人間の全身が画像化されるとしても、手の位置に関する単一の点の座標のみを出力することで十分である場合が多い。人間の動きが画像シーケンスによって画像化される場合、上記の装置は、例えば、動いている間に時間と共に変化する所定の身体部分の3D座標を提供する。この座標は、例えばそれに応じてスクリーン上のカーソル位置を制御するプログラムへの可変入力としての役割を果たすことができる。
【0006】
画像セグメント化の際に、画像化された人間に帰属させることができない全ての記録された画像データ(計測値)、すなわち特に背景に関係した画像要素、が除去される。そのような画像要素は、さらなる評価から除外されるべきである。
【0007】
2次元データを用いた画像セグメント化は、ユーザが、複雑な背景(例えばさらに別の人間がその背景内で動いているような背景)の前で画像化される場合、又は、ユーザがカメラに向かって自身の胴体部分を隠すように手足を動かすようなジェスチャを行う場合には、とりわけ困難である。ジェスチャ制御は実時間で行われるべきであり、姿勢推定は通常25Hzのビデオフレームレート又はそれ以上において可能となるべきなので、画像セグメント化は、数ミリ秒以内に行うことができることが必要である。この目的のために、通常のカメラのように輝度画像を計測するだけでなく、物体からのカメラまでの距離を計測することができる深度センサカメラを用いることができる。
【0008】
既知の深度センサカメラは、飛行時間型カメラ(TOF)と呼ばれる。これは強度が正弦波的に変調された赤外光を放射する。放射された光と物体によって反射された光との間の位相変位が各ピクセルにおいて計測される。この位相変位から光の伝播時間(飛行時間)を計算することができ、従って物点からのカメラの距離を計算することができる。TOFカメラは、輝度画像(TOF用語においては振幅画像と呼ばれることが多い)に位置合わせされた深度マップを与える。
【0009】
画像及び距離計測値を同時に取得するためのさらに別の方法は、測定される物体に照射され、それにより反射される構造光に基づく。カメラは、通常は到来角とは異なる角度の反射光を検出し、反射した物体表面の位置又は広がりに起因する投影パターンの構造の変化を記録する。例えば、初めは直線として物体に照射され、カメラによってキャプチャされた反射線の曲率から、反射表面のドーミング、すなわちプロジェクタ及び/又はカメラに対して相対的に変化する距離を計算することが可能である。同様の方法で、空間的に発散した光束は、点反射を検出してそれらの間の距離を決定することによって3次元シーン内の点を投影するのに適している。プロジェクタにより近くに位置する面上では、点の距離は画像背景内の面上より短い。このことが、プロジェクタからの面の距離又は面積を計測するために用いられる。
【0010】
これにより、深度センサカメラは、各々の画像化される物点に関する2次元輝度画像に加えて距離情報を提供し、その結果、さらに、全ての画像化される物点の深度軸(普通はカメラの光軸と一致する)に沿った位置が計測される装置である。深度センサカメラを用いて記録された距離情報を有する電子的画像は、シーンの2.5次元(2・1/2D)画像とも呼ばれる。上述の装置は、いかにして2・1/2D画像を生成することができるかの例に過ぎず、最終的なリストを表すものではない。
【0011】
とりわけ、特許文献1から、どのようにして2・1/2D画像の画像セグメント化を正しく行うことができるかを推測することができる。画像セグメント化は、カメラピクセルによって検出された輝度値を、同時に計測されてそのピクセルにより位置合わせされた距離値に従って順序づける。可視性改善の目的では、観測対象の人間がカメラに最も近いところに在ると仮定して、前景の輝度値だけがさらなる評価のために残さる。それゆえ、前景の輝度値は、人間の身体表面の画像化からもたらされたものである。それ自体が既知のカメラ投射パラメータによって、次に画像化された物点の各々に一組の3D座標を割り当てることができる。次いで、カメラから直接見える人間の全点を含む3D座標のリストが得られる。3D空間内の点のこの「雲」の内部に実際の人間が存在し、この3D点雲の内部には、ジェスチャ制御の目的で決定されることが望まれる所定の身体部分の妥当な座標もまた存在する。
【0012】
従って、情報圧縮の第2の部分のステップは、画像セグメント化によって決定された人間を表す3D点雲から、人間の姿勢全体をできるだけ良好に記述する、機械解釈に適した点座標の縮小したセットを決定することにあることがわかる。このステップは、姿勢推定とも呼ばれる。姿勢推定の1つの目標は、ここでは縮小データセットのロバスト性であり、すなわち、人間の姿勢の小さい変化が、その姿勢を記述するデータセットにおいても小さい変化しか生じさせないようにさせることである。具体的には、人間の身体部分を記述する座標は、座標とこれらの身体部分との明確な相関がいかなる時点でも与えられるように、できる限り、時間的に連続な軌道上を動くようにすべきである。
【0013】
既知の一般的に受容された手法は、可能な限りすばやく3D点雲にフィッティングされる人間の骨格モデルの定義である。
【0014】
特許文献1は、2・1/2D画像シーケンスからの実時間対応姿勢推定の方法を開示しており、ノードとエッジとのトポロジーとして説明される骨格モデルが提案されている。ノードの対として記述することができるエッジが、それらノード間の近傍の構造をコード化する。ノードは、自己組織化マップ(SOM)をトレーニングするための学習則を適用することによって、前もって決定された点雲にフィッティングされる。
【0015】
特許文献1の例示的な実施形態において、人間の身体の上半身は、44のノード及び61のエッジによるトポロジーを用いてモデル化される。人間を表す3D点雲は、凡そ6500のデータ点(観測された人間がカメラからの距離とは無関係に定義されたサイズを示す実3D空間内に描かれる)を含み、そのうちの約10%がSOMをトレーニングするのに使用される。トポロジーの全てのノードは、直接にSOMと考えることができ、他方、エッジを指定することは、学習則に対する特別な要件又は制限として考えることができる。
【0016】
トポロジーは、ビデオシーケンスのフレームごとに別々にトレーニングされ、ある1つのフレームのトレーニング結果は、同時に、シーケンスの次のフレームのトレーニングを初期化する役割を果たす。シーケンスの第1のフレームの初期化中に、トポロジーのサイズを一回限りのスケール調整によってカメラの前の人間のサイズに一致させ、その重心を3D点雲の重心に移動させることが好ましい。ひとたびトポロジーのサイズが正しく選択されると、方法はスケール不変的に機能するので、方法の進行中にさらなる適合は必要ない。フレームのトレーニングは、以下のステップ、即ち、
a.3D点雲のデータ点Xをランダムに選択するステップ、
b.Xからの最短距離を示すトポロジーのノードを決定するステップ、
c.bで決定されたノードの全ての隣接ノードをトポロジーのエッジ指定に従って決定するステップ、
d.b.及びc.で決定されたノードをXの方向に移動させるステップ(これに関しては特許文献1の式(2)及び(3)を参照されたい)、
e.移動ベクトルに、b.で決定されたノードに関してc.で決定されたノードのちょうど半分のサイズを表す学習率を掛けるステップ(これに関しては特許文献1、p13、第4段落を参照されたい)、及び
f.学習率を徐々に低減しながら、所定の学習ステップ数にわたってステップaからステップeまでを繰返すステップ
を有する、パターン毎の(pattern−by−pattern)学習則を適用することによって行われる。
【0017】
姿勢推定(すなわち、この場合には、骨格モデルを3D点雲にフィッティングし、全ての妥当なノード位置を読み出すこと)を所定の時間間隔の間に行うためには、フレーム毎の最大学習ステップ数を指定することが好都合である。このようにして、画像シーケンスを、ビデオフレームレートで又はそれよりも速く解析することもできる。
【0018】
特許文献1のアルゴリズムは、実時間姿勢推定の目的を上手く達成しているが、特許文献1自体で部分的に言及されている幾つかの弱点がある。特に、人間がその腕を身体の前で合わせているか又は交差させているシーンを解析する場合、個々のノードがトポロジー内でそれらの実際の隣接ノードから遠くに引き離されると、学習則は、誤った解釈(これはさらなる反復の過程の間で修正することができる)をもたらす可能性がある。この影響に対して特許文献1では、モデル胴体内のアンカー点、及び、該アンカー点から所定の閾値を超えたノードの移動を禁止する学習則の第2の条件により対処している。
【0019】
特許文献1の教示はさらに、その都度幾つかの異なるノードによって表されることがある人間の関節、肩、及び臀部の正確な位置決定に伴う困難も示している。特許文献1で概説された骨格モデルは、比較的多数のノードを示しており、その数は、姿勢推定における相当な誤差を許容しない限りは20又はそれ以下に容易に減らすことができない。深度センサカメラによるジェスチャ制御のための市場で入手可能なシステムは、むしろ人間の解剖学的構造に従って設計された15−20のノードを有する骨格モデルを使用して、既に機能している。ノード総数を減らすことによって、より高いカメラ画像処理速度を得ることもできる。
【0020】
解剖学的に動機付けされた骨格モデルは、速く複雑な動き(例えば、ゴルフクラブを振ること)を検出するために記憶された動きパターン(テンプレート)に頼るようにさらに適合される。これらの場合には、ジェスチャ制御ソフトウェアは、検出された姿勢変化の、前もって格納された動きシーケンスに対する最も可能性の高い一致を探索し、この既知のテンプレートを実際の制御に使用する。この技術は既にコンピュータゲームに使用されているが、大量のリソースを使用する。最後ではあるが大事なこととして、記憶された動きデータを生成すること自体が既に相当なコストを生じさせる。
【0021】
他方、SOMトレーニングによるジェスチャ制御は、テンプレートが完全に不要であり、むしろ動きの連続性の実時間対応検出可能性にのみ基づくものである。これは、効率的に実装することができる学習則により、人間の速い動きですら高い信頼度で検出する可能性を有すると同時に汎用性を維持するので、複雑である可能性が高い、計測作業に対するソフトウェアの複雑なマッチングが省かれる。
【先行技術文献】
【特許文献】
【0022】
【特許文献1】国際公開第2010/130245(A1)号
【発明の概要】
【発明が解決しようとする課題】
【0023】
従って、本発明の目的は、物体のカメラ画像のデジタル画像情報を特に姿勢推定のために圧縮して、その結果、物体の姿勢、特に人間の姿勢の決定を、より少ない計算量で、従ってより速く及び/又はより正確に、実時間で実行することができるようにすることである。
【課題を解決するための手段】
【0024】
この目的は、独立特許請求項の主題により達成される。本発明の有利な実施形態は、従属特許請求項の主題である。
【0025】
従って、本発明の一態様は、画像セグメント化と姿勢推定という2つの部分ステップで通常行われる情報圧縮である。この文脈において、本発明は、特に姿勢推定の改善に関する。本発明により、SOMトレーニングによる姿勢推定が提案され、これは、被観測物体の解剖学的構造に従ってモデル化された、ノード総数が減らされた骨格モデルを用いて機能することができ、各モデルノードを所定の身体部分に高い信頼性で首尾一貫して割り当てることが可能である。ここでは、その姿勢が検出される物体の解剖学的構造が、骨格モデルとしてモデル化される。
【0026】
3D空間内の少数の点(以下「ノード」)のみで記述される骨格モデルは、ノードの座標が動いている物体の所定の部分の位置を常に記述するのであれば、画像情報の良好な情報圧縮を表す。同時に、骨格モデルは、例えば、計測された2・1/2D画像情報内に含まれる、すなわちカメラから見える、連続した物体部分又は随意に物体面を記述するノード対及びまた随意にノード三つ組が骨格モデル内で定義されるという点で、物体の予備知識を表す。骨格モデルは、物体に対応する画像情報にすばやく且つ正確にフィッティングされるべきである。このフィッティングは、ノードを連続的に移動させ、画像シーケンスと歩調を合わせて骨格モデルを更新することによって、画像シーケンスの2つの画像の間で行われる。連続した物体部分又は場合により物体面が既に言及されている場合には、それらは全体として動くものと仮定される。従って、本発明によれば、ノード対又は随意にノード三つ組は、特定の前提条件の下で同時に移動される。以下でさらに説明される移動則は、ノード対又は随意にノード三つ組のノード間距離を必ずしも保持するものではなく、移動がノード対又は随意にノード三つ組のノード間距離の増大をもたらすこともあることをここで強調しておく。
【0027】
本発明の一実施形態は、3D点雲のシーケンスに連続的にフィッティングされる骨格モデルのノードの3D位置座標の移動のコンピュータ計算による、動いている物体(例えば人間又はロボット)の姿勢推定の方法に言及する。ノード座標は、電子的メモリ内に表形式で存在し、3D点雲は、動いている人間を表す、深度センサカメラからの電子的に記録された画像から決定される。骨格モデルは、N1、N2>0及びN3≧0であるN1個のノード、N2個のエッジ、及びN3個の三角形をトポロジー要素として示すトポロジーであり、各々のトポロジー要素は、ノード、ノード対、又はノード三つ組によって記述され、物体の一部分(例えば、人間の身体部分又はロボットの一部分)に堅固に割り当てられる。本方法は、算術演算装置によって実行され、以下のステップ、即ち、
a.3D点雲のデータ点Xをランダムに選択するステップと、
b.各トポロジー要素を基準としたXに関する交差点Pを計算し、Pが各場合においてトポロジー要素の内部に在るかどうかを識別するステップと、
c.Xから各トポロジー要素までの距離を差分ベクトルX−Pのノルムとして計算するステップと、
d.その交差点Pがトポロジー要素の内部に在る全てのトポロジー要素の中で、Xからの最短距離を示すトポロジー要素を決定するステップと、
e.ステップdで決定されたトポロジー要素を、該トポロジー要素を確立する全てのノードをベクトルX−Pの方向に移動させることによって移動させるステップであって、ノードの移動ベクトルに、学習率と、ステップdで決定されたトポロジー要素を基準としたXに関する交差点Pから生じる重みとが掛けられている、移動させるステップと、
f.学習率を段階的に低減しながら、ステップaからステップeまでを所定数の学習ステップにわたって繰返すステップと、
g.K≧1として、所定の学習ステップ数のK回のパスの後で電子メモリの表内のノード座標を更新するステップと、
h.さらなる処理のために、少なくとも表内の更新されたノード座標を提供するステップと、
を含む。
【0028】
本発明のさらに別の実施形態において、ステップbにおいて、トポロジー要素を基準とした交差点Pは、該トポロジー要素を確立するノード座標ベクトルの一次結合として表され、Pが該トポロジー要素の内部に在るかどうかは、表示係数から決定される。
【0029】
本発明のさらに別の実施形態において、ステップeにおける重みは、Pの表示係数から計算される。
【0030】
本発明のさらに別の実施形態において、ステップaからステップeまでの繰返し回数は、1,000と5,000との間であり、特に2,000と3,000との間である。
【0031】
学習率は、出発値0.5と最終値0.01との間に置くことができることが有利である。
【0032】
本発明のさらに別の実施形態は、動いている物体の姿勢推定のための装置を提案する。この装置は、深度センサカメラ、電子メモリ、及びプログラム可能算術演算装置を備え、メモリは、深度センサカメラの電子画像を格納し、算術演算装置は、カメラによる画像記録と時間的に歩調を合わせて、電子画像から物体を表す3D点雲を決定するように設計される。メモリは、骨格モデルのノードの3D座標のリストをさらに格納する。算術演算装置は、骨格モデルのトポロジー要素の表現としての個々のノード、所定のノード対、及び所定のノード三つ組に関する3D座標を読み出し及び変更することができる。算術演算装置は、物体を表す3D点雲を決定した後で、以下のステップ、即ち、
a.3D点雲のデータ点Xをランダムに選択するステップと、
b.各トポロジー要素を基準としたXに関する交差点Pを計算し、Pが各場合においてトポロジー要素の内部に在るかどうかを判断するステップと、
c.Xから各トポロジー要素までの距離を差分ベクトルX−Pのノルムとして計算するステップと、
d.交差点Pがトポロジー要素の内部に在る全てのトポロジー要素から、Xからの最短距離を示すトポロジー要素を決定するステップと、
e.ステップdで決定されたトポロジー要素を、該トポロジー要素を確立する全てのノードをベクトルX−Pの方向に移動させることによって移動させるステップであって、ノードの移動ベクトルに、学習率と、ステップdで決定されたトポロジー要素を基準としたにXに関する交差点Pから生じる重みとが掛けられている、移動させるステップと、
f.学習率を徐々に低減しながら、ステップaからステップeまでを所定の学習ステップ数にわたって繰返すステップと、
g.K≧1として、所定の学習ステップ数のK回のパスの後で電子メモリの表内のノード座標を更新するステップと、
h.さらなる処理のために、少なくとも表内の更新されたノード座標を提供するステップと、を実行するようにさらに設計される。
【0033】
本発明のさらに別の実施形態は、さらに、マイクロプロセッサによって実行することができ、本発明の前述の実施形態の一つによる姿勢推定の方法をマイクロプロセッサに実行させるコマンドを格納することを特徴とするコンピュータ可読記憶媒体に関する。
【0034】
本発明は、以下で、図面を参照する例示的な実施形態を用いてさらに詳細に説明される。図中の互いに対応する要素及び細部には同じ参照文字が与えられている。
【図面の簡単な説明】
【0035】
図1】使用可能な骨格モデルである、a)特許文献1によるモデル、b)ノード及びエッジによるモデル、c)ノード、エッジ及び三角形によるモデル、の略図を示す。
図2】a)特許文献1による学習則の図、b)学習則の重みの幾何学的解釈、及びc)エッジ移動の場合の学習則の効果の図を示す。
図3】a)学習則の重みの幾何学的解釈、及びb)三角形の場合の学習則の効果の図を示す。
図4】本発明による、3D点雲及びこれらの点雲にフィッティングされた骨格モデルを有する例示的な画像を示す。
【発明を実施するための形態】
【0036】
少ないノード総数のみを有する骨格モデルは、ノードの座標が動いている物体の所定の部分の位置を常に記述する場合には、画像情報を効果的に圧縮するのに役立つ。骨格モデルは、その物体に関する予備知識を用いて定義される。例えば、カメラから見える、連続した物体部分及び随意に物体面についての予備知識が存在する。骨格モデルの所定の要素、具体的にはノード対又はノード三つ組は、これらの既に言及された物体部分又は物体面を表すことができ、全体として物体画像にフィッティングすることができる。このフィッティングは、常にノードを移動させ、画像シーケンスと歩調を合わせて骨格モデルを更新することによって、画像シーケンスの2つの画像の間で行われる。連続した物体部分又は物体面は、基本的に全体として動き、従って本発明によれば、ノード対又は随意にノード三つ組は、特定の前提条件の下で同時に移動される。プロセスにおいて、移動則は、ノード対又は随意にノード三つ組のノード間の互いの距離を必ずしも保持するものではない。移動はむしろ、ノード対又は随意にノード三つ組のノード間距離を増大させることがある。本発明の距離の保持の遵守の放棄は、移動ベクトルの必須な計算を簡略化し及び加速さし、それでもなお良好な姿勢推定をもたらす。物体画像への骨格モデルのフィッティングの正確度は、繰返し(学習ステップ)回数とともに向上する。
【0037】
本発明は、以下で実質的に特許文献1の開示のスタイルで説明される。原則として、特許文献1に記載の姿勢推定は出発点と考えることができること、及び、本発明の少なくとも1つの実施形態は、この刊行物から公知の姿勢推定方法のさらなる発展であると考えることができることに注意されたい。
【0038】
この文脈で、本発明の実施形態の以下の説明において、2・1/2D画像を(個々に又はシーケンスとして)記録し、人間を表す3D点雲を抽出することは、特許文献1に記載のように実行することができると仮定される。本発明は、具体的には、動いた姿勢を推定するための画像及び点雲を25Hzを超える周波数で提供することができると仮定する。
【0039】
本発明によれば、ここでは解剖学的に動機付けられた骨格モデルが、比較として図1a)に示した特許文献1によるトポロジーの代りに用いられる。図1b)によるモデルは、各ノードを人間の解剖学的構造(例えば、頭部、肩、肘、手、臀部、骨盤、膝、脚)の弁別的な点に明白に関連付けるように特に適合されている。図1c)は、図1b)によるモデルのバリエーションを表し、胴体が三角形(各場合において角を形成する3つのノードによって定義される)によって表されている。
【0040】
ノードを人の身体部分によって識別することにより、モデルのエッジにも解剖学的解釈が与えられる。従って、例えば図1b)においてノード1(右手)とノード2(右肘)とを結ぶエッジは必然的に右前腕を表す。従って、トポロジーのエッジは、単なるノードの隣接関係以上のものを表す。特許文献1によるSOMに対する学習則の適用ではノード総数が著しく減らされたこのような骨格モデルについてはもはや3D点雲へのモデルの良好なフィッティングが達成されないので、本発明の解剖学的に動機付けられた骨格モデルの使用に適合された姿勢推定の方法を以下で説明する。
【0041】
図2a)において、左側に、エッジで結ばれた2つのノードW1及びW2を見ることができる。点Xは、このトポロジーがフィッティングされる対象の3D点雲からランダムに選択された点を表す。特許文献1の教示によれば、初めに、点Xに最も近いモデルのノード(この場合にはW1)が決定され、Xに向かう方向にε(X−W1)だけ移動される。ここでεは実正数である。トポロジーの意味での次の隣接ノードは、エッジによってW1に結ばれたW2である。これもまた、Xに向かう方向に(ε/2)(X−W2)だけ移動される。移動されたノードを右側に示す。この学習則は、ノード間のエッジを常に短縮する。
【0042】
骨格モデルが特許文献1の場合のように多数のノードを含む場合、短縮プロセスは、さらなる反復及びノード移動の一部分として時間の経過の間に再び大きく補償される。しかし、特定のノードと特定の身体部分との明白な関連付けは、必ずしも常に継続的に可能であるとは限らない。
【0043】
従って、本発明による図1b)又はc)の解剖学的トポロジーを使用するために、トポロジーのノード、エッジ、及び随意に三角形を人間の身体部分と関連付けることを常に可能にする新しい学習則が構築される。
【0044】
本発明の意味における解剖学的トポロジー(又は解剖学的骨格モデル)は、少なくとも、人間の身体部分に関連付けられる第1の数N1のノードと、前述のノードの対の解剖学的事実に当てはまる選択として説明される第2の数N2のエッジとから構成される。
【0045】
明確にするために、図1b)において、モデルは、ノードWjを含み、j=1,...,17であり、ノード対の選択によって表される17のエッジをさらに含むものとする。例えば、対(W1,W2)、(W2,W3)又は(W4,W8)は、このモデルのエッジの一部分であり、他方、例えば、対(W2,W6)又は(W10,W11)はエッジを表さない。
【0046】
本発明の有益な設計において、第3の数N3の三角形を解剖学的モデルの一部分とすることができる。三角形は、三角形のエッジを指定するノードの三つ組によって記述される。
【0047】
図1c)において、モデルは、とりわけ、ノード三つ組(W3,W4,W9)、(W9,W4,W12)及び(W4,W5,W12)によって記述される3つの三角形から構成される。
【0048】
解剖学的モデルに三角形を挿入することは、内部移動性を殆ど示さず、通常、画像内で動くときに三角形のエッジを形成するノードの相対的位置が互いにごくわずかしか変化しない物体(例えば、身体領域に対応する)をモデル化するのに特に有利である。これは、例えば全身像における人間の胴体に当てはまるが、例えば、手のひら又は手の甲に関した手の大写しの場合にも当てはまり得る。姿勢推定方法のユーザは、どの物体を観測するか、又はどのトポロジーが該ユーザの特定の目的に適している及び/若しくは特に好都合であるかを、最終的には常にユーザ自身で決定する必要がある。
【0049】
一実施形態により、本発明は、N1個のノード、N2個のエッジ、及びN3個の三角形による解剖学的トポロジーを3D点雲にフィッティングするためのSOM学習則を提供し、ここでN1、N2>0及びN3≧0である。ノード、エッジ、及び三角形は、トポロジー要素の用語によって以下のように要約される。
【0050】
SOMは、トポロジーのノードで識別される。学習則は、トポロジーが3D点雲にフィッティングされるようにノード位置を移動させることに向けられる。エッジ及び随意にそれに加えて三角形の指定は、ノードの幾つかの対及び場合により幾つかの三つ組がいずれの場合でも連結間学習則に従う必要があることを意味する。
【0051】
本発明の一実施形態により、学習則は、以下の概念に従って形成される。連続的な姿勢推定が行われる対象の画像シーケンスの存在から出発し、シーケンスの新たな画像が存在するとその都度、ノード位置(3D座標系で記述される)、ノード対、及び随意にノード三つ組のリストである骨格モデルが更新される。新たな画像が深度センサカメラによって記録され、画像セグメント化及び投影によって被観測物体(例えば、人間の全身、その胴体、その手など)の表面の点の3D座標のリスト(3D点雲)に変換されるとすぐに、SOMトレーニングが行われ、そこで点雲の個々の点がランダムに選択され、この点に最も近いトポロジー要素が、選択された点の方向に移動される。この移動は、3D空間内のベクトル加法によって行われ、その結果として上記のノード位置のリスト内の個々のノード位置が変更又は更新される。
【0052】
この移動の後、3D点雲の次の点がランダムに選択され、この点に最も近いトポロジー要素(異なる要素である可能性が高い)がこの点に向かって移動される。点の選択及び移動が所定のステップ数にわたって繰返され、全般的な移動距離はステップ毎に減少する。骨格モデルは、最終的には、十分に多くの所定ステップ数の後で新たな画像に関して更新される。
【0053】
骨格モデルを3D点雲にフィッティングするために、少なくとも1,000回、高々5,000回のトポロジー要素の移動が行われることが好ましい。移動回数が2,000回と3,000回との間であることが特に好ましい。ノード位置の数千回の移動は、今日のコンピュータでは数ミリ秒以内で達成可能である。
【0054】
これによれば、選択された点に最も近いトポロジー要素は、ノードでなくてもよい。エッジ又は三角形は、エッジ又は三角形を定める全てのノードを連結間方式で移動させることによって移動される。移動はまた、移動されるトポロジー要素に応じて、1つ、2つ又は3つのノードに同時に関係するものとすることができる。
【0055】
最も近いトポロジー要素の決定が以下でより詳しく説明され、トポロジー要素に関する特定の移動則が明示される。
【0056】
まず、全てのトポロジー要素に関してのXの交差点が、深度センサカメラを用いて観測された物体の画像化並びにそれに続く画像セグメント化及び投影の後で人間の身体表面の点を表す、それらの全ての点からランダムに選択された、3D点雲の点X(すなわち3D空間内の座標点)に関して最初に決定される。トポロジー要素を基準としたXの交差点Pは、トポロジー要素によって形成される、3D空間の部分空間の、点Xに最も近い点である。このプロセスにおいて、ノードは、そのノード自身のみを含むゼロ次元部分空間を形成する。エッジは、そのエッジを定めるノードを通る3D空間内の直線を形成する。三角形は、その三角形を定めるノードを含む3D空間内の平面を形成する。
【0057】
トポロジー要素によって形成される部分空間の、点Xに最も近い点は、距離尺度を用いて計算される。3D空間内の距離は、任意のノルムを用いて決定することもできる。ユークリッドノルム(また、L2ノルム又はピタゴラス距離)を用いることが好ましいが、他の距離尺度を用いることもできる。
【0058】
交差点Pは、トポロジー要素がノードである場合にはノード内に位置し、まさにこのノードと一致する。
【0059】
交差点Pは、トポロジー要素がエッジである場合には3D空間内の直線上に位置する。
(1) P=W+αΔW
式中、Wは、エッジの任意の(第1の)ノードを表し、ΔWは、エッジの第2のノードと第1のノードとの間の差分ベクトルを表し、αは実数を表す。明確にするために、このエッジはノード対(W,W+ΔW)によって記述されるものとする。
【0060】
交差点Pは、トポロジー要素が三角形である場合には3D空間内の平面上に位置する。
この点Pは次式で表すことができ、
(2) P=W+σ1ΔW1σ2ΔW2
式中、Wは、三角形の任意の(第1の)ノードを表し、ΔW1、ΔW2は、三角形の第2及び/又は第3のノードと第1のノードとの間の差分ベクトルを表し、σ1、σ2は実数を表す。明確にするために、三角形はノード三つ組(,W+ΔW1,W+ΔW2)によって記述されるものとする。
【0061】
式(1)及び式(2)に由来する係数α、σ1、σ2を、以下、交差点の「トポロジー整合表示係数(topology−conforming representation coefficient)」と呼ぶものとする。形式的には、これらは、Pが決定されたトポロジー要素によって形成される3D空間の部分空間の非規格化基底及び随意に斜角化基底に対する、ベクトルPの成分である。また、あるトポロジー要素を基準とした交差点Pは、そのトポロジー要素を決定するノード座標ベクトルの一次結合として表されると言うこともできる。
【0062】
次に、トポロジー要素を基準とした点Xの交差点が、これらのトポロジー要素の内部に在るかどうかがチェックされる。
【0063】
定義により、ノードを基準とした全ての交差点は、ノードの内部に在る。同様に定義により、ノードを基準とした交差点のトポロジー整合表示係数は、常に1である。
【0064】
エッジを基準とした交差点は、そのエッジを定めるノード間に位置する場合、まさにエッジの内部に在る。これは、その表示係数αが0と1との間に在るときかつそのときに限って交差点がエッジの内部に在ることを意味する。
【0065】
三角形を基準とした交差点は、ノードによって定められる三角形表面内部に在る場合、まさに三角形の内部に在る。このことは、三角形を基準とした交差点について、その表示係数σ1、σ2及びそれらの和σ1+σ2が0と1との間に在るときかつそのときに限って成り立つ。
【0066】
トポロジー要素からの3D点雲の点Xの距離は、Xと交差点Pとの間の差分ベクトルD、即ちD:=X−P、のノルムとして計算することができる。ユークリッドノルムを使用することが好ましい。このようにして、x1、x2、x3、p1、p2、p3を3D点雲及び骨格モデルの両方が記述される通常の3D座標系を基準としたベクトルX及びPの実成分として、距離、
【数1】
が各々のトポロジー要素について計算される。
【0067】
トポロジー要素からの点Xの距離は、このトポロジー要素を基準とした交差点Pが該トポロジー要素の内部に在る場合にのみ、さらに使用される。そうでない場合には交差点は棄却され、距離は計算されないか、又は計算された距離はそれ以降無視される。
【0068】
この選択は、さらなる処理の際に、骨格モデルのフィッティングの目的で実際に役立つ距離のみが考慮に入れられることを保証する。点Xは、例えば、人間の胴体を表す三角形によって形成される3D空間内の平面内にまさに存在することがある。そのとき交差点PはXと一致し、距離dはゼロになる。しかし、同時に、その点が右手を表すノードの位置の近傍に位置しており、右腕が身体から離れて延びるように保持される場合、移動則はそのノードに適用されるべきであり、その平面のXからの数値距離がノードのXからの数値距離より短い場合でも、胴体の三角形には適用されない。
【0069】
全ての計算された距離、かつ評価に残った距離から、最小値を探すことにより、点Xに最も近い、すなわちXからの最短距離を示すトポロジー要素が識別される。
【0070】
本発明により、識別されたトポロジー要素がここで移動され、そのトポロジー要素を定めるノードも可能であれば一緒に移動される。
【0071】
点Xに最も近いトポロジー要素がノードである場合、移動は、従来技術によって既に知られているように次式に従って行われる。
【数2】
特許文献1の式(4)では、繰返しステップの関数である次式の学習率もまた説明されている。
【数3】
式中、εi及びεfは、学習率の所定の出発値及び最終値であり、tmaxは学習ステップの所定の最大数である。実行指数(running index)tは、学習ステップ(繰返し)をtmaxに至るまでカウントする。3D点雲の新たに選択された点Xの各々に対して、分子tは、tmaxに達するまで1ずつ増加する。学習率の好ましい条件は、εi=0.5及びεf=0.01である。
【0072】
点Xに最も近いトポロジー要素がエッジである場合、移動は次式に従って行われる。
【数4】
図2b)には、エッジ(W,W+ΔW)、3D点雲の点X、及びそれに関連付けられたエッジを基準とした交差点P、及び差分ベクトルD=X−Pが描かれている。トポロジー整合表示係数αは、ノードWから出発して点Pに達するまで、ΔWの方向に歩行する必要があるエッジ長||ΔW||2の分率であると見なされる。明らかに、図2b)においては0<α<1が成立し、それゆえ交差点はエッジの内部に在る。
【0073】
図2c)は2つのノードの移動の概要を示す。両方ともベクトルD=X−Pの方向に移動し、すなわち従来技術の場合のように直接にXの方向には移動しない。点XがノードW+ΔWよりもノードWに近ければ、これは交差点Pにも当てはまり、従ってα<0.5となる。するとノードWは、ノードW+ΔWよりも大きく移動される。このようにして、エッジ全体が、X及び/又はPのノードからの距離に従って重みを付けられて点Xに近づく。
【0074】
点Xの最も近いトポロジー要素が三角形である場合、移動は次式に従って行われる。
【数5】
【0075】
図3は、三角形の移動則を示す。
図3a)は、骨格モデルの出発三角形、及びランダムに選択された点Xを示す。Xに関連付けられた交差点Pは三角形面内に在り、式(2)に従うノード座標ベクトルの1次結合として表すことができる。説明のために、表示係数σ1、σ2が三角形の辺に示されている。これらは、図2b)における係数αと同様に三角形の辺の長さの分率と解釈される。交差点が三角形の内部に在るので、三角形からのXの距離は、ベクトルD=X−Pのノルムとして決定され、さらなる計算の際に使用される。この距離が骨格モデルの全てのトポロジー要素からのXの最短距離となることが判明した場合、三角形は移動される。
【0076】
移動された三角形の概要が図3b)に示される。この場合もやはり、全てのノードが三角形の辺上及び三角形の面内のすべての点と共に、点X及びPからのノードの元の距離で重みを付けられて移動される。この距離による重み付けは、それにより無用の誤りが回避されるので姿勢推定の効率にとって重要である。この利点は、特に図3b)を見ると容易に理解することができる。点Pが、三角形を確立する3つのノードのうちの1つに非常に近い場合、三角形は、ほとんどこの最も近いノードのみが動き、一方、他の2つは基本的にそれらの位置を維持するように移動される。従って、本明細書で説明する方法には、ノード、エッジ、及び三角形の移動の間に「滑らかな移行」が存在する。
【0077】
図2c)から、エッジ(W,W+ΔW)は、学習則(6)及び(7)を適用することによって決して短くなることはなく、延びる可能性がかなり高いことが容易に認識される。同じことは、学習則(8)から(10)までを適用したときの三角形(W,W+ΔW1,W+ΔW2)の辺にも当てはまる。
【0078】
トレーニング過程の間に、手に負えないほどのエッジ長さ及び三角形の辺の長さが得られることがないように、本発明のさらに別の実施形態において「収縮パラメータ」δが導入される。これは、例えばδ=0.05のように設定することができる。同時に、学習則は、移動の際にノード同士が互いに向かって僅かに動くように修正される。
【0079】
学習則(6)及び(7)の代りに、
【数6】
を使用することが好ましく、学習則(8)から(10)までの式の代りに、
【数7】
を使用することが好ましい。
【0080】
前述の方法は、図1におけるように人間の解剖学的構造に従ってモデル化された骨格モデルのノードの移動を計算することによって人間の姿勢を推定するために用いることができる。しかし、同じ方法を動物又は動いているロボットの動きに同様に適用することができることが明らかである。本発明は、互いに接続されて互いに対して可動な部分から成り、それに対するノード、エッジ、及び随意に三角形による骨格モデルを都合良く定義することができる、全ての物体の姿勢推定を包含する。
【0081】
骨格モデルは、トポロジーのノードの3D座標の表、並びに、エッジ及び三角形を確立する所定のノード対及び随意にノード3つ組を有するリストである。ノード対及びノード3つ組のリストは変更することができず、ノード座標のみを姿勢推定の実行中に変更することができる。ノード座標を有する表は、電子メモリ内で利用可能であり、算術演算装置によって読み出すことができる。算術演算装置は、点雲への骨格モデルの連続的フィッティングに関連したノード位置の移動を、同様に格納された深度センサカメラによる画像及びそこから決定された3D点雲を用いて決定する。
【0082】
解剖学的モデルを点雲にフィッティングし、従ってSOMをトレーニングすることは、本発明の実施形態に従って行われ、これは、
a.3D点雲のデータ点Xをランダムに選択するステップと、
b.トポロジー要素を基準としたXに関する交差点Pを計算し、その少なくとも1つのトポロジー整合表示係数を決定するステップと、
c.交差点がトポロジー要素の内部にない場合に該交差点を棄却することと、
d.Xからトポロジー要素までの距離を差分ベクトルX−Pのノルムとして計算するステップと、
e.解剖学的モデルの全てのトポロジー要素についてステップb.からステップd.までを繰返すステップと、
f.Xからの最短距離を示すトポロジー要素を決定するステップと、
g.f.で決定されたトポロジー要素を、該トポロジー要素を確立する全てのノードをベクトルX−Pの方向に移動させることによって移動させるステップであって、この移動ベクトルには、学習率と、e.で決定された、トポロジー要素を基準としたXに関する交差点Pのトポロジー整合表示係数から生じる重みとが掛けられている、移動させるステップと、
h.学習率を徐々に低減しながら、ステップa.からステップg.までを所定の学習ステップ数にわたって繰返すステップと、
によって要約される。
【0083】
ステップgにおいて言及した重みがどのようにトポロジー整合表示係数から生じるかについての厳密な様式は、式(6)から式(10)まで、又は代替として式(11)から式(15)までから推測することができ、後者の式は付加的な所定のパラメータδを含む。定義により、ノードであるトポロジー要素の移動の重みは、式(4)により1である。
【0084】
学習ステップの所定数に達すると、算術演算装置は、骨格モデルの全てのノードについて移動後の座標を計算したことになる。移動後の座標は、概して全てのノードについて初めに表にまとめられたノード座標からずれることになるが、例外的な場合には個々のノードについて初めのノード座標と同一になることがある。
【0085】
移動したノードの座標は、算術演算装置によって電子メモリに書込まれ、初めの座標エントリは、i)上書きされるか、又はii)期限切れとして指定され、さらなる学習ステップではもはや使用されなくなる。このようにしてノード座標が電子メモリの表内で更新される。電子メモリの表内のノード座標を更新するステップを所定数の学習ステップの1パスのみの後に行い、その後、深度センサカメラからの画像シーケンスの次の画像及びそれから決定される点雲を用いてステップaからステップhまでの次のパスを開始することができることが、有利である。
【0086】
同様に、学習ステップを1つの同じ点雲に対して数回次々に繰返してノード座標の複数の移動を計算することも可能である。その後、この複数の移動を例えば算術的に平均することができ、ノード座標は、電子メモリの表内でこの平均移動のみと共に更新される。この手続きは、計算の観点からはより複雑であり、それゆえにより遅いが、何らかの偶発的に起る望ましくない移動(例えば、点雲が、ランダムに選択された部外位置の点も含む場合)を効果的に抑制することができる。
【0087】
大まかに言えば、ノード座標を更新するステップは、所定の学習ステップ数のK回のパスの後に行われる(K≧1)。
【0088】
図1b)の骨格モデルを用いた本発明の姿勢推定方法の例示的な実施形態をビデオシーケンスからの例示的な画像を用いて図4に示す。深度センサカメラのビデオ画像は、それ自体知られている画像セグメント化を用いて、動いている人間を表す3D点雲を絶えず提供する。解剖学的な骨格モデルが前述の学習則を用いて実時間でフィッティングされ、人間の種々の身体部分へのモデルノードの関係付けは、図4から明白に推察できるように初めから終わりまで正しく維持される。
【0089】
ここで達成されたノード−身体部分のロバストな関係付けは、ジェスチャ制御による著しく安定なコマンド入力を、例えば単に右手の動きを単に追跡することによることによって可能にする。骨格−ノード位置を解釈する機械は、必要に応じて、残りのモデルノードを無視することもでき、又はそれらノードを付加的な入力として分類することもできる。従って、例えば、右手の動きと左手の動きを同時にかつ別々に追跡し解釈することによって、より複雑な入力を行うことが可能である。左手を頭の高さまで持ち上げることを、例えばキーボード上の特定のキー(例えば、シフトキー)を押すこと、又は右手の入力のためのコマンド解釈の別のセットを呼び込むことに等しいものとすることができる。
【0090】
深度センサカメラによる2・1/2D画像のすばやい検出及び提供に加えて、前述の方法は、計測データを少なくとも一時的に格納するため、及び解剖学的骨格モデルのトポロジー要素の位置座標を格納するための電子メモリ、並びに、このメモリと通信し、前述の計算を実行し、特にメモリ内のトポロジー要素の位置座標の継続的な更新を促す、電子的算術演算装置もまた必要とする。さらに、同じ算術演算装置を、単独でそれぞれの現在の骨格モデルを時間的に歩調を合わせて解釈し、例えばそれを従属装置のための制御コマンドに変換することができるもの、又は、場合によっては選択されたノード位置をさらなる解釈のために出力するだけのもの、のいずれかとすることができる。
【0091】
初めに説明したように、姿勢推定のための前述の方法は、装置、具体的には算術演算装置によって実施することができる。算術演算装置は、市販のプログラム可能マイクロプロセッサとすることができるが、FPGA又はASICを使用することも可能である。本発明のさらなる実施形態は、算術演算装置によって実行することができて該算術演算装置に姿勢推定の目的で本明細書において説明した計算を実行させるコマンドを格納する記憶媒体に関する。
【0092】
距離座標を決定するための算術演算装置を備えた深度センサカメラは、特に本発明の方法を実行するために直接設計することもできる。本発明に従って設計される少なくとも1つの算術演算装置を有する構成ユニットとしてのそうしたカメラは、相応して、動いている人間の画像をその不可欠な身体部分の3D座標に直接変換するのに適している。これはモーションキャプチャ装置に相当するものであるが、これまでは普通であった人間の身体上のマーカーを不要にすることが可能である。
図1a)】
図1b)】
図1c)】
図2a)】
図2b)】
図2c)】
図3a)】
図3b)】
図4