(58)【調査した分野】(Int.Cl.,DB名)
前記格納モジュールは、前記クラスのそれぞれに、該クラスに属する信号と他の信号との距離測定値を表す少なくとも1つのデータベクトルを含む、請求項4に記載のジェスチャ認識システム。
前記データベクトルは、クラス内に格納された少なくとも1つの信号との間の距離測定値であるクラス内の距離測定値と、他のそれぞれのクラスに格納された信号との間の複数の距離測定値であるクラス間の距離測定値とを含む、請求項5に記載のジェスチャ認識システム。
前記クラス内の距離測定値は、該クラス内の全ての信号との距離の平均値に等しく、信号間のそれぞれの距離は、前記動的時間伸縮アルゴリズムによって決定された信号のサンプルの系列間の二乗平均平方根の偏差の最小値として計算される、請求項6に記載のジェスチャ認識システム。
前記クラス間の距離測定値は、2つのクラスの信号間のペアワイズ距離の平均に等しく、信号間のそれぞれの距離は、前記動的時間伸縮アルゴリズムによって決定された信号のサンプルの系列間の二乗平均平方根の偏差の最小値として計算される、請求項6に記載のジェスチャ認識システム。
前記距離測定値は、前記動的時間伸縮アルゴリズムを使用して、分類されるべき信号についての少なくとも1つのセンサの複数の軸に関する測定値からなる測定ベクトルと、前記参照信号に関する同じ成分からなる参照ベクトルとの間のユークリッド距離の行列の要素を通じて、最小コスト経路に沿って、前記少なくとも1つの測定信号と前記複数の参照信号との間の類似度指数を計算することによって得られる、請求項9に記載のジェスチャ認識システム。
前記距離測定値は、前記動的時間伸縮アルゴリズムを使用して、前記測定ベクトルと前記参照ベクトルのスカラー積の微分からなる行列の要素を通じて、最小コスト経路に沿って、少なくとも1つの測定信号と前記複数の参照信号との間の類似度指数を計算することによって得られる、請求項9に記載のジェスチャ認識システム。
前記少なくとも2つのセンサに対する前記比較モジュールから来る前記データをマージするための前記モジュールは、前記少なくとも2つのセンサに対する前記比較モジュールから来る前記データ間で投票機能を実行することができる、請求項14に記載のジェスチャ認識システム。
前記距離測定値は、i)前記動的時間伸縮アルゴリズムを使用して、分類されるべき前記信号についての前記少なくとも2つのセンサの複数の軸に関する測定値からなるベクトルと、前記参照信号に関する同じ成分からなるベクトルとの間のユークリッド距離の行列の要素を通じて、最小コスト経路に沿って、前記少なくとも1つの測定信号と前記複数の参照信号との間の類似度指数を計算することであって、前記類似度指数は、前記距離測定値を構成することと、ii)前記動的時間伸縮アルゴリズムを使用して、それぞれのセンサに対して、分類されるべき前記信号についての前記少なくとも2つのセンサのうちの1つのセンサの前記複数の軸に関する前記測定値からなる前記ベクトルと、前記参照信号に関する同じ成分からなる前記ベクトルとの間の前記ユークリッド距離の行列を通じて、前記最小コスト経路に沿って、前記少なくとも1つの測定信号と前記複数の参照信号との間の類似度指数を計算することに次いで、全ての前記センサについての前記計算出力としてもたらされた前記類似度指数を乗ずることによって前記距離測定値を計算することとを含む群に属する作業によって得られる、請求項15に記載のジェスチャ認識システム。
前記距離測定値は、それぞれのセンサに対して、前記測定ベクトルと前記参照ベクトルのスカラー積の微分からなる行列の要素を通じて、最小コスト経路に沿って、前記少なくとも1つの測定信号と前記複数の参照信号との間の類似度指数を計算することに次いで、全ての前記センサについての前記計算出力としてもたらされた前記類似度指数を乗ずることによって前記距離測定値を計算することによって得られる、請求項14に記載のジェスチャ認識システム。
前記距離測定値は、前記動的時間伸縮アルゴリズムを使用して、それぞれのセンサに対して、分類されるべき前記信号についての前記少なくとも2つのセンサのうちの1つのセンサの複数の軸に関する測定値からなるベクトルと、前記参照信号に関する同じ成分からなるベクトルとの間のユークリッド距離からなる行列の要素、または前記測定ベクトルと前記参照ベクトルのスカラー積の微分からなる行列の要素を通じて、最小コスト経路に沿って、前記少なくとも1つの測定信号と前記複数の参照信号との間の類似度指数を計算することに次いで、全ての前記センサについての前記計算出力としてもたらされた前記類似度指数を乗ずることによって前記距離測定値を計算することとを含む群に属する作業によって得られる、請求項14に記載のジェスチャ認識システム。
前記前処理モジュールは、非活動期間に対応する信号を除去するため、選択されたある時間ウィンドウにわたって同じく選択された閾値を下回る信号の変動を取り除くことによって、前記捕獲された信号内で閾値化除去機能を実行する、請求項1に記載のジェスチャ認識システム。
前記前処理モジュールは、前記捕獲された信号を選択された低減率で間引きした後で、前記低減率と一致するスライディング空間または時間ウィンドウにわたって前記低減された信号の平均を得ることによって、前記捕獲された信号に関するサブサンプリング機能を実行する、請求項1に記載のジェスチャ認識システム。
前記前処理モジュールは、非活動期間に対応する信号を除去するための前記捕獲された信号内における除去機能、前記捕獲された信号に関するサブサンプリング機能、および前記捕獲された信号の低減による正規化機能を連続して実行する、請求項1に記載のジェスチャ認識システム。
前記傾向抽出モジュールは、ある時間ウィンドウにわたって捕獲された前記信号の1つの特徴的な量の変動が所定の閾値に反する場合に、前記比較モジュールの前記実行を開始する、請求項24に記載のジェスチャ認識システム。
前記格納モジュールの入力側に、ジェスチャのファミリを表すK個のクラスグループに編成するためのクラス再編成モジュールをさらに備える、請求項1に記載のジェスチャ認識システム。
前記比較モジュールを開始することにより、その前記比較信号が最も近いK個のグループの1つを選択する機能の実行が起動され、次いで、前記比較信号と前記選択されたグループのジェスチャとの間で動的時間伸縮アルゴリズムが起動される、請求項25に記載のジェスチャ認識システム。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明は、認識度をかなり大幅に改善する前処理および後処理手順を提供することによってこの問題を解決する。
【課題を解決するための手段】
【0004】
この目的のため、本発明は、実体のジェスチャを認識するためのシステムであって、前記実体の前記動作によって生成される信号を捕獲するための
捕獲モジュールと、捕獲およびジェスチャのクラスに整理された信号を表すデータを格納するための
格納モジュールと、ある時間ウィンドウにわたって捕獲された前記信号の少なくともいくつかと、
前記クラスに整理されて格納された信号とを比較するための
比較モジュール
と、ある時間ウィンドウにわたって捕獲された前記信号の少なくともいくつかを前処理するための
前処理モジュール
とを備え、前記前処理は、前記捕獲された信号内で非活動期間に対応する信号の閾値化を行うことによる除去機能、前記捕獲された信号のサブサンプリング機能、および前記信号の低減による正規化機能を含む群から選択される機能の少なくとも1つを備える、システムを開示する。
【0005】
本発明の一実施形態によれば、選択された機能が正規化
機能である場合は、前記捕獲された信号は低減前にその中心が決定される。
【0006】
有利には、前記実体の前記動作によって生成される信号を捕獲するための前記
捕獲モジュールは、3軸に沿った慣性測定を行うための少なくとも1つのセンサを備える。
【0007】
有利には、ある時間ウィンドウにわたって捕獲された信号を比較するための前記
比較モジュールは、動的時間伸縮アルゴリズムを実行することによって前記比較を実施する。
【0008】
有利には、
前記クラスのそれぞれに、該クラスに属する信号と他の信号との距離測定値を表す少なくとも1つのデータベクトルを含む。
【0009】
有利には、
前記データベクトルは、
クラス内に格納された少なくとも1つの信号との間の距離測定値であるクラス内の距離測定値と、他のそれぞれのクラスに格納された信号との間の複数の距離測定値であるクラス間の距離測定値とを含む。
【0010】
有利には、前記クラス内の距離測定値は、
該クラス内の全ての信号との距離の平均値に等しく、信号間のそれぞれの距離は、
前記動的時間伸縮アルゴリズムによって決定された信号のサンプルの系列間の二乗平均平方根の偏差の最小値として計算される。
【0011】
有利には、前記クラス間の距離測定値は、2つのクラスの信号間のペアワイズ距離の平均に等しく
、信号間のそれぞれの距離は、
前記動的時間伸縮アルゴリズムによって決定された信号のサンプルの系列間の二乗平均平方根の偏差の最小値として計算される。
【0012】
有利には、前記動的時間伸縮アルゴリズムは、前記格納モジュールに格納された参照信号の前記クラスを表
すベクトルとともに、ある時間ウィンドウにわたって捕獲された前記信号の
距離測定値を使用する。
【0013】
有利には、前記距離測定値は、クラス内の距離測定値によって正規化される。
【0014】
有利には、前記距離測定値は、
前記動的時間伸縮アルゴリズムを使用して、分類されるべき信号についての少なくとも1つのセンサの複数の軸に関する測定値からなる
測定ベクトルと、前記参照信号に関する同じ成分からなる
参照ベクトルとの間のユークリッド距離の行列の要素を通じて、最小コスト経路に沿って、前記少なくとも1つの測定信号と前記複数の参照信号との間の類似度指数を計算することによって得られる。
【0015】
有利には、前記距離測定値は、
前記動的時間伸縮アルゴリズムを使用して、前記測定ベクトルと前記参照ベクトルのスカラー積の微分からなる行列の要素を通じて、最小コスト経路に沿って、少なくとも1つの測定信号と前記複数の参照信号との間の類似度指数を計算することによって得られる。
【0016】
有利には、前記信号を捕獲するための前記モジュールは、少なくとも2つのセンサを備える。
【0017】
有利には、本発明のシステムは、少なくとも2つのセンサに対する比較モジュールから来るデータをマージするためのモジュールをさらに備える。
【0018】
有利には、少なくとも2つのセンサに対する比較モジュールから来るデータをマージするためのモジュールは、少なくとも2つのセンサに対する比較モジュールから来る前記データ間で投票機能を実行することができる。
【0019】
有利には、前記距離測定値は、i)
前記動的時間伸縮アルゴリズムを使用して、分類されるべき前記信号についての前記少なくとも2つのセンサの複数の軸に関する測定値からなるベクトルと、前記参照信号に関する同じ成分からなるベクトルとの間のユークリッド距離の行列の要素を通じて、最小コスト経路に沿って、前記少なくとも1つの測定信号と前記複数の参照信号との間の類似度指数を計算することであって、前記類似度指数は、前記距離測定値を構成することと、ii)
前記動的時間伸縮アルゴリズムを使用して、それぞれのセンサに対して、分類されるべき前記信号についての前記少なくとも2つのセンサのうちの1つのセンサの前記複数の軸に関する前記測定値からなる前記ベクトルと、前記参照信号に関する同じ成分からなる前記ベクトルとの間の前記ユークリッド距離の行列を通じて、前記最小コスト経路に沿って、前記少なくとも1つの測定信号と前記複数の参照信号との間の類似度指数を計算することに次いで、全ての前記センサについての前記計算出力としてもたらされた前記類似度指数を乗ずることによって前記距離測定値を計算することとを含む群に属する作業によって得られる。
【0020】
有利には、前記距離測定値は、それぞれのセンサに対して、測定ベクトルと参照ベクトルのスカラー積の微分からなる行列を通じて、最小コスト経路に沿って、少なくとも1つの測定信号と複数の参照信号との間の類似度指数を計算することに次いで、全てのセンサについての計算出力としてもたらされた類似度指数を乗ずることによって距離測定値を計算することによって得られる。
【0021】
有利には、前記距離測定値は、
前記動的時間伸縮アルゴリズムを使用して、それぞれのセンサに対して、分類されるべき前記信号についての前記少なくとも2つのセンサのうちの1つのセンサの複数の軸に関する測定値からなるベクトルと、前記参照信号に関する同じ成分からなるベクトルとの間のユークリッド距離からなる行列の要素、または前記測定ベクトルと前記参照ベクトルのスカラー積の微分からなる行列の要素を通じて、最小コスト経路に沿って、前記少なくとも1つの測定信号と前記複数の参照信号との間の類似度指数を計算することに次いで、全ての前記センサについての前記計算出力としてもたらされた前記類似度指数を乗ずることによって前記距離測定値を計算することとを含む群に属する作業によって得られる。
【0022】
有利には、前処理モジュールは、非活動期間に対応する信号を除去するため、選択されたある時間ウィンドウにわたって同じく選択された閾値を下回る信号の変動を取り除くことによって、前記捕獲された信号内で閾値化除去機能を実行する。
【0023】
有利には、前処理モジュールは、捕獲された信号を選択された低減率で間引きした後で、低減率と一致するスライディング空間または時間ウィンドウにわたって低減された信号の平均を得ることによって、捕獲された信号に関するサブサンプリング機能を実行する。
【0024】
間引きを表すデータは、格納モジュールによって格納され、比較モジュールへの入力として送信される。
【0025】
有利には、前処理モジュールは、非活動期間に対応する信号を除去するための前記捕獲された信号内における除去機能、捕獲された信号に関するサブサンプリング機能、および捕獲された信号の低減による正規化機能を連続して実行する。
【0026】
有利には、捕獲された信号の少なくともいくつかおよび比較モジュールの出力の少なくともいくつかは、その中での処理のため、格納モジュールへの入力としてもたらされ得、前記処理作業の結果は、比較モジュールの現行の処理作業で取り入れられる。
【0027】
有利には、本発明のシステムは、前処理モジュールの出力側に、比較モジュールの実行を開始することができる傾向抽出モジュールをさらに備える。
【0028】
有利には、前記傾向抽出モジュールは、ある時間ウィンドウにわたって捕獲された信号の1つの特徴的な量の変動が所定の閾値に反する場合に、比較モジュールの実行を開始する。
【0029】
有利には、本発明のシステムは、格納モジュールの入力側に、ジェスチャのファミリを表すK個のクラスグループに編成するためのクラス再編成モジュールをさらに備える。
【0030】
有利には、比較モジュールを開始することにより、その比較信号が最も近いK個のグループの1つを選択する機能の実行が起動され、次いで、前記比較信号と前記選択されたグループのジェスチャとの間で動的時間伸縮アルゴリズムが起動される。
【0031】
また、本発明は、実体のジェスチャを認識する方法であって、少なくとも3自由度で、前記実体の前記動作によって生成される信号を捕獲する工程と、ある時間ウィンドウにわたって捕獲された前記信号の少なくともいくつかと、実体のジェスチャを表すクラスにおいて格納および整理された信
号とを比較する工程とを含み、前記比較工程の前に、ある時間ウィンドウにわたって捕獲された前記信号の少なくともいくつかを前処理する工程をさらに含み、前記前処理は、前記捕獲された信号内で閾値化を行って非活動期間に対応する信号を除去することによる除去機能、前記捕獲された信号のサブサンプリング機能、および前記信号の低減による正規化機能を含む群から選択される機能の少なくとも1つを含む、方法も開示する。
【0032】
有利には、前記正規化は、前記捕獲された信号の低減前にその中心を決定することを含む。
【0033】
本発明は、画像または音声認識などの外部からの援助[XWand(商標)を使用した場合のように]に頼らなくとも実施することができ、したがって、複雑なデータマージングアルゴリズムおよびデバイスを使用する必要はない。
【0034】
また、本発明は、MEMS(微小電気機械システム)センサなど、小型で、軽量で、低消費電力で、安価なセンサを使用することができるという利点も有する。
【0035】
また、慣性および/または磁気測定の使用により、捕獲がカメラの被写界に制限される画像処理デバイスを特徴付ける捕獲量の制限を回避することも可能になる。可動型カメラも依然として使用可能であるが、さらに非常に複雑なシステムを導入する。
【0036】
さらに、本発明によって実現される、処理をさまざまなセンサのクラスおよび使用状況に適合させる能力は、さまざまなデータをマージするための手順を最適化することによって、システムの多目的化を可能にし、したがって、適用範囲が非常に広くなる。
【0037】
最終的に、本発明の特定の実施形態では、捕獲されたジェスチャは、動作信号の著しい変動がある場合のみ、比較アルゴリズムを実行することによって、ならびにクラスグループ別にジェスチャデータベースを整理することによって、認識することができる。
【0038】
これらの実施形態では、傾向抽出方法を使用して、捕獲されたジェスチャを表すさらに多くの信号を間引きする前処理作業が使用される、長時間にわたるジェスチャの認識および長い系列が認められており、こうして、処理時間をさらに削減することが可能になる。
【0039】
以下のいくつかの例示された例の説明およびその添付の図面から、本発明はより良く理解され、そのさまざまな特徴および利点が明らかとなろう。
【発明を実施するための形態】
【0041】
図1は、本発明の一実施形態において、本発明が使用される状況の例を示す図である。
【0042】
本発明のシステムは、ジェスチャ捕獲および認識の分野に関する。この分野は、特に、一般社会において、人間機械相互作用アプリケーションまたはジェスチャ認識に基づくアプリケーション(例えば、マルチメディアシステム、インタラクティブゲームコンソール、家庭用の全ての種類の電気および/または電子装置のためのユニバーサルリモコン、リモコンとしての携帯電話の使用、楽器の制御など)に対して、興味深いものである。また、本発明のシステムは、筆記認識または訓練用、スポーツ用、飛行用もしくは他の活動用のシミュレーションなどの専門的アプリケーションまたは準専門的アプリケーションにも関する。
【0043】
本発明のシステムは、好ましくは、人が直接身に付けるか(片方もしくは両方の手首、片方もしくは両方の足首、胴体などに)、または、人のジェスチャで動くデバイス内にある(3Dマウス、リモコン、電話、おもちゃ、腕時計、アクセサリ、衣類など)、動作に敏感なセンサを使用する。本発明の説明は、主に、MEMSタイプのセンサ(ジャイロスコープおよび/または加速度計)および磁力計について言及するが、本発明の原理は、他の動作に敏感な測定、例えば、場合により赤外線における画像取得、力もしくは圧力測定、光電池によって行われる測定、遠隔測定、レーダーもしくはライダー測定などにおいて一般化され得る。しかし、本発明を適用するための条件の1つは、信号を提供するために使用されるセンサが捕獲されるべきジェスチャを十分に表すこと、特に、ジェスチャを認識するために考慮することが必要な自由度数を有することである。さまざまな供給源からの関連する測定の組合せによって、センサ冗長性を与えることで、認識性能をかなり向上させることが有利に可能であることが後の説明で理解される。
【0044】
一例を挙げれば、
図1は、実体120(この場合は手)によって生成された「8」を表すジェスチャ110を示す。この実体には、動作に敏感なデバイス130が取り付けられている。「8」は、例えば、テレビのチャネル番号またはコンソール上のゲーム番号であり得る。こうして対象は、アプリケーション特有のコードで、前記対象を表す1つまたは複数の文字もしくは数によって呼び出されることによって、命令を受けることができ、次いで、前記対象が実行できる機能の1つは、第2のレベルの前記コードの別の英数字によって呼び出され得る。
【0045】
パーソナルコンピュータ上またはルームコンソール上のマルチメディアアプリケーションの分野では、本発明は、制御ソフトウェアによって相互作用が制御され得る3Dマウス(すなわち、「空中」で保持)または他の任意の高感度周辺機器に付随する製品に適用される。それは、例えば、2つのジャイロスコープセンサを備え、その各々が回転軸を有する、AirMouse(商標)であり得る。使用されるジャイロスコープは、Epson XV3500ブランドのものである。それらの軸は直交しており、偏揺れ角(AirMouseユーザに面している平面の水平軸に平行な軸まわりの回転)および縦揺れ角(AirMouseユーザに面している平面の垂直軸に平行な軸まわりの回転)を提供する。2本のジャイロスコープ軸によって測定された縦揺れおよび偏揺れの瞬間速度は、マウス本体に組み込まれたマイクロコントローラに送信され、前記マイクロコントローラによって変位に変換される。このデータは、ユーザに面している画面上のカーソルの動作を表すものであり、画面上で動くカーソルの表示を制御するコンピュータまたは装置へ無線で送信される。AirMouseを保持する手によって実行されたジェスチャは、システムによって認識されるときは常に、作動の意味を有する。例えば、クロス(または、「アルファ」記号)は、システムが焦点を置くアイテム(コンピュータ言語によれば「アクティブな」アイテム)を抑制する場合に出される。
【0046】
スポーツなどの別の分野のアプリケーションでは、例えば、統計的照合分析を目的として、テニスにおけるフォアハンドまたはバックハンドのように、特定の技術的なジェスチャを認識およびカウントすることができる。また、ジェスチャにおける欠陥(例えば、ボールを打つ瞬間の急激で小刻みな揺れ)を対象とするかまたは識別するため、理想のまたはモデルの技術的なジェスチャと比較して実行されたジェスチャのプロフィールを研究し、その差(特に、モデルから逸脱してジェスチャが実行されたジェスチャ相)を分析することもできる。これらのアプリケーションでは、スポーツに興じる者は、慎重に選択された場所に、MotionPod(商標)タイプのセンサを身に付ける。MotionPodは、3軸の加速度計、3軸の磁力計、センサからの信号を事前整形するための前処理能力、前記信号を処理モジュール自体に送信するための無線周波数送信モジュール、およびバッテリを備える。この動作感知センサは、「3A3M」センサ(3軸の加速度計および3軸の磁力計を有する)と呼ばれる。加速度計および磁力計は、低容量で、低消費電力で、低コストの市販のマイクロセンサ、例えば、Kionix(商標)から販売されている3チャネルの加速度計KXPA4 3628ならびにHoneywell(商標)の磁力計HMC1041Z(1つの垂直チャネル)およびHMC1042L(2つの水平チャネル)タイプである。他の供給業者も、磁力計の場合にはMemsic(商標)もしくは旭化成(商標)、ならびに加速度計の場合にはSTM(商標)、Freescale(商標)およびAnalog Device(商標)などいくつか存在する。MotionPodにおいて、6つの信号チャネルの場合は、アナログフィルタリングのみが存在し、アナログ・デジタル変換(12ビット)後に、原信号は、この種のアプリケーションにおいて消費が最適化されたBluetooth(商標)(2.4GHz)帯域の無線周波数プロトコルによって送信される。したがって、データは、原信号でコントローラに到達し、このコントローラは、センサセットからデータを受信することができる。データは、コントローラによって読み取られ、ソフトウェアによって実行される。サンプリングレートは調整可能である。デフォルトでは、そのレートは200Hzで設定される。しかし、より高い値(最大3000Hz、またはさらに高い値)を想定することも可能であり、例えば、衝撃の検出においてより高い精度を実現することができる。
【0047】
前述の加速度計タイプは、3軸に沿った縦方向変位、角変位(地球の重力場の方向を除く)、および3次元のデカルト基準座標系に対する方位に高感度である。上記タイプの磁力計セットは、地球の磁場に対して固定されるセンサの方位、したがって3本の基準座標系軸に対する方位(地球の磁場の方向を除く)を測定する役割を果たす。3A3M組合せは、平滑化された相補的な動作の情報を提供する。
【0048】
別のアプリケーション分野、すなわちテレビゲームにおいても、同じタイプの構成を使用することができる。この場合、ジェスチャは、より深い集中状態を可能にし、できる限り迅速にかなり頻繁に認識されることを必要とする。例えば、ボクシングにおける右フックは、ジェスチャの終了前でさえ認識される。すなわち、ゲームは、素早く動作を引き起こし、仮想世界で実施される。
【0049】
また、MotionPod(商標)のあるバージョンには、2つのマイクロジャイロスコープコンポーネント(回路面に2本の回転軸および回路面に直交する1本の回転軸を有する)が含まれる。この種のセンサを追加することで豊富な可能性が提供される。それは、典型的なIMU(慣性測定ユニット)前処理を可能にし、それにより、動的接触角測定の実施が可能となる。3A3M3G(Gはジャイロスコープを表す)組合せは、素早い動作に対してでも、または、磁場を妨害する鉄金属が存在する場合でも、平滑化された相補的な動作の情報を提供する。この種の実施の場合、有利な前処理は、動作加速を推定し、二重積分によってその位置に戻るため、センサの方位を決定することにある。この位置はジェスチャの軌道(分類が容易なデータ)を表す。
【0050】
携帯電話の世界では、ジェスチャは、比較的単純なものであり、その利用を容易にする。その課題は、携帯電話の機構に関して軽く叩くこと、これらの痕跡を認識すること、または、全ての方向において並進動作を実施すること、または、携帯電話を拾い上げるもしくは下に置くジェスチャを認識することである。しかし、携帯電話に、これらの指示をモニターすることができるこの種のセンサが含まれる場合は、操作モードの説明は、マルチメディアアプリケーション分野のもの(上記を参照)に似ており、この分野では、携帯電話は、リモコンまたはマウスの代わりに使用される。
【0051】
したがって、本発明のシステムの適用可能範囲が非常に広く、さまざまなセンサを使用することができることが理解される。本発明は、処理を、使用されるセンサおよび使用状況に適合させることを可能にし、所望の認識精度を取り入れる。
【0052】
図2は、本発明の一実施形態における、本発明のシステムのアーキテクチャ全体を示す図である。
【0053】
本発明によるジェスチャ認識システムは、
− 実体に関係するセンサの動作によって生成される信号を捕獲するためのモジュール210と、
− ジェスチャのクラス別に整理された、事前に捕獲された信号を格納するためのモジュール220と、
− ある時間ウィンドウにわたって捕獲された信号の少なくともいくつかと、格納された信号の前記クラスとを比較するためのモジュール230と、
− ある時間ウィンドウにわたって捕獲された前記信号の少なくともいくつかを前処理するためのモジュール240と
を備える。
【0054】
上記において、
図1におけるコメントとして、モジュール210に関連する実施形態の例を説明してきたが、これは、一般に、少なくとも1つの高感度デバイス130を備える。有利には、高感度デバイス130は、3A3G(3軸の加速度計および3軸のジャイロスコープ)タイプまたは3A3M(3軸の加速度計および3軸の磁力計)タイプまたは3A3G3M(3軸の加速度計、3軸のジャイロスコープおよび3軸の磁力計)タイプのものである。信号は、一般に、コントローラへ無線(動作感知センサによって捕獲された信号を送信するために最適化された、使用が見込まれる特定のアプリケーションプロトコル層を用いて、Wi−FiまたはBluetoothリンク)で送信される。
【0055】
モジュール220および230は、本発明が関連する分類による認識のためのアプリケーションクラスの特性である。具体的には、音声または筆記認識のように、ジェスチャ認識は、学習段階から利益を得、所与のジェスチャを表す信号波形のクラスの作成を可能にする。アプリケーション分野がより広くなり、ジェスチャを認識すべきユーザが多くなるほど、認識品質に関して分類により得られる利点は多くなる。
【0056】
所定のジェスチャのデータベースから、実体110によって実行されたジェスチャ120の発生を検出することは可能である。所定の参照ジェスチャのこのデータベースは、「ジェスチャ辞書」または格納モジュール220と呼ばれる。新しいジェスチャを辞書220に入力する動作は「エンリッチメント」と呼ばれる。ジェスチャが実行されるかどうかに関わらず、辞書220内に現れる認識動作は、ジェスチャがその中に存在する場合は「認識」と呼ばれ、ジェスチャがその中に存在しない場合は「拒否」と呼ばれる。搭載センサは、実行されたジェスチャを表す痕跡を測定する。引き起こされた総合的な技術的問題は、認識(または分類)の問題である。この課題は、システムによって受信されたこの測定情報を、実行されたジェスチャが属するクラスに関連付けることである。クラスは、学習のために1つまたは複数のジェスチャの実行を含み得る。任意の1つのクラス内の実行は、コンテキストまたはユーザによって異なる場合がある。分類に必要なシステムの生成が望まれる場合、以下のようないくつかの特定の技術的問題が起こる場合がある。
− 改善のため、場合により前処理が必要とされる可能性がある、入力データの関連性
− 実行ごとに異なる、ジェスチャの実行速度
− ジェスチャ辞書に現れるジェスチャが明確に認識され、正しいクラスに属することを確実にすること(低い非検出の確率または高レベルの認識)を可能にし、学習データベースの一部を形成しないジェスチャを廃棄すること(誤警報の確率)を可能にし、間違ったクラスに割り当てられるジェスチャの数を最小限に抑えること(低レベルの誤検出)を可能にする、認識のロバスト性
− システムの応答時間および演算コスト
− 認識されるべきジェスチャの数およびエンリッチメントに提供されるべきこれらのジェスチャの実行数
− 多くのユーザを扱うためのロバスト性
− 所与のジェスチャの変形形態を管理する能力(例えば、低振幅のジェスチャおよび高振幅の同じジェスチャまたは特定の方向で行われたジェスチャおよび異なる方向で行われた同じジェスチャ)
− ジェスチャを開始および/または終了する瞬間を示す必要なしに、絶えず発動しているジェスチャ認識を管理する能力
【0057】
原理上は未知の期間にわたって形成される、形状を認識する問題は、音素および発音語を認識することが望まれる音声認識の開始以来研究されている[「Automatic speaker verification:A review」(A E Rosenberg、1976年)および「Fundamentals of Speech Recognition」(B−H Juang、1993年)を参照]。ジェスチャ認識は同じ問題を継承する。すなわち、所与のジェスチャは、異なるレートおよび異なる振幅で実行され得る。処理の解決法は、学習された形状にできる限り近づけて信号を適合させるため、経時的に信号を伸長および拡張するための方法に基づく。DTWアルゴリズムは、この処理のクラスの一部を形成し、音声認識のために適用された最初のアルゴリズムである[「Performance tradeoffs in dynamic time warping algorithms for isolated word recognition」(C.Myers、L.RabinerおよびA.Rosenberg、1980年)を参照]。また、加速度計タイプのセンサによって検出されたジェスチャを認識する可能性も、1990年代に研究された[「Dynamic Gesture Recognition Using Neural Networks;A Fundament for Advanced Interaction Construction」(K.Boehm、W.BrollおよびM.Sokolewicz、1994年)を参照]。また、ジャイロスコープとの組合せも、少し後で研究されている[特に、欧州特許第0666544B1号明細書、「Gesture input method and apparatus」(1995年8月に公開され、2002年7月にCanonに特許が付与);国際公開第2003−001340A2号パンフレット、「Gesture recognition system and method」(2003年1月に公開されたが、国内段階に移行されることなく廃棄);「Project EMMU:Emotional,Motional Measurement Unit」と称する報告書(CSIDC Seoul National Univ.、Jun Keun Chang、2003年);刊行物「Workshop on Sensing and Perception for Ubiquitous Computing」(UbiComp 2001の一部、2001年9月);および本説明の説明の導入部で言及されるMicrosoftによる特許および刊行物を参照]。Canonの特許は、主に手に取り付けられるデバイスについて説明している。このデバイスは、測定された信号(センサ間の差)と参照信号(辞書)とを比較する。この特許は、特定の比較手段も前処理手段も開示していない。MicrosoftのXWandに関連する刊行物および特許は、ジェスチャ認識機能を確立するためのDTW方法の適合性について研究した。それらは、家庭用電子機器への適用における知覚環境に対するXWandの元の使用法について説明している(3Dの対象を目的とする)。XWandは、加速度計、磁力計、ジャイロスコープ、制御ボタン、無線送信機、赤外線ダイオードおよびマイクロコントローラを備える電子式「魔法の杖」である。Wilson publicationは、DTWなどの方法がジェスチャ認識の解決法を提供することができることを説明している。著者らは、3つの特定のアルゴリズム(LTW、DTWおよびHMM)の性能を比較している。その結果は、DTWの場合における72%と対照的に、最も効果的な方法は90%の認識を有するHMM方法であることを示している。
【0058】
本発明者らに設定された目標は、ゲーム/マルチメディアアプリケーションに対して、95%のジェスチャ検出確率および3%の誤検出レベルを達成することである。
【0059】
数人のユーザで達成されたことを含めて、これらの目標が達成されたことが後の説明で理解される。
【0060】
さらに、DTWアルゴリズムを使用する方法の利点の1つは、これらの方法が「自己学習型」、すなわち、重みの調整を必要とせずとも、ジェスチャ辞書をエンリッチメントにするには一般規則として十分であることであり、あるアプリケーションではHMM方法より好ましい方法となり得る。しかし、アプリケーションによっては、DTWアルゴリズムを使用すると、HMMアルゴリズムを使用するよりも多くの演算力が消費される。
【0061】
本発明のモジュール220および230による正確な操作は、後の説明で詳細に説明される。
【0062】
モジュール240は、認識を最適化するため、捕獲された信号を準備することを可能にする前処理機能を備え、前記機能もまた、残りの説明で詳細に説明される。
【0063】
図3は、本発明の一実施形態において、本発明を実施するための処理作業の全般的なフローチャートである。
【0064】
本発明のジェスチャ認識システムは、その代わりにまたは必要に応じて、データベースをエンリッチメントにするか、または、ジェスチャを認識/拒否することができる。ユーザは、エンリッチメントモードで操作しているのか、それとも認識モードで操作しているのか特定しなければならない。隣接するクラスの境界にある特定のジェスチャに対して、認識モードとエンリッチメントモードとで同時に操作することを想定することも可能である。この場合、システムの操作を開発中に、クラスへの割当てを容易に確認または拒否することを可能にするため、システムの管理者ではないユーザがアクセス可能なインターフェースを提供することが有利である。
【0065】
認識モード(RECOG)では、完全な解決法は、以下のような多くの機能ブロックで作成された一連の処理作業である。
− 入力信号に作用する前処理モジュール(PRE)240。このモジュールは、全てのクラスに対して同じ方法で構成することができるか、あるいは、1つまたは複数のクラス専用に構成することができる。
− 前処理された入力信号と同じ前処理作業が行われた参照信号とを比較するための比較モジュール(COMP)230。このモジュールは、認識されるべきジェスチャを表す信号と参照ジェスチャを表す信号との間の類似性を表すインジケータを提供する。
【0066】
この比較モジュールは、MERGEブロックを含み、このブロックは、最善の解を選択する役割および/または学習されたジェスチャのボキャブラリの一部を形成しないジェスチャを拒否する役割を果たす。この選択は、例えば、選択基準を最適化することで選択関数を演算することによって、または、利用可能なセンサのさまざまな操作手順の出力として演算された解の間で投票することによってなされ得る。
【0067】
エンリッチメントモード(ENRICH)では、本発明のシステムは、以下のようなさまざまな機能を使用する一連の処理作業を使用する。
− 格納されるべき入力信号上で行われる、前処理モジュール(PRE)240の機能
− クラスに付随する前処理された信号SIG(i)および基準ベクトルCRIT(i)が格納される(iはクラスの数である)、格納モジュール(MEM)220の機能。新しいクラスによる格納された参照信号のエンリッチメントまたは新しい信号による既存のクラスのエンリッチメントが存在し得る。
【0068】
例のデータベースを初期化するには、第1のジェスチャの第1の例を手動モードで導入する必要がある。システムは、データベース内のジェスチャの少なくとも1つの例ができ次第、自動又は半自動モードで操作することができる。初期の拒否または受信基準は、慎重に選択された値で固定することができ、エンリッチメントモードにより、この値を徐々に調整することが可能になる。
【0069】
前処理モジュール240は、2つの操作モード、ENRICHおよびRECOGで以下のような3つの信号準備機能を実行することができる。これらのそれぞれの準備機能は、システム使用の文脈に従って、実施されても、実施されなくともよい。これらの機能の1つが、一定の操作範囲内で、自動で起動または解除されることは想定できる。
− 有用でない信号の部分を除去する、または、有用な信号を切り取る機能(性能は、実際のジェスチャの前後の非活動期間を廃棄することによって有利に強化される)。非活動期間は、観察された信号の変動を使用することによって特定することができる。これらの変動が、十分な長い時間にわたって十分に少なければ、非活動期間と見なされる。ある種の閾値化が存在し、この切り取りは、ジェスチャの開始および終了を検出する(ジェスチャ間に中断がある場合)ため、ラインに沿って実行され得、スライディングウィンドウFにわたって実行される。
・ var(signal)
F<Thの場合(Thは、ユーザによって定義される閾値)、期間は非活動であり、この期間にわたる信号は除去される。
・ また、前処理は、バターワースフィルタまたはスライディング平均フィルタなど、低域信号フィルタも含み得、それによって、通常のジェスチャに対する偏差による不適当な変動を除去することが可能になる。
− 信号をサブサンプリングする機能。場合により、有用でない信号の部分を除去する機能の後、前記サブサンプリング機能は、処理時間の大幅な削減を可能にし、特に、以下の形態をとることができる。
・ 時間信号の規則的な間引き(低域プリフィルタリングを用いる):実際には、本発明の一実施形態で使用される捕獲システムは、200Hzでサンプリングされるため、この場合5Hz(特に人間のジェスチャのダイナミクスによく適する周波数)でサンプリングされた最終信号を得るには、複数のセグメント、例えば40ポイントにわたってフィルタ平均化を使用することは有利である。平均化された信号(ウィンドウ上で中心を決定)は、以下のように表される。
【数1】
・ 時間信号から得られる空間信号の規則的な間引き。したがって、時間信号は不規則に間引きされ、すなわち、
図4で示されるように、可変周波数で間引きされる。この機能は、DTWタイプの伸長アルゴリズムの挙動に信号を適合させるため、簡素化(SIMP)を実行する。この簡素化は、入力信号の「軌道」(例えば、信号を測定するためにシステムが3軸の加速度計を備える場合は、3次元空間の軌道)に沿ってウィンドウを進めることにある。この調整可能なウィンドウに含まれる全てのポイントは、サンプルの重心(時間および値の観点から)で、単なる1つのポイントに置き換えられる。次いで、ウィンドウは、ポイントの密度を「クリーニング」し続けるために軌道に沿って移動される。
・ 前記間引きを実行後は、間引きされたポイントの系列を比較モジュール230の分類機能に送信するか、または、間引きされたポイントの系列を場合により伴う信号の密度を表す系列を送信する[軌道上のこのスライディングウィンドウ内で見られる近位のポイントは、間引きされたポイントの系列の標本を生成し、これらのポイントの数は、信号の密度の尺度であり(
図4を参照)、認識されるべきジェスチャのための識別因子であり得る]。
− 場合によりサブサンプリング機能の後に実行され得る、信号正規化機能(低減による正規化と呼ばれる)。この正規化機能は、実行される場合、信号のエネルギー(信号のエネルギーは、信号を二乗したものの平均である)によって、このサブサンプリング機能によって出力された信号を除することにある。したがって、この正規化により、以下の式に従って、信号のダイナミクスを克服することが可能になる。
【数2】
− 一変形形態によれば、正規化機能は、加速度計によって出力された信号の中心を決定し、次いで、低減することにある。すなわち、本発明の一実施形態によれば、それぞれの信号に対して、それぞれの信号からそれらの平均値(ジェスチャを表す完全な信号の長さにわたって計算される)を減じ、この第1の正規化から得られた信号をそれらの標準偏差で除し、第2の正規化を実行する。したがって、これらの正規化は、以下の式に従って、異なるレートで行われた同一のジェスチャを均質化することを可能にする。
【数3】
格納モジュール(MEM)220は、ジェスチャをデータベースに追加次第、または、既存のデータベースの最適化が望まれる場合、参照ジェスチャのデータベースを管理する。
【0070】
エンリッチメントモード(ENRICH)では、ジェスチャを既存のクラスiに追加次第、または、新しいクラスを表す1つもしくは複数のジェスチャを追加することによって新しいクラスを作成次第、それぞれのクラスiに対して特に以下を含むベクトルCRIT(i)が更新される。
− 前記クラスiのジェスチャの2−2距離全ての平均と等しいクラス内の距離
− クラスiとクラスjとの間のそれぞれの距離が、クラスiの要素とクラスjの要素との間の全ての距離の平均に等しい、クラス間の距離のセット
【0071】
クラス内およびクラス間の距離は、認識モード(RECOG)に対する後の説明で示されるように計算される。
【0072】
これらの基準の発展により、既存の参照ジェスチャのデータベースと比較した新しいジェスチャまたは新しいクラスの品質についての情報が提供される。クラス内の距離が過度に増加すると同時にクラス間の距離が過度に小さい場合、本発明の一実施形態によれば、参照ジェスチャのデータベースが劣化したことをユーザに通知することができる。
【0073】
本発明の一実施形態によれば、既存のデータベースの最適化が望まれる場合、すなわち、1つのクラス当たりの信号が多い場合、以下のいずれかの方法で最適な代表信号を選択することによって、これらの信号の数を低減することができる。
− クラスの中心に相当する1つまたは複数の「平均」代表信号を計算する。CRIT(i)に含まれる関連するクラス内の距離によって場合により除される、クラスiの平均例と比較した新しい例の距離は、クラスiにおけるその出現に関連するインジケータを提供する。数個の平均代表信号が計算される場合、特に、数人のユーザがシステムの使用を意図する場合、これらは、同じジェスチャを実行するさまざまな方法を示すよう有利に選択され得る。あるいは
− クラス間の境界をより良く定義する「境界」代表信号を計算する。新しい要素は、その要素が見られるゾーンのクラスに付随することになる。この方法は、例のデータベースが非常に実質的であり、クラス間の境界が複雑である場合に適切である。
【0074】
認識モード(RECOG)では、比較モジュール220は、以下で説明される機能を実行する。
【0075】
比較機能(COMP)は、分類されるべきジェスチャと参照ジェスチャのデータベースの信号との間のコストベクトルを提供する。コストは、DTWアルゴリズムによって決定された2つの信号間の距離を最小にすることによって得られ、
図5について批評する場合、以下に示されるいくつかの従来の式の1つに従って、二乗平均平方根誤差または2つの比較信号間の距離もしくはコストを提供する。このコストの性質は、MERGEブロックの処理作業(選択された本発明の実施形態に従って、実際に使用される)に関して、ならびに、優先的に取り扱うためのアプリケーションおよび性能レベル(認識レベル/誤検出レベル)に関して、センサによって自由に異なり得る。
− 単に1つの操作手順(3軸の加速度計または3軸のジャイロスコープを用いる)を有する場合、分類されるべき3軸の信号と参照ジェスチャのデータベースからの信号の1つとの間のコストを計算することができ、このコストは、3次元のユークリッド距離に関与し、したがって、距離行列のみに取り組むことを可能にし、それによって、処理時間を有利に削減する(操作回数を増加する、1つのセンサチャネル当たりのコストの計算と比較して)。
− 2つの操作手順を利用することができる場合、
・ 6次元の信号のDTWコストを計算することができる(3軸のジャイロスコープからの情報と連結された3軸の加速度計からの情報を含むベクトルを用いる)。
・ マージされたコストを計算することができる。そこで、最終コストは、2種のコストから得られるものである(1つの操作手順当たり1つのコスト)。このオプションにより、それぞれの捕獲手順の相補特性から有利に利益を得て、それらを組み合わせることが可能になる。
・ 対のコスト(加速度計コストおよびジャイロスコープコスト)をMERGEブロックに提供することができる。
・ 手順の1つに好都合なコストを計算することができる。例えば、DTW経路が、操作手順の1つ(最も関連しているもの)に対して計算され、他の手順のコストが、この経路にわたって計算される(第1の手順のコストを補充するため、またはそうではない)。したがって、既に記載した通り、2種のコストから得られるものすなわち対のコストを提供することができる。
【0076】
第3(または第4など)の操作手順の組合せは、同じ方法で実施され得る。すなわち、上記の技法は、3つ以上の操作手順において一般化され得る。M個の操作手順によってN個の信号がもたらされる場合(3A3M3G場合、3つの操作手順に対して9つの信号となる)、
・ N次元の信号のDTWコストを計算することができる。
・ マージされたコストを計算することができる。そこで、最終コストは、M種のコストから得られるものである(1つの手順当たり1つのコスト)。このオプションにより、それぞれの捕獲手順の相補特性から有利に利益を得て、それらを組み合わせることが可能になる。
・ M種のコストのセットをMERGEブロックに提供することができる。
・ 操作手順の1つに好都合なコストを計算することができる。例えば、DTW経路は、手順の1つ(最も関連しているもの)に対して計算され、他の手順のコストは、この経路にわたって計算される(第1の手順のコストを補充するため、またはそうではない)。したがって、既に記載した通り、M種のコストから得られるものすなわち対のコストを提供することができる。
【0077】
任意選択の後処理作業は、クラス基準の関数として得られたコストを正規化することにあり、次のように定義される。分類されるべきジェスチャとクラスiとの間でコストを計算するには、クラスiのクラス内の距離(ベクトルCRIT(i)で利用可能)に対する事前に計算された絶対コストの割合として相対コストを定義する。こうして、このコストは、クラスの幾何学的特性(クラスの要素の広がりおよび分布)を考慮に入れる。
【0078】
参照フィールド[磁力計の場合は北方向に対して、加速度計の場合(個々の加速度が小さい場合または一般的な参照フレーム内で同じ方位を有する場合)は垂直方向に対して]に対するセンサの方位を計算から外すため、比較されるべき2つの信号のスカラー積の微分に対応する特定の距離を選択することができる。
【0079】
MERGEまたは分類機能は、テストされたジェスチャの分類決定を提供する。我々の決定アルゴリズムは、検出される最も近くの隣接クラスのみに基づく(最も近くの隣接クラスは、最低コストをもたらすものである)。一変形形態は、それぞれのクラスのいくつかの例が格納モジュール(MEM)内に提供され格納されている場合、K個の最も近くの隣接クラスを選択することであるが、これは、DTWの場合、その演算時間に好ましくない影響を与える。COMPブロックの場合、上で説明された構成の変形形態に応じて、いくつかの実施形態が実現可能である。
− スカラーのコスト(加速度計のコストのみ、ジャイロスコープのコストのみ、またはマージされたコスト)を有する場合、以下のいずれかのような最も近くの隣接クラスを有する。
・ 最適なコストの値が何であっても、テストされたジェスチャを最も近くの隣接クラスに割り当てることを決定する。したがって、拒否されるクラスはない。これにより、最大レベルの認識が可能となるが、誤警報のレベルは相補的なものとなる。あるいは
・ 決定閾値を設定する。この閾値を上回る場合、ジェスチャを拒否クラスに割り当てる。この閾値を下回る場合、ジェスチャを最も近くの隣接クラスに割り当てる。そこで、閾値を調節するため、上で説明された相対コストを慎重に使用する。これにより、認識レベルと誤警報レベルとの間の所望の妥協案に従って、この閾値を最適化することができる。
− 対のコストを有する場合、1種のコスト当たり1つのより近いクラスを有し、そこで、得られたクラスを比較する。同じクラスが存在する場合、ジェスチャをこのクラスに割り当てる。そうでない場合、ジェスチャを拒否クラスに配置する。この方法により、閾値パラメータを管理することなく、拒否クラスを得ることが可能になる。
【0080】
図4は、本発明の一実施形態における、前処理手順の工程の一工程を示す図である。
【0081】
本発明の一実施形態で実施される、簡素化機能(SIMP)を含むサブサンプリングに関する前処理のこの態様は、先の説明過程で既に批評され、説明されている。
【0082】
図5は、DTWアルゴリズムを適用することによって、ジェスチャを表す信号を比較するための処理作業の実施を示す図である。
【0083】
信号のサンプル間のコストまたは距離は、以下で説明されるように計算される。
【0084】
SおよびTを、信号サンプルの2つの時間系列とする。ここで、Sは、例えば、測定信号であり、Tは、参照信号である。
S=s
1,s
2,...,s
i,...s
n
T=t
1,t
2,...,t
j,...t
m
【0085】
各サンプルに対する境界条件を固定する(開始日および停止日の一致)ことによって、系列SおよびTを配列し、n×mのグリッドを形成することができる。グリッド内の各ポイント(i,j)は、対(s
i,t
j)に相当する。グリッドは
図5に示される。参照信号の時間スケールにわたって測定信号のサンプルを変換するため、関数wは、グリッドのフィールドにわたって定義される。数個の関数wを定義することができる。この例は、特に、「Minimum Prediction Residual Principle Applied to Speech Recognition」−(Fumitada Ikatura、IEEE Transactions on Acoustics,Speech and Signal Processing、1975年2月)ならびに「Considerations in Dynamic Time Warping Algorithms for Discrete Word Recognition」−(L.R.Rabiner、A.E.RosenbergおよびS.Levinson、IEEE Transactions on Acoustics,Speech and Signal Processing、1978年12月)で見られる。
【0086】
こうして、第3の系列Wを以下のように定義することができる。
W=w(s
1),(w
2),...,w(s
k),...w(s
p)
【0087】
これは、類似度インジケータを最大にするか、または、2つのサンプル間の距離を最小にする、対(w(s
i),t
j)によって形成された経路を見出すことを含む。
【0088】
最小化問題を定式化するため、距離の計算に対していくつかの式を使用することができる。ここでの距離は、系列SとTのポイント間の距離の絶対値または前記ポイント間の距離の二乗:
δ(i,j)=|s
1−t
j|
または
δ(i,j)=(s
1−t
j)
2
である。
【0089】
また、残りの説明で見られるように、他の距離測定値を定義することもできる。全ての場合において最小化されるべき式は以下の通りである。
【数4】
【0090】
本発明の文脈では、値セットδ(s
i,t
j)は、DTWアルゴリズムの距離の行列と呼ばれ、DTW(S,T)の最小値に相当する値セット
【数5】
は、距離行列に通じる最小コスト経路と呼ばれる。
【0091】
図6は、第1の決定基準の変形形態による、本発明のジェスチャ認識システムの認識レベルを示す図である。
【0092】
この例示された例では、参照ジェスチャのデータベースは、数値を表すジェスチャを含む。ここでは、6人の異なるユーザが存在する。上記の説明で定義された絶対コストは、信号間の距離のインジケータとして使用される。
図6の曲線は、x軸上にプロットされたそれぞれのクラスにおける測定値の数の関数として、y軸上にプロットされた認識レベルを示す。3つの曲線はそれぞれ以下の通りである。
− 下部の曲線:ジャイロスコープの測定値のみが使用されている場合
− 中央の曲線:加速度計の測定値のみが使用されている場合
− 上部の曲線:両方のセンサからの測定値が使用されている場合
【0093】
センサを統合することによって、認識レベルを多少改善することが可能になる。
【0094】
図7Aおよび7Bはそれぞれ、第2の決定基準の変形形態による、本発明のジェスチャ認識システムの認識レベルおよび誤検出レベルを示す図である。
【0095】
この例示された例でも、参照ジェスチャのデータベースは、数値を表すジェスチャを含み、この場合もやはり、6人の異なるユーザが存在する。ただし、この場合は、上記の説明で定義された相対コストが、信号間の距離のインジケータとして使用される。
図7Aおよび7Bの曲線は、y軸上にプロットされたものはそれぞれ、x軸上にプロットされたそれぞれのクラスにおける測定値の数の関数として、認識レベルおよび誤検出レベルを表す。それぞれの図のさまざまな曲線は、1.1から1.5まで0.1ずつ変化する、拒否閾値を用いた測定値(
図7Aではボトムアップ方式および
図7Bではトップダウン方式)を表す(すなわち、クラスに対する例の相対コストがKより大きい場合、その例は、そのクラスに属さない)。
【0096】
標準偏差は小さく、性能レベルは同一であることから、認識システムが、異なるユーザに対して良好なロバスト性を有することが示される。さまざまな閾値に対する曲線間の偏差は、誤差数の低減が望まれる場合(
図7B)、信頼性のある閾値を取ることが必要とされることを示す。しかし、より低い決定レベルもある(
図7A)。この調整は、エンリッチメントモードで有用であり得る。すなわち、いかなる決定も下すことができない場合、データベースをエンリッチメントにするため、ユーザは、手動でクラスの数を入力するよう要求される。それは、誤動作を実行するよりむしろ、動作を実行しない方が好ましい場合は有益でもあり得る(例えば、ジェスチャが人の署名を識別する役割を果たす場合、この人が本当にその当人であることを確信せずにアプリケーションを開くよりむしろ、その人に再度署名させる方が良い)。
【0097】
図8Aおよび8Bはそれぞれ、第3および第4の決定基準の変形形態による、本発明のジェスチャ認識システムの認識レベルおよび誤検出レベルを示す図である。
【0098】
この例示された例でも、参照ジェスチャのデータベースは、数値を表すジェスチャを含み、この場合もやはり、6人の異なるユーザが存在する。ただし、この場合は、一方では、2つのセンサから得られたデータはマージされており(
図8Aの上部曲線および
図8Bの下部曲線)、他方では、センサ間での投票が使用されている(
図8Aの下部曲線および
図8Bの上部曲線)。その投票は誤検出レベルを改善するが、認識レベルを劣化させることを見ることができ、それによって、これらの2つの操作手順が実施される条件下では、その投票がマージよりも「厳しい」ことを示している。
【0099】
これらの例は、本発明の使用状況および優先性能タイプに応じて、複数の実施形態を提供する利益を示す。これらのさまざまな実施形態は、1つの同じシステム内に共存することができ、所与の瞬間の使用要件に従ってパラメータ化するソフトウェアによって起動することができる。
【0100】
本発明は、動作信号を捕獲するためのモジュールが接続される市販のコンピュータで難なく実施することができ、通常、前記信号を調節してコンピュータに送信するための手段を提供する。オフィスPCの中央作業処理装置のマイクロプロセッサは、本発明を実施するには十分である。上記のアルゴリズムを作動するソフトウェアは、以下をさらに含む適用可能なソフトウェアパッケージに組み込むことができる。
− 動作感知センサからの信号の捕獲、調節、および送信を実行する低レベルの機能を制御するためのライブラリ
− 機能を制御するためのモジュール(自動文字認識)および電子機器、楽器のセット、スポーツの訓練用シミュレーション、ゲームなどを制御するためのモジュール
【0101】
もちろん、中央作業処理装置の設計は、かなりの程度まで、システムの性能を決定する。設計は、適用可能なレベルでの予想性能に応じて選択されなければならない。処理時間の観点から、非常に高い性能制約の場合、当業者に公知の操作手順に従って、処理作業を並行して行うことを想定することができる。対象プロセッサおよび言語の選択は、かなりの程度まで、この性能要件およびコスト制約に依存する。
【0102】
また、低度の曖昧度を有する限定された数のジェスチャに対して、センサを身に付けた実体に認識アルゴリズムを組み込むこと、または、処理作業を局所的に実施することも考えられる。
【0103】
図9は、本発明の特定の実施形態において、傾向抽出および/または特徴抽出を使用したジェスチャ認識の場合に適用された処理作業のフローチャートである。
【0104】
特にデバイスを制御するために、ジェスチャが認識されなければならない特定の状況では、短時間で認識を実行することが重要である。したがって、ジェスチャのクラスとの比較のためのアルゴリズムの実行は、最適化されなければならない。この最適化を行う1つの方法は、
図9で説明される。第1の処理工程の目的は、無意味なジェスチャが存在する際に、アルゴリズムの実行を回避することである。
【0105】
この目的は、特に、連続した時間エピソードを分析し、これらのエピソードが、有意なジェスチャの特性と見なされる信号パラメータの変動を含む場合にのみ、比較モジュール230のアルゴリズムを実行することによって、達成される。傾向抽出モジュール910は、この処理工程を行うために前処理モジュール210と比較モジュール230との間に挿入される。この操作については、
図10と関連して、残りの説明で説明される。
【0106】
傾向抽出モジュールは、選択された1つまたは複数の前処理作業を適用する前にジェスチャを表す信号を間引きするために、前処理モジュール210の前に配置することができる。
【0107】
さらに、比較モジュールの実行を迅速化するため、可動中心アルゴリズムまたはK−平均アルゴリズム(k−means algorithm)タイプのアルゴリズムであり得る編成アルゴリズムを使用して参照ジェスチャ辞書のクラスを編成することは有利である。この種のアルゴリズムは、クラスをクラスタに編成し、その特徴的な量は、編成されたクラスの特徴的な量の平均値である。分類技法分野の当業者は、クラスタをアプリケーションに適したものとするための、この種の編成を実施する方法および特徴的な量を選択する方法を知っている。
【0108】
クラス編成モジュール920は、この目的で、本発明のシステムに挿入される。また、前記モジュールは、分析された信号において同じ量で、クラスタの特徴的な量のユークリッド距離を計算することによって、分析されたジェスチャを表す信号と前記クラスタとの第1の比較を行うことを可能にする。このモジュールの操作については、
図11と関連して、残りの説明で説明される。
【0109】
図10は、本発明の特定の実施形態における、傾向抽出の原理を示す図である。
【0110】
モジュール910の傾向抽出アルゴリズムは、信号から、開始の瞬間および停止の瞬間で特徴付けられた時間エピソードの系列、すなわち、エピソードの開始時および終了時の信号の値ならびに挙動についての経時的な記号情報(増加、減少または一定)を抽出する。アプリケーションにおいて、そのジェスチャを認識することが望まれる実体全体にわたって分布された複数の加速度計を使用する場合、傾向抽出は、同じ方向で動作を測定するセンサから来る全ての加速信号に適用することができる。これらの信号の1つの信号の傾向において新しいエピソードが検出されるごとに、例えばDTWタイプの比較アルゴリズムによる分析が、新しいエピソードが検出される前の期間Dの時間ウィンドウにわたる全ての前記信号に対して実施される。これにより、前記加速信号の1つにおいて著しい変動が検出される場合のみ、比較分析を開始することが可能になる。
【0111】
本発明の実施のために使用されるタイプの傾向抽出アルゴリズムは、次の刊行物の異なるアプリケーション文脈で説明されている。S.Charbonnier「On Line Extraction of Temporal Episodes from ICU High−Frequency Data:a visual support for signal interpretation」、Computer Methods and Programs in Biomedicine、78巻、115〜132頁、2005年ならびにS.Charbonnier、C.Garcia−Beltan、C.CadetおよびS.Gentil「Trends extraction and analysis for complex system monitoring and decision support」、Engineering Applications of Artificial Intelligence 18巻、1号、21〜36頁、2005年。
【0112】
この傾向抽出アルゴリズムは、{プリミティブ(primitive),[td,tf[,[yd,yf[}によって定義された一連の時間エピソードを抽出する。このプリミティブは、一定である、増加するまたは減少する可能性がある。[td,tf[は、信号の時間変動がプリミティブに続く時間間隔を表し、これらの値は、信号の挙動の変化が起こる瞬間に相当する。[yd,yf[は、エピソードの開始時および終了時の信号の値を表し、前記値は、信号の値の変化があるポイント、特に極値に相当する。
【0113】
図10は、ジェスチャ(ほぼ整列したクロスの連続)が行われている間に記録された5つの加速信号およびそれに対応して抽出された傾向(丸でつながれた実線の曲線)を示す。この例では、実体は、前後方向(front−rear)すなわち前後方向(antero−posterior)に実質的に同一線上にある5軸の加速度計で計装される。
【0114】
傾向抽出アルゴリズムは、3つのパラメータによって設定される。これらのパラメータの値は、加速信号が何であっても同じである。設定パラメータの1つは、それを超えると信号の変動が著しくなるレベルを定義する役割を果たす。これは「閾値_変動」と示される。ボクシングにおけるジェスチャを検出するアプリケーションに対して例示された例では、アルゴリズムは、0.6を超える振幅変動のみを検出するように設定される。傾向は、それほど高い精度では抽出されないが、これにより、小さな振幅変動を検出しないように、したがって、あまり頻繁にジェスチャの検出を起動しないようにすることが可能となる。
【0115】
図11は、本発明の特定の実施形態において、可動中心アルゴリズムを使用する原理を示す図である。この図は、参照ジェスチャ(白丸)および第1の3つの主要な構成要素の空間内に可動中心アルゴリズムによって形成されたクラスタのコア(黒丸)のデータベースを表す。傾向から抽出された信号波形の特性は、起こり得るジェスチャを決定する分類アルゴリズム(可動中心アルゴリズム)に提供される。次いで、比較アルゴリズム(例えば、DTWアルゴリズム)を使用して、学習データベースから得られる起こり得るジェスチャの信号と測定信号とを比較することによって、どのジェスチャが行われたか決定する。この分類の利点は、現行ジェスチャと比較されるべき、学習データベース内に存在するジェスチャの数を低減することである。
【0116】
この方法の原理は、以下の疑似コードによって説明される。Sを、分析するべき信号とする。この信号は、5つの前後方向の加速を含む[この例では、実体は、前後方向(front−rear)すなわち前後方向(antero−posterior)に実質的に同一線上にある5軸の加速度計で計装される]。X(j).Appを、ジェスチャが行われている間に記録された前後方向の加速信号の例を含むデータベースのファイルとする。
【0117】
学習作業を実施するには:
− ファイルX(j).Appの特性を抽出する
− 可動中心アルゴリズムを適用してK個のコアを得る。各コアに付随するものは、起こり得るジェスチャのリストである。
【0118】
ジェスチャを検出するには:
それぞれのサンプリング期間で、
For それぞれの加速信号:
傾向を抽出する
If 新しいエピソードが検出される
「分析されるべきジェスチャ」フラグを1に設定する
End If
End For
If 分析されるべきジェスチャ=1:
For それぞれの加速信号
エピソードが検出される前の期間の時間ウィンドウDにわたって特性を抽出する
End For
− 抽出され、その中心が決定され、低減された特性とK個のコアとの間のユークリッド距離を計算する
− 最も近いコアを選択して起こり得るジェスチャのリストを提案する(If 最も近いコアまでの距離が閾値距離よりも大きい 決定=0)
− 信号Sと起こり得るジェスチャのリストに相当する例X(j).Appとの間のDTW距離を計算する
If 距離が拒否閾値よりも大きい
決定=0
Otherwise
決定=k(kは、最短のDTW距離を有するファイルに付随するジェスチャの数)
End If
「分析されるべきジェスチャ」フラグを0に設定する
End If
End For
【0119】
有利には、信号Sと例X(j).Appとの間のDTW距離は、5回のサンプリング期間ごとに、平均化され、サブサンプリングされた信号から計算される。
【0120】
互いに近過ぎる2つの瞬間に2つの決定を行うことを防ぐため、待ち時間を導入することができる。決定は、新しいエピソードが加速信号の1つで検出される場合、および、先行する決定の後の時間が最小時間(待ち時間)を超える場合に下される。待ち時間は、50〜100のサンプリング期間、すなわち0.25〜0.5秒間で異なる場合があり、ここでのサンプリングは200Hzでのものである。待ち時間は、アルゴリズムが他の変数の挙動を考慮せずに1つの変数上でラインに沿って傾向を抽出するという事実を緩和するために導入され、すなわち、傾向抽出は同期化されない。したがって、2つの信号が相関する場合、アルゴリズムは、第1の信号に関する新しいエピソードを検出し、その後まもなく、事実上、同じ現象に相当する第2の信号に関するエピソードを検出することができる。待ち時間を導入することによって、第2の抽出を回避することができる。
【0121】
したがって、本発明の方法により、以下のことによって、比較機能(例えばDTWタイプ)上での呼出しの数を低減することが可能になる。
− 信号の時間的挙動における著しい変化が検出される場合にのみ呼び出す。
− 信号と比較されるべき学習データベース内のジェスチャの例の数を低減する。
【0122】
上記の例は、本発明の実施形態の例示を目的として提供されているが、以下の請求項で定義される発明の分野を決して制限するものではない。