特許6651388 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人　筑波大学の特許一覧

特許6651388ジェスチャモデリング装置、ジェスチャモデリング方法、ジェスチャモデリングシステム用のプログラム、およびジェスチャモデリングシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6651388

(24)【登録日】2020年1月24日

(45)【発行日】2020年2月19日

(54)【発明の名称】ジェスチャモデリング装置、ジェスチャモデリング方法、ジェスチャモデリングシステム用のプログラム、およびジェスチャモデリングシステム

(51)【国際特許分類】

G06F 3/01 20060101AFI20200210BHJP

G06F 3/0346 20130101ALI20200210BHJP

G06T 7/20 20170101ALI20200210BHJP

【ＦＩ】

G06F3/01 570

G06F3/0346 422

G06T7/20 300A

【請求項の数】4

【全頁数】24

(21)【出願番号】特願2016-43922(P2016-43922)

(22)【出願日】2016年3月7日

(65)【公開番号】特開2016-167268(P2016-167268A)

(43)【公開日】2016年9月15日

【審査請求日】2019年3月1日

(31)【優先権主張番号】特願2015-45162(P2015-45162)

(32)【優先日】2015年3月6日

(33)【優先権主張国】JP

(73)【特許権者】

【識別番号】504171134

【氏名又は名称】国立大学法人筑波大学

(74)【代理人】

【識別番号】100106909

【弁理士】

【氏名又は名称】棚井澄雄

(74)【代理人】

【識別番号】100188558

【弁理士】

【氏名又は名称】飯田雅人

(74)【代理人】

【識別番号】100169764

【弁理士】

【氏名又は名称】清水雄一郎

(72)【発明者】

【氏名】星野聖

(72)【発明者】

【氏名】浜松慶多

【審査官】池田聡史

(56)【参考文献】

【文献】特開２０１４−２３５６３４（ＪＰ，Ａ）

【文献】特開２０１４−０２９６５６（ＪＰ，Ａ）

【文献】特開２０１５−０３５１０３（ＪＰ，Ａ）

【文献】特開２０１５−０２２４８９（ＪＰ，Ａ）

【文献】国際公開第２０１２／１６９１３１（ＷＯ，Ａ１）

【文献】特開２０１３−０４２４１１（ＪＰ，Ａ）

【文献】特開２０１３−０４１１６６（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１２／０１１３２４１（ＵＳ，Ａ１）

【文献】浜松慶多, 星野聖，“深度センサを用いたつまみ動作認識による仮想造形システム”，平成24年度電子情報通信学会東京支部学生会研究発表会，２０１３年，p.45，[令和元年１１月２６日検索], インターネット <URL: https://www.ieice.org/tokyo/gakusei/activity/kenkyuu-happyoukai/happyou-ronbun/18/pdf/45.pdf>，ＵＲＬ，https://www.ieice.org/tokyo/gakusei/activity/kenkyuu-happyoukai/happyou-ronbun/18/pdf/45.pdf

【文献】福地健太郎ほか３名，“指をつまむジェスチャを認識するテーブルトップエンタテインメントシステム向け入力手法とその応用”，日本バーチャルリアリティ学会論文誌，日本，特定非営利活動法人日本バーチャルリアリティ学会，２０１０年６月３０日，第15巻, 第2号，pp.157〜164

【文献】 Andrew D. Wilson，“Robust Computer Vision-Based Detection of Pinching for One and Two-Handed Gesture Input”，UIST '06, Proceeding of the 19th annual ACM symposium on User interface software and technology, ACM, ACM Press，２００６年１０月１５日，［令和元年１１月２６日検索］, インターネット <URL: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/10/UIST-2006-TAFFI.pdf>，ＵＲＬ，https://www.microsoft.com/en-us/research/wp-content/uploads/2016/10/UIST-2006-TAFFI.pdf

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ３／０１

Ｇ０６Ｆ３／０３３

Ｇ０６Ｔ７／２０

(57)【特許請求の範囲】

【請求項1】

強度の平滑化を適用した深度画像を用いて手指の凹状領域を検出する検出部と、
前記検出部により検出された結果に基づいて、利用者のつまみ動作を認識する認識部と、
重回帰分析による指領域の平面近似を用いた指先の位置および／または手指の姿勢を定義することで利用者の操作を受け付ける制御部と
を備えることを特徴とするジェスチャモデリング装置。

【請求項2】

強度の平滑化を適用した深度画像を用いて手指の凹状領域を検出する処理と、
前記検出された結果に基づいて、利用者のつまみ動作を認識する処理と、
重回帰分析による指領域の平面近似を用いた指先の位置および／または手指の姿勢を定義することで利用者の操作を受け付ける処理とを含む
ジェスチャモデリング方法。

【請求項3】

情報処理装置のコンピュータに、
強度の平滑化を適用した深度画像を用いて手指の凹状領域を検出する処理と、
前記検出された結果に基づいて、利用者のつまみ動作を認識する処理と、
重回帰分析による指領域の平面近似を用いた指先の位置および／または手指の姿勢を定義することで利用者の操作を受け付ける処理と、を実行させる、
ジェスチャモデリングシステム用のプログラム。

【請求項4】

処理対象となる操作物体を表示する表示装置と、
強度の平滑化を適用した深度画像を用いて手指の凹状領域を検出する検出部と、
前記検出部により検出された結果に基づいて、利用者のつまみ動作を認識する認識部と、
重回帰分析による指領域の平面近似を用いた指先の位置および／または手指の姿勢を定義することで利用者の操作を受け付ける制御部と、
前記検出部で検出されて、前記制御部により定義された前記指先の位置および／または手指の姿勢の少なくとも一方の情報を用いて、前記表示装置に表示された前記操作物体に所定の処理を施す処理部と、
を備えるジェスチャモデリングシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ジェスチャモデリング装置、ジェスチャモデリング方法、ジェスチャモデリングシステム用のプログラム、およびジェスチャモデリングシステムに関する。

【背景技術】

【0002】

従来の３ＤＣＡＤや３Ｄモデリングソフトでは、使用する際に、２次元の入力機器であるコンピュータマウスを使って全ての操作を行う必要があったため、複雑な操作方法や専門的な知識がユーザに要求される。このため、複雑な操作方法や専門的な知識を有していないユーザが使用することは困難であった。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】福地健太郎, 佐藤俊樹, 間宮暖子, 小池英樹,“指をつまむジェスチャを認識するテーブルトップエンタテインメントシステム向け入力手法とその応用”,日本バーチャルリアリティ学会論文誌, Vol.15, No.2, pp.157-164, 2010

【非特許文献2】Andrew D. Wilson,“Robust Computer Vision-Based Detection of Pinching for One and Two-Handed Gesture Input”, UIST ’06, Proceeding of the 19th annual ACM symposium on User interface software and technology, ACM, ACM Press, pp.255-258, 2006

【発明の概要】

【発明が解決しようとする課題】

【0004】

ジェスチャ認識による入力インターフェースは、人間が現実世界で行うような動きを、特別な入力装置を介することなくコンピュータへ情報入力することを可能にする。具体的な例としては、指先認識による位置入力を採用しているものがある。しかし指先認識によるシステムは、指先の位置と手の姿勢の入力を直観的に行えるものであるが、マウスでいうところのクリック・ドラッグにあたるようなトリガ入力を付与するのは難しく、入力インターフェースとしては不適である。

【0005】

それに対して、物を片手でつまむ際の手の動作であるつまみ動作は、指先同士の接触の有無が２つの状態を示すものとして定めることにより、トリガ（オン、オフ）入力として適用できる。つまみ動作は、動作そのものが自然であり、その動作による指先の位置や手の姿勢（以下、単に「位置と姿勢」という。）とトリガ入力としてのオン、オフの入力とが独立に行える、オン、オフが明確に区別できる、などの利点を持つと考えられる。

【0006】

非特許文献２においては、デスクトップ環境でのＧＵＩ（Graphical User Interface）操作手法として、ＲＧＢカメラを用いたつまみ動作の認識手法を提案している。同手法は親指と示指で閉じられた内部領域の楕円近似を行い、その楕円の長短軸などの情報から位置と姿勢を検出している。しかし、姿勢の検出が相対的変化量のみであり、繊細な入力を行うには不向きである。

【0007】

非特許文献１においては、テーブルトップエンタテインメントシステムに向けたジェスチャ入力につまみ動作認識を用いており、ここで用いられる手法は指で閉じた内部領域の重心を位置入力の座標に、内部領域の重心と腕領域の重心を結んだ線を姿勢入力としている。同手法は複数人の同時使用を想定しているため処理速度が非常に速く、姿勢も絶対方向が検出できるが、ここで検出している姿勢は腕の方向を近似するものであり、指先の細かな動き対応するものではない。

【0008】

また、非特許文献１および非特許文献２における手法では、入力インターフェースとしてつまみ動作を認識する上で大きな問題が３つ存在する。１つ目は指で閉じられた内部領域の重心によって位置を定義している点である。指先の位置でなく内部領域の重心を入力座標とする場合、指先位置による入力と比較して、手指の繊細な動きを入力位置に反映させづらいため、結果として必要以上に手を大きく動かさなければならず、ユーザへの負担が大きくなる。

【0009】

２つ目はつまみ動作が行われていない場合の手指の状態を考慮していない点である。これは指先が接触していない状態では動作中の位置と姿勢の認識ができないことを意味する。指を接触させた状態にあるときの前後で位置の認識が為されない場合、ユーザは指を接触させるまでどの位置が入力として認識されるかを把握することができない。これにより、ユーザの意思が正確に反映された位置・姿勢でクリック・ドラッグ入力を行うことが困難になる。

【0010】

３つ目は２次元画像上での手指の位置・回転のみを認識しているため、手指の姿勢が３次元的に変化する場合に動作を認識できない点である。非特許文献１および非特許文献２においては、２次元画像上に指で囲まれた背景領域が存在するかどうかでつまみ動作の発生の有無を検出している。この内部領域は手の姿勢が変化すると掌や他の指によって背景が遮蔽されるため抽出が困難になる。上記の３つの問題は、ユーザが実際に空間上で行っている動作に対して、入力として認識される情報が不十分であることを意味する。実際の動作と認識される情報量の乖離はユーザに違和感を与え、入力インターフェースとしての直感性が損なわれる原因となる。

【0011】

本発明は上記問題に鑑みてなされたものであり、一人のユーザが両手のジェスチャを使ってモデリングを行ったり、複数人のユーザが協調して一つの造形作業をしたりすることができるようにすることができるジェスチャモデリング装置、ジェスチャモデリング方法、ジェスチャモデリングシステム用のプログラム、およびジェスチャモデリングシステムを提供することを目的とする。

【課題を解決するための手段】

【0012】

本発明は、強度の平滑化を適用した深度画像を用いて手指の凹状領域を検出する検出部と、前記検出部により検出された結果に基づいて、利用者のつまみ動作を認識する認識部と、重回帰分析による指領域の平面近似を用いた指先の位置および／または手指の姿勢を定義することで利用者の操作を受け付ける制御部とを備える。これにより、深度センサによって撮像された手指の画像からつまみ動作を認識し、３次元空間上での指先の位置及び手指の姿勢と、指先の接触の有無を同時に認識することが可能になる。

【発明の効果】

【0013】

本発明では、一人のユーザが両手のジェスチャを使ってモデリングを行ったり、複数人のユーザが協調して一つの造形作業をしたりすることができるようにすることができる。

【図面の簡単な説明】

【0014】

【図1】人間の手及び指により形成される閉空間を示す斜視図である。

【図2】画像の深度値を基準にして手領域と背景領域を２値化した場合における画像上での閉空間を示す図である。

【図3】本発明を適用したジェスチャモデリングシステムにおける構成例を示す斜視図である。

【図4】つまみ動作中の手指における指先の位置、手の姿勢、及び指先の接触の有無を示す図である。

【図5】フィルタリングの適用前後の深度値の様子を示す図である。

【図6】深度画像と、強度平滑化画像とを示す図である。

【図7】抽象深度勾配画像に対しマッチングを行うためのテンプレートを示す図である。

【図8】テンプレートマッチングによって手領域上の凹状領域を抽出する手順に対応した画像を示す図である。

【図9】凹状領域の輪郭線付近の手指の深度情報から手の指先付近の形状を３次元上の平面に近似することを説明する画像を示す図である。

【図10】手領域に対する指先の方向ベクトルを定めることを説明するための図である。

【図11】各手領域における凹状領域を説明するための図である。

【図12】凹状領域の統合について説明するための図である。

【図13】つまみ動作を利用した入力情報の構築を説明するための図である。

【図14】つまみ方の違いを識別し、異なる入力として利用する手法を説明するための図である。

【図15】人差し指が立っていると認識することを説明するための図である。

【図16】３次元入力インターフェースを利用した３ＤＣＧモデリングソフトウェアの様子と仮想空間内で物体を操作している様子を説明するための図である。

【図17】３次元入力インターフェースを利用した３ＤＣＧモデリングソフトウェアの様子と仮想空間内で物体を操作している様子を説明するための図である。

【図18】複数のユーザの協調作業を説明するための図である。

【図19】仮想の３Ｄ空間を示す図である。

【図20】サブジェクトごとの平均パフォーマンス時間を示す図である。

【図21】サブジェクトごとの平均パフォーマンス時間を示す図である。

【図22】手の本数と、処理速度のとの関係を示す図である。

【図23】ジェスチャモデリングシステムを使いジェスチャにより造形した３Ｄ形状の例を示す図である。

【図24】ジェスチャモデリングシステムを使いジェスチャにより造形した３Ｄ形状の例を示す図である。

【図25】実施形態のジェスチャモデリングシステムを示す構成図である。

【図26】認識部１５の構成を示す構成図である。

【図27】実施形態のジェスチャモデリングシステムによる認識処理の手順を示すフローチャートである。

【図28】実施形態のフィルタリング処理の手順を示すフローチャートである。

【図29】実施形態の手領域の抽出処理の手順を示すフローチャートである。

【図30】実施形態の勾配の算出処理の手順を示すフローチャートである。

【図31】実施形態の凹状領域の検出処理の手順を示すフローチャートである。

【図32】実施形態の指先の接触判定処理の手順を示すフローチャートである。

【図33】実施形態の重回帰分析による平面近似処理の手順を示すフローチャートである。

【図34】実施形態の指先位置及び手指の姿勢の推定処理の手順を示すフローチャートである。

【図35】実施形態の複数の手指の識別処理の手順を示すフローチャートである。

【図36】実施形態の指の抱え込みを含む手形状に対応する処理の手順を示すフローチャートである。

【図37】実施形態のつまみ動作を利用した入力情報の構築処理の手順を示すフローチャートである。

【図38】実施形態のつまみ動作を利用した入力情報の構築処理の手順を示すフローチャートである。

【発明を実施するための形態】

【0015】

以下、本発明を適用した実施形態について、図を適宜参照しながら詳細に説明する。なお、本発明は以下の実施形態に限定されるものではない。

【0016】

本発明は、以下に述べるようなつまみ動作における指先の形状と画像上の深度値の関係に着目する。人間が手でつまみ動作を行うために指を接触させた場合、図１のように指によって囲まれた閉空間１００が発生する。画像上でこのような閉空間を検出する時、つまみ方の違いや手指の姿勢の変化によって閉空間内に他の指や掌等が映りこむことがある。その場合、手領域と背景領域とを判別するために、撮像して得られた手領域と背景領域とを含む画像の２値化処理により得られる画像(以下、２値化画像という。)では、上記の閉空間を正確に検出することは難しい。

【0017】

そこで、本実施形態では、一例として画像の深度値を用いた検出処理について説明する。画像の深度値を基準にして手領域と背景領域とが含まれる領域を２値化した結果に基づいて得られる画像上での閉空間を図２に示す。図2における左側の列は、２つの手の姿勢(hand pose)を例示し、中央と右側の列は、例示した２つの手の姿勢をそれぞれ検出して得られた深度画像に、本実施形態による処理を適用した結果を示す。

【0018】

実施形態のジェスチャモデリングシステム１は、上記の問題を解消し、閉空間内の背景領域が手領域で遮蔽されている場合でも閉空間を検出する方法として、閉空間を深度上の窪みとして検出する。以下、その手法について述べる。ジェスチャモデリングシステム１は、閉空間が存在する画像の深度値に対して強度の平滑化を適用する。強度の平滑化とは、処理により得られる画像によって示される面の平滑性を増すようにする処理のことである。
閉空間が存在する画像の深度値に対して強度の平滑化を適用することにより、空間内の背景領域と手領域の細かな位置関係は無視され、閉空間は指周辺から閉空間の中央に向けてなだらかに深度が変化していくような凹状の窪みになる。

【0019】

図2における中央と右側の列に、上記の強度の平滑化を適用した画像を、判定閾値（thresholdＡ／thresholdＢ）が異なる条件で量子化（２値化）した結果を示す。中央の列の判定閾値（thresholdＡ）は、深度範囲が比較的狭くなるように決定されている。右側の列の判定閾値（thresholdＢ）は、深度範囲が比較的広くなるように決定されている。この画像の明るさは、深度を示し、明るいほど深度が浅く、暗いほど深度が深いことを示す。上記のように、判定閾値を調整することにより、指周辺から閉空間の中央に向けてなだらかに深度が変化していく凹状の窪みを識別可能な画像を得ることができる。

【0020】

この窪みは、２値化画像によって抽出される指で閉じられた内部領域とは違い、手指の形状や姿勢の変化による遮蔽の影響に対して堅牢で安定した画像として得ることができる特徴である。また、閉空間を２値化領域として検出する場合、指先が完全に接触した状態でなければ領域として検出ができなかった。これに対し、実施形態のジェスチャモデリングシステム１は、深度上の窪みとして検出することにより、窪みの発生が指先の接触の有無に依存しないため、つまみ形状の認識と指先の接触検出を独立して行うことができる。

【0021】

つまみ動作における手の姿勢を定義する上で、位置の入力として使用する指先以外の手指の形状と手首や腕の位置は排除すべき情報である。排除すべき情報を除いて、必要とされる情報を得るための方法として、指領域周辺の深度値を利用した重回帰分析を用いる。閉空間を形成する２本の指は輪の形状をしており、３次元空間上の平面で近似することで不必要な手指の情報等を排除し、一意の姿勢情報を安定して定義することができる。以上のことをふまえ、本発明では強度の平滑化を適用した深度画像を用いた手指の凹状領域検出によるつまみ動作の認識と、重回帰分析による指領域の平面近似を用いた指先の位置及び手指の姿勢を定義する。これにより、深度センサによって撮像された手指の画像からつまみ動作を認識し、３次元空間上での絶対的な指先の位置及び手指の姿勢と、指先の接触の有無を同時に認識することを実現する。また、本発明により、撮像されるのが右手と左手のどちらの手でも構わなくなる。さらには、検出対象が両手であったり、複数個の手であったりしても、これらを含むように撮像された画像から、これらを同時に認識できるようになる。それゆえ、一人のユーザが両手を使うジェスチャ造形システムや、複数人のユーザが一緒に共同作業できるジェスチャ造形システムが実現できるようになる。

【0022】

図２５を参照して、実施形態のジェスチャモデリングシステム１について、より具体的な構成の一例について説明する。図２５は、実施形態のジェスチャモデリングシステムを示す構成図である。ジェスチャモデリングシステム１は、モニター１１（表示装置）と、ジェスチャモデリング装置１２とを備える。
モニター１１は、各種情報を含む画像及びユーザの操作を検出した結果を示す画像を表示する。

【0023】

ジェスチャモデリング装置１２は、ＣＰＵと、ＲＯＭ（Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable and Programmable Read Only Memory）、ＨＤＤ（Hard Disk Drive）の不揮発性の記憶装置と、ＲＡＭ（Random Access Memory）レジスタ等の揮発性の記憶装置と、を含むコンピュータであり、実行するプログラムにより検出対象の深度画像に対する処理を実行する。ジェスチャモデリング装置１２は、深度センサ１３と、記憶部１４と、認識部１５と、制御部１６と、処理部１７とを備える。

【0024】

深度センサ１３は、ユーザの手を撮像する。例えば、深度センサ１３は、深度センサとして構成される。深度センサ１３をTOF（Time Of Flight）方式の深度センサとして構成した場合、例えば、320×240ピクセルの画像サイズの深度画像を最大６０［ｆｐｓ（frame per sec）］の速さで撮影可能である。深度センサ１３は、検出した深度画像を実時間で記憶部１４に順次書き込む。ジェスチャモデリングシステム１における演算装置への入力となる深度画像には、画素の位置情報が座標、奥行きが画素値で表現されている。

【0025】

記憶部１４は、ＲＯＭ、ＥＥＰＲＯＭ、ＨＤＤ等の不揮発性の記憶装置と、ＲＡＭレジスタ等の揮発性の記憶装置によって実現される。記憶部１４は、ジェスチャモデリングシステム１を機能させるためのプログラム、深度センサ１３による検出結果である深度画像、凹状領域及び凸状領域を抽出するためのテンプレート、及び、深度画像に基づいて生成される各種画像情報等を格納する。深度画像に基づいて生成される各種画像情報の詳細は後述する。

【0026】

認識部１５は、深度センサ１３により検出されたユーザの手の深度画像のデータを取得して、深度センサ１３により検出された結果に基づいて、ユーザのつまみ動作を認識する。

【0027】

図２６は、認識部１５の一例を示す構成図である。認識部１５は、フィルタリング部１５０１と、手領域抽出部１５０２と、抽象深度勾配画像生成部１５０３と、凹状領域検出部１５０４と、指先接触判定部１５０５と、平面近似部１５０６と、指先位置推定部１５０７と、手指姿勢推定部１５０８と、複数手指識別部１５０９と、手形状認識部１５１０と、入力情報構築部１５２０と、を備える。認識部１５の各部の詳細については後述する。

【0028】

制御部１６は、重回帰分析による指領域の平面近似を用いた指先の位置および／または手指の姿勢を定義することで利用者の操作を受け付ける。

【0029】

処理部１７は、制御部１６が受け付けた利用者の操作に基づいて、操作に対応付けられた所望の処理を実施する。例えば、処理部１７は、深度センサ―１３で検出されて、制御部１６により定義された指先の位置および／または手指の姿勢の少なくとも一方の情報を用いて、モニター１１に表示された操作物体に所定の処理を施すように構成してもよい。

【0030】

図３は、ジェスチャモデリングシステムの構成例を示す。図４は、検出対象のつまみ動作中の手指を示す。

【0031】

本発明を適用したジェスチャモデリングシステム１では、例えば、図３に示すように、モニター１１の上部に固定された１台の深度センサ１３を下向きに設置する。深度センサ１３は、深度センサ１３からの深度がその検出範囲にある手Ｈを、手Ｈの上方から撮像する。

【0032】

ジェスチャモデリングシステム１におけるジェスチャモデリング装置１２は、図４（ａ）および（ｂ）に示すように手Hの手指を検出し、その結果から、図４（ａ）および（ｂ）に示すような、つまみ動作中の手指における指先の位置（Ｐ）、手の姿勢（Ｄ、Ｎ）、及び指先の接触の有無（ＯＮ／ＯＦＦ）を、出力（Ｙ）として得る。なお、指先の位置を示すＰは、位置情報又はベクトルであり、手の姿勢を示すＤとＮは、ベクトルである。ジェスチャモデリングシステム１は、上記の指先の位置（Ｐ）、手の姿勢（Ｄ、Ｎ）、及び指先の接触の有無（ＯＮ／ＯＦＦ）を、線形に加算する式（１）により出力（Ｙ）を得るようにしてもよい。指先の位置（Ｐ）、手の姿勢（Ｄ、Ｎ）、及び指先の接触の有無（ＯＮ／ＯＦＦ）の算出方法については、後述する。

【0033】

Ｙ＝（Ｒ，Ｄ，Ｎ）＋（ＯＮ／ＯＦＦ）・・・（１）

【0034】

以下、本発明を適用したジェスチャモデリングシステム１における演算装置により実行される処理を説明する。図２７は、実施形態のジェスチャモデリングシステムによる認識処理の手順を示すフローチャートである。
ジェスチャモデリングシステム１は、フィルタリング処理（Ｓ１０）、手領域の抽出と抽象深度勾配画像の生成を実施する処理（Ｓ２０）、凹状領域の検出（Ｓ３０）、指先接触の判定処理（Ｓ４０）、重回帰分析による平面近似処理（Ｓ５０）、指先位置と手指の姿勢を推定する処理（Ｓ６０）、複数の手指の識別処理（Ｓ７０）、手形状の認識（Ｓ８０）、つまみ動作を利用した入力情報の構築（Ｓ９０）等の各処理を順に実施する。以下、上記の各処理の一例について、順に説明する。

【0035】

１．フィルタリング
深度センサ１３から直接取得できる画像の深度値には多量のノイズが発生しているので、ジェスチャモデリングシステム１は、事前処理として３種類のフィルタを重ねがけすることでノイズの除去と平滑化を行う。フィルタリングの適用前後の深度値の様子を図５に示す。

【0036】

図２８は、実施形態のフィルタリング処理の手順を示すフローチャートである。
ジェスチャモデリングシステム１のフィルタリング部１５０１は、一又は複数の手法のフィルタ処理を、一段又は複数段に分けて、深度センサ１３から取得した画像（図５（ａ））に適用して、その画像を平滑化して、図５（ｂ）に示すような連続した滑らかな面を示す画像を生成する。

【0037】

例えば、まず初めに、フィルタリング部１５０１は、深度センサ１３から取得した画像（図５（ａ））に対し２次元のメディアンフィルタを適用する（Ｓ１１）。例えば、メディアンフィルタのマスクサイズを、５×５ピクセルにする。このメディアンフィルタは３次元空間上にある対象物を示す値に対する局所的な外れ値をとる画像特有のショットノイズに対して大きなノイズ低減効果があるものにする。

【0038】

次に、フィルタリング部１５０１は、式（２）で表されるような適応型移動平均フィルタを、Ｓ１１のメディアンフィルタを適用した後の画像に適用してフィルタする（Ｓ１２）。

【0039】

ｙ［ｎ］＝αｙ［ｎ−１］＋（１−α）ｘ［ｎ］・・・（２）

【0040】

式（２）において、ｘ［ｎ］は入力深度値、ｙ［ｎ］は出力深度値、ｎはフレームの識別番号、αは０から１までの整数値（０≦α≦１）をとる係数である。フィルタリング部１５０１は、係数αを、画像に応じて、０から１までの範囲でフレーム毎に変動させてもよい。適応型移動平均フィルタでは、時間軸上のノイズを低減する。フィルタリング部１５０１は、時間軸上のノイズと見なせるような小さな変動を深度値が示す場合には、そのノイズの影響を低減するためにαの値を大きくして強い平滑化をかけ、画像の平滑化の程度を高める。フィルタリング部１５０１は、深度値が大きく変動した場合にはαの値を小さくして弱い平滑化をかけ、応答性を高めることで遅延を解消し、残像を抑える。例えば、フィルタリング部１５０１は上記の判定を、連続するフレーム間に生じた入力深度値ｘ［ｎ］の変化量に基づいて決定してもよい。フィルタリング部１５０１による適応型移動平均フィルタは、通常の移動平均と比較して保持する情報の段数が少なく、ｎフレームより１フレーム前のフレーム、すなわち（ｎ−１）フレームの情報のみであるためメモリ効率が高く、計算コストも低い。

【0041】

最後に、ジェスチャモデリングシステム１におけるフィルタリング部１５０１は、Ｓ１２の適応型移動平均フィルタ後の画像に対して、２次元のガウシアンフィルタを複数回、Ｓ１２の適応型移動平均フィルタ後の画像に対して、適用してフィルタする（Ｓ１３）。例えば、上記のガウシアンフィルタのマスクサイズを５×５ピクセルとし、そのフィルタを適用する回数を２回とする。これにより、フィルタリング部１５０１は、前述したメディアンフィルタと適応型移動平均フィルタのフィルタで除去しきれなかった面の細かな凹凸を、平滑化して連続した滑らかな面にする。図５（ｂ）は、その結果の画像の一例を示すものである。ガウシアンフィルタは、比較的大きなマスクサイズのフィルタであっても処理コストが比較的低いという特徴を有する。そのため、フィルタリング部１５０１は、ガウシアンフィルタを重ねがけしても、その処理コストがネックになることを抑制できる。

【0042】

２．手領域の抽出と抽象深度勾配画像の生成
図２９は、実施形態の手領域の抽出処理の手順を示すフローチャートであり、図３０は、実施形態の勾配の算出処理の手順を示すフローチャートである。
つまみ動作の検出に移る前に、ジェスチャモデリングシステム１の手領域抽出部１５０２は、手領域のシルエット画像と以下で述べる強度の平滑化をかけた画像の深度勾配を計算する（Ｓ２１）。手領域抽出部１５０２は、フィルタリング部１５０１によって１．のフィルタリングを施した画像（図５（ｂ））とは別に、上記のフィルタリングを施した画像にさらに２次元のガウシアンフィルタを複数回適用した、強度の平滑化画像である手領域のシルエット画像を生成する（Ｓ２２）。例えば、手領域抽出部１５０２は、上記のガウシアンフィルタのマスクサイズを１１×１１ピクセルとし、そのフィルタを適用する回数を８回とする。手領域抽出部１５０２は、ガウシアンフィルタのマスクサイズを、前述のガウシアンフィルタのマスクサイズに比べ演算対象範囲が広くなるように決定することにより、より平滑化の程度を高めることができる。

【0043】

以後、便宜上の区別のために通常のフィルタリングを適用したものを深度画像(図６（ａ）)、通常のフィルタリング後に追加の平滑化を施したものを強度平滑化画像(図６（ｂ）)と定義する。
次に、抽象深度勾配画像生成部１５０３は、この２種類の画像（図６（ａ）、図６（ｂ））に対し、２次元のScharrフィルタなどを用いてｘ方向の勾配およびｙ方向の勾配をそれぞれ計算する（Ｓ２３）。例えば、上記のScharrフィルタのマスクサイズを３×３ピクセルとする。抽象深度勾配画像生成部１５０３は、深度画像の方に対しては、２方向の勾配ベクトルの絶対値を勾配強度として計算する（Ｓ２３１）。そして、抽象深度勾配画像生成部１５０３は、画素の深度値および勾配強度がともに一定以内となる画素を２値化処理することで手領域のシルエット画像（強度平滑化画像）を作成する（Ｓ２３２、図６（ｃ）)。次に、抽象深度勾配画像生成部１５０３は、強度平滑画像に対しては２方向のベクトルから画像上での勾配方向を計算する（Ｓ２３３）。
次に、勾配画像生成部１５０３は、上記の勾配強度と勾配方向を含む情報を格納した画像を生成し、生成した画像を抽象深度勾配画像として定義する（Ｓ２４、図６（ｄ）)。

【0044】

３．凹状領域の検出
図３１は、実施形態の凹状領域の検出処理の手順を示すフローチャートである。
ジェスチャモデリングシステム１は、抽象深度勾配画像の勾配情報に基づいて、つまみ動作中の手領域に発生する凹状の窪みを抽出する。ジェスチャモデリングシステム１の凹状領域検出部１５０４は、抽象深度勾配画像に対し、図７のようなテンプレートを用いてマッチングを行う（Ｓ３１）。図７に示すテンプレートは、その中心を最も凹んだ地点とし、中心から放射状に遠のくほど、中心より高さが単調に高くなる勾配をモデル化したものである。例えば、その勾配のモデルは、注目画素を中心とする周辺の画素が、放射状の勾配を有する面に位置することを示す。ジェスチャモデリングシステム１は、図７に示すテンプレートを用いることにより、注目画素の周辺の複数の画素が放射状の勾配になっているかを判定する。例えば、注目画素の周辺の複数の画素は、同図に示すように中心から等距離にある８画素であってもよい。

【0045】

このテンプレートマッチングによって手領域上の凹状領域を抽出する手順に対応した画像を図８に示す。凹状領域検出部１５０４は、図８（ａ）に示す画像の全ての画素に対してマッチングを行った後、テンプレートに対する類似度の高い画素に対し複数の閾値で３値以上の階調を示す画像を得るように量子化する（Ｓ３２）。図８（ｂ）は、その結果を示す一例である。図８（ｂ）中の灰色が類似画素、白色がさらに高い類似画素である。
次に、凹状領域検出部１５０４は、この領域に対しオープニング処理を施し（Ｓ３３）、その後、灰色の類似画素が存在する領域をラベリング処理によって領域分けを行い、その領域中で白色の高い類似画素が存在する領域（高類似画素領域）のみを抽出する（Ｓ３４）。図８（ｃ）は、その結果を示す一例である。
次に、凹状領域検出部１５０４は、抽出された画素（図８（ｃ））の中で最も面積の大きな領域を検出し、その領域にガウシアン平滑化を後、凸包で領域抽出したものをつまみ動作による凹状領域と判断して、凹状領域を抽出する（Ｓ３５）。図８（ｄ）は、その結果を示す一例である。図８（ｄ）に示す、凹状領域は抽象深度勾配画像を元に検出されているので、つまみ動作において指同士が完全に接触する前の段階でも、凹状領域検出部１５０４は、つまみ動作における指同士の接触の検出が可能である。

【0046】

４．指先の接触判定
図３２は、実施形態の指先の接触判定処理の手順を示すフローチャートである。
ジェスチャモデリングシステム１の指先接触判定部１５０５は、凹状領域を利用して、指先の接触状態からつまみ動作の有無を検出する。例えば、指先接触判定部１５０５は、３．凹状領域の抽出において検出した凹状領域に対し、ガウシアン平滑化を行い（Ｓ４１）、ガウシアン平滑化を行った後、凸包によって凹状領域の輪郭線を抽出する（Ｓ４２）。次に、指先接触判定部１５０５は、２．手領域の抽出と抽象深度勾配画像の生成において生成した手のシルエット領域に輪郭線を重ね合わせる（Ｓ４３）。指先接触判定部１５０５は、輪郭線を形成する画素が全てシルエット領域上あるか否かを判定する（Ｓ４４）。指先接触判定部１５０５は、輪郭線を形成する画素が全てシルエット領域上ある場合、指が閉じていると判定する（Ｓ４５）。つまり、ジェスチャモデリングシステム１は、つまみ動作が発生していると判断する。逆に輪郭線が1画素でも手の領域外に存在する場合は、ジェスチャモデリングシステム１は、指が開いていて、つまみ動作が発生していないと判断する（Ｓ４６）。

【0047】

５．重回帰分析による平面近似
図３３は、実施形態の重回帰分析による平面近似処理の手順を示すフローチャートである。
手の姿勢を推定するために、ジェスチャモデリングシステム１の平面近似部１５０６は、３．凹状領域の抽出において述べた凹状領域（図９（ａ））の輪郭線付近の手指の深度情報から手の指先付近の形状を３次元空間上の平面に近似する。例えば、平面近似部１５０６は、輪郭線の画素とその画素の周辺８近傍の画素のうち、手領域上の画素を近似のサンプリング点として抽出し（Ｓ５１）、そのサンプリング点を以下の処理で使用する。この領域中の各画素は３次元座標を持った点群であり、最小二乗法を用いた重回帰分析によって点群を３次元空間上の平面１０３に近似することができる（図９（ｂ））。３次元空間上の平面は以下の式（３）により定義され、係数ａ、ｂ、ｃはｎ個のサンプリング点（ｘｉ、ｙｉ、ｚｉ）を元に式（４）に基づいて定義される。

【0048】

ｚ＝ａｘ＋ｂｙ＋ｃ・・・（３）

【0049】

【数1】

【0050】

平面近似部１５０６は、ｎ個のサンプリング点（ｘｉ、ｙｉ、ｚｉ）を元に式（４）に基づいて係数ａ、ｂ、ｃを決定し、式（３）に基づいて近似平面を算出する（Ｓ５２）。

【0051】

６．指先位置及び手指の姿勢の推定
図３４は、実施形態の指先位置及び手指の姿勢の推定処理の手順を示すフローチャートである。
ジェスチャモデリングシステム１は、５．重回帰分析による平面近似で求めた指領域周辺の近似平面１０３をもとに手指の３次元空間上の姿勢を定義する。３次元空間上の手の姿勢は近似平面１０３の法線ベクトルと近似平面１０３上の指先の位置によって一意に定められる。

【0052】

上記の３．凹状領域の検出において検出された凹状領域の輪郭周辺は、指の領域である。指先位置推定部１５０７は、近似平面である平面１０３上の凹状領域の輪郭周辺の指領域の中で、その幅が相対的に狭くなる位置を検出し、検出した位置を深度画像の凹状領域上の指先の位置として決定する（Ｓ６１）。具体的には、手指姿勢推定部１５０８は、凹状領域の輪郭線画素に対して、２．手領域の抽出と抽象深度勾配画像の生成において生成した強度平滑化画像と深度画像の差分値を計算する（Ｓ６１１）。そして手指姿勢推定部１５０８は、輪郭線上で差分値の二乗和の重心を求める（Ｓ６１２）ことで深度画像上での指先位置を定義する。平滑化画像の深度差分値で指領域の幅が相対的に狭くなる部分を検出できるのは、領域の幅が狭い部分と広い部分では、平滑化によって受ける周辺画素の深度値の影響が異なり、強度平滑化後の深度値の変化量に大きな差が生まれるためである。

【0053】

次に、ジェスチャモデリングシステム１は、３次元空間上において指先位置と手の姿勢を算出する（Ｓ６２）。例えば、手指姿勢推定部１５０８は、Ｓ６１において決定した深度画像の凹状領域における指先位置を、５．重回帰分析による平面近似で算出した近似平面１０３上に射影して、その位置を３次元空間上での指先位置として決定する。手指姿勢推定部１５０８は、前述の図９（ａ）と同様の凹状領域を含む画像（例えば、図１０（ａ））上での指先位置を近似平面１０３上に射影して、その位置を空間上での指先位置として算出し（Ｓ６２１）、同じようにして凹状領域の重心を近似平面１０３上に射影する（Ｓ６２２）。次に、手指姿勢推定部１５０８は、近似平面１０３上の指先位置と凸状領域の重心の２点から求められる３次元ベクトル１０４を、手領域に対する指先の方向ベクトルとして算出する(Ｓ６２３、図１０（ｂ）)。このベクトル１０４と近似平面１０３の法線ベクトルと３次元空間上で直交しているので、この２つを基底ベクトルとすることで空間上での手の姿勢は一意に定まる。このように、手指姿勢推定部１５０８は、３次元空間上における手の姿勢を推定して、３次元ベクトル１０４によってその姿勢を示す。

【0054】

７．複数の手指の識別
図３５は、実施形態の複数の手指の識別処理の手順を示すフローチャートである。
画像上で複数手指が撮像されている場合、３．凹状領域の検出の結果によるような凹状領域を、つまみ動作が行われている手指の本数分だけを適切に抽出する必要がある。以下、複数の手指で同時につまみ動作が行われている状態を示す画像から、複数の手指のつまみ動作による凹状領域をそれぞれ抽出する方法について述べる。

【0055】

まず、ジェスチャモデリングシステム１の複数手指識別部１５０９は、事前に２．手領域の抽出と抽象深度勾配画像の生成における手領域画像に対してラベリング処理を行い、領域ごとにラベルを割り当てる（Ｓ７１）。複数手指識別部１５０９は、３．凹状領域の検出により画像全体から凹状領域の候補となる領域（候補領域）を検出し（Ｓ７２）、その検出の後、その各領域が帰属している手領域のラベルをひとつ定める。例えば、各領域が帰属している手領域のラベルは、候補領域と手領域が重複する画素を走査し、その候補領域中で最も重複した画素の多い手領域のラベルを選択することで決定される。

【0056】

複数手指識別部１５０９は、全ての候補領域について、それぞれが帰属する手領域を求めた後、手領域ごとに帰属されている候補領域中で面積最大の領域を抽出し（Ｓ７３）、その領域を各手領域における凹状領域と定義する（図１１（ａ）〜（ｆ）)。また、複数手指識別部１５０９は、凹状領域が存在する手領域の数が、つまみ動作が行われている手の本数として算出する（Ｓ７４）。

【0057】

８．指の抱え込みを含む手形状への対応
図３６は、実施形態の指の抱え込みを含む手形状に対応する処理の手順を示すフローチャートである。
複数の凹状領域を同一の領域と見なすことで、人差し指と親指以外の指を手に抱え込んで動作を行う場合等でも、ジェスチャモデリングシステム１はつまみ動作の認識が行える。
この処理は組み込まれなくともつまみ動作の認識は可能であるが、組み込むことでより多くの形態のつまみ方に対応することができる。例えば、つまみ動作の多くの形態として、図４（ａ）に示したような片手の中指、薬指、小指を握らずに軽く曲げた状態にして、親指と示指とによるつまみ動作、図４（ｂ）に示したような片手の中指、薬指、小指を握り、親指と示指とによるつまみ動作などが挙げられる。上記は例示に過ぎず、上記以外の動作を検出対象の動作に決定してもよい。

【0058】

この処理において、手形状認識部１５１０は、抽象深度勾配画像上で抽出される凸状領域を使用する。凸状領域とは、凹状領域抽出の場合と同様の手法により、凸状領域を抽出するためのテンプレートを用いてマッチングをすることで抽出される領域のことである。例えば、手形状認識部１５１０は、凸状領域を抽出するためのテンプレートを用いた、テンプレートマッチングを実施して（Ｓ８１）、その結果に対する量子化処理を実施して（Ｓ８２）、凸状領域を抽出する（Ｓ８３）。そのテンプレートは、図７に示すテンプレートに対し、重みづけの値の大小を逆にしたものであり、凹部から凸部に向かう矢印の方向を逆向きにしたものである。なお、凸状領域はデプスマップ上における手の稜線を意味する。

【0059】

複数の凹状領域が同一の領域に含まれる場合であれば、凹状領域の候補となる各領域の間に、デプスマップ上における手の稜線を示す凸状領域が存在することはない。凹状領域を統合すべきか否かは、凹状領域の候補となる各領域が、主要な凸状領域を跨ぐか跨がないかで判定される。具体的な手順を以下に示す。

【0060】

まず、手形状認識部１５１０は、マッチングと２値化によって抽出された凸状領域に対してラベリング処理を行い（Ｓ８４）、前述の図１１（ｆ）のような面積が最大の凸状領域のみを抽出する（Ｓ８５）。この処理はつまみ動作中に輪を成した指における、その輪の稜線のみを抽出することを意図している。そして、現在のつまみ動作検出のアルゴリズムに沿って、凹状領域の候補から面積が最大の領域を抽出した後、手形状認識部１５１０は、面積が最大の領域の重心から各候補領域の重心へ線を引く（Ｓ８６）。
最後に、手形状認識部１５１０は、線上の各画素のうち、上記の最大凸状領域と重複する画素があるかないかを判定する（Ｓ８７）。重複画素がない(稜線を跨がない)場合、その候補領域は凹状領域と同一であると判定し、ラベリング番号を凹状領域と同じにして領域を統合する（Ｓ８８、図１２)。重複画素がある(稜線を跨ぐ)場合、その候補領域は凹状領域と異なる同一であると判定し、別の凹状領域として扱う（Ｓ８９)。

【0061】

９．つまみ動作を利用した入力情報の構築
つまみ動作を利用した入力情報の構築について説明する。
図３７は、実施形態のつまみ動作を利用した入力情報の構築処理の手順を示すフローチャートである。
つまみ動作認識で抽出できる独立した入力制御量のひとつとして、指で囲まれた輪の大きさを例示して、その入力制御量を利用するための第1の手法について述べる。画像上での輪の大きさは、深度センサ１３からの手Ｈの見え方が変化することによって、意図せずに変化してしまう。そこで、ジェスチャモデリングシステム１は、つまみ動作認識で定義される近似平面を利用することで、手Ｈの見え方の変化による影響を低減する。

【0062】

具体的には、ジェスチャモデリングシステム１の入力情報構築部１５２０は、凹状領域の輪郭線上の画素を、近似平面の座標に変換する（Ｓ９１）。次に、入力情報構築部１５２０は、変換した座標の高さ成分を除去して２次元データに変換する（Ｓ９２）。最後に、入力情報構築部１５２０は、輪郭線上の画素に対応する近似平面上の各点と近似平面の中心点との距離を求め（Ｓ９３）、その平均値を輪の大きさとする（図１３）。

【0063】

もうひとつ、つまみ方の違いを識別し、異なる入力として利用する第2の手法を述べる。
図３８は、実施形態のつまみ動作を利用した入力情報の構築処理の手順を示すフローチャートである。
この第２の手法を用いることで図１４に示すような通常のつまみ動作（図１４（ａ））と、図１５に示すような人差し指を立てたつまみ動作を識別できる。この違いは、指が接触した時の凹状領域の輪郭線１０５（図１４（ｂ）、（ｃ）および図１５（ｂ）、（ｃ））の状態によって判断する。

【0064】

具体的には、入力情報構築部１５２０は、凹状領域の輪郭線上の各画素に対して、隣り合う両隣の輪郭線画素との深度差を計算する（Ｓ１９１）。例えば、人差し指を立てている場合、人差し指と中指の根元付近に段差ができる。入力情報構築部１５２０は、その段差を、先ほどの深度差によって検出する。例えば、入力情報構築部１５２０は、先ほどの深度差が一定以上の値をとる画素が存在するか否かを判定する（Ｓ１９２）。

【0065】

入力情報構築部１５２０は、先ほどの深度差が一定以上値をとる画素が存在する場合、人差し指が立っていると認識する（Ｓ１９３、図１５（ａ））。一方、入力情報構築部１５２０は、先ほどの深度差が第１閾値以上の値をとる画素が存在しない場合、人差し指が親指に接触していると認識する（Ｓ１９４、図１４（ａ））。

【0066】

なお、Ｓ１９２の判定の際に、指先付近の画素が深度差のある画素として検出されることがある。これに対し、入力情報構築部１５２０は、６．指先位置及び手指の姿勢の推定において求めた平滑化差分の値が第２閾値以上の値をとる画素を除外することで、指先付近の画素が抽出されることを防ぐ。なお、第２閾値は、上記の第１閾値より大きな値にするとよい。

【0067】

以上の判定で、ジェスチャモデリングシステム１は、指先接触時に摘み動作の違いを識別できる。この識別によって、通常のつまみ形状の場合はＡの動作、人差し指が立った状態の形状ではＢの動作などの切り替えを、アプリケーション上で実現できる。

【0068】

次に、本発明における実施例として、３次元入力インターフェースを利用した３ＤＣＧモデリングソフトウェアの様子と仮想空間内で物体を操作している様子を以下に示す。図１６は、３次元入力インターフェースを利用した３ＤＣＧモデリングソフトウェアの様子と仮想空間内で物体を操作している様子を説明するための図である。モニター１１には、３次元表示されたキャラクターが表示されている。ジェスチャモデリングシステム１は、ユーザの手Ｈの動きを検出して、このキャラクターの動作を制御する。

【0069】

図１７は、３次元入力インターフェースを利用した３ＤＣＧモデリングソフトウェアの様子と仮想空間内で物体を操作している様子を説明するための図である。同図には、突出した部分と凹みを有する球体が表示されている。同図は、球体から突出した部分の先端を、球体に設けられた凹みに挿入するという操作を行う場合の表示画面を例示するものである。

【0070】

また、複数人のユーザが協調して一つの造形作業をする様子を以下に示す。図１８は、複数のユーザの協調作業を説明するための図である。ジェスチャモデリングシステム１は、各ユーザの手Ｈと、その手Ｈが示すつまみ動作とを検出する。ジェスチャモデリングシステム１によれば、８人程度のユーザの協調作業であるならば、処理速度を落とさずに、すなわち単位時間に処理するフレーム数を、リアルタイム処理に適した６０［ｆｐｓ］を維持したままで実行できる。

【0071】

［評価］
（被験者実験）
本発明における入力インターフェースとしての有用性を評価するために、被験者による比較実験を行った。各被験者にはジェスチャモデリングシステム１を用いた本発明による入力方法と既存の入力デバイス（比較例）による入力方法の２種類の方法で同じ作業を行ってもらい、その作業時間を計測する。比較例となる入力デバイスには3Dconnexion社の３Ｄマウス(SpaceNavigator)を用いる。比較例の入力デバイスは３ＤＣＡＤや３Ｄモデリングソフトで使用されることがその利用方法として想定された専用デバイスであり、位置・姿勢の６自由度を同時に入力することができるものである。

【0072】

実験では、被験者の前に設けられたモニター１１の画面上に表示された仮想空間上の物体を操作し、定められた位置・姿勢に、その物体を設置するという作業を、被験者に繰り返し行わせた。モニター１１の画面上には図１９のような仮想の３次元空間が表示され、その仮想の３次元空間中に動作物体と半透明な目標物体とが表示されている。本発明による入力方法では、被験者は動作物体の方を、つまみ動作によるドラッグアンドドロップの操作で操作して、動作物体の位置および姿勢を目標物体に合わせる。比較例による３Ｄマウスによる入力方法ではスティック操作により、相対的に位置および姿勢を調整する操作を入力する。

【0073】

以上の本発明と比較例の２種類の方法で動作物体を操作した場合を比較する。動作物体を操作する場合、動作物体の位置と姿勢が目標物体の位置と姿勢に合うことで作業が完了され、次の目標物体が現れる。この物体合わせの作業を３回行い、その合計時間を計測する。これを１セットの試行とし、被験者には本発明と比較例の２種類の入力方法でそれぞれ３０セットずつこの試行を行なってもらう。目標物体の位置および姿勢はランダムに出題されるが、３０セットの試行で出題される９０回分の目標物体は、２種類の入力方法で同じ問題が同じ順番で出題される。また、被験者間でも出題される問題は同じで、被験者は全員、本発明による入力方法での実験を先に行い、３Ｄマウスでの実験は後に行っている。この実験を２０代の被験者１０名（男性７名、女性３名）に対して行った。

【0074】

（実験結果）
サブジェクト（ＳｕｂｊｅｃｔＡからＳｕｂｊｅｃｔＪ）として示す被験者１０名による実験の結果を図２０および図２１に示す。図２０と図２１は、サブジェクト（被験者）ごとの平均パフォーマンス時間（performance time）を示す図である。双方の図に示すように、多くの被験者で３Ｄマウスによる入力方法（Ｍｏｕｓｅ）よりも提案手法による入力方法（Ｐｉｎｃｈ）の方が、平均作業時間が短くなることが確認された。２種類の入力における平均作業時間でt検定を行ったところ、入力方法の違いによる有意差（ｐ＜０．０５）が認められ、本発明による入力方法によって作業時間が短縮できることが確認できた。

【0075】

全体の傾向としては、同一被験者では作業時間の平均は、３Ｄマウスによる入力方法よりも本発明による入力方法の方が短くなる傾向があり、作業時間の分散は、３Ｄマウスによる入力方法よりも本発明による入力方法の方が少なくなる傾向がある。なお、上記の傾向と異なる傾向を示す被験者も存在した。また、入力方法による作業時間の違いよりも、被験者間での作業時間の違いが大きく現れた。これは、今回の実験のような作業においては、入力方法の違いよりも作業内容への適応に個人差が大きく影響したためと思われる。

【0076】

（認識性能及び処理速度）
本発明において同時に認識可能である手の本数とその時の認識処理速度を計測した結果を図２２に示す。図２２は、手の本数（number of hands）と、処理速度（processing speed）との関係を示す図である。認識処理に使用したCPUはIntel社製Corei7-3770K (3.50GHz)である。計測の結果、一台の深度センサ１３で最大２５本の手指の動作を同時に認識できることが確認でき、その場合の処理速度は３５［ｆｐｓ］であった。また、手指が１つの場合の最高処理速度は１０６［ｆｐｓ］であった。センサの撮像速度は６０［ｆｐｓ］なので、図２２より、同時に認識される手指が９本までは認識速度を全く低下させることなく、つまみ動作を認識することができる。一台の深度センサ１３で複数の手指の動作を同時に認識する処理の詳細は、前述の図１８を参照する。

【0077】

複数の手指の動作を同時に認識できるということは、単純に、一度に入力できる情報量が増えることにつながり、一台のデバイスでは実現できない複雑な入力操作を行えるようになり、インターフェースとしての有用性が高いものであることを意味する。また、複数人で同時に認識できるためユーザ間でのインタラクションシステムに応用することも容易になる。図２３（ａ）、（ｂ）、（ｃ）および（ｄ）と、図２４（ａ）、（ｂ）、（ｃ）および（ｄ）は、ジェスチャモデリングシステム１を使いジェスチャにより造形した３Ｄ形状の一例を示したものである。

【0078】

以上のように、本発明は、仮想的な３次元空間での入力操作を行うためのジェスチャインターフェースとして手指のつまみ動作に着目し、非接触のセンサによるつまみ動作の認識手法を提案した。

【0079】

従来の画像上でのつまみ動作検出には、指先位置を検出できないこと、位置と姿勢の認識が指先の接触時のみに限られること、手指の姿勢の変化に対して認識が不安定になること、空間上での絶対的な姿勢を検出できないこと等の問題が存在した。

【0080】

この問題を解消するために、本発明のジェスチャモデリングシステム１は、つまみ動作における指先の形状と画像上での深度値の関係性に着目し、強度の平滑化を適用した深度画像を用いた手指の凹状領域検出によるつまみ動作の認識と、重回帰分析による指領域の平面近似を用いて指先の位置及び手指の姿勢を定義する。これにより、ジェスチャモデリングシステム１は、３次元上での位置と姿勢情報が入力できるので、複雑な操作や専門知識がなくとも、現実世界で粘土細工や工作をするのと同じ感覚で簡単に３次元コンピュータグラフィックス（３ＤＣＧ）等の作成ができる。

【0081】

また、ジェスチャモデリングシステム１は、つまみ動作の映像から指先の接触状態が取得できるので、マウスのクリックボタンのようなオン、オフのスイッチ入力が行なうことができる。これによって、ジェスチャモデリングシステム１は、マウスドラッグやマウスオーバー等の入力が実現でき、マウスで行なえる作業は全て手のジェスチャによって行なうことができる。

【0082】

さらに、ジェスチャモデリングシステム１は、複数の手指が映った映像から別々に手を認識し、同時に複数の手によるつまみ動作を認識することができる。これにより、ジェスチャモデリングシステム１は、両手を使った作業が可能なアプリケーションの構築や、複数人で使用するゲームアプリケーションへの利用が容易に行なえる。

【0083】

なお、上述したとおり、１０名の被験者に仮想的な３次元空間上での物体操作による作業を、本発明による入力インターフェースと既存デバイスの２種類の方法で行わせる実験を行い、その作業時間を比較することで本発明を評価した。実験の結果、平均作業時間において入力方法の違いによる本発明の有意性が認められ、本発明によって作業時間が短縮できることを示した。また、本発明では９本の手指を６０［ｆｐｓ］以上の処理速度で、最大２５本の手指を３０［ｆｐｓ］以上の処理速度で同時に認識できた。このことは、本発明によれば、一人のユーザが両手を使う手指ジェスチャ造形のみならず、複数人のユーザが一緒に共同作業できる手指ジェスチャ造形が実現できることを示唆している。

【0084】

さらに、ジェスチャモデリングシステム１によれば、以下の効果も奏する。
（１）深度センサ（デプスカメラ）１台で撮像された手指の映像から、３次元的な指先の位置・手指の姿勢、指先の接触によるオン、オフのトリガ入力を正確に取得できる。
（２）つまみ動作という、日常で慣れ親しんだ指先動作により、３次元物体操作やＣＧモデリング等のアプリケーションに利用することができる。
（３）１台のセンサで両手の動作を認識できることから、片手で物体を持ち、もう片手で道具を持って作業行なう等、現実世界と同等の感覚で作業ができる。
（４）１台の深度センサで複数の手を認識できることから、多人数で行なうインタラクティブなゲーム等のアプリケーションに利用することができる。
（５）指の輪のよる入力やつまみ方の違いの識別と複数手指の認識を組み合わせることで、多量の独立した入力情報を構築できるため、マウスやキーボード等の補助を一切必要とせずに様々なアプリケーションの操作が行なえる。

【0085】

以上、本発明の好ましい実施の形態について詳述したが、本発明は特定の実施の形態に限定されるものではなく、特許請求の範囲内に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【産業上の利用可能性】

【0086】

本発明が活かされる用途としては、（１）ジェスチャによる３Ｄモデリングソフト、３ＤＣＡＤ、（２）複数人よるインタラクティブなゲームアプリケーション、（３）街頭などでデジタルサイネージを操作するための非接触な入力インターフェース等が挙げられる。特に（１）では、３次元空間上の絶対位置として入力できる高精度な指先位置入力や両手を使った作業が実現できるため、アプリケーション側の対応によっては他に類を見ないアプリケーションが構築可能で、産業上の用途は爆発的に拡大される。現状の実装レベルでも、以下に例示するように繊細な３Ｄモデル（図２３および図２４）も製作可能である。

【符号の説明】

【0087】

１…ジェスチャモデリングシステム、１１…モニター、１２…ジェスチャモデリング装置、１３…深度センサ、１４…記憶部、１５…認識部、１６…制御部、１７…処理部、１００…閉空間、１０３…近似平面、１０４…ベクトル、１０５…輪郭線

【図1】