特許6021901 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ マイクロソフト　テクノロジー　ライセンシング，エルエルシーの特許一覧

特許6021901指認識および追跡システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2
3
4
5
6
8
9
11A
11B
12
13
15
16
19A
19B
7
10
14
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6021901

(24)【登録日】2016年10月14日

(45)【発行日】2016年11月9日

(54)【発明の名称】指認識および追跡システム

(51)【国際特許分類】

G06T 7/20 20060101AFI20161027BHJP

G06T 7/00 20060101ALI20161027BHJP

【ＦＩ】

G06T7/20 300A

G06T7/00 200C

【請求項の数】17

【全頁数】32

(21)【出願番号】特願2014-514524(P2014-514524)

(86)(22)【出願日】2012年6月4日

(65)【公表番号】特表2014-524070(P2014-524070A)

(43)【公表日】2014年9月18日

(86)【国際出願番号】US2012040741

(87)【国際公開番号】WO2012170349

(87)【国際公開日】20121213

【審査請求日】2015年6月3日

(31)【優先権主張番号】61/493,850

(32)【優先日】2011年6月6日

(33)【優先権主張国】US

(31)【優先権主張番号】13/277,011

(32)【優先日】2011年10月19日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】314015767

【氏名又は名称】マイクロソフトテクノロジーライセンシング，エルエルシー

(74)【代理人】

【識別番号】100140109

【弁理士】

【氏名又は名称】小野新次郎

(74)【代理人】

【識別番号】100075270

【弁理士】

【氏名又は名称】小林泰

(74)【代理人】

【識別番号】100101373

【弁理士】

【氏名又は名称】竹内茂雄

(74)【代理人】

【識別番号】100118902

【弁理士】

【氏名又は名称】山本修

(74)【代理人】

【識別番号】100153028

【弁理士】

【氏名又は名称】上田忠

(74)【代理人】

【識別番号】100120112

【弁理士】

【氏名又は名称】中西基晴

(74)【代理人】

【識別番号】100196508

【弁理士】

【氏名又は名称】松尾淳一

(74)【代理人】

【識別番号】100147991

【弁理士】

【氏名又は名称】鳥居健一

(74)【代理人】

【識別番号】100119781

【弁理士】

【氏名又は名称】中村彰吾

(74)【代理人】

【識別番号】100162846

【弁理士】

【氏名又は名称】大牧綾子

(74)【代理人】

【識別番号】100173565

【弁理士】

【氏名又は名称】末松亮太

(74)【代理人】

【識別番号】100138759

【弁理士】

【氏名又は名称】大房直樹

(72)【発明者】

【氏名】アムブルス，アンソニー

(72)【発明者】

【氏名】リー，キョンスク・デーヴィッド

(72)【発明者】

【氏名】キャンベル，アンドリュー

(72)【発明者】

【氏名】ヘイリー，デーヴィッド

(72)【発明者】

【氏名】マウント，ブライアン

(72)【発明者】

【氏名】ロブルズ，アルバート

(72)【発明者】

【氏名】オズボーン，ダニエル

(72)【発明者】

【氏名】ライト，ショーン

(72)【発明者】

【氏名】シャルカシ，ナヒル

(72)【発明者】

【氏名】ヒル，デイヴ

(72)【発明者】

【氏名】マカロック，ダニエル

【審査官】真木健彦

(56)【参考文献】

【文献】特開平０５−０１９９５７（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１０／０１６６２５８（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１１／００２５６８９（ＵＳ，Ａ１）

【文献】特開２００７−１３４９１３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１０／０３０３２８９（ＵＳ，Ａ１）

【文献】特表２０１３−５００７７１（ＪＰ，Ａ）

【文献】特開２０１０−０７２８４０（ＪＰ，Ａ）

【文献】 O.Ben Henia，A Two-step Minimization Algorithm For Model-Based Hand Tracking，WSCG 2010 FULL Papers Proceedings，CZ，EUROGRAPHICS，２０１０年２月１日，P.189-196

【文献】平川幹和子，シルエット画像からの手形状認識，テレビジョン学会技術報告Ｖｏｌ．２０Ｎｏ．２７，日本，社団法人テレビジョン学会，１９９６年５月２１日，VIS 96-49 (May. 1996)，P.15-20，ISSN 0386-4227

【文献】島田伸敬，三次元モデルを用いた二次元動画像からの手指姿勢の推定，電子情報通信学会技術研究報告Ｖｏｌ．９４Ｎｏ．５０，日本，社団法人電子情報通信学会，１９９４年５月１９日，PRU94-4 (1994-05)，P.25-32

【文献】中山太一郎，Ｃａｍｅｒａ−ＢａｓｅｄＯＣＲを組み合わせた投影型書類アノテーション，画像ラボ 2007.7，日本，日本工業出版株式会社，２００７年７月１日，第18巻第7号，P.60-63，ISSN 0915-6755

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｔ７／００ − ７／６０

Ｇ０６Ｔ１／００

ＧｏｏｇｌｅＳｃｈｏｌａｒ

(57)【特許請求の範囲】

【請求項1】

１本以上の指を含むユーザーの手のモデルを生成する方法であって、
（ａ）センサーと相互作用しているユーザーの位置を表す位置データを受け取るステップであって、前記位置データが、前記ユーザーの手を表す深度データおよび画像データの内少なくとも１つを含む、ステップと、
（ｂ）前記位置データにおいて、前記ユーザーの手を特定するために前記位置データを分析するステップと
を含み、前記ステップ（ｂ）が、
（ｂ）（１）前記位置データを前記手のデータに区分するために、前記ステップ(ａ）において取り込んだ前記位置データから深度データを分析するステップと、
（ｂ）（２）１つ以上のフィルターを前記ステップ（ｂ）（１）において特定した前記手の画像データに適用することによって、１組の特徴記述子を抽出するステップであって、前記１つ以上のフィルターが、前記手の形状および向きを含む前記手の特徴を識別するために、前記手の境界形状に基づき前記手の境界の外側の画像データと比較して、前記手の画像データを分析する、ステップと
を含む、方法。

【請求項2】

請求項１記載の方法であって、前記検知メカニズムを介してコマンドを受け取るアプリケーションを実行するステップと、前記ステップ（ｂ）において特定した前記手の位置に基づいて、前記アプリケーションにおいて制御動作に作用させるステップとを更に含む、方法。

【請求項3】

請求項１記載の方法であって、前記検知メカニズムを介してコマンドを受け取るゲーム・アプリケーションを実行するステップと、前記ステップ（ｂ）において特定した前記手の位置に基づいて、前記ゲーム・アプリケーションにおいて動作に作用させるステップとを更に含む、方法。

【請求項4】

請求項１記載の方法において、前記ステップ（ｂ）（１）が、最良の手の候補を突き止めるために、前記画像データから構成した重心を分析するステップを含む、方法。

【請求項5】

請求項４記載の方法において、前記ステップ（ｂ）（１）が、更に、前記最良の手の候補を分析して、最良の手の中心の候補を決定するステップを含む、方法。

【請求項6】

請求項１記載の方法において、前記ステップ（ｂ）（２）が、画素分類フィルター(pixel classifier)を適用するステップを含み、
該ステップが、
前記手の形状記述子の境界内において画素を選択するステップと、
各画素の周囲に所定のサイズのボックスを形成するステップであって、各前記ボックスを、前記形状記述子の平面内に形成するステップと、
前景点と背景点との間で前記画像データが移行する、各ボックスとの交点を判定するステップと、
調べる画素毎に、各ボックスの前記交点を分析することから、手および指を特定するステップと、
を含む、方法。

【請求項7】

請求項１記載の方法において、前記ステップ（ｂ）（２）が、湾曲分析フィルターを適用するステップを含み、
該ステップが、
前記手の形状記述子の境界に沿って画素を選択するステップと、
選択した画素の周囲にある複数の画素を調べて、周囲にある画素の内、どれがまた前記形状記述子の境界に沿っているかを示す値を、前記選択した画素に割り当てるステップと、
前記値を、角度と、ピークおよび谷を含む、前記手の周囲の輪郭とに変換するステップと、
前記ピークの内どれが、前記手の指を表すか判断するステップと、
を含む、方法。

【請求項8】

請求項１記載の方法において、前記ステップ（ｂ）（２）が、ヒストグラム・フィルターを適用するステップを含み、該ステップが、
前記形状識別子における複数の点と前記画像データを取り込むデバイスとの間の距離のヒストグラムを形成するステップを含む、方法。

【請求項9】

１本以上の指を含むユーザーの手のモデルを生成するシステムであって、当該システムが、計算デバイスに動作可能に結合されている検知メカニズムを含み、当該システムが、
画像データおよび深度データの内少なくとも１つを含む受信データから、ユーザーの骨格の少なくとも一部を認識する骨格認識エンジンと、
身体の１つ以上の領域を、前記ユーザーの手を表す領域に区分する画像区分エンジンと、
１本以上の指を含む手と、該手の向きとを表すデータを抽出する記述子抽出エンジンと
を備えており、
前記記述子抽出エンジンが、前記手を表す領域にある画素を分析する複数のフィルターを適用し、前記複数のフィルターにおける各フィルターが、前記手の境界形状に基づいて前記手の位置および向きを判定し、前記記述子抽出エンジンが、前記手の位置および向きの最良の推定値に到達するために、各フィルターの結果を組み合わせる、システム。

【請求項10】

請求項９記載のシステムにおいて、前記記述子抽出エンジンの前記複数のフィルターが、前記手の位置および向きを、前記受信したデータを取り込むデバイスに対するシルエットとして特定するように最適化された１つ以上のフィルターを含む、システム。

【請求項11】

請求項９記載のシステムにおいて、前記記述子抽出エンジンの前記複数のフィルターが、前記受信したデータを取り込むデバイスに向かって、または該デバイスから離れて指し示されたときに、前記手の位置および向きを、特定するように最適化された１つ以上のフィルターを含む、システム。

【請求項12】

請求項９記載のシステムにおいて、前記記述子抽出エンジンの前記複数のフィルターが、前記検知メカニズムに対するシルエットとして手を分析する分類エンジンを含み、前記分類エンジンが、前記ユーザーの手を表す領域内にある画素を選択し、各画素の周囲に所定のサイズのボックスを形成し、各ボックスが、前記シルエットの平面内に形成され、前記画像データが前景点と背景点との間で移行する、各ボックスとの交点を判定し、調べる画素毎に各ボックスの交点を分析することから、手および指を特定する、システム。

【請求項13】

請求項１２記載のシステムにおいて、２つの交点がボックス上で特定され、前記交点間の距離が手の平を表すには小さすぎるときに、前記分類エンジンが、指先を表す重心を特定する、システム。

【請求項14】

請求項１３記載のシステムにおいて、ボックスの同じ辺または異なる辺上における前記２つの交点の位置が、前記特定した指先の向きを示す、システム。

【請求項15】

請求項１２記載のシステムにおいて、４つの交点がボックス上で特定されるときに、前記分類エンジンが、指を表す重心を特定する、システム。

【請求項16】

請求項１２記載のシステムにおいて、２つの交点がボックス上で特定され、前記交点間の距離が指先を表すには大きすぎるときに、前記分類エンジンが、手の平を表す重心を特定する、システム。

【請求項17】

請求項１２記載のシステムにおいて、所与の画素の周囲に形成された前記ボックスが、第１サイズを有する第１ボックスであり、前記分類エンジンが、更に、前記第１サイズよりも大きい第２サイズを有する第２ボックスを有する第２ボックスを前記所与の画素の周囲に形成して、前記手の指が相互にある場合の条件を検出する、システム。

【発明の詳細な説明】

【技術分野】

【0001】

[0001] これまで、コンピューター・ゲームおよびマルチメディア・アプリケーションというような計算アプリケーション(computing application)は、コントローラー、リモコン、キーボード、マウス等を用いて、ユーザーがアプリケーションのゲーム・キャラクタまたはその他の態様を操作することを可能にしていた。更に最近になって、コンピューター・ゲームおよびマルチメディア・アプリケーションは、カメラやソフトウェア・ジェスチャー認識エンジンを採用して、自然(natural)ユーザー・インターフェース（「ＮＵＩ」）を提供し始めている。ＮＵＩによって、生の関節データやユーザーのジェスチャーを検出し、解釈し、そしてアプリケーションのゲーム・キャラクタまたはその他の態様を制御するために用いられる。

【発明の概要】

【発明が解決しようとする課題】

【0002】

[0002] ＮＵＩシステムの課題の１つは、画像センサーの視野内において人を区別し、その視野内における手および指を含む彼または彼女の身体部分の位置を正しく特定することである。腕、脚、頭、および胴体を追跡するルーチンは周知である。しかしながら、ユーザーの手の微妙な詳細や多様な位置を考えると、従来のシステムは、指および手の位置を含むユーザーの身体を満足できるように認識および追跡を行うことができない。

【課題を解決するための手段】

【0003】

[0003] 本明細書において開示するのは、手および指の位置を含むユーザーの骨格関節(skeletal joints)を、ＮＵＩシステムによって認識および追跡する方法である。例としては、手および指の位置の追跡は、ＮＵＩシステムによって、画面上におけるオブジェクトを選択する、係合する(engage)、または掴んで引きずるというようなイベントを誘起するために用いることができる。本技術によって、手および指の位置ならびに動き(motion)を認識し追跡するために種々の他のジェスチャー、制御動作、およびアプリケーションを実施可能にすることができる。ユーザーの手および指の状態を判定することによって、ユーザーのＮＵＩとの対話処理性(interactivity)を高めることができ、一層簡単で直感的なインターフェースをユーザーに提示することができる。

【0004】

[0004] 一例では、本開示は、１本以上の指を含むユーザーの手のモデルを生成する方法に関する。この方法は、（ａ）センサーと相互作用しているユーザーの位置を表す位置データを受け取るステップであって、この位置データが、ユーザーの手を表す深度データおよび画像データの内少なくとも１つを含む、ステップと、（ｂ）位置データにおいて、ユーザーの手を特定するために位置データを分析するステップとを備えている。前記ステップ（ｂ）は、（ｂ）（１）位置データを手のデータに区分するために、ステップ(ａ）において取り込んだ位置データから深度データを分析するステップと、（ｂ）（２）１つ以上のフィルターをステップ（ｂ）（１）において特定した手の画像データに適用することによって、１組の特徴記述子を抽出するステップであって、１つ以上のフィルターが、手の形状および向きを含む手の特徴を識別するために、手の境界の外側の画像データと比較して、手の画像データを分析する、ステップを含む。

【0005】

[0005] 他の例では、本開示は、自然ユーザー・インターフェースのために、１本以上の指を含むユーザーの手のモデルを生成するシステムに関する。このシステムは、画像データおよび深度データの内少なくとも１つを含む受信データから、ユーザーの骨格の少なくとも一部を認識する骨格認識エンジンと、身体の１つ以上の領域を、ユーザーの手を表す領域に区分する画像区分エンジンと、１本以上の指を含む手と、この手の向きとを表すデータを抽出する記述子抽出エンジンとを備えており、この記述子抽出エンジンが、手を表す領域にある画素を分析する複数のフィルターを適用し、複数のフィルターにおける各フィルターが、手の位置および向きを判定し、記述子抽出エンジンが、手の位置および向きの最良の推定値に到達するために、各フィルターの結果を組み合わせる。

【0006】

[0006] 他の例では、本開示は、変調データ信号で構成されているのではないコンピューター読み取り可能記憶媒体に関する、このコンピューター読み取り可能記憶媒体は、自然ユーザー・インターフェースのために、１本以上の指を含むユーザーの手のモデルを生成する方法を実行するようにプロセッサーをプログラミングするコンピューター実行可能命令を有する。前述の方法は、（ａ）自然ユーザー・インターフェースと対話処理するユーザーの画像データを受け取るステップと、（ｂ）画像データにおいて手を特定するために、画像データを分析するステップと、（ｃ）ユーザーが、以下の既定の手のジェスチャーまたは制御動作の内１つを実行したか否か判断するために、特定した手の画像データを、既定の手の位置と比較するステップであって、既定のジェスチャーが、（ｃ）（１）ユーザーの指で数える、（ｃ）（２）「ＯＫ」ジェスチャーを行う、（ｃ）（３）仮想ボタンの作動、（ｃ）（４）手の親指および１本の指で挟む、（ｃ）（５）書くまたは描く、（ｃ）（６）スカルプトする(scuplting)、（ｃ）（７）操る、(ｃ)（８）ノブまたは組み合わせ錠を回す、(ｃ)（９）銃を撃つ（ｃ）（１０）はじくジェスチャーを行う、（ｃ）（１１）仮想空間にわたってスクロールしナビゲートするために、開いた手の平上で指を用いることができるジェスチャーを行う、（ｃ）（１２）仮想キャラクタの脚部を制御するために、指をはさみの動きのように動かすことを含む、ステップを備えている。

【0007】

[0007] この摘要は、詳細な説明の章において以下で更に説明する概念から選択したものを簡略化された形式で紹介するために、設けられている。この摘要は、特許請求する主題の主要な特徴や必須の特徴を特定することを意図するのではなく、特許請求する主題の範囲を判断するときに補助として使用されることを意図するのでもない。更に、特許請求する主題は、本開示において、いずれかの欠点を解決する実施態様や全ての欠点を解決する実施態様がいずれの部分に記されていても、これらに限定されない。

【図面の簡単な説明】

【0008】

【図1A】図１Ａは、目標認識、分析、および追跡システムの一実施形態例を示す。

【図1B】図１Ｂは、目標認識、分析、および追跡システムの他の実施形態例を示す。

【図1C】図１Ｃは、目標認識、分析、および追跡システムの更に他の実施形態例を示す。

【図2】図２は、目標認識、分析、および追跡システムにおいて用いることができるキャプチャー・デバイスの一実施形態例を示す。

【図3】図３は、人間の目標物を表すために用いられる身体モデル例を示す。

【図4】図４は、人間の目標物を表すために用いられる骨格モデル例の実質的な正面図を示す。

【図5】図５は、人間の目標物を表すために用いられる骨格モデル例を歪ませた図を示す。

【図6】図６は、本技術の一実施形態にしたがって目標物を追跡するパイプラインのフローチャートを示す。

【図7】図７は、本開示の一実施形態にしたがってユーザーの手の状態を判定する方法例を示す。

【図8】図８は、本開示の一実施形態による画像区分エンジンの動作のフローチャートである。

【図9】図９は、本開示の一実施形態による画素分類フィルターの動作のフローチャートである。

【図10】図１０は、本開示の一実施形態による画素分類フィルターの動作の判断ツリーである。

【図11A】図１１Ａは、本開示の一実施形態による、画素分類フィルターを用いた指先識別を示す。

【図11B】図１１Ｂは、本開示の一実施形態による、画素分類フィルターを用いた指先識別を示す。

【図12】図１２は、本開示の一実施形態による、画素分類フィルターを用いた指先識別を示す。

【図13】図１３は、本開示の一実施形態による、画素分類フィルターを用いて特定した手の一部を示す。

【図14】図１４は、本開示の一実施形態による、画素分類フィルターを用いた手および指識別を示す。

【図15】図１５は、本開示の一実施形態による湾曲分析フィルターの動作のフロー図である。

【図16】図１６は、本開示の一実施形態による、湾曲分析フィルターを用いた手および指識別を示す。

【図17】図１７は、本開示の一実施形態による、深度ヒストグラム・フィルターを用いた、手開閉分析(open and closed hand analysis)を示す。

【図18】図１８は、ハンド・フィルター(hand filter)に基づいて手の位置を分類するスーパーバイザー・フィルターのフロー図である。

【図19A】図１９Ａは、目標認識、分析、および追跡システムにおいて１つ以上のジェスチャーを解釈するために用いることができる計算環境の一実施形態例を示す。

【図19B】図１９Ｂは、目標認識、分析、および追跡システムにおいて１つ以上のジェスチャーを解釈するために用いることができる計算環境の他の実施形態例を示す。

【発明を実施するための形態】

【0009】

[0030] これより、図１Ａから図１９Ｂを参照しながら本技術の実施形態について説明する。図１Ａから図１９Ｂは、全般的に、ＮＵＩシステムにおける画像センサーによって取り込まれた、ユーザーの手および指のハンド・モデル(hand model)を含む、目標ユーザーのコンピューター・モデルを生成するパイプラインに関するものである。このコンピューター・モデルは、取り込まれた画像データの１フレーム毎に１回生成することができ、フレーム取り込みの間における、ユーザーの姿勢を含む、最良の位置推定値を表す。フレーム毎に生成したハンド・モデル(hand model)は、ゲーミング・アプリケーションまたはその他のアプリケーションによって、ユーザーのジェスチャーおよび制御行為(action)というような事項を判定するために用いることができる。また、ハンド・モデルをパイプラインにフィードバックし、今後のモデル判定に役立てることもできる。

【0010】

[0031] まず最初に、図１Ａから図２を参照すると、本技術を実現するハードウェアは、目標認識、分析、および追跡システム１０を含む。このシステム１０は、ユーザー１８のような人間の目標物を認識、分析、および／または追跡するために用いることができる。目標認識、分析、および対駅システム１０の実施形態は、ゲーミング・アプリケーションまたはその他のアプリケーションを実行する計算環境１２を含む。計算環境１２は、ゲーミング・アプリケーションおよびゲーム以外のアプリケーションというようなアプリケーションを実行するために計算環境１２を用いることができるように、ハードウェア・コンポーネントおよび／またはソフトウェア・コンポーネントを含むことができる。一実施形態では、計算環境１２は、標準的なプロセッサー、特殊プロセッサー、マイクロプロセッサー等を含むことができ、このプロセッサーは、本明細書において説明するプロセスを実行するために、プロセッサー読み取り可能記憶デバイスに格納されている命令を実行することができる。

【0011】

[0032] 更に、システム１０は、キャプチャー・デバイスによって検知された１人以上のユーザーおよび／またはオブジェクトに関する画像およびオーディオ・データを取り込むキャプチャー・デバイス２０も含む。実施形態では、キャプチャー・デバイス２０は、身体および手の動き(movement)および／またはジェスチャー、ならびに１人以上のユーザーの音声に関する情報を取り込むために用いることができ、この情報は、計算環境によって受け取られ、ゲーミング・アプリケーションまたはその他のアプリケーションの態様(aspects)をレンダリングする、これらと対話処理する、および／またはこれらを制御するために用いられる。計算環境１２およびキャプチャー・デバイス２０の例については、以下で更に詳しく説明する。

【0012】

[0033] 目標認識、分析、および追跡システム１０の実施形態は、ディスプレイ１４を有するオーディオ／ビジュアル（Ａ／Ｖ）デバイス１６に接続することができる。デバイス１６は、例えば、テレビジョン、電話機、コンピューター用モニター、高品位テレビジョン（ＨＤＴＶ）等であってもよく、ゲームまたはアプリケーションの映像および／または音響をユーザーに供給することができる。例えば、計算環境１２は、グラフィクス・カードのようなビデオ・アダプター、および／またはサウンド・カードのようなオーディオ・アダプターを含むことができ、これらのアダプターはゲームまたはその他のアプリケーションに関連するオーディオ／ビジュアル信号を供給することができる。Ａ／Ｖデバイス１６は、計算環境１２からオーディオ／ビジュアル信号を受け取ることができ、次いでこのオーディオ／ビジュアル信号に関連するゲームまたはアプリケーションの映像および／または音響をユーザー１８に出力することができる。一実施形態によれば、オーディオ／ビジュアル・デバイス１６は、例えば、Ｓ−ビデオ・ケーブル、同軸ケーブル、ＨＤＭＩ（登録商標）ケーブル、ＤＶＩケーブル、ＶＧＡケーブル、コンポーネント・ビデオ・ケーブル等を通じて、計算環境１２に接続することができる。

【0013】

[0034] 実施形態では、計算環境１２、Ａ／Ｖデバイス１６、およびキャプチャー・デバイス２０は、協働してアバターまたは画面上のキャラクタ１９をディスプレイ１４上にレンダリングすることができる。例えば、図１Ａは、サッカー・ゲーミング・アプリケーションをプレーしているユーザー１８を示す。このユーザーの動きを追跡し、アバター１９の動きをアニメ化する(animate)ために用いる。実施形態では、アバター１９は実世界空間におけるユーザー１８の動きを模擬するので、ユーザー１８は、ディスプレイ１４上においてアバター１９の動き(movement)および行為(action)を制御する動きおよびジェスチャーを行うことができる。

【0014】

[0035] 先に説明したように、骨格マッピング・システムのような動き推定ルーチンは、例えば、ユーザーの手の動きというような、ユーザーの微妙なジェスチャーを検出する能力に欠けることがある。例えば、ユーザーが、図１Ｂに示すように、彼または彼女の手によってユーザー・インターフェース２１全体をスクロールして制御することによって、ＮＵＩシステム１０と対話処理することを望む場合もあり得る。あるいは、ユーザーが、例えば、図１Ｃにおいて２３および２５として示すように、彼女の手を開くおよび／または閉じることによって、種々のジェスチャーを行おうとする場合もあり得る。

【0015】

[0036] したがって、本明細書において以下で説明するシステムおよび方法は、ユーザーの手の状態を判定することを対象とする。例えば、手を閉じるおよび開く動作は、画面上にあるオブジェクト、例えば、オブジェクト２７（図１Ｃ）を選択する、係合する、または掴んで引きずるというようなイベントを誘起するために、このようなシステムによって用いることができる。これらの行為は、本技術以外では、コントローラーを用いるときであれば、ボタンを押すことに対応するであろう。このようなコントローラー不要の細かな対話処理は、手を振る行為やホバリングする(hovering)行為に基づく手法が直感的でなく煩わしい場合もあるので、その代わりに用いることができる。種々の他のジェスチャー、制御動作、およびアプリケーションも、本技術によって、手の動きを認識し追跡するために実施可能にすることができる。これらの一部について以下で更に詳しく説明する。以下で説明するようにユーザーの手の状態を判定することによって、ユーザーのシステムとの対話処理性を高めることができ、一層簡単で直感的なインターフェースをユーザーに提示することができる。

【0016】

[0037] 図１Ａおよび図１Ｂは、床、椅子、および植物というような静止した背景オブジェクト２３を含む。これらは、キャプチャー・デバイス２０によって捉えられる視野（ＦＯＶ）内にあるオブジェクトであるが、フレーム毎に変化しない。図示する床、椅子、および植物に加えて、静止オブジェクトは、キャプチャー・デバイス２０内にある撮像カメラによって捉えられるいずれのオブジェクトでもよい。この場面内にある追加の静止オブジェクトには、あらゆる壁、天井、窓、ドア、壁の飾り等を含むことができる。

【0017】

[0038] システム１０およびそのコンポーネントに適した例が、以下の同時係属中の特許出願において見いだせる。これらの特許出願の全ては、ここで引用したことによって、具体的に本願にも包含するものとする。２００９年５月２９日に出願され"Environment and/or Target Segmentation"（環境および／または目標物区分）と題する米国特許出願第１２／４７５，０９４号、２００９年７月２９日に出願され"Auto Generating a Visual Representation"（視覚表現の自動生成）と題する米国特許出願第１２／５１１,８５０号、２００９年５月２９日に出願され"Gesture Tool"（ジェスチャー・ツール）と題する米国特許出願第１２／４７４，６５５号、２００９年１０月２1日に出願され"Pose Tracking Pipeline"（姿勢追跡パイプライン）と題する米国特許出願第１２／６０３，４３７号、２００９年５月２９日に出願され"Device for Identifying and Tracking Multiple Humans Over Time"（ときの経過と共に複数の人間を識別および追跡するデバイス）と題する米国特許出願第１２／４７５，３０８号、２００９年１０月７日に出願され"Human Tracking System"（人間追跡システム）と題する米国特許出願第１２／５７５,３８８号、２００９年４月１３日に出願され"Gesture Recognizer System Architecture"（ジェスチャー認識システムのアーキテクチャー）と題する米国特許出願第１２／４２２，６６１号、および２００９年２月２３日に出願され"Standard Gesture"（標準的なジェスチャー）と題する米国特許出願第１２／３９１，１５０号。

【0018】

[0039] 図２は、目標認識、分析、および追跡システム１０において用いることができるキャプチャー・デバイス２０の一実施形態例を示す。一実施形態例では、キャプチャー・デバイス２０は、例えば、飛行時間、構造化光、ステレオ画像等を含む、いずれかの適した技法によって、深度値を含む深度画像を有するビデオを取り込むように構成することができる。一実施形態によれば、キャプチャー・デバイス２０は、計算した深度情報を「Ｚレイヤー」に編成することができる。即ち、深度カメラからその見通し線に沿って延びるＺ軸に対して垂直であることができるレイヤーに編成することができる。ＸおよびＹ軸は、Ｚ軸に対して垂直であると定義することができる。Ｙ軸は垂直であり、Ｘ軸は水平であるとよい。Ｘ，Ｙ，Ｚ軸は、併せて、キャプチャー・デバイス２０によって取り込まれる３−Ｄ実世界空間を定める。

【0019】

[0040] 図２に示すように、キャプチャー・デバイス２０は、撮像カメラ・コンポーネント２２を含むことができる。一実施形態によれば、撮像カメラ・コンポーネント２２は、場面の深度画像を取り込むことができる深度カメラであるとよい。深度画像は、取り込んだ場面の二次元（２−Ｄ）画素エリアを含むことができ、この２−Ｄ画素エリアにおける各画素が、取り込まれた場面におけるオブジェクトの長さまたはオブジェクトのカメラからの距離というような深度値、例えば、センチメートル、ミリメートル等の単位で表すことができる。

【0020】

[0041] 図２に示すように、一実施形態例によれば、撮像カメラ・コンポーネント２２は、ＩＲ発光素子２４、三次元（３−Ｄ）カメラ２６、およびＲＧＢカメラ２８を含むことができ、これらは場面の深度画像を取り込むために用いることができる。例えば、飛行時間分析では、キャプチャー・デバイス２０のＩＲ発光素子２４は、場面に向けて赤外線光を放出することができ、次いでセンサー（図示せず）を用いて、その場面の中にある１つ以上の目標物およびオブジェクトの表面からの後方散乱光を、例えば、３Ｄカメラ２６および／またはＲＧＢカメラ２８を用いて検出することができる。

【0021】

[0042] 実施形態の中には、パルス状赤外線光を用いて、出射光パルスと対応する入射光パルスとの間の時間を測定し、キャプチャー・デバイス２０から場面内にある目標物またはオブジェクト上における特定の場所までの物理的距離を判定するために、この時間を用いることができるようにするとよい場合がある。加えて、他の実施形態例では、出射光波の位相を入射光波の位相と比較して、位相ずれを判定することもできる。次いで、位相ずれを用いて、キャプチャー・デバイス２０から目標物またはオブジェクト上の特定の場所までの物理的距離を判定することができる。

【0022】

[0043] 他の実施形態例によれば、飛行時間分析を用いて、例えば、散乱光パルス撮像(shuttered light pulse imaging)を含む種々の技法によって、経時的な光の反射ビームの強度を分析することにより、キャプチャー・デバイス２０から目標物またはオブジェクト上の特定の場所までの物理的距離を間接的に判定することもできる。

【0023】

[0044] 他の一実施形態例では、キャプチャー・デバイス２０は、構造化光を用いて深度情報を取り込むことができる。このような分析では、パターン光（即ち、格子パターン、縞模様パターンのような既知のパターンとして表示される光）を、例えば、ＩＲ発光素子２４によって場面に向けて投射する。場面における１つ以上の目標物またはオブジェクトの表面に衝突したときに、パターンが、それに応答して、変形することができる。このようなパターンの変形を、例えば、３Ｄカメラ２６および／またはＲＧＢカメラ２８によって取り込むことができ、次いで分析して、キャプチャー・デバイス２０から目標物またはオブジェクト上における特定の場所までの物理的距離を判定することができる。

【0024】

[0045] 他の実施形態によれば、キャプチャー・デバイス２０は、２つ以上の物理的に分離されたカメラを含むことができ、これらが異なる角度から１つの場面を捕らえて、視覚的な立体像を得て、これを解明することによって深度情報を生成することができる。他の実施形態例では、キャプチャー・デバイス２０は、ポイント・クラウド・データ(point cloud data)および目標ディジタル化技法を使用して、ユーザーの特徴を検出することもできる。更に他の実施形態では、例えば、ｘ，ｙ，ｚ軸を検出することができる超音波システムのような、他のセンサー・システムも用いることができる。

【0025】

[0046] 更に、キャプチャー・デバイス２０は、マイクロフォン３０を含むこともできる。マイクロフォン３０は、音響を受けて電気信号に変換する変換器またはセンサーを含むことができる。一実施形態によれば、マイクロフォン３０は、目標認識、分析、および追跡システム１０においてキャプチャー・デバイス２０と計算環境１２との間におけるフィードバックを減らすために使用することができる。加えて、マイクロフォン３０は、計算環境１２によって実行することができる、ゲーム・アプリケーション、ゲーム以外のアプリケーション等のようなアプリケーションを制御するために、ユーザーが供給することもできるオーディオ信号を受け取るために用いることもできる。

【0026】

[0047] 一実施形態例では、キャプチャー・デバイス２０は、更に、撮像カメラ・コンポーネント２２と動作可能に通信することができるプロセッサー３２も含むことができる。プロセッサー３２は、命令を実行することができる標準的なプロセッサー、特殊プロセッサー、マイクロプロセッサー等を含むことができる。これらの命令には、深度画像を受け取り、この深度画像に適した目標物が含まれ得るか否か判定を行い、適した目標物をその目標物の骨格表現またはモデルに変換する命令、またはあらゆる他の適した命令を含むことができる。

【0027】

[0048] 更に、キャプチャー・デバイス２０は、メモリー・コンポーネント３４も含むことができる。メモリー・コンポーネント３４は、プロセッサー３２が実行することができる命令、３−ＤカメラまたはＲＧＢカメラが取り込んだ画像または画像のフレーム、あるいは他のいずれかの適した情報、画像等を格納することができる。一実施形態例によれば、メモリー・コンポーネント３４は、ランダム・アクセス・メモリー（ＲＡＭ）、リード・オンリー・メモリー（ＲＯＭ）、キャッシュ、フラッシュ・メモリー、ハード・ディスク、または他のいずれかの適した記憶コンポーネントを含むことができる。図２に示すように、一実施形態では、メモリー・コンポーネント３４は、撮像カメラ・コンポーネント２２およびプロセッサー３２と通信可能な別個のコンポーネントであってもよい。他の実施形態によれば、メモリー・コンポーネント３４をプロセッサー３２および／または撮像カメラ・コンポーネント２２に統合してもよい。

【0028】

[0049] 図２に示すように、キャプチャー・デバイス２０は、通信リンク３６を介して計算環境１２と通信することができる。通信リンク３６は、例えば、ＵＳＢ接続、Ｆｉｒｅｗｉｒｅ接続、イーサネット（登録商標）・ケーブル接続等のような有線接続、および／またはワイヤレス８０２．１１ｂ，ｇ，ａ，ｎ接続のいずれかのようなワイヤレス接続であってもよい。一実施形態によれば、計算環境１２は、クロックをキャプチャー・デバイス２０に通信リンク３６を介して供給することができ、このクロックは、例えば、いつ場面を取り込むべきか判断するために用いることができる。

【0029】

[0050] 加えて、キャプチャー・デバイス２０は、例えば、３−Ｄカメラ２６および／またはＲＧＢカメラ２８によって取り込まれた深度情報および画像も供給することができる。これらのデバイスの補助によって、本技術にしたがって、部分的な骨格モデルを作り出し、結果的に得られたデータを計算環境１２に通信リンク３６を介して供給する。

【0030】

[0051] 更に、計算環境１２は、以下に説明するようにジェスチャーを認識するジェスチャー認識エンジン１９０も含むことができる。本システムによれば、計算環境１２は、更に、骨格認識エンジン１９２、画像区分エンジン１９４、記述子抽出エンジン１９６、および分類エンジン１９８も含むことができる。これらのソフトウェア・エンジンの各々について、以下に更に詳しく説明する。

【0031】

[0052] 図３は、骨格認識エンジン１９２によって生成された身体モデル例の非限定的な視覚表現を示す。身体モデル７０は、モデル化した目標物（例えば、図１Ａおよび図１Ｂからのユーザー１８）の機械表現である。この身体モデルは、ゲームまたは他のアプリケーション／オペレーティング・システムの言語で、モデル化した目標物を集合的に定義する１組の変数を含む１つ以上のデータ構造を含むことができる。

【0032】

[0053] 目標物のモデルは、本開示の範囲から逸脱することなく、様々に構成することができる。例の中には、モデルが、剛性(rigid)形状および／または変形可能形状を含む三次元モデル、または身体部分として目標物を表す１つ以上のデータ構造を含むとよい場合もある。各身体部分は、数学的原線として特徴付けることができ、その例には、異方的に拡縮された球体(anisotropically-scaled sphere)、円筒、異方性円筒、滑らかな円筒、箱形、面取された箱形(beveled box)、角柱等が含まれるが、これらに限定されるのではない。

【0033】

[0054] 例えば、図３の身体モデル７０は、身体部分ｂｐ１からｂｐ１４までを含み、その各々が、モデル化された目標物の異なる部分を表す。各身体部分は、三次元形状である。例えば、ｂｐ３は、モデル化された目標物の左手を表す矩形角柱であり、ｂｐ５は、モデル化された目標物の左上腕を表す八画柱である。１つの身体モデルがいずれの数の身体部分でも含んでもよく、その各々が、モデル化された目標物の対応する部分のいずれの機械理解可能な表現であってもよいことから、身体モデル７０は例示である。

【0034】

[0055] ２つ以上の身体部分を含むモデルは、１つ以上の関節も含むことができる。各関節は、１つ以上の身体部分が１つ以上の他の身体部分に対して動かせるようにすることができる。例えば、人間の目標物を表すモデルは、複数の剛性の身体部分および／または変形可能な身体部分を含むことができ、一部の身体部分は、この人間の目標物の対応する解剖学的な身体部分を表すことができる。更に、モデルの各身体部分は、１つ以上の構造的部材（即ち、「骨」または骨格要素）を含むことができ、関節は隣接する骨の交点に位置する。尚、一部の骨には人間の目標物における解剖学的な骨に対応すると考えられるものがあること、および／または骨の一部は人間の目標物において対応する解剖学的な骨を有さないと考えられるものがあることが理解されて然るべきである。

【0035】

[0056] 骨および関節は、集合的にスケルトン・モデルを構成することができ、このスケルトン・モデルが他のモデルの構成要素となることもある。実施形態の中には、骨格モデルが、図３のモデル７０のような、他のタイプのモデルの代わりに用いられてもよい場合もある。このスケルトン・モデルは、身体部分毎に１つ以上のスケルトン部材と、隣接するスケルトン部材間に関節とを含む。三次元スケルトン・モデルの例、スケルトン・モデル８０およびスケルトン・モデル８２を、それぞれ、図４および図５に示す。図４は、前方から見たスケルトン・モデル８０を示し、関節ｊ１〜ｊ３３までを有する。図５は、歪んだ視点から見たときのスケルトン・モデル８２を示し、同様に関節ｊ１〜ｊ３３までがある。本開示の主旨から逸脱することなく、骨格モデルは、これらよりも多い関節または少ない関節を含むのでもよい。以下で説明する本発明の更に他の実施形態は、３１個の関節を有する骨格モデルを用いて動作する。

【0036】

[0057] 以上で説明した身体部分モデルおよび骨格モデルは、モデル化された目標物の機械表現として用いることができるタイプのモデルの非限定的な例である。他のモデルも、本開示の範囲に該当するものとする。例えば、モデルがポリゴン・メッシュ、パッチ、非均一有理Ｂ−スプライン(non-uniform rational B-spline)、再分割表面(subdivision surface)、または他の高次表面を含むのでもよい。また、モデルは、より精度高く衣服、髪、および／またはモデル化された目標物の他の態様を表すために、表面模様および／または他の情報も含むこともできる。任意に、モデルは、現在の姿勢、１つ以上の過去の姿勢、および／またはモデルの物理的特性に関する情報を含んでもよい。尚、姿勢を取ることができる種々の異なるモデルが、本明細書において説明した目標認識、分析、および追跡システムと調和することは、理解されてしかるべきである。

【0037】

[0058] キャプチャー・デバイス２０のＦＯＶ内にいる１人以上のユーザーの骨格モデルを生成するソフトウェア・パイプラインは周知である。このようなシステムの１つが、２０１０年９月７日に出願され、"System For Fast, Probabilistic Skeletal Tracking"（高速確率的骨格追跡システム）と題する米国特許出願第１２／８７６，４１８号に開示されている。この出願をここで引用したことにより、その内容全体が本願に包含するものとする。ある一定条件の下では、例えば、ユーザーがキャプチャー・デバイス２０に十分近接しており、ユーザーの手の少なくとも１つが他の背景ノイズから区別可能である場合、ソフトウェア・パイプラインは、更に、ＦＶＯ内にいる１人以上のユーザーの手および／または指のハンド・モデルを生成することができる場合もある。

【0038】

[0059] 図６は、ユーザーの手および／または指を認識し追跡するソフトウェア・パイプラインのフローチャートである。ステップ２００において、このパイプラインはキャプチャー・デバイス２０から深度画像を受け取る。ユーザーの一部の深度画像を図７において３０２で示す。この深度画像における各画素は、例えば図７に示すような、中間階調(gray-scale gradient)による深度情報を含む。例えば、３０２において、黒くなっているユーザーの左手によって示されるように、ユーザーの左手の方がキャプチャー・デバイス２０の近くにある。キャプチャー・デバイスまたは深度カメラは、観察中の場面におけるユーザーの画像を取り込む。以下で説明するように、ユーザーの深度画像は、ユーザーの領域の距離情報、ユーザーの倍率(scale)情報、湾曲、およびユーザーの骨格情報を判定するために用いることができる。

【0039】

[0060] ステップ２０４において、このパイプラインの骨格認識エンジン１９２は、ステップ２００において得られた深度画像から仮想骨格を得るために、先に説明したようにユーザーの骨格モデルを推定する。例えば、図７には、３０２に示ユーザーのす深度画像から推定した、仮想骨格３０４が示されている。

【0040】

[0061] ステップ２０８において、このパイプラインは、当該パイプラインの画像区分エンジン１９４によって、ユーザーの一方または両方の手を区分する。例の中には、画像区分エンジン１９４が、付加的に、手に加えて、身体の１つ以上の領域も区分するとよい場合もある。ユーザーの手を区分するステップは、手に対応する深度画像の領域を特定することを含む。この特定は、ステップ２０４において得られた骨格情報に少なくとも部分的に基づく。図７は、推定したスケルトン３０４に基づいて、ユーザーの深度画像を、異なる陰影が付けられた領域で示すような、異なる領域３０６に区分する例を示す。図７は、上にあげたユーザーの右手に対応する手の領域３０８の位置を特定する(localize)過程を示す。

【0041】

[0062] 手または身体領域は、種々の方法で区分するまたは位置を特定することができ、以上で説明した骨格推定において特定した関節から選択したものに基づくこともできる。一例として、深度画像における手の検出および位置特定は、推定した骨格からの推定した手首の関節および／または手先の関節(hand tip joint)に基づくことができる。例えば、実施形態の中には、手の関節周囲の深度画像の組織分布的な検索を用いて、深度画像における手の区分を実行し、深度画像における近隣の極値を指先の候補として突き止めるとよい場合もある。次いで、画像区分エンジン１９４は、推定した骨格から決定される身体サイズ(body size)の倍率、および境界識別のための深度不連続性を考慮に入れることによって、手の残り部分を区分する。

【0042】

[0063] 他の例として、ユーザーの手に対応する深度画像の領域を特定するために、フラッド・フィル(flood-fill)手法を採用することもできる。フラッド・フィル手法では、開始点および開始方向から深度画像を検索することができる。例えば、開始点は手首の関節としてもよく、開始方向は肘から手首の関節に向かう方向としてもよい。深度画像における近隣画素について、肘から離れ手先に向かう点を優先するための方法として、開始方向への投射に基づいて繰り返し採点しつつ、深度画像におけるユーザーの手の境界または極値を特定するために深度不連続というような深度一貫性制約を用いることができる。例の中には、固定値に基づいて開始方向の正および負双方の方向における深度マップ検索を制限するために閾値距離値を用いること、あるいは、例えば、ユーザーの推定サイズに基づいて閾値距離値を増減(scale)できる場合もある。

【0043】

[0064] 更に他の例として、骨格関節（例えば、手首または手先の関節）に基づいて位置付けられた境界球体(bounding sphere)または他の適した境界形状を用いて、深度画像における深度不連続までの全ての画素を含ませることもできる。例えば、深度不連続を特定するために、境界球体上でウィンドウを滑らすこともでき、この深度不連続は、深度画像の手の領域における境界を確定するために用いることができる。

【0044】

[0065] また、境界形状方法は、手の平の中心の回りに境界形状を置くために用いることもでき、境界形状は繰り返し特定することができる。このような繰り返し境界決定方法の一例が、"Kinext Developer Summit at GDC 2011: Kinext for XBOX 360"と題し、添付資料１として本明細書に添付されている、 David Tuftによる紹介、およびK. Abe, H. Saito, S. Ozawaによる"3D drawing system via hand motion recognition from cameras"（カメラからの手の動き認識による３D描画システム）(IEEE International Conference on Systems, Man, and Cybernetics, vol. 2, 2000)と題する刊行物において開示されている。この刊行物は、ここで引用したことにより、その内容全体が本願にも包含するものとする。

【0045】

[0066] 一般に、このような方法は、モデルから画素を選別する(cull)ために、数回の繰り返しパスを必要とする。各パスにおいて、この方法は球体の外側にある画素、または手を中心とする他の形状の外側にある画素を選別する。次に、この方法は手の先端から遠すぎる画素を選別する（腕のベクトルに沿って）。次いで、この方法はエッジ検出ステップを実行して、手の境界のエッジを検出し、接続されていない孤立点(islands)を取り除く。図８のフローチャートにこのような方法からのステップ例を示す。ステップ２２４において、骨格認識エンジン１９２からの手関節データによって与えられる手の中心の回りに、境界形状を生成する。境界形状は、手全体を包囲できるくらいに十分に大きく、三次元である。ステップ２２６において、境界形状の外側にある画素を選別する。

【0046】

[0067] 尚、深度画像において、ユーザーの手が彼または彼女の身体に、またはユーザーの２つめの手に近接しており、これら他の身体部分からのデータが初期状態において区分された画像に含まれるということが起こる場合がある。区分画像における異なる重心を区別するために、接続成分区別(connected component labeling)を実行することもできる。重心は、手であることの可能性が最も高いが、そのサイズおよび手関節の位置に基づいて、重心を選択する。選択されなかった重心を選別すればよい。ステップ２３０において、添えられている腕(attached arm)からのベクトルに沿って手の先端から離れすぎている画素も選別してもよい。

【0047】

[0068] 骨格認識エンジン１９２からの骨格データはノイズが多い場合もあるので、手の中心を特定するために、手についてのデータを更に純化する。これは、画像を繰り返し用いて、各画素から手のシルエットのエッジまでの距離を測定することによって行うことができる。画像区分エンジン１９４は、次に、加重平均を計算して最大／最小距離を求めることができる。即ち、ステップ２３２において、区分された手の画像における画素毎に、手のシルエットのエッジまでのｘおよびｙ軸に沿った最大距離を特定し、手のシルエットのエッジまでのｘおよびｙ軸に沿った最小距離を特定する。エッジまでの距離を重みとして取り込み、次いで、測定した全ての画素にわたって、最小と判定された距離の加重平均を計算し、画像内における手の位置の中心らしき点を求める（ステップ２３４）。新たな中心を用いて、直前の繰り返しからの掌の中心の変化が何らかの許容度以内になるまで、本プロセスを反復的に繰り返すことができる。

【0048】

[0069] 手法の中には、手の領域の区分を、ユーザーが手を外側または上に、あるいは胴体の前に上げたときに実行するとよい場合もある。このようにすると、手の領域を身体から一層容易に区別できるので、深度画像における手の領域の特定が更に明確になると考えられる。ユーザーの手が手の平をキャプチャー・デバイス２０に向けているときは、手の画像が特に明確になり、その時点において、この手の特徴をシルエットとして検出することができる。特徴にノイズが多い場合があるが、手のシルエットを得ることによって、例えば、指間の隙間を検出し、手の全体的な形状を見て、種々の異なる手法を用いてそれをマッピングすることに基づいて、手が何をしているのか、何らかの判断を伝えること(informed decision)が可能になる。これらの隙間およびその他の特徴を検出することにより、特定の指の認識、およびその指が指しているところの概略的な方向を認識することができる。

【0049】

[0070] 尚、以上で説明した例および区分例は、例示の目的に限って紹介したのであって、本開示の範囲を限定することは意図していないことは言うまでもない。一般に、いずれの手または身体部分区分方法でも、単独でまたは互いに組み合わせて、および／または以上で説明した方法例の内１つと組み合わせて用いることもできる。

【0050】

[0071] 図７のパイプラインを続けると、ステップ２１０では、領域、例えば、ステップ２０８において特定した手に対応する深度画像の領域に対する形状記述子を引き出す動作を含む。ステップ２１０のおける形状記述子は、記述子抽出エンジン１９６によって抽出され、手の領域を分類するために用いられるのに適した手の領域の表現であれば、いずれでもよい。実施形態の中には、形状記述子が、手の領域の形状をコード化または記述するために用いられるベクトルあるいは１組の数値とするとよい場合もある。

【0051】

[0072] 記述子抽出エンジン１９６は、形状記述子を抽出するために、ステップ２１０において種々のフィルターの内いずれでも用いることができる。１つのフィルターは、画素分類フィルター(image classifier)と呼ぶことができ、これより図９のフローチャート、図１０の判断ツリー、および図１１から図１４の例示を参照しながら説明する。ステップ２４０において、区分画像の前景において1つの画素を選択する。これらは、ユーザーの手の一部であると少なくとも名目上(nominally)考えられる画素である。選択した画素の周囲において、選択した画素が中心に来る、既定サイズのボックスを取り込む。実施形態では、このボックスのサイズは、正規化した指の幅の１．５倍に選択するとよい。「正規化した指」とは、骨格モデルのサイズおよびキャプチャー・デバイス２０からユーザーまでの検出距離に基づいて正規化したサイズに既に調節されているユーザーの指のことである。手の一部であると名目上考えられる画素毎に、次のステップを連続的に実行する。

【0052】

[0073] ステップ２４２において、画素分類フィルターは、ボックスのエッジがいくつ交差しているか判断する。交点とは、画像が前景（手の上）から背景（手の上ではない）に移行するところである。例えば、図１１Ａは、指２７６、この指上において選択された画素２７８、およびこの画素の周囲にある半径ｒの前述のボックス２８０を示す。このボックスは、１つのエッジに沿って２点で、即ち、点２８１ａおよび２８１ｂにおいて交差する。点２８１ａ，２８１ｂは、画像が前景（指）から背景に移行するところである。画素２７８がそれぞれのボックス２８０のエッジとの交点を２つ以上有する場合、以下で説明するように、手の重心を定める目的のために、画素２７８全てを指先（あるいは、以下で説明するように、拳または腕の一部）と見なすこととする。

【0053】

[0074] ステップ２４６において、画素分類フィルターは、これらの交点が同じエッジにあるのか、または異なるエッジにあるのか判断する。図１１Ｂに示すように、指は、同じエッジに沿うのではなく、２本の隣接するエッジに沿ってボックス２８０と交差することもある。この情報は、以下で説明するように、指を指し示している方向を判定するために、用いられる。

【0054】

[0075] 指先とは異なり、画素がそのボックス２８０と４つの点で交差するときは、以下で説明するように手の重心を定める目的のために、この画素を指と見なす。例えば、図１２は、選択された画素２７８が指先から十分に離れており、ボックスとの４つの交点２８１ａ、２８１ｂ、２８１ｃ、および２８１ｄがある例を示す。

【0055】

[0076] 図９のフローチャートのステップ２４２、および図１０の判断ツリーの２６４において、画素分類フィルターは、ボックス２８０のエッジの内いくつと交差しているかチェックする。交差しているエッジがない場合、２６５において、選択した画素はユーザーの手の平の内部にあると見なされる。即ち、ボックス２８０のサイズは、画素が指または指先の中にある場合には少なくとも2本のエッジと交差するように選択されているので、画素が手の上にあり交差するエッジがない場合、この画素は手の平の中にあると見なされる。２本のエッジと交差している場合、以下で説明するように、フィルターは２６６に進み、交差していないエッジの角がソリッド(solid)か（手の上）またはエンプティ(empty)か（背景）かをチェックする。２６７において、４本のエッジが交差している場合、以上で説明したようにこれを指と見なす。２６８においてボックス２８０のエッジが６回交差している場合、これは無効の読み取りと見なし、破棄する（ステップ２５０）。

【0056】

[0077] 再度２６６に戻り、２本のエッジが交差している場合、指先である可能性があるが、隣接する２本の指の間の空間である可能性もある。したがって、画素分類フィルターは、交差していないエッジの角をチェックする（ステップ２４８）。交差していないエッジの角がソリッドである場合、これは、ボックスがこれらの角において手の上にあり、交点は隣接する指の間にある谷を定めることを意味する。逆に、交差していないエッジの角がエンプティである場合（２６６に関連する図において示すように）、これは、ボックスがこれらの角において背景画素上にあり、交点が手の一部を定めることを意味する。

【0057】

[0078] 角がエンプティである場合、画素分類フィルターは、２６９において、交差点間における、コード長(chord length)と呼ばれる距離が指の最大幅未満であるか否かチェックする（ステップ２５２）。即ち、２つの交点がある場合、図１１Ａに示すように指先である可能性がある。しかしながら、この画素は、図１３に示すように、腕の一部、または拳のような、手の一部である可能性もある。その場合、コード長２８２は、指の最大幅よりも大きい可能性がある。その場合、２７１（図１０）において、ボックス２８０が調べられている画素２７８は、腕または拳の上にあると言う。

【0058】

[0079] 指先または指を特定することに加えて、二点または四点交差が、指先／指が指し示している方向を明示することもできる。例えば、図１１Ａにおいて、指の最大幅未満の２つの交点があったので、画素２７８は指先の中にあると判断された。しかしながら、このような交差を仮定すると、指先が指し示している方向について、推論を引き出すことができる。同じことは、図１２に示す指についても言える。図１１Ａは、真上を指し示す指２７６を示す。しかし、指先２７６は、他の上向きの方向を指し示している可能性もある。指先２７６における点２７８付近にある他の点からの情報を用いると、この方向について更に推論を引き出すことができる。

【0059】

[0080] 図１１Ｂは、二点交差を示し、指／指先が指し示している方向について追加の推論が得られる。即ち、共有する角までの距離の比率から、方向を推論することもできる。言い換えると、点２８１ａおよび２８１ｂ間のコード長は、三角形の斜辺を定める。この三角形は、点２８１ａ，２８１ｂ間にある辺、および共有する角も含む。指は斜辺に対して垂直な方向を指し示していると推論することができる。

【0060】

[0081] 尚、１つの手で、２本の指が一緒になっていること、または３本の指が一緒になっていること、または４本の指が一緒になっていることも起こる場合がある。このため、手の中にある画素毎にボックス２８０を用いて以上のステップを実行した後、２本の指を合わせた最大幅よりも多少大きなボックス２８０を用いて、本プロセスを繰り返し、次いで３本の指を合わせた最大幅よりも多少大きなボックス２８０を用いて、本プロセスを再度繰り返す等とするとよい。

【0061】

[0082] 一旦画素分類フィルター・データが集められたなら、画素分類フィルターは次にステップ２５８（図９）においてデータからハンド・モデルを構築することを試みる。例えば、指先である領域というような、小さな特定領域、即ち、重心、ならびに手の平である領域、および手区分ステップからの手の平の中心の着想(idea)がある。次いで、分類エンジン１９８は、指先とは分類されなかったが、これらが４点で交差したという事実によって指であると分類された指の重心を調べる。指または指先領域について、方向方位(directional orientation)も特定されている。指の重心が指先の重心と一直線状になっており、これらが互いに正しい相対位置にある場合、本アルゴリズムは、これらの重心が同じ指に属するとして、これらの重心を接続する。

【0062】

[0083] 次に、骨格のサイズおよび、指がどの位大きいと考えられるかに基づいて、指領域の向きを用いて、その指の拳があると考えられる所に投影する。また、決定したハンド・モデルを確認するためには、指の間で特定されたいずれの谷のサイズ、位置、および向きも用いることができる。次に、投影した拳の位置を手の平に接続する。完了したときに、画素分類エンジンは、骨格ハンド・モデル２８４を決定する。その例を２つ、図１４に示す。このモデルは、「指先、手および指を接続する拳、および手の平までの中心骨(center bone)に関する手追跡セグメントの縮小骨格モデル」と呼ぶこともでき、手の平の重心に接続された拳の重心に接続された指の重心に接続された指先の重心を含む。また、指先、指、拳、および／または手の平の重心位置の決定した位置を検証するまたは論じ合うために、更には手の一部を形成しないと判定されるかもしれない重心データを破棄するために、既知の手の外形および既知の腕位置からのこの手の位置に関するデータを用いることができる。

【0063】

[0084] 以上によって、手の１つ以上の部分がモデルから失われても、ハンド・モデルを構築できる。例えば、指が隠されていること、あるいはユーザーの身体または検出すべき他方の手に指が近すぎることもあり得る。または、ユーザーに指がない場合もある。画素分類フィルターは、それが検出した指および手の位置を用いて、ハンド・モデルを構築する。

【0064】

[0085] 画素分類フィルターに加えてまたはその代わりに実行することができる他のフィルターがあってもよく、湾曲分析フィルターと呼ぶことができるものがある。このフィルターは、区分された手のシルエットの境界に沿った湾曲に照準をあて、指を区別する試みにおいてピークおよび谷を判定する。図１５におけるフローチャートを参照すると、ステップ２８６において、第１画素から開始して、周囲にある８つの画素を調べて、どれが手の上における次の画素であるか判定を行う。このために、その画素と次の画素との間の接続性(connectivity)について、０から７までの値を各画素に割り当てる。手のシルエットの周囲に、一連のこれらの数値を並べる(build)と、手の境界が得られる。ステップ２８８において、これらの値を、角度および手の回りの輪郭に変換すると、図１６に示すような、手の輪郭およびピークのグラフを得ることができる。手の輪郭およびピークを生成するためのこれらのステップについては、例えば、F. Leymarie, M.D. Levineによる"Curvature morphology"（湾曲形態）, Computer Vision and Robotics Laboratory, McGill University, Montreal, Quebec, Canada, 1988と題する論文において記載されている。この論文をここで引用したことにより、その内容全体を本願に包含するものとする。

【0065】

[0086] ステップ２８９において、手のシルエット周囲にあるピークを特定し、ピークの種々の特徴に関して各々を分析する。ピークは、開始点、ピーク、および終点によって定めることができる。これら３つの点は、以下で説明するように、三角形を形成することができる。調べるとよいピークの種々の特徴には、例えば、次の事項が含まれる。

【0066】

・ピークの幅
・所与のピークの最大高さ
・ピーク内における湾曲サンプルの平均高さ
・ピーク形状比（最大高さ／平均高さ）
・ピークの面積
・手からピークまでの距離
・肘から手への方向（ｘ，ｙ，ｚ）
・ピーク方向および腕の方向のクロス積（腕の方向とピーク方向との間の角度がどれ位小さいか）
・ピーク開始点と最大点との間のベクトル、および最大点と終点との間のベクトルのクロス積
[0087] ステップ２９０において、例えば、サポート・ベクトル・マシン(support vector machine)のような種々の機械学習技法によって、この情報を使い回し(run)、指および手を区別することができる。サポート・ベクトル・マシンは周知であり、例えば、C. Cortes and V. VapnikのSupport-Vector Networks, Machine Learning（サポート・ベクトル・マシン・ネットワーク、機械学習）と題する論文(20(3):273-297, September 1995)、およびVladimir N. VapnikのThe Nature of Statistical Learning Theory（統計学習理論の特徴）と題する論文 (Springer, New York, 1995) に記載されている。これらの論文をここで引用したことにより、それらの内容全体が本願にも含まれるものとする。実施形態では、隠れマルコフ・モデルを用いて、ノイズの多いデータをスムージングして、ノイズのない手およびフィルターの状態を維持することができる。

【0067】

[0088] 以上で説明したフィルターは、手のシルエットに関係するデータを調べることから、シルエット・フィルターと称することもできる。用いることができる更に他のフィルターに、ヒストグラム・フィルターがあり、深度データを用いてハンド・モデルを構築することから、深度フィルターと称する。このフィルターは、以上で説明したフィルターに加えて、またはその代わりに用いることができ、特に、ユーザーが彼または彼女の手を画像キャプチャー・デバイス２０に向けて指し示すときに有用であると考えられる。

【0068】

[0089] ヒストグラム・フィルターでは、手の領域における距離のヒストグラムを構築することができる。例えば、このようなヒストグラムは１５個のビンを含むことができ、各ビンは、手の領域において、最も近い点からカメラまでのＺ−方向（深度）の距離、そのビンに関連付けられている一定の距離範囲以内である点の数を含む。例えば、このようなヒストグラムにおける第１のビンは、手の領域において、手の重心までの距離が０および０．４０センチメートルの間である点の数を含むことができ、第２のビンは、手の領域において、手の重心までの距離が０．４０および０．８０センチメートルの間である点の数を含む等である。このようにして、手の形状をコード化するベクトルを構築することができる。更に、このようなベクトルは、例えば、推定した身体の大きさに基づいて正規化することもできる。

【0069】

[0090] 他の手法例では、手の領域における点から、推定したユーザーの骨格からの関節、骨区間(bone segment)、または手の平の面、例えば、肘関節、手首関節等までの距離および／または角度に基づいて、ヒストグラムを構築することもできる。図１７は、閉じた手および開いた手について判定したヒストグラムを示す２つのグラフを示す。

【0070】

[0091] 尚、形状記述子のフィルター例は、性質上例示であり、本開示の範囲を限定することは意図していないことは言うまでもない。一般に、手の領域に適した形状記述子であればいずれも、単独で、あるいは互いに組み合わせて、および／または以上で説明した方法例の内１つと組み合わせて用いることもできる。例えば、以上で説明したヒストグラムまたはベクトルのような形状記述子は、もっと大きなベクトルと混合すること、照合する(match)こと、組み合わせること、および／または連結すること等が可能である。これによって、個々にこれらを見ても特定できなかった新たなパターンの特定が可能になると考えられる。これらのフィルターは、履歴フレーム・データの使用により増強することもできる。履歴フレーム・データは、例えば、特定した指が、以前のフレームにおいて特定したその指から逸脱し過ぎているか否か示すことができる。

【0071】

[0092] 図１８は、以上で説明した種々のフィルターの結果を組み合わせるスーパーバイザー・フィルター(supervisor filter)を示す。例えば、手および指のモデルを生成するためには、画素分類フィルターを用いることができる。更に、画素分類フィルター、湾曲分析フィルター、深度ヒストグラム・フィルター、および図１９に示されていない他の可能なハンド・フィルターを、以上で説明したように処理し、更に、例えば、時間的整合性フィルターリング（例えば、ロー・パス・フィルター）およびスムージング技法によって処理して、手および指の位置を求めることができる。前述のように、本明細書において説明した種々のフィルターで用いたシルエットは、その手のサイズおよびセンサー距離が、カメラからのユーザーの距離および分析した骨格から推論される手のサイズの知識によって影響を受けない(invariant)ように、拡縮する(scale)こともできる。

【0072】

[0093] 開いた手または閉じた手の状態に加えて、本技術は、例えば、１本以上の指によって特定の方向を指し示すというような、特定の指の向きを識別するためにも用いることができる。また、本技術は、ｘ，ｙ，ｚデカルト空間内において種々の角度に向けられた種々の手の位置を識別するためにも用いることができる。

【0073】

[0094] 実施形態では、ステップ２１６（図６）における手および指の位置の推定の精度を高めるために、種々の分類後フィルターリング・ステップを採用するとよい。例えば、時間的整合性フィルターリング・ステップを、連続する深度画像フレーム間において予測した手および指の位置に適用して、予測をスムージングし、例えば、偽りの手の動き、センサーのノイズ、または場合によって起こり得る分類の誤りによる時間的ジッタリング(temporal jittering)を低減することができる。即ち、キャプチャー・デバイスまたはセンサーからの複数の深度画像に基づく複数の手および指の位置を推定し、手および指の位置を推定するための複数の推定値の時間的フィルターリングを実行することができる。

【0074】

[0095] ステップ２２０において、図６のパイプラインは、推定した手の状態に基づいて、フレーム毎に応答を出力することができる。例えば、計算システム１０のコンソール１２のような、計算システムのコンソールにコマンドを出力することができる。他の例として、ディスプレイ・デバイス１６のようなディスプレイ・デバイスに、応答を出力することもできる。このように、推定した手の状態を含む、推定したユーザーの動きを、システム１０のコンソール１２へのコマンドに変換することができるので、ユーザーは、前述のように、システムと対話処理することができる。更に、以上で説明した方法およびプロセスは、ユーザーの身体のいずれの部分、例えば、口、目等についても推定値を決定するために実装することができる。例えば、以上で説明した方法を用いて、ユーザーの身体部分の姿勢を推定することもできる。

【0075】

[0096] 本技術は、例えば、図１Aから図１Cに示したようなＮＵＩシステムとの多種多様な対話処理を可能にする。広い範囲の自然な対話処理があり、手／指の動きに基づくもの、または大きな身体の動きおよびきめ細かい手の制御の双方を組み合わせるものもあり、これらは、新たに認識するジェスチャー、一層深く没頭する体験、および非常におもしろいゲームを創作するには望ましい。これらの使用および対話処理は、以下のことを含むが、これらに限定されるのではない。

【0076】

・高忠実度カーソル位置を与える。ユーザーが指し示す指を認識し、正確に追跡することによって、ＮＵＩシステムは、画面上においてカーソルを位置付けることに関して、ユーザーがどこを指し示しているのか、精度高く判断することができる（図１Ｂ）。

【0077】

・指が指す方向の推定(aiming)。一般に、ユーザーの１本または複数本の指の正確な認識および追跡は、ＮＵＩシステムおよびゲーミング・アプリケーション、またはＮＵＩシステム上で実行する他のアプリケーションの制御およびそれとの対話処理を改良する種々の方法のいずれにおいても用いることができる。種々の手の構成の認識は、例えば、限定ではないが、指で数えること、親指を上に向けること、親指を下に向けること、「ＯＫ」の合図、角の手真似（人差し指および小指を上に向ける）、「くつろいでいる」ことの手真似、スター・トレック（登録商標）の「長寿と繁栄を」の合図、１本の指を立てること、およびその他というような、ジェスチャーの認識に用いることができる。これらの各々は、ユーザー・インターフェースの対話処理を進めるために用いることもできる。

【0078】

・仮想ボタン（触覚フィードバックによる）−個々の指を精度高く認識し追跡することによって、アプリケーションが種々の仮想ボタンを使用するが可能になり、更にＮＵＩ体験を改良することができる。

【0079】

・親指および指の制御−親指の向きを解釈し、他の指から親指を信頼性高く検出することによって、手はコントローラーの役割を果たすことができる。親指の向きがコントローラーの向きを決め(drive)、親指を手に押し付けることは、ボタン押下と認識される。

【0080】

・選択するための挟む仕草(pinching)−個々の指を正確に認識し追跡することによって、アプリケーションは親指と他の指との間で挟む動きを用いて、何らかの制御機能またはアプリケーションのメトリック(metric)に作用させることが可能になる。

【0081】

・１本／多数本の指の方向−個々の指を正確に認識し追跡することによって、アプリケーションは指の相対的な位置を制御メトリックとして用いること、または他の何らかのアプリケーション・メトリックを得ることが可能になる。

【0082】

・筆記、描画、スカルプト− 個々の指を正確に認識し追跡することによって、アプリケーションはユーザーがペンまたは絵筆を掴んでいることを解釈し、個々の指が動くときにこのペンまたは絵筆がどのように動くのか解釈することが可能になる。このような動きの認識により、ユーザーは、文字、筆記体、スカルプト(sculpt)を形成すること、および／または画像を描くことが可能になる。

【0083】

・タイプ入力−個々の指を正確に認識し追跡することによって、アプリケーションはタイプ入力の動きを行うことが可能になり、このタイプ入力の動きは、ＮＵＩシステムまたはアプリケーションによって仮想キーボード上のキー・ストロークとして解釈され、画面上でキャラクタまたは単語をタイプ入力すること、あるいは制御情報またはアプリケーション情報をＮＵＩシステムまたはアプリケーションに提供することが可能になる。

【0084】

・手の回転の追跡−個々の指を正確に認識し追跡することによって、アプリケーションは手の回転を正確に特定することが可能になる。
・操る(puppeteering)−指の骨格をパペティア・アニメーション制御システムにマッピングする。あるいは、指の骨格のマッピングは、実在の糸に繋がれた実在の操り人形を操作するのと同じ形態で、仮想オブジェクトを直接操作するためにも用いることができる。

【0085】

・ノブまたは組み合わせ錠を回す−個々の指を正確に認識し追跡することによって、ユーザーは仮想ノブを選択して捻ること、または仮想組み合わせ錠を開錠することが可能になる。このような組み合わせ錠は、安全を確保したネットワークまたは格納されているリソースへのアクセスを提供または拒否するために用いることもできる。

【0086】

・銃を撃つ−指および手の検出を、銃のコントローラーとして用いる。人差し指が照準を決定し、親指の押下を、射撃を示すボタンとして用いる。
・はじく(flicking)ジェスチャー−空中で指をはじくジェスチャーを検出し、仮想対話処理に用いる。

【0087】

・手の平を開くジェスチャー−開いた手の平を用いてマップ・ビュー(map view)を表示することは、本人(first person)と第三者の視点の間における様式変化(modal change)を意味する。仮想空間にわたってスクロールしナビゲートするには、開いた手の平の上で人差し指を用いることができる（マウス、またはタッチ・スクリーン上の指と同様）。

【0088】

・脚部制御−人差し指および中指を用いて（手を下に向けたまま）、キャラクタの脚部を制御し、走る動作、飛ぶ動作、および蹴る動作をシミュレートする。このジェスチャーは、手の平を開くジェスチャーと組み合わせると、全身相互作用(full body interaction)とユーザー・インターフェースとの間の様式変化、またはナビゲーションを意味することができる。例えば、アクション・アドベンチャー・ゲームにおいて、プレーヤは、戦闘を開始するために全身制御を用い、次いで手の平を開くジェスチャーを用いて、マップ・ビューに切り替え、人差し指および中指を用いて、陸地を横断する走行をシミュレートすることができる。

【0089】

[0097] その他の指および手の相互作用も考えられる。
[0098] 図１９Aは、目標認識、分析、および追跡システムにおいてユーザーの１つ以上の位置および動きを解釈するために用いることができる計算環境の一実施形態例を示す。図１Aから図２に関して先に説明した計算環境１２のような計算環境は、ゲーミング・コンソールのような、マルチメディア・コンソール６００であってもよい。図１９Aに示すように、マルチメディア・コンソール６００は、レベル１キャッシュ６０２、レベル２キャッシュ６０４、およびフラッシュＲＯＭ６０６を有する中央演算装置（ＣＰＵ）６０１を有する。レベル１キャッシュ６０２およびレベル２キャッシュ６０４は、一時的にデータを格納し、こうしてメモリー・アクセス・サイクルの回数を減らすことによって、処理速度およびスループットを向上させる。ＣＰＵ６０１は、１つよりも多いコア、つまり、追加のレベル１およびレベル２キャッシュ６０２および６０４を有するものを設けてもよい。フラッシュＲＯＭ６０６は、実行可能コードを格納することができる。実行可能コードは、マルチメディア・コンソール６００に電源を入れたときに、ブート・プロセスの初期段階の間にロードされる。

【0090】

[0099] グラフィクス処理ユニット（ＧＰＵ）６０８およびビデオ・エンコーダー／ビデオ・コデック（コーダ／デコーダ）６１４は、高速および高解像度グラフィクス処理のためのビデオ処理パイプラインを形成する。データは、ＧＰＵ６０８からビデオ・エンコーダー／ビデオ・コデック６１４にバスを通じて搬送される。このビデオ処理パイプラインは、テレビジョンまたは他のディスプレイへの送信のためにデータをＡ／Ｖ（オーディオ／ビデオ）ポート６４０に出力する。メモリー・コントローラー６１０は、限定ではないが、ＲＡＭのような種々のタイプのメモリー６１２にプロセッサーがアクセスし易くするために、ＧＰＵ６０８に接続されている。

【0091】

[00100] マルチメディア・コンソール６００は、Ｉ／Ｏコントローラー６２０、システム管理コントローラー６２２、オーディオ処理ユニット６２３、ネットワーク・インターフェース・コントローラー６２４、第１のＵＳＢホスト・コントローラー６２６、第２のＵＳＢコントローラー６２８、およびフロント・パネルＩ／Ｏサブアセンブリ６３０を含む。これらは、好ましくは、モジュール６１８上に実装されている。ＵＳＢコントローラー６２６および６２８は、周辺コントローラー６４２（１）〜６４２（２）、ワイヤレス・アダプター６４８、および外部メモリー・デバイス６４６（例えば、フラッシュ・メモリー、外部ＣＤ／ＤＶＤＲＯＭドライブ、リムーバブル媒体等）のためのホストとしての役割を果たす。ネットワーク・インターフェース６２４および／またはワイヤレス・アダプター６４８は、ネットワーク（例えば、インターネット、家庭内ネットワーク等）へのアクセスを与え、イーサネット（登録商標）・カード、モデム、Ｂｌｕｅｔｏｏｔｈモジュール、ケーブル・モデム等を含む広範囲にわたる種々の有線またはワイヤレス・アダプター・コンポーネントの内いずれでもよい。

【0092】

[00101] システム・メモリー６４３は、ブート・プロセスの間にロードされるアプリケーション・データを格納するために設けられている。メディア・ドライブ６４４が設けられており、ＤＶＤ／ＣＤドライブ、ハード・ドライブ、またはその他のリムーバブル・メディア・ドライブを備えることができる。メディア・ドライブ６４４は、マルチメディア・コンソール６００の内部にあっても外部にあってもよい。アプリケーション・データには、マルチメディア・コンソール６００が実行、再生等のために、メディア・ドライブ６４４を介してアクセスすることができる。メディア・ドライブ６４４は、シリアルＡＴＡバスまたはその他の高速接続（例えば、ＩＥＥＥ１３９４）のようなバスを介して、Ｉ／Ｏコントローラー６２０に接続されている。

【0093】

[00102] システム管理コントローラー６２２は、メディア・コンソール６００が利用可能であることを確保することに関する種々のサービス機能を提供する。オーディオ処理ユニット６２３およびオーディオ・コデック６３２は、高忠実度およびステレオ処理を行う、対応のオーディオ処理パイプラインを形成する。オーディオ・データは、通信リンクを介して、オーディオ処理ユニット６２３とオーディオ・コデック６３２との間で搬送される。オーディオ処理パイプラインは、外部オーディオ・プレーヤーまたはオーディオ処理能力を有するデバイスによる再生のために、データをＡ／Ｖポート６４０に出力する。

【0094】

[00103] フロント・パネルＩ／Ｏサブアセンブリ６３０は、電力ボタン６５０およびイジェクト・ボタン６５２の機能をサポートするだけでなく、あらゆるＬＥＤ（発光ダイオード）またはマルチメディア・コンソール６００の外面上に表出されているその他のインディケーターもサポートする。システム電源モジュール６３６は、マルチメディア・コンソール６００のコンポーネントに電力を供給する。ファン６３８は、マルチメディア・コンソール６００内部にある回路を冷却する。

【0095】

[00104] ＣＰＵ６０１、ＧＰＵ６０８、メモリー・コントローラー６１０、およびマルチメディア・コンソール６００内部にある種々のその他のコンポーネントは、１系統以上のバスを介して相互接続されている。これらのバスには、シリアルおよびパラレル・バス、メモリー・バス、周辺バス、ならびに種々のバス・アーキテクチャの内いずれかを用いるプロセッサー・バスまたはローカル・バスが含まれる。一例として、このようなアーキテクチャーは、ペリフェラル・コンポーネント相互接続（ＰＣＩ）バス、ＰＣＩ-Ｅｘｐｒｅｓｓバス等を含むことができる。

【0096】

[00105] マルチメディア・コンソール６００に電源を入れると、システム・メモリー６４３からメモリー６１２および／またはキャッシュ６０２、６０４にアプリケーション・データがロードされ、ＣＰＵ６０１において実行することができる。アプリケーションは、グラフィカル・ユーザー・インターフェースを提示することができる。このグラフィカル・ユーザー・インターフェースは、マルチメディア・コンソール６００において利用可能な異なるタイプのメディアにナビゲートするときに、一貫性のあるユーザー体験を提供する。動作において、アプリケーションおよび／またはメディア・ドライブ６４４内に収容されている他のメディアをメディア・ドライブ６４４から起動または再生して、マルチメディア・コンソール６００に追加の機能を設けることもできる。

【0097】

[00106] マルチメディア・コンソール６００は、単にシステムをテレビジョンまたはその他のディスプレイに接続することによって、単体システムとして動作させることができる。この単体モードでは、マルチメディア・コンソール６００は、１人以上のユーザーがシステムと対話処理を行い、ムービーを見ること、または音楽を聞くことを可能にする。しかしながら、ネットワーク・インターフェース６２４またはワイヤレス・アダプター６４８によって利用可能となるブロードバンド接続機能を統合することにより、マルチメディア・コンソール６００を更に大きなネットワーク・コミュニティにおける関与個体(participant)として動作させることもできる。

【0098】

[00107] マルチメディア・コンソール６００に電源を入れると、マルチメディア・コンソールのオペレーティング・システムによって、設定されている量のハードウェア・リソースがシステムの使用のために確保される。これらのリソースは、メモリー（例えば、１６ＭＢ）、ＣＰＵおよびＧＰＵサイクル（例えば、５％）、ネットワーク接続帯域幅（例えば、８ｋｂｓ）等の確保を含むことができる。これらのリソースは、システムのブート時に確保されるので、確保されたリソースは、アプリケーションの視点からは存在しない。

【0099】

[00108] 特に、メモリーの確保は、起動カーネル、コンカレント・システム・アプリケーション、およびドライバーを収容できる程に十分大きいことが好ましい。確保されたＣＰＵ使用量(usage)がシステム・アプリケーションによって用いられない場合、アイドルのスレッドがいずれかの未使用サイクルを消費するように、ＣＰＵの確保は一定であることが好ましい。

【0100】

[00109] ＧＰＵの確保に関して、ＧＰＵ割り込みを用いてポップアップをオーバーレイにレンダリングするコードをスケジューリングすることによって、システム・アプリケーション（例えば、ポップアップ）が生成する軽量メッセージ(lightweight message)を表示する。オーバーレイに用いられるメモリー量は、オーバーレイのエリア・サイズによって異なり、オーバーレイは画面の解像度に合わせて倍率調整する(scale)ことが好ましい。コンカレント・システム・アプリケーションによってフル・ユーザー・インターフェースが用いられる場合、アプリケーションの解像度とは独立した解像度を用いることが好ましい。周波数を変更してＴＶの同期を取り直す必要性をなくすように、この解像度を設定するためにスケーラー(scaler)を用いるとよい。

【0101】

[00110] マルチメディア・コンソール６００がブートして、システム・リソースが確保された後、コンカレント・システム・アプリケーションが実行してシステム機能を提供する。システム機能は、前述の確保したシステム・リソースの内部で実行する１組のシステム・アプリケーションの中にカプセル化されている。オペレーティング・システム・カーネルは、システム・アプリケーション・スレッドと、ゲーミング・アプリケーション・スレッドとの間でスレッドを識別する。一貫したシステム・リソース・ビューをアプリケーションに提供するために、システム・アプリケーションは、所定の時点および間隔でＣＰＵ６０１において実行するようにスケジューリングされていることが好ましい。このスケジューリングは、コンソール上で実行しているゲーミング・アプリケーションに対するキャッシュ破壊(disruption)を最少に抑えるためにある。

【0102】

[00111] コンカレント・システム・アプリケーションがオーディオを必要とする場合、時間に敏感であるため、ゲーミング・アプリケーションには非同期にオーディオ処理をスケジューリングする。マルチメディア・コンソール・アプリケーション・マネージャー（以下で説明する）は、システム・アプリケーションがアクティブのとき、ゲーミング・アプリケーションのオーディオ・レベル（例えば、無音化、減衰）を制御する。

【0103】

[00112] 入力デバイス（例えば、コントローラー６４２（１）および６４２（２））は、ゲーミング・アプリケーションおよびシステム・アプリケーションによって共有される。入力デバイスは、確保されるリソースではないが、各々がデバイスのフォーカス(focus)を有するように、システム・アプリケーションとゲーミング・アプリケーションとの間で切り換えられる。アプリケーション・マネージャーは、ゲーミング・アプリケーションの知識を用いずに入力ストリームの切換を制御し、ドライバーはフォーカス・スイッチ(focus switches)に関する状態情報を維持する。カメラ２６、２８およびキャプチャー・システム２０は、コンソール６００の追加の入力デバイスを定めることができる。

【0104】

[00113] 図１９Ｂは、目標認識、分析、および追跡システムにおいて１つ以上の位置および動き(motion)を解釈するために用いられる、計算環境７２０の他の実施形態例を示す。計算環境７２０は、図１Ａから図２に示した計算環境１２であってもよい。計算システム環境７２０は、適した計算環境の一例に過ぎず、本明細書において開示される主題の使用範囲または機能に関して、いかなる限定を示唆する意図もない。また、計算環境７２０が、本明細書において例示されるいずれの１つのコンポーネントまたはコンポーネントの組み合わせに関して何らかの依存性または要件を有するように解釈してはならない。実施形態によっては、図示する種々の計算エレメントが、本開示の特定の態様をインスタンス化するように構成されている回路を含むこともあり得る。例えば、本開示において用いられる回路という用語は、ファームウェアまたはスイッチによって機能（１つまたは複数）を実行するように構成されている特殊ハードウェア・コンポーネントを含むことができる。別の実施形態例では、回路という用語は、機能（１つまたは複数）を実行するために動作可能なロジックを具体化するソフトウェア命令によって構成される汎用演算装置、メモリー等を含むことができる。回路がハードウェアおよびソフトウェアの組み合わせを含む実施形態例では、実装者(implementer)は、ロジックを具体化するソース・コードを書くことができ、ソース・コードを機械読み取り可能コードにコンパイルすることができ、この機械読み取り可能コードを汎用演算装置によって処理することができる。技術的現状では、ハードウェア、ソフトウェア、またはハードウェア／ソフトウェアの組み合わせの間には殆ど差がないというところまで発展していることを当業者は認めることができるので、特定の機能を実行するためにハードウェアまたはソフトウェアのどちらを選択するかということは、実装者に委ねられた設計選択事項である。更に具体的には、ソフトウェア・プロセスを等価のハードウェア構造に変換することができ、更にハードウェア構造自体を等価のソフトウェア・プロセスに変換することができることを、当業者は認めることができる。つまり、ハードウェアの実施態様およびソフトウェアの実施態様のどちらを選択するかということは、実装者に委ねられた設計選択事項の１つである。

【0105】

[00114] 図１９Ｂにおいて、計算環境７２０は、コンピューター７４１を含む。コンピューター７４１は、通例、種々のコンピューター読み取り可能媒体を含む。コンピューター読み取り可能媒体は、コンピューター７４１がアクセス可能な入手可能な媒体であればいずれでも可能であり、揮発性および不揮発性の双方、リムーバブル、および非リムーバブル媒体を含む。システム・メモリー７２２は、リード・オンリー・メモリー（ＲＯＭ）７２３およびランダム・アクセス・メモリー（ＲＡＭ）７６０のような揮発性および／または不揮発性メモリーの形態で、コンピューター記憶媒体を含む。基本入出力システム７２４（ＢＩＯＳ）は、起動中のように、コンピューター７４１内のエレメント間におけるデータ転送を補助する基本的なルーチンを含み、通例ＲＯＭ７２３内に格納されている。ＲＡＭ７６０は、通例、演算装置７５９が直ちにアクセス可能であるデータおよび／またはプログラム・モジュール、または現在これによって処理されているデータおよび／またはプログラム・モジュールを収容する。一例として、そして限定ではなく、図１９Ｂは、オペレーティング・システム７２５、アプリケーション・プログラム７２６、その他のプログラム・モジュール７２７、およびプログラム・データ７２８を示す。更に、図１９Ｂは、グラフィクス・プロセッサー・ユニット（ＧＰＵ）７２９も含む。グラフィクス・プロセッサー・ユニット７２９は、高速および高解像度グラフィクス処理および格納のために、付随するビデオ・メモリー７３０を有する。ＧＰＵ７２９は、グラフィクス・インターフェース７３１を介して、システム・バス７２１に接続することができる。

【0106】

[00115] また、コンピューター７４１は、その他のリムーバブル／非リムーバブル揮発性／不揮発性コンピューター記憶媒体も含むことができる。一例にすぎないが、図１９Ｂは、非リムーバブル不揮発性磁気媒体からの読み取りおよびこれへの書き込みを行なうハード・ディスク・ドライブ７３８、リムーバブル不揮発性磁気ディスク７５４からの読み取りおよびこれへの書き込みを行なう磁気ディスク・ドライブ７３９、ならびにＣＤＲＯＭまたはその他の光媒体のようなリムーバブル不揮発性光ディスク７５３からの読み取りおよびこれへの書き込みを行なう光ディスク・ドライブ７４０を示す。動作環境の一例において使用可能なその他のリムーバブル／非リムーバブル、揮発性／不揮発性コンピューター記憶媒体には、限定する訳ではないが、磁気テープ・カセット、フラッシュ・メモリー・カード、ディジタル・バーサタイル・ディスク、ディジタル・ビデオ・テープ、ソリッド・ステートＲＡＭ、ソリッド・ステートＲＯＭ等が含まれる。ハード・ディスク・ドライブ７３８は、通例、インターフェース７３４のような非リムーバブル・メモリー・インターフェースを介してシステム・バス７２１に接続され、磁気ディスク・ドライブ７３９および光ディスク・ドライブ７４０は、通例、インターフェース７３５のようなリムーバブル・メモリー・インターフェースによって、システム・バス７２１に接続する。

【0107】

[00116] 先に論じ図１９Ｂに示したドライブおよびそれらと関連のあるコンピューター記憶媒体は、コンピューター読み取り可能命令、データ構造、プログラム・モジュール、およびコンピューター７４１のその他のデータを格納する。図１９Ｂでは、例えば、ハード・ディスク・ドライブ７３８は、オペレーティング・システム７５８、アプリケーション・プログラム７５７、他のプログラム・モジュール７５６、およびプログラム・データ７５５を格納するように示されている。尚、これらの構成要素は、オペレーティング・システム７２５、アプリケーション・プログラム７２６、他のプログラム・モジュール７２７、およびプログラム・データ７２８と同じでも異なっていても可能であることを注記しておく。オペレーティング・システム７５８、アプリケーション・プログラム７５７、他のプログラム・モジュール７５６、およびプログラム・データ７５５は、ここで、少なくともこれらが異なるコピーであることを示すために、異なる番号が与えられている。ユーザーは、キーボード７５１、および一般にマウス、トラックボールまたはタッチ・パッドと呼ばれているポインティング・デバイス７５２のような入力デバイスによって、コマンドおよび情報をコンピューター７４１に入力することができる。他の入力デバイス（図示せず）には、マイクロフォン、ジョイスティック、ゲーム・パッド、衛星ディッシュ、スキャナー等を含むことができる。これらおよびその他の入力デバイスは、多くの場合、ユーザー入力インターフェース７３６を介して、演算装置７５９に接続されている。ユーザー入力インターフェース７３６は、システム・バスに結合されているが、パラレル・ポート、ゲーム・ポート、またはユニバーサル・シリアル・バス（ＵＳＢ）によって接続することも可能である。カメラ２６，２８およびキャプチャー・デバイス２０は、コンソール７００の追加入力デバイスを定めることができる。モニター７４２またはその他のタイプの表示装置も、ビデオ・インターフェース７３２のようなインターフェースを介して、システム・バス７２１に接続されている。モニターに加えて、コンピューターは、スピーカー７４４およびプリンター７４３のような、その他の周辺出力装置も含むことができ、これらは出力周辺インターフェース７３３を介して接続することができる。

【0108】

[00117] コンピューター７４１は、リモート・コンピューター７４６のような１つ以上のリモート・コンピューターへの論理接続を用いて、ネットワーク環境において動作することも可能である。リモート・コンピューター７４６は、パーソナル・コンピューター、サーバー、ルータ、ネットワークＰＣ、ピア・デバイス、またはその他の共通ネットワーク・ノードとすることができ、通例、コンピューター７４１に関して先に説明したエレメントの多くまたは全てを含むが、図１９Ｂにはメモリー記憶装置７４７のみを示す。図１９Ｂに示す論理接続は、ローカル・エリア・ネットワーク（ＬＡＮ）７４５およびワイド・エリア・ネットワーク（ＷＡＮ）７４９を含むが、他のネットワークも含むことができる。このようなネットワーク環境は、事務所、企業規模のコンピューター・ネットワーク、イントラネットおよびインターネットにおいては一般的である。

【0109】

[00118] ＬＡＮネットワーク環境で用いる場合、コンピューター７４１は、ネットワーク・インターフェースまたはアダプター７３７を介してＬＡＮ７４５に接続する。ＷＡＮネットワーク環境で用いる場合、コンピューター７４１は、通例、モデム７５０、またはインターネットのようなＷＡＮ７４９を通じて通信を設定するその他の手段を含む。モデム７５０は、内蔵でも外付けでもよく、ユーザー入力インターフェース７３６またはその他の適切な機構を介してシステム・バス７２１に接続することができる。ネットワーク環境では、コンピューター７４１に関係付けて図示したプログラム・モジュール、またはその一部は、リモート・メモリー記憶装置に格納することもできる。一例として、そして限定ではなく、図１９Ｂは、リモート・アプリケーション・プログラム７４８がメモリー・デバイス７４７に存在するものとして示している。尚、図示のネットワーク接続は一例であり、コンピューター間で通信リンクを設定する他の手段も使用可能であることは認められよう。

【0110】

[00119] 以上の本発明のシステムについての詳細な説明を例示および説明の目的で提示した。これは、網羅的であることも、開示された技術を開示された形態そのものに限定することを意図するのではない。多くの変更や変形が、以上の教示に照らして、可能である。記載した実施形態は、本技術の原理およびその実用的な用途を最良に説明し、それによって当業者が本技術を種々の実施形態において、そして個々の考えられる使用に適するような種々の変更と共に、最良に利用することを可能にするために選択されたのである。本発明のシステムの範囲は、本明細書に添付されている特許請求の範囲によって定義されることを意図している。

【図1A】