特許7297216 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アイサイト　モバイル　テクノロジーズ　リミテッドの特許一覧

特許7297216拡張現実システムのためのタッチフリーインターフェース

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4a
4b
4c
5a
5b
6a
6b
6c
6d

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-06-16

(45)【発行日】2023-06-26

(54)【発明の名称】拡張現実システムのためのタッチフリーインターフェース

(51)【国際特許分類】

G06F 3/01 20060101AFI20230619BHJP

G06F 3/04815 20220101ALI20230619BHJP

G06F 3/04817 20220101ALI20230619BHJP

G06F 3/0346 20130101ALI20230619BHJP

G06T 19/00 20110101ALI20230619BHJP

【ＦＩ】

G06F3/01 570

G06F3/04815

G06F3/04817

G06F3/0346 422

G06T19/00 600

【請求項の数】 18

(21)【出願番号】P 2020157123

(22)【出願日】2020-09-18

(62)【分割の表示】P 2017192930の分割

【原出願日】2012-09-19

(65)【公開番号】P2021007022

(43)【公開日】2021-01-21

【審査請求日】2020-10-19

(31)【優先権主張番号】61/536,144

(32)【優先日】2011-09-19

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】511188288

【氏名又は名称】アイサイトモバイルテクノロジーズリミテッド

(74)【代理人】

【識別番号】110000855

【氏名又は名称】弁理士法人浅村特許事務所

(72)【発明者】

【氏名】カッツ、イタイ

(72)【発明者】

【氏名】シエンフェルド、アムノン

【審査官】塩屋雅弘

(56)【参考文献】

【文献】国際公開第２０１１／１０６７９８（ＷＯ，Ａ１）

【文献】特開２０１１－１２８２２０（ＪＰ，Ａ）

【文献】特開２００９－１２３０１８（ＪＰ，Ａ）

【文献】特開平１０－２６７６７１（ＪＰ，Ａ）

【文献】特開２００９－２５１１５４（ＪＰ，Ａ）

【文献】国際公開第２０１０／０７７４３０（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／０１

Ｇ０６Ｆ３／０４８１５

Ｇ０６Ｆ３／０４８１７

Ｇ０６Ｆ３／０３４６

Ｇ０６Ｔ１９／００

(57)【特許請求の範囲】

【請求項1】

少なくとも１つのプロセッサであって、
画像センサから現実のシーンに関連する画像情報の映像フレームを受信し、
前記画像情報の中で、ユーザによって行われた所定の手のジェスチャーを検出し、
ユーザの手及びディスプレイ上に表示される情報以外の１つ以上の現実のオブジェクトを前記画像情報の中で識別し、前記１つ以上の現実のオブジェクトを識別することは、検出された前記所定の手のジェスチャーに関連付けられ、
前記映像フレームの中で識別された前記１つ以上の現実のオブジェクトに関連する選択された画像情報を指定し、前記選択された画像情報は前記現実のシーンに関連し、前記現実のシーンに関連する画像情報は、前記ユーザの手及び前記ディスプレイ上に表示される情報を含んでおらず、
前記検出されたジェスチャー上の少なくとも一部において、前記ユーザの手以外の識別された前記１つ以上の現実のオブジェクトに関連する選択された前記画像情報をタグ付けし、
前記選択された画像情報の指定された領域及び検出された前記所定の手のジェスチャーよりも前の時間に関連する少なくとも１つの映像情報を記録する
ように構成された前記プロセッサを備えたデバイス。

【請求項2】

所定の前記手のジェスチャーは、現実のオブジェクトに関連する輪郭を描画すること及び現実のオブジェクトを指し示すことのうちの少なくとも１つを含む、請求項１に記載のデバイス。

【請求項3】

前記少なくとも１つのプロセッサはさらに、前記指定された領域をサイズ変更するように構成されている、請求項１に記載のデバイス。

【請求項4】

前記記録することは、検出された前記手のジェスチャーより前の所定の時間を開始する、請求項１に記載のデバイス。

【請求項5】

前記記録することは、検出された前記手のジェスチャーより後の所定の時間を停止する、請求項１に記載のデバイス。

【請求項6】

前記少なくとも１つのプロセッサはさらに、第２のジェスチャーの検出に基づいて、前記記録することを停止するように構成されている、請求項１に記載のデバイス。

【請求項7】

前記少なくとも１つのプロセッサはさらに、前記画像情報の中で検出された第２の所定の手のジェスチャーに関連する画像情報の前記映像フレームからフレームを取り込むように構成されている、請求項１に記載のデバイス。

【請求項8】

前記時間は、前記ユーザによって定義された所定の量の時間である、請求項１に記載のデバイス。

【請求項9】

前記少なくとも１つのプロセッサはさらに、検出された第２の前記所定の手のジェスチャーに応じて、前記画像情報の中の識別された現実のオブジェクトを追跡する追跡アルゴリズムを実行するように構成されている、請求項１に記載のデバイス。

【請求項10】

前記少なくとも１つのプロセッサはさらに、前記選択された画像情報上のトラッカーを使用して、前記ユーザの視界の中のサイズ変更された領域の中の前記選択された情報の中の前記現実のオブジェクトのリアルタイムの視界を提示するように構成されている、請求項１に記載のデバイス。

【請求項11】

デバイスを動作させる方法であって、
少なくとも１つのプロセッサが、画像センサから現実のシーンに関連する画像情報の映像フレームを受信することと、
少なくとも１つのプロセッサが、前記画像情報の中で、ユーザによって行われた所定の手のジェスチャーを検出することと、
少なくとも１つのプロセッサが、前記映像フレームの中で、ユーザの手及びディスプレイ上に表示される情報以外の現実のオブジェクトに関連する選択された画像情報の領域を指定し、前記選択された画像情報は、前記ユーザの手及び前記ディスプレイ上に表示される情報を含んでいない前記現実のシーンに関連し、指定された前記領域は、検出された前記所定の手のジェスチャーに関連し、
前記ユーザの手を含まない前記現実のシーンに関連する前記選択された画像情報を追跡することと、
前記追跡することに基づいて、選択さ前記所定の手のジェスチャーよりも前の時間に関連する少なくとも１つの映像情報を記録することと
を含む、前記方法。

【請求項12】

所定の前記手のジェスチャーは、前記指定された領域の輪郭を描画すること及び現実のオブジェクトを指し示すことのうちの少なくとも１つを含む、請求項１１に記載の方法。

【請求項13】

前記少なくとも１つのプロセッサはさらに、前記指定された領域をサイズ変更するように構成されている、請求項１１に記載の方法。

【請求項14】

第２の前記所定の手のジェスチャーが、２本の指を離すこと又は２本の指を互いに近づけることを含む、請求項１３に記載の方法。

【請求項15】

前記画像情報の中で検出された第２の所定の手のジェスチャーに関連してズームイン又はズームアウトすることをさらに含む、請求項１１に記載の方法。

【請求項16】

前記選択された画像情報上のトラッカーを使用して、前記ユーザの視界の中のサイズ変更された領域の中の前記選択された情報の中の前記現実のオブジェクトのリアルタイムの視界を提示することをさらに含む、請求項１１に記載の方法。

【請求項17】

コンピュータによって実行されると、少なくとも１つのプロセッサにデバイスを動作させる方法を実行する命令を記録した非一時的なコンピュータ読み取り可能な記録媒体であって、前記方法は、
画像センサから現実のシーンと関連する画像情報の映像フレームを受信することと、
前記画像情報の中で、ユーザによって行われた所定の領域の選択された手のジェスチャーを検出することと、
前記検出された手のジェスチャーに関連付けられた選択された画像情報の領域を指定することであって、前記選択された画像情報は、前記ユーザの手及びディスプレイ上に表示される情報を含んでいない前記現実のシーンに関連する、前記指定することと、
前記ユーザの手を含まない前記現実のシーンに関連する前記選択された画像情報を追跡し、前記選択された情報の中の前記現実のシーンに関連する選択された画像情報のリアルタイムの映像を記録することと、
を含む、前記非一時的なコンピュータ読み取り可能な記録媒体。

【請求項18】

前記現実のシーンは、少なくとも一部に、表示デバイス上に表示された情報を含む、請求項１７に記載の非一時的なコンピュータ読み取り可能な記録媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、拡張現実のための方法および装置に関する。

【背景技術】

【0002】

ここで開示される主題の背景として関連があると考えられる参考文献を下に列記する。

【先行技術文献】

【特許文献】

【0003】

【文献】米国特許第７１２６５５８号

【文献】米国特許出願公開第２０１１０２２１６６９号

【文献】米国特許出願公開第２０１１０２７０５２２号

【文献】英国特許第ＧＢ２４６５２８０（Ａ）号

【文献】米国特許出願公開第２０１２００６８９１３号

【文献】米国特許第７，２１５，３２２号

【文献】国際公開第ＷＯ２００５／０９１１２５号

【文献】国際公開第ＷＯ２０１０／０８６８６６号

【非特許文献】

【0004】

【文献】Ｃｒｏｗｌｅｙ，Ｊ．Ｌ．ｅｔａｌ，「ＦｉｎｇｅｒＴｒａｃｋｉｎｇａｓａｎＩｎｐｕｔＤｅｖｉｃｅｆｏｒＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ」。ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＦａｃｅａｎｄＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ，Ｚｕｒｉｃｈ，Ｓｗｉｔｚｅｒｌａｎｄ，Ｊｕｎｅ１９９５の議事において発行されたもの。

【0005】

本明細書での上の参考文献の容認は、これらの文献がここで開示される主題の特許性にいかなる形であれ関連することを意味するものと判断するべきではない。

【0006】

拡張現実とは、その要素がテキスト、音声、映像、グラフィックス、またはＧＰＳデータ等の、コンピュータ生成情報によって拡張される、物理的現実環境のリアルタイム（ライブ）の直接的または間接的な視界に関する用語である。したがって、環境およびそのオブジェクトに関する人工的な情報が、現実の視界または画像の上にオーバーレイされる。拡張とは、一般的に、ユーザの周囲の現実に関する情報が対話的で、デジタル的に操作できるようになるように、リアルタイムの、環境要素を伴う意味論的文脈におけるものである。
拡張現実のための主要なハードウェア構成要素は、プロセッサ、ディスプレイ、センサ、および入力デバイスである。これらの要素、具体的には、ＣＰＵ、ディスプレイ、カメラ、および加速度計、ＧＰＳ、または固体コンパス等のＭＥＭＳセンサは、それらが拡張現実プラットフォームとして機能することを可能にする、スマートフォン等の携帯デバイスの中に存在する。

【0007】

拡張現実システムは、エントレインメント、ナビゲーション、アセンブリプロセス、保守、医療処置におけるアプリケーションで見られる。また、携帯拡張現実システムも、現実のオブジェクトの情報を提示し、視聴するオブジェクトを配置するために拡張現実が使用される、観光業界および観光におけるアプリケーションで見られる。
没入型拡張現実エクスペリエンスは、一般的にゴーグルまたはヘルメットの形態の、ヘッドマウントディスプレイを使用して提供される。ヘッドマウントディスプレイによって、仮想ビジュアルオブジェクトが、現実のシーンのユーザの視界の上に重ね合わされる。ヘッドマウントディスプレイは、システムが仮想情報を物理界と合わせることを可能にするセンサによって追跡される。追跡は、例えば、デジタルカメラもしくは他の光学センサ、加速度計、ＧＰＳ、ジャイロスコープ、固体コンパス、ＲＦＩＤ、および無線センサ等の技術のうちの任意の１つ以上を使用して行われ得る。ヘッドマウントディスプレイは、光学シースルーまたはビデオシースルーのいずれかである。光学シースルーは、画像にレンズを通過させ、情報がユーザの眼の中へ反射されるようにオーバーレイするように、半透鏡等の解決策、およびデジタル情報および画像を直接的または間接的にユーザの網膜に表示する透明なＬＣＤプロジェクターを利用する。

【発明の概要】

【課題を解決するための手段】

【0008】

本発明は、拡張現実のための対話型システムを提供する。本発明の対話型システムは、例えば眼鏡またはゴーグルに組み込まれ得る、装着可能なデータ表示デバイスを含む。装着可能なディスプレイは、場所抽出機能（ＧＰＳ等）およびコンパスを提供するデバイスを有する。本システムはまた、ユーザが視聴している現実のシーンを拡張するために、ユーザがコンピュータ生成データを選択することを可能にする、ユーザインターフェースも含む。カメラは、視聴されている現実のシーンの画像を取得する。プロセッサは、ユーザの指等のカメラによって取り込まれる現実のシーンの画像の中の予め定義されたオブジェクトを検出する。ユーザがシーンの中の要素を指し示すと、要素に関連するデータが、データ表示デバイス上に表示され、シーンのユーザの視界の上に重ね合わされる。

【0009】

したがって、その態様の１つにおいて、本発明は、拡張現実のための方法を提供し、該方法は、
（ａ）１つ以上の画像センサから現実のシーンの画像を取得することと、
（ｂ）１つ以上の状態センサから、画像センサの配向および場所データのうちの一方または双方を取得することと、
（ｃ）１つまたは複数の画像センサによって取得される現実のシーンの画像の中で、予め定義されたポインティングオブジェクトが予め定義されたジェスチャーを行っている現実のオブジェクトを識別することとであって、ジェスチャー検出モジュールが、１つ以上の状態センサによって提供されるデータを利用する、識別することと、
（ｄ）識別されたオブジェクトと関連付けられるデータを視聴デバイスのディスプレイ上に提示することと、を含む。

【0010】

画像センサは、カメラ、光センサ、赤外線センサ、超音波センサ、近接センサ、ＣＭＯＳ画像センサ、短波長赤外線（ＳＷＩＲ）画像センサ、または反射センサ、赤外線センサ、超音波センサ、近接センサ、および反射センサから選択され得る。状態センサの１つ以上は、光学センサ、加速度計、ＧＰＳ、ジャイロスコープ、コンパス、磁気センサ、地球磁場に対するデバイスの方向を示すセンサ、重力センサ、およびＲＦＩＤ検出器から選択され得る。

【0011】

識別されたオブジェクトと関連付けられるデータは、現実のオブジェクトと関連付けられるデータについてメモリを検索することによって取得され得る。

【0012】

予め定義されたオブジェクトは、例えば、手、手の一部、両手、両手の一部、指、指の一部、または指の先端であり得る。

【0013】

視聴デバイスは、ユーザによって装着されるように構成され、例えば、眼鏡またはゴーグルであり得る。視聴デバイスは、モバイル通信デバイスに組み込まれ得る。

【0014】

１つまたは複数の画像センサによって取得される現実のシーンの画像の中で識別するステップは、画像センサによって取得される画像の中の予め定義されたオブジェクトの場所（Ｘ，Ｙ）を決定し、センサによって提供される表示デバイスの場所および配向のうちの一方または双方を決定することを含み得る。

【0015】

本発明の方法はさらに、外部のデバイスまたはウェブサイトと通信することを含み得る。この通信は、メッセージを、外部デバイス上で動作するアプリケーション、外部デバイス上で動作するサービス、外部デバイス上で動作するオペレーティングシステム、外部デバイス上で動作するプロセス、外部デバイスのプロセッサ上で動作する１つ以上のアプリケーション、外部デバイスのバックグラウンドで動作するソフトウェアプログラム、または外部デバイス上で動作する１つ以上のサービスに送ることを含み得る。本方法はさらに、メッセージを、モバイル通信デバイス上で動作するアプリケーション、モバイル通信デバイス上で動作するサービス、モバイル通信デバイス上で動作するオペレーティングシステム、モバイル通信デバイス上で動作するプロセス、モバイル通信デバイスのプロセッサ上で動作する１つ以上のアプリケーション、モバイル通信デバイスのバックグラウンドで動作するソフトウェアプログラム、またはモバイル通信デバイス上で動作する１つ以上のサービスに送ることを含み得る。

【0016】

本方法はさらに、画像の中で識別される現実のオブジェクトに関連するデータを要求するメッセージを、外部デバイス上で動作するアプリケーション、外部デバイス上で動作するサービス、外部デバイス上で動作するオペレーティングシステム、外部デバイス上で動作するプロセス、外部デバイスのプロセッサ上で動作する１つ以上のアプリケーション、外部デバイスのバックグラウンドで動作するソフトウェアプログラムから送ること、または外部デバイス上で動作する１つ以上のサービスに送ることを含み得る。本方法はさらに、画像の中で識別される現実のオブジェクトに関連するデータを要求するメッセージを、モバイル通信デバイス上で動作するアプリケーション、モバイル通信デバイス上で動作するサービス、モバイル通信デバイス上で動作するオペレーティングシステム、モバイル通信デバイス上で動作するプロセス、モバイル通信デバイスのプロセッサ上で動作する１つ以上のアプリケーション、モバイル通信デバイスのバックグラウンドで動作するソフトウェアプログラムから送ること、またはモバイル通信デバイス上で動作する１つ以上のサービスに送ることを含み得る。

【0017】

外部デバイスまたはウェブサイトに対するメッセージは、コマンドであり得る。このコマンドは、外部デバイスまたはウェブサイト上でアプリケーションを動作させるためのコマンド、外部デバイスまたはウェブサイト上で動作するアプリケーションを停止するためのコマンド、外部デバイスまたはウェブサイト上で動作するサービスを起動させるためのコマンド、外部デバイスまたはウェブサイト上で動作するサービスを停止するためのコマンド、または画像の中で識別される現実のオブジェクトに関連するデータを送るためのコマンドから選択され得る。

【0018】

モバイル通信デバイスに対するメッセージは、コマンドであり得る。このコマンドは、アプリケーションをモバイル通信デバイス上で動作させるためのコマンド、モバイル通信デバイスまたはウェブサイト上で動作するアプリケーションを停止するためのコマンド、モバイル通信デバイス上で動作するサービスを起動させるためのコマンド、モバイル通信デバイス上で動作するサービスを停止するためのコマンド、または画像の中で識別される現実のオブジェクトに関連するデータを送るためのコマンドから選択され得る。

【0019】

本方法はさらに、外部デバイスまたはウェブサイトから、画像の中で識別される現実のオブジェクトに関連するデータを受け取り、受け取ったデータをユーザに提示することを含み得る。

【0020】

外部デバイスまたはウェブサイトとの通信は、通信ネットワークを通じたものであり得る。

【0021】

外部デバイスに対するコマンドは、外部デバイスの表示デバイス上に表示される仮想キーを押し下げること、選択カルーセルを回転させること、デスクトップ間で切り替えること、外部デバイス上で予め定義されたソフトウェアアプリケーションを動作させること、外部デバイス上のアプリケーションをオフにすること、スピーカーをオンまたはオフにすること、音量を上げるまたは下げること、外部デバイスをロックすること、外部デバイスをロック解除すること、メディアプレーヤーで別のトラックに、またはＩＰＴＶチャンネル間でスキップすること、ナビゲーションアプリケーションを制御すること、通話を開始すること、通話を終了すること、通知を提示すること、通知を表示すること、写真または音楽アルバムギャラリーの中をナビゲートすること、ウェブページをスクロールすること、電子メールを提示すること、１つ以上の文書または地図を提示すること、ゲームのアクションを制御すること、地図で指し示すこと、地図または画像を拡大／縮小すること、画像に色を塗ること、起動可能なアイコンを掴み、起動可能なアイコンを表示デバイスから引き出すこと、起動可能なアイコンを回転させること、外部デバイス上でタッチコマンドをエミュレートすること、１つ以上のマルチタッチコマンド、タッチジェスチャーコマンド、タイピングを行うこと、一時停止または再生するために、表示映像をクリックすること、フレームにタグ付けすること、または映像からフレームを取り込むこと、着信メッセージを提示すること、着信に応答すること、着信を消音または拒否すること、着信リマインダを開くこと、ネットワークコミュニティサービスから受け取った通知を提示すること、外部デバイスによって生成された通知を提示すること、予め定義されたアプリケーションを開くこと、外部デバイスをロックモードから切り替え、最近の通話アプリケーションを開くこと、外部デバイスをロックモードから切り替え、オンラインサービスアプリケーションまたはブラウザを開くこと、外部デバイスをロックモードから切り替え、電子メールアプリケーションを開くこと、外部デバイスをロックモードから切り替え、オンラインサービスアプリケーションまたはブラウザを開くこと、デバイスをロックモードから切り替え、カレンダアプリケーションを開くこと、デバイスをロックモードから切り替え、リマインダアプリケーションを開くこと、デバイスをロックモードから切り替え、ユーザによって設定される、外部デバイスの製造業者によって設定される、もしくはサービスオペレータによって設定される、予め定義されたアプリケーションを開くこと、起動可能なアイコンを起動させること、メニューアイテムを選択すること、ディスプレイ上のポインタを移動させること、タッチフリーマウス、ディスプレイ上の起動可能なアイコンを操作すること、ディスプレイ上の情報を変更すること、から選択され得る。

【0022】

本発明の方法において、予め定義されたジェスチャーは、スワイプ動作、２本の指の摘み動作、左から右に指し示すジェスチャー、右から左に指し示すジェスチャー、上方を指し示すジェスチャー、下方を指し示すジェスチャー、押すジェスチャー、握った拳を開くこと、握った拳を開き、画像センサに向かって移動させること、タップするジェスチャー、手を振るジェスチャー、拍手するジェスチャー、逆の拍手するジェスチャー、手を拳に閉じること、摘むジェスチャー、逆の摘むジェスチャー、手の指を広げるジェスチャー、逆の手の指を広げるジェスチャー、起動可能なアイコンで指し示すこと、予め定義された時間にわたって起動オブジェクトを保持すること、起動可能なアイコンをクリックすること、起動可能なアイコンをダブルクリックすること、起動可能なアイコンを右側からクリックすること、起動可能なアイコンを左側からクリックすること、起動可能なアイコンを底部からクリックすること、起動可能なアイコンを頂部からクリックすること、起動可能なアイコンのオブジェクトを掴むこと、右から起動可能なアイコンのオブジェクトに向かってジェスチャーをすること、左から起動可能なアイコンに向かってジェスチャーをすること、起動可能なアイコンを左から通過すること、オブジェクトを押すこと、拍手すること、起動可能なアイコンの上で手を振ること、吹き飛ばすジェスチャーを行うこと、タップするジェスチャーを行うこと、起動可能なアイコンの上で時計回りまたは反時計回りのジェスチャーを行うこと、アイコンをスライドさせること、２本の指で起動可能なアイコンを掴むこと、およびクリック－ドラッグ－リリース動作を行うこと、から選択され得る。

【0023】

識別されたオブジェクトと関連付けられるデータは、視覚データ、音声データ、またはテキストデータのうちのいずれか１つ以上であり得る。識別されたオブジェクトと関連付けられるデータは、起動可能なアイコンであり得る。起動可能なアイコンは、２Ｄまたは３Ｄの起動可能なアイコンであり得る。起動可能なアイコンは、ユーザの前方の３Ｄ空間の中でユーザによって認識され得る。

【0024】

本発明の方法は、２つ以上の動作モードを有し得る。本方法は、予め定義されたジェスチャーの識別に応じて、システムの動作モードを切り替え得る。動作モードは、識別されるジェスチャー、ジェスチャー検出モジュール上で起動されるアルゴリズム、画像センサによって取り込まれる画像の解像度および画像センサによって取り込まれる画像の取り込み率、提示されるデータの詳細レベル、ユーザに提示される起動可能なアイコン、提示されるデータのソース、提示されるデータの詳細レベル、表示デバイス上に表示される起動可能なアイコン、アクティブオンラインサービス、のうちの任意の１つ以上によって指定され得る。

【0025】

動作モードは、予め定義されたジェスチャーの識別に応じて、画像センサによって画像を映像録画するモード、予め定義されたジェスチャーの識別に応じて、マイクロホンによって音声を記録し、別の予め定義されたジェスチャーの識別に応じて、記録を停止するモード、映像または音声を継続的に監視し、予め定義されたジェスチャーの検出を受けて、ジェスチャーを識別する予め定義された時間前から映像または音声の記録を開始し、別の予め定義されたジェスチャーの識別後に記録を停止するモード、予め定義されたジェスチャーの識別に応じて、取り込まれた、およびリアルタイムで記録された映像にタグを加えるモード、カメラによって取り込まれるときに視界の中の領域を選択し、領域を視界の中の別の場所にコピーし、それをサイズ変更するモード、画像の中の選択された領域上でトラッカーを利用し、表示デバイス上のサイズ変更され、再配置された領域の中に、選択された領域をリアルタイムで提示するモード、予め定義されたジェスチャーの識別に応じて、画像を取り込むモード、から選択されるモードであり得る。

【0026】

本発明の方法はさらに、識別された現実のオブジェクトを追跡し、表示される関連付けられた視覚データを、識別された現実のオブジェクトに対して固定位置に維持する、追跡アルゴリズムを動作させることを含み得る。

【0027】

表示デバイスが所定の閾値未満の動作レベルを有するときにだけ予め定義されたオブジェクトを検出するために、オブジェクト認識モジュールが利用され得る。

【0028】

本方法はさらに、予め定義されたジェスチャーが識別されたときに、フィードバックを提供することを含み得る。フィードバックは、例えば、視覚フィードバック、音声フィードバック、触覚フィードバック、指向性振動、空気触覚フィードバック、または超音波フィードバックであり得る。フィードバックは、表示デバイス上に表示される起動可能なアイコン、表示デバイス上に表示される起動可能なアイコンの変化、表示デバイス上に表示される起動可能なアイコンの色の変化、表示デバイス上に表示される起動可能なアイコンのサイズの変化、表示デバイス上に表示される起動可能なアイコンのアニメーション、指示光、表示デバイス上を移動するインジケータ、表示デバイス上に現れる全ての他の画像または映像の頂部に現れる、表示デバイス上を移動するインジケータ、予め定義されたオブジェクトの周囲が輝く外観、から選択される形態の視覚指示であり得る。フィードバックは、振動、指向性振動指示、または空気触覚指示であり得る。

【0029】

本発明の方法において、表示デバイス上に表示される起動可能なアイコンの一部は、予め定義されたオブジェクトが位置する所に提示され得ず、よって、予め定義されたオブジェクトが、起動可能なアイコンの頂部上にあるように見える。

【0030】

起動可能なアイコンは、表示デバイスが予め定義された閾値を超える起動レベルを有するときに、表示デバイスから除去され得る。表示デバイス上の除去されたアイコンは、例えば、表示デバイスが予め定義された閾値未満の動作レベルを有するときに除去され得る。

【0031】

本方法は、予め定義されたアクションが行われるときに、起動モードに入り得る。予め定義されたアクションは、予め定義されたオブジェクトを下側から視界の中へ持ち込むこと、ユーザが、予め定義されたオブジェクトをある場所に配置する、またはカメラの視界の右下隅部を指し示す、もしくはカメラの視界の中でユーザが手を開く等のポーズをとるとき、手を視界を横断して右から左に移動させる等の予め定義されたジェスチャーを行うとき、起動可能なアイコンが表示され、ユーザが、起動可能なアイコンを指し示す等の、起動可能なアイコンに相関する予め定義されたジェスチャーを行う、もしくは起動可能なアイコンが提示される場所で手を振るジェスチャーを行うとき、またはデバイスに触れることによって、起動可能なアイコンが位置すると認識される３Ｄ空間の中でジェスチャーを行うことによって、浮動的な起動可能なアイコンを一方からもう一方の場所へスライドさせること、またはデバイスに加速度計が提供される場合に、デバイスをタップすること、から選択され得る。さらに別の例として、システムは、デバイスに近接センサまたは超音波センサが提供される場合に、ユーザがデバイスの近くに手を通過させるときに、起動モードに入り得る。システムはまた、音声コマンドによっても、またはユーザが予め定義されたオブジェクトを視界の中の特定の場所の中に配置するときにも起動され得る。さらに別の例として、システムは、ユーザの視界の中の現実と関連付けられる関連データがあるときにだけ起動モードに入り得る。システムは、提示される関連データがあるときに、または対話の準備が整っているときに、ユーザに示し得る。

【0032】

本発明の方法はさらに、現実のオブジェクトと相関するデータがメモリに存在することを示す視覚指示を、現実のオブジェクトに添付することを含み得る。視覚指示は、現実のオブジェクトの画像上にオーバーレイされ得る。視覚は、起動可能なアイコン、写真、封筒の画像から選択され得る。

【0033】

本発明の方法はさらに、予め定義されたオブジェクトの１つ以上の物理的パラメータを記録するための較正プロセスを含み得る。較正プロセスは、３Ｄ空間の異なる場所の中で、起動可能なアイコンをディスプレイ上に提示するステップ、予め定義されたオブジェクトの物理的特徴を抽出するステップ、および予め定義されたオブジェクトの寸法とカメラからのその距離との相関関係を決定するステップ、から選択される任意の１つ以上のステップを含み得る。較正プロセスは、画像センサの１つおよび予め定義されたオブジェクトの先端部の頂点を有し、ユーザの見通し線によって形成される側部を有する三角形を構築するステップを含み得る。カメラからの現実のオブジェクトの距離は、較正において抽出される情報に基づいて推定され得る。

【0034】

本方法はさらに、テキストタイピングを可能にするキーボードを表示することをさらに含み得る。キーボードは、画像センサの視界の予め定義された領域の中での、右から左へのジェスチャー、開いた手を提示すること、２つの開いた手を提示すること等の、予め定義されたジェスチャーの検出に応じて表示され得る。キーボードは、３Ｄタイピング領域の中で、または予め定義された起動可能なアイコンが位置すると認識する所で、クリックジェスチャーを行うことに応じて表示され得る。

【0035】

本発明はまた、本発明の方法を実行するように構成されるデバイスを備える、システムも提供する。

【0036】

本発明はまた、コンピュータプログラムがコンピュータ上で動作するときに、本発明の方法の全てのステップを行うためのコンピュータプログラムコード手段も備える、コンピュータプログラムも提供する。コンピュータプログラムは、コンピュータが読み出し可能な媒体上に具現化され得る。

【0037】

ユーザは、一般的に眼鏡を通して表示される視覚映像と対話し得る。したがって、現実のユーザの視界は、ディスプレイ上に提示される情報によって拡張される。拡張現実デバイスによる１つの課題は、ユーザがデバイスと対話し、それを制御する手法である。従来の制御デバイス、例えば、マウス、トラックボール、またはタッチ画面は、拡張現実デバイスで使用することが困難である。ユーザ、したがって拡張現実デバイスは、リアルタイムで絶えず移動しているので、拡張現実システムにおいてジェスチャー認識を使用することは、容易ではない。

【0038】

したがって、本発明は、プロセッサに方法を行わせるための命令を含む、コンピュータプログラム製品を提供し、該方法は、
拡張現実デバイスと関連付けられる画像センサから、環境と関連付けられる画像情報を受け取ることと、
環境に関連する拡張情報を、デバイスと関連付けられるディスプレイ上に表示することと、
画像情報の中で、デバイスのユーザによる手のジェスチャーを認識することと、
手のジェスチャーを拡張情報と相関させることと、
相関させることに基づいて、表示された拡張情報を変更することと、を含む。

【0039】

拡張情報は、環境の中のオブジェクトと関連付けられる情報、環境と関連付けられる画像、および環境と関連付けられる距離、のうちの少なくとも１つを含み得る。

【0040】

相関させることは、ユーザの手の少なくとも一部分の３次元空間の中の基準場所を決定し、基準場所と関連付けられる拡張情報および画像情報データのうちの少なくとも１つを決定することを含み得る。

【0041】

変更することは、基準場所と関連付けられるデータの関数として、拡張情報を切り替えることを含み得る。
本発明を理解し、それが実際にどのように実行され得るのかを確認するために、ここで、添付図面を参照して、実施形態を単に限定的でない実施例として説明する。

【図面の簡単な説明】

【0042】

【図1】本発明の一実施形態に従う、拡張現実のためのシステムを概略的に示す図である。

【図2】本発明の一実施形態に従う、１組のゴーグルを備える拡張現実のためのシステムを示す図である。

【図3】使用中の図２のシステムを示す図である。

【図4a】図２のシステムのディスプレイデバイス上に表示される現実のシーンの視界を示す図である。

【図4b】ユーザの指が視界の中のオブジェクトを指し示す、図４ａの視界を示す図である。

【図4c】図４ｂの視界の上にオーバーレイされる、ユーザの指が指し示すオブジェクトに関連する視覚テキストを示す図である。

【図5a】本発明の別の実施形態に従う、通信デバイスと一体的な拡張現実のためのシステムを示す図である。

【図5b】本発明の別の実施形態に従う、通信デバイスと一体的な拡張現実のためのシステムを示す図である。

【図6a】ユーザが領域の輪郭を「描画」するジェスチャーを行うことによって、画像センサの視界の中で領域を指定することを示す図である。

【図6b】第２のジェスチャーを行うことによって、選択された領域をサイズ変更することを示す図である。

【図6c】サイズ変更後の領域を示す図である。

【図6d】視界の中の新しい場所にドラッグされた後の領域を示す図である。

【発明を実施するための形態】

【0043】

図１は、本発明の一実施形態に従う、拡張現実のためのシステム３０を概略的に示す。システム３０は、現実のシーンの画像を取得するように構成される、１つ以上の画像センサ３２を含む。本発明のシステムでは、カメラ、光センサ、赤外線センサ、超音波センサ、近接センサ、ＣＭＯＳ画像センサ、短波長赤外線（ＳＷＩＲ）画像センサ、または反射センサ等の、任意のタイプの画像センサが使用され得る。

【0044】

システム３０はさらに、ユーザが、現実のシーン、および現実のシーンの上に重ね合わせられる画像、映像、または音声信号等の外部情報の双方を見ることを可能にする１つ以上の表示デバイス３５を有する、視聴デバイス３４を含む。本発明のシステムでは、ユーザが、現実のシーンおよび表示されるデータの双方を見ることを可能にする、任意のタイプの表示デバイスが使用され得る。

【0045】

表示デバイス３５は、例えば、その上で視覚材料がユーザに提示される表面、または画像をユーザの網膜に直接表示する１つ以上のプロジェクターを備え得る。プロセッサ３６は、例えば光学センサ、加速度計、ＧＰＳ、ジャイロスコープ、固体コンパス、磁気センサ、重力センサ、およびＲＦＩＤ検出器のうちの任意の１つ以上であり得る１つ以上の状態センサ３８から、システム３０の配向および／または場所データを取得する。プロセッサ３６は、例えば、専用プロセッサ、汎用プロセッサ、ＤＳＰ（デジタルシグナリングプロセッサ）プロセッサ、ＧＰＵ（視覚処理ユニット）プロセッサ、専用ハードウェア、または外部デバイス上で動作することができるプロセッサであり得る。システム３０は、視聴デバイス３４上で、またはシステム３０の他の構成要素を組み込むスマートフォン等の別のデバイス３７上で、ソフトウェアとして動作し得る。

【0046】

プロセッサ３６は、画像センサ３２によって取得される現実のシーンの画像の中で、予め定義されたオブジェクトが指し示している１つ以上の現実のオブジェクトを識別する、ジェスチャー検出モジュール４０を動作させるように構成される。現実のオブジェクトは、例えば、建物または広告板であり得る。現実のオブジェクトの決定は、状態センサ３８によって提供されるデータを利用する。予め定義されたオブジェクトは、ユーザの指、またはスタイラスまたはワンド等の他のオブジェクトであり得る。

【0047】

プロセッサ３６が、予め定義されたオブジェクトが指し示している現実のオブジェクトを識別すると、プロセッサは、識別されたオブジェクトと関連付けられるデータについてメモリ４２を検索する。データは、例えば、視覚データ、音声データ、またはテキストデータであり得る。視覚データは、識別されたオブジェクトに関連するテキスト情報であり得る。プロセッサは、次いで、識別されたオブジェクトと関連付けられる、関連付けられた視覚データを視聴デバイスのディスプレイ上に表示する。メモリ４２は、システム３０と統合され得、または遠隔に配置され、インターネット等の通信ネットワークを通じてアクセスされ得る。したがって、システム３０は、システム３０がネットワーク、無線ネットワーク、セルラーネットワーク、別のデバイス３０等の外部デバイス、携帯電話、タブレット、またはインターネットウェブサイト等と通信することを可能にする、通信モジュール３９を備え得る。

【0048】

データは、起動可能なアイコンであり得る。本明細書で使用される「起動可能なアイコン」という用語は、ユーザ対話によって起動される１つ以上のメッセージまたはコマンドと関連付けられる画像または映像の中の領域を指す。起動可能なアイコンは、例えば、仮想ボタン、仮想キーボード、またはアイコン等の、２Ｄまたは３Ｄの視覚要素であり得る。起動可能なアイコンは、システムによって認識可能である１つ以上の予め定義されたオブジェクトによって起動され、予め定義されたオブジェクトは、例えば、スタイラス、ユーザの手の１つ以上もしくは手の一部、１つ以上の指もしくは指の先端部等の指の一部分であり得る。予め定義されたオブジェクトによる起動可能なアイコンの１つ以上の起動は、オペレーティングシステム、１つ以上のサービス、１つ以上のアプリケーション、１つ以上のデバイス、１つ以上のリモートアプリケーション、１つ以上のリモートサービス、または１つ以上のリモートデバイス宛てのメッセージまたはコマンドの生成をもたらす。

【0049】

プロセッサ３６は、メッセージまたはコマンドを、デバイス３７もしくはリモートデバイス、デバイス上で動作するアプリケーション、デバイス３７上で動作するサービスおよびデバイス上で動作するオペレーティングシステム、デバイス上動作するプロセス、バックグラウンドで動作するソフトウェアプログラム、およびデバイス上で動作する１つ以上のサービス、またはデバイスにおいて動作するプロセスに送るように構成され得る。メッセージまたはコマンドは、インターネットまたは携帯電話ネットワーク等の通信ネットワークを通じて送られ得る。コマンドは、例えば、デバイス上でアプリケーションを動作させるためのコマンド、デバイス上で動作するアプリケーションを停止するためのコマンド、デバイス上で動作するサービスを起動させるためのコマンド、デバイス上で動作するサービスを停止するためのコマンド、またはプロセッサ３６によって画像の中で識別される現実のオブジェクトに関連するデータをプロセッサ３６に送るためのコマンドであり得る。

【0050】

コマンドは、デバイスの表示デバイス上に表示される仮想キーを押し下げること、選択カルーセルを回転させること、デスクトップ間で切り替えること、予め定義されたソフトウェアアプリケーションをデバイス上で動作させること、デバイス上のアプリケーションをオフにすること、スピーカーをオンまたはオフにすること、音量を上げるまたは下げること、デバイスをロックすること、デバイスをロック解除すること、メディアプレーヤーで別のトラックに、またはＩＰＴＶチャンネル間でスキップすること、ナビゲーションアプリケーションを制御すること、通話を開始すること、通話を終了すること、通知を提示すること、通知を表示すること、写真または音楽アルバムギャラリーの中をナビゲートすること、ウェブページをスクロールすること、電子メールを提示すること、１つ以上の文書または地図を提示すること、ゲームのアクションを制御すること、対話映像またはアニメーションのコンテンツを制御すること、映像または画像を編集すること、地図を指し示すこと、地図または画像を拡大／縮小すること、画像に色を塗ること、表示デバイスから離れて起動可能なアイコンを押すこと、起動可能なアイコンを掴み、起動可能なアイコンを表示デバイスから引き出すこと、起動可能なアイコンを回転させること、デバイス上でタッチコマンドをエミュレートすること、１つ以上のマルチタッチコマンド、タッチジェスチャーコマンド、タイピングを行うこと、一時停止または再生するために、表示映像をクリックすること、映像または音楽コマンドを編集すること、フレームにタグ付けすること、または映像からフレームを取り込むこと、映像から映像のサブセットを切り取ること、着信メッセージを提示すること、着信に応答すること、着信を消音または拒否すること、着信リマインダを開くこと、ネットワークコミュニティサービスから受け取った通知を提示すること、デバイスによって生成された通知を提示すること、デバイスをロックモードから切り替え、最近の通話アプリケーションを起動させること、デバイスをロックモードから切り替え、オンラインサービスアプリケーションまたはブラウザを起動させること、デバイスをロックモードから切り替え、電子メールアプリケーションを起動させること、デバイスをロックモードから切り替え、オンラインサービスアプリケーションまたはブラウザを起動させること、デバイスをロックモードから切り替え、カレンダアプリケーションを起動させること、デバイスをロックモードから切り替え、リマインダアプリケーションを起動させること、デバイスをロックモードから切り替え、ユーザによって設定される、デバイスの製造業者によって設定される、もしくはサービスオペレータによって設定される、予め定義されたアプリケーションを起動させること、起動可能なアイコンを起動させること、メニューアイテムを選択すること、ディスプレイ上のポインタを移動させること、タッチフリーマウスを操作すること、ディスプレイ上の起動可能なアイコンを起動させること、およびディスプレイ上の情報を変更すること等の、デバイス３７に対するコマンドであり得る。

【0051】

通信モジュールは、例えばリモートデバイスに宛てられ得るメッセージを伝送するために使用され得る。メッセージは、例えば、リモートデバイスに対するコマンドであり得る。コマンドは、例えば、リモートデバイス上でアプリケーションを動作させるためのコマンド、リモートデバイス上で動作するアプリケーションを停止するためのコマンド、リモートデバイス上で動作するサービスを起動させるためのコマンド、リモートデバイス上で動作するサービスを停止するためのコマンドであり得る。メッセージは、リモートデバイスの表示デバイス上に表示される仮想キーを押し下げること、選択カルーセルを回転させること、デスクトップ間で切り替えること、予め定義されたソフトウェアアプリケーションをリモートデバイス上で動作させること、リモートデバイス上のアプリケーションをオフにすること、スピーカーをオンまたはオフにすること、音量を上げるまたは下げること、リモートデバイスをロックすること、リモートデバイスをロック解除すること、メディアプレーヤーで別のトラックに、またはＩＰＴＶチャンネル間でスキップすること、ナビゲーションアプリケーションを制御すること、通話を開始すること、通話を終了すること、通知を提示すること、通知を表示すること、写真または音楽アルバムギャラリーの中をナビゲートすること、ウェブページをスクロールすること、電子メールを提示すること、１つ以上の文書または地図を提示すること、ゲームのアクションを制御すること、地図を指し示すこと、地図または画像を拡大／縮小すること、画像に色を塗ること、起動可能なアイコンを掴み、起動可能なアイコンを表示デバイスから引き出すこと、起動可能なアイコンを回転させること、リモートデバイス上でタッチコマンドをエミュレートすること、１つ以上のマルチタッチコマンド、タッチジェスチャーコマンド、タイピングを行うこと、一時停止または再生するために、表示映像をクリックすること、フレームにタグ付けすること、または映像からフレームを取り込むこと、着信メッセージを提示すること、着信に応答すること、着信を消音または拒否すること、着信リマインダを開くこと、ネットワークコミュニティサービスから受け取った通知を提示すること、リモートデバイスによって生成された通知を提示すること、予め定義されたアプリケーションを開くこと、リモートデバイスをロックモードから切り替え、最近の通話アプリケーションを開くこと、リモートデバイスをロックモードから切り替え、オンラインサービスアプリケーションまたはブラウザを開くこと、リモートデバイスをロックモードから切り替え、電子メールアプリケーションを開くこと、リモートデバイスをロックモードから切り替え、オンラインサービスアプリケーションまたはブラウザを開くこと、デバイスをロックモードから切り替え、カレンダアプリケーションを開くこと、デバイスをロックモードから切り替え、リマインダアプリケーションを開くこと、デバイスをロックモードから切り替え、ユーザによって設定される、リモートデバイスの製造業者によって設定される、またはサービスオペレータによって設定される、予め定義されたアプリケーションを開くこと、起動可能なアイコンを起動させること、メニューアイテムを選択すること、ディスプレイ上のポインタを移動させること、タッチフリーマウス、ディスプレイ上の起動可能なアイコンを操作すること、ディスプレイ上の情報を変更すること、から選択される、リモートデバイスに対するコマンドであり得る。

【0052】

メッセージは、識別されたオブジェクトと関連付けられるデータの要求とすることができる。データ要求メッセージは、デバイス上で動作するアプリケーション、サービス、プロセス、スレッドに宛てられ得、または外部デバイス上で動作するアプリケーション、サービス、プロセス、もしくはスレッドから、またはオンラインサービスから宛てられ得る。

【0053】

ＣＰＵリソースを低減させるために、状態センサによって取得された情報から判定したときにヘッドセットが著しく移動していないときにだけ、予め定義されたオブジェクトを検出するためのオブジェクト認識モジュールを利用することができる。

【0054】

図２は、本発明の一実施形態に従う、拡張現実のシステム２を示す。システム２は、例えば、眼鏡またはゴーグル４等の対話型ヘッドマウント式アイピースであり得る、携帯視聴デバイスを備える。ゴーグル４には、現実のシーン８の画像を取得する、画像センサ６が提供される。シーン８は、例えば、１つ以上の建物１２または１つ以上の広告板１４を含み得る。ゴーグルには、ユーザがゴーグル４を装着したときにユーザの眼の前方に位置付けられるようにゴーグル４の中に位置する、１つ以上の表示デバイス１０が提供され得る。表示デバイス１０は、例えば、外部データを提示するとともに、それを通して現実のシーンが視聴される、透明なＬＣＤ画面等のシースルーデバイスであり得る。システム２はさらに、画像センサ６によって取り込まれる画像の中で、予め定義されたオブジェクトが、ジェスチャーを行うこと、または現実のシーン８の中の現実のオブジェクトもしくはユーザに表示される起動可能なアイコンを指し示すことを識別するように構成される、プロセッサ１６を備える。システム２はまた、ＧＰＳ、加速度計、ジャイロスコープ、固体コンパス、磁気センサ、または重力センサ等の、１つ以上の場所および／または配向センサ２３も含む。

【0055】

図５は、本発明の別の実施形態に従う、拡張現実のシステム４０を示す。システム４０は、携帯電話、タブレット、またはカメラ等の、モバイル通信デバイス４２に統合される。通信デバイス４２の正面図は、図５ａで示され、通信デバイス４２の背面図は、図５ｂで示される。通信デバイス４２には、表示デバイスの反対側のその裏面に、現実のシーンの画像を取得する画像センサ４６が提供される。通信デバイス４２にはまた、その表面に、カメラ４６が現実のシーンに向かって方向付けられたときにユーザの前方に位置付けられる、表示デバイス４８も提供される。表示デバイス４８は、例えば、下で説明されるように、視覚データとともに、カメラ６によって取得される現実のシーンの画像をユーザに提示する、ＬＣＤスクリーンであり得る。システム４０は、カメラ４６、表示デバイス４８、および通信デバイス４２のプロセッサを利用し、さらに、図５では示されない、通信デバイス４２の筐体内に含まれる１つ以上の状態センサを備える。プロセッサは、画像センサ４６によって取り込まれる画像の中で、現実のシーンの中の現実のオブジェクトを指し示す、予め定義されたオブジェクトを識別するように構成される。

【0056】

図３ａは、使用中のシステム２を示す。ゴーグル４は、ユーザ１８の眼を覆って配置される。ユーザは、現実のシーン８に対面し、したがって、シーン８を視聴する。図３ｂは、使用中のシステム４０を示す。ユーザ１８は、画像センサ４６が現実のシーン８に対面し、表示デバイス４８がユーザに対面した状態で、通信デバイス４２を保持する。

【0057】

この時点で、システム２または４０は、以下のプロセスを実行する。システム２または４０を使用するときにユーザが見るシーン８の視界は、表示デバイス上に表示される。図４ａは、現実のシーン８を視聴するためにシステム２または４０を使用するときにユーザが見る、シーン８の視界を示す。プロセッサ３６は、画像センサによって取得される画像を解析して、画像センサによって取り込まれる画像の中で、予め定義されたオブジェクトが、現実のシーン８の中の現実のオブジェクトに関連する予め定義されたジェスチャーをいつ行っているのかを判定する。

【0058】

ゴーグル４または通信デバイス４２等の視聴デバイス３４は、しばしば、歩行中に起こるようなユーザの動き、またはユーザの頭もしくは手の動きのため、使用中に不安定である。この状況において、センサ３８によって生成される信号は、雑音が多く、不正確であり得る。この場合は、機械視覚モジュール３７が、識別された現実のオブジェクトを追跡し、表示される関連付けられた視覚データを、識別された現実のオブジェクトに対して固定位置に維持する、追跡アルゴリズムを動作させる。

【0059】

現実のオブジェクトまたは起動可能なアイコンに関連する予め定義されたジェスチャーは、例えば、現実のオブジェクトまたは起動可能なアイコンを指し示すこと、または現実のオブジェクトまたは起動可能なアイコンの上でスワイプ動作を行うことであり得る。起動可能なアイコンは、現実のオブジェクトと相関する場合もあり、またはそうでない場合もある。

【0060】

他の可能な予め定義されたジェスチャーとしては、スワイプ動作、人差し指および親指または中指および親指等による２本の指の摘み動作、左から右に指し示すジェスチャー、右から左に指し示すジェスチャー、上方を指し示すジェスチャー、下方を指し示すジェスチャー、押すジェスチャー、握った拳を開くこと、握った拳を開いて画像センサに向かって移動させること、タップするジェスチャー、手を振るジェスチャー、拍手するジェスチャー、逆の拍手するジェスチャー、手を拳に閉じること、摘むジェスチャー、逆の摘むジェスチャー、手の指を広げるジェスチャー、逆の手の指を広げるジェスチャー、起動可能なアイコンまたは現実のオブジェクトを指し示すこと、予め定義された時間にわたって起動可能なアイコンまたは現実のオブジェクトを指し示すこと、起動可能なアイコンまたは現実のオブジェクトをクリックすること、起動可能なアイコンまたは現実のオブジェクトをダブルクリックすること、起動可能なアイコンまたは現実のオブジェクトを人差し指でクリックすること、起動可能なアイコンまたは現実のオブジェクトを中指でクリックすること、起動可能なアイコンまたは現実のオブジェクトを底部からクリックすること、起動可能なアイコンを頂部からクリックすること、起動可能なアイコンまたは現実のオブジェクトを掴むこと、右から起動可能なアイコンまたは現実のオブジェクトに向かってジェスチャーをすること、左から起動可能なアイコンまたは現実のオブジェクトに向かってジェスチャーをすること、左から起動可能なアイコンまたは現実のオブジェクトを通過すること、起動可能なアイコンまたは現実のオブジェクトを押すこと、起動可能なアイコンまたは現実のオブジェクトの上で拍手するまたは手を振ること、吹き飛ばすジェスチャーを行うこと、タップするジェスチャーを行うこと、起動可能なアイコンまたは現実のオブジェクトの上で時計回りまたは反時計回りのジェスチャーを行うこと、起動可能なアイコンまたは現実のオブジェクトをスライドさせること、２本の指で起動可能なアイコンまたは現実のオブジェクトを掴むこと、またはクリック－ドラッグ－リリース動作を行うこと、が挙げられる。

【0061】

予め定義されたオブジェクトは、例えば、ユーザの手、ユーザの指２０等のユーザの手の一部、または２つの異なる手の一部であり得る。あるいは、予め定義されたオブジェクトは、スタイラスまたはワンドであり得る。

【0062】

プロセッサ１６が、予め定義されたジェスチャーが行われたと判定すると、これは、視覚フィードバック、音声フィードバック、触覚フィードバック、指向性振動、空気触覚フィードバック、または超音波フィードバック等の、任意のタイプのフィードバックによってユーザに示され得る。フィードバックは、表示デバイス上に表示される起動可能なアイコン、表示デバイス上の起動可能なアイコンの変化、表示デバイス上の起動可能なアイコンの色の変化、起動可能なアイコンのサイズの変化、起動可能なアイコンのアニメーション、指示光、表示デバイス上を移動するインジケータ、振動、指向性振動指示、空気触覚指示、から選択される形態の視覚指示であり得る。指示は、表示デバイス上に現れる全ての他の画像または映像の頂部に現れる、表示デバイス上を移動するインジケータによって提供され得る。視覚フィードバックは、システムが予め定義されたオブジェクトを認識すると、予め定義されたオブジェクトの周囲が輝く外観であり得る。

【0063】

ジェスチャー検出モジュール４０は、画像センサ３２によって取得される画像中で予め定義されたオブジェクトを検出するための、任意の方法を使用し得る。例えば、ジェスチャー検出モジュールは、国際公開第ＷＯ２００５／０９１１２５号または第ＷＯ２０１０／０８６８６６号で開示されるように、予め定義されたオブジェクトを検出し得る。

【0064】

プロセッサ１６はさらに、予め定義されたジェスチャーがそれに向かって行われた、シーン８の中の現実のオブジェクトを決定するように構成される。したがって、例えば、図４ｂで示される画像において、プロセッサ１６は、画像の中の指の先端部の場所（Ｘ，Ｙ）を決定し、この情報を、状態センサ２１からのユーザの場所およびゴーグル４の配向と組み合わせることによって、ユーザの指２０が広告板１４を指し示していると判定する。したがって、現実のオブジェクトは、ユーザが選択することを望む現実のオブジェクトを示すためのカーソルまたは他のマーカーをユーザに示すことなくプロセッサによって識別され、現実のオブジェクトを直接指し示して対話を開始することを可能にする。プロセッサ１６は、ユーザの指２０が指し示している現実のオブジェクトに関連するデータについて、プロセッサ１６と統合され得る、または遠隔に位置し得るメモリを検索する。例えば、メモリは、広告板１４に関連するデータを記憶し得る。ユーザが、そのデータがメモリに記憶される、またはインターネットサイト等のリモートサーバから抽出される、シーン８の中のオブジェクトを指し示すと、そのデータが、シーンのユーザの視界の上に重ね合わせられて、表示デバイス１０上に表示される。したがって、図４ｃで示されるように、ユーザが広告板１４（図３）を指し示すと、広告板１４に関連する視覚データ２１が表示デバイス１０上に表示される。

【0065】

視覚データ２１は、静止画またはアニメーションであり得る。視覚データ２１は、１つ以上の起動可能なアイコンを含み得、よって、起動可能なアイコンの１つに対して予め定義されたジェスチャーが行われると、起動可能なアイコンと関連付けられるコマンドが実行される。コマンドは、例えば、選択された現実のオブジェクトに関連する特定の視覚材料を示すものであり得る。起動可能なアイコンは、２Ｄまたは３Ｄの起動可能なアイコンであり得、ユーザがユーザの前方の３Ｄ空間の中でアイコンを認識するように、ユーザに提示され得る。本明細書で使用されるとき、起動可能なアイコンは、ユーザ対話によって起動される１つ以上のメッセージと関連付けられる２Ｄまたは３Ｄの画像または映像の中の領域である。起動可能なアイコンは、例えば、２Ｄまたは３Ｄの視覚要素であり得る。起動可能なアイコンは、仮想ボタン、仮想キーボード、２Ｄまたは３Ｄの起動可能なアイコン、画像または映像の中の領域であり得る。起動可能なアイコンは、２つ以上の起動可能なアイコンから成り得る。

【0066】

プロセッサは、予め定義されたオブジェクトが位置する所で、起動可能なアイコンの一部を提示し得ず、よって、予め定義されたオブジェクトが起動可能なアイコンの頂部上にあるように見える。起動可能なアイコンは、ユーザがユーザの頭部を急速に移動させると除去され得、次いで、頭部の動作が予め定義された動作速度未満であると復帰し得る。

【0067】

システム２は、２つ以上の動作モードを有し得、プロセッサ１６は、該動作モード間で切り替えるために、１つ以上の予め定義されたジェスチャーを識別するように構成され得る。したがって、ジェスチャーは、システムをオンまたはオフにする、提示される視覚材料のソースを選択する、提示される視覚材料の詳細レベルを選択する、ユーザに提示されるボタンまたは起動可能なアイコンを選択する、または選択された現実のオブジェクトに関連するオンラインサービス等のオンラインサービスを起動させるために使用され得る。さらに別の操作モードは、予め定義されたジェスチャーの識別に応じて、画像センサによる画像の映像記録および／またはマイクロホンによる音声の記録を開始し、別の予め定義されたジェスチャーの識別に応じて、記録を停止するためのものであり得る。さらに別の操作モードは、映像および／または音声を連続的に監視するが、予め定義されたジェスチャーの検出を受けて、映像／音声が、ジェスチャーを識別する所定の時間前から記録を開始し、別の予め定義されたジェスチャーの識別後に、記録を停止することであり得る。所定の時間は、ユーザによって定義され得る。さらに別の操作モードは、予め定義されたジェスチャーの識別に応じて、取り込まれたおよびリアルタイムで記録した映像にタグを加えるものである。

【0068】

さらに別の操作モードは、図６に示される。図６ａにおいて、画像センサによって取り込まれる視界６０の中の領域６２は、図６において想像線によって示される、領域の輪郭を「描画する」ジェスチャーをユーザが行うことによって指定される。次いで、選択された領域は、選択された領域が所望のサイズ（図６ｃの６７）に至るまで、図６ｂで矢印６６によって示されるように、２本の指を離すまたは２本の指を互いに近づける等の、第２のジェスチャーをユーザが行うことによってサイズ変更される。次いで、領域６７は、視界（図６ｄ）の中の新しい場所にドラッグされ、視界の中の新しい場所にコピーされる。次いで、システムは、選択された領域上でトラッカーを利用し、選択された領域は、表示デバイス上でユーザによって設定された、サイズ変更され、再配置された領域にリアルタイムで提示される。

【0069】

ＣＰＵリソースを最小化するために、各表示される起動可能なアイコンについて、表示される起動可能なアイコンの周囲の、表示される起動可能なアイコンの境界ボックスを含む画像の領域は、固定した状態を維持するように定義され得る。システムは、この境界ボックスを追跡するために、機械視覚トラッカーを利用する。ビデオシーケンスの２つのフレームにおける境界ボックスの場所間の距離は、映像トラッカーを使用して決定されるときに、予め定義された距離未満であり、境界ボックスのトラッカーの相関値は、予め定義された値未満である。

【0070】

システムが、起動可能なアイコンだけが起動され得、現実のオブジェクトを起動させることができない動作モードであるときに、各表示される起動可能なアイコンの近傍だけで予め定義されたオブジェクトを検索することによって、ＣＰＵを最小化することができる。さらにＣＰＵを低減させるために、状態センサによって取得された情報から判定したときにヘッドセットが著しく移動していないときだけを除いて、オブジェクト認識モジュールは、常に起動されない。

【0071】

ユーザは、「友人によってだけ生成されたデータを表示する」、または「登録されたソースからのデータを表示する」、または「最近３ヶ月に生成されたデータを表示する」等の、現実のオブジェクトと相関するデータを映し出すように、異なるフィルタを選択し得る。

【0072】

システム２は、システム２による電力消費が最小である、スタンバイモードを有し得る。起動モードは、例えば、システムによって解析されている１秒あたりの映像フレーム数、解析されている画像の解像度、解析されている画像フレームの部分、および／または起動されている検出モジュールにおいて、スタンバイモードとは異なり得る。システム２は、任意の技術によって起動モードに入らせることができる。例えば、システム２は、予め定義されたオブジェクトを下側から視界の中へ持ち込むことによって、ユーザが、予め定義されたオブジェクトをある場所に配置する、またはカメラの視界の右下隅部を指し示す、もしくはカメラの視界の中でユーザが手を開く等のポーズをとるとき、手を視界を横断して右から左に移動させる等の予め定義されたジェスチャーを行うとき、起動可能なアイコンが表示され、ユーザが、起動可能なアイコンを指し示す等の、起動可能なアイコンに相関する予め定義されたジェスチャーを行う、もしくは起動可能なアイコンが提示される場所で手を振るジェスチャーを行うとき、またはデバイスに触れることによって、起動可能なアイコンが位置すると認識される３Ｄ空間の中でジェスチャーを行うことによって、浮動的な起動可能なアイコンを一方からもう一方の場所へスライドさせること、またはデバイスに加速度計が提供される場合に、デバイスをタップすることで、起動モードに入り得る。さらに別の例として、システムは、デバイスに近接センサまたは超音波センサが提供される場合に、ユーザがデバイスの近くに手を通過させるときに、起動モードに入り得る。システムはまた、音声コマンドによって、またはユーザが予め定義されたオブジェクトを視界の中の特定の場所の中に配置するときにも起動され得る。さらに別の例として、システムは、ユーザの視界の中の現実と関連付けられる関連データがあるときにだけ起動モードに入り得る。システムは、提示される関連データがあるときに、または対話の準備が整っているときに、ユーザに示し得る。

【0073】

現実のオブジェクトと相関するデータがあることをユーザに知らせるために、視覚指示が現実のオブジェクトに添付され得る。

【0074】

関連データの指示は、「ｉ」という起動可能なアイコンが情報を示し得る、および「写真」というロゴが現実のオブジェクトに関連する画像を示し得る、または「封筒」というロゴが現実のオブジェクトに相関する友人または他のユーザによって残されたメッセージを示す、等の小さい視覚指示として、現実のオブジェクトの場所の上にオーバーレイされ得る。ユーザが起動可能なアイコンと相関する予め定義されたジェスチャーを行うと、データが提示され得る。

【0075】

システム２は、カメラによって取得される画像の中の予め定義されたオブジェクトのプロセッサ２による識別を容易にするように、予め定義されたオブジェクトの種々の物理的パラメータを記録するための較正プロセスを受けるように構成され得る。これは、例えば、３Ｄ空間の異なる場所の中で、起動可能なアイコンをディスプレイ上でユーザに提示すること、および予め定義されたオブジェクトのそのサイズまたは配向等の予め定義されたオブジェクトの物理的特徴を抽出すること、および予め定義されたオブジェクトの寸法とカメラからのその距離との相関関係を決定することによって行われ得る。較正は、ユーザが指し示していると判定するために、カメラ、ユーザの見通し線、および予め定義されたオブジェクトの先端部の三角形を計算することを含み得る。精度は、較正において抽出される情報に基づいて、カメラからの現実のオブジェクトの距離を推定することによって向上し得る。

【0076】

プロセッサは、本発明のシステムの別のユーザによって、現実のシーンのカメラによって取得される画像の中で識別するように構成され得る。現実のシーンの中の別のユーザの識別は、例えば、特定の地理的領域の中のデバイスの場所をリモートサーバに知らせることによって行われ得る。他のデバイスの場所は、地理的領域の中のデバイスの全てに送ることができる。

【0077】

本発明の２つのシステム間に通信リンクが存在するときに、２つのシステムは、ゲームを行うために使用され得る。別のユーザは、「好き」等のメッセージを他のユーザに送る等のジェスチャーによってユーザが対話することができる、アバターとして表され得る。

【0078】

プロセッサは、１本以上の指または手によるテキストタイピングを可能にする、キーボードを示すように構成され得る。キーボードの表示は、右から左へのジェスチャー等の予め定義されたジェスチャーの検出に応じて、または視界の底部等のカメラの視界の予め定義された領域の中で開いた手または２つの開いた手を提示することを使用することによって開始され得る。キーボードの表示を開始するさらに別の方法は、ユーザが、タイピング領域または起動可能なアイコンが位置すると認識される３Ｄ空間の中でクリックジェスチャーを行うときである。キーボードは、例えば、仮想キーボード上でタイピングすることによってメモを書く、検索を行う、またはオンラインサービス（スカイプまたはツイッター等）で通信するために使用され得る。システムは、予め定義されたオブジェクトが位置する所でキーボードの一部を提示し得ず、よって予め定義されたオブジェクトは、キーボードの頂部にあるように見え、ユーザの手等の予め定義されたオブジェクトがキーボードを「覆う」ように見える錯覚を生じさせる。

【0079】

システムがタイピングモードであるときには、その位置がユーザの手および指と相関する、アニメーションの手がキーボード上に提示され得る。アニメーションの手の指の先端部は、キーストロークの文字が見える場所で、仮想キーストロークの上に位置し得る。キーボードおよびアニメーションの手は、好ましくは、不透明であり、よって、ユーザは、キーボードの裏側の背景を見ることができない。これは、ユーザに対してキーボードをよりわかりやすくする傾向がある。

【図1】