(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-16
(45)【発行日】2023-06-26
(54)【発明の名称】拡張現実システムのためのタッチフリーインターフェース
(51)【国際特許分類】
G06F 3/01 20060101AFI20230619BHJP
G06F 3/04815 20220101ALI20230619BHJP
G06F 3/04817 20220101ALI20230619BHJP
G06F 3/0346 20130101ALI20230619BHJP
G06T 19/00 20110101ALI20230619BHJP
【FI】
G06F3/01 570
G06F3/04815
G06F3/04817
G06F3/0346 422
G06T19/00 600
(21)【出願番号】P 2020157123
(22)【出願日】2020-09-18
(62)【分割の表示】P 2017192930の分割
【原出願日】2012-09-19
【審査請求日】2020-10-19
(32)【優先日】2011-09-19
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】511188288
【氏名又は名称】アイサイト モバイル テクノロジーズ リミテッド
(74)【代理人】
【識別番号】110000855
【氏名又は名称】弁理士法人浅村特許事務所
(72)【発明者】
【氏名】カッツ、イタイ
(72)【発明者】
【氏名】シエンフェルド、アムノン
【審査官】塩屋 雅弘
(56)【参考文献】
【文献】国際公開第2011/106798(WO,A1)
【文献】特開2011-128220(JP,A)
【文献】特開2009-123018(JP,A)
【文献】特開平10-267671(JP,A)
【文献】特開2009-251154(JP,A)
【文献】国際公開第2010/077430(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
G06F 3/04815
G06F 3/04817
G06F 3/0346
G06T 19/00
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサであって、
画像センサから現実のシーン
に関連
する画像情報の映像フレームを受信し、
前記画像情報の中で、ユーザによって行われた所定の手のジェスチャーを検出し、
ユーザの手及び
ディスプレイ上に表示され
る情報以外の1つ以上の現実のオブジェクトを
前記画像情報の中で識別し、前記1つ以上の現実のオブジェクトを識別することは、検出された前記所定の手のジェスチャーに関連付けられ、
前記映像フレームの中で識別された前記1つ以上の現実のオブジェクトに関連
する選択された画像情報を指定し、前記選択された画像情報は前記現実のシーンに関連
し、前記現実のシーンに関連
する画像情報は、前記ユーザの手及び前記
ディスプレイ上に表示され
る情報を含んでおらず、
前記検出されたジェスチャー上の少なくとも一部において、前記ユーザの手以外の識別された前記1つ以上の現実のオブジェクトに関連
する選択された前記画像情報をタグ付けし、
前記選択された画像情報の指定された領域及び検出された前記所定の手のジェスチャーよりも前の時間に関連
する少なくとも1つの映像情報を記録する
ように構成された前記プロセッサを備えたデバイス。
【請求項2】
所定の前記手のジェスチャーは、現実のオブジェクトに関連
する輪郭を描画すること及び現実のオブジェクトを指し示すことのうちの少なくとも1つを含む、請求項1に記載のデバイス。
【請求項3】
前記少なくとも1つのプロセッサはさらに、前記指定された領域をサイズ変更するように構成されている、請求項1に記載のデバイス。
【請求項4】
前記記録することは、検出された前記手のジェスチャーより前の所定の時間を開始する、請求項1に記載のデバイス。
【請求項5】
前記記録することは、検出された前記手のジェスチャーより後の所定の時間を停止する、請求項1に記載のデバイス。
【請求項6】
前記少なくとも1つのプロセッサはさらに、第2のジェスチャーの検出に基づいて、前記記録することを停止するように構成されている、請求項1に記載のデバイス。
【請求項7】
前記少なくとも1つのプロセッサはさらに、前記画像情報の中で検出された第2の所定の手のジェスチャーに関連
する画像情報の前記映像フレームからフレームを取り込むように構成されている、請求項1に記載のデバイス。
【請求項8】
前記時間は、前記ユーザによって定義された所定の量の時間である、請求項1に記載のデバイス。
【請求項9】
前記少なくとも1つのプロセッサはさらに、検出され
た第2の
前記所定の手のジェスチャーに応じて、前記画像情報の中の識別された現実のオブジェクトを追跡する追跡アルゴリズムを実行するように構成されている、請求項1に記載のデバイス。
【請求項10】
前記少なくとも1つのプロセッサはさらに、前記選択された画像情報上のトラッカーを使用して、前記ユーザの視界の中のサイズ変更された領域の中の前記選択された情報の中の前記現実のオブジェクトのリアルタイムの視界を提示するように構成されている、請求項1に記載のデバイス。
【請求項11】
デバイスを動作させる方法であって、
少なくとも1つのプロセッサが、画像センサから現実のシーン
に関連
する画像情報の映像フレームを受信することと、
少なくとも1つのプロセッサが、前記画像情報の中で、ユーザによって行われた所定の手のジェスチャーを検出することと、
少なくとも1つのプロセッサが、前記映像フレームの中で、ユーザの手及び
ディスプレイ上に表示され
る情報以外の現実のオブジェクトに関連
する選択された画像情報の領域を指定し、前記選択された画像情報は、前記ユーザの手及び前記
ディスプレイ上に表示され
る情報を含んでいない前記現実のシーンに関連
し、指定された前記領域は、検出された前記所定の手のジェスチャーに関連
し、
前記ユーザの手を含まない前記現実のシーンに関連
する前記選択された画像情報を追跡することと、
前記追跡することに基づいて、選択さ前記所定の手のジェスチャーよりも前の時間に関連
する少なくとも1つの映像情報を記録することと
を含む、前記方法。
【請求項12】
所定の前記手のジェスチャーは、前記指定された領域の輪郭を描画すること及び現実のオブジェクトを指し示すことのうちの少なくとも1つを含む、請求項11に記載の方法。
【請求項13】
前記少なくとも1つのプロセッサはさらに、前記指定された領域をサイズ変更するように構成されている、請求項11に記載の方法。
【請求項14】
第2の
前記所定の手のジェスチャー
が、2本の指を離すこと又は2本の指を互いに近づけることを含む、請求項13に記載の方法。
【請求項15】
前記画像情報の中で検出された第2の所定の手のジェスチャーに関連
してズームイン又はズームアウトすることをさらに含む、請求項11に記載の方法。
【請求項16】
前記選択された画像情報上のトラッカーを使用して、前記ユーザの視界の中のサイズ変更された領域の中の前記選択された情報の中の前記現実のオブジェクトのリアルタイムの視界を提示することをさらに含む、請求項11に記載の方法。
【請求項17】
コンピュータによって実行されると、少なくとも1つのプロセッサにデバイスを動作させる方法を実行する命令を記録した非一時的なコンピュータ読み取り可能な記録媒体であって、前記方法は、
画像センサから現実のシーンと関連
する画像情報の映像フレームを受信することと、
前記画像情報の中で、ユーザによって行われた所定の領域の選択された手のジェスチャーを検出することと、
前記検出された手のジェスチャーに関連
付けられた選択された画像情報の領域を指定することであって、前記選択された画像情報は、前記ユーザの手及
びディスプレイ上に表示され
る情報を含んでいない前記現実のシーンに関連
する、前記指定することと、
前記ユーザの手を含まない前記現実のシーンに関連
する前記選択された画像情報を追跡し、前記選択された情報の中の前記現実のシーンに関連
する選択された画像情報のリアルタイムの映像を記録することと、
を含む、前記非一時的なコンピュータ読み取り可能な記録媒体。
【請求項18】
前記現実のシーンは、少なくとも一部に、表示デバイス上に表示された情報を含む、請求項17に記載の非一時的なコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、拡張現実のための方法および装置に関する。
【背景技術】
【0002】
ここで開示される主題の背景として関連があると考えられる参考文献を下に列記する。
【先行技術文献】
【特許文献】
【0003】
【文献】米国特許第7126558号
【文献】米国特許出願公開第20110221669号
【文献】米国特許出願公開第20110270522号
【文献】英国特許第GB2465280(A)号
【文献】米国特許出願公開第20120068913号
【文献】米国特許第7,215,322号
【文献】国際公開第WO2005/091125号
【文献】国際公開第WO2010/086866号
【非特許文献】
【0004】
【文献】Crowley,J.L.et al,「Finger Tracking as an Input Device for Augmented Reality」。International Workshop on Face and Gesture Recognition,Zurich,Switzerland,June 1995の議事において発行されたもの。
【0005】
本明細書での上の参考文献の容認は、これらの文献がここで開示される主題の特許性にいかなる形であれ関連することを意味するものと判断するべきではない。
【0006】
拡張現実とは、その要素がテキスト、音声、映像、グラフィックス、またはGPSデータ等の、コンピュータ生成情報によって拡張される、物理的現実環境のリアルタイム(ライブ)の直接的または間接的な視界に関する用語である。したがって、環境およびそのオブジェクトに関する人工的な情報が、現実の視界または画像の上にオーバーレイされる。拡張とは、一般的に、ユーザの周囲の現実に関する情報が対話的で、デジタル的に操作できるようになるように、リアルタイムの、環境要素を伴う意味論的文脈におけるものである。
拡張現実のための主要なハードウェア構成要素は、プロセッサ、ディスプレイ、センサ、および入力デバイスである。これらの要素、具体的には、CPU、ディスプレイ、カメラ、および加速度計、GPS、または固体コンパス等のMEMSセンサは、それらが拡張現実プラットフォームとして機能することを可能にする、スマートフォン等の携帯デバイスの中に存在する。
【0007】
拡張現実システムは、エントレインメント、ナビゲーション、アセンブリプロセス、保守、医療処置におけるアプリケーションで見られる。また、携帯拡張現実システムも、現実のオブジェクトの情報を提示し、視聴するオブジェクトを配置するために拡張現実が使用される、観光業界および観光におけるアプリケーションで見られる。
没入型拡張現実エクスペリエンスは、一般的にゴーグルまたはヘルメットの形態の、ヘッドマウントディスプレイを使用して提供される。ヘッドマウントディスプレイによって、仮想ビジュアルオブジェクトが、現実のシーンのユーザの視界の上に重ね合わされる。ヘッドマウントディスプレイは、システムが仮想情報を物理界と合わせることを可能にするセンサによって追跡される。追跡は、例えば、デジタルカメラもしくは他の光学センサ、加速度計、GPS、ジャイロスコープ、固体コンパス、RFID、および無線センサ等の技術のうちの任意の1つ以上を使用して行われ得る。ヘッドマウントディスプレイは、光学シースルーまたはビデオシースルーのいずれかである。光学シースルーは、画像にレンズを通過させ、情報がユーザの眼の中へ反射されるようにオーバーレイするように、半透鏡等の解決策、およびデジタル情報および画像を直接的または間接的にユーザの網膜に表示する透明なLCDプロジェクターを利用する。
【発明の概要】
【課題を解決するための手段】
【0008】
本発明は、拡張現実のための対話型システムを提供する。本発明の対話型システムは、例えば眼鏡またはゴーグルに組み込まれ得る、装着可能なデータ表示デバイスを含む。装着可能なディスプレイは、場所抽出機能(GPS等)およびコンパスを提供するデバイスを有する。本システムはまた、ユーザが視聴している現実のシーンを拡張するために、ユーザがコンピュータ生成データを選択することを可能にする、ユーザインターフェースも含む。カメラは、視聴されている現実のシーンの画像を取得する。プロセッサは、ユーザの指等のカメラによって取り込まれる現実のシーンの画像の中の予め定義されたオブジェクトを検出する。ユーザがシーンの中の要素を指し示すと、要素に関連するデータが、データ表示デバイス上に表示され、シーンのユーザの視界の上に重ね合わされる。
【0009】
したがって、その態様の1つにおいて、本発明は、拡張現実のための方法を提供し、該方法は、
(a)1つ以上の画像センサから現実のシーンの画像を取得することと、
(b)1つ以上の状態センサから、画像センサの配向および場所データのうちの一方または双方を取得することと、
(c)1つまたは複数の画像センサによって取得される現実のシーンの画像の中で、予め定義されたポインティングオブジェクトが予め定義されたジェスチャーを行っている現実のオブジェクトを識別することとであって、ジェスチャー検出モジュールが、1つ以上の状態センサによって提供されるデータを利用する、識別することと、
(d)識別されたオブジェクトと関連付けられるデータを視聴デバイスのディスプレイ上に提示することと、を含む。
【0010】
画像センサは、カメラ、光センサ、赤外線センサ、超音波センサ、近接センサ、CMOS画像センサ、短波長赤外線(SWIR)画像センサ、または反射センサ、赤外線センサ、超音波センサ、近接センサ、および反射センサから選択され得る。状態センサの1つ以上は、光学センサ、加速度計、GPS、ジャイロスコープ、コンパス、磁気センサ、地球磁場に対するデバイスの方向を示すセンサ、重力センサ、およびRFID検出器から選択され得る。
【0011】
識別されたオブジェクトと関連付けられるデータは、現実のオブジェクトと関連付けられるデータについてメモリを検索することによって取得され得る。
【0012】
予め定義されたオブジェクトは、例えば、手、手の一部、両手、両手の一部、指、指の一部、または指の先端であり得る。
【0013】
視聴デバイスは、ユーザによって装着されるように構成され、例えば、眼鏡またはゴーグルであり得る。視聴デバイスは、モバイル通信デバイスに組み込まれ得る。
【0014】
1つまたは複数の画像センサによって取得される現実のシーンの画像の中で識別するステップは、画像センサによって取得される画像の中の予め定義されたオブジェクトの場所(X,Y)を決定し、センサによって提供される表示デバイスの場所および配向のうちの一方または双方を決定することを含み得る。
【0015】
本発明の方法はさらに、外部のデバイスまたはウェブサイトと通信することを含み得る。この通信は、メッセージを、外部デバイス上で動作するアプリケーション、外部デバイス上で動作するサービス、外部デバイス上で動作するオペレーティングシステム、外部デバイス上で動作するプロセス、外部デバイスのプロセッサ上で動作する1つ以上のアプリケーション、外部デバイスのバックグラウンドで動作するソフトウェアプログラム、または外部デバイス上で動作する1つ以上のサービスに送ることを含み得る。本方法はさらに、メッセージを、モバイル通信デバイス上で動作するアプリケーション、モバイル通信デバイス上で動作するサービス、モバイル通信デバイス上で動作するオペレーティングシステム、モバイル通信デバイス上で動作するプロセス、モバイル通信デバイスのプロセッサ上で動作する1つ以上のアプリケーション、モバイル通信デバイスのバックグラウンドで動作するソフトウェアプログラム、またはモバイル通信デバイス上で動作する1つ以上のサービスに送ることを含み得る。
【0016】
本方法はさらに、画像の中で識別される現実のオブジェクトに関連するデータを要求するメッセージを、外部デバイス上で動作するアプリケーション、外部デバイス上で動作するサービス、外部デバイス上で動作するオペレーティングシステム、外部デバイス上で動作するプロセス、外部デバイスのプロセッサ上で動作する1つ以上のアプリケーション、外部デバイスのバックグラウンドで動作するソフトウェアプログラムから送ること、または外部デバイス上で動作する1つ以上のサービスに送ることを含み得る。本方法はさらに、画像の中で識別される現実のオブジェクトに関連するデータを要求するメッセージを、モバイル通信デバイス上で動作するアプリケーション、モバイル通信デバイス上で動作するサービス、モバイル通信デバイス上で動作するオペレーティングシステム、モバイル通信デバイス上で動作するプロセス、モバイル通信デバイスのプロセッサ上で動作する1つ以上のアプリケーション、モバイル通信デバイスのバックグラウンドで動作するソフトウェアプログラムから送ること、またはモバイル通信デバイス上で動作する1つ以上のサービスに送ることを含み得る。
【0017】
外部デバイスまたはウェブサイトに対するメッセージは、コマンドであり得る。このコマンドは、外部デバイスまたはウェブサイト上でアプリケーションを動作させるためのコマンド、外部デバイスまたはウェブサイト上で動作するアプリケーションを停止するためのコマンド、外部デバイスまたはウェブサイト上で動作するサービスを起動させるためのコマンド、外部デバイスまたはウェブサイト上で動作するサービスを停止するためのコマンド、または画像の中で識別される現実のオブジェクトに関連するデータを送るためのコマンドから選択され得る。
【0018】
モバイル通信デバイスに対するメッセージは、コマンドであり得る。このコマンドは、アプリケーションをモバイル通信デバイス上で動作させるためのコマンド、モバイル通信デバイスまたはウェブサイト上で動作するアプリケーションを停止するためのコマンド、モバイル通信デバイス上で動作するサービスを起動させるためのコマンド、モバイル通信デバイス上で動作するサービスを停止するためのコマンド、または画像の中で識別される現実のオブジェクトに関連するデータを送るためのコマンドから選択され得る。
【0019】
本方法はさらに、外部デバイスまたはウェブサイトから、画像の中で識別される現実のオブジェクトに関連するデータを受け取り、受け取ったデータをユーザに提示することを含み得る。
【0020】
外部デバイスまたはウェブサイトとの通信は、通信ネットワークを通じたものであり得る。
【0021】
外部デバイスに対するコマンドは、外部デバイスの表示デバイス上に表示される仮想キーを押し下げること、選択カルーセルを回転させること、デスクトップ間で切り替えること、外部デバイス上で予め定義されたソフトウェアアプリケーションを動作させること、外部デバイス上のアプリケーションをオフにすること、スピーカーをオンまたはオフにすること、音量を上げるまたは下げること、外部デバイスをロックすること、外部デバイスをロック解除すること、メディアプレーヤーで別のトラックに、またはIPTVチャンネル間でスキップすること、ナビゲーションアプリケーションを制御すること、通話を開始すること、通話を終了すること、通知を提示すること、通知を表示すること、写真または音楽アルバムギャラリーの中をナビゲートすること、ウェブページをスクロールすること、電子メールを提示すること、1つ以上の文書または地図を提示すること、ゲームのアクションを制御すること、地図で指し示すこと、地図または画像を拡大/縮小すること、画像に色を塗ること、起動可能なアイコンを掴み、起動可能なアイコンを表示デバイスから引き出すこと、起動可能なアイコンを回転させること、外部デバイス上でタッチコマンドをエミュレートすること、1つ以上のマルチタッチコマンド、タッチジェスチャーコマンド、タイピングを行うこと、一時停止または再生するために、表示映像をクリックすること、フレームにタグ付けすること、または映像からフレームを取り込むこと、着信メッセージを提示すること、着信に応答すること、着信を消音または拒否すること、着信リマインダを開くこと、ネットワークコミュニティサービスから受け取った通知を提示すること、外部デバイスによって生成された通知を提示すること、予め定義されたアプリケーションを開くこと、外部デバイスをロックモードから切り替え、最近の通話アプリケーションを開くこと、外部デバイスをロックモードから切り替え、オンラインサービスアプリケーションまたはブラウザを開くこと、外部デバイスをロックモードから切り替え、電子メールアプリケーションを開くこと、外部デバイスをロックモードから切り替え、オンラインサービスアプリケーションまたはブラウザを開くこと、デバイスをロックモードから切り替え、カレンダアプリケーションを開くこと、デバイスをロックモードから切り替え、リマインダアプリケーションを開くこと、デバイスをロックモードから切り替え、ユーザによって設定される、外部デバイスの製造業者によって設定される、もしくはサービスオペレータによって設定される、予め定義されたアプリケーションを開くこと、起動可能なアイコンを起動させること、メニューアイテムを選択すること、ディスプレイ上のポインタを移動させること、タッチフリーマウス、ディスプレイ上の起動可能なアイコンを操作すること、ディスプレイ上の情報を変更すること、から選択され得る。
【0022】
本発明の方法において、予め定義されたジェスチャーは、スワイプ動作、2本の指の摘み動作、左から右に指し示すジェスチャー、右から左に指し示すジェスチャー、上方を指し示すジェスチャー、下方を指し示すジェスチャー、押すジェスチャー、握った拳を開くこと、握った拳を開き、画像センサに向かって移動させること、タップするジェスチャー、手を振るジェスチャー、拍手するジェスチャー、逆の拍手するジェスチャー、手を拳に閉じること、摘むジェスチャー、逆の摘むジェスチャー、手の指を広げるジェスチャー、逆の手の指を広げるジェスチャー、起動可能なアイコンで指し示すこと、予め定義された時間にわたって起動オブジェクトを保持すること、起動可能なアイコンをクリックすること、起動可能なアイコンをダブルクリックすること、起動可能なアイコンを右側からクリックすること、起動可能なアイコンを左側からクリックすること、起動可能なアイコンを底部からクリックすること、起動可能なアイコンを頂部からクリックすること、起動可能なアイコンのオブジェクトを掴むこと、右から起動可能なアイコンのオブジェクトに向かってジェスチャーをすること、左から起動可能なアイコンに向かってジェスチャーをすること、起動可能なアイコンを左から通過すること、オブジェクトを押すこと、拍手すること、起動可能なアイコンの上で手を振ること、吹き飛ばすジェスチャーを行うこと、タップするジェスチャーを行うこと、起動可能なアイコンの上で時計回りまたは反時計回りのジェスチャーを行うこと、アイコンをスライドさせること、2本の指で起動可能なアイコンを掴むこと、およびクリック-ドラッグ-リリース動作を行うこと、から選択され得る。
【0023】
識別されたオブジェクトと関連付けられるデータは、視覚データ、音声データ、またはテキストデータのうちのいずれか1つ以上であり得る。識別されたオブジェクトと関連付けられるデータは、起動可能なアイコンであり得る。起動可能なアイコンは、2Dまたは3Dの起動可能なアイコンであり得る。起動可能なアイコンは、ユーザの前方の3D空間の中でユーザによって認識され得る。
【0024】
本発明の方法は、2つ以上の動作モードを有し得る。本方法は、予め定義されたジェスチャーの識別に応じて、システムの動作モードを切り替え得る。動作モードは、識別されるジェスチャー、ジェスチャー検出モジュール上で起動されるアルゴリズム、画像センサによって取り込まれる画像の解像度および画像センサによって取り込まれる画像の取り込み率、提示されるデータの詳細レベル、ユーザに提示される起動可能なアイコン、提示されるデータのソース、提示されるデータの詳細レベル、表示デバイス上に表示される起動可能なアイコン、アクティブオンラインサービス、のうちの任意の1つ以上によって指定され得る。
【0025】
動作モードは、予め定義されたジェスチャーの識別に応じて、画像センサによって画像を映像録画するモード、予め定義されたジェスチャーの識別に応じて、マイクロホンによって音声を記録し、別の予め定義されたジェスチャーの識別に応じて、記録を停止するモード、映像または音声を継続的に監視し、予め定義されたジェスチャーの検出を受けて、ジェスチャーを識別する予め定義された時間前から映像または音声の記録を開始し、別の予め定義されたジェスチャーの識別後に記録を停止するモード、予め定義されたジェスチャーの識別に応じて、取り込まれた、およびリアルタイムで記録された映像にタグを加えるモード、カメラによって取り込まれるときに視界の中の領域を選択し、領域を視界の中の別の場所にコピーし、それをサイズ変更するモード、画像の中の選択された領域上でトラッカーを利用し、表示デバイス上のサイズ変更され、再配置された領域の中に、選択された領域をリアルタイムで提示するモード、予め定義されたジェスチャーの識別に応じて、画像を取り込むモード、から選択されるモードであり得る。
【0026】
本発明の方法はさらに、識別された現実のオブジェクトを追跡し、表示される関連付けられた視覚データを、識別された現実のオブジェクトに対して固定位置に維持する、追跡アルゴリズムを動作させることを含み得る。
【0027】
表示デバイスが所定の閾値未満の動作レベルを有するときにだけ予め定義されたオブジェクトを検出するために、オブジェクト認識モジュールが利用され得る。
【0028】
本方法はさらに、予め定義されたジェスチャーが識別されたときに、フィードバックを提供することを含み得る。フィードバックは、例えば、視覚フィードバック、音声フィードバック、触覚フィードバック、指向性振動、空気触覚フィードバック、または超音波フィードバックであり得る。フィードバックは、表示デバイス上に表示される起動可能なアイコン、表示デバイス上に表示される起動可能なアイコンの変化、表示デバイス上に表示される起動可能なアイコンの色の変化、表示デバイス上に表示される起動可能なアイコンのサイズの変化、表示デバイス上に表示される起動可能なアイコンのアニメーション、指示光、表示デバイス上を移動するインジケータ、表示デバイス上に現れる全ての他の画像または映像の頂部に現れる、表示デバイス上を移動するインジケータ、予め定義されたオブジェクトの周囲が輝く外観、から選択される形態の視覚指示であり得る。フィードバックは、振動、指向性振動指示、または空気触覚指示であり得る。
【0029】
本発明の方法において、表示デバイス上に表示される起動可能なアイコンの一部は、予め定義されたオブジェクトが位置する所に提示され得ず、よって、予め定義されたオブジェクトが、起動可能なアイコンの頂部上にあるように見える。
【0030】
起動可能なアイコンは、表示デバイスが予め定義された閾値を超える起動レベルを有するときに、表示デバイスから除去され得る。表示デバイス上の除去されたアイコンは、例えば、表示デバイスが予め定義された閾値未満の動作レベルを有するときに除去され得る。
【0031】
本方法は、予め定義されたアクションが行われるときに、起動モードに入り得る。予め定義されたアクションは、予め定義されたオブジェクトを下側から視界の中へ持ち込むこと、ユーザが、予め定義されたオブジェクトをある場所に配置する、またはカメラの視界の右下隅部を指し示す、もしくはカメラの視界の中でユーザが手を開く等のポーズをとるとき、手を視界を横断して右から左に移動させる等の予め定義されたジェスチャーを行うとき、起動可能なアイコンが表示され、ユーザが、起動可能なアイコンを指し示す等の、起動可能なアイコンに相関する予め定義されたジェスチャーを行う、もしくは起動可能なアイコンが提示される場所で手を振るジェスチャーを行うとき、またはデバイスに触れることによって、起動可能なアイコンが位置すると認識される3D空間の中でジェスチャーを行うことによって、浮動的な起動可能なアイコンを一方からもう一方の場所へスライドさせること、またはデバイスに加速度計が提供される場合に、デバイスをタップすること、から選択され得る。さらに別の例として、システムは、デバイスに近接センサまたは超音波センサが提供される場合に、ユーザがデバイスの近くに手を通過させるときに、起動モードに入り得る。システムはまた、音声コマンドによっても、またはユーザが予め定義されたオブジェクトを視界の中の特定の場所の中に配置するときにも起動され得る。さらに別の例として、システムは、ユーザの視界の中の現実と関連付けられる関連データがあるときにだけ起動モードに入り得る。システムは、提示される関連データがあるときに、または対話の準備が整っているときに、ユーザに示し得る。
【0032】
本発明の方法はさらに、現実のオブジェクトと相関するデータがメモリに存在することを示す視覚指示を、現実のオブジェクトに添付することを含み得る。視覚指示は、現実のオブジェクトの画像上にオーバーレイされ得る。視覚は、起動可能なアイコン、写真、封筒の画像から選択され得る。
【0033】
本発明の方法はさらに、予め定義されたオブジェクトの1つ以上の物理的パラメータを記録するための較正プロセスを含み得る。較正プロセスは、3D空間の異なる場所の中で、起動可能なアイコンをディスプレイ上に提示するステップ、予め定義されたオブジェクトの物理的特徴を抽出するステップ、および予め定義されたオブジェクトの寸法とカメラからのその距離との相関関係を決定するステップ、から選択される任意の1つ以上のステップを含み得る。較正プロセスは、画像センサの1つおよび予め定義されたオブジェクトの先端部の頂点を有し、ユーザの見通し線によって形成される側部を有する三角形を構築するステップを含み得る。カメラからの現実のオブジェクトの距離は、較正において抽出される情報に基づいて推定され得る。
【0034】
本方法はさらに、テキストタイピングを可能にするキーボードを表示することをさらに含み得る。キーボードは、画像センサの視界の予め定義された領域の中での、右から左へのジェスチャー、開いた手を提示すること、2つの開いた手を提示すること等の、予め定義されたジェスチャーの検出に応じて表示され得る。キーボードは、3Dタイピング領域の中で、または予め定義された起動可能なアイコンが位置すると認識する所で、クリックジェスチャーを行うことに応じて表示され得る。
【0035】
本発明はまた、本発明の方法を実行するように構成されるデバイスを備える、システムも提供する。
【0036】
本発明はまた、コンピュータプログラムがコンピュータ上で動作するときに、本発明の方法の全てのステップを行うためのコンピュータプログラムコード手段も備える、コンピュータプログラムも提供する。コンピュータプログラムは、コンピュータが読み出し可能な媒体上に具現化され得る。
【0037】
ユーザは、一般的に眼鏡を通して表示される視覚映像と対話し得る。したがって、現実のユーザの視界は、ディスプレイ上に提示される情報によって拡張される。拡張現実デバイスによる1つの課題は、ユーザがデバイスと対話し、それを制御する手法である。従来の制御デバイス、例えば、マウス、トラックボール、またはタッチ画面は、拡張現実デバイスで使用することが困難である。ユーザ、したがって拡張現実デバイスは、リアルタイムで絶えず移動しているので、拡張現実システムにおいてジェスチャー認識を使用することは、容易ではない。
【0038】
したがって、本発明は、プロセッサに方法を行わせるための命令を含む、コンピュータプログラム製品を提供し、該方法は、
拡張現実デバイスと関連付けられる画像センサから、環境と関連付けられる画像情報を受け取ることと、
環境に関連する拡張情報を、デバイスと関連付けられるディスプレイ上に表示することと、
画像情報の中で、デバイスのユーザによる手のジェスチャーを認識することと、
手のジェスチャーを拡張情報と相関させることと、
相関させることに基づいて、表示された拡張情報を変更することと、を含む。
【0039】
拡張情報は、環境の中のオブジェクトと関連付けられる情報、環境と関連付けられる画像、および環境と関連付けられる距離、のうちの少なくとも1つを含み得る。
【0040】
相関させることは、ユーザの手の少なくとも一部分の3次元空間の中の基準場所を決定し、基準場所と関連付けられる拡張情報および画像情報データのうちの少なくとも1つを決定することを含み得る。
【0041】
変更することは、基準場所と関連付けられるデータの関数として、拡張情報を切り替えることを含み得る。
本発明を理解し、それが実際にどのように実行され得るのかを確認するために、ここで、添付図面を参照して、実施形態を単に限定的でない実施例として説明する。
【図面の簡単な説明】
【0042】
【
図1】本発明の一実施形態に従う、拡張現実のためのシステムを概略的に示す図である。
【
図2】本発明の一実施形態に従う、1組のゴーグルを備える拡張現実のためのシステムを示す図である。
【
図4a】
図2のシステムのディスプレイデバイス上に表示される現実のシーンの視界を示す図である。
【
図4b】ユーザの指が視界の中のオブジェクトを指し示す、
図4aの視界を示す図である。
【
図4c】
図4bの視界の上にオーバーレイされる、ユーザの指が指し示すオブジェクトに関連する視覚テキストを示す図である。
【
図5a】本発明の別の実施形態に従う、通信デバイスと一体的な拡張現実のためのシステムを示す図である。
【
図5b】本発明の別の実施形態に従う、通信デバイスと一体的な拡張現実のためのシステムを示す図である。
【
図6a】ユーザが領域の輪郭を「描画」するジェスチャーを行うことによって、画像センサの視界の中で領域を指定することを示す図である。
【
図6b】第2のジェスチャーを行うことによって、選択された領域をサイズ変更することを示す図である。
【
図6d】視界の中の新しい場所にドラッグされた後の領域を示す図である。
【発明を実施するための形態】
【0043】
図1は、本発明の一実施形態に従う、拡張現実のためのシステム30を概略的に示す。システム30は、現実のシーンの画像を取得するように構成される、1つ以上の画像センサ32を含む。本発明のシステムでは、カメラ、光センサ、赤外線センサ、超音波センサ、近接センサ、CMOS画像センサ、短波長赤外線(SWIR)画像センサ、または反射センサ等の、任意のタイプの画像センサが使用され得る。
【0044】
システム30はさらに、ユーザが、現実のシーン、および現実のシーンの上に重ね合わせられる画像、映像、または音声信号等の外部情報の双方を見ることを可能にする1つ以上の表示デバイス35を有する、視聴デバイス34を含む。本発明のシステムでは、ユーザが、現実のシーンおよび表示されるデータの双方を見ることを可能にする、任意のタイプの表示デバイスが使用され得る。
【0045】
表示デバイス35は、例えば、その上で視覚材料がユーザに提示される表面、または画像をユーザの網膜に直接表示する1つ以上のプロジェクターを備え得る。プロセッサ36は、例えば光学センサ、加速度計、GPS、ジャイロスコープ、固体コンパス、磁気センサ、重力センサ、およびRFID検出器のうちの任意の1つ以上であり得る1つ以上の状態センサ38から、システム30の配向および/または場所データを取得する。プロセッサ36は、例えば、専用プロセッサ、汎用プロセッサ、DSP(デジタルシグナリングプロセッサ)プロセッサ、GPU(視覚処理ユニット)プロセッサ、専用ハードウェア、または外部デバイス上で動作することができるプロセッサであり得る。システム30は、視聴デバイス34上で、またはシステム30の他の構成要素を組み込むスマートフォン等の別のデバイス37上で、ソフトウェアとして動作し得る。
【0046】
プロセッサ36は、画像センサ32によって取得される現実のシーンの画像の中で、予め定義されたオブジェクトが指し示している1つ以上の現実のオブジェクトを識別する、ジェスチャー検出モジュール40を動作させるように構成される。現実のオブジェクトは、例えば、建物または広告板であり得る。現実のオブジェクトの決定は、状態センサ38によって提供されるデータを利用する。予め定義されたオブジェクトは、ユーザの指、またはスタイラスまたはワンド等の他のオブジェクトであり得る。
【0047】
プロセッサ36が、予め定義されたオブジェクトが指し示している現実のオブジェクトを識別すると、プロセッサは、識別されたオブジェクトと関連付けられるデータについてメモリ42を検索する。データは、例えば、視覚データ、音声データ、またはテキストデータであり得る。視覚データは、識別されたオブジェクトに関連するテキスト情報であり得る。プロセッサは、次いで、識別されたオブジェクトと関連付けられる、関連付けられた視覚データを視聴デバイスのディスプレイ上に表示する。メモリ42は、システム30と統合され得、または遠隔に配置され、インターネット等の通信ネットワークを通じてアクセスされ得る。したがって、システム30は、システム30がネットワーク、無線ネットワーク、セルラーネットワーク、別のデバイス30等の外部デバイス、携帯電話、タブレット、またはインターネットウェブサイト等と通信することを可能にする、通信モジュール39を備え得る。
【0048】
データは、起動可能なアイコンであり得る。本明細書で使用される「起動可能なアイコン」という用語は、ユーザ対話によって起動される1つ以上のメッセージまたはコマンドと関連付けられる画像または映像の中の領域を指す。起動可能なアイコンは、例えば、仮想ボタン、仮想キーボード、またはアイコン等の、2Dまたは3Dの視覚要素であり得る。起動可能なアイコンは、システムによって認識可能である1つ以上の予め定義されたオブジェクトによって起動され、予め定義されたオブジェクトは、例えば、スタイラス、ユーザの手の1つ以上もしくは手の一部、1つ以上の指もしくは指の先端部等の指の一部分であり得る。予め定義されたオブジェクトによる起動可能なアイコンの1つ以上の起動は、オペレーティングシステム、1つ以上のサービス、1つ以上のアプリケーション、1つ以上のデバイス、1つ以上のリモートアプリケーション、1つ以上のリモートサービス、または1つ以上のリモートデバイス宛てのメッセージまたはコマンドの生成をもたらす。
【0049】
プロセッサ36は、メッセージまたはコマンドを、デバイス37もしくはリモートデバイス、デバイス上で動作するアプリケーション、デバイス37上で動作するサービスおよびデバイス上で動作するオペレーティングシステム、デバイス上動作するプロセス、バックグラウンドで動作するソフトウェアプログラム、およびデバイス上で動作する1つ以上のサービス、またはデバイスにおいて動作するプロセスに送るように構成され得る。メッセージまたはコマンドは、インターネットまたは携帯電話ネットワーク等の通信ネットワークを通じて送られ得る。コマンドは、例えば、デバイス上でアプリケーションを動作させるためのコマンド、デバイス上で動作するアプリケーションを停止するためのコマンド、デバイス上で動作するサービスを起動させるためのコマンド、デバイス上で動作するサービスを停止するためのコマンド、またはプロセッサ36によって画像の中で識別される現実のオブジェクトに関連するデータをプロセッサ36に送るためのコマンドであり得る。
【0050】
コマンドは、デバイスの表示デバイス上に表示される仮想キーを押し下げること、選択カルーセルを回転させること、デスクトップ間で切り替えること、予め定義されたソフトウェアアプリケーションをデバイス上で動作させること、デバイス上のアプリケーションをオフにすること、スピーカーをオンまたはオフにすること、音量を上げるまたは下げること、デバイスをロックすること、デバイスをロック解除すること、メディアプレーヤーで別のトラックに、またはIPTVチャンネル間でスキップすること、ナビゲーションアプリケーションを制御すること、通話を開始すること、通話を終了すること、通知を提示すること、通知を表示すること、写真または音楽アルバムギャラリーの中をナビゲートすること、ウェブページをスクロールすること、電子メールを提示すること、1つ以上の文書または地図を提示すること、ゲームのアクションを制御すること、対話映像またはアニメーションのコンテンツを制御すること、映像または画像を編集すること、地図を指し示すこと、地図または画像を拡大/縮小すること、画像に色を塗ること、表示デバイスから離れて起動可能なアイコンを押すこと、起動可能なアイコンを掴み、起動可能なアイコンを表示デバイスから引き出すこと、起動可能なアイコンを回転させること、デバイス上でタッチコマンドをエミュレートすること、1つ以上のマルチタッチコマンド、タッチジェスチャーコマンド、タイピングを行うこと、一時停止または再生するために、表示映像をクリックすること、映像または音楽コマンドを編集すること、フレームにタグ付けすること、または映像からフレームを取り込むこと、映像から映像のサブセットを切り取ること、着信メッセージを提示すること、着信に応答すること、着信を消音または拒否すること、着信リマインダを開くこと、ネットワークコミュニティサービスから受け取った通知を提示すること、デバイスによって生成された通知を提示すること、デバイスをロックモードから切り替え、最近の通話アプリケーションを起動させること、デバイスをロックモードから切り替え、オンラインサービスアプリケーションまたはブラウザを起動させること、デバイスをロックモードから切り替え、電子メールアプリケーションを起動させること、デバイスをロックモードから切り替え、オンラインサービスアプリケーションまたはブラウザを起動させること、デバイスをロックモードから切り替え、カレンダアプリケーションを起動させること、デバイスをロックモードから切り替え、リマインダアプリケーションを起動させること、デバイスをロックモードから切り替え、ユーザによって設定される、デバイスの製造業者によって設定される、もしくはサービスオペレータによって設定される、予め定義されたアプリケーションを起動させること、起動可能なアイコンを起動させること、メニューアイテムを選択すること、ディスプレイ上のポインタを移動させること、タッチフリーマウスを操作すること、ディスプレイ上の起動可能なアイコンを起動させること、およびディスプレイ上の情報を変更すること等の、デバイス37に対するコマンドであり得る。
【0051】
通信モジュールは、例えばリモートデバイスに宛てられ得るメッセージを伝送するために使用され得る。メッセージは、例えば、リモートデバイスに対するコマンドであり得る。コマンドは、例えば、リモートデバイス上でアプリケーションを動作させるためのコマンド、リモートデバイス上で動作するアプリケーションを停止するためのコマンド、リモートデバイス上で動作するサービスを起動させるためのコマンド、リモートデバイス上で動作するサービスを停止するためのコマンドであり得る。メッセージは、リモートデバイスの表示デバイス上に表示される仮想キーを押し下げること、選択カルーセルを回転させること、デスクトップ間で切り替えること、予め定義されたソフトウェアアプリケーションをリモートデバイス上で動作させること、リモートデバイス上のアプリケーションをオフにすること、スピーカーをオンまたはオフにすること、音量を上げるまたは下げること、リモートデバイスをロックすること、リモートデバイスをロック解除すること、メディアプレーヤーで別のトラックに、またはIPTVチャンネル間でスキップすること、ナビゲーションアプリケーションを制御すること、通話を開始すること、通話を終了すること、通知を提示すること、通知を表示すること、写真または音楽アルバムギャラリーの中をナビゲートすること、ウェブページをスクロールすること、電子メールを提示すること、1つ以上の文書または地図を提示すること、ゲームのアクションを制御すること、地図を指し示すこと、地図または画像を拡大/縮小すること、画像に色を塗ること、起動可能なアイコンを掴み、起動可能なアイコンを表示デバイスから引き出すこと、起動可能なアイコンを回転させること、リモートデバイス上でタッチコマンドをエミュレートすること、1つ以上のマルチタッチコマンド、タッチジェスチャーコマンド、タイピングを行うこと、一時停止または再生するために、表示映像をクリックすること、フレームにタグ付けすること、または映像からフレームを取り込むこと、着信メッセージを提示すること、着信に応答すること、着信を消音または拒否すること、着信リマインダを開くこと、ネットワークコミュニティサービスから受け取った通知を提示すること、リモートデバイスによって生成された通知を提示すること、予め定義されたアプリケーションを開くこと、リモートデバイスをロックモードから切り替え、最近の通話アプリケーションを開くこと、リモートデバイスをロックモードから切り替え、オンラインサービスアプリケーションまたはブラウザを開くこと、リモートデバイスをロックモードから切り替え、電子メールアプリケーションを開くこと、リモートデバイスをロックモードから切り替え、オンラインサービスアプリケーションまたはブラウザを開くこと、デバイスをロックモードから切り替え、カレンダアプリケーションを開くこと、デバイスをロックモードから切り替え、リマインダアプリケーションを開くこと、デバイスをロックモードから切り替え、ユーザによって設定される、リモートデバイスの製造業者によって設定される、またはサービスオペレータによって設定される、予め定義されたアプリケーションを開くこと、起動可能なアイコンを起動させること、メニューアイテムを選択すること、ディスプレイ上のポインタを移動させること、タッチフリーマウス、ディスプレイ上の起動可能なアイコンを操作すること、ディスプレイ上の情報を変更すること、から選択される、リモートデバイスに対するコマンドであり得る。
【0052】
メッセージは、識別されたオブジェクトと関連付けられるデータの要求とすることができる。データ要求メッセージは、デバイス上で動作するアプリケーション、サービス、プロセス、スレッドに宛てられ得、または外部デバイス上で動作するアプリケーション、サービス、プロセス、もしくはスレッドから、またはオンラインサービスから宛てられ得る。
【0053】
CPUリソースを低減させるために、状態センサによって取得された情報から判定したときにヘッドセットが著しく移動していないときにだけ、予め定義されたオブジェクトを検出するためのオブジェクト認識モジュールを利用することができる。
【0054】
図2は、本発明の一実施形態に従う、拡張現実のシステム2を示す。システム2は、例えば、眼鏡またはゴーグル4等の対話型ヘッドマウント式アイピースであり得る、携帯視聴デバイスを備える。ゴーグル4には、現実のシーン8の画像を取得する、画像センサ6が提供される。シーン8は、例えば、1つ以上の建物12または1つ以上の広告板14を含み得る。ゴーグルには、ユーザがゴーグル4を装着したときにユーザの眼の前方に位置付けられるようにゴーグル4の中に位置する、1つ以上の表示デバイス10が提供され得る。表示デバイス10は、例えば、外部データを提示するとともに、それを通して現実のシーンが視聴される、透明なLCD画面等のシースルーデバイスであり得る。システム2はさらに、画像センサ6によって取り込まれる画像の中で、予め定義されたオブジェクトが、ジェスチャーを行うこと、または現実のシーン8の中の現実のオブジェクトもしくはユーザに表示される起動可能なアイコンを指し示すことを識別するように構成される、プロセッサ16を備える。システム2はまた、GPS、加速度計、ジャイロスコープ、固体コンパス、磁気センサ、または重力センサ等の、1つ以上の場所および/または配向センサ23も含む。
【0055】
図5は、本発明の別の実施形態に従う、拡張現実のシステム40を示す。システム40は、携帯電話、タブレット、またはカメラ等の、モバイル通信デバイス42に統合される。通信デバイス42の正面図は、
図5aで示され、通信デバイス42の背面図は、
図5bで示される。通信デバイス42には、表示デバイスの反対側のその裏面に、現実のシーンの画像を取得する画像センサ46が提供される。通信デバイス42にはまた、その表面に、カメラ46が現実のシーンに向かって方向付けられたときにユーザの前方に位置付けられる、表示デバイス48も提供される。表示デバイス48は、例えば、下で説明されるように、視覚データとともに、カメラ6によって取得される現実のシーンの画像をユーザに提示する、LCDスクリーンであり得る。システム40は、カメラ46、表示デバイス48、および通信デバイス42のプロセッサを利用し、さらに、
図5では示されない、通信デバイス42の筐体内に含まれる1つ以上の状態センサを備える。プロセッサは、画像センサ46によって取り込まれる画像の中で、現実のシーンの中の現実のオブジェクトを指し示す、予め定義されたオブジェクトを識別するように構成される。
【0056】
図3aは、使用中のシステム2を示す。ゴーグル4は、ユーザ18の眼を覆って配置される。ユーザは、現実のシーン8に対面し、したがって、シーン8を視聴する。
図3bは、使用中のシステム40を示す。ユーザ18は、画像センサ46が現実のシーン8に対面し、表示デバイス48がユーザに対面した状態で、通信デバイス42を保持する。
【0057】
この時点で、システム2または40は、以下のプロセスを実行する。システム2または40を使用するときにユーザが見るシーン8の視界は、表示デバイス上に表示される。
図4aは、現実のシーン8を視聴するためにシステム2または40を使用するときにユーザが見る、シーン8の視界を示す。プロセッサ36は、画像センサによって取得される画像を解析して、画像センサによって取り込まれる画像の中で、予め定義されたオブジェクトが、現実のシーン8の中の現実のオブジェクトに関連する予め定義されたジェスチャーをいつ行っているのかを判定する。
【0058】
ゴーグル4または通信デバイス42等の視聴デバイス34は、しばしば、歩行中に起こるようなユーザの動き、またはユーザの頭もしくは手の動きのため、使用中に不安定である。この状況において、センサ38によって生成される信号は、雑音が多く、不正確であり得る。この場合は、機械視覚モジュール37が、識別された現実のオブジェクトを追跡し、表示される関連付けられた視覚データを、識別された現実のオブジェクトに対して固定位置に維持する、追跡アルゴリズムを動作させる。
【0059】
現実のオブジェクトまたは起動可能なアイコンに関連する予め定義されたジェスチャーは、例えば、現実のオブジェクトまたは起動可能なアイコンを指し示すこと、または現実のオブジェクトまたは起動可能なアイコンの上でスワイプ動作を行うことであり得る。起動可能なアイコンは、現実のオブジェクトと相関する場合もあり、またはそうでない場合もある。
【0060】
他の可能な予め定義されたジェスチャーとしては、スワイプ動作、人差し指および親指または中指および親指等による2本の指の摘み動作、左から右に指し示すジェスチャー、右から左に指し示すジェスチャー、上方を指し示すジェスチャー、下方を指し示すジェスチャー、押すジェスチャー、握った拳を開くこと、握った拳を開いて画像センサに向かって移動させること、タップするジェスチャー、手を振るジェスチャー、拍手するジェスチャー、逆の拍手するジェスチャー、手を拳に閉じること、摘むジェスチャー、逆の摘むジェスチャー、手の指を広げるジェスチャー、逆の手の指を広げるジェスチャー、起動可能なアイコンまたは現実のオブジェクトを指し示すこと、予め定義された時間にわたって起動可能なアイコンまたは現実のオブジェクトを指し示すこと、起動可能なアイコンまたは現実のオブジェクトをクリックすること、起動可能なアイコンまたは現実のオブジェクトをダブルクリックすること、起動可能なアイコンまたは現実のオブジェクトを人差し指でクリックすること、起動可能なアイコンまたは現実のオブジェクトを中指でクリックすること、起動可能なアイコンまたは現実のオブジェクトを底部からクリックすること、起動可能なアイコンを頂部からクリックすること、起動可能なアイコンまたは現実のオブジェクトを掴むこと、右から起動可能なアイコンまたは現実のオブジェクトに向かってジェスチャーをすること、左から起動可能なアイコンまたは現実のオブジェクトに向かってジェスチャーをすること、左から起動可能なアイコンまたは現実のオブジェクトを通過すること、起動可能なアイコンまたは現実のオブジェクトを押すこと、起動可能なアイコンまたは現実のオブジェクトの上で拍手するまたは手を振ること、吹き飛ばすジェスチャーを行うこと、タップするジェスチャーを行うこと、起動可能なアイコンまたは現実のオブジェクトの上で時計回りまたは反時計回りのジェスチャーを行うこと、起動可能なアイコンまたは現実のオブジェクトをスライドさせること、2本の指で起動可能なアイコンまたは現実のオブジェクトを掴むこと、またはクリック-ドラッグ-リリース動作を行うこと、が挙げられる。
【0061】
予め定義されたオブジェクトは、例えば、ユーザの手、ユーザの指20等のユーザの手の一部、または2つの異なる手の一部であり得る。あるいは、予め定義されたオブジェクトは、スタイラスまたはワンドであり得る。
【0062】
プロセッサ16が、予め定義されたジェスチャーが行われたと判定すると、これは、視覚フィードバック、音声フィードバック、触覚フィードバック、指向性振動、空気触覚フィードバック、または超音波フィードバック等の、任意のタイプのフィードバックによってユーザに示され得る。フィードバックは、表示デバイス上に表示される起動可能なアイコン、表示デバイス上の起動可能なアイコンの変化、表示デバイス上の起動可能なアイコンの色の変化、起動可能なアイコンのサイズの変化、起動可能なアイコンのアニメーション、指示光、表示デバイス上を移動するインジケータ、振動、指向性振動指示、空気触覚指示、から選択される形態の視覚指示であり得る。指示は、表示デバイス上に現れる全ての他の画像または映像の頂部に現れる、表示デバイス上を移動するインジケータによって提供され得る。視覚フィードバックは、システムが予め定義されたオブジェクトを認識すると、予め定義されたオブジェクトの周囲が輝く外観であり得る。
【0063】
ジェスチャー検出モジュール40は、画像センサ32によって取得される画像中で予め定義されたオブジェクトを検出するための、任意の方法を使用し得る。例えば、ジェスチャー検出モジュールは、国際公開第WO2005/091125号または第WO2010/086866号で開示されるように、予め定義されたオブジェクトを検出し得る。
【0064】
プロセッサ16はさらに、予め定義されたジェスチャーがそれに向かって行われた、シーン8の中の現実のオブジェクトを決定するように構成される。したがって、例えば、
図4bで示される画像において、プロセッサ16は、画像の中の指の先端部の場所(X,Y)を決定し、この情報を、状態センサ21からのユーザの場所およびゴーグル4の配向と組み合わせることによって、ユーザの指20が広告板14を指し示していると判定する。したがって、現実のオブジェクトは、ユーザが選択することを望む現実のオブジェクトを示すためのカーソルまたは他のマーカーをユーザに示すことなくプロセッサによって識別され、現実のオブジェクトを直接指し示して対話を開始することを可能にする。プロセッサ16は、ユーザの指20が指し示している現実のオブジェクトに関連するデータについて、プロセッサ16と統合され得る、または遠隔に位置し得るメモリを検索する。例えば、メモリは、広告板14に関連するデータを記憶し得る。ユーザが、そのデータがメモリに記憶される、またはインターネットサイト等のリモートサーバから抽出される、シーン8の中のオブジェクトを指し示すと、そのデータが、シーンのユーザの視界の上に重ね合わせられて、表示デバイス10上に表示される。したがって、
図4cで示されるように、ユーザが広告板14(
図3)を指し示すと、広告板14に関連する視覚データ21が表示デバイス10上に表示される。
【0065】
視覚データ21は、静止画またはアニメーションであり得る。視覚データ21は、1つ以上の起動可能なアイコンを含み得、よって、起動可能なアイコンの1つに対して予め定義されたジェスチャーが行われると、起動可能なアイコンと関連付けられるコマンドが実行される。コマンドは、例えば、選択された現実のオブジェクトに関連する特定の視覚材料を示すものであり得る。起動可能なアイコンは、2Dまたは3Dの起動可能なアイコンであり得、ユーザがユーザの前方の3D空間の中でアイコンを認識するように、ユーザに提示され得る。本明細書で使用されるとき、起動可能なアイコンは、ユーザ対話によって起動される1つ以上のメッセージと関連付けられる2Dまたは3Dの画像または映像の中の領域である。起動可能なアイコンは、例えば、2Dまたは3Dの視覚要素であり得る。起動可能なアイコンは、仮想ボタン、仮想キーボード、2Dまたは3Dの起動可能なアイコン、画像または映像の中の領域であり得る。起動可能なアイコンは、2つ以上の起動可能なアイコンから成り得る。
【0066】
プロセッサは、予め定義されたオブジェクトが位置する所で、起動可能なアイコンの一部を提示し得ず、よって、予め定義されたオブジェクトが起動可能なアイコンの頂部上にあるように見える。起動可能なアイコンは、ユーザがユーザの頭部を急速に移動させると除去され得、次いで、頭部の動作が予め定義された動作速度未満であると復帰し得る。
【0067】
システム2は、2つ以上の動作モードを有し得、プロセッサ16は、該動作モード間で切り替えるために、1つ以上の予め定義されたジェスチャーを識別するように構成され得る。したがって、ジェスチャーは、システムをオンまたはオフにする、提示される視覚材料のソースを選択する、提示される視覚材料の詳細レベルを選択する、ユーザに提示されるボタンまたは起動可能なアイコンを選択する、または選択された現実のオブジェクトに関連するオンラインサービス等のオンラインサービスを起動させるために使用され得る。さらに別の操作モードは、予め定義されたジェスチャーの識別に応じて、画像センサによる画像の映像記録および/またはマイクロホンによる音声の記録を開始し、別の予め定義されたジェスチャーの識別に応じて、記録を停止するためのものであり得る。さらに別の操作モードは、映像および/または音声を連続的に監視するが、予め定義されたジェスチャーの検出を受けて、映像/音声が、ジェスチャーを識別する所定の時間前から記録を開始し、別の予め定義されたジェスチャーの識別後に、記録を停止することであり得る。所定の時間は、ユーザによって定義され得る。さらに別の操作モードは、予め定義されたジェスチャーの識別に応じて、取り込まれたおよびリアルタイムで記録した映像にタグを加えるものである。
【0068】
さらに別の操作モードは、
図6に示される。
図6aにおいて、画像センサによって取り込まれる視界60の中の領域62は、
図6において想像線によって示される、領域の輪郭を「描画する」ジェスチャーをユーザが行うことによって指定される。次いで、選択された領域は、選択された領域が所望のサイズ(
図6cの67)に至るまで、
図6bで矢印66によって示されるように、2本の指を離すまたは2本の指を互いに近づける等の、第2のジェスチャーをユーザが行うことによってサイズ変更される。次いで、領域67は、視界(
図6d)の中の新しい場所にドラッグされ、視界の中の新しい場所にコピーされる。次いで、システムは、選択された領域上でトラッカーを利用し、選択された領域は、表示デバイス上でユーザによって設定された、サイズ変更され、再配置された領域にリアルタイムで提示される。
【0069】
CPUリソースを最小化するために、各表示される起動可能なアイコンについて、表示される起動可能なアイコンの周囲の、表示される起動可能なアイコンの境界ボックスを含む画像の領域は、固定した状態を維持するように定義され得る。システムは、この境界ボックスを追跡するために、機械視覚トラッカーを利用する。ビデオシーケンスの2つのフレームにおける境界ボックスの場所間の距離は、映像トラッカーを使用して決定されるときに、予め定義された距離未満であり、境界ボックスのトラッカーの相関値は、予め定義された値未満である。
【0070】
システムが、起動可能なアイコンだけが起動され得、現実のオブジェクトを起動させることができない動作モードであるときに、各表示される起動可能なアイコンの近傍だけで予め定義されたオブジェクトを検索することによって、CPUを最小化することができる。さらにCPUを低減させるために、状態センサによって取得された情報から判定したときにヘッドセットが著しく移動していないときだけを除いて、オブジェクト認識モジュールは、常に起動されない。
【0071】
ユーザは、「友人によってだけ生成されたデータを表示する」、または「登録されたソースからのデータを表示する」、または「最近3ヶ月に生成されたデータを表示する」等の、現実のオブジェクトと相関するデータを映し出すように、異なるフィルタを選択し得る。
【0072】
システム2は、システム2による電力消費が最小である、スタンバイモードを有し得る。起動モードは、例えば、システムによって解析されている1秒あたりの映像フレーム数、解析されている画像の解像度、解析されている画像フレームの部分、および/または起動されている検出モジュールにおいて、スタンバイモードとは異なり得る。システム2は、任意の技術によって起動モードに入らせることができる。例えば、システム2は、予め定義されたオブジェクトを下側から視界の中へ持ち込むことによって、ユーザが、予め定義されたオブジェクトをある場所に配置する、またはカメラの視界の右下隅部を指し示す、もしくはカメラの視界の中でユーザが手を開く等のポーズをとるとき、手を視界を横断して右から左に移動させる等の予め定義されたジェスチャーを行うとき、起動可能なアイコンが表示され、ユーザが、起動可能なアイコンを指し示す等の、起動可能なアイコンに相関する予め定義されたジェスチャーを行う、もしくは起動可能なアイコンが提示される場所で手を振るジェスチャーを行うとき、またはデバイスに触れることによって、起動可能なアイコンが位置すると認識される3D空間の中でジェスチャーを行うことによって、浮動的な起動可能なアイコンを一方からもう一方の場所へスライドさせること、またはデバイスに加速度計が提供される場合に、デバイスをタップすることで、起動モードに入り得る。さらに別の例として、システムは、デバイスに近接センサまたは超音波センサが提供される場合に、ユーザがデバイスの近くに手を通過させるときに、起動モードに入り得る。システムはまた、音声コマンドによって、またはユーザが予め定義されたオブジェクトを視界の中の特定の場所の中に配置するときにも起動され得る。さらに別の例として、システムは、ユーザの視界の中の現実と関連付けられる関連データがあるときにだけ起動モードに入り得る。システムは、提示される関連データがあるときに、または対話の準備が整っているときに、ユーザに示し得る。
【0073】
現実のオブジェクトと相関するデータがあることをユーザに知らせるために、視覚指示が現実のオブジェクトに添付され得る。
【0074】
関連データの指示は、「i」という起動可能なアイコンが情報を示し得る、および「写真」というロゴが現実のオブジェクトに関連する画像を示し得る、または「封筒」というロゴが現実のオブジェクトに相関する友人または他のユーザによって残されたメッセージを示す、等の小さい視覚指示として、現実のオブジェクトの場所の上にオーバーレイされ得る。ユーザが起動可能なアイコンと相関する予め定義されたジェスチャーを行うと、データが提示され得る。
【0075】
システム2は、カメラによって取得される画像の中の予め定義されたオブジェクトのプロセッサ2による識別を容易にするように、予め定義されたオブジェクトの種々の物理的パラメータを記録するための較正プロセスを受けるように構成され得る。これは、例えば、3D空間の異なる場所の中で、起動可能なアイコンをディスプレイ上でユーザに提示すること、および予め定義されたオブジェクトのそのサイズまたは配向等の予め定義されたオブジェクトの物理的特徴を抽出すること、および予め定義されたオブジェクトの寸法とカメラからのその距離との相関関係を決定することによって行われ得る。較正は、ユーザが指し示していると判定するために、カメラ、ユーザの見通し線、および予め定義されたオブジェクトの先端部の三角形を計算することを含み得る。精度は、較正において抽出される情報に基づいて、カメラからの現実のオブジェクトの距離を推定することによって向上し得る。
【0076】
プロセッサは、本発明のシステムの別のユーザによって、現実のシーンのカメラによって取得される画像の中で識別するように構成され得る。現実のシーンの中の別のユーザの識別は、例えば、特定の地理的領域の中のデバイスの場所をリモートサーバに知らせることによって行われ得る。他のデバイスの場所は、地理的領域の中のデバイスの全てに送ることができる。
【0077】
本発明の2つのシステム間に通信リンクが存在するときに、2つのシステムは、ゲームを行うために使用され得る。別のユーザは、「好き」等のメッセージを他のユーザに送る等のジェスチャーによってユーザが対話することができる、アバターとして表され得る。
【0078】
プロセッサは、1本以上の指または手によるテキストタイピングを可能にする、キーボードを示すように構成され得る。キーボードの表示は、右から左へのジェスチャー等の予め定義されたジェスチャーの検出に応じて、または視界の底部等のカメラの視界の予め定義された領域の中で開いた手または2つの開いた手を提示することを使用することによって開始され得る。キーボードの表示を開始するさらに別の方法は、ユーザが、タイピング領域または起動可能なアイコンが位置すると認識される3D空間の中でクリックジェスチャーを行うときである。キーボードは、例えば、仮想キーボード上でタイピングすることによってメモを書く、検索を行う、またはオンラインサービス(スカイプまたはツイッター等)で通信するために使用され得る。システムは、予め定義されたオブジェクトが位置する所でキーボードの一部を提示し得ず、よって予め定義されたオブジェクトは、キーボードの頂部にあるように見え、ユーザの手等の予め定義されたオブジェクトがキーボードを「覆う」ように見える錯覚を生じさせる。
【0079】
システムがタイピングモードであるときには、その位置がユーザの手および指と相関する、アニメーションの手がキーボード上に提示され得る。アニメーションの手の指の先端部は、キーストロークの文字が見える場所で、仮想キーストロークの上に位置し得る。キーボードおよびアニメーションの手は、好ましくは、不透明であり、よって、ユーザは、キーボードの裏側の背景を見ることができない。これは、ユーザに対してキーボードをよりわかりやすくする傾向がある。