(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-07
(45)【発行日】2024-08-16
(54)【発明の名称】フィンガーチップモーションパターンのリアルタイムのジェスチャへのオンデバイス分類
(51)【国際特許分類】
G06T 7/20 20170101AFI20240808BHJP
G06T 7/00 20170101ALI20240808BHJP
G06F 3/01 20060101ALI20240808BHJP
【FI】
G06T7/20 300A
G06T7/00 350C
G06F3/01 570
【外国語出願】
(21)【出願番号】P 2019226200
(22)【出願日】2019-12-16
【審査請求日】2022-10-14
(31)【優先権主張番号】201921003256
(32)【優先日】2019-01-25
(33)【優先権主張国・地域又は機関】IN
(73)【特許権者】
【識別番号】510337621
【氏名又は名称】タタ コンサルタンシー サービシズ リミテッド
【氏名又は名称原語表記】TATA Consultancy Services Limited
【住所又は居所原語表記】Nirmal Building,9th Floor,Nariman Point,Mumbai 400021,Maharashtra,India.
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【氏名又は名称】西島 孝喜
(74)【代理人】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】ラムヤ サグナナ マーシー ヘバラグッペ
(72)【発明者】
【氏名】ヴァルン ジャイン
(72)【発明者】
【氏名】ガウラヴ ガルグ
【審査官】佐藤 実
(56)【参考文献】
【文献】Srinidhi Hegde et al.,A Fingertip Gestural User Interface Without Depth Data for Mixed Reality Applications,2018 IEEE International Symposium on Mixed and Augmented Reality Adjunct (ISMAR-Adjunct),IEEE,2018年,pp.395-396,https://ieeexplore.ieee.org/document/8699185
【文献】Meghal Dani et al.,Mid-air Fingertip-based User Interaction in Mixed Reality,2018 IEEE International Symposium on Mixed and Augmented Reality Adjunct (ISMAR-Adjunct),IEEE,2018年,pp.174-178,https://ieeexplore.ieee.org/document/8699224
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06F 3/01
(57)【特許請求の範囲】
【請求項1】
リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類のためのプロセッサにより実現される方法であって、
移動通信デバイスの1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)において、画像取り込みデバイスからのライブフィード又はビデオから複数の赤、緑及び青(RGB)入力画像をリアルタイムで受信するステップであって、前記複数のRGB入力画像の各々がハンドジェスチャを含み、前記CDLMは、正確なジェスチャ認識のために、オブジェクト検出器としてMobileNetV2を含み、フィンガーチップリグレッサ及び双方向長短期メモリ(Bi-LSTM)を含み、前記移動通信デバイス上にポートされたCDLMはリモートサーバ上のハンドジェスチャ認識フレームワーク依存性を除去する、ステップ(302)と、
リアルタイムで、前記移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれる前記MobileNetV2を用いて、前記受信された複数のRGB入力画像から複数の手候補バウンディングボックスを検出するステップであって、前記複数の手候補バウンディングボックスの各々は、前記受信された複数のRGB入力画像からの対応するRGB画像に固有であり、前記複数の手候補バウンディングボックスの各々は、1又は2以上のハンドジェスチャに分類するために使用されるポインティングジェスチャポーズを示す手候補を含む、ステップ(304)と、
リアルタイムで、前記複数の手候補バウンディングボックスの各々からの前記手候補をダウンスケールして、ダウンスケールされた手候補のセットを取得するステップであって、前記複数のRGB入力画像をダウンスケールすることは、画像特徴の品質を損なうことなく処理時間を減少させるために手候補を特定の解像度にダウンスケールすることを含む、ステップ(306)と、
リアルタイムで、前記移動通信デバイスの前記1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれるフィンガーチップリグレッサを用いて、前記ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出するステップであって、第1座標及び第2座標は前記フィンガーチップの前記空間位置から得られ、前記ダウンスケールされた手候補のセットからの前記フィンガーチップの空間位置がフィンガーチップモーションパターンを表し、前記フィンガーチップリグレッサは前記フィンガーチップの前記第1座標及び前記第2座標をローカライズするために畳み込みニューラルネットワーク(CNN)アーキテクチャに基づいて実施され、前記CNNは、フィンガーチップ空間位置上に回帰するために2つの畳み込みブロック及び3つの完全に接続された層を含み、前記2つの畳み込みブロックの各々がマックスプーリング層が続く3つの畳み込み層を含む、ステップ(308)と、
リアルタイムで、前記移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれる双方向長短期メモリ(Bi-LSTM)ネットワークを介して、前記フィンガーチップの前記空間位置からの第1座標及び第2座標を用いて、前記フィンガーチップモーションパターンを1又は2以上のハンドジェスチャに分類するステップ(310)と、
を含む、プロセッサにより実現される方法。
【請求項2】
前記フィンガーチップモーションパターンを前記1又は2以上のハンドジェスチャに分類する前記ステップは、前記フィンガーチップの前記第1座標及び第2座標に対してリグレッション技術を適用するステップを含む、請求項1に記載のプロセッサにより実現される方法。
【請求項3】
前記フィンガーチップの空間位置は、前記複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、前記陽性ポインティングフィンガー手検出の存在は、前記ハンドジェスチャの開始を示す、請求項1に記載のプロセッサにより実現される方法。
【請求項4】
前記複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の不存在は、前記ハンドジェスチャの終了を示す、請求項1に記載のプロセッサにより実現される方法。
【請求項5】
リアルタイムでのフィンガーチップモーションパターンのジェスチャへの分類のためのシステム(100)であって、
命令を格納するメモリ(102)と、
1又は2以上の通信インタフェース(106)と、
前記1又は2以上の通信インタフェース(106)を介して前記メモリ(102)に結合された1又は2以上のハードウェアプロセッサ(104)と、
を備え、
前記1又は2以上のハードウェアプロセッサ(104)は、前記命令によって、
前記システムの1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)において、画像取り込みデバイスからのライブフィード又はビデオから複数の赤、緑及び青(RGB)入力画像をリアルタイムで受信するステップであって、前記複数のRGB入力画像の各々がハンドジェスチャを含み、前記CDLMは、正確なジェスチャ認識のために、オブジェクト検出器としてMobileNetV2を含み、フィンガーチップリグレッサ及び双方向長短期メモリ(Bi-LSTM)を含み、前記
システム上にポートされたCDLMはリモートサーバ上のハンドジェスチャ認識フレームワーク依存性を除去する、ステップと、
リアルタイムで、前記システムの1又は2以上のハードウェアプロセッサを介して実行される前記カスケード深層学習モデル(CDLM)に含まれる前記MobileNetV2を用いて、前記受信された複数のRGB入力画像から複数の手候補バウンディングボックスを検出するステップであって、前記複数の手候補バウンディングボックスの各々は、前記受信された複数のRGB入力画像からの対応するRGB画像に固有であり、前記複数の手候補バウンディングボックスの各々は、1又は2以上のハンドジェスチャに分類するために使用されるポインティングジェスチャポーズを示す手候補を含む、ステップと、
リアルタイムで、前記複数の手候補バウンディングボックスの各々からの前記手候補をダウンスケールして、ダウンスケールされた手候補のセットを取得するステップであって、ダウンスケールするために、前記1または2以上のハードウェアプロセッサ(104)は、画像特徴の品質を損なうことなく処理時間を減少させるために手候補を含む前記複数のRGB入力画像を特定の解像度にダウンスケールするための命令によって構成される、ステップと、
リアルタイムで、前記システムの1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれるフィンガーチップリグレッサを用いて、前記ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出するステップであって、第1座標及び第2座標は前記フィンガーチップの前記空間位置から得られ、前記ダウンスケールされた手候補のセットからのフィンガーチップの空間位置がフィンガーチップモーションパターンを表し、前記フィンガーチップリグレッサは前記フィンガーチップの前記第1座標及び前記第2座標をローカライズするために畳み込みニューラルネットワーク(CNN)アーキテクチャに基づいて実施され、前記CNNは、フィンガーチップ空間位置上に回帰するために2つの畳み込みブロック及び3つの完全に接続された層を含み、前記2つの畳み込みブロックの各々がマックスプーリング層が続く3つの畳み込み層を含む、ステップと、
リアルタイムで、前記システムの1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれる双方向長短期メモリ(Bi-LSTM)ネットワークを介して、前記フィンガーチップの空間位置からの第1座標及び第2座標を用いて、前記フィンガーチップモーションパターンを1又は2以上のハンドジェスチャに分類するステップと、
によって構成される、システム(100)。
【請求項6】
前記フィンガーチップモーションパターンは、前記フィンガーチップの第1座標及び第2座標に対してリグレッション技術を適用することによって1又は2以上のハンドジェスチャに分類される、請求項5に記載のシステム。
【請求項7】
前記フィンガーチップの空間位置は、前記複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、前記陽性ポインティングフィンガー手検出の存在は、前記ハンドジェスチャの開始を示す、請求項5に記載のシステム。
【請求項8】
前記複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガーハンドジェスチャの不存在は、前記ハンドジェスチャの終了を示す、請求項5に記載のシステム。
【請求項9】
1又は2以上の命令を含む1又は2以上の非一時的機械可読情報記憶媒体であって、前記1又は2以上の命令は、1又は2以上のハードウェアプロセッサによって実行された時に、
移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)において、画像取り込みデバイスからのライブフィード又はビデオから複数の赤、緑及び青(RGB)入力画像をリアルタイムで受信するステップであって、前記複数のRGB入力画像の各々がハンドジェスチャを含み、前記CDLMは、正確なジェスチャ認識のために、オブジェクト検出器としてMobileNetV2を含み、フィンガーチップリグレッサ及び双方向長短期メモリ(Bi-LSTM)を含み、前記移動通信デバイス上にポートされたCDLMはリモートサーバ上のハンドジェスチャ認識フレームワーク依存性を除去する、ステップと、
リアルタイムで、前記移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれる前記MobileNetV2を用いて、前記受信された複数のRGB入力画像から複数の手候補バウンディングボックスを検出するステップであって、前記複数の手候補バウンディングボックスの各々は、前記受信された複数のRGB入力画像からの対応するRGB画像に固有であり、前記複数の手候補バウンディングボックスの各々は、1又は2以上のハンドジェスチャに分類するために使用されるポインティングジェスチャポーズを示す手候補を含む、ステップと、
リアルタイムで、前記複数の手候補バウンディングボックスの各々からの手候補をダウンスケールして、ダウンスケールされた手候補のセットを取得するステップであって、前記複数のRGB入力画像をダウンスケールすることは、画像特徴の品質を損なうことなく処理時間を減少させるために手候補を特定の解像度にダウンスケールすることを含む、ステップと、
リアルタイムで、前記移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれるフィンガーチップリグレッサを用いて、前記ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出するステップであって、第1座標及び第2座標は前記フィンガーチップの前記空間位置から得られ、前記ダウンスケールされた手候補のセットからのフィンガーチップの空間位置がフィンガーチップモーションパターンを表し、前記フィンガーチップリグレッサは前記フィンガーチップの前記第1座標及び前記第2座標をローカライズするために畳み込みニューラルネットワーク(CNN)アーキテクチャに基づいて実施され、前記CNNは、フィンガーチップ空間位置上に回帰するために2つの畳み込みブロック及び3つの完全に接続された層を含み、前記2つの畳み込みブロックの各々がマックスプーリング層が続く3つの畳み込み層を含む、ステップと、
リアルタイムで、前記移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれる双方向長短期メモリ(Bi-LSTM)ネットワークを介して、前記フィンガーチップの空間位置からの第1座標及び第2座標を用いて、前記フィンガーチップモーションパターンを1又は2以上のハンドジェスチャに分類するステップと、
によってリアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類を生じる、1又は2以上の非一時的機械可読情報記憶媒体。
【請求項10】
前記フィンガーチップモーションパターンを1又は2以上のハンドジェスチャに分類する前記ステップは、前記フィンガーチップの第1座標及び第2座標に対してリグレッション技術を適用するステップを含む、請求項9に記載の1又は2以上の非一時的機械可読情報記憶媒体。
【請求項11】
前記フィンガーチップの空間位置は、前記複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、前記陽性ポインティングフィンガー手検出の存在は、前記ハンドジェスチャの開始を示す、請求項9に記載の1又は2以上の非一時的機械可読情報記憶媒体。
【請求項12】
前記複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の不存在は、前記ハンドジェスチャの終了を示す、請求項9に記載の1又は2以上の非一時的機械可読情報記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照及び優先権)
本特許出願は、全体が引用により本明細書に組み入れられる、2019年1月25日出願のインド特許出願第201921003256号に対する優先権を主張するものである。
【0002】
本開示は、一般的に、分類手法に関し、詳細には、フィンガーチップモーションパターンのリアルタイムのジェスチャへのオンデバイス分類に関する。
【背景技術】
【0003】
過去数十年に渡って、情報技術は、デスクトップからモバイルコンピューティングに移行してきた。スマートフォン、タブレット、スマートウォッチ及びヘッドマウントデバイス(HMD)が、ゆっくりとデスクトップベースのコンピューティングに置き換わりつつある(又は置き換わった)。オフィス及びホームオフィス環境から、いつでもどこでもアクティビティへのコンピューティングの明確なシフトが起こってきた。モバイルフォンは、生活の大部分を形成しており、すなわち、これから生じるインターネット上のトラフィックのパーセンテージは、そのデスクトップの対応するものを上回っている。当然、この移行によって、人間がこれらのデバイスと対話する方法もまた、キーボード/マウスから、ジェスチャ、スピーチ及び脳コンピュータインタフェースへと進化している。騒音のある室外セットアップでは、スピーチインタフェースは、正確さが不十分な傾向があり、この結果、多くのHCI研究者にとって、ハンドジェスチャインタフェースとスピーチの組合せが興味を示している。リアルタイムフィード又はビデオでのハンドジェスチャ認識は、アクティビティ認識の一形態である。ハンドジェスチャは、複合現実(MR)アプリケーションにおける対話の直観的手段を形成する。しかしながら、正確なジェスチャ認識は、深層学習モデルを介して、又は高価なセンサを用いることによってのみ達成することができる。これらの深層学習モデルの堅牢さに関わらず、これらは、一般的には、計算コストが高く、リアルタイムの性能の取得には未だに課題が残る。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示の実施形態は、従来のシステムにおいて発明者らによって認識された上述の技術的問題のうちの1又は2以上に対する解決策として技術的改善を提示す。例えば1つの態様では、フィンガーチップモーションパターンのリアルタイムのジェスチャへのオンデバイス分類のためのプロセッサにより実現される方法である。本方法は、移動通信デバイスの1又は2以上のハードウェアを介して実行されるカスケード深層学習モデル(CDLM)において、画像取り込みデバイスから複数の赤、緑及び青(RGB)入力画像をリアルタイムで受信するステップであって、複数のRGB入力画像の各々がハンドジェスチャを含む、ステップと、リアルタイムで、移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれる物体検出器を用いて、受信された複数のRGB入力画像から複数の手候補バウンディングボックスを検出するステップであって、複数の手候補バウンディングボックスの各々は、受信された複数のRGB入力画像からの対応するRGB画像に固有であり、複数の手候補バウンディングボックスの各々は手候補を含む、ステップと、複数の手候補バウンディングボックスの各々からの手候補をリアルタイムでダウンスケールし、ダウンスケールされた手候補のセットを取得するステップと、リアルタイムで、移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれるフィンガーチップリグレッサを用いて、ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出するステップであって、ダウンスケールされた手候補のセットからのフィンガーチップの空間位置は、フィンガーチップモーションパターンを表す、ステップと、リアルタイムで、移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれる双方向長短期メモリ(Bi-LSTM)ネットワークを介して、フィンガーチップの空間位置からの第1座標及び第2座標を用いてフィンガーモーションパターンを1又は2以上のハンドジェスチャに分類するステップと、を含む。
【0005】
1つの実施形態において、手候補を含む手候補バウンディングボックスの各々は、1又は2以上のハンドジェスチャに分類するのに用いられるポインティングジェスチャポーズを示す。
【0006】
1つの実施形態において、フィンガーチップモーションパターンを1又は2以上のハンドジェスチャに分類するステップは、フィンガーチップの第1座標及び第2座標に対してリグレッション技術を適用するステップを含む。
【0007】
1つの実施形態において、フィンガーチップの空間位置は、複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、陽性ポインティングフィンガー手検出の存在は、ハンドジェスチャの開始を示す。
【0008】
1つの実施形態において、複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の不存在は、ハンドジェスチャの終了を示す。
【0009】
別の態様では、リアルタイムでのフィンガーチップモーションパターンのジェスチャへの分類のためのシステムが提供される。本システムは、命令を格納するメモリと、1又は2以上の通信インタフェースと、1又は2以上の通信インタフェースを介してメモリに結合された1又は2以上のハードウェアプロセッサと、を備え、1又は2以上のハードウェアプロセッサは、命令によって、メモリに含まれ且つシステムの1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)において、画像取り込みデバイスからの複数の赤、緑及び青(RGB)入力画像をリアルタイムで受信するステップであって、複数のRGB入力画像の各々がハンドジェスチャを含む、ステップと、リアルタイムで、システムの1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれる物体検出器を用いて、受信された複数のRGB入力画像から複数の手候補バウンディングボックスを検出するステップであって、複数の手候補バウンディングボックスの各々が、受信された複数のRGB入力画像からの対応するRGB画像に固有であり、複数の手候補バウンディングボックスの各々が、手候補を含む、ステップと、リアルタイムで、複数の手候補バウンディングボックスの各々からの手候補をダウンスケールして、ダウンスケールされた手候補のセットを取得するステップと、システムの1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれるフィンガーチップリグレッサを用いて、リアルタイムで、ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出するステップであって、ダウンスケールされた手候補のセットからのフィンガーチップの空間位置は、フィンガーモーションパターンを表す、ステップと、リアルタイムで、システムの1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれる双方向長短期メモリ(Bi-LSTM)ネットワークを介して、フィンガーチップの空間位置からの第1座標及び第2座標を用いて1又は2以上のハンドジェスチャにフィンガーチップモーションパターンを分類するステップと、によって構成される。
【0010】
1つの実施形態では、手候補を含む手候補バウンディングボックスの各々は、1又は2以上のジェスチャへの分類に用いられるポインティングジェスチャポーズを示す。
【0011】
1つの実施形態では、フィンガーチップモーションパターンは、フィンガーチップの第1座標及び第2座標に対してリグレッション技術を適用することによって1又は2以上のハンドジェスチャに分類される。
【0012】
1つの実施形態では、フィンガーチップの空間位置は、複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、陽性ポインティングフィンガー手検出の存在は、ハンドジェスチャの開始を示す。
【0013】
1つの実施形態では、複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の不存在は、ハンドジェスチャの終了を示す。
【0014】
更に別の態様では、1又は2以上の命令を含む1又は2以上の非一時的機械可読情報記憶媒体が提供され、該1又は2以上の命令は、1又は2以上のハードウェアプロセッサによって実行された時に、移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)において、画像取り込みデバイスから複数の赤、緑及び青(RGB)入力画像をリアルタイムで受信するステップであって、複数のRGB入力画像の各々がハンドジェスチャを含む、ステップと、リアルタイムで、移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれる物体検出器を用いて、受信された複数のRGB入力画像から複数の手候補バウンディングボックスを検出するステップであって、複数の手候補バウンディングボックスの各々が、受信された複数のRGB入力画像からの対応するRGB画像に固有であり、複数の手候補バウンディングボックスの各々が手候補を含む、ステップと、リアルタイムで複数の手候補バウンディングボックスの各々から手候補をダウンスケールして、ダウンスケールされた手候補のセットを取得するステップと、リアルタイムで、移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれるフィンガーチップリグレッサを用いて、ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出するステップであって、ダウンスケールされた手候補のセットからのフィンガーチップの空間位置は、フィンガーチップモーションパターンを表すことを特徴とするステップと、リアルタイムで、移動通信デバイス上で1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)に含まれる双方向長短期メモリ(Bi-LSTM)ネットワークを介して、フィンガーチップの空間位置からの第1座標及び第2座標を用いて、フィンガーチップモーションパターンを1又は2以上のハンドジェスチャに分類するステップと、を生じる。
【0015】
1つの実施形態では、手候補を含む手候補バウンディングボックスの各々は、1又は2以上のハンドジェスチャに分類するために利用されるポインティングジェスチャポーズを示す。
【0016】
1つの実施形態では、フィンガーチップモーションパターンを1又は2以上のハンドジェスチャに分類するステップは、フィンガーチップの第1座標及び第2座標に対してリグレッション技術を適用するステップを含む。
【0017】
1つの実施形態では、フィンガーチップの空間位置は、複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、陽性ポインティングフィンガー手検出の存在は、ハンドジェスチャの開始を示す。
【0018】
1つの実施形態では、複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の不存在は、ハンドジェスチャの終了を示す。
【0019】
上述の概要及び以下の詳細な説明の両方は、例示的で説明のためのものに過ぎず、請求項に記載される本発明を限定するものではない点を理解されたい。
【0020】
本開示に組み入れられ且つ本開示の一部を構成する添付図面は、例示的な実施形態を示し、本明細書と共に開示される原理を説明する役割を果たす。
【図面の簡単な説明】
【0021】
【
図1】本開示の実施形態による、リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類のためのシステムの例示的ブロック図である。
【
図2】本開示の実施形態による、リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類のためのシステムの例示的ブロック図である。
【
図3】本開示の実施形態による
図1のシステムを用いてリアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類の方法の例示的流れ図である。
【
図4】本開示の例示的な実施形態による
図1のシステムによって実施されるフィンガーチップローカライゼーションのフィンガーチップリグレッサアーキテクチャを示す図である。
【
図5】本開示の例示的な実施形態によるデータ収集前のユーザに示されるジェスチャシーケンスを示す図である。
【
図6】本開示の例示的な実施形態による、不十分な照明、ボケたレンダリング、屋内及び屋外環境などの様々な条件それぞれの検出器の結果(手候補バウンディングボックス)を示す、本開示と従来の手法の画像比較を示す図である。
【
図7A】本開示の例示的な実施形態による従来の技術と本開示のフィンガーローカライゼーションの比較を示すグラフ表現である。
【
図7B】本開示の例示的な実施形態による従来の技術との本開示のフィンガーローカライゼーションの比較を示すグラフ表現である。
【
図8】本開示の例示的な実施形態によるスマートフォンベースのGoogle(登録商標)カードボードヘッドマウントデバイスを用いて取り込まれた240自己一人称視点ビデオにおける
図3の方法の全体の性能を示す図である。
【発明を実施するための形態】
【0022】
例示的な実施形態について添付図面を参照して説明する。図では、参照数字の最も左の桁が、参照数字が最初に現れる図を識別する。好都合であれば、同じ参照数字が、同じ又は同様の要素を示すために図全体を通して用いられる。開示す原理の例及び特徴を本明細書で説明するが、修正、適応、及び他の実施が、開示す実施形態の精神及び範囲から逸脱することなく可能である。以下の詳細な説明は例示的なものに過ぎず、真の範囲及び精神は以下の請求項によって示されるものとする。
【0023】
Microsoft(登録商標)HoloLens、Daqri及びMeta Glassesなどの高価な拡張現実(AR)/複合現実(MR)デバイスは、最新のハードウェアの進歩を用いることによるリッチユーザインタフェースを提供する。これらには、複数のカメラ、深度センサ及び専用プロセッサを含む多種多様なオンボードセンサが備えられている。これは、大量採用に対して高価で負担しきれなくなる。
【0024】
ハンドジェスチャを介したユーザが使い易いインタフェースを提供するために、ユーザの視野(FoV)で手を検出するステップ、手に特定のキーポイントをローカライズするステップ、及びこれらのモーションパターンを理解するステップは、近年ではビジョンコミュニティにとって重要になってきた。最先端技術の物体検出器及びシーケンス追跡方法を用いてこのような問題を解決するための堅牢な深層学習モデルを有するにも関わらず、特にオンシステムで、例えばオンデバイスでリアルタイム性能を取得することは、メモリ及び処理上のリソース制約のせいで依然として課題となっている。
【0025】
本開示では、実施形態は、深度情報及び専門ハードウェアの必要なく作用するコンピュータ効率のよいハンドジェスチャ認識フレームワークを記載しており、これによってジェスチャインタフェースの多数アクセスを最も手ごろなビデオシースルーHMDに提供する。これらのデバイスは、スマートフォンカメラフィードのステレオレンダリングを用いることによる仮想現実(VR)/MR経験を提供するが、ユーザ対話能力が制限される。
【0026】
工業検査及び修復、テレプレゼンス、及びデータ可視化は、本開示の実施形態によって記載されるフレームワークの直ぐに適用できるものの一部であり、リアルタイムで作用することができ、インターネットの接続の必要もなく、リモート環境で作動できるという利点を有する。本開示で実施されるフレームワークの一般的な性質を示すために、10個の複雑なジェスチャの検出が、ポインティング手ポーズを用いて実行され、サンプルAndroidアプリケーションによって実施されている。
【0027】
このために、本開示の実施形態は、ウェアラブルデバイスの一人称ビューで作用するハンドジェスチャ認識フレームワークを実施するシステム及び方法を提供する。このモデルは、グラフィクス処理ユニット(GPU)機械で訓練され、Google(登録商標)カードボード及びVRボックスなどの費用のかからないウェアラブルデバイスで使用するAndroidスマートフォンにポートされる。本開示は、カスケード深層学習モデル:手ローカライゼーション(又はローカライゼーション)のMobileNetV2、ジェスチャ分類のためのBi-LSTMモデルが従うフィンガーチップリグレッションアーキテクチャによって駆動されるハンドジェスチャ認識フレームワークを実施する。
【0028】
ここで図、特に
図1から
図8を参照すると、同様の参照符号が図全体を通じて対応する特徴を一貫して示し、好ましい実施形態が示されており、これらの実施形態は、以下の例示的なシステム及び/又は方法の文脈で説明されている。
【0029】
図1は、本開示の実施形態による、リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類のためのシステム100の例示的なブロック図を示す。システム100はまた、「分類システム」又は「移動通信デバイス」又は「ビデオシースルーヘッドマウントデバイス」とも呼ばれ、以下では同義的に用いられる。1つの実施形態では、システム100は、1又は2以上のプロセッサ104、通信インタフェースデバイス又は入力/出力(I/O)インタフェース106、及び1又は2以上のプロセッサ104に動作可能に結合された1又は2以上のデータストレージデバイス又はメモリ102を含む。1又は2以上のプロセッサ104は、1又は2以上のソフトウェア処理モジュール及び/又はハードウェアプロセッサとすることができる。1つの実施形態では、ハードウェアプロセッサは、1又は2以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理ユニット、状態機械、論理回路、及び/又は作動命令に基づいて信号を操作する何れかのデバイスとして実施することができる。他の機能の中でも、プロセッサは、メモリに格納されたコンピュータ可読命令をフェッチ及び実行するよう構成される。1つの実施形態では、デバイス100は、ラップトップコンピュータ、ノートブック、ハンドヘルドデバイス、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウドなどの多種多様なコンピュータシステムで実施することができる。
【0030】
I/Oインタフェースデバイス106は、多種多様なソフトウェア及びハードウェアインタフェース、例えば、ウェブインタフェース、グラフィカルユーザインタフェースなどを含むことができ、有線ネットワーク、例えば、LAN、ケーブルなど、及びWLAN、セルラー、又は衛星などの無線ネットワークを含む多種多様なネットワークN/W及びプロトコルタイプ内の複数の通信を容易にすることができる。1つの実施形態では、I/Oインタフェースデバイスは、幾つかのデバイスを互いに又は別のサーバに接続するための1又は2以上のポートを含むことができる。
【0031】
メモリ102は、例えば、静的ランダムアクセスメモリ(SRAM)及び動的ランダムアクセスメモリ(DRAM)などの揮発性メモリ、及び/又は読取り専用メモリ(ROM)、消去可能プログラマブルROM、フラッシュメモリ、ハードディスク、光学ディスク、及び磁気テープなどの不揮発性メモリを含む当技術で公知の何れかのコンピュータ可読媒体を含むことができる。1つの実施形態では、データベース108をメモリ102に格納することができ、データベース108は、情報、例えば、1又は2以上のコンピュータデバイス(例えば、ビデオシースルーヘッドマウントデバイス)から取り込まれた赤、緑、及び青(RGB)入力画像、手候補を含むバウンディングボックスに関するデータ、ダウンスケールされた手候補、ダウンスケールされた手候補から検出されたフィンガーチップの空間位置、フィンガーチップの空間位置から得られたx及びy座標、及び1又は2以上のジェスチャに分類されるフィンガーチップのモーションパターンなどを含むことができる。1つの実施形態では、メモリ102は、1又は2以上の技術(例えば、MobileNetV2、ダウンスケールなどの画像処理技術と呼ばれる特徴抽出器又は特徴検出器)、フィンガーチップリグレッション/リグレッサ、Bi-長短期メモリ(Bi-LSTM)ネットワークなど)を格納することができ(又は格納する)、1又は2以上のハードウェアプロセッサ104によって実行された時に本明細書で説明する方法を実行する。メモリ102は、本開示のシステム及び方法によって実行される各ステップの入力/出力に関する情報を含む(又は含むことができる)。1つの実施形態では、MobileNetV2(特徴抽出器又は特徴検出器)、画像処理技術、フィンガーチップリグレッション/リグレッサ及びBi-長短期メモリ(Bi-LSTM)ネットワークは互いに結合され、カスケード深層学習モデル(CDLM)を形成し、1又は2以上のハードウェアプロセッサ104によって実行された時に本明細書で説明する方法を実行する。
【0032】
図2は、
図1に関して、本開示の1つの実施形態による、リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類のためのシステム100の例示的なブロック図を示している。代替として、
図2は、本開示の1つの実施形態による、リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類のためのシステム100の例示的な実施を示す。
図2に示したアーキテクチャは、フィンガーチップモーションパターンを様々なハンドジェスチャに分類するラベル付け分類データの制限された量しか必要としない単眼RGBカメラ入力を備えた費用のかからないARウェアラブルデバイスの多種多様なハンドジェスチャを認識するよう構成される。
【0033】
図3は、
図1~2に関して、本開示の実施形態による
図1のシステムを用いたリアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類の方法の例示的な流れ図を示す。1つの実施形態では、システム100は、1又は2以上のハードウェアプロセッサ104に動作可能に結合された1又は2以上のデータストレージデバイス又はメモリ102を含み、1又は2以上のプロセッサ104による方法のステップの実行の命令を格納するよう構成される。本開示の方法のステップは、
図1のシステム100の構成要素、
図2及び4のブロック図、及び
図3に示した流れ図に関して説明する。本開示の1つの実施形態では、ステップ302で、1又は2以上のハードウェアプロセッサ104が、リアルタイムで、移動通信デバイス100の1又は2以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル(CDLM)において、画像取り込みデバイスから複数の赤、緑及び青(RGB)入力画像を受信し、複数のRGB入力画像の各々がハンドジェスチャを含む。換言すると、移動通信デバイス100は、入力として単一のRGB画像を取る特徴抽出器/物体検出器(例えば、本開示におけるMobileNetV2)を有するカスケード深層学習モデルを含む。
【0034】
本開示の1つの実施形態では、ステップ304で、1又は2以上のハードウェアプロセッサ104が、リアルタイムで、移動通信デバイス100で実行されるカスケード深層学習モデル(CDLM)に含まれる物体検出器を用いて、受信された複数のRGB入力画像から複数の手候補バウンディングボックスを検出する。1つの実施形態では、複数の手候補バウンディングボックスの各々は、受信された複数のRGB入力画像からの対応するRGB画像に固有であり、各手候補バウンディングボックスは手候補を含む。換言すると、MobileNetV2は、手候補を含む手候補バウンディングボックスを出力する。手候補を含む手候補バウンディングボックスの各々は、1又は2以上のハンドジェスチャに分類するのに用いられるポインティングジェスチャポーズを示す。
図2は、
図1のシステム100で実行されるカスケード深層学習モデルの物体検出器による手候補出力を示す。
【0035】
MobileNetV2は、軽量ディープニューラルネットワークを構築するための深度幅分離可能畳み込みを用いるストリームラインアーキテクチャである。深度幅分離可能畳み込みは、標準的な畳み込みを深度幅畳み込み及びポイント幅畳み込みとも呼ばれる1x1畳み込みに因数分解し、これによってネットワークにおけるパラメータの数を低減する。これはMobileNetV1からの理想に構築されるが(物体検出器の早期バージョン)、2つの新しい特徴、すなわち(i)層間の線形ボトルネック、及び(ii)ボトルネック間のスキップ接続をアーキテクチャに組み入れる。ボトルネックはモデルの中間入力及び出力を符号化して、内側層はモデルの能力をエンキャプスレートして、画素などの低レベル概念から画像カテゴリなどの高レベル記述子に変換する。スキップ接続は、従来の残余接続と同様、精度における何れの損失もなく高速訓練を可能にする。
【0036】
ウェアラブルデバイスから取得されたRGB入力画像に手候補を検出するための本開示によって行われる実験では、本開示のシステム及び方法は、従来のシステム及び方法/技術によってMobileNetV2特徴抽出器を評価する(例えば、従来の技術1-SSDLite-物体検出モジュール。実験及び結果セクションは、手クラス(ポインティングジェスチャポーズ)を検出するために最後に完全に接続された層を修正することによるZF(例えば、Zeiler及びFergus2014)及びVGG1024(Chatfield他2014)などの他のコンパクトモデルと共に13共有畳み込み層から成る事前訓練VGG16モデルを備えた先行技術と比較した結果を強調する。
【0037】
図3のステップを参照すると、本開示の1つの実施形態では、ステップ306で、1又は2以上のハードウェアプロセッサ104がリアルタイムで、複数の手候補バウンディングボックスの各々から手候補をダウンスケールして、ダウンスケールされた手候補のセットを取得する。換言すると、手候補を含む入力画像がまず、特定の解像度(例えば、特定の使用ケースシナリオに対する本開示における640x480解像度)にダウンスケールされ、画像特徴の品質を危うくすることなく処理時間を低減する。
【0038】
本開示の1つの実施形態では、ステップ308で、1又は2以上のハードウェアプロセッサ104が、リアルタイムで、移動通信デバイス100で実行されるカスケード深層学習モデル(CDLM)に含まれるフィンガーチップリグレッサを用いて、ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出する。1つの実施形態では、ダウンスケールされた手候補のセットからのフィンガーチップの空間位置は、フィンガーチップモーションパターンを表す。換言すると、検出された手候補は、フィンガーチップモーションパターン(フィンガーチップとも呼ばれる)の空間位置を出力する
図2に示したフィンガーチップリグレッサに供給される。
【0039】
本開示では、システム100は、畳み込みニューラルネットワーク(CNN)アーキテクチャに基づくフィンガーチップリグレッサを実施しフィンガーチップの(x、y)座標をローカライズする。上述した手候補検出(ポインティングジェスチャポーズ)は、フィンガーチップローカライゼーションのリグレッションCNNをトリガする。手候補バウンディングボックスがまずクロップされ、
図4に示したネットワークにフィードする前に99x99解像度にサイズ変更される。詳細には、
図4は、
図1から
図3に関して、本開示の例示的な実施形態による
図1のシステム100によって実施されるフィンガーチップローカライゼーションのフィンガーチップリグレッサアーキテクチャを示す。
【0040】
システム100及び
図4の本開示によって実施されるCNNアーキテクチャは、マックスプーリング層が続く3つの畳み込み層を各々が有する2つの畳み込みブロックから構成される。最後に、3つの完全に接続された層が、最後の層のフィンガーチップポイントの2つの座標値に回帰するために用いられる。本開示では、
図4は、フィンガーチップローカライゼーションのフィンガーチップリグレッサアーキテクチャを示す。Bi-LSTM/LSTM分類ネットワークへの入力は3x99x99サイズのRGB画像である。2畳み込みブロックの各々は、マックスプーリング層が各々続く3畳み込み層を有する。3の完全接続層はフィンガーチップ空間位置に回帰する。目的がフィンガー位置に対応する連続値出力を決定することであるので、平均平方誤差(MSE)尺度が、最後に完全に接続された層の損失をコンピュータ計算するために用いられる。モデルは、堅牢なローカライゼーションのために訓練され、従来の技術によって提案されたアーキテクチャと比較される。
【0041】
本開示の1つの実施形態では、ステップ310で、1又は2以上のハードウェアプロセッサ104が、リアルタイムで、移動通信デバイスで実行されるカスケード深層学習モデル(CDLM)に含まれる双方向長短期メモリ(Bi-LSTM)ネットワークを介して、フィンガーチップの空間位置からの第1座標及び第2座標を用いて、フィンガーチップモーションパターンを1又は2以上のハンドジェスチャに分類する。換言すると、これらの集まり(例えば、空間位置-フィンガーチップモーションパターンのx及びy座標)は、モーションパターンを様々なジェスチャに分類するためのBi-LSTMネットワークに供給される。詳細には、各フィンガーチップモーションパターンは、フィンガーチップの第1座標(例えば、いわゆる「x」座標)及び第2座標(例えば、いわゆる「y」座標)にリグレッション技術を適用することによって1又は2以上のハンドジェスチャに分類される。1つの実施形態では、
図2に示したフィンガーチップ(又はフィンガーチップモーションパターン)の「x」及び「y」座標は、ユーザによって実行される動作(例えば、ジェスチャ)に対してそれぞれ45及び365である。別の実施形態では、
図2に示したフィンガーチップの「x」及び「y」座標は、ユーザによって実行される別の動作に対してそれぞれ290及び340である。更に別の実施形態では、
図2に示したフィンガーチップの「x」及び「y」座標は、ユーザによって実行される別の動作に対してそれぞれ560及び410である。加えて、Bi-LSTM/LSTM分類ネットワークを示す
図2のセクション(c)では、本開示は、様々なジェスチャへの次のフレームにおけるフィンガーチップ検出の分類(例えば、チェックマーク、右、長方形、X(又は削除)など)を記述する。特定のフィンガーチップモーションパターンが分類されるこれらのジェスチャの各々は、候補ジェスチャとして識別/分類される特定のフィンガーチップモーションパターンの確率を示す確率スコア(例えば、当技術で公知の方法を使用してコンピュータ計算できる確率スコア)をコンピュータ計算する(又は提供する)。例えば、45及び365それぞれとしてのフィンガーチップの「x」及び「y」座標に対して、Bi-LSTM/LSTM分類ネットワークは、いわゆる「チェックマークジェスチャ」としてフィンガーチップモーションパターンを分類して、1つの例示的な実施形態ではチェックマークジェスチャであるフィンガーチップモーションパターンの0.920の確率スコアをコンピュータ計算している。換言すると、0.920の確率スコアは、特定のフィンガーチップモーションパターンがそれに関連付けられる空間位置(又は「x」及び「y」座標)に基づく可能性のあるチェックマークジェスチャであり、且つ1つの例示的な実施形態ではこれに分類されることを示す。同様に、
図4に示した他のジェスチャへの分類のための他のフィンガーチップモーションパターンに対する確率スコアがコンピュータ計算される。
【0042】
上述のように、フィンガーチップローカライゼーションネットワーク(又はフィンガーチップリグレッサ)は、ジェスチャ分類ネットワーク(又はBi-LSTMネットワーク)への入力として供給されるフィンガーチップの空間位置(x,y)を出力する。計算コストを低減するために、入力(x;y)座標は、Bi-LSTMネットワークへの全フレームの代わりにシステム100によって調節され、これによってリアルタイムの性能の達成を助ける。システム100によって実施されるBi-LSTMネットワークが前方及び逆方向の両方のシーケンスを処理するので特定の分類タスクに対してLSTMネットワークよりも適正に実行することが本開示によって行われた実験を通して観察された。LSTMの使用は、全フレームワークが可変長フレームシーケンスを有するビデオ及び生フィードに適用可能であることを本質的に意味する。これはジェスチャの長さが実行するユーザ及び先行する2つのネットワークの性能に依存するので特に重要である。
【0043】
従来の技術は、費用のかからないGoogle(登録商標)Cardboardセットアップのための利用可能な対話のモードのランク付けに対する実現可能性の検討を行い且つ磁気トリガ及び導電レバーの頻繁な使用がデバイスの摩耗及び亀裂に至り有用性においてスコアが低かったことを報告している。従って、本開示は、ユーザ入力シーケンスの開始及び終了を知らせるための自動及び暗黙的トリガを実施する。5つの連続フレームにおける陽性ポインティングフィンガー手検出の場合、フレームワークがフィンガーチップの空間位置の記録を開始するようトリガされる。換言すると、フィンガーチップの空間位置は、複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、陽性ポインティングフィンガー手検出のこの存在はハンドジェスチャの開始を示す。
【0044】
同様に、(5つの)連続フレームにおける何れかの手検出の不存在はジェスチャの終了を示す。換言すると、複数のRGB入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の不存在は、ハンドジェスチャの終了を示す。記録されたシーケンスは次に30ユニットから成るBi-LSTM層への入力として供給される。前方及び後方起動は、データを1次元にする次の平板化層にパスされる前に乗算される。次に10ジェスチャの各々に対応する10出力スコアを備えた完全に接続された層が続く。タスクが10ジェスチャクラスを分類することであるので、ソフトマックス起動関数が、非正規化ログ確率として出力スコアを解釈するのに用いられ、以下の式を用いて出力スコアを0と1の間になるようにする。
【数1】
ここで、Kはクラスの数を示し、sはスコアのK×1ベクトルであり、ソフトマックス関数の入力、及びjは、1からKまで変化する指数である。
は、各ジェスチャに関連付けられる事後確率を示すK×1出力ベクトルである。クロスエントロピー損失は、ネットワーク後方伝播のモデルを更新するための訓練に用いられてきた。
【0045】
データセット
本開示はSCUTエゴフィンガーデータセットを用いた(例えば、参照 ディープフィンガー:移動カメラによる自己中心的ビジョンにおけるフィンガーキーポイント検出のためのカスケード畳み込みニューロンネットワーク方式。
図2に示した手検出及びフィンガーチップローカライゼーションモジュールを訓練するためのシステム、人、及び人工頭脳学(SMC)、2015IEEE国際会議、2944-2949、IEEE」2015年Huang他)。データセットは、手候補バウンディングボックス及びインデックスフィンガーキーポイント座標を含むポインティングハンドジェスチャの93729フレームを含んだ。
【0046】
(エゴゲストAR)データセット
時間的ハンドジェスチャを認識するタスクにおける深層学習の進歩を阻止してきた主な要因は、ニューラルネットワークを訓練するための利用可能な大規模データセットの不足である。従って、ジェスチャ分類ネットワークを訓練及び評価するために、AR/MRウェアラブルの自己中心的ビジョンジェスチャデータセットが本開示によって使用される。データセットは10ジェスチャパターンを含む。データにばらつきを取り入れるために、データセットは、21から50にまたがる年齢によって(ラボラトリから)ランダムに選択された50対象の助けを借りて収集された。対象の平均年齢は27.8歳であった。データセットは2500ジェスチャパターンから構成され、各対象は各ジェスチャの5サンプルを記録した。ジェスチャは、タブレットパーソナルコンピュータPCを壁に取り付けることによって記録された。位置感知領域を持つタッチインタフェースアプリケーション上のユーザの人差し指によって描かれたパターンが格納された。データは、640x480の解像度で取り込まれた。
図5は、データ収集の前にユーザに示された標準的入力シーケンスを示す。対象(又はユーザ)からのこれらのジェスチャは、複合現実(MR)アプリケーションにおけるデータ視覚化の本開示の概念における効率的な利用のために主に3つのカテゴリに分割される。詳細には、
図5は、
図1から
図4に関して、本開示の例示的な実施形態によるデータ収集前のユーザに示されたジェスチャシーケンスを示す。3つのカテゴリは、本開示の範囲を制限するものとして解釈すべきではなく、例によって及び本明細書で説明する実施形態の完全な理解のために本明細書に示されている。
1.グラフ視覚化/リストをナビゲートするための4スワイプジェスチャパターン(上、下、左、及び右)。
2.ユーザのFoVで強調する関心の領域(RoI)及びズームイン及びズームアウト動作のための2ジェスチャパターン(長方形及び円)。
3.工業検査などのアプリケーションと対話する場合に文脈的質問に答えるための4ジェスチャパターン(チェックマーク:はい、キャレット:いいえ、X:削除、星:ブックマーク)(Ramkrishna他、2016年)。
【0047】
また本開示のシステム及び方法によって実施される全フレークワークを試験するために、各ジェスチャを22回実行する上述の対象のランダムサブセットによって240ビデオが記録された。ランダムの手の動きの追加の20ビデオも記録された。ビデオは、Google(登録商標)Cardboardに据え付けられたAndroid(登録商標)デバイスを用いて記録された。高品質ビデオが640x480の解像度及び30フレームパー秒(FPS)で取り込まれた。
【0048】
実験及び結果
本開示のシステム100によって実施されるフレームワークが3つのネットワークを含むので、ネットワークの各々の性能は、本開示によって提案されるアプリケーションのための最良のネットワークの組合せに到達するために個々に評価される。8コアIntel(登録商標)Core(商標)i7-6820HQ CPU、32GBメモリ及びNvidia(登録商標)QuadroM5000M GPU機械が実験に用いられた。Snapdragon(登録商標)845チップセットスマートフォンが用いられ、Linksys EA6350 802.11ac コンパチブル無線ルータ上にホストされるローカルネットワークを用いてサーバ(必要に応じて、デバイスで実行する方法を評価するため)に接続される。
【0049】
手の検出及びフィンガーチップローカライゼーションに関する本開示によって行われる実験の全てに対して、上述の手のデータセットが用いられた。データセットに存在する24対象から、17対象のデータが、70:30の妥当性スプリットによる訓練のために選択され、7対象のデータ(24;155画像)がネットワークを試験するために選択される。
【0050】
手の検出
表1は、手候補検出の平均絶対精度(mAP)及びフレームレートのパーセンテージを報告する。詳細には、表1は、手検出のためのSCUT-Ego-Fingerデータセットにおける様々な方法の性能を示す。mAPスコア、フレームレート及びモデルサイズが、IoUにおける変形形態と共に報告される。
【表1】
【0051】
MobileNetV2は他と比較して高いフレームレートを達成したとしても、高偽陽性を生成し従って低分類性能を生じる。先行技術(例えば、YOLOv2-破線によって示される)は、オンデバイスで実行できるが、MobileNetV2と比較して少ないフレームを出力することが観察された。0.5の結合の交点(IoU)で、YOLOv2(破線によって示す)はSCUT-Ego-Finger手データセットで93.9mAPを達成するがMobileNetV2は89.1%mAPを達成する。しかしながら、先行技術(例えば、YOLOv2-破線によって示される)は、フィンガーチップを含むために必要な高IoUで手候補をローカライズする場合にMobileNetV2と比較して適切に実行できない。
図6は、
図1から5に関して、本開示の例示的な実施形態による、不十分な照明、ボケたレンダリング、屋内及び屋外環境それぞれなどの異なる条件における検出器の結果(手候補バウンディングボックス)を示す本開示対従来の方法の画像比較を示す。両方の検出器が背景における偽陽性を予測しない可能性があるが、先行技術(例えば、YOLOv2-破線によって示す)は、本開示の使用ケースにローカライゼーションエラープロービングMobileNetV2を合わせる点に留意されたい。
【0052】
MobileNetV2のモデルサイズがモデルの残りよりもかなり小さいことは注目すべきである。本開示は、モバイルデバイスにモデルをポートしリモートサーバへのフレームワークの依存性を取り除く。これは、ネットワークによってもたらされる待ち時間を低減し、MRアプリケーションのための広範囲に及ぶ費用のかからないデバイスを可能にできる。
【0053】
フィンガーチップローカライゼーション
本開示は、24,155画像のテストセットにおけるフィンガーチップローカライゼーションに用いられたモデルを評価した。最後の層で推定される指座標に対応する2x1連続値出力が、グラウンドトゥルース値と比較され、従来の技術のネットワークと比較した時のエラー(画素)及び残余プロットにおける変化する閾値によって成功率をコンピュータ計算する(例、ポインティングジェスチャベースの自己中心的対話システムのデータセット、方法及びアプリケーションを参照。コンピュータビジョン及びパターン認識ワークショップのIEEE会議議事録、16-23、Huang.Y、Liu,X、Zhang,X及びJin,L、Huang他を参照、2016年)が
図7A-7Bに示されている。詳細には、
図7A-7Bは、
図1から6に関して、本開示の例示的な実施形態による従来の技術に対する本開示の指ローカライゼーションの比較を示す図形表示を示す。
【0054】
0:001の学習速度を持つアダムオプティマイザが本開示によって使用される。このモデルは、99x99解像度の入力画像上の10画素のエラー耐用性によって89.6%の精度を達成する。平均絶対エラーは、本開示の方法では2.72画素であり、従来の技術で提案されるネットワークでは3.59画素であることが発見された。本開示によって実施されるモデルが何れの所与のエラー閾値でも高成功率を達成することが
図7A-7Bの図形表示から明らかである(
図7Bを参照)。低ローカライゼーションエラーを備えた画像のフラクションは本開示の方法では高い。
【0055】
ジェスチャ分類
本開示は、ジェスチャ分類ネットワークの訓練及びテストのための専用データセットを利用した。同じ訓練及びテスト設定でのLSTMネットワークによる分類は、Bi-LSTMとして試行/試みられた。訓練中、訓練セットの2000ジェスチャパターンが使用された。ネットワークの8,230パラメータの合計は、64のバッチサイズ及び80:20の検証スプリットによって訓練された。0:001の学習速度を持つアダムオプティマイザが使用された。ネットワークは、LSTM及びBi-LSTMそれぞれに対して95.17%及び96.5%の検証精度を達成した900エポックに対して訓練された。LSTM及びBi-LSTMは、92.5%及び94.3%それぞれの分類精度を達成し、類似の分類タスクに用いられる伝統的な方法(又は従来の技術)より性能が優れている。本システムによるLSTM及びBi-LSTM方法と従来の技術の分類との比較を以下の表2に示す。
【表2】
【0056】
従来の技術/調査は、例えば従来の技術/調査Xを含む-「ステレオカメラ、深度カメラ、及び慣性センサを包含する2つのリアルタイムハンドジェスチャ認識システムの比較」。SPIFフォトニクスヨーロッパ、91390C-91390C。オプティクス及びフォトニクスのインターナショナルソサイエティ、Liu, K.;Kehtarnavaz,N.;及びCarlsohn,M.2014年及び従来の技術/調査Y-「Liblinear:ラージリニア分類のライブラリ。Fan,R-E.;Chang,K.-W.;Hsieh,C.-J.;Wang,X.-R.;及びLin,C.-J.2008年による機械学習研究9(8月)ジャーナル1871-1874ページ。詳細には、表2は本開示の専用データセットにおける様々な分類方法の性能を示す。全てのクラスに対する精度及びリコール値の平均は、単数を得るためにコンピュータ計算される。
【0057】
加えて、伝統的な方法(又は表2に示した従来の技術)の性能が十分なデータポイントが無い場合に大きく低下することが観察された。従って、これらは複雑な補間技術に頼り(追加の処理時間及びメモリ消費に至る)これに矛盾しない結果を与える。
【0058】
フレームワーク評価
本開示の方式/方法が一連の異なるネットワークで実施又は実行されるので、リアルタイムの全体的な分類精度は、パイプラインで使用される各ネットワークの性能に依存して変わることがある。従って、全体のフレームワークは、スマートフォンベースのGoogle(登録商標)カードボードヘッドマウントデバイスによって取り込まれる240自己中心ビデオを用いて評価された。精度と性能の間の最良のトレードオフが達成される場合にMobileNetV2モデルは本開示によって行われる実験で使用される。このモデルがTF-Liteエンジンを用いてスマートフォンで独立して作用できるので、これはリモートサーバ及び品質ネットワーク接続におけるフレームワークの依存性を取り除く。
【0059】
FPVで取り込まれた240自己一人称視点ビデオのデータセットにおける80.00%の全体の精度を達成したフレームワークが
図8に示した行列(混乱行列とも呼ばれる)として示されている。詳細には、
図8は、
図1から7Bに関して、本開示の例示的な実施形態による、スマートフォンベースのGoogle(登録商標)カードボードヘッドマウントデバイスを用いて取り込まれた240自己中心ビデオにおける
図3の方法の全体的な性能を示す。予測される確率が0.85より大きい時にジェスチャが検出された。本開示の方法の精度は0.8である(分類されていないクラスを除く)。
【0060】
システム100によって実施されるMobileNetV2ネットワークは、640x480解像度ビデオで9FPSで作用し、システム100によって実施されるフィンガーチップリグレッサは、99x99の解像度で作用する最大166FPSのフレームレートを送り出すよう構成される。システム100によって実施されるジェスチャ分類ネットワークは、100ms未満のデータの所与のストリームを処理する。この結果、フレームワークの平均応答時間は、Snapdragon(登録商標)845チップセットによって給電されるスマートフォンで0:12sであることが発見された。全体のモデルは、16.3MBの(ごく小さな)メモリフットプリントを有した。
【0061】
本開示のシステム及び方法は、エンドツーエンド訓練ジェスチャ分類の従来の先行技術(TGCCAT)と比較され、この結果が表3に示されている。詳細には、表3は、本開示の方法に対する様々な従来のモデル/技術のジェスチャ認識精度及び待ち時間の分析を示す。以下の表3から、本開示の方法がオンデバイスで作用し且つ最高精度及び最小の反応時間を効率的に有することが観察される。
【表3】
【0062】
従来の技術TGCCAT1は、二人称ビューで行われたジェスチャに包含される身体のパーツの動きを取り込むための畳み込みLSTMへの差分画像入力によって作用するネットワークを提案した。本開示のビデオデータセットでモデルを調整した後でも、本開示のデータが動的背景を包含しカメラへの静的参照を包含しない場合には32.14%の精度しか生じなかった。
【0063】
従来の技術TGCCAT2は、2D CNNを用いて各フレームから特徴を抽出する。これらのフレーム幅特徴は、一時的なディープビデオ記述子として符号化され、分類のためのLSTMネットワークに供給される。同様に、3D CNN方式(従来の技術TGCCAT3)は3D CNNを用いてビデオチップから直接特徴を抽出する。表3は、これらの従来の方法の両方が適正に実行しないことを示している。これに対するもっともらしい直観的理由は、ネットワークが訓練中のノイズが多く且つ質の悪い特徴を学習することがあるからである。例えば注意ベースのビデオ分類などの他の従来の技術は、高クラス間類似性によって低品質で実行した。全フレームのごく小さな部分からの特徴が必要になるので、すなわち、フィンガーチップ位置が既に公知であるので、フィンガーチップ、このような注意モデルは冗長性があるように見える。
【0064】
他の既存の/従来の技術及びシステムは、空中フィンガーチップベースのユーザ対話に類似のフィンガーチップをこれらの上に置くことによってステレオビューで現れる仮想ボタンを用いて実施する。このような従来の技術は、ジェスチャの分類に高速領域畳み込みニューラルネットワーク(RCNN)を用いて、強力且つ十分利用されていないネットワーク化GPUサーバを実施して、更にコストがかかる。従来の技術及びシステムは、高帯域幅の存在、デバイスと上述のサーバの間の低待ち時間ネットワーク接続に頼る。上述した従来のシステム及び方法/技術とは異なり、本開示の実施形態は、デバイス(例えば、スマートフォン)及びビデオシースルーヘッドマウント(VSTH)又はビデオシースルーヘッドマウントデバイスのためのオンデデバイスポインティングフィンガーベースのジェスチャインタフェースのシステム及び方法を提供する。本開示によるビデオシースルーヘッドマウントデバイスを用いることによって、本開示のシステム100を純粋にデバイス(具体的にはスマートフォン及びビデオシースルーヘッドマウント)でユーザによって実行されるポインティングハンドジェスチャの分類のための軽量ジェスチャインタフェースにする。また本開示のシステム100は、メモリを実施及び実行し、効率的なMobileNetv2アーキテクチャをコンピュータ計算し手候補及び異なるフィンガーチップリグレッサフレームワークをローカライズしてユーザのフィンガーチップ及び双方向長短期メモリ(Bi-LSTM)モデルを追跡してジェスチャを分類する。本開示のシステム100によって実施されるこのようなアーキテクチャ又はカスケード深層学習モデル(CDLM)の利点は、システム100が強力且つネットワーク化されたGPUサーバの存在に頼らないことである。全てのコンピューテーションがデバイス自体で実行されるので、システム100は、ネットワークのない環境で配備することができ、リモートロケーションでのアプリケーションの観点で新規の解決手段を切り拓くものである。
【0065】
本明細書は、当業者が実施形態を実施及び利用できるようにするために本明細書の主題を記載している。主題の実施形態の範囲は、請求項によって定義され、当業者に想起される他の修正を含むことができる。このような他の修正は、請求項の文言と相違しない類似の要素を有する場合又はこれらが請求項の文言とは僅かな相違のある等価要素を含む場合、請求項の範囲内にあるものとする。
【0066】
保護の範囲は、このようなプログラムに、及び加えてメッセージを有するコンピュータ可読手段に拡張され、プログラムがサーバ又はモバイルデバイス又は何れかの適切なプログラマブルデバイス上で実行される時に、このようなコンピュータ可読記憶手段が、本方法の1又は2以上のステップの実施のためのプログラムコード手段を包含することを理解されたい。ハードウェアデバイスは、例えば、サーバ又はパーソナルコンピュータなどのようなコンピュータの何れかの種類、又はこれらの何れかの組合せを含む、プログラムすることができる何れかの種類のデバイスとすることができる。このデバイスはまた、例えば、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又はハードウェアとソフトウェア手段の組合せ、例えばASIC及びFPGA、又はソフトウェアモジュールが位置付けられる少なくとも1つのマイクロプロセッサ及び少なくとも1つのメモリなどのハードウェア手段とすることができる手段を含むことができる。従って、この手段は、ハードウェア手段とソフトウェア手段の両方を含むことができる。本明細書で説明する方法の実施形態は、ハードウェア及びソフトウェアで実施することができる。このデバイスはソフトウェア手段を含むこともできる。代替として、実施形態を、例えば複数のCPUを用いて様々なハードウェアデバイスで実施することができる。
【0067】
本明細書の実施形態はハードウェア及びソフトウェア要素を含むことができる。ソフトウェアにより実施される実施形態は、限定ではないがファームウェア、常駐ソフトウェア、マイクロコードなどを含む。本明細書で記載される様々なモジュールによって実行される機能は、他のモジュール又は他のモジュールの組合せで実施することができる。この説明の目的で、コンピュータ使用可能又はコンピュータ可読媒体は、命令実行システム、装置、又はデバイスによって使用され、又はこれらに接続されるプログラムを含む、格納、伝送、伝播、又はトランスポートを行うことができる何れかの装置とすることができる。
【0068】
例証のステップは、図示した例示的な実施形態を説明するために示され、進行中の技術的開発により、特定の機能が実行される方法が変わることになることを理解すべきである。これらの例は、例証の目的で本明細書に示され、限定ではない。機能的構築ブロックの境界は、説明の便宜上、本明細書で任意に定義されている。指定された機能及びこれらの関係が適切に実行される限り代替の境界を定義することができる。代替形態(本明細書で記載されるものの等価物、拡張、変形、偏差などを含む)は、本明細書に包含される教示に基づいて当業者に明らかであろう。このような代替形態は、開示される実施形態の範囲及び精神に含まれる。「comprising(含む)」、「having(有する)」、「containing(包含する)」、「including(内包する)」及び他の類似の形態の語は、意味上等価であり、これらの語の何れか1つに続く項目又は複数の項目は、このような項目又は複数の項目の網羅的な列挙であることを意味するものではなく、列挙された項目又は複数の項目だけに限定されることを意味するものとする。本明細書及び添付の請求項で用いられる場合、単数形の「a」、「an」、及び「the」は、文脈上他に明確に指示しない限り複数の参照を含む点に留意されたい。
【0069】
1又は2以上のコンピュータ可読ストレージ媒体は、本開示に適合する実施形態を実施するのに用いることができる。コンピュータ可読ストレージ媒体は、プロセッサによって可読の情報又はデータを格納することができる物理的なメモリの何れかの種類を指す。従って、コンピュータ可読ストレージ媒体は、1又は2以上のプロセッサによって実行する命令を格納することができ、この命令は、本明細書で説明した実施形態に矛盾のないステップ又は段階をプロセッサに実行させるためにある。「コンピュータ可読媒体」という語は、有形のものを含み、搬送波及び過渡信号を除外し、すなわち、非一時的なものと理解すべきである。例としては、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク、及び何れかの他の公知の物理的ストレージ媒体が含まれる。
【0070】
本開示及び実施例は、例示的なものに過ぎず、開示される実施形態の真の範囲及び精神は以下の請求項によって示されるものとする。