特開2020-119510 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ タタ　コンサルタンシー　サービシズ　リミテッドの特許一覧

特開2020-119510フィンガーチップモーションパターンのリアルタイムのジェスチャへのオンデバイス分類

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7A
7B
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2020-119510(P2020-119510A)

(43)【公開日】2020年8月6日

(54)【発明の名称】フィンガーチップモーションパターンのリアルタイムのジェスチャへのオンデバイス分類

(51)【国際特許分類】

G06T 7/20 20170101AFI20200710BHJP

G06T 7/00 20170101ALI20200710BHJP

G06F 3/01 20060101ALI20200710BHJP

【ＦＩ】

G06T7/20 300A

G06T7/00 350C

G06F3/01 570

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

【外国語出願】

【全頁数】24

(21)【出願番号】特願2019-226200(P2019-226200)

(22)【出願日】2019年12月16日

(31)【優先権主張番号】201921003256

(32)【優先日】2019年1月25日

(33)【優先権主張国】IN

(71)【出願人】

【識別番号】510337621

【氏名又は名称】タタコンサルタンシーサービシズリミテッド

【氏名又は名称原語表記】ＴＡＴＡＣｏｎｓｕｌｔａｎｃｙＳｅｒｖｉｃｅｓＬｉｍｉｔｅｄ

(74)【代理人】

【識別番号】100094569

【弁理士】

【氏名又は名称】田中伸一郎

(74)【代理人】

【識別番号】100103610

【弁理士】

【氏名又は名称】▲吉▼田和彦

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【識別番号】100086771

【弁理士】

【氏名又は名称】西島孝喜

(74)【代理人】

【識別番号】100109335

【弁理士】

【氏名又は名称】上杉浩

(74)【代理人】

【識別番号】100120525

【弁理士】

【氏名又は名称】近藤直樹

(74)【代理人】

【識別番号】100139712

【弁理士】

【氏名又は名称】那須威夫

(72)【発明者】

【氏名】ラムヤサグナナマーシーヘバラグッペ

(72)【発明者】

【氏名】ヴァルンジャイン

(72)【発明者】

【氏名】ガウラヴガルグ

【テーマコード（参考）】

5E555

5L096

【Ｆターム（参考）】

5E555AA12

5E555AA67

5E555AA78

5E555BA01

5E555BA06

5E555BA38

5E555BB01

5E555BB06

5E555BB38

5E555BC04

5E555BE17

5E555CA42

5E555CB66

5E555DA08

5E555DB20

5E555DC40

5E555EA19

5E555EA22

5E555FA00

5L096AA02

5L096AA06

5L096EA03

5L096EA35

5L096FA18

5L096FA69

5L096HA05

5L096HA11

5L096KA04

(57)【要約】（修正有）

【課題】リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類方法を提供する。
【解決手段】フィンガーチップモーションパターンを様々なハンドジェスチャに分類するシステムにおいて、方法は、物体検出器（ＭｏｂｉｌｅＮｅｔＶ２）にて、入力された赤緑青（ＲＧＢ）画像から手候補バウンディングボックスを検出し、画像特徴の品質を損なうことなく処理時間を低減するためにダウンスケールし、フィンガーチップリグレッサにて、検出された手候補からモーションパターンを表すフィンガーチップの空間位置を検出し、ＬＳＴＭ分類ネットワークにて、フィンガーチップの空間位置からモーションパターンを様々なジェスチャに分類する。
【選択図】図３

【特許請求の範囲】

【請求項1】

リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類のためのプロセッサにより実現される方法であって、
移動通信デバイスの１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）において、画像取り込みデバイスから複数の赤、緑及び青（ＲＧＢ）入力画像をリアルタイムで受信するステップであって、前記複数のＲＧＢ入力画像の各々がハンドジェスチャを含む、ステップ（３０２）と、
リアルタイムで、前記移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる物体検出器を用いて、前記受信された複数のＲＧＢ入力画像から複数の手候補バウンディングボックスを検出するステップであって、前記複数の手候補バウンディングボックスの各々は、前記受信された複数のＲＧＢ入力画像からの対応するＲＧＢ画像に固有であり、前記複数の手候補バウンディングボックスの各々は、手候補を含む、ステップ（３０４）と、
リアルタイムで、前記複数の手候補バウンディングボックスの各々からの前記手候補をダウンスケールして、ダウンスケールされた手候補のセットを取得するステップ（３０６）と、
リアルタイムで、前記移動通信デバイスの前記１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれるフィンガーチップリグレッサを用いて、前記ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出するステップであって、前記ダウンスケールされた手候補のセットからの前記フィンガーチップの空間位置がフィンガーチップモーションパターンを表す、ステップ（３０８）と、
リアルタイムで、前記移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる双方向長短期メモリ（Ｂｉ−ＬＳＴＭ）ネットワークを介して、前記フィンガーチップの前記空間位置からの第１座標及び第２座標を用いて、前記フィンガーチップモーションパターンを１又は２以上のハンドジェスチャに分類するステップ（３１０）と、
を含む、プロセッサにより実現される方法。

【請求項2】

前記手候補を含む前記手候補バウンディングボックスの各々は、前記１又は２以上のハンドジェスチャに分類するのに用いられるポインティングジェスチャポーズを示す、請求項１に記載のプロセッサにより実現される方法。

【請求項3】

前記フィンガーチップモーションパターンを前記１又は２以上のハンドジェスチャに分類する前記ステップは、前記フィンガーチップの前記第１座標及び第２座標に対してリグレッション技術を適用するステップを含む、請求項１に記載のプロセッサにより実現される方法。

【請求項4】

前記フィンガーチップの空間位置は、前記複数のＲＧＢ入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、前記陽性ポインティングフィンガー手検出の存在は、前記ハンドジェスチャの開始を示す、請求項１に記載のプロセッサにより実現される方法。

【請求項5】

前記複数のＲＧＢ入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の不存在は、前記ハンドジェスチャの終了を示す、請求項１に記載のプロセッサにより実現される方法。

【請求項6】

リアルタイムでのフィンガーチップモーションパターンのジェスチャへの分類のためのシステム（１００）であって、
命令を格納するメモリ（１０２）と、
１又は２以上の通信インタフェース（１０６）と、
前記１又は２以上の通信インタフェース（１０６）を介して前記メモリ（１０２）に結合された１又は２以上のハードウェアプロセッサ（１０４）と、
を備え、
前記１又は２以上のハードウェアプロセッサ（１０４）は、前記命令によって、
前記システムの１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）において、画像取り込みデバイスからの複数の赤、緑及び青（ＲＧＢ）入力画像をリアルタイムで受信するステップであって、前記複数のＲＧＢ入力画像の各々がハンドジェスチャを含む、ステップと、
リアルタイムで、前記システムの１又は２以上のハードウェアプロセッサを介して実行される前記カスケード深層学習モデル（ＣＤＬＭ）に含まれる物体検出器を用いて、前記受信された複数のＲＧＢ入力画像から複数の手候補バウンディングボックスを検出するステップであって、前記複数の手候補バウンディングボックスの各々は、前記受信された複数のＲＧＢ入力画像からの対応するＲＧＢ画像に固有であり、前記複数の手候補バウンディングボックスの各々は、手候補を含む、ステップと、
リアルタイムで、前記複数の手候補バウンディングボックスの各々からの前記手候補をダウンスケールして、ダウンスケールされた手候補のセットを取得するステップと、
リアルタイムで、前記システムの１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれるフィンガーチップリグレッサを用いて、前記ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出するステップであって、前記ダウンスケールされた手候補のセットからのフィンガーチップの空間位置がフィンガーチップモーションパターンを表す、ステップと、
リアルタイムで、前記システムの１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる双方向長短期メモリ（Ｂｉ−ＬＳＴＭ）ネットワークを介して、前記フィンガーチップの空間位置からの第１座標及び第２座標を用いて、前記フィンガーチップモーションパターンを１又は２以上のハンドジェスチャに分類するステップと、
によって構成される、システム（１００）。

【請求項7】

前記手候補を含む前記手候補バウンディングボックスの各々は、前記１又は２以上のハンドジェスチャへの分類に用いられるポインティングジェスチャポーズを示す、請求項６に記載のシステム。

【請求項8】

前記フィンガーチップモーションパターンは、前記フィンガーチップの第１座標及び第２座標に対してリグレッション技術を適用することによって１又は２以上のハンドジェスチャに分類される、請求項６に記載のシステム。

【請求項9】

前記フィンガーチップの空間位置は、前記複数のＲＧＢ入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、前記陽性ポインティングフィンガー手検出の存在は、前記ハンドジェスチャの開始を示す、請求項６に記載のシステム。

【請求項10】

前記複数のＲＧＢ入力画像における連続フレームのセットでの陽性ポインティングフィンガーハンドジェスチャの不存在は、前記ハンドジェスチャの終了を示す、請求項６に記載のシステム。

【請求項11】

１又は２以上の命令を含む１又は２以上の非一時的機械可読情報記憶媒体であって、前記１又は２以上の命令は、１又は２以上のハードウェアプロセッサによって実行された時に、
移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）において、画像取り込みデバイスから複数の赤、緑及び青（ＲＧＢ）入力画像をリアルタイムで受信するステップであって、前記複数のＲＧＢ入力画像の各々がハンドジェスチャを含む、ステップと、
リアルタイムで、前記移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる物体検出器を用いて、前記受信された複数のＲＧＢ入力画像から複数の手候補バウンディングボックスを検出するステップであって、前記複数の手候補バウンディングボックスの各々は、前記受信された複数のＲＧＢ入力画像からの対応するＲＧＢ画像に固有であり、前記複数の手候補バウンディングボックスの各々は、手候補を含む、ステップと、
リアルタイムで、前記複数の手候補バウンディングボックスの各々からの手候補をダウンスケールして、ダウンスケールされた手候補のセットを取得するステップと、
リアルタイムで、前記移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれるフィンガーチップリグレッサを用いて、前記ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出するステップであって、前記ダウンスケールされた手候補のセットからのフィンガーチップの空間位置がフィンガーチップモーションパターンを表す、ステップと、
リアルタイムで、前記移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる双方向長短期メモリ（Ｂｉ−ＬＳＴＭ）ネットワークを介して、前記フィンガーチップの空間位置からの第１座標及び第２座標を用いて、前記フィンガーチップモーションパターンを１又は２以上のハンドジェスチャに分類するステップと、
によってリアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類を生じる、１又は２以上の非一時的機械可読情報記憶媒体。

【請求項12】

前記手候補を含む前記手候補バウンディングボックスの各々は、前記１又は２以上のハンドジェスチャへの分類に用いられるポインティングジェスチャポーズを示す、請求項１１に記載の１又は２以上の非一時的機械可読情報記憶媒体。

【請求項13】

前記フィンガーチップモーションパターンを１又は２以上のハンドジェスチャに分類する前記ステップは、前記フィンガーチップの第１座標及び第２座標に対してリグレッション技術を適用するステップを含む、請求項１１に記載の１又は２以上の非一時的機械可読情報記憶媒体。

【請求項14】

前記フィンガーチップの空間位置は、前記複数のＲＧＢ入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、前記陽性ポインティングフィンガー手検出の存在は、前記ハンドジェスチャの開始を示す、請求項１１に記載の１又は２以上の非一時的機械可読情報記憶媒体。

【請求項15】

前記複数のＲＧＢ入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の不存在は、前記ハンドジェスチャの終了を示す、請求項１１に記載の１又は２以上の非一時的機械可読情報記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照及び優先権）
本特許出願は、全体が引用により本明細書に組み入れられる、２０１９年１月２５日出願のインド特許出願第２０１９２１００３２５６号に対する優先権を主張するものである。

【0002】

本開示は、一般的に、分類手法に関し、詳細には、フィンガーチップモーションパターンのリアルタイムのジェスチャへのオンデバイス分類に関する。

【背景技術】

【0003】

過去数十年に渡って、情報技術は、デスクトップからモバイルコンピューティングに移行してきた。スマートフォン、タブレット、スマートウォッチ及びヘッドマウントデバイス（ＨＭＤ）が、ゆっくりとデスクトップベースのコンピューティングに置き換わりつつある（又は置き換わった）。オフィス及びホームオフィス環境から、いつでもどこでもアクティビティへのコンピューティングの明確なシフトが起こってきた。モバイルフォンは、生活の大部分を形成しており、すなわち、これから生じるインターネット上のトラフィックのパーセンテージは、そのデスクトップの対応するものを上回っている。当然、この移行によって、人間がこれらのデバイスと対話する方法もまた、キーボード／マウスから、ジェスチャ、スピーチ及び脳コンピュータインタフェースへと進化している。騒音のある室外セットアップでは、スピーチインタフェースは、正確さが不十分な傾向があり、この結果、多くのＨＣＩ研究者にとって、ハンドジェスチャインタフェースとスピーチの組合せが興味を示している。リアルタイムフィード又はビデオでのハンドジェスチャ認識は、アクティビティ認識の一形態である。ハンドジェスチャは、複合現実（ＭＲ）アプリケーションにおける対話の直観的手段を形成する。しかしながら、正確なジェスチャ認識は、深層学習モデルを介して、又は高価なセンサを用いることによってのみ達成することができる。これらの深層学習モデルの堅牢さに関わらず、これらは、一般的には、計算コストが高く、リアルタイムの性能の取得には未だに課題が残る。

【発明の概要】

【課題を解決するための手段】

【0004】

本開示の実施形態は、従来のシステムにおいて発明者らによって認識された上述の技術的問題のうちの１又は２以上に対する解決策として技術的改善を提示す。例えば１つの態様では、フィンガーチップモーションパターンのリアルタイムのジェスチャへのオンデバイス分類のためのプロセッサにより実現される方法である。本方法は、移動通信デバイスの１又は２以上のハードウェアを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）において、画像取り込みデバイスから複数の赤、緑及び青（ＲＧＢ）入力画像をリアルタイムで受信するステップであって、複数のＲＧＢ入力画像の各々がハンドジェスチャを含む、ステップと、リアルタイムで、移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる物体検出器を用いて、受信された複数のＲＧＢ入力画像から複数の手候補バウンディングボックスを検出するステップであって、複数の手候補バウンディングボックスの各々は、受信された複数のＲＧＢ入力画像からの対応するＲＧＢ画像に固有であり、複数の手候補バウンディングボックスの各々は手候補を含む、ステップと、複数の手候補バウンディングボックスの各々からの手候補をリアルタイムでダウンスケールし、ダウンスケールされた手候補のセットを取得するステップと、リアルタイムで、移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれるフィンガーチップリグレッサを用いて、ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出するステップであって、ダウンスケールされた手候補のセットからのフィンガーチップの空間位置は、フィンガーチップモーションパターンを表す、ステップと、リアルタイムで、移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる双方向長短期メモリ（Ｂｉ−ＬＳＴＭ）ネットワークを介して、フィンガーチップの空間位置からの第１座標及び第２座標を用いてフィンガーモーションパターンを１又は２以上のハンドジェスチャに分類するステップと、を含む。

【0005】

１つの実施形態において、手候補を含む手候補バウンディングボックスの各々は、１又は２以上のハンドジェスチャに分類するのに用いられるポインティングジェスチャポーズを示す。

【0006】

１つの実施形態において、フィンガーチップモーションパターンを１又は２以上のハンドジェスチャに分類するステップは、フィンガーチップの第１座標及び第２座標に対してリグレッション技術を適用するステップを含む。

【0007】

１つの実施形態において、フィンガーチップの空間位置は、複数のＲＧＢ入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、陽性ポインティングフィンガー手検出の存在は、ハンドジェスチャの開始を示す。

【0008】

１つの実施形態において、複数のＲＧＢ入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の不存在は、ハンドジェスチャの終了を示す。

【0009】

別の態様では、リアルタイムでのフィンガーチップモーションパターンのジェスチャへの分類のためのシステムが提供される。本システムは、命令を格納するメモリと、１又は２以上の通信インタフェースと、１又は２以上の通信インタフェースを介してメモリに結合された１又は２以上のハードウェアプロセッサと、を備え、１又は２以上のハードウェアプロセッサは、命令によって、メモリに含まれ且つシステムの１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）において、画像取り込みデバイスからの複数の赤、緑及び青（ＲＧＢ）入力画像をリアルタイムで受信するステップであって、複数のＲＧＢ入力画像の各々がハンドジェスチャを含む、ステップと、リアルタイムで、システムの１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる物体検出器を用いて、受信された複数のＲＧＢ入力画像から複数の手候補バウンディングボックスを検出するステップであって、複数の手候補バウンディングボックスの各々が、受信された複数のＲＧＢ入力画像からの対応するＲＧＢ画像に固有であり、複数の手候補バウンディングボックスの各々が、手候補を含む、ステップと、リアルタイムで、複数の手候補バウンディングボックスの各々からの手候補をダウンスケールして、ダウンスケールされた手候補のセットを取得するステップと、システムの１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれるフィンガーチップリグレッサを用いて、リアルタイムで、ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出するステップであって、ダウンスケールされた手候補のセットからのフィンガーチップの空間位置は、フィンガーモーションパターンを表す、ステップと、リアルタイムで、システムの１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる双方向長短期メモリ（Ｂｉ−ＬＳＴＭ）ネットワークを介して、フィンガーチップの空間位置からの第１座標及び第２座標を用いて１又は２以上のハンドジェスチャにフィンガーチップモーションパターンを分類するステップと、によって構成される。

【0010】

１つの実施形態では、手候補を含む手候補バウンディングボックスの各々は、１又は２以上のジェスチャへの分類に用いられるポインティングジェスチャポーズを示す。

【0011】

１つの実施形態では、フィンガーチップモーションパターンは、フィンガーチップの第１座標及び第２座標に対してリグレッション技術を適用することによって１又は２以上のハンドジェスチャに分類される。

【0012】

１つの実施形態では、フィンガーチップの空間位置は、複数のＲＧＢ入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、陽性ポインティングフィンガー手検出の存在は、ハンドジェスチャの開始を示す。

【0013】

１つの実施形態では、複数のＲＧＢ入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の不存在は、ハンドジェスチャの終了を示す。

【0014】

更に別の態様では、１又は２以上の命令を含む１又は２以上の非一時的機械可読情報記憶媒体が提供され、該１又は２以上の命令は、１又は２以上のハードウェアプロセッサによって実行された時に、移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）において、画像取り込みデバイスから複数の赤、緑及び青（ＲＧＢ）入力画像をリアルタイムで受信するステップであって、複数のＲＧＢ入力画像の各々がハンドジェスチャを含む、ステップと、リアルタイムで、移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる物体検出器を用いて、受信された複数のＲＧＢ入力画像から複数の手候補バウンディングボックスを検出するステップであって、複数の手候補バウンディングボックスの各々が、受信された複数のＲＧＢ入力画像からの対応するＲＧＢ画像に固有であり、複数の手候補バウンディングボックスの各々が手候補を含む、ステップと、リアルタイムで複数の手候補バウンディングボックスの各々から手候補をダウンスケールして、ダウンスケールされた手候補のセットを取得するステップと、リアルタイムで、移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれるフィンガーチップリグレッサを用いて、ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出するステップであって、ダウンスケールされた手候補のセットからのフィンガーチップの空間位置は、フィンガーチップモーションパターンを表すことを特徴とするステップと、リアルタイムで、移動通信デバイス上で１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる双方向長短期メモリ（Ｂｉ−ＬＳＴＭ）ネットワークを介して、フィンガーチップの空間位置からの第１座標及び第２座標を用いて、フィンガーチップモーションパターンを１又は２以上のハンドジェスチャに分類するステップと、を生じる。

【0015】

１つの実施形態では、手候補を含む手候補バウンディングボックスの各々は、１又は２以上のハンドジェスチャに分類するために利用されるポインティングジェスチャポーズを示す。

【0016】

１つの実施形態では、フィンガーチップモーションパターンを１又は２以上のハンドジェスチャに分類するステップは、フィンガーチップの第１座標及び第２座標に対してリグレッション技術を適用するステップを含む。

【0017】

【0018】

【0019】

上述の概要及び以下の詳細な説明の両方は、例示的で説明のためのものに過ぎず、請求項に記載される本発明を限定するものではない点を理解されたい。

【0020】

本開示に組み入れられ且つ本開示の一部を構成する添付図面は、例示的な実施形態を示し、本明細書と共に開示される原理を説明する役割を果たす。

【図面の簡単な説明】

【0021】

【図1】本開示の実施形態による、リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類のためのシステムの例示的ブロック図である。

【図2】本開示の実施形態による、リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類のためのシステムの例示的ブロック図である。

【図3】本開示の実施形態による図１のシステムを用いてリアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類の方法の例示的流れ図である。

【図4】本開示の例示的な実施形態による図１のシステムによって実施されるフィンガーチップローカライゼーションのフィンガーチップリグレッサアーキテクチャを示す図である。

【図5】本開示の例示的な実施形態によるデータ収集前のユーザに示されるジェスチャシーケンスを示す図である。

【図6】本開示の例示的な実施形態による、不十分な照明、ボケたレンダリング、屋内及び屋外環境などの様々な条件それぞれの検出器の結果（手候補バウンディングボックス）を示す、本開示と従来の手法の画像比較を示す図である。

【図7A】本開示の例示的な実施形態による従来の技術と本開示のフィンガーローカライゼーションの比較を示すグラフ表現である。

【図7B】本開示の例示的な実施形態による従来の技術との本開示のフィンガーローカライゼーションの比較を示すグラフ表現である。

【図8】本開示の例示的な実施形態によるスマートフォンベースのＧｏｏｇｌｅ（登録商標）カードボードヘッドマウントデバイスを用いて取り込まれた２４０自己一人称視点ビデオにおける図３の方法の全体の性能を示す図である。

【発明を実施するための形態】

【0022】

例示的な実施形態について添付図面を参照して説明する。図では、参照数字の最も左の桁が、参照数字が最初に現れる図を識別する。好都合であれば、同じ参照数字が、同じ又は同様の要素を示すために図全体を通して用いられる。開示す原理の例及び特徴を本明細書で説明するが、修正、適応、及び他の実施が、開示す実施形態の精神及び範囲から逸脱することなく可能である。以下の詳細な説明は例示的なものに過ぎず、真の範囲及び精神は以下の請求項によって示されるものとする。

【0023】

Ｍｉｃｒｏｓｏｆｔ（登録商標）ＨｏｌｏＬｅｎｓ、Ｄａｑｒｉ及びＭｅｔａＧｌａｓｓｅｓなどの高価な拡張現実（ＡＲ）／複合現実（ＭＲ）デバイスは、最新のハードウェアの進歩を用いることによるリッチユーザインタフェースを提供する。これらには、複数のカメラ、深度センサ及び専用プロセッサを含む多種多様なオンボードセンサが備えられている。これは、大量採用に対して高価で負担しきれなくなる。

【0024】

ハンドジェスチャを介したユーザが使い易いインタフェースを提供するために、ユーザの視野（ＦｏＶ）で手を検出するステップ、手に特定のキーポイントをローカライズするステップ、及びこれらのモーションパターンを理解するステップは、近年ではビジョンコミュニティにとって重要になってきた。最先端技術の物体検出器及びシーケンス追跡方法を用いてこのような問題を解決するための堅牢な深層学習モデルを有するにも関わらず、特にオンシステムで、例えばオンデバイスでリアルタイム性能を取得することは、メモリ及び処理上のリソース制約のせいで依然として課題となっている。

【0025】

本開示では、実施形態は、深度情報及び専門ハードウェアの必要なく作用するコンピュータ効率のよいハンドジェスチャ認識フレームワークを記載しており、これによってジェスチャインタフェースの多数アクセスを最も手ごろなビデオシースルーＨＭＤに提供する。これらのデバイスは、スマートフォンカメラフィードのステレオレンダリングを用いることによる仮想現実（ＶＲ）／ＭＲ経験を提供するが、ユーザ対話能力が制限される。

【0026】

工業検査及び修復、テレプレゼンス、及びデータ可視化は、本開示の実施形態によって記載されるフレームワークの直ぐに適用できるものの一部であり、リアルタイムで作用することができ、インターネットの接続の必要もなく、リモート環境で作動できるという利点を有する。本開示で実施されるフレームワークの一般的な性質を示すために、１０個の複雑なジェスチャの検出が、ポインティング手ポーズを用いて実行され、サンプルＡｎｄｒｏｉｄアプリケーションによって実施されている。

【0027】

このために、本開示の実施形態は、ウェアラブルデバイスの一人称ビューで作用するハンドジェスチャ認識フレームワークを実施するシステム及び方法を提供する。このモデルは、グラフィクス処理ユニット（ＧＰＵ）機械で訓練され、Ｇｏｏｇｌｅ（登録商標）カードボード及びＶＲボックスなどの費用のかからないウェアラブルデバイスで使用するＡｎｄｒｏｉｄスマートフォンにポートされる。本開示は、カスケード深層学習モデル：手ローカライゼーション（又はローカライゼーション）のＭｏｂｉｌｅＮｅｔＶ２、ジェスチャ分類のためのＢｉ−ＬＳＴＭモデルが従うフィンガーチップリグレッションアーキテクチャによって駆動されるハンドジェスチャ認識フレームワークを実施する。

【0028】

ここで図、特に図１から図８を参照すると、同様の参照符号が図全体を通じて対応する特徴を一貫して示し、好ましい実施形態が示されており、これらの実施形態は、以下の例示的なシステム及び／又は方法の文脈で説明されている。

【0029】

図１は、本開示の実施形態による、リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類のためのシステム１００の例示的なブロック図を示す。システム１００はまた、「分類システム」又は「移動通信デバイス」又は「ビデオシースルーヘッドマウントデバイス」とも呼ばれ、以下では同義的に用いられる。１つの実施形態では、システム１００は、１又は２以上のプロセッサ１０４、通信インタフェースデバイス又は入力／出力（Ｉ／Ｏ）インタフェース１０６、及び１又は２以上のプロセッサ１０４に動作可能に結合された１又は２以上のデータストレージデバイス又はメモリ１０２を含む。１又は２以上のプロセッサ１０４は、１又は２以上のソフトウェア処理モジュール及び／又はハードウェアプロセッサとすることができる。１つの実施形態では、ハードウェアプロセッサは、１又は２以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理ユニット、状態機械、論理回路、及び／又は作動命令に基づいて信号を操作する何れかのデバイスとして実施することができる。他の機能の中でも、プロセッサは、メモリに格納されたコンピュータ可読命令をフェッチ及び実行するよう構成される。１つの実施形態では、デバイス１００は、ラップトップコンピュータ、ノートブック、ハンドヘルドデバイス、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウドなどの多種多様なコンピュータシステムで実施することができる。

【0030】

Ｉ／Ｏインタフェースデバイス１０６は、多種多様なソフトウェア及びハードウェアインタフェース、例えば、ウェブインタフェース、グラフィカルユーザインタフェースなどを含むことができ、有線ネットワーク、例えば、ＬＡＮ、ケーブルなど、及びＷＬＡＮ、セルラー、又は衛星などの無線ネットワークを含む多種多様なネットワークＮ／Ｗ及びプロトコルタイプ内の複数の通信を容易にすることができる。１つの実施形態では、Ｉ／Ｏインタフェースデバイスは、幾つかのデバイスを互いに又は別のサーバに接続するための１又は２以上のポートを含むことができる。

【0031】

メモリ１０２は、例えば、静的ランダムアクセスメモリ（ＳＲＡＭ）及び動的ランダムアクセスメモリ（ＤＲＡＭ）などの揮発性メモリ、及び／又は読取り専用メモリ（ＲＯＭ）、消去可能プログラマブルＲＯＭ、フラッシュメモリ、ハードディスク、光学ディスク、及び磁気テープなどの不揮発性メモリを含む当技術で公知の何れかのコンピュータ可読媒体を含むことができる。１つの実施形態では、データベース１０８をメモリ１０２に格納することができ、データベース１０８は、情報、例えば、１又は２以上のコンピュータデバイス（例えば、ビデオシースルーヘッドマウントデバイス）から取り込まれた赤、緑、及び青（ＲＧＢ）入力画像、手候補を含むバウンディングボックスに関するデータ、ダウンスケールされた手候補、ダウンスケールされた手候補から検出されたフィンガーチップの空間位置、フィンガーチップの空間位置から得られたｘ及びｙ座標、及び１又は２以上のジェスチャに分類されるフィンガーチップのモーションパターンなどを含むことができる。１つの実施形態では、メモリ１０２は、１又は２以上の技術（例えば、ＭｏｂｉｌｅＮｅｔＶ２、ダウンスケールなどの画像処理技術と呼ばれる特徴抽出器又は特徴検出器）、フィンガーチップリグレッション／リグレッサ、Ｂｉ−長短期メモリ（Ｂｉ−ＬＳＴＭ）ネットワークなど）を格納することができ（又は格納する）、１又は２以上のハードウェアプロセッサ１０４によって実行された時に本明細書で説明する方法を実行する。メモリ１０２は、本開示のシステム及び方法によって実行される各ステップの入力／出力に関する情報を含む（又は含むことができる）。１つの実施形態では、ＭｏｂｉｌｅＮｅｔＶ２（特徴抽出器又は特徴検出器）、画像処理技術、フィンガーチップリグレッション／リグレッサ及びＢｉ−長短期メモリ（Ｂｉ−ＬＳＴＭ）ネットワークは互いに結合され、カスケード深層学習モデル（ＣＤＬＭ）を形成し、１又は２以上のハードウェアプロセッサ１０４によって実行された時に本明細書で説明する方法を実行する。

【0032】

図２は、図１に関して、本開示の１つの実施形態による、リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類のためのシステム１００の例示的なブロック図を示している。代替として、図２は、本開示の１つの実施形態による、リアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類のためのシステム１００の例示的な実施を示す。図２に示したアーキテクチャは、フィンガーチップモーションパターンを様々なハンドジェスチャに分類するラベル付け分類データの制限された量しか必要としない単眼ＲＧＢカメラ入力を備えた費用のかからないＡＲウェアラブルデバイスの多種多様なハンドジェスチャを認識するよう構成される。

【0033】

図３は、図１〜２に関して、本開示の実施形態による図１のシステムを用いたリアルタイムでのフィンガーチップモーションパターンのジェスチャへのオンデバイス分類の方法の例示的な流れ図を示す。１つの実施形態では、システム１００は、１又は２以上のハードウェアプロセッサ１０４に動作可能に結合された１又は２以上のデータストレージデバイス又はメモリ１０２を含み、１又は２以上のプロセッサ１０４による方法のステップの実行の命令を格納するよう構成される。本開示の方法のステップは、図１のシステム１００の構成要素、図２及び４のブロック図、及び図３に示した流れ図に関して説明する。本開示の１つの実施形態では、ステップ３０２で、１又は２以上のハードウェアプロセッサ１０４が、リアルタイムで、移動通信デバイス１００の１又は２以上のハードウェアプロセッサを介して実行されるカスケード深層学習モデル（ＣＤＬＭ）において、画像取り込みデバイスから複数の赤、緑及び青（ＲＧＢ）入力画像を受信し、複数のＲＧＢ入力画像の各々がハンドジェスチャを含む。換言すると、移動通信デバイス１００は、入力として単一のＲＧＢ画像を取る特徴抽出器／物体検出器（例えば、本開示におけるＭｏｂｉｌｅＮｅｔＶ２）を有するカスケード深層学習モデルを含む。

【0034】

本開示の１つの実施形態では、ステップ３０４で、１又は２以上のハードウェアプロセッサ１０４が、リアルタイムで、移動通信デバイス１００で実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる物体検出器を用いて、受信された複数のＲＧＢ入力画像から複数の手候補バウンディングボックスを検出する。１つの実施形態では、複数の手候補バウンディングボックスの各々は、受信された複数のＲＧＢ入力画像からの対応するＲＧＢ画像に固有であり、各手候補バウンディングボックスは手候補を含む。換言すると、ＭｏｂｉｌｅＮｅｔＶ２は、手候補を含む手候補バウンディングボックスを出力する。手候補を含む手候補バウンディングボックスの各々は、１又は２以上のハンドジェスチャに分類するのに用いられるポインティングジェスチャポーズを示す。図２は、図１のシステム１００で実行されるカスケード深層学習モデルの物体検出器による手候補出力を示す。

【0035】

ＭｏｂｉｌｅＮｅｔＶ２は、軽量ディープニューラルネットワークを構築するための深度幅分離可能畳み込みを用いるストリームラインアーキテクチャである。深度幅分離可能畳み込みは、標準的な畳み込みを深度幅畳み込み及びポイント幅畳み込みとも呼ばれる１ｘ１畳み込みに因数分解し、これによってネットワークにおけるパラメータの数を低減する。これはＭｏｂｉｌｅＮｅｔＶ１からの理想に構築されるが（物体検出器の早期バージョン）、２つの新しい特徴、すなわち（ｉ）層間の線形ボトルネック、及び（ｉｉ）ボトルネック間のスキップ接続をアーキテクチャに組み入れる。ボトルネックはモデルの中間入力及び出力を符号化して、内側層はモデルの能力をエンキャプスレートして、画素などの低レベル概念から画像カテゴリなどの高レベル記述子に変換する。スキップ接続は、従来の残余接続と同様、精度における何れの損失もなく高速訓練を可能にする。

【0036】

ウェアラブルデバイスから取得されたＲＧＢ入力画像に手候補を検出するための本開示によって行われる実験では、本開示のシステム及び方法は、従来のシステム及び方法／技術によってＭｏｂｉｌｅＮｅｔＶ２特徴抽出器を評価する（例えば、従来の技術１−ＳＳＤＬｉｔｅ−物体検出モジュール。実験及び結果セクションは、手クラス（ポインティングジェスチャポーズ）を検出するために最後に完全に接続された層を修正することによるＺＦ（例えば、Ｚｅｉｌｅｒ及びＦｅｒｇｕｓ２０１４）及びＶＧＧ１０２４（Ｃｈａｔｆｉｅｌｄ他２０１４）などの他のコンパクトモデルと共に１３共有畳み込み層から成る事前訓練ＶＧＧ１６モデルを備えた先行技術と比較した結果を強調する。

【0037】

図３のステップを参照すると、本開示の１つの実施形態では、ステップ３０６で、１又は２以上のハードウェアプロセッサ１０４がリアルタイムで、複数の手候補バウンディングボックスの各々から手候補をダウンスケールして、ダウンスケールされた手候補のセットを取得する。換言すると、手候補を含む入力画像がまず、特定の解像度（例えば、特定の使用ケースシナリオに対する本開示における６４０ｘ４８０解像度）にダウンスケールされ、画像特徴の品質を危うくすることなく処理時間を低減する。

【0038】

本開示の１つの実施形態では、ステップ３０８で、１又は２以上のハードウェアプロセッサ１０４が、リアルタイムで、移動通信デバイス１００で実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれるフィンガーチップリグレッサを用いて、ダウンスケールされた手候補のセットからの各ダウンスケールされた手候補からフィンガーチップの空間位置を検出する。１つの実施形態では、ダウンスケールされた手候補のセットからのフィンガーチップの空間位置は、フィンガーチップモーションパターンを表す。換言すると、検出された手候補は、フィンガーチップモーションパターン（フィンガーチップとも呼ばれる）の空間位置を出力する図２に示したフィンガーチップリグレッサに供給される。

【0039】

本開示では、システム１００は、畳み込みニューラルネットワーク（ＣＮＮ）アーキテクチャに基づくフィンガーチップリグレッサを実施しフィンガーチップの（ｘ、ｙ）座標をローカライズする。上述した手候補検出（ポインティングジェスチャポーズ）は、フィンガーチップローカライゼーションのリグレッションＣＮＮをトリガする。手候補バウンディングボックスがまずクロップされ、図４に示したネットワークにフィードする前に９９ｘ９９解像度にサイズ変更される。詳細には、図４は、図１から図３に関して、本開示の例示的な実施形態による図１のシステム１００によって実施されるフィンガーチップローカライゼーションのフィンガーチップリグレッサアーキテクチャを示す。

【0040】

システム１００及び図４の本開示によって実施されるＣＮＮアーキテクチャは、マックスプーリング層が続く３つの畳み込み層を各々が有する２つの畳み込みブロックから構成される。最後に、３つの完全に接続された層が、最後の層のフィンガーチップポイントの２つの座標値に回帰するために用いられる。本開示では、図４は、フィンガーチップローカライゼーションのフィンガーチップリグレッサアーキテクチャを示す。Ｂｉ−ＬＳＴＭ／ＬＳＴＭ分類ネットワークへの入力は３ｘ９９ｘ９９サイズのＲＧＢ画像である。２畳み込みブロックの各々は、マックスプーリング層が各々続く３畳み込み層を有する。３の完全接続層はフィンガーチップ空間位置に回帰する。目的がフィンガー位置に対応する連続値出力を決定することであるので、平均平方誤差（ＭＳＥ）尺度が、最後に完全に接続された層の損失をコンピュータ計算するために用いられる。モデルは、堅牢なローカライゼーションのために訓練され、従来の技術によって提案されたアーキテクチャと比較される。

【0041】

本開示の１つの実施形態では、ステップ３１０で、１又は２以上のハードウェアプロセッサ１０４が、リアルタイムで、移動通信デバイスで実行されるカスケード深層学習モデル（ＣＤＬＭ）に含まれる双方向長短期メモリ（Ｂｉ−ＬＳＴＭ）ネットワークを介して、フィンガーチップの空間位置からの第１座標及び第２座標を用いて、フィンガーチップモーションパターンを１又は２以上のハンドジェスチャに分類する。換言すると、これらの集まり（例えば、空間位置−フィンガーチップモーションパターンのｘ及びｙ座標）は、モーションパターンを様々なジェスチャに分類するためのＢｉ−ＬＳＴＭネットワークに供給される。詳細には、各フィンガーチップモーションパターンは、フィンガーチップの第１座標（例えば、いわゆる「ｘ」座標）及び第２座標（例えば、いわゆる「ｙ」座標）にリグレッション技術を適用することによって１又は２以上のハンドジェスチャに分類される。１つの実施形態では、図２に示したフィンガーチップ（又はフィンガーチップモーションパターン）の「ｘ」及び「ｙ」座標は、ユーザによって実行される動作（例えば、ジェスチャ）に対してそれぞれ４５及び３６５である。別の実施形態では、図２に示したフィンガーチップの「ｘ」及び「ｙ」座標は、ユーザによって実行される別の動作に対してそれぞれ２９０及び３４０である。更に別の実施形態では、図２に示したフィンガーチップの「ｘ」及び「ｙ」座標は、ユーザによって実行される別の動作に対してそれぞれ５６０及び４１０である。加えて、Ｂｉ−ＬＳＴＭ／ＬＳＴＭ分類ネットワークを示す図２のセクション（ｃ）では、本開示は、様々なジェスチャへの次のフレームにおけるフィンガーチップ検出の分類（例えば、チェックマーク、右、長方形、Ｘ（又は削除）など）を記述する。特定のフィンガーチップモーションパターンが分類されるこれらのジェスチャの各々は、候補ジェスチャとして識別／分類される特定のフィンガーチップモーションパターンの確率を示す確率スコア（例えば、当技術で公知の方法を使用してコンピュータ計算できる確率スコア）をコンピュータ計算する（又は提供する）。例えば、４５及び３６５それぞれとしてのフィンガーチップの「ｘ」及び「ｙ」座標に対して、Ｂｉ−ＬＳＴＭ／ＬＳＴＭ分類ネットワークは、いわゆる「チェックマークジェスチャ」としてフィンガーチップモーションパターンを分類して、１つの例示的な実施形態ではチェックマークジェスチャであるフィンガーチップモーションパターンの０．９２０の確率スコアをコンピュータ計算している。換言すると、０．９２０の確率スコアは、特定のフィンガーチップモーションパターンがそれに関連付けられる空間位置（又は「ｘ」及び「ｙ」座標）に基づく可能性のあるチェックマークジェスチャであり、且つ１つの例示的な実施形態ではこれに分類されることを示す。同様に、図４に示した他のジェスチャへの分類のための他のフィンガーチップモーションパターンに対する確率スコアがコンピュータ計算される。

【0042】

上述のように、フィンガーチップローカライゼーションネットワーク（又はフィンガーチップリグレッサ）は、ジェスチャ分類ネットワーク（又はＢｉ−ＬＳＴＭネットワーク）への入力として供給されるフィンガーチップの空間位置（ｘ，ｙ）を出力する。計算コストを低減するために、入力（ｘ；ｙ）座標は、Ｂｉ−ＬＳＴＭネットワークへの全フレームの代わりにシステム１００によって調節され、これによってリアルタイムの性能の達成を助ける。システム１００によって実施されるＢｉ−ＬＳＴＭネットワークが前方及び逆方向の両方のシーケンスを処理するので特定の分類タスクに対してＬＳＴＭネットワークよりも適正に実行することが本開示によって行われた実験を通して観察された。ＬＳＴＭの使用は、全フレームワークが可変長フレームシーケンスを有するビデオ及び生フィードに適用可能であることを本質的に意味する。これはジェスチャの長さが実行するユーザ及び先行する２つのネットワークの性能に依存するので特に重要である。

【0043】

従来の技術は、費用のかからないＧｏｏｇｌｅ（登録商標）Ｃａｒｄｂｏａｒｄセットアップのための利用可能な対話のモードのランク付けに対する実現可能性の検討を行い且つ磁気トリガ及び導電レバーの頻繁な使用がデバイスの摩耗及び亀裂に至り有用性においてスコアが低かったことを報告している。従って、本開示は、ユーザ入力シーケンスの開始及び終了を知らせるための自動及び暗黙的トリガを実施する。５つの連続フレームにおける陽性ポインティングフィンガー手検出の場合、フレームワークがフィンガーチップの空間位置の記録を開始するようトリガされる。換言すると、フィンガーチップの空間位置は、複数のＲＧＢ入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の存在に基づいて検出され、陽性ポインティングフィンガー手検出のこの存在はハンドジェスチャの開始を示す。

【0044】

同様に、（５つの）連続フレームにおける何れかの手検出の不存在はジェスチャの終了を示す。換言すると、複数のＲＧＢ入力画像における連続フレームのセットでの陽性ポインティングフィンガー手検出の不存在は、ハンドジェスチャの終了を示す。記録されたシーケンスは次に３０ユニットから成るＢｉ−ＬＳＴＭ層への入力として供給される。前方及び後方起動は、データを１次元にする次の平板化層にパスされる前に乗算される。次に１０ジェスチャの各々に対応する１０出力スコアを備えた完全に接続された層が続く。タスクが１０ジェスチャクラスを分類することであるので、ソフトマックス起動関数が、非正規化ログ確率として出力スコアを解釈するのに用いられ、以下の式を用いて出力スコアを０と１の間になるようにする。

【数1】

ここで、Ｋはクラスの数を示し、ｓはスコアのＫ×１ベクトルであり、ソフトマックス関数の入力、及びｊは、１からＫまで変化する指数である。

は、各ジェスチャに関連付けられる事後確率を示すＫ×１出力ベクトルである。クロスエントロピー損失は、ネットワーク後方伝播のモデルを更新するための訓練に用いられてきた。

【0045】

データセット
本開示はＳＣＵＴエゴフィンガーデータセットを用いた（例えば、参照ディープフィンガー：移動カメラによる自己中心的ビジョンにおけるフィンガーキーポイント検出のためのカスケード畳み込みニューロンネットワーク方式。図２に示した手検出及びフィンガーチップローカライゼーションモジュールを訓練するためのシステム、人、及び人工頭脳学（ＳＭＣ）、２０１５ＩＥＥＥ国際会議、２９４４−２９４９、ＩＥＥＥ」２０１５年Ｈｕａｎｇ他）。データセットは、手候補バウンディングボックス及びインデックスフィンガーキーポイント座標を含むポインティングハンドジェスチャの９３７２９フレームを含んだ。

【0046】

（エゴゲストＡＲ）データセット
時間的ハンドジェスチャを認識するタスクにおける深層学習の進歩を阻止してきた主な要因は、ニューラルネットワークを訓練するための利用可能な大規模データセットの不足である。従って、ジェスチャ分類ネットワークを訓練及び評価するために、ＡＲ／ＭＲウェアラブルの自己中心的ビジョンジェスチャデータセットが本開示によって使用される。データセットは１０ジェスチャパターンを含む。データにばらつきを取り入れるために、データセットは、２１から５０にまたがる年齢によって（ラボラトリから）ランダムに選択された５０対象の助けを借りて収集された。対象の平均年齢は２７．８歳であった。データセットは２５００ジェスチャパターンから構成され、各対象は各ジェスチャの５サンプルを記録した。ジェスチャは、タブレットパーソナルコンピュータＰＣを壁に取り付けることによって記録された。位置感知領域を持つタッチインタフェースアプリケーション上のユーザの人差し指によって描かれたパターンが格納された。データは、６４０ｘ４８０の解像度で取り込まれた。図５は、データ収集の前にユーザに示された標準的入力シーケンスを示す。対象（又はユーザ）からのこれらのジェスチャは、複合現実（ＭＲ）アプリケーションにおけるデータ視覚化の本開示の概念における効率的な利用のために主に３つのカテゴリに分割される。詳細には、図５は、図１から図４に関して、本開示の例示的な実施形態によるデータ収集前のユーザに示されたジェスチャシーケンスを示す。３つのカテゴリは、本開示の範囲を制限するものとして解釈すべきではなく、例によって及び本明細書で説明する実施形態の完全な理解のために本明細書に示されている。
１．グラフ視覚化／リストをナビゲートするための４スワイプジェスチャパターン（上、下、左、及び右）。
２．ユーザのＦｏＶで強調する関心の領域（ＲｏＩ）及びズームイン及びズームアウト動作のための２ジェスチャパターン（長方形及び円）。
３．工業検査などのアプリケーションと対話する場合に文脈的質問に答えるための４ジェスチャパターン（チェックマーク：はい、キャレット：いいえ、Ｘ：削除、星：ブックマーク）（Ｒａｍｋｒｉｓｈｎａ他、２０１６年）。

【0047】

また本開示のシステム及び方法によって実施される全フレークワークを試験するために、各ジェスチャを２２回実行する上述の対象のランダムサブセットによって２４０ビデオが記録された。ランダムの手の動きの追加の２０ビデオも記録された。ビデオは、Ｇｏｏｇｌｅ（登録商標）Ｃａｒｄｂｏａｒｄに据え付けられたＡｎｄｒｏｉｄ（登録商標）デバイスを用いて記録された。高品質ビデオが６４０ｘ４８０の解像度及び３０フレームパー秒（ＦＰＳ）で取り込まれた。

【0048】

実験及び結果
本開示のシステム１００によって実施されるフレームワークが３つのネットワークを含むので、ネットワークの各々の性能は、本開示によって提案されるアプリケーションのための最良のネットワークの組合せに到達するために個々に評価される。８コアＩｎｔｅｌ（登録商標）Ｃｏｒｅ（商標）ｉ７−６８２０ＨＱＣＰＵ、３２ＧＢメモリ及びＮｖｉｄｉａ（登録商標）ＱｕａｄｒｏＭ５０００ＭＧＰＵ機械が実験に用いられた。Ｓｎａｐｄｒａｇｏｎ（登録商標）８４５チップセットスマートフォンが用いられ、ＬｉｎｋｓｙｓＥＡ６３５０８０２．１１ａｃコンパチブル無線ルータ上にホストされるローカルネットワークを用いてサーバ（必要に応じて、デバイスで実行する方法を評価するため）に接続される。

【0049】

手の検出及びフィンガーチップローカライゼーションに関する本開示によって行われる実験の全てに対して、上述の手のデータセットが用いられた。データセットに存在する２４対象から、１７対象のデータが、７０：３０の妥当性スプリットによる訓練のために選択され、７対象のデータ（２４；１５５画像）がネットワークを試験するために選択される。

【0050】

手の検出
表１は、手候補検出の平均絶対精度（ｍＡＰ）及びフレームレートのパーセンテージを報告する。詳細には、表１は、手検出のためのＳＣＵＴ−Ｅｇｏ−Ｆｉｎｇｅｒデータセットにおける様々な方法の性能を示す。ｍＡＰスコア、フレームレート及びモデルサイズが、ＩｏＵにおける変形形態と共に報告される。

【表1】

【0051】

ＭｏｂｉｌｅＮｅｔＶ２は他と比較して高いフレームレートを達成したとしても、高偽陽性を生成し従って低分類性能を生じる。先行技術（例えば、ＹＯＬＯｖ２−破線によって示される）は、オンデバイスで実行できるが、ＭｏｂｉｌｅＮｅｔＶ２と比較して少ないフレームを出力することが観察された。０．５の結合の交点（ＩｏＵ）で、ＹＯＬＯｖ２（破線によって示す）はＳＣＵＴ−Ｅｇｏ−Ｆｉｎｇｅｒ手データセットで９３．９ｍＡＰを達成するがＭｏｂｉｌｅＮｅｔＶ２は８９．１％ｍＡＰを達成する。しかしながら、先行技術（例えば、ＹＯＬＯｖ２−破線によって示される）は、フィンガーチップを含むために必要な高ＩｏＵで手候補をローカライズする場合にＭｏｂｉｌｅＮｅｔＶ２と比較して適切に実行できない。図６は、図１から５に関して、本開示の例示的な実施形態による、不十分な照明、ボケたレンダリング、屋内及び屋外環境それぞれなどの異なる条件における検出器の結果（手候補バウンディングボックス）を示す本開示対従来の方法の画像比較を示す。両方の検出器が背景における偽陽性を予測しない可能性があるが、先行技術（例えば、ＹＯＬＯｖ２−破線によって示す）は、本開示の使用ケースにローカライゼーションエラープロービングＭｏｂｉｌｅＮｅｔＶ２を合わせる点に留意されたい。

【0052】

ＭｏｂｉｌｅＮｅｔＶ２のモデルサイズがモデルの残りよりもかなり小さいことは注目すべきである。本開示は、モバイルデバイスにモデルをポートしリモートサーバへのフレームワークの依存性を取り除く。これは、ネットワークによってもたらされる待ち時間を低減し、ＭＲアプリケーションのための広範囲に及ぶ費用のかからないデバイスを可能にできる。

【0053】

フィンガーチップローカライゼーション
本開示は、２４，１５５画像のテストセットにおけるフィンガーチップローカライゼーションに用いられたモデルを評価した。最後の層で推定される指座標に対応する２ｘ１連続値出力が、グラウンドトゥルース値と比較され、従来の技術のネットワークと比較した時のエラー（画素）及び残余プロットにおける変化する閾値によって成功率をコンピュータ計算する（例、ポインティングジェスチャベースの自己中心的対話システムのデータセット、方法及びアプリケーションを参照。コンピュータビジョン及びパターン認識ワークショップのＩＥＥＥ会議議事録、１６−２３、Ｈｕａｎｇ．Ｙ、Ｌｉｕ，Ｘ、Ｚｈａｎｇ，Ｘ及びＪｉｎ，Ｌ、Ｈｕａｎｇ他を参照、２０１６年）が図７Ａ−７Ｂに示されている。詳細には、図７Ａ−７Ｂは、図１から６に関して、本開示の例示的な実施形態による従来の技術に対する本開示の指ローカライゼーションの比較を示す図形表示を示す。

【0054】

０：００１の学習速度を持つアダムオプティマイザが本開示によって使用される。このモデルは、９９ｘ９９解像度の入力画像上の１０画素のエラー耐用性によって８９．６％の精度を達成する。平均絶対エラーは、本開示の方法では２．７２画素であり、従来の技術で提案されるネットワークでは３．５９画素であることが発見された。本開示によって実施されるモデルが何れの所与のエラー閾値でも高成功率を達成することが図７Ａ−７Ｂの図形表示から明らかである（図７Ｂを参照）。低ローカライゼーションエラーを備えた画像のフラクションは本開示の方法では高い。

【0055】

ジェスチャ分類
本開示は、ジェスチャ分類ネットワークの訓練及びテストのための専用データセットを利用した。同じ訓練及びテスト設定でのＬＳＴＭネットワークによる分類は、Ｂｉ−ＬＳＴＭとして試行／試みられた。訓練中、訓練セットの２０００ジェスチャパターンが使用された。ネットワークの８，２３０パラメータの合計は、６４のバッチサイズ及び８０：２０の検証スプリットによって訓練された。０：００１の学習速度を持つアダムオプティマイザが使用された。ネットワークは、ＬＳＴＭ及びＢｉ−ＬＳＴＭそれぞれに対して９５．１７％及び９６．５％の検証精度を達成した９００エポックに対して訓練された。ＬＳＴＭ及びＢｉ−ＬＳＴＭは、９２．５％及び９４．３％それぞれの分類精度を達成し、類似の分類タスクに用いられる伝統的な方法（又は従来の技術）より性能が優れている。本システムによるＬＳＴＭ及びＢｉ−ＬＳＴＭ方法と従来の技術の分類との比較を以下の表２に示す。

【表2】

【0056】

従来の技術／調査は、例えば従来の技術／調査Ｘを含む−「ステレオカメラ、深度カメラ、及び慣性センサを包含する２つのリアルタイムハンドジェスチャ認識システムの比較」。ＳＰＩＦフォトニクスヨーロッパ、９１３９０Ｃ−９１３９０Ｃ。オプティクス及びフォトニクスのインターナショナルソサイエティ、Ｌｉｕ，Ｋ．；Ｋｅｈｔａｒｎａｖａｚ，Ｎ．；及びＣａｒｌｓｏｈｎ，Ｍ．２０１４年及び従来の技術／調査Ｙ−「Ｌｉｂｌｉｎｅａｒ：ラージリニア分類のライブラリ。Ｆａｎ，Ｒ−Ｅ．；Ｃｈａｎｇ，Ｋ．−Ｗ．；Ｈｓｉｅｈ，Ｃ．−Ｊ．；Ｗａｎｇ，Ｘ．−Ｒ．；及びＬｉｎ，Ｃ．−Ｊ．２００８年による機械学習研究９（８月）ジャーナル１８７１−１８７４ページ。詳細には、表２は本開示の専用データセットにおける様々な分類方法の性能を示す。全てのクラスに対する精度及びリコール値の平均は、単数を得るためにコンピュータ計算される。

【0057】

加えて、伝統的な方法（又は表２に示した従来の技術）の性能が十分なデータポイントが無い場合に大きく低下することが観察された。従って、これらは複雑な補間技術に頼り（追加の処理時間及びメモリ消費に至る）これに矛盾しない結果を与える。

【0058】

フレームワーク評価
本開示の方式／方法が一連の異なるネットワークで実施又は実行されるので、リアルタイムの全体的な分類精度は、パイプラインで使用される各ネットワークの性能に依存して変わることがある。従って、全体のフレームワークは、スマートフォンベースのＧｏｏｇｌｅ（登録商標）カードボードヘッドマウントデバイスによって取り込まれる２４０自己中心ビデオを用いて評価された。精度と性能の間の最良のトレードオフが達成される場合にＭｏｂｉｌｅＮｅｔＶ２モデルは本開示によって行われる実験で使用される。このモデルがＴＦ−Ｌｉｔｅエンジンを用いてスマートフォンで独立して作用できるので、これはリモートサーバ及び品質ネットワーク接続におけるフレームワークの依存性を取り除く。

【0059】

ＦＰＶで取り込まれた２４０自己一人称視点ビデオのデータセットにおける８０．００％の全体の精度を達成したフレームワークが図８に示した行列（混乱行列とも呼ばれる）として示されている。詳細には、図８は、図１から７Ｂに関して、本開示の例示的な実施形態による、スマートフォンベースのＧｏｏｇｌｅ（登録商標）カードボードヘッドマウントデバイスを用いて取り込まれた２４０自己中心ビデオにおける図３の方法の全体的な性能を示す。予測される確率が０．８５より大きい時にジェスチャが検出された。本開示の方法の精度は０．８である（分類されていないクラスを除く）。

【0060】

システム１００によって実施されるＭｏｂｉｌｅＮｅｔＶ２ネットワークは、６４０ｘ４８０解像度ビデオで９ＦＰＳで作用し、システム１００によって実施されるフィンガーチップリグレッサは、９９ｘ９９の解像度で作用する最大１６６ＦＰＳのフレームレートを送り出すよう構成される。システム１００によって実施されるジェスチャ分類ネットワークは、１００ｍｓ未満のデータの所与のストリームを処理する。この結果、フレームワークの平均応答時間は、Ｓｎａｐｄｒａｇｏｎ（登録商標）８４５チップセットによって給電されるスマートフォンで０：１２ｓであることが発見された。全体のモデルは、１６．３ＭＢの（ごく小さな）メモリフットプリントを有した。

【0061】

本開示のシステム及び方法は、エンドツーエンド訓練ジェスチャ分類の従来の先行技術（ＴＧＣＣＡＴ）と比較され、この結果が表３に示されている。詳細には、表３は、本開示の方法に対する様々な従来のモデル／技術のジェスチャ認識精度及び待ち時間の分析を示す。以下の表３から、本開示の方法がオンデバイスで作用し且つ最高精度及び最小の反応時間を効率的に有することが観察される。

【表3】

【0062】

従来の技術ＴＧＣＣＡＴ１は、二人称ビューで行われたジェスチャに包含される身体のパーツの動きを取り込むための畳み込みＬＳＴＭへの差分画像入力によって作用するネットワークを提案した。本開示のビデオデータセットでモデルを調整した後でも、本開示のデータが動的背景を包含しカメラへの静的参照を包含しない場合には３２．１４％の精度しか生じなかった。

【0063】

従来の技術ＴＧＣＣＡＴ２は、２ＤＣＮＮを用いて各フレームから特徴を抽出する。これらのフレーム幅特徴は、一時的なディープビデオ記述子として符号化され、分類のためのＬＳＴＭネットワークに供給される。同様に、３ＤＣＮＮ方式（従来の技術ＴＧＣＣＡＴ３）は３ＤＣＮＮを用いてビデオチップから直接特徴を抽出する。表３は、これらの従来の方法の両方が適正に実行しないことを示している。これに対するもっともらしい直観的理由は、ネットワークが訓練中のノイズが多く且つ質の悪い特徴を学習することがあるからである。例えば注意ベースのビデオ分類などの他の従来の技術は、高クラス間類似性によって低品質で実行した。全フレームのごく小さな部分からの特徴が必要になるので、すなわち、フィンガーチップ位置が既に公知であるので、フィンガーチップ、このような注意モデルは冗長性があるように見える。

【0064】

他の既存の／従来の技術及びシステムは、空中フィンガーチップベースのユーザ対話に類似のフィンガーチップをこれらの上に置くことによってステレオビューで現れる仮想ボタンを用いて実施する。このような従来の技術は、ジェスチャの分類に高速領域畳み込みニューラルネットワーク（ＲＣＮＮ）を用いて、強力且つ十分利用されていないネットワーク化ＧＰＵサーバを実施して、更にコストがかかる。従来の技術及びシステムは、高帯域幅の存在、デバイスと上述のサーバの間の低待ち時間ネットワーク接続に頼る。上述した従来のシステム及び方法／技術とは異なり、本開示の実施形態は、デバイス（例えば、スマートフォン）及びビデオシースルーヘッドマウント（ＶＳＴＨ）又はビデオシースルーヘッドマウントデバイスのためのオンデデバイスポインティングフィンガーベースのジェスチャインタフェースのシステム及び方法を提供する。本開示によるビデオシースルーヘッドマウントデバイスを用いることによって、本開示のシステム１００を純粋にデバイス（具体的にはスマートフォン及びビデオシースルーヘッドマウント）でユーザによって実行されるポインティングハンドジェスチャの分類のための軽量ジェスチャインタフェースにする。また本開示のシステム１００は、メモリを実施及び実行し、効率的なＭｏｂｉｌｅＮｅｔｖ２アーキテクチャをコンピュータ計算し手候補及び異なるフィンガーチップリグレッサフレームワークをローカライズしてユーザのフィンガーチップ及び双方向長短期メモリ（Ｂｉ−ＬＳＴＭ）モデルを追跡してジェスチャを分類する。本開示のシステム１００によって実施されるこのようなアーキテクチャ又はカスケード深層学習モデル（ＣＤＬＭ）の利点は、システム１００が強力且つネットワーク化されたＧＰＵサーバの存在に頼らないことである。全てのコンピューテーションがデバイス自体で実行されるので、システム１００は、ネットワークのない環境で配備することができ、リモートロケーションでのアプリケーションの観点で新規の解決手段を切り拓くものである。

【0065】

本明細書は、当業者が実施形態を実施及び利用できるようにするために本明細書の主題を記載している。主題の実施形態の範囲は、請求項によって定義され、当業者に想起される他の修正を含むことができる。このような他の修正は、請求項の文言と相違しない類似の要素を有する場合又はこれらが請求項の文言とは僅かな相違のある等価要素を含む場合、請求項の範囲内にあるものとする。

【0066】

保護の範囲は、このようなプログラムに、及び加えてメッセージを有するコンピュータ可読手段に拡張され、プログラムがサーバ又はモバイルデバイス又は何れかの適切なプログラマブルデバイス上で実行される時に、このようなコンピュータ可読記憶手段が、本方法の１又は２以上のステップの実施のためのプログラムコード手段を包含することを理解されたい。ハードウェアデバイスは、例えば、サーバ又はパーソナルコンピュータなどのようなコンピュータの何れかの種類、又はこれらの何れかの組合せを含む、プログラムすることができる何れかの種類のデバイスとすることができる。このデバイスはまた、例えば、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はハードウェアとソフトウェア手段の組合せ、例えばＡＳＩＣ及びＦＰＧＡ、又はソフトウェアモジュールが位置付けられる少なくとも１つのマイクロプロセッサ及び少なくとも１つのメモリなどのハードウェア手段とすることができる手段を含むことができる。従って、この手段は、ハードウェア手段とソフトウェア手段の両方を含むことができる。本明細書で説明する方法の実施形態は、ハードウェア及びソフトウェアで実施することができる。このデバイスはソフトウェア手段を含むこともできる。代替として、実施形態を、例えば複数のＣＰＵを用いて様々なハードウェアデバイスで実施することができる。

【0067】

本明細書の実施形態はハードウェア及びソフトウェア要素を含むことができる。ソフトウェアにより実施される実施形態は、限定ではないがファームウェア、常駐ソフトウェア、マイクロコードなどを含む。本明細書で記載される様々なモジュールによって実行される機能は、他のモジュール又は他のモジュールの組合せで実施することができる。この説明の目的で、コンピュータ使用可能又はコンピュータ可読媒体は、命令実行システム、装置、又はデバイスによって使用され、又はこれらに接続されるプログラムを含む、格納、伝送、伝播、又はトランスポートを行うことができる何れかの装置とすることができる。

【0068】

例証のステップは、図示した例示的な実施形態を説明するために示され、進行中の技術的開発により、特定の機能が実行される方法が変わることになることを理解すべきである。これらの例は、例証の目的で本明細書に示され、限定ではない。機能的構築ブロックの境界は、説明の便宜上、本明細書で任意に定義されている。指定された機能及びこれらの関係が適切に実行される限り代替の境界を定義することができる。代替形態（本明細書で記載されるものの等価物、拡張、変形、偏差などを含む）は、本明細書に包含される教示に基づいて当業者に明らかであろう。このような代替形態は、開示される実施形態の範囲及び精神に含まれる。「ｃｏｍｐｒｉｓｉｎｇ（含む）」、「ｈａｖｉｎｇ（有する）」、「ｃｏｎｔａｉｎｉｎｇ（包含する）」、「ｉｎｃｌｕｄｉｎｇ（内包する）」及び他の類似の形態の語は、意味上等価であり、これらの語の何れか１つに続く項目又は複数の項目は、このような項目又は複数の項目の網羅的な列挙であることを意味するものではなく、列挙された項目又は複数の項目だけに限定されることを意味するものとする。本明細書及び添付の請求項で用いられる場合、単数形の「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈上他に明確に指示しない限り複数の参照を含む点に留意されたい。

【0069】

１又は２以上のコンピュータ可読ストレージ媒体は、本開示に適合する実施形態を実施するのに用いることができる。コンピュータ可読ストレージ媒体は、プロセッサによって可読の情報又はデータを格納することができる物理的なメモリの何れかの種類を指す。従って、コンピュータ可読ストレージ媒体は、１又は２以上のプロセッサによって実行する命令を格納することができ、この命令は、本明細書で説明した実施形態に矛盾のないステップ又は段階をプロセッサに実行させるためにある。「コンピュータ可読媒体」という語は、有形のものを含み、搬送波及び過渡信号を除外し、すなわち、非一時的なものと理解すべきである。例としては、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、揮発性メモリ、不揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、ディスク、及び何れかの他の公知の物理的ストレージ媒体が含まれる。

【0070】

本開示及び実施例は、例示的なものに過ぎず、開示される実施形態の真の範囲及び精神は以下の請求項によって示されるものとする。

【図1】