IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特許7351130深度カメラ及び深層ニューラルネットワークを使用する、プロジェクタ-カメラ対話型ディスプレイ用のロバストなジェスチャ認識装置及びシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-19
(45)【発行日】2023-09-27
(54)【発明の名称】深度カメラ及び深層ニューラルネットワークを使用する、プロジェクタ-カメラ対話型ディスプレイ用のロバストなジェスチャ認識装置及びシステム
(51)【国際特許分類】
   G06T 7/20 20170101AFI20230920BHJP
   G06T 7/00 20170101ALI20230920BHJP
   G06F 3/01 20060101ALI20230920BHJP
【FI】
G06T7/20 300A
G06T7/00 350C
G06F3/01 570
【請求項の数】 15
(21)【出願番号】P 2019138269
(22)【出願日】2019-07-26
(65)【公開番号】P2020027647
(43)【公開日】2020-02-20
【審査請求日】2022-06-21
(31)【優先権主張番号】16/059659
(32)【優先日】2018-08-09
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】パトリック チィーウ
(72)【発明者】
【氏名】キム チョルファン
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2018-107642(JP,A)
【文献】Pradyumna NARAYANA et al.,“Gesture Recognition: Focus on the Hands”,2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018年06月,DOI: 10.1109/CVPR.2018.00549
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06F 3/01 - 3/04895
G06V 10/00 - 20/90
(57)【特許請求の範囲】
【請求項1】
ユーザインターフェース(UI)を表面に投影するように構成されたプロジェクタシステムと、
前記投影されたユーザインターフェース上の対話を深度情報と共に記録するように構成されたカメラシステムと、
前記カメラシステムによって記録された対話を検出すると、前記カメラシステムによって記録された前記対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されたプロセッサと、
を備え
前記プロセッサが、
前記投影されたユーザインターフェースのUIウィジェットの近傍の領域におけるピクセルの深度情報を表すz値が、前記表面より上にあり、かつ、前記表面の深度情報を表すz値に対して所定の閾値内にあるか否かを判定することにより、前記投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生したかどうかを判定し、
前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムにより決定された、認識されたジェスチャ動作に対応する動作コマンドを実行し、
前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定する
ように構成される、システム。
【請求項2】
前記プロセッサが、
前記投影されたUI内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、
前記オプティカルフローに前記深層学習アルゴリズムを適用してジェスチャ動作を認識すること
により、前記カメラシステムによって記録された前記対話からジェスチャ動作を認識するように訓練された前記深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成される、
請求項1に記載のシステム。
【請求項3】
前記プロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)である、請求項1に記載のシステム。
【請求項4】
前記プロジェクタシステムが、卓上又は壁面に前記UIを投影するように構成される、請求項1に記載のシステム。
【請求項5】
前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練される、請求項1に記載のシステム。
【請求項6】
ユーザインターフェース(UI)を表面に投影するように構成されたプロジェクタシステムと、
前記投影されたユーザインターフェース上の対話を深度情報と共に記録するように構成されたカメラシステムと、
プロセッサであって、
前記カメラシステムによって記録された対話を検出すると、
前記投影されたUI内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、
前記オプティカルフローに深層学習アルゴリズムを適用してUIウィジェットでジェスチャ動作を認識し、前記深層学習アルゴリズムが前記オプティカルフローからジェスチャ動作を認識するように訓練されており、
認識されたジェスチャ動作に対して、前記認識されたジェスチャ動作及び前記UIウィジェットに対応するコマンドを実行する
ように構成されたプロセッサと、
を備え
前記プロセッサが、
前記投影されたユーザインターフェースのUIウィジェットの近傍の領域におけるピクセルの深度情報を表すz値が、前記表面より上にあり、かつ、前記表面の深度情報を表すz値に対して所定の閾値内にあるか否かを判定することにより、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したかどうかを判定し、
前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行し、
前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定する
ように構成される、システム。
【請求項7】
前記プロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)である、請求項に記載のシステム。
【請求項8】
前記プロジェクタシステムが、前記UIを卓上又は壁面に投影するように構成される、請求項に記載のシステム。
【請求項9】
前記深層学習アルゴリズムが、ビデオフレームに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練される、請求項に記載のシステム。
【請求項10】
前記カメラシステムが、色チャネル及び深度チャネルを記録するように構成される、請求項に記載のシステム。
【請求項11】
ユーザインターフェース(UI)を表面に投影するように構成されたプロジェクタシステムと、
前記投影されたユーザインターフェース上の対話を深度情報と共に記録するように構成されたカメラシステムと、
前記カメラシステムによって記録された対話を検出すると、前記カメラシステムによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムを適用するように構成された専用ハードウェアプロセッサと、
を備え、前記専用ハードウェアプロセッサが、
前記投影されたユーザインターフェースのUIウィジェットの近傍の領域におけるピクセルの深度情報を表すz値が、前記表面より上にあり、かつ、前記表面の深度情報を表すz値に対して所定の閾値内にあるか否かを判定することにより、前記投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生したかどうかを判定し、
前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行し、
前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定する
ように構成される、装置。
【請求項12】
前記専用ハードウェアプロセッサが、
前記投影されたUI内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、
前記オプティカルフローに前記深層学習アルゴリズムを適用してジェスチャ動作を認識すること
により、前記カメラシステムによって記録された前記対話からジェスチャ動作を認識するように訓練された前記深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成される、
請求項11に記載の装置。
【請求項13】
前記専用ハードウェアプロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)である、請求項11に記載の装置。
【請求項14】
前記プロジェクタシステムが、前記UIを卓上又は壁面に投影するように構成される、請求項11に記載の装置。
【請求項15】
前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練される、請求項11に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、全体としてジェスチャ検出に関し、より詳細には、投影システムにおけるジェスチャ検出に関する。
【背景技術】
【0002】
プロジェクタ-カメラシステムは、卓上(tabletop)及び壁などのいかなる表面も対話型ディスプレイに変えることができる。当該システムの基本的な課題は、投影されたユーザインターフェース(UI)ウィジェット上のジェスチャ動作を認識することである。指モデル又は遮蔽パターンを使用する従来技術の手法は、明るさの問題及び反射を有する環境照明条件、投影されるビデオ画像内のアーチファクト及びノイズ、及び深度カメラに伴う不正確さを含む、いくつかの課題を有する。
【先行技術文献】
【特許文献】
【0003】
【文献】米国特許第9317171号明細書
【非特許文献】
【0004】
【文献】BORKOWSKI et al, User-Centric Design of a Vision System for Interactive Applications, Proceedings of the Fourth IEEE International Conference on Computer Vision Systems (ICVS 2006), 2006年7月
【文献】FARNEBACK, Gunnar, Two-Frame Motion Estimation Based on Polynomial Expansion, Computer Vision Laboratory, Linkoping University, スウェーデン国リンシェーピング、2003年
【文献】HARRISON et al, OmniTouch: Wearable Multitouch Interaction Everywhere, UIST'11, 2011年10月19日、米国カリフォルニア州サンタバーバラ
【文献】KANE et al, Bonfire: A Nomadic System for Hybrid Laptop-Tabletop Interaction, UIST'09, 2009年10月7日, pp. 129-138、カナダ国ブリティッシュコロンビア州ビクトリア
【文献】KJELDSEN et al, Interacting with Steerable Projected Displays, Proceedings of 5th International Conference on Automatic Face and Gesture Recognition (FG'02), 2002年5月21日, 米国ワシントンDC
【文献】LECUN et al, Deep Learning, NATURE, 2015年5月28日, Vol 521, pp. 426-444, Macmillan Publishers Limited.
【文献】LAO et al, FACT: Fine-grained Cross-media Interaction with Documents via a Portable Hybrid Paper-Laptop Interface, MM'10, 2010年10月29日, イタリア国フィレンツェ
【文献】PINHANEZ et al, Creating Touch-Screens Anywhere with Interactive Projected Displays, MM'03, 2003年11月8日, 米国カリフォルニア州バークレイ
【文献】SIMONYAN et al, Two-Stream Convolutional Networks for Action Recognition in Videos, Visual Geometry Group, University of Oxford, 2014年
【文献】TANG et al., GESTURE VIEWPORT: INTERACTING WITH MEDIA CONTENT USING FINGER GESTURES ON ANY SURFACE, FX Palo Alto Laboratory, Inc., 2014年
【文献】WELLNER, Pierre, The DigitalDesk Calculator: Tangible Manipulation on a Desk Top Display, UIST'91, 1991年11月13日, pp. 27-33
【文献】Willow Garage, OpenCV, from http://www.willowgarage.com/pages/software/opencv, 2018年8月8日ダウンロード
【文献】WILSON, Andrew D., Using a Depth Camera as a Touch Sensor, ITS 2010: Devices & Algorithms, 2010年11月10日, ドイツ国ザールブリュッケン
【文献】XIAO et al., WorldKit: Rapid and Easy Creation of Ad-hoc Interactive Applications on Everyday Surfaces, CHI 2013, 2013年5月2日, フランス国パリ
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示では、本明細書に記載される例示的な実装形態は、深度カメラと深層ニューラルネット手法を採用することで、よりロバストな認識装置及びシステムを提供する。
【課題を解決するための手段】
【0006】
本開示の態様はシステムを含んでもよく、当該システムは、ユーザインターフェース(UI)を投影するように構成されたプロジェクタシステムと、投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステムと、カメラシステムによって記録された対話を検出すると、カメラシステムによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されたプロセッサと、を含む。
【0007】
前記プロセッサが、前記カメラシステムからの深度情報から、前記投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生したかどうかを判定することにより、前記カメラシステムによって記録された前記対話を検出し、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムにより決定された、認識されたジェスチャ動作に対応する動作コマンドを実行し、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定するように構成されてもよい。
【0008】
前記プロセッサが、前記投影されたUI内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、前記オプティカルフローに前記深層学習アルゴリズムを適用してジェスチャ動作を認識することにより、前記カメラによって記録された前記対話からジェスチャ動作を認識するように訓練された前記深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されてもよい。
【0009】
前記プロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)であってもよい。
【0010】
前記プロジェクタシステムが、卓上又は壁面に前記UIを投影するように構成されてもよい。
【0011】
前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練されてもよい。
【0012】
本開示の態様はシステムを含んでもよく、当該システムは、ユーザインターフェース(UI)を投影するための手段と、投影されたユーザインターフェース上の対話を記録するための手段と、記録された対話を検出すると、記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するための手段と、を含む。
【0013】
本開示の態様は方法を含んでもよく、当該方法は、ユーザインターフェース(UI)を投影し、投影されたユーザインターフェース上の対話を記録し、カメラシステムによって記録された対話を検出すると、記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定することを含む。
【0014】
本開示の態様はシステムを含んでもよく、当該システムは、ユーザインターフェース(UI)を投影するように構成されたプロジェクタシステムと、投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステムと、カメラシステムによって記録された対話を検出すると、投影されたUI内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識し、深層学習アルゴリズムがオプティカルフローからジェスチャ動作を認識するように訓練されており、認識されたジェスチャ動作に対して、認識されたジェスチャ動作に対応するコマンドを実行するように構成されたプロセッサと、を含んでもよい。
【0015】
前記プロセッサが、前記カメラシステムからの深度情報から、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したかどうかを判定することにより、前記カメラシステムによって記録された対話を検出し、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行し、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定するように構成されてもよい。
【0016】
前記プロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)であってもよい。
【0017】
前記プロジェクタシステムが、前記UIを卓上又は壁面に投影するように構成されてもよい。
【0018】
前記深層学習アルゴリズムが、ビデオフレームに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練されてもよい。
【0019】
前記カメラシステムが、色チャネル及び深度チャネルを記録するように構成されてもよい。
【0020】
本開示の態様はシステムを含んでもよく、当該システムは、ユーザインターフェース(UI)を投影するための手段と、投影されたユーザインターフェース上の対話を記録するための手段と、記録された対話を検出すると、投影されたUI内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算するための手段と、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識するための手段であって、深層学習アルゴリズムがオプティカルフローからジェスチャ動作を認識するように訓練された、手段と、並びに認識されたジェスチャ動作に対して、認識されたジェスチャ動作に対応するコマンドを実行するための手段と、を含んでもよい。
【0021】
本開示の態様は方法を含んでもよく、当該方法は、ユーザインターフェース(UI)を投影し、投影されたユーザインターフェース上の対話を記録し、カメラシステムによって記録された対話を検出すると、投影されたUI内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識し、深層学習アルゴリズムがオプティカルフローからジェスチャ動作を認識するように訓練されており、認識されたジェスチャ動作に対して、認識されたジェスチャ動作に対応するコマンドを実行することを含んでもよい。
【0022】
本開示の態様は、ユーザインターフェース(UI)を投影するように構成されたプロジェクタシステムと、前記投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステムと、前記カメラシステムによって記録された対話を検出すると、前記カメラシステムによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムを適用するように構成された専用ハードウェアプロセッサと、を備え、前記専用ハードウェアプロセッサが、対話を検出しない場合、前記深層学習アルゴリズムを適用せず、対話を検出した場合、前記深層学習アルゴリズムの適用に基づいて動作コマンドの実行を決定するように構成される、装置であってもよい。
【0023】
前記専用ハードウェアプロセッサが、前記カメラシステムからの深度情報から、前記投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生したかどうかを判定することにより、前記カメラシステムによって記録された対話を検出し、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行し、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定するように構成されてもよい。
【0024】
前記専用ハードウェアプロセッサが、前記投影されたUI内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、前記オプティカルフローに前記深層学習アルゴリズムを適用してジェスチャ動作を認識することにより、前記カメラシステムによって記録された前記対話からジェスチャ動作を認識するように訓練された前記深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されてもよい。
【0025】
前記専用ハードウェアプロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)であってもよい。
【0026】
前記プロジェクタシステムが、前記UIを卓上又は壁面に投影するように構成されてもよい。
【0027】
前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練されてもよい。
【図面の簡単な説明】
【0028】
図1A】例示的な実装形態による、プロジェクタ-カメラ構成を含むシステムの例示的なハードウェア図である。
図1B】例示的な実装形態による、プロジェクタ-カメラ構成を含むシステムの例示的なハードウェア図である。
図2A】例示的な実装形態による、プロジェクタシステム及びカメラシステムについての例示的なサンプルフレームを示す図である。
図2B】従来技術によって利用される技術に関する例示的な課題の表である。
図2C】例示的な実装形態による、ラベル付き動作に関連付けられたオプティカルフローの例示的データベースを示す図である。
図3】例示的な実装形態による、ビデオフレーム処理パイプラインについての例示的なフロー図である。
図4A】例示的な実装形態による、例示的な全体フローを示す図である。
図4B】本開示に記載された深層学習アルゴリズムを生成する例示的なフローを示す図である。
【発明を実施するための形態】
【0029】
以下の発明を実施するための形態は、本出願の図及び例示的な実装形態のさらなる詳細を提供する。図の間で重複する要素の参照番号及び説明は、明確性のために省略されている。説明全体にわたって使用される用語は例として提供され、限定を意図するものではない。たとえば、「自動」という用語の使用は、本出願の実装形態を実施する当業者の所望の実装形態に応じて、実装形態のいくつかの態様に対するユーザ又は管理者の制御を含む、全自動又は半自動の実装形態を含んでもよい。選択は、ユーザインターフェース若しくは他の入力手段を介してユーザによって行ってもよく、所望のアルゴリズムを介して実施することもできる。本明細書に記載される例示的な実装形態は、単独で又は組み合わせて利用することができ、例示的な実装形態の機能は、所望の実装形態に応じて任意の手段により実装することができる。
【0030】
例示的な実装形態は、機械学習ベースのアルゴリズムの利用に関する。従来技術では、広範囲の機械学習ベースのアルゴリズムが、他の自動車の障害物若しくは交通標識の認識、又は特定の訓練に基づく要素の分類などの、画像又はパターン認識に適用されてきた。電力計算における進歩に鑑みて、機械学習は、投影されたUIインターフェース上でのジェスチャの検出及び生成に対してより適用可能になっている。
例示的な実装形態は、色チャネル及び深度チャネルから計算されたオプティカルフローを有する畳み込みニューラルネットワーク(convolutional neural network:CNN)を利用する。例示的な実装形態は、ディスプレイ表面の近くの活動がないフレームを除外する処理パイプラインを含み、それにより、計算サイクル及びエネルギーが節約される。本明細書に記載された例示的な実装形態のラベル付きデータセットを利用したテストでは、高い精度(たとえば、約95%の精度)が達成された。
【0031】
プロジェクタ-カメラシステムは、卓上及び壁などのいかなる表面も対話型ディスプレイに変えることができる。UIウィジェットを表面に投影することにより、ユーザはボタンなどの使い慣れたグラフィカルユーザインターフェース要素と対話することができる。ウィジェット上の指の動作(たとえば、押下ジェスチャ、スワイプジェスチャ)を認識するために、画像認識(computer vision)方法を適用することができる。色チャネル及び深度チャネルを有する深度カメラも、3D情報を有するデータを提供するために採用することができる。図1A及び図1Bは、本明細書に記載された例示的な実装形態による、例示的なプロジェクタ-カメラシステムを示す。
【0032】
図1Aは、例示的な実装形態による、プロジェクタ-カメラ構成を含むシステムの例示的なハードウェア図を示す。システム100は、ジェスチャ/UI対話キャプチャ用のカメラシステム101、プロジェクタ102、プロセッサ103、メモリ104、ディスプレイ105、及びインターフェース(I/F)106を含んでいてよい。システム100は、プロジェクタ102によって卓上110上にUI111が投影されている卓上110を監視するように構成される。卓上110は、所望の実装形態に応じて、スマートデスク、会議テーブル、調理台などの形態であってよい。あるいは、壁面、建物の柱、又はUI111が投影され得る任意の他の物理的表面などの他の表面が利用されてもよい。
【0033】
カメラシステム101は、所望の実装形態に応じて、ビデオ画像及び深度画像を撮影するように構成された任意の形態であってもよい。例示的な実装形態では、プロセッサ103はカメラシステムを利用して、卓上110に投影されたUI111で発生した対話の画像を撮影することができる。プロジェクタ102は、UI111を卓上110に投影するように構成されてもよく、所望の実装形態に応じて任意のタイプのプロジェクタであってもよい。例示的な実装形態では、プロジェクタ102は、UIを自由空間に投影するためのホログラフィックプロジェクタであってもよい。
【0034】
ディスプレイ105は、所望の実装形態に従って、ビデオ会議用又はコンピュータ装置の結果を表示するためのタッチスクリーン又は任意の他のディスプレイの形態であってよい。ディスプレイ105はまた、所望の実装形態に従って、会議参加者又はロードされた文書を示す中央コントローラを有する1セットのディスプレイを含んでもよい。I/F106は、所望の実装形態に応じて、ディスプレイ105用のキーボード、マウス、タッチパッド、又は他の入力デバイスなどのインターフェース装置を含んでもよい。
【0035】
例示的な実装形態では、プロセッサ103は、物理ハードウェアプロセッサ又はハードウェアプロセッサとソフトウェアプロセッサとの組合せを含む、中央処理装置(CPU)の形態であってよい。プロセッサ103は、投影されたUI111上で検出されたジェスチャ又は対話に関するカメラ101からのカメラ画像を含んでもよい、システムへの入力を取り込むように構成される。プロセッサ103は、本明細書に記載されたように、深層学習認識アルゴリズムを利用してジェスチャ又は対話を処理することができる。所望の実装形態に応じて、プロセッサ103は、深層学習アルゴリズムに従って認識のために画像を処理するように構成された専用グラフィック処理ユニット(Graphics Processing Unit:GPU)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)などの深層学習認識の実装を容易にする専用ハードウェアと置き換えることができ、又はそうでない場合、所望の実装形態に従うことができる。さらに、システムは、所望の実装形態を容易にするために、コンピュータプロセッサと、GPU及びFPGAなどの専用ハードウェアプロセッサとを混在させて利用することができる。
【0036】
図1Bは、例示的な実装形態による、別の例示的なハードウェア構成を示す。例示的な実装形態では、システム120は、(たとえば、ロボット、ウェアラブルデバイス、ドローンなどの)他の装置と統合され、スタンドアローン装置として持ち運ばれてもよく、或いは所望の実装形態に従うことができるポータブル装置であってもよい。このような例示的な実装形態では、カメラ画像のより高速な処理及び深層アルゴリズム専用の実行を組み込むためにGPU123又はFPGAが利用されてもよい。このような専用ハードウェアは、認識のためにより高速な画像処理を可能にすることができると共に、独立型プロセッサよりも効率的な機能性を促進するために、深層学習アルゴリズムの実行に特化して構成されてもよい。さらに、図1Bのシステムは、汎用コンピュータ機能を行う汎用中央処理装置(CPU)を、本明細書に記載された画像認識及び深層学習アルゴリズムの実行に特化して構成されたGPU又はFPGAと統合することもできる。
【0037】
スマートデスク又はスマート会議室を含む例示的な実装形態では、システム100は、図1Aに示されたように、卓上110と共に利用され、卓上110に取り付けられるか、或いは卓上110に関連付けられてもよく、プロジェクタシステム102は、任意の所望の実装形態に応じて、卓上110の所望の位置及び所望の向きにUI111を投影するように構成される。そのような実装形態におけるプロジェクタシステム102は、所望の実施形態に応じて、モバイルプロジェクタ、ホログラフィックプロジェクタ、大画面プロジェクタなどの形態であってもよい。カメラシステム101は、本明細書に記載されたように、深度情報及び色情報を記録して動作をキャプチャするように構成されたカメラを含むことができる。例示的な実装形態では、カメラシステム101はまた、他の場所に対して行われ、ディスプレイ105を介して視覚化された電話会議について卓上近くの人々を記録するための、1つ又は複数の追加のカメラを含んでもよく、それらの接続、制御、及び対話は、投影されたUI111により容易にすることができる。追加のカメラはまた、投影されたUI111を介してコマンドを受信すると、卓上110に置かれた文書をスキャンするように構成されてもよい。他のスマートデスク又はスマート会議室機能も、投影されたUI111により容易にすることができ、本開示はいかなる特定の実装形態にも限定されない。
【0038】
ユーザインターフェース111を表面上に、又は任意の所望の場所にホログラフィックに投影するためのシステム120を含む例示的な実装形態では、システム120は、投影されたUI111上の動作を認識するための深層学習アルゴリズムの専用機能を行うように構成されたGPU123又はFPGAを用いて構成されたポータブル装置の形態であってもよい。そのような例示的な実施形態では、UIは任意の所望の場所に投影されることができ、その結果、認識されたコマンドは、その場所のコンテキスト及び投影されたUI111に基づいて、I/F106を介して制御システムに遠隔送信される。たとえば、いくつかの製造プロセスを含むスマート工場などの状況では、装置のユーザはスマート工場内のプロセスにアプローチし、プロジェクタシステム102を介してUI111を自由空間にホログラフィックに、又はプロセスに関連付けられた表面に投影することにより、プロセスを修正することができる。システム120は、遠隔制御システム又は制御サーバと通信してユーザの位置を識別し、投影されるべきUIのコンテキストを決定することができ、その結果、UIが投影システム102から投影される。したがって、システム120のユーザは、スマート工場内のプロセス固有のUIを提示させ、投影されたユーザインターフェース111を介してプロセスに修正を加えることができる。別の例示的な実装形態では、ユーザは、投影されたユーザインターフェース111を介して所望のインターフェースを選択し、スマート工場内にいる間に任意の所望のプロセスを遠隔に制御することができる。さらに、このような実装形態はスマート工場に限定されず、所望の実装形態に応じて、セキュリティチェックポイント、建物用のドアアクセスなどの所与のコンテキストに対してUIを提示することができる任意の実装形態に拡張することができる。
【0039】
ポータブル装置としてシステム120を含む別の例示的な実装形態では、法執行機関は、ボディカメラ並びに本明細書に記載された動作を撮影するために利用されるカメラを含むカメラシステム101をシステム120に装備することができる。そのような例示的な実施形態では、所望の実装形態に応じて、交通違反取締中に運転者に関する情報を呼び出すためにUIがホログラフィックに又は表面に投影されて、法執行機関が文書を提供するためのインターフェースが提供されてもよい。情報又はデータベースへのアクセスは、遠隔サーバに装置を接続するI/F106により容易にすることができる。
【0040】
従来技術の1つの課題は、UIウィジェット上のジェスチャ動作を認識する能力である。図2Aは、例示的な実装形態による、プロジェクタ及びカメラシステムに関する例示的なサンプルフレームを示す。従来技術のシステムでは、様々なコンピュータビジョン及び画像処理技法が開発されてきた。従来技術の手法は指又は腕をモデル化することを含み、それは通常、何らかの形のテンプレートマッチングを含む。別の従来技術の手法は、指によって生じる遮蔽パターンを使用することである。しかしながら、このような手法は、プロジェクタ-カメラシステム及び環境条件に伴ういくつかの問題によって引き起こされる課題を有する。従来技術の手法における1つの問題は環境内の照明である。明るさ及び反射は、ビデオ品質に影響を及ぼし、認識できない事象を引き起こす可能性がある。図2Aに示されたように、本明細書に記載された例示的な実装形態は、照明が低いとき200には検出201を行うことができ、照明が高いとき202には検出203を行うことができるように動作する。カメラが投影画像に向けられるプロジェクタ-カメラシステムでは、ビデオフレーム内に現れるローリングバンド又はブロックなどのアーチファクト(たとえば、深度画像203の中の指に隣接する黒い領域)が存在する可能性があり、それらは、認識できない事象又はファントム(幻影)事象を引き起こし得る。標準的なカメラ(たとえば、深度情報がない画像)だけでは、すべてのビデオフレームを大量に処理する必要があり、CPU/GPUサイクル及びエネルギーを使い果たすことになる。深度チャネルでは、不正確さ及びノイズがあり、それらが誤認識事象を引き起こす可能性がある。これらの問題及び課題は、それらによって影響を受ける方法と共に、図2Bにまとめられている。
【0041】
例示的な実装形態は、深層ニューラルネット手法を利用することによって従来技術における課題に対処する。深層学習は、コンピュータビジョンの課題を含む様々な人工知能(AI)の課題について成果を達成した最先端の方法である。本明細書に記載された例示的な実装形態は、本明細書で詳細に記載されたように、色ビデオチャネル及び深度ビデオチャネルから計算された高密度オプティカルフロー画像を有するCNNを使用する深層ニューラルネットアーキテクチャを含む。
【0042】
例示的な実装形態は、色及び深度を用いてビデオを検知するように構成されたRGB-D(赤緑青深度)カメラを使用してテストされた。対話イベントを記録するために特殊なタッチスクリーン面を有するプロジェクタ-カメラ構成を介してラベル付きデータが収集され、ボタンUIウィジェットと対話するユーザからジェスチャデータの小さいセット(たとえば、押下、スワイプ、他)が収集された。データがラベル付けされ、データセットに対して深層学習が行われると、深層学習方法から生成された例示的な実装形態のジェスチャ/対話検出アルゴリズムが、高いロバスト性(たとえば、意図するジェスチャ/対話を正確に検出する際、95%の精度)で実行される。データに対して訓練された深層学習モデルを使用して、(データ収集用の特殊なタッチスクリーンデバイスなしに)プロジェクタ-カメラシステムを展開することができる。
【0043】
本明細書に記載されたように、図1A及び図1Bは例示的なハードウェア構成を示し、記録され得る例示的なフレームが図2Aに示される。図3は、例示的な実装形態による、ビデオフレーム処理パイプラインについての例示的なフロー図を示す。300において、フレームがRGB-Dカメラから読み出される。
【0044】
301において、パイプラインの第1の部分が、カメラからの深度情報を使用して、UIウィジェット(たとえば、ボタン)の周りの領域R上の表面の近くに何かがあるかどうかを確認する。302において、R内のピクセル{Pi}の小さいサブサンプルのz値は、それらが表面より上にあり、かつ表面のz値に対してある閾値内にあるかどうかを確認することができる。そうである場合(yes)、フローは303に進み、そうでない場合(no)、さらなる処理は不要であり、フローは300に戻る。このような例示的な実装形態により、不要な処理サイクル及びエネルギー消費が節約される。
【0045】
303において、領域Rにわたって、色チャネル及び深度チャネルの高密度オプティカルフローが計算される。オプティカルフローを使用する1つの動機は、それが様々な背景シーンに対してロバストであることであり、様々なユーザインターフェース設計及び外観にわたるジェスチャ/対話を例示的な実装形態が認識することを容易にするのに役立つからである。別の動機は、それが指をモデル化するか又は遮蔽パターンに基づく従来技術の手法よりも画像アーチファクト及びノイズに対してよりロバストであり得ることである。オプティカルフロー手法は、ビデオ内の動作認識でうまく機能することが確認されている。オプティカルフローを計算するために、OpenCV(登録商標)コンピュータビジョンライブラリ内のFarnebackアルゴリズムなどの、当技術分野で知られている任意の技法が利用されてもよい。オプティカルフロー処理は、チャネルごとにx成分画像及びy成分画像を生成する。
【0046】
UIウィジェットを用いてジェスチャ動作を認識するための深層ニューラルネットワークの例示的な実装形態は、オペレーティングシステム上の対話型アプリケーションと適切に統合できるCognitive Toolkit(CNTK)を含んでもよいが、これに限定されず、他の深層学習ツールキット(たとえば、TensorFlow(登録商標))も所望の実装形態に応じて利用されてもよい。深層学習ツールキットを使用して、2つの交互の畳み込み層及び最大プーリング層を有する標準CNNアーキテクチャが、オプティカルフロー画像入力に利用されることができる。
【0047】
したがって、304において、深層ニューラルネットワークから生成されたCNNアーキテクチャに対してオプティカルフローが評価される。305において、ジェスチャ動作が認識されたかどうか判定が行われる。認識された場合(Yes)、フローは306に進んで動作コマンドを実行し、認識されない場合(No)、フローは300に戻る。
【0048】
ネットワークを訓練しテストするための例示的な実装形態では、プロジェクタ-カメラシステム、及び、ユーザインターフェースが投影される、紙で覆われたタッチスクリーンを含む構成を使用して、ラベル付きデータを収集することができる。タッチスクリーンは紙を介してタッチイベントを検知することができ、各タッチイベントのタイムスタンプ及び位置を記録することできる。タッチイベントに対応するタイムスタンプ付きフレームは、事前に記述されたタスクの名前に従ってラベル付けされ、位置と交差するウィジェットの周りの領域が抽出される。カメラシステムから、色チャネルと深度チャネルの両方について毎秒約35~45フレームのフレームレートを得ることができ、フレームは時間的に同期され、空間的に整列される。
【0049】
3人のユーザが各々3つのセッションに亘ってタスクを実行する、小さいデータセット(1.9GB)で概念実証テストが行われた。タスクには、投影されたボタンに対してジェスチャを実行することが含まれていた。ジェスチャはクラス{Press,Swipe,Other}に分割された。Press(押下)ジェスチャ及びSwipe(スワイプ)ジェスチャは指を用いて実行される。Other(その他)ジェスチャの場合、ジェスチャを実行するために手のひらが使用された。手のひらを使用することは、一般的な「悪い」イベントのタイプを得る方法であり、これは、卓上タッチスクリーン及びペンタブレットの「手のひら拒否(palm rejection)」機能と同様である。表面近くで活動がないフレームは処理されず、図3に示されたように除去される。
【0050】
ユーザ及びセッションの順序の間でバランスの取れた2/3のデータ(581フレーム)を使用して、ネットワークが訓練された。残りの1/3のデータ(283フレーム)を使用して、ネットワークがテストされた。実験結果は、オプティカルフローストリーム(色、x成分)に対して約5%の誤り率(又は約95%の正解率)を示した。
【0051】
さらに、本明細書に記載された例示的な実装形態は、所望の実装形態に従って、精度を高めるために補完されてもよい。そのような実装形態は、所望の実装形態に従って、オプティカルフローストリームの融合、ジェスチャが起こり得る連続的な間隔(たとえば、200msの間隔)内のフレームによる投票、フレームのシーケンスの使用、アーキテクチャを拡張してリカレントニューラルネットワーク(RNN)を採用すること、及びフレームから空間情報を組み込むことの少なくとも一つを含んでもよい。
【0052】
図2Cは、例示的な実装形態による、ラベル付き動作に関連付けられたオプティカルフローの例示的なデータベースを示す。オプティカルフローは、深度チャネル情報並びに色情報を含み得るビデオ画像又はビデオフレームの形態であってもよい。動作は、オプティカルフローに関連付けられた認識されたジェスチャである。このデータベースを介して、上述されたような深層学習の実装形態を、実装用の深層学習アルゴリズムを生成するために利用することができる。データベースの使用により、任意の所望のジェスチャ動作又は動作(たとえば、2本指のスワイプ、手のひらの押下など)が、所望の実装形態に従って認識用に構成されてもよい。
【0053】
図4Aは、例示的な実装形態による、例示的な全体フローを示す。図1A及び図1Bによる例示的な実装形態では、図3のフロー図の実行を通して、システムが存在してもよく、当該システムは、401においてユーザインターフェース(UI)を投影するように構成されたプロジェクタシステム102と、402において投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステム101と、403においてカメラシステムによって記録された対話を検出すると、カメラシステムによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されたプロセッサ103/123と、を含む。
【0054】
例示的な実装形態では、プロセッサ103/123は、図3の300から302のフローに示されたように、カメラシステムからの深度情報から、投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生したかどうかを判定することにより、カメラシステムによって記録された対話の検出を行うように構成されてもよい。投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生したと判定された場合、プロセッサ103/123は対話が検出されたと判定し、深層学習アルゴリズムの適用に基づいて動作コマンドの実行の決定を行い、図3のフローに示されたように、深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行する。投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生していないと判定された場合、302でのフローに示されたように、対話は検出されず、深層学習アルゴリズムの適用を行わないと決定する。このような例示的な実装形態により、動作が検出された場合にのみ深層学習アルゴリズムを稼動させることによって処理サイクルを節約することができ、これは、たとえば、バッテリを保存する必要があるバッテリシステム上で動作するポータブル装置にとって重要であり得る。
【0055】
例示的な実装形態では、プロセッサ103/123は、図3の303から305のフローに示されたように、投影されたUI内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識することにより、カメラによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成される。
【0056】
所望の実装形態に応じて、プロセッサ103/123は、深層学習アルゴリズムの適用を実行するように構成された、図1Bに示されたグラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)の形態であってもよい。
【0057】
図1Aに示されたように、プロジェクタシステム102は、所望の実装形態に応じてシステム100に取り付けることができる卓上110にUIを投影するように構成されてもよい。本開示のシステムにおいては、前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練される。オプティカルフローは、所望の実装形態に応じてビデオフレームに関連付けられた動作を含んでもよい。
【0058】
例示的な実装形態では、プロセッサ103/123は、303から305のフローに示されたように、カメラシステムによって記録された対話を検出すると、投影されたUI内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識し、深層学習アルゴリズムがオプティカルフローからジェスチャ動作を認識するように訓練されており、認識されたジェスチャ動作に対して、認識されたジェスチャ動作に対応するコマンドを実行するように構成されてもよい。
【0059】
さらに、本明細書に記載され、図1A及び図1Bに実装されたような例示的な実装形態は、所望の実装形態に従って、スタンドアローン装置として実装されてもよい。
【0060】
図4Bは、本開示に記載された深層学習アルゴリズムを生成する例示的なフローを示す。411において、図2Cに示されたように、ラベル付き動作に関連付けられたオプティカルフローのデータベースが生成される。412において、深層学習方法によりデータベース上で機械学習訓練が実行される。413において、図1A及び図1Bのシステムに組み込むために、訓練から深層学習アルゴリズムが生成される。
【0061】
発明を実施するための形態のいくつかの部分は、コンピュータ内の動作のアルゴリズム及び象徴的表現の観点で提示される。これらのアルゴリズム的記述及び象徴的表現は、データ処理技術分野の当業者がイノベーションの本質を他の当業者に伝達するために使用する手段である。アルゴリズムは、所望の最終状態又は最終結果に導く、一連の定義された工程である。例示的な実装形態では、実行される工程は、具体的な結果を達成するための具体的な数量の物理操作を必要とする。
【0062】
特に断りのない限り、説明から明らかなように、説明全体を通して、「処理」、「計算」、「算出」、「決定」、「表示」、などの用語を利用する説明は、コンピュータシステムのレジスタ及びメモリ内の物理(電気)量として表されるデータを操作し、コンピュータシステムのメモリ又はレジスタ又は他の情報を記憶、伝送、若しくは表示する装置内の物理量として同様に表される他のデータに変換する、コンピュータシステム又は他の情報処理装置の動作及び処理を含んでもよいことを理解されたい。
【0063】
例示的な実装形態は、本明細書の動作を実行するための装置に関してもよい。この装置は、必要な目的のために特別に構築されてもよく、1又は複数のコンピュータプログラムによって選択的に作動若しくは再構成された、1又は複数の汎用コンピュータを含んでもよい。このようなコンピュータプログラムは、コンピュータ可読記憶媒体又はコンピュータ可読信号媒体などのコンピュータ可読媒体に記憶されてもよい。コンピュータ可読記憶媒体には、光ディスク、磁気ディスク、読取り専用メモリ、ランダムアクセスメモリ、半導体デバイス及び半導体ドライブ、又は、電子情報を記憶することに適した任意の他のタイプの有形又は非一時的媒体などの、有形媒体が含まれてもよいが、これらに限定されない。コンピュータ可読信号媒体には、搬送波などの媒体が含まれてもよい。本明細書に提示されたアルゴリズム及び表示は、本質的に、いかなる特定のコンピュータ又は他の装置にも関係しない。コンピュータプログラムは、所望の実装形態の動作を実行する命令を含む、純粋なソフトウェア実装形態を含んでもよい。
【0064】
様々な汎用システムが、本明細書の例によるプログラム及びモジュールと共に使用されてもよく、又は所望の方法工程を実行するためにより専門化された装置を構築することが便利であるとわかる場合もある。加えて、例示的な実装形態は、いかなる特定のプログラミング言語をも参照して記載されていない。本明細書に記載された例示的な実装形態の教示を実装するために、様々なプログラミング言語が使用されてもよいことを理解されたい。プログラミング言語の命令は、1又は複数の処理装置、たとえば、中央処理装置(CPU)、プロセッサ、又はコントローラによって実行されてもよい。
【0065】
当技術分野で知られているように、上述された動作は、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアとの何らかの組合せによって実行されてもよい。例示的な実装形態の様々な態様は、回路及び論理デバイス(ハードウェア)を使用して実装されてもよいが、他の態様は、機械可読媒体に記憶された命令(ソフトウェア)を使用して実装されてもよく、命令は、プロセッサによって実行されると、方法を実行して本出願の実装形態を遂行することをプロセッサに行わせる。さらに、本出願のいくつかの例示的な実装形態は、ハードウェアでのみ実行されてもよいが、他の例示的な実装形態は、ソフトウェアでのみ実行されてもよい。その上、記載された様々な機能は、単一のユニットで実行することができ、任意の方法でいくつかの構成要素にわたって展開することができる。ソフトウェアによって実行されるとき、コンピュータ可読媒体に記憶された命令に基づいて、汎用コンピュータなどのプロセッサによって方法が実行されてもよい。必要な場合、命令は、圧縮及び暗号化の少なくとも一方がなされたフォーマットで媒体に記憶することができる。
【0066】
さらに、当業者には本出願の明細書の考察及び教示の実践から、本出願の他の実装形態が明らかであろう。記載された例示的な実装形態の様々な態様及び構成要素は、単独で、又は任意の組合せで使用されてもよい。明細書及び例示的な実装形態は例としてのみ見なされるものであり、本出願の真の範囲及び趣旨は、以下の特許請求の範囲によって示される。
図1A
図1B
図2A
図2B
図2C
図3
図4A
図4B