(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-10
(45)【発行日】2023-05-18
(54)【発明の名称】ハンドセグメンテーションを実行するためのシステムおよび方法
(51)【国際特許分類】
G06T 7/12 20170101AFI20230511BHJP
G06T 7/90 20170101ALI20230511BHJP
【FI】
G06T7/12
G06T7/90 C
【外国語出願】
(21)【出願番号】P 2019150158
(22)【出願日】2019-08-20
【審査請求日】2022-06-13
(31)【優先権主張番号】201821033598
(32)【優先日】2018-09-06
(33)【優先権主張国・地域又は機関】IN
(73)【特許権者】
【識別番号】510337621
【氏名又は名称】タタ コンサルタンシー サービシズ リミテッド
【氏名又は名称原語表記】TATA Consultancy Services Limited
【住所又は居所原語表記】Nirmal Building,9th Floor,Nariman Point,Mumbai 400021,Maharashtra,India.
(74)【代理人】
【識別番号】100130111
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】マウルヤ、ジテンダ クマール
(72)【発明者】
【氏名】ヘッバラグッペ、ラムヤ
(72)【発明者】
【氏名】グプタ、プネート
【審査官】新井 則和
(56)【参考文献】
【文献】米国特許出願公開第2016/0086316(US,A1)
【文献】特開2017-054532(JP,A)
【文献】特開2018-056729(JP,A)
【文献】特開2014-120066(JP,A)
【文献】Hand segmentation in complex environment based on skin color model and boundary cutting,2012 International Conference on Machine Learning and Cybernetics,2012年07月15日,https://ieeexplore.ieee.org/document/6359508
【文献】Segmentation of retinal blood vessels by combining the detection of centerlines and morphological reconstruction,IEEE Transactions on Medical Imaging,Volume: 25, Issue: 9,2006年08月21日,https://ieeexplore.ieee.org/document/1677726
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/12
G06T 7/90
(57)【特許請求の範囲】
【請求項1】
プロセッサ実装方法であって、
少なくとも手および背景を含む入力画像を取得すること(302)と、
前処理された手および前処理された背景を含む前処理済み画像を得るために、前記入力画像を前処理すること(304)と、
複数のフィルタ応答を得るために、多方向マッチドフィルタ(MOMF)を前記前処理済み画像に適用すること(306)と、
複数の強エッジおよび1つ以上の弱エッジを含むマージ済みフィルタ応答を得るために、前記複数のフィルタ応答をマージすること(308)と、
合成エッジマップを得るために、1つ以上の孤立ブロブとして形成された前記1つ以上の弱エッジを、前記マージ済みフィルタ応答からフィルタリングすること(310)と、
互いに孤立したテクスチャ領域を含む合成画像を得るために、前記合成エッジマップを前記前処理済み画像に加えること(312)と、
1つ以上のクロマチャネルを用いて、前記合成画像から複数の皮膚画素を検出すること(314)と、
区分された手である皮膚画素の最大ブロブを、前記合成画像から識別すること(316)と、を含む
ことを特徴とするプロセッサ実装方法。
【請求項2】
前記画像を前処理する前記ステップは、ダウンサンプリング画像を得るために、前記画像をダウンサンプリングすることと、前記前処理済み画像を得るために、前記ダウンサンプリング画像にコントラスト制限付き局所ヒストグラム均等化(CLAHE)法を適用することと、を含む
請求項1に記載のプロセッサ実装方法。
【請求項3】
前記入力画像の前処理において、前記入力画像にガウス平滑化法を適用することにより、複数の弱エッジをフィルタリングする
請求項1に記載のプロセッサ実装方法。
【請求項4】
前記1つ以上の強エッジを検出するために、1つ以上の予め規定された方向で前記MOMFを回転させることにより、前記多方向マッチドフィルタ(MOMF)を前記前処理済み画像に適用する
請求項1に記載のプロセッサ実装方法。
【請求項5】
モルフォロジ収縮手法を前記マージ済みフィルタ応答に適用することにより、1つ以上の孤立ブロブとして形成された前記1つ以上の弱エッジをフィルタリングする
請求項1に記載のプロセッサ実装方法。
【請求項6】
システム(100)であって、
命令を格納するメモリ(102)と、
1つ以上の通信インタフェース(106)と、
前記1つ以上の通信インタフェース(106)を介して前記メモリ(102)に結合された1つ以上のハードウェアプロセッサ(104)と、を備え、前記1つ以上のハードウェアプロセッサ(104)は、前記命令によって、
少なくとも手および背景を含む入力画像を取得し、
前処理された手および前処理された背景を含む前処理済み画像を得るために、前記入力画像を前処理し、
複数のフィルタ応答を得るために、多方向マッチドフィルタ(MOMF)を前記前処理済み画像に適用し、
複数の強エッジおよび1つ以上の弱エッジを含むマージ済みフィルタ応答を得るために、前記複数のフィルタ応答をマージし、
合成エッジマップを得るために、1つ以上の孤立ブロブとして形成された前記1つ以上の弱エッジを、前記マージ済みフィルタ応答からフィルタリングし、
互いに孤立したテクスチャ領域を含む合成画像を得るために、前記合成エッジマップを前記前処理済み画像に加え、
1つ以上のクロマチャネルを用いて、前記合成画像から複数の皮膚画素を検出し、
区分された手である皮膚画素の最大ブロブを、前記合成画像から識別する、ように構成されている
ことを特徴とするシステム。
【請求項7】
前記画像は、ダウンサンプリング画像を得るために前記画像をダウンサンプリングすることと、前記前処理済み画像を得るために前記ダウンサンプリング画像にコントラスト制限付き局所ヒストグラム均等化(CLAHE)法を適用すること、により前処理される
請求項6に記載のシステム。
【請求項8】
前記入力画像の前処理において、前記入力画像にガウス平滑化法を適用することにより、複数の弱エッジをフィルタリングする
請求項6に記載のシステム。
【請求項9】
前記1つ以上の強エッジを検出するために1つ以上の予め規定された方向で前記MOMFを回転させることにより、前記多方向マッチドフィルタ(MOMF)を前記前処理済み画像に適用する
請求項6に記載のシステム。
【請求項10】
モルフォロジ収縮手法を前記マージ済みフィルタ応答に適用することにより、1つ以上の孤立ブロブとして形成された前記1つ以上の弱エッジをフィルタリングする
請求項6に記載のシステム。
【請求項11】
1つ以上の命令を含む1つ以上の非一時的な機械可読情報記憶媒体であって、前記1つ以上の命令は、1つ以上のハードウェアプロセッサで実行されることにより、
少なくとも手および背景を含む入力画像を取得することと、
前処理された手および前処理された背景を含む前処理済み画像を得るために、前記入力画像を前処理することと、
複数のフィルタ応答を得るために、多方向マッチドフィルタ(MOMF)を前記前処理済み画像に適用することと、
複数の強エッジおよび1つ以上の弱エッジを含むマージ済みフィルタ応答を得るために、前記複数のフィルタ応答をマージすることと、
合成エッジマップを得るために、1つ以上の孤立ブロブとして形成された前記1つ以上の弱エッジを、前記マージ済みフィルタ応答からフィルタリングすることと、
互いに孤立したテクスチャ領域を含む合成画像を得るために、前記合成エッジマップを前記前処理済み画像に加えることと、
1つ以上のクロマチャネルを用いて、前記合成画像から複数の皮膚画素を検出することと、
区分された手である皮膚画素の最大ブロブを、前記合成画像から識別することと、を実施させる
ことを特徴とする1つ以上の非一時的な機械可読情報記憶媒体。
【請求項12】
前記画像を前処理する前記ステップは、ダウンサンプリング画像を得るために、前記画像をダウンサンプリングすることと、前記前処理済み画像を得るために、前記ダウンサンプリング画像にコントラスト制限付き局所ヒストグラム均等化(CLAHE)法を適用することと、を含む
請求項11に記載の1つ以上の非一時的な機械可読情報記憶媒体。
【請求項13】
前記入力画像の前処理において、前記入力画像にガウス平滑化法を適用することにより、複数の弱エッジをフィルタリングする
請求項11に記載の1つ以上の非一時的な機械可読情報記憶媒体。
【請求項14】
前記1つ以上の強エッジを検出するために、1つ以上の予め規定された方向で前記MOMFを回転させることにより、前記多方向マッチドフィルタ(MOMF)を前記前処理済み画像に適用する
請求項11に記載の1つ以上の非一時的な機械可読情報記憶媒体。
【請求項15】
モルフォロジ収縮手法を前記マージ済みフィルタ応答に適用することにより、1つ以上の孤立ブロブとして形成された前記1つ以上の弱エッジをフィルタリングする
請求項11に記載の1つ以上の非一時的な機械可読情報記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書における開示は、広くは、画像処理技術に関し、より具体的には、ジェスチャインタフェース用の質素なヘッドマウント装置においてリアルタイム・ハンドセグメンテーションを実行するためのシステムおよび方法に関するものである。
【背景技術】
【0002】
ヘッドマウントディスプレイ(HMD)の再来によって、空中ジェスチャは、自然かつ直覚的なインタラクションコミュニケーションモードとなる。Microsoft(登録商標)Hololens、DaqriスマートグラスなどのようなHMDは、追加のセンサを有するオンボードプロセッサを搭載していることで、装置が高価となる。例えば、Meta GlassおよびMicrosoft Hololenである拡張現実(AR)装置は、コンピュータ、ウェアラブルデバイス、ロボット、および人間の間のインタラクションの一般的な手段としてハンドジェスチャを用いることの典型例となる。スマートフォン技術の進歩によって、仮想現実(VR)対応のスマートフォンで没入型の体験を提供するGoogle CardboardおよびWearality1のような、いくつかの低コストのビデオシースルー装置が導入された。カメラフィードのステレオレンダリングを用いるとともに、スマートフォンの画面上で関連情報を重ね合わせると、これらの装置を、ARおよびヒューマンコンピュータインタラクション(HCI)に拡張することができる。
【先行技術文献】
【特許文献】
【0003】
【文献】インド国特許出願第201821033598号
【非特許文献】
【0004】
【文献】Jie Song,Gabor Soeroes,Fabrizio Pece,Sean Ryan Fanello,Shahram Izadi,Cem Keskin,Otmar Hilliges著「In-air gestures around unmodified mobile devices(Proceedings of the 27th annual ACM symposium on User interface software and technology,319~329頁)」ACM発行,2014年
【文献】Lorenzo Baraldi,Francesco Paci,Giuseppe Serra,Luca Benini,Rita Cucchiara著「Gesture recognition in ego-centric videos using dense trajectories and hand segmentation(Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,688~693頁)」2014年
【文献】Pietro Morerio,Lucio Marcenaro,Carlo S Regazzoni著「Hand detection in first person vision(Information Fusion(FUSION),2013 16th International Conference on,1502~1507頁)」IEEE発行,2013年
【文献】Vijay Badrinarayanan,Alex Kendall,Roberto Cipolla著「Segnet:A deep convolutional encoder-decoder architecture for image segmentation(IEEE Transactions on Pattern Analysis and Machine Intelligence)」2017年
【文献】Shreyash Mohatta,Ramakrishna Perla,Gaurav Gupta,Ehtesham Hassan,Ramya Hebbalaguppe著「Robust hand gestural interaction for smartphone based AR/VR applications(Applications of Computer Vision(WACV),2017 IEEE Winter Conference on,330~335頁)」IEEE発行,2017年
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記のジェスチャ認識装置の出現によって、ユーザインタラクションは、タッチスクリーン、マウス、およびキーボードのような基本的なインタラクション方法から、ジェスチャ、音声、および視線への進化が見られる。質素なGoogle Cardboardでは、インタラクション方法は限られており、すなわち、摩耗および破損を受けることが多い磁性かつ導電性のレバーに限られている。また、これらのレバーによるインタフェースは、インタラクションするのに直覚的ではない。また、音声ベースのコマンドは、油田掘削施設、建設業界、自動車業界のような騒音環境では失敗し、さらにアクセントが様々に異なることによって失敗することも注目される。直感的かつ直覚的なヒューマンマシンコミュニケーションは、依然として難しい課題のままである。
【課題を解決するための手段】
【0006】
本開示の実施形態は、本発明者らが従来のシステムにおいて認識した上記の技術的問題の1つ以上に対するソリューションとしての技術的改善を提示するものである。例えば、一態様では、ハンドセグメンテーションを実行して、区分された手を識別するための、プロセッサ実装方法を提供している。本方法は、少なくとも手および背景を示す入力画像を取得することと、前処理された手および前処理された背景を含む前処理済み画像を得るために、入力画像を前処理することと、を含む。一実施形態では、画像を前処理するステップは、ダウンサンプリング画像を得るために、画像をダウンサンプリングすることと、前処理済み画像を得るために、ダウンサンプリング画像にコントラスト制限付き局所ヒストグラム均等化(CLAHE:Contrast Limited Local Histogram Equalization)法を適用することと、を含む。入力画像の前処理において、入力画像にガウス平滑化法を適用することにより、複数の弱エッジをフィルタリングする。前処理済み画像を得たら、複数のフィルタ応答を得るために、多方向マッチドフィルタ(MOMF:Multi Orientation Matched Filter)を前処理済み画像に適用する。本方法は、さらに、複数の強エッジおよび1つ以上の弱エッジを含むマージ済みフィルタ応答を得るために、複数のフィルタ応答をマージすることと、合成エッジマップを得るために、1つ以上の孤立ブロブとして形成された1つ以上の弱エッジを、マージ済みフィルタ応答からフィルタリングすることと、互いに孤立した異なるテクスチャ領域を含む合成画像を得るために、合成エッジマップを入力画像(または前処理済み画像)に加えることと、1つ以上のクロマチャネルを用いて、合成画像から複数の皮膚画素を検出することと、区分された手である皮膚画素の最大ブロブを、合成画像から識別することと、を含む。
【0007】
一実施形態では、1つ以上の強エッジを検出するために、1つ以上の予め規定された方向でMOMFを回転させることにより、多方向マッチドフィルタ(MOMF)を前処理済み画像に適用する。一実施形態では、モルフォロジ収縮手法をマージ済みフィルタ応答に適用することにより、1つ以上の孤立ブロブとして形成された1つ以上の弱エッジをフィルタリングする。
【0008】
他の態様では、ハンドセグメンテーションを実行して、正確に区分された手を識別するための、システムを提供している。システムは、命令を格納するメモリと、1つ以上の通信インタフェースと、1つ以上の通信インタフェースを介してメモリに結合された1つ以上のハードウェアプロセッサと、を備え、1つ以上のハードウェアプロセッサは、少なくとも手および背景を示す入力画像を取得し、前処理された手および前処理された背景を含む前処理済み画像を得るために、入力画像を前処理する、ように命令によって構成される。一実施形態では、入力画像は、ダウンサンプリング画像を得るために画像をダウンサンプリングすることと、前処理済み画像を得るためにダウンサンプリング画像にコントラスト制限付き局所ヒストグラム均等化(CLAHE)法を適用すること、により前処理される。一実施形態では、入力画像の前処理において、入力画像にガウス平滑化法を適用することにより、複数の弱エッジをフィルタリングする。ハードウェアプロセッサは、さらに、複数のフィルタ応答を得るために、多方向マッチドフィルタ(MOMF)を前処理済み画像に適用し、複数の強エッジおよび1つ以上の弱エッジを含むマージ済みフィルタ応答を得るために、複数のフィルタ応答をマージし、合成エッジマップを得るために、1つ以上の孤立ブロブとして形成された1つ以上の弱エッジを、マージ済みフィルタ応答からフィルタリングする、ように命令によって構成される。一実施形態では、1つ以上の強エッジを検出するために1つ以上の予め規定された方向でMOMFを回転させることにより、多方向マッチドフィルタ(MOMF)を前処理済み画像に適用する。一実施形態では、モルフォロジ収縮手法をマージ済みフィルタ応答に適用することにより、1つ以上の孤立ブロブとして形成された複数の弱エッジをフィルタリングする。互いに孤立した異なるテクスチャ領域を含む合成画像を得るために、合成エッジマップを入力画像(または前処理済み画像)に加え、さらに、1つ以上のクロマチャネルを用いて、合成画像から複数の皮膚画素を検出する。区分された手である皮膚画素の最大ブロブを、合成画像から識別する。
【0009】
さらなる他の態様では、1つ以上の命令を含む1つ以上の非一時的な機械可読情報記憶媒体を提供しており、1つ以上の命令は、1つ以上のハードウェアプロセッサで実行されることで、ハンドセグメンテーションを実行して、正確に区分された手を識別するための方法を実施させる。それらの命令によって、少なくとも手および背景を示す入力画像を取得することと、前処理された手および前処理された背景を含む前処理済み画像を得るために、入力画像を前処理することと、を実施させる。一実施形態では、画像を前処理するステップは、ダウンサンプリング画像を得るために、画像をダウンサンプリングすることと、前処理済み画像を得るために、ダウンサンプリング画像にコントラスト制限付き局所ヒストグラム均等化(CLAHE)法を適用することと、を含む。入力画像の前処理において、入力画像にガウス平滑化法を適用することにより、複数の弱エッジをフィルタリングする。前処理済み画像を得たら、複数のフィルタ応答を得るために、多方向マッチドフィルタ(MOMF)を前処理済み画像に適用する。それらの命令は、さらに、複数の強エッジおよび1つ以上の弱エッジを含むマージ済みフィルタ応答を得るために、複数のフィルタ応答をマージすることと、合成エッジマップを得るために、1つ以上の孤立ブロブとして形成された1つ以上の弱エッジを、マージ済みフィルタ応答からフィルタリングすることと、互いに孤立した異なるテクスチャ領域を含む合成画像を得るために、合成エッジマップを入力画像(または前処理済み画像)に加えることと、1つ以上のクロマチャネルを用いて、合成画像から複数の皮膚画素を検出することと、区分された手である皮膚画素の最大ブロブを、合成画像から識別することと、を実施させる。
【0010】
一実施形態では、1つ以上の強エッジを検出するために、1つ以上の予め規定された方向でMOMFを回転させることにより、多方向マッチドフィルタ(MOMF)を前処理済み画像に適用する。一実施形態では、モルフォロジ収縮手法をマージ済みフィルタ応答に適用することにより、1つ以上の孤立ブロブとして形成された1つ以上の弱エッジをフィルタリングする。
【0011】
なお、上記の概要説明および以下の詳細説明は、いずれも例示的かつ説明的なものにすぎず、請求項に記載の発明を限定するものではないことは、理解されるべきである。
【0012】
本開示に組み込まれてその一部をなす添付の図面は、例示的な実施形態を示すとともに、本説明と併せて、本開示の原理を説明するためのものである。
【図面の簡単な説明】
【0013】
【
図1】本開示の一実施形態による、ハンドセグメンテーションを実行して、正確に区分された手を識別するための、システムの例示的なブロック図
【
図2】本開示の例示的な一実施形態による、
図1のハンドセグメンテーションシステムの例示的なブロック図
【
図3】本開示の一実施形態による、
図1~2のハンドセグメンテーションシステムのコンポーネントを用いて、ハンドセグメンテーションを実行して、区分された手を識別するための、方法の例示的なフロー図
【
図4A】本開示の一実施形態による、複数の強エッジおよび複数の弱エッジを有する手を示している説明図
【
図4B】本開示の一実施形態による、複数の強エッジおよび複数の弱エッジのプロファイルを示すグラフ表現を示している説明図
【
図5A】本開示の例示的な一実施形態による、0度の多方向マッチドフィルタ方向を示している説明図
【
図5B】本開示の例示的な一実施形態による、30度の多方向マッチドフィルタ方向を示している。
【
図5C】本開示の例示的な一実施形態による、90度の多方向マッチドフィルタ方向を示している説明図
【
図6A】本開示の例示的な一実施形態による、皮膚に似た背景における多方向マッチドフィルタ(MOMF)応答を示している説明図
【
図6B】本開示の例示的な一実施形態による、皮膚に似た背景における多方向マッチドフィルタ(MOMF)応答を示している説明図
【
図6C】本開示の一実施形態による、
図6Aに示す入力画像に含まれる手に対応した、正確に区分された手を示している説明図
【
図7】
図7は、本開示の例示的な一実施形態による、本開示のハンドセグメンテーションの結果を、従来の手法によって提示されたYC
bC
rと比較して示している説明図
【発明を実施するための形態】
【0014】
例示的な実施形態について、添付の図面を参照して説明する。それらの図面では、参照番号の左端の数字(群)は、その参照番号が最初に表示される図面を示している。適宜、図面全体を通して、同一または類似の部分を参照するのに同じ参照番号を使用している。本開示の原理の例および特徴について、本明細書で記載しているが、開示される実施形態の趣旨および範囲から逸脱することなく、変更、適応、および他の実現形態が可能である。以下の詳細な説明は、単なる例示的なものとみなされるものであり、真の範囲および趣旨は、添付の請求項によって示されるものとする。
【0015】
現在の既存の方法(群)では、ハンドセグメンテーションを実行するために、例えばサーバなどの追加のリソースを必要とするディープラーニングによる方法(群)を用いる。深度送信およびRGBによる手法を用いてハンドセグメンテーションを実行する他の方法もわずかにあるが、それらは、皮膚に似た背景が存在する場合には正確ではない。
【0016】
ハンドセグメンテーションは、空中ジェスチャを解釈するために必要なステップである。AR用途として、スマートフォンと共に質素なヘッドセットを使用することが、その経済的実行可能性、ポータビリティ、およびマスマーケットへのスケーラビリティが理由で、奨励される。
【0017】
研究で提案された多くの応用では、追加のウェアラブルセンサを導入しており、ユーザに特別な訓練が必要になることがある。また、スマートフォンを装着したGoogle Cardboardにおいて、オンボードでのハンドセグメンテーションはほとんど試みられていないことも注目される。可能な応用は、(a)HMDでのジェスチャ認識、(b)AR/VRモードでのビデオゲーム、(c)ハンドポーズ検出、である。ところが、これまでの研究および取り組みでは、ハンドセグメンテーションの正確な実行には失敗しており、それは、ジェスチャの不正確なキャプチャ、例えば環境特性である外部要因、などが原因であり得る。
【0018】
空中ハンドジェスチャは、HCIの場合の入力の基本モードをなし、それらは一般的にはタッチベースのシステムよりも好ましいことが判明している。ハンドジェスチャ認識の最も広く受け入れられている例の1つは、データグローブである。ハンドセグメンテーションの強化によって、データグローブの役割は、その自然性が理由で素手に取って代わられている。ウェアラブルデバイス上でのハンドセグメンテーションは、(a)変動する照明条件、(b)デバイスの計算能力、(c)ユーザの人種が異なることによる皮膚の色調の違い、および(d)皮膚色の背景の存在、を理由とする複雑な背景に伴う困難なコンピュータビジョン問題である。ハンド検出にカメラおよびIR LEDを使用している研究はわずかであり、そのいくつかは、身体装着型カメラおよび拡散IR照明と深度情報を、ハンドセグメンテーションに用いることを提案している。上記のアプローチは、追加のハードウェア、身体装着型カメラ、ユーザ計測または外部追跡が必要であり、さらにオフボード処理が必要であることも多い。ハンドセグメンテーションのためにランダムフォレストのような分類器およびガウス混合モデルを利用する他の研究がわずかにある。しかしながら、それらのアプローチは、各フレームを処理するのに多くの時間を要し、ユーザが採用するのに深刻な障壁となる。本開示の実施形態では、自然な状態での効率的なハンドセグメンテーションのためのフィルタを設計および実現するとともに、ヒストグラム均等化との組み合わせを用いて、ガウスぼかしを提示している。本開示では、上述のようなハンドセグメンテーションの欠点を回避するとともに、ウェアラブルデバイスであることによって生じる一人称視点(FPV:First-Person View)の制約にも対処している。
【0019】
以下で図面を参照し、より具体的には
図1~7を参照し、それらの図面の全体を通して一貫して、対応する特徴を同様の参照文字で示しており、好ましい実施形態を図示するとともに、それらの実施形態について、以下の例示的なシステムおよび/または方法の文脈において説明している。
【0020】
図1は、本開示の一実施形態による、ハンドセグメンテーションを実行して、正確に区分された手を識別するための、システム100の例示的なブロック図を示している。システム100は、「ハンドセグメンテーションシステム」または「セグメンテーションシステム」と呼ばれることもあり、これらは以下で区別なく用いられる。一実施形態では、システム100は、1つ以上のプロセッサ104と、通信インタフェース装置(群)または入力/出力(I/O)インタフェース(群)106と、1つ以上のプロセッサ104に作用的に結合された1つ以上のデータ記憶装置またはメモリ102と、を備える。1つ以上のプロセッサ104は、1つ以上のソフトウェア処理モジュールおよび/またはハードウェアプロセッサであってよい。一実施形態では、それらのハードウェアプロセッサは、1つ以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理装置、ステートマシン、論理回路、および/または演算命令に基づき信号を操作する任意のデバイスとして実装することができる。プロセッサ(群)は、数ある機能の中でも特に、メモリに格納されたコンピュータ可読命令をフェッチして実行するように構成されている。一実施形態では、装置100は、ラップトップコンピュータ、ノートブック、ハンドヘルドデバイス、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウドなどのような様々なコンピューティングシステムに実装することができる。
【0021】
I/Oインタフェース装置(群)106は、例えば、ウェブインタフェース、グラフィカルユーザインタフェースなど、様々なソフトウェアインタフェースおよびハードウェアインタフェースを含むことができ、例えばLAN、ケーブルネットワークのような有線ネットワーク、およびWLAN、セルラネットワーク、または衛星ネットワークのような無線ネットワークなど、多種多様なネットワークN/Wおよびプロトコルタイプの範囲内で、多重通信を円滑にすることができる。一実施形態では、I/Oインタフェース装置(群)は、多数のデバイスを相互に、または別のサーバに接続するための1つ以上のポートを有することができる。
【0022】
メモリ102は、例えば、スタティックランダムアクセスメモリ(SRAM)およびダイナミックランダムアクセスメモリ(DRAM)のような揮発性メモリ、および/またはリードオンリメモリ(ROM)、消去可能プログラマブルROM、フラッシュメモリ、ハードディスク、光ディスク、磁気テープのような不揮発性メモリなど、当技術分野で周知の任意のコンピュータ可読媒体を含んでよい。一実施形態では、データベース108をメモリ102に格納することができ、そのデータベース108は、手および背景の情報、ダウンスケーリング出力、フィルタリング後の出力(群)、正確に区分された手の出力などを含み得るが、ただし、これらに限定されない。より具体的には、入力画像に関する情報は、手と、皮膚に似た背景などを含む。一実施形態では、メモリ102は、1つ以上のハードウェアプロセッサ104で実行されることで、本明細書に記載の方法を実施するための、1つ以上の手法(群)(例えば、フィルタリング手法(群)、1つ以上のフィルタ)を格納し得る。メモリ102は、さらに、本開示のシステムおよび方法によって実行される各ステップの入力(群)/出力(群)に関する情報を含み得る。
【0023】
図2は、
図1を参照して、本開示の例示的な一実施形態による、
図1のハンドセグメンテーションシステム100の例示的なブロック図を示している。ハンドセグメンテーションシステム100は、前処理ブロック202と、多方向マッチドフィルタリング(MOMF)ブロック204と、皮膚セグメンテーションブロック206と、を含む。
【0024】
図3は、
図1~2を参照して、本開示の一実施形態による、
図1~2のシステム100およびハンドセグメンテーションシステムのコンポーネントを用いて、ハンドセグメンテーションを実行して、正確に区分された手を識別するための、方法の例示的なフロー図を示している。一実施形態では、システム(群)100は、1つ以上のハードウェアプロセッサ104に作用的に結合された1つ以上のデータ記憶装置またはメモリ102を備え、本方法のステップを1つ以上のプロセッサ104で実行するための命令を格納するように構成されている。本開示の方法のステップについて、
図1に示すシステム100のコンポーネントおよび
図2に示すブロック図を参照して、以下で説明する。本開示の一実施形態では、ステップ302で、1つ以上のハードウェアプロセッサ104は、少なくとも手および背景を示す入力画像を取得する。一実施形態では、背景は、皮膚に似た背景を含むことがある。本開示の一実施形態では、ステップ304で、1つ以上のハードウェアプロセッサ104は、前処理された手および前処理された背景を含む前処理済み画像を得るために、入力画像を前処理する。一実施形態では、入力画像は、最初にダウンサンプリングすることによりダウンサンプリング画像を得てから、前処理済み画像を得るために、ダウンサンプリング画像にコントラスト制限付き局所ヒストグラム均等化(CLAHE)法を適用することによって、前処理される。前処理の目的は、コントラストを改善するとともに、ノイズを除去することである。例えば、本開示では、入力画像(または入力画像フレーム)は、撮像装置(例えば、いわゆるスマートフォンのリアカメラ)から取得されたものであり、その後、それは、画像品質をあまり損なうことなく処理時間を削減するために、640×480の解像度にダウンスケーリングまたはダウンサンプリングされている。その後、大域的コントラストを改善するとともに、照明アーチファクトを軽減するために、コントラスト制限付き局所ヒストグラム均等化(CLAHE)法がダウンサンプリング画像に適用されている。本開示の一実施形態では、
図2に示すように前処理ブロック202で、入力画像は前処理されている。
【0025】
図4Aは、
図1~3を参照して、本開示の一実施形態による、複数の強エッジおよび複数の弱エッジを有する手を示している。
図4Bは、
図1~4Aを参照して、本開示の一実施形態による、複数の強エッジおよび複数の弱エッジのプロファイルを示すグラフ表現を示している。本開示では、手の画像における2種類のエッジ、すなわち弱エッジおよび強エッジを考慮する。弱エッジは、表面色の不連続性によって生じるので、これらは均一なテクスチャで構成される。一方、強エッジは、奥行きの不連続性によって生じるので、これらはテクスチャおよび色のかなりの変化を含む。(
図4Aに示すような)可視化の場合、弱エッジを軽減するために、ガウス平滑化法をヒストグラム均等化画像に適用する。つまり、入力画像の前処理において、入力画像にガウス平滑化法を適用することにより、複数の弱エッジをフィルタリングする。この平滑化は、強エッジにわずかに影響を及ぼす可能性があるが、ほとんどの強度変化は維持されていることが確認されている。
【0026】
本開示の一実施形態では、ステップ306で、1つ以上のハードウェアプロセッサ104は、複数のフィルタ応答を得るために、多方向マッチドフィルタ(MOMF)を前処理済み画像に適用し、さらにステップ308で、マージ済みフィルタ応答を得るために、複数のフィルタ応答をマージする。一実施形態では、マージ済みフィルタ応答は、複数の強エッジおよび1つ以上の弱エッジを含む。より具体的には、1つ以上の強エッジを検出するために、1つ以上の予め規定された方向でMOMFを回転させることにより、多方向マッチドフィルタ(MOMF)を前処理済み画像に適用する。MOMFの方向は、
図5A~5Cに可視化することができる。本開示によって実行されるMOMFの設計および実装について以下で説明する。
【0027】
[多方向マッチドフィルタ(MOMF)]
上述のように、色に基づくハンドセグメンテーションは、皮膚に似た画素強度を含む背景から手を正確に区別するのに失敗することが多い。従って、強エッジを検出するために、本開示では、正確なハンドセグメンテーションのためのMOMFを実装して実行する。弱エッジおよび強エッジの挙動を示す一例を、上述のように
図4Bに示している。強エッジで形成されるパターンは、断面プロファイルにおいてシグモイド関数に非常に類似している一方、接線プロファイルにおいて線状パターンであることが、
図4Bから分かる。従って、断面プロファイルにおいてシグモイド関数を近似する一方、接線プロファイルにおいて線状であるMOMFが設計された。サイズ(2n+1)×(2m+1)のこのようなフィルタG
θは、次の式で与えられる。
【0028】
【0029】
ただし、Gθ(x,y)は、位置(x,y)におけるフィルタGθの値を表し、θは、フィルタの方向を示し、cは、フィルタのスケーリングを提供し、pは、方向を扱うものであって、次の式で与えられる。
【0030】
【0031】
様々に異なる方向θのMOMFを、
図5A~5Cで可視化することができる。より具体的には、
図5Aは、本開示の例示的な一実施形態による、0度の多方向マッチドフィルタ方向を示している。
図5Bは、本開示の例示的な一実施形態による、30度の多方向マッチドフィルタ方向を示している。
図5Cは、本開示の例示的な一実施形態による、90度の多方向マッチドフィルタ方向を示している。本開示のMOMFは、その平均がゼロであるように定義されていることを確認することができ、従って、方向θに向いた強エッジ情報のみを提供することができる。強エッジは多様な方向に存在するので、本開示のMOMFは、様々に異なる固定方向で適用される。よって、フィルタはMOMFと呼ばれる。それらの方向設定されたマッチドフィルタを前処理済み画像に適用することにより複数のフィルタ応答を得て、ある画素における最終応答は、最大フィルタ応答で与えられる。数学的には、最終フィルタ応答Rは、次の式で与えられる。
【0032】
【0033】
【0034】
図6A~6Bから分かるように、前処理段階において入力画像にガウス平滑化法を適用することにより、弱エッジは除去されたが、弱エッジの一部は、孤立ブロブの形で、(マージ済みフィルタ応答とも呼ばれる)最終フィルタ応答に依然として存在する。残りの弱エッジをフィルタリングするために、本開示では、モルフォロジ収縮手法を採用する。より具体的には、本開示の一実施形態では、ステップ310で、1つ以上のハードウェアプロセッサ104は、合成エッジマップを得るために、1つ以上の孤立ブロブとして形成された1つ以上の弱エッジを、マージ済みフィルタ応答からフィルタリングする。モルフォロジ収縮手法をマージ済みフィルタ応答に適用することにより、1つ以上の孤立ブロブとして形成された1つ以上の弱エッジをフィルタリングまたは除去する。
【0035】
本開示の一実施形態では、ステップ312で、1つ以上のハードウェアプロセッサ104は、合成画像を得るために、合成エッジマップを前処理済み画像に加える。合成画像は、例示的な一実施形態では、互いに孤立した異なるテクスチャ領域を含む。つまり、以下の式を用いて、合成エッジマップを原画像(または前処理済み画像)Iに加算する。
【0036】
【0037】
【0038】
皮膚フィルタ(例えば、当技術分野で周知のカラーセグメンテーション手法)は、皮膚に似た画素が背景に存在するときに、ノイズブロブを取り込む可能性があることが確認されている。これらの皮膚に似た背景ブロブを手の画素として誤解釈する問題に対処するために、本開示では、最大ブロブのみを確保する。これは、HMDにおいてジェスチャを行うときに、手の領域が、FPVで最も目立つ物体であろうという仮定に基づいている。最大ブロブは、輪郭追跡法(例えば、当技術分野で周知の手法)を用いて特定される。より具体的には、ステップ316で、1つ以上のハードウェアプロセッサ104は、皮膚画素の最大ブロブを、合成画像から識別する。皮膚画素のこの最大ブロブは、(「正確に区分された手」とも呼ばれる)区分された手である。例示的な一実施形態では、ステップ310および316は、
図2の皮膚セグメンテーションブロック206で実行される。本開示の一実施形態では、「皮膚セグメンテーションブロック206」という表現は、「ハンドセグメンテーションブロック206」と呼ばれることもあり、これらは本明細書において区別なく用いられることがある。ハンドセグメンテーションの一例を、
図6Cに示している。より具体的には、
図6Cは、
図1~6Bを参照して、本開示の一実施形態による、
図6Aに示す入力画像に含まれる手に対応した、正確に区分された手を示している。
【0039】
[結果]
(実験のセットアップ)
Qualcomm MSM8956 Snapdragon 650チップセット、ヘキサコアCPU(4×(1.4GHz Cortex-A53)および2×(1.8GHz Cortex-A72))、Adreno 510 GPUを搭載し、Android 5.1.1が動作する、XIAOMI REDMI Note3において、実験を実施した。このAndroidから、様々に異なる照明条件下で合計484個の手の画像を取得した。これらは、男性18名と女性13名である31名の異なる被験者に属するものである。本開示の方法の有効性を試験するために、このデータセットの画像は難しい背景を含んでおり、すなわち、皮膚に似た強度を含む背景について考察した。より厳密な性能評価のために、公的に入手可能な2つのデータセット、すなわちG1~G7(例えば、非特許文献1を参照)およびエゴセントリック・ハンドセグメンテーションデータセット(例えば、非特許文献2を参照)について、本開示の方法を試験した。
【0040】
(実施詳細)
フィルタ(MOMF)応答は、そのフィルタサイズおよび方向の数が十分に大きい場合に弱エッジの数が減少して、少数の弱エッジを含む。しかしながら、フィルタサイズが大きいと結果的に手の位置特定が不十分になり、一方、方向の数が多いと結果的に計算量が増加する。実験した後に、正確なハンドセグメンテーションのためには、フィルタサイズおよび方向Θの数を、それぞれ15×15および16に設定すべきであることが判明した。Θを、π/16の倍数に設定した。
【0041】
(ハンドセグメンテーションの精度)
本開示では、ハンドセグメンテーション精度を評価するために、以下の式を用いて、Jaccard係数を採用した。
【0042】
【0043】
ただし、Sは、区分された画像であり、Gは、グラウンドトゥルース画像である。正確なセグメンテーションとは、Jaccard係数Jが0.95よりも大きい場合を指す。ARでのジェスチャ認識には、一般的に手の大部分が必要であるため、Jについて、より高い閾値を選択した。本開示の方法では、444個の画像を正確に区分できることが報告される一方、従来の手法1(例えば、非特許文献3を参照)では、326個の画像のみを正確に区分できることが確認されている。さらに、本開示の方法の平均Jaccard係数は、上記の従来の手法1(例えば、非特許文献3)の平均Jaccard係数と比較して、顕著に優れている。
【0044】
公的に入手可能なデータセットについて実施された実験結果を、以下の表(例えば、表1)および
図7に示している。より具体的には、
図7は、
図1~6Cを参照して、本開示のハンドセグメンテーションの結果を、(
図7の(c)に示す)従来の手法1および(
図7の(d)に示す)従来の手法2(例えば、非特許文献4を参照)によって提示されたYC
bC
rと比較して示している。
図7は、さらに、
図7の(a)に示す入力画像および(b)に示すグラウンドトゥルースもそれぞれ含んでいる。
【0045】
表(例えば、表1)では、性能評価を示すために、Jaccard係数メトリックを用いている。また、本開示の方法を、画素単位セグメンテーションに広く用いられているディープラーニングによる従来の手法2とも比較している。
【0046】
【0047】
従来の手法2は、ディープラーニング機能を採用しているため、本開示のシステムよりも良好に機能した可能性があることが、表1から分かる。残念ながら、その適用性は、質素なHMDでのジェスチャインタラクションに対しては、そのようなインタラクションは従来の手法2では不可能なリアルタイム処理を必要とするため、限られている。さらに、従来の手法2は、学習分布と試験分布が同じである場合にのみ正確に機能し、異なるデータセットで従来の手法2を再学習させるのは、非常に時間を要する。また、従来の手法2は、データの処理に時間をより多く(例えば、19000ミリ秒)要することも、表1から確認される。本開示の方法は、従来の手法2にかかる時間と比較して、かかる時間がより少ない(例えば、36ミリ秒)ことは明らかである。また、本開示の方法は、従来の手法1および従来の手法3(例えば、非特許文献5を参照)よりも多くの時間を計算に要するが、正確なハンドセグメンテーションに関しては優れていることも、表1で確認することができる(例えば、従来の手法1、従来の手法3、および本開示の方法に関連したG1~G7について、表1の結果を参照)。これは、本開示のMOMFが最終的に、より優れたハンドセグメンテーションにつながっているからである。
【0048】
質素なHMD(例えば、スマートフォンを装着したGoogle Cardboard)の場合のハンドセグメンテーションを、本開示により提示した。この機能を本開示のシステムおよび方法によって実現する根本的な理由は、質素なヘッドセットを、工業検査および観光産業のようなAR用途として有効にするためである。本開示のハンドセグメンテーション方法は、深度センサおよびIRセンサのような追加のハードウェアを使用することなく、オンデバイスで、正確にリアルタイムで機能する。それは、CLAHE、ガウスぼかしを、本開示のMOMFと共に用いて、設計されている。ハンドセグメンテーションのための本開示の方法を評価するために、本開示の方法の結果を、Jaccard係数を用いて、従来の手法1および2と比較した。従来の手法2は、本開示の方法よりも優れたハンドセグメンテーションを提供するものの、リアルタイムのハンドセグメンテーションには有用ではないことが確認されている。また、本開示の方法は、本開示のMOMFが理由で、従来の手法1よりも顕著に優れたハンドセグメンテーションを実現する。
【0049】
本説明は、当業者が実施形態を構成して、使用することを可能とするために、本明細書における主題について記載している。本主題の実施形態の範囲は、請求項によって規定され、当業者が想到する他の変形例を含み得る。かかる他の変形例は、請求項の文言と異ならない類似の要素を有するものであれば、または請求項の文言と非実質的な違いがある均等な要素を含むものであれば、請求項の範囲内にあるものとする。
【0050】
保護の範囲は、かかるプログラムにまで、さらにはメッセージを収めたコンピュータ可読手段にまで、拡張されるものと理解されるべきであり、かかるコンピュータ可読記憶手段は、プログラムコード手段を格納しており、それは、そのプログラムがサーバまたはモバイルデバイスまたは任意の適切なプログラマブルデバイスで実行されることで、本方法の1つ以上のステップを実施するためのものである。ハードウェアデバイスは、例えばサーバまたはパーソナルコンピュータなどのような任意の種類のコンピュータ、またはそれらの任意の組み合わせなど、プログラム可能な任意の種類のデバイスとすることができる。また、本装置は、例えば特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)のような例えばハードウェア手段、または例えばASICとFPGAもしくは少なくとも1つのマイクロプロセッサとソフトウェアモジュールを収めた少なくとも1つのメモリであるハードウェア手段とソフトウェア手段の組み合わせ、とすることができる手段を含んでもよい。従って、その手段は、ハードウェア手段とソフトウェア手段の両方を含むことができる。本明細書に記載の方法の実施形態は、ハードウェアおよびソフトウェアで実装することができる。また、本装置は、ソフトウェア手段を含んでもよい。あるいは、これらの実施形態は、例えば複数のCPUを用いて、いくつかの異なるハードウェアデバイスにおいて実施されてよい。
【0051】
本明細書における実施形態は、ハードウェア要素およびソフトウェア要素を含むことができる。ソフトウェアで実装される実施形態は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、ただし、これらに限定されない。本明細書に記載の各種モジュールで実行される機能は、他のモジュールまたは他のモジュールの組み合わせで実装されてよい。本説明の目的では、コンピュータ可用媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって用いるため、またはそれとの関連で用いるための、プログラムを具備、保存、通信、伝搬、または搬送することが可能な任意の装置とすることができる。
【0052】
例示したステップは、図示の例示的な実施形態を説明するために提示されたものであり、進行する技術開発によって、特定の機能が実行される方法が変更されることは想定されるべきである。これらの例は、本明細書において例示目的で提示されるものであり、限定するものではない。また、機能構成ブロックの境界は、説明の便宜上、本明細書において任意に規定されている。特定の機能およびそれらの関係が適切に実現されるのであれば、別の境界を規定することができる。(本明細書に記載のものの均等物、拡張、変形、変更などを含む)代替案は、本明細書に含まれる教示に基づき、当該関連技術の当業者には明らかであろう。かかる代替案は、開示の実施形態の範囲および趣旨の範囲内に含まれる。また、「comprising(備えている)」、「having(有している)」、「containing(含有している)」、「including(含んでいる)」および他の類似の形の表現は、同等の意味であるとともに、これらの表現のいずれかに続くアイテムもしくはアイテム群は、かかるアイテムもしくはアイテム群の網羅的列挙を意味するものではなく、または列挙されているアイテムもしくはアイテム群のみに限定されることを意味するのではないという点で、制限のないものである。また、本明細書および添付の請求項で使用される場合の単数形「a」、「an」、「the」は、特に文脈で明確に示していない限り、複数の指示物を含むということも、留意されるべきである。
【0053】
さらに、本開示に矛盾しない実施形態の実現において、1つ以上のコンピュータ可読記憶媒体を利用してよい。コンピュータ可読記憶媒体とは、プロセッサで読み取り可能な情報またはデータを格納し得る任意のタイプの物理メモリを指す。従って、コンピュータ可読記憶媒体は、本明細書に記載の実施形態に矛盾しないステップまたは段階をプロセッサ(群)に実行させるための命令など、1つ以上のプロセッサで実行するための命令を格納し得る。「コンピュータ可読媒体」という用語は、有形アイテムを含み、搬送波および過渡信号を除外するものである、すなわち、非一時的なものであると理解されるべきである。例として、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD-ROM、DVD、フラッシュドライブ、ディスク、およびその他の周知の物理記憶媒体が含まれる。
【0054】
本開示および実施例は単なる例示的なものとみなされるものであり、開示の実施形態の真の範囲および趣旨は、添付の請求項によって示される。