(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-27
(54)【発明の名称】動的ジェスチャー認識方法、装置、可読記憶媒体及びコンピュータ機器
(51)【国際特許分類】
G06T 7/20 20170101AFI20240219BHJP
G06V 10/82 20220101ALI20240219BHJP
G06T 7/00 20170101ALI20240219BHJP
【FI】
G06T7/20 300A
G06V10/82
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023576238
(86)(22)【出願日】2021-06-15
(85)【翻訳文提出日】2023-08-29
(86)【国際出願番号】 CN2021100113
(87)【国際公開番号】W WO2022193453
(87)【国際公開日】2022-09-22
(31)【優先権主張番号】202110273657.5
(32)【優先日】2021-03-15
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】523329323
【氏名又は名称】南昌虚擬現実研究院股▲フェン▼有限公司
(74)【代理人】
【識別番号】110002468
【氏名又は名称】弁理士法人後藤特許事務所
(72)【発明者】
【氏名】毛 鳳輝
(72)【発明者】
【氏名】郭 振民
(72)【発明者】
【氏名】熊 斌
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096AA09
5L096CA02
5L096FA12
5L096FA18
5L096FA54
5L096FA62
5L096FA64
5L096FA66
5L096FA69
5L096GA40
5L096HA11
(57)【要約】
本発明によれば、動的ジェスチャー認識方法、システム、可読記憶媒体及びコンピュータ機器が提供される。当該方法は、トレーニング済みの手部検出深層学習モデルにより、対象画像に対する手部対象検出を行うことによって、手部領域における最小外接矩形の図形情報を取得することと、第2時刻および第1時刻に対応する最小外接矩形の図形情報に基づき、2つの時刻に対応する最小外接矩形間の中心距離及び傾斜率を計算することと、皮膚検出アルゴリズムにより、対象画像から手部皮膚領域を選出し、手部皮膚領域とデプスマップとを結び付けて、第2時刻および第1時刻に対応する手部皮膚領域平均デプス値をそれぞれ、算出することと、中心距離、傾斜率、2つの時刻に対応する手部皮膚領域平均デプス値に基づき、ジェスチャー運動方向及びその対応する方向における運動量の大きさを判定することと、を含む。本発明によれば、二次元平面上の移動方向しか判定できず、計算過程が複雑であって、ジェスチャー認識のリアルタイム性が低いという従来技術に既存の問題を解決することができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
トレーニング済みの手部検出深層学習モデルにより、対象画像に対する手部対象検出を行うことによって、手部領域における最小外接矩形の図形情報を取得することと、
第2時刻に対応する最小外接矩形の図形情報と第1時刻に対応する最小外接矩形の図形情報とに基づき、前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を計算することであって、前記第1時刻と前記第2時刻が隣り合う時刻であることと、
皮膚検出アルゴリズムにより、前記対象画像から手部皮膚領域を選出し、手部皮膚領域とデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値をそれぞれ算出することと、
前記中心距離、前記傾斜率、前記第2時刻に対応する手部皮膚領域平均デプス値及び前記第1時刻に対応する手部皮膚領域平均デプス値に基づき、ジェスチャー運動方向及びその対応する方向における運動量の大きさを判定することと、を含み、
第2時刻に対応する最小外接矩形の図形情報と第1時刻に対応する最小外接矩形の図形情報とに基づき、前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を計算することは、
次式により前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を計算し、
【数1】
ただし、(p
x1,p
y1)は前記第1時刻に対応する最小外接矩形の左上隅頂点の座標を示し、w
1、h
1はそれぞれ、前記第1時刻に対応する最小外接矩形の幅と高さを示し、(p
cx1,p
cy1)は前記第1時刻に対応する最小外接矩形の中心点の座標を示し、(p
x2,p
y2)は前記第2時刻に対応する最小外接矩形の左上隅頂点の座標を示し、w
2、h
2はそれぞれ、前記第2時刻に対応する最小外接矩形の幅と高さを示し、(p
cx2,p
cy2)は前記第2時刻に対応する最小外接矩形の中心点の座標を示し、dは前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離を示し、kは前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の傾斜率を示し、
前記中心距離、前記傾斜率、前記第2時刻に対応する手部皮膚領域平均デプス値及び前記第1時刻に対応する手部皮膚領域平均デプス値に基づき、ジェスチャー運動方向及びその対応する方向における運動量の大きさを判定することは、
dが閾値thr1以下である場合に、uvz座標系において手部の水平方向の運動がないと判定することと、
dが前記閾値thr1よりも大きく、且つp
cx1=p
cx2である場合に、前記uvz座標系において手部がv方向のみに向かって運動し、運動量y
v=p
cy2-p
cy1であると判定することと、
dが前記閾値thr1よりも大きく、且つp
cy1=p
cy2である場合に、前記uvz座標系において手部がu方向のみに向かって運動し、運動量x
v=p
cx2-p
cx1であると判定することと、
dが前記閾値thr1よりも大きく、且つp
cx1≠p
cx2、p
cy1≠p
cy2である場合に、前記uvz座標系において手部がuv方向に向かって運動し、u方向に沿う運動の運動成分x
v=p
cx2-p
cx1であり、v方向に沿う運動の運動成分y
v=p
cy2-p
cy1であると判定することと、を含み、
前記uvz座標系において手部のz方向に沿う運動の運動成分z
v=d
v2-d
v1である、
ことを特徴とする動的ジェスチャー認識方法。
【請求項2】
トレーニング済みの手部検出深層学習モデルにより、対象画像に対する手部対象検出を行うことによって、手部領域における最小外接矩形の図形情報を取得することは、
RGBカメラによって撮影された手部を含むRGB画像を取得することと、
前記RGB画像をトレーニング済みの前記手部検出深層学習モデルに入力して、手部対象検出を行うことと、
前記手部対象検出の検出結果から、手部領域における最小外接矩形の図形情報を取得することと、を含み、
前記図形情報は、最小外接矩形の左上隅頂点の座標、矩形の幅および高さを含む、
ことを特徴とする請求項1に記載の動的ジェスチャー認識方法。
【請求項3】
皮膚検出アルゴリズムにより、前記対象画像から手部皮膚領域を選出し、手部皮膚領域とデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値をそれぞれ、算出することは、
前記RGB画像をYCrCb空間に変換し、楕円皮膚検出アルゴリズムにより、最小外接矩形内の皮膚を検出して、前記対象画像から手部皮膚領域を選出することと、
手部皮膚領域とこれに対応するデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値を次式により計算することと、を含み、
【数2】
ただし、d
e1は前記第1時刻に対応する手部皮膚領域における各画素に対応するデプス値を示し、d
v1は前記第1時刻に対応する手部皮膚領域平均デプス値を示し、d
e2は前記第2時刻に対応する手部皮膚領域における各画素に対応するデプス値を示し、d
v2は前記第2時刻に対応する手部皮膚領域平均デプス値を示し、Nは手部皮膚画素点の個数を示す、
ことを特徴とする請求項2に記載の動的ジェスチャー認識方法。
【請求項4】
トレーニング済みの手部検出深層学習モデルにより、対象画像に対する手部対象検出を行うことによって、手部領域における最小外接矩形の図形情報を取得するための検出モジュールと、
第2時刻に対応する最小外接矩形の図形情報と第1時刻に対応する最小外接矩形の図形情報とに基づき、前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を計算するための第1計算モジュールであって、前記第1時刻と前記第2時刻が隣り合う時刻である第1計算モジュールと、
皮膚検出アルゴリズムにより、前記対象画像から手部皮膚領域を選出し、手部皮膚領域とデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値をそれぞれ、算出するための第2計算モジュールと、
前記中心距離、前記傾斜率、前記第2時刻に対応する手部皮膚領域平均デプス値及び前記第1時刻に対応する手部皮膚領域平均デプス値に基づき、ジェスチャー運動方向及びその対応する方向における運動量の大きさを判定するための判定モジュールと、を備え、
前記第1計算モジュールは、前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を次式により計算し、
【数3】
ただし、(p
x1,p
y1)は前記第1時刻に対応する最小外接矩形の左上隅頂点の座標を示し、w
1、h
1はそれぞれ、前記第1時刻に対応する最小外接矩形の幅と高さを示し、(p
cx1,p
cy1)は前記第1時刻に対応する最小外接矩形の中心点の座標を示し、(p
x2,p
y2)は前記第2時刻に対応する最小外接矩形の左上隅頂点の座標を示し、w
2、h
2はそれぞれ、前記第2時刻に対応する最小外接矩形の幅と高さを示し、(p
cx2,p
cy2)は前記第2時刻に対応する最小外接矩形の中心点の座標を示し、dは前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離を示し、kは前記第2時刻に対応する最小外接矩形の中心点と前記第1時刻に対応する最小外接矩形の中心点の間の傾斜率を示し、
前記判定モジュールは、
dが閾値thr1以下である場合に、uvz座標系において手部の水平方向の運動がないと判定し、
dが前記閾値thr1よりも大きく、且つp
cx1=p
cx2である場合に、前記uvz座標系において手部がv方向のみに向かって運動し、運動量y
v=p
cy2-p
cy1であると判定し、
dが前記閾値thr1よりも大きく、且つp
cy1=p
cy2である場合に、前記uvz座標系において手部がu方向のみに向かって運動し、運動量x
v=p
cx2-p
cx1であると判定し、
dが前記閾値thr1よりも大きく、且つp
cx1≠p
cx2、p
cy1≠p
cy2である場合に、前記uvz座標系において手部がuv方向に向かって運動し、u方向に沿う運動の運動成分x
v=p
cx2-p
cx1であり、v方向に沿う運動の運動成分y
v=p
cy2-p
cy1であると判定し、
前記uvz座標系において手部のz方向に沿う運動の運動成分z
v=d
v2-d
v1である、
ことを特徴とする動的ジェスチャー認識装置。
【請求項5】
前記検出モジュールは、
RGBカメラによって撮影された手部を含むRGB画像を取得し、
前記RGB画像をトレーニング済みの前記手部検出深層学習モデルに入力して、手部対象検出を行い、
前記手部対象検出の検出結果から、手部領域における最小外接矩形の図形情報を取得し、
前記図形情報は、最小外接矩形の左上隅頂点の座標、矩形の幅および高さを含む、
ことを特徴とする請求項4に記載の動的ジェスチャー認識装置。
【請求項6】
コンピュータプログラムが記憶された可読記憶媒体であって、
当該コンピュータプログラムは、プロセッサによって実行されると、請求項1~3のいずれか1項に記載の方法が実現される、
ことを特徴とする可読記憶媒体。
【請求項7】
メモリと、プロセッサと、メモリに記憶されるとともにプロセッサにて実行されるコンピュータプログラムと、を含むコンピュータ機器であって、
前記プロセッサによって前記コンピュータプログラムが実行されると、請求項1~3のいずれか1項に記載の方法が実現される、
ことを特徴とするコンピュータ機器。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2021年3月15日に提出された、発明名称が「動的ジェスチャー認識方法、装置、可読記憶媒体及びコンピュータ機器」である出願番号202110273657.5の先願の優先権を主張しており、上記先願の内容が引用により本明細書に取り込まれる。
【0002】
本発明は、コンピュータの技術分野に関し、特に、動的ジェスチャー認識方法、装置、可読記憶媒体及びコンピュータ機器に関する。
【背景技術】
【0003】
ジェスチャーを認識することは、ヒューマンマシンインタラクションにおける重要な手段である。VR(Virtual Reality:仮想現実)技術によるヒューマンマシンインタラクションにおいて、仮想ジェスチャーの認識により、ユーザによる音量の大きさへの調節又は他の仮想移動キーへの制御が可能となる。
【0004】
従来技術では、画像をグリッド化し、皮膚検出アルゴリズムにより、各グリッドにおける手部の有無、二値化画像の有無をマーキングして、二値化画像の論理演算を行うことで手部の運動方向を取得することが主であった。当該方法では、二次元平面上の移動方向しか判定できない。また、Towerアルゴリズムに基づくジェスチャー認識の方法もあるが、その計算過程が非常に複雑で、演算量が莫大なものであり、ジェスチャー認識のリアルタイム性が低くなる。
【発明の概要】
【0005】
それに鑑みて、本発明の1つの目的は、二次元平面上の移動方向しか判定できず、計算過程が複雑であって、ジェスチャー認識のリアルタイム性が低いという従来技術に既存の問題を解決するための動的ジェスチャー認識方法を提供することである。
【0006】
本発明は、動的ジェスチャー認識方法を提供し、前記方法では、
トレーニング済みの手部検出深層学習モデルにより、対象画像に対する手部対象検出を行うことによって、手部領域における最小外接矩形の図形情報を取得することと、
第2時刻に対応する最小外接矩形の図形情報と第1時刻に対応する最小外接矩形の図形情報とに基づき、前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を計算することであって、前記第1時刻と前記第2時刻が隣り合う時刻であることと、
皮膚検出アルゴリズムにより、前記対象画像から手部皮膚領域を選出し、手部皮膚領域とデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値をそれぞれ、算出することと、
前記中心距離、前記傾斜率、前記第2時刻に対応する手部皮膚領域平均デプス値及び前記第1時刻に対応する手部皮膚領域平均デプス値に基づき、ジェスチャー運動方向及びその対応する方向における運動量の大きさを判定することと、を含む。
【0007】
本発明が提供する動的ジェスチャー認識方法では、皮膚検出アルゴリズムにより、デプスマップに結び付けて、隣り合う2つの時刻における手部皮膚領域平均デプス値を取得することによって、手部の運動方向及びその運動量の大きさを立体空間から判定することができ、ジェスチャーの運動を定性・定量で分析することが可能となる。本発明では、第1時刻及び第2時刻に対応する最小外接矩形間の中心距離、傾斜率、および、隣り合う2つの時刻における手部皮膚領域平均デプス値によって、ジェスチャーの判断を行うので、計算過程がより簡単なもので、リアルタイム性がより高いものである。
【0008】
また、本発明における上記動的ジェスチャー認識方法に基づき、以下の付加的な構成要件が含まれてもよい。
【0009】
さらに、トレーニング済みの手部検出深層学習モデルにより、対象画像に対する手部対象検出を行うことによって、手部領域における最小外接矩形の図形情報を取得することは、
RGBカメラによって撮影された手部を含むRGB画像を取得することと、
前記RGB画像をトレーニング済みの前記手部検出深層学習モデルに入力して、手部対象検出を行うことと、
前記手部対象検出の検出結果から、手部領域における最小外接矩形の図形情報を取得することとを含み、
前記図形情報は、最小外接矩形の左上隅頂点の座標、矩形の幅および高さを含む。
【0010】
さらに、第2時刻に対応する最小外接矩形の図形情報と第1時刻に対応する最小外接矩形の図形情報とに基づき、前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を計算することは、
次式により前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を計算し、
【数1】
ただし、(p
x1,p
y1)は前記第1時刻に対応する最小外接矩形の左上隅頂点の座標を示し、w
1、h
1はそれぞれ、前記第1時刻に対応する最小外接矩形の幅と高さを示し、(p
cx1,p
cy1)は前記第1時刻に対応する最小外接矩形の中心点の座標を示し、(p
x2,p
y2)は前記第2時刻に対応する最小外接矩形の左上隅頂点の座標を示し、w
2、h
2はそれぞれ、前記第2時刻に対応する最小外接矩形の幅と高さを示し、(p
cx2,p
cy2)は前記第2時刻に対応する最小外接矩形の中心点の座標を示し、dは前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離を示し、kは前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の傾斜率を示す。
【0011】
さらに、皮膚検出アルゴリズムにより、前記対象画像から手部皮膚領域を選出し、手部皮膚領域とデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値をそれぞれ、算出することは、
前記RGB画像をYCrCb空間に変換し、楕円皮膚検出アルゴリズムにより、最小外接矩形内の皮膚を検出して、前記対象画像から手部皮膚領域を選出することと、
手部皮膚領域とこれに対応するデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値を次式により計算することと、を含み、
【数2】
ただし、d
e1は前記第1時刻に対応する手部皮膚領域における各画素に対応するデプス値を示し、d
v1は前記第1時刻に対応する手部皮膚領域平均デプス値を示し、d
e2は前記第2時刻に対応する手部皮膚領域における各画素に対応するデプス値を示し、d
v2は前記第2時刻に対応する手部皮膚領域平均デプス値を示し、Nは手部皮膚画素点の個数を示す。
【0012】
さらに、前記中心距離、前記傾斜率、前記第2時刻に対応する手部皮膚領域平均デプス値及び前記第1時刻に対応する手部皮膚領域平均デプス値に基づき、ジェスチャー運動方向及びその対応する方向における運動量の大きさを判定することは、
dが閾値thr1以下である場合に、uvz座標系において手部の水平方向の運動がないと判定することと、
dが前記閾値thr1よりも大きく、且つpcx1=pcx2である場合に、前記uvz座標系において手部がv方向にのみ向って運動し、運動量yv=pcy2-pcy1であると判定することと、
dが前記閾値thr1よりも大きく、且つpcy1=pcy2である場合に、前記uvz座標系において手部がu方向にのみ向かって運動し、運動量xv=pcx2-pcx1であると判定することと、
dが前記閾値thr1よりも大きく、且つpcx1≠pcx2、pcy1≠pcy2である場合に、前記uvz座標系において手部の、u方向に沿う運動の運動成分xv=pcx2-pcx1であり、v方向に沿う運動の運動成分yv=pcy2-pcy1であり、uv平面に沿う運動方向が傾斜率方向kであると判定することと、を含み、
前記uvz座標系において手部のz方向に沿う運動の運動成分zv=dv2-dv1である。
【0013】
本発明の別の目的は、二次元平面上の移動方向しか判定できず、計算過程が複雑であって、ジェスチャー認識のリアルタイム性が低いという従来技術に既存の問題を解決するための動的ジェスチャー認識装置を提供することである。
【0014】
本発明は、動的ジェスチャー認識装置を提供し、当該装置が、
トレーニング済みの手部検出深層学習モデルにより、対象画像に対する手部対象検出を行うことによって、手部領域における最小外接矩形の図形情報を取得するための検出モジュールと、
第2時刻に対応する最小外接矩形の図形情報と第1時刻に対応する最小外接矩形の図形情報とに基づき、前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を計算するための第1計算モジュールであって、前記第1時刻と前記第2時刻が隣り合う時刻である第1計算モジュールと、
皮膚検出アルゴリズムにより、前記対象画像から手部皮膚領域を選出し、手部皮膚領域とデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値をそれぞれ、算出するための第2計算モジュールと、
前記中心距離、前記傾斜率、前記第2時刻に対応する手部皮膚領域平均デプス値及び前記第1時刻に対応する手部皮膚領域平均デプス値に基づき、ジェスチャー運動方向及びその対応する方向における運動量の大きさを判定するための判定モジュールと、を備える。
【0015】
本発明が提供する動的ジェスチャー認識装置では、皮膚検出アルゴリズムにより、デプスマップに結び付けて、隣り合う2つの時刻における手部皮膚領域平均デプス値を取得することによって、手部の運動方向及びその運動量の大きさを立体空間から判定することができ、ジェスチャーの運動を定性・定量で分析することが可能となる。本発明では、第1時刻及び第2時刻に対応する最小外接矩形間の中心距離、傾斜率、および、隣り合う2つの時刻における手部皮膚領域平均デプス値によって、ジェスチャーの判断を行うので、計算過程がより簡単なもので、リアルタイム性がより高いものである。
【0016】
また、本発明における上記動的ジェスチャー認識装置に基づき、以下の付加的な構成要件が含まれてもよい。
【0017】
さらに、前記検出モジュールは、
RGBカメラによって撮影された手部を含むRGB画像を取得し、
前記RGB画像をトレーニング済みの前記手部検出深層学習モデルに入力して、手部対象検出を行い、
前記手部対象検出の検出結果から、手部領域における最小外接矩形の図形情報を取得し、前記図形情報は、最小外接矩形の左上隅頂点の座標、矩形の幅および高さを含む。
【0018】
さらに、前記第1計算モジュールは、前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を次式により計算し、
【数3】
ただし、(p
x1,p
y1)は前記第1時刻に対応する最小外接矩形の左上隅頂点の座標を示し、w
1、h
1はそれぞれ、前記第1時刻に対応する最小外接矩形の幅と高さを示し、(p
cx1,p
cy1)は前記第1時刻に対応する最小外接矩形の中心点の座標を示し、(p
x2,p
y2)は前記第2時刻に対応する最小外接矩形の左上隅頂点の座標を示し、w
2、h
2はそれぞれ、前記第2時刻に対応する最小外接矩形の幅と高さを示し、(p
cx2,p
cy2)は前記第2時刻に対応する最小外接矩形の中心点の座標を示し、dは前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離を示し、kは前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の傾斜率を示す。
【0019】
さらに、前記第2計算モジュールは、
前記RGB画像をYCrCb空間に変換し、楕円皮膚検出アルゴリズムにより、最小外接矩形内の皮膚を検出して、前記対象画像から手部皮膚領域を選出し、
手部皮膚領域とこれに対応するデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値を次式により計算し、
【数4】
ただし、d
e1は前記第1時刻に対応する手部皮膚領域における各画素に対応するデプス値を示し、d
v1は前記第1時刻に対応する手部皮膚領域平均デプス値を示し、d
e2は前記第2時刻に対応する手部皮膚領域における各画素に対応するデプス値を示し、d
v2は前記第2時刻に対応する手部皮膚領域平均デプス値を示し、Nは手部皮膚画素点の個数を示す。
【0020】
さらに、前記判定モジュールは、
dが閾値thr1以下である場合に、uvz座標系において手部の水平方向の運動がないと判定し、
dが前記閾値thr1よりも大きく、且つpcx1=pcx2である場合に、前記uvz座標系において手部がv方向にのみ向って運動し、運動量yv=pcy2-pcy1であると判定し、
dが前記閾値thr1よりも大きく、且つpcy1=pcy2である場合に、前記uvz座標系において手部がu方向にのみ向かって運動し、運動量xv=pcx2-pcx1であると判定し、
dが前記閾値thr1よりも大きく、且つpcx1≠pcx2、pcy1≠pcy2である場合に、前記uvz座標系において手部の、u方向に沿う運動の運動成分xv=pcx2-pcx1であり、v方向に沿う運動の運動成分yv=pcy2-pcy1であり、uv平面に沿う運動方向が傾斜率方向kであると判定し、
前記uvz座標系において手部のz方向に沿う運動の運動成分zv=dv2-dv1である。
【0021】
本発明は、コンピュータプログラムが記憶された可読記憶媒体をさらに提案し、当該プログラムは、プロセッサによって実行されると、上記方法におけるステップが実現される。
【0022】
本発明は、メモリと、プロセッサと、メモリに記憶されるとともにプロセッサにて実行されるコンピュータプログラムと、を含むコンピュータ機器をさらに提案し、前記プロセッサによって前記コンピュータプログラムが実行されると、上記方法におけるステップが実現される。
【0023】
本発明による付加的な態様及び利点は、以下の説明により開示され、その一部が以下の説明により明らかなものになったり、本発明の実施例から理解されるようになったりすることができる。
【図面の簡単な説明】
【0024】
本発明の実施例における上記及び/又は付加的な態様及び利点は、以下のように、添付図面を参照しながら実施例を説明することによって、明らかなものになり、理解されやすいものになる。
【
図1】本発明の一実施例にかかる動的ジェスチャー認識方法のフローチャートである。
【
図2】
図1中のステップS101の詳細フローチャートである。
【
図3】本発明の別の実施例にかかる動的ジェスチャー認識装置の構造ブロック図である。
【発明を実施するための形態】
【0025】
本発明の実施例における目的、技術案および利点をより明瞭なものにするために、以下は、本発明の実施例における添付図面に結び付けて、本発明の実施例における技術案を明瞭かつ完全に説明する。明らかなことに、説明される実施例は、本発明の実施例の一部に過ぎず、全ての実施例ではない。本発明の実施例を基にして、当業者が創造的な労力を払わないという前提の下に得られる全ての他の実施例は、いずれも、本発明の保護範囲内の事項に該当する。
【0026】
図1を参照して、本発明の一実施例で提案されている動的ジェスチャー認識方法では、以下のステップS101~S104を含む。
【0027】
S101:トレーニング済みの手部検出深層学習モデルにより、対象画像に対する手部対象検出を行うことによって、手部領域における最小外接矩形の図形情報を取得すること。
【0028】
ここで、
図2を参照して、ステップS101は、
S1011:RGBカメラによって撮影された手部を含むRGB画像を取得することと、
S1012:前記RGB画像をトレーニング済みの前記手部検出深層学習モデルに入力して、手部対象検出を行うことと、
S1013:前記手部対象検出の検出結果から、手部領域における最小外接矩形の図形情報を取得することと、を含み、
前記図形情報は、最小外接矩形の左上隅頂点の座標、矩形の幅および高さを含む。
【0029】
ここで、最小外接矩形の左上隅頂点の座標は(Px,Py)で示され、矩形の幅と高さはそれぞれ、wとhで示され、単位がpixとされてもよい。
【0030】
S102:第2時刻に対応する最小外接矩形の図形情報と第1時刻に対応する最小外接矩形の図形情報とに基づき、前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を計算することであって、前記第1時刻と前記第2時刻が隣り合う時刻であること。
【0031】
ただし、例えば、第2時刻をt時刻とし、第1時刻をt-1時刻とすると、第1時刻が第2時刻よりも1つ前の時刻であってもよい。
【0032】
ここで、次式により前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を計算する。
【数5】
ただし、(p
x1,p
y1)は前記第1時刻に対応する最小外接矩形の左上隅頂点の座標を示し、w
1、h
1はそれぞれ、前記第1時刻に対応する最小外接矩形の幅と高さを示し、単位をpixとし、(p
cx1,p
cy1)は前記第1時刻に対応する最小外接矩形の中心点の座標を示し、(p
x2,p
y2)は前記第2時刻に対応する最小外接矩形の左上隅頂点の座標を示し、w
2、h
2はそれぞれ、前記第2時刻に対応する最小外接矩形の幅と高さを示し、単位をpixとし、(p
cx2,p
cy2)は前記第2時刻に対応する最小外接矩形の中心点の座標を示し、dは前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離を示し、単位をpixとし、kは前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の傾斜率を示す。
【0033】
S103:皮膚検出アルゴリズムにより、前記対象画像から手部皮膚領域を選出し、手部皮膚領域とデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値をそれぞれ、算出すること。
【0034】
ここで、前記RGB画像をYCrCb空間に変換し、楕円皮膚検出アルゴリズムにより、最小外接矩形内の皮膚を検出して、前記対象画像から手部皮膚領域を選出する。
【0035】
手部皮膚領域とこれに対応するデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値を次式により計算する。
【数6】
ただし、d
e1は前記第1時刻に対応する手部皮膚領域における各画素に対応するデプス値を示し、単位をmmとし、d
v1は前記第1時刻に対応する手部皮膚領域平均デプス値を示し、単位をmmとし、d
e2は前記第2時刻に対応する手部皮膚領域における各画素に対応するデプス値を示し、単位をmmとし、d
v2は前記第2時刻に対応する手部皮膚領域平均デプス値を示し、単位をmmとし、Nは手部皮膚画素点の個数を示す。
【0036】
S104:前記中心距離、前記傾斜率、前記第2時刻に対応する手部皮膚領域平均デプス値及び前記第1時刻に対応する手部皮膚領域平均デプス値に基づき、ジェスチャー運動方向及びその対応する方向における運動量の大きさを判定すること。
【0037】
具体的に、dが閾値thr1以下である場合に、uvz座標系において手部の水平方向(即ち、uvz座標系におけるuv方向)の運動がないと判定し、
dが前記閾値thr1よりも大きく、且つpcx1=pcx2である場合に、前記uvz座標系において手部がv方向にのみ向かって運動し、運動量yv=pcy2-pcy1(単位:pix)であると判定し、減算した結果の正負が運動方向を示し、
dが前記閾値thr1よりも大きく、且つpcy1=pcy2である場合に、前記uvz座標系において手部がu方向にのみ向かって運動し、運動量xv=pcx2-pcx1(単位:pix)であると判定し、減算した結果の正負が運動方向を示し、
dが前記閾値thr1よりも大きく、且つpcx1≠pcx2、pcy1≠pcy2である場合に、前記uvz座標系において手部の、u方向に沿う運動の運動成分xv=pcx2-pcx1(単位:pix)であり、v方向に沿う運動の運動成分yv=pcy2-pcy1(単位:pix)であり、uv平面に沿う運動方向が傾斜率方向kであると判定し、
ここで、前記uvz座標系において手部のz方向に沿う運動の運動成分zv=dv2-dv1(単位:mm)である。zvが閾値thr2以下のものであれば、z方向における運動がないことが示されるが、zvが閾値thr2よりも大きいものであれば、運動成分がdv2-dv1で求められ、減算した結果の正負がz軸方向における手部の運動方向を示す。
【0038】
以上により、本実施例が提供する動的ジェスチャー認識方法では、皮膚検出アルゴリズムにより、デプスマップに結び付けて、隣り合う2つの時刻における手部皮膚領域平均デプス値を取得することによって、手部の運動方向及びその運動量の大きさを立体空間から判定することができ、ジェスチャーの運動を定性・定量で分析することが可能となる。本発明では、第1時刻及び第2時刻に対応する最小外接矩形間の中心距離、傾斜率、および、隣り合う2つの時刻における手部皮膚領域平均デプス値によって、ジェスチャーの判断を行うので、計算過程がより簡単なもので、リアルタイム性がより高いものである。
【0039】
図3を参照して、本発明の別の実施例で提案されている動的ジェスチャー認識装置は、
トレーニング済みの手部検出深層学習モデルにより、対象画像に対する手部対象検出を行うことによって、手部領域における最小外接矩形の図形情報を取得するための検出モジュールと、
第2時刻に対応する最小外接矩形の図形情報と第1時刻に対応する最小外接矩形の図形情報とに基づき、前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を計算するための第1計算モジュールであって、前記第1時刻と前記第2時刻が隣り合う時刻である第1計算モジュールと、
皮膚検出アルゴリズムにより、前記対象画像から手部皮膚領域を選出し、手部皮膚領域とデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値をそれぞれ、算出するための第2計算モジュールと、
前記中心距離、前記傾斜率、前記第2時刻に対応する手部皮膚領域平均デプス値及び前記第1時刻に対応する手部皮膚領域平均デプス値に基づき、ジェスチャー運動方向及びその対応する方向における運動量の大きさを判定するための判定モジュールと、を備える。
【0040】
本実施例では、前記検出モジュールは、
RGBカメラによって撮影された手部を含むRGB画像を取得し、
前記RGB画像をトレーニング済みの前記手部検出深層学習モデルに入力して、手部対象検出を行い、
前記手部対象検出の検出結果から、手部領域における最小外接矩形の図形情報を取得し、前記図形情報は、最小外接矩形の左上隅頂点の座標、矩形の幅および高さを含む。
【0041】
本実施例では、前記第1計算モジュールは、前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離及び傾斜率を次式により計算し、
【数7】
ただし、(p
x1,p
y1)は前記第1時刻に対応する最小外接矩形の左上隅頂点の座標を示し、w
1、h
1はそれぞれ、前記第1時刻に対応する最小外接矩形の幅と高さを示し、(p
cx1,p
cy1)は前記第1時刻に対応する最小外接矩形の中心点の座標を示し、(p
x2,p
y2)は前記第2時刻に対応する最小外接矩形の左上隅頂点の座標を示し、w
2、h
2はそれぞれ、前記第2時刻に対応する最小外接矩形の幅と高さを示し、(p
cx2,p
cy2)は前記第2時刻に対応する最小外接矩形の中心点の座標を示し、dは前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の中心距離を示し、kは前記第2時刻に対応する最小外接矩形と前記第1時刻に対応する最小外接矩形の間の傾斜率を示す。
【0042】
本実施例では、前記第2計算モジュールは、
前記RGB画像をYCrCb空間に変換し、楕円皮膚検出アルゴリズムにより、最小外接矩形内の皮膚を検出して、前記対象画像から手部皮膚領域を選出し、
手部皮膚領域とこれに対応するデプスマップとを結び付けて、前記第2時刻に対応する手部皮膚領域平均デプス値と前記第1時刻に対応する手部皮膚領域平均デプス値を次式により計算する。
【数8】
ただし、d
e1は前記第1時刻に対応する手部皮膚領域における各画素に対応するデプス値を示し、d
v1は前記第1時刻に対応する手部皮膚領域平均デプス値を示し、d
e2は前記第2時刻に対応する手部皮膚領域における各画素に対応するデプス値を示し、d
v2は前記第2時刻に対応する手部皮膚領域平均デプス値を示し、Nは手部皮膚画素点の個数を示す。
【0043】
本実施例では、前記判定モジュールは、
dが閾値thr1以下である場合に、uvz座標系において手部の水平方向の運動がないと判定し、
dが前記閾値thr1よりも大きく、且つpcx1=pcx2である場合に、前記uvz座標系において手部がv方向にのみ向かって運動し、運動量yv=pcy2-pcy1であると判定し、
dが前記閾値thr1よりも大きく、且つpcy1=pcy2である場合に、前記uvz座標系において手部がu方向に向かって運動し、運動量xv=pcx2-pcx1であると判定し、
dが前記閾値thr1よりも大きく、pcx1≠pcx2、pcy1≠pcy2となれば、前記uvz座標系における手部の、u方向に沿う運動の運動成分xv=pcx2-pcx1であり、v方向に沿う運動の運動成分yv=pcy2-pcy1であり、uv平面に沿う運動方向が傾斜率方向kであると判定し、
ここで、前記uvz座標系における手部のz方向に沿う運動の運動成分zv=dv2-dv1である。
【0044】
本実施例が提供する動的ジェスチャー認識装置では、皮膚検出アルゴリズムにより、デプスマップに結び付けて、隣り合う2つの時刻における手部皮膚領域平均デプス値を取得することによって、手部の運動方向及びその運動量の大きさを立体空間から判定することができ、ジェスチャーの運動を定性・定量で分析することが可能となる。本発明では、第1時刻及び第2時刻に対応する最小外接矩形間の中心距離、傾斜率、および、隣り合う2つの時刻における手部皮膚領域平均デプス値によって、ジェスチャーの判断を行うので、計算過程がより簡単なもので、リアルタイム性がより高いものである。
【0045】
また、本発明の実施例は、コンピュータプログラムが記憶された可読記憶媒体をさらに提案し、当該プログラムは、プロセッサによって実行されると、上記方法におけるステップが実現される。
【0046】
また、本発明の実施例は、メモリと、プロセッサと、メモリに記憶されるとともにプロセッサにて実行されるコンピュータプログラムと、を含むコンピュータ機器をさらに提案し、前記プロセッサによって前記コンピュータプログラムが実行されると、上記方法におけるステップが実現される。
【0047】
フローチャートに示され又は本明細書に他の態様で説明されるロジック及び/又はステップは、例えば、ロジック機能を実現するための実行可能なコマンドのシーケンス図として考えられてもよく、任意のコンピュータ可読媒体において具現化されたことで、コマンド実行システム、装置又は機器(例えば、コンピュータに基づくシステム、プロセッサを含むシステム、又は、コマンド実行システム、装置または機器からコマンドを取得して実行することができる他のシステム)に使用されるように供され、又は、それらのコマンド実行システム、装置または機器と組み合わせて使用されてもよい。本明細書において、「コンピュータ可読媒体」は、コマンド実行システム、装置または機器に使用されるように供され、又は、それらのコマンド実行システム、装置または機器と組み合わせて使用されるためのプログラムを含み、記憶し、通信し、伝播または伝送することができる任意の装置であってもよい。
【0048】
コンピュータ可読媒体は、より具体的な例示(網羅的なリスト)として、1つ以上の配線を有する電気接続部(電子装置)、ポータブルコンピュータディスク(磁気装置)、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラマブル読取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ装置、および、ポータブルコンパクトディスク読取専用メモリ(CDROM)が挙げられる。また、コンピュータ可読媒体は、ひいては、前記プログラムがその上に印刷されることができる用紙又は他の適切な媒体であってもよい。なぜかというと、例えば、用紙または他の媒体を光学スキャンすることによって、編集や解釈を引き続き行うことができ、又は、必要に応じて、他の適切な方式による処理を行って前記プログラムを電子方式で取得してから、コンピュータメモリに記憶させてもよいからである。
【0049】
理解すべきなのは、本発明の各部分は、ハードウェア、ソフトウェア、ファームウェアまたはそれらの組合せによって実現されてもよい。上記実施形態では、複数のステップまたは方法は、メモリに記憶されるとともに適切なコマンド実行システムによって実行されるソフトウェア又はファームウェアによって実現されてもよい。例えば、ハードウェアによって実現された場合は、他の実施形態と同様に、データ信号に対してロジック機能を発揮するための論理ゲート回路を備えた離散論理回路、適切な論理ゲート回路の組合せを備えた特定用途向け集積回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などといった、当分野において公知された技術のうちの1つまたはそれらの組合せによって実現されてもよい。
【0050】
本明細書における説明では、参照用語である「1つの実施例」、「いくつかの実施例」、「例示」、「具体的な例示」、又は、「幾つかの例示」などの表現は、当該実施例または例示に結び付けて説明される具体的な構成要件、構造、材料または特徴が本発明の少なくとも1つの実施例または例示に含まれたことを示すためのものである。本明細書において、上記用語に対する例示的な表現は、必ずしも同一の実施例または例示を指すものであるとは限らない。しかも、説明される具体的な構成要件、構造、材料または特徴は、任意の1つまたは複数の実施例または例示で、適切な方式により組み合わせられてもよい。
【0051】
本発明の実施例は、説明して記載されているが、当業者であれば、本発明の原理及び趣旨から逸脱しない限り、それらの実施例に対して種々の変化、補正、差し替え、及び変形を行うことができ、本発明の範囲が請求項及びその均等物によって限定されると理解できるはずである。
【国際調査報告】