特許第5916880号(P5916880)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アルカテル−ルーセントの特許一覧

特許5916880ジェスチャを認識するための方法およびジェスチャ検出器
<>
  • 特許5916880-ジェスチャを認識するための方法およびジェスチャ検出器 図000002
  • 特許5916880-ジェスチャを認識するための方法およびジェスチャ検出器 図000003
  • 特許5916880-ジェスチャを認識するための方法およびジェスチャ検出器 図000004
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5916880
(24)【登録日】2016年4月15日
(45)【発行日】2016年5月11日
(54)【発明の名称】ジェスチャを認識するための方法およびジェスチャ検出器
(51)【国際特許分類】
   H04N 7/15 20060101AFI20160422BHJP
   G06T 7/20 20060101ALI20160422BHJP
   G06T 7/00 20060101ALI20160422BHJP
   G06F 3/01 20060101ALI20160422BHJP
【FI】
   H04N7/15 630Z
   G06T7/20 300A
   G06T7/00 100C
   G06F3/01 570
【請求項の数】13
【全頁数】15
(21)【出願番号】特願2014-545168(P2014-545168)
(86)(22)【出願日】2012年11月26日
(65)【公表番号】特表2015-507391(P2015-507391A)
(43)【公表日】2015年3月5日
(86)【国際出願番号】EP2012073604
(87)【国際公開番号】WO2013083423
(87)【国際公開日】20130613
【審査請求日】2014年7月28日
(31)【優先権主張番号】11290561.7
(32)【優先日】2011年12月5日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】391030332
【氏名又は名称】アルカテル−ルーセント
(74)【代理人】
【識別番号】100094112
【弁理士】
【氏名又は名称】岡部 讓
(74)【代理人】
【識別番号】100106183
【弁理士】
【氏名又は名称】吉澤 弘司
(74)【代理人】
【識別番号】100170601
【弁理士】
【氏名又は名称】川崎 孝
(72)【発明者】
【氏名】ファガダール−コスマ,ミハイ
(72)【発明者】
【氏名】ファディリ,ムーレイ
【審査官】 堀 洋介
(56)【参考文献】
【文献】 特表2010−541398(JP,A)
【文献】 特表2010−534895(JP,A)
【文献】 特開2004−185555(JP,A)
【文献】 米国特許出願公開第2008/0019589(US,A1)
【文献】 米国特許出願公開第2011/0299774(US,A1)
【文献】 米国特許出願公開第2010/0329509(US,A1)
【文献】 米国特許出願公開第2009/0324008(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/15
G06F 3/01
G06T 7/00
G06T 7/20
(57)【特許請求の範囲】
【請求項1】
会議状況などにおいて使用するために二次元ビデオ・ストリーム(3)内でジェスチャを認識するための方法であって、
皮膚部分(13)を認識するために前記ビデオ・ストリーム(3)の画面(4)内で皮膚認識を実行するステップと、
前記認識された皮膚部分(13)内の少なくとも顔及び手(19、20)を識別するステップと、
前記顔及び前記手の中心位置を識別するステップと、
前記顔の前記中心位置に対する角度位置によって少なくとも1つの画面エリア(23)を定義するステップと、
前記少なくとも1つの画面エリア(23)の状態を監視するステップと、
前記少なくとも1つの画面エリア(23)内に手が入ったことを検出したとき、検出されたジェスチャを示す制御信号を供給するステップと
を含む
方法。
【請求項2】
前記ビデオ・ストリーム(3)の各ビデオ・フレーム(4)についてのすべての方法ステップを実行するように適合されていることを特徴とする、請求項1に記載の方法。
【請求項3】
前記少なくとも1つの画面エリア(23)の状態を監視する前記ステップは、手(20)を監視するステップを含む
ことを特徴とする、請求項に記載の方法。
【請求項4】
前記認識された皮膚部分(13)内の少なくとも顔及び手(19、20)を識別する前記ステップは、最大のサイズを有する前記皮膚部分(13)を顔(19)として識別するステップを含むことを特徴とする、請求項1に記載の方法。
【請求項5】
前記認識された皮膚部分(13)内の少なくとも顔及び手(19、20)を識別する前記ステップは、第2の最大のサイズを有する前記皮膚部分(13)を手(20)として識別するステップを含むことを特徴とする、請求項1に記載の方法。
【請求項6】
前記認識された皮膚部分(13)内の少なくとも顔及び手(19、20)を識別する前記ステップは、黄金比のメトリクスを適用するステップを含むことを特徴とする、請求項1に記載の方法。
【請求項7】
前記少なくとも1つの画面エリア(23)内に手が入ったことを検出したとき、検出されたジェスチャを示す制御信号を供給する前記ステップは、所定の持続時間の間、該手を追跡するステップを含むことを特徴とする、請求項1に記載の方法。
【請求項8】
前記少なくとも1つの画面エリア(23)内に手が入ったことを検出するステップは、該手が予想された方向に移動しており、且つ前記少なくとも1つの画面エリア(23)から所定の持続時間以上の間消失しない限り、該手を追跡するステップを含むことを特徴とする、請求項1に記載の方法。
【請求項9】
前記少なくとも1つの画面エリア(23)の状態を監視する前記ステップは、前記少なくとも1つの画面エリア(23)内の前記(20)のジェスチャを監視するステップを含み、該ジェスチャは該手を挙げること又は下げることから構成されることを特徴とする、請求項1に記載の方法。
【請求項10】
ビデオ・ストリーム(3)を受信するための入力(6)と、
検出されたジェスチャを示す制御信号を供給するように適合された信号出力(8)と
を備えジェスチャ検出器(5)であって、
皮膚部分(13)を認識するために前記ビデオ・ストリーム(3)の画面(4)内で皮膚認識を実行するステップと、
前記認識された皮膚部分(13)内の少なくとも顔及び手(19、20)を識別するステップと、
前記顔及び前記手の中心位置を識別するステップと、
前記顔の前記中心位置に対する角度位置によって少なくとも1つの画面エリア(23)を定義するステップと、
前記少なくとも1つの画面エリア(23)の状態を監視するステップと、
前記少なくとも1つの画面エリア(23)内に手が入ったことを検出したとき、検出されたジェスチャを示す制御信号を供給するステップと、
を実行するように構成されている、
ジェスチャ検出器(5)
【請求項11】
ビデオ・ストリーム(3)を生成するためのビデオ・カメラ(2)と、
プレゼンテーションを実行するためのプレゼンテーション・デバイス(11)であって、前記プレゼンテーションを制御するための制御信号を受信するように適合された信号入力(10)を備えるプレゼンテーション・デバイス(11)と、
ジェスチャ検出器(5)と
を備え、前記ジェスチャ検出器(5)の入力(6)は、前記ビデオ・カメラ(2)によって生成される前記ビデオ・ストリーム(3)に接続され、また前記ジェスチャ検出器(5)の信号出力(8)は、前記プレゼンテーション・デバイス(11)の前記信号入力(10)に接続され、
前記プレゼンテーション・デバイス(11)は、前記ジェスチャ検出器(5)から制御信号を受信したとき、前記プレゼンテーションを制御するように構成されており、
前記ジェスチャ検出器(5)は、
皮膚部分(13)を認識するために前記ビデオ・ストリーム(3)の画面(4)内で皮膚認識を実行するステップと、
前記認識された皮膚部分(13)内の少なくとも顔及び手(19、20)を識別するステップと、
前記顔及び前記手の中心位置を識別するステップと、
前記顔の前記中心位置に対する角度位置によって少なくとも1つの画面エリア(23)を定義するステップと、
前記少なくとも1つの画面エリア(23)の状態を監視するステップと、
前記少なくとも1つの画面エリア(23)内に手が入ったことを検出したとき、検出されたジェスチャを示す制御信号を供給するステップと、
を実行するように構成されている、プレゼンテーション・システム(1)。
【請求項12】
前記ビデオ・カメラ(2)は、ネットワーク接続(7)を経由して前記ジェスチャ検出器(5)に接続される、請求項11に記載のプレゼンテーション・システム(1)。
【請求項13】
ビデオ・カメラ(2)と、ジェスチャ検出器(5)とを備えるビデオ・カメラ・デバイス(24)であって、
前記ジェスチャ検出器(5)が、
皮膚部分(13)を認識するために前記ビデオ・ストリーム(3)の画面(4)内で皮膚認識を実行するステップと、
前記認識された皮膚部分(13)内の少なくとも顔及び手(19、20)を識別するステップと、
前記顔及び前記手の中心位置を識別するステップと、
前記顔の前記中心位置に対する角度位置によって少なくとも1つの画面エリア(23)を定義するステップと、
前記少なくとも1つの画面エリア(23)の状態を監視するステップと、
前記少なくとも1つの画面エリア(23)内に手が入ったことを検出したとき、検出されたジェスチャを示す制御信号を供給するステップと、
を実行するように構成されている、ビデオ・カメラ・デバイス(24)
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会議状況などにおいて使用するために二次元ビデオ・ストリーム内でジェスチャを認識するための方法に関する。本発明は、さらに、ビデオ・ストリームを受信するための入力と、検出されたジェスチャを示す制御信号を供給するように適合された信号出力とを備えるジェスチャ検出器に関し、それによってジェスチャ検出器は、上記の方法を実行するように適合されている。本発明はまた、ビデオ・ストリームを生成するためのビデオ・カメラと、プレゼンテーションを制御するための制御信号を受信するように適合された信号入力を含むプレゼンテーションを実行するためのプレゼンテーション・デバイスと、上記のジェスチャ検出器とを備えるプレゼンテーション・システムに関し、それによってジェスチャ検出器の入力は、ビデオ・カメラによって生成されるビデオ・ストリームに接続され、ジェスチャ検出器の信号出力は、プレゼンテーション・デバイスの信号入力に接続され、またプレゼンテーション・デバイスは、ジェスチャ検出器から制御信号を受信したときプレゼンテーションを制御するように適合されている。最後に、本発明は、ビデオ・カメラと、上記のジェスチャ検出器とを備えるビデオ・カメラ・デバイスに関する。
【背景技術】
【0002】
ジェスチャの検出により、ユーザは、キーボード、トラックボール、ゲーム・コントローラなど特定の入力デバイスを使用する必要なしに、単純な、さらには自然な人間のジェスチャに基づいてITシステム、例えば、デスクトップ・コンピュータ、ノートブック、PDA、スマートフォン、ゲーム・コンソールなどを動作させることができるので、ジェスチャ検出は、今日の世界でますます重要になりつつある。そのような入力デバイスは、ユーザが特定の入力デバイスの必要に自身の振る舞いを適応させることを必要とし、そのような必要は、入力デバイスごとに異なる可能性さえある。ジェスチャを認識するための方法とジェスチャ検出器は、当技術分野において既に知られているが、ジェスチャ認識は、例外的な場合に、まれに適用されるだけである。ジェスチャ検出を実行するための特定のハードウェア要件と大きな計算量は、ジェスチャ制御が広く適用される妨げとなっている。
【0003】
ジェスチャを検出するための1つのそのようなシステムは、立体カメラと、マイクロフォン・ハードウェア・アクセサリとに基づいており、この立体カメラと、マイクロフォン・ハードウェア・アクセサリとは、特にジェスチャ検出のために設計されている。この技法は、例えば、マイクロソフトXボックス360ゲーム・コンソールと一緒に使用するためのKinectとしてエンド・ユーザに知られている。一般に、ユーザは、例えば、拡張された現実環境の制御のために、ジェスチャを用いて上記のハードウェアを使用してITシステムを制御することができる。この問題解決手法の欠点は、専用のハードウェアに対するその依存性であり、これは、任意のITシステムに対してジェスチャ認識を適用することを困難にしている。また、Kinect技術は、よく定義された環境を必要としており、この環境においては、ユーザは、ジェスチャがKinectシステムによって認識されることになることを保証することができる。さらに、Kinectシステムのキャリブレーションが、各ユーザに必要とされる。Kinectシステムの別の欠点は、ジェスチャを認識するための計算量が、非常に大きいことであり、これは、低い計算性能を有するITシステムの上でジェスチャ認識を使用することを不可能にしており、この低い計算性能を有するITシステムは、一般に、モバイル・デバイスに当てはまる。例えば、ビデオ会議状況においては、例えば、ビデオ会議に参加するためのパブリック・アクセス手段を使用して公共の場の中でオフィスの外にいる参加者は、適切なハードウェアがないことと、公共環境がジェスチャ認識に適さないこととにより、ジェスチャ認識から排除される。同じことが、プレゼンテーション・デバイスを制御するプレゼンテーション・システムにおけるジェスチャ検出の使用の場合にも当てはまる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
したがって、標準的なハードウェア・コンポーネントとともに使用され得る、低計算量で、強力で信頼できるジェスチャ検出を可能にする、ジェスチャを認識するための方法と、ジェスチャ検出器とを提供することが、本発明の一目的である。さらに、使用することが簡単な、低計算量で、強力で信頼できるジェスチャ検出が可能な、またコスト効率のよい、ジェスチャ検出のためのビデオ・カメラ・システムを提供することが、本発明の一目的である。最後に、人間のジェスチャによって簡単に制御され得る、ハードウェア要件から独立した、また低計算量で、強力で信頼できるジェスチャ検出を可能にするプレゼンテーション・システムを提供することが、本発明の一目的である。
【課題を解決するための手段】
【0005】
この目的は、独立請求項によって達成される。有利な実施形態は、従属請求項において与えられる。
【0006】
とりわけ、本発明は、会議状況などにおいて使用するために二次元ビデオ・ストリーム内でジェスチャを認識するための方法であって、皮膚部分を認識するためにビデオ・ストリームの画面内で皮膚認識を実行するステップと、認識された皮膚部分内の少なくとも1つの身体部分を識別するステップと、少なくとも1つの身体部分に関して少なくとも1つの所定の画面エリアの状態を監視するステップと、状態の変化を検出したとき、検出されたジェスチャを示す制御信号を供給するステップとを含む方法を提供する。
【0007】
本発明は、さらに、ビデオ・ストリームを受信するための入力と、検出されたジェスチャを示す制御信号を供給するように適合された信号出力とを備えるジェスチャ検出器を提供しており、それによってジェスチャ検出器は、上記の方法を実行するように適合されている。
【0008】
基本的なアイデアは、状態機械に基づいてジェスチャ検出を実行することであり、その結果、少なくとも1つの身体部分の状態は、所定の画面エリアと比較して監視される可能性がある。状態機械は、簡単に実施される可能性があり、またジェスチャを認識するために低い計算量だけを必要とする。ジェスチャ認識は、状態機械に基づいており、すなわち、ジェスチャの認識は、現在の状態により、またビデオ・フレームの現在のシーンにおける皮膚部分と、身体部分との認識によって決定される。
【0009】
シーンは、これに関して、ビデオ・ストリームの瞬間的なビデオ情報のことを意味する。シーンは、ビデオ・ストリームのフレームに基づいていることが好ましい。シーンの履歴または以前のシーンの特定のデータは、必要とされず、またそれゆえに、本発明のジェスチャ検出のためには考慮されない。
【0010】
身体部分の検出は、以前の皮膚認識に基づいている。皮膚認識は、一般的に、ビデオ・ストリームのシーン内の、ある種の色を有しているある種のエリアの検出に基づいている。基本的には、ビデオ・ストリームのフレームの中の各ピクセルの色は、RGB、YUV、HSVなど、特定のカラー・スペースにおいて規定される1組の規則と比較される。数学的には、各規則は、カラー・スペースを素の領域に分割する平面を規定する。すべての平面の交差によってカラー・スペースにおいて決定される体積は、皮膚の色に対応する。
【0011】
HSVカラー・スペースと、RGBカラー・スペースとの上で規定される規則の混合は、皮膚認識のために適用されることが好ましい。RGBカラー・スペースにおける[R, G, B]と、HSVカラー・スペースにおけるそれぞれ[H, S, V]とを用いて示されるベクトルとしてピクセルの色を表現することにより、以下の複合規則、すなわち、
(R − G > 29)and(R − B > 29)and(H < 27)and(S >= 0.188)
を使用して、ピクセルを皮膚としてラベル付けする。
【0012】
皮膚認識は、以下のように機能する。上記の規則は、フレームの中の各ピクセルに対して適用され、皮膚の場合に真(true)を返し、そうでない場合に偽(false)を返す。次に、入力フレームと同じサイズの2進数皮膚マスクは、皮膚ピクセルの場合に値1で充てんされ、非皮膚ピクセルの場合に値0で充てんされる。それに応じて、皮膚画像とも称される、2進数皮膚マスクは、認識された皮膚部分を含んでいる。
【0013】
皮膚認識は、会議状況などにおいては、簡単に行われる可能性があり、この会議状況は、ある種の前提条件を仮定している。そのような会議状況などにおいては、ある人の上部胴体だけが、目に見え、また1人の人間の身体の皮膚部分が、実質的に同じ平面の中に位置していることが、仮定される。さらに、会議状況などは、通常、例えば、ニュースの話し手のスタイルで、カメラの前に座っており、またカメラに向かっている人によって規定される。これは、特にプレゼンテーションを行っている人のことを意味しており、それによってビデオ・カメラは、この人に焦点を当てる。
【0014】
また、人の上部胴体の可視性は、人の顔および/または手が、目に見えることを意味しているので、会議状況などにおける身体部分の識別は、かなり簡単である。ある種の服装規定が、保持されるときには特に、ある人の身体と腕とが、覆われており、顔と手とが、識別されるままにされることが仮定される可能性がある。会議状況などに関して与えられる仮定が多くなればなるほど、認識された皮膚部分内の身体部分の識別は、より簡単になる。
【0015】
制御信号は、上記の方法と、ジェスチャ検出器とによる認識のために適切な任意の種類のジェスチャを、例えば、手を挙げることのような簡単なジェスチャ、または組み合わされたジェスチャ、例えば、右手と左手とを挙げることを示すことができる。例えば、手を挙げたジェスチャは、手を挙げること、すなわち、所定の画面エリア内に手を置くことにより、識別され、この所定の画面エリアは、この場合には、画面エリアの上部部分に位置している。さらなるジェスチャは、二重に挙げられた手として、すなわち、手を挙げ、所定のストリーム・エリアの外に手を下げ、また手を再び挙げることとして規定される可能性がある。また、異なる身体部分に関する異なる画面エリアの状態の変化は、単一のジェスチャとして、例えば、右手と左手とを挙げることとして組み合わされる可能性もある。
【0016】
ジェスチャ検出器は、ビデオ・ストリームのソースとは独立に、実質的に任意の場所に位置することができる。ビデオ・ストリームについての入力は、ビデオ入力、例えば、アナログ・ビデオ入力またはデジタル・ビデオ入力とすることができ、あるいはIPネットワーク、例えば、LANコネクタを経由したビデオ・ストリームの伝送のための任意の種類のデータ入力とすることができる。ジェスチャ検出器は、内部処理ユニットを用いて、または処理手段の使用の下で、上記の方法を実行し、これらは、ジェスチャ検出器の外側に位置している。それに応じて、ジェスチャの検出は、ジェスチャ検出器の外側に位置する1つまたは複数の処理ユニットを有するクラウド・コンピューティングを用いて実行される可能性さえもある。
【0017】
本発明は、さらに、ビデオ・カメラと、上記のジェスチャ検出器とを備えるビデオ・カメラ・デバイスを提供している。
【0018】
ビデオ・カメラは、上記の方法と、ジェスチャ検出器とに従ってビデオ・ストリームを供給する。ビデオ・カメラ・デバイスは、単一の装置として提供される可能性があり、またはビデオ・カメラに対応する1つの独立した装置と、ジェスチャ検出器に対応する1つの独立した装置とを備えている。ビデオ・カメラと、ジェスチャ検出器とは、ネットワーク接続、例えば、有線LAN接続またはワイヤレスLAN接続、あるいは任意の種類の適切なビデオ接続を用いて接続される。ビデオ・カメラ・デバイスのジェスチャ検出器は、ジェスチャ検出器に関して上記で説明されるようなクラウド・サービスを使用することができることが好ましい。クラウド・サービスの使用は、非常に簡単な、また安価なジェスチャ検出器のプロビジョニングを可能にする。
【0019】
本発明はまた、ビデオ・ストリームを生成するためのビデオ・カメラと、プレゼンテーションを実行するためのプレゼンテーション・デバイスとを備えるプレゼンテーション・システムを提供しており、それによって、プレゼンテーション・デバイスは、プレゼンテーションを制御するための制御信号を受信するように適合された信号入力と、上記のジェスチャ検出器とを備えており、それによって、ジェスチャ検出器の入力は、ビデオ・カメラによって生成されるビデオ・ストリームに接続され、またジェスチャ検出器の信号出力は、プレゼンテーション・デバイスの信号入力に接続され、それによって、プレゼンテーション・デバイスは、ジェスチャ検出器から制御信号を受信したときプレゼンテーションを制御するように適合されている。
【0020】
プレゼンテーション・システムでは、プレゼンテーション・デバイスは、任意の場所に位置することができる。信号入力は、例えば、ネットワーク入力であり、このネットワーク入力は、ジェスチャ検出器のネットワーク出力と接続される。それに応じて、プレゼンテーション・システムのすべてのコンポーネントは、互いに離れて位置することができる。プレゼンテーション・デバイスは、例えば、ジェスチャ検出器から制御信号を受信するローカル・コンピュータ、またはコンピュータ・ネットワークとともに設置されるセントラル・サーバとすることができる。プレゼンテーション・デバイスは、クラウド・サービスによって提供されるある種の仮想デバイスとすることさえできる。ビデオ・カメラ・デバイスは、ネットワーク接続を経由してジェスチャ検出器に接続されることが好ましい。プレゼンテーション・システムは、ビデオ会議システムの一部分であることが好ましい。ビデオ・カメラは、それゆえに、プレゼンテーション・システム、ならびにビデオ会議システムの一部分である。ジェスチャ検出器は、ビデオ・カメラからビデオ会議の他の参加者のディスプレイ・デバイスへのビデオ・ストリームの移送経路に沿った任意の場所に位置することができる。プレゼンテーション・デバイスは、上記で指定されるように、ビデオ会議システムの任意の種類のサーバと一体的になどの任意の場所に提供される可能性がある。
【0021】
好ましい一実施形態によれば、本方法は、ビデオ・ストリームの各ビデオ・フレームにすべての方法ステップを実行するように適合されている。ビデオ・ストリームの簡単な処理は、皮膚認識を実行して、身体部分を識別し、また各フレームに、身体部分に関して所定の画面エリアを監視することを可能にする。それに応じて、ジェスチャ検出の精度は、増大される可能性がある。
【0022】
好ましい一実施形態は、1つの身体部分の位置に関して所定の画面エリアを事前に定義するステップを含んでいる。これは、画面に関して異なる尺度および/または異なる位置を有する異なるユーザに対して本方法を簡単に適応させることを可能にしており、その結果、ジェスチャの検出は、すべての位置におけるすべてのこれらのユーザについて等しく信頼できるものである。さらに、検出された皮膚部分の相対的位置は、例えば、画面の下部の右および左のエリアに位置している手という前提の下に、異なる身体部分を識別するために使用されることもある。所定の画面エリアは、絶えず適合されており、その結果、ユーザが、画面内で移動するときに、ジェスチャは、確実に検出される可能性があることが、好ましい。例えば、背の高いユーザから、背の低いユーザへのユーザの変更さえも、可能であり、それによって、両方のユーザについて、ジェスチャ認識は、確実に実行される可能性がある。一例として、所定の画面エリアは、手の位置に関して、事前に定義されることもある。それに応じて、手の相対的動作は、ジェスチャとして検出される可能性がある。異なる実施形態においては、所定の画面エリアは、画面の固定されたエリアであり、これは、ビデオ・ストリームの非常に効率の高い処理を可能にする。
【0023】
修正された一実施形態においては、所定の画面エリアを事前に定義するステップは、顔の位置に関して画面エリアを事前に定義するステップを含み、また少なくとも1つの身体部分に関して少なくとも1つの所定の画面エリアの状態を監視するステップは、手を監視するステップを含む。顔は、通常、画面内の最も大きい皮膚部分であることにより特徴づけられており、これは、検出をかなり簡単にする。さらに、顔は、画面内で頻繁には動かない。対照的に、手は、例えば、公に知られているジェスチャを行うこと、外形を示すこと、または方向を指し示すことにより、スピーチをサポートするために、頻繁に使用され、また動かされる。比較的一定の位置により、顔は、ジェスチャを定義するための適切な基準である。また、頭に関連した手の動作の範囲は、腕によって制限され、またそれゆえに簡単に検出可能である。頭に関連したそれぞれの身体部分の角度位置は、状態を識別するために監視されることが、好ましい。
【0024】
好ましい一実施形態においては、認識された皮膚部分内の少なくとも1つの身体部分を識別するステップは、人間の顔に属するような最大のサイズを有する皮膚部分を識別するステップを含む。追加して、または代わりに、現在使用可能な顔検出器、例えば、HAAR特徴分類器(feature classifier)もまた、顔の認識のために使用されることもある。
【0025】
好ましい一実施形態においては、認識された皮膚部分内の少なくとも1つの身体部分を識別するステップは、人間の手に属するような第2の最大のサイズを有する皮膚部分を識別するステップを含む。会議状況などにおいては特に、身体部分のそのような識別は、画面の中の使用可能な身体部分の数が限られているので、信頼性の高いものである。背景の人々は、存在する場合、通常、画面の上で妥当なより小さなサイズを有することになり、その結果、彼らは、ジェスチャ認識については確実に切り捨てられる可能性がある。手は、顔に対するその位置に基づいて、右手または左手として識別されることが好ましい。それに応じて、顔の右側にある手は、右手として識別されるのに対して、顔の左側にある手は、左手として識別される。顔の同じ側に位置する両方の手でさえ、顔からのそれらの異なる距離により確実に認識される可能性がある。それゆえに、右手と左手との認識は、高い信頼性で実行される可能性がある。
【0026】
修正された一実施形態においては、認識された皮膚部分内の少なくとも1つの身体部分を識別するステップは、黄金比のメトリクスを適用するステップを含んでいる。黄金比は、人間の身体部分の、とりわけ人間の顔の幅と高さとの間の特定の関係を規定しており、この関係は、ほとんどどのような顔に対しても普遍的に適用可能である。それに応じて、黄金比に従う寸法を有する皮膚部分は、身体部分として簡単に識別される可能性がある。
【0027】
好ましい一実施形態においては、少なくとも1つの身体部分に関して少なくとも1つの所定の画面エリアの状態を監視するステップは、少なくとも1つの身体部分の中心位置を監視するステップを含んでいる。中心位置は、当技術分野において、オブジェクトの「質量中心」を見出すことを対象とするものと一般に称される様々なアルゴリズムのうちのどれかによって評価することができる。身体部分の中心の識別は、所定のエリアと、識別された身体部分との監視を容易にする。中心位置に基づいて、身体部分が、所定の画面エリアに入っているかどうかを監視することは、かなり簡単でもある。皮膚部分の周囲の追加の境界ボックスが、使用され、これが、画面内の皮膚部分の推定を提供することが、好ましい。詳細な画面情報が、さらなる処理のために必要とされないので、これは、さらに、ジェスチャ検出を容易にする。
【0028】
好ましい一実施形態においては、状態の変化を検出したとき、検出されたジェスチャを示す制御信号を供給するステップは、所定の時間にわたっての状態の変化を識別するステップを含んでいる。それに応じて、平均化が、実行され、この平均化は、状態のより信頼できる検出と、それゆえに、ジェスチャのより信頼できる検出とを可能にする。身体部分の成功した皮膚認識および/または識別を妨害する可能性を持ち、また永続的ではないビデオのエラーおよびノイズは、それゆえに、ジェスチャの検出の信頼性を低減させることはないであろう。所定の持続時間は、特定の要件に従って、例えば、認識されるべきジェスチャの種類、フレーム・レート、またはある人の個別の動作に応じて、指定される可能性がある。
【0029】
好ましい一実施形態においては、少なくとも1つの身体部分に関して少なくとも1つの所定の画面エリアの状態を監視するステップは、少なくとも1つの所定の画面エリア内の少なくとも1つの身体部分の動作状態を監視するステップを含んでいる。動作状態とともに、スイープする(sweeping)ジェスチャまたはスワイプする(swiping)ジェスチャとも称される動作によって定義されるジェスチャは、簡単に検出される可能性がある。動作状態は、それぞれの身体部分の動作の表示として規定される可能性がある。動作状態は、位置を監視することを含み、これは、動きの方向を導き出すことを可能にすることが、好ましい。それに応じて、スワイプされたジェスチャの方向もまた、検出される可能性がある。動作状態は、角速度として監視されることが、より好ましいことさえある。
【0030】
好ましい一実施形態においては、ジェスチャ検出器は、少なくとも1つの身体部分に関して、少なくとも1つの所定の画面エリアの各状態を監視するための1つのインスタンスを備える。各インスタンスは、独立して状態を監視し、これは、多種多様な可能性のあるジェスチャが、認識されることを可能にする。所定の画面エリアと、身体部分とは、各インスタンスについて独立に監視され、すなわち、所定の画面エリア内の身体部分の検出は、例えば、右腕が、左腕に加えて、または左腕なしに独立に、挙げられるときに、異なるジェスチャを検出するために、使用され得ることが、好ましい。
【0031】
本発明による、装置および/または方法のいくつかの実施形態は、次に、例だけとして、また添付図面を参照して説明される。
【図面の簡単な説明】
【0032】
図1】例示の一実施形態による、プレゼンテーション・システムの概略図である。
図2】例示の一実施形態による、手挙げのジェスチャを検出するための方法を示すビデオ・フレームの概略図である。
図3】例示の一実施形態による、スワイプ・アウト・ジェスチャとしての手の動作を検出するための方法を示すビデオ・フレームの概略図である。
【発明を実施するための形態】
【0033】
図1は、例示の一実施形態によるプレゼンテーション・システム1を示すものである。プレゼンテーション・システムは、ビデオ・カメラ2を備えており、このビデオ・カメラ2は、複数の個別のビデオ・フレーム4を含むビデオ・ストリーム3を生成し、それによって、ビデオ・フレーム4は、本発明による画面のことを意味する。異なるビデオ・フレーム4は、図2および3に示される。
【0034】
プレゼンテーション・システム1は、ジェスチャ検出器5をさらに備えており、それによって、ジェスチャ検出器5の入力6は、LAN接続7を経由してビデオ・カメラ2によって生成されるビデオ・ストリーム3に接続される。ジェスチャ検出器5は、信号出力8をさらに備えており、この信号出力は、さらなるLAN接続9を経由してプレゼンテーション・システム1のプレゼンテーション・デバイス11の信号入力10に接続される。プレゼンテーション・デバイス11は、ジェスチャ検出器5から制御信号を受信したとき、プレゼンテーションを実行するように、またプレゼンテーションを制御するように適合されている。
【0035】
ジェスチャ検出器5は、皮膚セグメンテーション・ユニット12を備えており、この皮膚セグメンテーション・ユニットは、皮膚部分13を認識するために、ビデオ・ストリーム3内の皮膚認識を実行するように適合されており、これらは、図2および3に示されている。皮膚セグメンテーション・ユニット12内の皮膚認識は、ある種の色を有するフレーム4のある種のエリアの検出に基づいており、この色は、皮膚に関連づけられる。皮膚セグメンテーション・ユニット12は、皮膚画像14を出力として供給し、この皮膚画像は、ビデオ・フレーム4内の皮膚部分13の識別情報を含んでいる。
【0036】
この実施形態においては、皮膚認識は、ビデオ・フレーム4内のある種の色を有するある種のエリアの検出に基づいている。基本的には、ビデオ・ストリームのビデオ・フレーム4の中の各ピクセルの色は、RGB、YUVまたはHSVなど、特定のカラー・スペースにおいて規定される1組の規則と比較される。数学的に、各規則は、カラー・スペースを素の領域に分割する平面を規定する。すべての平面の交差によるカラー・スペースにおいて決定される体積は、皮膚の色に対応する。
【0037】
HSVカラー・スペースと、RGBカラー・スペースとの上で規定される規則の混合は、この実施形態における皮膚認識のために適用される。RGBカラー・スペースにおける[R, G, B]と、HSVカラー・スペースにおけるそれぞれ[H, S, V]とを用いて示されるベクトルとしてピクセルの色を表現することにより、以下の複合規則、すなわち、
(R − G > 29)and(R − B > 29)and(H < 27)and(S >= 0.188)
を使用して、ピクセルを皮膚としてラベル付けする。
【0038】
皮膚認識は、以下のように機能する。上記の規則は、ビデオ・フレーム4の中の各ピクセルに対して適用され、皮膚の場合に真を返し、そうでない場合に偽を返す。次に、2進数ファイルとしてのビデオ・フレーム4と同じサイズの皮膚画像14は、皮膚ピクセルの場合に値1で充てんされ、非皮膚ピクセルの場合に値0で充てんされる。それに応じて、皮膚画像14は、認識された皮膚部分13を含んでいる。
【0039】
シーン・オブジェクトSOとも称される、識別された各皮膚部分13では、CMとも称されるその質量中心15は、皮膚としてラベル付けされているすべてのオブジェクト・ピクセルから中心位置として計算される。質量中心15は、画像座標の対<X, Y>であり、またフレーム4の中の異なる皮膚部分13の間の相対的な位置と角度とを算出するために使用される。さらに、各皮膚部分13は、BBとも称される関連する境界ボックス15を受信し、この境界ボックスは、その左端皮膚ピクセル座標と、右端皮膚ピクセル座標と、最上部皮膚ピクセル座標と、最下部皮膚ピクセル座標とによって識別され、また<左、最上部、右、最下部>の4個組として表現される。
【0040】
ジェスチャ検出器5は、シーン・オブジェクト識別ユニット17をさらに備えており、このシーン・オブジェクト識別ユニットは、皮膚画像14を入力として受信する。シーン・オブジェクト識別ユニット17は、皮膚画像14内の皮膚部分13の中から身体部分19、20を識別するように適合されている。シーン・オブジェクト識別ユニット17は、最初に、最大のサイズを有する皮膚部分13を顔19として識別することにより、シーン・オブジェクト(SO)とも称される身体部分19、20の基本的な識別を実行する。第2の最大のサイズを有する認識された皮膚部分13は、手20として識別される。詳細には、顔19の左側に位置する手20は、左手として識別されるのに対して、顔19の右側に位置する手20は、右手として識別される。
【0041】
さらに、シーン・オブジェクト識別ユニット17は、認識された皮膚部分13に対して黄金比のメトリクスを適用する第2の識別ステップを実行する。それに応じて、身体部分19、20として識別される皮膚部分13の幅と高さとが黄金比を満たすかどうかについての実現可能性チェックが、実行される。シーン・オブジェクト識別ユニット17は、識別された身体部分19、20を有する身体画像21を出力として供給し、それによって各身体部分19、20は、皮膚画像14内の皮膚部分13の表現に従って表現される。
【0042】
ジェスチャ検出器5は、GDIとも称される3つのジェスチャ検出器インスタンス22の組をさらに備えており、これらのジェスチャ検出器インスタンスは、1つの身体部分19、20に関して1つの所定の画面エリア23の状態を監視するように適合されている。所定の画面エリア23は、図2および3に示されるように、角度位置によって頭19に関する各場合において規定される。ジェスチャ検出器インスタンス22は、それぞれ、手20に関して1つの所定の画面エリア23の状態を監視する。
【0043】
その入力において身体画像21を受信するとすぐに、各ジェスチャ検出器インスタンス22は、HSOとも称される頭19の位置と、LHSOとも称される左手20、またはRHSOとも称される右手20の対応する位置との間の相対的な角度と位置とを算出する。ジェスチャ検出器インスタンス22のそれぞれは、このデータに対して1組の時空間規則を適用し、これは、相対的な位置が、評価され、またこの位置の変化が、時間にわたって監視されて、その現在内状態をアップデートすることを意味している。ジェスチャ検出器インスタンス22の現在内状態が、成功した検出を示すときに、ジェスチャ・イベントが、そのジェスチャ検出器インスタンス22によって取り上げられ、また特定のジェスチャの検出を示すそれぞれの制御信号は、ジェスチャ検出器5の信号出力8に供給される。
【0044】
次に、手挙げのジェスチャの検出が、詳細に説明される。HRGDとも称される、手挙げのジェスチャを検出するためのジェスチャ検出器インスタンス22は、2状態機械の周囲に構築される。アイドル(IDLE)状態においては、HRGDは、以下で指定されるように、条件(1)、すなわち、
(1) (CMSO.Y > BBHSO.BOTTOM)and(α < αmin
式中で、
SO = LHSOまたはRHSO
α = arctg(abs(CMSO.Y − CMHSO.Y)/abs(CMSO.X − CMHSO.X))
αmin = 特定用途向けしきい値(例えば、30度)
X = X座標
Y = Y座標
BOTTOM = 最下部皮膚ピクセル座標
を求めて現在の身体画像21を検索し、この条件(1)は、手挙げのジェスチャについての制御信号をトリガする。
【0045】
条件(1)が、有効になり、手20が、所定の画面エリア23に入っていることを意味しているときに、HRGDは、アクティブ(ACTIVE)状態に入る。アクティブ状態は、条件(1)が、有効に留まっている限り、維持される。条件(1)が、手20が所定の画面エリア23を離れることにより、無効になるときに、HRGDは、手下げのジェスチャを取り上げ、またアイドル状態に逆戻りする。
【0046】
別のジェスチャ検出器インスタンス20は、状態についての後続の変化を識別したとき、識別されたジェスチャについての制御信号を供給するように適合されている。それぞれのジェスチャ検出器インスタンス22によって監視されるジェスチャは、手20を挙げること、および下げることから構成される。このジェスチャは、上記で説明されるように、最初の手挙げのジェスチャと、後続の手下げのジェスチャとを検出するとすぐに、検出される。それに応じて、所定のエリア23内にない手20から所定のエリア23内にある手20への、さらに所定のエリア23内にない手20への状態の変化は、それぞれのジェスチャをトリガする。
【0047】
次に、スワイプ・ジェスチャの、すなわち、動作の検出に基づいたジェスチャの検出が、詳細に説明される。SWGDとも称される、スワイプ・ジェスチャを検出するためのジェスチャ検出器インスタンス22は、内部3状態機械を有している。SWGDは、外側余白部からフレーム4の中心に向かう手20の動作によって引き起こされるスワイプ・インの発生、またはフレーム4の中心からその外側余白部に向かう手20の動作によって引き起こされるスワイプ・アウトの発生のいずれかを検出することができる。結果として、ジェスチャ検出器5は、動作の1つの方向と一緒に1つの手20の可能性のある組合せごとに1つの、会議参加者当たりに4つまでのSWGDを含むことができる。
【0048】
SWGDによって検出されるスワイプ・アウトの場合が、以下で説明される。検出器は、アイドル状態でスタートし、開始条件(2)、すなわち、
(2) (CMSO.Y < BBHSO.BOTTOM)and(β <= βmin
式中で、
SO = LHSOまたはRHSO
β = arctg(abs(CMSO.X − CMHSO.X)/abs(CMSO.Y − CMHSO.Y))
βmin = 特定用途向けしきい値(例えば、5度)
X = X座標
Y = Y座標
BOTTOM = 最下部皮膚ピクセル座標
が満たされるときまで、アイドル状態を維持する。
【0049】
この条件が満たされるときに、SWGDは、追跡(TRACKING)状態に変化する。この状態は、手20が、最大の手から頭への角度しきい値βmaxに到達することなく、期待された方向に移動し、またその追跡が、特定用途向けの値Tmaxよりも長い時間間隔にわたって失われない限り、維持される。例えば、手SOが、シーンから姿を消す場合に起こることになるように、追跡が失われる場合、SWGDは、アイドル状態に逆戻りし、また制御信号は、生成されない。追跡が、例えば、ビデオ・エラーにより、一時的に失われる場合、その失われることが、所定の持続時間、例えば、約10フレームよりも短い場合には、SWGDは、追跡を継続する。
【0050】
追跡が、失われることなしに行われる場合、アクティブ化条件(3)、すなわち、
(3) (CMSO.Y < BBHSO.BOTTOM)and(β => βmax
式中で、
SO = LHSOまたはRHSO
β = arctg(abs(CMSO.X − CMHSO.X)/abs(CMSO.Y − CMHSO.Y))
βmax = 特定用途向けしきい値(例えば、45度)
X = X座標
Y = Y座標
BOTTOM = 最下部皮膚ピクセル座標
が、満たされる瞬間に、SWGDは、アクティブ(ACTIVE)状態に入り、このアクティブ状態においては、スワイプ・ジェスチャについての制御信号が、生成される。制御信号は、手20と、動作の方向とを示すパラメータを含んでいる。
【0051】
制御信号の生成に続いて、SWGDは、すぐにアイドル状態に逆戻りし、また新しい検出サイクルを開始する。
【0052】
スワイプ・インの場合は、手20の期待された動作が逆方向に行われるので、開始条件(2)と、アクティブ化条件(3)とが、入れ替えられることを除いて、非常に類似している。
【0053】
上記の方法は、ビデオ・ストリーム3のビデオ・フレーム4ごとにすべてのステップを実行するために、ジェスチャ検出器5において実施される。それゆえに、皮膚認識と、身体部分19、20の識別とは、ビデオ・フレーム4ごとに実行され、また状態変化が、監視される。状態変化を検出したとき、検出されたジェスチャについての制御信号は、取り上げられる。ジェスチャ検出器5は、各フレーム4の後に状態変化を監視するために実施される。
【0054】
この例示の実施形態においては、ジェスチャ検出器5は、ビデオ・カメラ2とは離して提供される。特に、ジェスチャ検出器5は、ビデオ・ストリーム3を処理し、また制御信号を供給するためのいわゆるクラウドの中に位置している。
【0055】
この例示の実施形態においては、プレゼンテーション・システム1は、ビデオ会議システムの一部分を形成しており、このビデオ会議システムの一部分は、図面においてはさらに示されてはいない。それに応じて、ビデオ・カメラ2によって供給されるビデオ・ストリーム3は、さらに、ビデオ会議システムのサーバに対して供給され、このビデオ会議システムのサーバもまた、図面においては示されていない。ビデオ・ストリーム3は、ビデオ会議サーバによってさらなる参加者に対して供給される。ビデオ会議サーバは、さらに、ビデオ・ストリーム3をすべてのユーザに対して逆に供給するように適合されている。
【0056】
例示の一実施形態によるビデオ・カメラ・デバイス24は、上記で説明されるように、ビデオ・カメラ2と、ジェスチャ検出器5との組合せとして提供される。ビデオ・カメラ・デバイス24は、独立したコンポーネントを形成しており、この独立したコンポーネントは、任意の種類のデバイスに対して制御信号を供給するために使用される可能性がある。同様に、ジェスチャ検出器5もまた、任意の使用可能なビデオ・カメラ2と、制御信号によって制御されるべき任意の種類のデバイスとを有する組合せのために独立して使用される可能性がある。
【0057】
本発明は、他の特定の装置および/または方法の形で実施される可能性がある。説明された実施形態は、すべての点において、例示的であるにすぎないように、また限定的でないように考えられるべきである。とりわけ、本発明の範囲は、本明細書における説明および図面によってではなくて、添付の特許請求の範囲によって示される。特許請求の範囲の均等物の意味および範囲内に含まれるすべての変更は、それらの範囲内に包含されるべきである。
図1
図2
図3