【課題を解決するための手段】
【0005】
この目的は、独立請求項によって達成される。有利な実施形態は、従属請求項において与えられる。
【0006】
とりわけ、本発明は、会議状況などにおいて使用するために二次元ビデオ・ストリーム内でジェスチャを認識するための方法であって、皮膚部分を認識するためにビデオ・ストリームの画面内で皮膚認識を実行するステップと、認識された皮膚部分内の少なくとも1つの身体部分を識別するステップと、少なくとも1つの身体部分に関して少なくとも1つの所定の画面エリアの状態を監視するステップと、状態の変化を検出したとき、検出されたジェスチャを示す制御信号を供給するステップとを含む方法を提供する。
【0007】
本発明は、さらに、ビデオ・ストリームを受信するための入力と、検出されたジェスチャを示す制御信号を供給するように適合された信号出力とを備えるジェスチャ検出器を提供しており、それによってジェスチャ検出器は、上記の方法を実行するように適合されている。
【0008】
基本的なアイデアは、状態機械に基づいてジェスチャ検出を実行することであり、その結果、少なくとも1つの身体部分の状態は、所定の画面エリアと比較して監視される可能性がある。状態機械は、簡単に実施される可能性があり、またジェスチャを認識するために低い計算量だけを必要とする。ジェスチャ認識は、状態機械に基づいており、すなわち、ジェスチャの認識は、現在の状態により、またビデオ・フレームの現在のシーンにおける皮膚部分と、身体部分との認識によって決定される。
【0009】
シーンは、これに関して、ビデオ・ストリームの瞬間的なビデオ情報のことを意味する。シーンは、ビデオ・ストリームのフレームに基づいていることが好ましい。シーンの履歴または以前のシーンの特定のデータは、必要とされず、またそれゆえに、本発明のジェスチャ検出のためには考慮されない。
【0010】
身体部分の検出は、以前の皮膚認識に基づいている。皮膚認識は、一般的に、ビデオ・ストリームのシーン内の、ある種の色を有しているある種のエリアの検出に基づいている。基本的には、ビデオ・ストリームのフレームの中の各ピクセルの色は、RGB、YUV、HSVなど、特定のカラー・スペースにおいて規定される1組の規則と比較される。数学的には、各規則は、カラー・スペースを素の領域に分割する平面を規定する。すべての平面の交差によってカラー・スペースにおいて決定される体積は、皮膚の色に対応する。
【0011】
HSVカラー・スペースと、RGBカラー・スペースとの上で規定される規則の混合は、皮膚認識のために適用されることが好ましい。RGBカラー・スペースにおける[R, G, B]と、HSVカラー・スペースにおけるそれぞれ[H, S, V]とを用いて示されるベクトルとしてピクセルの色を表現することにより、以下の複合規則、すなわち、
(R − G > 29)and(R − B > 29)and(H < 27)and(S >= 0.188)
を使用して、ピクセルを皮膚としてラベル付けする。
【0012】
皮膚認識は、以下のように機能する。上記の規則は、フレームの中の各ピクセルに対して適用され、皮膚の場合に真(true)を返し、そうでない場合に偽(false)を返す。次に、入力フレームと同じサイズの2進数皮膚マスクは、皮膚ピクセルの場合に値1で充てんされ、非皮膚ピクセルの場合に値0で充てんされる。それに応じて、皮膚画像とも称される、2進数皮膚マスクは、認識された皮膚部分を含んでいる。
【0013】
皮膚認識は、会議状況などにおいては、簡単に行われる可能性があり、この会議状況は、ある種の前提条件を仮定している。そのような会議状況などにおいては、ある人の上部胴体だけが、目に見え、また1人の人間の身体の皮膚部分が、実質的に同じ平面の中に位置していることが、仮定される。さらに、会議状況などは、通常、例えば、ニュースの話し手のスタイルで、カメラの前に座っており、またカメラに向かっている人によって規定される。これは、特にプレゼンテーションを行っている人のことを意味しており、それによってビデオ・カメラは、この人に焦点を当てる。
【0014】
また、人の上部胴体の可視性は、人の顔および/または手が、目に見えることを意味しているので、会議状況などにおける身体部分の識別は、かなり簡単である。ある種の服装規定が、保持されるときには特に、ある人の身体と腕とが、覆われており、顔と手とが、識別されるままにされることが仮定される可能性がある。会議状況などに関して与えられる仮定が多くなればなるほど、認識された皮膚部分内の身体部分の識別は、より簡単になる。
【0015】
制御信号は、上記の方法と、ジェスチャ検出器とによる認識のために適切な任意の種類のジェスチャを、例えば、手を挙げることのような簡単なジェスチャ、または組み合わされたジェスチャ、例えば、右手と左手とを挙げることを示すことができる。例えば、手を挙げたジェスチャは、手を挙げること、すなわち、所定の画面エリア内に手を置くことにより、識別され、この所定の画面エリアは、この場合には、画面エリアの上部部分に位置している。さらなるジェスチャは、二重に挙げられた手として、すなわち、手を挙げ、所定のストリーム・エリアの外に手を下げ、また手を再び挙げることとして規定される可能性がある。また、異なる身体部分に関する異なる画面エリアの状態の変化は、単一のジェスチャとして、例えば、右手と左手とを挙げることとして組み合わされる可能性もある。
【0016】
ジェスチャ検出器は、ビデオ・ストリームのソースとは独立に、実質的に任意の場所に位置することができる。ビデオ・ストリームについての入力は、ビデオ入力、例えば、アナログ・ビデオ入力またはデジタル・ビデオ入力とすることができ、あるいはIPネットワーク、例えば、LANコネクタを経由したビデオ・ストリームの伝送のための任意の種類のデータ入力とすることができる。ジェスチャ検出器は、内部処理ユニットを用いて、または処理手段の使用の下で、上記の方法を実行し、これらは、ジェスチャ検出器の外側に位置している。それに応じて、ジェスチャの検出は、ジェスチャ検出器の外側に位置する1つまたは複数の処理ユニットを有するクラウド・コンピューティングを用いて実行される可能性さえもある。
【0017】
本発明は、さらに、ビデオ・カメラと、上記のジェスチャ検出器とを備えるビデオ・カメラ・デバイスを提供している。
【0018】
ビデオ・カメラは、上記の方法と、ジェスチャ検出器とに従ってビデオ・ストリームを供給する。ビデオ・カメラ・デバイスは、単一の装置として提供される可能性があり、またはビデオ・カメラに対応する1つの独立した装置と、ジェスチャ検出器に対応する1つの独立した装置とを備えている。ビデオ・カメラと、ジェスチャ検出器とは、ネットワーク接続、例えば、有線LAN接続またはワイヤレスLAN接続、あるいは任意の種類の適切なビデオ接続を用いて接続される。ビデオ・カメラ・デバイスのジェスチャ検出器は、ジェスチャ検出器に関して上記で説明されるようなクラウド・サービスを使用することができることが好ましい。クラウド・サービスの使用は、非常に簡単な、また安価なジェスチャ検出器のプロビジョニングを可能にする。
【0019】
本発明はまた、ビデオ・ストリームを生成するためのビデオ・カメラと、プレゼンテーションを実行するためのプレゼンテーション・デバイスとを備えるプレゼンテーション・システムを提供しており、それによって、プレゼンテーション・デバイスは、プレゼンテーションを制御するための制御信号を受信するように適合された信号入力と、上記のジェスチャ検出器とを備えており、それによって、ジェスチャ検出器の入力は、ビデオ・カメラによって生成されるビデオ・ストリームに接続され、またジェスチャ検出器の信号出力は、プレゼンテーション・デバイスの信号入力に接続され、それによって、プレゼンテーション・デバイスは、ジェスチャ検出器から制御信号を受信したときプレゼンテーションを制御するように適合されている。
【0020】
プレゼンテーション・システムでは、プレゼンテーション・デバイスは、任意の場所に位置することができる。信号入力は、例えば、ネットワーク入力であり、このネットワーク入力は、ジェスチャ検出器のネットワーク出力と接続される。それに応じて、プレゼンテーション・システムのすべてのコンポーネントは、互いに離れて位置することができる。プレゼンテーション・デバイスは、例えば、ジェスチャ検出器から制御信号を受信するローカル・コンピュータ、またはコンピュータ・ネットワークとともに設置されるセントラル・サーバとすることができる。プレゼンテーション・デバイスは、クラウド・サービスによって提供されるある種の仮想デバイスとすることさえできる。ビデオ・カメラ・デバイスは、ネットワーク接続を経由してジェスチャ検出器に接続されることが好ましい。プレゼンテーション・システムは、ビデオ会議システムの一部分であることが好ましい。ビデオ・カメラは、それゆえに、プレゼンテーション・システム、ならびにビデオ会議システムの一部分である。ジェスチャ検出器は、ビデオ・カメラからビデオ会議の他の参加者のディスプレイ・デバイスへのビデオ・ストリームの移送経路に沿った任意の場所に位置することができる。プレゼンテーション・デバイスは、上記で指定されるように、ビデオ会議システムの任意の種類のサーバと一体的になどの任意の場所に提供される可能性がある。
【0021】
好ましい一実施形態によれば、本方法は、ビデオ・ストリームの各ビデオ・フレームにすべての方法ステップを実行するように適合されている。ビデオ・ストリームの簡単な処理は、皮膚認識を実行して、身体部分を識別し、また各フレームに、身体部分に関して所定の画面エリアを監視することを可能にする。それに応じて、ジェスチャ検出の精度は、増大される可能性がある。
【0022】
好ましい一実施形態は、1つの身体部分の位置に関して所定の画面エリアを事前に定義するステップを含んでいる。これは、画面に関して異なる尺度および/または異なる位置を有する異なるユーザに対して本方法を簡単に適応させることを可能にしており、その結果、ジェスチャの検出は、すべての位置におけるすべてのこれらのユーザについて等しく信頼できるものである。さらに、検出された皮膚部分の相対的位置は、例えば、画面の下部の右および左のエリアに位置している手という前提の下に、異なる身体部分を識別するために使用されることもある。所定の画面エリアは、絶えず適合されており、その結果、ユーザが、画面内で移動するときに、ジェスチャは、確実に検出される可能性があることが、好ましい。例えば、背の高いユーザから、背の低いユーザへのユーザの変更さえも、可能であり、それによって、両方のユーザについて、ジェスチャ認識は、確実に実行される可能性がある。一例として、所定の画面エリアは、手の位置に関して、事前に定義されることもある。それに応じて、手の相対的動作は、ジェスチャとして検出される可能性がある。異なる実施形態においては、所定の画面エリアは、画面の固定されたエリアであり、これは、ビデオ・ストリームの非常に効率の高い処理を可能にする。
【0023】
修正された一実施形態においては、所定の画面エリアを事前に定義するステップは、顔の位置に関して画面エリアを事前に定義するステップを含み、また少なくとも1つの身体部分に関して少なくとも1つの所定の画面エリアの状態を監視するステップは、手を監視するステップを含む。顔は、通常、画面内の最も大きい皮膚部分であることにより特徴づけられており、これは、検出をかなり簡単にする。さらに、顔は、画面内で頻繁には動かない。対照的に、手は、例えば、公に知られているジェスチャを行うこと、外形を示すこと、または方向を指し示すことにより、スピーチをサポートするために、頻繁に使用され、また動かされる。比較的一定の位置により、顔は、ジェスチャを定義するための適切な基準である。また、頭に関連した手の動作の範囲は、腕によって制限され、またそれゆえに簡単に検出可能である。頭に関連したそれぞれの身体部分の角度位置は、状態を識別するために監視されることが、好ましい。
【0024】
好ましい一実施形態においては、認識された皮膚部分内の少なくとも1つの身体部分を識別するステップは、人間の顔に属するような最大のサイズを有する皮膚部分を識別するステップを含む。追加して、または代わりに、現在使用可能な顔検出器、例えば、HAAR特徴分類器(feature classifier)もまた、顔の認識のために使用されることもある。
【0025】
好ましい一実施形態においては、認識された皮膚部分内の少なくとも1つの身体部分を識別するステップは、人間の手に属するような第2の最大のサイズを有する皮膚部分を識別するステップを含む。会議状況などにおいては特に、身体部分のそのような識別は、画面の中の使用可能な身体部分の数が限られているので、信頼性の高いものである。背景の人々は、存在する場合、通常、画面の上で妥当なより小さなサイズを有することになり、その結果、彼らは、ジェスチャ認識については確実に切り捨てられる可能性がある。手は、顔に対するその位置に基づいて、右手または左手として識別されることが好ましい。それに応じて、顔の右側にある手は、右手として識別されるのに対して、顔の左側にある手は、左手として識別される。顔の同じ側に位置する両方の手でさえ、顔からのそれらの異なる距離により確実に認識される可能性がある。それゆえに、右手と左手との認識は、高い信頼性で実行される可能性がある。
【0026】
修正された一実施形態においては、認識された皮膚部分内の少なくとも1つの身体部分を識別するステップは、黄金比のメトリクスを適用するステップを含んでいる。黄金比は、人間の身体部分の、とりわけ人間の顔の幅と高さとの間の特定の関係を規定しており、この関係は、ほとんどどのような顔に対しても普遍的に適用可能である。それに応じて、黄金比に従う寸法を有する皮膚部分は、身体部分として簡単に識別される可能性がある。
【0027】
好ましい一実施形態においては、少なくとも1つの身体部分に関して少なくとも1つの所定の画面エリアの状態を監視するステップは、少なくとも1つの身体部分の中心位置を監視するステップを含んでいる。中心位置は、当技術分野において、オブジェクトの「質量中心」を見出すことを対象とするものと一般に称される様々なアルゴリズムのうちのどれかによって評価することができる。身体部分の中心の識別は、所定のエリアと、識別された身体部分との監視を容易にする。中心位置に基づいて、身体部分が、所定の画面エリアに入っているかどうかを監視することは、かなり簡単でもある。皮膚部分の周囲の追加の境界ボックスが、使用され、これが、画面内の皮膚部分の推定を提供することが、好ましい。詳細な画面情報が、さらなる処理のために必要とされないので、これは、さらに、ジェスチャ検出を容易にする。
【0028】
好ましい一実施形態においては、状態の変化を検出したとき、検出されたジェスチャを示す制御信号を供給するステップは、所定の時間にわたっての状態の変化を識別するステップを含んでいる。それに応じて、平均化が、実行され、この平均化は、状態のより信頼できる検出と、それゆえに、ジェスチャのより信頼できる検出とを可能にする。身体部分の成功した皮膚認識および/または識別を妨害する可能性を持ち、また永続的ではないビデオのエラーおよびノイズは、それゆえに、ジェスチャの検出の信頼性を低減させることはないであろう。所定の持続時間は、特定の要件に従って、例えば、認識されるべきジェスチャの種類、フレーム・レート、またはある人の個別の動作に応じて、指定される可能性がある。
【0029】
好ましい一実施形態においては、少なくとも1つの身体部分に関して少なくとも1つの所定の画面エリアの状態を監視するステップは、少なくとも1つの所定の画面エリア内の少なくとも1つの身体部分の動作状態を監視するステップを含んでいる。動作状態とともに、スイープする(sweeping)ジェスチャまたはスワイプする(swiping)ジェスチャとも称される動作によって定義されるジェスチャは、簡単に検出される可能性がある。動作状態は、それぞれの身体部分の動作の表示として規定される可能性がある。動作状態は、位置を監視することを含み、これは、動きの方向を導き出すことを可能にすることが、好ましい。それに応じて、スワイプされたジェスチャの方向もまた、検出される可能性がある。動作状態は、角速度として監視されることが、より好ましいことさえある。
【0030】
好ましい一実施形態においては、ジェスチャ検出器は、少なくとも1つの身体部分に関して、少なくとも1つの所定の画面エリアの各状態を監視するための1つのインスタンスを備える。各インスタンスは、独立して状態を監視し、これは、多種多様な可能性のあるジェスチャが、認識されることを可能にする。所定の画面エリアと、身体部分とは、各インスタンスについて独立に監視され、すなわち、所定の画面エリア内の身体部分の検出は、例えば、右腕が、左腕に加えて、または左腕なしに独立に、挙げられるときに、異なるジェスチャを検出するために、使用され得ることが、好ましい。
【0031】
本発明による、装置および/または方法のいくつかの実施形態は、次に、例だけとして、また添付図面を参照して説明される。