特許5916880 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アルカテル−ルーセントの特許一覧

特許5916880ジェスチャを認識するための方法およびジェスチャ検出器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5916880

(24)【登録日】2016年4月15日

(45)【発行日】2016年5月11日

(54)【発明の名称】ジェスチャを認識するための方法およびジェスチャ検出器

(51)【国際特許分類】

H04N 7/15 20060101AFI20160422BHJP

G06T 7/20 20060101ALI20160422BHJP

G06T 7/00 20060101ALI20160422BHJP

G06F 3/01 20060101ALI20160422BHJP

【ＦＩ】

H04N7/15 630Z

G06T7/20 300A

G06T7/00 100C

G06F3/01 570

【請求項の数】13

【全頁数】15

(21)【出願番号】特願2014-545168(P2014-545168)

(86)(22)【出願日】2012年11月26日

(65)【公表番号】特表2015-507391(P2015-507391A)

(43)【公表日】2015年3月5日

(86)【国際出願番号】EP2012073604

(87)【国際公開番号】WO2013083423

(87)【国際公開日】20130613

【審査請求日】2014年7月28日

(31)【優先権主張番号】11290561.7

(32)【優先日】2011年12月5日

(33)【優先権主張国】EP

(73)【特許権者】

【識別番号】391030332

【氏名又は名称】アルカテル−ルーセント

(74)【代理人】

【識別番号】100094112

【弁理士】

【氏名又は名称】岡部讓

(74)【代理人】

【識別番号】100106183

【弁理士】

【氏名又は名称】吉澤弘司

(74)【代理人】

【識別番号】100170601

【弁理士】

【氏名又は名称】川崎孝

(72)【発明者】

【氏名】ファガダール−コスマ，ミハイ

(72)【発明者】

【氏名】ファディリ，ムーレイ

【審査官】堀洋介

(56)【参考文献】

【文献】特表２０１０−５４１３９８（ＪＰ，Ａ）

【文献】特表２０１０−５３４８９５（ＪＰ，Ａ）

【文献】特開２００４−１８５５５５（ＪＰ，Ａ）

【文献】米国特許出願公開第２００８／００１９５８９（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１１／０２９９７７４（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１０／０３２９５０９（ＵＳ，Ａ１）

【文献】米国特許出願公開第２００９／０３２４００８（ＵＳ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｈ０４Ｎ７／１５

Ｇ０６Ｆ３／０１

Ｇ０６Ｔ７／００

Ｇ０６Ｔ７／２０

(57)【特許請求の範囲】

【請求項1】

会議状況などにおいて使用するために二次元ビデオ・ストリーム（３）内でジェスチャを認識するための方法であって、
皮膚部分（１３）を認識するために前記ビデオ・ストリーム（３）の画面（４）内で皮膚認識を実行するステップと、
前記認識された皮膚部分（１３）内の少なくとも顔及び手（１９、２０）を識別するステップと、
前記顔及び前記手の中心位置を識別するステップと、
前記顔の前記中心位置に対する角度位置によって少なくとも１つの画面エリア（２３）を定義するステップと、
前記少なくとも１つの画面エリア（２３）の状態を監視するステップと、
前記少なくとも１つの画面エリア（２３）内に手が入ったことを検出したとき、検出されたジェスチャを示す制御信号を供給するステップと、
を含む、
方法。

【請求項2】

前記ビデオ・ストリーム（３）の各ビデオ・フレーム（４）についてのすべての方法ステップを実行するように適合されていることを特徴とする、請求項１に記載の方法。

【請求項3】

前記少なくとも１つの画面エリア（２３）の状態を監視する前記ステップは、手（２０）を監視するステップを含む
ことを特徴とする、請求項１に記載の方法。

【請求項4】

前記認識された皮膚部分（１３）内の少なくとも顔及び手（１９、２０）を識別する前記ステップは、最大のサイズを有する前記皮膚部分（１３）を顔（１９）として識別するステップを含むことを特徴とする、請求項１に記載の方法。

【請求項5】

前記認識された皮膚部分（１３）内の少なくとも顔及び手（１９、２０）を識別する前記ステップは、第２の最大のサイズを有する前記皮膚部分（１３）を手（２０）として識別するステップを含むことを特徴とする、請求項１に記載の方法。

【請求項6】

前記認識された皮膚部分（１３）内の少なくとも顔及び手（１９、２０）を識別する前記ステップは、黄金比のメトリクスを適用するステップを含むことを特徴とする、請求項１に記載の方法。

【請求項7】

前記少なくとも１つの画面エリア（２３）内に手が入ったことを検出したとき、検出されたジェスチャを示す制御信号を供給する前記ステップは、所定の持続時間の間、該手を追跡するステップを含むことを特徴とする、請求項１に記載の方法。

【請求項8】

前記少なくとも１つの画面エリア（２３）内に手が入ったことを検出するステップは、該手が予想された方向に移動しており、且つ前記少なくとも１つの画面エリア（２３）から所定の持続時間以上の間消失しない限り、該手を追跡するステップを含むことを特徴とする、請求項１に記載の方法。

【請求項9】

前記少なくとも１つの画面エリア（２３）の状態を監視する前記ステップは、前記少なくとも１つの画面エリア（２３）内の前記手（２０）のジェスチャを監視するステップを含み、該ジェスチャは該手を挙げること又は下げることから構成されることを特徴とする、請求項１に記載の方法。

【請求項10】

ビデオ・ストリーム（３）を受信するための入力（６）と、
検出されたジェスチャを示す制御信号を供給するように適合された信号出力（８）と、
を備える、該ジェスチャ検出器（５）であって、
皮膚部分（１３）を認識するために前記ビデオ・ストリーム（３）の画面（４）内で皮膚認識を実行するステップと、
前記認識された皮膚部分（１３）内の少なくとも顔及び手（１９、２０）を識別するステップと、
前記顔及び前記手の中心位置を識別するステップと、
前記顔の前記中心位置に対する角度位置によって少なくとも１つの画面エリア（２３）を定義するステップと、
前記少なくとも１つの画面エリア（２３）の状態を監視するステップと、
前記少なくとも１つの画面エリア（２３）内に手が入ったことを検出したとき、検出されたジェスチャを示す制御信号を供給するステップと、
を実行するように構成されている、
ジェスチャ検出器（５）。

【請求項11】

ビデオ・ストリーム（３）を生成するためのビデオ・カメラ（２）と、
プレゼンテーションを実行するためのプレゼンテーション・デバイス（１１）であって、前記プレゼンテーションを制御するための制御信号を受信するように適合された信号入力（１０）を備えるプレゼンテーション・デバイス（１１）と、
ジェスチャ検出器（５）と、
を備え、前記ジェスチャ検出器（５）の入力（６）は、前記ビデオ・カメラ（２）によって生成される前記ビデオ・ストリーム（３）に接続され、また前記ジェスチャ検出器（５）の信号出力（８）は、前記プレゼンテーション・デバイス（１１）の前記信号入力（１０）に接続され、
前記プレゼンテーション・デバイス（１１）は、前記ジェスチャ検出器（５）から制御信号を受信したとき、前記プレゼンテーションを制御するように構成されており、
前記ジェスチャ検出器（５）は、
皮膚部分（１３）を認識するために前記ビデオ・ストリーム（３）の画面（４）内で皮膚認識を実行するステップと、
前記認識された皮膚部分（１３）内の少なくとも顔及び手（１９、２０）を識別するステップと、
前記顔及び前記手の中心位置を識別するステップと、
前記顔の前記中心位置に対する角度位置によって少なくとも１つの画面エリア（２３）を定義するステップと、
前記少なくとも１つの画面エリア（２３）の状態を監視するステップと、
前記少なくとも１つの画面エリア（２３）内に手が入ったことを検出したとき、検出されたジェスチャを示す制御信号を供給するステップと、
を実行するように構成されている、プレゼンテーション・システム（１）。

【請求項12】

前記ビデオ・カメラ（２）は、ネットワーク接続（７）を経由して前記ジェスチャ検出器（５）に接続される、請求項１１に記載のプレゼンテーション・システム（１）。

【請求項13】

ビデオ・カメラ（２）と、ジェスチャ検出器（５）とを備えるビデオ・カメラ・デバイス（２４）であって、
前記ジェスチャ検出器（５）が、
皮膚部分（１３）を認識するために前記ビデオ・ストリーム（３）の画面（４）内で皮膚認識を実行するステップと、
前記認識された皮膚部分（１３）内の少なくとも顔及び手（１９、２０）を識別するステップと、
前記顔及び前記手の中心位置を識別するステップと、
前記顔の前記中心位置に対する角度位置によって少なくとも１つの画面エリア（２３）を定義するステップと、
前記少なくとも１つの画面エリア（２３）の状態を監視するステップと、
前記少なくとも１つの画面エリア（２３）内に手が入ったことを検出したとき、検出されたジェスチャを示す制御信号を供給するステップと、
を実行するように構成されている、ビデオ・カメラ・デバイス（２４）。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、会議状況などにおいて使用するために二次元ビデオ・ストリーム内でジェスチャを認識するための方法に関する。本発明は、さらに、ビデオ・ストリームを受信するための入力と、検出されたジェスチャを示す制御信号を供給するように適合された信号出力とを備えるジェスチャ検出器に関し、それによってジェスチャ検出器は、上記の方法を実行するように適合されている。本発明はまた、ビデオ・ストリームを生成するためのビデオ・カメラと、プレゼンテーションを制御するための制御信号を受信するように適合された信号入力を含むプレゼンテーションを実行するためのプレゼンテーション・デバイスと、上記のジェスチャ検出器とを備えるプレゼンテーション・システムに関し、それによってジェスチャ検出器の入力は、ビデオ・カメラによって生成されるビデオ・ストリームに接続され、ジェスチャ検出器の信号出力は、プレゼンテーション・デバイスの信号入力に接続され、またプレゼンテーション・デバイスは、ジェスチャ検出器から制御信号を受信したときプレゼンテーションを制御するように適合されている。最後に、本発明は、ビデオ・カメラと、上記のジェスチャ検出器とを備えるビデオ・カメラ・デバイスに関する。

【背景技術】

【0002】

ジェスチャの検出により、ユーザは、キーボード、トラックボール、ゲーム・コントローラなど特定の入力デバイスを使用する必要なしに、単純な、さらには自然な人間のジェスチャに基づいてＩＴシステム、例えば、デスクトップ・コンピュータ、ノートブック、ＰＤＡ、スマートフォン、ゲーム・コンソールなどを動作させることができるので、ジェスチャ検出は、今日の世界でますます重要になりつつある。そのような入力デバイスは、ユーザが特定の入力デバイスの必要に自身の振る舞いを適応させることを必要とし、そのような必要は、入力デバイスごとに異なる可能性さえある。ジェスチャを認識するための方法とジェスチャ検出器は、当技術分野において既に知られているが、ジェスチャ認識は、例外的な場合に、まれに適用されるだけである。ジェスチャ検出を実行するための特定のハードウェア要件と大きな計算量は、ジェスチャ制御が広く適用される妨げとなっている。

【0003】

ジェスチャを検出するための１つのそのようなシステムは、立体カメラと、マイクロフォン・ハードウェア・アクセサリとに基づいており、この立体カメラと、マイクロフォン・ハードウェア・アクセサリとは、特にジェスチャ検出のために設計されている。この技法は、例えば、マイクロソフトＸボックス３６０ゲーム・コンソールと一緒に使用するためのＫｉｎｅｃｔとしてエンド・ユーザに知られている。一般に、ユーザは、例えば、拡張された現実環境の制御のために、ジェスチャを用いて上記のハードウェアを使用してＩＴシステムを制御することができる。この問題解決手法の欠点は、専用のハードウェアに対するその依存性であり、これは、任意のＩＴシステムに対してジェスチャ認識を適用することを困難にしている。また、Ｋｉｎｅｃｔ技術は、よく定義された環境を必要としており、この環境においては、ユーザは、ジェスチャがＫｉｎｅｃｔシステムによって認識されることになることを保証することができる。さらに、Ｋｉｎｅｃｔシステムのキャリブレーションが、各ユーザに必要とされる。Ｋｉｎｅｃｔシステムの別の欠点は、ジェスチャを認識するための計算量が、非常に大きいことであり、これは、低い計算性能を有するＩＴシステムの上でジェスチャ認識を使用することを不可能にしており、この低い計算性能を有するＩＴシステムは、一般に、モバイル・デバイスに当てはまる。例えば、ビデオ会議状況においては、例えば、ビデオ会議に参加するためのパブリック・アクセス手段を使用して公共の場の中でオフィスの外にいる参加者は、適切なハードウェアがないことと、公共環境がジェスチャ認識に適さないこととにより、ジェスチャ認識から排除される。同じことが、プレゼンテーション・デバイスを制御するプレゼンテーション・システムにおけるジェスチャ検出の使用の場合にも当てはまる。

【発明の概要】

【発明が解決しようとする課題】

【0004】

したがって、標準的なハードウェア・コンポーネントとともに使用され得る、低計算量で、強力で信頼できるジェスチャ検出を可能にする、ジェスチャを認識するための方法と、ジェスチャ検出器とを提供することが、本発明の一目的である。さらに、使用することが簡単な、低計算量で、強力で信頼できるジェスチャ検出が可能な、またコスト効率のよい、ジェスチャ検出のためのビデオ・カメラ・システムを提供することが、本発明の一目的である。最後に、人間のジェスチャによって簡単に制御され得る、ハードウェア要件から独立した、また低計算量で、強力で信頼できるジェスチャ検出を可能にするプレゼンテーション・システムを提供することが、本発明の一目的である。

【課題を解決するための手段】

【0005】

この目的は、独立請求項によって達成される。有利な実施形態は、従属請求項において与えられる。

【0006】

とりわけ、本発明は、会議状況などにおいて使用するために二次元ビデオ・ストリーム内でジェスチャを認識するための方法であって、皮膚部分を認識するためにビデオ・ストリームの画面内で皮膚認識を実行するステップと、認識された皮膚部分内の少なくとも１つの身体部分を識別するステップと、少なくとも１つの身体部分に関して少なくとも１つの所定の画面エリアの状態を監視するステップと、状態の変化を検出したとき、検出されたジェスチャを示す制御信号を供給するステップとを含む方法を提供する。

【0007】

本発明は、さらに、ビデオ・ストリームを受信するための入力と、検出されたジェスチャを示す制御信号を供給するように適合された信号出力とを備えるジェスチャ検出器を提供しており、それによってジェスチャ検出器は、上記の方法を実行するように適合されている。

【0008】

基本的なアイデアは、状態機械に基づいてジェスチャ検出を実行することであり、その結果、少なくとも１つの身体部分の状態は、所定の画面エリアと比較して監視される可能性がある。状態機械は、簡単に実施される可能性があり、またジェスチャを認識するために低い計算量だけを必要とする。ジェスチャ認識は、状態機械に基づいており、すなわち、ジェスチャの認識は、現在の状態により、またビデオ・フレームの現在のシーンにおける皮膚部分と、身体部分との認識によって決定される。

【0009】

シーンは、これに関して、ビデオ・ストリームの瞬間的なビデオ情報のことを意味する。シーンは、ビデオ・ストリームのフレームに基づいていることが好ましい。シーンの履歴または以前のシーンの特定のデータは、必要とされず、またそれゆえに、本発明のジェスチャ検出のためには考慮されない。

【0010】

身体部分の検出は、以前の皮膚認識に基づいている。皮膚認識は、一般的に、ビデオ・ストリームのシーン内の、ある種の色を有しているある種のエリアの検出に基づいている。基本的には、ビデオ・ストリームのフレームの中の各ピクセルの色は、ＲＧＢ、ＹＵＶ、ＨＳＶなど、特定のカラー・スペースにおいて規定される１組の規則と比較される。数学的には、各規則は、カラー・スペースを素の領域に分割する平面を規定する。すべての平面の交差によってカラー・スペースにおいて決定される体積は、皮膚の色に対応する。

【0011】

ＨＳＶカラー・スペースと、ＲＧＢカラー・スペースとの上で規定される規則の混合は、皮膚認識のために適用されることが好ましい。ＲＧＢカラー・スペースにおける［Ｒ，Ｇ，Ｂ］と、ＨＳＶカラー・スペースにおけるそれぞれ［Ｈ，Ｓ，Ｖ］とを用いて示されるベクトルとしてピクセルの色を表現することにより、以下の複合規則、すなわち、
（Ｒ − Ｇ＞２９）ａｎｄ（Ｒ − Ｂ＞２９）ａｎｄ（Ｈ＜２７）ａｎｄ（Ｓ＞＝０．１８８）
を使用して、ピクセルを皮膚としてラベル付けする。

【0012】

皮膚認識は、以下のように機能する。上記の規則は、フレームの中の各ピクセルに対して適用され、皮膚の場合に真（ｔｒｕｅ）を返し、そうでない場合に偽（ｆａｌｓｅ）を返す。次に、入力フレームと同じサイズの２進数皮膚マスクは、皮膚ピクセルの場合に値１で充てんされ、非皮膚ピクセルの場合に値０で充てんされる。それに応じて、皮膚画像とも称される、２進数皮膚マスクは、認識された皮膚部分を含んでいる。

【0013】

皮膚認識は、会議状況などにおいては、簡単に行われる可能性があり、この会議状況は、ある種の前提条件を仮定している。そのような会議状況などにおいては、ある人の上部胴体だけが、目に見え、また１人の人間の身体の皮膚部分が、実質的に同じ平面の中に位置していることが、仮定される。さらに、会議状況などは、通常、例えば、ニュースの話し手のスタイルで、カメラの前に座っており、またカメラに向かっている人によって規定される。これは、特にプレゼンテーションを行っている人のことを意味しており、それによってビデオ・カメラは、この人に焦点を当てる。

【0014】

また、人の上部胴体の可視性は、人の顔および／または手が、目に見えることを意味しているので、会議状況などにおける身体部分の識別は、かなり簡単である。ある種の服装規定が、保持されるときには特に、ある人の身体と腕とが、覆われており、顔と手とが、識別されるままにされることが仮定される可能性がある。会議状況などに関して与えられる仮定が多くなればなるほど、認識された皮膚部分内の身体部分の識別は、より簡単になる。

【0015】

制御信号は、上記の方法と、ジェスチャ検出器とによる認識のために適切な任意の種類のジェスチャを、例えば、手を挙げることのような簡単なジェスチャ、または組み合わされたジェスチャ、例えば、右手と左手とを挙げることを示すことができる。例えば、手を挙げたジェスチャは、手を挙げること、すなわち、所定の画面エリア内に手を置くことにより、識別され、この所定の画面エリアは、この場合には、画面エリアの上部部分に位置している。さらなるジェスチャは、二重に挙げられた手として、すなわち、手を挙げ、所定のストリーム・エリアの外に手を下げ、また手を再び挙げることとして規定される可能性がある。また、異なる身体部分に関する異なる画面エリアの状態の変化は、単一のジェスチャとして、例えば、右手と左手とを挙げることとして組み合わされる可能性もある。

【0016】

ジェスチャ検出器は、ビデオ・ストリームのソースとは独立に、実質的に任意の場所に位置することができる。ビデオ・ストリームについての入力は、ビデオ入力、例えば、アナログ・ビデオ入力またはデジタル・ビデオ入力とすることができ、あるいはＩＰネットワーク、例えば、ＬＡＮコネクタを経由したビデオ・ストリームの伝送のための任意の種類のデータ入力とすることができる。ジェスチャ検出器は、内部処理ユニットを用いて、または処理手段の使用の下で、上記の方法を実行し、これらは、ジェスチャ検出器の外側に位置している。それに応じて、ジェスチャの検出は、ジェスチャ検出器の外側に位置する１つまたは複数の処理ユニットを有するクラウド・コンピューティングを用いて実行される可能性さえもある。

【0017】

本発明は、さらに、ビデオ・カメラと、上記のジェスチャ検出器とを備えるビデオ・カメラ・デバイスを提供している。

【0018】

ビデオ・カメラは、上記の方法と、ジェスチャ検出器とに従ってビデオ・ストリームを供給する。ビデオ・カメラ・デバイスは、単一の装置として提供される可能性があり、またはビデオ・カメラに対応する１つの独立した装置と、ジェスチャ検出器に対応する１つの独立した装置とを備えている。ビデオ・カメラと、ジェスチャ検出器とは、ネットワーク接続、例えば、有線ＬＡＮ接続またはワイヤレスＬＡＮ接続、あるいは任意の種類の適切なビデオ接続を用いて接続される。ビデオ・カメラ・デバイスのジェスチャ検出器は、ジェスチャ検出器に関して上記で説明されるようなクラウド・サービスを使用することができることが好ましい。クラウド・サービスの使用は、非常に簡単な、また安価なジェスチャ検出器のプロビジョニングを可能にする。

【0019】

本発明はまた、ビデオ・ストリームを生成するためのビデオ・カメラと、プレゼンテーションを実行するためのプレゼンテーション・デバイスとを備えるプレゼンテーション・システムを提供しており、それによって、プレゼンテーション・デバイスは、プレゼンテーションを制御するための制御信号を受信するように適合された信号入力と、上記のジェスチャ検出器とを備えており、それによって、ジェスチャ検出器の入力は、ビデオ・カメラによって生成されるビデオ・ストリームに接続され、またジェスチャ検出器の信号出力は、プレゼンテーション・デバイスの信号入力に接続され、それによって、プレゼンテーション・デバイスは、ジェスチャ検出器から制御信号を受信したときプレゼンテーションを制御するように適合されている。

【0020】

プレゼンテーション・システムでは、プレゼンテーション・デバイスは、任意の場所に位置することができる。信号入力は、例えば、ネットワーク入力であり、このネットワーク入力は、ジェスチャ検出器のネットワーク出力と接続される。それに応じて、プレゼンテーション・システムのすべてのコンポーネントは、互いに離れて位置することができる。プレゼンテーション・デバイスは、例えば、ジェスチャ検出器から制御信号を受信するローカル・コンピュータ、またはコンピュータ・ネットワークとともに設置されるセントラル・サーバとすることができる。プレゼンテーション・デバイスは、クラウド・サービスによって提供されるある種の仮想デバイスとすることさえできる。ビデオ・カメラ・デバイスは、ネットワーク接続を経由してジェスチャ検出器に接続されることが好ましい。プレゼンテーション・システムは、ビデオ会議システムの一部分であることが好ましい。ビデオ・カメラは、それゆえに、プレゼンテーション・システム、ならびにビデオ会議システムの一部分である。ジェスチャ検出器は、ビデオ・カメラからビデオ会議の他の参加者のディスプレイ・デバイスへのビデオ・ストリームの移送経路に沿った任意の場所に位置することができる。プレゼンテーション・デバイスは、上記で指定されるように、ビデオ会議システムの任意の種類のサーバと一体的になどの任意の場所に提供される可能性がある。

【0021】

好ましい一実施形態によれば、本方法は、ビデオ・ストリームの各ビデオ・フレームにすべての方法ステップを実行するように適合されている。ビデオ・ストリームの簡単な処理は、皮膚認識を実行して、身体部分を識別し、また各フレームに、身体部分に関して所定の画面エリアを監視することを可能にする。それに応じて、ジェスチャ検出の精度は、増大される可能性がある。

【0022】

好ましい一実施形態は、１つの身体部分の位置に関して所定の画面エリアを事前に定義するステップを含んでいる。これは、画面に関して異なる尺度および／または異なる位置を有する異なるユーザに対して本方法を簡単に適応させることを可能にしており、その結果、ジェスチャの検出は、すべての位置におけるすべてのこれらのユーザについて等しく信頼できるものである。さらに、検出された皮膚部分の相対的位置は、例えば、画面の下部の右および左のエリアに位置している手という前提の下に、異なる身体部分を識別するために使用されることもある。所定の画面エリアは、絶えず適合されており、その結果、ユーザが、画面内で移動するときに、ジェスチャは、確実に検出される可能性があることが、好ましい。例えば、背の高いユーザから、背の低いユーザへのユーザの変更さえも、可能であり、それによって、両方のユーザについて、ジェスチャ認識は、確実に実行される可能性がある。一例として、所定の画面エリアは、手の位置に関して、事前に定義されることもある。それに応じて、手の相対的動作は、ジェスチャとして検出される可能性がある。異なる実施形態においては、所定の画面エリアは、画面の固定されたエリアであり、これは、ビデオ・ストリームの非常に効率の高い処理を可能にする。

【0023】

修正された一実施形態においては、所定の画面エリアを事前に定義するステップは、顔の位置に関して画面エリアを事前に定義するステップを含み、また少なくとも１つの身体部分に関して少なくとも１つの所定の画面エリアの状態を監視するステップは、手を監視するステップを含む。顔は、通常、画面内の最も大きい皮膚部分であることにより特徴づけられており、これは、検出をかなり簡単にする。さらに、顔は、画面内で頻繁には動かない。対照的に、手は、例えば、公に知られているジェスチャを行うこと、外形を示すこと、または方向を指し示すことにより、スピーチをサポートするために、頻繁に使用され、また動かされる。比較的一定の位置により、顔は、ジェスチャを定義するための適切な基準である。また、頭に関連した手の動作の範囲は、腕によって制限され、またそれゆえに簡単に検出可能である。頭に関連したそれぞれの身体部分の角度位置は、状態を識別するために監視されることが、好ましい。

【0024】

好ましい一実施形態においては、認識された皮膚部分内の少なくとも１つの身体部分を識別するステップは、人間の顔に属するような最大のサイズを有する皮膚部分を識別するステップを含む。追加して、または代わりに、現在使用可能な顔検出器、例えば、ＨＡＡＲ特徴分類器（ｆｅａｔｕｒｅｃｌａｓｓｉｆｉｅｒ）もまた、顔の認識のために使用されることもある。

【0025】

好ましい一実施形態においては、認識された皮膚部分内の少なくとも１つの身体部分を識別するステップは、人間の手に属するような第２の最大のサイズを有する皮膚部分を識別するステップを含む。会議状況などにおいては特に、身体部分のそのような識別は、画面の中の使用可能な身体部分の数が限られているので、信頼性の高いものである。背景の人々は、存在する場合、通常、画面の上で妥当なより小さなサイズを有することになり、その結果、彼らは、ジェスチャ認識については確実に切り捨てられる可能性がある。手は、顔に対するその位置に基づいて、右手または左手として識別されることが好ましい。それに応じて、顔の右側にある手は、右手として識別されるのに対して、顔の左側にある手は、左手として識別される。顔の同じ側に位置する両方の手でさえ、顔からのそれらの異なる距離により確実に認識される可能性がある。それゆえに、右手と左手との認識は、高い信頼性で実行される可能性がある。

【0026】

修正された一実施形態においては、認識された皮膚部分内の少なくとも１つの身体部分を識別するステップは、黄金比のメトリクスを適用するステップを含んでいる。黄金比は、人間の身体部分の、とりわけ人間の顔の幅と高さとの間の特定の関係を規定しており、この関係は、ほとんどどのような顔に対しても普遍的に適用可能である。それに応じて、黄金比に従う寸法を有する皮膚部分は、身体部分として簡単に識別される可能性がある。

【0027】

好ましい一実施形態においては、少なくとも１つの身体部分に関して少なくとも１つの所定の画面エリアの状態を監視するステップは、少なくとも１つの身体部分の中心位置を監視するステップを含んでいる。中心位置は、当技術分野において、オブジェクトの「質量中心」を見出すことを対象とするものと一般に称される様々なアルゴリズムのうちのどれかによって評価することができる。身体部分の中心の識別は、所定のエリアと、識別された身体部分との監視を容易にする。中心位置に基づいて、身体部分が、所定の画面エリアに入っているかどうかを監視することは、かなり簡単でもある。皮膚部分の周囲の追加の境界ボックスが、使用され、これが、画面内の皮膚部分の推定を提供することが、好ましい。詳細な画面情報が、さらなる処理のために必要とされないので、これは、さらに、ジェスチャ検出を容易にする。

【0028】

好ましい一実施形態においては、状態の変化を検出したとき、検出されたジェスチャを示す制御信号を供給するステップは、所定の時間にわたっての状態の変化を識別するステップを含んでいる。それに応じて、平均化が、実行され、この平均化は、状態のより信頼できる検出と、それゆえに、ジェスチャのより信頼できる検出とを可能にする。身体部分の成功した皮膚認識および／または識別を妨害する可能性を持ち、また永続的ではないビデオのエラーおよびノイズは、それゆえに、ジェスチャの検出の信頼性を低減させることはないであろう。所定の持続時間は、特定の要件に従って、例えば、認識されるべきジェスチャの種類、フレーム・レート、またはある人の個別の動作に応じて、指定される可能性がある。

【0029】

好ましい一実施形態においては、少なくとも１つの身体部分に関して少なくとも１つの所定の画面エリアの状態を監視するステップは、少なくとも１つの所定の画面エリア内の少なくとも１つの身体部分の動作状態を監視するステップを含んでいる。動作状態とともに、スイープする（ｓｗｅｅｐｉｎｇ）ジェスチャまたはスワイプする（ｓｗｉｐｉｎｇ）ジェスチャとも称される動作によって定義されるジェスチャは、簡単に検出される可能性がある。動作状態は、それぞれの身体部分の動作の表示として規定される可能性がある。動作状態は、位置を監視することを含み、これは、動きの方向を導き出すことを可能にすることが、好ましい。それに応じて、スワイプされたジェスチャの方向もまた、検出される可能性がある。動作状態は、角速度として監視されることが、より好ましいことさえある。

【0030】

好ましい一実施形態においては、ジェスチャ検出器は、少なくとも１つの身体部分に関して、少なくとも１つの所定の画面エリアの各状態を監視するための１つのインスタンスを備える。各インスタンスは、独立して状態を監視し、これは、多種多様な可能性のあるジェスチャが、認識されることを可能にする。所定の画面エリアと、身体部分とは、各インスタンスについて独立に監視され、すなわち、所定の画面エリア内の身体部分の検出は、例えば、右腕が、左腕に加えて、または左腕なしに独立に、挙げられるときに、異なるジェスチャを検出するために、使用され得ることが、好ましい。

【0031】

本発明による、装置および／または方法のいくつかの実施形態は、次に、例だけとして、また添付図面を参照して説明される。

【図面の簡単な説明】

【0032】

【図1】例示の一実施形態による、プレゼンテーション・システムの概略図である。

【図2】例示の一実施形態による、手挙げのジェスチャを検出するための方法を示すビデオ・フレームの概略図である。

【図3】例示の一実施形態による、スワイプ・アウト・ジェスチャとしての手の動作を検出するための方法を示すビデオ・フレームの概略図である。

【発明を実施するための形態】

【0033】

図１は、例示の一実施形態によるプレゼンテーション・システム１を示すものである。プレゼンテーション・システムは、ビデオ・カメラ２を備えており、このビデオ・カメラ２は、複数の個別のビデオ・フレーム４を含むビデオ・ストリーム３を生成し、それによって、ビデオ・フレーム４は、本発明による画面のことを意味する。異なるビデオ・フレーム４は、図２および３に示される。

【0034】

プレゼンテーション・システム１は、ジェスチャ検出器５をさらに備えており、それによって、ジェスチャ検出器５の入力６は、ＬＡＮ接続７を経由してビデオ・カメラ２によって生成されるビデオ・ストリーム３に接続される。ジェスチャ検出器５は、信号出力８をさらに備えており、この信号出力は、さらなるＬＡＮ接続９を経由してプレゼンテーション・システム１のプレゼンテーション・デバイス１１の信号入力１０に接続される。プレゼンテーション・デバイス１１は、ジェスチャ検出器５から制御信号を受信したとき、プレゼンテーションを実行するように、またプレゼンテーションを制御するように適合されている。

【0035】

ジェスチャ検出器５は、皮膚セグメンテーション・ユニット１２を備えており、この皮膚セグメンテーション・ユニットは、皮膚部分１３を認識するために、ビデオ・ストリーム３内の皮膚認識を実行するように適合されており、これらは、図２および３に示されている。皮膚セグメンテーション・ユニット１２内の皮膚認識は、ある種の色を有するフレーム４のある種のエリアの検出に基づいており、この色は、皮膚に関連づけられる。皮膚セグメンテーション・ユニット１２は、皮膚画像１４を出力として供給し、この皮膚画像は、ビデオ・フレーム４内の皮膚部分１３の識別情報を含んでいる。

【0036】

この実施形態においては、皮膚認識は、ビデオ・フレーム４内のある種の色を有するある種のエリアの検出に基づいている。基本的には、ビデオ・ストリームのビデオ・フレーム４の中の各ピクセルの色は、ＲＧＢ、ＹＵＶまたはＨＳＶなど、特定のカラー・スペースにおいて規定される１組の規則と比較される。数学的に、各規則は、カラー・スペースを素の領域に分割する平面を規定する。すべての平面の交差によるカラー・スペースにおいて決定される体積は、皮膚の色に対応する。

【0037】

ＨＳＶカラー・スペースと、ＲＧＢカラー・スペースとの上で規定される規則の混合は、この実施形態における皮膚認識のために適用される。ＲＧＢカラー・スペースにおける［Ｒ，Ｇ，Ｂ］と、ＨＳＶカラー・スペースにおけるそれぞれ［Ｈ，Ｓ，Ｖ］とを用いて示されるベクトルとしてピクセルの色を表現することにより、以下の複合規則、すなわち、
（Ｒ − Ｇ＞２９）ａｎｄ（Ｒ − Ｂ＞２９）ａｎｄ（Ｈ＜２７）ａｎｄ（Ｓ＞＝０．１８８）
を使用して、ピクセルを皮膚としてラベル付けする。

【0038】

皮膚認識は、以下のように機能する。上記の規則は、ビデオ・フレーム４の中の各ピクセルに対して適用され、皮膚の場合に真を返し、そうでない場合に偽を返す。次に、２進数ファイルとしてのビデオ・フレーム４と同じサイズの皮膚画像１４は、皮膚ピクセルの場合に値１で充てんされ、非皮膚ピクセルの場合に値０で充てんされる。それに応じて、皮膚画像１４は、認識された皮膚部分１３を含んでいる。

【0039】

シーン・オブジェクトＳＯとも称される、識別された各皮膚部分１３では、ＣＭとも称されるその質量中心１５は、皮膚としてラベル付けされているすべてのオブジェクト・ピクセルから中心位置として計算される。質量中心１５は、画像座標の対＜Ｘ，Ｙ＞であり、またフレーム４の中の異なる皮膚部分１３の間の相対的な位置と角度とを算出するために使用される。さらに、各皮膚部分１３は、ＢＢとも称される関連する境界ボックス１５を受信し、この境界ボックスは、その左端皮膚ピクセル座標と、右端皮膚ピクセル座標と、最上部皮膚ピクセル座標と、最下部皮膚ピクセル座標とによって識別され、また＜左、最上部、右、最下部＞の４個組として表現される。

【0040】

ジェスチャ検出器５は、シーン・オブジェクト識別ユニット１７をさらに備えており、このシーン・オブジェクト識別ユニットは、皮膚画像１４を入力として受信する。シーン・オブジェクト識別ユニット１７は、皮膚画像１４内の皮膚部分１３の中から身体部分１９、２０を識別するように適合されている。シーン・オブジェクト識別ユニット１７は、最初に、最大のサイズを有する皮膚部分１３を顔１９として識別することにより、シーン・オブジェクト（ＳＯ）とも称される身体部分１９、２０の基本的な識別を実行する。第２の最大のサイズを有する認識された皮膚部分１３は、手２０として識別される。詳細には、顔１９の左側に位置する手２０は、左手として識別されるのに対して、顔１９の右側に位置する手２０は、右手として識別される。

【0041】

さらに、シーン・オブジェクト識別ユニット１７は、認識された皮膚部分１３に対して黄金比のメトリクスを適用する第２の識別ステップを実行する。それに応じて、身体部分１９、２０として識別される皮膚部分１３の幅と高さとが黄金比を満たすかどうかについての実現可能性チェックが、実行される。シーン・オブジェクト識別ユニット１７は、識別された身体部分１９、２０を有する身体画像２１を出力として供給し、それによって各身体部分１９、２０は、皮膚画像１４内の皮膚部分１３の表現に従って表現される。

【0042】

ジェスチャ検出器５は、ＧＤＩとも称される３つのジェスチャ検出器インスタンス２２の組をさらに備えており、これらのジェスチャ検出器インスタンスは、１つの身体部分１９、２０に関して１つの所定の画面エリア２３の状態を監視するように適合されている。所定の画面エリア２３は、図２および３に示されるように、角度位置によって頭１９に関する各場合において規定される。ジェスチャ検出器インスタンス２２は、それぞれ、手２０に関して１つの所定の画面エリア２３の状態を監視する。

【0043】

その入力において身体画像２１を受信するとすぐに、各ジェスチャ検出器インスタンス２２は、ＨＳＯとも称される頭１９の位置と、ＬＨＳＯとも称される左手２０、またはＲＨＳＯとも称される右手２０の対応する位置との間の相対的な角度と位置とを算出する。ジェスチャ検出器インスタンス２２のそれぞれは、このデータに対して１組の時空間規則を適用し、これは、相対的な位置が、評価され、またこの位置の変化が、時間にわたって監視されて、その現在内状態をアップデートすることを意味している。ジェスチャ検出器インスタンス２２の現在内状態が、成功した検出を示すときに、ジェスチャ・イベントが、そのジェスチャ検出器インスタンス２２によって取り上げられ、また特定のジェスチャの検出を示すそれぞれの制御信号は、ジェスチャ検出器５の信号出力８に供給される。

【0044】

次に、手挙げのジェスチャの検出が、詳細に説明される。ＨＲＧＤとも称される、手挙げのジェスチャを検出するためのジェスチャ検出器インスタンス２２は、２状態機械の周囲に構築される。アイドル（ＩＤＬＥ）状態においては、ＨＲＧＤは、以下で指定されるように、条件（１）、すなわち、
（１）（ＣＭ_ＳＯ．Ｙ＞ＢＢ_ＨＳＯ．ＢＯＴＴＯＭ）ａｎｄ（α ＜ α_ｍｉｎ）
式中で、
ＳＯ＝ＬＨＳＯまたはＲＨＳＯ
α ＝ａｒｃｔｇ（ａｂｓ（ＣＭ_ＳＯ．Ｙ − ＣＭ_ＨＳＯ．Ｙ）／ａｂｓ（ＣＭ_ＳＯ．Ｘ − ＣＭ_ＨＳＯ．Ｘ））
α_ｍｉｎ＝特定用途向けしきい値（例えば、３０度）
Ｘ＝Ｘ座標
Ｙ＝Ｙ座標
ＢＯＴＴＯＭ＝最下部皮膚ピクセル座標
を求めて現在の身体画像２１を検索し、この条件（１）は、手挙げのジェスチャについての制御信号をトリガする。

【0045】

条件（１）が、有効になり、手２０が、所定の画面エリア２３に入っていることを意味しているときに、ＨＲＧＤは、アクティブ（ＡＣＴＩＶＥ）状態に入る。アクティブ状態は、条件（１）が、有効に留まっている限り、維持される。条件（１）が、手２０が所定の画面エリア２３を離れることにより、無効になるときに、ＨＲＧＤは、手下げのジェスチャを取り上げ、またアイドル状態に逆戻りする。

【0046】

別のジェスチャ検出器インスタンス２０は、状態についての後続の変化を識別したとき、識別されたジェスチャについての制御信号を供給するように適合されている。それぞれのジェスチャ検出器インスタンス２２によって監視されるジェスチャは、手２０を挙げること、および下げることから構成される。このジェスチャは、上記で説明されるように、最初の手挙げのジェスチャと、後続の手下げのジェスチャとを検出するとすぐに、検出される。それに応じて、所定のエリア２３内にない手２０から所定のエリア２３内にある手２０への、さらに所定のエリア２３内にない手２０への状態の変化は、それぞれのジェスチャをトリガする。

【0047】

次に、スワイプ・ジェスチャの、すなわち、動作の検出に基づいたジェスチャの検出が、詳細に説明される。ＳＷＧＤとも称される、スワイプ・ジェスチャを検出するためのジェスチャ検出器インスタンス２２は、内部３状態機械を有している。ＳＷＧＤは、外側余白部からフレーム４の中心に向かう手２０の動作によって引き起こされるスワイプ・インの発生、またはフレーム４の中心からその外側余白部に向かう手２０の動作によって引き起こされるスワイプ・アウトの発生のいずれかを検出することができる。結果として、ジェスチャ検出器５は、動作の１つの方向と一緒に１つの手２０の可能性のある組合せごとに１つの、会議参加者当たりに４つまでのＳＷＧＤを含むことができる。

【0048】

ＳＷＧＤによって検出されるスワイプ・アウトの場合が、以下で説明される。検出器は、アイドル状態でスタートし、開始条件（２）、すなわち、
（２）（ＣＭ_ＳＯ．Ｙ＜ＢＢ_ＨＳＯ．ＢＯＴＴＯＭ）ａｎｄ（β ＜＝ β_ｍｉｎ）
式中で、
ＳＯ＝ＬＨＳＯまたはＲＨＳＯ
β ＝ａｒｃｔｇ（ａｂｓ（ＣＭ_ＳＯ．Ｘ − ＣＭ_ＨＳＯ．Ｘ）／ａｂｓ（ＣＭ_ＳＯ．Ｙ − ＣＭ_ＨＳＯ．Ｙ））
β_ｍｉｎ＝特定用途向けしきい値（例えば、５度）
Ｘ＝Ｘ座標
Ｙ＝Ｙ座標
ＢＯＴＴＯＭ＝最下部皮膚ピクセル座標
が満たされるときまで、アイドル状態を維持する。

【0049】

この条件が満たされるときに、ＳＷＧＤは、追跡（ＴＲＡＣＫＩＮＧ）状態に変化する。この状態は、手２０が、最大の手から頭への角度しきい値β_ｍａｘに到達することなく、期待された方向に移動し、またその追跡が、特定用途向けの値Ｔ_ｍａｘよりも長い時間間隔にわたって失われない限り、維持される。例えば、手ＳＯが、シーンから姿を消す場合に起こることになるように、追跡が失われる場合、ＳＷＧＤは、アイドル状態に逆戻りし、また制御信号は、生成されない。追跡が、例えば、ビデオ・エラーにより、一時的に失われる場合、その失われることが、所定の持続時間、例えば、約１０フレームよりも短い場合には、ＳＷＧＤは、追跡を継続する。

【0050】

追跡が、失われることなしに行われる場合、アクティブ化条件（３）、すなわち、
（３）（ＣＭ_ＳＯ．Ｙ＜ＢＢ_ＨＳＯ．ＢＯＴＴＯＭ）ａｎｄ（β ＝＞ β_ｍａｘ）
式中で、
ＳＯ＝ＬＨＳＯまたはＲＨＳＯ
β ＝ａｒｃｔｇ（ａｂｓ（ＣＭ_ＳＯ．Ｘ − ＣＭ_ＨＳＯ．Ｘ）／ａｂｓ（ＣＭ_ＳＯ．Ｙ − ＣＭ_ＨＳＯ．Ｙ））
β_ｍａｘ＝特定用途向けしきい値（例えば、４５度）
Ｘ＝Ｘ座標
Ｙ＝Ｙ座標
ＢＯＴＴＯＭ＝最下部皮膚ピクセル座標
が、満たされる瞬間に、ＳＷＧＤは、アクティブ（ＡＣＴＩＶＥ）状態に入り、このアクティブ状態においては、スワイプ・ジェスチャについての制御信号が、生成される。制御信号は、手２０と、動作の方向とを示すパラメータを含んでいる。

【0051】

制御信号の生成に続いて、ＳＷＧＤは、すぐにアイドル状態に逆戻りし、また新しい検出サイクルを開始する。

【0052】

スワイプ・インの場合は、手２０の期待された動作が逆方向に行われるので、開始条件（２）と、アクティブ化条件（３）とが、入れ替えられることを除いて、非常に類似している。

【0053】

上記の方法は、ビデオ・ストリーム３のビデオ・フレーム４ごとにすべてのステップを実行するために、ジェスチャ検出器５において実施される。それゆえに、皮膚認識と、身体部分１９、２０の識別とは、ビデオ・フレーム４ごとに実行され、また状態変化が、監視される。状態変化を検出したとき、検出されたジェスチャについての制御信号は、取り上げられる。ジェスチャ検出器５は、各フレーム４の後に状態変化を監視するために実施される。

【0054】

この例示の実施形態においては、ジェスチャ検出器５は、ビデオ・カメラ２とは離して提供される。特に、ジェスチャ検出器５は、ビデオ・ストリーム３を処理し、また制御信号を供給するためのいわゆるクラウドの中に位置している。

【0055】

この例示の実施形態においては、プレゼンテーション・システム１は、ビデオ会議システムの一部分を形成しており、このビデオ会議システムの一部分は、図面においてはさらに示されてはいない。それに応じて、ビデオ・カメラ２によって供給されるビデオ・ストリーム３は、さらに、ビデオ会議システムのサーバに対して供給され、このビデオ会議システムのサーバもまた、図面においては示されていない。ビデオ・ストリーム３は、ビデオ会議サーバによってさらなる参加者に対して供給される。ビデオ会議サーバは、さらに、ビデオ・ストリーム３をすべてのユーザに対して逆に供給するように適合されている。

【0056】

例示の一実施形態によるビデオ・カメラ・デバイス２４は、上記で説明されるように、ビデオ・カメラ２と、ジェスチャ検出器５との組合せとして提供される。ビデオ・カメラ・デバイス２４は、独立したコンポーネントを形成しており、この独立したコンポーネントは、任意の種類のデバイスに対して制御信号を供給するために使用される可能性がある。同様に、ジェスチャ検出器５もまた、任意の使用可能なビデオ・カメラ２と、制御信号によって制御されるべき任意の種類のデバイスとを有する組合せのために独立して使用される可能性がある。

【0057】

本発明は、他の特定の装置および／または方法の形で実施される可能性がある。説明された実施形態は、すべての点において、例示的であるにすぎないように、また限定的でないように考えられるべきである。とりわけ、本発明の範囲は、本明細書における説明および図面によってではなくて、添付の特許請求の範囲によって示される。特許請求の範囲の均等物の意味および範囲内に含まれるすべての変更は、それらの範囲内に包含されるべきである。

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第5916880号(P5916880)IP Force 特許公報掲載プロジェクト 2022.1.31 β版