【文献】
入江 耕太,濃淡値の時系列変化を利用した画像からの手振りの検出,日本ロボット学会誌 第21巻 第8号,日本,社団法人 日本ロボット学会,2003年11月15日,Vol.21 No.8,P.95-103,ISSN 0289-1824
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0008】
さて、ユーザが自身の手を認識対象物として用いてジェスチャを行う場合、適切な認識領域の範囲および位置がユーザ毎に異なる。例えば、ユーザが大人であれば大きな範囲の認識領域が適切である一方、子供のユーザに対しては、より小さな認識領域が適切である。また、ユーザ毎に腕の長さがそれぞれ異なることから、ユーザの顔の位置に対する認識領域の位置についても、ユーザ毎にそれぞれ違っている。
【0009】
しかしながら、特許文献1および特許文献2に開示された技術によれば、認識対象となる領域はジェスチャ認識装置または情報統合認識装置によって決定されるものである。すなわち、ユーザは、自分に適切な認識領域を設定することや、状況に応じて認識領域を修正するといったことができない。そのため、ユーザは、快適なジェスチャを行うことができない場合があるという問題がある。
【0010】
本発明は、上記の課題に鑑みてなされたものであり、その目的は、ユーザが認識領域を規定することのできるジェスチャ認識装置を提供することにある。
【課題を解決するための手段】
【0011】
本発明に係るジェスチャ認識装置は、上記課題を解決するために、ユーザが撮影された動画から、該ユーザによるジェスチャを認識するジェスチャ認識装置において、上記ジェスチャの種類を判定する判定手段と、上記判定手段によって判定されたジェスチャの種類に基づいて、動画像全体の領域のうちジェスチャが認識される領域である認識領域を規定する認識領域規定手段とを備えたことを特徴としている。
【0012】
また、本発明に係るジェスチャ認識装置の制御方法は、上記課題を解決するために、ユーザが撮影された動画から、該ユーザによるジェスチャを認識するジェスチャ認識装置の制御方法であって、上記ジェスチャの種類を判定した後、判定されたジェスチャの種類に基づいて、動画像全体の領域のうちジェスチャが認識される領域である認識領域を規定することを特徴としている。
【0013】
上記構成および上記方法によれば、ユーザが実行するジェスチャの種類の判定結果に基づいて、認識領域が規定される。すなわち、ユーザは、ジェスチャを行うことによって、認識領域を規定することができる。なお、上記ジェスチャの種類は、ユーザがジェスチャを行うために使用する認識対象物の形状、向き、および/または変位によって規定されるものであってよい。これにより、ユーザは、ジェスチャによって所望の位置および大きさで認識領域を設定することができる。また、ユーザは、認識対象物を用いて、形状、向き、および/または変位が互いに異なるジェスチャを行うことにより、認識領域を修正することもできる。このように、ユーザ自身が認識領域を規定することができることによって、ユーザは快適なジェスチャを行うことができる。
【0014】
また、本発明に係るジェスチャ認識装置は、上記ユーザの手によってジェスチャが行われ、上記ジェスチャを行う際の所定の手形状を含む手形状リストを記憶した記憶部をさらに備え、上記判定手段が、上記手形状リストを参照することによって、上記所定の手形状を検出する構成であってもよい。
【0015】
上記構成によれば、ユーザが手を用いて行うジェスチャの種類が、手形状リストを用いて判定される。そしてその判定結果に基づいて、認識領域が規定される。ユーザは、手の形状、向き、および/または変位によって規定されるジェスチャによって、所望の位置および大きさで認識領域を設定することができる。また、手の形状、向き、および/または変位を変えたジェスチャを行うことにより、認識領域を修正することもできる。
【0016】
また、本発明に係るジェスチャ認識装置は、上記判定手段が、上記所定の手形状を検出した場合に、上記ユーザが上記所定の手形状とした手を振る範囲を検出する動作検出手段をさらに備え、上記認識領域規定手段は、上記動作検出手段によって検出された上記手を振る範囲に基づいて、上記認識領域を規定する構成であってもよい。
【0017】
上記構成によれば、ユーザが手を振る動作を行うことにより、手を振る範囲に基づいて、認識領域が設定される。従って、ユーザは、手を振るという簡単な動作によって、自分で認識領域を設定することができる。さらに、手を振る範囲を調整することによって、認識領域の大きさおよび/または位置を、ユーザ自身で調整することができる。これにより、ユーザは、所望の位置および所望の大きさに設定した認識領域内で、ジェスチャを行うことができる。
【0018】
また、本発明に係るジェスチャ認識装置は、上記判定手段が、上記所定の手形状を検出した場合に、上記ユーザが上記所定の手形状とした手を用いてジェスチャを行っている間、上記手の特定部位の動きを監視することによって、上記特定部位が上記認識領域をはみ出さないか監視する動作範囲監視手段をさらに備え、上記手の上記特定部位が上記認識領域をはみ出したことを上記動作範囲監視手段が検出した場合に、上記認識領域規定手段は、上記認識領域を所定の割合で拡大する修正を行う構成であってもよい。
【0019】
上記構成によれば、ユーザが自分の手を用いてジェスチャを行っている間、その手の特定部位が、認識領域をはみ出すことがないか監視される。そして、手の上記特定部位が認識領域をはみ出した場合、上記認識領域を拡大するように修正が行われる。なお、操作者の手の上記特定部位とは、例えば、人差し指のみを延ばした手の人差し指の先端である。
【0020】
さて、ユーザがジェスチャを行う際、予め定義された認識領域を、ユーザは見ることができない。そのため、ユーザは手を用いてジェスチャを行っている間に、その手が認識領域からはみ出てしまう場合がある。また、予め定められた認識領域がユーザにとって適切な大きさや適切な位置でなかった場合、ユーザは快適な操作を行うことができない。しかしながら、上記構成および上記方法によれば、ユーザがジェスチャを行う手の特定部位が認識領域をはみ出した場合、認識領域が所定の割合で拡大される。従って、ユーザは、予め定められた認識領域が狭すぎたり、あるいは位置が遠すぎ/近すぎたりする場合であっても、ジェスチャを行っている手が認識領域からはみ出すことを気にする必要がないので、快適なジェスチャを行うことができる。
【0021】
また、本発明に係るジェスチャ認識装置は、上記記憶部が、上記手の向きおよび変位の少なくともいずれか一方と上記認識領域の修正内容とを対応付ける認識領域修正テーブルをさらに記憶しているとともに、上記判定手段が、上記所定の手形状を検出した場合に、上記認識領域修正テーブルを参照することにより、上記手の向きおよび変位の少なくともいずれか一方と対応する上記認識領域の修正内容を検出する動作検出手段をさらに備え、上記認識領域規定手段は、上記修正内容で上記認識領域を修正する構成であってもよい。
【0022】
上記構成によれば、認識領域を修正するための修正動作が検出された場合に、検出された修正動作と対応する修正内容で上記認識領域が修正される。そこで、ユーザは、状況や好みに応じて認識領域を修正したい場合、所望の修正内容に対応する修正動作を行う。すると、ユーザの行った修正動作が検出されて、認識領域が修正されることになる。ここで、認識領域の上記修正内容とは、例えば、認識領域の大きさや位置である。従って、上記構成および上記方法によれば、ユーザは、現時点の認識領域が適切でない場合に、修正動作を行うことにより、認識領域の大きさや位置を自分で修正することができる。
【0023】
また、本発明に係るジェスチャ認識装置は、外部の機器に対して、ジェスチャの認識結果に対応する処理を実行するように指示する機器制御手段をさらに備えた構成であってもよい。
【0024】
上記構成によれば、上述したようなジェスチャの認識結果に対応する処理が、外部の機器において実行される。上記外部の機器とは、例えば表示装置を備えた表示機器である。これにより、ユーザは、上記表示機器などの外部の機器を、ジェスチャで操作することができる。
【0025】
なお、上記ジェスチャ認識装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記ジェスチャ認識装置をコンピュータにて実現させるジェスチャ認識装置の制御プログラムも、本発明の範疇に入る。
【0026】
また、上記ジェスチャ認識装置と、上記ジェスチャ認識装置が保持する各種情報をユーザに表示するための表示装置とを備え、上記ジェスチャ認識装置によって動作制御が行われる表示機器も本発明の範囲に含まれる。
【発明の効果】
【0027】
以上のように、本発明に係るジェスチャ認識装置は、ジェスチャの種類を判定する判定手段と、上記判定手段によって判定されたジェスチャの種類に基づいて、動画像全体の領域のうちジェスチャが認識される領域である認識領域を規定する認識領域規定手段とを備えている。
【0028】
また、本発明に係る別のジェスチャ認識装置は、ジェスチャの種類を判定した後、判定されたジェスチャの種類に基づいて、動画像全体の領域のうちジェスチャが認識される領域である認識領域を規定する。
【0029】
これにより、ユーザが認識領域を規定することのできるジェスチャ認識装置を提供することができる。
【発明を実施するための形態】
【0031】
以下、本発明の実施の形態について、詳細に説明する。なお、以下の説明において、「右」や「左」は、動画像を視認する者から見た方向をあらわすものとする。
【0032】
〔実施形態1〕
本発明のジェスチャ認識装置1に関する実施の一形態について
図1〜
図4に基づいて説明すれば、以下のとおりである。
【0033】
(ジェスチャ認識装置1の構成)
まず、ジェスチャ認識装置1の構成について、
図1を用いて説明する。同図は、ジェスチャ認識装置1の構成を示すブロック図である。
【0034】
図1に示すように、ジェスチャ認識装置1は、動画撮影部11、制御手段12、および記憶部13を備えている。以下に、上記の各部材の詳細をそれぞれ説明する。
【0035】
(1.動画撮影部11)
動画撮影部11は、操作者を含む空間の画像を撮影するものである。動画撮影部11は、より詳細には、ジェスチャを行う主体となる操作者、および、ジェスチャ認識の対象となる操作者の手(認識対象物)を撮像し、動画データを生成する。また、動画撮影部11は、所定の時間(例えば1/15秒)ごとに撮影したフレーム画像を、制御手段12に出力する。
【0036】
(2.制御手段12)
制御手段12は、ジェスチャ認識装置1が備える各部を統括制御するものであり、形状認識手段(判定手段)121、動作範囲監視手段122、動作検出手段123、認識領域規定手段124、ジェスチャ認識手段125、および表示機器制御手段126を含む構成である。なお、制御手段12に含まれる各手段については、その詳細を後述する。
【0037】
(3.記憶部13)
記憶部13は、ジェスチャ認識装置1が扱う各種データを記憶するものであり、データを揮発的に記憶する一時記憶部と、データを不揮発的に記憶する記憶装置とを含む。上記一時記憶部は、ジェスチャ認識装置1が実行する各種処理の過程で、演算に使用するデータおよび演算結果等を一時的に記憶するいわゆるワーキングメモリであり、RAMなどで構成される。また、上記記憶装置は、制御手段12が実行する制御プログラムおよびOSプログラム、ならびに、ジェスチャ認識装置1が有する各種機能を実行するときに読み出す各種データを記憶するものであり、ROMなどで構成される。
【0038】
記憶部13は、以下の3つの内容を記憶している。
1.後述する手の形状1〜3を含む手形状リスト
2.形状2とした手の向きおよび/または変位と、下記認識領域OEの修正内容とを対応付ける認識領域修正テーブル
3.あるジェスチャを認識した場合に制御手段12により実行される処理内容を、ジェスチャの種類毎にそれぞれ示すジェスチャ−処理内容対応テーブル
なお、上記認識領域OEとは、上記ユーザが上記手を用いて行うジェスチャの種類に基づいて、動画像全体の領域のうちジェスチャが認識される領域のことである。
【0039】
(制御手段12の詳細な構成)
以下に、制御手段12の詳細な構成について、
図1〜
図3を用いて説明する。
【0040】
(1.形状認識手段121)
形状認識手段121は、操作者の手の形状として、特に以下の3つの形状1〜3を識別するものである。
形状1.5本の指(すなわち全ての指)を延ばした手
形状2.2本の指(例えば人差し指と中指)を延ばした手
形状3.1本の指(例えば人差し指)を延ばした手
(手の形状の認識方法について)
手の形状を認識する方法としては、以下の3つの方法を挙げることができる。
【0041】
第1に、手の形状毎にテンプレートを作成しておき、テンプレートマッチングの方法によって、動画像に写る手の形状を認識する方法。
【0042】
第2に、手の形状毎にそれぞれ用意した複数の学習サンプルを、統計学的学習方法によって学習しておき、学習された手の形状と動画像に写る手の形状との類似度を計算することによって、類似度の高さから動画像に写る手の形状を決定する方法。
【0043】
第3に、マルチクラス分類(多クラス識別)により、Randomized Treesなどの1つの決定木(識別器)を学習し、学習された決定木によって動画像に写る手の形状のクラスを決定する方法。
【0044】
(テンプレートマッチングについて)
テンプレートマッチングとは、撮影された動画像などのサンプルについて、予め準備したモデルとの一致(マッチング)の程度を計算する方法のことである。
【0045】
以下に、テンプレートマッチングの方法による手の形状認識の流れを簡単に説明する。なお、テンプレートマッチングのため、顔形状のテンプレートを予め記憶部13に記憶しておく。
【0046】
まず、動作検出手段123は、認識領域OEから、人間の肌の色を有する領域である肌色領域を抽出する。これにより、認識領域OE内にある操作者の手が抽出されることになる。次に、動作検出手段123は、抽出した肌色領域の形状について、記憶部13に予め記憶した形状1〜3の手形状のテンプレートとのテンプレートマッチングを行う。そして、動作検出手段123は、テンプレートマッチングの結果、肌色領域の形状との類似度が最も高い形状1〜3のいずれかを、上記肌色領域の形状から認識された手形状として決定する。ただし、動作検出手段123は、上記肌色領域の形状と、各テンプレートとの類似度がいずれも所定値より低い場合、形状1〜3のいずれにも該当しないと判定する。
【0047】
(2.動作範囲監視手段122)
動作範囲監視手段122は、操作者が形状3の形にした手を用いてジェスチャを行っている間、その手の先端部すなわち人差し指の先端F(
図3参照)の動作する動作範囲が、認識領域OEをはみ出すことがないかを監視するものである。言い換えれば、動作範囲監視手段122は、認識領域OEの内側から外側へ、認識領域OEの境界である四角形の各辺を人差し指の先端Fが横切らないかを監視する。
【0048】
なお、本実施形態のように、操作者が人差し指のみを延ばした手(形状3)によってジェスチャを行う場合、動作範囲監視手段122は、人差し指の先端Fを抽出する。しかしながら、本発明はこれに限られない。例えば、操作者が形状3以外の形状とした手を用いてジェスチャを行う場合、動作範囲監視手段122は、その手の特定部位が認識領域OEをはみ出すことがないかを監視する。
【0049】
(人差し指の先端Fの抽出について)
人差し指の先端Fを抽出するためには、操作者の手を抽出したのち、その手の人差し指を抽出するという過程を経る。まず、動画像から操作者の手を抽出するには、認識領域OEにおいて、動画像の前景を抽出すればよい。これにより、ジェスチャ実行時には動画撮影部11に対して最も近くに位置する操作者の手が抽出されることになる。あるいは、認識領域OE内において、肌色を有する領域を抽出してもよい。また、操作者の手から人差し指を抽出するには、縦方向に所定以上の長さで肌色が連続する一方、横方向には所定未満の長さで肌色が連続する、長細い形状を有する領域を抽出すればよい。これにより、人差し指のみを延ばした手が認識対象物である場合、人差し指が抽出されることになる。さらに、こうして抽出された長細い形状の領域の先端部を抽出すれば、人差し指の先端Fが抽出されることになる。
【0050】
(3.動作検出手段123)
動作検出手段123は、形状1または2の手の形状を作った操作者が行う設定動作および修正動作を検出するものである。ここで、上記設定動作および上記修正動作とは、動画像全体の領域のうちジェスチャが認識される領域である認識領域OE(
図3参照)を設定または修正するために操作者が行う動作のことである。以下に、動作検出手段123によって検出される設定動作および修正動作を示す。
設定動作:操作者が、形状1すなわち全ての指を延ばした形状を作った手を振る動作。
修正動作:操作者が、形状2すなわち人差し指および中指を延ばした手の形状を作り、延ばした2本の指を所定の方向に向ける動作。ここで、上記所定の方向とは、例えば左右方向、上下方向、または斜め方向である。
【0051】
ここで、上記設定動作における手を振る動作とは、詳細には、
図2の(a)に示すように、全ての指を延ばした形状とした手のひらをジェスチャ認識装置1(動画撮影部11)に向けた状態で、操作者が手を(上下左右いずれかの方向に)振る動作である。
【0052】
なお、上記修正動作において、動作検出手段123は、延ばした指が所定の方向に向けられたことを検出する代わりに、手が所定の方向に変位したことを検出する構成としてもよい。この場合、上記修正動作は、“操作者が、形状2すなわち人差し指および中指を延ばした手の形状を作り、その手を所定の方向に変位させる動作”となる。
【0053】
なお、上記設定動作および上記修正動作は上記の内容に限定されず、手の形状(例えば延ばされた指の本数)、手の向き(例えば、延ばされた指の方向)、および手の変位(例えば変位量)によって規定されるものであればよい。
【0054】
(手振り動作の検出方法について)
動作検出手段123は、操作者を撮影した動画のフレーム画像について、画像間における差分を抽出する。動作検出手段123は、例えば30フレーム分の画像に亘って画像間差分を抽出する処理を行い、こうして抽出された各差分を累積する。これにより、画像間において変位している領域、すなわち動いている領域が抽出されることになる。
図2の(a)に示す手振り動作を撮影した動画について、上記のように画像間差分を累積した差分累積結果を、
図2の(b)に示す。なお、
図2の(b)は、
図2の(a)において、Zで示す領域を拡大したものである。
図2の(b)においては、白色が強い領域ほど画像間差分の累積値が高いことを示している。動作検出手段123は、このようにして抽出された画像間差分の累積値が、所定値よりも大きい領域が存在する場合、手振り動作を検出したと判定する。
【0055】
(4.認識領域規定手段124)
認識領域規定手段124は、動作範囲監視手段122による動作範囲の監視結果、および動作検出手段123による修正動作および設定動作の検出結果に基づいて、認識領域OEの修正を行うものである。以下に、動作範囲監視手段122および動作検出手段123の検出結果による認識領域OEの修正および設定について、それぞれ詳細に説明する。
【0056】
(設定動作による認識領域OEの設定)
形状認識手段121により形状1の手の形が認識された場合、認識領域規定手段124は、動作検出手段123によって上記設定動作が検出された後、認識領域OEを設定する。このとき、認識領域規定手段124は、動作検出手段123が算出した上記差分累積結果に基づき、認識領域OEを設定する。具体的には、認識領域規定手段124は、画像間差分の累積値が所定値以上である点(画素)をすべて含み、かつ、画像の上下および左右方向に平行な辺を有する最小の四角形の領域を算出する。認識領域規定手段124は、こうして算出された四角形の領域を認識領域OEとして設定する(
図2(b)参照)。
【0057】
さて、特許文献1に記載された従来のジェスチャ認識装置では、まず顔領域を算出して、この顔領域に基づき、ジェスチャを認識する領域を設定していた。そのため、操作者が動画撮影部に近づきすぎた場合など、動画像に操作者の顔が映らない場合、上記従来のジェスチャ認識装置では、ジェスチャを認識する領域を設定することができなかった。一方、本実施形態に係るジェスチャ認識装置1では、認識領域規定手段124は、上記のように操作者の顔の位置を特定することなく、認識領域OEの設定を行う。従って、たとえ動画像に操作者の顔が映らない場合であっても、認識領域OEの設定を行うことができる。
【0058】
(修正動作による認識領域OEの修正)
形状認識手段121により形状2の手の形が認識された場合、認識領域規定手段124は、前述した修正動作に基づいて、認識領域OEの修正を行う。
【0059】
認識領域規定手段124は、以下のように、上記認識領域修正テーブルを参照することにより、動作検出手段123によって検出された修正動作に対応する修正内容で、認識領域OEを修正する。
【0060】
操作者が手で形状2の形を作り、延ばした指(人差し指および中指)をある方向に向ける修正動作を、動作検出手段123が検出した場合、認識領域規定手段124は、人差し指および中指が延ばされた方向に基づいて、認識領域OEの修正を行う。例えば、動作検出手段123は、人差し指および中指を左方向/右方向に向ける修正動作を検出した場合、認識領域を右方向/左方向に所定の割合(例えば、認識領域の左右方向の長さの10%)で拡大する。また、動作検出手段123は、人差し指および中指を上方向/下方向に向ける修正動作を検出した場合、認識領域を上方向/下方向に所定の割合(例えば、認識領域の上下方向の長さの10%)で拡大する。さらに、動作検出手段123は、人差し指および中指を斜め方向に向ける修正動作を検出した場合、認識領域を横方向および縦方向に所定の割合(例えば、各辺の長さの10%)で、それぞれ拡大する。
【0061】
また、上記修正動作において、前述のように、手を所定の方向に変位させることを、延ばした指を所定の方向に向けることの代わりとする構成としてもよい。この構成の場合、手を所定の方向に動かしたときの手の変位量に応じて、認識領域OEの修正内容を異なるものとしてもよい。例えば、操作者が所定の距離より短い距離で手を動かした場合、認識領域規定手段124は、認識領域OEを10%の割合で拡大する一方、操作者が所定の距離以上の距離で手を動かした場合、認識領域規定手段124は、認識領域OEを20%の割合で拡大してもよい。
【0062】
なお、上記のように認識領域OEを拡大する構成以外にも、操作者が、人差し指、中指、および薬指を延ばした手の形状を作り、延ばした3本の指を所定の方向に向ける動作を行った場合に、認識領域規定手段124は、指が延ばされた方向に基づいて、認識領域OEを規定する四角形の各辺のうち、指が延ばされた側の辺の長さを10%の割合で縮小する修正を行う構成としてもよい。
【0063】
このように、本発明は、操作者が手の形状・向きや変位によって規定される修正動作によって認識領域OEの修正を行うことができるので、以下のような利点を有する。
【0064】
操作者が動画撮影部11から遠くに位置する場合、操作者が動画撮影部11の近くに位置する場合と比べて、操作者がジェスチャを行ったときの該ジェスチャの解像度が低くなる。その結果、ジェスチャ認識の精度が低下する。そのため、操作者が動画撮影部11から離れてジェスチャを行う場合、ジェスチャ認識の精度を保つためには、認識領域を拡大する修正が必要となる。しかしながら、特許文献1および2に記載された従来のジェスチャ認識装置では、操作者が動画像における認識領域の範囲を修正することはできない。一方、本実施形態に係るジェスチャ認識装置1では、上述した修正動作または設定動作を行うことによって、操作者が認識領域OEを拡大することができる。すなわち、本発明によれば、操作者は、動画撮影部11から自分までの距離に応じて、認識領域OEが適切な範囲となるように調整することができる。
【0065】
(動作範囲の監視結果による認識領域OEの修正)
形状認識手段121により形状3の手の形が認識された場合、認識領域規定手段124は、以下のように、動作範囲監視手段122による動作範囲の監視結果に基づいて、認識領域OEの修正を行う。
【0066】
認識領域規定手段124は、操作者の人差し指先端Fが認識領域OEからはみ出したことを動作範囲監視手段122が検出した場合、認識領域OEの各辺について、所定の長さ、例えば各辺の10%の割合で拡大する。あるいは、認識領域規定手段124は、人差し指の先端Fが認識領域OEをはみ出たときに横切った認識領域OEの辺が右/左の辺であった場合、認識領域OEを右方向/左方向に10%の割合で拡大してもよい。同様に、認識領域規定手段124は、人差し指の先端Fが認識領域OEをはみ出たときに横切った認識領域OEの辺が上/下の辺であった場合、認識領域OEを上方向/下方向に10%の割合で拡大してもよい。
【0067】
なお、認識領域規定手段124は、人差し指先端Fが認識領域OEから1度または所定の回数はみ出したことを動作範囲監視手段122が検出した場合に、認識領域OEを拡大してもよいし、あるいは、人差し指先端Fが認識領域OEから所定以上の頻度(例えば100フレームの間に5回)ではみ出したことを動作範囲監視手段122が検出した場合に、認識領域OEを拡大してもよい。その他、認識領域規定手段124は、人差し指の先端Fが所定以上の変位速度で認識領域OEからはみ出したことを動作範囲監視手段122が検出した場合に、認識領域OEを上述のように拡大する修正を行ってもよい。ここで、上記所定以上の速さとは、例えば、1フレーム間(1/15秒間に相当)に、認識領域OEの辺の長さの10%以上、人差し指の先端Fが変位する速さである。
【0068】
(5.ジェスチャ認識手段125)
ジェスチャ認識手段125は、認識領域OE(OE´)内において、操作者の手の位置、形状、向き、および変位を認識することによってジェスチャ認識を行う。なお、ジェスチャ認識の方法としては、HMM(Hidden Markov Model;隠れマルコフモデル)あるいは連続DP(Continuous Dynamic Programming)などを使用することができる。
【0069】
ジェスチャ認識を行うためには、HMMを用いた方法を使用することができる。HMMを用いた方法では、予め、ジェスチャ認識装置1が認識するジェスチャの種類毎のモデルを、ジェスチャデータベースとして記憶部13に記憶しておく。その後、ジェスチャ認識装置1に入力された画像に対して、ジェスチャ認識手段125は、上記ジェスチャデータベースに含まれる各モデルの尤度を計算する。その結果、入力画像に対する尤度値が所定値以上である1つまたは複数のモデルが発見された場合、ジェスチャ認識手段125は、それらのモデルのうち尤度が最も高いモデルに対応するジェスチャを、入力画像から認識したジェスチャとして、表示機器制御手段126に送出する。
【0070】
なお、ジェスチャ認識手段125は、上述のようにHMMを用いたジェスチャ認識を行う他に、人差し指先端Fの変位測定を行う。これにより、後述するように、表示機器1000に表示したポインタP(
図5参照)を、人差し指先端Fの動作に連動させる構成を実現することができる。
【0071】
(6.表示機器制御手段126)
表示機器制御手段126は、ジェスチャ認識装置1外部の表示機器において、ジェスチャ認識手段125によるジェスチャ認識結果に対応する処理が実行されるよう制御するものである。詳細には、表示機器制御手段126は、上記ジェスチャ−処理内容対応テーブルを参照し、認識されたジェスチャに対応する処理を実行するよう、上記表示機器を制御する。
【0072】
次に、
図1、
図5を参照しつつ、表示機器制御手段126による表示機器1000の制御を例に挙げて説明する。まず、表示機器制御手段126は、ジェスチャ認識結果に基づいて決定した処理内容を指示する制御信号を、表示機器1000が備えた制御機能部(図示せず)に送信する。すると、上記制御機能部は、表示機器制御手段126の送信した制御信号を受信して、上記処理内容を実行する。上記処理内容とは、例えば、人差し指先端Fの変位を認識した結果に基づき、表示装置2に表示されたポインタPを人差し指先端Fと連動させる処理である。あるいは、上記処理内容は、操作者が手で所定の形状を作るジェスチャを行った場合に、上記ポインタPと重なる位置に表示されているアイコンが選択される処理である。このように、操作者は、表示装置2の画面に接触したりグローブなどの装具を使用したりすることなく、自身の手を用いた簡単なジェスチャによって、表示機器1000の操作を行うことができる。
【0073】
(ジェスチャ監視処理の流れ)
ここでは、制御手段12によって実行されるジェスチャ監視処理の流れについて、
図4に示すフローチャートを用いて説明する。ジェスチャ監視処理では、操作者が自身の手を用いてジェスチャを行っている間、その手による修正動作および設定動作が検出されるとともに、人差し指先端Fの動作範囲の監視が行われる。そして、上記修正動作、上記設定動作、および上記動作範囲の監視結果に基づき、認識領域OEが修正または設定される。以下に、ジェスチャ監視処理について詳細に説明する。
【0074】
まず、形状認識手段121は、操作者が手を用いてジェスチャを行っている間、その手の形状を認識する(S101)。
【0075】
形状認識手段121によって形状1の手の形が認識された場合、動作検出手段123は、手振り動作の範囲に基づき、認識領域OEを設定する(S102A)。あるいは、すでに認識領域OEが設定済であった場合、動作検出手段123は、手振り動作の範囲に基づき、認識領域OE´を再設定する。
【0076】
または、形状認識手段121によって形状2の手の形が認識された場合、認識領域規定手段124は、上記修正動作に基づき、認識領域OEの修正を行う(S102B)。
【0077】
または、形状認識手段121によって形状3の手の形が認識された場合、動作範囲監視手段122は、認識領域OE内でジェスチャを行うために動作する手の人差し指先端Fが、認識領域OEからはみ出ないか監視する(S102C)。言い換えれば、動作範囲監視手段122は、人差し指先端Fの動作範囲を監視する。なお、このとき、ジェスチャ認識手段125は、例えば人差し指先端Fの変位を計測するなどのジェスチャ認識を行っている。そして、認識領域規定手段124は、動作範囲監視手段122が人差し指先端Fの動作範囲を監視している間、認識領域OEの修正を行う必要があるか否かを判定する(S103C)。このとき、認識領域規定手段124は、詳細には、人差し指先端Fが認識領域OEからはみ出したことを、所定時間内に1度または所定回数以上、あるいは所定以上の頻度で動作範囲監視手段122が検出した場合に、認識領域OEを修正することを決定する。認識領域規定手段124は、認識領域OEの修正を行う必要があると判定した場合(S103Cでyes)、上記修正動作に基づき、認識領域OEの修正を行う(S104C)。一方、認識領域規定手段124は、認識領域OEの修正を行う必要がないと判定した場合(S103Cでno)、認識領域OEの修正は行わない。
【0078】
または、形状認識手段121によって形状1〜3以外の手の形が認識された場合、ジェスチャ認識手段125によって、操作者の手によるジェスチャが認識される(S102D)。
【0079】
上記ステップS102A、S102B、S104C、またはS102Dが終了した後、形状認識手段121が操作者の手の形状を認識する処理(S101)に戻る。
【0080】
(まとめ)
以上のように、本発明に係るジェスチャ認識装置1は、特定の手の形状1〜3を認識した場合に、認識領域OEの規定(設定あるいは修正)を行う。しかしながら、本発明は、これに限られない。すなわち、操作者が手を用いて行うジェスチャの種類に基づいて、認識領域規定手段124が認識領域OEを規定する構成ならば、本発明の範囲内に含まれる。なお、上記ジェスチャの種類は、操作者がジェスチャを行う手の形状、向き、および/または変位によって規定されるものであればよい。特に、上記手の変位は、手の変位量、変位方向、または変位速度であってもよい。
【0081】
〔実施形態2〕
本実施形態に係る表示機器1000について、
図5に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、実施形態1で説明した図面と同じ機能を有する部材については、同じ符号を付記して、その説明を省略することとする。
【0082】
(表示機器1000の構成)
図5として外観図を示す表示機器1000は、前記実施形態1のジェスチャ認識装置1と、表示装置2とを備えたものである。なお、表示機器1000は、具体的にはパーソナルコンピュータである。しかしながら、本発明はこれに限られず、表示機器1000は、テレビジョン受像機、インターネットテレビ、またはタブレット端末など、制御機能および表示機能を有する各種表示機器であってよい。
【0083】
また、
図5では、ジェスチャ認識装置1が表示装置2の上側に設置されているが、ジェスチャ認識装置1が設置される位置について特に制限はなく、表示装置2の下側・左側・右側に設置されてもよいし、または表示装置2と一体となった構成であってもよい。ジェスチャ認識装置1と表示装置2とが一体となった構成としては、例えば、表示装置2の画面の周りを囲うフレーム部分に、動画撮影部11が埋め込まれた構成としてもよい。さらに、表示装置2がウェブカメラを備えている場合には、このウェブカメラを動画撮影部11の代用とすることができる。この場合、表示機器1が備えた制御機能部(図示せず)に、ジェスチャ認識装置1の制御手段12を含むことにより、ジェスチャ認識装置1の全体がソフトウェア的に実現されることになる。
【0084】
(表示機器1の制御について)
本実施形態における表示機器制御手段126は、ジェスチャ認識手段125から取得したジェスチャ認識結果に基づいて、表示装置2における表示を制御する。表示機器制御手段126は、例えば、上記表示機器1000がさらに備えた制御機能部と協働することによって、表示装置2に表示されたポインタPの動作を制御する。具体的には、ジェスチャ認識装置1が認識対象物(人差し指のみを延ばした手)のジェスチャを認識した結果に基づき、ポインタPは、認識対象物のジェスチャに対応する動作をする。例えば、操作者が認識領域OE内において人差し指を動かすと、表示装置2の画面内において、ポインタPが人差し指の動いた距離・方向で連動する。このように、操作者は、表示装置2の画面に接触したり、あるいはリモコンなどの道具を使用したりすることなく、画面に表示されたポインタPを操作することができる。
【0085】
次に、表示機器1000の使用例を挙げて、表示機器制御手段126の詳細な処理について説明する。まず、操作者が、認識領域OE内で、認識対象物(手)を用いたジェスチャを行う。認識対象物のジェスチャは動画撮影部11によって撮影されて、ジェスチャ認識手段125によって認識された後、表示機器制御手段126に入力される。すると、表示機器制御手段126は、ジェスチャの認識結果に基づいて決定したポインタPの制御内容を、表示装置2が備えた上記制御機能部に送信する。そして、上記制御機能部は、表示機器制御手段126と協働することにより、表示装置2に表示されたポインタPの動作を制御する。なお、表示機器制御手段126は、単にポインタPの変位を制御するだけでなく、認識対象物の形状に対応する処理内容を上記制御機能部に実行させることができる構成であってもよい。これにより、例えば、操作者が手を握る動作を行った場合、表示機器制御手段126は、ポインタPと重なる位置に表示されているアイコンが選択されるよう制御するといったことが可能となる。
【0086】
なお、本発明は上述した各実施形態1、2に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、実施形態1、2および変形例にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
【0087】
〔ソフトウェアによる実現例〕
最後に、ジェスチャ認識装置1の各ブロック、特に制御手段12に含まれる各手段は、集積回路(ICチップ)上に形成された論理回路によってハードウェア的に実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェア的に実現してもよい。
【0088】
後者の場合、ジェスチャ認識装置1は、各機能を実現するプログラムの命令を実行するCPU、上記プログラムを格納したROM(Read Only Memory)、上記プログラムを展開するRAM(Random Access Memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアであるジェスチャ認識装置1の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記ジェスチャ認識装置1、2に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
【0089】
上記記録媒体としては、一時的でない有形の媒体(non-transitory tangible medium)、例えば、磁気テープやカセットテープ等のテープ類、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク類、ICカード(メモリカードを含む)/光カード等のカード類、マスクROM/EPROM/EEPROM(登録商標)/フラッシュROM等の半導体メモリ類、あるいはPLD(Programmable logic device)やFPGA(Field Programmable Gate Array)等の論理回路類などを用いることができる。
【0090】
また、ジェスチャ認識装置1を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークは、プログラムコードを伝送可能であればよく、特に限定されない。例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(Virtual Private Network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な媒体であればよく、特定の構成または種類のものに限定されない。例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL(Asymmetric Digital Subscriber Line)回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、IEEE802.11無線、HDR(High Data Rate)、NFC(Near Field Communication)、DLNA(Digital Living Network Alliance)、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。