特表-18042751IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧
再表2018-42751ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法
<>
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000004
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000005
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000006
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000007
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000008
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000009
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000010
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000011
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000012
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000013
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000014
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000015
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000016
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000017
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000018
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000019
  • 再表WO2018042751-ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法 図000020
< >
(19)【発行国】日本国特許庁(JP)
【公報種別】再公表特許(A1)
(11)【国際公開番号】WO/0
(43)【国際公開日】2018年3月8日
【発行日】2018年12月27日
(54)【発明の名称】ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法
(51)【国際特許分類】
   G06F 3/01 20060101AFI20181130BHJP
   G06T 7/20 20170101ALI20181130BHJP
【FI】
   G06F3/01 570
   G06T7/20 300A
【審査請求】有
【予備審査請求】未請求
【全頁数】30
【出願番号】特願2018-536928(P2018-536928)
(21)【国際出願番号】PCT/0/0
(22)【国際出願日】2017年4月21日
(31)【優先権主張番号】特願2016-170502(P2016-170502)
(32)【優先日】2016年9月1日
(33)【優先権主張国】JP
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ
(71)【出願人】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100116964
【弁理士】
【氏名又は名称】山形 洋一
(74)【代理人】
【識別番号】100120477
【弁理士】
【氏名又は名称】佐藤 賢改
(74)【代理人】
【識別番号】100135921
【弁理士】
【氏名又は名称】篠原 昌彦
(74)【代理人】
【識別番号】100083840
【弁理士】
【氏名又は名称】前田 実
(72)【発明者】
【氏名】中村 雄大
(72)【発明者】
【氏名】神谷 雅志
(72)【発明者】
【氏名】内藤 正博
【テーマコード(参考)】
5E555
5L096
【Fターム(参考)】
5E555AA11
5E555BA38
5E555BB38
5E555BC04
5E555CA42
5E555CB66
5E555FA00
5L096CA04
5L096FA19
5L096FA69
5L096FA77
5L096GA51
5L096HA04
(57)【要約】
ジェスチャー判定装置100は、基準部位領域を示す基準部位情報Am(k)を出力する基準部位検出部10と、動き領域を示す動き情報Bm(k)を出力する動き抽出部20と、基準部位消失判定結果Cm(k)を生成する基準部位消失判定部30と、基準部位消失情報が示す第1のタイミングと、動き領域が基準部位情報が示す基準部位領域と重なるフレームが発生した第2のタイミングとが同期するか否かを判定し、判定の結果であるタイミング判定結果Dm(k)を出力するタイミング判定部40と、タイミング判定結果と動き情報とから操作者によるジェスチャー操作の内容を判定する操作判定部50とを有する。
【特許請求の範囲】
【請求項1】
操作者によるジェスチャー操作の内容を判定するジェスチャー判定装置であって、
撮像画像として順次取得される複数のフレーム画像から基準部位を検出し、前記複数のフレーム画像の各々について前記基準部位が存在する基準部位領域を示す基準部位情報を出力する基準部位検出部と、
前記複数のフレーム画像においてフレーム画像間の動きを抽出し、前記動きが生じた動き領域を示す動き情報を出力する動き抽出部と、
前記基準部位情報が示す前記検出の結果から、前記基準部位が検出されないフレーム画像が発生した第1のタイミングを示す基準部位消失情報を生成する基準部位消失判定部と、
前記基準部位消失情報が示す前記第1のタイミングと、前記動き情報が示す前記動き領域と前記基準部位情報が示す前記基準部位領域とが重なるフレームが発生した第2のタイミングとが同期するか否かを判定し、前記判定の結果であるタイミング判定結果を出力するタイミング判定部と、
前記タイミング判定結果と前記動き情報とからジェスチャー操作の内容を判定する操作判定部と
を有することを特徴とするジェスチャー判定装置。
【請求項2】
撮像画像として順次取得される複数のフレーム画像から操作者の身体の部位を基準部位として検出し、前記複数のフレーム画像の各々について前記基準部位が存在する基準部位領域を示す基準部位情報を出力する基準部位検出部と、
前記複数のフレーム画像においてフレーム画像間の動きを抽出し、前記動きが生じた動き領域を示す動き情報を出力する動き抽出部と、
前記基準部位情報が示す前記検出の結果から、前記基準部位が検出されないフレーム画像が発生した第1のタイミングを示す基準部位消失情報を生成する基準部位消失判定部と、
前記基準部位消失情報が示す前記第1のタイミングと、前記動き情報が示す前記動き領域と前記基準部位情報が示す前記基準部位領域とが重なるフレームが発生した第2のタイミングとが同期するか否かを判定し、前記判定の結果であるタイミング判定結果を出力するタイミング判定部と、
前記タイミング判定結果と前記動き情報とから前記操作者によるジェスチャー操作の内容を判定する操作判定部と
を有することを特徴とするジェスチャー判定装置。
【請求項3】
前記操作判定部は、前記第1のタイミングより前の第3のタイミングにおいて、前記動き領域が前記基準部位領域の第1の側に検出され、前記第1のタイミングの後の第4のタイミングにおいて、前記動き領域が前記基準部位領域の前記第1の側とは反対の第2の側に検出されたときに、前記動き情報が前記操作者のジェスチャー操作によるものであると判定する
ことを特徴とする請求項1または2に記載のジェスチャー判定装置。
【請求項4】
前記操作判定部は、前記第1のタイミングより前の第3のタイミングにおいて、前記動き領域が前記基準部位領域の第1の側に検出され、前記第1のタイミングの後の第4のタイミングにおいて、前記動き領域が前記基準部位領域の前記第1の側に検出されたときに、前記動き情報が前記操作者のジェスチャー操作によるものであると判定する
ことを特徴とする請求項1または2に記載のジェスチャー判定装置。
【請求項5】
前記基準部位領域は矩形領域であることを特徴とする請求項1から4のいずれか1項に記載のジェスチャー判定装置。
【請求項6】
前記基準部位検出部は、前記基準部位以外の他の基準部位を検出し、前記他の基準部位についての他の基準部位情報を出力し、
前記基準部位消失判定部は、前記他の基準部位情報が示す前記検出の結果から、他の基準部位消失情報を生成し、
前記タイミング判定部は、前記他の基準部位消失情報についての前記判定の結果から他のタイミング判定結果を出力し、
前記操作判定部は、前記他のタイミング判定結果と前記動き情報とから前記操作者によるジェスチャー操作の内容を判定する
ことを特徴とする請求項1から5のいずれか1項に記載のジェスチャー判定装置。
【請求項7】
前記タイミング判定部は、前記複数の基準部位情報が消失する順番に関する情報を前記タイミング判定結果として出力する
ことを特徴とする請求項6に記載のジェスチャー判定装置。
【請求項8】
前記基準部位は、前記操作者の顔または顔に属する部位であることを特徴とする請求項1から7のいずれか1項に記載のジェスチャー判定装置。
【請求項9】
前記撮像画像における手の領域の形状を抽出し、前記抽出の結果である手形状抽出結果を出力する形状抽出部を更に有し、
前記操作判定部は、前記手形状抽出結果と前記タイミング判定結果と前記動き情報とから前記操作者によるジェスチャー操作の内容を判定する
ことを特徴とする請求項1から8のいずれか1項に記載のジェスチャー判定装置。
【請求項10】
前記操作判定部は、前記動き情報から算出した動き評価値が予め定められた閾値以下である場合に前記手形状抽出結果と前記タイミング判定結果と前記動き情報とから前記操作者によるジェスチャー操作の内容を判定する
ことを特徴とする請求項9に記載のジェスチャー判定装置。
【請求項11】
前記形状抽出部は、前記基準部位領域を基準として設定される形状抽出対象領域内において、前記手の領域の形状の抽出を行う
ことを特徴とする請求項9又は10に記載のジェスチャー判定装置。
【請求項12】
前記基準部位情報と前記基準部位消失情報とから、操作者が前記撮像画像におけるどの人物であるかを判定し、前記判定の結果である操作者判定結果を出力する操作者判定部を更に有し、
前記操作判定部は、前記操作者判定結果と前記タイミング判定結果と前記動き情報とから前記操作者によるジェスチャー操作の内容を判定する
ことを特徴とする請求項1から11のいずれか1項に記載のジェスチャー判定装置。
【請求項13】
前記操作者判定結果は操作者の位置を特定する位置情報を含むことを特徴とする請求項12に記載のジェスチャー判定装置。
【請求項14】
前記操作者判定結果は操作者の顔認証情報を含むことを特徴とする請求項12に記載のジェスチャー判定装置。
【請求項15】
請求項1から14のいずれか1項に記載のジェスチャー判定装置と、
前記操作判定部により判定された前記ジェスチャー操作の内容から機器を操作するための操作コマンドを生成するコマンド生成部と
を有することを特徴とするジェスチャー操作装置。
【請求項16】
外部機器へ操作コマンドを送信するための通信部を更に有することを特徴とする請求項15に記載のジェスチャー操作装置。
【請求項17】
撮像画像として順次取得される複数のフレーム画像から基準部位を検出し、前記複数のフレーム画像の各々について前記基準部位が存在する基準部位領域を示す基準部位情報を出力する基準部位検出ステップと、
前記複数のフレーム画像においてフレーム画像間の動きを抽出し、前記動きが生じた動き領域を示す動き情報を出力する動き抽出ステップと、
前記基準部位情報が示す前記検出の結果から、前記基準部位が検出されないフレーム画像が発生した第1のタイミングを示す基準部位消失情報を生成する基準部位消失判定ステップと、
前記基準部位消失情報が示す前記第1のタイミングと、前記動き情報が示す前記動き領域と前記基準部位情報が示す前記基準部位領域とが重なるフレームが発生した第2のタイミングとが同期するか否かを判定し、前記判定の結果であるタイミング判定結果を出力するタイミング判定ステップと、
前記タイミング判定結果と前記動き情報とから操作者によるジェスチャー操作の内容を判定する操作判定ステップと
を有することを特徴とするジェスチャー判定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、操作者によるジェスチャー操作の内容を判定するジェスチャー判定装置、ジェスチャー操作の内容から機器を操作するための操作コマンドを生成するジェスチャー操作装置、及び操作者によるジェスチャー操作の内容を判定するためのジェスチャー判定方法に関する。
【背景技術】
【0002】
家電機器及び車両搭載機器等の機器操作においては、リモコンを用いることなく、また操作パネルに触れることなく操作を行うことが可能な、手の動きによるジェスチャー操作が有効である。また、公共施設や工場におけるデジタルサイネージ等の機器操作においては、全ての操作者がリモコンを持つことは想定しにくく、かつ大型の表示機器が多いため、タッチパネルの活用が難しい。そのため、上記特徴を持つジェスチャー操作が有効である。このようなジェスチャー操作を実現するためには、例えば、操作者をカメラ等の撮像装置によって複数フレーム撮像し、フレーム間の動きを検出することでジェスチャー操作を判定する。しかし、この手法は、車内環境等、背景が著しく変化する環境下ではジェスチャーの誤判定が生じやすく、また、ジェスチャー操作と操作者の意図しない動きとを弁別するのが難しいという課題がある。
【0003】
この課題の解決のため、操作者の顔位置を基準にジェスチャー操作判定の対象領域を限定し、限定した領域に対して操作者の特定の動作を判定し、その動作が所定の期間継続的に行われたことを判定することでジェスチャー操作と背景の変化、あるいはジェスチャー操作と操作者の意図しない動きとを弁別し、ジェスチャー判定の精度を高める技術がある(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2012−58928号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の技術においては、ジェスチャーの判定精度を高めるために操作者が所定の動作を所定の期間継続して行う必要があり、手を振り払う操作(以降「スワイプ」とも言う)等、短時間で実行可能なジェスチャー操作の判定には不向きである。
【0006】
本発明は、上記従来技術の課題を解決するためになされたものであり、操作者が短時間のジェスチャー操作を行った場合であっても、背景の変化及び操作者の意図しない動作によるジェスチャーの誤判定を低減し、高精度なジェスチャー判定を可能にすることを目的とする。
【課題を解決するための手段】
【0007】
本発明に係るジェスチャー判定装置は、操作者によるジェスチャー操作の内容を判定するジェスチャー判定装置であって、撮像画像として順次取得される複数のフレーム画像から基準部位を検出し、前記複数のフレーム画像の各々について前記基準部位が存在する基準部位領域を示す基準部位情報を出力する基準部位検出部と、前記複数のフレーム画像においてフレーム画像間の動きを抽出し、前記動きが生じた動き領域を示す動き情報を出力する動き抽出部と、前記基準部位情報が示す前記検出の結果から、前記基準部位が検出されないフレーム画像が発生した第1のタイミングを示す基準部位消失情報を生成する基準部位消失判定部と、前記基準部位消失情報が示す前記第1のタイミングと、前記動き情報が示す前記動き領域と前記基準部位情報が示す前記基準部位領域とが重なるフレームが発生した第2のタイミングとが同期するか否かを判定し、前記判定の結果であるタイミング判定結果を出力するタイミング判定部と、前記タイミング判定結果と前記動き情報とから前記操作者によるジェスチャー操作の内容を判定する操作判定部とを有することを特徴とする。
【0008】
本発明に係るジェスチャー操作装置は、上述したジェスチャー判定装置と、前記操作判定部により判定された前記ジェスチャー操作の内容から機器を操作するための操作コマンドを生成するコマンド生成部とを有することを特徴とする。
【0009】
本発明に係るジェスチャー判定方法は、撮像画像として順次取得される複数のフレーム画像から基準部位を検出し、前記複数のフレーム画像の各々について前記基準部位が存在する基準部位領域を示す基準部位情報を出力する基準部位検出ステップと、前記複数のフレーム画像においてフレーム画像間の動きを抽出し、前記動きが生じた動き領域を示す動き情報を出力する動き抽出ステップと、前記基準部位情報が示す前記検出の結果から、前記基準部位が検出されないフレーム画像が発生した第1のタイミングを示す基準部位消失情報を生成する基準部位消失判定ステップと、前記基準部位消失情報が示す前記第1のタイミングと、前記動き情報が示す前記動き領域と前記基準部位情報が示す前記基準部位領域とが重なるフレームが発生した第2のタイミングとが同期するか否かを判定し、前記判定の結果であるタイミング判定結果を出力するタイミング判定ステップと、前記タイミング判定結果と前記動き情報とから操作者によるジェスチャー操作の内容を判定する操作判定ステップとを有することを特徴とする。
【発明の効果】
【0010】
本発明に係るジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法によれば、操作者が短時間のジェスチャー操作を行った場合であっても、背景の変化及び操作者の意図しない動作によるジェスチャーの誤判定を低減し、高精度なジェスチャー判定を可能にすることができる。
【図面の簡単な説明】
【0011】
図1】本発明の実施の形態1に係るジェスチャー判定装置の概略的な構成を示すブロック図である。
図2】実施の形態1のテクスチャ特徴の算出におけるブロックの配置を示す図である。
図3】実施の形態1のCSLBP特徴の算出に用いられる画素の配置を示す図である。
図4】実施の形態1のテクスチャ特徴算出におけるブロック内のセルの配置を示す図である。
図5】実施の形態1のジェスチャー操作を表す一連の動作の例(画像上左側から右側へ手を振る動作)を示す図である。
図6】実施の形態1のジェスチャー操作を表す一連の動作(画像上左側から右側へ手を振る動作)を行った場合の動き領域とその重心の位置を示す図である。
図7】実施の形態1のタイミング判定部の状態遷移図の一例を示す図である。
図8】実施の形態1における基準部位情報に基づいて3つの領域の定義を説明した図である。
図9】実施の形態1のジェスチャー操作を表す一連の動作の例(画像上左側から顔の目の前に一度手を移動させてから、左側へ手を振り戻す動作)を示す図である。
図10】実施の形態1に係るジェスチャー判定装置の処理を示すフローチャートである。
図11】本発明の実施の形態2に係るジェスチャー判定装置の概略的な構成を示すブロック図である。
図12】(a)から(c)は、実施の形態2における手の形状の種類を示す図である。
図13】本発明の実施の形態3に係るジェスチャー判定装置の概略的な構成を示すブロック図である。
図14】本発明の実施の形態4に係るジェスチャー判定装置の概略的な構成を示すブロック図である。
図15】本発明の実施の形態5に係るジェスチャー操作装置の概略的な構成を示すブロック図である。
図16】本発明の実施の形態6に係るジェスチャー操作装置の概略的な構成を示すブロック図である。
図17】変形例における制御部の構成を示す図である。
【発明を実施するための形態】
【0012】
≪1≫実施の形態1
≪1−1≫構成
図1は、本発明の実施の形態1に係るジェスチャー判定装置100の概略的な構成を示すブロック図である。ジェスチャー判定装置100は、実施の形態1に係るジェスチャー判定方法を実行することができる装置である。図1に示されるように、ジェスチャー判定装置100は基準部位検出部10と、動き抽出部20と、基準部位消失判定部30と、タイミング判定部40と、操作判定部50とを備える。
【0013】
まず、ジェスチャー判定装置100の概要を説明する。ジェスチャー判定装置100は、操作者を含む空間を予め定められたフレームレートで撮像した、該空間の動画像を表す一連のフレームの画像データ(撮像画像)Im(k)を受け取る。ここで、kは、それぞれフレームに割り当てられるフレーム番号(正の整数)を示す。例えば、Im(k)の次のタイミングで与えられるフレームはIm(k+1)と表記する。
【0014】
フレームレートは、例えば、1秒間に30フレームが好ましい。画像データは、例えば、カラー画像、グレースケール画像、又は距離画像である。以降では、説明を簡潔にするため、画像データが、幅640画素、高さ480画素の8bit階調のグレースケール画像の場合を説明する。図1に示されるように、ジェスチャー判定装置100は、一連のフレームの画像データIm(k)からジェスチャー判定結果Om(k)を出力するための一連の動作を行う。
【0015】
基準部位検出部10は、撮像装置からの入力情報として与えられた画像データIm(k)から操作者の基準となる部位(予め定められた身体部位としての基準部位)を少なくとも1つ検出し、基準部位を示す基準部位情報Am(k)を生成する。実施の形態1における基準部位は、操作者の顔であるものとして説明する。しかし、基準部位は、操作者の顔以外の部位であってもよい。例えば、顔に属する部位(顔、目、眉、鼻、口、おでこ、頬、顎など)であってもよいし、頭、肩などのような顔以外の身体部位であってもよい。
【0016】
基準部位情報Am(k)は、基準部位の検出の有無と、検出された基準部位の中心座標と、検出された基準部位のサイズ等の情報を含むことができる。生成された基準部位情報Am(k)は、動き抽出部20と基準部位消失判定部30へ供給される。また、基準部位検出部10は、一連のフレームの画像データIm(k)を動き抽出部20及び基準部位消失判定部30に対して出力する。
【0017】
動き抽出部20は、基準部位情報Am(k)と最新の画像データIm(k)とを受け取り、最新の画像データIm(k)と、Im(k)と異なるフレーム番号を持つ画像データのうち少なくとも1つの画像データIm(k−α)とから、基準部位付近においてフレーム間で動きの生じた領域を抽出し、抽出された動きの生じた領域を示す動き情報Bm(k)を生成する。ここで、αは1以上の整数である。動き情報Bm(k)は、画像データ間で動きの大きい領域の重心データを含む。生成された動き情報Bm(k)は、タイミング判定部40へ供給される。
【0018】
基準部位消失判定部30は、基準部位検出部10から画像データIm(k)と基準部位情報Am(k)を受け取り、図示しない記憶部に記憶している過去の基準部位情報Am(k−α)と比較して画像データIm(k)における基準部位の消失を判定し、基準部位が検出されないフレーム画像が発生したタイミング(第1のタイミング)を示す基準部位消失判定結果(基準部位消失情報)Cm(k)を生成する。ここで、αは、1以上の整数である。基準部位消失判定結果Cm(k)は、画像データIm(k)において基準部位が消失しているか否かの情報を含み、例えば、基準部位が消失していれば1、消失していなければ0を出力する。基準部位消失判定部30により生成された基準部位消失判定結果Cm(k)は、タイミング判定部40へ供給される。
【0019】
タイミング判定部40は、基準部位情報Am(k)と動き情報Bm(k)と基準部位消失判定結果Cm(k)を受け取り、動き情報Bm(k)が操作者のジェスチャーによるものか、それ以外の現象(背景の変化及び操作者の意図しない動き)によるものなのかを判定し、この判定の結果を示すタイミング判定結果Dm(k)を生成する。すなわち、タイミング判定部40は、基準部位消失判定結果Cm(k)が示す基準部位が検出されないフレーム画像が発生した第1のタイミングと、動き情報Bm(k)が示す動き領域と基準部位情報Am(k)が示す基準部位領域とが重なるフレームが発生した第2のタイミングとが同期するか否かを判定し、判定の結果であるタイミング判定結果Dm(k)を出力する。タイミング判定結果Dm(k)は操作判定部50へ供給される。
【0020】
操作判定部50は、タイミング判定部40から動き情報Bm(k)及びタイミング判定結果Dm(k)を受け取り、タイミング判定結果Dm(k)と少なくとも1つの過去のタイミング判定結果Dm(k−α)とからジェスチャー操作の内容を判定し、この判定の結果をジェスチャー判定結果Om(k)として出力する。ここで、αは、1以上の整数である。
【0021】
続いて、ジェスチャー判定装置100の動作をより詳しく説明する。基準部位検出部10は、入力として与えられる画像データIm(k)から予め定められた操作者の基準部位を少なくとも1つ検出し、基準部位情報Am(k)を生成する。以降では、説明を簡便にするため、基準部位が操作者の顔である場合を説明する。
【0022】
基準部位が操作者の顔である場合、基準部位情報Am(k)は、例えば、これらの基準部位の検出の有無と、操作者の顔を囲む矩形の中心座標Fc(Fcx,Fcy)と、この矩形の幅Fcw及び高さFchである。ここで、基準部位の検出の有無は、例えば、検出できた場合は1、検出できなかった場合は0とする。また、矩形の中心座標は、画像データ上の座標系で表現し、画像の左上を原点とし、画像右向きをx軸の正方向、下向きをy軸の正方向とする。操作者の顔の検出は、公知の手段を利用して実現することができる。例えば、Haar−like特徴量を使用したカスケード型の顔検出器を使用して、操作者の顔を囲う矩形領域を抽出することができる。
【0023】
動き抽出部20は、最新の画像データIm(k)を受け取り、最新の画像データIm(k)と、Im(k)と異なるフレーム番号を持つ画像データのうち少なくとも1つの画像データIm(k−α)とから、基準部位付近において画像データ間で動きの生じた領域を抽出し、この抽出結果に基づいて動き情報Bm(k)を生成する。以降では、説明を簡便にするために、基準部位情報Am(k)と、最新の画像データIm(k)と、図示しない記憶部に記憶されている1フレーム過去の画像データIm(k−1)とから、動き情報Bm(k)を生成するものとする。動き情報Bm(k)は、画像データ間で動きの大きい領域の重心データを含む。
【0024】
画像データ間での動きの大きさを評価するためには、公知の技術を用いることができる。例えば、画像を複数の矩形領域(動き特徴抽出ブロック。以降、単に「ブロック」とも表記する。)に分割し、各ブロックにおいてテクスチャ(見え方)を表現する特徴(テクスチャ特徴TF)を算出し、画像データ間で差を評価する。すると、動きの大きいブロックでは、画像データ間で見え方の差が大きくなり、テクスチャ特徴の差が大きくなることから、画像データ間での動きの大きさをセルごとに評価することができる。
【0025】
以降では、環境光の変動による影響を受けにくいCSLBP(Center Symmetric Local Binary Pattern)特徴のヒストグラムをセル毎に算出し、画像データ間での動きの大きいセルを評価し、動きのある領域を抽出する。CSLBP特徴は、各画素について当該画素を中心とする正方形の特徴抽出領域内の画素について、輝度勾配をバイナリコード化した特徴である。
【0026】
まず、画像データ上のブロックの配置について図2を参照して説明する。図2は、実施の形態1のテクスチャ特徴の算出におけるブロックの配置を示す図である。図2に示されるように、ブロックの中心は、画像データ上に格子状(x軸方向にM個、y軸方向にN個)に配置する。Mは正の整数であり、Nは正の整数である。図2に示されるブロックのサイズは、幅Blw、高さBlhともに40画素とする。以下では、M=16、N=12とし、x軸方向、y軸方向ともに均等に配置する。また、画像データ上の最も左上のブロックの中心座標は(20,20)とする。このとき、最も右下のブロックの中心座標は(620,460)となる。
【0027】
続いて、各ブロックにおけるCSLBP特徴のヒストグラムの算出方法の一例について図3を参照しながら説明する。CSLBP特徴は各ブロックに含まれる全ての画素に対して算出する。
【0028】
図3は、実施の形態1のCSLBP特徴の算出に用いられる画素の配置を示す図である。図3に示されるのは、各画素Pc(x,y)についてのCSLBP特徴の算出に使用される、当該画素を中心とする3×3画素(縦3画素、横3画素)の領域内の画素に番号を付けたものである。画素Pc(x,y)についてのCSLBP特徴B(x,y)は、当該画素を中心とする3×3個の画素の輝度値を用いて次式(1)により算出され、0から15の値で表される。
【0029】
【数1】
【0030】
式(1)で,n0からn7は、それぞれ図5に示される画素n0からn7の輝度値を表す。また、s(a)は閾値関数であり、a>T1のときs(a)=1、a≦T1のときはs(a)=0となる。また、s(a)は0又は1であるので、CSLBP特徴B(x,y)は整数であり、CSLBP特徴B(x,y)の取り得る値の範囲は、
0≦B(x,y)<16 ∀x,yである、すなわち、B(x,y)は、全てのx及びyについて、0以上16未満である。閾値T1は、例えば、輝度値の取り得る値の1%程度が望ましく、輝度値が0から255の値を取る場合は、T1=3と設定する。
【0031】
次に、ブロック内の全ての画素に対し算出したCSLBP特徴を使って各ブロックのヒストグラムを算出する方法について図4を参照しながら説明する。図4は、実施の形態1のテクスチャ特徴算出におけるブロック内のセルの配置を示す図である。図4に示されるように、幅Blw、高さBlhであるブロックをさらに幅Cew、高さCehのセルに分割する。以下では、Cew=5、Ceh=5とし、ブロックを4×4の合計16個のセルに分割する。
【0032】
各セルにはCew×Cehの画素が含まれ、それぞれのセルに対しCSLBP特徴が算出されている。これらCSLBP特徴を使用して各セルでのヒストグラムを生成する。このとき、CSLBP特徴の取りうる値は0から15までの整数であるため、各セルのヒストグラムは16次元のベクトルとなる。そして、ブロック内の16個のセルでそれぞれ算出した16次元のベクトルを連結させ、16×16=256次元のベクトルを各ブロックにおけるテクスチャ特徴TFとする。
【0033】
画像データIm(k)と画像データIm(k−1)に対し、各ブロックでテクスチャ特徴TFを算出し、各ブロックでテクスチャ特徴の変化量dTFを算出する。変化量dTFは、例えば、ベクトル間のユークリッド距離を用いて求める。このように、変化量dTFを算出することで、各ブロックでの動きの大きさを評価することができる。
【0034】
各ブロックで算出した変化量dTFに対し、閾値Tthを用いて2値化を行い、変化の大きかった領域と、変化の大きかった領域以外の領域(すなわち、変化の小さかった領域)とに、ブロックを分類する。例えば、閾値Tth≦変化量dTFを満たすブロックは、1とラベル付けし、変化の大きかった領域とする。一方、閾値Tth>変化量dTFであるブロックは、0とラベル付けし、変化の小さかった領域とする。
【0035】
各ブロックを2値化した後は、1とラベル付けされたブロックを連結させ、動きの大きい領域をグループに分ける。そして、サイズの一番大きいグループ(連結されたブロック数が多い領域)を動き領域とし、そのグループの重心Mg(k)を算出し、動き情報Bm(k)とする。
【0036】
基準部位消失判定部30は、画像データIm(k)と基準部位情報Am(k)を受け取り、過去の基準部位情報Am(k−α)と比較して画像データIm(k)における基準部位の消失を判定し、基準部位消失判定結果Cm(k)を生成する。
【0037】
基準部位消失判定部30は、例えば、入力として与えられる基準部位情報Am(k)に含まれる基準部位検出の有無を元に基準部位消失判定をする。Am(k)において基準部位検出が「有」の場合は、基準部位の消失はなしとして基準部位消失判定結果Cm(k)を「0」としてタイミング判定部40へ供給する。Am(k)において基準部位検出が「無」の場合は、基準部位の消失はありとして基準部位消失判定結果Cm(k)を「1」としてタイミング判定部40へ供給する。
【0038】
タイミング判定部40は、基準部位情報Am(k)と動き情報Bm(k)と基準部位消失判定結果Cm(k)を受け取り、動き情報Bm(k)が操作者のジェスチャーによるものか、それ以外の現象(背景の変化及び操作者の意図しない動き)によるものなのかを判定し、タイミング判定結果Dm(k)を生成する。以下では、タイミング判定の一例を説明するために、顔の前を手が横切るように手を動かす動作をジェスチャー判定の対象とする。以下、図5から図8を参照しながらタイミング判定の一例の動作について説明する。
【0039】
図5は、実施の形態1のジェスチャー操作を表す一連の動作の例(画像上左側から右側へ手を振る動作、すなわち、スワイプ)を示す図である。図5は、Im(k)からIm(k+4)にかけて操作者が顔の前を手が横切るように手を動かす動作したときの画像データの操作者付近を切り出した画像と、各画像データに対して検出した基準部位(顔)の検出状態を示している。
【0040】
図5に示される点線矩形は、基準部位領域である基準部位の検出位置を示している。図5に示されるように、Im(k)、Im(k+1)、Im(k+4)では、画像データ上に基準部位である顔がはっきりと映っているため、基準部位が検出されており、顔の位置が点線矩形で囲ってある。一方、Im(k+2)、Im(k+3)では、ジェスチャー操作により顔が手で隠れてしまっている。そのため、基準部位は検出されておらず、点線矩形は存在しない。
【0041】
図6は、実施の形態1のジェスチャー操作を表す一連の動作(画像上左側から右側へ手を振る動作)を行った場合の動き領域Mbとその重心Mgの位置を示す図である。図6は、図5の各画像データに対して、動きの大きい動き領域Mbとその重心Mgの位置関係を示している。図6では、図5と同じ位置に点線矩形で基準部位の位置を示している。図6におけるIn(k+1)からIn(k+4)は、図5におけるIm(k+1)からIm(k+4)にそれぞれ対応する。図5のIm(k+2)、Im(k+3)では基準部位は検出されないが、これらに対応する図6のIn(k+2)、In(k+3)で基準部位が描画されている理由は後述する。
【0042】
図5及び図6より、ジェスチャー判定が成立する条件は、以下の4つの条件(A1)から(A4)にまとめることができる。
条件(A1):初期状態では基準部位が検出されており、ジェスチャーによって一度基準部位が消失すること。
条件(A2):基準部位が消失した際(第1のタイミング)に動き領域Mbが基準部位の矩形領域に含まれること。
条件(A3):基準部位が消失する直前(第3のタイミング)に基準部位付近(図6における左側、第1の側)に動き領域Mbが存在すること。
条件(A4):基準部位が消失した直後(第4のタイミング)に、条件(A3)のときとは反対側(図6における右側、第2の側)に動き領域Mbが存在すること。
【0043】
上記4つの条件(A1)〜(A4)より、動き領域Mbが基準部位付近に存在するタイミングと基準部位消失のタイミングの同期を判定し、動き領域Mbの存在位置の移動を検出することでジェスチャー判定が可能である。タイミング判定部40は、前者の動き領域Mbが基準部位付近に存在するタイミングと基準部位消失のタイミングの同期の判定を行い、タイミング判定結果Dm(k)を操作判定部50へ供給する。一方、操作判定部50は、タイミング判定結果Dm(k)と動き領域Mbの移動状況からジェスチャーを判定する。
【0044】
続いて、図7を用いて、上述したタイミング判定を実現する方法を説明する。図7は、実施の形態1のタイミング判定部40の状態遷移図の一例を示す図である。図7に示されるように、タイミング判定部40は、状態S(k)を持っており、タイミング判定結果Dm(k)には、タイミング判定部40が持つ状態S(k)が含まれる。状態S(k)は、図7に示される3つの状態Sn、Sp、Sgのいずれかの状態をとり、状態遷移の条件は、Qn、Qm、Qhの3つである。
【0045】
3つの状態Sn、Sp、Sgと3つの条件Qn、Qm,Qhについて図8を参照しながら説明する。図8は、実施の形態1における基準部位情報Amに基づいて3つの領域RI,Rc,Rrの定義を説明した図である。領域Rlは、基準部位の画像データ上左側(x軸負の方向)に位置している領域で、中心Rlc(Rlcx,Rlcy)、幅Rlw、高さRlhで定義される。領域Rcは基準部位の画像データの中心に位置している領域で、中心Rcc(Rccx,Rccy)、幅Rcw,高さRchで定義される。領域Rrは基準部位の画像データ上右側(x軸正の方向)に位置している領域で、中心Rrc(Rrcx,Rrcy)、幅Rrw,高さRrhで定義される。
【0046】
条件Qmは、重心Mgが領域Rlまたは領域Rrに存在し、かつ基準部位消失判定結果Cmが「0」という条件である。条件Qhは、重心Mgが領域Rcに存在し、かつ基準部位消失判定結果Cmが「1」という条件である。条件Qnは、Qm、Qh以外の条件全てを表す。
【0047】
図7に示されるように、状態SnはS(k)の初期状態である。状態Snにおいて、条件Qmが満たされると状態Spに遷移する。それ以外は状態Snから遷移しない。状態Spにおいて、条件Qhが満たされると状態Sgに遷移する。状態Spにおいて、条件Qmが満たされる場合は状態Spから遷移しない。状態Sgにおいて、条件Qnが満たされると状態Snに遷移する。状態Sgにおいて、条件Qmが満たされると状態Spに遷移する。状態Sgにおいて、条件Qhが満たされる場合は状態Sgから遷移しない。状態Sgにおいて、条件Qnが満たされる場合は状態Snに遷移する。
【0048】
図5に示す一連の画像データに対し、状態S(k)がどのように遷移するのかを説明する。まず、初期状態では、S(k)=Snである。続いて、Im(k+1)が入力された時点で、重心Mgが領域Rlに存在し、かつ基準部位消失判定結果が「0」となるため、条件Qmを満たしS(k+1)=Spと遷移する。
【0049】
続いて、Im(k+2)では重心Mgが領域Rcに存在し、かつ基準部位消失判定結果が「1」となるため、条件Qhを満たしS(k+2)=Sgと遷移する。Im(k+3)では、Im(k+2)と同様に条件Qhを満たすためS(k+3)=Sgのままとなる。Im(k+4)では、MgがRrに存在し、かつ基準部位消失判定結果が「0」となるため、S(k+4)=Spと遷移する。
【0050】
以上のように、図5に示すジェスチャーに対しては、タイミング判定部40の持つ状態はSp、Sg、Spの順(すなわち、Sp→Sg→Sp)で遷移する。この状態遷移を判定することで、条件(A1)から条件(A4)を満たすジェスチャーを検出することができる。
【0051】
この状態の遷移は、図9に示される動きでも起こりうる。図9は、実施の形態1のジェスチャー操作を表す一連の動作の例(画像上左側から顔の目の前に一度手を移動させてから、左側へ手を振り戻す動作)を示す図である。図5図9における動作の違いは、基準部位が消失した直後に、動き領域Mbが、基準部位が消失した直前と反対側に存在するか(図5)、同じ側に存在するか(図9)の違いである。この違いの判定は後段の操作判定部50で実施する。
【0052】
図9の動作が行われる場合、ジェスチャー判定が成立する条件は、以下の4つの条件(B1)から(B4)にまとめることができる。
条件(B1):初期状態では基準部位が検出されており、ジェスチャーによって一度基準部位が消失すること。
条件(B2):基準部位が消失した際(第1のタイミング)に動き領域Mbが基準部位の矩形領域に含まれること。
条件(B3):基準部位が消失する直前(第3のタイミング)に基準部位付近に動き領域Mbが存在すること。
条件(B4):基準部位が消失した直後(第4のタイミング)に、条件(B3)と同じ側の基準部位付近に動き領域Mbが存在すること。
【0053】
操作判定部50は、動き情報Bm(k)とタイミング判定結果Dm(k)を受け取り、動き情報Bm(k)が含む動き領域Mbの重心Mgの移動とタイミング判定結果Dm(k)を用いてジェスチャー判定結果Om(k)を生成し、出力する。
【0054】
具体的には、タイミング判定結果Dm(k)が状態Sp、Sg、Spの順(すなわち、Sp→Sg→Sp)で遷移するのを検出し、各遷移の際の重心Mgの位置関係からジェスチャーを判定する。例えば、図5に示す一連の動作をジェスチャーとして判定する場合は、タイミング判定結果Dm(k)が状態Spから状態Sgへ遷移する際に重心Mgが領域Rlから領域Rcへ移動し、さらに、状態Sgから状態Spに遷移する際に重心Mgが領域Rcから領域Rrへ移動するのを観測した場合に、該ジェスチャーを検出したとして判定結果を出力する。
【0055】
同様に、図9に示す一連の動作をジェスチャーとして判定する場合は、タイミング判定結果Dm(k)が状態Spから状態Sgへ遷移する際に重心Mgが領域Rlから領域Rcへ移動し、さらに状態Sgから状態Spに遷移する際に重心Mgが領域Rcから領域Rlへ移動するのを観測した場合に、該ジェスチャーを検出したとして判定結果を出力する。
【0056】
≪1−2≫動作
次に、実施の形態1に係るジェスチャー判定装置100の処理の手順について図10を用いて説明する。図10は、実施の形態1に係るジェスチャー判定装置100の処理を示したフローチャートである。図10に示される処理は、撮像画像が入力される1フレーム期間毎に、すなわち1フレーム期間に一度行われる。まず、ステップS1で、基準部位検出部10が、入力として与えられる画像データIm(k)から予め定められた操作者の基準となる部位(基準部位)を少なくとも1つ検出し、基準部位情報Am(k)を生成する。
【0057】
次に、ステップS2では、動き抽出部20が、基準部位情報Am(k)と、最新の画像データIm(k)を受け取り、最新の画像データIm(k)と、Im(k)と異なるフレーム番号を持つ画像データのうち少なくとも1つの画像データIm(k−α)とから、基準部位付近においてフレーム間で動きの生じた領域を抽出し、動き情報Bm(k)を生成する。
【0058】
次に、ステップS3では、基準部位消失判定部30が、画像データIm(k)と基準部位情報Am(k)を受け取り、過去の基準部位情報Am(k−α)と比較して画像データIm(k)における基準部位の消失を判定し、基準部位消失判定結果Cm(k)を生成する。ステップS2の処理と、ステップS3の処理は平行して行われる。
【0059】
次に、ステップS4では、タイミング判定部40が、基準部位情報Am(k)と動き情報Bm(k)と基準部位消失判定結果Cm(k)を受け取り、動き情報Bm(k)が操作者のジェスチャーによるものか、それ以外の現象(背景の変化及び操作者の意図しない動き)によるものなのかを判定し、タイミング判定結果Dm(k)を生成する。
【0060】
最後に、ステップS5では、操作判定部50は、タイミング判定結果Dm(k)を受け取り、Dm(k)と少なくとも1つの過去のタイミング判定結果Dm(k−α)とからジェスチャー判定を行い、ジェスチャー判定結果Om(k)を生成し、出力する。
【0061】
≪1−3≫効果
以上のように、実施の形態1に係るジェスチャー判定装置100によれば、ジェスチャー操作により生じる画像上の動き領域の位置及び出現タイミングとジェスチャー操作により撮像画像から人物の基準部位が消失するタイミングとから、ジェスチャーを判定する。言い換えれば、実施の形態1に係るジェスチャー判定装置100は、基準部位が検出されないフレーム画像が発生した第1のタイミングを示す基準部位消失情報が示す第1のタイミングと、動き情報が示す動き領域と基準部位情報が示す基準部位領域とが重なるフレームが発生した第2のタイミングとが同期するか否かを判定し、この判定の結果であるタイミング判定結果と前記動き情報とから操作者によるジェスチャー操作の内容を判定する。これにより、操作者が予め定められた動作を予め定められた期間継続することなく、短時間のジェスチャー操作(例えば、手をスワイプさせる操作)を行う場合であっても、ジェスチャー判定を高精度に行うことができる。
【0062】
また、実施の形態1に係るジェスチャー判定装置100によれば、基準部位を操作者の顔とすることで、操作者は、カメラの前(操作者の顔とカメラの間)を通過するように手を動かす動作により適切なジェスチャー操作が可能となる。このため、操作者は、ジェスチャー操作の基準(自分の顔の前を通過するように手を移動させればよい)が分かり易くなり、操作者のジェスチャー操作が容易になる。
【0063】
≪1−4≫変形例
なお、実施の形態1では、基準部位として操作者の顔を使用したが、これに限るものではなく、操作者の目、鼻、口、首、肩等のような他の身体部位を用いてもよい。顔以外の部位の検出には、顔検出と同様にカスケード検出器を使用してもよいし、AAM(Active Appearance Model)等の公知の技術を用いて検出してもよい。
【0064】
なお、実施の形態1では、基準部位を操作者の一部(顔)であるとしたが、これに限るものではなく、操作者に属する部位でなくても良い。例えば、操作者が椅子に座っている場合は、肘かけ等、椅子の一部を基準部位としても良いし、操作者が存在する空間にある照明や壁の一部を基準部位としても良い。ただし、ジェスチャーを精度よく検出する観点からは、ジェスチャー以外の動作によって画像から消失しない位置にある部位を基準部位とするのが良く、また、操作者とカメラの間に存在する部位を基準部位とするのが好ましい。
【0065】
なお、実施の形態1では、基準部位を1つ(操作者の顔)としたが、これに限るものではない。例えば、複数の基準部位を検出して、検出された複数の基準部位の消失タイミングについての基準部位消失判定結果を用いて、抽出された動き情報がジェスチャー操作によるものであることを判定してもよい。これにより、更に高精度なジェスチャー判定が可能となる。また、複数の基準部位の消失タイミングの順番から、抽出された動き情報がジェスチャー操作によるものであることを判定してもよい。この場合も高精度なジェスチャー判定が可能となる。
【0066】
なお、実施の形態1では、動き抽出するためにテクスチャ情報を用いたが、これに限るものではなく、フレーム間で輝度値の差分を計算することで動き抽出してもよいし、赤緑青(RGB)画素値及び輝度値のヒストグラムを用いた統計的な背景差分法を用いてもよい。また、顔検出と同様に、カスケード検出器等の検出方法で手を検出し、検出した手を追跡することで動きを抽出してもよい。検出した手を追跡する方法としては、カルマンフィルタ、パーティクルフィルタなどの公知の技術を用いることができる。
【0067】
なお、実施の形態1では、手が顔の前を横切るような動作をジェスチャー判定の対象動作としたが、これに限るものではなく、手の動きに伴い、予め定められた基準部位が消失する動作であればよい。例えば、手を上から下へ、顔の前を通るように動かす動作を判定対象のジェスチャーとしてもよいし、顔の前を横切るように手を繰り返し左右に振る動作でもよい。
【0068】
なお、実施の形態1では、動き情報Bm(k)は、動きの大きい領域の重心データを含むとしたが、これに限られるものではなく、例えば、動きの大きい領域の中心データを使用してもよい。
【0069】
なお、実施の形態1では、動きの大きい領域をグループに分け、連結されたブロック数が多い領域を動き領域としたが、これに限られるものではない。例えば、連結されたブロックが囲む領域の面積が、一番大きなものを動き領域としてもよいし、連結されたブロックに含まれる各ブロックで算出した変化量dTFの合計値が一番大きなものを動き領域としてもよい。
【0070】
なお、実施の形態1では、画像データIm(k)全体に対し、動き抽出を行ったが、検出された基準部位の周辺の領域を動き抽出対象領域として設定し、設定された動き抽出対象領域の範囲内において動き抽出を実施してもよい。このように、動き抽出対象領域を設定することで、CSLBP特徴の計算に必要な計算コストを低減することができる。
【0071】
なお、実施の形態1では、動き抽出部20は、動きの大きい領域のグループから、1つのグループを選定し、動き情報Bm(k)としたが、これに限るものではない。例えば、動き情報Bm(k)は複数の前記グループの情報を含んでいてもよい。その場合は、タイミング判定部40にて、グループのうち、どのグループを選択し、使用するかを決める必要がある。タイミング判定部40にてグループを選択する際は、例えば、一番サイズの大きいグループ又は、基準部位若しくは消失した基準部位に最も接近するグループを選択する。
【0072】
≪2≫実施の形態2
≪2−1≫構成
図11は、本発明の実施の形態2に係るジェスチャー判定装置100aの概略的な構成を示すブロック図である。図11に示されるジェスチャー判定装置100aは、図1に示すジェスチャー判定装置100と概して同じであるが、形状抽出部60と操作判定部50aを備える点が異なる。図11において、図1に示される構成要素と同一又は対応する構成要素には、図1に示される符号と同じ符号が付される。また、図1に示される構成と同一又は対応する構成については説明を省略する。
【0073】
実施の形態1との違いは、実施の形態2では、手振り動作のような動きによるジェスチャーの判定だけでなく、サインのように特定の手の形状を提示するジェスチャーの形状抽出を形状抽出部60が行い、操作判定部50aが、形状抽出部60による手の形状の抽出結果Em(k)と、タイミング判定部40によるタイミング判定結果Dm(k)とからジェスチャー判定結果Om(k)を出力する点である。
【0074】
まず、形状抽出部60は、画像データIm(k)が入力され、画像データIm(k)内に含まれる手を検出し、手の形状の抽出結果Em(k)を出力する。図12(a)から(c)は、実施の形態2における手の形状の種類を示す図である。図12(a)は、手の形状がグーである場合を示しており、図12(b)は、手の形状がチョキである場合を示しており、図12(c)は、手の形状がパーである場合を示している。形状抽出部60が抽出する手の形状は、予め定められた予め定められた手の形状であり、例えば、図12に示される種類(グー、チョキ、パー)がある。以降の説明では、抽出する手の形状の種類として図12に示される手の形状を対象とする。
【0075】
手の形状の抽出結果Em(k)は、画像データIm(k)の中で手が検出されたかどうかを示す手の検出の有無と、抽出された手の形状の種類と、検出された手の中心座標とサイズ情報等を含む。手の検出の有無は、例えば、検出された場合は1、検出されなかった場合は0を出力する。手の形状の種類は、例えば、じゃんけんにおける手の形における、グー(岩の形)であれば1、チョキ(ハサミの形)であれば2、パー(紙の形)であれば3、予め定められた手の形状でない場合は0を出力する。検出された手の領域は、例えば、矩形領域で表現し、手の中心座標は、矩形領域の中心座標Hc(Hcx,Hcy)、サイズは矩形領域の幅Hw、高さHhを出力する。
【0076】
操作判定部50aは、手の形状の抽出結果Em(k)と、動き抽出結果Bm(k)と、タイミング判定結果Dm(k)とを受け取り、ジェスチャーの判定結果Om(k)を出力する。
【0077】
≪2−2≫動作
次に、実施の形態2に係るジェスチャー判定装置100aの動作について説明する。まず、形状抽出部60の動作について説明する。形状抽出部60は、公知の技術を用いて画像データIm(k)に含まれる手を検出し、予め定められた手の形状を抽出することができる。手を検出するためには、例えば、顔検出に用いたようなカスケード型の手検出器を利用する。手の形状の抽出には、例えば、手検出器により検出された手の矩形領域に対し、CSLBP特徴量を算出し、SVM(Support Vector Machine)により形状を抽出する。形状抽出部60は、抽出した手の形状の抽出結果Em(k)を操作判定部50aに対して出力する。
【0078】
続いて、操作判定部50aの動作について説明する。操作判定部50aは、手の動きによるジェスチャー判定結果あるいは手の形状の提示によるジェスチャー判定結果のいずれかをジェスチャー判定結果Om(k)として出力する。手の動きによるジェスチャー判定結果は、タイミング判定結果Dm(k)から生成し、出力する。手の形状の提示によるジェスチャー判定結果は、動き抽出結果Bm(k)から求めた画像上における動き領域の移動速度と、手の形状の抽出結果Em(k)を複数フレームに渡り解析した結果に基づいて、生成され、出力される。
【0079】
手の動きによるジェスチャー判定は、実施の形態1と同様に判定を行う。手の形状の提示によるジェスチャー判定では、操作判定部50aは、直近のフレームで抽出された手の形状に関する情報をカウントするカウンタを図12に示すジェスチャーの種類毎に保持し、動き抽出結果Bm(k)から求めた撮像画像上における動き領域の移動速度と、手の形状の抽出結果Em(k)に応じてカウンタをインクリメント、デクリメントあるいはリセットする。そして、カウンタが一定以上の値に達したことで手の形状の提示によるジェスチャーと判定する。
【0080】
まず、撮像画像上における動き領域の移動速度V(k)は、現フレームの動き抽出結果Bm(k)と、過去のフレームの動き抽出結果Bm(k−α)とから算出する。ここでは、説明を簡単にするため、α=1とする。例えば、移動速度V(k)は、動き抽出結果Bm(k)に含まれる重心Mg(k)と動き抽出結果Bm(k−1)に含まれる重心Mg(k−1)とのユークリッド距離とを用いて算出される。
【0081】
次に、カウンタのインクリメント、デクリメント、リセットの条件について説明する。インクリメントは、動き領域の移動速度V(k)(動き評価値)が予め定められた閾値Vhより小さく、かつ手の形状の抽出結果Em(k)にて、予め定められた種類のジェスチャーが抽出されている場合は、該当する種類のジェスチャーのカウンタをインクリメントする。このとき、該当しない種類のジェスチャーのカウンタは、デクリメントする。デクリメントは、前述した条件、または移動速度V(k)が予め定められた閾値Vh以上の場合に実施する。
【0082】
なお、インクリメントする際の最大値はCMaxとし、最大値を上回る場合は、インクリメントを実施しない。また、デクリメントする際の最小値は、例えば、0に設定し、最小値を下回る場合は、デクリメントを実施しない。カウンタのリセットは、手の動きによるジェスチャーが検出された場合に、すべてのカウンタに対して実施し、例えば、カウンタの最小値0に設定する。
【0083】
手の形状の提示によるジェスチャー判定のタイミングは、図12に示す何れかのジェスチャーに対応するカウンタが、閾値Cthを上回ったタイミングで前記ジェスチャーが検出されたとして判定結果を出力する。なお、閾値Cthは、最大値Cmaxより小さい値に設定される。
【0084】
≪2−3≫効果
実施の形態2に係るジェスチャー判定装置100aによれば、上記実施の形態1に係るジェスチャー判定装置100と同様の効果を得ることができる。
【0085】
実施の形態2に係るジェスチャー判定装置100aによれば、形状抽出部60により抽出された手の形状の抽出結果Em(k)と、タイミング判定部40により判定されたタイミング判定結果Dm(k)とに基づいて生成した手の動きによるジェスチャーの判定結果Om(k)から、手の形状の提示によるジェスチャー判定を実施する。これにより、誤判定が少ないジェスチャー判定が可能となる。
【0086】
実施の形態2に係るジェスチャー判定装置100aによれば、動き特徴から算出した動き評価値(実施の形態2では、動き領域の移動速度V(k)として説明)を計算し、動き評価値が予め定められた閾値より大きい場合は手の形状の提示によるジェスチャー判定を行わない(動き評価値が予め定められた閾値以下である場合に手の形状の提示によるジェスチャー判定を行う)こととした。これにより、誤判定が少ないジェスチャー判定が可能となる。
【0087】
≪2−4≫変形例
なお、実施の形態2では、動き評価値として動き領域の移動速度を用いたが、これに限るものではなく、例えば、動き領域の大きさを動き評価値としてもよい。
【0088】
なお、実施の形態2では、画像データIm(k)全体に対して、形状抽出を行ったが、これに限るものではない。例えば、基準部位情報Amを形状抽出部60へ入力し、形状抽出部60は基準部位周辺の領域を形状抽出対象領域として設定し、設定された形状抽出対象領域において形状抽出を行ってもよい。このように形状抽出の対象領域を限定することで、処理コストを低減することができる。
【0089】
なお、実施の形態2では、動き評価値が予め定められた閾値よりも大きい場合は、手の形状の提示によるジェスチャー判定を行わないが、動き評価値に応じて、形状抽出の実行の有無を決めるようにしてもよい。このようにすることで、形状抽出のための処理が必要なくなるため、処理コストを低減することができる。
【0090】
なお、実施の形態2では、形状抽出部60は、1つの手を検出し手の形状を抽出したが、複数の手を検出し、検出された手毎に手の形状の種類を判定した結果を付したものを手の形状の抽出結果Em(k)としてもよい。
【0091】
なお、実施の形態2では、動き領域の移動速度V(k)に基づいて、手の形状の提示によるジェスチャー判定におけるカウンタの制御を行ったが、これに限るものではない。例えば、形状抽出部160で検出した手の領域を追跡処理し、移動速度を算出してカウンタの制御をしてもよい。
【0092】
≪3≫実施の形態3
≪3−1≫構成
図13は、本発明の実施の形態3に係るジェスチャー判定装置100bの概略的な構成を示すブロック図である。図13に示されるように、実施の形態3に係るジェスチャー判定装置100bは、図11に示される実施の形態2に係るジェスチャー判定装置100aと概して同じであるが、タイミング判定部40bと操作判定部50bと操作者判定部70とを備える点が異なる。図13において、図11に示される構成要素と同一又は対応する構成要素には、図11に示される符号と同じ符号が付される。また、図11に示される構成と同一又は対応する構成については説明を省略する。
【0093】
実施の形態2との違いは、実施の形態3では、基準部位情報Am(k)および基準部位消失判定結果Cm(k)を元に操作者がどの人物であるのかを判定し、操作者判定結果Fm(k)を算出し、動き抽出結果Bm(k)と形状抽出結果Em(k)とタイミング判定結果Dm(k)と操作者判定結果Fm(k)とからジェスチャー判定結果を出力する点である。
【0094】
操作者判定部70は、基準部位情報Am(k)と基準部位消失判定結果Cm(k)が入力として与えられ、操作者がどの人物であるかを判定し、操作者判定結果Fm(k)を操作判定部50bへ出力する。操作者判定結果Fm(k)とは、操作者を特定するラベルと操作者の位置情報とを含む操作者の個別情報と、基準部位の位置と、基準部位毎の消失判定結果とを含む。
【0095】
ラベルは、例えば、画像データIm(k)における操作者の位置に基づいて決定する。以降の説明では、操作者が2人いる条件のもとで説明を行い、撮像画像上左側に映る操作者のラベルをL、右側に映る操作者のラベルをRとする。操作者の位置情報は基準部位の位置に基づいて算出し、例えば、基準部位が顔領域の場合は、顔領域の中心座標とする。
【0096】
タイミング判定部40bは、動き抽出結果Bm(k)と操作者判定結果Fm(k)が入力として与えられ、操作者毎に動き情報Bm(k)が操作者のジェスチャーによるものか、それ以外の現象によるものなのかを判定し、タイミング判定結果Dm(k)を出力する。
【0097】
操作判定部50bは、動き抽出結果Bm(k)と手の形状の抽出結果Em(k)とタイミング判定結果Dm(k)と操作者判定結果Fm(k)とからジェスチャー判定結果Om(k)を出力する。操作者判定部70は、操作者判定結果Fm(k)に基づいて、どの操作者によってなされたジェスチャーであるのかを判定し、操作者のラベルをジェスチャーの種類の判定結果に付してジェスチャー判定結果Om(k)として出力する。
【0098】
≪3−2≫動作
次に、各要素の動作について説明する。操作者判定部70は、基準部位検出部10によって検出された基準部位の座標情報または基準部位消失判定部30によって検出された消失した基準部位の座標情報から、基準部位の属する操作者のラベル付けを行う。例えば、撮像画像の中心より左側で基準部位が検出された場合は、「L」とラベル付けする。一方で、撮像画像の中心より右側で検出された場合は、「R」とラベル付けする。
【0099】
タイミング判定部40bは、操作者毎に、図7に示すような状態遷移を保持し、操作者毎に動き情報Bm(k)が操作者のジェスチャーによるものか、それ以外の現象によるものなのかを判定する。動き情報Bm(k)が含む複数の動き領域の情報は、操作者判定結果Fm(k)に含まれる操作者の位置情報に基づいてどの操作者に属するものかが判定され、該当する操作者の状態遷移に活用される。タイミング判定部40bは、どの操作者のタイミング信号であるのかを示す操作者のラベル情報を状態変化の信号と一緒にDm(k)として操作判定部50bへ出力する。
【0100】
動き情報Bm(k)がどの操作者に属するものかを判定するためには、例えば、動き領域の重心と操作者位置の距離から判定する。ある動き領域の重心位置と、全ての操作者との距離を計算し、最も距離の短い操作者に属すると判定する。一人の操作者に属する動き領域が複数ある場合は、例えば、そのうちの1つを選択して使用する。
【0101】
操作判定部50bは、操作者毎に送られてくるタイミング判定結果Dm(k)と、手の形状の抽出結果Em(k)と、操作者判定結果Fm(k)とからジェスチャー判定結果Om(k)を生成し、出力する。操作判定部50bは、操作者毎に図12に示すジェスチャーの種類に対応したカウンタを保持している。手の形状の抽出結果Em(k)に含まれる手の位置情報と操作者の位置に基づいて、抽出された手がどの操作者に属するものであるかを判定し、操作者毎のカウンタのインクリメント、デクリメントおよびリセットを実施する。そして、操作者毎のタイミング判定結果と、操作者毎のカウンタの状態から操作者毎にジェスチャー判定結果Om(k)を生成する。生成されたジェスチャー判定結果Om(k)は、操作者のラベルを付して出力される。
【0102】
≪3−3≫効果
実施の形態3に係るジェスチャー判定装置100bによれば、上記実施の形態1に係るジェスチャー判定装置100及び上記実施の形態2に係るジェスチャー判定装置100aと同様の効果を得ることができる。
【0103】
実施の形態3に係るジェスチャー判定装置100bによれば、操作者判定部70を有することにより、基準部位を操作者の個別情報(位置情報等)と結び付けてジェスチャー判定を行う。これにより、撮像画像内に複数の操作者が存在する場合でも、精度よくジェスチャー判定することが可能となる。
【0104】
≪3−4≫変形例
なお、実施の形態3では、操作者が2人の場合を一例として挙げて説明を行ったが、これに限るものではない。例えば、公共施設や工場におけるデジタルサイネージ等の機器装置をジェスチャー操作する際には、操作者が不特定多数となる。その場合は、例えば、画像データ上で検出された顔領域毎に操作者のラベル付けを行い、操作者毎のジェスチャー操作を判定する。
【0105】
≪3−5≫変形例
なお、実施の形態3では、タイミング判定部40bにおいて、操作者のラベル情報を、基準部位が属する操作者に基づいて決定しても良いし、動き情報が属する操作者に基づいて決定しても良いし、その両方に基づいて決定しても良い。
【0106】
例えば、基準部位が属する操作者に基づいて操作者のラベル情報を決定する例を説明する。撮像画像上左側に映る操作者の基準部位が、撮像画像上右側に映る操作者の動作により、ジェスチャー操作による動き情報であると判定された場合、基準部位が属している撮像画像上左側に映る操作者が操作したとして操作者のラベル情報が決定される。すなわち、「L」とラベル付けされる。
【0107】
次に、動き情報が属する操作者に基づいて操作者のラベル情報を決定する例を説明する。撮像画像上左側に映る操作者の基準部位が、撮像画像上右側に映る操作者の動作により、ジェスチャー操作による動き情報であると判定された場合、動き情報が属している撮像画像上右側に映る操作者が操作したとして操作者のラベル情報が決定される。すなわち、「R」とラベル付けされる。
【0108】
≪4≫実施の形態4
≪4−1≫構成
図14は、本発明の実施の形態4に係るジェスチャー判定装置100cの概略的な構成を示すブロック図である。図14に示されるように、実施の形態4に係るジェスチャー判定装置100cは、図13に示される実施の形態3に係るジェスチャー判定装置100bと概して同じであるが、操作者判定部70aを備える点が異なる。図14において、図13に示される構成要素と同一又は対応する構成要素には、図13に示される符号と同じ符号が付される。また、図13に示される構成と同一又は対応する構成については説明を省略する。
【0109】
実施の形態3との違いは、操作者判定部70aに認証結果Idが与えられており、操作者判定部70aは、操作者判定結果Fm(k)に認証結果を反映させたIdをラベルとして出力する点である。認証結果Idとは、操作者が誰であるのかを特定する操作者の個別情報であり、例えば、操作者の顔認証情報と、操作者の認証番号と、撮像画像における位置情報を含む。
【0110】
操作者判定部70aは、基準部位情報Am(k)と、基準部位消失判定結果Cm(k)と、認証結果Idが入力として与えられ、操作者判定結果Fm(k)を出力する。操作者判定部70aは、認証結果Idの位置情報から、検出された基準部位および消失した基準部位がどの操作者に属するかを判定し、ラベルとして操作者の認証番号を付して、操作者判定結果Fm(k)として出力する。
【0111】
操作判定部50bは、操作者毎に送られてくるタイミング判定結果Dm(k)と、形状抽出結果Em(k)と、操作者判定結果Fm(k)とから操作判定結果Om(k)を生成し、出力する。
【0112】
≪4−2≫効果
実施の形態4に係るジェスチャー判定装置100cによれば、上記実施の形態1から3に係るジェスチャー判定装置100,100a,100bと同様の効果を得ることができる。
【0113】
実施の形態4に係るジェスチャー判定装置100cによれば、操作者判定部70aを有し、基準部位を操作者の個別情報(顔認証情報等)と結び付けてジェスチャー判定する。これにより、撮像画像内に複数の操作者が存在する場合でも、精度よくジェスチャー判定することが可能となる。
【0114】
≪4−3≫変形例
なお、実施の形態4では、実施の形態3と同様、タイミング判定部40bにおいて、操作者のラベル情報を、基準部位が属する操作者に基づいて決定しても良いし、動き情報が属する操作者に基づいて決定しても良いし、その両方に基づいて決定しても良い。
【0115】
≪5≫実施の形態5
≪5−1≫構成
図15は、本発明の実施の形態5に係るジェスチャー操作装置300の概略的な構成を示すブロック図である。図15に示されるように、実施の形態5に係るジェスチャー操作装置300は、ジェスチャー判定装置100とコマンド生成部200とを備える。
【0116】
ジェスチャー操作装置300は、外部から画像データIm(k)を受け取り、画像データIm(k)を解析して操作者のジェスチャーを判定してジェスチャー判定結果Om(k)を出力する。コマンド生成部200は、ジェスチャー判定結果Om(k)に基づいて機器を操作する操作コマンドPm(k)を生成し、外部のHMI(Human Machine Interface)制御部400へ出力する。HMI制御部400は、操作コマンドPm(k)に基づいて表示装置500及び音出力装置600の制御を行う。操作コマンドPm(k)は、例えば、メニュー切り替え、音楽の曲送り、戻し等のHMIを制御するための入力コマンドである。
【0117】
≪5−2≫効果
実施の形態5に係るジェスチャー操作装置300によれば、ジェスチャー操作により生じる画像上の動き領域の位置・出現タイミングとジェスチャー操作により撮像画像から人物の基準部位が消失するタイミングとからジェスチャーを判定し、ジェスチャー判定に基づいて機器の操作、制御を行う。これにより、操作者は予め定められた動作を予め定められた期間継続することなく、短時間のジェスチャー操作を高精度に判定し、機器の操作コマンドを生成できるため、操作者が短時間のジェスチャー操作を行った場合でも、高精度なジェスチャー操作が可能なジェスチャー操作装置300を提供することができる。
【0118】
≪6≫実施の形態6
≪6−1≫構成
図16は、本発明の実施の形態6に係るジェスチャー操作装置300aの概略的な構成を示すブロック図である。実施の形態6に係るジェスチャー操作装置300aは、図15に示されるジェスチャー操作装置300と概して同じであるが、通信部700を備える点で図15に示されるジェスチャー操作装置300と異なる。図16において、図15に示される構成要素と同一又は対応する構成要素には、図15に示される符号と同じ符号が付される。また、図15に示される構成要素と同一又は対応する構成については説明を省略する。
【0119】
通信部700は、コマンド生成部200から操作コマンドPm(k)が入力され、操作コマンドPm(k)を通信信号Qm(k)に変換し、外部機器に出力する。通信信号Qm(k)は、例えば、赤外線リモコン信号、無線通信信号、光通信信号、電気信号、CAN(Controller Area Network)通信信号のいずれかとすることができる。
【0120】
≪6−2≫効果
実施の形態6に係るジェスチャー操作装置300aによれば、上記実施の形態5に係るジェスチャー操作装置300と同様の効果を得ることができる。
【0121】
実施の形態6に係るジェスチャー操作装置300aによれば、通信部700を有することにより、生成した操作コマンドPm(k)を通信信号Qm(k)に変換し、出力することができるため、操作者は1つのジェスチャー操作装置300aで複数の外部機器を操作できる。
【0122】
≪7≫変形例
図17は、上記実施の形態1から4に係るジェスチャー判定装置100,100a,100b,100cの変形例の構成を示すハードウェア構成図である。図17に示されるジェスチャー判定装置は、ソフトウェアとしてのプログラムを格納する記憶装置としてのメモリ91と、メモリ91に格納されたプログラムを実行する情報処理部としてのプロセッサ92とを有するプログラム実行部(例えば、コンピュータにより)であることが可能である。図17に示されるジェスチャー判定装置は、半導体集積回路によって構成されることも可能である。また、図17に示されるジェスチャー判定装置は、プログラム実行部と半導体集積回路との組み合わせによって構成されことも可能である。
【符号の説明】
【0123】
100,100a,100b,100c ジェスチャー判定装置、 10 基準部位検出部、 20 動き抽出部、 30 基準部位消失判定部、 40 タイミング判定部、 50,50a,50b 操作判定部、 60 形状抽出部、 70,70a 操作者判定部、 200 コマンド生成部、 300,300a ジェスチャー操作装置、 400 HMI制御部、 500 表示装置、 600 音出力装置、 700 通信部、 Am(k) 基準部位情報、 Bm(k) 動き情報、 Cm(k) 基準部位消失判定結果(基準部位消失情報)、 Dm(k) タイミング判定結果、 Im(k) 画像データ、 Om(k) ジェスチャー判定結果、 Mg(k) 動き領域の重心、 Em(k) 形状抽出結果、 Fm(k) 操作者判定結果、 Pm(k) 操作コマンド、 Qm(k) 通信信号。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
【国際調査報告】