IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人トヨタ学園の特許一覧 ▶ 株式会社デンソーの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-24
(45)【発行日】2023-02-01
(54)【発明の名称】ジェスチャ検出装置
(51)【国際特許分類】
   G06T 7/20 20170101AFI20230125BHJP
【FI】
G06T7/20 300A
【請求項の数】 5
(21)【出願番号】P 2019200201
(22)【出願日】2019-11-01
(65)【公開番号】P2021072059
(43)【公開日】2021-05-06
【審査請求日】2022-02-16
(73)【特許権者】
【識別番号】592032636
【氏名又は名称】学校法人トヨタ学園
(73)【特許権者】
【識別番号】000004260
【氏名又は名称】株式会社デンソー
(74)【代理人】
【識別番号】110001128
【氏名又は名称】弁理士法人ゆうあい特許事務所
(72)【発明者】
【氏名】ベニテス ヒブラン
(72)【発明者】
【氏名】浮田 宗伯
(72)【発明者】
【氏名】津田 佳行
【審査官】笠田 和宏
(56)【参考文献】
【文献】特開2019-040465(JP,A)
【文献】特開2005-122492(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/20
(57)【特許請求の範囲】
【請求項1】
操作者の手を含む全体画像(40)の撮像データを入力し、該撮像データから前記手が存在する領域である手領域(41)を特定する手検出部(11)と、
前記全体画像の撮像データに基づいて、該全体画像の特徴量を抽出する全体特徴抽出部(12a)と、
前記全体画像の中から前記手領域の画像である手領域画像(41a)を切り出し、該手領域画像の特徴量を抽出する手領域特徴抽出部(12b)と、
前記全体特徴抽出部で抽出された前記全体画像の特徴量と前記手領域特徴抽出部で抽出された前記手領域画像の特徴量を結合する特徴結合部(12c)と、
前記特徴結合部による結合後の特徴量について時系列パターンの分類を行い、前記操作者が前記手を動かすことによるジェスチャ動作の開始フレームから終了フレームまでのジェスチャ区間を抽出する時系列パターン分類部(12d)と、
前記時系列パターン分類部で抽出された前記ジェスチャ区間中の前記画像フレームに基づき、前記ジェスチャ動作を識別するジェスチャ識別部(14)と、を有している、ジェスチャ検出装置。
【請求項2】
前記時系列パターン分類部は、過去の前記撮像データにおける画像フレームの中から前記開始フレームを検出すると共に、現在の画像フレームを終了フレームとして、前記ジェスチャ区間を抽出する、請求項1に記載のジェスチャ検出装置。
【請求項3】
前記全体特徴抽出部は、前記全体画像から前記手領域画像をマスクして、マスク後の前記全体画像の特徴量を抽出する、請求項1または2に記載のジェスチャ検出装置。
【請求項4】
前記全体特徴抽出部は、前記手領域画像を黒色または白色でマスクする、請求項3に記載のジェスチャ検出装置。
【請求項5】
前記撮像データから前記全体画像の中から前記操作者の顔が存在する領域である顔領域を特定する顔検出部(15)と、
前記全体画像の中から前記顔領域の画像である顔領域画像を切り出し、該顔領域画像の特徴量を抽出する顔領域特徴抽出部(12e)と、を備え、
前記特徴結合部は、前記全体特徴抽出部で抽出された前記全体画像の特徴量と前記手領域特徴抽出部で抽出された前記手領域画像の特徴量に加えて、前記顔領域特徴抽出部で抽出された前記顔領域画像の特徴量も結合する、請求項1ないし4のいずれか1つに記載のジェスチャ検出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、操作者の手指の動きによるジェスチャ動作を検出するジェスチャ検出装置に関するものである。
【背景技術】
【0002】
従来、ジェスチャ動作を検出するジェスチャ検出装置として、特許文献1に示されるものがある。この装置では、操作者の指が特定の領域内に入った時に、ジェスチャ機能をオンすることで、ユーザがジェスチャ以外の特別な操作を行わなくても、ジェスチャ認識のオン/オフを切り替えることを可能としている。
【0003】
なお、本明細書において「ジェスチャ動作」とは、例えば、操作者が手指を上下左右などの所定の一方向に動かす、または指を時計回りもしくは反時計回りに動かすなど、機器操作などを行うために手指を用いて所定動作を行うことを意味する。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2013-077229号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ジェスチャ動作に基づく機器操作を行うこと(以下、ジェスチャ操作という)を車両におけるウィンドシールドディスプレイ(以下、WSDという)のような広い画面を対象として適用することが検討されている。
【0006】
しかしながら、上記した特許文献1のジェスチャ検出装置でのジェスチャ動作の検出手法を適用する場合、ジェスチャ機能をオンする特定の領域を画面に合わせて広くする必要がある。このため、ジェスチャ動作以外の動作についてもジェスチャ動作と誤って検出してしまうという課題が発生する。
【0007】
本発明は上記点に鑑みて、ジェスチャ機能をオンするために特定の領域を設定しなくても、ジェスチャ動作を検出することが可能なジェスチャ検出装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、請求項1に記載のジェスチャ検出装置は、操作者の手を含む全体画像(40)の撮像データを入力し、該撮像データから手が存在する領域である手領域(41)を特定する手検出部(11)と、全体画像の撮像データに基づいて、該全体画像の特徴量を抽出する全体特徴抽出部(12a)と、全体画像の中から手領域の画像である手領域画像(41a)を切り出し、該手領域画像の特徴量を抽出する手領域特徴抽出部(12b)と、全体特徴抽出部で抽出された全体画像の特徴量と手領域特徴抽出部で抽出された手領域画像の特徴量を結合する特徴結合部(12c)と、特徴結合部による結合後の特徴量について時系列パターンの分類を行い、ジェスチャ動作の開始フレームから終了フレームまでのジェスチャ区間を抽出する時系列パターン分類部(12d)と、時系列パターン分類部で抽出されたジェスチャ区間中の画像フレームに基づき、ジェスチャ動作を識別するジェスチャ識別部(14)と、を有している。
【0009】
このようなジェスチャ検出装置では、手および手以外の広範囲を撮像した距離画像の撮像データから操作者の手が存在する手領域を特定している。そして、全体画像から手領域を切り取った手領域画像の特徴量と全体画像の特徴量とに基づいてジェスチャ動作が行われているジェスチャ区間を抽出し、ジェスチャ動作を検出している。これにより、WSDのような広い画面を対象としてジェスチャ動作が行われる場合に、ジェスチャ機能をオンするために特定の領域を設定しなくても、ジェスチャ動作を検出することが可能となる。
【0010】
なお、各構成要素等に付された括弧付きの参照符号は、その構成要素等と後述する実施形態に記載の具体的な構成要素等との対応関係の一例を示すものである。
【図面の簡単な説明】
【0011】
図1】本発明の第1実施形態にかかるジェスチャ検出装置のブロック構成を示した図である。
図2A】撮像装置が撮像した全体画像の一例を示した図である。
図2B】撮像装置が撮像した全体画像から手領域をマスクした場合を示した図である。
図3A】全体画像から手領域を切り出した様子を示した図である。
図3B】全体画像から手領域を切り出し、手領域のサイズを全体画像の画像サイズに大きさを合わせた場合の様子を示した図である。
図4】手領域の特定手法を示すフローチャートである。
図5】手の画像から算出した特徴量と手以外の画像から算出した特徴量をXY座標上にプロットして閾値を設定した場合を示す図である。
図6】全体画像から小領域を切り出して小領域での特徴量を抽出する際の様子を示した図である。
図7】撮像データからの特徴量の抽出の様子を示した図である。
図8】時系列パターンの分類手法を示した図である。
図9】ジェスチャ検出装置が実行する処理のフローチャートである。
図10】第2実施形態で説明する特徴量の結合の様子を示した図である。
図11A】時系列パターン分類のフローチャートである。
図11B図11A中のステップS300で用意される現フレームからNフレーム前の特徴量を示した図である。
図12】第4実施形態にかかるジェスチャ検出装置のブロック構成を示した図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態について図に基づいて説明する。なお、以下の各実施形態相互において、互いに同一もしくは均等である部分には、同一符号を付して説明を行う。
【0013】
(第1実施形態)
第1実施形態について説明する。本実施形態にかかるジェスチャ検出装置は、例えば車両における情報機器のジェスチャ操作に適用される。例えば、操作機器としてWSDが挙げられ、WSDの表示部に映し出される表示画像上でのジェスチャ操作を行う場合のジェスチャ動作の検出のために本実施形態にかかるジェスチャ検出装置が適用される。
【0014】
図1に示すように、本実施形態にかかるジェスチャ検出装置10は、車室内に備えられた撮像装置20からの撮像データに基づいてジェスチャ動作の検出を行う。そして、ジェスチャ検出装置10は、ジェスチャ動作の検出結果を示すジェスチャ検出データを情報機器30に出力し、ジェスチャ動作に対応する情報機器30の操作が行われるようにする。
【0015】
撮像装置20は、操作者の手を含む領域の画像を連続的に撮像し、ジェスチャ検出装置10に撮像データを入力するものであり、距離画像を撮像できるもの、例えば2Dの近赤外線画像もしくは可視光画像を撮像できる車載カメラなどで構成される。
【0016】
情報機器30としては、ジェスチャ検出装置10での検出結果が用いられるものであればどのようなものであっても良いが、上記したように、例えばWSDが挙げられる。WSDでは、例えばナビゲーションシステムにおける地図表示や経路案内表示が行われ、操作者は、ジェスチャ動作を行って表示された地図の広域表示もしくは詳細表示の切り替えや、経路案内の設定等を行えるようになっている。また、自動運転時などにおいては、WSDでゲームなどの表示を行うことも可能であり、操作者は、ジェスチャ動作を行ってゲーム内の操作対象となるアイコンの操作などが行えるようになっている。
【0017】
ジェスチャ検出装置10は、CPU、ROM、RAM、I/Oなどを備えたマイクロコンピュータによって構成され、制御部を構成するものである。本実施形態では、ジェスチャ検出装置10は、手検出部11、ジェスチャ区間抽出部12、メモリ13およびジェスチャ識別部14を有した構成とされている。
【0018】
手検出部11は、撮像装置20から入力される撮像データから操作者の手が存在する領域(以下、手領域という)を特定し、その領域に関するデータをジェスチャ区間抽出部12に伝える。手検出部11による手領域の特定手法については後述する。
【0019】
ジェスチャ区間抽出部12は、ジェスチャ動作が行われている区間であるジェスチャ区間を抽出する。具体的には、ジェスチャ区間抽出部12は、全体特徴抽出部12a、手領域特徴抽出部12b、特徴結合部12cおよび時系列パターン分類部12dを有した構成とされている。
【0020】
全体特徴抽出部12aは、撮像装置20で撮像した全体画像の撮像データを入力として、その全体画像の特徴量を抽出する。全体画像の特徴量については、例えば、図2Aに示すように撮像装置20が撮像した全体画像40そのものを用いて抽出しても良いし、図2Bに示すように全体画像40から上記した手検出部11で検出した手領域41をマスクして抽出しても良い。マスクする場合には、特徴量に手の位置の情報が埋め込まれるように、撮像装置20が撮像する画像に含まれる可能性が低い画像を手検出部11が検出した手領域41に埋め込むことでマスクしても良い。画像中に含まれる可能性が低い画像としては、例えば黒色や白色などのように撮像され得る画像の色彩と大きな差が生じる色彩の画像が挙げられる。色彩の差については、例えば手領域41の色彩として想定される色彩の色相、再度、明度の少なくとも1つが閾値以上の差になっていれば良い。なお、この全体特徴抽出部12aによる特徴量の抽出手法については後述する。
【0021】
手領域特徴抽出部12bは、図3Aに示すように、撮像装置20で撮像した全体画像40の中から手検出部11が検出した手領域41に相当する部分を切り出す。そして、手領域特徴抽出部12bは、切り出した画像(以下、手領域画像という)41aを入力として、その手領域画像41aの特徴量を抽出する。このときの特徴量の抽出については、図3Bに示すように、手領域画像41aの画像サイズを全体画像40の画像サイズに大きさを揃えて行うようにしても良い。このようにすれば、手領域画像41aの特徴量を全体画像40の特徴量と重みを揃えることができ、手領域画像41aの特徴量がクローズアップされ、全体画像40の特徴量に埋もれないで現れ易くなるようにできる。
【0022】
なお、撮像装置20として2Dの近赤外線画像が用いられる場合、例えば温度分布に応じた色彩が濃淡パターンとして現れた画像となり、可視光画像の場合は、明るさが濃淡パターンとして現れた画像となる。いずれの場合でも、同様の手法によって特徴量を抽出できる。
【0023】
特徴結合部12cは、全体特徴抽出部12aで抽出した全体画像40の特徴量と手領域特徴抽出部12bで抽出した手領域画像41aの特徴量とを結合する。この結合によってデータ圧縮が行われるようにすると好ましい。特徴量の結合の手法としては様々な手法が有り、どのような手法でも良いが、例えば重み付き和によって結合させたり、単純に特徴量を示すデータを連結することで結合させたりする手法が挙げられる。重み付き和による結合とする場合には、データ圧縮も図れる。
【0024】
時系列パターン分類部12dは、特徴結合部12cで結合した特徴量について、時系列パターンを分類し、過去の画像フレームの中からジェスチャ動作の開始フレームを検出する。そして、時系列パターン分類部12dでは、現在の画像フレーム(以下、現フレームという)をジェスチャ動作の終了フレームとして、開始フレームから終了フレームまでとなるジェスチャ区間を抽出する。時系列パターンの分類手法については様々な手法を適用できるが、ここでは再帰型ニューラルネットワーク(以下、RNN(Recurrent Neural Network)という)を用いている。
【0025】
RNNは、新たに特徴量が入力される毎に、現フレームをジェスチャ動作の終了フレームと仮定すると共に、{1,2,・・・,N}フレーム前を開始フレームと仮定した時の確からしさN個を出力するように学習されている。N個のうち確からしさの最大値に基づいてジェスチャ動作の開始フレームが求められ、現フレームを終了フレームとして、開始フレームから終了フレームまでのジェスチャ区間が抽出される。具体的には、N個のうち確からしさが最大値となっているi番目のノードが閾値を超えると、iフレーム前が開始フレームとされることで、ジェスチャ区間が抽出されるようになっている。この時系列パターンの分類手法についても後述する。
【0026】
メモリ13は、手検出部11、ジェスチャ区間抽出部12およびジェスチャ識別部14で実行する各種処理のプログラムや、マッチング用データなどの各種データを記憶したROM、RAM等の非遷移有形記録媒体を構成するものである。このメモリ13に記憶されたプログラムや各種データを用いて各種処理が実行されるようになっている。
【0027】
ジェスチャ識別部14は、ジェスチャ区間抽出部12で抽出したジェスチャ区間中の各フレーム、つまり開始フレームから終了フレームまでの間のフレームに基づき、手検出部11で検出した手領域の画像からジェスチャ動作を識別する。識別手法自体は、手領域が既に特定されていることから、従来と同様の手法などで良い。例えば、ジェスチャ識別部14は、予めジェスチャ動作のパターンとしてメモリ13に記憶させた様々なパターンと対比し、最も近いパターンのジェスチャ動作と判定することで、ジェスチャ動作を識別することができる。このようにして、ジェスチャ検出装置10でジェスチャ動作が検出されると、その検出結果が情報機器30に伝えられ、例えば、情報機器30の操作について、ジェスチャ動作に従った操作が行われることになる。
【0028】
続いて、上記した手領域の特定手法、特徴量の抽出手法、時系列パターンの分類手法について、順に説明する。
【0029】
(1)手領域の特定手法
手領域の特定については、図4に示すフローチャートに従って行っている。具体的には、ステップS100のように、撮像装置20から入力された全体画像40から一部を切り出して特徴量を抽出したのち、ステップS110のように、事前学習済みのパターンと照合する。これにより、切り出された部分画像の「手らしさ」の確からしさ、つまり手であることの確からしさを算出する。
照合に関しては、メモリ13に学習済みパターンを記憶しているため、そのデータをメモリ13から読み出すことによって行われる。手の画像と手以外の画像をそれぞれ多数用意し、各画像の特徴量を算出した場合に、その算出結果が手の画像の特徴量と手以外の画像の特徴量とで差が出ることから、その差の中間に位置する値を学習済みパターンとしている。
【0030】
例えば、図5に示すように、手の画像から算出した特徴量と手以外の画像から算出した特徴量をXY座標で表すと、それぞれの特徴量が存在する領域が分かれるため、その2つの領域を区画する境界線を学習済みパターンとしている。
【0031】
そして、ステップS120のように、切り出された部分画像の「手らしさ」の確からしさに基づいて、手領域を特定する。具体的には、全体画像40から切り出した一部が手領域に相当するか否かを、その切り出した一部についての特徴量が学習済みパターンとして記憶した境界線より、手の画像から算出した特徴量の方へどれだけ離れているかに基づいて判定している。確からしさが閾値以上なら、その切り出した一部が手領域であると判定している。
【0032】
例えば、図6に示すように、全体画像40をm×nの画素に区画し、注目したい画素とその周辺の画素を含んだ小領域42、例えば50×50や100×100の領域を設定し、その小領域42の画像について特徴量を抽出する。このときの特徴量の抽出についても、後述する手法を用いれば良い。
【0033】
(2)特徴量の抽出手法
特徴量の抽出手法としては、様々な手法を適用できるが、ここでは畳み込みニューラルネットワーク(以下、CNN(Convolutional Neural Network)という)を適用している。CNNは、畳み込み演算(Convolution)による画像特徴量の抽出とプーリング(Pooling)と呼ばれる処理を行い、何層にもわたって積み上げられたネットワークを構成して特徴量を抽出する手法である。
【0034】
Convolution層では、図6と同様に、注目したい画素とその周辺の画素を含んだ小領域にあるデータの重み付き和を計算することで特徴量を取り出している。例えば3×3の領域の場合には、9画素分の重み付き和を計算する。そして、少しずつ小領域をずらし、対象とする画像の全域について重み付き和を計算する。全体特徴抽出部12aによる全体画像40での特徴量抽出を行う場合には、全体画像40の全域について重み付き和を計算し、手領域特徴抽出部12bによる手領域画像41aでの特徴量検出の場合には、手領域の全域について重み付き和を計算する。
【0035】
例えば、図7の状態Aに示すような全体画像40からの任意の小領域にあるデータの重み付き和が算出される。そして、対象とする画像の全域を走査して重み付き和が計算され、図7の状態Bに示すような画像全域の特徴量が得られる。
【0036】
Pooling層では、小領域にあるデータを代表値、例えば最大値や平均値などにまとめ、データの縮小を行っている。つまり、Convolution層で得た重み付き和の特徴を残しつつ、データ量を削減している。このとき、小領域については、互いに重ならないようにずらすようにする。これにより、図7の状態Cに示すようにPooling層が得られる。
【0037】
これらConvolution層とPooling層を重ねて、対象とする画像の濃淡パターンに基づく特徴量が抽出することで、図7の状態Dに示すように、対象とする画像の特徴量のデータが形成される。
【0038】
なお、各層を得るときに、活性化関数を適用することもできる。活性化関数は、各層の出力値に非線形変換を行い、表現力を向上するものである。活性化関数については、Convolution層とPooling層のいずれか一方について、もしくは両方について適用することができる。活性化関数を適用することで、閾値を設定する境界線がより線形的なものであっても対応することができる。
【0039】
全結合(Fully Connected)層では、Convolution層とPooling層を重ねて得られた対象とする画像の特徴量のデータを1つのノードに結合し、特徴変数を出力する。例えば、全結合層では、特徴量の全データの重み付き和を計算している。これにより、図7の状態Eに示すように、全結合層が得られる。
【0040】
(3)時系列パターンの分類手法
上記した手法に基づいて、図8に示すように、全体特徴抽出部12aによる全体画面での特徴量抽出と手領域特徴抽出部12bによる手領域画像41aでの特徴量抽出が行われると、これら各特徴量が特徴結合部12cにて結合される。そして、この結合後の特徴量に基づいて時系列パターンの分類が行われる。ここでは、全体画面での特徴量のノード(以下、全体特徴量ノードという)と手領域画面での特徴量のノード(以下、手領域特徴量ノードという)の重み付き和を計算することによって、結合後の特徴量のノードを得ている。
【0041】
時系列パターンの分類については、RNNによって行っている。具体的には、結合後の特徴量のノードと、現フレームの直前のフレームの際に得た直前の内部状態を示すノードとの重み付き和を算出することで、現フレームの内部状態を計算する。そして、算出された内部状態を示す全データの重み付け和を計算することでRNNの出力を得ている。なお、このときに得た現フレームの内部状態は、直前の内部状態を示すノードとして記憶され、次のフレームの内部状態を計算する際に用いられることになる。
【0042】
RNNの出力は、図中に示されるように、1~Nのノードとして表され、各ノードのデータは、現フレームを終了フレームと仮定すると共に、{1,2,・・・,N}フレーム前を開始フレームと仮定した時の確からしさを示している。この各ノードに表されている確からしさの数値の中から最大値を選択し、その最大値が閾値を超えているか否かを判定する。そして、その最大値が閾値を超えていれば、その最大値となっていたノードの番号が現フレームを最終フレームとしたときに開始フレームが何フレーム前であるかを示していることになる。
【0043】
一例を示すと、各ノードの確からしさの数値は0~1で表されており、閾値は例えば0.5などで表されている。RNNの出力における2番目のノードの確からしさの数値が全ノード中の最大値であったとすると、その最大値が閾値となる0.5を超えていれば、開始フレームは現フレームの2フレーム前として算出される。これにより、ジェスチャ動作の開始フレームから終了フレームまでとなるジェスチャ区間が抽出され、その抽出結果がジェスチャ識別部14に伝えられることで、ジェスチャ動作が識別されるようになっている。
【0044】
以上のようにして、本実施形態にかかるジェスチャ検出装置10が構成されており、手領域の特定、特徴量の抽出、時系列パターンの分類およびジェスチャ動作の識別が行われている。
【0045】
図9は、ジェスチャ検出装置10が実行する処理のフローチャートである。この処理は、撮像装置20からの撮像データに基づいて所定の制御周期毎に実行される。ジェスチャ検出装置10が車両に搭載される場合には、例えばイグニッションスイッチなどの車両の起動スイッチがオンされると、ジェスチャ検出装置10も電源投入がなされ、所定の制御周期毎に図9に示す各処理が実行される。
【0046】
まず、ステップS200では、撮像装置20からの距離画像の撮像データを入力する。そして、ステップS210において、手領域を特定する。この処理は、上記した手領域の特定手法に基づいて、手検出部11によって行われる。その後、ステップS220で全体画像40の特徴量を抽出すると共に、ステップS230において手領域画像の特徴量を抽出する。この処理は、上記した特徴量の抽出手法に基づいて、全体特徴抽出部12aや手領域特徴抽出部12bによって行われる。
【0047】
次に、ステップS240に進み、ステップS220、S230で抽出した全体画像40の特徴量と手領域画像41aの特徴量とを結合する。この処理は、重み付き和の算出などに基づき、特徴結合部12cによって行われる。そして、ステップS250に進み、現フレームを終了フレームと仮定し、{1,2,・・・,N}フレーム前を開始フレームと仮定した時の確からしさを算出する。続いて、ステップS260において、ステップS250で得られた各ノードの確からしさの最大値がi番目のノードであったとすると、i番目のノードの確からしさが閾値を超えているか否かを判定する。ここで肯定判定されればステップS270に進み、否定判定されたら処理を終了して再びステップS200に戻る。ステップS270では、最大値となっていたノードの番号iが現フレームを最終フレームとしたときに開始フレームが何フレーム前であるかを示していることに基づき、iフレーム前から現フレームをジェスチャ区間として抽出する。これらステップS240~S270の処理は、上記した時系列パターンの分類手法に基づいて、時系列パターン分類部12dによって行われる。
【0048】
最後に、ステップS280に進み、ステップS270で抽出されたジェスチャ区間におけるジェスチャ動作を識別する。このようにして、ジェスチャ検出装置10によってジェスチャ動作が検出される。
【0049】
以上説明したように、本実施形態にかかるジェスチャ検出装置10では、手以外の広範囲を撮像した距離画像の撮像データから操作者の手が存在する手領域を特定している。そして、全体画像40から手領域を切り取った手領域画像41aの特徴量と全体画像40の特徴量とに基づいてジェスチャ動作が行われているジェスチャ区間を抽出し、ジェスチャ動作を検出している。これにより、WSDのような広い画面を対象としてジェスチャ動作が行われる場合に、ジェスチャ機能をオンするために特定の領域を設定しなくても、ジェスチャ動作を検出することが可能となる。
【0050】
(第2実施形態)
第2実施形態について説明する。本実施形態は、第1実施形態に対して特徴量の結合手法を変更したものであり、その他については第1実施形態と同様であるため、第1実施形態と異なる部分についてのみ説明する。
【0051】
本実施形態では、特徴結合部12cによる特徴量の結合を第1実施形態のような重き付き和によって行うのではなく、次元削減手法、例えば主成分分析(以下、PCA(Principal Component Analysis)という)によって行う。
【0052】
例えば、図10に示すように、全体画像40の特徴量と手領域画像41aの特徴量とを単純に連結する。そして、PCAによって、次元削減を行うことで、結合した特徴量を得る。
【0053】
このようにすれば、過学習の抑制、メモリ・計算量削減を図ることが可能となる。なお、PCAによって得た結合後の特徴量を用いて、第1実施形態において図8を用いて説明した場合と同様、時系列パターンの分類が行われることになる。
【0054】
(第3実施形態)
第3実施形態について説明する。本実施形態は、第1、第2実施形態に対して時系列パターンの分類手法を変更したものであり、その他については第1、第2実施形態と同様であるため、第1、第2実施形態と異なる部分についてのみ説明する。
【0055】
上記第1実施形態では、時系列パターンの分類手法としてRNNを用いたが、本実施形態では、複数のフレームの特徴量を結合してパターン分類を行うという手法を用いる。
【0056】
具体的には、本実施形態では、図11Aに示すフローチャートに従って時系列パターンの分類を行っている。
【0057】
まず、ステップS300のように、特徴結合部12cで得た結合後の特徴量を複数フレーム分用意する。具体的には、図11Bに示すように、現フレームからNフレーム前に得た結合後の特徴量を用意する。なお、このように複数フレーム分の結合後の特徴量を用意できるように、メモリ13には過去の複数フレーム分の結合後の特徴量が記憶されるようにしておく。
【0058】
次に、ステップS310のように、複数フレーム分の結合後の特徴量をさらに結合する。このときの結合手法については、第1実施形態のように重き付き和を算出したり、単純に結合したり、さらにPCA等による次元削減を行ったりする手法を用いることができる。
【0059】
そして、ステップS320のように、事前学習済みのパターンと照合する。これにより、複数フレーム分の結合後の特徴量の「ジェスチャらしさ」の確からしさ、つまりジェスチャ動作であることの確からしさを算出する。
【0060】
照合に関しては、メモリ13に学習済みパターンを記憶しているため、そのデータをメモリ13から読み出すことによって行われる。ジェスチャ動作時に得られる結合後の特徴量とジェスチャ動作以外の時に得られる結合後の特徴量をそれぞれ多数用意し、それらの算出結果がジェスチャ動作時とそれ以外の時とで差が出ることから、その差の中間に位置する値を学習済みパターンとしている。
【0061】
そして、ステップS330において、ステップS310で得た結合後の特徴量の「ジェスチャらしさ」の確からしさに基づいて、ジェスチャ動作であることを特定する。具体的には、「ジェスチャらしさ」の確からしさが閾値以上であれば、Nフレーム前から現フレームがジェスチャ区間と判定する。
【0062】
このように、複数フレーム分の特徴量を結合し、ジェスチャ動作の学習済みパターンに基づいて「ジェスチャらしさ」を算出して、ジェスチャ動作であることを特定するようにしても良い。
【0063】
なお、ここでは複数フレーム分の一例としてN個分のフレームを例に挙げているが、Nを複数通り試行しても良い。例えば、N-1個分のフレームについても、同様に「ジェスチャらしさ」の確からしさを算出するようにしても良い。その場合、現フレームからN-1フレーム前までの結合後の特徴量から得た「ジェスチャらしさ」の確からしさと、現フレームからNフレーム前までの結合後の特徴量から得た「ジェスチャらしさ」の確からしさのいずれが高いかを比較する。そして、確からしさが高い方における最も古いフレームを開始フレームとすれば良い。
【0064】
(第4実施形態)
第4実施形態について説明する。本実施形態は、第1~第3実施形態に対してジェスチャ動作の認識に他の要素を考慮するものであり、その他については第1~第3実施形態と同様であるため、第1~第3実施形態と異なる部分についてのみ説明する。
【0065】
操作者がジェスチャ動作を行う場合、手の動き以外にも特徴として現れる部分がある。例えば、操作者は、ジェスチャ動作を行うときには、操作対象に顔や視線を向けるが、ジェスチャ動作を行う手指以外の部分の動きが小さくなる。このため、本実施形態では、その一例として、操作者の顔についても検出し、顔の部分の特徴量についても加味して時系列パターンの分類を行う。
【0066】
本実施形態のジェスチャ検出装置10は、図12に示すように、第1実施形態で説明した構成に加えて顔検出部15を備えていると共に、ジェスチャ区間抽出部12に顔領域特徴抽出部12eを備えている。
【0067】
顔検出部15は、撮像装置20から入力される撮像データから操作者の顔が存在する領域(以下、顔領域という)を特定し、その領域に関するデータをジェスチャ区間抽出部12に伝える。顔検出部15による顔領域の特定手法については、上記した手領域の特定手法と同様である。
【0068】
顔領域特徴抽出部12eは、撮像装置20で撮像した画像の中から顔検出部15が検出した顔領域に相当する部分を切り出し、切り出した画像(以下、顔領域画像という)を入力として、その顔領域画面の特徴量を抽出する。このときの特徴量の抽出については、手領域画像41aの特徴量の抽出と同様の手法で良い。
【0069】
このように、顔検出部15および顔領域特徴抽出部12eを備えることで、顔領域画像の特徴量を抽出できる。また、全体特徴抽出部12aによる全体画像40の特徴量を算出する際には、手領域41に加えて顔領域もマスクするようにする。そして、特徴結合部12cでは、全体特徴抽出部12aと手領域特徴抽出部12bおよび顔領域特徴抽出部12eそれぞれで抽出した特徴量を結合し、その結合後の特徴量を用いて時系列パターン分類部12dによる時系列パターンの分類を行う。
【0070】
このようにすることで、ジェスチャ動作に関連する手以外の部分の特徴量も加味して、ジェスチャ動作を検出できる。これにより、より精度良く、ジェスチャ動作を検出することが可能となる。
【0071】
(他の実施形態)
本開示は、上記した実施形態に準拠して記述されたが、当該実施形態に限定されるものではなく、様々な変形例や均等範囲内の変形をも包含する。加えて、様々な組み合わせや形態、さらには、それらに一要素のみ、それ以上、あるいはそれ以下、を含む他の組み合わせや形態をも、本開示の範疇や思想範囲に入るものである。
【0072】
例えば、特徴量の抽出手法として、CNNを例に挙げたが、その他の手法も適用可能である。例えば、HOG(Histogram of oriented Gradient)、LBP(Local Binary Pattern)などを用いて特徴量の抽出を行っても良い。また、時系列パターンの分類手法としてRNNを用いる場合について説明したが、3DCNNなどの他の時系列パターンの分類手法を用いることもできる。また、第2実施形態において、特徴量の結合を次元削減手法によって行う場合の一例としてPCAを例に挙げたが、PCA以外の次元削減手法を用いても良い。なお、次元削減手法による特徴量の結合を行っているが、次元削減は必須ではなく、例えば学習データが十分に得られているなどの場合には、次元削減を行わなくても良い。
【0073】
また、直前の画像フレームをメモリ13に保存しておき、現フレームから特徴量を抽出する際に、その直前の画像フレームを組み合わせて用いても良い。例えば、直前の画像フレームと現フレームとの間の動き情報であるオプティカルフローを入力としてCNNなどで特徴量を抽出するようにしても良い。また、直前の画像フレームを現フレームに組み合わせる場合、HoOF(Histogram of Optical Flow)や3D CNN等を用いても良い。
【0074】
なお、手検出部11とジェスチャ区間抽出部12の各部で行われる特徴量の抽出手法については、いずれの手法を用いても構わないが、上記各実施形態のように、特徴量の抽出手法を同じ手法にすると好ましい。このようにすると、メモリ13内に記憶しておく機械学習の辞書データ量を削減することが可能になる。
【0075】
本開示に記載の制御部及びその手法は、コンピュータプログラムにより具体化された一つ乃至は複数の機能を実行するようにプログラムされたプロセッサ及びメモリーを構成することによって提供された専用コンピュータにより、実現されてもよい。あるいは、本開示に記載の制御部及びその手法は、一つ以上の専用ハードウエア論理回路によってプロセッサを構成することによって提供された専用コンピュータにより、実現されてもよい。もしくは、本開示に記載の制御部及びその手法は、一つ乃至は複数の機能を実行するようにプログラムされたプロセッサ及びメモリーと一つ以上のハードウエア論理回路によって構成されたプロセッサとの組み合わせにより構成された一つ以上の専用コンピュータにより、実現されてもよい。また、コンピュータプログラムは、コンピュータにより実行されるインストラクションとして、コンピュータ読み取り可能な非遷移有形記録媒体に記憶されていてもよい。
【符号の説明】
【0076】
11 手検出部
12 ジェスチャ区間抽出部
12a 全体特徴抽出部
12b 手領域特徴抽出部
12c 特徴結合部
12d 時系列パターン分類部
12e 顔領域特徴抽出部
14 ジェスチャ識別部
40 全体画像
41a 手領域画像
図1
図2A
図2B
図3A
図3B
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図12