(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022183582
(43)【公開日】2022-12-13
(54)【発明の名称】指示座標認識システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20221206BHJP
G06T 7/70 20170101ALI20221206BHJP
【FI】
G06T7/00 350B
G06T7/70 A
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2021090983
(22)【出願日】2021-05-31
(71)【出願人】
【識別番号】000000974
【氏名又は名称】川崎重工業株式会社
(71)【出願人】
【識別番号】504139662
【氏名又は名称】国立大学法人東海国立大学機構
(74)【代理人】
【識別番号】110000556
【氏名又は名称】特許業務法人 有古特許事務所
(72)【発明者】
【氏名】永塚 満
(72)【発明者】
【氏名】小川 直紀
(72)【発明者】
【氏名】山田 宏尚
(72)【発明者】
【氏名】池田 貴公
(72)【発明者】
【氏名】野口 大介
(72)【発明者】
【氏名】野田 直樹
(72)【発明者】
【氏名】今村 翼
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA09
5L096EA03
5L096EA35
5L096FA09
5L096FA64
5L096FA67
5L096FA69
5L096HA09
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】作業を増やすことなく人間による指示位置の認識の精度を従来よりも向上することができる指示座標認識システムを提供する。
【解決手段】
指示座標認識システムは、人間により指し示された位置である三次元の指示位置を認識する指示座標認識システムであって、人間を撮像する撮像装置と、撮像装置により撮像された二次元の人間画像から人間の腕の長さおよび腕の角度を含む腕情報を学習用データとして取得する腕情報取得部と、腕情報取得部により取得された学習用データを入力データとし、指示位置を出力データとする機械学習を行って第1学習モデルを構築する第1機械学習部と、第1機械学習部により構築された第1学習モデルを用いて指示位置を認識する第1認識部とを備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
人間により指し示された位置である三次元の指示位置を認識する指示座標認識システムであって、
人間を撮像する撮像装置と、
前記撮像装置により撮像された二次元の人間画像から前記人間の腕の長さおよび前記腕の角度を含む腕情報を学習用データとして取得する腕情報取得部と、
前記腕情報取得部により取得された前記学習用データを入力データとし、前記指示位置を出力データとする機械学習を行って第1学習モデルを構築する第1機械学習部と、
前記第1機械学習部により構築された前記第1学習モデルを用いて前記指示位置を認識する第1認識部と、を備える、指示座標認識システム。
【請求項2】
前記撮像装置により撮像された前記人間画像から前記人間の手首および手を含む手情報を学習用データとして取得する手情報取得部と、
前記手情報取得部により取得された前記学習用データを入力データとし、ジェスチャを示す手形状を出力データとする機械学習を行って第2学習モデルを構築する第2機械学習部と、
前記第2機械学習部により構築された前記第2学習モデルを用いて前記人間によるハンドジェスチャを認識する第2認識部と、
をさらに備える、請求項1に記載の指示座標認識システム。
【請求項3】
前記腕情報取得部は、
前記撮像装置により撮像された前記人間画像を読み込む第1読み込み部と、
前記第1読み込み部により読み込まれた前記人間画像から前記腕の関節位置を推定し、推定した前記腕の関節位置から前記腕の長さおよび前記腕の角度を取得する取得部と、を含む、請求項1又は2に記載の指示座標認識システム。
【請求項4】
前記手情報取得部は、
前記撮像装置により撮像された前記人間画像を読み込む第2読み込み部と、
前記第2読み込み部により読み込まれた前記人間画像から前記手首の関節位置を推定し、推定した前記手首の関節位置から前記手の中心座標を推定する推定部と、
前記推定部により推定された前記中心座標を基準として前記人間画像から手画像を切り出す切り出し部と、
前記切り出し部により切り出された前記手画像をリサイズするリサイズ部と、を含む、請求項2又は3に記載の指示座標認識システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人間により指し示された位置である指示位置を認識する指示座標認識システムに関する。
【背景技術】
【0002】
近年、工場における労働力不足に伴って当該工場の自動化が更に進みつつある。このような状況下、産業用ロボットが広く使用されており、今後産業用ロボットによる工場内物流の更なる自動化が期待されている。
【0003】
従来、工場等におけるロボットに作業を行わせる方法として、人間の指さし行為による物体の空間位置についての教示方法が提案されている。例えば特許文献1には、指で指示した物体をロボットが認識し、当該物体が何であるかについて応答することができる認識システムが開示されている。また、人間のジェスチャをロボットに認識させて当該ロボットの動作を制御する認識システムが下記非特許文献1,2にも開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005-069734号公報
【非特許文献1】表允皙,長谷川勉,辻徳生,諸岡健一,倉爪亮:ジェスチャによる移動ロボットへの動作目標指示と誤差修正,第29回日本ロボット学会学術講演会論文集(2011年9月7日~9日)
【非特許文献2】餅川穂,山下晃弘:指さし動作認識による移動ロボットの操作,HAI シンポジウム2014論文集,pp.36-40
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、指差し位置は人間による指差しによって誤差が生じる。この点につき、上記特許文献1の認識システムにおいては、人間が物体の位置をピンポイントで教示するだけでなく当該物体が存在する範囲を指定するように指を動かし、また人間とロボットとの双方間で対話することが開示されているが、この場合双方において作業が増えてしまう。また、上記非特許文献1の認識システムではロボットに対して目標位置の修正命令を送信しているが、これも同様に作業が増えてしまう。さらに、上記非特許文献2の認識システムでは指差し位置の推定に誤差が生じることが記載されており、推定位置の補正が今後の課題であると説明されている。
【0006】
そこで、本発明は、作業を増やすことなく人間による指示位置の認識の精度を従来よりも向上することができる指示座標認識システムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の指示座標認識システムは、人間により指し示された位置である三次元の指示位置を認識する指示座標認識システムであって、人間を撮像する撮像装置と、前記撮像装置により撮像された二次元の人間画像から前記人間の腕の長さおよび前記腕の角度を含む腕情報を学習用データとして取得する腕情報取得部と、前記腕情報取得部により取得された前記学習用データを入力データとし、前記指示位置を出力データとする機械学習を行って第1学習モデルを構築する第1機械学習部と、前記第1機械学習部により構築された前記第1学習モデルを用いて前記指示位置を認識する第1認識部と、を備えるものである。
【0008】
本発明に従えば、腕情報取得部により人間の腕の長さおよび腕の角度を含む腕情報が学習用データとして取得される。そして、第1機械学習部によって、学習用データを入力データとし、指示位置を出力データとする機械学習が行われることで第1学習モデルが構築される。このような第1学習モデルを用いて第1認識部により指示位置が認識されるため、指示位置の認識の精度が従来よりも向上する。また、目標位置の修正命令を送ること等が必要ないため、作業が増えてしまうこともない。
【発明の効果】
【0009】
本発明によれば、作業を増やすことなく人間による指示位置の認識の精度を従来よりも向上することができる指示座標認識システムを提供することができる。
【図面の簡単な説明】
【0010】
【
図1】本発明の一実施形態に係る指示座標認識システムの構成を示す概略図である。
【
図2】
図1の指示座標認識システムにおける画像処理装置の演算部の構成を示すブロック図である。
【
図3】本実施形態のハンドジェスチャ認識処理で用いる学習モデルの構成を示す図である。
【
図4】本実施形態における学習画像の例を示す図である。
【
図5】(a)は推定部により推定される手首の関節位置および手の中心座標を示す図であり、(b)は切り出し部により切り出された手画像を示す図であり、(c)はリサイズ部によりリサイズされた手画像を示す図である。
【
図6】姿勢推定ライブラリの一つであるオープンポーズにおけるジョイントの配位数を示す図である。
【
図7】本実施形態におけるハンドジェスチャの認識処理の流れを示すフローチャートである。
【
図8】(a)は人間による指示位置を説明するための図であり、(b)は腕の関節位置を説明するための図である。
【
図9】本実施形態の指示位置認識処理で用いる学習モデルの構成を示す図である。
【
図10】本実施形態における試験的な指示位置を示す図である。
【
図11】指示位置認識処理における学習のデータを示す表である。
【
図12】本実施形態における人間の指示位置の認識処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本発明の一実施形態に係る指示座標認識システムについて図面を参照して説明する。以下に説明する指示座標認識システムは、本発明の一実施形態に過ぎない。従って、本発明は以下の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で追加、削除および変更が可能である。
【0012】
図1は本発明の一実施形態に係る指示座標認識システム100の構成を示す概略図であり、
図2は
図1の指示座標認識システム100における画像処理装置1の演算部30の構成を示すブロック図である。本実施形態に係る指示座標認識システム100は、撮像装置により撮像された二次元の人間画像から、人間により指し示された位置である三次元の指示位置を認識するものである。以下、詳しく説明する。
【0013】
図1に示すように、本実施形態の指示座標認識システム100は、画像処理装置1と、撮像装置2と、撮像装置旋回台3と、旋回台コントローラ4とを備えている。画像処理装置1は例えば工場等におけるロボットや当該ロボットに指示を送るパーソナルコンピュータに備えさせることができる。なお、画像処理装置1の機能的構成の詳細については後で説明する。
【0014】
撮像装置2は例えばCMOS撮像素子を有するカメラで構成することができる。ただし、撮像装置2の撮像素子はCMOSに限定されるものではない。このような撮像装置2は人間を撮像し、その撮像結果である二次元の画像データを画像処理装置1に与える。
【0015】
撮像装置旋回台3は撮像装置2の撮像方向に垂直な方向を軸として当該軸回りに撮像装置2を回動させる。例えば指示座標認識システム100を工場に配置する場合には、撮像装置2の撮像対象である上記人間はロボットに対して指示を行う現場作業者とすることができる。また、旋回台コントローラ4は画像処理装置1から与えられるコマンドに基づき撮像装置旋回台3の旋回動作を制御する。
【0016】
画像処理装置1は
図2に示す演算部30を備えている。演算部30は例えばCPU、ROMおよびRAM等により構成することができる。演算部30は、腕情報取得部31、第1機械学習部32、第1認識部33、学習モデル記憶部34、手情報取得部35、第2機械学習部36、および、第2認識部37を有している。演算部30は、CPUとROMに記憶された所定のプログラム(ソフトウェアライブラリ)との協働によって機能的に実現される。このような演算部30は撮像装置2による撮像結果を受け取る。
【0017】
腕情報取得部31は、撮像装置2により撮像された人間画像から人間の腕の長さおよび腕の角度を含む腕情報を学習用データとして取得する。このような腕情報取得部31は、第1読み込み部31aおよび取得部31bを有している。第1読み込み部31aは撮像装置2により撮像された人間画像を読み込む。取得部31bは第1読み込み部31aにより読み込まれた人間画像から腕の関節位置を推定し、推定した腕の関節位置から腕の長さおよび腕の角度を計算により取得する。詳細は後述する。
【0018】
第1機械学習部32は、腕情報取得部31により取得された学習用データを入力データとし、人間による指示位置を出力データとする機械学習を行って後述の学習モデルMD2を構築する。本実施形態の学習モデルMD2が第1学習モデルに相当する。第1機械学習部32により構築された学習モデルMD2は学習モデル記憶部34に記憶される。
【0019】
第1認識部33は、第1機械学習部32により構築された学習モデルMD2を用いて、人間により指示された指示位置を認識する。
【0020】
次に手情報取得部35について説明する。本実施形態において手情報取得部35は、撮像装置2により撮像された人間画像から人間の手首および手を含む手情報を学習用データとして取得する。このような手情報取得部35は、第2読み込み部35a、推定部35b、切り出し部35cおよびリサイズ部35dを有している。第2読み込み部35aは撮像装置2により撮像された人間画像を読み込む。推定部35bは第2読み込み部35aにより読み込まれた人間画像から手首の関節位置を推定し、推定した手首の関節位置から手の中心座標を推定する。詳細は後述する。また、切り出し部35cは推定部35bにより推定された上記中心座標を基準として人間画像から手画像を切り出す。さらに、リサイズ部35dは切り出し部35cにより切り出された手画像をリサイズする。
【0021】
第2機械学習部36は、手情報取得部35により取得された学習用データを入力データとし、ジェスチャを示す手形状を出力データとする機械学習を行って学習モデルMD1を構築する。本実施形態の学習モデルMD1が第2学習モデルに相当する。第2機械学習部36により構築された学習モデルMD1は学習モデル記憶部34に記憶される。
【0022】
第2認識部37は、第2機械学習部36により構築された学習モデルMD1を用いて、人間によるハンドジェスチャを認識する。
【0023】
本実施形態の指示座標認識システム100においては、まず人間による指差しを認識し、その後その指差しにより示される指示位置を認識する。以下、人間のハンドジェスチャの認識処理について説明し、そのあと、人間による指示位置の認識処理について説明する。
【0024】
本実施形態におけるハンドジェスチャ認識処理においては、第2機械学習部36による学習方法として、例えば畳み込みニューラルネットワークを用いることができる。また、学習フレームワークとして、例えばKerasを使用することができる。なお、Kerasとはニューラルネットワークライブラリの一つである。
【0025】
図3は本実施形態のハンドジェスチャの認識処理で用いる学習モデルMD1の構成を示す図であり、
図4は本実施形態における学習画像の例を示す図である。
図3に示すように、学習モデルMD1は、例えば3層の畳み込み層L1と、3層のプーリング層L2と、2層の全結合層L3と、出力層L4とを含む。なお、
図3では畳み込み層L1は1層のみ図示している。
【0026】
本実施形態では、第2機械学習部36の学習に使用する画像(学習画像)として、
図4(a)に示す指差し画像G1、同図(b)に示す拳画像G2、および同図(c)に示す掌画像G3を含むデータセットを用いることができる。これらの指差し画像G1、拳画像G2および掌画像G3として、例えば32×32画素のカラー画像を用いる。指差し画像G1、拳画像G2および掌画像G3については、以下のように生成することができる。
【0027】
まず、第2読み込み部35aは撮像装置2により撮像された、
図5(a)に示す人間画像GHを読み込む。続いて、
図5(a)に示すように、推定部35bは第2読み込み部35aにより読み込まれた人間画像GHから手首の関節位置KTを推定する。この場合、推定部35bは例えば
図6に示す公知のオープンポーズ(OpenPose)OPにおける配位数を使用することで関節位置KTを推定することができる。このオープンポーズOPとは、深層学習を用いて人間の関節等のキーポイント情報(特徴点)をリアルタイムに抽出する姿勢推定ライブラリによる公知の骨格情報取得技術である。次に、推定部35bは上記推定した手首の関節位置KTから手の中心座標CZ(
図5(a))を推定する。
【0028】
続いて、
図5(b)に示すように、切り出し部35cは推定部35bにより推定された中心座標CZを基準として人間画像GHから手画像GKを切り出す。そして、
図5(c)に示すように、リサイズ部35dは切り出し部35cにより切り出された手画像GKを所定サイズ(例えば32×32画素)にリサイズすることで手画像GRを生成する。上述の指差し画像G1、拳画像G2および掌画像G3についても、上記手画像GRと同様に生成される。なお、指差し画像G1、拳画像G2および掌画像G3については、学習の精度向上のために、例えばグレースケール化、2値化、輪郭検出、膨張・収縮処理を行い、元画像G1,G2,G3と組み合わせて学習を行わせることができる。また、少数の学習データでも良好に学習できるようにするために、指差し画像G1、拳画像G2および掌画像G3について、回転、反転又は画素値の増減等の処理を行ってもよい。
【0029】
図7はハンドジェスチャの認識処理の流れを示すフローチャートである。
図7に示すように、最初に画像処理装置1におけるCPUが演算部30を起動させるためにROMに記憶された所定のプログラム(ソフトウェアライブラリ)を読み込む(ステップS1)。
【0030】
続いて、第2読み込み部35aが撮像装置2により撮像された人間画像GHを読み込む(ステップS2)。そして、推定部35bは第2読み込み部35aにより読み込まれた人間画像GHから手首(例えば右手首)の関節位置KTを推定すると共に、推定した手首の関節位置KTから手(例えば右手)の中心座標CZを推定する(ステップS3)。
【0031】
次いで、切り出し部35cが推定部35bにより推定された中心座標CZを基準として人間画像GHから手画像GKを切り出す(ステップS4)。そして、リサイズ部35dが切り出し部35cにより切り出された手画像GKを所定サイズにリサイズして手画像GRを生成する(ステップS5)。
【0032】
次に、第2認識部37が学習モデルMD1を用いて人間によるハンドジェスチャを認識する(ステップS6)。そして、その認識結果がROMやRAM等に記憶される(ステップS7)。その後、新たな認識処理がなければ(ステップS8でYES)、処理が終了され、一方、新たな認識処理を実行する場合には(ステップS8でNO)、上記ステップS2に戻り処理を繰り返す。
【0033】
次いで、第1認識部33による人間の指示位置の認識処理について図面を参照しつつ説明する。
図8(a)は人間による指示位置JPを説明するための図であり、同図(b)は腕の関節位置KT,KH,KKを説明するための図である。また、
図9は指示位置認識処理で用いる学習モデルMD2の構成を示す図であり、
図10は本実施形態における試験的な指示位置を示す図である。
図9に示すように、本実施形態の指示位置認識処理で用いる学習モデルMD2は、例えば3層の全結合層L5と出力層L6とを含む。
【0034】
本実施形態における指示位置認識処理においては、第1機械学習部32による学習方法として、例えばニューラルネットワークを用いることができる。また、学習フレームワークとして、上述のハンドジェスチャ認識処理と同様にKerasを使用することができる。
【0035】
本実施形態において、取得部31bは第1読み込み部31aにより読み込まれた人間画像GHから腕の各関節位置(
図8(b)に示す手首関節KT、肘関節KH、肩関節KKの各位置)を推定し、推定した各関節位置から腕の長さおよび腕の角度を学習用データとして取得する。
【0036】
第1機械学習部32は取得部31bにより取得された上記学習用データを用いて学習を行う。第1認識部33は、
図8(a)に示すように被験者SJが指差した指示位置JPを認識する。この場合、第1認識部33は、撮像装置2により撮像された撮像画像(つまり2次元情報)に基づき3次元情報である指示位置JPを認識する。以下、詳しく説明する。
【0037】
本実施形態では、撮像装置2による撮像画像における被験者SJの腕の長さおよび腕の角度が、指差し位置である指示位置JPによって変化すること、すなわち被験者SJの腕の長さおよび腕の角度と指示位置JPとの対応関係が存在することを利用する。しかしながら、指差し位置である指示位置JPを連続的に変化させた際の撮像画像上での腕の長さおよび腕の角度の変化は僅かな故に区別することが困難である。このようなことから、本実施形態では、
図10に示すように、予め定めた2次元位置である複数の地点IPを認識するようにする。
【0038】
図10において、撮像装置2による当該被験者SJに対する撮像方向から被験者SJを中心として例えば反時計回りに20°ずつ80°まで区切り、かつ、各角度における被験者SJと撮像装置2との距離(所定距離として例えば1mおよび2m)における地点IPを指示位置JPとする。したがって、
図10においては計10個の地点IPが存在する。
【0039】
第1機械学習部32による学習用データとして、被験者SJが上記の各地点IPを指差した際に、上述のオープンポーズOPより取得した関節座標から被験者SJの腕の長さと角度を計算して得た数値データを用いることができる。このような学習用データである数値データとしては、
図11の8つのデータを採用することができる。
【0040】
図11に示すように、学習用データである数値データとして、前腕角度、上腕角度、手先から肩までの部位における角度である全腕角度、前腕角度+上腕角度、前腕長さ、上腕長さ、手先から肩までの長さである全腕長さ、および前腕長さと上腕長さとの比率である腕長さ率のうち、少なくとも一つを採用することができる。前腕および上腕としては、右腕を採用してもよいし、左腕を採用してもよい。ここで、前腕とは
図8(b)における符号LAで示される部位であり、上腕とは同図(b)における符号UAで示される部位である。なお、上記の各種角度は、
図10で言えば撮像装置2による当該被験者SJに対する撮像方向から被験者SJを中心として例えば反時計回りの角度に対応する。また、上記の各種長さは、
図10で言えば被験者SJと地点IPとの距離(1mおよび2m)に対応する。本実施形態において、第1機械学習部32は以上の学習用データにその位置に対する正解ラベルを付与して学習を行う。
【0041】
学習用データである上記の各種長さとしては、画像上における被験者SJの大きさや当該被験者SJと撮像装置2との距離に起因する変動をなくすために、画像上の被験者SJの身長(すなわち、オープンポーズOPにおけるkeypoints[15][1]-keypoints[24][1])に対する腕の長さの比率を採用することが望ましい。
【0042】
上記8つの数値データのうち例として二つの計算式について説明する。オープンポーズOPより取得した関節座標に基づき前腕角度(lower_arm_degree)を求める計算式は下記数式1で表される。また、オープンポーズOPより取得した関節座標に基づき前腕長さ(lower_arm_length)を求める計算式は下記数式2で表される。なお、数式1において、例えばkeypoints[4][0]とは上記
図6のオープンポーズOPにおける配位数「4」におけるX座標を示しており、例えばkeypoints[3][1]とは上記
図6のオープンポーズOPにおける配位数「3」におけるY座標を示している。数式1におけるその他の要素および数式2における要素も同義である。
【0043】
【0044】
【0045】
次に、
図12は人間の指示位置の認識処理の流れを示すフローチャートである。
【0046】
図12に示すように、最初に画像処理装置1におけるCPUが演算部30を起動させるためにROMに記憶された所定のプログラム(ソフトウェアライブラリ)を読み込む(ステップS11)。
【0047】
続いて、第1読み込み部31aが撮像装置2により撮像された人間画像GHを読み込む(ステップS12)。そして、取得部31bは第1読み込み部31aにより読み込まれた人間画像GHから腕の各関節位置(上述した手首関節KT、肘関節KH、肩関節KKの各位置)を推定する(ステップS13)。続いて、取得部31bは推定した各関節位置から腕の長さおよび角度を取得する(ステップS14)。
【0048】
次いで、第1認識部33が学習モデルMD2を用いて指示位置JPの座標を認識する(ステップS15)。そして、その認識結果がROMやRAM等に記憶される(ステップS16)。その後、新たな認識処理がなければ(ステップS17でYES)、処理が終了され、一方、新たな認識処理を実行する場合には(ステップS17でNO)、上記ステップS12に戻り処理を繰り返す。
【0049】
以上説明したように、本実施形態の指示座標認識システム100によれば、腕情報取得部31により人間の腕の長さおよび腕の角度を含む腕情報が学習用データとして取得される。そして、第1機械学習部32によって、上記学習用データを入力データとし、指示位置JPを出力データとする機械学習が行われることで学習モデルMD2が構築される。このような学習モデルMD2を用いて第1認識部33により指示位置JPが認識されるため、当該指示位置JPの認識の精度が従来よりも向上する。また、目標位置の修正命令を送ること等が必要ないため、作業が増えてしまうこともない。また、人間(現場作業者)は直感的動作としてのジェスチャによって指示位置JPを指示することができるため、従来のように指示の種類の分だけジェスチャを覚える必要がない。さらに、上記の通り人間は直感的動作で指示を行うことができるので、ロボットの制御や設定に詳しくない者でも容易に指示を行うことが可能となる。
【0050】
また、本実施形態では、手情報取得部35により人間の手首および手を含む手情報が学習用データとして取得される。そして、第2機械学習部36によって、このような学習用データを入力データとし、ジェスチャを示す手形状を出力データとする機械学習が行われて学習モデルMD1が構築される。このような学習モデルMD1を用いて第2認識部37によりジェスチャが認識されるため、当該ジェスチャの認識の精度が従来よりも向上する。
【0051】
また、本実施形態では、取得部31によってオープンポーズOPに基づき腕の各関節位置KT,KH,KKが推定されるため、信頼性の高い関節位置情報を得ることができる。そして、このような関節位置KT,KH,KKから、信頼性の高い腕の長さと角度を取得することができる。これによって、指示位置JPの認識処理の精度を向上することができる。
【0052】
さらに、本実施形態では、推定部35bによってオープンポーズOPに基づき手首の関節位置KTが推定されるため、信頼性の高い関節位置情報を得ることができる。そして、推定部35bによって関節位置KTから、信頼性の高い手の中心座標CZを推定することができる。これによって、手画像GKを高精度に得ることができると共に、当該手画像GKを用いたジェスチャ認識処理の精度を向上することができる。
【0053】
(変形例)
上述の実施形態の他にも、本発明は、その要旨を逸脱しない範囲で次のような種々の変形が可能である。
【0054】
上記実施形態では、第1機械学習部32および第2機械学習部36による学習方法として深層学習等のニューラルネットワークを採用したが、これに限定されるものではなく、例えばランダムフォレストやルールベース等の他の学習方式を採用してもよい。
【0055】
また、上記実施形態では、推定部35bは人間画像GHから手首の関節位置KTを推定し、推定した手首の関節位置KTから手の中心座標CZを推定し、切り出し部35cは当該中心座標CZを基準として人間画像GHから手画像GKを切り出すようにした。しかしながら、これに限定されるものではなく、推定部35bは手首の関節位置KTから手の指先座標等の他の座標を推定し、切り出し部35cはその座標に基づき手画像GKを切り出すようにしてもよい。
【0056】
また、上記実施形態では、撮像装置2による被験者SJに対する撮像方向から被験者SJを中心として反時計回りに20°ずつ80°まで区切り、かつ各角度における被験者SJと撮像装置2との距離(1mと2m)の地点IPを指示位置とした。しかし、指示位置としての地点IPの設定は上記に限定されるものではなく、任意の地点を指示位置に設定することができる。
【0057】
さらに、上記実施形態では、画像処理装置1を工場におけるロボットに備えさせることができる旨説明したが、これに限らず、例えば小売店や家庭内でのロボット(例えば搬送ロボットや移動ロボット)、或いは例えば介護分野等における介護ロボット等に備えさせてもよい。
【0058】
本発明の指示座標認識システムは、人間により指し示された位置である三次元の指示位置を認識する指示座標認識システムであって、人間を撮像する撮像装置と、前記撮像装置により撮像された二次元の人間画像から前記人間の腕の長さおよび前記腕の角度を含む腕情報を学習用データとして取得する腕情報取得部と、前記腕情報取得部により取得された前記学習用データを入力データとし、前記指示位置を出力データとする機械学習を行って第1学習モデルを構築する第1機械学習部と、前記第1機械学習部により構築された前記第1学習モデルを用いて前記指示位置を認識する第1認識部と、を備えるものである。
【0059】
本発明に従えば、腕情報取得部により人間の腕の長さおよび腕の角度を含む腕情報が学習用データとして取得される。そして、第1機械学習部によって、学習用データを入力データとし、指示位置を出力データとする機械学習が行われることで第1学習モデルが構築される。このような第1学習モデルを用いて第1認識部により指示位置が認識されるため、指示位置の認識の精度が従来よりも向上する。また、目標位置の修正命令を送ること等が必要ないため、作業が増えてしまうこともない。
【0060】
上記発明において、指示座標認識システムは、前記撮像装置により撮像された前記人間画像から前記人間の手首および手を含む手情報を学習用データとして取得する手情報取得部と、前記手情報取得部により取得された前記学習用データを入力データとし、ジェスチャを示す手形状を出力データとする機械学習を行って第2学習モデルを構築する第2機械学習部と、前記第2機械学習部により構築された前記第2学習モデルを用いて前記人間によるハンドジェスチャを認識する第2認識部と、をさらに備えてもよい。
【0061】
上記構成に従えば、手情報取得部により人間の手首および手を含む手情報が学習用データとして取得される。そして、第2機械学習部によって、このような学習用データを入力データとし、ジェスチャを示す手形状を出力データとする機械学習が行われて第2学習モデルが構築される。このような第2学習モデルを用いて第2認識部によりジェスチャが認識されるため、当該ジェスチャの認識の精度が従来よりも向上する。
【0062】
上記発明において、前記腕情報取得部は、前記撮像装置により撮像された前記人間画像を読み込む第1読み込み部と、前記第1読み込み部により読み込まれた前記人間画像から前記腕の関節位置を推定し、推定した前記腕の関節位置から前記腕の長さおよび前記腕の角度を取得する取得部と、を含んでもよい。
【0063】
上記構成に従えば、取得部によって例えばオープンポーズに基づき腕の関節位置が推定されるため、信頼性の高い関節位置を得ることができる。そして、このような関節位置から、信頼性の高い腕の長さと角度を取得することができる。これによって、指示位置の認識処理の精度を向上することができる。
【0064】
上記発明において、前記手情報取得部は、前記撮像装置により撮像された前記人間画像を読み込む第2読み込み部と、前記第2読み込み部により読み込まれた前記人間画像から前記手首の関節位置を推定し、推定した前記手首の関節位置から前記手の中心座標を推定する推定部と、前記推定部により推定された前記中心座標を基準として前記人間画像から手画像を切り出す切り出し部と、前記切り出し部により切り出された前記手画像をリサイズするリサイズ部と、を含んでもよい。
【0065】
上記構成に従えば、推定部によって例えばオープンポーズに基づき手首の関節位置が推定されるため、信頼性の高い関節位置を得ることができる。そして、推定部によってこのような関節位置から、信頼性の高い手の中心座標を推定することができる。これによって、手画像を高精度に得ることができると共に、当該手画像を用いたジェスチャの認識処理の精度を向上することができる。
【符号の説明】
【0066】
1 画像処理装置
2 撮像装置
30 演算部
31 腕情報取得部
31a 第1読み込み部
31b 取得部
32 第1機械学習部
33 第1認識部
34 学習モデル記憶部
35 手情報取得部
35a 第2読み込み部35a
35b 推定部
35c 切り出し部
35d リサイズ部
36 第2機械学習部
37 第2認識部
100 指示座標認識システム
GH 人間画像
JP 指示位置
MD1,MD2 学習モデル
OP オープンポーズ
SJ 被験者