特開2022-183582 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 川崎重工業株式会社の特許一覧 ▶ 国立大学法人名古屋大学の特許一覧

特開2022-183582指示座標認識システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022183582

(43)【公開日】2022-12-13

(54)【発明の名称】指示座標認識システム

(51)【国際特許分類】

G06T 7/00 20170101AFI20221206BHJP

G06T 7/70 20170101ALI20221206BHJP

【ＦＩ】

G06T7/00 350B

G06T7/70 A

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2021090983

(22)【出願日】2021-05-31

(71)【出願人】

【識別番号】000000974

【氏名又は名称】川崎重工業株式会社

(71)【出願人】

【識別番号】504139662

【氏名又は名称】国立大学法人東海国立大学機構

(74)【代理人】

【識別番号】110000556

【氏名又は名称】特許業務法人有古特許事務所

(72)【発明者】

【氏名】永塚満

(72)【発明者】

【氏名】小川直紀

(72)【発明者】

【氏名】山田宏尚

(72)【発明者】

【氏名】池田貴公

(72)【発明者】

【氏名】野口大介

(72)【発明者】

【氏名】野田直樹

(72)【発明者】

【氏名】今村翼

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA09

5L096EA03

5L096EA35

5L096FA09

5L096FA64

5L096FA67

5L096FA69

5L096HA09

5L096HA11

5L096KA04

5L096KA15

(57)【要約】

【課題】作業を増やすことなく人間による指示位置の認識の精度を従来よりも向上することができる指示座標認識システムを提供する。
【解決手段】
指示座標認識システムは、人間により指し示された位置である三次元の指示位置を認識する指示座標認識システムであって、人間を撮像する撮像装置と、撮像装置により撮像された二次元の人間画像から人間の腕の長さおよび腕の角度を含む腕情報を学習用データとして取得する腕情報取得部と、腕情報取得部により取得された学習用データを入力データとし、指示位置を出力データとする機械学習を行って第１学習モデルを構築する第１機械学習部と、第１機械学習部により構築された第１学習モデルを用いて指示位置を認識する第１認識部とを備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

人間により指し示された位置である三次元の指示位置を認識する指示座標認識システムであって、
人間を撮像する撮像装置と、
前記撮像装置により撮像された二次元の人間画像から前記人間の腕の長さおよび前記腕の角度を含む腕情報を学習用データとして取得する腕情報取得部と、
前記腕情報取得部により取得された前記学習用データを入力データとし、前記指示位置を出力データとする機械学習を行って第１学習モデルを構築する第１機械学習部と、
前記第１機械学習部により構築された前記第１学習モデルを用いて前記指示位置を認識する第１認識部と、を備える、指示座標認識システム。

【請求項2】

前記撮像装置により撮像された前記人間画像から前記人間の手首および手を含む手情報を学習用データとして取得する手情報取得部と、
前記手情報取得部により取得された前記学習用データを入力データとし、ジェスチャを示す手形状を出力データとする機械学習を行って第２学習モデルを構築する第２機械学習部と、
前記第２機械学習部により構築された前記第２学習モデルを用いて前記人間によるハンドジェスチャを認識する第２認識部と、
をさらに備える、請求項１に記載の指示座標認識システム。

【請求項3】

前記腕情報取得部は、
前記撮像装置により撮像された前記人間画像を読み込む第１読み込み部と、
前記第１読み込み部により読み込まれた前記人間画像から前記腕の関節位置を推定し、推定した前記腕の関節位置から前記腕の長さおよび前記腕の角度を取得する取得部と、を含む、請求項１又は２に記載の指示座標認識システム。

【請求項4】

前記手情報取得部は、
前記撮像装置により撮像された前記人間画像を読み込む第２読み込み部と、
前記第２読み込み部により読み込まれた前記人間画像から前記手首の関節位置を推定し、推定した前記手首の関節位置から前記手の中心座標を推定する推定部と、
前記推定部により推定された前記中心座標を基準として前記人間画像から手画像を切り出す切り出し部と、
前記切り出し部により切り出された前記手画像をリサイズするリサイズ部と、を含む、請求項２又は３に記載の指示座標認識システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、人間により指し示された位置である指示位置を認識する指示座標認識システムに関する。

【背景技術】

【0002】

近年、工場における労働力不足に伴って当該工場の自動化が更に進みつつある。このような状況下、産業用ロボットが広く使用されており、今後産業用ロボットによる工場内物流の更なる自動化が期待されている。

【0003】

従来、工場等におけるロボットに作業を行わせる方法として、人間の指さし行為による物体の空間位置についての教示方法が提案されている。例えば特許文献１には、指で指示した物体をロボットが認識し、当該物体が何であるかについて応答することができる認識システムが開示されている。また、人間のジェスチャをロボットに認識させて当該ロボットの動作を制御する認識システムが下記非特許文献１，２にも開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００５－０６９７３４号公報

【非特許文献1】表允皙，長谷川勉，辻徳生，諸岡健一，倉爪亮：ジェスチャによる移動ロボットへの動作目標指示と誤差修正，第２９回日本ロボット学会学術講演会論文集（２０１１年９月７日～９日）

【非特許文献2】餅川穂，山下晃弘：指さし動作認識による移動ロボットの操作，ＨＡＩシンポジウム２０１４論文集，ｐｐ．３６－４０

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、指差し位置は人間による指差しによって誤差が生じる。この点につき、上記特許文献１の認識システムにおいては、人間が物体の位置をピンポイントで教示するだけでなく当該物体が存在する範囲を指定するように指を動かし、また人間とロボットとの双方間で対話することが開示されているが、この場合双方において作業が増えてしまう。また、上記非特許文献１の認識システムではロボットに対して目標位置の修正命令を送信しているが、これも同様に作業が増えてしまう。さらに、上記非特許文献２の認識システムでは指差し位置の推定に誤差が生じることが記載されており、推定位置の補正が今後の課題であると説明されている。

【0006】

そこで、本発明は、作業を増やすことなく人間による指示位置の認識の精度を従来よりも向上することができる指示座標認識システムを提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明の指示座標認識システムは、人間により指し示された位置である三次元の指示位置を認識する指示座標認識システムであって、人間を撮像する撮像装置と、前記撮像装置により撮像された二次元の人間画像から前記人間の腕の長さおよび前記腕の角度を含む腕情報を学習用データとして取得する腕情報取得部と、前記腕情報取得部により取得された前記学習用データを入力データとし、前記指示位置を出力データとする機械学習を行って第１学習モデルを構築する第１機械学習部と、前記第１機械学習部により構築された前記第１学習モデルを用いて前記指示位置を認識する第１認識部と、を備えるものである。

【0008】

本発明に従えば、腕情報取得部により人間の腕の長さおよび腕の角度を含む腕情報が学習用データとして取得される。そして、第１機械学習部によって、学習用データを入力データとし、指示位置を出力データとする機械学習が行われることで第１学習モデルが構築される。このような第１学習モデルを用いて第１認識部により指示位置が認識されるため、指示位置の認識の精度が従来よりも向上する。また、目標位置の修正命令を送ること等が必要ないため、作業が増えてしまうこともない。

【発明の効果】

【0009】

本発明によれば、作業を増やすことなく人間による指示位置の認識の精度を従来よりも向上することができる指示座標認識システムを提供することができる。

【図面の簡単な説明】

【0010】

【図1】本発明の一実施形態に係る指示座標認識システムの構成を示す概略図である。

【図2】図１の指示座標認識システムにおける画像処理装置の演算部の構成を示すブロック図である。

【図3】本実施形態のハンドジェスチャ認識処理で用いる学習モデルの構成を示す図である。

【図4】本実施形態における学習画像の例を示す図である。

【図5】（ａ）は推定部により推定される手首の関節位置および手の中心座標を示す図であり、（ｂ）は切り出し部により切り出された手画像を示す図であり、（ｃ）はリサイズ部によりリサイズされた手画像を示す図である。

【図6】姿勢推定ライブラリの一つであるオープンポーズにおけるジョイントの配位数を示す図である。

【図7】本実施形態におけるハンドジェスチャの認識処理の流れを示すフローチャートである。

【図8】（ａ）は人間による指示位置を説明するための図であり、（ｂ）は腕の関節位置を説明するための図である。

【図9】本実施形態の指示位置認識処理で用いる学習モデルの構成を示す図である。

【図10】本実施形態における試験的な指示位置を示す図である。

【図11】指示位置認識処理における学習のデータを示す表である。

【図12】本実施形態における人間の指示位置の認識処理の流れを示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、本発明の一実施形態に係る指示座標認識システムについて図面を参照して説明する。以下に説明する指示座標認識システムは、本発明の一実施形態に過ぎない。従って、本発明は以下の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で追加、削除および変更が可能である。

【0012】

図１は本発明の一実施形態に係る指示座標認識システム１００の構成を示す概略図であり、図２は図１の指示座標認識システム１００における画像処理装置１の演算部３０の構成を示すブロック図である。本実施形態に係る指示座標認識システム１００は、撮像装置により撮像された二次元の人間画像から、人間により指し示された位置である三次元の指示位置を認識するものである。以下、詳しく説明する。

【0013】

図１に示すように、本実施形態の指示座標認識システム１００は、画像処理装置１と、撮像装置２と、撮像装置旋回台３と、旋回台コントローラ４とを備えている。画像処理装置１は例えば工場等におけるロボットや当該ロボットに指示を送るパーソナルコンピュータに備えさせることができる。なお、画像処理装置１の機能的構成の詳細については後で説明する。

【0014】

撮像装置２は例えばＣＭＯＳ撮像素子を有するカメラで構成することができる。ただし、撮像装置２の撮像素子はＣＭＯＳに限定されるものではない。このような撮像装置２は人間を撮像し、その撮像結果である二次元の画像データを画像処理装置１に与える。

【0015】

撮像装置旋回台３は撮像装置２の撮像方向に垂直な方向を軸として当該軸回りに撮像装置２を回動させる。例えば指示座標認識システム１００を工場に配置する場合には、撮像装置２の撮像対象である上記人間はロボットに対して指示を行う現場作業者とすることができる。また、旋回台コントローラ４は画像処理装置１から与えられるコマンドに基づき撮像装置旋回台３の旋回動作を制御する。

【0016】

画像処理装置１は図２に示す演算部３０を備えている。演算部３０は例えばＣＰＵ、ＲＯＭおよびＲＡＭ等により構成することができる。演算部３０は、腕情報取得部３１、第１機械学習部３２、第１認識部３３、学習モデル記憶部３４、手情報取得部３５、第２機械学習部３６、および、第２認識部３７を有している。演算部３０は、ＣＰＵとＲＯＭに記憶された所定のプログラム（ソフトウェアライブラリ）との協働によって機能的に実現される。このような演算部３０は撮像装置２による撮像結果を受け取る。

【0017】

腕情報取得部３１は、撮像装置２により撮像された人間画像から人間の腕の長さおよび腕の角度を含む腕情報を学習用データとして取得する。このような腕情報取得部３１は、第１読み込み部３１ａおよび取得部３１ｂを有している。第１読み込み部３１ａは撮像装置２により撮像された人間画像を読み込む。取得部３１ｂは第１読み込み部３１ａにより読み込まれた人間画像から腕の関節位置を推定し、推定した腕の関節位置から腕の長さおよび腕の角度を計算により取得する。詳細は後述する。

【0018】

第１機械学習部３２は、腕情報取得部３１により取得された学習用データを入力データとし、人間による指示位置を出力データとする機械学習を行って後述の学習モデルＭＤ２を構築する。本実施形態の学習モデルＭＤ２が第１学習モデルに相当する。第１機械学習部３２により構築された学習モデルＭＤ２は学習モデル記憶部３４に記憶される。

【0019】

第１認識部３３は、第１機械学習部３２により構築された学習モデルＭＤ２を用いて、人間により指示された指示位置を認識する。

【0020】

次に手情報取得部３５について説明する。本実施形態において手情報取得部３５は、撮像装置２により撮像された人間画像から人間の手首および手を含む手情報を学習用データとして取得する。このような手情報取得部３５は、第２読み込み部３５ａ、推定部３５ｂ、切り出し部３５ｃおよびリサイズ部３５ｄを有している。第２読み込み部３５ａは撮像装置２により撮像された人間画像を読み込む。推定部３５ｂは第２読み込み部３５ａにより読み込まれた人間画像から手首の関節位置を推定し、推定した手首の関節位置から手の中心座標を推定する。詳細は後述する。また、切り出し部３５ｃは推定部３５ｂにより推定された上記中心座標を基準として人間画像から手画像を切り出す。さらに、リサイズ部３５ｄは切り出し部３５ｃにより切り出された手画像をリサイズする。

【0021】

第２機械学習部３６は、手情報取得部３５により取得された学習用データを入力データとし、ジェスチャを示す手形状を出力データとする機械学習を行って学習モデルＭＤ１を構築する。本実施形態の学習モデルＭＤ１が第２学習モデルに相当する。第２機械学習部３６により構築された学習モデルＭＤ１は学習モデル記憶部３４に記憶される。

【0022】

第２認識部３７は、第２機械学習部３６により構築された学習モデルＭＤ１を用いて、人間によるハンドジェスチャを認識する。

【0023】

本実施形態の指示座標認識システム１００においては、まず人間による指差しを認識し、その後その指差しにより示される指示位置を認識する。以下、人間のハンドジェスチャの認識処理について説明し、そのあと、人間による指示位置の認識処理について説明する。

【0024】

本実施形態におけるハンドジェスチャ認識処理においては、第２機械学習部３６による学習方法として、例えば畳み込みニューラルネットワークを用いることができる。また、学習フレームワークとして、例えばＫｅｒａｓを使用することができる。なお、Ｋｅｒａｓとはニューラルネットワークライブラリの一つである。

【0025】

図３は本実施形態のハンドジェスチャの認識処理で用いる学習モデルＭＤ１の構成を示す図であり、図４は本実施形態における学習画像の例を示す図である。図３に示すように、学習モデルＭＤ１は、例えば３層の畳み込み層Ｌ１と、３層のプーリング層Ｌ２と、２層の全結合層Ｌ３と、出力層Ｌ４とを含む。なお、図３では畳み込み層Ｌ１は１層のみ図示している。

【0026】

本実施形態では、第２機械学習部３６の学習に使用する画像（学習画像）として、図４（ａ）に示す指差し画像Ｇ１、同図（ｂ）に示す拳画像Ｇ２、および同図（ｃ）に示す掌画像Ｇ３を含むデータセットを用いることができる。これらの指差し画像Ｇ１、拳画像Ｇ２および掌画像Ｇ３として、例えば３２×３２画素のカラー画像を用いる。指差し画像Ｇ１、拳画像Ｇ２および掌画像Ｇ３については、以下のように生成することができる。

【0027】

まず、第２読み込み部３５ａは撮像装置２により撮像された、図５（ａ）に示す人間画像ＧＨを読み込む。続いて、図５（ａ）に示すように、推定部３５ｂは第２読み込み部３５ａにより読み込まれた人間画像ＧＨから手首の関節位置ＫＴを推定する。この場合、推定部３５ｂは例えば図６に示す公知のオープンポーズ（ＯｐｅｎＰｏｓｅ）ＯＰにおける配位数を使用することで関節位置ＫＴを推定することができる。このオープンポーズＯＰとは、深層学習を用いて人間の関節等のキーポイント情報（特徴点）をリアルタイムに抽出する姿勢推定ライブラリによる公知の骨格情報取得技術である。次に、推定部３５ｂは上記推定した手首の関節位置ＫＴから手の中心座標ＣＺ（図５（ａ））を推定する。

【0028】

続いて、図５（ｂ）に示すように、切り出し部３５ｃは推定部３５ｂにより推定された中心座標ＣＺを基準として人間画像ＧＨから手画像ＧＫを切り出す。そして、図５（ｃ）に示すように、リサイズ部３５ｄは切り出し部３５ｃにより切り出された手画像ＧＫを所定サイズ（例えば３２×３２画素）にリサイズすることで手画像ＧＲを生成する。上述の指差し画像Ｇ１、拳画像Ｇ２および掌画像Ｇ３についても、上記手画像ＧＲと同様に生成される。なお、指差し画像Ｇ１、拳画像Ｇ２および掌画像Ｇ３については、学習の精度向上のために、例えばグレースケール化、２値化、輪郭検出、膨張・収縮処理を行い、元画像Ｇ１，Ｇ２，Ｇ３と組み合わせて学習を行わせることができる。また、少数の学習データでも良好に学習できるようにするために、指差し画像Ｇ１、拳画像Ｇ２および掌画像Ｇ３について、回転、反転又は画素値の増減等の処理を行ってもよい。

【0029】

図７はハンドジェスチャの認識処理の流れを示すフローチャートである。図７に示すように、最初に画像処理装置１におけるＣＰＵが演算部３０を起動させるためにＲＯＭに記憶された所定のプログラム（ソフトウェアライブラリ）を読み込む（ステップＳ１）。

【0030】

続いて、第２読み込み部３５ａが撮像装置２により撮像された人間画像ＧＨを読み込む（ステップＳ２）。そして、推定部３５ｂは第２読み込み部３５ａにより読み込まれた人間画像ＧＨから手首（例えば右手首）の関節位置ＫＴを推定すると共に、推定した手首の関節位置ＫＴから手（例えば右手）の中心座標ＣＺを推定する（ステップＳ３）。

【0031】

次いで、切り出し部３５ｃが推定部３５ｂにより推定された中心座標ＣＺを基準として人間画像ＧＨから手画像ＧＫを切り出す（ステップＳ４）。そして、リサイズ部３５ｄが切り出し部３５ｃにより切り出された手画像ＧＫを所定サイズにリサイズして手画像ＧＲを生成する（ステップＳ５）。

【0032】

次に、第２認識部３７が学習モデルＭＤ１を用いて人間によるハンドジェスチャを認識する（ステップＳ６）。そして、その認識結果がＲＯＭやＲＡＭ等に記憶される（ステップＳ７）。その後、新たな認識処理がなければ（ステップＳ８でＹＥＳ）、処理が終了され、一方、新たな認識処理を実行する場合には（ステップＳ８でＮＯ）、上記ステップＳ２に戻り処理を繰り返す。

【0033】

次いで、第１認識部３３による人間の指示位置の認識処理について図面を参照しつつ説明する。図８（ａ）は人間による指示位置ＪＰを説明するための図であり、同図（ｂ）は腕の関節位置ＫＴ，ＫＨ，ＫＫを説明するための図である。また、図９は指示位置認識処理で用いる学習モデルＭＤ２の構成を示す図であり、図１０は本実施形態における試験的な指示位置を示す図である。図９に示すように、本実施形態の指示位置認識処理で用いる学習モデルＭＤ２は、例えば３層の全結合層Ｌ５と出力層Ｌ６とを含む。

【0034】

本実施形態における指示位置認識処理においては、第１機械学習部３２による学習方法として、例えばニューラルネットワークを用いることができる。また、学習フレームワークとして、上述のハンドジェスチャ認識処理と同様にＫｅｒａｓを使用することができる。

【0035】

本実施形態において、取得部３１ｂは第１読み込み部３１ａにより読み込まれた人間画像ＧＨから腕の各関節位置（図８（ｂ）に示す手首関節ＫＴ、肘関節ＫＨ、肩関節ＫＫの各位置）を推定し、推定した各関節位置から腕の長さおよび腕の角度を学習用データとして取得する。

【0036】

第１機械学習部３２は取得部３１ｂにより取得された上記学習用データを用いて学習を行う。第１認識部３３は、図８（ａ）に示すように被験者ＳＪが指差した指示位置ＪＰを認識する。この場合、第１認識部３３は、撮像装置２により撮像された撮像画像（つまり２次元情報）に基づき３次元情報である指示位置ＪＰを認識する。以下、詳しく説明する。

【0037】

本実施形態では、撮像装置２による撮像画像における被験者ＳＪの腕の長さおよび腕の角度が、指差し位置である指示位置ＪＰによって変化すること、すなわち被験者ＳＪの腕の長さおよび腕の角度と指示位置ＪＰとの対応関係が存在することを利用する。しかしながら、指差し位置である指示位置ＪＰを連続的に変化させた際の撮像画像上での腕の長さおよび腕の角度の変化は僅かな故に区別することが困難である。このようなことから、本実施形態では、図１０に示すように、予め定めた２次元位置である複数の地点ＩＰを認識するようにする。

【0038】

図１０において、撮像装置２による当該被験者ＳＪに対する撮像方向から被験者ＳＪを中心として例えば反時計回りに２０°ずつ８０°まで区切り、かつ、各角度における被験者ＳＪと撮像装置２との距離（所定距離として例えば１ｍおよび２ｍ）における地点ＩＰを指示位置ＪＰとする。したがって、図１０においては計１０個の地点ＩＰが存在する。

【0039】

第１機械学習部３２による学習用データとして、被験者ＳＪが上記の各地点ＩＰを指差した際に、上述のオープンポーズＯＰより取得した関節座標から被験者ＳＪの腕の長さと角度を計算して得た数値データを用いることができる。このような学習用データである数値データとしては、図１１の８つのデータを採用することができる。

【0040】

図１１に示すように、学習用データである数値データとして、前腕角度、上腕角度、手先から肩までの部位における角度である全腕角度、前腕角度＋上腕角度、前腕長さ、上腕長さ、手先から肩までの長さである全腕長さ、および前腕長さと上腕長さとの比率である腕長さ率のうち、少なくとも一つを採用することができる。前腕および上腕としては、右腕を採用してもよいし、左腕を採用してもよい。ここで、前腕とは図８（ｂ）における符号ＬＡで示される部位であり、上腕とは同図（ｂ）における符号ＵＡで示される部位である。なお、上記の各種角度は、図１０で言えば撮像装置２による当該被験者ＳＪに対する撮像方向から被験者ＳＪを中心として例えば反時計回りの角度に対応する。また、上記の各種長さは、図１０で言えば被験者ＳＪと地点ＩＰとの距離（１ｍおよび２ｍ）に対応する。本実施形態において、第１機械学習部３２は以上の学習用データにその位置に対する正解ラベルを付与して学習を行う。

【0041】

学習用データである上記の各種長さとしては、画像上における被験者ＳＪの大きさや当該被験者ＳＪと撮像装置２との距離に起因する変動をなくすために、画像上の被験者ＳＪの身長（すなわち、オープンポーズＯＰにおけるkeypoints[15][1]－keypoints[24][1]）に対する腕の長さの比率を採用することが望ましい。

【0042】

上記８つの数値データのうち例として二つの計算式について説明する。オープンポーズＯＰより取得した関節座標に基づき前腕角度（lower_arm_degree）を求める計算式は下記数式１で表される。また、オープンポーズＯＰより取得した関節座標に基づき前腕長さ（lower_arm_length）を求める計算式は下記数式２で表される。なお、数式１において、例えばkeypoints[4][0]とは上記図６のオープンポーズＯＰにおける配位数「４」におけるＸ座標を示しており、例えばkeypoints[3][1]とは上記図６のオープンポーズＯＰにおける配位数「３」におけるＹ座標を示している。数式１におけるその他の要素および数式２における要素も同義である。

【0043】

【数1】

【0044】

【数2】

【0045】

次に、図１２は人間の指示位置の認識処理の流れを示すフローチャートである。

【0046】

図１２に示すように、最初に画像処理装置１におけるＣＰＵが演算部３０を起動させるためにＲＯＭに記憶された所定のプログラム（ソフトウェアライブラリ）を読み込む（ステップＳ１１）。

【0047】

続いて、第１読み込み部３１ａが撮像装置２により撮像された人間画像ＧＨを読み込む（ステップＳ１２）。そして、取得部３１ｂは第１読み込み部３１ａにより読み込まれた人間画像ＧＨから腕の各関節位置（上述した手首関節ＫＴ、肘関節ＫＨ、肩関節ＫＫの各位置）を推定する（ステップＳ１３）。続いて、取得部３１ｂは推定した各関節位置から腕の長さおよび角度を取得する（ステップＳ１４）。

【0048】

次いで、第１認識部３３が学習モデルＭＤ２を用いて指示位置ＪＰの座標を認識する（ステップＳ１５）。そして、その認識結果がＲＯＭやＲＡＭ等に記憶される（ステップＳ１６）。その後、新たな認識処理がなければ（ステップＳ１７でＹＥＳ）、処理が終了され、一方、新たな認識処理を実行する場合には（ステップＳ１７でＮＯ）、上記ステップＳ１２に戻り処理を繰り返す。

【0049】

以上説明したように、本実施形態の指示座標認識システム１００によれば、腕情報取得部３１により人間の腕の長さおよび腕の角度を含む腕情報が学習用データとして取得される。そして、第１機械学習部３２によって、上記学習用データを入力データとし、指示位置ＪＰを出力データとする機械学習が行われることで学習モデルＭＤ２が構築される。このような学習モデルＭＤ２を用いて第１認識部３３により指示位置ＪＰが認識されるため、当該指示位置ＪＰの認識の精度が従来よりも向上する。また、目標位置の修正命令を送ること等が必要ないため、作業が増えてしまうこともない。また、人間（現場作業者）は直感的動作としてのジェスチャによって指示位置ＪＰを指示することができるため、従来のように指示の種類の分だけジェスチャを覚える必要がない。さらに、上記の通り人間は直感的動作で指示を行うことができるので、ロボットの制御や設定に詳しくない者でも容易に指示を行うことが可能となる。

【0050】

また、本実施形態では、手情報取得部３５により人間の手首および手を含む手情報が学習用データとして取得される。そして、第２機械学習部３６によって、このような学習用データを入力データとし、ジェスチャを示す手形状を出力データとする機械学習が行われて学習モデルＭＤ１が構築される。このような学習モデルＭＤ１を用いて第２認識部３７によりジェスチャが認識されるため、当該ジェスチャの認識の精度が従来よりも向上する。

【0051】

また、本実施形態では、取得部３１によってオープンポーズＯＰに基づき腕の各関節位置ＫＴ，ＫＨ，ＫＫが推定されるため、信頼性の高い関節位置情報を得ることができる。そして、このような関節位置ＫＴ，ＫＨ，ＫＫから、信頼性の高い腕の長さと角度を取得することができる。これによって、指示位置ＪＰの認識処理の精度を向上することができる。

【0052】

さらに、本実施形態では、推定部３５ｂによってオープンポーズＯＰに基づき手首の関節位置ＫＴが推定されるため、信頼性の高い関節位置情報を得ることができる。そして、推定部３５ｂによって関節位置ＫＴから、信頼性の高い手の中心座標ＣＺを推定することができる。これによって、手画像ＧＫを高精度に得ることができると共に、当該手画像ＧＫを用いたジェスチャ認識処理の精度を向上することができる。

【0053】

（変形例）
上述の実施形態の他にも、本発明は、その要旨を逸脱しない範囲で次のような種々の変形が可能である。

【0054】

上記実施形態では、第１機械学習部３２および第２機械学習部３６による学習方法として深層学習等のニューラルネットワークを採用したが、これに限定されるものではなく、例えばランダムフォレストやルールベース等の他の学習方式を採用してもよい。

【0055】

また、上記実施形態では、推定部３５ｂは人間画像ＧＨから手首の関節位置ＫＴを推定し、推定した手首の関節位置ＫＴから手の中心座標ＣＺを推定し、切り出し部３５ｃは当該中心座標ＣＺを基準として人間画像ＧＨから手画像ＧＫを切り出すようにした。しかしながら、これに限定されるものではなく、推定部３５ｂは手首の関節位置ＫＴから手の指先座標等の他の座標を推定し、切り出し部３５ｃはその座標に基づき手画像ＧＫを切り出すようにしてもよい。

【0056】

また、上記実施形態では、撮像装置２による被験者ＳＪに対する撮像方向から被験者ＳＪを中心として反時計回りに２０°ずつ８０°まで区切り、かつ各角度における被験者ＳＪと撮像装置２との距離（１ｍと２ｍ）の地点ＩＰを指示位置とした。しかし、指示位置としての地点ＩＰの設定は上記に限定されるものではなく、任意の地点を指示位置に設定することができる。

【0057】

さらに、上記実施形態では、画像処理装置１を工場におけるロボットに備えさせることができる旨説明したが、これに限らず、例えば小売店や家庭内でのロボット（例えば搬送ロボットや移動ロボット）、或いは例えば介護分野等における介護ロボット等に備えさせてもよい。

【0058】

【0059】

【0060】

上記発明において、指示座標認識システムは、前記撮像装置により撮像された前記人間画像から前記人間の手首および手を含む手情報を学習用データとして取得する手情報取得部と、前記手情報取得部により取得された前記学習用データを入力データとし、ジェスチャを示す手形状を出力データとする機械学習を行って第２学習モデルを構築する第２機械学習部と、前記第２機械学習部により構築された前記第２学習モデルを用いて前記人間によるハンドジェスチャを認識する第２認識部と、をさらに備えてもよい。

【0061】

上記構成に従えば、手情報取得部により人間の手首および手を含む手情報が学習用データとして取得される。そして、第２機械学習部によって、このような学習用データを入力データとし、ジェスチャを示す手形状を出力データとする機械学習が行われて第２学習モデルが構築される。このような第２学習モデルを用いて第２認識部によりジェスチャが認識されるため、当該ジェスチャの認識の精度が従来よりも向上する。

【0062】

上記発明において、前記腕情報取得部は、前記撮像装置により撮像された前記人間画像を読み込む第１読み込み部と、前記第１読み込み部により読み込まれた前記人間画像から前記腕の関節位置を推定し、推定した前記腕の関節位置から前記腕の長さおよび前記腕の角度を取得する取得部と、を含んでもよい。

【0063】

上記構成に従えば、取得部によって例えばオープンポーズに基づき腕の関節位置が推定されるため、信頼性の高い関節位置を得ることができる。そして、このような関節位置から、信頼性の高い腕の長さと角度を取得することができる。これによって、指示位置の認識処理の精度を向上することができる。

【0064】

上記発明において、前記手情報取得部は、前記撮像装置により撮像された前記人間画像を読み込む第２読み込み部と、前記第２読み込み部により読み込まれた前記人間画像から前記手首の関節位置を推定し、推定した前記手首の関節位置から前記手の中心座標を推定する推定部と、前記推定部により推定された前記中心座標を基準として前記人間画像から手画像を切り出す切り出し部と、前記切り出し部により切り出された前記手画像をリサイズするリサイズ部と、を含んでもよい。

【0065】

上記構成に従えば、推定部によって例えばオープンポーズに基づき手首の関節位置が推定されるため、信頼性の高い関節位置を得ることができる。そして、推定部によってこのような関節位置から、信頼性の高い手の中心座標を推定することができる。これによって、手画像を高精度に得ることができると共に、当該手画像を用いたジェスチャの認識処理の精度を向上することができる。

【符号の説明】

【0066】

１画像処理装置
２撮像装置
３０演算部
３１腕情報取得部
３１ａ第１読み込み部
３１ｂ取得部
３２第１機械学習部
３３第１認識部
３４学習モデル記憶部
３５手情報取得部
３５ａ第２読み込み部３５ａ
３５ｂ推定部
３５ｃ切り出し部
３５ｄリサイズ部
３６第２機械学習部
３７第２認識部
１００指示座標認識システム
ＧＨ人間画像
ＪＰ指示位置
ＭＤ１，ＭＤ２学習モデル
ＯＰオープンポーズ
ＳＪ被験者

【図1】