特許7580302 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特許7580302処理システム、および処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-31

(45)【発行日】2024-11-11

(54)【発明の名称】処理システム、および処理方法

(51)【国際特許分類】

G06F 3/01 20060101AFI20241101BHJP

G06T 7/20 20170101ALI20241101BHJP

G05D 1/43 20240101ALI20241101BHJP

【ＦＩ】

G06F3/01 570

G06T7/20 300A

G05D1/43

【請求項の数】 14

(21)【出願番号】P 2021031630

(22)【出願日】2021-03-01

(65)【公開番号】P2022132905

(43)【公開日】2022-09-13

【審査請求日】2023-11-28

(73)【特許権者】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】安井裕司

【審査官】三田村陽平

(56)【参考文献】

【文献】特表２０１９－５２２８５３（ＪＰ，Ａ）

【文献】国際公開第２０１６／１７０８７２（ＷＯ，Ａ１）

【文献】特開２０１６－１０１７７４（ＪＰ，Ａ）

【文献】特表２０１９－５３３８４６（ＪＰ，Ａ）

【文献】特開２０１５－０４８０２５（ＪＰ，Ａ）

【文献】国際公開第２０２０／０７１１４４（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／０１

Ｇ０６Ｆ３／０４８－３／０４８９５

Ｇ０６Ｔ７／００－７／９０

Ｇ０５Ｄ１／００－１／８７

(57)【特許請求の範囲】

【請求項1】

【請求項2】

ユーザが撮像された画像を取得する取得部と、
前記画像が撮像されたときの前記ユーザが存在する領域を認識し、
前記画像が撮像されたとき前記ユーザが第１領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第１情報とに基づいて、前記ユーザのジェスチャを認識し、
前記画像が撮像されたとき前記ユーザが第２領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第２情報とに基づいて、前記ユーザのジェスチャを認識する認識部と、を備え、
前記認識部は、
前記ユーザが第１領域に存在し、且つ前記ジェスチャの認識結果に基づいて制御される移動体の周辺を撮像する第１撮像部により撮像された第１画像に基づいて前記ユーザのジェスチャを認識できない場合、前記第１情報を参照して前記移動体を遠隔で操作するユーザを撮像する第２撮像部により撮像された第２画像に基づいて前記ユーザのジェスチャを認識する、
処理システム。

【請求項3】

ユーザが撮像された画像を取得する取得部と、
前記画像が撮像されたときの前記ユーザが存在する領域を認識し、
前記画像が撮像されたとき前記ユーザが第１領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第１情報とに基づいて、前記ユーザのジェスチャを認識し、
前記画像が撮像されたとき前記ユーザが第２領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第２情報とに基づいて、前記ユーザのジェスチャを認識する認識部と、
移動体の周辺を撮像する第１撮像部と、
前記移動体を遠隔で操作するユーザを撮像する第２撮像部と、
前記ユーザのジェスチャと前記移動体の動作とが関連付けられた参照情報が記憶された記憶装置と、
前記参照情報を参照して、前記認識部により認識された前記ユーザのジェスチャに関連付けられた前記移動体の動作に基づいて、前記移動体を制御する制御部と、を備え、
前記認識部は、前記第１撮像部により撮像された第１画像および前記第２撮像部により撮像された第２画像に基づいて前記ユーザのジェスチャを認識する処理を試行し、前記第１画像に基づく認識の結果よりも、前記第２画像に基づく認識の結果を優先して採用し、
前記制御部は、前記第１撮像部により撮像された画像から得られる周辺の状況と前記認識部が認識したジェスチャに関連付けられた動作とに基づいて前記移動体を制御する、
処理システム。

【請求項4】

ユーザが撮像された画像を取得する取得部と、
前記画像が撮像されたときの前記ユーザが存在する領域を認識し、
前記画像が撮像されたとき前記ユーザが第１領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第１情報とに基づいて、前記ユーザのジェスチャを認識し、
前記画像が撮像されたとき前記ユーザが第２領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第２情報とに基づいて、前記ユーザのジェスチャを認識する認識部と、
移動体の周辺を撮像する第１撮像部と、
前記移動体を遠隔で操作するユーザを撮像する第２撮像部と、
前記ユーザのジェスチャと前記移動体の動作とが関連付けられた参照情報が記憶された記憶装置と、
前記参照情報を参照して、前記認識部により認識された前記ユーザのジェスチャに関連付けられた前記移動体の動作に基づいて、前記移動体を制御する制御部と、を備え、
前記認識部は、前記ユーザが第１領域に存在し、且つ前記第１撮像部により撮像された第１画像に基づいて前記ユーザのジェスチャを認識できない場合、前記第１情報を参照して前記第２撮像部により撮像された第２画像に基づいて前記ユーザのジェスチャを認識し、
前記認識部が認識したジェスチャに応じて前記第１撮像部により撮像された画像に基づいて前記移動体を制御する制御部を備える、
処理システム。

【請求項5】

前記第１領域は、前記画像を撮像する撮像装置から所定距離の範囲内の領域であり、
前記第２領域は、前記撮像装置から前記所定距離よりも遠い位置に設定された領域である、
請求項１から４のうちいずれか１項に記載の処理システム。

【請求項6】

前記第１情報は、腕の動きを含まず手または指の動きによるジェスチャを認識するための情報である、
請求項１から５のうちいずれか１項に記載の処理システム。

【請求項7】

前記第２情報は、腕の動きを含むジェスチャを認識するための情報である、
請求項１から６のうちいずれか１項に記載の処理システム。

【請求項8】

前記第１領域は、前記認識部が前記第１領域に存在するユーザが撮像された画像から前記ユーザの腕の動きを認識できない、または認識しにくい領域である、
請求項７に記載の処理システム。

【請求項9】

前記認識部は、前記画像が撮像されたとき前記ユーザが前記第１領域と前記第１領域の外側の前記第１領域に隣接する第２領域とに跨る第３領域または前記第１領域と前記第１領域よりも遠い第２領域との間の第３領域に存在する場合、前記画像と、前記第１情報と、前記第２情報とに基づいて前記ユーザのジェスチャを認識する、
請求項１から８のうちいずれか１項に記載の処理システム。

【請求項10】

前記認識部は、前記画像と、前記第１情報と、前記第２情報とに基づいて前記ユーザのジェスチャを認識する場合、前記画像と前記第１情報とに基づく認識の結果を、前記画像と前記第２情報とに基づく認識の結果よりも優先して、前記ユーザのジェスチャを認識する、
請求項９に記載の処理システム。

【請求項11】

コンピュータが、
ユーザが撮像された画像を取得し、
前記画像が撮像されたときの前記ユーザが存在する領域を認識し、
前記画像が撮像されたとき前記ユーザが第１領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第１情報とに基づいて、前記ユーザのジェスチャを認識し、
前記画像が撮像されたとき前記ユーザが第２領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第２情報とに基づいて、前記ユーザのジェスチャを認識し、
前記ジェスチャの認識結果に基づいて制御される移動体の周辺を撮像する第１撮像部により撮像された第１画像および前記移動体を遠隔で操作するユーザを撮像する第２撮像部により撮像された第２画像に基づいて前記ユーザのジェスチャを認識する処理を試行し、前記第１画像に基づく認識の結果よりも、前記第２画像に基づく認識の結果を優先して採用し、前記ジェスチャを認識する、
処理方法。

【請求項12】

コンピュータが、
ユーザが撮像された画像を取得し、
前記画像が撮像されたときの前記ユーザが存在する領域を認識し、
前記画像が撮像されたとき前記ユーザが第１領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第１情報とに基づいて、前記ユーザのジェスチャを認識し、
前記画像が撮像されたとき前記ユーザが第２領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第２情報とに基づいて、前記ユーザのジェスチャを認識し、
前記ユーザが第１領域に存在し、且つ前記ジェスチャの認識結果に基づいて制御される移動体の周辺を撮像する第１撮像部により撮像された第１画像に基づいて前記ユーザのジェスチャを認識できない場合、前記第１情報を参照して前記移動体を遠隔で操作するユーザを撮像する第２撮像部により撮像された第２画像に基づいて前記ユーザのジェスチャを認識する、
処理方法。

【請求項13】

コンピュータが、
ユーザが撮像された画像を取得し、
前記画像が撮像されたときの前記ユーザが存在する領域を認識し、
前記画像が撮像されたとき前記ユーザが第１領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第１情報とに基づいて、前記ユーザのジェスチャを認識し、
前記画像が撮像されたとき前記ユーザが第２領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第２情報とに基づいて、前記ユーザのジェスチャを認識し、
記憶装置に記憶された前記ユーザのジェスチャと移動体の動作とが関連付けられた参照情報を参照して、認識された前記ユーザのジェスチャに関連付けられた前記移動体の動作に基づいて、前記移動体を制御し、
移動体の周辺を撮像する第１撮像部により撮像された第１画像および前記移動体を遠隔で操作するユーザを撮像する第２撮像部により撮像された第２画像に基づいて前記ユーザのジェスチャを認識する処理を試行し、前記第１画像に基づく認識の結果よりも、前記第２画像に基づく認識の結果を優先して採用し、
前記第１撮像部により撮像された画像から得られる周辺の状況と認識したジェスチャに関連付けられた動作とに基づいて前記移動体を制御する、
処理方法。

【請求項14】

コンピュータが、
ユーザが撮像された画像を取得し、
前記画像が撮像されたときの前記ユーザが存在する領域を認識し、
前記画像が撮像されたとき前記ユーザが第１領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第１情報とに基づいて、前記ユーザのジェスチャを認識し、
前記画像が撮像されたとき前記ユーザが第２領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第２情報とに基づいて、前記ユーザのジェスチャを認識し、
記憶装置に記憶された前記ユーザのジェスチャと移動体の動作とが関連付けられた参照情報を参照して、認識された前記ユーザのジェスチャに関連付けられた前記移動体の動作に基づいて、前記移動体を制御し、
前記ユーザが第１領域に存在し、且つ移動体の周辺を撮像する第１撮像部により撮像された第１画像に基づいて前記ユーザのジェスチャを認識できない場合、前記第１情報を参照して前記移動体を遠隔で操作するユーザを撮像する第２撮像部により撮像された第２画像に基づいて前記ユーザのジェスチャを認識し、
認識したジェスチャに応じて前記第１撮像部により撮像された画像に基づいて前記移動体を制御する、
処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ジェスチャ認識装置、移動体、ジェスチャ認識方法、およびプログラムに関する。

【背景技術】

【0002】

従来、ユーザを所望の場所に案内したり、荷物を搬送したりするロボットが知られている。例えば、上記のようなサービスを提供する際に人との距離を所定距離に保って移動する移動ロボットが開示されている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【文献】特許第５６１７５６２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上記の技術では、ユーザの利便性が十分でない場合があった。

【0005】

本発明は、このような事情を考慮してなされたものであり、ユーザの利便性を向上させることができるジェスチャ認識装置、移動体、ジェスチャ認識方法、およびプログラムを提供することを目的の一つとする。

【課題を解決するための手段】

【0006】

この発明に係るジェスチャ認識装置、移動体、ジェスチャ認識方法、およびプログラムは、以下の構成を採用した。
（１）：ジェスチャ認識装置は、ユーザが撮像された画像を取得する取得部と、前記画像が撮像されたときの前記ユーザが存在する領域を認識し、前記画像が撮像されたとき前記ユーザが第１領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第１情報とに基づいて、前記ユーザのジェスチャを認識し、前記画像が撮像されたとき前記ユーザが第２領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第２情報とに基づいて、前記ユーザのジェスチャを認識する認識部とを備える。

【0007】

（２）：上記（１）の態様において、前記第１領域は、前記画像を撮像する撮像装置から所定距離の範囲内の領域であり、前記第２領域は、前記撮像装置から前記所定距離よりも遠い位置に設定された領域である。

【0008】

（３）：上記（１）または（２）の態様において、前記第１情報は、腕の動きを含まず手または指の動きによるジェスチャを認識するための情報である。

【0009】

（４）：上記（１）から（３）のいずれかの態様において、前記第２情報は、腕の動きを含むジェスチャを認識するための情報である。

【0010】

（５）：上記（４）の態様において、前記第１領域は、前記認識部が前記第１領域に存在するユーザが撮像された画像から前記ユーザの腕の動きを認識できない、または認識しにくい領域である。

【0011】

（６）：上記（１）から（５）のいずれかの態様において、前記認識部は、前記画像が撮像されたとき前記ユーザが前記第１領域と前記第１領域の外側の前記第１領域に隣接する第２領域とに跨る第３領域または前記第１領域と前記第１領域よりも遠い第２領域との間の第３領域に存在する場合、前記画像と、前記第１情報と、前記第２情報とに基づいて前記ユーザのジェスチャを認識するものである。

【0012】

（７）：上記（６）の態様において、前記認識部は、前記画像と、前記第１情報と、前記第２情報とに基づいて前記ユーザのジェスチャを認識する場合、前記画像と前記第１情報とに基づく認識の結果を、前記画像と前記第２情報とに基づく認識の結果よりも優先して、前記ユーザのジェスチャを認識するものである。

【0013】

（８）：移動体は、上記（１）から（７）のいずれかの態様のジェスチャ認識システムを備える。

【0014】

（９）：上記（８）の態様において、前記ユーザのジェスチャと前記移動体の動作とが関連付けられた参照情報が記憶された記憶装置と、前記参照情報を参照して、前記認識部により認識された前記ユーザのジェスチャに関連付けられた前記移動体の動作に基づいて、前記移動体を制御する制御部と、を更に備える。

【0015】

（１０）：上記（９）の態様において、移動体の周辺を撮像する第１撮像部と、前記移動体を遠隔で操作するユーザを撮像する第２撮像部と、を備え、前記認識部は、前記第１撮像部により撮像された第１画像および前記第２撮像部により撮像された第２画像に基づいて前記ユーザのジェスチャを認識する処理を試行し、前記第１画像に基づく認識の結果よりも、前記第２画像に基づく認識の結果を優先して採用し、前記制御部は、前記第１撮像部により撮像された画像から得られる周辺の状況と前記認識部が認識したジェスチャに関連付けられた動作とに基づいて前記移動体を制御する。

【0016】

（１１）：上記（８）から（１０）のいずれかの態様において、移動体の周辺を撮像する第１撮像部と、前記移動体を遠隔で操作するユーザを撮像する第２撮像部と、を備え、前記認識部は、前記ユーザが第１領域に存在し、且つ前記第１撮像部により撮像された第１画像に基づいて前記ユーザのジェスチャを認識できない場合、前記第１情報を参照して前記第２撮像部により撮像された第２画像に基づいて前記ユーザのジェスチャを認識し、前記認識部が認識したジェスチャに応じて前記第１撮像部により撮像された画像に基づいて、前記移動体を制御する制御部を備える。

【0017】

（１２）：上記（８）から（１１）のいずれかの態様において、前記認識部は、撮像された画像に基づいて対象のユーザをトラッキングし、トラッキングしているユーザのジェスチャを認識し、トラッキングしていない人物のジェスチャを認識する処理を行わず、前記トラッキングしているユーザのジェスチャに基づいて前記移動体を制御する制御部を備える。

【0018】

（１３）：この発明の一態様に係るジェスチャ認識方法は、コンピュータが、ユーザが撮像された画像を取得し、前記画像が撮像されたときの前記ユーザが存在する領域を認識し、前記画像が撮像されたとき前記ユーザが第１領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第１情報とに基づいて、前記ユーザのジェスチャを認識し、前記画像が撮像されたとき前記ユーザが第２領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第２情報とに基づいて、前記ユーザのジェスチャを認識する。

【0019】

（１４）：この発明の一態様に係るプログラムは、コンピュータに、ユーザが撮像された画像を取得させ、前記画像が撮像されたときの前記ユーザが存在する領域を認識させ、前記画像が撮像されたとき前記ユーザが第１領域に存在する場合、複数の前記画像と、前記ユーザのジェスチャを認識するための第１情報とに基づいて、前記ユーザのジェスチャを認識させ、前記画像が撮像されたとき前記ユーザが第２領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第２情報とに基づいて、前記ユーザのジェスチャを認識させる。

【発明の効果】

【0020】

（１）－（１４）によれば、認識部が、ユーザの位置に応じて第１情報または第２情報を用いてジェスチャを認識することにより、ユーザの利便性を向上させることができる。

【0021】

（６）によれば、ジェスチャ認識装置は、第１情報および第２情報を用いてジェスチャを認識することにより、より精度よくジェスチャを認識することができる。

【0022】

（８）－（１１）によれば、移動体は、ユーザの意図を反映した動作を行うことができる。例えば、ユーザは、簡易な指示により移動体を容易に動作させることができる。

【0023】

（１０）または（１１）によれば、移動体は、周辺を認識するための画像を取得するカメラと、遠隔操作用のカメラとが取得した画像に基づいて認識されたジェスチャに応じた動作を行うため、より精度よくジェスチャを認識し、更にユーザの意図に応じた動作を行うことができる。

【0024】

（１２）によれば、移動体は、サービスを提供しているユーザをトラッキングし、トラッキング対象のユーザのジェスチャに着目して処理を行うことにより、処理負荷を低減しつつ、ユーザの利便性を向上させることができる。

【図面の簡単な説明】

【0025】

【図1】実施形態に係る制御装置を備える移動体１０の一例を示す図である。

【図2】移動体１０の本体２０に含まれる機能構成の一例を示す図である。

【図3】軌道の一例を示す図である。

【図4】トラッキング処理の流れの一例を示すフローチャートである。

【図5】ユーザの特徴量を抽出する処理および特徴量を登録する処理について説明するための図である。

【図6】認識部５４がユーザをトラッキングする処理（図３のステップＳ１０４の処理）について説明するための図である。

【図7】特徴量を用いたトラッキング処理について説明するための図である。

【図8】トラッキング対象のユーザを特定する処理を説明するための図である。

【図9】認識部５４がユーザをトラッキングする処理（図３のステップＳ１０４の処理）の他の一例について説明するための図である。

【図10】トラッキング対象のユーザであると特定する処理について説明するための図である。

【図11】行動制御処理の流れの一例を示すフローチャートである。

【図12】ジェスチャを認識する処理について説明するための図である。

【図13】第１領域に存在するユーザを示す図である。

【図14】第２領域に存在するユーザを示す図である。

【図15】第２ジェスチャＡについて説明するための図である。

【図16】第２ジェスチャＢについて説明するための図である。

【図17】第２ジェスチャＣについて説明するための図である。

【図18】第２ジェスチャＤについて説明するための図である。

【図19】第２ジェスチャＥについて説明するための図である。

【図20】第２ジェスチャＦについて説明するための図である。

【図21】第２ジェスチャＧについて説明するための図である。

【図22】第２ジェスチャＨについて説明するための図である。

【図23】第１ジェスチャａについて説明するための図である。

【図24】第１ジェスチャｂについて説明するための図である。

【図25】第１ジェスチャｃについて説明するための図である。

【図26】第１ジェスチャｄについて説明するための図である。

【図27】第１ジェスチャｅについて説明するための図である。

【図28】第１ジェスチャｆについて説明するための図である。

【図29】第１ジェスチャｇについて説明するための図である。

【図30】制御装置５０がジェスチャを認識する処理の一例を示すフローチャートである。

【図31】第３領域を示す図（その１）である。

【図32】第３領域を示す図（その２）である。

【図33】第２実施形態の移動体１０の本体２０Ａの機能構成の一例について説明するための図である。

【図34】第２実施形態の制御装置５０により実行される処理の流れの一例を示すフローチャートである。

【図35】第２ジェスチャＧの変形例について説明するための図である。

【図36】第２ジェスチャＨの変形例について説明するための図である。

【図37】第２ジェスチャＦの変形例について説明するための図である。

【図38】第２ジェスチャＦＲについて説明するための図である。

【図39】第２ジェスチャＦＬについて説明するための図である。

【発明を実施するための形態】

【0026】

以下、図面を参照し、本発明の実施形態に係るジェスチャ認識装置、移動体、ジェスチャ認識方法、およびプログラムについて説明する。

【0027】

＜第１実施形態＞
[全体構成]
図１は、実施形態に係る制御装置を備える移動体１０の一例を示す図である。移動体１０は、自律移動型のロボットである。移動体１０は、ユーザの行動を支援する。例えば、移動体１０は、店舗の店員や、顧客、施設のスタッフ（以下、これらの人物を「ユーザ」と称する）などの指示に応じて顧客のショッピングまたは接客を支援したり、スタッフの作業の支援をしたりする。

【0028】

移動体１０は、本体２０と、収容器９２と、一以上の車輪９４（図中、車輪９４Ａ、９４Ｂ）とを備える。移動体１０は、ユーザのジェスチャや音声、移動体１０の入力部（後述するタッチパネル）に対する操作、端末装置（例えばスマートフォン）に対する操作に基づく指示に応じて移動する。移動体１０は、例えば、本体２０に設けられたカメラ２２により撮像された画像に基づいてジェスチャを認識する。

【0029】

例えば、移動体１０は、車輪９４を駆動させて、ユーザの移動に合わせて顧客に追従するように移動したり、顧客を先導するように移動したりする。この際、移動体１０は、ユーザに商品や作業の説明をしたり、ユーザが探している商品や対象物を案内したりする。また、ユーザは、購入予定の商品や荷物を、これらを収容する収容器９２に収納することができる。

【0030】

本実施形態では、移動体１０は収容器９２を備えるものとして説明するが、これらに代えて（または加えて）、移動体１０は、ユーザが移動体１０と共に移動するために、着座する着座部や、ユーザが乗り込む筐体、ユーザが足をのせるステップなどが設けられてもよい。

【0031】

図２は、移動体１０の本体２０に含まれる機能構成の一例を示す図である。本体２０は、カメラ２２と、通信部２４と、位置特定部２６と、スピーカ２８と、マイク３０と、タッチパネル３２と、モータ３４と、制御装置５０とを備える。

【0032】

カメラ２２は、移動体１０の周辺を撮像する。カメラ２２は、例えば、移動体１０の周辺を広角に（例えば３６０度で）撮像可能な魚眼カメラである。カメラ２２は、例えば、移動体１０の上部に取り付けられ、移動体１０の周辺を水平方向に関して広角に撮像する。カメラ２２は、複数のカメラ（水平方向に関して１２０度の範囲や６０度の範囲を撮像する複数のカメラ）を組み合わせて実現されてもよい。カメラ２２は、１台に限らず複数台移動体１０に設けられていてもよい。

【0033】

通信部２４は、セルラー網やＷｉ－Ｆｉ網、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＤＳＲＣ（Dedicated Short Range Communication）などを利用して他の装置と通信するための通信インターフェイスである。

【0034】

位置特定部２６は、移動体１０の位置を特定する。位置特定部２６は、移動体１０に内蔵されたＧＰＳ（Global Positioning System）装置（不図示）により移動体１０の位置情報を取得する。位置情報とは、例えば、二次元の地図座標でもよく、緯度経度情報でもよい。

【0035】

スピーカ２８は、例えば、所定の音声を出力する。マイク３０は、例えば、ユーザが発した音声の入力を受け付ける。

【0036】

タッチパネル３２は、ＬＣＤ（liquid Crystal Display）や有機ＥＬ（Electroluminescence）などの表示部と、座標検出機構により操作者のタッチ位置が検出可能な入力部とが重畳して構成される。表示部は、操作用のＧＵＩ（Graphical User Interface）スイッチを表示する。入力部は、ＧＵＩスイッチに対するタッチ操作、フリック操作、スワイプ操作などを検出したときに、ＧＵＩスイッチへのタッチ操作がなされたこと示す操作信号を生成して、制御装置５０に出力する。制御装置５０は、操作に応じて、スピーカ２８に音声を出力させたり、タッチパネル３２に画像を表示させたりする。また、制御装置５０は、操作に応じて、移動体１０を移動させてもよい。

【0037】

モータ３４は、車輪９４を駆動させて、移動体１０を移動させる。車輪９４は、例えば、モータ３４によって回転方向に駆動される駆動輪と、ヨー方向に駆動される非駆動輪である操舵輪とを含む。操舵輪の角度が調整されることによって、移動体１０は進路を変更したり、自転したりすることができる。

【0038】

本実施形態において、移動体１０は、移動を実現するための機構として車輪９４を備えているが、本実施形態はこの構成に限定されない。例えば、移動体１０は多足歩行型のロボットであってもよい。

【0039】

制御装置５０は、例えば、取得部５２と、認識部５４と、軌道生成部５６と、走行制御部５８と、情報処理部６０と、記憶部７０とを備える。取得部５２と、認識部５４と、軌道生成部５６と、走行制御部５８と、情報処理部６０との一部または全部は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの機能部の一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの記憶部７０（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。取得部５２、認識部５４、軌道生成部５６、走行制御部５８、または情報処理部６０は、制御装置５０（移動体１０）とは異なる装置に設けられてよい。例えば、認識部５４は、他の装置に設けられ、制御装置５０は、他の装置の処理結果に基づいて、移動体１０を制御してもよい。また、記憶部７０に記憶される情報の一部または全部も他の装置に格納されてもよい。取得部５２、認識部５４、軌道生成部５６、走行制御部５８、または情報処理部６０のうち、一以上の機能部を含む構成は、システムとして構成されてもよい。

【0040】

記憶部７０には、地図情報７２や、ジェスチャ情報７４、ユーザ情報８０が記憶されている。地図情報７２は、例えば、道路や施設内の通路を示すリンクと、リンクによって接続されたノードとによって道路や通路の形状が表現された情報である。地図情報７２は、道路の曲率やＰＯＩ（Point Of Interest）情報などを含んでもよい。

【0041】

ジェスチャ情報７４は、ジェスチャに関する情報（テンプレートの特徴量）と、移動体１０の動作とが互いに対応付けられた情報である。ジェスチャ情報７４は、第１ジェスチャ情報７６（第１情報、参照情報）および第２ジェスチャ情報７８（第２情報、参照情報）を含む。ユーザ情報８０は、ユーザの特徴量を示す情報である。ジェスチャ情報７４およびユーザ情報８０の詳細については後述する。

【0042】

取得部５２は、カメラ２２によって撮像された画像（以下、「周辺画像」と称する）を取得する。取得部５２は、取得した周辺画像を魚眼カメラ座標系におけるピクセルデータとして保持する。

【0043】

認識部５４は、一以上の周辺画像に基づいて、ユーザＵによる身体動作（以下、「ジェスチャ」と称する）を認識する。認識部５４は、周辺画像から抽出したユーザのジェスチャの特徴量とテンプレートの特徴量（ジェスチャを示す特徴量）とを照合することによって、ジェスチャを認識する。特徴量は、例えば、人の指や、指の関節、手首、腕、骨格などの特徴箇所と、それを繋ぐリンクと、リンクの傾きや位置等とを表すデータである。

【0044】

軌道生成部５６は、ユーザのジェスチャや、ユーザにより設定された目的地、周辺の物体、ユーザの位置、地図情報７２等に基づいて、移動体１０が将来走行すべき軌道を生成する。軌道生成部５６は、円弧を複数組み合わせて、目標地点まで移動体１０が滑らかに移動できるような軌道を生成する。図３は、軌道の一例を示す図である。例えば、軌道は、３つの円弧が結合されて生成される。それぞれの円弧は異なる曲率半径Ｒ_ｍ１、Ｒ_ｍ2、Ｒ_ｍ3を持ち、それぞれに対して予測期間Ｔ_ｍ１、Ｔ_ｍ2、Ｔ_ｍ3に対する終点の位置がＺ_ｍ１、Ｚ_ｍ2、Ｚ_ｍ3と定義される。また、予測期間Ｔ_ｍ１に対する軌道（第一予測期間軌道）は、例えば三等分され、その位置はそれぞれＺ_ｍ11、Ｚ_ｍ12、Ｚ_ｍ13である。基準地点における移動体１０の進行方向はＸ方向、Ｘ方向に直角に交わる方向はＹ方向と定義される。第１接線は、Ｚ_ｍ１に対する接線である。第１接線において目標地点方向はＸ´方向、Ｘ´方向に直角に交わる方向はＹ´方向である。第１接線とＸ方向とに延在する線分とがなす角はθ_ｍ１である。Ｙ方向に延在する線分とＹ´方向に延在する線分とのなす角はθ_ｍ１である。Ｙ方向に延在する線分とＹ´方向に延在する線分とが交わる点が第１予測期間軌道の円弧の中心である。第２接線はＺ_ｍ2に対する接線である。第２接線において目標地点方向はＸ´´方向、Ｘ´´方向に直角に交わる方向はＹ´´方向である。第２接線とＸ方向とに延在する線分とがなす角はθ_ｍ１＋θ_ｍ２である。Ｙ方向に延在する線分とＹ´´方向に延在する線分とのなす角はθ_ｍ2である。Ｙ方向に延在する線分とＹ´´方向に延在する線分とが交わる点が第２予測期間軌道の円弧の中心である。第３予測期間軌道の円弧はＺ_ｍ2とＺ_ｍ3とを通る円弧である。この円弧の中心角はθ_３である。軌道生成部５６は、例えば、ベジェ曲線などの幾何的モデルに状態をフィッティングさせることで計算されてもよい。軌道は、例えば、実際には有限個の軌道点の集まりとして生成される。

【0045】

軌道生成部５６は、直交座標系と魚眼カメラ座標系との間で座標変換を行う。直交座標系と魚眼カメラ座標系の間では、座標間で一対一の関係が成立し、その関係は対応情報として記憶部７０に記憶されている。軌道生成部５６は、直交座標系における軌道（直交座標系軌道）を生成し、この軌道を魚眼カメラ座標系における軌道（魚眼カメラ座標系軌道）に座標変換する。軌道生成部５６は、魚眼カメラ座標系軌道のリスクを計算する。リスクとは、移動体１０が障害物に接近する可能性の高さを示す指標値である。リスクは、軌道（軌道の軌道点）に対して障害物との距離が小さければ小さいほど高く、軌道（軌道点）に対して障害物との距離が大きければ大きいほどリスクを低くなる傾向である。

【0046】

軌道生成部５６は、リスクの合計値や、各軌道点のリスクが、予め設定された基準を満たす場合（例えば合計値が閾値Ｔｈ１以下であり、且つ各軌道点のリスクが閾値Ｔｈ２以下である場合）、基準を満たす軌道を移動体が移動する軌道として採用する。

【0047】

上記の軌道が予め設定された基準を満たさない場合、以下の処理を行ってもよい。軌道生成部５６は、魚眼カメラ座標系において走行可能空間を検出し、検出された魚眼カメラ座標系における走行可能空間を直交座標系における走行可能空間に座標変換する。走行可能空間とは、移動体１０の移動方向の領域のうち障害物およびその障害物の周辺の領域（リスクが設定された領域またはリスクが閾値以上の領域）を除いた空間である。軌道生成部５６は、直交座標系に座標変換された走行可能空間内に軌道が収まるように軌道を修正する。軌道生成部５６は、直交座標系軌道を魚眼カメラ座標系軌道に座標変換して、周辺画像と、魚眼カメラ座標系軌道とに基づいて、魚眼カメラ座標系軌道のリスクを計算する。この処理を繰り返して、上記の予め設定された基準を満たす軌道を探索する。

【0048】

走行制御部５８は、予め設定された基準を満たす軌道に沿って、移動体１０を走行させる。走行制御部５８は、移動体１０が軌道に沿って走行させるための指令値をモータ３４に出力する。モータ３４は、指令値に従って車輪９４を回転させ、移動体１０を軌道に沿って移動させる。

【0049】

情報処理部６０は、本体２０に含まれる各種装置や機器を制御する。情報処理部６０は、例えば、スピーカ２８や、マイク３０、タッチパネル３２を制御する。また、情報処理部６０は、マイク３０に入力された音声や、タッチパネル３２に対して行われた操作を認識する。情報処理部６０は、認識の結果に基づいて移動体１０を動作させる。

【0050】

なお、上記の例では、認識部５４は、移動体１０に設けられたカメラ２２により撮像された画像に基づいてユーザの身体動作を認識するものとして説明したが、認識部５４は、移動体１０に設けられていないカメラ（移動体１０とは異なる位置に設けられたカメラ）により撮像された画像に基づいてユーザの身体動作を認識してもよい。この場合、カメラにより撮像された画像は、通信を介して制御装置５０に送信され、制御装置５０は、送信された画像を取得して、取得した画像に基づいてユーザの身体動作を認識する。また、認識部５４は、複数の画像に基づいて、ユーザの身体動作を認識してもよい。例えば、認識部５４は、カメラ２２により撮像された画像や、移動体１０とは異なる位置に設けられたカメラにより撮像された複数の画像に基づいて、ユーザの身体動作を認識してもよい。例えば、認識部５４は、各画像からユーザの身体動作を認識し、認識した結果を所定の基準に当てはめて、ユーザの身体動作を認識したり、複数の画像に対して画像処理を行って一以上の画像を生成し、生成した画像からユーザが意図した身体動作を認識したりしてもよい。

【0051】

［支援処理］
移動体１０は、ユーザのショッピングを支援する支援処理を実行する。支援処理は、トラッキングに関する処理と、行動制御に関する処理とを含む。

【0052】

［トラッキングに関する処理（その１）］
図４は、トラッキング処理の流れの一例を示すフローチャートである。まず、移動体１０の制御装置５０は、ユーザの登録を受け付ける（ステップＳ１００）。次に、制御装置５０は、ステップＳ１００で登録されたユーザをトラッキングする（ステップＳ１０２）。次に、制御装置５０は、トラッキングが成功したか否かを判定する（ステップＳ１０４）。トラッキングを成功した場合、後述する図１１のステップＳ２００の処理に進む。トラッキングを成功しなかった場合、制御装置５０は、ユーザを特定する（ステップＳ１０６）。

【0053】

（ユーザを登録する処理）
ステップＳ１００のユーザを登録する処理について説明する。移動体１０の制御装置５０は、ユーザ（例えば店舗に来店した顧客）の特定のジェスチャや、音声、タッチパネル３２に対する操作に基づいてユーザの登録の意志を確認する。ユーザの登録の意志が確認できた場合、制御装置５０の認識部５４は、ユーザの特徴量を抽出し、抽出した特徴を登録する。

【0054】

図５は、ユーザの特徴量を抽出する処理および特徴量を登録する処理について説明するための図である。制御装置５０の認識部５４は、ユーザが撮像された画像ＩＭ１からユーザを特定し、特定したユーザの関節点を認識する（スケルトン処理を実行する）。例えば、認識部５４は、画像ＩＭ１からユーザの顔や、顔のパーツ、首、肩、肘、手首、腰、足首などを推定し、推定した各パーツの位置に基づいて、スケルトン処理を実行する。例えば、認識部５４は、ディープラーニングを用いてユーザの関節点や骨格を推定する公知の手法（例えばオープンポーズなどの手法）を用いて、スケルトン処理を実行する。次に、認識部５４は、スケルトン処理の結果に基づいて、ユーザの顔や、上半身、下半身等を特定し、特定した顔、上半身、下半身ごとの特徴量を抽出して、抽出した特徴量をユーザの特徴量として記憶部７０に登録する。顔の特徴量は、例えば、男性、女性、髪型、顔の特徴量である。上半身の特徴量は、例えば、上半身部の色である。下半身の特徴量は、例えば、下半身部の色である。

【0055】

（ユーザをトラッキングする処理）
ステップＳ１０２のユーザをトラッキングする処理について説明する。図６は、認識部５４がユーザをトラッキングする処理（図４のステップＳ１０４の処理）について説明するための図である。認識部５４は、時刻Ｔで撮影された画像ＩＭ２からユーザを検出する。認識部５４は、この検出した人物を、時刻Ｔ＋１で撮影された画像ＩＭ３から検出する。認識部５４は、時刻Ｔおよび時刻Ｔ以前のユーザの位置と移動方向とに基づいて、時刻Ｔ＋１におけるユーザの位置を推定し、推定した位置付近に存在するユーザをトラッキングする対象（トラッキング対象）のユーザであると特定する。ユーザが特定可能な場合、トラッキングが成功したとみなされる。

【0056】

認識部５４は、トラッキング処理において、上記のように時刻Ｔ＋１におけるユーザの位置に加え、更にユーザの特徴量を用いてユーザをトラッキングしてもよい。図７は、特徴量を用いたトラッキング処理について説明するための図である。例えば、認識部５４は、時刻Ｔ＋１におけるユーザの位置を推定し、推定した位置付近に存在するユーザを特定し、更にそのユーザの特徴量を抽出する。制御装置５０は、抽出した特徴量と、登録された特徴量とが閾値以上合致する場合、特定したユーザをトラッキング対象のユーザであると推定し、トラッキングは成功したと判定する。

【0057】

例えば、トラッキング対象のユーザが他の人物と重なったり、交差したりした場合であっても、上記のようにユーザの位置の変化と、ユーザの特徴量とに基づいて、より精度よくユーザがトラッキングされる。

【0058】

（ユーザを特定する処理）
ステップＳ１０６のユーザを特定する処理について説明する。認識部５４は、ユーザのトラッキングに成功しなかった場合、図８に示すように、周辺にいる人物の特徴量と、登録されたユーザの特徴量とを照合して、トラッキング対象のユーザを特定する。認識部５４は、例えば、画像に含まれる各人物の特徴量を抽出する。認識部５４は、各人物の特徴量と、登録されたユーザの特徴量とを照合して、登録されたユーザの特徴量に閾値以上合致する人物を特定する。認識部５４は、特定したユーザがトラッキング対象のユーザとされる。

【0059】

上記の処理により、制御装置５０の認識部５４は、ユーザをより精度よくトラッキングすることができる。

【0060】

［トラッキングに関する処理（その２）］
上記の例では、ユーザは店舗に来店した顧客であるものとして説明したが、ユーザが店舗の店員や施設のスタッフ（例えば施設内で医療に従事する人など）である場合、以下の処理が行われてもよい。

【0061】

（ユーザを登録する処理）
ステップＳ１０２のユーザを登録する処理は、以下のように行われてもよい。図９は、認識部５４がユーザをトラッキングする処理（図４のステップＳ１０２の処理）の他の一例について説明するための図である。認識部５４は、撮影された画像から人物の顔部分の特徴量を抽出する。認識部５４は、抽出した顔部分の特徴量と、ユーザ情報８０に予め登録されたトラッキング対象のユーザの顔部分の特徴量とを照合し、これらが合致する場合、画像に含まれる人物はトラッキング対象のユーザであると判定する。

【0062】

（ユーザを特定する処理）
ステップＳ１０６のユーザを特定する処理は、以下のように行われてもよい。認識部５４は、ユーザのトラッキングに成功しなかった場合、図１０に示すように、周辺にいる人物の顔の特徴量と、登録されたユーザの特徴量とを照合して、特徴量が閾値以上合致する特徴量を有する人物をトラッキング対象のユーザであると特定する。

【0063】

上記のように、制御装置５０の認識部５４は、ユーザをより精度よくトラッキングすることができる。

【0064】

［行動制御に関する処理］
図１１は、行動制御処理の流れの一例を示すフローチャートである。本処理は、図４のステップＳ１０４の処理後に実行される処理である。制御装置５０は、ユーザのジェスチャを認識し（ステップＳ２００）、認識したジェスチャに基づいて移動体１０の行動を制御する（ステップＳ２０２）。次に、制御装置５０は、サービスを終了するか否かを判定する（ステップＳ２０４）。サービスを終了しない場合、図４のステップＳ１０２の処理に戻り、トラッキングを継続する。サービスを終了する場合、制御装置５０は、ユーザの特徴量などユーザに関連する登録された登録情報を消去する（ステップＳ２０６）。これにより、本フローチャートの１ルーチンが終了する。

【0065】

ステップＳ２００の処理について説明する。図１２は、ジェスチャを認識する処理について説明するための図である。制御装置５０は、スケルトン処理された結果から腕または手の一方または双方を含む領域（以下、対象領域）を抽出し、抽出した対象領域における腕または手の一方または双方の状態を示す特徴量を抽出する。制御装置５０は、上記の状態を示す特徴量にマッチングする特徴量を、ジェスチャ情報７４に含まれる特徴量から特定する。制御装置５０は、ジェスチャ情報７４において、特定した特徴量に関連付けられた移動体１０の動作を移動体１０に実行させる。

【0066】

（ジェスチャを認識する処理）
制御装置５０は、移動体１０とユーザとの相対位置に基づいて、ジェスチャ情報７４の第１ジェスチャ情報７６を参照するか、第２ジェスチャ情報７８を参照するかを決定する。図１３に示すように、ユーザが、移動体から所定距離離れていない場合、言い換えると、ユーザが移動体１０を基準に設定された第１領域ＡＲ１内に存在する場合、制御装置５０は、ユーザが第１ジェスチャ情報７６に含まれるジェスチャと同じジェスチャを行っているか否かを判定する。図１４に示すように、ユーザが、移動体から所定距離離れている場合、言い換えると、ユーザが移動体１０を基準に設定された第２領域に存在する場合（第１領域ＡＲ１内に存在しない場合）、制御装置５０は、ユーザが第２ジェスチャ情報７８に含まれるジェスチャと同じジェスチャを行っているか否かを判定する。

【0067】

第１ジェスチャ情報７６に含まれる第１ジェスチャは、腕を用いず手を用いたジェスチャであり、第２ジェスチャ情報７８に含まれる第２ジェスチャは、腕（肘と手との間の腕）と手とを用いたジェスチャである。なお、第１ジェスチャは、第２ジェスチャよりも小さい身振りや小さい手ぶりなどの身体動作であればよい。小さい身体動作とは、移動体１０にある動作（直進など同じ動作）をさせる場合に、第１ジェスチャの身体動作は第２ジェスチャの身体動作よりも小さいことである。例えば、第１動作は手や指を用いたジェスチャであり、第２ジェスチャは腕を用いたジェスチャであってもよい。例えば、第１動作は膝よりも下の脚を用いたジェスチャであり、第２ジェスチャは下半身を用いたジェスチャであってもよい。例えば、第１動作は手や足などを用いたジェスチャであり、第２ジェスチャはジャンプなど体全体を用いたジェスチャであってもよい。

【0068】

移動体１０のカメラ２２が、第１領域ＡＲ１に存在するユーザを撮像すると、図１３に示すように腕部分は画像に収まりにくく、手や指が画像に収まる。第１領域ＡＲ１は、認識部５４が第１領域ＡＲ１に存在するユーザが撮像された画像からユーザの腕を認識できない、または認識しづらい領域である。移動体１０のカメラ２２が、第２領域ＡＲ２に存在するユーザを撮像すると、図１４に示すように腕部分は画像に収まる。このため、上記のように、第１領域ＡＲ１にユーザが存在する場合、認識部５４は、第１ジェスチャ情報７６を用いてジェスチャを認識し、第２領域ＡＲ２にユーザが存在する場合、認識部５４は、第２ジェスチャ情報７８を用いてジェスチャを認識することで、より精度よくユーザのジェスチャを認識することができる。以下、第２ジェスチャ、第１ジェスチャの順で説明する。

【0069】

［第２ジェスチャ情報に含まれるジェスチャと行動］
以下、ユーザの正面方向（前方方向）をＸ方向、正面方向に交わる方向をＹ方向、Ｘ方向およびＹ方向に交わり且つ鉛直方向とは反対の方向をＺ方向と称する。以下、移動体１０を動かすジェスチャについて、右腕および右手を用いて説明するが、左腕および左手を用いる場合も同等の動きが移動体１０を動かすジェスチャとなる。

【0070】

（第２ジェスチャＡ）
図１５は、第２ジェスチャＡについて説明するための図である。図１５の左側はジェスチャを示し、図１５の右側はジェスチャに対応する移動体１０の行動を示している（以降の図でも同様）。ジェスチャは、例えば、ユーザＰ１（店員）が行ったものとして、以下、説明する（以降の図でも同様）。図中、Ｐ２は、顧客である。

【0071】

ジェスチャＡは、ユーザの後ろに位置する移動体１０をユーザの前に移動させるように、ユーザが腕と手とを体付近から体より前に押し出すようなジェスチャである。腕と手とを略マイナスＹ方向と平行にして親指がプラスＺ軸方向を向くように手を回転させ（図中、Ａ１）、この状態で肩または肘の関節を動かして手をプラスＸ方向に移動させ（図中、Ａ２）、更に指先がプラスＸ方向と略平行にする（図中、Ａ３）。この状態では、手のひらはプラスＺ方向を向いている。そして、指先がＸ方向と略平行な状態で、手のひらがマイナスＺ方向を向くように手および腕を回転させる（図中、Ａ４、Ａ５）。第２ジェスチャＡが行われた場合、ユーザＰの後ろに位置する移動体１０は、ユーザＰ１の前に移動する。

【0072】

（第２ジェスチャＢ）
図１６は、第２ジェスチャＢについて説明するための図である。第２ジェスチャＢは、移動体１０を前進させるように腕と手とを前方に突き出すようなジェスチャである。手のひらをマイナスＺ方向に向けて腕と手とを伸ばした状態で移動体１０を移動させる方向（例えばプラスＸ方向）と平行になるように、腕と手とを突き出す（図中、Ｂ１からＢ３）。第２ジェスチャＢが行われた場合、移動体１０は、指先が指し示す方向に移動する。

【0073】

（第２ジェスチャＣ）
図１７は、第２ジェスチャＣについて説明するための図である。第２ジェスチャＣは、前進している移動体１０を停止させるように、前方に突き出した腕と手とのうち、手のひらをＸ方向に正対させるようなジェスチャである（図中、Ｃ１、Ｃ２）。第２ジェスチャＣが行われた場合、移動体１０は、前進している状態から停止状態となる。

【0074】

（第２ジェスチャＤ）
図１８は、第２ジェスチャＤについて説明するための図である。第２ジェスチャＤは、移動体１０を左方向に移動させるように、腕と手とを左方向に動かす動作である。前方に腕と手とを突き出した状態（図中、Ｄ１）から手のひらを時計回りに略９０度回転させて親指をプラスＺ方向に向け（図中、Ｄ２）、この状態を起点として腕と手とをプラスＹ方向に振り、起点に腕と手とを戻す動作を反復する（図中、Ｄ３、Ｄ４）。第２ジェスチャＤが行われた場合、移動体１０は、左方向に移動する。腕と手とを前述した図中、Ｄ１の状態に戻すと、左方向に移動せずに移動体１０は前進する。

【0075】

（第２ジェスチャＥ）
図１９は、第２ジェスチャＥについて説明するための図である。第２ジェスチャＥは、移動体１０を右方向に移動させるように、腕と手とを右方向に動かす動作である。前方に腕と手とを突き出した状態（図中、Ｅ１）から手のひらを反時計回り方向に回転させて親指を地面方向に向け（図中、Ｅ２）、この状態を起点として腕と手とをマイナスＹ方向に振り、起点に腕と手とを戻す動作を反復する（図中、Ｅ３、Ｅ４）。第２ジェスチャＥが行われた場合、移動体１０は、右方向に移動する。腕と手とを前述した図中、Ｅ１の状態に戻すと、右方向に移動せずに移動体１０は前進する。

【0076】

（第２ジェスチャＦ）
図２０は、第２ジェスチャＦについて説明するための図である。第２ジェスチャＦは、移動体１０を後退させるように、手招きをする動作である。手のひらをプラスＺ方向に向けて（図中、Ｆ１）、指先がユーザの方向に向くように腕または手首を動かす動作を繰り返す（図中、Ｆ２からＦ５）。第２ジェスチャＦが行われた場合、移動体１０は後退する。

【0077】

（第２ジェスチャＧ）
図２１は、第２ジェスチャＧについて説明するための図である。第２ジェスチャＧは、移動体１０を左方向に自転させるように、人差し指（または所定の指）を突き出して左方向に突き出した指を回転させる動作である。手のひらをマイナスＺ方向に向けて（図中、Ｇ１）、人差し指を突き出し他の指は軽く握った状態（折り曲げた状態）にし（図中、Ｇ２）、手首または腕を動かして指先をプラスＹ方向に向けた後、図中、Ｇ１の状態に腕と手とを戻す（図中、Ｇ３、Ｇ４）。第２ジェスチャＧが行われた場合、移動体１０は左方向に自転する。

【0078】

（第２ジェスチャＨ）
図２２は、第２ジェスチャＨについて説明するための図である。第２ジェスチャＨは、移動体１０を右方向に自転させるように、人差し指（または所定の指）を突き出して右方向に突き出した指を回転させる動作である。手のひらをマイナスＺ方向に向けて（図中、Ｈ１）、人差し指を突き出し他の指は軽く握った状態（折り曲げた状態）にし（図中、Ｈ２）、手首または腕を動かして指先をマイナスＹ方向に向けた後、図中、Ｈ１の状態に腕と手とを戻す（図中、Ｈ３、Ｈ４）。第２ジェスチャＨが行われた場合、移動体１０は右方向に自転する。

【0079】

［第１ジェスチャ情報に含まれるジェスチャ］
（第１ジェスチャａ）
図２３は、第１ジェスチャａについて説明するための図である。第１ジェスチャａは、移動体１０を前進させるように手を前方に突き出すようなジェスチャである。親指をプラスＺ方向に向けて手の甲がＺ方向と平行になるようにする（図中、ａ）。第１ジェスチャａが行われた場合、移動体１０は、指先が指し示す方向に移動する。

【0080】

（第１ジェスチャｂ）
図２４は、第１ジェスチャｂについて説明するための図である。第１ジェスチャｂは、前進している移動体１０を停止させるように、手のひらをＸ方向に正対させるようなジェスチャである（図中、ｂ）。第１ジェスチャｂが行われた場合、移動体１０は、前進している状態から停止状態となる。

【0081】

（第１ジェスチャｃ）
図２５は、第１ジェスチャｃについて説明するための図である。第１ジェスチャｃは、移動体１０を左方向に移動させるように、手を左方向に動かす動作である。図２３、ａで示したように前方に手を突き出した状態（図中、ｃ１）を起点として、指先をプラスＹに向け、起点に戻す動作を反復する（図中、ｃ２、ｃ３）。第１ジェスチャｃが行われた場合、移動体１０は、左方向に移動する。

【0082】

（第１ジェスチャｄ）
図２６は、第１ジェスチャｄについて説明するための図である。第１ジェスチャｄは、移動体１０を右方向に移動させるように、手を右方向に動かす動作である。図２３、ａで示したように前方に手を突き出した状態（図中、ｄ１）を起点として、指先をマイナスＹに向け、起点に戻す動作を反復する（図中、ｄ２、ｄ３）。第１ジェスチャｄが行われた場合、移動体１０は、右方向に移動する。

【0083】

（第１ジェスチャｅ）
図２７は、第１ジェスチャｅについて説明するための図である。第１ジェスチャｅは、移動体１０を後退させるように、指先で手招きをする動作である。手のひらをプラスＺ方向に向けて（図中、ｅ１）、指先がユーザの方向に向くように（指先を手のひらに近づけるように）指先を動かす動作を繰り返す（図中、ｅ２、ｅ３）。第１ジェスチャｅが行われた場合、移動体１０は、後退する。

【0084】

（第１ジェスチャｆ）
図２８は、第１ジェスチャｆについて説明するための図である。第１ジェスチャｆは、移動体１０を左方向に自転させるように、人差し指および親指（または所定の指）を突き出して左方向に突き出した指を回転させる動作である。手のひらをプラスＸ方向に向けて、人差し指と親指とを突き出し、他の指は軽く握った状態（折り曲げた状態）にし（図中、ｆ１）、手のひらをマイナスＸ方向に向け、手の甲をプラスＸ方向に向けるように手を回転させる（図中、ｆ２）。そして、回転させた手を元の状態に戻す（図中、ｆ３）。第１ジェスチャｆが行われた場合、移動体１０は、左方向に自転する。

【0085】

（第１ジェスチャｇ）
図２９は、第１ジェスチャｇについて説明するための図である。第１ジェスチャｇは、移動体１０を右方向に自転させるように、人差し指および親指（または所定の指）を突き出して右方向に突き出した指を回転させる動作である。人差し指と親指とを突き出し、他の指は軽く握った状態（折り曲げた状態）にし、人差し指をプラスＸ方向、またはプラスＸ方向とプラスＹ方向との中間方向に向ける（図中、ｇ１）。この状態で、人差し指をプラスＺ方向、またはプラスＺ方向とマイナスＹ方向との中間方向に回転させる（図中、ｇ２）。そして、回転させた手を元の状態に戻す（図中、ｇ３）。第１ジェスチャｇが行われた場合、移動体１０は右方向に自転する。

【0086】

［フローチャート］
図３０は、制御装置５０がジェスチャを認識する処理の一例を示すフローチャートである。まず、制御装置５０は、ユーザが第１領域に存在するか否を判定する（ステップＳ３００）。ユーザが第１領域に存在する場合、制御装置５０は、取得された画像に基づいてユーザの挙動を認識する（ステップＳ３０２）。挙動とは、例えば、時間的に連続して取得された画像から認識されるユーザの動きである。

【0087】

次に、制御装置５０は、第１ジェスチャ情報７６を参照して、ステップＳ３０２で認識した挙動に合致するジェスチャを特定する（ステップＳ３０４）。なお、ステップＳ３０２で認識した挙動に合致するジェスチャが第１ジェスチャ情報７６に含まれていない場合、移動体１０の動きを制御するジェスチャは行われていないと判定する。次に、制御装置５０は、特定したジェスチャに対応する行動を行う（ステップＳ３０６）。

【0088】

ユーザが第１領域に存在しない場合（第２領域に存在する場合）、制御装置５０は、取得された画像に基づいてユーザの挙動を認識し（ステップＳ３０８）、第２ジェスチャ情報７８を参照して、ステップＳ３０８で認識した挙動に合致するジェスチャを特定する（ステップＳ３１０）。次に、制御装置５０は、特定したジェスチャに対応する行動を行う（ステップＳ３１２）。これにより、本フローチャートの１ルーチンの処理が終了する。

【0089】

例えば、上記処理において、認識部５４は、トラッキングしているユーザのジェスチャを認識し、トラッキングしていない人物のジェスチャを認識する処理を行わなくてよい。これにより、制御装置５０は、トラッキングしているユーザのジェスチャに基づいて移動体を制御することを、処理負荷を低減して行うことができる。

【0090】

上記のように、制御装置５０は、ユーザが存在する領域に基づいて、認識するジェスチャを切り替えることにより、より精度よくユーザのジェスチャを認識し、ユーザの意志に応じて移動体１０を作動させることができる。この結果、ユーザの利便性が向上する。

【0091】

なお、制御装置５０は、図３１に示すように、第３領域ＡＲ３では第１ジェスチャ情報７６と第２ジェスチャ情報７８とを参照してジェスチャを認識してもよい。図３１では、第３領域ＡＲ３は、第１領域ＡＲ１の外縁と、第１領域ＡＲ１の外側であって外縁から所定距離の位置との間の領域である。第２領域ＡＲ２は、第３領域ＡＲ３の外側の領域である。

【0092】

ユーザが第１領域ＡＲ１に存在する場合、認識部５４は、第１ジェスチャ情報７６を参照してジェスチャを認識する。ユーザが第２領域ＡＲ２に存在する場合、認識部５４は、第１ジェスチャ情報７６および第２ジェスチャ情報７８を参照してジェスチャを認識する。すなわち、認識部５４は、第１ジェスチャ情報７６に含まれる第１ジェスチャまたは第２ジェスチャ情報７８に含まれる第２ジェスチャをユーザが行っているか否かを判定する。第３領域ＡＲ３においてユーザが第１ジェスチャまたは第２ジェスチャを行っていた場合、制御装置５０は、ユーザが第１ジェスチャまたは第２ジェスチャに関連付けられた動作に基づいて移動体１０を制御する。ユーザが第２領域ＡＲ２に存在する場合、認識部５４は、第２ジェスチャ情報７８を参照してジェスチャを認識する。

【0093】

また、第３領域ＡＲ３は、図３２に示すように、第１領域ＡＲ１の外縁と、第１領域ＡＲ１の内側であって外縁から所定距離の位置との間の領域であってもよい。また、第３領域ＡＲ３は、第１領域ＡＲ１の外縁から内側であって外縁から所定距離の境界と、第１領域ＡＲ１の外縁から外側であって外縁から所定距離の境界とで区画される領域であってもよい（図３１の第３領域ＡＲ３と図３２の第３領域ＡＲ３とを合わせた領域が第３領域であってもよい）。

【0094】

例えば、第３領域ＡＲ３において、第１ジェスチャと第２ジェスチャとの両方が認識された場合、第１ジェスチャを第２ジェスチャよりも優先して採用してもよい。優先とは、例えば、第１ジェスチャが示す移動体１０の動作と、第２ジェスチャが示す移動体１０の動作とが異なる場合に第１ジェスチャの動作を優先すること、または第２ジェスチャを考慮しないことである。ユーザが意図せずに腕を動かしている場合、第２ジェスチャと認識されることがあるが、手や指を利用した小さいジェスチャは、ユーザが意図せずに行う可能性が低く、ジェスチャを行う意図をもって手や指を動かしている可能性が高いためである。このように、第１ジェスチャを優先することで、より精度よくユーザの意志を認識することができる。

【0095】

なお、上記の例では、認識部５４は、連続して撮像された複数の画像（所定間隔で撮像された複数の画像または動画）に基づいて、ユーザの身体動作を認識するものとして説明したが、これに代えて（加えて）、認識部５４は、１つの画像に基づいて、ユーザの身体動作を認識してもよい。この場合、認識部５４は、例えば、１つの画像に含まれるユーザの身体動作を示す特徴量と、第１ジェスチャ情報７６または第２ジェスチャ情報７８に含まれる特徴量とを比較して、合致度合が高いまたは所定度合以上である特徴量のジェスチャをユーザが行っていると認識する。

【0096】

また、上記の例において、認識部５４が、移動体１０とは異なる位置に設けられたカメラ（撮像装置）により撮像された画像を用いてユーザの身体動作を認識する場合、第１領域は、画像を撮像する撮像装置から所定距離の範囲内の領域であり、第２領域は、撮像装置から所定距離よりも遠い位置に設定された領域である。

【0097】

また、上記の例では、第２領域は第１領域よりも遠い位置に存在する領域であるものとして説明したが、これに代えて、第１領域と第２領域とは異なる位置に設定された領域であってもよい。例えば、第１領域は、第１方向に設定された領域であり、第２領域は、第１方向とは異なる方向に設定された領域であってもよい。

【0098】

以上説明した第１実施形態によれば、制御装置５０が、移動体に対するユーザの位置に応じて認識するジェスチャを切り替えることにより、より精度よくユーザのジェスチャを認識して移動体１０を適切に作動させることができる。この結果、ユーザの利便性が向上する。

【0099】

＜第２実施形態＞
以下、第２実施形態について説明する。第２実施形態の移動体１０の本体２０は、第１カメラ（第１撮像部）と、第２カメラ（第２撮像部）とを備え、これらのカメラにより撮像された画像を用いてジェスチャを認識する。以下、第１実施形態との相違点を中心に説明する。

【0100】

図３３は、第２実施形態の移動体１０の本体２０Ａの機能構成の一例について説明するための図である。本体２０Ａは、カメラ２２に代えて、第１カメラ２１と、第２カメラ２３とを備える。第１カメラ２１は、カメラ２２と同様のカメラである。第２カメラ２３は、移動体１０を遠隔で操作するユーザを撮像するカメラである。第２カメラ２３は、ユーザのジェスチャを認識するための画像を撮像するカメラである。遠隔操作は、ジェスチャにより行われる。第２カメラ２３は、例えば、機械的機構によって撮像方向が制御可能である。第２カメラ２３は、トラッキング対象のユーザを中心とした画像を撮像する。情報処理部６０は、例えば、第２カメラ２３の撮像方向をトラッキング対象のユーザに向けるように機械的機構を制御する。

【0101】

認識部５４は、第１カメラ２１により撮像された第１画像および第２カメラ２３により撮像された第２画像に基づいてユーザのジェスチャを認識する処理を試行する。認識部５４は、第１画像に基づく認識の結果（第１認識結果）よりも、第２画像に基づく認識の結果（第２認識結果）を優先する。軌道生成部５６は、第１画像から得られる周辺の状況と、認識されたジェスチャに関連付けられた動作とに基づいて軌道を生成する。走行制御部５８は、軌道生成部５６により生成された軌道に基づいて移動体１０を制御する。

【0102】

［フローチャート］
図３４は、第２実施形態の制御装置５０により実行される処理の流れの一例を示すフローチャートである。まず、制御装置５０の取得部５２は、第１画像および第２画像を取得する（ステップＳ４００）。次に、認識部５４は、第１画像および第２画像のそれぞれにおいてジェスチャを認識する処理を試行し、両方の画像からジェスチャを認識できたか否かを判定する（ステップＳ４０２）。本処理において、ユーザが第１領域に存在する場合は、第１ジェスチャ情報７６が参照され、ユーザが第１領域外に存在する場合は、第２ジェスチャ情報７８が参照される。

【0103】

両方の画像からジェスチャを認識できた場合、認識部５４は、認識したジェスチャが同じであるか否を判定する（ステップＳ４０４）。認識したジェスチャが同じである場合、認識部５４は、認識したジェスチャを採用する（ステップＳ４０６）。認識したジェスチャが同じでない場合、認識部５４は、第２画像から認識したジェスチャを採用する（ステップＳ４０８）。これにより第２認識結果が、第１認識結果よりも優先される。

【0104】

ステップＳ４０２の処理で、両方の画像からジェスチャを認識できなかった場合、認識部５４は、認識できたジェスチャ（第１画像から認識できたジェスチャまたは第２画像から認識できたジェスチャ）を採用する（ステップＳ４０６）。例えば、認識部５４は、ユーザが第１領域に存在し、且つ第１カメラ２１により撮像された第１画像に基づいてユーザのジェスチャを認識できない場合、第１ジェスチャ情報７６を参照して第２カメラ２３により撮像された第２画像に基づいてユーザのジェスチャを認識する。そして、採用されたジェスチャに応じた行動を行うように、移動体１０は制御される。これにより、本フローチャートの１ルーチンの処理が終了する。

【0105】

上述した処理により、制御装置５０は、より精度よくユーザのジェスチャを認識することができる。

【0106】

なお、第２実施形態において、ユーザの位置に関わらず、第１ジェスチャ情報７６または第２ジェスチャ情報７８が参照されてもよいし、第１ジェスチャ情報７６または第２ジェスチャ情報７８とは異なる（例えばユーザの位置を考慮しない）ジェスチャ情報（ジェスチャの特徴量と移動体１０の行動とが関連付けられた情報）が参照してもよい。

【0107】

以上説明した第２実施形態によれば、制御装置５０は、２つ以上のカメラにより撮像された画像を用いてジェスチャを認識することにより、より精度よくジェスチャを認識し、認識した結果に基づいて移動体１０を制御することができる。この結果、ユーザの利便性を向上させることができる。

【0108】

［第２ジェスチャの変形例］
第２ジェスチャは、上述した第２ジェスチャに代えて、以下の態様でもよい。例えば、第２ジェスチャは、例えば、手のひらの動きは考慮されず、上腕によるジェスチャであってもよい。これにより、第２ジェスチャが遠い距離で行われても、制御装置５０は、精度よく認識することができる。以下、例示するが、これらとは異なる態様であってもよい。

【0109】

（第２ジェスチャＧ）
図３５は、第２ジェスチャＧの変形例について説明するための図である。第２ジェスチャＧは、移動体１０を左方向に自転させるように、肘を曲げて、手のひらを上方向に向けて、左方向に上腕を回転させる動作（図中、Ｇ＃）である。第２ジェスチャＧが行われた場合、移動体１０は左方向に自転する。

【0110】

（第２ジェスチャＨ）
図３６は、第２ジェスチャＨの変形例について説明するための図である。第２ジェスチャＨは、移動体１０を右方向に自転させるように、肘を曲げて、手のひらを上方向に向けて、右方向に上腕を回転させる動作（図中、Ｈ＃）である。第２ジェスチャＨが行われた場合、移動体１０は右方向に自転する。

【0111】

（第２ジェスチャＦ）
図３７は、第２ジェスチャＦの変形例について説明するための図である。第２ジェスチャＦは、移動体１０を後退させるように、肘を曲げて、手のひらを上に向ける動作（図中、Ｆ＃）である。第２ジェスチャＦが行われた場合、移動体１０は後退する。

【0112】

（第２ジェスチャＦＲ）
図３８は、第２ジェスチャＦＲについて説明するための図である。第２ジェスチャＦＲは、移動体１０を右方向に移動させながら後退させるように、肘を曲げて、手のひらを上に向け、上腕の右方向の傾け度合で移動体１０が右方向に移動する移動量を決定する動作（図中、ＦＲ）である。第２ジェスチャＦＲが行われた場合、移動体１０は、上腕の右方向の傾け度合に応じて右方向に移動しながら後退する。

【0113】

図３９は、第２ジェスチャＦＬについて説明するための図である。第２ジェスチャＦＬは、移動体１０を左方向に移動させながら後退させるように、肘を曲げて、手のひらを上に向け、上腕の左方向の傾け度合で移動体１０が左方向に移動する移動量を決定する動作（図中、ＦＲ）である。第２ジェスチャＦＬが行われた場合、移動体１０は、上腕の左方向の傾け度合に応じて左方向に移動しながら後退する。

【0114】

上記のように、制御装置５０は、上腕による第２ジェスチャに基づいて移動体１０を制御する。例えば、遠くに存在する人物が第２ジェスチャを行った場合であっても、制御装置５０は、より精度よく第２ジェスチャを認識し、移動体１０を人物の意図に合わせて制御することができる。

【0115】

上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶した記憶装置と、
ハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記記憶装置に記憶されたプログラムを実行することにより、
ユーザが撮像された画像を取得し、
前記画像が撮像されたときの前記ユーザが存在する領域を認識し、
前記画像が撮像されたとき前記ユーザが第１領域に存在する場合、前記画像と、前記ユーザのジェスチャを認識するための第１情報とに基づいて、前記ユーザのジェスチャを認識し、
前記画像が撮像されたとき前記ユーザが第２領域に存在する場合、時間的に連続して撮像された複数の前記画像と、前記ユーザのジェスチャを認識するための第２情報とに基づいて、前記ユーザのジェスチャを認識する、
ジェスチャ認識装置。

【0116】

上記説明した実施形態は、以下のように表現することができる。
移動体の周辺を撮像する第１撮像部と、
前記移動体を遠隔で操作するユーザを撮像する第２撮像部と、
プログラムを記憶した記憶装置と、
ハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記記憶装置に記憶されたプログラムを実行することにより、
前記第１撮像部により撮像された第１画像および前記第２撮像部により撮像された第２画像に基づいて前記ユーザのジェスチャを認識する処理を試行し、前記第１画像に基づく認識の結果よりも、前記第２画像に基づく認識の結果を優先して採用し、
前記第１撮像部により撮像された画像から得られる周辺の状況と前記認識部が認識したジェスチャに関連付けられた動作とに基づいて前記移動体を制御する、
ジェスチャ認識装置。

【0117】

上記説明した実施形態は、以下のように表現することができる。
移動体の周辺を撮像する第１撮像部と、
前記移動体を遠隔で操作するユーザを撮像する第２撮像部と、
プログラムを記憶した記憶装置と、
ハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記記憶装置に記憶されたプログラムを実行することにより、
前記ユーザが第１領域に存在し、且つ前記第１撮像部により撮像された第１画像に基づいて前記ユーザのジェスチャを認識できない場合、前記第１情報を参照して前記第２撮像部により撮像された第２画像に基づいて前記ユーザのジェスチャを認識し、
認識したジェスチャに応じて前記第１撮像部により撮像された画像に基づいて前記移動体を制御する、
ジェスチャ認識装置。

【0118】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

【符号の説明】

【0119】

１０‥移動体、２０‥本体、２１‥第１カメラ、２２‥カメラ、２３‥第２カメラ、５０‥制御装置、５２‥取得部、５４‥認識部、５６‥軌道生成部、５８‥走行制御部、６０‥情報処理部、７０‥記憶部、７４‥ジェスチャ情報、７６‥第１ジェスチャ情報、７８‥第２ジェスチャ情報、８０‥ユーザ情報

【図1】