特開2023-127176 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2023-127176指示者側装置、方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023127176

(43)【公開日】2023-09-13

(54)【発明の名称】指示者側装置、方法およびプログラム

(51)【国際特許分類】

G06F 3/0484 20220101AFI20230906BHJP

G06F 3/01 20060101ALI20230906BHJP

G06F 3/16 20060101ALI20230906BHJP

【ＦＩ】

G06F3/0484

G06F3/01 570

G06F3/16 650

G06F3/16 620

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022030795

(22)【出願日】2022-03-01

(71)【出願人】

【識別番号】000000295

【氏名又は名称】沖電気工業株式会社

(74)【代理人】

【識別番号】100140958

【弁理士】

【氏名又は名称】伊藤学

(74)【代理人】

【識別番号】100137888

【弁理士】

【氏名又は名称】大山夏子

(74)【代理人】

【識別番号】100190942

【弁理士】

【氏名又は名称】風間竜司

(72)【発明者】

【氏名】渕上正睦

【テーマコード（参考）】

5E555

【Ｆターム（参考）】

5E555AA16

5E555AA61

5E555BA01

5E555BA04

5E555BB01

5E555BB04

5E555BC04

5E555BE17

5E555CA42

5E555CA44

5E555CA47

5E555CB64

5E555CB66

5E555CB74

5E555CC01

5E555CC22

5E555DA08

5E555DA09

5E555DA23

5E555DB03

5E555DB53

5E555DB57

5E555DC05

5E555DC13

5E555EA14

5E555EA22

5E555EA23

5E555FA00

(57)【要約】

【課題】指示者から作業者への指示をより効果的に行うことを可能とする技術が提供されることが望まれる。
【解決手段】第１のセンサデータから特定の入力パターンを認識する認識部と、前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力する切り替え信号出力部と、指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御する画像表示制御部と、を備える、指示者側装置が提供される。
【選択図】図１

【特許請求の範囲】

【請求項1】

第１のセンサデータから特定の入力パターンを認識する認識部と、
前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力する切り替え信号出力部と、
指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御する画像表示制御部と、
を備える、指示者側装置。

【請求項2】

前記第１のセンサデータは、ジェスチャを含み、
前記特定の入力パターンは、第１のジェスチャパターンを含む、
請求項１に記載の指示者側装置。

【請求項3】

前記第１のセンサデータは、音声を含み、
前記特定の入力パターンは、特定の音声パターンを含む、
請求項１または２に記載の指示者側装置。

【請求項4】

前記認識部は、指示者のジェスチャから第２のジェスチャパターンを認識し、
前記切り替え信号出力部は、前記第２のジェスチャパターンが認識されたときには、前記特定の音声パターンが認識されたとしても、前記切り替え信号を前記作業者側装置に出力しない、
請求項３に記載の指示者側装置。

【請求項5】

前記認識部は、指示者のジェスチャから第３のジェスチャパターンを認識し、
前記切り替え信号出力部は、前記第３のジェスチャパターンが認識されていないときには、前記特定の音声パターンが認識されたとしても、前記切り替え信号を前記作業者側装置に出力しない、
請求項３に記載の指示者側装置。

【請求項6】

前記切り替え信号出力部は、静止画像から動画像への切り替えを示す入力パターンが認識されたことに基づいて、静止画像から動画像への切り替え信号を前記作業者側装置に出力する、
請求項１～５のいずれか一項に記載の指示者側装置。

【請求項7】

前記切り替え信号出力部は、動画像から静止画像への切り替えを示す入力パターンが認識されたことに基づいて、動画像から静止画像への切り替え信号を前記作業者側装置に出力する、
請求項１～６のいずれか一項に記載の指示者側装置。

【請求項8】

前記切り替え信号出力部は、第２のセンサデータから認識される作業者の行動が前記作業者の移動中を示す場合には、動画像から静止画像への切り替えを示す入力パターンが認識されたとしても、動画像から静止画像への切り替え信号を前記作業者側装置に出力しない、
請求項７に記載の指示者側装置。

【請求項9】

第１のセンサデータから特定の入力パターンを認識することと、
前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力することと、
指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御することと、
を備える、方法。

【請求項10】

コンピュータを、
第１のセンサデータから特定の入力パターンを認識する認識部と、
前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力する切り替え信号出力部と、
指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御する画像表示制御部と、
を備える指示者側装置として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、指示者側装置、方法およびプログラムに関する。

【背景技術】

【0002】

従来の遠隔作業支援技術としては、小型のディスプレイに指示を表示する技術、または、透過型のディスプレイに指示を表示する技術などが知られている。しかし、いずれの技術であっても、従来の遠隔作業支援技術としては、平面的に指示を表示する技術が一般的である。

【0003】

一方、近年においては、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）技術などの発展により、三次元的に表示可能な作業マニュアルが現れてきている。かかる作業マニュアルはあらかじめ作成され、ＡＲ技術を用いて三次元的に表示され得る。これによって、作業などを三次元的に作業者に理解させることが可能になりつつある。しかしながら、ＡＲ技術を用いて作業マニュアルを三次元的に表示する場合であっても、作業マニュアル自体はあらかじめ作成されたものであるため、そのときの作業状況に応じた作業支援が行われにくい。

【0004】

一方、遠隔作業支援においては、指示者によって入力される音声の出力と、ハンドジェスチャ表示とを併用することが有効であることが既に示されている（例えば、非特許文献１参照）。しかし、ジェスチャ表示をＡＲ技術にそのまま適用した場合には、改善すべき点が生じる。

【0005】

例えば、ジェスチャがＡＲ技術を用いて三次元的に表示される場合であっても、ジェスチャが作業者の移動に伴って変化せずに、作業者が同じ視点からしかジェスチャを見ることができないとすると、作業者がジェスチャによる指示を把握しにくい状況が生じ得る。一方、ジェスチャが作業者の移動に伴って常に変化してしまうと、指示者がジェスチャを見る視点と作業者がジェスチャを見る視点とが一致しない状況が頻繁に生じるため、指示者がジェスチャによる指示を出しにくい状況が生じ得る。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】市原俊介、鈴木雄介、“ハンドジェスチャ送信機能を有する遠隔作業支援システムの開発と課題”、情報処理学会インタラクション２０１９、２Ｂ－３６

【発明の概要】

【発明が解決しようとする課題】

【0007】

そこで、指示者から作業者への指示をより効果的に行うことを可能とする技術が提供されることが望まれる。

【課題を解決するための手段】

【0008】

上記問題を解決するために、本発明のある観点によれば、第１のセンサデータから特定の入力パターンを認識する認識部と、前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力する切り替え信号出力部と、指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御する画像表示制御部と、を備える、指示者側装置が提供される。

【0009】

前記第１のセンサデータは、ジェスチャを含み、前記特定の入力パターンは、第１のジェスチャパターンを含んでもよい。

【0010】

前記第１のセンサデータは、音声を含み、前記特定の入力パターンは、特定の音声パターンを含んでもよい。

【0011】

前記認識部は、指示者のジェスチャから第２のジェスチャパターンを認識し、前記切り替え信号出力部は、前記第２のジェスチャパターンが認識されたときには、前記特定の音声パターンが認識されたとしても、前記切り替え信号を前記作業者側装置に出力しなくてもよい。

【0012】

前記認識部は、指示者のジェスチャから第３のジェスチャパターンを認識し、前記切り替え信号出力部は、前記第３のジェスチャパターンが認識されていないときには、前記特定の音声パターンが認識されたとしても、前記切り替え信号を前記作業者側装置に出力しなくてもよい。

【0013】

前記切り替え信号出力部は、静止画像から動画像への切り替えを示す入力パターンが認識されたことに基づいて、静止画像から動画像への切り替え信号を前記作業者側装置に出力してもよい。

【0014】

前記切り替え信号出力部は、動画像から静止画像への切り替えを示す入力パターンが認識されたことに基づいて、動画像から静止画像への切り替え信号を前記作業者側装置に出力してもよい。

【0015】

前記切り替え信号出力部は、第２のセンサデータから認識される作業者の行動が前記作業者の移動中を示す場合には、動画像から静止画像への切り替えを示す入力パターンが認識されたとしても、動画像から静止画像への切り替え信号を前記作業者側装置に出力しなくてもよい。

【0016】

また、本発明の別の観点によれば、第１のセンサデータから特定の入力パターンを認識することと、前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力することと、指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御することと、を備える、方法が提供される。

【0017】

また、本発明の別の観点によれば、コンピュータを、第１のセンサデータから特定の入力パターンを認識する認識部と、前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力する切り替え信号出力部と、指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御する画像表示制御部と、を備える指示者側装置として機能させるプログラムが提供される。

【発明の効果】

【0018】

以上説明したように本発明によれば、指示者から作業者への指示をより効果的に行うことを可能とする技術が提供される。

【図面の簡単な説明】

【0019】

【図1】本発明の実施形態に係る遠隔作業支援システムの機能構成例を示す図である。

【図2】遠隔作業支援システムの静止画状態から動画状態への切り替え動作例を示すフローチャートである。

【図3】遠隔作業支援システムの動画状態から静止画状態への切り替え動作例を示すフローチャートである。

【図4】比較例１に係るジェスチャ情報の変換先の座標系について説明するための図である。

【図5】比較例２に係るジェスチャ情報の変換先の座標系について説明するための図である。

【図6】本発明の実施形態に係るジェスチャ情報の変換先の座標系について説明するための図である。

【図7】本発明の実施形態に係る指示者側システムの例としての情報処理装置のハードウェア構成を示す図である。

【発明を実施するための形態】

【0020】

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

【0021】

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。

【0022】

（１．実施形態の詳細）
本発明の実施形態の詳細について説明する。

【0023】

（１－１．遠隔作業支援システムの構成）
まず、本発明の実施形態に係る遠隔作業支援システムの構成例について説明する。図１は、本発明の実施形態に係る遠隔作業支援システムの機能構成例を示す図である。図１に示されるように、遠隔作業支援システム１は、作業者側システムと、指示者側システムとを有する。

【0024】

作業者側システムは、遠隔作業支援システム１のうち、作業者によって用いられるシステムである。作業者は、作業者に指示を出す指示者から離れた場所（すなわち、遠隔地）にて作業を行う。一方、指示者側システムは、遠隔作業支援システム１のうち、指示者によって用いられるシステムである。作業者側システムと指示者側システムとは、ネットワーク３０に接続されており、ネットワーク３０を介して通信可能に構成されている。

【0025】

なお、遠隔作業支援においては、指示者と作業者との間において音声通話などが行われるのが一般的である。しかし、音声通話などに必要な構成は、本発明の実施形態に係る遠隔作業支援システム１の構成の説明に関与しないため、音声通話などに必要な構成の説明は省略する。

【0026】

図１に示されるように、作業者側システムは、ＡＲディスプレイ１１と、カメラ１２と、位置姿勢計測部１３と、演算処理部１４と、スピーカ１５と、音声処理部１６とを備える。一方、図１に示されるように、指示者側システムは、ディスプレイ２１と、ジェスチャ入力装置２２と、演算処理部２４と、マイクロフォン２５と、ジェスチャ認識装置２６と、音声認識装置２７とを備える。

【0027】

（ＡＲディスプレイ１１）
ＡＲディスプレイ１１は、ジェスチャの表示を行う。より詳細に、ＡＲディスプレイ１１は、作業者の視界にジェスチャを重畳表示する。ＡＲディスプレイ１１は、作業者に装着される。例えば、ＡＲディスプレイ１１は、作業者の頭部に装着されるヘッドマウントディスプレイであってよい。しかし、ＡＲディスプレイ１１の種類はヘッドマウントディスプレイに限定されない。例えば、ＡＲディスプレイ１１は、ヘッドマウントディスプレイ以外のディスプレイであってもよい。

【0028】

（カメラ１２）
カメラ１２は、作業者の環境を撮像することにより動画像（以下、単に「動画」とも言う。）を得る。カメラ１２は、作業者の視線方向と同じ方向を向くように設けられているのが望ましい。したがって、カメラ１２は、ＡＲディスプレイ１１と一体化されているのが望ましい。しかし、カメラ１２は、ＡＲディスプレイ１１とは別個のハードウェアとして構成されてもよい。

【0029】

（位置姿勢計測部１３）
位置姿勢計測部１３は、カメラ１２の位置および方向を計測する。例えば、カメラ１２の内部にセンサが組み込まれている場合には、位置姿勢計測部１３は、カメラ１２の内部に組み込まれているセンサによって検出されたセンサデータに基づいて、カメラ１２の位置および方向を計測してもよい。センサは、加速度センサまたはジャイロセンサなどであってよいが、センサの種類は特に限定されない。

【0030】

例えば、位置姿勢計測部１３は、作業者の環境に設置された二次元マーカを計測するセンサを含んでもよい。このとき、位置姿勢計測部１３は、計測した二次元マーカの形状に基づいて、カメラ１２の位置および方向を計測してもよい。あるいは、位置姿勢計測部１３は、カメラ１２の内部に組み込まれているセンサによって検出されたセンサデータに基づいてカメラ１２の位置および方向を計測する手法と、計測した二次元マーカの形状に基づいてカメラ１２の位置および方向を計測する手法とを組み合わせて用いてもよい。

【0031】

（演算処理部１４）
演算処理部１４は、コンピュータによって実現され、各種の演算処理を行う作業者側装置として機能する。例えば、演算処理部１４は、演算処理部２４からジェスチャ情報を取得するジェスチャ取得部、演算処理部２４から切り替え信号を取得する信号取得部、作業者の視界にジェスチャが表示されるようにＡＲディスプレイ１１を制御する提示制御部として機能し得る。

【0032】

また、演算処理部１４は、指示者側システムにおける演算処理部２４との間における通信インタフェースによる通信を制御する処理などを行う。例えば、演算処理部１４は、カメラ１２によって得られた動画または静止画像（以下、単に「静止画」とも言う。）の演算処理部２４への送信を制御する送信制御部として機能し得る。

【0033】

例えば、演算処理部１４は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置を含み、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）により記憶されているプログラムが演算装置によりＲＡＭに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

【0034】

（スピーカ１５）
スピーカ１５は、指示者から入力された指示音声を、音声処理部１６を通さずに出力する。あるいは、スピーカ１５は、指示者から入力された指示音声を、音声処理部１６を通して出力する。なお、スピーカ１５から出力される指示音声の仮想的な出力位置が制御可能となるように、スピーカ１５は、ステレオ方式のスピーカまたはアレイ方式のスピーカによって構成される。

【0035】

（音声処理部１６）
音声処理部１６は、位置データおよび音声データを取得し、あたかもその位置から音声が出力されているように音声を作業者に聞こえさせる処理を行う。かかる処理として、典型的にはＨＲＴＦ（非特許文献：頭部伝達関数の基礎と３次元音響システムへの応用日本音響学会編飯田一博著コロナ社）が用いられてよい。より詳細に、音声処理部１６は、指示音声を演算処理部１４から取得し、取得した指示音声のスピーカ１５による仮想的な出力位置からの出力を制御する。なお、指示音声は、音声処理部１６による処理が行われずに、そのままスピーカ１５から出力されることもあり得る。

【0036】

（ディスプレイ２１）
ディスプレイ２１は、カメラ１２によって得られた動画を表示し得る。また、ディスプレイ２１は、カメラ１２によって得られた動画に基づくスナップショットを静止画として表示し得る。これによって、指示者は、作業者の環境を見ることができる。さらに、ディスプレイ２１は、指示者のジェスチャを表示し得る。これによって、指示者は、どのようなジェスチャが作業者に伝達されているかを確認することができる。

【0037】

（ジェスチャ入力装置２２）
ジェスチャ入力装置２２は、指示者から入力されるジェスチャを受け付ける入力装置である。ジェスチャ入力装置２２は、受け付けたジェスチャを演算処理部２４に出力する。さらに、ジェスチャ入力装置２２は、受け付けたジェスチャをジェスチャ認識装置２６に出力する。なお、ジェスチャ入力装置２２は、センサの一例に該当し得る。すなわち、ジェスチャ入力装置２２は、センサデータ（第１のセンサデータ）の一例としてのジェスチャを検出する。

【0038】

例えば、ジェスチャ入力装置２２は、光学的機器によって実現されてもよい。かかる光学的機器としては、Ｕｌｔｒａｌｅａｐ社によって開発されたＬｅａｐＭｏｔｉｏｎ（登録商標）などが用いられ得る。ＬｅａｐＭｏｔｉｏｎ（登録商標）は、複数のＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）によって手に照射された赤外線の赤外線ステレオカメラによる検出結果に基づいて、手の動きをトラッキングする技術である。あるいは、ジェスチャ入力装置２２は、指示者によって装着される入力装置（例えば、センサグローブなど）によって実現されてもよい。

【0039】

ジェスチャの表現形式は、ジェスチャを複数の三次元座標を含んだ構造によって表現可能であり、ジェスチャを三次元空間内に再現可能であれば、任意の表現形式であってよい。例えば、ジェスチャは、骨組みの端点データによって表現されてもよいし、表皮のメッシュデータによって表現されてもよい。

【0040】

（マイクロフォン２５）
マイクロフォン２５は、指示者から入力される音声を受け付ける。マイクロフォン２５は、受け付けた音声を指示音声として演算処理部２４に出力する。さらに、マイクロフォン２５は、受け付けた音声を音声認識装置２７に出力する。なお、マイクロフォン２５は、センサの一例に該当し得る。すなわち、マイクロフォン２５は、センサデータ（第１のセンサデータ）の一例としての音声を検出する。

【0041】

（ジェスチャ認識装置２６）
ジェスチャ認識装置２６は、ジェスチャ入力装置２２によって受け付けられたジェスチャに対してジェスチャ認識を実行し、当該ジェスチャから特定の入力パターンが認識されるかを試みる。例えば、特定の入力パターンは、あらかじめ定められたジェスチャパターン（例えば、あらかじめ定められた１または複数のジェスチャ動作など）であってもよい。例えば、あらかじめ定められたジェスチャ動作は、切り替えを示す１または複数のジェスチャ動作であってもよい。

【0042】

ジェスチャ認識装置２６は、コンピュータによって実現され、指示者側装置として機能する。例えば、ジェスチャ認識装置２６は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置を含み、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）により記憶されているプログラムが演算装置によりＲＡＭに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

【0043】

（音声認識装置２７）
音声認識装置２７は、マイクロフォン２５によって受け付けられた音声に対して音声認識を実行し、当該音声から特定の入力パターンが認識されるかを試みる。例えば、特定の入力パターンは、あらかじめ定められた音声パターン（例えば、あらかじめ定められた１または複数の語句など）であってもよい。例えば、あらかじめ定められた語句は、切り替えを示す１または複数の語句であってもよい。

【0044】

音声認識装置２７は、コンピュータによって実現され、指示者側装置として機能する。例えば、音声認識装置２７は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置を含み、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）により記憶されているプログラムが演算装置によりＲＡＭに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

【0045】

（演算処理部２４）
演算処理部２４は、コンピュータによって実現され、各種の演算処理を行う指示者側装置として機能する。例えば、演算処理部２４は、認識部（例えば、ジェスチャ認識装置２６または音声認識装置２７）によって特定の入力パターンが認識されたことに基づいて、切り替え信号を演算処理部１４に出力する切り替え信号出力部として機能し得る。

【0046】

なお、切り替え信号は、二つの状態の一方から他方への切り替えを示す信号である。本発明の実施形態においては、切り替え信号が、カメラ１２によって得られた動画がディスプレイ２１によって表示される状態（以下、「動画状態」とも言う。）、および、カメラ１２によって得られた動画に基づくスナップショットが静止画としてディスプレイ２１によって表示される状態（以下、「静止画状態」とも言う。）のいずれかを示す場合を主に想定する。

【0047】

また、演算処理部２４は、ジェスチャのディスプレイ２１による表示を制御するとともに静止画または動画のディスプレイ２１による表示を制御する画像表示制御部として機能し得る。また、演算処理部２４は、作業者側システムにおける演算処理部１４との間における通信インタフェースによる通信を制御する処理などを行う。

【0048】

例えば、演算処理部２４は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置を含み、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）により記憶されているプログラムが演算装置によりＲＡＭに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

【0049】

（ネットワーク３０）
ネットワーク３０は、作業者側システムと指示者側システムとを接続する。そして、ネットワーク３０は、作業者側システムと指示者側システムとの間における通信路として機能し得る。

【0050】

以上、本発明の実施形態に係る遠隔作業支援システム１の構成例について説明した。

【0051】

（１－２．遠隔作業支援システムの動作）
続いて、図１～図３を参照しながら、本発明の実施形態に係る遠隔作業支援システム１の動作例について説明する。

【0052】

なお、音声通話などの動作は、本発明の実施形態に係る遠隔作業支援システム１の動作の説明に関与しないため、音声通話などの動作の説明は省略する。さらに、通信の遅延などは無視できるほど小さいものとする。

【0053】

上記したように、遠隔作業支援システム１は、動画状態および静止画状態のいずれかの状態をとり得る。遠隔作業支援システム１の状態は、切り替え信号に基づいて切り替えられる。動画状態においては、カメラ１２によって得られた動画がディスプレイ２１によって表示される。一方、静止画状態においては、切り替えられたタイミングにおける動画のスナップショットが静止画としてディスプレイ２１によって表示される。

【0054】

図２は、遠隔作業支援システム１の静止画状態から動画状態への切り替え動作例を示すフローチャートである。図３は、遠隔作業支援システム１の動画状態から静止画状態への切り替え動作例を示すフローチャートである。まず、図２を主に参照しながら、静止画状態から動画状態への切り替え動作例を説明し、続いて、図３を主に参照しながら、動画状態から静止画状態への切り替え動作例を説明する。

【0055】

ここで、指示者側システムから作業者側システムには、ジェスチャ入力装置２２によって指示者からの入力が受け付けられたジェスチャ情報が送信される。ジェスチャ情報には、基準位置からのジェスチャの変位（手の各特徴点の変位）を示す情報が含まれ得る。

【0056】

作業者側システムにおいて、演算処理部１４は、基準位置および基準方向とジェスチャ情報とに基づいてジェスチャが配置されるようにＡＲディスプレイ１１を制御する。一方、指示者側システムにおいて、演算処理部２４は、ジェスチャ情報に基づいてジェスチャが表示されるようにディスプレイ２１を制御する。

【0057】

さらに、指示者側システムにおいては、マイクロフォン２５によって指示音声が受け付けられ、演算処理部２４に出力される。そして、演算処理部２４から作業者側システムにおける演算処理部１４に、指示音声がネットワーク３０を介して常時送信される。演算処理部１４は、指示音声を常時取得する。

【0058】

（静止画状態から動画状態への切り替え動作）
静止画状態においては、ジェスチャが配置される基準位置および基準方向が、カメラ１２の位置および方向に追従しない。すなわち、静止画状態においては、作業者側システムにおいてジェスチャが配置される基準位置および基準方向が、動画状態から静止画状態への切り替えられたタイミングに記録されたカメラ１２の位置および方向に固定される。

【0059】

指示者側システムにおいて、ジェスチャ認識装置２６は、ジェスチャ入力装置２２によって受け付けられた指示者のジェスチャから第１のジェスチャパターン（静止画状態から動画状態への切り替えを示すジェスチャパターン）が認識されるかを試みる。特定のジェスチャパターンは、具体的にどのようなジェスチャパターンであってもよい。なお、静止画状態から動画状態への切り替えを示すジェスチャパターンと動画状態から静止画状態への切り替えを示すジェスチャパターンとは、同じであってもよいが、二つの切り替え指示を別々に認識するためには異なるのが望ましい。

【0060】

あるいは、音声認識装置２７は、マイクロフォン２５によって受け付けられた指示者の音声から特定の音声パターン（静止画状態から動画状態への切り替えを示す音声パターン）が認識されるかを試みる。特定の音声パターンは、具体的にどのような音声パターンであってもよい。なお、静止画状態から動画状態への切り替えを示す音声パターンと動画状態から静止画状態への切り替えを示す音声パターンとは、同じであってもよいが、二つの切り替え指示を別々に認識するためには異なるのが望ましい。

【0061】

演算処理部２４は、ジェスチャ認識装置２６によって第１のジェスチャパターンが認識されたか否かによって、指示者から静止画状態から動画状態への切り替え指示が入力されたか否かを判定する（Ｓ１１）。あるいは、演算処理部２４は、音声認識装置２７によって特定の音声パターンが認識されたか否かによって、指示者から静止画状態から動画状態への切り替え指示が入力されたか否かを判定する。

【0062】

図２に示されるように、演算処理部２４は、静止画状態から動画状態への切り替え指示が入力されていない場合には（Ｓ１１において「ＮＯ」）、Ｓ１１に動作を移行する。一方、演算処理部２４は、静止画状態から動画状態への切り替え指示が入力された場合には（Ｓ１１において「ＹＥＳ」）、作業者側システムにおける演算処理部１４に、静止画状態から動画状態への切り替え信号を、ネットワーク３０を介して通知する（Ｓ１２）。

【0063】

作業者側システムにおいて、演算処理部１４は、静止画状態から動画状態への切り替え信号を受け取ると、ＡＲディスプレイ１１によってジェスチャが配置される基準位置を位置姿勢計測部１３によって計測されるカメラ１２の位置に追従させるとともに、ＡＲディスプレイ１１によってジェスチャが配置される基準方向を位置姿勢計測部１３によって計測されるカメラ１２の方向に追従させる。

【0064】

さらに、演算処理部１４は、音声処理部１６を無効化し（すなわち、音声処理部１６の動作を停止し）、取得した指示音声をそのままスピーカ１５から出力させる（Ｓ３１）。

【0065】

さらに、演算処理部２４は、ディスプレイ２１によって表示されている静止画があれば、その静止画を消去する（Ｓ１３）。そして、演算処理部２４は、カメラ１２によって得られた動画が演算処理部１４から送信されると、送信された動画のディスプレイ２１による表示が再開されるようにディスプレイ２１を制御する（Ｓ１４）。

【0066】

（動画状態から静止画状態への切り替え動作）
動画状態においては、ジェスチャが配置される基準位置および基準方向が、カメラ１２の位置および方向に追従する。

【0067】

指示者側システムにおいて、ジェスチャ認識装置２６は、ジェスチャ入力装置２２によって受け付けられた指示者のジェスチャから第１のジェスチャパターン（動画状態から静止画状態への切り替えを示すジェスチャパターン）が認識されるかを試みる。なお、上記したように、静止画状態から動画状態への切り替えを示すジェスチャパターンと動画状態から静止画状態への切り替えを示すジェスチャパターンとは、同じであってもよいが、二つの切り替え指示を別々に認識するためには異なるのが望ましい。

【0068】

あるいは、音声認識装置２７は、マイクロフォン２５によって受け付けられた指示者の音声から特定の音声パターン（動画状態から静止画状態への切り替えを示す音声パターン）が認識されるかを試みる。なお、上記したように、動画状態から静止画状態への切り替えを示す音声パターンと静止画状態から動画状態への切り替えを示す音声パターンとは、同じであってもよいが、二つの切り替え指示を別々に認識するためには異なるのが望ましい。

【0069】

演算処理部２４は、ジェスチャ認識装置２６によって第１のジェスチャパターンが認識されたか否かによって、指示者から動画状態から静止画状態への切り替え指示が入力されたか否かを判定する（Ｓ２１）。あるいは、演算処理部２４は、音声認識装置２７によって特定の音声パターンが認識されたか否かによって、指示者から動画状態から静止画状態への切り替え指示が入力されたか否かを判定する。

【0070】

演算処理部２４は、動画状態から静止画状態への切り替え指示が入力されていない場合には（Ｓ２１において「ＮＯ」）、Ｓ２１に動作を移行する。一方、演算処理部２４は、動画状態から静止画状態への切り替え指示が入力された場合には（Ｓ２１において「ＹＥＳ」）、作業者側システムにおける演算処理部１４に、静止画状態から動画状態への切り替え信号を、ネットワーク３０を介して通知する（Ｓ２２）。

【0071】

作業者側システムにおいて、演算処理部１４は、静止画状態から動画状態への切り替え信号を受け取ると、静止画状態から動画状態への切り替えられたタイミングにおけるカメラ１２の位置および方向を記録するとともに（Ｓ２６）、ＡＲディスプレイ１１によってジェスチャの配置に用いられる基準位置および基準方向を、記録した動画状態から静止画状態への切り替えられたタイミングにおけるカメラ１２の位置および方向に固定する。

【0072】

また、演算処理部１４は、音声処理部１６を有効化する（すなわち、音声処理部１６の動作を開始する）（Ｓ４１）。これによって、音声処理部１６は、指示音声に対する処理（例えば、ＨＲＴＦなどを用いた処理など）によって、ジェスチャが配置される基準位置から指示音声が出力されているかのようにスピーカ１５から指示音声を出力させる。

【0073】

さらに、演算処理部２４は、カメラ１２によって得られた動画のスナップショットを静止画として作成する（Ｓ２３）。

【0074】

演算処理部２４は、ディスプレイ２１によって表示されている動画があれば、その動画を消去する（Ｓ２４）。そして、演算処理部２４は、生成した静止画のディスプレイ２１による表示が再開されるようにディスプレイ２１を制御する（Ｓ２５）。

【0075】

以上、静止画状態から動画状態への切り替え動作例、および、動画状態から静止画状態への切り替え動作例について説明した。続いて、ジェスチャが配置される基準位置および基準方向についてさらに詳細に説明する。

【0076】

（１－３．ジェスチャが配置される基準位置および基準方向）
ジェスチャ入力装置２２によって指示者からの入力が受け付けられたジェスチャ情報は、指示者の環境における固有の座標系における位置および方向などによって表現される情報である。かかるジェスチャ情報に基づいて作業者の環境におけるＡＲディスプレイ１１にジェスチャを表示させるためには、指示者側の座標系（変換元の座標系）から作業者側の座標系（変換先の座標系）へのジェスチャ情報の座標変換が必要となる。

【0077】

ここでは、変換先の座標系の例として、比較例１（ワールド座標系）、比較例２（カメラ座標系）、本実施形態に係る座標系について順に説明する。ここでは、説明を簡単にするため、ジェスチャの位置は固定されているものとする。

【0078】

（比較例１（ワールド座標系））
図４は、比較例１に係るジェスチャ情報の変換先の座標系について説明するための図である。図４を参照すると、初期状態における作業者環境Ｅ１１が示されている。初期状態における作業者環境Ｅ１１には、作業対象Ｒ１が存在している。作業対象Ｒ１は、作業者による作業の対象となる物体である。

【0079】

ここでは、図の見やすさを考慮して、作業対象Ｒ１が、「表」と「裏」を有する正方形の平面として示されている。しかし、作業対象Ｒ１の形状は限定されない。典型的には、作業対象Ｒ１は、ＡＴＭ（ＡｕｔｏｍａｔｅｄＴｅｌｌｅｒＭａｃｈｉｎｅ）またはプリンタなどといった機械である場合が想定されるが、作業対象Ｒ１は、機械でなくてもよく作業に使われる何らかの物体であればよい。

【0080】

さらに、初期状態における作業者環境Ｅ１１には、カメラ１２が存在しており、カメラ１２によって得られた動画が指示者側の画面１２１ａに表示される。指示者側の画面１２１ａに表示されている動画には作業対象Ｒ１が写っている。指示者は、初期状態における作業者環境Ｅ１１の動画を見ながら、ジェスチャ情報を入力する。指示者側の画面１２１ａには、ジェスチャ情報に基づいてジェスチャＪ１が表示されている。

【0081】

初期状態における作業者環境Ｅ１１を参照すると、ワールド座標系Ｃ１およびカメラ座標系Ｃ２が示されている。指示者によって入力されたジェスチャ情報に基づいて、ワールド座標系Ｃ１にジェスチャＪ１が配置されるように作業者側のＡＲディスプレイが制御される。作業者は、ワールド座標系Ｃ１に配置されたジェスチャＪ１を見ながら、作業対象Ｒ１に対して作業を行うことができる。

【0082】

ここで、作業者環境Ｅ１２に示されるように、作業者が作業対象Ｒ１の背面に移動したとする。ワールド座標系Ｃ１におけるジェスチャＪ１の位置および方向は固定されている。

【0083】

このとき、作業対象Ｒ１の「裏」およびジェスチャＪ１が指示者側の画面１２２ａに表示される。しかし、作業者の移動量および移動方向に合わせてジェスチャＪ１の位置および方向も変化する。そのため、指示者は、表示されるジェスチャＪ１と比較して位置および方向が変化する前（１８０度回転する前）のジェスチャを入力する必要が生じるため、指示者はジェスチャ入力をしにくくなる。

【0084】

一方、作業者環境Ｅ１３に示されるように、作業者が作業対象Ｒ１の奥側に移動したとする。ワールド座標系Ｃ１におけるジェスチャＪ１の位置および方向は固定されている。

【0085】

このとき、ワールド座標系Ｃ１におけるジェスチャＪ１の位置および方向は固定されてしまっているため、ジェスチャＪ１が作業者の後方に位置してしまい、作業者からはジェスチャＪ１が見えなくなってしまう。例えば、次の作業位置へ向かうためのジェスチャ情報を指示者が入力したとしても、作業者はそのジェスチャを見ることができずに、次の作業位置を知ることができなくなってしまう。

【0086】

以上により、比較例１は、あらかじめ作成された作業マニュアルなどを表示する場合などには好適である。しかし、比較例１では、作業者の移動に伴って指示者によるジェスチャが見えなくなってしまうことがあるため、リアルタイムに作業指示を行う必要がある場合などには好適ではないと言える。

【0087】

以上、比較例１に係るジェスチャ情報の変換先の座標系について説明した。

【0088】

（比較例２（カメラ座標系））
図５は、比較例２に係るジェスチャ情報の変換先の座標系について説明するための図である。図５を参照すると、図４に示された例と同様に、初期状態における作業者環境Ｅ２１が示されている。初期状態における作業者環境Ｅ２１には、作業対象Ｒ１が存在している。

【0089】

さらに、カメラ１２によって得られた動画が指示者側の画面１２３ａに表示される。指示者側の画面１２３ａに表示されている動画には作業対象Ｒ１が写っている。指示者は、初期状態における作業者環境Ｅ１１の動画を見ながら、ジェスチャ情報を入力する。指示者側の画面１２３ａには、ジェスチャ情報に基づいてジェスチャＪ１が表示されている。

【0090】

比較例２においては、指示者によって入力されたジェスチャ情報に基づいて、カメラ座標系Ｃ２にジェスチャＪ１が配置されるように作業者側のＡＲディスプレイが制御される。作業者は、カメラ座標系Ｃ２に配置されたジェスチャＪ１を見ながら、作業対象Ｒ１に対して作業を行うことができる。

【0091】

ここで、作業者環境Ｅ２２に示されるように、作業者が作業対象Ｒ１の背面に移動したとする。比較例１と異なり、ワールド座標系Ｃ１におけるジェスチャＪ１の位置および方向は変化するが、カメラ座標系Ｃ２におけるジェスチャＪ１の位置および方向は固定されている。

【0092】

このとき、作業対象Ｒ１の「裏」およびジェスチャＪ１が指示者側の画面１２４ａに表示される。このとき、作業者が移動しているにも関わらず、画面１２４ａに表示されるジェスチャＪ１の位置および方向は固定される。そのため、指示者は、表示されるジェスチャＪ１と同じ位置および方向によってジェスチャを入力すれば済むため、指示者はジェスチャ入力をしやすい。

【0093】

しかし、カメラ座標系Ｃ２におけるジェスチャＪ１の位置および方向は固定されるため、作業者から見えるジェスチャＪ１の位置および方向は一定である。そのため、作業者は、ジェスチャＪ１の見える位置または角度を変更することができなくなってしまう（例えば、ジェスチャＪ１を上方から俯瞰的に見ることができなくなってしまう）。

【0094】

一方、作業者環境Ｅ２３に示されるように、作業者が作業対象Ｒ１の奥側に移動したとする。このとき、ワールド座標系Ｃ１におけるジェスチャＪ１の位置および方向は変化するが、カメラ座標系Ｃ２におけるジェスチャＪ１の位置および方向は固定されている。このとき、指示者側の画面１２５ａに表示されるジェスチャＪ１の位置および方向は固定される。

【0095】

さらに、カメラ座標系Ｃ２におけるジェスチャＪ１の位置は固定されているため、ジェスチャＪ１が作業者の前方に位置し続け、作業者からはジェスチャＪ１が見えなくなってしまうことがなくなる。例えば、次の作業位置へ向かうためのジェスチャ情報を指示者が入力した場合に、作業者はそのジェスチャを見て、次の作業位置を知ることができる。

【0096】

以上により、比較例２は、作業者の移動に伴って指示者によるジェスチャが見えなくなってしまうことがなくなるため、リアルタイムに作業指示を行う必要がある場合などには好適である。しかし、比較例２では、作業者から見えるジェスチャの位置および角度が変更されないため、ＡＲ技術を用いてジェスチャを表示する利点が損なわれてしまうと言える。

【0097】

以上、比較例２に係るジェスチャ情報の変換先の座標系について説明した。

【0098】

（本実施形態に係る座標系）
図６は、本発明の実施形態に係るジェスチャ情報の変換先の座標系について説明するための図である。図６を参照すると、図４に示された例と同様に、初期状態における作業者環境Ｅ３１が示されている。初期状態における作業者環境Ｅ３１には、作業対象Ｒ１が存在している。初期状態においては、遠隔作業支援システム１の状態が動画状態である場合を想定する。一例として、動画状態においては、指示者が作業者に作業位置をジェスチャによって指示する。

【0099】

なお、マイクロフォン２５によって受け付けられた指示音声が、演算処理部２４からネットワーク３０を介して演算処理部１４に常時送信される。

【0100】

遠隔作業支援システム１の状態が動画状態である場合においては、演算処理部２４は、カメラ１２によって得られた動画が指示者側の画面１２６ａに表示されるように制御する。指示者側の画面１２６ａに表示されている動画には作業対象Ｒ１が写っている。指示者は、初期状態における作業者環境Ｅ３１の動画を見ながら、ジェスチャ情報を入力する。指示者側の画面１２６ａには、ジェスチャ情報に基づいてジェスチャＪ１が表示されている。

【0101】

演算処理部１４は、ジェスチャ情報を演算処理部２４から取得する。遠隔作業支援システム１の状態が動画状態である場合において、演算処理部１４は、カメラ１２の位置および方向を基準位置および基準方向（第２の基準位置および第２の基準方向）としたカメラ座標系Ｃ２（第２の座標系）にジェスチャＪ１が配置されるようにＡＲディスプレイ１１を制御する手法（第２の手法）を採用する。作業者は、カメラ座標系Ｃ２に配置されたジェスチャＪ１を見ながら、作業位置に向かうことができる。

【0102】

さらに、遠隔作業支援システム１の状態が動画状態である場合においては、作業者の視点と指示者の視点とが同じである。そこで、遠隔作業支援システム１の状態が動画状態である場合において、作業者環境Ｅ３１に示されるように、演算処理部１４は、指示者側システムにおける演算処理部２４から受信した指示音声を音声処理部１６に処理させずに、そのままスピーカ１５から出力させる。

【0103】

一例として、指示者が作業位置を指示するのを終了し、作業対象Ｒ１への作業内容をジェスチャによって指示し始める場合を想定する。このとき、指示者は、動画状態から静止画状態への切り替え（すなわち、第２の手法から第１の手法への切り替え）を示す切り替え指示をジェスチャパターンまたは音声パターンによって入力する。かかる切り替え指示が入力されると、動画状態から静止画状態への切り替えを示す切り替え信号が、演算処理部２４から演算処理部１４に通知される。

【0104】

演算処理部１４は、動画状態から静止画状態への切り替えを示す切り替え信号を取得すると、かかる切り替え信号を取得したことに基づいて、動画状態から静止画状態への切り替えを示す切り替え信号を取得したタイミングにおけるカメラ１２の位置および方向を、ジェスチャの配置に用いられる基準位置Ｃ３および基準方向（第１の基準位置および第１の基準方向）として記録する。なお、切り替え信号を取得したタイミングは、所定のタイミングの一例である。

【0105】

作業者環境Ｅ３２に示されるように、作業者が作業対象Ｒ１の背面に移動したとする。位置姿勢計測部１３は、演算処理部１４によって記録された基準位置および基準方向を基準とした作業者の移動量および移動方向を計測する。

【0106】

演算処理部１４は、記録した基準位置および基準方向を基準とする座標系（第１の座標系）に、位置姿勢計測部１３によって計測された作業者の移動量および移動方向に基づいて、ジェスチャＪ１が配置されるようにＡＲディスプレイ１１を制御する手法（第１の手法）を採用する。換言すると、演算処理部１４は、ＡＲ空間における基準位置および基準方向にジェスチャＪ１を配置する。

【0107】

このとき、画面１２７ａに示されるように、ＡＲディスプレイ１１には、ワールド座標系Ｃ１におけるジェスチャＪ１の位置および方向は固定されながら、記録された基準位置および基準方向から、作業者の移動量および移動方向だけ移動および回転した位置および方向から見えるジェスチャＪ１の位置および方向に、ジェスチャＪ１が表示される。なお、画面１２７ａに存在する作業対象Ｒ１の「裏」は、スルー画像であってもよいし、実物であってもよい。

【0108】

演算処理部１４は、記録した基準位置および基準方向を基準とする座標系に、位置姿勢計測部１３によって計測された作業者の移動量および移動方向に基づいて、指示音声の仮想的な出力位置および仮想的な出力方向を決定する。換言すると、演算処理部１４は、ＡＲ空間における基準位置および基準方向を指示音声の仮想的な出力位置および出力方向として決定する。

【0109】

音声処理部１６は、演算処理部１４によって決定された仮想的な出力位置から仮想的な出力方向に出力されているかのように（仮想的なスピーカＫ１から出力されているかのように）スピーカ１５による指示音声の出力を制御する。この仮想的な出力位置は、指示者の視点に該当し得る。したがって、作業者は、指示音声によって指示者の視点を認識することができ、臨場感を体感しながら指示を理解することが可能となる。

【0110】

このとき、作業者環境Ｅ３２に示されるように、基準位置および基準方向はワールド座標系Ｃ１に固定されながら、基準位置および基準方向から、作業者の移動量および移動方向だけ移動および回転した位置および方向から見える基準位置および基準方向から、指示音声が出力されているかのように指示音声が出力される。

【0111】

一方、指示者側システムにおいて、演算処理部２４は、動画状態から静止画状態への切り替えを示す切り替え信号が入力されたタイミングにおける動画のスナップショットを静止画として生成する。そして、画面１２７ｂに示されるように、演算処理部２４は、生成した静止画がディスプレイ２１に表示されるように制御する。指示者側の画面１２７ｂには、ジェスチャ情報に基づいてジェスチャＪ１が表示されている。

【0112】

このとき、作業者が移動しているにも関わらず、画面１２７ｂに表示されるジェスチャＪ１の位置および方向は固定される。そのため、指示者は、表示されるジェスチャＪ１と同じ位置および方向によってジェスチャを入力すれば済むため、指示者はジェスチャ入力をしやすい。

【0113】

さらに、作業者の移動に伴って作業者から見えるジェスチャＪ１の位置および方向は変化し得る。そのため、作業者は、ジェスチャＪ１の見える位置または角度を変更することができるようになる（例えば、ジェスチャＪ１を上方から俯瞰的に見ることができるようになる）。

【0114】

一方、作業者環境Ｅ３３に示されるように、作業者が作業対象Ｒ１の奥側に移動したとする。このとき、ワールド座標系Ｃ１におけるジェスチャＪ１の位置および方向は変化するが、カメラ座標系Ｃ２におけるジェスチャＪ１の位置および方向は固定されている。このとき、指示者側の画面１２８ａに表示されるジェスチャＪ１の位置および方向は固定される。

【0115】

したがって、比較例２と同様に、ジェスチャＪ１が作業者の前方に位置し続け、作業者からはジェスチャＪ１が見えなくなってしまうことがなくなる。例えば、次の作業位置へ向かうためのジェスチャ情報を指示者が入力した場合に、作業者はそのジェスチャを見て、次の作業位置を知ることができる。

【0116】

図６には示されていないが、指示者が、作業対象Ｒ１への作業内容をジェスチャによって指示するのを終了し、次の作業位置を指示し始める場合を想定する。このとき、指示者は、静止画状態から動画状態への切り替え（すなわち、第１の手法から第２の手法への切り替え）を示す切り替え指示をジェスチャパターンまたは音声パターンによって入力する。かかる切り替え指示が入力されると、静止画状態から動画状態への切り替えを示す切り替え信号が、演算処理部２４から演算処理部１４に通知される。

【0117】

演算処理部１４は、静止画状態から動画状態への切り替えを示す切り替え信号を取得すると、かかる切り替え信号を取得したことに基づいて、カメラ１２の位置および方向を基準位置および基準方向としたカメラ座標系Ｃ２にジェスチャＪ１が配置されるようにＡＲディスプレイ１１を制御する。作業者は、カメラ座標系Ｃ２に配置されたジェスチャＪ１を見ながら、作業位置に向かうことができる。

【0118】

さらに、遠隔作業支援システム１の状態が動画状態である場合においては、作業者の視点と指示者の視点とが同じである。そこで、遠隔作業支援システム１の状態が動画状態である場合において、作業者環境Ｅ３１にされるように、演算処理部１４は、指示者側システムにおける演算処理部２４から受信した指示音声を音声処理部１６に処理させずに、そのままスピーカ１５から出力させる。

【0119】

以上、ジェスチャが配置される基準位置および基準方向について詳細に説明した。

【0120】

（１－４．効果）
以上により、本発明の実施形態によれば、作業者から見えるジェスチャの位置および角度が変更され得るため、ＡＲ技術を用いてジェスチャを表示する利点が損なわれずに済む。さらに、本発明の実施形態によれば、作業者の移動に伴って指示者によるジェスチャが見えなくなってしまうことがなくなる。そのため、本発明の実施形態に係る技術は、リアルタイムに作業指示を行う必要がある場合などに好適である。

【0121】

さらに、本発明の実施形態によれば、遠隔作業支援システム１の状態が静止画状態である場合において、指示音声の仮想的な出力位置が指示者の視点となるように制御されるため、作業者は、指示音声によって指示者の視点を把握することが可能である。

【0122】

また、本発明の実施形態によれば、動画状態と静止画状態との間の切り替え指示が音声またはジェスチャによって行われ得る。そのため、指示者は、動画状態と静止画状態との間の切り替え指示を行いたいときに、切り替えスイッチに手を伸ばす必要がなくなる。これによって、切り替え指示の度に、指示者によるジェスチャ指示が途切れてしまうことがなくなる（あるいは、指示者によるジェスチャ指示が途切れてしまう時間を短くすることが可能となる）。

【0123】

以上、本発明の実施形態に係る遠隔作業支援システム１が奏する効果について説明した。

【0124】

（２．ハードウェア構成例）
続いて、本発明の実施形態に係る作業者側システムのハードウェア構成例について説明する。

【0125】

以下では、本発明の実施形態に係る指示者側システムのハードウェア構成例として、情報処理装置９００のハードウェア構成例について説明する。なお、以下に説明する情報処理装置９００のハードウェア構成例は、指示者側システムのハードウェア構成の一例に過ぎない。したがって、指示者側システムのハードウェア構成は、以下に説明する情報処理装置９００のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。なお、作業者側システムのハードウェア構成も、指示者側システムのハードウェア構成と同様に実現され得る。

【0126】

図７は、本発明の実施形態に係る指示者側システムの例としての情報処理装置９００のハードウェア構成を示す図である。情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、出力装置９０９と、ストレージ装置９１０と、通信装置９１１と、を備える。

【0127】

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバス等から構成されるホストバス９０４により相互に接続されている。

【0128】

ホストバス９０４は、ブリッジ９０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９０６に接続されている。なお、必ずしもホストバス９０４、ブリッジ９０５および外部バス９０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

【0129】

入力装置９０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路等から構成されている。情報処理装置９００を操作するユーザは、この入力装置９０８を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

【0130】

出力装置９０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。

【0131】

ストレージ装置９１０は、データ格納用の装置である。ストレージ装置９１０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置９１０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）で構成される。このストレージ装置９１０は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

【0132】

通信装置９１１は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１１は、無線通信または有線通信のどちらに対応してもよい。

【0133】

以上、本発明の実施形態に係る指示者側システムのハードウェア構成例について説明した。

【0134】

（３．まとめ）
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

【0135】

例えば、上記では、指示者および作業者それぞれが一人ずつである場合について説明した。しかし、指示者は複数存在してもよい。かかる場合には、複数の指示者それぞれによるジェスチャが扱われてもよい。あるいは、作業者は複数存在してもよい。かかる場合には、ジェスチャが配置されるカメラ座標系に対応するカメラが指定されることによって、指定されたカメラの作業者に対してジェスチャが提示されてもよい。

【0136】

また、上記では、切り替え信号に基づいて、ジェスチャが配置される基準位置および基準方向が切り替えられる場合について主に説明した。しかし、切り替え信号に基づいて、ジェスチャ以外の対象（例えば、指示書きなど）が配置される基準位置および基準方向も、ジェスチャが配置される基準位置および基準方向と同様にして切り替えられてもよい。

【0137】

また、上記では、切り替え信号が動画像から静止画への切り替えを示す場合に、指示者側システムにおける演算処理部２４が、動画からスナップショットを作成し、作成したスナップショットが静止画としてディスプレイ２１によって表示されるように制御する場合について主に説明した。しかし、演算処理部２４は、静止画とともに動画をディスプレイ２１に表示させてもよい。このとき、静止画と動画とは、並置されてもよい。

【0138】

あるいは、静止画状態においては、静止画と動画とは並置されなくてもよい。このとき、動画からスナップショットを作成する処理は、指示者側システムにおける演算処理部２４の代わりに、作業者側システムにおける演算処理部１４によって行われてもよい。かかる場合には、作業者側システムにおいては、カメラ１２による動画撮影が停止され、作業者側システムから指示者側システムには、動画の送信が停止されてもよい。これによって、カメラ１２による消費電力が低減され得る他、通信帯域が低減され得る。

【0139】

上記では、仮想的な指示音声が配置される基準位置が、動画状態から静止画状態への切り替えを示す切り替え信号が取得されたタイミングにおけるカメラ１２の位置である場合を主に説明した。しかし、仮想的な指示音声が配置される基準位置は、切り替え信号が取得されたタイミングにおけるカメラ１２の位置からずれた位置（オフセットされた位置）とされてもよい。

【0140】

また、上記では、指示者のジェスチャおよび指示者の音声が、静止画状態と動画状態との間の切り替えのために別々に用いられる場合について主に想定した。しかし、静止画状態と動画状態との間の切り替えには、指示者のジェスチャおよび指示者の音声の組み合わせが用いられてもよい。

【0141】

例えば、ジェスチャ認識装置２６は、ジェスチャ入力装置２２によって受け付けられた指示者のジェスチャから、切り替えの禁止を示すジェスチャパターン（第２のジェスチャパターン）の認識を試みてもよい。切り替えの禁止を示すジェスチャパターンは、具体的にどのようなジェスチャパターンであってもよい。

【0142】

そして、演算処理部２４は、切り替えの禁止を示すジェスチャパターンが認識されたときには、音声認識装置２７によって特定の音声パターンが認識されたとしても、切り替え信号を演算処理部１４に出力しなくてもよい。すなわち、演算処理部２４は、音声認識装置２７によって特定の音声パターンが認識された場合に、切り替えの禁止を示すジェスチャパターンが認識されないときにのみ、切り替え信号を演算処理部１４に出力してもよい。

【0143】

あるいは、ジェスチャ認識装置２６は、ジェスチャ入力装置２２によって受け付けられた指示者のジェスチャから、切り替えの実行を示すジェスチャパターン（第３のジェスチャパターン）の認識を試みてもよい。切り替えの実行を示すジェスチャパターンは、具体的にどのようなジェスチャパターンであってもよい。

【0144】

そして、演算処理部２４は、切り替えの実行を示すジェスチャパターンが認識されないときには、音声認識装置２７によって特定の音声パターンが認識されたとしても、切り替え信号を演算処理部１４に出力しなくてもよい。すなわち、演算処理部２４は、音声認識装置２７によって特定の音声パターンが認識された場合に、切り替えの実行を示すジェスチャパターンが認識されたときにのみ、切り替え信号を演算処理部１４に出力してもよい。

【0145】

上記では、ジェスチャ認識装置２６によって第１のジェスチャパターンが認識された場合、または、音声認識装置２７によって特定の音声パターンが認識された場合に、演算処理部２４が、静止画像と動画像との間における切り替え信号を演算処理部１４に出力する場合を主に想定した。しかし、切り替え信号を演算処理部１４に出力するか否かは、追加的な条件も加味されて判定されてもよい。

【0146】

例えば、作業者の状態を検出するセンサ（例えば、加速度センサ、振動センサ、ジャイロセンサなど）と、かかるセンサデータ（第２のセンサデータ）から作業者の行動を認識する行動認識装置とが設けられていてもよい。例えば、センサは、作業者の身体に付されていてもよい（例えば、ＡＲディスプレイ１１に付されていてもよい）。行動認識装置は、作業者側システムに設けられてもよいし、指示者側システムに設けられてもよいし、作業者側システムおよび指示者側システムの外部に設けられてもよい。

【0147】

例えば、センサデータから認識される作業者の行動が作業者の移動中（例えば、歩行中など）を示す場合には、作業を行っていないことが想定される。したがって、かかる場合には、演算処理部２４は、動画像から静止画像への切り替えを示す入力パターンがジェスチャ認識装置２６または音声認識装置２７によって認識されたとしても、動画像から静止画像への切り替え信号を演算処理部１４に出力しなくてもよい。

【0148】

また、上記では、動画状態と静止画状態との間の切り替えのために、ジェスチャ認識装置２６および音声認識装置２７が専用に設けられる場合について主に想定した。しかし、動画状態と静止画状態との間の切り替え以外の機能（例えば、通信の切断、音量の変更など）を実現するために設けられているジェスチャ認識装置および音声認識装置が、動画状態と静止画状態との間の切り替えを行うためのジェスチャ認識装置２６および音声認識装置２７に流用されてもよい。

【符号の説明】

【0149】