IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2023-127176指示者側装置、方法およびプログラム
<>
  • 特開-指示者側装置、方法およびプログラム 図1
  • 特開-指示者側装置、方法およびプログラム 図2
  • 特開-指示者側装置、方法およびプログラム 図3
  • 特開-指示者側装置、方法およびプログラム 図4
  • 特開-指示者側装置、方法およびプログラム 図5
  • 特開-指示者側装置、方法およびプログラム 図6
  • 特開-指示者側装置、方法およびプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023127176
(43)【公開日】2023-09-13
(54)【発明の名称】指示者側装置、方法およびプログラム
(51)【国際特許分類】
   G06F 3/0484 20220101AFI20230906BHJP
   G06F 3/01 20060101ALI20230906BHJP
   G06F 3/16 20060101ALI20230906BHJP
【FI】
G06F3/0484
G06F3/01 570
G06F3/16 650
G06F3/16 620
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022030795
(22)【出願日】2022-03-01
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100140958
【弁理士】
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【弁理士】
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100190942
【弁理士】
【氏名又は名称】風間 竜司
(72)【発明者】
【氏名】渕上 正睦
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA16
5E555AA61
5E555BA01
5E555BA04
5E555BB01
5E555BB04
5E555BC04
5E555BE17
5E555CA42
5E555CA44
5E555CA47
5E555CB64
5E555CB66
5E555CB74
5E555CC01
5E555CC22
5E555DA08
5E555DA09
5E555DA23
5E555DB03
5E555DB53
5E555DB57
5E555DC05
5E555DC13
5E555EA14
5E555EA22
5E555EA23
5E555FA00
(57)【要約】
【課題】指示者から作業者への指示をより効果的に行うことを可能とする技術が提供されることが望まれる。
【解決手段】第1のセンサデータから特定の入力パターンを認識する認識部と、前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力する切り替え信号出力部と、指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御する画像表示制御部と、を備える、指示者側装置が提供される。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1のセンサデータから特定の入力パターンを認識する認識部と、
前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力する切り替え信号出力部と、
指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御する画像表示制御部と、
を備える、指示者側装置。
【請求項2】
前記第1のセンサデータは、ジェスチャを含み、
前記特定の入力パターンは、第1のジェスチャパターンを含む、
請求項1に記載の指示者側装置。
【請求項3】
前記第1のセンサデータは、音声を含み、
前記特定の入力パターンは、特定の音声パターンを含む、
請求項1または2に記載の指示者側装置。
【請求項4】
前記認識部は、指示者のジェスチャから第2のジェスチャパターンを認識し、
前記切り替え信号出力部は、前記第2のジェスチャパターンが認識されたときには、前記特定の音声パターンが認識されたとしても、前記切り替え信号を前記作業者側装置に出力しない、
請求項3に記載の指示者側装置。
【請求項5】
前記認識部は、指示者のジェスチャから第3のジェスチャパターンを認識し、
前記切り替え信号出力部は、前記第3のジェスチャパターンが認識されていないときには、前記特定の音声パターンが認識されたとしても、前記切り替え信号を前記作業者側装置に出力しない、
請求項3に記載の指示者側装置。
【請求項6】
前記切り替え信号出力部は、静止画像から動画像への切り替えを示す入力パターンが認識されたことに基づいて、静止画像から動画像への切り替え信号を前記作業者側装置に出力する、
請求項1~5のいずれか一項に記載の指示者側装置。
【請求項7】
前記切り替え信号出力部は、動画像から静止画像への切り替えを示す入力パターンが認識されたことに基づいて、動画像から静止画像への切り替え信号を前記作業者側装置に出力する、
請求項1~6のいずれか一項に記載の指示者側装置。
【請求項8】
前記切り替え信号出力部は、第2のセンサデータから認識される作業者の行動が前記作業者の移動中を示す場合には、動画像から静止画像への切り替えを示す入力パターンが認識されたとしても、動画像から静止画像への切り替え信号を前記作業者側装置に出力しない、
請求項7に記載の指示者側装置。
【請求項9】
第1のセンサデータから特定の入力パターンを認識することと、
前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力することと、
指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御することと、
を備える、方法。
【請求項10】
コンピュータを、
第1のセンサデータから特定の入力パターンを認識する認識部と、
前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力する切り替え信号出力部と、
指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御する画像表示制御部と、
を備える指示者側装置として機能させるプログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、指示者側装置、方法およびプログラムに関する。
【背景技術】
【0002】
従来の遠隔作業支援技術としては、小型のディスプレイに指示を表示する技術、または、透過型のディスプレイに指示を表示する技術などが知られている。しかし、いずれの技術であっても、従来の遠隔作業支援技術としては、平面的に指示を表示する技術が一般的である。
【0003】
一方、近年においては、AR(Augmented Reality)技術などの発展により、三次元的に表示可能な作業マニュアルが現れてきている。かかる作業マニュアルはあらかじめ作成され、AR技術を用いて三次元的に表示され得る。これによって、作業などを三次元的に作業者に理解させることが可能になりつつある。しかしながら、AR技術を用いて作業マニュアルを三次元的に表示する場合であっても、作業マニュアル自体はあらかじめ作成されたものであるため、そのときの作業状況に応じた作業支援が行われにくい。
【0004】
一方、遠隔作業支援においては、指示者によって入力される音声の出力と、ハンドジェスチャ表示とを併用することが有効であることが既に示されている(例えば、非特許文献1参照)。しかし、ジェスチャ表示をAR技術にそのまま適用した場合には、改善すべき点が生じる。
【0005】
例えば、ジェスチャがAR技術を用いて三次元的に表示される場合であっても、ジェスチャが作業者の移動に伴って変化せずに、作業者が同じ視点からしかジェスチャを見ることができないとすると、作業者がジェスチャによる指示を把握しにくい状況が生じ得る。一方、ジェスチャが作業者の移動に伴って常に変化してしまうと、指示者がジェスチャを見る視点と作業者がジェスチャを見る視点とが一致しない状況が頻繁に生じるため、指示者がジェスチャによる指示を出しにくい状況が生じ得る。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】市原 俊介、鈴木 雄介、“ハンドジェスチャ送信機能を有する遠隔作業支援システムの開発と課題”、情報処理学会インタラクション2019、2B-36
【発明の概要】
【発明が解決しようとする課題】
【0007】
そこで、指示者から作業者への指示をより効果的に行うことを可能とする技術が提供されることが望まれる。
【課題を解決するための手段】
【0008】
上記問題を解決するために、本発明のある観点によれば、第1のセンサデータから特定の入力パターンを認識する認識部と、前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力する切り替え信号出力部と、指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御する画像表示制御部と、を備える、指示者側装置が提供される。
【0009】
前記第1のセンサデータは、ジェスチャを含み、前記特定の入力パターンは、第1のジェスチャパターンを含んでもよい。
【0010】
前記第1のセンサデータは、音声を含み、前記特定の入力パターンは、特定の音声パターンを含んでもよい。
【0011】
前記認識部は、指示者のジェスチャから第2のジェスチャパターンを認識し、前記切り替え信号出力部は、前記第2のジェスチャパターンが認識されたときには、前記特定の音声パターンが認識されたとしても、前記切り替え信号を前記作業者側装置に出力しなくてもよい。
【0012】
前記認識部は、指示者のジェスチャから第3のジェスチャパターンを認識し、前記切り替え信号出力部は、前記第3のジェスチャパターンが認識されていないときには、前記特定の音声パターンが認識されたとしても、前記切り替え信号を前記作業者側装置に出力しなくてもよい。
【0013】
前記切り替え信号出力部は、静止画像から動画像への切り替えを示す入力パターンが認識されたことに基づいて、静止画像から動画像への切り替え信号を前記作業者側装置に出力してもよい。
【0014】
前記切り替え信号出力部は、動画像から静止画像への切り替えを示す入力パターンが認識されたことに基づいて、動画像から静止画像への切り替え信号を前記作業者側装置に出力してもよい。
【0015】
前記切り替え信号出力部は、第2のセンサデータから認識される作業者の行動が前記作業者の移動中を示す場合には、動画像から静止画像への切り替えを示す入力パターンが認識されたとしても、動画像から静止画像への切り替え信号を前記作業者側装置に出力しなくてもよい。
【0016】
また、本発明の別の観点によれば、第1のセンサデータから特定の入力パターンを認識することと、前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力することと、指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御することと、を備える、方法が提供される。
【0017】
また、本発明の別の観点によれば、コンピュータを、第1のセンサデータから特定の入力パターンを認識する認識部と、前記入力パターンが認識されたことに基づいて、静止画像と動画像との間における切り替え信号を作業者側装置に出力する切り替え信号出力部と、指示者のジェスチャ情報に基づいてジェスチャのディスプレイによる表示を制御するとともに、前記切り替え信号に基づいて前記作業者側装置から送信された静止画像または動画像の前記ディスプレイによる表示を制御する画像表示制御部と、を備える指示者側装置として機能させるプログラムが提供される。
【発明の効果】
【0018】
以上説明したように本発明によれば、指示者から作業者への指示をより効果的に行うことを可能とする技術が提供される。
【図面の簡単な説明】
【0019】
図1】本発明の実施形態に係る遠隔作業支援システムの機能構成例を示す図である。
図2】遠隔作業支援システムの静止画状態から動画状態への切り替え動作例を示すフローチャートである。
図3】遠隔作業支援システムの動画状態から静止画状態への切り替え動作例を示すフローチャートである。
図4】比較例1に係るジェスチャ情報の変換先の座標系について説明するための図である。
図5】比較例2に係るジェスチャ情報の変換先の座標系について説明するための図である。
図6】本発明の実施形態に係るジェスチャ情報の変換先の座標系について説明するための図である。
図7】本発明の実施形態に係る指示者側システムの例としての情報処理装置のハードウェア構成を示す図である。
【発明を実施するための形態】
【0020】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0021】
また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。
【0022】
(1.実施形態の詳細)
本発明の実施形態の詳細について説明する。
【0023】
(1-1.遠隔作業支援システムの構成)
まず、本発明の実施形態に係る遠隔作業支援システムの構成例について説明する。図1は、本発明の実施形態に係る遠隔作業支援システムの機能構成例を示す図である。図1に示されるように、遠隔作業支援システム1は、作業者側システムと、指示者側システムとを有する。
【0024】
作業者側システムは、遠隔作業支援システム1のうち、作業者によって用いられるシステムである。作業者は、作業者に指示を出す指示者から離れた場所(すなわち、遠隔地)にて作業を行う。一方、指示者側システムは、遠隔作業支援システム1のうち、指示者によって用いられるシステムである。作業者側システムと指示者側システムとは、ネットワーク30に接続されており、ネットワーク30を介して通信可能に構成されている。
【0025】
なお、遠隔作業支援においては、指示者と作業者との間において音声通話などが行われるのが一般的である。しかし、音声通話などに必要な構成は、本発明の実施形態に係る遠隔作業支援システム1の構成の説明に関与しないため、音声通話などに必要な構成の説明は省略する。
【0026】
図1に示されるように、作業者側システムは、ARディスプレイ11と、カメラ12と、位置姿勢計測部13と、演算処理部14と、スピーカ15と、音声処理部16とを備える。一方、図1に示されるように、指示者側システムは、ディスプレイ21と、ジェスチャ入力装置22と、演算処理部24と、マイクロフォン25と、ジェスチャ認識装置26と、音声認識装置27とを備える。
【0027】
(ARディスプレイ11)
ARディスプレイ11は、ジェスチャの表示を行う。より詳細に、ARディスプレイ11は、作業者の視界にジェスチャを重畳表示する。ARディスプレイ11は、作業者に装着される。例えば、ARディスプレイ11は、作業者の頭部に装着されるヘッドマウントディスプレイであってよい。しかし、ARディスプレイ11の種類はヘッドマウントディスプレイに限定されない。例えば、ARディスプレイ11は、ヘッドマウントディスプレイ以外のディスプレイであってもよい。
【0028】
(カメラ12)
カメラ12は、作業者の環境を撮像することにより動画像(以下、単に「動画」とも言う。)を得る。カメラ12は、作業者の視線方向と同じ方向を向くように設けられているのが望ましい。したがって、カメラ12は、ARディスプレイ11と一体化されているのが望ましい。しかし、カメラ12は、ARディスプレイ11とは別個のハードウェアとして構成されてもよい。
【0029】
(位置姿勢計測部13)
位置姿勢計測部13は、カメラ12の位置および方向を計測する。例えば、カメラ12の内部にセンサが組み込まれている場合には、位置姿勢計測部13は、カメラ12の内部に組み込まれているセンサによって検出されたセンサデータに基づいて、カメラ12の位置および方向を計測してもよい。センサは、加速度センサまたはジャイロセンサなどであってよいが、センサの種類は特に限定されない。
【0030】
例えば、位置姿勢計測部13は、作業者の環境に設置された二次元マーカを計測するセンサを含んでもよい。このとき、位置姿勢計測部13は、計測した二次元マーカの形状に基づいて、カメラ12の位置および方向を計測してもよい。あるいは、位置姿勢計測部13は、カメラ12の内部に組み込まれているセンサによって検出されたセンサデータに基づいてカメラ12の位置および方向を計測する手法と、計測した二次元マーカの形状に基づいてカメラ12の位置および方向を計測する手法とを組み合わせて用いてもよい。
【0031】
(演算処理部14)
演算処理部14は、コンピュータによって実現され、各種の演算処理を行う作業者側装置として機能する。例えば、演算処理部14は、演算処理部24からジェスチャ情報を取得するジェスチャ取得部、演算処理部24から切り替え信号を取得する信号取得部、作業者の視界にジェスチャが表示されるようにARディスプレイ11を制御する提示制御部として機能し得る。
【0032】
また、演算処理部14は、指示者側システムにおける演算処理部24との間における通信インタフェースによる通信を制御する処理などを行う。例えば、演算処理部14は、カメラ12によって得られた動画または静止画像(以下、単に「静止画」とも言う。)の演算処理部24への送信を制御する送信制御部として機能し得る。
【0033】
例えば、演算処理部14は、CPU(Central Processing Unit)またはGPU(Graphics Processing Unit)などの演算装置を含み、ROM(Read Only Memory)により記憶されているプログラムが演算装置によりRAMに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
【0034】
(スピーカ15)
スピーカ15は、指示者から入力された指示音声を、音声処理部16を通さずに出力する。あるいは、スピーカ15は、指示者から入力された指示音声を、音声処理部16を通して出力する。なお、スピーカ15から出力される指示音声の仮想的な出力位置が制御可能となるように、スピーカ15は、ステレオ方式のスピーカまたはアレイ方式のスピーカによって構成される。
【0035】
(音声処理部16)
音声処理部16は、位置データおよび音声データを取得し、あたかもその位置から音声が出力されているように音声を作業者に聞こえさせる処理を行う。かかる処理として、典型的にはHRTF(非特許文献:頭部伝達関数の基礎と3次元音響システムへの応用 日本音響学会編 飯田一博著 コロナ社)が用いられてよい。より詳細に、音声処理部16は、指示音声を演算処理部14から取得し、取得した指示音声のスピーカ15による仮想的な出力位置からの出力を制御する。なお、指示音声は、音声処理部16による処理が行われずに、そのままスピーカ15から出力されることもあり得る。
【0036】
(ディスプレイ21)
ディスプレイ21は、カメラ12によって得られた動画を表示し得る。また、ディスプレイ21は、カメラ12によって得られた動画に基づくスナップショットを静止画として表示し得る。これによって、指示者は、作業者の環境を見ることができる。さらに、ディスプレイ21は、指示者のジェスチャを表示し得る。これによって、指示者は、どのようなジェスチャが作業者に伝達されているかを確認することができる。
【0037】
(ジェスチャ入力装置22)
ジェスチャ入力装置22は、指示者から入力されるジェスチャを受け付ける入力装置である。ジェスチャ入力装置22は、受け付けたジェスチャを演算処理部24に出力する。さらに、ジェスチャ入力装置22は、受け付けたジェスチャをジェスチャ認識装置26に出力する。なお、ジェスチャ入力装置22は、センサの一例に該当し得る。すなわち、ジェスチャ入力装置22は、センサデータ(第1のセンサデータ)の一例としてのジェスチャを検出する。
【0038】
例えば、ジェスチャ入力装置22は、光学的機器によって実現されてもよい。かかる光学的機器としては、Ultraleap社によって開発されたLeap Motion(登録商標)などが用いられ得る。Leap Motion(登録商標)は、複数のLED(Light Emitting Diode)によって手に照射された赤外線の赤外線ステレオカメラによる検出結果に基づいて、手の動きをトラッキングする技術である。あるいは、ジェスチャ入力装置22は、指示者によって装着される入力装置(例えば、センサグローブなど)によって実現されてもよい。
【0039】
ジェスチャの表現形式は、ジェスチャを複数の三次元座標を含んだ構造によって表現可能であり、ジェスチャを三次元空間内に再現可能であれば、任意の表現形式であってよい。例えば、ジェスチャは、骨組みの端点データによって表現されてもよいし、表皮のメッシュデータによって表現されてもよい。
【0040】
(マイクロフォン25)
マイクロフォン25は、指示者から入力される音声を受け付ける。マイクロフォン25は、受け付けた音声を指示音声として演算処理部24に出力する。さらに、マイクロフォン25は、受け付けた音声を音声認識装置27に出力する。なお、マイクロフォン25は、センサの一例に該当し得る。すなわち、マイクロフォン25は、センサデータ(第1のセンサデータ)の一例としての音声を検出する。
【0041】
(ジェスチャ認識装置26)
ジェスチャ認識装置26は、ジェスチャ入力装置22によって受け付けられたジェスチャに対してジェスチャ認識を実行し、当該ジェスチャから特定の入力パターンが認識されるかを試みる。例えば、特定の入力パターンは、あらかじめ定められたジェスチャパターン(例えば、あらかじめ定められた1または複数のジェスチャ動作など)であってもよい。例えば、あらかじめ定められたジェスチャ動作は、切り替えを示す1または複数のジェスチャ動作であってもよい。
【0042】
ジェスチャ認識装置26は、コンピュータによって実現され、指示者側装置として機能する。例えば、ジェスチャ認識装置26は、CPU(Central Processing Unit)またはGPU(Graphics Processing Unit)などの演算装置を含み、ROM(Read Only Memory)により記憶されているプログラムが演算装置によりRAMに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
【0043】
(音声認識装置27)
音声認識装置27は、マイクロフォン25によって受け付けられた音声に対して音声認識を実行し、当該音声から特定の入力パターンが認識されるかを試みる。例えば、特定の入力パターンは、あらかじめ定められた音声パターン(例えば、あらかじめ定められた1または複数の語句など)であってもよい。例えば、あらかじめ定められた語句は、切り替えを示す1または複数の語句であってもよい。
【0044】
音声認識装置27は、コンピュータによって実現され、指示者側装置として機能する。例えば、音声認識装置27は、CPU(Central Processing Unit)またはGPU(Graphics Processing Unit)などの演算装置を含み、ROM(Read Only Memory)により記憶されているプログラムが演算装置によりRAMに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
【0045】
(演算処理部24)
演算処理部24は、コンピュータによって実現され、各種の演算処理を行う指示者側装置として機能する。例えば、演算処理部24は、認識部(例えば、ジェスチャ認識装置26または音声認識装置27)によって特定の入力パターンが認識されたことに基づいて、切り替え信号を演算処理部14に出力する切り替え信号出力部として機能し得る。
【0046】
なお、切り替え信号は、二つの状態の一方から他方への切り替えを示す信号である。本発明の実施形態においては、切り替え信号が、カメラ12によって得られた動画がディスプレイ21によって表示される状態(以下、「動画状態」とも言う。)、および、カメラ12によって得られた動画に基づくスナップショットが静止画としてディスプレイ21によって表示される状態(以下、「静止画状態」とも言う。)のいずれかを示す場合を主に想定する。
【0047】
また、演算処理部24は、ジェスチャのディスプレイ21による表示を制御するとともに静止画または動画のディスプレイ21による表示を制御する画像表示制御部として機能し得る。また、演算処理部24は、作業者側システムにおける演算処理部14との間における通信インタフェースによる通信を制御する処理などを行う。
【0048】
例えば、演算処理部24は、CPU(Central Processing Unit)またはGPU(Graphics Processing Unit)などの演算装置を含み、ROM(Read Only Memory)により記憶されているプログラムが演算装置によりRAMに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
【0049】
(ネットワーク30)
ネットワーク30は、作業者側システムと指示者側システムとを接続する。そして、ネットワーク30は、作業者側システムと指示者側システムとの間における通信路として機能し得る。
【0050】
以上、本発明の実施形態に係る遠隔作業支援システム1の構成例について説明した。
【0051】
(1-2.遠隔作業支援システムの動作)
続いて、図1図3を参照しながら、本発明の実施形態に係る遠隔作業支援システム1の動作例について説明する。
【0052】
なお、音声通話などの動作は、本発明の実施形態に係る遠隔作業支援システム1の動作の説明に関与しないため、音声通話などの動作の説明は省略する。さらに、通信の遅延などは無視できるほど小さいものとする。
【0053】
上記したように、遠隔作業支援システム1は、動画状態および静止画状態のいずれかの状態をとり得る。遠隔作業支援システム1の状態は、切り替え信号に基づいて切り替えられる。動画状態においては、カメラ12によって得られた動画がディスプレイ21によって表示される。一方、静止画状態においては、切り替えられたタイミングにおける動画のスナップショットが静止画としてディスプレイ21によって表示される。
【0054】
図2は、遠隔作業支援システム1の静止画状態から動画状態への切り替え動作例を示すフローチャートである。図3は、遠隔作業支援システム1の動画状態から静止画状態への切り替え動作例を示すフローチャートである。まず、図2を主に参照しながら、静止画状態から動画状態への切り替え動作例を説明し、続いて、図3を主に参照しながら、動画状態から静止画状態への切り替え動作例を説明する。
【0055】
ここで、指示者側システムから作業者側システムには、ジェスチャ入力装置22によって指示者からの入力が受け付けられたジェスチャ情報が送信される。ジェスチャ情報には、基準位置からのジェスチャの変位(手の各特徴点の変位)を示す情報が含まれ得る。
【0056】
作業者側システムにおいて、演算処理部14は、基準位置および基準方向とジェスチャ情報とに基づいてジェスチャが配置されるようにARディスプレイ11を制御する。一方、指示者側システムにおいて、演算処理部24は、ジェスチャ情報に基づいてジェスチャが表示されるようにディスプレイ21を制御する。
【0057】
さらに、指示者側システムにおいては、マイクロフォン25によって指示音声が受け付けられ、演算処理部24に出力される。そして、演算処理部24から作業者側システムにおける演算処理部14に、指示音声がネットワーク30を介して常時送信される。演算処理部14は、指示音声を常時取得する。
【0058】
(静止画状態から動画状態への切り替え動作)
静止画状態においては、ジェスチャが配置される基準位置および基準方向が、カメラ12の位置および方向に追従しない。すなわち、静止画状態においては、作業者側システムにおいてジェスチャが配置される基準位置および基準方向が、動画状態から静止画状態への切り替えられたタイミングに記録されたカメラ12の位置および方向に固定される。
【0059】
指示者側システムにおいて、ジェスチャ認識装置26は、ジェスチャ入力装置22によって受け付けられた指示者のジェスチャから第1のジェスチャパターン(静止画状態から動画状態への切り替えを示すジェスチャパターン)が認識されるかを試みる。特定のジェスチャパターンは、具体的にどのようなジェスチャパターンであってもよい。なお、静止画状態から動画状態への切り替えを示すジェスチャパターンと動画状態から静止画状態への切り替えを示すジェスチャパターンとは、同じであってもよいが、二つの切り替え指示を別々に認識するためには異なるのが望ましい。
【0060】
あるいは、音声認識装置27は、マイクロフォン25によって受け付けられた指示者の音声から特定の音声パターン(静止画状態から動画状態への切り替えを示す音声パターン)が認識されるかを試みる。特定の音声パターンは、具体的にどのような音声パターンであってもよい。なお、静止画状態から動画状態への切り替えを示す音声パターンと動画状態から静止画状態への切り替えを示す音声パターンとは、同じであってもよいが、二つの切り替え指示を別々に認識するためには異なるのが望ましい。
【0061】
演算処理部24は、ジェスチャ認識装置26によって第1のジェスチャパターンが認識されたか否かによって、指示者から静止画状態から動画状態への切り替え指示が入力されたか否かを判定する(S11)。あるいは、演算処理部24は、音声認識装置27によって特定の音声パターンが認識されたか否かによって、指示者から静止画状態から動画状態への切り替え指示が入力されたか否かを判定する。
【0062】
図2に示されるように、演算処理部24は、静止画状態から動画状態への切り替え指示が入力されていない場合には(S11において「NO」)、S11に動作を移行する。一方、演算処理部24は、静止画状態から動画状態への切り替え指示が入力された場合には(S11において「YES」)、作業者側システムにおける演算処理部14に、静止画状態から動画状態への切り替え信号を、ネットワーク30を介して通知する(S12)。
【0063】
作業者側システムにおいて、演算処理部14は、静止画状態から動画状態への切り替え信号を受け取ると、ARディスプレイ11によってジェスチャが配置される基準位置を位置姿勢計測部13によって計測されるカメラ12の位置に追従させるとともに、ARディスプレイ11によってジェスチャが配置される基準方向を位置姿勢計測部13によって計測されるカメラ12の方向に追従させる。
【0064】
さらに、演算処理部14は、音声処理部16を無効化し(すなわち、音声処理部16の動作を停止し)、取得した指示音声をそのままスピーカ15から出力させる(S31)。
【0065】
さらに、演算処理部24は、ディスプレイ21によって表示されている静止画があれば、その静止画を消去する(S13)。そして、演算処理部24は、カメラ12によって得られた動画が演算処理部14から送信されると、送信された動画のディスプレイ21による表示が再開されるようにディスプレイ21を制御する(S14)。
【0066】
(動画状態から静止画状態への切り替え動作)
動画状態においては、ジェスチャが配置される基準位置および基準方向が、カメラ12の位置および方向に追従する。
【0067】
指示者側システムにおいて、ジェスチャ認識装置26は、ジェスチャ入力装置22によって受け付けられた指示者のジェスチャから第1のジェスチャパターン(動画状態から静止画状態への切り替えを示すジェスチャパターン)が認識されるかを試みる。なお、上記したように、静止画状態から動画状態への切り替えを示すジェスチャパターンと動画状態から静止画状態への切り替えを示すジェスチャパターンとは、同じであってもよいが、二つの切り替え指示を別々に認識するためには異なるのが望ましい。
【0068】
あるいは、音声認識装置27は、マイクロフォン25によって受け付けられた指示者の音声から特定の音声パターン(動画状態から静止画状態への切り替えを示す音声パターン)が認識されるかを試みる。なお、上記したように、動画状態から静止画状態への切り替えを示す音声パターンと静止画状態から動画状態への切り替えを示す音声パターンとは、同じであってもよいが、二つの切り替え指示を別々に認識するためには異なるのが望ましい。
【0069】
演算処理部24は、ジェスチャ認識装置26によって第1のジェスチャパターンが認識されたか否かによって、指示者から動画状態から静止画状態への切り替え指示が入力されたか否かを判定する(S21)。あるいは、演算処理部24は、音声認識装置27によって特定の音声パターンが認識されたか否かによって、指示者から動画状態から静止画状態への切り替え指示が入力されたか否かを判定する。
【0070】
演算処理部24は、動画状態から静止画状態への切り替え指示が入力されていない場合には(S21において「NO」)、S21に動作を移行する。一方、演算処理部24は、動画状態から静止画状態への切り替え指示が入力された場合には(S21において「YES」)、作業者側システムにおける演算処理部14に、静止画状態から動画状態への切り替え信号を、ネットワーク30を介して通知する(S22)。
【0071】
作業者側システムにおいて、演算処理部14は、静止画状態から動画状態への切り替え信号を受け取ると、静止画状態から動画状態への切り替えられたタイミングにおけるカメラ12の位置および方向を記録するとともに(S26)、ARディスプレイ11によってジェスチャの配置に用いられる基準位置および基準方向を、記録した動画状態から静止画状態への切り替えられたタイミングにおけるカメラ12の位置および方向に固定する。
【0072】
また、演算処理部14は、音声処理部16を有効化する(すなわち、音声処理部16の動作を開始する)(S41)。これによって、音声処理部16は、指示音声に対する処理(例えば、HRTFなどを用いた処理など)によって、ジェスチャが配置される基準位置から指示音声が出力されているかのようにスピーカ15から指示音声を出力させる。
【0073】
さらに、演算処理部24は、カメラ12によって得られた動画のスナップショットを静止画として作成する(S23)。
【0074】
演算処理部24は、ディスプレイ21によって表示されている動画があれば、その動画を消去する(S24)。そして、演算処理部24は、生成した静止画のディスプレイ21による表示が再開されるようにディスプレイ21を制御する(S25)。
【0075】
以上、静止画状態から動画状態への切り替え動作例、および、動画状態から静止画状態への切り替え動作例について説明した。続いて、ジェスチャが配置される基準位置および基準方向についてさらに詳細に説明する。
【0076】
(1-3.ジェスチャが配置される基準位置および基準方向)
ジェスチャ入力装置22によって指示者からの入力が受け付けられたジェスチャ情報は、指示者の環境における固有の座標系における位置および方向などによって表現される情報である。かかるジェスチャ情報に基づいて作業者の環境におけるARディスプレイ11にジェスチャを表示させるためには、指示者側の座標系(変換元の座標系)から作業者側の座標系(変換先の座標系)へのジェスチャ情報の座標変換が必要となる。
【0077】
ここでは、変換先の座標系の例として、比較例1(ワールド座標系)、比較例2(カメラ座標系)、本実施形態に係る座標系について順に説明する。ここでは、説明を簡単にするため、ジェスチャの位置は固定されているものとする。
【0078】
(比較例1(ワールド座標系))
図4は、比較例1に係るジェスチャ情報の変換先の座標系について説明するための図である。図4を参照すると、初期状態における作業者環境E11が示されている。初期状態における作業者環境E11には、作業対象R1が存在している。作業対象R1は、作業者による作業の対象となる物体である。
【0079】
ここでは、図の見やすさを考慮して、作業対象R1が、「表」と「裏」を有する正方形の平面として示されている。しかし、作業対象R1の形状は限定されない。典型的には、作業対象R1は、ATM(Automated Teller Machine)またはプリンタなどといった機械である場合が想定されるが、作業対象R1は、機械でなくてもよく作業に使われる何らかの物体であればよい。
【0080】
さらに、初期状態における作業者環境E11には、カメラ12が存在しており、カメラ12によって得られた動画が指示者側の画面121aに表示される。指示者側の画面121aに表示されている動画には作業対象R1が写っている。指示者は、初期状態における作業者環境E11の動画を見ながら、ジェスチャ情報を入力する。指示者側の画面121aには、ジェスチャ情報に基づいてジェスチャJ1が表示されている。
【0081】
初期状態における作業者環境E11を参照すると、ワールド座標系C1およびカメラ座標系C2が示されている。指示者によって入力されたジェスチャ情報に基づいて、ワールド座標系C1にジェスチャJ1が配置されるように作業者側のARディスプレイが制御される。作業者は、ワールド座標系C1に配置されたジェスチャJ1を見ながら、作業対象R1に対して作業を行うことができる。
【0082】
ここで、作業者環境E12に示されるように、作業者が作業対象R1の背面に移動したとする。ワールド座標系C1におけるジェスチャJ1の位置および方向は固定されている。
【0083】
このとき、作業対象R1の「裏」およびジェスチャJ1が指示者側の画面122aに表示される。しかし、作業者の移動量および移動方向に合わせてジェスチャJ1の位置および方向も変化する。そのため、指示者は、表示されるジェスチャJ1と比較して位置および方向が変化する前(180度回転する前)のジェスチャを入力する必要が生じるため、指示者はジェスチャ入力をしにくくなる。
【0084】
一方、作業者環境E13に示されるように、作業者が作業対象R1の奥側に移動したとする。ワールド座標系C1におけるジェスチャJ1の位置および方向は固定されている。
【0085】
このとき、ワールド座標系C1におけるジェスチャJ1の位置および方向は固定されてしまっているため、ジェスチャJ1が作業者の後方に位置してしまい、作業者からはジェスチャJ1が見えなくなってしまう。例えば、次の作業位置へ向かうためのジェスチャ情報を指示者が入力したとしても、作業者はそのジェスチャを見ることができずに、次の作業位置を知ることができなくなってしまう。
【0086】
以上により、比較例1は、あらかじめ作成された作業マニュアルなどを表示する場合などには好適である。しかし、比較例1では、作業者の移動に伴って指示者によるジェスチャが見えなくなってしまうことがあるため、リアルタイムに作業指示を行う必要がある場合などには好適ではないと言える。
【0087】
以上、比較例1に係るジェスチャ情報の変換先の座標系について説明した。
【0088】
(比較例2(カメラ座標系))
図5は、比較例2に係るジェスチャ情報の変換先の座標系について説明するための図である。図5を参照すると、図4に示された例と同様に、初期状態における作業者環境E21が示されている。初期状態における作業者環境E21には、作業対象R1が存在している。
【0089】
さらに、カメラ12によって得られた動画が指示者側の画面123aに表示される。指示者側の画面123aに表示されている動画には作業対象R1が写っている。指示者は、初期状態における作業者環境E11の動画を見ながら、ジェスチャ情報を入力する。指示者側の画面123aには、ジェスチャ情報に基づいてジェスチャJ1が表示されている。
【0090】
比較例2においては、指示者によって入力されたジェスチャ情報に基づいて、カメラ座標系C2にジェスチャJ1が配置されるように作業者側のARディスプレイが制御される。作業者は、カメラ座標系C2に配置されたジェスチャJ1を見ながら、作業対象R1に対して作業を行うことができる。
【0091】
ここで、作業者環境E22に示されるように、作業者が作業対象R1の背面に移動したとする。比較例1と異なり、ワールド座標系C1におけるジェスチャJ1の位置および方向は変化するが、カメラ座標系C2におけるジェスチャJ1の位置および方向は固定されている。
【0092】
このとき、作業対象R1の「裏」およびジェスチャJ1が指示者側の画面124aに表示される。このとき、作業者が移動しているにも関わらず、画面124aに表示されるジェスチャJ1の位置および方向は固定される。そのため、指示者は、表示されるジェスチャJ1と同じ位置および方向によってジェスチャを入力すれば済むため、指示者はジェスチャ入力をしやすい。
【0093】
しかし、カメラ座標系C2におけるジェスチャJ1の位置および方向は固定されるため、作業者から見えるジェスチャJ1の位置および方向は一定である。そのため、作業者は、ジェスチャJ1の見える位置または角度を変更することができなくなってしまう(例えば、ジェスチャJ1を上方から俯瞰的に見ることができなくなってしまう)。
【0094】
一方、作業者環境E23に示されるように、作業者が作業対象R1の奥側に移動したとする。このとき、ワールド座標系C1におけるジェスチャJ1の位置および方向は変化するが、カメラ座標系C2におけるジェスチャJ1の位置および方向は固定されている。このとき、指示者側の画面125aに表示されるジェスチャJ1の位置および方向は固定される。
【0095】
さらに、カメラ座標系C2におけるジェスチャJ1の位置は固定されているため、ジェスチャJ1が作業者の前方に位置し続け、作業者からはジェスチャJ1が見えなくなってしまうことがなくなる。例えば、次の作業位置へ向かうためのジェスチャ情報を指示者が入力した場合に、作業者はそのジェスチャを見て、次の作業位置を知ることができる。
【0096】
以上により、比較例2は、作業者の移動に伴って指示者によるジェスチャが見えなくなってしまうことがなくなるため、リアルタイムに作業指示を行う必要がある場合などには好適である。しかし、比較例2では、作業者から見えるジェスチャの位置および角度が変更されないため、AR技術を用いてジェスチャを表示する利点が損なわれてしまうと言える。
【0097】
以上、比較例2に係るジェスチャ情報の変換先の座標系について説明した。
【0098】
(本実施形態に係る座標系)
図6は、本発明の実施形態に係るジェスチャ情報の変換先の座標系について説明するための図である。図6を参照すると、図4に示された例と同様に、初期状態における作業者環境E31が示されている。初期状態における作業者環境E31には、作業対象R1が存在している。初期状態においては、遠隔作業支援システム1の状態が動画状態である場合を想定する。一例として、動画状態においては、指示者が作業者に作業位置をジェスチャによって指示する。
【0099】
なお、マイクロフォン25によって受け付けられた指示音声が、演算処理部24からネットワーク30を介して演算処理部14に常時送信される。
【0100】
遠隔作業支援システム1の状態が動画状態である場合においては、演算処理部24は、カメラ12によって得られた動画が指示者側の画面126aに表示されるように制御する。指示者側の画面126aに表示されている動画には作業対象R1が写っている。指示者は、初期状態における作業者環境E31の動画を見ながら、ジェスチャ情報を入力する。指示者側の画面126aには、ジェスチャ情報に基づいてジェスチャJ1が表示されている。
【0101】
演算処理部14は、ジェスチャ情報を演算処理部24から取得する。遠隔作業支援システム1の状態が動画状態である場合において、演算処理部14は、カメラ12の位置および方向を基準位置および基準方向(第2の基準位置および第2の基準方向)としたカメラ座標系C2(第2の座標系)にジェスチャJ1が配置されるようにARディスプレイ11を制御する手法(第2の手法)を採用する。作業者は、カメラ座標系C2に配置されたジェスチャJ1を見ながら、作業位置に向かうことができる。
【0102】
さらに、遠隔作業支援システム1の状態が動画状態である場合においては、作業者の視点と指示者の視点とが同じである。そこで、遠隔作業支援システム1の状態が動画状態である場合において、作業者環境E31に示されるように、演算処理部14は、指示者側システムにおける演算処理部24から受信した指示音声を音声処理部16に処理させずに、そのままスピーカ15から出力させる。
【0103】
一例として、指示者が作業位置を指示するのを終了し、作業対象R1への作業内容をジェスチャによって指示し始める場合を想定する。このとき、指示者は、動画状態から静止画状態への切り替え(すなわち、第2の手法から第1の手法への切り替え)を示す切り替え指示をジェスチャパターンまたは音声パターンによって入力する。かかる切り替え指示が入力されると、動画状態から静止画状態への切り替えを示す切り替え信号が、演算処理部24から演算処理部14に通知される。
【0104】
演算処理部14は、動画状態から静止画状態への切り替えを示す切り替え信号を取得すると、かかる切り替え信号を取得したことに基づいて、動画状態から静止画状態への切り替えを示す切り替え信号を取得したタイミングにおけるカメラ12の位置および方向を、ジェスチャの配置に用いられる基準位置C3および基準方向(第1の基準位置および第1の基準方向)として記録する。なお、切り替え信号を取得したタイミングは、所定のタイミングの一例である。
【0105】
作業者環境E32に示されるように、作業者が作業対象R1の背面に移動したとする。位置姿勢計測部13は、演算処理部14によって記録された基準位置および基準方向を基準とした作業者の移動量および移動方向を計測する。
【0106】
演算処理部14は、記録した基準位置および基準方向を基準とする座標系(第1の座標系)に、位置姿勢計測部13によって計測された作業者の移動量および移動方向に基づいて、ジェスチャJ1が配置されるようにARディスプレイ11を制御する手法(第1の手法)を採用する。換言すると、演算処理部14は、AR空間における基準位置および基準方向にジェスチャJ1を配置する。
【0107】
このとき、画面127aに示されるように、ARディスプレイ11には、ワールド座標系C1におけるジェスチャJ1の位置および方向は固定されながら、記録された基準位置および基準方向から、作業者の移動量および移動方向だけ移動および回転した位置および方向から見えるジェスチャJ1の位置および方向に、ジェスチャJ1が表示される。なお、画面127aに存在する作業対象R1の「裏」は、スルー画像であってもよいし、実物であってもよい。
【0108】
演算処理部14は、記録した基準位置および基準方向を基準とする座標系に、位置姿勢計測部13によって計測された作業者の移動量および移動方向に基づいて、指示音声の仮想的な出力位置および仮想的な出力方向を決定する。換言すると、演算処理部14は、AR空間における基準位置および基準方向を指示音声の仮想的な出力位置および出力方向として決定する。
【0109】
音声処理部16は、演算処理部14によって決定された仮想的な出力位置から仮想的な出力方向に出力されているかのように(仮想的なスピーカK1から出力されているかのように)スピーカ15による指示音声の出力を制御する。この仮想的な出力位置は、指示者の視点に該当し得る。したがって、作業者は、指示音声によって指示者の視点を認識することができ、臨場感を体感しながら指示を理解することが可能となる。
【0110】
このとき、作業者環境E32に示されるように、基準位置および基準方向はワールド座標系C1に固定されながら、基準位置および基準方向から、作業者の移動量および移動方向だけ移動および回転した位置および方向から見える基準位置および基準方向から、指示音声が出力されているかのように指示音声が出力される。
【0111】
一方、指示者側システムにおいて、演算処理部24は、動画状態から静止画状態への切り替えを示す切り替え信号が入力されたタイミングにおける動画のスナップショットを静止画として生成する。そして、画面127bに示されるように、演算処理部24は、生成した静止画がディスプレイ21に表示されるように制御する。指示者側の画面127bには、ジェスチャ情報に基づいてジェスチャJ1が表示されている。
【0112】
このとき、作業者が移動しているにも関わらず、画面127bに表示されるジェスチャJ1の位置および方向は固定される。そのため、指示者は、表示されるジェスチャJ1と同じ位置および方向によってジェスチャを入力すれば済むため、指示者はジェスチャ入力をしやすい。
【0113】
さらに、作業者の移動に伴って作業者から見えるジェスチャJ1の位置および方向は変化し得る。そのため、作業者は、ジェスチャJ1の見える位置または角度を変更することができるようになる(例えば、ジェスチャJ1を上方から俯瞰的に見ることができるようになる)。
【0114】
一方、作業者環境E33に示されるように、作業者が作業対象R1の奥側に移動したとする。このとき、ワールド座標系C1におけるジェスチャJ1の位置および方向は変化するが、カメラ座標系C2におけるジェスチャJ1の位置および方向は固定されている。このとき、指示者側の画面128aに表示されるジェスチャJ1の位置および方向は固定される。
【0115】
したがって、比較例2と同様に、ジェスチャJ1が作業者の前方に位置し続け、作業者からはジェスチャJ1が見えなくなってしまうことがなくなる。例えば、次の作業位置へ向かうためのジェスチャ情報を指示者が入力した場合に、作業者はそのジェスチャを見て、次の作業位置を知ることができる。
【0116】
図6には示されていないが、指示者が、作業対象R1への作業内容をジェスチャによって指示するのを終了し、次の作業位置を指示し始める場合を想定する。このとき、指示者は、静止画状態から動画状態への切り替え(すなわち、第1の手法から第2の手法への切り替え)を示す切り替え指示をジェスチャパターンまたは音声パターンによって入力する。かかる切り替え指示が入力されると、静止画状態から動画状態への切り替えを示す切り替え信号が、演算処理部24から演算処理部14に通知される。
【0117】
演算処理部14は、静止画状態から動画状態への切り替えを示す切り替え信号を取得すると、かかる切り替え信号を取得したことに基づいて、カメラ12の位置および方向を基準位置および基準方向としたカメラ座標系C2にジェスチャJ1が配置されるようにARディスプレイ11を制御する。作業者は、カメラ座標系C2に配置されたジェスチャJ1を見ながら、作業位置に向かうことができる。
【0118】
さらに、遠隔作業支援システム1の状態が動画状態である場合においては、作業者の視点と指示者の視点とが同じである。そこで、遠隔作業支援システム1の状態が動画状態である場合において、作業者環境E31にされるように、演算処理部14は、指示者側システムにおける演算処理部24から受信した指示音声を音声処理部16に処理させずに、そのままスピーカ15から出力させる。
【0119】
以上、ジェスチャが配置される基準位置および基準方向について詳細に説明した。
【0120】
(1-4.効果)
以上により、本発明の実施形態によれば、作業者から見えるジェスチャの位置および角度が変更され得るため、AR技術を用いてジェスチャを表示する利点が損なわれずに済む。さらに、本発明の実施形態によれば、作業者の移動に伴って指示者によるジェスチャが見えなくなってしまうことがなくなる。そのため、本発明の実施形態に係る技術は、リアルタイムに作業指示を行う必要がある場合などに好適である。
【0121】
さらに、本発明の実施形態によれば、遠隔作業支援システム1の状態が静止画状態である場合において、指示音声の仮想的な出力位置が指示者の視点となるように制御されるため、作業者は、指示音声によって指示者の視点を把握することが可能である。
【0122】
また、本発明の実施形態によれば、動画状態と静止画状態との間の切り替え指示が音声またはジェスチャによって行われ得る。そのため、指示者は、動画状態と静止画状態との間の切り替え指示を行いたいときに、切り替えスイッチに手を伸ばす必要がなくなる。これによって、切り替え指示の度に、指示者によるジェスチャ指示が途切れてしまうことがなくなる(あるいは、指示者によるジェスチャ指示が途切れてしまう時間を短くすることが可能となる)。
【0123】
以上、本発明の実施形態に係る遠隔作業支援システム1が奏する効果について説明した。
【0124】
(2.ハードウェア構成例)
続いて、本発明の実施形態に係る作業者側システムのハードウェア構成例について説明する。
【0125】
以下では、本発明の実施形態に係る指示者側システムのハードウェア構成例として、情報処理装置900のハードウェア構成例について説明する。なお、以下に説明する情報処理装置900のハードウェア構成例は、指示者側システムのハードウェア構成の一例に過ぎない。したがって、指示者側システムのハードウェア構成は、以下に説明する情報処理装置900のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。なお、作業者側システムのハードウェア構成も、指示者側システムのハードウェア構成と同様に実現され得る。
【0126】
図7は、本発明の実施形態に係る指示者側システムの例としての情報処理装置900のハードウェア構成を示す図である。情報処理装置900は、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、出力装置909と、ストレージ装置910と、通信装置911と、を備える。
【0127】
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバス等から構成されるホストバス904により相互に接続されている。
【0128】
ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス906に接続されている。なお、必ずしもホストバス904、ブリッジ905および外部バス906を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
【0129】
入力装置908は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。情報処理装置900を操作するユーザは、この入力装置908を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0130】
出力装置909は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。
【0131】
ストレージ装置910は、データ格納用の装置である。ストレージ装置910は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置910は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置910は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。
【0132】
通信装置911は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置911は、無線通信または有線通信のどちらに対応してもよい。
【0133】
以上、本発明の実施形態に係る指示者側システムのハードウェア構成例について説明した。
【0134】
(3.まとめ)
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0135】
例えば、上記では、指示者および作業者それぞれが一人ずつである場合について説明した。しかし、指示者は複数存在してもよい。かかる場合には、複数の指示者それぞれによるジェスチャが扱われてもよい。あるいは、作業者は複数存在してもよい。かかる場合には、ジェスチャが配置されるカメラ座標系に対応するカメラが指定されることによって、指定されたカメラの作業者に対してジェスチャが提示されてもよい。
【0136】
また、上記では、切り替え信号に基づいて、ジェスチャが配置される基準位置および基準方向が切り替えられる場合について主に説明した。しかし、切り替え信号に基づいて、ジェスチャ以外の対象(例えば、指示書きなど)が配置される基準位置および基準方向も、ジェスチャが配置される基準位置および基準方向と同様にして切り替えられてもよい。
【0137】
また、上記では、切り替え信号が動画像から静止画への切り替えを示す場合に、指示者側システムにおける演算処理部24が、動画からスナップショットを作成し、作成したスナップショットが静止画としてディスプレイ21によって表示されるように制御する場合について主に説明した。しかし、演算処理部24は、静止画とともに動画をディスプレイ21に表示させてもよい。このとき、静止画と動画とは、並置されてもよい。
【0138】
あるいは、静止画状態においては、静止画と動画とは並置されなくてもよい。このとき、動画からスナップショットを作成する処理は、指示者側システムにおける演算処理部24の代わりに、作業者側システムにおける演算処理部14によって行われてもよい。かかる場合には、作業者側システムにおいては、カメラ12による動画撮影が停止され、作業者側システムから指示者側システムには、動画の送信が停止されてもよい。これによって、カメラ12による消費電力が低減され得る他、通信帯域が低減され得る。
【0139】
上記では、仮想的な指示音声が配置される基準位置が、動画状態から静止画状態への切り替えを示す切り替え信号が取得されたタイミングにおけるカメラ12の位置である場合を主に説明した。しかし、仮想的な指示音声が配置される基準位置は、切り替え信号が取得されたタイミングにおけるカメラ12の位置からずれた位置(オフセットされた位置)とされてもよい。
【0140】
また、上記では、指示者のジェスチャおよび指示者の音声が、静止画状態と動画状態との間の切り替えのために別々に用いられる場合について主に想定した。しかし、静止画状態と動画状態との間の切り替えには、指示者のジェスチャおよび指示者の音声の組み合わせが用いられてもよい。
【0141】
例えば、ジェスチャ認識装置26は、ジェスチャ入力装置22によって受け付けられた指示者のジェスチャから、切り替えの禁止を示すジェスチャパターン(第2のジェスチャパターン)の認識を試みてもよい。切り替えの禁止を示すジェスチャパターンは、具体的にどのようなジェスチャパターンであってもよい。
【0142】
そして、演算処理部24は、切り替えの禁止を示すジェスチャパターンが認識されたときには、音声認識装置27によって特定の音声パターンが認識されたとしても、切り替え信号を演算処理部14に出力しなくてもよい。すなわち、演算処理部24は、音声認識装置27によって特定の音声パターンが認識された場合に、切り替えの禁止を示すジェスチャパターンが認識されないときにのみ、切り替え信号を演算処理部14に出力してもよい。
【0143】
あるいは、ジェスチャ認識装置26は、ジェスチャ入力装置22によって受け付けられた指示者のジェスチャから、切り替えの実行を示すジェスチャパターン(第3のジェスチャパターン)の認識を試みてもよい。切り替えの実行を示すジェスチャパターンは、具体的にどのようなジェスチャパターンであってもよい。
【0144】
そして、演算処理部24は、切り替えの実行を示すジェスチャパターンが認識されないときには、音声認識装置27によって特定の音声パターンが認識されたとしても、切り替え信号を演算処理部14に出力しなくてもよい。すなわち、演算処理部24は、音声認識装置27によって特定の音声パターンが認識された場合に、切り替えの実行を示すジェスチャパターンが認識されたときにのみ、切り替え信号を演算処理部14に出力してもよい。
【0145】
上記では、ジェスチャ認識装置26によって第1のジェスチャパターンが認識された場合、または、音声認識装置27によって特定の音声パターンが認識された場合に、演算処理部24が、静止画像と動画像との間における切り替え信号を演算処理部14に出力する場合を主に想定した。しかし、切り替え信号を演算処理部14に出力するか否かは、追加的な条件も加味されて判定されてもよい。
【0146】
例えば、作業者の状態を検出するセンサ(例えば、加速度センサ、振動センサ、ジャイロセンサなど)と、かかるセンサデータ(第2のセンサデータ)から作業者の行動を認識する行動認識装置とが設けられていてもよい。例えば、センサは、作業者の身体に付されていてもよい(例えば、ARディスプレイ11に付されていてもよい)。行動認識装置は、作業者側システムに設けられてもよいし、指示者側システムに設けられてもよいし、作業者側システムおよび指示者側システムの外部に設けられてもよい。
【0147】
例えば、センサデータから認識される作業者の行動が作業者の移動中(例えば、歩行中など)を示す場合には、作業を行っていないことが想定される。したがって、かかる場合には、演算処理部24は、動画像から静止画像への切り替えを示す入力パターンがジェスチャ認識装置26または音声認識装置27によって認識されたとしても、動画像から静止画像への切り替え信号を演算処理部14に出力しなくてもよい。
【0148】
また、上記では、動画状態と静止画状態との間の切り替えのために、ジェスチャ認識装置26および音声認識装置27が専用に設けられる場合について主に想定した。しかし、動画状態と静止画状態との間の切り替え以外の機能(例えば、通信の切断、音量の変更など)を実現するために設けられているジェスチャ認識装置および音声認識装置が、動画状態と静止画状態との間の切り替えを行うためのジェスチャ認識装置26および音声認識装置27に流用されてもよい。
【符号の説明】
【0149】
1 遠隔作業支援システム
11 ARディスプレイ
12 カメラ
13 位置姿勢計測部
14 演算処理部
15 スピーカ
16 音声処理部
21 ディスプレイ
22 ジェスチャ入力装置
24 演算処理部
25 マイクロフォン
26 ジェスチャ認識装置
27 音声認識装置
30 ネットワーク



図1
図2
図3
図4
図5
図6
図7