IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特開2024-44092遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム
<>
  • 特開-遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム 図1
  • 特開-遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム 図2
  • 特開-遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム 図3
  • 特開-遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム 図4
  • 特開-遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム 図5
  • 特開-遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム 図6
  • 特開-遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム 図7
  • 特開-遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム 図8
  • 特開-遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム 図9
  • 特開-遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム 図10
  • 特開-遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム 図11
  • 特開-遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024044092
(43)【公開日】2024-04-02
(54)【発明の名称】遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システム
(51)【国際特許分類】
   B25J 3/00 20060101AFI20240326BHJP
   G06T 19/00 20110101ALI20240326BHJP
【FI】
B25J3/00 Z
G06T19/00 600
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022149426
(22)【出願日】2022-09-20
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】奈良村 五十志
【テーマコード(参考)】
3C707
5B050
【Fターム(参考)】
3C707BS27
3C707JS03
3C707JS07
3C707JT04
3C707JU03
3C707JU12
3C707KS03
3C707KS04
3C707KS16
3C707KS20
3C707KT03
3C707KT04
3C707LW03
3C707LW12
3C707MT01
3C707WA03
5B050CA07
5B050DA04
5B050EA07
5B050EA19
5B050EA27
(57)【要約】
【課題】遅延が生じる環境であっても、操作性を損なわない画像情報を提供することができる遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システムを提供することを目的とする。
【解決手段】ロボットの遠隔操作方法は、操作者が操作すると、操作入力記ロボットの関節角度指令値に変換する変換工程と、ロボットの存在する空間の実視覚情報を取得する取得工程と、3次元表現により操作者にロボットの存在する空間中の任意視点の仮想視覚情報を生成する生成工程と、実視覚情報を新たに取得できていない場合に、仮想視覚情報を操作者の視認する画面に投影し、実視覚情報を新たに取得できている場合に、新たに取得した実視覚情報に基づく画像を実視覚情報に合成した混合画像を操作者の視認する画面に投影する投影工程と、を有する。
【選択図】図6
【特許請求の範囲】
【請求項1】
ロボットの遠隔操作方法であって、
操作者が操作すると、操作入力を前記ロボットの関節角度指令値に変換する変換工程と、
前記ロボットの存在する空間の実視覚情報を取得する取得工程と、
3次元表現により操作者に前記ロボットの存在する空間中の任意視点の仮想視覚情報を生成する生成工程と、
前記実視覚情報を新たに取得できていない場合に、前記仮想視覚情報を前記操作者の視認する画面に投影し、前記実視覚情報を新たに取得できている場合に、新たに取得した前記実視覚情報に基づく画像を前記仮想視覚情報に合成した混合画像を前記操作者の視認する画面に投影する投影工程と、
を有するロボットの遠隔操作方法。
【請求項2】
前記仮想視覚情報は、
前記実視覚情報の取得時に保持している視覚情報と、前記操作者に前記実視覚情報が到着する時間で保持している視覚情報を入力として、前記視覚情報から運動や形状などのパラメータを回帰により予測する前記3次元表現の逆変換で求め、時系列ネットワークを用いて時刻間のパラメータを補間することにより計算される、
請求項1に記載のロボットの遠隔操作方法。
【請求項3】
前記生成工程では、前記関節角度指令値と、前記操作者の視認する画面の姿勢と、取得された実視覚情報とを、学習済みのモデルに入力することで、前記仮想視覚情報を生成する、
請求項1または請求項2に記載のロボットの遠隔操作方法。
【請求項4】
前記実視覚情報を取得した時刻の前記ロボットと作業対象の物体の姿勢が推定された姿勢情報を用いて、前記仮想視覚情報を生成する、
請求項1または請求項2に記載のロボットの遠隔操作方法。
【請求項5】
前記実視覚情報には、撮影された時刻情報と、撮影された画像に対して認識処理で認識された作業対象物体の位置情報と前記作業対象物体の姿勢情報と、を含むメタデータを含み、
前記生成工程では、前記メタデータを用いて前記ロボットの姿勢と、前記作業対象物体の姿勢が推定された推定情報を用いて、前記仮想視覚情報を生成する、
請求項1または請求項2に記載のロボットの遠隔操作方法。
【請求項6】
前記投影工程では、前記実視覚情報と前記仮想視覚情報との混合比率を、前記実視覚情報の時刻毎の変化率に応じて決定する、
請求項1または請求項2に記載のロボットの遠隔操作方法。
【請求項7】
前記実視覚情報は、RGBデータと、深度データを含む、
請求項1または請求項2に記載のロボットの遠隔操作方法。
【請求項8】
遠隔操作のコンピュータに、
操作者が操作すると、操作入力をロボットの関節角度指令値に変換させ、
前記ロボットの存在する空間の実視覚情報を取得させ、
3次元表現により操作者に前記ロボットの存在する空間中の任意視点の仮想視覚情報を生成させ、
前記実視覚情報を新たに取得できていない場合に、前記仮想視覚情報を前記操作者の視認する画面に投影し、前記実視覚情報を新たに取得できている場合に、新たに取得した前記実視覚情報に基づく画像を前記実視覚情報に合成した混合画像を前記操作者の視認する画面に投影させる、
ことを実行させるプログラム。
【請求項9】
操作者が操作すると、操作入力をロボットの関節角度指令値に変換する変換部と、
前記ロボットの存在する空間の実視覚情報を取得する取得部と、
3次元表現により操作者に前記ロボットの存在する空間中の任意視点の仮想視覚情報を生成する生成部と、
前記実視覚情報を新たに取得できていない場合に、前記仮想視覚情報を前記操作者の視認する画面に投影し、前記実視覚情報を新たに取得できている場合に、新たに取得した前記実視覚情報に基づく画像を前記実視覚情報に合成した混合画像を前記操作者の視認する画面に投影する投影部と、
を備える遠隔操作装置。
【請求項10】
遠隔操作装置と、遠隔地側装置とを備え、
前記遠隔地側装置は、
ロボットと、
前記ロボットが存在する環境の実視覚画像を検出する視覚センサと、を備え、
前記遠隔操作装置は、
操作者が操作すると、操作入力を前記ロボットの関節角度指令値に変換する変換部と、
前記ロボットの存在する空間の実視覚情報を取得する取得部と、
3次元表現により操作者に前記ロボットの存在する空間中の任意視点の仮想視覚情報を生成する生成部と、
前記実視覚情報を新たに取得できていない場合に、前記仮想視覚情報を前記操作者の視認する画面に投影し、前記実視覚情報を新たに取得できている場合に、新たに取得した前記実視覚情報に基づく画像を前記実視覚情報に合成した混合画像を前記操作者の視認する画面に投影する投影部と、を備える、
遠隔操作システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システムに関する。
【背景技術】
【0002】
ロボットの遠隔操作を行う際、操作者は、遠隔地にいるロボットの周辺環境の把握が必要である。人間の五感による知覚の割合は視覚が殆どを占めるため、環境把握に視覚情報提示が有効である。遠隔地の画像データを合成して提供するシステムが提案されている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2022/026692号
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、視覚情報はデータ容量が大きく、かつ遠隔操作時は通信帯域が制限されるため通信遅延が発生する。例えば、国際宇宙ステーションと地上とでは往復で0.75秒程度の遅延が発生し、月と地上との往復では3秒程度の遅延が発生する。さらに、この遅延時間は、伝送路の状況により変化する可能性がある。通信遅延が変化する環境では、操作性を損なう。このように、従来技術では、遠隔操作時、画像情報の伝送遅延によって、操作性を損なっていた。
【0005】
本発明は、上記の問題点に鑑みてなされたものであって、遅延が生じる環境であっても、操作性を損なわない画像情報を提供することができる遠隔操作方法、プログラム、遠隔操作装置、および遠隔操作システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)上記目的を達成するため、本発明の一態様に係る遠隔操作方法は、ロボットの遠隔操作方法であって、操作者が操作すると、操作入力を前記ロボットの関節角度指令値に変換する変換工程と、前記ロボットの存在する空間の実視覚情報を取得する取得工程と、3次元表現により操作者に前記ロボットの存在する空間中の任意視点の仮想視覚情報を生成する生成工程と、前記実視覚情報を新たに取得できていない場合に、前記仮想視覚情報を前記操作者の視認する画面に投影し、前記実視覚情報を新たに取得できている場合に、新たに取得した前記実視覚情報に基づく画像を前記実視覚情報に合成した混合画像を前記操作者の視認する画面に投影する投影工程と、を有するロボットの遠隔操作方法である。
【0007】
(2)また、本発明の一態様に係る(1)の遠隔操作方法において、前記仮想視覚情報は、前記実視覚情報の取得時に保持している視覚情報と、前記操作者に前記実視覚情報が到着する時間で保持している視覚情報を入力として、前記視覚情報から運動や形状などのパラメータを回帰により予測する前記3次元表現の逆変換で求め、時系列ネットワークを用いて時刻間のパラメータを補間することにより計算される。
【0008】
(3)また、本発明の一態様に係る(1)または(2)の遠隔操作方法において、前記生成工程では、前記関節角度指令値と、前記操作者の視認する画面の姿勢と、取得された実視覚情報とを、学習済みのモデルに入力することで、前記仮想視覚情報を生成する。
【0009】
(4)また、本発明の一態様に係る(1)から(3)のうちのいずれか1つの遠隔操作方法において、前記実視覚情報を取得した時刻の前記ロボットと作業対象の物体の姿勢が推定された姿勢情報を用いて、前記仮想視覚情報を生成する。
【0010】
(5)また、本発明の一態様に係る(1)から(4)のうちのいずれか1つの遠隔操作方法において、前記実視覚情報には、撮影された時刻情報と、撮影された画像に対して認識処理で認識された作業対象物体の位置情報と前記作業対象物体の姿勢情報と、を含むメタデータを含み、前記生成工程では、前記メタデータを用いて前記ロボットの姿勢と、前記作業対象物体の姿勢が推定された推定情報を用いて、前記仮想視覚情報を生成する。
【0011】
(6)また、本発明の一態様に係る(1)から(5)のうちのいずれか1つの遠隔操作方法において、前記投影工程では、前記実視覚情報と前記仮想視覚情報との混合比率を、前記実視覚情報の時刻毎の変化率に応じて決定する。
【0012】
(7)また、本発明の一態様に係る(1)から(6)のうちのいずれか1つの遠隔操作方法において、前記実視覚情報は、RGBデータと、深度データを含む。
【0013】
(8)上記目的を達成するため、本発明の一態様に係るプログラムは、遠隔操作のコンピュータに、操作者が操作すると、操作入力をロボットの関節角度指令値に変換させ、前記ロボットの存在する空間の実視覚情報を取得させ、3次元表現により操作者に前記ロボットの存在する空間中の任意視点の仮想視覚情報を生成させ、前記実視覚情報を新たに取得できていない場合に、前記仮想視覚情報を前記操作者の視認する画面に投影し、前記実視覚情報を新たに取得できている場合に、新たに取得した前記実視覚情報に基づく画像を前記実視覚情報に合成した混合画像を前記操作者の視認する画面に投影させる、ことを実行させるプログラムである。
【0014】
(9)上記目的を達成するため、本発明の一態様に係る遠隔操作装置は、操作者が操作すると、操作入力をロボットの関節角度指令値に変換する変換部と、前記ロボットの存在する空間の実視覚情報を取得する取得部と、3次元表現により操作者に前記ロボットの存在する空間中の任意視点の仮想視覚情報を生成する生成部と、前記実視覚情報を新たに取得できていない場合に、前記仮想視覚情報を前記操作者の視認する画面に投影し、前記実視覚情報を新たに取得できている場合に、新たに取得した前記実視覚情報に基づく画像を前記実視覚情報に合成した混合画像を前記操作者の視認する画面に投影する投影部と、を備える遠隔操作装置である。
【0015】
(10)上記目的を達成するため、本発明の一態様に係る遠隔操作システムは、遠隔操作装置と、遠隔地側装置とを備え、前記遠隔地側装置は、ロボットと、前記ロボットが存在する環境の実視覚画像を検出する視覚センサと、を備え、前記遠隔操作装置は、操作者が操作すると、操作入力を前記ロボットの関節角度指令値に変換する変換部と、前記ロボットの存在する空間の実視覚情報を取得する取得部と、3次元表現により操作者に前記ロボットの存在する空間中の任意視点の仮想視覚情報を生成する生成部と、前記実視覚情報を新たに取得できていない場合に、前記仮想視覚情報を前記操作者の視認する画面に投影し、前記実視覚情報を新たに取得できている場合に、新たに取得した前記実視覚情報に基づく画像に合成した混合画像を前記実視覚情報を前記操作者の視認する画面に投影する投影部と、を備える、遠隔操作システムである。
【発明の効果】
【0016】
(1)~(10)によれば、遅延が生じる環境であっても、操作性を損なわない画像情報を提供することができる。
【図面の簡単な説明】
【0017】
図1】実施形態に係る遠隔操作システムの構成例を示す図である。
図2】実施形態に係る遠隔地側装置の構成例を示す図である。
図3】実施形態に係る操作側装置の構成例を示す図である。
図4】実施形態に係るデータ取得タイミング、受信タイミング、推定した情報の外挿等を説明するための図である。
図5】複数の視点の処理を行う場合の構成例を示す図である。
図6】実施形態に係る遠隔操作システムの処理手順例のフローチャートである。
図7】実施形態に係る遠隔地側装置の視覚センサの検出データに対する処理手順例のフローチャートである。
図8】実施形態に係る遠隔地側装置の内界センサの検出結果に対する処理手順例のフローチャートである。
図9】実施形態に係る遠隔地側装置の統合されたデータに対する処理手順例のフローチャートである。
図10】実施形態に係る遠隔地側装置の圧縮されたデータに対する処理手順例のフローチャートである。
図11】実施形態に係る仮想進展画像の生成、画像の混合等の処理手順例のフローチャートである。
図12】視覚センサが撮影する画像の例を示す図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「XXに基づいて」とは、「少なくともXXに基づく」ことを意味し、XXに加えて別の要素に基づく場合も含む。また、「XXに基づいて」とは、XXを直接に用いる場合に限定されず、XXに対して演算や加工が行われたものに基づく場合も含む。「XX」は、任意の要素(例えば、任意の情報)である。
【0019】
[遠隔操作システムの構成例]
図1は、本実施形態に係る遠隔操作システムの構成例を示す図である。図1のように、遠隔操作システム1は、操作側装置2と、遠隔地側装置3を備える。
操作側装置2は、例えば、第1通信装置21と、遠隔操作装置22と、表示部23と、センサ24と、センサ25を備える。
遠隔地側装置3は、例えば、ロボット31と、第2通信装置32を備える。
操作側装置2(遠隔操作装置)と遠隔地側装置3とは、ネットワークNWを介して接続される。
【0020】
第1通信装置21は、遠隔地側装置3が送信した情報を受信し、受信した受信情報を遠隔操作装置22に出力する。第1通信装置21は、遠隔操作装置22が出力する送信情報を遠隔地側装置3へ送信する。
【0021】
遠隔操作装置22は、受信情報に基づいて表示部23に表示させる画像を生成し、生成した画像を表示部23に表示させる。遠隔操作装置22は、表示部23が備える視線検出部が検出した結果、センサ24が検出した操作者の手や指の角度と動きと、受信情報に含まれるロボット31の関節等の角度、受信情報に含まれる環境情報に基づいて、ロボット31の制御指令を生成する。遠隔操作装置22は、生成した制御指令を、送信情報として第1通信装置21に出力する。遠隔操作装置22は、センサ25の検出結果に基づいて、操作者の頭部の姿勢を推定する。
【0022】
表示部23は、例えばHMD(Head Mounted Display)であり、操作者の視線を検出する視線検出部を備える。表示部23は、遠隔操作装置22が生成した画像を表示する。
【0023】
センサ24は、例えば、操作者の手の装着される操作指示検出部である。センサ24は操作者の手や指の位置、角度、動き等を検出する。
センサ25は、操作者の視点と視線方向を検出する。
【0024】
ロボット31は、少なくともマニュピレータと、視覚センサ(カメラ)と、マニュピレータの角度や位置や動きを検出するセンサを備える。ロボット31は、視覚センサが撮影した画像とセンサが検出した検出結果を、第2通信装置32に出力する。ロボット31は、第2通信装置32が出力する送信情報に含まれる制御指示に応じて動作する。
【0025】
第2通信装置32は、操作側装置2が送信する送信情報を受信し、送信情報に含まれる制御指示をロボット31に出力する。第2通信装置32は、ロボット31が出力する画像と検出結果を操作側装置2へ送信する。
【0026】
[遠隔地側装置の構成例]
図2は、本実施形態に係る遠隔地側装置の構成例を示す図である。図2のように、遠隔地側装置3は、例えば、視覚センサ301(301-1,301-2)、内界センサ302、検出推定部303(303-1,303-2)、エンコーダ304、データ統合部305、データ圧縮部306、通信部307、制御部308、アクチュエータ309、および処理部310を備える。なお、図2の構成例は、操作側装置2にステレオ画像を提示させる場合の構成例である。
【0027】
視覚センサ301(301-1,301-2)は、例えば、魚眼レンズを備える撮影装置である。視覚センサ301は、例えばロボット31の頭部に取り付けられている。なお、視覚センサ301が撮影した画像には、深度情報も含む。なお、視覚センサ301の数は、1つでもよく、3つ以上であってもよい。
【0028】
内界センサ302は、ロボット31が備えるエンドエフェクタの関節等に取り付けられているセンサであり、例えば、関節エンコーダ、張力センサ、トルクセンサ等である。
【0029】
検出推定部303(303-1,303-2)は、撮影されたRGBDデータに対して周知のインスタンスセグメンテーション(Instance Segmentation)処理を行って、関心対象(ROI)と背景等を分離する。なお、撮影された画像に複数の物体が写っている場合は、物体毎に物体認識を行う。検出推定部303は、撮影されたRGBDデータに対して周知の画像処理を行って、対象物の姿勢を推定する。検出推定部303(303-1,303-2)は、例えば、タイムスタンプ、姿勢、インスタンス(関心対象ROI、クラス情報(ID))を含むメタデータである。
【0030】
エンコーダ304は、視覚センサ301-1が出力するRGBD(W(幅)×H(高さ)×4(RGBDの4つ))データと、検出推定部303-1が出力するメタデータと、視覚センサ301-2が出力するRGBD(W×H×4)データと、検出推定部303-2が出力するメタデータそれぞれを、ストリーミング可能なデータに所定の手法でエンコードする。
【0031】
データ統合部305は、エンコードされたデータを統合する。
【0032】
データ圧縮部306は、内界センサ302が検出した検出結果を所定の手法で圧縮する。
【0033】
通信部307は、データ統合部305が出力する統合されたデータと、データ圧縮部306が圧縮した検出結果を、ネットワークNWを介して操作側装置2へ送信する。通信部307は、操作側装置2から制御指示を含む送信情報を受信し、受信した制御指示を制御部308に出力する。なお、送信される画像データは、通信環境に合わせて、フレームレートを少なくしたものであるか、撮影された画像の解像度を落としたものである。なお、通信部307は、統合されたデータを送信する第1の通信部と、圧縮されたデータを送信する第2の通信部を備えている。
【0034】
制御部308は、制御指示を用いて、アクチュエータ309を駆動する。
【0035】
アクチュエータ309は、エンドエフェクタに取り付けられている。アクチュエータ309は、制御部308の制御に応じて駆動される。
【0036】
処理部310は、視覚センサ301からのデータ取得、内界センサ302からのデータ取得、エンコーダ304、データ圧縮、データ統合、送信等を制御する。
【0037】
[操作側装置の構成例]
図3は、本実施形態に係る操作側装置の構成例を示す図である。図3のように、操作側装置2は、例えば、HMD201(投影部)、操作指示検出部204(センサ24)、指令値生成部205(変換部)、通信部206(取得部)、デコーダ207、データ展開部208、姿勢推定部209、モデル210(生成部)、出力部211、出力部212、出力部213、解像度復元部214、解像度復元部215、第1混合データ生成部216(生成部、投影部)、第2混合データ生成部217(生成部、投影部)、および処理部218(生成部、投影部)を備える。
HMD201は、視線検出部202(センサ25)と、HMD201の位置と姿勢を検出するセンサ203(センサ25)と、表示部23(図1)を備える。
なお、図3の構成例は、操作側装置2が、ステレオ画像を提示する場合の構成例である。
【0038】
視線検出部202(センサ25)は、操作者の視点と視線方向を検出する。視線検出部202は、例えば、両眼に対応するように左右に設けられている。視線検出部202は、検出した左右の視点と視線方向をモデル210に入力する。
【0039】
操作指示検出部204(センサ24)は、操作者の指や手の位置、動き等を検出する。操作指示検出部204は、遠隔操作における操作入力インタフェースである。操作指操作示検出部204は、検出した検出結果を指令値生成部205に出力する。操作指示検出部204は、例えば、データグローブ、外骨格式のデバイス等である。
【0040】
指令値生成部205は、操作指示検出部204が出力する検出結果を用いて、ロボット31のハンドやアームに対する制御指令を生成し、生成した制御指令を通信部206に出力する。すなわち、指令値生成部205は、操作者が操作すると、その操作入力をロボット31の関節角度指令値に変換する。指令値生成部205は、操作指示検出部204が出力する検出結果を用いて、ロボット31のハンドやアームに対する関節角度を生成し、生成した関節角度を示す情報をモデル210に入力する。
【0041】
通信部206は、指令値生成部205が出力する制御指令を、ネットワークNWを介して遠隔地側装置3へ送信する。通信部206は、遠隔地側装置3から受信した情報に含まれるデータ統合されたデータをデコーダ207に出力する。通信部206は、遠隔地側装置3から受信した情報に含まれるデータ圧縮されたデータをデータ展開部208に出力する。なお、通信部206は、統合されたデータを受信する第1の通信部と、圧縮されたデータを受信する第2の通信部を備えている。
【0042】
デコーダ207は、デコードされデータ統合されたデータに対して、所定の手法でデコード処理を行う。デコーダ207は、この処理によって、RGBDデータとメタデータを取り出す。デコーダ207は、メタデータを姿勢推定部209に出力する。デコーダ207は、RGBDデータを解像度復元部214と解像度復元部215に出力する。
【0043】
データ展開部208は、データ圧縮されたデータを解凍して展開する。データ展開部208は、この処理によって、内界センサ302の検出結果を取り出し、取り出した内界センサ302の検出結果を姿勢推定部209と出力部213出力する。
【0044】
姿勢推定部209は、推論器である。姿勢推定部209は、デコーダ207から入力されるメタデータ、データ展開部208から入力される内界センサ302の検出結果と、モデル210から入力される仮想視点(仮想視覚)画像データに基づいて、作業対象の物体の姿勢と、ロボット31のエンドエフェクタ(アーム、ハンド)の姿勢を周知の手法によって遅延が無いように推定する。このため、姿勢推定部209からモデル210に入力される作業対象の物体の姿勢と、ロボット31のエンドエフェクタ(アーム、ハンド)の姿勢は、遅延時間が内容に推定された姿勢データである。なお、姿勢推定部209は、取得されたデータに含まれるタイムスタンプにより内界センサ302が取得した時刻と、操作側装置がデータを取得した時刻との時間差(遅延量)に基づいて推定する。また、姿勢推定部209は、指令値生成部205が生成する指令値に基づいて、作業の際、遅延量後の時刻にロボット31が取る好ましい姿勢を予め記憶しておき、記憶された情報を参照して推定するようにしてもよい。
【0045】
モデル210は、例えば、操作者の視点と視線方向、操作者の関節角度、姿勢推定部209が推定した物体の姿勢とロボット31のエンドエフェクタの姿勢を用いて、作業状態の仮想視点画像データ(RGBDデータ)を学習したモデルである。モデル210は、例えばNeRF(Neural Radiance Fields)表現(ニューラル3次元表現)で表される。なお、NeRFは、複数の視点の画像から3Dモデルを生成して、任意の視点の映像をレンダリングすることができる。また、NeRFでは、ポリゴンを使用せずに、機械学習モデルとして3Dモデルを表現できる(例えば参考文献1参照)。モデル210は、入力されたデータに基づいて、例えば左右の撮影さえた画像データの解像度より高いRGBD(NW(幅)×NH(高さ)×4(RGBDの4つ))を出力部211と出力部212に出力する。
【0046】
参考文献1;Ben Mildenhall1,Pratul P. Srinivasan1, et al, “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, ECCV 2020 (oral), 2020
【0047】
出力部211は、例えばデコーダを備える。出力部211は、モデル210が出力するRGBD(NW(幅)×NH(高さ)×4)データを第1混合データ生成部216に出力する。なお、出力部211は、バッファを備える。
【0048】
出力部212は、例えばデコーダを備える。出力部212は、モデル210が出力するRGBD(NW(幅)×NH(高さ)×4)データを第2混合データ生成部217に出力する。なお、出力部212は、バッファを備える。
なお、出力部211と出力部212は、HMD201に立体視を提供するためにも使用される。このため、提供される画像が立体視では無い場合、操作側装置2は、出力部211と出力部212のうちの1つを備えていればよい。
【0049】
出力部213は、展開された内界センサ302の検出結果を、第1混合データ生成部216と第2混合データ生成部217に出力する。なお、出力部213は、バッファを備える。また、出力部213は、内界センサ302が推定した値をエンコードして特徴量を求める。
【0050】
解像度復元部214は、デコードされた画像データの解像度を周知の手法で復元する。解像度復元部214は、復元した超解像の画像データであるRGBD(NW(幅)×NH(高さ)×4(RGBDの4つ))データを第1混合データ生成部216に出力する。なお、解像度復元部214は、バッファを備える。
【0051】
解像度復元部215は、デコードされた画像データの解像度を周知の手法で復元する。解像度復元部214は、復元した超解像の画像データであるRGBD(NW(幅)×NH(高さ)×4(RGBDの4つ))データを第2混合データ生成部217に出力する。なお、解像度復元部215は、バッファを備える。
【0052】
第1混合データ生成部216は、例えばエンコーダとデコーダを備える。第1混合データ生成部216は、仮想画像と実画像を混合して生成し、生成した混合データをHMD201の表示部23に表示させる。なお、仮想視覚情報は、例えば、視覚センサ301が検出した実視覚情報の取得時に保持している視覚情報と、操作者に実視覚情報が到着する時間で保持している視覚情報を入力として、視覚情報から運動や形状などのパラメータを回帰により予測する3次元表現の逆変換で求め、時系列ネットワークを用いて時刻間のパラメータを補間することにより計算される。また、第1混合データ生成部216は、出力部213が求めた内界センサ302の特徴量も用いて、仮想画像と実画像を混合するようにしてもよい。なお、本実施形態において、混合とは、後述するように、実視覚情報が得られているときは実視覚情報を提供し、実視覚情報が得られていないときに仮想視点情報を提供することである。
【0053】
第2混合データ生成部217は、例えばエンコーダとデコーダを備える。第2混合データ生成部217は、仮想画像と実画像との混合データ生成し、生成した混合データをHMD201の表示部23に表示させる。なお、第2混合データ生成部217は、例えば、混合比率を変化率に応じて決定することで混合する。また、第2混合データ生成部217は、出力部213が求めた内界センサ302の特徴量も用いて、仮想画像と実画像を混合するようにしてもよい。
なお、操作側装置は、第1混合データ生成部216と第2混合データ生成部217のうちの1つを備えていればよい。
また、第1混合データ生成部216と第2混合データ生成部217は、HMD201に立体視を提供するためにも使用される。このため、提供される画像が立体視では無い場合、操作側装置2は、第1混合データ生成部216と第2混合データ生成部217のうちの1つを備えていればよい。
【0054】
処理部218は、データの受け渡し、パラメータの設定等の処理を制御する。
【0055】
表示部23は、第1混合データ生成部216が混合した混合データと、第2混合データ生成部217が混合した混合データのうちのいずれか1つを表示する。
【0056】
[データ取得タイミング、受信タイミング、情報の推定]
次に、データ取得タイミング、受信タイミング、推定した情報の外挿等を説明する。図4は、本実施形態に係るデータ取得タイミング、受信タイミング、推定した情報の外挿等を説明するための図である。図4において、横軸はフレームまたは時刻である。
【0057】
符号g101は、第1の視覚センサ301-1(RGBD)(例えば左側)のデータ取得タイミングの例である。符号g102は、第2の視覚センサ301-2(RGBD)(例えば右側)のデータ取得タイミングの例である。なお、送信する通信帯域が狭いことが多いので、両矢印g111のようにFPS(フレームレート)、解像度を上げることができない。このため、本実施形態では、操作側装置2が解像度の復元処理を行うことで、撮影された画像より高い解像度の画像データを得る。なお、本実施形態では、視覚センサ301のデータは、ストリーミングで送受信される。
【0058】
符号g103は、内界センサ302(関節角度等)のデータ取得タイミングである。なお、例えば、宇宙空間での通信プロトコルは、CCSDS(Consultative Committee for Space Data Systems)を用いており、エラーが発生したパケットは破棄される。このため、遅延が秒単位の系では、インタラクティブな遠隔操作は難しい。モニタリングは、仮想画像を混ぜることでインタラクティブにできるので、本実施形態では仮想画像を混合するようにした。
【0059】
符号g104、g105は、通信遅延の影響で、過去の情報を受け取るタイミング例である。
【0060】
図4の例では、時刻t1のとき、遠隔地側装置3は、内界センサ302のデータを送信する。しかしながら、通信系の遅延により、時刻t3のとき、操作側装置2は、送信されたデータを受信する。同様に、時刻t3のとき、内界センサ302のデータが送信されるが、操作側装置2は、時刻t5のとき送信されたデータを受信する。
【0061】
また、視覚センサ301のデーが時刻t2のときに送信されるが、通信系の遅延により、時刻t5のとき、操作側装置2は、送信されたデータを受信する。視覚センサ301のデーが時刻t6のときに送信されるが、時刻t7のとき、操作側装置2は、送信されたデータを受信する。なお、内界センサ302の送受信の遅延時間より、視覚センサ301の市送受信の遅延時間が長い理由は、視覚センサ301のデータが画像データであり内界センサ302のデータより大きいためである。
【0062】
例えば、符号g106の例では、時刻t4の時に受信する信号は、過去の例えば時刻t3の時のデータである。このため、本実施形態では、符号g106のように、受信した過去情報から現在情報を推定し、再び情報を受信するまで情報を外挿する。例えば、姿勢推定部209が、時刻t3の時に受信したデータを用いて、時刻t4のときに受信するであろうデータを推定する。
【0063】
画像データの場合、例えば、時刻t6で受信する画像データは、時刻t2のときのもので、現在の画像データが得られていない。このため、本実施形態では、モデル210で、現在の画像を推定して、第1個運号データ生成器216が受信した画像データと推定された画像データを混合して提示する。
【0064】
また、本実施形態では、符号g107のように、解像度復元処理によって、仮想画像で高解像度、高フレームレートである視点画像を生成する。例えば、実画像データを受信できていない時刻t6~t7の期間、このような画像を提供し続ける。
【0065】
なお、任意の視点画像は、操作者がHMD201を使用しているので遅延無く取得できる。しかしながら、ロボット31が存在する空間の実視覚情報は取得の際、遅延している。このため、本実施形態では、姿勢推定部209が推定したロボット31の姿勢と、遅延して得られた実視覚情報とをモデル210に入力することで、現在の時刻の遅延のない仮想視点画像を得る。例えば、ロボット31の関節角が推定されるので、ロボット31から見た視点画像である現在の時刻の遅延のない仮想視点画像が得られる。このような処理を行うため、本実施形態では、推定した情報を用いるため、視覚センサ301(外界センサ)と、内界センサ302の情報が得られるタイミングが異なっていても適切に仮想視点画像を生成できる。なお、処理部218は姿勢推定部209がロボット31の姿勢を推定する場合、操作指示検出部204から取得した情報による指令値を遅延無く得ることができるので、例えばカルマンフィルタ等を用いて、内界センサ302の情報が得られていない期間、外挿することも可能である。
このように、本実施形態では、データを受信できていない期間でも、仮想視点画像を遅延無く提供できる。
【0066】
[複数の視点の処理例]
ここで、複数の視点の処理を行う場合の構成例を説明する。
図5は、複数の視点の処理を行う場合の構成例を示す図である。複数の視点の処理の場合、ストリーミングの信号に例えばMPEG(Moving Picture Experts Group)のHEVC規格を用いるようにしてもよい。この場合の構成は、図5のように、例えば、第1の視点について、RGB画像データ351-1と深度データ352-1がエンコーダ353-1に入力される。第Nの視点について、RGB画像データ351-Nと深度データ352-Nがエンコーダ353―Nに入力される。そして、各エンコーダ353-1~Nの出力が混合器354に入力される。
なお、上述した信号フォーマットと構成は一例であり、これに限らない。信号フォーマットは他のフォーマットであってもよく、構成は信号フォーマットに応じた構成であればよい。
【0067】
[遠隔操作システムの処理手順例]
次に、遠隔操作システム1の処理手順を説明する。図6は、本実施形態に係る遠隔操作システムの処理手順例のフローチャートである。
【0068】
(ステップS1)操作側装置2の処理部218は、操作者が操作すると、その操作入力をロボット31の関節角度指令値に変換する。
【0069】
(ステップS2)処理部218は、視覚センサ301が検出するロボット31の存在する空間の実視覚情報を取得する。
【0070】
(ステップS3)処理部218は、例えば、ニューラル3次元表現により操作者にロボットの存在する空間中の任意視点の仮想視覚情報を、モデル210を用いて生成する。
【0071】
(ステップS4)処理部218は、新たな実視覚情報を取得したか否かを判別する。処理部218は、新たな実視覚情報を取得した(フレームが更新)と判別した場合(ステップS4;YES)、ステップS5の処理に進める。処理部218は、新たな実視覚情報を取得していない(フレームが更新されていない)と判別した場合(ステップS4;NO)、ステップS6の処理に進める。
【0072】
(ステップS5)処理部218は、新たに受信した実視覚情報に基づく画像を仮想視点画像に合成した混合画像をHMD201に投影させる。受信した新たな実視覚情報には遅れが生じているため、処理部218は、遅れ分を予測して新たに受信した画像を、ステップS3で生成した画像に合成する。その際、処理部218は、遅れを考慮しても変化が無い画素、または新しい領域については実画像の画素値を用いる。この時、実画像と合成画像との画素は、実画像をそのまま投影されるのではなく、遅延時間を考慮した合成画像を作成して投影される。その際、処理部218は、物体の動きなど外挿しているパラメータを実画像や実データから修正する。処理部218は、処理後、処理を終了する。
【0073】
(ステップS6)処理部218は、過去に受信した実視覚情報を用いてステップS3で
生成した仮想視点画像をHMD201に投影させる。処理部218は、処理後、処理を終了する。
【0074】
なお、処理部218は、操作が継続されている間、ステップS1~S6の処理を繰り返す。
【0075】
[遠隔地側装置の処理手順例]
次に、遠隔地側装置3の処理手順例を説明する。
まず、視覚センサ301に対する処理手順例を説明する。図7は、本実施形態に係る遠隔地側装置の視覚センサの検出データに対する処理手順例のフローチャートである。
【0076】
(ステップS101)処理部310は、全ての視覚センサ301に対して処理(データ取得)を行ったか否かを判別する。処理部310は、全ての視覚センサ301に対して処理を行ったと判別した場合(ステップS101;YES)、ステップS106の処理に進める。処理部310は、処理を行っていない視覚センサ301がある判別した場合(ステップS101;NO)、ステップS102の処理に進める。
【0077】
(ステップS102)処理部310は、視覚センサ301からRGBDデータを取得する。
【0078】
(ステップS103)処理部310は、RGBDデータの取得タイミングの内界センサ302の検出結果を取得する。
【0079】
(ステップS104)検出推定部303は、取得したRGBDデータを用いて、物体認識を行う。
【0080】
(ステップS105)検出推定部303は、取得したRGBDデータを用いて、物体の位置と姿勢の認識を行う。検出推定部303は、処理後、ステップS101の処理に戻す。
【0081】
(ステップS106)エンコーダ304は、RGBDデータと認識結果に対して、エンコード処理を行う。
【0082】
(ステップS107)データ統合部305は、エンコードされた複数の視点のデータに対してデータ統合処理を行う。なお、データ統合処理は、図5の混合器354のように、複数の視点データに対して行う。
【0083】
(ステップS108)通信部307は、統合されたデータを操作側装置2へ送信する。
【0084】
次に、内界センサに対する処理手順例を説明する。図8は、本実施形態に係る遠隔地側装置の内界センサの検出結果に対する処理手順例のフローチャートである。
【0085】
(ステップS151)処理部310は、内界センサ302から検出結果を取得することで、ロボット31の状態を取得する。
【0086】
(ステップS152)データ圧縮部306は、例えば非可逆な圧縮方式で検出結果に対してデータ圧縮を行う。
【0087】
(ステップS153)通信部307は、圧縮されたデータを操作側装置2へ送信する。
【0088】
[操作側装置の処理手順例]
次に、操作側装置2の処理手順例を説明する。
まず、統合されたデータに対する処理手順例を説明する。図9は、本実施形態に係る遠隔地側装置の統合されたデータに対する処理手順例のフローチャートである。
【0089】
(ステップS201)通信部206は、遠隔地側装置3が送信した統合されたデータを受信する。
【0090】
(ステップS202)通信部206は、受信したデータにエラーパケットが存在するか否かを判別する。通信部206は、受信したデータにエラーパケットが存在しないと判別した場合(ステップS202;YES)、ステップS204に処理に進める。通信部206は、受信したデータにエラーパケットが存在すると判別した場合(ステップS202;NO)、ステップS203の処理に進める。
【0091】
(ステップS203)通信部206は、エラーパケットを削除して、ステップS204の処理に進める。
【0092】
(ステップS204)デコーダ207は、統合されたデータをデコードして展開する。
【0093】
(ステップS205)解像度復元部214,215は、デコードされたデータのうちRGBDデータに対して解像度の復元処理を行う。
【0094】
(ステップS206)解像度復元部214,215は、解像度の復元処理したデータをバッファに保持する。
【0095】
次に、圧縮されたデータに対する処理手順例を説明する。図10は、本実施形態に係る遠隔地側装置の圧縮されたデータに対する処理手順例のフローチャートである。
【0096】
(ステップS251)通信部206は、遠隔地側装置3が送信した圧縮されたデータを受信する。
【0097】
(ステップS252)通信部206は、受信したデータにエラーパケットが存在するか否かを判別する。通信部206は、受信したデータにエラーパケットが存在しないと判別した場合(ステップS252;YES)、ステップS254に処理に進める。通信部206は、受信したデータにエラーパケットが存在すると判別した場合(ステップS252;NO)、ステップS253の処理に進める。
【0098】
(ステップS253)通信部206は、エラーパケットを削除して、ステップS204の処理に進める。
【0099】
(ステップS254)データ展開部208は、圧縮されたデータを解凍して展開する。
【0100】
(ステップS255)出力部213は、解凍されたデータをバッファに保持する。
【0101】
次に、仮想進展画像の生成、画像の混合等の処理手順例を説明する。
図11は、本実施形態に係る仮想視点画像の生成、画像の混合等の処理手順例のフローチャートである。
【0102】
(ステップS301)処理部218は、バッファから最新のデータを取得する。
【0103】
(ステップS302)処理部218は、操作側装置2の起動が1回目である(初回起動)か否かを判別する。処理部218は、操作側装置2が初回起動であると判別した場合(ステップS302;YES)、ステップS303の処理に進める。処理部218は、操作側装置2が初回起動ではないと判別した場合(ステップS302;NO)、ステップS305の処理に進める。
【0104】
(ステップS303)処理部218は、姿勢推定部209に対して、ロボット31の姿勢推定のパラメータを更新する(初期化する)。
【0105】
(ステップS304)処理部218は、姿勢推定部209に対して、物体の姿勢推定のパラメータを更新する(初期化する)。
【0106】
(ステップS305)処理部218は、HMD201の情報(位置、姿勢)を取得する。
【0107】
(ステップS306)処理部218は、新しい内界センサ302のロボット31の姿勢情報があるか否かを判別する。処理部218は、新しい姿勢情報があると判別した場合(ステップS306;YES)、ステップS307の処理に進める。処理部218は、新しい姿勢情報がないと判別した場合(ステップS306;NO)、ステップS308の処理に進める。
【0108】
(ステップS307)処理部218は、姿勢推定部209のパラメータを更新する。
【0109】
(ステップS308)処理部218は、姿勢推定部209の推定結果(ロボット31の姿勢、物体の姿勢)を取得する。
【0110】
(ステップS309)処理部218は、モデル210に取得したデータ(姿勢推定部の推定結果、HMD201の位置と姿勢、内界センサ302の検出結果)を入力して仮想視点画像を生成する。
【0111】
(ステップS310)処理部218は、フレームが更新されている(実画像が得られている)か否かを判別する。処理部218は、フレームが更新されていると判別した場合(ステップS310;YES)、ステップS311の処理に進める。処理部218は、フレームが更新されていないと判別した場合(ステップS310;NO)、ステップS312の処理に進める。
【0112】
(ステップS311)第1混合データ生成部216、および第2混合データ生成部217のうちに少なくとも1つは、新たに受信した実視覚情報に基づく画像を仮想視点画像に合成した混合画像を生成する。
【0113】
(ステップS312)第1混合データ生成部216、および第2混合データ生成部217のうちに少なくとも1つは、実画像が得られていない場合に仮想視点画像をHMD201に表示させ、実画像が得られている場合に混合データをHMD201に表示させる。
【0114】
[HMDに表示される画像の例]
ここで、HMD201に表示される画像の例を説明する。
図12は、視覚センサが撮影する画像の例を示す図である。画像g101は、第1の視覚センサ301が、ロボット31を含む作業状態を撮影した画像の一例を示す画像である。画像g111は、第1の視覚センサ301が、ロボット31から見た画像の例を示す画像である。なお、画像g101、g111は、2つある視覚センサ301の一方の画像の例を示している。
ロボット31に対して遠隔地で取得される実視覚画像には、遅延が発生している。このため、本実施形態では、過去に取得した実視覚画像を用いて仮想視点画像を生成するか、新たに受信した実視覚情報に基づく画像を仮想視点画像に合成した混合画像を生成して、HMD201に提示するようにした。なお、仮想視点画像は、例えば、球状に360度の視点を推定した画像である。
【0115】
本実施形態によれば、仮想視点画像を生成するようにしたので、操作者は、ロボット31の視点に無関係に自由視点で、ロボット31が存在している環境を観測することができる。また、本実施形態では、遅延して得られる実視覚情報を用いて、現在の仮想視点画像を推定するようにしたので、実視覚情報が得られない期間に、仮想視点画像を提供することで、操作者に連続してロボット31の作業空間の画像を提供できる。
【0116】
本実施形態によれば、遅延環境下でも遅延が存在しないようなフォトリアリスティックな画像を操作者に提示することができる。そして、本実施形態によれば、ロボットから不可視な領域でも仮想画像が作成できる。
【0117】
なお、ロボット31が存在する空間は、宇宙空間に限らず、操作者と離れた場所であればデータの送受信の際に遅延が発生するため、上述した本実施形態の手法を適用することができる。
【0118】
また、HMD201は、両眼用であっても単眼用であってもよい。さらに、提供する仮想視点画像は、モノクロであってもカラーであってもよい。また、提供する画像は、連続する静止画であっても、連続する時間を短くした動画であってもよい。
【0119】
なお、本発明における操作側装置2、遠隔地側装置3の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより操作側装置2、遠隔地側装置3が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0120】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0121】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0122】
1…遠隔操作システム、2…操作側装置、3…遠隔地側装置、21…第1通信装置、22…遠隔操作装置、23…表示部、24…センサ、25…センサ、31…ロボット、32…第2通信装置、NW…ネットワーク、201…HMD、204…操作指示検出部、205…指令値生成部、206…通信部、207…デコーダ、208…データ展開部、209…姿勢推定部、210…モデル、211…出力部、212…出力部、213…出力部、214…解像度復元部、215…解像度復元部、216…第1混合データ生成部、217…第2混合データ生成部、218…処理部、301,301-1,301-2…視覚センサ、302…内界センサ、303,303-1,303-2……検出推定部、304…エンコーダ、305…データ統合部、306…データ圧縮部、307…通信部、308…制御部、309…アクチュエータ、310…処理部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12