(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-12
(45)【発行日】2024-12-20
(54)【発明の名称】オブジェクトの対話型分類および認識のためのコントローラ
(51)【国際特許分類】
B25J 13/08 20060101AFI20241213BHJP
G06N 20/00 20190101ALI20241213BHJP
B25J 13/00 20060101ALI20241213BHJP
【FI】
B25J13/08 Z
G06N20/00
B25J13/08 A
B25J13/00 Z
(21)【出願番号】P 2023541140
(86)(22)【出願日】2021-05-13
(86)【国際出願番号】 JP2021019082
(87)【国際公開番号】W WO2022085232
(87)【国際公開日】2022-04-28
【審査請求日】2023-03-14
(32)【優先日】2020-10-22
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】コルコデル,ラドゥ・イオアン
(72)【発明者】
【氏名】ジェイン,シッダルタ
(72)【発明者】
【氏名】ファン・バール,イェルーン
【審査官】稲垣 浩司
(56)【参考文献】
【文献】特開2020-23050(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
B25J 1/00 - 21/02
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
触覚フィードバックを使用するシーンにおけるオブジェクトの対話型分類および認識のためのコントローラであって、
制御
信号、ロボットアームからのセンサ信号、前記ロボットアームに取付けられたグリッパからのグリッパ信号、前記グリッパに取付けられた触覚センサ
からの触覚信号および少なくとも1つの視覚センサからの
視覚信号を送信および受信するように構成されたインターフェイスと、
ロボット制御プログラムと分類子および認識モデルとを格納するためのメモリモジュールと、
前記制御プログラムと前記オブジェクトに対する把持姿勢とに基づいて制御信号を生成するように構成され、前記オブジェクトを前記グリッパで把持するように前記ロボットアームを制御するように構成されたプロセッサとを含み、
前記プロセッサはさらに、触覚信号から触覚特徴を計算するように構成され、
前記プロセッサは、1組の把持姿勢で前記オブジェクトを触るかまたは把持して前記触覚特徴を計算するように構成され、
その後、前記プロセッサは、前記オブジェクトを既知または未知として分類または認識するために利用されるモデルを学習するために、触覚特徴を処理し、
前記コントローラは、
前記グリッパが指を含むことと、
前記触覚センサが、前記グリッパの少なくとも1本の指の両側に取付けられることとを特徴とする、コントローラ。
【請求項2】
オブジェクトに対する前記把持姿勢は、少なくとも1つの視覚信号から計算される、請求項1に記載のコントローラ。
【請求項3】
前記1組の把持姿勢から、前記ロボットアームを制御するために
用いられる把持姿勢が選択される、請求項2に記載のコントローラ。
【請求項4】
前記
選択された把持姿
勢は、前記1組
の把持姿勢から作成された
正規分布に基づいて選択され、または、前記
選択された把持姿
勢は、前記オブジェクトの表面カバレージのメトリックに従って選択される、請求項3に記載のコントローラ。
【請求項5】
形状記述子は、触覚情報の表現に基づいている、請求項1に記載のコントローラ。
【請求項6】
前記形状記述子は、触覚情報の3D表現に基づいた3D表面記述子であり、
前記3D表面記述子は、
前記触覚信号から基づいて3D圧力マップを生成し、
前記3D圧力マップから表面法線を計算し、
前記3D圧力マップおよび表面法線から3D表面記述子を計算する、
ように計算され、
前記3D圧力マップは、スプライン表面パッチ方法の使用によって計算される、請求項5に記載のコントローラ。
【請求項7】
分類のための
形状記述子の前記触覚特徴の処理は、機械学習を用いて行なわれる、請求項1に記載のコントローラ。
【請求項8】
前記機械学習のモデルは、1クラスサポートベクトルマシンであり、または、
前記機械学習のモデルは、オブジェクトのインスタンスを分類するために使用され、
前記機械学習のモデルは、オブジェクトのインスタンスを、以前に遭遇したかまたは未遭遇であるとして分類するために使用され、および、
機械学習モデルは、未遭遇として分類されたオブジェクトのインスタンスのために更新され、または、
前記機械学習のモデルは、オブジェクトのインスタンスを認識するために使用される、請求項7に記載のコントローラ。
【請求項9】
前記グリッパに取付けられた前記触覚センサは、触覚センサセルのアレイを含み、および、
前記触覚センサセルは、気圧微小電子機械システムデバイスであり、または、
センサアレイは、ロボットグリッパの指の任意の表面を計測する、請求項1に記載のコントローラ。
【請求項10】
前記グリッパに取付けられた前記触覚センサは、高解像度カメラベースの触覚デバイスを含む、請求項1に記載のコントローラ。
【請求項11】
軟質エラストマーが前記グリッパに取付けられ、取付けられた前記触覚センサは前記軟質エラストマーに配置される、請求項1に記載のコントローラ。
【請求項12】
前記触覚センサは、温度補償およびアナログデジタル信号変換を行なうように構成される、請求項1に記載のコントローラ。
【請求項13】
前記触覚センサは、前記オブジェクトを触ると触覚圧力を測定する、請求項1に記載のコントローラ。
【請求項14】
前記触覚センサは、非平面の表面上に配置されるように柔軟であるように構成される、請求項1に記載のコントローラ。
【請求項15】
前記インターフェイスは、単一のシリアルI2C標準通信バスである、請求項1に記載のコントローラ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は概して、新しいオブジェクトインスタンスの分類および認識のための対話型ロボット触覚認知方法のためのコントローラおよび方法に関する。
【背景技術】
【0002】
ロボット操作は、ロボットの環境が圧倒的にしっかり構造化された単純なピックアンドプレイスタスクから、オブジェクトもそれらの姿勢もロボットシステムに事前に知られていない巧妙な操作へと、この数年にわたって発展してきた。構造化されたピックアンドプレイスタスクは、人為的に減少されたタスク複雑性を活かし、よって、把持動作のために感知を必要とする場合であっても最小限しか必要としない。一方、巧妙な操作は、把持の試みの成功を確認するだけでなく、把持可能なオブジェクトの場所を突き止め、当該オブジェクトを識別し、追跡するために、および、把持を自律的に計画するために、感知により大いに頼らなければならない。典型的には、ロボット操作システムは、環境との見通し線を必要とする、たとえば深度カメラ、LiDARまたはカラーカメラといった「昔ながらの」機械視覚に頼っている。固有の視覚問題のうちのいくつかは、複数の視点、手首内カメラシステム、および視覚サーボを使用することによって緩和され得るが、把持の最終段階、すなわち物理的接触は、依然として見通しがきかず、開ループのままである。さらに重要なことには、把持後および操作中のオブジェクトの状態を推定することは、(たとえば材料特性に起因して)非常に難しい。
【0003】
多くのこれまでの研究は、特に教師あり学習の関連する触覚認識問題を調べてきた。そのような触覚認知問題のいくつかの例は、オブジェクトインスタンス、表面質感情報、および剛性の認識を含む。オブジェクトクラスの数/タイプが先験的に知られている場合、これまでの研究は、オブジェクトインスタンスを認識することを重視してきた。対照的に、この研究では、我々は、ロボットがクラスの数および関連付けられたオブジェクトラベルに関する先験的情報を有していない設定において、触覚操作を用いて新しいオブジェクトインスタンスを認識することを目標とする。我々の研究は、接触との対話が新しいオブジェクトアイデンティティに関する重要情報を提供できるかどうか、および、そのような情報で全体形状および外観特性が近似され得るかどうかという疑問に対処するのに役立つ。
【0004】
いくつかのこれまでの研究は、触覚感知を使用したオブジェクトカテゴリの分類のための、訓練データセットを用いた教師あり学習を調査してきた。スパイアーズ(Spiers)らは、オブジェクト分類を行なうための、タクタイル(TakkTile)気圧センサを装備した単純な2本指劣駆動ハンドを含むグリッパハードウェアを提案した。彼らは、1組のオブジェクトについて訓練データに基づいてオブジェクトインスタンスを認識することを学習するために、ランダムフォレスト(random forest:RF)分類子を使用する。シュナイダー(Schneider)らは、接触感知で得られた低解像度の強度画像に作用するアプローチを使用して、操作ロボットの指先に設置されたタッチセンサを用いてオブジェクトを識別する。そのような触覚観察は、我々の研究と同様に、概して部分的および局所的視点であるに過ぎない。彼らは、局所触覚画像を特徴として用いる分類を行ない、k平均クラスタリングを使用して触覚観察のための特徴語彙を作成するために、バッグ・オブ・ワーズ(Bag-of-Words)フレームワークを適合させる。ドリマス(Drimus)らは、柔軟なピエゾ抵抗ゴムに基づいた新しい触覚アレイセンサを提案し、いくつかの家庭用オブジェクトの分類のためのアプローチを提示した。彼らは、触覚情報のアレイを、動的時間伸縮を用いたk最近傍分類子についての特徴の時系列として表現し、異なる時系列間の距離を算出する。
【0005】
さらに最近では、深層学習ベースのアプローチも、接触および視覚を用いてオブジェクトインスタンスを認識するために提案されている。リン(Lin)らは、視覚および触覚観察を与えられた彼らが、これらの観察が同じオブジェクトに対応するかどうかを認識するクロスモダリティインスタンス認識のための畳み込みニューラルネットワーク(convolutional neural network:CNN)を提案した。彼らの研究では、彼らは、平行ジョーグリッパの指に搭載された2つのジェルサイト(GelSight)センサを使用する。ジェルサイト触覚センサは高解像度画像観察を提供し、それは、センサにおけるカメラの上方に搭載された変形可能なジェルを使用して、精細な表面特徴および材料詳細を検出することができる。彼らのアプローチは訓練中に特定のクラスラベルを必要としないが、それは、すべての深層学習ベースの方法と同様に、訓練用の大きいデータセットを依然として必要とする。研究者らは、接触からオブジェクト特性を推測するための教師あり手法も提案してきた。たとえば、ユエン(Yuan)らは、畳み込みニューラルネットワークとジェルサイト触覚センサとを使用してオブジェクトの硬さを推定することを提案した。
【0006】
認識問題以外にも、触覚感知は、ロボット操作および把持を改良するために利用されてきた。カランドラ(Calandra)らは、把持結果を予測する際の接触感知の有用性を決定するために視覚と接触とを組合せるマルチモード感知フレームワークを提案した。彼らは、把持が成功するか否かを予測するために前面カメラからのRGB画像とジェルサイトセンサとからの入力を用いるディープニューラルネットワーク(deep neural network :DNN)を使用する。ホーガン(Hogan)らは、局所把持調節を用いて把持を改良するために触覚感知を利用する新しい再把持制御ポリシーを提案した。次の項では、我々は、触覚感知ハードウェアおよび触覚データの生成について述べる。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本開示は、対話型触覚フィードバックからの未遭遇であるオブジェクトインスタンスの分類のための新しいアプローチを提供する。我々の提案する実施形態は、3D触覚記述子を使用して1クラス分類モデルを対話的に学習し、よって、オブジェクトについての事前訓練を必要とする既存のアプローチに勝る利点を実証する。我々は、我々がどのように触覚センサ入力から3D特徴を導き出し、1クラス分類子を学習するためにそれらを利用するかについて説明する。加えて、我々の提案する方法は教師なし学習を使用するため、我々はグラウンドトゥルースラベルを必要としない。これは、我々の提案する方法をフレキシブルにし、ロボットシステムへの配備にとってより実用的にする。さらに、我々の提案する方法の実施形態は、視覚と操作のための物理的接触との間の隔りを埋める可能性があり得る触覚認知のための低解像度触覚センサアレイの有用性を実証する。提案される方法はまた、高解像度カメラベースの触覚センサを利用することができる。
【0008】
本開示は、監視のための事前訓練およびグラウンドトゥルースラベルを必要とすることなく、触覚フィードバックに基づいて新しいオブジェクトを分類するための方法を提案する。我々の提案する方法の実施形態は1クラスSVMを使用して、オブジェクトに対する対話型触覚操作から得られた把持圧力マップから導き出された1組の特徴を適合させ、次に、オブジェクトと対話することによってインスタンスを分類する。
【課題を解決するための手段】
【0009】
本発明のいくつかの実施形態によれば、触覚フィードバックを使用するシーンにおけるオブジェクトの対話型分類および認識のためのコントローラが提供される。コントローラは、制御、ロボットアームからのセンサ信号、ロボットアームに取付けられたグリッパからのグリッパ信号、グリッパに取付けられた触覚センサおよび少なくとも1つの視覚センサからの触覚信号を送信および受信するように構成されたインターフェイスを含む。グリッパは指を含み、触覚センサは、グリッパの少なくとも1本の指の両側に取付けられる。コントローラはさらに、ロボット制御プログラムと分類子および認識モデルとを格納するためのメモリモジュールと、制御プログラムとオブジェクトに対する把持姿勢とに基づいて制御信号を生成するように構成され、オブジェクトをグリッパで把持するようにロボットアームを制御するように構成されたプロセッサとを含む。プロセッサはさらに、触覚センサ信号から触覚特徴表現を計算するように構成される。プロセッサは、1組の把持姿勢でオブジェクトを触るかまたは把持して触覚特徴表現を計算するように構成され、その後、プロセッサは、オブジェクトを知られているかまたは知られていないとして分類または認識するために利用されるモデルを学習するために、触覚特徴の集団を処理する。
【0010】
この発明のさらなる理解を提供するために含まれている添付図面は、この発明の実施形態を示しており、記載とともにこの発明の原理を説明するよう機能する。
【図面の簡単な説明】
【0011】
【
図1】我々の対話型の触覚ベースの分類および認識のための実験セットアップを示す図である。
【
図2】好ましい実施形態で使用されるロボットの一例を示す図である。
【
図3A】2本指ロボットグリッパの一例を示す図である。
【
図3B】ロボットグリッパの右指のクローズアップを、グリッパハウジングの一部とともに示す図である。
【
図4】ロボットアームを使用するシステムの一例を示す図である。
【
図5】触覚センサの例示的なレイアウトを示す図である。
【
図6】いくつかの実施形態に従った、触覚ベースの対話型分類および認識システムのブロック図である。
【
図7】触覚ベースの分類および認識プロセスのブロック図である。
【
図8A】いくつかのメトリックに従って着色された候補把持姿勢の一例を示す図である。
【
図8B】何らかの把持可能性メトリックに従って着色された候補把持姿勢の一例を示す図である。
【
図8C】何らかの把持可能性メトリックに従って着色された候補把持姿勢の一例を示す図である。
【
図10A】訓練における1クラス分類適合および格納プロセスの図である。
【
図10B】動作時に触覚センサを用いてオブジェクトを操作し、1クラス分類を利用するためのプロセスの図である
。
【発明を実施するための形態】
【0012】
本発明のさまざまな実施形態を、図面を参照して以下に説明する。なお、図面は縮尺通りに描かれておらず、同様の構造または機能の要素は図面全体を通して同じ数字で表わされる。また、図面は、この発明の特定の実施形態の説明を容易にするよう意図されているに過ぎない。図面は、この発明の網羅的な説明として、または、この発明の範囲に対する限定として意図されていない。加えて、この発明のある特定の実施形態に関連して説明された局面は、必ずしもその実施形態に限定されず、この発明の任意の他の実施形態において実践され得る。
【0013】
ロボット操作は、ロボットの環境が圧倒的にしっかり構造化された単純なピックアンドプレイスタスクから、オブジェクトもそれらの姿勢もロボットシステムに事前に知られていない巧妙な操作へと、この数年にわたって発展してきた。場合によっては、触覚素子(tactile element)の省略形であるタクセル(taxel)は画素に似ている。構造化されたピックアンドプレイスタスクは、人為的に減少されたタスク複雑性を活かし、よって、把持動作のために感知を必要とする場合であっても最小限しか必要としない。一方、巧妙な操作は、把持の試みの成功を確認するだけでなく、把持可能なオブジェクトの場所を突き止め、当該オブジェクトを識別し、追跡するために、および、把持を自律的に計画するために、感知により大いに頼らなければならない。
【0014】
典型的には、ロボット操作システムは、環境との見通し線を必要とする、たとえば深度カメラ、LiDARまたはカラーカメラといった「昔ながらの」機械視覚に頼っている。固有の視覚問題のうちのいくつかは、複数の視点、手首内カメラシステム、および視覚サーボを使用することによって緩和され得るが、把持の最終段階、すなわち物理的接触は、依然として見通しがきかず、開ループのままである。さらに重要なことには、把持後および操作中のオブジェクトの状態を推定することは、(たとえば材料特性に起因して)非常に難しい。
【0015】
高度視覚システムには似ているように見え得るオブジェクト同士が、それらの材料特性の点で完全に異なる場合がある。触覚フィードバックは、視覚と物理的操作との間の隔りを埋めることができる。触覚操作では最近進歩があり、最先端のアプローチは、把持されたオブジェクトの高解像度画像観察を提供するカメラの上方に搭載された変形可能なジェルを使用する視覚ベースの触覚フィードバックを使用する。そのようなセンサは、効果的であるものの、通常かさ高く、高解像度画像の処理中に計算オーバーヘッドを引き起こすかもしれない。この研究では、1平方センチメートル当たり約100個のタクセル(触覚センサセル)に相当し得る人間の指先からヒントを得て、我々は、気圧MEMSデバイス(Micro Electro-Mechanical System:微小電子機械システム)に基づいた低解像度触覚デバイスの利用を提案する。
【0016】
オブジェクト分類は、ロボットシステムの重要なタスクである。視覚ベースのアプローチは、分類のために、先験的に知られている1組のオブジェクトについての事前訓練を必要とする。我々は代わりに、事前訓練なしで教師なし学習を使用して、対話型触覚認知に基づいて新しいオブジェクトの分類を行なうことを提案する。これは、ロボットシステムをより実用的でフレキシブルにすることができるであろう。添付された学術論文に記載された寄与は、以下のように要約され得る:
・市販の気圧MEMSデバイスを使用して、我々は、ロボット把持および操作のための低コストおよび低解像度の触覚センサアレイの構築および統合を提示する;
・我々は、提案された低解像度触覚感知を使用するオブジェクトの局部形状についての有意義な3D表現を紹介する;
・我々は、オブジェクトの訓練セット全体にわたって事前訓練およびラベル付けされたグラウンドトゥルースを必要とすることなく、対話型操作で得られた触覚表現にモデルを適合させる、新しいオブジェクトを分類するための教師なし機械学習アプローチを提案する。
【0017】
図1は、我々の対話型の触覚ベースの分類および認識のための実験セットアップを示す。気圧触覚センサを装備した平行ジョーグリッパ(拡大された挿入部分)が取付けられた、7DoF(Degrees of Freedom:自由度)ロボットアームである。
【0018】
図2は、好ましい実施形態で使用されるロボットの一例を示す図である。ロボットアーム200は、1組のジョイント210、212、214、216、218によって互いに接続された1組の剛性リンク211、213、215、217で構成される。説明される実施形態では、ジョイント210、212、214、216、218は回転ジョイントであるが、別の実施形態では、それらは摺動ジョイントまたは他のタイプのジョイントであり得る。ジョイントの集合は、ロボットアーム200についての自由度を決定する。ロボットアーム200は、ジョイント210、212、214、216、218ごとに1つずつ、5自由度を有する。これらのジョイントは埋込みセンサを有し、それらはジョイントの状態を報告することができる。報告される状態は、角度、電流、速度、トルク、加速度、またはそれらの任意の組合せであってもよい。ロボットアーム200は、取付けられたグリッパ300を有する。グリッパ300は、
図3Aの説明で詳細に説明される。ロボットアーム200およびグリッパ300は、オブジェクト220を把持して操作することができる。これらのオブジェクトは通常、作業面230上に位置付けられている。オブジェクトの集合240が作業面上に存在していてもよい。これらのオブジェクトは、形状、サイズ、またはそれら双方が異なっていてもよい。これらのオブジェクトは分離されていてもよく、または、互いに重なり合っていてもよい。オブジェクトの集合240が何らかの分離方法に従って分離されていない場合、オブジェクトの集合240は散らかっていると呼ばれる。ロボットアーム200はしばしば、マニピュレータアームとも呼ばれる。
【0019】
図3Aは、2本指ロボットグリッパ300の一例を示す。ロボットグリッパ300は、グリッパをロボットアーム200に取付けるための取付具310を有する。取付具310は典型的には、グリッパハウジング320、指330、340、および触覚センサ360との間で、電力、制御およびセンサケーブルをルーティングする。ロボットグリッパ300はさらに、左指330および右指340を制御するためのモータおよびハウジング320で構成される。好ましい実施形態では、モータは、指330および340の摺動を制御する。指を互いに向かって摺動させることにより、グリッパは、閉じてオブジェクト220を把持するように言われる。指を互いから遠ざかるように摺動させることにより、グリッパは、開いてその把持からオブジェクト220を解放するように言われる。一実施形態では、左指330は右指340と同じであってもよい。別の実施形態では、これらの指は、サイズ、形状、および駆動、またはそれらの任意の組合せが異なっていてもよい。好ましい実施形態では、我々は、指330および340に弾性ポリマー350を取付ける。触覚センサ360は弾性ポリマー350に取付けられる。2本指ロボットグリッパは好ましい実施形態におけるグリッパの単なる一例であることが理解される。別の実施形態は、3本指駆動グリッパを使用してもよい。さらに別の実施形態は、5本指全駆動ハンドを使用していてもよい。他の実施形態では、触覚センサは、グリッパの指および他の部分に取付けられ得ることが理解される。
【0020】
図3Bは、ロボットグリッパ300の右指340のクローズアップを、グリッパハウジング320の一部とともに示す。この実施形態では、弾性ポリマー350は、指340の両側に取付けられている。また、触覚センサ360は、指340の両側の弾性ポリマー350に取付けられている。
【0021】
図4は、ロボットアームを使用する制御システムの一例を示す図である。以下では、制御システムは、ロボットシステム400に適用される一例として説明されるが、本発明に従った制御システム、およびコンピュータが実現する方法は、ロボットシステムに限定されない。ロボットアーム200は、システム460に外部から供給され得るコマンドまたはタスクを受信するロボット制御システム
460を使用して制御される。コマンドまたはタスクの一例は、ロボットアームのグリッパ300を使用してオブジェクト220を触るかまたは把持することであり得る。ロボット制御システム460は、制御信号470をマニピュレータに送信する。制御信号470は、ロボットアームのジョイント210、212、214、216、218の各々でかけられるトルク、および、グリッパ300の開放/閉鎖であり得る。ロボットシステムの状態415は、センサを使用して導き出される。これらのセンサは、ロボットのジョイント210、212、214、216、218でのエンコーダと、ロボットの環境を観察することができるカメラ410と、グリッパ300の指330、340に取付けられ得る触覚センサ360とを含み得る。センサからの状態測定値415は、センサから受信されたデータを格納するデータ入力/出力ユニット420に送信される。ロボット制御システム460は、何らかのタスクまたはコマンドを達成するためにポリシー430を実行するように言われる。プログラム440は、データ入力/出力ユニット420から入力を受け取り、コントローラ更新システム450を使用する制御ポリシーの更新を決定する。次にコントローラ更新システム450は、更新されたポリシー430をロボット制御システム460に送信する。ポリシー430とロボット制御システム460とは、グリッパの指330および340の開放または閉鎖の量も制御することができる。閉鎖の量、すなわち把持の強さは、制御ポリシー430によって決定され得る。好ましい実施形態では、把持の強さは、センサからの状態測定値415の一部である触覚センサ360の信号から決定される。
【0022】
好ましい実施形態では、カメラ410は、RGBカラー画像および深度画像の双方を供給することができるRGBDカメラである。RGBDカメラからの内部情報は、深度を3D点群に変換するために使用され得る。別の実施形態では、カメラは、深度および3D点群が計算され得る2つのカラーカメラで構成されるステレオカメラであり得る。さらに別の実施形態では、カメラは単一のRGBカメラであってもよく、3D点群は機械学習を使用して直接推定され得る。別の実施形態では、2つ以上のカメラ410があってもよい。最後に、別の実施形態では、カメラ410は、ロボットアーム200またはグリッパ300上のいずれかの点で取付けられ得る。
触覚感知ハードウェアおよびデータ生成
【0023】
図5は、触覚センサの例示的なレイアウトを示す。好ましい実施形態では、我々の触覚感知ハードウェア360は、2本指の平行ジョーグリッパの内側および外側タッチパッドとして配置された、タクタイルセンサストリップの密に詰め込まれた4つのアレイで構成される。この実施形態では、アレイは、メインI
2Cバスに接続された4つのタクストリップ2(TakkStrip2)デバイス(ライトハンド・ロボティックス社(RightHand Robotics, Inc.))で構成される。我々の触覚アレイは、約7.5mmのドットピッチで4×6のアレイ状に配置された48個のタクセルで構成される。なお、実施形態で使用されるサイズおよびアレイは限定されない。形状、センサ、および1つのアレイ当たりのセンサの数は、グリッパ300の設計に従って修正され得る。
【0024】
タクタイルセンサは、軟質エラストマーで成型され、6個のタクセル(触覚センサセル)のストリップとしてパッケージ化された、一連のMEMS気圧I2Cデバイスを使用する。これらのデバイスの主な利点は、それらがチップ上でアナログ信号調整、温度補償、およびアナログデジタル変換(analog to digital conversion:ADC)をすべて提供することである。他の触覚感知技術とは対照的に、気圧センサは触覚圧力および温度入力を直接読み取り、よって、人間の接触感知により似ている。また、視覚ベースの接触感知代替例と比較して、MEMS圧力センサは、タクセルのよりフレキシブルな空間配置(すなわち、平坦なタッチパッドに制限されないこと)を可能にしつつ、かなりより低い帯域幅にわたって通信する。
【0025】
グリッパの各指330、340には、8個のタクタイルストリップが装着される。それらは2つのグループに分割され、一方は外部把持のためのもの、他方は内部把持のためのものであり、1本の指当たり合計48個のタクセルとなる。便宜上、タッチパッドは平坦であるが、これは設計上の限定ではない。実際、各センサセルは、最小のハードウェア変更で切り離されて対処されることができ、一方、同等のMEMS気圧デバイスを使用することによってデバイス実装面積をさらに減少させることができる。我々の実験で使用された接触感知アレイの現在の反復は寸法が30×45mmであり、4×6個のタクセルを含む(よって、ドットピッチは7.5mmである)。
【0026】
すべてのデバイスは、単一のI2C標準バス上で通信する。データ衝突および他の転送安全性は、トラフィックコントローラによって「ストリップ上」で取り扱われる。トラフィックコントローラは、マスターI2Cコントローラによってアドレス指定された場合、接続された各デバイスを、バス上に圧力データをロードするように当該各デバイスをトリガするループ中で起動する(タクタイルの通信プロトコルに関する詳細情報を見つけることができる)。I2C-USBデバイスインターフェイスを使用して、センサは、未加工の触覚データを我々のROS対応ロボットコントローラに公開する物理ROSノードとして作用するラズベリーパイ4(Raspberry Pi 4)に接続される。このセットアップを用いて、我々は、96個のタクセルすべてが接続された状態で64Hzのサンプリングレートを達成する。
【0027】
なお、これらの気圧センサは我々の触覚感知ハードウェアのための好ましい実施形態であるが、触覚感知機器は気圧アレイに限定されず、画像ベースの触覚感知を含む、圧電デバイス、容量性デバイス、および基準デバイスにまで及ぶことに留意されたい。
触覚ベースの対話型分類および認識
【0028】
図6は、いくつかの実施形態に従った、触覚ベースの対話型分類および認識システムのブロック図を示す。触覚ベースの対話型分類および認識システム600は、いくつかの実施形態に従って、オブジェクトを遭遇済/既知、または、未遭遇/未知として分類するために、もしくは、オブジェクトを認識するために、すなわち、それがどんなオブジェクトカテゴリに属するかを認識するために、触覚特徴を生成するように構成される。我々は、システムが以前にオブジェクトと対話したかどうかを示すために、「遭遇済」または「既知」、および「未遭遇」または「未知」という用語に言及する。システム600は、格納された命令を実行するように構成されたプロセッサ620と、プロセッサによって実行可能な命令を格納するメモリ640とを含む。プロセッサ620は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であり得る。メモリ640は、ランダムアクセスメモリ(random access memory:RAM)、読取り専用メモリ(read only memory:ROM)、フラッシュメモリ、または任意の他の好適なメモリシステムを含み得る。プロセッサ620は、バス605を通して、1つ以上の入力および出力デバイスに接続される。
【0029】
システム600は、触覚特徴計算を行ない、ロボットアーム200によって操作されるオブジェクトを分類または認識するように構成される。システム600は、触覚ベースの分類および認識631とロボット制御アルゴリズム632とを格納するように適合されたストレージデバイス630を含み得る。ストレージデバイス630は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、またはそれらの任意の組合せを使用して実現され得る。
【0030】
触覚ベースの対話型分類および認識システム600内のヒューマンマシンインターフェイス610は、システムをキーボード611およびポインティングデバイス612に接続することができる。ポインティングデバイス612は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、またはタッチスクリーンを含み得る。システム600は、バス605を通して、システム600をディスプレイデバイス665に接続するように適合されたディスプレイインターフェイス660にリンクされ得る。ディスプレイデバイス665は、とりわけ、コンピュータモニタ、カメラ、テレビ、プロジュクタ、またはモバイルデバイスを含み得る。
【0031】
触覚ベースの対話型分類および認識システム600はまた、RGBD画像を提供する撮像デバイス675にシステムを接続するように適合された撮像インターフェイス670に接続され得る。一実施形態では、触覚特徴計算用の画像が撮像デバイスから受信される。別の実施形態では、撮像デバイス675は、深度カメラ、サーマルカメラ、RGBカメラ、コンピュータ、スキャナ、モバイルデバイス、ウェブカメラ、またはそれらの任意の組合せを含み得る。
【0032】
ネットワークインターフェイスコントローラ650は、触覚ベースの対話型分類および認識システム600を、バス605を通してネットワーク690に接続するように適合されている。ネットワーク690を通して、ロボット状態が、コマンド/状態モジュール695を介して受信され、格納および/またはさらなる処理のためにバス605を介してコンピュータのストレージシステム630内に格納され得る。ネットワーク690を通して、コマンドが、コマンド/状態モジュール695を介してロボットアーム200に送信され得る。別の実施形態では、コマンドはバス605を介して送信される。
【0033】
いくつかの実施形態では、触覚ベースの対話型分類および認識システム600は、バス605を通してロボットインターフェイス680に接続される。バス605は、ロボット制御アルゴリズム632から導き出されたコマンドと受信されたロボット状態695とに基づいて動作可能なロボットアーム200に、触覚ベースの対話型分類および認識システム600を接続するように適合されている。たとえば、ロボットアーム200は、オブジェクトと対話するためにポリシーの実行を行なうシステムである。別の実施形態では、ロボットインターフェイス680は、コマンド/状態モジュール695を介してネットワーク690に接続される。
【0034】
提案されるシステムの主な目的は、作業面上のオブジェクトを把持するようにロボットアームおよびグリッパを制御し、次に把持のための触覚信号を記録することである。触覚信号は、分類および認識のために処理されて使用される。ロボットアームおよびグリッパは、異なる把持姿勢でオブジェクトを複数回把持するよう命じられる。異なる把持姿勢のための触覚信号は互いに異なっている。
【0035】
図7は、触覚ベースの分類および認識プロセスのブロック図を示す。オブジェクトを分類または認識するためのプロセス700は、RGBDカメラ410でRGBD画像を取得すること(710)によって始まる。RGBD画像710は、候補把持姿勢を決定する(720)ために把持姿勢検出アルゴリズムによって処理される。候補把持姿勢720は、ロボットアーム200およびグリッパ300では得られない把持姿勢を含むかもしれない。候補把持姿勢720から、1組の有効把持姿勢が決定される(730)。無効把持姿勢の一例は、ロボットアーム200および/またはグリッパ300がそれ自体とまたは作業面230と衝突するであろう把持姿勢である。他の無効把持姿勢は、逆運動学計算が解を見つけられない把持姿勢である。加えて、ロボットの運動範囲に対する制限に起因して、いくつかの把持姿勢はロボットおよびグリッパによって得られず、したがって無効である。無効把持姿勢の別の例は、何らかのメトリックに従って把持が安定し得る把持姿勢である。
【0036】
有効把持姿勢730から選択された(740)1つのそのような把持姿勢について、ロボットが、選択された把持姿勢740でオブジェクトを把持するように制御される(750)。好ましい実施形態では、ロボットは、取付けられたグリッパ300と触覚センサ360とを有するロボットアーム200である。オブジェクトが把持されると、触覚信号が記録される(760)。所望数の有効把持姿勢730が処理されなかったことが、所望量をチェックすること(755)によって決定された場合、プロセスは、有効把持姿勢730から把持姿勢を選択すること(740)を繰り返し、ロボット制御750を使用して次に選択された把持姿勢でオブジェクトを把持し、触覚信号を格納する(760)。所望数の把持姿勢と触覚と信号がいったん得られると、所望量についてのチェック755は、すべての候補把持のための格納された触覚信号を処理する(770)ように処理に指図するであろう。処理された(770)触覚信号は次に、ロボットアーム200が対話しているオブジェクトを分類または認識する(780)ために使用される。
【0037】
図8A、
図8B、および
図8Cは、いくつかのメトリックに従って着色された候補把持姿勢の例を示す。
図8Aは、ぬいぐるみのオブジェクトについての候補把持姿勢を示す。赤い矢印は、ロボット制御アルゴリズム632によって決定される作業面とロボットアームとの衝突に起因して除去される姿勢を表わす。ロボット制御アルゴリズム632はさらに、青またはマゼンタとしてマークされたロボットのアプローチ角が実現可能ではないと判断する。黄色の矢印は、ロボット制御アルゴリズム632によって有効逆運動学を計算できないかもしれない候補姿勢を示す。最後に、残りの有効把持姿勢が緑の矢印によってマークされる。ロボットアームが実行するであろう把持姿勢は、有効把持姿勢の正規分布から選択される。別の実施形態では、ロボットアームのために選択された把持姿勢は、オブジェクトの表面の何らかの所望のカバレージに従って決定され得る。
図8Bおよび
図8Cは、他のオブジェクトについての追加の例を示す。
未加工の信号の処理
【0038】
図9は、我々の触覚感知処理パイプラインを示す。選択された(740)姿勢についてオブジェクトを把持するためのロボット制御は、ブロック901に包含された検討中のオブジェクトの把持のための触覚信号を我々に提供する。好ましい実施形態における触覚未加工データは、各タクセルに対応する、96個の圧力および温度値のアレイで構成される。第1の処理ステップとして、個々の圧力値は、センサ製造業者のデータシートで述べられるように温度補償される。比較的低いノイズ(0.01N)および良好な線形性(典型的には1%未満)にもかかわらず、気圧計セルは、数時間の使用後に遅いドリフトを呈する。ノイズドリフトを補償するために、我々は、30個のサンプルの任意に選ばれた窓と全データ点にわたる一様の重みとを有する単純移動平均フィルタを使用する。このフィルタは、無負荷のセンサ状態の尺度としても使える。我々の触覚感知パイプラインの要件ではないものの、我々は、我々のフィルタリングされた読取値が触覚負荷および温度情報のみを反映するように、(移動平均フィルタによって与えられた)各タクセルについての測定された定常状態を相殺する。
図9では、この3D信号調整は、ブロック902に包含される。
圧力マップの生成
【0039】
【0040】
【0041】
次に、我々は、3D圧力マップ903および関連付けられた表面法線904から、3D表面記述子を計算する(905)。3D表面記述子は、視点特徴ヒストグラム(Viewpoint Feature Histogram:VFH)である。各VFHは、308次元の特徴ベクトルである。我々は、グリッパの指ごとに1つ計算し、把持を2つのVFHの組合せ、すなわち616次元の特徴ベクトルとして格納する。3D表面記述子905はベクトルに平坦化されてディスクまたはメモリに格納される(906)。
新しいオブジェクトの対話型触覚分類
【0042】
我々の目標は、オブジェクトを以前に未遭遇であるかまたは遭遇済として分類するために触覚フィードバックを使用することである。近年、DNNは、さまざまな分類タスクの良好な性能を達成してきた。ネットワークは、監視信号、すなわちグラウンドトゥルースクラスラベルを用いて訓練され、よって、教師あり学習方法の傘下にある。加えて、DNNは、良好な性能を達成するために莫大な量の訓練データを必要とする。これらの要件に起因して、DNNを使用することは、我々の目標を達成するための実用的な解決策ではない。
【0043】
我々は代わりに、事前訓練の必要なく、一度に1つのオブジェクトをオンラインで学習することを提案する。ロボットによって以前に操作されたオブジェクトインスタンスはそういうものとして分類されるべきであり、新しいオブジェクトは検出され、学習され、分類されて、以前に操作されたオブジェクトの集合に追加されるべきである。我々のアプローチの背後にある主な動機は、データ効率および積極的調査である。実用的な操作タスクのために、実際のロボットシステムは、オブジェクトが新しいかどうかを判断するために短時間しか「割くこと」ができず、それは、深層学習用の触覚サンプルが少な過ぎることを暗示する。さらに、オブジェクト形状および材料特性のスパン、すなわち触感の範囲を前もって知っていることは、包括的な触覚操作フレームワークの目的にそぐわず、また、構造化環境における通常のロボットのピックアンドプレイスに該当するに過ぎないであろう。
新しいオブジェクトについての局所触覚表現の学習
【0044】
【0045】
【0046】
【0047】
分類1040がオブジェクトを未遭遇/未知として分類する場合、OC-SVM適合の初期のプロセスが繰り返される。現在のオブジェクトについて、我々は、すべての把持のための3D特徴記述子905を同時に検討し、このデータにOC-SVMを適合させる(1010)。我々は次に、このOC-SVMを、この現在のオブジェクトについての表現として格納する(1020)。このプロセスは、未遭遇/未知として分類された(1040)各オブジェクトについて繰り返される。
オブジェクトについての把持のサンプリング
【0048】
【0049】
選択された把持についての触覚特徴は、OC-SVMを適合させる際にある種の基礎を本質的に形成するべきである。我々がオブジェクトをその表面にわたってより一様にサンプリングできるようになるにつれて、モデルがそれを正確に分類できる可能性がより高くなる。次の項で、我々は、2つの実験における我々の提案する方法の評価を提示する。
【0050】
本発明の上述の実施形態は、多くのやり方のうちのいずれかで実現され得る。たとえば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組合せを使用して実現されてもよい。ソフトウェアで実現される場合、ソフトウェアコードが、任意の好適なプロセッサまたはプロセッサの集合上で、当該プロセッサが単一のコンピュータにおいて提供されようと複数のコンピュータ中に分散されようと、実行され得る。そのようなプロセッサは、集積回路部品において1つ以上のプロセッサを有する集積回路として実現されてもよい。しかしながら、プロセッサは、任意の好適なフォーマットの回路を使用して実現されてもよい。
【0051】
また、この発明の実施形態は、その例が提供された方法として具現化されてもよい。当該方法の一部として実行される動作は、任意の好適なやり方で順序付けられてもよい。したがって、例示的な実施形態では連続的な動作として示されていても、動作が例示とは異なる順序で実行される実施形態が構築されてもよい。
【0052】
請求項要素を修飾するための、請求項における「第1」、「第2」などの序数用語の使用は、それ自体、ある請求項要素の、別の請求項要素に対する優先順位、優位性、または順序、あるいは、方法の動作が行なわれる時間的順序を何ら暗示しておらず、単に、ある名前を有するある請求項要素を、(序数用語の使用を除き)同じ名前を有する別の要素から区別するために、これらの請求項要素を区別するためのラベルとして使用されているに過ぎない。
【0053】
この発明を、好ましい実施形態の例として説明してきたが、この発明の精神および範囲内で他のさまざまな適合および変更が実施可能であることが理解されるはずである。したがって、添付された請求項の目的は、この発明の真の精神および範囲内に収まるようにそのようなすべての変形および変更を網羅することである。