IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ナショナル ユニバーシティー オブ シンガポールの特許一覧

特表2023-529732ロボットのためのイベント駆動視覚触覚センシング及び学習
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-07-11
(54)【発明の名称】ロボットのためのイベント駆動視覚触覚センシング及び学習
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230704BHJP
   B25J 13/00 20060101ALI20230704BHJP
   G06V 10/82 20220101ALI20230704BHJP
   G06N 3/049 20230101ALI20230704BHJP
   G06N 3/045 20230101ALI20230704BHJP
【FI】
G06T7/00 350C
B25J13/00 Z
G06V10/82
G06N3/049
G06N3/045
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022576503
(86)(22)【出願日】2021-06-15
(85)【翻訳文提出日】2023-02-06
(86)【国際出願番号】 SG2021050350
(87)【国際公開番号】W WO2021256999
(87)【国際公開日】2021-12-23
(31)【優先権主張番号】10202005663U
(32)【優先日】2020-06-15
(33)【優先権主張国・地域又は機関】SG
(81)【指定国・地域】
(71)【出願人】
【識別番号】517435434
【氏名又は名称】ナショナル ユニバーシティー オブ シンガポール
【氏名又は名称原語表記】National University of Singapore
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【弁理士】
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】ティー,チー,ケオン
(72)【発明者】
【氏名】シー,ハイアン,ハイアン
(72)【発明者】
【氏名】リム,ブライアン
(72)【発明者】
【氏名】ショー,ハロルド,スーン,ホン
(72)【発明者】
【氏名】タウニャゾフ,タスボラト
(72)【発明者】
【氏名】スン,ウェイコン
(72)【発明者】
【氏名】クアン,ジェスロ,シェン,ユアン
(72)【発明者】
【氏名】アンサリ,アブドゥル,ファティール
【テーマコード(参考)】
3C707
5L096
【Fターム(参考)】
3C707KS31
3C707KT01
3C707KT05
3C707KW01
3C707KX08
3C707LW12
3C707LW15
5L096AA02
5L096AA06
5L096BA05
5L096EA39
5L096FA52
5L096FA66
5L096GA40
5L096GA51
5L096HA11
5L096KA04
5L096MA07
(57)【要約】
分類センシングシステム、センシングシステムを用いて行われる分類方法、触覚センサ、及び触覚センサの製造方法。分類センシングシステムは、視覚センサのイベントベース出力を第1の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードするように構成された第1スパイキングニューラルネットワーク(SNN)エンコーダと、触覚センサのイベントベース出力を第2の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードするように構成された第2のSNNエンコーダと、視覚モダリティスパイキング表現と触覚モダリティスパイキング表現とをマージするように構成された結合層と、マージされた視覚モダリティスパイキング表現と触覚モダリティスパイキング表現とを受信し、第3の出力サイズを有する視覚-触覚モダリティスパイキング表現を出力するように構成されたタスクSNNと、を備える。
【選択図】図15
【特許請求の範囲】
【請求項1】
視覚センサのイベントベース出力を第1の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードするように構成された第1のスパイキングニューラルネットワーク(SNN)エンコーダと、
触覚センサのイベントベース出力を第2の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードするように構成された第2のSNNエンコーダと、
前記視覚モダリティスパイキング表現と前記触覚モダリティスパイキング表現とをマージするように構成された結合層と、
マージされた前記視覚モダリティスパイキング表現と前記触覚モダリティスパイキング表現とを受信し、第3の出力サイズを有する視覚-触覚モダリティスパイキング表現を出力するように構成されたタスクSNNと、
を備える分類センシングシステム。
【請求項2】
前記タスクSNNは、前記出力サイズによってインデックス付けされた所望のスパイクカウントと比較した、前記視覚モダリティ表現出力及び前記触覚モダリティ表現出力各々におけるスパイクカウント損失に基づく分類のために構成される
請求項1に記載のシステム。
【請求項3】
前記タスクSNNは、前記出力サイズによってインデックス付けされた所望の重み付きスパイクカウントと比較した、前記視覚モダリティ表現出力及び前記触覚モダリティ表現出力各々における重み付きスパイクカウント損失に基づく分類のために構成される
請求項1に記載のシステム。
【請求項4】
前記第1のSNNエンコーダ、前記第2のSNNエンコーダ及び前記タスクSNNの各々におけるニューロンは、スパイクレスポンスモデル(SRM)を適用するように構成される
請求項1乃至3のいずれか一項に記載のシステム。
【請求項5】
前記触覚センサを備える
請求項1乃至4のいずれか一項に記載のシステム。
【請求項6】
前記触覚センサは、イベントベースの触覚センサを備える
請求項5に記載のシステム。
【請求項7】
前記触覚センサは、前記触覚センサの固有出力を、前記触覚センサのイベントベース出力に変換するためのコンバータを備える
請求項5に記載のシステム。
【請求項8】
前記視覚センサを備える
請求項1乃至7のいずれか一項に記載のシステム。
【請求項9】
前記視覚センサは、イベントベースの視覚センサを備える
請求項8に記載のシステム。
【請求項10】
前記視覚センサは、前記視覚センサの固有出力を、前記視覚センサのイベントベース出力に変換するためのコンバータを備える
請求項8に記載のシステム。
【請求項11】
ロボットアーム及びエンドエフェクタを備える
請求項1乃至10のいずれか一項に記載のシステム。
【請求項12】
前記エンドエフェクタがグリッパを備える
請求項11に記載のシステム。
【請求項13】
前記触覚センサは、前記グリッパの各指に1つの触覚要素を備える
請求項12に記載のシステム。
【請求項14】
前記視覚センサは、前記ロボットアーム上又は前記エンドエフェクタ上に取り付けられる
請求項11乃至13のいずれか一項に記載のシステム。
【請求項15】
センシングシステムを使用して実行される分類方法であって、
第1のスパイキングニューラルネットワーク(SNN)エンコーダを用いて、視覚センサのイベントベースの出力を、第1の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードする工程と、
第2のSNNエンコーダを用いて、触覚センサのイベントベースの出力を、第2の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードする工程と、
結合層を用いて、前記視覚モダリティスパイキング表現及び前記触覚モダリティスパイキング表現をマージする工程と、
タスクSNNを用いて、マージされた前記視覚モダリティスパイキング表現及び前記触覚モダリティスパイキング表現を受信し、分類のための第3の出力サイズを有する視覚-触覚モダリティスパイキング表現を出力する工程と、
を含む分類方法。
【請求項16】
前記タスクSNNは、前記出力サイズによってインデックス付けされた所望のスパイクカウントと比較した、前記視覚モダリティ表現出力及び前記触覚モダリティ表現出力各々におけるスパイクカウント損失に基づく分類のために構成される
請求項15に記載の方法。
【請求項17】
前記タスクSNNは、前記出力サイズによってインデックス付けされた所望の重み付けされたスパイクカウントと比較した、前記視覚モダリティ表現出力及び前記触覚モダリティ表現出力における重み付けされたスパイクカウント損失に基づいて分類するように構成される
請求項16に記載の方法。
【請求項18】
前記第1のSNNエンコーダ、前記第2のSNNエンコーダ及び前記タスクSNNのそれぞれが、スパイクレスポンスモデル(SRM)を適用するように構成される
請求項15乃至17のいずれか一項に記載の方法。
【請求項19】
前記触覚センサが、イベントベースの触覚センサを含む
請求項15乃至18のいずれか一項に記載の方法。
【請求項20】
前記触覚センサの固有出力を前記触覚センサのイベントベースの出力に変換することを含む
請求項15乃至18のいずれか一項に記載の方法。
【請求項21】
前記視覚センサがイベントベースの視覚センサを含む
請求項15乃至20のいずれか一項に記載の方法。
【請求項22】
前記視覚センサの固有出力を前記視覚センサのイベントベース出力に変換することを含む
請求項15乃至20のいずれか一項に記載の方法。
【請求項23】
前記触覚センサの1つの触覚要素をロボットアームのグリッパの各指に配置することを含む
請求項15乃至22のいずれか一項に記載の方法。
【請求項24】
前記視覚センサを前記ロボットアーム又は前記エンドエフェクタに取り付けることを含む
請求項15乃至23のいずれか一項に記載の方法。
【請求項25】
キャリア構造と、
前記キャリア構造の表面上に配置され、複数のタクセル電極のアレイを含む電極層と、
前記複数のタクセル電極の各一つに個別に電気的に接続された複数の電極線と、
前記電極層の上に配置され、弾性変形可能な材料から作られた保護層と、
前記電極層と前記保護層との間に配置された圧力トランスデューサ層と、
を備え、
前記保護層を介して前記圧力トランスデューサ層に働く接触力に応答する、前記複数の電極線において検出可能な電気信号が、ニューロモルフィックな触覚センシング用途のための時空間データを提供する
触覚センサ。
【請求項26】
前記電極アレイの前記複数のタクセル電極が、前記電極アレイの中心の周りで半径方向に変化する濃度で配置される
請求項25に記載の触覚センサ
【請求項27】
前記複数のタクセル電極の密度は、前記中心から半径方向の距離とともに減少する
請求項26に記載の触覚センサ。
【請求項28】
前記複数の電極線にそれぞれ接続される複数のエンコーダ要素を備え、複数のデコーダ要素は、共通の出力伝導体を介して、前記複数の電極線内の前記電気信号に基づいて、触覚情報を非同期的に送信するように構成される
請求項25乃至27のいずれか一項に記載の触覚センサ。
【請求項29】
前記キャリア構造は、ロボット式グリッパに接続可能に構成される
請求項25乃至28のいずれか一項に記載の触覚センサ。
【請求項30】
前記電極層及び/又は前記複数の電極線が可撓性である
請求項25乃至29のいずれか一項に記載の触覚センサ。
【請求項31】
触覚センサを製造する方法であって、
キャリア構造を提供することと、
前記キャリア構造の表面上に配置され、複数のタクセル電極のアレイを含む電極層を提供することと、
前記複数のタクセル電極の各一つに個別に電気的に接続された複数の電極線を提供することと、
前記電極層の上に配置され、弾性変形可能な材料からなる保護層を提供することと、
前記電極層と前記保護層との間に配置された圧力トランスデューサ層を提供することと、
を含み、
前記保護層を介して前記圧力トランスデューサ層に働く接触力に応答する、前記複数の電極線において検出可能な電気信号が、ニューロモーフィック触覚センシング用途のための時空間データを提供する
方法。
【請求項32】
前記電極アレイの前記複数のタクセル電極が、前記電極アレイの中心の周りで半径方向に変化する濃度で配置される
請求項31に記載の方法
【請求項33】
前記複数のタクセル電極の密度は、前記中心から半径方向の距離と共に減少する
請求項32に記載の方法。
【請求項34】
前記複数の電極線にそれぞれ接続された複数のエンコーダ要素を提供することと、複数のデコーダ要素が、共通の出力伝導体を介して前記複数の電極線内の前記電気信号に基づいて触覚情報を非同期的に伝達するように構成することと、を備える
請求項31乃至33のいずれか1項に記載の方法。
【請求項35】
前記キャリア構造をロボットグリッパに接続可能に構成することを含む
請求項31乃至34のいずれか一項に記載の方法。
【請求項36】
前記電極層及び/又は前記複数の電極線が可撓性である
請求項31乃至34のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、大マーカに言えば、分類センシングシステム及び方法に関し、特に、ロボットのためのイベント駆動視覚触覚センシング及び学習に関する。
【背景技術】
【0002】
本明細書全体にわたる先行技術のいかなる言及、及び/又は、議論も、この先行技術が周知であるか、又は当分野における共通の一般的知識の一部を形成することを認めるものとして、決して考慮されるべきではない。
【0003】
多くの日常的な作業は、成功するために複数の感覚モダリティを必要とする。例えば、冷蔵庫[1]から豆乳のカートンを取り出すことを考える;人間は、視覚を使用してカートンを探し出し、カートンがどのくらい豆乳を含むかを単純な把持から推測することができる。それらはまた、物体を滑らせることなく、物体を持ち上げるために、それらの視覚及び触覚を使用することができる。これらの動作(及び推論)は、人工システムにおいて複数のセンサモダリティを使用する一般的なディープラーニングアプローチと比較して、発電効率の良い神経基材を使用してロバストに実行され、人間の脳は、はるかに少ないエネルギーを必要とする[2]、[3]。
【0004】
以下では、ロボット工学のための視覚-触覚センシング、及びイベント駆動センシングと学習に関する作業の簡単な概要を提供する。ロボットに対する視覚‐触覚センシングにおいて、一般に、ロボット工学に対するマルチモーダルセンシングの重要性の認識があり、センシング法とセンシング法の両方に革新をもたらした。最近では、視覚とタッチセンシングを組み合わせた紙が多く、例えば[8]~[13]がある。しかしながら、オブジェクトの視覚-触覚学習に関する研究は、ビジョン及び触覚データがプリミティブオブジェクトの表面記述を作成するために使用された1984年(少なくとも)に遡る[14];この初期の研究では、触覚センシングは、その時点での触覚センサの解像度が低いため、視覚に対する支持的な役割を果たした。
【0005】
触覚技術における最近の進歩[15]は、物体探査[16]と分類[17]、形状完成[18]、滑り検出[19]、[20]を含むより複雑なタスクのための触覚センシングの使用を奨励している。1つの一般的なセンサは、バイオタックであり、人間の指と同様に、それは、テクスチャ化された皮膚を使用し、振動シグネチャが、高精度の材料及び物体の識別ならびに滑り検出のために使用されることを可能にする[21]。バイオタックはまた、視覚-触覚学習、例えば、[9]深層学習を介して物体を認識するためにRGB画像と結合された触覚データにおいても使用されている。他の最近の研究では、Gelsight[22]-光学ベースの触覚センサ--視覚--触覚スリップ検出用[10]、[23]、把持安定性、及びテクスチャ認識用[24]を使用している。非常に最近の研究では、教師なし学習を使用して、強化学習のための視覚触覚データ(固有感覚を有する)の神経表現を生成している[11]。
【0006】
イベントベースのセンシングでは、センサ及び学習は、主に視覚に焦点を当てている(包括的な調査については[25]を参照)。ビジョンに重点を置くことは、従来の光学センサとは異なり、イベントカメラがピクセルを非同期で変化させることはもちろん、DVS及びProphesee搭載のようなイベントカメラの最近の利用可能性と同様に、多くのタスクにわたるその適用性の両方に帰することができる。イベントベースのセンサは、ディープラーニング技術と組み合わせてうまく使用されている[25]。バイナリイベントは、最初に実数値テンソルに変換され、それは深い人工ニューラルネットワークANNによって下流で処理される。このアプローチは、一般的に、良いモデル(例えば、動きセグメンテーション[26]、オプティカルフロー推定[27]、及びカーステアリング予測[28])をもたらすが、計算コストが高い。
【0007】
神経形態学的学習、具体的にはスパイキングニューラルネットワーク(Spiking Neural Networks:SNN)[4]、[29]は、イベントデータを用いて学習するための競合するアプローチを提供する。イベントベースのセンサと同様に、SNNは、離散スパイクで直接動作し、従って、同様の特性、すなわち、低待ち時間、高時間分解能及び低電力消費を有する。歴史的に、SNNは、良好な訓練手順の欠如によって妨げられてきた。逆伝播のような勾配に基づく方法は、スパイクが微分不可能であるため利用できなかった。効果的なSNNトレーニング[30]~[32]における最近の発展、及び神経形態学的ハードウェア(例えば、IBM TmeNorth[33]及びIntel Loihi[7])の新生の利用可能性は、ロボット工学を含む、様々な用途のための神経形態学的学習に新たに関心を集めている。SNNはまだ、擬似イベント画像データセット上の深部ANNのいとこよりも一貫して優れているわけではなく、リサーチコミュニティは、実イベントデータのためのより良い訓練方法を積極的に探求している。
【発明の概要】
【0008】
本発明の実施形態は、上記の問題の少なくとも1つに対処しようとするものである。
【0009】
本発明の第1の態様によれば、視覚センサのイベントベース出力を第1の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードするように構成された第1のスパイキングニューラルネットワーク(SNN)エンコーダと、触覚センサのイベントベース出力を第2の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードするように構成された第2のSNNエンコーダと、前記視覚モダリティスパイキング表現と前記触覚モダリティスパイキング表現とをマージするように構成された結合層と、マージされた前記視覚モダリティスパイキング表現と前記触覚モダリティスパイキング表現とを受信し、第3の出力サイズを有する視覚-触覚モダリティスパイキング表現を出力するように構成されたタスクSNNと、を備える分類センシングシステムが提供される。
【0010】
本発明の第2の態様によれば、センシングシステムを使用して実行される分類方法であって、第1のスパイキングニューラルネットワーク(SNN)エンコーダを用いて、視覚センサのイベントベースの出力を、第1の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードする工程と、第2のSNNエンコーダを用いて、触覚センサのイベントベースの出力を、第2の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードする工程と、結合層を用いて、前記視覚モダリティスパイキング表現及び前記触覚モダリティスパイキング表現をマージする工程と、タスクSNNを用いて、マージされた前記視覚モダリティスパイキング表現及び前記触覚モダリティスパイキング表現を受信し、分類のための第3の出力サイズを有する視覚-触覚モダリティスパイキング表現を出力する工程と、を含む分類方法が提供される。
【0011】
本発明の第3の態様によれば、キャリア構造と、前記キャリア構造の表面上に配置され、複数のタクセル電極のアレイを含む電極層と、前記複数のタクセル電極の各一つに個別に電気的に接続された複数の電極線と、前記電極層の上に配置され、弾性変形可能な材料から作られた保護層と、前記電極層と前記保護層との間に配置された圧力トランスデューサ層と、を備え、前記保護層を介して前記圧力トランスデューサ層に働く接触力に応答する、前記複数の電極線において検出可能な電気信号が、ニューロモルフィックな触覚センシング用途のための時空間データを提供する触覚センサが提供される。
【0012】
本発明の第4の態様によれば、触覚センサを製造する方法であって、キャリア構造を提供することと、前記キャリア構造の表面上に配置され、複数のタクセル電極のアレイを含む電極層を提供することと、前記複数のタクセル電極の各一つに個別に電気的に接続された複数の電極線を提供することと、前記電極層の上に配置され、弾性変形可能な材料からなる保護層を提供することと、前記電極層と前記保護層との間に配置された圧力トランスデューサ層を提供することと、を含み、前記保護層を介して前記圧力トランスデューサ層に働く接触力に応答する、前記複数の電極線において検出可能な電気信号が、ニューロモーフィック触覚センシング用途のための時空間データを提供する方法が提供される。
【0013】
本発明の実施形態は、単なる例として、図面と併せて、以下の記載から、より良く理解され、当業者に容易に明らかになるであろう。
【図面の簡単な説明】
【0014】
図1a図1aは、一実施形態によるニュータッチ(NeuTouch)イベント駆動触覚センサの、人の指と比較した写真を示す。
図1b図1bは、一実施形態によるニュータッチイベント駆動触覚センサの部分断面図の写真を示す。
図1c図1cは、一実施形態によるニュータッチイベント駆動触覚センサ上の39個のタクセルの空間分布の写真を示す。
図1d図1dは、一実施形態によるニュータッチイベント駆動触覚センサにおけるコンバータの圧力応答を示す。低ヒステリシスが負荷と除荷曲線から観察できる。
図1e図1eは、例示的な実施形態によるニュータッチイベント駆動触覚センサからの触覚情報の(シグネチャエンコードされた)非同期送信を示すグラフを示す。
図1f図1fは、例示的な実施形態によるニュータッチイベント駆動触覚センサからの復号された触覚情報(すなわち、イベント)を示すグラフを示す。
図2図2は、最初に、2つのモダリティを個々の潜在的(スパイキング)表現にエンコードし、それらの潜在的(スパイキング)表現は、組み合わせレイヤにおいて組み合わされ、さらに、追加のレイヤを通して処理されて、タスク固有の出力を生み出す、例示的な実施形態による視覚触覚スパイキングニューラルネットワーク(VT-SNN)のアーキテクチャの概略図を示す。
図3図3aは、一実施形態によるニュータッチイベント駆動触覚センサを搭載したRobotiq 2F-140グリッパ、Prophesee Onboard偶数ベースカメラ、RGBカメラを備えた7-DoF Franka Emika Pandaアームの写真を示す。図3bは、図3aのRobotiq 2F-140グリッパとOptitrackモーションキャプチャシステムを備えた7-DoF Franka Emika Pandaアームの写真を示す。
図4図4は、例示的な実施形態によるVT-SNNの訓練及び試験のための把持、持ち上げ、及び保持段階からの触覚及び視覚データを示す視覚スパイク画像及びレコードを有するグラフを示す。
図5図5は、例示的な実施形態によるVT-SNNを使用する分類作業のための、容器分類作業に使用される容器:コーヒー缶、プラスチックソーダボトル、豆乳カートン、及び金属マグロ缶の写真を示す。
図6図6は、正しい予測と誤った予測を有する異なるモダリティで訓練されたモデルについての出力スパイクを示すグラフを示すが、一方で、一実施形態によるVT-SNNと、比較のための触覚(のみ)モデル及び視覚(のみ)モデルとを用いて、分類タスクにおいて100%の重量でコーヒー缶を把握することができる。
図7図7は、例示的な実施形態によるVT-SNNと、比較のための触覚(のみ)モデル及び視覚(のみ)モデルを使用する分類タスクにおける、経時的な容器及び重量の分類精度を示すグラフを示す。
図8図8aは、例示的な実施形態によるVT-SNNと、触覚(のみ)モデルと、比較のための視覚(のみ)モデルとを使用して、添付されたOptiTrackマーカを有する伝票分類タスクのためのオブジェクトの写真を示す。図8bは、安定把持中の図8aの対象の写真である。図8cは、図8aの回転すべりによる不安定把持時の被写体の写真である。
図9図9は、例示的な実施形態によるVT-SNNと、比較のための触覚(のみ)モデル及び視覚(のみ)モデルを使用する分類タスクにおける経時的なスリップ分類精度を示すグラフを示す。
図10図10は、一実施形態による、3D印刷されたメインホルダの写真を示す。
図11図11は、例示的実施形態よるACESエンコーダにおいて使用するエンクロージャの写真を示している。
図12図12は、一実施形態によるニュータッチにおいて使用するカプラの写真を示す。
図13図13aは、例示的な実施形態による経時的なエンドエフェクタのpのグラフを示す。図13bは、例示的実施形態による、qとqとの間で計算されたΘ(ラジアンでの最短角度)のグラフを示す。
図14図14は、例示的な実施形態による分類検知システムを示す概略図である。
図15図15は、例示的な実施形態によるセンシングシステムを使用して実行される分類方法を示すフローチャートを示す。
図16図16は、一実施形態による触覚センサを示す概略図を示す。
図17図17は、一実施形態による、触覚センサの製造方法を示す、工程図を示す。
【発明を実施するための形態】
【0015】
本発明の実施形態は、非同期及びイベント駆動ロボットシステムのための効率的な視覚-触覚センシングに向けた重要なステップを提供する。リソースを消費するディープラーニング方法とは対照的に、イベント駆動センシングは、リアルタイムモバイルロボットに理想的な機能である、電力効率及び低レイテンシを約束する代替アプローチを形成する。しかしながら、イベント駆動システムは、標準的な同期認識方法[4]、[5]と比較して未開発のままである。
【0016】
より豊かな触覚センシングを可能にするために、実施形態例によれば、本明細書ではニュータッチと称する、39タクセルの指先センサが提供される。既存の市販の触覚センサと比較して、ニュータッチのニューロモーフィック設計は、低い待ち時間を保持しながらより多数のタクセルへのスケーリングを可能にする。
【0017】
ニュータッチとPropheseeイベントカメラによるマルチモーダル学習を、例示の実施形態に従って調査した。具体的には、監視学習課題のための両方の感覚モダリティを組み込んだ視覚‐触覚スパイキングニューラルネットワーク(VT-SNN)を提供する。従来のディープ人工ニューラルネットワーク(ANN)モデル[6]とは異なり、SNNは、離散スパイクを非同期に処理し、したがって、例示的な実施形態によるニューロモルフィックセンサによって生成されるイベントデータにおそらくより適している。さらに、SNNは、Intel Loihi[7]のような効率的な低パワーのニューロモルフィック・チップ上で利用することができる。
【0018】
例示的な実施形態では、他のイベントベースの触覚センサを使用することができることに留意されたい。また、触覚センサは、触覚センサの固有出力を触覚センサのイベントベースの出力に変換するためのコンバータを備えてもよい。
【0019】
同様に、例示的な実施形態では、他のイベントベースの視覚センサが使用されてもよいことに留意されたい。また、視覚センサは、視覚センサの固有出力を視覚センサのイベントベース出力に変換するためのコンバータを備えてもよい。
【0020】
例示的な実施形態に従って実行される実験は、2つのロボットタスク、すなわち物体分類及び(回転)滑り検出を中心とする。前者では、ロボットは、取り扱われる容器のタイプ及びその中に保持される液体の量を決定するように仕事をされた。容器は、異なる剛性を有する不透明であり、したがって、視覚的及び触覚的センシングの両方が、正確な分類に関連する。重量の比較的小さい差(20個の物体重量クラスにわたる~30g)は、例示的実施形態によるプロトタイプセンサ及びスパイキングモデルによって識別できることが示されている。同様に、滑り検出実験は、回転滑りが0.08s(~1ms毎に処理された視覚‐触覚スパイク)以内に正確に検出できることを示している。両方の実験において、SNNは、類似のアーキテクチャを有するANNと比較して、競合的な(時には優れた)性能を達成した。
【0021】
より広い視点を考えると、例示の実施形態によるイベント駆動センシングは、電力効率の良い知的ロボットを可能にする興味深い機会を表す。例示的な実施形態によれば、「エンドツーエンド」イベント駆動センシングフレームワークを提供することができる。
【0022】
一実施形態によるニュータッチは、ロボットエンドエフェクタのためのスケーラブルなイベントベースの触覚センサを提供する。
【0023】
例示的な実施形態による視覚触覚スパイキングニューラルネットワークは、複数のイベントセンサモダリティを活用する。
【0024】
系統的な実験は、従来のANN方法と比較して、オブジェクト分類及びスリップ検出に関する例示的な実施形態によるイベント駆動センシングシステムの有効性を実証する。
【0025】
例示的な実施形態を使用して、50を超える様々な対象物分類を含む視覚-触覚イベントセンサデータセットが得られ、これはまた、RGB画像及びプロプリオセプティブデータを含む。
【0026】
ニュータッチ:一実施形態によるイベントベースの触覚センサ
触覚センサ(例えば、最小侵襲手術[38]及びスマート人工器官[39])には多数の用途があるが、現在の触覚センシング技術は、視覚に遅れている。特に、現在の触覚センサは、ロボットプラットフォームとのスケーリング及び統合が困難なままである。その理由は、2つある。第1に、多くの触覚センサが、時分割多元接続(TDMA)を介してインタフェースされ、ここで、以下、「タクセル」とも呼ばれる個々のタクセル電極が、周期的かつ逐次的にサンプリングされる。TDMAのシリアル読み出しの性質は、センサ内のタクセルの数が増加するにつれて、本質的に読み出し待ち時間の増加を招く。第2に、高い空間位置確認精度は、通常、センサ内により多くのタクセルを追加することによって達成される;これは、不変に、より多くの配線につながり、それは、ロボットのエンドエフェクタ及び表面上への皮膚の統合を複雑にする。
【0027】
既存の触覚センシング技術の限界に動機づけられて、ロボットエンドエフェクタでの使用のために、例示の実施形態に従って、ニューロインスパイアード触覚センサ100(ニュータッチ)が提供される(図1参照)。ニュータッチ 100の構造は、人間の指先102に似ており、「皮膚」及び「骨」を含み、例示的な実施形態によれば、37×21×13mmの物理的寸法を有する。この設計は、人間型エンドエフェクタ(人工装具又は人間型ロボット用)及び標準的なマルチフィンガーグリッパとの統合を容易にし、実験では、ニュータッチ100をRobotiq 2F-140グリッパと共に使用した。指先の設計に加えて、異なる例示的実施形態による異なる用途に適合するように代替構造を開発することができることに留意されたい。
【0028】
具体的には、図1aは、人間の指102と比較したニュータッチ100を示す。図1cは、例えばニュータッチ100上のタクセル104のような39個のタクセルの空間分布を示す。図1bは、ニュータッチ100とその構成要素の部分断面図を示す。ニュータッチ 100は、例えばタクセル104のような39のタクセルを有する電極層106と、全てが3Dプリント部品(「骨」)112上に支持される保護Ecoflex「スキン」110の下に埋め込まれる圧力トランスデューサとしてのグラフェンベースの圧電抵抗薄膜108とを使用して、触覚センシングを実施する。
【0029】
触覚センシングは、39個のタクセル、例えばタクセル104を有する電極のアレイが、39個のタクセル、例えばタクセル104を覆うグラフェンベースのピエゾ抵抗薄膜108を有する骨112の「上部」にあるように、骨112の周りに折り畳まれた電極層106を介して達成される。グラフェンベースの圧電抵抗薄膜108は、その高いヤング率のため、効果的な触覚センサ[40]、[41]を形成する圧力コンバータとして機能し、これは、コンバータのヒステリシス及び応答時間を低減するのに役立つ。ニュータッチ100頂のタクセルの半径方向配置、例えば106は、タクセル濃度が、ニュータッチ100センサの「頂」タッチ面の中心から周辺まで、高いから低まで変化するように設計される。物体とセンサとの間の初期接触点は、初期接触(物体とセンサとの間)の豊富な時空間触覚データを捕捉することができるように、ニュータッチ100の中心領域に配置され、ここでタクセル例えば106の密度が最も高くなる。この豊富な触覚情報は、アルゴリズムが推論を加速するのを助けることができる(例えば、以下でより詳細に説明されるように、早期分類)。
【0030】
図1dは、ニュータッチ100内のトランスデューサの圧力応答を示しており、ローディング曲線部とアンローディング曲線部から低いヒステリシスを観測できる。
【0031】
3D印刷された骨成分112は、指先骨の役割を果たすために使用され、Ecoflex 00-30(Ecoflex)110は、ニュータッチ100の皮膚をエミュレートするために使用された。Ecoflex110は、電極/タクセル、例えばタクセル104に対して、より長い使用寿命のための保護を提供し、ニュータッチ100に及ぼされる刺激を増幅する。後者は、接触の過渡的位相(物体とセンサの間)が、剛性又は表面粗さなど、把持された物体の物理的記述の多くをエンコードするので、より多くの触覚特徴を収集することを可能にする[42]。ニュータッチ100は、エコフレックス110の柔らかい性質による変形から回復する際に、~300msのわずかな遅れを示す。それにもかかわらず、以下に記載される実験は、この効果が、様々な触覚刺激に対するニュータッチ100の感受性を妨げないことを示した。
【0032】
既存の触覚センサと比較して、ニュータッチ100は、イベントベースであり、タクセルの数と十分にスケーリングされる。ニュータッチ100は、迅速な触覚認識のために1msという例外的に低い一定読出し待ち時間を維持しながら、非限定的な実施形態による240のタクセルを収容することができる[43]。これは、非同期エンコード電子スキン(ACES)プラットフォーム[43]-触覚情報の非同期送信を可能にするイベントベースの神経模倣アーキテクチャ-を活用することによって、例示的な実施形態に従って達成される。ACESでは、ニュータッチ100のタクセル、例えばタクセル104は、動的圧力(すなわち、動的皮膚変形)を捕捉する、人指先の高速適応(FA)メカノ受容体の機能を模倣する[44]。FA応答は、物体の滑り、物体の硬さ、及び局所的な曲率の迅速な検出を必要とする精巧な操作タスクにとって重要である。
【0033】
例示的な実施形態によるニュータッチ100の製造には、限定はしないが、以下を含む様々な適切な材料を使用することができる:
皮膚層:エコフレックス直列(Smooth-On)、ポリジメチルシロキサン(PDMS)、ドラゴン皮膚直列(Smooth-On)、シリコンゴム。
【0034】
コンバータ層(ピエゾ抵抗):ベロスタット(3M)、Linqstat直列(Caplinq)、導電発泡シート(例えば、Faird Technologies EMI)、導電ファブリック/テキスタイル(例えば、3M)、任意の圧電抵抗材料。
【0035】
電極層:異なる厚さのフレキシブルプリント基板(Flex PCB)。材質:ポリイミド
・電極線:銅などの金属層任意の導電性金属(例えば銀)
・タクセル:銅、導電性金属(銀など)

例示的な実施形態による触覚刺激の非同期送信
既存の触覚センサと比較して、ニュータッチ100はイベントベースであり、例えばタクセル104などのタクセル数で十分にスケーリングでき、迅速な触覚に対する1msの例外的に低い一定読出し待ち時間を維持できる。これは、非同期エンコード電子スキン(ACES)プラットフォーム[50]-触覚情報の非同期送信を可能にするイベントベースの神経模倣アーキテクチャ-を活用することによって、例示的な実施形態に従って達成される。それは、高いレベルの応答性(すなわち、低い待ち時間)を維持しながら、皮膚のようなトランスデューサ入力の大きなアレイを転送するための、増大する複雑さ及び必要性に対処するために開発された。
【0036】
ACESでは、ニュータッチ100のタクセル、例えばタクセル104は、動的圧力(すなわち、動的皮膚変形)を捕捉する、人の指先の高速適応(FA)メカノ受容体の機能を模倣する。触覚刺激情報の透過は、生物学的システムと同様に、非同期スパイク(すなわち、電気パルス)の形態であり、データは、シグナリングのために単一の共通導体を介して必要なときにのみ、個々のタクセル、例えば、タクセル104によって透過される。これは、ニュータッチ100のタクセル104などのタクセルを固有の電気パルスシグネチャでエンコードすることによって可能になる。これらのシグネチャは、重複するようにロバストであり、複数のタクセル、例えば、タクセル104が、特定の時間同期なしにデータを送信することを可能にする(図1eを参照)。したがって、すべての活性化タクセル、例えばタクセル104の刺激情報は、単一の導電体を介して、上流で結合され、デコーダに伝搬され得る。これにより、読み出しレイテンシが低くなり、配線が簡単になる。デコーダは、受信されたパルス(すなわち、組み合わされたパルスシグネチャ)を各タクセルの例えばタクセル104個の既知のシグネチャと相関させて、時空間触覚情報を取り出す(図1eを参照)。各「シグネチャ」は、スパイクのシーケンスであり、すなわち、1つのタクセルが「発火する」場合、発火した各識別されたタクセルについての(単一の)スパイクのシーケンスの出力について、デコーダにおいて識別され得る、単一のスパイクの代わりにスパイクの時間シーケンスが生成される(図1eを参照)。
【0037】
例示の実施形態では、各タクセル、例えばタクセル104は、電極線、例えば電極線105を介してエンコーダに接続する(例えば、39のタクセルが存在する場合、39のエンコーダが存在することになる)。エンコーダの信号出力は、デコーダへのデータ伝送のために1つの「共通」出力コンダクタに結合される。デコーダは、次いで、活性化されたタクセルを識別するために、結合されたパルス(スパイク)シグネチャを復号する。
【0038】
(ニュータッチ100によって取得された)触覚情報のリアルタイム復号化は、例示的な実施形態によるフィールドプログラマブルゲートアレイ(FPGA)を介して行われる。イベントベースの触覚情報は、例示的な実施形態によれば、UART(Universal Asynchronous Receiver/Transmitter)読み出しを介してPCに容易にアクセスすることができる。
【0039】
例示的な実施形態において、我々に適したイベントベースの触覚センサのための触覚刺激の非同期送信の詳細については、国際公開第2019/112516号を参照されたい。
【0040】
以下に、実施例に従った学習及び分類のために、解読された触覚イベントデータがどのように使用されるかの詳細を説明する。
【0041】
実施例による視覚触覚スパイク神経回路網(VT-SNN)
上述のように、多くのタスクの成功した完了は、複数の感覚モダリティを使用することに依存する。例示的な実施形態では、焦点は、タッチ及び視界にあり、すなわち、それぞれニュータッチ100及びイベントベースのカメラからの触覚データ及び視覚データは、スパイキング神経モデルを介して融合される。この視覚触覚スパイキングニューラルネットワーク(VT-SNN)は、これらのモダリティの両方を使用して学習及びセンシングを可能にし、異なる例示的実施形態による他のイベントセンサを組み込むように容易に拡張することができる。
【0042】
例示的実施形態によるモデルアーキテクチャ
鳥の目の観点から、例示的な実施形態によるVT-SNN200は、最初に2つのモダリティをエンコードして、数字202、204で示される個々の潜在的(スパイキング)表現にし、それらを結合レイヤ211で結合し、追加のレイヤを通してさらに処理してタスク固有のアウトプット213を生成する簡単なアーキテクチャ(図2参照)を使用する。
【0043】
以下では、1つの例示的な実施形態で使用される正確なネットワーク構造の詳細が説明されるが、VT-SNNは、異なる例示的な実施形態に従って、触覚、視覚及びタスクSNNのための代替のネットワーク構造を使用することができる。触覚SNN208は、2つの高密度スパイク層からなる完全に接続された(FC)ネットワークを使用する(予備実験では、畳み込み層もまた、他の例示的な実施形態に従って試験されたが、性能が不良になったことに留意されたい)。これは、156の入力サイズ(2本の指、それぞれタクセル当たり正及び負の極性チャネルを有する39個のタクセル)と、32の隠れ層サイズとを有する。触覚SNN208への入力は、図1e及びfを参照して上述したシグネチャデコーダを介して取得され、デコーダの出力例については具体的に図1fを参照されたい。視覚SNN210は、3つのレイヤを使用し、第1のレイヤは、カーネルサイズ及びストライド長が4であるプーリングレイヤである。プールされたスパイク列は、入力として、触覚SNN208と同一の2層FCアーキテクチャに渡される。触覚エンコーダ及び視覚エンコーダは、それぞれ、50及び10の出力サイズを有する(いくつかの異なる寸法サイズが、例示的な実施形態に従って試験され、50~10のエンコーディングが、最良の結果を与えた)。両方のモダリティのエンコードされたスパイクタインは、組み合わせ層211においてマージされ、出力スパイク206を生成する高密度スパイキング層(すなわち、タスクSNN212)に渡される。図2の下部(SRM型)は、結合層211における単一のニューロンの動作を示すことに留意されたい。SRM型は、例示的な実施形態では、触覚、視覚及びタスクSNN208、210、タスクSNN212、及び結合レイヤを含む、ニューラルネットワーク内のすべてのレイヤで使用される。出力スパイク206は、タスクSNN212に入力される。図2の下側は、説明のために、単一のニューロンへの様々な入力のサブセットのみを示し、通常、当業者によって理解されるように、より多くのそのような入力が存在する。タスクSNN212の出力次元数(出力213)はタスクに依存することに留意されたい:コンテナ&重量分類の場合は20、回転スリップ分類の場合は2である。モデルアーキテクチャは、入力時間次元のサイズに依存せず、同じモデルアーキテクチャが両方の分類タスクで使用される。
【0044】
例示的な実施形態によるニューロンモデル
Spike Response Model(SRM)[30]、[45]は、例示的な実施形態で使用された。SRMでは、ニューロンの内部状態(「膜電位」)u(t)が所定の閾値φを超えるときはいつでも、スパイクが生成される。各ニューロンの内部状態は、入ってくるスパイクと不応反応(refractory response)との影響を受ける:
【0045】
【数1】
【0046】
ここで、nはシナプス重量であり、*は畳み込みを示し、s(t)は入力iからの入来スパイクであり、ε(-)は応答カーネルであり、v(-)は不応性カーネルであり、o(t)はニューロンの出力スパイク列206である。言い換えると、入ってくるスパイクs(t)は、応答カーネルε(-)と畳み込まれて、シナプス重量によってスケーリングされるスパイクレスポンス信号を生成する。すなわち、再び図2を参照すると、視覚触覚スパイキングニューラルネットワーク(VT-SNN)200は、モダリティごとに2つの「スパイキングエンコーダ」208、210を備える。これら2つのエンコーダからのスパイクは、固定幅結合層210を介して結合され、タスク別出力スパイク列213を出力するタスクSNN212に伝搬される。VT-SNN200は、数字214で示される、閾値が破られたときに入来するスパイク及びスパイクを統合するスパイクレスポンスモデル(SRM)ニューロンを使用する。
【0047】
例示的な実施形態によるモデルトレーニング
スパイキングネットワークは、例示的な実施形態においてSLAYER[30]を使用して最適化された。上述のように、スパイクの導関数は未定義であり、これは、SNNへの逆伝播の直接適用を禁止する。SLAYERは、近似勾配を導出するために確率的スパイキングニューロン近似を使用すること、及び誤差を分配するための時間的信用割当ポリシーを使用することによって、この問題を克服する。SLAYERはGPUハードウェア上で「オフライン」モデルをトレーニングする。したがって、スパイキングデータは、トレーニングプロセス中に固定幅間隔にビニングされる必要があるが、結果として得られるSNNモデルは、ニューロモルフィックハードウェア上で実行することができる。各ビンウィンドウVに対する(バイナリ)値が、そのウィンドウV内の総スパイクカウントが閾値Sminを超えたときはいつでも1であった、例示的な実施形態では、ストレートフォワードビニングプロセスが使用された:
【0048】
【数2】
【0049】
[30]に続いて、クラス予測は、出力層スパイク列におけるスパイクの数によって決定され、各出力ニューロンは、特定のクラスに関連付けられ、最も多くのスパイクを生成するニューロンは、勝ったクラスを表す。例示的な実施形態では、モデルは、損失を最小限に抑えることによって訓練された:
【0050】
【数3】
【0051】
式(3)におけるスパイクカウント損失の一般化は、時間的重み付けを組み込むために導入される:
【0052】
【数4】
【0053】
ωは、重み付きスパイクカウント損失と呼ばれる。実験では、ω(t)は単調に減少するように設定され、後のスパイクの重みを下げることによって早期分類を促す。具体的には、ω(t)=βt+γwithβ<0という簡単な二次関数が使用されるが、異なる例示的な実施形態では他の関数が用いられてもよい。L及びLωについて、相当するカウントは正しいクラスと正しくないクラスに指定され、それらはタスク固有のハイパーパラメータである。ハイパーパラメータは手動で調整され、正のクラスカウントを(考慮される時間間隔内の各入力にわたる)最大スパイク数の50%に設定することがうまく機能したことが分かった。初期試験では、上記の損失のみを伴う訓練が、検証セット上の急速な過剰適合及び不十分な性能につながることが観察された。この問題を緩和するためのいくつかの技術(例えば、l正則化及び脱落)が探求され、単純なl正則化が最良の結果を導くことが見出された。
【0054】
例示的な実施形態によるロボット及びセンサのセットアップ
図3は、例示的な実施形態による、実験にわたって使用されるロボットハードウェアセットアップを示す。Robotiq 2F-140グリッパ302を有する7-DoF Franka Fmika Pandaアーム300と、ニュータッチ304、306、Prophesee Onboard308、RGBカメラ310、及びOptitrackモーションキャプチャシステム314の4つの主要センサタイプからのデータを収集する。後者の2つは、非イベントセンサであり、それらのデータストリームは、VT-SNNでは使用されなかった。
【0055】
実施例によるニュータッチ触覚センサ
2個のニュータッチセンサ304、306をRobotiq 2F-140グリッパ302に搭載し、ACESデコーダ316をPandaアーム300に搭載した(図3a)。一貫したデータを保証するために、各データ収集セッションの前にセンサウォームアップを実施し、センサドリフトをチェックするためにベースライン結果を得た。具体的には、ウォームアップ100サイクルの間、平らな硬い物体上にグリッパを閉じ(YCBデータセット[46]から‘9ホールペグテスト’)、3秒間、グリッパを開き、2秒間休止することを繰り返した。次いで、ベンチマークデータのセット、すなわち、グリッパを同じ「9ホールペグテスト」上に3秒間閉じる20回の繰り返しを収集した。実験を通して、上記のように「9ホールペグテスト」での閉止テストを繰り返し、次にセンサデータを調べることによるセンサドリフトのための定期的なテストが実施された;実験を通して有意なドリフトは見出されなかった。
【0056】
例示的な実施形態による、Propheseeイベントカメラ
イベントベースビジョンデータは、Prophesee Onboard(https://www.prophesee.ai)308を使用してキャプチャされた。触覚センサと同様に、各カメラ画素は非同期に発射し、光度の増加(減少)があるとき、正(負)スパイクが得られる。Prophesee Onboard308は、アーム300に取り付けられ、グリッパ302に向けられて、関心対象に関する情報を取得した(図3a)。カメラ308は、640×480の最大解像度を有するが、関連性のない領域からのノイズを最小限に抑えるために、一実施形態によれば、クロップされた200×250長方形ウィンドウからスパイクが捕捉された。イベントカメラ308の偏りパラメータは、推奨される指針(https://support.prophesee.ai/portaFkb/articles/bias-tuning)に従って調整され、同じパラメータが、全ての試験を通して使用された。表1は、Propheseeの規則を使用して選択されたキーバイアスを示している。パラメータ値は単位なしであることに注意する。予備実験中に、Prophesee Onboard308が高周波数(≧100Hz)光度変化に敏感であることが分かった;言い換えれば、ちらつく光球が望ましくないスパイクをトリガする。この効果に対抗するために、実験装置の周囲に取り付けられた6個のフィリップス12W LED白色光電球を用いて、一貫した非ちらつき照明を提供した。
【0057】
【表1】
【0058】

例示的な実施形態によるRGBカメラ
2つのインテルリアルセンスD435s RGBカメラ310、312は、追加の非イベント画像データを提供するために使用された(赤外線放射器は、イベントカメラの雑音が増加し、したがって、深度データが記録されなかったので、無効にされた)。第1のカメラ310は、エンドエフェクタ上に取り付けられ、カメラ310は、グリッパ302の方に向けられ(把持された物体の視界を提供する)、第2のカメラ312は、シーンの視界を提供するように配置された。RGB画像は、可視化及び検証のために使用されたが、モデルへのインプットとしては使用されず、様々な例示的な実施形態に従って、さらに良好なモデル性能を提供するためのこれらのスタンダードセンサの一体化が提供され得る

例示的な実施形態によるOptiTrack
OptiTrackモーションキャプチャシステム314は、スリップ検出実験のためのオブジェクト移動データを収集するために使用された。6つの反射マーカがエンドエフェクタの剛体部分に取り付けられ、14のマーカが関心対象上に取り付けられた。11台のOptiTrack Prime 13カメラが実験領域の周囲に戦略的に配置され、トラッキングエラーを最小限に抑えました(例えば、図3bの316、318を参照)。どのような場合でも、すべてのカメラではない場合には、それぞれのマーカがほとんどのカメラに見えるようになった。これにより、継続的かつ信頼性の高いトラッキングが実現できた。Motive Body v1.10.0をマーカ追跡に使用し、検出されたマーカに手動で注釈を付けた。初期試験から、OptiTrackシステム314は120Hzで誤差<1mmの信頼できる位置推定値を与えることが分かった。
【0059】
例示的な実施形態で使用する3D-プリント部品
一実施形態では、視覚-触覚センサ成分は、3Dプリント部品を介してロボットに取り付けられる。例示的な実施形態における3つの主要な3Dプリント部品、すなわち、Intel Realsense D435、Prophesee Onboard及びACESエンコーダをFranka Fmika Pandaアームに取り付けるためのメインホルダ(図10)、ACESエンコーダ用のエンクロージャ(図11)、及びニュータッチ指をRobotiq 2F-140に取り付けるためのカプラ(図12)がある。3Dプリンタ部品の全ては、層厚を0:2mmに設定したアクリロニトリルブタジエンスチレン(ABS)を用いて印刷した。選択された少数の成分のみの充填物を最大化することによって、構造的完全性を維持しながら、総重量を最小化した。
【0060】
具体的には、図10において、3Dプリントのメインホルダ1000は、a)メインホルダをパンダアームの7番目のリンクに固定するための半円弧(インフィル99%)、b)センサをパンダに取り付けるためのコネクタ(インフィル99%)、c)ACESエンコーダのエンクロージャを取り付けるためのベース(インフィル80%)、d)Intel RealSense D435及びProphesee Onboardのためのホルダ(インフィル80%)の4つの部分を有している。
【0061】
図11及び図12を参照すると、ACESエンコーダ用のエンクロージャ1200は、65%のインフィルを有するように設計され、ニュータッチ用のカプラは、99%のインフィルを有するように設計されている。
【0062】
例示的な実施形態によるさらなる詳細
上記のセンサに加えて、固有受容データもまた、Pandaアーム300及びRobotiqグリッパ302について収集された;これらは、モデルにおいて現在使用されていないが、異なる例示的実施形態に含まれ得る。
【0063】
位相シフトを最小化することは、機械学習モデルが異なるモダリティ間の意味のある相互作用を学習できるようにするために重要である。例示的な実施形態によるセットアップは、それぞれが個別のリアルタイムクロック(RTC)を有する複数のマシンにまたがっていた。Chronydを使用して、さまざまなクロックをGoogle Public NTPプールタイムサーバに同期した。データ収集の間、各マシンについて、記録開始時刻はそれ自身のRTCに従って記録され、従って、異なるRTC間の差異を検索し、データ前処理中にそれらを適宜同期することができた。
【0064】
データ収集手順では、回転スリップは典型的に記録の途中で起こった。スリップが発生したときの関連部位を抽出するために、スリップ開始を最初に検出し、注釈を付けた。OptiTrackマーカは、OptiTrackがそれらのポーズを決定することができるように、Pandaのエンドエフェクタ及びオブジェクトに取り付けられた。図13は、典型的なスリッピングデータポイントのOptiTrackデータを視覚化したものである。ロボットが最初に次のヒューリスティックを使用してオブジェクトを持ち上げたときに、OptiTrackフレームfuaに注釈が付けられた:
【0065】
【数5】
【0066】
ロボットアームが静止しているときで、pがf1;:::;120内の経験的雑音分布を逸脱した場合にチェックした。
【0067】
オブジェクト方向の場合、θ=cos-1(2<q,q―1)を用いて計算された静止時からの角度の変化
式中、qは、静止時の四元数配向である。同様に、オブジェクトが最初に回転するときのフレームfslipは、以下のヒューリスティックを使用して注釈付けされた:
【0068】
【数6】
【0069】
リフト時にオブジェクトが回転するのに要した時間は、全てのスリップデータポイントにわたって平均で0.03秒であることが分かった。
【0070】
図13aは、エンドエフェクタの経時的なpのグラフを示す。ロボットアームが物体を上に持ち上げると、pが増加する。図13bは、qとqとの間で計算されたΘ(ラジアン単位の最短角度)のグラフを示す。これはオブジェクトがスリップするにつれて増加する。図13aにおいて、垂直線は静止時からpが有意に増加する点を示し、図13bにおいて、垂直線は静止時からΘが有意に増加する点を示す。このデータポイントの差は0.03秒である。
【0071】
I.例示的な実施形態による容器及び重量分類
第1の実験は、様々な量の液体を有する容器を分類するために、ニュータッチ、Onboardカメラ、及び例示的な実施形態によるVT-SNNを含むイベント駆動センシングフレームワークを適用する。主な目的は、例示的な実施形態によるマルチモーダルシステムが、単一のセンサを使用して分離することが困難であった物体の差を検出するのに有効であったかどうかを決定することであった。目的は、最良の可能な分類器を導出することではなく、実際に、実験は、結果が改善された可能性が高い固有受容データを含まず[11]、最良のアーキテクチャのための網羅的な(及び計算的に高価である)探索を行わなかったことに留意されたい。むしろ、実験は、例示的な実施形態に従って、視覚的及び触覚的スパイキングデータの両方を合理的な設定で使用することの潜在的な利益を研究するように設計された。
【0072】
I.1.例示的実施形態による方法及び手順
I.1.1.例示的な実施形態に従って使用されるオブジェクト
4つの異なる容器を使用した:アルミニウムコーヒー缶、プラスチックペプシボトル、厚紙豆乳カートン、及び金属マグロ缶(図5参照)。これらの物体は、異なる程度の硬さを有し、豆乳容器が最も軟らかく、マグロ缶が最も硬い。大きさの違いから、4つの容器にはそれぞれ最大250g、400g、300g、140g(マグロ缶には蓋がなく、こぼれや液体による損傷を防ぐため、米を入れた。開いた側を下向きにしてマグロ缶を置いたので、米は見えなかった)が入っていた。各対象について、それぞれの最大量の0%、25%、50%、75%、100%gのデータを収集した。これは、それぞれ5つの異なる重量レベルを有する4つのコンテナを含む20のオブジェクトクラスをもたらした。
【0073】
I.1.2.実施形態例によるロボット動作
ロボットは、各物体クラスを15回把持して持ち上げ、クラス当たり15個のサンプルを生成する。運動の各部分に対する軌道は、Movelt Cartesian Pose Controller [47]を簡単に使用して計算され、ロボットグリッパは、各物体の指定された把持点の10cm上に初期化された。次に、エンドエフェクタを把持位置に移動し(2秒)、1(4秒)の力設定でRobotiq把持コントローラを用いてグリッパを閉じた。次いで、グリッパは、5cm(2秒)だけ対象物を持ち上げ、0.5秒間保持した。
【0074】
I.1.3.例示的な実施形態によるデータ前処理
両方のモダリティについて、把持相、持ち上げ相、及び保持相からのデータ(図4の2.0秒から8.5秒のウィンドウに対応)を選択し、0.02秒のビン持続時間(325ビン)及びビン化閾値Smin=2を設定した。層化K―フォールドを用いて5分割を作成し、各分割は240個の訓練と60個の等級分布の試験例を含んでいた。
【0075】
I.1.4.例示的な実施形態によるVT-SNNを含む分類モデル
SNNは、従来のディープラーニング、具体的には、ゲート再電流手段(GRU)[48]及び3D畳み込みニューラルネットワーク(CNN-3D)[51]を有する多層パーセプトロン(MLP)と比較された。各モデルは、(i)触覚データのみ、(ii)視覚データのみ、及び(iii)結合された視覚-触覚データを使用して訓練され、結合されたデータ上のSNNモデルは、例示的な実施形態によるVT-SNNに対応することに留意されたい。単一の様式で訓練する場合、視覚又は触覚SNNを必要に応じて使用した。全てのモデルは、PyTorchを用いて実施した。SNNをSLAYERでトレーニングして、スパイクカウント差を最小限に抑え[30]、ANNをトレーニングして、RMSPROPを使用してクロスエントロピー損失を最小限に抑えた。全てのモデルは500エポックのトレーニングを受けた。
【0076】
I.2.結果と分析
I.2.1.例示的な実施形態によるVT-SNNを含むモデル比較
モデルの試験精度を表2にまとめる。触覚のみのモダリティSNNは、視覚のみのモダリティよりも12%高い精度を与える。例示的な実施形態によるマルチモーダルVT-SNN型は、81%の最高スコアを達成し、触覚モダリティバリアントと比較して11%を超える改善を達成する。視覚のみのモダリティデータのより厳密な検査は、(i)ペプシ瓶が完全に不透明ではなく、水位がいくつかの試行においてOnboardによって観察可能であること、及び(ii)Onboardが、より柔らかい容器の「満杯」を明らかにするグリッパが閉じているときに物体の変形を見ることができたことを示したことに留意されたい。したがって、視覚のみのモダリティ結果は、予想よりも良好であった。
【0077】
【表2】
【0078】
図6は、100%重量のコーヒー缶を把持しながら、異なるSNNモデルからの出力スパイクを示す、例示的な実施形態による両方のモダリティを融合する利点を示す、有益な例を与える。重量カテゴリは、各コンテナクラスに対して0%から100%(下から上)に配置される。グラフ600及び602の触覚データ及び視覚データについてそれぞれ訓練されたモデルは、それぞれ、容器及び重量カテゴリについて不明である。具体的には、触覚型600は、マグロ缶とコーヒー缶との間で識別することができないことが分かる。一方、視覚モデル602は、容器(すなわち、コーヒー缶)を正確に予測するが、重量カテゴリについては不明である。グラフ604の例示的な実施形態による結合された視覚-触覚型は、モダリティの両方からの情報を組み込み、正確なクラス(容器及び重量カテゴリの両方、すなわち、100%重量のコーヒー缶)を高い確実性で予測することができる。
【0079】
再び表Iを参照すると、SNNモデルは、ANN(MLP-GRU)モデルよりもはるかに良好に機能し、特に、組み合わされた視覚-触覚データに対して機能した。不十分な性能は、おそらく、データセットのサイズに対する、比較的長いサンプル持続時間(325タイムステップ)及びANNモデルにおける多数のパラメータによるものであった。
【0080】
I.2.2.例示的な実施形態によるVT-SNNを含む早期分類
すべての出力スパイクが蓄積するのを待つ代わりに、時間tまでに見られるスパイクの数に基づいて早期分類を実行することができる。図7に各機種の経時精度を示す。両方の組み合わせ視覚-触覚モデル700a、bは、全体的に最も高い精度を達成するが、0.5~3.0秒の間で、両方の視覚モデル702a、bは、すでに特定の物体を区別することができた。これは、グリッパが閉じると(搭載されたカメラの)小さな動きが生じ、その結果、Onboardによって認識される変化が生じたためと考えられる。予想されるように、触覚スパイクは、両方のモデル704a、bについて、~2秒で物体と接触するまで現れない。
【0081】
図7の線は平均試験精度を示し、影付の領域は標準偏差を示す。
2つの損失L及びLωは同様の「最終」精度を有するが、図7から、Lωは、700a、702a及び704aと比較して、経時的に試験精度に著しい影響を及ぼすことが分かる(700b、702b及び704bを参照)。この効果は、結合された視覚-触覚モデルについて最も明確に見られ、Lωバリアント700bは、視覚702a、bと同様の初期精度プロファイルを有するが、触覚情報が2秒を超える時間にわたって蓄積されるので、より良好な性能を達成する。
【0082】
II.実施形態による回転スリップ分類
この第2の実験では、例示的な実施形態によるセンシングシステムは、安定した把持のために重要である回転滑りを分類するために使用され、安定した把持点は、例えば、ハンマー及び他の不規則に整形されたアイテムなどの、視覚によって容易に決定されない質量中心を有するオブジェクトについて誤って予測され得る。回転スリップを正確に検出することで、コントローラが対象物を再把持し、初期把持位置が悪くなった場合の対処が可能になる。しかしながら、効果的であるためには、スリップ検出を正確かつ迅速に実行する必要がある。
【0083】
II.1.例示的な実施形態による方法及び手順
II.1.1.例示的な実施形態により使用されるオブジェクト
試験対象物は、Lego Duploブロック(図8参照)を用いて、各脚に隠れた10g質量を用いて構築した。「制御」オブジェクトは、把持点でバランスがとれるように設計された。回転滑りを誘発するために、隠れた塊を右脚から左に移動させることによって物体を修正した。したがって、安定で不安定な物体は、視覚的に同一であり、同じ総重量を有していた。
【0084】
II.1.2.実施形態例によるロボット動作
ロボットは、両方のオブジェクトバリアントを50回把持して持ち上げ、クラス当たり50個のサンプルを生成する。以前の実験と同様に、運動軌跡はMovelt Cartesian Pose Controller[47]を使用して計算された。ロボットは、物体を閉じ、表から10cm(0.75秒)持ち上げ、さらに4.25秒間保持するように指示された。グリッパの把持力を調整して、対象物を持ち上げることができるようにした。また、中心から外れた対象物に対しては回転スリップが可能になる(図8、右参照)。
【0085】
II.1.3.例示的な実施形態によるデータ前処理
移動期間全体にわたってモデルを訓練する代わりに、リフティング段階で短期間を抽出した。正確な開始時間は、OptiTrackデータを分析することによって得られ、具体的には、ベースライン配向分布(1秒又は120フレームの場合)が得られ、回転スリップは、4つ以上の連続するOptiTrackフレームを持続するベースラインフレームの98%よりも大きい(又は小さい)配向として定義された。すべりは、吊り上げ中にほぼ即座に発生した。高速検出に関心があったので、リフトの開始付近で0.15秒ウィンドウを抽出し、ビニング閾値Smin=1を有する0.001秒(150ビン)のビン持続時間を設定した。再度、層化K-フォールドを用いて5つの分割を得、各分割は80の訓練例及び20の試験例を含んでいた。
【0086】
II.1.4.例示的な実施形態によるVT-SNNを含む分類モデル
モデルの設定及び最適化の手順は、3つのわずかな変更を加えて、前のタスク/実験と同じである。まず、バイナリラベルの出力サイズを2に縮小する。第2に、ANN GRUのシーケンス長は、時間ビンの数である150に設定された。第3に、所望のSNNの真及び偽スパイクカウントをそれぞれ80及び5に設定した。再び、SNN及びANNモデルを、(i)触覚データのみ、(ii)視覚データのみ、及び(iii)例示的な実施形態によるVT-SNNを含む、組み合わされた視覚-触覚データを使用して比較した

II.2.結果と分析
II.2.1.例示的な実施形態によるVT-SNNを含むモデル比較
モデルの試験精度を表3にまとめる。SNN及びANNの両方に対して、視覚及びマルチモーダルモデルの両方が100%の精度を達成した。これは、視覚データが滑りを高度に示すことを示唆し、これは、回転滑りが視覚的に識別可能なシグネチャを生成するので、驚くべきことではない。触覚イベントのみを使用したSNN及びMLP-GRUは、それぞれ(Lで)91%及び87%の精度を達成する。
【0087】
【表3】
【0088】
II.2.2.例示的な実施形態によるVT-SNNを含む早期スリップ検出
前回の初期の容器分類に関する解析と同様に、異なる時点での滑り試験精度を図9にまとめる。物体は、約0.01秒で持ち上げられ始め、0.1秒で、一実施形態によるマルチモーダルVT-SNN900a、bが、滑りを完全に分類できることが分かる。再び、視覚とタッチは異なる精度プロファイルを有し、触覚のみの分類902a、bは、スパイクカウント900aを有するVT-SNN(0.01~0.05秒の間)よりも正確であり、視覚に基づく分類904a、bは、~0.6秒の後、触覚に基づく902a、bよりも良好であることが分かる。
【0089】
すべてのSNNについて、重み付きスパイクカウント損失900b、902b、904bでトレーニングされたモデルは、スパイクカウント損失900a、902a、904aと比較してより良好な早期分類を達成し、重み付きスパイクカウント損失900bでのVT-SNNの早期分類精度が、重み付きスパイクカウント損失902bでの触覚ベース分類と本質的に同じ早期分類精度を達成することに留意されたい

III.例示的実施形態による速度及び電力効率
GPU(Nvidia GeForce RTX 2080 Ti)とIntel Loihiの両方で、重み付けスパイクカウント損失が電力消費に影響を及ぼすべきではないことに留意して、分類モデル(例の実施例によるスパイクカウント損失を伴うVT-SNNを使用)の推論速度とエネルギー利用を比較した。
【0090】
具体的には、マルチモーダルVT-SNNは、SLAYERフレームワークを使用して訓練され、それは、Loihi上で、及びGPU上でのシミュレーションを介して、同一に実行された。このモデルは、2つの変化を除いて、前節で述べたものと同一である:1)SRMニューロンモデルの代わりにLoihiニューロンモデルを用いる。2)視覚出力の極性は、視覚入力サイズをLoihi上の単一のコアに縮小するために廃棄される。
【0091】
両モデルとも100%の試験精度を達成し、LoihiとGPUで同一の結果を生み出した。NxSDKバージョン0.9.5をNahuku 32基板上で、Nvidia RTX 2080Ti GPU上でそれぞれ使用して、全ての基準がLoihiについて得られた。
【0092】
モデルは、GPU上で1のバッチサイズで、1000回の前進パスを実行するようにタスクされる。1000サンプルのデータセットは、本発明者らの試験セットからのサンプルを反復することによって得られる。各サンプルは0.15秒のスパイクデータで構成され、1ミリ秒ごとに150のタイムステップにビニングされる。
【0093】
レイテンシ(latency)測定:GPUでは、CPUのシステムクロックを使用して、モデル推論の開始時刻(tstart)と終了時刻(tend)をキャプチャし、Loihiでは、スーパーホストのシステムクロックを使用した。タイムステップあたりのレイテンシを(tend-tstart)/(1000x150)として計算し、それぞれ150タイムステップで1000 試料採取に分割する。
【0094】
Power Utilization Measurement:GPUで電力使用率を取得するには、[52]のアプローチで、NVIDIA System Management Interface、ログ記録(timestamp、power_draw)ペアをユーティリティと200ミリ秒間隔で使用する。費やした時間の間の電力消費量を抽出し、平均化して負荷時の平均電力消費量を求めた。GPUのアイドル電力消費量を得るために、GPU上での電力使用量は、GPU上で実行されているプロセスなしで15分間記録され、電力消費量は、期間にわたって平均化された。NxSDK 0.9.5内で利用可能な性能プロファイリングツールを用いて、Loihi上のVT-SNNの電力利用を得た。例示的な実施形態によるモデルは、小さく、32チップNahuku 32ボード上の1チップ未満を占める。より正確な電力測定値を得るために、作業負荷を32回繰り返し、結果をコピーごとに報告した。複製されたワークロードは、594個のニューロフォーミックコアと5個のx86コアを使用し、624個のニューロモーフィックコアがバリア同期に対応する
(データがオンライン順に到着する)現実世界の設定をシミュレートするために、1)x86コアは、データの1ミリ秒タイムステップの継続時間に合わせて、人為的に低速化される。2)GPUのデータセットフェッチに0.15秒の人工遅延が導入され、推論を実行できるようになる前に、データウィンドウ全体の待機をシミュレートする。
【0095】
ベンチマーク結果を表4に示す。ここで、待ち時間は、1回の時間ステップを処理するのにかかる時間である。Loihi上の待ち時間は、スパイキングデータが到着するにつれて推論を実行することができるので、わずかに低いことが観察された。Loihiの消費電力は、GPUよりも大幅に(1900倍)低くなる。
【0096】
【表4】
【0097】
図14は、例示的な実施形態による分類センシングシステム1400を示す概略図を示す。システム1400は、視覚センサ1404のイベントベースの出力を第1の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードするように構成された第1のスパイキングニューラルネットワーク(SNN)エンコーダ1402と、触覚センサ1408のイベントベースの出力を第2の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードするように構成された第2のSNNエンコーダ1406と、視覚モダリティスパイキング表現と触覚モダリティスパイキング表現とをマージするように構成された結合層1410と、マージされた視覚モダリティスパイキング表現と触覚モダリティスパイキング表現とを受信するように構成されたタスクSNN1412とを、分類のために第3の出力サイズを有する視覚-触覚モダリティスパイキング表現にエンコードする。
【0098】
タスクSNN1412は、出力サイズによってインデックス付けされた所望のスパイクカウントと比較した、それぞれの出力視覚/触覚モダリティ表現におけるスパイクカウント損失に基づく分類のために構成され得る。好ましくは、タスクSNN1412は、出力サイズによってインデックス付けされた所望の重み付きスパイクカウントと比較して、それぞれの出力視覚/触覚モダリティ表現における重み付きスパイクカウント損失に基づいて分類するように構成される。
【0099】
第1のSNNエンコーダ1402、第2のSNNエンコーダ1406、及びタスクSNN1412の各々におけるニューロンは、スパイクレスポンスモデル(SRM)を適用するように構成され得る。
【0100】
センサシステム1400は、触覚センサ1404を備えてもよい。好ましくは、触覚センサ1404は、イベントベースの触覚センサを含む。あるいは、触覚センサ1404は、触覚センサ1404の本質的出力を触覚センサ1404のイベントベースの出力に変換するためのコンバータを備える。
【0101】
センサシステム1400は、視覚センサ1408を備えてもよい。好ましくは、視覚センサ1408は、イベントベースの視覚センサを含む。あるいは、ビジョンセンサ1408は、ビジョンセンサの固有出力をビジョンセンサ1408のイベントベース出力に変換するためのコンバータを備える。
【0102】
センサシステム1400は、ロボットアーム及びエンドエフェクタを備え得る。エンドエフェクタは、グリッパを備えてもよい。好ましくは、触覚センサ1406は、グリッパの各指上に1つの触覚要素を備えてもよい。
【0103】
視覚センサ1408は、ロボットアーム上又はエンドエフェクタ上に取り付けられてもよい。
【0104】
図15は、例示的な実施形態による、センシングシステムを使用して実行される分類方法を示すフローチャート1500を示す。ステップ1502において、視覚センサのイベントベースの出力が、第1のスパイキングニューラルネットワーク(SNN)エンコーダを使用して、第1の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードされる。ステップ1504では、触覚センサのイベントベースの出力が、第2のSNNエンコーダを使用して、第2の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードされる。ステップ1506において、視覚モダリティスパイキング表現及び触覚モダリティスパイキング表現が、組み合わせ層を使用してマージされる。ステップ1508において、タスクSNNを使用して、結合された視覚モダリティスパイキング表現及び触覚モダリティスパイキング表現を受信し、タスクSNNを使用して、結合された視覚モダリティスパイキング表現及び触覚モダリティスパイキング表現を受信し、タスクSNNを使用して、分類のために第3の出力サイズで視覚-触覚モダリティスパイキング表現を出力する。
【0105】
タスクSNNは、出力サイズによってインデックス付けされた所望のスパイクカウントと比較した、それぞれの出力視覚/触覚モダリティ表現におけるスパイクカウント損失に基づく分類のために構成され得る。好ましくは、タスクSNNは、出力サイズによってインデックス付けされた所望の重み付けされたスパイクカウントと比較して、それぞれの出力視覚/触覚モダリティ表現における重み付けされたスパイクカウント損失に基づいて分類するように構成される。
【0106】
第1のSNNエンコーダ、第2のSNNエンコーダ、及びタスクSNNの各々は、スパイクレスポンスモデル(SRM)を適用するように構成され得る。
【0107】
好ましくは、触覚センサは、イベントベースの触覚センサを含む。あるいは、触覚センサは、触覚センサの固有出力を触覚センサのイベントベース出力に変換するためのコンバータを備える。
【0108】
好ましくは、視覚センサは、イベントベースの視覚センサを含む。あるいは、視覚センサは、視覚センサの固有出力を視覚センサのイベントベース出力に変換するためのコンバータを備える。
【0109】
本方法は、ロボットアームのグリッパの各指に、触覚センサの1つの触覚要素を配置することを含むことができる。
【0110】
本方法は、視覚センサをロボットアーム上又はエンドエフェクタ上に取り付けることを含むことができる。
【0111】
図16は、キャリア構造1602と、キャリア構造1602の表面上に配置された電極層1604とを備える触覚センサ1600を示す概略図を示し、電極アレイ1604は、タクセル電極、例えば1606のアレイと、タクセル電極、例えば1602のそれぞれの1つに個別に電気的に接続された複数の電極線、例えば1608と、電極層1604の上に配置された保護層1610とを備え、保護層1610は弾性変形可能な材料から作製され、電極層1604と保護層1610との間に配置された圧力トランスデューサ層1612とを備え、保護層1610を介して圧力トランスデューサ層1612に加えられた接触力に応答して電極線、例えば1608内で検出可能な電気信号は、神経形態的触覚センシング用途のための時空間データを提供する。
【0112】
電極アレイのタクセル電極、例えば1606は、電極アレイの中心の周りに半径方向に変化する濃度で配置することができる。タクセル電極、例えば1606の密度は、中心からの半径方向の距離と共に減少し得る。
【0113】
触覚センサは、電極線、例えば1608のそれぞれの1つに接続された複数のエンコーダ素子、例えば1614を備えてもよく、デコーダ素子、例えば1614は、共通出力伝導体1616を介して、電極線、例えば1608内の電気信号に基づいて、触覚情報を非同期に送信するように構成される。
【0114】
キャリア構造1602は、ロボットグリッパに接続可能であるように構成され得る。
【0115】
電極層1604及び/又は電極ライン、例えば1608は可撓性であってもよい。
【0116】
図17は、例示的実施形態による、触覚センサの製造方法を図示する、フローチャート1700を示す。ステップ1702において、キャリア構造が提供される。ステップ1704において、電極層が、キャリア構造の表面上に配置され、電極アレイは、タクセル電極のアレイを含む。ステップ1706では、タクセル電極のそれぞれに個々に電気的に接続された複数の電極線が提供される。ステップ1708において、保護層が電極層の上に配置され、保護層は弾性的に変形可能な材料から作られる。ステップ1710において、圧力コンバータ層が電極層と保護層との間に配置され、ここで、保護層を介して圧力コンバータ層に加えられた接触力に応答する電極線において検出可能な電気信号が、神経形態触覚センシング用途のための時空間データを提供する。
【0117】
電極アレイのタクセル電極は、電極アレイの中心の周りで半径方向に変化する濃度で配置することができる。タクセル電極の密度は、中心からの半径方向の距離と共に減少し得る。
【0118】
この方法は、電極線のそれぞれに接続された複数のエンコーダ元素を設けることと、共通の出力伝導体を介して電極線内の電気信号に基づいて触覚情報を非同期的に送信するようにデコーダ元素を構成することとを含むことができる。
【0119】
方法は、ロボットグリッパに接続可能であるようにキャリア構造を構成することを含んでもよい。
【0120】
電極層及び/又は電極ラインは可撓性であってもよい。
【0121】
上述のように、2つのロボットタスクでより良い性能を達成するために視覚とタッチを組み合わせる例示的な実施形態によって、イベントベースのセンシングフレームワークが提供される。従来の同期システムとは対照的に、例示的な実施形態によるイベント駆動フレームワークは、離散イベントを非同期的に処理することができ、したがって、低電力消費で、より高い時間分解能及び低レイテンシを達成することができる。
【0122】
ニュータッチ、例示的な実施形態によるニューロモルフィックイベント触覚センサ、及びVT-SNN、例示的な実施形態による生の非構造化イベントデータから学習するマルチモーダルスパイキングニューラルネットワークについて説明した。容器&重量分類、及び回転滑り検出に関する実験結果は、例示的な実施形態による両方のモダリティを組み合わせることが、高い精度を達成するために重要であることを示した。
【0123】
本発明の実施形態は、以下の特徴及び関連する利益/利点のうちの1つ又は複数を有することができる。
【0124】
【表5】
【0125】
本明細書に開示される様々な機能又はプロセスは、それらの挙動、レジスタ転送、論理構成要素、トランジスタ、レイアウトジオメトリ、及び/又は他の特性に関して、様々なコンピュータ可読媒体において具現化されるデータ及び/又は命令として説明され得る。そのようなフォーマットされたデータ及び/又は命令が具現化され得るコンピュータ可読媒体は、様々な形態の不揮発性記憶媒体(たとえば、光、磁性、又は半導体記憶媒体)、及びそのようなフォーマットされたデータ及び/又は命令をワイヤレス、光、又はワイヤードシグナリング媒体、又はそれらの任意の組合せを通して転送するために使用され得る搬送波を含むが、それらに限定されない。搬送波によるそのようなフォーマットされたデータ及び/又は命令の転送の実例は、1つ又は複数のデータ転送プロトコル(例えば、HTTP、FTP、SMTPなど)を介したインターネット及び/又は他のコンピュータネットワークを介する転送(アップロード、ダウンロード、電子メールなど)を含むが、これらに限定されない。
【0126】
本明細書に記載するシステム及び方法の態様は、特定用途向け集積回路(ASIC)と同様に、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブルアレイロジック(PAL)装置、電気的プログラマブルロジック及びメモリ装置及び標準セルベースの装置などのプログラマブルロジック装置(PLD)を含む様々な回路のいずれかにプログラムされた機能性として実施することができる。システムのアスペクトを実現するための他のいくつかの可能性としては、メモリを備えたマイクロコントローラ(電子的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)など)、組み込みマイクロプロセッサ、ファームウェア、ソフトウェアなどがある。さらに、システムの態様は、ソフトウェアベースの回路エミュレーション、ディスクリートロジック(シーケンシャル及びコンビナトリアル)、カスタムデバイス、ファジー(ニューラル)ロジック、量子デバイス、及び上記のデバイスタイプのいずれかのハイブリッドを有するマイクロプロセッサにおいて具現化され得る。もちろん、基礎となるデバイス技術は、種々の構成要素タイプ、例えば、相補型金属-酸化物半導体(CMOS)のような金属-酸化物電界効果トランジスタ(MOSFET)技術、エミッタ結合論理(ECL)のようなバイポーラ技術、ポリマー技術(例えば、シリコン-共役ポリマー及び金属-共役ポリマー-金属構造)、混合アナログ及びデジタル等において提供され得る。
【0127】
システム及び方法の例示された実施形態の上記の説明は、網羅的であること、又はシステム及び方法を開示された正確な形態に限定することを意図するものではない。システム構成要素及び方法の特定の実施形態及び例が、例示目的のために本明細書で説明されるが、当業者が認識するように、システム、構成要素及び方法の範囲内で、様々な同等の修正が可能である。本明細書で提供されるシステム及び方法の教示は、上記のシステム及び方法だけでなく、他の処理システム及び方法にも適用することができる。
【0128】
当業者であれば、広く記載される本発明の精神又は範囲から逸脱することなく、特定の実施形態に示されるように、本発明に多数の変形及び/又は修正を行うことができることを理解するであろう。したがって、本実施形態は、あらゆる点で例示的であり、限定的ではないと考えられるべきである。また、本発明は、特徴又は特徴の組み合わせが特許請求の範囲又は本実施形態の詳細な説明において明示的に指定されていない場合であっても、概要セクションを含む、異なる実施形態について記載された特徴の任意の組み合わせを含む。
【0129】
概して、以下の特許請求の範囲では、使用される用語は、本明細書及び特許請求の範囲に開示される具体的な実施形態にシステム及び方法を限定するように解釈されるべきではなく、特許請求の範囲で動作するすべての処理システムを含むように解釈されるべきである。したがって、システム及び方法は、本開示によって限定されず、代わりに、システム及び方法の範囲は、特許請求の範囲によって完全に決定されるべきである。
【0130】
文脈上明らかに他の意味を必要としない限り、本明細書及び特許請求の範囲全体を通して、単語「含む(comprise)」、「含む(comprising)」などは、排他的又は網羅的な意味とは対照的に包括的な意味で解釈されるべきであり、すなわち、「含むが、これらに限定されない」という意味で、単数又は複数の数を使用する単語は、それぞれ、複数又は単数も含む。さらに、用語「本明細書において」、「以下」、「上」、「下」、及び同様の意味の用語は、全体として本出願を指し、本出願の特定の部位を指すものではない。単語「又は」が、2つ以上の項目のリストに関して使用される場合、その単語は、単語の以下の解釈のすべてを包含する:リスト中の項目のいずれか、リスト中の項目のすべて、及びリスト中の項目の任意の組合せ。
【0131】
(参考文献)
[1] A. Billard and D. Kragic, “Trends and challenges in robot manipulation,” Science, vol. 364, no. 6446, p. eaat8414, 2019.

[2] D. Li, X. Chen, M. Becchi, and Z. Zong, “Evaluating the energy efficiency of deep convolutional neural networks on cpus and gpus,” 102016, pp. 477-484.

[3] E. Strubell, A. Ganesh, and A. McCallum, “Energy and policy considerations for deep learning in NLP,” in Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL 2019, Florence, Italy, July 28- August 2, 2019, Volume 1: Long Papers, 2019, pp. 3645-3650. [Online]. Available: https: //doi.org/10.18653/vl/pl9-1355

[4] M. Pfeiffer and T. Pfeil, “Deep Learning With Spiking Neurons: Opportunities and Challenges,” Frontiers in Neuroscience, vol. 12, no. October, 2018.

[5] S.-C. Liu, B. Rueckauer, E. Ceolini, A. Huber, and T. Delbruck, “Eventdriven sensing for efficient perception: Vision and audition algorithms,” IEEE Signal Processing Magazine, vol. 36, no. 6, pp. 29-37, 2019.

[6] Y. A. LeCun, Y. Bengio, and G. E. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436-444, 2015.

[7] M. Davies, N. Srinivasa, T. Lin, G. Chinya, Y. Cao, S. H. Choday, G. Dimou, P. Joshi, N. Imam, S. Jain, Y. Liao, C. Lin, A. Lines, R. Liu, D. Mathaikutty, S. McCoy, A. Paul, J. Tse, G. Venkataramanan, Y.Weng, A. Wild, Y. Yang, and H. Wang, “Loihi: A neuromorphic manycore processor with on-chip learning,” IEEE Micro, vol. 38, no. 1, pp. 82- 99, January 2018.

[8] J. Sinapov, C. Schenck, and A. Stoytchev, “Learning relational object categories using behavioral exploration and multimodal perception,” in 2014 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2014, pp. 5691-5698.

[9] Y. Gao, L. A. Hendricks, K. J. Kuchenbecker, and T. Darrell, “Deep learning for tactile understanding from visual and haptic data,” in 2016 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2016, pp. 536-543.

[10] J. Li, S. Dong, and E. Adelson, “Slip detection with combined tactile and visual information,” in 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018, pp. 7772-7777.

[11] M. A. Lee, Y. Zhu, K. Srinivasan, P. Shah, S. Savarese, L. Fei- Fei, A. Garg, and J. Bohg, “Making sense of vision and touch: Self-supervised learning of multimodal representations for contact-rich tasks,” in 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019, pp. 8943-8950.

[12] J. Lin, R. Calandra, and S. Levine, “Learning to identify object instances by touch: Tactile recognition via multimodal matching,” in 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019, pp. 3644-3650.

[13] H. Liu, F. Sun et ah, “Robotic tactile perception and understanding,” 2018.

[14] P. Allen, “Surface descriptions from vision and touch,” in Proceedings. 1984 IEEE International Conference on Robotics and Automation, vol. 1. IEEE, 1984, pp. 394-397.

[15] S. Luo, J. Bimbo, R. Dahiya, and H. Liu, “Robotic tactile perception of object properties: A review,” Mechatronics, vol. 48, pp. 54-67, 2017.

[16] H. Liu, Y. Yu, F. Sun, and J. Gu, “Visual-tactile fusion for object recognition,” IEEE Transactions on Automation Science and Engineering, vol. 14, no. 2, pp. 996-1008, 2016.

[17] H. Soh, Y. Su, and Y. Demiris, “Online spatio-temporal Gaussian process experts with application to tactile classification,” in Intelligent Robots and Systems (IROS), 2012 IEEE/RSJ International Conference on. IEEE, 2012, pp. 4489-4496.

[18] J. Varley, D. Watkins, and P. Allen, “Visual-tactile geometric reasoning,” in RSS Workshop, 2017.

[19] J. Reinecke, A. Dietrich, F. Schmidt, and M. Chalon, “Experimental comparison of slip detection strategies by tactile sensing with the biotac(R) on the dir hand arm system,” in 2014 IEEE international Conference on Robotics and Automation (ICRA). IEEE, 2014, pp. 2742-2748.

[20] Y. Bekiroglu, R. Detry, and D. Kragic, “Learning tactile characterizations of object-and pose-specific grasps,” in 2011 IEEE/RSJ international conference on Intelligent Robots and Systems. IEEE, 2011, pp. 1554- 1560.

[21] Z. Su, K. Hausman, Y. Chebotar, A. Molchanov, G. E. Loeb, G. S. Sukhatme, and S. Schaal, “Force estimation and slip detection/classification for grip control using a biomimetic tactile sensor,” in 2015 IEEE-RAS 15th International Conference on Humanoid Robots (Humanoids). IEEE, 2015, pp. 297-303.

[22] W. Yuan, S. Dong, and E. H. Adelson, “Gelsight: High-resolution robot tactile sensors for estimating geometry and force,” Sensors, vol. 17, no. 12, p. 2762, 2017.

[23] R. Calandra, A. Owens, D. Jayaraman, J. Lin, W. Yuan, J. Malik, E. H. Adelson, and S. Levine, “More than a feeling: Learning to grasp and regrasp using vision and touch,” IEEE Robotics and Automation Letters, vol. 3, no. 4, pp. 3300-3307, 2018.

[24] S. Luo, W. Yuan, E. Adelson, A. G. Cohn, and R. Fuentes, “Vitae: Feature sharing between vision and tactile sensing for cloth texture recognition,” in 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018, pp. 2722-2727.

[25] G. Gallego, T. Delbr, G. Orchard, C. Bartolozzi, B. Taba, A. Censi, K. Daniilidis, D. Scaramuzza, S. Leutenegger, and A. Davison, “Eventbased Vision : A Survey,” Tech. Rep., 2018.

[26] A. Mitrokhin, C. Ye, C. Fermuller, Y. Aloimonos, and T. Delbruck, “EVIMO: Motion Segmentation Dataset and Learning Pipeline for Event Cameras,” in 2019 IEEE/RSI International Conference on Intelligent Robots and Systems (IROS), 2019.

[27] A. Z. Zhu and L. Yuan, “EV-FlowNet: Self-Supervised Optical Flow Estimation for Event-based Cameras,” in Robotics: Science and Systems, 2018.

[28] A. I. Maqueda, A. Loquercio, G. Gallego, N. Garcn’nia, and D. Scaramuzza, “Event-based vision meets deep learning on steering prediction for self-driving cars,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5419-5427.

[29] A. Tavanaei, M. Ghodrati, S. R. Kheradpisheh, T. Masquelier, and A. Maida, “Deep learning in spiking neural networks,” Neural Networks, vol. I l l, pp. 47-63, 2019. [Online]. Available: https: //doi.org/10.1016/j.neunet.2018.12.002

[30] S. B. Shrestha and G. Orchard, “Slayer: Spike layer error reassignment in time,” in Advances in Neural Information Processing Systems, 2018, pp. 1412-1421.

[31] G. Bellec, F. Scherr, E. Hajek, D. Salaj, R. Legenstein, and W. Maass, “Biologically inspired alternatives to backpropagation through time for learning in recurrent neural nets,” arXiv preprint arXiv: 1901.09049, 2019.

[32] M. Akrout, C. Wilson, P. Humphreys, T. Lillicrap, and D. B. Tweed, “Deep learning without weight transport,” in Advances in Neural Information Processing Systems, 2019, pp. 974-982.

[33] P. A. Merolla, J. V. Arthur, R. Alvarez-Icaza, A. S. Cassidy, J. Sawada, F. Akopyan, B. L. Jackson, N. Imam, C. Guo, Y. Nakamura, B. Brezzo, I. Vo, S. K. Esser, R. Appuswamy, B. Taba, A. Amir, M. D. Flickner, W. P. Risk, R. Manohar, and D. S. Modha, “A million spiking- 980 neuron integrated circuit with a scalable communication network and interface,” Science, vol. 345, no. 6197, pp. 668-673, 2014. [Online]. Available: https://science.sciencemag.org/content/345/6197/668

[34] S. Chevallier, H. Paugam-Moisy, and F. Lem ah t re, “Distributed processing for modelling real-time multimodal perception in a virtual robot.” in Parallel and Distributed Computing and 985 Networks, 2005, pp. 393-398.

[35] N. Rathi and K. Roy, “Stdp-based unsupervised multimodal learning with cross-modal processing in spiking neural network,” IEEE Transactions on Emerging Topics in Computational Intelligence, pp. 1-11, 2018.

[36] E. Mansouri-Benssassi and I. Ye, “Speech emotion recognition with early visual cross- 990 modal enhancement using spiking neural networks,” in 2019 International loint Conference on Neural Networks (IJCNN). IEEE, 2019, pp. 1-8.

[37] T. Zhou and I. P. Wachs, “Spiking neural networks for early prediction in human-robot collaboration,” The International Journal of Robotics Research, vol. 38, no. 14, pp. 1619-1643, 2019. [Online] Available: https://doi.org/10.1177/0278364919872252

995 [38] J. Konstantinova, A. Jiang, K. Althoefer, P. Dasgupta, and T. Nanayakkara, “Implementation of tactile sensing for palpation in robot-assisted minimally invasive surgery: A review,” IEEE Sensors Journal, vol. 14, no. 8, pp. 2490-2501, 2014.

[39] Y.Wu, Y. Liu, Y. Zhou, Q. Man, C. Hu,W. Asghar, F. Li, Z. Yu, J. Shang, G. Liu et ah, “A skin-inspired tactile sensor for smart prosthetics,” Science Robotics, vol. 3, no. 22, p. 1000 eaat0429, 2018.

[40] Q.-J. Sun, X.-H. Zhao, Y. Zhou, C.-C. Yeung, W. Wu, S. Venkatesh, Z.-X. Xu, J. J. Wylie, W.-J. Li, and V. A. Roy, “Fingertip-skin-inspired highly sensitive and multifunctional sensor with hierarchically structured conductive graphite/polydimethylsiloxane foams,” Advanced Functional Materials, vol. 29, no. 18, p. 1808829, 2019.

1005 [41] J. He, P. Xiao, W. Lu, J. Shi, L. Zhang, Y. Liang, C. Pan, S.-W. Kuo, and T. Chen, “A universal high accuracy wearable pulse monitoring system via high sensitivity and large linearity graphene pressure sensor,” Nano Energy, vol. 59, pp. 422-433, 2019.

[42] T. Callier, A. K. Suresh, and S. J. Bensmaia, “Neural coding of contact events in somatosensory cortex,” Cerebral Cortex, vol. 29, no. 11, pp. 4613-4627, 2019.

1010 [43] W. W. Lee, Y. J. Tan, H. Yao, S. Li, H. H. See, M. Hon, K. A. Ng, B. Xiong, J. S. Ho, and B. C. Tee, “A neuro-inspired artificial peripheral nervous system for scalable electronic skins,” Science Robotics, vol. 4, no. 32, p. eaax2198, 2019.

[44] R. S. Johansson and J. R. Flanagan, “Coding and use of tactile signals from the fingertips in object manipulation tasks,” Nature Reviews Neuroscience, vol. 10, no. 5, pp. 345-359, 2009. 1015 [45] W. Gerstner, “Time structure of the activity in neural network models,” Physical review E, vol. 51, no. 1, p. 738, 1995.

[46] B. Calli, A. Walsman, A. Singh, S. Srinivasa, P. Abbeel, and A. M. Dollar, “Benchmarking in manipulation research: Using the yale-cmuberkeley object and model set,” IEEE Robotics Automation Magazine, vol. 22, no. 3, pp. 36-52, Sep. 2015.

1020 [47] D. Coleman, I. Sucan, S. Chitta, and N. Correll, “Reducing the barrier to entry of complex robotic software: a moveit! case study,” arXiv preprint arXiv: 1404.3785, 2014.

[48] K. Cho, B. van Mem 'enboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, “Learning phrase representations using rnn encoder-decoder for statistical machine translation,” in Proceedings of the 2014 Conference on Empirical Methods in Natural 1025 Language Processing (EMNLP), 2014, pp. 1724-1734.

[49] P. Blouw, X. Choo, E. Hunsberger, and C. Eliasmith, “Benchmarking keyword spotting efficiency on neuromorphic hardware,” 2018, arXiv: 1812.01739.

[50] Lee, Wang Wei, et al. "A neuro-inspired artificial peripheral nervous system for scalable electronic skins." Science Robotics 4.32 (2019): eaax2198.

1030 [51] J. M. Gandarias, F. Pastor, A. J. Garc ia-Cerezo, and J. M. G'omezde Gabriel, “Active tactile recognition of deformable objects with 3d convolutional neural networks,” in 2019 IEEE World Haptics Conference (WHC). IEEE, 2019, pp. 551-555.

[52] P. Blouw, X. Choo, E. Hunsberger, and C. Eliasmith, “Benchmark-ing keyword spotting efficiency on neuromorphic hardware,” 2018, arXiv: 1812.01739]
図1a
図1b
図1c
図1d
図1e
図1f
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
【国際調査報告】