特表2023-529732 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ナショナル　ユニバーシティー　オブ　シンガポールの特許一覧

特表2023-529732ロボットのためのイベント駆動視覚触覚センシング及び学習

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1a
1b
1c
1d
1e
1f
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-07-11

(54)【発明の名称】ロボットのためのイベント駆動視覚触覚センシング及び学習

(51)【国際特許分類】

G06T 7/00 20170101AFI20230704BHJP

B25J 13/00 20060101ALI20230704BHJP

G06V 10/82 20220101ALI20230704BHJP

G06N 3/049 20230101ALI20230704BHJP

G06N 3/045 20230101ALI20230704BHJP

【ＦＩ】

G06T7/00 350C

B25J13/00 Z

G06V10/82

G06N3/049

G06N3/045

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022576503

(86)(22)【出願日】2021-06-15

(85)【翻訳文提出日】2023-02-06

(86)【国際出願番号】 SG2021050350

(87)【国際公開番号】W WO2021256999

(87)【国際公開日】2021-12-23

(31)【優先権主張番号】10202005663U

(32)【優先日】2020-06-15

(33)【優先権主張国・地域又は機関】SG

(81)【指定国・地域】

(71)【出願人】

【識別番号】517435434

【氏名又は名称】ナショナルユニバーシティーオブシンガポール

【氏名又は名称原語表記】ＮａｔｉｏｎａｌＵｎｉｖｅｒｓｉｔｙｏｆＳｉｎｇａｐｏｒｅ

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】ティー，チー，ケオン

(72)【発明者】

【氏名】シー，ハイアン，ハイアン

(72)【発明者】

【氏名】リム，ブライアン

(72)【発明者】

【氏名】ショー，ハロルド，スーン，ホン

(72)【発明者】

【氏名】タウニャゾフ，タスボラト

(72)【発明者】

【氏名】スン，ウェイコン

(72)【発明者】

【氏名】クアン，ジェスロ，シェン，ユアン

(72)【発明者】

【氏名】アンサリ，アブドゥル，ファティール

【テーマコード（参考）】

3C707

5L096

【Ｆターム（参考）】

3C707KS31

3C707KT01

3C707KT05

3C707KW01

3C707KX08

3C707LW12

3C707LW15

5L096AA02

5L096AA06

5L096BA05

5L096EA39

5L096FA52

5L096FA66

5L096GA40

5L096GA51

5L096HA11

5L096KA04

5L096MA07

(57)【要約】

分類センシングシステム、センシングシステムを用いて行われる分類方法、触覚センサ、及び触覚センサの製造方法。分類センシングシステムは、視覚センサのイベントベース出力を第１の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードするように構成された第１スパイキングニューラルネットワーク（ＳＮＮ）エンコーダと、触覚センサのイベントベース出力を第２の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードするように構成された第２のＳＮＮエンコーダと、視覚モダリティスパイキング表現と触覚モダリティスパイキング表現とをマージするように構成された結合層と、マージされた視覚モダリティスパイキング表現と触覚モダリティスパイキング表現とを受信し、第３の出力サイズを有する視覚－触覚モダリティスパイキング表現を出力するように構成されたタスクＳＮＮと、を備える。
【選択図】図１５

【特許請求の範囲】

【請求項1】

視覚センサのイベントベース出力を第１の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードするように構成された第１のスパイキングニューラルネットワーク（ＳＮＮ）エンコーダと、
触覚センサのイベントベース出力を第２の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードするように構成された第２のＳＮＮエンコーダと、
前記視覚モダリティスパイキング表現と前記触覚モダリティスパイキング表現とをマージするように構成された結合層と、
マージされた前記視覚モダリティスパイキング表現と前記触覚モダリティスパイキング表現とを受信し、第３の出力サイズを有する視覚－触覚モダリティスパイキング表現を出力するように構成されたタスクＳＮＮと、
を備える分類センシングシステム。

【請求項2】

前記タスクＳＮＮは、前記出力サイズによってインデックス付けされた所望のスパイクカウントと比較した、前記視覚モダリティ表現出力及び前記触覚モダリティ表現出力各々におけるスパイクカウント損失に基づく分類のために構成される
請求項１に記載のシステム。

【請求項3】

前記タスクＳＮＮは、前記出力サイズによってインデックス付けされた所望の重み付きスパイクカウントと比較した、前記視覚モダリティ表現出力及び前記触覚モダリティ表現出力各々における重み付きスパイクカウント損失に基づく分類のために構成される
請求項１に記載のシステム。

【請求項4】

前記第１のＳＮＮエンコーダ、前記第２のＳＮＮエンコーダ及び前記タスクＳＮＮの各々におけるニューロンは、スパイクレスポンスモデル（ＳＲＭ）を適用するように構成される
請求項１乃至３のいずれか一項に記載のシステム。

【請求項5】

前記触覚センサを備える
請求項１乃至４のいずれか一項に記載のシステム。

【請求項6】

前記触覚センサは、イベントベースの触覚センサを備える
請求項５に記載のシステム。

【請求項7】

前記触覚センサは、前記触覚センサの固有出力を、前記触覚センサのイベントベース出力に変換するためのコンバータを備える
請求項５に記載のシステム。

【請求項8】

前記視覚センサを備える
請求項１乃至７のいずれか一項に記載のシステム。

【請求項9】

前記視覚センサは、イベントベースの視覚センサを備える
請求項８に記載のシステム。

【請求項10】

前記視覚センサは、前記視覚センサの固有出力を、前記視覚センサのイベントベース出力に変換するためのコンバータを備える
請求項８に記載のシステム。

【請求項11】

ロボットアーム及びエンドエフェクタを備える
請求項１乃至１０のいずれか一項に記載のシステム。

【請求項12】

前記エンドエフェクタがグリッパを備える
請求項１１に記載のシステム。

【請求項13】

前記触覚センサは、前記グリッパの各指に１つの触覚要素を備える
請求項１２に記載のシステム。

【請求項14】

前記視覚センサは、前記ロボットアーム上又は前記エンドエフェクタ上に取り付けられる
請求項１１乃至１３のいずれか一項に記載のシステム。

【請求項15】

センシングシステムを使用して実行される分類方法であって、
第１のスパイキングニューラルネットワーク（ＳＮＮ）エンコーダを用いて、視覚センサのイベントベースの出力を、第１の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードする工程と、
第２のＳＮＮエンコーダを用いて、触覚センサのイベントベースの出力を、第２の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードする工程と、
結合層を用いて、前記視覚モダリティスパイキング表現及び前記触覚モダリティスパイキング表現をマージする工程と、
タスクＳＮＮを用いて、マージされた前記視覚モダリティスパイキング表現及び前記触覚モダリティスパイキング表現を受信し、分類のための第３の出力サイズを有する視覚－触覚モダリティスパイキング表現を出力する工程と、
を含む分類方法。

【請求項16】

前記タスクＳＮＮは、前記出力サイズによってインデックス付けされた所望のスパイクカウントと比較した、前記視覚モダリティ表現出力及び前記触覚モダリティ表現出力各々におけるスパイクカウント損失に基づく分類のために構成される
請求項１５に記載の方法。

【請求項17】

前記タスクＳＮＮは、前記出力サイズによってインデックス付けされた所望の重み付けされたスパイクカウントと比較した、前記視覚モダリティ表現出力及び前記触覚モダリティ表現出力における重み付けされたスパイクカウント損失に基づいて分類するように構成される
請求項１６に記載の方法。

【請求項18】

前記第１のＳＮＮエンコーダ、前記第２のＳＮＮエンコーダ及び前記タスクＳＮＮのそれぞれが、スパイクレスポンスモデル（ＳＲＭ）を適用するように構成される
請求項１５乃至１７のいずれか一項に記載の方法。

【請求項19】

前記触覚センサが、イベントベースの触覚センサを含む
請求項１５乃至１８のいずれか一項に記載の方法。

【請求項20】

前記触覚センサの固有出力を前記触覚センサのイベントベースの出力に変換することを含む
請求項１５乃至１８のいずれか一項に記載の方法。

【請求項21】

前記視覚センサがイベントベースの視覚センサを含む
請求項１５乃至２０のいずれか一項に記載の方法。

【請求項22】

前記視覚センサの固有出力を前記視覚センサのイベントベース出力に変換することを含む
請求項１５乃至２０のいずれか一項に記載の方法。

【請求項23】

前記触覚センサの１つの触覚要素をロボットアームのグリッパの各指に配置することを含む
請求項１５乃至２２のいずれか一項に記載の方法。

【請求項24】

前記視覚センサを前記ロボットアーム又は前記エンドエフェクタに取り付けることを含む
請求項１５乃至２３のいずれか一項に記載の方法。

【請求項25】

キャリア構造と、
前記キャリア構造の表面上に配置され、複数のタクセル電極のアレイを含む電極層と、
前記複数のタクセル電極の各一つに個別に電気的に接続された複数の電極線と、
前記電極層の上に配置され、弾性変形可能な材料から作られた保護層と、
前記電極層と前記保護層との間に配置された圧力トランスデューサ層と、
を備え、
前記保護層を介して前記圧力トランスデューサ層に働く接触力に応答する、前記複数の電極線において検出可能な電気信号が、ニューロモルフィックな触覚センシング用途のための時空間データを提供する
触覚センサ。

【請求項26】

前記電極アレイの前記複数のタクセル電極が、前記電極アレイの中心の周りで半径方向に変化する濃度で配置される
請求項２５に記載の触覚センサ

【請求項27】

前記複数のタクセル電極の密度は、前記中心から半径方向の距離とともに減少する
請求項２６に記載の触覚センサ。

【請求項28】

前記複数の電極線にそれぞれ接続される複数のエンコーダ要素を備え、複数のデコーダ要素は、共通の出力伝導体を介して、前記複数の電極線内の前記電気信号に基づいて、触覚情報を非同期的に送信するように構成される
請求項２５乃至２７のいずれか一項に記載の触覚センサ。

【請求項29】

前記キャリア構造は、ロボット式グリッパに接続可能に構成される
請求項２５乃至２８のいずれか一項に記載の触覚センサ。

【請求項30】

前記電極層及び／又は前記複数の電極線が可撓性である
請求項２５乃至２９のいずれか一項に記載の触覚センサ。

【請求項31】

触覚センサを製造する方法であって、
キャリア構造を提供することと、
前記キャリア構造の表面上に配置され、複数のタクセル電極のアレイを含む電極層を提供することと、
前記複数のタクセル電極の各一つに個別に電気的に接続された複数の電極線を提供することと、
前記電極層の上に配置され、弾性変形可能な材料からなる保護層を提供することと、
前記電極層と前記保護層との間に配置された圧力トランスデューサ層を提供することと、
を含み、
前記保護層を介して前記圧力トランスデューサ層に働く接触力に応答する、前記複数の電極線において検出可能な電気信号が、ニューロモーフィック触覚センシング用途のための時空間データを提供する
方法。

【請求項32】

前記電極アレイの前記複数のタクセル電極が、前記電極アレイの中心の周りで半径方向に変化する濃度で配置される
請求項３１に記載の方法

【請求項33】

前記複数のタクセル電極の密度は、前記中心から半径方向の距離と共に減少する
請求項３２に記載の方法。

【請求項34】

前記複数の電極線にそれぞれ接続された複数のエンコーダ要素を提供することと、複数のデコーダ要素が、共通の出力伝導体を介して前記複数の電極線内の前記電気信号に基づいて触覚情報を非同期的に伝達するように構成することと、を備える
請求項３１乃至３３のいずれか１項に記載の方法。

【請求項35】

前記キャリア構造をロボットグリッパに接続可能に構成することを含む
請求項３１乃至３４のいずれか一項に記載の方法。

【請求項36】

前記電極層及び／又は前記複数の電極線が可撓性である
請求項３１乃至３４のいずれか一項に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、大マーカに言えば、分類センシングシステム及び方法に関し、特に、ロボットのためのイベント駆動視覚触覚センシング及び学習に関する。

【背景技術】

【0002】

本明細書全体にわたる先行技術のいかなる言及、及び／又は、議論も、この先行技術が周知であるか、又は当分野における共通の一般的知識の一部を形成することを認めるものとして、決して考慮されるべきではない。

【0003】

多くの日常的な作業は、成功するために複数の感覚モダリティを必要とする。例えば、冷蔵庫［１］から豆乳のカートンを取り出すことを考える；人間は、視覚を使用してカートンを探し出し、カートンがどのくらい豆乳を含むかを単純な把持から推測することができる。それらはまた、物体を滑らせることなく、物体を持ち上げるために、それらの視覚及び触覚を使用することができる。これらの動作（及び推論）は、人工システムにおいて複数のセンサモダリティを使用する一般的なディープラーニングアプローチと比較して、発電効率の良い神経基材を使用してロバストに実行され、人間の脳は、はるかに少ないエネルギーを必要とする［２］、［３］。

【0004】

以下では、ロボット工学のための視覚－触覚センシング、及びイベント駆動センシングと学習に関する作業の簡単な概要を提供する。ロボットに対する視覚‐触覚センシングにおいて、一般に、ロボット工学に対するマルチモーダルセンシングの重要性の認識があり、センシング法とセンシング法の両方に革新をもたらした。最近では、視覚とタッチセンシングを組み合わせた紙が多く、例えば［８］～［１３］がある。しかしながら、オブジェクトの視覚－触覚学習に関する研究は、ビジョン及び触覚データがプリミティブオブジェクトの表面記述を作成するために使用された１９８４年（少なくとも）に遡る［１４］；この初期の研究では、触覚センシングは、その時点での触覚センサの解像度が低いため、視覚に対する支持的な役割を果たした。

【0005】

触覚技術における最近の進歩［１５］は、物体探査［１６］と分類［１７］、形状完成［１８］、滑り検出［１９］、［２０］を含むより複雑なタスクのための触覚センシングの使用を奨励している。１つの一般的なセンサは、バイオタックであり、人間の指と同様に、それは、テクスチャ化された皮膚を使用し、振動シグネチャが、高精度の材料及び物体の識別ならびに滑り検出のために使用されることを可能にする［２１］。バイオタックはまた、視覚－触覚学習、例えば、［９］深層学習を介して物体を認識するためにＲＧＢ画像と結合された触覚データにおいても使用されている。他の最近の研究では、Ｇｅｌｓｉｇｈｔ[２２］－光学ベースの触覚センサ－－視覚－－触覚スリップ検出用［１０］、［２３］、把持安定性、及びテクスチャ認識用［２４］を使用している。非常に最近の研究では、教師なし学習を使用して、強化学習のための視覚触覚データ（固有感覚を有する）の神経表現を生成している［１１］。

【0006】

イベントベースのセンシングでは、センサ及び学習は、主に視覚に焦点を当てている（包括的な調査については［２５］を参照）。ビジョンに重点を置くことは、従来の光学センサとは異なり、イベントカメラがピクセルを非同期で変化させることはもちろん、ＤＶＳ及びＰｒｏｐｈｅｓｅｅ搭載のようなイベントカメラの最近の利用可能性と同様に、多くのタスクにわたるその適用性の両方に帰することができる。イベントベースのセンサは、ディープラーニング技術と組み合わせてうまく使用されている［２５］。バイナリイベントは、最初に実数値テンソルに変換され、それは深い人工ニューラルネットワークANNによって下流で処理される。このアプローチは、一般的に、良いモデル（例えば、動きセグメンテーション［２６］、オプティカルフロー推定［２７］、及びカーステアリング予測［２８］）をもたらすが、計算コストが高い。

【0007】

神経形態学的学習、具体的にはスパイキングニューラルネットワーク（ＳｐｉｋｉｎｇＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＳＮＮ）[４］、［２９］は、イベントデータを用いて学習するための競合するアプローチを提供する。イベントベースのセンサと同様に、ＳＮＮは、離散スパイクで直接動作し、従って、同様の特性、すなわち、低待ち時間、高時間分解能及び低電力消費を有する。歴史的に、ＳＮＮは、良好な訓練手順の欠如によって妨げられてきた。逆伝播のような勾配に基づく方法は、スパイクが微分不可能であるため利用できなかった。効果的なＳＮＮトレーニング［３０］～［３２］における最近の発展、及び神経形態学的ハードウェア（例えば、ＩＢＭＴｍｅＮｏｒｔｈ[３３］及びＩｎｔｅｌＬｏｉｈｉ[７］）の新生の利用可能性は、ロボット工学を含む、様々な用途のための神経形態学的学習に新たに関心を集めている。ＳＮＮはまだ、擬似イベント画像データセット上の深部ＡＮＮのいとこよりも一貫して優れているわけではなく、リサーチコミュニティは、実イベントデータのためのより良い訓練方法を積極的に探求している。

【発明の概要】

【0008】

本発明の実施形態は、上記の問題の少なくとも１つに対処しようとするものである。

【0009】

本発明の第１の態様によれば、視覚センサのイベントベース出力を第１の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードするように構成された第１のスパイキングニューラルネットワーク（ＳＮＮ）エンコーダと、触覚センサのイベントベース出力を第２の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードするように構成された第２のＳＮＮエンコーダと、前記視覚モダリティスパイキング表現と前記触覚モダリティスパイキング表現とをマージするように構成された結合層と、マージされた前記視覚モダリティスパイキング表現と前記触覚モダリティスパイキング表現とを受信し、第３の出力サイズを有する視覚－触覚モダリティスパイキング表現を出力するように構成されたタスクＳＮＮと、を備える分類センシングシステムが提供される。

【0010】

本発明の第２の態様によれば、センシングシステムを使用して実行される分類方法であって、第１のスパイキングニューラルネットワーク（ＳＮＮ）エンコーダを用いて、視覚センサのイベントベースの出力を、第１の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードする工程と、第２のＳＮＮエンコーダを用いて、触覚センサのイベントベースの出力を、第２の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードする工程と、結合層を用いて、前記視覚モダリティスパイキング表現及び前記触覚モダリティスパイキング表現をマージする工程と、タスクＳＮＮを用いて、マージされた前記視覚モダリティスパイキング表現及び前記触覚モダリティスパイキング表現を受信し、分類のための第３の出力サイズを有する視覚－触覚モダリティスパイキング表現を出力する工程と、を含む分類方法が提供される。

【0011】

本発明の第３の態様によれば、キャリア構造と、前記キャリア構造の表面上に配置され、複数のタクセル電極のアレイを含む電極層と、前記複数のタクセル電極の各一つに個別に電気的に接続された複数の電極線と、前記電極層の上に配置され、弾性変形可能な材料から作られた保護層と、前記電極層と前記保護層との間に配置された圧力トランスデューサ層と、を備え、前記保護層を介して前記圧力トランスデューサ層に働く接触力に応答する、前記複数の電極線において検出可能な電気信号が、ニューロモルフィックな触覚センシング用途のための時空間データを提供する触覚センサが提供される。

【0012】

本発明の第４の態様によれば、触覚センサを製造する方法であって、キャリア構造を提供することと、前記キャリア構造の表面上に配置され、複数のタクセル電極のアレイを含む電極層を提供することと、前記複数のタクセル電極の各一つに個別に電気的に接続された複数の電極線を提供することと、前記電極層の上に配置され、弾性変形可能な材料からなる保護層を提供することと、前記電極層と前記保護層との間に配置された圧力トランスデューサ層を提供することと、を含み、前記保護層を介して前記圧力トランスデューサ層に働く接触力に応答する、前記複数の電極線において検出可能な電気信号が、ニューロモーフィック触覚センシング用途のための時空間データを提供する方法が提供される。

【0013】

本発明の実施形態は、単なる例として、図面と併せて、以下の記載から、より良く理解され、当業者に容易に明らかになるであろう。

【図面の簡単な説明】

【0014】

【図1a】図１ａは、一実施形態によるニュータッチ（ＮｅｕＴｏｕｃｈ）イベント駆動触覚センサの、人の指と比較した写真を示す。

【図1b】図１ｂは、一実施形態によるニュータッチイベント駆動触覚センサの部分断面図の写真を示す。

【図1c】図１ｃは、一実施形態によるニュータッチイベント駆動触覚センサ上の３９個のタクセルの空間分布の写真を示す。

【図1d】図１ｄは、一実施形態によるニュータッチイベント駆動触覚センサにおけるコンバータの圧力応答を示す。低ヒステリシスが負荷と除荷曲線から観察できる。

【図1e】図１ｅは、例示的な実施形態によるニュータッチイベント駆動触覚センサからの触覚情報の（シグネチャエンコードされた）非同期送信を示すグラフを示す。

【図1f】図１ｆは、例示的な実施形態によるニュータッチイベント駆動触覚センサからの復号された触覚情報（すなわち、イベント）を示すグラフを示す。

【図2】図２は、最初に、２つのモダリティを個々の潜在的（スパイキング）表現にエンコードし、それらの潜在的（スパイキング）表現は、組み合わせレイヤにおいて組み合わされ、さらに、追加のレイヤを通して処理されて、タスク固有の出力を生み出す、例示的な実施形態による視覚触覚スパイキングニューラルネットワーク（ＶＴ－ＳＮＮ）のアーキテクチャの概略図を示す。

【図3】図３ａは、一実施形態によるニュータッチイベント駆動触覚センサを搭載したＲｏｂｏｔｉｑ２Ｆ－１４０グリッパ、ＰｒｏｐｈｅｓｅｅＯｎｂｏａｒｄ偶数ベースカメラ、ＲＧＢカメラを備えた７－ＤｏＦＦｒａｎｋａＥｍｉｋａＰａｎｄａアームの写真を示す。図３ｂは、図３ａのＲｏｂｏｔｉｑ２Ｆ－１４０グリッパとＯｐｔｉｔｒａｃｋモーションキャプチャシステムを備えた７－ＤｏＦＦｒａｎｋａＥｍｉｋａＰａｎｄａアームの写真を示す。

【図4】図４は、例示的な実施形態によるＶＴ－ＳＮＮの訓練及び試験のための把持、持ち上げ、及び保持段階からの触覚及び視覚データを示す視覚スパイク画像及びレコードを有するグラフを示す。

【図5】図５は、例示的な実施形態によるＶＴ－ＳＮＮを使用する分類作業のための、容器分類作業に使用される容器：コーヒー缶、プラスチックソーダボトル、豆乳カートン、及び金属マグロ缶の写真を示す。

【図6】図６は、正しい予測と誤った予測を有する異なるモダリティで訓練されたモデルについての出力スパイクを示すグラフを示すが、一方で、一実施形態によるＶＴ－ＳＮＮと、比較のための触覚（のみ）モデル及び視覚（のみ）モデルとを用いて、分類タスクにおいて１００％の重量でコーヒー缶を把握することができる。

【図7】図７は、例示的な実施形態によるＶＴ－ＳＮＮと、比較のための触覚（のみ）モデル及び視覚（のみ）モデルを使用する分類タスクにおける、経時的な容器及び重量の分類精度を示すグラフを示す。

【図8】図８ａは、例示的な実施形態によるＶＴ－ＳＮＮと、触覚（のみ）モデルと、比較のための視覚（のみ）モデルとを使用して、添付されたＯｐｔｉＴｒａｃｋマーカを有する伝票分類タスクのためのオブジェクトの写真を示す。図８ｂは、安定把持中の図８aの対象の写真である。図８ｃは、図８ａの回転すべりによる不安定把持時の被写体の写真である。

【図9】図９は、例示的な実施形態によるＶＴ－ＳＮＮと、比較のための触覚（のみ）モデル及び視覚（のみ）モデルを使用する分類タスクにおける経時的なスリップ分類精度を示すグラフを示す。

【図10】図１０は、一実施形態による、３Ｄ印刷されたメインホルダの写真を示す。

【図11】図１１は、例示的実施形態よるＡＣＥＳエンコーダにおいて使用するエンクロージャの写真を示している。

【図12】図１２は、一実施形態によるニュータッチにおいて使用するカプラの写真を示す。

【図13】図１３ａは、例示的な実施形態による経時的なエンドエフェクタのｐ_ｚのグラフを示す。図１３ｂは、例示的実施形態による、ｑ_ｔとｑ_０との間で計算されたΘ_ｔ（ラジアンでの最短角度）のグラフを示す。

【図14】図１４は、例示的な実施形態による分類検知システムを示す概略図である。

【図15】図１５は、例示的な実施形態によるセンシングシステムを使用して実行される分類方法を示すフローチャートを示す。

【図16】図１６は、一実施形態による触覚センサを示す概略図を示す。

【図17】図１７は、一実施形態による、触覚センサの製造方法を示す、工程図を示す。

【発明を実施するための形態】

【0015】

本発明の実施形態は、非同期及びイベント駆動ロボットシステムのための効率的な視覚－触覚センシングに向けた重要なステップを提供する。リソースを消費するディープラーニング方法とは対照的に、イベント駆動センシングは、リアルタイムモバイルロボットに理想的な機能である、電力効率及び低レイテンシを約束する代替アプローチを形成する。しかしながら、イベント駆動システムは、標準的な同期認識方法［４］、［５］と比較して未開発のままである。

【0016】

より豊かな触覚センシングを可能にするために、実施形態例によれば、本明細書ではニュータッチと称する、３９タクセルの指先センサが提供される。既存の市販の触覚センサと比較して、ニュータッチのニューロモーフィック設計は、低い待ち時間を保持しながらより多数のタクセルへのスケーリングを可能にする。

【0017】

ニュータッチとＰｒｏｐｈｅｓｅｅイベントカメラによるマルチモーダル学習を、例示の実施形態に従って調査した。具体的には、監視学習課題のための両方の感覚モダリティを組み込んだ視覚‐触覚スパイキングニューラルネットワーク（ＶＴ－ＳＮＮ）を提供する。従来のディープ人工ニューラルネットワーク（ＡＮＮ）モデル［６］とは異なり、ＳＮＮは、離散スパイクを非同期に処理し、したがって、例示的な実施形態によるニューロモルフィックセンサによって生成されるイベントデータにおそらくより適している。さらに、ＳＮＮは、ＩｎｔｅｌＬｏｉｈｉ[７］のような効率的な低パワーのニューロモルフィック・チップ上で利用することができる。

【0018】

例示的な実施形態では、他のイベントベースの触覚センサを使用することができることに留意されたい。また、触覚センサは、触覚センサの固有出力を触覚センサのイベントベースの出力に変換するためのコンバータを備えてもよい。

【0019】

同様に、例示的な実施形態では、他のイベントベースの視覚センサが使用されてもよいことに留意されたい。また、視覚センサは、視覚センサの固有出力を視覚センサのイベントベース出力に変換するためのコンバータを備えてもよい。

【0020】

例示的な実施形態に従って実行される実験は、２つのロボットタスク、すなわち物体分類及び（回転）滑り検出を中心とする。前者では、ロボットは、取り扱われる容器のタイプ及びその中に保持される液体の量を決定するように仕事をされた。容器は、異なる剛性を有する不透明であり、したがって、視覚的及び触覚的センシングの両方が、正確な分類に関連する。重量の比較的小さい差（２０個の物体重量クラスにわたる～３０ｇ）は、例示的実施形態によるプロトタイプセンサ及びスパイキングモデルによって識別できることが示されている。同様に、滑り検出実験は、回転滑りが０．０８ｓ（～１ｍｓ毎に処理された視覚‐触覚スパイク）以内に正確に検出できることを示している。両方の実験において、ＳＮＮは、類似のアーキテクチャを有するＡＮＮと比較して、競合的な（時には優れた）性能を達成した。

【0021】

より広い視点を考えると、例示の実施形態によるイベント駆動センシングは、電力効率の良い知的ロボットを可能にする興味深い機会を表す。例示的な実施形態によれば、「エンドツーエンド」イベント駆動センシングフレームワークを提供することができる。

【0022】

一実施形態によるニュータッチは、ロボットエンドエフェクタのためのスケーラブルなイベントベースの触覚センサを提供する。

【0023】

例示的な実施形態による視覚触覚スパイキングニューラルネットワークは、複数のイベントセンサモダリティを活用する。

【0024】

系統的な実験は、従来のＡＮＮ方法と比較して、オブジェクト分類及びスリップ検出に関する例示的な実施形態によるイベント駆動センシングシステムの有効性を実証する。

【0025】

例示的な実施形態を使用して、５０を超える様々な対象物分類を含む視覚－触覚イベントセンサデータセットが得られ、これはまた、ＲＧＢ画像及びプロプリオセプティブデータを含む。

【0026】

ニュータッチ：一実施形態によるイベントベースの触覚センサ
触覚センサ（例えば、最小侵襲手術［３８］及びスマート人工器官［３９］）には多数の用途があるが、現在の触覚センシング技術は、視覚に遅れている。特に、現在の触覚センサは、ロボットプラットフォームとのスケーリング及び統合が困難なままである。その理由は、２つある。第１に、多くの触覚センサが、時分割多元接続（ＴＤＭＡ）を介してインタフェースされ、ここで、以下、「タクセル」とも呼ばれる個々のタクセル電極が、周期的かつ逐次的にサンプリングされる。ＴＤＭＡのシリアル読み出しの性質は、センサ内のタクセルの数が増加するにつれて、本質的に読み出し待ち時間の増加を招く。第２に、高い空間位置確認精度は、通常、センサ内により多くのタクセルを追加することによって達成される；これは、不変に、より多くの配線につながり、それは、ロボットのエンドエフェクタ及び表面上への皮膚の統合を複雑にする。

【0027】

既存の触覚センシング技術の限界に動機づけられて、ロボットエンドエフェクタでの使用のために、例示の実施形態に従って、ニューロインスパイアード触覚センサ１００（ニュータッチ）が提供される（図１参照）。ニュータッチ１００の構造は、人間の指先１０２に似ており、「皮膚」及び「骨」を含み、例示的な実施形態によれば、３７×２１×１３ｍｍの物理的寸法を有する。この設計は、人間型エンドエフェクタ（人工装具又は人間型ロボット用）及び標準的なマルチフィンガーグリッパとの統合を容易にし、実験では、ニュータッチ１００をＲｏｂｏｔｉｑ２Ｆ－１４０グリッパと共に使用した。指先の設計に加えて、異なる例示的実施形態による異なる用途に適合するように代替構造を開発することができることに留意されたい。

【0028】

具体的には、図１ａは、人間の指１０２と比較したニュータッチ１００を示す。図１ｃは、例えばニュータッチ１００上のタクセル１０４のような３９個のタクセルの空間分布を示す。図１ｂは、ニュータッチ１００とその構成要素の部分断面図を示す。ニュータッチ１００は、例えばタクセル１０４のような３９のタクセルを有する電極層１０６と、全てが３Ｄプリント部品（「骨」）１１２上に支持される保護Ｅｃｏｆｌｅｘ「スキン」１１０の下に埋め込まれる圧力トランスデューサとしてのグラフェンベースの圧電抵抗薄膜１０８とを使用して、触覚センシングを実施する。

【0029】

触覚センシングは、３９個のタクセル、例えばタクセル１０４を有する電極のアレイが、３９個のタクセル、例えばタクセル１０４を覆うグラフェンベースのピエゾ抵抗薄膜１０８を有する骨１１２の「上部」にあるように、骨１１２の周りに折り畳まれた電極層１０６を介して達成される。グラフェンベースの圧電抵抗薄膜１０８は、その高いヤング率のため、効果的な触覚センサ［４０］、［４１］を形成する圧力コンバータとして機能し、これは、コンバータのヒステリシス及び応答時間を低減するのに役立つ。ニュータッチ１００頂のタクセルの半径方向配置、例えば１０６は、タクセル濃度が、ニュータッチ１００センサの「頂」タッチ面の中心から周辺まで、高いから低まで変化するように設計される。物体とセンサとの間の初期接触点は、初期接触（物体とセンサとの間）の豊富な時空間触覚データを捕捉することができるように、ニュータッチ１００の中心領域に配置され、ここでタクセル例えば１０６の密度が最も高くなる。この豊富な触覚情報は、アルゴリズムが推論を加速するのを助けることができる（例えば、以下でより詳細に説明されるように、早期分類）。

【0030】

図１ｄは、ニュータッチ１００内のトランスデューサの圧力応答を示しており、ローディング曲線部とアンローディング曲線部から低いヒステリシスを観測できる。

【0031】

３Ｄ印刷された骨成分１１２は、指先骨の役割を果たすために使用され、Ｅｃｏｆｌｅｘ００－３０（Ｅｃｏｆｌｅｘ）１１０は、ニュータッチ１００の皮膚をエミュレートするために使用された。Ｅｃｏｆｌｅｘ１１０は、電極／タクセル、例えばタクセル１０４に対して、より長い使用寿命のための保護を提供し、ニュータッチ１００に及ぼされる刺激を増幅する。後者は、接触の過渡的位相（物体とセンサの間）が、剛性又は表面粗さなど、把持された物体の物理的記述の多くをエンコードするので、より多くの触覚特徴を収集することを可能にする［４２］。ニュータッチ１００は、エコフレックス１１０の柔らかい性質による変形から回復する際に、～３００ｍｓのわずかな遅れを示す。それにもかかわらず、以下に記載される実験は、この効果が、様々な触覚刺激に対するニュータッチ１００の感受性を妨げないことを示した。

【0032】

既存の触覚センサと比較して、ニュータッチ１００は、イベントベースであり、タクセルの数と十分にスケーリングされる。ニュータッチ１００は、迅速な触覚認識のために１ｍｓという例外的に低い一定読出し待ち時間を維持しながら、非限定的な実施形態による２４０のタクセルを収容することができる［４３］。これは、非同期エンコード電子スキン（ＡＣＥＳ）プラットフォーム［４３］－触覚情報の非同期送信を可能にするイベントベースの神経模倣アーキテクチャ－を活用することによって、例示的な実施形態に従って達成される。ＡＣＥＳでは、ニュータッチ１００のタクセル、例えばタクセル１０４は、動的圧力（すなわち、動的皮膚変形）を捕捉する、人指先の高速適応（ＦＡ）メカノ受容体の機能を模倣する［４４］。ＦＡ応答は、物体の滑り、物体の硬さ、及び局所的な曲率の迅速な検出を必要とする精巧な操作タスクにとって重要である。

【0033】

例示的な実施形態によるニュータッチ１００の製造には、限定はしないが、以下を含む様々な適切な材料を使用することができる：
皮膚層：エコフレックス直列（Ｓｍｏｏｔｈ－Ｏｎ）、ポリジメチルシロキサン（ＰＤＭＳ）、ドラゴン皮膚直列（Ｓｍｏｏｔｈ－Ｏｎ）、シリコンゴム。

【0034】

コンバータ層（ピエゾ抵抗）：ベロスタット（３Ｍ）、Ｌｉｎｑｓｔａｔ直列（Ｃａｐｌｉｎｑ）、導電発泡シート（例えば、ＦａｉｒｄＴｅｃｈｎｏｌｏｇｉｅｓＥＭＩ)、導電ファブリック／テキスタイル（例えば、３Ｍ）、任意の圧電抵抗材料。

【0035】

電極層：異なる厚さのフレキシブルプリント基板(Flex PCB)。材質：ポリイミド
・電極線：銅などの金属層任意の導電性金属（例えば銀）
・タクセル：銅、導電性金属（銀など）

例示的な実施形態による触覚刺激の非同期送信
既存の触覚センサと比較して、ニュータッチ１００はイベントベースであり、例えばタクセル１０４などのタクセル数で十分にスケーリングでき、迅速な触覚に対する１ｍｓの例外的に低い一定読出し待ち時間を維持できる。これは、非同期エンコード電子スキン（ＡＣＥＳ）プラットフォーム［５０］－触覚情報の非同期送信を可能にするイベントベースの神経模倣アーキテクチャ－を活用することによって、例示的な実施形態に従って達成される。それは、高いレベルの応答性（すなわち、低い待ち時間）を維持しながら、皮膚のようなトランスデューサ入力の大きなアレイを転送するための、増大する複雑さ及び必要性に対処するために開発された。

【0036】

ＡＣＥＳでは、ニュータッチ１００のタクセル、例えばタクセル１０４は、動的圧力（すなわち、動的皮膚変形）を捕捉する、人の指先の高速適応（ＦＡ）メカノ受容体の機能を模倣する。触覚刺激情報の透過は、生物学的システムと同様に、非同期スパイク（すなわち、電気パルス）の形態であり、データは、シグナリングのために単一の共通導体を介して必要なときにのみ、個々のタクセル、例えば、タクセル１０４によって透過される。これは、ニュータッチ１００のタクセル１０４などのタクセルを固有の電気パルスシグネチャでエンコードすることによって可能になる。これらのシグネチャは、重複するようにロバストであり、複数のタクセル、例えば、タクセル１０４が、特定の時間同期なしにデータを送信することを可能にする（図１ｅを参照）。したがって、すべての活性化タクセル、例えばタクセル１０４の刺激情報は、単一の導電体を介して、上流で結合され、デコーダに伝搬され得る。これにより、読み出しレイテンシが低くなり、配線が簡単になる。デコーダは、受信されたパルス（すなわち、組み合わされたパルスシグネチャ）を各タクセルの例えばタクセル１０４個の既知のシグネチャと相関させて、時空間触覚情報を取り出す（図１ｅを参照）。各「シグネチャ」は、スパイクのシーケンスであり、すなわち、１つのタクセルが「発火する」場合、発火した各識別されたタクセルについての（単一の）スパイクのシーケンスの出力について、デコーダにおいて識別され得る、単一のスパイクの代わりにスパイクの時間シーケンスが生成される（図１ｅを参照）。

【0037】

例示の実施形態では、各タクセル、例えばタクセル１０４は、電極線、例えば電極線１０５を介してエンコーダに接続する（例えば、３９のタクセルが存在する場合、３９のエンコーダが存在することになる）。エンコーダの信号出力は、デコーダへのデータ伝送のために１つの「共通」出力コンダクタに結合される。デコーダは、次いで、活性化されたタクセルを識別するために、結合されたパルス（スパイク）シグネチャを復号する。

【0038】

（ニュータッチ１００によって取得された）触覚情報のリアルタイム復号化は、例示的な実施形態によるフィールドプログラマブルゲートアレイ（FPGA）を介して行われる。イベントベースの触覚情報は、例示的な実施形態によれば、ＵＡＲＴ（ＵｎｉｖｅｒｓａｌＡｓｙｎｃｈｒｏｎｏｕｓＲｅｃｅｉｖｅｒ／Ｔｒａｎｓｍｉｔｔｅｒ）読み出しを介してＰＣに容易にアクセスすることができる。

【0039】

例示的な実施形態において、我々に適したイベントベースの触覚センサのための触覚刺激の非同期送信の詳細については、国際公開第２０１９／１１２５１６号を参照されたい。

【0040】

以下に、実施例に従った学習及び分類のために、解読された触覚イベントデータがどのように使用されるかの詳細を説明する。

【0041】

実施例による視覚触覚スパイク神経回路網（ＶＴ－ＳＮＮ）
上述のように、多くのタスクの成功した完了は、複数の感覚モダリティを使用することに依存する。例示的な実施形態では、焦点は、タッチ及び視界にあり、すなわち、それぞれニュータッチ１００及びイベントベースのカメラからの触覚データ及び視覚データは、スパイキング神経モデルを介して融合される。この視覚触覚スパイキングニューラルネットワーク（ＶＴ－ＳＮＮ）は、これらのモダリティの両方を使用して学習及びセンシングを可能にし、異なる例示的実施形態による他のイベントセンサを組み込むように容易に拡張することができる。

【0042】

例示的実施形態によるモデルアーキテクチャ
鳥の目の観点から、例示的な実施形態によるＶＴ－ＳＮＮ２００は、最初に２つのモダリティをエンコードして、数字２０２、２０４で示される個々の潜在的（スパイキング）表現にし、それらを結合レイヤ２１１で結合し、追加のレイヤを通してさらに処理してタスク固有のアウトプット２１３を生成する簡単なアーキテクチャ（図２参照）を使用する。

【0043】

以下では、１つの例示的な実施形態で使用される正確なネットワーク構造の詳細が説明されるが、ＶＴ－ＳＮＮは、異なる例示的な実施形態に従って、触覚、視覚及びタスクＳＮＮのための代替のネットワーク構造を使用することができる。触覚ＳＮＮ２０８は、２つの高密度スパイク層からなる完全に接続された（ＦＣ）ネットワークを使用する（予備実験では、畳み込み層もまた、他の例示的な実施形態に従って試験されたが、性能が不良になったことに留意されたい）。これは、１５６の入力サイズ（２本の指、それぞれタクセル当たり正及び負の極性チャネルを有する３９個のタクセル）と、３２の隠れ層サイズとを有する。触覚ＳＮＮ２０８への入力は、図１ｅ及びｆを参照して上述したシグネチャデコーダを介して取得され、デコーダの出力例については具体的に図１ｆを参照されたい。視覚ＳＮＮ２１０は、３つのレイヤを使用し、第１のレイヤは、カーネルサイズ及びストライド長が４であるプーリングレイヤである。プールされたスパイク列は、入力として、触覚ＳＮＮ２０８と同一の２層ＦＣアーキテクチャに渡される。触覚エンコーダ及び視覚エンコーダは、それぞれ、５０及び１０の出力サイズを有する（いくつかの異なる寸法サイズが、例示的な実施形態に従って試験され、５０～１０のエンコーディングが、最良の結果を与えた）。両方のモダリティのエンコードされたスパイクタインは、組み合わせ層２１１においてマージされ、出力スパイク２０６を生成する高密度スパイキング層（すなわち、タスクＳＮＮ２１２）に渡される。図２の下部（ＳＲＭ型）は、結合層２１１における単一のニューロンの動作を示すことに留意されたい。ＳＲＭ型は、例示的な実施形態では、触覚、視覚及びタスクＳＮＮ２０８、２１０、タスクＳＮＮ２１２、及び結合レイヤを含む、ニューラルネットワーク内のすべてのレイヤで使用される。出力スパイク２０６は、タスクSNN２１２に入力される。図２の下側は、説明のために、単一のニューロンへの様々な入力のサブセットのみを示し、通常、当業者によって理解されるように、より多くのそのような入力が存在する。タスクＳＮＮ２１２の出力次元数（出力２１３）はタスクに依存することに留意されたい：コンテナ＆重量分類の場合は２０、回転スリップ分類の場合は２である。モデルアーキテクチャは、入力時間次元のサイズに依存せず、同じモデルアーキテクチャが両方の分類タスクで使用される。

【0044】

例示的な実施形態によるニューロンモデル
ＳｐｉｋｅＲｅｓｐｏｎｓｅＭｏｄｅｌ（ＳＲＭ）［３０］、［４５］は、例示的な実施形態で使用された。ＳＲＭでは、ニューロンの内部状態（「膜電位」）ｕ（ｔ）が所定の閾値φを超えるときはいつでも、スパイクが生成される。各ニューロンの内部状態は、入ってくるスパイクと不応反応（ｒｅｆｒａｃｔｏｒｙｒｅｓｐｏｎｓｅ）との影響を受ける：

【0045】

【数1】

【0046】

ここで、ｎはシナプス重量であり、＊は畳み込みを示し、ｓ_ｉ（ｔ）は入力ｉからの入来スパイクであり、ε（－）は応答カーネルであり、ｖ（－）は不応性カーネルであり、ｏ（ｔ）はニューロンの出力スパイク列２０６である。言い換えると、入ってくるスパイクｓ_ｉ（ｔ）は、応答カーネルε（－）と畳み込まれて、シナプス重量によってスケーリングされるスパイクレスポンス信号を生成する。すなわち、再び図２を参照すると、視覚触覚スパイキングニューラルネットワーク（ＶＴ－ＳＮＮ）２００は、モダリティごとに２つの「スパイキングエンコーダ」２０８、２１０を備える。これら２つのエンコーダからのスパイクは、固定幅結合層２１０を介して結合され、タスク別出力スパイク列２１３を出力するタスクＳＮＮ２１２に伝搬される。ＶＴ－ＳＮＮ２００は、数字２１４で示される、閾値が破られたときに入来するスパイク及びスパイクを統合するスパイクレスポンスモデル（ＳＲＭ）ニューロンを使用する。

【0047】

例示的な実施形態によるモデルトレーニング
スパイキングネットワークは、例示的な実施形態においてＳＬＡＹＥＲ［３０］を使用して最適化された。上述のように、スパイクの導関数は未定義であり、これは、ＳＮＮへの逆伝播の直接適用を禁止する。ＳＬＡＹＥＲは、近似勾配を導出するために確率的スパイキングニューロン近似を使用すること、及び誤差を分配するための時間的信用割当ポリシーを使用することによって、この問題を克服する。ＳＬＡＹＥＲはＧＰＵハードウェア上で「オフライン」モデルをトレーニングする。したがって、スパイキングデータは、トレーニングプロセス中に固定幅間隔にビニングされる必要があるが、結果として得られるＳＮＮモデルは、ニューロモルフィックハードウェア上で実行することができる。各ビンウィンドウＶ_ｗに対する（バイナリ）値が、そのウィンドウＶ_ｗ内の総スパイクカウントが閾値Ｓ_ｍｉｎを超えたときはいつでも１であった、例示的な実施形態では、ストレートフォワードビニングプロセスが使用された：

【0048】

【数2】

【0049】

［３０］に続いて、クラス予測は、出力層スパイク列におけるスパイクの数によって決定され、各出力ニューロンは、特定のクラスに関連付けられ、最も多くのスパイクを生成するニューロンは、勝ったクラスを表す。例示的な実施形態では、モデルは、損失を最小限に抑えることによって訓練された：

【0050】

【数3】

【0051】

式（３）におけるスパイクカウント損失の一般化は、時間的重み付けを組み込むために導入される：

【0052】

【数4】

【0053】

Ｌ_ωは、重み付きスパイクカウント損失と呼ばれる。実験では、ω（ｔ）は単調に減少するように設定され、後のスパイクの重みを下げることによって早期分類を促す。具体的には、ω（ｔ）＝βｔ^２＋γｗｉｔｈβ＜０という簡単な二次関数が使用されるが、異なる例示的な実施形態では他の関数が用いられてもよい。Ｌ及びＬ_ωについて、相当するカウントは正しいクラスと正しくないクラスに指定され、それらはタスク固有のハイパーパラメータである。ハイパーパラメータは手動で調整され、正のクラスカウントを（考慮される時間間隔内の各入力にわたる）最大スパイク数の５０％に設定することがうまく機能したことが分かった。初期試験では、上記の損失のみを伴う訓練が、検証セット上の急速な過剰適合及び不十分な性能につながることが観察された。この問題を緩和するためのいくつかの技術（例えば、ｌ_１正則化及び脱落）が探求され、単純なｌ_２正則化が最良の結果を導くことが見出された。

【0054】

例示的な実施形態によるロボット及びセンサのセットアップ
図３は、例示的な実施形態による、実験にわたって使用されるロボットハードウェアセットアップを示す。Ｒｏｂｏｔｉｑ２Ｆ－１４０グリッパ３０２を有する７－ＤｏＦＦｒａｎｋａＦｍｉｋａＰａｎｄａアーム３００と、ニュータッチ３０４、３０６、ＰｒｏｐｈｅｓｅｅＯｎｂｏａｒｄ３０８、ＲＧＢカメラ３１０、及びＯｐｔｉｔｒａｃｋモーションキャプチャシステム３１４の４つの主要センサタイプからのデータを収集する。後者の２つは、非イベントセンサであり、それらのデータストリームは、ＶＴ－ＳＮＮでは使用されなかった。

【0055】

実施例によるニュータッチ触覚センサ
２個のニュータッチセンサ３０４、３０６をＲｏｂｏｔｉｑ２Ｆ－１４０グリッパ３０２に搭載し、ＡＣＥＳデコーダ３１６をＰａｎｄａアーム３００に搭載した（図３ａ）。一貫したデータを保証するために、各データ収集セッションの前にセンサウォームアップを実施し、センサドリフトをチェックするためにベースライン結果を得た。具体的には、ウォームアップ１００サイクルの間、平らな硬い物体上にグリッパを閉じ（ＹＣＢデータセット［４６］から‘９ホールペグテスト’）、３秒間、グリッパを開き、２秒間休止することを繰り返した。次いで、ベンチマークデータのセット、すなわち、グリッパを同じ「９ホールペグテスト」上に３秒間閉じる２０回の繰り返しを収集した。実験を通して、上記のように「９ホールペグテスト」での閉止テストを繰り返し、次にセンサデータを調べることによるセンサドリフトのための定期的なテストが実施された；実験を通して有意なドリフトは見出されなかった。

【0056】

例示的な実施形態による、Ｐｒｏｐｈｅｓｅｅイベントカメラ
イベントベースビジョンデータは、ＰｒｏｐｈｅｓｅｅＯｎｂｏａｒｄ（ｈｔｔｐｓ：／／ｗｗｗ．ｐｒｏｐｈｅｓｅｅ．ａｉ）３０８を使用してキャプチャされた。触覚センサと同様に、各カメラ画素は非同期に発射し、光度の増加（減少）があるとき、正（負）スパイクが得られる。ＰｒｏｐｈｅｓｅｅＯｎｂｏａｒｄ３０８は、アーム３００に取り付けられ、グリッパ３０２に向けられて、関心対象に関する情報を取得した（図３ａ）。カメラ３０８は、６４０×４８０の最大解像度を有するが、関連性のない領域からのノイズを最小限に抑えるために、一実施形態によれば、クロップされた２００×２５０長方形ウィンドウからスパイクが捕捉された。イベントカメラ３０８の偏りパラメータは、推奨される指針（ｈｔｔｐｓ：／／ｓｕｐｐｏｒｔ．ｐｒｏｐｈｅｓｅｅ．ａｉ／ｐｏｒｔａＦｋｂ／ａｒｔｉｃｌｅｓ／ｂｉａｓ－ｔｕｎｉｎｇ）に従って調整され、同じパラメータが、全ての試験を通して使用された。表１は、Ｐｒｏｐｈｅｓｅｅの規則を使用して選択されたキーバイアスを示している。パラメータ値は単位なしであることに注意する。予備実験中に、ＰｒｏｐｈｅｓｅｅＯｎｂｏａｒｄ３０８が高周波数（≧１００Ｈｚ）光度変化に敏感であることが分かった；言い換えれば、ちらつく光球が望ましくないスパイクをトリガする。この効果に対抗するために、実験装置の周囲に取り付けられた６個のフィリップス１２ＷＬＥＤ白色光電球を用いて、一貫した非ちらつき照明を提供した。

【0057】

【表1】

【0058】

例示的な実施形態によるＲＧＢカメラ
２つのインテルリアルセンスＤ４３５ｓＲＧＢカメラ３１０、３１２は、追加の非イベント画像データを提供するために使用された（赤外線放射器は、イベントカメラの雑音が増加し、したがって、深度データが記録されなかったので、無効にされた）。第１のカメラ３１０は、エンドエフェクタ上に取り付けられ、カメラ３１０は、グリッパ３０２の方に向けられ（把持された物体の視界を提供する）、第２のカメラ３１２は、シーンの視界を提供するように配置された。ＲＧＢ画像は、可視化及び検証のために使用されたが、モデルへのインプットとしては使用されず、様々な例示的な実施形態に従って、さらに良好なモデル性能を提供するためのこれらのスタンダードセンサの一体化が提供され得る

例示的な実施形態によるＯｐｔｉＴｒａｃｋ
ＯｐｔｉＴｒａｃｋモーションキャプチャシステム３１４は、スリップ検出実験のためのオブジェクト移動データを収集するために使用された。６つの反射マーカがエンドエフェクタの剛体部分に取り付けられ、１４のマーカが関心対象上に取り付けられた。１１台のＯｐｔｉＴｒａｃｋＰｒｉｍｅ１３カメラが実験領域の周囲に戦略的に配置され、トラッキングエラーを最小限に抑えました（例えば、図３ｂの３１６、３１８を参照）。どのような場合でも、すべてのカメラではない場合には、それぞれのマーカがほとんどのカメラに見えるようになった。これにより、継続的かつ信頼性の高いトラッキングが実現できた。ＭｏｔｉｖｅＢｏｄｙｖ１．１０．０をマーカ追跡に使用し、検出されたマーカに手動で注釈を付けた。初期試験から、ＯｐｔｉＴｒａｃｋシステム３１４は１２０Ｈｚで誤差＜１ｍｍの信頼できる位置推定値を与えることが分かった。

【0059】

例示的な実施形態で使用する３Ｄ－プリント部品
一実施形態では、視覚－触覚センサ成分は、３Ｄプリント部品を介してロボットに取り付けられる。例示的な実施形態における３つの主要な３Ｄプリント部品、すなわち、ＩｎｔｅｌＲｅａｌｓｅｎｓｅＤ４３５、ＰｒｏｐｈｅｓｅｅＯｎｂｏａｒｄ及びＡＣＥＳエンコーダをＦｒａｎｋａＦｍｉｋａＰａｎｄａアームに取り付けるためのメインホルダ（図１０）、ＡＣＥＳエンコーダ用のエンクロージャ（図１１）、及びニュータッチ指をＲｏｂｏｔｉｑ２Ｆ－１４０に取り付けるためのカプラ（図１２）がある。３Ｄプリンタ部品の全ては、層厚を０：２ｍｍに設定したアクリロニトリルブタジエンスチレン（ＡＢＳ）を用いて印刷した。選択された少数の成分のみの充填物を最大化することによって、構造的完全性を維持しながら、総重量を最小化した。

【0060】

具体的には、図１０において、３Ｄプリントのメインホルダ１０００は、ａ）メインホルダをパンダアームの７番目のリンクに固定するための半円弧（インフィル９９％）、ｂ）センサをパンダに取り付けるためのコネクタ（インフィル９９％）、ｃ）ＡＣＥＳエンコーダのエンクロージャを取り付けるためのベース（インフィル８０％）、ｄ）ＩｎｔｅｌＲｅａｌＳｅｎｓｅＤ４３５及びＰｒｏｐｈｅｓｅｅＯｎｂｏａｒｄのためのホルダ（インフィル８０％）の４つの部分を有している。

【0061】

図１１及び図１２を参照すると、ＡＣＥＳエンコーダ用のエンクロージャ１２００は、６５％のインフィルを有するように設計され、ニュータッチ用のカプラは、９９％のインフィルを有するように設計されている。

【0062】

例示的な実施形態によるさらなる詳細
上記のセンサに加えて、固有受容データもまた、Ｐａｎｄａアーム３００及びＲｏｂｏｔｉｑグリッパ３０２について収集された；これらは、モデルにおいて現在使用されていないが、異なる例示的実施形態に含まれ得る。

【0063】

位相シフトを最小化することは、機械学習モデルが異なるモダリティ間の意味のある相互作用を学習できるようにするために重要である。例示的な実施形態によるセットアップは、それぞれが個別のリアルタイムクロック（ＲＴＣ）を有する複数のマシンにまたがっていた。Ｃｈｒｏｎｙｄを使用して、さまざまなクロックをＧｏｏｇｌｅＰｕｂｌｉｃＮＴＰプールタイムサーバに同期した。データ収集の間、各マシンについて、記録開始時刻はそれ自身のＲＴＣに従って記録され、従って、異なるＲＴＣ間の差異を検索し、データ前処理中にそれらを適宜同期することができた。

【0064】

データ収集手順では、回転スリップは典型的に記録の途中で起こった。スリップが発生したときの関連部位を抽出するために、スリップ開始を最初に検出し、注釈を付けた。ＯｐｔｉＴｒａｃｋマーカは、ＯｐｔｉＴｒａｃｋがそれらのポーズを決定することができるように、Ｐａｎｄａのエンドエフェクタ及びオブジェクトに取り付けられた。図１３は、典型的なスリッピングデータポイントのＯｐｔｉＴｒａｃｋデータを視覚化したものである。ロボットが最初に次のヒューリスティックを使用してオブジェクトを持ち上げたときに、ＯｐｔｉＴｒａｃｋフレームｆｕａに注釈が付けられた：

【0065】

【数5】

【0066】

ロボットアームが静止しているときで、ｐ_ｚがｆ_{１；：：：；１２０}内の経験的雑音分布を逸脱した場合にチェックした。

【0067】

オブジェクト方向の場合、θ_ｔ＝ｃｏｓ^－１（２＜ｑ_０，ｑ_ｔ＞^２―１）を用いて計算された静止時からの角度の変化
式中、ｑ_０は、静止時の四元数配向である。同様に、オブジェクトが最初に回転するときのフレームｆ_ｓｌｉｐは、以下のヒューリスティックを使用して注釈付けされた：

【0068】

【数6】

【0069】

リフト時にオブジェクトが回転するのに要した時間は、全てのスリップデータポイントにわたって平均で０．０３秒であることが分かった。

【0070】

図１３ａは、エンドエフェクタの経時的なｐ_ｚのグラフを示す。ロボットアームが物体を上に持ち上げると、ｐ_ｚが増加する。図１３ｂは、ｑ_ｔとｑ_０との間で計算されたΘ_ｔ（ラジアン単位の最短角度）のグラフを示す。これはオブジェクトがスリップするにつれて増加する。図１３ａにおいて、垂直線は静止時からｐ_ｚが有意に増加する点を示し、図１３ｂにおいて、垂直線は静止時からΘ_ｔが有意に増加する点を示す。このデータポイントの差は０．０３秒である。

【0071】

Ｉ．例示的な実施形態による容器及び重量分類
第１の実験は、様々な量の液体を有する容器を分類するために、ニュータッチ、Ｏｎｂｏａｒｄカメラ、及び例示的な実施形態によるＶＴ－ＳＮＮを含むイベント駆動センシングフレームワークを適用する。主な目的は、例示的な実施形態によるマルチモーダルシステムが、単一のセンサを使用して分離することが困難であった物体の差を検出するのに有効であったかどうかを決定することであった。目的は、最良の可能な分類器を導出することではなく、実際に、実験は、結果が改善された可能性が高い固有受容データを含まず［１１］、最良のアーキテクチャのための網羅的な（及び計算的に高価である）探索を行わなかったことに留意されたい。むしろ、実験は、例示的な実施形態に従って、視覚的及び触覚的スパイキングデータの両方を合理的な設定で使用することの潜在的な利益を研究するように設計された。

【0072】

Ｉ．１．例示的実施形態による方法及び手順
Ｉ．１．１．例示的な実施形態に従って使用されるオブジェクト
４つの異なる容器を使用した：アルミニウムコーヒー缶、プラスチックペプシボトル、厚紙豆乳カートン、及び金属マグロ缶（図５参照）。これらの物体は、異なる程度の硬さを有し、豆乳容器が最も軟らかく、マグロ缶が最も硬い。大きさの違いから、４つの容器にはそれぞれ最大２５０ｇ、４００ｇ、３００ｇ、１４０ｇ（マグロ缶には蓋がなく、こぼれや液体による損傷を防ぐため、米を入れた。開いた側を下向きにしてマグロ缶を置いたので、米は見えなかった）が入っていた。各対象について、それぞれの最大量の０％、２５％、５０％、７５％、１００％ｇのデータを収集した。これは、それぞれ５つの異なる重量レベルを有する４つのコンテナを含む２０のオブジェクトクラスをもたらした。

【0073】

Ｉ．１．２．実施形態例によるロボット動作
ロボットは、各物体クラスを１５回把持して持ち上げ、クラス当たり１５個のサンプルを生成する。運動の各部分に対する軌道は、ＭｏｖｅｌｔＣａｒｔｅｓｉａｎＰｏｓｅＣｏｎｔｒｏｌｌｅｒ［４７］を簡単に使用して計算され、ロボットグリッパは、各物体の指定された把持点の１０ｃｍ上に初期化された。次に、エンドエフェクタを把持位置に移動し（２秒）、１（４秒）の力設定でＲｏｂｏｔｉｑ把持コントローラを用いてグリッパを閉じた。次いで、グリッパは、５ｃｍ（２秒）だけ対象物を持ち上げ、０．５秒間保持した。

【0074】

Ｉ．１．３．例示的な実施形態によるデータ前処理
両方のモダリティについて、把持相、持ち上げ相、及び保持相からのデータ（図４の２．０秒から８．５秒のウィンドウに対応）を選択し、０．０２秒のビン持続時間（３２５ビン）及びビン化閾値Ｓｍｉｎ＝２を設定した。層化Ｋ―フォールドを用いて５分割を作成し、各分割は２４０個の訓練と６０個の等級分布の試験例を含んでいた。

【0075】

Ｉ．１．４．例示的な実施形態によるＶＴ－ＳＮＮを含む分類モデル
ＳＮＮは、従来のディープラーニング、具体的には、ゲート再電流手段（ＧＲＵ）［４８］及び３Ｄ畳み込みニューラルネットワーク（ＣＮＮ－３Ｄ）［５１］を有する多層パーセプトロン（ＭＬＰ）と比較された。各モデルは、（ｉ）触覚データのみ、（ｉｉ）視覚データのみ、及び（ｉｉｉ）結合された視覚－触覚データを使用して訓練され、結合されたデータ上のＳＮＮモデルは、例示的な実施形態によるＶＴ－ＳＮＮに対応することに留意されたい。単一の様式で訓練する場合、視覚又は触覚ＳＮＮを必要に応じて使用した。全てのモデルは、ＰｙＴｏｒｃｈを用いて実施した。ＳＮＮをＳＬＡＹＥＲでトレーニングして、スパイクカウント差を最小限に抑え［３０］、ＡＮＮをトレーニングして、ＲＭＳＰＲＯＰを使用してクロスエントロピー損失を最小限に抑えた。全てのモデルは５００エポックのトレーニングを受けた。

【0076】

Ｉ．２．結果と分析
Ｉ．２．１．例示的な実施形態によるＶＴ－ＳＮＮを含むモデル比較
モデルの試験精度を表２にまとめる。触覚のみのモダリティＳＮＮは、視覚のみのモダリティよりも１２％高い精度を与える。例示的な実施形態によるマルチモーダルＶＴ－ＳＮＮ型は、８１％の最高スコアを達成し、触覚モダリティバリアントと比較して１１％を超える改善を達成する。視覚のみのモダリティデータのより厳密な検査は、（ｉ）ペプシ瓶が完全に不透明ではなく、水位がいくつかの試行においてＯｎｂｏａｒｄによって観察可能であること、及び（ｉｉ）Ｏｎｂｏａｒｄが、より柔らかい容器の「満杯」を明らかにするグリッパが閉じているときに物体の変形を見ることができたことを示したことに留意されたい。したがって、視覚のみのモダリティ結果は、予想よりも良好であった。

【0077】

【表2】

【0078】

図６は、１００％重量のコーヒー缶を把持しながら、異なるＳＮＮモデルからの出力スパイクを示す、例示的な実施形態による両方のモダリティを融合する利点を示す、有益な例を与える。重量カテゴリは、各コンテナクラスに対して０％から１００％(下から上)に配置される。グラフ６００及び６０２の触覚データ及び視覚データについてそれぞれ訓練されたモデルは、それぞれ、容器及び重量カテゴリについて不明である。具体的には、触覚型６００は、マグロ缶とコーヒー缶との間で識別することができないことが分かる。一方、視覚モデル６０２は、容器（すなわち、コーヒー缶）を正確に予測するが、重量カテゴリについては不明である。グラフ６０４の例示的な実施形態による結合された視覚－触覚型は、モダリティの両方からの情報を組み込み、正確なクラス（容器及び重量カテゴリの両方、すなわち、１００％重量のコーヒー缶）を高い確実性で予測することができる。

【0079】

再び表Iを参照すると、ＳＮＮモデルは、ＡＮＮ（ＭＬＰ－ＧＲＵ）モデルよりもはるかに良好に機能し、特に、組み合わされた視覚－触覚データに対して機能した。不十分な性能は、おそらく、データセットのサイズに対する、比較的長いサンプル持続時間（３２５タイムステップ）及びＡＮＮモデルにおける多数のパラメータによるものであった。

【0080】

Ｉ．２．２．例示的な実施形態によるＶＴ－ＳＮＮを含む早期分類
すべての出力スパイクが蓄積するのを待つ代わりに、時間ｔまでに見られるスパイクの数に基づいて早期分類を実行することができる。図７に各機種の経時精度を示す。両方の組み合わせ視覚－触覚モデル７００ａ、ｂは、全体的に最も高い精度を達成するが、０．５～３．０秒の間で、両方の視覚モデル７０２ａ、ｂは、すでに特定の物体を区別することができた。これは、グリッパが閉じると（搭載されたカメラの）小さな動きが生じ、その結果、Ｏｎｂｏａｒｄによって認識される変化が生じたためと考えられる。予想されるように、触覚スパイクは、両方のモデル７０４ａ、ｂについて、～２秒で物体と接触するまで現れない。

【0081】

図７の線は平均試験精度を示し、影付の領域は標準偏差を示す。
２つの損失Ｌ及びＬ_ωは同様の「最終」精度を有するが、図７から、Ｌ_ωは、７００ａ、７０２ａ及び７０４ａと比較して、経時的に試験精度に著しい影響を及ぼすことが分かる（７００ｂ、７０２ｂ及び７０４ｂを参照）。この効果は、結合された視覚－触覚モデルについて最も明確に見られ、Ｌ_ωバリアント７００ｂは、視覚７０２ａ、ｂと同様の初期精度プロファイルを有するが、触覚情報が２秒を超える時間にわたって蓄積されるので、より良好な性能を達成する。

【0082】

ＩＩ．実施形態による回転スリップ分類
この第２の実験では、例示的な実施形態によるセンシングシステムは、安定した把持のために重要である回転滑りを分類するために使用され、安定した把持点は、例えば、ハンマー及び他の不規則に整形されたアイテムなどの、視覚によって容易に決定されない質量中心を有するオブジェクトについて誤って予測され得る。回転スリップを正確に検出することで、コントローラが対象物を再把持し、初期把持位置が悪くなった場合の対処が可能になる。しかしながら、効果的であるためには、スリップ検出を正確かつ迅速に実行する必要がある。

【0083】

ＩＩ．１．例示的な実施形態による方法及び手順
ＩＩ．１．１．例示的な実施形態により使用されるオブジェクト
試験対象物は、ＬｅｇｏＤｕｐｌｏブロック（図８参照）を用いて、各脚に隠れた１０ｇ質量を用いて構築した。「制御」オブジェクトは、把持点でバランスがとれるように設計された。回転滑りを誘発するために、隠れた塊を右脚から左に移動させることによって物体を修正した。したがって、安定で不安定な物体は、視覚的に同一であり、同じ総重量を有していた。

【0084】

ＩＩ．１．２．実施形態例によるロボット動作
ロボットは、両方のオブジェクトバリアントを５０回把持して持ち上げ、クラス当たり５０個のサンプルを生成する。以前の実験と同様に、運動軌跡はＭｏｖｅｌｔＣａｒｔｅｓｉａｎＰｏｓｅＣｏｎｔｒｏｌｌｅｒ［４７］を使用して計算された。ロボットは、物体を閉じ、表から１０ｃｍ（０．７５秒）持ち上げ、さらに４．２５秒間保持するように指示された。グリッパの把持力を調整して、対象物を持ち上げることができるようにした。また、中心から外れた対象物に対しては回転スリップが可能になる（図８、右参照）。

【0085】

ＩＩ．１．３．例示的な実施形態によるデータ前処理
移動期間全体にわたってモデルを訓練する代わりに、リフティング段階で短期間を抽出した。正確な開始時間は、ＯｐｔｉＴｒａｃｋデータを分析することによって得られ、具体的には、ベースライン配向分布（１秒又は１２０フレームの場合）が得られ、回転スリップは、４つ以上の連続するＯｐｔｉＴｒａｃｋフレームを持続するベースラインフレームの９８％よりも大きい（又は小さい）配向として定義された。すべりは、吊り上げ中にほぼ即座に発生した。高速検出に関心があったので、リフトの開始付近で０．１５秒ウィンドウを抽出し、ビニング閾値Ｓｍｉｎ＝１を有する０．００１秒（１５０ビン）のビン持続時間を設定した。再度、層化Ｋ－フォールドを用いて５つの分割を得、各分割は８０の訓練例及び２０の試験例を含んでいた。

【0086】

ＩＩ．１．４．例示的な実施形態によるＶＴ－ＳＮＮを含む分類モデル
モデルの設定及び最適化の手順は、３つのわずかな変更を加えて、前のタスク／実験と同じである。まず、バイナリラベルの出力サイズを２に縮小する。第２に、ＡＮＮＧＲＵのシーケンス長は、時間ビンの数である１５０に設定された。第３に、所望のＳＮＮの真及び偽スパイクカウントをそれぞれ８０及び５に設定した。再び、ＳＮＮ及びＡＮＮモデルを、（ｉ）触覚データのみ、（ｉｉ）視覚データのみ、及び（ｉｉｉ）例示的な実施形態によるＶＴ－ＳＮＮを含む、組み合わされた視覚－触覚データを使用して比較した

ＩＩ．２．結果と分析
ＩＩ．２．１．例示的な実施形態によるＶＴ－ＳＮＮを含むモデル比較
モデルの試験精度を表３にまとめる。ＳＮＮ及びＡＮＮの両方に対して、視覚及びマルチモーダルモデルの両方が１００％の精度を達成した。これは、視覚データが滑りを高度に示すことを示唆し、これは、回転滑りが視覚的に識別可能なシグネチャを生成するので、驚くべきことではない。触覚イベントのみを使用したＳＮＮ及びＭＬＰ－ＧＲＵは、それぞれ（Ｌ_ｗで）９１％及び８７％の精度を達成する。

【0087】

【表3】

【0088】

ＩＩ．２．２．例示的な実施形態によるＶＴ－ＳＮＮを含む早期スリップ検出
前回の初期の容器分類に関する解析と同様に、異なる時点での滑り試験精度を図９にまとめる。物体は、約０．０１秒で持ち上げられ始め、０．１秒で、一実施形態によるマルチモーダルＶＴ－ＳＮＮ９００ａ、ｂが、滑りを完全に分類できることが分かる。再び、視覚とタッチは異なる精度プロファイルを有し、触覚のみの分類９０２ａ、ｂは、スパイクカウント９００ａを有するＶＴ－ＳＮＮ（０．０１～０．０５秒の間）よりも正確であり、視覚に基づく分類９０４ａ、ｂは、～０．６秒の後、触覚に基づく９０２ａ、ｂよりも良好であることが分かる。

【0089】

すべてのＳＮＮについて、重み付きスパイクカウント損失９００ｂ、９０２ｂ、９０４ｂでトレーニングされたモデルは、スパイクカウント損失９００ａ、９０２ａ、９０４ａと比較してより良好な早期分類を達成し、重み付きスパイクカウント損失９００ｂでのＶＴ－ＳＮＮの早期分類精度が、重み付きスパイクカウント損失９０２ｂでの触覚ベース分類と本質的に同じ早期分類精度を達成することに留意されたい

ＩＩＩ．例示的実施形態による速度及び電力効率
ＧＰＵ（ＮｖｉｄｉａＧｅＦｏｒｃｅＲＴＸ２０８０Ｔｉ）とＩｎｔｅｌＬｏｉｈｉの両方で、重み付けスパイクカウント損失が電力消費に影響を及ぼすべきではないことに留意して、分類モデル（例の実施例によるスパイクカウント損失を伴うＶＴ－ＳＮＮを使用）の推論速度とエネルギー利用を比較した。

【0090】

具体的には、マルチモーダルＶＴ－ＳＮＮは、ＳＬＡＹＥＲフレームワークを使用して訓練され、それは、Ｌｏｉｈｉ上で、及びＧＰＵ上でのシミュレーションを介して、同一に実行された。このモデルは、２つの変化を除いて、前節で述べたものと同一である：１）ＳＲＭニューロンモデルの代わりにＬｏｉｈｉニューロンモデルを用いる。２）視覚出力の極性は、視覚入力サイズをＬｏｉｈｉ上の単一のコアに縮小するために廃棄される。

【0091】

両モデルとも１００％の試験精度を達成し、ＬｏｉｈｉとＧＰＵで同一の結果を生み出した。ＮｘＳＤＫバージョン０．９．５をＮａｈｕｋｕ３２基板上で、ＮｖｉｄｉａＲＴＸ２０８０ＴｉＧＰＵ上でそれぞれ使用して、全ての基準がＬｏｉｈｉについて得られた。

【0092】

モデルは、ＧＰＵ上で１のバッチサイズで、１０００回の前進パスを実行するようにタスクされる。１０００サンプルのデータセットは、本発明者らの試験セットからのサンプルを反復することによって得られる。各サンプルは０．１５秒のスパイクデータで構成され、１ミリ秒ごとに１５０のタイムステップにビニングされる。

【0093】

レイテンシ（ｌａｔｅｎｃｙ）測定:ＧＰＵでは、ＣＰＵのシステムクロックを使用して、モデル推論の開始時刻（ｔ_{ｓｔａｒｔ}）と終了時刻（ｔ_ｅｎｄ）をキャプチャし、Ｌｏｉｈｉでは、スーパーホストのシステムクロックを使用した。タイムステップあたりのレイテンシを（ｔ_ｅｎｄ－ｔ_{ｓｔａｒｔ}）／（１０００ｘ１５０）として計算し、それぞれ１５０タイムステップで１０００試料採取に分割する。

【0094】

ＰｏｗｅｒＵｔｉｌｉｚａｔｉｏｎＭｅａｓｕｒｅｍｅｎｔ：ＧＰＵで電力使用率を取得するには、［５２］のアプローチで、ＮＶＩＤＩＡＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔＩｎｔｅｒｆａｃｅ、ログ記録（ｔｉｍｅｓｔａｍｐ、ｐｏｗｅｒ＿ｄｒａｗ）ペアをユーティリティと２００ミリ秒間隔で使用する。費やした時間の間の電力消費量を抽出し、平均化して負荷時の平均電力消費量を求めた。ＧＰＵのアイドル電力消費量を得るために、ＧＰＵ上での電力使用量は、ＧＰＵ上で実行されているプロセスなしで１５分間記録され、電力消費量は、期間にわたって平均化された。ＮｘＳＤＫ０．９．５内で利用可能な性能プロファイリングツールを用いて、Ｌｏｉｈｉ上のＶＴ－ＳＮＮの電力利用を得た。例示的な実施形態によるモデルは、小さく、３２チップＮａｈｕｋｕ３２ボード上の１チップ未満を占める。より正確な電力測定値を得るために、作業負荷を３２回繰り返し、結果をコピーごとに報告した。複製されたワークロードは、５９４個のニューロフォーミックコアと５個のｘ８６コアを使用し、６２４個のニューロモーフィックコアがバリア同期に対応する
（データがオンライン順に到着する）現実世界の設定をシミュレートするために、１）ｘ８６コアは、データの１ミリ秒タイムステップの継続時間に合わせて、人為的に低速化される。２）ＧＰＵのデータセットフェッチに０．１５秒の人工遅延が導入され、推論を実行できるようになる前に、データウィンドウ全体の待機をシミュレートする。

【0095】

ベンチマーク結果を表４に示す。ここで、待ち時間は、１回の時間ステップを処理するのにかかる時間である。Ｌｏｉｈｉ上の待ち時間は、スパイキングデータが到着するにつれて推論を実行することができるので、わずかに低いことが観察された。Ｌｏｉｈｉの消費電力は、ＧＰＵよりも大幅に（１９００倍）低くなる。

【0096】

【表4】

【0097】

図１４は、例示的な実施形態による分類センシングシステム１４００を示す概略図を示す。システム１４００は、視覚センサ１４０４のイベントベースの出力を第１の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードするように構成された第１のスパイキングニューラルネットワーク（ＳＮＮ）エンコーダ１４０２と、触覚センサ１４０８のイベントベースの出力を第２の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードするように構成された第２のＳＮＮエンコーダ１４０６と、視覚モダリティスパイキング表現と触覚モダリティスパイキング表現とをマージするように構成された結合層１４１０と、マージされた視覚モダリティスパイキング表現と触覚モダリティスパイキング表現とを受信するように構成されたタスクＳＮＮ１４１２とを、分類のために第３の出力サイズを有する視覚－触覚モダリティスパイキング表現にエンコードする。

【0098】

タスクＳＮＮ１４１２は、出力サイズによってインデックス付けされた所望のスパイクカウントと比較した、それぞれの出力視覚／触覚モダリティ表現におけるスパイクカウント損失に基づく分類のために構成され得る。好ましくは、タスクＳＮＮ１４１２は、出力サイズによってインデックス付けされた所望の重み付きスパイクカウントと比較して、それぞれの出力視覚／触覚モダリティ表現における重み付きスパイクカウント損失に基づいて分類するように構成される。

【0099】

第１のＳＮＮエンコーダ１４０２、第２のＳＮＮエンコーダ１４０６、及びタスクＳＮＮ１４１２の各々におけるニューロンは、スパイクレスポンスモデル（ＳＲＭ）を適用するように構成され得る。

【0100】

センサシステム１４００は、触覚センサ１４０４を備えてもよい。好ましくは、触覚センサ１４０４は、イベントベースの触覚センサを含む。あるいは、触覚センサ１４０４は、触覚センサ１４０４の本質的出力を触覚センサ１４０４のイベントベースの出力に変換するためのコンバータを備える。

【0101】

センサシステム１４００は、視覚センサ１４０８を備えてもよい。好ましくは、視覚センサ１４０８は、イベントベースの視覚センサを含む。あるいは、ビジョンセンサ１４０８は、ビジョンセンサの固有出力をビジョンセンサ１４０８のイベントベース出力に変換するためのコンバータを備える。

【0102】

センサシステム１４００は、ロボットアーム及びエンドエフェクタを備え得る。エンドエフェクタは、グリッパを備えてもよい。好ましくは、触覚センサ１４０６は、グリッパの各指上に１つの触覚要素を備えてもよい。

【0103】

視覚センサ１４０８は、ロボットアーム上又はエンドエフェクタ上に取り付けられてもよい。

【0104】

図１５は、例示的な実施形態による、センシングシステムを使用して実行される分類方法を示すフローチャート１５００を示す。ステップ１５０２において、視覚センサのイベントベースの出力が、第１のスパイキングニューラルネットワーク（ＳＮＮ）エンコーダを使用して、第１の出力サイズを有する個々の視覚モダリティスパイキング表現にエンコードされる。ステップ１５０４では、触覚センサのイベントベースの出力が、第２のＳＮＮエンコーダを使用して、第２の出力サイズを有する個々の触覚モダリティスパイキング表現にエンコードされる。ステップ１５０６において、視覚モダリティスパイキング表現及び触覚モダリティスパイキング表現が、組み合わせ層を使用してマージされる。ステップ１５０８において、タスクＳＮＮを使用して、結合された視覚モダリティスパイキング表現及び触覚モダリティスパイキング表現を受信し、タスクＳＮＮを使用して、結合された視覚モダリティスパイキング表現及び触覚モダリティスパイキング表現を受信し、タスクＳＮＮを使用して、分類のために第３の出力サイズで視覚－触覚モダリティスパイキング表現を出力する。

【0105】

タスクＳＮＮは、出力サイズによってインデックス付けされた所望のスパイクカウントと比較した、それぞれの出力視覚／触覚モダリティ表現におけるスパイクカウント損失に基づく分類のために構成され得る。好ましくは、タスクＳＮＮは、出力サイズによってインデックス付けされた所望の重み付けされたスパイクカウントと比較して、それぞれの出力視覚／触覚モダリティ表現における重み付けされたスパイクカウント損失に基づいて分類するように構成される。

【0106】

第１のＳＮＮエンコーダ、第２のＳＮＮエンコーダ、及びタスクＳＮＮの各々は、スパイクレスポンスモデル（ＳＲＭ）を適用するように構成され得る。

【0107】

好ましくは、触覚センサは、イベントベースの触覚センサを含む。あるいは、触覚センサは、触覚センサの固有出力を触覚センサのイベントベース出力に変換するためのコンバータを備える。

【0108】

好ましくは、視覚センサは、イベントベースの視覚センサを含む。あるいは、視覚センサは、視覚センサの固有出力を視覚センサのイベントベース出力に変換するためのコンバータを備える。

【0109】

本方法は、ロボットアームのグリッパの各指に、触覚センサの１つの触覚要素を配置することを含むことができる。

【0110】

本方法は、視覚センサをロボットアーム上又はエンドエフェクタ上に取り付けることを含むことができる。

【0111】

図１６は、キャリア構造１６０２と、キャリア構造１６０２の表面上に配置された電極層１６０４とを備える触覚センサ１６００を示す概略図を示し、電極アレイ１６０４は、タクセル電極、例えば１６０６のアレイと、タクセル電極、例えば１６０２のそれぞれの１つに個別に電気的に接続された複数の電極線、例えば１６０８と、電極層１６０４の上に配置された保護層１６１０とを備え、保護層１６１０は弾性変形可能な材料から作製され、電極層１６０４と保護層１６１０との間に配置された圧力トランスデューサ層１６１２とを備え、保護層１６１０を介して圧力トランスデューサ層１６１２に加えられた接触力に応答して電極線、例えば１６０８内で検出可能な電気信号は、神経形態的触覚センシング用途のための時空間データを提供する。

【0112】

電極アレイのタクセル電極、例えば１６０６は、電極アレイの中心の周りに半径方向に変化する濃度で配置することができる。タクセル電極、例えば１６０６の密度は、中心からの半径方向の距離と共に減少し得る。

【0113】

触覚センサは、電極線、例えば１６０８のそれぞれの１つに接続された複数のエンコーダ素子、例えば１６１４を備えてもよく、デコーダ素子、例えば１６１４は、共通出力伝導体１６１６を介して、電極線、例えば１６０８内の電気信号に基づいて、触覚情報を非同期に送信するように構成される。

【0114】

キャリア構造１６０２は、ロボットグリッパに接続可能であるように構成され得る。

【0115】

電極層１６０４及び／又は電極ライン、例えば１６０８は可撓性であってもよい。

【0116】

図１７は、例示的実施形態による、触覚センサの製造方法を図示する、フローチャート１７００を示す。ステップ１７０２において、キャリア構造が提供される。ステップ１７０４において、電極層が、キャリア構造の表面上に配置され、電極アレイは、タクセル電極のアレイを含む。ステップ１７０６では、タクセル電極のそれぞれに個々に電気的に接続された複数の電極線が提供される。ステップ１７０８において、保護層が電極層の上に配置され、保護層は弾性的に変形可能な材料から作られる。ステップ１７１０において、圧力コンバータ層が電極層と保護層との間に配置され、ここで、保護層を介して圧力コンバータ層に加えられた接触力に応答する電極線において検出可能な電気信号が、神経形態触覚センシング用途のための時空間データを提供する。

【0117】

電極アレイのタクセル電極は、電極アレイの中心の周りで半径方向に変化する濃度で配置することができる。タクセル電極の密度は、中心からの半径方向の距離と共に減少し得る。

【0118】

この方法は、電極線のそれぞれに接続された複数のエンコーダ元素を設けることと、共通の出力伝導体を介して電極線内の電気信号に基づいて触覚情報を非同期的に送信するようにデコーダ元素を構成することとを含むことができる。

【0119】

方法は、ロボットグリッパに接続可能であるようにキャリア構造を構成することを含んでもよい。

【0120】

電極層及び／又は電極ラインは可撓性であってもよい。

【0121】

上述のように、２つのロボットタスクでより良い性能を達成するために視覚とタッチを組み合わせる例示的な実施形態によって、イベントベースのセンシングフレームワークが提供される。従来の同期システムとは対照的に、例示的な実施形態によるイベント駆動フレームワークは、離散イベントを非同期的に処理することができ、したがって、低電力消費で、より高い時間分解能及び低レイテンシを達成することができる。

【0122】

ニュータッチ、例示的な実施形態によるニューロモルフィックイベント触覚センサ、及びＶＴ－ＳＮＮ、例示的な実施形態による生の非構造化イベントデータから学習するマルチモーダルスパイキングニューラルネットワークについて説明した。容器＆重量分類、及び回転滑り検出に関する実験結果は、例示的な実施形態による両方のモダリティを組み合わせることが、高い精度を達成するために重要であることを示した。

【0123】

本発明の実施形態は、以下の特徴及び関連する利益／利点のうちの１つ又は複数を有することができる。

【0124】

【表5】

【0125】

本明細書に開示される様々な機能又はプロセスは、それらの挙動、レジスタ転送、論理構成要素、トランジスタ、レイアウトジオメトリ、及び／又は他の特性に関して、様々なコンピュータ可読媒体において具現化されるデータ及び／又は命令として説明され得る。そのようなフォーマットされたデータ及び／又は命令が具現化され得るコンピュータ可読媒体は、様々な形態の不揮発性記憶媒体（たとえば、光、磁性、又は半導体記憶媒体）、及びそのようなフォーマットされたデータ及び／又は命令をワイヤレス、光、又はワイヤードシグナリング媒体、又はそれらの任意の組合せを通して転送するために使用され得る搬送波を含むが、それらに限定されない。搬送波によるそのようなフォーマットされたデータ及び／又は命令の転送の実例は、１つ又は複数のデータ転送プロトコル（例えば、ＨＴＴＰ、ＦＴＰ、ＳＭＴＰなど）を介したインターネット及び／又は他のコンピュータネットワークを介する転送（アップロード、ダウンロード、電子メールなど）を含むが、これらに限定されない。

【0126】

本明細書に記載するシステム及び方法の態様は、特定用途向け集積回路（ＡＳＩＣ）と同様に、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブルアレイロジック（ＰＡＬ）装置、電気的プログラマブルロジック及びメモリ装置及び標準セルベースの装置などのプログラマブルロジック装置（ＰＬＤ）を含む様々な回路のいずれかにプログラムされた機能性として実施することができる。システムのアスペクトを実現するための他のいくつかの可能性としては、メモリを備えたマイクロコントローラ（電子的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）など）、組み込みマイクロプロセッサ、ファームウェア、ソフトウェアなどがある。さらに、システムの態様は、ソフトウェアベースの回路エミュレーション、ディスクリートロジック（シーケンシャル及びコンビナトリアル）、カスタムデバイス、ファジー（ニューラル）ロジック、量子デバイス、及び上記のデバイスタイプのいずれかのハイブリッドを有するマイクロプロセッサにおいて具現化され得る。もちろん、基礎となるデバイス技術は、種々の構成要素タイプ、例えば、相補型金属－酸化物半導体（ＣＭＯＳ）のような金属－酸化物電界効果トランジスタ（ＭＯＳＦＥＴ）技術、エミッタ結合論理（ＥＣＬ）のようなバイポーラ技術、ポリマー技術（例えば、シリコン－共役ポリマー及び金属－共役ポリマー－金属構造）、混合アナログ及びデジタル等において提供され得る。

【0127】

システム及び方法の例示された実施形態の上記の説明は、網羅的であること、又はシステム及び方法を開示された正確な形態に限定することを意図するものではない。システム構成要素及び方法の特定の実施形態及び例が、例示目的のために本明細書で説明されるが、当業者が認識するように、システム、構成要素及び方法の範囲内で、様々な同等の修正が可能である。本明細書で提供されるシステム及び方法の教示は、上記のシステム及び方法だけでなく、他の処理システム及び方法にも適用することができる。

【0128】

当業者であれば、広く記載される本発明の精神又は範囲から逸脱することなく、特定の実施形態に示されるように、本発明に多数の変形及び／又は修正を行うことができることを理解するであろう。したがって、本実施形態は、あらゆる点で例示的であり、限定的ではないと考えられるべきである。また、本発明は、特徴又は特徴の組み合わせが特許請求の範囲又は本実施形態の詳細な説明において明示的に指定されていない場合であっても、概要セクションを含む、異なる実施形態について記載された特徴の任意の組み合わせを含む。

【0129】

概して、以下の特許請求の範囲では、使用される用語は、本明細書及び特許請求の範囲に開示される具体的な実施形態にシステム及び方法を限定するように解釈されるべきではなく、特許請求の範囲で動作するすべての処理システムを含むように解釈されるべきである。したがって、システム及び方法は、本開示によって限定されず、代わりに、システム及び方法の範囲は、特許請求の範囲によって完全に決定されるべきである。

【0130】

文脈上明らかに他の意味を必要としない限り、本明細書及び特許請求の範囲全体を通して、単語「含む（comprise）」、「含む（comprising）」などは、排他的又は網羅的な意味とは対照的に包括的な意味で解釈されるべきであり、すなわち、「含むが、これらに限定されない」という意味で、単数又は複数の数を使用する単語は、それぞれ、複数又は単数も含む。さらに、用語「本明細書において」、「以下」、「上」、「下」、及び同様の意味の用語は、全体として本出願を指し、本出願の特定の部位を指すものではない。単語「又は」が、２つ以上の項目のリストに関して使用される場合、その単語は、単語の以下の解釈のすべてを包含する：リスト中の項目のいずれか、リスト中の項目のすべて、及びリスト中の項目の任意の組合せ。

【0131】

（参考文献）
[1] A. Billard and D. Kragic, “Trends and challenges in robot manipulation,” Science, vol. 364, no. 6446, p. eaat8414, 2019.

[2] D. Li, X. Chen, M. Becchi, and Z. Zong, “Evaluating the energy efficiency of deep convolutional neural networks on cpus and gpus,” 102016, pp. 477-484.

[3] E. Strubell, A. Ganesh, and A. McCallum, “Energy and policy considerations for deep learning in NLP,” in Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL 2019, Florence, Italy, July 28- August 2, 2019, Volume 1: Long Papers, 2019, pp. 3645-3650. [Online]. Available: https: //doi.org/10.18653/vl/pl9-1355

[4] M. Pfeiffer and T. Pfeil, “Deep Learning With Spiking Neurons: Opportunities and Challenges,” Frontiers in Neuroscience, vol. 12, no. October, 2018.

[5] S.-C. Liu, B. Rueckauer, E. Ceolini, A. Huber, and T. Delbruck, “Eventdriven sensing for efficient perception: Vision and audition algorithms,” IEEE Signal Processing Magazine, vol. 36, no. 6, pp. 29-37, 2019.

[6] Y. A. LeCun, Y. Bengio, and G. E. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436-444, 2015.

[7] M. Davies, N. Srinivasa, T. Lin, G. Chinya, Y. Cao, S. H. Choday, G. Dimou, P. Joshi, N. Imam, S. Jain, Y. Liao, C. Lin, A. Lines, R. Liu, D. Mathaikutty, S. McCoy, A. Paul, J. Tse, G. Venkataramanan, Y.Weng, A. Wild, Y. Yang, and H. Wang, “Loihi: A neuromorphic manycore processor with on-chip learning,” IEEE Micro, vol. 38, no. 1, pp. 82- 99, January 2018.

[8] J. Sinapov, C. Schenck, and A. Stoytchev, “Learning relational object categories using behavioral exploration and multimodal perception,” in 2014 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2014, pp. 5691-5698.

[9] Y. Gao, L. A. Hendricks, K. J. Kuchenbecker, and T. Darrell, “Deep learning for tactile understanding from visual and haptic data,” in 2016 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2016, pp. 536-543.

[10] J. Li, S. Dong, and E. Adelson, “Slip detection with combined tactile and visual information,” in 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018, pp. 7772-7777.

[11] M. A. Lee, Y. Zhu, K. Srinivasan, P. Shah, S. Savarese, L. Fei- Fei, A. Garg, and J. Bohg, “Making sense of vision and touch: Self-supervised learning of multimodal representations for contact-rich tasks,” in 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019, pp. 8943-8950.

[12] J. Lin, R. Calandra, and S. Levine, “Learning to identify object instances by touch: Tactile recognition via multimodal matching,” in 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019, pp. 3644-3650.

[13] H. Liu, F. Sun et ah, “Robotic tactile perception and understanding,” 2018.

[14] P. Allen, “Surface descriptions from vision and touch,” in Proceedings. 1984 IEEE International Conference on Robotics and Automation, vol. 1. IEEE, 1984, pp. 394-397.

[15] S. Luo, J. Bimbo, R. Dahiya, and H. Liu, “Robotic tactile perception of object properties: A review,” Mechatronics, vol. 48, pp. 54-67, 2017.

[16] H. Liu, Y. Yu, F. Sun, and J. Gu, “Visual-tactile fusion for object recognition,” IEEE Transactions on Automation Science and Engineering, vol. 14, no. 2, pp. 996-1008, 2016.

[17] H. Soh, Y. Su, and Y. Demiris, “Online spatio-temporal Gaussian process experts with application to tactile classification,” in Intelligent Robots and Systems (IROS), 2012 IEEE/RSJ International Conference on. IEEE, 2012, pp. 4489-4496.

[18] J. Varley, D. Watkins, and P. Allen, “Visual-tactile geometric reasoning,” in RSS Workshop, 2017.

[19] J. Reinecke, A. Dietrich, F. Schmidt, and M. Chalon, “Experimental comparison of slip detection strategies by tactile sensing with the biotac(R) on the dir hand arm system,” in 2014 IEEE international Conference on Robotics and Automation (ICRA). IEEE, 2014, pp. 2742-2748.

[20] Y. Bekiroglu, R. Detry, and D. Kragic, “Learning tactile characterizations of object-and pose-specific grasps,” in 2011 IEEE/RSJ international conference on Intelligent Robots and Systems. IEEE, 2011, pp. 1554- 1560.

[21] Z. Su, K. Hausman, Y. Chebotar, A. Molchanov, G. E. Loeb, G. S. Sukhatme, and S. Schaal, “Force estimation and slip detection/classification for grip control using a biomimetic tactile sensor,” in 2015 IEEE-RAS 15th International Conference on Humanoid Robots (Humanoids). IEEE, 2015, pp. 297-303.

[22] W. Yuan, S. Dong, and E. H. Adelson, “Gelsight: High-resolution robot tactile sensors for estimating geometry and force,” Sensors, vol. 17, no. 12, p. 2762, 2017.

[23] R. Calandra, A. Owens, D. Jayaraman, J. Lin, W. Yuan, J. Malik, E. H. Adelson, and S. Levine, “More than a feeling: Learning to grasp and regrasp using vision and touch,” IEEE Robotics and Automation Letters, vol. 3, no. 4, pp. 3300-3307, 2018.

[24] S. Luo, W. Yuan, E. Adelson, A. G. Cohn, and R. Fuentes, “Vitae: Feature sharing between vision and tactile sensing for cloth texture recognition,” in 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018, pp. 2722-2727.

[25] G. Gallego, T. Delbr, G. Orchard, C. Bartolozzi, B. Taba, A. Censi, K. Daniilidis, D. Scaramuzza, S. Leutenegger, and A. Davison, “Eventbased Vision : A Survey,” Tech. Rep., 2018.

[26] A. Mitrokhin, C. Ye, C. Fermuller, Y. Aloimonos, and T. Delbruck, “EVIMO: Motion Segmentation Dataset and Learning Pipeline for Event Cameras,” in 2019 IEEE/RSI International Conference on Intelligent Robots and Systems (IROS), 2019.

[27] A. Z. Zhu and L. Yuan, “EV-FlowNet: Self-Supervised Optical Flow Estimation for Event-based Cameras,” in Robotics: Science and Systems, 2018.

[28] A. I. Maqueda, A. Loquercio, G. Gallego, N. Garcn’nia, and D. Scaramuzza, “Event-based vision meets deep learning on steering prediction for self-driving cars,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5419-5427.

[29] A. Tavanaei, M. Ghodrati, S. R. Kheradpisheh, T. Masquelier, and A. Maida, “Deep learning in spiking neural networks,” Neural Networks, vol. I l l, pp. 47-63, 2019. [Online]. Available: https: //doi.org/10.1016/j.neunet.2018.12.002

[30] S. B. Shrestha and G. Orchard, “Slayer: Spike layer error reassignment in time,” in Advances in Neural Information Processing Systems, 2018, pp. 1412-1421.

[31] G. Bellec, F. Scherr, E. Hajek, D. Salaj, R. Legenstein, and W. Maass, “Biologically inspired alternatives to backpropagation through time for learning in recurrent neural nets,” arXiv preprint arXiv: 1901.09049, 2019.

[32] M. Akrout, C. Wilson, P. Humphreys, T. Lillicrap, and D. B. Tweed, “Deep learning without weight transport,” in Advances in Neural Information Processing Systems, 2019, pp. 974-982.

[33] P. A. Merolla, J. V. Arthur, R. Alvarez-Icaza, A. S. Cassidy, J. Sawada, F. Akopyan, B. L. Jackson, N. Imam, C. Guo, Y. Nakamura, B. Brezzo, I. Vo, S. K. Esser, R. Appuswamy, B. Taba, A. Amir, M. D. Flickner, W. P. Risk, R. Manohar, and D. S. Modha, “A million spiking- 980 neuron integrated circuit with a scalable communication network and interface,” Science, vol. 345, no. 6197, pp. 668-673, 2014. [Online]. Available: https://science.sciencemag.org/content/345/6197/668

[34] S. Chevallier, H. Paugam-Moisy, and F. Lem ah t re, “Distributed processing for modelling real-time multimodal perception in a virtual robot.” in Parallel and Distributed Computing and 985 Networks, 2005, pp. 393-398.

[35] N. Rathi and K. Roy, “Stdp-based unsupervised multimodal learning with cross-modal processing in spiking neural network,” IEEE Transactions on Emerging Topics in Computational Intelligence, pp. 1-11, 2018.

[36] E. Mansouri-Benssassi and I. Ye, “Speech emotion recognition with early visual cross- 990 modal enhancement using spiking neural networks,” in 2019 International loint Conference on Neural Networks (IJCNN). IEEE, 2019, pp. 1-8.

[37] T. Zhou and I. P. Wachs, “Spiking neural networks for early prediction in human-robot collaboration,” The International Journal of Robotics Research, vol. 38, no. 14, pp. 1619-1643, 2019. [Online] Available: https://doi.org/10.1177/0278364919872252

995 [38] J. Konstantinova, A. Jiang, K. Althoefer, P. Dasgupta, and T. Nanayakkara, “Implementation of tactile sensing for palpation in robot-assisted minimally invasive surgery: A review,” IEEE Sensors Journal, vol. 14, no. 8, pp. 2490-2501, 2014.

[39] Y.Wu, Y. Liu, Y. Zhou, Q. Man, C. Hu,W. Asghar, F. Li, Z. Yu, J. Shang, G. Liu et ah, “A skin-inspired tactile sensor for smart prosthetics,” Science Robotics, vol. 3, no. 22, p. 1000 eaat0429, 2018.

[40] Q.-J. Sun, X.-H. Zhao, Y. Zhou, C.-C. Yeung, W. Wu, S. Venkatesh, Z.-X. Xu, J. J. Wylie, W.-J. Li, and V. A. Roy, “Fingertip-skin-inspired highly sensitive and multifunctional sensor with hierarchically structured conductive graphite/polydimethylsiloxane foams,” Advanced Functional Materials, vol. 29, no. 18, p. 1808829, 2019.

1005 [41] J. He, P. Xiao, W. Lu, J. Shi, L. Zhang, Y. Liang, C. Pan, S.-W. Kuo, and T. Chen, “A universal high accuracy wearable pulse monitoring system via high sensitivity and large linearity graphene pressure sensor,” Nano Energy, vol. 59, pp. 422-433, 2019.

[42] T. Callier, A. K. Suresh, and S. J. Bensmaia, “Neural coding of contact events in somatosensory cortex,” Cerebral Cortex, vol. 29, no. 11, pp. 4613-4627, 2019.

1010 [43] W. W. Lee, Y. J. Tan, H. Yao, S. Li, H. H. See, M. Hon, K. A. Ng, B. Xiong, J. S. Ho, and B. C. Tee, “A neuro-inspired artificial peripheral nervous system for scalable electronic skins,” Science Robotics, vol. 4, no. 32, p. eaax2198, 2019.

[44] R. S. Johansson and J. R. Flanagan, “Coding and use of tactile signals from the fingertips in object manipulation tasks,” Nature Reviews Neuroscience, vol. 10, no. 5, pp. 345-359, 2009. 1015 [45] W. Gerstner, “Time structure of the activity in neural network models,” Physical review E, vol. 51, no. 1, p. 738, 1995.

[46] B. Calli, A. Walsman, A. Singh, S. Srinivasa, P. Abbeel, and A. M. Dollar, “Benchmarking in manipulation research: Using the yale-cmuberkeley object and model set,” IEEE Robotics Automation Magazine, vol. 22, no. 3, pp. 36-52, Sep. 2015.

1020 [47] D. Coleman, I. Sucan, S. Chitta, and N. Correll, “Reducing the barrier to entry of complex robotic software: a moveit! case study,” arXiv preprint arXiv: 1404.3785, 2014.

[48] K. Cho, B. van Mem 'enboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, “Learning phrase representations using rnn encoder-decoder for statistical machine translation,” in Proceedings of the 2014 Conference on Empirical Methods in Natural 1025 Language Processing (EMNLP), 2014, pp. 1724-1734.

[49] P. Blouw, X. Choo, E. Hunsberger, and C. Eliasmith, “Benchmarking keyword spotting efficiency on neuromorphic hardware,” 2018, arXiv: 1812.01739.

[50] Lee, Wang Wei, et al. "A neuro-inspired artificial peripheral nervous system for scalable electronic skins." Science Robotics 4.32 (2019): eaax2198.

1030 [51] J. M. Gandarias, F. Pastor, A. J. Garc ia-Cerezo, and J. M. G'omezde Gabriel, “Active tactile recognition of deformable objects with 3d convolutional neural networks,” in 2019 IEEE World Haptics Conference (WHC). IEEE, 2019, pp. 551-555.

[52] P. Blouw, X. Choo, E. Hunsberger, and C. Eliasmith, “Benchmark-ing keyword spotting efficiency on neuromorphic hardware,” 2018, arXiv: 1812.01739]

【図1a】