IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ケンブリッジ・エンタープライズ・リミテッドの特許一覧

特表2024-519299未知環境におけるロボットナビゲーションのための方法およびシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-10
(54)【発明の名称】未知環境におけるロボットナビゲーションのための方法およびシステム
(51)【国際特許分類】
   G06N 3/08 20230101AFI20240501BHJP
   G06N 3/0464 20230101ALI20240501BHJP
   G06N 3/092 20230101ALI20240501BHJP
   G06N 3/04 20230101ALI20240501BHJP
   G01C 21/34 20060101ALI20240501BHJP
   G08G 1/0968 20060101ALI20240501BHJP
【FI】
G06N3/08
G06N3/0464
G06N3/092
G06N3/04 100
G01C21/34
G08G1/0968
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023566888
(86)(22)【出願日】2022-04-29
(85)【翻訳文提出日】2023-12-20
(86)【国際出願番号】 GB2022051099
(87)【国際公開番号】W WO2022229657
(87)【国際公開日】2022-11-03
(31)【優先権主張番号】2106286.4
(32)【優先日】2021-04-30
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】501484851
【氏名又は名称】ケンブリッジ・エンタープライズ・リミテッド
【氏名又は名称原語表記】CAMBRIDGE ENTERPRISE LIMITED
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】アマンダ・プロロック
(72)【発明者】
【氏名】ジェ・リュー
(72)【発明者】
【氏名】ジャン・ブルーメンカンプ
(72)【発明者】
【氏名】ビンユ・ワン
【テーマコード(参考)】
2F129
5H181
【Fターム(参考)】
2F129AA03
2F129BB03
2F129CC15
2F129CC16
2F129DD02
2F129GG17
2F129GG18
5H181AA27
5H181BB19
5H181CC04
5H181CC14
5H181FF21
(57)【要約】
大まかに言えば、本技術の実施形態は、未知環境におけるロボットナビゲーションのための方法およびシステムを提供する。特に、本技術は、ナビゲート装置と、複数の静的センサを備えるセンサネットワークとを備えるナビゲーションシステムを提供する。センサネットワークは、目標物体への方向を予測するように訓練され、ナビゲート装置は、センサネットワークから得られる情報を使用して可能な限り効率的に目標物体に達するように訓練される。
【特許請求の範囲】
【請求項1】
ナビゲート装置と、共に通信的に結合される複数の静的センサを備えるセンサネットワークとを備えるナビゲーションシステムのための機械学習(ML)モデルを訓練するコンピュータ実装方法であって、
前記複数の静的センサによって捕捉されるデータを使用して、目標物体への最短経路に対応する方向を予測するように前記MLモデルの第1のサブモデルのニューラルネットワークモジュールを訓練するステップであり、前記目標物体が少なくとも1つの静的センサによって検出可能である、ステップと、
前記複数の静的センサから受信される情報を使用して、前記ナビゲート装置を前記目標物体に誘導するように前記MLモデルの第2のサブモデルのニューラルネットワークモジュールを訓練するステップとを含む、コンピュータ実装方法。
【請求項2】
前記方向を予測するように前記第1のサブモデルの前記ニューラルネットワークモジュールを訓練するステップが、
前記センサネットワーク内の各静的センサによって捕捉される前記データから情報を抽出するステップと、
前記第1のサブモデルのグラフニューラルネットワーク(GNN)モジュールおよび前記抽出情報を使用して、前記目標物体への前記最短経路に対応する前記方向を予測するステップとを含む、請求項1に記載の方法。
【請求項3】
前記センサネットワークの前記静的センサ間の関係を表す一組の多ホップグラフを定義するステップであり、前記一組のグラフの各グラフが、各静的センサが既定数のホップを離れて他の静的センサにどのように接続されるかを示す、ステップ
を更に含む、請求項2に記載の方法。
【請求項4】
前記GNNモジュールがグラフ畳み込み層(GCL)サブモジュールを備え、GNNモジュールを使用して前記方向を予測するステップが、
前記GCLサブモジュールを使用して、各多ホップグラフ内の前記静的センサによって捕捉されるデータから得られる前記抽出情報を集約するステップと、
静的センサごとに前記抽出情報および前記集約された抽出情報を連結するステップと
を含む、請求項3に記載の方法。
【請求項5】
前記複数の静的センサが、画像データを捕捉する視覚センサであり、前記目標物体が少なくとも1つの静的センサの見通し線上にあり、
情報を抽出するステップが、前記第1のサブモデルの畳み込みニューラルネットワーク(CNN)モジュールを使用して、前記複数の静的センサによって捕捉される画像データに特徴抽出を行うステップを含む、請求項2から4のいずれか一項に記載の方法。
【請求項6】
前記抽出情報を集約するステップが、隣接する静的センサによって捕捉される画像から抽出される特徴を集約するステップと、前記第1のサブモデルの前記GNNモジュールを使用して、各静的センサの前記画像から融合特徴を抽出するステップとを含み、
連結するステップが、静的センサごとに前記抽出特徴および前記集約特徴を連結するステップを含む、
請求項5に記載の方法。
【請求項7】
静的センサごとの前記連結を前記第1のサブモデルの多層パーセプトロン(MLP)モジュールへ入力するステップと、
前記MLPモジュールから、前記静的センサから前記目標物体への前記最短経路に対応する前記方向を予測する静的センサごとの2次元ベクトルを出力するステップと
を更に含む、請求項4または6に記載の方法。
【請求項8】
前記ナビゲート装置を誘導するように前記第2のサブモデルの前記ニューラルネットワークモジュールを訓練するステップが、前記第1のサブモデルの前記ニューラルネットワークモジュールが前記方向を予測するように訓練された後に行われる、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記第1のサブモデルの前記訓練されたニューラルネットワークモジュールを使用し、前記ナビゲート装置を前記第1のサブモデル内の追加の静的センサであると考えることによって前記第2のサブモデルのパラメータを初期化するステップと、
強化学習を適用して、前記ナビゲート装置を前記目標物体に誘導するように前記第2のサブモデルを訓練するステップと
を更に含む、請求項8に記載の方法。
【請求項10】
強化学習を適用するステップが、前記予測方向を使用して、各時間ステップにおいて、前記予測方向に対応する方向に移動するように前記ナビゲート装置に報酬を与えるステップを含む、請求項9に記載の方法。
【請求項11】
前記第1および第2のサブモデルの前記ニューラルネットワークモジュールがシミュレート環境において訓練される、請求項1から10のいずれか一項に記載の方法。
【請求項12】
複数対のデータであり、各対が前記シミュレート環境における静的センサからのデータおよび対応する実世界環境における静的センサからのデータを備える、データを備える訓練データセットを使用して転移モジュールを訓練するステップを更に含む、請求項11に記載の方法。
【請求項13】
前記第1のサブモデルの前記ニューラルネットワークモジュールの1つまたは複数を、前記転移モジュールの対応するニューラルネットワークモジュールを使用して置換するステップを更に含む、請求項12に記載の方法。
【請求項14】
プロセッサ上に実装されるとき、前記プロセッサに請求項1から13のいずれか一項の方法を実施させるコードを保持する非一時的データキャリア。
【請求項15】
ナビゲーションシステムであって、
複数の静的センサを備えるセンサネットワークであり、各静的センサが、機械学習(ML)モデルの訓練された第1のサブモデルを使用して、
目標物体への最短経路に対応する方向を予測し、前記目標物体が少なくとも1つの静的センサによって検出可能である、
ように配置される、メモリに結合されたプロセッサを備える、センサネットワークと、
ナビゲート装置であり、前記機械学習(ML)モデルの訓練された第2のサブモデルを使用して、
前記複数の静的センサから受信される情報を使用して前記ナビゲート装置を前記目標物体に誘導する、
ように配置される、メモリに結合されたプロセッサを備える、ナビゲート装置とを備える、ナビゲーションシステム。
【請求項16】
前記センサネットワーク内の前記複数の静的センサが共に通信的に結合される、請求項15に記載のナビゲーションシステム。
【請求項17】
前記センサネットワーク内の前記複数の静的センサの通信トポロジが接続される、請求項16に記載のナビゲーションシステム。
【請求項18】
各静的センサが、前記静的センサによって捕捉されるデータを前記センサネットワーク内の前記静的センサに送信し、それによって各静的センサが前記静的センサから前記目標物体への方向を予測することを可能にする、請求項15または16に記載のナビゲーションシステム。
【請求項19】
前記ナビゲート装置が前記目標物体に向けて移動する間、前記ナビゲート装置が少なくとも1つの静的センサに通信的に結合される、請求項15から18のいずれか一項に記載のナビゲーションシステム。
【請求項20】
前記複数の静的センサが、画像データを捕捉する視覚センサであり、前記目標物体が少なくとも1つの静的センサの見通し線上にある、請求項15から19のいずれか一項に記載のナビゲーションシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、概して未知環境におけるロボットナビゲーションのための方法およびシステムに関する。特に、本技術は、ロボットまたはナビゲート装置がセンサのネットワークからの入力を使用して未知環境を目標物体までナビゲートすることを可能にするための機械学習(ML)モデルを訓練するための方法、および訓練されたMLモデルを使用してロボット/ナビゲート装置を目標物体に誘導するナビゲーションシステムを提供する。
【背景技術】
【0002】
複雑な未知環境において効率的に目標を発見してそこまでナビゲートすることが、捜索救難および環境モニタリングへの応用に関して、根本的なロボティクス問題である。最近では、低コストのワイヤレスセンサを使用してロボティックナビゲーションを誘導する解決策が提案されている。これらは、少ない追加コスト(すなわちローカル通信能力を持つ安価な静的センサの配備)で、ロボットの能力に関する要件が有意に低減される一方で、同時にロボットのナビゲーション効率を改善できることを示す。
【0003】
しかしながら、従前のセンサネットワーク誘導ナビゲーションの実装は厄介である。典型的に、このプロセスは、5つの主ステップから成る:(1)GPSまたはアンカなどの外部システムを通じてロボットおよびセンサ位置を推定するステップ、(2)センサデータを前処理して目標を検出するステップ、(3)ロボットに目標情報を送信するステップ、(4)環境マップを構築し、目標への経路を計画するステップ、ならびに(5)予め定式化された動的モデルに基づいて制御コマンドを計算して、ロボットが障害物を回避しつつ経路をたどれるようにするステップ。このフレームワークは、幾つかの欠点を有する。第1に、パラメータが手調整される必要があり、幾つかのデータ前処理ステップが必要とされる。第2に、認知、計画および制御モジュールを分離することが、それらの間の潜在的な正帰還を妨げ、モデル化および制御問題を困難にする。
【0004】
背景情報を、Qun Li他、「Distributed algorithms for guiding navigation across a sensor network」、Proceedings of the Ninth Annual International Conference on Mobile Computing and Networking (MOBICOM 2003)、2003、313~325頁に見つけることができる。Qun Li他は、領域にわたって対象を導くことに応答するセンサネットワークを自己再構成するための分散アルゴリズムを開示しており、アルゴリズムは、センサの人工ポテンシャル場を使用してネットワークを通じて物体を目標に誘導する。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Qun Li他、「Distributed algorithms for guiding navigation across a sensor network」、Proceedings of the Ninth Annual International Conference on Mobile Computing and Networking (MOBICOM 2003)、2003、313~325頁
【非特許文献2】K. Danielら、「Theta*: Any-angle path planning on grids」、Journal of Artificial Intelligence Research、第39巻、533~579頁、2010
【非特許文献3】J. Schulmanら、「Proximal policy optimization algorithms」、2017
【非特許文献4】P. Velickovicら、「Graph Attention Networks」、2018
【発明の概要】
【発明が解決しようとする課題】
【0006】
本出願人は、したがって未知環境におけるロボットナビゲーションのための改善された機構の必要性を特定した。
【課題を解決するための手段】
【0007】
本技術の第1の手法において、ナビゲート装置と、共に通信的に結合される複数の静的センサを備えるセンサネットワークとを備えるナビゲーションシステムのための機械学習(ML)モデルを訓練するコンピュータ実装方法であって、複数の静的センサによって捕捉されるデータを使用して、目標物体への最短経路に対応する方向を予測するようにMLモデルの第1のサブモデルのニューラルネットワークモジュールを訓練するステップであり、目標物体が少なくとも1つの静的センサによって検出可能である、ステップと、複数の静的センサから受信される情報を使用して、ナビゲート装置を目標物体に誘導するようにMLモデルの第2のサブモデルのニューラルネットワークモジュールを訓練するステップとを含む、コンピュータ実装方法が提供される。
【0008】
本技術は、センサネットワークによって誘導される視覚ナビゲーションの学習手法を提供しており、上記した問題を克服する。ナビゲーションの成功には、ロボットがその周辺環境と生センサデータとその行動との間の関係を学習することが必要である。これを可能にするために、本技術は、ナビゲート装置を目標に誘導するように静的センサネットワークを訓練する仕方を提供する。用語「ナビゲート装置」は、本明細書において用語「ナビゲートロボット」および「ロボット」と互換可能に使用される。ナビゲート装置は、制御された/制御可能なまたは自律ナビゲートロボットでよく、目標に向けて環境を移動することができる。代替的に、ナビゲート装置は、人間のユーザによって保持または着用され、人間のユーザによって使用されて目標物体に向けて移動し得る装置であってもよい。
【0009】
以下に更に詳細に説明されることになるように、本技術は、ナビゲーションシステムによって使用されるべき機械学習(ML)モデルを訓練する2段階手法を提供する。第1段階では、センサネットワークが訓練される。訓練の目的は、センサネットワーク内のセンサごとに、目標物体への方向を予測することである。訓練は、各センサによって捕捉されるデータおよびセンサ間通信を使用する。第2段階では、ロボットが訓練される。この場合の訓練の目的は、ロボット自体によって捕捉されるデータおよびセンサネットワークによってロボットに通信される情報を使用することによって可能な限り効率的に目標物体に達するようにロボットを訓練することである。この2段階手法は、それが学習プロセスに補助タスクまたは学習カリキュラムが使用されることを必要としないので有利である。代わりに、2段階手法は、ナビゲートロボットに通信されることが必要とされることを直接学習するために使用される。更には、2段階手法は、それがセンサ、目標またはロボットのいかなる全地球測位情報も必要としないので有利である。別の利点は、それがセンサネットワークのための事前校正プロセスを必要としないので、新たな環境に容易に実装できるということである。
【0010】
ロボットもセンサも目標物体について何も(例えば目標物体がどのように見えるか、または聞こえるか、または匂うか等)知らない。代わりに、この情報もMLモデルによって学習される。MLモデルのコンポーネント(訓練プロセスの第1段階の一部であるおよび/またはその間に使用されるコンポーネントであってもよい)が、目標物体が何であるかを学習するために使用されてもよい。一旦このコンポーネントが目標物体が何であるかを判定すると、目標物体知識は、センサネットワークおよびナビゲート装置によって活用できる。このコンポーネントは、MLモデルがモジュール式であるので訓練および置換するのが簡単であり得る。MLモデルの残り(例えば通信部品)は、目標に関知しない。言い換えれば、グラウンドトゥルース方向情報だけが学習プロセスに必要とされるので、目標物体が何であるかまたはどのように見えるかを厳密に知る必要はない。この情報は、ラベル付けされた目標方向情報からネットワーク自体によって学習される。このことは、訓練されたナビゲーションシステムが次いで、再訓練を必要とすることなく、多種多様な環境に配備されて種々の応用のために使用され得るので有利である。例えば、訓練されたナビゲーションシステムは、捜索救難活動を行うため、倉庫などの構造化環境内をナビゲートするため、空港内で対象の人々を識別して彼らに向けてナビゲートするため、または人間によって容易に近づくことができない環境を調査するために使用されてもよい。各場合に、センサおよびロボットは、環境に配備されてよく、システムは、訓練されたMLモデルを使用して、その環境において目標物体であり得るものを識別する。
【0011】
センサネットワークは、センサネットワーク内の各静的センサによって捕捉されるデータを使用して訓練される。目標物体は、少なくとも1つの静的センサによって検出可能である。一部の場合には、目標物体は、目標物体が静的センサに近接していれば静的センサによって検出可能であってもよい。静的センサが視覚センサである場合には、目標物体は、それが少なくとも1つの静的センサの見通し線上にあれば検出可能であってもよい。目標物体を検出することができる上記または各静的センサによって得られる目標物体についての情報は、通信距離内にあるセンサネットワークの他のセンサと共有される。これは、各センサがセンサ自体の場所から目標物体への方向を予測することを可能にする。そのため、センサネットワーク内の複数の静的センサは、共に通信的に結合される。特に、センサネットワーク内の複数の静的センサの通信トポロジが接続される。これは、各センサとあらゆる他のセンサとの間に通信路が存在することを意味する。通信路は、必ずしも直接的であるわけではない。代わりに、情報は、例えばマルチホップルーティングを使用して中間(リレー)センサを介して1つのセンサから別のものに送信されてもよい。
【0012】
各静的センサによって捕捉されるデータの共有は、センサネットワーク内の各センサが、グラフニューラルネットワーク(GNN)を活かす機械学習アーキテクチャを通じて学習される方策を授けられることを可能にする。そのため、方向を予測するように第1のサブモデルのニューラルネットワークモジュールを訓練するステップは、センサネットワーク内の各静的センサによって捕捉されるデータから情報を抽出するステップを含んでもよい。抽出情報は、第1のサブモデルのグラフニューラルネットワーク(GNN)モジュールを使用して、目標物体への最短の障害物のない経路に対応する方向を予測するために使用されてもよい。
【0013】
本方法は、センサネットワークの静的センサ間の関係を表す一組の多ホップグラフを定義するステップであり、一組のグラフの各グラフが、各静的センサが既定数のホップを離れて他の静的センサにどのように接続されるかを示す、ステップを含んでもよい。
【0014】
GNNモジュールは、グラフ畳み込み層(GCL)サブモジュールを備えてもよい。GNNモジュールを使用して方向を予測するステップは、GCLサブモジュールを使用して、各多ホップグラフ内の静的センサによって捕捉されるデータから得られる抽出情報を集約するステップと、静的センサごとに抽出情報および集約された抽出情報を連結するステップとを含んでもよい。
【0015】
センサネットワークの静的センサは、任意の適切な種類のセンサであってもよい。好ましくは、静的センサは、全て同じ種類であり、その結果各センサは、その他のセンサから得られるデータを理解および使用できる。例えば、静的センサは、音声または音波ベースのセンサであってもよい。別の例では、静的センサは、視覚センサであってもよい。目標物体が静的センサの少なくとも1つによってその感知能力を使用して検出可能である限り、任意の種類の静的センサが使用されてもよい。
【0016】
複数の静的センサが、画像データを捕捉する視覚センサである場合には、目標物体は、少なくとも1つの静的センサの見通し線上にある。情報を抽出するステップは、第1のサブモデルの畳み込みニューラルネットワーク(CNN)モジュールを使用して、複数の静的センサによって捕捉される画像データに特徴抽出を行うステップを含んでもよい。この場合には、抽出情報を集約するステップは、隣接する静的センサによって捕捉される画像から抽出される特徴を集約するステップと、第1のサブモデルのGNNモジュールを使用して、各センサの画像から融合特徴を抽出するステップとを含んでもよい。連結するステップは、センサごとに抽出特徴および集約特徴を連結するステップを含んでもよい。
【0017】
静的センサが非視覚センサであることに基づいてMLモデルのアーキテクチャおよび目標方向予測が行われる仕方が変わり得ることが理解されるであろう。すなわち、上記ステップは、静的センサによって収集されるデータの種類に基づいて変わり得る。
【0018】
本方法は、静的センサごとの連結を第1のサブモデルの多層パーセプトロン(MLP)モジュールへ入力するステップと、MLPモジュールから、静的センサから目標物体への最短の障害物のない経路に対応する方向を予測する静的センサごとの2次元ベクトルを出力するステップとを更に含んでもよい。
【0019】
上述したように、本技術の2段階手法は、第2のサブモデルのニューラルネットワークモジュールを(ナビゲートロボットを誘導するように)訓練するプロセスが第1のサブモデルのニューラルネットワークモジュールを(方向を予測するように)訓練するプロセスの後に行われることを必要とする。
【0020】
そのため、第1のサブモデルが訓練された後に、本方法は、第1のサブモデルの訓練されたニューラルネットワークモジュールを使用し、ナビゲート装置を第1のサブモデル内の追加センサであると考えることによって第2のサブモデルのパラメータを初期化するステップと、強化学習を適用して、ナビゲート装置を目標物体に誘導するように第2のサブモデルを訓練するステップとを含んでもよい。
【0021】
強化学習を適用するステップは、予測方向を使用して、各時間ステップにおいて、予測方向に対応する方向に移動するようにナビゲート装置に報酬を与えるステップを含んでもよい。すなわち、強化学習は、ナビゲート装置が各時間ステップにおいて目標物体に向けて移動するように促す。
【0022】
実世界における訓練は、一般に十分な訓練データを得ることの難しさのためおよびサンプル非効率な学習アルゴリズムのために実行不可能である。そのため、本明細書に記載される訓練は、ノンフォトリアリスティックシミュレータで行われてもよい。ただし、フォトリアリスティックシミュレーションは、実現するのが困難かつ高価である。結果として、ノンフォトリアリスティックシミュレータで訓練されるモデルは、訓練されたモデルが実世界に配備されるときに正しくまたはそれほど正確に機能しないことがある。そのため、本技術は、実世界に配備されるべき実ナビゲート装置に直接シミュレーションで訓練された方策の転移を容易にする技術も提供する。有利には、これは、ナビゲーションシステムが実世界に配備されるときにモデル全体が再訓練される必要がなく、実世界使用のためにシステムを準備する時間を高速化できることを意味する。
【0023】
そのため、第1および第2のサブモデルのニューラルネットワークモジュールは、シミュレート環境において訓練されてもよい。
【0024】
本方法は、複数対のデータであり、各対がシミュレート環境における静的センサからのデータおよび対応する実世界環境における静的センサからのデータを備える、データを備える訓練データセットを使用して転移モジュールを訓練するステップを更に含んでもよい。
【0025】
一旦転移モジュールが訓練されると、本方法は、第1のサブモデルのニューラルネットワークモジュールの1つまたは複数を、転移モジュールの対応するニューラルネットワークモジュールを使用して置換するステップを更に含んでもよい。このようにして、実世界データを使用して訓練されたニューラルネットワークモジュールは、シミュレーションで訓練されたニューラルネットワークモジュールと交換され、ナビゲート装置は、実世界環境をナビゲートする可能性が改善されて配備できる。
【0026】
本技術の第2の手法において、ナビゲーションシステムであって、複数の静的センサを備えるセンサネットワークであり、各静的センサが、機械学習(ML)モデルの訓練された第1のサブモデルを使用して、目標物体への最短経路に対応する方向を予測し、目標物体が少なくとも1つの静的センサによって検出可能である、ように配置される、メモリに結合されたプロセッサを備える、センサネットワークと、ナビゲート装置であり、機械学習(ML)モデルの訓練された第2のサブモデルを使用して、複数の静的センサから受信される情報を使用してナビゲート装置を目標物体に誘導する、ように配置される、メモリに結合されたプロセッサを備える、ナビゲート装置とを備える、ナビゲーションシステムが提供される。
【0027】
センサネットワーク内の複数の静的センサは、共に通信的に結合される。各静的センサは、それ自体の観測だけを使用して静的センサから目標物体への方向を予測することはできない。したがって、好ましくは、センサネットワーク内の複数の静的センサの通信トポロジが接続される。
【0028】
各静的センサは、静的センサによって捕捉されるデータをセンサネットワーク内の他の静的センサに送信することができる。これは、各静的センサが静的センサから目標物体への方向を予測することを可能にする。一部の場合には、静的センサによってセンサネットワーク内の他のセンサに送信されるデータは、静的センサによって捕捉される生センサデータである。好ましくは、特にセンサによって捕捉されるデータが送信するのに効率的でなくなり得る大きなファイルサイズを有し得る視覚センサの場合には、静的センサによって送信されるデータは、処理されたデータであってもよい。例えば、視覚センサの場合には、センサによって捕捉される画像から特徴が抽出されてもよく、抽出特徴は、他のセンサに送信される。これは、効率を上げかつ冗長情報が送信されることを回避する。
【0029】
ナビゲート装置が目標物体に向けて移動する間、ナビゲート装置は、少なくとも1つの静的センサに通信的に結合される。言い換えれば、ナビゲート装置は、センサネットワークと通信することができる。ナビゲート装置は、少なくとも1つの静的センサ(例えばナビゲートロボットと通信距離内にある静的センサ)から情報を得てもよい。この情報から、ナビゲート装置は、それ自体の位置から目標物体への方向を学習してもよい。これは、ナビゲート装置がそれがどの方向に移動する必要があるかを判定することを可能にする。このようにして、ナビゲート装置は、各静的センサから受信される情報によって目標物体に向けて誘導される。
【0030】
複数の静的センサは、画像データを捕捉する視覚センサであってもよい。目標物体は、少なくとも1つの静的センサの見通し線上にある。
【0031】
センサネットワークは、複数の静的センサを備える。静的センサの厳密な数は、例えばナビゲーションシステムによって探索されるべき環境のサイズおよび各センサの通信距離に応じて変動してもよい。
【0032】
本技術の関連手法において、本明細書に記載される方法、プロセスおよび技術のいずれかを実装するプロセッサ制御コードを保持する非一時的データキャリアが提供される。
【0033】
当業者によって認識されるであろうように、本技術は、システム、方法またはコンピュータプログラム製品として具現化されてもよい。それに応じて、本技術は、完全にハードウェア実施形態、完全にソフトウェア実施形態、またはソフトウェアおよびハードウェア態様を組み合わせた実施形態の形態をとってもよい。
【0034】
更には、本技術は、コンピュータ可読プログラムコードが具現化されたコンピュータ可読媒体に具現化されるコンピュータプログラム製品の形態をとってもよい。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよい。コンピュータ可読媒体は、例えば、電子、磁気、光学、電磁、赤外線もしくは半導体システム、装置もしくはデバイス、または上記の任意の適切な組合せであってもよいが、これらに限定されない。
【0035】
本技術の動作を実施するためのコンピュータプログラムコードは、オブジェクト指向プログラミング言語および従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれてもよい。コードコンポーネントは、手順、方法等として具現化されてよく、ネイティブ命令セットの直接機械命令から高級コンパイラ型またはインタプリタ型言語要素まで、抽象化レベルのいずれかで命令または命令のシーケンスの形態をとってもよいサブコンポーネントを備えてもよい。
【0036】
本技術の実施形態は、プロセッサ上に実装されるとき、プロセッサに本明細書に記載される方法のいずれかを実施させるコードを保持する非一時的データキャリアも提供する。
【0037】
本技術は、例えば汎用コンピュータシステム上にまたはデジタル信号プロセッサ(DSP)上に上記の方法を実装するプロセッサ制御コードを更に提供する。本技術は、実行すると、上記方法のいずれかを実装するプロセッサ制御コードを、特に非一時的データキャリア上に保持するキャリアも提供する。コードは、ディスク、マイクロプロセッサ、CD-もしくはDVD-ROM、不揮発性メモリ(例えばフラッシュ)などのプログラムされたメモリまたはリードオンリメモリ(ファームウェア)などのキャリア上に、あるいは光学または電気信号キャリアなどのデータキャリア上に提供されてもよい。本明細書に記載される技術の実施形態を実装するコード(および/またはデータ)は、Cなどの従来のプログラミング言語(インタプリタ型もしくはコンパイラ型)でのソース、オブジェクトもしくは実行可能コード、またはアセンブリコード、ASIC(特定用途向け集積回路)またはFPGA(フィールドプログラマブルゲートアレイ)を設定または制御するためのコード、あるいはVerilog(RTM)またはVHDL(超高速集積回路ハードウェア記述言語)などのハードウェア記述言語のためのコードを含んでもよい。当業者が認識するであろうように、そのようなコードおよび/またはデータは、互いと通信している複数の結合されたコンポーネント間で分散されてもよい。本技術は、システムのコンポーネントの1つまたは複数に結合されるマイクロプロセッサ、ワーキングメモリおよびプログラムメモリを含むコントローラを備えてもよい。
【0038】
本技術の実施形態に係る論理的方法の全てまたは一部が、上記の方法のステップを行うのに適切に論理素子を備える論理装置に具現化されてもよいこと、およびそのような論理素子が、例えばプログラマブル論理アレイまたは特定用途向け集積回路における論理ゲートなどのコンポーネントを含んでもよいことも当業者に明らかであろう。そのような論理配置は、例えば、固定または伝送可能キャリア媒体を使用して記憶および伝送され得る、仮想ハードウェア記述子言語を使用してそのようなアレイまたは回路に論理構造を一時的または永続的に確立するための素子を可能にすることに更に具現化されてもよい。
【0039】
一実施形態において、本技術は、マルチプロセッサまたは制御回路を使用して実装されてもよい。本技術は、装置のオペレーティングシステム上で実行する、またはそれへ組み込まれるように適合されてもよい。
【0040】
一実施形態において、本技術は、機能データを有するデータキャリアの形態で実現されてよく、上記機能データは、コンピュータシステムまたはネットワークへロードされ、それによって演算されるとき、上記コンピュータシステムが上記の方法の全てのステップを行うことを可能にする機能コンピュータデータ構造を備える。
【0041】
本技術の実装例が、ここで、単に例として、添付図面を参照しつつ記載されることになる。
【図面の簡単な説明】
【0042】
図1】本技術の2段階手法を図示する概要図である。
図2】ナビゲート装置によって捕捉される全方位画像の一例を図示する。
図3】機械学習(ML)モデルの構造を図示する概要図である。
図4】グラフニューラルネットワークモジュールの概要図である。
図5】第1段階の損失関数および第2段階の報酬関数を例示する。
図6】MLモデルを訓練するために使用されるマップおよびセンサレイアウト例を図示する。
図7】目標予測タスクの各不可視マップにおける全てのセンサの平均角度誤差を示す表である。
図8】目標予測タスクの各不可視マップにおけるロボットの平均角度誤差を示す表である。
図9】動的訓練の有無により訓練損失を比較するグラフである。
図10】グラフアテンションネットワーク(GAT)の有無により訓練損失を比較するグラフである。
図11】ロボットナビゲーションの結果を示す表である。
図12】第2段階において提供される訓練報酬を比較するグラフである。
図13】ロボット制御方策を解釈するための可視化である。
図14】ロボットがセンサネットワークと通信することができないケースを例示する。
図15A】ナビゲーションシステムのためのMLモデルを訓練するステップ例のフローチャートである。
図15B】転移モジュールを訓練するステップ例のフローチャートである。
図15C図15Bの訓練を例示する概要図である。
図16】ナビゲーションシステムのブロック図である。
【発明を実施するための形態】
【0043】
大まかに言えば、本技術の実施形態は、未知環境におけるロボットナビゲーションのための方法およびシステムを提供する。特に、本技術は、ナビゲート装置と、複数の静的センサを備えるセンサネットワークとを備えるナビゲーションシステムを提供する。センサネットワークは、目標物体への方向を予測するように訓練され、ナビゲート装置は、センサネットワークから得られる情報を使用して可能な限り効率的に目標物体に達するように訓練される。
【0044】
センサネットワーク誘導ロボットナビゲーションは、この10年で相当な注目を受けた。従前の手法は、ロボットかセンサの部分集合かがグローバル位置情報を有しており、これに基づいて、ロボットから目標に最も近いセンサへの最短のマルチホップルートを得ることができることを前提とする。最近、センサネットワーク位置同定およびモバイルエージェント追跡問題を解決するために深層学習(DL)ベースの方法が提案された。前者の従来の方法と同様に、DLベースの方法も、幾つかのセンサが既知の位置情報を有することを前提としており、これがそのような方法の一般化可能性を制限する。
【0045】
グラフニューラルネットワーク(GNN)は、リレーショナル非ユークリッドデータを集約し、それから学習する効果的な方法を表す。GNNベースの方法は、人間行動認識および車両軌道予測を含む、多数の領域において有望な結果を達成した。これらの先行の手法の共通性は、それらが、全ての情報を集約する集中フレームワークを使用することによってグローバル情報を予測することに重点を置くということである。最近、分散方法がマルチロボット領域において研究された。例えば、マルチロボット経路計画問題を解決するために完全分散フレームワークが提案されており、GNNが、ローカル運動協調を容易にする効率的なアーキテクチャを提供する。しかしながら、この手法は、鳥瞰図観測と使用できるだけである。群れ問題を解決するために視覚ベースの分散方法が提案された。近傍の状態を推定するために一人称視点画像が使用され、特徴集約のためにGNNが導入される。しかしながら、この方法は、手作業の特徴で認知ネットワークを事前に訓練する必要がある。有利には、認知ネットワークの事前訓練は本技術によって必要とされない。
【0046】
追加的に、上述の両手法は、エキスパートデータセットでの模倣学習に依存しており、それらの一般化可能性を制限することがある。強化学習(RL)ベースの方法が提案されており、エージェントが利己的目的を有するケースに対処するためにGNNを使用して敵対通信を誘発する。しかしながら、この方法も、一人称視点観測を考慮に入れていない。
【0047】
視覚ナビゲーションにおける最も困難な問題点の1つが、生センサデータからの効率的な特徴の学習の仕方である。ネットワーク全体をエンドツーエンドで直接訓練することでは、低サンプル効率を回避しない。それ故、大抵の既存の作業では、認知および制御モジュールを別々に訓練し、次いでネットワーク全体を微調整する。認知モジュールの特徴抽出能力を上げるために、通常は深度推定および報酬予測などの補助タスクが導入される。加えて、カリキュラム学習戦略も、低サンプル効率および報酬スパース性を克服するのに効果的である。有利には、先行の研究と対照的に、本技術は、視覚センサネットワークによってそれ自体の観測をネットワークメッセージを通じて得られる情報と集約することによってナビゲートロボットが誘導される新規な問題定式化を考慮する。補助タスクを導入するまたはカリキュラムを学習する代わりに、未知環境において効率的なナビゲーションを保証するためにどんな情報が通信される必要があるか、および通信情報の集約の仕方を直接学習するために共同訓練方式が使用される。
【0048】
図1A図1Cは、本技術の2段階手法を図示する。本技術は、センサネットワークによって誘導される視覚ナビゲーションの学習手法を提供する。このセンサネットワーク内のノードは、グラフニューラルネットワーク(GNN)を活かす機械学習アーキテクチャを通じて学習される方策を授けられる。ナビゲーションの成功には、ナビゲート装置がその周辺環境と生センサデータとその行動との間の関係を学習することが必要である。ナビゲート装置は、制御されたもしくは自律ナビゲートロボットでよく、または人間によって保持もしくは着用され、人間によって使用されて目標物体に向けて移動し得るナビゲート装置であってもよい。用語「ナビゲート装置」は、本明細書において用語「ナビゲートロボット」および「ロボット」と互換可能に使用される。
【0049】
これにより、一人称視点ベースのナビゲーションは深層強化学習(RL)に十分に適している。それでも、そのようなRL方法に関する主な課題は、それらが報酬スパース性および低サンプル効率を被るということである。現在の解決策は、補助タスクおよびカリキュラム学習戦略を含む。
【0050】
本技術は、ナビゲート装置を目標物体へ誘導することを学習することが可能である静的視覚センサネットワークを導入することによって補足的な手法を提供する。図1A図1Cに図示されるように、本技術は、ナビゲーションシステムによって使用されるべき機械学習(ML)モデルを訓練する2段階手法を提供する。
【0051】
図1Aに図示されるように、本技術は、センサネットワークの助けにより未知環境におけるロボットナビゲーション問題を考える。ナビゲーションシステムは、ナビゲート装置100、および複数の静的センサ102を備えるセンサネットワークを備える。ナビゲーションシステムは、ナビゲート装置100が目標物体106に向けてナビゲートすることを可能にするように訓練される。図1Aに図示されるように、システムに多数の静的障害物104があり、ナビゲート装置100は、目標物体106に向けてナビゲートするためにそれらも避けてナビゲートする必要がある。静的障害物104は、ナビゲート装置100および一部の静的センサ102が目標物体106を見るまたは検出することができるのを妨げ、一部の静的センサ102がナビゲート装置100によって検出可能であるのも妨げる。破線108は、ナビゲート装置100の現在位置から目標物体106への予想される最適経路を示す。目標物体106は、少なくとも1つの静的センサ102によって検出可能である。
【0052】
図1Bは、ナビゲーションシステムによって使用されるべき機械学習(ML)モデルを訓練する2段階手法の第1段階(段階1)を図示する。第1段階では、複数の静的センサ102を備えるセンサネットワークが訓練される。第1段階の目的は、各静的センサ102によって収集されるデータおよびセンサ間通信を使用することによって各静的センサ102において目標物体106への方向を予測することである。この理由で、ナビゲート装置100は、訓練のこの段階の一部でない。
【0053】
各静的センサ102が視覚センサである場合には、各静的センサ102によって収集されるデータは、一人称視点生画像データであってもよい。そのような場合には、目標物体106は、少なくとも1つの静的センサ102の見通し線上にある。
【0054】
点線110は、静的センサ102の間の通信リンクを表す。各静的センサ102は、目標物体106への最短の障害物のない経路に対応する方向を予測する。予測方向は、図1Bにおいて各静的センサ102から延びる短い矢印によって図示される。
【0055】
図1Cは、ナビゲーションシステムによって使用されるべき機械学習(ML)モデルを訓練する2段階手法の第2段階(段階2)を図示する。第2段階では、ナビゲート装置100が訓練される。第2段階の目的は、ナビゲート装置100が、それ自体の視覚入力の他に静的センサ102のネットワークによって通信される情報を使用することによって可能な限り効率的に目標物体106に達することである。補助タスクを導入するまたはカリキュラムを学習する代わりに、本技術は、この2段階学習方法を使用して、ナビゲート装置100に通信される必要があることを直接学習する。破線112は、ナビゲート装置100とナビゲート装置100の通信距離内にある隣接する(すなわち検出可能な)静的センサ102との間の通信リンクを表す。段階2では、ナビゲート装置100が静的センサ102によって提供される情報によって誘導される最小迂回で目標物体106に向けてナビゲートすることを可能にするナビゲーション命令(ナビゲート装置100から延びる矢印114によって示される)を生成するために、RLベースのプランナが使用されてもよい。
【0056】
2段階訓練手法の利点には、低コストセンサネットワークを使用して、ロボットがいかなる測位情報(例えばGPS情報)もなしで未知環境をナビゲートするのを援助することを含む。別の利点は、一人称視点視覚ナビゲーションのための深層RL方式の提供である。特に、効果的なナビゲーションのために通信される必要があることおよび情報の集約の仕方を学習するために、GNNの実装が成功される。更には、本技術の一般化可能性およびスケーラビリティが不可視環境およびセンサレイアウトに対して検証されて、ロボット制御方策を解釈することによってネットワークにおける情報共有および集約の効率を証明し、一時的な通信切断に対する堅牢性を示す。
【0057】
図2は、ナビゲート装置100によって捕捉される全方位画像の一例を図示する。左手側画像は、ナビゲート装置100および目標物体106が図示されるシステムの平面図を示す。右手側画像は、ナビゲート装置100によって捕捉される画像を示しており、目標物体106がナビゲート装置100に見えることを示す。
【0058】
問題。3D連続環境Wを考えると、静的障害物
【0059】
【数1】
【0060】
の集合を含む。環境における2D水平面(HSの高さ)にランダムに位置するN個の静的センサ
【0061】
【数2】
【0062】
がある。図2に図示されるように、各センサsiは、その周辺環境の全方位RGB画像
【0063】
【数3】
【0064】
を得ることができる。また、各センサsiは、
【0065】
【数4】
【0066】
と通信でき、式中
【0067】
【数5】
【0068】
【0069】
【数6】
【0070】
として定義されるsiの近傍集合であり、式中
【0071】
【数7】
【0072】
はsiとsjとの間のユークリッド距離であり、DSは通信距離である。視覚画像を直接送信することが必然的に禁止帯域幅負荷および待ち時間を生じさせ得るので、センサの間で通信されるメッセージは、我々の手法ではコンパクトな特徴である。
【0073】
【数8】
【0074】
における2D接地面において移動する移動ロボットrを考える。各時間tに、ロボットは、その周辺環境の全方位RGB画像
【0075】
【数9】
【0076】
を得、その隣接するセンサ
【0077】
【数10】
【0078】
と通信し、式中ロボット近傍集合は
【0079】
【数11】
【0080】
である。2D接地面にランダムに目標が位置する。ロボットは、可能な限り迅速に目標を発見してそこまでナビゲートするタスクを与えられる。
【0081】
前提。i)センサの間のまたはロボットとその隣接するセンサとの間の通信リンクは、いかなる静的障害物によっても遮断されない。ii)センサネットワークの通信トポロジは接続され、ロボットは、いかなる所与の時間にも少なくとも1つのセンサと通信できる。iii)各時間に、センサの間のまたはロボットとその隣接するセンサとの間の全ての通信は数ラウンドで同期して達成され、通信中の時間遅延は考慮されない。iv)目標は少なくとも1つのセンサの見通し線内であるが、ロボットもセンサも目標がどのように見えるかを知らず、すなわち、この情報はモデル自体によって学習されるべきである。v)動的障害物がない。iv)ロボットおよび全てのセンサのローカル座標は揃えられ、すなわち、それらのローカル座標は同じ固定x軸およびy軸方向を有する。ロボットまたはセンサのグローバルまたは相対位置の知識は前提とされない。
【0082】
ロボット行動。ロボットは速度制御される、すなわち、時間tにおける行動はat=[Δxt,Δyt]として定義され、Δxt∈(-1,1)およびΔyt∈(-1,1)によって正規化される。
【0083】
目的。ローカル一人称視点視覚観測
【0084】
【数12】
【0085】
およびセンサネットワークから得られる情報が与えられると、本技術の手法の目的は、ロボットが可能な限り効率的に目標に移動することを可能にする行動atを出力することである。
【0086】
A.システムフレームワーク
図3は、機械学習(ML)モデルの構造を図示する概要図である。上で概説されたように、本技術の全体的なシステムフレームワークは、2つの主な段階を含む。第1段階では、センサネットワークだけが考慮され、目標物体方向を予測するために教師あり学習が活用される。すなわち、第1段階は、複数の静的センサ102によって捕捉されるデータを使用して、目標物体106への最短経路に対応する方向を予測するようにMLモデルの第1のサブモデルのニューラルネットワークモジュールを訓練することを含む。最短経路が最短の障害物のない経路であることが理解されるであろう。すなわち、最短経路は、おそらく環境におけるいかなる静的障害物も避けてナビゲートすることを伴うであろう。目標物体106は、少なくとも1つの静的センサ102によって検出可能である。第2段階では、ナビゲート装置100が導入され、ナビゲーションタスクのためにナビゲート装置100によって使用されるモデルを訓練するために強化学習が適用される。すなわち、第2段階は、複数の静的センサ102から受信される情報を使用して、ナビゲート装置100を目標物体106に誘導するようにMLモデルの第2のサブモデルのニューラルネットワークモジュールを訓練することを含む。これらの2つの段階は、ここで更に詳細に述べられる。
【0087】
段階1:目標方向予測。この段階では、センサネットワークだけが考慮される。教師あり学習フレームワークが使用される。各静的センサsiの目的は、それ自体の観測
【0088】
【数13】
【0089】
および他のセンサ102から共有される情報を使用することによって目標物体への最短経路(静的障害物104を考慮した)に対応する方向を予測することである。この段階には3つの主なモジュールがある。これらの3つのモジュールは、静的センサが視覚センサであることに対して記載される。静的センサが非視覚センサであることに基づいてこれらのモジュールが僅かに変わり得ることが理解されるであろう。
1.ローカル特徴抽出。最初に、CNNモジュールが使用されて、各センサsiによって捕捉される入力全方位画像
【0090】
【数14】
【0091】
から特徴
【0092】
【数15】
【0093】
を抽出する。各センサのCNN層は、同じ構造およびパラメータを共有する。
2.特徴集約。GNNモジュールが導入されて、近傍の特徴を集約し、各センサsiの融合特徴を抽出する。
3.目標方向予測。最後に、スキップ接続が使用されて、GNN集約特徴にCNN抽出特徴を連結し、次いで全てのセンサの間でパラメータが共有された全結合(FC)層を活用して、各センサから目標への最短の障害物のない経路に対応する方向を予測する。
【0094】
段階2:センサネットワーク誘導ロボットナビゲーション。この段階では、RLが使用されて、それ自体の観測をネットワークメッセージを通じて得られる情報と共に使用することによってナビゲート装置100をナビゲートする。具体的には、ナビゲート装置100は、最初はモデル構造が同じ追加センサとして扱われ、段階1において事前に訓練されたCNN層もGNN層も転移される。次いで、続くFC層がランダムに初期化されて、ナビゲート装置100の方策ネットワークとして作用する。最後に、RLが適用されて、モデル全体をナビゲーションタスクのために訓練する。目標への最短経路の情報が我々の報酬関数に使用されて、ロボットが各時間ステップにおいて目標方向に移動するように促す。
【0095】
B.GNNベースの特徴集約
本技術の特徴集約タスクは、情報予測またはロボット協調タスクのための従前のGNNベースの特徴集約より困難である。具体的には、既存の技術では、各エージェントは、最も近い少数の近傍のタスクがローカル情報を考慮するだけによって達成できるので、それらからの情報を集約する必要があるだけである。エージェントごとに、予測性能を改善することに向けて非常に離れたエージェントによって与えられる情報は、典型的に非常に小さい。しかしながら、本技術の特徴集約タスクでは、限られた数のセンサだけが目標を直接「見る」ことができる。それでも、決定的に、これらのセンサからの目標についての情報がネットワーク全体に送信されるはずであり、そのため全てのセンサがそれら自体の位置から目標方向を予測することを可能にする。加えて、グローバルまたは相対姿勢情報が導入されないので、目標方向を予測するために、各センサは、画像特徴を集約することによってその近傍に対する相対姿勢を推定する能力を学習するはずである。更には、画像特徴を使用するだけによって(マップを知ることなく)目標方向に障害物のない経路を生成することも非常に困難である。
【0096】
本技術の特徴集約タスクを達成するために、各センサは、目標を直接見ることができるセンサからの効果的な情報を必要とする。典型的に、各エージェントの受容野を拡大する2つの主な戦略がある。第1のものは、グラフシフト演算を導入して、1ホップ近傍の間のKの通信交換を用いてKホップ近傍における情報の概要を収集し、更に特徴集約のために複数のグラフ畳み込み層を使用する。しかしながら、これは、大量の冗長情報を導入し、ローカル近傍構造に関する過学習を被る。第2の戦略は、各ホップに位置する近傍の情報を直接集約し、次いで様々なホップにわたって集約情報を混合する。この戦略は、冗長情報を除去し、離れた近傍から元の特徴を直接集約でき、本技術により適切である。各センサが通信システムにおいて固有IDを有することを前提とするだけによってマルチホップ情報を完全分散方式で(1ホップ近傍間のローカル通信だけを通して)得ることができることに留意されたい。以下の項では、離れた近傍から元の特徴を直接集約するGNNアーキテクチャが導入される。
【0097】
C.特徴集約のためのハイブリッドGNN
静的センサネットワーク
【0098】
【数16】
【0099】
を無向グラフ
【0100】
【数17】
【0101】
として記述でき、式中各ノード
【0102】
【数18】
【0103】
はセンサsiを意味し、各エッジ
【0104】
【数19】
【0105】
は2つのセンサsiおよびsj
【0106】
【数20】
【0107】
間の通信リンクを意味する。
【0108】
【数21】
【0109】
は隣接行列であり、
【0110】
【数22】
【0111】
【0112】
【数23】
【0113】
として定義される対角次数行列であり、式中
【0114】
【数24】
【0115】
である。次いで
【0116】
【数25】
【0117】
として定義される一連のグラフ畳み込み層(GCL)を積み重ねることによってグラフ畳み込みネットワーク(GCN)を定式化でき、式中
【0118】
【数26】
【0119】
は第lのGCLの出力特徴であり、次の層の入力でもある。
【0120】
【数27】
【0121】
は学習可能な重み行列であり、σ(・)は要素ごとの非線形活性化関数である。
【0122】
図4は、グラフニューラルネットワークモジュールの概要図である。図4に図示されるように、本技術のGNN内のサブモジュールとしてGCNが使用される。GCNは、各ホップに位置する近傍の情報を集約し、次いで様々なホップにわたって集約情報を混合して出力特徴を構成する。以下のハイブリッド構造が設計される:
1)最初に、kホップ近傍間の関係を直接表すために多ホップグラフ
【0123】
【数28】
【0124】
、k=1,...,Kが定義される。具体的には、
【0125】
【数29】
【0126】
が元のグラフである。
【0127】
【数30】
【0128】
、k>1では、各センサは、
【0129】
【数31】
【0130】
内のそのkホップ近傍と直接接続される。以下の式
【0131】
【数32】
【0132】
【0133】
【数33】
【0134】
の隣接行列として、および
【0135】
【数34】
【0136】
が次数行列として定義される。
2)次いで、ハイブリッド集約構造が次の通りに設計される:
(a)第1のGCLに対して、初期入力特徴行列が
【0137】
【数35】
【0138】
として定義され(簡略化のために、下付きのtはここでは除かれる)、第iの行がセンサsiの画像特徴ベクトルである。
(b)第l+1のGCLでは、多ホップグラフ内の情報を集約するためにKの並列GCNが使用される。
【0139】
【数36】
【0140】
上のGCNの出力は、
【0141】
【数37】
【0142】
であり、式中
【0143】
【数38】
【0144】
および
【0145】
【数39】
【0146】
である。次いで第l+1のGCLの出力特徴は、Kの並列GCNの出力の連結として定義される:
【0147】
【数40】
【0148】
(c)LのGCLが導入され、GNNベースの特徴集約モジュールの出力はH(L)であり、センサsiの特徴ベクトルは
【0149】
【数41】
【0150】
である。
【0151】
D.段階1:目標方向予測
各静的センサに対するMLPモジュールが使用されて目標物体方向を予測する。具体的には、MLPモジュールの入力は、GNNによって集約される特徴
【0152】
【数42】
【0153】
およびCNNによって抽出される元の特徴
【0154】
【数43】
【0155】
の連結である。出力は2次元ベクトル
【0156】
【数44】
【0157】
であり、正規化が
【0158】
【数45】
【0159】
で、目標への方向を指す。静的障害物を持つマップ上でany-angle A*ベースの経路計画方法Theta*(K. Danielら、「Theta*: Any-angle path planning on grids」、Journal of Artificial Intelligence Research、第39巻、533~579頁、2010)を使用することによって真値
【0160】
【数46】
【0161】
が得られる。
【0162】
図5は、第1段階の損失関数および第2段階の報酬関数を例示する。センサ102siが、目標物体106のように、図5に図示される。ナビゲート装置100(図中「ロボット」と称される)の初期および現在位置も図5に示される。各静的障害物104の周りの破線は、ナビゲート装置100のサイズを考慮するために静的障害物104が拡張されることを示すために使用される。損失関数に関して、点線500が最適A*経路を表す。矢印504がセンサ102からの真の目標方向を表す一方で、矢印502はセンサ102からの予測目標方向を表す。報酬関数に関して、点線506が最適A*経路を表しており、各インスタンスの初期化時に計算され、ナビゲート装置100の移動中に修正される。矢印508はナビゲート装置100の予想移動方向を表し、矢印510はナビゲート装置の真の移動方向を表す。ズームされたサブ図は、方向が単位円へ正規化されてX軸およびY軸上のそれらの成分を得、次いで対応する成分間の差が損失および報酬を計算するために評価されることを示す。
【0163】
図5に図示されるように、センサsiに対する損失が
【0164】
【数47】
【0165】
として定義され、最終的な損失関数は
【0166】
【数48】
【0167】
である。
【0168】
【数49】
【0169】
かつ
【0170】
【数50】
【0171】
であるので、
【0172】
【数51】
【0173】
を容易に得ることができ、式中
【0174】
【数52】
【0175】
は予測目標方向とその真のデータとの間の角度である。そのため、本技術の損失関数は、各センサの目標方向予測誤差を評価する。
【0176】
E.段階2:センサネットワーク誘導ロボットナビゲーション
段階1で訓練されたCNNおよびGNNモジュールが使用されてナビゲート装置100のモデルパラメータを初期化し、目標方向予測モジュールが別のランダムに初期化された行動方策モジュールと置換されてナビゲート装置100のネットワーク全体をエンドツーエンド方式で更に訓練する。具体的には、各時間tにおいて、センサネットワークにナビゲート装置100が追加され、ナビゲート装置の現在位置に基づいて隣接行列
【0177】
【数53】
【0178】
、k=1,...,Kが再生成される。図3に図示されるように、GNN集約特徴
【0179】
【数54】
【0180】
および元のCNN特徴
【0181】
【数55】
【0182】
が連結され、方策ネットワークが使用されてロボット行動atを生成する。RLが以下の報酬関数
【0183】
【数56】
【0184】
と共に使用される:
【0185】
【数57】
【0186】
式中qTargetは目標位置であり、at=[Δxt,Δyt]は実際のロボット行動であり、
【0187】
【数58】
【0188】
は予想されるそれであり、
【0189】
【数59】
【0190】
であり、
【0191】
【数60】
【0192】
は行動atを行った後のロボット位置であり、
【0193】
【数61】
【0194】
はロボットの次の位置と目標との間のユークリッド距離であり、δは既定の距離限界であり、R2>R1>R3>0である。ここで、Theta*も使用されて、訓練中に各ランの開始時にロボット初期位置から目標への最適経路を生成し、次いで各ステップtにおいて、
【0195】
【数62】
【0196】
は、最適経路上の次の転回点へ1単位距離移動するとして定義される(図5に図示されるように)。ロボットが最適経路を厳密にたどることが必要とされないので段階2には模倣学習戦略が導入されないことに留意されたい。最適経路情報は、ロボットが目標方向に移動するように促す各時間ステップにおける密な報酬を提供するために本技術の報酬関数に活用されるだけである。
【0197】
詳細なネットワークアーキテクチャ、RLアルゴリズム、訓練および試験パラメータ、ベースライン手法ならびに評価メトリックが、ここで紹介される。
【0198】
ネットワークアーキテクチャ。ネットワークは、図3に図示されるように、CNN-GNN-MLP構造に従う。CNN部に対して、視覚特徴を抽出するためにResNet構造が4つの残差ブロックとして使用される。ネットワーク入力はB×N×W×H×3の次元にあり、バッチサイズB=64およびセンサ数Nは種々のセンサレイアウトに基づいて10から16に設定される。全方位画像の次元は、W×H=84×336、3R/G/Bチャネルが考えられる。GNN部に対して、K=4が設定され、各分岐は128チャネルを有する、すなわち、Fl=512, l=0,…,L。ネットワークは、比較のために異なる層数Lで試験される。MLP部に対して、段階1では、3つのFC層が使用される。第1のものは256ユニットを有し、第2のものは64ユニットを有する。両層にはReLU(正規化線形ユニット)活性化関数が続き、最後の層は線形活性化関数を持つ2つのユニットを有する。段階2では、ロボット/ナビゲート装置は同じネットワーク構造を有するが、MLP部は再初期化される。
【0199】
RLアルゴリズム。RLのために近接方策最適化(PPO)が使用される。PPOは、J. Schulmanら、「Proximal policy optimization algorithms」、2017に記載されている。報酬を獲得した後に、PPOは、以下の損失を計算する:
【0200】
【数63】
【0201】
式中θは方策パラメータであり、
【0202】
【数64】
【0203】
は時間ステップにわたる経験的予想であり、γtはそれぞれ新旧方策下の確率の比率であり、
【0204】
【数65】
【0205】
は各時間ステップtにおける推定される利点であり、ハイパーパラメータε=0.2である。
【0206】
訓練および試験。段階1の間、18の迷路様の訓練マップが40×40のサイズで構築される。各マップに、30の異なるセンサレイアウトが生成され、すなわち合計で540の訓練レイアウトが使用される。各レイアウトでは、センサ数Nが9から13までランダムに設定される。最初のN-2のセンサに対して、互いを直接見ることができる任意の2つのセンサ間の最小距離は、10より大きいことが保証され、最後の2つのセンサの位置はランダムに生成される。通信距離はDS=15であり、各レイアウトの通信グラフが接続されることが保証され、マップ内の80%を超える範囲がセンサネットワークの通信距離によってカバーされることが保証される(すなわち、ロボットがこの範囲内に位置すれば、それは少なくとも1つのセンサと通信できる)。
【0207】
図6は、MLモデルを訓練するために使用されるマップおよびセンサレイアウト例を図示する。センサレイアウトに関する過学習を軽減し、段階2において移動ロボットをシミュレートするために、動的訓練と呼ばれる新規な訓練手順が適用される。具体的には、段階1の各訓練エポックでは、540のレイアウトのうちの第1の1つがランダムに選択され、次いでNaのセンサがランダムな位置で追加され、ここでNaは1~3からランダムに選ばれる。そのため、各訓練エポックにおいて使用される総センサ数は、10~16の範囲の乱数である。次いで、100の訓練構成が目標位置をランダムにして生成される。訓練エポックの最大数は20Kであり、すなわち、20Kの異なる訓練レイアウトが得られ、訓練構成の総数は2Mである。
【0208】
段階2に関しては、18の訓練マップの各々から1つのセンサレイアウトがランダムに選択されて、全体で18のセンサレイアウトを与える。各レイアウトに一定数のセンサN=9が保たれ、接続性および80%カバレッジが保証される。各エピソードでは、18のレイアウトのうちの1つが、目標位置をランダムに生成してランダムに選ばれ、次いでNaの動的センサが追加され、ここでNaも1~3からランダムに選ばれる。ロボットが限界δ=1内で目標物体に達する、またはエピソードにおける訓練ステップの数が512を超えれば、このエピソードは終了される。訓練エピソードの最大数は20Kである。式4における報酬パラメータは、R1=1、R2=10およびR3=0.1に設定される。両段階での初期学習率は3e-5である。その上、段階1での学習率は、最大エポックの4分の1ごとに10倍に予定される。
【0209】
段階1の推論段階では、類似の手法が使用されて3つの不可視マップをランダムに生成し、各々に対して、3つのセンサレイアウトがあり、センサ数Nは10または11に設定される。センサレイアウトごとに、ロボットおよび目標位置がランダムな(しかし固定された)100のケースがある、すなわち、900の異なる試験構成が準備される。段階2の推論段階では、センサレイアウト(9つのセンサ)が固定された9つの不可視マップがランダムに生成される。不可視マップごとに、目標およびロボット初期位置がランダムな100のケースが生成される。ロボットは、その初期位置から目標にナビゲートすることを必要とされる。ロボットが静的障害物によって連続的に阻止されるという失敗事例を解決するために、段階2の試験にヒューリスティック移動と呼ばれるヒューリスティック動作が導入される。具体的には、ロボットの次の行動が静的障害物との衝突に至る場合、最も近い静的障害物への直交方向に出力速度は無視され、接線方向に速度を出力するだけである。加えて、ロボットが4ステップ以上の間その現在位置にとどまったときにそれが衝突のない行動をランダムに選ぶという小さな確率が導入される。
【0210】
比較ネットワーク。本技術のフレームワークにおいて、GNNベースの特徴集約モジュールが決定的役割を有する。種々のGNNをアブレーション解析で評価するために、以下の9つの構造が比較される:
●GNN2、GNN3およびGNN4:L=2、3または4層の上のセクションCに提示されたハイブリッドGNN。
●GNN2スキップなし:2層だがCNN特徴のスキップ接続なしの、すなわちGNN集約特徴がMLPモジュールの入力として直接使用される、上のセクションCに提示されたハイブリッドGNN。
●DYNA-GNN2、DYNA-GNN3およびDYNA-GNN4:L=2、3または4層、および動的訓練が導入される、上のセクションCに提示されたハイブリッドGNN。
●DYNA-GAT2およびDYNA-GAT4:GCN層がハイブリッドGNNの低レベルにおいてグラフアテンションネットワーク(GAT)(P. Velickovicら、「Graph Attention Networks」、2018)と置き換えられ、ミックスホップ構造がL=2または4層のハイレベルに保持される。動的訓練が導入される
【0211】
加えて、本技術に段階1を導入する必要性を検証するために以下の手法が比較される:
●E2E-NAV:全てのセンサが取り除かれて、CNN-MLP構造が実装されており、ロボットの視覚入力および上のセクションEに提示された同じ報酬関数を使用することによって一から学習される。
●E2E-GNN-NAV:同じセンサ構成および同じCNN-GNN-MLP構造が使用されており、段階1の導入なしで一から学習される。加えて、モデルは、動的訓練の導入なしで訓練される。
●OURS:本技術のCNN-GNN-MLP構造が使用されており、動的訓練で訓練される。
●OURS-H:本技術のCNN-GNN-MLP構造が使用されており、動的訓練で訓練される。加えて、ヒューリスティック移動が試験に導入される。
【0212】
メトリック。以下のメトリックが考慮される:
●角度誤差:段階1での目標方向予測タスクのために、上のセクションDにおいて定義された角度誤差
【0213】
【数66】
【0214】
が性能メトリックとして計算される。
●成功率:段階2では、全ての試験に対して100の移動ステップのタイムアウトが設定され、この時間内で、ロボットが目標に達することができなければ、この試験は失敗事例として定義される。次いで、各マップ上の成功率が計数される。
●迂回率:
【0215】
【数67】
【0216】
式中
【0217】
【数68】
【0218】
は段階2でのロボットの実際の移動距離であり、
【0219】
【数69】
【0220】
は最適A*経路の長さである。
●移動ステップ:
【0221】
【数70】
【0222】
式中
【0223】
【数71】
【0224】
は段階2でのロボットの実際の移動ステップの数であり、
【0225】
【数72】
【0226】
は正規化係数として使用される。
迂回率および移動ステップは、成功事例を考慮するだけによって計算される。
【0227】
結果。このセクションでは、両段階に対する結果が提供される。
【0228】
目標方向予測。段階1に関しては、比較ネットワークセクションに上で定義された全てのGNN構造は、同じCNNおよびMLPモジュールで試験される。図7は、目標予測タスクの各不可視マップにおける全てのセンサの平均角度誤差を示す表である。図8は、目標予測タスクの各不可視マップにおけるロボットの平均角度誤差を示す表である。各表中、値は、各々において100のインスタンスの3つのレイアウトにわたる「平均(±標準偏差)」として一覧にされる。最低(最良)値が太字で強調される。種々のGNNの訓練損失が図9および図10に示される。具体的には、図9は、動的訓練の有無により訓練損失を比較するグラフであり、図10は、グラフアテンションネットワーク(GAT)の有無により訓練損失を比較するグラフである。
【0229】
段階1では、ロボットも、その目標予測能力を試験するために静的センサ(しかし位置がランダム)としてもみなされる。図7における表が全てのセンサの目標方向予測結果を示す一方で、図8における表はロボットの結果を示す。
【0230】
上の結果は、1)CNN特徴のスキップ接続を導入することが目標方向予測性能を大いに改善することを示す。考えられる理由は、GNNモジュールが、同じく目標予測タスクのために重要であるCNNモジュールからのローカル視覚特徴を通すことを追加的に学習する必要なく情報共有および集約に集中できるということである。2)動的訓練を導入することが、訓練中の収束速度を大いに速め、最終的な予測性能を改善する。3)より多くのGNN層を追加することが性能を大きく改善するわけではない(初期訓練段階での収束速度を僅かに減少さえさせる)。4)アテンション機構を追加することが性能を改善するわけではない。考えられる理由は、本技術のタスクでは、目標を直接見ることができるセンサの特徴に特徴集約プロセスにおいてより多くの注意が与えられるべきであるということである。しかしながら、何らの特定の事前訓練もなしでは、ネットワークがこの情報を学習することは非常に難しい。しかしながら、アテンション機構を追加することは、初期訓練段階での収束速度を僅かに改善する。5)DYNA-GNN3が大抵のケースで最良の性能を達成し、各マップでの平均目標予測誤差はおよそ10度であり、ロボットナビゲーションを誘導するには十分に正確である。以下のセクションでは、DYNA-GNN3がデフォルトGNN構造として使用される。
【0231】
ロボットナビゲーション。段階2に関しては、上の比較ネットワークセクションに定義された種々の方法が、それらの性能を評価するために試験される。図11は、ロボットナビゲーションの結果を示す表である。表中、値は、各々において100のインスタンスの3つのレイアウトにわたる「平均(±標準偏差)」として一覧にされる。最良値が太字で強調される。図12は、種々の手法によって第2段階で提供される訓練報酬を比較するグラフである。図11における表に示される最終ロボットナビゲーション性能は、以下のことを証明する:1)エンドツーエンド方法と比較して、本技術の手法に目標予測段階を導入することが、未知環境における大きく改善されたロボットナビゲーション性能に寄与する。加えて、上に提示されたヒューリスティック移動を導入することが更に成功率を90%に改善する。本技術の方法が一人称視点視覚画像を入力するだけであり、目標、障害物またはセンサの全地球測位情報は導入されないことに留意されたい。得られた結果は、複雑な環境における大規模応用のために非常に有望である。2)E2E-NAVに関して、ロボットは、それが目標を直接見ることができなければ、いかなる目標情報を得る機会も有せず、成功率も迂回率も本技術の方法より悪い。3)E2E-NAVおよびE2E-GNN-NAVを比較すると、センサ情報およびGNNベースの特徴集約を導入することは、性能を改善するわけではなく、それを一層悪くさえすることが分かる。理由は、明確なメッセージ(特定の報酬関数など)なしでは、ロボットが、センサによって共有される情報の使用の仕方、およびそれ自体の観測を共有特徴と調和させることによる決定の仕方を学習できないということである。
【0232】
図13は、ロボット制御方策を解釈するための可視化である。ここで、ロボットの最終行動に最も寄与するロボット自体の入力画像およびセンサの画像の部分が可視化される。具体的には、ロボットの方策ネットワークの最終出力上の入力視覚特徴の勾配が計算され、入力画像内の各画素の熱値がプロットされる。左図は、静的障害物、センサ、ロボットおよび目標物体を図示する。全方位入力画像の座標が左上に示される。中および右図は可視化結果を示しており、左欄が元の入力画像を示し、右欄が元の入力画像内の各対応する画素の熱値を示す。各入力画像にプロットされる矢印は、ロボット/センサ位置から目標への最適A*経路の真方向を指す。熱図上の深い赤の範囲がロボットの選ばれる行動に最も寄与する一方で、深い青の範囲は最も寄与しない。
【0233】
図13は、可視化結果の一例を示しており、以下のことを証明する:1)各熱図における最大熱値の範囲が最適A*経路の真方向と一致する。これは、本技術のネットワークが、効果的な目標特徴の抽出の仕方(目標を直接見ることができる場合)または共有情報を効果的に集約することによる目標方向の予測の仕方(目標を直接見ることができない場合)を学習したことを検証する。ロボットは、この場合、目標を直接見ることができないが、本技術のネットワークが真の目標方向の学習に成功したことに留意されたい。2)見えない範囲への経路に対応する方向も強調されており、これは、本技術のネットワークが、目標確率が高い範囲により多くの注意を与える効果的な「探索」方策を学習したことを検証する。3)ロボットナビゲーションタスクのための上のキー情報を除いて、他の冗長情報は無視され(低熱値で)、これにより本技術のネットワークの情報共有および情報集約能力の有効性を証明する。
【0234】
図14は、ロボットがセンサネットワークと通信することができないケースを例示する。ここで、我々の手法の初期ロボットナビゲーション段階での通信切断に関する2つの典型的なケースが可視化される。各ケースで、星がナビゲート装置/ロボットの初期位置を示す一方で、四角は目標物体の位置を表す。円の列1400は、真のロボット経路を示す。陰影範囲は、センサネットワークの通信距離を示す。
【0235】
この結果は、いかなる目標情報およびネットワーク情報の非存在下でも、ロボットがいかなる迂回もなくマップの中央に向けて移動することを示しており、これは、本技術のネットワークが、目標を見て、センサネットワークと接続する確率が高い方向により多くの注意を与える効果的な「探索」方策を学習したことを示す。最後に、ロボットがセンサネットワークの通信距離に入ると、それは、センサネットワークからの共有情報の助けにより目標に直接移動することによって前進する。
【0236】
図15Aは、ナビゲート装置100および共に通信的に結合される複数の静的センサ102を備えるセンサネットワーク(すなわちセンサネットワークの通信トポロジが接続される)を備えるナビゲーションシステムのためのMLモデルを訓練するステップ例のフローチャートである。訓練は、実世界環境をシミュレートするシミュレータで行われてよい。
【0237】
本方法は、複数の静的センサ102によって捕捉されるデータを使用して、目標物体106への最短経路に対応する方向を予測するようにMLモデルの第1のサブモデルのニューラルネットワークモジュール(例えばエンコーダ)を訓練するステップであって、目標物体106が少なくとも1つの静的センサ102によって検出可能である、ステップ(ステップS100)を含む。最短経路が最短の障害物のない経路であることが理解されるであろう。すなわち、最短経路は、おそらく環境におけるいかなる静的障害物も避けてナビゲートすることを伴うであろう。
【0238】
本方法は、センサネットワークによって共有される情報を使用して、ナビゲート装置100を目標物体106に誘導するようにMLモデルの第2のサブモデルのニューラルネットワークモジュールを訓練するステップ(ステップS102)を含む。
【0239】
実世界における訓練は、一般に十分な訓練データを得ることの難しさのためおよびサンプル非効率な学習アルゴリズムのために実行不可能である。そのため、本明細書に記載される訓練は、ノンフォトリアリスティックシミュレータで行われてもよい。ただし、フォトリアリスティックシミュレーションは、実現するのが困難かつ高価である。結果として、ノンフォトリアリスティックシミュレータで訓練されるモデルは、訓練されたモデルが実世界に配備されるときに正しくまたはそれほど正確に機能しないことがある。そのため、本技術は、実世界に配備されるべき実ナビゲート装置に直接シミュレーションで訓練された方策の転移を容易にする技術も提供する。有利には、これは、ナビゲーションシステムが実世界に配備されるときにモデル全体が再訓練される必要がなく、実世界使用のためにシステムを準備する時間を高速化できることを意味する。図15Bは、転移モジュールを訓練するステップ例のフローチャートである。本方法は、実世界にシミュレーションで訓練される方策の転移を容易にする。上述の問題を解決する1つの仕方は、実世界画像を、シミュレーションで生成されたように見える画像へ変換し、次いでそれらの画像に方策を実行することである。本技術は、異なる手法をとり、シミュレーションのみのパイプラインを追加の教師あり学習ステップで拡張する。本技術は、シミュレーションからの画像対および実世界からの対応する画像を収集する。シミュレート画像上でシミュレーションで訓練された第1の画像エンコーダが特徴ベクトルを得るために実行される。第2の画像エンコーダが、シミュレーションで生成された特徴ベクトルを複製するように実世界画像上で訓練される。最後に、この特徴ベクトルは、シミュレート画像の特徴と区別できず、シミュレーションで訓練された方策に提供される。
【0240】
本方法は、シミュレータにシミュレート環境を作成し、実世界に同じシミュレート環境を再現するステップ(ステップS200)を含む。シミュレート環境および実世界環境において静的センサが同じ位置に置かれる(ステップS202)。ナビゲート装置は、次いで同じように各環境を移動させられ(ステップS204)、ナビゲート装置が環境を移動するにつれて各センサからデータ対が収集される(ステップS206)。静的センサが画像センサであると、データ対は画像の対であってもよい。データ対は、転移モジュール(例えば第2の画像エンコーダ)を訓練するために使用されてもよいデータセットを形成する。データ対は、次いで図15Cに図示されるように転移モジュールを訓練する(ステップS208)ために使用される。訓練は、シミュレーションで(例えば、図15Aを参照しつつ上記したように)訓練されたMLモデルの第1のサブモデルのニューラルネットワークモジュール(例えば第1の画像エンコーダ)によって生成される潜在エンコード(例えば特徴ベクトル)に実世界センサデータをマッピングするように転移モジュールを訓練することを含む。このようにして、強化学習を使用して完全にシミュレーションでMLモデルの第1のサブモデルを訓練すること、および教師あり学習を使用して独立した「実対シム」転移モジュールを訓練することが可能である。
【0241】
ナビゲート装置が実世界に配備されることになると、シミュレーションで訓練された第1のサブモデルの1つまたは複数のニューラルネットワークモジュールが、実世界画像で訓練された転移モジュールの1つまたは複数のニューラルネットワークと置換されてもよい。
【0242】
図15Cは、図15Bの訓練ステップを例示する概要図である。図15Cに図示されるように、エンコーダは、シミュレート画像を使用して訓練されるだけでもよいが、それは、実世界画像上では十分に機能しないことがある。そのため、第1のエンコーダがデータ対のシミュレート画像上でシミュレート環境で訓練されてもよく、第2のエンコーダがデータ対の実世界画像上で訓練されてもよい。第2のエンコーダは、第1のエンコーダによって生成される特徴ベクトルを複製するように訓練されてもよい。訓練は、損失を最小化するために教師あり訓練であってもよい。このようにして、シミュレート環境からの学習が第2のエンコーダに転移される。第2のエンコーダは、次いで実世界に配備されてもよい。
【0243】
図16は、ナビゲーションシステム1600のブロック図である。ナビゲーションシステム1600は、複数の静的センサ102を備えるセンサネットワークを備える。静的センサ102の厳密な数は、例えばナビゲーションシステムによって探索されるべき環境のサイズおよび各センサの通信距離に応じて変動してもよい。図16において、5つの静的センサ102が図示されるが、これが単に例示的で非限定的であることが理解されるであろう。より一般に、ナビゲーションシステム1600は、任意の数の静的センサを有してもよい。
【0244】
ナビゲーションシステム1600は、目標物体106を備える。
【0245】
ナビゲーションシステム1600は、ナビゲート装置100を備える。ナビゲート装置100は、制御されたもしくは自律ナビゲートロボットでよく、または人間によって保持され、人間によって使用されて目標物体に向けて移動し得るナビゲート装置であってもよい。
【0246】
各静的センサ102は、メモリ102bに結合されるプロセッサ102aを備える。プロセッサ102aは、マイクロプロセッサ、マイクロコントローラおよび集積回路の1つまたは複数を備えてもよい。メモリ102bは、例えば、一時メモリとして使用するための、ランダムアクセスメモリ(RAM)などの、揮発性メモリ、および/または、データ、プログラムもしくは命令を記憶するための、フラッシュ、リードオンリメモリ(ROM)もしくは電気的消去可能プログラマブルROM(EEPROM)などの不揮発性メモリを含んでもよい。各静的センサ102は、MLモデルの訓練された第1のサブモデル1602を備える。各静的センサ102は、訓練された第1のサブモデル1602をストレージまたはメモリに記憶してもよい。
【0247】
センサネットワーク内の複数の静的センサ102は、共に通信的に結合される。これは、センサ102間の破線矢印によって図16に示される。各センサ102が他のあらゆるセンサと直接または間接的に通信することができることが分かる。間接通信は、センサが1つまたは複数の他のセンサを介してメッセージを送信することによってセンサネットワーク内の別のセンサと通信することができることを意味する。各静的センサ102は、それ自体の観測だけを使用して静的センサ102から目標物体106への方向を予測することはできない。したがって、好ましくは、センサネットワーク内の複数の静的センサ102の通信トポロジが接続される。
【0248】
各静的センサ102は、静的センサによって捕捉されるデータをセンサネットワーク内のその他の静的センサに送信することができる。これは、各静的センサがそれ自体によって捕捉される情報と他の静的センサによって捕捉される情報を組み合わせて予測をすることができるので、各静的センサが静的センサから目標物体への方向を予測することを可能にする。一部の場合には、静的センサ102によってセンサネットワーク内の他のセンサに送信されるデータは、静的センサによって捕捉される生センサデータである。好ましくは、特にセンサによって捕捉されるデータが送信するのに効率的でなくなり得る大きなファイルサイズを有し得る視覚センサの場合には、静的センサによって送信されるデータは、処理されたデータであってもよい。例えば、視覚センサの場合には、センサによって捕捉される画像から特徴が抽出されてよく、抽出特徴は、他のセンサに送信される。これは、効率を上げ、冗長情報(すなわち予測をするために使用されないであろう情報)が送信されることを回避する。
【0249】
センサネットワークの静的センサ102は、任意の適切な種類のセンサであってもよい。好ましくは、静的センサは、全て同じ種類であり、その結果各センサは、その他のセンサから得られるデータを理解および使用できる。例えば、静的センサは、音声または音波ベースのセンサであってもよい。別の例では、静的センサは、視覚センサであってもよい。更に別の例では、静的センサは、臭気を検出することが可能な匂いまたは嗅覚センサ(「電子鼻」としても知られている)であってもよい。目標物体106が静的センサ102の少なくとも1つによってその感知能力を使用して検出可能である限り、任意の種類の静的センサが使用されてもよい。
【0250】
複数の静的センサ102は、画像データを捕捉する視覚センサであってもよい。この場合、目標物体106は、少なくとも1つの静的センサ102の見通し線上にある。
【0251】
プロセッサ102aは、機械学習(ML)モデルの訓練された第1のサブモデル1602を使用して、目標物体106への最短経路に対応する方向を予測し、目標物体106が少なくとも1つの静的センサ102によって検出可能である、ように配置される。
【0252】
ナビゲート装置が目標物体106に向けて移動する間、ナビゲート装置100は、少なくとも1つの静的センサ102に通信的に結合される。換言すれば、ナビゲート装置は、センサネットワークと通信することができる。図16において、ナビゲート装置100は、少なくともナビゲート装置に近いセンサと通信することができてもよい。ナビゲート装置は、少なくとも1つの静的センサ(例えばナビゲート装置と通信距離内にある/によって検出可能である静的センサ)から情報を得てもよい。情報は、その静的センサから目標物体への予測方向を備えてもよい。好ましくは、静的センサ102から送られる情報は予測目標方向を含まなくてよく-代わりに、ナビゲート装置100は、静的センサから受信される情報を使用してその位置から目標物体への方向をそれ自体推定してもよい。いずれにせよ、これは、ナビゲート装置100がそれがどの方向に移動する必要があるかを判定することを可能にする。このようにして、ナビゲート装置100は、各静的センサから受信される情報によって目標物体106に向けて誘導される。
【0253】
ナビゲート装置100は、メモリ100bに結合されるプロセッサ100aを備える。プロセッサ100aは、マイクロプロセッサ、マイクロコントローラおよび集積回路の1つまたは複数を備えてもよい。メモリ100bは、例えば、一時メモリとして使用するための、ランダムアクセスメモリ(RAM)などの、揮発性メモリ、および/または、データ、プログラムもしくは命令を記憶するための、フラッシュ、リードオンリメモリ(ROM)もしくは電気的消去可能プログラマブルROM(EEPROM)などの不揮発性メモリを含んでもよい。ナビゲート装置100は、MLモデルの訓練された第2のサブモデル1604を備える。ナビゲート装置100は、訓練された第2のサブモデル1604をストレージまたはメモリに記憶してもよい。
【0254】
ナビゲート装置100のプロセッサ100aは、機械学習(ML)モデルの訓練された第2のサブモデル1604を使用して、センサネットワークによって共有される情報を使用してナビゲート装置100を目標物体106に誘導するように配置される。
【0255】
有利には、上記したように、本技術は、一人称視点データが低コストのセンサネットワークによって共有される未知環境におけるRLベースのナビゲーション手法を提供する。学習アーキテクチャは、目標方向予測段階および視覚ナビゲーション段階を含む。この結果は、10度の平均目標方向予測精度を第1段階において得ることができ、90%の平均成功率を第2段階において15%経路迂回だけで達成できることを示し、ベースライン手法より一層良好であると証明された。加えて、制御方策解釈結果は、我々の方法におけるGNNベースの情報共有および集約の有効性および効率を検証する。最後に、カバーされていない範囲の存在下のロボットナビゲーション結果は、一時的な通信切断に対する本技術の方法の堅牢性を証明する。
【0256】
以上が最良の形態および適切であれば本技術を行う他の形態であると考えられることを記載したのに対して、本技術が、本好適な実施形態の説明に開示される具体的な構成および方法に限定されるべきでないことを当業者は認識するであろう。本技術が広範囲の応用例を有すること、および実施形態が、添付の特許請求の範囲に定められるいかなる発明概念からも逸脱することなく広範囲の変更をとり得ることを当業者は認めるであろう。
【符号の説明】
【0257】
100 ナビゲート装置
100a プロセッサ
100b メモリ
102 静的センサ
102a プロセッサ
102b メモリ
104 静的障害物
106 目標物体
108 最適経路
110 通信リンク
112 通信リンク
114 ナビゲーション命令
500 最適A*経路
502 予測目標方向
504 真の目標方向
506 最適A*経路
508 予想移動方向
510 真の移動方向
1400 真のロボット経路
1600 ナビゲーションシステム
1602 訓練された第1のサブモデル
1604 訓練された第2のサブモデル
図1(A)】
図1(B)】
図1(C)】
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15A
図15B
図15C
図16
【国際調査報告】