IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ ユーエスエー エルエルシーの特許一覧

特開2022-23794自然言語に基づく屋内自律ナビゲーション
<>
  • 特開-自然言語に基づく屋内自律ナビゲーション 図1
  • 特開-自然言語に基づく屋内自律ナビゲーション 図2A
  • 特開-自然言語に基づく屋内自律ナビゲーション 図2B
  • 特開-自然言語に基づく屋内自律ナビゲーション 図3
  • 特開-自然言語に基づく屋内自律ナビゲーション 図4
  • 特開-自然言語に基づく屋内自律ナビゲーション 図5
  • 特開-自然言語に基づく屋内自律ナビゲーション 図6
  • 特開-自然言語に基づく屋内自律ナビゲーション 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022023794
(43)【公開日】2022-02-08
(54)【発明の名称】自然言語に基づく屋内自律ナビゲーション
(51)【国際特許分類】
   G05D 1/02 20200101AFI20220201BHJP
   G08G 1/00 20060101ALI20220201BHJP
   G01C 21/36 20060101ALI20220201BHJP
【FI】
G05D1/02 H
G08G1/00 X
G01C21/36
【審査請求】有
【請求項の数】21
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2021106992
(22)【出願日】2021-06-28
(31)【優先権主張番号】17/131,359
(32)【優先日】2020-12-22
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】516353375
【氏名又は名称】バイドゥ ユーエスエー エルエルシー
【氏名又は名称原語表記】Baidu USA LLC
【住所又は居所原語表記】1195 Bordeaux Dr., Sunnyvale, CA 94089, U.S.A.
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【弁理士】
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】ハオ、 ジンシン
(72)【発明者】
【氏名】ツァン、 リャンジュン
(57)【要約】      (修正有)
【課題】自然言語命令に従うロボット行動ナビゲーションの拡張可能な解決手段を提供する。
【解決手段】事前訓練されたシーケンス予測モデルによってタスク環境のナビゲーショングラフ、自然言語命令及びロボットのナビゲーショングラフ内での初期位置を受信するステップであって、ナビゲーショングラフはタスク環境における位置を示すノード、ノードの座標及び位置の間の接続性を示す辺を含むステップと、事前訓練されたシーケンス予測モデルによって、ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、ロボットを初期位置から目的地にナビゲーションするステップとを含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
タスク環境におけるロボットナビゲーション方法であって、
事前訓練されたシーケンス予測モデルによって前記タスク環境のナビゲーショングラフ、自然言語命令及び前記ロボットの前記ナビゲーショングラフ内での初期位置を受信するステップであって、前記ナビゲーショングラフは前記タスク環境における位置を示すノード、前記ノードの座標及び前記位置の間の接続性を示す辺を含むステップと、
前記事前訓練されたシーケンス予測モデルによって、前記ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、前記ロボットを前記初期位置から目的地にナビゲーションするステップとを含む、方法。
【請求項2】
前記順次予測は、
前記予測中の各単一ステップについて、
前記単一ステップに対応する現在の予測プロセスに前記ナビゲーショングラフを適応させることによって、適応コンテキストを生成するステップと、
少なくとも生成した適応コンテキストと前記自然言語命令に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップとを含む、請求項1に記載の方法。
【請求項3】
前記予測中の各単一ステップについて、前記適応コンテキストを生成するステップは、
前記ナビゲーショングラフにおいて、前記単一ステップに対応する現在ノードと前記現在ノードの前のノード以外の隣接ノードとの間の有効ノード遷移を探索するステップと、
前記現在ノードの座標、前記現在ノードの前のノードの座標、及び前記現在ノードの前のノード以外の前記隣接ノードの座標に基づいて、有効ノード遷移の行動を予測するステップと、
前記隣接ノードを新たな現在ノードとして、前記新たな現在ノードであるノードと前記現在の単一ステップの現在ノードとの間の距離が予め設定された値以下となるまで探索と予測のステップを繰り返すステップと、
探索した有効ノード遷移及び予測した有効ノード遷移の行動を全てグラフィックスフォーマットに変換して、前記各単一ステップ用の前記適応コンテキストを生成するステップとを含む、請求項2に記載の方法。
【請求項4】
前記有効ノード遷移の行動は、離れること、右折して移動すること、左折して移動すること、及び前に移動することからなる行動セットに従って予測される、請求項3に記載の方法。
【請求項5】
前記現在ノードの座標、前記現在ノードの前のノードの座標、及び前記前のノード以外の前記隣接ノードの座標に基づいて、前記有効ノード遷移の行動を予測するステップは、
前記現在ノードの座標から前記前のノードの座標を減算することによって、前記ロボットの前記現在ノードでの進行方向を決定するステップと、
前記隣接ノードの座標から前記現在ノードの座標を減算することによって、前記ロボットの前記隣接ノードでの進行方向を決定するステップと、
前記ロボットの前記現在ノードでの進行方向と前記ロボットの前記隣接ノードでの進行方向との外積を計算するステップと、
計算した外積に基づいて、前記有効ノード遷移の前記単一ステップ行動を予測するステップとを含む、請求項3に記載の方法。
【請求項6】
少なくとも生成した適応コンテキストと前記自然言語命令に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップは、
生成した適応コンテキスト、前記自然言語命令、及びゲート付き回帰型ユニットによって更新された現在の隠れ状態に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップであって、前記ゲート付き回帰型ユニットは前の単一ステップの前の単一ステップ行動を入力として、かつ更新して前記現在の隠れ状態を取得するステップを含む、請求項2に記載の方法。
【請求項7】
前記タスク環境のトポロジーマップを作成するステップであって、前記タスク環境における位置は前記トポロジーマップのノードであり、前記位置の間の接続性は前記トポロジーマップの辺であるステップと、
作成したトポロジーマップを前記タスク環境の前記ナビゲーショングラフとして決定するステップとをさらに含む、請求項1に記載の方法。
【請求項8】
電子装置であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに操作を実行させる実行可能な命令が記憶されているメモリとを含み、前記操作は、
事前訓練されたシーケンス予測モデルによって前記タスク環境のナビゲーショングラフ、自然言語命令及び前記ロボットの前記ナビゲーショングラフ内での初期位置を受信することであって、前記ナビゲーショングラフは前記タスク環境における位置を示すノード、前記ノードの座標及び前記位置の間の接続性を示す辺を含むことと、
前記事前訓練されたシーケンス予測モデルによって、前記ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、前記ロボットを前記初期位置から目的地にナビゲーションすることとを含む、電子装置。
【請求項9】
前記順次予測は、
前記予測中の各単一ステップについて、
前記単一ステップに対応する現在の予測プロセスに前記ナビゲーショングラフを適応させることによって、適応コンテキストを生成するステップと、
少なくとも生成した適応コンテキストと前記自然言語命令に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップとを含む、請求項8に記載の装置。
【請求項10】
前記予測中の各単一ステップについて、前記適応コンテキストを生成するステップは、
前記ナビゲーショングラフにおいて、前記単一ステップに対応する現在ノードと前記現在ノードの前のノード以外の隣接ノードとの間の有効ノード遷移を探索するステップと、
前記現在ノードの座標、前記現在ノードの前のノードの座標及び前記現在ノードの前のノード以外の前記隣接ノードの座標に基づいて、有効ノード遷移の行動を予測するステップと、
前記隣接ノードを新たな現在ノードとして、前記新たな現在ノードであるノードと前記現在の単一ステップの前記現在ノードとの間の距離が予め設定された値以下となるまで探索と予測のステップを繰り返するステップと、
探索した有効ノード遷移及び予測した有効ノード遷移の行動を全てグラフィックスフォーマットに変換して、前記各単一ステップ用の前記適応コンテキストを生成するステップとを含む、請求項9に記載の装置。
【請求項11】
前記有効ノード遷移の行動は、離れること、右折して移動すること、左折して移動すること、及び前に移動することからなる行動セットに従って予測される、請求項10に記載の装置。
【請求項12】
前記現在ノードの座標、前記現在ノードの前のノードの座標、及び前記前のノード以外の前記隣接ノードの座標に基づいて、前記有効ノード遷移の行動を予測するステップは、
前記現在ノードの座標から前記前のノードの座標を減算することによって、前記ロボットの前記現在ノードでの進行方向を決定するステップと、
前記隣接ノードの座標から前記現在ノードの座標を減算することによって、前記ロボットの前記隣接ノードでの進行方向を決定するステップと、
前記ロボットの前記現在ノードでの進行方向と前記ロボットの前記隣接ノードでの進行方向との外積を計算するステップと、
計算した外積に基づいて、前記有効ノード遷移の前記単一ステップ行動を予測するステップとを含む、請求項10に記載の装置。
【請求項13】
少なくとも生成した適応コンテキストと前記自然言語命令に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップは、
生成した適応コンテキスト、前記自然言語命令及びゲート付き回帰型ユニットによって更新された現在の隠れ状態に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップであって、前記ゲート付き回帰型ユニットは、前の単一ステップの前の単一ステップ行動を入力として、かつ更新して前記現在の隠れ状態を取得するステップを含む、請求項9に記載の装置。
【請求項14】
前記操作は、
前記タスク環境のトポロジーマップを作成することであって、前記タスク環境における位置は前記トポロジーマップのノードであり、前記位置の間の接続性は前記トポロジーマップの辺であることと、
作成したトポロジーマップを前記タスク環境の前記ナビゲーショングラフとして決定することとをさらに含む、請求項8に記載の装置。
【請求項15】
一時的なコンピュータ読み取り可能な記憶媒体であって、
プロセッサに操作を実行させる実行可能なコンピュータプログラムが記憶されており、前記操作は、
事前訓練されたシーケンス予測モデルによって前記タスク環境のナビゲーショングラフ、自然言語命令及び前記ロボットの前記ナビゲーショングラフ内での初期位置を受信することであって、前記ナビゲーショングラフは前記タスク環境における位置を示すノード、前記ノードの座標及び前記位置の間の接続性を示す辺を含むことと、
前記事前訓練されたシーケンス予測モデルによって、前記ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、前記ロボットを前記初期位置から目的地にナビゲーションすることとを含む、一時的なコンピュータ読み取り可能な記憶媒体。
【請求項16】
前記順次予測は、
前記予測中の各単一ステップについて、
前記単一ステップに対応する現在の予測プロセスに前記ナビゲーショングラフを適応させることによって、適応コンテキストを生成するステップと、
少なくとも生成した適応コンテキストと前記自然言語命令に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップとを含む、請求項15に記載の媒体。
【請求項17】
前記予測中の各単一ステップについて、前記適応コンテキストを生成するステップは、
前記ナビゲーショングラフにおいて、前記単一ステップに対応する現在ノードと前記現在ノードの前のノード以外の隣接ノードとの間の有効ノード遷移を探索するステップと、
前記現在ノードの座標、前記現在ノードの前のノードの座標、及び前記現在ノードの前のノード以外の前記隣接ノードの座標に基づいて、有効ノード遷移の行動を予測するステップと、
前記隣接ノードを新たな現在ノードとして、前記新たな現在ノードであるノードと前記現在の単一ステップの前記現在ノードとの間の距離が予め設定された値以下となるまで探索と予測のステップを繰り返すステップと、
探索した有効ノード遷移及び予測した有効ノード遷移の行動を全てグラフィックスフォーマットに変換して、前記各単一ステップ用の前記適応コンテキストを生成するステップとを含む、請求項16に記載の媒体。
【請求項18】
前記有効ノード遷移の行動は、離れること、右折して移動すること、左折して移動すること、及び前に移動することからなる行動セットに従って予測される、請求項17に記載の媒体。
【請求項19】
前記現在ノードの座標、前記現在ノードの前のノードの座標、及び前記前のノード以外の前記隣接ノードの座標に基づいて、前記有効ノード遷移の行動を予測するステップは、
前記現在ノードの座標から前記前のノードの座標を減算することによって、前記ロボットの前記現在ノードでの進行方向を決定するステップと、
前記隣接ノードの座標から前記現在ノードの座標を減算することによって、前記ロボットの前記隣接ノードでの進行方向を決定するステップと、
前記ロボットの前記現在ノードでの進行方向と前記ロボットの前記隣接ノードでの進行方向との外積を計算するステップと、
計算した外積に基づいて、前記有効ノード遷移の前記単一ステップ行動を予測するステップとを含む、請求項17に記載の媒体。
【請求項20】
少なくとも生成した適応コンテキストと前記自然言語命令に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップは、
生成した適応コンテキスト、前記自然言語命令及びゲート付き回帰型ユニットによって更新された現在の隠れ状態に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップであって、前記ゲート付き回帰型ユニットは、前の単一ステップの前の単一ステップ行動を入力として、かつ更新して前記現在の隠れ状態を取得するステップを含む、請求項16に記載の媒体。
【請求項21】
コンピュータプログラムであって、
プロセッサにより実行されると、請求項1~7の何れか一項に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータの技術分野に関し、特に屋内自律ナビゲーションに関し、より具体的には、タスク環境におけるロボットナビゲーション方法に関する。
【背景技術】
【0002】
現在、ほとんどの移動ロボットに使用されている自律ナビゲーションシステムは走査により予め作成されているタスク環境の細粒度地図に依存する。ナビゲーション中、ロボットは、座標を受信したことに応答して、探索アルゴリズムを通じてグローバル経路を探索し、次に、局所観測値に基づいてグローバル経路を最適化して最終的な計画経路を取得する。しかしながら、新環境にある場合、目的地の座標が未知であったり、細粒度の地図が利用不能であったりする可能性があるため、従来の移動ロボットは直ちに自律ナビゲーションを実行することができない。
【発明の概要】
【0003】
本開示の実施形態は、タスク環境におけるロボットナビゲーション方法、機器、及び非一時的な媒体を提供する。
【0004】
第1の態様では、本開示のいくつかの実施形態は、タスク環境におけるロボットナビゲーション方法を提供する。該方法は、事前訓練されたシーケンス予測モデルによってタスク環境のナビゲーショングラフ、自然言語命令及びロボットのナビゲーショングラフ内での初期位置を受信するステップであって、ナビゲーショングラフはタスク環境における位置を示すノード、ノードの座標及び位置の間の接続性を示す辺を含むステップと、事前訓練されたシーケンス予測モデルによって、ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、ロボットを初期位置から目的地にナビゲーションするステップとを含む。
【0005】
第2の態様では、本開示のいくつかの実施形態は電子装置を提供し、該電子装置は、少なくとも1つのプロセッサとメモリとを含み、該メモリには、第1の態様に係る実施形態のいずれかのタスク環境におけるロボットナビゲーション方法を少なくとも1つのプロセッサに実行させる実行可能な命令が記憶されている。
【0006】
第3の態様では、本開示のいくつかの実施形態は、コンピュータプログラムを記憶する一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータプログラムは、実行されて、第1の態様の実施形態のいずれかのタスク環境におけるロボットナビゲーション方法をプロセッサに実行させ得る。
【0007】
第4の態様では、本開示の幾つかの実施形態は、コンピュータプログラムであって、プロセッサにより実行されると、第1の態様の実施形態の何れか一項に記載の方法を実現するコンピュータプログラムを提供する。
【図面の簡単な説明】
【0008】
以下の図面を参照して非限定的な実施形態の詳細な説明を閲覧することにより、本開示の他の特徴、目的及び利点はより明らかになる。
図1】本開示の実施形態に係るタスク環境におけるロボットナビゲーション方法のフローチャートである。
図2A】実施形態に係る例示的なタスク環境の模式図である。
図2B図2Aに示すタスク環境の例示的なナビゲーショングラフの模式図である。
図3】本開示の実施形態に係る一連の単一ステップ行動を予測するための方法の模式図である。
図4】3ステップ動作伝播の模式図である。
図5】本開示の実施形態に係るナビゲーションエージェントの模式図である。
図6】本開示の実施形態に係る一連の単一ステップ行動を予測するための機器の模式的な構造図である。
図7】本開示の実施形態に係る電子装置のブロック図である。
【発明を実施するための形態】
【0009】
以下、図面を参照して本開示の実施形態を詳細に説明する。理解すべきものとして、本明細書で説明される特定実施形態は関連する開示内容を解釈するために過ぎず、限定的な内容ではない。また、なお、説明の便宜上、図面には関連開示に関する部材だけが示されている。
【0010】
さらに、なお、本開示におけるいくつかの実施形態及び本開示のいくつかの特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面を参照して実施形態と組み合わせて、本開示の特徴を詳細に説明する。
【0011】
図1は本開示の実施形態に係るタスク環境におけるロボットナビゲーション方法のフローチャートである。本開示の実施形態において開示された方法は、タスク環境におけるロボットナビゲーション機器によって実行されてもよく、該機器は、ソフトウェア及び/又はハードウェアで実現されてもよく、そして、計算能力を有する任意の電子装置(例えばサーバ又は端末)に集積されてもよい。
【0012】
図1に示すように、本開示の実施形態において開示されたタスク環境におけるロボットナビゲーション方法は、ステップS101及びステップS102を含んでもよい。ステップS101では、事前訓練されたシーケンス予測モデルによってタスク環境のナビゲーショングラフ、自然言語命令及びロボットのナビゲーショングラフ内での初期位置を受信し、ステップS102では、事前訓練されたシーケンス予測モデルによって、ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、ロボットを初期位置から目的地にナビゲーションする。以下、この2つのステップを参照して詳細に説明する。
【0013】
ステップS101:
ロボットは環境に配置され、環境にわたってナビゲーションされる。ロボットがナビゲーションされる環境はタスク環境と呼ばれる。タスク環境は、GPS測位が不可能な環境、屋内空間などとしてもよい。例示的なタスク環境は図2Aに示される。
【0014】
ロボットは、廊下に沿って走行する場合、正確なセマンティクスを有する空間に沿って移動することを知るだけでよく、該空間は何らかの幾何学的仕様(例えば経路の幅や曲率)を有する必要がない。したがって、タスク環境全体におけるロボットのナビゲーションは、タスク環境をトポロジーマップとして示すことにより実現され得る。トポロジーマップにおけるノードは、セマンティクス的に意味がある位置(例えば部屋や廊下)を示し、辺は接続性を示してもよい。トポロジー地図はタスク環境全体でロボットをナビゲーションするナビゲーショングラフとして利用可能である。図2Aのタスク環境に対応する例示的なナビゲーショングラフは図2Bに示される。
【0015】
いくつかの実施形態では、ナビゲーショングラフが無向辺及びノード座標の両方を用いて符号化される。ナビゲーショングラフでは、無向辺は無方向又は双方向の辺として示されてもよい。一例として、図2Bには、無向辺が双方向辺として示される。
【0016】
ナビゲーショングラフに実際の幾何学的情報を表示することにより、実際のオンラインナビゲーション進捗状況に基づいて環境知識を適応的に解釈することが可能となる。特定のナビゲーションプロセスにおける不要な情報をフィルタリングすることによって、よりコンパクトでより方向性を持つルーティング表現を生成させ得る。
【0017】
例示的なシナリオでは、図2Aに示すように、ロボットが事務室-3にあり、事務室-0へナビゲーションする必要がある場合、自然言語の各種の命令シーケンスを使用して期待のパスに沿って事務室-0に移動するようにロボットをガイドすることができる。一例として、図2Aには期待のパスが示されている。各種の命令シーケンスとしては、「部屋から離れると左折する。前に移動してから、再度左折して廊下に沿って走行する。行きつくところまで行くと左折して左側の二番目の部屋に入る」、又は「部屋から離れる。左折して廊下の行きつくところまで行く。左折して終点まで行く。左折する。前に移動して左側の二番目の部屋に至る」が含まれてもよい。同じナビゲーションセマンティクス(即ち、「離れる」、「左折」、「移動」、「左折」など)が含まれるにも関わらず、この2つの命令シーケンスはパスの異なるセクション及び重要な行動の順番に依存する。事務室-3から事務室-0へロボットをナビゲーションする期待のパスも図2Bに示されている。図2Bに示すノードシーケンス4-3-5-…は図2Aに示す期待のパスに相当する。
【0018】
いくつかの実施形態では、ノード、ノードの座標及びノードの間の辺を含むナビゲーショングラフ、自然言語命令、及びロボットの初期位置又は初期ノードを事前訓練されたシーケンス予測モデルに入力し、シーケンス予測モデルに基づいて一連の単一ステップ行動を生成することに用い、ロボットは一連の単一ステップ行動を実行して、初期位置(例えば、事務室-3)から目的地(例えば、事務室-0)にナビゲーションされてもよい。
【0019】
ステップS102:
シーケンス予測モデルは、注釈されたサンプルナビゲーショングラフと対応する自然言語サンプル命令を利用して事前訓練され得るニューラルネットワークモデルである。
【0020】
いくつかの実施形態では、シーケンス予測モデルは、ロボットが実行可能な一連の単一ステップ行動を順次予測する。
【0021】
図3は本開示の実施形態に係る一連の単一ステップ行動を予測するための方法の模式図を示す。図3に示すように、一連の単一ステップ行動を予測するための方法は、(1)無向辺E、ノードN及びノード座標Xを有するナビゲーショングラフG;(2)自然ナビゲーション命令I;及び(3)初期位置S∈Nの3つの入力を採用する。シーケンス予測モデルは行動シーケンスu0:T-1:=(u,…,uT-1)を生成することができ、ロボットは行動シーケンスu0:T-1を実行して、自然ナビゲーション命令Iに記載のようにsから目標状態gにナビゲーションされ得る。
【0022】
モデルの訓練中、訓練サンプル
が与えられ、目標は以下の式の解を求めることで新しいナビゲーションクエリを考慮した命令を反映する行動シーケンスを推定することである。
【0023】
目標がハイレベルの行動計画であるため、命令で記述される目標状態は目標位置だけを指定し、期待の進行方向を指定しなくてもよい。したがって、ナビゲーション能力が失われない場合、本開示の実施形態は簡単な行動セットB:={b(即ち、「離れること」)、b(即ち、「右折して移動すること」)、b(即ち、「左折して移動すること」)、及びb(即ち、「前に移動すること」)}を保持する。提案されている解決手段は、様々な状況(例えば「Tジャンクションで直進する」や「廊下を直進する」)で同じ移動に個別の行動を割り当てることと異なる。このコンパクトな行動セットにより、命令を特定の環境にマッチングするのではなく、命令をナビゲーション移動にマッチングすることを学習することに集中することができ、それにより、汎用性を効果的に向上させる。
【0024】
動作シーケンスu0:T-1:=(u、…、uT-1)が与えられると、ロボットは時間tに動作uを実行し、ノードnからnt+1に移転し得る。予想されたナビゲーション全体はn=sから始まり、目標状態n=gで終了する。いくつかの実施形態では、ロボットが常に移動方向に向かって走行すると仮定して、移動前後のロボットの進行方向を比較することによって、各動作uをu=b∈Bに分類することができる。時間tに、ロボットがノードnにあるとする。次に、進行方向φ x(n)-x(nt-1)とφt+1 x(nt+1)-x(n)との外積を計算することによって、動作uを次のように分類することができる。
式中、nt+1は常にnt-1と異なってもよい。特に、t=0の場合、ロボットが部屋ノードsにあり、1つの有効行動「離れる」だけを有すると仮定する。このようにして、nからnt+1への有効遷移はタプル<n、u、nt+1>として表すことができ、ここで、uは以上の等式(2)より推定されるものである。また、特殊行動b(即ち、「停止」)を符号化してもよく、該行動は、ナビゲーションの終了を示すために、ロボットによって任意の時間t≧Tに採用されてもよい。
【0025】
図3に提案されているシーケンス予測モデルは、隠れ状態hの形式でナビゲーションの進捗状況を追跡するゲート付き回帰型ユニット(GRU)セルと、次の動作uを選択するナビゲーションエージェントとの2つの部分として構成されている。各ステップでは、GRUセルは、前の動作ut-1を入力として、隠れ状態hを更新する。ナビゲーションエージェントは、ナビゲーション進捗状況h、ナビゲーショングラフG及び命令Iを組み合わせて、次の動作uを選択する。次に、ロボットは、uとグラフGにより定義された遷移モデルに従って、nからnt+1に移動する。同じプロセスを繰り返して、ナビゲーションエージェントが目標に到達したことを示す動作b(即ち、「停止」)を選択する。言い換えれば、提案されているモデルは、一連の単一ステップ動作予測の問題を解決し、各単一ステップ動作予測の問題は前のステップにおける解に依存する。
【0026】
いくつかの実施形態では、予測中の各単一ステップについて、単一ステップに対応する現在の予測プロセスにナビゲーショングラフを適用させることによって適応コンテキストを生成し、少なくとも生成した適応コンテキストと自然言語命令に基づいて現在の単一ステップ用の単一ステップ行動を予測する。現在の単一ステップに対応する実際予測プロセスにナビゲーショングラフを適応させることによって、ナビゲーション命令に従うときに、常に地図マップに均等に注意を払うのではなく、人間が通常ローカルホライズンで関連情報を探索するという観察に従う。現在の単一ステップに対応する実際予測プロセスにナビゲーショングラフを適応させるとともに、適応させるコンテキストに基づいて現在の単一ステップ用の単一ステップ行動を予測することによって、命令セマンティクスとナビゲーション計画の間の柔軟な対応関係が直面する課題は新しい大きな地図への限られた拡張で解決される。
【0027】
いくつかの実施形態では、知識ベースの適応は、いわゆるd-ステップ動作伝播によって実現され得る。知識ベースの適用を実現するための他の方法も採用され得る。
【0028】
【0029】
グラフGの接続性情報G:=<E,N,X>は、1グループのタプル{<n,b,n’>}として表され、各タプルは、タイプbを有するノードnからタイプbを有するノードn’へ移動する有効ナビゲーション行動を表す。前述部分に記載のように、有向辺<n,n’>用の有効行動がタイプbであることは、nに到達する前のロボットの可能な前の位置nprevに依存する。したがって、遷移<n,b,n’>は、代替的に「前-現在-次」のフォーマット<nprev,n,n’>で表されてもよく、それにより、上記等式(2)に従ってbを推定できる。知識ベースGに適応させるために、次のd個のステップにおいて実行し得る有効行動を探索する。言い換えれば、即時履歴<nt-1,n>から続くロボットの移動をシミュレートし、任意の有効なノード遷移及びその行動タイプを記憶する。以下、このようなプロセスをd-ステップ動作伝播と呼ぶ。このようなプロセスは、<nt-1,n>を初期元素として、Gにおける有向辺に対して有界の幅優先探索を行うものとして実現される。キューから有向辺<nprev,n>がポップされるたびに、nにおけるnprevではない全ての隣接n’を収集する。n’ごとに、<n,n’>をキューに追加し、タプル<nprev,n,n’>を作成する。続いて、該タプルをグラフフォーマット<n,b,n’>に変換し、ここで、行動タイプbは、上記の等式(2)に従って座標x(nprev)、x(n)及びx(n’)より推定される。n’と現在ノードnの間の距離がd以内にある全ての有効遷移を収集できる。
【0030】
図5は本開示の実施形態に係るナビゲーションエージェントの模式図である。ナビゲーションエージェントの構築には、主に、コンテキストと命令の埋め込み、特徴抽出、及びコンテキスト命令注意が含まれる。
【0031】
【0032】
【0033】
コンテキスト命令注意:注意メカニズムを介して、ナビゲーションコンテキストと命令との間で対応関係を探す。いくつかの実施形態では、コンテキスト特徴のみが命令特徴に関わる一方向の注意が使用される。なお、適応コンテキストの設定では、注意メカニズムは、人々が地図上で経路を探索する方式だけではなく、人々が次の移動を决定するときに付近の環境に主に注意を支払うという事実にも似ている。これは、命令がグローバルなランドマークではなく、ローカル環境に基づいている場合に特に当てはまる。
【0034】
【0035】
行動予測:最終的に、プロセス意識コンテキストSと隠れ状態hが組み合わせられて、時間tでポリシーを生成する。Sとhとを連結して完全接続層にフィードすることにより生の動作確率特徴
【0036】
いくつかの実施形態では、マスク関数への入力は、ナビゲーショングラフG全体と現在のステップtまでのナビゲーション軌跡n0:tを含む。該関数は、サイズが
と同じゼロベクトルを生成し、ここで、-∞は無効行動を代える。ある行動bが有効であるか否かを決定するために、以下の条件を満たすnの隣接ノードn’が存在するか否かをチェックする。
【0037】
いくつかの実施形態では、n=nt-1(又はut-=b)の場合、ナビゲーションがすでに終了しているため、時間tで停止動作が強制的に実行される。なお、各ステップtでの有効動作空間は位置nだけでなく、履歴位置nt-1によって決定される。このような設定により、行動セマンティクスを位置にバインドするという要件が解除され、それにより、コンパクトな知識表現及び行動セマンティクスの柔軟な推定が可能になる。
【0038】
さらに、図6を参照して、一連の単一ステップ行動を予測するための方法の実現形態として、本開示の実施形態は一連の単一ステップ行動を予測するための機器を提供し、該機器の実施形態は上記の各種の方法実施形態に対応し、且つ、該機器は具体的には、各種の電子装置に適用できる。
【0039】
図6に示すように、本実施形態の一連の単一ステップ行動を予測するための機器600は、受信ユニット601と予測ユニット602を含む。受信ユニット601はタスク環境のナビゲーショングラフ、ロボットの自然言語命令及びナビゲーショングラフでの初期位置を受信するように構成され、ここで、ナビゲーショングラフは、タスク環境における位置を示すノード、ノードの座標及び位置の間の接続性を示す辺を含む。予測ユニット602は、ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、ロボットを初期位置から目的地にナビゲーションするように構成される。
【0040】
いくつかの実施形態では、予測ユニットは、適応コンテキスト生成サブユニットと予測サブユニットをさらに含む。適応コンテキスト生成サブユニットは、予測中の各単一ステップについて、単一ステップに対応する現在の予測プロセスにナビゲーショングラフを適応させることによって、適応コンテキストを生成するように構成される。予測サブユニットは、少なくとも生成した適応コンテキストと自然言語命令に基づいて、単一ステップ用の単一ステップ行動を予測するように構成される。
【0041】
いくつかの実施形態では、適応コンテキスト生成サブユニットは、さらに、ナビゲーショングラフにおいて単一ステップに対応する現在ノードと現在ノードの前のノード以外の隣接ノードの間の有効ノード遷移を探索し、現在ノードの座標、現在ノードの前のノードの座標及び現在ノードの前のノード以外の隣接ノードの座標に基づいて、有効ノード遷移の行動を予測し、隣接ノードを新たな現在ノードとして、新たな現在ノードであるノードと現在の単一ステップの現在ノードとの間の距離が予め設定された値以下となるまで探索と予測ステップを繰り返し、探索した有効ノード遷移及びその予測行動を全てグラフィックスフォーマットに変換して、各単一ステップ用の適応コンテキストを生成するように構成される。
【0042】
いくつかの実施形態では、有効ノード遷移の行動は、離れること、右折して移動すること、左折して移動すること、及び前に移動することからなる行動セットによって予測される。
【0043】
いくつかの実施形態では、適応コンテキスト生成サブユニットは、さらに、現在ノードの座標から前のノードの座標を減算することによって、ロボットの現在ノードでの進行方向を決定し、隣接ノードの座標から現在ノードの座標を減算することによって、ロボットの隣接ノードでの進行方向を決定し、ロボットの現在ノードでの進行方向とロボットの隣接ノードでの進行方向との外積を計算し、計算した外積に基づいて、有効ノード遷移の単一ステップ行動を予測するように構成される。
【0044】
いくつかの実施形態では、予測サブユニットは、さらに、生成した適応コンテキスト、自然言語命令及びゲート付き回帰型ユニット(GRU)によって更新された現在の隠れ状態に基づいて、単一ステップ用の単一ステップ行動を予測するように構成され、ここで、GRUは、前の単一ステップの前の単一ステップ行動を入力として、更新を行って現在の隠れ状態を取得する。
【0045】
いくつかの実施形態では、一連の単一ステップ行動を予測する機器はナビゲーショングラフ作成ユニットをさらに含み、該ナビゲーショングラフ作成ユニットは、タスク環境のトポロジーマップを作成し、作成したトポロジーマップをタスク環境のナビゲーショングラフとして決定するように構成され、ここで、タスク環境における位置はトポロジーマップのノードとして機能し、位置の間の接続性はトポロジーマップの辺として機能する。
【0046】
機器600は、前述の方法実施形態におけるステップに対応する。したがって、上記の一連の単一ステップ行動を予測するための方法において実現し得る操作、特徴及び技術的効果は機器600及びそれに含まれるユニットにおいても同様であり、これらについての詳細な説明を省略する。
本開示の実施形態によれば、電子装置及び読み取り可能な記憶媒体を提供する。
【0047】
図7に示すように、本開示の実施形態に係る一連の単一ステップ行動を予測する方法の電子装置のブロック図が示されている。電子装置は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを指すことを意図している。電子装置は、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置、及びその他の類似のコンピューティング装置など、様々な形式の移動機器を示してもよい。本明細書に示されている部材、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明及び/又は要求される本開示の実現を制限する意図はしない。
【0048】
図7に示すように、電子装置は、1つ又は複数のプロセッサ701、メモリ702及び各部材を接続するインターフェース(高速インターフェースと低速インターフェースを含む)を含む。各種の部材は異なるバスを用いて互いに接続されており、必要に応じてユニバーサルマザーボードに取り付けられたり、他の方法で取り付けられたりすることができる。プロセッサは、電子装置内で実行する命令、例えばメモリ内又はメモリ上に記憶された命令を処理することで、外部入力/出力装置(例えばインターフェースに接続される表示装置)上にGUIのグラフィカル情報を表示することができる。別の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスは複数のメモリとともに使用され得る。同様に、複数の電子装置が接続されてもよく、且つこれらの装置は一部の必須な操作を提供し、例えば、サーバアレイ、1グループのブレードサーバ又はマルチプロセッサシステムとして機能する。図7において、一例として、1つのプロセッサ701が使用されている。
【0049】
メモリ702は、本開示の実施形態による一時的なコンピュータ読み取り可能な記憶媒体である。メモリは少なくとも1つのプロセッサにより実行可能な命令を記憶し、本開示の実施形態による一連の単一ステップ行動を予測するための方法を少なくとも1つのプロセッサに実行させる。本開示の一時的なコンピュータ読み取り可能な記憶媒体は、本開示の実施形態による一連の単一ステップ行動を予測する方法をコンピュータに実行させるコンピュータ命令を記憶している。
【0050】
一時的なコンピュータ読み取り可能な記憶媒体であるメモリ702は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば本開示の実施形態における一連の単一ステップ行動を予測するための方法に対応するプログラム命令/モジュール(例えば、図6に示す受信ユニット601及び予測ユニット602)を記憶することに用いられ得る。プロセッサ701は、メモリ702に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの各種の機能的アプリケーション及びデータ処理を実行し、即ち、前述方法実施形態における一連の単一ステップ行動を予測する方法を実現する。
【0051】
メモリ702は、プログラム記憶エリアとデータ記憶エリアを含むことができ、これらのうち、プログラム記憶エリアは、オペレーティングシステムと少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは電子装置を使用して作成される一連の単一ステップ行動を予測するためのデータを記憶することができる。また、メモリ702は、高速ランダムアクセスメモリを含んでもよく、且つ非一時的なメモリ、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュ装置又は他の非一時的な固体記憶装置をさらに含んでもよい。いくつかの実施形態では、メモリ702は、任意に、プロセッサ701に対して遠隔的に配置されたメモリを含み、且つこれらの遠隔メモリは電子装置に接続されてネットワークを介して一連の単一ステップ行動を予測することができる。上記ネットワークの例として、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びこれらの組み合わせが含まれるが、これらに制限されない。
【0052】
一連の単一ステップ行動を予測するための方法の電子装置は、入力装置703と出力装置704をさらに含んでもよい。プロセッサ701、メモリ702、入力装置703、及び出力装置704は、バス705又は他の方法を通じて接続されてもよい。図7において、一例として、バス705を介する接続が使用される。
【0053】
入力装置703は、入力したデジタル又は文字情報を受信し、ユーザ設定及び一連の単一ステップ行動を予測するための方法の電子装置の機能制御に関連するキー信号入力を生成することができ、入力装置703は、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータ、1つ又は複数のマウスボタン、トラックボール、ジョイスティックや他の入力装置である。出力装置704は、表示装置、補助照明機器(例えば、LED)、触覚フィードバック機器(例えば、振動モータ)などを含んでもよい。表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイやプラズマディスプレイを含んでもよいが、これらに制限されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。
【0054】
本明細書に記載のシステム及び技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路(ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア及び/又はこれらの組み合わせにおいて実現されてもよい。これらの各種の実施形態は、1つ又は複数のコンピュータプログラムで実現されてもよいことを含んでもよく、コンピュータプログラムは、少なくとも1つのプログラム可能プロセッサを含むプログラム可能システム上で実行及び/又は解釈されてもよい。プログラム可能プロセッサは、専用又は汎用プログラム可能プロセッサを含み、メモリシステム、少なくとも1つの入力装置及び少なくとも1つの出力装置からデータと命令を受信し、データと命令を記憶システム、少なくとも1つの入力装置と少なくとも1つの出力装置に伝送してもよい。
【0055】
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェア開示又はコードとも呼ばれる)は、プログラム可能プロセッサの機械命令を含み、且つ高度なプロセス及び/又はオブジェクト指向プログラミング言語及び/又はアセンブリ/機械言語を使用して実現されてもよい。本明細書で使用される場合、用語「機械読み取り可能な媒体」と「コンピュータ読み取り可能な媒体」は、プログラム可能プロセッサに機械命令及び/又はデータを提供する任意のコンピュータプログラム製品、装置及び/又は機器(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能ロジック機器(PLD))を示し、機械命令を機械読み取り可能な信号として受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、プログラム可能プロセッサに機械命令及び/又はデータを提供する任意の信号を示す。
【0056】
ユーザと対話するために、本明細書で記載のシステム及び技術はコンピュータ上で実現されてもよく、該コンピュータは、例えば陰極線管(CRT)又は液晶ディスプレイ(LCD)モニタなどの表示機器、及び例えばマウス又はトラックボールのキーボードやポインティング機器を含み、ここで、表示機器は、ユーザに情報を表示することに用いられ、ユーザはキーボードやポインティング機器を使用してコンピュータに入力を提供できる。他のタイプの機器もユーザとの対話を提供することに用いられ得る。例えば、ユーザに提供するフィードバックは任意の形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバック又は触覚フィードバックであってもよく、且つ任意の形態(声音入力、ボイス入力又は触覚入力を含む)でユーザからの入力が受信されてもよい。
【0057】
本明細書に記載のシステム及び技術は、バックエンド部材(例えば、データサーバとして)を含む計算システムにて実現されてもよく、又はミドルウェア部材(例えば、アプリケーションサーバ)を含む計算システムにおいて実現されてもよく、又はフロントエンド部材を含む計算システムにおいて実現されてもよく(例えば、グラフィカルユーザインターフェース又はwebブラウザを有するユーザコンピュータ、ユーザはグラフィカルユーザインターフェース又はwebブラウザを通じて本明細書に記載のシステム及び技術の実施形態によって対話可能である)、又はこのようなバックエンド部材、ミドルウェア部材又はフロントエンド部材の任意の組み合わせを含む計算システムにおいて実現されてもよい。システムの部材は、任意のデジタルデータ通信の形式又は媒体(例えば、通信ネットワーク)を介して互いに接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、及びブロックチェーンネットワークが含まれる。
【0058】
コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介して会話する。クライアントとサーバの関係は、対応するコンピュータで実行され、互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。
【0059】
以上の記述は、本開示の好適な実施形態及び本明細書において使用される技術的原理に対する解釈を提供するものに過ぎない。当業者が理解できるように、本開示の発明範囲は、上記技術的特徴の特定の組み合わせによる技術案に制限されない。本開示の概念を逸脱することなく、本発明の範囲は上記技術的特徴又はそれに等価する特徴の任意の組み合わせによる他の技術案をカバーし、例えば、本開示の実施形態において開示された類似の機能を有する技術的特徴と上記特徴を交換してなる技術案が挙げられるが、それに制限されない。
図1
図2A
図2B
図3
図4
図5
図6
図7
【外国語明細書】