(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022006166
(43)【公開日】2022-01-12
(54)【発明の名称】地図上の目的地の決定方法、機器、及び記憶媒体
(51)【国際特許分類】
G06F 16/909 20190101AFI20220104BHJP
G06F 40/30 20200101ALI20220104BHJP
G06F 40/289 20200101ALI20220104BHJP
【FI】
G06F16/909
G06F40/30
G06F40/289
【審査請求】有
【請求項の数】21
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2021106993
(22)【出願日】2021-06-28
(31)【優先権主張番号】17/138,380
(32)【優先日】2020-12-30
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】516353375
【氏名又は名称】バイドゥ ユーエスエー エルエルシー
【氏名又は名称原語表記】Baidu USA LLC
【住所又は居所原語表記】1195 Bordeaux Dr., Sunnyvale, CA 94089, U.S.A.
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【弁理士】
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】ハオ、 ジンシン
(72)【発明者】
【氏名】ツァン、 リャンジュン
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091AA15
5B091CA01
5B091CB02
5B091CB12
5B091EA01
5B175DA03
5B175FA01
5B175FB04
5B175GC03
(57)【要約】 (修正有)
【課題】地図上の目的地の決定方法、機器及び記憶媒体を提供する。
【解決手段】方法は、テキストのN個のセグメントを取得し、テキストのN個のセグメントの間の文法的な関係に基づいて、N個のセグメントの再帰的順序を決定し、N個のセグメントのそれぞれについて、該セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択し、再帰的順序に従って、各セグメントを、地図の初期領域又はマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域とともに該セグメントのマッチングモデルに入力し、マッチングモデルによって再帰的順序における最後のセグメントについて出力される更新領域を地図中の目的地として使用する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
地図上の目的地の決定方法であって、
テキストのN個のセグメントを取得するステップであって、Nは1よりも大きい整数であるステップと、
前記テキストのN個のセグメントの間の文法的な関係に基づいて、前記N個のセグメントの再帰的順序を決定するステップと、
前記N個のセグメントのうちのそれぞれのセグメントについて、前記各セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択するステップであって、前記各セグメントのマッチングモデルは全て入力テキストと前記地図の入力領域を入力として、前記入力テキストの意味と前記入力領域に基づいて前記地図の更新領域を出力するように構成されるステップと、
前記再帰的順序に従って、前記各セグメントを、前記地図の初期領域又は前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される更新領域とともに前記各セグメントのマッチングモデルに入力するステップと、
前記マッチングモデルによって前記再帰的順序における最後のセグメントについて出力される前記更新領域を前記地図中の目的地として使用するステップとを含む方法。
【請求項2】
前記文法的な関係に基づいて前記N個のセグメントの再帰的順序を決定するステップは、
前記N個のセグメントの中から前置詞セグメントの前の名詞主語セグメント、前記前置詞セグメント及び前記前置詞セグメントの目的語セグメントを決定するステップと、
前記名詞主語セグメントを前記再帰的順序における第1のセグメントとして決定し、前記前置詞セグメントを前記再帰的順序における前記第2のセグメントとして決定し、前記目的語セグメントを前記再帰的順序における前記第3のセグメントとして決定するステップとを含む、請求項1に記載の方法。
【請求項3】
前記N個のセグメントは位置を示すセグメントと位置関係を示すセグメントを含み、
前記複数のモデルは第1のタイプモデルと第2のタイプモデルを含み、
前記第1のタイプモデルは、第1の地図領域と前記位置を示す第1のタイプテキストを入力として、前記第1の地図領域内の第1の更新領域を出力するように構成され、
前記第2のタイプモデルは、第2の地図領域と前記位置関係を示す第2のタイプテキストを入力として、前記第2の地図領域と前記位置関係に基づいて第2の更新領域を出力するように構成され、
前記再帰的順序に従って、前記各セグメントを、前記地図の初期領域又は前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される更新領域とともに前記各セグメントのマッチングモデルに入力するステップは、
前記再帰的順序における第1のセグメントと前記地図の初期領域を前記第1のセグメントのマッチングモデルに入力することにより、前記第1の更新領域を取得するステップと、
前記再帰的順序における第2のセグメント~第Nのセグメントのうちの前記各セグメントについて、前記各セグメントと前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される前記更新領域とを前記各セグメントのマッチングモデルに入力することにより、前記各セグメントの更新領域を取得するステップとを含む、請求項1に記載の方法。
【請求項4】
前記位置関係は近接関係を含み、且つ前記第2のタイプモデルは近接度モデルを含み、前記近接度モデルは、前記第2の地図領域と前記近接関係を示す前記第2のタイプテキストとを入力として、前記第2の地図領域に近接する前記第2の更新領域を出力するように構成される、請求項3に記載の方法。
【請求項5】
前記位置関係は方向関係を含み、且つ前記第2のタイプモデルは方向モデルを含み、前記方向モデルは、前記第2の地図領域と前記方向関係を示す前記第2のタイプテキストとを入力として、前記第2の地図領域の方向での前記第2の更新領域を出力するように構成される、請求項4に記載の方法。
【請求項6】
前記複数のモデルは第3のタイプモデルを含み、前記第3のタイプモデルは第3の地図領域と第3のタイプテキストを入力として、前記第3の地図領域を出力するように構成され、前記第3のタイプテキストはいずれの位置又はいずれの位置関係も示さない、請求項5に記載の方法。
【請求項7】
前記テキストのN個のセグメントを取得するステップは、前記位置を示す前記セグメント、方向を示すセグメント、近接度を示すセグメント、及びいずれの位置又はいずれの位置関係も示さないセグメントを取得することを含み、
前記N個のセグメントのうちのそれぞれのセグメントについて、前記各セグメントの意味に基づいて前記第1のタイプモデルと前記第2のタイプモデルを含む複数のモデルの中からマッチングモデルを選択するステップは、
前記位置を示す前記セグメントのマッチングモデルとして前記第1のタイプモデルを選択し、前記方向を示す前記セグメントのマッチングモデルとして前記方向モデルを選択し、前記位置を示す前記セグメントのマッチングモデルとして前記第1のタイプモデルを選択し、いずれの位置又はいずれの位置関係も示さない前記セグメントのマッチングモデルとして前記第3のタイプモデルを選択するステップを含む、請求項6に記載の方法。
【請求項8】
前記位置関係は方向関係を含み、且つ前記第2のタイプモデルは前記方向モデルを含み、前記方向モデルは前記第2の地図領域と前記方向関係を示す前記第2のタイプテキストとを入力として、前記第2の地図領域の方向での前記第2の更新領域を出力するように構成される、請求項3に記載の方法。
【請求項9】
前記N個のセグメントのうちのそれぞれのセグメントについて、前記各セグメントの意味に基づいて前記第1のタイプモデルと前記第2のタイプモデルを含む複数のモデルの中から前記マッチングモデルを選択するステップは、
前記各セグメントの前記意味に基づいて、分類器によって前記N個のセグメントのうちのそれぞれのセグメントのタイプを決定するステップと、
前記各セグメントのタイプと前記モデルのタイプに基づいて、前記各セグメントのマッチングモデルを決定するステップとを含む、請求項3に記載の方法。
【請求項10】
前記地図中の目的地に基づいてロボットを移動制御するステップをさらに含む、請求項1に記載の方法。
【請求項11】
ユーザ入力に基づいて前記テキストを取得し、前記ユーザ入力は音声、キーボードによる入力、センサによる入力又はタッチスクリーンによる入力のうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項12】
地図上の目的地の決定機器であって、
1つの又は複数のプロセッサと、
前記1つの又は複数のプロセッサによって実行可能な命令を記憶することで前記機器に以下の操作を実行させるメモリとを含み、前記操作は、
テキストのN個のセグメントを取得することであって、Nは1よりも大きい整数であることと、
前記テキストの前記N個のセグメントの間の文法的な関係に基づいて、前記N個のセグメントの再帰的順序を決定することと、
前記N個のセグメントのうちのそれぞれのセグメントについて、前記各セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択することであって、前記各セグメントのマッチングモデルは全て入力テキストと前記地図の入力領域を入力として、前記入力テキストの意味と前記入力領域に基づいて前記地図の更新領域を出力するように構成されることと、
前記再帰的順序に従って、前記各セグメントを、前記地図の初期領域又は前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される更新領域とともに前記各セグメントのマッチングモデルに入力することと、
前記マッチングモデルによって前記再帰的順序における最後のセグメントについて出力される前記更新領域を前記地図中の目的地として使用することとを含む、機器。
【請求項13】
前記文法的な関係に基づいて前記N個のセグメントの再帰的順序を決定するステップは、
前記N個のセグメントの中から前置詞セグメントの前の名詞主語セグメント、前記前置詞セグメント及び前記前置詞セグメントの目的語セグメントを決定するステップと、
前記名詞主語セグメントを前記再帰的順序における第1のセグメントとして決定し、前記前置詞セグメントを前記再帰的順序における前記第2のセグメントとして決定し、前記目的語セグメントを前記再帰的順序における前記第3のセグメントとして決定するステップとを含む、請求項12に記載の機器。
【請求項14】
前記N個のセグメントは位置を示すセグメントと位置関係を示すセグメントを含み、
前記複数のモデルは第1のタイプモデルと第2のタイプモデルを含み、前記第1のタイプモデルは、第1の地図領域と前記位置を示す第1のタイプテキストを入力として、前記第1の地図領域内の第1の更新領域を出力するように構成され、前記第2のタイプモデルは、第2の地図領域と前記位置関係を示す第2のタイプテキストを入力として、前記第2の地図領域と前記位置関係に基づいて第2の更新領域を出力するように構成され、
前記再帰的順序に従って、前記各セグメントを、前記地図の初期領域又は前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される更新領域とともに前記各セグメントのマッチングモデルに入力するステップは、
前記再帰的順序における第1のセグメントと前記地図の初期領域を前記第1のセグメントのマッチングモデルに入力することにより、第1の更新領域を取得するステップと、
前記再帰的順序における第2のセグメント~第Nのセグメントのうちの前記各セグメントについて、前記各セグメントと前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される前記更新領域とを前記各セグメントのマッチングモデルに入力することにより、前記各セグメントの更新領域を取得するステップとを含む、請求項12に記載の機器。
【請求項15】
前記位置関係は近接関係を含み、且つ前記第2のタイプモデルは近接度モデルを含み、前記近接度モデルは、前記第2の地図領域と前記近接関係を示す前記第2のタイプテキストとを入力として、前記第2の地図領域に近接する前記第2の更新領域を出力するように構成される、請求項14に記載の機器。
【請求項16】
前記位置関係は方向関係を含み、且つ前記第2のタイプモデルは方向モデルを含み、前記方向モデルは、前記第2の地図領域と前記方向関係を示す前記第2のタイプテキストとを入力として、前記第2の地図領域の方向での前記第2の更新領域を出力するように構成される、請求項14に記載の機器。
【請求項17】
前記複数のモデルは第3のタイプモデルを含み、前記第3のタイプモデルは、第3の地図領域と第3のタイプテキストを入力として、前記第3の地図領域を出力するように構成され、前記第3のタイプテキストはいずれの位置又はいずれの位置関係も示さない、請求項16に記載の機器。
【請求項18】
前記テキストのN個のセグメントを取得するステップは、前記位置を示す前記セグメント、方向を示すセグメント、近接度を示すセグメント、及びいずれの位置又はいずれの位置関係も示さないセグメントを取得することを含み、
前記N個のセグメントのうちのそれぞれのセグメントについて、前記各セグメントの意味に基づいて前記第1のタイプモデルと前記第2のタイプモデルを含む複数のモデルの中からマッチングモデルを選択するステップは、
前記位置を示す前記セグメントのマッチングモデルとして前記第1のタイプモデルを選択し、前記方向を示す前記セグメントのマッチングモデルとして前記方向モデルを選択し、前記位置を示す前記セグメントのマッチングモデルとして前記第1のタイプモデルを選択し、いずれの位置又はいずれの位置関係も示さない前記セグメントのマッチングモデルとして前記第3のタイプモデルを選択するステップを含む、請求項17に記載の機器。
【請求項19】
前記操作は、前記地図中の目的地に基づいてロボットを移動制御することをさらに含む、請求項12に記載の機器。
【請求項20】
命令を記憶する一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令はプロセッサによって実行されることで前記プロセッサに操作を実行させ、前記操作は、
テキストのN個のセグメントを取得することであって、Nは1よりも大きい整数であることと、
前記テキストの前記N個のセグメントの間の文法的な関係に基づいて、前記N個のセグメントの再帰的順序を決定することと、
前記N個のセグメントのうちのそれぞれのセグメントについて、前記各セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択することであって、前記各セグメントのマッチングモデルは全て入力テキストと前記地図の入力領域を入力として、前記入力テキストの意味と前記入力領域に基づいて前記地図の更新領域を出力するように構成されることと、
前記再帰的順序に従って、前記各セグメントを、前記地図の初期領域又は前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される更新領域とともに前記各セグメントのマッチングモデルに入力することと、
前記マッチングモデルによって前記再帰的順序における最後のセグメントについて出力される前記更新領域を前記地図中の目的地として使用することとを含む、一時的なコンピュータ読み取り可能な記憶媒体。
【請求項21】
コンピュータプログラムであって、プロセッサにより実行されると、請求項1~11の何れか一項に記載の方法を実行するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施例は、全体的には、コンピュータの技術分野に関し、且つより具体的には、地図上の目的地の決定方法、機器、及びコンピュータ読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
ヒューマンコンピュータインタラクションにおいて、自然言語は、ユーザとロボットの間の最も望ましいコミュニケーション形態の1つである。しかしながら、自然言語の解釈は、ロボットにとって依然として非常に難しい問題である。大きな問題の1つは、音声からテキストへの変換が成功したとしても、テキストとその適切な解釈との間にかなりのギャップがあることである。
【発明の概要】
【0003】
第1の態様では、地図上の目的地の決定方法を提供する。該方法は、テキストのN個のセグメントを取得するステップであって、Nは1よりも大きい整数であるステップと、テキストのN個のセグメントの間の文法的な関係に基づいて、N個のセグメントの再帰的順序を決定するステップと、N個のセグメントのそれぞれについて、各セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択するステップであって、各セグメントのマッチングモデルは、全て入力テキストと地図の入力領域を入力として、入力テキストの意味と入力領域に基づいて地図の更新領域を出力するように構成されるステップと、再帰的順序に従って、各セグメントを、地図の初期領域又はマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域とともに該セグメントのマッチングモデルに入力するステップと、マッチングモデルによって再帰的順序における最後のセグメントについて出力される更新領域を地図中の目的地として使用するステップとを含む。
【0004】
第2の態様では、地図上の目的地の決定機器を提供する。該機器は、1つの又は複数のプロセッサと、メモリとを含む。該メモリは、1つの又は複数のプロセッサによって実行可能な命令を記憶することで機器に以下の操作を実行させることに用いられ、該操作は、テキストのN個のセグメントを取得することであって、Nは1よりも大きい整数であることと、テキストのN個のセグメントの間の文法的な関係に基づいて、N個のセグメントの再帰的順序を決定することと、N個のセグメントのそれぞれについて、各セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択することであって、各セグメントのマッチングモデルは、全て入力テキストと地図の入力領域を入力として、入力テキストの意味と入力領域に基づいて地図の更新領域を出力するように構成されることと、再帰的順序に従って、各セグメントを、地図の初期領域又はマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域とともに該セグメントのマッチングモデルに入力することと、マッチングモデルによって再帰的順序における最後のセグメントについて出力される更新領域を地図中の目的地として使用することとを含む。
【0005】
第3の態様では、命令を記憶する一時的なコンピュータ読み取り可能な記憶媒体を提供し、該命令はプロセッサによって実行されることで操作を実行し、該操作は、テキストのN個のセグメントを取得することであって、Nは1よりも大きい整数であることと、テキストのN個のセグメントの間の文法的な関係に基づいて、N個のセグメントの再帰的順序を決定することと、N個のセグメントのそれぞれについて、セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択することであって、各セグメントのマッチングモデルは全て入力テキストと地図の入力領域を入力として、入力テキストの意味と入力領域に基づいて地図の更新領域を出力するように構成されることと、再帰的順序に従って、各セグメントを、地図の初期領域又はマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域とともに該セグメントのマッチングモデルに入力することと、マッチングモデルによって再帰的順序における最後のセグメントについて出力される更新領域を地図中の目的地として使用することとを含む。
【図面の簡単な説明】
【0006】
以下、図面を参照した詳細な説明において、本開示の実施形態の上記及び他の特徴、利点及び態様はより明らかになる。図面において、同一又は類似の図面の符号は同一又は類似の素子を表す。
【
図1】本開示のいくつかの実施形態に係る地図上の目的地の決定方法のフローチャートである。
【
図2】本開示のいくつかの実施形態に係るセグメントの再帰的順序を決定する実現形態の模式図である。
【
図3】テキストセグメントのそれぞれのマッチングモデルへの入力の実現形態の模式図である。
【
図4】テキストセグメントのそれぞれのマッチングモデルへの入力の適用例の模式図である。
【
図5】本開示のいくつかの他の実施形態に係る地図上の目的地の決定方法のフローチャートである。
【
図6】本開示のいくつかの実施形態に係る複数のモデルの更新関数のセマンティクス説明の模式図である。
【
図7】本開示のいくつかの実施形態に係るテキストセグメントに対する計算実行の模式図である。
【
図8】地図上の目的地の決定方法の適用シナリオである。
【
図9】本開示のいくつかの実施形態に係る地図上の目的地の決定機器の模式図である。
【発明を実施するための形態】
【0007】
以下、図面及び実施形態を参照しながら本開示をさらに詳細に説明する。理解すべきものとして、本明細書で説明される特定実施形態は関連する開示内容を解釈するために過ぎず、限定的な内容ではない。また、なお、説明の便宜上、図面には関連開示に関する部材だけが示されている。
【0008】
さらに、なお、本開示における実施形態及び実施形態の特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面を参照して実施形態と組み合わせて、本開示の特徴を詳細に説明する。
【0009】
現在、ロボット言語アドレッシングアルゴリズムはほとんど固定シナリオに対して限られたストラテジーセットを維持し、大量のデータ訓練を通じて画像又は地理情報と自然言語の間のマッチングを確立する。従来の技術のほとんどは、ニューラルネットワークの学習能力を利用して、大量のデータから言語と目標位置の間のマッチング関係を記憶する。このような方法は、言語の構造を十分に活用しておらず、自然言語での目的地記述の推論の性質を無視している。その欠点は、データに対する需要が膨大であること、記録されていない言語構造に汎用性がないこと、及び推論を必要とする位置の記述を理解しにくいことといったロボット制御の不便を引き起こす。
【0010】
図1は本開示のいくつかの実施形態に係る地図上の目的地の決定方法のフローチャートである。該方法は、ステップ101~105を含む。
【0011】
ステップ101:テキストのN個のセグメントを取得し、Nは1よりも大きい整数である。
【0012】
いくつかの実施形態では、ユーザ入力に基づいてテキストを取得する。ユーザ入力は機械又はコンピュータにより受信可能な任意の入力であってもよい。いくつかの実施形態では、ユーザ入力は音声、キーボードによる入力、センサによる入力又はタッチスクリーンによる入力のうちの少なくとも1つを含む。
【0013】
いくつかの実施形態では、N個のセグメントは位置を示すセグメントと位置関係を示すセグメントを含む。
【0014】
いくつかの実施形態では、ユーザが「北出口近くの会議室に行く」というと、ロボットは音声を受信して、音声からテキスト「北出口近くの会議室に行く」を取得する。いくつかの実施形態では、テキストに対してセマンティクス分析を実行して位置記述に関するテキスト、例えば「北出口近くの会議室」を取得する。次に、テキストの複数のセグメント、即ち名詞セグメント(例えば、「会議室」と「北出口」)と前置詞セグメント(例えば、「近く」)を取得する。
ステップ102:テキストのN個のセグメントの間の文法的な関係に基づいて、N個のセグメントの再帰的順序を決定する。
【0015】
いくつかの実施形態では、ステップ102は、
図2に示すステップ1021と1022を含む。ステップ1021は、N個のセグメントの中から前置詞セグメントの前の名詞主語セグメント、前置詞セグメント、及び前置詞セグメントの目的語セグメントを決定するステップを含む。
【0016】
いくつかの実施形態では、自然言語処理(NLP)ツールを使用してテキストを解析して主語uh、前置詞uprep、及び前置詞の目的語upobjを有する従属構造とする。
【0017】
ステップ1022:前置詞セグメントの前の名詞主語セグメントを再帰的順序における第1のセグメントとして決定し、前置詞セグメントを再帰的順序における第2のセグメントとして決定し、目的語セグメントを再帰的順序における第3のセグメントとして決定する。
【0018】
ステップ103:N個のセグメントのそれぞれについて、各セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択し、各セグメントのマッチングモデルは、全て入力テキストと地図の入力領域を入力として、入力テキストの意味と入力領域に基づいて地図の更新領域を出力するように構成される。
【0019】
いくつかの実施形態では、複数のモデルは第1のタイプモデルと第2のタイプモデルを含み、ここで、第1のタイプモデルは、第1の地図領域と位置を示す第1のタイプテキストとを入力として、第1の地図領域内の第1の更新領域を出力するように構成され、第2のタイプモデルは、第2の地図領域と前記位置関係を示す第2のタイプテキストを入力として、第2の地図領域と位置関係に基づいて第2の更新領域を出力するように構成される。
【0020】
いくつかの実施形態では、位置関係は近接関係を含み、且つ第2のタイプモデルは近接度モデルを含み、該近接度モデルは、第2の地図領域と近接関係を示す第2のタイプテキストを入力として、第2の地図領域に近接する第2の更新領域を出力するように構成される。
【0021】
いくつかの実施形態では、位置関係は方向関係を含み、且つ第2のタイプモデルは方向モデルを含み、該方向モデルは、第2の地図領域と方向関係を示す第2のタイプテキストとを入力として、第2の地図領域の方向での第2の更新領域を出力するように構成される。
【0022】
いくつかの実施形態では、前置詞セグメントの前の名詞セグメント、前置詞セグメント、及び目的語名詞セグメントとマッチングするモデルは、それぞれ以下の等式を使用してもよい。
ここで、fθ*はθをパラメータとする基盤関数を示し、b0はダミー信頼度又は地図m全体にまたがる初期分布を示す。いくつかの実施形態では、等式(1)と等式(3)は同一関数を共用する。
【0023】
ステップ104:再帰的順序に従って、各セグメントを、地図の初期領域又はマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域とともに各セグメントのマッチングモデルに入力する。
【0024】
いくつかの実施形態では、ステップ104は
図3に示すステップ1041とステップ1042を含む。
【0025】
ステップ1041:再帰的順序における第1のセグメントと地図の初期領域を第1のセグメントのマッチングモデルに入力することにより、第1の更新領域を取得する。
【0026】
ステップ1042:再帰的順序における第2のセグメント~第Nのセグメントのそれぞれについて、該セグメントとマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域とを該セグメントのマッチングモデルに入力することにより、該セグメント用の更新領域を取得する。
【0027】
図4はステップ104の適用例を示す。
図4において、等式(1)で定義したとおり、第1のセグメント「北出口」を地図の初期領域とともに第1のモデルに入力する。次に、等式(2)で定義したとおり、第2のセグメント「近く」を第1のモデルの出力とともに第2のモデルに入力する。最後に、等式(3)で定義したとおり、第3のセグメント「会議室」を第2のモデルの出力とともに第3のモデルに入力する。
【0028】
ステップ105:再帰的順序に従う最後のセグメントのマッチングモデルによって出力される更新領域を地図中の目的地として使用する。
【0029】
いくつかの実施形態では、
図4における第3のモデルの出力は目的地として使用される。いくつかの実施形態では、地図の座標はロボットが地図上の目的地に基づいて決定し、次にロボットはロボットの現在の位置から地図での座標への経路を計画して、計画した経路に沿って移動する。
【0030】
本開示のいくつかの実施形態に係る方法は、自然言語の構造の特徴を最大限に利用し、命令構造に従って完全なアドレッシングタスクを複数の独立した言語理解タスクに分割し、確率分布の形で抽出した情報を送信する。初期状態では、目標確率は地図の全範囲にわたり均等に分布している。確率分布は、独立した言語によって1つずつ理解されて更新され、最終的な目標位置を目指す。
【0031】
本開示のいくつかの実施形態に係る方法は、解釈可能で、最適化が容易であり、且つ必要なデータがより少ないという特徴を有する。本開示のいくつかの実施形態に係る方法を利用すると、地図中の目的地の座標は、ロボットによってユーザの入力に基づいて容易に決定されてもよく、それにより、ユーザによるロボット制御を支援する。
【0032】
図5は、本開示のいくつかの他の実施形態に係る地図上の目的地の決定方法のフローチャートである。該方法は、ステップ501~505を含む。
【0033】
ステップ501は、テキストのN個のセグメントを取得するステップを含み、該N個のセグメントは、位置を示すセグメント、方向を示すセグメント、近接度を示すセグメント、及びいずれの位置又はいずれの位置関係も示さないセグメントを含む。
【0034】
ステップ502は、テキストのN個のセグメントの間の文法的な関係に基づいて、N個のセグメントの再帰的順序を決定するステップを含む。ステップ502はステップ102と同じであり、関連記述についてはステップ102の記述を参照すればよい。
【0035】
ステップ503は、N個のセグメントのそれぞれについてマッチングモデルを選択するステップであって、該選択は、位置を示すセグメントのマッチングモデルとして第1のタイプモデルを選択し、方向を示すセグメントのマッチングモデルとして方向モデルを選択し、近接度を示すセグメントのマッチングモデルとして近接度モデルを選択し、いずれの位置又はいずれの位置関係も示さないセグメントのマッチングモデルとして第3のタイプモデルを選択することを含むステップを含む。
【0036】
本開示の以下の記述において、テキストのセグメントは修飾語とも呼ばれ、且つモデルの入力と出力はそれぞれ先験及び後験とも呼ばれる。表Iには、いくつかの実施形態に係る第1のタイプモデル(即ち、正確なモデル)、近接度モデル、方向モデル、及び第3のタイプモデル(即ち、ダミーモデル)とその利用可能な力、出力及び規則の例が示されている。
表I
更新タイプ
【0037】
いくつかの実施形態では、等式(1)~(3)は統一され、以下のような一般的な信頼度の更新チェーンとみなす。
ここで、kはupobjとuprepの総数を示す。いくつかの実施形態では、テキストは文法に関連するセグメント(uk)のシーケンスに分解され、且つシーケンスのそれぞれは再帰的に適用されて、信頼度bの概念を更新する。
【0038】
いくつかの実施形態では、1グループの学習可能な関数
と分類器
が構築される。等式(4)の更新関数は次のように表現できる。
ここで、II(α)はインジケータ関数である。分類器cはニューラルネットワークを示し、次のように定義される。
ここで、Φcはゲート付き回帰ユニット(GRU)層により抽出された隠れ状態を示し、且つWcはGRUの隠れ状態を生の分類重みにマッチングさせる線形層の重みを指す。
図6は本開示のいくつかの実施形態に係る複数のモデルの更新関数のセマンティクス図示を示す。正確なモデル、方向モデル、近接度モデル及びダミーモデルの更新関数は次のように記述される。
【0039】
正確なモデル
いくつかの実施形態では、地図m∈Mは1グループの関心のある領域
に分けられ、各領域は地図境界B
0内に境界B
iを有する。各領域a
iは一般的に言及される文字列のタプル(例えば、一意の領域id、領域カテゴリ及び領域名称(適用の場合))に関連付けられ、且つ各関心のあるの領域には多くともN個の単語が割り当てられる。
【0040】
いくつかの実施形態では、領域情報内の各単語が固定長さの埋め込みに変換され、次に長さの埋め込みが連結される。結果は、
で示される地図情報の行列表現である。Sは関心のある領域の数である。Nは領域記述子内のトークンの数を指す。Hは単語の埋め込みの次元である。いくつかの実施形態では、修飾語u
kは埋め込み行列
として符号化される。いくつかの実施形態では、正確なモデルはSレベルの分類問題として形成され、地図中内の全ての領域で定義された離散分布w
kを生成する。各領域a
iの計算は次のとおりである。
ここで、γ
k、
及びw
k-1は次のように解釈する方向スケーリング係数、修飾語-地図注意、及び先験重みを示し、ηは正規化係数を指す。次に、w
k(i)を境界B
iにより示される地図上の領域に割り当て、次に地図全体にわたり正規化を行うことで完全信頼度b
kを回復することができる。
【0041】
γ
kの使用は、主語の形容詞としての方向の一般的な使用によりトリガーされる(表1参照)。等式は以下のとおりである。
ここで、σはシグモイド関数であり、x
iは領域a
iの重心であり、B
0は地図の境界であり、e
αkは予測される方向α
k∈[-π,π]の単位方向ベクトルであり、κ
k∈[0,1]はu
kに方向が使用されているか否かを示す訓練可能な変数であり、β
kはγ
kのスケーリングファクターを調整する整形係数であり、εは正の定数である。方向形容詞が使用されている場合、κ
kは1としてラベル付けられ、γ
kは指数形式で表示され、該指数形式のγ
kは、各領域a
iの重心の予測方向に沿った投影に従って各領域a
iを加重する。柔軟性を高めるために、β
kはオフセットして追加される。方向形容詞が含まれていない場合、κ
kは0としてラベル付けられ、且つ全てのa
iについてγ
k(i)はεにプッシュされ、それにより、この判別項をキャンセルする。等式中、(9)のx
i及びb
i以外の全ての項は全ての領域重みにより共有され、学習可能な関数により次のように計算され得る。
ここで、ф*はGRU層により抽出された隠れ状態を示し、且つW*はスカラー出力を生成する線形層の重みである。
等式(8)中の注意項
は次のように示される。
ここで、
は正規化係数であり、
は領域a
iに割り当てられた第j単語の埋め込みを指し、
は修飾語
における第l単語の埋め込みを示す、該項は、予め定義された領域情報と修飾語u
kの間のマッチング単語ペアをカウントすることにより、各領域a
iを加重する。正規化された埋め込みドット積を閾値λでフィルタリングすることで単語のマッチングをチェックする。
【0042】
最後に、先験信頼度から各領域a
iの重みを収集することにより、次のように領域先験w
k-1(i)を計算する。
ここでu、vは地図座標を指し、且つη
k-1は正規化係数である。
【0043】
近接度モデル
近接関係に関する前置詞が存在する場合、後験は先験を中心とするガウス分布として表され、先験の領域サイズに比例する分散が割り当てられる。次に更新関数は次のように表現される。
ここで、x
k-1と|B
k-1|は先験b
k-1により示される領域の重心座標とサイズであり、且つρはスケーリング定数である。
【0044】
方向モデル
形容詞として使用されることに加えて、方向詞(例えば、「北」)、例えば、「会議室202の北」は主語として直接使用可能である。いくつかの実施形態では、先験はガウス分布で表わされるが、該分布は信頼度のみをu
kと一致に維持する追加のマスクが設定されている。
図6の図示の説明を参照する。更新関数は次のように表現され得る。
ここで、e
αkは有効方向α
kの単位方向ベクトルである。N
k-1は等式(13)と同じ形式を採用する。Cos(・,・)は余弦相似度である。いくつかの実施形態では、α
kは、次のように、等式(10)と類似した学習可能な変数として示される。
【0045】
ダミーモデル
いくつかの実施形態では、ダミーモデル関数は同一のマッチングである。
いくつかの実施形態では、バックプロパゲーションによる特定タイプの損失を最小化させることによって、学習可能な関数を訓練することができる。いくつかの実施形態では、訓練用の地図は一般的な作業領域、会議室や、例えば娯楽領域などの指定領域からなる事務室の間取り図である。いくつかの実施形態では、部屋や指定領域などの既存の空間構造を再利用することに加えて、廊下などの一般的な公共空間も分割される。いくつかの実施形態では、地図全体は指定属性を有する80個の領域に分割される。まとめられた領域属性は表IIに示す。
表II
領域属性及び修飾語辞書
【0046】
更新タイプtごとに、K=10個の修飾語uは、予め定義された辞書に従ってランダムに生成され(表II参照)、各領域aiはキー領域として使用される。
いくつかの実施形態では、3200個の更新サンプルは訓練に用いられる。各更新関数に基本訓練サンプルを生成するプロセスは前記のとおりである。
【0047】
ダミーモデルの場合、先験信頼度と後験信頼度が省略され、且つ各訓練サンプルはタイプラベルt*=0の単項(uk,)を有する。
【0048】
近接度モデルの場合、先験b0はキー領域内に均一に分布し、且つ後験b1はキー領域を中心とするガウス分布であり、その標準偏差がキー領域のサイズに比例する。各訓練サンプルはタイプラベルt*=1を有するタプル(b0,b1,uk)である。
【0049】
方向モデルの場合、先験b0はキー領域内に均一に分布し、方向角αkは均一な[-π,π)からサンプリングされ、且つ近接度更新と類似したガウス分布を使用して後験b1を生成するが、その半分はαkで示される方向に垂直な分割線でマスクされる。最後に、αkに基づいて修飾語ukを決定する。各訓練サンプルはタイプラベルt*=2を有するタプル(b0,b1,uk,αk)である。
【0050】
正確なモデルの場合、まず、先験b
0を生成して、キー字領域に基づく近接度更新又は方向更新の出力とする。次に、b
0から地図位置をサンプリングし、ほとんどのサンプリング位置を選択して上位の2つの領域a
1、a
2に入れる。次に、最小規則セットに基づいてa
1を一意に位置決めする修飾語uk(表III参照、括弧は利用可能な方法を示す)を生成する。また、方向詞が形容詞として使用される場合、κ
kは1としてラベル付けられ、それ以外の場合、0としてラベル付けられる。後験b
1はα
i内に均一に分布している。各訓練サンプルは、タイプラベルt*=3を有するタプル(b
0,b
1,u
k,α
k,κ
k)である。
表III
修飾語生成規則
【0051】
等式(6)において設定された更新関数セットは、各種の更新関数タイプに適用可能な全ての教師あり項の合計損失を最小化することにより訓練される。全ての教師あり項の損失について次のように定義される。分類器cについて、クロスエントロピー損失L
cは次のように使用される。
方向α
kについて、限界l2損失は次のように使用される。
インジケータκ
kについて、クロスエントロピー損失κ
kは次のように使用される。
【0052】
いくつかの実施形態では、訓練段階において、10%のデータはテストセットとして保持され、残りのサンプルについては訓練が実行される。各単語についてBert埋め込みだけを使用してテキスト命令を符号化し、長さH=768の単語埋め込みを生成する。いくつかの実施形態では、GRUの隠れサイズは8に設定され、1e-4学習速度を有するAdamは10個の時期について最適化を実行することに使用される。
【0053】
いくつかの実施形態では、各信頼度更新には、入力は先験-修飾語タプル(b0、u)であり、前記のように、各入力タプルは基盤真更新タイプt*及び必要な出力項とペアをなす。
【0054】
ステップ504は、再帰的順序に従って、N個のセグメントのうちのそれぞれを各セグメントのマッチングモデルに入力するステップであって、N個のセグメントのうちのそれぞれは、地図の初期領域又はマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域を有するステップを含む。
【0055】
図7はテキストセグメントに計算を実行する模式図を示す。
【0056】
ステップ505は、マッチングモデルによって再帰的順序における最後のセグメントについて出力される更新領域を地図中の目的地として使用するステップを含む。
【0057】
ステップ505はステップ105と同じであり、関連記述についてはステップ105の記述を参照すればよい。
【0058】
図8は、地図上の目的地の決定方法の適用シナリオを示す。ロボットのスピカーによりナビゲーション命令を説明するようにユーザに要求する。応答として、ユーザは「娯楽領域近くの北の電話室にいく」という。ロボットはマイクロフォンを介してユーザの音声を受信し、音声をテキストに変換し、次に本開示のいくつかの実施形態に係る方法を使用してテキストに基づいて地図上の目的地を決定する。目的地を決定すると、ロボットは現在の位置から目的地までの経路を計画し、カメラ及びセンサを使用して計画した経路に沿って移動する。
【0059】
図9に示すように、機器は、1つ又は複数のプロセッサ901、メモリ902及び各部材を接続するインターフェース(高速インターフェースと低速インターフェースを含む)を含む。各種の部材は異なるバスを用いて互いに接続されており、必要に応じてユニバーサルマザーボードに取り付けられたり、他の方法で取り付けられたりすることができる。プロセッサは、機器内で実行する命令、例えばメモリ内又はメモリ上に記憶された命令を処理することで、外部入力/出力機器(例えばインターフェースに接続される表示装置)上にGUIのグラフィカル情報を表示することができる。別の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスは複数のメモリとともに使用され得る。同様に、複数の電子機器が接続されてもよく、且つこれらの機器は一部の必須な操作を提供し、例えば、サーバアレイ、1グループのブレードサーバ又はマルチプロセッサシステムとして機能する。
図9において、一例として、1つのプロセッサ901が使用されている。
【0060】
メモリ902は、本開示による一時的なコンピュータ読み取り可能な記憶媒体である。メモリは少なくとも1つのプロセッサにより実行可能な命令を記憶し、該命令は、本開示の実施形態に係る地図上の目的地の決定方法を少なくとも1つのプロセッサに実行させる。本開示の一時的なコンピュータ読み取り可能な記憶媒体は、本開示の実施形態に係る地図上の目的地の決定方法をコンピュータに実行させるコンピュータ命令を記憶している。
【0061】
一時的なコンピュータ読み取り可能な記憶媒体であるメモリ902は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば本開示の実施形態に係る地図上の目的地の決定方法に対応するプログラム命令/モジュールを記憶することに用いられ得る。プロセッサ901は、メモリ902に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの各種の機能的アプリケーション及びデータ処理を実行し、即ち、本開示の実施形態に係る地図上の目的地の決定方法を実現する。
【0062】
メモリ902は、プログラム記憶エリアとデータ記憶エリアを含むことができ、これらのうち、プログラム記憶エリアは、オペレーティングシステムと少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは本開示の実施形態に係る地図上の目的の決定方法の機器を使用して作成されるデータを記憶することができる。また、メモリ902は、高速ランダムアクセスメモリを含んでもよく、且つ非一時的なメモリ、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュ装置又は他の非一時的な固体記憶装置をさらに含んでもよい。いくつかの実施形態では、メモリ902は、任意に、プロセッサ901に対して遠隔的に配置されたメモリを含み、且つこれらの遠隔メモリは本開示の実施形態に係る地図上の目的の決定方法の機器に接続されてもよい。上記ネットワークの例として、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びこれらの組み合わせが含まれるが、これらに制限されない。
【0063】
本開示のいくつかの実施形態に係る地図上の目的地の決定方法を実行する機器は、入力機器903と出力機器904をさらに含んでもよい。プロセッサ901、メモリ902、入力機器903、及び出力機器904は、バス又は他の方法を通じて接続されてもよい。
図9において、一例として、バスを介する接続が使用される。
【0064】
入力機器903は、入力したデジタル又は文字情報を受信し、ユーザ設定及び知識表現を学習する方法用の機器の機能制御に関連するキー信号入力を生成することができ、入力機器903は、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータ、1つ又は複数のマウスボタン、トラックボール、ジョイスティックや他の入力機器である。出力機器904は、表示装置、補助照明機器(例えば、LED)、触覚フィードバック機器(例えば、振動モータ)などを含んでもよい。表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイやプラズマディスプレイを含んでもよいが、これらに制限されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。
【0065】
なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。例えば、本開示に記載のステップは、並行して実施しても、順次実施しても、異なる順次で実施してもよい。本開示で開示された技術案の所望の結果が達成できる限り、本明細書ではそれについて限定しない。
【0066】
上記特定実施形態は、本開示の特許範囲に対する制限を構成するものではない。当業者にとって明らかなように、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができる。本開示の精神及び原則の範囲内で行われた修正、同等の置換、及び改良であれば、本開示の特許範囲に含まれるものとする。
【外国語明細書】