IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングの特許一覧

特許7391535マルチエージェントシステムにおけるロボットの動作方法、ロボット及びマルチエージェントシステム
<>
  • 特許-マルチエージェントシステムにおけるロボットの動作方法、ロボット及びマルチエージェントシステム 図1
  • 特許-マルチエージェントシステムにおけるロボットの動作方法、ロボット及びマルチエージェントシステム 図2
  • 特許-マルチエージェントシステムにおけるロボットの動作方法、ロボット及びマルチエージェントシステム 図3
  • 特許-マルチエージェントシステムにおけるロボットの動作方法、ロボット及びマルチエージェントシステム 図4
  • 特許-マルチエージェントシステムにおけるロボットの動作方法、ロボット及びマルチエージェントシステム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-27
(45)【発行日】2023-12-05
(54)【発明の名称】マルチエージェントシステムにおけるロボットの動作方法、ロボット及びマルチエージェントシステム
(51)【国際特許分類】
   G06Q 10/04 20230101AFI20231128BHJP
   B25J 13/00 20060101ALI20231128BHJP
   G06Q 30/08 20120101ALI20231128BHJP
【FI】
G06Q10/04
B25J13/00 Z
G06Q30/08
【請求項の数】 15
【外国語出願】
(21)【出願番号】P 2019091277
(22)【出願日】2019-05-14
(65)【公開番号】P2019200792
(43)【公開日】2019-11-21
【審査請求日】2022-02-02
(31)【優先権主張番号】10 2018 207 539.5
(32)【優先日】2018-05-15
(33)【優先権主張国・地域又は機関】DE
(73)【特許権者】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100135633
【弁理士】
【氏名又は名称】二宮 浩康
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】マティアス ビュアガー
(72)【発明者】
【氏名】フィリップ クリスティアン シリンガー
【審査官】小原 正信
(56)【参考文献】
【文献】The Power of Sequential Single-Item Auctions for Agent Coordination,[online],2017年08月09日,第1625-1629ページ,インターネット<URL: https://web.archive.org/web/20170809052544/http://pages.cs.aueb.gr/~markakis/research/aaai06-robot-routing.pdf>
【文献】 Optimal and dynamic planning for Markov decision processes with co-safe LTL specifications,[online],2014年09月,第1511-1516ページ,インターネット<URL:https://ieeexplore.ieee.org/document/6942756>
【文献】Real Time Auction Based Allocation of Tasks for Multi-Robot Exploration Problem in Dynamic Environments ,[online],2017年08月08日,全ページ,インターネット<URL: https://web.archive.org/web/20170808111838/https://web.itu.edu.tr/~sariel/publications/AAAI_workshop_2005_sariel.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
B25J 13/00
(57)【特許請求の範囲】
【請求項1】
複数のロボット(1)を備えるマルチエージェントシステムの動作方法であって、
前記複数のロボット(1)の各ロボット(1)は、以下の方法を周期的に実施し、即ち、
・現在のシステム状態(q1-q10)に基づいて、可能な複数のオプションを求め(S11)、前記可能な複数のオプションは、現在のシステム状態(q1-q10)から後続のシステム状態(q1-q10)への遷移が実現される複数の行動を規定し、
・前記可能な複数のオプションのそれぞれに対して、前記オプションによって規定された前記行動を実行するための行動コストを求め(S12)、
・オークションを実行し(S14,S15)、ここでは各オプションに対して求められた前記行動コストが、残余の各ロボット(1)によって考慮され、
・該当するオプションに対して求められた又は受信された全ての行動コストに関連して、前記可能な複数のオプションのうちの1つに相当する行動を実行し(S16)、
前記可能な複数のオプションのうちの各特定のオプションに対する前記行動コストは、それぞれ求められた経験パラメータ(V)を考慮し、前記経験パラメータ(V)は、過去の周期において、前記複数のロボットによって、過去実行された、前記特定のオプションによって規定される前記行動に対して過去にかかったコストに関連し、前記経験パラメータ(V)は、前記過去の周期において、前記過去に実行された行動の持続時間に関連して求められる、
マルチエージェントシステムの動作方法。
【請求項2】
前記複数のオプションのうちの1つに相当する行動を、対応する前記オプションに対して受信された全ての行動コストのうちの最も低いコストを示す固有の行動コストが、対応する前記オプションに対して求められた場合に、実行する、請求項1に記載の方法。
【請求項3】
前記複数のオプションのうちの1つに相当する行動を、対応する前記オプションに対して受信された全ての行動コストのうちの最も低いコストを示す固有の行動コストが、対応する前記オプションに対して求められない場合に、実行しない、請求項1又は2に記載の方法。
【請求項4】
前記経験パラメータ(V)は、前記オプションによって実行されるべき行動が開始されたときに、該当する前記ロボット(1)の物理的な開始状態の分布に関連する、請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
前記経験パラメータ(V)は、最短経路問題を解くことによって求められる、請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
該当する前記ロボット(1)によって前記行動を実行するためのコストが求められ、前記経験パラメータ(V)が、求められた前記コストに関連して、特に比較的高いkに対して低減する整合パラメータに特に関連して、整合されることによって、前記経験パラメータ(V)が、オプションに属する前記行動の終了時に更新される、請求項1乃至5のいずれか一項に記載の方法。
【請求項7】
オプションに対する前記行動コストを、前記オプションに割り当てられた前記行動を実行するための持続時間に関連して求める、及び/又は、前記オプションに割り当てられた前記行動の実行時に、前記オプションが導く、前記システム状態(q1-q10)に達するための状態条件が得られる確率に関連して求める、請求項1乃至6のいずれか一項に記載の方法。
【請求項8】
オプションに割り当てられた前記行動の実行時に、前記システム状態(q1-q10)に達するための状態条件が得られる確率が、前記行動の実行中に更新される、請求項7に記載の方法。
【請求項9】
行動の終了時に、得られた前記システム状態(q1-q10)が、残余の前記ロボット(1)に伝達される、請求項1乃至8のいずれか一項に記載の方法。
【請求項10】
後続のシステム状態(q1-q10)の到達に関する情報が受信されると、行動の実行が中断され又は終了される、請求項1乃至9のいずれか一項に記載の方法。
【請求項11】
各オプションに対して求められた行動コストが、残余の各ロボット(1)による、コストの明示的な伝達によって提供される、請求項1乃至10のいずれか一項に記載の方法。
【請求項12】
複数のロボットを含むマルチエージェントシステムの動作のためのロボット(1)であって、前記ロボット(1)は、以下のステップを周期的に実行するように構成されており、即ち、
・現在のシステム状態(q1-q10)に基づいて、可能な複数のオプションを求め(S11)、前記可能な複数のオプションは、現在のシステム状態(q1-q10)から後続のシステム状態(q1-q10)への遷移が実現される複数の行動を規定し、
・前記可能な複数のオプションのそれぞれに対して、前記オプションによって規定された前記行動を実行するための行動コストを求め(S12)、
・オークションを実行し(S14,S15)、ここでは各オプションに対して求められた行動コストが、残余の各ロボット(1)によって考慮され、
・該当するオプションに対して求められた又は受信された全ての行動コストに関連して、前記可能な複数のオプションのうちの1つに相当する行動を実行し(S16)、
前記可能な複数のオプションのうちの各特定のオプションに対する前記行動コストは、それぞれ求められた経験パラメータを考慮し、前記経験パラメータは、過去の周期において、前記複数のロボットによって過去に実行された、前記特定のオプションによって規定される前記行動に対して過去にかかったコストに関連し、前記経験パラメータ(V)は、前記過去の周期において、前記過去に実行された行動の持続時間に関連して求められている、
マルチエージェントシステムの動作のためのロボット(1)。
【請求項13】
請求項12に記載の、複数のロボット(1)を備えるマルチエージェントシステム。
【請求項14】
コンピュータプログラムが計算ユニット、特にロボット(1)上で実行されるときに、請求項1乃至11のいずれか一項に記載の方法を実施するために構成されているプログラムコード手段を備えたコンピュータプログラム。
【請求項15】
請求項14に記載のコンピュータプログラムが格納されている、機械読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチエージェントシステムに関し、特に、協調的なオークション方法を用いてタスクの分配によってマルチエージェントシステムのロボットを制御する方法に関する。
【背景技術】
【0002】
技術的な背景
タスクを共同で処理するためのロボットのチームの調整は、特に、環境の状態が不確実である場合、及び、タスク仕様が時間に関連する場合に、困難である。タスク仕様を複数の部分タスクに分解するのには、タスク仕様を分解する適切な機構が必要であり、ここでは特に、実際の環境の不確実性が原因で、個々のロボットに対して行動指示を満足に割り当てることができない。
【0003】
ロボットの個々の行動の間の時間的な関連性を再現するために、記述言語、いわゆる線形時相論理(LTL)が既知であり、これは、LTL仕様の形態のタスク仕様を再現する。LTL仕様から、行動計画、即ち、個々のロボットに対する行動指示のセットをそれ自体公知の方法により導出することができる。
【0004】
ロボットアプリケーションに対するLTLは、特に、マルコフ決定過程(MDP:Markov Decision Processes)によって、時間的な周辺条件を確率論的なモデルに統合することを可能にする。マルコフ決定過程は、行動の実行の未知の時間期間と環境における確率的なイベントを含めた不確実性を再現することを可能にする。
【0005】
行動指示を、LTLタスク仕様に対する不確実性のもとで作成するために、個々のロボットに対する計画が設定可能であり、これは、タスク仕様の自動再現をマルコフ決定過程と組み合わせる。LTLタスク記述の利用を最大化するために、行動指示を個々のロボットに対して計画することもできる。
【0006】
複数のロボットを、特定のモデルに関連せずに、調整するために、一般的に、オークション方法が既知である。P.Schillinger等著「Auctioning over Probabilistic Options for Temporal Logic-Based Multi-Robot Cooperation under Uncertainty(IEEE International Conference on Robotics and Automation,2018)」は、共通のタスクを満たす、ロボットのチームの調整方法を開示している。ここでは、時間的な関連性と環境の不確実性が考慮され得る。示されたこの方法は、タスク実行中の不確実性と観察を考慮することを可能にする。これは、オークション方法を用いてタスク分配を実行することによって行われる。
【先行技術文献】
【非特許文献】
【0007】
【文献】「Auctioning over Probabilistic Options for Temporal Logic-Based Multi-Robot Cooperation under Uncertainty(IEEE International Conference on Robotics and Automation,2018)」P.Schillinger等著
【発明の概要】
【発明が解決しようとする課題】
【0008】
時間的に関連する仕様を伴うタスクを解決するための、非決定性環境における、マルチエージェントシステムのロボットの調整に対する効率的な計画アルゴリズムは、この時点では既知ではない。
【課題を解決するための手段】
【0009】
発明の開示
本発明においては、請求項1に記載されたマルチエージェントシステムにおけるロボットの動作方法並びに他の独立請求項に記載されたロボット及びマルチエージェントシステムが提示されている。
【0010】
さらなる構成は、従属請求項に記載されている。
【0011】
第1の態様においては、複数のロボットを備えるマルチエージェントシステムの動作方法が提示されており、各ロボットは、以下の方法を周期的に実施し、即ち、
・現在のシステム状態に基づいて、可能な複数のオプションを求め、複数のオプションは、現在のシステム状態から後続のシステム状態への遷移が実現される複数の行動を規定し、
・可能な複数のオプションのそれぞれに対して、オプションによって示された行動を実行するための行動コストを求め、
・オークションを実行し、ここでは各オプションに対して求められた行動コスト値が残余の各ロボットによって考慮され、
・該当するオプションに対して求められた又は受信された全てのコスト値に関連して、複数のオプションのうちの1つに相当する行動を実行し、
所定のオプションに対する行動コストは、それぞれ経験パラメータのうちの1つを考慮し、この経験パラメータは、過去の、既に実行された、特定のオプションに対して割り当てられた、複数のロボットの複数の行動に対するコストに関連する。
【0012】
複数のロボット(エージェント)を備えるマルチエージェントシステムの上述した動作方法の考案は、マルチエージェントシステムによって解決されるべきタスク仕様を規定する決定性有限オートマトンを提供することである。決定性有限オートマトンは、複数のシステム状態を有しており、これらのシステム状態は、タスク目標を達成するために通過しなければならない1つ又は複数の状態経路を規定する。このような決定性有限オートマトンにおいては、状態遷移が、種々のロボットに、オークション方法において割り当てられる。ロボットによって実行可能な状態遷移を以降においては、オプションと称する。
【0013】
個々のロボットへの実行されるべき状態遷移の割り当てのプロセスにおいて、状態変化を生じさせる部分タスクがオプションとして各ロボットに割り当て可能である。このようなオークション方法は、適切なコスト関数を用いて、部分タスクを、該当する部分タスクを最小コストで実行することを可能にするロボットに割り当てることを可能にする。コスト関数は、特に、該当する部分タスクの実行のための時間コストと、この部分タスクの実行によって、システム状態を規定する条件が満たされる確率を考慮する。
【0014】
部分タスクによって、システム状態に対するシステム状態条件が満たされる場合、実行中の全ての、ロボットの部分タスクが中断され、新たなオークションが実行され、ここで、新たなオプションがロボットに分配される。新たなオプションは、ここで得られたシステム状態に基づく相対的な状態遷移に対応する。このような方法は、目標状態が得られるまで実施される。このようにして、部分タスクをマルチエージェントシステムにおいて、効率良く分配することが可能である。ここでは特に、時間的な関連性を特に効率的な方法で考慮することができる。
【0015】
全てのロボットにおける決定性有限オートマトンの設定によって、各ロボットは、有利には、自身のオプションを、上位のタスク目標に関して求めることができ、ここでは、極めて格段に複雑性の低い確率論的な計画問題が解決されればよい。分散したオークションスキームによって、種々のオプションを種々のロボットに割り当てることができる。ここで、提案されたオークションアルゴリズムは、ロボットが、時間的に、別の部分タスクに関連する部分タスクを実行することを可能にする。部分タスクがそれぞれ満たされると、この方法は再び、実施され、システム状態に関する知識が、現在の方式によって考慮され得る。
【0016】
上述の方法は、さらに、直線的な実装を可能にする。なぜなら特にロボットに、事前に、部分タスクを割り当てる必要がないからである。全体的に、不確実性と結び付いているシステム環境において、複数のロボットを調整する、この分散した方法は、所定のタスク仕様を実行することを可能にする。これは例えば線形時相理論(Linear Temporal Logic(LTL))の形態、特にCo-Safe LTLの形態である。
【0017】
上述した方法は、効率的に、マルチエージェントシステムの付加を調整することを可能にする。これは特に、環境条件が不確実な場合である。これは特に、全体的なロボットのチームによって処理されるべき時間的なロジックを含んでいる仕様に対して当てはまる。このためにロボットに、タスク仕様の部分タスクが自動的に割り当てられる。システム環境の状態も、計画された行動指示の規則的な更新によって考慮可能であり、従って、ロボットを柔軟に、不確実性に整合させることができる。
【0018】
さらに、複数のオプションのうちの1つに相当する行動を、対応するオプションに対して受信された全てのコスト値のうちの最小コストを示す固有のコスト値が、対応するオプションに対して求められた場合に、実行することができる。
【0019】
複数のオプションのうちの1つに相当する行動を、対応するオプションに対して受信された全てのコスト値のうちの最小コストを示す固有のコスト値が、オプションに対して求められない場合に、実行しないように設定することもできる。
【0020】
さらに、経験パラメータは、オプションによって実行されるべき行動が開始されたときに、該当するロボットの物理的な開始状態の分布に関連していてよい。
【0021】
ある実施形態においては、経験パラメータは、最短経路問題を解くことによって求められる。
【0022】
該当するロボットによって行動を実行するためのコストが求められ、経験パラメータが、求められたコストに関連して、特に比較的高いkに対して低減する整合パラメータに特に関連して整合されることによって、経験パラメータが、オプションに属する行動の終了時に更新されるように設定することができる。
【0023】
オプションに対するコスト値が、オプションに割り当てられた行動を実行するための持続時間に関連して求められる、及び/又は、オプションに割り当てられた行動の実行時に、オプションが導く、システム状態に達するための状態条件が得られる確率に関連して求められるように設定することができる。
【0024】
特に、オプションに割り当てられた行動の実行時に、システム状態に達するための状態条件が得られる確率が、行動の実行中に更新されてよい。
【0025】
ある実施形態においては、前進が、決定性有限オートマトンのシステム状態の経路に沿って行われてよい。これは、先行するシステム状態のうちの1つのシステム状態の後続のシステム状態の条件を満たすことができない場合である。ここでは特に、システム状態に、決定性有限オートマトンのシステム状態の経路に沿って前進を示す前進レベルが割り当てられる。
【0026】
行動の終了時に、得られたシステム状態が、残余のロボットに伝達されるように設定することができる。
【0027】
後続のシステム状態の到達に関する情報が受信されると、行動の実行が中断され又は終了されるように設定することができる。
【0028】
さらに、各オプションに対して求められたコスト値を、残余の各ロボットによる、コストの明示的な伝達によって提供することができる。
【0029】
別の態様においては、マルチエージェントシステムの動作のためのロボットが設けられており、ロボットは、以下のステップを周期的に実行するように構成されており、即ち、
・現在のシステム状態に基づいて、可能な複数のオプションを求め、複数のオプションは、現在のシステム状態から後続のシステム状態への遷移が実現される複数の行動を規定し、
・可能な複数のオプションのそれぞれに対して、オプションによって示された行動を実行するための行動コストを求め、
・オークションを実行し、ここでは各オプションに対して求められた行動コスト値が残余の各ロボットによって考慮され、
・該当するオプションに対して求められた又は受信された全てのコスト値に関連して、複数のオプションのうちの1つに相当する行動を実行し、
所定のオプションに対する行動コストは、それぞれ複数の経験パラメータのうちの1つを考慮し、この経験パラメータは、過去の、既に実行された、特定のオプションに対して割り当てられた、複数のロボットの複数の行動に対するコストに関連する。
【0030】
別の態様においては、マルチエージェントシステムに、複数の上述したロボットが設けられている。
【0031】
実施形態を以降において、添付の図面に基づいて詳細に説明する。
【図面の簡単な説明】
【0032】
図1】マルチエージェントシステムのロボットの概略図。
図2】決定性有限オートマトンの図。
図3】周期性有限オートマトンの図。
図4】示されたタスクでのタスク仕様を解決するためのマルチエージェントシステムの動作方法を示すフローチャート。
図5】2つの可動のロボットを備えた、システム環境に配置されたマルチエージェントシステムの例。
【発明を実施するための形態】
【0033】
実施形態の説明
以降においては、エージェントが、環境と相互作用するロボットとして設けられているマルチエージェントシステムにおいて記載された方法を記載する。ロボット1は、図1に概略的に示されているような構造を有している。ロボット1は、このためにそれぞれ1つの制御ユニット2を含んでおり、これは、部分タスクを実行するように形成されている。別のロボット1との通信のために、各ロボット1は、さらに、通信装置3を有しており、これによって、情報を別のロボット1に伝達することができ、さらに情報を別のロボット1から受信することができる。
【0034】
アクチュエータ4によって、ロボット1にシステム環境を組み込むことができる。アクチュエータ4は、例えば、前進運動アクチュエータ、把持アクチュエータ等を含むことができる。これは、ロボット1に割り当てられた部分タスクに対して対応して、それ自体公知の方法によって動作させられる。これによって、ロボット1は、特に、移動する、対象物を取り上げる、下に置く等をすることができる。
【0035】
さらに、センサ装置5によって、環境状態を検出することができる。センサ装置5は、例えばカメラ、対象物検出のために用いられる別のセンサ装置、例えば超音波装置等を含むことができる。カメラによって、相互作用され得る/相互作用されるべきである対象物の位置が識別及び同定され、システム環境内の移動を実現することができる。ここでは、障害物等である対象物が回避される。
【0036】
ロボット1にはさらに、相互作用装置6、例えばタッチディスプレイ又は言語入力/出力装置が設けられていてよく、これによって、環境の対象物又は人物と通信によって相互作用することができる。このようにして人物が、ロボット1に入力し、かつ、情報を得ることができる。
【0037】
以降に記載する方法の起点は、線形時相論理(LTL)、特にco-safe Linear Temporal Logic(scLTL)の形態のタスク仕様である。これは、解決されるべきタスクのタスク仕様に対する記述言語であり、時間的なモダリティを有している。各scLTL-タスク仕様は決定性有限オートマトン(DEA)に変換される。
【0038】
このような決定性有限オートマトン(DEA)が例示的に図2に示されている。これはシステム状態(q1-q10)を示しており、これは開始状態11(q1)、複数の中間状態12(q2-q9)と1つ又は複数の目標状態13(q10)を含んでいる。決定性有限オートマトンを示すこのダイヤグラムにおいては、矢印は、1つ又は複数の経路に沿った、開始状態11(q1)から目標状態13(q10)への状態遷移を示している。該当するシステム状態に割り当てられた状態条件が満たされている場合に、システム状態が得られる。開始状態11から目標状態13へのシステム状態は、矢印に沿った前進によって得られる。あるシステム状態から後続のシステム状態へ、戻る経路の可能性が無い場合には、経路の1つに沿って前進が行われる。経路に沿った前進は、前進レベル、特に上昇する前進レベルによって示される。
【0039】
図3は、システム状態q0-q4を備えた周期性有限オートマトンの概略図を示している。これは、繰り返す周期的なタスクを記述するのに適している。この周期性有限オートマトンは、有限オートマトンの一部であってよく、又は、有限オートマトンを表してよい。周期性有限オートマトンは、特に、次のような特徴を有している。即ち、目標状態(q4)13が得られたときに、これが早期の状態、例えば開始状態(q0)11にリセットされるという特徴を有している。以降において、そうでないことが記載されていない限り、決定性有限オートマトンと周期性有限オートマトンの定義は、記載されている方法に対して、同等に理解可能である。図示された周期性有限オートマトンは、以下のLTLの式に対応する。
【0040】
【数1】
【0041】
以降においては、周期性有限オートマトンにおいて、個々のロボット1にオプションを割り当てる方法が記載されている。決定性有限オートマトンの非周期的な部分におけるオプションの割り当ては、同一の方法又は異なる方法に従って実行可能である。
【0042】
マルチエージェントシステムの動作方法に対する前提条件は、各ロボット1が、残余の各ロボット1と通信可能であるということ、及び、各ロボット1に、周期性有限オートマトンDEAが知らされている、ということである。図4に関連して示された後続の方法は、ロボット1におけるフローを示しており、ここで、これらの方法は、基本的に、並行して、各ロボット1において実施される。
【0043】
まずはステップS11において、決定性有限オートマトンにおいて、現在の状態に基づいて、特に最初の通過の際に、開始状態11に基づいて、全ての可能なオプションが求められる。これらのオプション(設定された(現在の)システム状態/ロボット状態から可能な後続のシステム状態/ロボット状態への状態遷移として表されている)は、決定性有限オートマトンの次の可能なシステム状態に達するための可能性を表している。
【0044】
ステップS12において、ステップS11において求められた全ての可能なオプションに対して、行動コストAKが求められる。この行動コストAKは、例えば、該当するロボット1に対する各オプションを実行するための持続時間Dに関連していてよい。さらに行動コストAKは、不確実性を有するシステム環境の際に、確率を考慮する。この確率はそれぞれ、該当するロボット1によって該当するオプションを実行する際に、後続のシステム状態に対する状態条件が満たされる確率を示している。これは、直接的なコストK:K=D(s)p(s)に対して当てはまり、ここで、D(s)は、この実行が物理的な状態sで終了する条件下でオプションを実行するための見積もられた持続時間であり、pは、全ての状態sにわたって合計された、このような状態sにおける該当するオプションの状態条件が満たされる確率である。さらに、コストKは、システムの別のロボットに既に割り当てられているコストを考慮することができる。
【0045】
さらに、オプションに対する行動コストAKの計算時には、AK=K+Vによって、経験パラメータVが考慮される。このような経験パラメータVは、早期のコストを、オプションの実行時に経験値として考慮することを可能にし、これによって、該当するオプションによって規定された行動の直接的なコストKが修正可能である。
【0046】
周期性有限オートマトンの場合は、同等である現在のシステム状態と後続のシステム状態との間に、事前に実現された状態遷移(即ち、同等の状態遷移)の観察によって、特定のロボット1による、オプションを実行するためのコストがより良好に見積もられることを可能にする。特に、経験パラメータVが考慮される。これは、各システム状態に対して、特定のシステム状態への変換がどの程度有利であるのかを示す経験パラメータVの値が割り当てられることによって行われる。
【0047】
経験パラメータVの特定を、以降において、より詳細に説明する。
【0048】
ステップS13においては、このようにして求められたコストが、該当するロボット1の各可能なオプションに対して、残余の全てのロボット1に伝達される。従って、全てのロボット1において、各オプションに対するコストに関する情報が存在する。
【0049】
ステップS14においては、自身によって求められたオプションの1つによって、又は、別のロボット1から得られたオプションによって到達される各可能なシステム状態に対して、最小行動コストが求められる。
【0050】
次に、ステップS15において、各ロボット1において、オプションによって得られる中間状態に対して、自身のコストが、提供された全てのコストの中で最小コストであるか否かが検査される。そうである場合には(選択肢:はい)、該当するロボット1(これを確認したロボット)に、該当するオプション(最小コストを伴う)が割り当てられ、このオプションによって示されたシステム状態を得るための行動指示に変換される。次に、この方法はステップS16に続く。
【0051】
ステップS16においては、対応して、行動指示の実行が迅速に開始される。
【0052】
ステップS17においては、各ロボット1において、自身の行動によって、状態条件が満たされたか否か、又は、状態条件を満たしたことに関する対応する情報が、別のロボット1から受信されたか否かが検査される。そうでない場合には(選択肢:いいえ)、ステップS17に戻り、そうである場合には(選択肢:はい)、ステップS19に移動する。
【0053】
ステップS19においては、例えば、中断条件を示す、所定の目標状態が得られたか否かが検査される。そうである場合には(選択肢:はい)、この方法は、終了する。そうでない場合には、ステップS11に戻る。
【0054】
ステップS15において、各オプションに対して、いずれのオプションも最小コストによって実行され得ないことが確認されると(選択肢:いいえ)、この方法は、ステップS18に続く。
【0055】
最小コストが同等である場合には特に、複数のロボット1が、オプションの1つを同時に選択し、対応する行動指示を同時に実行してよい。割り当てプロセスによって、各ロボット1に、それに対応して、各ロボットが行動指示を実行することができるオプションが割り当てられ、又は、各ロボットは何もしないままである。
【0056】
ステップS18において、オークションの間、行動指示を計画するために、ロボット1は今後の状態を想定することができる。ロボットはこれを追求することができ、タスク提示の今後の部分に対して準備することができる。これは、次のことが保証されることによって行われるべきである。即ち、このような行動指示の追跡が現在のオプションの部分タスクの実行を妨害しない、又は、害を与えないことが保証されることによって行われるべきである。従って、割り当てられていないロボット1へのオプションの分配のために、実行されているオプションの結果を、前提条件として含まないさらなるオプションが考慮される。
【0057】
環境の不確実性によって、事前に、部分タスクの実行がどのように続くのかが明らかではない。従って、ロボット1は、自身の行動指示を、実行の間、2つの方式により更新することができる。
1.ロボット1のオプションが終了すると、各別のロボット1の現在の状態が更新される。これによって、各ロボット1の状態が変更されるので、事前に実行された行動指示が中断される。
2.ロボット1によって、実行の間に集められた知識が考慮される。これによって、特定のイベントが観察されることを示すイベント確率が整合可能である。このような更新された確率は、各ロボット1に伝達され、個々のオプションのコストを求める際に考慮される。
【0058】
タスク実行中に、各ロボット1は、この方法を周期的に実施する。ここで、周期性有限オートマトンの共通のシステム状態及び自身のロボット状態が留意される。このような状態を起点として、各ロボット1は、上述した方法を実施し、これによって次のオプションを特定する。はじめに割り当てられたオプションだけが実行されることが許容されており、現在の状態におけるLTAタスク提示に害を与える、予期されるべき前進を受理するオプションは実行されないので、いわゆる待機行動が案内される。ここで、従うべき行動指示に即して各可能な行動に対して、目標状態のうちの1つが現在のシステム状態の移行条件に害を与えるか否かが検査される。移行条件は、各システム状態において、有効な調整又は安全規則を規定する。そうである場合には、各行動は、待機行動によって置換される。この待機行動は、該当するロボット1が、各状態に留まり、移行条件に害を与えることができないことを保証する。
【0059】
各ロボット1は次に、自身のオプションを実行する。これは、定められた行動指示に従うことによって行われる。第1のロボット1が目標状態に達すると、全ての他のロボット1に中断信号が送信され、これによって、自身の現在の行動が中断される。同時に、次の反復のシステム状態qk+1が、各オプションの目標状態q’にセットされ、ロボット1の間で同期される。特に、周期性有限オートマトンの使用時には、システム状態は、目標状態13に達すると常に、開始状態11に設定される。
【0060】
経験パラメータVは、後続の計算に対応して更新される。ここで、持続時間dは、反復kの実行に必要な持続時間を測定することによって特定される。
【0061】
このために、経験パラメータVとQ関数が、ロボット1の間で分配され、割り当てられているオプションの自身のオプションを実行すべき行動を終了した各ロボット1によって更新される。このために、対応する情報がロボット1の間で伝達される。
【0062】
オプションの割り当ては、中断後に再度実施され、次のオプションが選択される。この調整によってロボット1は、確率動力学に留意し、自身のタスクの割り当てを、需要に従って整合させることができる。
【0063】
以降においては、経験パラメータVがどのようにして求められるのかが記載される。
【0064】
上述したオークションプロセスにおいて、各ロボット1は、全ての使用可能なオプションに対して、コストKを、特に実行持続時間dの形態で計算し、かつ、該当するオプションに割り当てられた行動の目標状態の経験パラメータVを計算する。実行持続時間dは、オプションの実行のために、該当するオプションの現在のロボット状態から最終状態に達するための予期されている持続時間に相当するが、これによって、複数のロボットを備えるシステムにおける物理的なシステム状態の確率性は、再現されない。これは、次のことによって生じる。即ち、種々のロボットによる、オプションによって示された行動の同時の実行時に、これが、複数のロボットのうちの1つのロボットによる目標状態の達成時に、行動の実行の最中に存在し得る、ことによって生じる。これは、この場合には迅速に終了又は中断される。このようにして生じた、これらの残余のロボット1の不特定の中間状態に基づいて、行動コストを、後続のオークションの自身の次の行動に対して、不正確にしか特定することができない。
【0065】
従って、確率性が考慮されるべき場合には、最小コストを伴うオプションを、経験パラメータVの推測的な考慮によってしか求めることができない。経験パラメータVは、オプションによって実行されるべき行動の開始時に、該当するロボット1の物理的な開始状態の分配に関連する。
【0066】
分配は、観察される開始状態によって、タスクの繰り返される実行中に再現され、経験パラメータVは、これによって、長期間のコストを、論理的な状態に関して再現することができる。これによって、オプションの各目標状態を、最短経路問題を解くことによって求めることができる。
【0067】
従って、周期性有限オートマトンにおける遷移の実行のための持続時間は、経験値
【数2】
を有するオプションoの持続時間に相当する。
【0068】
このような最短経路問題に対するベルマン方程式は、
【数3】
に相当し、ここで、境界条件V(q)=0であり、q’はオプションoの論理的な目標状態である。ここで、O(q)は、周期性有限オートマトンのシステム状態に基づく、可能なオプションのセットを示している。このようなアプローチにおいては、持続時間
【数4】
は未知であり、Vは、実際に実行される行動の実行持続時間
【数5】
の観察によってのみ、求められる。
【0069】
近似的な経験コストを、オプションoによって示される行動の実行時に、システム状態qにおいて再現するQ関数によって、反復kに対する見積もられた経験パラメータV
【数6】
から、周期性有限オートマトンの全てのシステム状態に対して、システム状態において提供可能なオプションにおいて導出される。
【0070】
これによって、常に、オプションに属する行動の終了時に、該当するロボットによって行動を実行するためのコスト又は持続時間が求められ、Q関数が
【数7】
に対応して更新される。αは、整合パラメータに相当し、これは比較的高いkの場合には低減され得る。
【0071】
図5には、マルチエージェントシステムのシナリオに対する例が示されており、これに、上述の方法が有利に適用可能である。このマルチエージェントシステムにおいては、可動のロボットR1、R2、R3が、タスクを実行すべきである。目標設定は、目標位置のセットを、種々のラベル「red」、「blue」、「yellow」及び「green」によって示す、図5に示されたカード上で、以降の目標仕様
【数8】
が実行されるべきである、ということである。
【0072】
このような目標設定は、目標位置「red」に搬送し、次に、目標位置「blue」へ搬送することによって、又は、最初に、目標位置「yellow」に搬送し、次に目標位置「green」へ搬送することによって、満たされる。搬送されるべき対象物は、位置p1及びp2から取り上げられ得る。さらに、ロボットは、これが搬出を実行するときに損傷を受けることがあり、これが損傷を受けると、さらなる対象物は取り上げられない。損傷を受けたロボット1は、位置「station」において修理されるものとしてもよい。
【0073】
オークション割り当ての分散したアプローチに基づいて、上述の方法は、任意の数のロボット1を有するマルチエージェントシステムに適用可能である。ここで、このミッションの実行時間は、さらなるロボット1の追加によって低減可能である。
図1
図2
図3
図4
図5