特許7715099 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧

特許7715099制御装置、制御システム、制御方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-07-22

(45)【発行日】2025-07-30

(54)【発明の名称】制御装置、制御システム、制御方法及びプログラム

(51)【国際特許分類】

G06Q 10/083 20240101AFI20250723BHJP

【ＦＩ】

G06Q10/083

【請求項の数】 8

(21)【出願番号】P 2022135849

(22)【出願日】2022-08-29

(65)【公開番号】P2024032276

(43)【公開日】2024-03-12

【審査請求日】2024-05-16

(73)【特許権者】

【識別番号】000003207

【氏名又は名称】トヨタ自動車株式会社

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】小田島正

(72)【発明者】

【氏名】河村芳海

(72)【発明者】

【氏名】柴田一騎

(72)【発明者】

【氏名】神保智彦

【審査官】原忠

(56)【参考文献】

【文献】国際公開第２０１９／０５８６９４（ＷＯ，Ａ１）

【文献】特開２０２１－０５１６４９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｑ１０／００－９９／００

(57)【特許請求の範囲】

【請求項1】

タスクを実行するエージェントを制御する制御装置であって、
前記タスクは、当該タスクを実行するエージェントの数が多いほど当該タスクの目標が達成される可能性が高くなり、前記タスクは、環境に複数存在し、
当該エージェントと、当該エージェントの周辺の他のエージェント及び前記タスクとに関する観測情報に基づいて、応援を要請するか否かに関する要請パラメータと、他のエージェントからの要請に応答するか否かに関する応答パラメータとを算出する要請応答処理部と、
少なくとも他のエージェントの前記要請パラメータと当該エージェントの前記応答パラメータとに基づいて、当該エージェントに関する前記タスクそれぞれの重要度を算出するための処理を行い、
前記エージェントごとに学習された方策に前記観測情報を入力して、前記方策から出力された、前記観測情報に対応する前記タスクの重要度の目標値に基づいて、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出し、
前記応答パラメータが他のエージェントからの要請に応答しないことを示す場合には、当該エージェントが実行している前記タスクの重要度が前記目標値に近づくように、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出し、
前記応答パラメータが他のエージェントからの要請に応答することを示し、前記他のエージェントの前記要請パラメータが応援を要請することを示す場合には、前記他のエージェントが実行している前記タスクの重要度と当該タスクの当該エージェントに関する重要度との差分に基づいて、前記他のエージェントが実行している前記タスクの重要度が高くなるように、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出する、重要度処理部と、
前記重要度に応じて、当該エージェントが実行すべき前記タスクを選択するタスク選択部と、
当該エージェントが選択された前記タスクを実行するように制御を行うタスク実行部と、
を有する制御装置。

【請求項2】

前記要請応答処理部は、前記エージェントごとに学習された前記方策に基づいて、前記要請パラメータ及び前記応答パラメータを算出する、
請求項１に記載の制御装置。

【請求項3】

前記要請応答処理部は、前記観測情報を前記方策に入力して前記方策から出力された要請度合い及び応答度合いに基づいて、それぞれ前記要請パラメータ及び前記応答パラメータを算出する、
請求項２に記載の制御装置。

【請求項4】

前記要請応答処理部は、前記要請度合いが予め定められた閾値を上回り、且つ、当該エージェントが実行している又は実行しようとしている前記タスクが進行していない場合に、応援を要請することを示す前記要請パラメータを算出する、
請求項３に記載の制御装置。

【請求項5】

前記要請応答処理部は、前記応答度合いが予め定められた閾値を上回り、且つ、当該エージェントが実行している又は実行しようとしている前記タスクが進行していない場合に、要請に応答することを示す前記応答パラメータを算出する、
請求項３に記載の制御装置。

【請求項6】

タスクを実行する複数のエージェントを分散して制御する制御システムであって、
前記タスクは、当該タスクを実行するエージェントの数が多いほど当該タスクの目標が達成される可能性が高くなり、前記タスクは、環境に複数存在し、
当該制御システムは、複数のエージェントそれぞれを制御する複数の制御装置を有し、
複数の制御装置それぞれは、
当該制御装置に関する当該エージェントと、当該エージェントの周辺の他のエージェント及び前記タスクとに関する観測情報に基づいて、応援を要請するか否かに関する要請パラメータと、他のエージェントからの要請に応答するか否かに関する応答パラメータとを算出する要請応答処理部と、
少なくとも他のエージェントの前記要請パラメータと当該エージェントの前記応答パラメータとに基づいて、当該エージェントに関する前記タスクそれぞれの重要度を算出するための処理を行い、
前記エージェントごとに学習された方策に前記観測情報を入力して、前記方策から出力された、前記観測情報に対応する前記タスクの重要度の目標値に基づいて、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出し、
前記応答パラメータが他のエージェントからの要請に応答しないことを示す場合には、当該エージェントが実行している前記タスクの重要度が前記目標値に近づくように、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出し、
前記応答パラメータが他のエージェントからの要請に応答することを示し、前記他のエージェントの前記要請パラメータが応援を要請することを示す場合には、前記他のエージェントが実行している前記タスクの重要度と当該タスクの当該エージェントに関する重要度との差分に基づいて、前記他のエージェントが実行している前記タスクの重要度が高くなるように、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出する、重要度処理部と、
前記重要度に応じて、当該エージェントが実行すべき前記タスクを選択するタスク選択部と、
当該エージェントが選択された前記タスクを実行するように制御を行うタスク実行部と、
を有する、
制御システム。

【請求項7】

タスクを実行するエージェントを制御する制御方法であって、
前記タスクは、当該タスクを実行するエージェントの数が多いほど当該タスクの目標が達成される可能性が高くなり、前記タスクは、環境に複数存在し、
当該エージェントと、当該エージェントの周辺の他のエージェント及び前記タスクとに関する観測情報に基づいて、応援を要請するか否かに関する要請パラメータと、他のエージェントからの要請に応答するか否かに関する応答パラメータとを算出し、
少なくとも他のエージェントの前記要請パラメータと当該エージェントの前記応答パラメータとに基づいて、当該エージェントに関する前記タスクそれぞれの重要度を算出するための処理を行い、
前記エージェントごとに学習された方策に前記観測情報を入力して、前記方策から出力された、前記観測情報に対応する前記タスクの重要度の目標値に基づいて、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出し、
前記応答パラメータが他のエージェントからの要請に応答しないことを示す場合には、当該エージェントが実行している前記タスクの重要度が前記目標値に近づくように、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出し、
前記応答パラメータが他のエージェントからの要請に応答することを示し、前記他のエージェントの前記要請パラメータが応援を要請することを示す場合には、前記他のエージェントが実行している前記タスクの重要度と当該タスクの当該エージェントに関する重要度との差分に基づいて、前記他のエージェントが実行している前記タスクの重要度が高くなるように、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出し、
前記重要度に応じて、当該エージェントが実行すべき前記タスクを選択し、
当該エージェントが選択された前記タスクを実行するように制御を行う、
コンピュータによって実行される制御方法。

【請求項8】

タスクを実行するエージェントを制御する制御方法を実現するプログラムであって、
前記タスクは、当該タスクを実行するエージェントの数が多いほど当該タスクの目標が達成される可能性が高くなり、前記タスクは、環境に複数存在し、
当該エージェントと、当該エージェントの周辺の他のエージェント及び前記タスクとに関する観測情報に基づいて、応援を要請するか否かに関する要請パラメータと、他のエージェントからの要請に応答するか否かに関する応答パラメータとを算出するステップと、
少なくとも他のエージェントの前記要請パラメータと当該エージェントの前記応答パラメータとに基づいて、当該エージェントに関する前記タスクそれぞれの重要度を算出するための処理を行い、
前記エージェントごとに学習された方策に前記観測情報を入力して、前記方策から出力された、前記観測情報に対応する前記タスクの重要度の目標値に基づいて、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出し、
前記応答パラメータが他のエージェントからの要請に応答しないことを示す場合には、当該エージェントが実行している前記タスクの重要度が前記目標値に近づくように、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出し、
前記応答パラメータが他のエージェントからの要請に応答することを示し、前記他のエージェントの前記要請パラメータが応援を要請することを示す場合には、前記他のエージェントが実行している前記タスクの重要度と当該タスクの当該エージェントに関する重要度との差分に基づいて、前記他のエージェントが実行している前記タスクの重要度が高くなるように、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出する、ステップと、
前記重要度に応じて、当該エージェントが実行すべき前記タスクを選択するステップと、
当該エージェントが選択された前記タスクを実行するように制御を行うステップと、
をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、制御装置、制御システム、制御方法及びプログラムに関する。

【背景技術】

【0002】

複数のエージェント（例えばロボット等）にタスクを実行させる技術がある。この技術に関連し、特許文献１は、汎用構造物を組み立てる能力がある移動エージェントを開示する。特許文献１において、複数の移動エージェントは、汎用構造物の組立のような動作を実行するために、作業面上のブロックのようなコンポーネントを自動的に操作する。また、種々の移動エージェントは、互いに協働して稼働することがある。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１７－０９４１２２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

タスクが未知である環境下では、タスクの実行に要するエージェントの数が分からないことがある。このような場合、特許文献１の技術では、複数のエージェントが協働してタスクを実行する場合に、タスクが進行しなくなるおそれがある。したがって、特許文献１の技術では、タスクの目標が効率的に達成されないおそれがある。

【0005】

本開示は、タスクが未知である環境下であっても、タスクの目標が効率的に達成されるようにすることが可能な制御装置、制御システム、制御方法及びプログラムを提供するものである。

【課題を解決するための手段】

【0006】

本開示にかかる制御装置は、タスクを実行するエージェントを制御する制御装置であって、前記タスクは、当該タスクを実行するエージェントの数が多いほど当該タスクの目標が達成される可能性が高くなり、前記タスクは、環境に複数存在し、当該エージェントと、当該エージェントの周辺の他のエージェント及び前記タスクとに関する観測情報に基づいて、応援を要請するか否かに関する要請パラメータと、他のエージェントからの要請に応答するか否かに関する応答パラメータとを算出する要請応答処理部と、少なくとも他のエージェントの前記要請パラメータと当該エージェントの前記応答パラメータとに基づいて、当該エージェントに関する前記タスクそれぞれの重要度を算出するための処理を行う重要度処理部と、前記重要度に応じて、当該エージェントが実行すべき前記タスクを選択するタスク選択部と、当該エージェントが選択された前記タスクを実行するように制御を行うタスク実行部と、を有する。

【0007】

また、本開示にかかる制御システムは、タスクを実行する複数のエージェントを分散して制御する制御システムであって、前記タスクは、当該タスクを実行するエージェントの数が多いほど当該タスクの目標が達成される可能性が高くなり、前記タスクは、環境に複数存在し、当該制御システムは、複数のエージェントそれぞれを制御する複数の制御装置を有し、複数の制御装置それぞれは、当該制御装置に関する当該エージェントと、当該エージェントの周辺の他のエージェント及び前記タスクとに関する観測情報に基づいて、応援を要請するか否かに関する要請パラメータと、他のエージェントからの要請に応答するか否かに関する応答パラメータとを算出する要請応答処理部と、少なくとも他のエージェントの前記要請パラメータと当該エージェントの前記応答パラメータとに基づいて、当該エージェントに関する前記タスクそれぞれの重要度を算出するための処理を行う重要度処理部と、前記重要度に応じて、当該エージェントが実行すべき前記タスクを選択するタスク選択部と、当該エージェントが選択された前記タスクを実行するように制御を行うタスク実行部と、を有する。

【0008】

また、本開示にかかる制御方法は、タスクを実行するエージェントを制御する制御方法であって、前記タスクは、当該タスクを実行するエージェントの数が多いほど当該タスクの目標が達成される可能性が高くなり、前記タスクは、環境に複数存在し、当該エージェントと、当該エージェントの周辺の他のエージェント及び前記タスクとに関する観測情報に基づいて、応援を要請するか否かに関する要請パラメータと、他のエージェントからの要請に応答するか否かに関する応答パラメータとを算出し、少なくとも他のエージェントの前記要請パラメータと当該エージェントの前記応答パラメータとに基づいて、当該エージェントに関する前記タスクそれぞれの重要度を算出するための処理を行い、前記重要度に応じて、当該エージェントが実行すべき前記タスクを選択し、当該エージェントが選択された前記タスクを実行するように制御を行う。

【0009】

また、本開示にかかるプログラムは、タスクを実行するエージェントを制御する制御方法を実現するプログラムであって、前記タスクは、当該タスクを実行するエージェントの数が多いほど当該タスクの目標が達成される可能性が高くなり、前記タスクは、環境に複数存在し、当該エージェントと、当該エージェントの周辺の他のエージェント及び前記タスクとに関する観測情報に基づいて、応援を要請するか否かに関する要請パラメータと、他のエージェントからの要請に応答するか否かに関する応答パラメータとを算出するステップと、少なくとも他のエージェントの前記要請パラメータと当該エージェントの前記応答パラメータとに基づいて、当該エージェントに関する前記タスクそれぞれの重要度を算出するための処理を行うステップと、前記重要度に応じて、当該エージェントが実行すべき前記タスクを選択するステップと、当該エージェントが選択された前記タスクを実行するように制御を行うステップと、をコンピュータに実行させる。

【0010】

本開示においては、タスクが未知である環境下であっても、タスクの目標が効率的に達成されるようにすることが可能となる。

【0011】

また、好ましくは、前記要請応答処理部は、前記エージェントごとに学習された方策に基づいて、前記要請パラメータ及び前記応答パラメータを算出する。
本開示では、このような構成により、エージェントごとに、実行すべきタスクを適切に選択することが可能となる。

【0012】

また、好ましくは、前記要請応答処理部は、前記観測情報を前記方策に入力して前記方策から出力された要請度合い及び応答度合いに基づいて、それぞれ前記要請パラメータ及び前記応答パラメータを算出する。
本開示では、このような構成により、エージェントごとに、実行すべきタスクを適切に選択することが可能となる。

【0013】

また、好ましくは、前記要請応答処理部は、前記要請度合いが予め定められた閾値を上回り、且つ、当該エージェントが実行している又は実行しようとしている前記タスクが進行していない場合に、応援を要請することを示す前記要請パラメータを算出する。
本開示では、このような構成により、当該エージェントが実行している又は実行しようとしているタスクについて応援を要請すべき場合に、適切に、応援を要請することを示す要請パラメータを算出することができる。

【0014】

また、好ましくは、前記要請応答処理部は、前記応答度合いが予め定められた閾値を上回り、且つ、当該エージェントが実行している又は実行しようとしている前記タスクが進行していない場合に、要請に応答することを示す前記応答パラメータを算出する。
本開示では、このような構成により、当該エージェントが実行している又は実行しようとしているタスクが進行している場合に、引き続き、そのタスクを実行することができる。

【0015】

また、好ましくは、前記重要度処理部は、前記エージェントごとに学習された方策に基づいて、当該エージェントに関する前記タスクそれぞれの重要度を算出する。
本開示では、このような構成により、エージェントごとに、各タスクの重要度を適切に算出することが可能となる。

【0016】

また、好ましくは、前記重要度処理部は、前記観測情報を前記方策に入力して前記方策から出力された前記観測情報に対応する前記タスクの重要度の目標値に基づいて、当該エージェントに関する前記観測情報に対応する前記タスクの重要度を算出する。
本開示では、このような構成により、エージェントごとに、観測情報に対応するタスクの重要度を、目標値に近づけるように算出することができる。これにより、適切に、タスクの重要度を算出することが可能となる。

【発明の効果】

【0017】

本開示によれば、タスクが未知である環境下であっても、タスクの目標が効率的に達成されるようにすることが可能な制御装置、制御システム、制御方法及びプログラムを提供できる。

【図面の簡単な説明】

【0018】

【図1】実施の形態１にかかる制御システムを示す図である。

【図2】実施の形態１にかかる制御装置の構成を示す図である。

【図3】実施の形態１にかかるエージェント及びタスクが存在する環境を例示する図である。

【図4】実施の形態１にかかる制御装置によって実行される制御方法を示すフローチャートである。

【図5】実施の形態２にかかる制御装置によって実行される制御方法を示すフローチャートである。

【図6】実施の形態３にかかる制御装置によって実行される制御方法を示すフローチャートである。

【発明を実施するための形態】

【0019】

（実施の形態１）
以下、図面を参照して本実施の形態について説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

【0020】

図１は、実施の形態１にかかる制御システム１を示す図である。制御システム１は、複数のエージェント１０それぞれを制御する制御装置１００と、複数のタスク５０それぞれを監視する監視装置６０とを有する。エージェント１０は、例えば、ロボット等の機械であるが、これに限定されない。各エージェント１０は、環境に配置されており、制御装置１００による制御によって、環境内で自律して動作を行う。

【0021】

制御装置１００は、例えばコンピュータである。制御装置１００は、ロボット等の機械であるエージェント１０に内蔵されていてもよい。制御装置１００は、対応するエージェント１０にタスク５０を実行させるための制御を行う。つまり、制御システム１は、複数のエージェント１０を分散して制御する。各制御装置１００は、他の制御装置１００と、有線又は無線のネットワークを介して、通信可能に接続されている。また、各制御装置１００は、監視装置６０と、有線又は無線のネットワークを介して、通信可能に接続されている。制御装置１００について、詳しくは後述する。

【0022】

エージェント１０が存在する環境には、複数のタスク５０が存在する。エージェント１０は、複数のタスク５０それぞれを実行する。各タスク５０には、目標（ゴール；終了条件）が設定されている。各エージェント１０が各タスク５０を実行することによってタスク５０が進行し、各タスク５０の目標が達成されることで、各タスク５０が実現（終了）する。

【0023】

ここで、タスク５０は、このタスク５０を実行するエージェント１０の数が多いほど、実現可能性（タスク５０の目標が達成される可能性）が高くなる。つまり、ある１つのタスク５０を１つのエージェント１０が実行しようとしてもそのタスク５０が進行しない場合、複数のエージェント１０がそのタスク５０を実行することによって、そのタスク５０が進行し、そのタスク５０が実現する可能性（タスク５０の目標が達成される可能性）が高くなる。つまり、複数のエージェント１０が協調してタスク５０を実行することによって、タスク５０が実現する可能性が高くなる。言い換えると、複数のエージェント１０が協調してタスク５０を実行することによって、タスク５０の目標が達成される可能性が高くなる。ただし、タスク５０の進行に必要なエージェント１０の数は、事前には分かっていない。タスク５０進行に必要なエージェント１０の数は、エージェント１０がタスク５０を実行することによって判明する。制御装置１００は、タスク５０の目標が達成されるようにタスク５０を実行するように、エージェント１０を制御する。詳しくは後述する。

【0024】

監視装置６０は、例えば、センサ又はカメラ等である。監視装置６０は、各タスク５０の状態を監視（検出）する。具体的には、監視装置６０は、例えば、タスク５０の位置及び速度を検出する。また、監視装置６０は、タスクが終了したかどうかの情報を格納する。また、監視装置６０は、タスク５０の目標に関する情報を格納していてもよい。監視装置６０は、タスク５０の目標が達成されたか否かを監視してもよい。なお、監視装置６０は、タスク５０ごとに設けられてもよい。あるいは、１つの監視装置６０が、複数のタスク５０を監視してもよい。なお、各エージェント１０がタスク５０の状態を検出してもよい。この場合、監視装置６０はなくてもよい。また、エージェント１０がタスク５０の状態を検出し、かつ終了判定をしてもよい。

【0025】

ここで、実施の形態１では、タスク５０は、搬送すべき荷物である。そして、各タスク５０には、荷物の搬送先であるゴール（目標）が設定されている。エージェント１０は、荷物（タスク５０）がゴールに到達するように、荷物（タスク５０）を搬送する。そして、荷物（タスク５０）を搬送するエージェント１０の数が多いほど、その荷物（タスク５０）がゴールに到達する可能性が高くなる。つまり、荷物によっては、少数のエージェント１０では搬送することができない程度に大きなものであり得る。すなわち、荷物によって、大きさ及び重さが異なり得る。一方、多くのエージェント１０が１つの荷物を協調して搬送することで、その荷物を移動させることができる。つまり、多くのエージェント１０が協調することによって、その荷物を搬送する（タスク５０を進行させる）ことができ、その目標位置にその荷物を搬送する（タスク５０の目標を達成する）ことができる。なお、その荷物を搬送するのに必要なエージェント１０の数は、分かっていない。エージェント１０が荷物の搬送を実行しようとしてみて初めて、搬送に必要なエージェント１０の数が判明する。

【0026】

図２は、実施の形態１にかかる制御装置１００の構成を示す図である。図２に示すように、制御装置１００は、主要なハードウェア構成として、制御部１０２と、記憶部１０４と、通信部１０６と、インタフェース部１０８（ＩＦ；Interface）とを有する。制御部１０２、記憶部１０４、通信部１０６及びインタフェース部１０８は、データバスなどを介して相互に接続されている。なお、機械であるエージェント１０も、図２に示した制御装置１００のハードウェア構成を有し得る。また、監視装置６０も、図２に示した制御装置１００のハードウェア構成を有し得る。

【0027】

制御部１０２は、例えばＣＰＵ（Central Processing Unit）等のプロセッサである。制御部１０２は、制御処理及び演算処理等を行う演算装置としての機能を有する。なお、制御部１０２は、複数のプロセッサを有してもよい。記憶部１０４は、例えばメモリ又はハードディスク等の記憶デバイスである。記憶部１０４は、例えばＲＯＭ（Read Only Memory）又はＲＡＭ（Random Access Memory）等である。記憶部１０４は、制御部１０２によって実行される制御プログラム及び演算プログラム等を記憶するための機能を有する。つまり、記憶部１０４（メモリ）は、１つ以上の命令を格納する。また、記憶部１０４は、処理データ等を一時的に記憶するための機能を有する。記憶部１０４は、データベースを含み得る。また、記憶部１０４は、複数のメモリを有してもよい。

【0028】

通信部１０６は、他の制御装置１００又は監視装置６０等の他の装置とネットワークを介して通信を行うために必要な処理を行う。通信部１０６は、通信ポート、ルータ、ファイアウォール等を含み得る。インタフェース部１０８は、例えばユーザインタフェース（ＵＩ）である。インタフェース部１０８は、キーボード、タッチパネル又はマウス等の入力装置と、ディスプレイ又はスピーカ等の出力装置とを有する。インタフェース部１０８は、例えばタッチスクリーン（タッチパネル）のように、入力装置と出力装置とが一体となるように構成されていてもよい。インタフェース部１０８は、ユーザ（オペレータ）によるデータの入力の操作を受け付け、ユーザに対して情報を出力する。

【0029】

実施の形態１にかかる制御装置１００は、構成要素として、観測情報取得部１１０と、方策格納部１１２と、行動出力部１２０と、要請応答処理部１３０と、重要度処理部１４０と、タスク選択部１５０と、タスク実行部１６０とを有する。上述した各構成要素は、例えば、制御部１０２の制御によって、プログラムを実行させることによって実現できる。より具体的には、各構成要素は、記憶部１０４に格納されたプログラム（命令）を、制御部１０２が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記録媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。また、各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、各構成要素は、例えばＦＰＧＡ（field-programmable gate array）又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。これらのことは、後述する他の実施の形態においても同様である。

【0030】

なお、以降の説明において、説明の対象となる制御装置１００を、「自身の制御装置１００（当該制御装置）」と称する。また、自身の制御装置１００以外の制御装置１００を、「他の制御装置１００」と称する。また、自身の制御装置１００によって制御されるエージェント１０を、「自身のエージェント（当該エージェント）」と称する。また、自身のエージェント１０以外のエージェント１０を、「他のエージェント」と称する。また、以下の説明では、自身の制御装置１００の動作について説明するが、他の制御装置１００についても、同様の動作を行う。

【0031】

制御装置１００は、上述した構成要素により、タスク５０の目標が達成されるようにタスク５０を実行するように、自身のエージェント１０を制御する。つまり、制御装置１００は、自身のエージェント１０がタスク５０を実行するための制御を行う。制御装置１００は、自身のエージェント１０と、自身のエージェント１０の周辺の他のエージェント１０及びタスク５０とに関する観測情報に基づいて、自身のエージェント１０の要請パラメータ及び応答パラメータを算出する。ここで、「要請パラメータ」は、他のエージェント１０に応援を要請するか否かに関するパラメータである。また、「応援を要請する」とは、他のエージェント１０が、自身のエージェント１０と協調してタスク５０を実行するようにすることに対応する。また、「応答パラメータ」は、他のエージェント１０からの要請に応答するか否かに関する００３８パラメータである。また、「要請に応答する」とは、自身のエージェント１０が、他のエージェント１０と協調してタスク５０を実行するようにすることに対応する。

【0032】

また、制御装置１００は、他のエージェント１０の要請パラメータと、自身のエージェント１０の応答パラメータとに基づいて、自身のエージェント１０に関するタスク５０それぞれの重要度を算出するための処理を行う。ここで、「重要度」は、エージェント１０がどのタスク５０を選択して実行するかを決定するために使用される。重要度が高いタスク５０ほど、エージェント１０に選択され、選択されたエージェント１０に実行される可能性が高くなる。

【0033】

また、制御装置１００は、重要度に応じて、自身のエージェント１０が実行すべきタスク５０を選択する。制御装置１００は、自身のエージェント１０が選択されたタスク５０を実行するように制御を行う。そして、制御装置１００は、制御周期ごとに、上記の処理を繰り返す。応援を要請することを示す要請パラメータを算出したエージェント１０が実行しているタスク５０の重要度が、要請に応答することを示す応答パラメータを算出した他のエージェント１０において大きくなる可能性が高くなる。したがって、そのエージェント１０がそのタスク５０に応援に来る可能性が高くなる。以下、詳細に説明する。

【0034】

観測情報取得部１１０は、周辺の環境から観測情報を取得する。観測情報は、自身のエージェント１０と、自身のエージェント１０の周辺の他のエージェント１０及びタスク５０とに関する情報である。したがって、観測情報は、自身のエージェント１０に関する情報を含む。また、観測情報は、自身のエージェント１０の周辺の、他のエージェント１０に関する情報及びタスク５０に関する情報を含む。

【0035】

図３は、実施の形態１にかかるエージェント１０及びタスク５０が存在する環境を例示する図である。なお、エージェント１０の数をＭとし、タスク５０の数をＮとする。また、自身のエージェント１０を、「エージェント＃ｉ」とする。ｉは、自身のエージェント１０を示すインデックスである。また、他のエージェント１０を「エージェント＃ｊ」とする。ｊは、他のエージェント１０を示すインデックスである。

【0036】

また、エージェント＃ｉの近傍の他のエージェント１０を、「近傍エージェント」と称する。近傍エージェントは、例えば、エージェント＃ｉからの距離が所定範囲内（図３の破線の円で示す）の所定数の他のエージェント１０であってもよい。あるいは、近傍エージェントは、エージェント＃ｉに最も近い所定数の他のエージェント１０であってもよい。実施の形態１では、「所定数」を２とする。これらの２つの近傍エージェントを、それぞれ、エージェント＃ｊ_１、エージェント＃ｊ_２とする。また、図３には、近傍エージェント以外のエージェント１０であるエージェント＃１及びエージェント＃Ｍが示されている。なお、実際には、エージェント１０の総数Ｍから自身のエージェント１０及び２つの近傍エージェントを除いた、（Ｍ－３）個の、近傍エージェント以外のエージェント１０が存在する。

【0037】

また、タスク５０のインデックスを「ｌ」（ｌ∈｛１，・・・，Ｎ｝）とする。エージェント＃ｉの近傍のタスク５０を、「近傍タスク」と称する。近傍タスクは、例えば、エージェント＃ｉからの距離が所定範囲内（図３の破線の円で示す）の所定数のタスク５０であってもよい。なお、この「所定範囲」は、上記の近傍エージェントを定義するものとは異なる範囲であってもよい。あるいは、近傍タスクは、エージェント＃ｉに最も近い所定数のタスク５０であってもよい。実施の形態１では、「所定数」を２とする。これらの２つの近傍タスクを、それぞれ、タスク＃ｌ_１、タスク＃ｌ_２とする。また、図３には、近傍タスク以外のタスク５０であるタスク＃１、タスク＃２及びタスク＃Ｎが示されている。なお、実際には、タスク５０の総数Ｎから近傍タスクを除いた、（Ｎ－２）個の、近傍タスク以外のタスク５０が存在する。

【0038】

また、ｘは、エージェント１０の位置（現在位置）を示す。ｘ_ｉは、エージェント＃_ｉの位置を示す。ｘ_ｊは、エージェント＃_ｊの位置を示す。また、ｚは、タスク５０の位置（現在位置）を示す。また、ｚ^＊は、タスク５０の目標位置（ゴール）を示す。ｚ_ｌは、タスク＃ｌの位置を示す。ｚ_ｌ ^＊は、タスク＃ｌの目標位置を示す。なお、タスク５０の「位置」とは、実空間上のどの場所にタスク５０があるかを示すものに限られず、タスク５０の状態を示すものであってもよい。この場合、タスク５０の「位置」は、タスク５０の状態を表す仮想空間上の点を示してもよい。例えば、タスク５０の状態は、タスク５０の捗り具合を示してもよく、タスク５０の「位置」は、タスク５０の捗り具合を表す仮想空間上の点を示してもよい。

【0039】

また、φは、各エージェント１０に関する各タスク５０の重要度を示す。φ_ｉは、エージェント＃ｉにとっての各タスク５０の重要度を示す。φ_ｊは、エージェント＃ｊにとっての各タスク５０の重要度を示す。なお、φは、タスク５０の数Ｎに相当する数の成分を有し、タスク＃１，・・・，＃ｌ，・・・，＃Ｎそれぞれの重要度を示す。例えば、重要度φ_ｉ ^ｌは、エージェント＃ｉにとってのタスク＃ｌの重要度を示す。各エージェント１０に関する重要度は、各エージェント１０の制御装置１００で算出され、周辺のエージェント１０（制御装置１００）に対して送信（ブロードキャスト）される。詳しくは後述する。

【0040】

観測情報取得部１１０は、周辺のエージェント１０及びタスク５０の位置を取得する。具体的には、観測情報取得部１１０は、周辺のエージェント１０に関する他の制御装置１００から、そのエージェント１０に関する情報を取得する。エージェント１０に関する情報は、例えば、そのエージェント１０の位置、及びそのエージェント１０に関する各タスク５０の重要度（そのエージェント１０にとっての各タスク５０の重要度）を示す。また、観測情報取得部１１０は、監視装置６０から、各タスク５０に関する情報を取得する。タスク５０に関する情報は、例えば、そのタスク５０の状態と、そのタスク５０の目標とを示す。タスク５０の状態は、例えば、タスク５０の位置及び速度を含み得る。

【0041】

観測情報取得部１１０は、取得されたエージェント＃ｊの位置から、エージェント＃ｉとエージェント＃ｊとの間の距離Ｄ_ｉｊを算出する。ここで、Ｄ_ｉｊ＝｜｜ｘ_ｉ－ｘ_ｊ｜｜_２である。また、観測情報取得部１１０は、取得されたタスク５０の位置から、自身のエージェント１０（エージェント＃ｉ）と各タスク＃ｌとの間の距離を算出する。具体的には、観測情報取得部１１０は、以下の式（１）を用いて、エージェント＃ｉとタスク＃ｌとの間の距離Ｄ_ｉｌを算出する。

【数1】

・・・（１）

【0042】

式（１）において、「０．０５」は、タスク＃ｌが目標位置に到達したか否か（つまりタスク＃ｌが目標を達成したか否か）を判定するための閾値である。ｚ_ｌとｚ_ｌ ^＊との距離が０．０５以下であれば、タスク＃ｌは目標位置に到達したとみなされる。また、「１．０ｅ４」は、エージェント＃ｉの近傍とみなされないほど大きな値である。つまり、式（１）から、目標位置に到達したタスク５０については、Ｄ_ｉｌは、実際の距離よりも非常に大きな距離に算出される。したがって、目標位置に到達したタスク５０については、以降の処理において無視され得る。

【0043】

観測情報取得部１１０は、Ｄ_ｉｊとＤ_ｉｌとを用いて、自身のエージェント１０（エージェント＃ｉ）の観測情報ｏ_ｉを取得する。観測情報取得部１１０は、Ｄ_ｉｊを用いて、所定数の近傍エージェントを判定し、近傍エージェントに関する情報を、観測情報ｏ_ｉの一部とする。また、観測情報取得部１１０は、Ｄ_ｉｌを用いて、所定数の近傍タスクを判定し、近傍タスクに関する情報を、観測情報ｏ_ｉの一部とする。

【0044】

ここで、実施の形態１における近傍タスクについて説明する。エージェント＃ｉに関する近傍タスクの条件は、以下の式（２）で示される。なお、式（２）で示されるように、エージェント＃ｉに関する近傍タスクの数は２個である。

【数2】

・・・（２）

【0045】

ここで、ｌ_ｉ ^１は、エージェント＃ｉに関する近傍タスク＃ｌ_１であり、以下の式（３）で定義される。つまり、近傍タスク＃ｌ_ｉ ^１（近傍タスク＃ｌ_１）は、エージェント＃ｉに最も近いタスク５０である。なお、この近傍タスク＃ｌ_１は、エージェント＃ｉが現時点で実行中であるタスク５０であり得る。

【数3】

・・・（３）

【0046】

また、ｌ_ｉ ^２は、エージェント＃ｉに関する近傍タスク＃ｌ_２であり、以下の式（４）で定義される。つまり、近傍タスク＃ｌ_ｉ ^２（近傍タスク＃ｌ_２）は、エージェント＃ｉに２番目に近いタスク５０である。

【数4】

・・・（４）

【0047】

観測情報取得部１１０は、以下の式（５）に示すような観測情報ｏ_ｉを取得する。なお、式（５）において、右肩のＴは転置を示す。また、式（５）は、ある時点（例えば時刻ｔ）における観測情報を示す。

【数5】

・・・（５）

【0048】

ここで、式（５）において、以下の式（６）は、自身のエージェント１０（エージェント＃ｉ）についての情報である。なお、式（６）は、左から順に、エージェント＃ｉの位置、エージェント＃ｉに関する近傍タスク＃ｌ_１の重要度、エージェント＃ｉに関する近傍タスク＃ｌ_２の重要度を示す。

【数6】

・・・（６）

【0049】

また、式（５）において、以下の式（７）は、近傍エージェント＃ｊ_１についての情報である。なお、近傍エージェント＃ｊ_１は、近傍タスク＃ｌ_１と同様に、自身のエージェント１０（エージェント＃ｉ）に最も近い他のエージェント１０であってもよい。なお、式（７）は、左から順に、近傍エージェント＃ｊ_１の位置、近傍エージェント＃ｊ_１に関する近傍タスク＃ｌ_１の重要度、近傍エージェント＃ｊ_１に関する近傍タスク＃ｌ_２の重要度を示す。

【数7】

・・・（７）

【0050】

また、式（５）において、以下の式（８）は、近傍エージェント＃ｊ_２についての情報である。なお、近傍エージェント＃ｊ_２は、近傍タスク＃ｌ_２と同様に、自身のエージェント１０（エージェント＃ｉ）に２番目に近い他のエージェント１０であってもよい。なお、式（８）は、左から順に、近傍エージェント＃ｊ_２の位置、近傍エージェント＃ｊ_２に関する近傍タスク＃ｌ_１の重要度、近傍エージェント＃ｊ_２に関する近傍タスク＃ｌ_２の重要度を示す。

【数8】

・・・（８）

【0051】

また、式（５）において、右から２番目のｏ＿（ｌ_１）＾ｔａｓｋは、近傍タスク＃ｌ_１に関する情報である。ｏ＿（ｌ_１）＾ｔａｓｋは、近傍タスク＃ｌ_１の状態及び目標を示してもよい。上述したように、実施の形態１においては、タスク５０は、搬送すべき荷物である。この場合、ｏ＿（ｌ_１）＾ｔａｓｋは、以下の式（９）のように定義され得る。なお、式（９）の右辺は、左から順に、近傍タスク＃ｌ_１の位置、近傍タスク＃ｌ_１の速度、及び近傍タスク＃ｌ_１の目標位置（ゴールつまり搬送先）を示す。近傍タスク＃ｌ_１の位置及び速度が、近傍タスクの状態に対応する。なお、近傍タスクの速度は、近傍タスクの制御周期ごとの位置の差分から算出され得る。後述する他の物体の速度についても同様である。

【数9】

・・・（９）

【0052】

同様に、式（５）において、右から１番目のｏ＿（ｌ_２）＾ｔａｓｋは、近傍タスク＃ｌ_２に関する情報である。ｏ＿（ｌ_２）＾ｔａｓｋは、近傍タスク＃ｌ_２の状態及び目標を示してもよい。また、実施の形態１において、ｏ＿（ｌ_２）＾ｔａｓｋは、以下の式（１０）のように定義され得る。なお、式（１０）の右辺は、左から順に、近傍タスク＃ｌ_２の位置、近傍タスク＃ｌ_２の速度、及び近傍タスク＃ｌ_２の目標位置（ゴールつまり搬送先）を示す。近傍タスク＃ｌ_２の位置及び速度が、近傍タスクの状態に対応する。

【数10】

・・・（１０）

【0053】

式（５）、式（９）及び式（１０）から、タスクが搬送すべき荷物である実施の形態１において、観測情報ｏ_ｉは、以下の式（１１）のように表される。

【数11】

・・・（１１）

【0054】

方策格納部１１２は、強化学習によって学習済みの方策π（学習済みモデル）を格納する。方策πは、エージェント１０ごとに学習されている。したがって、学習済みの方策π（方策πを構成するネットワーク（ニューラルネットワーク等）のパラメータ）は、エージェント１０ごとに異なり得る。

【0055】

エージェント＃ｉの方策π_ＮＮ，ｉは、上述した観測情報ｏ_ｉを入力とし、以下の式（１２）で示す行動ａ_ｉを出力とする。したがって、行動ａ_ｉは、方策π_ＮＮ，ｉの出力値である。

【数12】

・・・（１２）

【0056】

ここで、ｃ_ｉ ^ｌは、エージェント＃ｉに関する、近傍タスク＃ｌの重要度φ_ｉ ^ｌの目標値であり、エージェント＃ｉが、近傍タスク＃ｌをどれだけ重視するかを示す指標（意思）に対応する。なお、重要度φ_ｉ ^ｌは、目標値ｃ_ｉ ^ｌまでの値をとり得る。言い換えると、重要度φ_ｉ ^ｌは、目標値ｃ_ｉ ^ｌまで大きくなり得る。式（１２）の第１右辺（左から２番目の式）の第１成分であるｃ_ｉ＾（ｌ_１）は、エージェント＃ｉに関する、近傍タスク＃ｌ_１の重要度の目標値である。同様に、式（１２）の第１右辺の第２成分であるｃ_ｉ＾（ｌ_２）は、エージェント＃ｉに関する、近傍タスク＃ｌ_２の重要度の目標値である。

【0057】

また、式（１２）の第１右辺の第３成分であるａ_ｉ ^ｄは、エージェント＃ｉの要請度合いを示す。また、式（１２）の第１右辺の第４成分であるａ_ｉ ^σは、エージェント＃ｉの応答度合いを示す。ここで、以下の式（１３）に示すように、ａ_ｉ ^ｄ及びａ_ｉ ^σが取り得る値の範囲は、０以上１以下である。

【数13】

・・・（１３）

【0058】

要請度合いａ_ｉ ^ｄは、エージェント＃ｉが応援を要請する度合いを示す。つまり、ａ_ｉ ^ｄの値が高いほど、他のエージェント１０が、自身のエージェント１０と協調してタスク５０を実行する可能性が高くなる。言い換えると、ａ_ｉ ^ｄの値が高いほど、他のエージェント１０に応援を要請することを示す要請パラメータが算出される可能性が、高くなる。

【0059】

応答度合いａ_ｉ ^σは、エージェント＃ｉが要請に応答する度合いを示す。つまり、ａ_ｉ ^σの値が高いほど、自身のエージェント１０が、他のエージェント１０と協調してタスク５０を実行する可能性が高くなる。言い換えると、ａ_ｉ ^σの値が高いほど、他のエージェント１０からの要請に応答することを示す応答パラメータが算出される可能性が、高くなる。

【0060】

また、方策π_ＮＮ，ｉは、以下の式（１４）で示す報酬ｒ_ｉ（ｔ）を最大化するように学習されている。つまり、学習段階で、方策π_ＮＮ，ｉは、観測情報ｏ_ｉを入力とし、行動ａ_ｉを出力する。そして、行動ａ_ｉが出力された場合に報酬ｒ_ｉ（ｔ）が計算される。そして、その報酬（累積報酬）が大きくなるように、方策π_ＮＮ，ｉ内のネットワークのパラメータ（重み）が随時更新されていく。なお、式（１４）の右辺にインデックスｉがないことから分かるように、報酬はエージェントによらず共通である。そして、得られた共通の報酬から、エージェントごとに異なるＱ値のネットワークと、方策のネットワークとを更新していく。これにより、方策π_ＮＮ，ｉが学習される。

【数14】

・・・（１４）

【0061】

ｔは時刻を示す。また、Ｐ_ｌ（ｔ）は、時刻ｔにおけるタスク＃ｌの達成度を示す。したがって、式（１４）の右辺第１項は、時刻ｔにおける各タスク＃ｌ（＃１，・・・，＃Ｎ）の達成度Ｐ_ｌ（ｔ）の総和（Summation）である。なお、タスク５０の達成度とは、タスク５０の目標に対する達成度合いを示してもよい。あるいは、タスク５０の達成度は、タスク５０の目標が達成されたか否かを示してもよい。

【0062】

また、Ｑ_ｌ（ｔ）は、時刻ｔにおけるタスク＃ｌの進行度を示す。したがって、式（１４）の右辺第２項は、時刻ｔにおける各タスク＃ｌ（＃１，・・・，＃Ｎ）の進行度Ｑ_ｌ（ｔ）の総和である。λは所定の係数である。なお、タスク５０の進行度とは、タスク５０がどれだけ進行しているかを示す。つまり、タスク５０の進行度とは、タスク５０の捗り具合を示す。したがって、タスク５０が進行していれば進行度は高くなり得、タスク５０が滞っていれば進行度は低くなり得る。

【0063】

ここで、上述したように、実施の形態１では、タスク５０は、搬送すべき荷物である。そして、実施の形態１では、タスク５０の目標が達成されるとは、タスク５０が目標位置に到達することである。したがって、実施の形態１では、Ｐ_ｌ（ｔ）を、以下の式（１５）のように定義する。式（１５）は、時刻ｔにおいて荷物であるタスク＃ｌが目標位置に到達していれば、Ｐ_ｌ（ｔ）＝１であり、そうでなければ、Ｐ_ｌ（ｔ）＝０であることを示している。

【数15】

・・・（１５）

【0064】

また、実施の形態１では、荷物が速く移動していれば、その荷物の搬送は捗っており、荷物があまり速く移動していなければ、その荷物の搬送は滞っていると言える。つまり、実施の形態１では、荷物であるタスク５０が速く移動しているほど、そのタスク５０の進行度は高くなり得る。したがって、実施の形態１では、Ｑ_ｌ（ｔ）を、以下の式（１６）のように定義する。式（１６）に示すように、実施の形態１では、タスク＃ｌの進行度Ｑ_ｌ（ｔ）は、荷物であるタスク＃ｌの移動速度に対応する。つまり、実施の形態１では、荷物であるタスク＃ｌが速く移動しているほど、進行度Ｑ_ｌ（ｔ）は高くなり得る。

【数16】

・・・（１６）

【0065】

式（１６）より、実施の形態１では、上記の式（１４）で示した報酬ｒ_ｉ（ｔ）は、以下の式（１７）のように表される。

【数17】

・・・（１７）

【0066】

行動出力部１２０は、上述した方策πを用いて、観測情報ｏ_ｉに対応する行動ａ_ｉを出力する。具体的には、行動出力部１２０は、観測情報ｏ_ｉを方策π_ＮＮ，ｉに入力する。これにより、方策π_ＮＮ，ｉは、行動ａ_ｉを出力する。

【0067】

要請応答処理部１３０は、自身のエージェント１０に関する要請パラメータ及び応答パラメータを算出する。要請応答処理部１３０は、行動出力部１２０によって方策π_ＮＮ，ｉから出力された行動ａ_ｉに基づいて、エージェント＃ｉに関する要請パラメータ及び応答パラメータを算出する。ここで、行動ａ_ｉは、観測情報ｏ_ｉに応じて出力されたものであるので、要請応答処理部１３０は、観測情報に基づいて要請パラメータと応答パラメータとを算出していると言える。

【0068】

要請応答処理部１３０は、行動出力部１２０によって方策π_ＮＮ，ｉから出力された要請度合いａ_ｉ ^ｄに基づいて、エージェント＃ｉに関する要請パラメータｄ_ｉを算出する。具体的には、要請応答処理部１３０は、要請度合いａ_ｉ ^ｄが予め定められた閾値を上回る場合に、応援を要請することを示す要請パラメータｄ_ｉを算出してもよい。一方、要請応答処理部１３０は、要請度合いａ_ｉ ^ｄが閾値以下である場合に、応援を要請しないことを示す要請パラメータｄ_ｉを算出してもよい。あるいは、要請応答処理部１３０は、要請度合いａ_ｉ ^ｄが閾値を上回り、且つ、自身のエージェント１０が実行している又は実行しようとしているタスク５０が進行していない場合に、応援を要請することを示す要請パラメータｄ_ｉを算出してもよい。一方、要請応答処理部１３０は、上記の条件が満たされない場合に、応援を要請しないことを示す要請パラメータｄ_ｉを算出してもよい。要請応答処理部１３０は、算出された要請パラメータｄ_ｉを、他のエージェント１０に関する制御装置１００に送信する。

【0069】

例えば、要請応答処理部１３０は、以下の式（１８）を用いて、エージェント＃ｉの要請パラメータｄ_ｉを算出する。ここで、ｄ_ｉ＝１は、エージェント＃ｉが応援を要請することを示す。ｄ_ｉ＝０は、エージェント＃ｉが応援を要請しないことを示す。したがって、要請パラメータｄ_ｉは、応援の要請というイベントのトリガとして機能し得る。

【数18】

・・・（１８）

【0070】

式（１８）において、「０．５」は、予め定められた閾値である。閾値は、０．５に限られない。また、ｌ_ｉ ^＊は、エージェント＃ｉについて現在選択されているタスク５０を示す。言い換えると、ｌ_ｉ ^＊は、前回の制御周期において後述するタスク選択部１５０によって選択されたタスク５０を示す。さらに言い換えると、ｌ_ｉ ^＊は、自身のエージェント１０（エージェント＃ｉ）が実行している又は実行しようとしているタスク５０を示す。また、Ｑ＿（ｌ_ｉ ^＊）（ｔ）は、タスク＃ｌ_ｉ ^＊の進行度である。そして、Ｑ＿（ｌ_ｉ ^＊）（ｔ）＝０とは、タスク＃ｌ_ｉ ^＊が進行していないことを示す。

【0071】

したがって、式（１８）は、要請度合いａ_ｉ ^ｄが閾値「０．５」を上回り、且つ、エージェント＃ｉについて現在選択されているタスク＃ｌ_ｉ ^＊の進行度が０である（つまりタスク＃ｌ_ｉ ^＊が進行していない）場合に、要請パラメータがｄ_ｉ＝１であることを示す。言い換えると、式（１８）は、要請度合いａ_ｉ ^ｄが閾値「０．５」を上回り、且つ、エージェント＃ｉについて現在選択されているタスク＃ｌ_ｉ ^＊が進行していない場合に、応援を要請することを示す要請パラメータｄ_ｉが算出されることを示す。また、式（１８）は、上記の条件が満たされない場合に、ｄ_ｉ＝０であることを示す。つまり、式（１８）は、上記の条件が満たされない場合に、応援を要請しないことを示す要請パラメータｄ_ｉが算出されることを示す。なお、本実施の形態では、応援を要請することを示す要請パラメータが算出されたからといって、実際に、エージェント＃ｉについて現在選択されているタスク＃ｌ_ｉ ^＊に対して他のエージェント＃ｊが応援に来るとは限らない。タスク＃ｌ_ｉ ^＊に対して他のエージェント＃ｊが実際に応援に来るかどうかは、そのタスク＃ｌ_ｉ ^＊の重要度に応じて決定され得る。すなわち、タスク＃ｌ_ｉ ^＊に対して他のエージェント＃ｊが実際に応援に来るかどうかは、エージェント＃ｊが持つタスク＃ｌ_ｉ ^＊の重要度によって決まる。言い換えると、タスク＃ｌ_ｉ ^＊に対して他のエージェント＃ｊが実際に応援に来るかどうかは、エージェント＃ｊにとってのタスク＃ｌ_ｉ ^＊の重要度によって決まる。

【0072】

なお、自身のエージェント＃ｉについて選択されているタスク＃ｌ_ｉ ^＊が進行している場合、自身のエージェント＃ｉと他のエージェント＃ｊとが協調しなくても、タスク＃ｌ_ｉ ^＊が進行している。このような場合に、応援を要請してタスク＃ｌ_ｉ ^＊を他のエージェント＃ｊと協調して実行することは、無駄となり得る。したがって、上記の式（１８）では、要請度合いａ_ｉ ^ｄが高くても、エージェント＃ｉについて現在選択されているタスク＃ｌ_ｉ ^＊の進行度が０でない場合は、ｄ_ｉ＝０となる。これにより、無駄な要請を行うことを抑制することができる。

【0073】

また、要請応答処理部１３０は、行動出力部１２０によって方策π_ＮＮ，ｉから出力された応答度合いａ_ｉ ^σに基づいて、エージェント＃ｉに関する応答パラメータσ_ｉを算出する。要請応答処理部１３０は、応答度合いａ_ｉ ^σが予め定められた閾値を上回る場合に、要請に応答することを示す応答パラメータσ_ｉを算出してもよい。一方、要請応答処理部１３０は、応答度合いａ_ｉ ^σが閾値以下である場合に、要請に応答しないことを示す応答パラメータσ_ｉを算出してもよい。あるいは、要請応答処理部１３０は、応答度合いａ_ｉ ^σが閾値を上回り、且つ、自身のエージェント１０が実行している又は実行しようとしているタスク５０が進行していない場合に、要請に応答することを示す応答パラメータσ_ｉを算出してもよい。一方、要請応答処理部１３０は、上記の条件が満たされない場合に、要請に応答しないことを示す応答パラメータσ_ｉを算出してもよい。

【0074】

例えば、要請応答処理部１３０は、以下の式（１９）を用いて、エージェント＃ｉの応答パラメータσ_ｉを算出する。ここで、σ_ｉ＝１は、エージェント＃ｉが要請に応答することを示す。σ_ｉ＝０は、エージェント＃ｉが要請に応答しないことを示す。したがって、応答パラメータσ_ｉは、要請に対する応答というイベントのトリガとして機能し得る。

【数19】

・・・（１９）

【0075】

式（１９）において、「０．５」は、予め定められた閾値である。閾値は、０．５に限られない。また、この閾値は、式（１８）の閾値と同じ値でなくてもよい。また、上述したように、ｌ_ｉ ^＊は、エージェント＃ｉについて現在選択されているタスク５０を示す。また、Ｑ＿（ｌ_ｉ ^＊）（ｔ）は、タスク＃ｌ_ｉ ^＊の進行度である。そして、Ｑ＿（ｌ_ｉ ^＊）（ｔ）＝０とは、タスク＃ｌ_ｉ ^＊が進行していないことを示す。

【0076】

したがって、式（１９）は、応答度合いａ_ｉ ^σが閾値「０．５」を上回り、且つ、エージェント＃ｉについて現在選択されているタスク＃ｌ_ｉ ^＊の進行度が０である（つまりタスク＃ｌ_ｉ ^＊が進行していない）場合に、応答パラメータがσ_ｉ＝１であることを示す。言い換えると、式（１９）は、応答度合いａ_ｉ ^σが閾値「０．５」を上回り、且つ、エージェント＃ｉについて現在選択されているタスク＃ｌ_ｉ ^＊が進行していない場合に、要請に応答することを示す応答パラメータσ_ｉが算出されることを示す。また、式（１９）は、上記の条件が満たされない場合に、σ_ｉ＝０であることを示す。つまり、式（１９）は、上記の条件が満たされない場合に、要請に応答しないことを示す応答パラメータσ_ｉが算出されることを示す。なお、本実施の形態では、要請に応答することを示す応答パラメータが算出されたからといって、実際に、エージェント＃ｉが他のエージェント＃ｊのタスク＃ｌに対して応援に行くとは限らない。エージェント＃ｉが他のエージェント＃ｊのタスク＃ｌに対して実際に応援に行くかどうかは、そのタスク＃ｌの重要度に応じて決定され得る。すなわち、エージェント＃ｉが他のエージェント＃ｊのタスク＃ｌに対して実際に応援に行くかどうかは、エージェント＃ｊが持つタスク＃ｌの重要度によって決まる。言い換えると、エージェント＃ｉが他のエージェント＃ｊのタスク＃ｌに対して実際に応援に行くかどうかは、エージェント＃ｊにとってのタスク＃ｌの重要度によって決まる。

【0077】

なお、自身のエージェント＃ｉについて選択されているタスク＃ｌ_ｉ ^＊が進行している場合に要請に応答して他のエージェント＃ｊのタスク＃ｌに実際に応援に行くと、エージェント＃ｉは、タスク＃ｌ_ｉ ^＊の実行を停止することになる。しかしながら、エージェント＃ｉが進行しているタスクの実行を停止することは、無駄となり得る。つまり、エージェント＃ｉについて現在選択されている（つまりエージェント＃ｉが実行している）タスク＃ｌ_ｉ ^＊が進行している場合は、引き続き、そのタスク＃ｌ_ｉ ^＊を実行することが好ましい。したがって、上記の式（１９）では、応答度合いａ_ｉ ^σが高くても、エージェント＃ｉについて現在選択されているタスク＃ｌ_ｉ ^＊の進行度が０でない場合は、σ_ｉ＝０となる。これにより、無駄な応答を行うことを抑制することができる。

【0078】

ここで、上述したように、実施の形態１では、タスク＃ｌは、搬送すべき荷物である。そして、実施の形態１では、上記の式（１６）で示すように、タスク＃ｌの進行度は、荷物であるタスク＃ｌの移動速度に対応する。したがって、実施の形態１では、タスク＃ｌ_ｉ ^＊の進行度は、以下の式（２０）のように表される。

【数20】

・・・（２０）

【0079】

したがって、実施の形態１では、上記の式（１８）で示した要請パラメータｄ_ｉは、以下の式（２１）のように表される。

【数21】

・・・（２１）

【0080】

また、実施の形態１では、上記の式（１９）で示した応答パラメータσ_ｉは、以下の式（２２）のように表される。

【数22】

・・・（２２）

【0081】

重要度処理部１４０は、自身のエージェント＃ｉに関する周辺の各タスク＃ｌ（ｌ∈１，・・・，Ｎ）の重要度を更新（算出）する。具体的には、重要度処理部１４０は、他のエージェント＃ｊの要請パラメータと、自身のエージェント＃ｉ（当該エージェント）の応答パラメータとに基づいて、自身のエージェント＃ｉに関するタスクそれぞれの重要度を算出するための処理を行う。

【0082】

具体的には、重要度処理部１４０は、周辺のエージェント＃ｊの制御装置１００から、エージェント＃ｊに関する要請パラメータｄ_ｊを取得する。また、重要度処理部１４０は、周辺の各エージェント＃ｊの制御装置１００から、各エージェント＃ｊに関する各タスク＃ｌの重要度φ_ｊ ^ｌを取得する。なお、上述したように、観測情報取得部１１０は、近傍エージェント＃ｊ_１，＃ｊ_２に関する近傍タスク＃ｌ_１，＃ｌ_２についての重要度を取得した。一方、重要度処理部１４０は、近傍エージェントだけでなく、周辺の全ての（取得可能な）エージェント＃ｊの制御装置１００から、各エージェント＃ｊに関する各タスク＃ｌの重要度φ_ｊ ^ｌを取得する。なお、重要度処理部１４０は、通信が不可能である等の理由により周辺のエージェント＃ｊの制御装置１００から要請パラメータｄ_ｊ及び重要度φ_ｊ ^ｌを取得できなかった場合、このエージェント＃ｊについては、ｄ_ｊ＝０，φ_ｊ ^ｌ＝０としてもよい。

【0083】

また、重要度処理部１４０は、タスク＃ｌについて、重要度φ_ｉ ^ｌと、重要度φ_ｊ ^ｌと、他のエージェント＃ｊに関する要請パラメータｄ_ｊと、自身のエージェント＃ｉに関する応答パラメータσ_ｉとを用いて、重要度φ_ｉ ^ｌを更新する。また、重要度処理部１４０は、タスク＃ｌが近傍タスクである場合は、さらに、自身のエージェント＃ｉに関する近傍タスク＃ｌの重要度φ_ｉ ^ｌの目標値ｃ_ｉ ^ｌを用いて、タスク＃ｌについての重要度φ_ｉ ^ｌを更新する。なお、重要度φ_ｉ ^ｌは、自身のエージェント＃ｉに関するタスク＃ｌの重要度である。

【0084】

具体的には、重要度処理部１４０は、以下の式（２３）を用いて、エージェント＃ｉに関するタスク＃ｌの重要度φ_ｉ ^ｌの変化量（変化分）を算出する。なお、式（２３）において、ｋは、予め定められた係数である。また、表記の便宜上、式（２３）の左辺を、「φ_ｉ ^ｌ（ドット）」と表すことがある。

【数23】

・・・（２３）

【0085】

重要度処理部１４０は、現在の重要度φ_ｉ ^ｌに式（２３）で示す重要度φ_ｉ ^ｌの変化量φ_ｉ ^ｌ（ドット）を加算することで、エージェント＃ｉに関するタスク＃ｌの重要度φ_ｉ ^ｌを更新する。つまり、重要度処理部１４０は、以下の式（２４）により、エージェント＃ｉに関するタスク＃ｌの重要度φ_ｉ ^ｌを更新する。なお、Δｔは、制御周期を示す。重要度処理部１４０は、全てのタスク＃ｌについて、重要度を更新する。なお、全てのエージェント＃ｉ（ｉ＝１，・・・，Ｍ）、及び全てのタスク＃ｌ（ｌ＝１，・・・，Ｎ）についての、重要度の初期値φ_ｉ ^ｌ（０）が予め定められているとする。

【数24】

・・・（２４）

【0086】

タスク＃ｌが近傍タスクでない場合（ｌが式（２）に示す近傍タスクの条件を満たさない場合）は、重要度φ_ｉ ^ｌの変化量φ_ｉ ^ｌ（ドット）は、式（２３）の右辺の下式のように表される。式（２３）の右辺の下式は、エージェント＃ｊに関する要請パラメータｄ_ｊと、重要度φ_ｊ ^ｌから重要度φ_ｉ ^ｌを減算した値と、係数ｋとの積の、全てのエージェント＃ｊについての総和に、エージェント＃ｉに関する応答パラメータσ_ｉを乗算したものに対応する。なお、式（２３）の右辺の下式は、自身のエージェント＃ｉの応答パラメータσ_ｉが０であれば、０となる。つまり、タスク＃ｌが近傍タスクでない場合、応答パラメータσ_ｉが０であれば、自身のエージェント＃ｉに関するタスク＃ｌの重要度φ_ｉ ^ｌは、更新されない（変化しない）。また、応答パラメータσ_ｉが１である場合、要請パラメータが１である他のエージェント＃ｊ（要請エージェント）について、重要度φ_ｊ ^ｌから重要度φ_ｉ ^ｌを減算した差分の総和が、変化量φ_ｉ ^ｌ（ドット）に対応する。したがって、重要度φ_ｊ ^ｌが重要度φ_ｉ ^ｌよりもかなり大きな要請エージェント＃ｊが存在するほど、又は、重要度φ_ｊ ^ｌが重要度φ_ｉ ^ｌよりも大きな要請エージェント＃ｊが多く存在するほど、エージェント＃ｉに関するタスク＃ｌの重要度φ_ｊ ^ｌは、大きくなり得る。

【0087】

一方、タスク＃ｌが近傍タスクである場合（タスク＃ｌが式（２）～（４）に示す近傍タスクの条件を満たす場合）は、重要度φ_ｉ ^ｌの変化量φ_ｉ ^ｌ（ドット）は、式（２３）の右辺の上式のように表される。式（２３）の右辺の上式は、下式に、エージェント＃ｉに関するタスク＃ｌの重要度の目標値ｃ_ｉ ^ｌから重要度φ_ｉ ^ｌを減算した値と係数ｋとの積を加算したものに対応する。なお、式（２３）の右辺の上式の第２項は、式（２３）の右辺の下式と同じである。したがって、式（２３）の右辺の上式の第２項は、自身のエージェント＃ｉの応答パラメータσ_ｉが０であれば、０となる。つまり、タスク＃ｌが近傍タスクである場合、応答パラメータσ_ｉが０であれば、式（２３）の右辺の上式の第１項により、自身のエージェント＃ｉに関するタスク＃ｌの重要度φ_ｉ ^ｌは、目標値ｃ_ｉ ^ｌに近づくように更新され得る。また、応答パラメータσ_ｉが１である場合、要請エージェントについて重要度φ_ｊ ^ｌから重要度φ_ｉ ^ｌを減算した差分の総和と、目標値ｃ_ｉ ^ｌから重要度φ_ｉ ^ｌを減算した値と係数ｋとの積とを加算した値が、変化量φ_ｉ ^ｌ（ドット）に対応する。したがって、目標値ｃ_ｉ ^ｌが大きい場合、重要度φ_ｊ ^ｌが重要度φ_ｉ ^ｌよりもかなり大きな要請エージェント＃ｊが存在するほど、又は、重要度φ_ｊ ^ｌが重要度φ_ｉ ^ｌよりも大きな要請エージェント＃ｊが多く存在するほど、エージェント＃ｉに関するタスク＃ｌの重要度φ_ｊ ^ｌは、大きくなり得る。

【0088】

また、重要度処理部１４０は、目標を達成したタスク＃ｌの重要度の処理を行う。具体的には、重要度処理部１４０は、目標を達成したタスク＃ｌの重要度φ_ｉ ^ｌを０にする。ここで、上述したように、実施の形態１では、タスク＃ｌの目標が達成されるとは、荷物であるタスク＃ｌが目標位置に到達することである。したがって、重要度処理部１４０は、以下の式（２５）により、目標位置に到達したタスク＃ｌの重要度φ_ｉ ^ｌを０にする。なお、δは、タスク＃ｌが目標位置に到達したか否か（つまりタスク＃ｌが目標を達成したか否か）を判定するための閾値であり、式（１）等の例では、０．０５である。これにより、目標を達成したタスク＃ｌについての処理が行われなくなり、各エージェント１０は、他のタスク５０を実行するようになる。

【数25】

・・・（２５）

【0089】

また、重要度処理部１４０は、算出されたエージェント＃ｉに関する各タスク＃ｌの重要度φ_ｉ ^ｌを、他のエージェント＃ｊの制御装置１００に送信する。つまり、各エージェント１０に関する各タスク５０の重要度は、各エージェント１０（制御装置１００）間で共有される。これにより、他のエージェント＃ｊの制御装置１００は、そのエージェント＃ｊについて、上記の処理を行う。つまり、他のエージェント＃ｊの制御装置１００は、そのエージェント＃ｊに関する各タスク＃ｌの重要度φ_ｊ ^ｌを算出（更新）する。

【0090】

タスク選択部１５０は、自身のエージェント＃ｉが実行すべきタスク＃ｌ_ｉ ^＊を選択する。具体的には、タスク選択部１５０は、以下の式（２６）により、全てのタスク＃ｌ（ｌ＝１，・・・，Ｎ）のうち、重要度φ_ｉ ^ｌが最大のタスク＃ｌを、自身のエージェント＃ｉが実行すべきタスク＃ｌ_ｉ ^＊として選択する。実施の形態１では、タスク５０は搬送すべき荷物であるので、タスク選択部１５０は、自身のエージェント＃ｉについて、重要度が最大の荷物（タスク＃ｌ_ｉ ^＊）を選択する。

【数26】

・・・（２６）

【0091】

タスク実行部１６０は、自身のエージェント＃ｉがタスク＃ｌを実行するための処理を行う。具体的には、タスク実行部１６０は、タスク選択部１５０によって選択されたタスク＃ｌ_ｉ ^＊を自身のエージェント＃ｉが実行するように、制御を行う。さらに具体的には、タスク実行部１６０は、タスク＃ｌ_ｉ ^＊の位置及び達成すべき目標（終了条件）を取得する。タスク実行部１６０は、エージェント＃ｉを、タスク＃ｌ_ｉ ^＊の位置に移動させる。このとき、タスク実行部１６０は、エージェント＃ｉの速度指令値を算出してもよい。そして、タスク実行部１６０は、タスク＃ｌ_ｉ ^＊を実行してタスク＃ｌ_ｉ ^＊の目標を達成するように、エージェント＃ｉを制御する。タスク＃ｌが荷物である場合、タスク実行部１６０は、荷物を把持するように、エージェント＃ｉのアームを制御する。このとき、タスク実行部１６０は、アームの先端（エンドエフェクタ等）の力及びトルク指令値を算出してもよい。タスク実行部１６０は、タスク＃ｌ_ｉ ^＊の目標位置にタスク＃ｌ_ｉ ^＊を搬送するように、エージェント＃ｉを制御する。

【0092】

なお、自身のエージェント＃ｉの要請パラメータｄ_ｉが０である場合、他のエージェント＃ｊの制御装置１００における処理で、式（２３）の右辺の上式の第２項及び右辺の下式において、ｄ_ｊｋ（φ_ｊ ^ｌ－φ_ｉ ^ｌ）＝０となる。但し、他のエージェント＃ｊの制御装置１００における処理なので、ｊは自身のエージェント＃ｉに対応し、ｉは他のエージェント＃ｊに対応することに留意されたい。したがって、自身のエージェント＃ｉの要請パラメータｄ_ｉが０である場合、他のエージェント＃ｊの制御装置１００における処理で、自身のエージェント＃ｉでタスク＃ｌの重要度が大きかったとしても、他のエージェント＃ｊに関するタスク＃ｌの重要度には影響を与えない可能性が高い。ここで、自身のエージェント＃ｉで重要度の大きなタスク＃ｌは、自身のエージェント＃ｉについて選択されるタスク＃ｌ_ｉ ^＊を含み得る。以上から、要請パラメータｄ_ｉが０の場合、他のエージェント＃ｊの制御装置１００における処理で、自身のエージェント＃ｉについて選択されるタスク＃ｌ_ｉ ^＊が選択される可能性は低くなる。よって、他のエージェント＃ｊがタスク＃ｌ_ｉ ^＊に応援に来る可能性は低下する。

【0093】

これに対し、自身のエージェント＃ｉの要請パラメータｄ_ｉが１である場合、他のエージェント＃ｊの制御装置１００における処理で、自身のエージェント＃ｉで重要度の大きなタスク＃ｌの重要性（重要度）が大きくなる可能性が高まる。したがって、要請パラメータｄ_ｉが１の場合、自身のエージェント＃ｉについて選択されるタスク＃ｌ_ｉ ^＊が、他のエージェント＃ｊの制御装置１００における処理でも選択される可能性が高くなる。つまり、他のエージェント＃ｊがタスク＃ｌ_ｉ ^＊に応援に来る可能性が高まる。したがって、タスク＃ｌ_ｉ ^＊が進行していない場合に要請パラメータｄ_ｉが１となることで、自身のエージェント＃ｉと他のエージェント＃ｊとで、タスク＃ｌ_ｉ ^＊を協調して実行する可能性が高くなる。これにより、タスク＃ｌ_ｉ ^＊の目標が達成される可能性が高くなる。

【0094】

また、応答パラメータσ_ｉが０である場合、自身のエージェント＃ｉの制御装置１００における処理で、式（２３）の右辺の上式の第２項及び右辺の下式が０となる。したがって、応答パラメータσ_ｉが０である場合、自身のエージェント＃ｉの制御装置１００における処理で、他のエージェント＃ｊ（要請エージェント）で重要度の大きなタスク＃ｌの重要度が大きくなりにくい。ここで、他のエージェント＃ｊで重要度の大きなタスク＃ｌは、他のエージェント＃ｊについて選択されるタスク＃ｌ_ｊ ^＊を含み得る。以上から、応答パラメータσ_ｉが０の場合、自身のエージェント＃ｉの制御装置１００における処理で、他のエージェント＃ｊについて選択されるタスク＃ｌ_ｊ ^＊が選択される可能性は低くなる。よって、自身のエージェント＃ｉがタスク＃ｌ_ｊ ^＊に応援に行く可能性は低下する。

【0095】

なお、この場合、式（２３）の右辺の上式の第１項より、近傍タスク＃ｌの重要度φ_ｉ ^ｌは目標値ｃ_ｉ ^ｌに漸近する。ここで、近傍タスク＃ｌは、エージェント＃ｉの前回の制御周期で選択されエージェント＃ｉが現在実行中のタスク＃ｌ_ｉ ^＊であり、応答パラメータσ_ｉが０である限り、その近傍タスク＃ｌが選択され続ける可能性が高くなる．

【0096】

これに対し、応答パラメータσ_ｉが１である場合、自身のエージェント＃ｉの制御装置１００における処理で、式（２３）の右辺の上式の第２項及び右辺の下式が０とならない。つまり、応答パラメータσ_ｉが１である場合、自身のエージェント＃ｉの制御装置１００における処理で、要請エージェント＃ｊで重要度の大きなタスク＃ｌの重要度が大きくなる可能性が高まる。以上から、応答パラメータσ_ｉが１の場合、要請エージェント＃ｊについて選択されるタスク＃ｌ_ｊ ^＊が、自身のエージェント＃ｉの制御装置１００における処理でも選択される可能性が高くなる。つまり、自身のエージェント＃ｉがタスク＃ｌ_ｊ ^＊に応援に行く可能性が高くなる。したがって、他の要請エージェント＃ｊで選択されたタスク＃ｌ_ｊ ^＊が進行していない場合に応答パラメータσ_ｉが１となることで、自身のエージェント＃ｉと他の要請エージェント＃ｊとで、タスク＃ｌ_ｊ ^＊を協調して実行する可能性が高くなる。これにより、タスク＃ｌ_ｊ ^＊の目標が達成される可能性が高くなる。

【0097】

図４は、実施の形態１にかかる制御装置１００によって実行される制御方法を示すフローチャートである。観測情報取得部１１０は、上述したように、周辺のエージェント１０及び荷物（タスク５０）と、自身のエージェント１０との距離を算出する（ステップＳ１０２）。観測情報取得部１１０は、上述したように、自身のエージェント１０（エージェント＃ｉ）の観測情報ｏ_ｉを取得する（ステップＳ１１０）。

【0098】

行動出力部１２０は、上述したように、方策π_ＮＮ，ｉを用いて、観測情報ｏ_ｉに対応する行動ａ_ｉを出力する（ステップＳ１２０）。要請応答処理部１３０は、要請応答処理を行う（ステップＳ１３０）。具体的には、要請応答処理部１３０は、上述したように、自身のエージェント＃ｉに関する要請パラメータｄ_ｉ及び応答パラメータσ_ｉを算出する。

【0099】

重要度処理部１４０は、タスク５０である荷物の重要度を更新する（ステップＳ１４０）。具体的には、重要度処理部１４０は、上述したように、自身のエージェント＃ｉに関する周辺のタスク＃ｌ（荷物）の重要度を更新（算出）する。また、重要度処理部１４０は、ゴールに到達した荷物の重要度の処理を行う（ステップＳ１４２）。具体的には、重要度処理部１４０は、上述したように、ゴールに到達し目標を達成したタスク＃ｌの（荷物）の重要度を０にする。

【0100】

また、タスク選択部１５０は、上述したように、自身のエージェント１０について重要度が最大の荷物を選択する（ステップＳ１５０）。タスク実行部１６０は、上述したように、選択された荷物を自身のエージェント１０が搬送するように、処理を行う（ステップＳ１６０）。

【0101】

制御装置１００は、全ての荷物の位置とその目標位置との距離が一定値未満であるか否かを判定する（ステップＳ１７０）。ここで、荷物の位置とその目標位置との距離が一定値未満であるとは、荷物が目標位置に到達したとみなしてよいということである。したがって、制御装置１００は、全ての荷物が、目標位置に到達したか否かを判定する。なお、「一定値」とは、式（２５）のδ（例えばδ＝０．０５）に対応する。全ての荷物の位置とその目標位置との距離が一定値未満である場合（Ｓ１７０のＹＥＳ）、処理フローは終了する。一方、全ての荷物の位置とその目標位置との距離が一定値未満とはなっていない場合（Ｓ１７０のＮＯ）、処理フローはＳ１０２に戻る。そして、Ｓ１０２～Ｓ１７０の処理が繰り返される。この処理の繰り返しは、上述した制御周期ごとに行われる。

【0102】

上述したように、実施の形態１にかかる制御装置１００は、観測情報に基づいて要請パラメータと応答パラメータとを算出し、要請パラメータと応答パラメータとに基づいて当該エージェントに関するタスクそれぞれの重要度を算出するための処理を行う。そして、実施の形態１にかかる制御装置１００は、重要度に応じて、当該エージェントが実行すべきタスクを選択し、当該エージェントが選択されたタスクを実行するように制御を行う。実施の形態１にかかる制御装置１００は、このように構成されていることによって、観測情報、要請パラメータ及び応答パラメータに応じて算出された重要度に応じて、エージェントが実行すべきタスクを、適宜、選択することができる。これにより、タスクが未知である環境下であっても、多くのエージェントが１つのタスクに集中することを抑制し、進行しないタスクにはエージェントが応援に行くような動作を実現できる。これにより、タスクが確実に進行するようになる。したがって、タスクが未知である環境下であっても、タスクの目標が効率的に達成されるようにすることが可能となる。したがって、全体として、タスクの実行時間（総実行時間）を低減することが可能となる。

【0103】

また、実施の形態１にかかる制御装置１００は、エージェントごとに学習された方策に基づいて、要請パラメータ及び応答パラメータを算出するように構成されている。また、好ましくは、実施の形態１にかかる制御装置１００は、観測情報を方策に入力して方策から出力された要請度合い及び応答度合いに基づいて、それぞれ要請パラメータ及び応答パラメータを算出するように構成されている。これにより、エージェントごとに、応援が必要なタスクの重要度が大きくなり得るように、重要度を算出することができる。したがって、エージェントごとに、実行すべきタスクを適切に選択することが可能となる。

【0104】

また、実施の形態１にかかる制御装置１００は、要請度合いが予め定められた閾値を上回り、且つ、当該エージェントが実行している又は実行しようとしているタスクが進行していない場合に、応援を要請することを示す要請パラメータを算出する。このような構成により、当該エージェントが実行している又は実行しようとしているタスクについて応援を要請すべき場合に、適切に、応援を要請することを示す要請パラメータを算出することができる。したがって、無駄な要請を行うことを抑制することができる。

【0105】

また、実施の形態１にかかる制御装置１００は、応答度合いが予め定められた閾値を上回り、且つ、当該エージェントが実行している又は実行しようとしているタスクが進行していない場合に、要請に応答することを示す応答パラメータを算出する。このような構成により、当該エージェントが実行している又は実行しようとしているタスクが進行している場合に、引き続き、そのタスクを実行することができる。したがって、無駄な応答を行うことを抑制することができる。

【0106】

また、実施の形態１にかかる制御装置１００は、エージェントごとに学習された方策に基づいて、当該エージェントに関するタスクそれぞれの重要度を算出する。このような構成により、エージェントごとに、各タスクの重要度を適切に算出することが可能となる。

【0107】

また、実施の形態１にかかる制御装置１００は、観測情報を方策に入力して方策から出力された観測情報に対応するタスクの重要度の目標値に基づいて、当該エージェントに関する観測情報に対応するタスクの重要度を算出する。このような構成により、エージェントごとに、観測情報に対応するタスクの重要度を、目標値に近づけるように算出することができる。これにより、適切に、タスクの重要度を算出することが可能となる。

【0108】

（実施の形態２）
次に、実施の形態２について説明する。なお、実施の形態２にかかる制御システム１の構成については、図１に示した実施の形態１にかかる制御システム１の構成と実質的に同様であるので、説明を省略する。また、実施の形態２にかかる制御装置１００の構成については、図２に示した実施の形態１にかかる制御装置１００の構成と実質的に同様であるので、説明を省略する。実施の形態２においては、タスク５０が、実施の形態１と異なる。

【0109】

実施の形態２では、タスク５０は、搬送すべき多数の荷物が存在する場所である。そして、各荷物には、搬送先であるゴール（目標位置）が設定されている。そして、実施の形態２にかかるタスク５０の目標は、その場所に存在する全ての荷物が各々のゴールに到達することである。なお、実施の形態１とは異なり、実施の形態２において搬送される荷物は、１つのエージェント１０で搬送可能な程度に小さなものであり得る。なお、その場所（タスク５０）に存在する荷物を搬送するエージェント１０の数が多いほど、その場所（タスク５０）が目標を達成する可能性（その場所における全ての荷物がゴールに到達する可能性）が高くなる。

【0110】

実施の形態２にかかるタスク５０は、例えば、病院内の各部屋であってもよい。そして、タスク５０である各部屋に、搬送すべき荷物であるカルテ、薬剤、検体等があるとしてもよい。また、実施の形態２にかかるタスク５０は、例えば、災害時に救援物資が置かれた場所であってもよい。そして、救援物資が、搬送すべき荷物であってもよい。

【0111】

実施の形態２においては、観測情報取得部１１０は、実施の形態１と同様に、式（５）で示すような観測情報ｏ_ｉを取得する。その際に、観測情報取得部１１０は、自身のエージェント＃ｉとタスク＃ｌである場所との距離を算出する。具体的には、実施の形態１と同様に、観測情報取得部１１０は、タスク＃ｌである場所の位置を取得する。観測情報取得部１１０は、取得されたタスク＃ｌ（場所＃ｌ）の位置から、自身のエージェント＃ｉと各タスク＃ｌ（場所＃ｌ）との間の距離を算出する。そして、観測情報取得部１１０は、自身のエージェント＃ｉと各タスク＃ｌ（場所＃ｌ）との間の距離から、自身のエージェント＃ｉに近い所定数の近傍タスクを判定し、近傍タスクに関する情報を、観測情報の一部とする。上述した式（２）～（５）の例では、近傍タスクは、自身のエージェント＃ｉに最も近い場所＃ｌ_１及び２番目に近い場所＃ｌ_２である。

【0112】

また、実施の形態２において、式（５）におけるｏ＿（ｌ_１）＾ｔａｓｋは、近傍タスクである場所＃ｌ_１にある各荷物の状態と各荷物のゴールを示してもよい。各荷物の状態は、各荷物の位置及び速度であってもよい。なお、ｏ＿（ｌ_１）＾ｔａｓｋは、近傍タスクである場所＃ｌ_１にある各荷物の状態（位置及び速度）の平均及び各荷物のゴールの平均位置を示してもよい。平均位置は、各位置（ゴール）の重心（幾何中心）であってもよい。あるいは、ｏ＿（ｌ_１）＾ｔａｓｋは、近傍タスクである場所＃ｌ_１にある荷物の数と、荷物の数の目標（つまり０個）を示してもよい。ｏ＿（ｌ_２）＾ｔａｓｋについても同様である。

【0113】

実施の形態２において、方策格納部１１２は、実施の形態１と同様に、強化学習によって学習済みの方策π（学習済みモデル）を格納する。方策πは、エージェント１０ごとに学習されている。エージェント＃ｉの方策π_ＮＮ，ｉは、上述した観測情報ｏ_ｉを入力とし、上記の式（１２）で示す行動ａ_ｉを出力とする。また、実施の形態１と同様に、方策π_ＮＮ，ｉは、上記の式（１４）で示す報酬ｒ_ｉ（ｔ）を最大化するように学習されている。

【0114】

ここで、実施の形態２において、タスク＃ｌの達成度に関するＰ_ｌ（ｔ）は、時刻ｔにおける、場所＃ｌにある荷物の搬送達成度を示してもよい。搬送達成度は、例えば、場所＃ｌに最初にあった荷物の数に対するゴールに搬送された荷物の数の割合に対応してもよい。また、実施の形態２において、タスク＃ｌの進行度に関するＱ_ｌ（ｔ）は、時刻ｔにおける、荷物の減り具合であってもよい。荷物の減り具合は、例えば、単位時間当たりに場所＃ｌから減る（搬送される）荷物の数に対応してもよい。

【0115】

図５は、実施の形態２にかかる制御装置１００によって実行される制御方法を示すフローチャートである。観測情報取得部１１０は、上述したように、周辺のエージェント１０及び場所（タスク５０）と、自身のエージェント１０との距離を算出する（ステップＳ２０２）。観測情報取得部１１０は、上述したように、自身のエージェント１０（エージェント＃ｉ）の観測情報ｏ_ｉを取得する（ステップＳ２１０）。行動出力部１２０は、実施の形態１と同様に、方策π_ＮＮ，ｉを用いて、観測情報ｏ_ｉに対応する行動ａ_ｉを出力する（ステップＳ２２０）。

【0116】

要請応答処理部１３０は、実施の形態１と同様に、要請応答処理を行う（ステップＳ２３０）。具体的には、要請応答処理部１３０は、上記の式（１８）を用いて、自身のエージェント＃ｉに関する要請パラメータｄ_ｉを算出してもよい。また、要請応答処理部１３０は、上記の式（１９）を用いて、自身のエージェント＃ｉに関する応答パラメータσ_ｉを算出してもよい。

【0117】

重要度処理部１４０は、実施の形態１と同様に、タスク５０である場所の重要度を更新する（ステップＳ２４０）。すなわち、重要度処理部１４０は、実施の形態１と同様に、周辺の他のエージェント＃ｊの制御装置１００から、エージェント＃ｊに関する要請パラメータｄ_ｊ及び各タスク＃ｌ（場所＃ｌ）の重要度φ_ｊ ^ｌを取得する。そして、重要度処理部１４０は、自身のエージェント＃ｉに関する周辺のタスク＃ｌ（場所＃ｌ）の重要度φ_ｉ ^ｌを更新（算出）する。重要度処理部１４０は、上記の式（２３）及び式（２４）を用いて、自身のエージェント＃ｉに関する各タスク＃ｌ（場所＃ｌ）の重要度φ_ｉ ^ｌを更新してもよい。

【0118】

重要度処理部１４０は、全ての荷物がゴールに到達した場所の重要度の処理を行う（ステップＳ２４２）。具体的には、実施の形態１と同様に、重要度処理部１４０は、自身のエージェント＃ｉに関する、全ての荷物がゴールに到達した場所＃ｌの重要度φ_ｉ ^ｌを０にする。

【0119】

タスク選択部１５０は、実施の形態１と同様に、自身のエージェント１０について重要度が最大の場所を選択する（ステップＳ２５０）。つまり、タスク選択部１５０は、実施の形態１と同様に、上記の式（２６）を用いて、自身のエージェント＃ｉについて重要度φ_ｉ ^ｌが最大の場所＃ｌを選択してもよい。

【0120】

タスク実行部１６０は、自身のエージェント１０が、選択された場所に移動して荷物の搬送処理を行うように、制御を行う（ステップＳ２６０）。具体的には、タスク実行部１６０は、選択された場所ｌ_ｉ ^＊に移動するように、エージェント＃ｉを制御する。また、タスク実行部１６０は、エージェント＃ｉが場所ｌ_ｉ ^＊に移動したら、場所ｌ_ｉ ^＊に存在する荷物をゴールに搬送するように、制御を行う。荷物を搬送する方法は、上述した実施の形態１と同様である。

【0121】

制御装置１００は、全ての場所において、全ての荷物の位置とそのゴールとの距離が一定値未満であるか否かを判定する（ステップＳ２７０）。ここで、荷物の位置とそのゴールとの距離が一定値未満であるとは、荷物がゴールに到達したとみなしてよいということである。したがって、制御装置１００は、全ての場所において、全ての荷物が、ゴールに到達したか否かを判定する。なお、「一定値」とは、式（２５）のδに対応してもよい。全ての場所において全ての荷物の位置とそのゴールとの距離が一定値未満である場合（Ｓ２７０のＹＥＳ）、処理フローは終了する。一方、全ての場所において全ての荷物の位置とそのゴールとの距離が一定値未満とはなっていない場合（Ｓ２７０のＮＯ）、処理フローはＳ２０２に戻る。そして、Ｓ２０２～Ｓ２７０の処理が繰り返される。この処理の繰り返しは、上述した制御周期ごとに行われる。

【0122】

実施の形態１と同様に、実施の形態２にかかる制御装置１００は、観測情報に基づいて要請パラメータと応答パラメータとを算出し、要請パラメータと応答パラメータとに基づいて当該エージェントに関するタスクそれぞれの重要度を算出するための処理を行う。そして、実施の形態２にかかる制御装置１００は、重要度に応じて、当該エージェントが実行すべきタスクを選択し、当該エージェントが選択されたタスクを実行するように制御を行う。したがって、実施の形態１と同様に、実施の形態２にかかる制御装置１００は、観測情報、要請パラメータ及び応答パラメータに応じて算出された重要度に応じて、エージェントが実行すべきタスクを、適宜、選択することができる。これにより、タスクが未知である環境下であっても、多くのエージェントが１つのタスクに集中することを抑制し、進行しないタスクにはエージェントが応援に行くような動作を実現できる。これにより、タスクが確実に進行するようになる。したがって、タスクが未知である環境下であっても、タスクの目標が効率的に達成されるようにすることが可能となる。したがって、全体として、タスクの実行時間（総実行時間）を低減することが可能となる。

【0123】

（実施の形態１及び実施の形態２の変形例）
なお、実施の形態１及び実施の形態２では、エージェント１０がロボット等の機械であるとしたが、エージェント１０は、機械でなくてもよい。エージェント１０は、機械と人間とを含んでもよい。つまり、ロボットと人間とで協調して、複数の荷物を搬送してもよい。このとき、人間は、エージェント１０に関する制御装置１００と通信可能な通信端末を携帯してもよい。なお、機械であるエージェント１０は、上述した実施の形態１及び実施の形態２と実質的に同様の処理によって、制御され得る。

【0124】

その際に、機械であるエージェント１０の制御装置１００は、人間が携帯する通信端末に対して、自身の要請パラメータ及び各タスクの重要度を送信してもよい。人間は、他のエージェント１０から取得された要請パラメータ及び各タスクの重要度から、独自の判断で、応援を要請することを示す要請パラメータを送信したエージェント１０に応答し、そのエージェント１０が実行しているタスクに応援に行ってもよい。なお、人間は、荷物の搬送が完了することによる達成感を行動原理として、搬送すべき荷物を、独自に判断し得る。なお、人間は、他のエージェント１０に対して、応援を要請しない。つまり、人間は、他のエージェント１０に対して、応援を要請することを示す要請パラメータを送信しなくてもよい。このようにするのは、ロボットであるエージェント１０に関する方策の学習に人の要請タイミングを模擬することができないので、人間が応援を要請すると、ロボットであるエージェント１０の行動に望ましくない結果が出るおそれがあるからである。

【0125】

（実施の形態３）
次に、実施の形態３について説明する。なお、実施の形態３にかかる制御システム１の構成については、図１に示した実施の形態１にかかる制御システム１の構成と実質的に同様であるので、説明を省略する。また、実施の形態３にかかる制御装置１００の構成については、図２に示した実施の形態１にかかる制御装置１００の構成と実質的に同様であるので、説明を省略する。実施の形態３においては、タスク５０が、上述した実施の形態と異なる。ここで、上述した実施の形態では、エージェント１０が荷物を搬送することで、タスク５０の目標が達成される。これに対し、実施の形態３では、エージェント１０は、タスク５０を実行する際に、荷物を搬送しなくてもよい。実施の形態３におけるタスク５０の具体例については後述する。実施の形態１と同様に、エージェント１０は、制御装置１００による制御によって、環境内で自律して動作を行う。また、実施の形態３では、監視装置６０がタスク５０を監視しなくてもよい。各エージェント１０が、タスク５０の状態を監視（検出）するようにしてもよい。

【0126】

図６は、実施の形態３にかかる制御装置１００によって実行される制御方法を示すフローチャートである。観測情報取得部１１０は、Ｓ１０２，Ｓ２０２と同様に、周辺のエージェント１０及びタスク５０と、自身のエージェント１０との距離を算出する（ステップＳ３０２）。観測情報取得部１１０は、Ｓ１１０，Ｓ２１０と同様に、自身のエージェント１０（エージェント＃ｉ）の観測情報ｏ_ｉを取得する（ステップＳ３１０）。観測情報ｏ_ｉについては後述する。行動出力部１２０は、Ｓ１２０，Ｓ２２０と同様に、方策π_ＮＮ，ｉを用いて、観測情報ｏ_ｉに対応する行動ａ_ｉを出力する（ステップＳ３２０）。方策π_ＮＮ，ｉに関する報酬ｒ_ｉ（ｔ）については後述する。

【0127】

要請応答処理部１３０は、Ｓ１３０，Ｓ２３０と同様に、要請応答処理を行う（ステップＳ３３０）。具体的には、要請応答処理部１３０は、上記の式（１８）を用いて、自身のエージェント＃ｉに関する要請パラメータｄ_ｉを算出してもよい。また、要請応答処理部１３０は、上記の式（１９）を用いて、自身のエージェント＃ｉに関する応答パラメータσ_ｉを算出してもよい。

【0128】

重要度処理部１４０は、Ｓ１４０，Ｓ２４０と同様に、タスク５０の重要度を更新する（ステップＳ３４０）。具体的には、重要度処理部１４０は、上述した実施の形態と同様に、周辺の他のエージェント＃ｊの制御装置１００から、エージェント＃ｊに関する要請パラメータｄ_ｊ及び各タスク＃ｌの重要度φ_ｊ ^ｌを取得する。そして、重要度処理部１４０は、上述した実施の形態と同様に、自身のエージェント＃ｉに関する周辺のタスク＃ｌの重要度φ_ｉ ^ｌを更新（算出）する。重要度処理部１４０は、上記の式（２３）及び式（２４）を用いて、自身のエージェント＃ｉに関する各タスク＃ｌの重要度φ_ｉ ^ｌを更新してもよい。

【0129】

重要度処理部１４０は、Ｓ１４２，Ｓ２４２と同様に、終了したタスクの重要度の処理を行う（ステップＳ３４２）。具体的には、上述した実施の形態と同様に、重要度処理部１４０は、自身のエージェント＃ｉに関する、目標を達成したタスク＃ｌの重要度φ_ｉ ^ｌを０にする。

【0130】

タスク選択部１５０は、Ｓ１５０，Ｓ２５０と同様に、自身のエージェント１０について重要度が最大のタスク５０を選択する（ステップＳ３５０）。具体的には、タスク選択部１５０は、上述した実施の形態と同様に、上記の式（２６）を用いて、自身のエージェント＃ｉについて重要度φ_ｉ ^ｌが最大のタスク＃ｌを選択してもよい。

【0131】

タスク実行部１６０は、Ｓ１６０，Ｓ２６０と同様に、自身のエージェント１０が選択されたタスク５０を実行するように、制御を行う（ステップＳ３６０）。具体的には、タスク実行部１６０は、選択されたタスクｌ_ｉ ^＊の位置に移動するように、エージェント＃ｉを制御する。また、タスク実行部１６０は、エージェント＃ｉがタスクｌ_ｉ ^＊の位置に移動したら、タスクｌ_ｉ ^＊を実行するように、制御を行う。タスク５０の具体例については、後述する。

【0132】

制御装置１００は、全てのタスク５０が終了したか否かを判定する（ステップＳ３７０）。全てのタスク５０が終了した場合（Ｓ３７０のＹＥＳ）、処理フローは終了する。一方、全てのタスク５０が終了していない場合（Ｓ３７０のＮＯ）、処理フローはＳ３０２に戻る。そして、Ｓ３０２～Ｓ３７０の処理が繰り返される。この処理の繰り返しは、上述した制御周期ごとに行われる。

【0133】

実施の形態１と同様に、実施の形態３にかかる制御装置１００は、観測情報に基づいて要請パラメータと応答パラメータとを算出し、要請パラメータと応答パラメータとに基づいて当該エージェントに関するタスクそれぞれの重要度を算出するための処理を行う。そして、実施の形態３にかかる制御装置１００は、重要度に応じて、当該エージェントが実行すべきタスクを選択し、当該エージェントが選択されたタスクを実行するように制御を行う。したがって、実施の形態１と同様に、実施の形態３にかかる制御装置１００は、観測情報、要請パラメータ及び応答パラメータに応じて算出された重要度に応じて、エージェントが実行すべきタスクを、適宜、選択することができる。これにより、タスクが未知である環境下であっても、複数のエージェントが１つのタスクに集中するような余計な集中を抑制しつつ、進行しないタスクにはエージェントが応援に行くような動作を実現できる。これにより、タスクが確実に進行するようになる。したがって、タスクが未知である環境下であっても、タスクの目標が効率的に達成されるようにすることが可能となる。したがって、全体として、タスクの実行時間（総実行時間）を低減することが可能となる。

【0134】

＜実施の形態３の具体例１＞
具体例１では、本実施の形態にかかる方法を、メンテナンスに適用する。具体例１では、ロボット等の機械である複数のエージェント１０によって、構造物のメンテナンス（点検）を行う。また、具体例１では、複数のエージェント１０が、広範囲の構造物の点検を行う。ここで、具体例１では、タスク５０は、各点検箇所である。また、具体例１では、タスク５０の目標は、各点検箇所について多面的な検査が実行されることである。なお、複数のエージェント１０それぞれは、互いに異なる機能を有し得る。したがって、複数のエージェント１０は、異なるタイプのエージェント１０で構成され得る。異なるタイプの複数のエージェント１０により、多面的な検査を実現できる。したがって、エージェント１０の数が多いほど、タスク５０の目標が達成される可能性が高くなる。

【0135】

例えば、あるエージェント１０は、異常箇所を探索する探索ロボットであってもよい。また、別のエージェント１０は、異常に対して対処を行う対処ロボットであってもよい。また、あるエージェント１０（探索ロボット）は、点検箇所を撮影するカメラを有し、撮影によって得られた画像から、異常箇所の深刻度を判定してもよい。また、あるエージェント１０は、第１の非破壊検査（例えば赤外線調査）を行うための機能を有してもよい。また、別のエージェント１０は、第２の非破壊検査（例えば超音波探傷試験）を行うための機能を有してもよい。また、別のエージェント１０は、第３の非破壊検査（例えば放射線透過試験）を行うための機能を有してもよい。また、別のエージェント１０は、第４の非破壊検査（例えば渦電流探傷試験）を行うための機能を有してもよい。

【0136】

具体例１において、観測情報取得部１１０は、上述した実施の形態と同様に、式（５）で示すような観測情報ｏ_ｉを取得する（Ｓ３１０）。その際に、観測情報取得部１１０は、自身のエージェント＃ｉとタスク＃ｌ（点検箇所＃ｌ）との距離を算出する（Ｓ３０２）。具体的には、実施の形態１と同様に、観測情報取得部１１０は、タスク＃ｌである点検箇所の位置を取得する。観測情報取得部１１０は、取得されたタスク＃ｌ（点検箇所＃ｌ）の位置から、自身のエージェント＃ｉと各タスク＃ｌ（点検箇所＃ｌ）との間の距離を算出する。そして、観測情報取得部１１０は、自身のエージェント＃ｉと各タスク＃ｌ（点検箇所＃ｌ）との間の距離から、自身のエージェント＃ｉに近い所定数の近傍タスクを判定し、近傍タスクに関する情報を、観測情報の一部とする。上述した式（２）～（５）の例では、近傍タスクは、自身のエージェント＃ｉに最も近い点検箇所＃ｌ_１及び２番目に近い点検箇所＃ｌ_２である。

【0137】

また、具体例１において、式（５）におけるｏ＿（ｌ_１）＾ｔａｓｋは、近傍タスクである点検箇所＃ｌ_１の状態と点検の終了条件を示してもよい。各点検箇所の状態は、点検箇所の位置、実行された点検の内容、及び異常の深刻度であってもよい。点検の終了条件は、全てのタイプのエージェント１０が点検箇所に到達して全ての種類の検査（多面的な検査）が実行されることであってもよい。ｏ＿（ｌ_２）＾ｔａｓｋについても同様である。

【0138】

具体例１において、方策格納部１１２は、上述した実施の形態と同様に、強化学習によって学習済みの方策π（学習済みモデル）を格納する。方策πは、エージェント１０ごとに学習されている。エージェント＃ｉの方策π_ＮＮ，ｉは、上述した観測情報ｏ_ｉを入力とし、上記の式（１２）で示す行動ａ_ｉを出力とする。また、実施の形態１と同様に、方策π_ＮＮ，ｉは、上記の式（１４）で示す報酬ｒ_ｉ（ｔ）を最大化するように学習されている。

【0139】

ここで、具体例１において、タスク＃ｌの達成度に関するＰ_ｌ（ｔ）は、時刻ｔにおける、点検箇所＃ｌの点検の達成度を示してもよい。点検の達成度は、例えば、深刻な点検箇所＃ｌに到達して処理を実行したエージェント１０のタイプの数に対応してもよい。あるいは、点検の達成度は、実行された点検項目の数であってもよい。また、具体例１において、タスク＃ｌの進行度に関するＱ_ｌ（ｔ）は、時刻ｔにおける、点検箇所＃ｌの点検の進行度であってもよい。点検の進行度は、単位時間当たりに深刻な点検箇所＃ｌに到達するエージェント１０の数に対応してもよい。あるいは、点検の進行度は、単位時間あたりに実行された点検項目の数であってもよい。

【0140】

また、具体例１において、要請応答処理部１３０は、上述した実施の形態と同様に、方策π_ＮＮ，ｉから出力された行動ａ_ｉから、エージェント＃ｉに関する要請パラメータｄ_ｉ及び応答パラメータσ_ｉを算出する（Ｓ３３０）。そして、要請応答処理部１３０は、要請パラメータｄ_ｉを周辺のエージェント１０の制御装置１００に送信する。また、具体例１において、重要度処理部１４０は、上述した実施の形態と同様に、自身のエージェント＃ｉに関する周辺のタスク＃ｌ（点検箇所＃ｌ）の重要度φ_ｉ ^ｌを更新（算出）する（Ｓ３４０，Ｓ３４２）。重要度処理部１４０は、上記の式（２３）及び式（２４）を用いて、自身のエージェント＃ｉに関する各タスク＃ｌ（点検箇所＃ｌ）の重要度φ_ｉ ^ｌを更新してもよい。また、具体例１において、タスク選択部１５０は、上述した実施の形態と同様に、上記の式（２６）により、全てのタスク＃ｌのうち、重要度φ_ｉ ^ｌが最大のタスク＃ｌ（点検箇所＃ｌ）を、自身のエージェント＃ｉが実行すべきタスク＃ｌ_ｉ ^＊として選択する（Ｓ３５０）。

【0141】

ここで、具体例１では、要請応答処理部１３０は、自身のエージェント＃ｉとは異なるタイプのエージェント１０の制御装置１００に、要請パラメータを送信してもよい。これにより、自身のエージェント＃ｉとは異なるタイプのエージェント１０が、点検箇所に到達する可能性が高くなる。逆に言えば、自身のエージェント＃ｉと同じタイプのエージェント１０が、点検箇所に到達する可能性が低くなる。すなわち、探索ロボットであるエージェント＃ｉが深刻な点検箇所＃ｌを検出した場合に、そのエージェント＃ｉの制御装置１００において、方策から出力される要請度合いが大きくなることが想定される。そして、探索ロボットであるエージェント＃ｉの制御装置１００が、ｄ_ｉ＝１である要請パラメータを、異なるタイプのエージェント１０（非破壊検査を行うエージェント１０等）の制御装置１００に送信する。これにより、異なるタイプのエージェント１０（非破壊検査を行うエージェント１０等）の制御装置１００において、その点検箇所＃ｌの重要度が大きくなることが想定され得る。したがって、異なるタイプのエージェント１０（非破壊検査を行うエージェント１０等）の制御装置１００において、その点検箇所＃ｌが選択され、異なるタイプのエージェント１０が、その点検箇所＃ｌに到達する可能性が、高くなる。これにより、タスク５０の目標が達成される可能性が高くなる。なお、観測情報に、どの点検箇所の検査が終わっていないかの情報が付加されれば、観測情報を取得したエージェント側で、その点検箇所への応援の要請に対する応答を積極的にすべきかの判断が可能になる。

【0142】

また、具体例１において、タスク実行部１６０は、選択されたタスク＃ｌ（点検箇所＃ｌ）を自身のエージェント＃ｉが実行するように、制御を行う（Ｓ３６０）。具体的には、タスク実行部１６０は、エージェント＃ｉを、タスク＃ｌ_ｉ ^＊（点検箇所＃ｌ_ｉ ^＊）の位置に移動させる。タスク実行部１６０は、自身のエージェント＃ｉの機能に合った検査を実行させるように、自身のエージェント＃ｉを制御する。そして、全ての点検箇所について多面的な検査が実行されるように、各エージェント１０の制御装置１００が、処理を行う。

【0143】

＜実施の形態３の具体例２＞
具体例２では、本実施の形態にかかる方法を、見守り、巡視、及びセキュリティに適用する。具体例２では、ロボット等の機械である複数のエージェント１０によって、環境の保全を行う。具体的には、複数のエージェント１０は、環境を巡回し、見守り、巡視、及びセキュリティ等に関する処理を行う。複数のエージェント１０は、環境を巡回して、環境に存在する課題を探索する。また、具体例２では、課題が探索された場合、課題を探索したエージェント１０の制御装置１００は、周辺のエージェント１０の制御装置１００に、探索された課題に関する情報を送信する。ここで、具体例２では、タスク５０は、「探索された課題」である。また、具体例２では、タスク５０の目標は、探索された課題を解決することである。エージェント１０の数が多いほど、タスク５０の目標が達成される可能性が高くなる。

【0144】

また、具体例２では、複数のエージェント１０は、探索された課題に対処する機能を有してもよい。また、具体例１のように、複数のエージェント１０は、互いに異なる機能を有してもよい。例えば、探索された課題が「粗大ごみの撤去」である場合、粗大ごみを搬送可能なエージェント１０が、粗大ごみを撤去してもよい。また、探索された課題が「犯罪者の確保」である場合、犯罪者を確保可能なエージェント１０が、犯罪者を確保してもよい。また、探索された課題が「道に迷った人への対処」である場合、道案内をすることが可能なエージェント１０が、道に迷った人への対処を行ってもよい。なお、以降の説明では、「探索された課題」を、単に「課題」と称することがある。

【0145】

具体例２において、観測情報取得部１１０は、上述した実施の形態と同様に、式（５）で示すような観測情報ｏ_ｉを取得する（Ｓ３１０）。その際に、観測情報取得部１１０は、自身のエージェント＃ｉとタスク＃ｌ（課題＃ｌ）との距離を算出する（Ｓ３０２）。具体的には、実施の形態１と同様に、観測情報取得部１１０は、タスク＃ｌである「探索された課題」の位置を取得する。「探索された課題」の位置は、探索された課題を探索したエージェント１０の、探索時の位置であってもよい。観測情報取得部１１０は、取得されたタスク＃ｌ（課題＃ｌ）の位置から、自身のエージェント＃ｉと各タスク＃ｌ（課題＃ｌ）との間の距離を算出する。そして、観測情報取得部１１０は、自身のエージェント＃ｉと各タスク＃ｌ（課題＃ｌ）との間の距離から、自身のエージェント＃ｉに近い所定数の近傍タスクを判定し、近傍タスクに関する情報を、観測情報の一部とする。上述した式（２）～（５）の例では、近傍タスクは、自身のエージェント＃ｉに最も近い課題＃ｌ_１及び２番目に近い課題＃ｌ_２である。

【0146】

また、具体例２において、式（５）におけるｏ＿（ｌ_１）＾ｔａｓｋは、近傍タスクである課題＃ｌ_１の状態と課題の終了条件を示してもよい。各課題の状態は、課題の位置、課題の解決度合い、課題の質、及び課題のタイプであってもよい。課題の終了条件は、課題が解決することであってもよい。ｏ＿（ｌ_２）＾ｔａｓｋについても同様である。

【0147】

具体例２において、方策格納部１１２は、上述した実施の形態と同様に、強化学習によって学習済みの方策π（学習済みモデル）を格納する。方策πは、エージェント１０ごとに学習されている。エージェント＃ｉの方策π_ＮＮ，ｉは、上述した観測情報ｏ_ｉを入力とし、上記の式（１２）で示す行動ａ_ｉを出力とする。また、実施の形態１と同様に、方策π_ＮＮ，ｉは、上記の式（１４）で示す報酬ｒ_ｉ（ｔ）を最大化するように学習されている。

【0148】

ここで、具体例２において、タスク＃ｌの達成度に関するＰ_ｌ（ｔ）は、時刻ｔにおける、課題＃ｌに関する課題解決の達成度を示してもよい。課題解決の達成度は、例えば、課題に対処可能なエージェント１０が対処を終了したことに対応してもよい。また、具体例２において、タスク＃ｌの進行度に関するＱ_ｌ（ｔ）は、時刻ｔにおける、課題＃ｌに対する課題の対処の進行度であってもよい。課題の対処の進行度は、例えば、課題に対処可能なエージェント１０が対処を行っていることに対応してもよい。

【0149】

また、具体例２において、要請応答処理部１３０は、上述した実施の形態と同様に、方策π_ＮＮ，ｉから出力された行動ａ_ｉから、エージェント＃ｉに関する要請パラメータｄ_ｉ及び応答パラメータσ_ｉを算出する（Ｓ３３０）。そして、要請応答処理部１３０は、要請パラメータｄ_ｉを周辺のエージェント１０の制御装置１００に送信する。このとき、実施の形態１及び実施の形態２の変形例のように、制御装置１００は、人間が携帯する端末に、要請パラメータを送信してもよい。これにより、人間が課題に対処してもよい。また、具体例１のように、制御装置１００は、自身のエージェント＃ｉとは異なるタイプのエージェント１０の制御装置１００に、要請パラメータを送信してもよい。

【0150】

また、具体例２において、重要度処理部１４０は、上述した実施の形態と同様に、自身のエージェント＃ｉに関する周辺のタスク＃ｌ（課題＃ｌ）の重要度φ_ｉ ^ｌを更新（算出）する（Ｓ３４０，Ｓ３４２）。重要度処理部１４０は、上記の式（２３）及び式（２４）を用いて、自身のエージェント＃ｉに関する各タスク＃ｌ（課題＃ｌ）の重要度φ_ｉ ^ｌを更新してもよい。また、具体例２において、タスク選択部１５０は、上述した実施の形態と同様に、上記の式（２６）により、全てのタスク＃ｌのうち、重要度φ_ｉ ^ｌが最大のタスク＃ｌ（課題＃ｌ）を、自身のエージェント＃ｉが実行すべきタスク＃ｌ_ｉ ^＊として選択する（Ｓ３５０）。

【0151】

なお、課題＃ｌを探索したエージェント＃ｉがその課題に対処する機能を有していない場合に、そのエージェント＃ｉの制御装置１００において、方策から出力される要請度合いが大きくなることが想定される。そして、そのエージェント＃ｉの制御装置１００が、ｄ_ｉ＝１である要請パラメータを、周辺のエージェント１０の制御装置１００に送信する。そして、周辺のエージェント１０のうち、課題に対処可能なエージェント１０の制御装置１００において、課題の質及び課題のタイプが示された観測情報、及び、上記の要請パラメータが取得されることで、その課題＃ｌの重要度が大きくなることが想定され得る。したがって、課題に対処可能なエージェント１０の制御装置１００において、その課題＃ｌが選択され、課題に対処可能なエージェント１０が、その課題＃ｌの位置に到達する可能性が、高くなる。なお、観測情報に、どの課題の対処が終わっていないかの情報が付加されれば、観測情報を取得したエージェント側で、その課題への応援の要請に対する応答を積極的にすべきかの判断が可能になる。

【0152】

また、具体例２において、タスク実行部１６０は、選択されたタスク＃ｌ（課題＃ｌ）を自身のエージェント＃ｉが実行するように、制御を行う（Ｓ３６０）。具体的には、タスク実行部１６０は、エージェント＃ｉを、タスク＃ｌ_ｉ ^＊（課題＃ｌ_ｉ ^＊）の位置に移動させる。タスク実行部１６０は、自身のエージェント＃ｉが実行可能な課題の対処を実行させるように、自身のエージェント＃ｉを制御する。そして、全ての探索された課題が解決されるように、各エージェント１０の制御装置１００が、処理を行う。

【0153】

＜実施の形態３の具体例３＞
具体例３では、本実施の形態にかかる方法を、自然との共存に適用する。具体例３では、ロボット等の機械である複数のエージェント１０によって、動物を監視し、動物の動きを制御する。これにより、農場に動物が侵入することを抑制することで、サステイナブルな生態系を実現しつつ、農業被害を低減できる。

【0154】

具体例３では、複数のエージェント１０が、農場又は農場の周囲で動く物体を検出することで、動物を検出する。また、複数のエージェント１０それぞれは、互いに異なる機能を有してもよい。つまり、具体例１のように、複数のエージェント１０は、異なるタイプのエージェントで構成されてもよい。この場合、あるエージェント１０は、動物を探索する機能を有してもよい。また、別のエージェント１０は、動物を農場から退去させる機能を有してもよい。あるいは、複数のエージェント１０のそれぞれが、動物を探索する機能及び動物を農場から退去させる機能の両方を有してもよい。つまり、複数のエージェント１０のそれぞれが、同じタイプのエージェント１０であってもよい。なお、動物を検出したエージェント１０の制御装置１００は、動物に関する情報（動物の位置等）を、他のエージェント１０の制御装置１００に送信する。ここで、具体例３では、タスク５０は、検出された各動物である。また、具体例３では、タスク５０の目標は、動物の退去である。エージェント１０の数が多いほど、タスク５０の目標が達成される可能性が高くなる。

【0155】

具体例３において、観測情報取得部１１０は、上述した実施の形態と同様に、式（５）で示すような観測情報ｏ_ｉを取得する（Ｓ３１０）。その際に、観測情報取得部１１０は、自身のエージェント＃ｉとタスク＃ｌ（動物＃ｌ）との距離を算出する（Ｓ３０２）。具体的には、実施の形態１と同様に、観測情報取得部１１０は、タスク＃ｌである動物の位置を取得する。観測情報取得部１１０は、取得されたタスク＃ｌ（動物＃ｌ）の位置から、自身のエージェント＃ｉと各タスク＃ｌ（動物＃ｌ）との間の距離を算出する。そして、観測情報取得部１１０は、自身のエージェント＃ｉと各タスク＃ｌ（動物＃ｌ）との間の距離から、自身のエージェント＃ｉに近い所定数の近傍タスクを判定し、近傍タスクに関する情報を、観測情報の一部とする。上述した式（２）～（５）の例では、近傍タスクは、自身のエージェント＃ｉに最も近い動物＃ｌ_１及び２番目に近い動物＃ｌ_２である。

【0156】

また、具体例３において、式（５）におけるｏ＿（ｌ_１）＾ｔａｓｋは、近傍タスクである動物＃ｌ_１の状態と動物＃ｌ_１の退去先（ゴール）を示してもよい。動物の状態は、動物の位置及び動物の速度であってもよい。動物＃ｌ_１の退去先は、その動物の元のテリトリーに対応してもよい。ｏ＿（ｌ_２）＾ｔａｓｋについても同様である。

【0157】

具体例３において、方策格納部１１２は、上述した実施の形態と同様に、強化学習によって学習済みの方策π（学習済みモデル）を格納する。方策πは、エージェント１０ごとに学習されている。エージェント＃ｉの方策π_ＮＮ，ｉは、上述した観測情報ｏ_ｉを入力とし、上記の式（１２）で示す行動ａ_ｉを出力とする。また、実施の形態１と同様に、方策π_ＮＮ，ｉは、上記の式（１４）で示す報酬ｒ_ｉ（ｔ）を最大化するように学習されている。

【0158】

ここで、具体例３において、タスク＃ｌの達成度に関するＰ_ｌ（ｔ）は、時刻ｔにおける、動物から守りたい範囲（動物を侵入させたくない範囲）の境界までの距離としてもよい。また、具体例３において、タスク＃ｌの進行度に関するＱ_ｌ（ｔ）は、時刻ｔにおける、動物＃ｌのゴールへの移動速度であってもよい。

【0159】

また、具体例３において、要請応答処理部１３０は、上述した実施の形態と同様に、方策π_ＮＮ，ｉから出力された行動ａ_ｉから、エージェント＃ｉに関する要請パラメータｄ_ｉ及び応答パラメータσ_ｉを算出する（Ｓ３３０）。そして、要請応答処理部１３０は、要請パラメータｄ_ｉを周辺のエージェント１０の制御装置１００に送信する。このとき、実施の形態１及び実施の形態２の変形例のように、制御装置１００は、人間が携帯する端末に、要請パラメータを送信してもよい。これにより、人間が動物の退去を行ってもよい。

【0160】

また、具体例３において、重要度処理部１４０は、上述した実施の形態と同様に、自身のエージェント＃ｉに関する周辺のタスク＃ｌ（動物＃ｌ）の重要度φ_ｉ ^ｌを更新（算出）する（Ｓ３４０，Ｓ３４２）。重要度処理部１４０は、上記の式（２３）及び式（２４）を用いて、自身のエージェント＃ｉに関する各タスク＃ｌ（動物＃ｌ）の重要度φ_ｉ ^ｌを更新してもよい。また、具体例３において、タスク選択部１５０は、上述した実施の形態と同様に、上記の式（２６）により、全てのタスク＃ｌのうち、重要度φ_ｉ ^ｌが最大のタスク＃ｌ（動物＃ｌ）を、自身のエージェント＃ｉが実行すべきタスク＃ｌ_ｉ ^＊として選択する（Ｓ３５０）。

【0161】

なお、複数のエージェント１０が異なるタイプのエージェント１０で構成される場合、具体例１と同様に、要請応答処理部１３０は、自身のエージェント＃ｉとは異なるタイプのエージェント＃ｉの制御装置１００に、要請パラメータを送信してもよい。これにより、自身のエージェント＃ｉとは異なるタイプのエージェント１０が、動物に到達する可能性が高くなる。これにより、具体例１と同様に、動物を探索する機能を有するエージェント＃ｉが動物を検出した場合に、動物を農場から退去させる機能を有するエージェント１０が、その動物に到達する可能性が高くなる。

【0162】

また、具体例３において、タスク実行部１６０は、選択されたタスク＃ｌ（動物の制御）を自身のエージェント＃ｉが実行するように、制御を行う（Ｓ３６０）。具体的には、タスク実行部１６０は、エージェント＃ｉを、タスク＃ｌ_ｉ ^＊（動物＃ｌ_ｉ ^＊）の位置に移動させる。タスク実行部１６０は、動物の退去（動物の追い払い）を実行させるように、自身のエージェント＃ｉを制御する。そして、全ての動物について退去（追い払い）が実行されるように、各エージェント１０の制御装置１００が、処理を行う。

【0163】

＜実施の形態３の具体例４＞
具体例４では、本実施の形態にかかる方法を、多様なサービスの提供に適用する。具体例４では、ロボット等の機械である複数のエージェント１０によって、環境に住む人々のサポートを行う。これにより、人々の快適度を向上させることができる。具体的には、複数のエージェント１０は、環境を巡回し、人々の要望に応えるための処理を行う。エージェント１０は、環境を巡回して、人々からリクエストされた課題を解決する。また、具体例４では、課題がリクエストされた場合、課題をリクエストされたエージェント１０の制御装置１００は、周辺のエージェント１０の制御装置１００に、リクエストされた課題に関する情報を送信する。なお、具体例４では、タスク５０は、「リクエストされた課題」である。また、具体例４では、タスク５０の目標は、リクエストされた課題を解決することである。エージェント１０の数が多いほど、タスク５０の目標が達成される可能性が高くなる。

【0164】

また、具体例４では、複数のエージェント１０は、リクエストされた課題に対処する機能を有してもよい。また、具体例１のように、複数のエージェント１０は、互いに異なる機能を有してもよい。例えば、リクエストされた課題が「粗大ごみの撤去」である場合、粗大ごみを搬送可能なエージェント１０が、粗大ごみを撤去してもよい。また、リクエストされた課題が「犯罪者の確保」である場合、犯罪者を確保可能なエージェント１０が、犯罪者を確保してもよい。また、リクエストされた課題が「道に迷った人への対処」である場合、道案内をすることが可能なエージェント１０が、道に迷った人への対処を行ってもよい。なお、以降の説明では、「リクエストされた課題」を、単に「課題」と称することがある。

【0165】

具体例４において、観測情報取得部１１０は、上述した実施の形態と同様に、式（５）で示すような観測情報ｏ_ｉを取得する（Ｓ３１０）。その際に、観測情報取得部１１０は、自身のエージェント＃ｉとタスク＃ｌ（課題＃ｌ）との距離を算出する（Ｓ３０２）。具体的には、実施の形態１と同様に、観測情報取得部１１０は、タスク＃ｌである「リクエストされた課題」の位置を取得する。「リクエストされた課題」の位置は、課題をリクエストされたエージェント１０の、リクエストされたときの位置であってもよい。観測情報取得部１１０は、取得されたタスク＃ｌ（課題＃ｌ）の位置から、自身のエージェント＃ｉと各タスク＃ｌ（課題＃ｌ）との間の距離を算出する。そして、観測情報取得部１１０は、自身のエージェント＃ｉと各タスク＃ｌ（課題＃ｌ）との間の距離から、自身のエージェント＃ｉに近い所定数の近傍タスクを判定し、近傍タスクに関する情報を、観測情報の一部とする。上述した式（２）～（５）の例では、近傍タスクは、自身のエージェント＃ｉに最も近い課題＃ｌ_１及び２番目に近い課題＃ｌ_２である。

【0166】

また、具体例４において、式（５）におけるｏ＿（ｌ_１）＾ｔａｓｋは、近傍タスクである課題＃ｌ_１の状態と課題の終了条件を示してもよい。各課題の状態は、課題の位置、課題の解決度合い、課題の質、及び課題のタイプであってもよい。課題の終了条件は、課題が解決することであってもよい。ｏ＿（ｌ_２）＾ｔａｓｋについても同様である。

【0167】

具体例４において、方策格納部１１２は、上述した実施の形態と同様に、強化学習によって学習済みの方策π（学習済みモデル）を格納する。方策πは、エージェント１０ごとに学習されている。エージェント＃ｉの方策π_ＮＮ，ｉは、上述した観測情報ｏ_ｉを入力とし、上記の式（１２）で示す行動ａ_ｉを出力とする。また、実施の形態１と同様に、方策π_ＮＮ，ｉは、上記の式（１４）で示す報酬ｒ_ｉ（ｔ）を最大化するように学習されている。

【0168】

ここで、具体例４において、タスク＃ｌの達成度に関するＰ_ｌ（ｔ）は、時刻ｔにおける、課題＃ｌに関する課題解決の達成度を示してもよい。課題解決の達成度は、例えば、課題に対処可能なエージェント１０が対処を終了したことに対応してもよい。また、具体例４において、タスク＃ｌの進行度に関するＱ_ｌ（ｔ）は、時刻ｔにおける、課題＃ｌに対する課題の対処の進行度であってもよい。課題の対処の進行度は、例えば、課題に対処可能なエージェント１０が対処を行っていることに対応してもよい。

【0169】

また、具体例４において、要請応答処理部１３０は、上述した実施の形態と同様に、方策π_ＮＮ，ｉから出力された行動ａ_ｉから、エージェント＃ｉに関する要請パラメータｄ_ｉ及び応答パラメータσ_ｉを算出する（Ｓ３３０）。そして、要請応答処理部１３０は、要請パラメータｄ_ｉを周辺のエージェント１０の制御装置１００に送信する。このとき、実施の形態１及び実施の形態２の変形例のように、制御装置１００は、人間が携帯する端末に、要請パラメータを送信してもよい。これにより、人間が課題に対処してもよい。また、具体例１のように、制御装置１００は、自身のエージェント＃ｉとは異なるタイプのエージェント１０の制御装置１００に、要請パラメータを送信してもよい。

【0170】

また、具体例４において、重要度処理部１４０は、上述した実施の形態と同様に、自身のエージェント＃ｉに関する周辺のタスク＃ｌ（課題＃ｌ）の重要度φ_ｉ ^ｌを更新（算出）する（Ｓ３４０，Ｓ３４２）。重要度処理部１４０は、上記の式（２３）及び式（２４）を用いて、自身のエージェント＃ｉに関する各タスク＃ｌ（課題＃ｌ）の重要度φ_ｉ ^ｌを更新してもよい。また、具体例４において、タスク選択部１５０は、上述した実施の形態と同様に、上記の式（２６）により、全てのタスク＃ｌのうち、重要度φ_ｉ ^ｌが最大のタスク＃ｌ（課題＃ｌ）を、自身のエージェント＃ｉが実行すべきタスク＃ｌ_ｉ ^＊として選択する（Ｓ３５０）。

【0171】

【0172】

また、具体例４において、タスク実行部１６０は、選択されたタスク＃ｌ（課題＃ｌ）を自身のエージェント＃ｉが実行するように、制御を行う（Ｓ３６０）。具体的には、タスク実行部１６０は、エージェント＃ｉを、タスク＃ｌ_ｉ ^＊（課題＃ｌ_ｉ ^＊）の位置に移動させる。タスク実行部１６０は、自身のエージェント＃ｉが実行可能な課題の対処を実行させるように、自身のエージェント＃ｉを制御する。そして、全てのリクエストされた課題が解決されるように、各エージェント１０の制御装置１００が、処理を行う。

【0173】

＜実施の形態３の具体例５＞
具体例５では、本実施の形態にかかる方法を、イベント対応に適用する。具体例５では、ロボット等の機械である複数のエージェント１０によって、イベントにおける人流を制御する。具体的には、複数のエージェント１０は、誘導すべき人流（群衆）を探索し、留めるべき位置に人流を誘導することで、人流（群衆）を整理する。さらに具体的には、例えば１本のロープを複数のエージェント１０が把持して、各エージェント１０が所定の位置に移動することによって、ロープにより領域を区分けすることができる。これにより、区分けされた領域に人流を誘導することで、人流を整理する。また、具体例５では、誘導すべき人流を探索したエージェント１０の制御装置１００は、周辺のエージェント１０の制御装置１００に、探索された人流に関する情報を送信してもよい。

【0174】

ここで、具体例５では、タスク５０は、「人流のまとまり（又は単に「人流」）」である。また、具体例５では、タスク５０の目標は、留めるべき位置に人流を誘導することである。なお、多くのエージェント１０が人流の整理を行うことで、区分けのバリエーションが増加し、区分けされる領域の大きさが増加する。したがって、エージェント１０の数が多いほど、タスク５０の目標が達成される可能性が高くなる。

【0175】

具体例５において、観測情報取得部１１０は、上述した実施の形態と同様に、式（５）で示すような観測情報ｏ_ｉを取得する（Ｓ３１０）。その際に、観測情報取得部１１０は、自身のエージェント＃ｉとタスク＃ｌ（人流＃ｌ）との距離を算出する（Ｓ３０２）。具体的には、実施の形態１と同様に、観測情報取得部１１０は、タスク＃ｌである人流の位置を取得する。観測情報取得部１１０は、取得されたタスク＃ｌ（人流＃ｌ）の位置から、自身のエージェント＃ｉと各タスク＃ｌ（人流＃ｌ）との間の距離を算出する。そして、観測情報取得部１１０は、自身のエージェント＃ｉと各タスク＃ｌ（人流＃ｌ）との間の距離から、自身のエージェント＃ｉに近い所定数の近傍タスクを判定し、近傍タスクに関する情報を、観測情報の一部とする。上述した式（２）～（５）の例では、近傍タスクは、自身のエージェント＃ｉに最も近い人流＃ｌ_１及び２番目に近い人流＃ｌ_２である。

【0176】

また、具体例５において、式（５）におけるｏ＿（ｌ_１）＾ｔａｓｋは、近傍タスクである人流＃ｌ_１の状態と人流＃ｌ_１のゴール（留めるべき位置）を示してもよい。人流の状態は、人流の位置及び人流の移動速度であってもよい。ｏ＿（ｌ_２）＾ｔａｓｋについても同様である。

【0177】

具体例５において、方策格納部１１２は、上述した実施の形態と同様に、強化学習によって学習済みの方策π（学習済みモデル）を格納する。方策πは、エージェント１０ごとに学習されている。エージェント＃ｉの方策π_ＮＮ，ｉは、上述した観測情報ｏ_ｉを入力とし、上記の式（１２）で示す行動ａ_ｉを出力とする。また、実施の形態１と同様に、方策π_ＮＮ，ｉは、上記の式（１４）で示す報酬ｒ_ｉ（ｔ）を最大化するように学習されている。

【0178】

ここで、具体例５において、タスク＃ｌの達成度に関するＰ_ｌ（ｔ）は、時刻ｔにおける、人流＃ｌのゴール（留めるべき位置）への到達の有無を示してもよい。また、具体例５において、タスク＃ｌの進行度に関するＱ_ｌ（ｔ）は、時刻ｔにおける、人流＃ｌのゴールへの移動速度であってもよい。

【0179】

また、具体例５において、要請応答処理部１３０は、上述した実施の形態と同様に、方策π_ＮＮ，ｉから出力された行動ａ_ｉから、エージェント＃ｉに関する要請パラメータｄ_ｉ及び応答パラメータσ_ｉを算出する（Ｓ３３０）。そして、要請応答処理部１３０は、要請パラメータｄ_ｉを周辺のエージェント１０の制御装置１００に送信する。このとき、実施の形態１及び実施の形態２の変形例のように、制御装置１００は、人間が携帯する端末に、要請パラメータを送信してもよい。これにより、人間が人流の整理を行ってもよい。

【0180】

また、具体例５において、重要度処理部１４０は、上述した実施の形態と同様に、自身のエージェント＃ｉに関する周辺のタスク＃ｌ（人流＃ｌ）の重要度φ_ｉ ^ｌを更新（算出）する（Ｓ３４０，Ｓ３４２）。重要度処理部１４０は、上記の式（２３）及び式（２４）を用いて、自身のエージェント＃ｉに関する各タスク＃ｌ（人流＃ｌ）の重要度φ_ｉ ^ｌを更新してもよい。また、具体例３において、タスク選択部１５０は、上述した実施の形態と同様に、上記の式（２６）により、全てのタスク＃ｌのうち、重要度φ_ｉ ^ｌが最大のタスク＃ｌ（人流＃ｌ）を、自身のエージェント＃ｉが実行すべきタスク＃ｌ_ｉ ^＊として選択する（Ｓ３５０）。

【0181】

また、具体例５において、タスク実行部１６０は、選択されたタスク＃ｌ（人流の整理）を自身のエージェント＃ｉが実行するように、制御を行う（Ｓ３６０）。具体的には、タスク実行部１６０は、エージェント＃ｉを、タスク＃ｌ_ｉ ^＊（人流＃ｌ_ｉ ^＊）の位置に移動させる。タスク実行部１６０は、人流の整理（留めるべき位置への人流の誘導）を実行させるように、自身のエージェント＃ｉを制御する。そして、全ての人流について整理（誘導）が実行されるように、各エージェント１０の制御装置１００が、処理を行う。

【0182】

（変形例）
なお、本実施の形態は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述したフローチャートの各ステップ（処理）の順序は、適宜、変更可能である。また、上述したフローチャートの各ステップ（処理）の１つ以上は、省略可能である。

【0183】

また、上述した実施の形態では、エージェント１０及びタスク５０は、実空間に存在するとしたが、これに限られない。エージェント１０及びタスク５０は、例えば、シミュレーションで実現される仮想空間に存在してもよい。

【0184】

上述したプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disk（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

【符号の説明】

【0185】

１制御システム
１０エージェント
５０タスク
６０監視装置
１００制御装置
１１０観測情報取得部
１１２方策格納部
１２０行動出力部
１３０要請応答処理部
１４０重要度処理部
１５０タスク選択部
１６０タスク実行部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版