IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ クラスターダイナミクス株式会社の特許一覧

特開2022-147373移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体
<>
  • 特開-移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体 図1
  • 特開-移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体 図2
  • 特開-移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体 図3
  • 特開-移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体 図4
  • 特開-移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体 図5
  • 特開-移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体 図6
  • 特開-移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体 図7
  • 特開-移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体 図8
  • 特開-移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体 図9
  • 特開-移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022147373
(43)【公開日】2022-10-06
(54)【発明の名称】移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体
(51)【国際特許分類】
   G05D 1/10 20060101AFI20220929BHJP
   G06N 20/00 20190101ALI20220929BHJP
   B64C 13/18 20060101ALI20220929BHJP
   B64C 39/02 20060101ALI20220929BHJP
【FI】
G05D1/10
G06N20/00
B64C13/18 Z
B64C39/02
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021048583
(22)【出願日】2021-03-23
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和2年度、防衛装備庁 安全保障技術研究推進制度、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】517405884
【氏名又は名称】クラスターダイナミクス株式会社
(74)【代理人】
【識別番号】100125645
【弁理士】
【氏名又は名称】是枝 洋介
(74)【代理人】
【識別番号】100145609
【弁理士】
【氏名又は名称】楠屋 宏行
(74)【代理人】
【識別番号】100149490
【弁理士】
【氏名又は名称】羽柴 拓司
(72)【発明者】
【氏名】▲高▼岡 秀年
【テーマコード(参考)】
5H301
【Fターム(参考)】
5H301AA06
5H301AA10
5H301CC04
5H301CC07
5H301CC10
5H301DD07
5H301DD17
5H301GG07
(57)【要約】
【課題】移動体群における各移動体の協調的な動作を容易に実現させることができる移動体の制御装置及び制御方法、学習装置及び行動モデルの生成方法、並びに移動体を提供する。
【解決手段】
移動体であるUAV1は、UAV群に含まれる自UAV1と他のUAV1との間の相対関係が所定の基準状態から逸脱している場合において当該相対関係を当該基準状態に復元させるときに自UAV1と前記他のUAV1との間に働く仮想相互作用力に基づいて、強化学習により予め生成された移動体の行動モデルMを取得し、その取得した行動モデルMに基づいて自UAV1の動作を制御する。ここで、行動モデルMは、前記仮想相互作用力が小さい場合に高い報酬を与える強化学習を行うことにより生成されている。
【選択図】図2
【特許請求の範囲】
【請求項1】
移動体群に含まれる一の移動体と他の移動体との間の相対関係が所定の基準状態から逸脱している場合において当該相対関係を当該基準状態に復元させるときに前記一の移動体と前記他の移動体との間に働く仮想相互作用力に基づいて、強化学習により予め生成された移動体の行動モデルを取得する取得部と、
取得した前記行動モデルに基づいて前記一の移動体を制御する制御部と
を備え、
前記行動モデルが、前記仮想相互作用力が小さい場合に高い報酬を与える強化学習を行うことにより生成される、
移動体の制御装置。
【請求項2】
前記制御部が、前記移動体群に含まれる移動体のうちの、前記一の移動体とは異なる移動体を、前記行動モデルに基づいて制御する、
請求項1に記載の移動体の制御装置。
【請求項3】
前記相対関係が、前記一の移動体と前記他の移動体との間の相対距離及び相対速度である、
請求項1又は2に記載の移動体の制御装置。
【請求項4】
前記行動モデルは、前記相対関係を状態とし、前記他の移動体に対する前記一の移動体の加速度を行動とする強化学習により生成されたものである、
請求項1乃至3の何れかに記載の移動体の制御装置。
【請求項5】
前記制御部は、前記行動モデルを関数化した関数情報に基づいて、前記一の移動体を制御する、
請求項1乃至4の何れかに記載の移動体の制御装置。
【請求項6】
移動体群に含まれる一の移動体と他の移動体との間の相対関係が所定の基準状態から逸脱している場合において当該相対関係を当該基準状態に復元させるときに前記一の移動体と前記他の移動体との間に働く仮想相互作用力に基づいて、強化学習により予め生成された移動体の行動モデルを取得するステップと、
取得した前記行動モデルに基づいて前記一の移動体を制御するステップと
を有し、
前記行動モデルが、前記仮想相互作用力が小さい場合に高い報酬を与える強化学習を行うことにより生成される、
移動体の制御方法。
【請求項7】
移動体群に含まれる一の移動体と他の移動体との間の相対関係が所定の基準状態から逸脱している場合において当該相対関係を当該基準状態に復元させるときに前記一の移動体と前記他の移動体との間に働く仮想相互作用力を、当該相対関係に基づいて算出する算出部と、
前記仮想相互作用力が小さい場合に高い報酬を与える強化学習を行うことにより移動体の行動モデルを生成する学習部と
を備える、学習装置。
【請求項8】
前記学習部は、前記相対関係を状態とし、前記他の移動体に対する前記一の移動体の加速度を行動とする強化学習を行うことにより、前記行動モデルを生成する、
請求項7に記載の学習装置。
【請求項9】
前記学習部は、深層強化学習を行うことにより前記行動モデルを生成する、
請求項8に記載の学習装置。
【請求項10】
移動体群に含まれる一の移動体と他の移動体との間の相対関係が所定の基準状態から逸脱している場合において当該相対関係を当該基準状態に復元させるときに前記一の移動体と前記他の移動体との間に働く仮想相互作用力を、当該相対関係に基づいて算出し、
前記仮想相互作用力が小さい場合に高い報酬を与える強化学習を行うことにより移動体の行動モデルを生成する、
移動体の行動モデルの生成方法。
【請求項11】
移動体群に含まれる一の移動体であって、
前記一の移動体と前記移動体群に含まれる他の移動体との間の相対関係が所定の基準状態から逸脱している場合において当該相対関係を当該基準状態に復元させるときに前記一の移動体と前記他の移動体との間に働く仮想相互作用力に基づいて、強化学習により予め生成された移動体の行動モデルを取得する取得部と、
取得した前記行動モデルに基づいて前記一の移動体を制御する制御部と
を備え、
前記行動モデルが、前記仮想相互作用力が小さい場合に高い報酬を与える強化学習を行うことにより生成される、移動体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば無人航空機(UAV:unmanned aerial vehicle)等の移動体の制御装置及び制御方法、学習装置及び移動体の行動モデルの生成方法、並びに移動体に関する。
【背景技術】
【0002】
複数の移動体を群れとして捉え、その群れに含まれる各移動体を協調して動作させるための制御方法が、従来種々提案されている。例えば、特許文献1には、移動体の群を、移動体を構成要素とする連続体に見立て、各移動体に関する物理量を、連続体力学に基づいて数値解析手法により算出し、その物理量に基づいて算出された各移動体の軌道変化にしたがって、各移動体に軌道変更の指示を出す群制御方法が開示されている。これにより、安定した群れを維持したまま、群れ全体を移動させることが可能になる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第6065130号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した従来の制御方法の場合、移動体の動きを物理モデルでシミュレーションしており、その精度を向上させるためには、物理モデルの物理定数を適宜チューニングする必要がある。しかしながら、そのチューニングには人手による試行錯誤が必要になるという問題がある。
【0005】
本発明は斯かる事情に鑑みてなされたものであり、その主たる目的は、強化学習を用いることにより、上記の課題を解決することができる移動体の制御装置及び制御方法、学習装置及び移動体の行動モデルの生成方法、並びに移動体を提供することにある。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、本発明の一の態様の移動体の制御装置は、移動体群に含まれる一の移動体と他の移動体との間の相対関係が所定の基準状態から逸脱している場合において当該相対関係を当該基準状態に復元させるときに前記一の移動体と前記他の移動体との間に働く仮想相互作用力に基づいて、強化学習により予め生成された移動体の行動モデルを取得する取得部と、取得した前記行動モデルに基づいて前記一の移動体を制御する制御部とを備え、前記行動モデルが、前記仮想相互作用力が小さい場合に高い報酬を与える強化学習を行うことにより生成される。
【0007】
前記態様において、前記制御部が、前記移動体群に含まれる移動体のうちの、前記一の移動体とは異なる移動体を、前記行動モデルに基づいて制御してもよい。
【0008】
また、前記態様において、前記相対関係が、前記一の移動体と前記他の移動体との間の相対距離及び相対速度であってもよい。
【0009】
また、前記態様において、前記行動モデルは、前記相対関係を状態とし、前記他の移動体に対する前記一の移動体の加速度を行動とする強化学習により生成されたものであってもよい。
【0010】
また、前記態様において、前記制御部は、前記行動モデルを関数化した関数情報に基づいて、前記一の移動体を制御してもよい。
【0011】
本発明の一の態様の移動体の制御方法は、移動体群に含まれる一の移動体と他の移動体との間の相対関係が所定の基準状態から逸脱している場合において当該相対関係を当該基準状態に復元させるときに前記一の移動体と前記他の移動体との間に働く仮想相互作用力に基づいて、強化学習により予め生成された移動体の行動モデルを取得するステップと、 取得した前記行動モデルに基づいて前記一の移動体を制御するステップとを有し、前記行動モデルが、前記仮想相互作用力が小さい場合に高い報酬を与える強化学習を行うことにより生成される。
【0012】
本発明の一の態様の学習装置は、移動体群に含まれる一の移動体と他の移動体との間の相対関係が所定の基準状態から逸脱している場合において当該相対関係を当該基準状態に復元させるときに前記一の移動体と前記他の移動体との間に働く仮想相互作用力を、当該相対関係に基づいて算出する算出部と、前記仮想相互作用力が小さい場合に高い報酬を与える強化学習を行うことにより移動体の行動モデルを生成する学習部とを備える。
【0013】
前記態様において、前記学習部は、前記相対関係を状態とし、前記他の移動体に対する前記一の移動体の加速度を行動とする強化学習を行うことにより、前記行動モデルを生成してもよい。また、前記学習部は、深層強化学習を行うことにより前記行動モデルを生成してもよい。
【0014】
本発明の一の態様の移動体の行動モデルの生成方法は、移動体群に含まれる一の移動体と他の移動体との間の相対関係が所定の基準状態から逸脱している場合において当該相対関係を当該基準状態に復元させるときに前記一の移動体と前記他の移動体との間に働く仮想相互作用力を、当該相対関係に基づいて算出し、前記仮想相互作用力が小さい場合に高い報酬を与える強化学習を行うことにより移動体の行動モデルを生成する。
【0015】
本発明の一の態様の移動体は、移動体群に含まれる一の移動体であって、前記一の移動体と前記移動体群に含まれる他の移動体との間の相対関係が所定の基準状態から逸脱している場合において当該相対関係を当該基準状態に復元させるときに前記一の移動体と前記他の移動体との間に働く仮想相互作用力に基づいて、強化学習により予め生成された移動体の行動モデルを取得する取得部と、取得した前記行動モデルに基づいて前記一の移動体を制御する制御部とを備え、前記行動モデルが、前記仮想相互作用力が小さい場合に高い報酬を与える強化学習を行うことにより生成される。
【発明の効果】
【0016】
本発明によれば、強化学習を用いることにより、効率良く移動体の制御を行うことが可能になる。
【図面の簡単な説明】
【0017】
図1】制御対象となる移動体群の構成を概念的に示す説明図。
図2】UAVの構成を示すブロック図。
図3】学習装置の構成を示すブロック図。
図4】バネ-ダンパー系のシミュレーションモデルの概念を示す説明図。
図5】DQNを説明するための図。
図6】学習装置によって実行される学習フェーズの処理手順を示すフローチャート。
図7】関数化された行動モデルの概念を示す説明図。
図8】UAVの制御部によって実行される適用フェーズの処理手順を示すフローチャート。
図9】UAVの制御システムの構成を示す図。
図10】制御装置の制御部によって実行される適用フェーズの処理手順を示すフローチャート。
【発明を実施するための形態】
【0018】
以下、本発明の好ましい実施の形態について、図面を参照しながら説明する。なお、以下に示す各実施の形態は、本発明の技術的思想を具体化するための方法及び装置を例示するものであって、本発明の技術的思想は下記のものに限定されるわけではない。本発明の技術的思想は、特許請求の範囲に記載された技術的範囲内において種々の変更を加えることができる。
【0019】
(実施の形態1)
本実施の形態では、移動体群に含まれる複数のUAVのそれぞれが、自律的に協調的な動作を行う。以下、本実施の形態に含まれる各装置の構成及び動作について説明する。
【0020】
図1は、制御対象となる移動体群の構成を概念的に示す説明図である。図1に示すように、移動体群は複数のUAV1で構成されている。この移動体群(UAV群)に含まれるUAV1同士は個々に通信することが可能であり、互いの位置を共有することができるように構成されている。なお、UAV1の位置は、そのUAV1が有するGPS機能により得られる。ただし、GPS以外の自己位置測位機能によりUAV1の位置が取得されてもよい。
【0021】
図2は、UAV1の構成を示すブロック図である。UAV1は、マルチコプター等の小型の飛行体であって、CPU、RAM、ROM、不揮発性メモリ、及び入出力インタフェース等を含むコンピュータを備えている。このCPUがRAMにロードされたプログラムにしたがって情報処理を実行することにより、後述する動作が実現される。
【0022】
図2に示すとおり、UAV1は、駆動部101、制御部102、記憶部103、及び無線通信部104を備えている。駆動部101は、ローター及びプロペラ等で構成され、その動作は制御部102によって制御される。
【0023】
記憶部103は、不揮発性メモリで構成され、各UAV1の飛行動作のモデルを示す行動モデルMを記憶する。行動モデルMは、後述するようにして強化学習により生成されたUAV1の行動モデルを示す情報である。本実施の形態では、そのように生成された行動モデルを関数化した関数情報が行動モデルMに相当する。
【0024】
無線通信部104は、V2V(Vehicle-to-Vehicle)通信を行うための通信モジュールを備えている。無線通信部104により、各UAV1は相互に通信することが可能になり、互いの位置の共有などを実現することができる。
【0025】
図3は、上述した行動モデルを生成する学習装置の構成を示すブロック図である。学習装置2は、CPU、RAM、ROM、不揮発性メモリ、及び入出力インタフェース等を含むコンピュータである。学習装置2のCPUは、ROM又は不揮発性メモリからRAMにロードされたプログラムにしたがって、後述する各処理を実行する。
【0026】
図3に示すとおり、学習装置2は、算出部201及び学習部202を備えている。算出部201は後述する仮想相互作用力を算出し、学習部202がその仮想相互作用力に基づいてUAV1の行動モデルを生成する。これらの機能部は、学習装置2のCPUがプログラムにしたがって情報処理を実行することにより実現される。
【0027】
次に、(1)強化学習によりUAV1の行動モデルを生成する学習フェーズ、及び(2)生成された行動モデルを適用してUAV1の動作を制御する適用フェーズの各フェーズについて、その詳細を説明する。
【0028】
(1)学習フェーズ
学習フェーズは、機械学習の一手法である強化学習により実施可能である。本実施の形態では、強化学習の一例として、深層強化学習の代表的な手法であるDQN(Deep Q Network)を用いる。DQNは、ニューラルネットワークを用いて、Q学習におけるQ値(行動価値)を学習する手法である。
【0029】
本実施の形態では、2機のUAV1間に働く相互作用力をシミュレーションによって計算し、その相互作用力に基づいてDQNを実行することによりUAV1の行動モデルを生成する。より具体的に説明すると、2機のUAV1間の相対関係が所定の基準状態から逸脱している場合においてそれを当該基準状態に復元させるときに当該UAV1間に働く相互作用力をシミュレーションにより計算する。これにより得られた相互作用力を仮想相互作用力と称する。この仮想相互作用力が小さくなるようなUAV1の行動を実現する行動モデルを、DQNを実行することにより生成する。各UAV1が、この行動モデルにしたがって動作することにより、UAV群全体の安定した制御が実現される。
【0030】
2機のUAV1間に働く相互作用力として、引力及び斥力を挙げることができる。2機のUAV1間が一定の距離を保持している平衡状態においては、これらの引力及び斥力がゼロとなる。本実施の形態の場合、この平衡状態を基準状態として捉え、2機のUAV1間の相対関係が平衡状態から逸脱している場合にそれを平衡状態に復元させるときに当該UAV1間に働く引力および斥力をシミュレーションにより計算し、これを仮想相互作用力とする。
【0031】
2機のUAV1間の相対関係としては、2機のUAV1間の相対距離及び相対速度等が挙げられる。本実施の形態では、これらの相対距離及び相対速度の2つにより、2機のUAV1間の相対関係が規定される。
【0032】
上記の仮想相互作用力の計算は、各種の物理モデルを用いて実施することができる。本実施の形態では、バネ-ダンパー系のシミュレーションモデルを用いて、仮想相互作用力が計算される。
【0033】
図4は、バネ-ダンパー系のシミュレーションモデルの概念を示す説明図である。図4に示すとおり、このモデルは2つの質点からなるバネ-ダンパー系であり、その運動(振動)を各質点の位置及び速度に基づいて計算するためのものである。図中のkspはバネ定数を、Ddumperはダンパー係数を、それぞれ示している。本実施の形態では、2機のUAV1を各質点に見立てて、このモデルにより当該2機のUAV1間の仮想相互作用力が計算される。そして、このモデルにより計算される振動の減衰が大きくなる、すなわち、このモデルにより計算される仮想相互作用力が小さくなるUAV1の行動をDQNで求めることにより、各UAV1の協調的な動作の実現が図られる。
【0034】
図5は、本実施の形態におけるDQNを説明するための図である。図5に示すように、DQNの入力である「状態」として、2機のUAV1iとUAV1jとの相対距離rij及び相対速度vijが用いられる。また、DQNの出力はUAV1iの各行動の「行動価値(Q値)」である。本実施の形態の場合、UAV1iの行動は、UAV1jに対するUAV1iの加速度aである。この加速度aは、加速・等速・減速の3段階が用意されており、これら各段階の加速度aのQ値がDQNの出力となる。なお、ここでは、加速度aが+1の場合は「加速」を、0の場合は「等速」を、-1の場合は「減速」を、それぞれ意味するものとする。
【0035】
以下、フローチャートを参照しながら学習装置2の具体的な動作について説明する。なお、以下では、仮想空間におけるUAV群に含まれる複数のUAV1のうち、所定の距離内に位置する2機のUAV1を処理対象とする。
【0036】
図6は、学習装置2によって実行される学習フェーズの処理手順を示すフローチャートである。学習装置2はまず、状態(2機のUAV1間の相対距離及び相対速度)を初期化する(S101)。
【0037】
次に、学習装置2は、乱数を用いて、UAV1の行動を選択する(S102)。本実施の形態では、加速・等速・減速の何れかがUAV1の行動として選択される。
【0038】
次に、学習装置2は、選択された行動にしたがって、状態である相対距離及び相対速度を更新し(S103)、その状態における仮想相互作用力を、上述したバネ-ダンパー系のシミュレーションモデルを用いて計算する(S104)。
【0039】
次に、学習装置2は、ステップS104で得られた仮想相互作用力に基づいて、報酬を計算する(S105)。この場合、学習装置2は、仮想相互作用力が小さい場合に高い値となるように報酬を計算する。例えば、仮想相互作用力が所定の閾値を超えている場合には負の報酬とし、閾値以下に達した場合に正の報酬とする等である。また、時間経過に伴って負の報酬することも想定される。
【0040】
なお、上記の報酬の計算は、仮想相互作用力に加えて、他の指標を用いて実行されてもよい。例えば、仮想相互作用力及び相対速度が閾値以下に達した場合に正の報酬とする等である。
【0041】
次に、学習装置2は、ステップS105で得られた報酬を用いて、行動価値であるQ値を計算し、更新する(S106)。本実施の形態の場合、時刻tでの状態sにおいて採用する行動をaとしたとき、行動価値Q(s,a)は次の式を用いて計算される。
【数1】
【0042】
次に、学習装置2は、仮想相互作用力が所定の閾値に到達したか否かを判定する(S107)。到達していないと判定した場合(S107でNO)、学習装置2は、ステップS102に戻り、それ以降の処理を実行する。
【0043】
仮想相互作用力が閾値に達した場合(S107でYES)、学習装置2は、学習回数が所定の閾値に到達したか否かを判定する(S108)。到達していないと判定した場合(S108でNO)、学習装置2は、ステップS101に戻り、それ以降の処理を実行する。これにより学習が繰り返される。学習回数が所定の閾値に達した場合(S108でYES)、学習装置2は処理を終了する。
【0044】
上記のDQNによる強化学習の結果、UAV1の行動モデルが生成される。このようにして生成された行動モデルは、各UAV1に入力され、各UAV1の記憶部103に格納される。適用フェーズでは、この行動モデルに基づいて、各UAV1が自らの動作を制御する。以下、適用フェーズの詳細について説明する。
【0045】
(2)適用フェーズ
UAV1は、他のUAV1との間の相対距離及び相対速度を上記の行動モデルに入力し、出力として各行動(加速・等速・減速)のQ値を得る。そして、UAV1が最もQ値が高い行動をとることにより、各UQV1間に働く仮想相互作用力が小さくなるような挙動となるため、UAV群全体の安定した制御が実現される。
【0046】
なお、上記のように、学習装置2により生成された行動モデルをそのまま用いることも可能であるが、UAV1の限られたハードウェア資源の下では、計算負荷が大きいという問題が生じ得る。そこで、本実施の形態では、行動モデルを関数化した関数情報を生成し、これを行動モデルMとして用いる。
【0047】
図7は、関数化された行動モデルMの概念を示す説明図である。学習装置2により生成された行動モデルに、相対距離rij及び相対速度vijを変化させて繰り返し入力し、それぞれの入力について最もQ値が高い加速度aをプロットすることにより、関数化する(図7参照)。なお、図7に示すグラフ中の実線は加速度aの値が変わる境界を示している。この関数化により、加速度aは相対距離rij及び相対速度vijの関数で与えられることになるため、負荷の小さい計算で得られるようになる。
【0048】
図8は、UAV1の制御部102によって実行される適用フェーズの処理手順を示すフローチャートである。なお、適用フェーズにおいて飛行動作中の各UAV1は、GPS機能により得られた自位置を示す位置情報及び速度情報を、他のUAV1に対してV2V通信により所定の時間間隔で繰り返し送信する。これにより、各UAV1は他のUAV1の位置情報及び速度情報を得ることができる。
【0049】
UAV1の制御部102は、GPS機能により得た自位置と、無線通信部104を介してV2V通信により得た他のUAV1の位置とに基づいて、所定の半径内に位置している他のUAV1を特定する(S201)。
【0050】
次に、制御部102は、当該他のUAV1の位置情報及び速度情報並びに自装置の位置情報及び速度情報に基づいて、当該他のUAV1との間の相対距離及び相対速度を計算する(S202)。
【0051】
次に、制御部102は、記憶部103に格納されている関数化された行動モデルMを取得し(S203)、ステップS202で得た相対距離及び相対速度をその関数に代入して加速度aを計算する(S204)。そして、制御部102は、このようにして得られた加速度aにしたがって加速するよう駆動部101を制御する(S205)。
【0052】
上記のステップS201乃至S205が繰り返し実行されることにより、UAV群に含まれる各UAV1の協調的な動作が実現される。
【0053】
本実施の形態の場合、強化学習を用いることにより、従来技術では人手による試行錯誤が必要となっていたチューニング作業を自動化することができるため、容易に実装することが可能になる。
【0054】
また、本実施の形態の場合、UAV群に含まれるUAV1のそれぞれについて独自の行動モデルを生成しなくてもよく、1つの行動モデルをすべてのUAV1に適用することが可能である。すなわち、上述したようにUAV1i及びUAV1jに着目して生成されたUAV1iの行動モデルを、UAV群の移動体のうちのUAV1i以外のUAV1に対して適用し、その動作を制御することができる。そのため、UAV群に含まれるUAV1の数が大きくなった場合でも、学習フェーズから適用フェーズへスムースに移行することができる。
【0055】
(実施の形態2)
本実施の形態では、移動体群に含まれる複数のUAVと通信する制御装置が設けられ、その制御装置からの指示にしたがって各UAVが動作を行う。以下、本実施の形態に含まれる各装置の構成及び動作について説明する。なお、実施の形態1と同様の内容については適宜説明を省略する
【0056】
図9は、UAVの制御システムの構成を示す図である。UAV群に含まれる各UAV1、制御装置3、及び測位システム4は、無線通信で通信可能に接続される。測位システム4は、各UAV1の位置を測位するためのシステムであって、測位の結果を示す各UAV1の位置情報を制御装置3に対して送信する。制御装置3は、この位置情報に基づいて各UAV1の位置を把握する。なお、このような測位システム4を設けずに、制御装置3が各UAV1から位置情報を直接取得するような構成であってもよい。
【0057】
制御装置3は、CPU、RAM、ROM、不揮発性メモリ、及び入出力インタフェース等を含むコンピュータを備えている。このCPUがRAMにロードされたプログラムにしたがって情報処理を実行することにより、後述する動作が実現される。
【0058】
図9に示すとおり、制御装置3は、制御部301、記憶部302、及び無線通信部303を備えている。記憶部302には、実施の形態1の場合と同様に生成された行動モデルMが格納される。また、無線通信部303は、各UAV1及び測位システム4と無線通信するための通信モジュールで構成される。
【0059】
上記のとおり、制御装置3の記憶部302には、行動モデルMが格納されている。この行動モデルMは、実施形態1の場合と同様に学習装置2によって生成された行動モデルを関数化したものである。適用フェーズでは、制御装置3がこの行動モデルMを用いて各UAV1の動作を制御する。以下、適用フェーズにおける動作について説明する。
【0060】
図10は、制御装置3の制御部301によって実行される適用フェーズの処理手順を示すフローチャートである。制御部301は、測位システム3から取得した各UAV1の位置情報に基づいて、所定の半径内に位置しているUAV1のペアを特定する(S301)。このペアに含まれる2機のうちの1機のUAV1が制御対象となる。
【0061】
次に、制御部301は、特定したペアに含まれる2機のUAV1の位置情報及び速度情報に基づいて、当該UAV1の間の相対距離及び相対速度を計算して取得する(S302)。なお、各UAV1の速度情報は、UAV1の動作を制御する制御装置2が常時把握していてる。この各UAV1の速度情報には、シミュレーションにより得られる仮想空間上のUAV1の速度情報、及び測位システムにより得られる実空間上のUAV1の速度情報の2種類がある。通常の場合、制御装置2は、仮想空間上の速度情報を用いて制御を行うが、実空間上の速度情報との差に応じて仮想空間上の速度情報を適宜補正するなどの処理も実行する。
【0062】
次に、制御部301は、記憶部302に格納されている関数化された行動モデルMを取得し(S303)、ステップS302で得た相対距離及び相対速度をその関数に代入して加速度aを計算する(S304)。制御部301は、このようにして得られた加速度aで動作する旨の制御指示を、制御対象のUAV1に対して送信する(S305)。この制御指示を受けたUAV1は、加速度aにしたがって加速するよう駆動部を制御することになる。
【0063】
上記のステップS301乃至S305が繰り返し実行されることにより、UAV群に含まれる各UAV1の動作が制御され、UAV群全体の安定した制御が実現される。
【0064】
本実施の形態の場合でも、実施の形態1の場合と同様に、強化学習を用いることにより、従来技術では人手による試行錯誤が必要となっていたチューニング作業を自動化することが可能になる。
【0065】
(その他の実施の形態)
上記の各実施の形態ではDQNを用いて学習モデルが生成されているが、これに限定されるわけではない。DQN以外の深層強化学習を用いてもよく、またQ学習などの深層強化学習以外の強化学習を用いてもよい。
【0066】
また、上記の各実施の形態では、DQNにおける状態として2機のUAV1間の相対距離及び相対速度が用いられているが、2機のUAV1間の相対関係であれば、他の指標を用いてもよい。また、UAV1間の相対距離及び相対速度の何れか一方のみを用いるようにしてもよい。
【0067】
また、上記の各実施の形態では、小型の飛行体であるUAVを移動体の例として説明しているが、これは例示であって、他の移動体であってもよい。例えば、より大型の飛行体であるUAV、または有人の飛行体等の移動体を制御対象としてもよい。もちろん、飛行体以外の移動体であってもよく、具体的には、地上を走行する無人のビークルを制御対象としてもよい。
【符号の説明】
【0068】
1 移動体(UAV)
101 駆動部
102 制御部
103 記憶部
104 無線通信部
2 学習装置
201 算出部
202 学習部
3 制御装置
301 制御部
302 記憶部
303 無線通信部
4 測位システム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10