特許7549176 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社インターネットイニシアティブの特許一覧

特許7549176制御装置、制御方法、および制御システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-09-02

(45)【発行日】2024-09-10

(54)【発明の名称】制御装置、制御方法、および制御システム

(51)【国際特許分類】

G05D 1/69 20240101AFI20240903BHJP

G05D 1/46 20240101ALI20240903BHJP

B64U 20/80 20230101ALI20240903BHJP

B64C 19/02 20060101ALI20240903BHJP

【ＦＩ】

G05D1/69

G05D1/46

B64U20/80

B64C19/02

【請求項の数】 6

(21)【出願番号】P 2024074228

(22)【出願日】2024-05-01

【審査請求日】2024-05-01

【早期審査対象出願】

(73)【特許権者】

【識別番号】397036309

【氏名又は名称】株式会社インターネットイニシアティブ

(74)【代理人】

【識別番号】100118902

【弁理士】

【氏名又は名称】山本修

(74)【代理人】

【識別番号】100106208

【弁理士】

【氏名又は名称】宮前徹

(74)【代理人】

【識別番号】100196508

【弁理士】

【氏名又は名称】松尾淳一

(74)【代理人】

【識別番号】100195408

【弁理士】

【氏名又は名称】武藤陽子

(72)【発明者】

【氏名】柿島純

【審査官】岩▲崎▼ 優

(56)【参考文献】

【文献】特開２０２３－０５９３８２（ＪＰ，Ａ）

【文献】特開２０１１－１２８７５８（ＪＰ，Ａ）

【文献】中国特許出願公開第１１３１５６９７９（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０５Ｄ１／００－１／８７

(57)【特許請求の範囲】

【請求項1】

移動空間において設定された目的地点の位置までの移動体群の進路を制御する制御装置と、前記移動体群とを備える制御システムであって、
前記制御装置は、
前記移動体群のうちから選択された第１移動体の現在の位置を取得するように構成された第１取得部と、
前記第１移動体の前記現在の位置から前記目的地点の位置に到達するまでに、前記第１移動体が順次進むべき進路を計算した推定結果に報酬関数を適用して、前記第１移動体が前記目的地点の位置へ到達するための報酬が最大化するように更新し、前記第１移動体が前記現在の位置から順次進むべき進路の方策を、強化学習モデルを用いて学習するように構成された第１学習部と、
前記第１学習部による学習によって得られた前記第１移動体が前記現在の位置から順次進むべき進路の方策を真の方策データとして、前記真の方策データに類似する疑似方策データを生成する生成器と、前記生成器によって生成された前記疑似方策データと前記真の方策データとを識別する識別器とを有する生成モデルの敵対的学習を行うように構成された第２学習部と、
前記第２学習部の敵対的学習によって得られた学習済み生成器を用いて、前記真の方策データに類似する前記疑似方策データを生成するように構成された生成部と、
前記生成部により生成された前記疑似方策データを含む情報を、前記移動体群の進路を制御する制御情報として、各移動体に設定するように構成された設定部と
を備え、
前記移動体群は、前記第１移動体と、複数の第２移動体とを有し、
前記第１移動体と前記複数の第２移動体との各々は、
前記設定部により設定された前記制御情報を取得するように構成された第２取得部と、
自装置の現在の位置を取得するように構成された第３取得部と、
前記制御情報が示す、前記自装置が現在の位置から順次進むべき進路の方策に基づいて、前記第３取得部によって取得された前記自装置の前記現在の位置から、次に進むべき進路を決定するように構成された決定部と、
前記決定部によって決定された、前記次に進むべき進路に基づいて、前記自装置の移動を制御するように構成された移動制御部と
を備え、
前記制御情報は、前記真の方策データと、前記疑似方策データとを含み、
前記第１移動体の前記決定部は、前記真の方策データに基づいて、前記次に進むべき進路を決定し、
前記複数の第２移動体の各々の前記決定部は、前記疑似方策データに基づいて、前記次に進むべき進路を決定する
ことを特徴とする制御システム。

【請求項2】

請求項１に記載の制御システムにおいて、
前記移動空間は、前記移動空間を複数の空間に分割した単位空間で定義され、
前記第１移動体が前記現在の位置から順次進むべき進路の方策は、前記現在の位置に対応する単位空間の位置から、前記第１移動体が順次進むべき単位空間の進路の方策である
ことを特徴とする制御システム。

【請求項3】

請求項２に記載の制御システムにおいて、
前記強化学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、
前記第１学習部は、前記現在の単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記第１移動体が前記現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第１推定値を出力し、
前記第１学習部は、さらに、前記第１移動体が次に到達した単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第２推定値を出力し、
前記第１学習部は、前記第１推定値が、前記第２推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習する
ことを特徴とする制御システム。

【請求項4】

移動空間において設定された目的地点の位置までの移動体群の進路を制御する制御方法であって、
前記移動体群のうちから選択された第１移動体の現在の位置を取得する第１取得ステップと、
前記第１移動体の前記現在の位置から前記目的地点の位置に到達するまでに、前記第１移動体が順次進むべき進路を計算した推定結果に報酬関数を適用して、前記第１移動体が前記目的地点の位置へ到達するための報酬が最大化するように更新し、前記第１移動体が前記現在の位置から順次進むべき進路の方策を、強化学習モデルを用いて学習する第１学習ステップと、
前記第１学習ステップでの学習によって得られた前記第１移動体が前記現在の位置から順次進むべき進路の方策を真の方策データとして、前記真の方策データに類似する疑似方策データを生成する生成器と、前記生成器によって生成された前記疑似方策データと前記真の方策データとを識別する識別器とを有する生成モデルの敵対的学習を行う第２学習ステップと、
前記第２学習ステップでの敵対的学習によって得られた学習済み生成器を用いて、前記真の方策データに類似する前記疑似方策データを生成する生成ステップと、
前記生成ステップで生成された前記疑似方策データを含む情報を、前記移動体群の進路を制御する制御情報として、各移動体に設定する設定ステップと
を備え、
前記移動体群は、前記第１移動体と、複数の第２移動体とを有し、
さらに、前記第１移動体と前記複数の第２移動体との各々によって実行される、
前記設定ステップで設定された前記制御情報を取得する第２取得ステップと、
自装置の現在の位置を取得する第３取得ステップと、
前記制御情報が示す、前記自装置が現在の位置から順次進むべき進路の方策に基づいて、前記第３取得ステップで取得された前記自装置の前記現在の位置から、次に進むべき進路を決定する決定ステップと、
前記決定ステップで決定された、前記次に進むべき進路に基づいて、前記自装置の移動を制御する移動制御ステップと
を備え、
前記制御情報は、前記真の方策データと、前記疑似方策データとを含み、
前記第１移動体は、前記決定ステップで、前記真の方策データに基づいて、前記次に進むべき進路を決定し、
前記複数の第２移動体の各々は、前記決定ステップで、前記疑似方策データに基づいて、前記次に進むべき進路を決定する
ことを特徴とする制御方法。

【請求項5】

請求項４に記載の制御方法において、
前記移動空間は、前記移動空間を複数の空間に分割した単位空間で定義され、
前記第１移動体が前記現在の位置から順次進むべき進路の方策は、前記現在の位置に対応する単位空間の位置から、前記第１移動体が順次進むべき単位空間の進路の方策である
ことを特徴とする制御方法。

【請求項6】

請求項５に記載の制御方法において、
前記強化学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、
前記第１学習ステップは、前記現在の単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記第１移動体が前記現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第１推定値を出力し、
前記第１学習ステップは、さらに、前記第１移動体が次に到達した単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第２推定値を出力し、
前記第１学習ステップは、前記第１推定値が、前記第２推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習する
ことを特徴とする制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、制御装置、制御方法、および制御システムに関し、特に、移動体群の制御技術に関する。

【背景技術】

【0002】

従来から、ドローンなどの移動体の制御を行うシングルエージェントを対象としたシステムにおいて、ＤｅｅｐＱ－Ｎｅｔｗｏｒｋ（ＤＱＮ）を採用し、移動体の現在の位置に基づいて、次に進むべき進路を示す行動をとった場合に得られる将来の報酬の累積値の期待値を表す行動価値関数により移動体を目的地点まで誘導する技術が知られている（特許文献１参照）。

【0003】

シングルエージェントの強化学習をマルチエージェントの強化学習に適用した手法として、各エージェントが独立した行動価値関数を持ち、各々が独立で学習するアルゴリズムであるＩｎｄｅｐｅｎｄｅｎｔＬｅａｒｎｅｒｓ（ＩＬｓ）が知られている（非特許文献１参照）。ＩＬｓにおいて各エージェントがＤＱＮで独立して学習を行った場合、方策が変化し環境が非定常となるため、学習が安定しない場合があり、システム全体の協調的な動作を組み込むことが困難な場合がある。

【0004】

そこで、マルチエージェント間で共通の報酬を最大化する各エージェントの方策を学習するマルチエージェント強化学習を採用する協調型マルチエージェントシステムが知られている（非特許文献２参照）。しかし、報酬の設計はシステム全体の状態を把握する必要があるため、自己の行動が報酬に連動しない場合には、方策を正しく学習できない。そのため、従来の協調型マルチエージェントシステムにより複数の移動体の集団行動を制御する場合、集団行動の制御が困難な場合がある。

【先行技術文献】

【特許文献】

【0005】

【文献】特許７４０７３２９号公報

【非特許文献】

【0006】

【文献】Tan, Ming. "Multi-agent reinforcement learning: Independent vs. cooperative agents." Proceedings of the tenth international conference on machine learning. 1993.

【文献】Gu,Shangding,et al.“Multi-agent constrained policy optimisation.” arXiv preprint arXiv:2110.02793（2021）.

【発明の概要】

【発明が解決しようとする課題】

【0007】

従来の技術では、報酬設計の複雑性を抑制しつつ、集団行動を制御することが困難であった。

【0008】

本発明は、上述した課題を解決するためになされたものであり、報酬設計の複雑性を抑制しつつ、集団行動を制御することを目的とする。

【課題を解決するための手段】

【0009】

上述した課題を解決するために、本発明に係る制御装置は、移動空間において設定された目的地点の位置までの移動体群の進路を制御する制御装置であって、前記移動体群のうちから選択された第１移動体の現在の位置を取得するように構成された第１取得部と、前記第１移動体の前記現在の位置から前記目的地点の位置に到達するまでに、前記第１移動体が順次進むべき進路を計算した推定結果に報酬関数を適用して、前記第１移動体が前記目的地点の位置へ到達するための報酬が最大化するように更新し、前記第１移動体が前記現在の位置から順次進むべき進路の方策を、強化学習モデルを用いて学習するように構成された第１学習部と、前記第１学習部による学習によって得られた前記第１移動体が前記現在の位置から順次進むべき進路の方策を真の方策データとして、前記真の方策データに類似する疑似方策データを生成する生成器と、前記生成器によって生成された前記疑似方策データと前記真の方策データとを識別する識別器とを有する生成モデルの敵対的学習を行うように構成された第２学習部と、前記第２学習部の敵対的学習によって得られた学習済み生成器を用いて、前記真の方策データに類似する前記疑似方策データを生成するように構成された生成部と、前記生成部により生成された前記疑似方策データを含む情報を、前記移動体群の進路を制御する制御情報として、各移動体に設定するように構成された設定部とを備える。

【0010】

また、本発明に係る制御装置において、前記移動空間は、前記移動空間を複数の空間に分割した単位空間で定義され、前記第１移動体が前記現在の位置から順次進むべき進路の方策は、前記現在の位置に対応する単位空間の位置から、前記第１移動体が順次進むべき単位空間の進路の方策であってもよい。

【0011】

また、本発明に係る制御装置において、前記強化学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、前記第１学習部は、前記現在の単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記第１移動体が前記現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第１推定値を出力し、前記第１学習部は、さらに、前記第１移動体が次に到達した単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第２推定値を出力し、前記第１学習部は、前記第１推定値が、前記第２推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習してもよい。

【0012】

上述した課題を解決するために、本発明に係る制御方法は、移動空間において設定された目的地点の位置までの移動体群の進路を制御する制御方法であって、前記移動体群のうちから選択された第１移動体の現在の位置を取得する第１取得ステップと、前記第１移動体の前記現在の位置から前記目的地点の位置に到達するまでに、前記第１移動体が順次進むべき進路を計算した推定結果に報酬関数を適用して、前記第１移動体が前記目的地点の位置へ到達するための報酬が最大化するように更新し、前記第１移動体が前記現在の位置から順次進むべき進路の方策を、強化学習モデルを用いて学習する第１学習ステップと、前記第１学習ステップでの学習によって得られた前記第１移動体が前記現在の位置から順次進むべき進路の方策を真の方策データとして、前記真の方策データに類似する疑似方策データを生成する生成器と、前記生成器によって生成された前記疑似方策データと前記真の方策データとを識別する識別器とを有する生成モデルの敵対的学習を行う第２学習ステップと、前記第２学習ステップでの敵対的学習によって得られた学習済み生成器を用いて、前記真の方策データに類似する前記疑似方策データを生成する生成ステップと、前記生成ステップで生成された前記疑似方策データを含む情報を、前記移動体群の進路を制御する制御情報として、各移動体に設定する設定ステップとを備える。

【0013】

また、本発明に係る制御方法において、前記移動空間は、前記移動空間を複数の空間に分割した単位空間で定義され、前記第１移動体が前記現在の位置から順次進むべき進路の方策は、前記現在の位置に対応する単位空間の位置から、前記第１移動体が順次進むべき単位空間の進路の方策であってもよい。

【0014】

また、本発明に係る制御方法において、前記強化学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、前記第１学習ステップは、前記現在の単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記第１移動体が前記現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第１推定値を出力し、前記第１学習ステップは、さらに、前記第１移動体が次に到達した単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第２推定値を出力し、前記第１学習ステップは、前記第１推定値が、前記第２推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習しもよい。

【0015】

上述した課題を解決するために、本発明に係る制御システムは、上述の制御装置と、前記移動体群とを備える制御システムであって、前記移動体群は、前記第１移動体と、複数の第２移動体とを有し、前記第１移動体と前記複数の第２移動体との各々は、前記制御装置により設定された前記制御情報を取得するように構成された第２取得部と、自装置の現在の位置を取得するように構成された第３取得部と、前記制御情報が示す、前記自装置が現在の位置から順次進むべき進路の方策に基づいて、前記第３取得部によって取得された前記自装置の前記現在の位置から、次に進むべき進路を決定するように構成された決定部と、前記決定部によって決定された、前記次に進むべき進路に基づいて、前記自装置の移動を制御するように構成された移動制御部とを備え、前記制御情報は、前記真の方策データと、前記疑似方策データとを含み、前記第１移動体の前記決定部は、前記真の方策データに基づいて、前記次に進むべき進路を決定し、前記複数の第２移動体の各々の前記決定部は、前記疑似方策データに基づいて、前記次に進むべき進路を決定する。

【発明の効果】

【0016】

本発明によれば、第１学習部による学習によって得られた第１移動体が現在の位置から順次進むべき進路の方策を真の方策データとして、真の方策データに類似する疑似方策データを生成する生成器と、生成器によって生成された疑似方策データと真の方策データとを識別する識別器とを有する生成モデルの敵対的学習を行い、生成された疑似方策データを含む情報を、移動体群の進路を制御する制御情報として、各移動体に設定する。そのため、報酬設計の複雑性を抑制しつつ、集団行動を制御することができる。

【図面の簡単な説明】

【0017】

【図1】図１は、本発明の実施の形態に係る制御装置および複数のＵＡＶを含む制御システムの構成を示すブロック図である。

【図2】図２は、本実施の形態に係るＵＡＶの構成を示すブロック図である。

【図3】図３は、本実施の形態に係るＵＡＶのハードウェア構成を示すブロック図である。

【図4】図４は、本実施の形態に係る制御装置が備える第１学習部を説明するための図である。

【図5】図５は、本実施の形態に係る制御装置が備える第１学習部の構成を示すブロック図である。

【図6】図６は、本実施の形態に係る制御装置が備える第２学習部の構成を示すブロック図である。

【図7】図７は、本実施の形態に係る制御装置が備える第２学習部を説明するための図である。

【図8】図８は、本実施の形態に係る制御装置が備える第２学習部を説明するための図である。

【図9】図９は、本実施の形態に係る制御装置のハードウェア構成を示すブロック図である。

【図10】図１０は、本実施の形態に係る制御装置の動作を示すフローチャートである。

【図11】図１１は、本実施の形態に係る制御装置による強化学習処理を示すフローチャートである。

【図12】図１２は、本実施の形態に係る制御装置による強化学習処理を示すフローチャートである。

【図13】図１３は、本実施の形態に係る制御装置による敵対的学習処理を示すフローチャートである。

【図14】図１４は、本実施の形態に係るＵＡＶの動作を示すフローチャートである。

【発明を実施するための形態】

【0018】

以下、本発明の好適な実施の形態について、図１から図１４を参照して詳細に説明する。

【0019】

［制御システムの構成］
まず、図１を参照して、本発明の実施の形態に係る制御装置１および複数のＵＡＶ２を備える制御システムの概要について説明する。

【0020】

本実施の形態に係る制御システムは、制御装置１と複数のＵＡＶ２（移動体群）とを備え、制御装置１と複数のＵＡＶ２とは、ＬＴＥ／４Ｇ、５Ｇ、６Ｇなどの所定の通信規格に準拠する無線通信ネットワークＮＷを介して互いに通信可能に接続されている。制御システムは、複数のＵＡＶ２が、集団で移動空間Ａにおける設定された目的地点の位置までに飛行（移動）するための進路を制御する。図１に示すように、ＵＡＶ２が飛行する移動空間Ａは、例えば、５Ｇ無線通信方式による通信が可能である。

【0021】

ＵＡＶ２は、ドローン、無人航空機などの移動体であって、自律操縦飛行を行うことができる。ＵＡＶ２は、後述のセンサ２０８等からの情報を処理してモータ２０９の回転速度やプロペラ２１０の角度を制御するフライトコントローラにより自律飛行を制御する。また、本実施の形態では、ＵＡＶ２は、補助記憶装置２０５に記憶されている進路制御情報に基づいて、目的地点までの自律飛行を制御する。複数のＵＡＶ２の各々は、同一の構成を有し、これらを区別しない場合にはＵＡＶ２と総称する。なお、ＵＡＶ２の機能ブロックおよびハードウェア構成の詳細は後述する。

【0022】

本実施の形態では、複数のＵＡＶ２のうち、先行して移動空間Ａを飛行するＵＡＶ２が、第１ＵＡＶ２ａ（第１移動体）として選択される。第１ＵＡＶ２ａは、先行して飛行するＵＡＶ２のうちからランダムに選択することができる。また、複数のＵＡＶ２のうち第１ＵＡＶ２ａ以外のものを第２ＵＡＶ２ｂ（第２移動体）という。

【0023】

図１に示すように、複数のＵＡＶ２が飛行する移動空間Ａは、複数の空間に分割した単位空間で構成された３次元マトリックス状の空間である。

【0024】

移動空間Ａを構成する各単位空間は同一の容積を有する。さらに、各単位空間はノードＩＤを有し、各単位空間は１つの位置（ｘ，ｙ，ｚ）で表される。位置情報は、緯度、経度、高度からなる３次元のＧＰＳ位置座標を用いることができる。例えば、単位空間の位置として、その単位空間の中心位置などの代表値を用いることができる。

【0025】

また、図１に示すように、複数のＵＡＶ２は、各単位空間をウェイポイントとして各々のＵＡＶ２の現在の位置Ｓに対応する単位空間の位置から、目的地点Ｇの単位空間まで移動する。ＵＡＶ２の目的地点Ｇの位置は任意に設定され、複数のＵＡＶ２に共通の目的地点である。例えば、複数のＵＡＶ２を集団で飛行させて目的地点Ｇの画像を撮影する場合が考えられる。

【0026】

本実施の形態に係る制御システムは、複数のＵＡＶ２のうちから選択された、例えば、先行して飛行する第１ＵＡＶ２ａの、現在の単位空間から順次進むべき進路の方策を強化学習により学習する。さらに、学習により得られた第１ＵＡＶ２ａの進路の方策を真の方策データとして、真の方策データに類似する疑似方策データを生成する生成器を敵対的学習により構築する。制御システムは、学習済み生成器１２１’によって生成される疑似方策データを、進路制御情報（制御情報）として各第２ＵＡＶ２ｂに設定し、かつ、真の方策データを第１ＵＡＶ２ａの進路制御情報として第１ＵＡＶ２ａに設定する。さらに、各ＵＡＶ２は、進路制御情報に基づいて、目的地点までの進路を決定して飛行制御を行う。

【0027】

進路制御情報が設定された各ＵＡＶ２は、進路制御情報が示す進路の方策に基づいて、図１の矢印で示すように、自機の操縦により進路を変えて、単位空間ごとに進むべき方向へ移動する。進路制御情報が示す進路は、様々な進路、すなわち移動方向を含むことができる。図１においては、移動空間Ａを２次元平面で説明しているが、ＵＡＶ２の進路は３次元の進路とすることができる。制御装置１により各ＵＡＶ２に設定される進路制御情報により、複数のＵＡＶ２は、集団で目的地点Ｇの単位空間に到達することができる。

【0028】

［制御装置の機能ブロック］
図１に示すように、制御装置１は、取得部１０（第１取得部）、第１学習部１１、第２学習部１２、記憶部１３、生成部１４、および設定部１５を備える。

【0029】

取得部１０は、複数のＵＡＶ２のうちから選択された第１ＵＡＶ２ａの現在の位置を取得する。具体的には、取得部１０は、第１ＵＡＶ２ａが現在いる単位空間の位置を、ＵＡＶ２の現在の位置として取得する。取得部１０は、無線通信ネットワークＮＷを介して、第１ＵＡＶ２ａが現在いる単位空間の位置を取得する。また、本実施の形態では、取得部１０は、設定された時刻ステップごとの第１ＵＡＶ２ａの現在の位置を取得する。前述したように、第１ＵＡＶ２ａは、複数のＵＡＶ２のうちから代表として選択され、例えば、他のＵＡＶ２に先行して飛行しているＵＡＶ２が第１ＵＡＶ２ａとして選択される。

【0030】

さらに具体的には、取得部１０は、第１ＵＡＶ２ａのＧＰＳ受信機２０７によって受信されたＧＰＳ位置に対応する単位空間の位置を、第１ＵＡＶ２ａの現在の位置として取得することができる。なお、単位空間において複数の位置座標が含まれる場合がある。そのような場合には、取得部１０は、第１ＵＡＶ２ａのＧＰＳ受信機２０７によって受信されたＧＰＳ位置に最も距離が近い単位空間の位置を、第１ＵＡＶ２ａの現在の位置として取得することができる。

【0031】

第１学習部１１は、第１ＵＡＶ２ａの現在の位置から目的地点の位置に到達するまでに、第１ＵＡＶ２ａが順次進むべき進路を計算した推定結果に報酬関数を適用して、第１ＵＡＶ２ａが目的地点の位置へ到達するための報酬が最大化するように更新し、第１ＵＡＶ２ａが現在の位置から順次進むべき進路の方策を、強化学習モデルを用いて学習する。第１学習部１１は、学習により得られた第１ＵＡＶ２ａが現在の位置から順次進むべき進路の方策を、第２学習部１２に渡す。

【0032】

本実施の形態では、第１ＵＡＶ２ａが各単位空間の位置から順次進むべき進路の方策として、進行方向に対する所定のｎ（ｎは正の整数）個の方向への移動に係る行動ａ_ｎを採用する場合を例示する。また、進行方向は、ＵＡＶ２が直前にいた単位空間の位置に基づいた方向である。

【0033】

第１学習部１１は、図４に示すような入力層、隠れ層、および出力層を含むニューラルネットワークモデルを強化学習モデルとして用いる。また、ニューラルネットワークモデルとして、第１ＵＡＶ２ａの位置である状態ｓ_ｔを受取り、全ての行動価値Ｑ（ｓ_ｔ，ａ_１）、Ｑ（ｓ_ｔ，ａ_２）、Ｑ（ｓ_ｔ，ａ_３）、・・・、Ｑ（ｓ_ｔ，ａ_ｎ－１）、Ｑ（ｓ_ｔ，ａ_ｎ）を出力するニューラルネットワークであるＤｅｅｐＱ－Ｎｅｔｗｏｒｋ（ＤＱＮ）を採用する。第１学習部１１は、ＤＱＮのニューラルネットワークとしてＣＮＮを用いることができる。

【0034】

より具体的には、第１学習部１１は、現在の第１ＵＡＶ２ａの位置を示す、現在の単位空間の位置をニューラルネットワークモデルの入力として与え、ニューラルネットワークモデルの演算を行い、第１ＵＡＶ２ａが現在の単位空間の位置から次に進むべき進路として、ｎ個の方向への各移動に係る行動ａ_ｎをとった場合に得られる将来の報酬の累積値の期待値を表す行動価値関数の第１推定値Ｑ１を出力する。

【0035】

報酬とは、第１ＵＡＶ２ａの現在の位置を示す状態ｓ、第１ＵＡＶ２ａが所定の方向に移動する行動ａ_ｎ、および第１ＵＡＶ２ａの次の位置、すなわち次の状態ｓ’の報酬関数ｒ＝ｒ（ｓ，ａ，ｓ’）で与えられる。本実施の形態では、報酬関数は、第１ＵＡＶ２ａの目的地点に係る単位空間の位置への到達度を変数として含む。その他にも、高層ビルや鉄塔などの障害物がある空間に対応する単位空間の位置への到達度を変数として含むことができる。例えば、第１ＵＡＶ２ａの所定の方向への移動に係る行動によって、目的地点により近づく場合や、目的地点に最短距離で到達する場合には、スカラー量である報酬が、より大きい値として設定される。

【0036】

一方、第１ＵＡＶ２ａが目的地点に遠ざかる、あるいは、障害物が存在する単位空間に到達する場合には、マイナスの報酬値（例えば、ｒ＝－１）が与えられる設計とすることができる。このように、障害物が存在する単位空間の報酬をマイナスの値として設定することで、第１ＵＡＶ２ａがこれらの地点を避けて目的地点に到達することができる。

【0037】

さらに、第１学習部１１は、第１ＵＡＶ２ａが次に到達した単位空間の位置をニューラルネットワークモデルの入力として与え、ニューラルネットワークモデルの演算を行い、行動価値関数の第２推定値Ｑ２を出力する。第１学習部１１は、第１推定値Ｑ１が、第２推定値Ｑ２から計算される目標値となるように、ニューラルネットワークモデルの重みパラメータを学習する。

【0038】

ニューラルネットワークモデルの重みパラメータをθとし、行動価値関数をＱ（ｓ，ａ；θ）と表すと、学習の最小化損失関数は、次の式（１）で与えられる。
Ｌ（θ）＝１／２｛ｒ＋γｍａｘ_ａ’Ｑ（ｓ’，ａ’；θ）－Ｑ（ｓ，ａ；θ）｝^２
・・・（１）

【0039】

上式（１）において、ｒは、報酬（即時報酬）であり、γは割引率を示す。Ｑ（ｓ，ａ；θ）は、第１推定値Ｑ１に対応し、Ｑ（ｓ’，ａ’；θ）は、１ステップ進んだ状態ｓ’での行動価値すなわち第２推定値Ｑ２に対応する。目標値は、ｒ＋γｍａｘ_ａ’Ｑ（ｓ’，ａ’；θ）で表される。

【0040】

第１学習部１１は、上式（１）で与えられる損失関数の勾配を誤差逆伝搬することでニューラルネットワークモデルの重みパラメータを更新することができる。

【0041】

さらに具体的には、第１学習部１１は、図５に示すように、メインＱＮ１１１およびターゲットＱＮ１１３の２つのニューラルネットワークを用いるＦｉｘｅｄＴａｒｇｅｔＱ－Ｎｅｔｗｏｒｋを採用することができる。メインＱＮ１１１は最適な行動を選択して行動価値関数Ｑを更新する。一方、ターゲットＱＮ１１３は、行動の結果の次の状態ｓ’でとるべき行動ａ’の価値を推定および評価する。メインＱＮ１１１およびターゲットＱＮ１１３は、同一のレイヤ構造のニューラルネットワークを有するが、メインＱＮ１１１のパラメータは「θ」であり、ターゲットＱＮ１１３のパラメータは「θ^－」で与えられる。

【0042】

メインＱＮ１１１は、環境１１０から第１ＵＡＶ２ａの現在の位置を状態ｓとして受け取る。環境１１０は、第１ＵＡＶ２ａが置かれた移動空間Ａのシステムであり、この環境１１０下で、第１ＵＡＶ２ａは、所定の方向への移動に係る行動ａをとることで別の単位空間へ移動し、次の状態ｓ’に遷移すると同時に、環境１１０から報酬ｒを獲得する。

【0043】

第１学習部１１は、第１ＵＡＶ２ａの現在の位置に係る状態ｓをメインＱＮ１１１に入力し、行動価値関数Ｑ（ｓ，ａ；θ）を求める。第１学習部１１は、例えば、ε－ｇｒｅｅｄｙ法を用いて行動ａを計算し、あるいは、現時点での最適な行動ａｒｇｍａｘ_ａＱ（ｓ，ａ；θ）を求める。環境１１０において、第１ＵＡＶ２ａは、現時点での最適な進路に係る行動ａｒｇｍａｘ_ａＱ（ｓ，ａ；θ）を行う。環境１１０は、第１ＵＡＶ２ａが行動ａｒｇｍａｘ_ａＱ（ｓ，ａ；θ）を行った結果、移動した先の単位空間の位置を次の状態ｓ’として観測し、報酬ｒを出力する。経験データ１１４は、環境１１０から出力された経験（ｓ，ａ，ｒ，ｓ’）を保存する。

【0044】

第１学習部１１は、ＤＱＮ損失算出１１２において、損失関数Ｌを求め、損失関数Ｌの勾配でメインＱＮ１１１の重みを更新する。

【0045】

第１学習部１１は、メインＱＮ１１１の重みを定期的にターゲットＱＮ１１３にコピーし同期を行う。ターゲットＱＮ１１３の同期は、メインＱＮ１１１の重みの更新頻度よりも低い頻度で行われる。第１学習部１１は、経験データ１１４から経験を取り出して、過去の状態をターゲットＱＮ１１３に入力し、推定値ｍａｘ_ａ’Ｑ（ｓ’，ａ’；θ^－）を出力させる。第１学習部１１は、ターゲットＱＮ１１３が出力した推定値ｍａｘ_ａ’Ｑ（ｓ’，ａ’；θ^－）に基づく目標値ｒ＋γｍａｘ_ａ’Ｑ（ｓ’，ａ’；θ^－）を用いて、ＤＱＮ損失算出１１２でメインＱＮ１１１の重みの学習を行う。

【0046】

第１学習部１１による学習によって構築された学習済みのＤＱＮは、第１ＵＡＶ２ａの位置である状態ｓ_ｔに基づいて、行動価値Ｑ（ｓ_ｔ，ａ_１）、Ｑ（ｓ_ｔ，ａ_２）、Ｑ（ｓ_ｔ，ａ_３）、・・・、Ｑ（ｓ_ｔ，ａ_ｎ－１）、Ｑ（ｓ_ｔ，ａ_ｎ）を出力することができる。このとき、行動価値Ｑの行動ａ_１～ａ_ｎのうち最も確率値が高い行動が方策として選択されることになる。本実施の形態では、学習済みのＤＱＮから出力される全ての行動価値Ｑ（ｓ_ｔ，ａ_１）、Ｑ（ｓ_ｔ，ａ_２）、Ｑ（ｓ_ｔ，ａ_３）、・・・、Ｑ（ｓ_ｔ，ａ_ｎ－１）、Ｑ（ｓ_ｔ，ａ_ｎ）を方策データという。

【0047】

図１に戻り、第２学習部１２は、第１学習部１１による学習によって得られた第１ＵＡＶ２ａが現在の位置から順次進むべき進路の方策を真の方策データとして、この真の方策データに類似する疑似方策データを生成する生成器１２１と、生成器１２１によって生成された疑似方策データと真の方策データとを識別する識別器１２２とを有する生成モデルの敵対的学習を行う。

【0048】

第２学習部１２は、図６に示すように、生成器１２１および識別器１２２を有するＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｒｉａｌＮｅｔｗｏｒｋ：敵対的生成ネットワーク）を敵対的に学習させる。第２学習部１２の学習によって学習済み生成器１２１’が構築される。このように、本実施の形態では、第１学習部１１による強化学習で学習された第１ＵＡＶ２ａの進路の方策を訓練データとして用いて、第１ＵＡＶ２ａの進路の方策に類似する疑似方策データを生成する生成器１２１を学習する。

【0049】

図７および図８は、第２学習部１２が用いるＧＡＮの生成器１２１および識別器１２２のニューラルネットワーク構成を模式的に表した図である。図７に示すように、生成器１２１は、入力層、隠れ層、および出力層を有するニューラルネットワークで構成される。生成器１２１は、ランダムな雑音から疑似方策データを生成するモデルである。生成器１２１の入力ノードには、例えば、ガウス雑音のベクトルがランダムにｍ個サンプルされて入力される（ｚ_１～ｚ_ｍ）。

【0050】

生成器１２１は、入力と重みパラメータの積和演算および活性化関数によるしきい値処理を経て出力Ｇ（ｚ）を出力する。生成器１２１からの出力Ｇ（ｚ）は、第１ＵＡＶ２ａの位置、すなわち状態ｓ_ｔに基づいて求められる学習済みのＤＱＮからの出力、すなわち全ての行動価値Ｑ（ｓ_ｔ，ａ_１）、Ｑ（ｓ_ｔ，ａ_２）、Ｑ（ｓ_ｔ，ａ_３）、・・・、Ｑ（ｓ_ｔ，ａ_ｎ－１）、Ｑ（ｓ_ｔ，ａ_ｎ）に類似する疑似方策データである。生成器１２１を構成するニューラルネットワークとしてＣＮＮやＲｅｓＮｅｔを用いることができる。

【0051】

図８に示す識別器１２２は、入力層、隠れ層、および出力層を有するニューラルネットワークで構成される。図８の例では、訓練データの入力として、第１学習部１１の学習によって得られた第１ＵＡＶａの進路の方策ｘが与えられる。真の方策データの訓練データは、第１ＵＡＶ２ａの位置である、状態ｓ_ｔに基づいて求められる学習済みのＤＱＮからの出力、すなわち全ての行動価値Ｑ（ｓ_ｔ，ａ_１）、Ｑ（ｓ_ｔ，ａ_２）、Ｑ（ｓ_ｔ，ａ_３）、・・・、Ｑ（ｓ_ｔ，ａ_ｎ－１）、Ｑ（ｓ_ｔ，ａ_ｎ）である。

【0052】

識別器１２２は、入力と重みパラメータの積和演算および活性化関数によるしきい値処理を経て、１または０の二値出力を出す。識別器１２２は、入力された真の方策データに係る訓練データを正しく真の方策データであると識別すると出力ｙ＝１を出力する。一方、入力された疑似方策データに係る訓練データを正しく疑似方策データであると識別すると出力ｙ＝０を出力する。このように、識別器１２２は、生成器１２１が生成したモデル分布を真の分布である訓練データのデータ分布から区別するモデルである。識別器１２２を構成するニューラルネットワークとしてＣＮＮを用いることができる。

【0053】

図６は、第２学習部１２によるＧＡＮの敵対的学習を説明するためのブロック図である。第２学習部１２が採用するＧＡＮの生成器１２１を関数Ｇ、識別器１２２を関数Ｄと表す。また、真の方策データをｘ、識別器１２２による出力である予測値はｙと表し、正解ラベルをtと表す。正解ラベルｔは、真の方策データに対して１、生成器１２１で生成された疑似方策データに対して０と設定される。このとき、識別器１２２は、二値分類問題として次式（２）の交差エントロピーＥ_ＣＥで表すことができる。

【0054】

【数1】

【0055】

上式（２）のブレース内の第１項が表すｔ_ｎｌｎｙ_ｎにおいて、識別器１２２の予測値ｙ_ｎが、真の方策データの正解ラベルｔ_ｎ＝１の値に近づくことが望ましい。一方、ブレース内の第２項が表す（１－ｔ_ｎ）ｌｎ（１－ｙ_ｎ）においては、識別器１２２の予測値ｙ_ｎが、疑似方策データと識別する正解ラベルの値（１－ｔ_ｎ）＝０に近づくことが望ましい。このように交差エントロピーＥ_ＣＥは、予測値が正解ラベルの値に一致している場合に最大値となる。

【0056】

ここで、ＧＡＮを構成する生成器１２１は、パラメータｗ_Ｇ，θ_Ｇを有し、関数Ｇ（ｗ_Ｇ，θ_Ｇ）と表す。また、識別器１２２は、パラメータｗ_Ｄ，θ_Ｄを有し、関数Ｄ（ｗ_Ｄ，θ_Ｄ）と表す。上式（２）の交差エントロピーＥ_ＣＥに基づいた生成器１２１と識別器１２２とを備えるＧＡＮの目的関数Ｅは、次式（３）で表すことができる。

【数2】

【0057】

上式（３）の第１項が表すＥ_{Ｄ（ｘ）＝１}ｌｎＤ（ｗ_Ｄ，θ_Ｄ）は、識別器１２２が真の方策データを真の方策データであると識別する期待値である。上式（３）の第２項が表すＥ_{Ｄ（ｘ）＝０}ｌｎ（１－Ｄ（Ｇ（ｗ_Ｇ，θ_Ｇ），ｗ_Ｄ，θ_Ｄ））は、生成器１２１により生成された疑似方策データを識別器１２２が疑似方策データであると識別する期待値である。ＧＡＮの学習では、目的関数Ｅのｍｉｎ－ｍａｘ最適化により、生成器１２１と識別器１２２とを敵対的に学習する。したがって、識別器１２２をだますような疑似方策データを生成できるように生成器１２１を学習し、生成器１２１が生成した疑似方策データを疑似方策データであると識別するように識別器１２２を学習する。

【0058】

識別器１２２の学習では、真の方策データが与えられた場合に、識別器１２２がｙ＝１に近い出力を出すことで、上式（３）の目的関数Ｅの第１項を最大化する。一方、疑似方策データが与えられた場合に、識別器１２２がｙ＝０に近い出力を出すことで目的関数Ｅの第２項を最大化するように学習が行われる。

【0059】

生成器１２１の学習では、上式（３）のＤ（Ｇ（ｗ_Ｇ，θ_Ｇ），ｗ_Ｄ，θ_Ｄ）（図６のＤ（Ｇ（ｚ）））が１に近くなるようなＧ（ｗ_Ｇ，θ_Ｇ）（図６のＧ（ｚ））を出力することで、目的関数Ｅを最小化する。第２学習部１２は、生成器１２１のパラメータと識別器１２２のパラメータとを交互に更新する学習手順を用いる。なお、第２学習部１２による生成器１２１および識別器１２２の学習手順の詳細は後述する。

【0060】

第２学習部１２は、ＧＡＮの目的関数Ｅが最適化されると、学習済み生成器１２１’を生成部１４に渡す。

【0061】

記憶部１３は、学習済みの強化学習モデルのパラメータ、および学習済み生成器１２１’を記憶する。

【0062】

生成部１４は、ＧＡＮの学習により構築された学習済み生成器１２１’を用いて、第１ＵＡＶ２ａの進路の方策データに類似する疑似方策データを生成する。

【0063】

設定部１５は、生成部１４により生成された疑似方策データを含む情報を、複数のＵＡＶ２の進路を制御する進路制御情報として、各ＵＡＶ２に設定する。より具体的には、設定部１５は、複数のＵＡＶ２のうち第２ＵＡＶ２ｂに対して、生成部１４により生成された疑似方策データを進路制御情報として設定する。また、設定部１５は、第１ＵＡＶ２ａに対しては、第１学習部１１による学習で得られた真の方策データを進路制御情報として設定する。設定部１５は、例えば、無線通信ネットワークＮＷを介して、各ＵＡＶ２に進路制御情報を送信し、受信した各ＵＡＶ２が進路制御情報をロードする。あるいは、設定部１５は、オフラインで各ＵＡＶ２に進路制御情報をダウンロードさせる構成とすることもできる。

【0064】

［制御装置のハードウェア構成］
次に、上述した機能を有する制御装置１を実現するハードウェア構成の一例について、図９を用いて説明する。

【0065】

図９に示すように、制御装置１は、例えば、バス１０１を介して接続されるプロセッサ１０２、主記憶装置１０３、通信インターフェース１０４、補助記憶装置１０５、入出力Ｉ／Ｏ１０６を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。

【0066】

プロセッサ１０２は、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、ＡＳＩＣなどによって実現される。

【0067】

主記憶装置１０３には、プロセッサ１０２が各種制御や演算を行うためのプログラムが予め格納されている。プロセッサ１０２と主記憶装置１０３とによって、図１に示した取得部１０、第１学習部１１、第２学習部１２、生成部１４、設定部１５など制御装置１の各機能が実現される。

【0068】

通信インターフェース１０４は、制御装置１と各種外部電子機器との間をネットワーク接続するためのインターフェース回路である。

【0069】

補助記憶装置１０５は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。補助記憶装置１０５には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。

【0070】

補助記憶装置１０５は、制御装置１が実行する制御プログラムを格納するプログラム格納領域を有する。また、補助記憶装置１０５は、ＤＱＮによる強化学習を行うための第１学習プログラム、およびＧＡＮを用いた敵対的学習を行うための第２学習プログラムを格納する領域を有する。補助記憶装置１０５によって、図１で説明した記憶部１３が実現される。また、補助記憶装置１０５は、移動空間Ａの位置座標を含む地図データ、ならびに移動空間Ａを構成する単位空間の位置座標および単位空間のノードＩＤを対応付けて記憶する領域を有する。さらに、補助記憶装置１０５は、ＵＡＶ２の識別情報を記憶する領域を有する。さらには、例えば、上述したデータやプログラムなどをバックアップするためのバックアップ領域などを有していてもよい。

【0071】

入出力Ｉ／Ｏ１０６は、外部機器からの信号を入力したり、外部機器へ信号を出力したりする入出力装置である。

【0072】

表示装置１０７は、有機ＥＬディスプレイや液晶ディスプレイなどによって構成される。表示装置１０７は、移動空間Ａの地図表示や、ＵＡＶ２の現在位置、進行ルート、および目的地点の位置情報を表示させることができる。

【0073】

［ＵＡＶの機能ブロック］
次に、ＵＡＶ２の機能ブロックについて、図２を参照して説明する。図２は、ＵＡＶ２の構成を示すブロック図である。前述したように、複数のＵＡＶ２は、制御装置１によって選択された第１ＵＡＶ２ａと、第１ＵＡＶ２ａ以外の複数の第２ＵＡＶ２ｂとを有し、それぞれのＵＡＶ２は同じ機能ブロックで構成される。

【0074】

ＵＡＶ２は、制御情報記憶部２０、制御情報取得部（第２取得部）２１、飛行情報記憶部２２、位置情報取得部（第３取得部）２３、決定部２４、および飛行制御部（移動制御部）２５を備える。複数のＵＡＶ２の各々は、制御装置１によって設定された進路制御情報に基づいて、自機が次に進むべき進路を決定し、目的地点の位置までの自機の飛行を制御する。

【0075】

制御情報記憶部２０は、制御装置１の設定部１５によって設定された進路制御情報を記憶する。進路制御情報は、制御装置１の第１学習部１１による強化学習で得られた真の方策データ、および制御装置１の第２学習部１２による敵対的学習に基づいて、生成部１４によって生成された疑似方策データを含む。より具体的には、第１ＵＡＶ２ａの制御情報記憶部２０は、進路制御情報として真の方策データを記憶する。一方、複数の第２ＵＡＶ２ｂの各々の制御情報記憶部２０は、進路制御情報として疑似方策データを記憶する。

【0076】

制御情報取得部２１は、制御装置１により設定された進路制御情報を取得する。具体的には、制御情報取得部２１は、制御情報記憶部２０に記憶された進路制御情報をロードする。第１ＵＡＶ２ａの制御情報取得部２１は、真の方策データを取得し、複数の第２ＵＡＶ２ｂの各々の制御情報取得部２１は、疑似方策データを取得する。

【0077】

飛行情報記憶部２２は、移動空間Ａの位置座標を含む地図データ、および移動空間Ａを構成する単位空間の位置座標と単位空間のノードＩＤとを対応付けた情報を記憶する。また、飛行情報記憶部２２は、目的地点の位置情報を記憶する。

【0078】

位置情報取得部２３は、自機の現在の位置を取得する。より詳細には、位置情報取得部２３は、自機のＧＰＳ位置に基づいて、時刻ステップごとに自機が現在いる単位空間の位置を取得する。位置情報取得部２３は、飛行情報記憶部２２を参照し、ＧＰＳ受信機２０７で受信された現在のＧＰＳ位置に対応する単位空間の位置を自機の現在の位置として取得することができる。

【0079】

決定部２４は、進路制御情報が示す、自機が現在の位置から順次進むべき進路の方策に基づいて、位置情報取得部２３によって取得された自機の現在の位置から、次に進むべき進路を決定する。

【0080】

より具体的には、第１ＵＡＶ２ａの決定部２４は、真の方策データの進路制御情報に基づいて、現在の単位空間の位置を状態ｓ_ｔとして、各状態ｓ_ｔにて、行動価値関数Ｑの値が最大な行動ａである進路を選択することで、順次進むべき進路を決定する。同様に、複数の第２ＵＡＶ２ｂの各々が備える決定部２４は、疑似方策データの進路制御情報に基づいて、各状態ｓ_ｔにて、行動価値関数Ｑの値が最大な行動ａである進路を選択することで、順次進むべき進路を決定する。

【0081】

より詳細には、第１ＵＡＶ２ａの決定部２４は、真の方策データの進路制御情報に対応する学習済みのＤＱＮの演算を行い、現在の単位空間の位置を学習済みのニューラルネットワークモデルに入力として与え、学習済みのニューラルネットワークモデルの演算を行い、次に進むべき進路として、第１ＵＡＶ２ａの進行方向に対する所定のｎ方向への移動に係る行動のうち最適な行動を決定することができる。第２ＵＡＶ２ｂの決定部２４についても同様に、疑似方策データの進路制御情報に対応するＤＱＮの演算を行って、進路を決定する。

【0082】

飛行制御部２５は、決定部２４によって決定された、次に進むべき進路に基づいて、自機の飛行を制御する。飛行制御部２５は、現在の位置から次に進むべき進路の制御指令を演算して、モータ２０９に対して制御指令値を送信することができる。このように、第１ＵＡＶ２ａおよび第２ＵＡＶ２ｂを含む複数のＵＡＶ２の各々は、進路制御情報に基づいて、各状態ｓ_ｔにて、行動価値関数Ｑの値が最大な行動ａを選択することで、目的地点まで集団で飛行することができる。

【0083】

［ＵＡＶのハードウェア構成］
次に、上述した機能を有するＵＡＶ２を実現するハードウェア構成の一例について、図３を用いて説明する。

【0084】

図３に示すように、ＵＡＶ２は、例えば、バス２０１を介して接続されるプロセッサ２０２、主記憶装置２０３、通信インターフェース２０４、補助記憶装置２０５、入出力Ｉ／Ｏ２０６を備えるマイクロコンピュータと、これらのハードウェア資源を制御するプログラム、ＧＰＳ受信機２０７、センサ２０８、モータ２０９、プロペラ２１０、およびバッテリ２１１によって実現することができる。マイクロコンピュータ等のコンピュータとプログラムとによってＵＡＶ２の自律飛行を制御するフライトコントローラが実現される。ＵＡＶ２はこれらの構成を所定の形状のフレームに搭載することができる。

【0085】

主記憶装置２０３には、プロセッサ２０２が飛行制御や演算を行うためのプログラムが予め格納されている。プロセッサ２０２と主記憶装置２０３とによって、図２に示した、制御情報取得部２１、決定部２４、飛行制御部２５などＵＡＶ２の各機能が実現される。

【0086】

通信インターフェース２０４は、ＵＡＶ２と制御装置１との間をネットワーク接続するためのインターフェース回路である。

【0087】

補助記憶装置２０５は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。補助記憶装置２０５には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。

【0088】

補助記憶装置２０５は、ＵＡＶ２が実行する飛行制御プログラムを格納するプログラム格納領域を有する。また、補助記憶装置２０５は、進路制御情報に基づいて進路を決定するための演算プログラムを格納する領域を有する。補助記憶装置２０５によって、図２で説明した制御情報記憶部２０、および飛行情報記憶部２２が実現される。また、補助記憶装置２０５は、ＵＡＶ２の識別情報を記憶する領域を有する。さらには、例えば、上述したデータやプログラムなどをバックアップするためのバックアップ領域などを有していてもよい。

【0089】

入出力Ｉ／Ｏ２０６は、外部機器からの信号を入力したり、外部機器へ信号を出力したりする入出力装置である。

【0090】

ＧＰＳ受信機２０７は、ＧＰＳ信号を受信するアンテナが内蔵される。ＧＰＳ受信機２０７によって、図２の位置情報取得部２３が実現される。

【0091】

センサ２０８は、高度センサ、姿勢センサ、カメラ、ＬｉＤＡＲ、ＲＡＤＡＲなどの各種センサで構成される。ＧＰＳ受信機２０７に加え、高度センサによって図２の位置情報取得部２３が実現される。また、センサ２０８で測定される各種センサデータに基づいて、フライトコントローラはＵＡＶ２の飛行制御を行う。

【0092】

モータ２０９は、回転駆動によって回転し、モータ２０９の回転軸に取り付けられたプロペラ２１０を回転させる。

【0093】

バッテリ２１１は、リチウムイオンバッテリ等であり、ＵＡＶ２の構成に電源供給する。

【0094】

なお、ＵＡＶ２は、ＳＩＭを備え、ＳＩＭのＩＭＳＩ（ＩｎｔｅｒｎａｔｉｏｎａｌＭｏｂｉｌｅＳｕｂｓｃｒｉｂｅｒＩｄｅｎｔｉｔｙ）を有していてもよい。また、ＵＡＶ２は、ＩＰアドレスを有するＩｏＴ端末として構成することができる。これらのＩＭＳＩやＩＰアドレスをＵＡＶ２に固有の識別情報として用いてもよい。

【0095】

［制御装置の動作］
次に、上述した構成を有する制御装置１の動作を、図１０から図１３のフローチャートを参照して説明する。

【0096】

はじめに、図１０を参照して、制御装置１による動作の全体を説明する。まず、制御装置１は、移動空間Ａにおいて複数のＵＡＶ２を集団で移動させる目的地点を設定する（ステップＳ１）。

【0097】

次に、第１学習部１１は、強化学習処理を行う（ステップＳ２）。その後、第２学習部１２は、ステップＳ２で得られた第１ＵＡＶ２ａが現在の位置に対応する単位空間の位置から順次進むべき単位空間の進路の方策を訓練データとして用いて、敵対的学習処理を行う（ステップＳ３）。

【0098】

次に、生成部１４は、ステップＳ３の敵対的学習によって構築された学習済み生成器１２１’により、第１ＵＡＶ２ａが各単位空間の位置から順次進むべき単位空間の進路の方策に類似する疑似方策データを生成する（ステップＳ４）。その後、設定部１５は、ステップＳ４で生成された疑似方策データを含む情報を、複数のＵＡＶ２の進路制御情報として各ＵＡＶ２に設定する（ステップＳ５）。より詳細には、設定部１５は、疑似方策データの進路制御情報を、第２ＵＡＶ２ｂの各々に設定する。設定部１５は、真の方策データの進路制御情報を、第１ＵＡＶ２ａに設定する。

【0099】

次に、図１１および図１２を参照し、制御装置１の第１学習部１１による強化学習処理を説明する。まず、取得部１０は、第１ＵＡＶ２ａの現在の位置として、第１ＵＡＶ２ａが現在いる単位空間の位置を取得する（ステップＳ２０）。具体的には、取得部１０は、無線通信ネットワークＮＷを介して受信した第１ＵＡＶ２ａのＧＰＳ位置に基づいて、時刻ステップごとに第１ＵＡＶ２ａが現在いる単位空間の位置を取得する。さらに、取得部１０は、記憶部１３を参照し、第１ＵＡＶ２ａのＧＰＳ受信機２０７で受信された現在のＧＰＳ位置に対応する単位空間の位置を第１ＵＡＶ２ａの現在の位置として取得することができる。

【0100】

次に、第１学習部１１は、ステップＳ２０で取得された第１ＵＡＶ２ａの現在の状態である、第１ＵＡＶ２ａが現在いる単位空間の位置をニューラルネットワークモデルに入力として与え、ニューラルネットワークモデルの演算を行って、第１ＵＡＶ２ａが現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の報酬の累積値の期待値を表す行動価値関数の第１推定値Ｑ１を出力する（ステップＳ２１）。

【0101】

さらに、第１学習部１１は、第１ＵＡＶ２ａが次に到達した単位空間の位置を取得する（ステップＳ２２）。次に、第１学習部１１は、ステップＳ２２で取得した第１ＵＡＶ２ａが次に到達した単位空間の位置をニューラルネットワークモデルの入力として与え、ニューラルネットワークモデルの演算を行い、行動価値関数の第２推定値Ｑ２を出力する（ステップＳ２３）。第１ＵＡＶ２ａが次に到達した単位空間の位置は、時刻ステップごとに取得部１０が取得する第１ＵＡＶ２ａのＧＰＳ位置に基づいて判定される。

【0102】

次に、第１学習部１１は、第２推定値Ｑ２から目標値を算出する（ステップＳ２４）。続いて、第１学習部１１は、第１推定値Ｑ１が、第２推定値Ｑ２から計算される目標値となるように、ニューラルネットワークモデルの重みパラメータを学習する（ステップＳ５）。具体的には、第１学習部１１は、上式（１）の損失関数を最小化するようにニューラルネットワークモデルの重みパラメータを更新する。

【0103】

記憶部１３は、ステップＳ７で得られた学習済みのパラメータを記憶する（ステップＳ２６）。ステップＳ２６で記憶される学習済みのパラメータは、第１ＵＡＶ２ａの順次進むべき進路の方策に対応する。

【0104】

次に、図１２を参照して、メインＱＮ１１１およびターゲットＱＮ１１３の２つのニューラルネットワークを用いるＦｉｘｅｄＴａｒｇｅｔＱ－Ｎｅｔｗｏｒｋを採用した場合の、第１学習部１１による学習処理を説明する。

【0105】

ステップＳ２０の処理は、図１１で説明した学習処理のステップと同様である。その後、第１学習部１１は、メインＱＮ１１１にステップＳ２０で取得された、第１ＵＡＶ２ａが現在いる単位空間の位置を入力として与え、ニューラルネットワークの演算を行って、行動価値関数Ｑを出力し、次に進むべき進路ａを計算する（ステップＳ１２０）。

【0106】

次に、第１学習部１１は、ステップＳ１２０で求めた進路ａで第１ＵＡＶ２ａの行動を環境１１０に返し、次の第１ＵＡＶ２ａの状態ｓ’である、第１ＵＡＶ２ａが進んだ先の単位空間の位置および報酬ｒを得る（ステップＳ１２１）。

【0107】

第１学習部１１は、ステップＳ１２１で得られた経験（ｓ，ａ，ｒ，ａ’）を経験データ１１４に保存する（ステップＳ１２２）。次に、第１学習部１１は、ＤＱＮ損失算出１１２において、損失関数Ｌを求め、損失関数Ｌの勾配でメインＱＮ１１１の重みを更新する（ステップＳ１２３）。第１学習部１１は、ステップＳ１２０からステップＳ１２３までの処理を設定された回数繰り返す。

【0108】

その後、第１学習部１１は、メインＱＮ１１１の重みを定期的にターゲットＱＮ１１３にコピーし同期を行う（ステップＳ１２４）。ターゲットＱＮ１１３の同期は、メインＱＮ１１１の重みの更新頻度よりも低い頻度で行われる。次に、第１学習部１１は、経験データ１１４から経験を取り出して、過去の状態をターゲットＱＮ１１３に入力し、推定値ｍａｘ_ａ’Ｑ（ｓ’，ａ’；θ^－）を出力させる（ステップＳ１２６）。

【0109】

次に、第１学習部１１は、ターゲットＱＮ１１３が出力した推定値ｍａｘ_ａ’Ｑ（ｓ’，ａ’；θ^－）に基づく目標値ｒ＋γｍａｘ_ａ’Ｑ（ｓ’，ａ’；θ^－）を計算する（ステップＳ１２７）。次に、第１学習部１１は、ステップＳ１２７で算出された目標値を用いて、ＤＱＮ損失算出１１２で損失関数Ｌを計算する（ステップＳ１２８）。次に、第１学習部１１は、損失関数Ｌで与えられる損失を最小化するようにメインＱＮ１１１の重みの学習を行う（ステップＳ１２９）。その後、学習済みのパラメータを記憶部１３に記憶する（ステップＳ２６）。

【0110】

次に、図１３を参照し、制御装置１の第２学習部１２による敵対的学習処理を説明する。まず、第２学習部１２は、図１１のステップＳ２の第１学習部１１による強化学習処理で得られた、学習済みのパラメータ、すなわち学習済みのＤＱＮによって得られる第１ＵＡＶ２ａが現在の位置から目的地点の位置まで順次進むべき進路の方策を真の方策データとして取得する（ステップＳ３０）。

【0111】

ここで、図６の第２学習部１２によるＧＡＮの学習処理に示すように、ステップＳ３０で収集された真の方策データは、識別器１２２を学習する際に入力される訓練データ１２４として用いられる。また、本実施の形態では、学習済みのＤＱＮで求められるすべての方策が訓練データとして用いられる。すべての方策とは、第１ＵＡＶ２ａの現在の位置から目的地点の位置まで期待どおり遷移できるように調整された、行動価値Ｑ（ｓ_ｔ，ａ_１）、Ｑ（ｓ_ｔ，ａ_２）、Ｑ（ｓ_ｔ，ａ_３）、・・・、Ｑ（ｓ_ｔ，ａ_ｎ－１）、Ｑ（ｓ_ｔ，ａ_ｎ）で表される進路の方策である。

【0112】

次に、第２学習部１２は、真の方策データを訓練データ１２４として識別器１２２に入力し、真の方策データを真の方策データ（ｙ＝１）と識別するように、識別器１２２のパラメータｗ_Ｄ，θ_Ｄを学習し、更新する（ステップＳ３１）。ステップＳ３１において、第２学習部１２は、例えば、誤差逆伝搬法などを用いて識別器１２２に真の方策データを学習させることができる。ステップＳ３１により、真の方策データを真の方策データと識別することができる識別器１２２が事前に構築される。

【0113】

次に、第２学習部１２は、ガウス雑音１２０を発生し、発生したガウス雑音１２０のランダムなベクトルを生成器１２１に入力として与える（ステップＳ３２）。続いて、生成器１２１は、与えられたガウス雑音１２０に基づいて、入力ｚと重みパラメータｗ_Ｇ，θ_Ｇの積和演算および活性化関数によるしきい値処理を行い、疑似方策データＧ（ｚ）を生成する（ステップＳ３３）。

【0114】

次に、第２学習部１２は識別器１２２の学習を行う。識別器１２２の学習は、生成器１２１のパラメータｗ_Ｄ，θ_Ｄを固定して行われる。まず、第２学習部１２は、ステップＳ３０で取得した真の方策データの訓練データ１２４を識別器１２２に入力として与え、上式（３）の目的関数Ｅが最大となるように、誤差逆伝搬法などによりパラメータｗ_Ｄ，θ_Ｄを更新する（ステップＳ３４）。なお、訓練データ１２４のラベルは１（真の方策データ）が設定されている。

【0115】

次に、第２学習部１２は、ステップＳ３３で生成器１２１によって生成された疑似方策データを識別器１２２に入力として与え、上式（３）の目的関数Ｅが最大となるように、誤差逆伝搬法などによりパラメータｗ_Ｄ，θ_Ｄを更新する（ステップＳ３５）。すなわち、ステップＳ３４およびステップＳ３５では、上式（３）の目的関数Ｅを最大にするために、第１項はＤ（ｗ_Ｄ，θ_Ｄ）＝１が出力され、第２項はＤ（Ｇ（ｗ_Ｇ，θ_Ｇ），ｗ_Ｄ，θ_Ｄ）＝０となるように最適化が行われる。なお、訓練データ１２４には、ラベルは０（疑似方策データ）が設定されている。

【0116】

ステップＳ３４およびステップＳ３５での識別器１２２の学習は、識別器１２２からの出力１２３に基づいて、目的関数Ｅのブロック１２５で識別器誤差が算出され、その後、識別器１２２へ誤差逆伝搬されることを示す図６の破線の矢印に対応する。

【0117】

次に、第２学習部１２は生成器１２１の学習を行う。生成器１２１の学習では、識別器１２２のパラメータが固定されて行われる。第２学習部１２は、ランダムなガウス雑音１２０を生成器１２１に与えた際に疑似方策データが生成されるように生成器１２１を学習する。具体的には、第２学習部１２は、上式（３）の目的関数Ｅを最小とするために、誤差逆伝搬法などによりパラメータｗ_Ｇ，θ_Ｇを更新する（ステップＳ３６）。

【0118】

ステップＳ３６での学習は、図６に示す、生成器１２１へ誤差逆伝搬されることを示す破線の矢印に対応する。すなわち、ステップＳ３６は、図６の生成器１２１で生成された疑似方策データが識別器１２２に入力され、その出力１２３から目的関数Ｅのブロック１２５で生成器誤差が算出され、さらには、生成器１２１へ誤差逆伝搬される破線矢印に対応する。

【0119】

その後、目的関数Ｅの値がナッシュ均衡に到達して収束するまで（ステップＳ３７：ＮＯ）、ステップＳ３３からステップＳ３６までの識別器１２２および生成器１２１の学習が繰り返し行われる。一方、目的関数Ｅの値が収束した場合（ステップＳ３７：ＹＥＳ）、ｎ個すべての真の方策データのうち、残りのｎ－１個の真の方策データを用いて、生成器１２１および識別器１２２の学習が行われるまで（ステップＳ３８：ＮＯ）、ステップＳ３１からステップＳ３７までの処理が繰り返される。

【0120】

その後、残りのｎ－１個の真の方策データを用いて生成器１２１および識別器１２２の学習が行われた場合（ステップＳ３８：ＹＥＳ）、第２学習部１２は、学習済み生成器１２１’を記憶部１３に記憶する（ステップＳ３９）。以上のステップＳ３０からステップＳ３９までの処理によって学習済み生成器１２１’が構築される。

【0121】

［ＵＡＶの動作］
次に、上述した構成を有するＵＡＶ２の動作を、図１４のフローチャートを参照して説明する。

【0122】

図１４は、ＵＡＶ２による進路制御情報に基づく目的地点までの飛行制御を示すフローチャートである。まず、第１ＵＡＶ２ａおよび第２ＵＡＶ２ｂを含む複数のＵＡＶ２の各々には、目的地点が設定される（ステップＳ４０）。次に、各ＵＡＶ２の制御情報取得部２１は、進路制御情報を取得する（ステップＳ４１）。より詳細には、第１ＵＡＶ２ａの制御情報取得部２１は、制御装置１によって設定され、制御情報記憶部２０に記憶されている真の方策データの進路制御情報を読み出す。一方、第２ＵＡＶ２ｂの制御情報取得部２１は、制御情報記憶部２０に記憶されている疑似方策データの進路制御情報を読み出す。

【0123】

次に、位置情報取得部２３は、現在の位置として、自機の現在の単位空間の位置を取得する（ステップＳ４２）。具体的には、ＧＰＳ受信機２０７で受信されたＧＰＳ位置に対応する単位空間の位置を、自機の現在の位置として取得することができる。次に、決定部２４は、ステップＳ４１で取得された進路制御情報の方策データに基づいて、自機が次に進むべき進路を決定する（ステップＳ４３）。

【0124】

より詳細には、第１ＵＡＶ２ａの決定部は、真の方策データの進路制御情報に基づいて、現在の単位空間の位置を状態ｓ_ｔとして、各状態ｓ_ｔにて、行動価値関数Ｑの値が最大な行動ａである進路を選択することで、順次進むべき進路を決定する。同様に、第２ＵＡＶ２ｂの決定部２４は、疑似方策データの進路制御情報に基づいて、各状態ｓ_ｔにて、行動価値関数Ｑの値が最大な行動ａである進路を選択することで、順次進むべき進路を決定する。

【0125】

飛行制御部２５は、決定部２４によって決定された、次に進むべき進路に基づいて、自機の飛行を制御する（ステップＳ４４）。より詳細には、飛行制御部２５は、現在の位置から次に進むべき進路の制御指令を演算して、モータ２０９に対して制御指令値を送信することができる。第１ＵＡＶ２ａおよび第２ＵＡＶ２ｂの各々は、目的地点の単位空間に到達するまで（ステップＳ４５：ＮＯ）、現在いる単位空間の位置である状態ｓ_ｔを取得し（ステップＳ４２）、時刻ステップごとに次に進むべき進路ａを決定し（ステップＳ４３）、決定した進路ａに基づく飛行制御を行う（ステップＳ４４）ステップを繰り返す。

【0126】

その後、第１ＵＡＶ２ａおよび第２ＵＡＶ２ｂの各々が、目的地点の単位空間の位置に到達すると（ステップＳ４５：ＹＥＳ）、処理は終了する。このように、第１ＵＡＶ２ａおよび第２ＵＡＶ２ｂを含む複数のＵＡＶ２の各々は、進路制御情報に基づいて、各状態ｓ_ｔにて、行動価値関数Ｑの値が最大な行動ａを選択することで、目的地点まで集団で飛行することができる。第１ＵＡＶ２ａおよび第２ＵＡＶ２ｂを含む複数のＵＡＶ２は、目的地点において、画像の撮影など予め設定されたタスクを実行することができる。

【0127】

以上説明したように、本実施の形態に係る制御装置１によれば、複数のＵＡＶ２のうちから選択された第１ＵＡＶ２ａの現在の位置に基づいて、学習済みの強化学習モデルにより獲得された進路の方策を疑似する疑似方策データを、敵対的学習により構築された学習済み生成器１２１’によって生成する。さらに、生成された疑似方策データを含む情報を、複数のＵＡＶ２を目的地点まで集団で移動させるための進路制御情報として、各ＵＡＶ２に設定する。そのため、ＵＡＶ２ごとの報酬設計の複雑性を抑制しつつ、集団行動を制御することができる。

【0128】

なお、説明した実施の形態では、制御装置１はＤＱＮを用いた強化学習およびＧＡＮを用いた敵対的学習により学習済みＤＱＮに類似する疑似ＤＱＮを生成して、複数のＵＡＶ２を目的地点まで誘導するための制御情報として各ＵＡＶ２に設定する場合について説明した。しかし、制御装置１は、説明した第１学習部１１および第２学習部１２において、敵対的模倣学習（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇ：ＧＡＩＬ）を採用してもよい。

【0129】

ＧＡＩＬでは、ＧＡＮと同様に生成器と識別器とを使用する。生成器は現在の位置を入力として選択する進路（行動）の確率である方策を出力する。識別器は、状態と行動とからなる方策データを入力として、その方策データがエキスパートのものであるか、生成器が生成した疑似方策データであるのかの確率を出力する。生成器は、自身が生成した状態と行動とからなる疑似方策データに対する識別器からの出力を報酬とみなして学習される。なお、ＧＡＩＬを用いた場合には、識別器には、訓練データであるエキスパートの方策データはサンプルされたデータが入力される。一方、説明した実施の形態に係る識別器１２２では、エキスパートによる全ての方策データに対応する、第１ＵＡＶ２ａの進路の方策データの全てを訓練データとして入力する。

【0130】

以上、本発明の制御装置、制御方法、および制御システムにおける実施の形態について説明したが、本発明は説明した実施の形態に限定されるものではなく、請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。

【符号の説明】

【0131】

１…制御装置、２…ＵＡＶ、２ａ…第１ＵＡＶ、２ｂ…第２ＵＡＶ、１０…取得部、１１…第１学習部、１２…第２学習部、１３…記憶部、１４…生成部、１５…設定部、２０…制御情報記憶部、２１…制御情報取得部、２２…飛行情報記憶部、２３…位置情報取得部、２４…決定部、２５…飛行制御部、２０１、１０１…バス、２０２、１０２…プロセッサ、２０３、１０３…主記憶装置、２０４、１０４…通信インターフェース、２０５、１０５…補助記憶装置、２０６、１０６…入出力Ｉ／Ｏ、１０７…表示装置、１１０…環境、１１１…メインＱＮ、１１２…ＤＱＮ損失算出、１１３…ターゲットＱＮ、１１４…経験データ、１２０…雑音、１２１…生成器、１２２…識別器、１２３…出力、１２４…訓練データ、１２５…目的関数Ｅのブロック、２０７…ＧＰＳ受信機、２０８…センサ、２０９…モータ、２１０…プロペラ、２１１…バッテリ、Ａ…移動空間、ＮＷ…無線通信ネットワーク。

【要約】

【課題】報酬設計の複雑性を抑制しつつ、集団行動を制御することを目的とする。
【解決手段】
第１学習部１１による学習によって得られた第１ＵＡＶ２ａが現在の位置から順次進むべき進路の方策を真の方策データとして、真の方策データに類似する疑似方策データを生成する生成器１２１と、生成器１２１によって生成された疑似方策データと真の方策データとを識別する識別器１２２とを有する生成モデルの敵対的学習を行う第２学習部１２と、第２学習部１２２の敵対的学習によって得られた学習済み生成器１２１’を用いて、真の方策データに類似する疑似方策データを生成する生成部１４と、生成部１４により生成された疑似方策データを含む情報を、複数のＵＡＶ２移の進路を制御する制御情報として、各移動体ＵＡＶ２に設定する設定部１５とを備える。
【選択図】図１