(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-10-15
(45)【発行日】2024-10-23
(54)【発明の名称】経路管理装置、経路管理方法、および経路管理システム
(51)【国際特許分類】
G06N 3/092 20230101AFI20241016BHJP
G01C 21/34 20060101ALI20241016BHJP
G05D 1/46 20240101ALI20241016BHJP
【FI】
G06N3/092
G01C21/34
G05D1/46
(21)【出願番号】P 2024146471
(22)【出願日】2024-08-28
【審査請求日】2024-08-28
【早期審査対象出願】
(73)【特許権者】
【識別番号】397036309
【氏名又は名称】株式会社インターネットイニシアティブ
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100195408
【氏名又は名称】武藤 陽子
(72)【発明者】
【氏名】柿島 純
【審査官】佐藤 直樹
(56)【参考文献】
【文献】特許第7541209(JP,B1)
【文献】特許第7407329(JP,B1)
【文献】特許第7321400(JP,B1)
【文献】特開2023-059382(JP,A)
【文献】米国特許出願公開第2019/0162546(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/092
G01C 21/34
G05D 1/46
(57)【特許請求の範囲】
【請求項1】
移動空間において設定された目的地点の位置までの移動体群の経路を管理する経路管理装置であって、
前記移動体群を構成する移動体ごとの現在の位置を取得するように構成された第1取得部と、
前記移動体が前記現在の位置から前記目的地点の位置に到達するまでに、前記移動体が順次進むべき進路を計算した推定結果に報酬関数を適用して、前記移動体が前記目的地点の位置へ到達するための報酬が最大化するように更新し、前記移動体が前記現在の位置から順次進むべき進路の方策を、前記移動体ごとに、強化学習モデルを用いて学習するように構成された第1学習部と、
前記移動体の前記現在の位置と、前記第1学習部による前記移動体ごとの学習によって得られた、前記移動体が前記現在の位置から順次進むべき進路の方策との関係を、教師あり学習モデルを用いて学習するように構成された第2学習部と、
前記第2学習部によって構築された学習済みの教師あり学習モデルを記憶するように構成された記憶部と
を備え、
前記現在の位置は、前記移動空間内の出発地点の位置を含み、前記移動体ごとの前記出発地点の位置は、互いに異なる位置を含む
ことを特徴とする経路管理装置。
【請求項2】
請求項1に記載の経路管理装置において、
さらに、前記学習済みの教師あり学習モデルを、前記移動体群の進路を制御する制御情報として、前記移動体の各々に設定するように構成された設定部を備える
ことを特徴とする経路管理装置。
【請求項3】
請求項1に記載の経路管理装置において、
前記移動空間は、前記移動空間を複数の空間に分割した単位空間で定義され、
前記移動体が前記現在の位置から順次進むべき進路の方策は、前記現在の位置に対応する単位空間の位置から、前記移動体が順次進むべき単位空間の進路の方策である
ことを特徴とする経路管理装置。
【請求項4】
請求項3に記載の経路管理装置において、
前記強化学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、
前記第1学習部は、前記現在の位置に対応する単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記移動体が前記現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第1推定値を出力し、
前記第1学習部は、さらに、前記移動体が次に到達した単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第2推定値を出力し、
前記第1学習部は、前記第1推定値が、前記第2推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習する
ことを特徴とする経路管理装置。
【請求項5】
移動空間において設定された目的地点の位置までの移動体群の経路を管理する経路管理方法であって、
前記移動体群を構成する移動体ごとの現在の位置を取得する第1取得ステップと、
前記移動体が前記現在の位置から前記目的地点の位置に到達するまでに、前記移動体が順次進むべき進路を計算した推定結果に報酬関数を適用して、前記移動体が前記目的地点の位置へ到達するための報酬が最大化するように更新し、前記移動体が前記現在の位置から順次進むべき進路の方策を、前記移動体ごとに、強化学習モデルを用いて学習する第1学習ステップと、
前記移動体の前記現在の位置と、前記第1学習ステップでの前記移動体ごとの学習によって得られた前記移動体が前記現在の位置から順次進むべき進路の方策との関係を、教師あり学習モデルを用いて学習する第2学習ステップと、
前記第2学習ステップで構築された学習済みの教師あり学習モデルを記憶部に記憶する記憶ステップと
を備え、
前記現在の位置は、前記移動空間内の出発地点の位置を含み、前記移動体ごとの前記出発地点の位置は、互いに異なる位置を含む
ことを特徴とする
コンピュータが実行する経路管理方法。
【請求項6】
請求項5に記載の経路管理方法において、
さらに、前記学習済みの教師あり学習モデルを、前記移動体群の進路を制御する制御情報として、前記移動体の各々に設定する設定ステップを備える
ことを特徴とする経路管理方法。
【請求項7】
請求項5に記載の経路管理方法において、
前記移動空間は、前記移動空間を複数の空間に分割した単位空間で定義され、
前記移動体が前記現在の位置から順次進むべき進路の方策は、前記現在の位置に対応する単位空間の位置から、前記移動体が順次進むべき単位空間の進路の方策である
ことを特徴とする経路管理方法。
【請求項8】
請求項7に記載の経路管理方法において、
前記強化学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、
前記第1学習ステップは、前記現在の位置に対応する単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記移動体が前記現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第1推定値を出力し、
前記第1学習ステップは、さらに、前記移動体が次に到達した単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第2推定値を出力し、
前記第1学習ステップは、前記第1推定値が、前記第2推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習する
ことを特徴とする経路管理方法。
【請求項9】
請求項1から4のいずれか1項に記載の経路管理装置と、
前記移動体群と
を備える経路管理システムであって、
前記移動体群を構成する前記移動体の各々は、
前記経路管理装置で構築された前記学習済みの教師あり学習モデルを取得するように構成された第2取得部と、
自装置の現在の位置を取得するように構成された第3取得部と、
前記第3取得部によって取得された前記自装置の前記現在の位置を未知の入力として前記学習済みの教師あり学習モデルに与え、前記学習済みの教師あり学習モデルの演算を行って、前記自装置の前記現在の位置から順次進むべき進路の方策を出力するように構成された演算部と、
前記演算部によって出力された前記自装置の前記現在の位置から順次進むべき進路の方策に基づいて、前記出発地点から前記目的地点までの前記自装置の移動を制御するように構成された移動制御部と
を備える経路管理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、経路管理装置、経路管理方法、および経路管理システムに関する。
【背景技術】
【0002】
従来から、固定的に設定されている出発地点から目的地点までの移動体の最適な移動経路を、強化学習を用いて学習する技術が知られている(特許文献1参照)。
【0003】
特許文献1に記載されている1台の移動体の経路管理技術に基づいて、移動体群が同じ出発地点から目的地点に集団で移動するための移動経路を学習することが可能である。しかし、移動体群を構成する各移動体が異なる出発地点から共通の目的地点に集団で移動する場合、移動体ごとに移動経路を学習する必要があり、システム構成が複雑化する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
このように、従来の技術では、異なる出発地点から共通の目的地点に移動する移動体群の経路を、より簡易な構成で管理することが困難であった。
【0006】
本発明は、上述した課題を解決するためになされたものであり、異なる出発地点から共通の目的地点に移動する移動体群の経路を、より簡易な構成で管理することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決するために、本発明に係る経路管理装置は、移動空間において設定された目的地点の位置までの移動体群の経路を管理する経路管理装置であって、前記移動体群を構成する移動体ごとの現在の位置を取得するように構成された第1取得部と、前記移動体が前記現在の位置から前記目的地点の位置に到達するまでに、前記移動体が順次進むべき進路を計算した推定結果に報酬関数を適用して、前記移動体が前記目的地点の位置へ到達するための報酬が最大化するように更新し、前記移動体が前記現在の位置から順次進むべき進路の方策を、前記移動体ごとに、強化学習モデルを用いて学習するように構成された第1学習部と、前記移動体の前記現在の位置と、前記第1学習部による前記移動体ごとの学習によって得られた前記移動体が前記現在の位置から順次進むべき進路の方策との関係を、教師あり学習モデルを用いて学習するように構成された第2学習部と、前記第2学習部によって構築された学習済みの教師あり学習モデルを記憶するように構成された記憶部とを備え、前記現在の位置は、前記移動空間内の出発地点の位置を含み、前記移動体ごとの前記出発地点の位置は、互いに異なる位置を含む。
【0008】
また、本発明に係る経路管理装置において、さらに、前記学習済みの教師あり学習モデルを、前記移動体群の進路を制御する制御情報として、前記移動体の各々に設定するように構成された設定部を備えていてもよい。
【0009】
また、本発明に係る経路管理装置において、前記移動空間は、前記移動空間を複数の空間に分割した単位空間で定義され、前記移動体が前記現在の位置から順次進むべき進路の方策は、前記現在の位置に対応する単位空間の位置から、前記移動体が順次進むべき単位空間の進路の方策であってもよい。
【0010】
また、本発明に係る経路管理装置において、前記強化学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、前記第1学習部は、前記現在の位置に対応する単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記移動体が前記現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第1推定値を出力し、前記第1学習部は、さらに、前記移動体が次に到達した単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第2推定値を出力し、前記第1学習部は、前記第1推定値が、前記第2推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習してもよい。
【0011】
上述した課題を解決するために、本発明に係る経路管理方法は、移動空間において設定された目的地点の位置までの移動体群の経路を管理する経路管理方法であって、前記移動体群を構成する移動体ごとの現在の位置を取得する第1取得ステップと、前記移動体が前記現在の位置から前記目的地点の位置に到達するまでに、前記移動体が順次進むべき進路を計算した推定結果に報酬関数を適用して、前記移動体が前記目的地点の位置へ到達するための報酬が最大化するように更新し、前記移動体が前記現在の位置から順次進むべき進路の方策を、前記移動体ごとに、強化学習モデルを用いて学習する第1学習ステップと、前記移動体の前記現在の位置と、前記第1学習ステップでの前記移動体ごとの学習によって得られた前記移動体が前記現在の位置から順次進むべき進路の方策との関係を、教師あり学習モデルを用いて学習する第2学習ステップと、前記第2学習ステップで構築された学習済みの教師あり学習モデルを記憶部に記憶する記憶ステップとを備え、前記現在の位置は、前記移動空間内の出発地点の位置を含み、前記移動体ごとの前記出発地点の位置は、互いに異なる位置を含む。
【0012】
また、本発明に係る経路管理方法において、さらに、前記学習済みの教師あり学習モデルを、前記移動体群の進路を制御する制御情報として、前記移動体の各々に設定する設定ステップを備えていてもよい。
【0013】
また、本発明に係る経路管理方法において、前記移動空間は、前記移動空間を複数の空間に分割した単位空間で定義され、前記移動体が前記現在の位置から順次進むべき進路の方策は、前記現在の位置に対応する単位空間の位置から、前記移動体が順次進むべき単位空間の進路の方策であいてってもよい。
【0014】
また、本発明に係る経路管理方法において、前記強化学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、前記第1学習ステップは、前記現在の位置に対応する単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記移動体が前記現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第1推定値を出力し、前記第1学習ステップは、さらに、前記移動体が次に到達した単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第2推定値を出力し、前記第1学習ステップは、前記第1推定値が、前記第2推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習してもよい。
【0015】
上述した課題を解決するために、本発明に係る経路管理システムは、上述の経路管理装置と前記移動体群とを備える経路管理システムであって、前記移動体群を構成する前記移動体の各々は、前記経路管理装置で構築された前記学習済みの教師あり学習モデルを取得するように構成された第2取得部と、自装置の現在の位置を取得するように構成された第3取得部と、前記第3取得部によって取得された前記自装置の前記現在の位置を未知の入力として前記学習済みの教師あり学習モデルに与え、前記学習済みの教師あり学習モデルの演算を行って、前記自装置の前記現在の位置から順次進むべき進路の方策を出力するように構成された演算部と、前記演算部によって出力された前記自装置の現在の位置から順次進むべき進路の方策に基づいて、前記出発地点から前記目的地点までの前記自装置の移動を制御するように構成された移動制御部とを備える。
【発明の効果】
【0016】
本発明によれば、移動体の現在の位置と、第1学習部による移動体ごとの学習によって得られた、移動体が現在の位置から順次進むべき進路の方策との関係を、教師あり学習モデルを用いて学習するする。そのため、異なる出発地点から共通の目的地点に移動する移動体群の経路を、より簡易な構成で管理することができる。
【図面の簡単な説明】
【0017】
【
図1】
図1は、本発明の実施の形態に係る経路管理装置を備える経路管理システムの構成を示すブロック図である。
【
図2】
図2は、本実施の形態に係る経路管理装置が備える第1学習部による学習処理を説明するための図である。
【
図3】
図3は、本実施の形態に係る経路管理装置が備える第1学習部の構成を示すブロック図である。
【
図4】
図4は、本実施の形態に係る経路管理装置が備える第2学習部による学習処理を説明するための図である。
【
図5】
図5は、本実施の形態に係る経路管理装置のハードウェア構成を示すブロック図である。
【
図6】
図6は、本実施の形態に係る経路管理システムが備える移動体の構成を示すブロック図である。
【
図7】
図7は、本実施の形態に係る経路管理システムが備える移動体のハードウェア構成を示すブロック図である。
【
図8】
図8は、本実施の形態に係る経路管理システムの動作を示すシーケンス図である。
【
図9】
図9は、本実施の形態に係る経路管理装置の第1学習処理を示すフローチャートである。
【
図10】
図10は、本実施の形態に係る経路管理装置の第1学習処理を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、本発明の好適な実施の形態について、
図1から
図10を参照して詳細に説明する。
【0019】
[経路管理システムの構成]
まず、
図1を参照して、本発明の実施の形態に係る経路管理装置1および複数の移動体2を備える経路管理システムの概要について説明する。
【0020】
本実施の形態に係る経路管理システムは、経路管理装置1と複数の移動体2である移動体群とを備え、経路管理装置1と複数の移動体2とは、LTE/4G、5G、6Gなどの所定の通信規格に準拠する無線通信ネットワークNWを介して互いに通信可能に接続されている。経路管理システムは、複数の移動体2が、移動空間Aにおいて設定された共通の目的地点の位置までに集団で移動するための経路を管理する。
図1に示すように、移動体2が移動する移動空間Aは、例えば、5G無線通信方式による通信が可能である。
【0021】
移動体2は、ドローン、無人航空機などの自律操縦飛行を行うことができる飛行体、自動走行車両、移動ロボット、船舶などが含まれる。移動体群を構成する各移動体2は、移動空間Aの任意の位置、あるいは予め設定された異なる位置を出発地点とし、各出発地点の位置から同じ目的地点の位置へ集団で移動して設定されたタスクを実行する。
【0022】
以下において、移動体2がドローンである場合を例に挙げて説明する。移動体2は、後述のセンサ208等からの情報を処理してモータ209の回転速度やプロペラ210の角度を制御するフライトコントローラにより自律飛行を制御する。また、移動体2は、GPS受信機207によって自装置のGPS位置を取得する。また、移動体2は、IPアドレスを有するIoT端末として構成される。各IPアドレスにより移動体2を一意に識別することができる。さらに、本実施の形態では、移動体2は、補助記憶装置205に記憶されている制御情報に基づいて、目的地点までの自律飛行を制御する。複数の移動体2の各々は、同一の構成を有し、その機能ブロックおよびハードウェア構成の詳細は後述する。
【0023】
図1に示すように、複数の移動体2が移動する移動空間Aは、複数の空間に分割した単位空間で構成された3次元マトリックス状の空間である。移動空間Aを構成する各単位空間は同一の容積を有する。さらに、各単位空間はノードIDを有し、各単位空間は1つの位置(x,y,z)で表される。位置情報は、緯度、経度、高度からなる3次元のGPS位置座標を用いることができる。例えば、単位空間の位置として、その単位空間の中心位置などの代表値を用いることができる。
【0024】
また、
図1に示すように、n台(nは2以上の整数)の移動体2は、それぞれの異なる出発地点の位置S1,S2,・・・,Snに対応する単位空間の位置から、各単位空間をウェイポイントとして、目的地点Gの単位空間の位置まで集団で移動する。移動体2の目的地点Gの位置は任意に設定され、複数の移動体2に共通の目的地点である。
【0025】
本実施の形態に係る経路管理システムは、異なる出発地点から目的地点までを移動する複数の移動体2の各々の現在の単位空間から順次進むべき進路の方策を強化学習により学習する。さらに、学習により得られた複数の移動体2の進路の方策を教師データとして、移動体2の現在の単位空間の位置と、移動体2が順次進むべき進路の方策との関係を、教師あり学習モデルを用いて学習する。さらに、学習済みの教師あり学習モデルを、複数の移動体2の進路を制御する1つの共通の制御情報として各移動体2に設定する。各移動体2は、設定された制御情報に基づいて、自装置の現在の単位空間の位置を未知の入力として、学習済みの教師あり学習モデルの演算を行い、順次進むべき進路の方策を出力する。そして、出力された順次進むべき進路の方策に基づいて、出発地点から目的地点までの進路を決定して目的地点までの移動を制御する。
【0026】
制御情報が設定された各移動体2は、学習済みの教師あり学習モデルの演算で得られた進路の方策に基づいて決定された進路に応じて、
図1の出発地点S1の各矢印で示すように進路を変えて、単位空間ごとに進むべき方向へ移動する。進路は、様々な進路、すなわち移動方向を含むことができる。
図1においては、移動空間Aを2次元平面で説明しているが、移動体2の進路は3次元の進路とすることができる。ここでは、各単位空間の位置から隣接する各単位空間の位置への移動を進路といい、出発地点の位置から複数の単位空間を経た目的地点の位置までの移動を経路という。経路管理装置1が各移動体2に設定する共通の制御情報により、複数の移動体2は、それぞれ異なる出発地点の単位空間から集団で目的地点Gの単位空間に到達することができる。
【0027】
[経路管理装置の機能ブロック]
図1に示すように、経路管理装置1は、第1取得部10、第1学習部11、第2学習部12、第1記憶部(記憶部)13、第2記憶部14、および設定部15を備える。経路管理装置1は、移動空間Aにおいて設定された目的地点の位置までの移動体群の経路を管理する。
【0028】
第1取得部10は、移動体群を構成する各移動体2の現在の位置を取得する。具体的には、第1取得部10は、複数の移動体2の各々が現在いる単位空間の位置を、現在の位置として取得する。また、現在の位置は、設定された時刻tごとの移動体2が存在する単位空間の位置であり、出発地点の単位空間の位置を含む。本実施の形態では、各移動体2の出発地点の位置は、互いに異なる位置を含む。
【0029】
第1取得部10は、時刻tごとの移動体2のGPS位置に対応する単位空間の位置を、移動体2の現在の位置として取得する。なお、単位空間において複数の位置座標が含まれる場合がある。そのような場合には、第1取得部10は、移動体2のGPS受信機207によって受信されたGPS位置に最も距離が近い単位空間の位置を、移動体2の現在の位置として取得することができる。本実施の形態では、第1取得部10は、移動体群を構成するすべての移動体2の現在の位置を取得する。
【0030】
第1学習部11は、移動体2が現在の位置から目的地点の位置に到達するまでに、移動体2が順次進むべき進路を計算した推定結果に報酬関数を適用して、移動体2が目的地点の位置へ到達するための報酬が最大化するように更新し、移動体2が現在の位置から順次進むべき進路の方策を、移動体2ごとに、強化学習モデルを用いて学習する。このように、第1学習部11は、それぞれ出発地点が異なる複数の移動体2の各々について強化学習を行い、進路の方策を学習する。
【0031】
本実施の形態では、移動体2が各単位空間の位置から順次進むべき進路の方策として、進行方向に対する所定のn(nは2以上の整数)個の方向への移動に係る行動anを採用する場合を例示する。また、進行方向は、移動体2が直前にいた単位空間の位置に基づいた方向である。
【0032】
第1学習部11は、
図2に示すような入力層s、隠れ層h、および出力層qを含むニューラルネットワークモデルを強化学習モデルとして用いる。また、ニューラルネットワークモデルとして、移動体2の位置である状態s
tを受取り、全ての行動価値関数Q(s
t,a
1)、Q(s
t,a
2)、Q(s
t,a
3)、・・・、Q(s
t,a
n-1)、Q(s
t,a
n)を出力するニューラルネットワークであるDeep Q-Network(DQN)を採用する。
【0033】
より具体的には、第1学習部11は、現在の移動体2の位置を示す、現在の単位空間の位置をニューラルネットワークモデルの入力として与え、ニューラルネットワークモデルの演算を行い、移動体2が現在の単位空間の位置から次に進むべき進路として、n個の方向への各移動に係る行動anをとった場合に得られる将来の報酬の累積値の期待値を表す行動価値関数の第1推定値Q1を出力する。
【0034】
報酬とは、移動体2の現在の位置を示す状態s、移動体2が所定の方向に移動する行動an、および移動体2の次の位置、すなわち次の状態s’の報酬関数r=r(s,a,s’)で与えられる。本実施の形態では、報酬関数は、移動体2の目的地点に係る単位空間の位置への到達度を変数として含む。その他にも、高層ビルや鉄塔などの障害物がある空間に対応する単位空間の位置への到達度を変数として含むことができる。例えば、移動体2の所定の方向への移動に係る行動によって、目的地点により近づく場合や、目的地点に最短距離で到達する場合には、スカラー量である報酬が、より大きい値として設定される。
【0035】
一方、移動体2が目的地点に遠ざかる、あるいは、障害物が存在する単位空間に到達する場合には、マイナスの報酬値(例えば、r=-1)が与えられる設計とすることができる。このように、障害物が存在する単位空間の報酬をマイナスの値として設定することで、移動体2がこれらの地点を避けて目的地点に到達することができる。
【0036】
さらに、第1学習部11は、移動体2が次に到達した単位空間の位置をニューラルネットワークモデルの入力として与え、ニューラルネットワークモデルの演算を行い、行動価値関数の第2推定値Q2を出力する。第1学習部11は、第1推定値Q1が、第2推定値Q2から計算される目標値となるように、ニューラルネットワークモデルの重みパラメータを学習する。
【0037】
ニューラルネットワークモデルの重みパラメータをθとし、行動価値関数をQ(s,a;θ)と表すと、学習の最小化損失関数は、次の式(1)で与えられる。
L(θ)=1/2{r+γmaxa’Q(s’,a’;θ)-Q(s,a;θ)}2
・・・(1)
【0038】
上式(1)において、rは、報酬(即時報酬)であり、γは割引率を示す。Q(s,a;θ)は、第1推定値Q1に対応し、Q(s’,a’;θ)は、1ステップ進んだ状態s’での行動価値すなわち第2推定値Q2に対応する。目標値は、r+γmaxa’Q(s’,a’;θ)で表される。
【0039】
第1学習部11は、上式(1)で与えられる損失関数の勾配を誤差逆伝播することでニューラルネットワークモデルの重みパラメータを更新することができる。
【0040】
さらに具体的には、第1学習部11は、
図3に示すように、メインQN111およびターゲットQN113の2つのニューラルネットワークを用いるFixed Target Q-Networkを採用することができる。メインQN111は最適な行動を選択して行動価値関数Qを更新する。一方、ターゲットQN113は、行動の結果の次の状態s’でとるべき行動a’の価値を推定および評価する。メインQN111およびターゲットQN113は、同一のレイヤ構造のニューラルネットワークを有するが、メインQN111のパラメータは「θ」であり、ターゲットQN113のパラメータは「θ
-」で与えられる。
【0041】
メインQN111は、環境110から移動体2の現在の位置を状態sとして受け取る。環境110は、移動体2が置かれた移動空間のシステムであり、この環境110下で、移動体2は、所定の方向への移動に係る行動aをとることで別の単位空間へ移動し、次の状態s’に遷移すると同時に、環境110から報酬rを獲得する。
【0042】
第1学習部11は、移動体2の現在の位置に係る状態sをメインQN111に入力し、行動価値関数Q(s,a;θ)を求める。第1学習部11は、例えば、ε-greedy法を用いて行動aを計算し、あるいは、現時点での最適な行動argmaxaQ(s,a;θ)を求める。環境110において、移動体2は、現時点での最適な進路に係る行動argmaxaQ(s,a;θ)を行う。環境110は、移動体2が行動argmaxaQ(s,a;θ)を行った結果、移動した先の単位空間の位置を次の状態s’として観測し、報酬rを出力する。経験データ114は、環境110から出力された経験(s,a,r,s’)を保存する。
【0043】
第1学習部11は、DQN損失算出112において、損失関数Lを求め、損失関数Lの勾配でメインQN111の重みを更新する。
【0044】
第1学習部11は、メインQN111の重みを定期的にターゲットQN113にコピーし同期を行う。ターゲットQN113の同期は、メインQN111の重みの更新頻度よりも低い頻度で行われる。第1学習部11は、経験データ114から経験を取り出して、過去の状態をターゲットQN113に入力し、推定値maxa’Q(s’,a’;θ-)を出力させる。第1学習部11は、ターゲットQN113が出力した推定値maxa’Q(s’,a’;θ-)に基づく目標値r+γmaxa’Q(s’,a’;θ-)を用いて、DQN損失算出112でメインQN111の重みの学習を行う。
【0045】
第1学習部11による学習によって得られた、出発地点の位置が異なる複数の移動体2のそれぞれの現在の位置から目的地点に到達するまでに順次進むべき進路の方策、すなわち学習済みの強化学習モデルは、第1記憶部13に記憶される。また、移動体2ごとに構築された学習済みの強化学習モデルは、第2学習部12による学習における教師データとして用いられる。
【0046】
第2学習部12は、移動体2の現在の位置と、第1学習部11による移動体2ごとの学習によって得られた、移動体2が現在の位置から順次進むべき進路の方策との関係を、教師あり学習モデルを用いて学習する。
【0047】
図4は、第2学習部12が用いる教師あり学習モデルの一例として採用する、ニューラルネットワークモデルの構造を示す。ニューラルネットワークモデルは、入力層x、隠れ層h、および出力層yを備える。第2学習部12は、移動体2の現在の単位空間の位置、すなわち各時刻tでの移動体2のGPS位置に対応する単位空間の位置をニューラルネットワークモデルの入力層に与え、入力の重み付け総和に活性化関数を適用し、しきい値処理により決定された出力を出力層に渡す。出力層の各出力ノードは、n個の行動価値関数Qに対応するモデルの予測出力を出力する。
【0048】
第2学習部12は、次の式(2)に示す目的関数Eを導入することで、移動体2の現在の位置に対するニューラルネットワークモデルからの予測値である現在の位置から順次進むべき進路の方策が、第1学習部11による移動体2ごとの学習で得られた、各移動体2が現在の位置から順次進むべき進路の方策の値となるように、ニューラルネットワークモデルのパラメータを学習する。
【0049】
【0050】
上式(2)において、y1,y2,・・・,ynは各出力ノードの予測出力値を示す。また、Y1,Y2,・・・,Ynは教師データであり、本実施の形態では、第1学習部11による強化学習で得られた、現在の位置に対するn個の行動価値関数Q(st,a1)、Q(st,a2)、Q(st,a3)、・・・、Q(st,an-1)、Q(st,an)である。さらに、学習済みの強化学習モデルで得られた、出発地点がそれぞれ異なる複数の移動体2が、共通の目的地点に到達するまでの行動価値関数Qのすべてを教師データとして用いる。
【0051】
上式(2)の目的関数Eの値は、教師あり学習モデルの上記入力値xである、時刻tでの移動体2のGPS位置に対応する単位空間の位置に対する出力値y1,y2,・・・,ynが教師データの目標出力Y1,Y2,・・・,Ynに一致する場合に0となる。第2学習部12は、目的関数Eが最小、つまり0となるように、教師あり学習モデルに係るニューラルネットワークの重みパラメータを調整する。第2学習部12は、誤差逆伝播法などを用いて、目的関数Eを最適化することができる。
【0052】
第1記憶部13は、第1学習部11による敵対的学習で構築された学習済みの強化学習モデルを記憶する。学習済みの強化学習モデルは、出発地点がそれぞれ異なる移動体2ごとに構築されるため、n台の移動体2の出発地点がそれぞれ異なる場合には、n個の学習済みの強化学習モデルが記憶されることになる。
【0053】
第2記憶部14は、第2学習部12による教師あり学習で構築された学習済みの教師あり学習モデルを記憶する。
【0054】
設定部15は、学習済みの教師あり学習モデルを、移動体群の進路を制御する制御情報として、各移動体2に設定する。例えば、設定部15は、ネットワークNWを介して、各移動体2に制御情報を送信することができる。
【0055】
[経路管理装置のハードウェア構成]
次に、上述した機能を有する経路管理装置1を実現するハードウェア構成の一例について、
図5を用いて説明する。
【0056】
図5に示すように、経路管理装置1は、例えば、バス101を介して接続されるプロセッサ102、主記憶装置103、通信インターフェース104、補助記憶装置105、入出力I/O106を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。さらに、経路管理装置1は、バス101を介して接続される表示装置107を備えることができる。
【0057】
プロセッサ102は、CPU、GPU、FPGA、ASICなどによって実現される。
【0058】
主記憶装置103には、プロセッサ102が各種制御や演算を行うためのプログラムが予め格納されている。プロセッサ102と主記憶装置103とによって、
図1に示した第1取得部10、第1学習部11、第2学習部12、設定部15など経路管理装置1の各機能が実現される。
【0059】
通信インターフェース104は、経路管理装置1と各種外部電子機器との間をネットワーク接続するためのインターフェース回路である。
【0060】
補助記憶装置105は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。補助記憶装置105には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。
【0061】
補助記憶装置105は、経路管理装置1が実行する経路管理プログラムを格納するプログラム格納領域を有する。また、経路管理装置1が実行する強化学習プログラムを格納するプログラム格納領域を有する。さらに、補助記憶装置105は、教師あり学習プログラムを格納する領域を有する。補助記憶装置105によって、
図1で説明した第1記憶部13および第2記憶部14が実現される。また、補助記憶装置105は、移動体群を構成する各移動体2の目的地点を記憶する領域を有する。また、補助記憶装置105は、移動空間の位置座標および単位空間の位置座標を記憶する領域を有する。さらに、補助記憶装置105は、移動体2のIPアドレスなどの識別情報を記憶する領域を有する。さらには、例えば、上述したデータやプログラムなどをバックアップするためのバックアップ領域などを有していてもよい。
【0062】
入出力I/O106は、外部機器からの信号を入力したり、外部機器へ信号を出力したりする入出力装置である。
【0063】
表示装置107は、有機ELディスプレイや液晶ディスプレイなどによって構成される。表示装置107は、移動空間の地図表示や、移動体群を構成する各移動体2の現在位置、進行状況、経路、および目的地点の位置情報を表示させることができる。
【0064】
[移動体の機能ブロック]
次に、移動体2の機能ブロックについて、
図6を参照して説明する。
図6は、移動体2の構成を示すブロック図である。前述したように、複数の移動体2の各々は、同じ機能ブロックで構成される。
【0065】
移動体2は、第3記憶部20、第2取得部21、第4記憶部22、第3取得部23、演算部24、決定部25、および移動制御部26を備える。複数の移動体2の各々は、経路管理装置1によって設定された制御情報に基づいて、自装置が次に進むべき進路を決定し、目的地点の位置までの自装置の飛行を制御する。前述したように、複数の移動体2の各々の出発地点は、互いに異なる地点を含む。
【0066】
第3記憶部20は、経路管理装置1の設定部15によって設定された制御情報を記憶する。制御情報は、経路管理装置1の第2学習部12が、異なる出発地点から同じ目的地点に到達するまでに、現在の位置から順次進むべき進路の方策を学習した、学習済みの教師あり学習モデルである。
【0067】
第2取得部21は、経路管理装置1により設定された制御情報を取得する。具体的には、第2取得部21は、第3記憶部20に記憶されている制御情報をロードする。
【0068】
第4記憶部22は、移動空間の位置座標を含む地図データ、および移動空間を構成する単位空間の位置座標と単位空間のノードIDとを対応付けた情報を記憶する。また、第4記憶部22は、目的地点の位置情報を記憶する。
【0069】
第3取得部23は、自装置の現在の位置を取得する。より詳細には、第3取得部23は、自装置のGPS位置に基づいて、時刻tごとに自装置がいる単位空間の位置を取得する。第3取得部23は、第4記憶部22を参照し、GPS受信機207で受信された現在のGPS位置に対応する単位空間の位置を自装置の現在の位置として取得する。
【0070】
演算部24は、第3取得部23によって取得された自装置の現在の位置を未知の入力として学習済みの教師あり学習モデルに与え、前記学習済みの教師あり学習モデルの演算を行って、自装置が現在の位置から順次進むべき進路の方策を出力する。
【0071】
決定部25は、演算部24によって出力された、自装置が現在の位置から順次進むべき進路の方策に基づいて、自装置の現在の位置から、次に進むべき進路を決定する。より具体的には、演算部24によって出力された進路の方策に基づいて、現在の単位空間の位置を状態stとして、各状態stにて、行動価値関数Qの値が最大な行動aである進路を選択することで、順次進むべき進路を決定する。
【0072】
移動制御部26は、演算部24によって出力された自装置が現在の位置から順次進むべき進路の方策に基づいて、自装置の移動を制御する。具体的には、移動制御部26は、演算部24により出力され、決定部25によって決定された、次に進むべき進路に基づいて、自装置の移動を制御する。移動制御部26は、現在の位置から次に進むべき進路の制御指令を演算して、モータ209に対して制御指令値を送信することができる。このように、複数の移動体2の各々は、各状態stにて、行動価値関数Qの値が最大な行動aを選択することで、異なる出発地点から共通の目的地点に集団で移動することができる。
【0073】
[移動体のハードウェア構成]
次に、上述した機能を有する移動体2を実現するハードウェア構成の一例について、
図7を用いて説明する。
【0074】
図7に示すように、移動体2は、例えば、バス201を介して接続されるプロセッサ202、主記憶装置203、通信インターフェース204、補助記憶装置205、入出力I/O206を備えるマイクロコンピュータと、これらのハードウェア資源を制御するプログラム、GPS受信機207、センサ208、モータ209、プロペラ210、およびバッテリ211によって実現することができる。マイクロコンピュータ等のコンピュータとプログラムとによって移動体2の自律飛行を制御するフライトコントローラが実現される。移動体2はこれらの構成を所定の形状のフレームに搭載することができる。
【0075】
主記憶装置203には、プロセッサ202が移動制御や演算を行うためのプログラムが予め格納されている。プロセッサ202と主記憶装置203とによって、
図6に示した、第2取得部21、演算部24、決定部25、移動制御部26など移動体2の各機能が実現される。
【0076】
通信インターフェース204は、移動体2と経路管理装置1との間をネットワーク接続するためのインターフェース回路である。
【0077】
補助記憶装置205は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。補助記憶装置205には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。
【0078】
補助記憶装置205は、移動体2が実行する移動制御プログラムを格納するプログラム格納領域を有する。また、補助記憶装置205は、学習済みの教師あり学習モデルの演算を行うための演算プログラムを格納する領域を有する。補助記憶装置205によって、
図6で説明した第3記憶部20、および第4記憶部22が実現される。また、補助記憶装置205は、移動体2のIPアドレスなどの識別情報を記憶する領域を有する。また、補助記憶装置205は、経路管理装置1にGPS位置を通知するアプリケーションを記憶する領域を有する。さらには、例えば、上述したデータやプログラムなどをバックアップするためのバックアップ領域などを有していてもよい。
【0079】
入出力I/O206は、外部機器からの信号を入力したり、外部機器へ信号を出力したりする入出力装置である。
【0080】
GPS受信機207は、GPS信号を受信するアンテナが内蔵される。GPS受信機207によって、
図6の第3取得部23が実現される。
【0081】
センサ208は、高度センサ、姿勢センサ、カメラ、LiDAR、RADARなどの各種センサで構成される。GPS受信機207に加え、高度センサによって
図6の第3取得部23が実現される。また、センサ208で測定される各種センサデータに基づいて、フライトコントローラは移動体2の飛行制御を行う。
【0082】
モータ209は、回転駆動によって回転し、モータ209の回転軸に取り付けられたプロペラ210を回転させる。
【0083】
バッテリ211は、リチウムイオンバッテリ等であり、移動体2の構成に電源供給する。
【0084】
なお、移動体2は、SIMを備え、SIMのIMSI(International Mobile Subscriber Identity)を有していてもよい。
【0085】
[経路管理システムの動作]
次に、上述した構成を有する経路管理装置1および複数の移動体2を備える経路監視システムの動作を、
図8のシーケンスを参照して説明する。複数の移動体2は、移動空間内の異なる単位空間の位置に配置され、それらの位置を出発地点とする。
【0086】
経路管理装置1は、移動体群が集団で移動する目的地点の設定情報を取得する(ステップS1)。次に、第1取得部10は、移動体2の現在の位置として、移動体2が現在いる単位空間の位置を取得する(ステップS2)。例えば、第1取得部10は、対象の複数の移動体2のIPアドレスを対象に、プッシュ通知にて各移動体2から現在のGPS位置を通知させることで、各移動体2の現在の位置を取得することができる。
【0087】
第1取得部10は、移動体群を構成するすべての移動体2から、時刻tごとに移動体2が現在いる単位空間の位置を取得する。また、前述したように、各々の移動体2は、異なる出発地点の単位空間の位置から出発する。したがって、最初の時刻tでの各移動体2の現在いる単位空間の位置は互いに異なる。第1取得部10は、移動体2のGPS受信機207で受信された現在のGPS位置に対応する単位空間の位置を移動体2の現在の位置として取得する。
【0088】
次に、第1学習部11は、ステップS2で取得された移動体2の現在の位置から目的地点の位置に到達するまでに、移動体2が順次進むべき進路を計算した推定結果に報酬関数を適用して、移動体2が目的地点の位置へ到達するための報酬が最大化するように更新し、移動体2が現在の位置から順次進むべき進路の方策を、強化学習モデルを用いて学習する(第1学習処理)(ステップS3)。ステップS3では、出発地点が異なるすべての移動体2について学習処理が行われる。第1学習処理の詳細は後述する。
【0089】
その後、第1記憶部13は、ステップS3で得られた学習済みの強化学習モデルを記憶する(ステップS4)。次に、第2学習部12は、移動体2の現在の位置と、ステップS3での移動体2ごとの第1学習処理で得られた、移動体2が現在の位置から順次進むべき進路の方策との関係を、教師あり学習モデルを用いて学習する(第2学習処理)(ステップS5)。
【0090】
具体的には、第2学習部12は、移動体2の現在のGPS位置に対応する単位空間の位置、すなわち現在の状態を入力値として教師あり学習モデルに与えた場合の順次進むべき進路の方策の予測出力値と、教師データとの誤差が、上式(2)の目的関数Eを最小とするように、重みやしきい値などのパラメータの調整および更新を繰り返し、これらのパラメータの値を決定する。ステップS5では、第2学習部12は、誤差逆伝播法などにより、目的関数Eを最小とするパラメータを決定することができる。
【0091】
ステップS5で用いる教師データは、ステップS3の第1学習処理で構築された学習済みの強化学習モデルによって得られる、現在の単位空間の位置から順次進むべき進路の方策である。より具体的には、
図4のニューラルネットワークの模式図に示すように、現在の位置に対するn個の行動価値関数Qが教師データY
1~Y
nとして用いられる。ステップS5では、ステップS3の学習済みの強化学習モデルで得た、出発地点が異なる複数の移動体2が目的地点に到達するまでの行動価値関数Qのすべてを教師データとして用いる。
【0092】
次に、第2記憶部14は、ステップS5で構築された学習済みの教師あり学習モデルを記憶する(ステップS6)。その後、設定部15は、学習済みの教師あり学習モデルを、移動体群を構成する各移動体2に、制御情報として設定する(ステップS7)。ステップS7において、設定部15は、学習済みの教師あり学習モデルを、ネットワークNWを介して、各移動体2に送信することができる。
【0093】
その後、移動体群を構成する移動体2の第2取得部21は、経路管理装置1で構築された学習済みの教師あり学習モデルを取得する(ステップS8)。第2取得部21は、経路管理装置1から送信され、第3記憶部20に記憶されている制御情報、すなわち学習済みの教師あり学習モデルを読み出す。
【0094】
次に、第3取得部23は、現在の位置として、自装置の現在の単位空間の位置を取得する(ステップS9)。具体的には、GPS受信機207で受信されたGPS位置に対応する単位空間の位置を、自装置の現在の位置として取得することができる。次に、演算部24は、ステップS8で取得された制御情報を用いて、ステップS9で取得した自装置の現在の単位空間の位置を未知の入力として与え、学習済みの教師あり学習モデルの演算を行って、現在の単位空間の位置から順次進むべき進路の方策を出力する(ステップS10)。例えば、
図1の移動空間Aにおいて、移動体2の出発地点がS2である場合、出発地点S2の位置を時刻t=1での現在の位置として学習済みの教師あり学習モデルに入力し、S2から次に進むべきn個の行動価値関数Qを出力する。
【0095】
次に、決定部25は、ステップS11で出力されたn個の行動価値関数Qの値が最大な行動aをとる進路を選択することで、順次進むべき進路を決定する(ステップS11)。次に、移動制御部26は、ステップS11で決定した、次に進むべき進路に基づいて、自装置の移動を制御する(ステップS12)。より詳細には、移動制御部26は、現在の位置から次に進むべき進路の制御指令を演算して、モータ209に対して制御指令値を送信することができる。
【0096】
移動体2は、出発地点から共通の目的地点の単位空間に到達するまで(ステップS13:NO)、現在いる単位空間の位置である状態stを取得し(ステップS9)、学習済みの教師あり学習モデルの演算を行い(ステップS10)、時刻tごとに次に進むべき進路aを決定し(ステップS11)、決定した進路aに基づく移動制御を行う(ステップS44)処理を繰り返す。その後、移動体2が、目的地点の単位空間の位置に到達すると(ステップS13:YES)、処理は終了する。このように、移動体群を構成する各移動体2は、共通の制御情報である学習済みの教師あり学習モデルを用いて、ステップS8からステップS13までの処理を実行することで、それぞれの出発地点が異なる複数の移動体2は共通の目的地点に集団で移動し、所定のタスクを実行することができる。
【0097】
次に、経路管理装置1による第1学習処理(
図8のステップS3)について、
図9および
図10のフローチャートを用いて説明する。まず、
図8で説明したステップS1およびステップS2が実行される。その後、第1学習部11は、ステップS2で取得された移動体2の現在の状態である、移動体2が現在いる単位空間の位置をニューラルネットワークモデルに入力として与え、ニューラルネットワークモデルの演算を行って、移動体2が現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の報酬の累積値の期待値を表す行動価値関数の第1推定値Q1を出力する(ステップS20)。
【0098】
続いて、第1取得部10は、次の時刻tでの移動体2の単位空間の位置を、次の状態s’として取得する(ステップS21)。移動体2が次に到達した単位空間の位置は、時刻ステップごとに第1取得部10が取得する移動体2のGPS位置に基づいて判定される。さらに、第1学習部11は、ステップS21で取得した、移動体2が次に到達した単位空間の位置をニューラルネットワークモデルの入力として与え、ニューラルネットワークモデルの演算を行い、行動価値関数の第2推定値Q2を出力する(ステップS22)。
【0099】
次に、第1学習部11は、第2推定値Q2から目標値を算出する(ステップS23)。続いて、第1学習部11は、第1推定値Q1が、第2推定値Q2から計算される目標値となるように、ニューラルネットワークモデルの重みパラメータを学習する(ステップS24)。具体的には、第1学習部11は、上式(1)の損失関数を最小化するようにニューラルネットワークモデルの重みパラメータを更新する。
【0100】
その後、出発地点がそれぞれ異なる複数の移動体2のすべてについて学習済みの強化学習モデルを構築するまで(ステップS25:NO)、ステップS2からステップS24までの処理を繰り返す。その後、すべての移動体2についての学習が行われた場合には(ステップS25:YES)、第1記憶部13は、ステップS24で得られた学習済みの強化学習モデルを記憶する(ステップS4)。
【0101】
次に、
図10を参照して、メインQN111およびターゲットQN113の2つのニューラルネットワークを用いるFixed Target Q-Networkを採用した場合の、第1学習部11による第1学習処理を説明する。
【0102】
ステップS1からステップS2までの処理は、
図9で説明した第1学習処理のステップと同様である。その後、第1学習部11は、メインQN111にステップS2で取得された、移動体2が現在いる単位空間の位置を入力として与え、ニューラルネットワークモデルの演算を行って、行動価値関数Qを出力し、次に進むべき進路aを計算する(ステップS120)。
【0103】
次に、第1学習部11は、ステップS120で求めた進路aで移動体2の行動を環境110に返し、次の移動体2の状態s’である、移動体2が進んだ先の単位空間の位置および報酬rを得る(ステップS121)。
【0104】
第1学習部11は、ステップS121で得られた経験(s,a,r,a’)を経験データ114に保存する(ステップS122)。次に、第1学習部11は、DQN損失算出112において、損失関数Lを求め、損失関数Lの勾配でメインQN111の重みを更新する(ステップS123)。第1学習部11は、ステップS120からステップS123までの処理を設定された回数繰り返す。
【0105】
その後、第1学習部11は、メインQN111の重みを定期的にターゲットQN113にコピーし同期を行う(ステップS124)。ターゲットQN113の同期は、メインQN111の重みの更新頻度よりも低い頻度で行われる。次に、第1学習部11は、経験データ114から経験を取り出して、過去の状態をターゲットQN113に入力し、推定値maxa’Q(s’,a’;θ-)を出力させる(ステップS126)。
【0106】
次に、第1学習部11は、ターゲットQN113が出力した推定値maxa’Q(s’,a’;θ-)に基づく目標値r+γmaxa’Q(s’,a’;θ-)を計算する(ステップS127)。次に、第1学習部11は、ステップS127で算出された目標値を用いて、DQN損失算出112で損失関数Lを計算する(ステップS128)。次に、第1学習部11は、損失関数Lで与えられる損失を最小化するようにメインQN111の重みの学習を行う(ステップS129)。その後、出発地点がそれぞれ異なる移動体2すべてについてのそれぞれの学習済みの強化学習モデルを第1記憶部13に記憶する(ステップS4)。
【0107】
以上説明したように、本実施の形態に係る経路管理装置1によれば、異なる出発地点から共通の目的地点に移動する複数の移動体2の各々の最適な進路の方策を強化学習により学習し、強化学習で得られた進路の方策を教師データとして、移動体2の現在の位置と、順次進むべき進路の方策との関係を教師あり学習モデルを用いて学習する。さらに、学習済みの教師あり学習モデルを複数の移動体2に共通の制御情報として、各移動体2に設定する。そのため、異なる出発地点から共通の目的地点に移動する移動体群の経路を、より簡易な構成で管理することができる。
【0108】
また、本実施の形態に係る経路管理システムによれば、移動体群に共通の制御情報を設定することで、異なる出発地点から共通の目的地点までの集団移動ができる移動体2を実現することができる。そのため、それぞれの移動体2の構成を簡易としつつ、移動体2は集団移動のための移動制御を行うことができる。
【0109】
なお、説明した実施の形態では、第1学習部11が用いる強化学習モデルは、多層ニューラルネットワークで構成されるFixed Target Q-Networkに係るDQNを用いる場合を例示したが、強化学習モデルは、CNN、多層パーセプトロンなどを用いることができる。また、強化学習モデルとして例示したDQNのほかにも、Double DQN、Dueling DQN、Actor-Critic(AC)メソッド、Soft Actor-Critic(SAC)、Deep Deterministic Policy Gradient(DDPG)、Q-learningなどを用いることができる。
【0110】
また、説明した実施の形態では、第2学習部12が用いる教師あり学習モデルは、多層ニューラルネットワークを用いる場合を例示した。しかし、教師あり学習モデルは、多層パーセプトロン、ランダムフォレストなどの決定木ベースのモデル、サポートベクターマシンなどを用いることができる。
【0111】
以上、本発明の経路管理装置、経路管理方法、および経路管理システムにおける実施の形態について説明したが、本発明は説明した実施の形態に限定されるものではなく、請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。
【符号の説明】
【0112】
1…経路管理装置、10…第1取得部、11…第1学習部、12…第2学習部、13…第1記憶部、14…第2記憶部、15…設定部、2…移動体、20…第3記憶部、21…第2取得部、22…第4記憶部、23…第3取得部、24…演算部、25…決定部、26…移動制御部、101、201…バス、102、202…プロセッサ、103、203…主記憶装置、104、204…通信インターフェース、105、205…補助記憶装置、106、206…入出力I/O、107…記憶装置、207…GPS受信機、110…環境、111…メインQN、112…DQN損失算出、113…ターゲットQN、114…経験データ、NW…ネットワーク。
【要約】
【課題】異なる出発地点から共通の目的地点に移動する移動体群の経路を、より簡易な構成で管理することを目的とする。
【解決手段】
経路管理装置1は、移動体2が現在の位置から目的地点の位置に到達するまでに、移動体2が順次進むべき進路を計算した推定結果に報酬関数を適用して、移動体2が目的地点の位置へ到達するための報酬が最大化するように更新し、移動体2が現在の位置から順次進むべき進路の方策を、移動体2ごとに、強化学習モデルを用いて学習する第1学習部11と、移動体2の現在の位置と、第1学習部による移動体2ごとの学習によって得られた移動体2が現在の位置から順次進むべき進路の方策との関係を、教師あり学習モデルを用いて学習する第2学習部12とを備え、現在の位置は、移動空間内の出発地点の位置を含み、移動体2ごとの出発地点の位置は、互いに異なる位置を含む。
【選択図】
図1