IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社インターネットイニシアティブの特許一覧

<>
  • 特許-飛行誘導装置および飛行誘導方法 図1
  • 特許-飛行誘導装置および飛行誘導方法 図2
  • 特許-飛行誘導装置および飛行誘導方法 図3
  • 特許-飛行誘導装置および飛行誘導方法 図4
  • 特許-飛行誘導装置および飛行誘導方法 図5
  • 特許-飛行誘導装置および飛行誘導方法 図6
  • 特許-飛行誘導装置および飛行誘導方法 図7
  • 特許-飛行誘導装置および飛行誘導方法 図8
  • 特許-飛行誘導装置および飛行誘導方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-12-20
(45)【発行日】2023-12-28
(54)【発明の名称】飛行誘導装置および飛行誘導方法
(51)【国際特許分類】
   G05D 1/10 20060101AFI20231221BHJP
【FI】
G05D1/10
【請求項の数】 8
(21)【出願番号】P 2023172461
(22)【出願日】2023-10-04
【審査請求日】2023-10-04
【早期審査対象出願】
(73)【特許権者】
【識別番号】397036309
【氏名又は名称】株式会社インターネットイニシアティブ
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【弁理士】
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【弁理士】
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100195408
【弁理士】
【氏名又は名称】武藤 陽子
(72)【発明者】
【氏名】柿島 純
【審査官】藤崎 詔夫
(56)【参考文献】
【文献】特開2022-024732(JP,A)
【文献】特開2020-098567(JP,A)
【文献】中国特許出願公開第113268081(CN,A)
【文献】特許第7284881(JP,B1)
【文献】特許第7321400(JP,B1)
【文献】特開2019-070997(JP,A)
【文献】特開2010-258575(JP,A)
【文献】特開2023-119142(JP,A)
【文献】特開2018-148376(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G05D 1/00-1/12
(57)【特許請求の範囲】
【請求項1】
異種の無線通信方式の通信エリアが重畳配置された飛行体の移動空間において、初期地点の位置から、指定された第1無線通信方式の通信エリアの位置までの前記飛行体の進路を制御する飛行誘導装置であって、
前記移動空間を複数の空間に分割した単位空間の識別情報と、前記単位空間の位置と、前記単位空間をカバーする通信エリアの無線通信方式を示す情報とを関連付けて記憶するように構成された第1記憶部と、
前記飛行体が現在いる単位空間の位置を、前記飛行体の現在の位置として取得するように構成された第1取得部と、
学習モデルを用いて学習された、前記飛行体が各単位空間の位置から順次進むべき進路の方策に基づいて、前記第1取得部によって前記飛行体の前記現在の位置として取得された現在の単位空間の位置から、前記飛行体が次に進むべき進路を決定するように構成された決定部と、
前記決定部によって決定された、前記飛行体が次に進むべき進路を前記飛行体に指示するように構成された飛行誘導部と
前記飛行体が前記現在の単位空間の位置から前記第1無線通信方式の通信エリアの位置に対応する第1単位空間の位置に到達するまでに、前記飛行体が前記各単位空間の位置から順次進むべき進路を計算した推定結果に報酬関数を適用して、前記飛行体が前記第1単位空間の位置へ到達するための報酬が最大化するように更新し、前記飛行体が前記各単位空間の位置から順次進むべき前記進路の方策を、前記学習モデルを用いて学習するように構成された学習部と、
前記学習部によって学習された、前記進路の方策を記憶するように構成された第2記憶部と
を備え、
前記決定部は、前記第2記憶部から前記進路の方策を読み出して、前記飛行体が次に進むべき進路を決定し、
前記報酬関数は、前記飛行体における前記第1無線通信方式の通信エリアの位置に対応する前記第1単位空間の位置への到達度を変数として含む
ことを特徴とする飛行誘導装置。
【請求項2】
請求項に記載の飛行誘導装置において、
前記学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、
前記学習部は、前記現在の単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記飛行体が前記現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第1推定値を出力し、
前記学習部は、さらに、前記飛行体が次に到達した単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第2推定値を出力し、
前記学習部は、前記第1推定値が、前記第2推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習し、
前記第2記憶部は、学習済みの重みパラメータを記憶する
ことを特徴とする飛行誘導装置。
【請求項3】
請求項1に記載された飛行誘導装置において、
前記第1取得部は、前記異種の無線通信方式のうち前記移動空間を最も広い範囲でカバーする第2無線通信方式のコアネットワークを介して、前記飛行体が現在いる単位空間の位置を取得する
ことを特徴とする飛行誘導装置。
【請求項4】
請求項に記載の飛行誘導装置において、
前記飛行誘導部は、前記第2無線通信方式の前記コアネットワークに含まれるユーザープレーン機能を介して、前記飛行体に前記次に進むべき進路に係る指示を送信する
ことを特徴とする飛行誘導装置。
【請求項5】
異種の無線通信方式の通信エリアが重畳配置された飛行体の移動空間において、初期地点の位置から、指定された第1無線通信方式の通信エリアの位置までの前記飛行体の進路を制御する飛行誘導方法であって、
前記移動空間を複数の空間に分割した単位空間の識別情報と、前記単位空間の位置と、前記単位空間をカバーする通信エリアの無線通信方式を示す情報とを関連付けて第1記憶部に記憶する第1記憶ステップと、
前記飛行体が現在いる単位空間の位置を、前記飛行体の現在の位置として取得する第1取得ステップと、
学習モデルを用いて学習された、前記飛行体が各単位空間の位置から順次進むべき進路の方策に基づいて、前記第1取得ステップで前記飛行体の前記現在の位置として取得された現在の単位空間の位置から、前記飛行体が次に進むべき進路を決定する決定ステップと、
前記決定ステップで決定された、前記飛行体が次に進むべき進路を前記飛行体に指示する飛行誘導ステップと
前記飛行体が前記現在の単位空間の位置から前記第1無線通信方式の通信エリアの位置に対応する第1単位空間の位置に到達するまでに、前記飛行体が前記各単位空間の位置から順次進むべき進路を計算した推定結果に報酬関数を適用して、前記飛行体が前記第1単位空間の位置へ到達するための報酬が最大化するように更新し、前記飛行体が前記各単位空間の位置から順次進むべき前記進路の方策を、前記学習モデルを用いて学習する学習ステップと、
前記学習ステップで学習された、前記進路の方策を第2記憶部に記憶する第2記憶ステップと
を備え、
前記決定ステップは、前記第2記憶部から前記進路の方策を読み出して、前記飛行体が次に進むべき進路を決定し、
前記報酬関数は、前記飛行体における前記第1無線通信方式の通信エリアの位置に対応する前記第1単位空間の位置への到達度を変数として含む
ことを特徴とする飛行誘導方法。
【請求項6】
請求項に記載の飛行誘導方法において、
前記学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、
前記学習ステップは、前記現在の単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記飛行体が前記現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第1推定値を出力し、
前記学習ステップは、さらに、前記飛行体が次に到達した単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第2推定値を出力し、
前記学習ステップは、前記第1推定値が、前記第2推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習し、
前記第2記憶ステップは、学習済みの重みパラメータを前記第2記憶部に記憶する
ことを特徴とする飛行誘導方法。
【請求項7】
請求項に記載された飛行誘導方法において、
前記第1取得ステップは、前記異種の無線通信方式のうち前記移動空間を最も広い範囲でカバーする第2無線通信方式のコアネットワークを介して、前記飛行体が現在いる単位空間の位置を取得する
ことを特徴とする飛行誘導方法。
【請求項8】
請求項に記載の飛行誘導方法において、
前記飛行誘導ステップは、前記第2無線通信方式の前記コアネットワークに含まれるユーザープレーン機能を介して、前記飛行体に前記次に進むべき進路に係る指示を送信する
ことを特徴とする飛行誘導方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、飛行誘導装置および飛行誘導方法に関する。
【背景技術】
【0002】
従来から、ドローンなどの飛行体の飛行誘導制御として、飛行体のGPSなどの位置情報を地上システムで受信し、飛行体の位置情報と地形などの地図データベースとから設定された飛行経路に基づき進むべき飛行ポイントを見出し、そのポイントに進むための制御情報を飛行体へ送信する技術が知られている(特許文献1参照)。
【0003】
近年、ドローンなどの飛行体は、測量、物流、農業や災害調査など、様々な分野に活用されている。それぞれの活用用途で必要となる通信に対応するために、ドローンにおいても多様な無線方式で通信を行うことが求められる。
【0004】
他方において、従来から、無線通信ネットワークの中に、異種の無線通信方式や使用の異なる中継器を混在するヘテロジニアスネットワークが知られている。このような異種の無線通信方式の通信エリアが重畳された移動空間において、ドローンが特定の無線通信方式で通信を行うためには、その無線通信方式の電波が受信可能な通信エリアへドローンを誘導する必要がある。
【0005】
しかし、従来の飛行誘導技術では、ドローンが取得するGPSの位置情報および地形などの地図データベースを用いた場合であっても、異種の無線通信方式の重複する通信エリアの位置を把握していない。そのため、ドローンをランダムな進路で飛行させる制御、または、おおよその位置まで誘導する遠隔飛行制御もしくは自律飛行制御により、ドローンが移動した先の位置で、指定された無線通信方式の電波を実際に受信するか否かで判断することがあった。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2002-211494号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
このように、従来の技術では、より確実に、飛行体を指定された無線通信方式の通信エリアへ飛行誘導することが困難であった。
【0008】
本発明は、上述した課題を解決するためになされたものであり、より確実に、飛行体を指定された無線通信方式の通信エリアへ飛行誘導することを目的とする。
【課題を解決するための手段】
【0009】
上述した課題を解決するために、本発明に係る飛行誘導装置は、異種の無線通信方式の通信エリアが重畳配置された飛行体の移動空間において、初期地点の位置から、指定された第1無線通信方式の通信エリアの位置までの前記飛行体の進路を制御する飛行誘導装置であって、前記移動空間を複数の空間に分割した単位空間の識別情報と、前記単位空間の位置と、前記単位空間をカバーする通信エリアの無線通信方式を示す情報とを関連付けて記憶するように構成された第1記憶部と、前記飛行体が現在いる単位空間の位置を、前記飛行体の現在の位置として取得するように構成された第1取得部と、学習モデルを用いて学習された、前記飛行体が各単位空間の位置から順次進むべき進路の方策に基づいて、前記第1取得部によって前記飛行体の前記現在の位置として取得された現在の単位空間の位置から、前記飛行体が次に進むべき進路を決定するように構成された決定部と、前記決定部によって決定された、前記飛行体が次に進むべき進路を前記飛行体に指示するように構成された飛行誘導部とを備える。
【0010】
また、本発明に係る飛行誘導装置において、さらに、前記飛行体が前記現在の単位空間の位置から前記第1無線通信方式の通信エリアの位置に対応する第1単位空間の位置に到達するまでに、前記飛行体が前記各単位空間の位置から順次進むべき進路を計算した推定結果に報酬関数を適用して、前記飛行体が前記第1単位空間の位置へ到達するための報酬が最大化するように更新し、前記飛行体が前記各単位空間の位置から順次進むべき前記進路の方策を、前記学習モデルを用いて学習するように構成された学習部と、前記学習部によって学習された、前記進路の方策を記憶するように構成された第2記憶部とを備え、前記決定部は、前記第2記憶部から前記進路の方策を読み出して、前記飛行体が次に進むべき進路を決定してもよい。
【0011】
また、本発明に係る飛行誘導装置において、前記報酬関数は、前記飛行体における前記第1無線通信方式の通信エリアの位置に対応する前記第1単位空間の位置への到達度を変数として含んでいてもよい。
【0012】
また、本発明に係る飛行誘導装置において、前記学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、前記学習部は、前記現在の単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記飛行体が前記現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第1推定値を出力し、前記学習部は、さらに、前記飛行体が次に到達した単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第2推定値を出力し、前記学習部は、前記第1推定値が、前記第2推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習し、前記第2記憶部は、学習済みの重みパラメータを記憶してもよい。
【0013】
また、本発明に係る飛行誘導装置において、前記第1取得部は、前記異種の無線通信方式のうち前記移動空間を最も広い範囲でカバーする第2無線通信方式のコアネットワークを介して、前記飛行体が現在いる単位空間の位置を取得してもよい。
【0014】
また、本発明に係る飛行誘導装置において、前記飛行誘導部は、前記第2無線通信方式の前記コアネットワークに含まれるユーザープレーン機能を介して、前記飛行体に前記次に進むべき進路に係る指示を送信してもよい。
【0015】
上述した課題を解決するために、本発明に係る飛行誘導方法は、異種の無線通信方式の通信エリアが重畳配置された飛行体の移動空間において、初期地点の位置から、指定された第1無線通信方式の通信エリアの位置までの前記飛行体の進路を制御する飛行誘導方法であって、前記移動空間を複数の空間に分割した単位空間の識別情報と、前記単位空間の位置と、前記単位空間をカバーする通信エリアの無線通信方式を示す情報とを関連付けて第1記憶部に記憶する第1記憶ステップと、前記飛行体が現在いる単位空間の位置を、前記飛行体の現在の位置として取得する第1取得ステップと、学習モデルを用いて学習された、前記飛行体が各単位空間の位置から順次進むべき進路の方策に基づいて、前記第1取得ステップで前記飛行体の前記現在の位置として取得された現在の単位空間の位置から、前記飛行体が次に進むべき進路を決定する決定ステップと、前記決定ステップで決定された、前記飛行体が次に進むべき進路を前記飛行体に指示する飛行誘導ステップとを備える。
【0016】
また、本発明に係る飛行誘導方法において、さらに、前記飛行体が前記現在の単位空間の位置から前記第1無線通信方式の通信エリアの位置に対応する第1単位空間の位置に到達するまでに、前記飛行体が前記各単位空間の位置から順次進むべき進路を計算した推定結果に報酬関数を適用して、前記飛行体が前記第1単位空間の位置へ到達するための報酬が最大化するように更新し、前記飛行体が前記各単位空間の位置から順次進むべき前記進路の方策を、前記学習モデルを用いて学習する学習ステップと、前記学習ステップで学習された、前記進路の方策を第2記憶部に記憶する第2記憶ステップとを備え、前記決定ステップは、前記第2記憶部から前記進路の方策を読み出して、前記飛行体が次に進むべき進路を決定してもよい。
【0017】
また、本発明に係る飛行誘導方法において、前記報酬関数は、前記飛行体における前記第1無線通信方式の通信エリアの位置に対応する前記第1単位空間の位置への到達度を変数として含んでいてもよい。
【0018】
また、本発明に係る飛行誘導方法において、前記学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、前記学習ステップは、前記現在の単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記飛行体が前記現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第1推定値を出力し、前記学習ステップは、さらに、前記飛行体が次に到達した単位空間の位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第2推定値を出力し、前記学習ステップは、前記第1推定値が、前記第2推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習し、前記第2記憶ステップは、学習済みの重みパラメータを前記第2記憶部に記憶してもよい。
【0019】
また、本発明に係る飛行誘導方法において、前記第1取得ステップは、前記異種の無線通信方式のうち前記移動空間を最も広い範囲でカバーする第2無線通信方式のコアネットワークを介して、前記飛行体が現在いる単位空間の位置を取得してもよい。
【0020】
また、本発明に係る飛行誘導方法において、前記飛行誘導ステップは、前記第2無線通信方式の前記コアネットワークに含まれるユーザープレーン機能を介して、前記飛行体に前記次に進むべき進路に係る指示を送信してもよい。
【発明の効果】
【0021】
本発明によれば、移動空間を複数の空間に分割した単位空間の識別情報と、単位空間の位置と、単位空間をカバーする通信エリアの無線通信方式を示す情報とを関連付けて記憶する第1記憶部を備え、かつ、学習モデルを用いて学習された、飛行体が各単位空間の位置から順次進むべき進路の方策に基づいて、飛行体の現在の位置として取得された現在の単位空間の位置から、飛行体が次に進むべき進路を決定する。そのため、より確実に、飛行体を指定された無線通信方式の通信エリアへ飛行誘導することができる。
【図面の簡単な説明】
【0022】
図1図1は、本発明の実施の形態に係る飛行誘導装置を含む飛行誘導システムの構成を示すブロック図である。
図2図2は、本実施の形態に係る飛行誘導システムの概要を説明するための図である。
図3図3は、本実施の形態に係る第1記憶部のデータ構造の一例を示す図である。
図4図4は、本実施の形態に係る学習部による学習処理を説明するための図である。
図5図5は、本実施の形態に係る学習部の構成を示すブロック図である。
図6図6は、本実施の形態に係る飛行誘導装置のハードウェア構成を示すブロック図である。
図7図7は、本実施の形態に係る飛行誘導装置の学習処理を示すフローチャートである。
図8図8は、本実施の形態に係る飛行誘導装置の学習処理を示すフローチャートである。
図9図9は、本実施の形態に係る飛行誘導装置の飛行誘導処理を示すフローチャートである。
【発明を実施するための形態】
【0023】
以下、本発明の好適な実施の形態について、図1から図9を参照して詳細に説明する。
【0024】
[飛行誘導システムの構成]
まず、本発明の実施の形態に係る飛行誘導装置1を備える飛行誘導システムの概要について説明する。図1は、本発明の実施の形態に係る飛行誘導装置1を備える飛行誘導システムの構成を示すブロック図である。
【0025】
本実施の形態に係る飛行誘導システムは、異種の無線通信方式の通信エリアA1~A5が重畳配置されたヘテロジニアスネットワークで構成される飛行体2の移動空間において、飛行体2が初期地点の位置から指定された無線通信方式(第1無線通信方式)の通信エリアA1~A5に対応する位置までの進路を制御する。図1に示すように、飛行体2が飛行する移動空間は、例えば、パブリック5G無線通信方式の通信エリアA1、ローカル5G無線通信方式の通信エリアA2、パブリックLTE無線通信方式の通信エリアA3、ローカルLTE無線通信方式の通信エリアA4、およびWiFi無線通信方式の通信エリアA5を含む。
【0026】
パブリック5G無線通信方式の通信エリアA1は、通信キャリアによって提供され、より広い通信範囲をカバーする。本実施の形態では、一例として、パブリック5G無線通信方式の通信エリアA1は、移動空間を全てカバーする。したがって、他の無線通信方式の通信エリアA2~A5では、パブリック5G無線通信方式による通信が可能である。
【0027】
ローカル5G無線通信方式の通信エリアA2は、例えば、自治体や事業主によって設けられた通信エリアである。また、本実施の形態では、通信キャリアによって提供されるパブリックLTE無線通信方式の通信エリアA3が、パブリック5G無線通信方式の通信エリアA1に重畳して配置されている。さらに、ホットスポットとして配置されたローカルLTE無線通信方式の通信エリアA4が、通信エリアA1に重畳して配置されている。また、各家庭や学校、オフィスビルなどの単位で用いられる他の通信エリアA1~A4よりも狭いWiFi無線通信方式の通信エリアA5が、少なくとも通信エリアA1に重畳して配置されている。
【0028】
本実施の形態では、通信エリアA1は、複数の基地局30でカバーされるセルを示す。一方、通信エリアA2は、1又は複数の基地局31によってカバーされるセルをいう。他の通信エリアA3~A5についても通信エリアA2と同様の構成とすることができる。なお、移動空間に配置される無線通信方式の通信エリアA1~A5は、パブリック5G無線通信方式、ローカル5G無線通信方式、パブリックLTE無線通信方式、ローカルLTE無線通信方式、WiFi無線通信方式の通信エリアA1~A5に限定されない。また、以下において、通信エリアA1~A5を区別しない場合には、通信エリアAと総称する場合がある。
【0029】
図1に示すように、飛行誘導システムは、飛行誘導装置1、飛行体2、パブリック5G無線通信方式、ローカル5G無線通信方式、パブリックLTE無線通信方式、ローカルLTE無線通信方式、およびWiFi無線通信方式の各々に対応する基地局31~34を備える。さらに、パブリック5G無線通信方式の基地局30は、パブリック5G無線通信方式に対応するコアネットワークのU-plane内のノードであるUPF(User Plane Function)40と接続する。ローカル5G無線通信方式の基地局31は、同無線通信方式に対応するコアネットワークのUPF41と接続する。
【0030】
パブリックLTE無線通信方式の基地局32は、パブリックLTE無線通信方式に対応するコアネットワークのU-plane内のノードであるP-GW(Packet Data Network Gateway)42と接続する。さらに、ローカルLTE無線通信方式に対応する基地局33は、同無線通信方式のコアネットワークのP-GW43と接続する。また、WiFi無線通信方式の基地局34は、いわゆる無線アクセスポイント(Wireless Access Point:WAP)として構成される。
【0031】
また、本実施の形態では、各無線通信方式に対応するコアネットワークが備えるUPF40、41、およびP-GW42、43は飛行誘導装置1との通信を行うための通信インターフェース40a、41a、42a、43aを備える。これに対して、WiFi無線通信方式の基地局34と飛行誘導装置1とは、直接的に接続されている。
【0032】
飛行誘導装置1と各無線通信方式に対応するコアネットワークが備えるUPF40、41、P-GW42、43、およびWiFi無線通信方式の基地局34とは、LANやWANなどのネットワークNWを介して接続されている。また、無線アクセスネットワークを構成する各基地局30~33とコアネットワークのUPF40、41、およびP-GW42、43とは、バックホールリンクなどのネットワークLを介して接続されている。
【0033】
飛行体2は、ドローンなどの無人飛行体であって、遠隔による無線操縦飛行を行うことができる。飛行体2は、プロセッサ、主記憶装置、補助記憶装置、および通信インターフェース等を備える。本実施の形態では、一例として、飛行体2は、パブリック5G無線通信方式、ローカル5G無線通信方式、パブリックLTE無線通信方式、ローカルLTE無線通信方式、およびWiFi無線通信方式の全てに対応する通信インターフェースを備える。しかし、飛行体2は、パブリック5G無線通信方式と、少なくとも他の何れかの無線通信方式に対応する通信インターフェースを備えていればよい。例えば、飛行体2の利用用途に応じて必要となる特定の無線通信方式の通信インターフェースを備えることができる。飛行体2は、通信インターフェースを介して、飛行誘導装置1と通信を行うことができる。
【0034】
飛行体2は、SIM20を備え、SIM20のIMSI(International Mobile Subscriber Identity)によって一意に識別される。また、飛行体2は、IPアドレスを有するIoT端末としても構成される。
【0035】
さらに、飛行体2は、バッテリ、モータ、フライトコントローラ、GPS受信機21を含むセンサ、カメラ等を備える。飛行体2はこれらの構成を所定の形状のフレームに搭載することができる。飛行体2は、GPS受信機21で受信した現在の位置情報をパブリック5G無線通信方式のコアネットワークが備えるUPF40を介して飛行誘導装置1に送信する。なお、GPS受信機21にはアンテナが内蔵されている。
【0036】
図2は、飛行誘導システムが飛行体2の進路を誘導する移動空間を模式的に示した図である。図2に示すように、パブリック5G無線通信方式の通信エリアA1は、飛行体2の移動空間の全体をカバーする。他の無線通信方式の通信エリアA2~A5は、通信エリアA1に重畳して配置されている。移動空間は、複数の空間に分割した単位空間で構成された3次元マトリックス状の空間である。
【0037】
また、移動空間を構成する各単位空間は同一の容積を有する。さらに、各単位空間はノードIDを有し、各単位空間は1つの位置(x,y,z)で表される。位置情報は、緯度、経度、高度からなる3次元のGPS位置座標を用いることができる。例えば、単位空間の位置として、その単位空間の中心位置などの代表値を用いることができる。図2の例では、初期地点Sの単位空間のノードIDは、#1,9であり、目的地点Gの単位空間のノードIDは、#9,3である。
【0038】
また、図2に示すように、飛行体2は、各単位空間をウェイポイントとして初期地点Sの位置に対応する単位空間の位置から、指定された種類の無線通信方式で通信可能な目的地点Gの単位空間まで移動する。飛行体2の目的地点Gの位置は、飛行体2において事前に指定された無線通信方式に応じて、飛行誘導装置1が後述の第1記憶部10に記憶されている移動空間のマップ(図2)を参照して設定する。飛行体2で指定された無線通信方式とは、例えば、移動空間内の複数の種類の無線通信方式のうち、飛行体2において優先して使用する設定がなされている特定の無線通信方式である。また、飛行誘導装置1は、指定された無線通信方式の通信エリアAの位置を移動空間内において特定し、目的地点Gとして設定する。飛行体2は、飛行誘導装置1によって設定された目的地点Gの位置に誘導されることで、指定された無線通信方式で通信することが可能となる。
【0039】
例えば、図2に示す飛行体2においては、移動空間内で優先利用する無線通信方式の種類として、ローカルLTE無線通信方式が事前に指定されている。したがって、移動空間内のローカルLTE無線通信方式の通信エリアA4に含まれる単位空間の位置が目的地点Gとして設定されている。なお、飛行誘導装置1は、通信エリアA4に含まれる複数の単位空間のうちいずれかの単位空間の位置を任意に選択し、目的地点Gとして設定することができる。
【0040】
飛行誘導装置1は、単位空間ごとに、飛行体2が進む方向に対して矢印に示すような進路として、所定の方向への移動を指示する。飛行誘導装置1が指示する進路は、設計に応じて様々な進路、すなわち移動方向を含むことができる。図2においては、移動空間を2次元平面で説明しているが、飛行体2の進路は3次元の進路とすることができる。飛行誘導装置1からの進路の指示に応じて目的地点Gの単位空間に到達した飛行体2は、指定された無線通信方式によって通信を開始することができる。
【0041】
[飛行誘導装置の機能ブロック]
図1に示すように、飛行誘導装置1は、第1記憶部10、第1取得部11、学習部12、学習モデル記憶部(第2記憶部)13、決定部14、および飛行誘導部15を備える。飛行誘導装置1は、飛行体2から受信される現在のGPS位置に基づいて、飛行体2が現在いる単位空間から次に進むべき進路を決定し、決定された進路を飛行体2に指示する。
【0042】
第1記憶部10は、移動空間を複数の空間に分割した単位空間の識別情報と、単位空間の位置と、単位空間をカバーする通信エリアAの無線通信方式を示す情報とを関連付けて記憶する。図3は、第1記憶部10のデータ構造を示すテーブルT1を示す。テーブルT1において、各単位空間のノードIDに、単位空間をカバーする通信エリアAの無線通信方式の種類と、単位空間の位置座標(x,y,z)とが関連付けられている。第1記憶部10は、複数の単位空間のノードIDのすべてに対する情報を記憶することができる。
【0043】
第1取得部11は、飛行体2が現在いる単位空間の位置を、飛行体2の現在の位置として取得する。具体的には、第1取得部11は、異種の無線通信方式のうち移動空間の最も広い範囲をカバーするパブリック5G無線通信方式(第2無線通信方式)のコアネットワークが備えるUPF40を介して、飛行体2が現在いる単位空間の位置を取得する。また、本実施の形態では、第1取得部11は、設定された時刻ステップごとの飛行体2の現在の位置を取得する。また、第1取得部11は、飛行体2の現在の単位空間の位置を飛行体2のGPS位置に基づいて取得する際に、第1記憶部10を参照して取得することができる。
【0044】
さらに具体的には、第1取得部11は、飛行体2のGPS受信機21によって受信されたGPS位置に対応する単位空間の位置を、飛行体2の現在の位置として取得することができる。なお、単位空間において複数の位置座標が含まれる場合がある。そのような場合には、第1取得部11は、飛行体2のGPS受信機21によって受信されたGPS位置に最も距離が近い単位空間の位置を、飛行体2の現在の位置として取得することができる。
【0045】
学習部12は、飛行体2が初期地点の単位空間の位置から目的地点の単位空間(第1単位空間)の位置に到達するまでに、各単位空間の位置から順次進むべき進路を計算した推定結果に報酬関数を適用して、飛行体2が目的地点の単位空間の位置へ到達するための報酬が最大化するように更新し、飛行体2が各単位空間から順次進むべき進路の方策を、学習モデルを用いて学習する。
【0046】
本実施の形態では、飛行体2が各単位空間の位置から順次進むべき進路の方策として、進行方向に対する所定のn(nは正の整数)個の方向への移動に係る行動aを採用する場合を例示する。また、進行方向は、飛行体2が直前にいた単位空間の位置に基づいた方向である。
【0047】
学習部12は、図4に示すような入力層、隠れ層、および出力層を含むニューラルネットワークモデルを学習モデルとして用いる。また、ニューラルネットワークモデルとして、飛行体2の位置である状態sを受取り、全ての行動価値Q(s,a)、Q(s,a)、Q(s,a)、・・・、Q(s,an-1)、Q(s,a)を出力するニューラルネットワークであるDeep Q-Network(DQN)を採用する。
【0048】
より具体的には、学習部12は、現在の飛行体2の位置を示す、現在の単位空間の位置をニューラルネットワークモデルの入力として与え、ニューラルネットワークモデルの演算を行い、飛行体2が現在の単位空間の位置から次に進むべき進路として、n個の方向への各移動に係る行動aをとった場合に得られる将来の報酬の累積値の期待値を表す行動価値関数の第1推定値Q1を出力する。
【0049】
報酬とは、飛行体2の現在の位置を示す状態s、飛行体2が所定の方向に移動する行動a、および飛行体2の次の位置、すなわち次の状態s’の報酬関数r=r(s,a,s’)で与えられる。本実施の形態では、報酬関数は、飛行体2の目的地点に係る単位空間の位置への到達度を変数として含む。その他にも、高層ビルや鉄塔などの障害物がある空間に対応する単位空間の位置への到達度を変数として含むことができる。例えば、飛行体2の所定の方向への移動に係る行動によって、目的地点により近づく場合や、目的地点に最短距離で到達する場合には、スカラー量である報酬が、より大きい値として設定される。
【0050】
一方、飛行体2が目的地点に遠ざかる、あるいは、障害物が存在する単位空間に到達する場合には、マイナスの報酬値(例えば、r=-1)が与えられる設計とすることができる。このように、障害物が存在する単位空間の報酬をマイナスの値として設定することで、飛行体2がこれらの地点を避けて目的地点に到達することができる。
【0051】
さらに、学習部12は、飛行体2が次に到達した単位空間の位置をニューラルネットワークモデルの入力として与え、ニューラルネットワークモデルの演算を行い、行動価値関数の第2推定値Q2を出力する。学習部12は、第1推定値Q1が、第2推定値Q2から計算される目標値となるように、ニューラルネットワークモデルの重みパラメータを学習する。
【0052】
ニューラルネットワークモデルの重みパラメータをθとし、行動価値関数をQ(s,a;θ)と表すと、学習の最小化損失関数は、次の式(1)で与えられる。
L(θ)=1/2{r+γmaxa’Q(s’,a’;θ)-Q(s,a;θ)}
・・・(1)
【0053】
上式(1)において、rは、報酬(即時報酬)であり、γは割引率を示す。Q(s,a;θ)は、第1推定値Q1に対応し、Q(s’,a’;θ)は、1ステップ進んだ状態s’での行動価値すなわち第2推定値Q2に対応する。目標値は、r+γmaxa’Q(s’,a’;θ)で表される。
【0054】
学習部12は、上式(1)で与えられる損失関数の勾配を誤差逆伝搬することでニューラルネットワークモデルの重みパラメータを更新することができる。
【0055】
さらに具体的には、学習部12は、図5に示すように、メインQN121およびターゲットQN123の2つのニューラルネットワークを用いるFixed Target Q-Networkを採用することができる。メインQN121は最適な行動を選択して行動価値関数Qを更新する。一方、ターゲットQN123は、行動の結果の次の状態s’でとるべき行動a’の価値を推定および評価する。メインQN121およびターゲットQN123は、同一のレイヤ構造のニューラルネットワークを有するが、メインQN121のパラメータは「θ」であり、ターゲットQN123のパラメータは「θ」で与えられる。
【0056】
メインQN121は、環境120から飛行体2の現在の位置を状態sとして受け取る。環境120は、飛行体2が置かれた移動空間のシステムであり、この環境120下で、飛行体2は、所定の方向への移動に係る行動aをとることで別の単位空間へ移動し、次の状態s’に遷移すると同時に、環境120から報酬rを獲得する。
【0057】
学習部12は、飛行体2の現在の位置に係る状態sをメインQN121に入力し、行動価値関数Q(s,a;θ)を求める。学習部12は、例えば、ε-greedy法を用いて行動aを計算し、あるいは、現時点での最適な行動argmaxQ(s,a;θ)を求める。環境120において、飛行体2は、現時点での最適な進路に係る行動argmaxQ(s,a;θ)を行う。環境120は、飛行体2が行動argmaxQ(s,a;θ)を行った結果、移動した先の単位空間の位置を次の状態s’として観測し、報酬rを出力する。経験データ124は、環境120から出力された経験(s,a,r,s’)を保存する。
【0058】
学習部12は、DQN損失算出122において、損失関数Lを求め、損失関数Lの勾配でメインQN121の重みを更新する。
【0059】
学習部12は、メインQN121の重みを定期的にターゲットQN123にコピーし同期を行う。ターゲットQN123の同期は、メインQN121の重みの更新頻度よりも低い頻度で行われる。学習部12は、経験データ124から経験を取り出して、過去の状態をターゲットQN123に入力し、推定値maxa’Q(s’,a’;θ)を出力させる。学習部12は、ターゲットQN123が出力した推定値maxa’Q(s’,a’;θ)に基づく目標値r+γmaxa’Q(s’,a’;θ)を用いて、DQN損失算出122でメインQN121の重みの学習を行う。
【0060】
図1に戻り、学習モデル記憶部13は、学習済みのニューラルネットワークモデルの重みを記憶する。
【0061】
決定部14は、学習モデルを用いて学習された、飛行体2が各単位空間の位置から順次進むべき進路の方策に基づいて、第1取得部11によって取得された現在の単位空間の位置から、飛行体2が次に進むべき進路を決定する。決定部14は、学習モデル記憶部13に記憶されている学習済みの重みを読み出して、現在の単位空間の位置を学習済みのニューラルネットワークモデルに入力として与え、学習済みのニューラルネットワークモデルの演算を行い、次に進むべき進路として、飛行体2の進行方向に対する所定のn方向への移動に係る行動のうち最適な行動を決定する。
【0062】
飛行誘導部15は、決定部14によって決定された、飛行体2が次に進むべき進路を飛行体2に指示する。具体的には、飛行誘導部15は、パブリック5G無線通信方式のコアネットワークに含まれるUPF40を介して、飛行体2に次に進むべき進路に係る指示を送信する。飛行誘導部15は、飛行体2が目的地点の単位空間に到達するまで、進路の指示を行う。なお、飛行誘導部15は、飛行体2が存在する単位空間において電波が受信可能なパブリック5G無線通信方式以外の無線通信方式によって進路に係る指示を送信してもよい。
【0063】
[飛行誘導装置のハードウェア構成]
次に、上述した機能を有する飛行誘導装置1を実現するハードウェア構成の一例について、図5を用いて説明する。
【0064】
図5に示すように、飛行誘導装置1は、例えば、バス101を介して接続されるプロセッサ102、主記憶装置103、通信インターフェース104、補助記憶装置105、入出力I/O106を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。
【0065】
主記憶装置103には、プロセッサ102が各種制御や演算を行うためのプログラムが予め格納されている。プロセッサ102と主記憶装置103とによって、図1に示した第1取得部11、学習部12、決定部14、飛行誘導部15など飛行誘導装置1の各機能が実現される。
【0066】
通信インターフェース104は、飛行誘導装置1と各種外部電子機器との間をネットワーク接続するためのインターフェース回路である。
【0067】
補助記憶装置105は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。補助記憶装置105には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。
【0068】
補助記憶装置105は、飛行誘導装置1が実行する飛行誘導プログラムを格納するプログラム格納領域を有する。また、補助記憶装置105は、ニューラルネットワークモデルの学習を行うための学習プログラムを格納する領域を有する。補助記憶装置105によって、図1で説明した第1記憶部10および学習モデル記憶部13が実現される。また、補助記憶装置105は、飛行体2の進路を誘導する際の初期地点および目的地点を記憶する領域を有する。また、補助記憶装置105は、移動空間の位置座標および単位空間の位置座標を記憶する領域を有する。さらに、補助記憶装置105は、飛行体2の識別情報を記憶する領域を有する。さらには、例えば、上述したデータやプログラムなどをバックアップするためのバックアップ領域などを有していてもよい。
【0069】
入出力I/O106は、外部機器からの信号を入力したり、外部機器へ信号を出力したりする入出力装置である。
【0070】
[飛行誘導装置の動作]
次に、上述した構成を有する飛行誘導装置1の動作を、図7から図9のフローチャートを参照して説明する。
【0071】
はじめに、図7を参照して、飛行誘導装置1による学習処理を説明する。まず、飛行誘導装置1は、飛行体2の初期地点および目的地点の設定情報を取得する(ステップS1)。例えば、飛行誘導装置1は、飛行体2において事前に設定されている、指定された無線通信方式の種類の通信エリアAの位置を移動空間内で特定し、目的地点とする。
【0072】
より具体的には、飛行誘導装置1は、ステップS1において、第1記憶部10を参照し、指定の無線通信方式の通信エリアAに含まれる単位空間のうちから選択した単位空間の位置を目的地点として設定することができる。また、初期地点については、飛行誘導装置1は、飛行体2のGPS受信機21で受信された現在のGPS位置を受信し、第1記憶部10を参照して、GPS位置に対応した単位空間の位置を初期地点として設定することができる。
【0073】
次に、第1取得部11は、飛行体2の現在の位置として、飛行体2が現在いる単位空間の位置を取得する(ステップS2)。具体的には、第1取得部11は、パブリック5G無線通信方式の基地局30およびコアネットワークのUPF40を介して受信した飛行体2のGPS位置に基づいて、時刻ステップごとに飛行体2が現在いる単位空間の位置を取得する。さらに、第1取得部11は、第1記憶部10を参照し、飛行体2のGPS受信機21で受信された現在のGPS位置に対応する単位空間の位置を飛行体2の現在の位置として取得することができる。
【0074】
次に、学習部12は、ステップS2で取得された飛行体2の現在の状態である、飛行体2が現在いる単位空間の位置をニューラルネットワークモデルに入力として与え、ニューラルネットワークモデルの演算を行って、飛行体2が現在の単位空間の位置から次に進むべき進路として、進行方向に対する所定の方向への移動に係る各々の行動をとった場合に得られる将来の報酬の累積値の期待値を表す行動価値関数の第1推定値Q1を出力する(ステップS3)。
【0075】
さらに、学習部12は、飛行体2が次に到達した単位空間の位置をニューラルネットワークモデルの入力として与え、ニューラルネットワークモデルの演算を行い、行動価値関数の第2推定値Q2を出力する(ステップS5)。飛行体2が次に到達した単位空間の位置は、時刻ステップごとに第1取得部11が取得する飛行体2のGPS位置に基づいて判定される。
【0076】
次に、学習部12は、第2推定値Q2から目標値を算出する(ステップS6)。続いて、学習部12は、第1推定値Q1が、第2推定値Q2から計算される目標値となるように、ニューラルネットワークモデルの重みパラメータを学習する(ステップS7)。具体的には、学習部12は、上式(1)の損失関数を最小化するようにニューラルネットワークモデルの重みパラメータを更新する。
【0077】
学習モデル記憶部13は、ステップS7で得られた学習済みの重みを記憶する(ステップS8)。
【0078】
次に、図8を参照して、メインQN121およびターゲットQN123の2つのニューラルネットワークを用いるFixed Target Q-Networkを採用した場合の、学習部12による学習処理を説明する。
【0079】
ステップS1からステップS3までの処理は、図7で説明した学習処理のステップと同様である。その後、学習部12は、メインQN121にステップS3で取得された、飛行体2が現在いる単位空間の位置を入力として与え、ニューラルネットワークの演算を行って、行動価値関数Qを出力し、次に進むべき進路aを計算する(ステップS120)。
【0080】
次に、学習部12は、ステップS120で求めた進路aで飛行体2の行動を環境120に返し、次の飛行体2の状態s’である、飛行体2が進んだ先の単位空間の位置および報酬rを得る(ステップS121)。
【0081】
学習部12は、ステップS121で得られた経験(s,a,r,a’)を経験データ124に保存する(ステップS122)。次に、学習部12は、DQN損失算出122において、損失関数Lを求め、損失関数Lの勾配でメインQN121の重みを更新する(ステップS123)。学習部12は、ステップS120からステップS123までの処理を設定された回数繰り返す。
【0082】
その後、学習部12は、メインQN121の重みを定期的にターゲットQN123にコピーし同期を行う(ステップS124)。ターゲットQN123の同期は、メインQN121の重みの更新頻度よりも低い頻度で行われる。次に、学習部12は、経験データ124から経験を取り出して、過去の状態をターゲットQN123に入力し、推定値maxa’Q(s’,a’;θ)を出力させる(ステップS126)。
【0083】
次に、学習部12は、ターゲットQN123が出力した推定値maxa’Q(s’,a’;θ)に基づく目標値r+γmaxa’Q(s’,a’;θ)を計算する(ステップS127)。次に、学習部12は、ステップS127で算出された目標値を用いて、DQN損失算出122で損失関数Lを計算する(ステップS128)。次に、学習部12は、損失関数Lで与えられる損失を最小化するようにメインQN121の重みの学習を行う(ステップS129)。その後、学習済みの重みを学習モデル記憶部13に記憶する(ステップS8)。
【0084】
次に、図9を参照し、飛行誘導装置1による飛行誘導処理を説明する。まず、決定部14は、学習モデル記憶部13から学習済みのニューラルネットワークモデルをロードする(ステップS40)。本実施の形態では、決定部14は、学習済みのDQNをロードする。次に、第1取得部11は、飛行体2の現在の位置である、飛行体2が現在いる単位空間の位置を取得する(ステップS41)。
【0085】
次に、決定部14は、ステップS40でロードした学習済みのニューラルネットワークモデル、すなわち飛行体2が各単位空間の位置から順次進むべき進路の方策に基づいて飛行体2が現在の単位空間の位置から次に進むべき進路を決定する(ステップS42)。具体的には、決定部14は、学習済みのニューラルネットワークモデルにステップS41で取得した現在の単位空間の位置を入力として与え、学習済みのニューラルネットワークモデルの演算を行って、飛行体2が次に進むべき進路である、進行方向に対する所定のn個の移動方向のうちのいずれかの進路を決定する。決定部14は、学習済みのニューラルネットワークモデルから出力されるn個の行動の各々の行動価値関数Qのうち最も確率値が高い行動を選択し、進路として決定する。
【0086】
その後、飛行誘導部15は、ステップS42で決定した飛行体2の進路を飛行体2に指示する(ステップS43)。より具体的には、飛行誘導部15は、パブリック5G無線通信方式のコアネットワークが備えるUPF40および基地局30を介して、飛行体2に決定された進路を送信する。あるいは、パブリック5G無線通信方式以外でも飛行体2が現在通信可能な無線通信方式のコアネットワークを介して、進路の指示を送信することができる。進路の指示を受けると、飛行体2が備えるフライトコントローラは進路の指示にしたがって、モータを制御し、飛行体2のプロペラの回転数などの制御指令を出力することで、次の単位空間に移動することができる。飛行体2が次の単位空間に移動したか否かは、飛行体2からのGPS位置と第1記憶部10に記憶されている単位空間の位置とを照らし合わせることで判定される。
【0087】
次に、飛行体2が目的地点の無線通信方式の通信エリアAに到達した場合には、処理は終了する(ステップS44:YES)。一方、飛行体2が目的地点に到達していない場合には(ステップS44:NO)、ステップS41からステップS43までの処理を繰り返す。例えば、飛行体2が進路の誘導指示にしたがって移動した先の単位空間の位置が、目的地点として設定されている無線通信方式の通信エリアAにおける単位空間の位置と一致するか否かに基づいて、目的地点への到達の有無を判定することができる。
【0088】
以上説明したように、本実施の形態に係る飛行誘導装置1によれば、移動空間を複数の空間に分割した単位空間の識別情報と、単位空間の位置と、単位空間をカバーする通信エリアAの無線通信方式を示す情報とを関連付けて記憶する第1記憶部10を備える。さらに、飛行体2における現在の単位空間の位置に基づいて、学習済みのニューラルネットワークによって獲得された進路の方策に基づいて、次に進むべき進路を決定する。そのため、より確実に、飛行体を指定された無線通信方式の通信エリアAへ飛行誘導することができる。さらにその結果として、飛行体2のより確実な通信が確保される。
【0089】
また、本実施の形態に係る飛行誘導装置1によれば、学習モデルとしてDQNを採用するため、飛行体2の現在の位置に基づいて次に進むべき進路が決定される。そのため、より少ないセンサデータにより飛行誘導処理を実現することができる。
【0090】
なお、説明した実施の形態では、各無線通信方式の通信エリアAが、移動空間内に1つずつ配置されている場合について説明した。しかし、同一の無線通信方式の通信エリアAは、移動空間内の互いに離れた位置に複数存在することができる。この場合、飛行誘導装置1は、飛行誘導を開始する際の目的地点の設定において、同一の無線通信方式に係る複数の異なる位置に配置された通信エリアAのうち、飛行体2の初期地点の位置から最も近い距離にある通信エリアAに対応する単位空間の位置を目的地点として設定することができる。あるいは、飛行体2の飛行計画に沿った、初期地点から最も距離が近い通信エリアAの単位空間の位置を目的地点として設定することができる。
【0091】
以上、本発明の飛行誘導装置および飛行誘導方法における実施の形態について説明したが、本発明は説明した実施の形態に限定されるものではなく、請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。
【符号の説明】
【0092】
1…飛行誘導装置、10…第1記憶部、11…第1取得部、12…学習部、13…学習モデル記憶部、14…決定部、15…飛行誘導部、2…飛行体、20…SIM、21…GPS受信機、30~34…基地局、40、41…UPF、42、43…P-GW、101…バス、102…プロセッサ、103…主記憶装置、40a~43a、104…通信インターフェース、105…補助記憶装置、106…入出力I/O、120…環境、121…メインQN、122…DQN損失算出、123…ターゲットQN、124…経験データ、A、A1~A5…通信エリア、L、NW…ネットワーク。
【要約】
【課題】より確実に、飛行体を指定された無線通信方式の通信エリアへ飛行誘導することを目的とする。
【解決手段】
異種の無線通信方式の通信エリアA1~A5が重畳配置された飛行体2の移動空間において、初期地点の位置から指定された第1無線通信方式の通信エリアの位置までの飛行体2の進路を制御する飛行誘導装置1であって、移動空間を複数の空間に分割した単位空間の識別情報と、単位空間の位置と、単位空間をカバーする通信エリアの無線通信方式を示す情報とを関連付けて記憶する第1記憶部10と、飛行体2が現在いる単位空間の位置を飛行体2の現在の位置として取得する第1取得部11と、学習モデルを用いて学習された、飛行体2が各単位空間の位置から順次進むべき進路の方策に基づいて、第1取得部11によって取得された現在の単位空間の位置から、飛行体2が次に進むべき進路を決定する決定部14と、決定された飛行体2が次に進むべき進路を飛行体2に指示する飛行誘導部15とを備える。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7
図8
図9