(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-11-07
(45)【発行日】2023-11-16
(54)【発明の名称】進路制御装置および進路制御方法
(51)【国際特許分類】
G08G 1/09 20060101AFI20231108BHJP
G01C 21/26 20060101ALI20231108BHJP
【FI】
G08G1/09 V
G01C21/26 A
(21)【出願番号】P 2023154067
(22)【出願日】2023-09-21
【審査請求日】2023-09-21
【早期審査対象出願】
(73)【特許権者】
【識別番号】397036309
【氏名又は名称】株式会社インターネットイニシアティブ
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100195408
【氏名又は名称】武藤 陽子
(72)【発明者】
【氏名】柿島 純
【審査官】高島 壮基
(56)【参考文献】
【文献】特許第7321400(JP,B1)
【文献】特開2019-070997(JP,A)
【文献】特開2010-258575(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
B60W 30/00-60/00
G01C 21/00-21/36
G08G 1/00-99/00
G09B 29/00
H04W 4/00-99/00
(57)【特許請求の範囲】
【請求項1】
複数の通信エリアで規定される車両の移動空間において、初期地点の通信エリアの位置から目的地点の通信エリアの位置までの前記車両の進路を制御する進路制御装置であって、
通信エリアを跨いだ際に送信される前記車両からの位置登録信号に関連付けられている該通信エリアの位置を、前記車両の現在の位置として取得するように構成された第1取得部と、
学習モデルを用いて学習された、前記車両が各通信エリアの位置から順次進むべき進路の方策に基づいて、前記第1取得部によって前記車両の前記現在の位置として取得された現在の通信エリアの位置から、前記車両が次に進むべき進路を決定するように構成された決定部と、
前記決定部によって決定された、前記車両が次に進むべき進路を所定の通信規格のコアネットワークを介して前記車両に指示するように構成された進路制御部と
を備える進路制御装置。
【請求項2】
請求項1に記載の進路制御装置において、
さらに、前記車両が前記初期地点の通信エリアの位置から前記目的地点の通信エリアの位置に到達するまでに、前記車両が前記各通信エリアの位置から順次進むべき進路を計算した推定結果に報酬関数を適用して、前記車両が前記目的地点の通信エリアの位置へ到達するための報酬が最大化するように更新し、前記車両が前記各通信エリアの位置から順次進むべき前記進路の方策を、前記学習モデルを用いて学習するように構成された学習部と、
前記学習部によって学習された、前記進路の方策を記憶するように構成された記憶部と
を備え、
前記決定部は、前記記憶部から前記進路の方策を読み出して、前記車両が次に進むべき進路を決定する
ことを特徴とする進路制御装置。
【請求項3】
請求項2に記載の進路制御装置において、
さらに、前記移動空間において渋滞が発生している領域に対応する通信エリアの位置を取得するように構成された第2取得部と、
前記報酬関数は、前記車両の前記目的地点に係る通信エリアの位置への到達度、および前記渋滞が発生している領域に対応する通信エリアの位置への前記車両の到達度を変数として含む
ことを特徴とする進路制御装置。
【請求項4】
請求項3に記載の進路制御装置において、
前記学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、
前記学習部は、前記現在の通信エリアの位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記車両が前記現在の通信エリアの位置から次に進むべき進路として、右折、左折、および直進を含む各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第1推定値を出力し、
前記学習部は、さらに、前記車両が次に到達した通信エリアの位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第2推定値を出力し、
前記学習部は、前記第1推定値が、前記第2推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習し、
前記記憶部は、学習済みの重みパラメータを記憶する
ことを特徴とする進路制御装置。
【請求項5】
請求項1から4のいずれか1項に記載された進路制御装置において、
前記第1取得部は、前記コアネットワークに含まれる、
統合データリポジトリから、前記車両の前記現在の通信エリアの位置を取得し、
前記進路制御部は、前記コアネットワークに含まれるユーザープレーン機能を介して、前記車両に前記次に進むべき進路に係る指示を送信する
ことを特徴とする進路制御装置。
【請求項6】
複数の通信エリアで規定される車両の移動空間において、初期地点の通信エリアの位置から目的地点の通信エリアの位置までの前記車両の進路を制御するための進路制御方法であって、
通信エリアを跨いだ際に送信される前記車両からの位置登録信号に関連付けられている該通信エリアの位置を、前記車両の現在の位置として取得する第1取得ステップと、
学習モデルを用いて学習された、前記車両が各通信エリアの位置から順次進むべき進路の方策に基づいて、前記第1取得ステップで前記車両の前記現在の位置として取得された現在の通信エリアの位置から、前記車両が次に進むべき進路を決定する決定ステップと、
前記決定ステップで決定された、前記車両が次に進むべき進路を所定の通信規格のコアネットワークを介して前記車両に指示する進路制御ステップと
を備える進路制御方法。
【請求項7】
請求項6に記載の進路制御方法において、
さらに、前記車両が前記初期地点の通信エリアの位置から前記目的地点の通信エリアの位置に到達するまでに、前記車両が前記各通信エリアの位置から順次進むべき進路を計算した推定結果に報酬関数を適用して、前記車両が前記目的地点の通信エリアの位置へ到達するための報酬が最大化するように更新し、前記車両が前記各通信エリアの位置から順次進むべき前記進路の方策を、前記学習モデルを用いて学習するように構成された学習ステップと、
前記学習ステップで学習された、前記進路の方策を記憶部に記憶する記憶ステップと
を備え、
前記決定ステップは、前記記憶部から前記進路の方策を読み出して、前記車両が次に進むべき進路を決定する
ことを特徴とする進路制御方法。
【請求項8】
請求項7に記載の進路制御方法において、
さらに、前記移動空間において渋滞が発生している領域に対応する通信エリアの位置を取得するように構成された第2取得ステップと、
前記報酬関数は、前記車両の前記目的地点に係る通信エリアの位置への到達度、および前記渋滞が発生している領域に対応する通信エリアの位置への前記車両の到達度を変数として含む
ことを特徴とする進路制御方法。
【請求項9】
請求項8に記載の進路制御方法において、
前記学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、
前記学習ステップは、前記現在の通信エリアの位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記車両が前記現在の通信エリアから次に進むべき進路として、右折、左折、および直進を含む各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第1推定値を出力し、
前記学習ステップは、さらに、前記車両が次に到達した通信エリアの位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第2推定値を出力し、
前記学習ステップは、前記第1推定値が、前記第2推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習し、
前記記憶ステップは、学習済みの重みパラメータを前記記憶部に記憶する
ことを特徴とする進路制御方法。
【請求項10】
請求項6から9のいずれか1項に記載された進路制御方法において、
前記第1取得ステップは、前記コアネットワークに含まれる、
統合データリポジトリから、前記車両の前記現在の通信エリアの位置を取得し、
前記進路制御ステップは、前記コアネットワークに含まれるユーザープレーン機能を介して、前記車両に前記次に進むべき進路に係る指示を送信する
ことを特徴とする進路制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、進路制御装置および進路制御方法に関する。
【背景技術】
【0002】
従来から、車両の自動運転における自車位置推定技術として、GPSなどの測位衛星からの信号および、測位衛星からの信号を補完するために車両の挙動を検知する6軸慣性センサ(Inertial Measurement Unit:IMU)や、タイヤの回転数を計測して車両が進んだ距離を計測する走行距離計(Distance Measuring Instrument:DMI)が知られている。
【0003】
車両がトンネル内を走行している場合など通信状態が悪い状況では測位衛星からのGPSの信号が受信できない場合がある。しかし、GPSを補完するために用いられているIMUおよびDMIにおいても、状況によっては自車位置推定精度が十分でない場合がある。例えば、IMUを用いた自車位置推定では誤差が蓄積しやすい欠点がある。DMIを用いた自車位置推定では、車速や車両の向きが変わるときに、計測精度が低下する場合がある。
【0004】
このように、従来の自動運転における自車位置推定では、GPSの測位衛星からの電波の受信状況が悪い場合に、自車位置推定の精度が低下し、自車両の自動運転ECUによって進路や経路の選択を正確に行うことが困難な場合があった。
【0005】
そこで、特許文献1は、GPSおよび地図情報を組み合わせて自動運転の制御を行う場合に、通信遅延が生じた際には、車両がいる地域情報を収集して現在状況地図情報を作成し、設定された目的地点と現在状況地図情報とに基づいて、目的地点までの車両の走行領域の予測演算を行う技術を開示している。
【0006】
しかし、特許文献1が開示する技術では、車両の速度や周辺情報などの様々な情報を収集し地図を生成して車両の走行領域の予測演算を行うため、予測演算が複雑化し、演算負荷が多大となる。
【先行技術文献】
【特許文献】
【0007】
【発明の概要】
【発明が解決しようとする課題】
【0008】
このように、従来の技術では、より簡易な構成により遠隔で車両の進路制御を行うことができなかった。
【0009】
本発明は、上述した課題を解決するためになされたものであり、より簡易な構成により遠隔で車両の進路制御を行うことを目的とする。
【課題を解決するための手段】
【0010】
上述した課題を解決するために、本発明に係る進路制御装置は、複数の通信エリアで規定される車両の移動空間において、初期地点の通信エリアの位置から目的地点の通信エリアの位置までの前記車両の進路を制御する進路制御装置であって、通信エリアを跨いだ際に送信される、前記車両からの位置登録信号に関連付けられている該通信エリアの位置を、前記車両の現在の位置として取得するように構成された第1取得部と、学習モデルを用いて学習された、前記車両が各通信エリアの位置から順次進むべき進路の方策に基づいて、前記第1取得部によって前記車両の前記現在の位置として取得された現在の通信エリアの位置から、前記車両が次に進むべき進路を決定するように構成された決定部と、前記決定部によって決定された、前記車両が次に進むべき進路を所定の通信規格のコアネットワークを介して前記車両に指示するように構成された進路制御部とを備える。
【0011】
また、本発明に係る進路制御装置において、ささらに、前記車両が前記初期地点の通信エリアの位置から前記目的地点の通信エリアの位置に到達するまでに、前記車両が前記各通信エリアの位置から順次進むべき進路を計算した推定結果に報酬関数を適用して、前記車両が前記目的地点の通信エリアの位置へ到達するための報酬が最大化するように更新し、前記車両が前記各通信エリアの位置から順次進むべき前記進路の方策を、前記学習モデルを用いて学習するように構成された学習部と、前記学習部によって学習された、前記進路の方策を記憶するように構成された記憶部とを備え、前記決定部は、前記記憶部から前記進路の方策を読み出して、前記車両が次に進むべき進路を決定してもよい。
【0012】
上述した課題を解決するために、本発明に係る進路制御装置は、さらに、前記移動空間において渋滞が発生している領域に対応する通信エリアの位置を取得するように構成された第2取得部と、前記報酬関数は、前記車両の前記目的地点に係る通信エリアの位置への到達度、および前記渋滞が発生している領域に対応する通信エリアの位置への前記車両の到達度を変数として含んでいてもよい。
【0013】
また、本発明に係る進路制御装置において、前記学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、前記学習部は、前記現在の通信エリアの位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記車両が前記現在の通信エリアの位置から次に進むべき進路として、右折、左折、および直進を含む各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第1推定値を出力し、前記学習部は、さらに、前記車両が次に到達した通信エリアの位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第2推定値を出力し、前記学習部は、前記第1推定値が、前記第2推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習し、前記記憶部は、学習済みの重みパラメータを記憶してもよい。
【0014】
また、本発明に係る進路制御装置において、前記第1取得部は、前記コアネットワークに含まれる、加入者情報を管理する統合データリポジトリから、前記車両の前記現在の通信エリアの位置を取得し、前記進路制御部は、前記コアネットワークに含まれるユーザープレーン機能を介して、前記車両に前記次に進むべき進路に係る指示を送信してもよい。
【0015】
上述した課題を解決するために、本発明に係る進路制御方法は、複数の通信エリアで規定される車両の移動空間において、初期地点の通信エリアの位置から目的地点の通信エリアの位置までの前記車両の進路を制御するための進路制御方法であって、通信エリアを跨いだ際に送信される、前記車両からの位置登録信号に関連付けられている該通信エリアの位置を、前記車両の現在の位置として取得する第1取得ステップと、学習モデルを用いて学習された、前記車両が各通信エリアの位置から順次進むべき進路の方策に基づいて、前記第1取得ステップで前記車両の前記現在の位置として取得された現在の通信エリアの位置から、前記車両が次に進むべき進路を決定する決定ステップと、前記決定ステップで決定された、前記車両が次に進むべき進路を所定の通信規格のコアネットワークを介して前記車両に指示する進路制御ステップとを備える。
【0016】
また、本発明に係る進路制御方法において、さらに、前記車両が前記初期地点の通信エリアの位置から前記目的地点の通信エリアの位置に到達するまでに、前記車両が前記各通信エリアの位置から順次進むべき進路を計算した推定結果に報酬関数を適用して、前記車両が前記目的地点の通信エリアの位置へ到達するための報酬が最大化するように更新し、前記車両が前記各通信エリアの位置から順次進むべき前記進路の方策を、前記学習モデルを用いて学習するように構成された学習ステップと、前記学習ステップで学習された、前記進路の方策を記憶部に記憶する記憶ステップとを備え、前記決定ステップは、前記記憶部から前記進路の方策を読み出して、前記車両が次に進むべき進路を決定してもよい。
【0017】
また、本発明に係る進路制御方法において、さらに、前記移動空間において渋滞が発生している領域に対応する通信エリアの位置を取得するように構成された第2取得ステップと、前記報酬関数は、前記車両の前記目的地点に係る通信エリアの位置への到達度、および前記渋滞が発生している領域に対応する通信エリアの位置への前記車両の到達度を変数として含んでいてもよい。
【0018】
また、本発明に係る進路制御方法において、前記学習モデルは、入力層、隠れ層、および出力層を含むニューラルネットワークモデルであり、前記学習ステップは、前記現在の通信エリアの位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記車両が前記現在の通信エリアから次に進むべき進路として、右折、左折、および直進を含む各々の行動をとった場合に得られる将来の前記報酬の累積値の期待値を表す行動価値関数の第1推定値を出力し、前記学習ステップは、さらに、前記車両が次に到達した通信エリアの位置を前記ニューラルネットワークモデルの入力として与え、前記ニューラルネットワークモデルの演算を行い、前記行動価値関数の第2推定値を出力し、前記学習ステップは、前記第1推定値が、前記第2推定値から計算される目標値となるように、前記ニューラルネットワークモデルの重みパラメータを学習し、前記記憶ステップは、学習済みの重みパラメータを前記記憶部に記憶してもよい。
【0019】
また、本発明に係る進路制御方法において、前記第1取得ステップは、前記コアネットワークに含まれる、加入者情報を管理する統合データリポジトリから、前記車両の前記現在の通信エリアの位置を取得し、前記進路制御ステップは、前記コアネットワークに含まれるユーザープレーン機能を介して、前記車両に前記次に進むべき進路に係る指示を送信してもよい。
【発明の効果】
【0020】
本発明によれば、学習モデルを用いて学習された、車両が各通信エリアの位置から順次進むべき進路の方策に基づいて、現在の通信エリアの位置から車両が次に進むべき進路を決定する。そのため、より簡易な構成により遠隔で車両の進路制御を行うことができる。
【図面の簡単な説明】
【0021】
【
図1】
図1は、本発明の実施の形態に係る進路制御装置を含む進路制御システムの構成を示すブロック図である。
【
図2】
図2は、本実施の形態に係る進路制御システムの概要を説明するための図である。
【
図3】
図3は、本実施の形態に係る学習部による学習処理を説明するための図である。
【
図4】
図4は、本実施の形態に係る学習部の構成を示すブロック図である。
【
図5】
図5は、本実施の形態に係る進路制御装置のハードウェア構成を示すブロック図である。
【
図6】
図6は、本実施の形態に係る進路制御装置の学習処理を示すフローチャートである。
【
図7】
図7は、本実施の形態に係る進路制御装置の学習処理を示すフローチャートである。
【
図8】
図8は、本実施の形態に係る進路制御装置の進路制御処理を示すフローチャートである。
【発明を実施するための形態】
【0022】
以下、本発明の好適な実施の形態について、
図1から
図8を参照して詳細に説明する。
【0023】
図1は、本発明の実施の形態に係る進路制御装置1を備える進路制御システムの構成を示すブロック図である。本実施の形態に係る進路制御システムは、複数の通信エリアA1~Anで規定される車両2の移動空間において、車両2が通信エリアA1~Anを跨いだ際に送る位置登録信号を用いて、初期地点の通信エリアA1の位置から目的地点の通信エリアAnの位置までの車両2の進路を制御する。
【0024】
[進路制御システムの構成]
まず、本発明の実施の形態に係る進路制御装置1を備える進路制御システムの概要について説明する。
図1に示すように、進路制御システムは、例えば、SA方式の5G無線通信システムに対応する進路制御装置1、車両2、基地局BS1~BSn、およびコアネットワーク3を備える。
【0025】
基地局BS1~BSnは、5G方式に対応した無線基地局で構成され、通信エリアA1~Anに在圏する車両2とコアネットワーク3との間の通信を中継する。以下において、基地局BS1~BSnおよび通信エリアA1~Anをそれぞれ区別しない場合には、それぞれ基地局BS、通信エリアAと総称する場合がある。
【0026】
図1に示すように、各基地局BS1~BSnの通信エリアA1~Anは、車両2が移動する移動空間を規定する。また、各通信エリアA1~Anは、車両2が初期地点から目的地点まで移動する幹線道路などの道路の区間をカバーするように配置されている。本実施の形態では、通信エリアA1~Anは同一の大きさのセルを有するものとする。
【0027】
図2は、進路制御システムが制御対象とする移動空間を模式的に示した図である。
図2の各点線の円は、移動空間に配置された各基地局BS1~BS16がカバーする通信エリアA1~A16を示している。車両2は、基地局BS1~BS16の通信エリアA1~A16の位置をウェイポイントとして初期地点Sから目的地点Gの通信エリアA16の位置まで矢印で示す進路に沿って移動する。
【0028】
本実施の形態では、車両2は、進路制御システムによる進路指示に従って通信エリアA1~A16毎に右折、左折、あるいは直進していき、初期地点Sから目的地点Gまで到達する。また、進路指示は、車両2の走行する方向を基準とした右左折直進であるものとする。例えば、通信エリアA1の位置で直進の進路指示があった場合、車両2は、通信エリアA1の位置から直進し、次の通信エリアA2に到達する。さらに、通信エリアA2の位置から左折の進路指示があった場合、車両2は左折し、次の通信エリアA6へ到達する。このように、車両2は、通信エリアA1~A16毎に進路指示に従って移動空間を移動する。
【0029】
車両2には、通信端末20が搭載されている。車両2には、自動車、原動機付自動車、自動二輪車などが含まれる。通信端末20は、プロセッサ、主記憶装置、補助記憶装置、通信インターフェース等を備え、車両2に搭載されている端末装置、あるいは車両2を利用するユーザのスマートフォンなどの携帯通信端末、タブレット型コンピュータなどとして実現される。
【0030】
具体的には、通信端末20は、SIM21を備える。車両2は、通信端末20が備えるSIM21のIMSI(International Mobile Subscriber Identity)によって一意に識別される。
【0031】
通信端末20のプロセッサは、車両2の移動にともなって通信端末20が通信エリアA1~Anを跨ぐ際に、新たな通信エリアA1~Anの基地局BS1~BSnに対して位置登録信号(TAU)を送信する。
【0032】
また、車両2は、ECU(Electronic Control Unit)22を備え、車両2のステア制御、駆動制御、ブレーキ制御、および自動運転制御として、進路制御装置1からの進路指示を処理する。車両2は、図示されないGPS機能を有するGPSモジュールや、カーナビゲーションシステム、およびカメラやLiDARなどの各種センサを備えることができる。
【0033】
進路制御装置1とコアネットワーク3とは、LANやWANなどのネットワークNWを介して接続されている。また、無線アクセスネットワークを構成する基地局BS1~BSnとコアネットワーク3とは、バックホールリンクなどのネットワークLを介して接続されている。
【0034】
コアネットワーク3は、C-plane内のノードであるAMF(Access and Mobility Management Function)30、UDM(Unified Data Management)31、およびUDR(統合データリポジトリ:Unified Data Repository)32を備える。また、コアネットワーク3は、U-plane内のノードとして、UPF(User Plane Function)33を備える。進路制御装置1は、UDR32の通信インターフェース32aを介して、車両2からの位置登録信号に関連付けられた通信エリアAの位置情報を取得する。また、進路制御装置1は、UPF33の通信インターフェース33aを介して、決定された進路の指示を車両2に送出する。
【0035】
例えば、
図1に示すように、車両2が基地局BS1の通信エリアA1から基地局BS2の通信エリアA2を跨った際に、通信端末20は、基地局BS2およびAMF30を介してUDM31に位置登録要求を行うための位置登録信号を送信する。
【0036】
AMF30は、受信した信号をUDM31に対して送信し、UDM31は、車両2が備える通信端末20の端末識別情報により位置登録を行う。さらに、車両2が備える通信端末20が送信した位置登録信号、および端末識別情報は、UDR32において、在圏する基地局BSおよび通信エリアAに関する識別情報、ならびに位置登録信号の送信タイムスタンプ(日時を示す情報)とともに記憶される。
【0037】
本実施の形態に係る進路制御装置1は、ネットワークNWを介して、UDR32に記憶されている位置登録信号に関連付けられている、当該位置登録信号を受信した各基地局BSの識別情報あるいは通信エリアAの識別情報を取得する。また、進路制御装置1は、後述の設定情報記憶部14に、移動空間に配置されている基地局BSおよび通信エリアAの経度と緯度とのGPS座標などの位置情報を設定情報として記憶している。本実施の形態では、車両2の位置は、車両2が在圏する通信エリアAの基地局BSの位置であるものとして扱う。なお、以下の説明において、通信エリアAの位置といった場合には、対応する基地局BSの位置を指すものとする。
【0038】
このように、進路制御装置1は、車両2からの位置登録信号をUDR32から取得することで、位置登録信号のタイムスタンプが示す時刻での車両2の位置を取得することができる。
【0039】
[進路制御装置の機能ブロック]
進路制御装置1は、第1取得部10、第2取得部11、学習部12、学習モデル記憶部13、設定情報記憶部14、決定部15、および進路制御部16を備える。進路制御装置1は、車両2からの位置登録信号に基づいて、車両2が次に進むべき進路を決定し、車両2に進路を指示する。
【0040】
第1取得部10は、車両2が通信エリアAを跨いだ際に送信される、車両2からの位置登録信号に関連付けられている該通信エリアAの位置を、車両2の現在の位置として取得する。より具体的には、第1取得部10は、ネットワークNWを介してUDR32の通信インターフェース32aから、車両2の通信端末20が送信した、位置登録信号および、位置登録信号に関連付けられている情報を取得する。位置登録信号に関連付けられている情報には、通信端末20のSIM21、位置登録信号を受信した基地局BSの識別情報または通信エリアAの識別情報、および位置登録信号を発信された時刻のタイムスタンプが含まれる。
【0041】
第1取得部10は、後述の設定情報記憶部14に記憶されている基地局BS1~BSnの識別情報または通信エリアA1~Anの識別情報に関連付けられた、通信エリアA1~AnのGPS座標の位置情報を参照し、位置登録信号が送信された時刻での車両2の位置として取得することができる。
【0042】
第2取得部11は、車両2の移動空間において渋滞が発生している領域に対応する通信エリアAの位置を取得する。第2取得部11は、図示されない外部の交通情報サーバから、ネットワークNWを介して移動空間における渋滞情報や交通規制が発生している位置座標を取得することができる。第2取得部11は、設定情報記憶部14に記憶されている、移動空間に配置された通信エリアA1~Anの位置情報を参照し、渋滞が発生している領域の座標に対応する通信エリアA1~Anの位置を取得する。
【0043】
第2取得部11は、例えば、
図2に示すように、渋滞が発生している領域Jに対応する通信エリアA7、A11の位置を取得する。渋滞や交通規制に係る通信エリアA7、A11は、車両2の進路制御を行う際には、進路選択から除外されるように設定される。
【0044】
第2取得部11は、車両2の初期地点と目的地点とが設定され、進路制御を開始する時点で、渋滞や交通規制に係る通信エリアAの位置を取得することができる。あるいは、第2取得部11は、一定の周期で渋滞や交通規制に係る通信エリアAの位置を取得することができる。
【0045】
学習部12は、車両2が初期地点の通信エリアA1の位置から目的地点の通信エリアAnの位置に到達するまでに、各通信エリアA1~Anの位置から順次進むべき進路を計算した推定結果に報酬関数を適用して、車両2が目的地点の通信エリアAnの位置へ到達するための報酬が最大化するように更新し、車両2が各通信エリアA1~Anから順次進むべき進路の方策を、学習モデルを用いて学習する。
【0046】
本実施の形態では、車両2が各通信エリアA1~Anの位置から順次進むべき進路の方策として、右折、左折、および直進の3つの行動を採用する場合を例示する。しかし、通信エリアAのカバーする面積や、道路の形状に応じて配置されている通信エリアAの間隔等に応じて、より詳細な行動を進路の方策として学習することができる。
【0047】
本実施の形態では、学習部12は、
図3に示すような入力層、隠れ層、および出力層を含むニューラルネットワークモデルを学習モデルとして用いる。また、ニューラルネットワークモデルとして、車両2の位置である状態s
tを受取り、全ての行動価値Q(s
t,直進)、Q(s
t,左折)、Q(s
t,右折)を出力するニューラルネットワークであるDeep Q-Network(DQN)を採用する。
【0048】
より具体的には、学習部12は、現在の車両2の位置を示す現在の通信エリアAの位置をニューラルネットワークモデルの入力として与え、ニューラルネットワークモデルの演算を行い、車両2が現在の通信エリアAの位置から次に進むべき進路として、右折、左折、および直進を含む各々の行動をとった場合に得られる将来の報酬の累積値の期待値を表す行動価値関数の第1推定値Q1を出力する。
【0049】
報酬とは、車両2の現在の位置を示す状態s、車両2が右折、左折、または直進する行動a、および車両2の次の位置、すなわち次の状態s’の報酬関数r=r(s,a,s’)で与えられる。本実施の形態では、報酬関数は、車両2の目的地点に係る通信エリアAの位置への到達度、および車両2の渋滞が発生している領域に対応する通信エリアAの位置への到達度を変数として含む。例えば、車両2の右左折直進に係る行動によって、目的地点により近づく場合や、目的地点に最短距離で到達する場合には、スカラー量である報酬が、より大きい値として設定される。
【0050】
一方、車両2が目的地点に遠ざかる、あるいは、
図2に示すように渋滞や交通規制に係る通信エリアA7、A11に到達する場合には、マイナスの報酬値(例えば、r=-1)が与えられる設計とすることができる。このように、渋滞や交通規制に係る通信エリアAの報酬をマイナスの値として設定することで、車両2がこれらの地点を避けて目的地点に到達することができる。
【0051】
さらに、学習部12は、車両2が次に到達した通信エリアAの位置をニューラルネットワークモデルの入力として与え、ニューラルネットワークモデルの演算を行い、行動価値関数の第2推定値Q2を出力する。学習部12は、第1推定値Q1が、第2推定値Q2から計算される目標値となるように、ニューラルネットワークモデルの重みパラメータを学習する。
【0052】
ニューラルネットワークモデルの重みパラメータをθとし、行動価値関数をQ(s,a;θ)と表すと、学習の最小化損失関数は、次の式(1)で与えられる。
L(θ)=1/2{r+γmaxaQ(s’,a’;θ)-Q(s,a;θ)}2
・・・(1)
【0053】
上式(1)において、rは、報酬(即時報酬)であり、γは割引率を示す。Q(s,a;θ)は、第1推定値Q1に対応し、Q(s’,a’;θ)は、1ステップ進んだ状態s’での行動価値すなわち第2推定値Q2に対応する。目標値は、r+γmaxa’Q(s’,a’;θ)で表される。
【0054】
学習部12は、上式(1)で与えられる損失関数の勾配を誤差逆伝搬することでニューラルネットワークモデルの重みパラメータを更新することができる。
【0055】
さらに具体的には、学習部12は、
図4に示すように、メインQN121およびターゲットQN123の2つのニューラルネットワークを用いるFixed Target Q-Networkを採用することができる。メインQN121は最適な行動を選択して行動価値関数Qを更新する。一方、ターゲットQN123は、行動の結果の次の状態s’でとるべき行動a’の価値を推定および評価する。メインQN121およびターゲットQN123は、同一のレイヤ構造のニューラルネットワークを有するが、メインQN121のパラメータは「θ」であり、ターゲットQN123のパラメータは「θ
-」で与えられる。
【0056】
メインQN121は、環境120から車両2の現在の位置を状態sとして受け取る。環境120は、車両2が置かれた移動空間のシステムであり、この環境120下で、車両2は、右左折直進の行動aをとることで別の通信エリアAへ移動し、次の状態s’に遷移すると同時に、環境120から報酬rを獲得する。
【0057】
学習部12は、車両2の現在の位置に係る状態sをメインQN121に入力し、行動価値関数Q(s,a;θ)を求める。学習部12は、例えば、ε-greedy法を用いて行動aを計算し、あるいは、現時点での最適な右左折直進の行動argmaxaQ(s,a;θ)を求める。環境120において、車両2は、現時点での最適な右左折直進の行動argmaxaQ(s,a;θ)を行う。環境120は、車両2が行動argmaxaQ(s,a;θ)を行った結果、移動した先の通信エリアAの位置を次の状態s’として観測し、報酬rを出力する。経験データ124は、環境120から出力された経験(s,a,r,s’)を保存する。
【0058】
学習部12は、DQN損失算出122において、損失関数Lを求め、損失関数Lの勾配でメインQN121の重みを更新する。
【0059】
学習部12は、メインQN121の重みを定期的にターゲットQN123にコピーし同期を行う。ターゲットQN123の同期は、メインQN121の重みの更新頻度よりも低い頻度で行われる。学習部12は、経験データ124から経験を取り出して、過去の状態をターゲットQN123に入力し、推定値maxa’Q(s’,a’;θ-)を出力させる。学習部12は、ターゲットQN123が出力した推定値maxa’Q(s’,a’;θ-)に基づく目標値r+γmaxa’Q(s’,a’;θ-)を用いて、DQN損失算出122でメインQN121の重みの学習を行う。
【0060】
図1に戻り、学習モデル記憶部13は、学習済みのニューラルネットワークモデルの重みを記憶する。
【0061】
設定情報記憶部14は、車両2および通信端末20の識別情報、車両2の進路制御を行う移動空間の位置情報、および移動空間に配置されている各通信エリアAの位置情報が記憶されている。また、設定情報記憶部14は、事前に取得された車両2の初期地点および目的地点の位置情報を記憶している。設定情報記憶部14は、初期地点および目的地点の位置に対応する通信エリアAの位置を記憶することができる。その他にも、設定情報記憶部14は、移動空間の地図情報を記憶することができる。
【0062】
決定部15は、学習モデルを用いて学習された、車両2が各通信エリアAの位置から順次進むべき進路の方策に基づいて、第1取得部10によって取得された現在の通信エリアAの位置から、車両2が次に進むべき進路を決定する。決定部15は、学習モデル記憶部13に記憶されている学習済みの重みを読み出して、現在の通信エリアAの位置を学習済みのニューラルネットワークモデルに入力として与え、学習済みのニューラルネットワークモデルの演算を行い、次に進むべき進路として右左折直進のうち最適な行動を決定する。
【0063】
進路制御部16は、決定部15によって決定された、車両2が次に進むべき進路を、コアネットワーク3を介して車両2に指示する。具体的には、進路制御部16は、UPF33を介して、車両2に対して進路の指示を送信する。進路制御部16は、車両2が目的地点の通信エリアに到達するまで、進路の指示を行う。
【0064】
[進路制御装置のハードウェア構成]
次に、上述した機能を有する進路制御装置1を実現するハードウェア構成の一例について、
図5を用いて説明する。
【0065】
図5に示すように、進路制御装置1は、例えば、バス101を介して接続されるプロセッサ102、主記憶装置103、通信インターフェース104、補助記憶装置105、入出力I/O106を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。
【0066】
主記憶装置103には、プロセッサ102が各種制御や演算を行うためのプログラムが予め格納されている。プロセッサ102と主記憶装置103とによって、
図1に示した第1取得部10、第2取得部11、学習部12、決定部15、進路制御部16など進路制御装置1の各機能が実現される。
【0067】
通信インターフェース104は、進路制御装置1と各種外部電子機器との間をネットワーク接続するためのインターフェース回路である。
【0068】
補助記憶装置105は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。補助記憶装置105には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。
【0069】
補助記憶装置105は、進路制御装置1が実行する進路制御プログラムを格納するプログラム格納領域を有する。また、補助記憶装置105は、ニューラルネットワークモデルの学習を行うための学習プログラムを格納する領域を有する。補助記憶装置105によって、
図1で説明した学習モデル記憶部13、設定情報記憶部14が実現される。さらには、例えば、上述したデータやプログラムなどをバックアップするためのバックアップ領域などを有していてもよい。
【0070】
入出力I/O106は、外部機器からの信号を入力したり、外部機器へ信号を出力したりする入出力装置である。
【0071】
[進路制御装置の動作]
次に、上述した構成を有する進路制御装置1の動作を、
図6から
図8のフローチャートを参照して説明する。
【0072】
はじめに、
図6を参照して、進路制御装置1による学習処理を説明する。まず、進路制御装置1は、車両2の初期地点および目的地点の位置を取得する(ステップS1)。例えば、進路制御装置1は、車両2のカーナビゲーションシステムに入力された目的地点および車両2の現在位置を取得することができる。
【0073】
次に、第2取得部11は、移動空間において渋滞が発生している領域に対応する通信エリアの位置を取得する(ステップS2)。例えば、第2取得部11は、外部の交通情報サーバから、渋滞情報や交通規制が発生している領域の位置情報を取得し、対応する通信エリアの位置を特定することができる。また、第2取得部11が、渋滞や交通規制に係る通信エリアの位置を一定周期で取得する構成としてもよい。
【0074】
次に、第1取得部10は、車両2の現在の位置として、車両2が在圏している現在の通信エリアAの位置を取得する(ステップS3)。具体的には、第1取得部10は、コアネットワーク3のUDR32から、車両2が通信エリアを跨いだ際に送信した位置登録信号に関連付けられている通信エリアAまたは基地局BSの識別情報、およびタイムスタンプを取得する。第1取得部10は、設定情報記憶部14に記憶されている通信エリアAあるいは基地局BSの識別情報に関連付けられている通信エリアAの位置情報を、車両2の現在の位置として取得する。
【0075】
次に、学習部12は、ステップS3で取得された車両2の現在の状態である、車両2が在圏している現在の通信エリアAの位置をニューラルネットワークモデルに入力として与え、ニューラルネットワークモデルの演算を行って、車両2が現在の通信エリアAから次に進むべき進路として、右折、左折、および直進を含む各々の行動をとった場合に得られる将来の報酬の累積値の期待値を表す行動価値関数の第1推定値Q1を出力する(ステップS4)。
【0076】
さらに、学習部12は、車両2が次に到達した通信エリアAnの位置をニューラルネットワークモデルの入力として与え、ニューラルネットワークモデルの演算を行い、行動価値関数の第2推定値Q2を出力する(ステップS6)。学習部12は、第2推定値Q2から目標値を算出する(ステップS7)。続いて、学習部12は、第1推定値Q1が、第2推定値Q2から計算される目標値となるように、ニューラルネットワークモデルの重みパラメータを学習する(ステップS8)。具体的には、学習部12は、上式(1)の損失関数を最小化するようにニューラルネットワークモデルの重みパラメータを更新する。
【0077】
学習モデル記憶部13は、ステップS8で得られた学習済みの重みを記憶する(ステップS9)。
【0078】
次に、
図7を参照して、メインQN121およびターゲットQN123の2つのニューラルネットワークを用いるFixed Target Q-Networkを採用した場合の、学習部12による学習処理を説明する。
【0079】
ステップS1からステップS3までの処理は、
図6で説明した学習処理のステップと同様である。その後、学習部12は、メインQN121にステップS3で取得された、車両2が在圏している通信エリアAの位置を入力として与え、ニューラルネットワークの演算を行って、行動価値関数Qを出力し、次に進むべき進路aを計算する(ステップS120)。
【0080】
次に、学習部12は、ステップS120で求めた進路aで車両2の行動を環境120に返し、次の車両2の状態s’である、車両2が進んだ先の通信エリアAの位置および報酬rを得る(ステップS121)。なお、報酬関数で与えられる報酬rは、ステップS2において一定周期で取得される、渋滞が発生している通信エリアAの位置への到達度が随時反映される構成とすることができる。
【0081】
学習部12は、ステップS121で得られた経験(s,a,r,a’)を経験データ124に保存する(ステップS122)。次に、学習部12は、DQN損失算出122において、損失関数Lを求め、損失関数Lの勾配でメインQN121の重みを更新する(ステップS123)。学習部12は、ステップS120からステップS123までの処理を設定された回数繰り返す。
【0082】
その後、学習部12は、メインQN121の重みを定期的にターゲットQN123にコピーし同期を行う(ステップS124)。ターゲットQN123の同期は、メインQN121の重みの更新頻度よりも低い頻度で行われる。次に、学習部12は、経験データ124から経験を取り出して、過去の状態をターゲットQN123に入力し、推定値maxa’Q(s’,a’;θ-)を出力させる(ステップS126)。
【0083】
次に、学習部12は、ターゲットQN123が出力した推定値maxa’Q(s’,a’;θ-)に基づく目標値r+γmaxa’Q(s’,a’;θ-)を計算する(ステップS127)。次に、学習部12は、ステップS127で算出された目標値を用いて、DQN損失算出122で損失関数Lを計算する(ステップS128)。次に、学習部12は、損失関数Lで与えられる損失を最小化するようにメインQN121の重みの学習を行う(ステップS129)。その後、学習済みの重みを学習モデル記憶部13に記憶する(ステップS9)。
【0084】
次に、
図8を参照し、進路制御装置1による進路制御処理を説明する。まず、決定部15は、学習モデル記憶部13から学習済みのニューラルネットワークモデルをロードする(ステップS40)。本実施の形態では、決定部15は、学習済みのDQNをロードする。次に、第1取得部10は、車両2の現在の位置である、車両2が在圏している通信エリアAの位置を取得する(ステップS41)。
【0085】
次に、決定部15は、ステップS40でロードした学習済みのニューラルネットワークモデル、すなわち車両2が各通信エリアAの位置から順次進むべき進路の方策に基づいて車両2が現在の通信エリアの位置から次に進むべき進路を決定する(ステップS42)。具体的には、決定部15は、学習済みのニューラルネットワークモデルにステップS41で取得した現在の通信エリアAの位置を入力として与え、学習済みのニューラルネットワークモデルの演算を行って、車両2が次に進む右左折直進のうちのいずれかの進路を決定する。決定部15は、学習済みのニューラルネットワークモデルから出力される右折、左折、直進の行動ごとの行動価値関数Qのうち最も確率値が高い行動を選択し、進路として決定する。
【0086】
その後、進路制御部16は、コアネットワーク3のUPF33を介して車両2に対して、ステップS42で決定した車両2の進路を指示する(ステップS43)。車両2は、進路の指示を受けると、車両2が備えるECU22は進路の指示にしたがって、各制御アクチュエータに制御指令を出力することで、車両2は、次の通信エリアAに移動する。
【0087】
次に、車両2が目的地点に到達した場合には、処理は終了する(ステップS44:YES)。一方、車両2が目的地点に到達していない場合には(ステップS44:NO)、ステップS41からステップS43までの処理を繰り返す。例えば、車両2が進路の指示にしたがって移動した先の通信エリアAを跨いだ際に送信される位置登録信号により、関連付けられている通信エリアAの位置が、目的地点として設定されている通信エリアAの位置と一致するか否かに基づいて、目的地点への到達の有無を判定することができる。
【0088】
以上説明したように、本実施の形態に係る進路制御装置1によれば、車両2が通信エリアAを跨ぐ際に送出される位置登録信号に関連付けられた基地局BSの位置すなわち通信エリアAの位置を車両2の現在の位置として取得し、学習済みのニューラルネットワークによって獲得された進路の方策に基づいて、次に進むべき進路を決定する。そのため、より簡易な構成により遠隔で車両2の進路制御を行うことができる。
【0089】
また、本実施の形態に係る進路制御装置1によれば、位置登録信号を利用して、学習済みのニューラルネットワークによって獲得された進路の方策に基づいて次に進むべき進路を決定するため、測位衛星からの電波が受信できない状況においても、自車位置推定を行い、最適な進路を選択することができる。
【0090】
また、本実施の形態に係る進路制御装置1によれば、学習モデルとしてDQNを採用するため、渋滞や交通規制に係る地点を避けた進路の選択ができる。
【0091】
なお、上述の実施の形態では、5Gに準拠する進路制御システムである場合を例示したが、LTEや6Gに準拠する進路制御システムであってもよい。
【0092】
以上、本発明の進路制御装置および進路制御方法における実施の形態について説明したが、本発明は説明した実施の形態に限定されるものではなく、請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。
【符号の説明】
【0093】
1…進路制御装置、10…第1取得部、11…第2取得部、12…学習部、13…学習モデル記憶部、14…設定情報記憶部、15…決定部、16…進路制御部、2…車両、20…通信端末、21…SIM、22…ECU、3…コアネットワーク、30…AMF、31…UDM、32…UDR、33…UPF、101…バス、102…プロセッサ、103…主記憶装置、32a、33a、104…通信インターフェース、105…補助記憶装置、106…入出力I/O、120…環境、121…メインQN、122…DQN損失算出、123…ターゲットQN、124…経験データ、BS1~BSn…基地局、A1~An…通信エリア、L、NW…ネットワーク。
【要約】
【課題】より簡易な構成により遠隔で車両の進路制御を行うことを目的とする。
【解決手段】
複数の通信エリアA1~Anで規定される車両2の移動空間において、初期地点の通信エリアA1の位置から目的地点の通信エリアAnの位置までの車両2の進路を制御する進路制御装置1であって、通信エリアAを跨いだ際に送信される車両2からの位置登録信号に関連付けられている該通信エリアAの位置を、車両2の現在の位置として取得する第1取得部10と、学習モデルを用いて学習された、車両2が各通信エリアAの位置から順次進むべき進路の方策に基づいて、第1取得部10によって車両2の現在の位置として取得された現在の通信エリアAの位置から、車両2が次に進むべき進路を決定する決定部15と、決定部15によって決定された、車両2が次に進むべき進路を所定の通信規格のコアネットワーク3を介して車両2に指示する進路制御部16とを備える。
【選択図】
図1