(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022085309
(43)【公開日】2022-06-08
(54)【発明の名称】無線通信装置、無線通信システム及びビーム方向補正方法
(51)【国際特許分類】
H04B 7/06 20060101AFI20220601BHJP
H04W 16/28 20090101ALI20220601BHJP
H04W 24/10 20090101ALI20220601BHJP
H04B 7/08 20060101ALI20220601BHJP
【FI】
H04B7/06 982
H04W16/28
H04W24/10
H04B7/06 150
H04B7/08 982
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2020196925
(22)【出願日】2020-11-27
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
(74)【代理人】
【識別番号】110001634
【氏名又は名称】特許業務法人 志賀国際特許事務所
(72)【発明者】
【氏名】黄 俊翔
(72)【発明者】
【氏名】白戸 裕史
(72)【発明者】
【氏名】内田 大誠
(72)【発明者】
【氏名】北 直樹
(72)【発明者】
【氏名】山本 高至
(72)【発明者】
【氏名】香田 優介
(72)【発明者】
【氏名】新崎 聖峰
【テーマコード(参考)】
5K067
【Fターム(参考)】
5K067AA23
5K067EE34
5K067KK02
5K067KK03
(57)【要約】
【課題】自装置の環境センサが検出する環境状態データが正常でない場合であっても、無線信号のビームの方向を適切な方向に補正する。
【解決手段】複数の無線通信装置の各々の環境センサが検出する環境状態データを取得し、無線通信部が行う無線通信のビームの方向を示すビーム方向データを検出し、無線通信部が行う無線通信の無線通信品質を示す無線通信品質データを検出し、取得した環境状態データと、検出したビーム方向データ及び無線通信品質データとから予め求めるビームの方向の補正方策を出力する関数と、ある通信期間において検出したビーム方向データと、当該通信期間において取得した環境状態データとに基づいて、当該通信期間の次の通信期間におけるビームの方向の補正方策を求め、求めたビームの方向の補正方策の中から最適なビームの方向の補正方向を選択し、選択した補正方向に基づいて無線通信部にビームの方向を補正させる。
【選択図】
図2
【特許請求の範囲】
【請求項1】
アレイアンテナと、
指向性を有する無線電波のビームを前記アレイアンテナにより形成して無線通信を行う無線通信部と、
自装置の状態を示す環境状態データを検出する環境センサと、
前記環境センサが検出する前記環境状態データを他の無線通信装置に送信する環境状態データ送信部と、
自装置、及び、前記他の無線通信装置の環境状態データを取得する環境状態データ取得部と、
前記無線通信部が行う無線通信の前記ビームの方向を示すビーム方向データと、前記無線通信部が行う無線通信の無線通信品質を示す無線通信品質データとを検出する無線通信品質監視部と、
前記環境状態データ取得部が取得する前記環境状態データと、前記無線通信品質監視部が検出する前記ビーム方向データ及び前記無線通信品質データとから予め求めるビームの方向の補正方策を出力する関数と、ある通信期間において前記無線通信品質監視部が検出する前記ビーム方向データと、当該通信期間において前記環境状態データ取得部が取得する前記環境状態データとに基づいて、当該通信期間の次の通信期間における前記ビームの方向の補正方策を求め、求めた前記ビームの方向の補正方策の中から最適なビームの方向の補正方向を選択し、選択した補正方向に基づいて前記無線通信部にビームの方向を補正させるビーム方向制御部と、
を備える無線通信装置。
【請求項2】
前記環境センサが故障している場合に前記環境センサが検出する前記環境状態データに故障を示す故障情報を付与して前記環境状態データ送信部及び前記環境状態データ取得部に出力し、前記環境センサが故障していない場合に前記環境センサが検出する前記環境状態データを前記環境状態データ送信部及び前記環境状態データ取得部に出力するセンサ故障検出部と、をさらに備え、
前記環境状態データ取得部は、
自装置、及び、前記他の無線通信装置から取得する前記環境状態データの中から、前記故障情報が付与されていない前記環境状態データを選択する、
請求項1に記載の無線通信装置。
【請求項3】
前記ビーム方向制御部は、
自装置、又は、前記他の無線通信装置の組み合わせ毎に前記関数を予め求め、ある通信期間において前記無線通信品質監視部が検出する前記ビーム方向データと、当該通信期間において前記環境状態データ取得部が取得する前記環境状態データと、前記環境状態データ取得部が取得する前記環境状態データを取得した自装置、または、前記他の無線通信装置の組み合わせに対応する前記関数とに基づいて前記補正方策を求め、求めた前記補正方策の中から最適なビームの方向の補正方向を選択し、選択した補正方向に基づいて前記無線通信部にビームの方向を補正させる、
請求項1又は2に記載の無線通信装置。
【請求項4】
前記ビーム方向制御部は、
自装置、及び、前記他の無線通信装置の合計数を上限値とする1以上の全ての整数値の各々に対応する前記関数を予め求め、ある通信期間において前記無線通信品質監視部が検出する前記ビーム方向データと、当該通信期間において前記環境状態データ取得部が取得する前記環境状態データと、前記環境状態データ取得部が取得する前記環境状態データの数に対応する前記関数とに基づいて前記補正方策を求め、求めた前記補正方策の中から最適なビームの方向の補正方向を選択し、選択した補正方向に基づいて前記無線通信部にビームの方向を補正させる、
請求項1又は2に記載の無線通信装置。
【請求項5】
前記環境状態データ取得部は、
前記他の無線通信装置から取得する前記環境状態データの上限値が予め定められている場合に、前記他の無線通信装置の台数が前記上限値を超えている場合、前記他の無線通信装置から取得する前記環境状態データの中から前記上限値の範囲内の数の前記環境状態データを選択するか、または、前記他の無線通信装置から取得する前記環境状態データの中から自装置の近傍に位置している前記他の無線通信装置の前記環境状態データを選択する、
請求項1から4のいずれか一項に記載の無線通信装置。
【請求項6】
前記ビーム方向制御部は、
前記ビームの方向の補正方策を出力する関数を、前記無線通信品質監視部が検出する前記ビーム方向データ及び前記無線通信品質データと、前記環境状態データ取得部が取得する前記環境状態データとに基づく強化学習処理によって予め求める、
請求項1から5のいずれか一項に記載の無線通信装置。
【請求項7】
複数の無線通信装置と、リモート制御装置とを備える無線通信システムであって、
前記無線通信装置の各々は、
アレイアンテナと、
指向性を有する無線電波のビームを前記アレイアンテナにより形成して無線通信を行う無線通信部と、
自装置の状態を示す環境状態データを検出する環境センサと、
前記環境センサが検出する前記環境状態データを他の無線通信装置に送信する環境状態データ送信部と、
前記無線通信部が行う無線通信の前記ビームの方向を示すビーム方向データと、前記無線通信部が行う無線通信の無線通信品質を示す無線通信品質データとを検出し、検出した前記ビーム方向データと前記無線通信品質データとを前記リモート制御装置に送信する無線通信品質監視部と、を備え、
前記リモート制御装置は、
複数の前記無線通信装置の各々の前記環境状態データ送信部が送信する前記環境状態データを受信して出力する環境状態データ取得部と、
前記環境状態データ取得部が取得する前記環境状態データと、複数の前記無線通信装置の各々の前記無線通信品質監視部から受信する前記無線通信装置ごとの前記ビーム方向データ及び前記無線通信品質データとから前記無線通信装置ごとに予め求めるビームの方向の補正方策を示す関数と、ある通信期間において複数の前記無線通信装置の各々の前記無線通信品質監視部から受信する前記ビーム方向データと、当該通信期間において前記環境状態データ取得部が取得する前記環境状態データとに基づいて、当該通信期間の次の通信期間における前記ビームの方向の補正方策を前記無線通信装置ごとに求め、求めた前記ビームの方向の補正方策の中から最適なビームの方向の補正方向を前記無線通信装置ごとに選択し、選択した補正方向に基づいて前記無線通信装置の各々の前記無線通信部にビームの方向を補正させるビーム方向制御部と、
を備える無線通信システム。
【請求項8】
アレイアンテナと、指向性を有する無線電波のビームを前記アレイアンテナにより形成して無線通信を行う無線通信部と、自装置の状態を示す環境状態データを検出する環境センサとを備える複数の無線通信装置の前記ビームの方向を補正するビーム方向補正方法であって、
前記複数の無線通信装置の各々の前記環境センサが検出する前記環境状態データを取得し、
前記無線通信部が行う無線通信の前記ビームの方向を示すビーム方向データを検出し、
前記無線通信部が行う無線通信の無線通信品質を示す無線通信品質データを検出し、
取得した前記環境状態データと、検出した前記ビーム方向データ及び前記無線通信品質データとから予め求めるビームの方向の補正方策を出力する関数と、ある通信期間において検出した前記ビーム方向データと、当該通信期間において取得した前記環境状態データとに基づいて、当該通信期間の次の通信期間における前記ビームの方向の補正方策を求め、
求めた前記ビームの方向の補正方策の中から最適なビームの方向の補正方向を選択し、
選択した補正方向に基づいて前記無線通信部にビームの方向を補正させる、
ビーム方向補正方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、無線通信装置、無線通信システム及びビーム方向補正方法に関する。
【背景技術】
【0002】
近年、高速通信が可能なミリ波無線通信技術が注目されている。ミリ波帯を採用した無線通信システムとして、例えば、無線LAN(Local Area Network)におけるIEEE802.11ad,802.11ayや、無線PAN(Personal Area Network)におけるIEEE802.15.3eといった国際標準規格があり、更に、第五世代の移動体通信システム等においても国際標準規格が制定されている。
【0003】
周波数が6GHz以下のマイクロ波帯に比べて、周波数が数十GHz以上のミリ波帯では、伝搬減衰が大きいという特徴がある。この伝搬減衰を補償するため、上記の標準化された無線通信システムでは、アレイアンテナを用いて指向性ビームを形成することにより無線通信品質を改善する技術が採用されている。アレイアンテナによって特定の方向にビームを形成することにより、ミリ波帯の無線通信システムを、屋外での高速の無線伝送にも適用することが可能になる。
【0004】
屋外での高速の無線伝送に対して、ミリ波帯の無線通信システムを適用することが可能になったことから、例えば、Macro-Cell(以下「マクロセル」という)と、Pico-Cell(以下「ピコセル」という)とを接続した無線通信システムを提供する技術が提案されている(例えば、非特許文献1参照)。ピコセルは、主に屋外でエンドユーザに近い場所、例えば、電柱や吊り線などに設置されることが一般的である。こうした屋外環境では、風などの外因により、設置された無線送信機において変位が頻繁に発生する。無線送信機において変位が発生すると、送受信で対向させる必要があるアレイアンテナが形成するビームの方向(以下「ビーム方向」ともいう)において不対向が生じる。そのため、伝搬減衰を補償できず、無線通信品質の低下が頻発する。
【0005】
ここで、
図20を参照しつつ、風などの外因によりビーム方向の不対向が発生する一例を説明する。
図20に示す無線通信システム500において、無線通信装置200は、道路300に沿って設定された電柱301-1及び電柱301-2の間に張り渡されている吊り線310上に取り付けられている。これに対して、無線通信装置200の通信先となる無線通信装置400は、建物350の壁面に固定的に設置されている。無線通信装置200は、無風状態等の外力が加えられていない状態において、無線通信装置200が放射する無線電波のビーム250の方向が、無線通信装置400が放射する無線電波のビーム450と対向する方向になるように、吊り線310上に取り付けられる。
【0006】
しかし、
図20に示すように、例えば、風が吹いたりすると、無線通信装置200や吊り線310に対して風の力による外力がかかり、無線通信装置200の位置や向きが不規則に変化する。そのため、無線通信装置200のビーム250の方向が、無線通信装置400のビーム450と対向する方向から外れてしまい、ビーム250の方向と、ビーム450の方向とが不対向の状態になる。このような不対向の状態になると、無線通信装置200と無線通信装置400との間の無線通信品質が低下してしまう現象が発生する。
【0007】
通常のミリ波帯の無線通信システムでは、両側の無線通信装置200,400においてビーム250,450の方向を対向させる調整を行うことにより、無線通信品質を改善することが行われる。ビーム250,450の方向を対向させる調整手法として、例えば、両方の無線通信装置200,400の各々が、変更し得るビーム250,450の方向を全て探索し、最良の無線通信品質が得られるビーム250,450の方向、例えば受信電力が最大となる方向を選定した上で、その選定した方向を通信先の無線通信装置400,200に通知する手法がある。
【0008】
しかし、
図20に示した吊り線310に取り付けられている無線通信装置200の場合、風などの外力が加わると、頻繁に位置や向きが変化する。そのため、無線通信システム500において無線通信品質を維持するには、双方の無線通信装置200,400が最良の無線通信品質が得られるように頻繁にビーム250,450の方向を探索しなければならなくなる。このようなビーム250,450の方向の探索が頻繁に行われると、データ伝送において利用可能な無線通信リソース、例えば、時間軸のタイムスロット、または、周波数軸のサブキャリア等が減少してしまうという問題がある。
【0009】
上記の問題を解決する技術が、例えば、非特許文献2において提案されている。非特許文献2に開示される技術では、設置された環境における風などの外因によって無線通信装置の位置や向きが変わった場合、無線通信装置は、自装置が備えるセンサにより自装置が設置されている環境の変動を示すデータとして、位置を示す位置データと、動きを示す速度データとを検出する。無線通信装置は、検出した環境の変動を示すデータを用いて深層強化学習処理を行い、深層強化学習処理によって得られたビーム方向の補正方策に基づいて、次の通信期間におけるビーム方向の補正方向を選択する。非特許文献2に開示されている技術では、このような学習型のビーム方向の制御手法を採用することにより、十分な学習時間を経過した後に、風などにより不規則に位置や向きを変える無線通信装置であっても、ビーム方向の不対向を防止し、無線通信品質の維持を可能としている。
【0010】
ここで、
図21を参照しつつ、非特許文献2に開示されている無線通信装置の概要について説明する。
図21は、非特許文献2に開示されている無線通信装置200aの概略構成を示すブロック図である。無線通信装置200aは、
図20の無線通信装置200に替えて用いられる装置である。無線通信装置200aは、センシング機能ブロック210と、無線通信制御機能ブロック220という2つの機能ブロックを備えている。
【0011】
センシング機能ブロック210は、環境センサ211、及び環境状態データ取得部212を備える。環境センサ211は、無線通信装置200aの運動の状態を示す環境状態データを検出する。ここで、環境状態データとは、例えば、無線通信装置200aの位置を示す位置データと、動きを示す速度データとを含むデータである。環境状態データ取得部212は環境センサ211が検出した環境状態データを取り込み、取り込んだ環境状態データを集約して適切な処理を行い、適切な処理を行った環境状態データを無線通信制御機能ブロック220のビーム方向制御部224に出力する。
【0012】
無線通信制御機能ブロック220は、アレイアンテナ221、無線通信部222、無線通信品質監視部223、及びビーム方向制御部224を備える。無線通信部222は、高周波回路、信号処理回路などのデバイスを備えており、アレイアンテナ221を介して、通信先である無線通信装置400との間で無線信号の送受信を行う。アレイアンテナ221は、無線通信部222が出力する無線信号から指向性を有する無線電波のビームを形成して放射する。アレイアンテナ221は、無線通信装置400が指向性を形成して放射する無線電波のビームを受信する。
【0013】
無線通信品質監視部223は、無線通信部222からアレイアンテナ221が形成している指向性ビームの方向を示すビーム方向データを検出する。無線通信品質監視部223は、無線通信部222が行う無線通信の無線通信品質に関するデータを検出する。ここで、無線通信品質に関するデータとして、非特許文献2では、受信電力のデータである例が示されている。
【0014】
ビーム方向制御部224は、環境状態データ取得部212が出力する環境状態データと、無線通信品質監視部223が検出するビーム方向データ及び無線通信品質に関するデータとに基づいて、様々な環境状態において無線通信品質を維持可能にする最適なビーム方向の補正方策を出力する関数を求める深層強化学習処理を行う。
【0015】
ビーム方向制御部224は、深層強化学習処理によって求めた関数と、ある通信期間において無線通信品質監視部223が検出するビーム方向データと、当該通信期間において環境状態データ取得部212が出力する環境状態データとに基づいて、次の通信期間におけるビーム方向の補正方向を選択する。ビーム方向制御部224は、無線通信部222に対して、選択した補正方向を含む制御指示信号を出力する。無線通信部222は、ビーム方向制御部224から制御指示信号を受けると、受けた制御指示信号に含まれる補正方向にしたがってビーム方向を補正し、補正したビーム方向にビームを形成する無線信号をアレイアンテナ221に出力し、アレイアンテナ221は、当該方向に無線電波のビームを形成して放射する。
【0016】
このように、非特許文献2の無線通信装置200aでは、環境状態データと、ビーム方向と、無線通信品質に関するデータとに基づいて深層強化学習処理を行うことにより、風などの外因によって無線通信装置200aの位置や動きの速度が変わる環境であっても、適切な方向にビームを放射して無線通信品質を維持することを可能にしている。
【先行技術文献】
【非特許文献】
【0017】
【非特許文献1】S. Hur, T. Kim, D.J. Love, J.V. Krogmeier, T.A. Thomas, and A. Ghosh, “Millimeter Wave Beamforming for Wireless Backhaul and Access in Small Cell Networks,” IEEE Transaction on Communications, Vol.61, No.10, October, 2013
【非特許文献2】M. Shinzaki, Y. Koda, K. Yamamoto, T. Nishio, M. Morikura, C. H. Huang, Y. Shirato, and N. Kita, “Deep Reinforcement Learning-based Beam Tracking from mmWave Antennas installed on Overhead Messenger Wires,” Proc. IEEE VTC2020-fall, Online, November-December, 2020
【発明の概要】
【発明が解決しようとする課題】
【0018】
上記したように、非特許文献2の無線通信装置200aは、環境センサ211が検出する環境状態データを用いて、様々な環境状態において無線通信品質を維持可能にする最適なビーム方向の補正方策を出力する関数を求める深層強化学習処理を行っている。そのため、例えば、深層強化学習処理を行っている間に、環境センサ211が検出する環境状態データにノイズや誤差が重畳したり、環境センサ211が故障して正常な環境状態データが取得できなかったりした場合、精度の良い深層強化学習処理を行うことができないという問題がある。
【0019】
深層強化学習処理が完了した後においても、環境センサ211が検出する環境状態データにノイズや誤差が重畳したり、環境センサ211が故障して正常な環境状態データが取得できなかったりした場合、ビームの方向の補正方向を誤って選択してしまうという問題がある。
【0020】
本発明は、自装置の環境センサが検出する環境状態データが正常でない場合であっても、無線信号のビームの方向を適切な方向に補正することができる技術の提供を目的としている。
【課題を解決するための手段】
【0021】
本発明の一態様は、アレイアンテナと、指向性を有する無線電波のビームを前記アレイアンテナにより形成して無線通信を行う無線通信部と、自装置の状態を示す環境状態データを検出する環境センサと、前記環境センサが検出する前記環境状態データを他の無線通信装置に送信する環境状態データ送信部と、自装置、及び、前記他の無線通信装置の環境状態データを取得する環境状態データ取得部と、前記無線通信部が行う無線通信の前記ビームの方向を示すビーム方向データと、前記無線通信部が行う無線通信の無線通信品質を示す無線通信品質データとを検出する無線通信品質監視部と、前記環境状態データ取得部が取得する前記環境状態データと、前記無線通信品質監視部が検出する前記ビーム方向データ及び前記無線通信品質データとから予め求めるビームの方向の補正方策を出力する関数と、ある通信期間において前記無線通信品質監視部が検出する前記ビーム方向データと、当該通信期間において前記環境状態データ取得部が取得する前記環境状態データとに基づいて、当該通信期間の次の通信期間における前記ビームの方向の補正方策を求め、求めた前記ビームの方向の補正方策の中から最適なビームの方向の補正方向を選択し、選択した補正方向に基づいて前記無線通信部にビームの方向を補正させるビーム方向制御部と、を備える無線通信装置である。
【0022】
本発明の一態様は、複数の無線通信装置と、リモート制御装置とを備える無線通信システムであって、前記無線通信装置の各々は、アレイアンテナと、指向性を有する無線電波のビームを前記アレイアンテナにより形成して無線通信を行う無線通信部と、自装置の状態を示す環境状態データを検出する環境センサと、前記環境センサが検出する前記環境状態データを他の無線通信装置に送信する環境状態データ送信部と、前記無線通信部が行う無線通信の前記ビームの方向を示すビーム方向データと、前記無線通信部が行う無線通信の無線通信品質を示す無線通信品質データとを検出し、検出した前記ビーム方向データと前記無線通信品質データとを前記リモート制御装置に送信する無線通信品質監視部と、を備え、前記リモート制御装置は、複数の前記無線通信装置の各々の前記環境状態データ送信部が送信する前記環境状態データを受信して出力する環境状態データ取得部と、前記環境状態データ取得部が取得する前記環境状態データと、複数の前記無線通信装置の各々の前記無線通信品質監視部から受信する前記無線通信装置ごとの前記ビーム方向データ及び前記無線通信品質データとから前記無線通信装置ごとに予め求めるビームの方向の補正方策を示す関数と、ある通信期間において複数の前記無線通信装置の各々の前記無線通信品質監視部から受信する前記ビーム方向データと、当該通信期間において前記環境状態データ取得部が取得する前記環境状態データとに基づいて、当該通信期間の次の通信期間における前記ビームの方向の補正方策を前記無線通信装置ごとに求め、求めた前記ビームの方向の補正方策の中から最適なビームの方向の補正方向を前記無線通信装置ごとに選択し、選択した補正方向に基づいて前記無線通信装置の各々の前記無線通信部にビームの方向を補正させるビーム方向制御部と、を備える無線通信システムである。
【0023】
本発明の一態様は、アレイアンテナと、指向性を有する無線電波のビームを前記アレイアンテナにより形成して無線通信を行う無線通信部と、自装置の状態を示す環境状態データを検出する環境センサとを備える複数の無線通信装置の前記ビームの方向を補正するビーム方向補正方法であって、前記複数の無線通信装置の各々の前記環境センサが検出する前記環境状態データを取得し、前記無線通信部が行う無線通信の前記ビームの方向を示すビーム方向データを検出し、前記無線通信部が行う無線通信の無線通信品質を示す無線通信品質データを検出し、取得した前記環境状態データと、検出した前記ビーム方向データ及び前記無線通信品質データとから予め求めるビームの方向の補正方策を出力する関数と、ある通信期間において検出した前記ビーム方向データと、当該通信期間において取得した前記環境状態データとに基づいて、当該通信期間の次の通信期間における前記ビームの方向の補正方策を求め、求めた前記ビームの方向の補正方策の中から最適なビームの方向の補正方向を選択し、選択した補正方向に基づいて前記無線通信部にビームの方向を補正させる、ビーム方向補正方法である。
【発明の効果】
【0024】
本発明により、自装置の環境センサが検出する環境状態データが正常でない場合であっても、無線信号のビームの方向を適切な方向に補正することが可能になる。
【図面の簡単な説明】
【0025】
【
図1】第1の実施形態の無線通信システムの構成を示すブロック図である。
【
図2】第1の実施形態の無線通信装置の内部構成を示すブロック図である。
【
図3】第1の実施形態の環境状態データ取得部の内部構成、及び他の機能部との接続関係を示すブロック図である。
【
図4】第1の実施形態におけるビーム方向を説明するための図である。
【
図5】第1の実施形態のビーム方向制御部の内部構成、及びビーム方向制御部と他の機能部との接続関係を示すブロック図である。
【
図6】第1の実施形態の学習モデル部の内部構成、及び学習モデル部と他の機能部との接続関係を示すブロック図である。
【
図7】第1の実施形態の補正方策学習部の入出力情報、及び補正方策学習部と他の機能部との接続関係を示すブロック図である。
【
図8】第1の実施形態の環境センサ、センサ故障検出部、及び環境状態データ送信部による処理の流れを示すフローチャートである。
【
図9】第1の実施形態の環境状態データ取得部による処理の流れを示すフローチャートである。
【
図10】第1の実施形態の無線通信部、無線通信品質監視部、及びビーム方向制御部による処理の流れを示すフローチャートである。
【
図11】第2の実施形態の無線通信システムの構成を示すブロック図である。
【
図12】第2の実施形態の無線通信装置の内部構成を示すブロック図である。
【
図13】第2の実施形態のリモート制御装置の内部構成を示すブロック図である。
【
図14】第2の実施形態の環境状態データ取得部の内部構成、及び環境状態データ取得部と他の機能部との接続関係を示すブロック図である。
【
図15】第2の実施形態のビーム方向制御部の内部構成、及びビーム方向制御部と他の機能部との接続関係を示すブロック図である。
【
図16】第3の実施形態の無線通信システムの構成を示すブロック図である。
【
図17】第3の実施形態の無線通信装置の内部構成を示すブロック図である。
【
図18】第3の実施形態のビーム方向制御部の内部構成、及びビーム方向制御部と他の機能部との接続関係を示すブロック図である。
【
図19】第3の実施形態の無線通信部、無線通信品質監視部、及びビーム方向制御部による処理の流れを示すフローチャートである。
【
図20】従来の無線通信システムの構成を示すブロック図である。
【
図21】非特許文献2の無線通信装置の概要を示すブロック図である。
【発明を実施するための形態】
【0026】
(第1の実施形態)
以下、本発明の実施形態について図面を参照して説明する。
図1は、第1の実施形態による無線通信システム1の構成を示すブロック図である。無線通信システム1は、例えば、ミリ波帯の無線通信システムであり、無線通信装置10A,10B,10Cと、固定設置型無線通信装置70A,70B,70Cとを備える。無線通信装置10A,10B,10Cは、道路5に沿って設定された電柱3-1及び電柱3-2の間に張り渡されている吊り線4上に取り付けられる。固定設置型無線通信装置70A,70B,70Cは、建物2の壁面に固定的に設置されている。無線通信装置10A,10B,10Cと、固定設置型無線通信装置70A,70B,70Cとは、ミリ波帯の無線信号を送受信する装置であり、指向性のある無線電波のビームを形成して放射する。
【0027】
無風状態等の外力が加えられていない状態において、無線通信装置10Aが形成して放射する無線電波のビーム60Aと、固定設置型無線通信装置70Aが形成して放射する無線電波のビーム80Aとが対向するように、無線通信装置10Aが吊り線4上に取り付けられる。同様に、無風状態等の外力が加えられていない状態において、無線通信装置10Bが形成して放射する無線電波のビーム60Bと、固定設置型無線通信装置70Bが形成して放射する無線電波のビーム80Bとが対向するように、無線通信装置10Bが吊り線4上に取り付けられる。同様に、無風状態等の外力が加えられていない状態において、無線通信装置10Cが形成して放射する無線電波のビーム60Cと、固定設置型無線通信装置70Cが形成して放射する無線電波のビーム80Cとが対向するように、無線通信装置10Cが吊り線4上に取り付けられる。
【0028】
これにより、例えば、吊り線4に併設された電線や光ファイバを通じて、無線通信装置10A,10B,10Cがインターネット等の通信サービスに接続している場合、無線通信装置10A,10B,10Cの各々は、各々に対向する固定設置型無線通信装置70A,70B,70Cに対して、当該通信サービスを提供できることになる。
【0029】
無線通信装置10A,10B,10Cは、同一の内部構成を備える装置であり、以下、無線通信装置10A,10B,10Cの各々を、個別に特定せずに示す場合、「無線通信装置10」として示すものとする。なお、
図1では、一例として、3台の無線通信装置10A,10B,10Cと、3台の固定設置型無線通信装置70A,70B,70Cとを示しているが、無線通信システム1は、3台を超える同一構成の無線通信装置10A,10B,10C,10D,…と、無線通信装置10A,10B,10C,10D,…の台数に一致し、各々が同一構成である固定設置型無線通信装置70A,70B,70C,…とを備えていてもよい。以下の説明において、無線通信装置10が内部に備える機能部に対応する無線通信装置10A,10B,10Cの機能部を個別に示す必要がある場合、無線通信装置10A,10B,10Cの各々に付されている英字の符号である「A」、「B」、「C」を付して示すものとする。例えば、
図2に示す無線通信装置10の無線通信部16に対応する無線通信装置10Aの機能部を示す場合、「無線通信部16A」として示すものとする。
【0030】
図2は、無線通信装置10の内部構成を示すブロック図である。無線通信装置10の各々には、無線通信装置10の各々を識別可能な無線通信装置識別情報が予め付与されている。無線通信装置10は、環境センサ11、センサ故障検出部12、環境状態データ送信部13、環境状態データ取得部14、アレイアンテナ15、無線通信部16、無線通信品質監視部17、及びビーム方向制御部18を備える。環境センサ11は、測定間隔τ(秒)ごとに無線通信装置10に関わる環境状態データを検出する。ここで、無線通信装置10に関わる環境状態データとは、例えば、無線通信装置10の3次元空間における位置を示す位置データと、無線通信装置10の動きを表す速度を示す速度データである。なお、速度データは、環境センサ11が、例えば、圧電素子などを備えており、当該圧電素子から得られる加速度から求められる。
【0031】
センサ故障検出部12は、無線通信装置10の起動時、または、運用中に定期的に環境センサ11を試験して動作状態を検出し、検出した動作状態に基づいて、環境センサ11が故障しているか否かを判定する。試験の手法は、環境センサ11の種類に応じて予め定められており、例えば、環境センサ11が、電気エネルギーと機械エネルギーの変換で加速度を検出する圧電素子である場合、センサ故障検出部12は、環境センサ11に対して適切な範囲で外部電圧を印加し、外部電圧の印加した後の環境センサ11の機械的な動作が予め定められる範囲内に留まっているか否かを判定することにより、環境センサ11が故障しているか否かを判定する。
【0032】
センサ故障検出部12は、内部の記憶領域に自装置に付与されている無線通信装置識別情報を予め記憶する。センサ故障検出部12は、環境センサ11が出力する環境状態データを取り込み、取り込んだ環境状態データに内部の記憶領域が記憶する自装置の無線通信装置識別情報を付与する。
【0033】
センサ故障検出部12は、環境センサ11が故障していないと判定した場合、自装置の無線通信装置識別情報を付与した環境状態データを環境状態データ送信部13と、環境状態データ取得部14とに出力する。センサ故障検出部12は、環境センサ11が故障していると判定した場合、自装置の無線通信装置識別情報を付与した環境状態データに対して、更に、故障していることを示す故障情報を付与し、自装置の無線通信装置識別情報と、故障情報とを付与した環境状態データを環境状態データ送信部13と、環境状態データ取得部14とに出力する。
【0034】
環境状態データ送信部13は、センサ故障検出部12が出力する環境状態データを取り込み、取り込んだ環境状態データを他の無線通信装置10に送信する。
【0035】
環境状態データ取得部14は、
図3に示すように、自装置環境状態データ取得部21、他装置環境状態データ受信部22、及び環境状態データ選択部23を備える。自装置環境状態データ取得部21は、センサ故障検出部12が出力する無線通信装置10の環境状態データを取得し、取得した環境状態データを環境状態データ選択部23に出力する。
【0036】
他装置環境状態データ受信部22は、他の無線通信装置10の環境状態データ送信部13が送信する環境状態データを受信し、受信した環境状態データを環境状態データ選択部23に出力する。他装置環境状態データ受信部22において、環境状態データ選択部23に出力する環境状態データの上限値が定められており、例えば、上限値がN-1(ここで、Nは、1以上の整数である)であるとする。この場合に、他の無線通信装置10の台数が、N-1を超える数である場合、他装置環境状態データ受信部22は、複数の他の無線通信装置10から受信した複数の環境状態データの中から、任意に定める条件により、付与されている無線通信装置識別情報が異なるN-1個の環境状態データを選択し、選択したN-1個の環境状態データを環境状態データ選択部23に出力する。
【0037】
ここで、上限値N-1は、予め定められる固定値である。他装置環境状態データ受信部22は、複数の他の無線通信装置10から環境状態データを受信するごとに、受信した環境状態データの中から環境状態データ選択部23に出力する環境状態データを選択する処理を行う。当該処理を行う際、他装置環境状態データ受信部22は、最初に選択した環境状態データに付与されている無線通信装置識別情報が組み合わせと、2回目以降に選択する環境状態データに付与されている無線通信装置識別情報が組み合わせとが同一になるようにN-1個の環境状態データを選択するものとする。
【0038】
環境状態データ選択部23は、自装置環境状態データ取得部21が出力する無線通信装置10の環境状態データと、他装置環境状態データ受信部22が出力する他の無線通信装置10の環境状態データとを取り込む。上記したように、他装置環境状態データ受信部22が出力する環境状態データは、付与されている無線通信装置識別情報が異なるN-1個の環境状態データである。そのため、環境状態データ選択部23は、自装置環境状態データ取得部21が出力する環境状態データを含めて、付与されている無線通信装置識別情報が異なるN個の環境状態データを取り込むことになる。
【0039】
環境状態データ選択部23は、取り込んだ環境状態データに故障情報が付与されている環境状態データが含まれているか否かを判定する。環境状態データ選択部23は、取り込んだ環境状態データに故障情報が付与されている環境状態データが含まれている場合、故障情報が付与されていな環境状態データを選択し、選択した環境状態データをビーム方向制御部18に出力する。環境状態データ選択部23は、取り込んだ環境状態データに故障情報が付与されている環境状態データが含まれていない場合、取り込んだ全ての環境状態データをビーム方向制御部18に出力する。したがって、ビーム方向制御部18が取り込む環境状態データの数をMとすると、MとNとは、M≦Nという関係になる。
【0040】
なお、環境状態データ送信部13、及び他装置環境状態データ受信部22に適用される通信手段は、任意の通信方式による通信手段でよく、例えば、小電力近距離の無線通信方式、または、モバイルネットワークの無線通信方式であってもよい。例えば、吊り線4に電線や光ファイバが併設されており、これらの電線や光ファイバを利用した有線通信方式の通信手段であってもよい。
【0041】
図2に戻り、アレイアンテナ15は、自装置に対向するいずれか1つの固定設置型無線通信装置70A,70B,70Cが指向性を形成して送信する無線電波を受信し、受信した無線電波から得られる無線信号を無線通信部16に出力する。アレイアンテナ15は、無線通信部16が、アレイアンテナ15を構成する複数のアンテナの各々に出力する無線信号から指向性を有する無線電波のビームを形成して放射する。
【0042】
無線通信部16は、予め定められる無線周波数によって無線信号を送受信するための高周波回路、信号処理回路などのデバイスを備えており、自装置に対向するいずれか1つの固定設置型無線通信装置70A,70B,70Cとの間でアレイアンテナ15を介して無線信号を送受信する。無線通信部16は、ビーム方向制御部18が出力する制御指示信号に含まれる補正方向にしたがってビーム方向を補正し、補正したビーム方向に無線電波の指向性が形成されるように、アレイアンテナ15を構成する複数のアンテナの各々に対するウエイトを調整する。
【0043】
無線通信部16によるウエイトの調整は、例えば、アナログ方式によってアレイアンテナ15を構成する複数のアンテナに対して無線通信部16が出力する無線信号、及び複数のアンテナが無線通信部16に出力する無線信号の位相を調整することにより行ってもよい。デジタル方式によってアレイアンテナ15を構成する複数のアンテナに対して無線通信部16が出力する無線信号、及び複数のアンテナが無線通信部16に出力する無線信号の振幅と位相を調整することにより行ってもよい。アナログ方式とデジタル方式を組み合わせて、多段でアレイアンテナ15を構成する複数のアンテナに対して無線通信部16が出力する無線信号、及び複数のアンテナが無線通信部16に出力する無線信号の振幅と位相を調整することにより行ってもよい。
【0044】
無線通信品質監視部17は、無線通信部16からアレイアンテナ15が形成している指向性ビームの方向を示すビーム方向データを測定間隔τ(秒)ごとに検出する。
図4に示すように、無線通信装置10の3次元空間における位置を原点としたXYZ座標系を想定する。この場合、無線通信装置10のアレイアンテナ15が放射するビーム60のビーム方向61は、Z軸とビーム方向61とが成す角度である仰角θと、ビーム方向61をXY平面に射影した線62と、X軸とが成す角度である方位角φとによって特定される。ビーム方向61をベクトルで示すと、ビーム方向61のベクトルbは、次式(1)に示すようにX軸とY軸とZ軸の3つの成分で表される。
【0045】
【0046】
無線通信品質監視部17は、無線通信部16が無線信号を受信している際に得られる無線通信品質に関するデータ(以下「無線通信品質データ」という)を検出する。ここで、無線通信品質データとは、例えば、受信電力や受信電力対雑音比やビット誤り率などのデータである。無線通信品質監視部17は、検出したビーム方向データ、及び無線通信品質データをビーム方向制御部18に出力する。
【0047】
ビーム方向制御部18は、無線通信品質監視部17がτ(秒)ごとに検出するビーム方向データと、環境状態データ取得部14がτ(秒)ごとに出力する環境状態データとを取り込む。ビーム方向制御部18は、取り込んだビーム方向データと、環境状態データとに基づいて、無線通信品質監視部17が検出する無線通信品質を最適にするという条件下で、ビーム方向の補正方策を出力する関数を強化学習処理によって求める。ここで、無線通信品質を最適にするとは、例えば、対象としている無線通信品質が受信電力である場合、受信電力を最大値にすることである。
【0048】
ビーム方向制御部18は、十分な学習時間を経て強化学習処理により関数を求めると、求めた関数と、ある通信期間において取り込んだ環境状態データとビーム方向データとに基づいて、当該ある通信期間の次の通信期間におけるビーム方向の補正方策を求め、求めたビームの補正方策の中から最適なビーム方向の補正方向を選択する。ビーム方向制御部18は、選択した補正方向を含む制御指示信号を無線通信部16に出力する。
【0049】
ビーム方向制御部18は、
図5に示すように、学習モデル切替部31と、学習部32とを備える。学習部32は、複数の学習モデル部33-1,33-2,…,33-p,…,33-Vを備える。ここで、pは、1からVの範囲の任意の整数であり、学習モデル部33-pは、学習モデル部33-1~33-Vの中の任意の1つを示す。学習モデル部33-1~33-Vの個数Vは、次式(2)によって求められる。なお、環境状態データ取得部14の環境状態データ選択部23がビーム方向制御部18に出力する環境状態データの数の最大値であるNは、固定値であるため、学習モデル部33-1~33-Vの個数のVも固定値になる。
【0050】
【0051】
例えば、無線通信システム1が、3台の無線通信装置10A,10B,10Cを備えている場合、学習モデル部33-1~33-Vの各々に与えられる環境状態データの組み合わせは、無線通信装置10Aのみ、無線通信装置10Bのみ、無線通信装置10Cのみ、無線通信装置10A,10B、無線通信装置10A,10C、無線通信装置10B,10C、または、無線通信装置10A,10B,10Cの7通りとなる。この場合、V=7となり、7個の学習モデル部33-1~33-7は、上記の組み合わせのいずれか1つに予め対応付けられる。
【0052】
学習モデル切替部31は、内部の記憶領域に学習部32において強化学習処理が行われているか否かを示す処理種別フラグを備えている。学習モデル切替部31は、環境状態データ取得部14が出力する環境状態データを取り込み、取り込んだ環境状態データの各々に付与されている無線通信装置識別情報を検出する。学習モデル切替部31は、処理種別フラグが強化学習処理中であることを示している場合、検出した無線通信装置識別情報に基づいて、学習モデル部33-1~33-Vの各々に対して、各々に対応する環境状態データの組み合わせを出力する。
【0053】
例えば、無線通信システム1が、3台の無線通信装置10A,10B,10Cを備えており、学習モデル部33A-1~33A-7が、それぞれ、無線通信装置10Aのみ、無線通信装置10Bのみ、無線通信装置10Cのみ、無線通信装置10A,10B、無線通信装置10A,10C、無線通信装置10B,10C、無線通信装置10A,10B,10Cの組み合わせに対応付けられているとする。この場合、学習モデル切替部31は、学習モデル部31-1には、無線通信装置10Aの無線通信装置識別情報が付与された環境状態データを出力する。同様に、学習モデル切替部31は、学習モデル部31-2には、無線通信装置10Bの無線通信装置識別情報が付与された環境状態データを出力し、学習モデル部31-3には、無線通信装置10Cの無線通信装置識別情報が付与された環境状態データを出力する。
【0054】
学習モデル切替部31は、学習モデル部31-4には、無線通信装置10Aの無線通信装置識別情報が付与された環境状態データと、無線通信装置10Bの無線通信装置識別情報が付与された環境状態データとを出力する。同様に、学習モデル切替部31は、学習モデル部31-5には、無線通信装置10Aの無線通信装置識別情報が付与された環境状態データと、無線通信装置10Cの無線通信装置識別情報が付与された環境状態データとを出力し、学習モデル部31-6には、無線通信装置10Bの無線通信装置識別情報が付与された環境状態データと、無線通信装置10Cの無線通信装置識別情報が付与された環境状態データとを出力する。学習モデル切替部31は、学習モデル部31-7には、無線通信装置10Aの無線通信装置識別情報が付与された環境状態データと、無線通信装置10Bの無線通信装置識別情報が付与された環境状態データと、無線通信装置10Cの無線通信装置識別情報が付与された環境状態データとを出力する。
【0055】
これに対して、学習モデル切替部31は、処理種別フラグが強化学習処理中でないことを示している場合、検出した無線通信装置識別情報の組み合わせに対応するいずれか1つの学習モデル部33-1~33-Vに対して、取り込んだ環境状態データを出力する。
【0056】
以下、学習モデル部33-1~33-Vの中の一例である学習モデル部33-pの詳細な内部構成を、
図6を参照しつつ説明する。なお、
図6に示す機能部の中で、符号に「p」の枝番号が付されている機能部の「p」の値を、1からVの値の各々に置き換えることにより、学習モデル部33-1~33-Vの各々が備える内部構成を示すことになる。
【0057】
学習モデル部33-pは、補正方策学習部41-p、係数記憶部42-p、係数更新部43-p、及び補正方向選択部44-pを備える。補正方策学習部41-pは、学習モデル切替部31が出力する時刻tの環境状態データの組み合わせを取り込むと、無線通信品質監視部17が時刻tに検出して出力するビーム方向データを取り込む。ここで、時刻tは、t=1,2,…,T/τである。τ(秒)は、上記したように環境センサ11と、無線通信品質監視部17の測定間隔であり、補正方策学習部41-pによる強化学習処理の処理ステップの間隔でもある。なお、Tは、任意に定められる学習時間である。
【0058】
補正方策学習部41-pは、内部に関数近似器を備えており、当該関数近似器に係数記憶部42-pが記憶する係数を適用する。補正方策学習部41-pは、学習モデル切替部31が出力する環境状態データ及びビーム方向データを、係数を適用した関数近似器に与えてビーム方向の補正方向の方策、すなわち補正方向ごとの価値を算出する。なお、強化学習処理が完了することにより、価値の大きい補正方向ほど、正しい補正方向であることを表すことになり、このことから関数近似器は、時刻tの環境状態データ及びビーム方向データから時刻t+1における補正方向を予測していることになる。
【0059】
補正方策学習部41-pは、内部の記憶領域に強化学習処理を行っているか否かを示す処理種別フラグを備えている。補正方策学習部41-pは、処理種別フラグが、強化学習処理中であることを示している場合、関数近似器によって予測する最大の価値の補正方向にビーム方向を補正することにより無線通信品質監視部17が検出する無線通信品質データから算出する報酬が増加していくように強化学習処理を行い、最終的に、様々な環境状態において無線通信品質を最適にするビーム方向の補正方策を出力する関数を関数近似器において近似する。なお、補正方策学習部41-pが備える関数近似器が、深層ニューラルネットワークである場合、補正方策学習部41-pは、深層強化学習処理を行うことになり、この場合、係数とは、深層ニューラルネットワークの重みやバイアスになる。
【0060】
係数更新部43-pは、補正方策学習部41-pが強化学習処理を行っている場合に動作する機能部であり、強化学習処理後には動作しない機能部であることから点線で示している。係数更新部43-pは、補正方策学習部41-pの関数近似器が算出する補正方向ごとの価値が正しくなるように関数近似器の係数を更新し、更新した係数を係数記憶部42-pに書き込んで記憶させる。係数記憶部42-pは、初期状態では、係数の初期値を記憶しており、強化学習処理の間は、係数更新部43-pによって書き込まれる係数を記憶し、強化学習処理が完了した際には、学習済みの係数を記憶することになる。
【0061】
補正方向選択部44-pは、補正方策学習部41-pが出力するビーム方向の補正方策の中から価値が最大の補正方向をビーム方向の補正方向として選択する。補正方向選択部44-pは、選択した補正方向を含む制御指示信号を無線通信部16に出力する。
【0062】
(強化学習処理について)
ここで、更に、
図7を参照しつつ、無線通信装置10が行う強化学習処理の具体例について説明する。無線通信装置10が行う強化学習処理は、非特許文献2に示される深層Qネットワークを複数の無線通信装置10が存在する場合に拡張した強化学習処理であり、以下、非特許文献2に示されているいくつかの式を引用しつつ説明する。
【0063】
以下では、無線通信品質データが示す無線通信品質とは、受信電力であるとする。以下では、
図1に示した無線通信システム1、すなわち3台の無線通信システム10A,10B,10Cが備えられており、その中の無線通信装置10Aにおいて行われる強化学習処理を一例として説明する。無線通信装置10Aが備える学習モデル部33A-1~33A-7には、それぞれ、無線通信装置10Aの環境状態データ、無線通信装置10Bの環境状態データ、無線通信装置10Cの環境状態データ、無線通信装置10A,10Bの環境状態データ、無線通信装置10A,10Cの環境状態データ、無線通信装置10B,10Cの環境状態データ、無線通信装置10A,10B,10Cの環境状態データが与えられるものとし、以下では、一例として、無線通信装置10A,10B,10Cの環境状態データが与えられる学習モデル部33A-7について説明する。
【0064】
補正方策学習部41A-7は、時刻tにおいて、時刻tにおける無線通信装置10A,10B,10Cの環境状態データ、すなわち無線通信装置10A,10B,10Cの位置データ及び速度データを入力情報として取り込む。補正方策学習部41A-7は、自装置の無線通信品質監視部17Aが無線通信部16から検出して出力する時刻tのビーム方向データを入力情報として取り込む。
【0065】
補正方策学習部41A-7が行う強化学習処理とは、次式(3)で示される割引累積報酬Rtを最大化することである。
【0066】
【0067】
式(3)において、τ(秒)は、上記したように強化学習処理の処理ステップの間隔であり、γは、予め定められる割引率である。rは、瞬時報酬であり、次式(4)により、補正方策学習部41A-7が、無線通信品質監視部17Aが無線通信部16から検出する受信電力Pに基づいて算出する値である。
【0068】
【0069】
式(4)において、bc及びdcは、予め定められる定数であって強化学習の報酬を適切に与えるための定数である。ここで、bcは、バイアスであり、dcは、式(4)に示される-1≦(P-bc)/dc≦1を満たすようにするためのスケールファクタである。強化学習処理をQ学習によって行う場合、割引累積報酬Rtの期待値は、次式(5)に示す行動価値関数Qπ(s,a)によって表すことができる。ここで、Q学習とは、各時刻tの入力情報、すなわち無線通信装置10A,10B,10Cの位置データ及び速度データと、ビーム方向データとによって示される各時刻tの状態(state)において、価値(value)が最大になるような行動(action)、すなわち補正方向を選択していく学習手法である。
【0070】
【0071】
式(5)においてstは、補正方策学習部41A-7に与えられる時刻tの入力情報、すなわち時刻tにおける状態であり、時刻tの環境状態データ、すなわち無線通信装置10A,10B,10Cの各々の時刻tの位置データ及び速度データと、時刻tの無線通信装置10Aのビーム方向データである。
【0072】
式(5)においてatは、時刻tにおいて補正方向選択部44A-7が選択する行動、すなわちビーム方向の補正方向である。ビーム方向の補正方向は、次式(6)において示されるように「維持(stay)」、「仰角アップ(up)」,「仰角ダウン(down)」、「方位角左(left)」、「方位角右(right)」の5パターンのいずれか1つであり、1回の学習ステップにおける補正量βは、予め定められる固定量である。
【0073】
【0074】
式(5)において、πは、状態(state)を入力として与えた場合に行動(action)を出力する方策関数である。式(5)で表される行動価値関数Qπ(s,a)は、補正方策学習部41A-7が内部に備える関数近似器によって近似される関数であり、関数近似器がニューラルネットワークである場合、行動価値関数Qπ(s,a)は、Qネットワークを呼ばれ、更に、ニューラルネットワークが深層ニューラルネットワークである場合、深層Qネットワーク(以下「DQN」(Deep Q-Network)ともいう)と呼ばれる。なお、深層ニューラルネットワークに適用される係数δで示した場合、DQNは、Q(s,a;δ)として表すことができる。
【0075】
係数更新部43A-7による補正方策学習部41A-7の関数近似器に適用される係数の更新処理は、次式(7)によって求められる誤差eを減少させるように行われる。
【0076】
【0077】
DQN、すなわちQ(s,a;δ)の出力は、
図7に示すように補正方向として「維持」、「仰角アップ」,「仰角ダウン」、「方位角左」、「方位角右」の各々を選択した場合の価値である。補正方策学習部41A-7は、時刻tにおいて、係数記憶部42A-7が記憶する係数δが適用されたDQNに、入力情報s
tである無線通信装置10A,10B,10Cの各々の時刻tの位置データ及び速度データと、時刻tの無線通信装置10Aのビーム方向データとを与えて補正方向ごとの価値を算出する。
【0078】
補正方向選択部44A-7は、補正方策学習部41A-7が算出した価値が最大になる補正方向を選択する。ただし、時刻t=1では、補正方向選択部44A-7は、ランダムに補正方向を選択する。ここで、補正方向選択部44A-7が時刻tにおいて選択した補正方向atに対する価値、すなわちDQNの補正方向atに対する出力値が式(7)の第3項になる。補正方向選択部44A-7は、選択した補正方向atと、補正方向atに対する価値の値とを補正方策学習部41A-7に出力する。補正方策学習部41A-7は、補正方向選択部44A-7から受けた補正方向atに対する価値の値を係数更新部43A-7に出力する。
【0079】
補正方向選択部44A-7は、選択した補正方向atを含む制御指示信号を無線通信部16Aに出力する。無線通信部16Aは、補正方向選択部44A-7が出力する制御指示信号に含まれる補正方向atにしたがってビーム方向を補正し、補正したビーム方向に無線電波の指向性が形成されるように、アレイアンテナ15Aを構成する複数のアンテナの各々に対するウエイトを調整する。
【0080】
無線通信品質監視部17Aは、ビーム方向の補正後に無線通信部16Aが受信する無線信号の受信電力Ptを検出し、検出した受信電力Ptを補正方策学習部41A-7に出力する。なお、無線通信品質監視部17Aが繰り返し検出する受信電力Ptの中から補正方策学習部41A-7が、補正後のタイミングに対応する受信電力Ptを選択してもよいし、補正方策学習部41A-7が関数近似器を用いて補正方向ごとの価値を算出した後、ビーム方向の補正が完了する所定の時間後に、測定指示信号を無線通信品質監視部17Aに出力し、無線通信品質監視部17Aが当該測定指示信号を受けて受信電力Ptを検出するようにしてもよい。
【0081】
補正方策学習部41A-7は、無線通信品質監視部17Aが出力する受信電力Ptを取り込み、取り込んだ受信電力Ptから式(4)により瞬時報酬rを算出し、算出した瞬時報酬rの値を係数更新部43A-7に出力する。この瞬時報酬rが、次式(7)の右辺の第1項に相当する。
【0082】
補正方策学習部41A-7は、時刻t+1において、DQNを用いて補正方向ごとの価値を算出し、算出した価値の中の最大値に割引率γを乗算して、式(7)の右辺の第2項に対応する値を算出し、算出した値を係数更新部43A-7に出力する。なお、式(7)において右辺第3項の係数δと、右辺第2項の係数δ-との関係は、例えば、ある時刻tにおいて係数δ=係数δ-とし、その後、係数δが新たな係数δに更新されたとしても、係数δ-については、時刻tの係数δを維持するという関係がある。すなわち、第2式については、しばらくの間、継続して時刻tの係数δを引数として演算し続けることになる。その後、係数δが予め定められる所定回数更新され、その時刻をt+kとすると、時刻t+kの時点での係数δを、新たな係数δ-に置き換える。
【0083】
係数更新部43A-7は、補正方向選択部44A-7及び補正方策学習部41A-7から受けた値に基づいて、式(7)に基づいて誤差eを算出し、算出した誤差eを減少させるように、例えば、確率的勾配法などによって新たな係数δを算出し、算出した係数δを係数記憶部42A-7に書き込んで記憶させる。
【0084】
補正方策学習部41A-7が、係数記憶部42A-7が記憶する新たな係数δをDQNに適用して、上記の処理を行うことを繰り返すことにより、誤差eが小さくなるようにDQNが収束する。DQNが収束することにより、関数近似器は、いずれの状態stにおいても行動価値関数Qπ(s,a)が出力する価値を最適にする方策πを示す次式(8)で表される最適行動価値関数Q*(s,a)を近似することになる。
【0085】
【0086】
なお、強化学習処理が適切に進むように、ε貪欲法を適用し、補正方策学習部41A-7は、確率εに対応する時刻tにおいて、「維持」、「仰角アップ」,「仰角ダウン」、「方位角左」、「方位角右」のいずれか1つをランダムに選択するようにしてもよい。上記のように、処理ステップごとに係数δを更新するのではなく、補正方策学習部41A-7が、行動履歴、すなわち、状態、行動(選択した補正方向)、瞬時報酬、遷移先の状態の履歴を記憶させておき、記憶した行動履歴の中から強化学習処理に用いるものをランダムに選択してミニバッチを生成するExperienceReplayという手法を適用するようにしてもよい。なお、ミニバッチを用いる場合には、上記のように処理ステップごとに誤差eに基づいて係数δを更新するのではなく、ミニバッチの間に算出する複数の誤差eに、例えば、Huber損失などの損失関数を適用して、損失関数から得られる損失を減少させるように係数δを更新することになる。DQNではなく、非特許文献2に示されるDDQN(Double Deep Q-Network)や、Dueling深層Qネットワーク(Dueling Deep Q-Network)を適用するようにしてもよい。
【0087】
これにより、係数記憶部42A-7が記憶する学習済みの係数が適用された補正方策学習部41A-7に対して、ある通信期間において学習モデル切替部31Aが出力する無線通信装置10A,10B,10Cの位置データと速度データと、無線通信品質監視部17Aが出力する無線通信装置10Aのビーム方向データとが与えられると、補正方策学習部41A-7は、「維持」、「仰角アップ」、「仰角ダウン」、「方位角左」、「方位角右」の各々の補正方向における価値を出力する。補正方向選択部44A-7は、次式(9)に示す処理、すなわち、補正方策学習部41A-7が出力する価値の中で最大の価値に対応する補正方向を選択し、選択した補正方向を含む制御指示信号を無線通信部16Aに出力する。無線通信部16Aは、補正方向選択部44A-7が出力する制御指示信号に含まれる補正方向にしたがってビーム方向を補正し、補正したビーム方向に無線電波の指向性が形成されるように、アレイアンテナ15Aを構成する複数のアンテナの各々に対するウエイトを調整する。
【0088】
【0089】
上記した強化学習処理が、他の学習モデル部33A-1~33A-6においても並列に行われ、他の無線通信装置10B,10Cの学習モデル部33B-1~33B-7、33C-1~33C-7においても同様の強化学習処理が並列に行われる。これにより、十分な学習時間が経過した後に、無線通信装置10A,10B、10Cの各々の学習モデル部33A-1~33A-7,33B-1~33B-7,33C-1~33C-7の係数記憶部42A-1~42A-7,42B-1~42B-7,42C-1~42C-7は、学習済みの係数を記憶することになる。
【0090】
無線通信装置10A,10B,10Cが備える環境センサ11A,11B,11Cにおいて、例えば、環境センサ11Aが故障している場合、無線通信装置10Aにおいて、環境センサ11Aが検出する環境状態データを必要とする学習モデル部33A-1,33A-4,33A-5,33A-7については、環境状態データの組み合わせが揃わないことになる。そのため、無線通信装置10Aの学習モデル切替部31Aは、学習モデル部33A-1,33A-4,33A-5,33A-7に対して環境状態データを出力せず、学習モデル部33A-1,33A-4,33A-5,33A-7において強化学習処理は行われず、それ以外の学習モデル部33A-2,33A-3,33A-6においてのみ強化学習処理が行われることになる。無線通信装置10B,10Cにおいても同様に、学習モデル部33B-1~33B-7,33C-1~33C-7の中で、環境センサ11Aが検出する環境状態データを必要とするものについては、強化学習処理が行われないことになる。
【0091】
(第1の実施形態の無線通信装置10による処理)
次に、
図8から
図10を参照しつつ、第1の実施形態の無線通信装置10による処理について説明する。ここでは、
図1に示すように無線通信システム1が、3台の無線通信装置10A,10B,10Cと、3台の固定設置型無線通信装置70A,70B,70Cとを備えている場合について説明する。
【0092】
図8は、無線通信装置10A,10B,10Cの環境センサ11A,11B,11C、センサ故障検出部12A,12B,12C、環境状態データ送信部13A,13B,13Cによる処理の流れを示すフローチャートである。環境センサ11A,11B,11Cの各々、センサ故障検出部12A,12B,12Cの各々、及び環境状態データ送信部13A,13B,13Cの各々において同様の処理が行われるため、以下、無線通信装置10Aの環境センサ11A、センサ故障検出部12A、及び環境状態データ送信部13Aに関する処理について説明する。
【0093】
無線通信装置10Aの環境センサ11Aは、測定間隔τ(秒)ごとに、環境状態データ、すなわち位置データ及び速度データを検出する。環境センサ11Aは、検出した環境状態データを、センサ故障検出部12Aに出力する(ステップSa1)。
【0094】
センサ故障検出部12Aは、センサ故障検出部12Aが出力する環境状態データを取り込み、取り込んだ環境状態データに対して、内部の記憶領域が記憶する自装置の無線通信装置識別情報を付与する(ステップSa2)。
【0095】
センサ故障検出部12Aは、既に行った試験の結果から環境センサ11Aが故障しているか否かを判定する(ステップSa3)。センサ故障検出部12Aは、環境センサ11Aが故障していないと判定した場合(ステップSa3、No)、処理をステップSa5に進める。一方、センサ故障検出部12Aは、環境センサ11Aが故障していると判定した場合(ステップSa3、Yes)、自装置の無線通信装置識別情報を付与した環境状態データに、更に、故障情報を付与する(ステップSa4)。センサ故障検出部12Aは、環境状態データを、環境状態データ送信部13Aと、環境状態データ取得部14Aとに出力する。環境状態データ送信部13Aは、センサ故障検出部12Aが出力する環境状態データを他の無線通信装置10B,10Cに送信する(ステップSa5)。その後、ステップSa1以降の処理が繰り返し行われる。
【0096】
図9は、無線通信装置10A,10B,10Cの環境状態データ取得部14A,14B,14Cによる処理の流れを示すフローチャートである。環境状態データ取得部14A,14B,14Cの各々において同様の処理が行われるため、ここでは、環境状態データ取得部14Aによる処理について説明する。
【0097】
環境状態データ取得部14Aの自装置環境状態データ取得部21Aは、センサ故障検出部12Aが出力する環境状態データを取り込み、取り込んだ環境状態データを環境状態データ選択部23Aに出力する。他装置環境状態データ受信部22Aは、他の無線通信装置10B,10Cが送信する環境状態データを受信し、受信した環境状態データを環境状態データ選択部23Aに出力する(ステップSb1)。なお、上限値N-1において、Nが3以上の値である場合、他装置環境状態データ受信部22Aは、他の無線通信装置10B,10Cの両方の環境状態データを環境状態データ選択部23Aに出力することになる。これに対して、Nが2である場合、他の無線通信装置10B,10Cのいずれか一方を選択し、選択したいずれか一方の他の無線通信装置10B,10Cの無線通信装置識別情報を内部の記憶領域に書き込み、内部の記憶領域が記憶する無線通信装置識別情報に対応する環境状態データを環境状態データ選択部23Aに出力する。なお、Nが最小値の1である場合、他装置環境状態データ受信部22Aは、他の無線通信装置10B,10Cの環境状態データを環境状態データ選択部23Aに出力せず、内部の記憶領域への無線通信装置識別情報の書き込みも行わない。
【0098】
環境状態データ選択部23Aは、自装置環境状態データ取得部21A及び他装置環境状態データ受信部22Aが出力する環境状態データを取り込む。環境状態データ選択部23Aは、取り込んだ環境状態データに故障情報が付与されている環境状態データが含まれているか否かを判定する(ステップSb2)。
【0099】
環境状態データ選択部23Aは、取り込んだ環境状態データに故障情報が付与されている環境状態データが含まれていないと判定した場合(ステップSb2、No)、取り込んだ全ての環境状態データを選択して処理をステップSb4に進める。一方、環境状態データ選択部23Aは、取り込んだ環境状態データに故障情報が付与されている環境状態データが含まれていると判定した場合(ステップSb2、Yes)、故障情報が付与されていない環境状態データを選択する(ステップSb3)。環境状態データ選択部23Aは、選択した環境状態データをビーム方向制御部18Aに出力する(ステップSb4)。その後、ステップSb1以降の処理が繰り返し行われ、2回目以降のステップSb1において、他装置環境状態データ受信部22Aは、内部の記憶領域が記憶する無線通信装置識別情報に対応する環境状態データのみを環境状態データ選択部23Aに出力する。これにより、環境状態データ選択部23Aが、他装置環境状態データ受信部22Aから取り込む環境状態データに対応する無線通信装置識別情報の組み合わせが固定されることになる。
【0100】
図10は、無線通信装置10A,10B,10Cの無線通信部16A,16B,16C、無線通信品質監視部17A,17B,17C、及びビーム方向制御部18A,18B,18Cによる処理の流れを示すフローチャートである。なお、ここでは、3台の無線通信装置10A,10B,10Cが存在することから、上記した強化学習処理の具体例の場合と同様に、無線通信装置10A,10B,10Cのビーム方向制御部18A,18B,18Cの学習部32A,32B,32Cの各々は、7個の学習モデル部33A-1~33A-7,33B-1~33B-7,33C-1~33C-7を備えることになる。
【0101】
無線通信部16A,16B,16Cの各々、無線通信品質監視部17A,17B,17Cの各々、及びビーム方向制御部18A,18B,18Cの各々において同様の処理が行われるため、ここでは、無線通信部16A、無線通信品質監視部17A、及びビーム方向制御部18Aによる処理について説明する。
【0102】
無線通信装置10Aが起動した初期状態において、学習モデル切替部31Aの内部の記憶領域の処理種別フラグと、学習部32Aの学習モデル部33A-1~33A-7の補正方策学習部41A-1~41A-7の各々の内部の記憶領域の処理種別フラグは、強化学習処理中であることを示す情報に初期設定される。その後、補正方策学習部41A-1~41A-7の各々は、強化学習処理を完了すると、各々の処理種別フラグの状態を強化学習処理中でないことを示す情報に書き換え、各々が学習モデル切替部31Aに強化学習処理が完了したことを通知する。学習モデル切替部31Aは、全ての補正方策学習部41A-1~41A-7から強化学習処理が完了した通知を受けると、内部の記憶領域の処理種別フラグを強化学習処理中でないことを示す情報に書き換る。
【0103】
ビーム方向制御部18Aの学習モデル切替部31Aは、環境状態データ取得部14Aの環境状態データ選択部23Aが出力する環境状態データを取り込む。学習モデル切替部31Aは、取り込んだ環境状態データに付与されている無線通信装置識別情報を検出する(ステップSc1)。学習モデル切替部31Aは、内部の記憶領域の処理種別フラグを参照し、処理種別フラグが強化学習処理中であることを示しているか否かを判定する(ステップSc2)。
【0104】
学習モデル切替部31Aは、処理種別フラグが強化学習処理中であることを示していると判定した場合(ステップSc2、Yes)、検出した無線通信装置識別情報に基づいて、学習モデル部33A-1~33A-7の各々に対して、各々に対応する環境状態データの組み合わせを出力する(ステップSc3)。学習モデル部33A-1~33A-7の各々は、上記した強化学習処理の1つの処理ステップを実行して(ステップSc4)、処理を終了する。
【0105】
一方、学習モデル切替部31Aは、処理種別フラグが強化学習処理中でないことを示していると判定した場合(ステップSc2、No)、検出した無線通信装置識別情報の組み合わせに対応するいずれか1つの学習モデル部33A-1~33A-7に対して、取り込んだ環境状態データを出力する(ステップSc5)。例えば、無線通信装置10Bの環境センサ11Bが故障している場合、学習モデル切替部31Aが取り込む環境状態データは、無線通信装置10A,10Cの環境センサ11A,11Cが検出した2つの環境状態データになる。この場合、学習モデル切替部31Aは、環境センサ11A,11Cが検出した2つの環境状態データの組み合わせに対応付けられている学習モデル部33A-5に取り込んだ2つの環境状態データを出力することになる。
【0106】
以下、一例として、学習モデル切替部31Aが検出した無線通信装置識別情報の組み合わせに学習モデル部33A-5が対応しているものとして、ステップSc6,Sc7の処理について説明する。学習モデル部33A-5の補正方策学習部41A-5は、学習モデル切替部31Aが出力する環境状態データを取り込んだ場合、内部の記憶領域が記憶する処理種別フラグを参照する。ここでは、既に学習モデル切替部31Aの処理種別フラグが強化学習処理中でないことを示しているため、補正方策学習部41A-7の内部の記憶領域が記憶する処理種別フラグも強化学習処理中でないことを示すことになる。
【0107】
処理種別フラグが強化学習処理中でないことを示しているため、補正方策学習部41A-5は、係数記憶部42A-5から学習済みの係数を読み出し、読みだした学習済みの係数を内部に備える関数近似器に適用する。補正方策学習部41A-5は、無線通信品質監視部17Aが出力するビーム方向データを取り込む。補正方策学習部41A-5は、取り込んだ環境状態データと、ビーム方向データとを学習済みの係数を適用した関数近似器に与える。補正方向選択部44A-5は、補正方策学習部41A-5の関数近似器が出力するビーム方向補正方策の中から最大の価値に対応する補正方向を選択する(ステップSc6)。
【0108】
補正方向選択部44A-5は、選択した補正方向を含む制御指示信号を無線通信部16Aに出力する。無線通信部16Aは、補正方向選択部44A-5が出力する制御指示信号に含まれる補正方向にしたがってビーム方向を補正し、補正したビーム方向に無線電波の指向性が形成されるように、アレイアンテナ15Aを構成する複数のアンテナの各々に対するウエイトを調整した上で、無線信号をアレイアンテナ15Aに出力する(ステップSc7)。これにより、無線通信装置10Aと固定設置型無線通信装置70Aの各々が放射する無線信号のビームの方向が対向する状態にすることが可能となり、風などの外因があったとしても、無線通信装置10Aと固定設置型無線通信装置70Aの間の無線通信品質を維持することが可能になる。なお、学習モデル部33A-5以外の他の学習モデル部33A-1~33A-4,33A-6,33A-7においても、学習モデル切替部31Aから各々に対応する環境状態データの組み合わせが与えられた場合、同様に、ステップSc6,Sc7の処理が行われてビーム方向が補正されることになる。
【0109】
なお、上記の
図8から
図10に示したフローチャートでは、無線通信システム1が、3台の無線通信装置10A,10B,10Cを備えている例について説明したが、無線通信システム1が、4台以上の無線通信装置10A,10B,10C,10D,…を備えている場合も、
図8から
図10に示した処理と同様の処理が、無線通信装置10A,10B,10C,10D,…の各々において行われる。
【0110】
上記の第1の実施形態の無線通信装置10において、無線通信部16は、指向性を有する無線電波のビームをアレイアンテナ15により形成して無線通信を行う。環境センサ11は、自装置の状態を示す環境状態データを検出する。環境状態データ送信部13は、環境センサ11が検出する環境状態データを他の無線通信装置10に送信する。環境状態データ取得部14は、自装置、及び、他の無線通信装置10の環境センサ11が検出する環境状態データを取得して出力する。無線通信品質監視部17は、無線通信部16が行う無線通信のビームの方向を示すビーム方向データと、無線通信部16が行う無線通信の無線通信品質を示す無線通信品質データとを検出する。ビーム方向制御部18は、環境状態データ取得部14が出力する環境状態データと、無線通信品質監視部17が検出するビーム方向データ及び無線通信品質データとから予め求めるビームの方向の補正方策を出力する関数と、ある通信期間において無線通信品質監視部が検出するビーム方向データと、当該通信期間において環境状態データ取得部14が出力する環境状態データとに基づいて、当該通信期間の次の通信期間におけるビームの方向の補正方策を求め、求めたビームの方向の補正方策の中から最適なビームの方向の補正方向を選択し、選択した補正方向に基づいて無線通信部16にビームの方向を補正させる。
【0111】
無線通信装置10において、センサ故障検出部12は、環境センサ11が故障しているか否かを判定し、環境センサ11が故障していると判定した場合、環境センサ11が検出する環境状態データに故障を示す故障情報を付与して環境状態データ送信部13及び環境状態データ取得部14に出力し、環境センサ11が故障していないと判定した場合、環境センサ11が検出する環境状態データを環境状態データ送信部13及び環境状態データ取得部14に出力する。この場合において、環境状態データ取得部14は、自装置、及び、他の無線通信装置10から取得する環境状態データの中から、故障情報が付与されていない環境状態データを選択して出力する。
【0112】
これにより、自装置、または、他の無線通信装置10の環境センサ11が故障して正常な環境状態データが取得できない場合であっても、環境状態データ取得部14の環境状態データ選択部23が正常でない環境状態データを除外する。そのため、学習モデル部33-1~33-Vにおいて、無線通信品質に影響を与える風などの外因が複雑化する条件であっても、正常な環境状態データに基づく強化学習処理を行うことが可能になる。他の無線通信装置10の環境センサ11が検出する環境状態データを強化学習処理に利用するため、自装置の環境センサ11が故障して正常な環境状態データが取得できない場合であっても、自装置のビーム方向の補正方策を出力する関数を求める強化学習処理を行うことが可能になる。自装置の環境センサ11が検出する環境状態データに加えて、他の無線通信装置10の環境センサが検出する環境状態データを強化学習処理に利用するため、自装置の環境センサ11が検出する環境状態データのみによって行う強化学習処理よりも、より精度の高い自装置のビーム方向の補正方策を出力する関数を求める強化学習処理を行うことが可能になる。
【0113】
また、環境センサ11が検出する環境状態データにノイズや誤差が重畳する場合、第1の実施形態の無線通信装置10では、自装置の環境センサ11が検出する環境状態データに加えて、他の無線通信装置10の環境センサが検出する環境状態データを利用して強化学習処理を行っていることから、ノイズや誤差の影響を抑制する関数を得ることができ、当該関数に基づいてビーム方向を補正することにより、受信電力の期待値が増加するという効果がある。
【0114】
また、上記した風が吹く場合には、無線通信装置10と吊り線4の全体に風の力が加わって、無線通信装置10の位置が変位することになる。これに対して、吊り線4に鳥が止まる場合、鳥が止まることにより生じる変位が、吊り線4を介して無線通信装置10に伝搬するため、鳥が止まったことによる変位の影響が、無線通信装置10の環境センサ11に遅れて到達することになる。このような場合であっても、第1の実施形態の無線通信装置10では、吊り線4上の複数の異なる位置に取り付けられている複数の無線通信装置10の環境センサ11の各々が取得した環境状態データを用いて強化学習処理を行っている。そのため、鳥が止まった位置から離れた位置に取り付けられている無線通信装置10においても、鳥が止まった位置に近い位置に取り付けられている無線通信装置10から得られた環境状態データを用いた強化学習処理を行うことができるので、自装置の環境センサ11が検出する環境状態データのみによって行う強化学習処理よりも、より精度の高い自装置のビーム方向の補正方策を出力する関数を求める強化学習処理を行うことが可能になる。
【0115】
強化学習処理が完了した後においても、環境状態データ取得部14の環境状態データ選択部23が正常でない環境状態データを除外するので、自装置の環境センサ11が検出する環境状態データが正常でない場合であっても、他の無線通信装置10の環境センサ11が検出する正常な環境状態データに基づいて、自装置の無線信号のビームの方向を適切な方向に補正することが可能になる。
【0116】
ところで、上記の第1の実施形態の構成において、無線通信装置10は、センサ故障検出部12を備えない構成とし、環境状態データ送信部13と、自装置環境状態データ取得部21が、環境センサ11が検出して出力する環境状態データを取り込むようにしてもよい。この場合、故障情報が環境状態データに付与されないことになり、正常でない環境状態データに基づいて、補正方向の選択が行われたり、強化学習処理が行われたりすることになるが、複数の無線通信装置10において検出した環境状態データに基づいて強化学習処理が行われるため、非特許文献2のように1地点の環境センサ211が検出する環境状態データのみによって強化学習処理を行うよりも、精度の高い精度の高いビーム方向の補正方策を出力する関数を求める強化学習処理を行うことが可能になる。それにより、センサ故障検出部12を備えない無線通信装置10であっても、非特許文献2の無線通信装置よりも精度の高いビーム方向の補正を行うことが可能である。なお、センサ故障検出部12を備えない構成の場合、環境状態データ送信部13と自装置環境状態データ取得部21の各々が、予め内部の記憶領域に自装置の無線通信装置識別情報を記憶させておき、環境センサ11が出力する環境状態データを取り込んだ際に、取り込んだ環境状態データに対して内部の記憶領域が記憶する自装置の無線通信装置識別情報を付与することになる。環境状態データ選択部23は、
図9のステップSb2,Sb3の処理を行わず、自装置環境状態データ取得部21と他装置環境状態データ受信部22とから取り込んだ環境状態データを全てビーム方向制御部18に出力することになる。
【0117】
上記の第1の実施形態において、以下のような構成としてもよい。無線通信装置10の他装置環境状態データ受信部22は、複数の無線通信装置10が吊り線4に取り付けられた位置関係を予め内部の記憶領域に記憶する。他装置環境状態データ受信部22は、他の無線通信装置10から環境状態データを受信すると、内部の記憶領域が記憶する複数の無線通信装置10が吊り線4に取り付けられた位置関係を参照し、受信した環境状態データの中から、自装置の近傍に位置しているN-1台の他の無線通信装置10に対応する環境状態データを選択する。例えば、他装置環境状態データ受信部22は、自装置の位置から近い順にN-1台の他の無線通信装置10に対応する環境状態データを選択する。他装置環境状態データ受信部22は、内部の記憶領域に選択した環境状態データに付与されている無線通信装置識別情報を書き込んで記憶させ、選択した環境状態データを環境状態データ選択部23に出力する。このようにすることで、環境状態が類似する近傍の位置に存在する他の無線通信装置10の環境状態データを用いてより精度の高いビーム方向の補正方策を出力する関数を求める強化学習処理を行うことが可能になる。
【0118】
上記の第1の実施形態において、一例として、無線通信品質データとして、受信電力を用いて強化学習処理を行う例を示しているが、受信電力以外の受信電力対雑音比やビット誤り率などのデータを用いて強化学習処理を行うようにしてもよい。
【0119】
上記の第1の実施形態において、他装置環境状態データ受信部22において定められる上限値N-1は、予め定められる固定値としているが、強化学習処理が完了した後においては、当初定めた上限値N-1以下であれば、可変値としてもよい。
【0120】
上記の第1の実施形態において、センサ故障検出部12が、環境センサ11の故障の有無を判定する際に、機械学習の手法によって、故障の有無を判定するようにしてもよい。
【0121】
上記の第1の実施形態では、複数の無線通信装置10が、同一のタイミングで起動することを前提とし、学習モデル部33-1~33-Vが、並列に強化学習処理を行うようにしている。現実には、複数の無線通信装置10が、同一のタイミングで起動するとは限らないため、無線通信装置10が起動した直後は、自装置の環境センサ11が検出する環境状態データのみによって強化学習処理を行い、その後、一定の時間が経過して、他の無線通信装置10の環境センサ11が検出する環境状態データを受信するタイミングで、上記の第1の実施形態のように、学習モデル部33-1~33-Vが、並列に強化学習処理を行うようにしてもよい。
【0122】
上記の第1の実施形態では、無線通信システム1が備える無線通信装置10の台数が予め分かっており、学習部32は、複数の無線通信装置10の組み合わせに応じた数の学習モデル部33-1~33-Vを備えるようにしている。これに対して、学習モデル切替部31が、新たな無線通信装置10の組み合わせを検出するごとに、新たに検出した組み合わせの強化学習処理のために必要となる学習モデル部33-1~33-Vを動的に生成していくという構成にしてもよい。
【0123】
上記の第1の実施形態では、学習モデル部33-1~33-Vは、関数近似器を用いてビーム方向の補正方策を出力する関数を求める深層Qネットワークを用いた深層強化学習処理を行うようにしているが、深層Qネットワーク以外の手法を用いた強化学習処理を行ってもよいし、関数近似器としてニューラルネットワークや深層ニューラルネットワーク以外の手段を適用するようにしてもよい。関数近似器を用いない強化学習処理によって当該関数を求めるようにしてもよいし、強化学習処理以外の機械学習などの手法によってビーム方向の補正方策を出力する関数を求めるようにしてもよい。
【0124】
(第2の実施形態)
第1の実施形態では、無線通信装置10が、自装置、及び他の無線通信装置10の環境センサ11が検出した環境状態データを取得し、ビームの方向の補正方策を出力する関数を強化学習処理により求める構成になっていた。そのため、他の無線通信装置10が多数存在する場合、無線通信装置10は、他の無線通信装置10から取得した大量の環境状態データを記憶する大容量の記憶領域を備える必要があり、更に、当該大量の環境状態データに対する処理を行うのに相応した性能のCPU(Central Processing Unit)を備える必要がある。言い換えると、他の無線通信装置10が多数存在する場合、第1の実施形態の無線通信装置10のハードウェアの構成は肥大化し、そのために、装置の重量が増大してしまうという課題がある。
【0125】
無線通信装置10が取り付けられる吊り線4には荷重制限があるため、無線通信装置10のハードウェア構成を簡素化して、装置を軽量化するのが望ましいと考えられる。そこで、第2の実施形態では、無線通信装置10を軽量化することを可能にしつつ、本発明の目的を達成する無線通信システム1aについて説明する。
【0126】
図11は、第2の実施形態による無線通信システム1aの構成を示すブロック図である。第2の実施形態において、第1の実施形態の無線通信システム1と同一の構成については、同一の符号を付し、以下、異なる構成について説明する。
【0127】
無線通信システム1aは、例えば、ミリ波帯の無線通信システムであり、無線通信装置10aA,10aB,10aCと、固定設置型無線通信装置70A,70B,70Cと、リモート制御装置50とを備える。無線通信装置10aA,10aB,10aCは、道路5に沿って設定された電柱3-1及び電柱3-2の間に張り渡されている吊り線4上に取り付けられる。固定設置型無線通信装置70A,70B,70Cは、建物2の壁面に固定的に設置されている。無線通信装置10aA,10aB,10aCと、固定設置型無線通信装置70A,70B,70Cとは、ミリ波帯の無線信号を送受信する装置であり、指向性のある無線電波のビームを形成して放射する。無線通信装置10aA,10aB,10aCの吊り線4への取り付け方は、第1の実施形態の無線通信装置10A,10B,10Cの吊り線4への取り付け方と同一である。
【0128】
リモート制御装置50は、例えば、遠方の局舎内などの遠隔地に設置されており、無線通信装置10aA,10aB,10aCの各々に、任意の通信方式による通信手段によって接続する。ここで、任意の通信方式による通信手段とは、例えば、モバイルネットワークの無線通信方式による通信手段であってもよい。例えば、吊り線4に電線や光ファイバが併設されており、これらの電線や光ファイバが通信網に接続しており、当該通信網にリモート制御装置50が有線通信方式で接続するという形態であってもよい。
【0129】
無線通信装置10aA,10aB,10aCの各々は、同一の内部構成を備える装置であり、以下、無線通信装置10aA,10aB,10aCの各々を、個別に特定せずに示す場合、「無線通信装置10a」として示すものとする。なお、
図11では、一例として、3台の無線通信装置10aA,10aB,10aCと、3台の固定設置型無線通信装置70A,70B,70Cとを示しているが、無線通信システム1aは、3台を超える同一構成の無線通信装置10aA,10aB,10aC,10aD,…と、無線通信装置10aA,10aB,10aC,10aD,…の台数に一致し、各々が同一構成である固定設置型無線通信装置70A,70B,70C,…とを備えていてもよい。以下の説明において、無線通信装置10aが内部に備える機能部に対応する無線通信装置10aA,10aB,10aCの機能部を個別に示す必要がある場合、無線通信装置10aA,10aB,10aCの各々に対応する英字の符号である「A」、「B」、「C」を付して示すものとする。例えば、
図12に示す無線通信装置10aの無線通信品質監視部17aに対応する無線通信装置10aAの機能部を示す場合、「無線通信品質監視部17aA」として示すものとする。
【0130】
図12は、無線通信装置10aの内部構成を示すブロック図である。第1の実施形態と同様に、無線通信装置10aの各々には、無線通信装置10aの各々を識別可能な無線通信装置識別情報が予め付与されている。無線通信装置10aは、環境センサ11、センサ故障検出部12、環境状態データ送信部13a、アレイアンテナ15、無線通信部16、及び無線通信品質監視部17aを備える。環境状態データ送信部13aは、センサ故障検出部12が出力する環境状態データを取り込み、取り込んだ環境状態データをリモート制御装置50に送信する。
【0131】
無線通信品質監視部17aは、第1の実施形態の無線通信品質監視部17と以下の点を除いて同一の構成を備える。すなわち、第1の実施形態の無線通信品質監視部17は、検出したビーム方向データと、無線通信品質データとをビーム方向制御部18に出力する構成になっていた。これに対して、無線通信品質監視部17aは、内部の記憶領域に無線通信装置10aに予め付与されている無線通信装置識別情報を記憶しており、検出したビーム方向データと、無線通信品質データとに対して内部の記憶領域が記憶する無線通信装置識別情報を付与してリモート制御装置50に送信する。
【0132】
なお、第1の実施形態では、無線通信部16は、制御指示信号を自装置のビーム方向制御部18から受けていたが、第2の実施形態では、無線通信部16は、制御指示信号をリモート制御装置50から受信する。
【0133】
図13は、リモート制御装置50の内部構成を示すブロック図である。リモート制御装置50は、環境状態データ取得部14aと、ビーム方向制御部18aとを備える。環境状態データ取得部14aは、
図14に示すように、環境状態データ受信部24と、環境状態データ選択部23とを備える。環境状態データ受信部24は、全ての無線通信装置10aが送信する環境状態データを受信し、受信した環境状態データを環境状態データ選択部23に出力する。なお、第1の実施形態では、環境状態データ選択部23は、自装置環境状態データ取得部21と、他装置環境状態データ受信部22とが出力する環境状態データを取り込んでいたが、第2の実施形態では、環境状態データ受信部24が出力する環境状態データを取り込む。
【0134】
ビーム方向制御部18aは、
図15に示すように、データ振分部34と、学習モデル切替部31A,31B,31C,…と、学習モデル切替部31A,31B,31C,…の各々に接続する学習部32A,32B,32C,…とを備える。学習モデル切替部31A,31B,31C,…の個数と、学習部32A,32B,32C,…の個数は、無線通信システム1aが備える無線通信装置10aの台数に一致する。
図11に示す無線通信システム1aの場合、3台の無線通信装置10aA,10aB,10aCが備えられているため、ビーム方向制御部18aは、3つの学習モデル切替部31A,31B,31Cと、3つの学習部32A,32B,32Cを備えることになる。
【0135】
学習モデル切替部31A,31B,31C,…の各々は、いずれか1つの無線通信装置10aに予め対応付けられており、学習モデル切替部31A,31B,31C,…の各々も、各々が接続する学習モデル切替部31A,31B,31C,…に対応付けられている無線通信装置10aに予め対応付けられている。
【0136】
学習部32A,32B,32C,…は、それぞれV個の学習モデル部33A-1~33A-V,33B-1~33B-V,33C-1~33C-V,…を備える。ここで、Vは、第1の実施形態と同様に、式(2)によって求められる値であり、Nは、無線通信システム1aが備える無線通信装置10aの台数に一致する値である。
【0137】
学習モデル切替部31A,31B,31C,…は、第1の実施形態の学習モデル切替部31と同一の構成である。学習部32A,32B,32C,…は、第1の実施形態の学習部32と同一の構成である。そのため、学習モデル部33A-1~33A-V,33B-1~33B-V,33C-1~33C-V,…の各々は、各々の符号の「-1」~「-V」の枝番号が同一である第1の実施形態の学習モデル部33-1~33-Vの各々と同一の構成になる。
【0138】
データ振分部34は、環境状態データ取得部14aが出力する環境状態データを取り込み、取り込んだ環境状態データを学習モデル切替部31A,31B,31C,…の各々に出力する。第2の実施形態では、データ振分部34において上限値Nが予め固定値として定められている。無線通信装置10aの台数が、Nを超える数である場合、データ振分部34は、取り込んだ環境状態データに付与されてる無線通信装置識別情報に基づいて、学習モデル切替部31A,31B,31C,…の各々に対して、学習モデル切替部31A,31B,31C,…の各々に対応する無線通信装置10aの無線通信装置識別情報が付与されている環境状態データと、当該環境状態データ以外の環境状態データであって付与されている無線通信装置識別情報が異なるN-1個の環境状態データとを選択する。このようにすることで、例えば、学習モデル切替部31Aと学習部32Aとに、無線通信装置10aAが対応付けられている場合、学習部32Aにおいて行われる強化学習処理において、無線通信装置10aAにおいて検出した環境状態データを含めることができる。上記の付与されている無線通信装置識別情報が異なるN-1個の環境状態データについては、データ振分部34が、任意に定める条件にしたがって選択する。データ振分部34は、選択した環境状態データを学習モデル切替部31A,31B,31C,…の各々に出力する。
【0139】
これにより、学習モデル切替部31A,31B,31C,…が取り込む環境状態データの数は、N個に制限されることになる。ただし、学習モデル切替部31A,31B,31C,…の各々に繰り返し環境状態データを出力する際に、出力する環境状態データの組み合わせが固定されるように、データ振分部34は、学習モデル切替部31A,31B,31C,…の各々に最初に環境状態データを出力する際に、出力した環境状態データに付与されている無線通信装置識別情報を学習モデル切替部31A,31B,31C,…の各々に関連付けて内部の記憶領域に記憶させておく。データ振分部34は、2回目以降については、内部の記憶領域に記憶されている無線通信装置識別情報に対応する環境状態データの組み合わせを選択して学習モデル切替部31A,31B,31C,…の各々に出力する。これにより、学習モデル切替部31A,31B,31C,…の各々に与えられる環境状態データの組み合わせが固定されることになる。
【0140】
データ振分部34は、無線通信装置10aの各々に付与されている無線通信装置識別情報と、無線通信装置識別情報に対応する学習モデル切替部31A,31B,31C,…との関係を予め内部の記憶領域に記憶させている。データ振分部34は、無線通信装置10aの無線通信品質監視部17aから無線通信装置識別情報が付与されたビーム方向データと無線通信品質データを受信すると、無線通信装置識別情報に対応するいずれか1つの学習モデル切替部31A,31B,31C,…に対して、受信したビーム方向データと、無線通信品質データとを出力する。
【0141】
(第2の実施形態の無線通信装置10aとリモート制御装置50による処理)
第2の実施形態の無線通信装置10aの環境センサ11、センサ故障検出部12による処理は、
図8に示したフローチャートのステップSa1~Sa4と同一の処理が行われる。第1の実施形態では、ステップSa5において、センサ故障検出部12は、環境状態データ送信部13と、環境状態データ取得部14とに環境状態データを出力する処理が行われていた。これに対して、第2の実施形態では、ステップSa5の処理に替えて、センサ故障検出部12は、環境状態データ送信部13aに環境状態データを出力する。環境状態データ送信部13aは、センサ故障検出部12が出力する環境状態データを取り込み、取り込んだ環境状態データをリモート制御装置50に送信する処理を行う。
【0142】
次に、第2の実施形態のリモート制御装置50の環境状態データ取得部14aによる処理について説明する。第1の実施形態では、
図9に示したフローチャートのステップSb1において、自装置環境状態データ取得部21が、センサ故障検出部12が出力する環境状態データを取り込み、取り込んだ環境状態データを環境状態データ選択部23に出力する処理と、他装置環境状態データ受信部22が、他の無線通信装置10が送信する環境状態データを受信し、受信した環境状態データを環境状態データ選択部23に出力する処理が行われていた。これに対して、第2の実施形態では、
図9に示したフローチャートのステップSb1のタイミングにおいて、リモート制御装置50の環境状態データ受信部24が、無線通信装置10aの環境状態データ送信部13aが送信する環境状態データを受信し、受信した環境状態データを環境状態データ選択部23に出力する処理が行われる。その後、ステップSb2~Sb4と同一の処理が、リモート制御装置50の環境状態データ選択部23によって行われる。ただし、ステップSb4における環境状態データ選択部23の出力先は、ビーム方向制御部18aになる。
【0143】
次に、第2の実施形態のリモート制御装置50のビーム方向制御部18aによる処理について説明する。なお、ここでは、一例として、無線通信システム1aが、3台の無線通信装置10aA,10aB,10aCを備えており、学習モデル切替部31Aと学習部32Aが、無線通信装置10aAに予め対応付けられており、学習モデル切替部31Bと学習部32Bが、無線通信装置10aBに予め対応付けられており、学習モデル切替部31Cと学習部32Cが、無線通信装置10aCに予め対応付けられているとする。
【0144】
ビーム方向制御部18aのデータ振分部34は、
図10に示したフローチャートのステップSc1の処理が行われる前に、環境状態データ選択部23が出力する環境状態データを取り込み、取り込んだ環境状態データを学習モデル切替部31A,31B,31Cの各々に出力する処理を行う。ここで、上限値Nが3以上の値である場合、データ振分部34は、無線通信装置10aA,10aB,10aCの環境状態データを学習モデル切替部31A,31B,31Cの各々に出力する。
【0145】
これに対して、上限値Nが2である場合、データ振分部34は、学習モデル切替部31Aについては、無線通信装置10aAの無線通信装置識別情報が付与された環境状態データと、無線通信装置10aBの無線通信装置識別情報が付与された環境状態データ、または、無線通信装置10aCの無線通信装置識別情報が付与された環境状態データのいずれか一方を選択して学習モデル切替部31Aに出力する。学習モデル切替部31Bについては、データ振分部34は、無線通信装置10aBの無線通信装置識別情報が付与された環境状態データと、無線通信装置10aAの無線通信装置識別情報が付与された環境状態データ、または、無線通信装置10aCの無線通信装置識別情報が付与された環境状態データのいずれか一方を選択して学習モデル切替部31Bに出力する。学習モデル切替部31Cについては、データ振分部34は、無線通信装置10aCの無線通信装置識別情報が付与された環境状態データと、無線通信装置10aAの無線通信装置識別情報が付与された環境状態データ、または、無線通信装置10aBの無線通信装置識別情報が付与された環境状態データのいずれか一方を選択して学習モデル切替部31Bに出力する。
【0146】
なお、上限値Nが最小値である1である場合、データ振分部34は、学習モデル切替部31Aについては、無線通信装置10aAの無線通信装置識別情報が付与された環境状態データを出力し、学習モデル切替部31Bについては、無線通信装置10aBの無線通信装置識別情報が付与された環境状態データを出力し、学習モデル切替部31Cについては、無線通信装置10aCの無線通信装置識別情報が付与された環境状態データを出力する。
【0147】
上記したように、データ振分部34は、学習モデル切替部31A,31B,31Cの各々に最初に環境状態データを出力する際に、出力した環境状態データに付与されている無線通信装置識別情報を学習モデル切替部31A,31B,31Cの各々に関連付けて内部の記憶領域に記憶させておく。データ振分部34は、次回以降、内部の記憶領域に記憶されている無線通信装置識別情報に対応する環境状態データの組み合わせを選択して学習モデル切替部31A,31B,31Cの各々に出力する。これにより、学習モデル切替部31A,31B,31Cの各々に与えられる環境状態データの組み合わせが固定されることになる。
【0148】
データ振分部34は、受信したビーム方向データ及び無線通信品質データに付与されている無線通信装置識別情報に対応するいずれか1つの学習モデル切替部31A,31B,31Cに対して、受信したビーム方向データと、無線通信品質データとを出力する。その後、学習モデル切替部31A,31B,31Cの各々、及び学習部32A,32B,32Cの各々は、
図10のフローチャートに示した第1の実施形態の学習モデル切替部31と、学習部32が行う処理と同一の処理を行う。
【0149】
補正方向を含む制御指示信号を送信する場合、学習モデル部33A-1~33A-Vのいずれかが処理を行ったときには、処理を行った学習モデル部33A-1~33A-Vが、自らを備える学習部32Aに予め対応付けられている無線通信装置10aAの無線通信部16Aに制御指示信号を送信する。学習モデル部33B-1~33B-Vのいずれかが処理を行ったときには、処理を行った学習モデル部33B-1~33B-Vが、自らを備える学習部32Bに予め対応付けられている無線通信装置10aBの無線通信部16Bに制御指示信号を送信する。学習モデル部33C-1~33C-Vのいずれかが処理を行ったときには、処理を行った学習モデル部33C-1~33C-Vが、自らを備える学習部32Cに予め対応付けられている無線通信装置10aCの無線通信部16Cに制御指示信号を送信する。
【0150】
なお、上記では、無線通信システム1aが、3台の無線通信装置10aA,10aB,10aCを備えている例について説明したが、無線通信システム1aが、4台以上の無線通信装置10aA,10aB,10aC,10aD,…を備えている場合も、同様の処理が、無線通信装置10aA,10aB,10aC,10aD,…の各々において行われる。
【0151】
上記の第2の実施形態の構成により、第1の実施形態の無線通信システム1と同様の効果を奏する上に、無線通信装置10aの構成の簡素化、及び軽量化を図ることが可能になる。
【0152】
なお、上記の第2の実施形態の構成において、第1の実施形態と同様に、無線通信装置10aは、センサ故障検出部12を備えない構成とし、環境状態データ送信部13aが、環境センサ11が検出して出力する環境状態データを取り込むようにしてもよい。この場合、故障情報が環境状態データに付与されないことになり、正常でない環境状態データに基づいて、補正方向の選択が行われたり、強化学習処理が行われたりすることになるが、複数の無線通信装置10aにおいて検出した環境状態データに基づいて、リモート制御装置50において強化学習処理が行われるため、非特許文献2のように1地点の環境センサ211が検出する環境状態データのみによって強化学習処理を行うよりも、精度の高い精度の高いビーム方向の補正方策を出力する関数を求める強化学習処理を行うことが可能になる。それにより、センサ故障検出部12を無線通信装置10aが備えていなくとも、リモート制御装置50は、非特許文献2の場合よりも精度の高いビーム方向の補正を行うことが可能である。なお、センサ故障検出部12を備えない構成の場合、環境状態データ送信部13aが、予め内部の記憶領域に自装置の無線通信装置識別情報を記憶させておき、環境センサ11が出力する環境状態データを取り込んだ際に、取り込んだ環境状態データに対して内部の記憶領域が記憶する自装置の無線通信装置識別情報を付与することになる。リモート制御装置50の環境状態データ選択部23は、
図9のステップSb2,Sb3に対応する処理を行わず、環境状態データ受信部24から取り込んだ環境状態データを全てビーム方向制御部18aに出力することになる。
【0153】
上記の第2の実施形態において、以下のような構成としてもよい。リモート制御装置50のビーム方向制御部18aのデータ振分部34は、複数の無線通信装置10aが吊り線4に取り付けられた位置関係を予め内部の記憶領域に記憶する。データ振分部34は、環境状態データ取得部14aが出力する環境状態データを取り込むと、内部の記憶領域が記憶する複数の無線通信装置10aが吊り線4に取り付けられた位置関係を参照して、学習モデル切替部31A,31B,31C,…の各々に対して、各々に対応する無線通信装置10aに対応する環境状態データと、各々に対応する無線通信装置10aの近傍に位置しているN-1台の他の無線通信装置10aに対応する環境状態データとを選択し、選択した環境状態データを出力する。例えば、データ振分部34は、学習モデル切替部31A,31B,31C,…の各々に対応する無線通信装置10aの近傍に位置しているN-1台の他の無線通信装置10aに対応する環境状態データを選択する際、各々に対応する無線通信装置10aの位置から近い順にN-1台の他の無線通信装置10aに対応する環境状態データを選択する。データ振分部34は、内部の記憶領域に学習モデル切替部31A,31B,31C,…の各々に関連付けて、各々に対して選択した環境状態データに付与されている無線通信装置識別情報を書き込んで記憶させ、学習モデル切替部31A,31B,31C,…の各々に対して選択した環境状態データの組み合わせを、各々に対応する学習モデル切替部31A,31B,31C,…に対して出力する。このようにすることで、環境状態が類似する近傍の位置に存在する無線通信装置10aの環境状態データを用いてより精度の高いビーム方向の補正方策を出力する関数を求める強化学習処理を行うことが可能になる。
【0154】
上記の第2の実施形態において、データ振分部34において定められる上限値Nは、予め定められる固定値としているが、強化学習処理が完了した後においては、当初定めた上限値N以下であれば、可変値としてもよい。
【0155】
(第3の実施形態)
第1の実施形態では、無線通信装置10が備えるビーム方向制御部18の学習部32は、自装置、及び他の無線通信装置10を含むN台の無線通信装置10の組み合わせの数、すなわち、式(2)に示す演算により求められるV個の学習モデル部33-1~33-Vを備えていた。そのため、無線通信装置10の台数が増えると、学習モデル部33-1~33-Vの数が膨大になり、無線通信装置10のハードウェア構成が肥大化するという課題がある。
【0156】
無線通信装置10が取り付けられる吊り線4には荷重制限があるため、無線通信装置10のハードウェア構成を簡素化して、装置を軽量化するのが望ましいと考えられる。そこで、第3の実施形態では、無線通信装置10を軽量化することを可能にしつつ、本発明の目的を達成する無線通信システム1bについて説明する。
【0157】
図16は、第3の実施形態による無線通信システム1bの構成を示すブロック図である。第3の実施形態において、第1の実施形態の無線通信システム1と同一の構成については、同一の符号を付し、以下、異なる構成について説明する。
【0158】
無線通信システム1bは、例えば、ミリ波帯の無線通信システムであり、無線通信装置10bA,10bB,10bCと、固定設置型無線通信装置70A,70B,70Cとを備える。無線通信装置10bA,10bB,10bCは、道路5に沿って設定された電柱3-1及び電柱3-2の間に張り渡されている吊り線4上に取り付けられる。固定設置型無線通信装置70A,70B,70Cは、建物2の壁面に固定的に設置されている。無線通信装置10bA,10bB,10bCと、固定設置型無線通信装置70A,70B,70Cとは、ミリ波帯の無線信号を送受信する装置であり、指向性のある無線電波のビームを形成して放射する。無線通信装置10bA,10bB,10bCの吊り線4への取り付け方は、第1の実施形態の無線通信装置10A,10B,10Cの吊り線4への取り付け方と同一である。
【0159】
無線通信装置10bA,10bB,10bCの各々は、同一の内部構成を備える装置であり、以下、無線通信装置10bA,10bB,10bCの各々を、個別に特定せずに示す場合、「無線通信装置10b」として示すものとする。なお、
図16では、一例として、3台の無線通信装置10bA,10bB,10bCと、3台の固定設置型無線通信装置70A,70B,70Cとを示しているが、無線通信システム1bは、3台を超える同一構成の無線通信装置10bA,10bB,10bC,10bD,…と、無線通信装置10bA,10bB,10bC,10bD,…の台数に一致し、各々が同一構成である固定設置型無線通信装置70A,70B,70C,…とを備えていてもよい。以下の説明において、無線通信装置10bが内部に備える機能部に対応する無線通信装置10bA,10bB,10bCの機能部を個別に示す必要がある場合、無線通信装置10bA,10bB,10bCの各々に対応する英字の符号である「A」、「B」、「C」を付して示すものとする。例えば、
図17に示す無線通信装置10bのビーム方向制御部18bに対応する無線通信装置10bAの機能部を示す場合、「ビーム方向制御部18bA」として示すものとする。
【0160】
図17は、無線通信装置10bの内部構成を示すブロック図である。第1の実施形態と同様に、無線通信装置10bの各々には、無線通信装置10bの各々を識別可能な無線通信装置識別情報が予め付与されている。無線通信装置10bは、環境センサ11、センサ故障検出部12、環境状態データ送信部13、環境状態データ取得部14、アレイアンテナ15、無線通信部16、無線通信品質監視部17、及びビーム方向制御部18bを備える。
【0161】
ビーム方向制御部18bは、
図18に示すように、学習モデル切替部31bと、学習部32bとを備える。ここで、第1の実施形態と同様に、無線通信システム1bが備える無線通信装置10bの台数を「N」とした場合、学習部32bは、第1の実施形態の学習部32とは異なり、N個の学習モデル部33b-1,33b-2,…,33b-p,…,33b-Nを備える。なお、pは、1からNの範囲の任意の整数であり、学習モデル部33b-pは、学習モデル部33b-1~33b-Nの中の任意の1つを示す。
【0162】
第1の学習モデル部33-1~33-Vと異なり、第3の実施形態の学習モデル部33b-1~33b-Nの各々は、各々の符号の枝番号の数に一致する数の環境状態データを入力情報として取り込む構成を備える。
【0163】
例えば、無線通信システム1bが、3台の無線通信装置10bA,10bB,10bCを備えている場合、無線通信装置10bAは、3つの学習モデル部33bA-1,33bA-2,33bA-3を備える。この場合、学習モデル部33bA-3は、無線通信装置10bA,10bB,10bCの各々が備える環境センサ11A,11B,11Cが検出した3つの環境状態データを入力情報として取り込む。
【0164】
学習モデル部33bA-2は、無線通信装置10bA,10bB,10bCの各々が備える環境センサ11A,11B,11Cが検出した3つの環境状態データの中から予め固定的に定めた2つの環境状態データの組み合わせをとして取り込む。例えば、最初に、無線通信装置10bAの環境センサ11Aが検出した環境状態データと、無線通信装置10bBの環境センサ11Bが検出した環境状態データとの組み合わせを入力情報として学習モデル部33bA-2に与えると予め固定的に定めた場合、この組み合わせを継続して入力情報として学習モデル部33bA-2に与えるということである。
【0165】
予め固定的に定めた組み合わせを入力情報として学習モデル部33bA-2に与える理由は、以下のような理由である。例えば、強化学習処理の最初の処理ステップでは、無線通信装置10bAの環境センサ11Aが検出した環境状態データと、無線通信装置10bBの環境センサ11Bが検出した環境状態データとの組み合わせを入力情報として学習モデル部33bA-2に与え、次の処理ステップでは、無線通信装置10bAの環境センサ11Aが検出した環境状態データと、無線通信装置10bCの環境センサ11Cが検出した環境状態データとの組み合わせを入力情報として学習モデル部33bA-2に与え、さらに次の処理ステップでは、無線通信装置10bBの環境センサ11Bが検出した環境状態データと、無線通信装置10bCの環境センサ11Cが検出した環境状態データとの組み合わせを入力情報として学習モデル部33bA-2に与えるといったように、強化学習処理の各処理ステップにおいて入力情報を変えると、強化学習処理が収束しない恐れがあるからである。そのため、上記のように予め固定的に定めた2つの環境状態データの組み合わせを入力情報として学習モデル部33bA-2に与えることにしている。
【0166】
学習モデル部33bA-1は、複数の無線通信装置10bの各々が備える環境センサ11A,11B,11Cが検出した3つの環境状態データの中から予め固定的に定めた1つの環境状態データを入力情報として取り込む。この場合、予め固定的に定める1つの環境状態データは、自装置の環境センサ11が検出した環境状態データであることが好ましいが、他の無線通信装置10の環境センサ11が検出した環境状態データであってもよい。
【0167】
学習モデル部33b-pは、与えられる入力情報が上記のように予め固定的に定められたp個の環境状態データの組み合わせに変わる他は、
図6に示した第1の学習モデル部33-pと同一の構成を有する。
【0168】
これにより、学習部32bは、無線通信システム1bが備える無線通信装置10bの台数「N」を上限とする1以上の全ての整数値の数の各々に対応するビーム方向の補正方策を出力する関数を学習モデル部33b-1~33b-Nによる強化学習処理により求めることになる。例えば、無線通信システム1bが、
図16に示すように、3台の無線通信装置10bA,10bB,10bCを備えている場合、「1,2,3」の数の各々に対応するビーム方向の補正方策を出力する3つの関数が、学習モデル部33b-1,33b-2,33b-3による強化学習処理によって求められることになる。
【0169】
学習モデル切替部31bは、内部の記憶領域に学習部32bにおいて強化学習処理が行われているか否かを示す処理種別フラグを備えている。学習モデル切替部31bは、環境状態データ取得部14が出力する環境状態データを取り込み、取り込んだ環境状態データの各々に付与されている無線通信装置識別情報を検出する。
【0170】
学習モデル切替部31bは、上記した学習モデル部33b-1~33b-Nの各々に対して予め固定的に定められている無線通信装置10bの組み合わせに対応する無線通信装置識別情報の組み合わせを、学習モデル部33b-1~33b-Nの各々に関連付けて予め内部の記憶領域に記憶させている。学習モデル切替部31bは、処理種別フラグが強化学習処理中であることを示している場合、内部の記憶領域が記憶する無線通信装置識別情報の組み合わせと、学習モデル部33b-1~33b-Nとの対応付けと、検出した無線通信装置識別情報とに基づいて、学習モデル部33b-1~33b-Nの各々に対して、各々に対応する環境状態データの組み合わせを出力する。
【0171】
また、学習モデル切替部31bは、内部の記憶領域が記憶する無線通信装置識別情報の組み合わせに含まれるいずれかの無線通信装置識別情報を検出しなかった場合、内部の記憶領域が記憶する無線通信装置識別情報の組み合わせを変更する処理を行う。例えば、無線通信システム1bが、3台の無線通信装置10bA,10bB,10bCを備えており、無線通信装置10bAの学習モデル部33bA-3に、無線通信装置10bA,10bB,10bCの無線通信装置識別情報の組み合わせが対応付けられており、学習モデル部33bA-2に、無線通信装置10bA,10bBの無線通信装置識別情報の組み合わせが対応付けられており、学習モデル部33bA-1に、無線通信装置10bAの無線通信装置識別情報の組み合わせが対応付けられているとする。
【0172】
ここで、例えば、無線通信装置10bBの環境センサ11Bが故障したとする。環境状態データ取得部14の環境状態データ選択部23は、無線通信装置10bBの無線通信装置識別情報が付与された環境状態データを除外する。そのため、学習モデル切替部31bAに、無線通信装置10bBの無線通信装置識別情報が付与された環境状態データが与えられず、学習モデル切替部31bAは、無線通信装置10bA,10bCに対する2つの無線通信識別情報を検出するが、無線通信装置10bBの無線通信装置識別情報を検出しないことになる。この場合、学習モデル切替部31bAは、2つの環境状態データに基づいて強化学習処理を行う学習モデル部33bA-2に対応する無線通信識別情報の組み合わせを、無線通信装置10bA,10bBの無線通信装置識別情報の組み合わせから、検出した無線通信装置10bA,10bCの無線通信装置識別情報の組み合わせに変更する。
【0173】
この場合、学習モデル部33bA-2に与えられる入力情報が、強化学習処理の途中で、無線通信装置10bA,10bBに対応する環境状態データの組み合わせから、無線通信装置10bA,10bCに対応する環境状態データの組み合わせに変わることになる。そのため、無線通信装置10bA,10bBに対応する環境状態データの組み合わせを入力情報として継続的に与える場合よりも、強化学習処理が収束するまでに要する時間は長くなる。ただし、無線通信装置10bA,10bB,10bCに対応する3つの環境状態データには相関がある。そのため、強化学習処理の途中であり、無線通信装置10bA,10bBに対応する2つの環境状態データに基づいて事前学習された学習モデル部33bA-2に対して、無線通信装置10bA,10bCに対応する2つの環境状態データを与えて強化学習処理を継続する方が、無線通信装置10bA,10bCに対応する環境状態データを用いて強化学習処理を最初からやり直すよりも、強化学習処理が収束するまでに要する時間を短縮することができる。
【0174】
また、学習モデル切替部31bは、処理種別フラグが強化学習処理中でないことを示している場合、検出した無線通信装置識別情報の数に対応するいずれか1つの学習モデル部33b-1~33b-Nに対して、取り込んだ環境状態データを出力する。
【0175】
例えば、上記した、無線通信システム1bが、3台の無線通信装置10bA,10bB,10bCを備えており、無線通信装置10bAの学習モデル部33bA-3に、無線通信装置10bA,10bB,10bCの無線通信装置識別情報の組み合わせが対応付けられており、学習モデル部33bA-2に、無線通信装置10bA,10bBの無線通信装置識別情報の組み合わせが対応付けられており、学習モデル部33bA-1に、無線通信装置10bAの無線通信装置識別情報の組み合わせが対応付けられている例の場合、強化学習処理の間に、環境センサ11A,11B,11Bのいずれもが故障しなかった場合、学習モデル部33b-2は、無線通信装置10bA,10bBの環境センサ11A,11Bが検出した環境状態データに基づいて強化学習処理を完了させていることになる。強化学習処理の完了後に、例えば、無線通信装置10bBの環境センサ11Bが故障すると、学習モデル切替部31bは、無線通信装置10bA,10bCに対応する2つの環境状態データを取り込むため、「2」の数に対応する学習モデル部33bA-2に無線通信装置10bA,10bCに対応する環境状態データを入力情報として与えることになる。そのため、学習モデル部33bA-2が強化学習処理に用いた無線通信装置10bA,10bBの組み合わせとは異なる、無線通信装置10bA,10bCの環境状態データの組み合わせに基づいて補正方向を求めることになるが、無線通信装置10bA,10bB,10bCに対応する3つの環境状態データには相関があるため、求める補正方向の精度は、無線通信装置10bA,10bBの環境状態データの組み合わせを入力情報として与える場合よりは劣るものの、一定の程度で保証されることになる。
【0176】
(第3の実施形態の無線通信装置10bによる処理)
第3の実施形態の無線通信装置10bの環境センサ11、センサ故障検出部12、環境状態データ送信部13による処理は、
図8に示したフローチャートと同一の処理が行われる。また、無線通信装置10bの環境状態データ取得部14による処理は、
図9に示したフローチャートと同一の処理が行われる。
【0177】
図19は、無線通信装置10bの無線通信部16、無線通信品質監視部17、及びビーム方向制御部18bによる処理の流れを示すフローチャートである。ここでは、
図16に示すように無線通信システム1bが、3台の無線通信装置10bA,10bB,10bCと、3台の固定設置型無線通信装置70A,70B,70Cとを備えている場合について説明する。3台の無線通信装置10bA,10bB,10bCが存在することから、無線通信装置10bA,10bB,10bCのビーム方向制御部18bA,18bB,18bCの学習部32bA,32bB,32bCの各々は、3個の学習モデル部33bA-1~33bA-3,33bB-1~33bB-3,33bC-1~33bC-3を備えることになる。
【0178】
無線通信部16A,16B,16Cの各々、無線通信品質監視部17A,17B,17Cの各々、及びビーム方向制御部18bA,18bB,18bCの各々において同様の処理が行われるため、ここでは、無線通信部16A、無線通信品質監視部17A、及びビーム方向制御部18bAによる処理について説明する。
【0179】
無線通信装置10bAが起動した初期状態において、学習モデル切替部31bAの内部の記憶領域の処理種別フラグと、学習部32bAの学習モデル部33bA-1~33bA-3の補正方策学習部41A-1~41A-3の各々の内部の記憶領域の処理種別フラグは、強化学習処理中であることを示す情報に初期設定される。その後、補正方策学習部41A-1~41A-3の各々は、強化学習処理を完了すると、各々の処理種別フラグの状態を強化学習処理中でないことを示す情報に書き換え、各々が学習モデル切替部31bAに強化学習処理が完了したことを通知する。学習モデル切替部31bAは、全ての補正方策学習部41A-1~41A-3から強化学習処理が完了した通知を受けると、内部の記憶領域の処理種別フラグを強化学習処理中でないことを示す情報に書き換る。
【0180】
ビーム方向制御部18bAの学習モデル切替部31bAは、環境状態データ取得部14Aの環境状態データ選択部23Aが出力する環境状態データを取り込む。学習モデル切替部31bAは、取り込んだ環境状態データに付与されている無線通信装置識別情報を検出する(ステップSd1)。学習モデル切替部31bAは、内部の記憶領域の処理種別フラグを参照し、処理種別フラグが強化学習処理中であることを示しているか否かを判定する(ステップSd2)。
【0181】
学習モデル切替部31bAは、処理種別フラグが強化学習処理中であることを示していると判定した場合(ステップSd2、Yes)、内部の記憶領域が記憶する無線通信装置識別情報の組み合わせに含まれる全ての無線通信装置識別情報が検出できているか否かを判定する(ステップSd3)。学習モデル切替部31bAは、内部の記憶領域が記憶する無線通信装置識別情報の組み合わせに含まれる全ての無線通信装置識別情報が検出できていると判定した場合(ステップSd3、Yes)、処理をステップSd5に進める。
【0182】
一方、学習モデル切替部31bAは、内部の記憶領域が記憶する無線通信装置識別情報の組み合わせに含まれる全ての無線通信装置識別情報が検出できていないと判定した場合(ステップSd3、No)、検出した無線通信装置識別情報に基づいて、無線通信装置識別情報を検出できていない学習モデル部33bA-1~33bA-3に対応する無線通信装置識別情報の組み合わせを変更する処理を行う(ステップSd4)。
【0183】
上記した例のように、学習モデル切替部31bAの内部の記憶領域において、無線通信装置10bAの学習モデル部33bA-3に、無線通信装置10bA,10bB,10bCの無線通信装置識別情報の組み合わせが対応付けられており、学習モデル部33bA-2に、無線通信装置10bA,10bBの無線通信装置識別情報の組み合わせが対応付けられており、学習モデル部33bA-1に、無線通信装置10bAの無線通信装置識別情報の組み合わが対応付けられているとする。この場合に、無線通信装置10bBの環境センサ11Bが故障し、学習モデル切替部31bAは、無線通信装置10bA,10bCに対する2つの無線通信識別情報を検出したが、無線通信装置10bBの無線通信装置識別情報を検出しなかったとする。
【0184】
この場合、学習モデル切替部31bAは、ステップSd4の処理において、無線通信装置10bAの学習モデル部33bA-3については、3つの無線通信装置識別情報の組み合わせを割り当てられず、学習モデル部33bA-3については、強化学習処理を継続できないため、内部の記憶領域が記憶する学習モデル部33bA-3に対する無線通信装置識別情報の組み合わせの対応付けを消去する。これにより、学習モデル部33bA-3には、それ以降、入力情報が学習モデル切替部31bAによって与えられないため、強化学習処理が行われないことになる。
【0185】
また、学習モデル切替部31bAは、内部の記憶領域が記憶する学習モデル部33bA-2と無線通信装置識別情報の組み合わせの対応付けを、無線通信装置10bA,10bBの無線通信装置識別情報の組み合わせから、検出した無線通信装置10bA,10bCの無線通信装置識別情報の組み合わせに変更する。これにより、学習モデル部33bA-2には、その後、無線通信装置10bA,10bCの環境センサ11A,11Cが故障しない間は、無線通信装置10bA,10bCに対応する環境状態データが入力情報として学習モデル部31bAによって継続的に与えられることになる。
【0186】
また、学習モデル切替部31bAは、学習モデル部33bA-1に対する無線通信装置識別情報の対応付けは変更せず、無線通信装置10bAの無線通信装置識別情報を対応付けた状態のままにしておく。
【0187】
学習モデル切替部31bAは、内部の記憶領域が記憶する学習モデル部33bA-1~33bA-3の各々に対応付けられている無線通信装置識別情報の組み合わせを参照し、学習モデル部33bA-1~33bA-3の各々に対して、各々に対応する環境状態データの組み合わせを出力する(ステップSd5)。学習モデル部33bA-1~33bA-3の各々は、第1の実施形態において説明した強化学習処理の1つの処理ステップを実行して(ステップSd6)、処理を終了する。
【0188】
一方、学習モデル切替部31bAは、処理種別フラグが強化学習処理中でないことを示していると判定した場合(ステップSd2、No)、検出した無線通信装置識別情報の数に対応するいずれか1つの学習モデル部33bA-1~33bA-3に対して、取り込んだ環境状態データを出力する(ステップSd7)。例えば、無線通信装置10bBの環境センサ11Bが故障している場合、学習モデル切替部31bAが取り込む環境状態データは、無線通信装置10A,10Cの環境センサ11A,11Cが検出した2つの環境状態データになる。この場合、学習モデル切替部31Aは、取り込んだ環境状態データの数、すなわち、検出した無線通信装置識別情報の数である「2」に対応する学習モデル部33bA-2に取り込んだ2つの環境状態データを出力することになる。
【0189】
ステップSd8,Sd9については、
図10に示したステップSc6,Sc7と同一の処理が、学習モデル切替部31bAによって環境状態データが与えられた学習モデル部33bA-1~33bA-3によって行われる。
【0190】
なお、上記の
図19に示したフローチャートでは、無線通信システム1bが、3台の無線通信装置10bA,10bB,10bCを備えている例について説明したが、無線通信システム1bが、4台以上の無線通信装置10bA,10bB,10bC,10bD,…を備えている場合も、
図19に示した処理と同様の処理が、無線通信装置10bA,10bB,10bC,10bD,…の各々において行われる。
【0191】
上記の第3の実施形態の構成により、強化学習処理の途中で、いずれかの無線通信装置10bの環境センサ11が強化学習処理の途中において故障した場合、第1の実施形態の無線通信システム1よりも、強化学習処理に要する時間が長くなる可能性があり、また、強化学習処理の完了後に、いずれかの無線通信装置10bの環境センサ11が故障した場合、強化学習処理の間の入力情報の組み合わせとは異なる組み合わせの環境状態データに基づいて補正方向を求めるため、補正方向の精度が第1の実施形態よりも低下する可能性があるというディメリットがある他は、第1の実施形態の無線通信システム1と同様の効果を奏しつつ、無線通信装置10bの学習部32bにおいて、学習モデル部33b-1~33b-Nの数を、無線通信システム1bが備える無線通信装置10bの台数に抑えることができるので、無線通信装置10bの構成の簡素化、及び軽量化を図ることが可能になる。
【0192】
また、第3の実施形態の構成を、第2の実施形態に適用してもよい。その場合、第2の実施形態のリモート制御装置50のビーム方向制御部18aは、N個の学習モデル切替部31A,31B,31C,…に替えて、N個の第3の実施形態の学習モデル切替部31bA,31bB,31bC,…を備えることになる。また、ビーム方向制御部18aが備えるN個の学習モデル部31A,31B,31C,…の各々は、V個の学習モデル部33A-1~33A-V,33B-1~33B-V,33C-1~33C-V,…に替えて、N個の学習モデル部33bA-1~33bA-N,33bB-1~33bB-N,33bC-1~33bC-N,…を備えることになる。
【0193】
上述した実施形態における無線通信装置10,10a、及びリモート制御装置50をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0194】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0195】
1…無線通信システム、10,10A,10B,10C…無線通信装置、11…環境センサ、12…センサ故障検出部、13…環境状態データ送信部、14…環境状態データ取得部、15…アレイアンテナ、16…無線通信部、17…無線通信品質監視部、18…ビーム方向制御部、70A,70B,70C…固定設置型無線通信装置