(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-29
(45)【発行日】2023-12-07
(54)【発明の名称】無線通信装置、ビーム方向制御装置、ビーム方向制御方法及びプログラム
(51)【国際特許分類】
H04B 7/06 20060101AFI20231130BHJP
H04W 16/28 20090101ALI20231130BHJP
【FI】
H04B7/06 950
H04W16/28
(21)【出願番号】P 2020104391
(22)【出願日】2020-06-17
【審査請求日】2022-08-01
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】黄 俊翔
(72)【発明者】
【氏名】白戸 裕史
(72)【発明者】
【氏名】北 直樹
(72)【発明者】
【氏名】山本 高至
(72)【発明者】
【氏名】香田 優介
【審査官】吉江 一明
(56)【参考文献】
【文献】米国特許出願公開第2019/0113967(US,A1)
【文献】国際公開第2019/010049(WO,A1)
【文献】西尾 理志,RGB-Dカメラと機械学習で無線通信品質を見る,電子情報通信学会誌 第102巻 第4号,日本,一般社団法人電子情報通信学会,2019年04月01日,第102巻,pp.346-352
【文献】三熊 智哉 他,深度画像を用いた深層強化学習によるミリ波通信のトラヒック制御の検討 ,情報処理学会 研究報告 高度交通システムとスマートコミュニティ(ITS) 2018-ITS-073 [online] ,日本,情報処理学会,2018年05月17日
(58)【調査した分野】(Int.Cl.,DB名)
H04B 7/06
H04W 16/28
(57)【特許請求の範囲】
【請求項1】
ビーム方向を制御可能な無線通信装置であって、
ビームを形成して無線通信を行う無線通信部と、
自装置の設置環境に関する情報である環境状態情報を取得するセンサと、
前記無線通信部による無線通信の品質を示す無線通信品質情報を取得する無線通信品質監視部と、
前記無線通信部に対してビーム方向の制御指示を出力するビーム方向制御部と、
を備え、
前記ビーム方向制御部は、
前記環境状態情報とビーム方向が制御された前後の前記無線通信品質情報とを用いて、前記環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御方法を示すビーム制御方策を学習し、学習結果に基づいて前記環境状態情報に応じた前記ビーム制御方策を決定し、決定した前記ビーム制御方策に従ったビーム方向の制御指示を前記無線通信部に出力する第1の学習部と、
環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習部が出力した前記制御指示に基づいてビーム方向が制御された前後の前記無線通信品質情報とを用いて、無線通信の品質を低下させる環境状態情報を生成する情報生成方策を学習し、学習された前記情報生成方策に基づいて環境状態情報を生成する第2の学習部と、
前記センサにより取得した前記環境状態情報と前記第2の学習部により生成された前記環境状態情報とのいずれを前記第1の学習部に入力するかを切り替える切替部と、
を備える、
無線通信装置。
【請求項2】
前記第1の学習部は、入力された前記環境状態情報と、前記無線通信部が形成しているビーム方向と、当該ビーム方向が
制御された前後の前記無線通信品質情報を比較して得られた無線通信の品質の変化とを用いて、
入力された前記環境状態情報及び
前記無線通信部が形成しているビーム方向に応じて無線通信の品質を向上させるビーム制御方策を学習し、学習結果に基づいて
、入力された前記環境状態情報と前記無線通信部が形成しているビーム方向とに応じた前記ビーム制御方策を決定し、決定した前記ビーム制御方策に従ったビーム方向の制御指示を前記無線通信部に出力する、
請求項1に記載の無線通信装置。
【請求項3】
前記第1の学習部は、前記ビーム制御方策に従って出力した前記制御指示によりビーム方向が変更された前後の無線通信の品質の変化に応じて前記ビーム制御方策に第1の報酬を付与し、前記第1の報酬に基づいて選択した前記ビーム制御方策を変更する、
請求項2に記載の無線通信装置。
【請求項4】
前記第2の学習部は、前記センサが取得した前記環境状態情報に当該環境状態情報と前記無線通信部が形成しているビーム方向とに対応した前記情報生成方策が示す演算を行って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習部が出力した前記制御指示に基づいてビーム方向が制御された前後の前記無線通信品質情報を比較して得られた無線通信の品質の変化とを用いて、
前記センサが取得した前記環境状態情報及び
前記無線通信部が形成しているビーム方向に応じて無線通信の品質を低下させる情報生成方策を学習し、学習結果に基づいて
、前記センサが取得した前記環境状態情報と前記無線通信部が形成しているビーム方向とに応じた前記情報生成方策を決定し、
前記センサが取得した前記環境状態情報に決定した前記情報生成方策が示す演算を行って前記第1の学習部に入力する環境状態情報を生成する、
請求項2又は請求項3に記載の無線通信装置。
【請求項5】
前記第2の学習部は、前記情報生成方策が示す演算を行って生成した前記環境状態情報に応じて前記第1の学習部が出力した前記制御指示によりビーム方向が変更された前後の無線通信の品質の変化に応じて前記情報生成方策に第2の報酬を付与し、前記第2の報酬に基づいて選択した前記情報生成方策を変更する、
請求項4に記載の無線通信装置。
【請求項6】
ビーム方向を制御可能な無線通信装置の設置環境に関する情報である環境状態情報と、前記無線通信装置のビーム方向が制御された前後それぞれにおける無線通信の品質を示す無線通信品質情報とを用いて、前記環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御の方法を示すビーム制御方策を学習し、学習結果に基づいて前記環境状態情報に応じた前記ビーム制御方策を決定し、決定した前記ビーム制御方策に従ったビーム方向の制御指示を前記無線通信装置に出力する第1の学習部と、
環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習部が出力した前記制御指示に基づいてビーム方向が制御された前後それぞれの前記無線通信品質情報とを用いて、無線通信の品質を低下させる環境状態情報を生成する情報生成方策を学習し、学習された前記情報生成方策に基づいて環境状態情報を生成する第2の学習部と、
前記無線通信装置のセンサにより取得した前記環境状態情報と前記第2の学習部により生成された前記環境状態情報とのいずれを前記第1の学習部に入力するかを切り替える切替部と、
を備えるビーム方向制御装置。
【請求項7】
ビーム方向を制御可能な無線通信装置が実行するビーム方向制御方法であって、
無線通信部が、ビームを形成して無線通信を行う通信ステップと、
センサが前記無線通信装置の設置環境に関する情報である環境状態情報を取得する環境状態情報取得ステップと、
無線通信品質監視部が、前記無線通信部による無線通信の品質を示す無線通信品質情報を取得する無線通信品質情報取得ステップと、
ビーム方向制御部が、前記無線通信部に対してビーム方向の制御指示を出力するビーム方向制御ステップとを有し、
前記ビーム方向制御ステップは、
前記環境状態情報とビーム方向が制御された前後の前記無線通信品質情報とを用いて、前記環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御の方法を示すビーム制御方策を学習し、学習結果に基づいて前記環境状態情報に応じた前記ビーム制御方策を決定し、決定した前記ビーム制御方策に従ったビーム方向の制御指示を前記無線通信部に出力する第1の学習ステップと、
環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習ステップにおいて出力された前記制御指示に基づいてビーム方向が制御された前後の前記無線通信品質情報とを用いて、無線通信品質を低下させる環境状態情報を生成する情報生成方策を学習し、学習された前記情報生成方策に基づいて環境状態情報を生成する第2の学習ステップと、
前記環境状態情報取得ステップにおいて取得された前記環境状態情報と前記第2の学習ステップにおいて生成された前記環境状態情報とのいずれを前記第1の学習ステップにおいて用いるかを切り替える切替ステップと、
を有するビーム方向制御方法。
【請求項8】
コンピュータを、
請求項6に記載のビーム方向制御装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、無線通信装置、ビーム方向制御装置、ビーム方向制御方法及びプログラムに関する。
【背景技術】
【0002】
近年、高速通信が可能なミリ波無線通信技術が注目されている。ミリ波帯を採用した無線通信システムとして、無線LAN(IEEE 802.11ad、802.11ay)/無線PAN(IEEE 802.15.3e)に加え、第五世代の移動体通信システムなどで国際標準規格が制定されている。
【0003】
周波数が6GHz以下のマイクロ波帯に比べて、周波数が数十GHz以上のミリ波帯では、伝搬減衰が大きいという特徴を有する。こうした伝搬減衰を補償するため、上記の標準化された無線通信システムでは、アレーアンテナを用いて指向性ビームを形成することにより無線通信品質を改善する技術が盛り込まれている。特定の方向に形成されたアレーアンテナのビーム(以下、ビーム方向と記載)により、ミリ波帯の無線通信システムは屋外での高速の無線伝送にも適用可能となった。
【0004】
屋外にミリ波無線通信システムを適用することにより、マクロセル(Macro-Cell)とピコセル(Pico-Cell)とを接続した無線通信システムがある(例えば、非特許文献1参照)。ピコセルは、主に屋外でエンドユーザに近い場所(電柱や架線等)に設置されることが一般的である。こうした屋外環境では、風などの外因により、設置された送信機の変位が頻繁に発生する。送信機の変位が発生すると、送受信で対向させるべきビーム方向の不対向が生じるため伝搬減衰を補償できず、無線通信品質の低下が頻発する。
【0005】
図8を用いて、風などの外因によりビーム方向の不対向が発生する一例を説明する。無線通信装置91は、電柱92と電柱93との間の架線94上に取り付けられている。一方、無線通信装置91の通信先の無線通信装置95は、建物96に設置されている。無線通信装置91のビームB91は、無線通信装置95のビームB95と対向するように設定される。しかし、
図8では、風の力により無線通信装置91が押されることによりビームB91の方向が対向する無線通信装置95のビームB95から外れてしまい、無線通信品質が低下するという事象が発生している。このように、小型化されたアンテナを用いる無線通信装置は、風などの外力によりビーム方向が不規則な運動で揺れ、対向する装置とのビーム不対向が生じる。
【0006】
通常のミリ波無線通信システムでは、無線通信品質を改善するため、通信する両方の無線通信装置でビーム方向を合わせる必要がある。ビーム方向を合わせる方法として、両方の無線通信装置それぞれが変更し得るビーム方向をすべて探索し、最良の無線通信品質が得られるビーム方向(例えば受信電力が最大となる方向)を特定した上で、その特定したビーム方向を通信相手に通知する方法が考えられる。しかし、風により頻繁に振動するような環境では、無線通信品質を維持するためには、双方の無線通信装置が最良の無線通信品質が得られるように頻繁にビーム方向を探索しなければならない。上述したようなビーム方向の探索が頻繁に行われた場合、利用可能な無線通信リソース(タイムスロットなど)の減少が大きな問題となる。
【0007】
上述のように、ミリ波無線通信システムでは、無線通信品質を改善するために通信する双方のビーム方向を対向させる必要があることから、頻繁にビーム方向に変動が生じる環境においては、頻繁にビーム方向を探索する必要性が増加する。しかし、無線通信装置がこの探索を行っている期間では、無線通信に利用可能なリソースが減少するという問題がある。
【0008】
一方で、人体によるシャドーイングという環境の外因により無線通信品質への影響が生じうるミリ波無線通信システムを、学習に基づいて制御する技術がある(非特許文献2参照)。
図9を用いて、この技術において想定される無線通信システムの構成概要と、その無線通信システムの無線通信品質に影響を与える外因について説明する。
図9に示すように、屋内にミリ波のアクセスポイント(以下、APと記載)98が2台設置されている。これら2台のAP98を、AP98-1、AP98-2と記載する。端末局(以下、STAと記載)99は、ビーム方向の変更により、AP98-1またはAP98-2と無線通信が可能である。歩行者97は、AP98-1とSTA99の間、またはAP98-2とSTA99の間のランダムな経路Wを移動する。歩行者97は、移動の方向や速度の変更も可能である。歩行者97がAP98-1とSTAとの間を横切る際のある瞬間に、AP98-1またはSTA99のいずれかのビーム、もしくはそれら両方のビームが歩行者97(人体)により遮蔽された場合、シャドーイングにより無線通信品質が大きく劣化する。こうした人体遮蔽の事象は、無線通信品質に影響を与える外因となる。
【0009】
非特許文献2では、上述した人体遮蔽といった外因の影響を克服するため、カメラの映像により歩行者の位置を把握し、その位置に基づいてSTAにとって最適な通信が可能なAPを選択する制御方法が提案されている。すなわち、通信中のAPとSTAの指向性ビームが人体に遮蔽される事象を外因として、カメラ映像で歩行者の位置情報を取得する。そして、取得した位置情報に基づいて遮蔽の発生を予測した上で、人体に遮蔽されないAPにSTAをハンドオーバさせるよう制御する。
図9に示す無線通信システムの場合、この動作例は次のようになる。すなわち、STA99は、AP98-1と通信中に、映像に基づいてAP98-1とSTA99との間を横断する歩行者97により遮蔽が生じると予測すると、予めビーム方向をAP98-2に向けるよう変更(ハンドオーバ制御)する。これにより、長期的に観測した無線通信品質(スループットの累積値など)を最大化して、人体遮蔽による無線通信品質の低下を回避できる。
【先行技術文献】
【非特許文献】
【0010】
【文献】S. Hur,et al.,“Millimeter Wave Beamforming for Wireless Backhaul and Access in Small Cell Networks”,Fig.1. Multi-tiered cell using wireless backhaul,IEEE Transactions on Communications,Vol. 61,No. 10,Oct. 2013
【文献】香田 他,“遮蔽者の位置情報を活用したミリ波通信ハンドオーバ制御への強化学習応用”,一般社団法人 電子情報通信学会,信学技報SR2017-131,2018年,p.95-102
【発明の概要】
【発明が解決しようとする課題】
【0011】
上述した非特許文献2の制御方法は、無線通信品質に影響を与える環境の外因として、屋内環境における人体遮蔽の事象のみを考慮している。これは、一人の歩行者の平面移動といった比較的単純な外因に対する制御方法である。このように、非特許文献2の技術では、比較的単純な外因について学習を行うため、膨大な処理リソースを用いることなく、環境状態/制御方法の対応関係をうまく学習できる。
【0012】
しかしながら、
図8に示したような屋外環境では、無線通信品質へ影響を与える外因が多数存在する。例えば、風の条件に関しては、瞬時風速や風向、大気密度、空気の抗力係数などの条件について考慮する必要がある。また、無線通信装置の設置条件に関しては、架線長、架線の材質、地上からの高さなどの条件について考慮する必要がある。このような、多数の外因についてすべて網羅的に学習することは非常に困難である。非特許文献2に示された学習に基づく制御方法では、外因が頻繁に変動するときに、新たな外因に対応しきれず、改めて学習する必要が生じる。言い換えれば、未学習の外因があれば、ビーム方向が不対向になりえる。つまり、この学習に基づく制御方法自体は、多数の外因が存在する環境においてはビーム方向制御の失敗回数が増えると考えられる。
【0013】
上記事情に鑑み、本発明は、複雑な外因の変動環境においても、ビーム方向制御の失敗を低減できる無線通信装置、ビーム方向制御装置、ビーム方向制御方法及びプログラムを提供することを目的としている。
【課題を解決するための手段】
【0014】
本発明の一態様は、ビーム方向を制御可能な無線通信装置であって、ビームを形成して無線通信を行う無線通信部と、自装置の設置環境に関する情報である環境状態情報を取得するセンサと、前記無線通信部による無線通信の品質を示す無線通信品質情報を取得する無線通信品質監視部と、前記無線通信部に対してビーム方向の制御指示を出力するビーム方向制御部と、を備え、前記ビーム方向制御部は、前記環境状態情報とビーム方向が制御された前後の前記無線通信品質情報とを用いて、前記環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御の方法を示すビーム制御方策を学習し、学習結果に基づいて前記環境状態情報に応じた前記ビーム制御方策を決定し、決定した前記ビーム制御方策に従ったビーム方向の制御指示を前記無線通信部に出力する第1の学習部と、環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習部が出力した前記制御指示に基づいてビーム方向が制御された前後の前記無線通信品質情報とを用いて、無線通信の品質を低下させる環境状態情報を生成する情報生成方策を学習し、学習された前記情報生成方策に基づいて環境状態情報を生成する第2の学習部と、前記センサにより取得した前記環境状態情報と前記第2の学習部により生成された前記環境状態情報とのいずれを前記第1の学習部に入力するかを切り替える切替部と、を備える、無線通信装置である。
【0015】
本発明の一態様は、ビーム方向を制御可能な無線通信装置の設置環境に関する情報である環境状態情報と、前記無線通信装置のビーム方向が制御された前後それぞれにおける無線通信の品質を示す無線通信品質情報とを用いて、前記環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御の方法を示すビーム制御方策を学習し、学習結果に基づいて前記環境状態情報に応じた前記ビーム制御方策を決定し、決定した前記ビーム制御方策に従ったビーム方向の制御指示を前記無線通信装置に出力する第1の学習部と、環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習部が出力した前記制御指示に基づいてビーム方向が制御された前後それぞれの前記無線通信品質情報とを用いて、無線通信の品質を低下させる環境状態情報を生成する情報生成方策を学習し、学習された前記情報生成方策に基づいて環境状態情報を生成する第2の学習部と、前記無線通信装置のセンサにより取得した前記環境状態情報と前記第2の学習部により生成された前記環境状態情報とのいずれを前記第1の学習部に入力するかを切り替える切替部と、を備えるビーム方向制御装置である。
【0016】
本発明の一態様は、ビーム方向を制御可能な無線通信装置が実行するビーム方向制御方法であって、無線通信部が、ビームを形成して無線通信を行う通信ステップと、センサが前記無線通信装置の設置環境に関する情報である環境状態情報を取得する環境状態情報取得ステップと、無線通信品質監視部が、前記無線通信部による無線通信の品質を示す無線通信品質情報を取得する無線通信品質情報取得ステップと、ビーム方向制御部が、前記無線通信部に対してビーム方向の制御指示を出力するビーム方向制御ステップとを有し、前記ビーム方向制御ステップは、前記環境状態情報とビーム方向が制御された前後の前記無線通信品質情報とを用いて、前記環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御の方法を示すビーム制御方策を学習し、学習結果に基づいて前記環境状態情報に応じた前記ビーム制御方策を決定し、決定した前記ビーム制御方策に従ったビーム方向の制御指示を前記無線通信部に出力する第1の学習ステップと、環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習ステップにおいて出力された前記制御指示に基づいてビーム方向が制御された前後の前記無線通信品質情報とを用いて、無線通信品質を低下させる環境状態情報を生成する情報生成方策を学習し、学習された前記情報生成方策に基づいて環境状態情報を生成する第2の学習ステップと、前記環境状態情報取得ステップにおいて取得された前記環境状態情報と前記第2の学習ステップにおいて生成された前記環境状態情報とのいずれを前記第1の学習ステップにおいて用いるかを切り替える切替ステップと、を有するビーム方向制御方法である。
【0017】
本発明の一態様は、コンピュータを、上述のビーム方向制御装置として機能させるためのプログラムである。
【発明の効果】
【0018】
本発明により、複雑な外因の変動環境においても、ビーム方向制御の失敗を低減させることが可能となる。
【図面の簡単な説明】
【0019】
【
図1】本発明の実施形態による無線通信装置の構成を示すブロック図である。
【
図2】同実施形態によるビーム方向制御部の構成を示すブロック図である。
【
図3】同実施形態によるビーム制御方策テーブルの例を示す図である。
【
図4】同実施形態による情報生成方策テーブルの例を示す図である。
【
図5】同実施形態によるビーム方向制御部の第1の学習モードにおける処理の例を示すフロー図である。
【
図6】同実施形態によるビーム方向制御部の第2の学習モードにおける処理の例を示すフロー図である。
【
図7】同実施形態による無線通信装置のハードウェア構成を示すブロック図である。
【
図8】ビーム方向の不対向が発生する例を説明するための図である。
【
図9】無線通信品質に影響を与える外因を説明するための図である。
【発明を実施するための形態】
【0020】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
【0021】
<無線通信装置の構成と機能>
図1は本発明の一実施形態による無線通信装置1の構成を示すブロック図である。無線通信装置1は、指向性ビームを用いて対向の通信相手である他の無線通信装置と電波を送受信する。通信相手の無線通信装置は、無線通信装置1から一定の方向に存在する。無線通信装置1は、無線通信部11と、無線通信品質監視部12と、環境センサ13と、ビーム方向制御部15とを備える。
【0022】
無線通信部11は、指向性ビームのビーム方向を変更可能なアレーアンテナ、所定の無線周波数の無線を送受信するための高周波回路、信号処理回路などのデバイスから構成される。無線通信部11により、無線通信装置1は他の無線通信装置と無線通信する。無線通信部11は、ビーム方向制御部15からの制御指示により指示されたビーム方向に電波の指向性を形成するよう、アレーアンテナのウェイトを適切に調整する。ウェイトの調整により、アナログ方式で各アンテナ素子に入出力する無線信号の位相を調整すること、もしくはデジタル方式で各アンテナ素子に入出力する無線信号の振幅と位相を調整することが可能である。あるいは、ウェイトの調整により、上記のアナログ方式と上記のデジタル方式を組合せて、多段で各アンテナ素子に入出力する無線信号の振幅または位相を調整することが可能である。
【0023】
無線通信品質監視部12は、自装置が無線通信に使用している指向性ビームのビーム方向と、そのビーム方向を用いた通信期間における無線通信品質に関する情報とを無線通信部11から取得する。無線通信品質に関する情報は、例えば、受信電力、受信電力対雑音比などである。以下の記載では説明の便宜上、無線通信品質を代表する例として受信電力を取り上げるが、他の指標を利用してもよい。無線通信品質監視部12は、取得したビーム方向を示すビーム方向情報と、取得した無線通信品質に関する情報を示す無線通信品質情報とをビーム方向制御部15に出力する。
【0024】
環境センサ13は、一つまたは複数のセンシング可能なデバイスから構成される。環境センサ13は、無線通信装置1の周辺の環境に関する情報である環境状態情報の検出又は取得を行う。環境状態情報は、例えば、風速、風向、無線通信装置1の運動回転速度や加速度、無線通信装置1の設置場所の高さなどである。環境センサ13は、検出又は取得した環境状態情報をビーム方向制御部15に出力する。
【0025】
ビーム方向制御部15は、無線通信装置1が無線通信に使用する指向性ビームのビーム方向を制御する。ビーム方向制御部15は、自装置が無線通信に使用しているビーム方向を示すビーム方向情報と、そのビーム方向を使用している通信期間において得られた無線通信品質情報とを無線通信品質監視部12から取得する。さらに、ビーム方向制御部15は、上記の通信期間における環境状態情報を環境センサ13から取得する。ビーム方向制御部15は、取得したこれらの情報に基づいて、次の通信期間において、通信相手とビーム方向を対向させるための制御指示を無線通信部11に出力する。通信相手とビーム方向を対向させるとは、最大受信電力が得られるように指向性ビームのビーム方向を調整することである。
【0026】
<ビーム方向制御部の構成と機能>
本実施形態におけるビーム方向制御部15が、ある通信期間における環境状態情報と無線通信に使用したビーム方向とを入力条件としてビーム制御方策を学習し、学習したビーム制御方策に基づいて次の通信期間で使用するビーム方向を制御する構成と機能を説明する。なお、ビーム制御方策とは、通信品質を向上させるためにビーム方向をどのように制御するかを表す。
【0027】
図2は、ビーム方向制御部15の詳細な構成を示すブロック図である。ビーム方向制御部15は、モード設定部151と、環境状態情報取得部152と、第1の学習部153と、第2の学習部154とを備える。
【0028】
ビーム方向制御部15は、第1の学習モードと第2の学習モードとの二つのモードで動作する。モード設定部151は、ビーム方向制御部15がそれら二つのモードのいずれで動作するかを設定する。第1の学習モードでは、第1の学習部153は、実際に環境センサ13により得られた環境状態情報を用いてビーム制御方策を学習する。第1の学習モードにおいて、モード設定部151は、第2の学習部154を動作させないように制御する。第2の学習モードにおいて、第2の学習部154は、実際には得られていない周辺の環境を疑似した環境状態情報を生成して第1の学習部153に入力する。これにより、多様な環境状態情報に応じたビーム制御方策を学習する契機を第1の学習部153に与える。以下では、第2の学習部154が生成した環境状態情報を疑似環境状態情報と記載する。
【0029】
モード設定部151は、例えば、無線通信装置1に取り付けられたディップスイッチなどの物理的なスイッチである。あるいは、モード設定部151は、無線通信装置1に実装されたソフトウェアにより実現されてもよい。この場合、第1の学習部153は、外部の制御用パーソナルコンピュータ(PC)からの指示、又は、ネットワーク経由の遠隔制御を受けてモードを変更してもよい。また、あるいは、モード設定部151は、事前に設定されたスケジューラに従って、所定の時間に第1の学習モードから第2の学習モードに切り替え、また別の時間に第2の学習モードから第1の学習モードに切り替えるように、動作モードを変更しても構わない。
【0030】
環境状態情報取得部152は、環境センサ13から環境状態情報を入力する。環境状態情報取得部152は、入力した環境状態情報を、第1の学習モードでは第1の学習部153に出力し、第2の学習モードでは第2の学習部154に出力する。モード設定部151及び環境状態情報取得部152により、環境センサ13が取得した環境状態情報と第2の学習部154が生成した疑似環境状態情報とのいずれを第1の学習部153に入力するかを切り替える切替部としての機能を実現する。
【0031】
第1の学習部153は、環境状態情報と、ビーム方向が制御された前後の無線通信品質情報とを用いて、環境状態情報に応じて無線通信の品質を向上させるビーム制御方策を学習し、学習結果に基づいてビーム方向の制御指示を無線通信部11に出力する。第1の学習部153は、ビーム制御方策記憶部1531及び第1の累積報酬記憶部1532を備える。ビーム制御方策記憶部1531は、ビーム制御方策テーブルを記憶する。ビーム制御方策テーブルは、環境状態情報に対応したビーム制御方策を示す。本実施形態では、ビーム制御方策は、現在のビーム方向からの補正量により表される。第1の累積報酬記憶部1532は、第1の累積報酬を記憶する。第1の累積報酬は、第1の報酬を加算した値である。第1の報酬は、ビーム制御方策によって無線通信品質が改善した程度に応じて付与される値である。本実施形態では、改善の程度が大きいほど大きな値の第1の報酬が付与される。第1の報酬は、段階的な値でもよい。
【0032】
第1の学習部153は、第1の学習モードにおいて、環境状態情報取得部152から環境状態情報を入力し、無線通信品質監視部12からビーム方向情報及び無線通信品質情報を入力する。第1の学習部153は、環境状態情報及びビーム方向に応じたビーム制御方策をビーム制御方策記憶部1531に記憶されているビーム制御方策テーブルから読み出す。第1の学習部153は、読み出したビーム制御方策に従ってビーム方向を制御するよう指示する制御指示を無線通信部11に出力する。
【0033】
第1の学習部153は、ビーム制御方策に基づく制御指示に従って変更されたビーム方向により無線通信が行われている間の無線通信品質情報を無線通信品質監視部12から入力する。第1の学習部153は、このビーム方向が変更された前後の無線通信品質情報が示す通信品質の変化に応じて、ビーム制御方策に第1の報酬を付与する。第1の学習部153は、付与した第1の報酬を第1の累積報酬記憶部1532に出力する。第1の累積報酬記憶部1532は、記憶している第1の累積報酬の値を、入力した第1の報酬を加算した値に更新する。第1の学習部153は、第1の報酬が低いビーム制御方策を変更する。これにより、第1の学習部153は、一定期間における第1の累積報酬が最大化するように、ビーム制御方策を変更する。
【0034】
第1の学習部153は、第2の学習モードにおいて、環境状態情報取得部152から環境状態情報を入力する代わりに、第2の学習部154から疑似環境状態情報を入力する。第1の学習部153は、この疑似環境状態情報を環境状態情報取得部152から入力した環境状態情報の代わりに用いて、上記の第1の学習モードと同様の動作を行う。
【0035】
第2の学習部154は、第1の学習モードでは動作せず、第2の学習モードにおいて動作する。第2の学習部154は、情報生成方策に従って生成された疑似環境状態情報と、疑似環境状態情報に応じて第1の学習部153が決定したビーム制御方策に基づいてビーム方向が制御された前後の無線通信品質情報とを用いて、無線通信品質を低下させる疑似環境状態情報を生成する情報生成方策を学習する。第2の学習部154は、学習結果の情報生成方策に基づいて生成した疑似環境状態情報を第1の学習部153に出力する。
【0036】
第2の学習部154は、情報生成方策記憶部1541及び第2の累積報酬記憶部1542を備える。情報生成方策記憶部1541は、情報生成方策テーブルを記憶する。情報生成方策テーブルは、環境状態情報と、その環境状態情報に基づいて生成された疑似環境状態情報と、疑似環境状態情報の情報生成方策との対応を示す図である。情報生成方策は、例えば、環境状態情報に対して行う演算により表される。本実施形態では、環境状態情報とビーム方向情報との組み合わせごとに情報生成方策が設定されるものとする。第2の累積報酬記憶部1542は、第2の累積報酬を記憶する。第2の累積報酬は、第2の報酬を加算した値である。第2の報酬は、疑似環境状態情報を用いて第1の学習部153が決定したビーム制御方策に基づく制御指示によって無線通信品質がどの程度低下したかに応じて付与される値である。本実施形態では、低下の程度が大きいほど大きな値の第2の報酬が付与される。第2の報酬は、段階的な値でもよい。
【0037】
第2の学習部154は、第2の学習モードにおいて、環境センサ13が出力した環境状態情報を環境状態情報取得部152から入力し、無線通信品質監視部12からビーム方向情報と無線通信品質情報を入力する。第2の学習部154は、環境状態情報が示す環境情報に関する情報とビーム方向情報が示すビーム方向との組み合わせに応じた情報生成方策を、情報生成方策記憶部1541に記憶される情報生成方策テーブルから読み出す。第2の学習部154は、環境状態情報が示す環境状態に関する情報に、読み出した情報生成方策が示す演算を行って、疑似環境状態情報を生成する。第2の学習部154は、環境状態情報取得部152から入力した環境状態情報と、その環境状態情報に基づいて生成された疑似環境状態情報とを対応付けて情報生成方策テーブルに書き込む。
【0038】
第2の学習部154は、生成した疑似環境状態情報を第1の学習部153に出力する。第1の学習部153は、第2の学習部154から入力した疑似環境情報に基づいて決定したビーム制御方策によるビーム方向の制御指示を無線通信部11に出力する。第2の学習部154は、この制御指示に従って変更されたビーム方向により無線通信が行われている通信期間の無線通信品質に関する情報を示す無線通信品質情報を無線通信品質監視部12から入力する。第2の学習部154は、制御指示の前後の通信期間における通信品質の変化に応じて、情報生成方策に第2の報酬を付与する。第2の学習部154は、第2の累積報酬記憶部1542に記憶されている第2の累積報酬を、付与した第2の報酬を加算した値に更新する。第2の学習部154は、第2の報酬が低い情報生成方策を変更する。これにより、第2の学習部154は、一定期間における第2の累積報酬が最大化するように、情報生成方策を学習する。
【0039】
図3は、ビーム制御方策記憶部1531に記憶されるビーム制御方策テーブルの例を示す図である。
図3に示すビーム制御方策テーブルは、ビーム方向及び環境状態情報の組み合わせごとのビーム制御方策及び前回取得報酬を示す。
図3においては、環境状態情報が風速であり、ビーム制御方策が現在のビーム方向に対する角度補正量である場合を例に示している。前回取得報酬は、対応するビーム制御方策により前回ビーム方向を制御したときに得られた第1の報酬を示す。
【0040】
図4は、情報生成方策記憶部1541に記憶される情報生成方策テーブルの例を示す図である。
図4に示す情報生成方策テーブルは、ビーム方向と、環境状態情報と、その環境状態情報に基づいて生成された疑似環境状態情報と、前回取得報酬と、疑似環境状態情報の生成に使用した情報生成方策とを対応付けた情報である。
図4においては、環境状態情報が風速である場合を例に示している。前回報酬は、対応する疑似環境状態情報及びビーム方向に応じて第1の学習部153が決定したビーム制御方策により前回ビーム制御を行ったときに得られた第2の報酬を示す。
【0041】
続いて、各学習モードにおけるビーム方向制御部15の動作を説明する。
【0042】
<第1の学習モード>
環境状態情報取得部152は、環境センサ13から環境状態情報を取得する。第1の学習モードでは、環境状態情報取得部152は、取得した環境状態情報を第1の学習部153に出力する。
【0043】
第1の学習部153は、環境状態情報取得部152から環境状態情報を入力し、さらに、無線通信品質監視部12からビーム方向情報及び無線通信品質情報を入力する。第1の学習部153は、ある通信期間において使用したビーム方向を示すビーム方向情報と、その通信期間内の環境状態情報とに応じて、次の通信期間で使用するビーム方向を、以下のように制御する。
【0044】
第1の学習部153は、入力したビーム方向の条件と、入力した環境状態情報の条件との組み合わせについて、次の通信期間において使用するビーム方向を学習する。この第1の学習部153に入力される環境状態情報は、例えば、時刻t0~tN(Nは1以上の整数)のそれぞれにおける瞬時風速[10m/s,8m/s,12m/s,…]といった時系列データの形式である。もしくは、環境状態情報は、時刻t0~tNの瞬時風速、風向、と無線通信装置1の設置高さなど、といった複数の要素から構成されるtuple(タプル)であっても構わない。
【0045】
ビーム方向を制御する一例として、例えば、第1の学習部153は、環境状態情報が示す時刻t0~tNの瞬時の風速が[10m/s,8m/s,12m/s,…]であるという条件と、入力されたビーム方向情報が示すビーム方向の条件との組み合わせに基づいて、各時刻の環境状態情報に対応する角度補正量が[5度,2度,11度,…]であるといった制御指示を無線通信部11に出力する。
【0046】
上記のように第1の学習部153は、入力した環境状態情報及びビーム方向情報に対応して角度補正量の制御指示を出力する。そのため、第1の学習部153は、ビーム制御方策記憶部1531に記憶されるビーム制御方策テーブルを参照して、現在のビーム方向と、過去に経験した環境状態情報とに対応した角度補正量のうち、現在と同じ環境状態情報に対応する角度補正量を取得する。第1の学習部153は、取得した角度補正量を設定した制御指示を無線通信部11に出力する。
【0047】
なお、ビーム制御方策テーブルに、現在のビーム方向と、過去に経験した環境状態情報とに対応する角度補正量が存在しない場合、第1の学習部153は、無線通信部11に設定可能な角度範囲内で任意の角度補正量のビーム制御方策を決定することができる。設定できる角度範囲は、無線通信装置1が保有するアレーアンテナの設計構成に依存し、事前に求められている。第1の学習部153は、ビーム制御方策記憶部1531に記憶されるビーム制御方策テーブルに、ビーム方向及び環境状態情報と、指示した角度補正量を設定したビーム制御方策とを対応付けて書き込む。第1の学習部153は、決定したビーム制御方策に基づく制御指示を、無線通信部11に出力する。
【0048】
なお、上記のような風速を示す環境状態情報は一例にすぎず、第1の学習部153は、風速以外の環境状態情報も取得し、複数の要素からなる環境状態情報を構成した上で、ビーム方向の制御指示を生成することも可能である。また、無線通信部11のビーム方向を変更させるための情報は、任意の形式で表現することができる。例えば、上記のような角度補正量ではなく、無線通信部11が電波の指向性を必要な方向で形成できるよう、アレーアンテナの各素子に必要なウェイトを出力してもよい。この場合、第1の学習部153は、ビーム方向を使用せずに、環境状態情報に対応したウェイトをビーム制御方策として取得してもよい。
【0049】
<第1の報酬の付与方法の一例>
第1の学習部153が出力した制御指示に従って無線通信部11がビーム方向を変更した結果は、次の通信期間において無線通信品質監視部12から取得される受信電力などの無線通信品質に反映される。第1の学習部153は、上記のビーム方向制御に伴う無線通信品質情報の変化に応じて第1の報酬を決定して、第1の累積報酬記憶部1532に記録する。報酬は、事前に決定された制御目的の達成度合いに応じて、任意の方法で付与される数値である。第1の学習部153の制御目的は、「ビーム方向制御により受信電力を向上させる」ことである。この制御目的に応じて第1の報酬を付与する方法の一例を説明する。
【0050】
例えば、第1の学習部153の制御目的に合わせ、ビーム方向制御前の受信電力とビーム方向制御後の受信電力とを比較して、3dB以上の増加である場合は報酬を100とし、0dB以上3dB未満の増加である場合は報酬を1とし、0dB未満の増加である場合は報酬を0とする。ただし、この第1の報酬の付与方法は一例にすぎず、制御目的と合致すれば、例えば機械学習により生成された報酬関数など、他の報酬付与方法を用いても構わない。
【0051】
第1の学習部153は、所定の報酬付与方法とビーム制御方策に基づくビーム方向制御の結果とに応じて第1の報酬を決定する。第1の学習部153は、第1の累積報酬記憶部1532に第1の報酬を出力する。第1の累積報酬記憶部1532は、現在の第1の累積報酬情報の値を、入力した第1の報酬を加算した値により更新する。このように、第1の学習部153は、制御結果を得る度に第1の報酬を決定し、第1の累積報酬記憶部1532は、その累積和を計算して記憶する。
【0052】
<ビーム制御方策テーブルの更新>
第1の学習部153は、新規の環境状態情報が入力された場合に、前述した通り、任意の角度補正量を出力することができる。しかし、その任意の角度補正量では必ずしも受信電力を最大化できないため、複数回の試行錯誤によって受信電力を最大化できる角度補正量を学習する必要がある。そのため、第1の学習部153は、環境状態情報に対応した前回取得報酬に、その環境状態情報に対応したビーム制御方策によって前回ビーム方向制御を行った後に付与された第1の報酬を書き込むことで、ビーム制御方策記憶部1531に記憶されるビーム制御方策テーブルを更新する。第1の学習部153は、前回取得報酬に設定されている第1の報酬が最大値でない場合に、その前回取得報酬に対応したビーム制御方策を変更する。例えば、第1の学習部153は、
図2示すビーム制御方策テーブルにおいて、最大値ではない前回取得報酬に対応した角度補正量を変更する。そして、第1の学習部153は、変更後の角度補正量によるビーム方向制御後に付与した第1の報酬を、ビーム制御方策テーブルに書き込む。このようにして、第1の学習部153は、ビーム制御方策テーブルの内容を更新し、ビーム制御方策記憶部1531に保持する。
【0053】
<第2の学習モード>
第2の学習モードでは、第1の学習部153及び第2の学習部154が動作する。第1の学習モードにおいて、第1の学習部153は、環境状態情報取得部152から入力される環境状態情報に基づいて、ビーム制御方策の学習が可能である。この環境状態情報は、環境センサ13によって実際に観測された、無線通信装置1の置かれた環境状態に関する情報を示す。しかし、実際に観測されず、無線通信装置1が経験していない環境状態については、ビーム制御方策を学習できない。特に、複雑な外因のある環境においては、有限な時間内ですべての環境状態を実際の観測で経験しきれない可能性が高い。経験していない環境状態について第1の学習部153が決定するビーム制御の方法の多くは、最適化されていないことが想定され、ビーム制御の失敗により通信品質が低下する恐れがある。
【0054】
そこで、第2の学習モードでは、環境状態情報取得部152が、実際の観測で経験していない疑似的な環境状態に関する情報である疑似環境状態情報を生成し、その生成した疑似環境状態情報を第1の学習部153へ入力する。第1の学習部153は、疑似環境状態情報を、過去に経験していない環境状態情報として認識し、そのような環境状態情報に対応できるよう、新しいビーム制御方策を学習し始める。つまり、環境状態情報取得部152は、第1の学習部153の学習を促進させる機能を有している。
【0055】
無線通信装置1には、数多くの環境状態が存在する。第1の学習モードでは、その存在する環境状態のうち、過去に経験した環境状態でしか学習ができない。第2の学習モードでは、第1の学習部153に、これまでに経験した環境状態とは異なる未経験の環境状態を疑似的に経験させる。よって、第1の学習部153は、未経験の環境状態でも学習が可能となる。
【0056】
第2の学習部154の機能を実現するには、第1の学習部153の学習を促進させると共に、自機能部においても、複雑な外因環境を模擬できるよう、疑似環境状態情報の情報生成方策について学習する必要がある。通常、複雑な外因環境は、第1の学習部153によるビーム方向制御の効果(例えば、受信電力の最大化)を劣化させるため、第1の学習部153の学習目的とは逆の学習目的を有していると考えられる。そこで、第2の学習モードでは、複雑な外因環境の影響を模擬する第2の学習部154は、第1の学習部153の学習目的とは逆に、受信電力を低下させる学習目的を持つ。
【0057】
第2の学習モードにおいて、第1の学習部153は、環境状態情報取得部152から入力した環境状態情報に代えて、第2の学習部154が生成した疑似環境状態情報を用いて、第1の学習モードと同様に、次の通信期間において受信電力を増大させるよう学習し、ビーム方向の制御指示を無線通信部11に出力する。なお、簡潔に説明するため、特段記載のない場合、第1の学習部153の動作は上記の第1の学習モードと同じであり、以下ではその詳細を省略する。
【0058】
第2の学習部154は、前述のように複雑な外因のある環境状態を模擬するため、第1の学習部153とは逆の目的を有しており、次の通信期間における受信電力を減少させるよう疑似環境状態情報の生成方策を学習する。
【0059】
環境状態情報取得部152は、環境センサ13から環境状態情報を取得する。第2の学習モードでは、環境状態情報取得部152は、取得した環境状態情報を第2の学習部154に入力する。また、無線通信品質監視部12が取得したビーム方向情報も、第2の学習部154に入力される。
【0060】
第2の学習部154は、環境状態情報取得部152から入力された環境状態情報の内容に演算を行って、疑似環境状態情報を生成する。例えば、第2の学習部154に入力される環境状態情報は、時刻t0~tN(Nは1以上の整数)のそれぞれにおいて観測した瞬時風速[10m/s,8m/s,12m/s,…]といった時系列データの形式である。もしくは、環境状態情報は、時刻t0~tNの瞬時風速、風向、と無線通信装置の設置高さなど、といった複数の要素から構成されるtuple(タプル)であっても構わない。
【0061】
第2の学習部154は、入力されたビーム方向の条件と、入力された環境状態情報の条件との組み合わせについて、新たな環境状態に関する情報を示す疑似環境状態情報をどのように生成するかの情報生成方策を学習する。疑似環境状態情報を生成する情報生成方策の一例として、第2の学習部154は、例えば、環境状態情報取得部152から取得した時刻t0~tNの瞬時の風速が[10m/s,8m/s,12m/s,…]であるという条件と、入力されたビーム方向情報が示すビーム方向との条件とに基づいて、風速を2倍にするという演算を得る。第2の学習部154は、取得した情報生成方策を用いて、各時刻における疑似環境状態情報[20m/s,16m/s,24ms,…]を生成し、第1の学習部153に出力する。
【0062】
第2の学習部154は、ビーム方向の条件及び環境状態情報の条件と、生成した疑似環境状態情報と、疑似環境状態情報の生成に用いた情報生成方策とを対応付けて、
図4に示す情報生成方策テーブルに書き込む。なお、情報生成方策記憶部1541が記憶する情報生成方策テーブルに、現在のビーム方向と、過去に経験した環境状態情報に対応する疑似環境状態情報が存在しない場合、第2の学習部154は任意の情報生成方策により(例えば環境状態情報が示す値にランダムな正数を乗算する等)疑似環境状態情報を生成し、第1の学習部153に出力することが可能である。
【0063】
なお、上記の環境状態情報、及び第2の学習部154による疑似環境状態情報の生成方策は一例にすぎず、他の環境状態情報を取得することや、他の任意の情報生成方策により環境状態情報から疑似環境状態情報を生成しても構わない。
【0064】
第2の学習部154は、生成した疑似環境状態情報を第1の学習部153に出力する。第1の学習部153は、第2の学習モードにおいて、環境状態情報取得部152から入力した環境状態情報に代えて、第2の学習部154から入力した疑似環境状態情報を用いる点を除き、第1の学習モードと同様の動作を行う。
【0065】
なお、第1の学習部153は、ビーム方向と、第2の学習部154から入力した疑似環境状態情報との組み合わせが未経験である場合、上述のように、無線通信部11に設定可能な角度範囲内で任意の角度補正量のビーム制御方策を決定する。第1の学習部153は、ビーム制御方策テーブルに、ビーム方向及び疑似環境状態情報と、決定したビーム制御方策とを対応付けて書き込む。その後の第1の学習モードにおいて、第1の学習部153は、過去に入力した疑似環境状態情報と同じ環境状態情報と、その疑似環境状態情報を入力したときと同じビーム方向とを入力した場合、ビーム制御方策テーブルからそれらに対応するビーム制御方策を読み出し、即効的にビーム方向を制御することができる。すなわち、第1の学習部153は、そのビーム制御方策を初期値として、未経験な環境状態に対するビーム制御方策を予め学習することができ、将来的にその環境状態が発生した場合に、学習済のビーム制御方策を用いて変動環境への対応が可能となり、未学習に起因するビーム方向の制御失敗を回避できる。
【0066】
また、第1の学習部153は、現在のビーム方向と、第2の学習部154から入力した疑似環境状態情報との組み合わせが既にビーム制御方策テーブルに設定されている場合、第1の学習モードと同様に、それらに対応したビーム制御方策に基づいてビーム方向の制御指示を無線通信部11に出力する。しかし、第1の学習部153は、第2の学習モードにおいては、そのビーム制御方策に第1の報酬を付与せず、ビーム制御方策の変更は行わない。これにより、正しく学習されたビーム制御方策が変更されないようにする。あるいは、第1の学習部153は、ビーム制御方策を学習済みのビーム方向及び環境状態情報の組み合わせの情報を第2の学習部154に通知してもよい。第2の学習部154は、現在のビーム方向と、生成した疑似環境状態情報との組み合わせが学習済みであると判定した場合、情報生成方策を変更して、異なる疑似環境状態情報を生成する。
【0067】
<第2の報酬の付与方法の一例>
第2の学習部154は、生成した疑似環境状態情報によりビーム方向制御が行われた結果を、次の通信期間において無線通信品質監視部12から取得する無線通信品質情報により観測できる。第2の学習部154は、上記のように生成した疑似環境状態情報に基づいたビーム方向制御を行った前後の無線通信品質情報の変化に応じて第2の報酬を決定し、第2の累積報酬記憶部1542に記録する。疑似環境状態情報の生成後に情報生成方策に付与される第2の報酬は、第1の学習部とは逆の目的で設定される必要がある。つまり、第1の学習部153の制御目的は受信電力を向上させることであるが、第2の学習部154の目的は、受信電力を低下させることである。そして、第2の学習部154で付与する第2の報酬は、この目的に合わせて決定する必要がある。そこで、例えば、第2の学習部154が生成した疑似環境状態情報に基づくビーム方向制御後の受信電力がビーム方向制御前の受信電力と比較して、3dB以上の減少である場合は第2の報酬を100とし、0dB以上3dB未満の減少である場合は第2の報酬を1とし、減少していない場合は第2の報酬を0とする。なお、上記の第2の報酬の付与方法は一例にすぎず、例えば機械学習により生成された報酬関数など、他の方法で報酬を決定しても構わない。
【0068】
第2の学習部154は、疑似環境状態情報に基づくビーム方向制御結果に応じて決定した第2の報酬を第2の累積報酬記憶部1542に出力する。第2の累積報酬記憶部1542は、現在の第2の累積報酬情報の値に、入力した第2の報酬を加算し、加算後の値により第2の累積報酬情報を更新する。このように、第2の学習部154は、疑似環境状態情報を生成する度に、その疑似環境状態情報に基づくビーム方向制御の制御結果を得て第2の報酬を決定し、第2の累積報酬記憶部1542は、その累積和を計算して記憶する。
【0069】
<情報生成方策記憶部1541の記憶内容の更新>
上述したように、第2の学習部154は、新規の環境状態情報が入力された場合に、任意の情報生成方策を用いて生成した疑似環境状態情報を出力することができる。しかし、その任意の情報生成方策により生成した疑似環境状態情報は、必ずしも目的達成に最適とは限らない。そのため、複数回の試行錯誤によって目的達成のための情報生成方策を学習する必要がある。そこで、第2の学習部154は、生成した疑似環境状態情報に基づき行われた前回のビーム方向制御の後に受け取った第2の報酬を、
図4に示す情報生成方策記憶部1541に記憶される情報生成方策テーブルに書き込む。第2の学習部154は、ある疑似環境状態情報に対して、前回の制御後に受け取った第2の報酬が最大値ではない場合に、その疑似環境状態情報に対応した情報生成方策、または制御範囲を変更する。第2の学習部154は、変更された情報制御方策、又は制御範囲を用いて生成された疑似環境状態情報に基づくビーム方向制御後に付与された第2の報酬により、情報生成方策記憶部1541に記憶される情報生成方策テーブルを更新する。
【0070】
図4に示すように環境状態情報が瞬時風速である場合の一例を説明する。例えば、第2の学習部154は、初回の疑似環境状態情報の状態情報生成方策では、ある時刻における瞬時風速に2を乗算し、疑似環境状態情報として出力とする。そして、この生成した疑似環境状態情報により、第2の学習部154が最大の報酬が取得できなった場合に、2回目の疑似環境状態情報の生成の際には、瞬時風速を4と乗算する等、繰り返しの回数に応じ乗算する数値を大きくしていく等の方法が考えられる。ただし、上述した状態情報生成方策に限らず、第2の学習部154の目的達成のために、任意の計算方法やアルゴリズムを利用してもよい。
【0071】
<処理フロー>
図5は、第1の学習モードにおけるビーム方向制御部15の動作例を示すフロー図である。モード設定部151は、第1の学習モードを開始する(ステップS105)。第1の学習部153は、無線通信品質監視部12からビーム方向情報及び無線通信品質情報を入力し、環境センサ13から環境状態情報を入力する(ステップS110)。第1の学習部153は、入力した環境状態情報及びビーム方向情報に対応したビーム方向制御方策をビーム制御方策テーブルから読み出す(ステップS115)。第1の学習部153は、入力した環境状態情報及びビーム方向情報に対応したビーム方向制御方策がない場合、任意のビーム方向制御方策を決定する。第1の学習部153は、ビーム制御方策テーブルに環境状態情報及びビーム方向情報と、決定したビーム方向制御方策とを対応付けて書き込む。第1の学習部153は、ビーム方向制御方策に基づくビーム方向の制御指示を無線通信部11に出力する(ステップS120)。無線通信部11は、制御指示に設定されているビーム方向制御方策に従ってビーム方向を変更し、変更後のビーム方向により次の通信期間の無線通信を行う。
【0072】
第1の学習部153は、無線通信品質監視部12から制御指示後のビーム方向情報及び無線通信品質情報を入力し、環境状態情報取得部152から制御指示後の環境状態情報を入力する(ステップS125)。第1の学習部153は、直前のステップS120において出力した制御指示に従って変更されたビーム方向を用いた通信期間の無線通信品質と、その通信期間の直前のビーム方向変更前の通信期間の無線通信品質とを比較する。第1の学習部153は、比較結果に応じて第1の報酬を決定する(ステップS130)。第1の学習部153は、決定した第1の報酬を、直前のステップS120において制御指示を出力したときに用いたビーム制御方策に対応付けてビーム制御方策テーブルに書き込む(ステップS135)。さらに、第1の学習部153の取得報酬は、決定した第1の報酬を第1の累積報酬記憶部1532に出力する。第1の累積報酬記憶部1532は、記憶している第1の累積報酬の値を、入力した第1の報酬を加算した値に更新する(ステップS140)。
【0073】
第1の学習部153は、決定した第1の報酬が、最大値であるか否かを判定する(ステップS145)。第1の学習部153は、決定した第1の報酬が最大値であると判定した場合(ステップS145:YES)、ステップS155の処理に進む。第1の学習部153は、決定した第1の報酬が最大値ではないと判定した場合(ステップS145:NO)、ビーム制御方策テーブルに設定されている前回のビーム制御方策を変更する(ステップS150)。
【0074】
第1の学習部153は、第1の学習モードが終了ではないと判定した場合(ステップS155:NO)、ステップS115からの処理を繰り返す。そして、第1の学習部153は、第1の学習モードが終了と判定した場合(ステップS155:YES)、
図5の処理を終了する。
【0075】
なお、ステップS145~ステップS150の処理を、ステップS105~ステップS140及びステップS155の処理と独立のタイミングで行ってもよい。この場合、第1の学習部153は、ビーム制御方策テーブルから前回報酬が最大値ではないビーム制御方策を検出し、検出したビーム制御方策についてステップS150の処理を行う。
【0076】
図6は、第2の学習モードにおけるビーム方向制御部15の動作例を示すフロー図である。モード設定部151は、第2の学習モードを開始する(ステップS205)。第1の学習部153及び第2の学習部154は、無線通信品質監視部12からビーム方向情報及び無線通信品質情報を入力し、第2の学習部154は、環境センサ13が出力した環境状態情報を環境状態情報取得部152から入力する(ステップS210)。
【0077】
第2の学習部154は、環境状態情報及びビーム方向情報に対応した情報生成方策を、情報生成方策記憶部1541に記憶されている情報生成方策テーブルから読み出す(ステップS215)。第2の学習部154は、読み出した情報生成方策に従って、環境状態情報から疑似環境状態情報を生成する(ステップS220)。なお、環境状態情報及びビーム方向情報に対応した情報生成方策が情報生成方策テーブルに設定されていない場合、第2の学習部154は、任意の情報生成方策を決定する。第2の学習部154は、環境状態情報及びビーム方向情報と、生成した疑似環境状態情報と、決定した情報生成方策とを対応付けて情報生成方策テーブルに書き込む。第2の学習部154は、生成した疑似環境状態情報を第1の学習部153に出力する(ステップS225)。第1の学習部153は、環境状態情報に代えて疑似環境状態情報を用いて、
図5に示すステップS115~ステップS120の処理を行う(ステップS230)。無線通信部11は、ステップS230において第1の学習部153が出力した制御指示に設定されているビーム方向制御方策に従ってビーム方向を変更し、変更後のビーム方向により次の通信期間の無線通信を行う。
【0078】
第1の学習部153及び第2の学習部154は、無線通信品質監視部12から制御指示後のビーム方向情報及び無線通信品質情報を入力し、第2の学習部154は、環境状態情報取得部152から制御指示後の環境状態情報を入力する(ステップS235)。第1の学習部153は、
図5に示すステップS125~ステップS155の処理を行う。ただし、ステップS125において、第1の学習部153に環境状態情報は入力されない。また、ビーム方向と疑似環境状態情報とに対応したビーム制御方策が学習済みの場合、第1の学習部153は、ステップS130~ステップS155の処理を行わない。
【0079】
第2の学習部154は、直前のステップS230において第1の学習部153が出力した制御指示に従って変更されたビーム方向を用いた通信期間の無線通信品質と、その通信期間の直前のビーム方向変更前の通信期間の無線通信品質とを比較する。第2の学習部154は、比較結果に応じて第2の報酬を決定する(ステップS240)。第2の学習部154は、決定した第2の報酬を、直前のステップS220において疑似環境状態情報を生成したときの情報生成方策に対応付けて情報生成方策テーブルに書き込む(ステップS245)。さらに、第2の学習部154は、決定した第2の報酬を第2の累積報酬記憶部1542に出力する。第2の累積報酬記憶部1542は、記憶している第2の累積報酬を、入力した第2の報酬を加算した値に更新する(ステップS250)。
【0080】
第2の学習部154は、決定した第2の報酬が、最大値であるか否かを判定する(ステップS255)。第2の学習部154は、決定した第2の報酬が最大値であると判定した場合(ステップS255:YES)、ステップS265の処理に進む。第2の学習部154は、決定した第2の報酬が最大値ではないと判定した場合(ステップS255:NO)、情報生成方策テーブルに設定されている前回の状態情報生成方策を変更する(ステップS260)。
【0081】
第2の学習部154は、第2の学習モードが終了ではないと判定した場合(ステップS265:NO)、ステップS215からの処理を繰り返す。そして、第2の学習部154は、第2の学習モードが終了と判定した場合(ステップS265:YES)、
図6の処理を終了する。
【0082】
なお、ステップS255~ステップS260の処理を、ステップS205~ステップS250及びステップS265の処理と独立のタイミングで行ってもよい。この場合、第2の学習部154は、情報生成方策テーブルから前回報酬が最大値ではない情報生成方策を検出し、検出した情報生成方策を変更する。
【0083】
本実施形態によれば、無線通信品質へ影響を与える外因が複雑化する条件下において、適切な学習装置により、複雑な外因(無線通信装置が置かれた周辺の環境状態)の変動に対応して、ビーム方向制御の方法を実現することができる。従って、複雑な外因の変動が発生する環境に無線通信装置がおかれた場合でも、学習に基づくビーム方向制御の失敗回数を低減することができる。
【0084】
なお、無線通信装置は、ビーム方向制御部15を有するビーム方向制御装置を、内部又は外部に備えてもよい。
【0085】
上述した実施形態における無線通信装置1のビーム方向制御部15の機能をコンピュータで実現するようにしてもよい。その場合、ビーム方向制御部15この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【0086】
無線通信装置1のハードウェア構成例を説明する。
図7は、無線通信装置1のハードウェア構成例を示す装置構成図である。無線通信装置1は、プロセッサ71、記憶部72、通信インタフェース73、ユーザインタフェース74及びセンサ75を備える。
【0087】
プロセッサ71は、演算や制御を行う中央演算装置である。プロセッサ71は、例えば、CPUである。プロセッサ71は、記憶部72からプログラムを読み出して実行する。記憶部72は、さらに、プロセッサ71が各種プログラムを実行する際のワークエリアなどを有する。通信インタフェース73は、他装置と通信可能に接続するものである。ユーザインタフェース74は、ディップスイッチ、ボタンなどの入力装置や、ランプ、ディスプレイなどの表示装置である。ユーザインタフェース74により、人為的な操作が入力される。センサ75は、環境状態情報の検出又は取得を行う。
【0088】
無線通信品質監視部12及びビーム方向制御部15の機能は、プロセッサ71が記憶部72からプログラムを読み出して実行することより実現される。なお、これらの機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。無線通信部11は、通信インタフェース73により実現される。また、通信インタフェース73は、ネットワークを介したPC等との通信を実現してもよい。環境センサ13は、1以上のセンサ75により実現される。なお、無線通信部11や環境センサ13の一部の機能は、プロセッサ71が記憶部72からプログラムを読み出して実行することより実現されてもよい。
【0089】
以上説明した実施形態によれば、ビーム方向を制御可能無線通信装置は、無線通信部と、センサと、無線通信品質監視部と、ビーム方向制御部とを備える。無線通信部は、ビームを形成して無線通信を行う。センサは、自装置の設置環境に関する情報である環境状態情報を取得する。例えば、センサは、実施形態の環境センサである。無線通信品質監視部は、無線通信部による無線通信の品質を示す無線通信品質情報を取得する。ビーム方向制御部は、無線通信部に対してビーム方向の制御指示を出力する。ビーム方向制御部は、第1の学習部と、第2の学習部と、切替部とを備える。第1の学習部は、環境状態情報とビーム方向が制御された前後の無線通信品質情報とを用いて、環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御の方法を示すビーム制御方策を学習する。第1の学習部は、学習結果に基づいて環境状態情報に応じたビーム制御方策を決定し、決定したビーム制御方策に従ったビーム方向の制御指示を無線通信部に出力する。第2の学習部は、環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された環境状態情報に応じて第1の学習部が出力した制御指示に基づいてビーム方向が制御された前後の無線通信品質情報とを用いて、無線通信の品質を低下させる環境状態情報を生成する情報生成方策を学習する。第2の学習部は、学習された情報生成方策に基づいて環境状態情報を生成する。切替部は、センサにより取得した環境状態情報と第2の学習部により生成された環境状態情報とのいずれを第1の学習部に入力するかを切り替える。
【0090】
なお、第1の学習部は、入力された環境状態情報と、無線通信部が形成しているビーム方向と、当該ビーム方向が変更された前後の無線通信品質情報を比較して得られた無線通信の品質の変化とを用いて、環境状態情報及びビーム方向に応じて無線通信の品質を向上させるビーム制御方策を学習してもよい。第1の学習部は、学習結果に基づいて環境状態情報と無線通信部が形成しているビーム方向とに応じたビーム制御方策を決定し、決定したビーム制御方策に従ったビーム方向の制御指示を無線通信部に出力する。
【0091】
また、第1の学習部は、ビーム制御方策に従って出力した制御指示によりビーム方向が変更された前後の無線通信の品質の変化に応じて当該ビーム制御方策に第1の報酬を付与し、第1の報酬に基づいて選択したビーム制御方策を変更してもよい。
【0092】
また、第2の学習部は、センサが取得した環境状態情報に当該環境状態情報と無線通信部が形成しているビーム方向とに対応した情報生成方策が示す演算を行って生成された環境状態情報と、生成された環境状態情報に応じて第1の学習部が出力した制御指示に基づいてビーム方向が制御された前後の無線通信品質情報を比較して得られた無線通信の品質の変化とを用いて、環境状態情報及びビーム方向に応じて無線通信の品質を低下させる情報生成方策を学習してもよい。第2の学習部は、学習結果に基づいて環境状態情報と無線通信部が形成しているビーム方向とに応じた情報生成方策を決定し、環境状態情報に決定した情報生成方策が示す演算を行って第1の学習部に入力する環境状態情報を生成する。
【0093】
なお、第2の学習部は、情報生成方策が示す演算を行って生成した環境状態情報に応じて第1の学習部が出力した制御指示によりビーム方向が変更された前後の無線通信の品質の変化に応じて情報生成方策に第2の報酬を付与し、第2の報酬に基づいて選択した情報生成方策を変更してもよい。
【0094】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0095】
1…無線通信装置、11…無線通信部、12…無線通信品質監視部、13…環境センサ、15…ビーム方向制御部、71…プロセッサ、72…記憶部、73…通信インタフェース、74…ユーザインタフェース、75…センサ、91…無線通信装置、92…電柱、93…電柱、94…架線、95…無線通信装置、96…建物、97…歩行者、98-1、98-2…アクセスポイント、99…端末局、…経路、151…モード設定部、152…環境状態情報取得部、153…第1の学習部、154…第2の学習部、1531…ビーム制御方策記憶部、1532…第1の累積報酬記憶部、1541…情報生成方策記憶部、1542…第2の累積報酬記憶部