IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社インターネットイニシアティブの特許一覧

<>
  • 特許-通信制御装置および通信制御方法 図1
  • 特許-通信制御装置および通信制御方法 図2
  • 特許-通信制御装置および通信制御方法 図3
  • 特許-通信制御装置および通信制御方法 図4
  • 特許-通信制御装置および通信制御方法 図5
  • 特許-通信制御装置および通信制御方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-04-23
(45)【発行日】2024-05-02
(54)【発明の名称】通信制御装置および通信制御方法
(51)【国際特許分類】
   H04L 41/16 20220101AFI20240424BHJP
   G06N 20/00 20190101ALI20240424BHJP
   H04W 24/02 20090101ALI20240424BHJP
   H04W 28/08 20230101ALI20240424BHJP
【FI】
H04L41/16
G06N20/00
H04W24/02
H04W28/08
【請求項の数】 6
(21)【出願番号】P 2023164170
(22)【出願日】2023-09-27
【審査請求日】2023-09-27
【早期審査対象出願】
(73)【特許権者】
【識別番号】397036309
【氏名又は名称】株式会社インターネットイニシアティブ
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【弁理士】
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【弁理士】
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100138759
【弁理士】
【氏名又は名称】大房 直樹
(72)【発明者】
【氏名】柿島 純
【審査官】中川 幸洋
(56)【参考文献】
【文献】特許第7251647(JP,B2)
(58)【調査した分野】(Int.Cl.,DB名)
H04L 41/16
G06N 20/00
H04W 24/02
H04W 28/08
(57)【特許請求の範囲】
【請求項1】
複数のタイムスロットのうちのタイムスロットごとに通信端末の通信実施と通信不実施を制御する通信制御装置であって、
前記通信端末が接続されたネットワークにおける通信状況を取得する通信状況取得部と、
前記タイムスロットごとに、前記通信端末が通信を実施することに対する第1報酬値と前記通信端末が通信を実施しないことに対する第2報酬値とを管理する報酬管理部と、
前記第1および第2報酬値に基づく強化学習によって生成された学習モデルを用いて、各タイムスロットについて前記通信端末が通信を実施すべきか否かを示す制御情報を作成する制御情報作成部と、
前記作成された制御情報を前記通信端末へ送信する送信部と、
を備え
前記報酬管理部は、前記通信状況に基づき、高トラヒックのタイムスロットに対しては前記第1報酬値を前記第2報酬値より小さく設定し、低トラヒックのタイムスロットに対しては前記第1報酬値を前記第2報酬値より大きく設定する、
通信制御装置。
【請求項2】
前記通信状況取得部は、所定時間間隔で前記通信状況を取得し、
前記報酬管理部は、前記所定時間間隔で取得された前記通信状況に応じて各タイムスロットの前記第1および第2報酬値を更新し、
前記学習モデルは、前記更新された第1および第2報酬値を用いて逐次更新される、
請求項に記載の通信制御装置。
【請求項3】
前記学習モデルは、前記タイムスロットを特定する識別子を状態sとして入力し、前記通信端末が通信を実施するまたは通信を実施しないという各行動aに対する行動価値Q(s,a)を出力する、深層強化学習に基づくニューラルネットワークにより構成されたモデルである、請求項1または2に記載の通信制御装置。
【請求項4】
前記制御情報作成部は、前記通信端末が通信を実施しない行動aに対する前記行動価値が、前記通信端末が通信を実施する行動aに対する前記行動価値よりも大きい場合、当該タイムスロットについて、前記通信端末が通信を実施すべきでないことを指示する前記制御情報を作成する、請求項に記載の通信制御装置。
【請求項5】
複数のタイムスロットのうちのタイムスロットごとに通信端末の通信実施と通信不実施を制御するための通信制御方法であって、
前記通信端末が接続されたネットワークにおける通信状況を取得するステップと、
前記タイムスロットごとに、前記通信端末が通信を実施することに対する第1報酬値と前記通信端末が通信を実施しないことに対する第2報酬値とを指定するステップであって、前記ネットワークの前記取得された通信状況に基づき、高トラヒックのタイムスロットに対しては前記第1報酬値が前記第2報酬値より小さく設定され、低トラヒックのタイムスロットに対しては前記第1報酬値が前記第2報酬値より大きく設定される、ステップと、
前記第1および第2報酬値に基づく強化学習によって生成された学習モデルを用いて、各タイムスロットについて前記通信端末が通信を実施すべきか否かを示す制御情報を作成するステップと、
前記作成された制御情報を前記通信端末へ送信するステップと、
を含む方法。
【請求項6】
前記学習モデルは、前記タイムスロットを特定する識別子を状態sとして入力し、前記通信端末が通信を実施するまたは通信を実施しないという各行動aに対する行動価値Q(s,a)を出力する、深層強化学習に基づくニューラルネットワークにより構成されたモデルである、請求項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信制御装置および通信制御方法に関する。
【背景技術】
【0002】
一般に、通信トラヒックはある特定の時間帯に集中する傾向がある。例えば、昼間(例えば11~13時)や夕方(例えば17~20時)に通信トラヒックが増大する傾向がある。従来、IoT端末等を対象に、トラヒックの少ない夜間に通信を行わせるようにしたサービスが提供されている(例えば非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】「IIJモバイルM2Mアクセスサービス」、[online]、株式会社インターネットイニシアティブ、[令和5年9月26日検索]、インターネット<https://www.iij.ad.jp/biz/mobile-m2m/>
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、必ずしも夜間のみがトラヒックの少ない時間帯であるというわけではなく、夜間以外の時間帯であってもトラヒックに余裕がある場合がある。このように、現在では、通信帯域使用率の最適化がまだ十分には行われていない。
【課題を解決するための手段】
【0005】
本発明の一態様によれば、複数のタイムスロットのうちのタイムスロットごとに通信端末の通信実施と通信不実施を制御する通信制御装置であって、前記タイムスロットごとに、前記通信端末が通信を実施することに対する第1報酬値と前記通信端末が通信を実施しないことに対する第2報酬値とを管理する報酬管理部と、前記第1および第2報酬値に基づく強化学習によって生成された学習モデルを用いて、各タイムスロットについて前記通信端末が通信を実施すべきか否かを示す制御情報を作成する制御情報作成部と、前記作成された制御情報を前記通信端末へ送信する送信部と、を備える通信制御装置が提供される。
【0006】
また、本発明の一態様によれば、前記通信端末が接続されたネットワークにおける通信状況を取得する通信状況取得部をさらに備え、前記報酬管理部は、前記通信状況に基づき、高トラヒックのタイムスロットに対しては前記第1報酬値を前記第2報酬値より小さく設定し、低トラヒックのタイムスロットに対しては前記第1報酬値を前記第2報酬値より大きく設定するのであってよい。
【0007】
また、本発明の一態様によれば、前記通信状況取得部は、所定時間間隔で前記通信状況を取得し、前記報酬管理部は、前記所定時間間隔で取得された前記通信状況に応じて各タイムスロットの前記第1および第2報酬値を更新し、前記学習モデルは、前記更新された第1および第2報酬値を用いて逐次更新されるのであってよい。
【0008】
また、本発明の一態様によれば、前記第1および第2報酬値は、あらかじめ設定された固定値であるのであってよい。
【0009】
また、本発明の一態様によれば、前記学習モデルは、前記タイムスロットを特定する識別子を状態sとして入力し、前記通信端末が通信を実施するまたは通信を実施しないという各行動aに対する行動価値Q(s,a)を出力する、深層強化学習に基づくニューラルネットワークにより構成されたモデルであるのであってよい。
【0010】
また、本発明の一態様によれば、前記制御情報作成部は、前記通信端末が通信を実施しない行動aに対する前記行動価値が、前記通信端末が通信を実施する行動aに対する前記行動価値よりも大きい場合、当該タイムスロットについて、前記通信端末が通信を実施すべきでないことを指示する前記制御情報を作成するのであってよい。
【0011】
また、本発明の一態様によれば、複数のタイムスロットのうちのタイムスロットごとに通信端末の通信実施と通信不実施を制御するための通信制御方法であって、前記タイムスロットごとに、前記通信端末が通信を実施することに対する第1報酬値と前記通信端末が通信を実施しないことに対する第2報酬値とを指定するステップと、前記第1および第2報酬値に基づく強化学習によって生成された学習モデルを用いて、各タイムスロットについて前記通信端末が通信を実施すべきか否かを示す制御情報を作成するステップと、前記作成された制御情報を前記通信端末へ送信するステップと、を含む方法が提供される。
【発明の効果】
【0012】
本発明によれば、通信ネットワークにおける帯域使用率の最適化・平準化を実現することができる。
【図面の簡単な説明】
【0013】
図1】本発明の一実施形態に係る通信制御装置が適用されるネットワークシステムの概略的な構成を示す図である。
図2】本発明の一実施形態に係る通信制御装置の機能的構成を示すブロック図である。
図3】報酬管理部が報酬値を管理するための管理テーブルの一例である。
図4】通信端末の状態の遷移を示す模式図である。
図5】学習モデルの一例(DQN)を示す図である。
図6】学習モデルの別の一例(Fixed Target Q-Network)を示す図である。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
【0015】
図1は、本発明の一実施形態に係る通信制御装置が適用されるネットワークシステムの概略的な構成を示す図である。ネットワークシステム10は、1または複数のユーザ端末100と、1または複数の通信端末200と、ゲートウェイ装置300と、通信制御装置400を備える。ユーザ端末100、通信端末200、ゲートウェイ装置300、および通信制御装置400は、通信ネットワーク500を構成する。各ユーザ端末100および通信端末200は、ゲートウェイ装置300を介して、他の通信ネットワーク600(例えばインターネット)に接続されている不図示の他のデバイスと通信することができる。なお、ネットワークシステム10の通信ネットワーク500には、ゲートウェイ装置300および通信制御装置400以外にも、ユーザ端末100および通信端末200からの/への通信を中継しまたは制御する1または複数の制御装置が含まれ得るが、図1では説明の簡略化のためそれらについては図示を省略している。
【0016】
本明細書において、ユーザ端末100とは、その少なくとも一部の通信が、人間であるユーザからの当該ユーザ端末100に対する操作に応答して実施される機器を意味するものとする。例示的なユーザ端末100は、スマートフォン、タブレット端末、PC、ゲーム機等を含む。例えば、ユーザ端末100に対して、ウェブサイトや動画を閲覧するための操作がユーザによって行われたことに応答して、通信ネットワーク600上の所定のサーバ装置等からその要求に対応するデータが送信され、ユーザ端末100によって受信される。
【0017】
ユーザ端末100による通信データ量は、時間依存性を有する。例えば、ユーザ端末100による通信データ量は、昼間(例えば11~13時)や夕方(例えば17~20時)の時間帯に増大する傾向がある。
【0018】
一方、本明細書において、通信端末200とは、人間であるユーザの操作によらず自動的に通信が実施される機器を意味するものとする。このような通信端末200は、例えば、プログラムされたタイミングでデータを送受信するように構成される。代表的なこのような通信端末200は、例えば、様々なセンサーデータを計測・生成し発信するように構成された様々なタイプのセンサー機器等の、各種のIoT(Internet of Things)端末を含む。例えば、このようなIoT端末(通信端末200)は、所定周期でセンサーデータを順次生成して所定の送信タイミングまでそれらデータを一時保管しておき、プログラムされた所定のタイミングになると、それまでに保管されたセンサーデータをまとめて通信ネットワーク600上の所定のサーバ装置へ送信するように構成されるのであってよい。本明細書における通信端末200はこのようなIoT端末に限定されず、データの送受信を自動的に行う任意の通信機器を含んでよい。例えば、スマートフォンやPC(上述したユーザ端末100)がバックグラウンドでデータを送受信する場合(例えばソフトウェア更新等)において、そのようなバックグラウンド通信に限って、これらの機器を通信端末200とみなしてもよい。
【0019】
通信端末200は、本発明の一実施形態に係る通信制御装置400による通信制御の対象である。通信制御装置400は、通信端末200が通信を実施するかしないかを制御する。これに対し、ユーザ端末100(ユーザ操作に応答して行われる通信)は、通信制御装置400による通信制御の対象ではない。
【0020】
ゲートウェイ装置300は、ユーザ端末100および通信端末200と通信ネットワーク600上のデバイスとの通信を中継する。また、ゲートウェイ装置300は、通信ネットワーク500と通信ネットワーク600との間の通信状況(例えばトラヒック量)を監視する機能を有する。
【0021】
図2は、本発明の一実施形態に係る通信制御装置400の機能的構成を示すブロック図である。通信制御装置400は、通信状況取得部410と、報酬管理部420と、学習モデル生成部430と、学習モデル生成部430によって生成された学習モデル440と、制御情報作成部450と、制御情報送信部460とを備える。なお、通信制御装置400は、プロセッサおよびメモリを備えたコンピュータによって実現することができる。
【0022】
通信状況取得部410は、ゲートウェイ装置300から、通信ネットワーク500と通信ネットワーク600との間の通信状況(例えばトラヒック量)を示す情報を取得するように構成される。例えば、通信状況取得部410は、通信状況をゲートウェイ装置300から所定時間間隔で定期的に取得するのであってよい。これにより、通信ネットワーク500と通信ネットワーク600との間における実際の時々刻々変化する通信状況が、通信制御装置400において取得される。
【0023】
報酬管理部420は、通信端末200に通信を行わせるか否かの学習(強化学習)において用いる報酬値を管理するように構成される。具体的に、報酬管理部420は、所定の制御対象期間(例えば1日)をそれぞれが短い時間幅を有する多数の小期間に細分化したタイムスロットごとに、通信端末200が通信を実施する場合に対応する報酬値(第1報酬値)と、通信端末200が通信を実施しない場合に対応する報酬値(第2報酬値)とを管理する(例えばデータベース等の記憶部に記憶する)。
【0024】
各タイムスロットは、典型的にはそれぞれ等しい時間幅を有するが、不等間隔の時間幅であってもよい。タイムスロットの例示的な時間幅の大きさは、例えば、数秒、数十秒、数分、数十分等、任意の適宜の長さであってよい。
【0025】
報酬値は、通信端末200が通信を実施することが望ましいタイムスロットについて、第1報酬値が第2報酬値よりも大きい値となるように設定され、また通信端末200が通信を実施しないことが望ましいタイムスロットについては、第2報酬値が第1報酬値よりも大きい値となるように設定される。例えば、通信データ量が昼間(例えば11~13時)や夕方(例えば17~20時)の時間帯に増大することがあらかじめ知られている場合の例において、これらの時間帯に属するタイムスロットについては、通信端末200が通信を行わないように強化学習を進ませるために、第1報酬値は例えば“1”に、また第2報酬値は例えば“2”に、それぞれ設定される。またこの場合、これらの時間帯以外の時間帯に属するタイムスロットについては、通信端末200が通信を行うように強化学習を進ませるために、第1報酬値は例えば“2”に、また第2報酬値は例えば“1”に、それぞれ設定される。このような報酬値の設定は、通信データ量についての既知の時間変動を考慮して、適宜、事前に固定的に設定しておくことができる。
【0026】
図3は、報酬管理部420が報酬値を管理するための管理テーブルの一例である。この例において、タイムスロットT、T、Tは、通信データ量が比較的少ない時間帯に属し、タイムスロットT、T、Tは、通信データ量が増大する時間帯に属しており、それぞれの報酬値は、上で例示した値に設定されている。
【0027】
報酬値は、上記例のように固定値に設定されるのではなく、実際の通信状況に応じて動的に変更されてもよい。例えば、報酬管理部420は、通信状況取得部410により取得された通信ネットワーク500のトラヒック量に基づいて、図3に示されるような既存の管理テーブルにおける報酬値を修正してもよいし、あるいは管理テーブルを新規に作成してもよい。より具体的に、報酬管理部420は、通信ネットワーク500のトラヒック量が所定の閾値より高いタイムスロットについては、第1報酬値を“1”、第2報酬値を“2”にそれぞれ修正または設定し、一方、通信ネットワーク500のトラヒック量が所定の閾値より低いタイムスロットについては、第1報酬値を“2”、第2報酬値を“1”にそれぞれ修正または設定するのであってよい。このように各報酬値が実際の通信状況を反映した値に調整された管理テーブルを用いることで、学習の精度を向上させ、実用性の高い学習モデル440を生成することができる。これにより、通信端末200に対する通信制御を好適に行うことができる。
【0028】
図4は、通信制御装置400による制御対象である通信端末200の状態の遷移を示す模式図である。この状態遷移図は、例えば通信制御装置400の学習モデル生成部430によって管理(保持)され、学習モデル440の生成に使用される。通信端末200の状態は、状態sから状態sへ、状態sから状態sへ、…、状態sから状態st+1へと遷移する。本実施形態において、通信端末200の「状態」は、タイムスロットの位置である。つまり、通信端末200の状態は、順次、現在のタイムスロットから時間的に次のタイムスロットへと遷移する。各状態(すなわち各タイムスロット)において、通信端末200は、行動a、aのいずれかをとり得る。例えば、通信端末200は、状態st-1(あるタイムスロット)において行動aを行って新たな状態s(時間的に次のタイムスロット)へと遷移し、次いで状態sにおいて行動aを行ってさらに新たな状態st+1(時間的にさらに次のタイムスロット)へと遷移することができる。本実施形態において、通信端末200の行動aは、通信端末200が通信を実施することであってよく、通信端末200の行動aは、通信端末200が通信を実施しないことであってよい。
【0029】
図2に戻り、通信制御装置400の学習モデル生成部430は、通信端末200の状態と、通信端末200がその状態でとり得る各行動に対応する報酬値とに基づく強化学習により、通信端末200が実際に通信を実施すべきか否かを決定するための学習モデル440を生成するように構成される。例えば、学習モデル440として、図5に示されるように、通信端末200の状態s(タイムスロットを特定する識別子)を入力層に入力し、状態sにおいて通信端末200がとることが可能な全ての行動、すなわち行動aおよびaのそれぞれについての行動価値Q(s,a)を出力層の各ノードから出力するように構成された、DQN(Deep Q-Network)に基づくニューラルネットワークを採用することができる。また、学習モデル440は、図6に示されるように、図5と同様の構成の2つのニューラルネットワーク(メインネットワークとターゲットネットワーク)を用いたFixed Target Q-Networkに基づくものであってもよい。図5のDQNおよび図6のFixed Target Q-Networkにおいて、出力層から出力される行動価値Q(s,a)と報酬管理部420により与えられる報酬値とを用いてニューラルネットワークのパラメータ(重みおよび閾値)を更新することで、学習モデル440の訓練が行われる(すなわち学習モデル440が生成される)。
【0030】
報酬値が実際の通信状況に応じて動的に変更される上述の例において、学習モデル440は、例えば、報酬値が変更されるたびにモデルの訓練を繰り返して行うことで、逐次、更新されていくのであってもよい。これにより、通信端末200に対する通信制御をより一層好適に行うことができる。
【0031】
なお、DQNおよびFixed Target Q-Networkにおけるニューラルネットワークの学習方法としては、周知の方法を適用することができる。よって本明細書では、学習の具体的手順については説明を省略する。
【0032】
制御情報作成部450は、学習モデル生成部430によって生成された学習モデル440を用いて、各タイムスロットにおいて通信端末200が通信を実施すべきか否かを示す制御情報を作成するように構成される。具体的に、制御情報作成部450は、学習モデル440の入力層に、各タイムスロットの識別子を入力する。学習モデル440は、各タイムスロットについて、通信端末200のとり得る各行動a、aのそれぞれに対応する行動価値Q(s,a)を、出力層の各ノードから出力する。制御情報作成部450は、学習モデル440の出力層から出力される行動価値Q(s,a)のうち最大の行動価値を選び、その選んだ行動価値に対応する行動(すなわち行動a、aのいずれか)に基づき、制御情報を作成する。例えば、学習モデル440から出力された行動価値のうち、行動aに対応する行動価値の方が行動aに対応する行動価値よりも大きい場合、制御情報作成部450は、そのタイムスロットにおいて通信端末200が通信を実施することを指示する制御情報を作成し、また行動aに対応する行動価値の方が行動aに対応する行動価値よりも大きい場合には、制御情報作成部450は、そのタイムスロットにおいて通信端末200が通信を実施しないことを指示する制御情報を作成する。
【0033】
制御情報送信部460は、このように決定された制御情報を通信端末200へ送信する。通信端末200は、この制御情報に従って、タイムスロットごとに、通信を実施するか、または通信の実施を見合わせるように動作する。これにより、通信端末200が適切な時間帯またはタイムスロットで通信を行うように制御することができ、その結果、通信ネットワークにおける帯域使用率の最適化・平準化を実現することができる。
【0034】
以上、本発明の実施形態を説明したが、本発明はこれに限定されず、その要旨を逸脱しない範囲内において様々な変更が可能である。
【符号の説明】
【0035】
10 ネットワークシステム
100 ユーザ端末
200 通信端末
300 ゲートウェイ装置
400 通信制御装置
410 通信状況取得部
420 報酬管理部
430 学習モデル生成部
440 学習モデル
450 制御情報作成部
460 制御情報送信部
500 通信ネットワーク
600 通信ネットワーク
【要約】      (修正有)
【課題】通信ネットワークにおける帯域使用率の最適化を図る通信制御装置および通信制御方法を提供する。
【解決手段】複数のタイムスロットのうちのタイムスロットごとに通信端末の通信実施と通信不実施を制御する通信制御装置400であって、タイムスロットごとに、前記通信端末が通信を実施することに対する第1報酬値と前記通信端末が通信を実施しないことに対する第2報酬値とを管理する報酬管理部420と、第1報酬値および第2報酬値に基づく強化学習によって生成された学習モデルを用いて、各タイムスロットについて通信端末が通信を実施すべきか否かを示す制御情報を作成する制御情報作成部450と、作成された制御情報を通信端末へ送信する送信部460と、を備える。
【選択図】図2
図1
図2
図3
図4
図5
図6