IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社国際電気通信基礎技術研究所の特許一覧 ▶ 学校法人福岡大学の特許一覧

特開2022-150063端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体
<>
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図1
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図2
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図3
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図4
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図5
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図6
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図7
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図8
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図9
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図10
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図11
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図12
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図13
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図14
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図15
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図16
  • 特開-端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022150063
(43)【公開日】2022-10-07
(54)【発明の名称】端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体
(51)【国際特許分類】
   H04W 72/04 20090101AFI20220929BHJP
   H04W 16/14 20090101ALI20220929BHJP
   H04W 72/08 20090101ALI20220929BHJP
【FI】
H04W72/04 132
H04W16/14
H04W72/08 110
【審査請求】有
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2021052479
(22)【出願日】2021-03-25
【新規性喪失の例外の表示】新規性喪失の例外適用申請有り
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和2年度支出負担行為担当官、総務省大臣官房会計課企画官、研究テーマ「電波利活用強靭化に向けた周波数創造技術に関する研究開発及び人材育成プログラム」に関する委託研究、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】393031586
【氏名又は名称】株式会社国際電気通信基礎技術研究所
(71)【出願人】
【識別番号】598015084
【氏名又は名称】学校法人福岡大学
(74)【代理人】
【識別番号】100112715
【弁理士】
【氏名又は名称】松山 隆夫
(72)【発明者】
【氏名】太田 真衣
(72)【発明者】
【氏名】太郎丸 眞
(72)【発明者】
【氏名】今中 崇詞
(72)【発明者】
【氏名】矢野 一人
【テーマコード(参考)】
5K067
【Fターム(参考)】
5K067EE02
5K067EE04
5K067EE10
5K067HH23
(57)【要約】
【課題】異なる無線通信システムを用いて無線通信を行う端末装置と共存して無線通信を行う端末装置を提供する。
【解決手段】学習器4は、パケットの通信結果、無線通信の空き期間、および他の端末装置による無線通信の有無を観測する期間である観測期間における送信用チャネルの状態に基づいて学習を繰り返し実行し、最大の平均報酬が得られるときのチャネルを所定の確率で送信用チャネルとして選択するとともに最大の平均報酬が得られるときのパケット長を観測期間における送信用チャネルの状態に応じて所定の確率で選択する。制御手段3は、送信データを含むパケットを生成し、学習器4から受けた送信用チャネルが空いているとき、その生成したパケットを送信手段5へ出力する。送信手段5は、制御手段3から受けたパケットを学習器4から受けたパケット長で送信する。
【選択図】図2
【特許請求の範囲】
【請求項1】
第1の動作期間において、パケットを送信するチャネルである送信用チャネルを用いて前記パケットを送信する通信手段と、
前記通信手段によって前記パケットが送信される毎に、前記第1の動作期間において、前記パケットが送信されたときの通信結果を検出するとともに前記パケットの送信後の無線通信の空き期間を検出する第1の検出手段と、
前記送信用チャネルを受ける毎に、前記第1の動作期間において、他の端末装置による無線通信の有無を観測する期間である観測期間における前記送信用チャネルの状態を検出する第2の検出手段と、
前記第1の動作期間において検出された前記通信結果、前記空き期間、および前記観測期間における前記送信用チャネルの状態と、前記パケットの送信に用いるチャネルの候補である候補チャネルとを受け付け、前記通信結果および前記空き期間に基づいて、前記第1の動作期間において前記パケットが前記送信用チャネルで送信されたときに得られる報酬である即時報酬を算出する第1の処理と、前記観測期間における前記送信用チャネルの状態に対応する1つのパケット長を選択した回数によって1つの前記送信用チャネルにおける前記即時報酬の累積値を平均した報酬であり、かつ、前記第1の動作期間の後の動作期間である第2の動作期間における報酬である平均報酬を前記第1の処理において算出された即時報酬を用いて算出する第2の処理と、前記候補チャネルと前記観測期間における前記送信用チャネルの状態と前記パケットのパケット長と前記平均報酬とを対応付けた対応表を作成または更新し、その作成または更新した対応表に基づいて最大の前記平均報酬が得られるときのチャネルを所定の確率で前記送信用チャネルとして選択するとともに前記観測期間における前記送信用チャネルの状態に応じて最大の前記平均報酬が得られるときの前記パケット長を前記所定の確率で選択し、その選択した送信用チャネルおよびパケット長を出力する第3の処理とを前記観測期間における前記送信用チャネルの状態、前記通信結果および前記空き期間を受け付ける毎に実行する学習器とを備え、
前記通信手段は、更に、前記第3の処理において選択された送信用チャネルおよびパケット長を前記学習器から受ける毎に、前記第2の動作期間において、前記受けた送信用チャネルが空いているとき、前記学習器から受けたパケット長を有するパケットを送信する、端末装置。
【請求項2】
前記学習器は、前記第1の処理において、前記通信結果が前記パケットの送信の失敗であるとき、前記即時報酬を零と算出し、前記通信結果が前記パケットの送信の成功であるとき、前記空き期間に所定の期間を加算した加算結果の逆数を前記即時報酬として算出する、請求項1に記載の端末装置。
【請求項3】
前記学習器は、前記第2の処理において、前記第1の動作期間における即時報酬と前記第1の動作期間における平均報酬と前記観測期間における前記送信用チャネルの状態に対応する1つのパケット長を選択した回数とに基づいて前記第2の動作期間における平均報酬を算出して前記平均報酬を更新する、請求項1または請求項2に記載の端末装置。
【請求項4】
前記学習器は、前記第2の処理において、前記第1の動作期間における即時報酬をRとし、前記第1の動作期間における平均報酬をVとし、前記第2の動作期間における平均報酬をVt+1とし、前記観測期間における前記送信用チャネルの状態に対応する1つのパケット長を選択した回数をn(nは、1以上の整数である。)としたとき、以下の式(1)によって平均報酬Vt+1を算出することによって前記平均報酬を更新する、請求項3に記載の端末装置。
t+1=V+(R-V)/n・・・(1)
【請求項5】
前記学習器は、前記第3の処理において、確率(1-ε)(εは、1~0の範囲の実数である。)で前記第2の動作期間における平均報酬が最大であるチャネルを前記候補チャネルから前記送信用チャネルとして選択し、確率εで任意のチャネルを前記候補チャネルから前記送信用チャネルとして選択する、請求項3または請求項4に記載の端末装置。
【請求項6】
前記学習器は、前記第3の処理において、前記観測期間における前記送信用チャネルの状態に対して前記第2の動作期間における平均報酬が最大であるパケット長を選択する、請求項3から請求項5のいずれか1項に記載の端末装置。
【請求項7】
前記パケットの送信が成功した確率である送信成功率がしきい値以下であるとき、前記候補チャネルの帯域と異なる帯域のチャネルを新たな候補チャネルとして選択し、その選択した新たな候補チャネルを用いるように前記学習器を制御する制御手段を更に備え、
前記学習器は、前記新たな候補チャネルを用いて前記第1の処理、前記第2の処理および前記第3の処理を前記観測期間における前記送信用チャネルの状態、前記通信結果および前記空き期間を受け付ける毎に実行する、請求項1から請求項6のいずれか1項に記載の端末装置。
【請求項8】
通信手段が、第1の動作期間において、パケットを送信するチャネルである送信用チャネルを用いて前記パケットを送信する第1のステップと、
第1の検出手段が、前記第1のステップにおいて前記パケットが送信される毎に、前記第1の動作期間において、前記パケットが送信されたときの通信結果を検出するとともに前記パケットの送信後の無線通信の空き期間を検出する第2のステップと、
第2の検出手段が、前記送信用チャネルを受ける毎に、前記第1の動作期間において、他の端末装置による無線通信の有無を観測する期間である観測期間における前記送信用チャネルの状態を検出する第3のステップと、
学習器が、前記第1の動作期間において検出された前記通信結果、前記空き期間、および前記観測期間における前記送信用チャネルの状態と、前記パケットの送信に用いるチャネルの候補である候補チャネルとを受け付け、前記通信結果および前記空き期間に基づいて、前記第1の動作期間において前記パケットが前記送信用チャネルで送信されたときに得られる報酬である即時報酬を算出する第1の処理と、前記観測期間における前記送信用チャネルの状態に対応する1つのパケット長を選択した回数によって1つの前記送信用チャネルにおける前記即時報酬の累積値を平均した報酬であり、かつ、前記第1の動作期間の後の動作期間である第2の動作期間における報酬である平均報酬を前記第1の処理において算出された即時報酬を用いて算出する第2の処理と、前記候補チャネルと前記観測期間における前記送信用チャネルの状態と前記パケットのパケット長と前記平均報酬とを対応付けた対応表を作成または更新し、その作成または更新した対応表に基づいて最大の前記平均報酬が得られるときのチャネルを所定の確率で前記送信用チャネルとして選択するとともに前記観測期間における前記送信用チャネルの状態に応じて最大の前記平均報酬が得られるときの前記パケット長を前記所定の確率で選択し、その選択した送信用チャネルおよびパケット長を出力する第3の処理とを前記観測期間における前記送信用チャネルの状態、前記通信結果および前記空き期間を受け付ける毎に実行する第4のステップとをコンピュータに実行させ、
前記通信手段は、前記第1のステップにおいて、更に、前記第3の処理において選択された送信用チャネルおよびパケット長を前記学習器から受ける毎に、前記第2の動作期間において、前記受けた送信用チャネルが空いているとき、前記学習器から受けたパケット長を有するパケットを送信する、コンピュータに実行させるためのプログラム。
【請求項9】
前記学習器は、前記第4のステップの前記第1の処理において、前記通信結果が前記パケットの送信の失敗であるとき、前記即時報酬を零と算出し、前記通信結果が前記パケットの送信の成功であるとき、前記空き期間に所定の期間を加算した加算結果の逆数を前記即時報酬として算出する、請求項8に記載のコンピュータに実行させるためのプログラム。
【請求項10】
前記学習器は、前記第4のステップの前記第2の処理において、前記第1の動作期間における即時報酬と前記第1の動作期間における平均報酬と前記観測期間における前記送信用チャネルの状態に対応する1つのパケット長を選択した回数とに基づいて前記第2の動作期間における平均報酬を算出して前記平均報酬を更新する、請求項8または請求項9に記載のコンピュータに実行させるためのプログラム。
【請求項11】
前記学習器は、前記第4のステップの前記第2の処理において、前記第1の動作期間における即時報酬をRとし、前記第1の動作期間における平均報酬をVとし、前記第2の動作期間における平均報酬をVt+1とし、前記観測期間における前記送信用チャネルの状態に対応する1つのパケット長を選択した回数をn(nは、1以上の整数である。)としたとき、以下の式(1)によって平均報酬Vt+1を算出することによって前記平均報酬を更新する、請求項10に記載のコンピュータに実行させるためのプログラム。
t+1=V+(R-V)/n・・・(1)
【請求項12】
前記学習器は、前記第4のステップの前記第3の処理において、確率(1-ε)(εは、1~0の範囲の実数である。)で前記第2の動作期間における平均報酬が最大であるチャネルを前記候補チャネルから前記送信用チャネルとして選択し、確率εで任意のチャネルを前記候補チャネルから前記送信用チャネルとして選択する、請求項10または請求項11に記載のコンピュータに実行させるためのプログラム。
【請求項13】
前記学習器は、前記第4のステップの前記第3の処理において、前記観測期間における前記送信用チャネルの状態に対して前記第2の動作期間における平均報酬が最大であるパケット長を選択する、請求項10から請求項12のいずれか1項に記載のコンピュータに実行させるためのプログラム。
【請求項14】
制御手段が、前記パケットの送信が成功した確率である送信成功率がしきい値以下であるとき、前記候補チャネルの帯域と異なる帯域のチャネルを新たな候補チャネルとして選択し、その選択した新たな候補チャネルを用いるように前記学習器を制御する第5のステップを更にコンピュータに実行させ、
前記学習器は、前記新たな候補チャネルを用いて前記第1の処理、前記第2の処理および前記第3の処理を前記観測期間における前記送信用チャネルの状態、前記通信結果および前記空き期間を受け付ける毎に実行する、請求項8から請求項13のいずれか1項に記載のコンピュータに実行させるためのプログラム。
【請求項15】
請求項8から請求項14のいずれか1項に記載されたプログラムを記録したコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。
【背景技術】
【0002】
無線LAN(Local Area Network)などに代表されるCSMA/CA(Carrier Sense Multiple Access/ Collision Avoidance)方式では,同時送信などによるパケットの衝突・損失が起きた場合、バックオフ時間(他局からの送信電波が止まったことを検知した後、直ちに送信せず、自局が送信するまでの意図的な待ち時間)を長くすることにより、パケットの衝突確率を低減させる(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006-013894号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、異なる複数の無線通信システムによる無線通信が共存する場合、各無線通信システムを用いて無線通信を行う端末装置Aが他の無線通信システムを用いて無線通信を行う端末装置Bによる無線通信を考慮せずに自由に無線通信を行うと、パケット衝突が生じる。その結果、端末装置Aは、端末装置Bと共存して無線通信を行うことが困難であるという問題がある。
【0005】
そこで、この発明の実施の形態によれば、異なる無線通信システムを用いて無線通信を行う端末装置と共存して無線通信を行う端末装置を提供する。
【0006】
また、この発明の実施の形態によれば、異なる無線通信システムを用いて無線通信を行う端末装置と共存して無線通信をコンピュータに実行させるためのプログラムを提供する。
【0007】
更に、この発明の実施の形態によれば、異なる無線通信システムを用いて無線通信を行う端末装置と共存して無線通信をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。
【課題を解決するための手段】
【0008】
(構成1)
この発明の実施の形態によれば、端末装置は、通信手段と、第1の検出手段と、第2の検出手段と、学習器とを備える。通信手段は、第1の動作期間において、パケットを送信するチャネルである送信用チャネルを用いてパケットを送信する。第1の検出手段は、通信手段によってパケットが送信される毎に、第1の動作期間において、パケットが送信されたときの通信結果を検出するとともにパケットの送信後の無線通信の空き期間を検出する。第2の検出手段は、送信用チャネルを受ける毎に、第1の動作期間において、他の端末装置による無線通信の有無を観測する期間である観測期間における送信用チャネルの状態を検出する。学習器は、第1の動作期間において検出された通信結果、空き期間、および観測期間における送信用チャネルの状態と、パケットの送信に用いるチャネルの候補である候補チャネルとを受け付け、通信結果および空き期間に基づいて、第1の動作期間においてパケットが送信用チャネルで送信されたときに得られる報酬である即時報酬を算出する第1の処理と、観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数によって1つの送信用チャネルにおける即時報酬の累積値を平均した報酬であり、かつ、第1の動作期間の後の動作期間である第2の動作期間における報酬である平均報酬を第1の処理において算出された即時報酬を用いて算出する第2の処理と、候補チャネルと観測期間における送信用チャネルの状態とパケットのパケット長と平均報酬とを対応付けた対応表を作成または更新し、その作成または更新した対応表に基づいて最大の平均報酬が得られるときのチャネルを所定の確率で送信用チャネルとして選択するとともに観測期間における送信用チャネルの状態に応じて最大の平均報酬が得られるときのパケット長を所定の確率で選択し、その選択した送信用チャネルおよびパケット長を出力する第3の処理とを観測期間における送信用チャネルの状態、通信結果および空き期間を受け付ける毎に実行する。そして、通信手段は、更に、第3の処理において選択された送信用チャネルおよびパケット長を学習器から受ける毎に、第2の動作期間において、その受けた送信用チャネルが空いているとき、学習器から受けたパケット長を有するパケットを送信する。
【0009】
(構成2)
構成1において、学習器は、第1の処理において、通信結果がパケットの送信の失敗であるとき、即時報酬を零と算出し、通信結果がパケットの送信の成功であるとき、空き期間に所定の期間を加算した加算結果の逆数を即時報酬として算出する。
【0010】
(構成3)
構成1または構成2において、学習器は、第2の処理において、第1の動作期間における即時報酬と第1の動作期間における平均報酬と観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数とに基づいて第2の動作期間における平均報酬を算出して平均報酬を更新する。
【0011】
(構成4)
構成3において、学習器は、第2の処理において、第1の動作期間における即時報酬をRとし、第1の動作期間における平均報酬をVとし、第2の動作期間における平均報酬をVt+1とし、観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数をn(nは、1以上の整数である。)としたとき、以下の式(1)によって平均報酬Vt+1を算出することによって平均報酬を更新する。
【0012】
t+1=V+(R-V)/n・・・(1)
(構成5)
構成3または構成4において、学習器は、第3の処理において、確率(1-ε)(εは、1~0の範囲の実数である。)で第2の動作期間における平均報酬が最大であるチャネルを候補チャネルから送信用チャネルとして選択し、確率εで任意のチャネルを候補チャネルから送信用チャネルとして選択する。
【0013】
(構成6)
構成3から構成6のいずれかにおいて、学習器は、第3の処理において、観測期間における送信用チャネルの状態に対して第2の動作期間における平均報酬が最大であるパケット長を選択する。
【0014】
(構成7)
構成1から構成6のいずれかにおいて、端末装置は、制御手段を更に備える。制御手段は、パケットの送信が成功した確率である送信成功率がしきい値以下であるとき、候補チャネルの帯域と異なる帯域のチャネルを新たな候補チャネルとして選択し、その選択した新たな候補チャネルを用いるように学習器を制御する。学習器は、新たな候補チャネルを用いて第1の処理、第2の処理および第3の処理を観測期間における送信用チャネルの状態、通信結果および空き期間を受け付ける毎に実行する。
【0015】
(構成8)
また、この発明の実施の形態によれば、プログラムは、
通信手段が、第1の動作期間において、パケットを送信するチャネルである送信用チャネルを用いてパケットを送信する第1のステップと、
第1の検出手段が、第1のステップにおいてパケットが送信される毎に、第1の動作期間において、パケットが送信されたときの通信結果を検出するとともにパケットの送信後の無線通信の空き期間を検出する第2のステップと、
第2の検出手段が、送信用チャネルを受ける毎に、第1の動作期間において、他の端末装置による無線通信の有無を観測する期間である観測期間における送信用チャネルの状態を検出する第3のステップと、
学習器が、第1の動作期間において検出された通信結果、空き期間、および観測期間における前記送信用チャネルの状態と、パケットの送信に用いるチャネルの候補である候補チャネルとを受け付け、通信結果および空き期間に基づいて、第1の動作期間においてパケットが送信用チャネルで送信されたときに得られる報酬である即時報酬を算出する第1の処理と、観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数によって1つの送信用チャネルにおける即時報酬の累積値を平均した報酬であり、かつ、第1の動作期間の後の動作期間である第2の動作期間における報酬である平均報酬を第1の処理において算出された即時報酬を用いて算出する第2の処理と、候補チャネルと観測期間における送信用チャネルの状態とパケットのパケット長と平均報酬とを対応付けた対応表を作成または更新し、その作成または更新した対応表に基づいて最大の平均報酬が得られるときのチャネルを所定の確率で送信用チャネルとして選択するとともに観測期間における送信用チャネルの状態に応じて最大の平均報酬が得られるときのパケット長を所定の確率で選択し、その選択した送信用チャネルおよびパケット長を出力する第3の処理とを観測期間における送信用チャネルの状態、通信結果および空き期間を受け付ける毎に実行する第4のステップとをコンピュータに実行させ、
通信手段は、第1のステップにおいて、更に、第3の処理において選択された送信用チャネルおよびパケット長を学習器から受ける毎に、第2の動作期間において、その受けた送信用チャネルが空いているとき、学習器から受けたパケット長を有するパケットを送信する、コンピュータに実行させるためのプログラムである。
【0016】
(構成9)
構成8において、学習器は、第4のステップの第1の処理において、通信結果がパケットの送信の失敗であるとき、即時報酬を零と算出し、通信結果がパケットの送信の成功であるとき、空き期間に所定の期間を加算した加算結果の逆数を即時報酬として算出する。
【0017】
(構成10)
構成8または構成9において、学習器は、第4のステップの第2の処理において、第1の動作期間における即時報酬と第1の動作期間における平均報酬と観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数とに基づいて第2の動作期間における平均報酬を算出して平均報酬を更新する。
【0018】
(構成11)
構成10において、学習器は、第4のステップの第2の処理において、第1の動作期間における即時報酬をRとし、第1の動作期間における平均報酬をVとし、第2の動作期間における平均報酬をVt+1とし、観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数をn(nは、1以上の整数である。)としたとき、以下の式(1)によって平均報酬Vt+1を算出することによって平均報酬を更新する。
【0019】
t+1=V+(R-V)/n・・・(1)
(構成12)
構成10または構成11において、学習器は、第4のステップの第3の処理において、確率(1-ε)(εは、1~0の範囲の実数である。)で第2の動作期間における平均報酬が最大であるチャネルを候補チャネルから送信用チャネルとして選択し、確率εで任意のチャネルを候補チャネルから送信用チャネルとして選択する。
【0020】
(構成13)
構成10から構成12のいずれかにおいて、学習器は、第4のステップの第3の処理において、観測期間における送信用チャネルの状態に対して第2の動作期間における平均報酬が最大であるパケット長を選択する。
【0021】
(構成14)
構成8から構成13のいずれかにおいて、制御手段が、パケットの送信が成功した確率である送信成功率がしきい値以下であるとき、候補チャネルの帯域と異なる帯域のチャネルを新たな候補チャネルとして選択し、その選択した新たな候補チャネルを用いるように学習器を制御する第5のステップを更にコンピュータに実行させ、
学習器は、新たな候補チャネルを用いて第1の処理、第2の処理および第3の処理を観測期間における送信用チャネルの状態、通信結果および空き期間を受け付ける毎に実行する。
【0022】
(構成15)
更に、この発明の実施の形態によれば、記録媒体は、構成8から構成14のいずれかに記載されたプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【0023】
異なる無線通信システムを用いて無線通信を行う端末装置と共存して無線通信を行うことができる。
【図面の簡単な説明】
【0024】
図1】この発明の実施の形態における通信システムの概略図である。
図2図1に示す端末装置の概略図である。
図3】受信電力スペクトルの概念図である。
図4】観測期間および空き期間を説明するための図である。
図5】学習器における対応表の概略図である。
図6図2に示す学習器の動作を説明するための図である。
図7図2に示す端末装置の動作を説明するためのタイミングチャートである。
図8図2に示す端末装置の各動作期間における動作を説明するための図である。
図9】対応表TBL1の変遷を示す第1の概略図である。
図10】対応表TBL1の変遷を示す第2の概略図である。
図11】対応表TBL1の変遷を示す第3の概略図である。
図12】対応表TBL1の変遷を示す第4の概略図である。
図13】対応表TBL1の変遷を示す第5の概略図である。
図14図2に示す端末装置の動作を説明するためのフローチャートである。
図15図2に示す学習器の動作を説明するための第1のフローチャートである。
図16図2に示す学習器の動作を説明するための第2のフローチャートである。
図17】パケット長mの異なる決定方法を説明するための図である。
【発明を実施するための形態】
【0025】
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
【0026】
図1は、この発明の実施の形態における通信システムの概略図である。図1を参照して、通信システム100は、基地局BS1と、端末装置TM1とを備える。基地局BS1および端末装置TM1は、無線通信空間に配置される。
【0027】
基地局BS1は、通信範囲REG1を有する。端末装置TM1は、通信範囲REG1内に配置される。
【0028】
基地局BS1は、無線通信システムRF1を用いてパケットを端末装置TM1へ送信するとともに端末装置TM1からパケットを受信する。
【0029】
基地局BS2は、通信範囲REG2を有する。そして、基地局BS2は、通信範囲REG2が基地局BS1の通信範囲REG1と一部が重複するように配置される。基地局BS2は、無線通信システムRF1と異なる無線通信システムRF2を用いてパケットを端末装置TM2へ送信するとともに端末装置TM2からパケットを受信する。
【0030】
端末装置TM1は、後述する方法によって、パケットを送信するための送信用チャネルを選択し、その選択した送信用チャネルで端末装置TM2による無線通信と共存するようにパケットを基地局BS1へ送信する。その後、端末装置TM1は、パケットを受信したことを示すACK(Acknowledgement)パケットを送信用チャネルで基地局BS1から受信したとき、パケットの送信が成功したことを検知し、ACKパケットを基地局BS1から受信しないとき、パケットの送信が失敗したことを検知する。
【0031】
なお、図1においては、基地局BS1の通信範囲REG1には、1個の端末装置TM1が図示されているが、実際には、基地局BS1の通信範囲REG1には、複数の端末装置TM1が存在する。
【0032】
以下においては、端末装置TM1を「端末装置10」と表記する。
【0033】
図2は、図1に示す端末装置の概略図である。図2を参照して、端末装置10は、アンテナ1と、受信手段2と、制御手段3と、学習器4と、送信手段5と、アプリケーション6とを備える。
【0034】
受信手段2は、キャリアセンスを行うための信号S_carrier_Lと選択チャネルCH_Selectとを制御手段3から受けると、他の端末装置による無線通信の有無を観測する期間である観測期間Lにおいて、選択チャネルCH_Selectでアンテナ1を介してキャリアセンスを行い、受信電力の時間依存性を示す受信電力スペクトルPW_carrier_Lを取得し、その取得した受信電力スペクトルPW_carrier_Lを制御手段3へ出力する。
【0035】
また、受信手段2は、アンテナ1を介して基地局BS1から選択チャネルCH_SelectでACKパケットを受信すると、その受信したACKパケットを制御手段3へ出力する。その後、受信手段2は、選択チャネルCH_Selectでアンテナ1を介してキャリアセンスを行い、選択チャネルCH_Selectにおける受信電力スペクトルPW_chnを取得する。そして、受信手段2は、受信電力スペクトルPW_chnを制御手段3へ出力する。
【0036】
制御手段3は、無線通信に用いるチャネルの候補である候補チャネルCH_cdt_1,チャネルCH_cdt_2を予め保持する。候補チャネルCH_cdt_1は、例えば、2.4GHz帯の1ch、6ch、11chからなり、候補チャネルCH_cdt_2は、例えば、5GHz帯の128ch、132chおよび136chからなる。そして、制御手段3は、候補チャネルCH_cdt_1、または候補チャネルCH_cdt_2を学習器4へ出力する。
【0037】
また、制御手段3は、学習器4から選択チャネルCH_Selectを受けると、信号S_carrier_Lを生成し、選択チャネルCH_Selectおよび信号S_carrier_Lを受信手段2へ出力する。その後、制御手段3は、受信電力スペクトルPW_carrier_Lを受信手段2から受け、その受けた受信電力スペクトルPW_carrier_Lに基づいて、後述する方法によって、観測期間Lにおける選択チャネルCH_Selectの状態Sを検出する。そして、制御手段3は、観測期間Lにおける選択チャネルCH_Selectの状態Sを学習器4へ出力する。
【0038】
更に、制御手段3は、アプリケーション6から送信データD_TRを受け、パケット長mを学習器4から受けると、送信用パケットPKTのパケット長L_PKTがパケット長mになるときのデータ量AODを有する送信データD_mを送信データD_TRから検出し、その検出した送信データD_mを含む送信用パケットPKTを生成する。そして、制御手段3は、選択チャネルCH_Selectにおけるキャリアセンスの結果を受信手段2から受けると、選択チャネルCH_Selectにおけるキャリアセンスの結果に基づいて選択チャネルCH_Selectが空いているか否かを判定する。そして、制御手段3は、選択チャネルCH_Selectが空いていると判定したとき、選択チャネルCH_Selectおよび送信用パケットPKTを送信手段5へ出力する。なお、制御手段3は、選択チャネルCH_Selectにおけるキャリアセンスの結果に基づいて選択チャネルCH_Selectが空いていないと判定したとき、選択チャネルCH_Selectが空くのを待って選択チャネルCH_Selectおよび送信用パケットPKTを送信手段5へ出力する。
【0039】
更に、制御手段3は、選択チャネルCH_Selectおよび送信用パケットPKTを送信手段5へ出力した後、一定期間において、ACKパケットを受信手段2から受けたとき、送信用パケットPKTの送信が成功したことを検知する。そして、制御手段3は、送信用パケットPKTの送信が成功したことを示す信号S_successを生成し、その生成した信号S_successを学習器4へ出力する。一方、制御手段3は、送信用パケットPKTを送信手段5へ出力した後、一定期間において、ACKパケットを受信手段2から受けなかったとき、送信用パケットPKTの送信が失敗したことを検知する。そして、制御手段3は、送信用パケットPKTの送信が失敗したことを示す信号S_failureを生成し、その生成した信号S_failureを学習器4へ出力する。つまり、制御手段3は、送信用パケットPKTを送信手段5へ出力した後、送信用パケットPKTの送信が成功したか失敗したかを判定する。
【0040】
更に、制御手段3は、送信用パケットPKTの送信が成功したか失敗したかを判定した後に、受信電力スペクトルPW_chnを受信手段2から受けると、その受けた受信電力スペクトルPW_chnに基づいて、後述する方法によって、空き期間Nを検出する。そして、制御手段3は、空き期間Nを学習器4へ出力する。
【0041】
更に、制御手段3は、一定期間において、送信手段5へ出力した送信用パケットPKTの個数NPKTと、受信手段2から受けたACKパケットの個数NACKとをカウントし、個数NACKを個数NPKTで除算してパケットの送信成功率RSUCCESSを算出する。そして、制御手段3は、送信成功率RSUCCESSがしきい値R_th以下であるとき、候補チャネルCH_cdtを変更する。一方、制御手段3は、送信成功率RSUCCESSがしきい値R_thよりも大きいとき、候補チャネルCH_cdtを変更しない。なお、しきい値R_thは、例えば、50%に設定される。
【0042】
学習器4は、候補チャネルCH_cdt、観測期間Lにおける選択チャネルCH_Selectの状態S、信号S_successまたは信号S_failure、および空き期間Nを制御手段3から受ける。そして、学習器4は、候補チャネルCH_cdt、観測期間Lにおける選択チャネルCH_Selectの状態S、信号S_successまたは信号S_failure、および空き期間Nに基づいて、多腕バンディットアルゴリズムによって学習を行い、候補チャネルCH_cdtから選択チャネルCH_Selectを選択し、送信用パケットPKTのパケット長mを選択する。そして、学習器4は、選択チャネルCH_Selectおよびパケット長mを制御手段3へ出力する。
【0043】
送信手段5は、選択チャネルCH_Selectおよび送信用パケットPKTを制御手段3から受けると、送信用パケットPKTを選択チャネルCH_Selectでアンテナ1を介して送信する。
【0044】
アプリケーション6は、送信データを生成し、その生成した送信データを制御手段3へ出力する。
【0045】
図3は、受信電力スペクトルの概念図である。図3において、縦軸は、受信電力を表し、横軸は、時間を表す。
【0046】
図3を参照して、受信電力スペクトルSP_RSSIは、受信電力が時間の経過とともに変化する。制御手段3は、全ての無線通信システムが通信を行っていない状態である信号の無い状態における受信電力値をしきい値RSSI_thとして予め保持する。
【0047】
そして、制御手段3は、選択チャネルCH_Selectで受信された受信電力スペクトルSP_RSSIの振幅値を2乗して受信電力値に変換し、その変換した受信電力値がしきい値RSSI_thよりも大きいとき、選択チャネルCH_Selectの状態がビジー状態であると判定し、受信電力値がしきい値RSSI_th以下であるとき、選択チャネルCH_Selectの状態がアイドル状態であると判定する。
【0048】
[学習器における学習]
学習器4における学習について説明する。図4は、観測期間および空き期間を説明するための図である。図4を参照して、この発明の実施の形態においては、チャネルの状態が変化する最小時間であるスロットSLを設定する。スロットSLは、例えば、10μsの長さを有する。
【0049】
受信手段2は、観測期間L(スロットSL1,SL2)において、選択チャネルCH_Selectでキャリアセンスを行って受信電力スペクトルPW_carrier_Lを検出し、その検出した受信電力スペクトルPW_carrier_Lを制御手段3へ出力する。
【0050】
制御手段3は、受信電力スペクトルPW_carrier_Lを受信手段2から受けると、受信電力スペクトルPW_carrier_Lの振幅値を2乗して受信電力値に変換する。そして、制御手段3は、受信電力値をしきい値RSSI_thと比較し、受信電力値がしきい値RSSI_thよりも大きいとき、選択チャネルCH_Selectの状態がビジー状態であると判定し、受信電力値がしきい値RSSI_th以下であるとき、選択チャネルCH_Selectの状態がアイドル状態であると判定することをスロットSL1,SL2について実行する。
【0051】
この発明の実施の形態においては、ビジー状態を“1”で表し、アイドル状態を“0”で表す。
【0052】
観測期間Lは、2つのスロットSL1,SL2からなるので、観測期間Lにおける選択チャネルCH_Selectの状態Sを“00”、“01”、“10”および“11”の2ビットで表す。
【0053】
送信手段5は、観測期間Lの後のスロットSL3,SL4でパケットを送信すると、制御手段3は、スロットSL5において、ACKパケットを受信したか否かを判定することによってパケットの送信が成功したか失敗したかを判定する。
【0054】
その後、受信手段2は、スロットSL6~SL8において、選択チャネルCH_Selectでキャリアセンスを行って受信電力スペクトルPW_chnを検出し、その検出した受信電力スペクトルPW_chnを制御手段3へ出力する。
【0055】
制御手段3は、受信電力スペクトルPW_chnを受信手段2から受けると、受信電力スペクトルPW_chnの振幅値を2乗して受信電力値に変換する。そして、制御手段3は、受信電力値をしきい値RSSI_thと比較し、受信電力値がしきい値RSSI_thよりも大きいとき、選択チャネルCH_Selectの状態がビジー状態であると判定し、受信電力値がしきい値RSSI_th以下であるとき、選択チャネルCH_Selectの状態がアイドル状態であると判定することをスロットSL6~SL8について実行する。
【0056】
そして、制御手段3は、スロットSL6がビジー状態であるとき、空き期間Nが“0”であることを検出し、スロットSL6がアイドル状態であり、かつ、スロットSL7がビジー状態であるとき、空き期間Nが“1”であることを検出し、スロットSL6,SL7がアイドル状態であり、かつ、スロットSL8がビジー状態であるとき、空き期間Nが“2”であることを検出し、スロットSL6~SL8がアイドル状態であるとき、空き期間Nが“3”であることを検出する。即ち、制御手段3は、スロットSL6がアイドル状態であることを起点として、アイドル状態のスロットSL6からアイドル状態が連続するスロットSLまでの期間を空き期間Nとして検出する。つまり、空き期間Nは、パケット送信後において、無線通信が行われていない状態が連続する期間である。
【0057】
制御手段3は、観測期間Lにおける選択チャネルCH_Selectの状態Sおよび空き期間Nを検出すると、その検出した観測期間Lにおける選択チャネルCH_Selectの状態Sおよび空き期間Nを学習器4へ出力する。また、制御手段3は、受信手段2からACKパケットを受けたとき、信号S_successを生成して学習器4へ出力し、受信手段2からACKパケットを受けなかったとき、信号S_failureを生成して学習器4へ出力する。
【0058】
図5は、学習器4における対応表の概略図である。図5を参照して、対応表TBL1は、チャネル番号と、観測期間Lにおける選択チャネルCH_Selectの状態Sと、パケット長mと、平均報酬Vとを含む。チャネル番号、観測期間Lにおける選択チャネルCH_Selectの状態S、パケット長mおよび平均報酬Vは、相互に対応付けられる。
【0059】
チャネル番号は、1,・・・,a,・・・,A(Aは、1つの候補チャネルCH_cdtに含まれるチャネルの総数であり、aは、1~Aの整数である。)からなる。観測期間Lにおける選択チャネルCH_Selectの状態Sは、“00”、“01”、“10”および“11”からなる。観測期間Lにおける選択チャネルCH_Selectの状態“00”、“01”、“10”および“11”は、チャネル1,・・・,a,・・・,Aの各々に対応付けられる。
【0060】
パケット長mは、1,2,・・・,Mからなる。Mは、パケット長mの総数であり、2以上の整数である。パケット長m=1、パケット長m=2、・・・、およびパケット長m=Mは、それぞれ、異なるパケット長を表し、例えば、パケット長m=1が最も短いパケット長を表し、パケット長m=Mが最も長いパケット長を表す。そして、パケット長m=Mは、例えば、無線通信システムにおけるDIFS(Distributed Inter Frame Space)の長さに設定され、パケット長m=1は、基準のパケット長に設定され、mが“1”増える毎に、パケット長mは、例えば、10μsづつ長くなる。基準のパケット長は、例えば、10μsに設定される。
【0061】
パケット長m=1~Mは、1つのチャネル番号における観測期間Lにおける選択チャネルCH_Selectの状態“00”、“01”、“10”および“11”の各々に対応付けられる。図5においては、観測期間Lにおける選択チャネルCH_Selectの状態“01”、“10”および“11”に対応するパケット長mの欄が空白であるが、実際には、観測期間Lにおける選択チャネルCH_Selectの状態“01”、“10”および“11”に対応するパケット長mの欄には、パケット長m=1~Mが格納されている。
【0062】
平均報酬Vは、各チャネル番号において、観測期間Lにおける選択チャネルCH_Selectの状態“00”、“01”、“10”および“11”の各々に対応付けられるM個のパケット長m=1~Mに対応付けられる。そして、平均報酬Vは、次式によって算出される。
【0063】
【数1】
【0064】
式(1)において、Vt+1は、動作期間T+1における平均報酬であり、Vは、動作期間Tにおいて得られる平均報酬であり、Rは、動作期間Tにおいて得られる即時報酬であり、nは、観測期間Lにおける選択チャネルCH_Selectの1つの状態Sに対応する1つのパケット長mを選択した回数である。
【0065】
式(1)は、動作期間Tにおける平均報酬V、動作期間Tにおける即時報酬Rおよび観測期間Lにおける選択チャネルCH_Selectの状態Sに対応する1つのパケット長mを選択した回数nによって動作期間T+1において得られる平均報酬Vt+1を算出することを表す。そして、平均報酬Vt+1は、観測期間Lにおける選択チャネルCH_Selectの状態Sに対応するM個のパケット長mの各々について算出される。
【0066】
式(1)における即時報酬Rは、次式によって表される。
【0067】
【数2】
【0068】
式(2)においては、パケットの送信が成功したとき(Success)、即時報酬Rは、空き期間Nに“1”を加算した加算結果N+1の逆数にパケット長mを乗算した乗算結果からなり、パケットの送信が失敗したとき(Failure)、即時報酬Rは、零(=0)である。
【0069】
式(2A)において、N+1の逆数を算出するのは、空き期間Nが零(=0)である場合にも、即時報酬Rを算出できるようにするためである。
【0070】
式(2)によれば、パケットの送信が成功したとき(Success)、即時報酬Rは、空き期間Nが短い方が大きくなり、空き期間Nが長い方が小さくなり、パケット長が長い方が大きくなり、パケット長mが短い方が小さくなる。
【0071】
式(1)においては、平均報酬Vの初期値は、零(=0)に設定される。その結果、動作期間Tにおいて、パケットの送信に失敗したとき、即時報酬Rが零(=0)であるので(式(2B)参照)、平均報酬Vt+1は、零(=0)である。一方、動作期間Tにおいて、パケットの送信に成功したとき、即時報酬Rがm/(N+1)であるので(式(2A)参照)、平均報酬Vt+1は、m/{n・(N+1)}である。
【0072】
従って、学習器4における学習が開始された後、パケットの送信が失敗することが継続すると、平均報酬Vt+1は、大きくならない。
【0073】
式(1)および式(2)によれば、即時報酬Rが平均報酬Vよりも大きいとき、平均報酬Vt+1は、観測期間Lにおける選択チャネルCH_Selectの状態S(“00”,“01”,“10”,“11”のいずれか1つ)に対応する1つのパケット長mを選択した回数nが増加するに従って大きくなる。即ち、平均報酬Vt+1は、観測期間Lにおける選択チャネルCH_Selectの1つの状態Sに対応する同じパケット長mが選択され続けることによって増加する。従って、観測期間Lにおける選択チャネルCH_Selectの状態S(“00”,“01”,“10”,“11”のいずれか1つ)に対応するM個のパケット長1~M(図5参照)のうちのいずれか1つに対応する平均報酬Vが最初に零(=0)よりも大きくなると、その後、観測期間Lにおける選択チャネルCH_Selectの状態Sが同じであれば、同じパケット長mが選択され続ける可能性がある。
【0074】
一方、即時報酬Rが平均報酬Vよりも小さいとき、平均報酬Vt+1は、観測期間Lにおける選択チャネルCH_Selectの状態S(“00”,“01”,“10”,“11”のいずれか1つ)に対応する1つのパケット長mを選択した回数nが増加するに従って小さくなる。これは、空き期間Nが長くなった場合に生じうる。従って、より大きい平均報酬Vt+1を獲得する観点からは、学習器4による学習を継続することによって観測期間Lにおける選択チャネルCH_Selectの状態S(“00”,“01”,“10”,“11”のいずれか1つ)に応じてパケットの送信に成功する確率がより高く、かつ、より長いパケット長mを見出し、その見出したパケット長mを観測期間Lにおける選択チャネルCH_Selectの状態S(“00”,“01”,“10”,“11”のいずれか1つ)に応じて選択することが好ましい。これによって、端末装置10は、他の端末装置による無線通信との衝突を回避して(即ち、他の端末装置と共存して)、無線通信を行うことができる。
【0075】
図6は、図2に示す学習器4の動作を説明するための図である。図6を参照して、学習器4は、対応表TBL1を保持する。そして、学習器4は、候補チャネルCH_cdtを制御手段3から受けると、動作期間Tにおいて、ε-greedy法によって候補チャネルCH_cdtからチャネルを選択する。より具体的には、学習器4は、ある一定の小さい数ε(例えば、0.3)を決定しておき、0~1の範囲の実数からなる乱数pを発生させ、その発生させた乱数pがε以下であるとき、候補チャネルCH_cdtからランダムにチャネルを選択チャネルCH_Select_Tとして選択し、発生した乱数pがε以下でないとき、動作期間Tにおいて最大の平均報酬Vが得られるチャネルを選択チャネルCH_Select_tとして候補チャネルCH_cdtから選択する。
【0076】
そして、学習器4は、候補チャネルCH_cdtから選択した選択チャネルCH_Select_tを制御手段3へ出力する。
【0077】
その後、学習器4は、観測期間Lにおける選択チャネルCH_Select_tの状態Sを制御手段3から受けると、観測期間Lにおける選択チャネルCH_Select_tの状態Sに対して、ε-greedy法によってパケット長mを選択する。より具体的には、学習器4は、0~1の範囲の実数からなる乱数pを発生させ、その発生させた乱数pがε以下であるとき、パケット長1~Mからランダムにパケット長mを選択し、発生した乱数pがε以下でないとき、動作期間Tにおいて最大の平均報酬Vが得られるときのパケット長mをパケット長1~Mから選択する。
【0078】
なお、学習器4は、発生した乱数pがε以下でないときに最大の平均報酬Vが存在しないとき、パケット長1~Mからランダムにパケット長mを選択する。
【0079】
学習器4は、パケット長mを選択すると、その選択したパケット長mを制御手段3へ出力する。
【0080】
その後、学習器4は、パケットが送信されたときの通信結果(パケットの送信の成功または失敗)および空き期間Nを制御手段3から受けると、通信結果(パケットの送信の成功または失敗)および空き期間Nに基づいて、動作期間Tにおける即時報酬Rを算出する。より具体的には、学習器4は、パケットの送信の成功と空き期間Nとを受けたとき、式(2A)によって即時報酬Rを算出する。一方、学習器4は、パケットの送信の失敗と空き期間Nとを受けたとき、式(2B)によって即時報酬Rを算出する。そして、学習器4は、即時報酬Rを算出すると、その算出した即時報酬Rを記憶する。
【0081】
学習器4は、即時報酬Rを算出した後に、即時報酬Rを算出したときの選択チャネルCH_Select_tと同じチャネルを選択チャネルCH_Select_T+1として選択したときの平均報酬Vt+1を、即時報酬Rおよび平均報酬Vを用いて式(1)によって算出する。
【0082】
そうすると、学習器4は、対応表TBL1において、観測期間Lにおける選択チャネルCH_Select_tの状態Sに対応付けられたパケット長m(即時報酬Rを算出したときのパケット長m)に対応付けて平均報酬Vt+1を格納する。
【0083】
そして、学習器4は、動作期間T+1において、上述した方法によって選択チャネルCH_Select_T+1を選択し、その選択した選択チャネルCH_Select_T+1を制御手段3へ出力する。
【0084】
その後、学習器4は、観測期間Lにおける選択チャネルCH_Select_T+1の状態St+1を制御手段3から受けると、上述した方法によって、選択チャネルCH_Select_T+1の状態St+1に対してパケット長mt+1を選択する。そして、学習器4は、選択したパケット長mt+1を制御手段3へ出力する。
【0085】
その後、学習器4は、上述した動作を繰り返し実行する。
【0086】
[端末装置における学習器以外の動作]
制御手段3は、候補チャネルCH_cdtを学習器4へ出力し、その後、選択チャネルCH_Selectを学習器4から受ける。
【0087】
そして、制御手段3は、信号S_carrier_Lを生成し、選択チャネルCH_Selectおよび信号S_carrier_Lを受信手段2へ出力する。
【0088】
その後、制御手段3は、受信電力スペクトルPW_carrier_Lを受信手段2から受け、その受けた受信電力スペクトルPW_carrier_Lに基づいて、上述した方法によって観測期間Lにおける選択チャネルCH_Selectの状態S(=“00”,“01”,“10”,“11”のいずれか)を検出する。そして、制御手段3は、観測期間Lにおける選択チャネルCH_Selectの状態S(=“00”,“01”,“10”,“11”のいずれか)を学習器4へ出力する。
【0089】
引き続いて、制御手段3は、アプリケーション6から送信データを受け、学習器4からパケット長mを受けると、上述した方法によって、パケット長mを有する送信用パケットPKTを生成する。
【0090】
そして、制御手段3は、キャリアセンスの結果を受信手段2から受け、その受けたキャリアセンスの結果に基づいて、選択チャネルCH_Selectが空いていると判定したとき、選択チャネルCH_Selectおよび送信用パケットPKTを送信手段5へ出力する。
【0091】
送信手段5は、選択チャネルCH_Selectおよび送信用パケットPKTを制御手段3から受ける。そして、送信手段5は、選択チャネルCH_Selectを用いて送信用パケットPKTを送信する。この場合、送信手段5は、固定の伝送レートで送信用パケットPKTを送信する。
【0092】
その後、受信手段2は、一定期間において、選択チャネルCH_SelectでACKパケットを受信すると、その受信したACKパケットを制御手段3へ出力する。そして、受信手段2は、選択チャネルCH_Selectでキャリアセンスを行い、受信電力スペクトルPW_chnを検出し、その検出した受信電力スペクトルPW_chnを制御手段3へ出力する。
【0093】
制御手段3は、ACKパケットを受信手段2から受けると、パケットの送信が成功したことを検知し、ACKパケットを受信手段2から受けなかったとき、パケットの送信が失敗したことを検知する。そして、制御手段3は、パケットの送信が成功したことを検知したとき、信号S_successを生成して学習器4へ出力し、パケットの送信が失敗したことを検知したとき、信号S_failureを生成して学習器4へ出力する。
【0094】
そして、制御手段3は、受信電力スペクトルPW_chnを受信手段2から受けると、受信電力スペクトルPW_chnに基づいて、上述した方法によって、空き期間Nを検出し、その検出した空き期間Nを学習器4へ出力する。
【0095】
また、制御手段3は、パケットの送信数NPKTと、受信手段2から受けたACKパケットの個数NACKとをカウントし、個数NACKを送信数NPKTで除算して送信成功率RSUCCESSを算出する。
【0096】
そして、制御手段3は、送信成功率RSUCCESSがしきい値R_th以下であるか否かを判定する。
【0097】
制御手段3は、送信成功率RSUCCESSがしきい値R_th以下であると判定したとき、帯域の異なるチャネルからなる候補チャネル(既に学習器4へ出力した候補チャネルと個なる候補チャネル)を学習器4へ出力する。
【0098】
一方、制御手段3は、送信成功率RSUCCESSがしきい値R_thよりも大きいと判定したとき、既に学習器4へ出力した候補チャネル(候補チャネルCH_cdt_1または候補チャネルCH_cdt_2)を維持する。つまり、制御手段3は、候補チャネルCH_cdtを変更しない。
【0099】
以後、上述した動作が繰り返し実行される。
【0100】
図7は、図2に示す端末装置10の動作を説明するためのタイミングチャートである。図7においては、チャネル1、チャネル2およびチャネル3からなる候補チャネルCH_cdtのうち、チャネル2が選択チャネルCH_Selectとして選択された場合について端末装置10の動作タイミングを説明する。また、矢印AR1のタイミングから矢印AR6のタイミングまでの期間を動作期間Tとする。
【0101】
図7を参照して、制御手段3は、矢印AR1のタイミングよりも前のタイミングにおいて、候補チャネル(チャネル1~3)を学習器4へ出力する。そして、制御手段3は、矢印AR1のタイミングにおいて、送信データD_mを含む送信用パケットPKTを生成する。また、学習器4は、矢印AR1のタイミングにおいて、候補チャネル(チャネル1~3)からチャネル2を選択チャネルCH_Selectとして選択し、その選択した選択チャネルCH_Select(=チャネル2)を制御手段3へ出力する。
【0102】
そして、制御手段3は、学習器4から選択チャネルCH_Select(=チャネル2)を受けると、信号S_carrier_Lを生成し、選択チャネルCH_Select(=チャネル2)および信号S_carrier_Lを受信手段2へ出力する。
【0103】
受信手段2は、選択チャネルCH_Select(=チャネル2)および信号S_carrier_Lを制御手段3から受けると、矢印AR1のタイミングから矢印AR2のタイミングまでの観測期間Lにおいて、選択チャネルCH_Select(=チャネル2)においてキャリアセンスを行って受信電力スペクトルPW_carrier_Lを検出し、その検出した受信電力スペクトルPW_carrier_Lを制御手段3へ出力する。
【0104】
制御手段3は、受信電力スペクトルPW_carrier_Lを受信手段2から受けると、受信電力スペクトルPW_carrier_Lの振幅値を2乗して受信電力値に変換する。そして、制御手段3は、受信電力値をしきい値RSSI_thと比較し、受信電力値がしきい値RSSI_thよりも大きいとき、選択チャネルCH_Select(=チャネル2)の状態がビジー状態であると判定し、受信電力値がしきい値RSSI_th以下であるとき、選択チャネルCH_Select(=チャネル2)の状態がアイドル状態であると判定する。
【0105】
そして、制御手段3は、矢印AR2のタイミングにおいて、観測期間Lにおける選択チャネルCH_Select(=チャネル2)の状態Sが“00”,“01”,“10”,“11”のいずれかからなることを検出する。
【0106】
図7においては、観測期間Lの1番目のスロットSLにおいてパケットが送信されており、観測期間Lの2番目のスロットSLが空いているので、制御手段3は、矢印AR2のタイミングにおいて、受信電力スペクトルPW_carrier_Lに基づいて、上述した方法によって、観測期間Lにおける選択チャネルCH_Select(=チャネル2)の状態Sが“10”であることを検出する。そして、制御手段3は、観測期間Lにおける選択チャネルCH_Select(=チャネル2)の状態S(=“10”)を学習器4へ出力する。
【0107】
学習器4は、観測期間Lにおける選択チャネルCH_Select(=チャネル2)の状態S(=“10”)を制御手段3から受けると、矢印AR2のタイミングにおいて、上述した方法によって、観測期間Lにおける選択チャネルCH_Select(=チャネル2)の状態S(=“10”)に応じたパケット長mを選択し、その選択したパケット長mを制御手段3へ出力する。
【0108】
また、制御手段3は、矢印AR2のタイミングにおいて、アプリケーション6から送信データD_TRを受け、学習器4からパケット長mを受けると、その受けた送信データD_TRおよびパケット長mに基づいて、上述した方法によって、送信データD_mを含む送信用パケットPKTを生成し、キャリアセンスを行うように受信手段2を制御する。そして、制御手段3は、キャリアセンスの結果を受信手段2から受け、その受けたキャリアセンスの結果に基づいて、選択チャネルCH_Selectが空いていると判定したとき、選択チャネルCH_Select(=チャネル2)および送信用パケットPKTを送信手段5へ出力する。
【0109】
なお、制御手段3は、選択チャネルCH_Selectが空いていないと判定したとき、選択チャネルCH_Selectが空くのを待って、選択チャネルCH_Select(=チャネル2)および送信用パケットPKTを送信手段5へ出力する。
【0110】
送信手段5は、矢印AR2のタイミングにおいて、選択チャネルCH_Select(=チャネル2)および送信用パケットPKTを制御手段3から受け、選択チャネルCH_Selectを用いて送信用パケットPKTを送信する。
【0111】
そして、矢印AR3のタイミングでパケットの送信が完了する。その後、受信手段2は、矢印AR4のタイミングでACKパケットを受信すると、その受信したACKパケットを制御手段3へ出力する。
【0112】
制御手段3は、ACKパケットを受信手段2から受けると、パケットの送信が成功したことを検知する。一方、制御手段3は、ACKパケットを受信手段2から受けなかったとき、パケットの送信が失敗したことを検知する。従って、制御手段3は、矢印AR4のタイミングにおいて、パケットの送信の成功または失敗を学習器4へ出力する。
【0113】
その後、受信手段2は、矢印AR5のタイミングから矢印AR6のタイミングまでの期間において選択チャネルCH_Selectでキャリアセンスを行って受信電力スペクトルPW_chnを検出し、その検出した受信電力スペクトルPW_chnを制御手段3へ出力する。
【0114】
制御手段3は、受信電力スペクトルPW_chnを受信手段2から受けると、矢印AR6のタイミングにおいて、受信電力スペクトルPW_chnに基づいて、上述した方法によって、空き期間Nを検出し、その検出した空き期間Nを学習器4へ出力する。
【0115】
学習器4は、矢印AR6のタイミングにおいて、空き期間Nを制御手段3から受けると、その受けた空き期間Nと、矢印AR4のタイミングで制御手段3から受けたパケットの送信の成功または失敗とに基づいて、動作期間Tにおける即時報酬Rを算出し、その算出した即時報酬Rを記憶する。この即時報酬Rは、動作期間Tの後の動作期間(矢印AR1のタイミングから矢印AR6のタイミングまでの期間からなる動作期間)において、動作期間Tにおける選択チャネルCH_Selectと同じチャネルが選択されたときに得られる平均報酬Vt+1を式(1)によって算出するために用いられる。
【0116】
学習器4は、即時報酬Rを記憶すると、選択チャネルCH_Selectと同じチャネルが選択されたときに算出された動作期間Tにおける即時報酬Rを用いて、動作期間Tよりも後の動作期間(矢印AR1のタイミングから矢印AR6のタイミングまでの期間からなる動作期間)における平均報酬Vt+1を式(1)によって算出する。そして、学習器4は、対応表TBL1において、観測期間Lにおける選択チャネルCH_Selectの状態Sに対応付けられたパケット長m(即時報酬Rを算出したときのパケット長m)に対応付けて平均報酬Vt+1を格納する。
【0117】
その後、制御手段3は、上述した送信成功率RSUCCESSを算出する。そして、制御手段3は、その算出した送信成功率RSUCCESSがしきい値R_th以下であるとき、別の候補チャネルCH_cdtを学習器4へ出力して別の候補チャネルCH_cdtを用いるように学習器4を制御する。一方、制御手段3は、送信成功率RSUCCESSがしきい値R_thよりも大きいとき、矢印AR1のタイミングよりも前のタイミングにおいて、学習器4へ既に出力した候補チャネルCH_cdtを維持するので、学習器4へ候補チャネルCH_cdtを出力しない。
【0118】
学習器4は、制御手段3から既に受けた候補チャネルCH_cdtと異なる候補チャネルCH_cdtを制御手段3から受けると、その受けた候補チャネルCH_cdtに基づいて上述した方法によって選択チャネルCH_Selectを選択する。
【0119】
以後、端末装置10は、動作期間T毎に上述した動作を繰り返し実行する。
【0120】
図8は、図2に示す端末装置10の各動作期間における動作を説明するための図である。
【0121】
図8を参照して、T(Tは、正の整数である。)番目の動作期間、(T+1)番目の動作期間および(T+2)番目の動作期間の各々は、図7に示す矢印AR1のタイミングから矢印AR6のタイミングまでの期間からなる。
【0122】
制御手段3は、T番目の動作期間の矢印AR1のタイミングにおいて学習器4から選択チャネルCH_Select_tを受ける。そして、受信手段2および制御手段3は、次の(I)~(III)を実行する。
(I)T番目の動作期間の矢印AR2のタイミングにおいて、観測期間Lにおける選択チャネルCH_Select_tの状態Sを検出する。
(II)T番目の動作期間の矢印AR4のタイミングにおいて、パケットを送信したときの通信結果CM_rst_t(パケットの送信の成功または失敗)を取得する。
(III)T番目の動作期間の矢印AR5のタイミングから矢印AR6のタイミングまでの期間において、パケットの送信完了後の空き期間Nを検出する。
【0123】
そうすると、制御手段3は、(I)~(III)における観測期間Lにおける選択チャネルCH_Select_tの状態S、パケットを送信したときの通信結果CM_rst_t(パケットの送信の成功または失敗)、および空き期間Nを学習器4へ出力する。
【0124】
学習器4は、T番目の動作期間において、次の(A)~(D)を実行する。
(A)T番目の動作期間において、選択チャネルCH_Select_tを選択する。
(B)T番目の動作期間において、観測期間Lにおける選択チャネルCH_Select_tの状態Sに応じてパケット長mを選択する。
(C)T番目の動作期間における通信結果CM_rst_t、空き期間Nおよびパケット長mに基づいて式(2)によって即時報酬Rを算出する。
(D)即時報酬Rを用いて(T+1)番目の動作期間における平均報酬Vt+1を式(1)によって算出する。
【0125】
次に、(T+1)番目の動作期間において、受信手段2および制御手段3は、上記の(I)~(III)を実行する。この場合、受信手段2および制御手段3は、(I)において、観測期間Lにおける選択チャネルCH_Select_t+1の状態St+1を検出し、(II)において、パケットを送信したときの通信結果CM_rst_t+1を取得し、(III)において、パケットの送信完了後の空き期間Nt+1を検出する。
【0126】
一方、学習器4は、(T+1)番目の動作期間において、上記の(A)~(D)を実行する(図8の(E)参照)。この場合、学習器4は、(A)において、選択チャネルCH_Select_t+1を選択し、(B)において、観測期間Lにおける選択チャネルCH_Select_t+1の状態St+1に応じてパケット長mt+1を選択し、(C)において、通信結果CM_rst_t+1、空き期間Nt+1およびパケット長mt+1に基づいて式(2)によって即時報酬Rt+1を算出し、(D)において、即時報酬Rt+1を用いて(T+2)番目の動作期間における平均報酬Vt+2を式(1)によって算出する。
【0127】
更に、(T+2)番目の動作期間において、受信手段2および制御手段3は、上記の(I)~(III)を実行する。この場合、受信手段2および制御手段3は、(I)において、観測期間Lにおける選択チャネルCH_Select_t+2の状態St+2を検出し、(II)において、パケットを送信したときの通信結果CM_rst_t+2を取得し、(III)において、パケットの送信完了後の空き期間Nt+2を検出する。
【0128】
一方、学習器4は、(T+2)番目の動作期間において、上記の(A)~(D)を実行する(図8の(F)参照)。この場合、学習器4は、(A)において、選択チャネルCH_Select_t+2を選択し、(B)において、観測期間Lにおける選択チャネルCH_Select_t+2の状態St+2に応じてパケット長mt+2を選択し、(C)において、通信結果CM_rst_t+2、空き期間Nt+2およびパケット長mt+2に基づいて式(2)によって即時報酬Rt+2を算出し、(D)において、即時報酬Rt+2を用いて(T+3)番目の動作期間における平均報酬Vt+3を式(1)によって算出する。
【0129】
なお、学習器4は、即時報酬Rおよび平均報酬Vt+1を算出し、選択チャネルCH_Select_T+1を選択することを(T+1)番目の動作期間の矢印AR1のタイミングまでに行い、即時報酬Rおよび平均報酬Vt+1を算出し、パケット長mt+1を選択することを(T+1)番目の動作期間の矢印AR2のタイミングまでであれば、T番目の動作期間において行ってもよく、(T+1)番目の動作期間において行ってもよい。
【0130】
また、学習器4は、即時報酬Rt+1および平均報酬Vt+2を算出し、選択チャネルCH_Select_T+2を選択することを(T+2)番目の動作期間の矢印AR1のタイミングまでに行い、即時報酬Rt+1および平均報酬Vt+2を算出し、パケット長mt+2を選択することを(T+2)番目の動作期間の矢印AR2のタイミングまでであれば、(T+1)番目の動作期間において行ってもよく、(T+2)番目の動作期間において行ってもよい。
【0131】
そして、受信手段2、制御手段3および学習器4は、上述した動作を繰り返し実行する。
【0132】
T番目の動作期間は、「第1の動作期間」を構成し、(T+1)番目の動作期間は、「第2の動作期間」を構成する。
【0133】
そして、T番目の動作期間および(T+1)番目の動作期間において、上述した動作が終了した後、(T+1)番目の動作期間および(T+2)番目の動作期間において、上述した動作が繰り返し実行される。この場合、(T+1)番目の動作期間は、「第1の動作期間」を構成し、(T+2)番目の動作期間は、「第2の動作期間」を構成する。以後、同様にして、2つの動作期間において、上述した動作が繰り返し実行される。この場合、2つの動作期間は、2つの動作期間において同じ選択チャネルCH_Selectが連続して選択されるとき、隣接しており、2つの動作期間において同じ選択チャネルCH_Selectが連続して選択されないとき、離れている。
【0134】
この発明の実施の形態においては、即時報酬Rは、1つの動作期間においてパケットが選択チャネルCH_Selectで送信されたときに得られる報酬であり、平均報酬Vt+1は、観測期間Lにおける選択チャネルCH_Selectの状態Sに対応する1つのパケット長mを選択した回数n(累積値)によって1つの選択チャネルCH_Selectにおける即時報酬Rの累積値を平均した報酬であり、かつ、1つの動作期間の後の動作期間において得られる報酬である。
【0135】
図9から図13は、それぞれ、対応表TBL1の変遷を示す第1の概略図から第5の概略図である。
【0136】
図9から図13は、候補チャネルが1ch,6ch,11chからなり、パケット長mが10μs、20μsおよび30μsである場合について対応表TBL1の変遷を示す。
【0137】
図9を参照して、対応表TBL1(A)は、観測期間Lにおけるチャネルの状態“00”,“01”,“10”,“11”が1ch,6ch,11chの各々に対応付けられ、パケット長10μs,20μs,30μsが観測期間Lにおけるチャネルの状態“00”,“01”,“10”,“11”の各々に対応付けられ、平均報酬Vがそれぞれのパケット長10μs,20μs,30μsに対応付けられた構成からなる。そして、対応表TBL1(A)は、初期状態の対応表であるため、平均報酬Vは、全て、初期値(=0)からなる。そして、学習器4は、候補チャネル(=1ch,6ch,11ch)を制御手段3から受ける。
【0138】
次に、図10を参照して、学習器4は、1番目の動作期間において、乱数pを発生させ、その発生させた乱数pがε以下であるので、候補チャネル(=1ch,6ch,11ch)からランダムにチャネル6chを選択し(図10の対応表TBL1(B)参照)、チャネル6chを選択チャネルCH_Selectとして制御手段3へ出力する。
【0139】
その後、学習器4は、観測期間Lにおけるチャネル6chの状態“01”を制御手段3から受ける。そして、学習器4は、ε-greedy法によって、観測期間Lにおけるチャネル6chの状態“01”に応じたパケット長mを選択する。ε-greedy法によってパケット長mを選択する場合、発生した乱数pがε以下であるとき、ランダムにパケット長mを選択し、発生した乱数pがε以下でないとき、最大の平均報酬Vが得られるときのパケット長mを選択することになる。
【0140】
この時点で、観測期間Lにおけるチャネル6chの状態“01”に対応する平均報酬Vは、全て、零(0)であり(図9の対応表TBL1(A)参照)、最大の平均報酬Vが存在しないので、発生した乱数pがε以下でないとき、ランダムにパケット長mを選択することになる。一方、発生した乱数pがε以下であるとき、ε-greedy法によれば、ランダムにパケット長mを選択することになる。
【0141】
従って、学習器4は、パケット長m=10μsをランダムに選択し(図10の対応表TBL1(B)参照)、パケット長m=10μsを制御手段3へ出力する。
【0142】
引き続いて、学習器4は、パケットの送信が成功したことを示す信号S_successを制御手段3から受け、その後、空き期間N(=2)を制御手段3から受ける。
【0143】
そして、学習器4は、信号S_successおよび空き期間N(=2)に基づいて式(2A)によって1番目の動作期間における即時報酬R(=10/3)を算出する。この時点において、観測期間Lにおけるチャネル6chの状態“01”に対応する平均報酬Vは、全て、零(=0)であるので(図9の対応表TBL1(A)参照)、学習器4は、即時報酬R(=10/3)と平均報酬V(=0)と、n=1とを式(1)に代入して、平均報酬V=0+(10/3-0)/1=10/3を算出し、その算出した平均報酬V(=10/3)をパケット長m=10μsに対応付けて対応表TBL1(B)に格納する。
【0144】
図11を参照して、学習器4は、2番目の動作期間において、乱数pを発生させ、その発生させた乱数pがε以下であるので、候補チャネル(=1ch,6ch,11ch)からランダムにチャネル6chを選択し、チャネル6chを選択チャネルCH_Selectとして制御手段3へ出力する。
【0145】
その後、学習器4は、観測期間Lにおけるチャネル6chの状態“01”を制御手段3から受ける。この時点で、観測期間Lにおけるチャネル6chの状態“01”に対応する平均報酬Vの欄には、10μsのパケット長mに対応付けて平均報酬V(=10/3)が格納されている(図10の対応表TBL1(B)参照)。学習器4は、乱数pを発生させ、その発生させた乱数pがε以下でないので、最大の平均報酬Vが得られるときのパケット長m=10μsを選択し、その選択したパケット長m=10μsを制御手段3へ出力する。
【0146】
引き続いて、学習器4は、パケットの送信が成功したことを示す信号S_successを制御手段3から受け、その後、空き期間N(=1)を制御手段3から受ける。
【0147】
そうすると、学習器4は、信号S_successおよび空き期間N(=1)に基づいて式(2A)によって即時報酬R(=10/2)を算出し、その算出した即時報酬R(=10/2)を記憶する。
【0148】
その後、学習器4は、即時報酬R(=10/2)と平均報酬V(=10/3)とn=2とを式(1)に代入して、平均報酬V=10/3+(10/2-10/3)/2=25/6を算出し、その算出した平均報酬V(=25/6)をパケット長m=10μsに対応付けて対応表TBL1(B)に格納する。
【0149】
図12を参照して、学習器4は、3番目の動作期間において、乱数pを発生させ、その発生させた乱数pがε以下であるので、チャネル1chをランダムに選択し、その選択したチャネル1chを選択チャネルCH_Selectとして制御手段3へ出力する。
【0150】
その後、学習器4は、観測期間Lにおけるチャネル1chの状態“00”を制御手段3から受ける。この時点で、観測期間Lにおけるチャネル1chの状態“00”に対応する平均報酬Vは、全て、零(0)である(図11の対応表TBL1(C)参照)。学習器4は、乱数pを発生させ、その発生させた乱数pがε以下であるので、パケット長m=20μsをランダムに選択し、パケット長m=20μsを制御手段3へ出力する。
【0151】
その後、学習器4は、パケットの送信が失敗したことを示す信号S_failureを制御手段3から受ける。
【0152】
そして、学習器4は、信号S_failureに基づいて式(2B)によって即時報酬R(=0)を算出し、その算出した即時報酬R(=0)を記憶する。そうすると、学習器4は、即時報酬R(=0)および平均報酬V(=0)に基づいて、平均報酬V(=0)を算出し、その算出した平均報酬V(=0)を対応表TBL1(D)のチャネル1chの状態“00”に対応する20μsのパケット長mに対応付けて平均報酬Vの欄に格納する。
【0153】
図13を参照して、学習器4は、4番目の動作期間において、乱数pを発生させ、その発生させた乱数pがεよりも大きいので、最大の平均報酬Vが得られるときのチャネル6chを選択する。対応表TBL1(D)においては、平均報酬V=25/6であり、平均報酬V=0であるので、平均報酬Vが最大である。
【0154】
学習器4は、チャネル6chを選択すると、その選択したチャネル6chを選択チャネルCH_Selectとして制御手段3へ出力する。
【0155】
その後、学習器4は、観測期間Lにおけるチャネル6chの状態“01”を制御手段3から受ける。この時点で、観測期間Lにおけるチャネル6chの状態“01”に対応する平均報酬Vは、V(=25/6)が最大である(図12の対応表TBL1(D)参照)。学習器4は、乱数pを発生させ、その発生させた乱数pがε以下でないので、最大の平均報酬V(=25/6)が得られるときのパケット長m=10μsを選択し、パケット長m=10μsを制御手段3へ出力する。
【0156】
引き続いて、学習器4は、パケットの送信が成功したことを示す信号S_successと、空き期間N(=3)とを制御手段3から受ける。
【0157】
そうすると、学習器4は、信号S_successおよび空き期間N(=3)に基づいて式(2A)によって即時報酬R(=10/4)を算出し、その算出した即時報酬R(=10/4)を記憶する。
【0158】
そして、学習器4は、即時報酬R(=10/4)と、平均報酬V(=25/6)と、n=3とを式(1)に代入して平均報酬V=25/6+(10/4-25/6)/3=65/10を算出する。ここで、平均報酬V(=25/6)を式(1)に代入して平均報酬Vを算出するのは、観測期間Lにおけるチャネル6chの状態S(=“01”)に対応するパケット長m=10μsに対して算出された平均報酬V図11の対応表TBL1(C)に格納されたV(=25/6)であるからである。従って、観測期間Lにおけるチャネル6chの状態S(=“01”)に対応するパケット長m=10μsに対して平均報酬Vt+1を動作期間T(=4)において式(1)によって算出するとき、動作期間T(=4)よりも前の動作期間T(=2)において算出された平均報酬V(=25/6)を平均報酬Vとして用いる。
【0159】
図9から図13において説明したように、観測期間Lにおけるチャネル6chの状態“01”に対応付けられた平均報酬の3個の欄のうち、1つの欄に平均報酬V(=25/6)が格納されているので(図11の対応表TBL1(C)参照)、4番目の動作期間において、乱数pがε以下でないとき、観測期間Lにおけるチャネル6chの状態“01”に対してチャネル長mを選択するとき、最大の平均報酬V(=25/6)に対するチャネル長(=10μs)を選択できる(図11の対応表TBL1(C)および図13の対応表TBL1(E)参照)。
【0160】
また、図10に示す1番目の動作期間において、観測期間Lにおけるチャネル6chの状態“01”に対してパケット長m(=10μs)を選択し、パケットの送信に成功して即時報酬R(=10/3)が得られている。また、図11に示す2番目の動作期間において、観測期間Lにおけるチャネル6chの状態“01”に対してパケット長m(=10μs)を選択し、即時報酬R(=10/2)が得られるとともに平均報酬V(=25/6)が得られている。更に、図13に示す4番目の動作期間において、観測期間Lにおけるチャネル6chの状態“01”に対してパケット長m(=10μs)を選択し、平均報酬V(=65/10)が得られている(図13の対応表TBL1(E)参照)。
【0161】
その結果、観測期間Lにおけるチャネル6chの状態Sが“01”であるとき、観測期間Lの経過後にパケットを送信するとパケットの送信に成功する確率が高いので、観測期間Lにおけるチャネル6chの状態Sが“01”であれば、観測期間Lの経過後のスロットが空いている確率が高いと推定できる。これは、観測期間Lにおける各チャネルの状態“00”,“01”,“10”,“11”にも当てはまることである。
【0162】
従って、学習器4が図9から図13において説明した学習を繰り返し実行することによって、学習器4は、観測期間Lにおける各チャネルの状態S(=“00”,“01”,“10”,“11”のいずれか)に応じたパケット長mを選択することが可能である。
【0163】
更に、学習器4が図9から図13において説明した学習を繰り返し実行することによって、例えば、観測期間Lにおけるチャネル11chの状態“00”に対しては、パケット長m=30μsを選択すると、パケットの送信に失敗する確率が高くなり、パケット長m=10μsを選択すると、パケットの送信に成功する確率が高くなることを学習することもあり得る。
【0164】
その結果、学習器4は、観測期間Lにおけるチャネル11chの状態“00”に対しては、乱数pがε以下でないとき、パケット長m=10μsを選択することになる。そして、パケット長m=10μsを選択してパケットを送信することは、短い空き期間を利用してパケットを送信することになり、各端末装置が自己のパケット送信だけを利己的に促進するのではなく、他の端末装置による無線通信が空いている期間を利用して(つまり、他の端末装置による無線通信に配慮した上で)パケットを送信できることになる。従って、各端末装置は、他の端末装置による無線通信の有無に関する情報を他の端末装置から取得しなくても、他の端末装置と共存しながら無線通信を行うことができる。
【0165】
更に、学習器4は、ε-greedy法によってパケット長mを選択するので、乱数pがε以下であるとき、ランダムにパケット長mを選択することになり、最初に、零(=0)よりも大きい平均報酬Vが得られたパケット長mを継続して選択することを抑制して、より大きい平均報酬Vが得られるパケット長mを探索することができる。
【0166】
なお、選択チャネルCH_Selectをε-greedy法によって選択する場合、乱数pがε以下でないとき、学習器4は、各チャネルの状態“00”,“01”,“10”,“11”の全てに対応付けられた平均報酬Vの欄(図9から図13に示す対応表TBL1(A)~TBL1(E)においては、12個の平均報酬Vの欄)を参照して、最大の平均報酬Vが得られるチャネルを選択チャネルCH_Selectとして選択する。
【0167】
また、パケット長mをε-greedy法によって選択する場合、乱数pがε以下でないとき、学習器4は、観測期間Lにおける選択チャネルCH_Selectの状態S(“00”,“01”,“10”,“11”のいずれか1つ)に対応付けられた平均報酬Vの欄(図9から図13に示す対応表TBL1(A)~TBL1(E)においては、3個の平均報酬Vの欄)を参照して、最大の平均報酬Vが得られるパケット長をパケット長mとして選択する。
【0168】
図14は、図2に示す端末装置10の動作を説明するためのフローチャートである。図14を参照して、端末装置10の動作が開始されると、制御手段3は、送信データD_TRがあるか否かを判定する(ステップS1)。この場合、制御手段3は、アプリケーション6から送信データD_TRを受けたとき、送信データがあると判定し、アプリケーション6から送信データD_TRを受けなかったとき、送信データがないと判定する。
【0169】
ステップS1において、送信データD_TRがあると判定されると、制御手段3は、パケット長mを要求する信号S_req_mを生成して学習器4へ出力する。
【0170】
学習器4は、端末装置10における学習器4以外の部分の動作と並行して、観測期間Lにおける選択チャネルの状態S、パケットを送信したときの通信結果およびパケットの送信完了後の空き期間Nに基づいて学習を実行し、所定の確率で最大の平均報酬Vt+1が得られるときのチャネルを選択チャネルとして選択するとともに、観測期間Lにおける選択チャネルの状態Sに応じて、所定の確率で最大の平均報酬Vt+1が得られるときのパケット長をパケット長mとして選択する(ステップS2)。ここで、平均報酬Vt+1は、動作期間T+1における平均報酬である。
【0171】
学習器4は、信号S_req_mを制御手段3から受けると、選択したパケット長mを制御手段3へ出力する。
【0172】
制御手段3は、学習器4からパケット長mを受けると、送信用パケットPKTのパケット長L_PKTがパケット長mになるときのデータ量AODを有する送信データD_mを送信データD_TRから検出し、その検出した送信データD_mを含む送信用パケットPKTを生成する(ステップS3)。そして、制御手段3は、選択チャネルを要求する信号S_req_CHを生成して学習器4へ出力する。
【0173】
そして、学習器4は、制御手段3から信号S_req_CHを受けると、選択した選択チャネルを制御手段3へ出力し、観測期間Lにおける選択チャネルの状態Sを制御手段3から受けると、パケット長mを制御手段3へ出力する。
【0174】
制御手段3は、ステップS3の後、学習器4から選択チャネルを受けると、受信手段2から受けた受信電力スペクトルPW_carrier_Lに基づいて、上述した方法によって、観測期間Lにおける選択チャネルの状態Sを検出し(ステップS4)、その検出した観測期間Lにおける選択チャネルの状態Sを学習器4へ出力する。
【0175】
制御手段3は、ステップS4の後、受信手段2から受けたキャリアセンスの結果(選択チャネルにおけるキャリアセンスの結果)に基づいて選択チャネルが空いているか否かを判定する(ステップS5)。
【0176】
ステップS5において、選択チャネルが空いていると判定されると、制御手段3は、選択チャネルCH_Selectおよびパケット(送信用パケットPKT)を送信手段5へ出力し、送信手段5は、選択チャネルCH_Selectを用いて、制御手段3から受けたパケット(送信用パケットPKT)をパケット長mで送信する(ステップS6)。
【0177】
その後、制御手段3は、ACKパケットの有無に基づいて、パケットを送信したときの通信結果を検出し(ステップS7)、その検出した通信結果を学習器4へ出力する。そして、制御手段3は、受信手段2から受けた受信電力スペクトルPW_chnに基づいて、上述した方法によって、パケットの送信完了後の空き期間Nを検出し(ステップS8)、その検出した空き期間Nを学習器4へ出力する。
【0178】
そうすると、制御手段3は、パケットの送信成功率がしきい値以下であるか否かを判定する(ステップS9)。
【0179】
ステップS9において、パケットの送信成功率がしきい値以下であると判定されたとき、制御手段3は、候補チャネルを他の候補チャネルに変更し(ステップS10)、その変更した他の候補チャネルを学習器4へ出力する。
【0180】
そして、ステップS9において、パケットの送信成功率がしきい値以下でないと判定されたとき、またはステップS10の後、一連の動作は、ステップS1へ移行する。
【0181】
図14に示すフローチャートにおいては、端末装置が駆動されている限り、ステップS1からステップS10が繰り返し実行される。
【0182】
また、図14に示すフローチャートにおいては、ステップS10からステップS1へ移行した場合、パケットの送信に用いる選択チャネルは、他の候補チャネルから選択される(ステップS2参照)。
【0183】
図15および図16は、それぞれ、図2に示す学習器4の動作を説明するための第1および第2のフローチャートである。図15を参照して、学習器4の動作が開始されると、学習器4は、候補チャネルを制御手段3から受ける(ステップS21)。
【0184】
そして、学習器4は、対応表TBL1における平均報酬の全てを零(=0)に設定することによって平均報酬を初期化する(ステップS22)。
【0185】
その後、学習器4は、0~1の乱数pを発生させる(ステップS23)。そして、学習器4は、乱数pがε以下であるか否かを判定する(ステップS24)。
【0186】
ステップS24において、乱数pがε以下でないと判定されたとき、学習器4は、最大の平均報酬Vt+1が対応表TBL1に存在するか否かを判定する(ステップS25)。
【0187】
ステップS25において、最大の平均報酬Vt+1が対応表TBL1に存在すると判定されたとき、学習器4は、最大の平均報酬Vt+1が得られるときのチャネルを候補チャネルから選択する(ステップS26)。なお、最大の平均報酬Vt+1が複数存在するとき、学習器4は、複数の最大の平均報酬Vt+1のうちの任意の1つの最大の平均報酬Vt+1が得られるときのチャネルを候補チャネルから選択する。
【0188】
一方、ステップS24において、乱数pがε以下であると判定されたとき、またはステップS25において、最大の平均報酬Vt+1が対応表TBL1に存在しないと判定されたとき、学習器4は、候補チャネルからランダムにチャネルを選択する(ステップS27)。
【0189】
そして、ステップS26またはステップS27の後、学習器4は、選択したチャネルを選択チャネルとして制御手段3へ出力する(ステップS28)。
【0190】
その後、学習器4は、観測期間Lにおける選択チャネルの状態Sを制御手段3から受ける(ステップS29)。
【0191】
そして、学習器4は、0~1の乱数pを発生させ(ステップS30)、その発生させた乱数pがε以下であるか否かを判定する(ステップS31)。
【0192】
ステップS31において、乱数pがε以下でないと判定されたとき、学習器4は、最大の平均報酬Vt+1が対応表TBL1に存在するか否かを判定する(ステップS32)。
【0193】
ステップS32において、最大の平均報酬Vt+1が対応表TBL1に存在すると判定されたとき、学習器4は、観測期間Lにおける選択チャネルの状態Sに対して、最大の平均報酬Vt+1が得られるときのパケット長mを選択する(ステップS33)。なお、最大の平均報酬Vt+1が複数存在するとき、学習器4は、複数の最大の平均報酬Vt+1のうちの任意の1つの最大の平均報酬Vt+1が得られるときのパケット長mを選択する。
【0194】
一方、ステップS31において、乱数pがε以下であると判定されたとき、またはステップS32において、最大の平均報酬Vt+1が対応表TBL1に存在しないと判定されたとき、学習器4は、ランダムにパケット長mを選択する(ステップS34)。
【0195】
そして、ステップS33またはステップS34の後、学習器4は、選択したパケット長mを制御手段3へ出力する(ステップS35)。その後、一連の動作は、図16のステップS36へ移行する。
【0196】
図16を参照して、図15のステップS35の後、学習器4は、パケットの送信結果を制御手段3から受ける(ステップS36)。引き続いて、学習器4は、パケットの送信完了後の空き期間Nを制御手段3から受ける(ステップS37)。
【0197】
そして、学習器4は、パケットの送信結果、空き期間Nおよびパケット長mを用いて式(2)によって即時報酬Rを算出し(ステップS38)、その算出した即時報酬Rを記憶する。即時報酬Rは、動作期間Tにおける即時報酬である。
【0198】
その後、学習器4は、即時報酬Rを用いて式(1)によって平均報酬Vt+1を算出し(ステップS39)、観測期間Lにおける選択チャネルの状態Sに対して平均報酬Vt+1を対応表TBL1に格納する(ステップS40)。
【0199】
そして、一連の動作は、図15のステップS41へ移行し、学習器4は、別の候補チャネルを制御手段3から受けたか否かを判定する(ステップS41)。
【0200】
ステップS41において、別の候補チャネルを制御手段3から受けなかったと判定されたとき、一連の動作は、ステップS23へ移行する。
【0201】
一方、ステップS41において、別の候補チャネルを制御手段3から受けたと判定されたとき、一連の動作は、ステップS22へ移行する。
【0202】
学習器4は、図14に示すフローチャートにおいて、端末装置10における学習器4以外の部分の動作と並行して、図15および図16に示すフローチャートのステップS21~ステップS41を繰り返し実行する。
【0203】
そして、学習器4は、図14に示すステップS1の後に信号S_req_mを制御手段3から受けると、図14に示すステップS2において、パケット長mを制御手段3へ出力し(ステップS35参照)、図14に示すステップS3の後に信号S_req_CHを制御手段3から受けると、図14に示すステップS2において、選択チャネルを制御手段3へ出力する(ステップS28参照)。
【0204】
図15および図16に示すフローチャートによれば、学習器4は、1-εの確率で最大の平均報酬Vt+1が得られるときのチャネルを候補チャネルから選択し(ステップS26参照)、εの確率でランダムにチャネルを候補チャネルから選択する(ステップS27参照)。そして、最大の平均報酬Vt+1が得られるときのチャネルを選択するかランダムにチャネルを選択するかは、発生させる乱数pによって決定される(ステップS23,S24参照)。
【0205】
従って、1-εの確率で最大の平均報酬Vt+1が得られるときのチャネルを選択してパケットを送信でき、εの確率でランダムにチャネルを選択してパケットを送信できるので、1つのチャネルを継続して用いてパケットを送信する場合に比べて他の端末装置による無線通信との衝突を回避してパケットの送信に成功する確率を高くできる。その結果、端末装置10は、他の端末装置と共存して無線通信を行うことができる。
【0206】
また、図15および図16に示すフローチャートによれば、学習器4は、対応表TBL1において、観測期間Lにおける選択チャネルの状態Sに対応する平均報酬の複数の欄の少なくとも1つの欄に平均報酬Vt+1が格納されていれば、1-εの確率で最大の平均報酬Vt+1が得られるときのパケット長mを選択する(ステップS35の“YES”,ステップS36参照)。
【0207】
最大の平均報酬Vt+1が得られるので、選択されたパケット長mでパケットの送信に成功していることになり、学習を継続することによって、観測期間Lにおける選択チャネルの状態“00”,“01”,“10”,“11”のそれぞれに対してパケットの送信に成功するパケット長mが決定されることになる。従って、観測期間Lにおける選択チャネルの状態“00”,“01”,“10”,“11”に応じてパケット長mを変えることによってパケットの送信に成功する確率を高くできる。
【0208】
そして、観測期間Lにおける選択チャネルの状態Sに対して、最大の平均報酬Vt+1が得られるときのパケット長mを選択することは、観測期間Lにおける選択チャネルの状態Sに適合したパケット長mを選択することに相当する。
【0209】
この場合、例えば、観測期間Lにおける選択チャネルの状態S(=“00”)に対して、第1の長さのパケット長mが選択され、観測期間Lにおける選択チャネルの状態S(=“01”)に対して、第1の長さよりも長い第2のパケット長mが選択され、観測期間Lにおける選択チャネルの状態S(=“10”)に対して、第1の長さよりも短い第3のパケット長mが選択され、観測期間Lにおける選択チャネルの状態S(=“11”)に対して、第2の長さよりも長い第4のパケット長mが選択される(m<m<m<m)。
【0210】
そして、最大の平均報酬Vt+1が得られているので、パケット長m~mのいずれか1つのパケット長でパケットを送信した場合、パケットの送信に成功し、かつ、パケット長mに比例し、空き期間Nに反比例する即時報酬Rが得られ、その結果、平均報酬Vt+1が大きくなる。
【0211】
この場合、パケットの送信完了後の空き期間Nが短くなれば、空き期間Nを観測する期間において他の端末装置による無線通信が行われていることを意味するので、端末装置10は、他の端末装置と共存して無線通信を行うことができる。
【0212】
また、図15および図16に示すフローチャートに従って学習を繰り返すことによって、観測期間Lにおける選択チャネルの状態“00”,“01”,“10”,“11”と、観測期間Lが経過した後のアイドル状態の長さとの間に、一定の傾向が存在することを見出すことができる。
【0213】
上記においては、観測期間Lは、2個のスロットSLであるとして、観測期間Lにおけるチャネルの状態Sを“00”,“01”,“10”,“11”によって表したが、この発明の実施の形態においては、これに限らず、観測期間Lは、3個のスロットSLであるとして、観測期間Lにおけるチャネルの状態Sを“000”,“001”,“010”,“011”,“100”,“101”,“110”,“111”によって表してもよく、観測期間Lは、4個のスロットSL以上であるとして、観測期間Lにおけるチャネルの状態Sを4ビット以上で表してもよい。
【0214】
そして、観測期間Lが長い方が、観測期間Lにおけるチャネルの状態Sと空いているスロットSLとの相関関係が得られ易くなり、観測期間Lにおけるチャネルの状態Sに対して最適なパケット長mを選択し易くできる。
【0215】
また、上記においては、スロットSL単位でパケットを送信すると説明したが、この発明の実施の形態においては、これに限らず、スロットSL単位でパケットを送信しなくてもよい。
【0216】
図17は、パケット長mの異なる決定方法を説明するための図である。図17を参照して、制御手段3は、アプリケーション6から送信データを受ける。そして、例えば、観測期間Lの長さを200μsとし、上述した方法によって、10μs毎にビジー状態であるかアイドル状態であるかを判定して観測期間Lにおける各チャネルの状態Sを20ビットで表現する。また、選択可能なパケット長mとして、例えば、10μs、20μs、30μs、・・・、100μsを設定しておく。そして、候補チャネルと、観測期間Lにおける各チャネルの状態Sと、選択可能なパケット長1~Mとを相互に対応付けて対応表TBL1と同じ構成の対応表を作成する。
【0217】
観測期間Lにおける選択チャネルの状態Sに対して、10μsのパケット長を選択する場合、制御手段3は、送信データから10μsの長さを有する送信データD1を検出してパケットを生成する。また、制御手段3は、次のタイミングで20μsのパケット長を有するパケットを送信する場合、送信データD1に続く部分から20μsの長さを有する送信データD2を検出してパケットを生成する。更に、制御手段3は、次のタイミングで30μsのパケット長を有するパケットを送信する場合、送信データD2に続く部分から30μsの長さを有する送信データD3を検出してパケットを生成する。制御手段3は、以下、同様にして、選択されたパケット長mに適合する長さ有する送信データを検出してパケットを生成する。
【0218】
スロットSL単位を用いない場合、即時報酬Rを算出するときの空き期間Nは、10μs単位でビジー状態であるかアイドル状態であるかを判定して検出される。そして、空き期間Nが零(=0)である場合にも即時報酬Rを算出できるようにするために、所定の時間長(例えば、10μsの時間長)を加算し、その加算結果の逆数にパケット長mを乗算した乗算結果を即時報酬として算出する。
【0219】
なお、端末装置10の動作は、ソフトウェアによって実現されてもよい。この場合、端末装置10は、CPU(Central Processing Unit)、ROM(Read Only Memory)およびRAM(Random Access Memory)を備える。そして、ROMは、図14に示すフローチャート(図15および図16に示すフローチャートを含む)の各ステップからなるプログラムProg_Aを記憶する。
【0220】
CPUは、ROMからプログラムProg_Aを読み出し、その読み出したプログラムProg_Aを実行し、観測期間Lにおける選択チャネルの状態Sに適合するパケット長mを選択してパケットを送信する。RAMは、算出された即時報酬R等を一時的に記憶する。
【0221】
また、プログラムProg_Aは、CD,DVD等の記録媒体に記録されて流通してもよい。プログラムProg_Aを記録した記録媒体がコンピュータに装着されると、コンピュータは、記録媒体からプログラムProg_Aを読み出して実行し、観測期間Lにおける選択チャネルの状態Sに適合するパケット長mを選択してパケットを送信する。
【0222】
従って、プログラムProg_Aを記録した記録媒体は、コンピュータ読み取り可能な記録媒体である。
【0223】
上述した実施の形態によれば、この発明の実施の形態による端末装置は、
第1の動作期間において、パケットを送信するチャネルである送信用チャネルを用いてパケットを送信する通信手段と、
通信手段によってパケットが送信される毎に、第1の動作期間において、パケットが送信されたときの通信結果を検出するとともにパケットの送信後の無線通信の空き期間を検出する第1の検出手段と、
送信用チャネルを受ける毎に、第1の動作期間において、他の端末装置による無線通信の有無を観測する期間である観測期間における送信用チャネルの状態を検出する第2の検出手段と、
第1の動作期間において検出された通信結果、空き期間、および観測期間における送信用チャネルの状態と、パケットの送信に用いるチャネルの候補である候補チャネルとを受け付け、通信結果および空き期間に基づいて、第1の動作期間においてパケットが送信用チャネルで送信されたときに得られる報酬である即時報酬を算出する第1の処理と、観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数によって1つの送信用チャネルにおける即時報酬の累積値を平均した報酬であり、かつ、第1の動作期間の後の動作期間である第2の動作期間における報酬である平均報酬を第1の処理において算出された即時報酬を用いて算出する第2の処理と、候補チャネルと観測期間における送信用チャネルの状態とパケットのパケット長と平均報酬とを対応付けた対応表を作成または更新し、その作成または更新した対応表に基づいて最大の平均報酬が得られるときのチャネルを所定の確率で送信用チャネルとして選択するとともに観測期間における送信用チャネルの状態に応じて最大の平均報酬が得られるときのパケット長を所定の確率で選択し、その選択した送信用チャネルおよびパケット長を出力する第3の処理とを観測期間における送信用チャネルの状態、通信結果および空き期間を受け付ける毎に実行する学習器とを備え、
通信手段は、更に、第3の処理において選択された送信用チャネルおよびパケット長を学習器から受ける毎に、第2の動作期間において、その受けた送信用チャネルが空いているとき、学習器から受けたパケット長を有するパケットを送信するものであればよい。
【0224】
端末装置は、このような構成を備えていれば、観測期間における送信用チャネルの状態に適合したパケット長を選択し、観測期間が経過した後に、観測期間における送信用チャネルの状態に適合したパケット長でパケットを送信できるとともに、他の端末装置による無線通信も可能になり、他の端末装置と共存して無線通信を行うことができるからである。
【0225】
また、この発明の実施の形態によるプログラムは、
通信手段が、第1の動作期間において、パケットを送信するチャネルである送信用チャネルを用いてパケットを送信する第1のステップと、
第1の検出手段が、第1のステップにおいてパケットが送信される毎に、第1の動作期間において、パケットが送信されたときの通信結果を検出するとともにパケットの送信後の無線通信の空き期間を検出する第2のステップと、
第2の検出手段が、送信用チャネルを受ける毎に、第1の動作期間において、他の端末装置による無線通信の有無を観測する期間である観測期間における送信用チャネルの状態を検出する第3のステップと、
学習器が、第1の動作期間において検出された通信結果、空き期間、および観測期間における前記送信用チャネルの状態と、パケットの送信に用いるチャネルの候補である候補チャネルとを受け付け、通信結果および空き期間に基づいて、第1の動作期間においてパケットが送信用チャネルで送信されたときに得られる報酬である即時報酬を算出する第1の処理と、観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数によって1つの送信用チャネルにおける即時報酬の累積値を平均した報酬であり、かつ、第1の動作期間の後の動作期間である第2の動作期間における報酬である平均報酬を第1の処理において算出された即時報酬を用いて算出する第2の処理と、候補チャネルと観測期間における送信用チャネルの状態とパケットのパケット長と平均報酬とを対応付けた対応表を作成または更新し、その作成または更新した対応表に基づいて最大の平均報酬が得られるときのチャネルを所定の確率で送信用チャネルとして選択するとともに観測期間における送信用チャネルの状態に応じて最大の平均報酬が得られるときのパケット長を所定の確率で選択し、その選択した送信用チャネルおよびパケット長を出力する第3の処理とを観測期間における送信用チャネルの状態、通信結果および空き期間を受け付ける毎に実行する第4のステップとをコンピュータに実行させ、
通信手段は、第1のステップにおいて、更に、第3の処理において選択された送信用チャネルおよびパケット長を学習器から受ける毎に、第2の動作期間において、その受けた送信用チャネルが空いているとき、学習器から受けたパケット長を有するパケットを送信するものであればよい。
【0226】
プログラムが第1のステップから第4のステップをコンピュータに実行させると、観測期間における送信用チャネルの状態に適合したパケット長が選択され、観測期間が経過した後に、観測期間における送信用チャネルの状態に適合したパケット長でパケットを送信できるとともに、他の端末装置による無線通信も可能になり、他の端末装置と共存して無線通信を行うことができるからである。
【0227】
この発明の実施の形態においては、候補チャネルから選択された選択チャネルCH_Selectは、「送信用チャネル」を構成する。
【0228】
また、この発明の実施の形態においては、受信電力スペクトルPW_carrier_Lを検出するとともにACKパケットを受信する受信手段2と、受信電力スペクトルPW_chnに基づいて空き期間Nを検出する制御手段3とは、「第1の検出手段」を構成する。
【0229】
更に、この発明の実施の形態においては、受信電力スペクトルPW_carrier_Lを検出する受信手段2と、受信電力スペクトルPW_carrier_Lに基づいて観測期間Lにおける選択チャネルCH_Selectの状態Sを検出する制御手段3とは、「第2の検出手段」を構成する。
【0230】
更に、この発明の実施の形態においては、パケットを送信手段5へ出力する制御手段3と、パケットを送信する送信手段5とは、「通信手段」を構成する。
【0231】
更に、この発明の実施の形態においては、スロットSL単位でパケットが送信される場合において、即時報酬Rを算出するときに空き期間Nに加算される“1”は、1つのスロットSLを意味するので、式(2A)の“N+1”は、実質的に、N個のスロットSLの時間長に1つのスロットSLの時間長を加算することを意味する。また、スロットSL単位でパケットが送信されない場合において、即時報酬Rを算出するとき、所定の時間長(例えば、10μsの時間長)が空き期間N(10μsのアイドル状態の総和からなる)に加算される。その結果、スロットSL単位でパケットが送信される場合、およびスロットSL単位でパケットが送信されない場合の両方において、即時報酬Rを算出するとき、所定の時間長が空き期間Nに加算されることになる。従って、スロットSL単位でパケットが送信される場合において、即時報酬Rを算出するときに空き期間Nに加算される“1”、およびスロットSL単位でパケットが送信されない場合において、即時報酬Rを算出するときに空き期間Nに加算される所定の時間長(例えば、10μsの時間長)は、空き期間Nに加算される「所定の期間」を構成する。
【0232】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【産業上の利用可能性】
【0233】
この発明は、端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体に適用される。
【符号の説明】
【0234】
1 アンテナ、2 受信手段、3 制御手段、4 学習器、5 送信手段、6 アプリケーション、10 端末装置、100 通信システム。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17