IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧 ▶ 国立大学法人埼玉大学の特許一覧

<>
  • 特許-解探索システム及び方法 図1
  • 特許-解探索システム及び方法 図2
  • 特許-解探索システム及び方法 図3
  • 特許-解探索システム及び方法 図4
  • 特許-解探索システム及び方法 図5
  • 特許-解探索システム及び方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-05
(45)【発行日】2022-04-13
(54)【発明の名称】解探索システム及び方法
(51)【国際特許分類】
   G06N 99/00 20190101AFI20220406BHJP
【FI】
G06N99/00 180
【請求項の数】 6
(21)【出願番号】P 2018037643
(22)【出願日】2018-03-02
(65)【公開番号】P2019153059
(43)【公開日】2019-09-12
【審査請求日】2021-03-01
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成29年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業に係る委託研究、産業技術力強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】301022471
【氏名又は名称】国立研究開発法人情報通信研究機構
(73)【特許権者】
【識別番号】504190548
【氏名又は名称】国立大学法人埼玉大学
(74)【代理人】
【識別番号】100120868
【弁理士】
【氏名又は名称】安彦 元
(72)【発明者】
【氏名】成瀬 誠
(72)【発明者】
【氏名】内田 淳史
【審査官】多賀 実
(56)【参考文献】
【文献】特開2014-191598(JP,A)
【文献】巳鼻 孝朋 ほか,「半導体レーザカオスを用いた超高速意思決定における適応性の調査」,2017年<第64回>応用物理学会春季学術講演会[講演予稿集],公益社団法人応用物理学会,2017年03月01日,pp. 03-561
【文献】成瀬 誠 ほか,「単一光子による階層型意思決定」,2017年<第64回>応用物理学会春季学術講演会[講演予稿集],公益社団法人応用物理学会,2017年03月01日,pp. 03-083
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G06N 99/00
G06Q 10/04
(57)【特許請求の範囲】
【請求項1】
確率分布に基づいて結果を出力する3以上の被検対象のうち最良の結果の出力が期待される被検対象を探索する解探索システムにおいて、
不規則に信号強度が変化する不規則信号を発信する信号発信手段と、
上記信号発信手段から発信された不規則信号の信号強度を2以上の各観測時点においてそれぞれ検知する信号検知手段と、
上記信号検知手段により各観測時点において検知した信号強度と、上記観測時点毎に設定された閾値とを比較する比較手段と、
上記比較手段による比較結果に基づいて上記被検対象を選択する選択手段と、
上記選択手段により選択された上記被検対象に対して結果の出力を指示する出力指示手段と、
上記被検対象から出力された結果の蓄積に基づく今までの戦績を上記被検対象毎にそれぞれ求め、上記各被検対象の戦績に基づいて、上記観測時点毎に設定された各閾値を調整する閾値調整手段とを備え、
上記出力指示手段は、上記信号検知手段による信号強度の検知から上記出力指示手段による上記結果の出力の指示の繰り返しを経て、上記選択手段による上記被検対象の選択傾向に基づいた探索解を出力すること
を特徴とする解探索システム。
【請求項2】
上記比較手段は、上記信号発信手段から発信された不規則信号の信号強度を検知する観測時点tn(nは何れかの自然数)において検知した信号強度と閾値THnとを比較し、上記信号強度が閾値THnより小さい場合には、観測時点tn+1において検知した信号強度と閾値THn+1とを比較し、上記信号強度が閾値THn以上の場合には、観測時点tn+1において検知した信号強度と閾値THn+1´とを比較し、
上記選択手段は、上記比較手段による上記観測時点tn+1における比較結果に基づいて、閾値THnと、閾値THn+1又は閾値THn+1´とを隔てて割り当てられた被検対象を選択すること
を特徴とする請求項1記載の解探索システム。
【請求項3】
上記閾値調整手段は、上記選択手段により一の被検対象を選択する上で上記比較手段による比較の際に用いられた閾値THnと、閾値THn+1又は閾値THn+1´とを、当該一の被検対象の戦績に基づいて調整すること
を特徴とする請求項2記載の解探索システム。
【請求項4】
上記閾値調整手段は、上記被検対象から出力された結果を、上記各被検対象全体の戦績との関係において評価し、その評価結果に基づいて上記観測時点毎に設定された各閾値を調整すること
を特徴とする請求項1~3のうち何れか1項記載の解探索システム。
【請求項5】
上記信号発信手段は、半導体レーザから出射された光を反射部を介してそのレーザ共振器内に戻すことにより発現される戻り半導体レーザ光を、上記不規則信号として使用すること
を特徴とする請求項1~4のうち何れか1項記載の解探索システム。
【請求項6】
確率分布に基づいて結果を出力する3以上の被検対象のうち最良の結果の出力が期待される被検対象を探索する解探索方法において、
不規則に信号強度が変化する不規則信号を発信する信号発信ステップと、
上記信号発信ステップにおいて発信した不規則信号の信号強度を2以上の各観測時点においてそれぞれ検知する信号検知ステップと、
上記信号検知ステップにおいて各観測時点において検知した信号強度と、上記観測時点毎に設定された閾値とを比較する比較ステップと、
上記比較ステップにおける比較結果に基づいて上記被検対象を選択する選択ステップと、
上記選択ステップにおいて選択した上記被検対象に対して結果の出力を指示する出力指示ステップと、
上記被検対象から出力された結果の蓄積に基づく今までの戦績を上記被検対象毎にそれぞれ求め、上記各被検対象の戦績に基づいて、上記観測時点毎に設定された各閾値を調整する閾値調整ステップとを有し、
上記出力指示ステップでは、上記信号検知ステップにおける信号強度の検知から上記出力指示ステップによる上記結果の出力の指示の繰り返しを経て、上記選択ステップによる上記被検対象の選択傾向に基づいた探索解を出力すること
を特徴とする解探索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、確率分布に基づいて結果を出力する複数の被検対象のうち最良の結果の出力が期待される被検対象を探索する上で好適な解探索システム及び方法に関するものである。
【背景技術】
【0002】
近年において人工知能(AI)関連技術が急速に発展してきている。この人工知能を活用した機械学習では、画像認識等に優れた能力を発揮する深層学習と呼ばれる技術に並び、強化学習が重要になる。強化学習とは、未知な環境で試行錯誤をしながら学習を行う方法であり、強化学習が適用可能なテーマの一つとして、期待値を最大化する解を探索する問題の代表例として、バンディット問題がある(例えば、非特許文献1参照。)。このバンディット問題とは、貰える合計報酬の期待値を最大化することを目的とし、プレイヤーはn種類の異なる行動選択肢から一つの選択肢を選択する動作を繰り返す。各選択の後は毎回、選択した行動に依存する確率分布から選ばれた結果がプレイヤーの報酬として与えられる。
【0003】
仮に複数のスロットマシーンが存在し、各スロットマシーンのレバーを引くことにより、ある確率分布の下でコイン(報酬)がもらえるものとする。このコインが出る確率分布(当選確率)がスロットマシーン毎に異なる場合であって、かつプレイヤーはその当選確率が分からない場合を考えてみる。このとき、各スロットマシーンの当選確率を知る最も一般的な方法としては、とりあえず各スロットマシーンを多数回に亘り順にプレイし、実際に最も報酬が大きかったスロットマシーンが、最も当選確率が高いものと判断する。
【0004】
しかしながら、かかる方法では、実際に最も当選確率の高いスロットマシーンを特定する上で相当の回数に亘りスロットマシーンをプレイしなければならず、結果として多くの投資が必要となる。またスロットマシーンの当たり台が時々刻々と変わることもあり得る。逆に、早々にスロットマシーンの試し打ちを打ち切ってしまうと、肝心の当たり台を見逃してしまう虞もある。このように、バンディット問題は、従来より「探索」と「決断」に難しいジレンマが存在していた。この問題は多本腕バンディット問題として知られ、ワイヤレス通信における周波数の割当てや、データセンターでの計算資源の割当て、ロボット制御、Web広告等、様々な応用展開が期待されることから、各種研究が行われている。
【先行技術文献】
【非特許文献】
【0005】
【文献】S. -J.Kim, M. Aono,M. Hara, BioSystems 101,29-36 (2010)
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来において、バンディット問題の解を自動的に探索して求めるためのアルゴリズムが特段提案されていなかった。情報量が増大の一途を辿る昨今において、大量の情報から高速かつ効率的に、組み合わせバンディット問題の解を求めるための社会的要請が高くなると考えられるが、これについて特段の解決策が提案されていないのが現状であった。
【0007】
特にこのバンディット問題を解く上で当たり台の探索が必要になるが、この当たり台の探索において、ランダムに台を選ぶことが不可欠となる。即ち、当たり台の探索の序盤では当たり台をランダムに選択し、時間の経過とともに、それまでの戦績に基づいて選択する場合が多い。
【0008】
従来においてこの序盤におけるランダムな当たり台の選択時には、コンピューター上で生成した擬似乱数に基づいて行っていた。しかし、擬似乱数は、コンピューター上で予め設計されたアルゴリズムに基づいて作られるため、高速に生成することは困難であることから、バンディット問題を高速に解くことができないという問題点があった。また、この擬似乱数は、乱数の質的側面においても限界があることから、バンディット問題の解探索精度を向上させることができないという問題点もあった。
【0009】
そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、バンディット問題を解く上で特に良質な乱数に基づいて当たり台のランダムな選択を実現することで、バンディット問題を高速かつ高精度に解くことが可能な解探索システム及び方法を提供することにある。
【課題を解決するための手段】
【0010】
第1発明に係る解探索システムは、確率分布に基づいて結果を出力する3以上の被検対象のうち最良の結果の出力が期待される被検対象を探索する解探索システムにおいて、不規則に信号強度が変化する不規則信号を発信する信号発信手段と、上記信号発信手段から発信された不規則信号の信号強度を2以上の各観測時点においてそれぞれ検知する信号検知手段と、上記信号検知手段により各観測時点において検知した信号強度と、上記観測時点毎に設定された閾値とを比較する比較手段と、上記比較手段による比較結果に基づいて上記被検対象を選択する選択手段と、上記選択手段により選択された上記被検対象に対して結果の出力を指示する出力指示手段と、上記被検対象から出力された結果の蓄積に基づく今までの戦績を上記被検対象毎にそれぞれ求め、上記各被検対象の戦績に基づいて、上記観測時点毎に設定された各閾値を調整する閾値調整手段とを備え、上記出力指示手段は、上記信号検知手段による信号強度の検知から上記出力指示手段による上記結果の出力の指示の繰り返しを経て、上記選択手段による上記被検対象の選択傾向に基づいた探索解を出力することを特徴とする。
【0011】
第2発明に係る解探索システムは、第1発明において、上記比較手段は、上記信号発信手段から発信された不規則信号の信号強度を検知する観測時点tn(nは何れかの自然数)において検知した信号強度と閾値THnとを比較し、上記信号強度が閾値THnより小さい場合には、観測時点tn+1において検知した信号強度と閾値THn+1とを比較し、上記信号強度が閾値THn以上の場合には、観測時点tn+1において検知した信号強度と閾値THn+1´とを比較し、上記選択手段は、上記比較手段による上記観測時点tn+1における比較結果に基づいて、閾値THnと、閾値THn+1又は閾値THn+1´とを隔てて割り当てられた被検対象を選択することを特徴とする。
【0012】
第3発明に係る解探索システムは、第2発明において、上記閾値調整手段は、上記選択手段により一の被検対象を選択する上で上記比較手段による比較の際に用いられた閾値THnと、閾値THn+1又は閾値THn+1´とを、当該一の被検対象の戦績に基づいて調整することを特徴とする。
【0013】
第4発明に係る解探索システムは、第1発明~第3発明の何れかにおいて、上記閾値調整手段は、上記被検対象から出力された結果を、上記各被検対象全体の戦績との関係において評価し、その評価結果に基づいて上記観測時点毎に設定された各閾値を調整することを特徴とする。
【0014】
第5発明に係る解探索システムは、第1発明~第4発明の何れかにおいて、上記信号発信手段は、半導体レーザから出射された光を反射部を介してそのレーザ共振器内に戻すことにより発現される戻り半導体レーザ光を、上記不規則信号として使用することを特徴とする。
【0015】
第6発明に係る解探索方法は、 確率分布に基づいて結果を出力する3以上の被検対象のうち最良の結果の出力が期待される被検対象を探索する解探索方法において、不規則に信号強度が変化する不規則信号を発信する信号発信ステップと、上記信号発信ステップにおいて発信した不規則信号の信号強度を2以上の各観測時点においてそれぞれ検知する信号検知ステップと、上記信号検知ステップにおいて各観測時点において検知した信号強度と、上記観測時点毎に設定された閾値とを比較する比較ステップと、上記比較ステップにおける比較結果に基づいて上記被検対象を選択する選択ステップと、上記選択ステップにおいて選択した上記被検対象に対して結果の出力を指示する出力指示ステップと、上記被検対象から出力された結果の蓄積に基づく今までの戦績を上記被検対象毎にそれぞれ求め、上記各被検対象の戦績に基づいて、上記観測時点毎に設定された各閾値を調整する閾値調整ステップとを有し、上記出力指示ステップでは、上記信号検知ステップにおける信号強度の検知から上記出力指示ステップによる上記結果の出力の指示の繰り返しを経て、上記選択ステップによる上記被検対象の選択傾向に基づいた探索解を出力することを特徴とする。
【発明の効果】
【0016】
上述した構成からなる本発明によれば、被検対象から出力された今までの戦績の優劣に基づいて、被検対象が選択されやすくなるように、或いは選択されにくくなるように閾値の調整を行う。そして、被検対象による出力の指示の繰り返しを経て最終的に最も結果の出力の指示が行われている被検対象を探索すべき解として特定することができる。これにより、組み合わせバンディット問題の解を自動的に探索して求めることが可能となり、情報量が増大の一途を辿る昨今において、大量の情報から高速かつ効率的に、組み合わせバンディット問題の解を求めることが可能となる。
【図面の簡単な説明】
【0017】
図1】本発明を適用した解探索システムの全体構成図である。
図2】戻り半導体レーザ光を生成する場合における信号発信部のブロック構成図である。
図3】意思決定部における信号強度を検知するプロセスを示す図である。
図4】8つの被検対象の中から最良の結果の出力が期待される被検対象を探索する場合の例を示す図である。
図5】意思決定部における信号強度を検知するプロセスを一般式で定義する場合について説明するための図である。
図6】本発明を適用した解探索システムの実施例を示す図である。
【発明を実施するための形態】
【0018】
以下、本発明を適用した解探索システムについて図面を参照しながら詳細に説明をする 。
【0019】
図1は、本発明を適用した解探索システム1の全体構成を示している。この解探索システム1は、3以上被検対象5のうち最良の結果の出力が期待される被検対象5を探索するシステムである。解探索システム1は、戦績優劣比較部2と、この戦績優劣比較部2に接続された調整部3と、調整部3及び被検対象5に接続された意思決定部4と、意思決定部4に接続された信号発信部9とを備えている。なお、以下の例において、4つの被検対象5a~5dのうち最良の結果の出力が期待される被検対象5を選択する場合を例に挙げて説明をするが、これに限定されるものではなく、3以上のいかなる数からなる被検対象5に対して解探索を行うものであってもよい。
【0020】
被検対象5は、それぞれ設定された確率分布に基づいて結果を出力する対象物である。例えば、スロットマシーンやパチンコの台のように、設定された確率分布に基づいてコインという結果物を出力するものであってもよい。また、無線通信は、各チャネルのデータ伝送量の大小は、その都度変化するものであるが、これについてもある時点において設定された確率分布で表現することができる。このような無線通信において任意のチャネルを選択した場合に、実際の“データ伝送量”という結果物を出力する。また、結果物は、“データの伝送量”に限らず、“消費電力(の小ささ)”や“通信遅延(の小ささ)”などに設定することもできる。
【0021】
このように、被検対象5は、出力する結果を確率分布に変換することが可能なあらゆる事象、物、システム、プログラムやアルゴリズムを含む概念である。ちなみに、この被検対象5において出力される結果の確率分布は、通常の正規分布、ガウシアン分布のみならず、離散的な分布であってもよいし、2項分布で構成されていてもよい。ちなみに、この被検対象5の確率分布は、この解探索システム1のユーザにとって未知のものとなっている。ユーザは、これらの被検対象のうち、最良の結果の出力が期待される被検対象の組み合わせを探索するためにこの解探索システム1を使用することとなる。
【0022】
被検対象5a~5dは、それぞれ設定された確率分布に基づいて結果lを出力する。このとき、被検対象5aから出力される結果を結果l1とし、被検対象5bから出力される結果を結果l2とし、被検対象5cから出力される結果を結果l3とし、被検対象5dから出力される結果を結果l4とする。出力された結果l1~l4は戦績優劣比較部2へと送信される。
【0023】
戦績優劣比較部2は、被検対象5a~5dから出力される結果l1~l4を受信し、これを記憶する。この戦績優劣比較部2は、被検対象5a~5dから結果l1~l4を受信する都度、順次記憶しておくことで、結果を蓄積する。そして、この戦績優劣比較部2は、被検対象5a~5d毎に、出力された結果の蓄積に基づく今までの戦績をそれぞれ求める。ここでいう戦績とは、被検対象5から出力される結果がより優れているのか、或いはより劣っているのかを示すあらゆるデータを示すものである。被検対象5がスロットマシーンであれば、単位回数のプレイでコインがどの程度出たかを示すものであってもよいし、単に一回のプレイでコインが出たか、出なかったかの2値で評価するものであってもよい。被検対象5が通信環境であれば、速やかな接続がどの程度行われたかを示すデータであってもよい。また、この戦績優劣比較部2は、各被検対象5の戦績を被検対象5全体の戦績との関係においてその優劣を比較する。ここで被検対象5aについての戦績の優劣に関する戦績指数をq1 tとし、被検対象5bについての戦績の優劣に関する戦績指数をq2 tとし、被検対象5cについての戦績の優劣に関する戦績指数をq3 tとし、被検対象5dについての戦績の優劣に関する戦績指数をq4 tとする。これら戦績指数q1 t~戦績指数q4 tは、調整部3にそれぞれ送られる。
【0024】
調整部3は、それぞれ戦績優劣比較部2から、戦績指数q1 t~q4 tがそれぞれ入力される。調整部3は、それぞれ入力された戦績の優劣に基づいて意思決定部4における各種意思決定に影響を及ぼす各種調整を行う。
【0025】
信号発信部9は、不規則に信号強度が変化する不規則信号を発信する。信号発信部9から発信された不規則信号は、意思決定部4へ供給される。この信号発信部9により発信される不規則信号は、信号強度が単にランダムに変化する場合に限定されるものではなく、またカオス的に変化する場合に限定されるものではない。つまりこの不規則信号とは、その信号発信時点の直前の信号発信時点における信号強度に対して一切の相関を持たない完全な不規則性をもつ信号で構成されていてもよいし、その信号発信時点の直前の信号発信時点における信号強度に対して若干の相関を持たせた一部の不規則性をもつ信号で構成されていてもよい。
【0026】
この信号発信部9は、電気的、物理的信号を発信することは必須ではなく、以前において取得した不規則信号のデータ列を意思決定部4へ供給するものであってもよい。例えば、この信号発信部9から発信される不規則信号は、半導体レーザから出射された光を反射部を介してそのレーザ共振器内に戻すことにより発現される戻り半導体レーザ光に基づいて生成されるものであってもよい。
【0027】
図2は、この戻り半導体レーザ光を生成する場合における信号発信部9のブロック構成を示している。この信号発信部9は、半導体レーザ91と、カプラ92と、減衰器93と、反射部94と、光アイソレータ95と、減衰器96と、受光部97と、オシロスコープ98とを備えている。
【0028】
半導体レーザ91は、供給される電気信号に基づいてレーザ光を発振する。カプラ92は、半導体レーザ91からのレーザ光や、減衰器93および反射部94からの戻り光を分岐させる役割を担う。減衰器93は、反射部94からの戻り光を減衰させる。反射部94は、半導体レーザ91からのレーザ光を反射するミラー等で構成される。光アイソレータ95は、カプラ92から出射されるレーザ光につき、順方向に進む光の成分のみを透過し逆方向の光の成分を遮断する役割を担う。減衰器96は、光アイソレータ95からのレーザ光を減衰させる。受光部97は、フォトダイオード等で構成され光アイソレータ95からのレーザ光を光電変換して電気信号化する。オシロスコープ98は、受光部97において光電変換された電気信号を時間軸をベースにし、その信号強度を波形化する。
【0029】
このような構成からなる信号発信部9によれば、先ず半導体レーザ91により発振されたレーザ光は、カプラ92と減衰器93を介して反射部94に到達する。このレーザ光は反射部94を反射した後、減衰器93で戻り光量を調整された後、戻り光として再びカプラ92を介して半導体レーザ91に戻される。この半導体レーザ91における共振器内に戻された戻り光により光の雑音レベルが著しく増加し、不安定化する結果、そこから改めて戻り半導体レーザ光が出射される。この戻り半導体レーザ光は、コヒーレンスが崩壊した、いわばレーザーカオス状態となっているため、上述した不規則信号となっている。このような戻り半導体レーザ光は、カプラ92、光アイソレータ95を介して減衰器96において減衰され、受光部97において光電変換され、更にオシロスコープ98において波形化されることになる。このオシロスコープ98において波形化された信号は不規則信号となっている。信号発信部9は、このような不規則信号を意思決定部4へ供給する。
【0030】
意思決定部4は、信号発信部9から発信された不規則信号の信号強度を検知する。図3は、この意思決定部4における信号強度を検知するプロセスを示している。不規則信号を横軸に時間、縦軸を信号強度とした場合に、この意思決定部4は、不規則信号の信号強度を2以上の各観測時点においてそれぞれ検知する。例えば、この観測時点をt1、t2の2つの時点に設定した場合には、この観測時点t1における不規則信号の信号強度P1を検知し、観測時点t2における不規則信号の信号強度P2を検知する。
【0031】
次にこの意思決定部4は、各観測時点において検知した信号強度と、観測時点毎に設定された閾値とを比較する。ここで、観測時点t1には閾値TH1が予め設定されているものと仮定し、観測時点t2には閾値TH2,0、TH2,1が予め設定されているものと仮定する。観測時点t1における不規則信号の信号強度P1と、閾値TH1とを先ず比較する。その結果、信号強度P1が閾値TH1より小さい場合には、閾値TH2,0の矢印方向に進み、信号強度P1が閾値TH1以上の場合には、閾値TH2,1の矢印方向に進む。閾値TH2,0の矢印方向に進んだ場合には、観測時点t2における不規則信号の信号強度P2と閾値TH2,0とを比較し、その信号強度P2と閾値TH2,0の大小関係に応じて被検対象5を選択する。同様に閾値TH2,1の矢印方向に進んだ場合には、観測時点t2における不規則信号の信号強度P2と閾値TH2,1とを比較し、その信号強度P2と閾値TH2,1の大小関係に応じて被検対象5を選択する。
【0032】
ここで上述した被検対象5a~5dは、それぞれ閾値TH1、TH2,0、TH2,1を隔てて予め割り当てられている。例えば被検対象5aは、閾値TH2,0未満において割り当てられ、被検対象5bは、閾値TH2,0以上において割り当てられ、被検対象5cは、閾値TH2,1未満において割り当てられ、被検対象5dは、閾値TH2,0以上において割り当てられているものとする。不規則信号の信号強度P2と閾値との比較の結果、選択する被検対象5は、各閾値を隔てて予め割り当てられている被検対象5に対応させる。
【0033】
上述した例の場合には、信号強度P2が閾値TH2,0より小さい場合には、被検対象5aを選択する。信号強度P2が閾値TH2,0以上の場合には、被検対象5bを選択する。信号強度P2が閾値TH2,1より小さい場合には、被検対象5cを選択する。信号強度P2が閾値TH2,1以上の場合には、被検対象5dを選択する。
【0034】
つまり、被検対象5aが選択されるケースは、信号強度P1が閾値TH1未満であり、かつ信号強度P2が閾値TH2,0未満である場合である。被検対象5bが選択されるケースは、信号強度P1が閾値TH1未満であり、かつ信号強度P2が閾値TH2,0以上である場合である。被検対象5cが選択されるケースは、信号強度P1が閾値TH1以上であり、かつ信号強度P2が閾値TH2,1未満である場合である。被検対象5dが選択されるケースは、信号強度P1が閾値TH1以上であり、かつ信号強度P2が閾値TH2,1以上である場合である。実際にこの被検対象5a、5bが選択される場合に閾値TH1、閾値TH2,0が使用され、閾値TH2,1は特段使用されないこととなる。同じく被検対象5a、5bが選択される場合に閾値TH1、閾値TH2,1が使用され、閾値TH2,0は特段使用されないこととなる。
【0035】
ちなみに、被検対象5a~5bをそれぞれ10進数における数値0~3を割り当てた場合、これを2進数に変換した場合には、被検対象5aが(00)、被検対象5bが(01)、被検対象5cが(10)、被検対象5dが(11)となる。
【0036】
この2進数における桁を上位から第1桁、第2桁と定義する場合、第1桁が0の場合は、閾値TH2,0に進む場合であり、第1桁が1の場合には、閾値TH2,1に進む場合である。即ち、閾値TH2,kにおけるkは、第1桁の数値に対応している。第2桁の数値は、閾値TH2,0、TH2,1を介して隔てられる被検対象5a(00)又は被検対象5b(01)と、被検対象5c(10)又は被検対象5d(11)に相当する。
【0037】
このようにして、意思決定部4において選択された被検対象5a~5dは、それぞれ設定された確率分布に基づいて結果lを出力することになる。
【0038】
次に本発明を適用した解探索システム1の動作について説明をする。
【0039】
先ず信号発信部9から発信された不規則信号が意思決定部4に供給される。意思決定部4では、この不規則信号について先ず観測時点t1における不規則信号の信号強度P1と、閾値TH1とを比較した結果、信号強度P1が閾値TH1より小さい場合には、閾値TH2,0の矢印方向に進み、信号強度P1が閾値TH1以上の場合には、閾値TH2,1の矢印方向に進む。閾値TH2,0の矢印方向に進んだ場合には、観測時点t2における不規則信号の信号強度P2と閾値TH2,0とを比較し、その信号強度P2と閾値TH2,0の大小関係に応じて被検対象5a、5bの何れかを選択する。同様に閾値TH2,1の矢印方向に進んだ場合には、観測時点t2における不規則信号の信号強度P2と閾値TH2,1とを比較し、その信号強度P2と閾値TH2,1の大小関係に応じて被検対象5a、被検対象5bの何れかを選択する。その結果、この意思決定部4においては被検対象5a~5dの何れか1つが選択されることになる。
【0040】
次に選択された被検対象5a~5dの何れか1つについて結果の出力が行われる。被検対象5a~5dから出力された結果lは、それぞれ戦績優劣比較部2へ送られる。戦績優劣比較部2では、この送られてきた結果lに基づいて具体的に以下の処理動作を行う。
【0041】
戦績優劣比較部2では、それぞれ被検対象5a~5dの戦績を戦績指数qi tを介して管理する。被検対象5が、より優れた結果を出力した場合と、当該qi tを求める被検対象5以外の他の被検対象5が、より劣った結果を出力した場合に、その数値が上昇することになっている。仮に被検対象5がスロットマシーンである場合には、一の被検対象5aが当選した場合、その被検対象5aの戦績指数q1 tを上昇させ、被検対象5aが落選し、他の被検対象5が当選した場合、その被検対象5aの戦績指数q1 tを変化させないようにするか、或いは下降させる。
【0042】
このような戦績指数q1 tを各被検対象5a~5d毎に管理し、より戦績が優れたものになるにつれて戦績指数q1 tが上昇し、より戦績が劣ったものになるにつれて戦績指数q1 tを下降させる。
【0043】
各被検対象5から出力される結果lの何れが優れており、何れの結果lが劣っているかについては、いかなる基準の下で判断するようにしてもよい。上述したスロットマシーンの例では、コインが出るか否かで優劣を決める場合に限定されるものではなく、コインの枚数や種別に応じて優劣を決めるようにしてもよい。また、この優劣についても、優れているか、或いは劣っているかの2段階で設定される場合に限定されるものではなく、3段階以上で優劣を評価するようにしてもよい。ちなみに、3段階以上で優劣をランク分けする場合においても、一の被検対象5がより上位ランクであるほどqi tを上昇させ、他の被検対象5がより下位ランクであるほどqi tを下降させるように調整を行う。各被検対象5の戦績qi tは、被検対象5全体の戦績との関係において調整が行われるようにしてもよい。
【0044】
このようにして各被検対象5a~5dについてそれぞれ求められた戦績指数q1 t~q4 tは、調整部3へ送られる。調整部3は、戦績指数q1 t~q4 tがそれぞれ入力される。調整部3は、それぞれ入力された戦績指数q1 t~q4 tに基づいて、意思決定部4における観測時点毎に設定された各閾値THを調整する。
【0045】
各被検対象5a~5dは、それぞれ閾値TH1、TH2,0、TH2,1を隔てて予め割り当てられている。何れか一の被検対象5についてその閾値を調整する場合には、意思決定部4における比較の際に用いられる閾値THのみについて行うものとする。例えば被検対象5aは、閾値TH1未満で、かつ閾値TH2,0未満において割り当てられている。このため被検対象5aの戦績指数q1 tに基づいて閾値を調整する場合には、その比較において用いられる閾値TH1と閾値TH2,0について行う。
【0046】
調整部3は、被検対象5の戦績指数qi tが優れているほど、当該被検対象5が選択されやすくなるように閾値の調整を行う。また調整部3は、被検対象5の戦績指数qi tが劣っているほど、当該被検対象5が選択されにくくなるように閾値の調整を行う。例えば、被検対象5bについて閾値の調整をする場合において、その戦績指数q2 tが優れているほど、閾値TH1をより上昇させると共に閾値TH2,1をより下降させることで、次回以降に被検対象5bが選択される可能性が高くなる。一方、その戦績指数q2 tが劣っているほど、閾値TH1をより下降させると共に閾値TH2,1をより上昇させることで、次回以降に被検対象5cが選択される可能性が低くなる。同様に被検対象5cについて閾値の調整をする場合において、その戦績指数q3 tが優れているほど、閾値TH1をより低減させると共に閾値TH2,1をより上昇させることで、次回以降に被検対象5cが選択される可能性が高くなる。一方、その戦績指数q3 tが劣っているほど、閾値TH1をより上昇させると共に閾値TH2,1をより低減させることで、次回以降に被検対象5cが選択される可能性が低くなる。
【0047】
調整部3による閾値の調整は、全ての被検対象5a~5dについて毎回行うようにしてもよいし、意思決定部4によって選択された一の被検対象5a~5dのみについて行うようにしてもよい。後者の選択された一の被検対象5a~5dのみについて閾値の調整をする場合には、選択される回数が多い被検対象5ほど閾値の調整回数がより増加することとなる。また選択される回数が多い被検対象5ほど、当選確率が高いと判断されているに他ならない。このため、意思決定部4により選択される回数が多い被検対象5が、この解探索システム1における探索解に近いものと判断することができる。
【0048】
このようにして、被検対象5から出力された今までの戦績の優劣に基づく戦績指数qi tに基づいて、意思決定部4において被検対象5が選択されやすくなるように、或いは選択されにくくなるように閾値の調整を行う。そして、被検対象5による出力の指示の繰り返しを経て最終的に最も結果の出力の指示が行われている被検対象5を探索すべき解として特定することができる。これにより、組み合わせバンディット問題の解を自動的に探索して求めることが可能となり、情報量が増大の一途を辿る昨今において、大量の情報から高速かつ効率的に、組み合わせバンディット問題の解を求めることが可能となる。
【0049】
なお、上述した実施の形態においては、4つの被検対象5a~5dの中から最良の結果の出力が期待される被検対象を探索する場合を例に挙げて説明をしてたが、これに限定されるものではない。以下の図4は、8つの被検対象5a~5hの中から最良の結果の出力が期待される被検対象を探索する場合の例を示している。
【0050】
この例では、観測時点をt1、t2、t3の3つの時点に設定した場合には、この観測時点t1における不規則信号の信号強度P1を検知し、観測時点t2における不規則信号の信号強度P2を検知すると共に、更に観測時点t3における不規則信号の信号強度P3を検知する。
【0051】
意思決定部4は、各観測時点において検知した信号強度と、観測時点毎に設定された閾値とを比較する。信号強度P1、P2についての閾値の比較については、上述と同様である。観測時点t3について検知した不規則信号の信号強度P3は、閾値TH3,0,0、TH3,0,1、TH3,2,0、TH3,2,1とそれぞれ比較する。8つの被検対象5a~5hは、これらの閾値TH3,0,0、TH3,0,1、TH3,2,0、TH3,2,1により隔てられて割り当てられている。例えば、被検対象5aは、閾値TH3,0,0未満において割り当てられ、被検対象5bは、閾値TH3,0,0以上において割り当てられる。被検対象5cは、閾値TH3,0,1未満において割り当てられ、被検対象5dは、閾値TH3,0,1以上において割り当てられる。被検対象5eは、閾値TH3,2,0未満において割り当てられ、被検対象5fは、閾値TH3,2,0以上において割り当てられる。被検対象5gは、閾値TH3,2,1未満において割り当てられ、被検対象5hは、閾値TH3,2,1以上において割り当てられる。不規則信号の信号強度P3と閾値との比較の結果、選択する被検対象5は、各閾値を隔てて予め割り当てられている被検対象5に対応させる。
【0052】
上述した例の場合には、信号強度P3が閾値TH3,0,0より小さい場合には、被検対象5aを選択する。信号強度P3が閾値TH3,2,1以上の場合には、被検対象5fを選択する。
【0053】
このようにして意思決定部4により選択された被検対象5は結果を出力し、同様に戦績指数qi tに反映される。戦績指数qi tは、各被検対象5a~5f毎に管理し、より戦績が優れたものになるにつれて戦績指数qi tを上昇させ、より戦績が劣ったものになるにつれて戦績指数qi tを下降させることは上述と同様である。そして、戦績指数qi tに基づいて、意思決定部4において被検対象5が選択されやすくなるように、或いは選択されにくくなるように観測時点t1、t2、t3における閾値の調整を行うことは上述と同様である。
【0054】
また16個の被検対象5から最良の結果の出力が期待される被検対象を探索する場合には、同様に観測時点tをもう1点追加するともに、閾値を新たに追加し、この追加した閾値を隔てるように被検対象5を割り当てることにより同様の探索動作を行うことが可能となる。32個以上の被検対象5から探索する場合も同様であり、被検対象5の数に応じて観測時点tを追加し、これに応じた閾値を隔てるように被検対象5を割り当てることで実現できる。
【0055】
図5は、これを一般式で定義する場合を示している。信号発信部9から発信された不規則信号の信号強度を検知する観測時点tn(nは何れかの自然数)において検知した信号強度Pnと閾値THnとを比較し、信号強度Pnが閾値THnより小さい場合には、観測時点tn+1において検知した信号強度Pn+1と閾値THn+1とを比較し、信号強度Pnが閾値THn以上の場合には、観測時点tn+1において検知した信号強度Pn+1と閾値THn+1´とを比較する。そして観測時点tn+1における比較結果に基づいて、閾値THnと、閾値THn+1又は閾値THn+1´とを隔てて割り当てられた被検対象5をそれぞれ選択する。
【0056】
このとき、一の被検対象5を選択する上で比較の際に用いられた閾値THnと、閾値THn+1又は閾値THn+1´のいずれかを、当該一の被検対象5の戦績に基づいて調整する。仮に閾値THnと、閾値THn+1とが信号強度Pとの比較に用いられた場合には、この閾値THnと、閾値THn+1について調整を行う。同様に閾値THnと、閾値THn+1´とが信号強度Pとの比較に用いられた場合には、この閾値THnと、閾値THn+1´について調整を行う。
【0057】
なお、上述した図5の例では、探索する被検対象5の数が2n個で、nは自然数の場合を想定しているが、仮に被検対象5の数が2n個から外れる場合も同様に考えることが可能となる。仮に被検対象5の数が2n個から外れる場合は使用していない被検対象5につながる閾値をキャンセルすればよい。例えば図4の例において、被検対象5a~5gの7つで構成する場合には、意思決定部4における探索は上述と同様に実行し、本来であれば被検対象5hが割り当てられるべきTH3,2,1以上が仮に選択された場合には、その選択をキャンセルするように処理すればよい。
【0058】
更に本発明によれば、被検対象5から出力された結果と、被検対象全体の戦績を示す変数Ωとの双方に基づいて、上述した各閾値を調整するようにしてもよい。
【0059】
仮に被検対象5a、5bの2つが存在していた場合、被検対象5aの勝率が9割であり、被検対象5bの勝率が7割である場合、被検対象5全体の勝率は、(0.9+0.7)/(1+1)=0.8であることから8割である。一方、被検対象5全体の敗率は、1-0.8=0.2である。この勝率の敗率に対する比率としてのΩは、0.8/0.2=4である。このΩは、被検対象全体の戦績を示すものである。
【0060】
つまり、この勝率の敗率に対する比率Ωが高い場合には、被検対象5全体において負ける割合が低いことから、仮に意思決定部4が選択した被検対象5の出力した結果が負けるものであった場合には、その事実を重要視しなければならないことを意味する。換言すれば、現状の閾値の設定のままでは、本来であれば当選する被検対象を選択して当然のところを、外してしまうリスクが残っていることを意味している。かかる場合には閾値を変更する必要性が高いことを示している。このとき、閾値が不規則信号の強度の中央値以上の場合には、より低くなるようにシフトさせるか、或いは閾値が不規則信号の強度の中央値よりも低い場合には、より高くなるようにシフトさせる等の処理を施す。
【0061】
これに対して、被検対象5aの勝率が3割であり、被検対象5bの勝率が1割である場合、被検対象5全体の勝率は、(0.3+0.1)/(1+1)=0.2であることから2割である。一方、被検対象5全体の敗率は、1-0.2=0.8である。この勝率の敗率に対する比率としてのΩは、0.2/0.8=0.25である。つまり、この勝率の敗率に対する比率が低い場合には、被検対象5全体において負ける割合が高いことから、仮に意思決定部4が選択した被検対象5の出力した結果が負けるものであった場合にも、その事実を特段重要視することなく、大きく捉える必要が無いことを意味する。換言すれば、現状の閾値の設定のままでも特段問題がないことを意味している。かかる場合には閾値を変更する必要性が低いことを示している。
【0062】
このように勝率の敗率に対する比率等で表現される、被検対象5全体の戦績としてのΩを調べると共に、被検対象5から出力された結果を、被検対象5全体の戦績Ωとの関係において評価する。そして、この評価結果に基づいて閾値を調整する。
【0063】
このΩは以下の式(1)で定義することが可能となる。
Ω=(A0+A1)/{2-(A0+A1)}・・・・・・・(1)
【0064】
ここでA0は、一の被検対象5の勝率であり、A1は他の被検対象の勝率である。実際に、非検体が4以上ある場合においても同様に、被検対象5から出力された結果を、被検対象5全体の戦績Ωとの関係において評価し、その評価結果に基づいて閾値を調整する。
【実施例1】
【0065】
以下、本発明の効果を確認する上で行った実験及び計算シミュレーションの結果について説明をする。この実験及びシミュレーションでは、信号発信部9から発信される不規則信号の不規則性に対する解答の探索精度を検証したものである。
【0066】
準備した不規則信号としては、実際に半導体レーザ91を用いた戻り半導体レーザ光、準周期信号(サンプリング間隔:10ps)、カラーノイズ(負の自己相関)の3種類を準備した。これらの信号の時間に対する信号強度の関係を図6(a)に示す。
【0067】
このような不規則信号のサンプルを本発明を適用した解探索システム1における意思決定部4に供給した。図6(b)はサイクルに対する正しい意思決定の割合を示している。この例では、被検対象5の数を2個とし、被検対象は、当たりと外れの2値を結果として出力する。各被検対象5における当たりの出る確率は既知であり、この中から最良の結果の出力が期待される被検対象5の正解も既知とした場合に、この解探索システム1により探索された結果と、正解との整合性から正答率を求める。図6(b)の縦軸は、その正答率を示している。
【0068】
このシミュレーションの結果、最も正答率の高かったのは、戻り半導体レーザ光(サンプリング間隔:50ps)であった。また準周期信号やカラーノイズと比較してその正答率は高かった。このため、供給される不規則信号の不規則性が高いほど、言い換えればカオス状態に近づくほど、正答率が高くなることが示されている。
【符号の説明】
【0069】
1 解探索システム
2 戦績優劣比較部
3 調整部
4 意思決定部
5 被検対象
9 信号発信部
91 半導体レーザ
92 カプラ
93、96 減衰器
94 反射部
95 光アイソレータ
97 受光部
98 オシロスコープ
図1
図2
図3
図4
図5
図6