特開2017-130024(P2017-130024A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人物質・材料研究機構の特許一覧

<>
  • 特開2017130024-意思決定装置 図000032
  • 特開2017130024-意思決定装置 図000033
  • 特開2017130024-意思決定装置 図000034
  • 特開2017130024-意思決定装置 図000035
  • 特開2017130024-意思決定装置 図000036
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2017-130024(P2017-130024A)
(43)【公開日】2017年7月27日
(54)【発明の名称】意思決定装置
(51)【国際特許分類】
   G06G 7/48 20060101AFI20170630BHJP
   G06N 99/00 20100101ALI20170630BHJP
【FI】
   G06G7/48
   G06N99/00 170
【審査請求】未請求
【請求項の数】7
【出願形態】OL
【全頁数】20
(21)【出願番号】特願2016-8632(P2016-8632)
(22)【出願日】2016年1月20日
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 平成27年7月21日公開 コーネル大学図書館が運営 する研究文献の電子アーカイブ「arXiv」上のウェブアドレスhttp://arxiv.org/abs/1507.05895 平成27年10月14日開催 積水化学工業株式会社主催第13回自然に学ぶものづくりフォーラム「ヒトと自然の競合と共生」、イイノホール&カンファレンスセンター(東京都千代田区内幸町2−1−1)
(71)【出願人】
【識別番号】301023238
【氏名又は名称】国立研究開発法人物質・材料研究機構
(72)【発明者】
【氏名】金 成主
(72)【発明者】
【氏名】鶴岡 徹
(72)【発明者】
【氏名】長谷川 剛
(72)【発明者】
【氏名】青野 正和
(72)【発明者】
【氏名】青野 真士
(57)【要約】
【課題】MABを解くための効率の高いアルゴリズムであるTOWアルゴリズムを固体素子で実現する。
【解決手段】電極で挟まれた固体電解質中で金属イオンが電界の印加によって移動・析出・再イオン化することを利用する原子スイッチをスロットマシンに対応付け、並置されたこれら原子スイッチの一方の側の電極を共通化する。他方の側の電極上に析出している金属原子の総量が一定になるように構成し、選択されたスロットマシンに対応した原子スイッチの電極間に、プレイによって得られた報酬に相当する電圧を印加してこれら原子スイッチ電極間で固体電解質を介して金属を移動させる。上記金属原子の総量をTOWアルゴリズムにおける変動を受ける物体、各原子スイッチ電極上の金属原子の量を物体の現在の変位量に対応付けることで、上記構成・動作により、この素子がTOWアルゴリズムを実現する。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1の電極と第2の電極とによって挟まれた固体電解質中で金属イオンが電界の印加によって移動、金属原子としての析出及び再イオン化することを利用する複数の原子スイッチが並列接続され、
前記固体電解質が前記複数の原子スイッチ間で共有され、
前記金属イオンの析出が前記第1の電極上で行われるとともに、前記複数の前記原子スイッチの前記第1の電極上の前記金属原子の析出量の合計が一定であり、
各動作サイクルにおいて、前記複数の原子スイッチの前記第1の電極と前記第2の電極との間に当該動作サイクルにおける報酬量に基づく電圧が印加されることにより、前記固体電解質を介して前記金属原子が前記複数の原子スイッチの前記第1の電極間で移動し、
前記複数の前記第1の電極上の前記金属原子の析出量の大きな前記前記原子スイッチが次回の動作サイクルにおいて選択される
TOWアルゴリズムを実行する意思決定装置。
【請求項2】
前記第2の電極が前記複数の原子スイッチ間で共有されている、請求項1に記載の意思決定装置。
【請求項3】
前記金属イオンが銀イオン、1価の銅イオン、リチウムイオン、ナトリウムイオン、マグネシウムイオン、2価のニッケルイオン及び2価の鉄イオンからなる群から選択される、
請求項1または2に記載の意思決定装置。
【請求項4】
前記固体電解質が電子・イオン混合伝導体,純イオン伝導体及び高分子電解質から成る群から選択される、請求項1から3の何れかに記載の意思決定装置。
【請求項5】
前記第1及び第2の電極が白金からなる、請求項1から4の何れかに記載の意思決定装置。
【請求項6】
前記第1の電極上の前記金属原子の析出量は前記金属原子が前記第1の電極上に堆積している高さに基づいて表される、請求項1から5の何れかに記載の意思決定装置。
【請求項7】
前記高さは前記第1の電極と前記第2の電極との間に流れる電流として求められる、請求項6に記載の意思決定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は意思決定を行うために使用できる装置に関し、特に多本腕バンディット問題を解くための効率的なアルゴリズムとして知られているTOWアルゴリズムに基づいた意思決定装置に関する。
【背景技術】
【0002】
人間の知的能力の最も重要なものの一つに意思決定を挙げることができる。この意思決定を自動化する手法の一つとして、問題を多本腕バンディット問題(multi-armed bandit problem;MAB)の形でモデル化し、このモデルにMABを解くためのアルゴリズム(MABアルゴリズムと称する)を適用することによって、与えられた問題を解くことが提案されている。良く知られているように、MABとはプレーヤーからは報酬確率を事前に知ることができないスロットマシンが複数台与えられている状況で、プレーヤーがプレイしながらできるだけ早くかつ正確に報酬確率が高いスロットマシンを選択するにはどうすればよいか、という問題である。現実世界の問題をMABで定式化して解くことの有用性は広く認識されており、人工知能(コンピュータ囲碁等)、情報通信(ウェブ広告、コグニティブ無線塔)、金融(ポートフォリオ等)、その他の多くの意思決定問題への応用が進められている。
【0003】
MABアルゴリズムは情報処理装置上でソフトウエアを使用して実装されるのが通常である。しかし、高速性が要求される実時間処理や小型化や低消費電力化が強く求められるある種の専用装置ではこのようなソフトウエアに依存した実装が不適切な場合がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明はTOWアルゴリズムに基づいてMABを解くための処理の少なくとも一部をハードウエア化した装置を提供することを課題とする。
【課題を解決するための手段】
【0005】
本発明の一側面によれば、第1の電極と第2の電極とによって挟まれた固体電解質中で金属イオンが電界の印加によって移動、金属原子としての析出及び再イオン化することを利用する複数の原子スイッチが並列接続され、前記固体電解質が前記複数の原子スイッチ間で共有され、前記金属イオンの析出が前記第1の電極上で行われるとともに、前記複数の前記原子スイッチの前記第1の電極上の前記金属原子の析出量の合計が一定であり、各動作サイクルにおいて、前記複数の原子スイッチの前記第1の電極と前記第2の電極との間に当該動作サイクルにおける報酬量に基づく電圧が印加されることにより、前記固体電解質を介して前記金属原子が前記複数の原子スイッチの前記第1の電極間で移動し、前記複数の前記第1の電極上の前記金属原子の析出量の大きな前記前記原子スイッチが次回の動作サイクルにおいて選択される、TOWアルゴリズムを実行する意思決定装置が提供される。
ここで、前記第2の電極が前記複数の原子スイッチ間で共有されてよい。
また、前記金属イオンが銀イオン、1価の銅イオン、リチウムイオン、ナトリウムイオン、マグネシウムイオン、2価のニッケルイオン及び2価の鉄イオンからなる群から選択されてよい。
また、前記固体電解質が電子・イオン混合伝導体,純イオン伝導体及び高分子電解質から成る群から選択されてよい。
また、前記第1及び第2の電極が白金からなってよい。
また、前記第1の電極上の前記金属原子の析出量は前記金属原子が前記第1の電極上に堆積している高さに基づいて表されてよい。
また、前記高さは前記第1の電極と前記第2の電極との間に流れる電流として求められてよい。
【発明の効果】
【0006】
本発明によれば、MABを解く効率的なアルゴリズムであるTOWアルゴリズムを実行する意思決定装置を原子スイッチで構成することができるので、意思決定装置を小型化、高速化することができる。
【図面の簡単な説明】
【0007】
図1】本発明の一実施例の無ギャップ型原子スイッチを使用した意思決定装置(ASDM)の概念的な構成及びその動作を示す図。意思決定装置は、時刻tにおいてスロットマシンA、Bのどちらでプレイするかを、電流Ik(k∈{A,B}、以下同様)が閾値θよりも大きいか否かで決める。
図2】(a)ADSM中でのTOW(綱引き)動作を概念的に示す図。(b)ASDMの動作例を示す図であり、電圧Vと変位Xとの関係を示す。ここで、加算される電圧変化分ΔV(j)は各プレイjでの報酬R(j)で決まる(I>θとなるkについて)。この図ではASDMはスロットマシンをA、A,A、B、・・・の順で選択する。
図3】(a)MABの可解性を検討するために使用するランダムウォークモデルを示す図。ここで飛行距離(flight)はR(t)−K。(b)2つのランダムウィークの確率分布を示す図。
図4】はカンニングアルゴリズムにおいて報酬の相対的に低いスロットマシンを選択する確率(Q(E(S)/σ(S)))を示す図。
図5】(a)Kに対するASDMの1000までのプレイのregret(実線)及びτopt=0.3の場合のSOFTMAXのregret(破線)を示すグラフ。(b)ADSM(実線)とSOFTMAX(破線)との性能の比較を示すグラフ。ここで、ASDMについてはK=0.55とし、SOFTMAXについてはτopt=0.3とした。点線はKを持つASDMの上界(式(43))である。
【発明を実施するための形態】
【0008】
自然界に目を向けると、生体系中での情報処理はその下層をなす物理的な特性と見事に結びついている(非特許文献1、2)。このことから、物理現象に基づいた新たなアナログ的情報処理の枠組みを確立できるという可能性が示唆される。
【0009】
10年程以前に、「原子スイッチ」と呼ばれる概念的に新しいスイッチングデバイスが提案された。この原子スイッチは固体電解質中での金属イオンの移動及び電気化学的反応に基づいている(非特許文献3)。この素子の抵抗状態は少数の金属イオン/原子の移動によって連続的に制御されるので、原子スイッチは物理現象に基づいたアナログコンピューティング素子であると見なすことができる。本願発明者は、体積保存則と言う物理的な制約を利用することで、原子スイッチに基づいて意思決定問題を効率的に解くことができるとの着想を得て、本発明をなすに至った。なお、以下では固体電解質中を移動する金属イオンが銀イオンであり、また電極材料を白金として説明するが、本発明で使用される金属イオン及び電極をこれらの物質に限定する意図はなく、原子スイッチの分野で使用される物質を適宜選択して使用することができる。例えば、金属イオンとしては銀イオン以外に1価の銅、リチウム、ナトリウム、2価のニッケル、マグネシウム、鉄等が使用できる。また、固体電解質としては無機材料と有機材料が使用可能である。使用可能な無機材料としてはAgS、CuSなどの電子・イオン混合伝導体,AgI、RbAgなどの純イオン伝導体、Ta、SiO、HfOなどの金属酸化物等がある。一方、有機材料としてはリチウムイオンバッテリー等に使われる高分子電解質が使用可能である。具体的には,ポリエチレンオキシド(PEO)、ポリビニルアルコール(PVA)、ポリビニルピロリドン(PVP)等の高分子に金属塩を溶解させたものが挙げられる。電極材料も白金に限定されるものではなく、不活性の、すなわち化学的に安定性の高い金属であれば使用可能である。
【0010】
M台のスロットマシンが与えられ、これらのスロットマシンの各々は、それでプレイを行うことで、プレーヤーには未知である一定の確率密度関数(probability density function;PDF)に基づいてコイン等の報酬を得ることができるとする。ここで、最も単純な状況として、2台のスロットマシンA、Bが夫々平均報酬がμ及びμである個別のPDFに基づいて報酬を与える場合を考える。プレーヤーはプレイ毎にどちらのスロットマシンを使用するかの意思決定を行い、何回かのプレイを行ったことによる報酬の合計を最大化しようとする。ここで、最初のプレイを開始した以降の経験を参照することによって報酬の最大化のための最適戦略を可能な限り早くかつ正確に決定するためにMABを使用することができる。
【0011】
意思決定アルゴリズムのための研究の歴史でMABを最初に説明したのは非特許文献4であるが、MABの基本的な事項の研究はそれより以前に非特許文献5に述べられている。「Gittins index」と呼ばれる最適戦略は、報酬の分布がプレーヤーに既知であると仮定される限定的なクラスの問題についてのみ知られている(非特許文献6、7)。しかも、この種の限定的なクラスの問題でもGittins indexを実際に計算するのは多くの場合非常に困難なものとなる。非特許文献8、9で提案された別のアルゴリズムでは、スロットマシンから得られる報酬の合計の簡単な関数で表される。実際には、MABを解くためのUCB1(upper confidence bound 1)アルゴリズムが多くの実際的な応用で世界的に使用されている(特許文献9)。MABは数学上の問題として一般性を失うことなく定式化することができ、それ自体は多様な確率論的な現象に関連付けられる。実際、多様な分野における多くの応用分野の問題、例えば、コグニティブネットワーク(非特許文献10、11)等の通信分野、ウエブ上の広告(非特許文献12)等の商業分野、コンピュータゲームに使用されるモンテカルロ木検索(非特許文献13、14))等の商業分野の問題はMABに帰着させることができる。
【0012】
本願発明者は動的な形を利用した綱引き(tug-of-war;TOW)アルゴリズムと呼ばれるMABの解法を提案した。TOWアルゴリズムは単細胞のアメーバ状生物(真性粘菌粘菌(true slime mold)の一種であるモジホコリカビ(Physarum polycephalum))の時空間的動態に触発されたものである(非特許文献15〜21)。この巨大な単細胞生物は細胞内資源の堆積を一定に維持しつつ、その偽足状になった複数の末端部分を同時に膨張或いは収縮させることによって環境情報を収集する。この生体によって触発されたアルゴリズムでは、それが基づいている対象が持っているところの綱引きゲームに似ている物理的な特性から意思決定関数が導出される。この綱引き的な現象の動力学における物理的な制約、すなわちアメーバ状の生体での体積保存則により、上述した複数の末端部分の間の非局所的な相関が引き起こされる。つまり、一つの末端部分の体積が増大すると、それは他の一つまたは複数の部分の体積が減少することによって直ちに補償される。本願発明者による以前の研究(非特許文献15〜21)が明らかにしたところでは、体積保存則によってもたらされた非局所的な相関的な作用によって、TOWアルゴリズムの動作はUCB1を調節したアルゴリズム(非特許文献9で、パラメータなしアルゴリズム中の最良の選択とされている)に匹敵する修正ε-greedyアルゴリズムや修正SOFTMAXアルゴリズムのような、他の良く知られているMABアルゴリズムよりも高い性能を示す。これらの考察から、本願発明者は保存則のようなある共通の物理的な属性を保持する限りでの任意の物理的な物体を使用して効率的な意思決定装置を実現できるとの着想を得た。実際、本願発明者は、量子ドット間における光学的なエネルギー転送の挙動でエネルギーが保存されることをTOWアルゴリズム動作を実現するために利用できることを示した(非特許文献22〜24)。
【0013】
本願発明者は上記知見・考察に基づいて、原子スイッチの原理に基づく意思決定装置(atomic switch-based decision maker;以下ASDMと称する)を発明した。以下の説明から明らかなように、ASDMはTOWに基づいて意思決定を行うハードウエアである。
【0014】
本発明の一実施例によれば、ASDMは2つの原子スイッチを互いに近接して並置した構造を有する。ここで、固体電解質(SE)の一方の側(以下、上面側と称するが、この側を「上」にする必要があるという意味ではなく、2つの面を識別するために便宜上付与した単なる識別用の記号であると理解されたい。以下の「下面」についても同じ)に1つのPt(白金)電極が設けられ、その反対側(以下、下面側と称する)には2つの白金電極が並置された状態で設けられている。この構造を図1の左側に概念的に示す。すなわち、図1に示されたASDMは、2つの原子スイッチ(図中の左側の原子スイッチを原子スイッチA、右側を原子スイッチBと呼ぶ)が、上面側の電極を共通とし、下面側の電極については夫々の個別の電極を維持した形態で並置し融合した構造になっている。ASDMを構成する2つの原子スイッチの夫々は金属/イオン伝導体/金属(MIM)という構成で動作する。MIMスイッチは不活性の電極上への金属の析出によって上下の電極間に金属フィラメントを形成できるので、これを無ギャップ型原子スイッチ(gapless type atomic switch)(非特許文献25)と呼ぶ。ここで、両原子スイッチは相互に影響を受けるものとするが、このことは、両原子スイッチ間で何らかの相互作用が存在することを意味している。
【0015】
図示したASDMの初期状態では、金属イオン(ここではAg(銀)イオンを使用)が固体電解質中に一様に分布していて、Agイオンの総数は一定であるものとする。上面側のPt電極と下面側の2つのPt電極A,Bとの間にバイアス電圧−Vを印加する(V=V=−V)と、Agイオンが下面側の両Pt電極に移動し、当該電極上で還元されることによりAg原子がそれぞれの下面側Pt電極上に析出する。初期状態において両方の原子スイッチに同じバイアス電圧−Vを印加した際には、2つの下面側の電極に同量のAg原子が析出するものとし、この析出したAg原子の集団の高さを、図1に示すようにXで表す。また、その後の動作に当たって、時刻tにおける下面側の2つのPt電極上のAg原子集団の高さのXからの変位をX(t)(k∈{A,B})で表す(原子スイッチkをASDMに対応付けられているMABにおけるスロットマシンと同一視し、対応するスロットマシンもkとして識別する)。従って、時刻tにおけるこれら下面側Pt電極上のAg原子の集団の高さはX+X(t)となる。
【0016】
図2(b)に示すように、ASDMの上下の電極間には信号印加期間Δt+休止期間Δtint=tの周期で信号パルスが印加される。各原子スイッチを流れる電流Iをtの時間間隔で測定する。より具体的には休止期間Δtint内のある決まった時点(ここでは各Δtの直後)において測定する。原子スイッチk側を流れる電流IがI>θである場合には、ASDMが対応するスロットマシンk(スロットマシンA及び/またはB)を選択して、図1の右側に示す「問題」側へこの情報を送り出す。問題側では各未知PDF(平均報酬μも未知とする)から生成される報酬R(j)が、スロットマシンをプレイすることによる確率事象の結果として得られる。ここで、jは何回目のプレイであるかを示すステップ番号である。この報酬により、上記バイアス電圧−Vに加えることで原子スイッチへ印加する電圧を変位させる電圧であるΔV(j)は以下の式(1)のように定められ、これがASDM側に戻される。
【0017】
【数1】
【0018】
上式で、R(j)は任意の実数値を取る「報酬」である。また、Kは後程詳述するパラメータである。これにより、各原子スイッチのバイアス電圧Vは以下の式(2)で表す通りとなる。
【0019】
【数2】
【0020】
なお、選択されなかった方の原子スイッチのバイアス電圧Vは−Vのままである(図2(b)の上半分にあるV及びVの時間変化を示すグラフを参照)。また、選択された側の原子スイッチに印加されるバイアスを変位させる電圧ΔV(j)は正負両方の極性を取り得る点に注意されたい。ΔV(j)が正の場合には原子スイッチAとBの電極上に析出したAg原子の集団の高さの差が増大し、負の場合にはこの差は減少する。
【0021】
ここにおいて、以下の条件が満たされているものとする。
【0022】
1.初期平衡状態では、固体電解質SE中には析出できるAgイオンはほとんどない。これは一方の原子スイッチの下面側電極上にAg原子が増加してその高さが一段階分増加することは他方の原子スイッチで対応する高さが一段階分減少することを意味する(式(3)が成立する)。
【0023】
2.X+X>Thの場合、電流Iはθより大きい。ここで、Th及びθは閾値である。ThがXよりも小さく設定されている場合には、この挙動はまだ変動(fluctuation)を受けていない初期状態から成立する。すなわち、閾値が小さく設定されていれば、ゆらぎがなくとも時刻0から選択が始まる。
【0024】
3.簡単化のため、ΔVと選択された原子スイッチにΔtのパルス電圧(図2(b)参照)を印加した時の析出量の変化量ΔXとの間の関係(式(3)及び式(4))が線形であると仮定する(この関係は厳密には析出したAg原子集団の形状及び残っているAgイオンの量に依存する)。
【0025】
4.図2(b)に示すように、バイアス電圧V(t)は所定時間の信号印加期間Δtの間だけ印加されるとともに、次回のバイアス電圧V(t+1)の印加の間に休止期間Δtintを置き、この間においては初期動作で印加したバイアス電圧−Vを印加する。ここで、ΔtをΔtintに比べて充分に長くして、時間Δtintの休止期間におけるAg原子集団の減衰効果が無視できるようにする。
【0026】
上に説明した動作を繰り返すにつれて、ASDMは最後には原子スイッチAとBの何れか一方を選択するようになる。この様子を図2(b)に示す。この図において、Th=Xとしている。この条件下でも、高さXに対応する電流Iはθ(Th)の周りで時間とともに変動している。各時間ステップjにおいて、ASDMはθよりも大きな電流(Thよりも大きな析出高)を示す原子スイッチを検出して、対応するスロットマシンを選択する。次に、両原子スイッチに印加される電圧は、スロットマシンから得られた報酬に従って更新される。
【0027】
ここでASDMとTOWアルゴリズムとの関係を説明すれば、TOWのモデルでは、選択されたスロットマシンをプレイした結果の報酬に応じて、非圧縮性の物体(以下では単に物体と呼ぶ)上の当該スロットマシンに対応させておいた位置に力を加えることでその物質に変動を与え(移動、変形等)、物体の当該変動を累積させた結果から各プレイ毎にどのスロットマシンをプレイ対象として選択するかを判断する。すなわち、ASDMでは「物体」として下面側の複数の電極上に析出しているAg原子全体(より厳密には、析出した金属原子と固体電解質SEに溶けている金属イオンとの総和)を採用し、「変動」には1回のプレイに相当する電圧の印加によって下面側の電極間でAg原子が移動すること、より具体的にはこの移動により各電極上に析出して堆積しているAg原子の集団の高さ(Ag原子の総量)の変化分を対応付けている。
【0028】
従って、原理的には各電極上に析出しているAg原子(一般的には金属原子)集団の高さXを電極間で比較することで上記選択を行うことができる。しかし、現実的には、固体素子内部でプレイ毎に高さXそれ自体を測定することは、不可能でないとしても非常に困難である。
【0029】
そこで、下面側の電極上にAg原子の集団が析出してその高さが増加することは、電気的には下面側の電極が上限側の電極に接近することと等価であり、それにより高さXと上面側電極−下面側電極間に電圧を印加することによって原子スイッチkに流れる電流Iの大きさとの間に単調な関係が成立することを利用する。すなわち、電流Iを閾値θと比較し、電流Iの方が大きい場合に次回のプレイ対象のスロットマシンとしてkを選択する。
【0030】
なお、上の説明では各原子スイッチを流れる電流Iを所定の閾値θと比較するものとしたが、このような比較を行う代わりに原子スイッチ間での相対的な比較を行って、一番大きな電流が流れる原子スイッチを選択するようにしてもよい。
【0031】
変位X(=−X)は以下の式(3)及び式(4)によって定められる。
【0032】
【数3】
【0033】
上式において、Q({k∈{A,B}})は初期時刻1から現在時刻tまで累算した過去の経験の近似情報であり、Nはスロットマシンkがプレイされた回数であり、ΔVはスロットマシンkをプレイする際にバイアスに加える変位電圧であり、δ(t)は物体がその影響を受ける任意の変動であり、Kは上で言及したように後述するパラメータである。式(1)及び式(2)は学習則(learning rule)と呼ばれる。従って、このASDM動作は以下のとりわけ簡単なルールに従って進行する:スロットマシンkが各時刻t毎にプレイされるとき、R−KがX(t)に加算される(図2)。
【0034】
なお、上で「変位X(=−X)」と書いたが、これは析出した原子塊の高さの総量の保存を前提とした説明であるためにこのような扱いになったものである。一般的には厳密には両者は「より緩い関係」で結ばれている。つまり、一方が1増えても他方が1ではなく、1>α>0で表されるαしか減らない等の場合もあることに注意されたい。
【0035】
ASDMの構成要素となっている原子スイッチ自体はその構造、製造方法、特性等はよく知られており、したがって上の説明からASDMを実際に作成することは容易である。以下では、ASDMと従来のSOFTMAXアルゴリズムとを比較し、またASDM動作理論的な解析結果を説明する。
【0036】
なお、上ではASDMを構成する原子スイッチ(また、それに対応付けられたスロットマシン)が2つであるとし、これらをA及びBと呼ぶことで識別している。しかし、当然のことであるが、TOWアルゴリズムがそうであるように、使用されるスロットマシンの台数には制限がなく、またそれに対応付けて一つのASDM中に含まれる原子スイッチの個数にも当然制限がない。また、このように原子スイッチ(スロットマシン)の個数を2つに限定しない一般的な説明を行う際には、これらにA、Bではなく自然数の番号を付与して、この自然数により原子スイッチを参照することがある。このような場合、例えばA=1、B=2とすることで、原子スイッチが2つの特別な場合の説明と原子スイッチの個数を特に限定せずに行う議論とを関連付けることができることに注意されたい。
【0037】
<SOFTMAXアルゴリズム>
SOFTMAXアルゴリズムはMAB問題のための良く知られたアルゴリズムである(非特許文献26)。このアルゴリズムでは、Aを選択する確率P'(t)、Bを選択する確率P'(t)は下式で与えられる。
【0038】
【数4】
【0039】
ここでA(t)(k∈{A,B})は
【0040】
【数5】
【0041】
で与えられる。また、βは本願では下式で与えられる時間依存した形態である。
【0042】
【数6】
【0043】
β=0はランダムな選択に対応し、β→∞は欲張り行動(greedy action)に対応する。
【0044】
<ASDMの理論解析>
報酬を0または1に限定したBernoulliタイプのMAB問題についてのTOW動作の理論解析は、非特許文献21に記載されている。本願ではASDMの理論解析を報酬が0または1に限定されていない一般のMABについて示す。
【0045】
≪MABの可解性≫
MABの可解性を検討するため、図3(a)に示すランダムウォークモデルを考える。ここでR(t)(k∈{A,B})は時刻tでの報酬であり、Kはパラメータ(式(1)を参照)である。簡単にするため、Rの確率密度関数の平均がμ>μを満足すると仮定する。時間ステップtの後の変位Dk(k∈{A,B})を以下のように記述することができる。
【0046】
【数7】
【0047】
変位Dの期待値E(D(t))は下式から得ることができる。
【0048】
【数8】
【0049】
図3(b)に示す、2つの分布の間の重複領域中では何れが大きいかを正確に評価できない。この重複領域はNが増大するについて減少して間違った判定を避けるようにしなければならない。この要件は以下の形で表現できる。
【0050】
【数9】
【0051】
上記2本の式は以下のように書き換えることができる。
【0052】
【数10】
【0053】
換言すれば、パラメータKは、どちらが大きいかをランダムウォークが正しく判定するようにするように、上記条件を満足しなければならない。
【0054】
Kが以下のようであれば上記条件を満足することを簡単に確認することができる。
【0055】
【数11】
【0056】
Qk(t)及び式(13)より、以下の結果が得られる。
【0057】
【数12】
【0058】
ここでパラメータKをKに設定した。従って、パラメータをKとした学習則Qを使用したASDM動作によりMABを正しく解くことができると結論付けられる。
【0059】
≪高性能の源泉≫
ε-greedyアルゴリズムのような多くの良く知られたアルゴリズムでは、時刻t毎にプレイ対象の2台のスロットマシンの何れかについて報酬確率の見積もりを更新する。他方、平均報酬の合計γ=μ+μをプレーヤーが知っているという状況を仮定した場合には、一方のスロットマシンでしかプレイしなかったとしても両方のスロットマシンについての見積もりを同時に更新することができる。以下の表の上の行及び下の行は、夫々スロットマシンAをN回プレイしたとの知識及びスロットマシンBをN回プレイしたとの知識に基づいた平均報酬の見積もりを示す。なお、平均報酬γ=μ+μであることが既知であると仮定している。ここで、γが与えられていることを利用して、プレイされなかったスロットマシンについての報酬の見積もりも更新できることに注意されたい。
【0060】
【表1】
【0061】
上に示した見積もりから、期待報酬Q’(k∈{A,B})は各々下式のように与えられる。
【0062】
【数13】
【0063】
これらの期待報酬Q'は、式(1)及び式(4)においてTOW動作の学習則により与えられたQと同じではない。しかしながら、TOW動作で実質的に使用しているものは下式で表される差分である。
【0064】
【数14】
【0065】
上式で期待報酬Q'にQ"=Q'/2を代入することにより、以下の差分を得る。
【0066】
【数15】
【0067】
式(18)と式(19)とを比較すると、K=K(式(14))が満足されている場合には両式を構成する項は常に等しい。結局、γで表されたほぼ最適のパラメータKを得ることができる。
【0068】
上述した導出はASDMの動作についての学習則は両方の見積もりを同時に更新することができるという先に仮定したシステム学習則と等価であることを含意している。換言すれば、ASDMの動作は、2台のスロットマシンの一方が時刻tでは実際にプレイされていなかった場合であっても、これら2台についての見積もりを参照して時刻t+1におけるその次回の動きを決定する仮想のシステムを模倣する。これは平均報酬の合計が事前に与えられていることから導かれる学習則の面でのユニークな特徴であって、このことがASDM動作の高性能の一つの原因であると考えられる。
【0069】
モンテカルロ法によるシミュレーションを行った結果、Kを使ったASDM動作は、最適パラメータKoptを使用して達成されるピーク性能と同等な、格別に高い性能を発揮することが確かめられた。最適値Koptを正確に導くためには先に述べた変動を考慮する必要がある。
【0070】
これに加えて、ここで説明した過程の本質はM台のスロットマシンを使用する場合に一般化することができる。図3(b)に示すような、上からm台目のスロットマシンでの分布と上からm+1台目のスロットマシンでの分布とを分離するためには、下式で示すようなKを得るだけで良い。
【0071】
【数16】
【0072】
ここで、μ(m)はm番目の平均を示し、mは1〜M−1の任意の整数である。MBPはm=1とした特別の場合である。実際、本願発明者は、M台のスロットマシンをX人のプレーヤーでプレイする場合に「社会的最大(social maximum)」と呼ばれる全体の最適状態を素早くかつ正確に決定できるシステムを策定した(非特許文献28、29)。
【0073】
<性能評価>
ASDM動作の高い性能を評価するため、MABを解くための「カンニングアルゴリズム(cheater algorithm)」と呼ぶ仮想のモデルを検討する。このカンニングアルゴリズムは下式で表される見積もりS(k∈{A,B})に従ってプレイするスロットマシンを選択する。
【0074】
【数17】
【0075】
ここでXk,iはランダムな変数である。時刻t=NにおいてS>Sである場合、時刻t=N+1においてはスロットマシンAをプレイする。時刻t=NにおいてS>Sである場合には、時刻t=N+1においてはスロットマシンBをプレイする。時刻t=NにおいてS=Sである場合は、時刻t=N+1ではスロットマシンA、Bからランダムに選んでプレイする。このアルゴリズムは、時刻tにおける両方のスロットマシンの結果を時刻t−1においてどちらのスロットマシンが使用されたかに注意を払わずに利用していることに着目されたい。換言すれば、このアルゴリズムは不正行為を働いているのである。つまり、ここでは両方のスロットマシンでプレイして両方の結果を得ているのに、一時点では一つのスロットマシンでしかプレイしていないと宣言しているからである。
【0076】
の期待値及び分散を夫々E(X)=μ及びV(X)=σ2kで表す。ここで、μは先に定義したPと同じである。中心極限定理より、Sはガウス分布を有し、E(S)=μN及びV(S)=σNとなる。ここで新たに変数S=S−Sを定義すれば、Sはガウス分布を有しており、下式の値を与える。
【0077】
【数18】
【0078】
図4から、スロットマシンBは相対的に低い報酬確率を持っているのであるが、このスロットマシンをプレイする確率はQ(E(S)/σ(S))で表すことができる。ここで、Q(x)はQ関数である。これより下式が得られる。
【0079】
【数19】
【0080】
ここで、
【0081】
【数20】
【0082】
である。
【0083】
Chernoff上界(Chernoff bound)Q(x)≦(1/2)exp(−x/2)を使用すれば、カンニングアルゴリズムの累積された損失(loss)を定量化する測定量の上界(「regret」と呼ぶ)を下式のようにして計算することができる。
【0084】
【数21】
【0085】
ここで、Nが大きくなるにつれてregretは定数になることに注意されたい(式(31)参照)。
【0086】
「カンニング」の結果を使用して、ASDM動作を同じように計算することができる。ここでは以下のような結果を得る。
【0087】
【数22】
【0088】
ここでもXk,iはランダムな変数である。従って下式が得られる。
【0089】
【数23】
【0090】
新たな変数S=S−S、N=N+N及びD=N−Nを使用して更に下式を得る。
【0091】
【数24】
【0092】
条件K=K及びσ=σ≡σが満足される場合には、下式を得る。
【0093】
【数25】
【0094】
及び
【0095】
【数26】
【0096】
ここで
【0097】
【数27】
【0098】
である。
【0099】
ASDM動作のregretを以下のようにして計算することができる。
【0100】
【数28】
【0101】
ASDM動作のregretもNが増大するにつれて定数になることに注意されたい。
【0102】
非特許文献9で与えられたMABのための最適なアルゴリズムはlog(N)に比例するregretを有することが知られている。このregretにはNが増大したときの有限な上界はない。このようになるのは、このアルゴリズムでは低報酬のスロットマシンをプレイし続け、正しくない判定の確率が確実に0になっていくようにするためである。regretが定数になるということは、ASDMの動作では正しくない判定の確率はほぼ0であるが完全にはゼロにはならないことを意味する。しかしながら、意思決定が必要となる現実の状況においては報酬確率はしばしば変化し、長期的な挙動は多くの実際的な用途では重要でないと考えられるだろう。
【0103】
<シミュレーション結果>
SOFTMAXは効率的な意思決定のための良好なアルゴリズムとして良く知られているのであるが(非特許文献27)、コンピュータシミュレーションから、ほとんど全ての場合、パラメータK(=(μ+μ)/2)を使ったASDMは最適パラメータμoptを使ったSOFTMAXアルゴリズムよりも高い報酬を獲得できることが確認された。図2にASDMとSOFTMAXアルゴリズムとの性能比較の例を示す。図5(a)に示すグラフの縦軸はregretの値を示し、横軸はKの値を示す。図5(b)のグラフはASDMとSOFTMAXとの性能比較を示す。その縦軸はregret(1000サンプルの平均値)を示し、横軸はプレイの回数を示す。水平の点線はKを用いたADSMの上界(式(43))を示す。ここで報酬PDFについては、μ=0.5、μ=0.6及びσ=0.2とした正規分布N(μ,σ)及びN(μ,σ)を使用した。コンピュータシミュレーションはTh=X及びδ=sin(π/2+πt)の条件のもとに行った。
【産業上の利用可能性】
【0104】
以上説明したように、本発明の意思決定装置ASDMは、TOWアルゴリズムを素子レベルで実現し、その構成要素となっている原子スイッチの特徴から小型化、高速化が可能である。従って、本発明はMABでモデル化できる多くの分野に応用可能であり、またサイズ、速度、コスト等の点で従来技術では対応が困難であった新たな応用分野への適用も大いに期待できる。
【先行技術文献】
【非特許文献】
【0105】
【非特許文献1】Castro L N. (2007) Fundamentals of natural computing: an overview. Physics of Life Reviews 4: 1-36.
【非特許文献2】Kari L, & Rozenberg G. (2008) The many facets of natural computing. Communications of the ACM 51: 72-83.
【非特許文献3】Terabe K, Hasegawa T, Nakayama T, & Aono M. (2005) Quantized conductance atomic switch. Nature 433: 47-50.
【非特許文献4】Robbins H. (1952) Some aspects of the sequential design of experiments. Bull Amer Math Soc 58: 527-536.
【非特許文献5】Thompson W. (1933) On the likelihood that one unknown probability exceeds another in view of the evidence of two samples. Biometrika 25: 285-294.
【非特許文献6】Gittins J, & Jones D. (1974) Dynamic allocation index for the sequential design of experiments( Gans, J. Progress in Statistics North Holland, 241-266所収)
【非特許文献7】Gittins J. (1979) Bandit processes and dynamic allocation indices. J R Stat Soc B 41: 148-177.
【非特許文献8】Agrawal R. (1995) Sample mean based index policies with O(log n) regret for the multi-armed bandit problem. Adv Appl Prob 27: 1054-1078.
【非特許文献9】Auer P, Cesa-Bianchi N, & Fischer P. (2002) Finite-time analysis of the multiarmed bandit problem. Machine Learning 47: 235-256.
【非特許文献10】Lai L, Jiang H, & Poor H. V. (2008) Medium access in cognitive radio networks: a competitive multi-armed bandit framework. Proc. of IEEE 42nd Asilomar Conference on Signals, System and Computers, 98-102.
【非特許文献11】Lai L, Gamal H. E, Jiang H, & Poor H. V. (2011) Cognitive medium access: exploration, exploitation, and competition. IEEE Trans. on Mobile Computing 10: 239-253.
【非特許文献12】Agarwal D, Chen B.-C, & Elango P. (2009) Explore/exploit schemes for web content optimization. Proc of ICDM2009, http://dx.doi.org/10.1109/ICDM.2009.52.
【非特許文献13】Kocsis L, & Szepesv´ari C. (2006) Bandit based monte-carlo planning, In: Carbonell, J. G. et al., 17th European Conference on Machine Learning, Lecture Notes in Artificial Intelligence 4212, Springer, 282-293.
【非特許文献14】Gelly S, Wang Y, Munos R, & Teytaud O. (2006) Modification of UCT with patterns in Monte-Carlo Go. RR-6062-INRIA, 1-19.
【非特許文献15】Kim S-J, Aono M, & Hara M. (2010) Tug-of-war model for multi-armed bandit problem, In: Calude C. et al. Unconventional Computation, Lecture Notes in Computer Science 6079, Springer, 69-80.
【非特許文献16】Kim S-J, Aono M, & Hara M. (2010) Tug-of-war model for the two-bandit problem: Nonlocally-correlated parallel exploration via resource conservation. BioSystems 101: 29-36.
【非特許文献17】Kim S-J, Nameda E, Aono M, & Hara M. (2011) Adaptive tug-of-war model for two-armed bandit problem. Proc of NOLTA2011, 176-179.
【非特許文献18】Kim S-J, Aono M, Nameda E, & Hara M. (2011) Amoeba-inspired tug-of-war model: Toward a physical implementation of an accurate and speedy parallel search algorithm. Technical Report of IEICE (CCS-2011-025), 36-41.
【非特許文献19】Aono M, Kim S-J, Hara M, & Munakata T. (2014) Amoeba-inspired tug-of-war algorithms for explorationexploitation dilemma in extended bandit problem. BioSystems 117: 1-9.
【非特許文献20】Kim S-J, & Aono M. (2014) Amoeba-inspired algorithm for cognitive medium access. NOLTA 5: 198-209.
【非特許文献21】Kim S-J, Aono M, & Nameda E. (2014) Efficient decision-making by volume-conserving physical object. New J Phys, http://arxiv.org/abs/1412.6141.
【非特許文献22】Kim S-J, Naruse M, Aono M, Ohtsu M, & Hara M. (2013) Decision maker based on nanoscale photo-excitation transfer. Sci Rep 3: 2370.
【非特許文献23】Naruse M, Nomura W, Aono M, Ohtsu M, Sonnefraud Y, Drezet, A, Huant S, & Kim S-J. (2014) Decision making based on optical excitation transfer via near-field interactions between quantum dots. J Appl Phys 116: 154303.
【非特許文献24】Naruse M, Berthel M, Drezet A, Huant S, Aono M, Ohtsu M, Hori H, & Kim S-J. (2015) Single photon decision maker Sci Rep.
【非特許文献25】Tsuruoka T, Hasegawa T, Terabe K, & Aono M. (2012) Conductance quantization and synaptic behavior in a Ta2O5-based atomic switch. Nanotechnology 23: 435705.
【非特許文献26】Sutton R, & Barto A. (1998) Reinforcement Learning: An Introduction, MIT Press.
【非特許文献27】Vermorel J, & Mohri M. (2005) Multi-armed bandit algorithms and empirical evaluation(Gama J., et al. 16th European Conference on Machine Learning. Lecture Notes in Artificial Intelligence 3720, Springer, 437-448所収)
【非特許文献28】Kim S-J, & Aono M. (2015) Decision maker using coupled incompressible-fluid cylinders. Special issue of Advances in Science, Technology and Environmentology B11: 41-45, http://arxiv.org/abs/1502.03890.
【非特許文献29】Kim S-J, Naruse M, & Aono M. (2015) Harnessing natural fluctuations: analogue computer for efficient socially-maximal decision-making. eprint arXiv, http://arxiv.org/abs/1504.03451.
図1
図2
図3
図4
図5