特許7590675 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7590675強化学習用演算装置、強化学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-19

(45)【発行日】2024-11-27

(54)【発明の名称】強化学習用演算装置、強化学習方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20241120BHJP

G06N 3/044 20230101ALI20241120BHJP

G06N 3/067 20060101ALI20241120BHJP

G06N 3/092 20230101ALI20241120BHJP

【ＦＩ】

G06N20/00

G06N3/044 100

G06N3/067

G06N3/092

【請求項の数】 8

(21)【出願番号】P 2023526735

(86)(22)【出願日】2021-06-09

(86)【国際出願番号】 JP2021021969

(87)【国際公開番号】W WO2022259434

(87)【国際公開日】2022-12-15

【審査請求日】2023-10-02

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】中島光雅

(72)【発明者】

【氏名】橋本俊和

【審査官】佐藤直樹

(56)【参考文献】

【文献】特開２０１８－２００３９１（ＪＰ，Ａ）

【文献】菅野円隆ほか，時間遅延リザーバコンピューティングを用いた強化学習，電子情報通信学会２０２０年基礎・境界ソサイエティ／ＮＯＬＴＡソサイエティ大会講演論文集，2020年，p.123，ISSN 2189-700X

【文献】松木俊貴ほか，カオスニューラルネットワークの内部ダイナミクスによる探索を用いたＱ－ｌｅａｒｎｉｎｇ，電子情報通信学会技術研究報告，日本，一般社団法人電子情報通信学会 The Institute of Ele，2020年，Vol.119, No.453，pp.207-212，ISSN 2432-6380

【文献】小林泰介，リザーバコンピューティングによる目的切替可能な強化学習，ロボティクスメカトロニクス講演会２０１７講演論文集，一般社団法人日本機械学会，2017年，pp.1-4

【文献】小西文昂ほか，干渉合成開口レーダ地形分類のための複素リザバーコンピューティング，電子情報通信学会技術研究報告，日本，一般社団法人電子情報通信学会，2020年，Vol.119, No.453，pp.193-198，ISSN 2432-6380

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

Ｇ０６Ｎ３／０４４

Ｇ０６Ｎ３／０６７

Ｇ０６Ｎ３／０９２

(57)【特許請求の範囲】

【請求項1】

対象がタスクを実行する際の方策を学習する強化学習用の演算装置であって、
対象の状態に関する入力情報を入力する入力層と、前記入力層に入力された前記入力情報に基づいて、前記対象の前記方策を学習する中間層と、前記方策に関する出力情報を出力する出力層と、を有するコンピュータシステムと、
前記コンピュータシステムから出力された前記出力情報に基づいて、前記対象の行動に関する情報を出力する行動決定部と、を含み、
前記コンピュータシステムは、前記入力情報を物理的に変換し、前記対象の前記方策を学習する機能の少なくとも一部を実行する物理媒質を備え、
前記物理媒質の媒質内の相互結合に相当するΩは、相互結合を表す任意の行列であり、行列Ωのスペクトル半径αが０．６以上、１．２以下である、強化学習用演算装置。

【請求項2】

前記Ωは、以下のリングトポロジを反映し、前記リングトポロジの行列様式のスペクトル半径に相当するリング内の戻り光の利得αは、０．６以上、１．２以下の間で設定される、請求項１に記載の強化学習用演算装置。

【請求項3】

前記コンピュータシステムは、前記入力情報に基づいて前記対象の前記方策を決定するアクター部と、前記入力情報に基づいて前記状態の価値を推定するクリティック部と、を有する、請求項１に記載の強化学習用演算装置。

【請求項4】

前記アクター部として機能する第１のコンピュータシステムと、前記クリティック部として機能する第２のコンピュータシステムと、を含む、請求項３に記載の強化学習用演算装置。

【請求項5】

前記コンピュータシステムの前段に、前記入力情報を圧縮する前処理部を有する、請求項１から４のいずれか一項に記載の強化学習用演算装置。

【請求項6】

前記物理媒質は、非線形の光学素子である、請求項１から５のいずれか一項に記載の強化学習用演算装置。

【請求項7】

前記コンピュータシステムは、前記入力情報を前記物理媒質に対応して変換する入力変換部と、前記物理媒質から出力された前記出力情報を後に行われる演算処理に応じて変換する出力変換部と、前記出力変換部によって変換された前記出力情報に基づいて、強化学習に関する演算処理を実行する演算部と、前記演算部の演算結果に基づいて、前記対象の行動に関する情報を出力する、請求項１から６のいずれか一項に記載の強化学習用演算装置。

【請求項8】

対象がタスクを実行する際の方策を学習する強化学習用の演算方法であって、
情報を入力する入力層と、前記入力層に入力された入力情報に基づいて演算を実行する中間層と、前記演算の結果を出力する出力層と、を有するコンピュータシステムに対し、
前記入力層に前記対象の状態に関する入力情報を入力する工程と、
前記中間層が前記入力情報に基づいて前記対象の前記方策を学習する工程と、
前記学習によって得られた前記方策に関する情報に基づいて、前記対象の行動に関する情報を出力する工程と、を含み、
前記対象の前記方策を学習する工程においては、少なくとも一部が、前記入力情報を物理的に変換する物理媒質により実行されて、
前記物理媒質の媒質内の相互結合に相当するΩは、相互結合を表す任意の行列であり、行列Ωのスペクトル半径αが０．６以上、１．２以下である、
強化学習用演算方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、強化学習をするためのアルゴリズムを備えた強化学習用演算装置に関する。

【背景技術】

【0002】

近年、深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）を用いた深層強化学習の研究開発が進展している。深層ニューラルネットワークは、ゲームプレイ、ロボティクス、囲碁等と幅広い領域で、優れた学習性能を発揮することが報告されており、さまざまなタスクで方策の学習が可能な汎化性の高い手法が多く提案されている。一般的に、深層強化学習においては、時間ｔにおける状態をあらわす状態変数ｓ_ｔと、その際に取り得る行動である行動変数ａ_ｔ、その結果得られる報酬Ｒ_ｔを用いて、ある状態における行動及び状態の持つ価値である行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）、状態価値関数Ｖ（ｓ_ｔ）をニューラルネットワークの出力として算出し、方策を決定する。強化学習では、入力情報にセンサデータをはじめとした時系列的な情報を取り扱うことが多いため、ＬＳＴＭ（Long short-term memory）をはじめとしたリカレントニューラルネットワーク（Recurrent Neural Network：以下、「ＲＮＮ」とも記す）モデルを組み込むことが多い。一般的にその演算処理や学習コストは重いため、これらの処理負荷の低減が望まれている。

【0003】

ところで、近年、ＲＮＮの一種として、リザバーコンピューティング（Reservoir Computing（以下、「ＲＣ」とも記す）と呼ばれるモデルが提案されている。ＲＣは、入力情報が各々のニューロンに結合する入力層、各ニューロンが相互に結合する中間層、各ニューロンの信号を和算し出力する出力層からなる。このような構成は、例えば、特許文献１に記載されている。

【0004】

ＲＣは、入力層と中間層のネットワークを固定とし、学習に用いる変数を出力層の重み係数のみとしている点で一般的なＲＮＮと相違している。このようなＲＣの方式は、学習すべき変数を大幅に削減できるため、データが膨大かつ高速な処理を要する時系列学習に好適である。ＲＣは、ほとんどのノード間結合をランダムな写像で生成する。このランダム写像は計算機上で演算すると、ノード数の増加に伴い多くの計算リソースを必要とするし、計算機を含む演算システムを大規模化、高コスト化させる一因になる。この点を解消するため、写像を物理系で演算させる物理ＲＣと呼ばれる構成の研究実証が進んでいる。物理ＲＣによれば、物理素子に計算の一部をアウトソースできるため、低い演算リソースのデバイスでも効率的な学習が可能となる。物理ＲＣについては、例えば、特許文献２に記載されている。

【先行技術文献】

【非特許文献】

【0005】

【文献】Herbert, Jaeger. and Harald, Haas.(2 APRIL 2004). Harnessing nonlinearity: predicting chaotic systems and saving energy in wireless communication. VOL 304 Science.

【文献】Gouhei, Tanaka.et al.(2019). Recent advances in physical reservoir computing. Neural Networks.100-123.

【発明の概要】

【0006】

本開示は、演算処理量の大きい強化学習に対して物理ＲＣを適用し、効果的に演算リソースを低減し、効率の高い強化学習を実行する強化学習用演算装置、強化学習方法を提供することを目的とする。

【0007】

上記目的を達成するために本発明の一態様の強化学習用演算装置は、対象がタスクを実行する際の方策を学習する強化学習用の演算装置であって、対象の状態に関する入力情報を入力する入力層と、前記入力層に入力された前記入力情報に基づいて、前記対象の方策を学習する中間層と、前記方策に関する出力情報を出力する出力層と、を有するコンピュータシステムと、前記コンピュータシステムから出力された前記出力情報に基づいて、前記対象がとるべき行動に関する情報を出力する行動決定部と、を含み、前記コンピュータシステムは、前記入力情報を物理的に変換し、前記対象の方策を学習する機能の少なくとも一部を実行する物理媒質を備え、前記物理媒質の媒質内の相互結合に相当するΩは、相互結合を表す任意の行列であり、行列Ωのスペクトル半径αが０．６以上、１．２以下である。

【0008】

本発明の一態様の強化学習用演算方法は、対象がタスクを実行する際の方策を学習する強化学習用の演算方法であって、情報を入力する入力層と、前記入力層に入力された入力情報に基づいて演算を実行する中間層と、前記演算の結果を出力する出力層と、を有するコンピュータシステムに対し、前記入力層に前記対象の状態に関する入力情報を入力する工程と、前記中間層が前記入力情報に基づいて前記対象の前記方策を学習する工程と、
前記学習によって得られた前記方策に関する情報に基づいて、前記対象の行動に関する情報を出力する工程と、を含み、前記対象の前記方策を学習する工程においては、少なくとも一部が、前記入力情報を物理的に変換する物理媒質により実行されて、前記物理媒質の媒質内の相互結合に相当するΩは、相互結合を表す任意の行列であり、行列Ωのスペクトル半径αが０．６以上、１．２以下である。

【0009】

以上の態様によれば、演算処理量の大きい強化学習に対して物理ＲＣを適用し、効果的に演算リソースを低減し、効率の高い強化学習を実行する強化学習用演算装置、強化学習方法を提供することができる。

【図面の簡単な説明】

【0010】

【図1】一般的なＲＣモデルの形態を説明するための図である。

【図2】第１実施形態の強化学習用演算装置を有する演算システムのＲＣモデルを説明するための図である。

【図3】第１実施形態において利用される演算装置の構成の模式図である。

【図4】図３に示す演算装置のハードウェア構成を説明するための図である。

【図5】（ａ）、（ｂ）は、本発明の第２実施形態の強化学習用演算装置を説明するための図である。

【図6】本発明の第３実施形態の演算装置を説明するための図である。

【図7】（ａ）、（ｂ）は、本発明の一実施例の学習の状態を示すグラフである。

【図8】（ａ）は本実施例の前処理部を説明するための図である。（ｂ）は本実施例の学習の状態を示すグラフである。

【発明を実施するための形態】

【0011】

以下、本発明の第１実施形態、第２実施形態及び第３実施形態を説明する。なお、第１実施形態から第３実施形態は、本発明の技術思想、構成、手順等を例示し、その具体的な構成や条件及びパラメータ等を限定するものではない。先ず、本明細書は、第１実施形態、第２実施形態及び第３実施形態の説明に先立って、リザバーコンピューティング（Reservoir Computing(以下、「ＲＣ」とも記す)について説明する。

【0012】

図１は、一般的なＲＣモデルの形態を説明するための図である。図１に示すＲＣモデル１０は、入力情報である入力信号が各々のニューロンに結合する入力層Ｒｉ、各ニューロンが相互に結合する中間層Ｒｒ、各ニューロンの信号を和算し出力する出力層Ｒｏによって構成されている。本明細書では、入力信号が各々のニューロンに結合することを、「入力」とも記す。式（１）は、入力層Ｒｉに入力される入力信号ｕ（ｎ）を決定する式である。また、式（２）は、入力信号ｕ（ｎ）を入力層Ｒｉに入力した場合に出力層Ｒｏから出力される出力信号ｙ（ｎ）を決定する式である。

【数1】

【0013】

上記式（１）、式（２）において、Ｎはニューロンの数、ｘ_ｉ（ｎ）は時間ステップｎでのｉ番目のニューロンの状態であり、Ω_ｉｊ，ｍｉ，η_ｉ，ω_ｉはそれぞれ、ニューロン間の相互結合、入力信号のニューロンへの結合、出力信号から各ニューロンへのＦＢ（Feed Back）信号への結合、各ニューロンから出力信号への結合を表す係数である。また、ｆ（・）は各ニューロンでの非線形応答を表し、ｔａｎｈ（・）等が頻繁に用いられる。ＲＣネットワークと一般的なリカレントニューラルネットワーク（Recurrent Neural Network：以下、「ＲＮＮ」とも記す）との大きな違いは、入力層Ｒｉと中間層Ｒｒとのネットワークを固定とし、学習に用いる変数を出力層Ｒｏの重み係数のみとしている点である。ＲＣの方式は、学習すべき変数を大幅に削減できるため、データが膨大かつ高速な処理を要する時系列学習に対して大きなアドバンテージを有する。

【0014】

[第１実施形態]
（ＲＣによる強化学習（Ｑ学習））
図２は、第１実施形態の強化学習用の演算装置１１２を有する演算システムのＲＣモデル１０を説明するための図である。第１実施形態のＲＣモデル１０は、エージェント１１１、状態測定装置１１３、演算装置１１２及び行動制御装置１１４を有している。ＲＣモデル１０は、エージェント１１１があるタスクを実行する際の方策を、演算装置１１２にて学習する。時刻ｔにおけるエージェント１１１の状態はｓ_ｔで表され、エージェント１１１は状態ｓ_ｔに応じて複数の行動ａ_ｔをとり得る。エージェント１１１は、行動のａ_ｔの結果として報酬Ｒ_ｔを得る。状態ｓ_ｔは状態測定装置１１３によって測定される。また、行動ａ_ｔは、行動制御装置１１４によって方策に沿う行動ａ_ｔを実現すべく制御される。

【0015】

上記の構成の具体例として、例えば、多関節のロボットアームを制御するためのモデルが考えられる。ロボットアームの制御において、状態ｓ_ｔはロボットアームの各関節部のセンサーデータ（位置・角度・加速度など）に相当する。行動ａ_ｔは、ロボットアームを駆動する制御信号（回転量、変位量など）に相当する。報酬Ｒ_ｔは、ロボットアームが物を掴んだ場合、あるいは所望の動作を成しえた際にソフトウェア上で得る仮想的な値である。ロボットアームを制御するシステムにあっては、状態測定装置１１３は、例えば電流や電圧等のセンサデータを取得する電流計、電圧計といった装置に相当し、行動制御装置１１４は、電圧源や電流源等の駆動装置に相当する。

【0016】

また、図２に示す構成は、ゲームや将棋を学習することにも適用できる。このような学習のシステムにおいて、状態ｓ_ｔは画面や盤面の画像であり、行動ａ_ｔは取り得る一手に相当する。また、報酬Ｒ_ｔは、行動によって得られたポイント等に相当する。なお、第１実施形態の手法は、上記のタスクに依存する入力や制御量に依らず適応可能であり、上述以外のタスクにも広く利用できる。

【0017】

演算装置１１２は、状態ｓ_ｔ、行動ａ_ｔ及び報酬Ｒ_ｔの情報を基にエージェント１１１の行動を決定する。以下、その手法について説明する。図３は、第１実施形態において利用される演算装置１１２の構成の模式図である。演算装置１１２は、ＲＣアルゴリズム２１１と、行動決定アルゴリズム２１２を含んでいる。ＲＣアルゴリズム２１１は、ＲＣモデル１０を有し、ＲＣネットワークを使って強化学習を行っている。第１実施形態においては、状態測定装置１１３を介して測定された状態ｓ_ｔが、式（１）の時間ｔにおける入力信号ｕ（ｔ）とみなされて演算装置１１２に入力される。この信号は、ＲＣアルゴリズム２１１及び行動決定アルゴリズム２１２により、式（２）で記述される変換を受け、中間状態ｘ（ｔ）、最終出力ｙ（ｔ）へと変換される。ここで、ＲＣモデルの入力、出力の次元は状態ｓ_ｔと行動ａ_ｔの次元と等しくなるように設定されている。

【0018】

また、学習変数はωのみであり、その他の変数ｍ，Ωは後述する物理媒質１１５（図４）の構成に従って生成され、学習は行われない。第１実施形態は、これによって通常の深層学習モデルに比較し、少数パラメータで学習できるという優れた効果を有する。第１実施形態において、ＲＣアルゴリズム２１１は、ＲＣアルゴリズム２１１の出力ｙ（ｔ）が、状態ｓ_ｔにおける行動ａ_ｔの価値を表す指標である行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）となるように式（２）の変数ωの学習を行う。行動決定アルゴリズム２１２は、出力された行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）に基づいて行動ａ_ｔを決定し、行動ａ_ｔに関する情報として行動制御装置１１４に出力する。行動制御装置１１４は、行動ａ_ｔに基づいてエージェント１１１の行動を制御する。

【0019】

以上説明した構成においては、エージェント１１１が対象に相当し、状態に関する情報が状態ｓ_ｔに、方策に関する情報が行動ａ_ｔに相当する。状態ｓ_ｔはＲＣモデル１０の入力層Ｒｉに入力され、中間層Ｒｒにおいては状態ｓ_ｔに基づいてエージェントの行動ａ_ｔが学習される。学習の結果得られた行動ａ_ｔが行動決定アルゴリズム２１２に出力される。行動決定アリゴリズム２１２は、行動ａ_ｔのうちからエージェント１１１の行動ａ_ｔを決定し、行動ａ_ｔを行動制御装置１１４に出力する。ＲＣモデル１０は、ニューロンを模した計算処理のモデルであり、ＲＣアルゴリズム２１１は、ＲＣモデル１０に基づく計算処理を実現し、報酬Ｒ_ｔを含む行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を出力するためのプログラムである。行動決定アルゴリズム２１２は、ＲＣアルゴリズム２１１によって行われた処理結果からエージェント１１１の行動を決定するプログラムである。演算装置１１２は、このようなプログラムを含むソフトウェアと、プログラムを動作させるためのハードウェアとを含む概念である。第１実施形態において、ＲＣモデル１０はコンピュータシステムに相当する。

【0020】

また、上記構成は、エージェント１１１がタスクを実行する際の行動ａ_ｔを学習する強化学習用の演算方法を実行する。この強化学習用演算方法は、ＲＣモデル１０に対し、入力層Ｒｉに状態ｓ_ｔを入力する工程と、状態ｓ_ｔに基づいてエージェント１１１の行動ａ_ｔを学習する工程と、学習によって得られた行動ａ_ｔに基づいてエージェント１１１の行動に関する情報を出力する工程と、を含んでいる。そして、エージェント１１１の行動ａ_ｔを学習する工程においては、行動ａ_ｔの方策を学習する処理の少なくとも一部が、状態ｓｔを物理的に変換する物理媒質１１５により実行される強化学習用演算方法を実行する。

【0021】

学習は、例えば、次式（３）で定義されるＴＤ（Temporal Differential）誤差Ｌを最小化するように実行される。

【数2】

【0022】

上記式（３）において、γは割引率であり、将来の報酬をどれだけ割り引くかを示すハイパーパラメータである。典型的には、０．９９等の１より小さい数値を有し、且つ１に近い値を利用する。学習変数はωだけなので、

【数3】

【0023】

ここから、ωの勾配を例えば次式（５）で更新する。

【数4】

【0024】

ただし、式（５）中のλは学習率である。式（５）は単純な勾配降下法に基づいた更新則であるが、Adam-optimizerや確率的勾配降下法（Stochastic Gradient Descent：ＳＧＤ）など機械学習分野で用いられる種々の最適化アルゴリズムが利用可能である。また、式（３）では、１ステップ分のＴＤ誤差について求めたが、ｎステップ分のＴＤ誤差を求めてもよい。その場合は、コスト関数として、以下の式（６）を利用する。

【数5】

【0025】

式（６）中のｎを１より大きな値に設定することで、学習の安定性、収束性を高めることができる。ｎは１０以下の値であることが望ましい。式（６）中のωに対する偏微分を考えることで、式（５）、式（６）と同様に更新則を導出することができる。

【0026】

一般的な深層強化学習では、学習データのサンプリングには、データ系列をランダムにサンプリングする経験再生（Experimental replay）がしばしば用いられるが、第１実施形態はＲＮＮの一種であるＲＣモデルを利用しているため、このような方法は利用できない。これを避けるためには、一試行中の時系列データ（エピソード）をそのまま入力する手法や、エピソード内からある長さのデータを抽出するサンプリング手法及びエピソード内のある時刻を指定し、その事前データで内部状態を再現しておく手法等が利用可能である。なお、一試行中の時系列データ（エピソード）をそのまま入力する手法と、エピソード内からある長さのデータを抽出するサンプリング手法とは、例えば、Matthew, Hausknecht. and Peter, Stone. (11，Jan,2017). Deep recurrent q-learning for partially observable. MDPs.Austin.the University of Texas（以下、「参考文献１」とも記す）に記載されている。エピソード内のある時刻を指定し、その事前データで内部状態を再現しておく手法は、例えば、Steven, Kapturowski.et al. (2019）Recurrent experience replay in distributed reinforcement learning. Published as a conference paper at ICLR.（以下、「参考文献２」とも記す）に記載されている。

【0027】

行動決定アルゴリズムにおいては、例えばε－ｇｒｅｅｄｙ法が利用される。ε－ｇｒｅｅｄｙ法は、確率εである方策πに基づく行動を選定し、（１－ε）の確率で上記により算出された行動価値関数Ｑ（ｓ，ａ）が最も高い行動を選択する。方策πは、典型的には、一様な確率分布から生成され、すべての取り得る行動を一様に等しく選択するようにする。演算装置１１２は、式（１）で記述される数値演算に多くの計算リソースを要求するため、ネットワークの大規模化に従って電力や実行時間を要求する。第１実施形態は、図３におけるＲＣモデルのうち、式（１）に相当する演算を物理媒質１１５で演算する。

【0028】

物理媒質１１５は、例えば、入力情報を光として入力し、入力した光の振幅、波長、周波数といった物理的なパラメータを変換するものであってもよい。また、物理媒質１１５は、入力情報を電気信号として入力し、この値や周波数といった物理的なパラメータを変換するものであってもよい。さらに、入力情報として液体を入力し、この圧力や流量といった物理的なパラメータを変換するものであってもよい。変換は、パラメータの種別を変更することなく数値を変換することに限らず、他のパラメータへの変更も含む。学習は、状態ｓ_ｔに応じてタスクがより達成される可能性が高い行動ａ_ｔを選択することが可能になるように、行動に関する情報を蓄積、あるいは選別することを指す。

【0029】

図４は、式（１）に相当する演算を物理媒質１１５で演算する第１実施形態の演算装置１１２のハードウェア構成を説明するための図である。図４に示す演算装置１１２は、信号変換装置１１６，１１７、物理媒質１１５、電子演算装置１１９及び記憶部１１８を含んでいる。状態測定装置１１３からの入力情報ｓ_ｔは、信号変換装置１１６を介してディジタル的な情報からアナログ的な物理信号へと変換される。変換された物理信号は、物理媒質１１５へと入力される。ここで、物理信号とは、例えば電流、電圧、光強度等を指す。物理信号への変換は、物理媒質１１５の構成に応じた信号方式によって行うことが望ましい。物理媒質１１５における信号伝搬は、それぞれの系で定まる物理法則によって記述されるが、種々の物理系で式（１）と等価な演算が実行可能であることが、例えば、先に挙げた非特許文献１によって報告されている。

【0030】

物理媒質１１５を伝搬した信号は、信号変換装置１１７によって測定され、再びディジタル情報へと変換される。この測定信号は、式（１）におけるｘ（ｔ）と等価であるとみなせる。測定信号は、メモリやハードディスクなどからなる記憶部１１８に保持される。また、記憶部１１８には、式（２）から式（５）を実行するためのプログラムやパラメータも同時に定義、保存されている。測定信号、プログラム及びパラメータを含む情報は、ＣＰＵ（central Processing Unit）やＧＰＵ（Graphics Processing Unit）等を備える電子演算装置１１９に転送し、電子演算装置１１９は、式（２）から（５）を演算することで強化学習を実行する。このような構成により、第１実施形態は、信号伝搬中に式（１）を自動的に演算できるといった優れた効果を有する。また、このような構成の第１実施形態は、物理媒質１１５において式（１）に相当する演算を物理法則の中で自動的に実行するため、計算リソースの増加に関する課題を軽減、解決することができる。

【0031】

次に、第１実施形態の物理媒質１１５について説明する。物理媒質１１５は、公知のものでよく、第１実施形態は、物理媒質１１５に光回路を用いて演算する構成を用いた。このような光回路を用いる演算は、例えば、J, Bueno. et al. (2018). Reinforcement learning in a large-scale photonic recurrent neural network. Optica 5, 756-760 (以下、「参考文献３」とも記す)、L, Larger. et al, (2012) Photonic information processing beyond Turing: an optoelectronic implementation of reservoir computing. Optics express 20, 3241 (以下、「参考文献４」とも記す)、M, Nakajima. et al. (2021) Scalable reservoir computing on coherent linear photonic processor communications. physics.4. 20（以下、「参考文献５」とも記す）に記載されている。第１実施形態は、光通信用デバイスを介して１００Ｇｂｉｔ／ｓを超える高速な光の入出力が可能であるため、演算を高速に行うことができる。

【0032】

光を高速で入出力するため、信号変換装置１１６は、ディジタル・アナログ変換器（Digital-to-Analog Converter：ＤＡＣ）と光変調器によって構成され、ディジタル信号を光強度や光位相に変換し、光学的な物理媒質１１５に導入する。出力光を再びディジタル信号に変換する場合、信号変換装置１１７は、光受信機とアナログ・ディジタル変換器（Analog-to-Digital Converter：ＡＤＣ）とによって構成される。光学的な物理媒質１１５は、例えば参考文献３に記載のレンズ・ミラー・空間変調器からなる空間光学系でもよく、参考文献４に記載の光ファイバリングを利用する構成であってもよい。このような構成は、比較的装置が大型化する一方、参考文献５に記載のように、光集積回路を利用することによって小型の演算回路を集積することも可能である。

【0033】

物理媒質１１５は、非線形変換が可能なように、非線形の光学素子であることが好ましい。非線形素子は、例えば、物理媒質１１５を非線形光学材料（例えば、ＬｉＮｂＯ_３等）で構成する他、光増幅器の利得飽和を利用する構成等で実現される。第１実施形態では、物式（１）における行列Ωのスペクトル半径（行列の固有値の最大値）が０．８から１．２の範囲になるように物理媒質１１５を物理的に実装することが好ましい。このような構成により、第１実施形態は、カオス転移点付近での動作を実現でき、ＲＣの記憶を保持する性能を高めることができる。物理媒質１１５が利得媒質を含まない光学媒質である場合、カオス転移付近における動作とは、可能な限り光学損失を低減する構成によって実行される動作に相当する。なお、物理媒質１１５が、例えば増幅器のような利得媒質を含む構成である場合、利得を調整することによって記憶保持に係る機能を向上させることができる。

【0034】

また、第１実施形態は、式（１）で示した演算と等価の機能の全てを物理媒質１１５によって行うことに限定されるものではない。例えば、第１実施形態は、式（１）によって得られる結果の一部を物理媒質１１５によって行うものであってもよい。そして、式（１）によって表される演算の一部を電子演算装置１１９によって行うものであってもよい。より具体的には、例えば、式（１）に示す演算の一部を予め電子演算装置１１９等によって行ってもよい。このような事前の処理については、例えば、参考文献４に記載えている。参考文献４に記載の事前処理においては、式（１）の第二項の処理（入力マスク処理）を事前に実行し、その結果を物理媒質１１５への力信号としている。このような事前処理によれば、状態ｓ_ｔや中間状態ｘ（ｔ）の次元が大きい場合であっても、物理媒質１１５の実装が容易になる。

【0035】

また、物理媒質１１５の他の態様としては、例えば、ＲｅＲＡＭなどのメモリスタが挙げられる。このような態様は、抵抗セルを通過した電流の履歴に応じて抵抗値が変化するという物理現象を利用する構成である。この構成では、信号変換装置１１６、１１７にＤＡＣ／ＡＤＣを利用する。このような構成は、アナログ電子回路で実装されるため、インターフェイスの親和性が高く、小型化に有利である。このような構成は、例えば、Yanan, Zhong. et al. (2021). Dynamic memristor-based reservoir computing for high-efficiency temporal signal processing. Nature Communications 12:408.（以下、「参考文献６」と記す）に記載されている。また、メモリスタは、半導体プロセスで形成可能なため大規模なノードを構成しやすい点でも有利である。さらに、このような構成の他、磁性体回路や流体、ソフトマテリアルなども物理媒質１１５の態様として利用可能である。この点は、例えば、参考文献１にまとめられている。

【0036】

以上説明したように、第１実施形態は、演算処理量の大きい強化学習に対して物理ＲＣを適用し、効果的に演算リソースを低減することができる。このため、強化学習を実行する強化学習用演算装置の大型化、高コスト化を抑えることができる。あるいは、強化学習を実行する強化学習用演算装置の小型化により演算リソースに余裕が生じた場合には、さらに高度な演算処理を実行することができる。このような第１実施形態は、効率の高い強化学習を実行する強化学習用演算装置、強化学習方法を提供することができる。

【0037】

[第２実施形態]
（ＲＣによる強化学習（Actor-critic型））
次に、本発明の第２実施形態について説明する。第２実施形態の強化学習用演算装置は、方策πについて一様の確率で生成し、学習しない方式（方策オフ型学習）であったことに対し、方策πについても学習する態様（方策オン型学習）である点で相違する。方策オン型学習を行う第２実施形態は、第一実施形態よりも解の速い収束が可能である。

【0038】

図５（ａ）、図５（ｂ）は、第２実施形態の強化学習用の演算装置５１２、５１３を説明するための図である。図５（ａ）は、第２実施形態の強化学習用演算装置５１２の模式図である。図５（ｂ）は、図５（ａ）に示す演算装置５１２の変形例である演算装置５１３の模式図である。演算装置５１２は、二つのＲＣモデル１０ａ、１０ｂを有するＲＣアルゴリズム３１１と、行動決定アリゴリズム２１２と異なる行動を選定する行動決定アリゴリズム３１２を備える点で第１実施形態の演算装置１１２と相違する。

【0039】

図５（ａ）に示す第２実施形態の演算装置５１２における信号の流れは第１実施形態で説明した図２の演算装置１１２と同様である。ただし、演算装置５１２は、ＲＣネットワークの構成及び学習方法が演算装置１１２と異なっている。図５（ａ）に示す構成においては、状態測定装置１１３から入力された状態ｓ_ｔが、式（１）における入力信号ｕ（ｔ）として二つのＲＣモデル１０ａ、１０ｂにそれぞれ入力される。ＲＣモデル１０ａ、１０ｂの入力及び出力の次元は、状態ｓ_ｔ、行動ａ_ｔの次元とそれぞれ等しくなるように設定されている。ＲＣアルゴリズム３１１における学習変数は、ＲＣモデル１０ａ、１０ｂの各々の出力層の重みω_ａとω_ｃのみである。これによって、ＲＣアルゴリズム３１１は、通常の深層学習モデルに比較し、少数のパラメータを使って学習できるという利点がある。ＲＣモデル１０ａ、１０ｂは、各々が「アクター（Actor）」と「クリティック（Critic）」と呼ばれる異なる処理を実行する。

【0040】

ここで、アクターはエージェント１１１の取り得る方策を決定し、クリティックは状態測定装置１１３から出力される状態Ｓ_ｔから情報を集めることにより状態の価値を推定する。ＲＣアルゴリズム３１１は、アクター側の出力が方策を表す行動価値関数π（ｓ_ｔ，ａ_ｔ）となるように、また、クリティック側の出力が状態価値関数Ｖ（ｓ_ｔ）になるように学習を行う。

【0041】

演算装置３１０の行動決定アルゴリズム３１２は、実施の形態１とは異なり、アクター側で学習される方策πに基づいて図２に示したエージェント１１１の行動を選定する。行動の選定は、例えば、以下の式（７）、式（８）で定義されるアクター側とクリティック側のコスト関数Ｌ_ａ，Ｌ_ｃをそれぞれ最小化するように実行する。

【数6】

【0042】

式（７）、式（８）のω_ａ，ω_ｃに対する偏微分を考えることで、式（５），式（６）と同様に更新則を導出することができる。学習を安定化させるため、Ｌ_ｃについては以下の式（９）のようにｎステップ先まで考慮したコスト関数を用いてもよい。

【数7】

【0043】

式（９）において、ｎを１より大きな値に設定することで、学習の安定性、収束性を高めることができる。ｎは１０以下の値に設定することが望ましく、式（９）のω_ｃに対する偏微分を考えることで、式（５）、式（６）と同様に更新則を導出することができる。このような構成の演算装置３１０は、ＲＣモデル１０ａ、１０ｂを並列に２つ接続し、行動決定アルゴリズム２１２が方策に関する情報と価値に関する情報とを併せてエージェント１１１の行動を決定するようにすることによって実現できる。

【0044】

また、上記では、アクター側とクリティック側で異なるＲＣモデル１０ａ，１０ｂを利用していたが、図５（ｂ）のＲＣアルゴリズム４１１のように、入力層、中間層をシェアし、出力層のみ異なるように設定してもよい。これによって、ＲＣアルゴリズム４１１において同一の物理媒１１５質の計算結果を共有できるので、第１実施形態と同様に、１つのＲＣモデル１０を有する演算装置４１０でも演算の実行が可能となる。

【0045】

なお、図５（ａ）、図５（ｂ）に示すＲＣアルゴリズム３１１、４１１は、ハードウェアとして構成する場合、いずれも第１実施形態の図４に示す演算装置１１２と同様に、信号変換装置１１６，１１７、物理媒質１１５、記憶部１１８及び電子演算装置１１９を含むように構成される。

【0046】

［第３実施形態］
（ランダム畳み込み層の追加）
次に、本開示の第３実施形態を説明する。図６は、第３実施形態の演算装置６１２を説明するための図である。演算装置６１２は、第１実施形態の図２に示したＲＣアルゴリズム２１１、行動決定アルゴリズム２１２と共に、ＲＣアルゴリズム２１１の前段に設けられた前処理部６１３を有している。前処理部６１３は、ランダム畳み込み層とプーリング層による前処理をする機能を有し、状態測定装置１１３から出力される状態ｓ_ｔを状態ｓ_ｔ´に変換する。ＲＣアルゴリズム２１１は、状態ｓ_ｔ´に基づいてＲＣモデルの演算を実行する。

【0047】

前処理部６１３は、畳み込みを行うカーネルフィルタと、プーリングを行うカーネルフィルタの２つの層を持っている。畳み込みは、画像の小領域の部分の画素値に対し、この領域を１つの特徴料としてより小さい領域に圧縮する処理をいい、画像のデータ量を低減する処理である。プーリングは、画像を間引いてデータ量を低減する処理である。ランダム畳み込み層におけるカーネルフィルタの係数は、例えば［－１：１］区間の乱数テーブルによって生成され、その後学習はしない。したがって、第３実施形態では、ＲＣアルゴリズム２１１が第１実施形態、第２実施形態が状態ｓ_ｔを処理するのと同様に状態ｓ_ｔ´を処理することができる。第３実施形態は、ゲームや車載カメラといった画素数に対応する高次元な入力情報を扱う必要がある場合、予め畳み込みニューラルネットワークによって次元を圧縮し、ＲＣアルゴリズム２１１における処理量を低減することができる。

【実施例】

【0048】

（数値計算による検証）
上記の第１実施形態から第３実施形態を用いて行った強化学習の実施例について説明する。本実施例は、強化学習のテストで一般的に用いられるカートポール問題とよばれるタスクをコンピュータシミュレーション上で実行する。このタスクは、一次元空間中を移動する台車の位置を制御することで、台車の上に立つ棒を倒さないように制御することを目標とする。状態ｓ_ｔとしては、各時刻の台車の速度、位置、角度及び角速度が与えられる。行動ａ_ｔとしては、その時刻において棒が左右のどちらに動くかが選択できる。角度が±２０．９°以上傾く、あるいは±２．４以上位置が変わると失敗となり、－２００の報酬Ｒ_ｔを得る。それ以外の場合、各時刻において＋１の報酬Ｒｔを得る。このようなタスクを実装するために、本実施例は、実施形態２のアクターとクリティックの２つのＲＣモデルを有する演算装置を適用した。

【0049】

また、ＲＣモデルの物理媒媒質として、光学的な媒質を採用し、非線形関数として半導体光増幅器（Semiconductor Optical Amplifier：ＳＯＡ）の飽和挙動に基づくｔａｎｈ（）を利用している。入力結合ｍは、例えば、事前に演算してから物理媒質１１５に導入することとしており、［０：１］区間から一様乱数で生成している。物理媒質１１５はファイバベースで構築することを前提とし、媒質内の相互結合に相当するΩは次式のようなリングトポロジを反映したものとなっている。このような媒質は、例えば、Francois, Duport. et al.(2012). All-optical reservoir computing. Vol. 20, No. 20 / Optics Express, 22783-22795.（以下、「参考文献７」と記す）に記載されている。

【数8】

【0050】

リング内の戻り光の利得αは、Ωのスペクトル半径に概ね等しい。ＲＣモデル１０における学習は、式（７）、（９）記載の方法で実施される。式（９）のｎ、γをｎ＝５，γ＝０．９９とし、ＲＣモデル１０のノード数は６４とした。

【0051】

図７（ａ）、図７（ｂ）は、本実施例の学習の状態を示すグラフである。図７（ａ）は、横軸に試行回数、縦軸に継続して棒を倒さずにいたステップ数を示している。図７（ａ）中の実線は、本実施例のＲＣモデルを用いた学習を示す。破線は、比較のために３層の全結合ニューラルネットワークを用いて行った同様の学習の結果を示す。図７（ａ）から明らかなように、本実施例は、破線に比べて試行回数の少ないうちに棒を倒さずにいられるステップ数が上昇し、全結合ニューラルネットワークを用いるよりも収束が早い。さらに、ＲＣアルゴリズムによれば、学習変数はωのみであり、その他の変数は後述する物理媒質１１５により処理されるので、少ないパラメータで学習が可能である。

【0052】

図７（ｂ）は、リング内の戻り光の利得αと、収束するまでに要する試行回数の平均値との関係を示している。ここで、収束は、２００ステップまで棒を倒さずに保持することを５回連続で成功することと定義する。図７（ｂ）から明らかなように、αが１．２以上になると、収束までの試行回数が増えて、αが０．６から１．０までの間では収束にかかる試行回数が少なく、かつ安定している。この理由は、αが１．２を超えると光学媒質の挙動がカオス的になり、光学媒質のカオス転移点付近でＲＣアルゴリズムの性能が高まるという傾向を反映している。したがって、ＲＣアルゴリズムのスペクトル半径は、カオス転移点に至らない範囲で、かつ、なるべく大きな値を持つように設定することが望ましい。

【0053】

また、本実施例では、別の学習の例として、コンピュータゲームＰｏｎｇ（Atari社製）をタスクとし、コンピュータと対戦して勝利することを目的とする。ＲＣモデルでは、状態ｓ_ｔを第３実施形態で述べた前処理部で予め処理し、ＲＣモデルに入力する。図８（ａ）は、本実施例で使用した前処理部６１３を説明するための図である。図８（ｂ）は、学習の状態を示すグラフである。前処理部６１３は、複数の中間層３１３０、３１３１、３１３３を有する畳み込みフィルタ、プーリング層３１３５を有している。畳み込みフィルタの後段には、ＲＣモデル１０を有する演算装置が設けられている。中間層３１３０においては、８×８のカーネルフィルタ３１３７が、８４×８４×４の入力データに対し、４×４画素分ずつスライドしながら畳み込み処理を行う。中間層３１３１においては、４×４のカーネルフィルタ３１３２が、２０×２０×３２のデータに対し、２×２画素分ずつスライドして畳み込み処理が行う。中間層３１３３においては、３×３のカーネルフィルタ３１３４が、９×９×６４のデータに対し、１×１画素分ずつスライドして畳み込み処理が行う。この結果、畳み込み処理が行われる度に特徴マップが出力される。特徴マップは、プーリング層３１３５によって画素数を減じられた後、結合して結合層３１３６を構成する。

【0054】

学習は、式（７）、（９）に示す方法で行った。式（９）において、ｎ＝５，γ＝０，９９とし、ＲＣのノード数は４０００としている。図８（ｂ）の横軸は試行回数を示し、縦軸は得点差（コンピュータの得点から対象の得点を差し引いた値）を示している。得点差が「＋」である場合、対象が勝利したことを示している。図８（ｂ）から明らかなように、得点差は、試行回数が増えるにつれて大きくなり、以降安定して収束した。このような結果は、ゲームプレイのような比較的難しいタスクであっても本開示のＲＣモデルを使って学習することができることを示している。

【符号の説明】

【0055】

１０，１０ａ，１０ｂ・・・ＲＣモデル
１１１・・・エージェント
１１２，５１２，５１３，６１２・・・演算装置
１１３・・・状態測定装置
１１４・・・行動制御装置
１１５・・・物理媒質
１１６，１１７・・・信号変換装置
１１８・・・記憶部
１１９・・・電子演算装置
２１１，３１１，４１１・・・ＲＣアルゴリズム
２１２，３１２，４１２・・・行動決定アルゴリズム
６１３・・・前処理部
３１３０，３１３１，３１３３・・・中間層
３１３２，３１３４，３１３７・・・カーネルフィルタ
３１３５・・・プーリング層
３１３６・・・結合層

【図1】