特表2022-552452 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツングの特許一覧 ▶ コーニンクレッカ　フィリップス　エヌ　ヴェの特許一覧

特表2022-552452同変ポリシーを伴う物理環境相互作用

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5a
5b
5c
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-12-16

(54)【発明の名称】同変ポリシーを伴う物理環境相互作用

(51)【国際特許分類】

G06N 3/08 20060101AFI20221209BHJP

G06N 20/00 20190101ALI20221209BHJP

【ＦＩ】

G06N3/08

G06N20/00

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022515592

(86)(22)【出願日】2020-09-08

(85)【翻訳文提出日】2022-03-08

(86)【国際出願番号】 EP2020075107

(87)【国際公開番号】W WO2021048145

(87)【国際公開日】2021-03-18

(31)【優先権主張番号】19196681.1

(32)【優先日】2019-09-11

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

２．ＺＩＧＢＥＥ

(71)【出願人】

【識別番号】591245473

【氏名又は名称】ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング

【氏名又は名称原語表記】ＲＯＢＥＲＴＢＯＳＣＨＧＭＢＨ

(71)【出願人】

【識別番号】590000248

【氏名又は名称】コーニンクレッカフィリップスエヌヴェ

【氏名又は名称原語表記】ＫｏｎｉｎｋｌｉｊｋｅＰｈｉｌｉｐｓＮ．Ｖ．

【住所又は居所原語表記】ＨｉｇｈＴｅｃｈＣａｍｐｕｓ５２，５６５６ＡＧＥｉｎｄｈｏｖｅｎ，Ｎｅｔｈｅｒｌａｎｄｓ

(74)【代理人】

【識別番号】100095407

【弁理士】

【氏名又は名称】木村満

(74)【代理人】

【識別番号】100132883

【弁理士】

【氏名又は名称】森川泰司

(74)【代理人】

【識別番号】100148633

【弁理士】

【氏名又は名称】桜田圭

(74)【代理人】

【識別番号】100147924

【弁理士】

【氏名又は名称】美恵英樹

(74)【代理人】

【識別番号】110001690

【氏名又は名称】弁理士法人Ｍ＆Ｓパートナーズ

(72)【発明者】

【氏名】ハーマンミハエル

(72)【発明者】

【氏名】ウェリングマックス

(72)【発明者】

【氏名】ファンホーフヘルケ

(72)【発明者】

【氏名】ファンデルポールエリーゼ

(72)【発明者】

【氏名】ウォラルダニエル

(72)【発明者】

【氏名】オーリーフークフランスアドリアン

(57)【要約】

本発明は、ポリシーに従って物理環境と相互作用するコンピュータにより実施される方法（８００）に関する。ポリシーは、物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定する。ポリシーは、パラメータ集合によりパラメータ的に規定されたニューラルネットワークを含む。ニューラルネットワークは、観測可能状態から最終層入力を決定することと、最終層入力にニューラルネットワークの最終層を適用することとによりアクション確率を決定する。最終層は、最終層入力に同変基底重み行列集合の線形結合を適用することにより適用される。最終層入力の複数の既定の変換の集合に対して、各変換が最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらすという意味で基底重み行列は同変である。

【特許請求の範囲】

【請求項1】

ポリシーに従って物理環境と相互作用するコンピュータにより実施される方法であって、前記ポリシーが、前記物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定し、前記ポリシーが、パラメータ集合によりパラメータ的に規定されたニューラルネットワークを含み、前記ニューラルネットワークが、観測可能状態から最終層入力を決定するステップと、前記最終層入力に前記ニューラルネットワークの最終層を適用するステップとにより前記アクション確率を決定する、前記コンピュータにより実施される方法が、
前記ポリシーの前記パラメータ集合にアクセスするステップと、
前記ニューラルネットワークの前記最終層に対する基底重み行列集合を表す基底重み行列データを取得するステップであって、前記最終層入力の複数の既定の変換の集合に対して、各変換が、前記最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす、取得するステップと、
前記物理環境との相互作用を制御するステップであって、前記制御するステップが、
前記物理環境の前記観測可能状態を示すセンサデータを、１つ又は複数のセンサから取得するステップと、
前記最終層入力に前記基底重み行列集合の線形結合を適用するステップにより前記ニューラルネットワークの前記最終層を適用するステップを有する、前記観測可能状態に基づいて前記アクション確率を決定するステップであって、前記線形結合の係数が、前記パラメータ集合に含まれる、決定するステップと、
アクチュエータが決定された前記アクション確率に基づいて前記物理環境におけるアクションを実現することをもたらすアクチュエータデータを前記アクチュエータに提供するステップと、
を繰り返し行うことにより、制御するステップと、
を有する、コンピュータにより実施される方法。

【請求項2】

前記センサデータが、前記物理環境の画像を含む、
請求項１に記載のコンピュータにより実施される方法。

【請求項3】

特徴変換が、回転に対応し、及び／又は、特徴変換が、反射に対応する、
請求項２に記載のコンピュータにより実施される方法。

【請求項4】

前記センサデータが、１つ又は複数の更なるセンサ測定値を更に含む、
請求項２又は請求項３に記載のコンピュータにより実施される方法。

【請求項5】

前記最終層を適用するステップが、前記最終層入力に前記基底重み行列集合の更なる線形結合を適用するステップを更に有し、前記更なる線形結合の係数が、前記パラメータ集合に含まれる、
請求項１から請求項４のいずれか一項に記載のコンピュータにより実施される方法。

【請求項6】

前記最終層を適用するステップが、前記最終層入力に更なる基底重み行列集合の更なる線形結合を適用するステップを更に有し、前記最終層入力の複数の既定の変換の更なる集合に対して、各変換が、前記最終層入力に対して更なる基底重み行列出力の対応する更なる既定のアクション置換をもたらす、
請求項１から請求項５のいずれか一項に記載のコンピュータにより実施される方法。

【請求項7】

前記ニューラルネットワークの層の層入力が、前記観測可能状態のそれぞれの変換に対応した複数の特徴ベクトルを含み、前記層入力の特徴が、前記観測可能状態の並進移動に対応した特徴ベクトルにわたる平均プーリングにより決定される、
請求項１から請求項６のいずれか一項に記載のコンピュータにより実施される方法。

【請求項8】

観測された環境状態及びシステムにより実施される対応するアクションのシーケンスを示す相互作用データを取得するステップと、
相互作用の報酬を決定するステップと、
最終層入力に基底重み行列集合の線形結合を適用するステップによりニューラルネットワークの最終層を適用するステップを有する、前記観測された環境状態の前記シーケンスの観測された状態において、前記対応するアクションを選択するポリシーのアクション確率を決定するステップであって、前記線形結合の係数が、パラメータ集合に含まれる、決定するステップと、
決定された前記報酬と前記アクション確率とに基づいて期待報酬を上げるために前記パラメータ集合を調節するステップと、
を繰り返し行うことにより前記ポリシーに従って物理環境と相互作用することの前記期待報酬を最大化するために前記ポリシーの前記パラメータ集合を最適化するステップを有する、請求項１から請求項７のいずれか一項に記載のコンピュータにより実施される方法を使用して前記ポリシーに従って前記物理環境と相互作用する前記システムを構成する、コンピュータにより実施される方法。

【請求項9】

前記複数の既定の変換と対応する既定のアクション置換とから、前記基底重み行列集合を決定することにより前記基底重み行列集合を取得するステップを有する、
請求項８に記載のコンピュータにより実施される方法。

【請求項10】

初期重み行列を取得するステップと、前記初期重み行列に、対応するアクション置換の変換及び逆射を適用するステップと、前記変換された、及び置換された前記初期重み行列を一緒に加算するステップとにより基底重み行列を決定するステップを有する、
請求項９に記載のコンピュータにより実施される方法。

【請求項11】

決定された前記基底重み行列の集合を直交させるステップを更に有する、
請求項１０に記載のコンピュータにより実施される方法。

【請求項12】

ポリシーに従って物理環境と相互作用するためのコンピュータ制御されるシステムであって、前記ポリシーが、前記物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定し、前記ポリシーが、パラメータ集合によりパラメータ的に規定されたニューラルネットワークを含み、前記ニューラルネットワークが、観測可能状態から最終層入力を決定することと、前記最終層入力に前記ニューラルネットワークの最終層を適用することとにより前記アクション確率を決定する、前記システムが、
前記ポリシーの前記パラメータ集合にアクセスするためのデータインターフェースと、
前記物理環境の前記観測可能状態を示すセンサデータを、１つ又は複数のセンサから取得するためのセンサインターフェースと、
アクチュエータが前記物理環境におけるアクションを実現することをもたらすアクチュエータデータを前記アクチュエータに提供するためのアクチュエータインターフェースと、
前記ニューラルネットワークの前記最終層に対する基底重み行列集合を表す基底重み行列データを取得することであって、前記最終層入力の複数の既定の変換の集合に対して、各変換が、前記最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす、取得することと、前記物理環境との相互作用を制御することであって、前記制御することが、
前記物理環境の前記観測可能状態を示す前記１つ又は複数のセンサからのセンサデータを前記センサインターフェースを介して取得することと、
前記最終層入力に前記基底重み行列集合の線形結合を適用することにより前記ニューラルネットワークの前記最終層を適用することを有する、前記観測可能状態に基づいて前記アクション確率を決定することであって、前記線形結合の係数が、前記パラメータ集合に含まれる、決定することと、
前記アクチュエータが決定された前記アクション確率に基づいて前記物理環境におけるアクションを実現することをもたらす前記アクチュエータにアクチュエータデータを、前記アクチュエータインターフェースを介して提供することと、
を繰り返し行うことにより、制御することとをするプロセッササブシステムと、
を備える、システム。

【請求項13】

請求項１から請求項７のいずれか一項に記載のコンピュータにより実施される方法を使用してポリシーに従って物理環境と相互作用するコンピュータ制御されるシステムを構成するための訓練システムであって、前記訓練システムが、
前記ポリシーのパラメータ集合とニューラルネットワークの最終層に対する基底重み行列集合を表す基底重み行列データとにアクセスするためのデータインターフェースであって、最終層入力の複数の既定の変換の集合に対して、各変換が、前記最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす、データインターフェースと、
プロセッササブシステムとを備え、前記プロセッササブシステムが、
前記コンピュータ制御されるシステムにより実施される観測された環境状態及び対応するアクションのシーケンスを示す相互作用データを取得することと、
相互作用の報酬を決定することと、
前記最終層入力に前記基底重み行列集合の線形結合を適用することにより前記ニューラルネットワークの前記最終層を適用することを有する、前記観測された環境状態の前記シーケンスの観測された状態における、前記対応するアクションを選択する前記ポリシーのアクション確率を決定することであって、前記線形結合の係数が、前記パラメータ集合に含まれる、決定することと、
決定された前記報酬と前記アクション確率とに基づいて期待報酬を上げるように前記パラメータ集合を調節することと、
を繰り返し行うことにより前記ポリシーに従って前記物理環境と相互作用することの前記期待報酬を最大化するために前記ポリシーの前記パラメータ集合を最適化する、訓練システム。

【請求項14】

プロセッサシステムにより実行されたとき、請求項１に記載のコンピュータにより実施される方法を前記プロセッサシステムに実施させる命令と、
請求項１に記載の物理環境と相互作用するためのポリシーのパラメータ集合であって、前記ポリシーが、前記物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定し、前記ポリシーが、ニューラルネットワークを含み、前記ニューラルネットワークが、観測可能状態から最終層入力を決定することと、前記最終層入力に前記ニューラルネットワークの最終層を適用することとにより前記アクション確率を決定し、前記ニューラルネットワークの前記最終層が、前記最終層入力に基底重み行列集合の線形結合を適用することにより適用され、前記線形結合の係数が、前記パラメータ集合に含まれる、パラメータ集合と、
請求項１に記載の物理環境と相互作用するためのポリシーに対する基底重み行列集合を表す基底重み行列データであって、前記ポリシーが、前記物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定し、前記ポリシーが、ニューラルネットワークを含み、前記ニューラルネットワークが、観測可能状態から最終層入力を決定することと、前記最終層入力に前記ニューラルネットワークの最終層を適用することとにより前記アクション確率を決定し、前記ニューラルネットワークの前記最終層が、前記最終層入力に前記基底重み行列集合の線形結合を適用することにより適用される、基底重み行列データと、
のうちの１つ又は複数を表す一時的な、又は非一時的なデータを含む、コンピュータ可読媒体。

【請求項15】

プロセッサシステムにより実行されたとき、請求項８に記載のコンピュータにより実施される方法を前記プロセッサシステムに実施させる命令を表す一時的な、又は非一時的なデータを含む、コンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ポリシーに従って物理環境と相互作用するためのコンピュータ制御されるシステム、及び、対応するコンピュータにより実施される方法に関する。本発明は更に、このようなシステムを構成するための訓練システム、及び、対応するコンピュータにより実施される方法に関する。本発明は更に、上述の方法のうちの１つを実施するための命令、このようなポリシーのためのパラメータ、及び／又は、このようなポリシーのための基底重み行列データを含むコンピュータ可読媒体に関する。

【背景技術】

【0002】

物理環境と相互作用するためにコンピュータにより実施される方法を適用することがよく知られている。典型的には、センサデータが、１つ又は複数のセンサ、例えば、カメラ、温度センサ、圧力センサなどから取得され、コンピュータにより実施される方法が、センサデータに基づいてアクションを決定するために適用され、アクチュエータが、例えば、ロボットアームを動かすこと、自律的な車両の操縦又はブレーキシステムを有効化すること、又は、患者の体における介入型医療（ロボット）ツールの動きを制御することなどの、物理環境における決定されたアクションを実現するために使用される。アクションが決定される工程は、多くの場合、コンピュータ制御される相互作用のポリシーと呼ばれる。

【0003】

コンピュータ制御されるシステムはロボットシステムを含み、ここで、ロボットは、例えば外部デバイス又は埋め込まれた制御装置の制御下で、１つ又は複数のタスクを自動的に実施し得る。コンピュータ制御され得るシステムの更なる例は、車両及びそのコンポーネント、屋内電気機器、電力式工具、製造機械、人間補助装置、アクセス制御システム、ドローン、ナノロボット、及び、加熱制御システムである。様々なコンピュータ制御されるシステムは、例えば自律ロボット、自律エージェント、又はインテリジェントエージェントなどの環境において自律的に動作し得る。

【0004】

健康管理ロボット工学における、特に画像支援治療における例は、患者の解剖学的構造、閉塞、及び手術室機器を考慮しながら、患者の周囲におけるイメージングシステム（例えばＸ線、磁気共鳴、超音波システム）の運動を制御すること、例えば、限定されないが、肺の気管支における気管支鏡、又は、脈管内の脈管内超音波デバイスといった、管腔内における、又は管腔の外部における診断イメージングデバイスをロボット的に案内すること、処置する、及び／又は生物物理学パラメータを測定するために、Ｘ線又は超音波画像又は他の画像などに基づいて、対象物に向けて配備可能な、又は配備可能でない医療ツール（例えば、柔軟な、又は柔軟でない針、カテーテル、ガイドワイヤ、バルーン、ステントなど）を操縦することを有する。自律コンピュータ制御の一般的な健康管理の例は、複数のイメージング及び表示パラメータ（例えば、積分時間、コントラスト）、及び、現在の画像コンテンツに基づくＸ線又は超音波に対するフィルタの動的な調節である。

【0005】

興味深いことに幾つかの例においてポリシーを手作りすることが可能であるが、ポリシーとして、例えばニューラルネットワークといった機械学習可能モデルを使用することも可能である。このような機械学習可能モデルは、典型的には、特定のタスクに対して訓練され得るパラメータ集合によりパラメータ的に規定される。ＪｏｈｎＳｃｈｕｌｍａｎらによる「ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎＡｌｇｏｒｉｔｈｍｓ」（参照により本明細書に組み込まれ、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７０７．０６３４７において入手可能である）では、このようなポリシーを訓練するための方法が開示されている。この方法は、パラメータ集合が所与の報酬関数に関連して最適化される強化学習の分野からのものである。本方法は、環境との相互作用を通してデータをサンプリングすることと、サンプリングデータに基づいて（この場合においてニューラルネットワークの）パラメータを最適化することとを交互に行う。

【発明の概要】

【0006】

本発明の第１の態様によると、請求項１により規定される、ポリシーに従って物理環境と相互作用するためのコンピュータにより実施される方法が提案される。本発明の更なる態様によると、請求項８により規定される、ポリシーに従って物理環境と相互作用するシステムを構成するコンピュータにより実施される方法が提案される。更なる態様によると、それぞれ請求項１２及び請求項１３により規定された、物理環境と相互作用するためのコンピュータ制御されるシステム、及び、このようなシステムを構成するための訓練システムが提案される。本発明の他の態様によると、コンピュータ可読媒体が、請求項１４及び請求項１５により規定されるように提供される。

【0007】

当然に知られているように、様々な実施形態において、人工的ニューラルネットワークとしても知られるニューラルネットワークは、物理環境と相互作用するためのポリシーとして使用される。このようなニューラルネットワークポリシーは、パラメータ集合によりパラメータ的に規定される。パラメータ集合は、実際の、及び／又はシミュレーションによる相互作用の相互作用データに基づいて訓練される。特定のタスクを実施するように訓練されることにより、ポリシーは、そのパラメータ集合に従って物理環境と実際に相互作用するように、システムに配備される。このような相互作用中に、例えばカメラ画像といった環境の観測可能状態がポリシーに入力される。これに基づいて、アクションが、ロボットアームなどのアクチュエータにより環境において実現されるように選択される。アクションの集合は典型的には有限であり、例えば、ロボットアームは左、右、上、又は下に駆動される。強化学習においてよく見られるようにポリシー出力が、実施する１つのアクションを直接返す代わりに、それぞれのアクションを実施する複数のアクション確率を含むという意味で、ポリシーは推計学的である。

【0008】

本発明者らが気付いたように、相互作用が行われる（多くの場合に物理的な）環境は、どの観測された状態においてどのアクションが有益と想定されるかという観点から様々な対称性を示す。例えば、カメラ画像に基づいて左又は右に操縦することにより車線内に車両を維持するようにタスクを課された自律的な車両の制御システムでは、画像が水平に反転された場合、左に操縦すること、又は右に操縦することの望ましさは、同様に反転される。例えば回転、縦の又は対角線上の反転などを伴う観測された状態における様々な他の種類の対称性が同様に考えられる。観測可能状態の複数のセンサ測定結果は、対称性により異なる形態により影響を受け、例えば、自律的な車両が、カメラ画像及び左／右傾倒センサを使用する場合、水平鏡面対称性は、カメラ画像の水平反転、及び傾倒センサにより測定された角度のネゲーションに対応する。取り得る行動は、様々な手法により環境対称性により同様に影響を受け、例えば、幾つかのアクションがスワップされ、又は別様に置換されるとともに、他のアクションは特定の対称性による影響を全く受けない。概して、対称性は、観測可能状態集合に対する変換（多くの場合、線形変換）により、及び、取り得るアクションの集合の置換により表される。このような対称性は、更に、患者の体における幾つかの対称性（例えば、矢状面、前頭面、及び／又は横断面及び軸、中心軸の周りにおける骨の運動、臓器間の対称性－例えば、右肺及び左肺など）を考慮することにより、健康管理環境において、又は、手術室における手術現場の環境において見られる。この対称性は測定結果から直接検出され、又は、幾つかの対称性を読み取るための、それらの測定の結果の前処理後に見出される。

【0009】

本発明者らは、ポリシーを演算するニューラルネットワークにこのような対称性を組み込むことにより、はるかに効率的なポリシーが取得されることに気付いた。例えば、同じ期待累積報酬を伴う同じ品質のポリシーを取得するために、より少ないパラメータが必要とされる。代替的に、パラメータの個数を固定する場合、対称性を導入することは、ポリシーがより高い期待累積報酬を伴って取得されることを可能にする。ニューラルネットワークの訓練中に、データ効率が改善され、例えば、特定の品質のポリシーに到達するために必要とされる観測量は減らされる。物理（例えば非シミュレーション）環境にポリシーを適用する場合、後者は特に重要である。実際、ポリシーを学習するために必要なデータの量は非常に多くなり得る。また一方では、非シミュレーション環境において多くの観測データを取得することは典型的には困難であり、例えば相互作用期間は限られており、失敗は現実世界のコストを伴う。

【0010】

画像分類の分野では、ニューラルネットワークにおける対称性の使用は当然に知られている。例えば、Ｔ．Ｓ．Ｃｏｈｅｎ及びＭ．Ｗｅｌｌｉｎｇによる「ＧｒｏｕｐＥｑｕｉｖａｒｉａｎｔＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ」（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１６０２．０７５７６において入手可能であり、参照により本明細書に組み込まれる）では、回転した手書きされた数字に対して画像分類を実施することが示されている。並進移動、反射、及び回転を組み込むことにより、数字がどのように回転させられたかにかかわらず数字を認識することを効果的に学習するニューラルネットワークが取得される。しかし、画像分類と強化学習との間の重要な違いに起因して、このような知られた群同変畳み込みネットワークは、アクション確率を決定することに適さない。例えば、このようなニューラルネットワークの最終層は、画像がどのように回転させられたかにかかわらず同じ分類を出力する。上述のように、アクションを実施することの望ましさは入力の変換とともに変化するので、アクション確率を決定するとき、これは望ましくない。更に、標準的な群同変畳み込みネットワークは典型的には並進移動のもとでの画像の不変性に依存するのに対し、これらは通常、予測可能な手法により入力の並進移動に応答して変化することは想定されないので、これは多くの場合、アクション確率を決定するときに考慮する有用な種類の対称性ではない。

【0011】

しかし、興味深いことに、本発明者らは、検討中の物理環境の組み合わされた状態／アクション対称性が効果的に組み込まれ得る、より良い種類のニューラルネットワークを考え出した。一般的に、ニューラルネットワークは、複数の層を備える。アクション確率は、最終層入力からニューラルネットワークの最終層において決定され、ひいては観測可能状態から決定される。興味深いことに、様々な実施形態において、最終層は、注意深く規定された基底重み行列の集合の線形結合を適用することにより最終層入力に適用される。この線形結合の係数は、ニューラルネットワークパラメータ集合に含まれる。線形結合を適用することの出力は、アクション確率の一部又は全てに対する事前非線形性有効化を提供し、そこから、アクション確率が、例えばソフトマックスを使用して演算される。興味深いことに、これらの基底重み行列は、同変となるように規定されることにより組み合わされた状態／アクション対称性を組み込むように規定され、最終層入力の複数の既定の変換の集合に対して、各変換は最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす。

【0012】

例えば、最終層入力の変換は、行列Ｒ_θとして表された線形変換をされ、基底重み行列出力の置換は、行列Ｐ_θとして同様に表される。この場合において、基底重み行列Ｗは、組み込まれる各環境対称性θに対して同変関係Ｐ_θＷ＝ＷＲ_θを満たす。これは、ひいては、任意の最終層入力に対してＰ_θＷｚ＝ＷＲ_θｚであることを意味する。例えば、変換された最終層入力Ｒ_θｚを取得するために最終層入力ｚを変換することは、この場合において、未変換最終層入力ｚの元の基底重み行列出力Ｗｚのアクション置換Ｐ_θにより対応する基底重み行列出力ＷＲ_θｚが置換Ｐ_θＷｚになることをもたらす。

【0013】

各基底重み行列が同変となるように規定される場合、更に、このような基底重み行列の線形結合は同変であり、したがって、物理環境における対称性を守る。したがって、基底重み行列集合は、基底重み行列出力を提供するように効果的に制約され、以て、アクション確率がそれらから決定され、物理環境の対称性を反映する。対称性が効果的に考慮されるので、１つの観測された状態からの経験は、他の変換された状態におけるアクションを導出するために再使用される。特に、既存の畳み込みニューラルネットワークに見られるようなネットワークの視覚部だけでなく、探索も再使用され、このことは、報酬のスパース性に起因して強化学習において特に重要である。したがって、物理環境における対称性を反映することにより、特定の表現性を伴うニューラルネットワークを取得するために、より少ないパラメータが必要とされ、使用時と訓練時との両方において効率改善を提供する。

【0014】

興味深いことに、本明細書において説明されている技術は、例えば環境モデル又はシェイピングされた報酬対称性から対称性を学習することを必要とせずに適用され、代替的に、対称性は、ポリシー、環境モデル、又は報酬シェイピングの全体を指定することを必要とせずに、アプリオリに指定され、及び本明細書において開示されているように使用され得る。例えば、様々な知られたモデルベースのアプローチに見られるようなモデルを推測することは必要とされず、多くの可動部を含む関連する複雑なアーキテクチャを不要にする。

【0015】

より詳細には、基底重み行列出力のアクション置換に関連して、これらは典型的には物理環境の対称性に対応している。例えば、環境の画像の水平スワップといった物理環境の観測可能状態の特定の変換が、アクションの特定の置換が実施されることをもたらすことが想定され、例えば、画像により表された物理環境において第１のアクションを実施することが、スワップされた画像により表された物理環境において第２のアクションを実施することに対応する。アクション置換は予め規定され、例えば手動で規定される。アクション置換は、例えば基底重み行列を生成することにおける使用のためのニューラルネットワークを訓練するための入力として取得されるが、外部ソースから取得された基底重み行列に対する制約として暗示されてもよい。

【0016】

最終層入力の変換に関連して、これらは、様々な手法により物理環境の対称性を反映する。好ましくは、最終層入力は、例えば観測可能状態の複数の状態変換が与えられたとき、同変手法により観測可能状態から決定され、各状態変換は最終層入力に対応する変換をもたらす。最終層入力に対するこれらの変換は、次に上述のようにアクション置換に対応する。変換は典型的には予め規定され、例えばニューラルネットワーク設計の一部として手動で規定される。変換は、例えば基底重み行列集合を生成するために、ニューラルネットワークの訓練に対する入力として明示的に与えられてもよく、又は、外部ソースから取得された基底重み行列に対する制約として暗示されてもよい。

【0017】

例えば、物理環境は対称性、例えば鏡面対称性θを満たすと想定され、ここで、観測可能状態はアクション確率に対して同変であり、すなわち、観測可能状態ｘの各変換Ｑ_θｘは、アクション確率ｙの置換Ｐ_θｙに対応すると想定される。したがって、最終層入力は観測可能状態に対して、及びアクション確率に対して同変であるように規定され、最終層入力ｚの変換Ｒ_θは、観測可能状態ｘに対して、対応する最終層入力の変換Ｒ_θｚが変換された観測可能状態Ｑ_θｘに対する最終層入力に等しくなる手法により規定される。更に、上述のように、基底重み行列Ｗに対して、変換Ｒ_θは上述の置換Ｐ_θに対応し、例えばＰ_θＷ＝ＷＲ_θである。

【0018】

興味深いことに、対応する観測可能状態変換、最終層入力変換、及びアクション置換を含むことにより、ニューラルネットワーク全体が同様に同変を満たし、例えば、これらの変換及び置換に対応した環境対称性を反映したアクション確率を提供する。これは、以前の層がどの程度厳密に同変を保証するか（これに対しては幾つかの可能性が提示される）にかかわらず当てはまり得る。ネットワークにわたって対称性を維持することにより、特に効率的な学習及び正確な結果が取得される。

【0019】

例えば、最終層入力は、例えば「ＧｒｏｕｐＥｑｕｉｖａｒｉａｎｔＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ」に開示されている知られた群同変ニューラルネットワークの１つ又は複数の層を適用することにより、観測可能状態から決定される。例えば、並進移動及びスワップに対して不変な画像分類のために設計された知られたニューラルネットワークが使用される。このようなネットワークに対する入力の変換、例えば並進移動又はスワップは、層出力の対応する変換をもたらす。このような層出力は、本明細書において説明されているようにポリシーに対する最終層入力として使用され、ここで、環境対称性に対応した内部層出力の変換が、最終層の基底重み行列を規定するために使用される。これらの環境対称性は、典型的には並進移動を含まない。

【0020】

しかし、「ＧｒｏｕｐＥｑｕｉｖａｒｉａｎｔＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ」に開示されている群同変ニューラルネットワークを使用することは必要とされず、特に、「ＧｒｏｕｐＥｑｕｉｖａｒｉａｎｔＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ」において説明されているように並進移動を維持する内部層を使用することも必要ではない。一貫して、例が提供される。環境対称性を明示的に考慮する最終層入力を決定するためにニューラルネットワークを使用することさえ必要ではなく、例えば、ニューラルネットワークは、入力として観測可能状態及びそれらの変換を使用して訓練され、ここで、ニューラルネットワークは、変換された観測可能状態に適用されたときに同変手法により変換する最終層入力を決定するためにその損失関数を介してエンカレッジされる。実際、本明細書において説明されているように最終層を使用するだけで、観測可能状態変換に従って変換する最終層入力を提供するために、ニューラルネットワークを既に十分にエンカレッジする。

【0021】

最終層入力の厳密な変換及び対応するアクション置換にかかわらず、基底重み行列は様々な手法により規定される。例えば、基底重み行列は、行列として、最終層入力に対する内積として適用されるベクトル集合として、その他などとして表される。複数の基底重み行列は、例えば１つの入力及び／又は出力チャンネルに対する１つの部分行列から導出される。後述のように、基底重み行列は予め規定され、例えば、コンピュータにより、又は手動で事前に演算され、又は必要なときに演算される。いずれの場合においても、典型的には、基底重み行列のうちの少なくとも幾つかが、最終層の複数の出力に影響を与え、したがって、環境対称性がニューラルネットワークの可能な出力を制限するということを反映する。したがって、基底重み行列による複数の出力の影響は、異なる出力間のある種類の重みシェアリングと考えられ得、これにより、ニューラルネットワークのパラメータの個数の低減が達成される。

【0022】

基底重み行列は、変換及びアクション置換を反映した重み行列の空間全体に広がり得るが、興味深いことに、これが必須というわけではなく、基底重み行列集合は、例えばランダムにサンプリングされた部分空間といった、許容された基底重み行列の部分空間だけにわたって広がってもよい。これは、パラメータの個数の非常に大幅な低減を可能にし、特に、本例によらなければ基底重み行列の数は圧倒的に大きくなる。したがって、同変を維持し、ニューラルネットワーク層のパフォーマンスと表現性との間のトレードオフをもたらすことが可能である。

【0023】

上述の基底重み行列の線形結合は、ポリシーに従って物理環境と相互作用するときと、このような環境相互作用を実施するためのシステムを構成するとき、例えば訓練するときとの両方に適用される。両方の場合において、より少ないパラメータが、ニューラルネットワークの最終層に対して必要とされ、以て、ニューラルネットワークを訓練することと使用することとの両方の効率を高める。

【0024】

任意選択的に、変換及び置換を規定する環境対称性は数学的な群を形成し、例えば、環境対称性集合は、恒等対称性を含み、変換の合成について閉じており、結合律を満たし、逆元について閉じている。これらの性質は対称性に対する自然な性質であり、例えばポリシーが画像の９０度ぶんの１つの回転を反映しなければならない場合、繰り返される９０度ぶんの回転及び－９０度ぶんの回転を更に反映しなければならない。全対称群を考慮することにより、利用可能な対称性がモデルにより、より最適に使用される。

【0025】

任意選択的に、センサデータは、物理環境の画像を含む。様々な用途において、画像は、例えば自律的な車両に対する交通状況、医療ツールの医療環境、製造ロボットに対する中間生成物などの環境状態に関する有用な情報を提供する。画像は多くの場合、アクチュエータを使用して実施されるアクションのアクション置換に対応した、例えば回転又はミラーリングといった様々な対称性を示す。このような場合において、このような状態／アクション状態対称性を組み込むための本明細書において提供される技術の使用は特に効果的である。

【0026】

任意選択的に、特徴変換は物理環境の画像の回転に対応し、及び／又は、特徴変換は画像の反射に対応する。例えば、反射は、例えば画像又は３Ｄシーンの中心軸におけるミラーリングである。一実施形態において、特徴変換は画像の１８０度回転に対応している。一実施形態において、特徴変換集合は、９０度の回転、１８０度の回転、及び２７０度の回転を含む。一実施形態において、変換集合は、水平ミラーリングと縦ミラーリングとを含む。このような環境対称性は多くの場合、実際に発生し、したがって、ポリシーに対するニューラルネットワークに組み込むために特に有用である。

【0027】

任意選択的に、センサデータは、画像に加えて１つ又は複数の更なるセンサ測定値を含む。物理環境の対称性は、異なる手法によりこのような測定値に影響する。例えば、１つ又は複数の更なるセンサ測定値が、画像に影響を与える環境対称性のもとで不変であり、例えば、画像がスワップされるのに対し、温度測定結果は影響を受けない。しかし、興味深いことに、更に、１つ又は複数の更なるセンサ測定結果が入力画像とともに変化し、例えば、入力画像が水平にスワップするとき、水平面に対する角度の測定結果が反転される。興味深いことに、更に、更なるセンサ測定結果のこのような変換がニューラルネットワークにより考慮され、このようなセンサ測定結果がアクション確率を決定するために効果的に使用されることを可能にする。

【0028】

任意選択的に、最終層を適用することは、上述の元の線形結合は別として、基底重み行列集合の更なる線形結合を最終層入力に適用することを有する。更なる線形結合の係数は、元の線形結合の係数に加えてパラメータ集合に含まれる。例えば、実行される取り得るアクションの集合は、各々がアクション置換による影響を別々に受ける複数の部分集合を含む。例えば、アクションａ_１及びａ_２はアクション置換によりスワップされ、アクションａ_３及びａ_４は独立してスワップされる。このような場合において、ａ_１からａ_４を同時に演算するために基底重み行列集合を取得する代わりに、基底重み行列集合が取得され、次にこの基底重み行列集合がまずアクションａ_１及びａ_２の第１の部分集合に対する出力を演算し、次に、異なるパラメータ集合を使用してアクションａ_３及びａ_４の第２の部分集合に対する出力を更に演算するために適用される。以て、基底重み行列集合が再使用され得、それらを維持するために必要なストレージを減らし、適用可能な場合は更にそれらを演算するために必要な演算リソースを減らす。

【0029】

任意選択的に、最終層を適用することは、更なる基底重み行列集合の更なる線形結合を最終層入力に適用することを更に有する。更なる基底重み行列集合は、元の基底重み行列集合と同様に取得される。しかし、興味深いことに更なる基底重み行列集合は別の変換集合に対して同変であり、すなわち、最終層入力の複数の既定の変換のこの更なる集合に対して、各変換は、最終層入力に対する更なる基底重み行列出力の対応する更なる既定のアクション置換をもたらす。したがって、取り得るアクションの集合は、第１の部分集合であって、その第１の部分集合のアクション確率が元の基底重み行列集合を使用して決定される、第１の部分集合と、第２の部分集合であって、その第２の部分集合のアクション確率が更なる基底重み行列集合を使用して決定される、第２の部分集合とを含む。１つの基底重み行列集合全体が取り得るアクションの集合の両方に対してアクション確率を決定するために更に使用され得るが、興味深いことに、より少ない数の基底重み行列で十分であり、基底重み行列自体がより小さいので、異なる基底重み行列を使用することがより高効率となる。好ましくは、最終層入力は、上述のように元の変換集合と更なる変換集合との両方に対して同変である。

【0030】

任意選択的に、アクション確率を決定することは、少なくとも最終層入力に基底重み行列の線形結合を適用することの出力にソフトマックスを適用することを更に有する。基底重み行列の線形結合は、それぞれのアクションを実施することの相対的な望ましさを示す値を提供する。このような相対的な望ましさの値にソフトマックスを適用することにより、アクションにわたる確率分布が取得される。例えば、ソフトマックスは、基底重み行列の線形結合、及び、任意選択的に更に他の取り得るアクションの望ましさの値を提供する他の線形結合の出力に適用される。

【0031】

任意選択的に、最終層入力は、観測可能状態のそれぞれの変換に対応した複数の特徴ベクトルを含む。例えば、状態・アクション対称性に従って観測可能状態を変換することは、複数の特徴ベクトルの置換をもたらす。言い換えると、最終層入力の変換は、複数の特徴ベクトルの置換を含み、したがって比較的効果的に評価され得る。例えば、知られた群畳み込みニューラルネットワークは典型的にはこのタイプの特徴ベクトルを提供する。特徴ベクトルは、例えば１つの、最大で又は少なくとも２つの、又は、最大で又は少なくとも５つの特徴を含む。同様に、ニューラルネットワークの一部又は全ての他の層は、観測可能状態のそれぞれの変換に対応した複数の特徴ベクトルを含む。

【0032】

任意選択的に、最終層入力、又はより早期の層に対する入力の特徴は、観測可能状態の並進移動に対応した特徴ベクトルにわたる平均プーリングにより決定される。例えば、ニューラルネットワークの以前の層が、例えば「ＧｒｏｕｐＥｑｕｉｖａｒｉａｎｔＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ」に開示されているように、観測可能状態の並進移動と別の変換との両方を実施することに各々が対応した特徴ベクトルを提供する。様々な並進移動及び特定の他の変換に対応した特徴ベクトルが、他の変換に対する特徴ベクトルを取得するために平均プーリングされ、したがって、並進移動同変ニューラルネットワークの物体認識能力がより早期の層において使用されることを可能にするとともに、後の層に対する、より圧縮された入力を提供する。

【0033】

任意選択的に、複数のアクション確率は、アクション置換の各々のもとで不変な少なくとも１つのアクション確率と、アクション置換のうちの幾つかのもとで不変でない少なくとも１つのアクション確率とを含む。例えば、「左に動く」及び「右に動く」といった２つのアクションが、例えば入力画像をミラーリングすることに対応したアクション置換のもとでスワップされるのに対し、例えば「何もしない」といった別のアクションは、入力のこの変換により影響を受けない。興味深いことに、本明細書において提供される技術は、このような種類のアクション置換、及び、より概括的には、物理環境の対称性と１対１対応しない他の種類のアクション置換を表すために十分に強力である。

【0034】

任意選択的に、更なる基底重み行列が、ニューラルネットワークの更なる層に対して取得される。特に、ニューラルネットワークの更なる層に対する更なる基底重み行列の集合が取得され、ここで、複数の既定の変換の集合からの変換に従って更なる層入力を変換することは、更なる層入力に対する更なる基底重み行列出力の対応する既定の変換をもたらす。この更なる層を評価するために、更なる基底重み行列の集合の線形結合が、更なる層入力に適用される。例えば、更なる層入力及び更なる層出力の変換は、上述のように、最終層入力と同様に物理環境の対称性に対応する。ニューラルネットワークの他の層、好ましくはニューラルネットワークの全ての層における基底重み行列の線形結合を使用することにより、ニューラルネットワークのパラメータ集合のより良い低減が達成される。

【0035】

任意選択的に、ポリシーを訓練するとき、言い換えると、そのパラメータ集合を最適化するとき、最終層に対する基底重み行列集合は、複数の既定の変換及び対応する既定のアクション置換から自動的に決定される。更なる層に対する基底重み行列の更なる集合は、同様に自動的に決定される。幾つかの例において、手動で基底重み行列集合を決定することが可能であるが、特に、より大きい層サイズ及び／又はより多くの対称性に対して、このような手動演算は実行不可能な場合があり、何度も実施されることが煩わしいものであり得る。より大きい層サイズに対して、例えば同変を提供するが可能な同変の集合全体に及ぶとは限らない基底重み行列集合といった、近似的な基底重み行列集合が決定され、したがって、同変に影響を与えずにパラメータの個数の更なる低減を提供する。

【0036】

最終層に対する基底重み行列集合を決定することは、様々な実施形態において、最終層入力の各変換Ｒ_θ、及び基底重み行列出力の各置換Ｐ_θに対して、及び他の層に対して同様に、式Ｐ_θＷ＝ＷＲ_θを満たす重み行列Ｗの集合を決定することと表現される。式Ｐ_θＷ＝ＷＲ_θは、一般的な技術を使用して解かれ得るＷの要素における線形系をもたらす。同様の式が他の層に対して規定され得る。

【0037】

任意選択的に、基底重み行列は、初期重み行列Ｗを取得することと、対応するアクション置換の変換及び逆射を初期重み行列に適用することと、変換された、及び置換された初期重み行列を一緒に加算することとにより取得される。特に、線形変換Ｐ_θ、Ｒ_θに対して、本発明者らは、Ｗ’＝Σ_θＰ_θ ^－１ＷＲ_θを演算することが、Ｐ_θ、Ｒ_θの各々に関連した同変関係Ｐ_θＷ＝ＷＲ_θを満たす重み行列を提供することに気付いた。したがって、候補基底重み行列が取得される。任意選択的に、この手法により取得された候補基底重み行列集合は、基底重み行列を直交させること、例えば、基底重み行列をベクトル化すること、ベクトル化された基底重み行列を正規直交化すること、及び、正規直交化されたベクトル化された基底重み行列を非ベクトル化することにより更に改良される。したがって、ランダム化された手法により、基底重み行列集合全体の良い表現を提供する基底重み行列集合が取得される。

【0038】

任意選択的に、パラメータ集合は、ポリシー勾配アルゴリズムを使用して最適化される。例えばＪｏｈｎＳｃｈｕｌｍａｎらによる「ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎＡｌｇｏｒｉｔｈｍｓ」に開示されているＰＰＯ法といった様々なポリシー勾配技術が、本明細書において提供されるニューラルネットワークと組み合わされる。ニューラルネットワークにおける状態／アクション対称性の組み込み、及び、結果として得られるパラメータの個数の低減を理由として、本明細書において提供される技術は、ポリシー勾配アルゴリズムに対するデータ効率における大幅な改善を可能にする。ＰＰＯはいわゆるモデルフリー強化学習技術であるが、本明細書において説明されている技術はモデルベースの強化学習にも適用可能であることに留意されたい。

【0039】

上述の実施形態、実施態様、及び／又は本発明の任意選択的な態様のうちの２つ以上が、有用と考えられる任意の手法により組み合わされてもよいことが当業者により理解される。

【0040】

対応するコンピュータにより実施される方法の説明されている変更例及び変形例に対応した任意のシステム及び／又は任意のコンピュータ可読媒体の変更例及び変形例が、本説明に基づいて当業者により実行されてもよい。

【0041】

本発明のこれらの態様及び他の態様は、以下の説明において例示として添付図面を参照しながら説明される実施形態から明確にされ、及び、その実施形態を参照しながら説明される。

【図面の簡単な説明】

【0042】

【図1】ポリシーに従って物理環境と相互作用するためのコンピュータ制御されるシステムを示す図である。

【図2】ポリシーに従って物理環境と相互作用するコンピュータ制御されるシステムを構成するための訓練システムを示す図である。

【図3】物理環境、この場合において自律的な車両と相互作用するためのコンピュータ制御されるシステムを示す図である。

【図4】物理環境と相互作用するためのポリシーのニューラルネットワークの詳細な例を示す図である。

【図5a】観測可能状態の変換の一例を示す図である。

【図5b】最終層入力の変換の一例を示す図である。

【図5c】実施されるアクションのアクション置換の一例を示す図である。

【図6】ポリシーに従って物理環境と相互作用するコンピュータにより実施される方法を示す図である。

【図7】ポリシーに従って物理環境と相互作用するシステムを構成するコンピュータにより実施される方法を示す図である。

【図8】データを含むコンピュータ可読媒体を示す図である。

【発明を実施するための形態】

【0043】

図は概略的なものに過ぎず、一定の縮尺で描かれないことに留意されなければならない。図中、既に説明されている要素に対応した要素は、同じ参照符号を付されている場合がある。

【0044】

図１は、ポリシーに従って物理環境０８１と相互作用するためのコンピュータ制御されるシステム１００を示す。ポリシーは、物理環境０８１の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定する。ポリシーは、パラメータ集合０４０によりパラメータ的に規定されたニューラルネットワークを含む。ニューラルネットワークは、観測可能状態から最終層入力を決定することと、最終層入力にニューラルネットワークの最終層を適用することとによりアクション確率を決定する。システム１００は、データ通信１２１を介して内部通信するデータインターフェース１２０及びプロセッササブシステム１４０を備える。データインターフェース１２０は、ポリシーのパラメータ集合０４０にアクセスするためのものである。データインターフェース１２０は、後述のように基底重み行列データ０３０にアクセスするためのものである。パラメータ集合０４２及び／又は基底重み行列データ０３０は、例えば図２のシステム２００により本明細書において説明されている方法に従って決定される。

【0045】

プロセッササブシステム１４０は、システム１００の動作中に、及びデータインターフェース１２０を使用して、データ０３０、０４０にアクセスするように構成される。例えば、図１に示されているように、データインターフェース１２０は、データ０３０、０４０を備える外部データストレージ０２１へのアクセス１２２を提供する。代替的に、データ０３０、０４０は、システム１００の一部である内部データストレージからアクセスされる。代替的に、データ０３０、０４０は、別のエンティティからネットワークを介して受信される。例えば、システム１００が構成されている間、データ０３０、０４０は、例えば、それぞれの環境相互作用に対して複数回にわたって図２のシステム２００から取得される。概して、データインターフェース１２０は、例えばローカルエリアネットワーク又は広域ネットワーク、例えば、インターネットへのネットワークインターフェース、内部又は外部データストレージへのストレージインターフェースなどの様々な形態をとる。データストレージ０２１は、任意の知られた及び適切な形態をとる。

【0046】

システム１００は、物理環境の観測可能状態を示す例えばカメラ０７１といった１つ又は複数のセンサからのセンサデータ１２４を取得するための、画像入力インターフェース１６０又は任意の他の種類の入力インターフェースを含む。例えば、カメラは画像データ１２４を捕捉するように構成され、プロセッササブシステム１４０が入力インターフェース１６０からデータ通信１２３を介して取得された画像データ１２４に基づいて観測可能状態を特定するように構成される。入力インターフェースは、様々な種類のセンサ信号が環境及び／又はデバイス１００自体の物理量、及びそれらの組み合わせ、例えばビデオ信号、レーダー／ＬｉＤＡＲ信号、超音波信号などを示すように構成される。

【0047】

幾つかの実施形態において、センサは環境０８１に配置される。他の例において、例えば量が遠隔から測定され得る場合、センサは環境０８１から遠隔に配置される。例えば、カメラベースのセンサは環境０８１の外部に配置されるが、それにもかかわらず、例えば環境における物理的実体の位置及び／又は配向といった環境に関連した量を測定する。センサインターフェース１８０は、他の場合から、例えばデータストレージ又はネットワーク位置からセンサデータに更にアクセスする。センサインターフェース１８０は、例えばＩ２Ｃ又はＳＰＩデータ通信に基づく低レベル通信インターフェースだけでなく、データストレージインターフェース、例えばメモリインターフェース又は永続的なストレージインターフェース、又は、パーソナル、ローカル、又は広域ネットワークインターフェース、例えば、Ｂｌｕｅｔｏｏｔｈ、ＺｉｇＢｅｅ、又はＷｉ－Ｆｉインターフェース、又はイーサネット、又は光ファイバーインターフェースを包含するがこれらに限定されない任意の適切な形態をもつ。センサは、システム１００の一部である。

【0048】

システム１００は、アクチュエータがシステム１００の物理環境０８１におけるアクションを実現することをもたらすアクチュエータデータをアクチュエータに提供するためのアクチュエータインターフェース１８０を備える。例えば、プロセッササブシステム１４０は、本明細書において説明されているようにポリシーにより決定されたアクション確率に少なくとも部分的に基づいてアクチュエータデータを決定するように構成される。例えば、ポリシーは、例えば衝突リスクといった例外的な状態を検出し、これに基づいて、例えばブレーキといった安全システムが有効化される。それぞれのアクションを実施する複数のアクチュエータが更に存在し得る。アクチュエータは、電気的な、液圧式の、空気圧式の、熱的な、磁気的な、及び／又は機械的なアクチュエータであってもよい。具体的な、しかし非限定的な例は、電気モーター、電気活性ポリマー、液圧式シリンダー、圧電アクチュエータ、空気圧式アクチュエータ、ソレノイド、ステッピングモーター、サーボ機構などを包含する。アクチュエータはシステム２００の一部である。

【0049】

プロセッササブシステム１４０は、システム１００の動作中に、及びデータインターフェース１２０を使用して、ニューラルネットワークの最終層に対する基底重み行列集合を表す基底重み行列データ０３０を取得するように構成され、ここで、最終層入力の複数の既定の変換の集合に対して、各変換が、最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす。プロセッササブシステム１４０は、センサインターフェース１６０を介して物理環境の観測可能状態を示す１つ又は複数のセンサからのセンサデータを繰り返し取得することと、アクション確率を決定することと、アクチュエータが決定されたアクション確率に基づいて物理環境におけるアクションを実現することをもたらすように、アクチュエータにアクチュエータデータ１２６をアクチュエータインターフェース１８０を介して提供することとにより物理環境との相互作用を制御するように更に構成される。プロセッササブシステム１４０は、最終層入力に基底重み行列集合の線形結合を適用することによりニューラルネットワークの最終層を適用することを有して、観測可能状態に基づいてアクション確率を決定するように構成され、線形結合の係数はパラメータ集合に含まれる。

【0050】

システム１００の動作の様々な詳細事項及び態様が、その任意選択的な態様を含め、図３及び図４を参照しながら更に説明される。

【0051】

概して、システム１００は、例えばワークステーション、例えばラップトップ、又はデスクトップベースのもの、又はサーバーといった１つのデバイス又は装置として、又は１つのデバイス又は装置において具現化される。デバイス又は装置は、適切なソフトウェアを実行する１つ又は複数のマイクロプロセッサを備える。例えば、プロセッササブシステムは、１つの中央処理ユニット（ＣＰＵ）により具現化されてもよく、このようなＣＰＵ及び／又は他のタイプの処理ユニットの組み合わせ又はシステムにより具現化されてもよい。ソフトウェアは、ダウンロードされたもの、及び／又は、例えば揮発性メモリ、例えばＲＡＭ、又は不揮発性メモリ、例えばフラッシュといった対応するメモリに記憶されたものであってもよい。代替的に、システムの機能ユニット、例えばデータインターフェース及びプロセッササブシステムは、例えばフィールドプログラマブルゲートアレイ（ＦＰＧＡ）及び／又はグラフィックス処理ユニット（ＧＰＵ）としてプログラム可能論理部の形態によりデバイス又は装置において実現される。概して、システムの各機能ユニットは回路の形態により実現される。システム１００は、例えばクラウドコンピューティングの形態をとる例えば分散型サーバーといった、例えば異なるデバイス又は装置を伴う分散した手法により実現されてもよいことに留意されたい。

【0052】

図２は、本明細書において説明されているようにポリシーに従って物理環境と相互作用するコンピュータ制御されるシステムを構成するための訓練システム２００を示す。例えば、訓練システム２００は、システム１００を構成するためのものである。訓練システム２００及びシステム１００は、１つのシステムに組み合わされてもよい。

【0053】

訓練システム２００は、データ通信２２１を介して内部通信するデータインターフェース２２０とプロセッササブシステム２４０とを備える。データインターフェース２２０は、ポリシーのパラメータ集合０４０にアクセスするためのものである。データインターフェース２２０は、ニューラルネットワークの最終層に対する基底重み行列集合を表す基底重み行列データ０３０にアクセスするためのものでもあり、ここで、最終層入力の複数の既定の変換の集合に対して、各変換が、最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす。

【0054】

プロセッササブシステム２４０は、システム２００の動作中に、及びデータインターフェース２２０を使用して、データ０３０、０４０にアクセスするように構成される。例えば、図２に示されているように、データインターフェース２２０は、データ０３０、０４０を含む外部データストレージ０２２に対するアクセス２２２を提供する。代替的に、データ０３０、０４０は、システム２００の一部である内部データストレージからアクセスされる。代替的に、データ０３０、０４０は、別のエンティティからネットワークを介して受信されてもよい。概して、データインターフェース２２０は、例えば、ローカルエリアネットワーク又は広域ネットワーク、例えばインターネットへのネットワークインターフェース、内部又は外部データストレージへのストレージインターフェースなどの様々な形態をとる。データストレージ０２２は、任意の知られた及び適切な形態をとる。

【0055】

プロセッササブシステム１４０は、システム１００の動作中に、及びデータインターフェース１２０を使用して、相応に環境と相互作用することの期待報酬を最大化するように、ポリシーのパラメータ集合０４０を最適化するように構成される。パラメータ集合を最適化するために、プロセッササブシステム１４０は、構成されるコンピュータ制御されるシステムにより実施される観測された環境状態及び対応するアクションのシーケンスを示す相互作用データを繰り返し取得することと、相互作用の報酬を決定することと、観測された環境状態のシーケンスの観測された状態における、対応するアクションを選択するポリシーのアクション確率を決定することと、決定された報酬とアクション確率とに基づいて期待報酬を上げるためにパラメータ集合０４０を調節することとをするように構成される。ニューラルネットワークの最終層を適用するために、プロセッササブシステム１４０は、最終層入力に基底重み行列集合０３０の線形結合を適用し、線形結合の係数はパラメータ集合０４０に含まれる。

【0056】

システム２００は、例えばシステム１００といった構成されるシステムとの通信のために構成された通信インターフェース（図示されていない）を更に備える。例えば、システム２００は、通信インターフェースを介して他のシステムの１つ又は複数の環境相互作用の相互作用データを取得する。相互作用データは、パラメータ集合を最適化する前に、及び／又はパラメータ集合を最適化している間に取得される。後者の場合において、システム２００は、他のシステムに現在のポリシーに従って環境と相互作用させるために、他のシステムにポリシーの現在のパラメータ集合０４０を更に提供する。例えば、ＵＳＢ、ＩＥＥＥ１３９４、又は同様のインターフェースを使用した、又は、コンピュータネットワーク、例えば、無線パーソナルエリアネットワーク、インターネット、イントラネット、ＬＡＮ、ＷＬＡＮなどを介した、他のシステム２００との直接的な通信のために様々な知られた種類の通信インターフェースが使用され、例えば構成される。通信インターフェースは、内部通信インターフェース、例えば、バス、ＡＰＩ、ストレージインターフェースなどであってもよい。

【0057】

システム２００の動作の様々な詳細事項及び態様が、その任意選択的な態様を含め、図３及び図４を参照しながら更に説明される。

【0058】

概して、システム２００は、例えばワークステーション、例えばラップトップ、又はデスクトップベースのもの、又はサーバーといった１つのデバイス又は装置として、又は１つのデバイス又は装置において具現化される。デバイス又は装置は、適切なソフトウェアを実行する１つ又は複数のマイクロプロセッサを備える。例えば、プロセッササブシステムは、１つの中央処理ユニット（ＣＰＵ）により具現化されてもよく、このようなＣＰＵ及び／又は他のタイプの処理ユニットの組み合わせ又はシステムにより具現化されてもよい。ソフトウェアは、ダウンロードされたもの、及び／又は、例えば揮発性メモリ、例えばＲＡＭ、又は不揮発性メモリ、例えばフラッシュといった対応するメモリに記憶されたものであってもよい。代替的に、システムの機能ユニット、例えばデータインターフェース及びプロセッササブシステムは、例えばフィールドプログラマブルゲートアレイ（ＦＰＧＡ）及び／又はグラフィックス処理ユニット（ＧＰＵ）としてプログラム可能論理部の形態によりデバイス又は装置において実現される。概して、システムの各機能ユニットは回路の形態により実現される。システム２００は、例えばクラウドコンピューティングの形態をとる例えば分散型サーバーといった、例えば異なるデバイス又は装置を伴う分散した手法により実現されてもよいことに留意されたい。

【0059】

図３は、例えば図１のシステム１００（独立して図示されていない）といった一実施形態によるポリシーに従って物理環境と相互作用するためのシステムを備える車両６２を制御するための自動車制御システム３００が示されるという点で、上述の一例を示す。車両６２は自律車両又は半自律車両であるが、これが必須というわけではなく、例えばシステム３００は非自律車両６２の運転手支援システムであってもよい。例えば、車両６２は、カメラ０７１から取得された画像に基づいて車両を制御するための相互作用システムを組み込んでいる。例えば、自動車制御システム３００は、カメラ０７１から車両の環境０８１の画像を取得するためのカメラインターフェース（独立して図示されていない）を備える。

【0060】

制御システム３００は、アクチュエータが物理環境０８１において車両６２を制御するためのアクションを実現することをもたらすアクチュエータデータをアクチュエータに提供するためのアクチュエータインターフェース（独立して図示されていない）を更に備える。自動車制御システム３００は、ポリシーにより決定されたアクション確率に基づいて車両６２を制御するためにアクチュエータデータを決定するように、及び、アクチュエータインターフェースを介してアクチュエータにアクチュエータデータを提供するように構成される。例えば、アクチュエータは、車両の操縦及び／又はブレーキ制動を制御させられる。例えば、制御システムは、車輪４２を回転させることにより車両６２の操縦を制御又は支援する。例えば、車輪４２は、車線内に車両６２を維持するために左又は右に回転させられる。ポリシーは、この場合において水平スワップのもとで同変であるように構成され、例えばカメラ画像０７１が水平にスワップされた場合、ホイールを左向きに又は右向きに回転させるアクションが置換される。

【0061】

図４は、物理環境と相互作用するためのポリシーのニューラルネットワークＮＮ４００の詳細だが限定ではない例を示す。例えば、ニューラルネットワークＮＮは、図１のシステム１００において、及び／又は図２のシステム２００において適用される。

【0062】

図に示されるように、ニューラルネットワークＮＮは、それぞれのアクションの複数のアクション確率ＡＰ１４９１からＡＰｎ４９２までを決定するように構成される。例えば２つ、３つ、最大で又は少なくとも５つの、又は最大で又は少なくとも１０個といった様々な数のアクション確率が可能である。各アクションは、例えば、「左に動く」、「右に動く」、「上に動く」、「下に動く」などの特定のアクションを実施するために１つ又は複数のアクチュエータに提供される信号に対応する。アクションのうちの１つは、例えば物理環境に影響を与えないアクションといったノーオペレーションである。ニューラルネットワークＮＮは、例えばソフトマックス関数により、アクション確率が合計で１になる手法によりアクション確率を決定するように構成される。

【0063】

ニューラルネットワークＮＮは、物理環境の観測可能状態ＯＳ４１０に基づいてアクション確率ＡＰｉを決定する。観測可能状態は典型的には、例えば、カメラから取得された物理環境の画像、及び／又は、１つ又は複数の更なるセンサ測定値といった、１つ又は複数のセンサ測定結果を含む。観測可能状態ＯＳは、例えば最大で又は少なくとも１００個の、又は最大で又は少なくとも１０００個の特徴の特徴ベクトルにより表される。観測可能状態ＯＳは、複数の以前のセンサ測定結果を含み、又は複数の以前のセンサ測定結果に基づき、例えば観測可能状態ＯＳは、固定個数の直近のセンサ測定結果のローリング履歴、最近のセンサ測定結果のローリング平均などを含む。用途に応じて、更に、例えばスケーリングなどの画像処理といった様々な種類の処理が、センサ測定結果から観測可能状態ＯＳを取得するために実施されてもよい。概して、観測可能状態ＯＳは、様々な種類のセンサデータ、音声データ、ビデオデータ、レーダーデータ、ライダーデータ、超音波データ、又は、様々な個々のセンサ読み取り結果、又はそれらの履歴を包含する。

【0064】

ニューラルネットワークＮＮは、パラメータ集合ＰＡＲ４４０によりパラメータ的に規定される。例えば、パラメータ集合ＰＡＲは、本明細書において説明されているように最終層に対する、又は他の層に対する基底重み行列の係数を含む。例えば、ニューラルネットワークＮＮの層数は、少なくとも５つ又は少なくとも１０個であり、パラメータＰＡＲの個数は、少なくとも１０００個又は少なくとも１００００個である。勾配ベースの最適化に適応した、例えばそのパラメータ集合において連続な、及び／又は微分可能なニューラルネットワークＮＮを使用することが、訓練の効率の視点から有益である。ニューラルネットワークは人工的ニューラルネットワークとしても知られる。

【0065】

様々な実施形態において、ニューラルネットワークＮＮのパラメータＰＡＲは、対応するポリシーに従って環境と相互作用することの期待報酬を最大化するために最適化される。例えば、期待報酬は、マルコフ決定過程（ＭＤＰ）として環境相互作用をモデル化することにより規定された期待累積報酬である。数学的に説明すると、ＭＤＰはタプル（Ｓ，Ａ，Ｒ，Ｔ，γ）であり、ここで、Ｓは取り得る環境状態ＯＳの空間であり、Ａは取り得るアクションの空間であり、

【数1】

は即時報酬関数であり、Ｔ：Ｓ×Ａ×Ｓ→［０，１］は推移関数であり、γ∈［０，１］はディスカウントファクターである。ニューラルネットワークＮＮにより評価されるポリシーは、π_ω：Ｓ→Δ（Ａ）として規定され、ここで、Δ（Ａ）はアクション空間における確率シンプレックスであり、例えばアクション確率ＡＰ１、…、ＡＰｎの集合は合計で１になる。本例において、ωはポリシーのパラメータ集合ＰＡＲを表す。

【0066】

様々な実施形態において、ニューラルネットワークＮＮは、相互作用が発生する物理環境の状態／アクション対称性を組み込むように訓練される。対称性集合はΘと表記される。集合Θは典型的には数学的な群構造をもつと仮定され、例えば、Θは恒等対称性をもち、対称性の合成

【数2】

及び逆射をとることについて閉じており、結合律を満たし、このことは、対称性

【数3】

と

【数4】

とが等しいことを意味する。例えば、対称群は、Ｉが恒等写像を表し、Ｈが水平ミラーリングを表すとしたときの水平ミラーリングの集合｛Ｉ，Ｈ｝であり、又は、

【数5】

Ｉが恒等写像を表し、Ｈが水平ミラーリングを表し、Ｖが縦ミラーリングを表し、

【数6】

が水平ミラーリング及び縦ミラーリングを表すとしたときの水平ミラーリング及び／又は縦ミラーリングの集合などである。

【0067】

対称性は典型的には観測可能状態ＯＳと、アクション確率ＡＰ１、…、ＡＰｎが決定される対象の取り得るアクションの集合との両方に影響を与える。例えば、各対称性θに対して、観測可能状態の変換Ｑ_θが規定される。例えば、変換Ｑ_θは、観測可能状態に含まれる入力画像を回転させ、又は反射させる。典型的には、Ｑ_θは線形変換であり、例えば行列により表される。更に、各対称性θに対して、アクション確率ＡＰｉの置換Ｐ_θが規定され、例えば行列により更に表される。本明細書において提供される技術は、様々な種類の置換をサポートするために十分に強力であり、例えば幾つかの実施形態において、アクション確率は、各アクション置換のもとで不変な少なくとも１つのアクション確率と、アクション置換のうちの幾つかのもとで不変でない少なくとも１つのアクション確率とを含む。興味深いことに、様々な実施形態において、ニューラルネットワークＮＮは、これらの観測可能状態変換及びアクション置換に関連して同変であるように構成され、例えば、状態ＯＳを変換し、次にアクション確率ＡＰｉを演算することが、アクション確率ＡＰｉを演算し、次にそれらを置換することと同じ出力をもたらすことが遂行され、又は少なくとも刺激され、例えば、
Ｐ_θ［π_ω］（・｜ｓ）＝π_ω（・｜Ｑ_θ［ｓ］）
であり、ここで、Ｑ_θは観測可能状態ｓの変換であり、Ｐ_θは対応するアクション置換である。対称性、及び、観測可能状態、アクション確率、及び中間層特徴ベクトルの対応する変換は、典型的には手動で規定される。

【0068】

図に示されるように、ニューラルネットワークＮＮは、演算Ｌｓ４２０において、観測可能状態ＯＳから最終層入力ＦＬＩ４５０を決定することと、次に、最終層入力ＦＬＩにニューラルネットワークの最終層を適用することとにより、アクション確率ＡＰｉを決定する。好ましくは、観測可能状態ＯＳの各変換Ｑ_Θ（θ∈Θ）が最終層入力ＦＬｉの対応する変換Ｒ_Θをもたらすという意味で、演算Ｌｓは対称性Θと同変であるように構成される。しかし、説明されるように、これを遂行することが厳密に必要とされるわけではなく、例えば同変は近似される。最終層入力ＦＬＩを決定する様々な手法が以下で更に詳細に説明される。

【0069】

興味深いことに、ニューラルネットワークＮＮの最終層は、物理環境の対称性の所望の集合に関連して同変な基底重み行列集合ＢＷＭ４３０の使用を通して同変を維持するように構成される。例えば、このような対称性に対応した最終層入力ｚの各変換Ｒ_θｚは、最終層入力ｚに基底重み行列を適用することの基底重み行列出力Ｗｚの対応するアクション置換Ｐ_θをもたらし、例えば、最終層入力ＦＬＩ、ｚ、及び対称性θ∈Θに対してＰ_θＷＺｚ＝ＷＲ_θｚである。パラメータ集合ＰＡＲは、各基底重み行列に対応した係数を含み、ニューラルネットワークＮＮの最終層は、パラメータ集合ＰＡＲにより与えられた係数を使用して最終層入力ＦＬＩに基底重み行列集合ＢＷＭの線形結合ＬＣ４６０を適用することにより適用される。興味深いことに、基底重み行列が同変である場合、線形結合も同変であり、したがって、同変線形結合出力ＬＣＯ４７０が取得される。したがって、ソフトマックスＳＭＸ４８０は、アクション確率ＡＰｉを取得するために、少なくとも線形結合出力ＬＣＯに適用される。

【0070】

一例として、基底重み行列Ｗ１、…、Ｗｋ及び対応する線形結合係数Ｃ１、…、Ｃｋが図に示されている。ニューラルネットワークＮＮを適用するとき、基底重み行列及び係数典型的には固定される。ニューラルネットワークを訓練するとき、少なくとも係数が典型的には訓練され、例えば、環境と相互作用することの期待報酬は、係数に関連して最大化される。

【0071】

基底重み行列集合ＢＷＭは、様々な手法により規定される。例えば、数学的に説明すると、ニューラルネットワークＮＮの最終層において適用される重み行列Ｗの同変は次のように表現される。
Ｐ_θＷｚ＝ＷＲ_θｚ、∀ｚ∈Ｚ、θ∈Θ
Ｐ_θＷ＝ＷＲ_θ

【数7】

したがって、Ｗの同変は

【数8】

又は、Ｗ∈Ｗと表現され、ここで、

【数9】

である。特に、Ｐ_θが置換であり、Ｒ_θが線形変換である場合、制約

【数10】

が線形であり、結果として、Ｗが重み行列の全空間の線形部分空間であることが観測される。したがって、幾つかの実施形態において、集合ＢＷＭは空間Ｗの基底として規定される。このような場合において、例えば、集合ＢＷＭは手動で決定され、又は、例えば、知られた線形代数の技術を使用して変換Ｒ_θ及び置換Ｐ_θから演算される。

【0072】

上述の集合Ｗは、１入力及び／又は出力チャンネルに対して更に定義され、この場合、基底重み行列ＢＷｉは、入力チャンネルを反映するために、及び／又は、それぞれの出力チャンネルを取得するために行列を適用することにより行列Ｗ∈Ｗから取得される。

【0073】

興味深いことに、基底重み行列集合ＢＷＭが同変重み行列の全体集合を張ることは必要とされない。例えば、ＢＷＭは、同変重み行列の空間のランダムにサンプリングされた部分空間としてサンプリングされる。このように、パラメータＣ１、…、Ｃｋの個数の低減が達成されるとともに、依然として同変を維持し、このことは、同変重み行列の空間が比較的大きい場合に特に重要である。

【0074】

特に、基底重み行列ＢＷＭを自動的に決定する１つの手法は、次のとおりである。まず、１つ又は複数の初期重み行列Ｗ_ｉが取得され、例えば、その係数は、例えば一変量ガウシアン分布又は同様のものからランダムにサンプリングされる。次に、基底重み行列

【数11】

が、初期重み行列に変換Ｔ_θ及び置換Ｐ_θを適用すること、及び、結果を一緒に加算することにより初期重み行列Ｗ_ｉから決定されて、例えば、

【数12】

を取得する。以て、効果的に、初期重み行列Ｗ_ｉが、基底重み行列を取得するように対称化される。結果として得られる重み行列

【数13】

は、例えば、

【数14】

であるので、実際に同変である。この手法により取得された基底重み行列は、取得された基底重み行列の集合を直交させること、又は更には正規直交化させることにより更に改良される。したがって、重み行列は、より互いに独立したものにされ、したがって、訓練を円滑化する。例えば、直交させる／正規直交化させることは、特定された

【数15】

をベクトル化して行列

【数16】

を形成すること（ここで、行は、

【数17】

に対応する）、及び特異値分解（ＳＶＤ）を演算することにより実施される。

【数18】

基底重み行列集合ＢＷＭは、この場合において、Σにおける非ゼロの特異値に対応したＶの列を非ベクトル化することにより取得される。この工程が、十分に多くの初期重み行列が取得された場合の完全な基底、又はランダム部分空間を導出するために使用されることに留意されたい。例えば、初期重み行列の個数は、最大で又は少なくとも１００個であり、又は最大で又は少なくとも２５０個である。

【0075】

したがって、基底重み行列ＢＷＭの線形結合を演算することにより、ニューラルネットワークの最終層の線形結合出力ＬＣＯが、実施される１つ又は複数の取り得るアクションに対応してどのように決定されるかが説明されてきた。

【0076】

更なる線形結合出力を取得するために最終層入力ＦＬＩに同じ基底重み行列集合ＢＷＭの更なる線形結合を適用することも可能である。この更なる線形結合の係数は、元の線形結合係数Ｃｉに加えてパラメータ集合ＰＡＲに含まれる。更なる線形結合出力に対応したアクションが、元の線形結合出力ＬＣＯとして環境対称性を適用するときと同じ手法により置換しなければならない場合、これは特に魅力的である。より多くの、及び／又はより大きい基底重み行列を使用することを必要とする線形結合出力の両方の集合を同時に演算する、より大きい基底重み行列を使用することが、同じ基底重み行列を２回適用することにより回避される。

【0077】

更に、代替的に、又は加えて、最終層入力ＦＬＩに更なる基底重み行列集合の更に異なる更なる線形結合を適用することが可能である。最終層入力の複数の既定の変換の更なる集合に対して、各変換は、最終層入力に対する更なる基底重み行列出力の対応する更なる既定のアクション置換をもたらす。言い換えると、この更なる線形結合を使用して確率が決定されたアクションは、元の最終層出力に対するアクションとは異なる形態により、環境対称性に従って置換する。最終層入力の更なる並進移動集合は、最終層入力の元の変換集合に等しいものであり、例えば、更に異なる更なる線形結合に対応したアクションは、同じ対称性に対して同変であるが、異なる置換に従っている。最終層の更なる並進移動集合は異なっていてもよく、例えば、更に異なる更なる線形結合に対応したアクションは、異なる環境対称性集合に対して同変である。この後者の例では、最終層入力ＦＬＩは好ましくは両方の対称性集合のもとで同変である。

【0078】

ここで、観測可能状態ＯＳに基づく最終層入力ＦＬＩ及び最終層入力の変換の定義の演算に進むと、様々な実施形態が想定される。

【0079】

概して、最終層入力ＦＬＩは、観測可能状態ＯＳに群同変畳み込みネットワークの１つ又は複数の層を適用することにより取得される。群同変畳み込みネットワークのフィルタは、基底

【数19】

により張られる線形ベクトル空間の要素として規定され、ここで、各変換θ∈Θは、それ自体の基底を含む。フィルタ集合は、基底及び各入力及び出力チャンネルにおける各フィルタに対する係数

【数20】

により規定される。したがって、本明細書において説明されている空間Ｗは、基底｛ｅ_ｉ｝を含む線形ベクトル空間と考えられる。任意のＷ∈Ｗは、基底ベクトルの線形結合として説明される。フィルタωは、この基底の張るものにおいて有効であり、言い換えると、それらは、基底｛ｅ_ｉ｝におけるＷの表現である。したがって、Ｗ及びωは対応すると見受けられる。係数

【数21】

は、群変換間において学習され、及びシェアされる。したがって、フィルタは、群変換θの基底

【数22】

に関連して、

【数23】

のように規定される。したがって、フィルタ係数は、変換θ∈Θの基底ｅ（θ）間において効果的にシェアされ、したがって、θ∈Θの各々に対する完全に新しいフィルタではなく、ω（・）の変換されたバージョンが取得される。ニューラルネットワークは、例えば各変換θ∈Θに対応した変換されたフィルタを適用することにより、畳み込みネットワークフィルタとしてこれらのフィルタを使用することにより適用される。

【0080】

具体的には、幾つかの実施形態において、最終層入力ＦＬＩは、各々が観測可能状態のそれぞれの変換に対応した複数の特徴ベクトルＦＶ１４５１、…、ＦＶｍ４５２までを含む。例えば、最終層入力の変換は、環境対称性の群構造に従って複数の特徴ベクトルを置換し、例えば、

【数24】

である場合、最終層入力の変換

【数25】

は、対称性θ_２に対応した特徴ベクトルを対称性θ_３に対応した特徴ベクトルなどに写像する。各環境対称性に対して特徴ベクトルを含むこの構造は、ニューラルネットワークＮＮの一部又は全ての以前の層において繰り返され、以て、同変はニューラルネットワークにわたって保存される。

【0081】

しかし、中間層入力及び出力の変換がどのように正確に規定されるかにかかわらず、ニューラルネットワークの一部又は全ての他の層において、層出力を演算するために基底重み行列の線形結合を使用することも可能である。例えば、ニューラルネットワークの更なる層に対する更なる基底重み行列の集合を表す更なる基底重み行列データが取得され、ここで、複数の既定の変換の集合からの変換に従って更なる層入力を変換することは、更なる層入力に対する更なる基底重み行列出力の対応する既定の変換をもたらす。更なる層を評価するために、更なる基底重み行列の集合の線形結合が、パラメータ集合ＰＡＲにより同様にパラメータ的に規定された更なる層入力に適用される。この場合においても、例えば、上述のように、

【数26】

の基底又は部分空間を導出することにより、環境対称性に対応した層入力の変換Ｒ_θ及び層出力のＰ_θが与えられたとき、更なる基底重み行列の集合を決定することが可能である。

【0082】

幾つかの実施形態において、ニューラルネットワークＮＮの１つ又は複数のより早期の層は、状態・アクション対称性Θに対してだけでなく、並進移動に対しても同変であるように設計される。例えば、観測可能状態は物理環境の画像を含み、ここで、ニューラルネットワークの１つ又は複数の初期層は状態・アクション対称性に加えて画像の並進移動に対して同変である。例えば、「群同変畳み込みネットワーク」の群同変ニューラルネットワーク層が使用される。多くの用途において、観測可能状態の並進移動は望ましいアクションの置換をもたらさないので、観測可能状態の並進移動は概して状態・アクション対称性を誘起しないことに留意されたい。依然として、ニューラルネットワークのより早期の層に並進移動を含めることにより、それらは、例えば畳み込みニューラルネットワークにおいて一般的な物体認識タスクのためにそれらのより早期の層に使用される。したがって、後の層において、並進移動対称性が、観測可能状態の並進移動にわたる平均プーリングにより効果的に除去される。

【0083】

ニューラルネットワークＮＮは、物理環境の観測可能状態ＯＳを示すセンサデータを繰り返し取得することと、観測可能状態ＯＳに基づいてアクション確率ＡＰｉを決定することと、アクチュエータが決定されたアクション確率ＡＰｉに基づいて物理環境におけるアクションを実現することをもたらすアクチュエータデータをアクチュエータに提供することとにより、物理環境と相互作用するために使用される。例えば、実現されたアクションがアクション確率に従ってサンプリングされること、又は、最大確率を伴うアクションが選択されることなどが行われる。

【0084】

ニューラルネットワークＮＮは、観測された環境状態及びシステムにより実施される対応するアクションのシーケンスを示す相互作用データを繰り返し取得することと、相互作用の報酬を決定することと、観測された環境状態のシーケンスの観測された状態において、対応するアクションを選択するポリシーのアクション確率ＡＰｉを決定することと、決定された報酬とアクション確率とに基づいて期待報酬を上げるためにパラメータ集合を調節することとにより訓練される。当然に知られた様々な強化学習技術が適用され、例えば、「ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎＡｌｇｏｒｉｔｈｍｓ」において開示されているものなどのポリシー勾配アルゴリズムが使用される。知られているように、このような最適化方法はヒューリスティックであり、及び／又は、ローカルな最適条件に到達する。相互作用データがポリシーの現在のパラメータ集合に従って相互作用から取得されるオンポリシー法を使用することと、これが当てはまらないオフポリシー法を使用することとの両方が可能である。いずれの場合においても、標準的なニューラルネットワークポリシーを最適化することが、従来全てのフィルタ重みを更新することを伴うのに対し、興味深いことに、本明細書において提示されている技術を使用すると、代わりに基底重み行列の係数Ｃｉが更新され、より迅速な、及びより効率的な学習をもたらす。

【0085】

図５ａ～図５ｃは、観測可能状態及び最終層入力の変換、及び、アクション確率集合のアクション置換の非限定的な例を示す。特徴ｚ_１１、ｚ_１２、ｚ_２１、ｚ_２２を含む２×２入力画像及び更なるセンサ測定結果ｘを含む、例えば図４の観測可能状態ＯＳといった観測可能状態５１０が示されている。例えば図４のアクション確率ＡＰ１、…、ＡＰｎといったアクション確率π_１、π_２、π_３、π_４、π_５のベクトル５５０が更に示されている。

【0086】

一例として、観測可能状態５１０が取得され、アクション５５０が実施される物理環境は、水平ミラーリング及び縦ミラーリングに対して同変であると想定される。この例において、恒等写像Ｉ、水平ミラーリングＨ、縦ミラーリングＶ、及び水平プラス縦ミラーリング

【数27】

を含む変換集合

【数28】

は、演算

【数29】

を伴い、Ｉが恒等写像であり、

【数30】

であり、

【数31】

であるなどとして、数学的な意味において群と考えられる。

【0087】

例えば、矢印５２０により示された観測可能状態の水平ミラーリングは、変換された状態５１１をもたらす。この変換された状態において、画像が水平にミラーリングされるとともに、更なるセンサ測定結果がネゲートされ、例えばｘは縦面における角度を表す。同様に、観測可能状態の縦ミラーリングが矢印５２１により示されており、例えば、画像が縦方向にミラーリングされるが、センサ測定結果が同じまま留まる変換された状態５２１をもたらす。観測可能状態５１０は、また、水平と縦との両方にミラーリングされて、例えば変換された状態５１３をもたらす。

【0088】

この例において、観測可能状態の変換Θは、ニューラルネットワークのアクション置換集合のアクション置換をもたらすと想定される。例えば、領域知識情報に基づいて、アクション確率集合（π_１，π_２，π_３，π_４，π_５）５５０は水平鏡面対称性５６０のもとでアクション確率（π_２，π_１，π_３，π_４，π_５）５５１に置換されなければならず、言い換えると、第１のアクションは元の観測可能状態において、変換された観測可能状態における第２のアクションと同じく望ましいと想定され、逆も同様であることが想定される。この例における他の３つのアクションは水平対称性により影響を受けない。同様に、縦対称性５６１のもとでアクション確率は、（π_１，π_２，π_４，π_３，π_５）５５２に置換されなければならず、水平及び縦対称性５５３のもとで、アクション確率は、（π_２，π_１，π_４，π_３，π_５）５５３に置換されなければならない。

【0089】

本明細書において提示されている技術を使用すると、観測可能状態５１０の変換とニューラルネットワークにより出力されるアクション確率５５０の対応する置換との間のこのような同変は、同変手法により観測可能状態５１０から最終層入力５３０を演算することと、次に、同変手法により最終層入力５３０からアクション確率５５０を演算することとにより達成される。この目的のために、最終層入力５３０は、それぞれの変換Θに対応した複数の特徴ベクトルを含む。変換Ｉ、Ｈ、Ｖ、及びＨＶに対応した特徴ベクトルｙ_Ｉ、ｙ_Ｈ、ｙ_Ｖ、及びｙ_ＨＶがそれぞれ図に示されている。この例における変換Θは、Θの群作用に従った最終層入力５３０を置換する。例えば、

【数32】

にＨを適用することは、それぞれ、

【数33】

を与えるので、水平対称性５４０により最終層入力５３０を変換することは、（ｙ_Ｉ，ｙ_Ｈ，ｙ_Ｖ，ｙ_ＨＶ）を（ｙ_Ｈ，ｙ_Ｉ，ｙ_ＨＶ，ｙ_Ｖ）５３に置換する。同様に、縦対称性５４１により最終層入力５３０を変換することは（ｙ_Ｖ，ｙ_ＨＶ，ｙ_Ｉ，ｙ_Ｈ）５３２を与え、水平及び縦対称性５４２により最終層入力５４２を変換することは、（ｙ_ＨＶ，ｙ_Ｖ，ｙ_Ｈ，ｙ_Ｉ）５３３を与える。

【0090】

したがって、この例に示されているように、両方が検討中の物理系の領域知識情報に基づいて手動で規定される観測可能状態５１０及びアクション置換５５０の変換が与えられたとき、最終層入力５３０の変換が自動的に決定され得る。最終層入力及びアクション置換の変換が与えられたとき、本明細書において開示されているように、基底重み行列集合が自動的に決定され、この場合において、ニューラルネットワークの最終層は同変を維持する。例えば同様に形作られた更なる層を使用して、同変手法により最終層入力５３０を更に演算することにより、物理環境の対称性は、ニューラルネットワークに効果的に組み込まれる。

【0091】

図６は、ポリシーに従って物理環境と相互作用するコンピュータにより実施される方法８００のブロック図を示す。ポリシーは、物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定する。ポリシーは、パラメータ集合によりパラメータ的に規定されたニューラルネットワークを含む。ニューラルネットワークは、観測可能状態から最終層入力を決定することと、最終層入力にニューラルネットワークの最終層を適用することとによりアクション確率を決定する。方法８００は、図１のシステム１００の演算に対応する。しかし、方法８００が別のシステム、装置、又はデバイスを使用して実施されてもよいという点で、これは限定ではない。

【0092】

方法８００は、「ポリシーにアクセスすること」と呼ばれる動作により、ポリシーのパラメータ集合にアクセスすること（８１０）を有する。

【0093】

方法８００は、「基底重み行列データを取得すること」と呼ばれる動作により、ニューラルネットワークの最終層に対する基底重み行列集合を表す基底重み行列データを取得すること（８２０）を有し、ここで、最終層入力の複数の既定の変換の集合に対して、各変換が最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす。

【0094】

方法８００は、「相互作用を制御すること」と呼ばれる動作により、物理環境との相互作用を制御すること（８３０）を有する。相互作用を制御するために、演算すること（８３０）は、
－「センサデータを取得すること」と呼ばれる動作により、物理環境の観測可能状態を示すセンサデータを１つ又は複数のセンサから取得すること（８３２）と、
－「アクション確率を決定すること」と呼ばれる動作により、最終層入力に基底重み行列集合の線形結合を適用することによりニューラルネットワークの最終層を適用することを有する、観測可能状態に基づいてアクション確率を決定すること（８３４）であって、線形結合の係数が、パラメータ集合に含まれる、決定すること（８３４）と、
－「アクチュエータデータを提供すること」と呼ばれる動作により、アクチュエータが決定されたアクション確率に基づいて物理環境におけるアクションを実現することをもたらすアクチュエータデータをアクチュエータに提供すること（８３６）と、
を繰り返し行うことを有する。

【0095】

図７は、ポリシーに従って物理環境と相互作用するシステムを構成するコンピュータにより実施される方法９００のブロック図を示す。例えば、システムは、図８の方法８００を使用する。方法９００は、
－「相互作用データを取得すること」と呼ばれる動作により、観測された環境状態及びシステムにより実施される対応するアクションのシーケンスを示す相互作用データを取得すること（９１０）と、
－「報酬を決定すること」と呼ばれる動作により、相互作用の報酬を決定すること（９２０）と、
－「アクション確率を決定すること」と呼ばれる動作により、最終層入力に基底重み行列集合の線形結合を適用することによりニューラルネットワークの最終層を適用することを有する、観測された環境状態のシーケンスの観測された状態において、対応するアクションを選択するポリシーのアクション確率を決定すること（９３０）であって、線形結合の係数がパラメータ集合に含まれる、決定すること（９３０）と、
－「パラメータを調節すること」と呼ばれる動作により、決定された報酬とアクション確率とに基づいて期待報酬を上げるためにパラメータ集合を調節すること（９４０）と、
を繰り返し行うことによりポリシーに従って環境と相互作用することの期待報酬を最大化するために、ポリシーのパラメータ集合を最適化することを有する。

【0096】

概して、図６の方法８００及び図７の方法９００の演算は、適用可能な場合は、例えば入力／出力関連により特定の順序が必要とされることによる影響を受けて、例えば連続して、同時に、又はそれらの組み合わせといった任意の適切な順序で実施されてもよいことが理解される。

【0097】

本方法は、専用ハードウェアとして、又は両方の組み合わせとしてコンピュータにより実施される方法としてコンピュータにおいて実施される。図８に更に示されるように、コンピュータに対する命令、例えば実行可能コードは、例えば、機械可読物理的マークの一連のもの１０１０の形態により、及び／又は、異なる電気的な、例えば磁気的な又は光学的な特性又は値をもつ一連の要素としてコンピュータ可読媒体１０００に記憶される。実行可能コードは、一時的な、又は非一時的な手法により記憶される。コンピュータ可読媒体の例は、メモリデバイス、光ストレージデバイス、集積回路、サーバー、オンラインソフトウェア、などを包含する。図１１は、光ディスク１０００を示す。

【0098】

代替的に又は加えて、コンピュータ可読媒体１０００は、本明細書において説明されている物理環境と相互作用するためのポリシーのパラメータ集合を表す一時的な、又は非一時的なデータ１０１０を含み、ポリシーは、物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定し、ポリシーは、ニューラルネットワークを含み、ニューラルネットワークは、観測可能状態から最終層入力を決定することと、最終層入力にニューラルネットワークの最終層を適用することとによりアクション確率を決定し、ニューラルネットワークの最終層が、最終層入力に基底重み行列集合の線形結合を適用することにより適用され、線形結合の係数が、パラメータ集合に含まれる。

【0099】

代替的に、又は加えて、コンピュータ可読媒体１０００は、本明細書において説明されている物理環境と相互作用するためのポリシーに対する基底重み行列集合を表す基底重み行列データを表す一時的な、又は非一時的なデータ１０１０を含み、ポリシーは、物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定し、ポリシーは、ニューラルネットワークを含み、ニューラルネットワークは、観測可能状態から最終層入力を決定することと、最終層入力にニューラルネットワークの最終層を適用することとによりアクション確率を決定し、ニューラルネットワークの最終層は、最終層入力に基底重み行列集合の線形結合を適用することにより適用される。

【0100】

例、実施形態、又は任意選択的な特徴は、非限定的であると示されているか否かによらず請求項に記載されている本発明を限定するとは理解されない。

【0101】

上述の実施形態は本発明を限定するのではなく例示すること、及び、当業者が添付の請求項の範囲から逸脱することなく多くの代替的な実施形態を設計することが可能であることに留意されなければならない。特許請求の範囲において、括弧内に位置するいずれの参照符号も、請求項を限定すると解釈されてはならない。「備える（含む、有する、もつ）」という動詞及びその活用形の使用は、請求項に記載のものの他の要素又はステージの存在を否定するわけではない。単数形の要素の表現は、複数のこのような要素の存在を否定するわけではない。要素のリスト又はグループの前にあるときの「のうちの少なくとも１つ」などの表現は、リスト又はグループからの要素の全ての又は任意の部分集合の選択を表す。例えば、「ＡとＢとＣとのうちの少なくとも１つ」という表現は、Ａのみ、Ｂのみ、Ｃのみ、ＡとＢとの両方、ＡとＣとの両方、ＢとＣとの両方、又はＡとＢとＣとの全てを包含すると理解されなければならない。本発明は、幾つかの区別される要素を備えるハードウェアにより、及び適切にプログラムされたコンピュータにより実現されてもよい。幾つかの手段を列挙したデバイスの請求項において、これらの手段のうちの幾つかが同じ１つのハードウェア物品により具現化されてもよい。単に特定の手段が相互に異なる従属請求項に記載されているということが、利点を得るためにこれらの手段の組み合わせが使用不可能なことを示すわけではない。

【図1】