IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツングの特許一覧 ▶ コーニンクレッカ フィリップス エヌ ヴェの特許一覧

特表2022-552452同変ポリシーを伴う物理環境相互作用
<>
  • 特表-同変ポリシーを伴う物理環境相互作用 図1
  • 特表-同変ポリシーを伴う物理環境相互作用 図2
  • 特表-同変ポリシーを伴う物理環境相互作用 図3
  • 特表-同変ポリシーを伴う物理環境相互作用 図4
  • 特表-同変ポリシーを伴う物理環境相互作用 図5a
  • 特表-同変ポリシーを伴う物理環境相互作用 図5b
  • 特表-同変ポリシーを伴う物理環境相互作用 図5c
  • 特表-同変ポリシーを伴う物理環境相互作用 図6
  • 特表-同変ポリシーを伴う物理環境相互作用 図7
  • 特表-同変ポリシーを伴う物理環境相互作用 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-16
(54)【発明の名称】同変ポリシーを伴う物理環境相互作用
(51)【国際特許分類】
   G06N 3/08 20060101AFI20221209BHJP
   G06N 20/00 20190101ALI20221209BHJP
【FI】
G06N3/08
G06N20/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022515592
(86)(22)【出願日】2020-09-08
(85)【翻訳文提出日】2022-03-08
(86)【国際出願番号】 EP2020075107
(87)【国際公開番号】W WO2021048145
(87)【国際公開日】2021-03-18
(31)【優先権主張番号】19196681.1
(32)【優先日】2019-09-11
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
2.ZIGBEE
(71)【出願人】
【識別番号】591245473
【氏名又は名称】ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
(71)【出願人】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
【住所又は居所原語表記】High Tech Campus 52, 5656 AG Eindhoven,Netherlands
(74)【代理人】
【識別番号】100095407
【弁理士】
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100132883
【弁理士】
【氏名又は名称】森川 泰司
(74)【代理人】
【識別番号】100148633
【弁理士】
【氏名又は名称】桜田 圭
(74)【代理人】
【識別番号】100147924
【弁理士】
【氏名又は名称】美恵 英樹
(74)【代理人】
【識別番号】110001690
【氏名又は名称】弁理士法人M&Sパートナーズ
(72)【発明者】
【氏名】ハーマン ミハエル
(72)【発明者】
【氏名】ウェリング マックス
(72)【発明者】
【氏名】ファン ホーフ ヘルケ
(72)【発明者】
【氏名】ファン デル ポール エリーゼ
(72)【発明者】
【氏名】ウォラル ダニエル
(72)【発明者】
【氏名】オーリーフーク フランス アドリアン
(57)【要約】
本発明は、ポリシーに従って物理環境と相互作用するコンピュータにより実施される方法(800)に関する。ポリシーは、物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定する。ポリシーは、パラメータ集合によりパラメータ的に規定されたニューラルネットワークを含む。ニューラルネットワークは、観測可能状態から最終層入力を決定することと、最終層入力にニューラルネットワークの最終層を適用することとによりアクション確率を決定する。最終層は、最終層入力に同変基底重み行列集合の線形結合を適用することにより適用される。最終層入力の複数の既定の変換の集合に対して、各変換が最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらすという意味で基底重み行列は同変である。
【特許請求の範囲】
【請求項1】
ポリシーに従って物理環境と相互作用するコンピュータにより実施される方法であって、前記ポリシーが、前記物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定し、前記ポリシーが、パラメータ集合によりパラメータ的に規定されたニューラルネットワークを含み、前記ニューラルネットワークが、観測可能状態から最終層入力を決定するステップと、前記最終層入力に前記ニューラルネットワークの最終層を適用するステップとにより前記アクション確率を決定する、前記コンピュータにより実施される方法が、
前記ポリシーの前記パラメータ集合にアクセスするステップと、
前記ニューラルネットワークの前記最終層に対する基底重み行列集合を表す基底重み行列データを取得するステップであって、前記最終層入力の複数の既定の変換の集合に対して、各変換が、前記最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす、取得するステップと、
前記物理環境との相互作用を制御するステップであって、前記制御するステップが、
前記物理環境の前記観測可能状態を示すセンサデータを、1つ又は複数のセンサから取得するステップと、
前記最終層入力に前記基底重み行列集合の線形結合を適用するステップにより前記ニューラルネットワークの前記最終層を適用するステップを有する、前記観測可能状態に基づいて前記アクション確率を決定するステップであって、前記線形結合の係数が、前記パラメータ集合に含まれる、決定するステップと、
アクチュエータが決定された前記アクション確率に基づいて前記物理環境におけるアクションを実現することをもたらすアクチュエータデータを前記アクチュエータに提供するステップと、
を繰り返し行うことにより、制御するステップと、
を有する、コンピュータにより実施される方法。
【請求項2】
前記センサデータが、前記物理環境の画像を含む、
請求項1に記載のコンピュータにより実施される方法。
【請求項3】
特徴変換が、回転に対応し、及び/又は、特徴変換が、反射に対応する、
請求項2に記載のコンピュータにより実施される方法。
【請求項4】
前記センサデータが、1つ又は複数の更なるセンサ測定値を更に含む、
請求項2又は請求項3に記載のコンピュータにより実施される方法。
【請求項5】
前記最終層を適用するステップが、前記最終層入力に前記基底重み行列集合の更なる線形結合を適用するステップを更に有し、前記更なる線形結合の係数が、前記パラメータ集合に含まれる、
請求項1から請求項4のいずれか一項に記載のコンピュータにより実施される方法。
【請求項6】
前記最終層を適用するステップが、前記最終層入力に更なる基底重み行列集合の更なる線形結合を適用するステップを更に有し、前記最終層入力の複数の既定の変換の更なる集合に対して、各変換が、前記最終層入力に対して更なる基底重み行列出力の対応する更なる既定のアクション置換をもたらす、
請求項1から請求項5のいずれか一項に記載のコンピュータにより実施される方法。
【請求項7】
前記ニューラルネットワークの層の層入力が、前記観測可能状態のそれぞれの変換に対応した複数の特徴ベクトルを含み、前記層入力の特徴が、前記観測可能状態の並進移動に対応した特徴ベクトルにわたる平均プーリングにより決定される、
請求項1から請求項6のいずれか一項に記載のコンピュータにより実施される方法。
【請求項8】
観測された環境状態及びシステムにより実施される対応するアクションのシーケンスを示す相互作用データを取得するステップと、
相互作用の報酬を決定するステップと、
最終層入力に基底重み行列集合の線形結合を適用するステップによりニューラルネットワークの最終層を適用するステップを有する、前記観測された環境状態の前記シーケンスの観測された状態において、前記対応するアクションを選択するポリシーのアクション確率を決定するステップであって、前記線形結合の係数が、パラメータ集合に含まれる、決定するステップと、
決定された前記報酬と前記アクション確率とに基づいて期待報酬を上げるために前記パラメータ集合を調節するステップと、
を繰り返し行うことにより前記ポリシーに従って物理環境と相互作用することの前記期待報酬を最大化するために前記ポリシーの前記パラメータ集合を最適化するステップを有する、請求項1から請求項7のいずれか一項に記載のコンピュータにより実施される方法を使用して前記ポリシーに従って前記物理環境と相互作用する前記システムを構成する、コンピュータにより実施される方法。
【請求項9】
前記複数の既定の変換と対応する既定のアクション置換とから、前記基底重み行列集合を決定することにより前記基底重み行列集合を取得するステップを有する、
請求項8に記載のコンピュータにより実施される方法。
【請求項10】
初期重み行列を取得するステップと、前記初期重み行列に、対応するアクション置換の変換及び逆射を適用するステップと、前記変換された、及び置換された前記初期重み行列を一緒に加算するステップとにより基底重み行列を決定するステップを有する、
請求項9に記載のコンピュータにより実施される方法。
【請求項11】
決定された前記基底重み行列の集合を直交させるステップを更に有する、
請求項10に記載のコンピュータにより実施される方法。
【請求項12】
ポリシーに従って物理環境と相互作用するためのコンピュータ制御されるシステムであって、前記ポリシーが、前記物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定し、前記ポリシーが、パラメータ集合によりパラメータ的に規定されたニューラルネットワークを含み、前記ニューラルネットワークが、観測可能状態から最終層入力を決定することと、前記最終層入力に前記ニューラルネットワークの最終層を適用することとにより前記アクション確率を決定する、前記システムが、
前記ポリシーの前記パラメータ集合にアクセスするためのデータインターフェースと、
前記物理環境の前記観測可能状態を示すセンサデータを、1つ又は複数のセンサから取得するためのセンサインターフェースと、
アクチュエータが前記物理環境におけるアクションを実現することをもたらすアクチュエータデータを前記アクチュエータに提供するためのアクチュエータインターフェースと、
前記ニューラルネットワークの前記最終層に対する基底重み行列集合を表す基底重み行列データを取得することであって、前記最終層入力の複数の既定の変換の集合に対して、各変換が、前記最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす、取得することと、前記物理環境との相互作用を制御することであって、前記制御することが、
前記物理環境の前記観測可能状態を示す前記1つ又は複数のセンサからのセンサデータを前記センサインターフェースを介して取得することと、
前記最終層入力に前記基底重み行列集合の線形結合を適用することにより前記ニューラルネットワークの前記最終層を適用することを有する、前記観測可能状態に基づいて前記アクション確率を決定することであって、前記線形結合の係数が、前記パラメータ集合に含まれる、決定することと、
前記アクチュエータが決定された前記アクション確率に基づいて前記物理環境におけるアクションを実現することをもたらす前記アクチュエータにアクチュエータデータを、前記アクチュエータインターフェースを介して提供することと、
を繰り返し行うことにより、制御することとをするプロセッササブシステムと、
を備える、システム。
【請求項13】
請求項1から請求項7のいずれか一項に記載のコンピュータにより実施される方法を使用してポリシーに従って物理環境と相互作用するコンピュータ制御されるシステムを構成するための訓練システムであって、前記訓練システムが、
前記ポリシーのパラメータ集合とニューラルネットワークの最終層に対する基底重み行列集合を表す基底重み行列データとにアクセスするためのデータインターフェースであって、最終層入力の複数の既定の変換の集合に対して、各変換が、前記最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす、データインターフェースと、
プロセッササブシステムとを備え、前記プロセッササブシステムが、
前記コンピュータ制御されるシステムにより実施される観測された環境状態及び対応するアクションのシーケンスを示す相互作用データを取得することと、
相互作用の報酬を決定することと、
前記最終層入力に前記基底重み行列集合の線形結合を適用することにより前記ニューラルネットワークの前記最終層を適用することを有する、前記観測された環境状態の前記シーケンスの観測された状態における、前記対応するアクションを選択する前記ポリシーのアクション確率を決定することであって、前記線形結合の係数が、前記パラメータ集合に含まれる、決定することと、
決定された前記報酬と前記アクション確率とに基づいて期待報酬を上げるように前記パラメータ集合を調節することと、
を繰り返し行うことにより前記ポリシーに従って前記物理環境と相互作用することの前記期待報酬を最大化するために前記ポリシーの前記パラメータ集合を最適化する、訓練システム。
【請求項14】
プロセッサシステムにより実行されたとき、請求項1に記載のコンピュータにより実施される方法を前記プロセッサシステムに実施させる命令と、
請求項1に記載の物理環境と相互作用するためのポリシーのパラメータ集合であって、前記ポリシーが、前記物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定し、前記ポリシーが、ニューラルネットワークを含み、前記ニューラルネットワークが、観測可能状態から最終層入力を決定することと、前記最終層入力に前記ニューラルネットワークの最終層を適用することとにより前記アクション確率を決定し、前記ニューラルネットワークの前記最終層が、前記最終層入力に基底重み行列集合の線形結合を適用することにより適用され、前記線形結合の係数が、前記パラメータ集合に含まれる、パラメータ集合と、
請求項1に記載の物理環境と相互作用するためのポリシーに対する基底重み行列集合を表す基底重み行列データであって、前記ポリシーが、前記物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定し、前記ポリシーが、ニューラルネットワークを含み、前記ニューラルネットワークが、観測可能状態から最終層入力を決定することと、前記最終層入力に前記ニューラルネットワークの最終層を適用することとにより前記アクション確率を決定し、前記ニューラルネットワークの前記最終層が、前記最終層入力に前記基底重み行列集合の線形結合を適用することにより適用される、基底重み行列データと、
のうちの1つ又は複数を表す一時的な、又は非一時的なデータを含む、コンピュータ可読媒体。
【請求項15】
プロセッサシステムにより実行されたとき、請求項8に記載のコンピュータにより実施される方法を前記プロセッサシステムに実施させる命令を表す一時的な、又は非一時的なデータを含む、コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ポリシーに従って物理環境と相互作用するためのコンピュータ制御されるシステム、及び、対応するコンピュータにより実施される方法に関する。本発明は更に、このようなシステムを構成するための訓練システム、及び、対応するコンピュータにより実施される方法に関する。本発明は更に、上述の方法のうちの1つを実施するための命令、このようなポリシーのためのパラメータ、及び/又は、このようなポリシーのための基底重み行列データを含むコンピュータ可読媒体に関する。
【背景技術】
【0002】
物理環境と相互作用するためにコンピュータにより実施される方法を適用することがよく知られている。典型的には、センサデータが、1つ又は複数のセンサ、例えば、カメラ、温度センサ、圧力センサなどから取得され、コンピュータにより実施される方法が、センサデータに基づいてアクションを決定するために適用され、アクチュエータが、例えば、ロボットアームを動かすこと、自律的な車両の操縦又はブレーキシステムを有効化すること、又は、患者の体における介入型医療(ロボット)ツールの動きを制御することなどの、物理環境における決定されたアクションを実現するために使用される。アクションが決定される工程は、多くの場合、コンピュータ制御される相互作用のポリシーと呼ばれる。
【0003】
コンピュータ制御されるシステムはロボットシステムを含み、ここで、ロボットは、例えば外部デバイス又は埋め込まれた制御装置の制御下で、1つ又は複数のタスクを自動的に実施し得る。コンピュータ制御され得るシステムの更なる例は、車両及びそのコンポーネント、屋内電気機器、電力式工具、製造機械、人間補助装置、アクセス制御システム、ドローン、ナノロボット、及び、加熱制御システムである。様々なコンピュータ制御されるシステムは、例えば自律ロボット、自律エージェント、又はインテリジェントエージェントなどの環境において自律的に動作し得る。
【0004】
健康管理ロボット工学における、特に画像支援治療における例は、患者の解剖学的構造、閉塞、及び手術室機器を考慮しながら、患者の周囲におけるイメージングシステム(例えばX線、磁気共鳴、超音波システム)の運動を制御すること、例えば、限定されないが、肺の気管支における気管支鏡、又は、脈管内の脈管内超音波デバイスといった、管腔内における、又は管腔の外部における診断イメージングデバイスをロボット的に案内すること、処置する、及び/又は生物物理学パラメータを測定するために、X線又は超音波画像又は他の画像などに基づいて、対象物に向けて配備可能な、又は配備可能でない医療ツール(例えば、柔軟な、又は柔軟でない針、カテーテル、ガイドワイヤ、バルーン、ステントなど)を操縦することを有する。自律コンピュータ制御の一般的な健康管理の例は、複数のイメージング及び表示パラメータ(例えば、積分時間、コントラスト)、及び、現在の画像コンテンツに基づくX線又は超音波に対するフィルタの動的な調節である。
【0005】
興味深いことに幾つかの例においてポリシーを手作りすることが可能であるが、ポリシーとして、例えばニューラルネットワークといった機械学習可能モデルを使用することも可能である。このような機械学習可能モデルは、典型的には、特定のタスクに対して訓練され得るパラメータ集合によりパラメータ的に規定される。John Schulmanらによる「Proximal Policy Optimization Algorithms」(参照により本明細書に組み込まれ、https://arxiv.org/abs/1707.06347において入手可能である)では、このようなポリシーを訓練するための方法が開示されている。この方法は、パラメータ集合が所与の報酬関数に関連して最適化される強化学習の分野からのものである。本方法は、環境との相互作用を通してデータをサンプリングすることと、サンプリングデータに基づいて(この場合においてニューラルネットワークの)パラメータを最適化することとを交互に行う。
【発明の概要】
【0006】
本発明の第1の態様によると、請求項1により規定される、ポリシーに従って物理環境と相互作用するためのコンピュータにより実施される方法が提案される。本発明の更なる態様によると、請求項8により規定される、ポリシーに従って物理環境と相互作用するシステムを構成するコンピュータにより実施される方法が提案される。更なる態様によると、それぞれ請求項12及び請求項13により規定された、物理環境と相互作用するためのコンピュータ制御されるシステム、及び、このようなシステムを構成するための訓練システムが提案される。本発明の他の態様によると、コンピュータ可読媒体が、請求項14及び請求項15により規定されるように提供される。
【0007】
当然に知られているように、様々な実施形態において、人工的ニューラルネットワークとしても知られるニューラルネットワークは、物理環境と相互作用するためのポリシーとして使用される。このようなニューラルネットワークポリシーは、パラメータ集合によりパラメータ的に規定される。パラメータ集合は、実際の、及び/又はシミュレーションによる相互作用の相互作用データに基づいて訓練される。特定のタスクを実施するように訓練されることにより、ポリシーは、そのパラメータ集合に従って物理環境と実際に相互作用するように、システムに配備される。このような相互作用中に、例えばカメラ画像といった環境の観測可能状態がポリシーに入力される。これに基づいて、アクションが、ロボットアームなどのアクチュエータにより環境において実現されるように選択される。アクションの集合は典型的には有限であり、例えば、ロボットアームは左、右、上、又は下に駆動される。強化学習においてよく見られるようにポリシー出力が、実施する1つのアクションを直接返す代わりに、それぞれのアクションを実施する複数のアクション確率を含むという意味で、ポリシーは推計学的である。
【0008】
本発明者らが気付いたように、相互作用が行われる(多くの場合に物理的な)環境は、どの観測された状態においてどのアクションが有益と想定されるかという観点から様々な対称性を示す。例えば、カメラ画像に基づいて左又は右に操縦することにより車線内に車両を維持するようにタスクを課された自律的な車両の制御システムでは、画像が水平に反転された場合、左に操縦すること、又は右に操縦することの望ましさは、同様に反転される。例えば回転、縦の又は対角線上の反転などを伴う観測された状態における様々な他の種類の対称性が同様に考えられる。観測可能状態の複数のセンサ測定結果は、対称性により異なる形態により影響を受け、例えば、自律的な車両が、カメラ画像及び左/右傾倒センサを使用する場合、水平鏡面対称性は、カメラ画像の水平反転、及び傾倒センサにより測定された角度のネゲーションに対応する。取り得る行動は、様々な手法により環境対称性により同様に影響を受け、例えば、幾つかのアクションがスワップされ、又は別様に置換されるとともに、他のアクションは特定の対称性による影響を全く受けない。概して、対称性は、観測可能状態集合に対する変換(多くの場合、線形変換)により、及び、取り得るアクションの集合の置換により表される。このような対称性は、更に、患者の体における幾つかの対称性(例えば、矢状面、前頭面、及び/又は横断面及び軸、中心軸の周りにおける骨の運動、臓器間の対称性-例えば、右肺及び左肺など)を考慮することにより、健康管理環境において、又は、手術室における手術現場の環境において見られる。この対称性は測定結果から直接検出され、又は、幾つかの対称性を読み取るための、それらの測定の結果の前処理後に見出される。
【0009】
本発明者らは、ポリシーを演算するニューラルネットワークにこのような対称性を組み込むことにより、はるかに効率的なポリシーが取得されることに気付いた。例えば、同じ期待累積報酬を伴う同じ品質のポリシーを取得するために、より少ないパラメータが必要とされる。代替的に、パラメータの個数を固定する場合、対称性を導入することは、ポリシーがより高い期待累積報酬を伴って取得されることを可能にする。ニューラルネットワークの訓練中に、データ効率が改善され、例えば、特定の品質のポリシーに到達するために必要とされる観測量は減らされる。物理(例えば非シミュレーション)環境にポリシーを適用する場合、後者は特に重要である。実際、ポリシーを学習するために必要なデータの量は非常に多くなり得る。また一方では、非シミュレーション環境において多くの観測データを取得することは典型的には困難であり、例えば相互作用期間は限られており、失敗は現実世界のコストを伴う。
【0010】
画像分類の分野では、ニューラルネットワークにおける対称性の使用は当然に知られている。例えば、T.S.Cohen及びM.Wellingによる「Group Equivariant Convolutional Networks」(https://arxiv.org/abs/1602.07576において入手可能であり、参照により本明細書に組み込まれる)では、回転した手書きされた数字に対して画像分類を実施することが示されている。並進移動、反射、及び回転を組み込むことにより、数字がどのように回転させられたかにかかわらず数字を認識することを効果的に学習するニューラルネットワークが取得される。しかし、画像分類と強化学習との間の重要な違いに起因して、このような知られた群同変畳み込みネットワークは、アクション確率を決定することに適さない。例えば、このようなニューラルネットワークの最終層は、画像がどのように回転させられたかにかかわらず同じ分類を出力する。上述のように、アクションを実施することの望ましさは入力の変換とともに変化するので、アクション確率を決定するとき、これは望ましくない。更に、標準的な群同変畳み込みネットワークは典型的には並進移動のもとでの画像の不変性に依存するのに対し、これらは通常、予測可能な手法により入力の並進移動に応答して変化することは想定されないので、これは多くの場合、アクション確率を決定するときに考慮する有用な種類の対称性ではない。
【0011】
しかし、興味深いことに、本発明者らは、検討中の物理環境の組み合わされた状態/アクション対称性が効果的に組み込まれ得る、より良い種類のニューラルネットワークを考え出した。一般的に、ニューラルネットワークは、複数の層を備える。アクション確率は、最終層入力からニューラルネットワークの最終層において決定され、ひいては観測可能状態から決定される。興味深いことに、様々な実施形態において、最終層は、注意深く規定された基底重み行列の集合の線形結合を適用することにより最終層入力に適用される。この線形結合の係数は、ニューラルネットワークパラメータ集合に含まれる。線形結合を適用することの出力は、アクション確率の一部又は全てに対する事前非線形性有効化を提供し、そこから、アクション確率が、例えばソフトマックスを使用して演算される。興味深いことに、これらの基底重み行列は、同変となるように規定されることにより組み合わされた状態/アクション対称性を組み込むように規定され、最終層入力の複数の既定の変換の集合に対して、各変換は最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす。
【0012】
例えば、最終層入力の変換は、行列Rθとして表された線形変換をされ、基底重み行列出力の置換は、行列Pθとして同様に表される。この場合において、基底重み行列Wは、組み込まれる各環境対称性θに対して同変関係PθW=WRθを満たす。これは、ひいては、任意の最終層入力に対してPθWz=WRθzであることを意味する。例えば、変換された最終層入力Rθzを取得するために最終層入力zを変換することは、この場合において、未変換最終層入力zの元の基底重み行列出力Wzのアクション置換Pθにより対応する基底重み行列出力WRθzが置換PθWzになることをもたらす。
【0013】
各基底重み行列が同変となるように規定される場合、更に、このような基底重み行列の線形結合は同変であり、したがって、物理環境における対称性を守る。したがって、基底重み行列集合は、基底重み行列出力を提供するように効果的に制約され、以て、アクション確率がそれらから決定され、物理環境の対称性を反映する。対称性が効果的に考慮されるので、1つの観測された状態からの経験は、他の変換された状態におけるアクションを導出するために再使用される。特に、既存の畳み込みニューラルネットワークに見られるようなネットワークの視覚部だけでなく、探索も再使用され、このことは、報酬のスパース性に起因して強化学習において特に重要である。したがって、物理環境における対称性を反映することにより、特定の表現性を伴うニューラルネットワークを取得するために、より少ないパラメータが必要とされ、使用時と訓練時との両方において効率改善を提供する。
【0014】
興味深いことに、本明細書において説明されている技術は、例えば環境モデル又はシェイピングされた報酬対称性から対称性を学習することを必要とせずに適用され、代替的に、対称性は、ポリシー、環境モデル、又は報酬シェイピングの全体を指定することを必要とせずに、アプリオリに指定され、及び本明細書において開示されているように使用され得る。例えば、様々な知られたモデルベースのアプローチに見られるようなモデルを推測することは必要とされず、多くの可動部を含む関連する複雑なアーキテクチャを不要にする。
【0015】
より詳細には、基底重み行列出力のアクション置換に関連して、これらは典型的には物理環境の対称性に対応している。例えば、環境の画像の水平スワップといった物理環境の観測可能状態の特定の変換が、アクションの特定の置換が実施されることをもたらすことが想定され、例えば、画像により表された物理環境において第1のアクションを実施することが、スワップされた画像により表された物理環境において第2のアクションを実施することに対応する。アクション置換は予め規定され、例えば手動で規定される。アクション置換は、例えば基底重み行列を生成することにおける使用のためのニューラルネットワークを訓練するための入力として取得されるが、外部ソースから取得された基底重み行列に対する制約として暗示されてもよい。
【0016】
最終層入力の変換に関連して、これらは、様々な手法により物理環境の対称性を反映する。好ましくは、最終層入力は、例えば観測可能状態の複数の状態変換が与えられたとき、同変手法により観測可能状態から決定され、各状態変換は最終層入力に対応する変換をもたらす。最終層入力に対するこれらの変換は、次に上述のようにアクション置換に対応する。変換は典型的には予め規定され、例えばニューラルネットワーク設計の一部として手動で規定される。変換は、例えば基底重み行列集合を生成するために、ニューラルネットワークの訓練に対する入力として明示的に与えられてもよく、又は、外部ソースから取得された基底重み行列に対する制約として暗示されてもよい。
【0017】
例えば、物理環境は対称性、例えば鏡面対称性θを満たすと想定され、ここで、観測可能状態はアクション確率に対して同変であり、すなわち、観測可能状態xの各変換Qθxは、アクション確率yの置換Pθyに対応すると想定される。したがって、最終層入力は観測可能状態に対して、及びアクション確率に対して同変であるように規定され、最終層入力zの変換Rθは、観測可能状態xに対して、対応する最終層入力の変換Rθzが変換された観測可能状態Qθxに対する最終層入力に等しくなる手法により規定される。更に、上述のように、基底重み行列Wに対して、変換Rθは上述の置換Pθに対応し、例えばPθW=WRθである。
【0018】
興味深いことに、対応する観測可能状態変換、最終層入力変換、及びアクション置換を含むことにより、ニューラルネットワーク全体が同様に同変を満たし、例えば、これらの変換及び置換に対応した環境対称性を反映したアクション確率を提供する。これは、以前の層がどの程度厳密に同変を保証するか(これに対しては幾つかの可能性が提示される)にかかわらず当てはまり得る。ネットワークにわたって対称性を維持することにより、特に効率的な学習及び正確な結果が取得される。
【0019】
例えば、最終層入力は、例えば「Group Equivariant Convolutional Networks」に開示されている知られた群同変ニューラルネットワークの1つ又は複数の層を適用することにより、観測可能状態から決定される。例えば、並進移動及びスワップに対して不変な画像分類のために設計された知られたニューラルネットワークが使用される。このようなネットワークに対する入力の変換、例えば並進移動又はスワップは、層出力の対応する変換をもたらす。このような層出力は、本明細書において説明されているようにポリシーに対する最終層入力として使用され、ここで、環境対称性に対応した内部層出力の変換が、最終層の基底重み行列を規定するために使用される。これらの環境対称性は、典型的には並進移動を含まない。
【0020】
しかし、「Group Equivariant Convolutional Networks」に開示されている群同変ニューラルネットワークを使用することは必要とされず、特に、「Group Equivariant Convolutional Networks」において説明されているように並進移動を維持する内部層を使用することも必要ではない。一貫して、例が提供される。環境対称性を明示的に考慮する最終層入力を決定するためにニューラルネットワークを使用することさえ必要ではなく、例えば、ニューラルネットワークは、入力として観測可能状態及びそれらの変換を使用して訓練され、ここで、ニューラルネットワークは、変換された観測可能状態に適用されたときに同変手法により変換する最終層入力を決定するためにその損失関数を介してエンカレッジされる。実際、本明細書において説明されているように最終層を使用するだけで、観測可能状態変換に従って変換する最終層入力を提供するために、ニューラルネットワークを既に十分にエンカレッジする。
【0021】
最終層入力の厳密な変換及び対応するアクション置換にかかわらず、基底重み行列は様々な手法により規定される。例えば、基底重み行列は、行列として、最終層入力に対する内積として適用されるベクトル集合として、その他などとして表される。複数の基底重み行列は、例えば1つの入力及び/又は出力チャンネルに対する1つの部分行列から導出される。後述のように、基底重み行列は予め規定され、例えば、コンピュータにより、又は手動で事前に演算され、又は必要なときに演算される。いずれの場合においても、典型的には、基底重み行列のうちの少なくとも幾つかが、最終層の複数の出力に影響を与え、したがって、環境対称性がニューラルネットワークの可能な出力を制限するということを反映する。したがって、基底重み行列による複数の出力の影響は、異なる出力間のある種類の重みシェアリングと考えられ得、これにより、ニューラルネットワークのパラメータの個数の低減が達成される。
【0022】
基底重み行列は、変換及びアクション置換を反映した重み行列の空間全体に広がり得るが、興味深いことに、これが必須というわけではなく、基底重み行列集合は、例えばランダムにサンプリングされた部分空間といった、許容された基底重み行列の部分空間だけにわたって広がってもよい。これは、パラメータの個数の非常に大幅な低減を可能にし、特に、本例によらなければ基底重み行列の数は圧倒的に大きくなる。したがって、同変を維持し、ニューラルネットワーク層のパフォーマンスと表現性との間のトレードオフをもたらすことが可能である。
【0023】
上述の基底重み行列の線形結合は、ポリシーに従って物理環境と相互作用するときと、このような環境相互作用を実施するためのシステムを構成するとき、例えば訓練するときとの両方に適用される。両方の場合において、より少ないパラメータが、ニューラルネットワークの最終層に対して必要とされ、以て、ニューラルネットワークを訓練することと使用することとの両方の効率を高める。
【0024】
任意選択的に、変換及び置換を規定する環境対称性は数学的な群を形成し、例えば、環境対称性集合は、恒等対称性を含み、変換の合成について閉じており、結合律を満たし、逆元について閉じている。これらの性質は対称性に対する自然な性質であり、例えばポリシーが画像の90度ぶんの1つの回転を反映しなければならない場合、繰り返される90度ぶんの回転及び-90度ぶんの回転を更に反映しなければならない。全対称群を考慮することにより、利用可能な対称性がモデルにより、より最適に使用される。
【0025】
任意選択的に、センサデータは、物理環境の画像を含む。様々な用途において、画像は、例えば自律的な車両に対する交通状況、医療ツールの医療環境、製造ロボットに対する中間生成物などの環境状態に関する有用な情報を提供する。画像は多くの場合、アクチュエータを使用して実施されるアクションのアクション置換に対応した、例えば回転又はミラーリングといった様々な対称性を示す。このような場合において、このような状態/アクション状態対称性を組み込むための本明細書において提供される技術の使用は特に効果的である。
【0026】
任意選択的に、特徴変換は物理環境の画像の回転に対応し、及び/又は、特徴変換は画像の反射に対応する。例えば、反射は、例えば画像又は3Dシーンの中心軸におけるミラーリングである。一実施形態において、特徴変換は画像の180度回転に対応している。一実施形態において、特徴変換集合は、90度の回転、180度の回転、及び270度の回転を含む。一実施形態において、変換集合は、水平ミラーリングと縦ミラーリングとを含む。このような環境対称性は多くの場合、実際に発生し、したがって、ポリシーに対するニューラルネットワークに組み込むために特に有用である。
【0027】
任意選択的に、センサデータは、画像に加えて1つ又は複数の更なるセンサ測定値を含む。物理環境の対称性は、異なる手法によりこのような測定値に影響する。例えば、1つ又は複数の更なるセンサ測定値が、画像に影響を与える環境対称性のもとで不変であり、例えば、画像がスワップされるのに対し、温度測定結果は影響を受けない。しかし、興味深いことに、更に、1つ又は複数の更なるセンサ測定結果が入力画像とともに変化し、例えば、入力画像が水平にスワップするとき、水平面に対する角度の測定結果が反転される。興味深いことに、更に、更なるセンサ測定結果のこのような変換がニューラルネットワークにより考慮され、このようなセンサ測定結果がアクション確率を決定するために効果的に使用されることを可能にする。
【0028】
任意選択的に、最終層を適用することは、上述の元の線形結合は別として、基底重み行列集合の更なる線形結合を最終層入力に適用することを有する。更なる線形結合の係数は、元の線形結合の係数に加えてパラメータ集合に含まれる。例えば、実行される取り得るアクションの集合は、各々がアクション置換による影響を別々に受ける複数の部分集合を含む。例えば、アクションa及びaはアクション置換によりスワップされ、アクションa及びaは独立してスワップされる。このような場合において、aからaを同時に演算するために基底重み行列集合を取得する代わりに、基底重み行列集合が取得され、次にこの基底重み行列集合がまずアクションa及びaの第1の部分集合に対する出力を演算し、次に、異なるパラメータ集合を使用してアクションa及びaの第2の部分集合に対する出力を更に演算するために適用される。以て、基底重み行列集合が再使用され得、それらを維持するために必要なストレージを減らし、適用可能な場合は更にそれらを演算するために必要な演算リソースを減らす。
【0029】
任意選択的に、最終層を適用することは、更なる基底重み行列集合の更なる線形結合を最終層入力に適用することを更に有する。更なる基底重み行列集合は、元の基底重み行列集合と同様に取得される。しかし、興味深いことに更なる基底重み行列集合は別の変換集合に対して同変であり、すなわち、最終層入力の複数の既定の変換のこの更なる集合に対して、各変換は、最終層入力に対する更なる基底重み行列出力の対応する更なる既定のアクション置換をもたらす。したがって、取り得るアクションの集合は、第1の部分集合であって、その第1の部分集合のアクション確率が元の基底重み行列集合を使用して決定される、第1の部分集合と、第2の部分集合であって、その第2の部分集合のアクション確率が更なる基底重み行列集合を使用して決定される、第2の部分集合とを含む。1つの基底重み行列集合全体が取り得るアクションの集合の両方に対してアクション確率を決定するために更に使用され得るが、興味深いことに、より少ない数の基底重み行列で十分であり、基底重み行列自体がより小さいので、異なる基底重み行列を使用することがより高効率となる。好ましくは、最終層入力は、上述のように元の変換集合と更なる変換集合との両方に対して同変である。
【0030】
任意選択的に、アクション確率を決定することは、少なくとも最終層入力に基底重み行列の線形結合を適用することの出力にソフトマックスを適用することを更に有する。基底重み行列の線形結合は、それぞれのアクションを実施することの相対的な望ましさを示す値を提供する。このような相対的な望ましさの値にソフトマックスを適用することにより、アクションにわたる確率分布が取得される。例えば、ソフトマックスは、基底重み行列の線形結合、及び、任意選択的に更に他の取り得るアクションの望ましさの値を提供する他の線形結合の出力に適用される。
【0031】
任意選択的に、最終層入力は、観測可能状態のそれぞれの変換に対応した複数の特徴ベクトルを含む。例えば、状態・アクション対称性に従って観測可能状態を変換することは、複数の特徴ベクトルの置換をもたらす。言い換えると、最終層入力の変換は、複数の特徴ベクトルの置換を含み、したがって比較的効果的に評価され得る。例えば、知られた群畳み込みニューラルネットワークは典型的にはこのタイプの特徴ベクトルを提供する。特徴ベクトルは、例えば1つの、最大で又は少なくとも2つの、又は、最大で又は少なくとも5つの特徴を含む。同様に、ニューラルネットワークの一部又は全ての他の層は、観測可能状態のそれぞれの変換に対応した複数の特徴ベクトルを含む。
【0032】
任意選択的に、最終層入力、又はより早期の層に対する入力の特徴は、観測可能状態の並進移動に対応した特徴ベクトルにわたる平均プーリングにより決定される。例えば、ニューラルネットワークの以前の層が、例えば「Group Equivariant Convolutional Networks」に開示されているように、観測可能状態の並進移動と別の変換との両方を実施することに各々が対応した特徴ベクトルを提供する。様々な並進移動及び特定の他の変換に対応した特徴ベクトルが、他の変換に対する特徴ベクトルを取得するために平均プーリングされ、したがって、並進移動同変ニューラルネットワークの物体認識能力がより早期の層において使用されることを可能にするとともに、後の層に対する、より圧縮された入力を提供する。
【0033】
任意選択的に、複数のアクション確率は、アクション置換の各々のもとで不変な少なくとも1つのアクション確率と、アクション置換のうちの幾つかのもとで不変でない少なくとも1つのアクション確率とを含む。例えば、「左に動く」及び「右に動く」といった2つのアクションが、例えば入力画像をミラーリングすることに対応したアクション置換のもとでスワップされるのに対し、例えば「何もしない」といった別のアクションは、入力のこの変換により影響を受けない。興味深いことに、本明細書において提供される技術は、このような種類のアクション置換、及び、より概括的には、物理環境の対称性と1対1対応しない他の種類のアクション置換を表すために十分に強力である。
【0034】
任意選択的に、更なる基底重み行列が、ニューラルネットワークの更なる層に対して取得される。特に、ニューラルネットワークの更なる層に対する更なる基底重み行列の集合が取得され、ここで、複数の既定の変換の集合からの変換に従って更なる層入力を変換することは、更なる層入力に対する更なる基底重み行列出力の対応する既定の変換をもたらす。この更なる層を評価するために、更なる基底重み行列の集合の線形結合が、更なる層入力に適用される。例えば、更なる層入力及び更なる層出力の変換は、上述のように、最終層入力と同様に物理環境の対称性に対応する。ニューラルネットワークの他の層、好ましくはニューラルネットワークの全ての層における基底重み行列の線形結合を使用することにより、ニューラルネットワークのパラメータ集合のより良い低減が達成される。
【0035】
任意選択的に、ポリシーを訓練するとき、言い換えると、そのパラメータ集合を最適化するとき、最終層に対する基底重み行列集合は、複数の既定の変換及び対応する既定のアクション置換から自動的に決定される。更なる層に対する基底重み行列の更なる集合は、同様に自動的に決定される。幾つかの例において、手動で基底重み行列集合を決定することが可能であるが、特に、より大きい層サイズ及び/又はより多くの対称性に対して、このような手動演算は実行不可能な場合があり、何度も実施されることが煩わしいものであり得る。より大きい層サイズに対して、例えば同変を提供するが可能な同変の集合全体に及ぶとは限らない基底重み行列集合といった、近似的な基底重み行列集合が決定され、したがって、同変に影響を与えずにパラメータの個数の更なる低減を提供する。
【0036】
最終層に対する基底重み行列集合を決定することは、様々な実施形態において、最終層入力の各変換Rθ、及び基底重み行列出力の各置換Pθに対して、及び他の層に対して同様に、式PθW=WRθを満たす重み行列Wの集合を決定することと表現される。式PθW=WRθは、一般的な技術を使用して解かれ得るWの要素における線形系をもたらす。同様の式が他の層に対して規定され得る。
【0037】
任意選択的に、基底重み行列は、初期重み行列Wを取得することと、対応するアクション置換の変換及び逆射を初期重み行列に適用することと、変換された、及び置換された初期重み行列を一緒に加算することとにより取得される。特に、線形変換Pθ、Rθに対して、本発明者らは、W’=Σθθ -1WRθを演算することが、Pθ、Rθの各々に関連した同変関係PθW=WRθを満たす重み行列を提供することに気付いた。したがって、候補基底重み行列が取得される。任意選択的に、この手法により取得された候補基底重み行列集合は、基底重み行列を直交させること、例えば、基底重み行列をベクトル化すること、ベクトル化された基底重み行列を正規直交化すること、及び、正規直交化されたベクトル化された基底重み行列を非ベクトル化することにより更に改良される。したがって、ランダム化された手法により、基底重み行列集合全体の良い表現を提供する基底重み行列集合が取得される。
【0038】
任意選択的に、パラメータ集合は、ポリシー勾配アルゴリズムを使用して最適化される。例えば John Schulmanらによる「Proximal Policy Optimization Algorithms」に開示されているPPO法といった様々なポリシー勾配技術が、本明細書において提供されるニューラルネットワークと組み合わされる。ニューラルネットワークにおける状態/アクション対称性の組み込み、及び、結果として得られるパラメータの個数の低減を理由として、本明細書において提供される技術は、ポリシー勾配アルゴリズムに対するデータ効率における大幅な改善を可能にする。PPOはいわゆるモデルフリー強化学習技術であるが、本明細書において説明されている技術はモデルベースの強化学習にも適用可能であることに留意されたい。
【0039】
上述の実施形態、実施態様、及び/又は本発明の任意選択的な態様のうちの2つ以上が、有用と考えられる任意の手法により組み合わされてもよいことが当業者により理解される。
【0040】
対応するコンピュータにより実施される方法の説明されている変更例及び変形例に対応した任意のシステム及び/又は任意のコンピュータ可読媒体の変更例及び変形例が、本説明に基づいて当業者により実行されてもよい。
【0041】
本発明のこれらの態様及び他の態様は、以下の説明において例示として添付図面を参照しながら説明される実施形態から明確にされ、及び、その実施形態を参照しながら説明される。
【図面の簡単な説明】
【0042】
図1】ポリシーに従って物理環境と相互作用するためのコンピュータ制御されるシステムを示す図である。
図2】ポリシーに従って物理環境と相互作用するコンピュータ制御されるシステムを構成するための訓練システムを示す図である。
図3】物理環境、この場合において自律的な車両と相互作用するためのコンピュータ制御されるシステムを示す図である。
図4】物理環境と相互作用するためのポリシーのニューラルネットワークの詳細な例を示す図である。
図5a】観測可能状態の変換の一例を示す図である。
図5b】最終層入力の変換の一例を示す図である。
図5c】実施されるアクションのアクション置換の一例を示す図である。
図6】ポリシーに従って物理環境と相互作用するコンピュータにより実施される方法を示す図である。
図7】ポリシーに従って物理環境と相互作用するシステムを構成するコンピュータにより実施される方法を示す図である。
図8】データを含むコンピュータ可読媒体を示す図である。
【発明を実施するための形態】
【0043】
図は概略的なものに過ぎず、一定の縮尺で描かれないことに留意されなければならない。図中、既に説明されている要素に対応した要素は、同じ参照符号を付されている場合がある。
【0044】
図1は、ポリシーに従って物理環境081と相互作用するためのコンピュータ制御されるシステム100を示す。ポリシーは、物理環境081の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定する。ポリシーは、パラメータ集合040によりパラメータ的に規定されたニューラルネットワークを含む。ニューラルネットワークは、観測可能状態から最終層入力を決定することと、最終層入力にニューラルネットワークの最終層を適用することとによりアクション確率を決定する。システム100は、データ通信121を介して内部通信するデータインターフェース120及びプロセッササブシステム140を備える。データインターフェース120は、ポリシーのパラメータ集合040にアクセスするためのものである。データインターフェース120は、後述のように基底重み行列データ030にアクセスするためのものである。パラメータ集合042及び/又は基底重み行列データ030は、例えば図2のシステム200により本明細書において説明されている方法に従って決定される。
【0045】
プロセッササブシステム140は、システム100の動作中に、及びデータインターフェース120を使用して、データ030、040にアクセスするように構成される。例えば、図1に示されているように、データインターフェース120は、データ030、040を備える外部データストレージ021へのアクセス122を提供する。代替的に、データ030、040は、システム100の一部である内部データストレージからアクセスされる。代替的に、データ030、040は、別のエンティティからネットワークを介して受信される。例えば、システム100が構成されている間、データ030、040は、例えば、それぞれの環境相互作用に対して複数回にわたって図2のシステム200から取得される。概して、データインターフェース120は、例えばローカルエリアネットワーク又は広域ネットワーク、例えば、インターネットへのネットワークインターフェース、内部又は外部データストレージへのストレージインターフェースなどの様々な形態をとる。データストレージ021は、任意の知られた及び適切な形態をとる。
【0046】
システム100は、物理環境の観測可能状態を示す例えばカメラ071といった1つ又は複数のセンサからのセンサデータ124を取得するための、画像入力インターフェース160又は任意の他の種類の入力インターフェースを含む。例えば、カメラは画像データ124を捕捉するように構成され、プロセッササブシステム140が入力インターフェース160からデータ通信123を介して取得された画像データ124に基づいて観測可能状態を特定するように構成される。入力インターフェースは、様々な種類のセンサ信号が環境及び/又はデバイス100自体の物理量、及びそれらの組み合わせ、例えばビデオ信号、レーダー/LiDAR信号、超音波信号などを示すように構成される。
【0047】
幾つかの実施形態において、センサは環境081に配置される。他の例において、例えば量が遠隔から測定され得る場合、センサは環境081から遠隔に配置される。例えば、カメラベースのセンサは環境081の外部に配置されるが、それにもかかわらず、例えば環境における物理的実体の位置及び/又は配向といった環境に関連した量を測定する。センサインターフェース180は、他の場合から、例えばデータストレージ又はネットワーク位置からセンサデータに更にアクセスする。センサインターフェース180は、例えばI2C又はSPIデータ通信に基づく低レベル通信インターフェースだけでなく、データストレージインターフェース、例えばメモリインターフェース又は永続的なストレージインターフェース、又は、パーソナル、ローカル、又は広域ネットワークインターフェース、例えば、Bluetooth、ZigBee、又はWi-Fiインターフェース、又はイーサネット、又は光ファイバーインターフェースを包含するがこれらに限定されない任意の適切な形態をもつ。センサは、システム100の一部である。
【0048】
システム100は、アクチュエータがシステム100の物理環境081におけるアクションを実現することをもたらすアクチュエータデータをアクチュエータに提供するためのアクチュエータインターフェース180を備える。例えば、プロセッササブシステム140は、本明細書において説明されているようにポリシーにより決定されたアクション確率に少なくとも部分的に基づいてアクチュエータデータを決定するように構成される。例えば、ポリシーは、例えば衝突リスクといった例外的な状態を検出し、これに基づいて、例えばブレーキといった安全システムが有効化される。それぞれのアクションを実施する複数のアクチュエータが更に存在し得る。アクチュエータは、電気的な、液圧式の、空気圧式の、熱的な、磁気的な、及び/又は機械的なアクチュエータであってもよい。具体的な、しかし非限定的な例は、電気モーター、電気活性ポリマー、液圧式シリンダー、圧電アクチュエータ、空気圧式アクチュエータ、ソレノイド、ステッピングモーター、サーボ機構などを包含する。アクチュエータはシステム200の一部である。
【0049】
プロセッササブシステム140は、システム100の動作中に、及びデータインターフェース120を使用して、ニューラルネットワークの最終層に対する基底重み行列集合を表す基底重み行列データ030を取得するように構成され、ここで、最終層入力の複数の既定の変換の集合に対して、各変換が、最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす。プロセッササブシステム140は、センサインターフェース160を介して物理環境の観測可能状態を示す1つ又は複数のセンサからのセンサデータを繰り返し取得することと、アクション確率を決定することと、アクチュエータが決定されたアクション確率に基づいて物理環境におけるアクションを実現することをもたらすように、アクチュエータにアクチュエータデータ126をアクチュエータインターフェース180を介して提供することとにより物理環境との相互作用を制御するように更に構成される。プロセッササブシステム140は、最終層入力に基底重み行列集合の線形結合を適用することによりニューラルネットワークの最終層を適用することを有して、観測可能状態に基づいてアクション確率を決定するように構成され、線形結合の係数はパラメータ集合に含まれる。
【0050】
システム100の動作の様々な詳細事項及び態様が、その任意選択的な態様を含め、図3及び図4を参照しながら更に説明される。
【0051】
概して、システム100は、例えばワークステーション、例えばラップトップ、又はデスクトップベースのもの、又はサーバーといった1つのデバイス又は装置として、又は1つのデバイス又は装置において具現化される。デバイス又は装置は、適切なソフトウェアを実行する1つ又は複数のマイクロプロセッサを備える。例えば、プロセッササブシステムは、1つの中央処理ユニット(CPU)により具現化されてもよく、このようなCPU及び/又は他のタイプの処理ユニットの組み合わせ又はシステムにより具現化されてもよい。ソフトウェアは、ダウンロードされたもの、及び/又は、例えば揮発性メモリ、例えばRAM、又は不揮発性メモリ、例えばフラッシュといった対応するメモリに記憶されたものであってもよい。代替的に、システムの機能ユニット、例えばデータインターフェース及びプロセッササブシステムは、例えばフィールドプログラマブルゲートアレイ(FPGA)及び/又はグラフィックス処理ユニット(GPU)としてプログラム可能論理部の形態によりデバイス又は装置において実現される。概して、システムの各機能ユニットは回路の形態により実現される。システム100は、例えばクラウドコンピューティングの形態をとる例えば分散型サーバーといった、例えば異なるデバイス又は装置を伴う分散した手法により実現されてもよいことに留意されたい。
【0052】
図2は、本明細書において説明されているようにポリシーに従って物理環境と相互作用するコンピュータ制御されるシステムを構成するための訓練システム200を示す。例えば、訓練システム200は、システム100を構成するためのものである。訓練システム200及びシステム100は、1つのシステムに組み合わされてもよい。
【0053】
訓練システム200は、データ通信221を介して内部通信するデータインターフェース220とプロセッササブシステム240とを備える。データインターフェース220は、ポリシーのパラメータ集合040にアクセスするためのものである。データインターフェース220は、ニューラルネットワークの最終層に対する基底重み行列集合を表す基底重み行列データ030にアクセスするためのものでもあり、ここで、最終層入力の複数の既定の変換の集合に対して、各変換が、最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす。
【0054】
プロセッササブシステム240は、システム200の動作中に、及びデータインターフェース220を使用して、データ030、040にアクセスするように構成される。例えば、図2に示されているように、データインターフェース220は、データ030、040を含む外部データストレージ022に対するアクセス222を提供する。代替的に、データ030、040は、システム200の一部である内部データストレージからアクセスされる。代替的に、データ030、040は、別のエンティティからネットワークを介して受信されてもよい。概して、データインターフェース220は、例えば、ローカルエリアネットワーク又は広域ネットワーク、例えばインターネットへのネットワークインターフェース、内部又は外部データストレージへのストレージインターフェースなどの様々な形態をとる。データストレージ022は、任意の知られた及び適切な形態をとる。
【0055】
プロセッササブシステム140は、システム100の動作中に、及びデータインターフェース120を使用して、相応に環境と相互作用することの期待報酬を最大化するように、ポリシーのパラメータ集合040を最適化するように構成される。パラメータ集合を最適化するために、プロセッササブシステム140は、構成されるコンピュータ制御されるシステムにより実施される観測された環境状態及び対応するアクションのシーケンスを示す相互作用データを繰り返し取得することと、相互作用の報酬を決定することと、観測された環境状態のシーケンスの観測された状態における、対応するアクションを選択するポリシーのアクション確率を決定することと、決定された報酬とアクション確率とに基づいて期待報酬を上げるためにパラメータ集合040を調節することとをするように構成される。ニューラルネットワークの最終層を適用するために、プロセッササブシステム140は、最終層入力に基底重み行列集合030の線形結合を適用し、線形結合の係数はパラメータ集合040に含まれる。
【0056】
システム200は、例えばシステム100といった構成されるシステムとの通信のために構成された通信インターフェース(図示されていない)を更に備える。例えば、システム200は、通信インターフェースを介して他のシステムの1つ又は複数の環境相互作用の相互作用データを取得する。相互作用データは、パラメータ集合を最適化する前に、及び/又はパラメータ集合を最適化している間に取得される。後者の場合において、システム200は、他のシステムに現在のポリシーに従って環境と相互作用させるために、他のシステムにポリシーの現在のパラメータ集合040を更に提供する。例えば、USB、IEEE 1394、又は同様のインターフェースを使用した、又は、コンピュータネットワーク、例えば、無線パーソナルエリアネットワーク、インターネット、イントラネット、LAN、WLANなどを介した、他のシステム200との直接的な通信のために様々な知られた種類の通信インターフェースが使用され、例えば構成される。通信インターフェースは、内部通信インターフェース、例えば、バス、API、ストレージインターフェースなどであってもよい。
【0057】
システム200の動作の様々な詳細事項及び態様が、その任意選択的な態様を含め、図3及び図4を参照しながら更に説明される。
【0058】
概して、システム200は、例えばワークステーション、例えばラップトップ、又はデスクトップベースのもの、又はサーバーといった1つのデバイス又は装置として、又は1つのデバイス又は装置において具現化される。デバイス又は装置は、適切なソフトウェアを実行する1つ又は複数のマイクロプロセッサを備える。例えば、プロセッササブシステムは、1つの中央処理ユニット(CPU)により具現化されてもよく、このようなCPU及び/又は他のタイプの処理ユニットの組み合わせ又はシステムにより具現化されてもよい。ソフトウェアは、ダウンロードされたもの、及び/又は、例えば揮発性メモリ、例えばRAM、又は不揮発性メモリ、例えばフラッシュといった対応するメモリに記憶されたものであってもよい。代替的に、システムの機能ユニット、例えばデータインターフェース及びプロセッササブシステムは、例えばフィールドプログラマブルゲートアレイ(FPGA)及び/又はグラフィックス処理ユニット(GPU)としてプログラム可能論理部の形態によりデバイス又は装置において実現される。概して、システムの各機能ユニットは回路の形態により実現される。システム200は、例えばクラウドコンピューティングの形態をとる例えば分散型サーバーといった、例えば異なるデバイス又は装置を伴う分散した手法により実現されてもよいことに留意されたい。
【0059】
図3は、例えば図1のシステム100(独立して図示されていない)といった一実施形態によるポリシーに従って物理環境と相互作用するためのシステムを備える車両62を制御するための自動車制御システム300が示されるという点で、上述の一例を示す。車両62は自律車両又は半自律車両であるが、これが必須というわけではなく、例えばシステム300は非自律車両62の運転手支援システムであってもよい。例えば、車両62は、カメラ071から取得された画像に基づいて車両を制御するための相互作用システムを組み込んでいる。例えば、自動車制御システム300は、カメラ071から車両の環境081の画像を取得するためのカメラインターフェース(独立して図示されていない)を備える。
【0060】
制御システム300は、アクチュエータが物理環境081において車両62を制御するためのアクションを実現することをもたらすアクチュエータデータをアクチュエータに提供するためのアクチュエータインターフェース(独立して図示されていない)を更に備える。自動車制御システム300は、ポリシーにより決定されたアクション確率に基づいて車両62を制御するためにアクチュエータデータを決定するように、及び、アクチュエータインターフェースを介してアクチュエータにアクチュエータデータを提供するように構成される。例えば、アクチュエータは、車両の操縦及び/又はブレーキ制動を制御させられる。例えば、制御システムは、車輪42を回転させることにより車両62の操縦を制御又は支援する。例えば、車輪42は、車線内に車両62を維持するために左又は右に回転させられる。ポリシーは、この場合において水平スワップのもとで同変であるように構成され、例えばカメラ画像071が水平にスワップされた場合、ホイールを左向きに又は右向きに回転させるアクションが置換される。
【0061】
図4は、物理環境と相互作用するためのポリシーのニューラルネットワークNN400の詳細だが限定ではない例を示す。例えば、ニューラルネットワークNNは、図1のシステム100において、及び/又は図2のシステム200において適用される。
【0062】
図に示されるように、ニューラルネットワークNNは、それぞれのアクションの複数のアクション確率AP1 491からAPn 492までを決定するように構成される。例えば2つ、3つ、最大で又は少なくとも5つの、又は最大で又は少なくとも10個といった様々な数のアクション確率が可能である。各アクションは、例えば、「左に動く」、「右に動く」、「上に動く」、「下に動く」などの特定のアクションを実施するために1つ又は複数のアクチュエータに提供される信号に対応する。アクションのうちの1つは、例えば物理環境に影響を与えないアクションといったノーオペレーションである。ニューラルネットワークNNは、例えばソフトマックス関数により、アクション確率が合計で1になる手法によりアクション確率を決定するように構成される。
【0063】
ニューラルネットワークNNは、物理環境の観測可能状態OS410に基づいてアクション確率APiを決定する。観測可能状態は典型的には、例えば、カメラから取得された物理環境の画像、及び/又は、1つ又は複数の更なるセンサ測定値といった、1つ又は複数のセンサ測定結果を含む。観測可能状態OSは、例えば最大で又は少なくとも100個の、又は最大で又は少なくとも1000個の特徴の特徴ベクトルにより表される。観測可能状態OSは、複数の以前のセンサ測定結果を含み、又は複数の以前のセンサ測定結果に基づき、例えば観測可能状態OSは、固定個数の直近のセンサ測定結果のローリング履歴、最近のセンサ測定結果のローリング平均などを含む。用途に応じて、更に、例えばスケーリングなどの画像処理といった様々な種類の処理が、センサ測定結果から観測可能状態OSを取得するために実施されてもよい。概して、観測可能状態OSは、様々な種類のセンサデータ、音声データ、ビデオデータ、レーダーデータ、ライダーデータ、超音波データ、又は、様々な個々のセンサ読み取り結果、又はそれらの履歴を包含する。
【0064】
ニューラルネットワークNNは、パラメータ集合PAR440によりパラメータ的に規定される。例えば、パラメータ集合PARは、本明細書において説明されているように最終層に対する、又は他の層に対する基底重み行列の係数を含む。例えば、ニューラルネットワークNNの層数は、少なくとも5つ又は少なくとも10個であり、パラメータPARの個数は、少なくとも1000個又は少なくとも10000個である。勾配ベースの最適化に適応した、例えばそのパラメータ集合において連続な、及び/又は微分可能なニューラルネットワークNNを使用することが、訓練の効率の視点から有益である。ニューラルネットワークは人工的ニューラルネットワークとしても知られる。
【0065】
様々な実施形態において、ニューラルネットワークNNのパラメータPARは、対応するポリシーに従って環境と相互作用することの期待報酬を最大化するために最適化される。例えば、期待報酬は、マルコフ決定過程(MDP)として環境相互作用をモデル化することにより規定された期待累積報酬である。数学的に説明すると、MDPはタプル(S,A,R,T,γ)であり、ここで、Sは取り得る環境状態OSの空間であり、Aは取り得るアクションの空間であり、
【数1】
は即時報酬関数であり、T:S×A×S→[0,1]は推移関数であり、γ∈[0,1]はディスカウントファクターである。ニューラルネットワークNNにより評価されるポリシーは、πω:S→Δ(A)として規定され、ここで、Δ(A)はアクション空間における確率シンプレックスであり、例えばアクション確率AP1、…、APnの集合は合計で1になる。本例において、ωはポリシーのパラメータ集合PARを表す。
【0066】
様々な実施形態において、ニューラルネットワークNNは、相互作用が発生する物理環境の状態/アクション対称性を組み込むように訓練される。対称性集合はΘと表記される。集合Θは典型的には数学的な群構造をもつと仮定され、例えば、Θは恒等対称性をもち、対称性の合成
【数2】
及び逆射をとることについて閉じており、結合律を満たし、このことは、対称性
【数3】

【数4】
とが等しいことを意味する。例えば、対称群は、Iが恒等写像を表し、Hが水平ミラーリングを表すとしたときの水平ミラーリングの集合{I,H}であり、又は、
【数5】
Iが恒等写像を表し、Hが水平ミラーリングを表し、Vが縦ミラーリングを表し、
【数6】
が水平ミラーリング及び縦ミラーリングを表すとしたときの水平ミラーリング及び/又は縦ミラーリングの集合などである。
【0067】
対称性は典型的には観測可能状態OSと、アクション確率AP1、…、APnが決定される対象の取り得るアクションの集合との両方に影響を与える。例えば、各対称性θに対して、観測可能状態の変換Qθが規定される。例えば、変換Qθは、観測可能状態に含まれる入力画像を回転させ、又は反射させる。典型的には、Qθは線形変換であり、例えば行列により表される。更に、各対称性θに対して、アクション確率APiの置換Pθが規定され、例えば行列により更に表される。本明細書において提供される技術は、様々な種類の置換をサポートするために十分に強力であり、例えば幾つかの実施形態において、アクション確率は、各アクション置換のもとで不変な少なくとも1つのアクション確率と、アクション置換のうちの幾つかのもとで不変でない少なくとも1つのアクション確率とを含む。興味深いことに、様々な実施形態において、ニューラルネットワークNNは、これらの観測可能状態変換及びアクション置換に関連して同変であるように構成され、例えば、状態OSを変換し、次にアクション確率APiを演算することが、アクション確率APiを演算し、次にそれらを置換することと同じ出力をもたらすことが遂行され、又は少なくとも刺激され、例えば、
θ[πω](・|s)=πω(・|Qθ[s])
であり、ここで、Qθは観測可能状態sの変換であり、Pθは対応するアクション置換である。対称性、及び、観測可能状態、アクション確率、及び中間層特徴ベクトルの対応する変換は、典型的には手動で規定される。
【0068】
図に示されるように、ニューラルネットワークNNは、演算Ls420において、観測可能状態OSから最終層入力FLI450を決定することと、次に、最終層入力FLIにニューラルネットワークの最終層を適用することとにより、アクション確率APiを決定する。好ましくは、観測可能状態OSの各変換QΘ(θ∈Θ)が最終層入力FLiの対応する変換RΘをもたらすという意味で、演算Lsは対称性Θと同変であるように構成される。しかし、説明されるように、これを遂行することが厳密に必要とされるわけではなく、例えば同変は近似される。最終層入力FLIを決定する様々な手法が以下で更に詳細に説明される。
【0069】
興味深いことに、ニューラルネットワークNNの最終層は、物理環境の対称性の所望の集合に関連して同変な基底重み行列集合BWM430の使用を通して同変を維持するように構成される。例えば、このような対称性に対応した最終層入力zの各変換Rθzは、最終層入力zに基底重み行列を適用することの基底重み行列出力Wzの対応するアクション置換Pθをもたらし、例えば、最終層入力FLI、z、及び対称性θ∈Θに対してPθWZz=WRθzである。パラメータ集合PARは、各基底重み行列に対応した係数を含み、ニューラルネットワークNNの最終層は、パラメータ集合PARにより与えられた係数を使用して最終層入力FLIに基底重み行列集合BWMの線形結合LC460を適用することにより適用される。興味深いことに、基底重み行列が同変である場合、線形結合も同変であり、したがって、同変線形結合出力LCO470が取得される。したがって、ソフトマックスSMX480は、アクション確率APiを取得するために、少なくとも線形結合出力LCOに適用される。
【0070】
一例として、基底重み行列W1、…、Wk及び対応する線形結合係数C1、…、Ckが図に示されている。ニューラルネットワークNNを適用するとき、基底重み行列及び係数典型的には固定される。ニューラルネットワークを訓練するとき、少なくとも係数が典型的には訓練され、例えば、環境と相互作用することの期待報酬は、係数に関連して最大化される。
【0071】
基底重み行列集合BWMは、様々な手法により規定される。例えば、数学的に説明すると、ニューラルネットワークNNの最終層において適用される重み行列Wの同変は次のように表現される。
θWz=WRθz、∀z∈Z、θ∈Θ
θW=WRθ
【数7】
したがって、Wの同変は
【数8】
又は、W∈Wと表現され、ここで、
【数9】
である。特に、Pθが置換であり、Rθが線形変換である場合、制約
【数10】
が線形であり、結果として、Wが重み行列の全空間の線形部分空間であることが観測される。したがって、幾つかの実施形態において、集合BWMは空間Wの基底として規定される。このような場合において、例えば、集合BWMは手動で決定され、又は、例えば、知られた線形代数の技術を使用して変換Rθ及び置換Pθから演算される。
【0072】
上述の集合Wは、1入力及び/又は出力チャンネルに対して更に定義され、この場合、基底重み行列BWiは、入力チャンネルを反映するために、及び/又は、それぞれの出力チャンネルを取得するために行列を適用することにより行列W∈Wから取得される。
【0073】
興味深いことに、基底重み行列集合BWMが同変重み行列の全体集合を張ることは必要とされない。例えば、BWMは、同変重み行列の空間のランダムにサンプリングされた部分空間としてサンプリングされる。このように、パラメータC1、…、Ckの個数の低減が達成されるとともに、依然として同変を維持し、このことは、同変重み行列の空間が比較的大きい場合に特に重要である。
【0074】
特に、基底重み行列BWMを自動的に決定する1つの手法は、次のとおりである。まず、1つ又は複数の初期重み行列Wが取得され、例えば、その係数は、例えば一変量ガウシアン分布又は同様のものからランダムにサンプリングされる。次に、基底重み行列
【数11】
が、初期重み行列に変換Tθ及び置換Pθを適用すること、及び、結果を一緒に加算することにより初期重み行列Wから決定されて、例えば、
【数12】
を取得する。以て、効果的に、初期重み行列Wが、基底重み行列を取得するように対称化される。結果として得られる重み行列
【数13】
は、例えば、
【数14】
であるので、実際に同変である。この手法により取得された基底重み行列は、取得された基底重み行列の集合を直交させること、又は更には正規直交化させることにより更に改良される。したがって、重み行列は、より互いに独立したものにされ、したがって、訓練を円滑化する。例えば、直交させる/正規直交化させることは、特定された
【数15】
をベクトル化して行列
【数16】
を形成すること(ここで、行は、
【数17】
に対応する)、及び特異値分解(SVD)を演算することにより実施される。
【数18】
基底重み行列集合BWMは、この場合において、Σにおける非ゼロの特異値に対応したVの列を非ベクトル化することにより取得される。この工程が、十分に多くの初期重み行列が取得された場合の完全な基底、又はランダム部分空間を導出するために使用されることに留意されたい。例えば、初期重み行列の個数は、最大で又は少なくとも100個であり、又は最大で又は少なくとも250個である。
【0075】
したがって、基底重み行列BWMの線形結合を演算することにより、ニューラルネットワークの最終層の線形結合出力LCOが、実施される1つ又は複数の取り得るアクションに対応してどのように決定されるかが説明されてきた。
【0076】
更なる線形結合出力を取得するために最終層入力FLIに同じ基底重み行列集合BWMの更なる線形結合を適用することも可能である。この更なる線形結合の係数は、元の線形結合係数Ciに加えてパラメータ集合PARに含まれる。更なる線形結合出力に対応したアクションが、元の線形結合出力LCOとして環境対称性を適用するときと同じ手法により置換しなければならない場合、これは特に魅力的である。より多くの、及び/又はより大きい基底重み行列を使用することを必要とする線形結合出力の両方の集合を同時に演算する、より大きい基底重み行列を使用することが、同じ基底重み行列を2回適用することにより回避される。
【0077】
更に、代替的に、又は加えて、最終層入力FLIに更なる基底重み行列集合の更に異なる更なる線形結合を適用することが可能である。最終層入力の複数の既定の変換の更なる集合に対して、各変換は、最終層入力に対する更なる基底重み行列出力の対応する更なる既定のアクション置換をもたらす。言い換えると、この更なる線形結合を使用して確率が決定されたアクションは、元の最終層出力に対するアクションとは異なる形態により、環境対称性に従って置換する。最終層入力の更なる並進移動集合は、最終層入力の元の変換集合に等しいものであり、例えば、更に異なる更なる線形結合に対応したアクションは、同じ対称性に対して同変であるが、異なる置換に従っている。最終層の更なる並進移動集合は異なっていてもよく、例えば、更に異なる更なる線形結合に対応したアクションは、異なる環境対称性集合に対して同変である。この後者の例では、最終層入力FLIは好ましくは両方の対称性集合のもとで同変である。
【0078】
ここで、観測可能状態OSに基づく最終層入力FLI及び最終層入力の変換の定義の演算に進むと、様々な実施形態が想定される。
【0079】
概して、最終層入力FLIは、観測可能状態OSに群同変畳み込みネットワークの1つ又は複数の層を適用することにより取得される。群同変畳み込みネットワークのフィルタは、基底
【数19】
により張られる線形ベクトル空間の要素として規定され、ここで、各変換θ∈Θは、それ自体の基底を含む。フィルタ集合は、基底及び各入力及び出力チャンネルにおける各フィルタに対する係数
【数20】
により規定される。したがって、本明細書において説明されている空間Wは、基底{e}を含む線形ベクトル空間と考えられる。任意のW∈Wは、基底ベクトルの線形結合として説明される。フィルタωは、この基底の張るものにおいて有効であり、言い換えると、それらは、基底{e}におけるWの表現である。したがって、W及びωは対応すると見受けられる。係数
【数21】
は、群変換間において学習され、及びシェアされる。したがって、フィルタは、群変換θの基底
【数22】
に関連して、
【数23】
のように規定される。したがって、フィルタ係数は、変換θ∈Θの基底e(θ)間において効果的にシェアされ、したがって、θ∈Θの各々に対する完全に新しいフィルタではなく、ω(・)の変換されたバージョンが取得される。ニューラルネットワークは、例えば各変換θ∈Θに対応した変換されたフィルタを適用することにより、畳み込みネットワークフィルタとしてこれらのフィルタを使用することにより適用される。
【0080】
具体的には、幾つかの実施形態において、最終層入力FLIは、各々が観測可能状態のそれぞれの変換に対応した複数の特徴ベクトルFV1 451、…、FVm 452までを含む。例えば、最終層入力の変換は、環境対称性の群構造に従って複数の特徴ベクトルを置換し、例えば、
【数24】
である場合、最終層入力の変換
【数25】
は、対称性θに対応した特徴ベクトルを対称性θに対応した特徴ベクトルなどに写像する。各環境対称性に対して特徴ベクトルを含むこの構造は、ニューラルネットワークNNの一部又は全ての以前の層において繰り返され、以て、同変はニューラルネットワークにわたって保存される。
【0081】
しかし、中間層入力及び出力の変換がどのように正確に規定されるかにかかわらず、ニューラルネットワークの一部又は全ての他の層において、層出力を演算するために基底重み行列の線形結合を使用することも可能である。例えば、ニューラルネットワークの更なる層に対する更なる基底重み行列の集合を表す更なる基底重み行列データが取得され、ここで、複数の既定の変換の集合からの変換に従って更なる層入力を変換することは、更なる層入力に対する更なる基底重み行列出力の対応する既定の変換をもたらす。更なる層を評価するために、更なる基底重み行列の集合の線形結合が、パラメータ集合PARにより同様にパラメータ的に規定された更なる層入力に適用される。この場合においても、例えば、上述のように、
【数26】
の基底又は部分空間を導出することにより、環境対称性に対応した層入力の変換Rθ及び層出力のPθが与えられたとき、更なる基底重み行列の集合を決定することが可能である。
【0082】
幾つかの実施形態において、ニューラルネットワークNNの1つ又は複数のより早期の層は、状態・アクション対称性Θに対してだけでなく、並進移動に対しても同変であるように設計される。例えば、観測可能状態は物理環境の画像を含み、ここで、ニューラルネットワークの1つ又は複数の初期層は状態・アクション対称性に加えて画像の並進移動に対して同変である。例えば、「群同変畳み込みネットワーク」の群同変ニューラルネットワーク層が使用される。多くの用途において、観測可能状態の並進移動は望ましいアクションの置換をもたらさないので、観測可能状態の並進移動は概して状態・アクション対称性を誘起しないことに留意されたい。依然として、ニューラルネットワークのより早期の層に並進移動を含めることにより、それらは、例えば畳み込みニューラルネットワークにおいて一般的な物体認識タスクのためにそれらのより早期の層に使用される。したがって、後の層において、並進移動対称性が、観測可能状態の並進移動にわたる平均プーリングにより効果的に除去される。
【0083】
ニューラルネットワークNNは、物理環境の観測可能状態OSを示すセンサデータを繰り返し取得することと、観測可能状態OSに基づいてアクション確率APiを決定することと、アクチュエータが決定されたアクション確率APiに基づいて物理環境におけるアクションを実現することをもたらすアクチュエータデータをアクチュエータに提供することとにより、物理環境と相互作用するために使用される。例えば、実現されたアクションがアクション確率に従ってサンプリングされること、又は、最大確率を伴うアクションが選択されることなどが行われる。
【0084】
ニューラルネットワークNNは、観測された環境状態及びシステムにより実施される対応するアクションのシーケンスを示す相互作用データを繰り返し取得することと、相互作用の報酬を決定することと、観測された環境状態のシーケンスの観測された状態において、対応するアクションを選択するポリシーのアクション確率APiを決定することと、決定された報酬とアクション確率とに基づいて期待報酬を上げるためにパラメータ集合を調節することとにより訓練される。当然に知られた様々な強化学習技術が適用され、例えば、「Proximal Policy Optimization Algorithms」において開示されているものなどのポリシー勾配アルゴリズムが使用される。知られているように、このような最適化方法はヒューリスティックであり、及び/又は、ローカルな最適条件に到達する。相互作用データがポリシーの現在のパラメータ集合に従って相互作用から取得されるオンポリシー法を使用することと、これが当てはまらないオフポリシー法を使用することとの両方が可能である。いずれの場合においても、標準的なニューラルネットワークポリシーを最適化することが、従来全てのフィルタ重みを更新することを伴うのに対し、興味深いことに、本明細書において提示されている技術を使用すると、代わりに基底重み行列の係数Ciが更新され、より迅速な、及びより効率的な学習をもたらす。
【0085】
図5a~図5cは、観測可能状態及び最終層入力の変換、及び、アクション確率集合のアクション置換の非限定的な例を示す。特徴z11、z12、z21、z22を含む2×2入力画像及び更なるセンサ測定結果xを含む、例えば図4の観測可能状態OSといった観測可能状態510が示されている。例えば図4のアクション確率AP1、…、APnといったアクション確率π、π、π、π、πのベクトル550が更に示されている。
【0086】
一例として、観測可能状態510が取得され、アクション550が実施される物理環境は、水平ミラーリング及び縦ミラーリングに対して同変であると想定される。この例において、恒等写像I、水平ミラーリングH、縦ミラーリングV、及び水平プラス縦ミラーリング
【数27】
を含む変換集合
【数28】
は、演算
【数29】
を伴い、Iが恒等写像であり、
【数30】
であり、
【数31】
であるなどとして、数学的な意味において群と考えられる。
【0087】
例えば、矢印520により示された観測可能状態の水平ミラーリングは、変換された状態511をもたらす。この変換された状態において、画像が水平にミラーリングされるとともに、更なるセンサ測定結果がネゲートされ、例えばxは縦面における角度を表す。同様に、観測可能状態の縦ミラーリングが矢印521により示されており、例えば、画像が縦方向にミラーリングされるが、センサ測定結果が同じまま留まる変換された状態521をもたらす。観測可能状態510は、また、水平と縦との両方にミラーリングされて、例えば変換された状態513をもたらす。
【0088】
この例において、観測可能状態の変換Θは、ニューラルネットワークのアクション置換集合のアクション置換をもたらすと想定される。例えば、領域知識情報に基づいて、アクション確率集合(π,π,π,π,π) 550は水平鏡面対称性560のもとでアクション確率(π,π,π,π,π) 551に置換されなければならず、言い換えると、第1のアクションは元の観測可能状態において、変換された観測可能状態における第2のアクションと同じく望ましいと想定され、逆も同様であることが想定される。この例における他の3つのアクションは水平対称性により影響を受けない。同様に、縦対称性561のもとでアクション確率は、(π,π,π,π,π) 552に置換されなければならず、水平及び縦対称性553のもとで、アクション確率は、(π,π,π,π,π) 553に置換されなければならない。
【0089】
本明細書において提示されている技術を使用すると、観測可能状態510の変換とニューラルネットワークにより出力されるアクション確率550の対応する置換との間のこのような同変は、同変手法により観測可能状態510から最終層入力530を演算することと、次に、同変手法により最終層入力530からアクション確率550を演算することとにより達成される。この目的のために、最終層入力530は、それぞれの変換Θに対応した複数の特徴ベクトルを含む。変換I、H、V、及びHVに対応した特徴ベクトルy、y、y、及びyHVがそれぞれ図に示されている。この例における変換Θは、Θの群作用に従った最終層入力530を置換する。例えば、
【数32】
にHを適用することは、それぞれ、
【数33】
を与えるので、水平対称性540により最終層入力530を変換することは、(y,y,y,yHV)を(y,y,yHV,y) 53に置換する。同様に、縦対称性541により最終層入力530を変換することは(y,yHV,y,y) 532を与え、水平及び縦対称性542により最終層入力542を変換することは、(yHV,y,y,y) 533を与える。
【0090】
したがって、この例に示されているように、両方が検討中の物理系の領域知識情報に基づいて手動で規定される観測可能状態510及びアクション置換550の変換が与えられたとき、最終層入力530の変換が自動的に決定され得る。最終層入力及びアクション置換の変換が与えられたとき、本明細書において開示されているように、基底重み行列集合が自動的に決定され、この場合において、ニューラルネットワークの最終層は同変を維持する。例えば同様に形作られた更なる層を使用して、同変手法により最終層入力530を更に演算することにより、物理環境の対称性は、ニューラルネットワークに効果的に組み込まれる。
【0091】
図6は、ポリシーに従って物理環境と相互作用するコンピュータにより実施される方法800のブロック図を示す。ポリシーは、物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定する。ポリシーは、パラメータ集合によりパラメータ的に規定されたニューラルネットワークを含む。ニューラルネットワークは、観測可能状態から最終層入力を決定することと、最終層入力にニューラルネットワークの最終層を適用することとによりアクション確率を決定する。方法800は、図1のシステム100の演算に対応する。しかし、方法800が別のシステム、装置、又はデバイスを使用して実施されてもよいという点で、これは限定ではない。
【0092】
方法800は、「ポリシーにアクセスすること」と呼ばれる動作により、ポリシーのパラメータ集合にアクセスすること(810)を有する。
【0093】
方法800は、「基底重み行列データを取得すること」と呼ばれる動作により、ニューラルネットワークの最終層に対する基底重み行列集合を表す基底重み行列データを取得すること(820)を有し、ここで、最終層入力の複数の既定の変換の集合に対して、各変換が最終層入力に対する基底重み行列出力の対応する既定のアクション置換をもたらす。
【0094】
方法800は、「相互作用を制御すること」と呼ばれる動作により、物理環境との相互作用を制御すること(830)を有する。相互作用を制御するために、演算すること(830)は、
- 「センサデータを取得すること」と呼ばれる動作により、物理環境の観測可能状態を示すセンサデータを1つ又は複数のセンサから取得すること(832)と、
- 「アクション確率を決定すること」と呼ばれる動作により、最終層入力に基底重み行列集合の線形結合を適用することによりニューラルネットワークの最終層を適用することを有する、観測可能状態に基づいてアクション確率を決定すること(834)であって、線形結合の係数が、パラメータ集合に含まれる、決定すること(834)と、
- 「アクチュエータデータを提供すること」と呼ばれる動作により、アクチュエータが決定されたアクション確率に基づいて物理環境におけるアクションを実現することをもたらすアクチュエータデータをアクチュエータに提供すること(836)と、
を繰り返し行うことを有する。
【0095】
図7は、ポリシーに従って物理環境と相互作用するシステムを構成するコンピュータにより実施される方法900のブロック図を示す。例えば、システムは、図8の方法800を使用する。方法900は、
- 「相互作用データを取得すること」と呼ばれる動作により、観測された環境状態及びシステムにより実施される対応するアクションのシーケンスを示す相互作用データを取得すること(910)と、
- 「報酬を決定すること」と呼ばれる動作により、相互作用の報酬を決定すること(920)と、
- 「アクション確率を決定すること」と呼ばれる動作により、最終層入力に基底重み行列集合の線形結合を適用することによりニューラルネットワークの最終層を適用することを有する、観測された環境状態のシーケンスの観測された状態において、対応するアクションを選択するポリシーのアクション確率を決定すること(930)であって、線形結合の係数がパラメータ集合に含まれる、決定すること(930)と、
- 「パラメータを調節すること」と呼ばれる動作により、決定された報酬とアクション確率とに基づいて期待報酬を上げるためにパラメータ集合を調節すること(940)と、
を繰り返し行うことによりポリシーに従って環境と相互作用することの期待報酬を最大化するために、ポリシーのパラメータ集合を最適化することを有する。
【0096】
概して、図6の方法800及び図7の方法900の演算は、適用可能な場合は、例えば入力/出力関連により特定の順序が必要とされることによる影響を受けて、例えば連続して、同時に、又はそれらの組み合わせといった任意の適切な順序で実施されてもよいことが理解される。
【0097】
本方法は、専用ハードウェアとして、又は両方の組み合わせとしてコンピュータにより実施される方法としてコンピュータにおいて実施される。図8に更に示されるように、コンピュータに対する命令、例えば実行可能コードは、例えば、機械可読物理的マークの一連のもの1010の形態により、及び/又は、異なる電気的な、例えば磁気的な又は光学的な特性又は値をもつ一連の要素としてコンピュータ可読媒体1000に記憶される。実行可能コードは、一時的な、又は非一時的な手法により記憶される。コンピュータ可読媒体の例は、メモリデバイス、光ストレージデバイス、集積回路、サーバー、オンラインソフトウェア、などを包含する。図11は、光ディスク1000を示す。
【0098】
代替的に又は加えて、コンピュータ可読媒体1000は、本明細書において説明されている物理環境と相互作用するためのポリシーのパラメータ集合を表す一時的な、又は非一時的なデータ1010を含み、ポリシーは、物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定し、ポリシーは、ニューラルネットワークを含み、ニューラルネットワークは、観測可能状態から最終層入力を決定することと、最終層入力にニューラルネットワークの最終層を適用することとによりアクション確率を決定し、ニューラルネットワークの最終層が、最終層入力に基底重み行列集合の線形結合を適用することにより適用され、線形結合の係数が、パラメータ集合に含まれる。
【0099】
代替的に、又は加えて、コンピュータ可読媒体1000は、本明細書において説明されている物理環境と相互作用するためのポリシーに対する基底重み行列集合を表す基底重み行列データを表す一時的な、又は非一時的なデータ1010を含み、ポリシーは、物理環境の観測可能状態に基づいてそれぞれのアクションの複数のアクション確率を決定し、ポリシーは、ニューラルネットワークを含み、ニューラルネットワークは、観測可能状態から最終層入力を決定することと、最終層入力にニューラルネットワークの最終層を適用することとによりアクション確率を決定し、ニューラルネットワークの最終層は、最終層入力に基底重み行列集合の線形結合を適用することにより適用される。
【0100】
例、実施形態、又は任意選択的な特徴は、非限定的であると示されているか否かによらず請求項に記載されている本発明を限定するとは理解されない。
【0101】
上述の実施形態は本発明を限定するのではなく例示すること、及び、当業者が添付の請求項の範囲から逸脱することなく多くの代替的な実施形態を設計することが可能であることに留意されなければならない。特許請求の範囲において、括弧内に位置するいずれの参照符号も、請求項を限定すると解釈されてはならない。「備える(含む、有する、もつ)」という動詞及びその活用形の使用は、請求項に記載のものの他の要素又はステージの存在を否定するわけではない。単数形の要素の表現は、複数のこのような要素の存在を否定するわけではない。要素のリスト又はグループの前にあるときの「のうちの少なくとも1つ」などの表現は、リスト又はグループからの要素の全ての又は任意の部分集合の選択を表す。例えば、「AとBとCとのうちの少なくとも1つ」という表現は、Aのみ、Bのみ、Cのみ、AとBとの両方、AとCとの両方、BとCとの両方、又はAとBとCとの全てを包含すると理解されなければならない。本発明は、幾つかの区別される要素を備えるハードウェアにより、及び適切にプログラムされたコンピュータにより実現されてもよい。幾つかの手段を列挙したデバイスの請求項において、これらの手段のうちの幾つかが同じ1つのハードウェア物品により具現化されてもよい。単に特定の手段が相互に異なる従属請求項に記載されているということが、利点を得るためにこれらの手段の組み合わせが使用不可能なことを示すわけではない。
図1
図2
図3
図4
図5a
図5b
図5c
図6
図7
図8
【国際調査報告】