IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングの特許一覧

特開2023-168313相互作用する多数のエージェントを備える動的なシステムにおいて、エージェントの挙動を予測するためのコンピュータ実装された方法
<>
  • 特開-相互作用する多数のエージェントを備える動的なシステムにおいて、エージェントの挙動を予測するためのコンピュータ実装された方法 図1
  • 特開-相互作用する多数のエージェントを備える動的なシステムにおいて、エージェントの挙動を予測するためのコンピュータ実装された方法 図2
  • 特開-相互作用する多数のエージェントを備える動的なシステムにおいて、エージェントの挙動を予測するためのコンピュータ実装された方法 図3
  • 特開-相互作用する多数のエージェントを備える動的なシステムにおいて、エージェントの挙動を予測するためのコンピュータ実装された方法 図4
  • 特開-相互作用する多数のエージェントを備える動的なシステムにおいて、エージェントの挙動を予測するためのコンピュータ実装された方法 図5
  • 特開-相互作用する多数のエージェントを備える動的なシステムにおいて、エージェントの挙動を予測するためのコンピュータ実装された方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023168313
(43)【公開日】2023-11-24
(54)【発明の名称】相互作用する多数のエージェントを備える動的なシステムにおいて、エージェントの挙動を予測するためのコンピュータ実装された方法
(51)【国際特許分類】
   G06N 7/00 20230101AFI20231116BHJP
   G08G 1/00 20060101ALI20231116BHJP
   G06N 20/00 20190101ALI20231116BHJP
【FI】
G06N7/00
G08G1/00 D
G06N20/00
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023079127
(22)【出願日】2023-05-12
(31)【優先権主張番号】10 2022 204 723.0
(32)【優先日】2022-05-13
(33)【優先権主張国・地域又は機関】DE
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】アンドレアス ルック
(72)【発明者】
【氏名】バーバラ ラキチュ
(72)【発明者】
【氏名】ヤン ペータース
【テーマコード(参考)】
5H181
【Fターム(参考)】
5H181AA01
5H181AA28
5H181BB20
5H181CC02
5H181CC03
5H181CC04
5H181CC11
5H181CC12
5H181CC14
5H181CC27
5H181EE02
5H181FF04
5H181FF10
5H181FF22
(57)【要約】      (修正有)
【課題】エージェントの挙動を予測するためのコンピュータ実装された方法を提供する。
【解決手段】コンポーネント毎に、エージェントの潜在状態をモデル化する第1の分布の第1のモーメントの値が特定され、第1の分布の第2のモーメントの値が特定され、コンポーネント毎に、予測時点までの第1の分布の第1のモーメントの値、かつ第2のモーメントの値に関連して、予測時点までの第2の分布の第1のモーメントに対する期待値が特定され、第2の分布は、エージェントの挙動を、エージェントの潜在状態に関連してモデル化し、第2の分布の第1のモーメントに対する期待値は第3の分布の第1のモーメントを規定し、コンポーネント毎に、第3の分布の第2のモーメントが特定され、特に、少なくとも1つの重みによって重み付された、コンポーネントの第3の分布の総計が特定され、この総計に関連して挙動の予測が特定される。
【選択図】図1
【特許請求の範囲】
【請求項1】
相互作用する多数のエージェント(102)を備える動的なシステム(104)において、エージェント(102)の挙動を、前記エージェント(102)の潜在状態に関連して予測するためのコンピュータ実装された方法であって、
複数のコンポーネントおよび予測時点までの複数の時点に対して、コンポーネント毎に、前記エージェント(102)の前記潜在状態をモデル化する第1の分布の第1のモーメントの値を特定し(404)、前記第1の分布の第2のモーメントの値を特定し(406)、
コンポーネント毎に、前記予測時点までの前記第1の分布の前記第1のモーメントの前記値に関連して、かつ前記予測時点までの前記第1の分布の前記第2のモーメントの前記値に関連して、前記予測時点までの第2の分布の第1のモーメントに対する期待値を特定し(408)、前記第2の分布は前記エージェント(102)の前記挙動を、前記エージェント(102)の潜在状態に関連してモデル化し、前記第2の分布の前記第1のモーメントに対する前記期待値は第3の分布の第1のモーメントを規定し(412)、
コンポーネント毎に、前記第3の分布の第2のモーメントを特定し(414)、特に、少なくとも1つの重みによって重み付された、前記コンポーネントの前記第3の分布の総計を特定し(416)、
前記総計に関連して前記挙動の前記予測を特定する(420)、
ことを特徴とする方法。
【請求項2】
前記第1の分布の前記第1のモーメントの前記値を、前記時点に先行する時点に対する前記第1の分布の前記第1のモーメントの値と、前記第1の分布の前記第1のモーメントの決定論的変化に対する期待値とに関連して特定し(404)、かつ/または
前記時点に対する前記第1の分布の前記第2のモーメントの前記値を、前記時点に先行する時点に対する前記第1の分布の前記第2のモーメントの値と、前記決定論的変化の共分散と、前記第1の分布の前記第2のモーメントの確率論的変化に対する期待値とに関連して特定する(406)、請求項1記載の方法。
【請求項3】
前記時点に対する前記第1の分布の前記第2のモーメントの前記値を、前記先行する時点に対する前記第1の分布の前記第2のモーメントの前記値と、前記決定論的変化の前記共分散と、前記決定論的変化を伴う、前記先行する時点に対する前記潜在状態の共分散と、前記決定論的変化を伴う、前記先行する時点に対する前記潜在状態の前記共分散の転置と、前記確率論的変化に対する前記期待値とに関連して特定する(406)、請求項2記載の方法。
【請求項4】
前記第2の分布の前記第1のモーメントに対する前記期待値を、前記予測時点に対する前記第1の分布の前記第1のモーメントの前記値に関連して特定する(410)、請求項1から3までのいずれか1項記載の方法。
【請求項5】
コンポーネント毎に、前記予測時点に対する前記第2の分布の前記第1のモーメントの前記値に関連して、前記第2の分布の前記第1のモーメントの共分散を特定し(408)、
コンポーネント毎に、前記予測時点に対する潜在状態に関連して、前記予測時点に対する前記第2の分布の前記第2のモーメントに対する期待値を特定し(412)、
コンポーネント毎に、前記第2の分布の前記第1のモーメントの前記共分散と、前記予測時点に対する前記第2の分布の前記第2のモーメントに対する前記期待値とに関連して、前記第3の分布の前記第2のモーメントを特定する(416)、請求項1から4までのいずれか1項記載の方法。
【請求項6】
コンテキスト変数を特定し(402)、前記コンテキスト変数は割り当てを含んでおり、前記割り当ては、少なくとも1つのエージェント(102)に、前記エージェントの挙動の予測のために考慮されるべき別のエージェント(102)を割り当て、かつ/または前記コンテキスト変数は前記動的なシステム(104)の履歴を特徴付け、
前記第1の分布の前記第1のモーメントを、前記コンテキスト変数に関連して特定し(404)、かつ/または前記第1の分布の前記第2のモーメントを前記コンテキスト変数に関連して特定し(406)、かつ/または前記第1のモーメントに対する前記期待値を前記コンテキスト変数に関連して特定し(410)、かつ/または前記第3の分布の前記第1のモーメントを前記コンテキスト変数に関連して特定し(414)、かつ/または前記第3の分布の前記第2のモーメントを前記コンテキスト変数に関連して特定し(416)、かつ/または少なくとも1つのコンポーネントに対して、前記少なくとも1つの重みを前記コンテキスト変数に関連して特定する(418)、請求項1から5までのいずれか1項記載の方法。
【請求項7】
前記履歴を、前記少なくとも1つのエージェント(102)の観察された挙動に関連して、特に前記エージェント(102)の位置または動きを含んでいる挙動に関連して特定し(102)、
前記エージェント(102)の位置または動きを、特に、衛星によってサポートされている測位システムに対する受信機によって検出する、または少なくとも1つのデジタル画像を、特に、デジタル画像用のセンサによって、好ましくはカメラ、LiDARセンサ、超音波センサ、モーションセンサ、赤外線画像センサおよび/またはレーダーセンサによって検出し、前記エージェント(102)の位置または動きを少なくとも1つのデジタル画像に関連して特定する、または可聴音を受け取るスピーカによって信号を検出し、前記エージェント(102)の位置または動きを前記信号に関連して特定する、請求項6記載の方法。
【請求項8】
前記コンテキスト変数は行列を含んでおり、前記行列の行は前記エージェント(102)のうちのそれぞれ1つのエージェントを表しており、前記行列の列は前記エージェント(102)のうちのそれぞれ1つエージェントを表しており、
前記行列の行および列によって識別される要素の少なくとも1つの、特にバイナリの値を特定し(402)、前記値は、前記行によって識別された前記エージェント(102)が、前記列によって識別された前記エージェント(102)に対する予測のために考慮されるべきか否かを設定し、または
前記行列の行および列によって識別される要素の少なくとも1つの、特にバイナリの値を特定し(402)、前記値は、前記列によって識別された前記エージェント(102)が、前記行によって識別された前記エージェント(102)に対する予測のために考慮されるべきか否かを設定する、請求項6または7記載の方法。
【請求項9】
前記第1の分布の前記第1のモーメントおよび前記第2のモーメントを、反復して特定し、
前記反復のうちの第1の反復に対して、コンポーネント毎に、前記コンテキスト変数に関連している、前記第1の分布の前記第1のモーメントの値と前記第1の分布の前記第2のモーメントの値とを特定する(402)、請求項1から8までのいずれか1項記載の方法。
【請求項10】
前記予測のために、1つのエージェント(102)の複数の潜在状態を相互に関連せずにモデル化し、種々異なるエージェント(102)の複数の潜在状態を相互に関連せずにモデル化する、または
1つのエージェント(102)の複数の潜在状態を相互に関連せずにモデル化し、種々異なるエージェント(102)の複数の潜在状態の相互に相応する要素を相互に関連してモデル化する、または
1つのエージェント(102)の1つの潜在状態の種々異なる要素を相互に関連してモデル化し、種々異なるエージェント(102)の複数の潜在状態を相互に関連せずにモデル化する、請求項1から9までのいずれか1項記載の方法。
【請求項11】
前記予測に関連して、少なくとも1つのエージェント(102)、特にコンピュータによって制御される機械、特にロボット、好ましくは車両、家庭用機器、被駆動機械、製造機械、パーソナルアシスタントまたはアクセスコントロールシステムを駆動制御する(422)、請求項1から10までのいずれか1項記載の方法。
【請求項12】
前記少なくとも1つのエージェント(102)は、物理的な世界に存在している実際の対象物である、請求項1から11までのいずれか1項記載の方法。
【請求項13】
装置(100)であって、
前記装置(100)は、少なくとも1つのプロセッサ(106)と少なくとも1つのメモリ(108)とを含んでおり、前記少なくとも1つのプロセッサ(106)および前記少なくとも1つのメモリ(108)は、請求項1から12までのいずれか1項記載の方法を実施するように構成されている、
ことを特徴とする装置(100)。
【請求項14】
システム(104)であって、
前記システム(104)は、少なくとも1つのエージェント(102)、特にコンピュータによって制御される機械、特にロボット、好ましくは車両、家庭用機器、被駆動機械、製造機械、パーソナルアシスタントまたはアクセスコントロールシステムを含んでおり、
前記エージェント(102)または前記システム(104)は請求項13記載の装置(100)を含んでおり、
前記装置(100)は、前記エージェント(102)を予測に関連して駆動制御するように構成されている、
ことを特徴とするシステム(104)。
【請求項15】
コンピュータプログラムであって、
前記コンピュータプログラムは、コンピュータ読み出し可能なインストラクションを含んでおり、コンピュータによる前記インストラクションの実行時に、請求項1から12までのいずれか1項記載の方法が実施される、
ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、相互作用する多数のエージェントを備える動的なシステムにおいて、エージェントの挙動を予測するためのコンピュータ実装された方法に関する。
【0002】
Charlie Tang, Russ Salakhutdinov “Multiple Futures Prediction” 2019, NeurIPSおよびSergio Casas, Cole Gulino, Simon Suo, Katie Luo, Renjie Liao, Raquel Urtasun “Implicit Latent Variable Model for Scene-Consistent Motion Forecasting” 2020 ECCVには、このようなシステムにおける挙動を予測する手段が開示されている。
【0003】
発明の開示
独立請求項に記載されているコンピュータ実装された方法および装置によって、エージェントの挙動の予測を、この予測に必要な計算リソースに関するコストを低く抑えつつ、正確に行うことができる。
【0004】
相互作用する多数のエージェントを備える動的なシステムにおいて、エージェントの挙動を、エージェントの潜在状態に関連して予測する方法は、複数のコンポーネントおよび予測時点までの複数の時点に対して、コンポーネント毎に、エージェントの潜在状態をモデル化する第1の分布の第1のモーメントの値が特定され、第1の分布の第2のモーメントの値が特定され、コンポーネント毎に、予測時点までの第1の分布の第1のモーメントの値に関連して、かつ予測時点までの第1の分布の第2のモーメントの値に関連して、予測時点までの第2の分布の第1のモーメントに対する期待値が特定され、第2の分布は、エージェントの挙動を、エージェントの潜在状態に関連してモデル化し、第2の分布の第1のモーメントに対する期待値は第3の分布の第1のモーメントを規定し、コンポーネント毎に、第3の分布の第2のモーメントが特定され、特に、少なくとも1つの重みによって重み付された、コンポーネントの第3の分布の総計が特定され、この総計に関連して挙動の予測が特定されることを想定している。
【0005】
好ましくは、第1の分布の第1のモーメントの値が、この時点に先行する時点に対する第1の分布の第1のモーメントの値と、第1の分布の第1のモーメントの決定論的変化に対する期待値とに関連して特定され、かつ/またはこの時点に対する第1の分布の第2のモーメントの値が、この時点に先行する時点に対する第1の分布の第2のモーメントの値と、決定論的変化の共分散と、第1の分布の第2のモーメントの確率論的変化に対する期待値とに関連して特定されることが想定されている。これによって、各値が効率的に再帰的に特定される。
【0006】
この時点に対する第1の分布の第2のモーメントの値は好ましくは、先行する時点に対する第1の分布の第2のモーメントの値と、決定論的変化の共分散と、決定論的変化を伴う、先行する時点に対する潜在状態の共分散と、決定論的変化を伴う、先行する時点に対する潜在状態の共分散の転置と、確率論的変化に対する期待値とに関連して特定される。これによって、この値が、効率的に再帰的に特定される。
【0007】
好ましくは、第2の分布の第1のモーメントに対する期待値が、予測時点に対する第1の分布の第1のモーメントの値に関連して特定される。これによって、期待値が効率的に特定される。
【0008】
好ましくは、コンポーネント毎に、予測時点に対する第2の分布の第1のモーメントの値に関連して、第2の分布の第1のモーメントの共分散が特定され、コンポーネント毎に、予測時点に対する潜在状態に関連して、予測時点に対する第2の分布の第2のモーメントに対する期待値が特定され、コンポーネント毎に、第2の分布の第1のモーメントの共分散と、予測時点に対する第2の分布の第2のモーメントに対する期待値とに関連して、第3の分布の第2のモーメントが特定される。これによって、この方法は特に効率的に実施可能になる。
【0009】
好ましくは、コンテキスト変数が特定され、コンテキスト変数は割り当てを含んでおり、この割り当ては、少なくとも1つのエージェントに、このエージェントの挙動の予測のために考慮されるべき別のエージェントを割り当て、かつ/またはこのコンテキスト変数は動的なシステムの履歴を特徴付ける。第1の分布の第1のモーメントは、コンテキスト変数に関連して特定され、かつ/または第1の分布の第2のモーメントはコンテキスト変数に関連して特定され、かつ/または第1のモーメントに対する期待値はコンテキスト変数に関連して特定され、かつ/または第3の分布の第1のモーメントはコンテキスト変数に関連して特定され、かつ/または第3の分布の第2のモーメントはコンテキスト変数に関連して特定され、かつ/または少なくとも1つのコンポーネントに対して、少なくとも1つの重みがコンテキスト変数に関連して特定される。これによって、エージェントの近傍および履歴が考慮される。
【0010】
履歴は、好ましくは、少なくとも1つのエージェントの観察された挙動に関連して、特にエージェントの位置または動きを含んでいる挙動に関連して特定され、エージェントの位置または動きは、特に、衛星によってサポートされている測位システムに対する受信機によって検出される、または少なくとも1つのデジタル画像が、特に、デジタル画像用のセンサによって、好ましくはカメラ、LiDARセンサ、超音波センサ、モーションセンサ、赤外線画像センサおよび/またはレーダーセンサによって検出され、エージェントの位置または動きが少なくとも1つのデジタル画像に関連して特定される、または可聴音を受け取るスピーカによって信号が検出され、エージェントの位置または動きが信号に関連して特定される。
【0011】
コンテキスト変数が行列を含んでいることが想定されていてよく、行列の行はこれらのエージェントのうちのそれぞれ1つのエージェントを表しており、行列の列はこれらのエージェントのうちのそれぞれ1つエージェントを表しており、行列の行および列によって識別される要素の少なくとも1つの、特にバイナリの値が特定され、この値は、行によって識別されたエージェントが、列によって識別されたエージェントに対する予測のために考慮されるべきか否かを設定する。または行列の行および列によって識別される要素の少なくとも1つの、特にバイナリの値が特定され、この値は、列によって識別されたエージェントが、行によって識別されたエージェントに対する予測のために考慮されるべきか否かを設定する。行列は、考慮されるべき近傍を表している。これによって、計算において、特に、最も関連性の高いエージェントが考慮される。これによって、できる限り良好な予測が特に効率的に計算される。
【0012】
好ましくは、第1の分布の第1のモーメントおよび第2のモーメントは、反復して特定され、これらの反復のうちの第1の反復に対して、コンポーネント毎に、コンテキスト変数に関連している、第1の分布の第1のモーメントの値と第1の分布の第2のモーメントの値とが特定される。これによって、履歴が特に効率的に考慮される。
【0013】
好ましくは、予測のために、1つのエージェントの複数の潜在状態が相互に関連せずにモデル化され、種々異なるエージェントの複数の潜在状態が相互に関連せずにモデル化される、または1つのエージェントの複数の潜在状態が相互に関連せずにモデル化され、種々異なるエージェントの複数の潜在状態の相互に相応する要素が相互に関連してモデル化される、または1つのエージェントの1つの潜在状態の種々異なる要素が相互に関連してモデル化され、種々異なるエージェントの複数の潜在状態が相互に関連せずにモデル化されることが想定されている。これによって、計算が極めて効率的になる。
【0014】
好ましくは、予測に関連して、少なくとも1つのエージェント、特にコンピュータによって制御される機械、特にロボット、好ましくは車両、家庭用機器、被駆動機械、製造機械、パーソナルアシスタントまたはアクセスコントロールシステムが駆動制御される。この駆動制御は特にロバストである。
【0015】
少なくとも1つのエージェントは、物理的な世界に存在している実際の対象物であってよい。
【0016】
装置は、少なくとも1つのプロセッサと少なくとも1つのメモリとを含んでおり、少なくとも1つのプロセッサおよび少なくとも1つのメモリは、この方法を実施するように構成されている。この装置は、方法の利点に相応する利点を有している。
【0017】
システムは、少なくとも1つのエージェント、特にコンピュータによって制御される機械、特にロボット、好ましくは車両、家庭用機器、被駆動機械、製造機械、パーソナルアシスタントまたはアクセスコントロールシステムを含んでおり、エージェントまたはシステムは装置を含んでおり、この装置は、エージェントを予測に関連して駆動制御するように構成されている。このシステムは、方法の利点に相応する利点を有している。
【0018】
コンピュータプログラムは、コンピュータ読み出し可能なインストラクションを含んでおり、コンピュータによるインストラクションの実行時に、この方法が実施される。このコンピュータプログラムは、方法の利点に相応する利点を有している。
【0019】
別の有利な実施形態は以降の明細書および図面から明らかになる。
【図面の簡単な説明】
【0020】
図1】相互作用する多数のエージェントを備える動的なシステムにおいて、エージェントの挙動を予測する装置を概略的に示す図である。
図2】例示的な動的なシステムにおけるエージェントの挙動を示す図である。
図3】動的なシステムにおけるエージェントの挙動に対する予測を示す図である。
図4】予測する方法におけるステップを示す図である。
図5図5a~dは、ニューラルネットワークの例を示す図である。
図6】共分散行列の近似を概略的に示す図である。
【0021】
図1には、相互作用する多数のエージェント102を備える動的なシステム104において、エージェント102の挙動を予測する装置100が概略的に示されている。動的なシステム104は、この例では、物理的なシステム、特に技術的なシステムである。エージェント102は、物理的なシステム、特に技術的なシステムであってよい。エージェント102は、物理的な世界に存在している実際の対象物であってよい。装置100は、少なくとも1つのプロセッサ106と少なくとも1つのメモリ108とを含んでいる。装置100は、以降で説明する、動的なシステム104において、エージェント102の挙動を予測する方法を実施するように構成されている。装置100は、任意選択的にインタフェース110を含んでいる。エージェント102は、任意選択的にインタフェース112を含んでいる。装置100およびエージェント102は、任意選択的に、自身のインタフェースを介して通信するように構成されており、たとえばこれによって、エージェント102の挙動に関する情報が、エージェント102から装置100へ伝送される、または挙動の予測に関する情報が装置100からエージェント102へ送られる。センサ装置114が設けられていてよく、センサ装置114は動的なシステム104におけるエージェント102の挙動に関する情報を検出するように構成されている。センサ装置114は、エージェント102の物理的な特性を測定するように構成されていてよい。エージェント102は任意選択的に、自身の挙動に関する情報または他のエージェント102の挙動に関する情報を提供するように構成されている。たとえば、自身の挙動に関する情報は、センサ装置114によって検出される。たとえば、センサ装置114は、1つまたは複数のエージェント102に配置されており、各エージェント102の自身の挙動に関する情報および/または他のエージェント102の挙動に関する情報を検出するように構成されている。センサ装置114はたとえば、エージェント102の位置または動きを検出するように構成されている。センサ装置114は、衛星によってサポートされている測位システム、たとえばグローバル・ポジショニング・システムのための受信機またはデジタル画像のためのセンサ、たとえばカメラ、LiDARセンサ、超音波センサ、モーションセンサ、赤外線画像センサおよび/またはレーダーセンサを含んでいてよい。センサ装置114は、たとえば、エージェント102の位置または動きを検出するように構成されている。センサ装置114は、可聴音を受け取り、オーディオ信号を生成するスピーカを含んでいてよい。センサ装置114が、エージェント102が移動し得るインフラストラクチャ116に配置されており、少なくとも一時的に通信接続118を介して、装置100のインタフェース110と接続されていることが想定されていてよい。センサ装置114の代わりに、エージェント102に関する情報を含んでいるデータ、特にグラフで構造化されたデータが設けられていてよい。
【0022】
エージェント102は任意選択的に、自身の挙動を、他のエージェント102の挙動に関する予測に関連して特定するように構成されている。エージェント102は、たとえば、それぞれ1つのアクチュエータ120を含んでおり、アクチュエータ120は、予測に関連して、各エージェント102の挙動に影響を与えるように構成されている。装置100が、予測をエージェント102に伝達する代わりに、少なくとも1つのエージェント102に対する駆動制御命令を予測に関連して特定して、駆動制御命令を駆動制御されるべき1つまたは複数のエージェント102に伝達するように構成されていることが想定されていてもよい。このケースでは、アクチュエータ120は、駆動制御命令を実行するように構成されている。装置100が1つまたは複数のエージェント102に統合されていることが想定されていてよい。
【0023】
同様に、コンピュータによる実行時にコンピュータが方法を実施するインストラクションを含んでいるコンピュータプログラムが設けられている。たとえば、少なくとも1つのプロセッサ102はコンピュータプログラムを実行する。
【0024】
図2には、例示的なシステム104におけるエージェント102の挙動が示されている。この例ではエージェント102の挙動が観察され、図2では、エージェント102が、自身の挙動の観察にしたがって、観察の開始時点から観察の終了時点まで実際に移動した軌跡が示されている。
【0025】
動的なシステム104は、たとえば、技術的なシステムであり、ここでは、エージェント102は、コンピュータによって制御される機械、たとえば、車両、家庭用機器、被駆動機械、製造機械、パーソナルアシスタントまたはアクセスコントロールシステム等のロボットである。動的なシステム104は、別のシステムであってもよい。たとえば、動的なシステム104は、エージェント102が原子または分子であり、その動きが予測される分子ダイナミクスである。たとえば、動的なシステムは競技、たとえばサッカー競技、バスケットボール競技またはアメリカンフットボール競技であり、ここではエージェントは人間または競技器具、たとえばボールであり、その動きが予測される。
【0026】
動的なシステム104は、この例において、環状交差点202である。環状交差点202は、この例では、第1の進入口204と、第2の進入口206と、第3の進入口208と、第4の進入口210とを有している。環状交差点202は、この例では、第1の退出口212と、第2の退出口214と、第3の退出口216と、第4の退出口218とを有している。エージェント102は、この例では車両を含んでいる。エージェント102が歩行者を含んでいることが想定されていてよい。第1の車両は、開始時点から、第1の観察された軌道220上で、第1の進入口204から、環状交差点202内を移動し、終了時点で、環状交差点202内で、第2の退出口214の領域に存在している。第2の車両は、開始時点から、第2の観察された軌道222上で、第2の退出口214の領域から、環状交差点202内を移動し、第3の退出口216を介して環状交差点202から出て、終了時点で、環状交差点202外に存在している。第3の車両は、開始時点から、第3の観察された軌道224上で、第2の進入口206から、環状交差点202内を移動し、終了時点で、環状交差点202内で、第3の退出口216の領域に存在している。第4の車両は、開始時点から、第4の観察された軌道226上で、第2の退出口214と第2の進入口206との間の環状交差点202における領域から、環状交差点202内を移動し、終了時点で、第4の退出口218に存在している。第5の車両は、開始時点から、第5の観察された軌道228上で、第3の進入口208と第4の退出口218との間の環状交差点202における領域から、環状交差点202内を移動し、終了時点で、第1の退出口212に存在している。第6の車両は、開始時点から終了時点まで、第6の観察された軌道230上で、第4の進入口210の領域内を移動する。
【0027】
図3には、動的なシステム104におけるエージェント102の挙動の予測が、環状交差点202の例に即して示されている。
【0028】
第1の車両は、開始時点から、観察終了時点まで、第1の観察された軌道220上で移動する。この例では、第1の車両は、観察終了時点まで移動しておらず、第1の進入口204に存在している。観察終了時点と予測終了時点との間で、第1の車両に対して、第1の予測される軌道320が特定される。第1の車両は、この予測にしたがって、第1の進入口204から、環状交差点202内を移動し、終了時点で、環状交差点202内で、第2の退出口214の領域に存在している。
【0029】
第2の車両は、開始時点から、観察終了時点まで、第2の観察された軌道222上で、第2の進入口206と第3の退出口216との間の環状交差点202における領域まで移動する。第2の観察された軌道222のこの区間は、図2および図3において破線で示されている。観察終了時点と予測終了時点との間で、第2の車両に対して、第2の予測される軌道322が特定される。第2の車両は、この予測にしたがって、第2の進入口206と第3の退出口216との間の環状交差点202における領域から、環状交差点202内を移動し、第3の退出口216を介して環状交差点202から出て、終了時点で、環状交差点202外に存在している。
【0030】
第3の車両は、開始時点から、観察終了時点まで、第3の観察された軌道224上で移動する。この例では、第3の車両は、観察終了時点まで移動しておらず、第2の進入口206に存在している。観察終了時点と予測終了時点との間で、第3の車両に対して、第3の予測される軌道324が特定される。第3の車両は、この予測にしたがって、第2の進入口206から、環状交差点202内を移動し、終了時点で、環状交差点202内で、第3の退出口216の領域に存在している。
【0031】
第4の車両は、開始時点から、観察終了時点まで、第4の観察された軌道226上で、第3の退出口216と第3の進入口208との間の環状交差点202における領域まで移動する。第4の観察された軌道226のこの区間は、図2および図3において破線で示されている。観察終了時点と予測終了時点との間で、第4の車両に対して、第4の予測される軌道326が特定される。第4の車両は、この予測にしたがって、第3の退出口216と第3の進入口208との間の環状交差点202における領域から、環状交差点202内を移動し、終了時点で、第4の退出口218に存在している。
【0032】
第5の車両は、開始時点から、観察終了時点まで、第5の観察された軌道228上で、第4の退出口218と第4の進入口210との間の環状交差点202における領域まで移動する。第5の観察された軌道228のこの区間は、図2および図3において破線で示されている。観察終了時点と予測終了時点との間で、第5の車両に対して、第5の予測される軌道328が特定される。第5の車両は、この予測にしたがって、第4の退出口218と第4の進入口210との間の環状交差点202における領域から、環状交差点202内を移動し、終了時点で、第1の退出口212に存在している。
【0033】
第6の車両は、開始時点から、観察終了時点まで、第6の観察された軌道230上で移動する。この例では、第6の車両は、観察終了時点まで移動しておらず、第4の進入口210に存在している。観察終了時点と予測終了時点との間で、第6の車両に対して、第6の予測される軌道330が特定される。第6の車両は、この予測にしたがって、終了時点まで、第4の進入口210の領域内を移動する。
【0034】
予測、すなわちこの例では、予測される軌道は、ガウス混合分布として近似される。ガウス混合分布のモーメントは、以降で説明される方法によって、個々のエージェント102に対してそれぞれ観察された、自身の挙動の部分に関連して、すなわちこの例では、破線で示された、各観察された軌道の観察された部分に関連して特定される。
【0035】
この例では、観察された軌道の図示されている別の部分に関する予測のために、95%の信頼区間が視覚化されている。
【0036】
軌道の予測、すなわちエージェント102の位置の時間的な経過の予測は一例である。これらのエージェント102間の距離、エージェント102の速度または加速度が特定されることが想定されていてもよい。
【0037】
エージェント102の挙動、この例では車両の挙動は所定の時間の間、観察される。予測は、所定の時間観察された挙動に関連して特定される。ある例では、車両のうちの少なくとも1つの車両は自動運転車両である。予測は、この少なくとも1つの自動運転車両の周囲のシミュレーションであり、少なくとも1つの自動運転車両は、この予測に関連して駆動制御される。
【0038】
予測の特定は、この例では、モデルの機械学習によって行われ、予測はこのモデルによって特定される。
【0039】
これは以降で、
【数1】
を伴う潜在変数
【数2】
および次元Dの観察された変数
【数3】
に対して説明され、ここで
【数4】
は、M個のエージェント102の集合であり、
【数5】
は、時点tでのエージェントmの潜在状態であり、
【数6】
は、時点tでのエージェント102の状態であり、これは、
【数7】
によって規定され、ここで
は、エージェント102の潜在状態であり、
は、開始時点t=0でのエージェント102の潜在状態に対する初期値であり、
【数8】
は、この例では、パラメータθによってパラメータ化されているニューラルネットワークとしてモデル化されるエージェント102の潜在状態xの決定論的変化であり、
【数9】
は、この例では、パラメータθによってパラメータ化されているニューラルネットワークとしてモデル化されるエージェント102の潜在状態xの確率論的変化であり、ここでθ={θ,θ}はこれらのパラメータを示しており、
【数10】
は、割り当てNおよび履歴を含んでいるテキスト変数であり、割り当てNはエージェント102毎に、このエージェント102の挙動を予測するために考慮されるべき別のエージェント102を割り当て、履歴は、エージェント102毎に自身の挙動を特徴付け、
【数11】
は、正規分布w~N(0,I)からのランダム変数であり、これによって、外乱量が導入され、
N(y|g(x),QQ(x))は、正規分布であり、その平均値
【数12】
は、パラメータΨによってパラメータ化されている非線形ニューラルネットワークによってモデル化され、ここでその共分散
【数13】
は、一定であると仮定されるまたはパラメータΨによってパラメータ化されている非線形ニューラルネットワークによってモデル化される量Qによって特定され、ここでΨ={Ψ,Ψ}はこれらのパラメータを示している。
【0040】
変数
【数14】
は、動的なシステム104の状態、特に、時点tでのエージェント102の状態yを含んでいる。この例では、エージェント102は車両であり、変数Yは、軌道の観察された部分を含んでいる。変数
【数15】
は、動的なシステム104の潜在状態を含んでいる。この例では、変数Xは、時点tでのエージェント102の潜在状態xを含んでいる。潜在状態xは、エージェント102の各将来の状態yt+1の確実な予測のために、さらなる情報を含んでいる。時点tでの潜在状態xは、たとえば、時点tでの車両の加速度または速度を含んでいる。
【0041】
予測は以降では、以降で、mで示されている、M個のエージェント102に対して特定される。
【0042】
これに対して、決定論的変化は
【数16】
であり、確率論的変化は
【数17】
であり、ここで
【数18】
は、決定論的変化の更新を示し、
【数19】
は、確率論的変化の更新を示し、
【数20】
は、
【数21】
として特定される、時点tでのエージェントmに対するメッセージであり、
【数22】
は、エージェントmに対する第1の情報Nを示しており、オペレーション
【数23】
は、エージェント毎に出力側mを有しており、ここでm番目のエージェントには、m番目の出力側が割り当てられており、ここで
【数24】
は、エージェント同士の関係を規定するグラフのエッジを規定している。エージェント同士の関係は、この例では、バイナリの値である。
【0043】
t個の予測ステップの後に、このモデルは、最大でt個の歩幅の距離で相互に離れているエージェント102間の相関関係を考慮する。距離は、ある例では、エージェントmからエージェントm’に達するために幾つのエッジを経過すべきであるかを意味している。エージェントが他のエージェントと接続されていない場合には、この距離は無限であってよい。
【0044】
予測時点Tに対する予測は、限界確率p(y|I)であり、これは、確率p(y|x)、カーネルp(x|x,I)およびガウス混合モデルであるGMM、p(x|I)を伴う入れ子式の積分
【数25】
である。
【0045】
カーネルp(x|x,I)は、時間ステップt毎に、平均値μ(I)と共分散Σ(I)とを備える正規分布N(x|μ(I),Σ(I))によって近似され、ここで
【数26】
であり、ここでEは期待値を示し、Covは共分散を示し、Cov[xt-1,f(xt-1,I)]は、引数xt-1およびf(xt-1,I)におけるランダムなベクトルの間の相互共分散を示している。
【0046】
関数f(x,I)はこの例では、ニューラルネットワークとして実装されている。関数L(x,I)はこの例では、ニューラルネットワークとして実装されている。関数g(x)はこの例では、ニューラルネットワークとして実装されている。関数Q(x)はこの例では、ニューラルネットワークとして実装されている。
【0047】
各ニューラルネットワークの出力に対する期待値および共分散は、たとえば、Anqi Wu, Sebastian Nowozin, Edward Meeds, Richard E. Turner, Jose Miguel Hernandez-Lobato, Alexander L. Gaunt: “Deterministic Variational Inference for Robust Bayesian Neural Networks”, in ICLR, 2019a(Anqi Wu)に記載されているように特定される。
【0048】
相互共分散Cov[x,f(x,I)]はたとえば、
【数27】
によって近似され、ここでヤコビ行列に対する期待値は、Andreas Look, Jan Peters, Melih Kandemir: “Deterministic Inference of Neural Stochastic Differential Equations”, arXiv, abs/2006.08973, 2020, (Andreas Look)に記載されているように近似され、
【数28】
ここで
【数29】
は、時点tでのニューラルネットワークの層lにおけるヤコビ行列である。
【0049】
図4には、多数のM個の相互作用するエージェントmを備える動的なシステム104において、エージェントmの挙動
【数30】
を予測p(y|I)する方法におけるステップが示されている。
【0050】
予測p(y|I)は、エージェントmの潜在状態xに関連して特定される。この方法は、2つのループ、すなわち内側のループと外側のループとを含んでいる。
【0051】
これらの反復のうちの第1の反復の間に、潜在状態xが、正規分布N(x|μ(I),Σ(I))によって規定されている、V個のコンポーネントvを備えるガウス混合モデルから導出される。
【0052】
正規分布N(x|μ(I),Σ(I))の第1のモーメントμおよび第2のモーメントΣは、内側のループにおいて、反復において特定される。初期状態では、各コンポーネントvは、正規分布N(x0,v|μ0,v(I),Σ0,v(I))の第1のモーメントμ0,vの値および第2のモーメントΣ0,vの値である。これらの値は、この例では、コンテキスト変数Iに関連している。
【0053】
モーメントμ0,vおよびΣ0,vの値は、コンテキスト変数Iに関連して、別のニューラルネットワークによって特定される。図5aには、30個の完全に接続された層とTanh活性化とを備える、このニューラルネットワークの例が示されており、これにオペレーションAGGに対する層が続き、これに64個の完全に接続された層とTanh活性化とが続き、これに第1のモーメントμ0,vの値に対する1つの完全に接続された層が続き、これにExp活性化を備える、1つの別の完全に接続された層が続く。
【0054】
内側のループは、複数のV個のコンポーネントvに対して、かつ複数の時点tに対して、予測時点Tで計算される。外側のループは、予測時点Tに対して、複数のV個のコンポーネントvに対して計算される。
【0055】
正規分布N(x|μ(I),Σ(I))は、エージェントmの潜在状態xをモデル化する。正規分布N(y|g(x),QQ(x))は、エージェントmの挙動yを、エージェントmの潜在状態xに関連して、モデル化する。
【0056】
この方法では、正規分布N(aT,v(I),BT,v(I))は、個々のコンポーネントvの挙動をモデル化する。
【0057】
ステップ402において、コンテキスト変数Iが設定される。コンテキスト変数Iは、ある例では、割り当てNを含んでおり、この割り当てNは、少なくとも1つのエージェントmに、このエージェントmの挙動の予測のために考慮されるべき別のエージェントmを割り当てる。コンテキスト変数Iは、この例においては、与えられている。
【0058】
割り当てNは、ある例では行列であり、この行列の行はエージェントmのうちのそれぞれ1つを表しており、この行列の列はエージェントmのうちのそれぞれ1つを表している。
【0059】
この例では、行列の要素毎に特にバイナリの値が特定される。
【0060】
ある例では、行列における自身の行および自身の列によって識別されている要素の値が、行によって識別されたエージェントmが、列によって識別されたエージェントmに対する予測のために考慮されるべきか否かを設定する。
【0061】
ある例では、行列における自身の行および自身の列によって識別されている要素の値は、列によって識別されたエージェントmが、行によって識別されたエージェントmに対する予測のために考慮されるべきか否かを設定する。
【0062】
たとえば、エージェントm同士の関係は、グラフによってモデル化され、ここでエッジの値εは、グラフにおいて、エージェントmに隣接しているエージェントm’が自身の予測に考慮されるように特定される。
【0063】
コンテキスト変数Iは、この例では、動的なシステム104の履歴を含んでいる。
【0064】
コンテキスト変数Iは、この例では、モーメント、期待値および重さを特定するために使用され、その引数は、コンテキスト変数Iを含んでいる。
【0065】
複数のV個のコンポーネントvは、この例では、ニューラルネットワークによって特定され、ニューラルネットワークの入力量は、動的なシステム104の履歴およびコンテキスト変数Iからのエッジεを含んでいる。ある例では、システム104の履歴は、エージェントmの観察された挙動によって、特に軌道の観察された部分によって規定されている。
【0066】
エッジは、この例では、行列Nにおけるバイナリの値0または1であり、これらのバイナリの値はたとえば、値1によって、2つのノードの間にエッジが存在していることを提示し、値0によって、2つのノードの間にエッジが存在していないことを提示する。時点tでのエージェントmの潜在状態
【数31】
は、グラフにおけるノードによって表されている。
【0067】
軌道は、ある例では、二次元または三次元の地理的座標の時間的なシーケンスによって規定されており、これは、車両の位置の時間的なシーケンスを提示する。
【0068】
オペレーションAGGによって、この例では、メッセージ
【数32】
が、行列Nと、一次元の入力量とに関連して特定される。メッセージ
【数33】
は、一次元の入力量と連結され、ニューラルネットワークによって、第1のモーメントμ0,vの値および第2のモーメントΣ0,vの値にマッピングされる。
【0069】
ニューラルネットワークは、たとえばグラフニューラルネットワークである。これはたとえば、Peter W. Battaglia, Jessica B. Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Flores Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, Caglar Guelcehre, H. Francis Song, Andrew J. Ballard, Justin Gilmer, George E. Dahl, Ashish Vaswani, Kelsey R. Allen, Charles Nash, Victoria Langston, Chris Dyer, Nicolas Heess, Daan Wierstra, Pushmeet Kohli, MatthewBotvinick, Oriol Vinyals, Yujia Li, Razvan Pascanu. “Relational inductive biases, deep learning, and graph networks” arXiv, abs/1806.01261, 2018に記載されているように構成されている。
【0070】
ステップ404において、複数のV個のコンポーネントvおよび複数の時点t=1,…Tに対して、反復して、予測時点Tまで、コンポーネントv毎に、正規分布N(x|μ(I),Σ(I))の第1のモーメントμの値が特定される。
【0071】
第1のモーメントμの値は、この例では、再帰的に特定される。これは、時点tでの第1のモーメントμの値が、時点tに先行する時点、たとえばt-1に対する第1のモーメントμt-1の値に関連して特定されることを意味している。
【0072】
以降の説明は、関数f(x)の期待値E[f(x)]、関数f(x)の共分散行列Cov(f(x))および相互共分散行列Cov(x,f(x))を特定することができるツールをベースにしている。期待値E[f(x)]および共分散行列Cov(f(x))は、たとえば、Anqi Wuに記載されているように特定される。相互共分散行列Cov(x,f(x))は、たとえば、Andreas Lookに記載されているように特定される。
【0073】
ツールは、ニューラルネットワークにおいて、期待値E[f(x)]、共分散行列Cov(f(x))および相互共分散行列Cov(x,f(x))を特定するために、そのモーメントが出力側において計算可能である層が使用されることを要求する。このために、オペレーションAGG(x,ε)が使用される。
【0074】
オペレーションAGG(x,ε)はたとえば、平均集計として、各ニューラルネットワークにおいて実行され、ここでニューラルネットワークの層lに対して、メッセージ
【数34】
が、時間ステップtにおいて、エージェントmに対して特定される。
【数35】
【0075】
たとえば、クロネッカー積
【数36】
を備えるメッセージ
【数37】
のセットに対しては、このメッセージに対する
【数38】
に関連して、層lから、期待値
【数39】
および共分散
【数40】
が特定され、ここで
【数41】
は、正規化された行を備える隣接行列であり、これは、行列形態でのエッジに関する情報εを含んでおり、IDx,lは、次元Dx,l×Dx,lを備える恒等行列である。ヤコビ行列は、
【数42】
として使用可能である。
【0076】
このツールは、ニューラルネットワークのこれらの層lに対して、同じ重み行列Wおよび同じバイアスbによって同じアフィン変換が実行されることを要求する。この計算は、ある例では、すべての層に対して共通して、クロネッカー積によって行われ、
【数43】
ここで
【数44】
であり、ここでヤコビ行列は、
【数45】
として使用可能である。
【0077】
第1のモーメントμの値は、この例では、期待値E[f(xt-1,I)]に関連して、第1のモーメントμの決定論的変化f(xt-1,I)に対して特定される。
【0078】
ある例では、第1のモーメントμの値は、
【数46】
のように特定される。
【0079】
期待値E[f(xt-1,I)]、すなわち第1のモーメントμの変化は、ある例では、コンテキスト変数Iからのエッジεと、先行する時点での潜在状態xt-1の分布とに関連して、Anqi Wuに記載されているようなツールによって特定される。
【0080】
エッジはこの例では、行列Nにおいて、バイナリの値0または1であり、これらのバイナリの値はたとえば、値1によって、2つのノードの間にエッジが存在していることを提示し、値0によって、2つのノードの間にエッジが存在していないことを提示する。時点tでのエージェントmの潜在状態
【数47】
は、グラフにおけるノードによって表されている。
【0081】
オペレーションAGGによって、この例では、メッセージ
【数48】
が、行列Nと、先行する時点での潜在状態xt-1とに関連して特定される。メッセージ
【数49】
は、先行する時点での潜在状態xt-1と連結される。ツールによって、期待値E[f(xt-1,I)]が特定される。
【0082】
図5bには、オペレーションAGGに対する層を備えるニューラルネットワークf(xt-1,I)の例が示されており、これに24個の完全に接続された層とReLu活性化とが続き、これに1つの完全に接続された層とReLu活性化とが続き、これに1つの別の完全に接続された層が続く。
【0083】
ステップ406において、複数のV個のコンポーネントvおよび予測時点Tまでの複数の時点t=1,…Tに対して、コンポーネントv毎に、正規分布N(x|μ(I),Σ(I))の第2のモーメントΣの値が特定される。
【0084】
第2のモーメントΣの値は、この例では、再帰的に特定される。これは、時点tに対する第2のモーメントΣの値が、時点tに先行する時点、たとえばt-1に対する第2のモーメントΣt-1の値に関連して特定されることを意味している。
【0085】
この例では、第2のモーメントΣの値が、決定論的変化f(xt-1,I)の共分散Cov[f(xt-1,I)]と、第2のモーメントΣの確率論的変化L(xt-1,I)に対する期待値E[LL(xt-1,I)]とに関連して特定される。
【0086】
時点tに対する第2のモーメントΣの値が、先行する時点、たとえばt-1に対する第2のモーメントΣの値と、決定論的変化f(xt-1,I)の共分散Cov[f(xt-1,I)]と、決定論的変化f(xt-1,I)を伴う、先行する時点tt-1での潜在状態xt-1の共分散Cov[xt-1,f(xt-1,I)]と、決定論的変化f(xt-1,I)を伴う、先行する時点、たとえばtt-1での潜在状態xt-1の共分散Cov[xt-1,f(xt-1,I)]の転置と、確率論的変化L(xt-1,I)に対する期待値E[LL(xt-1,I)]とに関連して特定されることが想定されていてよい。
【数50】
【0087】
期待値E[LL(xt-1,I)]、すなわち第2のモーメントΣの変化は、ある例では、コンテキスト変数Iからのエッジεと、先行する時点での潜在状態xt-1とに関連して特定される。この例では、ツールE[L]およびCov[L]を用いて特定が行われ、したがってE[LL(xt-1,I)]=Cov[L]+E[L]E[L]である。
【0088】
エッジはこの例では、行列Nにおいて、バイナリの値0または1であり、これらのバイナリの値はたとえば、値1によって、2つのノードの間にエッジが存在していることを提示し、値0によって、2つのノードの間にエッジが存在していないことを提示する。時点tでのエージェントmの潜在状態
【数51】
は、グラフにおけるノードによって表されている。
【0089】
オペレーションAGGによって、この例では、メッセージ
【数52】
が、行列Nと、先行する時点での潜在状態xt-1とに関連して特定される。メッセージ
【数53】
は、先行する時点での状態xt-1と連結され、期待値E[LL(xt-1,I)]にマッピングされる。
【0090】
図5cには、オペレーションAGGに対する層を備えるニューラルネットワークL(xt-1,I)の例が示されており、これに24個の完全に接続された層とReLu活性化とが続き、これに1つの完全に接続された層とReLu活性化とが続く。
【0091】
内側のループは、ステップ404とステップ406とを含んでいる。
【0092】
ステップ408において、コンポーネントv毎に、予測時点Tでの正規分布N(y|g(x),QQ(x))の第1のモーメントg(xT,v)に対する期待値E[g(xT,v)]が特定される。yの分布は、ある例では、ガウス混合モデルであるGMMy~Σπ(I)N(y|aT,v(I),BT,v(I))によって近似される。
【0093】
この例では、コンポーネントv毎に、予測時点Tでの第1のモーメントg(xT,v)の値に関連して、第1のモーメントg(xT,v)の共分散Cov[g(xT,v)]が特定される。
【0094】
ステップ410において、予測時点Tでの第1のモーメントμT,vの値に関連して、正規分布N(yt,v|g(xt,v),QQ(xt,v))の第1のモーメントg(xT,v)に対する期待値E[g(xT,v)]が特定される。
【0095】
ステップ412において、正規分布N(aT,v(I),BT,v(I))の第1のモーメントaT.v(I)が特定される。
【0096】
この例では、コンポーネントv毎に、予測時点Tでの潜在状態xT,vに関連して、予測時点Tでの正規分布N(y|g(x),QQ(x))の第2のモーメントQQ(x(t))に対する期待値E[QQ(xT,v)]が、x~N(x_t|μt,v,Σt,v)に関連して、Anqi Wuにおいて記載されているようなツールによって特定される。
【0097】
この例では、期待値E[g(xT,v)]が第1のモーメントaT.v(I)を、たとえば
【数54】
によって規定する。
【0098】
期待値E[g(xT,v)]はこの例では、このツールによって特定される。
【0099】
図5dには、24個の完全に接続された層とReLu活性化とを備えるニューラルネットワークg(xt,v)の例が示されており、これに1つの完全に接続された層が続く。Q(x)に対しては、この例では、定数が想定されるが、より複雑なニューラルネットワークも可能である。
【0100】
ステップ414において、コンポーネントv毎に、正規分布N(aT,v(I),BT,v(I))の第2のモーメントBT,v(I)が特定される。
【0101】
この例では、コンポーネントv毎に、第1のモーメントg(xT,v)の共分散Cov[g(xT,v)]と、予測時点Tでの第2のモーメントQQ(xT,v)に対する期待値E[QQ(xT,v)]とに関連して、正規分布N(aT,v(I),BT,v(I))の第2のモーメントBT,v(I)が、たとえば
【数55】
によって特定される。
【0102】
共分散Cov[g(xT,v)]および期待値E[QQ(xT,v)]は、この例ではこのツールによって特定される。
【0103】
外側のループは、ステップ408~ステップ414を含んでいる。
【0104】
ステップ416において、特に、コンポーネントvの第3の正規分布N(aT,v(I),BT,v(I))の、少なくとも1つの重みπ(I)によって重み付けされた総計
【数56】
が特定される。
【0105】
ステップ420において、挙動
【数57】
の予測p(y|I)が、この総計
【数58】
に関連して特定され、たとえば
【数59】
である。
【0106】
ステップ422において、予測が出力される、かつ/または予測に関連して、少なくとも1つのエージェント102が駆動制御される。
【0107】
たとえば、コンピュータによって制御される機械、ロボット、車両、家庭用機器、被駆動機械、製造機械、パーソナルアシスタントまたはアクセスコントロールシステムが駆動制御される。
【0108】
たとえば、分子ダイナミックに対する予測が特定され、出力される。たとえば、競技における動きに対する予測が特定され、出力される。
【0109】
潜在状態の種々異なる組み合わせに対する共分散が、次元MD×MDの行列として処理され得る。これは、複数の共分散のうちのそれぞれ1つの共分散によって規定されているブロックを含んでいる。ある例では、行列が、疎行列として近似されることが想定されている。
【0110】
図6では、5つのエージェントA,B,C,D,Eに対する共分散行列の近似の概略図が再現されている。
【0111】
エージェントmの潜在状態は、ある例では、複数の要素を含んでいる。軌道の場合、潜在状態は、たとえば、エージェントmの速度に対する要素と、エージェントmの加速度に対する要素とを含んでいる。これらの要素は、物理的な量である必要はなく、エージェントの状態の他の態様に関連していてもよい。
【0112】
行列の第1の近似において、予測のために、行列の主対角線上に位置する行列からの要素だけが使用され、行列の他の要素は考慮されないままである。これは、1つのエージェントmの複数の潜在状態が相互に関連せずにモデル化され、種々異なるエージェントmの複数の潜在状態も相互に関連せずにモデル化されることを意味している。たとえば、エージェントmの速度は、エージェントmの加速度とは関連せずにモデルされ、種々異なるエージェントmの速度も、種々異なるエージェントmの加速度も相互に関連せずにモデル化されることを意味している。
【0113】
主対角線は図6では、実線の対角線として示されている。
【0114】
第2の近似において、1つのエージェントの複数の潜在状態が相互に関連せずにモデル化され、種々異なるエージェントの複数の潜在状態の相互に相応する要素が相互に関連してモデル化される。たとえば、同一のエージェントの速度と加速度とは相互に関連せずにモデル化され、種々異なるエージェントの速度は相互に関連してモデル化され、種々異なるエージェントの加速度は相互に関連してモデル化される。これは図6において、実線および破線の対角線によって示されている。
【0115】
第3の近似において、1つのエージェントの1つの潜在状態の種々異なる要素が相互に関連してモデル化され、種々異なるエージェントの複数の潜在状態が相互に関連せずにモデル化される。これは、図6において、ハッチングされたブロックの対角線によって示されている。
【0116】
ニューラルネットワークをパラメータ化するパラメータθ={θ,θ}およびΨ={Ψ,Ψ}はこの例では、データセットD={Y,I}によるトレーニングにおいて、この例では、観察された軌道において、期待される負の対数確率を最小化することによって特定される:
【数60】
図1
図2
図3
図4
図5
図6
【外国語明細書】