IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ タタ コンサルタンシー サービシズ リミテッドの特許一覧

特許7373941自律学習エージェントの経路学習における予測誤差をモデル化する方法およびシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-26
(45)【発行日】2023-11-06
(54)【発明の名称】自律学習エージェントの経路学習における予測誤差をモデル化する方法およびシステム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20231027BHJP
【FI】
G06N20/00 130
【請求項の数】 8
【外国語出願】
(21)【出願番号】P 2019152935
(22)【出願日】2019-08-23
(65)【公開番号】P2020030830
(43)【公開日】2020-02-27
【審査請求日】2022-06-14
(31)【優先権主張番号】201821031249
(32)【優先日】2018-08-24
(33)【優先権主張国・地域又は機関】IN
(73)【特許権者】
【識別番号】510337621
【氏名又は名称】タタ コンサルタンシー サービシズ リミテッド
【氏名又は名称原語表記】TATA Consultancy Services Limited
【住所又は居所原語表記】Nirmal Building,9th Floor,Nariman Point,Mumbai 400021,Maharashtra,India.
(74)【代理人】
【識別番号】100130111
【弁理士】
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】デイ、ソウナック
(72)【発明者】
【氏名】バタチャルヤ、サキャジット
(72)【発明者】
【氏名】パル、カウスタブ
(72)【発明者】
【氏名】ムケールジェー、アリジット
【審査官】渡辺 順哉
(56)【参考文献】
【文献】特開2007-018490(JP,A)
【文献】米国特許出願公開第2018/0053093(US,A1)
【文献】特開2020-030830(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
自律学習エージェントの経路学習における予測誤差のモデル化の方法であって、
1つまたは複数のハードウェアプロセッサによって、2段階のモデル化技術を介して時系列のパターンを表す複数の順次的なアクションをキャプチャすることであって、前記複数の順次的なアクションのおのおのは、前記自律学習エージェントに対応する、キャプチャすること(201)と、
前記キャプチャされた複数の順次的なアクションに基づいて、Hierarchical Temporal Memory(HTM)モデル化技術によって、前記自律学習エージェントの複数の予測および実際のアクションを備えた1つまたは複数のデータセットを導出すること(202)と、
前記複数の予測および実際のアクションのおのおのを使用して、ユークリッド距離技術によって予測誤差値のセットを抽出することであって、前記予測誤差値のセットのおのおのは、前記複数の予測および実際のアクションのうち、1つまたは複数の実際のアクションからの偏差を備える、抽出すること(203)と、
前記予測誤差値のセットに基づいて、前記自律学習エージェントの経路学習における複数の予測誤差をモデル化することであって、前記モデル化すること(204)は、
(i)前記予測誤差値のセットに自己回帰移動平均(ARMA)技術を実施することによって、前記予測誤差値のセットから、前記複数の予測のアクションおよび実際のアクションのおのおのに対応する複数の適合誤差値を抽出すること(204(i))と、
(ii)前記複数の適合誤差値に線形回帰技術を実施することによって、前記複数の予測および実際のアクションのうち、実際のアクションのおのおのから、前記自律学習エージェントの、可能性の高い偏差を推定すること(204(ii))とを備える、モデル化することとからなる、プロセッサによって実施されるステップを備え
前記のステップ(201)において、前記2段階のモデル化技術は、
(1) 前記経路学習の各経路反復内の時系列モデル(T 1 )と、
(2)前記経路学習のすべての経路反復にわたる時系列モデル(T )とを備え、
前記2段階のモデル化技術は、下式で表され、
【数9】
(上式において、
【数10】
および
【数11】
はそれぞれT 1 およびT 2 の推定自己回帰パラメータを示し、
【数12】
および
【数13】
はそれぞれT 1 およびT 2 の推定移動平均パラメータを示す。同様に、ε 1 およびε 2 はそれぞれ、T 1 およびT 2 に付随する誤差であり、εは平均0および分散1のガウスノイズである)
また、前記のステップ(204)において、前記2段階のモデル化技術は、前記自律学習エージェントの前記経路学習全体で、複数の学習モダリティをキャプチャするために実施され、
その複数の学習モダリティは、前記自律学習エージェントによる、先行するステップからの学習と、先行する反復からの学習とを備える
ことを特徴とする方法。
【請求項2】
前記モデル化するステップは、前記ARMA技術を実施することによって、前記経路学習の各経路反復全体および各経路反復内で実行される
請求項1に記載の方法。
【請求項3】
2段階の前記時系列モデルは、前記自律学習エージェントの、可能性の高い偏差を推定するために前記線形回帰技術を介して統合される
請求項1に記載の方法。
【請求項4】
自律学習エージェントの経路学習における予測誤差をモデル化するためのシステム(100)であって、
命令を記憶するメモリ(102)と、
1つまたは複数の通信インターフェース(106)と、
前記1つまたは複数の通信インターフェース(106)を介して前記メモリ(102)に結合された1つまたは複数のハードウェアプロセッサ(104)とを備え、前記1つまたは複数のハードウェアプロセッサ(104)は、前記命令によって、
2段階のモデル化技術を介して時系列のパターンを表す複数の順次的なアクションをキャプチャすることであって、前記複数の順次的なアクションのおのおのは、前記自律学習エージェントに対応する、キャプチャすることと、
前記キャプチャされた複数の順次的なアクションに基づいて、Hierarchical Temporal Memoryモデル化(HTM)技術によって、前記自律学習エージェントの複数の予測および実際のアクションを備えた1つまたは複数のデータセットを導出することと、
前記複数の予測および実際のアクションのおのおのを使用して、ユークリッド距離技術によって予測誤差値のセットを抽出することであって、前記予測誤差値のセットのおのおのは、前記複数の予測および実際のアクションのうち、1つまたは複数の実際のアクションからの偏差を備える、抽出することと、
前記予測誤差値のセットに基づいて、前記自律学習エージェントの経路学習における複数の予測誤差をモデル化することであって、前記モデル化することは、
(i)前記予測誤差値のセットに自己回帰移動平均(ARMA)技術を実施することによって、前記予測誤差値のセットから、前記複数の予測のアクションおよび実際のアクションのおのおのに対応する複数の適合誤差値を抽出することと、
(ii)前記複数の適合誤差値に線形回帰技術を実施することによって、前記複数の予測および実際のアクションのうち、実際のアクションのおのおのから、自律学習エージェントの、可能性の高い偏差を推定することとを備える、モデル化することとを行うように構成され
前記のステップ(201)において、前記2段階のモデル化技術は、
(1) 前記経路学習の各経路反復内の時系列モデル(T 1 )と、
(2)前記経路学習のすべての経路反復にわたる時系列モデル(T )とを備え、
前記2段階のモデル化技術は、下式で表され、
【数9】
(上式において、
【数10】
および
【数11】
はそれぞれT 1 およびT 2 の推定自己回帰パラメータを示し、
【数12】
および
【数13】
はそれぞれT 1 およびT 2 の推定移動平均パラメータを示す。同様に、ε 1 およびε 2 はそれぞれ、T 1 およびT 2 に付随する誤差であり、εは平均0および分散1のガウスノイズである)
また、前記のステップ(204)において、前記2段階のモデル化技術は、前記自律学習エージェントの前記経路学習全体で、複数の学習モダリティをキャプチャするために実施され、
その複数の学習モダリティは、前記自律学習エージェントによる、先行するステップからの学習と、先行する反復からの学習とを備える
ことを特徴とするシステム。
【請求項5】
前記1つまたは複数のハードウェアプロセッサ(104)は、前記ARMA技術を実施することによって、前記経路学習の各経路反復全体および各経路反復内で、モデル化するステップを実行するように構成された
請求項4に記載のシステム。
【請求項6】
2段階の前記時系列モデルは、前記自律学習エージェントの、可能性の高い偏差を推定するために前記線形回帰技術を介して統合される
請求項1に記載のシステム。
【請求項7】
前記2段階のモデル化技術を介する時系列のパターンを表す複数の順次的なアクションは、自律学習エージェントによる左右ターン、前方移動を含み、タスクまたはサブタスクの実行のためのシーケンスによって表される
請求項1に記載の方法。
【請求項8】
前記2段階のモデル化技術を介する時系列のパターンを表す複数の順次的なアクションは、自律学習エージェントによる左右ターン、前方移動を含み、タスクまたはサブタスクの実行のためのシーケンスによって表される
請求項4に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願および優先度への相互参照
本出願は、特許文献1(2018年8月21日にインドにおいて出願されたインドの完全な明細書(名称:SYSTEMS AND METHODS FOR MODELLING PREDICTION ERRORS IN PATH-LEARNING OF AN AUTONOMOUS LEARNING AGENT))の優先権を主張する。
【0002】
本明細書の開示は、一般に、自律学習エージェントの経路学習における予測誤差をモデル化することに関し、より詳細には、自律学習エージェントの経路学習における予測誤差をモデル化するためのシステムおよび方法に関する。
【背景技術】
【0003】
自律学習予測システムは、アクションのシーケンスを学習し、そこに存在する固有のパターンを使用して、将来のアクションの進路を正しく予測する機能を備えたシステムである。このようなシステムは、特に工場や住宅の設定や、ナビゲーションを成功させるために道路上のイベントを予測する必要がある自動運転車で、人間と対話する必要がある自律学習ロボットのために使用され得る。現在、この目的(たとえば、一時的なスキップ)のために様々なディープラーニングおよび強化学習技術が使用されているが、そのような技術は、大量のトレーニングデータと計算リソースを必要とし、さらに、これらは、オンライン学習ができない。ロボット工学では、このジャンルの学習および予測技術は、制御された環境ではうまく機能するが、非構造化されたノイズの多い環境での自律的な操作のためには、人間の脳と同様に、試行錯誤を繰り返すことによる、より適応的な学習および予測技術が必要とされ得る。
【0004】
Hierarchical Temporal Memory(HTM)は、人間の脳のような学習と予測が可能な生物学的に着想を得た(および制約された)理論的フレームワークを作成することを備え、到来する環境的な刺激が、スパース分散表現(SDR)フォーマットでエンコードされる。人間の脳を模倣した皮質学習アルゴリズムが適用され、これは、時間的および空間的クラスタリングを使用することによって、蓋然論的にSDR表現を抽象化し、連続するそのようなSDRの意味的類似性を検出する。最後に、人間の脳に非常に類似した学習および予測モデルが作成され、これは、高次シーケンスを記憶、学習、推論、および呼び出すことができる。HTMは、在庫のパフォーマンス、エネルギー使用量、機械の故障の監視および予測、異常な人間の振舞の検出、地理空間データにおけるパターンの発見、ロボットのための人間のようなスキル学習など、様々なアプリケーションで実証されているように正確に機能する。
【先行技術文献】
【特許文献】
【0005】
【文献】インド特許出願201821031249号
【発明の概要】
【発明が解決しようとする課題】
【0006】
HTMのような従来のシステムおよび方法のパフォーマンスは、特定のシナリオを満たしているが、従来のシステムおよび方法は、本質的に単純な理論モデル化フレームワークであり、自律学習システムの反復の増加に伴い、学習および予測が不正確になる。
【課題を解決するための手段】
【0007】
本開示の実施形態は、従来のシステムにおいて発明者によって認識された上述された技術的問題の1つまたは複数の解決策として技術的改善を提示する。たとえば、1つの実施形態では、自律学習エージェントの経路学習における予測誤差をモデル化するための方法が提供され、この方法は、1つまたは複数のハードウェアプロセッサによって、2段階のモデル化技術を介して時系列のパターンを表す複数の順次的なアクションをキャプチャすることであって、複数の順次的なアクションのおのおのは、自律学習エージェントに対応する、キャプチャすることと、キャプチャされた複数の順次的なアクションに基づいて、Hierarchical Temporal Memory(HTM)モデル化技術によって、自律学習エージェントの複数の予測および実際のアクションを備えた1つまたは複数のデータセットを導出することと、複数の予測および実際のアクションのおのおのを使用して、ユークリッド距離技術によって予測誤差値のセットを抽出することであって、予測誤差値のセットのおのおのは、複数の予測および実際のアクションのうち、1つまたは複数の実際のアクションからの偏差を備える、抽出することと、予測誤差値のセットに基づいて、自律学習エージェントの経路学習における複数の予測誤差をモデル化することであって、モデル化することは、(i)予測誤差値のセットに自己回帰移動平均(ARMA)技術を実施することによって、予測誤差値のセットから、複数の予測のアクションおよび実際のアクションのおのおのに対応する複数の適合誤差値を抽出することと、(ii)複数の適合誤差値に線形回帰技術を実施することによって、複数の予測および実際のアクションのうち、実際のアクションのおのおのから、自律学習エージェントの、可能性の高い偏差を推定することとを備える、モデル化することと、自律学習エージェントの、可能性の高い偏差を推定するために、線形回帰技術を介して2段階の時系列モデルを統合することと、自律学習エージェントの経路学習全体で、複数の学習モダリティをキャプチャするために2段階のモデル化技術を実施することであって、複数の学習モダリティは、自律学習エージェントによる先行するステップからの学習と、先行反復からの学習とを備える、実施することとを備えている。
【0008】
別の態様では、自律学習エージェントの経路学習における予測誤差をモデル化するためのシステムが提供され、このシステムは、命令を記憶するメモリと、1つまたは複数の通信インターフェースと、1つまたは複数の通信インターフェースを介してメモリに結合された1つまたは複数のハードウェアプロセッサとを備え、1つまたは複数のハードウェアプロセッサは、命令によって、2段階のモデル化技術を介して時系列のパターンを表す複数の順次的なアクションをキャプチャすることであって、複数の順次的なアクションのおのおのは、自律学習エージェントに対応する、キャプチャすることと、キャプチャされた複数の順次的なアクションに基づいて、Hierarchical Temporal Memoryモデル化(HTM)技術によって、自律学習エージェントの複数の予測および実際のアクションを備えた1つまたは複数のデータセットを導出することと、複数の予測および実際のアクションのおのおのを使用して、ユークリッド距離技術によって予測誤差値のセットを抽出することであって、予測誤差値のセットのおのおのは、複数の予測および実際のアクションのうち、1つまたは複数の実際のアクションからの偏差を備える、抽出することと、予測誤差値のセットに基づいて、自律学習エージェントの経路学習における複数の予測誤差をモデル化することであって、モデル化することは、(i)予測誤差値のセットに自己回帰移動平均(ARMA)技術を実施することによって、予測誤差値のセットから、複数の予測のアクションおよび実際のアクションのおのおのに対応する複数の適合誤差値を抽出することと、(ii)複数の適合誤差値に線形回帰技術を実施することによって、複数の予測および実際のアクションのうち、実際のアクションのおのおのから、自律学習エージェントの、可能性の高い偏差を推定することとを備える、モデル化することと、自律学習エージェントの、可能性の高い偏差を推定するために、線形回帰技術を介して2段階の時系列モデルを統合することと、自律学習エージェントの経路学習全体で、複数の学習モダリティをキャプチャするために2段階のモデル化技術を実施することであって、複数の学習モダリティは、自律学習エージェントによる先行するステップからの学習と、先行反復からの学習とを備える、実施することとを行うように構成されている。
【0009】
さらに別の態様では、1つまたは複数のハードウェアプロセッサによって実行された場合、1つまたは複数のハードウェアプロセッサに対して、自律学習エージェントの経路学習における予測誤差をモデル化するための方法を実行させる1つまたは複数の命令を備えた1つまたは複数の非一時的な機械可読情報記憶媒体が提供され、この方法は、1つまたは複数のハードウェアプロセッサによって、2段階のモデル化技術を介して時系列のパターンを表す複数の順次的なアクションをキャプチャすることであって、複数の順次的なアクションのおのおのは、自律学習エージェントに対応する、キャプチャすることと、キャプチャされた複数の順次的なアクションに基づいて、Hierarchical Temporal Memoryモデル化(HTM)技術によって、自律学習エージェントの複数の予測および実際のアクションを備えた1つまたは複数のデータセットを導出することと、複数の予測および実際のアクションのおのおのを使用して、ユークリッド距離技術によって予測誤差値のセットを抽出することであって、予測誤差値のセットのおのおのは、複数の予測および実際のアクションのうち、1つまたは複数の実際のアクションからの偏差を備える、抽出することと、予測誤差値のセットに基づいて、自律学習エージェントの経路学習における複数の予測誤差をモデル化することであって、モデル化することは、(i)予測誤差値のセットに自己回帰移動平均(ARMA)技術を実施することによって、予測誤差値のセットから、複数の予測のアクションおよび実際のアクションのおのおのに対応する複数の適合誤差値を抽出することと、(ii)複数の適合誤差値に線形回帰技術を実施することによって、複数の予測および実際のアクションのうち、実際のアクションのおのおのから、自律学習エージェントの、可能性の高い偏差を推定することとを備える、モデル化することと、自律学習エージェントの、可能性の高い偏差を推定するために、線形回帰技術を介して2段階の時系列モデルを統合することと、自律学習エージェントの経路学習全体で、複数の学習モダリティをキャプチャするために2段階のモデル化技術を実施することであって、複数の学習モダリティは、自律学習エージェントによる先行するステップからの学習と、先行反復からの学習とを備える、実施することとを備えている。
【0010】
前述の一般的な説明および以下の詳細な説明の両方は、例示および説明のみであり、特許請求される本発明を限定するものではないことを理解されたい。
【0011】
本開示に組み込まれ、その一部を構成する添付の図面は、例示的な実施形態を示し、説明とともに、開示された原理を説明するのに役立つ。
【図面の簡単な説明】
【0012】
図1図1は、本開示のいくつかの実施形態による、自律学習エージェントの経路学習における予測誤差をモデル化するためのシステムのブロック図である。
図2A図2Aは、本開示のいくつかの実施形態による、自律学習エージェントの経路学習における予測誤差をモデル化するプロセスに含まれるステップを示すフロー図である。
図2B図2Bは、本開示のいくつかの実施形態による、自律学習エージェントの経路学習における予測誤差をモデル化するプロセスに含まれるステップを示すフロー図である。
図3図3は、本開示のいくつかの実施形態による、各経路反復内および各経路反復全体での自律学習エージェントの学習、ならびに自律学習エージェントの経路および経路反復の例を示す図である。
図4A図4Aは、本開示のいくつかの実施形態による、2段階のモデル化技術を実施することによって、正方形経路、十字形経路、および直角経路全体での自律学習エージェントの予測振舞のグラフ例を示す図である。
図4B図4Bは、本開示のいくつかの実施形態による、2段階のモデル化技術を実施することによって、正方形経路、十字形経路、および直角経路全体での自律学習エージェントの予測振舞のグラフ例を示す図である。
図5A図5Aは、本開示のいくつかの実施形態による、2段階のモデル化技術を実施することによって、正方形経路、十字形経路、および直角経路全体での自律学習エージェントの予測振舞のグラフ例を示す図である。
図5B図5Bは、本開示のいくつかの実施形態による、2段階のモデル化技術を実施することによって、正方形経路、十字形経路、および直角経路全体での自律学習エージェントの予測振舞のグラフ例を示す図である。
図6A図6Aは、本開示のいくつかの実施形態による、2段階のモデル化技術を実施することによって、正方形経路、十字形経路、および直角経路全体での自律学習エージェントの予測振舞のグラフ例を示す図である。
図6B図6Bは、本開示のいくつかの実施形態による、2段階のモデル化技術を実施することによって、正方形経路、十字形経路、および直角経路全体での自律学習エージェントの予測振舞のグラフ例を示す図である。
図7A図7Aは、本開示のいくつかの実施形態による、経路反復の数が入力として増加するとき、自律学習エージェントの学習飽和点が、特定の経路の特定の固定値の周りで振動する例のグラフ表示を示す図である。
図7B図7Bは、本開示のいくつかの実施形態による、経路反復の数が入力として増加するとき、自律学習エージェントの学習飽和点が、特定の経路の特定の固定値の周りで振動する例のグラフ表示を示す図である。
図7C図7Cは、本開示のいくつかの実施形態による、経路反復の数が入力として増加するとき、自律学習エージェントの学習飽和点が、特定の経路の特定の固定値の周りで振動する例のグラフ表示を示す図である。
図8A図8Aは、本開示のいくつかの実施形態による、提案された方法論と、従来のシステムおよび方法、すなわち、HTMとの間の予測偏差の差分を示す図である。
図8B図8Bは、本開示のいくつかの実施形態による、提案された方法論と、従来のシステムおよび方法、すなわち、HTMとの間の予測偏差の差分を示す図である。
図8C図8Cは、本開示のいくつかの実施形態による、提案された方法論と、従来のシステムおよび方法、すなわち、HTMとの間の予測偏差の差分を示す図である。
【発明を実施するための形態】
【0013】
例示的な実施形態は、添付の図面を参照して説明される。図では、参照番号の左端の数字は、参照番号が最初に現れる図を識別する。便宜上、図面全体を通して同じ参照番号が使用され、同じまたは同一の部位が参照される。開示された原理の例および特徴が本明細書で説明されているが、開示された実施形態の精神および範囲から逸脱することなく、修正、適合、および他の実施が可能である。以下の詳細な説明は例示としてのみ考慮されることが意図されており、真の範囲および精神は添付の特許請求の範囲によって示される。
【0014】
本開示の実施形態は、自律学習エージェントの経路学習における予測誤差をモデル化するためのシステムおよび方法を提供する。脳のしわのある部分である新皮質は、感覚知覚と運動アクションを記憶する予測記憶システムを備えており、時間の経過とともに獲得および記憶された知識に基づいて、学習/推測、意思決定、コマンドの生成、空間的推論を行うことが可能である。Hierarchical Temporal Memory(HTM)のような自律学習システムは、人間の新皮質の理解に基づいた理論的なフレームワークである。予測モデル化とは、一般に、データから情報を抽出して、特定の入力からの出力を予測できるモデルを構築する技術を称する。出力の予測は、いくつか例を挙げると、将来の傾向や振舞パターンを予測すること、または感情分析を実行することを含み得る。
【0015】
様々なタイプの予測および機械学習モデルを使用して、データを分析し、予測出力を生成できる。予測または機械学習モデルをトレーニングするために必要なトレーニングデータの量は、たとえばギガバイトまたはテラバイトのオーダであり、多数となり得る。利用可能な異なるタイプの予測モデルの数は膨大であり、入力データのタイプに応じて、異なるモデルが、異なる振舞をする。さらに、特定のタイプの予測モデルは、たとえばハイパーパラメータを調整することによって、または特徴誘導または選択を介して、異なる振舞をするように作成され得る。場合によっては、多数の異なる予測モデルからの出力を組み合わせて、優れた予測が実現され得る。
【0016】
HTMのような一部の従来のシステムおよび方法のパフォーマンスは、予測モデル化の特定のシナリオを満たしているが、従来のシステムおよび方法は、本質的に、学習およびフレームワークに数学的定式のない単純な理論モデル化フレームワークである。
【0017】
したがって、このような機械学習モデルの予測振舞をモデル化するフレームワーク(または数学的フレームワーク)を提供し、それによって自律学習エージェントの学習の反復回数が増加するにつれて、正確な予測モデル化を提供する技術が必要とされる。そして、フレームワークは、両方の学習モダリティ、つまり、自律学習エージェントが、経路反復内のおのおの内で、および経路反復のおのおの全体で学習する場合に対応することができる。
【0018】
ここで図面を、特に、同様の参照文字が、図面を通して一貫して対応する特徴を示す図1乃至図8Cを参照して、好ましい実施形態が示され、これらの実施形態は、以下の例示的なシステムおよび/または方法の文脈で説明される。
【0019】
図1は、本開示の実施形態による、自律学習エージェントの経路学習における予測誤差をモデル化するためのシステム100の例示的なブロック図を示す。実施形態では、システム100は、1つまたは複数のプロセッサ104と、通信インターフェースデバイスまたは入力/出力(I/O)インターフェース106と、1つまたは複数のプロセッサ104に動作可能に結合された1つまたは複数のデータ記憶デバイスまたはメモリ102とを含む。ハードウェアプロセッサである1つまたは複数のプロセッサ104は、1つまたは複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理装置、ステートマシン、論理回路、および/または、操作命令に基づいて信号を操作する任意のデバイスとして実施され得る。他の機能の中でも、プロセッサは、メモリ102に記憶されたコンピュータ可読命令をフェッチして実行するように構成される。実施形態では、システム100は、ラップトップコンピュータ、ノートブック、ハンドヘルドデバイス、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウドなどの様々なコンピューティングシステムで実施され得る。
【0020】
I/Oインターフェースデバイス106は、たとえばウェブインターフェース、グラフィックユーザインターフェースなどの様々なソフトウェアおよびハードウェアインターフェースを含むことができ、たとえばLAN、ケーブルなどの有線ネットワーク、およびWLAN、セルラ、または衛星のようなワイヤレスネットワークを含む多種多様なネットワークN/Wおよびプロトコルタイプ内で、多数の通信を容易にすることができる。実施形態では、I/Oインターフェースデバイスは、多くのデバイスを互いに、または別のサーバに接続するための1つまたは複数のポートを含むことができる。
【0021】
メモリ102は、たとえば、スタティックランダムアクセスメモリ(SRAM)およびダイナミックランダムアクセスメモリ(DRAM)のような揮発性メモリ、および/または、読取専用メモリ(ROM)、消去可能なプログラマブルROM、フラッシュメモリ、ハードディスク、光ディスク、および磁気テープのような不揮発性メモリを含む、当該技術分野で知られている任意のコンピュータ可読媒体を含み得る。
【0022】
図2A乃至図2Bは、図1を参照して示すように、本開示のいくつかの実施形態による、自律学習エージェントの経路学習における予測誤差をモデル化するための方法の例示的なフロー図を示す。実施形態では、システム100は、1つまたは複数のハードウェアプロセッサ104に動作可能に結合されたメモリ102の1つまたは複数のデータ記憶デバイスを備え、1つまたは複数のプロセッサ104による方法のステップの実行のための命令を記憶するように構成される。本開示の方法のステップは、図1およびフロー図に表されるシステム100の構成要素を参照して説明される。本開示の実施形態では、ハードウェアプロセッサ104は、命令が構成されると、本明細書で説明される1つまたは複数の方法論を実行する。
【0023】
本開示の実施形態によれば、ステップ201において、1つまたは複数のハードウェアプロセッサ104は、2段階のモデル化技術を介して、複数の順次的なアクションをキャプチャし、複数の順次的なアクションは、時系列のパターンを表し、複数の順次的なアクションのおのおのは、自律学習エージェントに対応する。本明細書で使用される場合、自律学習エージェントは、所有者に代わって動作するが、たとえばロボットのような、その所有エンティティの干渉はないスマートエージェントを備え得る。一般に、自律学習エージェントは、制限されたドメイン内で情報を処理して自律性を付与し、その後、付与または学習されたルールに基づいてアクションを実行する能力を有する。さらに、自律学習システムは、センサから収集された情報を使用して、独立した決定を行い、対応するアクチュエータを使用して、これらに基づいて動作し得る。
【0024】
自律学習エージェントはまた、1つまたは複数のディープラーニング技術を使用して、そのタスク(たとえば、チャットボット、自動運転車など)を実行および改善するディープラーニングエージェントまたは人工知能ベースのエージェントで構成され得る。一般に任意の自律学習エージェントによって実行されるアクションのシーケンスは、タスクまたはサブタスクの実行を容易にする。アクションのシーケンスは、一般に、いくつかの並列的または順次的なアクションを備えている。繰り返すが、アクションは、1つまたはいくつかの並列的または順次的な基本アクションを備え得る。さらに、単一の基本アクションは、単一または複数の並列的な基本操作を備えている。複数の並列的な基本操作のおのおのは、ロボットサブシステムの自由度(DOF)のための(たとえば、1つの低レベルの制御ループのための)原始的な感覚運動操作を特徴付ける。
【0025】
実施形態では、複数の順次的なアクションは、自律学習エージェントによる左右ターン、前方移動などを備えることができ、複数の順次的なアクションは、タスクまたはサブタスクの実行のためのシーケンスによって表される。さらに、自律学習エージェントの学習および予測が進化し、時間とともに正確になるにつれて、複数の順次的なアクションが、時系列のパターンを表す。複数の順次的なアクションは、2段階のモデル化技術によってキャプチャされる。2段階のモデル化技術が、詳細に検討され得る。
【0026】
実施形態では、2段階のモデル化技術は、Hierarchical Temporal Memory(HTM)またはHTMモデル化技術を使用して、学習における偏差を分析するために、2段階のモデルを介して記述され得るモデル(または数学モデル)を備えている。当該技術分野で知られているように、HTM(またはHTMモデル化技術)は、人間の新皮質の理解に基づいた理論的なフレームワークである。HTMは、一般的な学習アルゴリズムのセットが新皮質内にあるという(聴覚皮質が視覚システムと再配線された新生児フェレットの実験で検証された)仮説に基づく。HTMはニューラルネットワークの一種と見なすことができるが、構造は、フィードバックおよびフィードフォワード入力が実際に考慮されていない従来のANNとは根本的に異なる。
【0027】
HTM(またはHTMモデル化技術)は、列および領域に配置されたニューロン(または、専門用語ではセル)をモデル化し、人間の脳の皮質構造に類似した階層を形成する。HTMは基本的にメモリベースのシステムであり、HTMネットワークは、時間変動データのトレーニングを受けた場合、パターンおよびシーケンスの大きなセットを記憶する。一方、HTMメモリは、階層構造と、時間に対する固有の依存とで制限される。情報は分散方式で記憶され、HTMは、階層のサイズとデータのタイプに基づいて、情報がどこにどのように記憶されるのかを制御する。
【0028】
実施形態では、2段階のモデル化技術は、経路学習の各経路反復内の時系列モデルと、経路学習のすべての経路反復にわたる別の時系列モデルとを備えており、2段階の時系列モデル(つまり、各経路反復内の時系列モデルと、すべての経路反復にわたる別の時系列モデル)は、自律学習エージェントの偏差を推定するために線形回帰技術を介して統合される。2段階のモデル化技術の実施は、例とともに、後続する段落でさらに詳しく議論される。
【0029】
本開示の実施形態によれば、ステップ202において、1つまたは複数のハードウェアプロセッサ104は、キャプチャされた複数の順次的なアクションに基づいて、自律学習エージェントの複数の予測および実際のアクションを備えた1つまたは複数のデータセットを導出し、1つまたは複数のデータセットは、HTMモデル化技術を実施することによって導出される。実施形態では、まず、自律学習エージェントは、左右ターン、前方移動などの複数の順次的なアクションを備えた特定の経路を学習するように割り当てられ、上記のステップ201において議論されたように、複数の順次的なアクションがキャプチャされる。
【0030】
実際のアクションは、自律学習エージェントによって講じられる実際のステップを称し、複数の予測および実際のアクションのうち、そのような実際の各アクションは、(xact,yact)によって示される経路における位置への自律学習エージェントの移動となる。同様に、予測のアクションは、HTMモデル化技術によって予測されるロボットのアクションを称する。複数の予測および実際のアクションのうち、予測のアクションのおのおのは、自律学習エージェントを、(xpred,ypred)によって示される経路内の位置に移動させることになる。
【0031】
経路が、n個のステップを備えており、経路を正確に学習および予測するためにp回の反復が必要な場合、j番目の経路反復におけるi番目のステップにおける学習および予測は、その経路反復における先行する(n-1)回のすべてのステップにおいて講じられたアクションと、先行する(j-1)回のすべての経路反復における正確なi番目のステップにおいて講じられたアクションとによって影響を受ける。以下の表1を参照して示すように、HTMフレームワーク(またはHTMモデル化技術)を実施することによって導出されたサンプルデータセットが参照され得、ここでは、自律学習エージェントの予測位置が、(xpred,ypred)によって示される一方、実際の位置は(xact,yact)によって示される。
【0032】
【表1】
表1
【0033】
実施形態では、自律学習エージェントは、経路を横断しながら、2つの異なる手法で学習する。1つの学習は、経路内、つまり、自律学習エージェントが、経路内の1つまたは複数の先行するステップから学習した場合に達成される。各経路反復全体で、つまり、自律学習エージェントが、1つまたは複数の先行する反復から学習したときに、別の学習が達成され得る。
【0034】
自律学習エージェントは、経路反復を完了するために、n回のステップを実行したと仮定する。さらに、その経路の学習を完了するために、p回の経路反復が講じられる。その後、eijは、i番目の経路反復のj番目のステップにおける実際の位置からの(自律学習エージェントの)偏差を示す。したがって、上記で議論されたように、学習は2つの手法で達成される。つまり、eijは、ei.からの学習に基づいて、また、e.jからの学習に基づいて達成され、ここでei.={ei1,ei2,...,ei,j-1}およびe.j={eij,e2j,...,ei-1,j}である。言い換えれば、自律学習エージェントが、5番目の経路反復の第3のステップにある場合、自律学習エージェントは、5番目の経路反復の第1および第2のステップから、および先行する4回の経路反復の第3のステップから学習した。
【0035】
図3を参照して示すように、自律学習エージェントの経路および経路反復の例も参照され得る。再び図3を参照して示すように、各経路反復内および各経路反復全体での学習が参照され得る。
【0036】
本開示の実施形態によれば、ステップ203において、1つまたは複数のハードウェアプロセッサ104は、複数の予測および実際のアクションのおのおのを使用して、ユークリッド距離技術によって、予測誤差値のセットを抽出し、予測誤差値のセットのおのおのは、複数の予測および実際のアクションのうち、1つまたは複数の実際のアクションからの偏差を備えている。実施形態では、自律学習エージェントの予測位置が(xpred,ypred)によって示される一方、実際の位置が(xact,yact)によって示される場合、ユークリッド距離は、実際の座標と予測座標との間で導出され得る。
【0037】
実施形態では、j番目の経路反復におけるi番目のステップにおける学習および予測が、その経路反復における先行する(n-1)回のすべてのステップにおいて講じられたアクションによって、および、先行する(j-1)回のすべての経路反復における正確なi番目のステップにおいて講じられたアクションによって、影響を受けるので、ユークリッド距離技術は、n回のステップおよびp回の反復のおのおのに適用される。提案された開示の実施形態は、ユークリッド距離技術のみを使用した予測誤差値のセットの抽出を制限せず、他の技術または1つまたは複数の知られている技術の任意の組合せを使用した予測誤差値のセットの抽出を容易にすることに留意されたい。例において、予測誤差値のセットは、次のように取得され得る。
正方形経路の場合、反復1のみの学習後の予測誤差=7.209276;
正方形経路の場合、反復1および2の学習後の予測誤差=5.613553;
正方形経路の場合、反復1、2、3、4、5、6、および7の学習後の予測誤差=2.183144。
【0038】
本開示の実施形態によれば、ステップ204において、1つまたは複数のハードウェアプロセッサ104は、予測誤差値のセットに基づいて、自律学習エージェントの経路学習における複数の予測誤差をモデル化する。ステップ204(i)において、1つまたは複数のハードウェアプロセッサ104は、予測誤差値のセットに対して、自己回帰移動平均(ARMA)技術を実施することによって、予測誤差値のセットから、複数の予測のアクションおよび実際のアクションのおのおのに対応する複数の適合誤差値を抽出する。モデル化のステップは、従来のシステムおよび方法が直面する技術的な問題に照らして詳細に検討され得る。
【0039】
一般に、自律学習エージェントの学習は、時間とともに進化するため、その振舞をキャッチするために、時系列モデルが必要とされる。しかしながら、時系列は、自己相関パラメータを備えているため、このような場合における単一の時系列モデルは常に無駄である。自己相関パラメータは、現在のステップに対して自律学習エージェントによって講じられた先行するステップの効果を測定する。しかしながら、先行するステップが過去にさかのぼると、自己相関パラメータの効果は減少する。したがって、自己相関は、単一の時系列が実施されている場合、eijに対するe.jの効果を適切にキャプチャし得る。
【0040】
実際には、自律学習エージェントは、先行する経路反復の記憶を保持し、単一の時系列は、先行する経路反復における同じステップから特定のステップに到達するために、経路反復全体の長さを横断する必要があるため、単一の時系列は無駄な効果を示す。例示的なシナリオを検討すると、再び図3を参照して示すように、e22は、第1の経路反復の第2のステップからの学習の結果として、また第2の経路反復の第1のステップとしても達成され得る。適切な自己相関を有する単一の時系列の結果、e21がe22に与える影響が大きくなる。しかしながら、自己相関が単一の数値、たとえばρである場合、e22とe12との間の相関は、ρρとなる。これは、(|ρ|≦1であるため)大きなρに対して非常に小さくなり得、これにより、単一の時系列は、経路反復全体の影響をキャプチャできなくなることを証明する。
【0041】
2段階のモデル化技術を使用したモデル化 - 従来のシステムおよび方法の技術的制限を克服するために、提案された開示は、2段階のモデル化技術を提供し、2段階のモデル化技術は、上記で議論されたように、経路学習の各経路反復内の時系列モデルと、経路学習のすべての経路反復にわたる別の時系列モデルとを備えている。例とともに、自律学習エージェントの経路学習における予測誤差をモデル化する際における2段階のモデル化技術の実施が、ここで詳細に検討され得る。
【0042】
実施形態では、2段階のモデル化技術は、2つの時系列T1およびT2を使用する。自律学習エージェントの経路学習における各ステップについて、T1は、経路反復のおのおの内で学習するARMAモデルであり、T2は、経路反復のおのおの全体で学習する別のARMAモデルである。Ytが、p個の自己回帰項と、q個の移動平均項とを有するARMA(p,q)時系列である場合、対応する数式は次のように与えられる。
【0043】
【数1】
【0044】
ここで、εtは時間tにおける誤差、Φi-Sは、自己回帰パラメータ、Ψi-Sは、移動平均パラメータである。
【0045】
このように、2段階のモデル化(または、モデル化)は、ARMA技術を実施することによって、経路学習の各経路反復全体および各経路反復内で実行される。さらに、2段階のモデル化技術は、自律学習エージェントの経路学習全体で複数の学習モダリティをキャプチャするために実施され、複数の学習モダリティは、自律学習エージェントによる、先行するステップからの学習と、先行する反復からの学習とを備えている。
【0046】
提案された開示は、各経路反復が単一のARMA(p1,q1)時系列T1によってモデル化され得、経路反復全体のステップのおのおのが、単一のARMA(p2,q2)時系列T1を実施することによってモデル化され得ると仮定している。時系列モデルT1およびT2をフィッティングした後、各値に対応する予測が取得され得る。実施形態では、各値について、2つの予測、たとえば、T1から
【0047】
【数2】
【0048】
およびT2から
【0049】
【数3】
【0050】
が取得され得る(本明細書では、複数の適合誤差値と称される)。例示的な実施において、複数の適合誤差値は、ARMA技術を次のように実施することによって抽出され得る。
各反復内の各ステップの適合誤差値:
ステップ1の反復1の適合誤差値=59.94000004
ステップ2の反復1の適合誤差値=65.43371336
ステップ6の反復9の適合誤差値=-410.931
ステップ9の反復9の適合誤差値=-480
各反復全体の単一ステップの適合誤差値:
反復1のステップ1の適合誤差値=59.94000035
反復1のステップ6の適合誤差値=56.75596
反復5のステップ1の適合誤差値=-510.62
反復9のステップ11の適合誤差値=-35.3545
【0051】
本開示の実施形態によれば、ステップ204(ii)において、1つまたは複数のハードウェアプロセッサ104は、複数の適合誤差値に線形回帰技術を実施することによって、複数の予測および実際のアクションのうち、実際のアクションのおのおのから自律学習エージェントの、可能性の高い偏差を推定する。したがって、T1から
【0052】
【数4】
【0053】
およびT2から
【0054】
【数5】
【0055】
を取得すると、2段階のモデル化技術は、回帰段階に移動し、ここでは、実際の位置eijからの自律学習エージェントの偏差は、線形回帰技術によってモデル化され得ると仮定され、
【0056】
【数6】
【0057】
および
【0058】
【数7】
【0059】
は共変量として機能する。数学的に次のように表される。
【0060】
【数8】
【0061】
ここで、β1およびβ2は回帰パラメータであり、εijはガウスノイズである。したがって、2段階のモデル全体は数学的に、
【0062】
【数9】
【0063】
として表され、ここで
【0064】
【数10】
【0065】
および
【0066】
【数11】
【0067】
はそれぞれT1およびT2の推定自己回帰パラメータを示し、
【0068】
【数12】
【0069】
および
【0070】
【数13】
【0071】
はそれぞれT1およびT2の推定移動平均パラメータを示す。同様に、ε1およびε2はそれぞれ、T1およびT2に付随する誤差であり、εは平均0および分散1のガウスノイズである。
【0072】
したがって、経路学習における予測誤差をモデル化するために、1つまたは複数のハードウェアプロセッサ104を介した自律学習エージェントの振舞の以下に述べるモデル(すなわち、アルゴリズム)を実施することによって、上記のステップ203において抽出された予測誤差値のセットに対して、2段階のモデル化技術が実施される。以下のアルゴリズムを参照して示すように、提案された開示は、各偏差値の2系列モデルをフィッティングして2つの予測を取得し、1つまたは複数のハードウェアプロセッサ104を介した2つの予測による線形回帰を使用して、最終的な予測を導出することに留意されたい。
【0073】
自律学習エージェントの振舞のモデル
1.実際の座標を(Xact,Yact)として、予測座標を自律学習エージェントの場合、(Xpred,Ypred)として示す。
2.
【0074】
【数14】
【0075】
3.各ステップのついてのリストξ。
4.経路-反復内で、ARMA時系列T1をξに適合させる。
5.経路-反復全体の各ステップについて、ARMA時系列T2をξに適合させる。
6.各ステップについて、ξについて2つの予測値、T1を使用して
【0076】
【数15】
【0077】
を、およびT2を使用して
【0078】
【数16】
【0079】
を導出する。
7.線形回帰
【0080】
【数17】
【0081】
を実施する。
8.回帰推定値を使用して最終的な推定値
【0082】
【数18】
【0083】
を予測する。
【0084】
ARMA技術によって複数の適合誤差値を抽出するための(上記説明した)2段階のモデル化技術の実施が、詳細に考慮され得る。実施形態では、実際の位置からの自律学習エージェントの偏差は、ξ={ξij}によって示される。上記のアルゴリズムで参照される適合偏差は、
【0085】
【数19】
【0086】
として示される。実施形態では、
【0087】
【数20】
【0088】
の振舞を研究するために、上記式3で使用される表記が使用され得る。自律学習エージェントがトレーニングされている間、学習は、時間とともにより正確になることに留意されたい。言い換えると、時間の増加とともにξは0に等しくなる。
【0089】
したがって、T1およびT2の両方について、予測値もまた、時間とともに0に等しくなる。さらに表記
【0090】
【数21】
【0091】
およびβ={β1、β2}が作成されると、回帰式は、以下の式(4)のように表される。
【0092】
【数22】
【0093】
ここで、
【0094】
【数23】
【0095】
である。
【0096】
回帰式(4)および
【0097】
【数24】
【0098】
に基づいて、次の定理が取得され得る。np→∞の場合、
【0099】
【数25】
【0100】
はN(0,Γ)としてほぼ分布され、ここで、Γのモーメント推定の方法は、
【0101】
【数26】
【0102】
であり、ここで、
【0103】
【数27】
【0104】
および
【0105】
【数28】
【0106】
であり、ここで、
【0107】
【数29】
【0108】
は(i,j)番目の要素がγA(i-j)であるp1×p1行列であり、A(t)は、AR(p)プロセスであり、γA(i-j)は、対応する自己共分散行列の(i,j)番目の要素を示す。
【0109】
【数30】
【0110】
は、γB(i-j)としてその(i,j)番目の要素を有するq1×q1行列であり、B(t)は、AR(q)プロセスであり、γB(i-j)は、対応する自己共分散行列の(i,j)番目の要素を示す。
【0111】
【数31】
【0112】
は、A(t)およびB(t)の共分散である。実施形態では、同様の定義が、Γ2についても言える。
【0113】
実施形態では、2つのARMA構造T1およびT2が使用される。T1の場合、分散行列は、
【0114】
【数32】
【0115】
であり、T1の場合、分散行列は、従来のシステムおよび方法の一部から知られている
【0116】
【数33】
【0117】
である。T1およびT2の分散行列と回帰式(3)とに基づくと、ξの分散は以下のとおりである。
【0118】
【数34】
【0119】
上記の式(5)を参照して示すように、分散に関する記述が証明されていることに留意されたい。平均に関する記述は、
【0120】
【数35】
【0121】
0になる
【0122】
【数36】
【0123】
であるβの最小二乗推定値から得られる。正規性は、当該技術分野で知られている技術、たとえば中心極限定理およびガウス誤差の特性から続く。
【0124】
この定理は、学習のためのステップの総数(つまり、np)が多い場合、予測偏差が0になることを示す。また、経路反復のおのおのにおけるステップの数と、経路反復の数とが多い場合、予測偏差における変動は、小さな領域内で凝縮される。なぜなら、近似分散が
【0125】
【数37】
【0126】
であり、これは、nおよびpの両方が増加するにつれて、縮小するためである。さらに、nが固定され、pが増加しても、np→∞であるため、結果は保持される。
【0127】
実施形態では、nが固定されたまま、pが増加する場合、np→∞であるので、結果が保持されるという特性は、重要な特性である。なぜなら、これは、固定されたステップ数を有する経路の、十分多くの反復回数後、分散、すなわち、予測偏差は制限され、したがって、予測偏差のプロットは、図4A乃至図6Bを参照している間に観察され得るように、煙突のようであることを示すからである。したがって、時系列パラメータの推定値に基づいて、事前に指定された間隔で区切られた
【0128】
【数38】
【0129】
部分を作るために、どの値のnおよびpが(または、固定されたnに対して、どの値のp値が)必要とされるのかが推定され得る。
【0130】
本開示の実施形態によれば、2段階のモデル化技術を実施することによって達成される実験結果が、詳細に検討され得る。実施形態では、自律学習エージェント、すなわちロボットが、提案された方法論を実行および実施するために使用され、自律学習エージェントは、512MBのランダムアクセスメモリ(RAM)を備えたラズベリーパイ3ベースのロボットである。ロボットは、異なる経路、すなわち、正方形経路、十字形経路、および直角の経路を学習するように作成され、各経路におけるターンの数が大きいと、学習がより複雑になることを意味する。
【0131】
実施形態では、3つの経路のおのおのについて多数の実験が実行され、第1の実験は、増加する回数の学習反復にわたって、予測がどのように振る舞うのかについてテストするために実行された。例示的なシナリオを考慮すると、正方形経路は、正確に学習されるようにテストされ、各ステップは、36回の反復後に正確に予測される。その後、学習モデルは、1つまたは複数のハードウェアプロセッサ104によってロボットから取り除かれてもよく、その結果、ロボットは、正方形経路に対応するナビゲーションを完全に忘却する。
【0132】
実施形態では、自律学習エージェント(またはロボット)は、その後、4回、8回、11回、および18回の経路反復(すなわち、それぞれ飽和学習ステップの10%、20%、30%、および50%)で学習され得、対応する偏差予測が、経路反復に対してプロットされ得る。図4Aおよび図4Bを参照して示すように、4回のトレーニング反復のために、学習飽和が、約40回の経路反復で発生すると予測される一方、8回の反復のために、約35回の反復に減少することに留意されたい。したがって、8回の反復後、1つまたは複数のハードウェアプロセッサ104は、提案された方法論を介して、自律学習エージェント(またはロボット)がどのくらい正確になるのかをトレーニングするための所定の経路また所定の一定の時間を、自律学習エージェント(またはロボット)が学習する時間を、予測し得る。
【0133】
実施形態において、それぞれ44回および32回の経路反復後に学習され得る十字形および直角の経路を用いて、同様の実験が行われ、その結果は、図5A乃至図6Bを参照することによって観察され得る。図5A乃至図6Bを再び参照して示すように、直角の経路は、ターン数を考慮するとより複雑であるが、提案された方法論を実施することによって、HTMは、十字形経路と比較して、ターンが規則的な間隔で現れるので、より迅速に学習できることに留意されたい。
【0134】
本開示の実施形態によれば、図7Aから図7Cを参照して示すように、入力として経路反復の数が増加するにつれて、収束、すなわち学習飽和点の予測された反復の値は、特定の経路の特定の固定値の周りで振動することに留意されたい。3つの経路すべて(すなわち、正方形、十字形、および直角の経路)について、経路反復の数が増加しても、偏差モデルは、その特定の値のバンドの中で収束する。これは、学習飽和点が常に特定の値になる傾向があり、特定の回数の経路反復後もさほど改善しない(すなわち、低下する)ことを意味する。
【0135】
図8Aから図8Cを参照して示すように、提案された方法論と従来のシステムおよび方法、すなわちHTMを実施することによって、予測偏差の差分が観察される場合がある。再び図8A乃至図8Cを参照して示すように、トレーニングの反復回数が増えると、提案された方法論を実施することによってモデル化された予測が、HTM予測で収束することに留意されたい。
【0136】
本開示の実施形態によれば、提案された開示の利点が詳細に検討され得る。図4A乃至図8Cを参照して示すように、提案された方法論は、予測における誤差をモデル化する際に、高い精度を提供することに留意されたい。再び図8A乃至図8Cを参照して示すように、提案された方法論はHTMと簡単に統合され得、それにより、HTMにおける誤差(または予測誤差)を複数の反復にわたって低減するのに役立つ新たなモデルを容易にすることに留意されたい。提案された方法論は、入力として、HTMにおけるすべての誤差を受け、予測振舞が、反復の回数にわたってどのように変化するかを判定する、最適化されたモデルを容易にする。HTMの予測誤差をモデル化するための従来のシステムおよび方法はない。
【0137】
さらに、提案された方法論によって開示されているように、従来のシステムおよび方法(または既存の学習システム)は、2段階の時系列モデル化のみならず、2段階の時系列モデル化の組合せを提供できない。上記で議論されたように、提案された方法論は、両方の学習モダリティ、つまり、自律学習エージェントが、経路反復のおのおの内、および経路反復のおのおの全体にわたって学習する場合に対応することができる。
【0138】
実施形態では、メモリ102は、自律学習エージェントの経路学習における予測誤差のモデル化に関連付けられた任意のデータを記憶するように構成され得る。実施形態では、複数の順次的なアクション、導出された1つまたは複数のデータセット、抽出された予測誤差値のセット、抽出された複数の適合誤差値、および実際のアクションのおのおのからの自律学習エージェントの、可能性の高い偏差のモデル化等に関する情報が、メモリ102に記憶される。さらに、自律学習エージェントの経路学習における予測誤差のモデル化に関するすべての情報(入力、出力等)もまた、参照目的で、履歴データとして、データベースに記憶され得る。
【0139】
記載された説明は、当業者が実施形態を作成および使用することを可能にするために、本明細書の主題を説明する。主題の実施形態の範囲は、特許請求の範囲によって定義され、当業者に想起される他の修正を含み得る。そのような他の修正は、特許請求の範囲の文言上の用語と異ならない類似の要素を有する場合、または特許請求の範囲の文言上の用語と実質的な相違のない等価な要素を含む場合、特許請求の範囲内にある。
【0140】
本明細書における本開示の実施形態は、自律学習エージェントの経路学習における予測誤差をモデル化する未解決の問題に対処する。したがって、実施形態は、ARMA技術を実施することによって、予測誤差値のセットから、複数の予測のアクションおよび実際のアクションのおのおのに対応する複数の適合誤差値を抽出することと、複数の適合誤差値に線形回帰技術を実施することによって、複数の予測および実際のアクションのうち、実際のアクションのおのおのから、自律学習エージェントの、可能性の高い偏差を推定することとによって、自律学習エージェントの経路学習における複数の予測誤差をモデル化することを提供する。さらに、本明細書における実施形態はさらに、2段階の時系列モデル化のみならず、2段階の時系列モデル化の組合せを提供し、HTMにおけるすべての予測誤差が、反復の回数にわたって低減される。
【0141】
保護の範囲は、そのようなプログラムに、それに加えて、その中にメッセージを含むコンピュータ可読手段に拡張され、そのようなコンピュータ可読記憶手段は、プログラムがサーバまたはモバイルデバイスまたは任意の適切なプログラム可能なデバイスで実行されたときに、方法の1つまたは複数のステップを実施するためのプログラムコード手段を含むことを理解されたい。ハードウェアデバイスは、たとえば、サーバまたはパーソナルコンピュータ等、またはその任意の組合せのような任意の種類のコンピュータを含む、プログラム可能な任意の種類のデバイスとすることができる。デバイスはまた、たとえば、特定用途向け集積回路(ASIC)やフィールドプログラマブルゲートアレイ(FPGA)のようなハードウェア手段、または、たとえば、ASICとFPGA、または、少なくとも1つのマイクロプロセッサと、その中に配置されたソフトウェアモジュールを備えた少なくとも1つのメモリとのような、ハードウェア手段とソフトウェア手段との組合せを含み得る。したがって、手段は、ハードウェア手段とソフトウェア手段との両方を含み得る。本明細書で説明される方法の実施形態は、ハードウェアおよびソフトウェアで実施され得る。デバイスはまた、ソフトウェア手段も含み得る。あるいは、実施形態は、たとえば、複数のCPUを使用して、異なるハードウェアデバイスにおいて実施され得る。
【0142】
本明細書における実施形態は、ハードウェアおよびソフトウェア要素を備え得る。ソフトウェアにおいて実施される実施形態は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、これらに限定されない。本明細書で説明される様々なモジュールによって実行される機能は、他のモジュールまたは他のモジュールの組合せにおいて実施され得る。この説明の目的のために、コンピュータ使用可能またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはこれらに関連して使用するためのプログラムを備える、記憶する、通信する、伝播する、または転送することができる任意の装置であり得る。
【0143】
例示されたステップは、図示された例示的な実施形態を説明するために提示されており、進行中の技術開発が、特定の機能が実行される方式を変更することが予想される。これらの例は、限定ではなく、例示の目的で本明細書に提示されている。さらに、機能構築ブロックの境界は、説明の便宜上、本明細書で任意に定義されている。指定された機能とその関係が適切に実行される限り、代替の境界が定義され得る。本明細書に含まれる教示に基づいて、(本明細書に記載されるものの等価物、拡張、変形、変更等を含む)代替物が、当業者に明らかである。そのような代替物は、開示された実施形態の範囲および精神に含まれる。また、「備える」、「有する」、「含有する」、および「含む」の単語、および他の類似の形式は、意味的に等価であり、これらの単語のいずれかに続く項目は、そのような項目の完全なリストであることは意図されておらず、または、リストされた項目にのみ限定されることも意図されていないという点において、無制約であることが意図されている。また、本明細書および添付の特許請求の範囲で使用されるように、単数形「a」、「an」、および「the」は、文脈がそうではないことを明確に示さない限り、複数の参照を含む。
【0144】
さらに、本開示と一致する実施形態を実施する際に、1つまたは複数のコンピュータ可読記憶媒体が利用され得る。コンピュータ可読記憶媒体とは、プロセッサによる可読な情報またはデータが記憶され得る任意のタイプの物理メモリを称する。したがって、コンピュータ可読記憶媒体は、本明細書に記載の実施形態と一致するステップまたは段階をプロセッサに実行させるための命令を含む、1つまたは複数のプロセッサによる実行のための命令を記憶し得る。「コンピュータ可読媒体」という用語は、有形の項目を含み、搬送波と一時的な信号を除外する、つまり非一時的であると理解されるべきである。例は、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク、および、他の知られている任意の物理記憶媒体を含む。
【0145】
開示および例は、例示としてのみ考慮されることが意図され、開示された実施形態の真の範囲および精神は、添付の特許請求の範囲によって示される。
図1
図2A
図2B
図3
図4A
図4B
図5A
図5B
図6A
図6B
図7A
図7B
図7C
図8A
図8B
図8C