特表2022-524494 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバーラボス　コーポレーションの特許一覧

特表2022-524494深層強化学習に基づく自律走行エージェントの学習方法およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-05-06

(54)【発明の名称】深層強化学習に基づく自律走行エージェントの学習方法およびシステム

(51)【国際特許分類】

G06N 20/00 20190101AFI20220425BHJP

G06N 3/08 20060101ALI20220425BHJP

G05D 1/02 20200101ALN20220425BHJP

【ＦＩ】

G06N20/00

G06N3/08

G05D1/02 H

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2021552641

(86)(22)【出願日】2020-02-06

(85)【翻訳文提出日】2021-09-03

(86)【国際出願番号】 KR2020001692

(87)【国際公開番号】W WO2020180014

(87)【国際公開日】2020-09-10

(31)【優先権主張番号】10-2019-0025284

(32)【優先日】2019-03-05

(33)【優先権主張国・地域又は機関】KR

(81)【指定国・地域】

(71)【出願人】

【識別番号】319012978

【氏名又は名称】ネイバーラボスコーポレーション

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】チェージンヨン

(72)【発明者】

【氏名】パクキョンシク

(72)【発明者】

【氏名】キムミンス

(72)【発明者】

【氏名】ソクサンオク

(72)【発明者】

【氏名】ソジュンホ

【テーマコード（参考）】

5H301

【Ｆターム（参考）】

5H301BB14

5H301GG09

(57)【要約】

【課題】深層強化学習に基づく自律走行エージェントの学習方法およびシステムを提供する。
【解決手段】一実施形態に係るエージェント学習方法は、深層強化学習のためのシミュレーション上でアクタークリティックアルゴリズムを利用してエージェントを学習させる段階を含む。このとき、学習させる段階は、前記アクタークリティックアルゴリズムにおいて、エージェントの行動を決定する評価網であるアクターネットワークに第１情報を、前記行動が予め設定された報酬を最大化するのにどのくらい役立つかを評価する価値網であるクリティックに第２情報を入力することを特徴とする。ここで、前記第２情報は、前記第１情報と追加情報を含む。
【選択図】図２

【特許請求の範囲】

【請求項1】

少なくとも１つのプロセッサを含むコンピュータ装置のエージェント学習方法であって、
前記少なくとも１つのプロセッサにより、深層強化学習のためのシミュレーション上でアクタークリティックアルゴリズムを利用してエージェントを学習させる段階
を含み、
前記学習させる段階は、
前記アクタークリティックアルゴリズムにおいて、エージェントの行動を決定する評価網であるアクターネットワークに第１情報を、前記行動が予め設定された報酬を最大化するのにどのくらい役立つかを評価する価値網であるクリティックに第２情報を入力し、
前記第２情報は、前記第１情報と追加情報を含むことを特徴とする、エージェント学習方法。

【請求項2】

前記学習させる段階は、
前記第１情報として観察特徴および経由地を前記アクターネットワークに入力し、前記第１情報としての前記観察特徴および前記経由地と前記追加情報としてのローカルマップ特徴を前記クリティックに入力することを特徴とする、請求項１に記載のエージェント学習方法。

【請求項3】

前記ローカルマップ特徴は、複数の畳み込み層を通過したローカルマップテンソルにグローバルアベレージプーリングを適用することで実現されることを特徴とする、請求項２に記載のエージェント学習方法。

【請求項4】

前記ローカルマップ特徴は、全体障害物の配置状況、移動する障害物の速度、および前記移動する障害物の目標のうちの少なくとも１つの情報を含むことを特徴とする、請求項２に記載のエージェント学習方法。

【請求項5】

前記観察特徴は、デプススキャンと速度が投影された同じ大きさのベクトルに成分ごとの積を適用することで実現されることを特徴とする、請求項２に記載のエージェント学習方法。

【請求項6】

前記アクターネットワークおよび前記クリティックそれぞれは、時系列的なデータを入力として受ける回帰型ニューラルネットワークを含み、
前記学習させる段階は、
前記回帰型ニューラルネットワークに記録された以前のセンサ値に基づいて、前記エージェントが現在の視野外の環境に関する情報を取得して動作するように学習させることを特徴とする、請求項１に記載のエージェント学習方法。

【請求項7】

前記回帰型ニューラルネットワークは、ＬＳＴＭ方式の回帰型ニューラルネットワークを含むことを特徴とする、請求項６に記載のエージェント学習方法。

【請求項8】

前記学習させる段階は、
デプススキャン、エージェントの速度、およびタイムスケールのうちの少なくとも１つにノイズを追加するダイナミックランダム化によって前記シミュレーションのための情報を生成することを特徴とする、請求項１に記載のエージェント学習方法。

【請求項9】

コンピュータ装置と結合して請求項１～８のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録された、コンピュータプログラム。

【請求項10】

請求項１～８のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラムが記録されている、コンピュータ読み取り可能な記録媒体。

【請求項11】

請求項１～８のうちのいずれか一項に記載の方法によって学習されたエージェントが搭載された、モバイルロボットプラットフォーム。

【請求項12】

コンピュータで読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサにより、
深層強化学習のためのシミュレーション上でアクタークリティックアルゴリズムを利用してエージェントを学習させ、
前記エージェントを学習させるために、前記アクタークリティックアルゴリズムにおいて、エージェントの行動を決定する評価網であるアクターネットワークに第１情報を、前記行動が予め設定された報酬を最大化するのにどのくらい役立つかを評価する価値網であるクリティックに第２情報を入力し、
前記第２情報は、前記第１情報と追加情報を含むこと
を特徴とする、コンピュータ装置。

【発明の詳細な説明】

【技術分野】

【0001】

以下の説明は、深層強化学習に基づく自律走行エージェントの学習方法およびシステムに関する。

【背景技術】

【0002】

近年、多くのモバイルロボットが生活空間に配置されるようになった。モバイルロボットは、配達、監視、案内のようなサービスを提供する。このようなサービスを提供するためには、複雑かつ混雑な環境でも安全に自律走行を進めることが必須となる。例えば、特許文献１（韓国登録特許第１０－１５３９２７０号公報）は、衝突回避および自律走行のためのセンサフュージョンベースのハイブリッド反応経路計画方法を開示している。

【0003】

モバイルロボットの自律走行方法のほとんどは、グローバルプランナーあるいはローカルプランナー／コントロール方策に基づいて構成される。グローバルプランナーは、全体環境のグローバル構造に基づいて軌跡または経由地を生成する。一方、ローカルプランナーやコントロール方策は、歩行者のように予想することのできない躍動的な障害物との衝突を避けながらグローバルプランに準ずる。

【0004】

ローカルプランナー（または、コントロール方策）の場合は、人工ポテンシャルフィールドや動的ウィンドウ接近のような処理方式が広く使用される。しかし、このような規則ベースのアルゴリズムのほとんどは、極小値（ｌｏｃａｌｍｉｎｉｍａ）への固着、正確な地図に対する極度の依存性、多様な環境における一般化の欠如などのような問題を経験するものと知られている。

【0005】

このような問題を克服するために、深層強化学習（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＤＲＬ）ベースのコントロール処理方式が提案された。このような接近法は、環境との相互作用によってセンサ入力をロボットの速度に直接マッピングした最適なパラメータを学習することができる。このような深層強化学習処理方式により有望な結果はもたらしたが、従来の方法はどこまでも統計的であり、シミュレーションされた環境しか考慮することができないとか、広い視野（ＦｉｅｌｄＯｆＶｉｅｗ：ＦＯＶ）を必要とするため高価なライダー装置が必要となるなどの問題点を抱えている。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】韓国登録特許第１０－１５３９２７０号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

深層強化学習（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＤＲＬ）のためのシミュレーション上において、アクタークリティックアルゴリズムの方策網と価値網のうちの価値網に、実世界では得難いが学習に役立つ情報をシミュレーションの状態で直接抽出して提供することにより、学習時に使用される価値網ではエージェントの行動の価値に対してより正確な評価を下すことができるようにすることで方策網の性能を高めることができる、エージェント学習方法およびシステムを提供する。

【0008】

ＬＳＴＭ（Ｌｏｎｇ－ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）のような回帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）のメモリを活用しながら、エージェントが現在の視野外の環境に関する情報を回帰型ニューラルネットワークに記録された以前のセンサ値に基づいて取得できるようにすることにより、制限された視野をもつエージェントも効果的に自律走行ができようにする、エージェント学習方法およびシステムを提供する。

【課題を解決するための手段】

【0009】

少なくとも１つのプロセッサを含むコンピュータ装置のエージェント学習方法であって、前記少なくとも１つのプロセッサにより、深層強化学習（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＤＲＬ）のためのシミュレーション上でアクタークリティック（ａｃｔｏｒ－ｃｒｉｔｉｃ）アルゴリズムを利用してエージェントを学習させる段階を含み、前記学習させる段階は、前記アクタークリティックアルゴリズムにおいて、エージェントの行動を決定する評価網であるアクターネットワークに第１情報を、前記行動が予め設定された報酬を最大化するのにどのくらい役立つかを評価する価値網であるクリティックに第２情報を入力し、前記第２情報は前記第１情報と追加情報を含むことを特徴とする、エージェント学習方法を提供する。

【0010】

コンピュータ装置と結合して前記方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録された、コンピュータプログラムを提供する。

【0011】

前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。

【0012】

前記方法によって学習されたエージェントが搭載された、モバイルロボットプラットフォームを提供する。

【0013】

コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサにより、深層強化学習（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＤＲＬ）のためのシミュレーション上でアクタークリティック（ａｃｔｏｒ－ｃｒｉｔｉｃ）アルゴリズムを利用してエージェントを学習させ、前記エージェントを学習させるために、前記アクタークリティックアルゴリズムにおいて、エージェントの行動を決定する評価網であるアクターネットワークに第１情報を、前記行動が予め設定された報酬を最大化するのにどのくらい役立つかを評価する価値網であるクリティックに第２情報を入力し、前記第２情報は前記第１情報と追加情報を含むことを特徴とする、コンピュータ装置を提供する。

【発明の効果】

【0014】

深層強化学習（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＤＲＬ）のためのシミュレーション上において、アクタークリティックアルゴリズムの方策網と価値網のうちの価値網に、実世界では得難いが学習に役立つ情報をシミュレーションの状態で直接抽出して提供することにより、学習に使用される価値網ではエージェントの行動の価値に対してより正確な評価を下すことができるようにすることで方策網の性能を高めることができる。

【0015】

【図面の簡単な説明】

【0016】

【図1】本発明の一実施形態における、モバイルロボットプラットフォームの例を示した図である。

【図2】本発明の一実施形態における、ＬＳＴＭ－ＬＭＣアーキテクチャの例を示した図である。

【図3】本発明の比較例における、ＣＮＮベースのメモリレスモデルの例を示した図である。

【図4】本発明の一実施形態における、ＳＵＮＣＧ２Ｄシミューレータの例を示した図である。

【図5】本発明の一実施形態における、分析シナリオの例を示した図である。

【図6】本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。

【図7】本発明の一実施形態における、エージェント学習方法の例を示したフローチャートである。

【発明を実施するための形態】

【0017】

以下、実施形態について、添付の図面を参照しながら詳しく説明する。

【0018】

モバイルロボットは、人間にサービスを提供するために、複雑かつ混雑な環境でも自由に自律走行できなければならない。このような自律走行能力のために、深層強化学習（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＤＲＬ）方式に注目が集まっている。しかし、従来のＤＲＬ方式は、広い視野（ＦｉｅｌｄＯｆＶｉｅｗ：ＦＯＶ）を必要とするため、高価なライダー（ｌｉｄａｒ）装置の使用が必須であった。本明細書では、高価のライダー装置の代わりに、ＦＯＶが制限された安価なデプス（ｄｅｐｔｈ）カメラを使用する可能性について検討する。先ず、本明細書では、ＤＲＬエージェントにおける制限された視野の影響を分析する。次に、ＦＯＶが制限された複雑な環境で効率的な自律走行を学習する新たなＤＲＬ方法であるローカルマップクリティック（Ｌｏｃａｌ－ＭａｐＣｒｉｔｉｃ）を備えたＬＳＴＭ（Ｌｏｎｇ－ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）エージェント（以下、「ＬＳＴＭ－ＬＭＣ」とする）を提案する。最後に、本明細書では、ダイナミックランダム化（ｄｙｎａｍｉｃｓｒａｎｄｏｍｉｚａｔｉｏｎ）方法を取り入れて現実世界におけるＤＲＬエージェントの堅固性を改善する。本明細書では、ＦＯＶが制限された方法が、メモリは限定されるがＦＯＶが広い方法を上回ることを示し、周辺環境とは異なるエージェントのダイナミックを暗黙的にモデリングすることを学習するということを経験的に証明する。さらに、本明細書では、１つのデプスカメラを備えたロボットが、本発明の実施形態に係る方法を使用しながら複雑な実世界を自律走行できるということを示す。図１は、本発明の一実施形態における、モバイルロボットプラットフォームの例を示した図である。本実施形態に係るモバイルロボットプラットフォーム１００は、９０°ＦＯＶを搭載したインテルリアルセンス（ＩｎｔｅｌＲｅａｌｓｅｎｓｅ）Ｄ４３５デプスカメラを１つ、ＮＶＩＤＩＡＪｅｔｓｏｎＴＸ２を１つ、プロセッサに搭載した例を示している。

【0019】

１．関連研究
Ａ．モバイルロボットの自律走行のためのＤＲＬ方法
モバイルロボットの自律走行に対する従来の接近法は、人間工学的に設計されたハイパーパラメータと規則に依存するため、ハイパーパラメータまたは極小値（ｌｏｃａｌｍｉｎｉｍａ）に対する敏感度のような問題により、複雑で躍動的な環境ではたびたび失敗があった。

【0020】

このような問題を解決するためにＤＲＬ接近法が広く研究されているが、このようなＤＲＬ処理方式において、エージェントは、環境との相互作用によって収集したデータからセンサ入力をロボットの速度に直接マッピングする方法を学習することができる。近年、一部の従来技術では、ＲＧＢ－Ｄイメージを使用して複雑な室内環境を自律走行するＤＲＬエージェントを提案した。このような従来技術は、シミュレーション実験では注目するに値する結果を見出したが、多様な環境のＲＧＢ－Ｄ場面の大きな差と動的障害物を避けるための能力不足により、実世界に配置するには困難があった。他の従来技術は、これよりも現実的な解決策を提示した。社会的認識衝突回避方法を提案した従来技術は、実世界では強靭な性能を示したが、他のエージェント（または、歩行者）の位置および速度に対する明確な測定を必要とした。ローライダーデータ（ｒａｗｌｉｄａｒｄａｔａ）を使用する従来技術のＤＲＬエージェントは、確率論的ロードマップとＤＲＬを結合することによって複雑な環境全般での長距離自律走行を可能にしたが、静的な障害物しか考慮しなかったため複雑な実際の環境での使用には困難であった。一方、混雑環境で自律走行する方法を学習するＤＲＬエージェントを提案した従来技術では、エージェントを実世界に成功的に配置することはできたが、広いＦＯＶ（１８０～２２０゜）を維持するために高価のライダー装備を必要とした。

【0021】

本発明の実施形態では、高価のライダー装置の代わりに、ＦＯＶが制限された低価のデプスカメラの使用を可能にする。

【0022】

Ｂ．マルチエージェントＤＲＬ
近年、マルチエージェント設定に対するＤＲＬ方法に注目が集まっている。複数のエージェント間の暗黙的な通信プロトコルを学習するニューラルネットワークアーキテクチャは、エージェントが通信や中央集中式コントローラのないエージェントよりも優れた性能を示したにもかかわらず、人間－ロボット相互作用シナリオでは不可能なダイレクトメッセージングを互いに必要とする。他のエージェントの情報を評価的に提供するＭＡＤＤＰＧ（Ｍｕｌｔｉ－ＡｇｅｎｔＤｅｅｐＤｅｔｅｒｍｉｎｉｓｔｉｃＰｏｌｉｃｙＧｒａｄｉｅｎｔ）方法のアルゴリズムは、テスト時間に明示上なメッセージ交換がなくても協力行動するということを示すことにより、混雑環境での自律走行のような、人間－ロボットの相互作用状況での使用の可能性を示唆した。

【0023】

本発明の一実施形態では、他のエージェントの情報だけでなく、環境に関する情報を評価的にさらに提供することにより、ＭＡＤＤＰＧの接近方式を確張することができる。

【0024】

Ｃ．ダイナミックランダム化を利用した実世界でのＤＲＬエージェントの直接配置
ゲームドメインではＤＲＬ方法が大きな成功を果たしたが、実世界のロボット作業にＤＲＬエージェントを配置することは、実世界とシミューレータとの差によって困難であると考えられていた。この差は、ＤＲＬエージェントがシミューレータで訓練を受けてから精密なチューニングなく配置されるときに、エージェントの性能を大きく低下させる。このような問題を解決するために、シミューレータでダイナミックランダム化が用いられた。このようなダイナミックランダム化は、４本足のロボットの運動やロボットアームによる物体操作のような実際のロボット作業においてエージェントの堅固性を高めることができる。本発明の一実施形態では、シミュレーションでのセンサノイズ、ホイールドリフト、およびコントロール周波数をランダム化し、モバイルロボットの自律走行作業でダイナミックランダム化が及ぼす影響を調査した。

【0025】

２．接近
以下、深層強化学習フレームワークについて簡単に説明した後、本発明の実施形態に係るＬＳＴＭ－ＬＭＣアーキテクチャについて説明する。その後、本発明の一実施形態に係る訓練環境とダイナミックランダム化技術の詳細事項について説明する。

【0026】

Ａ．深層強化学習
強化学習は、一例として、ロボットの制御アルゴリズムを人間が直接生成するのではなく、人工知能エージェントがシミュレーションまたは実世界で直接相互作用しながら開発者が指定した報酬（ｒｅｗａｒｄ）を最大化するように自らロボットの制御方法を学習する方法である。深層強化学習とは、深層ニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ：ＤＮＮ）に基づいて強化学習を行うモデルを意味する。

【0027】

制限されたＦＯＶと他のエージェントの状態に対する不確実性による部分的な観察可能性（ｏｂｓｅｒｖａｂｉｌｉｔｙ）により、一実施形態に係る環境は、ＰＯＭＤＰ（ＰａｒｔｉａｌｌｙＯｂｓｅｒｖｅｄＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）によってモデリングされてよい。ＰＯＭＤＰは、６つのタプル（Ｓ、Ａ、Ｐ、Ｒ、Ω、Ｏ）で構成されるが、ここで、Ｓは状態空間（ｓｔａｔｅｓｐａｃｅ）、Ａは動作空間（ａｃｔｉｏｎｓｐａｃｅ）、Ｐは推移確率（ｔｒａｎｓｉｔｉｏｎｐｒｏｂａｂｉｌｉｔｙ）、Ｒは報酬関数（ｒｅｗａｒｄｆｕｎｃｔｉｏｎ）、Ωは観測空間（ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）、Ｏは観測確率（ｏｂｓｅｒｖａｔｉｏｎｐｒｏｂａｂｉｌｉｔｙ）である。

【0028】

強化学習の目標は、下記の数式（１）の減少したリターンＧを極大化するエージェントの方策π（ａ、ｏ）＝ｐ（ａ｜ｏ）を学習することにある。

【0029】

【数1】

ここで、

【0030】

【数2】

は、未来の報酬に対する減少要因である。

【0031】

近年、深層ニューラルネットワークは、強化学習エージェントの方策パラメータまたは価値関数を学習するために広く使用されている。本実施形態では、下記の数式（２）に示されるリターンＧとともに、確率論的方策のエントロピを共同的に最大化するＳＡＣ（ＳｏｆｔＡｃｔｉｏｎ－Ｃｒｉｔｉｃａｌ）アルゴリズムを使用する。

【0032】

【数3】

ＳＡＣアルゴリズムは、ハイパーパラメータに対する堅固性、連続的な動作空間でのサンプル効率学習（ｓａｍｐｌｅｅｆｆｉｃｉｅｎｔｌｅａｒｎｉｎｇ）、好ましい探索属性のために選択されてよい。

【0033】

Ｂ．問題設定
１）観測空間：エージェントの観測ｏのために、多様な水平ＦＯＶ（９０゜、１２０゜、１８０゜）を備えたライダーデータに類似するスライスポイントクラウド（ＳｌｉｃｅｄＰｏｉｎｔＣｌｏｕｄｓ）を使用する。先ず、デプスイメージでポイントクラウドを計算し、ポイントクラウドを水平に切断して底と天井を取り除いて長さを縮める。この後、切断したクラウドポイントを５゜の間隔で垂直に均一に切断し、各セグメントで最も近い点からの距離を選択して

【0034】

【数4】

ベクトルを生成する。以下では、このベクトルを「デプススキャン（ｄｅｐｔｈｓｃａｎ）」と呼ぶことにする。

【0035】

また、エージェントの現在線形と角速度で構成された２ベクトルを使用する。このような速度は、［－１、１］範囲で標準化されてよい。

【0036】

また、ｒ_ｉはｉ番目の経由地（ｗａｙｐｏｉｎｔ）までの距離であり、θ_ｉは極座標角度である［ｒ_１、ｓｉｎ（θ_１）、ｃｏｓ（θ_１）、ｒ_２、・・・、ｃｏｓ（θ_５）］の形態で、次の５つの経由地の相対距離と角度を示す１５ベクトルが使用されてよい。

【0037】

２）動作空間：エージェントの動作ａに対し、線速度および角速度を求めるために２ベクトルを使用する。このエージェントの線速度は［０、１］ｍ／ｓ範囲であり、角速度は［－９０、９０］゜／ｓ範囲内である。［－１、１］範囲である標準化された速度が、ニューラルネットワークの出力として使用されてよい。

【0038】

３）報酬関数：報酬ｒは、下記の数式（３）のような５つの用語で構成されてよい。

【0039】

【数5】

ｒ_ｂａｓｅ＝－０．０５は、エージェントが最短の経路を使用するようにするためにすべてのタイムステップで与えられる小さなネガティブ基本報酬であってよい。

【0040】

ｒ_{ｃｏｌｌｉｓｉｏｎ}＝－２０は、エージェントが壁や他のエージェントと衝突するときにエージェントにペナルティを与える衝突報酬であってよい。

【0041】

ｒ_{ｗａｙｐｏｉｎｔ}＝３は、エージェントと次の経由との間の距離が１メートル未満であるときにエージェントに与えられてよい。最終経由地（目標）の場合は、閾値が０．６メートルに設定されてよい。

【0042】

ｒ_{ｒｏｔａｔｉｏｎ}は、大きな角速度に対するペナルティであって、下記の数式（４）のように定義されてよい。

【0043】

【数6】

ここで、ｗは、エージェントのラジアン角速度であってよい。

【0044】

ｒ_{ｓａｆｅｔｙ}は、エージェントが可能な限り障害物を事前に避けるようにする小さなペナルティであって、下記の数式（５）のように定義されてよい。

【0045】

【数7】

ここで、Ｏｂｓは、他のエージェントを含んだ環境における、すべての障害物の集合であってよい。ｓｃｏｒｅ_ｘおよびｓｃｏｒｅ_ｙは、下記の数式（６）および数式（７）のように定義されてよい。

【0046】

【数8】

ここで、ｄ_ｘとｄ_ｙは、ｘ軸とｙ軸でエージェントとｏ_ｉとの相対変位であってよい。

【0047】

Ｃ．ＬＳＴＭ－ＬＭＣ
ＦＯＶが制限されれば、ＤＲＬエージェントに対する相当な部分的観察可能性（ｐａｔｉａｌｏｂｓｅｒｖａｂｉｌｉｔｙ）が生じる。部分的観察可能性は、正確な状態－動作値の推定を困難にし、次善の意思決定を招来する。このような部分的観察可能性を克服するために、本実施形態に係るＬＳＴＭ－ＬＭＣが活用されてよい。図２は、本発明の一実施形態における、ＬＳＴＭ－ＬＭＣアーキテクチャの例を示した図である。畳み込み層において、「Ｆ」はフィルタサイズを、「Ｓ」はストライド（ｓｔｒｉｄｅ）を、「Ｏ」は出力チャネルを意味してよい。アクター（ａｃｔｏｒ）ネットワーク、Ｑネットワーク、およびＶネットワークには同じアーキテクチャが使用されてよい。アクターネットワークは、人工知能エージェントの行動を決定する評価網を、ＱネットワークとＶネットワークを含むクリティックは、該当の行動が報酬（ｒｅｗａｒｄ）を最大化するのにどのくらい役立つかを評価する価値網を意味してよい。ローカルマップ特徴を提供するためのローカルマップブランチ（ｌｏｃａｌ－ｍａｐｂｒａｎｃｈ）は、アクターネットワークでは使用されなかった。

【0048】

１）ＬＳＴＭエージェント：回帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）は、時系列データ（ｔｉｍｅ－ｓｅｒｉｅｓｄａｔａ）のように時間の流れに沿って変化するデータを学習するためのディープラーニングモデルであって、基準時点（ｔ）と次の時点（ｔ＋１）にネットワークを連結して構成した人工ニューラルネットワークである。しかし、各時点に深層ニューラルネットワーク（ＤＮＮ）が連結されている場合、古いデータによる勾配値が消失するという問題（ｖａｎｉｓｈｉｎｇｇｒａｄｉｅｎｔｐｒｏｂｌｅｍ）によって学習が困難になる。ＬＳＴＭ方式の回帰型ニューラルネットワークは、このような問題を解決するための代表的なモデルである。このようなＬＳＴＭを使用することにより、エージェントにメモリ能力が与えられるようになる。以下で説明する実験で分析されるように、メモリは、周辺環境の表現と動く障害物の躍動性を暗黙的に構築することで衝突回避のために重要な役割を果たす。ＬＳＴＭだけでも、以下で説明する実験でＦＯＶが制限されたエージェントの性能を大きく高めることができる。経験再生（ｅｘｐｅｒｉｅｎｃｅｒｅｐｌａｙ）で２００－ステップ軌跡をサンプリングすることでＬＳＴＭ（および、ＬＳＴＭ－ＬＭＣ）エージェントを訓練させてよい。軌跡は、エピソードのランダムポイントでサンプリングされてよく、ＬＳＴＭの状態は、各軌跡の開始部分で「０」に設定されてよい。

【0049】

２）ローカルマップクリティック（Ｌｏｃａｌ－ＭａｐＣｒｉｔｉｃ：ＬＭＣ）：他のエージェントの動作のような追加情報をクリティックに含ませれば、マルチエージェントＤＲＬの性能を高めることができる。アクターは追加情報を必要とせず、クリティックのほとんどは訓練が完了した後には使用されないため、高価な追加情報がなくても接近法によって訓練されたエージェントを配置することができる。ただ、他のエージェントの動作の代りに周辺地域の２Ｄローカルマップを評価的に与えることで接近法を拡張させてよい。ローカルマップＭは、エージェント周辺の１０ｍ×１０ｍを領域とする。これは、サイズ（３９×３９×４）であるテンソル（ｔｅｎｓｏｒ）であり、Ｍ_{ｉ、ｊ、ｋ}の値は下記の数式（８）のように定義されてよい。

【0050】

【数9】

Ｍ_ｉ、ｊがエージェントを示す場合、Ｍ_{ｉ、ｊ、１：３}は、標準化されたヘディング、線速度、および角速度をエンコードすることができる。

【0051】

３）ネットワークアーキテクチャ：ＬＳＴＭ－ＬＭＣモデルのネットワークアーキテクチャは、上述した図２に示されている。先ず、完全に連結するレイヤを利用して同じサイズのベクトルにデプススキャンと速度を投影し、この２つのベクトルに成分ごとの積（ｅｌｅｍｅｎｔｗｉｓｅｐｒｏｄｕｃｔ）を適用することで観察特徴を得てよい。クリティック（ＱネットワークおよびＶネットワーク）でローカルマップテンソルが３つの畳み込み層を通過し、グローバルアベレージプーリングを適用することでローカルマップ特徴を実現してよい。この後、観察特徴、ローカルマップ特徴、および経由地の連結（ｃｏｎｃａｔｅｎａｔｉｏｎ）がＬＳＴＭの入力として使用されてよい。ＬＳＴＭレイヤの出力は、完全に連結するレイヤを通過した後、続いて方策出力レイヤまたは価値出力レイヤを通過してよい。ローカルマップ特徴は、アクターで使用されず、ＱネットワークのＬＳＴＭには追加の動作入力を有してよい。方策出力のために、ハイパボリックタンジェントスカッシング関数（ｔａｎｈｓｑｕａｓｈｉｎｇｆｕｎｃｔｉｏｎ）を有するガウス方策（Ｇａｕｓｓｉａｎｐｏｌｉｃｙ）が使用されてよい。

【0052】

また、比較実験のために、９０゜、１２０゜、１８０゜のＦＯＶを備えたＣＮＮベースのメモリレス（ｍｅｍｏｒｙｌｅｓｓ）モデルが実現された。図３は、本発明の比較例における、ＣＮＮベースのメモリレスモデルの例を示した図である。ＣＮＮモデルの場合、ｄ_ｓｃａｎがデプススキャンベクトルの大きさであるとき、デプススキャンベクトル

【0053】

【数10】

の形状とマッチするように速度ベクトル

【0054】

【数11】

をタイリングしてよい。この後、タイリングされたベクトルは、デプススキャンベクトル

【0055】

【数12】

に連結され、サイズが

【0056】

【数13】

であるマトリックスとなってよい。１つのネットワーク入力テンソル

【0057】

【数14】

を得るために、ここ最近の３つのタイムステップでこのマトリックスが積まれてもよい。このテンソルは、３つの畳み込み層を通過して観察機能を得るために扁平化されてよい。この後、観察機能は経由地に連結され、完全に連結する２つのレイヤを通過した後に出力レイヤを通過してよい。

【0058】

Ｄ．ＳＵＮＣＧ２Ｄシミューレータおよびダイナミックランダム化
１）ＳＵＮＣＧ２Ｄ環境：２Ｄマルチエージェント自律走行シミューレータが、本発明の一実施形態に係る実験のために実現された。図４は、本発明の一実施形態における、ＳＵＮＣＧ２Ｄシミューレータの例を示している。図４において、黒色領域は障害物を示しており、有色サークルはエージェント（ロボット）を象徴しており、有色線はグローバルプランナーのプランである。図４は、空の地図から０．３３（右側）の確率でエピソードを開始した例を示している。ＳＵＮＣＧデータセットから１０００件のランダム層プランが抽出されてよく、７５件の地図が学習環境として手動で選択されてよい。

【0059】

２）訓練シナリオ：各訓練エピソードには、データセットの７５件の地図のうちでランダム環境がサンプリングされてよい。初期の実験では、動く障害物の回避が、静的な障害物を避けるよりも難しいということが発見された。したがって、動く障害物だけが存在する小さな空の地図（図３の右側）が確率０．３３で選択されるようにすることで動く障害物を避ける能力を強化してよい。地図が選択されれば、最大で２０台のエージェントが任意の位置に配置され、ランダム目標位置がエージェントに指定されてよい。次に、環境は、（１ｍ×１ｍの）セル格子形態で表示されてよく、各エージェントに対する経由地はｄｉｊｋｓｔｒａアルゴリズムを利用して抽出してよい。各エージェントにおいて、このようなエピソードは、障害物に衝突するか、１０００回のタイムステップが経過するときに終了するように設定された。エージェントが目標に達すれば、新たなランダム目標と経由地をエージェントに割り当てた。

【0060】

３）ダイナミックランダム化：実世界のダイナミックおよび観察は、シミューレータのダイナミックおよび観察とは異なる。また、実世界のダイナミックと観察は、ノイズが極めて多い。このような差とノイズは、シミューレータで訓練されたエージェントが実際の環境で正常に動作できないようにする原因ともなる。このような問題を解決するために、学習された方策の堅固性を改善するためにシミューレータの観察とダイナミックをランダム化した。

【0061】

モバイルロボットの自律走行も、このようなランダム化技術の恵沢を受けることができる。シミューレータには次のようなランダム化が適用されてよい。モバイルロボットが当面するようになる実世界のノイズのほとんどは、１つのエピソード内で一貫しないため、すべてのタイムステップのノイズを再度サンプリングしてよい。

【0062】

・スキャンノイズ：実世界のスキャンデータはシミューレータのデータよりもノイズが多く、デプスイメージはライダーデータよりもノイズが多いものと知られている。したがって、すべてのデプススキャン値にＮ（０、０．１）を加える。

【0063】

・速度ランダム化：実世界において、ロボットは、ホイールドリフト、モータ制御器のエラー、摩擦などによって入力と同じ速度で移動しない。これに対処するために、ロボットにこれを適用する前に、入力速度にＮ（１、０．１）を掛けてよい。また、実世界のモータは、速度を即時に変更することができないため、タイムステップｔにおけるエージェントの速度を

【0064】

【数15】

に設定してよい。ここで、ｖ_ｔはエージェントからのコマンドにノイズを掛けた値であり、

【0065】

【数16】

はロボットに適用される実際の速度である。

【0066】

・タイムスケールランダム化：シミューレータで１つのタイムステップを０．１５秒に設定してよい。しかし、実際のハードウェアでは、正確な制御頻度を期待することができない。これは、タイムスケールノイズが、ロボット自体を含んだ動く物体のダイナミックを誤推定するようになるため、モバイルロボットの自律走行に良くないことがある。これを克服するために、シミューレータのすべてのタイムステップにＮ（０、０．０５）秒を追加してよい。

【0067】

実世界の観察およびダイナミックノイズが、ＣＮＮエージェントよりもＬＳＴＭ－ＬＭＣエージェントにより大きな影響を及ぼすと仮定することができる。何故なら、ＬＳＴＭ－ＬＭＣエージェントは、ノイズで発生するエラーが累積するようにより長い経過を考慮するためである。下記の実験セクションでは、このようなランダム化の効果について詳しく説明する。

【0068】

３．実験
表１に列挙したハイパーパラメータとして、５つの類型のエージェント（ＦＯＶが９０゜、１２０゜、１８０゜であるＣＮＮエージェント、ＦＯＶが９０゜であるＬＳＴＭエージェント、ＦＯＶが９０゜であるＬＳＴＭ－ＬＭＣエージェント）を訓練させた。

【0069】

【表1】

各エージェントは、３００万件の環境ステップに適合するように訓練された。

【0070】

Ａ．性能
１００回の評価エピソードで訓練されたエージェントが評価された。評価セッションのランダムシードを修正することで、すべてのエージェントが同じ出発位置と初期目標ポジションを含み、同じマップで評価されるようにした。評価結果は下記の表２のように要約した。

【0071】

【表2】

表２は、多様なＦＯＶとアーキテクチャを備えたエージェントの性能を示している。表２に示すように、ＦＯＶの減少に伴い、ＣＮＮ（メモリレス）エージェントの性能は急激に下落した。一方、ＦＯＶが９０゜であるＬＳＴＭ－ＬＭＣエージェントは、通過した経由地／目標数の側面において、他のすべてのエージェント、さらにはＦＯＶが１８０°であるＣＮＮエージェントよりも性能が優れていた。ＬＳＴＭエージェントは、１２０゜であるＣＮＮエージェントは上回ったが、１８０゜であるエージェントを上回ることはできなかった。しかし、ＬＳＴＭエージェントは、エピソードが終わるまで最も高い生存率を示した。

【0072】

Ｂ．分析
提案する方法は、暗黙的に周辺環境および他のエージェントのダイナミックに対する強力かつ正確なモデルを構築するため、他の方法よりも優れた性能を示すことができるという仮説を立てる。以下では、次のように統制されたシナリオで訓練されたエージェントの行動を分析しながら仮説を検証する。

【0073】

図５は、本発明の一実施形態における、分析シナリオの例を示した図である。図５において、上段は、経路上に予定になかった壁が生じて経路が遮られた場合のシナリオを、中段は、他のエージェントと垂直に交差して移動する交差シナリオを、下段は、対向から来る他のエージェントを避けようとする通過シナリオによるエージェントの動きの例を示している。暗い線はグローバルプランナーからの経路を、明るい線はエージェントの軌道を、数字はタイムステップをそれぞれ示している。本発明の一実施形態に係るＬＳＴＭ－ＬＭＣＦＯＶ９０゜は、エージェント間の壁と対称性の破れ（ｓｙｍｍｅｔｒｙｂｒｅａｋｉｎｇ）を迂回するのに卓越した性能を示す。

【0074】

１）遮られた経路シナリオ：提案されたエージェントが環境構造を記憶するかを確認するために「遮られた経路シナリオ」を設計した。図５の上段は、遮られた経路シナリオに関するものであって、遮られた経路シナリオにおいて、グローバルプランナーの経路は、壁によって遮られる。壁の上端や下端にランダムに配置されたスリット（ｓｌｉｔ）があるため、エージェントは、本来の経路が遮られたことを記憶しながら、どの面が開いているのかを探索しなければならない。５０件のエピソードのうち、下記の表３に示すように、本発明の一実施形態に係るＬＳＴＭ－ＬＭＣＦＯＶ９０゜のエージェントが最も高い成功率を達成した。

【0075】

【表3】

定性的に、本発明の一実施形態に係るＬＳＴＭ－ＬＭＣＦＯＶ９０゜のエージェントは、壁の両方を効率的に探索し、遮られた本来の経路がＦＯＶを脱するときに本来の経路に戻らなかった。この反面、ＣＮＮエージェントは、遮られた本来の経路がＦＯＶの範囲から脱するやいなや本来の経路に戻ろうとした。ＬＳＴＭエージェントは、遮られた経路を通過することはできたが、最高のＣＮＮエージェント（ＣＮＮＦＯＶ１８０゜）を上回ることはできなかった。

【0076】

２）交差＆通過シナリオ：動く障害物のダイナミックモデリングにおいてメモリとローカルマップクリティックの影響を確認するために、「交差」（図５の中段）および「通過」（図５の下端）実験を実施した。交差シナリオでは２つのエージェントが直交経路（青色エージェントは、上側や下側にランダムに位置する）を追求し、エージェントは同じ経路に沿うようになるが、通過シナリオでは反対方向となる。エージェントは、２つのシナリオで対称を崩すために、他のエージェントの未来経路をモデリングしなければならない。各エージェントに対して各シナリオを５０回にわたり実施し、この結果は表３に要約した。ＬＳＴＭ－ＬＭＣおよびＬＳＴＭエージェントは、交差シナリオで最も高い成功率を達成し、すべてのエージェントが通過シナリオの成功率側面において優れた結果を示した。しかし、定性的に、ＣＮＮエージェントは、図５の中段および下段に示すように、両シナリオ（交差および通過）で対称を崩すことができないこともあった。これとは反対に、本発明の一実施形態に係るＬＳＴＭ－ＬＭＣＦＯＶ９０゜では、すべてのエピソードで安定した対称を示した。

【0077】

Ｃ．ハードウェア実験
実世界で本発明の一実施形態に係るエージェント学習方法の性能を確認するために、ハードウェア実験を実施した。

【0078】

１）ハードウェア設定：図１を参照しながら説明したように、４つのタイヤを備えるモバイルロボットプラットフォームを構築した。このようなモバイルロボットプラットフォームには、ＮＶＩＤＩＡＪｅｔｓｏｎＴＸ－２をメインプロセッサとして搭載し、ＦＯＶが９０゜であるＩｎｔｅｌＲｅａｌｓｅｎｓｅＤ４３５ＲＧＢ－Ｄカメラ１台を装着した。本実験において、Ａｐｒｉｌｔａｇとホイール走行距離測定器がローカリゼーションのために使用された。しかし、ローカリゼーションのために、ＧＰＳ、超広帯域（ｕｌｔｒａｗｉｄｅｂａｎｄ）、またはビジュアルローカリゼーション（ｖｉｓｕａｌｌｏｃａｌｉｚａｔｉｏｎ）のような他の方法が使用されてもよい。このようなモバイルロボットプラットフォームには、本発明の実施形態に係る学習方法によって学習されたエージェントが搭載されてよい。

【0079】

２）シミューレータでダイナミックランダム化の効果：実際の室内環境でランダム訓練を実施したりはせず、ＣＮＮエージェントとＬＳＴＭ－ＬＭＣエージェントを配置した。ＦＯＶが制限されたエージェントにとって、環境は、狭い通路、多くのカーブ、さらに階段や細い柱のような複雑な障害物が存在するため、環境には相当な困難がある。また、ノイズの多いローカリゼーションは、安定的な自律走行の妨害となる。各エージェントに対して３つの実験を実行し、この結果は下記の表４のように現れた。

【0080】

【表4】

ランダム化したＣＮＮエージェントも、しなかったＣＮＮエージェントも、両方とも性能が良くなく、エピソード初期段階で障害物と衝突した。また、ＣＮＮエージェントは、ダイナミックランダム化から有意味な長所を見出すことができなかった。この反面、予想どおり、ダイナミックランダム化を使用しなかったＬＳＴＭ－ＬＭＣエージェントは、実世界のノイズによって多くの困難を経験した。ノイズは、不安定な動きを見せながら衝突や遅い自律走行を引き起こす。ダイナミックランダム化を使用したＬＳＴＭ－ＬＭＣエージェントは、安定的な性能を示した唯一のエージェントであった。

【0081】

３）混雑する実世界環境での自律走行：実際の環境で本発明の一実施形態に係るエージェント学習方法の全般的な性能を確認するために、混雑する環境にダイナミックランダム化を使用したＬＳＴＭ－ＬＭＣエージェントを配置した。ロボットは７ｍの直線経路を反復し、２人の参加者が交差したり通過したりしてロボットの経路を妨害した。このロボットは、妨害のある状況であっても、１２本の連続する経路（約８４ｍ）を完走することができた。

【0082】

図６は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。一例として、本発明の実施形態に係るエージェント学習方法は、図６に示したコンピュータ装置６００によって実行されてよい。このようなコンピュータ装置６００は、図６に示すように、メモリ６１０、プロセッサ６２０、通信インタフェース６３０、および入力／出力インタフェース６４０を含んでよい。メモリ６１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ６１０とは区分される別の永続的記録装置としてコンピュータ装置６００に含まれてもよい。また、メモリ６１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ６１０とは別のコンピュータ読み取り可能な記録媒体からメモリ６１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース６３０を通じてメモリ６１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク６６０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置６００のメモリ６１０にロードされてよい。

【0083】

プロセッサ６２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ６１０または通信インタフェース６３０によって、プロセッサ６２０に提供されてよい。例えば、プロセッサ６２０は、メモリ６１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

【0084】

通信インタフェース６３０は、ネットワーク６６０を介してコンピュータ装置６００が他の装置（一例として、上述した記録装置）と互いに通信するための機能を提供してよい。一例として、コンピュータ装置６００のプロセッサ６２０がメモリ６１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース６３０の制御にしたがってネットワーク６６０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク６６０を経てコンピュータ装置６００の通信インタフェース６３０を通じてコンピュータ装置６００に受信されてよい。通信インタフェース６３０を通じて受信された信号や命令、データなどは、プロセッサ６２０やメモリ６１０に伝達されてよく、ファイルなどは、コンピュータ装置６００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

【0085】

入力／出力インタフェース６４０は、入力／出力装置６５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力／出力インタフェース６４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置６５０は、コンピュータ装置６００と１つの装置で構成されてもよい。

【0086】

また、他の実施形態において、コンピュータ装置６００は、図６の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図に示す必要はない。例えば、コンピュータ装置６００は、上述した入力／出力装置６５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。

【0087】

通信方式が限定されることはなく、ネットワーク６６０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ）（登録商標）やＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）のような近距離無線通信が含まれてもよい。例えば、ネットワーク６６０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク６６０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

【0088】

図７は、本発明の一実施形態における、エージェント学習方法の例を示したフローチャートである。本実施形態に係るエージェント学習方法は、一例として、上述したコンピュータ装置６００によって実行されてよい。例えば、コンピュータ装置６００のプロセッサ６２０は、メモリ６１０が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードとによる制御命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、プロセッサ６２０は、コンピュータ装置６００に記録されたコードが提供する制御命令にしたがってコンピュータ装置６００が図７の方法に含まれる段階７１０～７５０を実行するようにコンピュータ装置６００を制御してよい。

【0089】

基本的に、コンピュータ装置６００は、深層強化学習のためのシミュレーション上でアクタークリティックアルゴリズムを利用してエージェントを学習させてよい。一例として、コンピュータ装置６００は、アクタークリティックアルゴリズムにおいて、エージェントの行動を決定する評価網であるアクターネットワークに第１情報を、エージェントの行動が予め設定された報酬を最大化するのにどのくらい役立つかを評価する価値網であるクリティックに第２情報を入力してよい。このとき、第２情報は、第１情報と追加情報を含んでよい。このようなエージェントの学習のための具体的な一実施形態として、段階７１０～７５０がコンピュータ装置６００によって実行されてよい。

【0090】

段階７１０で、コンピュータ装置６００はデプススキャン、エージェントの速度、およびタイムスケールのうちの少なくとも１つにノイズを追加するダイナミックランダム化によってシミュレーションのための情報を生成してよい。このようなダイナミックランダム化については、先立って詳しく説明した。

【0091】

段階７２０で、コンピュータ装置６００は、生成された情報のうち、デプススキャンと速度が投影された同じサイズのベクトルに成分ごとの積を適用することで観察特徴を実現してよい。

【0092】

段階７３０で、コンピュータ装置６００は、複数の畳み込み層を通過したローカルマップテンソル（ｔｅｎｓｏｒ）にグローバルアベレージプーリングを適用することでローカルマップ特徴を実現してよい。

【0093】

段階７４０で、コンピュータ装置６００は、アクタークリティックアルゴリズムでエージェントの行動を決定する評価網であるアクターネットワークに、観察特徴および経由地を入力してよい。ここで、観察特徴と経由地は、上述した第１情報に対応してよい。

【0094】

段階７５０で、コンピュータ装置６００は、アクタークリティックアルゴリズムでエージェントの行動が予め設定された報酬を最大化するのにどのくらい役立つかを評価する価値網であるクリティックに、観察特徴、経由地、およびローカルマップ特徴を入力してよい。ここで、ローカルマップ特徴は、上述した追加情報に対応してよい。言い換えれば、コンピュータ装置６００は、第１情報として観察特徴および経由地をアクターネットワークに入力して、第１情報としての観察特徴および経由地と追加情報としてのローカルマップ特徴をクリティックに入力してよい。

【0095】

ここで、ローカルマップ特徴は、複数の畳み込み層を通過したローカルマップテンソル（ｔｅｎｓｏｒ）にグローバルアベレージプーリングを適用することで実現されてよい。例えば、ローカルマップ特徴は、全体障害物の配置状況、移動する障害物の速度、および前記移動する障害物の目標のうちの少なくとも１つの情報を含んでよい。また、観察特徴は、デプススキャンと速度が投影された同じ大きさのベクトルに成分ごとの積（ｅｌｅｍｅｎｔｗｉｓｅｐｒｏｄｕｃｔ）を適用することで実現されてよい。経由地はランダムに設定されてよい。

【0096】

段階７６０で、コンピュータ装置６００は、アクターネットワークとクリティックそれぞれで入力された情報が連結（ｃｏｎｃａｔｅｎａｔｉｏｎ）された時系列的なデータを、アクターネットワークとクリティックそれぞれが含む回帰型ニューラルネットワークに入力してよい。このとき、コンピュータ装置６００は、回帰型ニューラルネットワークに記録された以前のセンサ値に基づいて、エージェントが現在の視野外の環境に関する情報を取得して動作するように学習してよい。一例で、回帰型ニューラルネットワークは、ＬＳＴＭ（Ｌｏｎｇ－ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）方式の回帰型ニューラルネットワークを含んでよい。

【0097】

このように、本発明の実施形態によると、深層強化学習（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ、ＤＲＬ）のためのシミュレーション上において、アクタークリティックアルゴリズムの方策網と価値網のうちの価値網に、実世界では取得し難いが学習に役立つ情報をシミュレーションの状態で直接抽出して提供することにより、学習時に使用される価値網ではエージェントの行動の価値に対してより正確な評価を下すようにすることで方策網の性能を高めることができる。また、ＬＳＴＭ（Ｌｏｎｇ－ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）のような回帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）のメモリを活用しながら、エージェントが現在の視野外の環境に関する情報を回帰型ニューラルネットワークに記録された以前のセンサ値に基づいて取得できるようにすることにより、制限された視野のエージェントも効果的に自律走行ができるようにする。

【0098】

上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）および前記ＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

【0099】

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてもよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に格納されてよい。

【0100】

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。

【0101】

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

【0102】

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

【図1】