特許7233572 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ストラッドビジョンの特許一覧

特許7233572エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6a
6b
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-02-24

(45)【発行日】2023-03-06

(54)【発明の名称】エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法及び装置

(51)【国際特許分類】

G06T 7/00 20170101AFI20230227BHJP

G06V 20/50 20220101ALI20230227BHJP

G06V 10/00 20220101ALI20230227BHJP

【ＦＩ】

G06T7/00 350B

G06V20/50

G06V10/00

【請求項の数】 20

(21)【出願番号】P 2021572681

(86)(22)【出願日】2021-04-02

(65)【公表番号】

(43)【公表日】2022-09-12

(86)【国際出願番号】 KR2021004111

(87)【国際公開番号】W WO2021235682

(87)【国際公開日】2021-11-25

【審査請求日】2021-12-09

(31)【優先権主張番号】63/026,424

(32)【優先日】2020-05-18

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/135,396

(32)【優先日】2020-12-28

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】517038176

【氏名又は名称】株式会社ストラドビジョン

【氏名又は名称原語表記】ＳＴＲＡＤＶＩＳＩＯＮ，ＩＮＣ．

【住所又は居所原語表記】Ｓｕｉｔｅ３０４－３０８，５ｔｈＶｅｎｔｕｒｅ－ｄｏｎｇ，３９４，Ｊｉｇｏｋ－ｒｏ，Ｎａｍ－ｇｕ，Ｐｏｈａｎｇ－ｓｉ，Ｇｙｅｏｎｇｓａｎｇｂｕｋ－ｄｏ３７６６８ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】100120628

【弁理士】

【氏名又は名称】岩田慎一

(72)【発明者】

【氏名】諸泓模

(72)【発明者】

【氏名】劉東奎

(72)【発明者】

【氏名】康鳳男

(72)【発明者】

【氏名】金鎔重

【審査官】青木重徳

(56)【参考文献】

【文献】韓国公開特許第１０－２０１９－００５２４１７（ＫＲ，Ａ）

【文献】野末洋佑ほか，自律型モビリティシステムの実現に向けた人物属性情報を用いた行動予測，電子情報通信学会技術研究報告，日本，一般社団法人電子情報通信学会，2018年03月11日，Ｖｏｌ．１１７Ｎｏ．５１３，ｐ．２０７－２１２

【文献】Ashesh Jain et al.，Recurrent Neural Networks for Driver Activity Anticipation via Sensory-Fusion Architecture，arXiv，Cornell University［オンライン］，2015年09月15日，arXiv:1509.05016v1，<URL: https://arxiv.org/abs/1509.05016>，（検索日令和４年１２月８日）、インターネット

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｖ２０／５０

Ｇ０６Ｖ１０／００

(57)【特許請求の範囲】

【請求項1】

エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法において、
（ａ）デバイスに取り付けられたカメラで撮像される映像と前記デバイスに取り付けられたセンサによりセンシングされるセンシング情報とが獲得されると、行動予測（ｂｅｈａｖｉｏｒｐｒｅｄｉｃｔｉｏｎ）装置が、前記映像におけるそれぞれのフレームに対応するイメージと前記それぞれのフレームに対応する前記センシング情報とをメタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって前記それぞれのフレームに対応する前記イメージと前記センシング情報とをそれぞれラーニング演算して前記それぞれのフレームに対応するメタデータを出力させ、前記それぞれのフレームに対応する前記メタデータを特徴エンコーディングモジュールに入力することで、前記特徴エンコーディングモジュールをもって前記それぞれのフレームに対応する前記メタデータのそれぞれをエンコーディングして行動予測のための前記それぞれのフレームに対応する特徴を出力させる段階；
（ｂ）前記行動予測装置が、前記それぞれのフレームに対応する前記イメージ、前記メタデータ及び前記特徴をエクスプレーニング（ｅｘｐｌａｉｎｉｎｇ）モジュールに入力することで、前記エクスプレーニングモジュールをもって前記それぞれのフレームにおける行動予測に影響を与える要素に対する前記それぞれのフレームに対応するエクスプラネーション（ｅｘｐｌａｎａｔｉｏｎ）を生成させ、前記それぞれのフレームに対応する前記イメージと前記メタデータとをセルフフォーカスされたアテンション（ｓｅｌｆ－ｆｏｃｕｓｅｄａｔｔｅｎｔｉｏｎ）モジュールに入力することで、前記セルフフォーカスされたアテンションモジュールをもってラーニング演算を通じて前記それぞれのフレームに対応する前記イメージのそれぞれにおいて行動予測のために集中されなければならないそれぞれの物体に対する領域をアテンションした前記それぞれのフレームに対応するアテンションマップを出力させ、前記それぞれのフレームに対応する前記特徴と前記アテンションマップとを行動予測モジュールに入力することで、前記行動予測モジュールをもって前記それぞれのフレームに対応する前記特徴と前記アテンションマップとをラーニング演算を通じて分析し、前記それぞれの物体に対する行動を予測した行動予測結果を生成させる段階；及び
（ｃ）前記行動予測装置が、出力モジュールを通じて前記行動予測結果に対応する前記物体の行動を出力し、視覚化モジュールを通じて前記行動結果と前記エクスプラネーションとを参照して行動予測に影響を与える要素を視覚化して出力する段階；
を含む方法。

【請求項2】

前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとは、学習装置により学習された状態であって、
前記学習装置により、それぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とが前記メタデータ認識モジュールに入力されることで、前記メタデータ認識モジュールにより前記それぞれの学習用フレームに対応する学習用メタデータが出力され、前記それぞれの学習用フレームに対応する前記学習用メタデータが前記特徴エンコーディングモジュールに入力されることで、前記特徴エンコーディングモジュールにより前記それぞれの学習用フレームに対応する前記学習用メタデータがエンコーディングされて行動予測のための前記それぞれの学習用フレームに対応する学習用特徴が出力され、前記それぞれの学習用フレームに対応する前記学習用イメージ、前記学習用メタデータ及び前記学習用特徴が前記エクスプレーニングモジュールに入力されることで、前記エクスプレーニングモジュールにより前記それぞれの学習用フレームにおける行動予測に影響を与える要素に対する前記それぞれの学習用フレームに対応する学習用エクスプラネーションが生成され、前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとが前記セルフフォーカスされたアテンションモジュールに入力されることで、前記セルフフォーカスされたアテンションモジュールにより前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとが分析され、行動予測のために集中されなければならない領域がアテンションされた前記それぞれの学習用フレームに対応する学習用アテンションマップが出力され、前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解（ｇｒｏｕｎｄｔｒｕｔｈ）を参照したエクスプラネーションロスと、前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照したアテンションロスと、をそれぞれ最小化するように前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとが学習された状態である、請求項１に記載の方法。

【請求項3】

前記（ｂ）段階で、
前記行動予測装置は、前記エクスプレーニングモジュールをもって、オートエンコーダのエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴の次元を縮小した前記それぞれのフレームに対応するレイテント特徴を生成させ、前記オートエンコーダのデコーダを通じて前記それぞれのフレームに対応する前記レイテント特徴を再構成（ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ）して行動予測に影響を与える要素をアテンションした前記それぞれのフレームに対応するエクスプラネーションを生成させる、請求項１に記載の方法。

【請求項4】

前記（ｃ）段階で、
前記行動予測装置は、前記視覚化モジュールをもって、前記行動予測結果と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体を前記それぞれのイメージからアテンションして出力させる、請求項３に記載の方法。

【請求項5】

前記（ｂ）段階において、
前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記オートエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴をラーニング演算して前記それぞれのフレームに対応するセマンティックセグメンテーションイメージを生成させた後、インスタンスワイズ（ｉｎｓｔａｎｃｅ－ｗｉｓｅ）アテンションを通じて前記行動予測に影響を与える要素を表示した前記それぞれのフレームに対応するエクスプラネーションイメージを生成させる、請求項１に記載の方法。

【請求項6】

前記（ｂ）段階で、
前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記それぞれのフレームに対応する前記メタデータをラーニング演算して前記それぞれのフレームに対応するイメージにおける全ての物体に関する前記メタデータを基盤に決定木（ｄｅｃｉｓｉｏｎｔｒｅｅ）を生成させる、請求項１に記載の方法。

【請求項7】

前記（ｃ）段階で、
前記行動予測装置は、前記視覚化モジュールをもって、前記決定木と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体に対する状態情報を出力させる、請求項６に記載の方法。

【請求項8】

前記（ａ）段階で、
前記行動予測装置は、前記それぞれのフレームに対応する前記イメージと前記センシング情報とを前記メタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって、パーセプション（ｐｅｒｃｅｐｔｉｏｎ）モジュールを通じて前記デバイスの周辺環境情報を検出させ、ローカリゼーション及びマッピング（ｌｏｃａｌｉｚａｔｉｏｎａｎｄｍａｐｐｉｎｇ）モジュールを通じて前記デバイスの測位情報を検出させる、請求項１に記載の方法。

【請求項9】

前記それぞれのフレームに対応する前記メタデータは、少なくとも前記物体に対応する物体バウンディングボックス、前記デバイスのポーズ情報、及び前記デバイスが位置する領域に対応するマップ情報を含む、請求項１に記載の方法。

【請求項10】

前記行動予測モジュールは、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）アルゴリズム及びＬＳＴＭ－ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）アルゴリズムのうち少なくとも一つから構成されるＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）を含む、請求項１に記載の方法。

【請求項11】

エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置において、
エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を行うための各インストラクションを格納する少なくとも一つのメモリ；及び
前記各インストラクションに応じて、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行するプロセッサを含み、
前記プロセッサは、（Ｉ）デバイスに取り付けられたカメラで撮像される映像と前記デバイスに取り付けられたセンサによりセンシングされるセンシング情報とが獲得されると、行動予測装置が、前記映像におけるそれぞれのフレームに対応するイメージと前記それぞれのフレームに対応する前記センシング情報とをメタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって前記それぞれのフレームに対応する前記イメージと前記センシング情報とをそれぞれラーニング演算して前記それぞれのフレームに対応するメタデータを出力させ、前記それぞれのフレームに対応する前記メタデータを特徴エンコーディングモジュールに入力することで、前記特徴エンコーディングモジュールをもって前記それぞれのフレームに対応する前記メタデータのそれぞれをエンコーディングして行動予測のための前記それぞれのフレームに対応する特徴を出力させるプロセッサ、（ＩＩ）前記行動予測装置が、前記それぞれのフレームに対応する前記イメージ、前記メタデータ及び前記特徴をエクスプレーニングモジュールに入力することで、前記エクスプレーニングモジュールをもって前記それぞれのフレームにおける行動予測に影響を与える要素に対する前記それぞれのフレームに対応するエクスプラネーションを生成させ、前記それぞれのフレームに対応する前記イメージと前記メタデータとをセルフフォーカスされたアテンションモジュールに入力することで、前記セルフフォーカスされたアテンションモジュールをもってラーニング演算を通じて前記それぞれのフレームに対応する前記イメージのそれぞれにおいて行動予測のために集中されなければならないそれぞれの物体に対する領域をアテンションした前記それぞれのフレームに対応するアテンションマップを出力させ、前記それぞれのフレームに対応する前記特徴と前記アテンションマップとを行動予測モジュールに入力することで、前記行動予測モジュールをもって前記それぞれのフレームに対応する前記特徴と前記アテンションマップとをラーニング演算を通じて分析し、前記それぞれの物体に対する行動を予測した行動予測結果を生成させるプロセス及び、（ＩＩＩ）前記行動予測装置が、出力モジュールを通じて前記行動予測結果に対応する前記物体の行動を出力し、視覚化モジュールを通じて前記行動結果と前記エクスプラネーションとを参照して行動予測に影響を与える要素を視覚化して出力するプロセスを遂行する行動予測装置。

【請求項12】

前記プロセスで、
前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとは、学習装置により学習された状態であって、
前記学習装置により、それぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とが前記メタデータ認識モジュールに入力されることで、前記メタデータ認識モジュールをもって前記それぞれの学習用フレームに対応する学習用メタデータを出力させ、前記それぞれの学習用フレームに対応する前記学習用メタデータが前記特徴エンコーディングモジュールに入力されることで、前記特徴エンコーディングモジュールをもって前記それぞれの学習用フレームに対応する前記学習用メタデータをエンコーディングして行動予測のための前記それぞれの学習用フレームに対応する学習用特徴を出力させ、前記それぞれの学習用フレームに対応する前記学習用イメージ、前記学習用メタデータ及び前記学習用特徴が前記エクスプレーニングモジュールに入力されることで、前記エクスプレーニングモジュールをもって前記それぞれの学習用フレームにおける行動予測に影響を与える要素に対する前記それぞれの学習用フレームに対応する学習用エクスプラネーションを生成させ、前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとがセルフフォーカスされたアテンションモジュールに入力されることで、前記セルフフォーカスされたアテンションモジュールをもって前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとを分析し、行動予測のために集中されなければならない領域をアテンションした前記それぞれの学習用フレームに対応する学習用アテンションマップを出力させ、前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解を参照したエクスプラネーションロスと、前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照したアテンションロスと、をそれぞれ最小化するように前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとが学習された状態であることを特徴とする、請求項１１に記載のコンピューティング装置。

【請求項13】

前記（ＩＩ）プロセスで、
前記行動予測装置は、前記エクスプレーニングモジュールをもって、オートエンコーダのエンコーダを前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴の次元を縮小した前記それぞれのフレームに対応するレイテント特徴を生成させ、前記オートエンコーダのデコーダを通じて前記それぞれのフレームに対応する前記レイテント特徴を再構成し、行動予測に影響を与える要素をアテンションした前記それぞれのフレームに対応するエクスプラネーションを生成させる、請求項１１に記載のコンピューティング装置。

【請求項14】

前記（ＩＩＩ）プロセスで、
前記行動予測装置は、前記視覚化モジュールをもって、前記行動予測結果と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体を前記それぞれのイメージからアテンションして出力させる、請求項１３に記載のコンピューティング装置。

【請求項15】

前記（ＩＩ）プロセスにおいて、
前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記オートエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴をラーニング演算して前記それぞれのフレームに対応するセマンティックセグメンテーションイメージを生成させた後、インスタンスワイズアテンションを通じて前記行動予測に影響を与える要素を表示した前記それぞれのフレームに対応するエクスプラネーションイメージを生成させる、請求項１１に記載のコンピューティング装置。

【請求項16】

前記（ＩＩ）プロセスで、
前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記それぞれのフレームに対応する前記メタデータをラーニング演算して前記それぞれのフレームに対応するイメージにおける全ての物体に関する前記メタデータを基盤に決定木を生成させる、請求項１１に記載のコンピューティング装置。

【請求項17】

前記（ＩＩＩ）プロセスで、
前記行動予測装置は、前記視覚化モジュールをもって、前記決定木と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体に対する状態情報を出力させる、請求項１６に記載のコンピューティング装置。

【請求項18】

前記（Ｉ）段階で、
前記行動予測装置は、前記それぞれのフレームに対応する前記イメージと前記センシング情報とを前記メタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって、パーセプションモジュールを通じて前記デバイスの周辺環境情報を検出させ、ローカリゼーション及びマッピングモジュールを通じて前記デバイスの測位情報を検出させる、請求項１１に記載のコンピューティング装置。

【請求項19】

前記それぞれのフレームに対応する前記メタデータは、少なくとも前記物体に対応する物体バウンディングボックス、前記デバイスのポーズ情報、及び前記デバイスが位置する領域に対応するマップ情報を含む、請求項１１に記載の装置。

【請求項20】

前記行動予測モジュールは、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）アルゴリズム及びＬＳＴＭ－ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）アルゴリズムのうち少なくとも一つから構成されるＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）を含む、請求項１１に記載のコンピューティング装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、２０２０年５月１８日に出願された米国特許出願第６３／０２６，４２４号及び２０２０年１２月２８日に出願された米国特許出願第１７／１３５，３９６号に対する優先権を主張し、これらの出願は本願に参照として組み込まれる。

【0002】

本発明は、行動予測に関し、より詳細には、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法及び装置に関する。

【背景技術】

【0003】

最近、マシンラーニング（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）を利用して物体の識別などを遂行する方法に対する研究が行われている。

【0004】

このようなマシンラーニングのうち一つとして、インプットレイヤ（ｉｎｐｕｔｌａｙｅｒ）及びアウトプットレイヤ（ｏｕｔｐｕｔｌａｙｅｒ）の間に複数のヒドゥンレイヤ（ｈｉｄｄｅｎｌａｙｅｒ）を有する神経網を利用したディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）は、優れた識別性能を有する。

【0005】

そして、ディープラーニングは、自律走行自動車、自律運航飛行体、自律動作ロボットなど様々な産業分野に適用されている。

【0006】

特に、最近では、与えられた映像及びセンシング情報に対してパーセプション（ｐｅｒｃｅｐｔｉｏｎ）、ローカリゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）、及びマッピング（ｍａｐｐｉｎｇ）を通じて行動（ｂｅｈａｖｉｏｒ）、一例として、物体の軌跡（ｔｒａｊｅｃｔｏｒｙ）を予測する行動予測に対する開発が行われている。

【0007】

図１を参照すると、従来の自律走行自動車において行動予測装置は、映像及びセンシング情報獲得モジュール１０を通じて自律走行自動車の走行中に撮像される映像と自律走行自動車のセンサからセンシングされるセンシング情報とを獲得し、メタデータ認識モジュール２０を通じて映像におけるそれぞれのフレームに対応するイメージとセンシング情報とに対応するメタデータを獲得する。この際、メタデータはそれぞれ、ディープラーニング基盤に映像イメージを分析して獲得した物体に対するバウンディングボックス、トラフィックライト（ｔｒａｆｆｉｃｌｉｇｈｔ）、トラフィックサイン（ｔｒａｆｆｉｃｓｉｇｎ）、映像イメージ分析結果及びセンシング情報を参照したエゴ－自動車ポーズ、マップ情報などを含むことができる。そして、行動予測装置は、特徴エンコーディングモジュール３０を通じてメタデータをエンコーディングして行動予測のための特徴を生成し、ディープラーニング基盤の行動予測モジュール４０を通じて特徴をラーニング演算して物体に対する行動、即ち、物体の軌跡を予測して、出力モジュール５０を通じて予測された物体の行動を出力する。

【0008】

一方、従来には行動予測のために連続的な映像イメージを分析するためのＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙｍｏｄｅｌｓ）を利用しており、最近ではＧＡＮを利用してＬＳＴＭによる行動予測性能をより向上させている。

【0009】

しかし、ディープラーニングネットワークは、一般的にエクスプレイナブル（ｅｘｐｌａｉｎａｂｌｅ）ＡＩではない。即ち、ディープラーニングネットワークは、行動予測に関して何故そのような判断をしたのか、どんな特徴が予測に影響を与えたのか理解することができない。

【0010】

従って、従来の行動予測ネットワークは、予測に影響を与える特徴とは関係なく、より複雑なモデル及び追加的な技術が付与される方向に性能を向上させており、それに応じて行動予測ネットワークを適用したデバイスのコンピューティングソースを過度に利用するという問題点がある。

【0011】

また、複雑なモデル及び追加的な技術の付与に伴い、行動予測ネットワークを適用したデバイスに対してより多くのコンピューティングソースを要するという問題点がある。

【発明の概要】

【発明が解決しようとする課題】

【0012】

本発明は、前述した問題点を全て解決することをその目的とする。

【0013】

本発明は、行動予測ネットワークの予測に影響を与える要素を理解することができるようにすることを他の目的とする。

【0014】

本発明は、行動予測ネットワークで特定の物体の行動を予測する際、注目すべき領域を認知することができるようにすることを他の目的とする。

【0015】

本発明は、行動予測ネットワークの予測に影響を与える要素を通じて効率的に行動予測ネットワークの性能を向上させることができるようにすることを他の目的とする。

【課題を解決するための手段】

【0016】

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下の通りである。

【0017】

本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法において、（ａ）デバイスに取り付けられたカメラで撮像される映像と前記デバイスに取り付けられたセンサによりセンシングされるセンシング情報とが獲得されると、行動予測装置が、前記映像におけるそれぞれのフレームに対応するイメージと前記それぞれのフレームに対応する前記センシング情報とをメタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって前記それぞれのフレームに対応する前記イメージと前記センシング情報とをそれぞれラーニング演算して前記それぞれのフレームに対応するメタデータを出力させ、前記それぞれのフレームに対応する前記メタデータを特徴エンコーディングモジュールに入力することで、前記特徴エンコーディングモジュールをもって前記それぞれのフレームに対応する前記メタデータのそれぞれをエンコーディングして行動予測のための前記それぞれのフレームに対応する特徴を出力させる段階；（ｂ）前記行動予測装置が、前記それぞれのフレームに対応する前記イメージ、前記メタデータ及び前記特徴をエクスプレーニングモジュールに入力することで、前記エクスプレーニングモジュールをもって前記それぞれのフレームにおける行動予測に影響を与える要素に対する前記それぞれのフレームに対応するエクスプラネーションを生成させ、前記それぞれのフレームに対応する前記イメージと前記メタデータとをセルフフォーカスされたアテンションモジュールに入力することで、前記セルフフォーカスされたアテンションモジュールをもってラーニング演算を通じて前記それぞれのフレームに対応する前記イメージのそれぞれにおいて行動予測のために集中されなければならないそれぞれの物体に対する領域をアテンションした前記それぞれのフレームに対応するアテンションマップを出力させ、前記それぞれのフレームに対応する前記特徴と前記アテンションマップとを行動予測モジュールに入力することで、前記行動予測モジュールをもって前記それぞれのフレームに対応する前記特徴と前記アテンションマップとをラーニング演算を通じて分析し、前記それぞれの物体に対する行動を予測した行動予測結果を生成させる段階；及び（ｃ）前記行動予測装置が、出力モジュールを通じて前記行動予測結果に対応する前記物体の行動を出力し、視覚化モジュールを通じて前記行動結果と前記エクスプラネーションとを参照して行動予測に影響を与える要素を視覚化して出力する段階；を含む方法が提供される。

【0018】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法において、前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとは、学習装置により学習された状態であって、前記学習装置により、それぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とが前記メタデータ認識モジュールに入力されることで、前記メタデータ認識モジュールにより前記それぞれの学習用フレームに対応する学習用メタデータが出力され、前記それぞれの学習用フレームに対応する前記学習用メタデータが前記特徴エンコーディングモジュールに入力されることで、前記特徴エンコーディングモジュールにより前記それぞれの学習用フレームに対応する前記学習用メタデータがエンコーディングされて行動予測のための前記それぞれの学習用フレームに対応する学習用特徴が出力され、前記それぞれの学習用フレームに対応する前記学習用イメージ、前記学習用メタデータ及び前記学習用特徴が前記エクスプレーニングモジュールに入力されることで、前記エクスプレーニングモジュールにより前記それぞれの学習用フレームにおける行動予測に影響を与える要素に対する前記それぞれの学習用フレームに対応する学習用エクスプラネーションが生成され、前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとが前記セルフフォーカスされたアテンションモジュールに入力されることで、前記セルフフォーカスされたアテンションモジュールにより前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとが分析され、行動予測のために集中されなければならない領域がアテンションされた前記それぞれの学習用フレームに対応する学習用アテンションマップが出力され、前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解を参照したエクスプラネーションロスと、前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照したアテンションロスと、をそれぞれ最小化するように前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとが学習された状態である方法が提供される。

【0019】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法の前記（ｂ）段階で、前記行動予測装置は、前記エクスプレーニングモジュールをもって、オートエンコーダのエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴の次元を縮小した前記それぞれのフレームに対応するレイテント特徴を生成させ、前記オートエンコーダのデコーダを通じて前記それぞれのフレームに対応する前記レイテント特徴を再構成し、行動予測に影響を与える要素をアテンションした前記それぞれのフレームに対応するエクスプラネーションを生成させる方法が提供される。

【0020】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法の前記（ｃ）段階で、前記行動予測装置は、前記視覚化モジュールをもって、前記行動予測結果と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体を前記それぞれのイメージからアテンションして出力させる方法が提供される。

【0021】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法の前記（ｂ）段階において、前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記オートエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴をラーニング演算して前記それぞれのフレームに対応するセマンティックセグメンテーションイメージを生成させた後、インスタンスワイズアテンションを通じて前記行動予測に影響を与える要素を表示した前記それぞれのフレームに対応するエクスプラネーションイメージを生成させる方法が提供される。

【0022】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法の前記（ｂ）段階で、前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記それぞれのフレームに対応する前記メタデータをラーニング演算して前記それぞれのフレームに対応するイメージにおける全ての物体に関する前記メタデータを基盤に決定木を生成させる方法が提供される。

【0023】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法の前記（ｃ）段階で、前記行動予測装置は、前記視覚化モジュールをもって、前記決定木と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体に対する状態情報を出力させる方法が提供される。

【0024】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法の前記（ａ）段階で、前記行動予測装置は、前記それぞれのフレームに対応する前記イメージと前記センシング情報とを前記メタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって、パーセプションモジュールを通じて前記デバイスの周辺環境情報を検出させ、ローカリゼーション及びマッピングモジュールを通じて前記デバイスの測位情報を検出させる方法が提供される。

【0025】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法において、前記それぞれのフレームに対応する前記メタデータは、少なくとも前記物体に対応する物体バウンディングボックス、前記デバイスのポーズ情報、及び前記デバイスが位置する領域に対応するマップ情報を含む方法が提供される。

【0026】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法において、前記行動予測モジュールは、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）アルゴリズム及びＬＳＴＭ－ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）アルゴリズムのうち少なくとも一つから構成されるＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）を含む方法が提供される。

【0027】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を行うための各インストラクションを格納する少なくとも一つのメモリ；及び前記各インストラクションに応じて、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行するプロセッサを含み、前記プロセッサは、（Ｉ）デバイスに取り付けられたカメラで撮像される映像と前記デバイスに取り付けられたセンサによりセンシングされるセンシング情報とが獲得されると、行動予測装置が、前記映像におけるそれぞれのフレームに対応するイメージと前記それぞれのフレームに対応する前記センシング情報とをメタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって前記それぞれのフレームに対応する前記イメージと前記センシング情報とをそれぞれラーニング演算して前記それぞれのフレームに対応するメタデータを出力させ、前記それぞれのフレームに対応する前記メタデータを特徴エンコーディングモジュールに入力することで、前記特徴エンコーディングモジュールをもって前記それぞれのフレームに対応する前記メタデータのそれぞれをエンコーディングして行動予測のための前記それぞれのフレームに対応する特徴を出力させるプロセッサ、（ＩＩ）前記行動予測装置が、前記それぞれのフレームに対応する前記イメージ、前記メタデータ及び前記特徴をエクスプレーニングモジュールに入力することで、前記エクスプレーニングモジュールをもって前記それぞれのフレームにおける行動予測に影響を与える要素に対する前記それぞれのフレームに対応するエクスプラネーションを生成させ、前記それぞれのフレームに対応する前記イメージと前記メタデータとをセルフフォーカスされたアテンションモジュールに入力することで、前記セルフフォーカスされたアテンションモジュールをもってラーニング演算を通じて前記それぞれのフレームに対応する前記イメージのそれぞれにおいて行動予測のために集中されなければならないそれぞれの物体に対する領域をアテンションした前記それぞれのフレームに対応するアテンションマップを出力させ、前記それぞれのフレームに対応する前記特徴と前記アテンションマップとを行動予測モジュールに入力することで、前記行動予測モジュールをもって前記それぞれのフレームに対応する前記特徴と前記アテンションマップとをラーニング演算を通じて分析し、前記それぞれの物体に対する行動を予測した行動予測結果を生成させるプロセス及び、（ＩＩＩ）前記行動予測装置が、出力モジュールを通じて前記行動予測結果に対応する前記物体の行動を出力し、視覚化モジュールを通じて前記行動結果と前記エクスプラネーションとを参照して行動予測に影響を与える要素を視覚化して出力するプロセスを遂行する行動予測装置が提供される。

【0028】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の前記プロセスで、前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとは、学習装置により学習された状態であって、前記学習装置により、それぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とが前記メタデータ認識モジュールに入力されることで、前記メタデータ認識モジュールをもって前記それぞれの学習用フレームに対応する学習用メタデータを出力させ、前記それぞれの学習用フレームに対応する前記学習用メタデータが前記特徴エンコーディングモジュールに入力されることで、前記特徴エンコーディングモジュールをもって前記それぞれの学習用フレームに対応する前記学習用メタデータをエンコーディングして行動予測のための前記それぞれの学習用フレームに対応する学習用特徴を出力させ、前記それぞれの学習用フレームに対応する前記学習用イメージ、前記学習用メタデータ及び前記学習用特徴が前記エクスプレーニングモジュールに入力されることで、前記エクスプレーニングモジュールをもって前記それぞれの学習用フレームにおける行動予測に影響を与える要素に対する前記それぞれの学習用フレームに対応する学習用エクスプラネーションを生成させ、前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとがセルフフォーカスされたアテンションモジュールに入力されることで、前記セルフフォーカスされたアテンションモジュールをもって前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとを分析し、行動予測のために集中されなければならない領域をアテンションした前記それぞれの学習用フレームに対応する学習用アテンションマップを出力させ、前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解を参照したエクスプラネーションロスと、前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照したアテンションロスと、をそれぞれ最小化するように前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとが学習された状態であることを特徴とするコンピューティング装置が提供される。

【0029】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の前記（ＩＩ）プロセスで、前記行動予測装置は、前記エクスプレーニングモジュールをもって、オートエンコーダのエンコーダを前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴の次元を縮小した前記それぞれのフレームに対応するレイテント特徴を生成させ、前記オートエンコーダのデコーダを通じて前記それぞれのフレームに対応する前記レイテント特徴を再構成し、行動予測に影響を与える要素をアテンションした前記それぞれのフレームに対応するエクスプラネーションを生成させるコンピューティング装置が提供される。

【0030】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の前記（ＩＩＩ）プロセスで、前記行動予測装置は、前記視覚化モジュールをもって、前記行動予測結果と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体を前記それぞれのイメージからアテンションして出力させるコンピューティング装置が提供される。

【0031】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の前記（ＩＩ）プロセスにおいて、前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記オートエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴をラーニング演算して前記それぞれのフレームに対応するセマンティックセグメンテーションイメージを生成させた後、インスタンスワイズアテンションを通じて前記行動予測に影響を与える要素を表示した前記それぞれのフレームに対応するエクスプラネーションイメージを生成させるコンピューティング装置が提供される。

【0032】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の前記（ＩＩ）プロセスで、前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記それぞれのフレームに対応する前記メタデータをラーニング演算して前記それぞれのフレームに対応するイメージにおける全ての物体に関する前記メタデータを基盤に決定木を生成させるコンピューティング装置が提供される。

【0033】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の前記（ＩＩＩ）プロセスで、前記行動予測装置は、前記視覚化モジュールをもって、前記決定木と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体に対する状態情報を出力させるコンピューティング装置が提供される。

【0034】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の（Ｉ）段階で、前記行動予測装置は、前記それぞれのフレームに対応する前記イメージと前記センシング情報とを前記メタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって、パーセプションモジュールを通じて前記デバイスの周辺環境情報を検出させ、ローカリゼーション及びマッピングモジュールを通じて前記デバイスの測位情報を検出させるコンピューティング装置が提供される。

【0035】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置において、前記それぞれのフレームに対応する前記メタデータは、少なくとも前記物体に対応する物体バウンディングボックス、前記デバイスのポーズ情報、及び前記デバイスが位置する領域に対応するマップ情報を含む装置が提供される。

【0036】

また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置において、前記行動予測モジュールは、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）アルゴリズム及びＬＳＴＭ－ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）アルゴリズムのうち少なくとも一つから構成されるＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）を含むコンピューティング装置が提供される。

【0037】

その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。

【発明の効果】

【0038】

本発明は、行動予測ネットワークの予測に影響を与える要素を理解することができるようにすることができる。

【0039】

本発明は、行動予測ネットワークで特定の物体の行動を予測する際、注目すべき領域を認知することができるようにすることができる。

【0040】

本発明は、行動予測ネットワークの予測に影響を与える要素を通じて効率的に行動予測ネットワークの性能を向上させることができる。

【図面の簡単な説明】

【0041】

本発明の実施例の説明に利用されるために添付された以下の図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。

【0042】

【図1】図１は、従来の行動予測装置のブロック図を簡略に示した図面である。

【図2】図２は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置を簡略に示した図面である。

【図3】図３は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置のブロック図を簡略に示した図面である。

【図4】図４は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法によって行動予測のためのエクスプラネーションを生成する一例を簡略に示した図面である。

【図5】図５は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法によって行動予測のためのエクスプラネーションを生成する他の例を簡略に示した図面である。

【図6a】図６ａは、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法によって行動予測のためのセルフフォーカスされたアテンションを生成する過程を簡略に示した図面である。

【図6b】図６ｂは、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法によって行動予測のためのセルフフォーカスされたアテンションを生成する過程を簡略に示した図面である。

【図7】図７は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法によって行動予測のためのエクスプラネーションを視覚化する状態を簡略に示した図面であり、

【図8】図８は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置でエクスプレーニングモジュールとセルフフォーカスされたアテンションモジュールとを学習する状態を簡略に示した図面である。

【発明を実施するための形態】

【0043】

後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。

【0044】

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

【0045】

さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

【0046】

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。

【0047】

図２は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンション（ｅｘｐｌａｉｎａｂｌｅｓｅｌｆ－ｆｏｃｕｓｅｄａｔｔｅｎｔｉｏｎ）を利用して行動予測（ｂｅｈａｖｉｏｒｐｒｅｄｉｃｔｉｏｎ）を遂行する行動予測装置を簡略に示した図面であり、図２を参照すると、行動予測装置１０００はエクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行するための各インストラクションが格納されたメモリ１００１と、メモリ１００１に格納された各インストラクションに応じてエクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を行うための動作を遂行するプロセッサ１００２とを含むことができる。

【0048】

具体的に、行動予測装置１０００は、典型的にコンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）及びコンピュータソフトウェア（即ち、コンピューティング装置をもって特定の方式で機能させる各インストラクション）の組合せを利用して所望のシステム性能を達成するものであり得る。

【0049】

また、コンピューティング装置のプロセッサはＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェア構成を含むことができる。また、コンピューティング装置はオペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むことができる。

【0050】

しかし、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ及びメモリが統合された形態である統合プロセッサを含む場合を排除するわけではない。

【0051】

また、図３を参照すると、前記行動予測装置１０００は、映像及びセンシング情報獲得モジュール１００、メタデータ認識モジュール２００、特徴エンコーディングモジュール３００、行動予測モジュール４００、出力モジュール５００、エクスプレーニングモジュール６００、セルフフォーカスされたアテンションモジュール７００及び視覚化モジュール８００を含むことができる。

【0052】

このように構成された前記行動予測装置１０００がエクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する過程を説明すると以下の通りである。下記では周辺の物体に対する行動を予測するデバイスについて自律走行自動車を中心に説明するが、本発明がこれに限定されるわけではなく、自律運航飛行体、自律動作ロボット、モバイルデバイスなどにおいても同一に適用され得る。

【0053】

図３を参照すると、前記行動予測装置１０００は、デバイスに取り付けられたカメラで撮像される映像と前記デバイスに取り付けられたセンサによりセンシングされるセンシング情報とを獲得することができる。

【0054】

この際、前記行動予測装置１０００は映像及びセンシング情報獲得モジュール１００を通じて自律走行自動車の走行中にカメラで撮像される映像と自律走行自動車のセンサによりセンシングされるセンシング情報とを獲得することができる。

【0055】

一方、前記ではカメラを通じて映像を獲得することを説明したが、本発明がこれに限定されるわけではなく、ライダ、レーダなどを利用して獲得するか、センサ融合技術を通じて獲得することができる。また、獲得される映像はデバイスで特定の視野角範囲に該当する領域の環境情報を含むか、デバイス周辺全体の環境情報を含むことができる。

【0056】

次に、前記映像と前記センシング情報とが獲得されると、前記行動予測装置１０００は、前記映像におけるそれぞれのフレームに対応するイメージと前記それぞれのフレームに対応する前記センシング情報とをメタデータ認識モジュール２００に入力することで、前記メタデータ認識モジュール２００をもって前記それぞれのフレームに対応する前記イメージと前記センシング情報とをそれぞれラーニング演算して前記それぞれのフレームに対応するメタデータを出力させることができる。

【0057】

具体的に、前記行動予測装置１０００は、前記それぞれのフレームに対応する前記イメージと前記センシング情報とを前記メタデータ認識モジュール２００に入力することで、前記メタデータ認識モジュール２００をもって、パーセプション（ｐｅｒｃｅｐｔｉｏｎ）モジュールを通じて前記デバイスの周辺環境情報を検出させ、ローカリゼーション及びマッピング（ｌｏｃａｌｉｚａｔｉｏｎａｎｄｍａｐｐｉｎｇ）モジュールを通じて前記デバイスの測位情報を検出させることができる。

【0058】

そして、パーセプションモジュールは、ディープラーニング基盤の物体検出ネットワーク、ディープラーニング基盤のセグメンテーションネットワークなどを含むことができ、メタデータ認識モジュール２００は、ディープラーニング基盤に映像イメージを分析した結果とセンシング情報とを利用してそれぞれのフレームに対応するメタデータを生成することができる。

【0059】

また、前記それぞれのフレームに対応する前記メタデータは、少なくとも前記物体に対応する物体バウンディングボックス、前記デバイスのポーズ情報、トラフィックライト（ｔｒａｆｆｉｃｌｉｇｈｔ）、トラフィックサイン（ｔｒａｆｆｉｃｓｉｇｎ）及び前記デバイスが位置する領域に対応するマップ情報を含むことができるが、これに限定されるわけではなく、行動予測のための様々な情報を含むことができる。

【0060】

次に、前記行動予測装置１０００は、前記それぞれのフレームに対応する前記メタデータを特徴エンコーディングモジュール３００に入力することで、前記特徴エンコーディングモジュール３００をもって前記それぞれのフレームに対応する前記メタデータのそれぞれをエンコーディングして行動予測のための前記それぞれのフレームに対応する特徴を出力させることができる。

【0061】

次に、前記行動予測装置１０００が、前記それぞれのフレームに対応する前記イメージ、前記メタデータ及び前記特徴を前記エクスプレーニングモジュール６００に入力することで、前記エクスプレーニングモジュール６００をもって前記それぞれのフレームにおける行動予測に影響を与える要素に対する前記それぞれのフレームに対応するエクスプラネーション（ｅｘｐｌａｎａｔｉｏｎ）を生成させる。

【0062】

具体的に、図４を参照すると、前記行動予測装置１００は、前記エクスプレーニングモジュール６００をもって、オートエンコーダのエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴の次元を縮小した前記それぞれのフレームに対応するレイテント（ｌａｔｅｎｔ）特徴を生成させ、前記オートエンコーダのデコーダを通じて前記それぞれのフレームに対応する前記レイテント特徴を再構成（ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ）して行動予測に影響を与える要素をアテンションした前記それぞれのフレームに対応するエクスプラネーションを生成させる。

【0063】

即ち、行動予測装置１０００は、前記エクスプレーニングモジュール６００をもって、オートエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴をラーニング演算して前記それぞれのフレームに対応するセマンティックセグメンテーションイメージを生成させた後、インスタンスワイズ（ｉｎｓｔａｎｃｅ－ｗｉｓｅ）アテンションを通じて前記行動予測に影響を与える要素を表示した前記それぞれのフレームに対応するエクスプラネーションイメージを生成させることができる。

【0064】

また、図５を参照すると、前記行動予測装置１０００は、前記エクスプレーニングモジュール６００をもって、前記それぞれのフレームに対応する前記メタデータをラーニング演算して前記それぞれのフレームに対応するイメージにおける全ての物体に関する前記メタデータを基盤に決定木（ｄｅｃｉｓｉｏｎｔｒｅｅ）を生成させる。

【0065】

一例として、一つの物体を「ｃａｔ」として認識した場合、前記エクスプレーニングモジュール６００は、物体を「ｃａｔ」として認識した要素、即ち、色、形などの認識結果を決定木（ｄｅｃｉｓｉｏｎｔｒｅｅ）として生成することによって、使用者が決定木（ｄｅｃｉｓｉｏｎｔｒｅｅ）を参照してラーニングネットワークが物体を「ｃａｔ」として認識した過程を理解することができるだけでなく、ラーニングネットワークが認識過程でエラーを生成した原因を容易に確認することができる。

【0066】

次に、再び図３を参照すると、行動予測装置１０００は、前記それぞれのフレームに対応する前記イメージと前記メタデータとをセルフフォーカスされたアテンションモジュール７００に入力することで、前記セルフフォーカスされたアテンションモジュール７００をもってラーニング演算を通じて前記それぞれのフレームに対応する前記イメージのそれぞれにおいて行動予測のために集中されなければならないそれぞれの物体に対する領域をアテンションした前記それぞれのフレームに対応するアテンションマップを出力させる。

【0067】

一例として、図６ａ及び図６ｂを参照すると、自律走行自動車の走行中に獲得したカメラにより獲得されたそれぞれのフレームに対応する映像イメージとメタデータとをディープラーニング基盤に分析した結果、図６ａのように歩行者の動きによってバスが待機している状態の場合には歩行者をアテンションすることができ、図６ｂのようにバスが動き始めて歩行者が待機している状態の場合にはバスをアテンションすることができる。

【0068】

次に、前記行動予測装置１０００は、前記それぞれのフレームに対応する前記特徴と前記アテンションマップとを行動予測モジュール４００に入力することで、前記行動予測モジュール４００をもって前記それぞれのフレームに対応する前記特徴と前記アテンションマップとをラーニング演算を通じて分析し、前記それぞれの物体に対する行動を予測した行動予測結果を生成させる。

【0069】

一方、前記行動予測装置１０００は、映像イメージにおける全ての物体に対する軌跡（ｔｒａｊｅｃｔｏｒｙ）を予測することとは別に、アテンションマップによりアテンションされた物体に対してのみ軌跡を予測することもできる。

【0070】

この際、前記行動予測モジュール４００は、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）アルゴリズム及びＬＳＴＭ－ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）アルゴリズムのうち少なくとも一つから構成されるＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）を含むことができる。

【0071】

次に、前記行動予測装置１０００は、前記出力モジュール５００を通じて前記行動予測結果に対応する前記物体の行動を出力する。これと同時に、視覚化モジュール８００を通じて前記行動結果と前記エクスプラネーションとを参照して行動予測に影響を与える要素を視覚化して出力する。

【0072】

具体的に、前記行動予測装置１０００は、前記視覚化モジュール８００をもって、前記行動予測結果と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体を前記それぞれのイメージからアテンションして出力させる。

【0073】

また、前記行動予測装置１０００は、前記視覚化モジュール８００をもって、前記決定木と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体に対する状態情報を出力させる。

【0074】

一例として、図７を参照すると、視覚化モジュール８００は、決定木によるエクスプラネーションに応じて「歩行者」及び「ターゲット自動車」の状態を視覚的に表示するか、「歩行者」及び「ターゲット自動車」に対するアテンションマップを視覚化して出力することができる。

【0075】

一方、前記行動予測装置１０００の前記エクスプレーニングモジュール６００と前記セルフフォーカスされたアテンションモジュール７００とは、学習装置により学習された状態であり得る。

【0076】

即ち、図８を参照すると、学習装置２００により、それぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とが前記メタデータ認識モジュール２００に入力されることで、前記メタデータ認識モジュール２００により前記それぞれの学習用フレームに対応する学習用メタデータが出力され、前記それぞれの学習用フレームに対応する前記学習用メタデータが前記特徴エンコーディングモジュール３００に入力されることで、前記特徴エンコーディングモジュール３００により前記それぞれの学習用フレームに対応する前記学習用メタデータがエンコーディングされて行動予測のための前記それぞれの学習用フレームに対応する学習用特徴が出力され、前記それぞれの学習用フレームに対応する前記学習用イメージ、前記学習用メタデータ及び前記学習用特徴が前記エクスプレーニングモジュール６００に入力されることで、前記エクスプレーニングモジュール６００により前記それぞれの学習用フレームにおける行動予測に影響を与える要素に対する前記それぞれの学習用フレームに対応する学習用エクスプラネーションが生成され、前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとが前記セルフフォーカスされたアテンションモジュールに入力されることで、前記セルフフォーカスされたアテンションモジュールにより前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとが分析され、行動予測のために集中されなければならない領域がアテンションされた前記それぞれの学習用フレームに対応する学習用アテンションマップが出力され、前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解（ｇｒｏｕｎｄｔｒｕｔｈ）を参照したエクスプラネーションロスと、前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照したアテンションロスと、をそれぞれ最小化するように前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとが学習された状態であり得る。

【0077】

この際、学習装置２０００は、前記行動予測装置１０００の前記エクスプレーニングモジュール６００と前記セルフフォーカスされたアテンションモジュール７００とを学習させるための各インストラクションが格納されたメモリと、メモリに格納された各インストラクションに応じて行動予測装置１０００の前記エクスプレーニングモジュール６００と前記セルフフォーカスされたアテンションモジュール７００とを学習させるための動作を遂行するプロセッサと、を含むことができる。

【0078】

具体的に、学習装置２０００は、典型的にコンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）及びコンピュータソフトウェア（即ち、コンピューティング装置をもって特定の方式で機能させる各インストラクション）の組合せを利用して所望のシステム性能を達成するものであり得る。

【0079】

【0080】

【0081】

以下ではこのように構成された学習装置２０００を利用して前記行動予測装置１０００の前記エクスプレーニングモジュール６００と前記セルフフォーカスされたアテンションモジュール７００とを学習させる方法を図８を参照してより詳細に説明すると以下の通りである。以下の説明では図３の説明から容易に理解可能な部分に対しては詳細な説明を省略する。

【0082】

まず、学習装置２０００は、前記映像及びセンシング情報獲得モジュール１００を通じて獲得される映像及びセンシング情報に対応するそれぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とを獲得することができる。

【0083】

そして、前記学習装置２０００は、それぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とを前記メタデータ認識モジュール２００に入力することで、前記メタデータ認識モジュール２００をもって前記それぞれの学習用フレームに対応する学習用メタデータを出力させることができる。

【0084】

以後、学習装置２０００は、それぞれの学習用フレームに対応する前記学習用メタデータを前記特徴エンコーディングモジュール３００に入力することで、前記特徴エンコーディングモジュール３００をもって前記それぞれの学習用フレームに対応する前記学習用メタデータをエンコーディングして行動予測のための前記それぞれの学習用フレームに対応する学習用特徴を出力させることができる。

【0085】

次に、学習装置２０００は、前記それぞれの学習用フレームに対応する前記学習用イメージ、前記学習用メタデータ及び前記学習用特徴を前記エクスプレーニングモジュール６００に入力することで、前記エクスプレーニングモジュール６００をもって前記それぞれの学習用フレームにおける行動予測に影響を与える要素に対する前記それぞれの学習用フレームに対応する学習用エクスプラネーションを生成させることができる。

【0086】

次に、学習装置２０００は、前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとを前記セルフフォーカスされたアテンションモジュール７００に入力することで、前記セルフフォーカスされたアテンションモジュール７００をもって前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとを分析し、行動予測のために集中されなければならない領域をアテンションした前記それぞれの学習用フレームに対応する学習用アテンションマップを出力させることができる。

【0087】

以後、学習装置２０００は、前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解を参照したエクスプラネーションロスと、前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照したアテンションロスと、をそれぞれ最小化するように前記エクスプレーニングモジュール６００と前記セルフフォーカスされたアテンションモジュール７００をそれぞれ学習させることができる。この際、学習装置２０００は第１ロスレイヤ９１０をもって前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解を参照してエクスプラネーションロスを生成させることができ、第２ロスレイヤ９２０をもって前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照してアテンションロスを生成させることができる。

【0088】

一方、前記では学習用イメージとこれに対応する前記学習用センシング情報とを利用して前記エクスプレーニングモジュール６００と前記セルフフォーカスされたアテンションモジュール７００とを学習させるものとして説明したが、これとは異なり、前記学習用イメージとこれに対応する前記学習用センシング情報、前記学習用メタデータ及び前記学習用特徴を一つの学習データとして生成し、生成された学習データを利用して前記エクスプレーニングモジュール６００と前記セルフフォーカスされたアテンションモジュール７００とを学習させることもできる。

【0089】

また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカル・ディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気－光メディア（Ｍａｇｎｅｔｏ－ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

【0090】

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。

【0091】

従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

【符号の説明】

【0092】

１０００：行動予測装置
１００１：メモリ
１００２：プロセッサ
２０００：学習装置

【図1】