(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-24
(45)【発行日】2023-03-06
(54)【発明の名称】エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法及び装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20230227BHJP
G06V 20/50 20220101ALI20230227BHJP
G06V 10/00 20220101ALI20230227BHJP
【FI】
G06T7/00 350B
G06V20/50
G06V10/00
(21)【出願番号】P 2021572681
(86)(22)【出願日】2021-04-02
(86)【国際出願番号】 KR2021004111
(87)【国際公開番号】W WO2021235682
(87)【国際公開日】2021-11-25
【審査請求日】2021-12-09
(32)【優先日】2020-05-18
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-12-28
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】517038176
【氏名又は名称】株式会社ストラドビジョン
【氏名又は名称原語表記】STRADVISION,INC.
【住所又は居所原語表記】Suite 304-308,5th Venture-dong,394,Jigok-ro,Nam-gu,Pohang-si,Gyeongsangbuk-do 37668 Republic of Korea
(74)【代理人】
【識別番号】100120628
【氏名又は名称】岩田 慎一
(72)【発明者】
【氏名】諸 泓模
(72)【発明者】
【氏名】劉 東奎
(72)【発明者】
【氏名】康 鳳男
(72)【発明者】
【氏名】金 鎔重
【審査官】青木 重徳
(56)【参考文献】
【文献】韓国公開特許第10-2019-0052417(KR,A)
【文献】野末 洋佑 ほか,自律型モビリティシステムの実現に向けた人物属性情報を用いた行動予測,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2018年03月11日,Vol.117 No.513,p.207-212
【文献】Ashesh Jain et al.,Recurrent Neural Networks for Driver Activity Anticipation via Sensory-Fusion Architecture,arXiv,Cornell University[オンライン],2015年09月15日,arXiv:1509.05016v1,<URL: https://arxiv.org/abs/1509.05016>,(検索日 令和4年12月8日)、インターネット
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 20/50
G06V 10/00
(57)【特許請求の範囲】
【請求項1】
エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法において、
(a)デバイスに取り付けられたカメラで撮像される映像と前記デバイスに取り付けられたセンサによりセンシングされるセンシング情報とが獲得されると、行動予測(behavior prediction)装置が、前記映像におけるそれぞれのフレームに対応するイメージと前記それぞれのフレームに対応する前記センシング情報とをメタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって前記それぞれのフレームに対応する前記イメージと前記センシング情報とをそれぞれラーニング演算して前記それぞれのフレームに対応するメタデータを出力させ、前記それぞれのフレームに対応する前記メタデータを特徴エンコーディングモジュールに入力することで、前記特徴エンコーディングモジュールをもって前記それぞれのフレームに対応する前記メタデータのそれぞれをエンコーディングして行動予測のための前記それぞれのフレームに対応する特徴を出力させる段階;
(b)前記行動予測装置が、前記それぞれのフレームに対応する前記イメージ、前記メタデータ及び前記特徴をエクスプレーニング(explaining)モジュールに入力することで、前記エクスプレーニングモジュールをもって前記それぞれのフレームにおける行動予測に影響を与える要素に対する前記それぞれのフレームに対応するエクスプラネーション(explanation)を生成させ、前記それぞれのフレームに対応する前記イメージと前記メタデータとをセルフフォーカスされたアテンション(self-focused attention)モジュールに入力することで、前記セルフフォーカスされたアテンションモジュールをもってラーニング演算を通じて前記それぞれのフレームに対応する前記イメージのそれぞれにおいて行動予測のために集中されなければならないそれぞれの物体に対する領域をアテンションした前記それぞれのフレームに対応するアテンションマップを出力させ、前記それぞれのフレームに対応する前記特徴と前記アテンションマップとを行動予測モジュールに入力することで、前記行動予測モジュールをもって前記それぞれのフレームに対応する前記特徴と前記アテンションマップとをラーニング演算を通じて分析し、前記それぞれの物体に対する行動を予測した行動予測結果を生成させる段階;及び
(c)前記行動予測装置が、出力モジュールを通じて前記行動予測結果に対応する前記物体の行動を出力し、視覚化モジュールを通じて前記行動結果と前記エクスプラネーションとを参照して行動予測に影響を与える要素を視覚化して出力する段階;
を含む方法。
【請求項2】
前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとは、学習装置により学習された状態であって、
前記学習装置により、それぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とが前記メタデータ認識モジュールに入力されることで、前記メタデータ認識モジュールにより前記それぞれの学習用フレームに対応する学習用メタデータが出力され、前記それぞれの学習用フレームに対応する前記学習用メタデータが前記特徴エンコーディングモジュールに入力されることで、前記特徴エンコーディングモジュールにより前記それぞれの学習用フレームに対応する前記学習用メタデータがエンコーディングされて行動予測のための前記それぞれの学習用フレームに対応する学習用特徴が出力され、前記それぞれの学習用フレームに対応する前記学習用イメージ、前記学習用メタデータ及び前記学習用特徴が前記エクスプレーニングモジュールに入力されることで、前記エクスプレーニングモジュールにより前記それぞれの学習用フレームにおける行動予測に影響を与える要素に対する前記それぞれの学習用フレームに対応する学習用エクスプラネーションが生成され、前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとが前記セルフフォーカスされたアテンションモジュールに入力されることで、前記セルフフォーカスされたアテンションモジュールにより前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとが分析され、行動予測のために集中されなければならない領域がアテンションされた前記それぞれの学習用フレームに対応する学習用アテンションマップが出力され、前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解(ground truth)を参照したエクスプラネーションロスと、前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照したアテンションロスと、をそれぞれ最小化するように前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとが学習された状態である、請求項1に記載の方法。
【請求項3】
前記(b)段階で、
前記行動予測装置は、前記エクスプレーニングモジュールをもって、オートエンコーダのエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴の次元を縮小した前記それぞれのフレームに対応するレイテント特徴を生成させ、前記オートエンコーダのデコーダを通じて前記それぞれのフレームに対応する前記レイテント特徴を再構成(reconstruction)して行動予測に影響を与える要素をアテンションした前記それぞれのフレームに対応するエクスプラネーションを生成させる、請求項1に記載の方法。
【請求項4】
前記(c)段階で、
前記行動予測装置は、前記視覚化モジュールをもって、前記行動予測結果と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体を前記それぞれのイメージからアテンションして出力させる、請求項3に記載の方法。
【請求項5】
前記(b)段階において、
前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記オートエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴をラーニング演算して前記それぞれのフレームに対応するセマンティックセグメンテーションイメージを生成させた後、インスタンスワイズ(instance-wise)アテンションを通じて前記行動予測に影響を与える要素を表示した前記それぞれのフレームに対応するエクスプラネーションイメージを生成させる、請求項1に記載の方法。
【請求項6】
前記(b)段階で、
前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記それぞれのフレームに対応する前記メタデータをラーニング演算して前記それぞれのフレームに対応するイメージにおける全ての物体に関する前記メタデータを基盤に決定木(decision tree)を生成させる、請求項1に記載の方法。
【請求項7】
前記(c)段階で、
前記行動予測装置は、前記視覚化モジュールをもって、前記決定木と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体に対する状態情報を出力させる、請求項6に記載の方法。
【請求項8】
前記(a)段階で、
前記行動予測装置は、前記それぞれのフレームに対応する前記イメージと前記センシング情報とを前記メタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって、パーセプション(perception)モジュールを通じて前記デバイスの周辺環境情報を検出させ、ローカリゼーション及びマッピング(localization and mapping)モジュールを通じて前記デバイスの測位情報を検出させる、請求項1に記載の方法。
【請求項9】
前記それぞれのフレームに対応する前記メタデータは、少なくとも前記物体に対応する物体バウンディングボックス、前記デバイスのポーズ情報、及び前記デバイスが位置する領域に対応するマップ情報を含む、請求項1に記載の方法。
【請求項10】
前記行動予測モジュールは、LSTM(Long Short-Term Memory)アルゴリズム及びLSTM-GAN(Generative Adversarial Network)アルゴリズムのうち少なくとも一つから構成されるRNN(Recurrent Neural Network)を含む、請求項1に記載の方法。
【請求項11】
エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置において、
エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を行うための各インストラクションを格納する少なくとも一つのメモリ;及び
前記各インストラクションに応じて、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行するプロセッサを含み、
前記プロセッサは、(I)デバイスに取り付けられたカメラで撮像される映像と前記デバイスに取り付けられたセンサによりセンシングされるセンシング情報とが獲得されると、行動予測装置が、前記映像におけるそれぞれのフレームに対応するイメージと前記それぞれのフレームに対応する前記センシング情報とをメタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって前記それぞれのフレームに対応する前記イメージと前記センシング情報とをそれぞれラーニング演算して前記それぞれのフレームに対応するメタデータを出力させ、前記それぞれのフレームに対応する前記メタデータを特徴エンコーディングモジュールに入力することで、前記特徴エンコーディングモジュールをもって前記それぞれのフレームに対応する前記メタデータのそれぞれをエンコーディングして行動予測のための前記それぞれのフレームに対応する特徴を出力させるプロセッサ、(II)前記行動予測装置が、前記それぞれのフレームに対応する前記イメージ、前記メタデータ及び前記特徴をエクスプレーニングモジュールに入力することで、前記エクスプレーニングモジュールをもって前記それぞれのフレームにおける行動予測に影響を与える要素に対する前記それぞれのフレームに対応するエクスプラネーションを生成させ、前記それぞれのフレームに対応する前記イメージと前記メタデータとをセルフフォーカスされたアテンションモジュールに入力することで、前記セルフフォーカスされたアテンションモジュールをもってラーニング演算を通じて前記それぞれのフレームに対応する前記イメージのそれぞれにおいて行動予測のために集中されなければならないそれぞれの物体に対する領域をアテンションした前記それぞれのフレームに対応するアテンションマップを出力させ、前記それぞれのフレームに対応する前記特徴と前記アテンションマップとを行動予測モジュールに入力することで、前記行動予測モジュールをもって前記それぞれのフレームに対応する前記特徴と前記アテンションマップとをラーニング演算を通じて分析し、前記それぞれの物体に対する行動を予測した行動予測結果を生成させるプロセス及び、(III)前記行動予測装置が、出力モジュールを通じて前記行動予測結果に対応する前記物体の行動を出力し、視覚化モジュールを通じて前記行動結果と前記エクスプラネーションとを参照して行動予測に影響を与える要素を視覚化して出力するプロセスを遂行する行動予測装置。
【請求項12】
前記プロセスで、
前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとは、学習装置により学習された状態であって、
前記学習装置により、それぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とが前記メタデータ認識モジュールに入力されることで、前記メタデータ認識モジュールをもって前記それぞれの学習用フレームに対応する学習用メタデータを出力させ、前記それぞれの学習用フレームに対応する前記学習用メタデータが前記特徴エンコーディングモジュールに入力されることで、前記特徴エンコーディングモジュールをもって前記それぞれの学習用フレームに対応する前記学習用メタデータをエンコーディングして行動予測のための前記それぞれの学習用フレームに対応する学習用特徴を出力させ、前記それぞれの学習用フレームに対応する前記学習用イメージ、前記学習用メタデータ及び前記学習用特徴が前記エクスプレーニングモジュールに入力されることで、前記エクスプレーニングモジュールをもって前記それぞれの学習用フレームにおける行動予測に影響を与える要素に対する前記それぞれの学習用フレームに対応する学習用エクスプラネーションを生成させ、前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとがセルフフォーカスされたアテンションモジュールに入力されることで、前記セルフフォーカスされたアテンションモジュールをもって前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとを分析し、行動予測のために集中されなければならない領域をアテンションした前記それぞれの学習用フレームに対応する学習用アテンションマップを出力させ、前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解を参照したエクスプラネーションロスと、前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照したアテンションロスと、をそれぞれ最小化するように前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとが学習された状態であることを特徴とする、請求項11に記載のコンピューティング装置。
【請求項13】
前記(II)プロセスで、
前記行動予測装置は、前記エクスプレーニングモジュールをもって、オートエンコーダのエンコーダを前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴の次元を縮小した前記それぞれのフレームに対応するレイテント特徴を生成させ、前記オートエンコーダのデコーダを通じて前記それぞれのフレームに対応する前記レイテント特徴を再構成し、行動予測に影響を与える要素をアテンションした前記それぞれのフレームに対応するエクスプラネーションを生成させる、請求項11に記載のコンピューティング装置。
【請求項14】
前記(III)プロセスで、
前記行動予測装置は、前記視覚化モジュールをもって、前記行動予測結果と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体を前記それぞれのイメージからアテンションして出力させる、請求項13に記載のコンピューティング装置。
【請求項15】
前記(II)プロセスにおいて、
前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記オートエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴をラーニング演算して前記それぞれのフレームに対応するセマンティックセグメンテーションイメージを生成させた後、インスタンスワイズアテンションを通じて前記行動予測に影響を与える要素を表示した前記それぞれのフレームに対応するエクスプラネーションイメージを生成させる、請求項11に記載のコンピューティング装置。
【請求項16】
前記(II)プロセスで、
前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記それぞれのフレームに対応する前記メタデータをラーニング演算して前記それぞれのフレームに対応するイメージにおける全ての物体に関する前記メタデータを基盤に決定木を生成させる、請求項11に記載のコンピューティング装置。
【請求項17】
前記(III)プロセスで、
前記行動予測装置は、前記視覚化モジュールをもって、前記決定木と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体に対する状態情報を出力させる、請求項16に記載のコンピューティング装置。
【請求項18】
前記(I)段階で、
前記行動予測装置は、前記それぞれのフレームに対応する前記イメージと前記センシング情報とを前記メタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって、パーセプションモジュールを通じて前記デバイスの周辺環境情報を検出させ、ローカリゼーション及びマッピングモジュールを通じて前記デバイスの測位情報を検出させる、請求項11に記載のコンピューティング装置。
【請求項19】
前記それぞれのフレームに対応する前記メタデータは、少なくとも前記物体に対応する物体バウンディングボックス、前記デバイスのポーズ情報、及び前記デバイスが位置する領域に対応するマップ情報を含む、請求項11に記載の装置。
【請求項20】
前記行動予測モジュールは、LSTM(Long Short-Term Memory)アルゴリズム及びLSTM-GAN(Generative Adversarial Network)アルゴリズムのうち少なくとも一つから構成されるRNN(Recurrent Neural Network)を含む、請求項11に記載のコンピューティング装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2020年5月18日に出願された米国特許出願第63/026,424号及び2020年12月28日に出願された米国特許出願第17/135,396号に対する優先権を主張し、これらの出願は本願に参照として組み込まれる。
【0002】
本発明は、行動予測に関し、より詳細には、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法及び装置に関する。
【背景技術】
【0003】
最近、マシンラーニング(machine learning)を利用して物体の識別などを遂行する方法に対する研究が行われている。
【0004】
このようなマシンラーニングのうち一つとして、インプットレイヤ(input layer)及びアウトプットレイヤ(output layer)の間に複数のヒドゥンレイヤ(hidden layer)を有する神経網を利用したディープラーニング(deep learning)は、優れた識別性能を有する。
【0005】
そして、ディープラーニングは、自律走行自動車、自律運航飛行体、自律動作ロボットなど様々な産業分野に適用されている。
【0006】
特に、最近では、与えられた映像及びセンシング情報に対してパーセプション(perception)、ローカリゼーション(localization)、及びマッピング(mapping)を通じて行動(behavior)、一例として、物体の軌跡(trajectory)を予測する行動予測に対する開発が行われている。
【0007】
図1を参照すると、従来の自律走行自動車において行動予測装置は、映像及びセンシング情報獲得モジュール10を通じて自律走行自動車の走行中に撮像される映像と自律走行自動車のセンサからセンシングされるセンシング情報とを獲得し、メタデータ認識モジュール20を通じて映像におけるそれぞれのフレームに対応するイメージとセンシング情報とに対応するメタデータを獲得する。この際、メタデータはそれぞれ、ディープラーニング基盤に映像イメージを分析して獲得した物体に対するバウンディングボックス、トラフィックライト(traffic light)、トラフィックサイン(traffic sign)、映像イメージ分析結果及びセンシング情報を参照したエゴ-自動車ポーズ、マップ情報などを含むことができる。そして、行動予測装置は、特徴エンコーディングモジュール30を通じてメタデータをエンコーディングして行動予測のための特徴を生成し、ディープラーニング基盤の行動予測モジュール40を通じて特徴をラーニング演算して物体に対する行動、即ち、物体の軌跡を予測して、出力モジュール50を通じて予測された物体の行動を出力する。
【0008】
一方、従来には行動予測のために連続的な映像イメージを分析するためのLSTM(Long Short-Term Memory models)を利用しており、最近ではGANを利用してLSTMによる行動予測性能をより向上させている。
【0009】
しかし、ディープラーニングネットワークは、一般的にエクスプレイナブル(explainable)AIではない。即ち、ディープラーニングネットワークは、行動予測に関して何故そのような判断をしたのか、どんな特徴が予測に影響を与えたのか理解することができない。
【0010】
従って、従来の行動予測ネットワークは、予測に影響を与える特徴とは関係なく、より複雑なモデル及び追加的な技術が付与される方向に性能を向上させており、それに応じて行動予測ネットワークを適用したデバイスのコンピューティングソースを過度に利用するという問題点がある。
【0011】
また、複雑なモデル及び追加的な技術の付与に伴い、行動予測ネットワークを適用したデバイスに対してより多くのコンピューティングソースを要するという問題点がある。
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明は、前述した問題点を全て解決することをその目的とする。
【0013】
本発明は、行動予測ネットワークの予測に影響を与える要素を理解することができるようにすることを他の目的とする。
【0014】
本発明は、行動予測ネットワークで特定の物体の行動を予測する際、注目すべき領域を認知することができるようにすることを他の目的とする。
【0015】
本発明は、行動予測ネットワークの予測に影響を与える要素を通じて効率的に行動予測ネットワークの性能を向上させることができるようにすることを他の目的とする。
【課題を解決するための手段】
【0016】
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下の通りである。
【0017】
本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法において、(a)デバイスに取り付けられたカメラで撮像される映像と前記デバイスに取り付けられたセンサによりセンシングされるセンシング情報とが獲得されると、行動予測装置が、前記映像におけるそれぞれのフレームに対応するイメージと前記それぞれのフレームに対応する前記センシング情報とをメタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって前記それぞれのフレームに対応する前記イメージと前記センシング情報とをそれぞれラーニング演算して前記それぞれのフレームに対応するメタデータを出力させ、前記それぞれのフレームに対応する前記メタデータを特徴エンコーディングモジュールに入力することで、前記特徴エンコーディングモジュールをもって前記それぞれのフレームに対応する前記メタデータのそれぞれをエンコーディングして行動予測のための前記それぞれのフレームに対応する特徴を出力させる段階;(b)前記行動予測装置が、前記それぞれのフレームに対応する前記イメージ、前記メタデータ及び前記特徴をエクスプレーニングモジュールに入力することで、前記エクスプレーニングモジュールをもって前記それぞれのフレームにおける行動予測に影響を与える要素に対する前記それぞれのフレームに対応するエクスプラネーションを生成させ、前記それぞれのフレームに対応する前記イメージと前記メタデータとをセルフフォーカスされたアテンションモジュールに入力することで、前記セルフフォーカスされたアテンションモジュールをもってラーニング演算を通じて前記それぞれのフレームに対応する前記イメージのそれぞれにおいて行動予測のために集中されなければならないそれぞれの物体に対する領域をアテンションした前記それぞれのフレームに対応するアテンションマップを出力させ、前記それぞれのフレームに対応する前記特徴と前記アテンションマップとを行動予測モジュールに入力することで、前記行動予測モジュールをもって前記それぞれのフレームに対応する前記特徴と前記アテンションマップとをラーニング演算を通じて分析し、前記それぞれの物体に対する行動を予測した行動予測結果を生成させる段階;及び(c)前記行動予測装置が、出力モジュールを通じて前記行動予測結果に対応する前記物体の行動を出力し、視覚化モジュールを通じて前記行動結果と前記エクスプラネーションとを参照して行動予測に影響を与える要素を視覚化して出力する段階;を含む方法が提供される。
【0018】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法において、前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとは、学習装置により学習された状態であって、前記学習装置により、それぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とが前記メタデータ認識モジュールに入力されることで、前記メタデータ認識モジュールにより前記それぞれの学習用フレームに対応する学習用メタデータが出力され、前記それぞれの学習用フレームに対応する前記学習用メタデータが前記特徴エンコーディングモジュールに入力されることで、前記特徴エンコーディングモジュールにより前記それぞれの学習用フレームに対応する前記学習用メタデータがエンコーディングされて行動予測のための前記それぞれの学習用フレームに対応する学習用特徴が出力され、前記それぞれの学習用フレームに対応する前記学習用イメージ、前記学習用メタデータ及び前記学習用特徴が前記エクスプレーニングモジュールに入力されることで、前記エクスプレーニングモジュールにより前記それぞれの学習用フレームにおける行動予測に影響を与える要素に対する前記それぞれの学習用フレームに対応する学習用エクスプラネーションが生成され、前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとが前記セルフフォーカスされたアテンションモジュールに入力されることで、前記セルフフォーカスされたアテンションモジュールにより前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとが分析され、行動予測のために集中されなければならない領域がアテンションされた前記それぞれの学習用フレームに対応する学習用アテンションマップが出力され、前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解を参照したエクスプラネーションロスと、前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照したアテンションロスと、をそれぞれ最小化するように前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとが学習された状態である方法が提供される。
【0019】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法の前記(b)段階で、前記行動予測装置は、前記エクスプレーニングモジュールをもって、オートエンコーダのエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴の次元を縮小した前記それぞれのフレームに対応するレイテント特徴を生成させ、前記オートエンコーダのデコーダを通じて前記それぞれのフレームに対応する前記レイテント特徴を再構成し、行動予測に影響を与える要素をアテンションした前記それぞれのフレームに対応するエクスプラネーションを生成させる方法が提供される。
【0020】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法の前記(c)段階で、前記行動予測装置は、前記視覚化モジュールをもって、前記行動予測結果と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体を前記それぞれのイメージからアテンションして出力させる方法が提供される。
【0021】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法の前記(b)段階において、前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記オートエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴をラーニング演算して前記それぞれのフレームに対応するセマンティックセグメンテーションイメージを生成させた後、インスタンスワイズアテンションを通じて前記行動予測に影響を与える要素を表示した前記それぞれのフレームに対応するエクスプラネーションイメージを生成させる方法が提供される。
【0022】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法の前記(b)段階で、前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記それぞれのフレームに対応する前記メタデータをラーニング演算して前記それぞれのフレームに対応するイメージにおける全ての物体に関する前記メタデータを基盤に決定木を生成させる方法が提供される。
【0023】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法の前記(c)段階で、前記行動予測装置は、前記視覚化モジュールをもって、前記決定木と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体に対する状態情報を出力させる方法が提供される。
【0024】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法の前記(a)段階で、前記行動予測装置は、前記それぞれのフレームに対応する前記イメージと前記センシング情報とを前記メタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって、パーセプションモジュールを通じて前記デバイスの周辺環境情報を検出させ、ローカリゼーション及びマッピングモジュールを通じて前記デバイスの測位情報を検出させる方法が提供される。
【0025】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法において、前記それぞれのフレームに対応する前記メタデータは、少なくとも前記物体に対応する物体バウンディングボックス、前記デバイスのポーズ情報、及び前記デバイスが位置する領域に対応するマップ情報を含む方法が提供される。
【0026】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法において、前記行動予測モジュールは、LSTM(Long Short-Term Memory)アルゴリズム及びLSTM-GAN(Generative Adversarial Network)アルゴリズムのうち少なくとも一つから構成されるRNN(Recurrent Neural Network)を含む方法が提供される。
【0027】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を行うための各インストラクションを格納する少なくとも一つのメモリ;及び前記各インストラクションに応じて、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行するプロセッサを含み、前記プロセッサは、(I)デバイスに取り付けられたカメラで撮像される映像と前記デバイスに取り付けられたセンサによりセンシングされるセンシング情報とが獲得されると、行動予測装置が、前記映像におけるそれぞれのフレームに対応するイメージと前記それぞれのフレームに対応する前記センシング情報とをメタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって前記それぞれのフレームに対応する前記イメージと前記センシング情報とをそれぞれラーニング演算して前記それぞれのフレームに対応するメタデータを出力させ、前記それぞれのフレームに対応する前記メタデータを特徴エンコーディングモジュールに入力することで、前記特徴エンコーディングモジュールをもって前記それぞれのフレームに対応する前記メタデータのそれぞれをエンコーディングして行動予測のための前記それぞれのフレームに対応する特徴を出力させるプロセッサ、(II)前記行動予測装置が、前記それぞれのフレームに対応する前記イメージ、前記メタデータ及び前記特徴をエクスプレーニングモジュールに入力することで、前記エクスプレーニングモジュールをもって前記それぞれのフレームにおける行動予測に影響を与える要素に対する前記それぞれのフレームに対応するエクスプラネーションを生成させ、前記それぞれのフレームに対応する前記イメージと前記メタデータとをセルフフォーカスされたアテンションモジュールに入力することで、前記セルフフォーカスされたアテンションモジュールをもってラーニング演算を通じて前記それぞれのフレームに対応する前記イメージのそれぞれにおいて行動予測のために集中されなければならないそれぞれの物体に対する領域をアテンションした前記それぞれのフレームに対応するアテンションマップを出力させ、前記それぞれのフレームに対応する前記特徴と前記アテンションマップとを行動予測モジュールに入力することで、前記行動予測モジュールをもって前記それぞれのフレームに対応する前記特徴と前記アテンションマップとをラーニング演算を通じて分析し、前記それぞれの物体に対する行動を予測した行動予測結果を生成させるプロセス及び、(III)前記行動予測装置が、出力モジュールを通じて前記行動予測結果に対応する前記物体の行動を出力し、視覚化モジュールを通じて前記行動結果と前記エクスプラネーションとを参照して行動予測に影響を与える要素を視覚化して出力するプロセスを遂行する行動予測装置が提供される。
【0028】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の前記プロセスで、前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとは、学習装置により学習された状態であって、前記学習装置により、それぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とが前記メタデータ認識モジュールに入力されることで、前記メタデータ認識モジュールをもって前記それぞれの学習用フレームに対応する学習用メタデータを出力させ、前記それぞれの学習用フレームに対応する前記学習用メタデータが前記特徴エンコーディングモジュールに入力されることで、前記特徴エンコーディングモジュールをもって前記それぞれの学習用フレームに対応する前記学習用メタデータをエンコーディングして行動予測のための前記それぞれの学習用フレームに対応する学習用特徴を出力させ、前記それぞれの学習用フレームに対応する前記学習用イメージ、前記学習用メタデータ及び前記学習用特徴が前記エクスプレーニングモジュールに入力されることで、前記エクスプレーニングモジュールをもって前記それぞれの学習用フレームにおける行動予測に影響を与える要素に対する前記それぞれの学習用フレームに対応する学習用エクスプラネーションを生成させ、前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとがセルフフォーカスされたアテンションモジュールに入力されることで、前記セルフフォーカスされたアテンションモジュールをもって前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとを分析し、行動予測のために集中されなければならない領域をアテンションした前記それぞれの学習用フレームに対応する学習用アテンションマップを出力させ、前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解を参照したエクスプラネーションロスと、前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照したアテンションロスと、をそれぞれ最小化するように前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとが学習された状態であることを特徴とするコンピューティング装置が提供される。
【0029】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の前記(II)プロセスで、前記行動予測装置は、前記エクスプレーニングモジュールをもって、オートエンコーダのエンコーダを前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴の次元を縮小した前記それぞれのフレームに対応するレイテント特徴を生成させ、前記オートエンコーダのデコーダを通じて前記それぞれのフレームに対応する前記レイテント特徴を再構成し、行動予測に影響を与える要素をアテンションした前記それぞれのフレームに対応するエクスプラネーションを生成させるコンピューティング装置が提供される。
【0030】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の前記(III)プロセスで、前記行動予測装置は、前記視覚化モジュールをもって、前記行動予測結果と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体を前記それぞれのイメージからアテンションして出力させるコンピューティング装置が提供される。
【0031】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の前記(II)プロセスにおいて、前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記オートエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴をラーニング演算して前記それぞれのフレームに対応するセマンティックセグメンテーションイメージを生成させた後、インスタンスワイズアテンションを通じて前記行動予測に影響を与える要素を表示した前記それぞれのフレームに対応するエクスプラネーションイメージを生成させるコンピューティング装置が提供される。
【0032】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の前記(II)プロセスで、前記行動予測装置は、前記エクスプレーニングモジュールをもって、前記それぞれのフレームに対応する前記メタデータをラーニング演算して前記それぞれのフレームに対応するイメージにおける全ての物体に関する前記メタデータを基盤に決定木を生成させるコンピューティング装置が提供される。
【0033】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の前記(III)プロセスで、前記行動予測装置は、前記視覚化モジュールをもって、前記決定木と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体に対する状態情報を出力させるコンピューティング装置が提供される。
【0034】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置の(I)段階で、前記行動予測装置は、前記それぞれのフレームに対応する前記イメージと前記センシング情報とを前記メタデータ認識モジュールに入力することで、前記メタデータ認識モジュールをもって、パーセプションモジュールを通じて前記デバイスの周辺環境情報を検出させ、ローカリゼーション及びマッピングモジュールを通じて前記デバイスの測位情報を検出させるコンピューティング装置が提供される。
【0035】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置において、前記それぞれのフレームに対応する前記メタデータは、少なくとも前記物体に対応する物体バウンディングボックス、前記デバイスのポーズ情報、及び前記デバイスが位置する領域に対応するマップ情報を含む装置が提供される。
【0036】
また、本発明の一実施例によると、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置において、前記行動予測モジュールは、LSTM(Long Short-Term Memory)アルゴリズム及びLSTM-GAN(Generative Adversarial Network)アルゴリズムのうち少なくとも一つから構成されるRNN(Recurrent Neural Network)を含むコンピューティング装置が提供される。
【0037】
その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。
【発明の効果】
【0038】
本発明は、行動予測ネットワークの予測に影響を与える要素を理解することができるようにすることができる。
【0039】
本発明は、行動予測ネットワークで特定の物体の行動を予測する際、注目すべき領域を認知することができるようにすることができる。
【0040】
本発明は、行動予測ネットワークの予測に影響を与える要素を通じて効率的に行動予測ネットワークの性能を向上させることができる。
【図面の簡単な説明】
【0041】
本発明の実施例の説明に利用されるために添付された以下の図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
【0042】
【
図1】
図1は、従来の行動予測装置のブロック図を簡略に示した図面である。
【
図2】
図2は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置を簡略に示した図面である。
【
図3】
図3は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置のブロック図を簡略に示した図面である。
【
図4】
図4は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法によって行動予測のためのエクスプラネーションを生成する一例を簡略に示した図面である。
【
図5】
図5は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法によって行動予測のためのエクスプラネーションを生成する他の例を簡略に示した図面である。
【
図6a】
図6aは、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法によって行動予測のためのセルフフォーカスされたアテンションを生成する過程を簡略に示した図面である。
【
図6b】
図6bは、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法によって行動予測のためのセルフフォーカスされたアテンションを生成する過程を簡略に示した図面である。
【
図7】
図7は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法によって行動予測のためのエクスプラネーションを視覚化する状態を簡略に示した図面であり、
【
図8】
図8は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する行動予測装置でエクスプレーニングモジュールとセルフフォーカスされたアテンションモジュールとを学習する状態を簡略に示した図面である。
【発明を実施するための形態】
【0043】
後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。
【0044】
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
【0045】
さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
【0046】
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。
【0047】
図2は、本発明の一実施例において、エクスプレイナブルセルフフォーカスされたアテンション(explainable self-focused attention)を利用して行動予測(behavior prediction)を遂行する行動予測装置を簡略に示した図面であり、
図2を参照すると、行動予測装置1000はエクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行するための各インストラクションが格納されたメモリ1001と、メモリ1001に格納された各インストラクションに応じてエクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を行うための動作を遂行するプロセッサ1002とを含むことができる。
【0048】
具体的に、行動予測装置1000は、典型的にコンピューティング装置(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)及びコンピュータソフトウェア(即ち、コンピューティング装置をもって特定の方式で機能させる各インストラクション)の組合せを利用して所望のシステム性能を達成するものであり得る。
【0049】
また、コンピューティング装置のプロセッサはMPU(Micro Processing Unit)またはCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェア構成を含むことができる。また、コンピューティング装置はオペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むことができる。
【0050】
しかし、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ及びメモリが統合された形態である統合プロセッサを含む場合を排除するわけではない。
【0051】
また、
図3を参照すると、前記行動予測装置1000は、映像及びセンシング情報獲得モジュール100、メタデータ認識モジュール200、特徴エンコーディングモジュール300、行動予測モジュール400、出力モジュール500、エクスプレーニングモジュール600、セルフフォーカスされたアテンションモジュール700及び視覚化モジュール800を含むことができる。
【0052】
このように構成された前記行動予測装置1000がエクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する過程を説明すると以下の通りである。下記では周辺の物体に対する行動を予測するデバイスについて自律走行自動車を中心に説明するが、本発明がこれに限定されるわけではなく、自律運航飛行体、自律動作ロボット、モバイルデバイスなどにおいても同一に適用され得る。
【0053】
図3を参照すると、前記行動予測装置1000は、デバイスに取り付けられたカメラで撮像される映像と前記デバイスに取り付けられたセンサによりセンシングされるセンシング情報とを獲得することができる。
【0054】
この際、前記行動予測装置1000は映像及びセンシング情報獲得モジュール100を通じて自律走行自動車の走行中にカメラで撮像される映像と自律走行自動車のセンサによりセンシングされるセンシング情報とを獲得することができる。
【0055】
一方、前記ではカメラを通じて映像を獲得することを説明したが、本発明がこれに限定されるわけではなく、ライダ、レーダなどを利用して獲得するか、センサ融合技術を通じて獲得することができる。また、獲得される映像はデバイスで特定の視野角範囲に該当する領域の環境情報を含むか、デバイス周辺全体の環境情報を含むことができる。
【0056】
次に、前記映像と前記センシング情報とが獲得されると、前記行動予測装置1000は、前記映像におけるそれぞれのフレームに対応するイメージと前記それぞれのフレームに対応する前記センシング情報とをメタデータ認識モジュール200に入力することで、前記メタデータ認識モジュール200をもって前記それぞれのフレームに対応する前記イメージと前記センシング情報とをそれぞれラーニング演算して前記それぞれのフレームに対応するメタデータを出力させることができる。
【0057】
具体的に、前記行動予測装置1000は、前記それぞれのフレームに対応する前記イメージと前記センシング情報とを前記メタデータ認識モジュール200に入力することで、前記メタデータ認識モジュール200をもって、パーセプション(perception)モジュールを通じて前記デバイスの周辺環境情報を検出させ、ローカリゼーション及びマッピング(localization and mapping)モジュールを通じて前記デバイスの測位情報を検出させることができる。
【0058】
そして、パーセプションモジュールは、ディープラーニング基盤の物体検出ネットワーク、ディープラーニング基盤のセグメンテーションネットワークなどを含むことができ、メタデータ認識モジュール200は、ディープラーニング基盤に映像イメージを分析した結果とセンシング情報とを利用してそれぞれのフレームに対応するメタデータを生成することができる。
【0059】
また、前記それぞれのフレームに対応する前記メタデータは、少なくとも前記物体に対応する物体バウンディングボックス、前記デバイスのポーズ情報、トラフィックライト(traffic light)、トラフィックサイン(traffic sign)及び前記デバイスが位置する領域に対応するマップ情報を含むことができるが、これに限定されるわけではなく、行動予測のための様々な情報を含むことができる。
【0060】
次に、前記行動予測装置1000は、前記それぞれのフレームに対応する前記メタデータを特徴エンコーディングモジュール300に入力することで、前記特徴エンコーディングモジュール300をもって前記それぞれのフレームに対応する前記メタデータのそれぞれをエンコーディングして行動予測のための前記それぞれのフレームに対応する特徴を出力させることができる。
【0061】
次に、前記行動予測装置1000が、前記それぞれのフレームに対応する前記イメージ、前記メタデータ及び前記特徴を前記エクスプレーニングモジュール600に入力することで、前記エクスプレーニングモジュール600をもって前記それぞれのフレームにおける行動予測に影響を与える要素に対する前記それぞれのフレームに対応するエクスプラネーション(explanation)を生成させる。
【0062】
具体的に、
図4を参照すると、前記行動予測装置100は、前記エクスプレーニングモジュール600をもって、オートエンコーダのエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴の次元を縮小した前記それぞれのフレームに対応するレイテント(latent)特徴を生成させ、前記オートエンコーダのデコーダを通じて前記それぞれのフレームに対応する前記レイテント特徴を再構成(reconstruction)して行動予測に影響を与える要素をアテンションした前記それぞれのフレームに対応するエクスプラネーションを生成させる。
【0063】
即ち、行動予測装置1000は、前記エクスプレーニングモジュール600をもって、オートエンコーダを通じて前記それぞれのフレームに対応するイメージ、前記メタデータ及び前記特徴をラーニング演算して前記それぞれのフレームに対応するセマンティックセグメンテーションイメージを生成させた後、インスタンスワイズ(instance-wise)アテンションを通じて前記行動予測に影響を与える要素を表示した前記それぞれのフレームに対応するエクスプラネーションイメージを生成させることができる。
【0064】
また、
図5を参照すると、前記行動予測装置1000は、前記エクスプレーニングモジュール600をもって、前記それぞれのフレームに対応する前記メタデータをラーニング演算して前記それぞれのフレームに対応するイメージにおける全ての物体に関する前記メタデータを基盤に決定木(decision tree)を生成させる。
【0065】
一例として、一つの物体を「cat」として認識した場合、前記エクスプレーニングモジュール600は、物体を「cat」として認識した要素、即ち、色、形などの認識結果を決定木(decision tree)として生成することによって、使用者が決定木(decision tree)を参照してラーニングネットワークが物体を「cat」として認識した過程を理解することができるだけでなく、ラーニングネットワークが認識過程でエラーを生成した原因を容易に確認することができる。
【0066】
次に、再び
図3を参照すると、行動予測装置1000は、前記それぞれのフレームに対応する前記イメージと前記メタデータとをセルフフォーカスされたアテンションモジュール700に入力することで、前記セルフフォーカスされたアテンションモジュール700をもってラーニング演算を通じて前記それぞれのフレームに対応する前記イメージのそれぞれにおいて行動予測のために集中されなければならないそれぞれの物体に対する領域をアテンションした前記それぞれのフレームに対応するアテンションマップを出力させる。
【0067】
一例として、
図6a及び
図6bを参照すると、自律走行自動車の走行中に獲得したカメラにより獲得されたそれぞれのフレームに対応する映像イメージとメタデータとをディープラーニング基盤に分析した結果、
図6aのように歩行者の動きによってバスが待機している状態の場合には歩行者をアテンションすることができ、
図6bのようにバスが動き始めて歩行者が待機している状態の場合にはバスをアテンションすることができる。
【0068】
次に、前記行動予測装置1000は、前記それぞれのフレームに対応する前記特徴と前記アテンションマップとを行動予測モジュール400に入力することで、前記行動予測モジュール400をもって前記それぞれのフレームに対応する前記特徴と前記アテンションマップとをラーニング演算を通じて分析し、前記それぞれの物体に対する行動を予測した行動予測結果を生成させる。
【0069】
一方、前記行動予測装置1000は、映像イメージにおける全ての物体に対する軌跡(trajectory)を予測することとは別に、アテンションマップによりアテンションされた物体に対してのみ軌跡を予測することもできる。
【0070】
この際、前記行動予測モジュール400は、LSTM(Long Short-Term Memory)アルゴリズム及びLSTM-GAN(Generative Adversarial Network)アルゴリズムのうち少なくとも一つから構成されるRNN(Recurrent Neural Network)を含むことができる。
【0071】
次に、前記行動予測装置1000は、前記出力モジュール500を通じて前記行動予測結果に対応する前記物体の行動を出力する。これと同時に、視覚化モジュール800を通じて前記行動結果と前記エクスプラネーションとを参照して行動予測に影響を与える要素を視覚化して出力する。
【0072】
具体的に、前記行動予測装置1000は、前記視覚化モジュール800をもって、前記行動予測結果と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体を前記それぞれのイメージからアテンションして出力させる。
【0073】
また、前記行動予測装置1000は、前記視覚化モジュール800をもって、前記決定木と前記エクスプラネーションとを参照して前記それぞれのフレームにおいて行動予測に影響を与える少なくとも一つのターゲット物体に対する状態情報を出力させる。
【0074】
一例として、
図7を参照すると、視覚化モジュール800は、決定木によるエクスプラネーションに応じて「歩行者」及び「ターゲット自動車」の状態を視覚的に表示するか、「歩行者」及び「ターゲット自動車」に対するアテンションマップを視覚化して出力することができる。
【0075】
一方、前記行動予測装置1000の前記エクスプレーニングモジュール600と前記セルフフォーカスされたアテンションモジュール700とは、学習装置により学習された状態であり得る。
【0076】
即ち、
図8を参照すると、学習装置200により、それぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とが前記メタデータ認識モジュール200に入力されることで、前記メタデータ認識モジュール200により前記それぞれの学習用フレームに対応する学習用メタデータが出力され、前記それぞれの学習用フレームに対応する前記学習用メタデータが前記特徴エンコーディングモジュール300に入力されることで、前記特徴エンコーディングモジュール300により前記それぞれの学習用フレームに対応する前記学習用メタデータがエンコーディングされて行動予測のための前記それぞれの学習用フレームに対応する学習用特徴が出力され、前記それぞれの学習用フレームに対応する前記学習用イメージ、前記学習用メタデータ及び前記学習用特徴が前記エクスプレーニングモジュール600に入力されることで、前記エクスプレーニングモジュール600により前記それぞれの学習用フレームにおける行動予測に影響を与える要素に対する前記それぞれの学習用フレームに対応する学習用エクスプラネーションが生成され、前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとが前記セルフフォーカスされたアテンションモジュールに入力されることで、前記セルフフォーカスされたアテンションモジュールにより前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとが分析され、行動予測のために集中されなければならない領域がアテンションされた前記それぞれの学習用フレームに対応する学習用アテンションマップが出力され、前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解(ground truth)を参照したエクスプラネーションロスと、前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照したアテンションロスと、をそれぞれ最小化するように前記エクスプレーニングモジュールと前記セルフフォーカスされたアテンションモジュールとが学習された状態であり得る。
【0077】
この際、学習装置2000は、前記行動予測装置1000の前記エクスプレーニングモジュール600と前記セルフフォーカスされたアテンションモジュール700とを学習させるための各インストラクションが格納されたメモリと、メモリに格納された各インストラクションに応じて行動予測装置1000の前記エクスプレーニングモジュール600と前記セルフフォーカスされたアテンションモジュール700とを学習させるための動作を遂行するプロセッサと、を含むことができる。
【0078】
具体的に、学習装置2000は、典型的にコンピューティング装置(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)及びコンピュータソフトウェア(即ち、コンピューティング装置をもって特定の方式で機能させる各インストラクション)の組合せを利用して所望のシステム性能を達成するものであり得る。
【0079】
また、コンピューティング装置のプロセッサはMPU(Micro Processing Unit)またはCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェア構成を含むことができる。また、コンピューティング装置はオペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むことができる。
【0080】
しかし、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ及びメモリが統合された形態である統合プロセッサを含む場合を排除するわけではない。
【0081】
以下ではこのように構成された学習装置2000を利用して前記行動予測装置1000の前記エクスプレーニングモジュール600と前記セルフフォーカスされたアテンションモジュール700とを学習させる方法を
図8を参照してより詳細に説明すると以下の通りである。以下の説明では
図3の説明から容易に理解可能な部分に対しては詳細な説明を省略する。
【0082】
まず、学習装置2000は、前記映像及びセンシング情報獲得モジュール100を通じて獲得される映像及びセンシング情報に対応するそれぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とを獲得することができる。
【0083】
そして、前記学習装置2000は、それぞれの学習用フレームに対応する学習用イメージと前記それぞれの学習用フレームに対応する学習用センシング情報とを前記メタデータ認識モジュール200に入力することで、前記メタデータ認識モジュール200をもって前記それぞれの学習用フレームに対応する学習用メタデータを出力させることができる。
【0084】
以後、学習装置2000は、それぞれの学習用フレームに対応する前記学習用メタデータを前記特徴エンコーディングモジュール300に入力することで、前記特徴エンコーディングモジュール300をもって前記それぞれの学習用フレームに対応する前記学習用メタデータをエンコーディングして行動予測のための前記それぞれの学習用フレームに対応する学習用特徴を出力させることができる。
【0085】
次に、学習装置2000は、前記それぞれの学習用フレームに対応する前記学習用イメージ、前記学習用メタデータ及び前記学習用特徴を前記エクスプレーニングモジュール600に入力することで、前記エクスプレーニングモジュール600をもって前記それぞれの学習用フレームにおける行動予測に影響を与える要素に対する前記それぞれの学習用フレームに対応する学習用エクスプラネーションを生成させることができる。
【0086】
次に、学習装置2000は、前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとを前記セルフフォーカスされたアテンションモジュール700に入力することで、前記セルフフォーカスされたアテンションモジュール700をもって前記それぞれの学習用フレームに対応する前記学習用エクスプラネーションと前記学習用メタデータとを分析し、行動予測のために集中されなければならない領域をアテンションした前記それぞれの学習用フレームに対応する学習用アテンションマップを出力させることができる。
【0087】
以後、学習装置2000は、前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解を参照したエクスプラネーションロスと、前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照したアテンションロスと、をそれぞれ最小化するように前記エクスプレーニングモジュール600と前記セルフフォーカスされたアテンションモジュール700をそれぞれ学習させることができる。この際、学習装置2000は第1ロスレイヤ910をもって前記学習用エクスプラネーション及びこれに対応するエクスプラネーション原本正解を参照してエクスプラネーションロスを生成させることができ、第2ロスレイヤ920をもって前記学習用アテンションマップ及びこれに対応するアテンション原本正解を参照してアテンションロスを生成させることができる。
【0088】
一方、前記では学習用イメージとこれに対応する前記学習用センシング情報とを利用して前記エクスプレーニングモジュール600と前記セルフフォーカスされたアテンションモジュール700とを学習させるものとして説明したが、これとは異なり、前記学習用イメージとこれに対応する前記学習用センシング情報、前記学習用メタデータ及び前記学習用特徴を一つの学習データとして生成し、生成された学習データを利用して前記エクスプレーニングモジュール600と前記セルフフォーカスされたアテンションモジュール700とを学習させることもできる。
【0089】
また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカル・ディスク(Floptical Disk)のような磁気-光メディア(Magneto-Optical Media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
【0090】
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。
【0091】
従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。
【符号の説明】
【0092】
1000:行動予測装置
1001:メモリ
1002:プロセッサ
2000:学習装置