特許第6982897号(P6982897)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ストラッドビジョンの特許一覧

特許6982897ライダ、レーダ及びカメラセンサのデータを使用する強化学習に基づく自律走行時の最適化されたリソース割当てのための方法及び装置
<>
  • 特許6982897-ライダ、レーダ及びカメラセンサのデータを使用する強化学習に基づく自律走行時の最適化されたリソース割当てのための方法及び装置 図000002
  • 特許6982897-ライダ、レーダ及びカメラセンサのデータを使用する強化学習に基づく自律走行時の最適化されたリソース割当てのための方法及び装置 図000003
  • 特許6982897-ライダ、レーダ及びカメラセンサのデータを使用する強化学習に基づく自律走行時の最適化されたリソース割当てのための方法及び装置 図000004
  • 特許6982897-ライダ、レーダ及びカメラセンサのデータを使用する強化学習に基づく自律走行時の最適化されたリソース割当てのための方法及び装置 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6982897
(24)【登録日】2021年11月25日
(45)【発行日】2021年12月17日
(54)【発明の名称】ライダ、レーダ及びカメラセンサのデータを使用する強化学習に基づく自律走行時の最適化されたリソース割当てのための方法及び装置
(51)【国際特許分類】
   B60W 30/095 20120101AFI20211206BHJP
   G06T 7/00 20170101ALI20211206BHJP
   G08G 1/16 20060101ALI20211206BHJP
   B60W 40/04 20060101ALI20211206BHJP
   G06N 3/08 20060101ALI20211206BHJP
   B60W 60/00 20200101ALI20211206BHJP
【FI】
   B60W30/095
   G06T7/00 650B
   G08G1/16 C
   B60W40/04
   G06N3/08
   B60W60/00
【請求項の数】16
【全頁数】16
(21)【出願番号】特願2020-4217(P2020-4217)
(22)【出願日】2020年1月15日
(65)【公開番号】特開2020-125102(P2020-125102A)
(43)【公開日】2020年8月20日
【審査請求日】2020年1月15日
(31)【優先権主張番号】16/263511
(32)【優先日】2019年1月31日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】517038176
【氏名又は名称】株式会社ストラドビジョン
(74)【代理人】
【識別番号】110000039
【氏名又は名称】特許業務法人アイ・ピー・ウィン
(74)【復代理人】
【識別番号】100120628
【弁理士】
【氏名又は名称】岩田 慎一
(72)【発明者】
【氏名】金桂賢
(72)【発明者】
【氏名】金鎔重
(72)【発明者】
【氏名】金寅洙
(72)【発明者】
【氏名】金鶴京
(72)【発明者】
【氏名】南雲鉉
(72)【発明者】
【氏名】夫碩▲くん▼
(72)【発明者】
【氏名】成明哲
(72)【発明者】
【氏名】呂東勳
(72)【発明者】
【氏名】柳宇宙
(72)【発明者】
【氏名】張泰雄
(72)【発明者】
【氏名】鄭景中
(72)【発明者】
【氏名】諸泓模
(72)【発明者】
【氏名】趙浩辰
【審査官】 佐々木 佳祐
(56)【参考文献】
【文献】 特開2018−198012(JP,A)
【文献】 特開2011−039864(JP,A)
【文献】 特開2015−221648(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
B60W 10/00−10/30
B60W 30/00−60/00
G08G 1/00−99/00
G06T 7/00
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
強化学習により自律走行時リソースの割当てを遂行する方法において、
(a)コンピューティング装置が、少なくとも1つのアテンションセンサデータを取得すると、アテンションネットワークをもって、前記アテンションセンサデータを参照して少なくとも1つのニューラルネットワーク演算を遂行することにより1つ以上のアテンションスコアを計算させる段階;
(b)前記コンピューティング装置が、検出ネットワークをもって、前記アテンションスコアを参照して自律走行車両に設置された一つ以上のカメラのうち少なくとも一部により取得された少なくとも一つのビデオデータを取得させ、前記ビデオデータを参照して少なくとも一つの自律走行用判断データを生成させる段階;
(c)前記コンピューティング装置が、ドライブネットワークをもって、前記判断データを参照して前記自律走行車両を運行させ、運行中である前記自律走行車両の周辺状況の変化を示す少なくとも一つの状況データを取得させ、前記状況データを参照して、前記自律走行車両が安全に走行しているか否かを判断するための値である少なくとも一つのリワードを生成させる段階;
(d)前記コンピューティング装置が、前記アテンションネットワークをもって、前記リワードを参照して前記ニューラルネットワーク演算に使用される一つ以上のパラメータの少なくとも一部を調整させる段階;
を含むことを特徴とする方法。
【請求項2】
前記(a)段階は、
前記ニューラルネットワーク演算は、前記アテンションセンサデータが入力される少なくとも1つのコンボリューションレイヤにおける演算と、前記コンボリューションレイヤの演算結果が入力される少なくとも1つのプーリングレイヤにおける演算と、前記プーリングレイヤの演算結果が入力される少なくとも1つのFCレイヤにおける演算と、前記FCレイヤの演算結果を入力して前記アテンションスコア出力する少なくとも1つのソフトマックスレイヤにおける演算を含み、前記自律走行車両近傍の空間に含まれた各角度の範囲ごとに少なくとも1つの走行危険レベルを決定させることを特徴とする請求項1に記載の方法。
【請求項3】
前記(b)段階は、
前記コンピューティング装置が、前記検出ネットワークをもって、第1閾値以上の前記アテンションスコアを有する特定の角度範囲に対応する、前記自律走行車両に設置された特定カメラの特定ビデオデータを取得させることを特徴とする請求項1に記載の方法。
【請求項4】
前記(b)段階は、
前記コンピューティング装置が、前記検出ネットワークをもって、少なくとも一つの領域が少なくとも一つのROIとして設定された前記ビデオデータを使用することで前記判断データを生成させ、前記領域は第1閾値以上のアテンションスコアを有する特定の角度範囲に対応する領域であることを特徴とする請求項1に記載の方法。
【請求項5】
前記(c)段階は、
前記状況データは、(i)前記自律走行車両から所定の距離以内の少なくとも1つの隣接した周辺車両の少なくとも1つの車両警笛が使用中であるかに関する情報、(ii)前記少なくとも1つの隣接した周辺車両の速力変化情報、(iii)前記自律走行車両と前記隣接した周辺車両との少なくとも1つの事故情報のうち少なくとも一部を含むことを特徴とする請求項1に記載の方法。
【請求項6】
前記(a)段階は、
前記アテンションセンサデータはレーダを使用して取得されるか、ライダを使用して取得されるか、両方を使用して取得され、
前記ライダを使用するか又は前記レーダ及び前記ライダをいずれも使用して前記アテンションセンサデータが取得された場合、前記コンピューティング装置が、前記アテンションネットワークをもって、前記アテンションセンサデータに含まれた各3次元座標を参照して少なくとも一つの希薄デプスイメージ(sparse depth image)を生成させ、前記希薄デプスイメージに少なくとも一つのスムージング(smoothing)演算を適用させて少なくとも一つの高密度デプスイメージ(dense depth image)を生成させ、前記高密度デプスイメージを参照して前記ニューラルネットワーク演算を遂行することで前記アテンションスコアを計算させることを特徴とする請求項1に記載の方法。
【請求項7】
前記自律走行車両は仮想空間で具現されるようにし、前記仮想空間で前記自律走行車両が運行される過程を通じて前記パラメータの少なくとも一部が調整されることを特徴とする請求項1に記載の方法。
【請求項8】
前記仮想空間は、(i)前記自律走行車両から所定の距離以内の周辺車両が第1臨界時間内に前記自律走行車両と衝突する可能性があるものと検出されると、前記仮想空間にある少なくとも一つの前記周辺車両が警笛を鳴らすようにプログラミングされ、(ii)前記周辺車両が第2臨界時間内に前記自律走行車両と衝突する可能性があるものと検出されると、前記周辺車両の速力を落とすようにプログラミングされ、前記第1臨界時間は前記第2臨界時間に比べて大きいか、同じであることを特徴とする請求項7に記載の方法。
【請求項9】
強化学習により自律走行時リソースの割当てを遂行するコンピューティング装置において、
各インストラクションを格納する少なくとも一つのメモリと、
(I)アテンションネットワークをもって、少なくとも一つのアテンションセンサデータを参照して少なくとも一つのニューラルネットワーク演算を遂行することにより一つ以上のアテンションスコアを計算させるプロセス;(II)検出ネットワークをもって、前記アテンションスコアを参照して、自律走行車両に設置された一つ以上のカメラのうち少なくとも一部によって取得された少なくとも一つのビデオデータを取得させ、前記ビデオデータを参照して少なくとも一つの自律走行用判断データを生成させるプロセス;(III)ドライブネットワークをもって、前記判断データを参照して前記自律走行車両を運行させ、運行中である前記自律走行車両の周辺状況の変化を示す少なくとも一つの状況データを取得させ、前記状況データを参照して、前記自律走行車両が安全に走行しているか否かを判断するための値である少なくとも一つのリワードを生成させるプロセス;(IV)前記アテンションネットワークをもって、前記リワードを参照して前記ニューラルネットワーク演算に使用される一つ以上のパラメータの少なくとも一部を調整させるプロセス;を遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするコンピューティング装置。
【請求項10】
前記(I)プロセスで、
前記ニューラルネットワーク演算は、前記アテンションセンサデータが入力される少なくとも1つのコンボリューションレイヤにおける演算と、前記コンボリューションレイヤの演算結果が入力される少なくとも1つのプーリングレイヤにおける演算と、前記プーリングレイヤの演算結果が入力される少なくとも1つのFCレイヤにおける演算と、前記FCレイヤの演算結果を入力して前記アテンションスコア出力する少なくとも1つのソフトマックスレイヤにおける演算を含み、前記自律走行車両近傍の空間に含まれた各角度の範囲ごとに少なくとも1つの走行危険レベルを決定させることを特徴とする請求項に記載のコンピューティング装置。
【請求項11】
前記(II)プロセスで、
前記プロセッサが、前記検出ネットワークをもって、第1閾値以上の前記アテンションスコアを有する特定の角度範囲に対応する、前記自律走行車両に設置された特定カメラの特定ビデオデータを取得させることを特徴とする請求項に記載のコンピューティング装置。
【請求項12】
前記(II)プロセスで、
前記プロセッサが、前記検出ネットワークをもって、少なくとも一つの領域が少なくとも一つのROIとして設定された前記ビデオデータを使用することで前記判断データを生成させ、前記領域は第1閾値以上のアテンションスコアを有する特定の角度範囲に対応する領域であることを特徴とする請求項に記載のコンピューティング装置。
【請求項13】
前記(III)プロセスで、
前記状況データは、(i)前記自律走行車両から所定の距離以内の少なくとも1つの隣接した周辺車両の少なくとも1つの車両警笛が使用中であるかに関する情報、(ii)前記少なくとも1つの隣接した周辺車両の速力変化情報、(iii)前記自律走行車両と前記隣接した周辺車両との少なくとも1つの事故情報のうち少なくとも一部を含むことを特徴とする請求項に記載のコンピューティング装置。
【請求項14】
前記(I)プロセスで、
前記アテンションセンサデータはレーダを使用して取得されるか、ライダを使用して取得されるか、両方を使用して取得され、
前記ライダを使用するか又は前記レーダ及び前記ライダをいずれも使用して前記アテンションセンサデータが取得された場合、前記プロセッサが、前記アテンションネットワークをもって、前記アテンションセンサデータに含まれた各3次元座標を参照して少なくとも一つの希薄デプスイメージ(sparse depth image)を生成させ、前記希薄デプスイメージに少なくとも一つのスムージング(smoothing)演算を適用させて少なくとも一つの高密度デプスイメージ(dense depth image)を生成させ、前記高密度デプスイメージを参照して前記ニューラルネットワーク演算を遂行することで前記アテンションスコアを計算させることを特徴とする請求項に記載のコンピューティング装置。
【請求項15】
前記自律走行車両は仮想空間で具現されるようにし、前記仮想空間で前記自律走行車両が運行される過程を通じて前記パラメータの少なくとも一部が調整されることを特徴とする請求項に記載のコンピューティング装置。
【請求項16】
前記仮想空間は、(i)前記自律走行車両から所定の距離以内の周辺車両が第1臨界時間内に前記自律走行車両と衝突する可能性があるものと検出されると、前記仮想空間にある少なくとも一つの前記周辺車両が警笛を鳴らすようにプログラミングされ、(ii)前記周辺車両が第2臨界時間内に前記自律走行車両と衝突する可能性があるものと検出されると、前記周辺車両の速力を落とすようにプログラミングされ、前記第1臨界時間は前記第2臨界時間に比べて大きいか、同じであることを特徴とする請求項15に記載のコンピューティング装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自律走行車両に使用するための方法及び装置に関し、より詳しくは、強化学習による自律走行時に効率的にリソースの割当てを遂行する方法に関する。
【背景技術】
【0002】
自律走行システムは電力消耗が大きいため、電力を節約することが重要である。自律走行システムをなす構成要素のうち一つであるカメラは、その電力消耗が大きいが、特定の場合、すなわち閑散とした高速道路を走っていて周辺に障害物が存在しない場合又は特定の方向には障害物が存在しない場合、少数のカメラのみが必要となる。このような場合にすべてのカメラを動作させると、多くの電力が浪費する大きな問題がある。
【0003】
したがって、このような電力浪費を減らし、電力のようなリソースを効率的に分配し得る技術が必要となるが、CNN(ConvolutionalNeuralNetwork)でこれを具現しようとすると、このような状況の原本正解を容易に定義することができず、従ってロスを明確に定義することが難しいことから学習が困難である。したがって、原本正解を必要としないディープラーニング方法のうち一つである強化学習が活用され得る。しかし、強化学習を通じてこのような機能を学習させようとすると、実際にモジュールを作動させながら学習しなければならない。例えば、自律走行の場合、強化学習を遂行するために車両が実際に走行しなければならないということである。ところが、実際に車両を走行しながら学習する場合、車両事故が発生する可能性が高い。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、前述した問題点を解決することを目的とする。
【0005】
本発明は、強化学習による自律走行時に効率的にリソースの割当てを行って、自律走行車両の電力消耗を減らすことを目的とする。
【0006】
本発明は、自律走行車両が強化学習によりリソースの割当てを最適化する仮想空間を提供することにより、学習過程における潜在的な危険要素を減らすことを目的とする。
【課題を解決するための手段】
【0007】
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下の通りである。
【0008】
本発明の一態様によると、強化学習により自律走行時に効率的にリソースの割当てを遂行する方法において、(a)コンピューティング装置が、少なくとも1つのアテンションセンサデータを取得すると、アテンションネットワークをもって、前記アテンションセンサデータを参照して少なくとも1つのニューラルネットワーク演算を遂行することにより1つ以上のアテンションスコアを計算させる段階;(b)前記コンピューティング装置が、検出ネットワークをもって、前記アテンションスコアを参照して自律走行車両に設置された一つ以上のカメラのうち少なくとも一部により取得された少なくとも一つのビデオデータを取得させ、前記ビデオデータを参照して少なくとも一つの自律走行用判断データを生成させる段階;(c)前記コンピューティング装置が、ドライブネットワークをもって、前記判断データを参照して前記自律走行車両を運行させ、運行中である前記自律走行車両の周辺状況の変化を示す少なくとも一つの状況データを取得させ、前記状況データを参照して少なくとも一つのリワードを生成させる段階;(d)前記コンピューティング装置が、前記アテンションネットワークをもって、前記リワードを参照して前記ニューラルネットワーク演算に使用される一つ以上のパラメータの少なくとも一部を調整させる段階;を含むことを特徴とする方法が提供される。
【0009】
一実施例において、前記(a)段階は、前記ニューラルネットワーク演算は、前記アテンションセンサデータが入力される少なくとも1つのコンボリューションレイヤと、少なくとも1つのプーリングレイヤと、少なくとも1つのFCレイヤと、前記アテンションスコアが出力される少なくとも1つのソフトマックスレイヤとの演算を含み、前記自律走行車両近傍の空間に含まれた各角度の範囲ごとに少なくとも1つの走行危険レベルを決定させることを特徴とする方法が提供される。
【0010】
一実施例において、前記(b)段階は、前記コンピューティング装置が、前記検出ネットワークをもって、第1閾値以上の前記アテンションスコアを有する特定の角度範囲に対応する、前記自律走行車両に設置された特定カメラの特定ビデオデータを取得させることを特徴とする方法が提供される。
【0011】
一実施例において、前記(b)段階は、前記コンピューティング装置が、前記検出ネットワークをもって、少なくとも一つの領域が少なくとも一つのROIとして設定された前記ビデオデータを使用することで前記判断データを生成させ、前記領域は第1閾値以上のアテンションスコアを有する特定の角度範囲に対応する領域であることを特徴とする方法が提供される。
【0012】
一実施例において、前記(c)段階は、前記状況データは、(i)前記自律走行車両から所定の距離以内の少なくとも1つの隣接した周辺車両の少なくとも1つの車両警笛が使用中であるかに関する情報、(ii)前記少なくとも1つの隣接した周辺車両の速力変化情報、(iii)前記自律走行車両と前記隣接した周辺車両との少なくとも1つの事故情報のうち少なくとも一部を含むことを特徴とする方法が提供される。
【0013】
一実施例において、前記(a)段階は、前記アテンションセンサデータはレーダを使用して取得されるか、ライダを使用して取得されるか、両方を使用して取得され、前記ライダを使用するか又は前記レーダ及び前記ライダをいずれも使用して前記アテンションセンサデータが取得された場合、前記コンピューティング装置が、前記アテンションネットワークをもって、前記アテンションセンサデータに含まれた各3次元座標を参照して少なくとも一つの希薄デプスイメージ(sparse depth image)を生成させ、前記希薄デプスイメージに少なくとも一つのスムージング(smoothing)演算を適用させて少なくとも一つの高密度デプスイメージ(dense depth image)を生成させ、前記高密度デプスイメージを参照して前記ニューラルネットワーク演算を遂行することで前記アテンションスコアを計算させることを特徴とする方法が提供される。
【0014】
一実施例において、前記自律走行車両は仮想空間で具現されるようにし、前記仮想空間で前記自律走行車両が運行される過程を通じて前記パラメータの少なくとも一部が調整されることを特徴とする方法が提供される。
【0015】
一実施例において、前記仮想空間で、前記自律走行車両から所定の距離以内に位置する一つ以上の仮想物体間の関係に関する情報を参照して前記アテンションセンサデータ、前記ビデオデータ、前記状況データが取得されるように前記アテンションセンサデータ、前記ビデオデータ、前記状況データの変形がプログラミングされていることを特徴とする方法が提供される。
【0016】
一実施例において、前記仮想空間は、(i)前記自律走行車両から所定の距離以内の周辺車両が第1臨界時間内に前記自律走行車両と衝突する可能性があるものと検出されると、前記仮想空間にある少なくとも一つの前記周辺車両が警笛を鳴らすようにプログラミングされ、(ii)前記周辺車両が第2臨界時間内に前記自律走行車両と衝突する可能性があるものと検出されると、前記周辺車両の速力を落とすようにプログラミングされ、前記第1臨界時間は前記第2臨界時間に比べて大きいか、同じであることを特徴とする方法が提供される。
【0017】
本発明の他の態様によると、強化学習により自律走行時に効率的にリソースの割当てを遂行するコンピューティング装置において、各インストラクションを格納する少なくとも一つのメモリと、(I)アテンションネットワークをもって、少なくとも一つのアテンションセンサデータを参照して少なくとも一つのニューラルネットワーク演算を遂行することにより一つ以上のアテンションスコアを計算させるプロセス;(II)検出ネットワークをもって、前記アテンションスコアを参照して、自律走行車両に設置された一つ以上のカメラのうち少なくとも一部によって取得された少なくとも一つのビデオデータを取得させ、前記ビデオデータを参照して少なくとも一つの自律走行用判断データを生成させるプロセス;(III)のドライブネットワークをもって、前記判断データを参照して前記自律走行車両を運行させ、運行中である前記自律走行車両の周辺状況の変化を示す少なくとも一つの状況データを取得させ、前記状況データを参照して少なくとも一つのリワードを生成させるプロセス;(IV)前記アテンションネットワークをもって、前記リワードを参照して前記ニューラルネットワーク演算に使用される一つ以上のパラメータの少なくとも一部を調整させるプロセス;を遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とするコンピューティング装置が提供される。
【0018】
一実施例において、前記(I)プロセスで、前記ニューラルネットワーク演算は、前記アテンションセンサデータが入力される少なくとも一つのコンボリューションレイヤと、少なくとも一つのプーリングレイヤと、少なくとも一つのFCレイヤと、前記アテンションスコアとが出力される少なくとも一つのソフトマックスレイヤの演算を含み、前記自律走行車両近傍の空間に含まれた各角度の範囲ごとに少なくとも一つの走行危険レベルを決定させることを特徴とするコンピューティング装置が提供される。
【0019】
一実施例において、前記(II)プロセスで、前記プロセッサが、前記検出ネットワークをもって、第1閾値以上の前記アテンションスコアを有する特定の角度範囲に対応する、前記自律走行車両に設置された特定カメラの特定ビデオデータを取得させることを特徴とするコンピューティング装置が提供される。
【0020】
一実施例において、前記(II)プロセスで、前記プロセッサが、前記検出ネットワークをもって、少なくとも一つの領域が少なくとも一つのROIとして設定された前記ビデオデータを使用することで前記判断データを生成させ、前記領域は第1閾値以上のアテンションスコアを有する特定の角度範囲に対応する領域であることを特徴とするコンピューティング装置が提供される。
【0021】
一実施例において、前記(III)プロセスで、前記状況データは、(i)前記自律走行車両から所定の距離以内の少なくとも1つの隣接した周辺車両の少なくとも1つの車両警笛が使用中であるかに関する情報、(ii)前記少なくとも1つの隣接した周辺車両の速力変化情報、(iii)前記自律走行車両と前記隣接した周辺車両との少なくとも1つの事故情報のうち少なくとも一部を含むことを特徴とするコンピューティング装置が提供される。
【0022】
一実施例において、前記(I)プロセスで、前記アテンションセンサデータはレーダを使用して取得されるか、ライダを使用して取得されるか、両方を使用して取得され、前記ライダを使用するか又は前記レーダ及び前記ライダをいずれも使用して前記アテンションセンサデータが取得された場合、前記プロセッサが、前記アテンションネットワークをもって、前記アテンションセンサデータに含まれた各3次元座標を参照して少なくとも一つの希薄デプスイメージ(sparse depth image)を生成させ、前記希薄デプスイメージに少なくとも一つのスムージング(smoothing)演算を適用させて少なくとも一つの高密度デプスイメージ(dense depth image)を生成させ、前記高密度デプスイメージを参照して前記ニューラルネットワーク演算を遂行することで前記アテンションスコアを計算させることを特徴とするコンピューティング装置が提供される。
【0023】
一実施例において、前記自律走行車両は仮想空間で具現されるようにし、前記仮想空間で前記自律走行車両が運行される過程を通じて前記パラメータの少なくとも一部が調整されることを特徴とするコンピューティング装置が提供される。
【0024】
一実施例において、前記仮想空間で、前記自律走行車両から所定の距離以内に位置する一つ以上の仮想物体間の関係に関する情報を参照して、前記アテンションセンサデータ、前記ビデオデータ、前記状況データが取得されるように前記アテンションセンサデータ、前記ビデオデータ、前記状況データの変形がプログラミングされていることを特徴とするコンピューティング装置が提供される。
【0025】
一実施例において、前記仮想空間は、(i)前記自律走行車両から所定の距離以内の周辺車両が第1臨界時間内に前記自律走行車両と衝突する可能性があるものと検出されると、前記仮想空間にある少なくとも一つの前記周辺車両が警笛を鳴らすようにプログラミングされ、(ii)前記周辺車両が第2臨界時間内に前記自律走行車両と衝突する可能性があるものと検出されると、前記周辺車両の速力を落とすようにプログラミングされ、前記第1臨界時間は前記第2臨界時間に比べて大きいか、同じであることを特徴とするコンピューティング装置が提供される。
【発明の効果】
【0026】
本発明は、強化学習により自律走行時に効率的にリソースの割当てを遂行する方法を提供することにより、自律走行車両の電力消耗を減らすことができる効果がある。
【0027】
本発明は、自律走行車両が強化学習によりリソースの割当てを最適化して仮想空間を提供することにより、学習過程における潜在的な危険要素を減らすことができる効果がある。
【図面の簡単な説明】
【0028】
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
【0029】
図1】本発明の一実施例にしたがって、強化学習による自律走行時の効率的なリソースの割当てを遂行するコンピューティング装置の構成を簡略に示した図面である。
図2】本発明の一実施例にしたがって、強化学習による自律走行時の効率的なリソースの割当てを遂行する過程を簡略に示した図面である。
図3】本発明の一実施例による効率的なリソースの割当てのために遂行されるニューラルネットワーク演算の一例を示した図面である。
図4】本発明の一実施例による効率的なリソースの割当てを遂行するために計算されたアテンションスコアの一例を示した図面である。
【発明を実施するための形態】
【0030】
後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
【0031】
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
【0032】
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
【0033】
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。
【0034】
図1は、本発明の一実施例にしたがって、強化学習による自律走行時の効率的なリソースの割当てを遂行するコンピューティング装置の構成を簡略に示した図面である。
【0035】
図1を参照すると、コンピューティング装置100は、アテンションネットワーク130と、検出ネットワーク140と、ドライブネットワーク150とを含み得る。アテンションネットワーク130、検出ネットワーク140及びドライブネットワーク150の入出力及び演算の過程は、それぞれ通信部110とプロセッサ120とによって行われ得る。ただし、図1では通信部110及びプロセッサ120の具体的な連結関係を省略した。この際、メモリ115は、後述する各インストラクションを格納した状態であり得、プロセッサ120はメモリ115に格納された各インストラクションを遂行するように設定され、プロセッサ120は追って説明するプロセスを遂行することにより本発明を遂行することができる。このように学習装置100が描写されたからといって、学習装置100が本発明を実施するためのプロセッサ、メモリ、ミディアム(medium)または任意の他のコンピューティングコンポーネントの任意の組み合わせを含む統合装置を排除するわけではない。
【0036】
コンピューティング装置100の構成は前記のとおりであるところ、以下、それぞれの構成がどのように連動して作動するのかを図2を参照して概括的に検討するようにする。
【0037】
図2は、本発明の一実施例にしたがって、強化学習による自律走行時の効率的なリソースの割当てを遂行する過程を簡略に示した図面である。
【0038】
図2を参照すると、アテンションネットワーク130は、追って詳しく説明する少なくとも一つのアテンションセンサデータを取得するか、他の装置をもって取得するように支援し得る。アテンションネットワーク130は、アテンションセンサデータを利用して一つ以上のアテンションスコアを計算するか、他の装置をもって計算するように支援することができ、検出ネットワーク140は、アテンションスコアを参照して自律走行車両に設置された一つ以上のカメラのうち少なくとも一部によって取得された少なくとも一つのビデオデータを取得するプロセス、取得されたビデオデータを参照して少なくとも一つの自律走行用判断データを生成するプロセスを遂行するか、他の装置をもって遂行し得るように支援することができる。以後、ドライブネットワーク150は、自律走行用判断データを参照して自律走行車両を運行するプロセス、運行中である自律走行車両の周辺状況の変化を示す少なくとも一つの状況データを取得するプロセスを遂行するか、他の装置をもって遂行するように支援することができる。そして、ドライブネットワーク150は、状況データを参照して強化学習に使用された少なくとも一つのリワードを生成するか、他の装置をもって生成するように支援することができる。そして、アテンションネットワーク130は、リワードを参照してニューラルネットワーク演算で一つ以上のパラメータの少なくとも一部を調整するか、他の装置をもって調整するように支援することができる。
【0039】
以上、概括的な本発明のチャートを図2を通じて検討したところ、本発明の具体的な遂行方式を以下にてさらに詳細に検討することにする。
【0040】
まず、アテンションセンサデータが取得されると、コンピューティング装置100は、アテンションネットワーク130をもって、アテンションセンサデータを参照してニューラルネットワーク演算を遂行させることができる。
【0041】
ここで、アテンションセンサデータとは、自律走行車両に設置されたセンサから取得されるデータであるが、これはレーダを使用して取得されるか、ライダ(Lidar)を使用して取得されるか、レーダ及びライダをいずれも使用して取得され得る。ライダを使用せずにレーダのみを使用してアテンションセンサデータを取得した場合には、アテンションネットワーク130は直ちにこれを参照してニューラルネットワーク演算を遂行することができる。ところが、ライダを使用した場合、すなわちライダとレーダとをいずれも使用してアテンションセンサデータを取得した場合、又はレーダは使用せずにライダを使用してアテンションセンサデータを取得した場合、ニューラルネットワーク演算を遂行するにはデータが最適化された状態ではないので、これを前処理する過程が必要であるところ、前処理過程について見てみる。
【0042】
ライダによって取得されたアテンションセンサデータは、レーザスキャンラインに沿ってレーザが反射される地点までの距離を測定して取得されたものであり、自律走行車両を中心とした同心円の形態に配列された3次元座標を含む。前処理はこのような3次元座標を利用し、3次元座標の投影(projection)及びスムージング(smoothing)する過程を含む。具体的に、3次元座標を仮想の平面上に投影すると、各ピクセルのそれぞれの距離に関する情報を含む希少デプスイメージが生成される。以後、希薄デプスイメージの中間の空間部分を満たすために、希薄デプスイメージに少なくとも一つのスムージング演算を適用することで高密度デプスイメージが生成され得る。アテンションネットワーク130は、このような高密度デプスイメージを参照してニューラルネットワーク演算を遂行することができる。
【0043】
アテンションネットワーク130によって行われるニューラルネットワーク演算は、図3を通じて確認することができる。
【0044】
図3は、本発明の一実施例による効率的なリソースの割当てのために遂行されるニューラルネットワーク演算の一例を示した図面である。
【0045】
図3を参照すると、ニューラルネットワーク演算はアテンションセンサデータまたはこれを前処理した高密度デプスイメージが入力される一つ以上のコンボリューションレイヤと、コンボリューションレイヤの結果に少なくとも一つのプーリング演算を適用する少なくとも一つのプーリングレイヤと、プーリングレイヤの結果に一つ以上のFC演算を適用する一つ以上のFCレイヤと、前記アテンションスコアが出力される少なくとも一つのソフトマックスレイヤとを含む。もちろん、図3に示された構成は一例示であって、それぞれのレイヤは一つ以上の他のレイヤに代替されるか、少なくとも一つの他のレイヤが本構成に追加されるか、特定のレイヤが削除されることもまた可能である。
【0046】
このようなニューラルネットワーク演算は、自律走行車両を中心とする所定の空間に対して、それぞれの角度範囲ごとに走行時の危険度を点数化して判断する演算であって、アテンションスコアを出力するための演算である。危険度は、図4を参照して具体的に説明することにする。
【0047】
図4は、本発明の一実施例による効率的なリソースの割当てを遂行するために、計算されたアテンションスコアの一例を示した図面である。
【0048】
図4を参照すると、自律走行車両200の周辺を表したパノラマイメージ220上で物体が多い一部の特定方向に対応するアテンションスコア210のうち一部が高く測定されたことが分かる。パノラマイメージ220は、理解の一助とするために配置したものであって、実際にはこのようなパノラマイメージ220ではなく、高密度デプスイメージまたはレーダから取得されたアテンションセンサデータを利用してアテンションスコアが生成される。図4の例示されたアテンションスコア210は、一部の特定方向である222方向と223方向に対応するアテンションスコアのうち一部は高く示されている。すなわち、特定方向に多くの物体が検出される場合、一つ以上の物体が自律走行車両200に向かって移動したり、それから潜在的な危険が高まる可能性があるため、当該方向の走行危険レベルは高いものと決定され、その方向に対応する当該角度の範囲のアテンションスコアは高く計算されるのである。このようなアテンションスコア210が検出ネットワーク140によって計算されると、どのような効果が発生するのかは追って再度図4を参照して再び説明することにする。
【0049】
このようにアテンションスコアが計算されると、コンピューティング装置100が検出ネットワーク140をもって、アテンションスコアを参照して自律走行車両200に設置された一つ以上のカメラのうち少なくとも一部によって取得された少なくとも一つのビデオデータを取得させ、ビデオデータを参照して少なくとも一つの自律走行用判断データを生成させることができる。
【0050】
すなわち、自律走行車両に設置されたカメラのうち少なくとも一部を選択して、当該カメラのうち少なくとも一部によって撮影されたビデオを利用して計算が遂行されることにより、すべてのカメラを使用するのに比べてカメラに使用される電力消費を最小化することができる。この際、潜在的危険性が存在することから、それに備えなければならない一部の方向に対応するカメラのうち少なくとも一部のビデオを利用することが安全性向上に役立つので、そのためにアテンションスコアを使用するのである。
【0051】
つまり、図4を再び参照すると、222及び223方向のアテンションスコアが高いところ、自律走行車両200の222及び223方向を撮影するカメラによるビデオデータを取得するようになるのである。カメラを選択する基準となるアテンションスコアは、その値が第1閾値より大きいか否かによって決定され得る。つまり、検出ネットワーク140は、アテンションスコアが第1閾値以上である特定の角度範囲に対応する自律走行車両200に設置された特定のカメラによって生成された特定のビデオデータを取得させることができるということである。
【0052】
または、アテンションスコアは少なくとも一つのROI、すなわちRegion−of−Interestを決定するのに使用することもできる。図4を再度例に挙げると、ビデオデータ自体はすべてのカメラを通じて取得し、実際に演算を適用するROIを決定する際に、ROIパノラマイメージ230に示されているように、走行危険レベルが高いものと判断される方向のイメージが一つ以上のROIのためのソースとして決定され得る。つまり、検出ネットワーク140は、アテンションスコアが第1閾値以上である特定の角度範囲に対応する一つ以上の領域をROIとして設定した状態で、以後のプロセスを遂行することができるということである。
【0053】
本発明は、前記のようにカメラの少なくとも一部のビデオデータを選択するか、イメージのROIを設定することにより、検出ネットワーク140及びドライブネットワーク150の演算量を減らすことができる効果がある。このように演算量を減らすためのプロセスを経た後、検出ネットワーク140は、各カメラのうち少なくとも一部によって取得されたビデオデータを参照して自律走行用判断データを生成するか、ビデオデータのうち少なくとも一部に設定されたROIを参照して自律走行用判断データを生成することができる。
【0054】
検出ネットワーク140は、ビデオデータに含まれたイメージ上の物体を検出し、自律走行用判断データとして機能する前記物体の距離及び/又は位置を計算した後、これに基づいて自律走行車両200が進行する少なくとも一つの経路を決定することができるであろう。検出ネットワーク140は、このような自律走行用判断データを生成することができるが、本発明は効率的なリソース割当てのための強化学習方法をその主眼点としているので、自律走行用判断データの具体的な生成方法についての説明は省略することにする。
【0055】
自律走行用判断データが生成されると、コンピューティング装置100がドライブネットワーク150をもって、自律走行用判断データを参照して自律走行車両200を運行させ、運行中である自律走行車両200の周辺状況の変化を示す、少なくとも一つの状況データを取得させ、状況データを参照して強化学習による少なくとも一つのリワードを生成させることができる。
【0056】
ドライブネットワーク150は、自律走行用判断データに含まれた、自律走行車両200が進行する少なくとも一つの経路に沿って自律走行車両200が運行されるようにすることができる。ドライブネットワーク150が自律走行車両200を操縦する部分もやはり、本発明の主眼点とは異なる部分であるため、これについての具体的な説明は省略することにする。
【0057】
自律走行車両200は、運行しつつその周辺状況の変化を示す状況データを取得することができる。状況データは、(i)前記自律走行車両から所定の距離内の少なくとも1つの隣接した周辺車両の少なくとも1つの車両警笛が使用中であるかに関する情報、(ii)前記少なくとも1つの隣接した周辺車両の速力変化情報、(iii)前記自律走行車両と前記隣接した周辺車両との少なくとも1つの事故情報のうち少なくとも一部を含み得る。ドライブネットワーク150は、状況データを参照してリワードを生成することができ、リワードはニューラルネットワーク演算に使用されるパラメータを調整することに関与するので、結局、上記のような情報を参照してパラメータを調整するというものである。
【0058】
警笛を使用するか否かの情報、速力変化情報及び事故情報は、自律走行車両200が安全に運行しているかを判断するための基準であり得る。自律走行車両200が安全に走行しているのであれば周辺の車両は警笛を作動させないであろうし、速力を緩めないはずであり、自律走行車両200と衝突しないからである。警笛の作動、速力の緩和、衝突などの事故が発生すると、ドライブネットワーク150はリワードを下げることで、自律走行車両200がさらに安全に走行させるであろう。これについて、以下に具体的に説明される。
【0059】
コンピューティング装置100は、アテンションネットワーク130をもって、リワードを参照してニューラルネットワーク演算に使用されるパラメータを調整させることができる。アテンションネットワーク130は、リワードに応じてパラメータの変化方向を決定するものであるが、一例として、リワードが低ければ、アテンションネットワーク130はより多くのカメラのビデオデータを使用することができ、ROIをさらに広く設定することで、検出ネットワーク140がさらに広い範囲の領域に対して検査させて、より安全な走行をさせることができる。また他の例示として、アテンションスコアが全般的に高く導き出されるようにパラメータを調節することができるであろう。これは強化学習のアルゴリズム遂行方式であって、これを通じてカメラを効率的に使用しながらも安全に自律走行することができる。
【0060】
前記のような本発明はいくつかの長所があるが、このような方式の学習過程は実際に道路を走行しながら行われなければならず、準備されたトレーニングイメージが単純に入力されるCNNの一般的な学習過程と反対に遂行されなければならない。すなわち、本発明による前記例の場合、学習過程が十分に遂行されなければ、実際の道路走行過程において事故の確率が非常に高くなり得る。したがって、本発明はこれを解決するための方案として、仮想空間(Virtual Space)での学習を提案する。具体的な事項は以下の通りである。
【0061】
自律走行車両200及び自律走行車両200から所定の距離以内にある少なくとも一つの周辺車両は、仮想空間に存在するようにプログラミングされ得る。この際、自律走行車両200が取得し得るアテンションセンサデータ、ビデオデータ及び状況データは、仮想空間で自律走行車両200の周辺に位置する仮想物体間の関係に関する情報を利用して取得されるようにプログラミングされ得る。アテンションセンサデータの場合、仮想空間上における自律走行車両200とその周辺の仮想物体との間の距離を容易に計算することができるので、レーダまたはライダによって生成されたデータのフォーマットとほぼ同様にアテンションセンサデータが生成され得るであろうし、ビデオデータもやはり仮想空間内部における視点によってイメージを生成することにより、実際のデータとほぼ同様に生成され得る。状況データもやはりほぼ同様に生成され得るが、そのためには仮想周辺車両へのさらなるロジックが必要であるので、これについても検討してみる。
【0062】
状況データが取得されるためには、各仮想周辺車両が警笛を鳴らし、速力を落とすロジックが予めプログラミングされていなければならない。具体的に、仮想空間は、(i)前記自律走行車両200から所定の距離以内の周辺車両が第1臨界時間内に前記自律走行車両と衝突する可能性があるものと検出されると、前記仮想空間にある少なくとも一つの前記周辺車両が警笛を鳴らすようにプログラミングされ、(ii)前記周辺車両が第2臨界時間内に前記自律走行車両200と衝突する可能性があるものと検出されると、前記周辺車両の速力を落とすようにプログラミングされ得る。ここで、前記第1臨界時間は、前記第2臨界時間に比べて大きいか同じであり得るが、これは警笛を鳴らすのは運転者が自らの速力を落としたくなくて鳴らす場合が多いからである。もちろん、これは一実施例であるだけであり、第1臨界時間と第2臨界時間との大きさの関係は任意に設定され得る。
【0063】
このように仮想周辺車両のロジックが具現されている場合、状況データも現実世界(real−world)とほぼ同じく取得され得るであろう。自律走行車両200は、このように仮想空間で具現され得、その内部で運行される過程でニューラルネットワーク演算に使用されるパラメータが調整されることにより学習され得る。このように学習過程を具現すると、実際とほぼ同じ空間を仮想空間を通じて具現することができるため、仮想空間上での様々な状況、すなわち車両が多い渋滞状況、カーブの多い道を走行する状況、坂道が屈曲した道を走行する状況等について事故なしに安全に学習し得る長所がある。
【0064】
以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(Floptical Disk)のような磁気−光メディア(Magneto−Optical Media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
【0065】
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。
【0066】
従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。
【0067】
[付記]
本発明は、自律走行車両に使用するための最適化されたリソース割当てのための方法及び装置{METHOD AND DEVICE FOR OPTIMIZED RESOURCE ALLOCATION IN AUTONOMOUS DRIVING ON THE BASIS OF REINFORCEMENT LEARNING USING DATA FROM LIDAR, RADAR, AND CAMERA SENSOR}に関する。
【0068】
より詳細には、強化学習による自律走行時に効率的にリソースの割当てを実行する方法において、(a)コンピューティング装置が、少なくとも一つのアテンションセンサデータを取得すると、アテンションネットワークをもって、前記アテンションセンサデータを参照して少なくとも一つのニューラルネットワーク演算を遂行することにより一つ以上のアテンションスコアを計算させる段階:(b)前記コンピューティング装置が、検出ネットワークをもって、前記アテンションスコアを参照して、自律走行車両に設置された一つ以上のカメラのうち少なくとも一部によって取得された少なくとも一つのビデオデータを取得させ、前記ビデオデータを参照して少なくとも一つの自律走行用判断データを生成させる段階:(c)前記コンピューティング装置が、ドライブネットワークをもって、前記判断データを参照して前記自律走行車両を運行させ、運行中である前記自律走行車両の周辺状況の変化を示す少なくとも一つの状況データを取得させ、前記状況データを参照して少なくとも一つのリワードを生成させる段階:(d)前記コンピューティング装置が、前記アテンションネットワークをもって、前記リワードを参照して前記ニューラルネットワーク演算に使用される一つ以上のパラメータの少なくとも一部を調整させる段階;を含むことを特徴とする方法及び装置に関する。
図1
図2
図3
図4