(54)【発明の名称】障害物の下段ラインを基準にROIを検出する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE FOR DETECTING ROI ON THE BASIS OF BOTTOM LINES OF OBSTACLES AND TESTING METHOD,TESTING DEVICE USING THE SAME}
【文献】
Noa Garnett, et al.,Real-Time Category-Based and General Obstacle Detection for Autonomous Driving,2017 IEEE International Conference on Computer Vision Workshops (ICCVW),米国,2018年 6月26日,pp.198-205,URL,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8265242
【文献】
Krishnam Gupta, et al.,MergeNet: A Deep Net Architecture for Small Obstacle Discovery,2018 IEEE International Conference on Robotics and Automation (ICRA),米国,2018年 5月21日,pp.5856-5862,URL,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8461065
【文献】
Lars Sommer, et al.,Multi Feature Deconvolutional Faster R-CNN for Precise Vehicle Detection in Aerial Imagery,2018 IEEE Winter Conference on Applications of Computer Vision (WACV),米国,2018年 3月12日,pp.635-642,URL,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8354179
(58)【調査した分野】(Int.Cl.,DB名)
少なくとも一つの入力イメージから少なくとも一つの近接障害物の少なくとも一つの下段ライン(bottom line)を基準に少なくとも一つのROI(Region of Interest)を検出するためのCNN(Convolutional Neural Network)のパラメータを学習する方法において、
(a)学習装置が、第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、前記入力イメージから逐次的に第1エンコード済み特徴マップないし第nエンコード済み特徴マップを各々生成するようにする段階;
(b)前記学習装置が、第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記第nエンコード済み特徴マップから逐次的に第nデコード済み特徴マップないし第1デコード済み特徴マップを生成するようにする段階;
(c)前記第nデコード済み特徴マップないし前記第1デコード済み特徴マップの中から少なくとも一つの特定デコード済み特徴マップをその行(row)方向である第1方向及びその列(column)方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記学習装置は、前記第nデコード済み特徴マップないし前記第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記近接障害物各々の前記下段ライン各々が位置すると推定される特定の行各々を示す少なくとも一つの障害物セグメンテーション結果を生成する段階;
(d)前記学習装置が、前記特定の行の各々をもとに推定されるアンカリング行(anchoring row)各々のピクセルのうち、各々の前記ROI検出に利用されるアンカーボックス(anchor box)を生成するための各々の基礎としての前記列ごとのアンカー各々を決定する段階;
(e)前記学習装置が、RPN(Region Proposal Network)をもって、(i)前記アンカーボックス各々を参照に少なくとも一つのROIバウンディンボックス(bounding box)を生成するようにするものの、前記アンカーボックスのうち少なくとも一つは、前記アンカー各々を基礎に推定され、(ii)前記ROIバウンディンボックス及びそれに対応する少なくとも一つの第1原本正解(Ground Truth)イメージを参照して少なくとも一つの第1ロスを生成するようにするものの、前記ROIバウンディンボックスは、前記アンカーボックスのうち、特定物体を含むものと推定される確率が高い特定のアンカーボックスであり、前記第1原本正解イメージは、前記入力イメージ内の前記特定物体を実際に含むバウンディンボックスを表示する段階;及び
(f)前記学習装置は、前記第1ロスをバックプロパゲーション(backpropagation)して、前記CNNの前記パラメータを学習する段階;
を含み、
前記(c)段階は、
(c1)前記グリッドの各セルが、前記少なくとも一つのデコード済み特徴マップを前記第1方向に第1間隔ずつ区画し、前記第2方向に第2間隔ずつ区画することで生成されるとした場合、前記学習装置は、前記各々の列ごとに前記各々の行の特徴各々をチャネル方向へコンカチネート(concatenate)して、少なくとも一つの修正済み特徴マップを生成する段階;及び
(c2)前記学習装置は、前記修正済み特徴マップを参照して、前記列ごとにコンカチネートされた各チャネルにおける各々の前記近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記障害物セグメンテーション結果を生成するものの、前記障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジング(normalizing)するソフトマックス演算によって生成される段階;
を含むことを特徴とする方法。
少なくとも一つのテストイメージから、少なくとも一つのテスト用近接障害物の少なくとも一つの下段ラインを基準に、少なくとも一つのテスト用ROIを検出するためのCNNをテストする方法において、
(a)(1)第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージから逐次的に学習用第1エンコード済み特徴マップないし学習用第nエンコード済み特徴マップを各々生成するようにするプロセス、(2)第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記学習用第nエンコード済み特徴マップから逐次的に学習用第nデコード済み特徴マップないし学習用第1デコード済み特徴マップを生成するようにするプロセス、(3)前記学習用第nデコード済み特徴マップないし前記学習用第1デコード済み特徴マップの中から少なくとも一つの特定学習用デコード済み特徴マップをその行方向である第1方向及びその列方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記学習用第nデコード済み特徴マップないし前記学習用第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに少なくとも一つの学習用近接障害物各々の下段ライン各々が位置すると推定される学習用特定の行の各々を示す、少なくとも一つの学習用障害物セグメンテーション結果を生成するようにするプロセス、(4)前記学習用特定の行の各々をもとに推定される学習用アンカリング行各々のピクセルのうち、各々の前記学習用ROI検出に利用される学習用アンカーボックスを生成するための各々の基礎として前記列ごとの学習用アンカー各々を決定するプロセス、(5)RPN(Region Proposal Network)をもって、(i)前記アンカーボックス各々を参照に少なくとも一つの学習用ROIバウンディンボックス(bounding box)を生成するようにするものの、前記学習用アンカーボックスのうち少なくとも一つは、前記学習用アンカー各々を基礎に推定され、(ii)前記学習用ROIバウンディンボックス及びそれに相応する少なくとも一つの第1原本正解イメージを参照して少なくとも一つの第1ロスを生成するようにするものの、前記学習用ROIバウンディンボックスは、前記学習用アンカーボックスのうち、学習用特定物体を含むものと推定される確率が高い特定の学習用アンカーボックスであり、前記第1原本正解イメージは、前記トレーニングイメージ内の前記学習用特定物体を実際に含む学習用バウンディンボックスを示すプロセス、及び(6)前記第1ロスをバックプロパゲーションして、前記CNNのパラメータを学習するプロセスを学習装置が遂行した状態で、テスト装置が前記テストイメージを獲得する段階;
(b)前記テスト装置が、前記第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、前記テストイメージから逐次的にテスト用第1エンコード済み特徴マップないしテスト用第nエンコード済み特徴マップを各々生成するようにする段階;
(c)前記テスト装置が、前記第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記テスト用第nエンコード済み特徴マップから逐次的にテスト第nデコード済み特徴マップないしテスト用第1デコード済み特徴マップを生成するようにする段階;
(d)前記テスト用第nデコード済み特徴マップないし前記テスト用第1デコード済み特徴マップの中から少なくとも一つの特定テスト用デコード済み特徴マップをその行方向である第1方向、その列方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記テスト装置は、前記テスト用第nデコード済み特徴マップないし前記テスト用第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記テスト用近接障害物各々の下段ライン各々が位置すると推定されるテスト用特定の行の各々を示す、少なくとも一つのテスト用障害物セグメンテーション結果を生成する段階;
(e)前記テスト装置が、前記テスト用特定の行の各々をもとに推定されるテスト用アンカリング行各々のピクセルのうち、各々のテスト用ROI検出に利用されるテスト用アンカーボックスを生成するための各々の基礎として前記列ごとのテスト用アンカー各々を決定する段階、及び
(f)前記テスト装置が、前記RPNをもって、前記テスト用アンカーボックス各々を参照に少なくとも一つのテスト用ROIバウンディンボックスを生成するようにするものの、前記テスト用アンカーボックスのうち少なくとも一つは、前記テスト用アンカー各々を基礎に推定される段階;
を含み、
前記第1原本正解イメージは、前記トレーニングイメージがNc個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記学習用障害物セグメンテーション結果は、前記トレーニングイメージが前記Nc個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とし、
前記(d)段階で、
前記テストイメージがNc個の行に分割された状態で、前記各々の列に対して、前記テスト用近接障害物各々の前記下段ライン各々が存在すると推定されると、前記Nc個の行の中で、前記各々のテスト用特定の行にある前記下段ライン各々の推定位置各々は前記列ごとに対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記テスト用障害物セグメンテーションの結果値が生成されることを特徴とする方法。
少なくとも一つの入力イメージから、少なくとも一つの近接障害物の少なくとも一つの下段ライン(bottom line)を基準に、少なくとも一つのROI(Region of Interest)を検出するためのCNN(Convolutional Neural Network)のパラメータを学習する学習装置おいて、
前記入力イメージを獲得する通信部;及び
(I) 第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、前記入力イメージから逐次的に第1エンコード済み特徴マップないし第nエンコード済み特徴マップを各々生成するようにするプロセス、(II)第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記第nエンコード済み特徴マップから逐次的に第nデコード済み特徴マップないし第1デコード済み特徴マップを生成するようにするプロセス、(III)前記第nデコード済み特徴マップないし前記第1デコード済み特徴マップの中から少なくとも一つの特定デコード済み特徴マップをその行(row)方向である第1方向及びその列(column)方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記第nデコード済み特徴マップないし前記第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記近接障害物各々の前記下段ライン各々が位置すると推定される特定の行各々を示す少なくとも一つの障害物セグメンテーション結果を生成するプロセス;(IV)前記特定の行の各々をもとに推定されるアンカリング行(anchoring row)各々のピクセルのうち、各々の前記ROI検出に利用されるアンカーボックス(anchor box)を生成するための各々の基礎としての前記列ごとのアンカー各々を決定するプロセス(V) RPN(Region Proposal Network)をもって、(i)前記アンカーボックス各々を参照に少なくとも一つのROIバウンディンボックス(bounding box)を生成するようにするものの、前記アンカーボックスのうち少なくとも一つは、前記アンカー各々を基礎に推定され、(ii)前記ROIバウンディンボックス及びそれに対応する少なくとも一つの第1原本正解(Ground Truth)イメージを参照して少なくとも一つの第1ロスを生成するようにするものの、前記ROIバウンディンボックスは、前記アンカーボックスのうち、特定物体を含むものと推定される確率が高い特定のアンカーボックスであり、前記第1原本正解イメージは、前記入力イメージ内の前記特定物体を実際に含むバウンディンボックスを表示するプロセス、及び(VI)前記第1ロスをバックプロパゲーション(backpropagation)して、前記CNNの前記パラメータを学習するプロセスを遂行プロセッサ;
を含み、
前記(III)プロセスは、
(III−I)前記グリッドの各セルが、前記少なくとも一つのデコード済み特徴マップを前記第1方向に第1間隔ずつ区画し、前記第2方向に第2間隔ずつ区画することで生成されるとした場合、前記各々の列ごとに前記各々の行の特徴各々をチャネル方向へコンカチネート(concatenate)して、少なくとも一つの修正済み特徴マップを生成するプロセス;及び
(III−2)前記修正済み特徴マップを参照して、前記列ごとにコンカチネートされた各チャネルにおける各々の前記近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記障害物セグメンテーション結果を生成するものの、前記障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジング(normalizing)するソフトマックス演算によって生成されるプロセス;
を含むことを特徴とする学習装置。
前記(III)プロセスで、前記各々の列に対して、前記近接障害物各々の前記下段ライン各々が存在すると推定されると、前記Nc個の行の中で、前記各々の列ごとに前記各々の特定の行にある前記下段ライン各々の推定位置各々は対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記障害物セグメンテーションの結果値が生成されることを特徴とする請求項15に記載の学習装置。
少なくとも一つのテストイメージから、少なくとも一つのテスト用近接障害物の少なくとも一つの下段ラインを基準に、少なくとも一つのテスト用ROIを検出するためのCNNをテストするテスト装置において、
(1)第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージから逐次的に学習用第1エンコード済み特徴マップないし学習用第nエンコード済み特徴マップを各々生成するようにするプロセス、(2)第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記学習用第nエンコード済み特徴マップから逐次的に学習用第nデコード済み特徴マップないし学習用第1デコード済み特徴マップを生成するようにするプロセス、(3)前記学習用第nデコード済み特徴マップないし前記学習用第1デコード済み特徴マップの中から少なくとも一つの特定学習用デコード済み特徴マップをその行方向である第1方向及びその列方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記学習用第nデコード済み特徴マップないし前記学習用第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに少なくとも一つの学習用近接障害物各々の下段ライン各々が位置すると推定される学習用特定の行の各々を示す、少なくとも一つの学習用障害物セグメンテーション結果を生成するようにするプロセス、(4)前記学習用特定の行の各々をもとに推定される学習用アンカリング行各々のピクセルのうち、各々の前記学習用ROI検出に利用される学習用アンカーボックスを生成するための各々の基礎として前記列ごとの学習用アンカー各々を決定するプロセス、(5)RPN(Region Proposal Network)をもって、(i)前記アンカーボックス各々を参照に少なくとも一つの学習用ROIバウンディンボックス(bounding box)を生成するようにするものの、前記学習用アンカーボックスのうち少なくとも一つは、前記学習用アンカー各々を基礎に推定され、(ii)前記学習用ROIバウンディンボックス及びそれに相応する少なくとも一つの第1原本正解イメージを参照して少なくとも一つの第1ロスを生成するようにするものの、前記学習用ROIバウンディンボックスは、前記学習用アンカーボックスのうち、学習用特定物体を含むものと推定される確率が高い特定の学習用アンカーボックスであり、前記第1原本正解イメージは、前記トレーニングイメージ内の前記学習用特定物体を実際に含む学習用バウンディンボックスを示すプロセス、及び(6)前記第1ロスをバックプロパゲーションして、前記CNNのパラメータを学習するプロセスを学習装置が遂行した状態で、前記テストイメージを獲得する通信部;
(I)前記第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、前記テストイメージから逐次的にテスト用第1エンコード済み特徴マップないしテスト用第nエンコード済み特徴マップを各々生成するようにするプロセス;(II)前記第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記テスト用第nエンコード済み特徴マップから逐次的にテスト第nデコード済み特徴マップないしテスト用第1デコード済み特徴マップを生成するようにするプロセス;(III)前記テスト用第nデコード済み特徴マップないし前記テスト用第1デコード済み特徴マップの中から少なくとも一つの特定テスト用デコード済み特徴マップをその行方向である第1方向、その列方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記テスト用第nデコード済み特徴マップないし前記テスト用第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記テスト用近接障害物各々の下段ライン各々が位置すると推定されるテスト用特定の行の各々を示す、少なくとも一つのテスト用障害物セグメンテーション結果を生成するプロセス;(IV)前記テスト用特定の行の各々をもとに推定されるテスト用アンカリング行各々のピクセルのうち、各々のテスト用ROI検出に利用されるテスト用アンカーボックスを生成するための各々の基礎として前記列ごとのテスト用アンカー各々を決定するプロセス、及び(V)前記RPNをもって、前記テスト用アンカーボックス各々を参照に少なくとも一つのテスト用ROIバウンディンボックスを生成するようにするものの、前記テスト用アンカーボックスのうち少なくとも一つは、前記テスト用アンカー各々を基礎に推定されるプロセスを遂行するプロセッサ;
を含み、
前記第1原本正解イメージは、前記トレーニングイメージがNc個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記学習用障害物セグメンテーション結果は、前記トレーニングイメージが前記Nc個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とし、
前記(III)プロセスで、
前記テストイメージがNc個の行に分割された状態で、前記各々の列に対して、前記テスト用近接障害物各々の前記下段ライン各々が存在すると推定されると、前記Nc個の行の中で、前記各々のテスト用特定の行にある前記下段ライン各々の推定位置各々は前記列ごとに対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記テスト用障害物セグメンテーションの結果値が生成されることを特徴とするテスト装置。
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明は、自動車の自律走行のために、道路走行の妨げとなる可能性のある近接障害物を検出する新たな手法を提供することを目的とする。
【0012】
また本発明は、入力イメージ内の全てのピクセルを検討することなく、少ない演算量で近接障害物の位置だけを素早く把握し、これに基づいて物体のバウンディングボックスを容易に探し得る方法を提示することを目的とする。
【0013】
また、本発明は、RPN(Region Proposal Network)の演算量を減らす方法を提示することを目的とする。
【課題を解決するための手段】
【0014】
本発明の一態様によれば、少なくとも一つの入力イメージから少なくとも一つの近接障害物の少なくとも一つの下段ライン(bottom line)を基準に少なくとも一つのROI(Region of Interest)を検出するためのCNN(Convolutional Neural Network)のパラメータを学習する方法は、(a)学習装置が、第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、前記入力イメージから逐次的に第1エンコード済み特徴マップないし第nエンコード済み特徴マップを各々生成するようにする段階;(b)前記学習装置が、第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記第nエンコード済み特徴マップから逐次的に第nデコード済み特徴マップないし第1デコード済み特徴マップを生成するようにする段階;(c)前記第nデコード済み特徴マップないし前記第1デコード済み特徴マップの中から少なくとも一つの特定デコード済み特徴マップをその行(row)方向である第1方向及びその列(column)方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記第nデコード済み特徴マップないし前記第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記近接障害物各々の前記下段ライン各々が位置すると推定される特定の行各々を示す少なくとも一つの障害物セグメンテーション結果を生成する段階;(d)前記学習装置が、前記特定の行の各々をもとに推定されるアンカリング行(anchoring row)各々のピクセルのうち、各々の前記ROI検出に利用されるアンカーボックス(anchor box)を生成するための各々の基礎としての前記列ごとのアンカー各々を決定する段階;(e)前記学習装置が、RPN(Region Proposal Network)をもって、(i)前記アンカーボックス各々を参照に少なくとも一つのROIバウンディンボックス(bounding box)を生成するようにするものの、前記アンカーボックスのうち少なくとも一つは、前記アンカー各々を基礎に推定され、(ii)前記ROIバウンディンボックス及びそれに対応する少なくとも一つの第1原本正解(Ground Truth)イメージを参照して少なくとも一つの第1ロスを生成するようにするものの、前記ROIバウンディンボックスは、前記アンカーボックスのうち、特定物体を含むものと推定される確率が高い特定のアンカーボックスであり、前記第1原本正解イメージは、前記入力イメージ内の前記特定物体を実際に含むバウンディンボックスを表示する段階;及び(f)前記学習装置は、前記第1ロスをバックプロパゲーション(backpropagation)して、前記CNNの前記パラメータを学習する段階を含むことを特徴とする。
【0015】
一例として、前記(c)段階は、(c1)前記グリッドの各セルが、前記少なくとも一つのデコード済み特徴マップを前記第1方向に第1間隔ずつ区画し、前記第2方向に第2間隔ずつ区画することで生成されるとした場合、前記学習装置は、前記各々の列ごとに前記各々の行の特徴各々をチャネル方向へコンカチネート(concatenate)して、少なくとも一つの修正済み特徴マップを生成する段階;及び(c2)前記学習装置は、前記修正済み特徴マップを参照して、前記列ごとにコンカチネートされた各チャネルにおける各々の前記近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記障害物セグメンテーション結果を生成するものの、前記障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジング(normalizing)するソフトマックス演算によって生成される段階を含むことを特徴とする。
【0016】
一例として、前記(c)段階は、(c3)前記学習装置は、(i)少なくとも一つの第2原本正解イメージ上に、前記列ごとに前記近接障害物各々の前記下段ライン各々が位置する実際の行が表示される場合、前記実際の行の各々の位置及び(ii)前記障害物セグメンテーション結果上で、前記近接障害物の各々の前記下段ライン各々が前記列ごとに位置するものと推定される前記特定の行各々の位置を参照して、少なくとも一つの第2ロスを生成する段階を含み、前記(f)段階で、前記学習装置は前記第1ロスおよび前記第2ロスをバックプロパゲーションして、前記CNNの前記パラメータを学習することを特徴とする。
【0017】
一例として、前記(e)段階で、前記アンカーボックスの中で、少なくとも一つの(i)スケール(scale)及び(ii)アスペクト比(aspect ratio)のうち少なくとも一つを参考にして、前記アンカー各々の複数の互いに異なるアンカーボックスを設定することを特徴とする。
【0018】
一例として、前記各々の列は、前記第1方向に一つ以上のピクセルを含み、前記各々の行は、前記第2方向に一つ以上のピクセルを含むことを特徴とする。
【0019】
一例として、前記第1原本正解イメージは、前記入力イメージがN
c個の行に分割された状態で、前記列ごとに前記近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記障害物セグメンテーション結果は、前記入力イメージが前記N
c個の行に分割された状態で、前記列ごとに前記近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とする。
【0020】
一例として、前記(c)段階で、前記各々の列に対して、前記近接障害物各々の前記下段ライン各々が存在すると推定されると、前記N
c個の行の中で、前記各々の列ごとに前記各々の特定の行にある前記下段ライン各々の推定位置各々は対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記障害物セグメンテーションの結果値が生成されることを特徴とする。
【0021】
本発明の他の態様によれば、少なくとも一つのテストイメージから、少なくとも一つのテスト用近接障害物の少なくとも一つの下段ラインを基準に、少なくとも一つのテスト用ROIを検出するためのCNNをテストする方法において、(a)(1)第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージから逐次的に学習用第1エンコード済み特徴マップないし学習用第nエンコード済み特徴マップを各々生成するようにするプロセス、(2)第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記学習用第nエンコード済み特徴マップから逐次的に学習用第nデコード済み特徴マップないし学習用第1デコード済み特徴マップを生成するようにするプロセス、(3)前記学習用第nデコード済み特徴マップないし前記学習用第1デコード済み特徴マップの中から少なくとも一つの特定学習用デコード済み特徴マップをその行方向である第1方向及びその列方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記学習用第nデコード済み特徴マップないし前記学習用第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに少なくとも一つの学習用近接障害物各々の下段ライン各々が位置すると推定される学習用特定の行の各々を示す、少なくとも一つの学習用障害物セグメンテーション結果を生成するようにするプロセス、(4)前記学習用特定の行の各々をもとに推定される学習用アンカリング行各々のピクセルのうち、各々の前記学習用ROI検出に利用される学習用アンカーボックスを生成するための各々の基礎として前記列ごとの学習用アンカー各々を決定するプロセス、(5)RPN(Region Proposal Network)をもって、(i)前記学習用アンカーボックス各々を参照に少なくとも一つの学習用ROIバウンディンボックス(bounding box)を生成するようにするものの、前記学習用アンカーボックスのうち少なくとも一つは、前記学習用アンカー各々を基礎に推定され、(ii)前記学習用ROIバウンディンボックス及びそれに相応する少なくとも一つの第1原本正解イメージを参照して少なくとも一つの第1ロスを生成するようにするものの、前記学習用ROIバウンディンボックスは、前記学習用アンカーボックスのうち、学習用特定物体を含むものと推定される確率が高い特定の学習用アンカーボックスであり、前記第1原本正解イメージは、前記トレーニングイメージ内の前記学習用特定物体を実際に含む学習用バウンディンボックスを示すプロセス、及び(6)前記第1ロスをバックプロパゲーションして、前記CNNのパラメータを学習するプロセスを学習装置が遂行した状態で、テスト装置が前記テストイメージを獲得する段階;(b)前記テスト装置が、前記第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、前記テストイメージから逐次的にテスト用第1エンコード済み特徴マップないしテスト用第nエンコード済み特徴マップを各々生成するようにする段階;(c)前記テスト装置が、前記第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記テスト用第nエンコード済み特徴マップから逐次的にテスト第nデコード済み特徴マップないしテスト用第1デコード済み特徴マップを生成するようにする段階;(d)前記テスト用第nデコード済み特徴マップないし前記テスト用第1デコード済み特徴マップの中から少なくとも一つの特定テスト用デコード済み特徴マップをその行方向である第1方向、その列方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記テスト装置は、前記テスト用第nデコード済み特徴マップないし前記テスト用第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記テスト用近接障害物各々の下段ライン各々が位置すると推定されるテスト用特定の行の各々を示す、少なくとも一つのテスト用障害物セグメンテーション結果を生成する段階;(e)前記テスト装置が、前記テスト用特定の行の各々をもとに推定されるテスト用アンカリング行各々のピクセルのうち、各々のテスト用ROI検出に利用されるテスト用アンカーボックスを生成するための各々の基礎として前記列ごとのテスト用アンカー各々を決定する段階、及び(f)前記テスト装置が、前記RPNをもって、前記テスト用アンカーボックス各々を参照に少なくとも一つのテスト用ROIバウンディンボックスを生成するようにするものの、前記テスト用アンカーボックスのうち少なくとも一つは、前記テスト用アンカー各々を基礎に推定される段階;を含むことを特徴とする。
【0022】
一例として、前記(d)段階は、(d1)前記グリッドの各セルが、前記テスト用第nデコード済み特徴マップないし前記テスト用第1デコード済み特徴マップ中から少なくとも一つの特定テスト用デコード済み特徴マップを前記第1方向に第1間隔ずつ区画し、前記第2方向に第2間隔ずつ区画することで生成されるとした場合、前記テスト装置が前記各々の列ごとに前記各々の行のテスト用特徴各々をチャネル方向へコンカチネートして、少なくとも一つの修正済みテスト用特徴マップを生成する段階;及び(d2)前記テスト装置が前記修正済みテスト用特徴マップを参照して、前記列ごとにコンカチネートされた各チャネルにおける各々の前記テスト用近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記テスト用障害物セグメンテーション結果を生成するものの、前記テスト用障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジングするソフトマックス演算によって生成される段階;を含むことを特徴とする。
【0023】
一例として、前記(f)段階で、前記テスト用アンカーボックスのうち少なくとも一つの(i)スケール及びアスペクト比のうち少なくとも一つを参考にして、前記テスト用アンカー各々の複数の互いに異なるテスト用アンカーボックスを設定することを特徴とする。
【0024】
一例として、前記各々の列は、前記第1方向に一つ以上のピクセルを含み、前記各々の行は、前記第2方向に一つ以上のピクセルを含むことを特徴とする。
【0025】
一例として、前記第1原本正解イメージは、前記トレーニングイメージがN
c個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記学習用障害物セグメンテーション結果は、前記トレーニングイメージが前記N
c個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とし、前記(d)段階で、前記テストイメージがN
c個の行に分割された状態で、前記各々の列に対して、前記テスト用近接障害物各々の前記下段ライン各々が存在すると推定されると、前記Nc個の行の中で、前記各々のテスト用特定の行にある前記下段ライン各々の推定位置各々は前記列ごとに対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記テスト用障害物セグメンテーションの結果値が生成されることを特徴とする。
【0026】
本発明のまた他の態様によれば、少なくとも一つの入力イメージから、少なくとも一つの近接障害物の少なくとも一つの下段ライン(bottom line)を基準に、少なくとも一つのROI(Region of Interest)を検出するためのCNN(Convolutional Neural Network)のパラメータを学習する学習装置おいて、前記入力イメージを獲得する通信部;及び(I)第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、前記入力イメージから逐次的に第1エンコード済み特徴マップないし第nエンコード済み特徴マップを各々生成するようにするプロセス、(II)第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記第nエンコード済み特徴マップから逐次的に第nデコード済み特徴マップないし第1デコード済み特徴マップを生成するようにするプロセス、(III)前記第nデコード済み特徴マップないし前記第1デコード済み特徴マップの中から少なくとも一つの特定デコード済み特徴マップをその行(row)方向である第1方向及びその列(column)方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記第nデコード済み特徴マップないし前記第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記近接障害物各々の前記下段ライン各々が位置すると推定される特定の行各々を示す少なくとも一つの障害物セグメンテーション結果を生成するプロセス;(IV)前記特定の行の各々をもとに推定されるアンカリング行(anchoring row)各々のピクセルのうち、各々の前記ROI検出に利用されるアンカーボックス(anchor box)を生成するための各々の基礎としての前記列ごとのアンカー各々を決定するプロセス(V)RPN(Region Proposal Network)をもって、(i)前記アンカーボックス各々を参照に少なくとも一つのROIバウンディンボックス(bounding box)を生成するようにするものの、前記アンカーボックスのうち少なくとも一つは、前記アンカー各々を基礎に推定され、(ii)前記ROIバウンディンボックス及びそれに対応する少なくとも一つの第1原本正解イメージを参照して少なくとも一つの第1ロスを生成するようにするものの、前記ROIバウンディンボックスは、前記アンカーボックスのうち、特定物体を含むものと推定される確率が高い特定のアンカーボックスであり、前記第1原本正解イメージは、前記入力イメージ内の前記特定物体を実際に含むバウンディンボックスを表示するプロセス、及び(VI)前記第1ロスをバックプロパゲーション(backpropagation) して、前記CNNの前記パラメータを学習するプロセスを遂行プロセッサ;を含むことを特徴とする。
【0027】
一例として、 前記(III)プロセスは、(III−I)前記グリッドの各セルが、前記少なくとも一つのデコード済み特徴マップを前記第1方向に第1間隔ずつ区画し、前記第2方向に第2間隔ずつ区画することで生成されるとした場合、前記各々の列ごとに前記各々の行の特徴各々をチャネル方向へコンカチネート(concatenate)して、少なくとも一つの修正済み特徴マップを生成するプロセス;及び(III−2)前記修正済み特徴マップを参照して、前記列ごとにコンカチネートされた各チャネルにおける各々の前記近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記障害物セグメンテーション結果を生成するものの、前記障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジング(normalizing)するソフトマックス演算によって生成されるプロセス;を含むことを特徴とする。
【0028】
一例として、前記(III)プロセスは、(III−3)(i)少なくとも一つの第2原本正解イメージ上に前記列ごとに前記近接障害物各々の前記下段ライン各々が位置する実際の行が表示される場合、前記実際の行の各々の位置及び(ii)前記障害物セグメンテーション結果上で、前記近接障害物の各々の前記下段ライン各々が前記列ごとに位置するものと推定される前記特定の行各々の位置を参照して、少なくとも一つの第2ロスを生成するプロセス;を含み、前記(VI)プロセスで、前記プロセッサは、前記第1ロス及び前記第2ロスをバックプロパゲーションして、前記CNNの前記パラメータを学習することを特徴とする
【0029】
一例として、前記(V)プロセスで、前記アンカーボックスの中で、少なくとも一つの(i)スケール (scale)及び(ii)アスペクト比(aspect ratio)のうち少なくとも一つを参考にして、前記アンカー各々の複数の互いに異なるアンカーボックスを設定することを特徴とする
【0030】
一例として、前記各々の列は、前記第1方向に一つ以上のピクセルを含み、前記各々の行は、前記第2方向に一つ以上のピクセルを含むことを特徴とする。
【0031】
一例として、前記第1原本正解イメージは、前記入力イメージがN
c個の行に分割された状態で、前記列ごとに前記近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記障害物セグメンテーション結果は、前記入力イメージが前記N
c個の行に分割された状態で、前記列ごとに前記近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とする。
【0032】
一例として、前記(III)プロセスで、前記各々の列に対して、前記近接障害物各々の前記下段ライン各々が存在すると推定されると、前記N
c個の行の中で、前記各々の列ごとに前記各々の特定の行にある前記下段ライン各々の推定位置各々は対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記障害物セグメンテーションの結果値が生成されることを特徴とする。
【0033】
本発明のまた他の態様によれば、少なくとも一つのテストイメージから、少なくとも一つのテスト用近接障害物の少なくとも一つの下段ラインを基準に、少なくとも一つのテスト用ROIを検出するためのCNNをテストする装置において、(1)第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージから逐次的に学習用第1エンコード済み特徴マップないし学習用第nエンコード済み特徴マップを各々生成するようにするプロセス、(2)第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記学習用第nエンコード済み特徴マップから逐次的に学習用第nデコード済み特徴マップないし学習用第1デコード済み特徴マップを生成するようにするプロセス、(3)前記学習用第nデコード済み特徴マップないし前記学習用第1デコード済み特徴マップの中から少なくとも一つの特定学習用デコード済み特徴マップをその行方向である第1方向及びその列方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記学習用第nデコード済み特徴マップないし前記学習用第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに少なくとも一つの学習用近接障害物各々の下段ライン各々が位置すると推定される学習用特定の行の各々を示す、少なくとも一つの学習用障害物セグメンテーション結果を生成するようにするプロセス、(4)前記学習用特定の行の各々をもとに推定される学習用アンカリング行各々のピクセルのうち、各々の前記学習用ROI検出に利用される学習用アンカーボックスを生成するための各々の基礎として前記列ごとの学習用アンカー各々を決定するプロセス、(5)RPN(Region Proposal Network)をもって、(i)前記アンカーボックス各々を参照に少なくとも一つの学習用ROIバウンディンボックス(bounding box)を生成するようにするものの、前記学習用アンカーボックスのうち少なくとも一つは、前記学習用アンカー各々を基礎に推定され、(ii)前記学習用ROIバウンディンボックス及びそれに相応する少なくとも一つの第1原本正解イメージを参照して少なくとも一つの第1ロスを生成するものの、前記学習用ROIバウンディンボックスは、前記学習用アンカーボックスのうち、学習用特定物体を含むものと推定される確率が高い特定の学習用アンカーボックスであり、前記第1原本正解イメージは、前記トレーニングイメージ内の前記学習用特定物体を実際に含む学習用バウンディンボックスを示すプロセス、及び(6)前記第1ロスをバックプロパゲーションして、前記CNNのパラメータを学習するプロセスを学習装置が遂行した状態で、前記テストイメージを獲得する通信部;及び(I)前記第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、前記テストイメージから逐次的にテスト用第1エンコード済み特徴マップないしテスト用第nエンコード済み特徴マップを各々生成するようにするプロセス;(II)前記第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記テスト用第nエンコード済み特徴マップから逐次的にテスト第nデコード済み特徴マップないしテスト用第1デコード済み特徴マップを生成するようにするプロセス;(III)前記テスト用第nデコード済み特徴マップないし前記テスト用第1デコード済み特徴マップの中から少なくとも一つの特定テスト用デコード済み特徴マップをその行方向である第1方向、その列方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記テスト用第nデコード済み特徴マップないし前記テスト用第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記テスト用近接障害物各々の下段ライン各々が位置すると推定されるテスト用特定の行の各々を示す、少なくとも一つのテスト用障害物セグメンテーション結果を生成するプロセス;(IV)前記テスト用特定の行の各々をもとに推定されるテスト用アンカリング行各々のピクセルのうち、各々のテスト用ROI検出に利用されるテスト用アンカーボックスを生成するための各々の基礎として前記列ごとのテスト用アンカー各々を決定するプロセス、及び(V)前記RPNをもって、前記テスト用アンカーボックス各々を参照に少なくとも一つのテスト用ROIバウンディンボックスを生成するようにするものの、前記テスト用アンカーボックスのうち少なくとも一つは、前記テスト用アンカー各々を基礎に推定されるプロセスを遂行するプロセッサ;を含むことを特徴とするテスト装置が提供される。
【0034】
一例として、前記(III)プロセスは、(III−1)前記グリッドの各セルが、前記テスト用第nデコード済み特徴マップないし前記テスト用第1デコード済み特徴マップ中から少なくとも一つの特定テスト用デコード済み特徴マップを前記第1方向に第1間隔ずつ区画し、前記第2方向に第2間隔ずつ区画することで生成されるとした場合、前記各々の列ごとに前記各々の行のテスト用特徴各々をチャネル方向へコンカチネートして、少なくとも一つの修正済みテスト用特徴マップを生成するプロセス;及び(III−2)前記修正済みテスト用特徴マップを参照して、前記列ごとにコンカチネートした各チャネルにおける各々の前記テスト用近接障害物の前記下段ライン各々に対する各々の推定位置を確認することにより、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々が位置すると推定される行を示す前記テスト用障害物セグメンテーション結果を生成するものの、前記テスト用障害物セグメンテーション結果は、前記列ごとの各々のチャネルに対応する各々の値をノーマライジングするソフトマックス演算によって生成されるプロセス;を含むことを特徴とする。
【0035】
一例として、前記(V)プロセスで、前記テスト用アンカーボックスの中で、少なくとも一つの(i)スケール 及び(ii)アスペクト比のうち少なくとも一つを参考にして、前記テスト用アンカー各々の複数の互いに異なるテスト用アンカーボックスを設定することを特徴とする。
【0036】
一例として、前記各々の列は、前記第1方向に一つ以上のピクセルを含み、前記各々の行は、前記第2方向に一つ以上のピクセルを含むことを特徴とする。
【0037】
一例として、前記第1原本正解イメージは、前記トレーニングイメージがN
c個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が、前記行の中から実際に位置する行に対する情報を含み、前記学習用障害物セグメンテーション結果は、前記トレーニングイメージが前記Nc個の行に分割された状態で、前記列ごとに前記学習用近接障害物各々の前記下段ライン各々が前記行の中に位置するものと推測される行を示すことを特徴とし、前記(III)プロセスで、前記テストイメージがN
c個の行に分割された状態で、前記各々の列に対して、前記テスト用近接障害物各々の前記下段ライン各々が存在すると推定されると、前記N
c個の行の中で、前記各々のテスト用特定の行にある前記下段ライン各々の推定位置各々は前記列ごとに対応する最も大きい値を有し、残りの行にある位置は小さい値を有するように前記テスト用障害物セグメンテーションの結果値が生成されることを特徴とする。
【発明の効果】
【0038】
本発明によれば、入力のイメージを所定の間隔に分けることで生成されたグリッド上で、列ごとにどの行に近接障害物があるかを検出し、自律走行する際に自動車が走行可能なルートを容易に把握し得る効果がある。
【0039】
また、本発明によれば、前記入力イメージ内の全てのピクセルを検討しなくても、少ない演算量で近接障害物だけを容易に検出し得る。
【0040】
また、本発明は、前記近接障害物検出のための新たな方法を前記近接障害物の前記下段ライン検出に適用し得り、前記物体の前記下段ラインの周辺領域に対してのみ前記RPN演算を遂行して、前記ROI検出演算量を大きく減らし得る効果がある。
【発明を実施するための形態】
【0042】
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例に係る本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
【0043】
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得り、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得り、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
【0044】
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。
【0045】
本発明は、速くて少ない演算により高解像度のイメージから近接障害物を検出できるアルゴリズムを開発して提示された技術である。本発明の技術に係る前記近接障害物の検出方法は、入力イメージから道路と少なくとも一つの障害物の間の境界を見つけることを目標とする。このために、前記入力イメージの行方向を第1方向、列方向を第2方向とした場合、前記第1方向に第1間隔ずつ区画して複数の列を形成し、前記第2方向に第2間隔ずつ区画することで複数の行を形成した結果、グリッドが生成され得る。前記各々の列をこれに該当する前記グリッドの一番低いセルから始まって前記第2方向へ確認することで前記近接障害物が各々存在すると推定される前記各々の列に対して特定の行の情報を用いて前記近接障害物の道路上の位置を検出するものと言えるだろう。また、本発明は、(i)高解像度情報を利用するマルチロス(Multi−loss)学習プロセス及び(ii)低解像度特徴だけを利用するテストプロセスによって演算量を減らし得るようにする。
【0046】
図2は、本発明に係る前記近接障害物検出のためのCNNの学習方法を示したフローチャートである。
図3は本発明に係る前記近接障害物検出のための前記CNNの前記学習方法を説明するために前記入力イメージの演算プロセスを例示的に示した図面である。
【0047】
図2及び
図3を参照して、本発明に係る前記近接障害物検出のための前記CNNの前記学習方法を具体的に説明すると次の通りである。
【0048】
本発明に係る前記近接障害物検出プロセスは、少なくとも一つの入力イメージからエンコード済み特徴マップ及びデコード済み特徴マップを生成する段階S01から始まる。前記S01段階では、学習装置がトレーニングイメージとして前記イメージを受信すると、前記学習装置は、第1ないし第nコンボリューションレイヤをもって、前記トレーニングイメージから逐次的に第1エンコード済み特徴マップないし第nエンコード済み特徴マップを各々生成するようにする。ここで、前記第1ないし第nコンボリューションレイヤは前記近接障害物検出用に用いられる前記CNNに含まれる。また、前記近接障害物検出用に用いられる前記CNNは、前記第1ないし第nコンボリューションレイヤに対応する第nないし第1デコンボリューションレイヤを含むが、前記学習装置は前記第nないし第1デコンボリューションレイヤをもって、前記第nエンコード済み特徴マップから逐次的に第nデコード済み特徴マップないし第1デコード済み特徴マップを生成するようにする。
【0049】
例えば、
図3を参照すれば、前記近接障害物検出用に用いられる前記CNNは、前記第1コンボリューションレイヤないし第5コンボリューションレイヤ(11ないし15)及び第5デコンボリューションレイヤないし前記第1デコンボリューションレイヤ(16ないし20)を含み得り、前記学習装置は、3ch、640×256サイズの前記トレーニングイメージ100を受信し得る。この入力イメージは、前記第1コンボリューションレイヤ11に入力され、8ch、320×128サイズの前記第1エンコード済み特徴マップ110が生成され、第2コンボリューションレイヤ12に入力され、16ch、160×64サイズの第2エンコード済み特徴マップ120が生成され、第3コンボリューションレイヤ13に入力され、32ch、80×32サイズの第3エンコード済み特徴マップ130が生成され、第4コンボリューションレイヤ14に入力され、64ch、40×16サイズの第4エンコード済み特徴マップ140が生成され、第5コンボリューションレイヤ15に入力され、128ch、20×8サイズの第5エンコード済み特徴マップ150が生成される。
【0050】
このように、前記コンボリューションレイヤは、前記入力イメージまたは特徴マップのチャネルは増やし、横及び縦のサイズは小さくして、前記エンコード済み特徴マップを生成する機能をする。例えば、前記第2コンボリューションレイヤ12ないし前記第5コンボリューションレイヤ15は、前記入力される特徴マップの前記チャネルは2倍に増やし、横や縦サイズは各々1/2に減らして前記エンコード済み特徴マップを生成する。
【0051】
一方、前記学習装置は、前記第nコンボリューションレイヤに対応する前記第nデコンボリューションレイヤをもって、前記第nエンコード済み特徴マップの横サイズを所定倍数に拡大し、第nデコード済特徴マップを生成する。例えば、
図3に示した例で、前記学習装置は、前記第5デコンボリューションレイヤ16をもって、128ch、20×8サイズの前記第5エンコード済み特徴マップ150から、64ch、40×8サイズの第5デコード済特徴マップ160を生成する。
【0052】
一般的にデコンボリューションレイヤは、チャネル数は減らし、横及び縦サイズは大きくするが、本発明に係る前記第nデコンボリューションレイヤは、前記第nエンコード済み特徴マップのチャネルを減らして、前記横サイズを所定の倍数(例えば2倍)に大きくするが、前記特徴マップの前記縦サイズは変更させないことができる。その理由は、前述のように、本発明は前記グリッドの前記列の中でどの位置が最も高いスコアを有するかを区別することで充分だからである。すなわち、本発明では、従来のセグメンテーションと異なり、すべてのピクセルを確認する必要がなく、前記縦サイズを大きくする必要もない。本発明で提案している方法は、入力と出力の横の解像度が同一の効果があり、従来の横の解像度が低くなる問題がない。縦の解像度も高ければ更によいだろうが、そうすると多くの演算量が必要であるという問題がある。従って、本発明では、少ない演算量で前記近接障害物の検出をするために、前記横の解像度だけを増加させる方法を提示するものである。このため、前述したように、前記第nデコンボリューションレイヤは、前記第nエンコード済み特徴マップの前記チャネル数を減らして、前記横サイズのみ所定倍数(例えば2倍)に増加させるが、前記縦サイズは変更させないのである。
【0053】
再度、
図3に示したデコーディングプロセスを見ると、前記学習装置は、 前記第4デコンボリューションレイヤ17をもって、64ch、40×8サイズの前記第5デコード済み特徴マップ160から32ch、80×16サイズの前記第4デコード済み特徴マップ170を生成するようにし、前記第3デコンボリューションレイヤ18をもって32ch、80×16サイズの前記第4デコード済み特徴マップ170から16ch、160×32サイズの前記第3デコード済み特徴マップ180を生成するようにし、前記第2デコンボリューションレイヤ19をもって16ch、160×32サイズの前記第3デコード済み特徴マップ180から8ch、320×64サイズの前記第2デコード済み特徴マップ190を生成するようにし、前記第1デコンボリューションレイヤ20をもって8ch、320×64サイズの前記第2デコード済み特徴マップ190から4ch、640×128サイズの前記第1デコード済み特徴マップ200を生成するようにする。
【0054】
このように、前記デコンボリューションレイヤは、入力される特徴マップのチャネルを減らし、前記横及び縦のサイズは大きくしてデコード済み特徴マップを生成する機能をする。例えば、前記第4デコンボリューションレイヤ17ないし前記第1デコンボリューションレイヤ20は、前記チャネル数を1/2に減らし、前記入力される特徴マップの前記横や縦サイズは各々2倍にして前記デコード済み特徴マップを生成する。
【0055】
一方、前記コンボリューションレイヤは、コンボリューション、マックスプーリング(max pooling)、ReLUのうち少なくとも一つの演算を遂行し、前記デコンボリューションレイヤは、デコンボリューション及びReLUのうち少なくとも一つの演算を遂行し得る。
【0056】
その後、
図2を参照すると、S02段階において前記学習装置は、C
i×W
i×H
iサイズを有する前記デコード済み特徴マップを利用してC
iH
i×W
i×1サイズを有する第1修正済み特徴マップを生成し得り、この際C
iは、前記チャネルの数を意味し、前記W
iは、前記列のサイズ、前記H
iは、前記デコード済み特徴マップの前記行のサイズを意味する。
【0057】
すなわち、本発明に係る修正(reshaping)プロセスにおいて、 前記少なくとも一つのデコード済み特徴マップを前記第1方向に第1間隔で区画し、前記第2方向に第2間隔で区画することで、複数の列と複数の行を有する前記グリッドの各セルが生成されるとした場合、前記学習装置は、前記列ごとに前記各々の行の特徴各々をチャネル方向へコンカチネート(concatenate)して、少なくとも一つの修正済み特徴マップを生成する。
【0058】
図4は、本発明に係る前記近接障害物検出のための前記修正プロセスを簡略的に表した図面である。
【0059】
図4を参照すると、前記修正プロセスで、図面符号410で表示された 特徴マップに示したように、デコード済み特徴マップが行に分かれた後、図面符号420で表示された特徴マップに示したように、前記列ごとに前記各々の行の前記特徴各々が前記チャネルの方向にコンカチネートされる。これによって、(C×W×H)サイズの特徴マップは((C*H)×W×1)サイズの特徴マップに変換される。
【0060】
図4の例で、前記図面符号410で表示された特徴マップ上で、太線で描かれた四角形各々は、前記デコード済み特徴マップの第1列に対応する各行の特徴各々を示す。仮に、前記図面符号410で表示された特徴マップが8つの行を有するなら、前記図面符号420で表示された特徴マップは、前記チャネル数の8倍に増えたチャネル数と、前記図面符号410で表示された特徴マップの高さの1/8の高さを有し得る。
【0061】
図3の例で、64ch、40×8サイズの前記第5デコード済み特徴マップ160は、第1修正プロセス(reshape5−1)によって、64*8ch、40×1サイズの前記第1修正済み特徴マップ161に変換され、32ch、80×16サイズの前記第4デコード済み特徴マップ170は、第1修正プロセス(reshape4−1)によって、32*16ch、80×1サイズの前記第1修正済み特徴マップ171に変換され、16ch、160×32サイズの前記第3デコード済み特徴マップ180は、第1修正プロセス(reshape3−1)によって、16*32ch、160×1サイズの前記第1修正済み特徴マップ181に変換され、8ch、320×64サイズの前記第2デコード済み特徴マップ190は、第1修正プロセス(reshape2−1)によって、8*64ch、320×1サイズの前記第1修正済み特徴マップ191に変換され、4ch、640×128サイズの前記第1デコード済み特徴マップ200は第1修正プロセス(reshape1−1)によって、4*128ch、640×1サイズの前記第1修正済み特徴マップ201に変換される。
【0062】
参考までに、
図3では、すべてのデコード済み特徴マップに対して前記第1修正プロセスを遂行するものと説明したが、すべてのデコード済み特徴マップについて修正プロセスを遂行する必要はなく、前記デコード済み特徴マップの一部に対してのみ修正プロセスを遂行しても充分である。
【0063】
その後、S03段階では、C
iH
i×W
i×1サイズ有する前記第1修正済み特徴マップを((W
I/W
i)×N
c)×W
i×1サイズの前記第1修正済み特徴マップに変更するコンボリューション演算を遂行し得る。ここで、前記W
Iは、前記トレーニングのイメージの列サイズであり、前記W
iは、前記デコード済み特徴マップの列サイズである。このコンボリューション演算は、1×1コンボリューションであり、これは、横、縦は1マスのみ含まれるが、すべてのチャネルにわたっている前記グリッド内のセルを被演算子(operand)とする演算であり、各第1修正済み特徴マップのN
c個の列の各々において前記近接障害物の下段ライン各々がどこに位置するかを知るための過程であり、前記N
cは、前記入力イメージの前記第2方向を所定の大きさに分割した数である。すでに前記第1修正プロセスで前記デコード済み特徴マップのすべての前記列方向の情報を、同時に演算できるように前記チャンネルに統合した状態であるため、前記コンボリューション演算を通じて前記チャンネルの情報をすべて確認し、各列ごとにどの位置に前記近接障害物の前記下段ライン各々が位置するかどうかを確認し得る。もちろん、前記第5デコード済み特徴マップ160の例のように、修正プロセスなしで8×1コンボリューションが遂行される場合、前記第1修正演算と前記1×1コンボリューション演算を一度で行い得る。つまり、特定の特徴マップの高さがNである場合、N×1コンボリューションを利用し得る。しかしながら、一般的にハードウェア上、1×1コンボリューション演算は素早くに計算できるが、あまり利用されない形である8×1カーネルまたはN×1カーネルは演算速度が著しく遅いため、前記修正プロセス演算と前記1×1コンボリューション演算を分けたほうが効果的である。
【0064】
前記1×1コンボリューション演算結果を参照すれば、前記入力された特徴マップの前記列サイズがW
i、前記元のイメージの前記列サイズがW
Iとした場合、(W
I/W
i)×N
cくらいのチャネルを有するように前記入力特徴マップが変換される。
【0065】
図3の例で、64*8ch、40×1サイズの前記第5デコード済み特徴マップの第1修正済み特徴マップ161は、前記1×1コンボリューション演算によってN
c*16ch、40×1サイズの第1修正済み特徴マップ162に変更され、32*16ch、80×1サイズの前記第4デコード済み特徴マップの第1修正済み特徴マップ171は、前記1×1コンボリューション演算によってN
c*8ch、80×1サイズの第1修正済み特徴マップ172に変更され、16*32ch、160×1サイズの前記第3デコード済み特徴マップの第1修正済み特徴マップ(181)は、前記1×1コンボリューション演算によってN
c*4ch、160×1サイズの第1修正済み特徴マップ182に変更され、8*64ch、320×1サイズの前記第2デコード済み特徴マップの第1修正済み特徴マップ191は、前記1×1コンボリューション演算によってN
c*2ch、320×1サイズの第1修正済み特徴マップ192に変更され、4*128ch、640×1サイズの前記第1デコード済み特徴マップの第1修正済み特徴マップ201は、前記1×1コンボリューション演算によってN
c ch、640×1サイズの第1修正済み特徴マップ202に変更される。
【0066】
再度
図2を参照すれば、S04段階では、((W
I/W
i)×N
c)×W
i×1サイズの前記第1修正済み特徴マップはN
c×W
I×1サイズを有する第2修正済み特徴マップに修正され得る。ここで前記N
c個は、前記近接障害物の各々の前記下段ライン各々が前記列ごとにどこに位置するかを特定するために前記入力イメージの前記第2方向に分割した前記行の数である。
【0067】
そしてS05段階では、前記第2修正済み特徴マップの前記列ごとに前記N
c個のチャネルに対応する各々の値をノーマライジング(normalizing)するソフトマックス演算が遂行され、S06段階では、前記第2方向に沿って前記各々の列をこれに対応する一番下のセルから確認することで前記近接障害物が存在すると推定される前記特定の行の各々から前記近接障害物各々の前記下段ライン各々の推定位置各々を示す前記入力イメージ内の前記列ごとのセグメンテーション結果が生成される。
【0068】
前記第2修正プロセスS04で、前記出力された((W
I/W
i)×N
c)×W
i×1サイズの特徴マップは、データは固定されたままの形だけが変化してN
c×W
I×1サイズの形態に変換され得る。そして前記ソフトマックスプロセスS05で各列ごとに前記N
c個のチャネルの前記値を0〜1の間の値へノーマライジングさせ、前記ノーマライジングされた値を参照して、前記列ごとにそれに対応する最も大きい値を有する特定のチャネル各々を探して前記近接障害物各々の前記下段ライン各々の前記列ごとの位置を推定し得る。
【0069】
従って、前記1×1コンボリューション演算S03と前記修正演算S04によって、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々の前記推定位置各々は、各々に対応する最も大きい値を有し得り、残りの行はそれより小さい値を有するように特徴マップが生成され得る。前記ソフトマックス演算S05は、前記入力イメージの列ごとに前記N
c個の値の中で最も大きい値を見つけ、その位置を出力して前記近接障害物の前記位置各々を探し出すために利用される。
【0070】
そして、前記ノーマライジングされた値を参照して前記列ごとに前記チャネルの値のうち大きい値を有する特定チャネル各々に前記近接障害物各々の前記下段ラインが位置すると推定されると、前記N
c行のうち、前記列ごとの前記行の中から前記近接障害物各々の前記下段ライン各々の推定位置各々は、対応する最も大きい値を有し、前記列ごとの前記行のうち、残りの行はそれより小さい値を有するようにするセグメンテーション結果が生成され得るようにする。
【0071】
このプロセスを理解するためには、最終結果(前記ソフトマックス演算の結果)の形態についての理解が必要である。前記CNNの前記学習方法から期待される出力は、前記入力イメージで前記列ごとに前記N
c個の行のうち最大の値を有する各々の行を前記近接障害物の位置として探し出すことである。このためには、列ごとにN
c個のスコアが必要である。例えば、前記入力イメージ内の前記列の個数(つまり前記入力イメージの前記幅)が640個(つまり640個のピクセルまたは640個の列)ならば、N
c(チャネル)×640(幅)×1(高さ)サイズのスコアマップが出力として算出されるべきである。
【0072】
前記出力としてN
c(チャネル)×640(幅)×1(高さ)サイズの前記スコアマップを生成する前記プロセスを見ると次のとおりである。例えば、前記第1修正(reshape5−1)プロセスによって512(64*8)(チャネル)×40(幅)×1(高さ)サイズの前記第5デコード済み特徴マップの前記第1修正済み特徴マップ161が生成された場合、この第1修正済み特徴マップの列は、前記入力イメージの列(640個)の1/16の40個だけである。従って、この場合、16回の前記1×1コンボリューション演算でN
c個のスコアマップを16回出力すれば解決し得る。従って、
図3でCONV_OUT5から出た前記出力162サイズは(N
c*16)(チャネル)×40(幅)×1(高さ)になるようにデザインされるべきだ。そして、(Nc*16)(チャネル)×40(幅)×1(高さ)サイズの前記スコアマップをNc(チャネル)×640(幅)×1(高さ)サイズの前記スコアマップへ変換するため、前記第2修正プロセス(reshape5−2)が必要なのである。
【0073】
図3に示した例を参照に、N
c*16ch、40×1サイズの前記特徴マップ162は、前記1×1コンボリューションであるCONV_OUT5によってN
c ch、640×1サイズの前記特徴マップ163に変換され、前記ソフトマックス演算によって640個の列ごとの前記N
c個の行のうち、前記列ごとに前記行の中から前記近接障害物各々の前記下段ライン各々の前記推定位置各々に対応する最も大きい値を有し、前記列ごとに前記行の中の前記残りの位置はより小さい値を有するように出力164が生成される。そしてN
c*8ch、80×1サイズの前記特徴マップ172、N
c*4ch、160×1サイズの前記特徴マップ182、N
c*2ch、320×1サイズの前記特徴マップ192、N
c ch、640×1サイズの前記特徴マップ202は、CONV_OUT4ないしCONV_OUT1の前記1×1コンボリューション演算各々によってN
c ch、640×1サイズの前記特徴マップ173、183、193、203へ各々変換され、前記ソフトマックス演算によって640個の列ごとに前記N
c個の行のうち、前記近接障害物各々の前記下段ライン各々の前記推定位置各々が存在する前記列ごとにこれに該当する最も大きい値を有し、前記列ごとの前記行の中の残りの位置はより小さい値を有するように各々の出力174、184、194、204が生成される。
【0074】
つまり、前記学習装置が、前記少なくとも一つのデコード済み特徴マップにおいて、前記推定位置各々を示す前記セグメンテーション結果を生成し得り、前記各々の列をそれに対応する一番下のセルから前記第2方向に(つまり、上がりながら)確認することで、前記近接障害物各々の前記下段ライン各々の前記推定位置各々が推定される。前記学習装置は、前記修正済み特徴マップの前記列ごとにコンカチネートされたチャネル上の前記近接障害物各々の前記下段ライン各々の前記推定位置各々を確認することにより、前記セグメンテーション結果を生成し得る。
【0075】
再び
図2を参照すると、S07段階では、前記セグメンテーション結果とそれに対応する少なくとも一つの原本正解イメージを参照して少なくとも一つのロスが算出され得り、S08段階では、前記ロスをバックプロパゲーション(backpropagation)して、前記CNNのパラメータが学習されたり、最適化され得る。
【0076】
この際、前記原本正解イメージは、前記各々の列についてそれに対応する一番下のセルから前記第2方向に(つまり、上がりながら)確認したとき、前記近接障害物各々が実際に位置する原本正解位置各々に対応する各々の列が表示されたイメージである。
【0077】
図5は、本発明によって前記近接障害物検出のための前記入力イメージ及びこれに対応する原本正解イメージを例示的に示す図面である。
図5を参照すれば、前記入力イメージで列ごと(640個のピクセルを前記第1間隔で区切ってできた列ごとまたは前記640個のピクセルごと)に前記下段から上段まで確認するとき、近接障害物を前記近接障害物に指定することで、前記原本正解イメージが生成され得る。前記原本正解イメージが前記入力イメージで前記列ごとに前記近接障害物各々の前記下段ライン各々が、実際前記N
c個の行の中に位置する行を示す情報を含み、前記セグメンテーション結果が前記入力イメージで前記列ごとに前記近接障害物各々の前記下段ライン各々が前記N
c個の行の中のどこに位置するかを推定する情報を含むため、前記デコード済み特徴マップを修正したすべての前記修正済み特徴マップ164、174、184、194、204は、前記N
cのチャネルを有するように生成されるのである。
【0078】
前記S07段階での前記ロスはクロスエントロピーロス(Cross−entropy loss)であり得る。前記ロスは、前記CNNの前記パラメータを学習したり、最適化したりするためにバックプロパゲーションされる。
図3の例では、5つのデコード済み特徴マップを通じて出力を算出するため5つのロスが算出されるが、前記5つのデコード済み特徴マップのうち、少なくとも一部からの前記ロスと、前記出力を参照して前記バックプロパゲーションを遂行し得る。特に、前記第1コンボリューションレイヤ20から出力された前記第1デコード済み特徴マップを参照して算出した前記ロスを利用することが好ましいが、必須ではない。
【0079】
前記のようなプロセスを経て、前記CNNの前記パラメータが学習された状態で、前記学習されたパラメータを有している前記CNNを利用したテスト装置は、前記入力イメージとしての少なくとも一つのテストイメージから近接障害物を検出し得る。
【0080】
図6は、本発明に係る前記近接障害物検出のための前記CNNのテスト方法を説明するため、前記入力のイメージに対する演算の過程を例示的に示す。
図6を参照すれば、
図3の前記学習装置と異なって、一つの出力だけを生成すれば充分で、前記第5デコード済み特徴マップを利用し、直ちに前記出力を生成し得るため、前記第4デコンボリューションレイヤないし前記第1デコンボリューションレイヤは省略しても構わない。もう一つの例として、前記省略されたデコンボリューションレイヤの一部を含んでも構わないと言える。
【0081】
具体的な前記プロセスは、
図3で説明した内容と類似するため、
図6の前記近接障害物検出過程を簡略に説明すると、次の通りだ。まず、前記テスト装置が、前記テストイメージ100を受信し、前記第1ないし前記第nコンボリューションレイヤ(11ないし15)をもって前記テストイメージ100から逐次的にテスト用第1エンコード済み特徴マップないしテスト用第nエンコード済み特徴マップ110、120、130、140、150を各々生成するようにし得る。そして前記テスト装置は少なくとも一つのデコンボリューションレイヤ16をもって前記テスト用第nエンコード済み特徴マップ150からテスト用デコード済み特徴マップ160を生成するようにし得る。そして、前記テスト用デコード済み特徴マップ160から、前記グリッドを参照にし、前記第2方向に羅列された前記列ごとの前記各々の行の特徴各々を前記チャネル方向へコンカチネートしてテスト用修正済み特徴マップ161を生成し得る。そして、前記1×1コンボリューション演算および追加修正プロセスを経て、チャンネルが変更されたテスト用特徴マップ162と当該チャネルをN
c個に合わせて、該当列の前記横軸の個数を前記テストイメージの前記横軸の個数に合わせたテスト用特徴マップ163が生成される。そして、前記テスト装置は、前記テスト用修正済み特徴マップの前記列ごとにコンカチネートされたチャンネル上で前記近接障害物各々の前記下段ライン各々の前記列ごとの前記行の中の前記推定位置各々を確認することにより、テスト用セグメンテーション結果164を生成して、前記近接障害物を検出し得る。
【0082】
図7aは、前記従来の障害物検出結果を簡略に示す図面であり、
図7b及び
図7cは本発明に係る前記障害物の検出結果を簡略に示す図面である。
【0083】
図7aは、前記従来の検出方法によって前記近接障害物を検出した例を示すが、すべてのピクセルを見て前記ピクセルが前記道路に該当するピクセルであるか否かを区別しなければならないので、その結果、演算量が多くなってしまう。しかし、
図7b及び
図7cに示した本発明に係る方法によれば、前記近接障害物各々の前記下段ライン各々の位置(黒線部)を推測するためにイメージの下段から上段へ所定の個数(例えば、N
c個)の前記グリッドセルを確認することで、前記近接障害物を検出し、その結果として少ない演算によって速くて高解像度の前記近接障害物を検出し得る。
【0084】
さらに、前記従来の技術は処理時間の関係で、前記障害物検出結果の前記横の解像度が前記入力イメージの前記解像度より低いという問題があるが、本発明で新たに提案する方法は、前記入力イメージの前記出力結果の横の解像度が同一であるためこの問題を解決し得る。
【0085】
また、本発明では、マルチロスを用いた学習時に高解像度情報を利用し、実際のテストでは低解像度特徴マップだけでも高解像度の結果が出力され得る。これにより、前記低解像度の特徴マップから高解像度情報を出力し得り、演算量も少なくて処理速度も早くなり得る。
【0086】
図8は、本発明に係る少なくとも一つのROI(Region of Interest)検出方法を示したフローチャートである。
【0087】
以下、
図8を参照して、前記ROI検出のための前記方法は、前述した前記近接障害物検出方法により生成された前記近接障害物各々の前記下段ライン各々の情報を参照し、次のように説明される。
【0088】
まず、
図8を参照すると、
図2ないし
図7を参照して説明した前記障害物検出方法を利用して、前記入力イメージから少なくとも一つの障害物セグメンテーション結果が生成される(S81)。これは
図2の前記S06段階と同じである。
【0089】
具体的に
図2ないし
図6を参照して説明したとおり、前記少なくとも一つの前記特定デコード済み特徴マップを分けることで、前記グリッドの各セルが生成されたとした場合、前記学習装置が、前記第nデコード済み特徴マップないし前記第1デコード済み特徴マップのうち、少なくとも一部の少なくとも一つの特徴を参照にして、前記列ごとにコンカチネートしたチャネルの値を参照して決定される、前記近接障害物各々の最低部分各々が位置する前記特定の行の各々を示す前記障害物セグメンテーション結果を生成したり、生成するように支援し得る。この際、前記列ごとに前記各々の行に対応する各々の値をノーマルライジングするソフトマックス演算によって、例えば、前記各々の値が1と0の間の値を結果として有する前記障害物セグメンテーション結果が獲得される。
【0090】
そして(i)前記列ごとに対応する一番下のセルから前記第2方向へ確認した時、前記近接障害物各々の前記下段ライン各々が実際に位置する原本正解位置の各々に対応する各々の列を示す、少なくとも一つの原本正解イメージ及び(ii)前記特定の行の各々が前記列ごとの前記近接障害物各々の前記下段ライン各々と推定される前記障害物セグメンテーション結果を参照して、少なくとも一つの障害物ロスが算出され得る(S82)。これは
図2の前記S07段階と同じである。
【0091】
その後、前記特定の行の各々をもとに決定されたアンカリング行(anchoring row)各々のピクセルのうち、各々の前記ROI検出に利用されるアンカーボックス(anchor box)を生成するための基礎としての前記列ごとの各々のアンカーが指定され得る(S83)。例えば、前記列ごとの前記アンカリング行各々は、前記列ごとの前記特定の行の各々から前記第2方向に各々第1距離以内及び前記列ごとの前記特定の行の各々から前記第2方向の反対方向に各々第2以内の距離に位置するだろう。そして、RPN(Region Proposal Network)は、前記指定されたアンカー各々をもとに少なくとも一つの前記アンカーボックスを設定して(S84)、前記アンカーボックス各々を参照して、前記アンカーボックスのうち特定物体を含むものと推定される確率が高い特定のアンカーボックスの少なくとも一つのROIバウンディングボックスを生成し得る(S85)。
【0092】
つまり、前記入力イメージ上で前記近接障害物のバウンディングボックスを検出しようとするとき、前記S81段階で探した前記近接障害物各々の一番下の部分各々を前記近接障害物各々の前記下段ライン各々で決定して、前記RPNは、前記下段ライン周辺部分にのみ演算を遂行するのである。
【0093】
図9aは従来のRPNを利用するプロセスを簡略に示し、
図9bは、本発明に係る前記RPNを利用したプロセスを簡略に示す図面である。
【0094】
図9aを参照すれば、前記従来のRPNを利用した前記プロセスは、前記特徴マップ上全てのポイントごとに各々のアンカーを設定して、各アンカーごとにスケール(scale)またはアスペクト比(aspect ratio)が互いに異なる複数の互いに異なるアンカーボックスを生成し、RPN演算を遂行する。このとき、前記全てのポイントはピクセル単位でもあり得り、特定間隔のピクセルでもある得る。
【0095】
これに比べ、
図9bに示した本発明に係る前記RPNを利用した前記プロセスでは、前記近接障害物の下段部分911を示すイメージ910で、前記近接障害物911周辺の所定の領域921(白い丸で表示)がアンカーとして設定されるが、残りの領域のポイントやピクセル922(黒い丸で表示)は、アンカーとして設定されない。
【0096】
つまり、
図9bに示されたライン911は、前記近接障害物の下段ラインとして検出されたことが確認され、前記確認された下段ラインから、前記第2方向へ所定の範囲内にあるポイント921は、前記アンカーに設定され得り、複数の互いに異なるアンカーボックスのスケールまたはアスペクト比ごとに前記アンカー各々に対して前記複数の互いに異なるアンカーボックスを設定して、前記RPN演算が遂行され得る。
【0097】
この際、前記各々の列は、前記第1方向に少なくとも一つのピクセルが含まれ得り、前記各々の行は前記第2方向に少なくとも一つのピクセルが含まれ得るので、前記ポイントまたはピクセル922は、前記列方向に列ごとのピクセルでもあり得り、N
c個に分割された前記グリッド内の前記セルの一つでもあり得る。
【0098】
このように、前記近接障害物周辺の前記アンカーをもとに前記アンカーボックスだけを計算するため、前記RPNの前記演算量を画期的に減らし得る。また、各アンカー当たり前記アンカーボックスの個数を増やして、すなわち、前記スケールと前記アスペクト比の個数を増やして、前記物体検出結果が改善されるため、演算量を減らしながら前記アンカーボックスの可能な組み合わせの数を増やせる付加的効果も存在する。
【0099】
再び
図8を参照すれば、前記推定されたバウンディングボックスとそれに対応する原本正解イメージを参照して、少なくとも一つのバウンディンボックスロスまたは少なくとも一つのRPNロスが生成されるが、前記原本正解イメージは、前記入力イメージで前記近接障害物各々を実際に含む少なくとも一つのバウンディンボックス各々を含み(S86)、前記バウンディンボックスロスはバックプロパゲーションされ、前記CNNの前記パラメータを学習し得る(S87)。この際、前記S87段階では、前記S82段階で算出した前記障害物ロスと、前記S86段階で算出した前記バウンディングボックスロスを一緒に利用し、前記CNNの前記パラメータが学習され得る。例えば、すでに前記近接障害物検出に対する前記CNNの前記パラメータが学習されたなら、前記障害物ロスに対する少なくとも一つの重み付け値は小さく設定し、前記バウンディングボックスロスの少なくとも一つの重み付け値は大きく設定して、前記バックプロパゲーションを遂行し得る。
【0100】
図8及び
図9bに示した前記学習方法は、前記テスト方法にもそのまま適用され得る。
【0101】
すなわち、少なくとも一つのテストイメージから前記近接障害物の前記下段ラインを基準に前記ROIを検出するための前記CNNをテストする方法において、(a)前記学習装置が(i)トレーニングイメージとして、前記入力イメージを獲得して、前記第1コンボリューションレイヤないし前記第nコンボリューションレイヤをもって、前記トレーニングのイメージから逐次的に学習用の第1エンコード済み特徴マップから学習用第nエンコード済み特徴マップを各々生成するようにするプロセス;(ii)前記第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記学習用第nエンコード済み特徴マップから逐次的に学習用第nデコード済み特徴マップないし学習用第1デコード済み特徴マップを生成するようにするプロセス、(iii)前記学習用第nデコード済み特徴マップないし前記学習用第1デコード済み特徴マップの中から少なくとも一つの特定学習用デコード済み特徴マップをその行方向である第1方向及びその列方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記学習用第nデコード済み特徴マップないし前記学習用第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに少なくとも一つの学習用近接障害物各々の下段ライン各々が位置すると推定される学習用特定の行の各々を示す、少なくとも一つの学習用障害物セグメンテーション結果を生成するようにするプロセス、(iv)前記学習用特定の行の各々をもとに推定される学習用アンカリング行各々のピクセルのうち、各々の前記学習用ROI検出に利用される学習用アンカーボックスを生成するための各々の基礎として前記列ごとの学習用アンカー各々を決定するプロセス、(v)前記RPNをもって、(v−1)前記学習用アンカーボックス各々を参照に、少なくとも一つの学習用ROIバウンディングボックスを生成するようにするものの、 前記学習用アンカーボックスのうち少なくとも一つは、前記学習用アンカー各々を基礎に推定され、(v−2)前記学習用ROIバウンディンボックス及びそれに相応する少なくとも一つの第1原本正解イメージを参照して少なくとも一つの第1ロスを生成するようにするものの、前記学習用ROIバウンディンボックスは、前記学習用アンカーボックスのうち、学習用特定物体を含むものと推定される確率が高い特定の学習用アンカーボックスであり、前記第1原本正解イメージは、前記トレーニングイメージ内の前記学習用特定物体を実際に含む学習用バウンディンボックスを示すプロセス、及び(vi)前記第1ロスをバックプロパゲーションして、前記CNNのパラメータを学習するプロセスを学習装置が遂行した状態で、前記学習装置によって学習された前記CNNのパラメータを利用するテスト装置が前記入力イメージをテストイメージとして獲得する段階;(b)前記テスト装置が、前記第1コンボリューションレイヤないし第nコンボリューションレイヤをもって、前記テストイメージから逐次的にテスト用第1エンコード済み特徴マップないしテスト用第nエンコード済み特徴マップを各々生成するようにする段階;(c)前記テスト装置が、前記第nデコンボリューションレイヤないし第1デコンボリューションレイヤをもって、前記テスト用第nエンコード済み特徴マップから逐次的にテスト第nデコード済み特徴マップないしテスト用第1デコード済み特徴マップを生成するようにする段階;(d)前記テスト用第nデコード済み特徴マップないし前記テスト用第1デコード済み特徴マップの中から少なくとも一つの特定テスト用デコード済み特徴マップをその行方向である第1方向、その列方向である第2方向に分けることで、複数の列と複数の行を有するグリッドの各セルが生成されるとした場合、前記テスト装置は、前記テスト用第nデコード済み特徴マップないし前記テスト用第1デコード済み特徴マップのうち、少なくとも一部特徴マップの少なくとも一つの特徴を参照することにより、前記列ごとに前記テスト用近接障害物各々の下段ライン各々が位置すると推定されるテスト用特定の行の各々を示す、少なくとも一つのテスト用障害物セグメンテーション結果を生成する段階;(e)前記テスト装置が、前記テスト用特定の行の各々をもとに推定されるテスト用アンカリング行各々のピクセルのうち、各々のテスト用ROI検出に利用されるテスト用アンカーボックスを生成するための各々の基礎として前記列ごとのテスト用アンカー各々を決定する段階、及び(f)前記テスト装置が、前記RPNをもって、前記テスト用アンカーボックス各々を参照に少なくとも一つのテスト用ROIバウンディンボックスを生成するようにするものの、前記テスト用アンカーボックスのうち少なくとも一つは、前記テスト用アンカー各々を基礎に推定される段階;を含み得る。
【0102】
このように、本発明に係る前記近接障害物検出のための新たな方法は、前記近接障害物の前記下段ライン検出に適用し得り、前記物体の前記下段ラインの周辺領域に対してのみ前記RPN演算を遂行して、前記ROI検出演算量を大きく減らし得る効果がある。
【0103】
前記技術分野の通常の技術者に理解されるものとして、例えば、前記トレーニングイメージ、前記テストイメージ及び前記入力イメージといったイメージデータの送受信が前記学習装置及び前記テスト装置の各通信部によって行われ得り、特徴マップと演算を遂行するためのデータが前記学習装置及び前記テスト装置のプロセッサ(及び/またはメモリ)によって保有/維持され得り、コンボリューション演算、デコンボリューション演算及びロス値の演算が前記学習装置及び前記テスト装置の前記プロセッサによって遂行され得るが、本発明はこれに限定されるものではない。
【0104】
以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。 前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、 CD−ROM、DVDのような光記録媒体、フロプティカルディスク(flopticaldisk)のような磁気−光媒体(magneto−opticalmedia)、およびROM、RAM、フラッシュメモリなどといったプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されことがあり、その逆も同様である。
【0105】
以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。
【0106】
従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。