(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-01-16
(45)【発行日】2025-01-24
(54)【発明の名称】道路抽出装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20250117BHJP
G06V 20/13 20220101ALI20250117BHJP
G06V 10/82 20220101ALI20250117BHJP
【FI】
G06T7/00 350C
G06V20/13
G06V10/82
(21)【出願番号】P 2023216461
(22)【出願日】2023-12-22
【審査請求日】2023-12-22
(31)【優先権主張番号】10-2023-0119685
(32)【優先日】2023-09-08
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】523483418
【氏名又は名称】メイッサ プラネット インコーポレイテッド
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】サゴン、ヨンヒョプ
(72)【発明者】
【氏名】パク、ヒョン スン
(72)【発明者】
【氏名】キム、トン ヨン
【審査官】松永 隆志
(56)【参考文献】
【文献】特表2022-526825(JP,A)
【文献】特表2023-511765(JP,A)
【文献】米国特許出願公開第2021/0073646(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00-19/20
G06V 20/13
G06V 10/82
(57)【特許請求の範囲】
【請求項1】
道路(road)に関する道路画像を収集するためのデータ収集モジュール、及び
ディープラーニング技術を用いて前記道路画像から前記道路を抽出するためのタスク(task)を実行するディープラーニングモジュールを含むが、
前記ディープラーニングモジュールは、
前記道路画像を対象にセグメンテーション(segmentation)を実行する第1ディープラーニング部と、
前記道路画像を対象に物体検出(object detection)を実行する第2ディープラーニング部を含
み、
前記第1ディープラーニング部は、入力データである前記道路画像をエンコーディングして潜在表現(latent representation)に変換する第1エンコーディング部と、前記潜在表現を変換して出力データを生成する第1デコーディング部を含み、
前記第1デコーディング部は、道路形状(road surface)、道路中心線(center line)、前記道路の質感を示すテクスチャ(texture)、前記道路の縁を示す道路エッジ(edge)、および前記道路の角度を示す道路角度(direction)のうち少なくとも1つに関するタスクを実行する第1-1デコーディング部と、建物(building)、植物(plant)、および水域(water)のうち少なくとも1つを含む非道路マーク(not-road mark)に関するタスクを実行する第1-2デコーディング部と、を含む、
道路抽出装置。
【請求項2】
前記道路画像は、
前記道路に関する衛星画像を含む
請求項1に記載の道路抽出装置。
【請求項3】
前記ディープラーニングモジュールは、
マルチタスク学習(multi task learning)を介して学習する
請求項1に記載の道路抽出装置。
【請求項4】
前記ディープラーニングモジュールは、
オートエンコーダ(autoencoder)を用いて前記タスクを実行する
請求項3に記載の道路抽出装置。
【請求項5】
前記第2ディープラーニング部は、
入力データである前記道路画像をエンコーディングして潜在表現(latent representation)に変換する少なくとも1つの
第2エンコーディング部と、
前記潜在表現を変換して出力データを生成する少なくとも1つの
第2デコーディング部を含む
請求項4に記載の道路抽出装置。
【請求項6】
前記
第2ディープラーニング部は複数個の
前記第2デコーディング部
を含み、
前記複数個の第2デコーディング部は、互いに異なる種類のタスクを実行するためにあらかじめ学習する
請求項
5に記載の道路抽出装置。
【請求項7】
前記第2デコーディング部は、
車両(car)を含む道路マーク(road mark)に関するタスクを実行する
請求項
5に記載の道路抽出装置。
【請求項8】
道路(road)に関する道路画像を収集するためのデータ収集モジュール、及び
ディープラーニング技術を用いて前記道路画像から前記道路を抽出するためのタスク(task)を実行するディープラーニングモジュールを含むが、
前記ディープラーニングモジュールは、
前記道路画像を対象にセグメンテーション(segmentation)を実行する第1ディープラーニング部と、
前記道路画像を対象に物体検出(object detection)を実行する第2ディープラーニング部と、
前記第1ディープラーニング部と前記第2ディープラーニング部のそれぞれによって実行されたタスクを併合した後に加工して最終データを生成する後処理モジュールと、を含み、
前記後処理モジュールは、
前記道路に関する非連結領域が存在する場合、当該非連結領域を連結領域に変換する
、
道路抽出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、道路抽出装置及び方法{DEVICE AND METHOD FOR ROAD EXTRACTING}に関するものである。
【0002】
具体的には、本発明は、マルチタスク学習(multi task learning)を介してあらかじめ学習されたディープラーニングモデルを用いて衛星画像から道路を抽出することができる道路抽出装置及び方法に関するものである。
【背景技術】
【0003】
この部分に記述された内容は、単に本実施例に対する背景情報を提供するだけで、従来技術を構成するものではない。
【0004】
現在、地球上空では、気象、通信、放送、農業、宇宙開発、軍事などの目的で、世界中の数百台余りの人工衛星が固有の業務を遂行している。このような人工衛星から撮影された衛星画像は、公共データとして様々な分野で多様に活用されている。
【0005】
このような衛星画像は、非常に高い高度で撮影された画像であるため、最近、これらの衛星画像を、ディープラーニング技術を活用して加工、分析、および/または保存するための技術が脚光を浴びている。
【0006】
特に、これらの衛星画像は、地図(map)を生成または更新するために使用されることが多いが、このとき、その地図を生成または更新するために衛星画像から道路(road)の形態を正確に抽出しようとする技術に関するニーズが十分に存在してきた。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の目的は、マルチタスク学習を介してあらかじめ学習されたディープラーニングモデルを用いることによって、衛星画像からより正確な道路抽出が可能な道路抽出装置及び方法を提供することである。
【0008】
具体的には、本発明の目的は、オートエンコーダのうち一部はセグメンテーション(segmentation)を実行し、他の一部は物体検出(object detection)を実行するが、セグメンテーションを実行するオートエンコーディングモデルのデコーダを複数個配置することによって、互いに異なるタスクの実行が可能な道路抽出装置及び方法を提供することである。
【0009】
また、本発明の目的は、道路形状(road surface)、道路中心線(center line)などに関するタスクだけでなく、道路の質感を示すテクスチャ(texture)、道路の縁を示す道路エッジ(edge)、道路の角度を示す道路角度(direction)、非道路マーク(not-road mark、例えば、建物(building)、植物(plant)、水域(water))、道路マーク(road mark、例えば、車両(car))などに関するテスクを追加で実行することによって、より正確な道路抽出が可能な道路抽出装置及び方法を提供することである。
【0010】
本発明の目的は、以上で言及した目的に制限されず、言及されていない本発明の他の目的および利点は、以下の説明によって理解され、本発明の実施例によってより明確に理解されるだろう。また、本発明の目的および利点は、特許請求の範囲に示される手段およびその組み合わせによって実現できることが容易に分かるだろう。
【課題を解決するための手段】
【0011】
本発明のいくつかの実施例による道路抽出装置は、道路(road)に関する道路画像を収集するデータ収集モジュールおよびディープラーニング技術を用いて前記道路画像から前記道路を抽出するためのタスク(task)を実行するディープラーニングモジュールを含むが、前記ディープラーニングモジュールは、前記道路画像を対象にセグメンテーション(segmentation)を実行する第1ディープラーニング部と、前記道路画像を対象に物体検出(object detection)を実行する第2ディープラーニング部を含むことができる。
【0012】
また、前記道路画像は、前記道路に関する衛星画像を含むことができる。
【0013】
また、前記ディープラーニングモジュールは、マルチタスク学習(multi task learning)を介して学習することができる。
【0014】
また、前記ディープラーニングモジュールは、オートエンコーダ(autoencoder)を用いて前記タスクを実行することができる。
【0015】
また、前記第1ディープラーニング部と前記第2ディープラーニング部は、入力データである前記道路画像をエンコーディングして潜在表現(latent representation)に変換する少なくとも1つのエンコーディング部と、前記潜在表現を変換して出力データを生成する少なくとも1つのデコーディング部を含むことができる。
【0016】
また、前記第1ディープラーニング部と前記第2ディープラーニング部のうち少なくとも1つは、複数個のデコーディング部を含むことができる。
【0017】
また、前記複数個のデコーディング部のそれぞれは、互いに異なる種類のタスクを実行するようにあらかじめ学習することができる。
【0018】
また、前記第1ディープラーニング部に含まれる第1-1デコーディング部は、道路形状(road surface)、道路中心線(center line)、前記道路の質感を示すテクスチャ(texture)、前記道路の縁を示す道路エッジ(edge)、および前記道路の角度を示す道路角度(direction)のうち少なくとも1つに関するタスクを実行し、前記第1ディープラーニング部に含まれる第1-2デコーディング部は、建物(building)、植物(plant)、および水域(water)のうち少なくとも1つを含む非道路マーク(not-road mark)に関するタスクを実行し、前記第2ディープラーニング部に含まれる第2デコーディング部は、車両(car)を含む道路マーク(road mark)に関するタスクを実行することができる。
【0019】
また、前記第1ディープラーニング部と前記第2ディープラーニング部のそれぞれによって実行されたタスクを併合した後に加工して最終データを生成する後処理モジュールをさらに含むことができる。
【0020】
また、前記後処理モジュールは、前記道路に関する非連結領域が存在する場合、当該非連結領域を連結領域に変換することができる。
【発明の効果】
【0021】
本発明のいくつかの実施例による道路抽出装置及び方法は、マルチタスク学習を介してあらかじめ学習されたディープラーニングモデルを用いることによって、衛星画像からより正確な道路抽出が可能な新しい効果を有する。
【0022】
具体的には、本発明のいくつかの実施例による道路抽出装置及び方法は、オートエンコーダのうち一部はセグメンテーション(segmentation)を実行し、他の一部は物体検出(object detection)を実行するが、セグメンテーションを実行するオートエンコーディングモデルのデコーダを複数個配置することによって、さまざまな種類のタスクを実行することができる。
【0023】
また、本発明のいくつかの実施例による道路抽出装置及び方法は、道路形状(road surface)、道路中心線(center line)などに関するタスクだけでなく、道路の質感を示すテクスチャ(texture)、道路の縁を示す道路エッジ(edge)、道路の角度を示す道路角度(direction)などに関するタスクを追加で実行することによって、より正確な道路抽出が可能な顕著な効果を有する。
【0024】
さらに、本発明のいくつかの実施例による道路抽出装置及び方法は、非道路マーク(not-road mark、例えば、建物(building)、植物(plant)、水域(water))、道路マーク(road mark、例えば、車両(car))などに関するテスクを追加で実行することによって、道路抽出の正確度をより向上させることができる新しい効果を有する。
【0025】
前述した内容に加えて、本発明の具体的な効果は、以下の発明を実施するための具体的な事項を説明しながら一緒に説明する。
【図面の簡単な説明】
【0026】
【
図1】
図1は、本発明のいくつかの実施例による道路抽出システムを図示したものである。
【
図2】
図2は、本発明のいくつかの実施例による道路抽出装置のブロック図である。
【
図3a】
図3aは、本発明のいくつかの実施例によるディープラーニングモジュールのニューラルネットワーク構造を説明するための図面である。
【
図3b】
図3bは、本発明のいくつかの実施例によるオートエンコーダを説明するための図面である。
【
図4a】本発明のいくつかの実施例による第1ディープラーニング部と第2ディープラーニング部の構造を説明するための図面である。
【
図4b】本発明のいくつかの実施例による第1ディープラーニング部と第2ディープラーニング部の構造を説明するための図面である。
【
図4c】本発明のいくつかの実施例による第1ディープラーニング部と第2ディープラーニング部の構造を説明するための図面である。
【
図4d】本発明のいくつかの実施例による第1ディープラーニング部と第2ディープラーニング部の構造を説明するための図面である。
【
図5】
図5は、本発明のいくつかの実施例によるディープラーニングモジュールの動作を説明するための概念図である。
【
図6】
図6は、本発明のいくつかの実施例による後処理モジュールの動作を説明するための概念図である。
【
図7】
図7は、本発明のいくつかの実施例による道路抽出方法のフローチャートである。
【
図8】
図8は、本発明のいくつかの実施例による道路抽出方法を実行する道路抽出装置のハードウェアの具現化を説明するための図面である。
【発明を実施するための形態】
【0027】
本明細書および特許請求の範囲で使用される用語または単語は、一般的または辞書的な意味に限定して解釈されてはならない。発明者がその自身の発明を最善の方法で説明するために用語または単語の概念を定義することができるという原則によって、本発明の技術的思想と一致する意味および概念として解釈されるべきである。また、本明細書に記載された実施例と図面に示される構成は、本発明が実現される一つの実施例に過ぎず、本発明の技術的思想を全て代弁するものではないので、本出願時点においてこれらを置き換えることができる様々な均等物と変形および応用可能な例があり得ることを理解すべきである。
【0028】
本明細書および特許請求の範囲で使用される第1、第2、A、Bなどの用語は、様々な構成要素を説明するために使用することができるが、前記構成要素は前記用語によって限定されてはならない。前記用語は、ある構成要素を他の構成要素から区別する目的でのみ使用される。例えば、本発明の権利の範囲から逸脱することなく、第1構成要素を第2構成要素と命名することができ、同様に第2構成要素も第1構成要素と命名することができる。「および/または」という用語は、複数の関連して記載された項目の組み合わせまたは複数の関連して記載された項目のいずれかを含む。
【0029】
本明細書および特許請求の範囲で使用される用語は、単に特定の実施例を説明するために使用されたものであり、本発明を限定することを意図していない。単数の表現は、文脈上明らかに他に意味がない限り、複数の表現を含む。本出願において「含む」または「有する」などの用語は、明細書上に記載されている特徴、数字、段階、動作、構成要素、部品、またはそれらを組み合わせたものの存在または追加の可能性をあらかじめ排除しないことと理解すべきである。
【0030】
他に定義されない限り、技術的または科学的用語を含めて本明細書で使用されるすべての用語は、本発明が属する技術分野で通常の知識を有する者によって一般的に理解されるのと同じ意味を有する。
【0031】
一般的に使用される辞書で定義されているような用語は、関連技術の文脈上の意味と一致する意味を有すると解釈されるべきであり、本出願で明確に定義されていない限り、理想的または過度に形式的な意味として解釈されない。
【0032】
さらに、本発明の各実施例に含まれる各構成、過程、工程、または方法などは、技術的に相互間に矛盾しない範囲で共有することができる。
【0033】
以下では、
図1乃至
図8を参照して、本発明のいくつかの実施例による道路抽出装置及び方法について説明する。
【0034】
図1は、本発明のいくつかの実施例による道路抽出システムを図示したものである。
【0035】
図1を参照すると、本発明のいくつかの実施例による道路抽出システム(1)は、外部データベース(100)、道路抽出装置(200)、および通信ネットワーク(300)を含むことができる。
【0036】
外部データベース(100)は、道路(road)抽出の対象となる元データを保存、管理、および/または送信するデータベースであり得る。
【0037】
いくつかの例では、外部データベース(100)は、コンピュータ、ノートパソコン、モバイル機器、ウェアラブル機器などの様々な形態の電子機器、ワークステーション(workstation)、データセンター、インターネットデータセンター(internet data center(IDC))、DAS(direct attached storage)システム、SAN(storage area network)システム、NAS(network attached storage)システム、及びRAID(redundant array of inexpensive disks、or redundant array of independent disks)システムなどの形態であり得るが、本発明の実施例がこれに制限されるものではない。
【0038】
外部データベース(100)は、道路抽出装置(200)が道路抽出を実行するための元データを道路抽出装置(200)に送信することができる。言い換えれば、道路抽出装置(200)は、外部データベース(100)から道路抽出に関連する元データを受信することができる。
【0039】
元データは、道路抽出の対象となるデータを意味することができる。例えば、元データは、道路の形態が含まれた映像、映像フレーム、画像、パノラマなどを含むことができる。言い換えれば、元データは、道路の形態を含んでいる映像データ、映像フレームデータ、画像データ、パノラマデータなどを含むことができる。ただし、本発明の実施例がこれに制限されるものではない。
【0040】
以下、説明の便宜上、元データは道路画像である場合を想定して説明する。
【0041】
一例では、道路画像は、道路の形態を含んでいる衛星画像を含むことができる。衛星画像は、所定の高さの上空に位置する人工衛星から撮影された画像を意味することができる。この場合、外部データベース(100)は、公共データである衛星画像を保管、保存、分析、および/または管理するデータベースであり得る。
【0042】
道路抽出装置(200)は、道路画像から道路を抽出することができる。言い換えれば、道路抽出装置(200)は、外部データベース(100)から受信した道路画像から道路抽出を実行することができる。
【0043】
このとき、道路抽出装置(200)は、ワークステーション(workstation)、データセンター、インターネットデータセンター(internet data center(IDC))、DAS(direct attached storage)システム、SAN(storage area network)システム、NAS(network attached storage)システム、及びRAID(redundant array of inexpensive disks、or redundant array of independent disks)システムなどの形態であり得るが、本発明の実施例がこれに制限されるものではない。
【0044】
いくつかの例では、道路抽出装置(200)は、ディープラーニング技術を用いて道路画像から道路を抽出するためのタスク(task)を実行することができる。
【0045】
このとき、タスクとは、ディープラーニングモジュールが実行する一連の作業を意味することができる。言い換えれば、タスクとは、ディープラーニングモジュールが所定の結果を導出するために入力値を入力して出力値を出力する一連の過程または作業を意味することができる。
【0046】
例えば、道路抽出装置(200)は、道路画像を対象にコンピュータビジョン(computer vision)に関連するタスクを実行することができる。言い換えれば、道路抽出装置(200)は、道路画像に対する画像分析(image analysis)に関連するタスクを実行することができる。
【0047】
例えば、道路抽出装置(200)は、道路画像を対象に道路の形状および/または特性に関連するセグメンテーション(segmentation)および物体検出(object detection)を実行することができる。ここで、セグメンテーションとは、画像内の各画素がどのクラスに属するかを分類するタスクを意味し、物体検出とは、画像内で特定の物体の位置と種類を識別し、バウンディングボックスなどで表現するタスクを意味する。
【0048】
このとき、本発明の道路抽出装置(200)が用いるディープラーニングモジュールは、マルチタスク学習(multi task learning)を介してあらかじめ学習することができる。言い換えれば、本発明の道路抽出装置(200)に含まれるディープラーニングモジュールは、1つのディープラーニングモデルが様々なタスクを処理するように学習することができる。このとき、本発明のディープラーニングモジュールが用いるディープラーニングモデルはオートエンコーダ(auto encoder)を含むことができるが、本発明の実施例がこれに制限されるものではない。
【0049】
例えば、本発明の道路抽出装置(200)に含まれる第1ディープラーニング部はオートエンコーダに基づいてセグメンテーションを実行し、本発明の道路抽出装置(200)に含まれる第2ディープラーニング部はオートエンコーダに基づいて物体検出を実行することができる。このとき、第1ディープラーニング部と第2ディープラーニング部のうち少なくとも1つは、複数個のエンコーディング部および/または複数個のデコーディング部を含むことができ、このとき、各デコーディング部は、互いに異なるタスクを実行するようにあらかじめ学習することができる。
【0050】
具体的な例として、第1ディープラーニング部に含まれる第1-1デコーディング部は、道路形状(road surface)、道路中心線(center line)、道路の質感を示すテクスチャ(texture)、道路の縁を示す道路エッジ(edge)、および道路の角度を示す道路角度(direction)などに関するセグメンテーションを実行するようにあらかじめ学習することができる。また、第1ディープラーニング部に含まれる第1-2デコーディング部は、建物(building)、植物(plant)、及び水域(water)などを含む非道路マーク(not-road mark)に関するセグメンテーションを実行するようにあらかじめ学習することができる。また、第2ディープラーニング部に含まれる第2デコーディング部は、車両(car)を含む道路マーク(road mark)に関する物体検出を実行するようにあらかじめ学習することができる。
【0051】
このとき、非道路マークは、一般的に道路に含まれていない物体を意味し、逆に道路マークは、一般的に道路に含まれる物体を意味することで、非道路マークと道路マークは本発明の道路抽出装置(200)の管理者によってその種類をあらかじめ定義することができる。
【0052】
すなわち、本発明の道路抽出装置(200)は、非道路マーク(例えば、建物)が検出された領域の場合は道路と判断せず、道路マーク(例えば、車両)が検出された領域の場合は道路と判断することにより、一般的な道路抽出方式からさらに進み、非道路マークと道路マークを用いてより正確な道路抽出を実行することができる新しい効果を有する。
【0053】
道路抽出装置(200)の詳細な動作過程については後述する。
【0054】
一方、通信ネットワーク(300)は、外部データベース(100)と道路抽出装置(200)とを連結する役割を果たす。すなわち、通信ネットワーク(300)は、道路抽出装置(200)が外部データベース(100)からデータを送受信できるように接続経路を提供する通信ネットワークを意味する。通信ネットワーク(300)は、例えば、LANs(Local Area Networks)、WANs(Wide Area Networks)、MANs(Metropolitan Area Networks)、ISDNs(Integrated Service Digital Networks)などの有線ネットワークや、無線LANs、CDMA、ブルートゥース(登録商標)、衛星通信などの無線ネットワークを網羅することができるが、本発明の範囲がこれに限定されるものではない。
【0055】
以下、
図2を参照して、道路抽出装置(200)の動作についてさらに詳細に説明する。
【0056】
図2は、本発明のいくつかの実施例による道路抽出装置のブロック図である。
【0057】
図1及び
図2を参照すると、道路抽出装置(200)は、道路画像(Road Image、以下「RI」という)を受信した後、受信された道路画像(RI)から道路抽出を実行し、最終データ(Final Data、以下「FD」という)を生成することができる。
【0058】
具体的には、道路抽出装置(200)は、データ収集モジュール(210)、ディープラーニングモジュール(220)、および後処理モジュール(230)を含むことができる。ディープラーニングモジュール(220)は、第1ディープラーニング部(221)と第2ディープラーニング部(222)とを含むことができる。
【0059】
データ収集モジュール(210)は、道路画像(RI)を受信することができる。言い換えれば、データ収集モジュール(210)は、外部データベース(100)から道路画像(RI)を受信することができる。
【0060】
このとき、道路画像(RI)は、道路の形態を含んでいる衛星画像を含むことができる。衛星画像は、所定の高さの上空に位置する人工衛星から撮影された画像を意味することができる。すなわち、道路抽出装置(200)は、公共データである衛星画像を保管、保存、分析、および/または管理するデータベースである外部データベース(100)から衛星画像を含む道路画像(RI)を受信することができる。
【0061】
データ収集モジュール(210)は、受信された道路画像(RI)を道路抽出装置(200)内の他の構成要素に伝送することができる。例えば、データ収集モジュール(210)は道路画像(RI)をディープラーニングモジュール(220)に伝送することができるが、本発明がこれに制限されるものではない。
【0062】
データ収集モジュール(210)は様々な通信モジュールを用いることができ、通信ネットワーク(
図1の300)を介して外部データベース(100)と道路抽出装置(200)との間でデータ交換を実行することができる。
【0063】
ディープラーニングモジュール(220)は、道路画像(RI)から道路を抽出するためのタスク(task)を実行することができる。言い換えれば、ディープラーニングモジュール(220)は道路画像(RI)に対して、道路抽出に関連するタスクを実行してタスク実行結果(Task Result、以下「TR」という)を生成することができる。
【0064】
このとき、ディープラーニングモジュール(220)は、第1ディープラーニング部(221)と第2ディープラーニング部(222)を含むことができ、これによって、第1ディープラーニング部(221)は、第1タスク実行結果(TR1)を生成することができ、第2ディープラーニング部(222)は、第2タスク実行結果(TR2)を生成することができる。
【0065】
ディープラーニングモジュール(220)が実行するタスクとは、ディープラーニングモジュール(220)が実行する一連の作業を意味することができる。言い換えれば、タスクとは、ディープラーニングモジュール(220)が所定の結果を導出するために入力値を入力して出力値を出力する一連の過程または作業を意味することができる。
【0066】
例えば、ディープラーニングモジュール(220)は、道路画像を対象にコンピュータビジョン(computer vision)に関連するタスクを実行することができる。言い換えれば、ディープラーニングモジュール(220)は、道路画像に対する画像分析(image analysis)に関連するタスクを実行することができる。例えば、ディープラーニングモジュール(220)は、道路画像を対象に道路の特性に関連するセグメンテーション(segmentation)と物体検出(object detection)を実行することができる。ここで、セグメンテーションとは、画像内の各画素がどのクラスに属するかを分類するタスクを意味し、物体検出とは、画像内で特定の物体の位置と種類を識別し、バウンディングボックスなどで表現するタスクを意味する。
【0067】
このとき、ディープラーニングモジュール(220)は、マシンラーニング(machine learning)に基づいて学習することができる。
【0068】
より詳細に説明すると、マシンラーニング(Machine Learning)の一種であるディープラーニング(Deep Learning)技術は、データに基づいて多段階で深いレベルまで下がって学習することである。すなわち、ディープラーニングは、段階を上げながら複数のデータから核心的なデータを抽出するマシンラーニングアルゴリズムの集合を示す。
【0069】
いくつかの例では、ディープラーニングモジュール(220)は、公知の様々なディープラーニング構造を利用することができる。例えば、ディープラーニングモジュール(220)は、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、DBN(Deep Belief Network)、GNN(Graph Neural Network)、GAN(Generative Adversarial Network)、Transformer、Autoencoderなどの構造を利用することができる。
【0070】
具体的には、CNN(Convolutional Neural Network)は、人が物体を認識するときに物体の基本的な特徴を抽出した後、脳内で複雑な計算を実行し、その結果に基づいて物体を認識するという仮定を基にして作られた人の脳機能を模写したモデルである。CNNは、公知のLeNet、AlexNet、VGGNet、GoogleNet、ResNetなどの構造を含むことができるが、これらに制限されるものではない。
【0071】
RNN(Recurrent Neural Network)は、自然言語処理などに多く用いられ、時間の経過とともに変化する時系列データ(Time-series data)処理に効果的な構造で、瞬間ごとに層を積み上げて人工ニューラルネットワーク構造を構成することができる。
【0072】
DBN(Deep Belief Network)は、ディープラーニング技術であるRBM(Restricted Boltzmann Machine)を多層に積み重ねて構成されるディープラーニング構造である。RBM(Restricted Boltzmann Machine)学習を繰り返して一定数の層になると、該当個数の層を有するDBN(Deep Belief Network)を構成することができる。
【0073】
GNN(Graphic Neural Network、グラフィックニューラルネットワーク、以下「GNN」という)は、特定のパラメータ間にマッピングされたデータに基づいてモデル化されたモデリングデータを用いて、モデリングデータ間の類似度と特徴点を導出する方式で具現された人工ニューラルネットワーク構造を示す。
【0074】
GAN(Generative Adversarial Network、敵対的生成ニューラルネットワーク、以下「GAN」という)は、生成ニューラルネットワークと区別ニューラルネットワークを用いて、入力されたデータと類似した形態の新しいデータを作り出す人工ニューラルネットワーク構造を示す。GANは、公知のDCGAN(Deep Convolutional GAN)、CGAN(Conditional GAN)、WGAN(Wasserstein GAN)、StyleGAN(Style-Based GAN)、CycleGANなどを含むことができるが、本発明の実施例がこれに制限されるものではない。
【0075】
Transformer(トランスフィーマー)は、アテンションを活用したエンコーダ-デコーダ構造の人工ニューラルネットワークであり、入力シーケンスと出力シーケンス間の全体的な意味を把握することができる。トランスフィーマーは、アテンション(Attention)メカニズムを使用して、入力シーケンスのすべての要素が出力シーケンスに影響を与えるようにし、それを通じてエンコーダとデコーダの両方がシーケンス全体を考慮することができる。トランスフィーマーは、自然言語、時系列データだけでなく、画像をパッチ化して入力として使用することができる。
【0076】
Autoencoder(オートエンコーダ)は、データの特徴を抽出して再構成する役割を果たすディープラーニング構造である。代表的に、オートエンコーダは、入力値を圧縮するエンコーダと、圧縮されたデータを復元するデコーダとを含む。エンコーダは、入力値を低次元の潜在表現(latent representation)に変換し、デコーダは、潜在表現を入力値と同じ次元に復元する。このとき、エンコーダとデコーダは、それぞれ多層パーセプトロン(MLP)で構成することができる。オートエンコーダを学習するときには入力データを入力し、出力値と入力値との差を最小化する方向に加重値と偏向を学習させる。このように学習されたオートエンコーダは、入力データの特徴をうまく抽出し、ノイズのある入力データを復元することができる。オートエンコーダは、主にデータ圧縮、次元縮小、ノイズ除去、データ生成などの分野で活用し、また、画像認識、自然言語処理、音声認識などの分野でも活用することができる。
【0077】
一方、ディープラーニングモジュール(220)の人工ニューラルネットワーク学習は、与えられた入力に対して所望の出力が出るようにノード間接続線のウエイト(weight)を調整(必要な場合、バイアス(bias)値も調整)することによって実行することができる。さらに、人工ニューラルネットワークは、学習によってウエイト(weight)値を継続的に更新することができる。また、人工ニューラルネットワークの学習には逆伝播(Back Propagation)などの方法を用いることができる。
【0078】
このとき、人工ニューラルネットワークのマシンラーニング方法としては、自律学習(unsupervised learning)、準指導学習(semi-supervised learning)、指導学習(supervised learning)などを用いることができる。さらに、ディープラーニングモジュール(220)は、設定によって学習後分析データを出力するための人工ニューラルネットワーク構造を自動的に更新するように制御することができる。
【0079】
このとき、本発明のいくつかの実施例によるディープラーニングモジュール(220)は、マルチタスク学習(multi task learning)を介してあらかじめ学習することができる。言い換えれば、ディープラーニングモジュール(220)は、1つのディープラーニングモデルが様々なタスクを処理するように学習することができる。このとき、本発明のディープラーニングモジュールが用いるディープラーニングモデルは、前述したオートエンコーダ(auto encoder)を含むことができるが、本発明の実施例がこれに制限されるものではない。
【0080】
例えば、第1ディープラーニング部(221)はオートエンコーダに基づいてセグメンテーションを実行し、第2ディープラーニング部(222)はオートエンコーダに基づいて物体検出を実行することができる。このとき、第1ディープラーニング部と第2ディープラーニング部のうち少なくとも1つは、複数個のエンコーディング部および/または複数個のデコーディング部を含むことができ、このとき、各デコーディング部は、互いに異なるタスクを実行するようにあらかじめ学習することができる。
【0081】
具体的な例として、第1ディープラーニング部(221)に含まれる第1-1デコーディング部は、道路形状(road surface)、道路中心線(center line)、道路の質感を示すテクスチャ(texture)、道路の縁を示す道路エッジ(edge)、および道路の角度を示す道路角度(direction)などに関するセグメンテーションを実行するようにあらかじめ学習することができる。また、第1ディープラーニング部(221)に含まれる第1-2デコーディング部は、建物(building)、植物(plant)、及び水域(water)などを含む非道路マーク(not-road mark)に関するセグメンテーションを実行するようにあらかじめ学習することができる。さらに、第2ディープラーニング部(222)に含まれる第2デコーディング部は、車両(car)を含む道路マーク(road mark)に関する物体検出を実行するようにあらかじめ学習することができる。
【0082】
このとき、非道路マークは、一般的に道路に含まれていない物体を意味し、逆に道路マークは、一般的に道路に含まれる物体を意味することで、非道路マークと道路マークは本発明の道路抽出装置(200)の管理者によってその種類を事前に定義することができる。
【0083】
すなわち、本発明のディープラーニングモジュール(220)は、非道路マーク(例えば、建物)が検出された領域の場合は道路と判断せず、道路マーク(例えば、車両)が検出された領域の場合は道路と判断することにより、一般的な道路抽出方式からさらに進み、非道路マークと道路マークを用いてより正確な道路抽出を実行することができる新しい効果を有する。
【0084】
以下、
図3aを参照して、本発明のいくつかの実施例によるディープラーニングモジュール(220)のニューラルネットワーク構造についてさらに詳細に説明する。
【0085】
図3aは、本発明のいくつかの実施例によるディープラーニングモジュールのニューラルネットワーク構造を説明するための図面である。
【0086】
図3aを参照すると、本発明のいくつかの実施例によるディープラーニングモジュール(220)は、道路画像を入力ノードとする入力層(input)と、タスク実行結果を出力ノードとする出力層(Output)と、入力層と出力層との間に配置されるM個の隠れ層を含むことができる。
【0087】
ここで、各層のノードを連結するエッジ(edge)に加重値を設定することができる。これらの加重値あるいはエッジの有無は、学習過程で追加、削除、または更新することができる。したがって、学習過程を通じて、k個の入力ノードとi個の出力ノードとの間に配置されるノードおよびエッジの加重値を更新することができる。
【0088】
ディープラーニングモジュール(220)が学習を実行する前に、すべてのノードおよびエッジを初期値に設定することができる。しかし、累積して情報が入力される場合、ノード及びエッジの加重値は変更され、この過程で学習因子に入力されるパラメータ(道路画像)と出力ノードに割り当てられる値(タスク実行結果)との間のマッチングが行われることがあり得る。
【0089】
追加的に、クラウドサーバを使用する場合、ディープラーニングモジュール(220)は、多数のパラメータを受信して処理することができる。したがって、ディープラーニングモジュール(220)は、膨大なデータに基づいて学習を実行することができる。
【0090】
ディープラーニングモジュール(220)を構成する入力ノードと出力ノードとの間のノードおよびエッジの加重値は、ディープラーニングモジュール(220)の学習過程によって更新することができる。また、ディープラーニングモジュール(220)で入力または出力されるパラメータは、道路画像、タスク実行結果以外にも様々なデータに追加拡張できることは言うまでもない。
【0091】
以下、
図3bを参照して、本発明で用いられるオートエンコーダについてさらに詳細に説明する。
【0092】
図3bは、本発明のいくつかの実施例によるオートエンコーダを説明するための図面である。
【0093】
図3bを参照すると、オートエンコーダ(Autoencoder、以下「AE」という)は、エンコーダニューラルネットワーク(Encoder Network;以下、エンコーダ部(EN))とデコーダニューラルネットワーク(Decoder Network;以下、デコーダ部(DN))を含み、エンコーダ部(EN)とデコーダ部(DN)との間に配置される中間層(Middle Layer;ML)を含むことができる。
【0094】
オートエンコーダ(AE)は、エンコーダ部(EN)を介して入力されたデータ(すなわち、入力データ)を圧縮してデータを縮小した後、デコーダ部(DN)を用いて縮小されたデータをエンコーダ部(EN)で入力データと同じサイズに変換して出力することで、オートエンコーダ(AE)の出力データを入力データと同じにする一種のディープニューラルネットワークモデル(Deep Neural Network Model)である。
【0095】
オートエンコーダ(AE)は、入力データの特徴を非指導(unsupervised)方式で学習する。このために、オートエンコーダ(AE)は、エンコーダ部(EN)を介して入力されたデータを、当該特徴をうまく表現する低次元データ(潜在表現(Latent Representation))に変換し、変換されたデータは以後にデコーダ部(DN)を介して再び元データに復元することができる。
【0096】
オートエンコーダ(AE)は、元データ(X1、X2、X3、X4;すなわち、入力データ(道路画像))と復元されたデータ(X1’、X2’、X3’、X4’;すなわち、出力データ(タスク実行結果))との間の違いに該当する再構成エラーを最小限にすることを目的として、元データに内在されているパターンを学習することができる。
【0097】
以下、
図4aおよび
図4bを参照して、本発明のいくつかの実施例によるディープラーニングモジュール(220)の構造を説明する。すなわち、以下では、
図4a及び
図4bを通じて、前述したオートエンコーダを介して具現された第1ディープラーニング部(221)と第2ディープラーニング部(222)の構成を説明する。
【0098】
図4a乃至
図4dは、本発明のいくつかの実施例による第1ディープラーニング部と第2ディープラーニング部の構造を説明するための図面である。
【0099】
図4a乃至
図4dを参照すると、前述したように、本発明のいくつかの実施例によるディープラーニングモジュール(220)は、マルチタスク学習(multi task learning)に基づいてあらかじめ学習することができ、これを具現するためにディープラーニングモジュール(220)は、第1ディープラーニング部(221)と第2ディープラーニング部(222)とに分離して設計することができ、このとき、第1ディープラーニング部(221)と第2ディープラーニング部(222)のうち少なくとも1つは、複数個のエンコーダ部および/または複数個のデコーダ部を含むことができる。
【0100】
具体的に説明すると、
図4aは、ディープラーニングモジュール(220)が第1ディープラーニング部(221)と第2ディープラーニング部(222)とに分離されて設計されており、このとき、第1ディープラーニング部(221)と第2ディープラーニング部(222)は、それぞれエンコーディング部(221a、222a)とデコーディング部(221b、222b)を含み、第1デコーディング部(221b)は、第1-1デコーディング部(221b_1)と第1-2デコーディング部(221b_2)などに分離されて設計された構造を図示したものである。
【0101】
図4bは、ディープラーニングモジュール(220)が第1ディープラーニング部(221)と第2ディープラーニング部(222)とに分離されて設計されており、このとき、第1ディープラーニング部(221)と第2ディープラーニング部(222)は、それぞれエンコーディング部(221a、222a)とデコーディング部(221b、222b)を含み、第2デコーディング部(222b)は、第2-1デコーディング部(222b_1)と第2-2デコーディング部(222b_2)などに分離されて設計された構造を図示したものである。
【0102】
図4cは、ディープラーニングモジュール(220)が第1ディープラーニング部(221)と第2ディープラーニング部(222)とに分離されて設計されており、このとき、第1ディープラーニング部(221)と第2ディープラーニング部(222)は、それぞれエンコーディング部(221a、222a)とデコーディング部(221b、222b)を含み、第1デコーディング部(221b)は、第1-1デコーディング部(221b_1)と第1-2デコーディング部(221b_2)などに分離されて設計されており、第2デコーディング部(222b)は、第2-1デコーディング部(222b_1)と第2-2デコーディング部(222b_2)などに分離されて設計された構造を図示したものである。
【0103】
図4dは、ディープラーニングモジュール(220)が第1ディープラーニング部(221)と第2ディープラーニング部(222)とに分離されて設計されており、このとき、第1ディープラーニング部(221)と第2ディープラーニング部(222)は、それぞれエンコーディング部(221a、222a)とデコーディング部(221b、222b)を含み、第1エンコーディング部(221a)は、第1-1エンコーディング部(221a_1)と第1-2エンコーディング部(221a_2)などに分離されて設計されており、第2デコーディング部(222b)は、第2-1デコーディング部(222b_1)と第2-2デコーディング部(222b_2)などに分離されて設計された構造を図示したものである。
【0104】
このとき、複数個のエンコーディング部および/または複数個のデコーディング部は、互いに異なるタスクを実行するようにあらかじめ学習することができ、この構成によってマルチタスク学習が行われた本発明のディープラーニングモジュール(220)は、1つのディープラーニングモデル(オートエンコーダ)を介してさまざまなタスクを処理することができる。
【0105】
以下、
図5を参照して、本発明のディープラーニングモジュール(220)のマルチタスク学習方式の具体的な例を説明する。ここで、説明の便宜上、マルチタスク学習を具現するための本発明のディープラーニングモジュール(220)の構造は、
図4aに図示された構造である場合を想定して説明する。
【0106】
図5は、本発明のいくつかの実施例によるディープラーニングモジュールの動作を説明するための概念図である。具体的には、
図5は、本発明のディープラーニングモジュール(220)の構造が前述した
図4aに図示された構造である場合の動作方式を図示したものである。
【0107】
図5を参照すると、本発明のいくつかの実施例によるディープラーニングモジュール(220)は、第1ディープラーニング部(221)と第2ディープラーニング部(222)を含むことができ、このとき、第1ディープラーニング部(221)及び第2ディープラーニング部(222)は、それぞれエンコーディング部(221a、222a)とデコーディング部(221b、222b)を含むことができる。
【0108】
第1ディープラーニング部(221)は、第1エンコーディング部(221a)と第1デコーディング部(221b)を介して道路画像(RI)に対するセグメンテーションを実行することができ、第2ディープラーニング部(222)は、2エンコーディング部(222a)と第2デコーディング部(222b)を介して道路画像(RI)に対する物体検出を実行することができる。セグメンテーションとは、道路画像(RI)内の各画素がどのクラスに属するかを分類するタスクを意味することができ、物体検出とは、道路画像(RI)内で特定物体の位置と種類を識別してバウンディングボックス(BB)などで表現するタスクを意味することができる。
【0109】
いくつかの例では、第1ディープラーニング部(221)に含まれる第1エンコーディング部(221a)は、セグメンテーションを実行するための方式であらかじめ学習することができ、第2ディープラーニング部(222)に含まれる第2エンコーディング部(222a)は、物体検出を実行するための方式であらかじめ学習することができる。このとき、第1エンコーディング部(221a)と第2エンコーディング部(222a)は、それぞれのタスクを実行するために、互いに異なるエンコーダ構造を有することができる。例えば、第1エンコーディング部(221a)と第2エンコーディング部(222a)は、ニューラルネットワークの深さ(depth)、ダウンサンプリングの有無、含まれる層(layer)の種類、スキップコネクション(skip connection)の有無などが異なるようにあらかじめ学習することができる。
【0110】
前述したマルチタスク学習を具現するために、本発明の第1デコーディング部(221b)は、複数個のデコーディング部(221b_1、221b_2など)を含むことができる。言い換えれば、本発明の第1デコーディング部(221b)は、第1-1デコーディング部(221b_1)、第1-2デコーディング部(221b_2)などを含むことができる。
【0111】
このとき、第1デコーディング部(221b)に含まれる各デコーディング部(221b_1、221b_2など)は、互いに異なるタスクを実行するようにあらかじめ学習することができる。言い換えれば、第1ディープラーニング部(221)はセグメンテーションを実行するように学習されるが、このとき、第1デコーディング部(221b)に含まれる各デコーディング部(221b_1、221b_2など)はセグメンテーションの中でも互いに異なるセグメンテーションタスクを実行するようにあらかじめ学習することができる。
【0112】
具体的な例として、第1ディープラーニング部(221)に含まれる第1-1デコーディング部(221b_1)は、道路形状(road surface)、道路中心線(center line)、道路の質感を示すテクスチャ(texture)、道路の縁を示す道路エッジ(edge)、及び道路の角度を示す道路角度(direction)などに関するセグメンテーションを実行するようにあらかじめ学習することができる。
【0113】
図5に図示された第1-1デコーディング部(221b_1)のタスク実行結果(TR1_1)は、第1エンコーディング部(221a)が道路画像(RI)を潜在表現に変換した後、当該潜在表現に対して第1-1デコーディング部(221b_1)が道路形状(road surface)に関するセグメンテーションを実行した場合を図示したものである。
【0114】
また、第1ディープラーニング部(221)に含まれる第1-2デコーディング部(221b_2)は、建物(building)、植物(plant)、及び水域(water)などを含む非道路マーク(not-road mark)に関するセグメンテーションを実行するようにあらかじめ学習することができる。このとき、非道路マークは一般的に道路に含まれていない物体を意味するものであり、非道路マークの種類は本発明の道路抽出装置(200)の管理者によってあらかじめ定義することができる。
【0115】
図5に図示された第1-2デコーディング部(221b_2)のタスク実行結果(TR1_2)は、第1エンコーディング部(221a)が道路画像(RI)を潜在表現に変換した後、当該潜在表現に対して第1-2デコーディング部(221b_2)が非道路マークの一例である建物(building)に関するセグメンテーションを実行した場合を図示したものである。
【0116】
前述したように、互いに異なるセグメンテーションタスクを実行するために、本発明の第1-1デコーディング部(221b_1)と第1-2デコーディング部(221b_2)は、互いに異なるデコーダ構造を有することができる。例えば、第1-1デコーディング部(221b_1)と第1-2デコーディング部(221b_2)は、デコーダのニューラルネットワーク構造(アーキテクチャ、architecture)、損失関数(Loss Function)の種類、正規化関数(Normalization Function)の有無及び種類、活性化関数(Activation Function)の種類などが異なることがある。このとき、ニューラルネットワーク構造は、出力層の個数、含まれる層の種類(例えば、U-Net、FCL(Fully Connected Layer))などを含むことができる。
【0117】
一方、第2ディープラーニング部(222)に含まれる第2デコーディング部は、道路マーク(road mark)に関する物体検出を実行するようにあらかじめ学習することができる。このとき、道路マークは、一般的に道路に含まれる物体を意味するものであり、道路マークの種類は本発明の道路抽出装置(200)の管理者によってあらかじめ定義することができる。
【0118】
図5に図示された第2デコーディング部(222b)のタスク実行結果(TR2)は、第2エンコーディング部(222a)が道路画像(RI)を潜在表現に変換した後、当該潜在表現に対して第2デコーディング部(222b)が道路マークの一例である車両(car)に関する物体検出を実行した場合を図示したものである。物体検出の結果として、
図5には、タスク実行結果(TR2)がバウンディングボックス(BB)を含むように図示されている。
【0119】
このようなマルチタスク学習が実行された本発明のディープラーニングモジュール(220)は、1つのディープラーニングモデル(オートエンコーダ)を介して様々なタスクを処理することができる。
【0120】
総合すると、本発明のディープラーニングモジュール(220)は、道路形状(road surface)、道路中心線(center line)、道路の質感を示すテクスチャ(texture)、道路の縁を示す道路エッジ(edge)、および道路の角度を示す道路角度(direction)などを検出した後、非道路マーク(例えば、建物)が検出された領域の場合は道路と判断せず、道路マーク(例えば、車両)が検出された領域の場合は道路と判断することができる。これによって、本発明のディープラーニングモジュール(220)は、一般的な道路抽出方式からさらに進み、非道路マークと道路マークを用いてより正確な道路抽出を実行することができる新しい効果を有する。
【0121】
再び
図1および
図2を参照すると、ディープラーニングモジュール(220)は、タスク実行結果(TR1、TR2)を後処理モジュール(230)に伝送することができる。言い換えれば、第1ディープラーニング部(221)は、第1タスク実行結果(TR1)を後処理モジュール(230)に伝送することができ、第2ディープラーニング部(222)は、第2タスク実行結果(TR2)を後処理モジュール(230)に伝送することができる。
【0122】
後処理モジュール(230)は、ディープラーニングモジュール(220)のタスク実行結果に基づいて最終データ(FD)を生成することができる。言い換えれば、後処理モジュール(230)は、第1タスク実行結果(TR1)と第2タスク実行結果(TR2)に基づいて最終データ(FD)を生成することができる。
【0123】
以下、
図6を参照して、本発明のいくつかの実施例による後処理モジュール(230)の動作についてさらに詳細に説明する。
【0124】
図6は、本発明のいくつかの実施例による後処理モジュールの動作を説明するための概念図である。
【0125】
図2及び
図6を参照すると、後処理モジュール(230)は、第1タスク実行結果(TR1)と第2タスク実行結果(TR2)を併合した後に加工して最終データ(FD)を生成することができる。このとき、前述したように、マルチタスク学習を具現するために、第1デコーディング部(
図5の221b)を複数個のデコーディング部(
図5の221b_1、221b_2)で具現することができ、それによって第1タスク実行結果(TR1)は、第1-1タスク実行結果(TR1_1)と第1-2タスク実行結果(TR1_2)を含むことができる。
【0126】
いくつかの例では、後処理モジュール(230)は、第1タスク実行結果(TR1)と第2タスク実行結果(TR2)を併合した後に加工して最終データ(FD)を生成することができる。例えば、後処理モジュール(230)は、リファインメントネットワーク(refinement network)を含むことができ、このようなリファインメントネットワークを介して最終データ(FD)を生成することができる。
【0127】
このとき、後処理モジュール(230)は、道路に関する非連結領域が存在する場合、該当する非連結領域を連結領域に変換することができる。言い換えれば、後処理モジュール(230)は、第1タスク実行結果(TR1)と第2タスク実行結果(TR2)の併合結果に非連結領域が存在する場合、該当する非連結領域を連結領域に変換することができる。
【0128】
一例では、後処理モジュール(230)は、一般的なノイズ(noise)除去技法、平滑化(smoothing)、二進化(binarization)、モルフォロジー演算(morphological operation)などを実行して非連結領域を連結領域に変換することができる。ただし、本発明の実施例がこれに制限されるものではない。
【0129】
図7は、本発明のいくつかの実施例による道路抽出方法のフローチャートである。
図7の各段階(S100乃至S300)は、道路抽出装置(
図1および
図2の200)によって実行することができる。以下、重複する内容は除いて簡単に説明する。
【0130】
図1、
図2、及び
図7を参照すると、まず、道路(road)に関する道路画像を収集することができる(S100)。
【0131】
いくつかの例では、データ収集モジュール(210)は道路画像(RI)を受信することができる。言い換えれば、データ収集モジュール(210)は、外部データベース(100)から道路画像(RI)を受信することができる。
【0132】
このとき、道路画像(RI)は、道路の形態を含んでいる衛星画像を含むことができる。衛星画像は、所定の高さの上空に位置する人工衛星から撮影された画像を意味することができる。すなわち、道路抽出装置(200)は、公共データである衛星画像を保管、保存、分析、および/または管理するデータベースである外部データベース(100)から衛星画像を含む道路画像(RI)を受信することができる。
【0133】
次に、ディープラーニング技術を用いて前記道路画像から前記道路を抽出するためのタスク(task)を実行することができる(S200)。
【0134】
ディープラーニングモジュール(220)が実行するタスクとは、ディープラーニングモジュール(220)が実行する一連の作業を意味することができる。言い換えれば、タスクとは、ディープラーニングモジュール(220)が所定の結果を導出するために入力値を入力して出力値を出力する一連の過程または作業を意味することができる。例えば、ディープラーニングモジュール(220)は、道路画像を対象にコンピュータビジョン(computer vision)に関連するタスクを実行することができる。言い換えれば、ディープラーニングモジュール(220)は、道路画像に対する画像分析(image analysis)に関連するタスクを実行することができる。例えば、ディープラーニングモジュール(220)は、道路画像を対象に道路の特性に関連するセグメンテーション(segmentation)と物体検出(object detection)を実行することができる。ここで、セグメンテーションとは、画像内の各画素がどのクラスに属するかを分類するタスクを意味し、物体検出とは、画像内で特定物体の位置と種類を識別し、バウンディングボックスなどで表現するタスクを意味する。このとき、ディープラーニングモジュール(220)は、第1ディープラーニング部(221)と第2ディープラーニング部(222)を含むことができ、それによって第1ディープラーニング部(221)は、第1ダスク実行結果(TR1)を生成することができ、第2ディープラーニング部(222)は、第2タスク実行結果(TR2)を生成することができる。
【0135】
いくつかの例では、本発明のいくつかの実施例によるディープラーニングモジュール(220)は、マルチタスク学習(multi task learning)を介してあらかじめ学習することができる。言い換えれば、ディープラーニングモジュール(220)は、1つのディープラーニングモデルが様々なタスクを処理するように学習することができる。このとき、本発明のディープラーニングモジュールが用いるディープラーニングモデルは、前述したオートエンコーダ(auto encoder)を含むことができるが、本発明の実施例がこれに制限されるものではない。
【0136】
例えば、第1ディープラーニング部(221)はオートエンコーダに基づいてセグメンテーションを実行し、第2ディープラーニング部(222)はオートエンコーダに基づいて物体検出を実行することができる。このとき、第1ディープラーニング部と第2ディープラーニング部のうち少なくとも1つは、複数個のエンコーディング部および/または複数個のデコーディング部を含むことができ、このとき、各デコーディング部は、互いに異なるタスクを実行するようにあらかじめ学習することができる。
【0137】
具体的な例として、第1ディープラーニング部(221)に含まれる第1-1デコーディング部は、道路形状(road surface)、道路中心線(center line)、道路の質感を示すテクスチャ(texture)、道路の縁を示す道路エッジ(edge)、および道路の角度を示す道路角度(direction)などに関するセグメンテーションを実行するようにあらかじめ学習することができる。また、第1ディープラーニング部(221)に含まれる第1-2デコーディング部は、建物(building)、植物(plant)、および水域(water)などを含む非道路マーク(not-road mark)に関するセグメンテーションを実行するようにあらかじめ学習することができる。さらに、第2ディープラーニング部(222)に含まれる第2デコーディング部は、車両(car)を含む道路マーク(road mark)に関する物体検出を実行するようにあらかじめ学習することができる。
【0138】
このとき、非道路マークは、一般的に道路に含まれていない物体を意味し、逆に道路マークは、一般的に道路に含まれる物体を意味することで、非道路マークと道路マークは本発明の道路抽出装置(200)の管理者によってその種類をあらかじめ定義することができる。
【0139】
すなわち、本発明のディープラーニングモジュール(220)は、非道路マーク(例えば、建物)が検出された領域の場合は道路と判断せず、道路マーク(例えば、車両)が検出された領域の場合は道路と判断することにより、一般的な道路抽出方式からさらに進み、非道路マークと道路マークを用いてより正確な道路抽出を実行することができる新しい効果を有する。
【0140】
次に、実行された各タスクを後処理して出力することができる(S300)。
【0141】
いくつかの例では、後処理モジュール(230)は、ディープラーニングモジュール(220)のタスク実行結果に基づいて最終データ(FD)を生成することができる。言い換えれば、後処理モジュール(230)は、第1タスク実行結果(TR1)と第2タスク実行結果(TR2)に基づいて最終データ(FD)を生成することができる。
【0142】
例えば、後処理モジュール(230)は、第1タスク実行結果(TR1)と第2タスク実行結果(TR2)を併合した後に加工して最終データ(FD)を生成することができる。例えば、後処理モジュール(230)は、リファインメントネットワーク(refinement network)を含むことができ、このようなリファインメントネットワークを介して最終データ(FD)を生成することができる。
【0143】
このとき、後処理モジュール(230)は、道路に関する非連結領域が存在する場合、該当する非連結領域を連結領域に変換することができる。言い換えれば、後処理モジュール(230)は、第1タスク実行結果(TR1)と第2タスク実行結果(TR2)の併合結果に非連結領域が存在する場合、該当する非連結領域を連結領域に変換することができる。
【0144】
図8は、本発明のいくつかの実施例による道路抽出方法を実行する道路抽出装置のハードウェア具現を説明するための図面である。
【0145】
図8を参照すると、本発明のいくつかの実施例による道路抽出方法を実行する道路抽出装置(200)は、電子装置(1000)で具現することができる。電子装置(1000)は、コントローラ(1010、controller)、入出力装置(1020、I/O)、メモリ装置(1030、memory device)、インターフェース(1040、interface)、およびバス(1050、bus)を含むことができる。コントローラ(1010)、入出力装置(1020)、メモリ装置(1030)、および/またはインターフェース(1040)は、バス(1050)を介して互いに結合することができる。このとき、バス(1050)はデータが移動する通路(path)に該当する。
【0146】
具体的には、コントローラ(1010)は、CPU(Central Processing Unit)、MPU(Micro Processor Unit)、MCU(Micro Controller Unit)、GPU(Graphic Processing Unit)、マイクロプロセッサ、デジタル信号処理、マイクロコントローラ、アプリケーションプロセッサ(AP、application processor)、及びこれらと同様の機能を実行することができる論理素子のうち少なくとも1つを含むことができる。
【0147】
入出力装置(1020)は、キーパッド(keypad)、キーボード、タッチスクリーン、およびディスプレイ装置のうち少なくとも1つを含むことができる。
【0148】
メモリ装置(1030)は、データおよび/またはプログラムなどを保存することができる。
【0149】
インターフェース(1040)は、通信ネットワークにデータを送信するか、または通信ネットワークからデータを受信する機能を実行することができる。インターフェース(1040)は有線または無線の形態であり得る。例えば、インターフェース(1040)は、アンテナまたは有無線トランシーバなどを含むことができる。図示していないが、メモリ装置(1030)は、コントローラ(1010)の動作を向上させるための動作メモリであり、高速のディーラム(DRAM)および/またはエスラム(SRAM)などをさらに含むことができる。メモリ装置(1030)は、内部にプログラムまたはアプリケーションを保存することができる。
【0150】
本発明の実施例による道路抽出装置(200)および外部データベース(100)は、それぞれ、複数の電子装置(1000)がネットワークを介して互いに連結されて形成されたシステムであり得る。このような場合、各々のモジュールまたはモジュールの組み合わせを電子装置(1000)として具現することができる。ただし、本実施例がこれに制限されるものではない。
【0151】
追加的に、道路抽出装置(200)は、ワークステーション(workstation)、データセンター、インターネットデータセンター(internet data center(IDC))、DAS(direct attached storage)システム、SAN(storage area network)システム、NAS(network attached storage)ジシステム、RAID(redundant array of inexpensive disks、or redundant array of independent disks)システム、およびEDMS(Electronic Document Management)システムのうち少なくとも1つで具現することができるが、本実施例はこれに制限されるものではない。
【0152】
また、道路抽出装置(200)は、ネットワークを介して外部データベース(100)にデータを送信することができる。ネットワークは、有線インターネット技術、無線インターネット技術、および近距離通信技術によるネットワークを含むことができる。有線インターネット技術は、例えば、ローカルエリヤネットワーク(LAN、Local area network)、およびワイドエリアネットワーク(WAN、wide area network)のうち少なくとも1つを含むことができる。
【0153】
無線インターネット技術は、例えば、無線LAN(Wireless LAN:WLAN)、DMNA(Digital Living Network Alliance)、Wibro(Wireless Broadband)、Wimax(World Interoperability for Microwave Access)、HSDPA(High Speed Downlink Packet Access)、HSUPA(High Speed Uplink Packet Access)、IEEE 802.16、LTE(Long Term Evolution)、LTE-A(Long Term Evolution-Advanced)、広帯域無線移動通信サービス(Wireless Mobile Broadband Service:WMBS)、及び5G NR(New Radio)技術のうち少なくとも1つを含むことができる。ただし、本実施例がこれに制限されるものではない。
【0154】
近距離通信技術は、例えば、ブルートゥース(登録商標)(Bluetooth(登録商標))、RFID(Radio Frequency Identification)、赤外線通信(Infrared Data Association:IrDA)、UWB(Ultra-Wideband)、ジグビー(ZigBee(登録商標))、近距離無線通信(Near Field Communication: NFC)、超音波通信(Ultra Sound Communication:USC)、可視光通信(Visible Light Communication:VLC)、ワイファイ(Wi-Fi)、ワイファイダイレクト(Wi-Fi Direct)、5G NR(New Radio)のうち少なくとも1つを含むことができる。ただし、本実施例がこれに制限されるものではない。
【0155】
ネットワークを介して通信する道路抽出装置(200)は、移動通信のための技術標準および標準通信方式に準拠することができる。例えば、標準通信方式は、GSM(登録商標)(Global System for Mobile communication)、CDMA(Code Division Multi Access)、CDMA2000(Code Division Multi Access 2000)、EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only) 、WCDMA(登録商標)(Wideband CDMA)、HSDPA(High Speed Downlink Packet Access)、HSUPA(High Speed Uplink Packet Access)、LTE(Long Term Evolution)、LTEA(Long Term Evolution-Advanced)、および5G NR(New Radio)のうち少なくとも1つを含むことができる。ただし、本実施例がこれに制限されるものではない。
【0156】
以上の説明は、本実施例の技術思想を例示的に説明したものに過ぎず、本実施例が属する技術分野で通常の知識を有する者であれば、本実施例の本質的な特性から逸脱しない範囲で様々な修正及び変形が可能であろう。したがって、本実施例は、本実施例の技術思想を限定するためのものではなく説明するためのものであり、このような実施例によって本実施例の技術思想の範囲が限定されるものではない。本実施例の保護範囲は、以下の特許請求の範囲によって解釈されるべきであり、それと同等の範囲内にあるすべての技術思想は、本実施例の権利範囲に含まれるものと解釈されるべきである。
【要約】
【課題】本発明は、マルチタスク学習(multi task learning)を介してあらかじめ学習されたディープラーニングモデルを用いて衛星画像から道路を抽出することができる道路抽出装置及び方法に関するものである。
【解決手段】前記道路抽出装置は、道路(road)に関する道路画像を収集するデータ収集モジュール及びディープラーニング技術を用いて前記道路画像から前記道路を抽出するためのタスク(task)を実行するディープラーニングモジュールを含むが、前記ディープラーニングモジュールは、前記道路画像を対象にセグメンテーション(segmentation)を実行する第1ディープラーニング部と、前記道路画像を対象に物体検出(object detection)を実行する第2ディープラーニング部を含むことができる。
【選択図】
図1