(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-08
(45)【発行日】2024-07-17
(54)【発明の名称】マルチスケールオブジェクト探知装置及び方法
(51)【国際特許分類】
G06T 7/215 20170101AFI20240709BHJP
H04N 23/60 20230101ALI20240709BHJP
【FI】
G06T7/215
H04N23/60 500
(21)【出願番号】P 2022211881
(22)【出願日】2022-12-28
【審査請求日】2022-12-28
(31)【優先権主張番号】10-2022-0032150
(32)【優先日】2022-03-15
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】514274672
【氏名又は名称】延世大学校 産学協力団
【氏名又は名称原語表記】UIF (University Industry Foundation), Yonsei University
【住所又は居所原語表記】50,YONSEI-RO, SEODAEMUN-GU, SEOUL 03722, REPUBLIC OF KOREA
(74)【代理人】
【識別番号】110000051
【氏名又は名称】弁理士法人共生国際特許事務所
(72)【発明者】
【氏名】キム, ハン ジュン
(72)【発明者】
【氏名】ホ, ソン ヨン
(72)【発明者】
【氏名】キム, ドン クァン
【審査官】山田 辰美
(56)【参考文献】
【文献】特表2002-511617(JP,A)
【文献】特開2018-185724(JP,A)
【文献】特開2016-219004(JP,A)
【文献】特開2021-033426(JP,A)
【文献】特開2010-113513(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/215
H04N 23/60
(57)【特許請求の範囲】
【請求項1】
順次ビデオフレームを分析し、時系列的に連続する類似の背景を有する画像フレームを抽出して単一の画像から複数の連続する画像フレームを獲得する画像フレーム獲得部と、
前記複数の連続する画像フレームの
うちの前の画像フレームから抽出された
少なくとも1つの第1主要領域の位置を決定して少なくとも1つの第1主要領域
を抽出し、前記抽出された少なくとも1つの第1主要領域のそれぞれで基準オブジェクトを選別し、現在の画像フレーム
に前記基準オブジェクトを整合させて少なくとも1つの第2主要領域を
整列させて抽出する主要領域抽出部と、
前記現在の画像フレーム
の全体領域に対する
ダウンサンプリングを実行した後、第1オブジェクトを検出して前記第1オブジェクトの位置及びクラスを決定する第1オブジェクト認識過程
と前記少なくとも1つの第2主要領域に対する
第2オブジェクトの位置及びクラスを決定する第2オブジェクト認識過程
とを実行
し、第2主要領域の数が既設定された第1閾値を超える場合、前記第2主要領域の一部に対してのみ前記第2オブジェクト認識過程を実行するか、又は前記第2主要領域のサイズが既設定された第2閾値を超える場合、前記第2主要領域については前記第2オブジェクト認識過程を省略するマルチスケールオブジェクト認識部と、
前記第1オブジェクト認識過程
を通じて抽出された第1オブジェクトに前記第2オブジェクト認識過程
を通じて抽出された第2オブジェクトを併合
して前記現在の画像フレームに対する全オブジェクトを探知し、前記第1オブジェクトのうちの前記第2オブジェクトに重複するオブジェクトについては前記第2オブジェクトに置き換えてクラス情報を前記第1オブジェクトと前記第2オブジェクトとの間のクラスの一致比率に従って決定するオブジェクト認識併合部と、を備えることを特徴とするマルチスケールオブジェクト探知装置。
【請求項2】
前記主要領域抽出部は、前記マルチスケールオブジェクト認識部から前記少なくとも1つの第1主要領域のフィードバックを受けることを特徴とする請求項1に記載のマルチスケールオブジェクト探知装置。
【請求項3】
前記マルチスケールオブジェクト認識部は、前記第1オブジェクト認識過程を第1プロセッサに割り当て、前記第2オブジェクト認識過程を第2プロセッサに割り当てて前記第1オブジェクト認識過程及び前記第2オブジェクト認識過程を並列に実行することを特徴とする請求項1に記載のマルチスケールオブジェクト探知装置。
【請求項4】
順次ビデオフレームを分析し、時系列的に連続する類似の背景を有する画像フレームを抽出して単一の画像から複数の連続する画像フレームを獲得する画像フレーム獲得ステップと、
前記複数の連続する画像フレームの
うちの前の画像フレームから抽出された
少なくとも1つの第1主要領域の位置を決定して少なくとも1つの第1主要領域
を抽出し、前記抽出された少なくとも1つの第1主要領域のそれぞれで基準オブジェクトを選別し、現在の画像フレーム
に前記基準オブジェクトを整合させて少なくとも1つの第2主要領域を
整列させて抽出する主要領域抽出ステップと、
前記現在の画像フレーム
の全体領域に対する
ダウンサンプリングを実行した後、第1オブジェクトを検出して前記第1オブジェクトの位置及びクラスを決定する第1オブジェクト認識過程
と前記少なくとも1つの第2主要領域に対する
第2オブジェクトの位置及びクラスを決定する第2オブジェクト認識過程
とを実行
し、第2主要領域の数が既設定された第1閾値を超える場合、前記第2主要領域の一部に対してのみ前記第2オブジェクト認識過程を実行するか、又は前記第2主要領域のサイズが既設定された第2閾値を超える場合、前記第2主要領域については前記第2オブジェクト認識過程を省略するマルチスケールオブジェクト認識ステップと、
前記第1オブジェクト認識過程
を通じて抽出された第1オブジェクトに前記第2オブジェクト認識過程
を通じて抽出された第2オブジェクトを併合
して前記現在の画像フレームに対する全オブジェクトを探知し、前記第1オブジェクトのうちの前記第2オブジェクトに重複するオブジェクトについては前記第2オブジェクトに置き換えてクラス情報を前記第1オブジェクトと前記第2オブジェクトとの間のクラスの一致比率に従って決定するオブジェクト認識併合ステップと、を有することを特徴とするマルチスケールオブジェクト探知方法。
【請求項5】
前記主要領域抽出ステップは、前記マルチスケールオブジェクト認識ステップから前記少なくとも1つの第1主要領域のフィードバックを受けるステップを含むことを特徴とする請求項
4に記載のマルチスケールオブジェクト探知方法。
【請求項6】
前記マルチスケールオブジェクト認識ステップは、前記第1オブジェクト認識過程を第1プロセッサに割り当て、前記第2オブジェクト認識過程を第2プロセッサに割り当てて前記第1オブジェクト認識過程及び前記第2オブジェクト認識過程を並列に実行するステップを含むことを特徴とする請求項
4に記載のマルチスケールオブジェクト探知方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、無人飛行体のオブジェクト探知技術に関し、より詳細には、前のフレームで推定した情報を用いて現在のフレームでオブジェクト探知を効率的に実行するマルチスケールオブジェクト探知装置及び方法に関する。
【背景技術】
【0002】
近年、ディープラーニング(Deep Learning)技術の発達に起因して映像からオブジェクトを探知する技術に対する要求及び研究が増加している。従来のオブジェクト探知技術は、主に一枚の画像に基づいて与えられた画像に現れるオブジェクトを探知する技術が主になっていたが、最近ではこれを拡張してビデオでのオブジェクト探知に対する要求が増大している。
【0003】
特に、ドローン(drone)のような無人飛行体に適用されるオブジェクト(物体)感知システムの場合、入力として連続ビデオフレームが使用される。オブジェクト探知の場合、入力として使用される画像のサイズは実行時間及び精度に多くの影響を与え、一般にドローンが要求する目標探知時間を満たすために画像のサイズを縮小する方法が使用されている。
【0004】
但し、探知時間を確保するために画像のサイズを縮小する場合、オブジェクト探知の精度が低下するという問題が発生する。
【先行技術文献】
【特許文献】
【0005】
【文献】韓国公開特許第10-2017-0021638号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、上記従来の問題点に鑑みてなされたものであって、本発明の目的は、前のフレームで推定した情報を用いて現在のフレームでオブジェクト探知を効率的に実行するマルチスケールオブジェクト探知装置及び方法を提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するためになされた本発明の一態様によるマルチスケールオブジェクト探知装置は、複数の連続する画像フレームを獲得する画像フレーム獲得部と、前記複数の連続する画像フレームの内、前の画像フレームから抽出された少なくとも1つの第1主要領域に基づいて現在の画像フレームから少なくとも1つの第2主要領域を抽出する主要領域抽出部と、前記現在の画像フレームに対する第1オブジェクト認識過程及び前記少なくとも1つの第2主要領域に対する第2オブジェクト認識過程を実行するマルチスケールオブジェクト認識部と、前記第1オブジェクト認識過程及び前記第2オブジェクト認識過程のそれぞれの結果を併合するオブジェクト認識併合部と、を備える。
【0008】
前記画像フレーム獲得部は、順次ビデオフレームを分析し、時系列的に連続する類似の背景を有する画像フレームを抽出して前記複数の連続する画像フレームを決定し得る。
前記主要領域抽出部は、前記現在の画像フレームで前記少なくとも1つの第1主要領域の位置を決定して前記少なくとも1つの第2主要領域を決定し得る。
前記主要領域抽出部は、前記少なくとも1つの第1主要領域のそれぞれで基準オブジェクトを選別し、前記現在の画像フレームに前記基準オブジェクトを整合させて前記少なくとも1つの第2主要領域を整列させ得る。
前記主要領域抽出部は、前記マルチスケールオブジェクト認識部から前記少なくとも1つの第1主要領域のフィードバック受け得る。
前記マルチスケールオブジェクト認識部は、前記第1オブジェクト認識過程において、前記現在の画像フレームに関するダウンサンプリングを実行した後、第1オブジェクトを検出し得る。
前記マルチスケールオブジェクト認識部は、第1オブジェクトの検出を通じて前記第1オブジェクトの位置及びクラスを決定し得る。
前記マルチスケールオブジェクト認識部は、前記第2オブジェクト認識過程において、前記少なくとも1つの第2主要領域から相対的に高い精度で前記第2オブジェクトの位置及びクラスを決定し得る。
前記マルチスケールオブジェクト認識部は、前記第1オブジェクト認識過程を第1プロセッサに割り当て、前記第2オブジェクト認識過程を第2プロセッサに割り当てて前記第1オブジェクト認識過程及び前記第2オブジェクト認識過程を並列に実行し得る。
前記オブジェクト認識併合部は、前記第1オブジェクト認識過程を通じて抽出された第1オブジェクトに前記第2オブジェクト認識過程を通じて抽出された第2オブジェクトを併合して、前記現在の画像フレームに対する全オブジェクトを探知し得る。
【0009】
上記目的を達成するためになされた本発明の一態様によるマルチスケールオブジェクト探知方法は、複数の連続する画像フレームを獲得する画像フレーム獲得ステップと、前記複数の連続する画像フレームの内、前の画像フレームから抽出された少なくとも1つの第1主要領域に基づいて現在の画像フレームから少なくとも1つの第2主要領域を抽出する主要領域抽出ステップと、前記現在の画像フレームに対する第1オブジェクト認識過程及び前記少なくとも1つの第2主要領域に対する第2オブジェクト認識過程を実行するマルチスケールオブジェクト認識ステップと、前記第1オブジェクト認識過程及び前記第2オブジェクト認識過程のそれぞれの結果を併合するオブジェクト認識併合ステップと、を有する。
【0010】
前記主要領域抽出ステップは、前記マルチスケールオブジェクト認識ステップから前記少なくとも1つの第1主要領域のフィードバックを受けるステップを含み得る。
前記マルチスケールオブジェクト認識ステップは、前記第1オブジェクト認識過程において、前記現在の画像フレームに関するダウンサンプリングを実行した後、第1オブジェクトを検出するステップを含み得る。
前記マルチスケールオブジェクト認識ステップは、前記第2オブジェクト認識過程において、前記少なくとも1つの第2主要領域から相対的に高い精度で前記第2オブジェクトの位置及びクラスを決定するステップを含み得る。
前記マルチスケールオブジェクト認識ステップは、前記第1オブジェクト認識過程を第1プロセッサに割り当て、前記第2オブジェクト認識過程を第2プロセッサに割り当てて前記第1オブジェクト認識過程及び前記第2オブジェクト認識過程を並列に実行するステップを含み得る。
【発明の効果】
【0011】
開示する技術は以下の効果を有する。但し、特定の実施形態が以下の効果を全て含むべきであるか、又は以下の効果のみを含むべきであるという意味ではないため、開示する技術の権利範囲はこれによって制限されるものと理解すべきではない。
【0012】
本発明によるマルチスケールオブジェクト探知装置及び方法によれば、前のフレームから推定された情報を用いて現在のフレームでオブジェクト探知を効率的に実行することができ、単一の画像フレームに対してオブジェクト探知を並列に計算するため、低コストで高精度の結果を提供することができる。
【0013】
また、本発明によるマルチスケールオブジェクト探知装置及び方法によれば、ドローンのような無人飛行体の組込みシステム(Embedded system)環境において、限られた電力及びコンピューティングパワーを用いて、低コストで高精度のオブジェクト探知を提供することができ、特に消費電力を低減して無人飛行体が更に長い時間飛行しながらオブジェクトをリアルタイムで探知することができる。
【図面の簡単な説明】
【0014】
【
図1】本発明によるマルチスケールオブジェクト探知システムを説明する図である。
【
図2】本発明によるマルチスケールオブジェクト探知装置のシステム構成を説明する図である
【
図3】本発明によるマルチスケールオブジェクト探知装置の機能的構成を説明する図である。
【
図4】本発明によるマルチスケールオブジェクト探知方法を説明するフローチャートである。
【
図5】本発明によるマルチスケールオブジェクト探知装置の動作過程を説明する図である。
【
図6】本発明の一実施形態によるマルチスケールオブジェクト探知方法を説明する図である。
【
図7】本発明の一実施形態によるマルチスケールオブジェクト探知方法を説明する図である。
【
図8】本発明の一実施形態によるマルチスケールオブジェクト探知方法を説明する図である。
【発明を実施するための形態】
【0015】
本発明は、下記の研究課題をもって支援を受けて出願された。
〔本発明を支援した国家研究開発事業〕
〔課題固有番号〕 1711152718
〔課題番号〕 2020-0-01361-003
〔省庁名〕 科学技術情報通信部
〔課題管理(専門)機関名〕 情報通信企画評価院
〔研究事業名〕 情報通信放送革新人材養成(R&D)
〔研究課題名〕 人工知能大学院支援(延世大学)
〔貢献率〕 1/1
〔課題遂行機関名〕 延世大学産学協力団
〔研究期間〕 2022. 01.01~2022.12
【0016】
本発明の実施形態の説明は構造的又は機能的説明のためのものに過ぎず、本発明の権利範囲は本明細書に記載の実施形態によって限定されるものと解釈すべきではない。即ち、実施形態は、様々な変更が可能であり、様々な形態を有するため、本発明の権利範囲は技術的思想を実現することができる均等物を含むものと理解すべきである。更に、本発明で提示する目的又は効果は、特定の実施形態がそれらを全て含むべきであるか又はそのような効果のみを含むべきであるという意味ではないため、本発明の権利範囲はこれによって限定されるものと理解すべきではない。
【0017】
一方、本明細書で説明する用語の意味は、以下のように理解すべきである。
【0018】
「第1」、「第2」などの用語は、ある構成要素を他の構成要素から区別するためのものであり、これらの用語によって権利範囲が限定されるべきではない。例えば、第1構成要素は第2構成要素と命名され得、同様に第2構成要素も第1構成要素と命名され得る。
【0019】
ある構成要素が他の構成要素に「接続されて」いると言及する場合、その他の構成要素に直接接続されることもあるが、中間に他の構成要素が存在することもあると理解すべきである。一方、ある構成要素が他の構成要素に「直接接続されている」と言及する場合、中間に他の構成要素が存在しないことを理解すべきである。一方、構成要素間の関係を説明する他の表現、即ち「~の間」及び「すぐに~の間」、又は「~に隣接する」及び「~に直接隣接する」なども同様に解釈すべきである。
【0020】
単数の表現は、文脈上明らかに異なる意味を持たない限り、複数の表現を含むものと理解すべきであり、「含む」又は「有する」などの用語は、実施する特徴、数字、ステップ、動作、構成要素、部品、又はそれらを組み合わせたものが存在することを指定しようとするものであり、1つ又は複数の他の特徴、数字、ステップ、動作、構成要素、部品、又はそれらを組み合わせたものの存在又は追加の可能性を予め排除しないものと理解すべきである。
【0021】
各ステップにおいて、判別符号(例えば、a、b、cなど)は説明の便宜のために使用されるものであり、判別符号は各ステップの順序を説明するものではなく、各ステップは文脈上明らかに特定の順序を記載していない限り、明記された順序とは異なるように起きることがある。即ち、各ステップは、明記された順序と同じように起きることもあり、実質的に同時に実行され得、逆の順序通り実行されることもある。
【0022】
本発明はコンピュータ読み取り可能な記録媒体にコンピュータ読み取り可能なコードとして実現され得、コンピュータ読み取り可能な記録媒体はコンピュータシステムによって読み取り可能なデータが貯蔵されるあらゆる種類の記録装置を含む。コンピュータ読み取り可能な記録媒体の例には、ROM、RAM、CD-ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ貯蔵装置などがある。また、コンピュータ読み取り可能な記録媒体は、ネットワークに接続されたコンピュータシステムに分散され、分散方式でコンピュータ読み取り可能なコードが貯蔵されて実行され得る。
【0023】
ここで使用する全ての用語は、異なるように定義がない限り、本発明が属する分野において通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に使用される辞書で定義されている用語は、関連技術の文脈上有する意味に一致するものと解釈すべきであり、本明細書で明白に定義されていない限り、理想的又は過度に形式的な意味を有するものと解釈すべきではない。
【0024】
以下、本発明を実行するための形態の具体例を、図面を参照しながら詳細に説明する。
【0025】
図1は、本発明によるマルチスケールオブジェクト探知システムを説明する図である。
【0026】
図1を参照すると、マルチスケールオブジェクト探知システム100は、無人飛行体110、マルチスケールオブジェクト探知装置130、及びデータベース150を含む。
【0027】
無人飛行体110は、ユーザの操作なしに自律走行可能な飛行装置に該当する。例えば、無人飛行体110は、ドローン(drone)などを含む。無人飛行機110は、自律飛行中に周辺の画像を撮影するためのカメラモジュールを含み、撮影された映像を貯蔵するための貯蔵手段及び外部に伝送するための通信手段を含んで実現される。
【0028】
また、無人飛行体110は、マルチスケールオブジェクト探知システム100を構成する1つの装置としてマルチスケールオブジェクト探知装置130と連動して動作する。無人飛行体110は、マルチスケールオブジェクト探知装置130と連動するための専用プログラム又はアプリケーション(又はアプリ、app)をインストールして実行し、ネットワークを介してマルチスケールオブジェクト探知装置130に接続される。
【0029】
マルチスケールオブジェクト探知装置130は、本発明によるマルチスケールオブジェクト探知方法を実行するコンピュータ又はプログラムに該当するサーバで実現される。更に、マルチスケールオブジェクト探知装置130は、ユーザ端末又は無人飛行体110と有線ネットワーク又はブルートゥース(登録商標)、WiFi、LTEなどのような無線ネットワークで接続され、ネットワークを介してユーザ端末又は無人飛行体110とデータを送・受信する。更に、マルチスケールオブジェクト探知装置130は、関連する動作を実行するために独立した外部システム(
図1には示していない)に接続して動作するように実現される。
【0030】
一方、
図1において、マルチスケールオブジェクト探知装置130は、無人飛行体110とは独立した装置として示されているが、必ずしもこれに限定されず、論理的な演算装置として無人飛行体110に含まれて実現され得ることは勿論である。例えば、マルチスケールオブジェクト探知装置130は、無人飛行体110内の組込みシステムに含まれて実現され、それにより、無人飛行体110は、本発明によるマルチスケールオブジェクト探知方法を直接実行して、独立的なオブジェクト探知を実行することもできる。
【0031】
データベース150は、マルチスケールオブジェクト探知装置130の動作過程で必要な様々な情報を貯蔵する貯蔵装置に該当する。例えば、データベース150は、オブジェクト探知のための映像の画像フレームに関する情報を貯蔵し、オブジェクト探知モデル又は学習データに関する情報を貯蔵するが、必ずしもこれに限定されず、マルチスケールオブジェクト探知装置130が本発明によるマルチスケールオブジェクト探知方法を実行する過程で様々な形態で収集又は加工された情報を貯蔵し得る。
【0032】
一方、
図1において、データベース150は、マルチスケールオブジェクト探知装置130とは独立的な装置として示されているが、必ずしもこれに限定されず、論理的な貯蔵装置としてマルチスケールオブジェクト探知装置130に含まれて実現され得ることは勿論である。
【0033】
図2は、本発明によるマルチスケールオブジェクト探知装置のシステム構成を説明する図である。
【0034】
図2を参照すると、マルチスケールオブジェクト探知装置130は、プロセッサ210、メモリ230、ユーザ入出力部250、及びネットワーク入出力部270を含む。
【0035】
プロセッサ210は、本発明によるマルチスケールオブジェクト探知手順を実行し、このような過程で読み取られるか又は書き込まれるメモリ230を管理し、メモリ230にある揮発性メモリと不揮発性メモリとの間の同期化時間をスケジュールする。プロセッサ210は、マルチスケールオブジェクト探知装置130の動作の全体を制御し、メモリ230、ユーザ入出力部250、及びネットワーク入出力部270に電気的に接続され、これらの間のデータの流れを制御する。プロセッサ210は、マルチスケールオブジェクト探知装置130のCPU(Central Processing Unit)又はGPU(Graphics Processing Unit)で実現される。
【0036】
メモリ230は、SSD(Solid State Disk)又はHDD(Hard Disk Drive)のような不揮発性メモリとして実現され、マルチスケールオブジェクト探知装置130に必要なデータ全体を貯蔵するために使用される補助記憶装置を含み、RAM(Random Access Memory)のような揮発性メモリで実現された主記憶装置を含む。更に、メモリ230は、電気的に接続されたプロセッサ210によって実行されることによって、本発明によるマルチスケールオブジェクト探知方法を実行する命令の集合を貯蔵する。
【0037】
ユーザ入出力部250は、ユーザ入力を受信するための環境とユーザに特定の情報を出力するための環境とを含み、例えばタッチパッド、タッチスクリーン、画像キーボード、ポインティングデバイスなどのアダプタを含む入力装置、及びモニタ又はタッチスクリーンのようなアダプタを含む出力装置を含む。一実施形態で、ユーザ入出力部250は、リモート接続を介して接続されたコンピューティングデバイスに該当し、そのような場合、マルチスケールオブジェクト探知装置130は独立したサーバとして実行する。
【0038】
ネットワーク入出力部270は、ネットワークを介して無人飛行体110に接続するための通信環境を提供し、例えばLAN(Local Area Network)、MAN(Metropolitan Area Network)、WAN(Wide Area Network)、VAN(Value Added Network)などの通信用のアダプタを含む。また、ネットワーク入出力部270は、データの無線伝送のためにWiFi、Bluetooth(登録商標)などの近距離通信機能又は4G以上の無線通信機能を提供するように実現される。
【0039】
図3は、本発明によるマルチスケールオブジェクト探知装置の機能的構成を説明する図である。
【0040】
図3を参照すると、マルチスケールオブジェクト探知装置130は、画像フレーム獲得部310、主要領域抽出部330、マルチスケールオブジェクト認識部350、オブジェクト認識併合部370、及び制御部390を含む。本発明の実施形態によるマルチスケールオブジェクト探知装置130は、上記の構成を同時に全て含むべきものではなく、各々の実施形態による上記の構成の内の一部を省略するか、又は上記の構成の内の一部若しくは全てを選択的に含めて実現することもできる。以下、各構成の動作を具体的に説明する。
【0041】
画像フレーム獲得部310は、複数の連続的な画像フレームを獲得する。ここで、複数の連続的な画像フレームは、基本的に単一の画像から抽出されるが、必ずしもこれに限定されないことは勿論である。画像フレーム獲得部310は、無人飛行体110と連動する場合、無人飛行体110によって撮影された画像を介して複数の連続的な画像フレームを抽出する。また、画像フレーム獲得部310は、ユーザ端末によって提供される画像フレームに基づいて複数の連続的な画像フレームを獲得することもできる。画像フレーム獲得部310によって獲得された画像フレームは、データベース150に貯蔵されて管理される。
【0042】
一実施形態において、画像フレーム獲得部310は、順次ビデオフレームを分析して時系列的に連続する類似の背景を有する画像フレームを抽出して複数の連続的な画像フレームを決定する。画像フレーム獲得部310は、単一の画像から連続するフレームを抽出することもでき、必要に応じて映像を構成するビデオフレームの中から画像フレームを選別的に抽出することもある。
【0043】
例えば、画像フレーム獲得部310は、順次ビデオフレームの中から同じ時間間隔で連続的な画像フレームを抽出し、順次ビデオフレームの内の画像間の類似度に基づいて類似の背景を有する画像フレームを時系列順に選択して連続的な画像フレームを抽出する。
【0044】
主要領域抽出部330は、連続的な画像フレームの内、前の画像フレームから抽出された少なくとも1つの第1主要領域に基づいて、現在の画像フレームから少なくとも1つの第2主要領域を抽出する。ここで、主要領域は、画像フレーム内でオブジェクトが存在すると推定される領域に該当し、第1及び第2主要領域は、それぞれ前及び現在の画像フレームでオブジェクトが存在すると推定される領域に該当する。第1及び第2主要領域は、該当する画像フレーム内に複数で存在する。
【0045】
更に、第1及び第2主要領域は、画像フレーム内にオブジェクトが存在すると推定される領域の集合として表現される。即ち、1つの主要領域内で複数のオブジェクトを探知し、主要領域をオブジェクトの密集度や数などに基づいて決定する。主要領域抽出部330は、連続的な画像フレーム間でオブジェクトの位置変化が大きくないという事実に基づいて、前の画像フレームから導出された主要領域情報から現在の画像フレームにおける主要領域を決定する。特に、ドローンのような無人飛行体110で撮影された映像の場合、地上で撮影された画像と比較してオブジェクトの座標変化が相対的に小さいことから、前の画像フレームから抽出される主要領域に関する情報は非常に効果的で有る。
【0046】
一実施形態において、主要領域抽出部330は、現在の画像フレームで少なくとも1つの第1主要領域の位置を決定して、少なくとも1つの第2主要領域を決定する。第1主要領域は前の画像フレームで定義された画像領域であるため、主要領域抽出部330は現在の画像フレーム上で第1主要領域に対応する位置を決定する。
【0047】
例えば、主要領域抽出部330は、第1主要領域内に存在するオブジェクトが現在の画像フレームでも検出された場合、当該オブジェクト位置に基づいて第1主要領域の位置を決定する。主要領域抽出部330は、検出されたオブジェクト位置に基づいて第1主要領域の大きさに対応する領域を新たに定義して第2主要領域として決定する。このとき、第1主要領域の大きさは第1主要領域内のオブジェクト位置に基づいて領域境界までの相対的距離で表現され、主要領域抽出部330は現在の画像フレーム上で決定されたオブジェクト位置に基づいて相対的距離に従って領域境界を決定することによって第2主要領域を決定する。
【0048】
一実施形態において、主要領域抽出部330は、少なくとも1つの第1主要領域のそれぞれで基準オブジェクトを選別し、現在の画像フレームに基準オブジェクトを整合させて少なくとも1つの第2主要領域を整列させる。第1主要領域内に同時に複数のオブジェクトが存在する場合、主要領域抽出部330は、複数のオブジェクトの中からいずれか1つを選択して基準オブジェクトとして決定する。このとき、基準オブジェクトは、複数のオブジェクトの内、オブジェクトの大きさ又は周辺との色差などを基準に決定する。
【0049】
例えば、基準オブジェクトは、オブジェクトの中で最大サイズのオブジェクトであるか、又は周辺との色差が最も大きいオブジェクトに該当する。即ち、主要領域抽出部330は、第1主要領域内で最もよく識別できるオブジェクトを基準オブジェクトとして決定し、現在の画像フレーム上における位置がより正確に一致するようにする。また、主要領域抽出部330は、1つの画像フレーム内で複数の第1主要領域が存在する場合、各第1主要領域について第2主要領域を決定し、各主要領域に対する基準オブジェクトに基づいて現在の画像フレーム上で第2主要領域を整列させる。
【0050】
一実施形態において、主要領域抽出部330は、マルチスケールオブジェクト認識部350から少なくとも1つの第1主要領域のフィードバックを受ける。マルチスケールオブジェクト認識部350は前の画像フレームに対するオブジェクトを認識する過程でオブジェクトが複数存在する第1主要領域に関する情報を生成し、主要領域抽出部330は現在の画像フレームに対する第2主要領域を決定する過程で前の画像フレームに対してマルチスケールオブジェクト認識部350が生成した情報をフィードバック情報として受信する。即ち、複数の連続的な画像フレームの場合、連続するフレーム間にオブジェクトの位置の類似性が存在することに基づいて、主要領域抽出部330は、現在の画像フレームに対して動作を実行するための前の画像フレームに対して、マルチスケールオブジェクト認識部350が生成した情報を活用する。
【0051】
マルチスケールオブジェクト認識部350は、現在の画像フレームに対する第1オブジェクト認識過程及び少なくとも1つの第2主要領域に対する第2オブジェクト認識過程を実行する。マルチスケールオブジェクト認識部350は、オブジェクト探知の精度を高めるために様々なスケールでオブジェクト探知動作を実行する。ここで、第1オブジェクト認識過程は、現在の画像フレームの全体を対象として実行されるオブジェクト認識動作に該当する。第2オブジェクト認識過程は、現在の画像フレーム上で定義される少なくとも1つの第2主要領域を対象として実行されるオブジェクト認識動作に該当する。従って、第1オブジェクト認識過程を通じて現在の画像フレーム全体におけるオブジェクト探知の結果を生成し、第2オブジェクト認識過程を通じて第2主要領域におけるオブジェクト探知の結果を生成する。
【0052】
一実施形態において、マルチスケールオブジェクト認識部350は、第1オブジェクト認識過程で現在の画像フレームに関するダウンサンプリングを実行した後、第1オブジェクトを検出する。第1オブジェクト認識過程が現在の画像フレーム全体を対象として行われることから、マルチスケールオブジェクト認識部350は、オブジェクト探知の実行時間を短縮するために画像フレームに対するダウンサンプリングを行う。即ち、ダウンサンプリングを通じてオブジェクト探知のための領域の絶対的なサイズを減らす。マルチスケールオブジェクト認識部350は、ダウンサンプリングを通じて画像の解像度を減らすことによって第1オブジェクトの検出結果を迅速に生成することができる。
【0053】
一実施形態において、マルチスケールオブジェクト認識部350は、第1オブジェクトの検出を通じて第1オブジェクトの位置(location)及びクラス(class)を決定する。即ち、マルチスケールオブジェクト認識部350は、オブジェクト探知の結果として、第1オブジェクトに関する位置情報及びクラス分類情報を生成する。この時、第1オブジェクトに関する位置及びクラス情報は、オブジェクト探知モデル又はアルゴリズムによって異なる。
【0054】
一実施形態において、マルチスケールオブジェクト認識部350は、第2オブジェクト認識過程において、少なくとも1つの第2主要領域から相対的に高い精度で第2オブジェクトの位置及びクラスを決定する。第2オブジェクト認識過程は、現在の画像フレーム上で定義される第2主要領域で第2オブジェクトを検出する動作に該当する。第2主要領域のサイズが現在の画像フレームのサイズより相対的に小さいことから、マルチスケールオブジェクト認識部350は、第2主要領域の現在の解像度に基づいてオブジェクト探知動作を実行する。結果的に、第2オブジェクト認識過程は、相対的に高い精度のオブジェクト探知結果を生成する。また、第2オブジェクト認識過程も、第2オブジェクトに関する位置及びクラス情報をオブジェクト探知結果として生成する。
【0055】
一実施形態において、マルチスケールオブジェクト認識部350は、第2主要領域の数が既設定された第1閾値を超える場合、第2主要領域の一部に対してのみ第2オブジェクト認識過程を実行する。例えば、第2主要領域の数が多く、第1オブジェクト認識過程よりも更に多くの実行時間が予想される場合、マルチスケールオブジェクト認識部350は、第2主要領域をサイズ順に整列させた後、上位n個(nは、自然数)の第2主要領域に対してのみ第2オブジェクト認識過程を選択的に行う。
【0056】
一実施形態において、マルチスケールオブジェクト認識部350は、第2主要領域のサイズが既設定された第2閾値を超える場合、当該第2主要領域については第2オブジェクト認識過程を省略する。例えば、第2主要領域のサイズが現在の画像フレームのサイズの2/3以上である場合、マルチスケールオブジェクト認識部350は、当該第2主要領域を除いた残りの第2主要領域についてのみ第2オブジェクト認識過程を実行する。
【0057】
一実施形態において、マルチスケールオブジェクト認識部350は、第1オブジェクト認識過程を第1プロセッサに割り当て、第2オブジェクト認識過程を第2プロセッサに割り当てて第1及び第2オブジェクト認識過程を並列的に実行する。第1オブジェクト認識過程は現在の画像フレームの全体を対象として実行される点で高い演算能力を必要とし、第2オブジェクト認識過程は現在の画像フレームの一部の領域を対象として実行される点で相対的に低い演算能力が必要である。例えば、第1オブジェクト認識過程を処理する第1プロセッサはグラフィック処理ユニット(GPU)に該当し、第2オブジェクト認識過程を処理する第2プロセッサは中央処理ユニット(CPU)に該当する。特に、マルチスケールオブジェクト認識部350は、GPU及びCPUを活用して第1及び第2オブジェクト認識過程を並列的に実行する。
【0058】
オブジェクト認識併合部370は、第1及び第2オブジェクト認識過程のそれぞれの結果を併合する。オブジェクト認識併合部370は、第1及び第2オブジェクト認識過程で検出された結果を統合して、単一過程よりも高い精度の検出結果を生成する。第1及び第2オブジェクト認識過程の併合には様々な方法を活用することができる。
【0059】
一実施形態において、オブジェクト認識併合部370は、第1オブジェクト認識過程を通じて抽出された第1オブジェクトに第2オブジェクト認識過程を通じて抽出された第2オブジェクトに併合して、現在の画像フレームに対するオブジェクト全体のオブジェクトを探知する。即ち、第1オブジェクトには第2オブジェクトを含め、オブジェクト認識併合部370は、第1オブジェクトの内、第2オブジェクトに重複するオブジェクトについては第2オブジェクトに置き換えて併合動作を処理する。
【0060】
一実施形態において、オブジェクト認識併合部370は、第1オブジェクト認識過程を介して抽出された第1オブジェクトの内、第2オブジェクト認識過程を介して抽出された第2オブジェクトに重複するオブジェクトに対して、位置情報を第2オブジェクトの位置に置き換え、クラス情報を第1及び第2オブジェクト間のクラスの一致比率に従って決定する。例えば、オブジェクト認識併合部370は、重複するオブジェクトの数に対するクラスの一致数の割合が0.5を超える場合、第1オブジェクトのクラス情報をそのまま適用し、そうでない場合第2オブジェクトのクラス情報に置き換えて適用する。
【0061】
制御部390は、マルチスケールオブジェクト探知装置130の全体的な動作を制御し、画像フレーム獲得部310、主要領域抽出部330、マルチスケールオブジェクト認識部350、及びオブジェクト認識併合部370との間の制御フロー又はデータフローを管理する。
【0062】
図4は、本発明によるマルチスケールオブジェクト探知方法を説明するフローチャートである。
【0063】
図4を参照すると、マルチスケールオブジェクト探知装置130は、画像フレーム獲得部310を介して複数の連続的な画像フレームを獲得する(ステップS410)。マルチスケールオブジェクト探知装置130は、主要領域抽出部330を介して連続的な画像フレームの内、前の画像フレームから抽出された少なくとも1つの第1主要領域に基づいて現在の画像フレームで少なくとも1つの第2主要領域を抽出する(ステップS430)。
【0064】
また、マルチスケールオブジェクト探知装置130は、マルチスケールオブジェクト認識部350を介して現在の画像フレームに対する第1オブジェクト認識過程、及び少なくとも1つの第2主要領域に対する第2オブジェクト認識過程を実行する(ステップS450)。マルチスケールオブジェクト探知装置130は、オブジェクト認識併合部370を介して第1及び第2オブジェクト認識過程のそれぞれの結果を併合する(ステップS470)。即ち、マルチスケールオブジェクト探知装置130は、第1及び第2オブジェクト認識過程のそれぞれの結果を併合して、現在の画像フレームのオブジェクト探知結果を生成する。
【0065】
図5は、本発明によるマルチスケールオブジェクト探知装置の動作過程を説明する図である。
【0066】
図5を参照すると、マルチスケールオブジェクト探知装置130は、現在の画像フレーム(Current Image Frame)を入力として受け取り、オブジェクト探知結果(Detection Results)として探知されたオブジェクトの位置及びクラスを出力として生成する。この時、オブジェクトの位置は、画像フレーム上にバウンディングボックス(bounding box)として視覚化されて表示され、オブジェクトのクラスはバウンディングボックスの近くに一緒に出力される。一方、マルチスケールオブジェクト探知装置130は、画像フレーム獲得部310を介して複数の連続的な画像フレームを獲得する。
【0067】
また、マルチスケールオブジェクト探知装置130は、現在の画像フレームでオブジェクトが存在すると推定される領域である主要領域(Critical Region)を抽出する。マルチスケールオブジェクト探知装置130は、主要領域抽出部330を介して現在の画像フレームから少なくとも1つの第2主要領域を抽出する。一実施形態において、主要領域抽出部330は、マルチスケールオブジェクト認識部350から少なくとも1つの第1主要領域(Critical Mask)のフィードバックを受け、第2主要領域の抽出過程に活用する。
【0068】
また、マルチスケールオブジェクト探知装置130は、現在の画像フレーム(Full Image)及び少なくとも1つの第2主要領域(Critical Region)に対してオブジェクト探知を独立的に実行する。この時、現在の画像フレームに対する第1オブジェクト認識過程はGPUを介して実行され、少なくとも1つの第2主要領域に対する第2オブジェクト認識過程はCPUを介して実行される。即ち、第1及び第2オブジェクト認識過程がそれぞれ異なる演算ユニットによって処理されることから、該当する過程は並列的に実行される。
【0069】
更に、第1オブジェクト認識過程のオブジェクト探知結果に基づいて第1主要領域を決定し、以降、次の画像フレームに対するオブジェクト探知過程に活用する。即ち、第1オブジェクト認識過程は、オブジェクト探知(Object Detection)過程及び第1主要領域推論(Critical Mask Inference)過程を含む。このとき、オブジェクト探知過程は、SSD-MobileNet V2を介して行われるが、必ずしもこれに限定されないことは勿論である。これにより、画像フレーム内でオブジェクトが存在する領域及びオブジェクトのクラスをオブジェクト探知結果として生成する。
【0070】
更に、マルチスケールオブジェクト探知装置130は、第1及び第2オブジェクト認識過程で生成されたオブジェクト探知結果を併合して、現在の画像フレームに対するオブジェクト探知結果を最終的に生成する。特に、マルチスケールオブジェクト探知装置130は、ドローンのようなオブジェクト探知のリアルタイム性が要求される環境で、画像フレームの一部の領域に対して相対的に高い精度を提供するオブジェクト探知を並列的に実行してオブジェクト探知のリアルタイム性による精度の損失を補う。
【0071】
図6~
図8は、本発明の一実施形態によるマルチスケールオブジェクト探知方法を説明する図である。
【0072】
図6を参照すると、既存のオブジェクト探知の場合、元の画像を対象に限られた時間内にオブジェクト探知を実行するために、画像のサイズを小さくする動作を本質的に行う。即ち、オブジェクト探知は、CPUよりも演算能力の高いGPUを介して主に処理され、ダウンサンプリングを通じて画像の絶対的サイズを減らすことでオブジェクト探知の実行時間を短縮する方法が用いられる。但し、この場合、ダウンサンプリング過程で画像情報の損失が発生することから、オブジェクト探知の精度が低くなるという問題が発生する。
【0073】
図7及び
図8を参照すると、GPUでオブジェクト探知が行われる過程でオブジェクトが多数存在する領域を導出し、マルチスケールオブジェクト探知方法は、その領域をオブジェクト探知に活用して精度減少問題を解決する。即ち、
図8と同様に、前の画像フレームから導出された領域情報を現在の画像フレームに適用し、CPU及びGPUを同時に使用して、それぞれ異なるスケールの画像フレームに対するオブジェクト探知を並列的に実行する。マルチスケールオブジェクト探知方法は、複数のオブジェクトが存在すると推測された領域に対してのみ選択的なオブジェクト探知を更に実行して、オブジェクト探知の精度を補完する。
【0074】
以上、本発明の実施形態について図面を参照しながら詳細に説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の技術思想から逸脱しない範囲内で多様に変更実施することが可能である。
【符号の説明】
【0075】
100 マルチスケールオブジェクト探知システム
110 無人飛行体
130 マルチスケールオブジェクト探知装置
150 データベース
210 プロセッサ
230 メモリ
250 ユーザ入出力部
270 ネットワーク入出力部
310 画像フレーム獲得部
330 主要領域抽出部
350 マルチスケールオブジェクト認識部
370 オブジェクト認識併合部
390 制御部