IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 阿波▲羅▼智▲聯▼(北京)科技有限公司の特許一覧

特許7262503小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
<>
  • 特許-小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図1
  • 特許-小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図2
  • 特許-小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図3
  • 特許-小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図4
  • 特許-小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図5
  • 特許-小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図6
  • 特許-小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-13
(45)【発行日】2023-04-21
(54)【発明の名称】小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230414BHJP
【FI】
G06T7/00 350C
【請求項の数】 13
【外国語出願】
(21)【出願番号】P 2021051677
(22)【出願日】2021-03-25
(65)【公開番号】P2021179971
(43)【公開日】2021-11-18
【審査請求日】2021-08-11
(31)【優先権主張番号】202010461384.2
(32)【優先日】2020-05-27
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】521208273
【氏名又は名称】阿波▲羅▼智▲聯▼(北京)科技有限公司
【氏名又は名称原語表記】APOLLO INTELLIGENT CONNECTIVITY(BEIJING)TECHNOLOGY CO.,LTD.
【住所又は居所原語表記】101, 1st Floor, Building 1, Yard 7, Ruihe West 2nd Road, Beijing Economic and Technological Development Zone, Beijing 100176, China
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】ヘ ガン
【審査官】笠田 和宏
(56)【参考文献】
【文献】特開2020-009446(JP,A)
【文献】米国特許出願公開第2019/0209116(US,A1)
【文献】Meng Dong,外4名,A CNN-Based Approach for Automatic License Plate Recognition in the Wild,British Machine Vision Conference 2017,2017年01月
【文献】Yingying Zhu,外3名,Cascaded Segmentation-Detection Networks for Text-Based Traffic Sign Detection,IEEE Transactions on Intelligent Transportation Systems,Volume 19,Issue 1,2018年01月,pp. 209-219
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
小目標を含むオリジナル画像を取得することと、
前記オリジナル画像を低解像度画像に縮小することと、
軽量級の分割ネットワークを用いて、前記低解像度画像から前記小目標を含む候補領域を識別することと、
前記候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを前記関心領域上で実行することにより、前記オリジナル画像における前記小目標の位置を確定することと、
を含み、
前記分割ネットワークのトレーニングサンプルを作成する際に、タスクを検出するための矩形枠内の画素点を正のサンプルとし、矩形枠外の画素点を負のサンプルとすることと、
長さおよび幅方向の画素数が所定の画素数より小さい小目標の矩形枠の長さおよび幅を外側へ所定のサイズ広げ、外側へ広げられた矩形枠内の画素をいずれも正のサンプルとすることと、
をさらに含む小目標を検出するための方法。
【請求項2】
前記検出モデルは、次のような方法でトレーニングされ、即ち、
初期検出モデルのネットワーク構造を確定し、且つ前記初期検出モデルのネットワークパラメータを初期化し、
トレーニングサンプルセットを取得し、ここで、トレーニングサンプルは、サンプル画像とサンプル画像における小目標の位置を特徴付けるためのアノテーション情報とを含み、
前記トレーニングサンプルを、コピー、マルチスケール変化、編集の少なくとも1つの方法で強化し、
強化されたトレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像およびアノテーション情報をそれぞれ前記初期検出モデルの入力および所望の出力とし、前記初期検出モデルを機械学習方法でトレーニングし、
トレーニングによって得られた前記初期検出モデルを、前記予めトレーニングされた検出モデルとして確定する、
請求項1に記載の方法。
【請求項3】
トレーニングサンプルを以下のように編集し、即ち、
サンプル画像から小目標を抽出し、
小目標をスケールおよび/または回転した後、サンプル画像における他の位置にランダムに貼り付けることにより、新しいサンプル画像を得る、
請求項2に記載の方法。
【請求項4】
前記検出モデルは、ディープニューラルネットワークである請求項1から3のいずれか1項に記載の方法。
【請求項5】
各予測層の特徴融合の後にアテンションモジュールを導入し、異なるチャネルの特徴に対し適切な重み付けを学習する請求項に記載の方法。
【請求項6】
小目標を含むオリジナル画像を取得するように配置された取得ユニットと、
前記オリジナル画像を低解像度画像に縮小するように配置された縮小ユニットと、
軽量級の分割ネットワークを用いて、前記低解像度画像から前記小目標を含む候補領域を識別するように配置された第1の検出ユニットと、
前記候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを前記関心領域上で実行することにより、前記オリジナル画像における前記小目標の位置を確定するように配置された第2の検出ユニットと、
を含み、
前記第1の検出ユニットは、さらに
前記分割ネットワークのトレーニングサンプルを作成する際に、タスクを検出するための矩形枠内の画素点を正のサンプルとし、矩形枠外の画素点を負のサンプルとし、
長さおよび幅方向の画素数が所定の画素数より小さい小目標の矩形枠の長さおよび幅を外側へ所定のサイズ広げ、外側へ広げられた矩形枠内の画素をいずれも正のサンプルとするように構成される小目標を検出するための装置。
【請求項7】
以下のように配置されたトレーニングユニットをさらに含み、即ち、
初期検出モデルのネットワーク構造を確定し、且つ前記初期検出モデルのネットワークパラメータを初期化し、
トレーニングサンプルセットを取得し、ここで、トレーニングサンプルは、サンプル画像とサンプル画像における小目標の位置を特徴付けるためのアノテーション情報とを含み、
前記トレーニングサンプルを、コピー、マルチスケール変化、編集の少なくとも1つの方法で強化し、
強化されたトレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像およびアノテーション情報をそれぞれ前記初期検出モデルの入力および所望の出力とし、前記初期検出モデルを機械学習方法でトレーニングし、
トレーニングによって得られた前記初期検出モデルを、前記予めトレーニングされた検出モデルとして確定する、
請求項に記載の装置。
【請求項8】
前記トレーニングユニットは、さらに、
サンプル画像から小目標を抽出し、
小目標をスケールおよび/または回転した後、サンプル画像における他の位置にランダムに貼り付けることにより、新しいサンプル画像を得る、
ように配置される、
請求項に記載の装置。
【請求項9】
前記検出モデルは、ディープニューラルネットワークである請求項からのいずれか1項に記載の装置。
【請求項10】
各予測層の特徴融合の後にアテンションモジュールを導入し、異なるチャネルの特徴に対し適切な重み付けを学習する請求項に記載の装置。
【請求項11】
1つ以上のプロセッサと、
1つ以上のプログラムが記憶された記憶装置と、
を含み、
前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行されるとき、請求項1からのいずれか1項に記載の方法を前記1つ以上のプロセッサに実現させる、
小目標を検出するための電子機器。
【請求項12】
コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されるとき、請求項1からのいずれか1項に記載の方法を実現する、
コンピュータ可読媒体。
【請求項13】
コンピュータプログラムであって、
プロセッサによって実行されると、請求項1からのいずれか1項に記載の方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施例は、コンピュータ技術の分野に関し、具体的には小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。
【背景技術】
【0002】
目標の検出は、自動運転分野における重要な研究の方向である。その主な検出の目標は、静止目標および運動目標の2種類に分類される。静止目標として、信号、交通標識、車道、障害物などが挙げられ、運動目標として、車、歩行者、非自動車などが挙げられる。ここで、交通標識の検出は、無人運転車が走行中に豊富かつ必要なナビゲーション情報を提供するものであり、重要な意味を持つ基礎的な仕事である。
【0003】
ARナビゲーションなどのアプリケーションでは、現在の区間の交通標識をリアルタイムで検出し、ユーザーに対して相応のヒントを与えることが重要である。車載ビデオでは、交通標識のサイズ分布範囲が広く、かつ大量の小目標(20画素以下)が存在し、小目標の検出は、検出アルゴリズムそのものだけでなく、画像の高い解像度を維持することも求め、これは車載マシンの有限な計算の性能に対しても大きな試練である。
【0004】
交通標識の認識の実効性を保証するために、既存の方式の多くは、YOLOモデルを使って入力画像をトレーニングし、得られた予測値から交通標識が属する分類を予測することによって識別する。YOLOモデルのトレーニングネットワークがC1ーC7の計7層の畳み込みトレーニング層と2層の全結合層を含むCNNモデルであるため、比較的速い速度で認識を完成できるが、交通標識が通常、収集されたオリジナル画像のごく一部を占めるだけであり、特徴マップが畳み込み層を通過するたびにサイズが縮小され、したがって、既存のYOLOモデルを採用する方法では、多層の畳み込みを通過した後に小さい画像の特徴を失いやすく、交通標識の認識の成功率に影響を与える。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の実施例は、小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムを提案する。
【0006】
第1態様において、本開示の実施例は、小目標を含むオリジナル画像を取得することと、オリジナル画像を低解像度画像に縮小することと、軽量級の分割ネットワークを用いて、低解像度画像から小目標を含む候補領域を識別することと、候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを関心領域上で実行することにより、オリジナル画像における小目標の位置を確定することと、を含む小目標を検出するための方法に関する。
【0007】
いくつかの実施例において、検出モデルは、次のような方法でトレーニングされ、即ち、初期検出モデルのネットワーク構造を確定し、且つ初期検出モデルのネットワークパラメータを初期化し、トレーニングサンプルセットを取得し、ここで、トレーニングサンプルは、サンプル画像とサンプル画像における小目標の位置を特徴付けるためのアノテーション情報とを含み、トレーニングサンプルを、コピー、マルチスケール変化、編集の少なくとも1つの方法で強化し、強化されたトレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像およびアノテーション情報をそれぞれ初期検出モデルの入力および所望の出力とし、初期検出モデルを機械学習方法でトレーニングし、トレーニングによって得られた初期検出モデルを、予めトレーニングされた検出モデルとして確定する。
【0008】
いくつかの実施例において、トレーニングサンプルを以下のように編集し、即ち、サンプル画像から小目標を抽出し、小目標をスケールおよび/または回転した後、サンプル画像における他の位置にランダムに貼り付けることにより、新しいサンプル画像を得る。
【0009】
いくつかの実施例において、当該方法は、分割ネットワークのトレーニングサンプルを作成する際には、タスクを検出するための矩形枠内の画素点を正のサンプルに設定し、矩形枠外の画素点を負のサンプルに設定することと、長さおよび幅方向の画素数が所定の画素数より小さい小目標の矩形枠を外側に広げることと、外側に広げられた矩形枠内の画素をいずれも正のサンプルに設定することと、をさらに含む。
【0010】
いくつかの実施例において、検出モデルは、ディープニューラルネットワークである。
【0011】
いくつかの実施例において、各予測層の特徴融合の後にアテンションモジュールを導入し、異なるチャネルの特徴に対し適切な重み付けを学習する。
【0012】
第2態様において、本開示の実施例は、小目標を含むオリジナル画像を取得するように配置された取得ユニットと、オリジナル画像を低解像度画像に縮小するように配置された縮小ユニットと、軽量級の分割ネットワークを用いて、低解像度画像から小目標を含む候補領域を識別するように配置された第1の検出ユニットと、候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを関心領域上で実行することにより、オリジナル画像における小目標の位置を確定するように配置された第2の検出ユニットと、を含む小目標を検出するための装置に関する。
【0013】
いくつかの実施例において、本開示の実施例に係る装置は、以下のように配置されたトレーニングユニットをさらに含み、即ち、初期検出モデルのネットワーク構造を確定し、且つ初期検出モデルのネットワークパラメータを初期化し、トレーニングサンプルセットを取得し、ここで、トレーニングサンプルは、サンプル画像とサンプル画像における小目標の位置を特徴付けるためのアノテーション情報とを含み、トレーニングサンプルを、コピー、マルチスケール変化、編集の少なくとも1つの方法で強化し、強化されたトレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像およびアノテーション情報をそれぞれ初期検出モデルの入力および所望の出力とし、初期検出モデルを機械学習方法でトレーニングし、トレーニングによって得られた初期検出モデルを、予めトレーニングされた検出モデルとして確定する。
【0014】
いくつかの実施例において、トレーニングユニットは、さらに、サンプル画像から小目標を抽出し、小目標をスケールおよび/または回転した後、サンプル画像における他の位置にランダムに貼り付けることにより、新しいサンプル画像を得る、ように配置される。
【0015】
いくつかの実施例において、第1の検出ユニットは、さらに、分割ネットワークのトレーニングサンプルを作成する際には、タスクを検出するための矩形枠内の画素点を正のサンプルに設定し、矩形枠外の画素点を負のサンプルに設定し、長さおよび幅方向の画素数が所定の画素数より小さい小目標の矩形枠を外側に広げ、外側に広げられた矩形枠内の画素をいずれも正のサンプルに設定する、ように配置される。
【0016】
いくつかの実施例において、検出モデルは、ディープニューラルネットワークである。
【0017】
いくつかの実施例において、各予測層の特徴融合の後にアテンションモジュールを導入し、異なるチャネルの特徴に対し適切な重み付けを学習する。
【0018】
第3態様において、本開示の実施例は、1つ以上のプロセッサと、1つ以上のプログラムが記憶された記憶装置と、を含み、1つ以上のプログラムが1つ以上のプロセッサによって実行されるとき、第1態様のいずれかに記載の方法を1つ以上のプロセッサに実現させる小目標を検出するための電子機器に関する。
【0019】
第4態様において、本開示の実施例は、コンピュータプログラムが記憶されたコンピュータ可読媒体であって、コンピュータプログラムがプロセッサによって実行されるとき、第1態様のいずれかに記載の方法を実現するコンピュータ可読記憶媒体に関する。
【0020】
第5態様において、本開示の実施例は、コンピュータプログラムであって、コンピュータプログラムがプロセッサによって実行されると、第1態様のいずれかに記載の方法を実現するコンピュータプログラムに関する。
【0021】
本開示の実施例による小目標を検出するための方法及び装置は、主にトレーニング方法、モデル構造、2段階の検出の3つの方面から解決され、ここで、トレーニング方法とモデル構造は、主にモデルの小目標に対する検出能力を向上させるために用いられ、2段階の検出は、画像に関係ない領域での計算量を減少させるために用いられ、この結果、演算速度を向上させる。
【0022】
本発明は、ARナビゲーションプロジェクトにリアルタイムの交通標識検出アルゴリズムを提供することができ、小目標の検出においてより良いパフォーマンスを示し、ユーザのナビゲーション体験を向上させることができる。
【図面の簡単な説明】
【0023】
本開示のその他の特徴、目的および利点をより明確にするために、以下の図面を参照してなされた非限定的な実施例の詳細な説明を参照する。
図1】本開示の一実施例が適用可能な例示的なシステムアーキテクチャ図である。
図2】本開示による小目標を検出するための方法の一実施例のフローチャートである。
図3】本開示による小目標を検出するための方法の一応用シーンを示す概略図である。
図4】本開示による小目標を検出するための方法の別の実施例のフローチャートである。
図5】本開示による小目標を検出するための方法の検出モデルのネットワーク構成図である。
図6】本開示による小目標を検出するための装置の一実施例の概略構成図である。
図7】本開示の実施例を実現するために適用される電子機器のコンピュータシステムの概略構成図である。
【発明を実施するための形態】
【0024】
以下、図面及び実施例を参照して本開示についてより詳細に説明する。ここで説明された具体的な実施例は、関連する発明を説明するためだけのものであり、この発明を制限するものではないことを理解できる。なお、説明を容易にするために、図面には関連する発明に関連する部分のみを示している。
【0025】
なお、矛盾しない場合には、本開示の実施例及び実施例における特徴が互いに組み合わせることができる。以下、図面を参照して、実施例に合わせて本開示を詳細に説明する。
【0026】
図1には、本発明が適用され得る、小目標を検出するための方法又は小目標を検出するための装置の実施例の例示的なシステムアーキテクチャ100が示されている。
【0027】
図1に示すように、システムアーキテクチャ100は、車両101と交通標識102とを含むことができる。
【0028】
車両101は、普通の自動車であってもよいし、無人運転車であってもよい。車両101に、コントローラ1011、ネットワーク1012およびセンサ1013が取り付けられてもよい。ネットワーク1012は、コントローラ1011とセンサ1013との間に通信リンクの媒体を提供するために使用される。ネットワーク1012は、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。
【0029】
コントローラ(車載脳とも呼ばれる)1011は、車両101の知能制御を担当する。コントローラ1011は、例えばプログラマブルロジックコントローラ(Programmable Logic Controller、PLC)、ワンチップマイクロコンピュータ、産業用制御機などのような個別に配置されたコントローラであってもよいし、入出力ポートを有し、演算制御機能を有する他の電子デバイスで構成された装置であってもよいし、車両運転制御類のアプリケーションがインストールされたコンピュータデバイスであってもよい。コントローラには、トレーニングされた分割ネットワークと検出モデルが設置されている。
【0030】
センサ1013は、例えば、カメラ、重力センサ、ホイール速度センサ、温度センサ、湿度センサ、レーザレーダ、ミリ波レーダーなどの様々なセンサであってもよい。場合によっては、車両101にはGNSS(Global Navigation Satellite System、グローバル衛星ナビゲーションシステム)機器やSINS(Strap-down Inertial Navigation System、ストラップダウン方式の慣性ナビゲーションシステム)などが搭載されてもよい。
【0031】
車両101は、走行中に交通標識102を撮影する。遠距離で撮影された画像でも、近距離で撮影された画像でも、画像における交通標識は、いずれも小目標である。
【0032】
車両101は、撮影した交通標識を含むオリジナル画像をコントローラに識別させることにより、交通標識の位置を確定する。OCR識別を行うことにより、交通標識の内容を識別することもできる。そして、交通標識の内容を音声や文字の形で出力する。
【0033】
なお、本発明の実施例による小目標を検出するための方法は、一般的にコントローラ1011によって実行され、これに対応して、小目標を検出するための装置は、一般的にコントローラ1011に配置される。
【0034】
図1のコントローラ、ネットワーク、およびセンサの数は単なる例示であることを理解すべきである。必要に応じて、任意の数のコントローラ、ネットワーク、およびセンサを備えることができる。
【0035】
続けて図2を参照すると、本開示による小目標を検出するための方法の一実施例のフロー200が示されている。当該小目標を検出するための方法は、以下のステップを含む。
【0036】
ステップ201において、小目標を含むオリジナル画像を取得する。
【0037】
本実施例において、小目標を検出するための方法の実行主体(例えば図1に示されたコントローラ)は、車載カメラを介して前方画像を収集することができ、収集されたオリジナル画像には小目標が含まれる。小目標とは、縦横の画素数が所定値(例えば20)未満の目標物体の画像を指す。
【0038】
ステップ202において、オリジナル画像を低解像度画像に縮小する。
【0039】
本実施例において、オリジナル画像の縦横方向をそれぞれ4(または他の倍数)で除算することにより、低解像度画像を得ることができる。縮小中においてアスペクト比を変更しない。
【0040】
ステップ203において、軽量級の分割ネットワークを用いて、低解像度画像から小目標を含む候補領域を識別する。
【0041】
本実施例において、第1の段階の検出の際に、目標が存在する可能性のある大体の位置を特定するだけでよく、正確な外枠を必要としないため、軽量級の分割ネットワークを用いて実現し、その最終的な出力ヒートマップにおける一定の閾値より大きい点をターゲットの存在が疑わしい点とみなす。U-Netのような分割ネットワークを採用することができ、バックボーンネットワークは軽量化のためにshufflenetを採用する。
【0042】
分割ネットワークのトレーニングサンプルを作成する際には、タスクを検出するための矩形枠内の画素点を正のサンプルに設定し、矩形枠外の画素点を負のサンプルに設定する。縦横方向のスケーリングがあるので、小目標に関するリコール率を保証するために、トレーニングサンプルを作成する際に、長さおよび幅方向の画素数が所定値、例えば20画素より小さい目標の矩形枠を外側に1倍に広げ、この後、外側に広げられた矩形枠内の画素をいずれも正のサンプルに設定する。
【0043】
ステップ204において、候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを関心領域上で実行することにより、オリジナル画像における小目標の位置を確定する。
【0044】
本実施例において、分割ネットワークから出力された結果におけるノイズポイントをフィルタリングした後、残りのすべての疑似的な目標点を囲む最小の外接矩形を形成し、当該矩形のスケールされない高解像度画像における対応する領域を関心領域とする。この後、検出モデルを当該関心領域上で実行すると、高解像度画像の一部の領域のみを処理する必要があり、この結果、計算量を低減することができる。
【0045】
前述のように、小目標をより良く検出するために、より高い解像度を維持する必要があり、画像が大きいと計算量が倍になり、車載マシンの環境ではリアルタイム処理を実現することが困難である。一方、交通標識が画像上で占める割合は小さく、ほとんどは背景領域であり、背景領域での計算量は全体の計算量のかなりの割合を占め、高解像度で背景領域を処理するのは時間がかかり、無意味である。したがって、本発明は、2段階の検出方式を採用し、まず軽量級の分割ネットワークを介して低解像度の画像上で疑わしい目標の大体の位置を特定し、この後、すべての疑わしい目標を含む最小の外接矩形を求め、最後に、当該最小の外接矩形に対応する高解像度画像ブロック上で検出モデルを実行することにより、小目標に対する検出率を保証する場合、計算量を減らす。
【0046】
上記の2つの段階の処理を経て、検出モデルの平均計算量は元の計算量の25%ぐらいに減少し、2つのモデルを合わせた平均計算量は、約元の計算量の45%ぐらいになる。
【0047】
続けて図4を参照すると、図4は、本実施例による小目標を検出するための方法の応用シーンを示す概略図である。図4の応用シーンにおいて、車両は走行中に前方画像をリアルタイムで収集する。取得されたオリジナル画像の縦横をそれぞれ4で除算した後、低解像度画像に縮小する。低解像度画像を軽量級の分割ネットワークに入力して、交通標識を含む候補領域を識別する。この後、オリジナル画像から候補領域に対応するオリジナル画像の領域を関心領域として見出す。関心領域の画像を抽出し、予めトレーニングされた検出モデルを入力して、点線の枠に示されるように、オリジナル画像における交通標識の具体的な位置を確定する。
【0048】
本開示の上記実施例による方法は、二次検出によって、計算量を低減し、識別速度と正確率を向上させる。
【0049】
さらに図4を参照して、小目標を検出するための方法の別の実施例のフロー400が示されている。当該小目標を検出するための方法のフロー400は、以下のステップを含む。
【0050】
ステップ401において、初期検出モデルのネットワーク構造を確定し、且つ初期検出モデルのネットワークパラメータを初期化する。
【0051】
本実施例において、小目標を検出するための方法が実行される電子装置(例えば、図1に示されたコントローラ)は、検出モデルをトレーニングすることができる。サードパーティのサーバで検出モデルをトレーニングした後、車両のコントローラにインストールすることもできる。検出モデルは、ニューラルネットワークモデルであり、目標の検出のための既存のいずれかのニューラルネットワークであってもよい。
【0052】
本実施例のいくつかの選択可能な実施形態において、検出モデルは、例えばYOLO系ネットワークなどのディープニューラルネットワークである。YOLO(You Only Look Once)は、ディープニューラルネットワークに基づくオブジェクト識別および位置特定アルゴリズムであり、その最大の特徴は、動作速度が速く、リアルタイムシステムに利用できることである。現在、YOLOはV3バージョン(YOLO3)に発展したが、新バージョンも元のバージョンに基づいてどんどん進化したものである。YOLO3のオリジナルの構造設計では、アップサンプリングにより低解像度特徴マップと高解像度特徴マップを融合する。しかしながら、このような融合は、高解像度特徴マップのみで発生し、異なるスケールの特徴を十分に融合することができなかった。
【0053】
異なる階層の特徴をより良く融合するために、本発明は、まず、バックボーンネットワークにおけるサブサンプリングの8倍、16倍、および32倍の特徴を基本的な特徴として選択し、この後、異なるサイズの目標を予測するために、予測特徴マップのサイズをそれぞれ画像のサブサンプリングの8倍、16倍、および32倍のサイズに設定し、各予測特徴マップの特徴は、いずれも3つの基本的な特徴層からのものであり、サブサンプリングまたはアップサンプリングにより同一のサイズに統一してから融合する。画像のサブサンプリングの16倍の予測層を例にとると、その特徴は、それぞれ3つの基本的な特徴層からのものであり、同一のサイズに統一するために、サブサンプリングの8倍の基本的な特徴層に対して1倍のサブサンプリングを行い、サブサンプリングの32倍の基本的な特徴層に対して1倍のアップサンプリングを行い、この後、2つの特徴層とサブサンプリングの16倍の基本的な特徴層とを融合する。
【0054】
単純に異なるスケールの特徴を融合すると、3つの予測層において特徴の比率は同じであり、それぞれの異なる予測目標に従って偏重して使用することができない。したがった、各予測層の特徴融合の後にアテンションモジュールをさらに導入し、異なるチャネルの特徴に対し適切な重み付けを学習し、これにより、各予測層は、自分が必要とする予測目標の特性に応じて、融合された後の特徴を偏重して使用することができる。ネットワーク構造を図5に示す。アテンションモジュールのパラメータの学習方式は先行技術であるため、ここでは説明を省略する。
【0055】
本開示では、YOLO3を検出ネットワークとして採用することができ、このようなアンカ(anchor)に基づく検出方法においてanchorの設計と割り当ては非常に重要であり、小目標に合致できるanchorの数が少ないため、モデルによる小目標の学習が不十分になり、小目標をうまく検出できなくなる。このために、動的なanchorマッチングメカニズムを採用し、ground truth(基本真理値)の大きさに応じてanchorとground truthがマッチングしたときのIOU(信頼度スコア)閾値を適応的に選択し、目標が小さい場合、IOUの閾値を下げて、より多くの小目標がトレーニングに参加できるようにして、小目標の検出におけるモデルの性能を向上させる。トレーニングサンプルを作成する際には、目標の大きさをすでに知り、目標の大きさに応じて適切なIOUの閾値を選択する。
【0056】
ステップ402において、トレーニングサンプルセットを取得する。
【0057】
本実施例において、トレーニングサンプルは、サンプル画像とサンプル画像における小目標の位置を特徴付けるためのアノテーション情報とを含む。
【0058】
ステップ403において、トレーニングサンプルを、コピー、マルチスケール変化、編集の少なくとも1つの方法で強化する。
【0059】
本実施例において、これは主に、トレーニングデータ内の小目標の数が不十分な場合の策略である。データセットにおける小目標を含む画像を複数コピーすることにより、データにおける小目標の数を直接に増やす一方、画像における小目標を抽出してスケールや回転を行った後、画像における他の位置にランダムに貼り付けることで、小目標の数を増やすだけでなく、より多くの変化を導入し、トレーニングデータの分布を豊かにすることができる。
【0060】
選択肢として、トレーニング画像を異なるスケールにスケールした後にトレーニングすることにより、元のデータセットにおける目標スケール変化を豊かにすることができ、モデルを異なるスケールの目標の検出タスクに適合させることができる。
【0061】
ステップ404において、強化されたトレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像およびアノテーション情報をそれぞれ初期検出モデルの入力および所望の出力とし、初期検出モデルを機械学習方法でトレーニングする。
【0062】
本実施例において、実行主体は、トレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像を初期検出モデルに入力することにより、当該サンプル画像における小目標の位置情報を得ることができ、当該トレーニングサンプルにおけるアノテーション情報を初期検出モデルの所望の出力とし、初期検出モデルを機械学習方法でトレーニングする。具体的には、まず、プリセットされた損失関数を用いて、得られた位置情報と当該トレーニングサンプルにおけるアノテーション情報との差異を計算することができ、例えば、L2ノルムを損失関数として用いて、得られた位置情報と当該トレーニングサンプルにおけるアノテーション情報との差異を計算することができる。この後、計算によって得られた差異に基づいて、初期検出モデルのネットワークパラメータを調整することができ、プリセットされたトレーニング終了条件を満たした場合、訓練を終了する。例えば、ここでプリセットされたトレーニング終了条件は、トレーニング時間がプリセット時間を超えること、トレーニング回数がプリセット回数を超えること、計算によって得られた差異がプリセット差異閾値より小さいことの少なくとも1つを含むことができるがこれに限定されない。
【0063】
ここで、様々な実施形態で、生成された位置情報と当該トレーニングサンプルにおけるアノテーション情報との差異に基づいて、初期検出モデルのネットワークパラメータを調整することができる。例えば、BP(Back Propagation、逆伝播)アルゴリズムまたはSGD(Stochastic Gradient Descent、ランダム勾配降下)アルゴリズムを用いて、初期検出モデルのネットワークパラメータを調整することができる。
【0064】
ステップ405において、トレーニングによって得られた初期検出モデルを、予めトレーニングされた検出モデルとして確定する。
【0065】
本実施例において、トレーニングステップの実行主体は、ステップ404でトレーニングによって得られた初期検出モデルを、予めトレーニングされた検出モデルとして確定することができる。
【0066】
さらに図6を参照して、上記の各図に示された方法の実現として、本発明は小目標を検出するための装置の一実施例を提供し、当該装置の実施例は、図2に示す方法実施例に対応し、当該装置は、具体的に様々な電子機器に適用できる。
【0067】
図6に示すように、本実施例に係る小目標を検出するための装置600は、取得ユニット601と、縮小ユニット602と、第1の検出ユニット603と、第2の検出ユニット604とを含む。ここで、取得ユニット601は、小目標を含むオリジナル画像を取得するように配置され、縮小ユニット602は、オリジナル画像を低解像度画像に縮小するように配置され、第1の検出ユニット603は、軽量級の分割ネットワークを用いて、低解像度画像から小目標を含む候補領域を識別するように配置され、第2の検出ユニット604は、候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを関心領域上で実行することにより、オリジナル画像における小目標の位置を確定するように配置される。
【0068】
本実施例において、小目標を検出するための装置600の取得ユニット601、縮小ユニット602、第1の検出ユニット603、及び第2の検出ユニット604の具体的な処理について、図2の対応する実施例におけるステップ201、ステップ202、ステップ203、およびステップ204を参照することができる。
【0069】
本実施例のいくつかの選択可能な実施形態において、装置600は、以下のように配置されたトレーニングユニット(図示せず)をさらに含み、即ち、初期検出モデルのネットワーク構造を確定し、且つ初期検出モデルのネットワークパラメータを初期化し、トレーニングサンプルセットを取得し、ここで、トレーニングサンプルは、サンプル画像とサンプル画像における小目標の位置を特徴付けるためのアノテーション情報とを含み、トレーニングサンプルを、コピー、マルチスケール変化、編集の少なくとも1つの方法で強化し、強化されたトレーニングサンプルセットにおけるトレーニングサンプル中のサンプル画像およびアノテーション情報をそれぞれ初期検出モデルの入力および所望の出力とし、初期検出モデルを機械学習方法でトレーニングし、トレーニングによって得られた初期検出モデルを、予めトレーニングされた検出モデルとして確定する。
【0070】
本実施例のいくつかの選択可能な実施形態において、トレーニングユニットは、さらに、サンプル画像から小目標を抽出し、小目標をスケールおよび/または回転した後、サンプル画像における他の位置にランダムに貼り付けることにより、新しいサンプル画像を得る、ように配置される。
【0071】
本実施例のいくつかの選択可能な実施形態において、第1の検出ユニットは、さらに、分割ネットワークのトレーニングサンプルを作成する際には、タスクを検出するための矩形枠内の画素点を正のサンプルに設定し、矩形枠外の画素点を負のサンプルに設定し、長さおよび幅方向の画素数が所定の画素数より小さい小目標の矩形枠を外側に広げ、外側に広げられた矩形枠内の画素をいずれも正のサンプルに設定する、ように配置される。
【0072】
本実施例のいくつかの選択可能な実施形態において、検出モデルは、ディープニューラルネットワークである。
【0073】
本実施例のいくつかの選択可能な実施形態において、各予測層の特徴融合の後にアテンションモジュールを導入し、異なるチャネルの特徴に対し適切な重み付けを学習する。
【0074】
以下、図7を参照して、本開示の実施例を実現するために適用される電子機器(例えば図1に示されたコントローラ)700の概略構成図が示されている。図7に示されたコントローラは、単なる例にすぎ、本開示の実施例の機能および使用範囲を制限するものではない。
【0075】
図7に示すように、電子機器700は、読み出し専用メモリ(ROM)702に記憶されているプログラムまたは記憶部708からランダムアクセスメモリ(RAM)703にロードされたプログラムに従って各種の適切な動作と処理を行うことができる処理装置(例えば中央処理装置、グラフィックスプロセッサなど)701を含むことができる。RAM703には、電子機器700の操作に必要な様々なプログラムとデータが記憶されている。処理装置701、ROM702、およびRAM703は、バス704によって相互に接続されている。入力/出力(I/O)インターフェース705もバス704に接続されている。
【0076】
通常、I/Oインターフェース705には、例えばタッチスクリーン、タッチパネル、キーボード、マウス、カメラ、マイク、加速度計、ジャイロなどを含む入力装置706と、例えば液晶ディスプレイ(LCD)、スピーカー、振動器などを含む出力装置707と、例えば磁気テープ、ハードディスクなどを含む記憶装置708と、通信装置709とが接続されている。通信装置709は、データを交換するために電子機器700が他の機器と無線通信または有線通信することを許可できる。図7は、様々な装置を有する電子機器700を示しているが、図示されたすべての装置を実施または備えることが要求されないことを理解されたい。代わりに、より多くまたはより少ない装置を実施または備えることができる。図7に示した各ブロックは、1つの装置を表してもよく、必要に応じて複数の装置を表してもよい。
【0077】
特に、本開示の実施例によると、上記のフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアのプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置709を介してネットワークからダウンロードされてインストールされ、または記憶装置708からインストールされ、またはROM702からインストールされることができる。このコンピュータプログラムが処理装置701によって実行されるときに、本開示の実施例の方法で限定された上記の機能を実行する。なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、あるいはコンピュータ可読記憶媒体、または上記の両方の任意の組合せであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、あるいは半導体のシステム、装置またはデバイス、あるいは上記の任意の組合せであってもよいが、これらに限らない。コンピュータ可読記憶媒体のより具体的な例には、1本以上のワイヤによる電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、または上記の任意の組み合わせが含まれるが、これらに限らない。本開示の実施例では、コンピュータ可読記憶媒体は、プログラムを含むかまたは記憶する任意の有形の媒体であることができ、このプログラムは、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されることができる。本開示の実施例では、コンピュータが読み取り可能な信号媒体は、コンピュータが読み取り可能なプログラムコードを担持した、ベースバンド内でまたは搬送波の一部として伝播されるデータ信号を含んでもよい。このような伝播されたデータ信号は、多種の形式を採用でき、電磁気信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限らない。コンピュータが読み取り可能な信号媒体は、コンピュータ可読記憶媒体以外のいかなるコンピュータ可読媒体であってもよく、このコンピュータ可読信号媒体は、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されるためのプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体で伝送されることができ、ワイヤ、光ファイバケーブル、RF(無線周波数)など、または上記の任意の適切な組み合わせを含むが、これらに限らない。
【0078】
上記コンピュータ可読媒体は、上記電子機器に含まれてもよく、個別に存在しこの電子機器に組み込まれなくてもよい。上記のコンピュータ可読媒体は、1つ以上のプログラムを担持し、上記の1つ以上のプログラムが当該電子機器によって実行されたとき、当該電子機器は、小目標を含むオリジナル画像を取得し、オリジナル画像を低解像度画像に縮小し、候補領域に対応するオリジナル画像の領域を関心領域とし、予めトレーニングされた検出モデルを関心領域上で実行することにより、オリジナル画像における小目標の位置を確定する。
【0079】
本開示の実施例の操作を実行するためのコンピュータプログラムコードを、1以上のプログラミング言語またはそれらの組み合わせで書くことができ、前記プログラミング言語には、Java、Smalltalk、C ++などのオブジェクト指向プログラミング言語を含み、さらに「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語も含まれる。プログラムコードは、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上、1つの単独のソフトウェアパッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモートコンピュータ上で、あるいは完全に遠隔コンピュータまたはサーバー上で実行されることができる。遠隔コンピュータに関する場合には、遠隔コンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができ、または、外部のコンピュータに接続されることができる(例えばインターネットサービスプロバイダを利用してインターネットを介して接続する)。
【0080】
図の中のフローチャートおよびブロック図には、本開示の様々な実施例によるシステム、方法とコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および操作が示されている。この点で、フローチャート又はブロック図の各ブロックは、1つのモジュール、プログラミングのセグメント、またはコードの一部を代表でき、当該モジュール、プログラミングのセグメント、またはコードの一部は、所定のロジック機能を実現するための1つ以上の実行可能指令を含む。また、いくつかの代替の実施例では、ブロックに示されている機能は、図面に示された順序と異なる順序で発生してもよいことに留意されたい。例えば、連続して示す2つのブロックは実際に並行して実行されてもよく、それらは係る機能に応じて時に逆の順序で実行されてもよい。ブロック図および/またはフローチャートの各ブロック、およびブロック図および/またはフローチャートのブロックの組み合わせは、特定の機能または操作を実行する専用のハードウェアによるシステムによって実現されてもよく、または専用ハードウェアとコンピュータ指令の組み合わせによって実現されてもよいことにも留意されたい。
【0081】
本開示の実施例に係るユニットは、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明されたユニットは、プロセッサに設置されてもよく、例えば、「取得ユニットと、縮小ユニットと、第1の検出ユニットと、第2の検出ユニットとを含むプロセッサである」と記載してもよい。ここで、これらのユニットの名は、ある場合にはそのユニット自体を限定しなくて、例えば、取得ユニットを「ユーザのウェブページ閲覧要求を受信するユニット」と記載してもよい。
【0082】
上記の説明は、本開示の好ましい実施例および応用された技術の原理の説明にすぎない。本開示の実施例に係る発明の範囲が、上記の技術的特徴を組み合わせて得られた技術案に限定されず、同時に上記の発明の概念から逸脱しない場合に、上記の技術的特徴またはこれと同等の技術的特徴を任意に組み合わせて得られた他の技術案を含むべきであることを当業者は理解すべきである。例えば、上記の特徴が本開示において開示されているもの(しかしこれに限らず)と類似した機能を有する技術的特徴と相互に入れ替わって形成された技術案が挙げられる。
図1
図2
図3
図4
図5
図6
図7