(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-31
(45)【発行日】2022-09-08
(54)【発明の名称】オブジェクト認識装置およびオブジェクト認識方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20220901BHJP
G06N 3/08 20060101ALI20220901BHJP
【FI】
G06T7/00 350C
G06N3/08
(21)【出願番号】P 2020086385
(22)【出願日】2020-05-18
【審査請求日】2020-05-18
(31)【優先権主張番号】10-2019-0070269
(32)【優先日】2019-06-13
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2019-0117656
(32)【優先日】2019-09-24
(33)【優先権主張国・地域又は機関】KR
【前置審査】
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(73)【特許権者】
【識別番号】321003371
【氏名又は名称】LINE株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ユ,ヨンジュン
(72)【発明者】
【氏名】ハン,ドンユン
(72)【発明者】
【氏名】ユン,サンド
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2019-008383(JP,A)
【文献】Tsung-Yi Lin, et al.,Feature Pyramid Networks for Object Detection,2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017年,https://ieeexplore.ieee.org/document/8099589
【文献】Xu Tang, et al.,Feature Fusion for Weakly Supervised Object Localization,2018 Chinese Automation Congress (CAC),IEEE,2018年,https://ieeexplore.ieee.org/document/8623227
【文献】Mark Sandler, et al.,MobileNetV2: Inverted Residuals and Linear Bottlenecks,2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018年,https://ieeexplore.ieee.org/document/8578572
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
対象イメージが入力されれば、特徴抽出演算を実行して特徴イメージを生成する特徴抽出部、および
前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第1特徴マップを生成するバックボーンネットワーク部を含み、
前記バックボーンネットワーク部は、
【数4】
を用いて前記第1特徴マップ{f
1、f
2、…、f
N}を各々生成し、ここで、Nは1以上の整数、F(・)は前記バックボーンネットワーク部の特徴マップ抽出演算、E(・)は特徴抽出部の特徴抽出演算、xは対象イメージ、f
0は前記特徴イメージであ
り、
前記バックボーンネットワーク部は、
複数の逆残差モジュールを含み、前記特徴イメージを前記複数の逆残差モジュールに順次適用して前記特徴マップ抽出演算を実行し、複数の逆残差モジュールのうち、最後に演算される逆残差モジュールのストライドを2に設定し、残りの逆残差モジュールのストライドは1に設定することを特徴とする、オブジェクト認識装置。
【請求項2】
前記逆残差モジュールは、
深さ基盤の分離コンボリューション演算を含み、活性関数としてPReLU(Parametric Rectified Linear Unit)またはLeaky-ReLUを用いることを特徴とする、請求項
1に記載のオブジェクト認識装置。
【請求項3】
対象イメージが入力されれば、特徴抽出演算を実行して特徴イメージを生成する特徴抽出部、および
前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第1特徴マップを生成するバックボーンネットワーク部を含み、
前記バックボーンネットワーク部は、
複数の逆残差モジュールを含み、前記特徴イメージを前記複数の逆残差モジュールに順次適用して前記特徴マップ抽出演算を実行し、複数の逆残差モジュールのうち、最後に演算される逆残差モジュールのストライドを2に設定し、残りの逆残差モジュールのストライドは1に設定することを特徴とするオブジェクト認識装置。
【請求項4】
前記複数の第1特徴マップ内を移動する各々の境界ボックスを用いて、前記境界ボックス内のオブジェクトの包含有無を判別する分類部、および
前記オブジェクトが含まれた場合には、前記第1特徴マップ内の境界ボックスを前記対象イメージ内の位置に回帰させて前記オブジェクトの位置情報を抽出する位置検知部をさらに含むことを特徴とする、請求項1に記載のオブジェクト認識装置。
【請求項5】
前記特徴抽出部、バックボーンネットワーク部、前記分類部および位置検知部は、マルチタスク損失関数を用いて同時に学習されることを特徴とする、請求項
4に記載のオブジェクト認識装置。
【請求項6】
直前に生成した第2特徴マップをアップサンプリングし、前記アップサンプリングした結果と同一な解像度を有する第1特徴マップをスキップ接続技法により連結して第2特徴マップを生成するアップサンプリング部をさらに含み、
前記アップサンプリング部は、
複数の第1特徴マップのうち解像度が最も低い第1特徴マップを最初の第2特徴マップに設定することを特徴とする、請求項1に記載のオブジェクト認識装置。
【請求項7】
入力された対象イメージに特徴抽出演算を実行して特徴イメージを生成するステップ、
前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第1特徴マップを生成するステップ、および
前記複数の第1特徴マップ内を移動する各々の境界ボックスを用いて、前記境界ボックス内のオブジェクトの包含有無を判別し、前記オブジェクトが含まれた場合には前記第1特徴マップ内の境界ボックスを前記対象イメージ内の位置に回帰させて前記オブジェクトの位置情報を抽出するステップを含み、
前記複数の第1特徴マップを生成するステップは、
【数4】
を用いて前記第1特徴マップ{f
1、f
2、…、f
N}を各々生成し、ここで、Nは1以上の整数、F(・)はバックボーンネットワーク部の特徴マップ抽出演算、E(・)は特徴抽出部の特徴抽出演算、xは対象イメージ、f
0は前記特徴イメージであ
り、
前記特徴イメージを複数の逆残差モジュールに順次適用して前記特徴マップ抽出演算を実行し、複数の逆残差モジュールのうち、最後に演算される逆残差モジュールのストライドを2に設定し、残りの逆残差モジュールのストライドは1に設定することを特徴とする、オブジェクト認識方法。
【請求項8】
入力された対象イメージに特徴抽出演算を実行して特徴イメージを生成するステップ、
前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第1特徴マップを生成するステップ、
複数の第1特徴マップのうち解像度が最も低い第1特徴マップを最初の第2特徴マップに設定するステップ、
直前に生成した第2特徴マップをアップサンプリングし、前記アップサンプリングした結果と同一な解像度を有する第1特徴マップをスキップ接続技法により連結して第2特徴マップを生成するステップ、および
前記複数の第2特徴マップ内を移動する各々の境界ボックスを用いて、前記境界ボックス内のオブジェクトの包含有無を判別し、前記オブジェクトが含まれた場合には前記第2特徴マップ内の境界ボックスを前記対象イメージ内の位置に回帰させて前記オブジェクトの位置情報を抽出するステップを含み、
複数の第1特徴マップを生成する前記ステップは、
【数4】
を用いて前記第1特徴マップ{f
1、f
2、…、f
N}を各々生成し、ここで、Nは1以上の整数、F(・)はバックボーンネットワーク部の特徴マップ抽出演算、E(・)は特徴抽出部の特徴抽出演算、xは対象イメージ、f
0は前記特徴イメージであ
り、
前記特徴イメージを複数の逆残差モジュールに順次適用して前記特徴マップ抽出演算を実行し、複数の逆残差モジュールのうち、最後に演算される逆残差モジュールのストライドを2に設定し、残りの逆残差モジュールのストライドは1に設定することを特徴とする、オブジェクト認識方法。
【請求項9】
コンピュータに請求項
7~8のいずれか一項に記載のオブジェクト認識方法を実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、対象イメージ内に含まれたオブジェクトを認識できるオブジェクト認識装置およびオブジェクト認識方法に関する。
【背景技術】
【0002】
最近、顔情報を用いた様々なアプリケーションが登場することにより、実用的な顔検出方法に関する関心が高まっている。顔認識システムは、特定人の出入りを許可するセキュリティシステムと監視環境において個人のプライバシー保護のために用いられている。また、表情認識は、顔領域に対して表情変化を分析して外形的な表情変化から人の感情を解釈する分野に用いられている。このような顔情報を活用したアプリケーションの領域が拡大しその数が増加することにより、様々な環境において顔領域を正確に抽出できる実用性の高い顔検出方法に関する研究が活発に行われている。
【0003】
最近、様々なコンピュータビジョンの分野において、学習に基づいた畳み込みニューラルネットワーク(convolutional neural network;CNN)方法が大きな成果を成し遂げた。CNNの顔検出方法が検出性能において大きい発展を成し遂げたが、システムの増加した複雑度はそれに対する実用性に疑問を持たせた。320×240のイメージから抽出できるウィンドウの数は10億個に達する。数多くのパッチに対して各々CNNに基づいて特徴情報を抽出し、顔と顔ではない領域に分類をするようになる。これは、顔検出性能とシステムの複雑度との間のトレードオフ関係をよく示すものである。また、隣接したウィンドウ間の共通集合領域に対して畳み込み演算が繰り返し実行されることによって不要な演算過程が含まれ、畳み込みニューラルネットワークの全結合層(fully-connected layer)の入力と出力が固定されることによってそのニューラルネットワークを通過する全ての入力データは入力データの大きさを固定された大きさに再調整する過程を伴うことによってシステムの演算複雑度が増加するようになる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願は、相対的に少ない容量で様々な大きさのオブジェクトに対する高いオブジェクト認識性能を実現できるオブジェクト認識装置およびオブジェクト認識方法を提供しようとする。
【0005】
本出願は、バックボーンネットワークの繰り返しの再使用を利用して複数の特徴マップを生成できるオブジェクト認識装置およびオブジェクト認識方法を提供しようとする。
【課題を解決するための手段】
【0006】
本発明の一実施形態によるオブジェクト認識装置は、対象イメージが入力されれば、特徴抽出演算を実行して特徴イメージを生成する特徴抽出部、および前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第1特徴マップを生成するバックボーンネットワーク部を含む。
【0007】
本発明の他の一実施形態によるオブジェクト認識方法は、入力された対象イメージに特徴抽出演算を実行して特徴イメージを生成するステップ、前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第1特徴マップを生成するステップ、および前記複数の第1特徴マップ内を移動する各々の境界ボックスを用いて、前記境界ボックス内のオブジェクト包含有無を判別し、前記オブジェクトが含まれた場合には前記第1特徴マップ内の境界ボックスを前記対象イメージ内の位置に回帰させて前記オブジェクトの位置情報を抽出するステップを含む。
【0008】
本発明のまた他の実施形態によるオブジェクト認識方法は、入力された対象イメージに特徴抽出演算を実行して特徴イメージを生成するステップ、前記特徴イメージに特徴マップ抽出演算を繰り返し実行し、前記特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第1特徴マップを生成するステップ、複数の第1特徴マップのうち解像度が最も低い第1特徴マップを最初の第2特徴マップに設定するステップ、直前に生成した第2特徴マップをアップサンプリングし、前記アップサンプリングした結果と同一な解像度を有する第1特徴マップをスキップ接続技法により連結して第2特徴マップを生成するステップ、および前記複数の第2特徴マップ内を移動する各々の境界ボックスを用いて、前記境界ボックス内のオブジェクト包含有無を判別し、前記オブジェクトが含まれた場合には前記第2特徴マップ内の境界ボックスを前記対象イメージ内の位置に回帰させて前記オブジェクトの位置情報を抽出するステップを含む。
【0009】
なお、前記課題を解決するための手段は、本発明の特徴を全て列挙したものではない。本発明の様々な特徴とそれに応じた長所および効果は下記の具体的な実施形態を参照してより詳細に理解できるものである。
【発明の効果】
【0010】
本発明の一実施形態によるオブジェクト認識装置およびオブジェクト認識方法は、バックボーンネットワークの繰り返しの再使用を利用して複数の特徴マップを生成することができるため、オブジェクト認識装置を実現するために必要なパラメータ数を画期的に減らすことができる。
【0011】
本発明の一実施形態によるオブジェクト認識装置およびオブジェクト認識方法によれば、様々な大きさのオブジェクトに対する繰り返しの学習を実行するため、相対的に小さい大きさのオブジェクトに対するオブジェクト認識率を高めることができる。
【0012】
但し、本発明の実施形態によるオブジェクト認識装置およびオブジェクト認識方法が達成できる効果は以上で言及したものに制限されず、言及していないまた他の効果は下記の記載によって本発明が属する技術分野における通常の知識を有する者に明らかに理解できるものである。
【図面の簡単な説明】
【0013】
【
図1】本発明の一実施形態によるオブジェクト認識装置を示すブロック図である。
【
図2】本発明の一実施形態による特徴抽出部を示すブロック図である。
【
図3】本発明の一実施形態による逆残差モジュールを示すブロック図である。
【
図4】本発明の一実施形態によるアップサンプリングモジュール、分類部および位置検知部を示すブロック図である。
【
図5】本発明の一実施形態によるバックボーンネットワークの構造を示すブロック図である。
【
図6】本発明の他の実施形態によるオブジェクト認識装置を示すブロック図である。
【
図7】本発明の一実施形態によるオブジェクト認識方法を示すフローチャートである。
【
図8】本発明の他の実施形態によるオブジェクト認識方法を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下では添付図面を参照して本明細書に開示された実施形態について詳しく説明するが、図面符号に関係なく同一または類似した構成要素には同一な参照番号を付し、それに対する重複する説明は省略することにする。以下の説明で用いられる構成要素に対する接尾辞「モジュール」および「部」は、明細書の作成の容易さだけを考慮して付与または混用されるものであって、それ自体で互いに区別される意味または役割を有するものではない。すなわち、本発明で用いられる「部」という用語はソフトウェア、FPGAまたはASICのようなハードウェア構成要素を意味し、「部」はある役割をする。ところが、「部」はソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングできるストレージ媒体にあるように構成されてもよく、一つまたはそれ以上のプロセッサを再生させるように構成されてもよい。よって、一例として「部」は、ソフトウェア構成要素、オブジェクト向けソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素および「部」において提供される機能は、さらに小さい数の構成要素および「部」で結合されるか、またはさらなる構成要素と「部」とにさらに分離されてもよい。
【0015】
また、本明細書に開示された実施形態を説明するにおいて、関連の公知技術に関する具体的な説明が本明細書に開示された実施形態の要旨を不要に濁す恐れがあると判断される場合には、その詳細な説明は省略する。また、添付された図面は本明細書に開示された実施形態を容易に理解できるようにするためのものに過ぎず、添付された図面によって本明細書に開示された技術的思想が制限されるものではなく、本発明の思想および技術範囲に含まれる全ての変更、均等物乃至代替物を含むものとして理解しなければならない。
【0016】
図1は、本発明の一実施形態によるオブジェクト認識装置を示すブロック図である。
【0017】
図1を参照すれば、本発明の一実施形態によるオブジェクト認識装置は、特徴抽出部110、バックボーンネットワーク部120、アップサンプリング部130、分類部140および位置検知部150を含むことができる。
【0018】
以下では、
図1を参照して、本発明の一実施形態によるオブジェクト認識装置を説明する。
【0019】
特徴抽出部110は、対象イメージが入力されれば、対象イメージに対する特徴抽出演算を実行して特徴イメージを生成することができる。
図2に例示されているように、特徴抽出部110は3×3畳み込みレイヤ、バッチ正規化レイヤ(batch normalization layer)および活性関数レイヤ(Activation layer)を含み、各々のレイヤを順次通過して特徴抽出演算を実行することができる。ここで、3×3畳み込みレイヤに含まれたsは畳み込みレイヤのストライド(stride)であり、pはパッディングの実行可否、gはグループ、c
inは入力チャネルの幅、c
outは出力チャネルの幅に各々対応する。すなわち、
図2によれば、特徴抽出部110は、ストライドが2であり、パッディングを実行し、入力チャネルの幅は3であり、出力チャネルの幅はhである、3×3畳み込みフィルタ演算を実行できるように構成される。
【0020】
例えば、対象イメージがカラーイメージである場合、入力チャネルはRGBの三つの色に対応する3個のチャネルを含み、特徴抽出部110の3×3畳み込みレイヤは3個の入力チャネルを有することができる。ここで、出力チャネルはhであるため、3×3畳み込みレイヤは特徴イメージのチャネルをh個に拡張させることができ、ストライドが2であるため、特徴イメージの解像度を対象イメージの半分に下げることができる。例えば、対象イメージの解像度が640×640である場合、特徴イメージは320×320に減る。
【0021】
バックボーンネットワーク部120は、特徴イメージに対して特徴マップ抽出演算を繰り返し実行し、特徴マップ抽出演算を実行した回数に応じて、解像度が互いに異なる第1特徴マップを生成することができる。
【0022】
図1を参照すれば、バックボーンネットワーク部120は複数の逆残差モジュール(inverted residual module)121を含み、複数の逆残差モジュール121を全て含む一つのセットに対する演算を完了すれば、特徴マップ抽出演算を1回実行したことに該当する。
【0023】
すなわち、特徴マップ抽出演算を1回実行すれば、演算結果として第1特徴マップf1を生成することができ、その後、第1特徴マップf1を再びバックボーンネットワーク部120に入力して、2回目の特徴マップ抽出演算を実行するようにすることができる。この場合、バックボーンネットワーク部120は、2回目の特徴マップ抽出演算に対応する第1特徴マップf2を生成することができる。その後、同様な方式で繰り返して、第1特徴マップf3、f4、f5、f6を順次生成することができる。ここでは、第1特徴マップを6個生成する実施形態を提示しているが、これに限定されるものではなく、生成する第1特徴マップの個数は実施形態に応じて多様に変形可能である。
【0024】
従来のSSD(Single Shot Detector)の場合、対象イメージに複数の畳み込みフィルタを順次適用して、各々の畳み込みフィルタに対応する特徴マップを生成した。すなわち、従来のSSDでは互いに異なる畳み込みフィルタを順次通過して特徴マップを生成したため、6個の特徴マップを生成するためには互いに異なる6個の畳み込みフィルタのパラメータを設計する必要がある。
【0025】
その反面、本発明においては、同一な特徴マップ抽出演算を繰り返し再使用するため、特徴マップ抽出演算のためのパラメータだけを設計しても複数の特徴マップを抽出することができる。したがって、本発明によれば、既存のSSDに比べて必要なパラメータ数を画期的に減らすことができる。
【0026】
一方、バックボーンネットワーク部120は以下のように表すことができる。
【0027】
【数1】
ここで、{f
1、f
2、…、f
N}は各々の第1特徴マップであり、Nは1以上の整数、F(・)はバックボーンネットワーク部120の特徴マップ抽出演算に該当する。また、E(・)は特徴抽出部110の特徴抽出演算、xは対象イメージ、f
0は特徴イメージに該当する。すなわち、出力値を再び入力値にする方式で繰り返して複数の第1特徴マップを生成することができる。
【0028】
さらに、バックボーンネットワーク部120内に含まれた逆残差モジュール121は、第1逆残差モジュールと第2逆残差モジュールに区分することができる。ここで、第1逆残差モジュールはバックボーンネットワーク部120内で最も先に演算されるものであり、第2逆残差モジュールは第1逆残差モジュール以後に順次演算されるものである。具体的には、
図5に示すように、1個の第1逆残差モジュールと複数の第2逆残差モジュールを含むように各々バックボーンネットワーク部120を実現することができる。
図3には第1逆残差モジュールと第2逆残差モジュールの例示が示されており、ここで、
図3(a)は第1逆残差モジュール、
図3(b)は第2逆残差モジュールの一例に該当する。
【0029】
ここで、各々の逆残差モジュールは深さ基盤の分離コンボリューション(depth-wise separable convolution)演算を実行し、それにより、特徴マップ抽出演算時に必要な演算量を減少させることができる。
【0030】
具体的には、第1逆残差モジュールの場合、
図3(a)に示すように、3×3畳み込みレイヤ、バッチ正規化レイヤ、活性化レイヤ、1×1畳み込みレイヤおよびバッチ正規化レイヤを含むことができる。ここで、特徴抽出部110が特徴イメージのチャネル幅を3からhに拡張したため、3×3畳み込みレイヤでは深さ基盤のコンボリューション(depth-wise convolution)演算を実行し、その後、1×1畳み込みレイヤを介してポイント基盤のコンボリューション(point-wise convolution)演算を実行してチャネル幅をhからcに再び縮小させることができる。
【0031】
また、第2逆残差モジュールは、
図3(b)に示すように、1×1畳み込みレイヤ、バッチ正規化レイヤ、活性化レイヤ、3×3畳み込みレイヤ、バッチ正規化レイヤ、活性化レイヤ、1×1畳み込みレイヤおよびバッチ正規化レイヤを順次含み、深さ基盤の分離コンボリューション演算を実行することができる。すなわち、1番目の1×1畳み込みレイヤにおいてポイント基盤のコンボリューション演算を実行してチャネル幅をcからhに拡張させ、その後、3×3畳み込みレイヤにおいて拡張されたチャネル幅に対する深さ基盤のコンボリューション演算を実行した後、再び1×1畳み込みレイヤにおいてチャネル幅をhからcに減らすポイント基盤のコンボリューション演算を実行することができる。
【0032】
一方、第1逆残差モジュールおよび第2逆残差モジュールに含まれた各々の活性化レイヤの場合、活性関数(activation function)としてPReLU(Parametric Rectified Linear Unit)またはLeaky-ReLUを用いることができる。従来にはReLU(Rectified Linear Unit)を活性関数として用いたが、ReLUは、その特性上、負の値を0に設定するため、繰り返しの特徴マップ抽出演算時に情報の損失が発生するなどの問題が生じうる。したがって、ここでは、負の値を反映できるPReLU(Parametric Rectified Linear Unit)またはLeaky-ReLUを活性関数として用いて、より正確なオブジェクト認識が可能となるようにすることができる。
【0033】
さらに、バックボーンネットワーク部120は、複数の逆残差モジュールのうち、最後に演算される逆残差モジュール121のストライド(stride)を2に設定し、残りの逆残差モジュール121のストライドは1に設定することができる。この場合、新たに生成される第1特徴マップの解像度を半分に減らすことができる。例えば、特徴イメージの解像度が320×320である場合、第1特徴マップf1の解像度は160×160に減り、その後、第1特徴マップf2、f3、f4、f5、f6の解像度は各々80×80、40×40、20×20、10×10、5×5に生成される。このような特徴マップの個数は、速度と演算量を犠牲にしてより小さい顔を検出するか、そうでなければ速い速度と少ない演算量を確保するかに応じて、多くあるいは少なく調節することができる。
【0034】
ここで、特徴マップの解像度が半分に減れば、特徴マップから相対的に大きい大きさのオブジェクトを認識することができる。オブジェクトの検出時には予め設定された境界ボックス内にオブジェクトが含まれるか否かを判別する方式を活用し、この時、特徴マップの解像度が半分に減れば、境界ボックスがカバーする領域が2倍に広くなる。したがって、以前には境界ボックス内に全部含まれなかったオブジェクトが境界ボックス内に全部含まれるため、相対的に大きい大きさのオブジェクトを検出することができる。すなわち、解像度の高い特徴マップでは相対的に小さい大きさのオブジェクトを検出し、解像度の低い特徴マップでは相対的に大きい大きさのオブジェクトを検出することができる。
【0035】
このように、バックボーンネットワーク部120は、生成する各々の第1特徴マップの解像度を変更することによって、対象イメージ内に含まれた様々な大きさのオブジェクトを認識することができる。
【0036】
実施形態によっては、バックボーンネットワーク部120に含まれる複数の逆残差モジュールの最後にストライドが2である3×3畳み込みフィルタを追加して、バックボーンネットワーク部120が生成する特徴マップの解像度を半分に減らすこともできる。
【0037】
一方、
図6に示すように、バックボーンネットワーク部120が生成した第1特徴マップを用いてオブジェクトを検出することもできる。但し、第1特徴マップを用いる場合、相対的に大きさの小さいオブジェクトを検出し難いという問題が発生しうる。すなわち、相対的に大きさの小さいオブジェクトは低いレベルの第1特徴マップから検出されるものであり、低いレベルの第1特徴マップは逆残差モジュールが十分な深さだけ形成されていない状態で生成されうる。
【0038】
それを解決するために、本発明の一実施形態によるオブジェクト認識装置は、アップサンプリング部130をさらに含むことができる。すなわち、FPN(Feature Pyramid Netwokr)構造を導入して、低いレベルの特徴マップにも十分な逆残差モジュールの深さを形成するようにすることができる。
【0039】
具体的には、アップサンプリング部130は、直前に生成した第2特徴マップをアップサンプリングし、アップサンプリングした結果と同一な解像度を有する第1特徴マップをスキップ接続(skip connection)技法により連結する方式で第2特徴マップを生成することができる。この時、アップサンプリング部130は、複数の第1特徴マップのうち解像度が最も低い第1特徴マップを最初の第2特徴マップに設定することができる。
【0040】
すなわち、
図1に示すように、最後に生成された第1特徴マップf6を1番目の第2特徴マップg1に設定し、その後、第2特徴マップg1をアップサンプリングし、アップサンプリングした結果を以前の第1特徴マップf5と加えて第2特徴マップg2を生成することができる。ここで、第2特徴マップg2は、第1特徴マップf5と同一な解像度を有することができる。
【0041】
また、アップサンプリング部130は、第2特徴マップg2をアップサンプリングし、それを同一な解像度を有する第1特徴マップf4と加えて第2特徴マップg3を生成し、その後、同様な方式で繰り返して残りの第2特徴マップを生成することができる。
【0042】
ここで、アップサンプリング部130の動作は以下の数式で表すことができ、{g1、g2、…、gN}は各々の第2特徴マップであり、{f1、f2、…、fN}は各々の第1特徴マップであり、Nは1以上の整数であり、Ui(・)はアップサンプリング関数に該当する。
【0043】
【数2】
一方、
図1に示すように、アップサンプリング部130はアップサンプリングモジュール131を含み、アップサンプリングモジュール131は各々の第2特徴マップに対するアップサンプリングを実行することができる。
図4(a)を参照すれば、アップサンプリングモジュール131は、バイリニア・アップサンプル・レイヤ(bilinear upsample layer)、3×3畳み込みレイヤ、1×1畳み込みレイヤ、バッチ正規化レイヤおよび活性関数レイヤを含むことができる。
【0044】
分類部140は、複数の第2特徴マップ内を移動する各々の境界ボックス(boundary box)を用いて、境界ボックス内のオブジェクト包含有無を判別することができる。ここで、分類部140が検知するオブジェクトは顔であってもよい。
【0045】
また、位置検知部150は、分類部140がオブジェクトを検知した場合、第2特徴マップ内の境界ボックスを対象イメージ内の位置に回帰させてオブジェクトの位置情報を抽出することができる。すなわち、対象イメージ内に含まれたオブジェクトの位置情報を提供することができ、位置情報を用いて対象イメージ内にオブジェクトの位置を表示ことができる。
【0046】
一方、
図4(b)および
図4(c)は分類部140および位置検知部150に各々対応するものであり、分類部140および位置検知部150は3×3畳み込みフィルタで動作することができる。分類部140の場合、境界ボックス内にオブジェクトが含まれる場合と含まれていない場合の二つの場合を表示するため、出力チャネルは2個であってもよい。ここで、出力チャネルが4個である場合には、マックスアウト(Maxout)を用いて4個のチャネルのうち2個のチャネルを選択することができ、それにより、相対的に小さい大きさのオブジェクトに対する誤検出の比率を下げることができる。
【0047】
また、位置検知部150の場合、出力チャネルは4個の次元を含み、各々は境界ボックスの幅、高さ、中心点位置座標などであってもよい。
【0048】
一方、本発明の一実施形態によるオブジェクト認識装置は、マルチタスク損失関数を用いて同時に学習される。すなわち、特徴抽出部110、バックボーンネットワーク部120、アップサンプリング部130、分類部140および位置検知部150などの構成は、マルチタスク損失関数を用いて同時に学習される。
【0049】
具体的には、マルチタスク損失関数は
【0050】
【数3】
である。ここで、l
cは分類損失、l
rは回帰損失、jは境界ボックス(anchor box)のインデックス、r
j
*は前記境界ボックスに対応する実測値(ground truth)である。また、c
j
*は0または1に設定されるものであって、境界ボックスのジャカードオーバーラップ(Jaccard overlap)が基準値t以上であれば1に設定され、基準値t未満であれば0に設定される。また、N
clsは学習時に用いられた類似サンプルおよび非類似サンプルの全体個数、N
reg=Σ
j c
j
*、λは任意の変数である。ここで、回帰損失は類似サンプルに対してのみ演算されるため、N
regはΣ
j c
j
*を用いて計算することができる。また、分類損失はクロスエントロピー損失、前記回帰損失はスムーズl1損失に設定される。
【0051】
その後、入力される学習データを用いて、マルチタスク損失関数の分類損失および回帰損失が最小になるようにオブジェクト認識装置の各構成のパラメータを設定することができる。
【0052】
ここで、本発明の一実施形態によるオブジェクト認識装置は、バックボーンネットワーク部120の繰り返しの再使用を利用して特徴マップを生成するため、従来のオブジェクト認識装置に比べて必要なパラメータ数を画期的に減らすことができる。また、パラメータ数を減らしただけに特徴マップの抽出のための逆残差モジュールなどを追加することができるため、より正確なオブジェクト認識を実現することができる。
【0053】
また、本発明の一実施形態によるバックボーンネットワーク120は様々な大きさのオブジェクトを繰り返し学習して生成されるため、相対的に小さいオブジェクトに対する認識率を向上させることができる。
【0054】
図5は、本発明の一実施形態によるバックボーンネットワークの構造を示すブロック図である。
図5にはバックボーンネットワークの三つの実施形態が示されており、各々の実施形態は
図5(a)、
図5(b)および
図5(c)に対応する。
【0055】
第1実施形態は、出力チャネル数が32個であり、第2実施形態は出力チャネル数が48個であり、第3実施形態は出力チャネル数が64個である。その反面、第1実施形態は7個の逆残差モジュールを含み、第2実施形態および第3実施形態は各々5個の逆残差モジュールを含む。この時、第1実施形態は6万個のパラメータ、第2実施形態は10万個のパラメータ、第3実施形態は16万個のパラメータを含む。ここで、第2実施形態および第3実施形態の場合、出力チャネル数が多い代わりに逆残差モジュール数を減らしてパラメータ数を減らすようにした。
【0056】
各々の実施形態に対するオブジェクト認識性能は、第3実施形態が最も優れた性能を示し、その後は第2実施形態、第1実施形態の順であった。これは、チャネル数が逆残差モジュール数など深さよりさらに重要な要素に該当することを示す。
【0057】
図7は、本発明の一実施形態によるオブジェクト認識方法を示すフローチャートである。
【0058】
図7を参照すれば、本発明の一実施形態によるオブジェクト認識方法は、特徴イメージ生成ステップ(S110)、第1特徴マップ生成ステップ(S120)およびオブジェクト認識ステップ(S130)を含み、各ステップは、オブジェクト認識装置により実行される。
【0059】
以下では、
図7を参照して、本発明の一実施形態によるオブジェクト認識方法を説明する。
【0060】
特徴イメージ生成ステップ(S110)では、入力された対象イメージに特徴抽出演算を実行して特徴イメージを生成することができる。ここで、特徴イメージは3×3コンボリューション演算により生成し、この時、3×3コンボリューション演算のストライドを2に設定して特徴イメージの解像度を半分に下げることができる。また、対象イメージに含まれたRGBの3個のチャネルをh個に拡張させて特徴イメージを生成することができる。
【0061】
第1特徴マップ生成ステップ(S120)では、特徴イメージに対する特徴マップ抽出演算を繰り返し実行し、特徴マップ抽出演算を適用した回数に応じて各々異なる解像度を有する複数の第1特徴マップを生成することができる。
【0062】
ここで、特徴マップ抽出演算は予め設定された複数の逆残差モジュールを全て含む一つのセットに対する演算に対応するものであってもよい。すなわち、特徴マップ抽出演算を1回実行すれば、演算結果として第1特徴マップf1を生成することができ、第1特徴マップf1に対して再び特徴マップ抽出演算を実行して第1特徴マップf2を生成することができる。その後、同様な方式で繰り返して、第1特徴マップf3、f4、f5、f6を順次生成することができる。この場合、同一な特徴マップ抽出演算を繰り返し再使用するため、特徴マップ抽出演算のためのパラメータだけを設計しても複数の特徴マップを抽出することができる。
【0063】
ここで、各々の逆残差モジュールは深さ基盤の分離コンボリューション演算を実行するものであり、それにより、特徴マップ抽出演算時に必要な演算量を減少させることができる。一方、逆残差モジュールは、活性関数としてPReLU(Parametric Rectified Linear Unit)またはLeaky-ReLUを用いるものである。
【0064】
さらに、複数の逆残差モジュールのうち最後に演算される逆残差モジュールに対してはストライドを2に設定し、残りの逆残差モジュールのストライドは1に設定することができる。すなわち、特徴マップ抽出演算時ごとに第1特徴マップの解像度を半分に減らすことができる。このように、各々の第1特徴マップの解像度を変更することによって、対象イメージ内に含まれた様々な大きさのオブジェクトを検出することができる。
【0065】
オブジェクト認識ステップ(S130)では、複数の第1特徴マップ内を移動する各々の境界ボックスを用いて、前記境界ボックス内のオブジェクト包含有無を判別することができる。また、オブジェクトが含まれた場合には、第1特徴マップ内の境界ボックスを対象イメージ内の位置に回帰させてオブジェクトの位置情報を抽出することができる。ここで、オブジェクト認識ステップ(S130)は3×3畳み込みフィルタを用いて実現し、位置情報には境界ボックスの幅、高さ、中心点位置座標などが含まれる。
【0066】
図8は、本発明の他の実施形態によるオブジェクト認識方法を示すフローチャートである。
【0067】
図8を参照すれば、本発明の他の実施形態によるオブジェクト認識方法は、
図7のオブジェクト認識方法と比較する時、初期設定ステップ(S130)および第2特徴マップ生成ステップ(S140)をさらに含むことができる。
【0068】
すなわち、
図7のように、第1特徴マップを用いてオブジェクトを検出することもできるが、第1特徴マップを用いる場合、相対的に大きさの小さいオブジェクトを検出し難いという問題が発生しうる。
【0069】
それを解決するために、本発明の他の実施形態によるオブジェクト認識方法は、初期設定ステップ(S130)および第2特徴マップ生成ステップ(S140)をさらに含み、FPN(Feature Pyramid Netwokr)構造を導入することができる。
【0070】
具体的には、初期設定ステップ(S130)では、複数の第1特徴マップのうち解像度が最も低い第1特徴マップを最初の第2特徴マップに設定し、その後、第2特徴マップ生成ステップ(S140)では、直前に生成した第2特徴マップをアップサンプリングし、前記アップサンプリングした結果と同一な解像度を有する第1特徴マップをスキップ接続技法により連結して第2特徴マップを生成することができる。
【0071】
すなわち、最後に生成された第1特徴マップf6を1番目の第2特徴マップg1に設定し、その後、第2特徴マップg1をアップサンプリングし、アップサンプリングした結果を以前の第1特徴マップf5と加えて第2特徴マップg2を生成することができる。ここで、第2特徴マップg2は、第1特徴マップf5と同一な解像度を有することができる。
【0072】
また、第2特徴マップg2をアップサンプリングし、それを同一な解像度を有する第1特徴マップf4と加えて第2特徴マップg3を生成し、その後、同様な方式で繰り返して残りの第2特徴マップを生成することができる。
【0073】
前述した本発明は、プログラムが記録された媒体にコンピュータ読み取り可能なコードとして実現することができる。コンピュータ読み取り可能な媒体は、コンピュータで実行可能なプログラムを続けて格納するか、または実行またはダウンロードのために臨時格納するものであってもよい。また、媒体は単一または数個のハードウェアが結合された形態の様々な記録手段または格納手段であってもよく、或るコンピュータ・システムに直接接続される媒体に限定されず、ネットワーク上に分散存在するものであってもよい。媒体の例示としては、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、CD-ROMおよびDVDのような光気録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体、およびROM、RAM、フラッシュメモリなどを含めてプログラム命令語が格納されるように構成されたものがある。また、他の媒体の例示として、アプリケーションを流通するアプリストアやその他の様々なソフトウェアを供給乃至流通するサイト、サーバなどが管理する記録媒体乃至ストレージ媒体も挙げられる。したがって、上記の詳細な説明は、全ての面で制限的に解釈されてはならず、例示的なものに考慮されなければならない。本発明の範囲は添付された請求項の合理的な解釈によって決定されなければならず、本発明の等価的な範囲内の全ての変更は本発明の範囲に含まれる。
【0074】
本発明は、前述した実施形態および添付された図面によって限定されるものではない。本発明が属する技術分野における通常の知識を有した者であれば、本発明の技術的思想を逸脱しない範囲内で本発明に係る構成要素を置換、変形および変更できることは明らかである。
【符号の説明】
【0075】
100 ・・・オブジェクト認識装置
110 ・・・特徴抽出部
120 ・・・バックボーンネットワーク部
121 ・・・逆残差モジュール
130 ・・・アップサンプリング部
131 ・・・アップサンプリングモジュール
140 ・・・分類部
150 ・・・位置検知部