(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-10
(45)【発行日】2024-06-18
(54)【発明の名称】深層学習ネットワークに基づく対象検出方法、装置及び電子機器
(51)【国際特許分類】
G06T 7/00 20170101AFI20240611BHJP
G06N 3/0464 20230101ALI20240611BHJP
【FI】
G06T7/00 350C
G06N3/0464
(21)【出願番号】P 2020100215
(22)【出願日】2020-06-09
【審査請求日】2023-03-09
(31)【優先権主張番号】201910525931.6
(32)【優先日】2019-06-18
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】タオ・シュアヌ
(72)【発明者】
【氏名】タヌ・ジミン
【審査官】稲垣 良一
(56)【参考文献】
【文献】特開2018-181124(JP,A)
【文献】中国特許出願公開第109740686(CN,A)
【文献】Maji Huang et al.,Weighted Pyramid Network for Foreign Object Debris Detection on Airfield Pavement,[online],2018年,[retrieved on 2024.01.23], https://ieeexplore.ieee.org/document/8652402
【文献】Jifeng Dai et al.,Deformable Convolutional Networks,[online],2017年06月05日,[retrieved on 2024.01.23], https://arxiv.org/abs/1703.06211
【文献】Chen Zhang et al.,Object detection with location-awaredeformable convolution and backward attention filtering,[online],2019年06月15日,[retrieved on 2024.01.23], https://ieeexplore.ieee.org/document/8953851
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 3/04 - 3/0499
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
深層学習ネットワークに
基づいて対象を検出する装置であって、
入力画像から異なるサイズの特徴をそれぞれ抽出する複数の特徴抽出ユニットを有する特徴抽出部;
カスケード接続される複数の特徴生成ユニットを有し、前記複数の特徴生成ユニットが、前記特徴抽出部により抽出される異なるサイズの特徴に基づいて、変形可能な畳み込み(Deformable Convolution)処理を用いて、それぞれ、各サイズに対応する特徴マップ(feature maps)を生成するマルチサイズ特徴生成部;及び
候補領域生成ネットワーク(RPN、Regional Proposal Network)を用いて、それぞれ、マルチサイズ特徴生成部により生成される異なるサイズの特徴マップ(feature maps)から、対応するサイズの対象の枠情報を検出する対象位置検出部を含
み、
マルチサイズ特徴生成部は、さらに、特徴抽出ユニットにより抽出される最小サイズの特徴に対して変形可能な畳み込み(Deformable Convolution)処理を行い、最小サイズの特徴に対応する特徴生成ユニットにより出力される特徴マップを形成する、装置。
【請求項2】
請求項1に記載の装置であって、
各候補領域生成ネットワークにより検出される対象の枠に対応する特徴マップ(feature maps)の部分に基づいて、
変形可能なプーリング(Deformable Pooling)処理を行い、検出される各枠内の対象が同じサイズになるようにさせるプーリング処理部をさらに含む、装置。
【請求項3】
請求項1に記載の装置であって、
特徴生成ユニットは、
前の1つの特徴生成ユニットにより出力される特徴マップに対して補間処理(interpolation)を行い、拡大後の特徴マップを得る補間ユニット;
現在の特徴生成ユニットに対応する特徴抽出ユニットにより抽出される該サイズの特徴に対して畳み込み処理(1*1*256)を行い、そして、前記拡大後の特徴マップとの融合を行う融合ユニット;及び
融合後に得られた行列に対して変形可能な畳み込み(Deformable Convolution)処理を行い、現在の特徴生成ユニットにより出力される特徴マップを形成する変形可能な畳み込み処理ユニットを含む、装置。
【請求項4】
請求項
1に記載の装置であって、
マルチサイズ特徴生成部は、さらに、前記の、最小サイズの特徴に対応する特徴生成ユニットにより出力される特徴マップに対してプーリング(pooling)処理を行い、前記マルチサイズ特徴生成部により出力される特徴マップを形成する、装置。
【請求項5】
請求項2に記載の装置であって、
変形可能なプーリング処理後の複数の前記枠内の特徴画像に対して合併(concat)を行う合併部;及び
複数の全結合層(fc)を用いて前記合併の結果に対して分類を行い、各対象の種類(classes)及び各対象の枠情報を出力する検出部をさらに含む、装置。
【請求項6】
請求項1~
5のうちの任意の1項に記載の
装置を含む
、電子機器。
【請求項7】
深層学習ネットワーク
に基づいて対象を検出する方法であって、
複数の特徴抽出ユニットがそれぞれ、入力画像から異なるサイズの特徴を
抽出する抽出ステップ;
カスケード接続される複数の特徴生成ユニットがそれぞれ、複数の前記特徴抽出ユニットにより抽出される異なるサイズの特徴に基づいて、変形可能な畳み込み(Deformable Convolution)処理を用いて、各サイズに対応する特徴マップを
生成する生成ステップ;及び
候補領域生成ネットワーク(RPN、Regional Proposal Network)を用いて、それぞれ、マルチサイズ特徴生成部により生成される異なるサイズの特徴マップ(feature maps)から、対応するサイズの対象の枠情報を
検出する検出ステップを含
み、
生成ステップでは、さらに、特徴抽出ユニットにより抽出される最小サイズの特徴に対して変形可能な畳み込み(Deformable Convolution)処理を行い、最小サイズの特徴に対応する特徴生成ユニットにより出力される特徴マップを形成する、方法。
【請求項8】
請求項
7に記載の方法であって、
各候補領域生成ネットワークにより検出される対象の枠に対応する特徴マップ(feature maps)の部分に基づいて、
変形可能なプーリング(Deformable Pooling)処理を行い、検出される各枠内の対象が同じサイズになるようにさせる
ステップをさらに含む、方法。
【請求項9】
請求項
7に記載の方法であって、
生成ステップは、
前の1つの特徴生成ユニットにより出力される特徴マップに対して補間処理(interpolation)を行い、拡大後の特徴マップを取得し;
現在の特徴生成ユニットに対応する特徴抽出ユニットにより抽出される該サイズの特徴に対して畳み込み処理(1*1*256)を行い、そして、前記拡大後の特徴マップとの融合を行い;及び
融合後に得られた行列に対して変形可能な畳み込み(Deformable Convolution)処理を行い、現在の特徴生成ユニットにより出力される特徴マップを形成することを含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子情報技術分野に関する。
【背景技術】
【0002】
近年、画像分析との密な関係があるから、画像に基づく対象検出技術が広く注目されている。深層学習(Deep Learning)の迅速な進展、特に、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)の進歩性に伴って、対象検出技術のパフォーマンスが大きく向上している。今のところ、先進的な対象検出技術がかなり高い検出精度及びリコールレート(Recall Rate)に達している。
【0003】
対象検出技術が大きく進展しているが、この分野では、依然として、多くの挑戦が存在する。1つの挑戦が、サイズ(大小)の差が大きい対象に対しての認識が困難である。そのため、研究者がFaster R-CNN分類器を開発している。
【0004】
もう1つの挑戦が、対象形状の幾何学的変換の認識結果への影響である。そのうち、如何に画像における対象のサイズ、姿勢、観察角度、変形などの幾何学的変換に適応するかが、ビジョン認識におけるキーになる1つの問題である。一般的に言えば、対象形状の幾何学的変換の認識結果への影響を低減し得る方法としては、すべての変化をカバーする1つのデータ集をメインテインし;及び、幾何学的変換に対して一定不変な手動特徴及び特定のアルゴリズムを使用するという2種類の方法がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の発明者が次のようなことを発見した。即ち、従来の対象検出技術では、上述のような2つの挑戦に直面するときに、幾つかの制約が存在する。例えば、Faster R-CNN分類器の場合、サイズが大きい対象を認識するときにパフォーマンスが良いが、サイズが比較的小さい対象を認識し難い。すべての変化をカバーする1つのデータ集をメインテインする方法について言えば、データ集に、実生活の中のすべての状況をカバーさせることが困難であり、また、効率及びコストが着データの増加に伴って激増する。手動特徴及び特定のアルゴリズムを使用する方法の場合、該方法は、特定の幾何学的変換に手動で適切な特性を設定するために大量の予備知識及び経験を要し、新しい幾何学的変換が現れるときに、手動で新しい特性を設定する必要がある。
【0006】
本発明の実施例は、深層学習ネットワークに基づく対象検出方法、装置及び電子機器を提供する。該方法では、目標検出モデル及び変形可能な畳み込み処理を組み合わせることで、画像におけるサイズが小さい対象を正確に認識することができるだけでなく、画像における対象形状の幾何学的変換の検出結果への影響を低減することもできる。
【課題を解決するための手段】
【0007】
本発明の実施例の第一側面によれば、深層学習ネットワークに基づく対象検出装置が提供され、該装置は、
特徴抽出部であって、入力画像から異なるサイズの特徴をそれぞれ抽出する複数の特徴抽出ユニットを有するもの;
マルチサイズ特徴生成部であって、カスケード(cascade)接続される複数の特徴生成ユニットを有し、前記複数の特徴生成ユニットが前記特徴抽出部により抽出される異なるサイズの特徴に基づいて、変形可能な畳み込み(Deformable Convolution)処理を使用し、それぞれ、各サイズに対応する特徴マップ(feature maps)を生成するもの;及び
対象位置検出部であって、候補領域生成ネットワーク(RPN、Regional Proposal Network)を用いて、それぞれ、マルチサイズ特徴生成部により生成される異なるサイズの特徴マップ(feature maps)から、対応するサイズの対象の枠(border)情報を検出するものを含む。
【0008】
本発明の実施例の第二側面によれば、深層学習ネットワークに基づく対象検出方法が提供され、該方法は、
複数の特徴抽出ユニットがそれぞれ、入力画像から異なるサイズの特徴を抽出し;
カスケード接続される複数の特徴生成ユニットがそれぞれ、複数の前記特徴抽出ユニットにより抽出される異なるサイズの特徴に基づいて、変形可能な畳み込み(Deformable Convolution)処理を用いて、各サイズに対応する特徴マップを生成し;及び
候補領域生成ネットワーク(RPN、Regional Proposal Network)を用いて、それぞれ、生成される異なるサイズの特徴マップ(feature maps)から、対応するサイズの対象の枠情報を検出することを含む。
【0009】
本発明の実施例の第三側面によれば、実施例の第一側面に記載の深層学習ネットワークに基づく対象検出装置を含む電子機器が提供される。
【0010】
本発明の実施例の有益な効果は、画像におけるサイズが小さい対象を正確に認識することができるだけでなく、画像における対象形状の幾何学的変換の検出結果への影響を低減することもできるということにある。
【図面の簡単な説明】
【0011】
【
図1】本発明の実施例の第一側面における深層学習ネットワークに基づく対象検出装置を示す図である。
【
図2】
図1に示す深層学習ネットワークに基づく対象検出装置の1つの具体的な構造を示す図である。
【
図4】本発明の実施例の第二側面における深層学習ネットワークに基づく対象検出方法を示す図である。
【
図5】本発明の実施例の第三側面における電子機器の例示的な構成を示す図である。
【発明を実施するための形態】
【0012】
以下、添付した図面を参照しながら、本発明を実施するための好適な形態について詳細に説明する。
【0013】
<実施例の第一側面>
本発明の実施例の第一側面では、深層学習ネットワークに基づく対象検出装置が提供される。
【0014】
図1は、本発明の実施例の第一側面における深層学習ネットワークに基づく対象検出装置を示す図である。
図1に示すように、深層学習ネットワークに基づく対象検出装置100は、特徴抽出部101、マルチサイズ特徴生成部102及び対象位置検出部103を含む。
【0015】
特徴抽出部101には、複数の特徴抽出ユニットがあり、それぞれ、入力画像から異なるサイズの特徴を抽出し;マルチサイズ特徴生成部102は、カスケード接続される複数の特徴生成ユニットを有し、該複数の特徴生成ユニットは、特徴抽出部101により抽出される異なるサイズの特徴に基づいて、変形可能な畳み込み(Deformable Convolution)処理を用いて、それぞれ、各サイズに対応する特徴マップ(feature maps)を生成し;対象位置検出部103は、候補領域生成ネットワーク(RPN、Regional Proposal Network)を用いて、それぞれ、マルチサイズ特徴生成部102により生成される異なるサイズの特徴マップ(feature maps)から、対応するサイズの対象の枠情報を検出する。
【0016】
本発明の実施例の第一側面によれば、マルチサイズ特徴生成部102が各サイズに対応する特徴マップを生成することにより、画像における大サイズ及び小サイズの対象に対してすべて正確な検出を行うことができ、また、マルチサイズ特徴生成部102が変形可能な畳み込み処理を用いて特徴マップを生成するため、画像における対象形状の幾何学的変換の検出結果への影響を低減することもできる。
【0017】
本発明の実施例の第一側面では、
図1に示すように、深層学習ネットワークに基づく対象検出装置100は、さらに、プーリング処理部104を含んでも良い。
【0018】
プーリング処理部104は、対象位置検出部103により検出される対象の枠に対応する特徴マップ(feature maps)の部分に基づいて、変形可能なプーリング処理(Deformable Pooling)を行うことで、各枠内の対象が同じサイズになるようにさせる。
【0019】
本発明の実施例の第一側面では、
図1に示すように、深層学習ネットワークに基づく対象検出装置100は、さらに、合併部105及び検出部106を含んでも良い。
【0020】
合併部105は、プーリング処理部104が変形可能なプーリング処理を行った後の複数の枠内の画像特徴に対して合併(concat(関数))を行い;検出部106は、複数の全結合層(fc)を用いて、合併部105の合併結果に対して分類を行い、各対象の種類(classes)及び各対象の枠情報を出力する。
【0021】
本発明の実施例の第一側面では、変形可能な畳み込み処理において、畳み込みカーネルの入力画像中のサンプリングポイントが変形し得る。
【0022】
本発明の実施例の第一側面では、変形可能なプーリング処理が変形可能な関心領域プーリング処理(Deformable RoI Pooling)と称されても良く、変形可能なプーリング処理において、プーリング処理の対象である関心領域域が入力画像において変形し得る。
【0023】
なお、変形可能な畳み込み処理及び変形可能なプーリング処理の原理及び具体的な処理方式については、非特許文献1(Dai J,Qi H,Xiong Y,et al.Deformable Convolutional Networks[J].2017:764-773)を参照することができる。
【0024】
図2は、
図1に示す深層学習ネットワークに基づく対象検出装置の1つの具体的な構造を示す図である。
【0025】
少なくとも1つの実施例において、特徴抽出部101は、例えば、残差ニューラルネットワーク(Residual Neural Network、ResNet)に基づいて、異なるサイズの特徴を抽出することができる。
【0026】
図2に示すように、特徴抽出部101における特徴抽出ユニットの数が2以上であっても良く、例えば、4つがあり、即ち、1012、1013、1014及び1015である。各特徴抽出ユニットはそれぞれ、入力画像200から、異なるサイズの特徴を抽出し、各特徴は、例えば、2次元の行列(matrix)であっても良い。
【0027】
図2に示すように、特徴抽出ユニット1012、1013、1014及び1015は、入力画像200の入力側から、順次、直列接続するように設置される。各特徴抽出ユニットが出力する特徴のサイズは、すべて、前の1つの徴抽出ユニットが出力する特徴のサイズの半分であり、例えば、特徴抽出ユニット1011、1012、1013及び1014が出力する特徴のサイズは、それぞれ、入力画像200のサイズの1/4、1/8、1/16、1/32である。
【0028】
図2に示すように、特徴抽出ユニット1012、1013、1014及び1015にはそれぞれ、2つ以上の特徴抽出モジュールResBlock_2、ResBlock_3、ResBlock_4及びResBlock_5があっても良い。
【0029】
図2に示すように、特徴抽出モジュールResBlock_2の数が3であり、それぞれ、ResBlock_2a、ResBlock_2b、ResBlock_2cである。特徴抽出モジュールResBlock_3の数が4であり、それぞれ、ResBlock_3a、ResBlock_3b、ResBlock_3c、ResBlock_3dである。特徴抽出モジュールResBlock_4の数が6であり、それぞれ、ResBlock_4a、ResBlock_4b、ResBlock_4c、ResBlock_4d、ResBlock_4e、ResBlock_4fである。特徴抽出モジュールResBlock_5の数が3であり、それぞれ、ResBlock_5a、ResBlock_5b、ResBlock_5cである。なお、
図2に示す各特徴抽出モジュールの数は、例示に過ぎず、本発明は、これに限定されない。
【0030】
同一の特徴抽出ユニットでは、異なる特徴抽出モジュールにより抽出される特徴が異なる形状を有するが、サイズが同じである。例えば、特徴抽出ユニット1012では、特徴抽出モジュールResBlock_2a、ResBlock_2b、ResBlock_2cは、それぞれ、矩形状特徴、円形状特徴、楕円形状特徴などを抽出するために用いられ、また、各特徴抽出モジュールResBlock_2a、ResBlock_2b、ResBlock_2cにより抽出される特徴のサイズはすべて、入力画像200のサイズの1/4である。
【0031】
また、
図2に示すように、特徴抽出部101は、さらに、第一畳み込みユニット1011を有しても良く、そのうち、該第一畳み込みユニット1011は、入力画像200に対して畳み込み処理を行い、そして、畳み込み処理の結果を特徴抽出ユニット1012に入力することができる。
【0032】
少なくとも1つの実施例において、マルチサイズ特徴生成部102は、例えば、FPN(Feature Pyramid Networks、FPN)の構造に基づいて、異なるサイズの特徴マップ(feature map)を生成することができる。
【0033】
図2に示すように、マルチサイズ特徴生成部102における特徴生成ユニットの数が2个以上であり、例えば、4つがあり、即ち、1025、1024、1023、1022及び1021である。
【0034】
特徴生成ユニット1025、1024、1023及び1022は、特徴抽出部101の特徴抽出ユニット1015の出力側から、順次、直列接続するように設置され、それぞれ、異なるサイズの特徴マップ(Feature Map)、即ち、P5、P4、P3及びP2を出力し、そのうち、特徴マップP5のサイズは、P4の1/2であり、特徴マップP4のサイズは、P3の1/2であり、特徴マップP3のサイズは、P2の1/2である。
【0035】
図3は、特徴生成ユニット102nを示す図である。特徴生成ユニット102nは、特徴生成ユニット1024、1023又は1022であっても良い。
【0036】
図3に示すように、P_preは、前の1つの特徴生成ユニットにより生成される特徴マップを表し、例えば、P_preは、P5、P4又はP3であっても良い。P_nextは、現在の特徴生成ユニットにより生成される特徴マップを表し、例えば、P_nextは、P4、P3又はP2であっても良い。
【0037】
図3に示すように、特徴生成ユニット102nは、補間ユニット301、融合ユニット302、及び変形可能な畳み込み処理ユニット303を含んでも良い。
【0038】
少なくとも1つの実施例において、補間ユニット301は、前の1つの特徴生成ユニットにより出力される特徴マップP_preに対して補間処理(interpolation)を行い、拡大後の特徴マップを得る。該補間処理は、バイリニア(bilinear)補間処理であっても良く、該補間処理により、特徴マップP_preを所定の倍数、例えば、2倍に拡大することができる。
【0039】
少なくとも1つの実施例において、融合ユニット302は、現在の特徴生成ユニット102nに対応する特徴抽出部101における特徴抽出ユニット101nにより抽出される該サイズの特徴に対して畳み込み(convolution)処理を行い、そして、補間ユニット301により得られる拡大後の特徴マップとの融合を行う。
【0040】
そのうち、特徴生成ユニット102nに対応する特徴抽出ユニット101nにより抽出される特徴は、補間ユニット301により拡大された後の特徴マップと同じ行列規模を有する。例えば、特徴生成ユニット102nが1022であるときに、対応する特徴抽出ユニット101nは、1012であり;特徴生成ユニット102nが1023であるときに、対応する特徴抽出ユニット101nは、1013であり;特徴生成ユニット102nが1024であるときに、対応する特徴抽出ユニット101nは、1014である。
【0041】
図3に示すように、融合ユニット302は、第二畳み込みモジュール3021及び合成モジュール3022を有しても良い。第二畳み込みモジュール3021は、特徴抽出ユニット101nにより抽出される該サイズの特徴に対して畳み込み(convolution)処理を行い、該畳み込み処理は、例えば、1×1×256の畳み込み処理である。合成モジュール3022は、第二畳み込みモジュール3021が畳み込み処理を行った後の行列と、補間ユニット301により拡大された後の特徴マップとに対して加算を行っても良く、即ち、深層方向上で第二畳み込みモジュール3021が畳み込み処理を行った後の行列と、補間ユニット301により拡大された後の特徴マップとに対してステッチングを行い、3次元の行列を得る。
【0042】
図3に示すように、変形可能な畳み込み処理ユニット303は、融合ユニット302により融合された後に得られた行列に対して変形可能な畳み込み(Deformable Convolution)処理を行い、現在の特徴生成ユニット102nが出力する特徴マップP_nextを生成する。そのうち、変形可能な畳み込み処理ユニット303が行う変形可能な畳み込み(Deformable Convolution)処理は、例えば、3×3×256の変形可能な畳み込み処理であっても良い。
【0043】
図3に示すように、特徴マップP_pre及び特徴マップP_nextはすべて、対象位置検出部103に、異なるサイズの対象の枠情報を検出するために入力することができる。
【0044】
図2に示すように、特徴生成ユニット1025は、特徴抽出部101における特徴抽出ユニット1015に対応し、そのうち、特徴抽出ユニット1015が出力する特徴は、特徴抽出部101が出力するサイズ最小の特徴である。
【0045】
図2に示すように、特徴生成ユニット1025は、特徴抽出ユニット1015が抽出する最小サイズの特徴に対して変形可能な畳み込み(Deformable Convolution)処理を行い、特徴生成ユニット1025が出力する特徴マップP5を生成する。
【0046】
図2に示すように、マルチサイズ特徴生成部102における特徴生成ユニット1021は、特徴生成ユニット1025が出力する特徴マップに対してプーリング処理(pooling)を行い、特徴マップのサイズを半分にすることで、特徴マップP6を得ることができ、即ち、特徴マップP6の行列規模は、特徴マップP5の行列規模の半分である。
【0047】
マルチサイズ特徴生成部102により、異なるサイズの特徴マップP6、P5、P4、P3、P2を得ることで、対象位置検出部103において異なるサイズの対象の枠情報を検出することができ、また、マルチサイズ特徴生成部102において変形可能な畳み込み処理が採用されるので、画像における対象形状の幾何学的変換の検出結果への影響を低減することもできる。
【0048】
少なくとも1つの実施例において、対象位置検出部103は、候補領域生成ネットワーク(RPN、Regional Proposal Network)を用いて、マルチサイズ特徴生成部102により生成される異なるサイズの特徴マップ(feature maps)から、対応するサイズの対象の枠情報を検出することができる。
【0049】
図2に示すように、対象位置検出部103は、複数の候補領域生成ネットワークを有しても良く、例えば、5つがあり、即ち、1031、1032、1033、1034及び1035である。
【0050】
各候補領域生成ネットワークは、マルチサイズ特徴生成部102により生成される各サイズの特徴マップにそれぞれ対応し、例えば、候補領域生成ネットワーク1031、1032、1033、1034及び1035はそれぞれ、特徴マップP6、P2、P3、P4及びP5を受け取る。
【0051】
各候補領域生成ネットワークは、対応するサイズの特徴マップから、対象の枠の情報を検出することができ、該対象の枠の情報は、例えば、対象の枠の位置、及び/又は、枠の形状、及び/又は、枠の大小(サイズ)を含んでも良い。なお、各候補領域生成ネットワークのワーキング原理については、従来技術を参照することができる。
【0052】
図2に示すように、プーリング処理部104は、各候補領域生成ネットワークが検出する対象の枠に対応する特徴マップ(feature maps)の部分に基づいて、変形可能なプーリング(Deformable Pooling)処理を行い、検出する各枠内の対象が同じサイズになるようにさせる。
【0053】
プーリング処理部104は、複数のプーリング処理ユニットを有しても良く、例えば5つがあり、即ち、1041、1042、1043、1044及び1045である。
【0054】
各プーリング処理ユニットは、対応する特徴生成ユニットから特徴画像を取得し、また、対応する候補領域生成ネットワークから対象の枠の情報を取得し、そして、画像特徴中の該対象の枠内の部分に対して変形可能なプーリング処理を行う。
【0055】
例えば、プーリング処理ユニット1043は、対応する特徴生成ユニット1023から特徴画像P3を取得し、対応する候補領域生成ネットワーク1033から特徴画像P3中の対象の枠の情報を取得し、そして、特徴画像P3中の該対象の枠内の部分に対して変形可能なプーリング処理を行い、プーリング処理後の各枠内の特徴画像の部分を取得し、該プーリング処理後の各枠内の特徴画像の部分は、行列の形式であっても良く、該行列は、例えば、画素の行列である。
【0056】
少なくとも1つの実施例において、各プーリング処理ユニット1041、1042、1043、1044及び1045から出力される行列は、画像の2次元方向上の規模が同じである。
【0057】
図2に示すように、合併部105は、プーリング処理部104が出力するプーリング処理後の各枠内の特徴画像の部分に対して合併(concat)を行うことができ、各枠内の特徴画像の部分が2次元方向上で同じ規模を有するので、合併部105が行う合併は、プーリング処理ユニット1041、1042、1043、1044及び1045が出力する行列に対して、該2次元方向に垂直な深さ方向上で合成を行うことに相当する。
【0058】
図2に示すように、検出部106は、複数の全結合層(Fully Connected Layer,FC)を基づいて、合併部105が合併した結果に対して分類を行い、各対象の種類(classes)及び各対象の枠情報を出力する。
【0059】
図2では、検出部106における全結合層の数が4であり、即ち、1061、1062、1063及び1064である。ただし、本発明は、これに限らず、検出部106における全結合層の数は、5以上であっても良く、これにより、検出の正確性を向上させることができる。
【0060】
なお、検出部106における各全結合層のワーキング原理については、関連技術を参照することができ、本発明では、それについての説明を省略する。
【0061】
本発明の実施例の第一側面によれば、マルチサイズ特徴生成部102が各サイズに対応する特徴マップを生成することにより、画像における大サイズ及び小サイズの対象に対してすべて正確な検出を行うことができ;マルチサイズ特徴生成部102が変形可能な畳み込み処理を用いて特徴マップを生成することにより、画像における対象形状の幾何学的変換の検出結果への影響を低減することができ;また、プーリング処理部104が変形可能なプーリング処理を採用することにより、画像における対象形状の幾何学的変換の検出結果への影響をより一層低減することができる。
【0062】
<実施例の第二側面>
本発明の実施例の第二側面では、深層学習ネットワークに基づく対象検出方法が提供され、該方法は、実施例の第一側面における深層学習ネットワークに基づく対象検出装置に対応する。
【0063】
図4は、本発明の実施例の第二側面における深層学習ネットワークに基づく対象検出方法を示す図である。
図4に示すように、該方法400は、以下の操作を含む。
【0064】
操作401:複数の特徴抽出ユニットがそれぞれ、入力画像から異なるサイズの特徴を抽出し;
操作402:カスケード接続される複数の特徴生成ユニットがそれぞれ、複数の前記特徴抽出ユニットにより抽出される異なるサイズの特徴に基づいて、変形可能な畳み込み(Deformable Convolution)処理を用いて、各サイズに対応する特徴マップを生成し;及び
操作403:候補領域生成ネットワーク(RPN、Regional Proposal Network)を用いて、それぞれ、生成されている異なるサイズの特徴マップ(feature maps)から、対応するサイズの対象の枠情報を検出する。
【0065】
図4に示すように、方法400は、さらに、以下の操作を含む。
【0066】
操作404:各候補領域生成ネットワークにより検出される対象の枠に対応する特徴マップ(feature maps)の部分に基づいて、変形可能なプーリング処理(Deformable Pooling)を行い、検出されている各枠内の対象が同じサイズになるようにさせ;
操作405:変形可能なプーリング処理後の複数の前記枠内の特徴画像に対して合併(concat)を行い;及び
操作406:複数の全結合層(fc)を用いて、上述の合併の結果に対して分類を行い、各対象の種類(classes)及び各対象の枠情報を出力する。
【0067】
少なくとも1つの実施例において、操作402は、以下のような操作を含んでも良い。
【0068】
操作4021:前の1つの特徴生成ユニットにより出力される特徴マップに対して補間処理(interpolation)を行い、拡大後の特徴マップを取得し;
操作4022:現在の特徴生成ユニットに対応する特徴抽出ユニットにより抽出される該サイズの特徴に対して畳み込み処理(1*1*256)を行い、そして、上述の拡大後の特徴マップとの融合を行い;及び
操作4023:融合後に得られた行列に対して変形可能な畳み込み(Deformable Convolution)処理を行い、現在の特徴生成ユニットが出力する特徴マップを形成する。
【0069】
少なくとも1つの実施例において、操作402は、さらに、以下のような操作を含んでも良い。
【0070】
操作4024:特徴抽出ユニットにより抽出される最小サイズの特徴に対して変形可能な畳み込み(Deformable Convolution)処理を行い、最小サイズの特徴に対応する特徴生成ユニットが出力する特徴マップP5を形成する。
【0071】
少なくとも1つの実施例において、操作402は、さらに、以下のような操作を含んでも良い。
【0072】
操作4024:前記の、最小サイズの特徴に対応する特徴生成ユニットが出力する特徴マップに対してプーリング(pooling)処理を行い、特徴マップP6を形成する。
【0073】
本発明の実施例の第二側面によれば、各サイズに対応する特徴マップを生成することにより、画像における大サイズ及び小サイズの対象に対してすべて正確な検出を行うこができ;変形可能な畳み込み処理を用いて特徴マップを生成することにより、画像における対象形状の幾何学的変換の検出結果への影響を低減することができ;また、変形可能なプーリング処理を採用することにより、画像における対象形状の幾何学的変換の検出結果への影響をより一層低減することができる。
【0074】
<実施例の第三側面>
本発明の実施例の第三側面では、電子機器が提供され、前記電子機器は、実施例の第一側面に記載のような、深層学習ネットワークに基づく対象検出装置を含む。
【0075】
図5は、本発明の実施例の第三側面における電子機器の1つの構成を示す図である。
図5に示すように、電子機器500は、中央処理装置(CPU)501及び記憶器502を含み、記憶器502は、中央処理装置501に接続される。該記憶器502は、各種のデータを記憶することができ、また、制御を行うためのプログラムをさらに記憶しても良く、且つ、中央処理装置501の制御下で該プログラムを実行することができる。
【0076】
1つの実施例において、深層学習ネットワークに基づく対象検出装置100の機能が中央処理装置501に統合されても良い。
【0077】
そのうち、中央処理装置501は、実施例の第二側面に記載の深層学習ネットワークに基づく対象検出方法を実行するように構成されても良い。
【0078】
もう1つの実施例において、深層学習ネットワークに基づく対象検出装置100が処理器501と別々で配置されても良く、例えば、深層学習ネットワークに基づく対象検出装置100を、処理器501に接続されるチップとして構成し、処理器501の制御により、深層学習ネットワークに基づく対象検出装置100の機能を実現しても良い。
【0079】
また、
図5に示すように、電子機器500は、さらに、入出力ユニット503、表示ユニット504などを含んでも良い。これらの部品の機能は、従来技術と同様であるから、ここでは、その詳しい説明を省略する。なお、電子機器500は、
図5に示す全部の部品を含む必要がない。また、電子機器500は、さらに、
図5に無いものを含んでも良いが、これについては、従来技術を参照することができる。
【0080】
本発明の実施例は、さらに、コンピュータ可読プログラムを提供し、そのうち、深層学習ネットワークに基づく対象検出装置又は電子機器中で前記プログラムを実行するときい、前記プログラムは、深層学習ネットワークに基づく対象検出装置又は電子機器に、実施例の第二側面に記載の深層学習ネットワークに基づく対象検出方法を実行させる。
【0081】
本発明の実施例は、さらに、コンピュータ可読プログラムを記憶した記憶媒体を提供し、そのうち、前記記憶媒体は、上述のコンピュータ可読プログラムを記憶しており、前記コンピュータ可読プログラムは、深層学習ネットワークに基づく対象検出装置又は電子機器に、実施例の第二側面に記載の深層学習ネットワークに基づく対象検出方法を実行させる。
【0082】
本発明の実施例は、さらに、上述のようなプログラムを記憶した記憶媒体も提供する。
【0083】
また、本発明の実施例で説明した前記方法、装置などは、ハードウェア、処理器により実行されるソフトウェアモジュール、又は両者の組み合わせにより実現することができる。例えば、
図1に示す機能ブロック図における1つ又は複数の機能及びび/又は機能ブロック図における1つ又は複数の機能の組み合わせは、コンピュータプログラムにおける各ソフトウェアモジュールに対応しても良く、各ハードウェアモジュールに対応しても良い。また、これらのソフトウェアモジュールは、それぞれ、実施例の第二側面における各操作に対応することができる。これらのハードウェアモジュールは、例えば、FPGA(field-programmable gate array)を用いてこれらのソフトウェアモジュールを固化して実現することができる。
【0084】
また、本発明の実施例による装置、方法などは、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びびソフトウェアの組み合わせにより実現されても良い。本発明は、このようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行されるときに、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶した記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、DVD、フレッシュメモリなどにも関する。
【0085】
また、以上の実施例などに関し、さらに以下の付記を開示する。
【0086】
(付記1)
深層学習ネットワークに基づく対象検出装置であって、
入力画像から異なるサイズの特徴をそれぞれ抽出する複数の特徴抽出ユニットを有する特徴抽出部;
カスケード接続される複数の特徴生成ユニットを有し、前記複数の特徴生成ユニットが、前記特徴抽出部により抽出される異なるサイズの特徴に基づいて、変形可能な畳み込み(Deformable Convolution)処理を用いて、それぞれ、各サイズに対応する特徴マップ(feature maps)を生成するマルチサイズ特徴生成部;及び
候補領域生成ネットワーク(RPN、Regional Proposal Network)を用いて、それぞれ、マルチサイズ特徴生成部により生成される異なるサイズの特徴マップ(feature maps)から、対応するサイズの対象の枠情報を検出する対象位置検出部を含む、装置。
【0087】
(付記2)
付記1に記載の装置であって、
各候補領域生成ネットワークにより検出される対象の枠に対応する特徴マップ(feature maps)の部分に基づいて、変形可能なプーリング処理(Deformable Pooling)処理を行い、検出される各枠内の対象が同じサイズになるようにさせるプーリング処理部をさらに含む、装置。
【0088】
(付記3)
付記1に記載の装置であって、
特徴生成ユニットは、
前の1つの特徴生成ユニットにより出力される特徴マップに対して補間処理(interpolation)を行い、拡大後の特徴マップを得る補間ユニット;
現在の特徴生成ユニットに対応する特徴抽出ユニットにより抽出される該サイズの特徴に対して畳み込み処理(1*1*256)を行い、そして、上述の拡大後の特徴マップとの融合を行う融合ユニット;及び
融合後に得られた行列に対して変形可能な畳み込み(Deformable Convolution)処理を行い、現在の特徴生成ユニットにより出力される特徴マップを形成する変形可能な畳み込み処理ユニットを含む、装置。
【0089】
(付記4)
付記3に記載の装置であって、
マルチサイズ特徴生成部は、さらに、特徴抽出ユニットにより抽出される最小サイズの特徴に対して変形可能な畳み込み(Deformable Convolution)処理を行い、最小サイズの特徴に対応する特徴生成ユニットにより出力される特徴マップを形成する、装置。
【0090】
(付記5)
付記4に記載の装置であって、
マルチサイズ特徴生成部は、さらに、前記の、最小サイズの特徴に対応する特徴生成ユニットにより出力される特徴マップに対してプーリング(pooling)処理を行い、前記マルチサイズ特徴生成部により出力される特徴マップを形成する、装置。
【0091】
(付記6)
付記2に記載の装置であって、
変形可能なプーリング処理後の複数の前記枠内の特徴画像に対して合併(concat)を行う合併部;及び
複数の全結合層(fc)を用いて上述の合併の結果に対して分類を行い、各対象の種類(classes)及び各対象の枠情報を出力する検出部をさらに含む、装置。
【0092】
(付記7)
付記1~6のうちの任意の1項に記載の深層学習ネットワークに基づく対象検出装置を含む電子機器。
【0093】
(付記8)
深層学習ネットワークに基づく対象検出方法であって、
複数の特徴抽出ユニットがそれぞれ、入力画像から異なるサイズの特徴を抽出し;
カスケード接続される複数の特徴生成ユニットがそれぞれ、複数の前記特徴抽出ユニットにより抽出される異なるサイズの特徴に基づいて、変形可能な畳み込み(Deformable Convolution)処理を用いて、各サイズに対応する特徴マップを生成し;及び
候補領域生成ネットワーク(RPN、Regional Proposal Network)を用いて、それぞれ、マルチサイズ特徴生成部により生成される異なるサイズの特徴マップ(feature maps)から、対応するサイズの対象の枠情報を検出することを含む、方法。
【0094】
(付記9)
付記8に記載の方法であって、
各候補領域生成ネットワークにより検出される対象の枠に対応する特徴マップ(feature maps)の部分に基づいて、変形可能なプーリング処理(Deformable Pooling)処理を行い、検出される各枠内の対象が同じサイズになるようにさせることをさらに含む、方法。
【0095】
(付記10)
付記8に記載の方法であって、
各サイズに対応する特徴マップを生成することは、
前の1つの特徴生成ユニットにより出力される特徴マップに対して補間処理(interpolation)を行い、拡大後の特徴マップを取得し;
現在の特徴生成ユニットに対応する特徴抽出ユニットにより抽出される該サイズの特徴に対して畳み込み処理(1*1*256)を行い、そして、上述の拡大後の特徴マップとの融合を行い;及び
融合後に得られた行列に対して変形可能な畳み込み(Deformable Convolution)処理を行い、現在の特徴生成ユニットにより出力される特徴マップを形成することを含む、方法。
【0096】
(付記11)
付記10に記載の方法であって、
各サイズに対応する特徴マップを生成することは、さらに、
特徴抽出ユニットにより抽出される最小サイズの特徴に対して変形可能な畳み込み(Deformable Convolution)処理を行い、最小サイズの特徴に対応する特徴生成ユニットにより出力される特徴マップを形成することを含む、方法。
【0097】
(付記12)
付記11に記載の方法であって、
各サイズに対応する特徴マップを生成することは、さらに、
前記の最小サイズの特徴に対応する特徴生成ユニットにより出力される特徴マップに対してプーリング(pooling)処理を行い、前記特徴マップを形成することを含む、方法。
【0098】
(付記13)
付記9に記載の方法であって、さらに、
変形可能なプーリング処理後の複数の前記枠内の特徴画像に対して合併(concat)を行い;及び
複数の全結合層(fc)を用いて上述の合併の結果に対して分類を行い、各対象の種類(classes)及び各対象の枠情報を出力することを含む、方法。
【0099】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。