特開2022-123903 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人豊橋技術科学大学の特許一覧

特開2022-123903物体検出システムおよび物体検出方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022123903

(43)【公開日】2022-08-25

(54)【発明の名称】物体検出システムおよび物体検出方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20220818BHJP

G06T 7/11 20170101ALI20220818BHJP

【ＦＩ】

G06T7/00 350C

G06T7/11

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021021362

(22)【出願日】2021-02-13

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＴＥＮＳＯＲＦＬＯＷ

２．ＣＵＤＡ

(71)【出願人】

【識別番号】304027349

【氏名又は名称】国立大学法人豊橋技術科学大学

(72)【発明者】

【氏名】青野雅樹

(72)【発明者】

【氏名】山重雄哉

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096FA02

5L096HA11

5L096JA11

5L096KA04

(57)【要約】（修正有）

【課題】撮影画像に記録された物体を、高精度かつリアルタイムに処理する物体検出システムおよび物体検出方法を提供する。
【解決手段】物体検出システムは、画像データの画像サイズを調整する前処理部Ｌ１と、訓練用画像における画像内の領域を予め求めるアンカーボックスサイズ計算部Ｌ２と、物体情報の異なる解像度に応じた複数の特徴マップの生成および特徴マップによる解像度ごとの特徴量を他の特徴マップの解像度を一致させつつ結合して、相互に特徴量の分配処理を行う特徴抽出部（Ｌ３、Ｌ４）と、物体情報の分類並びに物体情報が含まれる矩形領域を予測し、矩形領域を統合して物体情報を推定する物体予測部（Ｌ５、Ｌ６）と、物体予測部から求められたパラメータのパラメータ最適化部Ｌ７と、を具備する。
【選択図】図１

【特許請求の範囲】

【請求項1】

画像に記録された物体情報を推定し、検出を行う物体検出システムであって、
画像データの画像サイズを調整する前処理部と、
訓練用画像における画像内の領域を予め求めるアンカーボックスサイズ計算部と、
該物体情報の異なる解像度に応じた複数の特徴マップの生成および該特徴マップによる解像度ごとの特徴量を他の特徴マップの解像度を一致させつつ結合して、相互に特徴量の分配処理を行う特徴抽出部と、
物体情報の分類並びに該物体情報が含まれる矩形領域を予測し、該矩形領域を統合して物体情報を推定する物体予測部と、
該物体予測部から求められたパラメータのパラメータ最適化部と、を具備することを特徴とする物体検出システム。

【請求項2】

前記アンカーボックスサイズ計算部により求められる領域は、横画素幅および縦幅画素による矩形領域であり、該アンカーボックスサイズ計算部および前記物体予測部は、それぞれの矩形領域のオフセットを適宜、三つの解像度スケールを用いてアンカーボックスの決定および特徴量の分配を行うことを特徴とする請求項１に記載の物体検出システム。

【請求項3】

前記特徴抽出部は、前記三つの解像度スケールを用いて、各解像度スケールに応じて特徴量を抽出する際にすべての解像度スケール間で特徴量を分配し共有することを特徴とする請求項２に記載の物体検出システム。

【請求項4】

画像に記録された物体情報を推定し、検出を行う物体検出方法であって、
画像データ画像サイズを調整する前処理ステップと、
訓練用画像における画像内の領域を予め求めるアンカーボックスサイズ計算ステップと、
該物体情報の異なる解像度に応じた複数の特徴マップの生成および該特徴マップによる解像度ごとの特徴量を他の特徴マップの解像度を一致させつつ結合して、相互に特徴量の分配処理を行う特徴抽出ステップと、
物体情報の分類並びに該物体情報が含まれる矩形領域を予測し、該矩形領域を統合して物体情報を推定する物体予測ステップと、
該物体予測ステップから求められたパラメータのパラメータ最適化ステップと、を含むことを特徴とする物体検出方法。

【請求項5】

前記アンカーボックスサイズ計算ステップにより求められる領域は、横画素幅および縦幅画素による矩形領域であり、該アンカーボックスサイズ計算ステップおよび前記物体予測ステップは、それぞれの矩形領域のオフセットを適宜、三つの解像度スケールを用いてアンカーボックスの決定および特徴量の分配を行うことを特徴とする請求項４に記載の物体検出方法。

【請求項6】

前記特徴抽出ステップは、前記三つの解像度スケールを用いて、各解像度スケールに応じて特徴量を抽出する際にすべての解像度スケール間で特徴量を分配し共有することを特徴とする請求項５に記載の物体検出方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像に記録された物体の検出システムおよび物体検出方法に関する。特に、カメラなど撮影機を用いて撮影された画像に対し本発明に係る深層学習を用いて、高速で高精度に物体検出を行うものである。

【背景技術】

【0002】

深層学習を用いた物体検出にはtwo stage型とone stage型に大別される。前者は物体の候補領域を提案するステップと、候補領域内の物体クラスを特定するステップと、に分かれている点が特徴である。代表的な技術として、特許文献１にはFaster R-CNN （Regions with CNN features）と呼ばれる領域検出技術が開示されている。Faster R-CNNは、「The PASCAL Visual Object Classes Challenge（非特許文献１を参照）」におけるPascal VOC 2007 test Datasetに対し73.2 mAP（mean Average Precision）の高い精度を記録したが、検出速度はGPUを用いた場合でも約5 FPSであり、リアルタイム性に欠けるという課題がある。

【0003】

一方、one stage型は領域提案とクラス分類のステップを同時に行うため、two stage型と比較して高速である。代表的な技術として、You Only Look Once (以下、YOLOと記することがある。非特許文献２を参照)がある。YOLO (YOLOv1とも呼ばれる。) は、前記R-CNNの技術と比較して高速な検出が可能な技術として提案され、前記Pascal VOC 2007 testにおいて45 FPSの速度で63.4 mAPの検出を可能とした。ただし、画像領域が小さな物体が複数存在した場合の検出が困難になるという課題があった。

【0004】

また、Single Shot MultiBox Detector (以下、SSDと記すことがある。非特許文献３を参照)技術は、小さな物体の検出精度を改善し、物体サイズに堅牢な検出を可能としている。前記Pascal VOC 2007 testにおいては46 FPSの速度と77.2mAPの高い精度を記録した。その後、SSD技術を基盤として様々な改良がなされている。例えば、YOLOの改良技術としてYOLO9000 (YOLOv2とも呼ばれる。非特許文献４を参照)や、YOLO v3 (非特許文献５を参照)、YOLOv4 (非特許文献６を参照)がある。

【0005】

ただし、既存のSSD技術では、画像領域が小さな物体の検出に浅い層の特徴マップを用いる。特徴マップとは畳み込みやプーリングによって得られる様々な解像度の特徴量である。従って、浅い層の特徴マップではセマンティックな特徴量が不足し、画像領域が小さな物体の検出精度が低下するという課題がある。この課題を解決した技術が、Feature Pyramid Network (以下、FPNと記すことがある。非特許文献７を参照)である。FPNは深い層にある特徴マップをアップサンプリングし、浅い層の特徴マップと要素和を用いて融合し、これを繰り返すことで深い層の特徴量を伝播する。浅い層の特徴マップの意味的な特徴量が補強され、小さな物体の検出精度の向上が可能となる。FPNは多くの物体検出に用いられ、改良が続けられている。例えば、浅い層から深い層への逆方向への特徴量伝播を加えたに示すPANet (非特許文献８を参照)、Neural Architecture Search を用いて最適なFPNアーキテクチャの探索を行うNAS-FPN(非特許文献９を参照)、PANetの処理を繰り返すことでさらに特徴マップを洗練化し、スキップ接続を追加したBiFPNがある。

【0006】

YOLO系最新の物体検出技術であるYOLOv4は、高精度の検出精度を実現したが、リアルタイムで検出を行うためには高性能なGPU(Graphical Processing Unit)が必須である。そのため、計算量の減少させた派生技術としてYOLOv4-tinyが開発された。YOLOv4-tinyで用いられているFPN機構は精度の向上に寄与するが、改良機構であるPANetやNAS-FPNと比較すると精度が劣っている。一方、PANetやNAS-FPNを用いると計算量が増加するという課題があった。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】米国特許第9858496号明細書

【非特許文献】

【0008】

【非特許文献1】Mark Everingham, Luc van Gool, Chris Williams , John Winn , Andrew Zisserman.: The PASCAL Visual Object Classes Challenge 2007.http://host.robots.ox.ac.uk/pascal/VOC/voc2007/index.html

【非特許文献2】Joseph Redmon, Santosh Divvalay, Ross Girshick, and Ali Farhadiy.: You Only Look Once:Unified, Real-Time Object Detection. in CVPR2016

【非特許文献3】Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy,Scott Reed, Cheng-Yang Fu, and Alexander C. Berg.: SSD: Single Shot MultiBox Detector. in ECCV2016

【非特許文献4】Joseph Redmon, Ali Farhadi.: YOLO9000:Better, Faster, Stronger. in CVPR2017

【非特許文献5】Joseph Redmon, Ali Farhadi.: yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018

【非特許文献6】Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao.: YOLOv4: Optimal Speed and Accuracy of Object Detection. arXiv preprint arXiv: 2004.10934, 2020

【非特許文献7】Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie.: Feature Pyramid Networks for Object Detection. in CVPR2016

【非特許文献8】Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, Jiaya Jia.: Path Aggregation Network for Instance Segmentation. in CVPR2018

【非特許文献9】Golnaz Ghiasi, Tsung-Yi Lin, Ruoming Pang, Quoc V. Le.: NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection. in CVPR2019

【発明の概要】

【発明が解決しようとする課題】

【0009】

先行技術であるYOLOv4-tinyは、YOLOv4の計算量を59.7 GFLOPs (FLoating-point OPerations)から6.8 GFLOPsに削減したものであり、高性能GPUを使用せずリアルタイムで検出が可能である。しかしながら、YOLOv4と比較して検出精度は低く、特に画像領域が小さな物体の検出精度が低いという課題がある。

【0010】

本発明は、上述した先行する物体検出システムの課題を鑑みてなされたものであり、カメラなど撮影装置で撮影された画像に記録された物体を、高精度かつリアルタイムに処理する物体検出システムおよび物体検出方法を提供することを目的とする。

【課題を解決するための手段】

【0011】

本発明に係る第一の物体検出システムは、画像に記録された物体情報を推定し、検出を行う物体検出システムであって、
画像データの画像サイズを調整する前処理部と、訓練用画像における画像内の領域を予め求めるアンカーボックスサイズ計算部と、
該物体情報の異なる解像度に応じた複数の特徴マップの生成および該特徴マップによる解像度ごとの特徴量を他の特徴マップの解像度を一致させつつ結合して、相互に特徴量の分配処理を行う特徴抽出部と、
物体情報の分類並びに該物体情報が含まれる矩形領域を予測し、該矩形領域を統合して物体情報を推定する物体予測部と、
該物体予測部から求められたパラメータのパラメータ最適化部と、を具備することを特徴とする。

【0012】

本発明に係る第二の物体検出システムは、前記本発明に係る第一の物体検出システムであって、
前記アンカーボックスサイズ計算部により求められる領域は、横画素幅および縦幅画素による矩形領域であり、該アンカーボックスサイズ計算部および前記物体予測部は、それぞれの矩形領域のオフセットを適宜、三つの解像度スケールを用いてアンカーボックスの決定および特徴量の分配を行うことを特徴とする。

【0013】

本発明に係る第三の物体検出システムは、前記本発明に係る第二の物体検出システムであって、
前記特徴抽出部は、前記三つの解像度スケールを用いて、各解像度スケールに応じて特徴量を抽出する際にすべての解像度スケール間で特徴量を分配し共有することを特徴とする。

【0014】

本発明に係る第一の物体検出方法は、画像に記録された物体情報を推定し、検出を行う物体検出方法であって、
画像データの画像サイズを調整する前処理ステップと、訓練用画像における画像内の領域を予め求めるアンカーボックスサイズ計算ステップと、
該物体情報の異なる解像度に応じた複数の特徴マップの生成および該特徴マップによる解像度ごとの特徴量を他の特徴マップの解像度を一致させつつ結合して、相互に特徴量の分配処理を行う特徴抽出ステップと、
物体情報の分類並びに該物体情報が含まれる矩形領域を予測し、該矩形領域を統合して物体情報を推定する物体予測ステップと、
該物体予測ステップから求められたパラメータのパラメータ最適化ステップと、を含むことを特徴とする。

【0015】

本発明に係る第二の物体検出方法は、前記本発明に係る第一の物体検出方法であって、
前記アンカーボックスサイズ計算ステップにより求められる領域は、横画素幅および縦幅画素による矩形領域であり、該アンカーボックスサイズ計算ステップおよび前記物体予測ステップは、それぞれの矩形領域のオフセットを適宜、三つの解像度スケールを用いてアンカーボックスの決定および特徴量の分配を行うことを特徴とする。

【0016】

本発明に係る第三の物体検出方法は、前記本発明に係る第二の物体検出方法であって、
前記特徴抽出ステップは、前記三つの解像度スケールを用いて、各解像度スケールに応じて特徴量を抽出する際にすべての解像度スケール間で特徴量を分配し共有することを特徴とする。

【発明の効果】

【0017】

本発明に係る物体検出システムおよび物体検出方法によれば、カメラなどで撮影された画像上に記録された物体の種類およびその位置について、小規模な畳み込みネットワークで構成された深層学習を用いて、少ない計算量で高速かつ高精度な検出ができる。また、高速での検出が可能となることから、リアルタイムによる処理も可能となる。

【図面の簡単な説明】

【0018】

【図1】本発明に係る訓練時のアルゴリズムを示すフローチャートである。

【図2】本発明に係る推論（テスト）時のアルゴリズムを示すフローチャートである。

【図3】本発明に係るネットワークアーキテクチャを示す模式図である。

【図4】本発明に係るFPN機構（図中の右ブロック）と従来技術（図中の左ブロックおよび中央ブロック）との比較するための模式図である。

【図5】本発明に係るFeature Sharing Network(FSN)のネットワークアーキテクチャを示す模式図である。Small Scale Feature Sharing (SSFS)を示す。

【図6】本発明に係るFeature Sharing Network(FSN)のネットワークアーキテクチャを示す模式図である。Middle Scale Feature Sharing (MSFS)を示す。

【図7】本発明に係るFeature Sharing Network(FSN)のネットワークアーキテクチャを示す模式図である。Large Scale Feature Sharing (LSFS)を示す。

【図8】Feature Sharing Blockにおける各モジュールのアーキテクチャ

【図9】アンカーボックスのオフセット計算の概要図である。

【図10】本発明と従来技術の推論時間に対する精度をプロットしたグラフである。本発明はYOLOv4-tiny-3det-lightと記している。

【図11】信号機の検出を示す画像である。本発明（YOLOv4-tiny-3det-light）による処理は右画像である。

【図12】飛び出した歩行者の検出を示す画像である。本発明（YOLOv4-tiny-3det-light）による処理は右画像である。

【図13】車および歩行者の検出を示す画像である。本発明（YOLOv4-tiny-3det-light）による処理は右画像である。

【図14】信号機およびオクルージョンした歩行者の検出を示す画像である。本発明（YOLOv4-tiny-3det-light）による処理は右画像である。

【発明を実施するための形態】

【0019】

本発明に係る物体検出システムは、演算処理装置（ＣＰＵ等）と、ランダムアクセスメモリ（ＲＡＭ）と、リードオンリーメモリ（ＲＯＭ）等の主要なハードウェア装置を統合して制御するプログラムを格納する記憶媒体と、プログラムおよびデータベースを格納する外部記憶装置（ハードディスク装置等）と、表示用の画像処理装置と、ディスプレイおよびカメラなど撮影装置や入出力機器と、を電気的に接続されてなるハードウェアと密に連携し、逐次、所定の規則に則って情報処理を実行するシステムである。本発明は汎用のＰＣに限定されず、システムLSIを基盤としたスマートフォンやタブレットＰＣにおいても実装可能である。

【0020】

以下に、本発明を実施するための形態に関し、図及び数式を使用して詳述する。

【0021】

本発明に係る物体検出システムは、教師あり深層学習を用いる。（以下、YOLOv4-tiny-3det-lightと記すことがある。）学習を行うための訓練時と物体を予測する推論（テスト）時の流れをフローチャートとして、図１および図２に示す。また、本発明に係るニューラルネットワークのアーキテクチャを図３に示す。

【0022】

［データ前処理 (L1, I1)］
訓練画像の増幅 (データ拡張) を行った後、物体検出モデルに入力できる形へ画像サイズを調整する。データ拡張は以下の項目に従い、適用量は上限値を定めた乱数で決定する。
１．歪み
２．輝度変換
３．回転
４．水平反転
５．切り取り・ズーム
画像サイズの調整は、画像の周囲に一定の値の画素を敷き詰めることで行っている。なお、本発明では敷き詰める画素のRGB値はそれぞれ128とし、調整後の画像サイズは416×416としている。また、推論時においてはデータ拡張を行わず、画像サイズの調整のみを適用する。なお、特に詳述していないが、図中の「データ前処理」は前処理部によって処理されるものである。

【0023】

［アンカーボックスサイズ計算 (L2)］
訓練データにおける全物体のサイズを基にアンカーボックスの横画素幅および縦画素幅を定める。ここで、アンカーボックスとは物体予測部において矩形領域のオフセットを計算する際に基準となる矩形領域である。なお、特に詳述していないが、「アンカーボックスサイズ計算」はアンカーボックスサイズ計算部によって処理されるものである。

【0024】

本発明におけるアンカーボックスサイズ(横画素幅×縦画素幅)は、K-means Clusteringを用いて、９つのクラスタに分割した上で小物体領域、中物体領域、大物体領域の３つのスケールを割り当てる。これら３つのスケールに、それぞれ、３種類のアンカーボックスを、本発明を適用できる物体のバリエーションを増やすために割り当てる。表1に本発明に係るアンカーボックスのサイズを示す。なお、表１は、本発明の実施において、適宜、求められたサイズであるが、本発明に係る物体検出システムおよびその方法は、表１の数値に限定されない。
なお、以下の説明において、表１で定義した画像領域が小さな物体を小物体、画像領域が中程度の物体を中物体、画像領域が大きな物体を大物体と単に記すことがある。

【0025】

【表1】

【0026】

特徴抽出部(Backbone, Neck)［特徴マップ生成(L3, I2)］
本処理は、図３におけるBackbone部に対応する。まず、処理L1またはI1においてリサイズした画像を畳み込みネットワークに入力する。このネットワークは、比較的畳み込み層数が少ないアーキテクチャを用いている。次に、入力画像に対して畳み込みおよびプーリングを繰り返し適用し、複数の特徴マップを生成する。なお、図３において特徴マップの形状は縦幅×横幅×チャンネル次元数で表記している。本発明では、高解像度の特徴マップの追加および物体予測に用いる特徴マップのチャンネル次元数削減を行っている。

【0027】

１）高解像度な特徴マップの追加
小物体の検出精度の向上を図るために、高解像度の特徴マップを追加する。本発明では、後続する物体予測部において、特徴マップ生成部で得た複数の特徴マップを用いて物体クラスおよび矩形領域を予測する。これにより、高解像度の特徴マップでは小物体の予測、深い層の低解像度の特徴マップでは大物体の予測を行うことができる。ここで、従来は13×13および26×26の２層の特徴マップを物体予測に用いており、小物体の検出精度の低さは、低解像度な特徴マップが原因である。そこで、図３に示すように、52×52の高解像度な特徴マップを加えた３層の特徴マップで物体予測を行えるようにアーキテクチャを変更する。結果として３層の特徴マップが後続する特徴量分配部へ入力される。

【0028】

２）物体予測に用いる特徴マップのチャンネル次元数削減
前記１）の変更によって、ネットワーク全体の計算量が6.8 GFLOPsから9.7 GFLOPsに増加するため、ネットワークの軽量性が失われる。そこで、小物体以外（つまり、大物体および中物体）の予測に用いる特徴マップの次元数を256から128に変更することで計算量の削減を行う。リアルタイム処理の物体検出シーンでは検出すべき物体の種類数は比較的少なく、チャンネル次元数を減らしても精度に影響を与えない。

【0029】

［特徴量分配処理(L4，I3)］
ここでは、特徴量分配処理について示す。これは図３におけるNeck部で行われ、この処理を行う機構をFeature Sharing Network (FSN)と呼ぶ。図４に、本発明に係るFPN機構（図中の右ブロック）と従来技術のFPN機構（図中の左ブロックおよび中央ブロック）との比較図を示す。また、図５にはFSNのネットワークアーキテクチャを、図６、７および８にはFeature Sharing Blockにおける各モジュールのアーキテクチャを示す。

【0030】

本発明に係るFSN機構により、双方向の特徴量伝播が精度の向上に有効であり、層をスキップして特徴量を補強することができる。図４中の右のブロック図に示すように、特徴量を段階的に伝播するのではなく、相互に特徴量を分配・共有し合う構造としている。空間的から意味的といった様々なレベルの特徴量を効率的に補強することができる。なお、FSN機構は本発明のネットワークだけに限定されない。

【0031】

本発明における前記FSN機構の導入について説明する。Backbone部で抽出した52×52×128、26×26×128、13×13×128の特徴マップはそれぞれLarge Scale Feature、Middle Scale Feature、Small Scale Featureと呼ぶ。該特徴マップは、Feature Sharing Blockに入力した後、図６に示すSmall Scale Feature Sharing (以下、SSFSと記すことがある。) の処理を適用する。

【0032】

SSFSでは、最も解像度の低いSmall Scale Featureが持つ意味的な特徴量をMiddle ScaleおよびLarge Scale Featureに分配することで特徴量の補強を行う。具体的には、Small Scale Featureをチャンネル次元で2分割し、一方には解像度が2倍になるアップサンプリングを、もう一方には解像度が4倍になるアップサンプリングを適用して、解像度を一致させる。そして、これらをMiddle Scale FeatureおよびLarge Scale Featureと結合 (Concatenation)する。

【0033】

SSFS適用後、図７に示すMiddle Scale Feature Sharing (以下、MSFSと記すことがある。) の処理に移行する。MSFSはMiddle Scale Featureが持つ特徴量を、解像度の異なる特徴マップへ分配する。解像度の調整には、アップサンプリングおよびMax Poolingを用いている。ここで、Large Scale Featureへの結合は、先のSSFSで結合した特徴量に付け加えるようにして行う。

【0034】

最後に図８のLarge Scale Feature Sharing (LSFS)を適用する。上記と同様にLarge Scale Featureをチャンネル次元で分割後、Max Poolingを用いて解像度を一致させ、スケールの異なる特徴マップと結合する。

【0035】

以上より、特徴量を分配し合ったチャンネルが256次元の特徴マップが３つ得られ、それぞれにカーネルサイズが1×1の畳み込み(1×1Conv)および3×3の畳み込み (3×3Conv)を適用して処理を終える。

【0036】

物体予測部 (Head)［物体クラス・矩形領域予測(L5，I4)］
特徴抽出部で得た解像度が異なる３つの特徴マップを用いて物体を予測する。具体的には、各特徴マップに対してカーネルサイズが1×1の畳み込みを行い、矩形領域と物体クラスを表現するためのPredicted Tensorを出力する。例えば、N×Nの特徴マップにおけるPredicted Tensorの次元数は数1で表現される。

【0037】

【数1】

ここで、anchor boxesは、あるスケールの特徴マップにおいて、1セルあたりのアンカーボックス数を表している。例えば、本発明における各スケールの特徴マップでは、処理L2において3つのアンカーボックスを設定しているため、anchor boxesの値は３となる。

【0038】

また、box coordinateは、各アンカーボックスのオフセットを計算し予測領域を決定するための値で、t_x, t_y, t_w, t_hの４つの値を持つ。数２に示すように、t_x, t_y, t_w, t_hを用いて、b_x, b_y, b_w, b_hが計算される。

【0039】

【数2】

ここで、b_x, b_yは予測領域の中心座標を示し、σはシグモイド関数、C_x, C_yは対象セルまでの横および縦の距離である。b_w, b_hは予測領域の横幅および縦幅を示している。なお、p_wはアンカーボックスの横幅、p_hはアンカーボックスの縦幅、eはネイピア数である。このオフセット予測のイメージは図９に示している。

【0040】

objectness scoreは、各アンカーボックス内における物体の存在確率を表し、最終的にシグモイド関数を用いて0～1の値として計算される。従って、ネットワークが適切に訓練できている場合、アンカーボックス内に存在するものが背景など非物体であれば0に近い値となり、物体であれば値は1に近い値となる。

【0041】

class scoreは、アンカーボックス内に存在する物体のクラスを表す確率値である。この確率値はクラスごとに独立しており、シグモイド関数を用いて0～1の値として計算される。なお、class scoreの次元数は、対象となる物体のクラス数によって増減し、本発明では５クラスのため値は５となる。

【0042】

［損失計算(L6)］
処理L5によって計算された予測値を用いてネットワークの損失値を計算する。本発明における損失値は、IoU Loss、Objectness Loss、Class Lossに分けられ、これらの総和がネットワーク全体の損失値となる。

【0043】

IoU Lossは、予測領域と教師データの正解領域における損失である。これは、数３のCIoU Lossと呼ばれる損失関数を用いて計算する。

【0044】

【数3】

ここで、bおよびb^gtは予測領域と正解領域の中心座標、ρはこれらのユークリッド距離、cは２つの領域を覆う最小ボックスの対角線の長さを表す。IoU (Intersection over Union)は予測領域をB、正解領域をB^gtとしたとき、数４で表される。

【0045】

【数4】

【0046】

また、νは領域のアスペクト比に基づく損失値であり、数５で定義される。なお、w^gt、h^gtは、それぞれ正解領域の横幅および縦幅、w、hは、それぞれ予測領域の横幅および縦幅である。

【0047】

【数5】

また、αは数６で表現されるトレードオフパラメータである。

【0048】

【数6】

【0049】

Objectness LossはFocal Lossによって計算される。Focal Lossは予測したobjctness scoreをpとしたとき、数７で表現される。

【0050】

【数7】

ここで、γは任意に設定可能な減衰パラメータである。これは、容易に物体であると分類できたサンプル(pが1に近い値)の損失を減衰させることで、分類が困難なサンプルが訓練に強く寄与できるようにしている。なお、本発明ではγ=2としている。

【0051】

Class Lossは、物体クラスごとに独立してBinary Cross Entropy Lossを計算し、それらの平均値を求めたものである。

【0052】

［領域統合処理(I5)］
この処理では、Non-maximum suppressionを適用する。クラスごとにIoUが閾値以上の予測領域を統合するものである。本発明では閾値を経験的に0.5としている。

【0053】

［パラメータ最適化(L7)］
畳み込みによる特徴マップ生成、物体領域、クラス確率の計算を行うためのパラメータの修正量を計算する。これにはAdam : A Method for Stochastic Optimizationと呼ばれる最適化技術を用いる。この最適化を繰り返し行うことでネットワークの損失値が減少し、物体検出精度が向上する。

【0054】

［予測結果出力(I6)］
最終的に得られる矩形領域について、確率値が最も高いクラスを分類クラスとして出力する。また、領域については、処理L5およびI4で求めた座標値を元に出力する。これらは、入力画像上に描画される。

【実施例0055】

実施環境
本発明の実施環境として、GPUはNVIDIA（登録商標） Quadro（登録商標） RTX 8000、CPUはIntel(登録商標) Xeon(登録商標) Silver 4108を用い、ライブラリはCUDA 10.1、cuDNN 7.6.4、TensorFlow 2.1を使用した。なお、純粋なモデルのアーキテクチャの優劣を比較するため、量子化や枝刈り等を用いたモデルの圧縮は行っていない。また、本発明ネットワークの訓練において、バッチサイズは16、学習率の初期値は0.001、最大エポック数は150とし、推論時のバッチサイズは1としている。

【0056】

実施例のデータセット
Udacity Annotated Driving Datasetと呼ばれる車載カメラにより撮影された画像データセットを使用する。 (https://drive.google.com/open?id=1tfBFavijh4UTG4cGqIKwhcklLXUDuY0D にて公開)。なお、訓練の高速化のため、解像度は480×300に縮小したものを用いる。物体種は車 (car)、トラック (truck)、歩行者 (pedestrian)、自転車 (bicyclist)、信号機 (light)の計5クラスから構成され、訓練データではそれらの物体が存在する矩形領域の座標値が与えられている。また、訓練データは18000個、テスト用の未知データは4241個を使用する。

【0057】

評価
訓練データを用いて訓練したネットワークに未知データを入力することで検出精度、検出速度、計算量の側面から従来のYOLOv4、YOLOv4-tinyとの比較を行う。また、SSDベースの従来技術であるSSD300、SSD7、FPSSD7、およびAFPSSD7に加えて、YOLOベースのYOLO3、YOLOv3-tinyとの比較も行っている。

【0058】

評価指標として、精度面ではThe PASCAL Visual Object Classes Challengeで用いられたmean Average Precision (VOC-mAP)および各クラスのAverage Precision (AP)を用いる。また、COCO 2020 Object Detection Task基準のCOCO-APも使用し、物体サイズ別精度も計測する。

【0059】

なお、検出速度に関しては1データあたりの平均推論時間および平均FPSを使用し、GPU使用時・未使用時の計測を行う。計算量の評価に関してはモデルの訓練パラメータ数、使用GPUメモリおよびFLOPs (Floating-point OPerations)を用いた。これは、モデルの入力から出力までに必要な浮動小数点演算回数を意味し、1秒当たりに実行可能な浮動小数点演算回数を示すFLOPS (FLoating-point Operations Per Second) とは異なる指標である。

【0060】

実施結果
深層学習を用いた画像に対する物体検出では、精度が高いが低速、高速だが精度が低い、と検出精度と速度の間にトレードオフ問題がある。そのため、検出精度を重視した従来技術は計算量が多く、リアルタイムな検出にハイエンドなGPUマシンを必要とし、消費電力や費用面のコストが課題であった。一方、検出速度を重視した技術は非常に高速に動作するも小物体の検出漏れが多く、精度が低いという問題があった。

【0061】

[本発明に係る物体検出システムの性能比較]
表２にYOLOv4およびYOLOv4-tinyとの比較結果を示す。本発明はYOLOv4-tinyに対して、VOC-mAPが34.6から41.1に、COCO-APが13.8から16.9に向上し、YOLOv4の精度に大きく近づいている。

【0062】

【表2】

【0063】

また、GPU未使用時の推論速度について、YOLOv4は約3 FPSであるため非常に低速である。これに対して、本発明はYOLOv4-tinyよりも高速な27.349 FPSを記録した。これより、本発明はGPUを用いずとも高精度なリアルタイム検出が可能であることが分かる。

【0064】

さらに、本発明のモデルパラメータ数は1.7 M、FLOPsは6.4 Gで計算量が削減されており、従来技術に対して優れていることが分かる。また、使用GPUメモリは3.9 Gであるため、高性能なGPUを用いなくても高速かつ高精度な検出ができる。

【0065】

表３に物体クラス別精度の比較結果を示す。本発明はYOLOv4-tinyに対して、全クラスで精度の向上が見られ、bicyclistに関してはYOLOv4を上回る精度を獲得できている。

【0066】

【表3】

【0067】

また、表４にCOCO-APにおける物体サイズ別精度の比較結果を示し、YOLOv4-tinyの課題であった小物体精度(S-AP)と中物体精度(M-AP)の向上が見られた。

【0068】

【表4】

【0069】

SSDやYOLOv3等の従来技術との比較結果を図7に示す。これは横軸をGPU推論時間、縦軸をVOC-mAPとしてプロットしたものである。本発明は従来技術に対して精度と速度のトレードオフを改善しつつ、計算量の多いYOLOv3に匹敵する高い精度を獲得できている。

【0070】

[本発明に係るFSN機構の性能比較]
本発明に係るFSN機構の有効性を確認するため、従来のFPNおよびPANetとの比較を行った。なお、FPNについては従来の結合 (Concatenation) に加えて、要素和、要素積による特徴マップの融合も比較した。

【0071】

表５に精度および計算量の計測結果を示す。まず、従来の結合を用いるFPNは精度が低いだけでなく、計算量も多いことが分かる。要素和や要素積を用いたFPNは比較的精度が高く、YOLOv4-tinyよりも少計算量だが、COCO-APはPANetに劣っている。これに対してFSNを用いた場合、最高精度のVOC-mAPとPANetに匹敵するCOCO-APを獲得しつつ、6.4GFLOPsの比較的少ない計算量であった。これより、FSNが精度と計算量の両面において優れた機構であることが示された。

【0072】

【表5】

【0073】

[検出結果の可視化例]
従来のYOLOv4-tinyと本発明による物体検出を可視化し、比較した例を、図８から図１１に示す。

【0074】

まず、図８では小さく映る２つの信号機の検出漏れが改善できている。次に、図９においては、従来技術では左から飛びした歩行者を検出できていないが、本発明では検出できている。図１０では、従来技術において木を歩行者、ゴミ箱を車として誤検出していた結果を、本発明により改善できていることが分かる。さらに、図１１では信号機の検出漏れを改善できているだけでなく、右側の歩行者のオクルージョン(物体が重複している状態)に対応し、正確な検出に成功している。

【図1】