(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-24
(45)【発行日】2022-11-01
(54)【発明の名称】物体検知装置、学習方法、及び、プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20221025BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2021530447
(86)(22)【出願日】2019-07-11
(86)【国際出願番号】 JP2019027483
(87)【国際公開番号】W WO2021005776
(87)【国際公開日】2021-01-14
【審査請求日】2021-11-30
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】高橋 勝彦
(72)【発明者】
【氏名】中谷 裕一
(72)【発明者】
【氏名】石井 遊哉
(72)【発明者】
【氏名】井下 哲夫
(72)【発明者】
【氏名】中野 学
【審査官】笠田 和宏
(56)【参考文献】
【文献】特開2019-061579(JP,A)
【文献】特開2019-079445(JP,A)
【文献】特開2013-045433(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知
手段と、
前記画像データに基づいて、前記複数の物体検知
手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する重み算出
手段と、
前記重み算出
手段が算出した重みで、前記複数の物体検知
手段が出力するスコアを前記部分領域毎に融合する融合
手段と、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力するターゲットモデルの物体検知
手段と、
前記ターゲットモデルの物体検知
手段の出力と、前記画像データの正解ラベルおよび前記融合
手段が融合したスコアとの差異を示す第1のロスを算出する第1のロス算出
手段と、
前記第1のロスが減少するように、前記ターゲットモデルの物体検知
手段のパラメータを修正する第1のパラメータ修正
手段と、
を備える物体検知装置。
【請求項2】
前記正解ラベルと、前記融合
手段が融合したスコアとの差異を示す第2のロスを算出する第2のロス算出
手段と、
前記第2のロスが減少するように、前記重み算出パラメータを修正する第2のパラメータ修正
手段と、
を備える請求項1に記載の物体検知装置。
【請求項3】
前記第2のパラメータ修正
手段は、前記第1のロス及び前記第2のロスに基づいて、前記重み算出パラメータを修正する請求項2に記載の物体検知装置。
【請求項4】
前記画像データは、対応する正解ラベルを有しないラベルなし画像データを含み、
前記第1のロス算出
手段は、前記ラベルなし画像データについては、前記ターゲットモデルの物体検知
手段が出力したスコアと、前記融合
手段が出力したスコアとの差異を前記第1のロスとして算出する請求項1乃至3のいずれか一項に記載の物体検知装置。
【請求項5】
前記重み算出
手段は、前記画像データに対して1つの重みを算出し、
前記融合
手段は、前記複数の物体検知
手段が出力するスコアを、前記1つの重みで融合する請求項1乃至4のいずれか一項に記載の物体検知装置。
【請求項6】
前記重み算出
手段は、前記部分領域毎に前記重みを算出し、
前記融合
手段は、前記複数の物体検知
手段が出力するスコアを、前記部分領域毎に算出された重みで融合する請求項1乃至4のいずれか一項に記載の物体検知装置。
【請求項7】
前記重み算出
手段は、前記物体を示すクラス毎に前記重みを算出し、
前記融合
手段は、前記複数の物体検知
手段が出力するスコアを、前記クラス毎に算出された重みで融合する請求項1乃至4のいずれか一項に記載の物体検知装置。
【請求項8】
前記融合
手段は、前記複数の物体検知
手段が出力するスコアに、前記重み算出
手段が算出したそれぞれの物体検知
手段についての重みを乗じて加算した後、平均値を求める請求項1乃至7のいずれか一項に記載の物体検知装置。
【請求項9】
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知
手段から出力し、
前記画像データに基づいて、前記複数の物体検知
手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
前記重み算出
手段が算出した重みで、前記複数の物体検知
手段が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知
手段から出力し、
前記ターゲットモデルの物体検知
手段の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第1のロスを算出し、
前記第1のロスが減少するように、前記ターゲットモデルの物体検知
手段のパラメータを修正する、物体検知装置の学習方法。
【請求項10】
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知
手段から出力し、
前記画像データに基づいて、前記複数の物体検知
手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
前記重み算出
手段が算出した重みで、前記複数の物体検知
手段が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知
手段から出力し、
前記ターゲットモデルの物体検知
手段の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第1のロスを算出し、
前記第1のロスが減少するように、前記ターゲットモデルの物体検知
手段のパラメータを修正する、物体検知装置の学習処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像に含まれる物体を検知する技術に関する。
【背景技術】
【0002】
多くのパターンデータを用いて学習を行うことで、認識器の性能を向上できることが知られている。基礎となる認識器から各環境に適合させた認識器にチューニングすることも行われている。また、異なる環境に応じて認識精度を向上させる方法も各種提案されている。例えば、特許文献1には、文字の書かれている環境に応じた認識処理を行うパターン認識装置が記載されている。このパターン認識装置では、入力画像から抽出された処理対象の状態に応じて、複数登録されている認識器の中のいずれか1つ又は複数を呼び出して認識処理を行わせる。
【0003】
また、認識器の性能を向上する別の方策として、特性の異なる複数の認識器を構築して、それらの出力に基づいて総合判断する方式が提案されている。例えば、特許文献2には、障害物の有無を判定する複数の判定部の判定結果に基づいて最終判定を行う障害物検出装置が記載されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2007-058882号公報
【文献】特開2019-036240号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記の手法では、複数の認識器を用いて認識性能を向上させているため、必然的に装置が大規模となる。このため、映像監視などの用途で使用する物体検出装置を現場にデプロイするような場合には、上記の手法は適当とは言えない。
【0006】
本発明の1つの目的は、さまざまな現場環境で学習したモデルを用いて、新たな現場向けの小規模なターゲットモデルを構築することが可能な物体検知装置を提供することにある。
【課題を解決するための手段】
【0007】
上記の課題を解決するため、本発明の一つの観点では、物体検知装置は、
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知手段と、
前記画像データに基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する重み算出手段と、
前記重み算出手段が算出した重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合する融合手段と、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力するターゲットモデルの物体検知手段と、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび前記融合手段が融合したスコアとの差異を示す第1のロスを算出する第1のロス算出手段と、
前記第1のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する第1のパラメータ修正手段と、を備える。
【0008】
本発明の他の観点では、物体検知装置の学習方法は、
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データに基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
前記重み算出手段が算出した重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知手段から出力し、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第1のロスを算出し、
前記第1のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する。
【0009】
本発明のさらに他の観点では、プログラムは、
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データに基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
前記重み算出手段が算出した重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知手段から出力し、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第1のロスを算出し、
前記第1のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する、物体検知装置の学習処理をコンピュータに実行させる。
【発明の効果】
【0010】
本発明によれば、さまざまな現場環境で学習したモデルを用いて、新たな現場向けの小規模なターゲットモデルを構築することが可能となる。
【図面の簡単な説明】
【0011】
【
図1】複数の学習済みモデルを用いて大規模モデルを構築する構成を示す。
【
図2】大規模モデルを構築する処理の一例を模式的に示す。
【
図3】アンカーボックスの概念を説明する図である。
【
図4】大規模モデルを用いてターゲットモデルを構築する構成を示す。
【
図5】ターゲットモデルを構築する処理の一例を模式的に示す。
【
図6】物体検知装置のハードウェア構成を示すブロック図である。
【
図7】第1実施形態に係る学習のための物体検知装置の機能構成を示す。
【
図8】第1実施形態の物体検知装置による学習処理のフローチャートである。
【
図9】第1実施形態の推論のための物体検知装置の機能構成を示す。
【
図10】第2実施形態に係る学習のための物体検知装置の機能構成を示す。
【
図11】第2実施形態の物体検知装置による学習処理のフローチャートである。
【
図12】第3実施形態に係る学習のための物体検知装置の機能構成を示す。
【発明を実施するための形態】
【0012】
[原理説明]
まず、本発明の実施形態における基本原理について説明する。一般的に、映像監視向けAI(Artificial Intelligence)モデルを現場にデプロイする際、その認識精度不足により、現場毎にモデルの再構築(現場での画像の収集、正解付け、学習など)のためのシステムインテグレーション作業が必要となることが多い。本実施形態では、システムインテグレーションのコストを低減するために、まず、さまざまな現場環境で学習済みのソースモデルを収集し、融合することにより、環境変動に頑健な大規模モデルを構築する。そして、この大規模モデルをベースとして、新たな現場向けの小規模モデル、即ち、ターゲットモデルを構築する。
【0013】
図1は、複数の学習済みモデルを用いて大規模モデルを構築するための構成を示す。
図1に示すように、大規模モデル1は、複数(
図1の例では3つ)の学習済みモデル2と、ゲーティングネットワーク3と、演算部4とを備える。学習済みモデル2は、それぞれが異なる環境で学習されたソースモデルであり、ここでは画像データから物体検知を行うモデルである。新規の現場で収集された画像データは、学習データとして複数の学習済みモデル2およびゲーティングネットワーク3に入力される。なお、学習データには、予め対応する正解ラベルとして、クラスの正解値と座標の正解値が用意されている。
【0014】
各学習済みモデル2は、入力された学習データに基づいて物体検知を行い、物体検知の途中段階で設定される部分領域毎に、検出された物体のクラスに関するクラス情報と、その部分領域の位置を示す座標情報とを出力する。クラス情報は、物体の種類を示すクラスコードと、そのクラスコードが示す物体が存在する確からしさを示すスコアとを含む。
【0015】
ゲーティングネットワーク3は、各学習済みモデル2が出力する情報に対する重みを出力する。演算部4は、各学習済みモデル2が出力する情報を、ゲーティングネットワーク3が出力する重みを用いて融合する。演算部4は、各学習済みモデル2が出力するクラス情報を、重みを用いて融合して得られるクラス情報を出力する。また、演算部4は、各学習済みモデル2が出力する座標情報を、重みを用いて融合して得られる座標情報として出力する。
【0016】
演算部4から出力されたクラス情報および座標情報は、それぞれ予め用意されたクラスの正解値および座標の正解値と比較され、誤差が算出される。そして、それらの誤差を最小化するように、ゲーティングネットワーク3を学習する。具体的には、それらの誤差が減少するように、ゲーティングネットワーク3のパラメータを修正する。ゲーティングネットワーク3は、入力される画像データ毎に、各学習済みモデル2の得手不得手を推定して、各学習済みモデル2の最適な融合割合を示す重みの値を学習する。大規模モデル1の学習は、一定の精度が得られるまで行われる。こうして、複数の学習済みのソースモデルを用いて、高精度な大規模モデルが構築される。
【0017】
次に、大規模モデルを構築する具体例を説明する。
図2は、大規模モデル1を構築する処理の一例を模式的に示す。なお、
図2では、学習済みモデル2の数を2つとしている。
図2の例では、学習済みモデル2をRetinaNetにより構成している。なお、
図2の例では、説明の便宜上、各学習済みモデル2が出力する情報のうち、クラス情報のみを使用するものとする。
【0018】
学習済みモデル2は、ResNet(Residual Network:残差ネットワーク)により、入力された画像データから、サイズの異なる複数の特徴マップからなるfeature pyramid net(特徴ピラミッドネット)を生成する。各特徴マップには、アンカーボックスが設定され、学習済みモデル2は、アンカーボックス毎に物体の検出を行う。但し、大規模モデル1においては、学習済みモデル2は、検知した物体とそのスコアおよび座標情報をリスト形式などで出力する極大値選択処理、具体的にはNMS(Non Maximum Suppression)処理までは行わず、NMS処理前のアンカーボックス毎に算出された認識対象物体のクラス情報および座標情報をそのまま出力する。ここでは、認識対象物体の有無を検証する、すべての部分領域のことを「アンカーボックス」と呼ぶ。
【0019】
図3は、アンカーボックスの概念を説明する図である。図示のように、CNN(Convolutional Neural Network)の畳み込みにより得られた特徴マップ上に、スライディングウィンドウ(sliding window)が設定される。
図3の例では、1つのスライディングウィンドウに対してk通りの大きさの異なるアンカーボックス(以下、単に「アンカー」とも呼ぶ。)が設定され、各アンカーに対して認識対象物体の有無が検証される。即ち、各アンカーは、すべてのスライディングウィンドウに対してk通りずつ設定される部分領域を指す。
【0020】
アンカーの数はニューラルネットワークの構造やサイズに依存する。
図2において、出力ネットワーク70の上段は、W×H×A個のアンカーに対するクラス情報71(K次元。つまり、K種類の認識対象)を記憶しており、下段はW×H×A個のアンカーに対する座標情報(4次元)を記憶する。ここで、「W」はアンカー中心の横方向のバリエーション数、「H」はアンカー中心の縦方向バリエーション数、「A」はアンカーの縦横サイズのバリエーション数を示す。座標情報は、認識対象物が存在する矩形領域の左右、上下4辺の座標情報を絶対値もしくはアンカーに対して一意に定められる基準位置からの相対位置で表してもよいし、上下4辺ではなく左辺と上辺および幅と高さの観点で表してもよい。
【0021】
図2に示す出力ネットワーク70はfeature pyramid netの1層分に対して設定されたもので、feature pyramid netの別の階層に対しても同様にK次元のスコア情報と4次元の座標情報が出力される。以下、feature pyramid netのすべての階層に対して設定されるアンカーの数を「Na」と記すこととする。同一のアンカーに対するスコア情報と座標情報は、それらの情報を記憶するためのメモリの予め定められたメモリ位置に保存されるので、それらを容易に対応づけることができる。
【0022】
各学習済みモデル2は、アンカー数×クラス数分のクラス情報71を出力する。ゲーティングネットワーク3は、学習済みモデル2毎に決定した重みを出力する。演算部4は、各学習済みモデル2から出力されるクラス情報に対して、同一アンカー毎に重み付け和を計算し、クラス情報72を出力する。クラス情報72と、予め用意されたクラスの正解値(教師データ)73との差の二乗和をロスとして定義し、このロスを最小化するように、ゲーティングネットワーク3が出力する重みを学習する。こうして、大規模モデル1が構築される。
【0023】
次に、学習が完了した大規模モデル1を用いて、ターゲットモデルを構築する。
図4は、大規模モデル1を用いてターゲットモデルを構築するための構成を示す。大規模モデル1は、ゲーティングネットワーク3の学習が完了したものとなっており、ここではターゲットモデル5の学習を行う。ターゲットモデル5には、学習データが入力される。なお、ターゲットモデル5は、学習済みモデル2と同一のモデルで構成する。ターゲットモデル5の学習では、教師データとして、予め用意された正解ラベルに加えて、大規模モデル1が出力する情報が使用される。具体的に、入力された学習データに基づいてターゲットモデル5が出力したクラス情報および座標情報は、その学習データについて予め用意されたクラスの正解値および座標の正解値と比較され、その誤差aを最小化するようにターゲットモデル5の学習が行われる。これに加えて、ターゲットモデル5が出力したクラス情報および座標情報は、同じ学習データに基づいて大規模モデル1が出力したクラス情報および座標情報と比較され、その誤差bを最小化するようにターゲットモデル5の学習が行われる。但し、座標情報の誤差を計算するのは、正解ラベルにおいて物体が存在する位置のアンカーについてのみであり、物体が存在しない位置のアンカーについては座標情報の誤差は「0」とする。
【0024】
図5は、学習が完了した大規模モデルを用いて、ターゲットモデルを構築する処理の具体例を模式的に示す。
図5の例では、学習済みモデル2をRetinaNetにより構成している。なお、
図5では、説明の便宜上、クラス情報のみを用いた学習を行うものとする。大規模モデル1は、各学習済みモデル2が出力したクラス情報71と、ゲーティングネットワーク3が出力した重みとの重み付け和を計算し、クラス情報76を出力する。一方、ターゲットモデル5は、学習データに基づいてクラス情報74を出力する。ターゲットモデル5が出力したクラス情報74と予め用意されたクラスの正解値75との誤差a、および、ターゲットモデルが出力したクラス情報74と大規模モデル1が出力したクラス情報76との誤差bをロスとし、このロスを最小化するようにターゲットモデル5の学習が行われる。
【0025】
このように、本発明の実施形態では、さまざまな環境で学習済みの複数のソースモデルを融合して、環境変動に頑健な大規模モデルを構築する。そして、その大規模モデルの推論結果を教師データとし、新たな現場で収集した学習データを用いてターゲットモデルを学習する。これにより、新たな現場の環境に適した小規模で高精度なターゲットモデルを構築することが可能となる。
【0026】
[第1実施形態]
次に、本発明の第1実施形態について説明する。
(ハードウェア構成)
図6は、物体検知装置のハードウェア構成を示すブロック図である。図示のように、物体検知装置10は、インタフェース(IF)12と、プロセッサ13と、メモリ14と、記録媒体15と、データベース(DB)16と、を備える。
【0027】
インタフェース12は、外部装置との通信を行う。具体的に、インタフェース12は、物体検知の対象となる画像データや学習用の画像データを外部から入力したり、物体検知の結果を外部装置へ出力する際に使用される。
【0028】
プロセッサ13は、CPU(Central Processing Unit)、又はCPUとGPU(Graphics Processing Uit)などのコンピュータであり、予め用意されたプログラムを実行することにより、物体検知装置10の全体を制御する。メモリ14は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ14は、プロセッサ13により実行される各種のプログラムを記憶する。また、メモリ14は、プロセッサ13による各種の処理の実行中に作業メモリとしても使用される。
【0029】
記録媒体15は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体検知装置10に対して着脱可能に構成される。記録媒体15は、プロセッサ13が実行する各種のプログラムを記録している。物体検知装置10が学習処理を実行する際には、記録媒体15に記録されているプログラムがメモリ14にロードされ、プロセッサ13により実行される。
【0030】
データベース16は、物体検知装置10の学習処理において使用される、学習用の画像データを記憶する。学習用の画像データは、正解ラベルを含む。なお、上記に加えて、物体検知装置10は、キーボード、マウスなどの入力機器や、表示装置などを備えていても良い。
【0031】
(学習のための機能構成)
次に、学習のための物体検知装置の機能構成について説明する。
図7は、学習のための物体検知装置10の機能構成を示すブロック図である。物体検知装置10は、まず複数の物体検知部を含む大規模モデルを学習するステップ(以下、「大規模モデル学習ステップ」と呼ぶ。)を実行し、次に学習済みの大規模モデルを用いてターゲットモデルを学習するステップ(以下、「ターゲットモデル学習ステップ」と呼ぶ。)を実行する。
【0032】
図示のように、物体検知装置10は、大別して、大規模モデル部20と、ターゲットモデル部30とを備える。大規模モデル部20は、画像入力部21と、重み算出部22と、第1の物体検知部23と、第2の物体検知部24と、積和部25と、パラメータ修正部26と、ロス算出部17と、正解ラベル記憶部28とを備える。また、ターゲットモデル部30は、ターゲットモデル物体検知部31と、ロス算出部32と、パラメータ修正部33とを備える。なお、第1の物体検知部23及び第2の物体検知部24は、事前に学習済みであり、以下に説明する処理において学習は行わない。上記の構成において、画像入力部21は
図6に示すインタフェース12により実現され、正解ラベル記憶部28は
図6に示すデータベース16により実現され、その他の構成要素は
図6に示すプロセッサ13により実現される。
【0033】
画像入力部21には、画像データが入力される。画像データは、学習用の画像データであり、物体検知の対象となるエリアで撮影されたものである。前述のように、各画像データに対しては、その画像に含まれる物体を示す正解ラベルが予め用意されている。
【0034】
第1の物体検知部23は、例えばSSD(Single Shot Multibox Detector)、RetinaNet、Faster-RCNN(Regional Convolutional Neural Network)などのディープラーニングによる物体検知用のニューラルネットワークに類似する構成を有する。但し、先にも述べたように、第1の物体検知部23は、NMS処理前のアンカーボックス毎に算出された認識対象物体のスコア情報および座標情報をそのまま出力する。なお、前述のように、第1の物体検知部23は事前に学習済みで、そのパラメータは固定されている。
【0035】
第2の物体検知部24は、第1の物体検知部23と同様であり、モデルの構造も同一とする。ただし、第1の物体検知部23と第2の物体検知部24とは、学習データが異なるか、もしくは学習時のパラメータの初期値が異なるなどの要因により、内部に所持するネットワークのパラメータは一致しておらず、認識特性も異なるものとする。
【0036】
重み算出部22は、内部に有する重み算出のためのパラメータ(以下、「重み算出パラメータ」と呼ぶ。)を最適化する。重み算出部22は、ResNetなどの回帰問題に適用可能なディープニューラルネットワークなどによって構成される。重み算出部22は、画像入力部21に入力された画像データに基づいて、第1の物体検知部23と第2の物体検知部24が出力するスコア情報および座標情報を融合する際の重みを決定し、それぞれの重みを示す情報を積和部25へ出力する。基本的に、重みの次元数は用いる物体検知部の数に等しい。この場合、重み算出部22は、第1の物体検知部23に対する重みと第2の物体検知部24に対する重みの総和が「1」になるように重みを算出することが好ましい。例えば、重み算出部22は、第1の物体検知部23に対する重みを「α」とし、第2の物体検知部24に対する重みを「1-α」とすればよい。これにより、積和部25における平均値算出処理を簡略化することができる。なお、物体検知部において、1つの物体に関するパラメータが2つある場合(例えば、ある物体らしいことを示すパラメータと、ある物体らしくないことを示すパラメータ)、重みの次元数は用いる物体検知部の数の2倍となる。
【0037】
積和部25は、第1の物体検知部23および第2の物体検知部24が出力するスコア情報および座標情報を、それぞれ対応するアンカー同士で、重み算出部22が出力する重みに基づき積和した後に平均値を求める。なお、座標情報の積和演算は、正解ラベルに認識対象物体の存在が示されているアンカーに対してのみ行い、それ以外のアンカーに対しては計算不要である。平均値はアンカー毎かつ認識対象物体毎に算出され、Na×(k+4)次元となる。積和部25は、本発明の融合部の一例である。
【0038】
正解ラベル記憶部28は、学習用の画像データに対する正解ラベルを記憶している。具体的に、正解ラベル記憶部28は、正解ラベルとして、各アンカーに存在する認識対象物体のスコア情報、および、座標情報をアンカー毎に配列状に記憶する。正解ラベル記憶部28は、認識対象物体が存在しないアンカーに対応する記憶エリアには、認識対象物体が存在しない旨を示すスコア情報、および座標情報を記憶する。なお、学習用の画像データに対するもともとの正解情報は、入力画像に写っている認識対象物体の種類とその矩形領域を示すテキスト情報である場合が多いが、正解ラベル記憶部28に記憶されている正解ラベルは、その正解情報をアンカー毎のスコア情報および座標情報に変換したデータとなっている。
【0039】
例えば、正解ラベル記憶部28は、ある物体が写っている矩形領域とあらかじめ定めた閾値以上の重複を有するアンカーについては、当該物体のスコアを表す正解ラベルの位置に、スコア情報として当該物体のスコアを示す値1.0を格納し、座標情報として当該アンカーの標準矩形位置に対する当該物体が写っている矩形領域の位置の相対量(左端x座標のずれ量、上端y座標のずれ量、幅のずれ量、高さのずれ量)を格納する。また、正解ラベル記憶部28は、他の物体のスコアを表す正解ラベルの位置には物体が存在しない旨を示す値を格納する。また、ある物体が写っている矩形領域とあらかじめ定めた閾値以上の重複を有さないアンカーに対しては、正解ラベル記憶部28は、物体のスコアおよび座標情報を格納する正解ラベルの位置に物体が存在しない旨を示す値を格納する。1つのアンカーに対し、スコア情報はk次元、座標情報は4次元となる。すべてのアンカーに対しては、スコア情報はNa×k次元、座標情報はNa×4次元となる。この変換には、広く一般に公開されている物体検知課題向けのディープニューラルネットワークプログラムで使われている手法を適用することができる。
【0040】
ロス算出部27は、積和部25が出力するNa×(k+4)次元のスコア情報および座標情報と、正解ラベル記憶部28に記憶されている正解ラベルとを照合してロスを算出する。具体的には、ロス算出部27は、スコア情報に関する識別ロス、および、座標情報に関する回帰ロス(Regression loss)を算出する。積和部25が出力するNa×(k+4)次元の平均値は、第1の物体検知部23がアンカー毎かつ認識対象物体毎に出力するスコア情報および座標情報と同義である。したがって、ロス算出部27は、第1の物体検知部23の出力に対する識別ロスの算出方法と全く等しい方法で識別ロスの値を算出することができる。ロス算出部27は、すべてのアンカーに対するスコア情報の差分を累積して識別ロスを算出する。また、回帰ロスについては、ロス算出部27は、いずれかの物体が存在するアンカーに対してのみ座標情報の差分を累積し、いずれの物体も存在しないアンカーに対しては座標情報の差分を考慮しない。
【0041】
なお、識別ロスと回帰ロスを用いたディープニューラルネットワークの学習については以下の文献に記載されており、これを参考文献として取り込む。
”Learning Efficient Object Detection Models with Knowledge Distillation”,NeurIPS2017
以下、ロス算出部27が算出するロスを「大規模モデルロス」とも呼ぶ。なお、ロス算出部27は本発明の第2のロス算出部に相当し、大規模モデルロスは本発明の第2のロスに相当する。
【0042】
パラメータ修正部26は、ロス算出部27が算出したロスを減少させるように、重み算出部22に内在するネットワークのパラメータを修正する。この時、パラメータ修正部26は、第1の物体検知部23および第2の物体検知部24のネットワークのパラメータを固定し、重み算出部22のパラメータのみを修正する。パラメータ修正部26は、パラメータの修正量を通常の誤差逆伝搬法により求めることができる。
【0043】
重み算出部22は、入力画像に対する各物体検知部の得手・不得手を予測して重みを最適化し、積和部25は、その重みを各物体検知部の出力に乗じて平均する。よって、単体の物体検知部に比べて高精度な最終判定を行うことができる。例えば、第1の物体検知部23は単独で歩く歩行者の検知を得意とし、第2の物体検知部24は集団で歩く歩行者の検知を得意としている場合、入力画像にたまたま単独で歩く人が映っていたならば、重み算出部22は第1の物体検知部23により大きな重みを割り当てる。また、パラメータ修正部26は、学習用の画像データの認識を得意とする物体検知部に対して重み算出部22が大きな重みを算出するように、重み算出部22のパラメータを修正する。このようにして重み算出部22のパラメータを学習することで、第1の物体検知部23および第2の物体検知部24の出力を最適に積和し、総合的に判定を行うことができる大規模モデルを構築することが可能となる。
【0044】
ターゲットモデル物体検知部31は、新規に構築されるターゲットモデルの物体検知部である。ターゲットモデル物体検知部31は、第1の物体検知部23および第2の物体検知部24と同一の、物体検知用のニューラルネットワークに類似した構成を有する。ターゲットモデル物体検知部31は、画像入力部21に入力された学習用の画像データに基づいて、認識対象物体のスコア情報および座標情報をロス算出部32に出力する。
【0045】
ロス算出部32は、ターゲットモデル物体検知部31が出力したスコア情報および座標情報を、ロス算出部27と同様に、正解ラベル記憶部28に記憶されている正解ラベルと照合して識別ロスおよび回帰ロスを算出する。さらに、ロス算出部33は、ターゲットモデル物体検知部31が出力したスコア情報および座標情報を、積和部25が出力するスコア情報および座標情報と照合して識別ロスおよび回帰ロスを算出する。積和部25が出力するスコア情報および座標情報は、大規模モデルによるスコア情報および座標情報に相当する。そして、ロス算出部32は、算出したロスをパラメータ修正部33に供給する。
【0046】
なお、学習用の画像データは、正解ラベルを有しない画像データ(「ラベルなし画像データ」と呼ぶ。)を含んでいてもよい。ラベルなし画像データについては、ロス算出部32は、ターゲットモデル物体検知部31が出力したスコア情報および座標情報を、積和部25が出力するスコア情報および座標情報と照合して生成した識別ロスおよび回帰ロスのみをパラメータ修正部33に出力すればよい。以下、ロス算出部32が算出するロスを「ターゲットモデルロス」とも呼ぶ。なお、ロス算出部32は本発明の第1のロス算出部に相当し、ターゲットモデルロスは本発明の第1のロスに相当する。
【0047】
パラメータ修正部33は、ロス算出部32が算出したロスを減少させるように、ターゲットモデル物体検知部31に内在するネットワークのパラメータを修正する。パラメータ修正部33は、パラメータの修正量を通常の誤差逆伝搬法により求めることができる。
【0048】
次に、学習のための物体検知装置10の動作について説明する。
図8は、物体検知装置10による学習処理のフローチャートである。この処理は、
図6に示すプロセッサ13が予め用意されたプログラムを実行することにより実現される。
図8において、ステップS11~S18は大規模モデル学習ステップに相当し、ステップS19~S24はターゲットモデル学習ステップに相当する。なお、大規模モデル学習ステップの実行中には、ターゲットモデル物体検知部31、ロス算出部32およびパラメータ修正部33は動作しない。
【0049】
まず、画像入力部21に学習用の画像データが入力される(ステップS11)。第1の物体検知部23は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する(ステップS12)。同様に、第2の物体検知部24は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する(ステップS13)。また、重み算出部22は、画像データを読み込み、第1の物体検知部23および第2の物体検知部24の出力それぞれに対する重みを算出する(ステップS14)。
【0050】
次に、積和部25は、アンカー毎に、第1の物体検知部23が出力した認識対象物体のスコア情報と座標情報、並びに、第2の物体検知部24が出力した認識対象物体のスコア情報と座標情報に、重み算出部22が算出したそれぞれに対する重みを掛け合わせて加算し、それらの平均値を出力する(ステップS15)。次に、ロス算出部27は、得られた平均値と正解ラベルとの差を照合し、大規模モデルロスを算出する(ステップS16)。そして、パラメータ修正部26は、大規模モデルロスの値が減少するように、重み算出部22に内在する重み算出パラメータを修正する(ステップS17)。
【0051】
物体検知装置10は、上記のステップS11~S17を所定の条件の間だけ繰返し、処理を終了する。なお、「所定の条件」とは、繰返しの回数やロスの値の変化度合いなどに関する条件であり、多くのディープラーニングの学習手順として採用されている方法のいずれかを使用することができる。こうして、大規模モデルが構築される。
【0052】
こうして、大規模モデル学習ステップが終了すると(ステップS18:Yes)、次に、ターゲットモデル学習ステップが行われる。ターゲットモデル学習ステップでは、重み算出部22の内部パラメータは、大規模モデル学習ステップで学習された値に固定される。なお、第1の物体検知部23および第2の物体検知部24の内部パラメータも事前に学習済みの値に固定されている。
【0053】
画像入力部21に学習用の画像データが入力されると(ステップS19)、大規模モデル部20は、入力された画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎にロス算出部32に出力する(ステップS20)。また、ターゲットモデル物体検知部31は、入力された画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎にロス算出部32に出力する(ステップS21)。次に、ロス算出部32は、ターゲットモデル物体検知部31が出力したスコア情報および座標情報を、正解ラベル記憶部28に記憶されている正解ラベル並びに大規模モデル部20が出力したスコア情報および座標情報と比較してターゲットモデルロスを算出する(ステップS22)。そして、パラメータ修正部33は、ターゲットモデルロスの値が減少するように、ターゲットモデル物体検知部31に内在するパラメータを修正する(ステップS23)。物体検知装置10は、上記のステップS19~S24を所定の条件の間だけ繰返し、処理を終了する。
【0054】
以上のように、第1実施形態の物体検知装置10によれば、まず、複数の学習済みの物体検知部を用いて大規模モデルを学習し、次に、その大規模モデルを用いてターゲットモデルを学習する。よって、新たな現場の環境に適した小規模で高精度なターゲットモデルを構築することが可能となる。
【0055】
(推論のための機能構成)
次に、推論のための物体検知装置の機能構成について説明する。
図9は、推論のための物体検知装置40の機能構成を示すブロック図である。なお、推論のための物体検知装置40も、基本的に
図1に示すハードウェア構成で実現される。
【0056】
図9に示すように、推論のための物体検知装置40は、画像入力部21と、ターゲットモデル物体検知部31と、極大値選択部41と、を備える。ここで、画像入力部21およびターゲットモデル物体検知部31は、
図7に示す学習のための物体検知装置10と同様である。なお、ターゲットモデル物体検知部31は、上記のターゲットモデル学習ステップにより学習済みのものを使用する。
【0057】
推論のための画像データが画像入力部21に入力されると、ターゲットモデル物体検知部31は、学習済みの内部パラメータを用いて物体検知を行い、認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する。極大値選択部41は、ターゲットモデル物体検知部31が出力するNa×k次元のスコア情報にNMS処理を施して認識対象物体の種類を同定し、そのアンカーに対応する座標情報からその位置を特定して物体検知結果を出力する。物体検知結果は、認識対象物体毎に、その種類と位置とを含む。これにより、大規模モデルを利用して学習したターゲットモデル物体検知部31を使用した物体検知結果を得ることができる。
【0058】
(変形例1)
上記の第1実施形態については、以下の変形例を適用することができる。
(1)上記の第1実施形態では、各物体検知部が出力するスコア情報および座標情報を用いて学習を行っているが、座標情報は用いず、スコア情報のみを用いて学習を行うこととしてもよい。
【0059】
(2)上記の第1実施形態では、第1の物体検知部23および第2の物体検知部24の2つの物体検知部を用いたが、物体検知部は原理上3つ以上でも全く問題ない。その場合は、重み算出部22が出力する重みの次元数(数)を、物体検知部の数と等しくすればよい。
【0060】
(3)第1の物体検知部23および第2の物体検知部24を構成する具体的なアルゴリズムとしては、物体検知のためのディープラーニング手法であれば何を用いてもよい。また、重み算出部22としては、回帰問題向けのディープラーニングに限らず、誤差逆伝搬法で学習できる関数、いいかえると、重みを算出する関数のパラメータで誤差関数を偏微分可能な関数、であれば何を用いても構わない。
【0061】
(4)また、上記の第1実施形態は物体検知装置としたが、物体の検知に限らず、映像中で起きている事象情報とその座標情報を出力する事象検知装置としてもよい。「事象」とは、例えばあらかじめ定めた人物の振る舞いや動作、ジェスチャーのようなものや、土砂崩れや雪崩、河川の水位上昇といった自然現象などを指す。
【0062】
(5)また、上記の第1実施形態では、第1の物体検知部23と第2の物体検知部24とはモデルの構造の等しいものを用いるものとしているが、異なるモデルを用いてもよい。ただし、その場合は、積和部25にて、略等しい位置に対応する双方のアンカーの対応づけを工夫する必要がある。これは、異なるモデル間のアンカーは、完全一致しないためである。現実的な実装としては、第2の物体検知部24で設定される各アンカーを第1の物体検知部23で設定されるアンカーのいずれか1つに対応させ、第1の物体検知部23で設定されるアンカー毎に重み付け平均を計算し、第1の物体検知部23で設定されるアンカー毎かつ認識対象物体毎のスコア情報および座標情報を出力するようにすればよい。アンカーの対応の決め方としては、アンカーに対応する画像領域(物体が存在する矩形領域)を求め、その画像領域がもっとも過不足なく重複するアンカー同士を対応付ければよい。
【0063】
(6)第1実施形態の重み算出部22は画像全体に対して1通りの重みを設定しているが、その代わりに、重み算出部22が画像のアンカー毎、即ち部分領域毎に、各物体検知部の出力に対する重みを算出することとしても良い。画像データに設定されるアンカー数をNa、物体検知部の数をNfとすると、重み算出部22が出力する倍率を示す情報の次元数はNa×Nf次元となる。重み算出部22は、多次元の回帰問題に適用できるディープニューラルネットワークなどで構成することができる。また、重み算出部22は、それぞれの物体検知部に対する近傍のアンカー同士ができるだけ近い重みを持つように、近傍のアンカーに対応する重みを平均化するような構造のネットワークを含んでもよい。
【0064】
(7)重み算出部22が、例えばRetinaNetのように各物体検知部がクラス毎に異なるバイナリ識別器を持っているならば、アンカー毎ではなくクラス毎に重みを変えられるようにしてもよい。この場合は、重み算出部22がクラス毎に重みを算出し、パラメータ修正部26がクラス毎にパラメータを修正すればよい。画像データに設定されるアンカー数をNa、物体検知部の数をNfとすると、重み算出部22が出力する重みの次元数はNa×Nf次元である。これに対し、クラス数をNc次元とすると、クラス毎に重みを算出する場合、重み算出部22が出力する重みの次元数はNc×Nf次元となる。パラメータ修正部によるクラス毎の重み算出パラメータの学習は、通常のように出力層ニューロン側からロスを最小化するようにバックプロパゲーションを適用すればよい。この構成によれば、例えば、物体検知部毎に検知が得意なクラスが異なる場合、クラス毎に異なる最適な重み付けを行うことが可能となる。
【0065】
[第2実施形態]
次に、本発明の第2実施形態について説明する。なお、以下に説明する学習のための物体検知装置10xは、
図6に示すハードウェア構成により実現される。第1実施形態では、まず、大規模モデルを学習し、その後に大規模モデルを用いてターゲットモデルを学習している。これに対し、第2実施形態では、大規模モデルの学習とターゲットモデルの学習を同時に行う。
【0066】
(学習のための機能構成)
図10は、第2実施形態に係る学習のための物体検知装置10xの機能構成を示すブロック図である。図示のように、第2実施形態に係る学習のための物体検知装置10xでは、ロス算出部32の出力がパラメータ修正部26にも供給されている。この点以外は、第2実施形態に係る学習のための物体検知装置10xは、
図7に示す第1実施形態の物体検知装置10と同一であり、各要素は基本的に第1実施形態と同様に動作する。
【0067】
第2実施形態では、ロス算出部32は、ターゲットモデルロスをパラメータ修正部33のみならず、パラメータ修正部26にも供給する。パラメータ修正部26は、ターゲットモデルロスも考慮して、重み算出部22の重み算出パラメータを修正する。具体的には、パラメータ修正部26は、大規模モデルロス及びターゲットモデルロスが減少するように、重み算出パラメータを修正する。
【0068】
次に、学習のための物体検知装置10xの動作について説明する。
図11は、物体検知装置10xによる学習処理のフローチャートである。この処理は、
図6に示すプロセッサ13が予め用意されたプログラムを実行することにより実現される。
図11に示す学習処理において、ステップS41~S46は、
図8に示す第1実施形態の物体検知装置10による学習処理のステップS11~S16と同様であるので説明を省略する。
【0069】
ステップS46でロス算出部27が大規模モデルロスを算出すると、ターゲットモデル物体検知部31は、入力された画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する(ステップS47)。次に、ロス算出部32は、ターゲットモデル物体検知部31が出力したスコア情報および座標情報を、正解ラベル並びに大規模モデル部20が出力したスコア情報および座標情報と比較してターゲットモデルロスを算出し、パラメータ修正部26及びパラメータ修正部33に供給する(ステップS48)。
【0070】
パラメータ修正部26は、大規模モデルロスおよびターゲットモデルロスが減少するように、重み算出部22の重み算出パラメータを修正する(ステップS49)。また、パラメータ修正部33は、ターゲットモデルロスが減少するように、ターゲットモデル物体検知部31に内在するパラメータを修正する(ステップS50)。物体検知装置10xは、上記のステップS41~S50を所定の条件の間だけ繰返し、処理を終了する。
【0071】
以上のように、第2実施形態の物体検知装置10によれば、大規模モデルの学習ステップと、ターゲットモデルの学習ステップを同時に実行することができる。よって、新たな現場の環境に適したターゲットモデルを効率的に構築することが可能となる。
【0072】
(推論のための機能構成)
第2実施形態に係る推論のための物体検知装置は、
図9に示す第1実施形態に係る推論のための物体検知装置40と同一であり、同様に動作するので、説明を省略する。
【0073】
(変形例)
第1実施形態における変形例(1)~(7)は、第2実施形態においても同様に適用することができる。
【0074】
[第3実施形態]
次に、本発明の第3実施形態について説明する。
図12は、第3実施形態による、学習のための物体検知装置40の機能構成を示す。なお、物体検知装置40は、
図1に示すハードウェア構成により実現される。
【0075】
物体検知装置50は、複数の物体検知部51と、重み算出部52と、融合部53と、ターゲットモデルの物体検知部54と、ロス算出部55と、パラメータ修正部56とを備える。複数の物体検知部51は、入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する。重み算出部52は、画像データに基づいて、複数の物体検知部51が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する。融合部53は、重み算出部52が算出した重みで、複数の物体検知部51が出力するスコアを部分領域毎に融合する。
【0076】
ターゲットモデルの物体検知部54は、画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する。ロス算出部55は、ターゲットモデルの物体検知部54の出力と、画像データの正解ラベルおよび融合部53が融合したスコアとの差異を示すロスを算出する。そして、パラメータ修正部56は、そのロスが減少するように、ターゲットモデルの物体検知部54のパラメータを修正する。
【0077】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0078】
(付記1)
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知部と、
前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する重み算出部と、
前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合する融合部と、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力するターゲットモデルの物体検知部と、
前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび前記融合部が融合したスコアとの差異を示す第1のロスを算出する第1のロス算出部と、
前記第1のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する第1のパラメータ修正部と、
を備える物体検知装置。
【0079】
(付記2)
前記正解ラベルと、前記融合部が融合したスコアとの差異を示す第2のロスを算出する第2のロス算出部と、
前記第2のロスが減少するように、前記重み算出パラメータを修正する第2のパラメータ修正部と、
を備える付記1に記載の物体検知装置。
【0080】
(付記3)
前記第2のパラメータ修正部は、前記第1のロス及び前記第2のロスに基づいて、前記重み算出パラメータを修正する付記2に記載の物体検知装置。
【0081】
(付記4)
前記画像データは、対応する正解ラベルを有しないラベルなし画像データを含み、
前記第1のロス算出部は、前記ラベルなし画像データについては、前記ターゲットモデルの物体検知部が出力したスコアと、前記融合部が出力したスコアとの差異を前記第1のロスとして算出する付記1乃至3のいずれか一項に記載の物体検知装置。
【0082】
(付記5)
前記重み算出部は、前記画像データに対して1つの重みを算出し、
前記融合部は、前記複数の物体検知部が出力するスコアを、前記1つの重みで融合する付記1乃至4のいずれか一項に記載の物体検知装置。
【0083】
(付記6)
前記重み算出部は、前記部分領域毎に前記重みを算出し、
前記融合部は、前記複数の物体検知部が出力するスコアを、前記部分領域毎に算出された重みで融合する付記1乃至4のいずれか一項に記載の物体検知装置。
【0084】
(付記7)
前記重み算出部は、前記物体を示すクラス毎に前記重みを算出し、
前記融合部は、前記複数の物体検知部が出力するスコアを、前記クラス毎に算出された重みで融合する付記1乃至4のいずれか一項に記載の物体検知装置。
【0085】
(付記8)
前記融合部は、前記複数の物体検知部が出力するスコアに、前記重み算出部が算出したそれぞれの物体検知部についての重みを乗じて加算した後、平均値を求める付記1乃至7のいずれか一項に記載の物体検知装置。
【0086】
(付記9)
前記複数の物体検知部の各々および前記ターゲットモデルの物体検知部は、前記物体が存在する矩形領域の座標情報を前記部分領域毎に出力し、
前記融合部は、前記重み算出部が算出した重みで前記座標情報を融合し、
前記第1のロス算出部は、前記ターゲットモデルの物体検知部の出力と、前記正解ラベルおよび前記融合部が融合したスコアとの差異を示す第1のロスを算出し、
前記第2のロス算出部は、前記融合部が融合した座標情報と、前記正解ラベルとの差異を含むロスを算出する付記2に記載の物体検知装置。
【0087】
(付記10)
前記融合部は、前記複数の物体検知部が出力する前記座標情報に、前記重み算出部が算出したそれぞれの物体検知部についての重みを乗じて加算した後、平均値を求める付記9に記載の物体検知装置。
【0088】
(付記11)
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知部から出力し、
前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第1のロスを算出し、
前記第1のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する、物体検知装置の学習方法。
【0089】
(付記12)
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知部から出力し、
前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第1のロスを算出し、
前記第1のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する、物体検知装置の学習処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0090】
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0091】
1 大規模モデル
2 学習済みモデル
3 ゲーティングネットワーク
4 演算部
5 ターゲットモデル
10、10x、40、50 物体検知装置
21 画像入力部
22、52 重み算出部
23、24、51 物体検知部
25 積和部
26、33、56 パラメータ修正部
27、32、55 ロス算出部
28 正解ラベル記憶部
31 ターゲットモデル物体検知部
41 極大値選択部
53 融合部