特開2023-113169 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通テン株式会社の特許一覧

特開2023-113169画像認識装置及び方法並びに学習用データセット生成装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023113169

(43)【公開日】2023-08-16

(54)【発明の名称】画像認識装置及び方法並びに学習用データセット生成装置

(51)【国際特許分類】

G06T 7/00 20170101AFI20230808BHJP

【ＦＩ】

G06T7/00 350B

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022015322

(22)【出願日】2022-02-03

(71)【出願人】

【識別番号】000237592

【氏名又は名称】株式会社デンソーテン

(74)【代理人】

【識別番号】110001933

【氏名又は名称】弁理士法人佐野特許事務所

(72)【発明者】

【氏名】岡田康貴

(72)【発明者】

【氏名】関竜介

(72)【発明者】

【氏名】片山雄喜

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096BA08

5L096DA02

5L096GA17

5L096HA11

5L096KA04

5L096KA15

(57)【要約】

【課題】入力画像中の認識対象物体を認識する推論において良好な推論結果を得る。
【解決手段】入力画像における認識対象物体を認識するための推論を行う処理部を有する画像認識装置であって、処理部は、入力画像に基づき画像認識モデルを用いて、入力画像内の認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し（例：２０［１］では３０［１］及び３０［２］）、複数の物体検出処理の結果（例：１３２［１，１］及び１３２［１，２］）に基づき推論の結果を表す推論結果データ（例：１３３［１］）を生成し、複数の物体検出処理において互いに異なる複数の画像認識モデル（例：２０［１］では１３１［１，１］及び１３１［１，２］）が用いられ、処理部は、複数の物体検出処理にて検出された複数の物体検出領域の重なり度合いに応じて推論結果データ（例：１３３［１］）を生成する。
【選択図】図１２

【特許請求の範囲】

【請求項1】

入力画像における認識対象物体を認識するための推論を行う処理部を有する画像認識装置であって、
前記処理部は、
前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し、
複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し、
前記複数の物体検出処理において互いに異なる複数の画像認識モデルが用いられ、
前記処理部は、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合いに応じて前記推論結果データを生成する
、画像認識装置。

【請求項2】

前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し、
各物体検出処理は、単一種類の物体を前記認識対象物体とするシングルクラスの物体検出処理であって、前記複数の物体検出処理における前記認識対象物体の種類は互いに同じであり、
前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度を特定し、
前記重なり度合いが所定の重なり閾値以上であるとき、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する
、請求項１に係る画像認識装置。

【請求項3】

前記重なり度合いが前記重なり閾値以上であるとき又は前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が所定の基準信頼度以上であるとき、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する
、請求項２に係る画像認識装置。

【請求項4】

前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が前記基準信頼度未満であるとき、前記処理部は、特定データを前記推論結果データに設定する
、請求項３に係る画像認識装置。

【請求項5】

前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し、
各物体検出処理は、複数種類の物体を前記認識対象物体とするマルチクラスの物体検出処理であり、
前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度を特定し、
前記複数の物体検出処理により同一種類の物体が存在すると判断された複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが所定の重なり閾値以上であるとき、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する
、請求項１に係る画像認識装置。

【請求項6】

前記複数の物体検出処理により前記同一種類の物体が存在すると判断された前記複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値以上であるとき又は前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が所定の基準信頼度以上であるとき、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する
、請求項５に係る画像認識装置。

【請求項7】

前記複数の物体検出処理により前記同一種類の物体が存在すると判断された前記複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が前記基準信頼度未満であるとき、前記処理部は、特定データを前記推論結果データに設定する
、請求項６に係る画像認識装置。

【請求項8】

前記複数の画像認識モデル間において前記認識対象物体を検出するためのアルゴリズムが互いに異なる、
各画像認識モデルはニューラルネットワークにより形成され、前記複数の画像認識モデル間において前記ニューラルネットワークの構成が互いに異なる、又は、
互いに異なる環境の機械学習により前記複数の画像認識モデルが形成される
、請求項１～７の何れかに係る画像認識装置。

【請求項9】

請求項１～８の何れかに記載の画像認識装置を備え、
複数の入力画像と各入力画像に対する前記推論結果データを用いて学習用データセットを生成する
、学習用データセット生成装置。

【請求項10】

入力画像における認識対象物体を認識するための推論を行う画像認識方法であって、
前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し、
複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し、
前記複数の物体検出処理において互いに異なる複数の画像認識モデルが用いられ、
当該画像認識方法では、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合いに応じて前記推論結果データを生成する
、画像認識方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像認識装置及び方法並びに学習用データセット生成装置に関する。

【背景技術】

【0002】

入力画像内の認識対象物体を認識する画像認識技術が実用化されている（例えば特許文献１参照）。画像認識技術では、入力画像に基づき、画像認識モデルを用いて認識対象物体を認識するための推論が行われる。画像認識技術の１つとして画像認識モデルを用いた物体検出がある。物体検出により、入力画像において認識対象物体の存在領域を検出することができる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１９－６１５０５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

画像認識モデルを用いた物体検出の結果は常に正しいとは限らないため、物体検出に基づく推論結果に誤りが含まれることがある。良好な推論結果を得るための技術の開発が期待される。

【0005】

本発明は、良好な推論結果の導出に寄与する画像認識装置及び方法、並びに、それを利用した学習用データセット生成装置を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明に係る画像認識装置は、入力画像における認識対象物体を認識するための推論を行う処理部を有する画像認識装置であって、前記処理部は、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し、前記複数の物体検出処理において互いに異なる複数の画像認識モデルが用いられ、前記処理部は、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合いに応じて前記推論結果データを生成する。

【発明の効果】

【0007】

本発明によれば、良好な推論結果の導出に寄与する画像認識装置及び方法、並びに、それを利用した学習用データセット生成装置を提供することが可能となる。

【図面の簡単な説明】

【0008】

【図1】本発明の基本実施形態に係るデータ処理装置の機能ブロック図である。

【図2】本発明の基本実施形態に係り、入力画像とＸＹ座標面との関係を示す図である。

【図3】本発明の基本実施形態に係り、入力画像に設定された物体検出領域の位置及び形状を特定するデータ（位置形状データ）の説明図である。

【図4】本発明の基本実施形態に係り、物体検出器の入出力情報を示す図である。

【図5】本発明の基本実施形態に係り、入力画像の例を示す図である。

【図6】本発明の基本実施形態に係り、複数の物体検出器と統合部との関係を説明するための図である。

【図7】本発明の基本実施形態に係り、複数の物体検出領域とそれらに基づく統合推論領域との関係を説明するための図である。

【図8】本発明の基本実施形態に係り、データ処理装置の動作フローチャートである。

【図9】本発明の基本実施形態に係り、入力画像の例を示す図である。

【図10】本発明の基本実施形態に係るデータ処理装置の構成図である。

【図11】本発明の基本実施形態に係り、２つの領域間におけるＩｏＵの説明図である。

【図12】本発明の第１実施形態に属する実施例ＥＸ１＿１に係り、データ処理装置の要部の機能ブロック図である。

【図13】本発明の第１実施形態に属する実施例ＥＸ１＿１に係り、入力画像の例を示す図である。

【図14】本発明の第１実施形態に属する実施例ＥＸ１＿１に係り、入力画像に対して複数の物体検出領域が設定される様子を示す図である。

【図15】本発明の第１実施形態に属する実施例ＥＸ１＿１に係り、推論結果データを生成に関わるデータ処理装置の動作フローチャートである。

【図16】本発明の第１実施形態に属する実施例ＥＸ１＿１に係り、推論結果データを生成に関わるデータ処理装置の変形動作フローチャートである。

【図17】本発明の第１実施形態に属する実施例ＥＸ１＿２に係り、推論結果データを生成に関わるデータ処理装置の動作フローチャートである。

【図18】本発明の第１実施形態に属する実施例ＥＸ１＿２に係り、推論結果データを生成に関わるデータ処理装置の変形動作フローチャートである。

【図19】本発明の第１実施形態に属する実施例ＥＸ１＿３に係り、推論結果データを生成に関わるデータ処理装置の動作フローチャートである。

【図20】本発明の第１実施形態に属する実施例ＥＸ１＿３に係り、推論結果データを生成に関わるデータ処理装置の変形動作フローチャートである。

【図21】本発明の第１実施形態に属する実施例ＥＸ１＿４に係り、学習用データセットが更新される様子を示す図である。

【図22】本発明の第１実施形態に属する実施例ＥＸ１＿４に係り、データ処理装置の機能ブロック図である。

【図23】本発明の第１実施形態に属する実施例ＥＸ１＿５に係り、入力画像に対して複数の物体検出領域が設定される様子を示す図である。

【図24】本発明の第２実施形態に係るデータ処理装置の機能ブロック図である。

【図25】本発明の第２実施形態に係り、１つの推論ブロックの機能ブロック図である。

【図26】本発明の第２実施形態に係り、データベースに格納されるアテンションデータ群の構成図である。

【図27】本発明の第２実施形態に属する実施例ＥＸ２＿１に係り、１つの推論ブロックの機能ブロック図である。

【図28】本発明の第２実施形態に属する実施例ＥＸ２＿１に係り、複数の入力画像の例を示す図である。

【図29】本発明の第２実施形態に属する実施例ＥＸ２＿１に係り、或る１枚の入力画像に対する推論ブロックの動作を説明するための図である。

【図30】本発明の第２実施形態に属する実施例ＥＸ２＿１に係り、他の１枚の入力画像に対する推論ブロックの動作を説明するための図である。

【図31】本発明の第２実施形態に属する実施例ＥＸ２＿１に係り、アテンション情報の付与に対応する表示装置の表示内容例を示す図である。

【図32】本発明の第２実施形態に属する実施例ＥＸ２＿２に係り、推論結果データの生成及び学習用データセットの更新に関わるデータ処理装置の動作フローチャートである。

【図33】本発明の第２実施形態に属する実施例ＥＸ２＿２に係り、推論結果データの生成及び学習用データセットの更新に関わるデータ処理装置の変形動作フローチャートである。

【図34】本発明の第２実施形態に属する実施例ＥＸ２＿３に係り、推論結果データの生成及び学習用データセットの更新に関わるデータ処理装置の動作フローチャートである。

【図35】本発明の第２実施形態に属する実施例ＥＸ２＿３に係り、推論結果データの生成及び学習用データセットの更新に関わるデータ処理装置の変形動作フローチャートである。

【図36】本発明の第２実施形態に属する実施例ＥＸ２＿４に係り、データ処理装置の機能ブロック図である。

【図37】本発明の第２実施形態に属する実施例ＥＸ２＿６に係り、クラス照合処理の説明図である。

【図38】本発明の第３実施形態に係り、機械学習により複数の画像認識モデルを形成する方法の説明図である。

【図39】本発明の第３実施形態に係り、画像サイズに関する複数の範囲を定義する図である。

【図40】本発明の第３実施形態に属する実施例ＥＸ３＿１に係り、データ処理装置の要部の機能ブロック図である。

【図41】本発明の第３実施形態に属する実施例ＥＸ３＿２に係り、推論結果データを生成に関わるデータ処理装置の動作フローチャートである。

【図42】本発明の第３実施形態に属する実施例ＥＸ３＿２に係り、推論結果データを生成に関わるデータ処理装置の変形動作フローチャートである。

【図43】本発明の第３実施形態に属する実施例ＥＸ３＿３に係り、機械学習により複数の画像認識モデルを形成する方法の説明図である。

【図44】本発明の第３実施形態に属する実施例ＥＸ３＿３に係り、推論結果データを生成に関わるデータ処理装置の動作フローチャートである。

【図45】本発明の第３実施形態に属する実施例ＥＸ３＿３に係り、推論結果データを生成に関わるデータ処理装置の変形動作フローチャートである。

【発明を実施するための形態】

【0009】

以下、本発明の実施形態の例を、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。尚、本明細書では、記述の簡略化上、情報、信号、物理量又は部材等を参照する記号又は符号を記すことによって、該記号又は符号に対応する情報、信号、物理量又は部材等の名称を省略又は略記することがある。尚、本明細書において用語“情報”と用語“データ”は互いに同義であり、互いに読み替えることも可能である。

【0010】

＜＜基本実施形態＞＞
本発明に係る基本実施形態を説明する。図１は基本実施形態に係るデータ処理装置１の機能ブロック図である。データ処理装置１は、教師あり機械学習の実行に必要な学習用データセットＤＳを生成する学習用データセット生成装置として機能する。符号１０、２０、３０、４０及び５０により参照されるブロックは、データ処理装置１に設けられる機能ブロックである。即ち、データ処理装置１は、画像取得部１０と、１以上の推論ブロック２０と、データ格納部５０と、を備え、各推論ブロック２０は２以上の物体検出器３０と統合部４０を備える。データ処理装置１は更にデータベースＤＢを備える。但し、データベースＤＢはデータ処理装置１の外部に設けられるものであっても良い。画像取得部１０、推論ブロック２０及びデータ格納部５０の動作を通じて、学習用データセットＤＳが生成され且つデータベースＤＢに格納される。

【0011】

データ処理装置１に対し入力画像ＩＮが供給される。画像取得部１０は入力画像ＩＮの供給を受けて入力画像ＩＮを取得する。入力画像ＩＮの供給、取得とは、詳細には入力画像ＩＮを表す画像データ（以下、入力画像ＩＮの画像データと称する）の供給、取得を指す。画像取得部１０は入力画像ＩＮを各推論ブロック２０に供給する。

【0012】

図２を参照し入力画像ＩＮは二次元の静止画像である。ここで、入力画像ＩＮが定義される二次元平面を想定し、当該二次元平面に平行な２つの軸をＸ軸及びＹ軸と定義する。Ｘ軸及びＹ軸は互いに直交する。Ｘ軸は入力画像ＩＮの水平方向に平行であり、Ｙ軸は入力画像ＩＮの垂直方向に平行である。以下では、Ｘ軸及びＹ軸に平行な二次元平面をＸＹ座標面と称する。入力画像ＩＮは、ＸＹ座標面上においてマトリクス状に配列された（Ｘ軸及びＹ軸方向の夫々に配列された）複数の画素から成る。

【0013】

データ処理装置１には計ｍ個の推論ブロック２０が設けられる。ここで、ｍは２以上の任意の整数であるが、“ｍ＝１”であり得る。計ｍ個の推論ブロック２０は第１～第ｍの推論ブロック２０から成り、第１～第ｍの推論ブロック２０を互いに区別する必要がある場合、第ｊの推論ブロック２０を特に推論ブロック２０［ｊ］と称する。ここにおけるｊはｍ以下の任意の自然数である。以下の説明では、主として“ｍ≧２”であることが想定される。

【0014】

各推論ブロック２０には計ｎ個の物体検出器３０と１つの統合部４０が設けられる。ここで、ｎは２以上の任意の整数である。各推論ブロック２０において、計ｎ個の物体検出器３０は第１～第ｎの物体検出器３０から成り、第１～第ｎの物体検出器３０を互いに区別する必要がある場合、第ｉの物体検出器３０を特に物体検出器３０［ｉ］と称する。ここにおけるｉはｎ以下の任意の自然数である。尚、互いに異なる任意の２つの推論ブロック２０間において、ｎの値は一致しても良いし、不一致でも良い。即ち例えば、推論ブロック２０［１］に設けられる物体検出器３０の個数及び推論ブロック２０［２］に設けられる物体検出器３０の個数は共に２でも良い。或いは例えば、推論ブロック２０［１］に設けられる物体検出器３０の個数及び推論ブロック２０［２］に設けられる物体検出器３０の個数は、夫々、２、３でも良い。

【0015】

各推論ブロック２０では、物体検出器３０を用いて、入力画像ＩＮ内に存在する特定種類の物体を認識（換言すれば検出）することができる。各推論ブロック２０において、認識の対象となる物体を認識対象物体と称する。

【0016】

各物体検出器３０に対して画像取得部１０から入力画像ＩＮが供給される（即ち入力画像ＩＮの画像データが供給される）。各物体検出器３０は入力画像ＩＮに基づき物体検出処理を実行する。物体検出処理は単に物体検出とも称され得る。入力画像ＩＮに基づく物体検出処理とは、詳細には入力画像ＩＮの画像データに基づく物体検出処理である。各物体検出器３０において、物体検出処理では入力画像ＩＮにおける認識対象物体が検出される。即ち、各物体検出器３０において、物体検出処理では入力画像ＩＮ内において認識対象物体が存在すると判断される領域が物体検出領域として設定される。尚、本明細書において、物体検出領域の設定と物体検出領域の検出とは互いに同義であり、それらを互いに読み替えても良い。

【0017】

各物体検出器３０は、物体検出処理が可能に形成された画像認識モデルを有し、画像認識モデルを用いて物体検出処理を行う。画像認識モデルそのものが物体検出器３０に相当する、と解するようにしても良い。画像認識モデルは、例えば、物体検出用の機械学習を経て得られる学習済みモデル（人工知能による学習済みモデル）である。

【0018】

図３及び図４を参照して物体検出処理にて導出される情報を説明する。図３において、符号“ＤＲ”が付された破線矩形領域が物体検出領域に相当する。物体検出領域は一般的にバウンディングボックスと称される。説明の具体化のため、ここでは物体検出領域を物体検出領域ＤＲと表記して物体検出領域の位置及び形状を特定する情報を説明するが、物体検出領域ＤＲについて説明した事項は任意の物体検出領域に当てはまる。

【0019】

物体検出領域ＤＲは入力画像ＩＮの全画像領域の一部であり、物体検出領域ＤＲの位置及び形状は、原点座標Ｐ_ＤＲ、幅Ｗ_ＤＲ及び高さＨ_ＤＲにより定められる。物体検出領域ＤＲは長方形の外形を有する。当該長方形の４辺はＸ軸又はＹ軸に平行であり、当該長方形の辺の内、Ｘ軸方向に平行な辺の長さが幅Ｗ_ＤＲであり、Ｙ軸方向に平行な辺の長さが高さＨ_ＤＲである。尚、ここでは、Ｘ軸方向を幅方向と捉え、Ｙ軸方向を高さ方向と捉えている。即ち、物体検出領域ＤＲにおけるＸ軸方向の長さは幅Ｗ_ＤＲであり、物体検出領域ＤＲにおけるＹ軸方向の長さは高さＨ_ＤＲである。物体検出領域ＤＲの外形としての長方形の頂点の内、Ｘ軸の負側且つＹ軸の負側に位置する頂点の座標（ＸＹ座標面上の座標）が原点座標Ｐ_ＤＲである。物体検出領域ＤＲは、原点座標Ｐ_ＤＲから見てＸ軸の正側及びＹ軸の正側に広がる矩形領域である。

【0020】

図４には、１つの物体検出器３０の入出力情報が示される。任意の物体検出器３０は、入力画像ＩＮに対して物体検出処理を行い、物体検出処理の結果を表す情報として物体検出データを生成及び出力する。物体検出処理において入力画像ＩＮから認識対象物体が検出されたとき、検出された認識対象物体の種類を示すクラスデータＣＬＳと、検出された認識対象物体についての位置形状データＰＰと、物体検出処理の結果の確からしさを表す信頼度ＳＣＲとが、物体検出器３０にて導出される。即ち、物体検出処理により入力画像ＩＮから認識対象物体が検出されたときに生成及び出力される物体検出データは、クラスデータＣＬＳと、位置形状データＰＰと、信頼度ＳＣＲと、を含む。信頼度ＳＣＲは、物体検出領域ＤＲ内の物体がクラスデータＣＬＳにて示される物体である旨の検出結果の確からしさを表し、一般に“confidence score”と称される。当該確からしさが高いほど信頼度ＳＣＲが大きくなる。信頼度ＳＣＲは０以上且つ１以下の値を持つ。信頼度ＳＣＲは、検出されたクラスデータＣＬＳ及び物体検出領域ＤＲの確からしさであるとも言える。

【0021】

認識対象物体の種類は複数であり得る。例えば、認識対象物体の種類に第１種類～第３種類が含まれる場合において、第１種類、第２種類、第３種類の認識対象物体は、夫々、「車両」、「人物」、「信号機」である。車両として、主に自動車などの路面を走行する車両が想定され、人物として、主に道路等に位置する歩行者が想定される。信号機は交通信号機である。１つの推論ブロック２０内における物体検出器３０［１］～３０［ｎ］の認識対象物体は互いに同じであるが、複数の推論ブロック２０間で認識対象物体は互いに異なる。この点については後にも詳説される。一例として、推論ブロック２０［１］における物体検出器３０［１］～３０［ｎ］の認識対象物体が「車両」である場合において、推論ブロック２０［２］における物体検出器３０［１］～３０［ｎ］の認識対象物体は「人物」であって良い。

【0022】

以下、注目された任意の物体検出器３０を注目物体検出器３０と称する。注目物体検出器３０の物体検出処理により導出されるクラスデータＣＬＳは、注目物体検出器３０が入力画像ＩＮから検出した認識対象物体の種類を表す。この種のクラスデータは、一般にラベルデータ又は単にラベルとも称される。注目物体検出器３０の物体検出処理により導出される位置形状データＰＰは、注目物体検出器３０が入力画像ＩＮから検出した認識対象物体についての物体検出領域ＤＲの位置及び形状を特定する情報であり、原点座標Ｐ_ＤＲ、幅Ｗ_ＤＲ及び高さＨ_ＤＲにて表現される。

【0023】

図５の画像６１０は入力画像ＩＮの一例である。入力画像６１０には車両６１２の像が含まれている。注目物体検出器３０の認識対象物体に車両が含まれている場合において、注目物体検出器３０が入力画像６１０に対して物体検出処理を実行することにより、物体検出領域６１３が物体検出領域ＤＲとして設定された場合を考える。物体検出領域６１３は、入力画像６１０において車両６１２の像が存在する領域である。この場合、注目物体検出器３０は、入力画像６１０に対応付けて、検出された物体が「車両」であることを示すクラスデータＣＬＳと、物体検出領域６１３の位置形状データＰＰと、物体検出領域６１３の検出に関わる信頼度ＳＣＲと、を含む物体検出データを生成及び出力する。

【0024】

入力画像ＩＮ内に認識対象物体の画像データが存在していないとき、注目物体検出器３０による物体検出処理において入力画像ＩＮから認識対象物体が検出されない（但し誤検出はあり得る）。入力画像ＩＮ内に認識対象物体の画像データが存在している場合、注目物体検出器３０による物体検出処理において入力画像ＩＮから認識対象物体が検出されると期待される。但し、入力画像ＩＮ内に認識対象物体の画像データが存在している場合でも、注目物体検出器３０による物体検出処理において入力画像ＩＮから認識対象物体が検出されないことがある。注目物体検出器３０による物体検出処理において入力画像ＩＮから認識対象物体が検出されなかったとき、注目物体検出器３０にて物体検出領域が設定されず、注目物体検出器３０は“０”の物体検出データを生成及び出力する。“０”の物体検出データは、クラスデータＣＬＳ、位置形状データＰＰ及び信頼度ＳＣＲを含まないデータであって、且つ、認識対象物体が検出されなかった旨を示すデータである。

【0025】

図６を参照して推論ブロック２０［ｊ］の動作を説明する。推論ブロック２０［ｊ］に対する説明は、推論ブロック２０［１］～２０［ｍ］の夫々に対して適用されて良い。各々の物体検出器３０にて物体検出処理が行われるのであるが、その検出結果は常に正しいとは限らない。そこで、推論ブロック２０［ｊ］において、統合部４０は、物体検出器３０［１］～３０［ｎ］から出力される計ｎ個の物体検出データを統合する統合処理を実行し、統合処理の結果を推論結果データとして生成及び出力する。統合処理の詳細は後に説明されるが、典型的に例えば、物体検出器３０［１］～３０［ｎ］から出力される計ｎ個の物体検出データの内、最大の信頼度ＳＣＲに対応する物体検出データを推論結果データにて採用することができる。

【0026】

各々の推論ブロック２０は入力画像ＩＮに対して推論処理を行う。入力画像ＩＮに対する推論処理では、入力画像ＩＮにおける認識対象物体を認識するための推論が行われる。当該推論の結果を表すデータが推論結果データである。推論とは、機械学習を経て得られた物体検出用の学習済みモデル（即ち各物体検出器３０の画像認識モデル）に入力画像ＩＮを入力することで、入力画像ＩＮ内の認識対象物体を検出及び推定することを指す。

【0027】

１つの推論ブロック２０［ｊ］にて実行される推論処理は、推論ブロック２０［ｊ］内の物体検出器３０［１］～３０［ｎ］による物体検出処理（ｎ回分の物体検出処理）と、推論ブロック２０［ｊ］内の統合部４０による統合処理と、を含む。即ち、データ処理装置１では推論ブロック２０［１］～２０［ｍ］の夫々で推論処理が実行される。そして、推論処理ごとに、物体検出器３０［１］～３０［ｎ］による物体検出処理（ｎ回分の物体検出処理）と、推論結果データを生成する統合処理と、が実行される。推論結果データを生成する統合処理は、物体検出器３０［１］～３０［ｎ］による物体検出処理の結果（即ち物体検出器３０［１］～３０［ｎ］の夫々にて生成される物体検出データ）に基づいて実行される。

【0028】

推論ブロック２０［ｊ］において、推論結果データは、統合推論領域内の物体の種類を示すクラスデータと、統合推論領域の位置及び形状を特定する位置形状データと、を含む（図６参照）。統合推論領域は入力画像ＩＮ内の領域である。推論ブロック２０［ｊ］において、推論処理により認識対象物体が存在する領域が特定され、特定された領域が統合推論領域に相当する。統合部４０が統合処理の中で統合推論領域を設定する。

【0029】

図７を参照し、物体検出器３０にて設定される物体検出領域と統合部４０により設定される統合推論領域との関係を説明する。推論ブロック２０［ｊ］において、１枚の入力画像ＩＮにおける任意の１つの物体ＯＢＪに対し物体検出器３０［１］～３０［ｎ］により最大で計ｎ個の物体検出領域が設定される。但し、物体ＯＢＪは推論ブロック２０［ｊ］における認識対象物体であるとする。図７の例では２つの領域６２１及び６２２が物体ＯＢＪに対する物体検出領域として設定される。設定された各物体検出領域は統合推論領域の候補として機能し、統合部４０は何れかの候補を統合推論領域として採用することができる。図７の例では、物体検出領域６２１が統合推論領域６２６として採用されている。

【0030】

推論ブロック２０［ｊ］において物体検出領域６２１が統合推論領域６２６として採用されたとき、物体検出領域６２１を設定した物体検出器３０からの物体検出データに基づき推論結果データが生成される。即ち例えば、推論ブロック２０［ｊ］において、物体検出器３０［１］が物体検出領域６２１を設定した場合、物体検出器３０［１］からの物体検出データ中のクラスデータＣＬＳ及び位置形状データＰＰ（図４参照）が、統合部４０からの推論結果データ中のクラスデータ及び位置形状データとなる。この際、物体検出器３０［１］からの物体検出データ中の信頼度ＳＣＲも推論結果データに含まれるようにして良い。

【0031】

データ格納部５０に対して推論ブロック２０［１］～２０［ｍ］からの推論結果データが入力される（図１参照）。推論ブロック２０［１］～２０［ｍ］からの推論結果データは、詳細には、推論ブロック２０［１］～２０［ｍ］における統合部４０からの推論結果データである。データ格納部５０は、推論ブロック２０［１］～２０［ｍ］からの推論結果データに基づき学習用データセットＤＳを生成し、学習用データセットＤＳをデータベースＤＢに格納させる。

【0032】

大量枚数の入力画像ＩＮ（例えば１０万枚の入力画像ＩＮ）が用意され、各入力画像ＩＮに基づく推論結果データを入力画像ＩＮに対応付けてデータベースＤＢに次々と追加してゆくことにより、学習用データセットＤＳが生成される。

【0033】

図８にデータ処理装置１の動作フローチャートを示す。まずステップＳ１において、データ処理装置１（後述の演算処理部２；図１０参照）にて管理される変数ｐに“１”が代入される。その後、ステップＳ２、Ｓ３、Ｓ４、Ｓ５の処理が、この順番で順次実行される。ステップＳ２において、画像取得部１０にて入力画像ＩＮが取得される。第ｐ番目に取得される入力画像ＩＮを入力画像ＩＮ［ｐ］と称する。ステップＳ３において、データ処理装置１内の各物体検出器３０にて入力画像ＩＮ［ｐ］に対する物体検出処理が実行されて物体検出データが生成される。ステップＳ４において、推論ブロック２０ごとに統合部４０による統合処理が実行される。これにより、推論ブロック２０ごとに、物体検出器３０［１］～３０［ｎ］から出力される計ｎ個の物体検出データが統合されて推論結果データが生成される。

【0034】

ステップＳ５において、データ格納部５０は、入力画像ＩＮ［ｐ］と各推論結果データとに基づく単位データセットを生成する。入力画像ＩＮ［ｐ］に基づく単位データセットを単位データセットＵ＿ＤＳ［ｐ］と称する。ステップＳ５において、データ格納部５０は、単位データセットＵ＿ＤＳ［ｐ］をデータベースＤＢに格納することにより、単位データセットＵ＿ＤＳ［ｐ］を学習用データセットＤＳの一部として学習用データセットＤＳに追加する。任意の単位データセットを学習用データセットＤＳに追加することにより、学習用データセットＤＳの情報量が増加する態様で、学習用データセットＤＳが更新される。

【0035】

単位データセットＵ＿ＤＳ［ｐ］は、入力画像ＩＮ［ｐ］の画像データと、入力画像ＩＮ［ｐ］に対するアノテーション情報と、を含んだデータセットである。入力画像ＩＮ［ｐ］に対するアノテーション情報は、入力画像ＩＮ［ｐ］に基づいて生成された各推論結果データに応じた情報である。入力画像ＩＮ［ｐ］に対するアノテーション情報は、入力画像ＩＮ［ｐ］内に存在する認識対象物体ごとに、当該認識対象物体の種類を示すクラスアノテーション情報と、入力画像ＩＮ［ｐ］において認識対象物体が存在する領域の位置及び形状を特定する領域アノテーション情報と、を含む。推論結果データにおけるクラスデータがクラスアノテーション情報として用いられ、推論結果データにおける位置形状データが領域アノテーション情報として用いられる。

【0036】

図９に入力画像ＩＮ［ｐ］の例として入力画像６３０を示す。入力画像６３０には車両６３２の像、人物６３４の像及び信号機６３６の像が含まれている。１又は複数の物体検出器３０の認識対象物体に車両、人物及び信号機が含まれているものとする。この場合、入力画像６３０に対するアノテーション情報は、第１物体のアノテーション情報と、第２物体のアノテーション情報と、第３物体のアノテーション情報とを含む。入力画像６３０に関する第１物体、第２物体、第３物体は、夫々、車両６３２、人物６３４、信号機６３６である。

【0037】

入力画像６３０に関し、第１物体のアノテーション情報は、第１物体の種類が車両であること示すクラスアノテーション情報と、入力画像６３０において第１物体（即ち車両６３２）が存在する領域６３３の位置及び形状を特定する領域アノテーション情報と、を含む。領域６３３は、何れかの推論ブロック２０により設定された、第１物体（即ち車両６３２）の統合推論領域である。入力画像６３０に関し、第２物体のアノテーション情報は、第２物体の種類が人物であること示すクラスアノテーション情報と、入力画像６３０において第２物体（即ち人物６３４）が存在する領域６３５の位置及び形状を特定する領域アノテーション情報と、を含む。領域６３５は、何れかの推論ブロック２０により設定された、第２物体（即ち人物６３４）の統合推論領域である。入力画像６３０に関し、第３物体のアノテーション情報は、第３物体の種類が信号機であること示すクラスアノテーション情報と、入力画像６３０において第３物体（即ち信号機６３６）が存在する領域６３７の位置及び形状を特定する領域アノテーション情報と、を含む。領域６３７は、何れかの推論ブロック２０により設定された、第３物体（即ち信号機６３６）の統合推論領域である。

【0038】

ステップＳ５に続くステップＳ６において、データ処理装置１（後述の演算処理部２）は所定の終了条件の成否を判断する。例えば、変数ｐが所定値（例えば１０００００）に達することで終了条件が成立する。或いは例えば、後述のインターフェース４（図９参照）を通じてデータ処理装置１に対し所定の終了指示信号が入力されたときに終了条件が成立する。終了条件が成立している場合（ステップＳ６のＹ）、図８の動作が終了する。終了条件が不成立の場合（ステップＳ６のＮ）、ステップＳ７にて変数ｐに１が加算されてからステップＳ２に戻り、ステップＳ２及びそれ以降の各ステップの処理が繰り返される。

【0039】

例えば、“ｐ＝１０００００”の成立によって終了条件が成立する場合には、入力画像ＩＮ［１］～ＩＮ［１０００００］に対応する単位データセットＵ＿ＤＳ［１］～Ｕ＿ＤＳ［１０００００］が学習用データセットＤＳに含められた状態で、図８の動作が終了する。

【0040】

図８の動作を経て得られる学習用データセットＤＳは、機械学習により物体検出用の推論モデルを構築するためのデータセットである。ここにおける推論モデルは、各物体検出器３０における画像認識モデルとは別のモデルである。ディープニューラルネットワークを、学習用データセットＤＳを用いた教師あり機械学習にて学習させることで、物体検出が可能な推論モデルが構築される。

【0041】

尚、推論ブロック２０［ｊ］において特定データが推論結果データに設定されて、特定データが推論結果データとして出力されることがある。特定データは各物体検出器３０からの物体検出データに依存しない固定データであって、予め定められる。以下では、特定データを有する推論結果データ（即ち、特定データに設定された推論結果データ）を、“０”の推論結果データと称する。“０”の推論結果データは、統合推論領域のクラスデータ及び位置形状データを含まないデータであって、且つ、推論処理により認識対象物体が検出されなかった旨を示すデータである。“０”の推論結果データは有意なデータではない。入力画像ＩＮ［ｐ］について推論ブロック２０［ｊ］から“０”の推論結果データが出力されたとき、“０”の推論結果データは単位データセットＵ＿ＤＳ［ｐ］に含められず、結果、推論ブロック２０［ｊ］の推論結果は学習用データセットＤＳに反映されない。

【0042】

図１０はデータ処理装置１の構成ブロック図である。データ処理装置１は、ハードウェア資源として、演算処理部２、メモリ３、インターフェース４及びデータベースＤＢを備える。但し、上述したように、データベースＤＢはデータ処理装置１の外部に設けられるものであっても良い。データ処理装置１は１又は複数のコンピュータ装置にて構成される。クラウトコンピューティングを用いてデータ処理装置１を実現しても良い。

【0043】

演算処理部２は、ＭＰＵ（Micro Processing Unit）及びＧＰＵ（Graphics Processing Unit）等を含み、所望の演算を実行する。メモリ３は、ＲＯＭ（Read only memory）及びフラッシュメモリ等の不揮発性記録媒体、及び、ＲＡＭ等の揮発性記録媒体を含む。上述の各推論ブロック２０の機能及びデータ格納部５０の機能は、演算処理部２により実現される機能である。換言すれば、各推論ブロック２０及びデータ格納部５０は演算処理部２に設けられる機能ブロックである。演算処理部２においてメモリ３に格納されたプログラムを実行することで、推論ブロック２０及びデータ格納部５０が構成されても良い。メモリ３の一部又は全部は演算処理部２に設けられると解しても良い。

【0044】

インターフェース４は、データ処理装置１とは異なる装置である外部装置（不図示）と、データ処理装置１とのインターフェースを含む。データ処理装置１はインターフェース４を通じて外部装置との双方向通信を実現する。外部装置及びデータ処理装置１は所定の通信網を介して互いに接続されるものであっても良く、この場合、インターフェース４を通じて通信網との接続が確立される。ここにおける通信網は、インターネット、無線ＬＡＮ（Local Area Network）及び近距離無線通信回線の内、全部又は一部を含む。無線ＬＡＮは、例えばＷｉ－Ｆｉ（登録商標）に準拠したものであって良い。近距離無線通信回線は、例えばBluetooth（登録商標）に準拠したものであって良い。上述の入力画像ＩＮはインターフェース４を通じて外部装置からデータ処理装置１に供給されるものであって良い。

【0045】

インターフェース４は、更に、データ処理装置１の操作者とデータ処理装置１とのマンマシンインターフェースを含む。マンマシンインターフェースは、スピーカ及び表示装置を含むと共に、操作者からの操作を受け付ける操作部（キーボード及びポインティングデバイス等）を含む。

【0046】

データ処理装置１に設けられる物体検出器３０は、全てシングルクラスの物体検出器であるか、或いは、全てマルチクラスの物体検出器である。但し、データ処理装置１に設けられる物体検出器３０の中に、シングルクラスの物体検出器とマルチクラスの物体検出器とが混在していても良い。

【0047】

シングルクラスの物体検出器とは、単一種類の物体を認識対象物体として物体検出処理を行う物体検出器である。即ち、シングルクラスの物体検出器における認識対象物体は１つの種類の物体のみを含み、シングルクラスの物体検出器は１つの種類の物体のみの認識及び検出が可能である。用語“シングルクラス”は、物体検出処理及び画像認識モデルにも適用される。即ち、シングルクラスの物体検出器による物体検出処理はシングルクラスの物体検出処理であり、シングルクラスの物体検出処理は単一種類の物体を認識対象物体とする物体検出処理である。同様に、シングルクラスの物体検出器における画像認識モデルはシングルクラスの画像認識モデルであり、シングルクラスの画像認識モデルでは単一種類の物体を認識対象物体として画像認識（物体検出）を行う。

【0048】

例えば、注目物体検出器３０が車両を認識対象物体とするシングルクラスの物体検出器である場合において、注目物体検出器３０が図９の入力画像６３０に対して物体検出処理を行うことを想定する。この場合には、注目物体検出器３０により、入力画像６３０において車両６３２のみが認識及び検出されて、車両６３２についての物体検出データのみが注目物体検出器３０から出力される。或いは例えば、注目物体検出器３０が人物を認識対象物体とするシングルクラスの物体検出器である場合において、注目物体検出器３０が図９の入力画像６３０に対して物体検出処理を行うことを想定する。この場合には、注目物体検出器３０により、入力画像６３０において人物６３４のみが認識及び検出されて、人物６３４についての物体検出データのみが注目物体検出器３０から出力される。

【0049】

マルチクラスの物体検出器とは、複数種類の物体を認識対象物体として物体検出処理を行う物体検出器である。即ち、マルチクラスの物体検出器における認識対象物体は複数種類の物体を含み、マルチクラスの物体検出器は複数種類の物体の認識及び検出が可能である。用語“マルチクラス”は、物体検出処理及び画像認識モデルにも適用される。即ち、マルチクラスの物体検出器による物体検出処理はマルチクラスの物体検出処理であり、マルチクラスの物体検出処理は複数種類の物体を認識対象物体とする物体検出処理である。同様に、マルチクラスの物体検出器における画像認識モデルはマルチクラスの画像認識モデルであり、マルチクラスの画像認識モデルでは複数種類の物体を認識対象物体として画像認識（物体検出）を行う。

【0050】

例えば、注目物体検出器３０がマルチクラスの物体検出器であって且つ注目物体検出器３０の認識対象物体に車両及び人物が含まれる場合において、注目物体検出器３０が図９の入力画像６３０に対して物体検出処理を行うことを想定する。この場合には、注目物体検出器３０により、入力画像６３０において車両６３２及び人物６３４が認識及び検出されて、車両６３２についての物体検出データと人物６３４についての物体検出データとが注目物体検出器３０から出力される。注目物体検出器３０がマルチクラスの物体検出器であって且つ注目物体検出器３０の認識対象物体に３種類以上の物体（例えば車両、人物及び信号機）が含まれる場合も同様である。

【0051】

［シングルクラス構成］
データ処理装置１に設けられる物体検出器３０が全てシングルクラスの物体検出器である構成を、便宜上、シングルクラス構成と称する。即ち、シングルクラス構成では、データ処理装置１内の物体検出器３０にて実行される物体検出処理が全てシングルクラスの物体検出処理である。

【0052】

シングルクラス構成では、推論ブロック２０ごとに認識対象物体の種類が設定され、任意の２つの推論ブロック２０間において認識対象物体の種類は互いに異なる。シングルクラス構成において、１つの推論ブロック２０に含まれる全物体検出器３０の認識対象物体の種類は互いに同じである（即ち、１つの推論ブロック２０で実行される全物体検出処理の認識対象物体の種類は互いに同じである）。例えば、シングルクラス構成において“ｍ＝３”である場合、推論ブロック２０［１］における全物体検出器３０の認識対象物体は車両であり、推論ブロック２０［２］における全物体検出器３０の認識対象物体は人物であり、推論ブロック２０［３］における全物体検出器３０の認識対象物体は信号機である。

【0053】

［マルチクラス構成］
データ処理装置１に設けられる物体検出器３０が全てマルチクラスの物体検出器である構成を、便宜上、マルチクラス構成と称する。即ち、マルチクラス構成では、データ処理装置１内の物体検出器３０にて実行される物体検出処理が全てマルチクラスの物体検出処理である。

【0054】

マルチクラス構成では、推論ブロック２０ごとに認識対象物体の種類が複数設定される。マルチクラス構成においては特に“ｍ＝１”であっても良い。マルチクラス構成において、１つの推論ブロック２０に含まれる全物体検出器３０の認識対象物体は互いに同じである（即ち、１つの推論ブロック２０で実行される全物体検出処理の認識対象物体の種類は互いに同じである）。例えば、マルチクラス構成において、推論ブロック２０［１］内における物体検出器３０［１］の認識対象物体の種類が車両及び人物の２種類であるとき、推論ブロック２０［１］内における他の物体検出器３０（３０［２］～３０［ｎ］）の認識対象物体の種類も車両及び人物の２種類である。マルチクラス構成において“ｍ≧２”である場合には、任意の２つの推論ブロック２０間において認識対象物体の種類は互いに異なっていて良い。

【0055】

［画像認識モデルの相違］
各推論ブロック２０において、物体検出器３０［１］～３０［ｎ］における画像認識モデルを、夫々、第１～第ｎ画像認識モデルと称する。各推論ブロック２０において、第１～第ｎ画像認識モデルは互いに異なる画像認識モデルである。その結果、第１～第ｎ画像認識モデル間で認識対象物体に対する認識性能等が異なり、故に、同一の入力画像ＩＮに対する物体検出処理の結果は物体検出器３０［１］～３０［ｎ］間で異なり得る。

【0056】

例えば、第１～第ｎ画像認識モデル間において認識対象物体を検出（認識）するためのアルゴリズムが互いに異なる。より具体的には例えば、第１画像認識モデルは１ステージ型の検出アルゴリズムを採用し、第２画像認識モデルは２ステージ型の検出アルゴリズムを採用する。２ステージ型の検出アルゴリズムでは、物体検出処理が第１段階処理と第２段階処理とで構成され、第１段階処理を経てから第２段階処理を行うことで物体検出データを導出する。第１段階処理では、入力画像ＩＮ内で何らかの物体が存在していると推定される領域の候補を１以上抽出する。その後、第２段階処理において、抽出された候補の領域に認識対象物体が存在しているかを判断することで物体検出データを生成する。１ステージ型の検出アルゴリズムでは、第１及び第２段階処理を包含する処理を一度に実行することで物体検出データを生成する。但し、ここで述べた第１及び第２段階処理の内容は例に過ぎない。２ステージ型の検出アルゴリズムは、Ｒ－ＣＮＮ（Regions with Convolutional Neural Networks）における２段階検出アルゴリズムに相当していて良い。

【0057】

各画像認識モデルはニューラルネットワークにより形成される。ニューラルネットワークはディープニューラルネットワークに分類されるものであって良い。例えば、第１～第ｎ画像認識モデル間においてニューラルネットワークの構成が互いに相違していても良い。より具体的には例えば、第１画像認識モデルにおけるニューラルネットワークと第２画像認識モデルにおけるニューラルネットワークとで、ニューラルネットワークに含まれる層の数及びノードの数が、互いに相違していても良い。第１及び第２画像認識モデルの組み合わせ以外の、任意の組み合わせについても同様である。

【0058】

第１～第ｎ画像認識モデルは互いに異なる環境の機械学習により形成された画像認識モデルであって良い。例えば、第１画像認識モデルは、既存の第１学習用データセットを用いた第１機械学習（教師あり機械学習）により形成された学習済みモデルであって良い。この場合、第２画像認識モデルは、既存の第２学習用データセットを用いた第２機械学習（教師あり機械学習）により形成された学習済みモデルであって良い。ここで、第１学習用データセットと第２学習用データセットは互いに異なり、学習用データセットＤＳの作成前から存在する学習用データセットである。第３～第ｎ画像認識モデルも同様である。

【0059】

第１及び第２学習用データセットは、夫々に、複数の学習用画像（即ち複数の学習用画像の画像データ）と各学習用画像に対するアノテーション情報を含む。アノテーション情報は教師データに相当する。教師データは機械学習の中で参照される正解データを示す。

【0060】

具体例として、既存の第１学習用データセットにおける各学習用画像は昼間において認識対象物体を撮影した画像であって、既存の第２学習用データセットにおける各学習用画像は夜間において認識対象物体を撮影した画像であって良い。この場合、第１学習用データセットに基づく第１画像認識モデルは、入力画像ＩＮが認識対象物体を昼間に撮影した画像であるときに高い認識性能を発揮すると期待される。一方で、第２学習用データセットに基づく第２画像認識モデルは、入力画像ＩＮが認識対象物体を夜間に撮影した画像であるときに高い認識性能を発揮すると期待される。認識対象物体が車両である場合において、昼間の車両の見え方（画像データ）と夜間の車両の見え方（画像データ）とは、周囲の明るさの相違及びヘッドライトの点灯有無の相違等により、大きく異なる。

【0061】

［重なり度合い（ＩｏＵ）］
各推論ブロック２０において、１枚の入力画像ＩＮに対し複数の物体検出器３０の夫々にて物体検出領域が設定されたとき、統合部４０は、それら複数の物体検出器３０にて設定された複数の物体検出領域の重なり度合いを導出できる。具体的には、統合部４０は、複数の物体検出領域の重なり度合いを表す指標としてＩｏＵ（Intersection over Union）を導出する。但し、指標ＩｏＵは、複数の物体検出領域間でクラスデータが一致している場合のみ導出される。尚、本明細書において、表現“複数の物体検出領域の指標ＩｏＵ”と表現“複数の物体検出領域間の指標ＩｏＵ”は同義である。

【0062】

図１１を参照して指標ＩｏＵを説明する。図１１において符号“６４０”は１枚の入力画像ＩＮを表す。任意の１つの推論ブロック２０［ｊ］において、物体検出器３０［１］により入力画像６４０に対して物体検出領域６４１が設定され、且つ、物体検出器３０［２］により入力画像６４０に対して物体検出領域６４２が設定された場合を考える。物体検出領域６４１及び６４２は単一の物体に対する物体検出領域であり、物体検出領域６４１及び６４２間でクラスデータは一致しているものとする。

【0063】

この際、物体検出領域６４１及び６４２の指標ＩｏＵは“ＩｏＵ＝Ｓ_Ｉ［６４１：６４２］／Ｓ_Ｕ［６４１：６４２］”で表される。ここで、Ｓ_Ｉ［６４１：６４２］は物体検出領域６４１及び６４２の積集合の面積を表す。即ち、Ｓ_Ｉ［６４１：６４２］は物体検出領域６４１及び６４２が重なり合う領域（図１１の斜線領域に相当）の面積を表す。Ｓ_Ｕ［６４１：６４２］は物体検出領域６４１及び６４２の和集合の面積を表す。即ち、Ｓ_Ｕ［６４１：６４２］は、物体検出領域６４１及び６４２が重なり合う領域（図１１の斜線領域に相当）の面積と、物体検出領域６４１のみに内包される領域の面積と、物体検出領域６４２のみに内包される領域の面積と、の総和を表す。画像上における任意の領域の面積は、当該領域に属する画素の総数で表される。尚、画像における物体の画像サイズも、当該物体の像が存在する領域の面積で表される。

【0064】

３以上の物体検出領域に対しても指標ＩｏＵを導出できる。今、任意の１つの推論ブロック２０［ｊ］における任意の２以上の物体検出器３０を第１～第ｎ_Ａ物体検出器３０と称する。そして、１枚の入力画像ＩＮである注目入力画像に対し第１～第ｎ_Ａ物体検出器３０が夫々に物体検出処理を行うことにより、第１～第ｎ_Ａ物体検出器３０にて夫々第１～第ｎ_Ａ物体検出領域が設定されたとする。ｎ_Ａは２以上且つｎ以下の任意の整数である。推論ブロック２０［ｊ］において、統合部４０は、第１～第ｎ_Ａ物体検出領域間でクラスデータが一致している場合にのみ第１～第ｎ_Ａ物体検出領域の重なり度合いとして、第１～第ｎ_Ａ物体検出領域の指標ＩｏＵを導出する。

【0065】

第１～第ｎ_Ａ物体検出領域間でクラスデータが一致しているとは、第１物体検出器３０が第１物体検出領域内に存在していると判断した物体の種類と、第２物体検出器３０が第２物体検出領域内に存在していると判断した物体の種類と、・・・、第ｎ_Ａ物体検出器３０が第ｎ_Ａ物体検出領域内に存在していると判断した物体の種類と、が全て一致していることを意味する。以下では、第１～第ｎ_Ａ物体検出領域間でクラスデータが一致していることを、第１～第ｎ_Ａ物体検出領域に対するクラスデータの一致、若しくは、第１～第ｎ_Ａ物体検出領域についてのクラスデータの一致、又は、それに類する記載で表現することがある。

【0066】

また、第１物体検出器３０が第１物体検出領域内に存在していると判断した物体の種類と、第２物体検出器３０が第２物体検出領域内に存在していると判断した物体の種類と、・・・、第ｎ_Ａ物体検出器３０が第ｎ_Ａ物体検出領域内に存在していると判断した物体の種類と、が２以上の種類を含んでいるとき、第１～第ｎ_Ａ物体検出領域間でクラスデータが不一致であると表現する。第１～第ｎ_Ａ物体検出領域間でクラスデータが不一致であることを、第１～第ｎ_Ａ物体検出領域に対するクラスデータの不一致、若しくは、第１～第ｎ_Ａ物体検出領域についてのクラスデータの不一致、又は、それに類する記載で表現することがある。

【0067】

シングルクラス構成では、１つの推論ブロック２０［ｊ］に含まれる全物体検出器３０の認識対象物体の種類は互いに同じである。従って、１つの推論ブロック２０［ｊ］における複数の物体検出器３０の夫々で物体検出領域が設定されたとき、複数の物体検出器３０により設定された複数の物体検出領域間でクラスデータは常に一致する。マルチクラス構成では、１つの推論ブロック２０［ｊ］における複数の物体検出器３０の夫々で物体検出領域が設定されたとき、複数の物体検出器３０により設定された複数の物体検出領域間でクラスデータは一致するときもあるし、不一致となることもある。

【0068】

第１～第ｎ_Ａ物体検出領域の指標ＩｏＵは“ＩｏＵ＝Ｓ_Ｉ／Ｓ_Ｕ”で表される。ここで、Ｓ_Ｉは第１～第ｎ_Ａ物体検出領域の積集合の面積を表す。即ち、Ｓ_Ｉは第１～第ｎ_Ａ物体検出領域が全て重なり合う部分の面積を表す。Ｓ_Ｉは第１～第ｎ_Ａ物体検出領域の和集合の面積を表す。即ち、Ｓ_Ｉは第１～第ｎ_Ａ物体検出領域の内、少なくとも１つの物体検出領域に内包される領域の面積の総和を表す。

【0069】

［参考方法］
アノテーション情報を有する学習用データセットを用いて機械学習を行う方法がある。アノテーション情報は所謂教師データに相当する。教師データは機械学習の中で参照される正解データを示す。

【0070】

学習用データセットにおいてはデータの量と質が重要となる。第１参考方法では、人手による作業で大量の入力画像に対する教師データを作成し、これによって学習用データセットを作成する。但し、第１参考方法では多くの人の作業と時間を要する。

【0071】

高い検出能力を持つ大規模且つ高性能ＡＩ（人工知能）の推論結果を用いて教師データを作成する第２参考方法もある。但し、大規模且つ高性能ＡＩでも誤検出又は未検出が発生し、その結果を利用すると、誤りのある学習用データセット（換言すれば、誤りのある教師データ）が生成されることになる。

【0072】

尚、ＡＩは、破壊的忘却の仕組みの下、機械学習を経て生成される。このため、基本的には検出の対象ごとにＡＩを作り直す必要がある。即ち例えば、車両と人物を物体検出の対象とする第１ＡＩが既にある場合、第１ＡＩを用いれば、車両と人物の画像認識が可能となると共に、車両と人物の物体検出用の教師データを作成できる。この場合において、車両と人物に加えて、信号機の認識が必要になった場合、破壊的忘却の仕組みの下、車両と人物と信号機を物体検出の対象とする第２ＡＩを改めて作成する必要がある（第１ＡＩを基礎に第１ＡＩを拡張して第２ＡＩを作成するといったことはできない）。

【0073】

以下、データ処理装置１に関わる詳細な実施形態として第１～第４実施形態を説明する。第１～第４実施形態は上述の基本実施形態を基礎とする実施形態であり、第１～第４実施形態において特に述べない事項に関しては、矛盾の無い限り、基本実施形態の記載（即ち上述された各事項）が第１～第４実施形態にも適用される。但し、第１実施形態の記載を解釈するにあたり、基本実施形態及び第１実施形態間で矛盾する事項については第１実施形態の記載が優先されて良い（後述の第２～第４実施形態についても同様）。矛盾の無い限り、第１～第４実施形態の内、任意の複数の実施形態を組み合わせても良い。

【0074】

＜＜第１実施形態＞＞
本発明の第１実施形態を説明する。第１実施形態では、基本実施形態にて上述したデータ処理装置１の構成をそのまま利用できる。第１実施形態では、同一の物体に対して検出アルゴリズム等が異なる複数の画像認識モデルを適用し、それらの結果を統合する。

【0075】

第１実施形態は、以下の実施例ＥＸ１＿１～ＥＸ１＿５を含む。実施例ＥＸ１＿１～ＥＸ１＿５にて第１実施形態に関わる具体的な動作等を説明する。矛盾無き限り、実施例ＥＸ１＿１～ＥＸ１＿５の内、任意の実施例に記載した事項を、他の任意の実施例に適用することもできる（即ち複数の実施例の内の任意の２以上の実施例を組み合わせることも可能である）。

【0076】

［実施例ＥＸ１＿１］
実施例ＥＸ１＿１を説明する。実施例ＥＸ１＿１は、第１実施形態に関わる技術を具体化した典型的な実施例に相当する。図１２に、実施例ＥＸ１＿１に係るデータ処理装置１の要部の機能ブロック図を示す。実施例ＥＸ１＿１では、“ｍ＝２”であって、且つ、各推論ブロック２０において“ｎ＝２”であるとする（図１及び図１２参照）。また、実施例ＥＸ１＿１では、シングルクラス構成が採用される。

【0077】

実施例ＥＸ１＿１に係る推論ブロック２０［１］において、物体検出器３０［１］における画像認識モデルは車両用モデル１３１［１，１］であり、物体検出器３０［２］における画像認識モデルは車両用モデル１３１［１，２］である。実施例ＥＸ１＿１に係る推論ブロック２０［２］において、物体検出器３０［１］における画像認識モデルは人物用モデル１３１［２，１］であり、物体検出器３０［２］における画像認識モデルは人物用モデル１３１［２，２］である。

【0078】

車両用モデル（ここでは、１３１［１，１］、１３１［１，２］）とは、車両のみを認識対象物体とするシングルクラスの画像認識モデルを指す。故に、実施例ＥＸ１＿１に係る推論ブロック２０［１］において、物体検出器３０［１］及び３０［２］は、車両のみを認識対象物体とするシングルクラスの物体検出器である。人物用モデル（ここでは、１３１［２，１］、１３１［２，２］）とは、人物のみを認識対象物体とするシングルクラスの画像認識モデルを指す。故に、実施例ＥＸ１＿１に係る推論ブロック２０［２］において、物体検出器３０［１］及び３０［２］は、人物のみを認識対象物体とするシングルクラスの物体検出器である。

【0079】

図１３に１枚の入力画像ＩＮ［ｐ］の例である入力画像１１１０を示す。入力画像１１１０には車両１１１２の像と人物１１１４の像が含まれている。入力画像１１１０に対する図１２の各部の動作を説明する。

【0080】

推論ブロック２０［１］において、物体検出器３０［１］は入力画像１１１０に対し車両用モデル１３１［１，１］を用いた物体検出処理を行うことにより物体検出データ１３２［１，１］を生成及び出力する。
推論ブロック２０［１］において、物体検出器３０［２］は入力画像１１１０に対し車両用モデル１３１［１，２］を用いた物体検出処理を行うことにより物体検出データ１３２［１，２］を生成及び出力する。
推論ブロック２０［２］において、物体検出器３０［１］は入力画像１１１０に対し人物用モデル１３１［２，１］を用いた物体検出処理を行うことにより物体検出データ１３２［２，１］を生成及び出力する。
推論ブロック２０［２］において、物体検出器３０［２］は入力画像１１１０に対し人物用モデル１３１［２，２］を用いた物体検出処理を行うことにより物体検出データ１３２［２，２］を生成及び出力する。

【0081】

推論ブロック２０［１］において、統合部４０は、物体検出データ１３２［１，１］及び１３２［１，２］に基づいて推論結果データ１３３［１］を生成及び出力する。
推論ブロック２０［２］において、統合部４０は、物体検出データ１３２［２，１］及び１３２［２，２］に基づいて推論結果データ１３３［２］を生成及び出力する。

【0082】

データ格納部５０は、入力画像７１０と推論結果データ１３３［１］及び１３３［２］とに基づく単位データセット１３４を生成する。データ格納部５０は、単位データセット１３４をデータベースＤＢに格納することにより、単位データセット１３４を学習用データセットＤＳの一部として学習用データセットＤＳに追加する。

【0083】

図１４を参照し、符号１１１３＿１が付された破線矩形内領域は、推論ブロック２０［１］の物体検出器３０［１］により設定された（即ち車両用モデル１３１［１，１］により設定された）物体検出領域である。符号１１１３＿２が付された破線矩形内領域は、推論ブロック２０［１］の物体検出器３０［２］により設定された（即ち車両用モデル１３１［１，２］により設定された）物体検出領域である。符号１１１５＿１が付された破線矩形内領域は、推論ブロック２０［２］の物体検出器３０［１］により設定された（即ち人物用モデル１３１［２，１］により設定された）物体検出領域である。符号１１１５＿２が付された破線矩形内領域は、推論ブロック２０［２］の物体検出器３０［２］により設定された（即ち人物用モデル１３１［２，２］により設定された）物体検出領域である。上述の如く、各推論ブロック２０では、２つの物体検出器３０により２つの物体検出領域が設定されるが、各物体検出領域は統合推論領域の候補として機能する（図７参照）。

【0084】

推論ブロック２０［１］において、統合部４０は物体検出領域１１１３＿１及び１１１３＿２間の指標ＩｏＵを指標ＩｏＵ_Ａ＿１として導出し、指標ＩｏＵ_Ａ＿１に応じた推論結果データ１３３［１］を生成する。推論ブロック２０［２］において、統合部４０は物体検出領域１１１５＿１及び１１１５＿２間の指標ＩｏＵを指標ＩｏＵ_Ａ＿２として導出し、指標ＩｏＵ_Ａ＿２に応じた推論結果データ１３３［２］を生成する。

【0085】

指標ＩｏＵ_Ａ＿１に基づく推論結果データ１３３［１］の生成方法及び推論結果データ１３３［１］と学習用データセットＤＳとの関係を説明する。推論ブロック２０［１］において、統合部４０は、物体検出データ１３２［１，１］における信頼度ＳＣＲ及び物体検出データ１３２［１，２］における信頼度ＳＣＲの内、高い方の信頼度ＳＣＲを特定し、高い方の信頼度ＳＣＲに対応する物体検出器３０を基準物体検出器３０に設定する。物体検出データ１３２［１，１］及び１３２［１，２］における信頼度ＳＣＲが一致している場合には、物体検出器３０［１］及び３０［２］の内、任意の一方又は予め定められた一方を基準物体検出器３０に設定する。

【0086】

推論ブロック２０［１］において、統合部４０は、指標ＩｏＵ_Ａ＿１を所定の重なり閾値ＩｏＵ_ＲＥＦと比較する。重なり閾値ＩｏＵ_ＲＥＦは０より大きく且つ１未満の値（例えば０．８）を持つ。指標ＩｏＵ_Ａ＿１が重なり閾値ＩｏＵ_ＲＥＦ以上であるケースを、便宜上、ケースＣＳ_Ａ１１と称する。ケースＣＳ_Ａ１１において、統合部４０は、基準物体検出器３０から出力される物体検出データを推論結果データ１３３［１］にて採用する。

【0087】

或る物体検出データを或る推論結果データに採用するとは、当該物体検出データ中のクラスデータＣＬＳ及び位置形状データＰＰを当該推論結果データ中のクラスデータ及び位置形状データに設定することを指す。従って、ケースＣＳ_Ａ１１において、統合部４０は、基準物体検出器３０からの物体検出データ中のクラスデータＣＬＳ及び位置形状データＰＰを、推論結果データ１３３［１］中のクラスデータ及び位置形状データに設定する。

【0088】

推論ブロック２０［１］において、統合部４０は、指標ＩｏＵ_Ａ＿１が重なり閾値ＩｏＵ_ＲＥＦ未満である場合、基準物体検出器３０の物体検出データ中の信頼度ＳＣＲを所定の基準信頼度ＳＣＲ_ＲＥＦと比較する。基準信頼度ＳＣＲ_ＲＥＦは０より大きく且つ１未満の値（例えば０．６）を持つ。指標ＩｏＵ_Ａ＿１が重なり閾値ＩｏＵ_ＲＥＦ未満であって且つ基準物体検出器３０の物体検出データ中の信頼度ＳＣＲが基準信頼度ＳＣＲ_ＲＥＦ以上であるケースを、便宜上、ケースＣＳ_Ａ１２と称する。ケースＣＳ_Ａ１２において、統合部４０は、基準物体検出器３０から出力される物体検出データを推論結果データ１３３［１］にて採用する。即ち、基準物体検出器３０からの物体検出データ中のクラスデータＣＬＳ及び位置形状データＰＰを、推論結果データ１３３［１］中のクラスデータ及び位置形状データに設定する。

【0089】

従って例えば、ケースＣＳ_Ａ１１又はＣＳ_Ａ１２において、推論ブロック２０［１］における物体検出器３０［１］が基準物体検出器３０に設定されたならば、物体検出データ１３２［１，１］中のクラスデータＣＬＳ及び位置形状データＰＰが、推論結果データ１３３［１］中のクラスデータ及び位置形状データに設定される。この場合、物体検出領域１１１３＿１が統合推論領域に設定される。そして、推論結果データ１３３［１］中のクラスデータは、統合推論領域（１１１３＿１）内の物体が車両であることを示すクラスアノテーション情報として入力画像１１１０に関する単位データセットに含められる。加えて、推論結果データ１３３［１］中の位置形状データは、統合推論領域（１１１３＿１）の位置及び形状を示す領域アノテーション情報として、入力画像１１１０に関する単位データセットに含められる（結果、学習用データセットＤＳに含められる）。

【0090】

逆に例えば、ケースＣＳ_Ａ１１又はＣＳ_Ａ１２において、推論ブロック２０［１］における物体検出器３０［２］が基準物体検出器３０に設定されたならば、物体検出データ１３２［１，２］中のクラスデータＣＬＳ及び位置形状データＰＰが、推論結果データ１３３［１］中のクラスデータ及び位置形状データに設定される。この場合、物体検出領域１１１３＿２が統合推論領域に設定される。そして、推論結果データ１３３［１］中のクラスデータは、統合推論領域（１１１３＿２）内の物体が車両であることを示すクラスアノテーション情報として入力画像１１１０に関する単位データセットに含められる。加えて、推論結果データ１３３［１］中の位置形状データは、統合推論領域（１１１３＿２）の位置及び形状を示す領域アノテーション情報として、入力画像１１１０に関する単位データセットに含められる（結果、学習用データセットＤＳに含められる）。

【0091】

指標ＩｏＵ_Ａ＿１が重なり閾値ＩｏＵ_ＲＥＦ未満であって且つ基準物体検出器３０の物体検出データ中の信頼度ＳＣＲが基準信頼度ＳＣＲ_ＲＥＦ未満であるケースを、便宜上、ケースＣＳ_Ａ１３と称する。ケースＣＳ_Ａ１３では、“０”の推論結果データ１３３［１］が統合部４０から出力される。ケースＣＳ_Ａ１３において、推論結果データ１３３［１］は入力画像１１１０に関する単位データセットに含められず（換言すれば入力画像１１１０に関する単位データセットから除外され）、結果、推論結果データ１３３［１］は学習用データセットＤＳに反映されない。

【0092】

尚、ケースＣＳ_Ａ１２において、ケースＣＳ_Ａ１３と同様に、推論ブロック２０［１］の統合部４０から“０”の推論結果データ１３３［１］が出力されるようにする変形も可能である。

【0093】

指標ＩｏＵ_Ａ＿１に基づく推論結果データ１３３［１］の生成方法及び推論結果データ１３３［１］と学習用データセットＤＳとの関係を説明したが、指標ＩｏＵ_Ａ＿２に基づく推論結果データ１３３［２］の生成方法及び推論結果データ１３３［２］と学習用データセットＤＳとの関係も同様である。

【0094】

図１５に、実施例ＥＸ１＿１に係るデータ処理装置１の動作フローチャートを示す。但し、図１５のステップＳ１１１～Ｓ１１７から成る単位処理は１つの推論ブロック２０［ｊ］において１枚の入力画像ＩＮ［ｐ］に対して実行される処理である（図８参照）。ステップＳ１１１～Ｓ１１７から成る単位処理は、データ処理装置１内の各推論ブロック２０にて実行され、且つ、入力画像ＩＮごとに実行される。

【0095】

まずステップＳ１１１において、推論ブロック２０［ｊ］内に物体検出器３０［１］及び３０［２］にて入力画像ＩＮ［ｐ］に対する物体検出処理が実行されることで２組分の物体検出データが生成される。ここでは、１枚の入力画像ＩＮ［ｐ］に対し各物体検出器３０にて１つずつ物体検出領域が設定されたと想定する。尚、推論ブロック２０［ｊ］において入力画像ＩＮ［ｐ］に対し一切の物体検出領域が設定されなかった場合には、以降の処理を行うことなく、入力画像ＩＮ［ｐ］に対する推論ブロック２０［ｊ］の動作を終える。

【0096】

ステップＳ１１１に続くステップＳ１１２では、推論ブロック２０［ｊ］において、統合部４０が、物体検出器３０［１］及び３０［２］にて導出（生成）された信頼度ＳＣＲに基づき、物体検出器３０［１］及び３０［２］の一方を基準物体検出器３０に設定する。基準物体検出器３０の設定方法は上述した通りであり、物体検出器３０［１］及び３０［２］の内、より大きな信頼度ＳＣＲを導出した物体検出器３０が基準物体検出器３０に設定される。基準物体検出器３０が導出した信頼度ＳＣＲ（即ち基準物体検出器３０から出力される物体検出データ中の信頼度ＳＣＲ）を記号“ＳＣＲ_ＭＡＸ”にて参照する。

【0097】

ステップＳ１１２に続くステップＳ１１３では、推論ブロック２０［ｊ］において、統合部４０が、物体検出器３０［１］及び３０［２］にて設定された２つの物体検出領域の指標ＩｏＵを導出する。続くステップＳ１１４において、推論ブロック２０［ｊ］の統合部４０は、導出した指標ＩｏＵが重なり閾値ＩｏＵ_ＲＥＦ以上であるかを判断する。そして、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立すれば（ステップＳ１１４のＹ）、ステップＳ１１５に進む一方、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立ならば（ステップＳ１１４のＮ）、ステップＳ１１６に進む。

【0098】

ステップＳ１１５では、推論ブロック２０［ｊ］において、統合部４０が、基準物体検出器３０から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器３０からの物体検出データ中のクラスデータＣＬＳ及び位置形状データＰＰを、統合部４０からの推論結果データ中のクラスデータ及び位置形状データに設定する。図１５では特に示されないが、ステップＳ１１５の後は、推論ブロック２０［ｊ］の統合部４０からの推論結果データに基づくアノテーション情報が入力画像ＩＮ［ｐ］に対するアノテーション情報として単位データセットＵ＿ＤＳ［ｐ］に含められた上で、当該単位データセットＵ＿ＤＳ［ｐ］が学習用データセットＤＳに追加される（図８参照）。

【0099】

ステップＳ１１６において、推論ブロック２０［ｊ］の統合部４０は、信頼度ＳＣＲ_ＭＡＸが基準信頼度ＳＣＲ_ＲＥＦ以上であるかを判断する。そして、“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が成立すれば（ステップＳ１１６のＹ）、ステップＳ１１５に移行して上述のステップＳ１１５の処理が行われる。“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が不成立ならば（ステップＳ１１６のＮ）、ステップＳ１１７に進む。

【0100】

ステップＳ１１７では、推論ブロック２０［ｊ］において、統合部４０が “０”の推論結果データを出力する。ステップＳ１１７に至るケースでは、推論ブロック２０［ｊ］の統合部４０からの推論結果データが入力画像ＩＮ［ｐ］に関する単位データセットＵ＿ＤＳ［ｐ］に含められず（換言すれば単位データセットＵ＿ＤＳ［ｐ］から除外され）、結果、学習用データセットＤＳに反映されない。即ち、ステップＳ１１７の処理は、ステップＳ１１１で生成した物体検出データを学習用データセットＤＳに反映させることなく、破棄することに相当する。

【0101】

“ＩｏＵ≧ＩｏＵ_ＲＥＦ”の成立によってステップＳ１１５に至るケースは、上述のケースＣＳ_Ａ１１に相当する。“ＩｏＵ＜ＩｏＵ_ＲＥＦ”且つ“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”の成立によってステップＳ１１５に至るケースは、上述のケースＣＳ_Ａ１２に相当する。“ＩｏＵ＜ＩｏＵ_ＲＥＦ”且つ“ＳＣＲ_ＭＡＸ＜ＳＣＲ_ＲＥＦ”の成立によってステップＳ１１７に至るケースは、上述のケースＣＳ_Ａ１３に相当する。

【0102】

尚、図１５の動作フローチャートからステップＳ１１６の処理を削除する変形を施しても良い。図１６に、当該変形が施された動作フローチャートを示す。当該変形が行われたとき、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立の場合には、ステップＳ１１４から常にステップＳ１１７に進む。

【0103】

【0104】

［実施例ＥＸ１＿２］
実施例ＥＸ１＿２を説明する。実施例ＥＸ１＿１では“ｎ＝２”が想定されているが、上述したようにｎの値は２以上であれば任意である。実施例ＥＸ１＿２では、実施例ＥＸ１＿１にて示した技術を一般化する。実施例ＥＸ１＿２ではシングルクラス構成が採用される。

【0105】

図１７に、実施例ＥＸ１＿２に係るデータ処理装置１の動作フローチャートを示す。但し、図１７のステップＳ１２１～Ｓ１２７から成る単位処理は１つの推論ブロック２０［ｊ］において１枚の入力画像ＩＮ［ｐ］に対して実行される処理である（図８参照）。ステップＳ１２１～Ｓ１２７から成る単位処理は、データ処理装置１内の各推論ブロック２０にて実行され、且つ、入力画像ＩＮごとに実行される。

【0106】

まずステップＳ１２１において、推論ブロック２０［ｊ］内に物体検出器３０［１］～３０［ｎ］にて入力画像ＩＮ［ｐ］に対する物体検出処理が実行されることでｎ組分の物体検出データが生成される。ここでは、１枚の入力画像ＩＮ［ｐ］に対し各物体検出器３０にて１つずつ物体検出領域が設定されたと想定する。尚、推論ブロック２０［ｊ］において入力画像ＩＮ［ｐ］に対し一切の物体検出領域が設定されなかった場合には、以降の処理を行うことなく、入力画像ＩＮ［ｐ］に対する推論ブロック２０［ｊ］の動作を終える。

【0107】

ステップＳ１２１に続くステップＳ１２２では、推論ブロック２０［ｊ］において、統合部４０が、物体検出器３０［１］～３０［ｎ］にて導出（生成）された信頼度ＳＣＲに基づき、物体検出器３０［１］～３０［ｎ］の内の１つを基準物体検出器３０に設定する。基準物体検出器３０の設定方法は上述した通りである。即ち、物体検出器３０［１］～３０［ｎ］の内、最大の信頼度ＳＣＲを導出した物体検出器３０が基準物体検出器３０に設定される。基準物体検出器３０が導出した信頼度ＳＣＲ（即ち基準物体検出器３０から出力される物体検出データ中の信頼度ＳＣＲ）を記号“ＳＣＲ_ＭＡＸ”にて参照する。

【0108】

ステップＳ１２２に続くステップＳ１２３では、推論ブロック２０［ｊ］において、統合部４０が、物体検出器３０［１］～３０［ｎ］にて設定された計ｎ個の物体検出領域の指標ＩｏＵを導出する。続くステップＳ１２４において、推論ブロック２０［ｊ］の統合部４０は、導出した指標ＩｏＵが重なり閾値ＩｏＵ_ＲＥＦ以上であるかを判断する。そして、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立すれば（ステップＳ１２４のＹ）、ステップＳ１２５に進む一方、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立ならば（ステップＳ１２４のＮ）、ステップＳ１２６に進む。

【0109】

ステップＳ１２５では、推論ブロック２０［ｊ］において、統合部４０が、基準物体検出器３０から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器３０からの物体検出データ中のクラスデータＣＬＳ及び位置形状データＰＰを、統合部４０からの推論結果データ中のクラスデータ及び位置形状データに設定する。図１７では特に示されないが、ステップＳ１２５の後は、推論ブロック２０［ｊ］の統合部４０からの推論結果データに基づくアノテーション情報が入力画像ＩＮ［ｐ］に対するアノテーション情報として単位データセットＵ＿ＤＳ［ｐ］に含められた上で、当該単位データセットＵ＿ＤＳ［ｐ］が学習用データセットＤＳに追加される（図８参照）。

【0110】

ステップＳ１２６において、推論ブロック２０［ｊ］の統合部４０は、信頼度ＳＣＲ_ＭＡＸが基準信頼度ＳＣＲ_ＲＥＦ以上であるかを判断する。そして、“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が成立すれば（ステップＳ１２６のＹ）、ステップＳ１２５に移行して上述のステップＳ１２５の処理が行われる。“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が不成立ならば（ステップＳ１２６のＮ）、ステップＳ１２７に進む。

【0111】

ステップＳ１２７では、推論ブロック２０［ｊ］において、統合部４０が “０”の推論結果データを出力する。ステップＳ１２７に至るケースでは、推論ブロック２０［ｊ］の統合部４０からの推論結果データが入力画像ＩＮ［ｐ］に関する単位データセットＵ＿ＤＳ［ｐ］に含められず（換言すれば単位データセットＵ＿ＤＳ［ｐ］から除外され）、結果、学習用データセットＤＳに反映されない。即ち、ステップＳ１２７の処理は、ステップＳ１２１で生成した物体検出データを学習用データセットＤＳに反映させることなく、破棄することに相当する。

【0112】

このように、推論ブロック２０［ｊ］（統合部４０）は、物体検出器３０［１］～３０［ｎ］での複数の物体検出処理にて導出される複数の信頼度ＳＣＲ（ｎ個の信頼度ＳＣＲ）の内、最大の信頼度ＳＣＲ_ＭＡＸを特定できる（ステップＳ１２２）。物体検出器３０［１］～３０［ｎ］にて設定される複数の物体検出領域は統合推論領域の候補に相当し、各物体検出領域を候補領域と称することができる（図７参照）。ステップＳ１２１～Ｓ１２３の処理を経てステップＳ１２４にて複数の候補領域の重なり度合い（ＩｏＵ）が評価される。そして、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立するときに、推論ブロック２０［ｊ］（統合部４０）は、最大の信頼度ＳＣＲ_ＭＡＸに対応する物体検出データ（最大の信頼度ＳＣＲ_ＭＡＸを導出した基準物体検出器３０からの物体検出データ）に基づき推論結果データを生成する（ステップＳ１２５）。

【0113】

尚、図１７の動作フローチャートからステップＳ１２６の処理を削除する変形を施しても良い。図１８に、当該変形が施された動作フローチャートを示す。当該変形が行われたとき、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立の場合には、ステップＳ１２４から常にステップＳ１２７に進む。

【0114】

また、推論ブロック２０［ｊ］において、入力画像ＩＮ［ｐ］に対する物体検出処理により、物体検出器３０［１］～３０［ｎ］の内、一部の物体検出器３０のみにて物体検出領域が設定されるケース（以下、便宜上、ケースＣＳ_Ａ２１と称する）もあり得る。ケースケースＣＳ_Ａ２１では、物体検出器３０［１］～３０［ｎ］の内、一部の物体検出器３０のみからクラスデータＣＬＳ、位置形状データＰＰ及び信頼度ＳＣＲを含む物体検出データが出力され、残部の物体検出器３０から“０”の物体検出データが出力される。ケースＣＳ_Ａ２１においては、入力画像ＩＮ［ｐ］に関して常にステップＳ１２７に進むようにして良い。ケースＣＳ_Ａ２１においては、物体検出器３０［１］～３０［ｎ］の内、少なくとも１つの物体検出処理の結果に誤り（未検出を含む）があるからである。

【0115】

但し、ケースＣＳ_Ａ２１において、推論ブロック２０［ｊ］内の２以上の物体検出器３０にて物体検出領域が設定された場合にあっては、ステップＳ１２２にて当該２以上の物体検出器３０の中から上述の方法にて基準物体検出器３０を選択及び設定するようにしても良い。この場合、ステップＳ１２３にて、当該２以上の物体検出器３０にて設定された２以上の物体検出領域のＩｏＵを導出し、以後は図１７又は図１８のステップＳ１２４の処理及びそれ以降の処理を行うようにしても良い。

【0116】

［実施例ＥＸ１＿３］
実施例ＥＸ１＿３を説明する。実施例ＥＸ１＿３ではマルチクラス構成が採用される。実施例ＥＸ１＿１及びＥＸ１＿２に示した技術はマルチクラス構成に対しても適用でき、当該技術をマルチクラス構成に適用した実施例を実施例ＥＸ１＿３として説明する。

【0117】

図１９に、実施例ＥＸ１＿３に係るデータ処理装置１の動作フローチャートを示す。但し、図１９のステップＳ１３０～Ｓ１３７から成る単位処理は１つの推論ブロック２０［ｊ］において１枚の入力画像ＩＮ［ｐ］に対して実行される処理である（図８参照）。ステップＳ１３０～Ｓ１３７から成る単位処理は、データ処理装置１内の各推論ブロック２０にて実行され、且つ、入力画像ＩＮごとに実行される。

【0118】

まずステップＳ１３０において、推論ブロック２０［ｊ］内に物体検出器３０［１］～３０［ｎ］にて入力画像ＩＮ［ｐ］に対する物体検出処理が実行されることでｎ組分の物体検出データが生成される。ステップＳ１３０の後、ステップＳ１３１に進む。ここでは、１枚の入力画像ＩＮ［ｐ］に対し各物体検出器３０にて１つずつ物体検出領域が設定されたと想定する。当該想定の下、入力画像ＩＮ［ｐ］に対して物体検出器３０［１］～３０［ｎ］により計ｎ個の物体検出領域が設定される。尚、推論ブロック２０［ｊ］において入力画像ＩＮ［ｐ］に対し一切の物体検出領域が設定されなかった場合には、以降の処理を行うことなく、入力画像ＩＮ［ｐ］に対する推論ブロック２０［ｊ］の動作を終える。

【0119】

ステップＳ１３１では、推論ブロック２０［ｊ］内において、統合部４０が、物体検出器３０［１］～３０［ｎ］にて設定された計ｎ個の物体検出領域についてのクラスデータＣＬＳが一致しているかを判断する。計ｎ個の物体検出領域についてのクラスデータＣＬＳが一致している場合には（ステップＳ１３１のＹ）ステップＳ１３２に進み、そうでない場合（ステップＳ１３１のＮ）にはステップＳ１３７に進む。

【0120】

例えば“ｎ＝２”である場合において、物体検出器３０［１］及び３０［２］にて設定された２つの物体検出領域についてのクラスデータＣＬＳが共に車両を表しているときにはステップＳ１３２に進む。これは、物体検出器３０［１］及び３０［２］が共通して物体検出領域内の物体が車両であると認識したことに相当する。一方、例えば“ｎ＝２”である場合において、物体検出器３０［１］にて設定された物体検出領域についてのクラスデータＣＬＳが車両を表す一方、物体検出器３０［２］にて設定された物体検出領域についてのクラスデータＣＬＳが人物を表すときにはステップＳ１３７に進む。これは、共通の物体を、物体検出器３０［１］、３０［２］が、夫々車両、人物であると認識したことに相当する。この場合には、物体検出器３０［１］及び３０［２］の内、少なくとも一方の物体検出処理の結果に誤りがある。誤りのある物体検出処理の結果を学習用データセットＤＳに混入させることは望ましくないため、ステップＳ１３７にて物体検出データを破棄する。

【0121】

ステップＳ１３２では、推論ブロック２０［ｊ］において、統合部４０が、物体検出器３０［１］～３０［ｎ］にて導出（生成）された信頼度ＳＣＲに基づき、物体検出器３０［１］～３０［ｎ］の内の１つを基準物体検出器３０に設定する。基準物体検出器３０の設定方法は上述した通りである。即ち、物体検出器３０［１］～３０［ｎ］の内、最大の信頼度ＳＣＲを導出した物体検出器３０が基準物体検出器３０に設定される。基準物体検出器３０が導出した信頼度ＳＣＲ（即ち基準物体検出器３０から出力される物体検出データ中の信頼度ＳＣＲ）を記号“ＳＣＲ_ＭＡＸ”にて参照する。

【0122】

ステップＳ１３２に続くステップＳ１３３では、推論ブロック２０［ｊ］において、統合部４０が、物体検出器３０［１］～３０［ｎ］にて設定された計ｎ個の物体検出領域の指標ＩｏＵを導出する。続くステップＳ１３４において、推論ブロック２０［ｊ］の統合部４０は、導出した指標ＩｏＵが重なり閾値ＩｏＵ_ＲＥＦ以上であるかを判断する。そして、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立すれば（ステップＳ１３４のＹ）、ステップＳ１３５に進む一方、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立ならば（ステップＳ１３４のＮ）、ステップＳ１３６に進む。

【0123】

ステップＳ１３５では、推論ブロック２０［ｊ］において、統合部４０が、基準物体検出器３０から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器３０からの物体検出データ中のクラスデータＣＬＳ及び位置形状データＰＰを、統合部４０からの推論結果データ中のクラスデータ及び位置形状データに設定する。図１９では特に示されないが、ステップＳ１３５の後は、推論ブロック２０［ｊ］の統合部４０からの推論結果データに基づくアノテーション情報が入力画像ＩＮ［ｐ］に対するアノテーション情報として単位データセットＵ＿ＤＳ［ｐ］に含められた上で、当該単位データセットＵ＿ＤＳ［ｐ］が学習用データセットＤＳに追加される（図８参照）。

【0124】

ステップＳ１３６において、推論ブロック２０［ｊ］の統合部４０は、信頼度ＳＣＲ_ＭＡＸが基準信頼度ＳＣＲ_ＲＥＦ以上であるかを判断する。そして、“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が成立すれば（ステップＳ１３６のＹ）、ステップＳ１３５に移行して上述のステップＳ１３５の処理が行われる。“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が不成立ならば（ステップＳ１３６のＮ）、ステップＳ１３７に進む。

【0125】

ステップＳ１３７では、推論ブロック２０［ｊ］において、統合部４０が “０”の推論結果データを出力する。ステップＳ１３７に至るケースでは、推論ブロック２０［ｊ］の統合部４０からの推論結果データが入力画像ＩＮ［ｐ］に関する単位データセットＵ＿ＤＳ［ｐ］に含められず（換言すれば単位データセットＵ＿ＤＳ［ｐ］から除外され）、結果、学習用データセットＤＳに反映されない。即ち、ステップＳ１３７の処理は、ステップＳ１３０で生成した物体検出データを学習用データセットＤＳに反映させることなく、破棄することに相当する。

【0126】

このように、推論ブロック２０［ｊ］（統合部４０）は、物体検出器３０［１］～３０［ｎ］での複数の物体検出処理にて導出される複数の信頼度ＳＣＲ（ｎ個の信頼度ＳＣＲ）の内、最大の信頼度ＳＣＲ_ＭＡＸを特定できる（ステップＳ１３２）。複数の物体検出処理により同一種類の物体が存在すると判断された複数の物体検出領域（ステップＳ１３２に進む場合の複数の物体検出領域）は統合推論領域の候補に相当し、各物体検出領域を候補領域と称することができる（図７参照）。当該複数の物体検出領域のクラスデータが一致することは、同一種類の物体が存在すると判断された複数の物体検出領域が複数の候補領域となることに相当し、当該複数の物体検出領域のクラスデータが一致するときにステップＳ１３１以降の処理が実行される。ステップＳ１３２及びＳ１３３の処理を経てステップＳ１３４にて複数の候補領域の重なり度合い（ＩｏＵ）が評価される。そして、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立するときに、推論ブロック２０［ｊ］（統合部４０）は、最大の信頼度ＳＣＲ_ＭＡＸに対応する物体検出データ（最大の信頼度ＳＣＲ_ＭＡＸを導出した基準物体検出器３０からの物体検出データ）に基づき推論結果データを生成する（ステップＳ１３５）。

【0127】

尚、図１９の動作フローチャートからステップＳ１３６の処理を削除する変形を施しても良い。図２０に、当該変形が施された動作フローチャートを示す。当該変形が行われたとき、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立の場合には、ステップＳ１３４から常にステップＳ１３７に進む。

【0128】

また、推論ブロック２０［ｊ］において、入力画像ＩＮ［ｐ］に対する物体検出処理により、物体検出器３０［１］～３０［ｎ］の内、一部の物体検出器３０のみにて物体検出領域が設定されるケース（以下、便宜上、ケースＣＳ_Ａ３１と称する）もあり得る。ケースＣＳ_Ａ３１では、物体検出器３０［１］～３０［ｎ］の内、一部の物体検出器３０のみからクラスデータＣＬＳ、位置形状データＰＰ及び信頼度ＳＣＲを含む物体検出データが出力され、残部の物体検出器３０から“０”の物体検出データが出力される。ケースＣＳ_Ａ３１においては、入力画像ＩＮ［ｐ］に関して常にステップＳ１３７に進むようにして良い。ケースＣＳ_Ａ３１においては、物体検出器３０［１］～３０［ｎ］の内、少なくとも１つの物体検出処理の結果に誤り（未検出を含む）があるからである。

【0129】

但し、ケースＣＳ_Ａ３１において、推論ブロック２０［ｊ］内の２以上の物体検出器３０にて物体検出領域が設定され且つ２以上の物体検出器３０から出力される２以上のクラスデータＣＬＳが互いに一致している場合には、ステップＳ１３２に進むようにしても良い。この場合にあっては、ステップＳ１３２にて当該２以上の物体検出器３０の中から上述の方法にて基準物体検出器３０を選択及び設定することができる。そして、ステップＳ１３３にて、当該２以上の物体検出器３０にて設定された２以上の物体検出領域のＩｏＵを導出し、以後は図１９又は図２０のステップＳ１３４の処理及びそれ以降の処理を行うようにしても良い。

【0130】

［実施例ＥＸ１＿４］
実施例ＥＸ１＿４を説明する。実施例ＥＸ１＿４では主としてシングルクラス構成が採用されることを想定する（但しマルチクラス構成が採用されても良い）。データ処理装置１ではモデルの機能拡張が容易である。即ち例えば、車両を認識対象物体とする推論ブロック２０［１］と人物を認識対象物体とする推論ブロック２０［２］とがある場合において、信号機を新たに認識対象物体に含めることを想定する。この場合には、信号機を認識対象物体とする推論ブロック２０［３］を推論ブロック２０［１］及び２０［２］に対して並列的に追加すれば足る（即ちモデルの機能拡張が容易である）。既に存在する推論ブロック２０［１］及び２０［２］に対して推論ブロック２０［３］を追加すれば済むので、機能拡張に際し、データ処理装置１における画像認識動作の停止時間は短くて済む。

【0131】

また、これに関連して、データ処理装置１には、新規種類の物体についての教師データを容易に学習用データセットＤＳに追加できるというメリットがある。即ち例えば、図２１に示す如く、車両及び人物のアノテーション情報（教師データ）を含んだ学習用データセットＤＳが学習用データセットＤＳ１として既に存在している場合を想定する。学習用データセットＤＳ１には信号機のアノテーション情報が含まれていない。学習用データセットＤＳ１は車両及び人物を認識対象物体とする推論モデルの構築に供される。即ち、学習用データセットＤＳ１を用いた機械学習を行うことで車両及び人物を認識できる推論モデルを構築できる。この場合において、車両、人物及び信号機を認識できる他の推論モデルの構築が要望されたとき、学習用データセットＤＳ１に対して信号機のアノテーション情報（教師データ）を追加することで当該要望に応えることができる。

【0132】

具体例として、実施例ＥＸ１＿４では、以下、シングルクラス構成のデータ処理装置１において、“ｍ≧３”であって、且つ、推論ブロック２０［１］、２０［２］、２０［３］の認識対象物体が夫々車両、人物及び信号機である場合を想定する。この場合、学習用データセットＤＳが学習用データセットＤＳ１である状態を起点に、上記要望に応えるべく、推論ブロック２０［１］～２０［３］の内、推論ブロック２０［３］のみを動作させた状態で図８の処理を実行すれば良い（但し、変形として推論ブロック２０［１］及び２０［２］も併せて動作させるようにしても良い）。

【0133】

これにより、学習用データセットＤＳ１に対し、入力画像ＩＮと推論ブロック２０［３］の推論結果データに基づくアノテーション情報（信号機のアノテーション情報）とを含んだ単位データセットが次々と追加されてゆく。この追加後の学習用データセットＤＳ１を学習用データセットＤＳ２と称する。学習用データセットＤＳ２を用いた機械学習を行うことで車両、人物及び信号機を認識できる推論モデルを構築できる（即ち上記要望に応えることができる）。

【0134】

推論ブロック２０［１］～２０［３］の内、推論ブロック２０［３］のみを動作させれば済むため、少ない計算コスト及び短時間で学習用データセットＤＳ２を生成できる。

【0135】

具体的には、図２２に示す如く、データ処理装置１に動作制御部６０を追加することができる。動作制御部６０は演算処理部２（図１０）に設けられる機能ブロックであって良い。演算処理部２においてメモリ３に格納されたプログラムを実行することで動作制御部６０が構成されても良い。

【0136】

動作制御部６０はブロック選択処理（換言すればブロック選択制御）を実行できる。ブロック選択処理において動作制御部６０は、推論ブロック２０［１］～２０［ｎ］の動作の有無を個別に制御できる。即ち、ブロック選択処理において動作制御部６０は、推論ブロック２０［１］での推論処理の実行有無、推論ブロック２０［２］での推論処理の実行有無、・・・、及び、推論ブロック２０［ｎ］での推論処理の実行有無を、個別に制御できる。ブロック選択処理は、推論ブロック２０［１］～２０［ｎ］の各々で実行可能な推論処理の内、一部の推論処理を選択的に動作させる処理であると言える。

【0137】

ブロック選択処理が実行されないとき、推論ブロック２０［１］～２０［ｎ］の全てで推論処理が行われる。演算処理部２では、推論ブロック２０［１］～２０［ｎ］の全てで推論処理を行わせる動作と、ブロック選択処理を通じ推論ブロック２０［１］～２０［ｎ］の一部で推論処理を行わせる動作と、が可能となっている、と言える。

【0138】

データ処理装置１の操作者はインターフェース４を通じてデータ処理装置１に選択指示情報６１を入力することができ、動作制御部６０は選択指示情報６１の内容に基づきブロック選択処理の内容を決定する。例えば、データ処理装置１の操作者が学習用データセットＤＳ１を基準に学習用データセットＤＳ２の作成を要望するのであれば、操作者は、推論ブロック２０［１］～２０［３］の内、推論ブロック２０［３］のみを動作させることを指示する情報を選択指示情報６１としてデータ処理装置１に入力すれば良い。選択指示情報６１に従うブロック選択処理が動作制御部６０にて実行される。

【0139】

画像取得部１０と推論ブロック２０［１］～２０［ｎ］の夫々との間に切替スイッチ（不図示）を設けおき、選択指示情報６１に基づき、切替スイッチをオン又はオフすることでブロック選択処理を実現するようにしても良い。尚、マルチクラス構成が採用される場合においても動作制御部６０によるブロック選択処理が実行可能であって良い。

【0140】

［実施例ＥＸ１＿５］
実施例ＥＸ１＿５を説明する。上述の実施例ＥＸ１＿１～ＥＸ１＿３では、１枚の入力画像ＩＮ［ｐ］に対し各物体検出器３０にて１つずつ物体検出領域が設定されることが主として想定されている。但し、実際には、１枚の入力画像ＩＮ［ｐ］に認識対象物体の像が複数含まれることもあり、結果、各物体検出器３０において１枚の入力画像ＩＮ［ｐ］に対し複数の物体検出領域が設定されることもある。この場合には、ＸＹ座標面上における物体検出領域間の距離に基づいてＩｏＵが導出されるべき組み合わせを決定した上で、組み合わせごとに実施例ＥＸ１＿１～ＥＸ１＿３に示した方法を適用すれば良い。

【0141】

具体例を挙げる。図２３に１枚の入力画像ＩＮ［ｐ］の例である入力画像１５１０を示す。入力画像１５１０に対する図１２の各部の動作を説明する。入力画像１５１０には車両１５１２の像と他の車両１５１４の像が含まれている。推論ブロック２０［ｊ］の各物体検出器３０の認識対象物体に車両が含まれ、且つ、“ｎ＝２”であることを想定する。

【0142】

推論ブロック２０［ｊ］において物体検出器３０［１］により車両１５１２及び１５１４が検出される。結果、物体検出器３０［１］において、車両１５１２に対する物体検出領域１５１３＿１と車両１５１４に対する物体検出領域１５１５＿１とが入力画像１５１０に設定される。推論ブロック２０［ｊ］において、物体検出器３０［１］からは、物体検出領域１５１３＿１及び１５１５＿１の夫々についての物体検出データが出力される。

【0143】

推論ブロック２０［ｊ］において物体検出器３０［２］により車両１５１２及び１５１４が検出される。結果、物体検出器３０［２］において、車両１５１２に対する物体検出領域１５１３＿２と車両１５１４に対する物体検出領域１５１５＿２とが入力画像１５１０に設定される。推論ブロック２０［ｊ］において、物体検出器３０［２］からは、物体検出領域１５１３＿２及び１５１５＿２の夫々についての物体検出データが出力される。

【0144】

推論ブロック２０［ｊ］における統合部４０は、物体検出領域１５１３＿１及び１５１５＿１の夫々と物体検出領域１５１３＿２及び１５１５＿２の夫々との距離を導出する。導出される距離はＸＹ座標面上の距離である。物体検出領域１５１３＿１及び１５１３＿２間の距離は、物体検出領域１５１３＿１の原点座標（Ｐ_ＤＲ）と物体検出領域１５１３＿２の原点座標（Ｐ_ＤＲ）との距離であっても良いし、物体検出領域１５１３＿１の中心座標と物体検出領域１５１３＿２の中心座標との距離であっても良い。他の組み合わせに係る距離についても同様である。

【0145】

推論ブロック２０［ｊ］における統合部４０は、導出した距離に基づき、物体検出領域１５１３＿１を物体検出領域１５１３＿２及び１５１５＿２の一方に対応付け、物体検出領域１５１５＿１を物体検出領域１５１３＿２及び１５１５＿２の他方に対応付ける。例えば、対応付けられた物体検出領域間の距離の二乗平均平方根が最小化されるように、対応付けを行えば良い。図２３の例であれば、物体検出領域１５１３＿１及び１５１３＿２間の距離は物体検出領域１５１３＿１及び１５１５＿２間の距離より短く、且つ、物体検出領域１５１５＿１及び１５１５＿２間の距離は物体検出領域１５１５＿１及び１５１３＿２間の距離より短い。このため、物体検出領域１５１３＿１及び１５１３＿２が互いに対応付けられ、且つ、物体検出領域１５１５＿１及び１５１５＿２が互いに対応付けられる。

【0146】

そして、互いに対応付けられた物体検出領域の組み合わせごとに実施例ＥＸ１＿１～ＥＸ１＿３に示した方法を適用すれば良い。即ち例えば、互いに対応付けられた物体検出領域の組み合わせごとに、図１５若しくは図１６のステップＳ１１１より後の処理、図１７若しくは図１８のステップＳ１２１より後の処理、又は、図１９若しくは図２０のステップＳ１３０より後の処理を実行すれば良い。

【0147】

＜＜第２実施形態＞＞
本発明の第２実施形態を説明する。第１実施形態と同様に、第２実施形態においても、同一の物体に対して検出アルゴリズム等が異なる複数の画像認識モデルを適用し、それらの結果を統合する。但し、第２実施形態では、複数の画像認識モデルによる認識結果に差（比較的大きな差）が生じる場合に、人手による確認を求める仕組みを導入することで学習用データセットＤＳの質を向上させる。全入力画像ＩＮに対して人手による確認が必要になるわけではないので、人手による作業負担はそれほど大きくならない。

【0148】

第２実施形態に係るデータ処理装置１は特にデータ処理装置１Ａと称される。図２４にデータ処理装置１Ａの機能ブロック図を示す。特記なき限り、データ処理装置１Ａは基本実施形態におけるデータ処理装置１と同様の構成を有する。データ処理装置１Ａにおける各推論ブロック２０は、物体検出器３０［１］～３０［ｎ］及び統合部４０に加えてアテンション付与部７０を有する。また、データ処理装置１Ａには回答要求部７２及び回答取得部７４も設けられる。即ち、データ処理装置１Ａは、基本実施形態におけるデータ処理装置１に対して、回答要求部７２及び回答取得部７４を追加し、且つ、推論ブロック２０ごとにアテンション付与部７０を追加した構成を有する。

【0149】

アテンション付与部７０及び回答要求部７２は演算処理部２（図１０）に設けられる機能ブロックであって良い。演算処理部２においてメモリ３に格納されたプログラムを実行することでアテンション付与部７０及び回答要求部７２が構成されても良い。回答取得部７４は人間から回答データ７５を取得するブロックであり、インターフェース４（図１０）にて構成される。

【0150】

図２５を参照してアテンション付与部７０の機能を説明する。任意の１つの推論ブロック２０［ｊ］に注目する。推論ブロック２０［ｊ］において、統合部４０は、物体検出器３０［１］～３０［ｎ］からの物体検出データが所定のアテンション付与条件を満たすときに、アテンション付与指示をアテンション付与部７０に対して発行する。アテンション付与条件が不成立であるとき、アテンション付与部７０に対してアテンション付与指示は発行されない。推論ブロック２０［ｊ］において、アテンション付与指示が発行されると、アテンション付与部７０はアテンション付きデータを生成及び出力する。

【0151】

推論ブロック２０［ｊ］において、アテンション付与部７０から出力されるアテンション付きデータは、アテンション情報と物体検出器３０［１］～３０［ｎ］からの各物体検出データとを含む。アテンション情報は物体検出器３０［１］～３０［ｎ］からの各物体検出データに関連づけられる。即ち、アテンション情報は、物体検出器３０［１］～３０［ｎ］からの各物体検出データに対して（換言すれば、物体検出器３０［１］～３０［ｎ］による各物体検出処理の結果に対して）付与される。アテンション情報は各物体検出処理の結果に誤りが含まれる可能性を示唆するための目印となる。

【0152】

推論ブロック２０［ｊ］において、物体検出器３０［１］～３０［ｎ］からの物体検出データに基づき統合部４０が推論結果データを生成できる点、及び、その生成方法については上述した通りである。統合部４０は、アテンション付与条件が不成立であるとき、物体検出器３０［１］～３０［ｎ］からの物体検出データに基づき、基本実施形態又は第１実施形態に示した方法により、クラスデータ及び統合推論領域の位置形状データを含む推論結果データを生成及び出力できる（図６参照）。

【0153】

統合部４０は、アテンション付与条件が成立するときには“０”の推論結果データを出力する。アテンション付与条件の成立時にアテンション付与部７０から出力されるアテンション付きデータはデータ格納部５０に入力される（図２４参照）。データ格納部５０は、アテンション付きデータの入力を受けると、アテンション付与指示の発行の元となった入力画像ＩＮの画像データとアテンション付きデータとを含むアテンション保持データ（図２６参照）を設定し、アテンション保持データをデータベースＤＢに格納する。

【0154】

図２６にはアテンション保持データの構造が示される。１以上のアテンション保持データから成るデータ群をアテンションデータ群ＡＤと称する。アテンションデータ群ＡＤはデータベースＤＢに格納される（図２４参照）。学習用データセットＤＳが格納されるデータベースと、アテンションデータ群ＡＤが格納されるデータベースは、互いに分離していても良い。

【0155】

アテンション情報は、各物体検出処理の結果の成否を判別者に問い合わせるための情報として機能する。判別者は、機械学習の分野においてオラクルと称される。判別者は、上記問い合わせに対して回答を与える任意の人物であり、インターフェース４を通じて上記問い合わせに対する回答をデータ処理装置１Ａに入力する。具体的には、回答要求部７２がインターフェース４を通じて判別者に上記問い合わせを行うことで回答を要求する。判別者からの回答は回答データ７５として回答取得部７４にて取得される。回答データ７５が取得されると、データ格納部５０はデータ補完処理を実行する。データ補完処理において、データ格納部５０は、アテンション保持データ中の入力画像の画像データと回答データ７５とに基づく単位データセットを作成し、作成した単位データセットを学習用データセットＤＳに含める。

【0156】

第２実施形態は以下の実施例ＥＸ２＿１～ＥＸ２＿６を含む。実施例ＥＸ２＿１～ＥＸ２＿６にて第２実施形態に関わる具体的な動作等を説明する。第２実施形態にて上述した事項は、特に記述無き限り且つ矛盾無き限り、以下の実施例ＥＸ２＿１～ＥＸ２＿６に適用される。但し、各実施例において、第２実施形態で上述した事項と矛盾する事項については各実施例での記載が優先されて良い。また矛盾無き限り、実施例ＥＸ２＿１～ＥＸ２＿６の内、任意の実施例に記載した事項を、他の任意の実施例に適用することもできる（即ち複数の実施例の内の任意の２以上の実施例を組み合わせることも可能である）。

【0157】

［実施例ＥＸ２＿１］
実施例ＥＸ２＿１を説明する。実施例ＥＸ２＿１では、具体的な入力画像ＩＮの例を挙げて第２実施形態の方法を説明する。第２実施形態におけるアテンション情報の付与機能は推論ブロック２０ごとに実現されるが、用いられる画像認識モデルの相違を除き、推論ブロック２０の動作は複数の推論ブロック２０間で同様である。このため、任意の１つの推論ブロック２０［ｊ］に注目して、アテンション情報の付与機能、及び、それに関わる機能を説明する。

【0158】

図２７に、実施例ＥＸ２＿１に係るデータ処理装置１Ａの要部の機能ブロック図を示す。実施例ＥＸ２＿１では推論ブロック２０［ｊ］において“ｎ＝２”であるとする（図２４参照）。また、実施例ＥＸ２＿１ではシングルクラス構成が採用される。

【0159】

実施例ＥＸ２＿１に係る推論ブロック２０［ｊ］において、物体検出器３０［１］における画像認識モデルは車両用モデル２３１［ｊ，１］であり、物体検出器３０［２］における画像認識モデルは車両用モデル２３１［ｊ，２］である。

【0160】

上述したように、車両用モデル（ここでは、２３１［ｊ，１］、２３１［ｊ，２］）とは、車両のみを認識対象物体とするシングルクラスの画像認識モデルを指す。故に、実施例ＥＸ２＿１に係る推論ブロック２０［ｊ］において、物体検出器３０［１］及び３０［２］は、車両のみを認識対象物体とするシングルクラスの物体検出器である。

【0161】

学習用データセットＤＳを作成する過程において各物体検出器３０に次々と入力画像ＩＮの画像データが供給され、各物体検出器３０において入力画像ＩＮごとに物体検出処理が実行される。図２８に、代表して２枚の入力画像２１１０及び２１６０を示す。入力画像２１１０及び２１６０は夫々に入力画像ＩＮの例である。

【0162】

図２９を参照して入力画像２１１０に対する推論ブロック２０［ｊ］の動作を説明する。入力画像２１１０には車両２１１２の像が含まれている。
推論ブロック２０［ｊ］において、物体検出器３０［１］は入力画像２１１０に対し車両用モデル２３１［ｊ，１］を用いた物体検出処理を行うことにより物体検出データ２１１４［１］を生成及び出力する。物体検出器３０［１］は入力画像２１１０に対して物体検出領域２１１３［１］を設定する。物体検出データ２１１４［１］におけるクラスデータＣＬＳは車両を表している。即ち、物体検出データ２１１４［１］では物体検出領域２１１３［１］に車両が存在することが指し示される。物体検出領域２１１３［１］は物体検出器３０［１］による車両２１１２の検出領域に相当する。
推論ブロック２０［ｊ］において、物体検出器３０［２］は入力画像２１１０に対し車両用モデル２３１［ｊ，２］を用いた物体検出処理を行うことにより物体検出データ２１１４［２］を生成及び出力する。物体検出器３０［２］は入力画像２１１０に対して物体検出領域２１１３［２］を設定する。物体検出データ２１１４［２］におけるクラスデータＣＬＳは車両を表している。即ち、物体検出データ２１１４［２］では物体検出領域２１１３［２］に車両が存在することが指し示される。物体検出領域２１１３［２］は物体検出器３０［２］による車両２１１２の検出領域に相当する。
物体検出領域２１１３［１］及び２１１３［２］は、完全に又は実質的に同じ形状を有して同じ位置に設定された領域である。但し、図２８では、物体検出領域２１１３［１］及び２１１３［２］を区別して示すために、便宜上、それらを若干ずらして示している。

【0163】

本例において、物体検出データ２１１４［１］及び２１１４［２］に対しアテンション付与条件は成立しないものとする。このため、入力画像２１１０に関して統合部４０からはアテンション付与指示が発行されない。入力画像２１１０に関して統合部４０は物体検出データ２１１４［１］及び２１１４［２］に基づく推論結果データ２１１５を生成及び出力する。推論結果データ２１１５はクラスデータ及び統合推論領域の位置形状データを含む。データ格納部５０は、入力画像２１１０と推論結果データ２１１５とに基づく単位データセットを生成してデータベースＤＢに格納することにより、当該単位データセットを学習用データセットＤＳの一部として学習用データセットＤＳに追加する。

【0164】

図３０を参照して入力画像２１６０に対する推論ブロック２０［ｊ］の動作を説明する。入力画像２１６０には車両２１６２の像が含まれている。
推論ブロック２０［ｊ］において、物体検出器３０［１］は入力画像２１６０に対し車両用モデル２３１［ｊ，１］を用いた物体検出処理を行うことにより物体検出データ２１６４［１］を生成及び出力する。物体検出器３０［１］は入力画像２１６０に対して物体検出領域２１６３［１］を設定する。物体検出データ２１６４［１］におけるクラスデータＣＬＳは車両を表している。即ち、物体検出データ２１６４［１］では物体検出領域２１６３［１］に車両が存在することが指し示される。物体検出領域２１６３［１］は物体検出器３０［１］による車両２１６２の検出領域に相当する。
推論ブロック２０［ｊ］において、物体検出器３０［２］は入力画像２１６０に対し車両用モデル２３１［ｊ，２］を用いた物体検出処理を行うことにより物体検出データ２１６４［２］を生成及び出力する。物体検出器３０［２］は入力画像２１６０に対して物体検出領域２１６３［２］を設定する。物体検出データ２１６４［２］におけるクラスデータＣＬＳは車両を表している。即ち、物体検出データ２１６４［２］では物体検出領域２１６３［２］に車両が存在することが指し示される。物体検出領域２１６３［２］は物体検出器３０［２］による車両２１６２の検出領域に相当する。

【0165】

本例において、物体検出データ２１６４［１］及び２１６４［２］に対しアテンション付与条件が成立するものとする。このため、入力画像２１６０に関して統合部４０からはアテンション付与指示２１６６が発行される。アテンション付与部７０はアテンション付与指示２１６６の発行を受けてアテンション付きデータ２１６７を生成及び出力する。一方、入力画像２１６０に関して統合部４０は物体検出データ２１６４［１］及び２１６４［２］に基づく推論結果データ２１６５を生成及び出力する。但し、アテンション付与条件が成立しているので、生成及び出力される推論結果データ２１６５は“０”の推論結果データである。

【0166】

“０”の推論結果データは有意なデータではないので、データ格納部５０は、入力画像２１６０と推論結果データ２１６５とに基づく単位データセットを生成しない。

【0167】

統合部４０において指標ＩｏＵに基づきアテンション付与条件の成否が判断される。図２８には、入力画像２１１０に対して設定された物体検出領域２１１３［１］及び２１１３［２］が示され、入力画像２１６０に対して設定された物体検出領域２１６３［１］及び２１６３［２］が示される。上述したように、各物体検出領域は統合推論領域の候補として機能する（図７参照）。

【0168】

統合部４０は、入力画像２１１０に関して物体検出領域２１１３［１］及び２１１３［２］間の指標ＩｏＵを指標ＩｏＵ_Ｂ＿１として導出し、指標ＩｏＵ_Ｂ＿１に応じて推論結果データ２１１５（図２９参照）を生成する。統合部４０は、入力画像２１６０に関して物体検出領域２１６３［１］及び２１６３［２］間の指標ＩｏＵを指標ＩｏＵ_Ｂ＿２として導出し、指標ＩｏＵ_Ｂ＿２に応じて推論結果データ２１６５（図３０参照）を生成する。

【0169】

指標ＩｏＵ_Ｂ＿１に基づく推論結果データ２１１５の生成方法及び推論結果データ２１１５と学習用データセットＤＳとの関係を説明する。図２９を参照する。推論ブロック２０［ｊ］において、統合部４０は、物体検出データ２１１４［１］における信頼度ＳＣＲ及び物体検出データ２１１４［２］における信頼度ＳＣＲの内、高い方の信頼度ＳＣＲを特定し、高い方の信頼度ＳＣＲに対応する物体検出器３０を基準物体検出器３０に設定する。物体検出データ２１１４［１］及び２１１４［２］における信頼度ＳＣＲが一致している場合には、物体検出器３０［１］及び３０［２］の内、任意の一方又は予め定められた一方を基準物体検出器３０に設定する。

【0170】

入力画像２１１０に関して、統合部４０は、指標ＩｏＵ_Ｂ＿１（図２８参照）を所定の重なり閾値ＩｏＵ_ＲＥＦと比較する。ここでは“ＩｏＵ_Ｂ＿１≧ＩｏＵ_ＲＥＦ”が成立するものとする。重なり閾値ＩｏＵ_ＲＥＦと比較される指標（ＩｏＵ）が重なり閾値ＩｏＵ_ＲＥＦ以上であるときアテンション付与条件は不成立である。このため、入力画像２１１０に関する物体検出データ２１１４［１］及び２１１４［２］はアテンション付与条件を満たさない。上述したように、重なり閾値ＩｏＵ_ＲＥＦは０より大きく且つ１未満の値（例えば０．８）を持つ。

【0171】

入力画像２１１０に関して、アテンション付与条件が満たされないとき、統合部４０は、基準物体検出器３０から出力される物体検出データを推論結果データ２１１５にて採用する。即ち、基準物体検出器３０からの物体検出データ中のクラスデータＣＬＳ及び位置形状データＰＰを、統合部４０からの推論結果データ２１１５中のクラスデータ及び位置形状データに設定する。

【0172】

従って例えば、入力画像２１１０に関して物体検出器３０［１］が基準物体検出器３０に設定されたならば、物体検出データ２１１４［１］中のクラスデータＣＬＳ及び位置形状データＰＰが、推論結果データ２１１５中のクラスデータ及び位置形状データに設定される。この場合、物体検出領域２１１３［１］が統合推論領域に設定される。そして、推論結果データ２１１５中のクラスデータは、統合推論領域（２１１３［１］）内の物体が車両であることを示すクラスアノテーション情報として入力画像２１１０に関する単位データセットに含められる。加えて、推論結果データ２１１５中の位置形状データは、統合推論領域（２１１３［１］）の位置及び形状を示す領域アノテーション情報として、入力画像２１１０に関する単位データセットに含められる（結果、学習用データセットＤＳに含められる）。

【0173】

逆に例えば、入力画像２１１０に関して物体検出器３０［２］が基準物体検出器３０に設定されたならば、物体検出データ２１１４［２］中のクラスデータＣＬＳ及び位置形状データＰＰが、推論結果データ２１１５中のクラスデータ及び位置形状データに設定される。この場合、物体検出領域２１１３［２］が統合推論領域に設定される。そして、推論結果データ２１１５中のクラスデータは、統合推論領域（２１１３［２］）内の物体が車両であることを示すクラスアノテーション情報として入力画像２１１０に関する単位データセットに含められる。加えて、推論結果データ２１１５中の位置形状データは、統合推論領域（２１１３［２］）の位置及び形状を示す領域アノテーション情報として、入力画像２１１０に関する単位データセットに含められる（結果、学習用データセットＤＳに含められる）。

【0174】

入力画像２１６０に関わる動作を説明する。入力画像２１６０に関して、統合部４０は、指標ＩｏＵ_Ｂ＿２（図２８参照）を所定の重なり閾値ＩｏＵ_ＲＥＦと比較する。ここでは“ＩｏＵ_Ｂ＿２＜ＩｏＵ_ＲＥＦ”が成立するものとする。重なり閾値ＩｏＵ_ＲＥＦと比較される指標（ＩｏＵ）が重なり閾値ＩｏＵ_ＲＥＦ未満であるとき、アテンション付与条件が成立する。今、入力画像２１６０について、“ＩｏＵ_Ｂ＿２＜ＩｏＵ_ＲＥＦ”の成立により物体検出データ２１６４［１］及び２１６４［２］（図３０参照）がアテンション付与条件を満たしたとする。

【0175】

そうすると、アテンション情報と物体検出データ２１６４［１］及び２１６４［２］とを含んだアテンション付きデータ２１６７が生成される。そして、当該アテンション付きデータ２１６７と入力画像２１６０の画像データを含んだアテンション保持データが設定されてデータベースＤＢに格納される（図２４及び図２６参照）。

【0176】

この後、任意のタイミングで、回答要求部７２は、アテンション保持データをデータベースＤＢから読み出し、読み出したデータに用いて、各物体検出器３０による入力画像２１６０に対する物体検出処理の結果の成否を判別者に問い合わせる。例えば、図３１に示す如く、インターフェース４に含まれる表示装置ＤＳＰに、入力画像２１６０を表示しつつ、物体検出データ２１６４［１］及び２１６４［２］に基づく物体検出領域２１６３［１］及び２１６３［２］を入力画像２１６０上に重畳表示する。また、物体検出データ２１６４［１］及び２１６４［２］におけるクラスデータＣＬＳも物体検出領域２１６３［１］及び２１６３［２］に対応付けて表示する。これらの表示が行われた状態で、回答要求部７２は、物体検出処理の結果の成否を判別者に問い合わせる。即ち、物体検出領域２１６３［１］及び２１６３［２］の内、何れが車両の存在する領域として正しいのかを問い合わせる。

【0177】

判別者は、インターフェース４中のポインティングデバイス等を用いて、物体検出領域２１６３［１］及び２１６３［２］の何れか一方を正解領域として選択できる。物体検出領域２１６３［１］が正解領域に設定された場合には、その旨を示す回答データ７５が回答取得部７４にて得られ、データ格納部５０は当該回答データ７５に基づくデータ補完処理を実行する。データ補完処理において、データ格納部５０は、アテンション保持データ中の入力画像２１６０の画像データと上記回答データ７５とに基づく単位データセットを作成し、作成した単位データセットを学習用データセットＤＳに含める。当該データ補完処理では、正解領域としての物体検出領域２１６３［１］内の位置形状データ（物体検出データ２１６４［１］中の位置形状データ）が領域アノテーション情報として入力画像２１６０に関する単位データセットに含められる。当該データ補完処理では、正解領域としての物体検出領域２１６３［１］内の物体が車両であることを示すクラスアノテーション情報も入力画像２１６０に関する単位データセットに含められる。

【0178】

物体検出領域２１６３［２］が正解領域として選択された場合も同様の処理が行われる。判別者は、物体検出領域２１６３［１］及び２１６３［２］の何れか一方を正解領域として選択する代わりに、正解領域を改めて指定することもできる。この場合には、指定された正解領域の位置形状データが領域アノテーション情報として入力画像２１６０に関する単位データセットに含められる。また、物体検出データ２１６４［１］又は２１６４［２］におけるクラスデータＣＬＳに誤りがある場合には、判別者は、正解領域のクラスデータも指定することができる。この場合には、指定されたクラスデータに基づくクラスアノテーション情報が入力画像２１６０に関する単位データセットに含められる。

【0179】

重なり閾値ＩｏＵ_ＲＥＦと比較される指標（ＩｏＵ）が重なり閾値ＩｏＵ_ＲＥＦ未満であっても、基準物体検出器３０により導出された信頼度ＳＣＲが所定の基準信頼度ＳＣＲ_ＲＥＦ以上であれば、アテンション付与条件が不成立であると判断する変形（以下、変形ＭＤ２と称する）を施して良い。上述したように、基準信頼度ＳＣＲ_ＲＥＦは０より大きく且つ１未満の値（例えば０．６）を持つ。基準物体検出器３０により導出された信頼度ＳＣＲを記号“ＳＣＲ_ＭＡＸ”にて参照する。

【0180】

即ち、変形ＭＤ２が適用される場合、入力画像２１１０については、“ＩｏＵ_Ｂ＿１≧ＩｏＵ_ＲＥＦ”の成立により物体検出データ２１１４［１］及び２１１４［２］がアテンション付与条件を満たさない、或いは、“ＩｏＵ_Ｂ＿１＜ＩｏＵ_ＲＥＦ”且つ“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”の成立により物体検出データ２１１４［１］及び２１１４［２］がアテンション付与条件を満たさない。結果、クラスデータ及び統合推論領域の位置形状データを含む推論結果データ２１１５が生成される一方で、アテンション付与指示が発行されない（図２９参照）。変形ＭＤ２が適用される場合、入力画像２１６０については、“ＩｏＵ_Ｂ＿２＜ＩｏＵ_ＲＥＦ”且つ“ＳＣＲ_ＭＡＸ＜ＳＣＲ_ＲＥＦ”の成立により物体検出データ２１６４［１］及び２１６４［２］がアテンション付与条件を満たす。結果、“０”の推論結果データ２１６５が生成される一方で、アテンション付与指示２１６６が発行されることでアテンション付きデータ２１６７が生成される（図３０参照）。

【0181】

上述の説明から理解されるよう、データ補完処理は、アテンション情報の付与を発生させた入力画像ＩＮ（上記の例において入力画像２１６０）に対してのみ実行される。従って、複数の入力画像ＩＮに含まれる特定の入力画像ＩＮ（２１６０）への各物体検出処理の結果に対しアテンション情報が付与された場合には、特定の入力画像ＩＮ（２１６０）に関してデータ補完処理が実行される。当該データ補完処理では、特定の入力画像ＩＮ（２１６０）と回答データ７５とに基づく単位データセットが生成されて学習用データセットＤＳに含められる。

【0182】

このように、同一の物体に対して検出アルゴリズム等が異なる複数の画像認識モデルを適用し、それらの結果を統合する。この際、複数の画像認識モデルにて得られた複数の物体検出領域間の重なり度合いが高ければ、それらの画像認識モデルの認識結果（換言すれば物体検出処理の検出結果）は正しい可能性が相対的に高い。逆に、重なり度合いが低ければ、それらの画像認識モデルの認識結果（換言すれば物体検出処理の検出結果）に誤りが含まれる可能性が相対的に高い。これらを考慮し、重なり度合いを表す指標ＩｏＵを導出し、重なり度合い（ＩｏＵ）に応じて推論結果データを生成する。これにより、誤りの少ない推論結果データを生成することが可能となる。誤りの少ない推論結果データを用いて学習用データセットＤＳを生成することで、質の高い学習用データセットＤＳを得ることが可能となる。更に、低い重なり度合いが導出されるなど、画像認識結果に誤りが含まれる可能性が高いような状況では、アテンション情報を付与することで人手による確認を求める仕組みを導入する。これにより、重なり度合いが低い場合でも、人手を介して、質を担保しつつ学習用データセットＤＳの量を増やすことができる。尚、全入力画像ＩＮに対して人手による確認が必要になるわけではないので、人手による作業負担はそれほど大きくならない。

【0183】

［実施例ＥＸ２＿２］
実施例ＥＸ２＿２を説明する。実施例ＥＸ２＿１では“ｎ＝２”が想定されているが、上述したようにｎの値は２以上であれば任意である。実施例ＥＸ２＿２では、実施例ＥＸ２＿１にて示した技術を一般化する。実施例ＥＸ２＿２ではシングルクラス構成が採用される。

【0184】

図３２に、実施例ＥＸ２＿２に係るデータ処理装置１Ａの動作フローチャートを示す。但し、図３２のステップＳ２２１～Ｓ２２７及びＳ２３１～Ｓ２３５から成る単位処理は１枚の入力画像ＩＮ［ｐ］に対して実行される処理である（図８参照）。当該単位処理は入力画像ＩＮごとに実行される。また、当該単位処理の内、１つの推論ブロック２０内で実行される処理は、データ処理装置１Ａ内の推論ブロック２０ごとに実行される。

【0185】

まずステップＳ２２１において、推論ブロック２０［ｊ］内に物体検出器３０［１］～３０［ｎ］にて入力画像ＩＮ［ｐ］に対する物体検出処理が実行されることでｎ組分の物体検出データが生成される。ここでは、１枚の入力画像ＩＮ［ｐ］に対し各物体検出器３０にて１つずつ物体検出領域が設定されたと想定する。尚、推論ブロック２０［ｊ］において入力画像ＩＮ［ｐ］に対し一切の物体検出領域が設定されなかった場合には、以降の処理を行うことなく、入力画像ＩＮ［ｐ］に対する推論ブロック２０［ｊ］の動作を終える。

【0186】

ステップＳ２２１に続くステップＳ２２２では、推論ブロック２０［ｊ］において、統合部４０が、物体検出器３０［１］～３０［ｎ］にて導出（生成）された信頼度ＳＣＲに基づき、物体検出器３０［１］～３０［ｎ］の内の１つを基準物体検出器３０に設定する。基準物体検出器３０の設定方法は上述した通りである。即ち、物体検出器３０［１］～３０［ｎ］の内、最大の信頼度ＳＣＲを導出した物体検出器３０が基準物体検出器３０に設定される。基準物体検出器３０が導出した信頼度ＳＣＲ（即ち基準物体検出器３０から出力される物体検出データ中の信頼度ＳＣＲ）を記号“ＳＣＲ_ＭＡＸ”にて参照する。

【0187】

ステップＳ２２２に続くステップＳ２２３では、推論ブロック２０［ｊ］において、統合部４０が、物体検出器３０［１］～３０［ｎ］にて設定された計ｎ個の物体検出領域の指標ＩｏＵを導出する。続くステップＳ２２４において、推論ブロック２０［ｊ］の統合部４０は、導出した指標ＩｏＵが重なり閾値ＩｏＵ_ＲＥＦ以上であるかを判断する。そして、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立すれば（ステップＳ２２４のＹ）、ステップＳ２２５に進む一方、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立ならば（ステップＳ２２４のＮ）、ステップＳ２３１に進む。図３２の動作フローチャートでは、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”の成否のみによってアテンション付与条件の成否が決定する。即ち、図３２の動作フローチャートでは、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立するときにアテンション付与条件は不成立であり、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立のときにアテンション付与条件が成立する。

【0188】

ステップＳ２２５では、推論ブロック２０［ｊ］において、統合部４０が、基準物体検出器３０から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器３０からの物体検出データ中のクラスデータＣＬＳ及び位置形状データＰＰを、統合部４０からの推論結果データ中のクラスデータ及び位置形状データに設定する。ステップＳ２２５の後、ステップＳ２２６及びＳ２２７の処理が実行される。ステップＳ２２６において、推論ブロック２０［ｊ］の統合部４０からの推論結果データに基づくアノテーション情報が入力画像ＩＮ［ｐ］に対するアノテーション情報として単位データセットＵ＿ＤＳ［ｐ］に含められる。その後のステップＳ２２７において、単位データセットＵ＿ＤＳ［ｐ］が学習用データセットＤＳに追加される。

【0189】

ステップＳ２３１では、推論ブロック２０［ｊ］において、統合部４０が “０”の推論結果データを出力する一方でアテンション付与指示をアテンション付与部７０に発行する。ステップＳ２３１に至るケースでは、推論ブロック２０［ｊ］の統合部４０からの推論結果データが入力画像ＩＮ［ｐ］に関する単位データセットＵ＿ＤＳ［ｐ］に含められず（換言すれば単位データセットＵ＿ＤＳ［ｐ］から除外され）、結果、学習用データセットＤＳに反映されない。但し、後述のステップＳ２３２～Ｓ２３５の処理を通じて、人手を介し、正確な又は正確と期待される単位データセットＵ＿ＤＳ［ｐ］が生成される。

【0190】

即ち、ステップＳ２３１に続くステップＳ２３２において、アテンション付与部７０によりアテンション付きデータが生成され、そのアテンション付きデータに基づくアテンション保持データがデータ格納部５０によりデータベースＤＢに格納される。入力画像ＩＮ［ｐ］についてのアテンション付きデータは、アテンション情報と、入力画像ＩＮ［ｐ］に対して推論ブロック２０［ｊ］内の各物体検出器３０が出力した物体検出データと、を含む（図２５参照）。入力画像ＩＮ［ｐ］についてのアテンション保持データは、入力画像ＩＮ［ｐ］についてのアテンション付きデータと、入力画像ＩＮ［ｐ］の画像データと、を含む（図２６参照）。ステップＳ２３２の後、ステップＳ２３３に進む。尚、ステップＳ２３３～Ｓ２３５の処理が実行される場合において、ステップＳ２３３～Ｓ２３５の処理の実行タイミングは、ステップＳ２３２の処理が実行された後であれば任意である。

【0191】

ステップＳ２３３において、回答要求部７２は、アテンション保持データをデータベースＤＢから読み出し、読み出したデータに用いて、各物体検出器３０による入力画像ＩＮ［ｐ］に対する物体検出処理の結果の成否を判別者に問い合わせる。問い合わせの方法は任意であるが、実施例ＥＸ２＿１で示したような表示を通じて問い合わせることができる。

【0192】

続くステップＳ２３４において、判別者は問い合わせ内容に対して回答し、その回答を示すデータが回答データ７５として回答取得部７４により取得される。例えば、判別者は、インターフェース４中のポインティングデバイス等を用いて、物体検出器３０［１］～３０［ｎ］が入力画像ＩＮ［ｐ］に対して設定した物体検出領域の何れか１つを正解領域として選択できる。

【0193】

回答データ７５が取得されると、ステップＳ２３５においてデータ格納部５０は当該回答データ７５に基づくデータ補完処理を実行する。即ち、ステップＳ２３５において、データ格納部５０は、アテンション保持データ中の入力画像ＩＮ［ｐ］の画像データと上記回答データ７５とに基づく単位データセットＵ＿ＤＳ［ｐ］を作成し、作成した単位データセットＵ＿ＤＳ［ｐ］を学習用データセットＤＳに含める。

【0194】

データ補完処理で作成される単位データセットＵ＿ＤＳ［ｐ］には、正解領域としての物体検出領域内の位置形状データが領域アノテーション情報として含められる。データ補完処理で作成される単位データセットＵ＿ＤＳ［ｐ］には、正解領域としての物体検出領域内の物体のクラスデータがクラスアノテーション情報として含められる。クラスアノテーション情報は、原則としてアテンション保持データ中のクラスデータに基づき決定されるが、それに誤りがある場合には、回答データ７５により決定される。

【0195】

判別者は、正解領域を選択する代わりに正解領域を改めて指定することもできる。この場合には、指定された正解領域の位置形状データが領域アノテーション情報として入力画像ＩＮ［ｐ］に関する単位データセットＵ＿ＤＳ［ｐ］に含められる。また、物体検出データにおけるクラスデータＣＬＳに誤りがある場合には、判別者は、正解領域のクラスデータも指定することができる。この場合には、指定されたクラスデータに基づくクラスアノテーション情報が入力画像ＩＮ［ｐ］に関する単位データセットＵ＿ＤＳ［ｐ］に含められる。

【0196】

このように、推論ブロック２０［ｊ］（統合部４０）は、物体検出器３０［１］～３０［ｎ］での複数の物体検出処理にて導出される複数の信頼度ＳＣＲ（ｎ個の信頼度ＳＣＲ）の内、最大の信頼度ＳＣＲ_ＭＡＸを特定できる（ステップＳ２２２）。物体検出器３０［１］～３０［ｎ］にて設定される複数の物体検出領域は統合推論領域の候補に相当し、各物体検出領域を候補領域と称することができる（図７参照）。ステップＳ２２１～Ｓ１２３の処理を経てステップＳ２２４にて複数の候補領域の重なり度合い（ＩｏＵ）が評価される。そして、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立するときに、推論ブロック２０［ｊ］（統合部４０）は、最大の信頼度ＳＣＲ_ＭＡＸに対応する物体検出データ（最大の信頼度ＳＣＲ_ＭＡＸを導出した基準物体検出器３０からの物体検出データ）に基づき推論結果データを生成する（ステップＳ２２５）。一方、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立のとき、推論ブロック２０［ｊ］（統合部４０）は、各物体検出器３０による物体検出処理の結果に対して（即ち各物体検出データに対して）アテンション情報を付与する。ステップＳ２３２におけるアテンション付きデータの生成は、物体検出処理の結果に対する（即ち各物体検出データに対する）アテンション情報の付与に相当する（図２５参照）。

【0197】

尚、図３２の動作フローチャートに対して上述の変形ＭＤ２を適用しても良い。当該適用により、図３２の動作フローチャートは図３３の動作フローチャートへと変形される。変形ＭＤ２が適用された図３３のフローチャートでは、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立の場合には（ステップＳ２２４のＮ）、ステップＳ２２４からステップＳ２２８に進む。

【0198】

ステップＳ２２８において、推論ブロック２０［ｊ］の統合部４０は、信頼度ＳＣＲ_ＭＡＸが基準信頼度ＳＣＲ_ＲＥＦ以上であるかを判断する。そして、“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が成立すれば（ステップＳ２２８のＹ）、ステップＳ２２５に移行して上述のステップＳ２２５～Ｓ２２７の各処理が行われる。“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が不成立ならば（ステップＳ２２８のＮ）、ステップＳ２３１に進んで上述のステップＳ２３１～Ｓ２３５の各処理が行われる。図３３の動作フローチャートでは、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立するときに、又は、“ＩｏＵ＜ＩｏＵ_ＲＥＦ”且つ“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が成立するときにアテンション付与条件は不成立である。図３３の動作フローチャートでは、“ＩｏＵ＜ＩｏＵ_ＲＥＦ”及び“ＳＣＲ_ＭＡＸ＜ＳＣＲ_ＲＥＦ”の双方が成立するときに限りアテンション付与条件が成立する。

【0199】

また、推論ブロック２０［ｊ］において、入力画像ＩＮ［ｐ］に対する物体検出処理により、物体検出器３０［１］～３０［ｎ］の内、一部の物体検出器３０のみにて物体検出領域が設定されるケース（以下、便宜上、ケースＣＳ_Ｂ２１と称する）もあり得る。ケースＣＳ_Ｂ２１では、物体検出器３０［１］～３０［ｎ］の内、一部の物体検出器３０のみからクラスデータＣＬＳ、位置形状データＰＰ及び信頼度ＳＣＲを含む物体検出データが出力され、残部の物体検出器３０から“０”の物体検出データが出力される。ケースＣＳ_Ｂ２１においては、入力画像ＩＮ［ｐ］に関して常にステップＳ２３１に進むようにして良い。ケースＣＳ_Ｂ２１においては、物体検出器３０［１］～３０［ｎ］の内、少なくとも１つの物体検出処理の結果に誤り（未検出を含む）があるからである。

【0200】

但し、ケースＣＳ_Ｂ２１において、推論ブロック２０［ｊ］内の２以上の物体検出器３０にて物体検出領域が設定された場合にあっては、ステップＳ２２２にて当該２以上の物体検出器３０の中から上述の方法にて基準物体検出器３０を選択及び設定するようにしても良い。この場合、ステップＳ２２３にて、当該２以上の物体検出器３０にて設定された２以上の物体検出領域のＩｏＵを導出し、以後は図３２又は図３３のステップＳ２２４の処理及びそれ以降の処理を行うようにしても良い。

【0201】

［実施例ＥＸ２＿３］
実施例ＥＸ２＿３を説明する。実施例ＥＸ２＿３ではマルチクラス構成が採用される。実施例ＥＸ２＿１及びＥＸ２＿２に示した技術はマルチクラス構成に対しても適用でき、当該技術をマルチクラス構成に適用した実施例を実施例ＥＸ２＿３として説明する。

【0202】

図３４に、実施例ＥＸ２＿３に係るデータ処理装置１Ａの動作フローチャートを示す。但し、図３２のステップＳ２４０～Ｓ２４７及びＳ２５１～Ｓ２５５から成る単位処理は１枚の入力画像ＩＮ［ｐ］に対して実行される処理である（図８参照）。当該単位処理は入力画像ＩＮごとに実行される。また、当該単位処理の内、１つの推論ブロック２０内で実行される処理は、データ処理装置１Ａ内の推論ブロック２０ごとに実行される。

【0203】

まずステップＳ２４０において、推論ブロック２０［ｊ］内に物体検出器３０［１］～３０［ｎ］にて入力画像ＩＮ［ｐ］に対する物体検出処理が実行されることでｎ組分の物体検出データが生成される。ステップＳ２４０の後、ステップＳ２４１に進む。ここでは、１枚の入力画像ＩＮ［ｐ］に対し各物体検出器３０にて１つずつ物体検出領域が設定されたと想定する。当該想定の下、入力画像ＩＮ［ｐ］に対して物体検出器３０［１］～３０［ｎ］により計ｎ個の物体検出領域が設定される。尚、推論ブロック２０［ｊ］において入力画像ＩＮ［ｐ］に対し一切の物体検出領域が設定されなかった場合には、以降の処理を行うことなく、入力画像ＩＮ［ｐ］に対する推論ブロック２０［ｊ］の動作を終える。

【0204】

ステップＳ２４１では、推論ブロック２０［ｊ］内において、統合部４０が、物体検出器３０［１］～３０［ｎ］にて設定された計ｎ個の物体検出領域についてのクラスデータＣＬＳが一致しているかを判断する。計ｎ個の物体検出領域についてのクラスデータＣＬＳが一致している場合には（ステップＳ２４１のＹ）ステップＳ２４２に進み、そうでない場合（ステップＳ２４１のＮ）にはステップＳ２５１に進む。

【0205】

例えば“ｎ＝２”である場合において、物体検出器３０［１］及び３０［２］にて設定された２つの物体検出領域についてのクラスデータＣＬＳが共に車両を表しているときにはステップＳ２４２に進む。これは、物体検出器３０［１］及び３０［２］が共通して物体検出領域内の物体が車両であると認識したことに相当する。一方例えば、“ｎ＝２”である場合において、物体検出器３０［１］にて設定された物体検出領域についてのクラスデータＣＬＳが車両を表す一方、物体検出器３０［２］にて設定された物体検出領域についてのクラスデータＣＬＳが人物を表すときにはステップＳ２５１に進む。これは、共通の物体を、物体検出器３０［１］、３０［２］が、夫々車両、人物であると認識したことに相当する。この場合には、物体検出器３０［１］及び３０［２］の内、少なくとも一方の物体検出処理の結果に誤りがある。誤りのある物体検出処理の結果を学習用データセットＤＳに混入させることは望ましくないため、ステップＳ２５１にてアテンション付与指示を発行する。

【0206】

ステップＳ２４２では、推論ブロック２０［ｊ］において、統合部４０が、物体検出器３０［１］～３０［ｎ］にて導出（生成）された信頼度ＳＣＲに基づき、物体検出器３０［１］～３０［ｎ］の内の１つを基準物体検出器３０に設定する。基準物体検出器３０の設定方法は上述した通りである。即ち、物体検出器３０［１］～３０［ｎ］の内、最大の信頼度ＳＣＲを導出した物体検出器３０が基準物体検出器３０に設定される。基準物体検出器３０が導出した信頼度ＳＣＲ（即ち基準物体検出器３０から出力される物体検出データ中の信頼度ＳＣＲ）を記号“ＳＣＲ_ＭＡＸ”にて参照する。

【0207】

ステップＳ２４２に続くステップＳ２４３では、推論ブロック２０［ｊ］において、統合部４０が、物体検出器３０［１］～３０［ｎ］にて設定された計ｎ個の物体検出領域の指標ＩｏＵを導出する。続くステップＳ２４４において、推論ブロック２０［ｊ］の統合部４０は、導出した指標ＩｏＵが重なり閾値ＩｏＵ_ＲＥＦ以上であるかを判断する。そして、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立すれば（ステップＳ２４４のＹ）、ステップＳ２４５に進む一方、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立ならば（ステップＳ２４４のＮ）、ステップＳ２５１に進む。

【0208】

ステップＳ２４５～Ｓ２４７の処理は実施例ＥＸ２＿２で示したステップＳ２２５～Ｓ２２７（図３２又は図３３参照）の処理と同じである。即ち、ステップＳ２４５では、推論ブロック２０［ｊ］において、統合部４０が、基準物体検出器３０から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器３０からの物体検出データ中のクラスデータＣＬＳ及び位置形状データＰＰを、統合部４０からの推論結果データ中のクラスデータ及び位置形状データに設定する。ステップＳ２４５の後、ステップＳ２４６及びＳ２４７の処理が実行される。ステップＳ２４６において、推論ブロック２０［ｊ］の統合部４０からの推論結果データに基づくアノテーション情報が入力画像ＩＮ［ｐ］に対するアノテーション情報として単位データセットＵ＿ＤＳ［ｐ］に含められる。その後のステップＳ２４７において、単位データセットＵ＿ＤＳ［ｐ］が学習用データセットＤＳに追加される。

【0209】

ステップＳ２５１に進んだ場合、ステップＳ２５１～Ｓ２５５の処理が順次実行される。ステップＳ２５１～Ｓ２５５の処理は実施例ＥＸ２＿２で示したステップＳ２３１～Ｓ２３５（図３２又は図３３参照）の処理と同じであり、ステップＳ２３１～Ｓ２３５に関して実施例ＥＸ２＿２にて示した内容が実施例ＥＸ２＿３にも適用される。

【0210】

即ち、ステップＳ２５１では、推論ブロック２０［ｊ］において、統合部４０が “０”の推論結果データを出力する一方でアテンション付与指示をアテンション付与部７０に発行する。ステップＳ２５１に至るケースでは、推論ブロック２０［ｊ］の統合部４０からの推論結果データが入力画像ＩＮ［ｐ］に関する単位データセットＵ＿ＤＳ［ｐ］に含められず（換言すれば単位データセットＵ＿ＤＳ［ｐ］から除外され）、結果、学習用データセットＤＳに反映されない。続くステップＳ２５２において、アテンション付与部７０によりアテンション付きデータが生成され、そのアテンション付きデータに基づくアテンション保持データがデータ格納部５０によりデータベースＤＢに格納される（図２４～図２６参照）。

【0211】

その後、ステップＳ２５３において、回答要求部７２は、アテンション保持データをデータベースＤＢから読み出し、読み出したデータに用いて、各物体検出器３０による入力画像ＩＮ［ｐ］に対する物体検出処理の結果の成否を判別者に問い合わせる。続くステップＳ２５４において、判別者は問い合わせ内容に対して回答し、その回答を示すデータが回答データ７５として回答取得部７４により取得される。回答データ７５が取得されると、ステップＳ２５５においてデータ格納部５０は当該回答データ７５に基づくデータ補完処理を実行する。即ち、ステップＳ２５５において、データ格納部５０は、アテンション保持データ中の入力画像ＩＮ［ｐ］の画像データと上記回答データ７５とに基づく単位データセットＵ＿ＤＳ［ｐ］を作成し、作成した単位データセットＵ＿ＤＳ［ｐ］を学習用データセットＤＳに含める。

【0212】

このように、推論ブロック２０［ｊ］（統合部４０）は、物体検出器３０［１］～３０［ｎ］での複数の物体検出処理にて導出される複数の信頼度ＳＣＲ（ｎ個の信頼度ＳＣＲ）の内、最大の信頼度ＳＣＲ_ＭＡＸを特定できる（ステップＳ２４２）。複数の物体検出処理により同一種類の物体が存在すると判断された複数の物体検出領域（ステップＳ２４２に進む場合の複数の物体検出領域）は統合推論領域の候補に相当し、各物体検出領域を候補領域と称することができる（図７参照）。そして、当該複数の物体検出領域のクラスデータが一致することは、同一種類の物体が存在すると判断された複数の物体検出領域が複数の候補領域となることに相当し、当該複数の物体検出領域のクラスデータが一致するときにステップＳ２４１からステップＳ２４２に移行する。ステップＳ２４２及びＳ２４３の処理を経てステップＳ２４４にて複数の候補領域の重なり度合い（ＩｏＵ）が評価される。そして、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立するときに、推論ブロック２０［ｊ］（統合部４０）は、最大の信頼度ＳＣＲ_ＭＡＸに対応する物体検出データ（最大の信頼度ＳＣＲ_ＭＡＸを導出した基準物体検出器３０からの物体検出データ）に基づき推論結果データを生成する（ステップＳ２４５）。一方、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立のとき、推論ブロック２０［ｊ］（統合部４０）は、各物体検出器３０による物体検出処理の結果に対して（即ち各物体検出データに対して）アテンション情報を付与する。ステップＳ２５２におけるアテンション付きデータの生成は、物体検出処理の結果に対する（即ち各物体検出データに対する）アテンション情報の付与に相当する（図２５参照）。

【0213】

尚、図３４の動作フローチャートに対して上述の変形ＭＤ２を適用しても良い。当該適用により、図３４の動作フローチャートは図３５の動作フローチャートへと変形される。変形ＭＤ２が適用された図３５のフローチャートでは、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立の場合には（ステップＳ２４４のＮ）、ステップＳ２４４からステップＳ２４８に進む。

【0214】

ステップＳ２４８において、推論ブロック２０［ｊ］の統合部４０は、信頼度ＳＣＲ_ＭＡＸが基準信頼度ＳＣＲ_ＲＥＦ以上であるかを判断する。そして、“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が成立すれば（ステップＳ２４８のＹ）、ステップＳ２４５に移行して上述のステップＳ２４５～Ｓ２４７の各処理が行われる。“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が不成立ならば（ステップＳ２４８のＮ）、ステップＳ２５１に進んで上述のステップＳ２５１～Ｓ２５５の各処理が行われる。図３５の動作フローチャートでは、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立するときに、又は、“ＩｏＵ＜ＩｏＵ_ＲＥＦ”且つ“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が成立するときにアテンション付与条件は不成立である。図３５の動作フローチャートでは、“ＩｏＵ＜ＩｏＵ_ＲＥＦ”及び“ＳＣＲ_ＭＡＸ＜ＳＣＲ_ＲＥＦ”の双方が成立するときに限りアテンション付与条件が成立する。

【0215】

また、推論ブロック２０［ｊ］において、入力画像ＩＮ［ｐ］に対する物体検出処理により、物体検出器３０［１］～３０［ｎ］の内、一部の物体検出器３０のみにて物体検出領域が設定されるケース（以下、便宜上、ケースＣＳ_Ｂ３１と称する）もあり得る。ケースＣＳ_Ｂ３１では、物体検出器３０［１］～３０［ｎ］の内、一部の物体検出器３０のみからクラスデータＣＬＳ、位置形状データＰＰ及び信頼度ＳＣＲを含む物体検出データが出力され、残部の物体検出器３０から“０”の物体検出データが出力される。ケースＣＳ_Ｂ３１においては、入力画像ＩＮ［ｐ］に関して常にステップＳ２５１に進むようにして良い。ケースＣＳ_Ｂ３１においては、物体検出器３０［１］～３０［ｎ］の内、少なくとも１つの物体検出処理の結果に誤り（未検出を含む）があるからである。

【0216】

但し、ケースＣＳ_Ｂ３１において、推論ブロック２０［ｊ］内の２以上の物体検出器３０にて物体検出領域が設定され且つ２以上の物体検出器３０から出力される２以上のクラスデータＣＬＳが互いに一致している場合には、ステップＳ２４２に進むようにしても良い。この場合にあっては、ステップＳ２４２にて当該２以上の物体検出器３０の中から上述の方法にて基準物体検出器３０を選択及び設定することができる。そして、ステップＳ２４３にて、当該２以上の物体検出器３０にて設定された２以上の物体検出領域のＩｏＵを導出し、以後は図３４又は図３５のステップＳ２４４の処理及びそれ以降の処理を行うようにしても良い。

【0217】

［実施例ＥＸ２＿４］
実施例ＥＸ２＿４を説明する。実施例ＥＸ２＿４では主としてシングルクラス構成が採用されることを想定する（但しマルチクラス構成が採用されても良い）。データ処理装置１Ａでは、モデルの機能拡張が容易であると共に新規種類の物体についての教師データを容易に学習用データセットＤＳに追加できるというメリットがある。この点は実施例ＥＸ１＿４に示した通りであり、上述の実施例ＥＸ１＿４は第２実施形態に係るデータ処理装置１Ａに対しても適用される。

【0218】

具体的には、図３６に示す如く、データ処理装置１Ａに動作制御部６０を追加することができる。動作制御部６０の構成、動作及び機能については実施例ＥＸ１＿４で示した通りである。データ処理装置１Ａの操作者はインターフェース４を通じてデータ処理装置１Ａに選択指示情報６１を入力することができ、動作制御部６０は選択指示情報６１の内容に基づきブロック選択処理を実行する。上述したように、ブロック選択処理において動作制御部６０は、推論ブロック２０［１］～２０［ｎ］の動作の実行有無を個別に制御できる。

【0219】

［実施例ＥＸ２＿５］
実施例ＥＸ２＿５を説明する。上述の実施例ＥＸ２＿１～ＥＸ２＿３では、１枚の入力画像ＩＮ［ｐ］に対し各物体検出器３０にて１つずつ物体検出領域が設定されることが主として想定されている。但し、実際には、１枚の入力画像ＩＮ［ｐ］に認識対象物体の像が複数含まれることもあり、結果、各物体検出器３０において１枚の入力画像ＩＮ［ｐ］に対し複数の物体検出領域が設定されることもある。この場合には、ＸＹ座標面上における物体検出領域間の距離に基づいて、ＩｏＵが導出されるべき組み合わせ（即ち、互いに対応付けられる物体検出領域の組み合わせ）を決定すれば良く、当該決定の方法として実施例ＥＸ１＿５で示した方法を利用できる。

【0220】

そして、互いに対応付けられた物体検出領域の組み合わせごとに実施例ＥＸ２＿１～ＥＸ２＿３に示した方法を適用すれば良い。即ち例えば、互いに対応付けられた物体検出領域の組み合わせごとに、図３２若しくは図３３のステップＳ２２１より後の処理、又は、図３４若しくは図３５のステップＳ２４０より後の処理を実行すれば良い。

【0221】

［実施例ＥＸ２＿６］
実施例ＥＸ２＿６を説明する。実施例ＥＸ２＿６ではマルチクラス構成が採用されることを想定する。実施例ＥＸ２＿６では実施例ＥＸ２＿３に対して適用可能な変形技術を説明する。実施例ＥＸ２＿３に係る図３４又は図３５を再度参照する。

【0222】

ステップＳ２４１では、推論ブロック２０［ｊ］内において、統合部４０が、物体検出器３０［１］～３０［ｎ］にて設定された計ｎ個の物体検出領域についてのクラスデータＣＬＳが一致しているかを判断する。ここで、計ｎ個の物体検出領域についてのクラスデータＣＬＳが一致している場合に（ステップＳ２４１のＹ）ステップＳ２４２に進む点は実施例ＥＸ２＿３と同様である。但し、計ｎ個の物体検出領域についてのクラスデータＣＬＳが一致していない場合（ステップＳ２４１のＮ）、実施例ＥＸ２＿６ではクラス照合部７６（図３７参照）によりクラス照合処理が実行される。クラス照合部７６は演算処理部２に設けられる機能ブロックであって良い。演算処理部２においてメモリ３に格納されたプログラムを実行することでクラス照合部７６が構成されても良い。

【0223】

尚、計ｎ個の物体検出領域についてのクラスデータＣＬＳが一致していないとは、ｎ個の物体検出領域についての計ｎ個のクラスデータＣＬＳの中に、複数種類の物体を示すクラスデータＣＬＳが混在していることを指す。

【0224】

図３７を参照して、クラス照合処理を説明する。今、“ｎ＝２”であって、１枚の入力画像ＩＮ［ｐ］内に物体２６１２の像が含まれており、入力画像ＩＮ［ｐ］に対し推論ブロック２０［ｊ］内の物体検出器３０［１］及び３０［２］が物体検出処理を行うことを想定する。これにより、物体検出器３０［１］及び３０［２］にて夫々物体検出領域２６１３［１］及び２６１３［１］が設定されたとする。物体検出領域２６１３［１］及び２６１３［１］は、夫々、物体検出器３０［１］及び３０［２］による物体２６１２の検出領域に相当する。また、推論ブロック２０［ｊ］における各物体検出器３０の認識対象物体に車両及び人物が含まれているものとする。そして、物体検出器３０［１］は物体検出領域２６１３［１］内の物体が車両であることを示すクラスデータ２６１４［１］を出力する一方で、物体検出器３０［２］は物体検出領域２６１３［２］内の物体が人物であることを示すクラスデータ２６１４［２］を出力したとする。

【0225】

物体検出領域２６１３［１］を特定する位置形状データ及びクラスデータ２６１４［１］を含む物体検出データ、並びに、物体検出領域２６１３［２］を特定する位置形状データ及びクラスデータ２６１４［２］を含む物体検出データが、ステップＳ２４０（図３４又は図３５）にて生成される。クラスデータ２６１４［１］及び２６１４［２］は一致していないため（ステップＳ２４１のＮ）、クラス照合処理が実行される。

【0226】

クラス照合処理において、クラス照合部７６は、入力画像ＩＮ［ｐ］から物体検出領域２６１３［１］内の画像を照会画像２６２３［１］として抽出し、入力画像ＩＮ［ｐ］から物体検出領域２６１３［２］内の画像を照会画像２６２３［２］として抽出する。そして、クラス照合部７６は照会画像２６２３［１］及び２６２３［２］の各画像データを外部認識装置ＤＤに送る。外部認識装置ＤＤは、データ処理装置１（第２実施形態ではデータ処理装置１Ａ）とは異なる装置であって、例えば、上記通信網を介してデータ処理装置１（第２実施形態ではデータ処理装置１Ａ）と接続される。

【0227】

外部認識装置ＤＤは画像内の物体の種類を識別する画像分類処理を実行する。クラウドコンピューティングを利用した既存の画像分類器を外部認識装置ＤＤとして用いることができる。従って、外部認識装置ＤＤは、照会画像２６２３［１］の画像データに基づいて照会画像２６２３［１］内の物体の種類を識別し、照会画像２６２４［２］の画像データに基づいて照会画像２６２３［２］内の物体の種類を識別する。それらの識別結果を示す識別結果データが外部認識装置ＤＤからクラス照合部７６に供給される。

【0228】

クラス照合部７６は識別結果データに基づいて推論ブロック２０［ｊ］内の統合部４０を以下のように動作させる。

【0229】

照会画像２６２３［１］及び２６２３［２］内の物体が車両であるとの識別結果が識別結果データにて示されるケースを、ケースＣＳ_Ｂ６１と称する。ケースＣＳ_Ｂ６１では、物体検出器３０［１］及び３０［２］の内、物体検出器３０［１］による物体の種類の検出結果が外部認識装置ＤＤの識別結果と一致する。故に、ケースＣＳ_Ｂ６１では、物体検出器３０［１］による物体検出処理の結果の方が物体検出器３０［２］による物体検出処理の結果よりも確からしい。ケースＣＳ_Ｂ６１においてアテンション付与条件が満たされると判断し、ステップＳ２４１からステップＳ２５１への移行を発生させる。これにより、アテンション付きデータが生成される。但し、ケースＣＳ_Ｂ６１に係るアテンション付きデータは、物体検出器３０［１］からの物体検出データを含むが、物体検出器３０［２］からの物体検出データを含まないものであって良い。或いは、ケースＣＳ_Ｂ６１に係るアテンション付きデータは、物体検出器３０［１］及び３０［２］からの物体検出データを含みつつ、当該アテンション付きデータにおいてクラスデータ２６１４［２］にて示される物体の種類が人物から車両に修正されていても良い。

【0230】

尚、ケースＣＳ_Ｂ６１において、ステップＳ２４１からステップＳ２４５へ移行させることも可能である。この場合、物体検出器３０［１］が基準物体検出器３０として取り扱われる。

【0231】

照会画像２６２３［１］及び２６２３［２］内の物体が人物であるとの識別結果が識別結果データにて示されるケースを、ケースＣＳ_Ｂ６２と称する。ケースＣＳ_Ｂ６２では、物体検出器３０［１］及び３０［２］の内、物体検出器３０［２］による物体の種類の検出結果が外部認識装置ＤＤの識別結果と一致する。故に、ケースＣＳ_Ｂ６２では、物体検出器３０［２］による物体検出処理の結果の方が物体検出器３０［１］による物体検出処理の結果よりも確からしい。ケースＣＳ_Ｂ６２においてアテンション付与条件が満たされると判断し、ステップＳ２４１からステップＳ２５１への移行を発生させる。これにより、アテンション付きデータが生成される。但し、ケースＣＳ_Ｂ６２に係るアテンション付きデータは、物体検出器３０［２］からの物体検出データを含むが、物体検出器３０［１］からの物体検出データを含まないものであって良い。或いは、ケースＣＳ_Ｂ６２に係るアテンション付きデータは、物体検出器３０［１］及び３０［２］からの物体検出データを含みつつ、当該アテンション付きデータにおいてクラスデータ２６１４［１］にて示される物体の種類が車両から人物に修正されていても良い。

【0232】

尚、ケースＣＳ_Ｂ６２において、ステップＳ２４１からステップＳ２４５へ移行させることも可能である。この場合、物体検出器３０［２］が基準物体検出器３０として取り扱われる。

【0233】

外部認識装置ＤＤは物体検出が可能な物体検出器であっても良い。この場合には、クラス照合部７６は入力画像ＩＮ［ｐ］の画像データ全体を外部認識装置ＤＤに供給しても良い。これにより、外部認識装置ＤＤにて物体２６１２の種類の検出だけでなく、物体２６１２についての物体検出領域（バウンディングボックス）も検出され、それらの検出結果が識別結果データに含められる。この際、クラス照合部７６又は統合部４０は、識別結果データに基づいて物体検出領域２６１３［１］又は２６１３［２］を修正しても良い。

【0234】

説明の具体化のため、“ｎ＝２”である場合を注目したが、実施例ＥＸ２＿６に示した方法は“ｎ≧３”であっても同様に実施できる。

【0235】

＜＜第３実施形態＞＞
本発明の第３実施形態を説明する。第３実施形態では、基本実施形態にて上述したデータ処理装置１の構成をそのまま利用できる。

【0236】

入力画像ＩＮにおける認識対象物体の画像サイズは様々である。例えば、カメラによる車両の撮影画像を入力画像ＩＮとして用いる場合、カメラから車両までの距離に応じて入力画像ＩＮ上における車両の画像サイズは様々に変化する。あらゆる画像サイズの車両を正確に検出可能な単一の画像認識モデル（物体検出器）を構成することは容易ではない。そこで、第３実施形態では、得意な検出サイズが互いに異なる複数の画像認識モデルを用意し、それらの認識結果を統合することで推論結果データを得る。

【0237】

互いに異なる環境の機械学習により複数の画像認識モデルを形成することで、得意な検出サイズが互いに異なる複数の画像認識モデルを得ることができる。これについて具体例を挙げる。説明の具体化のため、図３８を参照し、認識対象物体が車両であるシングルクラスの画像認識モデル３３１［１］～３３１［ｎ］の構築方法を説明する。

【0238】

モデル構築工程において、ニューラルネットワークが用意され、機械学習にてニューラルネットワークを学習させることで画像認識モデル（３３１［１］～３３１［ｎ］）が構築される。画像認識モデル３３１［ｉ］を形成するニューラルネットワークをＮＮ３１２０［ｉ］と表記する。ここにおけるｉは１以上且つｎ以下の整数である。ＮＮ３１２０［１］～３１２０［ｎ］はディープニューラルネットワークに分類される。

【0239】

モデル構築工程では、既存の学習用データセット３１１０［１］～３１１０［ｎ］を用いてＮＮ３１２０［１］～３１２０［ｎ］の機械学習を実行する。ＮＮ３１２０［ｉ］の機械学習は学習用データセット３１１０［ｉ］を用いて実行される。学習用データセット３１１０［１］～３１１０［ｎ］は、データ処理装置１にて作成されるべき学習用データセットＤＳとは別の学習用データセットであり、データ処理装置１が構築される前の段階において現存する。

【0240】

学習用データセット３１１０［１］～３１１０［ｎ］は、夫々に、複数の学習用画像（即ち複数の学習用画像の画像データ）と、各学習用画像に対するアノテーション情報と、を含む。学習用データセット３１１０［１］～３１１０［ｎ］において、各学習用画像は認識対象物体である車両の像を含み、各アノテーション情報は学習用画像内のどの部分に車両の像が存在するのかを特定する。アノテーション情報は教師データに相当する。教師データは機械学習の中で参照される正解データを示す。

【0241】

図示されない機械学習部は、学習用データセット３１１０［１］を用いてＮＮ３１２０［１］の機械学習（教師あり機械学習）を実行する。機械学習済みのＮＮ３１２０［１］である学習済みモデルが画像認識モデル３３１［１］に相当する。同様に、学習用データセット３１１０［２］を用いてＮＮ３１２０［２］の機械学習（教師あり機械学習）を実行する。機械学習済みのＮＮ３１２０［２］である学習済みモデルが画像認識モデル３３１［２］に相当する。学習用データセット３１１０［３］及びＮＮ３１２０［３］等についても同様である。画像認識モデル３３１［１］～３３１［ｎ］を、夫々、１つの推論ブロック２０［ｊ］内の物体検出器３０［１］～３０［ｎ］に組み込むことができる。学習用データセット３１１０［１］～３１１０［ｎ］は互いに異なる学習用データセットであり、故に、画像認識モデル３３１［１］～３３１［ｎ］は互いに異なる環境の機械学習により形成されることになる。

【0242】

尚、モデル構築工程の各処理の実行主体は任意である。演算処理部２にてモデル構築工程の各処理を実行しても良いし、データ処理装置１と異なる任意の演算処理装置にてモデル構築工程の各処理を実行しても良い。画像認識モデル３３１［１］～３３１［ｎ］の内、任意の１以上は、本出願が行われる時点で現存する画像認識モデルであっても良い。

【0243】

学習用データセット３１１０［ｉ］に含まれる学習用画像を第ｉ学習用画像と称する。学習用データセット３１１０［ｉ］には大量の第ｉ学習用画像（例えば１０万枚の第ｉ学習用画像）が含まれる。各第ｉ学習用画像は認識対象物体としての車両の像を含むが、各第ｉ学習用画像において認識対象物体（ここでは車両）は範囲ＲＲ［ｉ］内の画像サイズを有する。図３９を参照し、即ち例えば、各第１学習用画像において認識対象物体（ここでは車両）は範囲ＲＲ［１］内の画像サイズを有し、各第２学習用画像において認識対象物体（ここでは車両）は範囲ＲＲ［２］内の画像サイズを有する。第３学習用画像及び範囲ＲＲ［３］についても同様である。ここで、範囲ＲＲ［１］～ＲＲ［ｎ］は互いに分離した範囲（即ち互いに重なり合わない範囲）である。そして、範囲ＲＲ［ｉ］には第ｉ特定画像サイズが内包される。即ち例えば、範囲ＲＲ［１］には第１特定画像サイズが内包され、範囲ＲＲ［２］には第２特定画像サイズが内包される。範囲ＲＲ［３］及び第３特定画像サイズ等についても同様である。

【0244】

特定画像サイズは、学習用画像又は入力画像ＩＮにおける認識対象物体の画像サイズの内、特定の画像サイズを表す。第１特定画像サイズ～第ｎ特定画像サイズは互いに異なる。任意の整数ｉに関して、第ｉ特定画像サイズよりも第（ｉ＋１）特定画像サイズの方が大きく、故に、範囲ＲＲ［ｉ］に属する各画像サイズよりも範囲ＲＲ［ｉ＋１］に属する各画像サイズの方が大きい。

【0245】

範囲ＲＲ［１］内の画像サイズを有する複数の第１学習用画像を用いた機械学習により画像認識モデル３３１［１］が形成される。このため、画像認識モデル３３１［１］は第１特定画像サイズ又は範囲ＲＲ［１］内の画像サイズを有する認識対象物体（ここでは車両）を良好に検出可能なモデルとなる。画像認識モデル３３１［１］は、第１特定画像サイズ又は範囲ＲＲ［１］内の画像サイズを有する認識対象物体の検出に適合（対応）する機械学習を経て得られた学習済みモデルであると言える。同様に、範囲ＲＲ［２］内の画像サイズを有する複数の第２学習用画像を用いた機械学習により画像認識モデル３３１［２］が形成される。このため、画像認識モデル３３１［２］は第２特定画像サイズ又は範囲ＲＲ［２］内の画像サイズを有する認識対象物体（ここでは車両）を良好に検出可能なモデルとなる。画像認識モデル３３１［２］は、第２特定画像サイズ又は範囲ＲＲ［２］内の画像サイズを有する認識対象物体の検出に対応（適合）する機械学習を経て得られた学習済みモデルであると言える。画像認識モデル３３１［３］等も同様である。

【0246】

例えば、“ｎ＝３”で考えた場合、第１特定画像サイズは（８×８）画素分の画像サイズであり、第２特定画像サイズは（１６×１６）画素分の画像サイズであり、第３特定画像サイズは（６４×６４）画素分の画像サイズである。

【0247】

第１特定画像サイズが（８×８）画素分の画像サイズであって、学習用画像における車両の画像サイズが第１特定画像サイズであるとき又は第１特定画像サイズ近辺であるとき、画像内で車両の構成部品の詳細は現れない。このため、機械学習の段階においてＮＮ３１２０［１］は車両の細部でなく車両の全体的な形状を元に注目した物体が車両であるかを判断するよう、自身のパラメータ（重み等）を更新してゆく。その結果として得られる画像認識モデル３３１［１］は、第１特定画像サイズ又は第１特定画像サイズ近辺の画像サイズを持つ車両の検出に対して高い検出精度を持つ。

【0248】

第３特定画像サイズが（６４×６４）画素分の画像サイズであって、学習用画像における車両の画像サイズが第３特定画像サイズであるとき又は第３特定画像サイズ近辺であるとき、画像内で車両の構成部品の詳細が現れる又は現れやすい。このため、機械学習の段階においてＮＮ３１２０［３］は車両の全体形状だけではなく車両の細部形状等を元に注目した物体が車両であるかを判断するよう、自身のパラメータ（重み等）を更新してゆく。その結果として得られる画像認識モデル３３１［３］は、第３特定画像サイズ又は第３特定画像サイズ近辺の画像サイズを持つ車両の検出に対して高い検出精度を持つ。

【0249】

上述の画像認識モデル３３１［１］～３３１［ｎ］を１つの推論ブロック２０［ｊ］内の物体検出器３０［１］～３０［ｎ］に組み込み、物体検出器３０［１］～３０［ｎ］の物体検出処理の結果を統合して推論結果データを生成することができる。これにより、推論ブロック２０［ｊ］全体において、様々な画像サイズの認識対象物体を正確に検出（認識）することが可能となる。

【0250】

尚、範囲ＲＲ［ｉ］に属さない画像サイズを有する認識対象物体の像を含んだ学習用画像が、学習用データセット３１１０［ｉ］に含まれることがあっても良い。例えば、範囲ＲＲ［２］に属する画像サイズを有する認識対象物体の像を含んだ学習用画像が、学習用データセット３１１０［１］に含まれることがあっても良い。但し、学習用データセット３１１０［ｉ］に含まれる学習用画像の大半は、範囲ＲＲ［ｉ］に属する画像サイズを有する認識対象物体の像を含んでいることが好ましい。より具体的には例えば、学習用データセット３１１０［ｉ］に含まれる全学習用画像の枚数をＮＵＭ_{ＴＯＴＡＬ１}［ｉ］で表したとき、“ＮＵＭ_１［ｉ］／ＮＵＭ_{ＴＯＴＡＬ１}［ｉ］≧ｋ”が成立すると良い。ここで、ＮＵＭ_１［ｉ］は、学習用データセット３１１０［ｉ］に含まれる全学習用画像の内、範囲［ｉ］内の画像サイズを有する認識対象物体の像を含んだ学習用画像の枚数を指す。ｋは０．５以上の所定値である。

【0251】

また、ここでは、車両が認識対象物体である例を挙げたが、認識対象物体の種類が車両以外であっても同様である。

【0252】

第３実施形態は以下の実施例ＥＸ３＿１～ＥＸ３＿５を含む。実施例ＥＸ３＿１～ＥＸ３＿５にて第３実施形態に関わる具体的な動作等を説明する。第３実施形態にて上述した事項は、特に記述無き限り且つ矛盾無き限り、以下の実施例ＥＸ３＿１～ＥＸ３＿５に適用される。但し、各実施例において、第３実施形態で上述した事項と矛盾する事項については各実施例での記載が優先されて良い。また矛盾無き限り、実施例ＥＸ３＿１～ＥＸ３＿５の内、任意の実施例に記載した事項を、他の任意の実施例に適用することもできる（即ち複数の実施例の内の任意の２以上の実施例を組み合わせることも可能である）。

【0253】

［実施例ＥＸ３＿１］
実施例ＥＸ３＿１を説明する。実施例ＥＸ３＿１は、第３実施形態に関わる技術を具体化した典型的な実施例に相当する。図４０に、実施例ＥＸ３＿１に係るデータ処理装置１の要部の機能ブロック図を示す。実施例ＥＸ３＿１では、“ｍ＝２”であって、且つ、各推論ブロック２０において“ｎ＝２”であるとする（図１及び図４０参照）。また、実施例ＥＸ３＿１では、シングルクラス構成が採用される。

【0254】

実施例ＥＸ３＿１に係る推論ブロック２０［１］において、物体検出器３０［１］における画像認識モデルは車両用モデル３３１［１，１］であり、物体検出器３０［２］における画像認識モデルは車両用モデル３３１［１，２］である。実施例ＥＸ３＿１に係る推論ブロック２０［２］において、物体検出器３０［１］における画像認識モデルは人物用モデル３３１［２，１］であり、物体検出器３０［２］における画像認識モデルは人物用モデル３３１［２，２］である。

【0255】

上述したように、車両用モデル（ここでは、３３１［１，１］、３３１［１，２］）は、車両のみを認識対象物体とするシングルクラスの画像認識モデルである。故に、実施例ＥＸ３＿１に係る推論ブロック２０［１］において、物体検出器３０［１］及び３０［２］は、車両のみを認識対象物体とするシングルクラスの物体検出器である。

【0256】

車両用モデル３３１［１，１］は、学習用データセットＬＤＳ［１，１］を用いた機械学習Ｌ［１，１］を経て構成された学習済みモデルである（図４０においてデータセットＬＤＳ［１，１］を図示せず）。機械学習Ｌ［１，１］における認識対象物体は車両である。学習用データセットＬＤＳ［１，１］に含まれる各学習用画像は車両の像を含み、学習用データセットＬＤＳ［１，１］に含まれるアノテーション情報（教師データ）は、学習用画像ごとに学習用画像内のどの部分に車両の像が存在するのかを特定する。そして、学習用データセットＬＤＳ［１，１］に含まれる各学習用画像中の車両は範囲ＲＲ［１］内の画像サイズを有する。このため、機械学習Ｌ［１，１］は、学習用画像又は入力画像ＩＮにおいて比較的小さな第１特定画像サイズを持つ（又は範囲ＲＲ［１］内の画像サイズを持つ）車両の検出に適合する。結果、車両用モデル３３１［１，１］は、入力画像ＩＮにおいて第１特定画像サイズを持つ（又は範囲ＲＲ［１］内の画像サイズを持つ）車両を精度良く検出可能である。

【0257】

車両用モデル３３１［１，２］は、学習用データセットＬＤＳ［１，２］を用いた機械学習Ｌ［１，２］を経て構成された学習済みモデルである（図４０においてデータセットＬＤＳ［１，２］を図示せず）。機械学習Ｌ［１，２］における認識対象物体は車両である。学習用データセットＬＤＳ［１，２］に含まれる各学習用画像は車両の像を含み、学習用データセットＬＤＳ［１，２］に含まれるアノテーション情報（教師データ）は、学習用画像ごとに学習用画像内のどの部分に車両の像が存在するのかを特定する。そして、学習用データセットＬＤＳ［１，２］に含まれる各学習用画像中の車両は範囲ＲＲ［２］内の画像サイズを有する。このため、機械学習Ｌ［１，２］は、学習用画像又は入力画像ＩＮにおいて比較的大きな第２特定画像サイズを持つ（又は範囲ＲＲ［２］内の画像サイズを持つ）車両の検出に適合する。結果、車両用モデル３３１［１，２］は、入力画像ＩＮにおいて第２特定画像サイズを持つ（又は範囲ＲＲ［２］内の画像サイズを持つ）車両を精度良く検出可能である。

【0258】

上述したように、人物用モデル（ここでは、３３１［２，１］、３３１［２，２］）は、人物のみを認識対象物体とするシングルクラスの画像認識モデルである。故に、実施例ＥＸ３＿１に係る推論ブロック２０［２］において、物体検出器３０［１］及び３０［２］は、人物のみを認識対象物体とするシングルクラスの物体検出器である。

【0259】

人物用モデル３３１［２，１］は、学習用データセットＬＤＳ［２，１］を用いた機械学習Ｌ［２，１］を経て構成された学習済みモデルである（図４０においてデータセットＬＤＳ［２，１］を図示せず）。機械学習Ｌ［２，１］における認識対象物体は人物である。学習用データセットＬＤＳ［２，１］に含まれる各学習用画像は人物の像を含み、学習用データセットＬＤＳ［２，１］に含まれるアノテーション情報（教師データ）は、学習用画像ごとに学習用画像内のどの部分に人物の像が存在するのかを特定する。そして、学習用データセットＬＤＳ［２，１］に含まれる各学習用画像中の人物は範囲ＲＲ［１］内の画像サイズを有する。このため、機械学習Ｌ［２，１］は、学習用画像又は入力画像ＩＮにおいて比較的小さな第１特定画像サイズを持つ（又は範囲ＲＲ［１］内の画像サイズを持つ）人物の検出に適合する。結果、人物用モデル３３１［２，１］は、入力画像ＩＮにおいて第１特定画像サイズを持つ（又は範囲ＲＲ［１］内の画像サイズを持つ）人物を精度良く検出可能である。

【0260】

人物用モデル３３１［２，２］は、学習用データセットＬＤＳ［２，２］を用いた機械学習Ｌ［２，２］を経て構成された学習済みモデルである（図４０においてデータセットＬＤＳ［２，２］を図示せず）。機械学習Ｌ［２，２］における認識対象物体は人物である。学習用データセットＬＤＳ［２，２］に含まれる各学習用画像は人物の像を含み、学習用データセットＬＤＳ［２，２］に含まれるアノテーション情報（教師データ）は、学習用画像ごとに学習用画像内のどの部分に人物の像が存在するのかを特定する。そして、学習用データセットＬＤＳ［２，２］に含まれる各学習用画像中の人物は範囲ＲＲ［２］内の画像サイズを有する。このため、機械学習Ｌ［２，２］は、学習用画像又は入力画像ＩＮにおいて比較的大きな第２特定画像サイズを持つ（又は範囲ＲＲ［２］内の画像サイズを持つ）人物の検出に適合する。結果、人物用モデル３３１［２，２］は、入力画像ＩＮにおいて第２特定画像サイズを持つ（又は範囲ＲＲ［２］内の画像サイズを持つ）人物を精度良く検出可能である。

【0261】

車両用モデル３３１［１，１］、３３１［１，２］は、夫々、図３８に示した画像認識モデル３３１［１］、３３１［２］であって良い。画像認識モデル３３１［１］及び３３１［２］を構築するときと同様のモデル構築工程を経て、人物用モデル３３１［２，１］及び３３１［２，２］を構築することができる。但し、人物用モデル３３１［２，１］及び３３１［２，２］を構築する際の認識対象物体は人物とされる。

【0262】

車両の像及び人物の像を含む入力画像ＩＮ（例えば図１３の入力画像１１１０）が各推論ブロック２０に入力されたケースＣＳ_Ｃ１１を考える。ケースＣＳ_Ｃ１１において（図４０参照）、推論ブロック２０［１］の物体検出器３０［１］、３０［２］から夫々物体検出データ３３２［１，１］、３３２［１，２］が出力され、推論ブロック２０［２］の物体検出器３０［１］、３０［２］から夫々物体検出データ３３２［２，１］、３３２［２，２］が出力される。ケースＣＳ_Ｃ１１において、推論ブロック２０［１］の統合部４０から推論結果データ３３３［１］が出力され、推論ブロック２０［２］の統合部４０から推論結果データ３３３［２］が出力される。

【0263】

ケースＣＳ_Ｃ１１では、推論ブロック２０［１］の物体検出器３０［１］及び３０［２］の内、少なくとも一方で入力画像ＩＮ内の車両が検出されることが期待される。入力画像ＩＮ内の車両の像が比較的小さければ、推論ブロック２０［１］の物体検出器３０［１］のみにて車両が検出される可能性が高い。逆に、入力画像ＩＮ内の車両の像が比較的大きければ、推論ブロック２０［１］の物体検出器３０［２］のみにて車両が検出される可能性が高い。

【0264】

ケースＣＳ_Ｃ１１において、推論ブロック２０［１］の統合部４０は、物体検出データ３３２［１，１］又は３３２［１，２］に基づき推論結果データ３３３［１］を生成できる。推論ブロック２０［１］において、物体検出器３０［１］及び３０［２］の内、物体検出器３０［１］のみにて車両が検出された場合、統合部４０は物体検出データ３３２［１，１］を推論結果データ３３３［１］に採用する。推論ブロック２０［１］において、物体検出器３０［１］及び３０［２］の内、物体検出器３０［２］のみにて車両が検出された場合、統合部４０は物体検出データ３３２［１，２］を推論結果データ３３３［１］に採用する。

【0265】

入力画像ＩＮにおける車両の画像サイズ等によっては、推論ブロック２０［１］における物体検出器３０［１］及び３０［２］の双方にて車両が検出され得る。推論ブロック２０［１］において、物体検出器３０［１］及び３０［２］の双方にて車両が検出された場合、統合部４０は、物体検出データ３３２［１，１］及び３３２［１，２］に基づき推論結果データ３３３［１］を生成できる。この際、推論ブロック２０［１］内の物体検出器３０［１］及び３０［２］にて設定された２つの物体検出領域間のＩｏＵ及び各信頼度ＳＣＲに基づき推論結果データ３３３［１］を生成できる。ＩｏＵ等に基づく推論結果データの生成方法として上述の何れかの実施例（例えば実施例ＥＸ１＿１又はＥＸ１＿２）にて示した方法を採用できる。

【0266】

ケースＣＳ_Ｃ１１では、推論ブロック２０［２］の物体検出器３０［１］及び３０［２］の内、少なくとも一方で入力画像ＩＮ内の人物が検出されることが期待される。入力画像ＩＮ内の人物の像が比較的小さければ、推論ブロック２０［２］の物体検出器３０［１］のみにて人物が検出される可能性が高い。逆に、入力画像ＩＮ内の人物の像が比較的大きければ、推論ブロック２０［２］の物体検出器３０［２］のみにて人物が検出される可能性が高い。

【0267】

ケースＣＳ_Ｃ１１において、推論ブロック２０［２］の統合部４０は、物体検出データ３３２［２，１］又は３３２［２，２］に基づき推論結果データ３３３［２］を生成できる。推論ブロック２０［２］において、物体検出器３０［１］及び３０［２］の内、物体検出器３０［１］のみにて人物が検出された場合、統合部４０は物体検出データ３３２［２，１］を推論結果データ３３３［２］に採用する。推論ブロック２０［２］において、物体検出器３０［１］及び３０［２］の内、物体検出器３０［２］のみにて人物が検出された場合、統合部４０は物体検出データ３３２［２，２］を推論結果データ３３３［２］に採用する。

【0268】

入力画像ＩＮにおける人物の画像サイズ等によっては、推論ブロック２０［２］における物体検出器３０［１］及び３０［２］の双方にて人物が検出され得る。推論ブロック２０［２］において、物体検出器３０［１］及び３０［２］の双方にて人物が検出された場合、統合部４０は、物体検出データ３３２［２，１］及び３３２［２，２］に基づき推論結果データ３３３［２］を生成できる。この際、推論ブロック２０［２］内の物体検出器３０［１］及び３０［２］にて設定された２つの物体検出領域間のＩｏＵ及び各信頼度ＳＣＲに基づき推論結果データ３３３［２］を生成できる。ＩｏＵ等に基づく推論結果データの生成方法として上述の何れかの実施例（例えば実施例ＥＸ１＿１又はＥＸ１＿２）にて示した方法を採用できる。

【0269】

データ格納部５０は、入力画像ＩＮと推論結果データ３３３［１］及び３３３［２］とに基づく単位データセット３３４を生成する。データ格納部５０は、単位データセット３３４をデータベースＤＢに格納することにより、単位データセット３３４を学習用データセットＤＳの一部として学習用データセットＤＳに追加する。

【0270】

このように、同一の物体に対して、検出精度の高まるサイズが相違した複数の画像認識モデルを適用し、それらの結果を統合する。これにより、様々な画像サイズの認識対象物体を正確に検出（認識）することが可能となる。結果、量的にも質的にも良好な学習用データセットＤＳを得ることが可能となる。

【0271】

［実施例ＥＸ３＿２］
実施例ＥＸ３＿２を説明する。実施例ＥＸ３＿１では“ｎ＝２”が想定されているが、上述したようにｎの値は２以上であれば任意である。実施例ＥＸ３＿２では、実施例ＥＸ３＿１にて示した技術を一般化する。実施例ＥＸ３＿２ではシングルクラス構成が採用される。

【0272】

図４１に、実施例ＥＸ３＿２に係るデータ処理装置１の動作フローチャートを示す。図４１のステップＳ３２１～Ｓ３２４及びＳ３３１～Ｓ３３６から成る単位処理は１つの推論ブロック２０［ｊ］において１枚の入力画像ＩＮ［ｐ］に対して実行される処理である（図８参照）。当該単位処理は、データ処理装置１内の各推論ブロック２０にて実行され、且つ、入力画像ＩＮごとに実行される。また実施例ＥＸ３＿２では、説明の具体化のため、１枚の入力画像ＩＮ［ｐ］に物体ＯＢＪ（図７）の像が１つだけ含まれていることを想定し、且つ、物体ＯＢＪの種類は推論ブロック２０［ｊ］の各物体検出器３０における認識対象物体の種類と一致することを想定する。入力画像ＩＮ［ｐ］に複数の物体ＯＢＪの像が含まれている場合には、物体ＯＢＪごとに上記単位処理が実行される。推論ブロック２０［ｊ］において、例えば認識対象物体が車両であれば、物体検出器３０［１］～３０［ｎ］における画像認識モデルは夫々上述の画像認識モデル３３１［１］～３３１［ｎ］である（図３８参照）。

【0273】

まずステップＳ３２１において、推論ブロック２０［ｊ］内に物体検出器３０［１］～３０［ｎ］にて入力画像ＩＮ［ｐ］に対する物体検出処理が実行される。続くステップＳ３２２では、推論ブロック２０［ｊ］において統合部４０が物体検出器３０［１］～３０［ｎ］からの物体検出データに基づき、１つの物体検出器３０のみにて物体ＯＢＪが検出されたかを確認する。物体ＯＢＪを検出した物体検出器３０からの物体検出データには、クラスデータＣＬＳ、位置形状データＰＰ及び信頼度ＳＣＲが含まれる。物体ＯＢＪを検出していない物体検出器３０からの物体検出データは“０”を表す。故に、統合部４０は、物体検出器３０［１］～３０［ｎ］からの物体検出データに基づき、物体ＯＢＪを検出した物体検出器３０が何れの物体検出器であるのか、及び、物体ＯＢＪを検出した物体検出器３０の総数を認知できる。１つの物体検出器３０のみにて物体ＯＢＪが検出された場合には（ステップＳ３２２のＹ）、ステップＳ３２３に進み、そうでない場合には（ステップＳ３２２のＮ）、ステップＳ３３１に進む。

【0274】

ステップＳ３２３では、推論ブロック２０［ｊ］において統合部４０が、物体ＯＢＪを検出した１つの物体検出器３０を基準物体検出器３０に設定する。ステップＳ３２３の後にはステップＳ３２４に進む。

【0275】

ステップＳ３２４では、推論ブロック２０［ｊ］において、統合部４０が、基準物体検出器３０から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器３０からの物体検出データ中のクラスデータＣＬＳ及び位置形状データＰＰを、統合部４０からの推論結果データ中のクラスデータ及び位置形状データに設定する。図４１では特に示されないが、ステップＳ３２４の後は、推論ブロック２０［ｊ］の統合部４０からの推論結果データに基づくアノテーション情報が入力画像ＩＮ［ｐ］に対するアノテーション情報として単位データセットＵ＿ＤＳ［ｐ］に含められた上で、当該単位データセットＵ＿ＤＳ［ｐ］が学習用データセットＤＳに追加される（図８参照）。

【0276】

ステップＳ３３１では、推論ブロック２０［ｊ］において統合部４０が物体検出器３０［１］～３０［ｎ］からの物体検出データに基づき、２以上の物体検出器３０にて物体ＯＢＪが検出されたかを確認する。２以上の物体検出器３０にて物体ＯＢＪが検出された場合には（ステップＳ３３１のＹ）、ステップＳ３３２に進み、そうでない場合には（ステップＳ３３１のＮ）、ステップＳ３３６に進む。

【0277】

ステップＳ３３２では、推論ブロック２０［ｊ］において統合部４０が、物体ＯＢＪを検出した２以上の物体検出器３０にて導出（生成）された信頼度ＳＣＲに基づき、当該２以上の物体検出器３０の何れか１つを基準物体検出器３０に設定する。複数の物体検出器３０の何れかを基準物体検出器３０に設定する方法は上述した通りである。即ち、物体ＯＢＪを検出した２以上の物体検出器３０の内、最大の信頼度ＳＣＲを導出した物体検出器３０が基準物体検出器３０に設定される。基準物体検出器３０が導出した信頼度ＳＣＲ（即ち基準物体検出器３０から出力される物体検出データ中の信頼度ＳＣＲ）を記号“ＳＣＲ_ＭＡＸ”にて参照する。

【0278】

ステップＳ３３２に続くステップＳ３３３では、推論ブロック２０［ｊ］において、統合部４０が、物体ＯＢＪを検出した２以上の物体検出器３０にて設定された２以上の物体検出領域の指標ＩｏＵを導出する。続くステップＳ３３４において、推論ブロック２０［ｊ］の統合部４０は、導出した指標ＩｏＵが重なり閾値ＩｏＵ_ＲＥＦ以上であるかを判断する。そして、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立すれば（ステップＳ３３４のＹ）、ステップＳ３２４に移行して上述のステップＳ３２４の処理が行われる。一方、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立ならば（ステップＳ３３４のＮ）、ステップＳ３３５に進む。

【0279】

ステップＳ３３５において、推論ブロック２０［ｊ］の統合部４０は、信頼度ＳＣＲ_ＭＡＸが基準信頼度ＳＣＲ_ＲＥＦ以上であるかを判断する。そして、“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が成立すれば（ステップＳ３３５のＹ）、ステップＳ３２４に移行して上述のステップＳ３２４の処理が行われる。“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が不成立ならば（ステップＳ３３５のＮ）、ステップＳ３３６に進む。

【0280】

ステップＳ３３６では、推論ブロック２０［ｊ］において、統合部４０が “０”の推論結果データを出力する。ステップＳ３３６に至るケースでは、推論ブロック２０［ｊ］の統合部４０からの推論結果データが入力画像ＩＮ［ｐ］に関する単位データセットＵ＿ＤＳ［ｐ］に含められず（換言すれば単位データセットＵ＿ＤＳ［ｐ］から除外され）、結果、学習用データセットＤＳに反映されない。即ち、ステップＳ３３６の処理は、ステップＳ３２１で生成した物体検出データを学習用データセットＤＳに反映させることなく、破棄することに相当する。

【0281】

推論ブロック２０［ｊ］において、認識対象物体が車両であって且つ“ｎ＝２”であれば、図４０の車両用モデル３３１［１，１］、３３１［１，２］を、夫々、物体検出器３０［１］、３０［２］として用いることができる。推論ブロック２０［ｊ］において、認識対象物体が人物であって且つ“ｎ＝２”であれば、図４０の人物用モデル３３１［２，１］、３３１［２，２］を、夫々、物体検出器３０［１］、３０［２］として用いることができる。

【0282】

何れかの物体検出器３０にて設定された物体検出領域は統合推論領域の候補（候補領域）として機能する（図７参照）。そして、単一の物体検出器３０のみにて物体検出領域が設定（換言すれば候補領域が検出）された場合、統合部４０は、単一の物体検出器３０による物体検出処理の結果（物体検出データ）に基づき推論結果データを生成する（ステップＳ３２２のＹを通じてステップＳ３２３及びＳ３２４）。一方、２以上の物体検出器３０にて物体検出領域が設定（換言すれば候補領域が検出）された場合、２以上の物体検出器３０による物体検出処理の結果（物体検出データ）に基づき推論結果データを生成する（ステップＳ３３１のＹを通じ、ステップＳ３３２及びＳ３３３を経てステップＳ３２４又はＳ３３６）。この際、ＩｏＵに応じて推論結果データが生成される。

【0283】

尚、図４１の動作フローチャートからステップＳ３３５の処理を削除する変形を施しても良い。図４２に、当該変形が施された動作フローチャートを示す。当該変形が行われたとき、ステップＳ３３４にて“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立の場合には、ステップＳ３３４から常にステップＳ３３６に進む。

【0284】

［実施例ＥＸ３＿３］
実施例ＥＸ３＿３を説明する。実施例ＥＸ３＿３ではマルチクラス構成が採用される。第３実施形態にて上述した技術はマルチクラス構成に対しても適用でき、当該技術をマルチクラス構成に適用した実施例を実施例ＥＸ３＿３として説明する。

【0285】

まず、マルチクラスの画像認識モデルの例として、図４３を参照し、車両及び人物を認識対象物体とするマルチクラスの画像認識モデル３３３０［１］～３３３０［ｎ］の構築方法を説明する。

【0286】

モデル構築工程において、ニューラルネットワークが用意され、機械学習にてニューラルネットワークを学習させることで画像認識モデル（３３３０［１］～３３３０［ｎ］）が構築される。画像認識モデル３３３０［ｉ］を形成するニューラルネットワークをＮＮ３３２０［ｉ］と表記する。ここにおけるｉは１以上且つｎ以下の整数である。ＮＮ３３２０［１］～３３２０［ｎ］はディープニューラルネットワークに分類される。

【0287】

モデル構築工程では、既存の学習用データセット３３１０［１］～３３１０［ｎ］を用いてＮＮ３３２０［１］～３３２０［ｎ］の機械学習を実行する。ＮＮ３３２０［ｉ］の機械学習は学習用データセット３３１０［ｉ］を用いて実行される。学習用データセット３３１０［１］～３３１０［ｎ］は、データ処理装置１にて作成されるべき学習用データセットＤＳとは別の学習用データセットであり、データ処理装置１が構築される前の段階において現存する。

【0288】

学習用データセット３３１０［１］～３３１０［ｎ］は、夫々に、複数の学習用画像（即ち複数の学習用画像の画像データ）と、各学習用画像に対するアノテーション情報と、を含む。学習用データセット３３１０［１］～３３１０［ｎ］において、各学習用画像は認識対象物体である車両の像及び人物の像を含み、各アノテーション情報は学習用画像内のどの部分に車両の像及び人物の像が存在するのかを特定する。アノテーション情報は教師データに相当する。教師データは機械学習の中で参照される正解データを示す。尚、車両の像及び人物の像の内、一方のみを含む学習用画像が、学習用データセット３３１０［１］～３３１０［ｎ］の中に含まれることがあっても良い。

【0289】

図示されない機械学習部は、学習用データセット３３１０［１］を用いてＮＮ３３２０［１］の機械学習（教師あり機械学習）を実行する。機械学習済みのＮＮ３３２０［１］である学習済みモデルが画像認識モデル３３３０［１］に相当する。同様に、学習用データセット３３１０［２］を用いてＮＮ３３２０［２］の機械学習（教師あり機械学習）を実行する。機械学習済みのＮＮ３３２０［２］である学習済みモデルが画像認識モデル３３３０［２］に相当する。学習用データセット３３１０［３］及びＮＮ３３２０［３］等についても同様である。画像認識モデル３３３０［１］～３３３０［ｎ］を、夫々、１つの推論ブロック２０［ｊ］内の物体検出器３０［１］～３０［ｎ］に組み込むことができる。学習用データセット３３１０［１］～３３１０［ｎ］は互いに異なる学習用データセットであり、故に、画像認識モデル３３３０［１］～３３３０［ｎ］は互いに異なる環境の機械学習により形成されることになる。

【0290】

尚、モデル構築工程の各処理の実行主体は任意である。演算処理部２にてモデル構築工程の各処理を実行しても良いし、データ処理装置１と異なる任意の演算処理装置にてモデル構築工程の各処理を実行しても良い。画像認識モデル３３３０［１］～３３３０［ｎ］の内、任意の１以上は、本出願が行われる時点で現存する画像認識モデルであっても良い。

【0291】

実施例ＥＸ３＿３における第ｉ学習用画像は学習用データセット３３１０［ｉ］に含まれる学習用画像を指す。学習用データセット３３１０［ｉ］には大量の第ｉ学習用画像（例えば１０万枚の第ｉ学習用画像）が含まれる。各第ｉ学習用画像は認識対象物体としての車両の像及び人物の像を含むが、各第ｉ学習用画像において認識対象物体（ここでは車両及び人物）は範囲ＲＲ［ｉ］内の画像サイズを有する。図３９を参照し、即ち例えば、各第１学習用画像において認識対象物体（ここでは車両及び人物）は範囲ＲＲ［１］内の画像サイズを有し、各第２学習用画像において認識対象物体（ここでは車両及び人物）は範囲ＲＲ［２］内の画像サイズを有する。第３学習用画像及び範囲ＲＲ［３］についても同様である。上述したように、範囲ＲＲ［１］～ＲＲ［ｎ］は互いに分離した範囲（即ち互いに重なり合わない範囲）である。そして、範囲ＲＲ［ｉ］には第ｉ特定画像サイズが内包される。

【0292】

特定画像サイズは、学習用画像又は入力画像ＩＮにおける認識対象物体の画像サイズの内、特定の画像サイズを表す。範囲ＲＲ［１］～ＲＲ［ｎ］及び第１～第ｎ特定画像サイズの関係は上述した通りである。

【0293】

範囲ＲＲ［１］内の画像サイズを有する複数の第１学習用画像を用いた機械学習により画像認識モデル３３３０［１］が形成される。このため、画像認識モデル３３３０［１］は第１特定画像サイズ又は範囲ＲＲ［１］内の画像サイズを有する認識対象物体（ここでは車両及び人物）を良好に検出可能なモデルとなる。画像認識モデル３３３０［１］は、第１特定画像サイズ又は範囲ＲＲ［１］内の画像サイズを有する認識対象物体の検出に適合（対応）する機械学習を経て得られた学習済みモデルであると言える。同様に、範囲ＲＲ［２］内の画像サイズを有する複数の第２学習用画像を用いた機械学習により画像認識モデル３３３０［２］が形成される。このため、画像認識モデル３３３０［２］は第２特定画像サイズ又は範囲ＲＲ［２］内の画像サイズを有する認識対象物体（ここでは車両及び人物）を良好に検出可能なモデルとなる。画像認識モデル３３３０［２］は、第２特定画像サイズ又は範囲ＲＲ［２］内の画像サイズを有する認識対象物体の検出に対応（適合）する機械学習を経て得られた学習済みモデルであると言える。画像認識モデル３３３０［３］等も同様である。

【0294】

上述の画像認識モデル３３３０［１］～３３３０［ｎ］を１つの推論ブロック２０［ｊ］内の物体検出器３０［１］～３０［ｎ］に組み込み、物体検出器３０［１］～３０［ｎ］の物体検出処理の結果を統合して推論結果データを生成することができる。これにより、推論ブロック２０［ｊ］全体において、様々な画像サイズの認識対象物体を正確に検出（認識）することが可能となる。

【0295】

尚、範囲ＲＲ［ｉ］に属さない画像サイズを有する認識対象物体の像（ここでは車両又人物の像）を含んだ学習用画像が、学習用データセット３３１０［ｉ］に含まれることがあっても良い。例えば、範囲ＲＲ［２］に属する画像サイズを有する認識対象物体の像（ここでは車両又人物の像）を含んだ学習用画像が、学習用データセット３３１０［１］に含まれることがあっても良い。但し、学習用データセット３３１０［ｉ］に含まれる学習用画像の大半は、範囲ＲＲ［ｉ］に属する画像サイズを有する認識対象物体の像を含んでいることが好ましい。より具体的には例えば、学習用データセット３３１０［ｉ］に含まれる全学習用画像の枚数をＮＵＭ_{ＴＯＴＡＬ２}［ｉ］で表したとき、“ＮＵＭ_２［ｉ］／ＮＵＭ_{ＴＯＴＡＬ２}［ｉ］≧ｋ”が成立すると良い。ここで、ＮＵＭ_２［ｉ］は、学習用データセット３３１０［ｉ］に含まれる全学習用画像の内、範囲［ｉ］内の画像サイズを有する認識対象物体（ここでは車両及び人物）の像を含んだ学習用画像の枚数を指す。ｋは０．５以上の所定値である。

【0296】

図４４に、実施例ＥＸ３＿３に係るデータ処理装置１の動作フローチャートを示す。図４４のステップＳ３４１～Ｓ３４４及びＳ３５０～Ｓ３５６から成る単位処理は１つの推論ブロック２０［ｊ］において１枚の入力画像ＩＮ［ｐ］に対して実行される処理である（図８参照）。当該単位処理は、データ処理装置１内の各推論ブロック２０にて実行され、且つ、入力画像ＩＮごとに実行される。また実施例ＥＸ３＿３では、説明の具体化のため、１枚の入力画像ＩＮ［ｐ］に物体ＯＢＪ（図７）の像が１つだけ含まれていることを想定し、且つ、物体ＯＢＪの種類は推論ブロック２０［ｊ］の各物体検出器３０における認識対象物体に属することを想定する。入力画像ＩＮ［ｐ］に複数の物体ＯＢＪの像が含まれている場合には、物体ＯＢＪごとに上記単位処理が実行される。推論ブロック２０［ｊ］において、認識対象物体が車両及び人物であれば物体検出器３０［１］～３０［ｎ］における画像認識モデルは、夫々、上述の画像認識モデル３３３０［１］～３３３０［ｎ］である（図４３参照）。

【0297】

まずステップＳ３４１において、推論ブロック２０［ｊ］内に物体検出器３０［１］～３０［ｎ］にて入力画像ＩＮ［ｐ］に対する物体検出処理が実行される。続くステップＳ３４２では、推論ブロック２０［ｊ］において統合部４０が物体検出器３０［１］～３０［ｎ］からの物体検出データに基づき、１つの物体検出器３０のみにて物体ＯＢＪが検出されたかを確認する。物体ＯＢＪを検出した物体検出器３０からの物体検出データには、クラスデータＣＬＳ、位置形状データＰＰ及び信頼度ＳＣＲが含まれる。物体ＯＢＪを検出していない物体検出器３０からの物体検出データは“０”を表す。故に、統合部４０は、物体検出器３０［１］～３０［ｎ］からの物体検出データに基づき、物体ＯＢＪを検出した物体検出器３０が何れの物体検出器であるのか、及び、物体ＯＢＪを検出した物体検出器３０の総数を認知できる。１つの物体検出器３０のみにて物体ＯＢＪが検出された場合には（ステップＳ３４２のＹ）、ステップＳ３４３に進み、そうでない場合には（ステップＳ３４２のＮ）、ステップＳ３５０に進む。

【0298】

ステップＳ３４３では、推論ブロック２０［ｊ］において統合部４０が、物体ＯＢＪを検出した１つの物体検出器３０を基準物体検出器３０に設定する。ステップＳ３４３の後にはステップＳ３４４に進む。

【0299】

ステップＳ３４４では、推論ブロック２０［ｊ］において、統合部４０が、基準物体検出器３０から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器３０からの物体検出データ中のクラスデータＣＬＳ及び位置形状データＰＰを、統合部４０からの推論結果データ中のクラスデータ及び位置形状データに設定する。図４４では特に示されないが、ステップＳ３４４の後は、推論ブロック２０［ｊ］の統合部４０からの推論結果データに基づくアノテーション情報が入力画像ＩＮ［ｐ］に対するアノテーション情報として単位データセットＵ＿ＤＳ［ｐ］に含められた上で、当該単位データセットＵ＿ＤＳ［ｐ］が学習用データセットＤＳに追加される（図８参照）。

【0300】

ステップＳ３５０では、推論ブロック２０［ｊ］において統合部４０が物体検出器３０［１］～３０［ｎ］からの物体検出データに基づき、２以上の物体検出器３０にて物体ＯＢＪが検出されたかを確認する。２以上の物体検出器３０にて物体ＯＢＪが検出された場合には（ステップＳ３５０のＹ）、ステップＳ３５１に進み、そうでない場合には（ステップＳ３５０のＮ）、ステップＳ３５６に進む。

【0301】

ステップＳ３５１において、推論ブロック２０［ｊ］の統合部４０は、物体ＯＢＪを検出した２以上の物体検出器３０により設定された２以上の物体検出領域についてのクラスデータＣＬＳが一致しているかを判断する。２以上の物体検出領域についてのクラスデータＣＬＳが一致している場合には（ステップＳ３５１のＹ）ステップＳ３５２に進み、そうでない場合（ステップＳ３５１のＮ）にはステップＳ３５６に進む。

【0302】

例えば、物体検出器３０［１］及び３０［２］にて物体ＯＢＪが検出された場合を考える。この際、物体検出器３０［３］～３０［ｎ］にて物体ＯＢＪが検出されない、或いは、“ｎ＝２”であるが故に物体検出器３０［３］～３０［ｎ］が存在しない。この場合において、物体検出器３０［１］及び３０［２］にて設定された２つの物体検出領域についてのクラスデータＣＬＳが共に車両を表しているときにはステップＳ３５２に進む。これは、物体検出器３０［１］及び３０［２］が共通して物体検出領域内の物体が車両であると認識したことに相当する。一方、例えば、物体検出器３０［１］にて設定された物体検出領域についてのクラスデータＣＬＳが車両を表す一方、物体検出器３０［２］にて設定された物体検出領域についてのクラスデータＣＬＳが人物を表すときにはステップＳ３５６に進む。これは、共通の物体を、物体検出器３０［１］、３０［２］が、夫々車両、人物であると認識したことに相当する。この場合には、物体検出器３０［１］及び３０［２］の内、少なくとも一方の物体検出処理の結果に誤りがある。誤りのある物体検出処理の結果を学習用データセットＤＳに混入させることは望ましくないため、ステップＳ３５６にて物体検出データを破棄する。

【0303】

ステップＳ３５２では、推論ブロック２０［ｊ］において統合部４０が、物体ＯＢＪを検出した２以上の物体検出器３０にて導出（生成）された信頼度ＳＣＲに基づき、当該２以上の物体検出器３０の何れか１つを基準物体検出器３０に設定する。複数の物体検出器３０の何れかを基準物体検出器３０に設定する方法は上述した通りである。即ち、物体ＯＢＪを検出した２以上の物体検出器３０の内、最大の信頼度ＳＣＲを導出した物体検出器３０が基準物体検出器３０に設定される。基準物体検出器３０が導出した信頼度ＳＣＲ（即ち基準物体検出器３０から出力される物体検出データ中の信頼度ＳＣＲ）を記号“ＳＣＲ_ＭＡＸ”にて参照する。

【0304】

ステップＳ３５２に続くステップＳ３５３では、推論ブロック２０［ｊ］において、統合部４０が、物体ＯＢＪを検出した２以上の物体検出器３０にて設定された２以上の物体検出領域の指標ＩｏＵを導出する。続くステップＳ３５４において、推論ブロック２０［ｊ］の統合部４０は、導出した指標ＩｏＵが重なり閾値ＩｏＵ_ＲＥＦ以上であるかを判断する。そして、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が成立すれば（ステップＳ３５４のＹ）、ステップＳ３４４に移行して上述のステップＳ３４４の処理が行われる。一方、“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立ならば（ステップＳ３５４のＮ）、ステップＳ３５５に進む。

【0305】

ステップＳ３５５において、推論ブロック２０［ｊ］の統合部４０は、信頼度ＳＣＲ_ＭＡＸが基準信頼度ＳＣＲ_ＲＥＦ以上であるかを判断する。そして、“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が成立すれば（ステップＳ３５５のＹ）、ステップＳ３４４に移行して上述のステップＳ３４４の処理が行われる。“ＳＣＲ_ＭＡＸ≧ＳＣＲ_ＲＥＦ”が不成立ならば（ステップＳ３５５のＮ）、ステップＳ３５６に進む。

【0306】

ステップＳ３５６では、推論ブロック２０［ｊ］において、統合部４０が “０”の推論結果データを出力する。ステップＳ３５６に至るケースでは、推論ブロック２０［ｊ］の統合部４０からの推論結果データが入力画像ＩＮ［ｐ］に関する単位データセットＵ＿ＤＳ［ｐ］に含められず（換言すれば単位データセットＵ＿ＤＳ［ｐ］から除外され）、結果、学習用データセットＤＳに反映されない。即ち、ステップＳ３５６の処理は、ステップＳ３４１で生成した物体検出データを学習用データセットＤＳに反映させることなく、破棄することに相当する。

【0307】

何れかの物体検出器３０にて設定された物体検出領域は統合推論領域の候補（候補領域）として機能する（図７参照）。そして、単一の物体検出器３０のみにて物体検出領域が設定（換言すれば候補領域が検出）された場合、統合部４０は、単一の物体検出器３０による物体検出処理の結果（物体検出データ）に基づき推論結果データを生成する（ステップＳ３４２のＹを通じてステップＳ３４３及びＳ３４４）。一方、２以上の物体検出器３０にて物体検出領域が設定（換言すれば候補領域が検出）された場合、クラスデータの一致を条件としつつ、２以上の物体検出器３０による物体検出処理の結果（物体検出データ）に基づき推論結果データを生成する（ステップＳ３５１のＹを通じ、ステップＳ３５２及びＳ３５３を経てステップＳ３４４又はＳ３５６）。この際、ＩｏＵに応じて推論結果データが生成される。

【0308】

尚、図４４の動作フローチャートからステップＳ３５５の処理を削除する変形を施しても良い。図４５に、当該変形が施された動作フローチャートを示す。当該変形が行われたとき、ステップＳ３５４にて“ＩｏＵ≧ＩｏＵ_ＲＥＦ”が不成立の場合には、ステップＳ３５４から常にステップＳ３５６に進む。

【0309】

［実施例ＥＸ３＿４］
実施例ＥＸ３＿４を説明する。実施例ＥＸ３＿４では主としてシングルクラス構成が採用されることを想定する（但しマルチクラス構成が採用されても良い）。データ処理装置１では、モデルの機能拡張が容易であると共に新規種類の物体についての教師データを容易に学習用データセットＤＳに追加できるというメリットがある。この点は実施例ＥＸ１＿４に示した通りであり、上述の実施例ＥＸ１＿４は第３実施形態に係るデータ処理装置１に対しても適用される。

【0310】

具体的には、図２２に示す如く、データ処理装置１に動作制御部６０を追加することができる。動作制御部６０の構成、動作及び機能については実施例ＥＸ１＿４で示した通りである。データ処理装置１の操作者はインターフェース４を通じてデータ処理装置１に選択指示情報６１を入力することができ、動作制御部６０は選択指示情報６１の内容に基づきブロック選択処理を実行する。上述したように、ブロック選択処理において動作制御部６０は、推論ブロック２０［１］～２０［ｎ］の動作の実行有無を個別に制御できる。

【0311】

更に、実施例ＥＸ３＿４に係る動作制御部６０は、物体検出器３０ごとに動作の実行有無を個別に制御する個別選択処理（換言すれば個別選択制御）を実行可能であって良い。推論ブロック２０ごとにｎ個の物体検出器３０が設けられる場合、データ処理装置１内に計（ｍ×ｎ）個の物体検出器３０が設けられることになるが、個別選択処理では（ｍ×ｎ）個の物体検出器３０の動作の実行有無が個別に制御される。何れの物体検出器３０を動作させ、何れの物体検出器３０の動作を停止させるかは、データ処理装置１の操作者がインターフェース４を通じてデータ処理装置１に入力した選択指示情報６１において指定される。例えば、図４０の構成が採用される場合において、比較的小さな画像サイズを持つ車両についての単位データセットを学習用データセットＤＳに追加したいという要望があるとする。この場合には、選択指示情報６１において、車両用モデル３３１［１，１］を有する物体検出器３０のみを動作させることを指定すれ良く、これにより、車両用モデル３３１［１，１］を有する物体検出器３０のみが動作する。

【0312】

個別選択処理はシングルクラス構成が採用されるデータ処理装置１に特に好適であるが、マルチクラス構成が採用されるデータ処理装置１に適用されても良い。

【0313】

１つの推論ブロック２０［ｊ］に注目した場合、演算処理部２は、以下の第１選択動作及び第２選択動作を夫々に実行可能であると言える。即ち、演算処理部２は、第１選択動作において、物体検出器３０［１］～３０［ｎ］におけるｎ個の画像認識モデルの内、全ての画像認識モデル（例えば図４０の車両用モデル３３１［１，１］及び３３１［１，２］）を用いて物体検出処理を行う。演算処理部２は、第２選択動作において、個別選択処理により、物体検出器３０［１］～３０［ｎ］におけるｎ個の画像認識モデルの内、一部の画像認識モデル（例えば図４０の車両用モデル３３１［１，１］）を選択的に用いて物体検出処理を行う。個別選択処理を可能としておくことで、必要とされる物体検出器３０だけを動作させることが可能となり、演算に関わるコスト（消費電力及び処理時間等）の削減が図られる。

【0314】

［実施例ＥＸ３＿５］
実施例ＥＸ３＿５を説明する。上述の実施例ＥＸ３＿１～ＥＸ３＿３では、１枚の入力画像ＩＮ［ｐ］における１つの物体ＯＢＪに注目したが、実際には１枚の入力画像ＩＮ［ｐ］に認識対象物体の像が複数含まれることもある。この場合には、認識対象物体ごとに実施例ＥＸ３＿１～ＥＸ３＿３に示す方法が実施されて良い。

【0315】

＜＜第４実施形態＞＞
本発明の第４実施形態を説明する。第４実施形態では、上述の各実施形態に対する応用技術又は補足事項等を説明する。

【0316】

データ処理装置（１又は１Ａ）には画像認識装置が内包される。画像認識装置は、入力画像ＩＮにおける認識対象物体を認識するための推論を行う処理部（以下、便宜上、処理部ＰＲと称する）を有する。処理部ＰＲは演算処理部２の全部又は一部に相当する。処理部ＰＲはクラウドコンピューティングを用いて実現されるものであっても良い。推論ブロック２０［１］～２０［ｎ］により画像認識装置が構成されると考えることもできるし、１つの推論ブロック２０［ｊ］により画像認識装置が構成されると考えることもできる。上述の各実施形態では、学習用データセットＤＳを生成するために画像認識装置が利用されているが、画像認識装置の用途は学習用データセットＤＳの生成用途に限定されない。

【0317】

データ処理装置（１又は１Ａ）には学習用データセット生成装置が内包される。データ処理装置（１又は１Ａ）そのものが学習用データセット生成装置として機能しうる。学習用データセット生成装置は、上記画像認識装置を備え、複数の入力画像ＩＮと各入力画像ＩＮに対する推論結果データを用いて学習用データセットＤＳを生成する。

【0318】

本発明の各実施形態にて述べた任意の方法をコンピュータに実行させるプログラム、及び、そのプログラムを記録した記録媒体であって且つコンピュータ読み取り可能な不揮発性の記録媒体は、本発明の実施形態の範囲に含まれる。本発明の実施形態における任意の処理は、半導体集積回路等のハードウェア、上記プログラムに相当するソフトウェア、又は、ハードウェアとソフトウェアの組み合わせによって実現されて良い。

【0319】

本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。以上の実施形態は、あくまでも、本発明の実施形態の例であって、本発明ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。上述の説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。

【0320】

＜＜第１付記＞＞
上述の実施形態にて具体的構成例が示された本発明について第１付記を設ける。第１付記は特に第１実施形態に対応する。

【0321】

本発明の一側面に係る画像認識装置は（図１及び図１７等参照）、入力画像（ＩＮ）における認識対象物体を認識するための推論を行う処理部（２）を有する画像認識装置であって、前記処理部は、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し（物体検出器３０［１］～３０［ｎ］に対応）、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し（統合部４０に対応）、前記複数の物体検出処理において互いに異なる複数の画像認識モデルが用いられ、前記処理部は、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合い（ＩｏＵ）に応じて前記推論結果データを生成する構成（以下、構成Ｗ_Ａ１と称する）である。

【0322】

互いに異なる複数の画像認識モデルを用いた複数の物体検出処理の結果に基づき推論結果データを生成するようにすることで、複数の物体検出処理の結果が考慮された良好な推論結果（推論結果データ）を得ることが可能となる。この際、上記の重なり度合いを考慮することで推論結果の精度を担保することが可能となる。

【0323】

上記構成Ｗ_Ａ１に係る画像認識装置において、前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し（図４参照）、各物体検出処理は、単一種類の物体を前記認識対象物体とするシングルクラスの物体検出処理であって、前記複数の物体検出処理における前記認識対象物体の種類は互いに同じであり、前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度（ＳＣＲ_ＭＡＸ）を特定し、前記重なり度合い（ＩｏＵ）が所定の重なり閾値（ＩｏＵ_ＲＥＦ）以上であるとき（例えばＳ１２４のＹ；図１７又は図１８参照）、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する構成（以下、構成Ｗ_Ａ２と称する）であっても良い。

【0324】

重なり度合いが重なり閾値以上であるとき、各物体検出処理の結果は相応に確からしいと推測される。それらの検出結果の内、最大の信頼度に対応する物体検出データに基づき推論結果データを生成することにより、良好な推論結果（推論結果データ）を得ることが可能となる。

【0325】

上記構成Ｗ_Ａ２に係る画像認識装置において、前記重なり度合いが前記重なり閾値以上であるとき又は前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が所定の基準信頼度以上であるとき（例えばＳ１２４のＹ、又は、Ｓ１２４のＮを介してＳ１２６のＹ；図１７参照）、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する構成（以下、構成Ｗ_Ａ３と称する）であっても良い。

【0326】

重なり度合いが重なり閾値未満であっても、最大の信頼度が基準信頼度以上であれば、最大の信頼度に対応する物体検出処理の結果は相応に確からしいと推測される。故に、最大の信頼度に対応する物体検出データに基づき推論結果データを生成することにより、良好な推論結果（推論結果データ）を得ることが可能となる。

【0327】

上記構成Ｗ_Ａ３に係る画像認識装置において、前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が前記基準信頼度未満であるとき（例えばＳ１２４のＮを介してＳ１２６のＮ；図１７参照）、前記処理部は、特定データを前記推論結果データに設定する構成（以下、構成Ｗ_Ａ４と称する）であっても良い。

【0328】

重なり度合いが重なり閾値未満であって且つ最大の信頼度が基準信頼度未満であるときには、各物体検出処理の結果の確からしさは低い（誤りの可能性が高い）と推測される。このときには、最大の信頼度に対応する物体検出データに基づき推論結果データを生成するのではなく、特定データを推論結果データに設定することで、誤りの可能性が高い推論結果データの生成を抑制できる。

【0329】

上記構成Ｗ_Ａ１に係る画像認識装置において、前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し（図４参照）、各物体検出処理は、複数種類の物体を前記認識対象物体とするマルチクラスの物体検出処理であり、前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度（ＳＣＲ_ＭＡＸ）を特定し、前記複数の物体検出処理により同一種類の物体が存在すると判断された複数の領域が前記複数の物体検出領域である場合において、前記重なり度合い（ＩｏＵ）が所定の重なり閾値（ＩｏＵ_ＲＥＦ）以上であるとき（例えばＳ１３４のＹ；図１９又は図２０参照）、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する構成（以下、構成Ｗ_Ａ５と称する）であっても良い。

【0330】

複数の物体検出処理により同一種類の物体が存在すると判断された場合において、重なり度合いが重なり閾値以上であるとき、各物体検出処理の結果は相応に確からしいと推測される。それらの検出結果の内、最大の信頼度に対応する物体検出データに基づき推論結果データを生成することにより、良好な推論結果（推論結果データ）を得ることが可能となる。

【0331】

上記構成Ｗ_Ａ５に係る画像認識装置において、前記複数の物体検出処理により前記同一種類の物体が存在すると判断された前記複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値以上であるとき又は前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が所定の基準信頼度以上であるとき（例えばＳ１３４のＹ、又は、Ｓ１３４のＮを介してＳ１３６のＹ；図１９参照）、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する構成（以下、構成Ｗ_Ａ６と称する）であっても良い。

【0332】

【0333】

上記構成Ｗ_Ａ６に係る画像認識装置において、前記複数の物体検出処理により前記同一種類の物体が存在すると判断された前記複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が前記基準信頼度未満であるとき（例えばＳ１３４のＮを介してＳ１３６のＮ；図１９参照）、前記処理部は、特定データを前記推論結果データに設定する構成（以下、構成Ｗ_Ａ７と称する）であっても良い。

【0334】

【0335】

上記構成Ｗ_Ａ１～Ｗ_Ａ７の何れかに係る画像認識装置において、前記複数の画像認識モデル間において前記認識対象物体を検出するためのアルゴリズムが互いに異なる、各画像認識モデルはニューラルネットワークにより形成され、前記複数の画像認識モデル間において前記ニューラルネットワークの構成が互いに異なる、又は、互いに異なる環境の機械学習により前記複数の画像認識モデルが形成される構成（以下、構成Ｗ_Ａ８と称する）であっても良い。

【0336】

これにより、複数の画像認識モデルは検出の特性又は性能等が異なる。

【0337】

本発明の一側面に係る学習用データセット生成装置は、上記構成Ｗ_Ａ１～Ｗ_Ａ８の何れかに係る画像認識装置を備え、複数の入力画像と各入力画像に対する前記推論結果データを用いて学習用データセット（ＤＳ）を生成する構成（以下、構成Ｗ_Ａ９と称する）である。

【0338】

良好な推論結果（推論結果データ）を用いて学習用データセットを生成することで、質の高い学習用データセットを得ることが可能となる。

【0339】

本発明の一側面に係る画像認識方法は、入力画像における認識対象物体を認識するための推論を行う画像認識方法であって、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し、前記複数の物体検出処理において互いに異なる複数の画像認識モデルが用いられ、当該画像認識方法では、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合いに応じて前記推論結果データを生成する構成（以下、構成Ｗ_Ａ１０と称する）である。

【0340】

＜＜第２付記＞＞
上述の実施形態にて具体的構成例が示された本発明について第２付記を設ける。第２付記は特に第２実施形態に対応する。

【0341】

本発明の一側面に係る画像認識装置は（図２４、図２５及び図３２等参照）、入力画像（ＩＮ）における認識対象物体を認識するための推論を行う処理部（２）を有する画像認識装置であって、前記処理部は、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し（物体検出器３０［１］～３０［ｎ］に対応）、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し（統合部４０に対応）、前記複数の物体検出処理において互いに異なる複数の画像認識モデルが用いられ、前記処理部は、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合い（ＩｏＵ）に応じて各物体検出処理の結果に対しアテンション情報を付与可能に構成される構成（以下、構成Ｗ_Ｂ１と称する）である。

【0342】

互いに異なる複数の画像認識モデルを用いた複数の物体検出処理の結果に基づき推論結果データを生成するようにすることで、複数の物体検出処理の結果が考慮された良好な推論結果（推論結果データ）を得ることが可能となる。各物体検出処理の結果には誤りが含まれることもあるが、誤りが含まれるか否かは上記重なり度合いによって推測可能である。そこで、重なり度合いに応じて上記アテンション情報を付与可能とする。アテンション情報は各物体検出処理の結果に誤りが含まれる可能性を示唆するための目印となる。誤りが含まれる可能性が相対的に高いと推測される物体検出処理の結果にアテンション情報を付与することで、後にアテンション情報を頼りに人間による確認作業を行うといったことが可能となる。

【0343】

上記構成Ｗ_Ｂ１に係る画像認識装置において、前記処理部は、前記重なり度合い（ＩｏＵ）と所定の重なり閾値（ＩｏＵ_ＲＥＦ）との比較結果に応じて、各物体検出処理の結果に対する前記アテンション情報の付与有無を決定する構成（以下、構成Ｗ_Ｂ２と称する）であっても良い。

【0344】

誤りが含まれる可能性は重なり度合いに依存すると考えられるため、重なり度合いと重なり閾値とを比較すれば、誤りが含まれる可能性の高低を推測できる。そこで、重なり度合い及び重なり閾値間の比較結果に基づき、アテンション情報の付与有無を決定する。これにより、誤りが含まれる可能性が相対的に高いと推測される物体検出処理の結果にアテンション情報を付与することができ、後にアテンション情報を頼りに人間による確認作業を行うといったことが可能となる。

【0345】

上記構成Ｗ_Ｂ２に係る画像認識装置において、前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し（図４参照）、各物体検出処理は、単一種類の物体を前記認識対象物体とするシングルクラスの物体検出処理であって、前記複数の物体検出処理における前記認識対象物体の種類は互いに同じであり、前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度（ＳＣＲ_ＭＡＸ）を特定し、前記重なり度合いが前記重なり閾値以上であるとき（例えばＳ２２４のＹ；図３２参照）、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成し、前記重なり度合いが前記重なり閾値未満であるとき（例えばＳ２２４のＮ；図３２参照）、前記処理部は、各物体検出処理の結果に対して前記アテンション情報を付与する構成（以下、構成Ｗ_Ｂ３と称する）であっても良い。

【0346】

重なり度合いが重なり閾値以上であるとき、各物体検出処理の結果の確からしさは相対的に高いと推測される。それらの検出結果の内、最大の信頼度に対応する物体検出データに基づき推論結果データを生成することにより、良好な推論結果（推論結果データ）を得ることが可能となる。重なり度合いが重なり閾値未満であるとき、各物体検出処理の結果の確からしさは相対的に低いと推測される。重なり度合いが重なり閾値未満であるときにアテンション情報を付与することで、後にアテンション情報を頼りに人間による確認作業を行うといったことが可能となる。

【0347】

上記構成Ｗ_Ｂ２に係る画像認識装置において、前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し（図４参照）、各物体検出処理は、単一種類の物体を前記認識対象物体とするシングルクラスの物体検出処理であって、前記複数の物体検出処理における前記認識対象物体の種類は互いに同じであり、前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度（ＳＣＲ_ＭＡＸ）を特定し、前記重なり度合いが前記重なり閾値以上であるとき又は前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が所定の基準信頼度以上であるとき（例えばＳ２２４のＹ、又は、Ｓ２２４のＮを介してＳ２２８のＹ；図３３参照）、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成し、前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が前記基準信頼度未満であるとき（例えばＳ２２４のＮを介してＳ２２８のＮ；図３３参照）、前記処理部は、各物体検出処理の結果に対して前記アテンション情報を付与する構成（以下、構成Ｗ_Ｂ４と称する）であっても良い。

【0348】

重なり度合いが重なり閾値以上であるとき、各物体検出処理の結果の確からしさは相対的に高いと推測される。また、重なり度合いが重なり閾値未満であっても、最大の信頼度が基準信頼度以上であれば、最大の信頼度に対応する物体検出処理の結果は相応に確からしいと推測される。故に、重なり度合いが重なり閾値以上であるとき又は重なり度合いが重なり閾値未満であって且つ最大の信頼度が所定の基準信頼度以上であるときには、最大の信頼度に対応する物体検出データに基づき推論結果データを生成する。これにより、良好な推論結果（推論結果データ）を得ることが可能となる。一方、重なり度合いが重なり閾値未満であって且つ最大の信頼度が基準信頼度未満であるときには、各物体検出処理の結果の確からしさは相対的に低いと推測される。この際には、アテンション情報を付与することで、後にアテンション情報を頼りに人間による確認作業を行うといったことが可能となる。

【0349】

上記構成Ｗ_Ｂ２に係る画像認識装置において、前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し（図４参照）、各物体検出処理は、複数種類の物体を前記認識対象物体とするマルチクラスの物体検出処理であり、前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度（ＳＣＲ_ＭＡＸ）を特定し、前記複数の物体検出処理により同一種類の物体が存在すると判断された複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値以上であるとき（例えばＳ２４４のＹ；図３４参照）、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成し、前記複数の物体検出処理により前記同一種類の物体が存在すると判断された前記複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値未満であるとき（例えばＳ２４４のＮ；図３４参照）、前記処理部は、各物体検出処理の結果に対して前記アテンション情報を付与する構成（以下、構成Ｗ_Ｂ５と称する）であっても良い。

【0350】

複数の物体検出処理により同一種類の物体が存在すると判断された場合において、重なり度合いが重なり閾値以上であるとき、各物体検出処理の結果の確からしさは相対的に高いと推測される。それらの検出結果の内、最大の信頼度に対応する物体検出データに基づき推論結果データを生成することにより、良好な推論結果（推論結果データ）を得ることが可能となる。一方、重なり度合いが重なり閾値未満であるときには、各物体検出処理の結果の確からしさは相対的に低いと推測される。重なり度合いが重なり閾値未満であるときにアテンション情報を付与することで、後にアテンション情報を頼りに人間による確認作業を行うといったことが可能となる。

【0351】

上記構成Ｗ_Ｂ２に係る画像認識装置において、前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し（図４参照）、各物体検出処理は、複数種類の物体を前記認識対象物体とするマルチクラスの物体検出処理であり、前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度（ＳＣＲ_ＭＡＸ）を特定し、前記複数の物体検出処理により同一種類の物体が存在すると判断された複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが所定の重なり閾値以上であるとき又は前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が所定の基準信頼度以上であるとき（例えばＳ２４４のＹ、又は、Ｓ２４４のＮを介してＳ２４８のＹ；図３５参照）、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成し、前記複数の物体検出処理により前記同一種類の物体が存在すると判断された前記複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が前記基準信頼度未満であるとき（例えばＳ２４４のＮを介してＳ２４８のＮ；図３５参照）、前記処理部は、各物体検出処理の結果に対して前記アテンション情報を付与する構成（以下、構成Ｗ_Ｂ６と称する）であっても良い。

【0352】

複数の物体検出処理により同一種類の物体が存在すると判断された場合において、重なり度合いが重なり閾値以上であるとき、各物体検出処理の結果の確からしさは相対的に高いと推測される。また、重なり度合いが重なり閾値未満であっても、最大の信頼度が基準信頼度以上であれば、最大の信頼度に対応する物体検出処理の結果は相応に確からしいと推測される。故に、重なり度合いが重なり閾値以上であるとき又は重なり度合いが重なり閾値未満であって且つ最大の信頼度が所定の基準信頼度以上であるときには、最大の信頼度に対応する物体検出データに基づき推論結果データを生成する。これにより、良好な推論結果（推論結果データ）を得ることが可能となる。一方、重なり度合いが重なり閾値未満であって且つ最大の信頼度が基準信頼度未満であるときには、各物体検出処理の結果の確からしさは相対的に低いと推測される。この際には、アテンション情報を付与することで、後にアテンション情報を頼りに人間による確認作業を行うといったことが可能となる。

【0353】

上記構成Ｗ_Ｂ１～Ｗ_Ｂ６の何れかに係る画像認識装置において、前記複数の画像認識モデル間において前記認識対象物体を検出するためのアルゴリズムが互いに異なる、各画像認識モデルはニューラルネットワークにより形成され、前記複数の画像認識モデル間において前記ニューラルネットワークの構成が互いに異なる、又は、互いに異なる環境の機械学習により前記複数の画像認識モデルが形成される構成（以下、構成Ｗ_Ｂ７と称する）であっても良い。

【0354】

これにより、複数の画像認識モデルは検出の特性又は性能等が異なる。

【0355】

本発明の一側面に係る学習用データセット生成装置は、上記構成Ｗ_Ｂ１～Ｗ_Ａ７の何れかに係る画像認識装置を備え、複数の入力画像と各入力画像に対する前記推論結果データを用いて学習用データセット（ＤＳ）を生成する構成（以下、構成Ｗ_Ｂ８と称する）である。

【0356】

良好な推論結果（推論結果データ）を用いて学習用データセットを生成することで、質の高い学習用データセットを得ることが可能となる。

【0357】

上記構成Ｗ_Ｂ８に係る学習用データセット生成装置において、前記アテンション情報は、各物体検出処理の結果の成否を判別者に問い合わせるための情報であり、前記学習用データセット生成装置には、前記アテンション情報による問い合わせ対応して前記判別者から回答データを取得する回答取得部（７４）が設けられ、前記複数の入力画像に含まれる特定の入力画像への各物体検出処理の結果に対し前記アテンション情報が付与された場合、前記処理部は、前記特定の入力画像と前記回答データとに基づくデータセットを前記学習用データセットに含める構成（以下、構成Ｗ_Ｂ９と称する）であっても良い。

【0358】

これにより、アテンション情報が付与された各物体検出処理の結果について回答データに基づくデータセットを生成することができ、質的及び量的に良好な学習用データセットを得ることができる。

【0359】

本発明の一側面に係る画像認識方法は、入力画像における認識対象物体を認識するための推論を行う画像認識方法であって、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し、前記複数の物体検出処理において互いに異なる画像認識モデルが用いられ、当該画像認識方法は、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合いに応じて各物体検出処理の結果に対しアテンション情報を付与する工程を含む構成（以下、構成Ｗ_Ｂ１０と称する）である。

【0360】

＜＜第３付記＞＞
上述の実施形態にて具体的構成例が示された本発明について第３付記を設ける。第３付記は特に第３実施形態に対応する。

【0361】

本発明の一側面に係る画像認識装置は（図１、図３８～図４１等参照）、入力画像（ＩＮ）における認識対象物体を認識するための推論を行う処理部（２）を有する画像認識装置であって、前記処理部は、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し（物体検出器３０［１］～３０［ｎ］に対応）、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し（統合部４０に対応）、前記画像認識モデルは、特定画像サイズを持つ前記認識対象物体を検出可能なモデルであり、複数の物体検出処理で用いられる複数の画像認識モデルにおいて前記特定画像サイズは互いに異なる構成（以下、構成Ｗ_Ｃ１と称する）である。

【0362】

これにより、様々な画像サイズの認識対象物体を良好な精度で認識することが可能となる。

【0363】

上記構成Ｗ_Ｃ１に係る画像認識装置において、前記複数の物体検出処理の内、単一の物体検出処理のみにて前記物体検出領域が検出された場合（例えばＳ３２２のＹ又はＳ３４２のＹ；図４１、図４２、図４４又は図４５参照）、前記処理部は、前記単一の物体検出処理の結果に基づき前記推論結果データを生成する構成（以下、構成Ｗ_Ｃ２と称する）であっても良い。

【0364】

入力画像における認識対象物体の画像サイズに適した物体検出処理（画像認識モデル）にて認識対象物体が検出されることが期待される。このため、単一の物体検出処理のみにて物体検出領域が検出された場合には（即ち単一の物体検出処理のみにて認識対象物体が検出された場合には）、単一の物体検出処理の結果に基づき推論結果データを生成すれば良く、これにより良好な推論結果データを得ることができる。

【0365】

上記構成Ｗ_Ｃ１又はＷ_Ｃ２に係る画像認識装置において、前記複数の物体検出処理の内、２以上の物体検出処理にて前記物体検出領域が検出された場合（例えばＳ３３１のＹ又はＳ３５０のＹ；図４１、図４２、図４４又は図４５参照）、前記処理部は、前記２以上の物体検出処理の結果に基づき前記推論結果データを生成する構成（以下、構成Ｗ_Ｃ３と称する）であっても良い。

【0366】

入力画像における認識対象物体の画像サイズ等によっては、２以上の物体検出処理にて物体検出領域が検出される場合もある（即ち、２以上の物体検出処にて認識対象物体が検出されることがある）。この場合には、２以上の物体検出処理の結果に基づき推論結果データを生成することで、２以上の物体検出処理の結果が考慮された良好な推論結果（推論結果データ）を得ることができる。

【0367】

上記構成Ｗ_Ｃ３に係る画像認識装置において、前記２以上の物体検出処理にて前記物体検出領域が検出された場合、前記処理部は、前記２以上の物体検出処理にて検出された２以上の物体検出領域の重なり度合い（ＩｏＵ）に応じて前記推論結果データを生成する構成（以下、構成Ｗ_Ｃ４と称する）であっても良い。

【0368】

各物体検出処理の結果には誤りが含まれることもあるが、誤りが含まれるか否かは上記重なり度合いによって推測可能である。重なり度合いに応じて推論結果データを生成することで推論結果の精度を担保することが可能となる。

【0369】

上記構成Ｗ_Ｃ１～Ｗ_Ｃ４の何れかに係る画像認識装置において、前記複数の画像認識モデルは、互い異なる環境の機械学習により形成される構成（以下、構成Ｗ_Ｃ５と称する）であっても良い。

【0370】

これにより例えば、得意な検出サイズが異なる複数の画像認識モデルを形成することができる。結果、様々な画像サイズの認識対象物体を良好な精度で認識することが可能となる。

【0371】

上記構成Ｗ_Ｃ１～Ｗ_Ｃ５の何れかに係る画像認識装置において（図３８及び図３９等参照）、前記複数の画像認識モデルは第１画像認識モデル～第ｎ画像認識モデルから成り（ｎは２以上の整数）、前記第１画像認識モデル～前記第ｎ画像認識モデルは、夫々、第１特定画像サイズ～第ｎ特定画像サイズを持つ前記認識対象物体の検出に適合する機械学習を経て得られた学習済みモデルである構成（以下、構成Ｗ_Ｃ６と称する）であっても良い。

【0372】

【0373】

上記構成Ｗ_Ｃ６に係る画像認識装置において（図３８及び図３９等参照）、第ｉ画像認識モデルは複数の第ｉ学習用画像を用いた機械学習により得られ（ｉはｎ以下の自然数）、各第ｉ学習用画像は前記認識対象物体の像を含み、各第ｉ学習用画像において前記認識対象物体は第ｉ特定画像サイズを内包する第ｉ範囲内の画像サイズを有し、第１範囲～第ｎ範囲は互いに異なる構成（以下、構成Ｗ_Ｃ７と称する）であっても良い。

【0374】

【0375】

上記構成Ｗ_Ｃ７に係る画像認識装置において（図３９参照）、前記第１範囲～前記第ｎ範囲は、互いに分離した範囲である構成（以下、構成Ｗ_Ｃ８と称する）であっても良い。

【0376】

【0377】

本発明の一側面に係る学習用データセット生成装置は、上記構成Ｗ_Ｃ１～Ｗ_Ｃ８の何れかに係る画像認識装置を備え、複数の入力画像と各入力画像に対する前記推論結果データを用いて学習用データセット（ＤＳ）を生成する構成（以下、構成Ｗ_Ｃ９と称する）である。

【0378】

良好な推論結果（推論結果データ）を用いて学習用データセットを生成することで、質の高い学習用データセットを得ることが可能となる。

【0379】

上記構成Ｗ_Ｃ９に係る学習用データセット生成装置において（実施例ＥＸ３＿４参照）、前記処理部は、第１動作及び第２動作の夫々を実行可能であり、前記処理部は、前記第１動作において、前記複数の画像認識モデルの内、全ての画像認識モデルを用いて前記物体検出処理を行い、前記第２動作において、前記複数の画像認識モデルの内、一部の画像認識モデルを選択的に用いて前記物体検出処理を行う構成（以下、構成Ｗ_Ｃ１０と称する）であっても良い。

【0380】

これにより、一部の画像認識モデルによる物体検出処理の結果のみを使って学習用データセットを更新するといったことが可能となる。必要な部分だけ動作させることになるため、演算に関わるコストの削減が期待される。

【0381】

本発明の一側面に係る画像認識方法は、入力画像における認識対象物体を認識するための推論を行う画像認識方法であって、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し、前記画像認識モデルは、特定画像サイズを持つ前記認識対象物体を検出可能なモデルであり、複数の物体検出処理で用いられる複数の画像認識モデルにおいて前記特定画像サイズは互いに異なる構成（以下、構成Ｗ_Ｃ１１と称する）である。

【符号の説明】

【0382】

１、１Ａデータ処理装置
２演算処理部
３メモリ
４インターフェース
ＤＢデータベース
ＤＳ学習用データセット
ＡＤアテンションデータ群
１０画像取得部
２０、２０［１］～２０［ｍ］推論ブロック
３０、３０［１］～３０［ｎ］物体検出器
４０統合部
５０データ格納部
６０動作制御部
７０アテンション付与部
７２回答要求部
７４回答取得部
７６クラス照合部
ＤＤ外部認識装置
１３１［１，１］、１３１［１，２］車両用モデル
１３１［２，１］、１３１［２，２］人物用モデル
２３１［ｊ，１］車両用モデル
２３１［ｊ，１］人物用モデル
３１１０［１］～３１１０［ｎ］学習用データセット
３１２０［１］～３１２０［ｎ］ニューラルネットワーク
３３１［１］～３３１［ｎ］画像認識モデル
３３１［１，１］、３３１［１，２］車両用モデル
３３１［２，１］、３３１［２，２］人物用モデル
３３１０［１］～３３１０［ｎ］学習用データセット
３３２０［１］～３３２０［ｎ］ニューラルネットワーク
３３３０［１］～３３３０［ｎ］画像認識モデル

【図1】