IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通テン株式会社の特許一覧

特開2023-113169画像認識装置及び方法並びに学習用データセット生成装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023113169
(43)【公開日】2023-08-16
(54)【発明の名称】画像認識装置及び方法並びに学習用データセット生成装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230808BHJP
【FI】
G06T7/00 350B
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022015322
(22)【出願日】2022-02-03
(71)【出願人】
【識別番号】000237592
【氏名又は名称】株式会社デンソーテン
(74)【代理人】
【識別番号】110001933
【氏名又は名称】弁理士法人 佐野特許事務所
(72)【発明者】
【氏名】岡田 康貴
(72)【発明者】
【氏名】関 竜介
(72)【発明者】
【氏名】片山 雄喜
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA08
5L096DA02
5L096GA17
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】入力画像中の認識対象物体を認識する推論において良好な推論結果を得る。
【解決手段】入力画像における認識対象物体を認識するための推論を行う処理部を有する画像認識装置であって、処理部は、入力画像に基づき画像認識モデルを用いて、入力画像内の認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し(例:20[1]では30[1]及び30[2])、複数の物体検出処理の結果(例:132[1,1]及び132[1,2])に基づき推論の結果を表す推論結果データ(例:133[1])を生成し、複数の物体検出処理において互いに異なる複数の画像認識モデル(例:20[1]では131[1,1]及び131[1,2])が用いられ、処理部は、複数の物体検出処理にて検出された複数の物体検出領域の重なり度合いに応じて推論結果データ(例:133[1])を生成する。
【選択図】図12
【特許請求の範囲】
【請求項1】
入力画像における認識対象物体を認識するための推論を行う処理部を有する画像認識装置であって、
前記処理部は、
前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し、
複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し、
前記複数の物体検出処理において互いに異なる複数の画像認識モデルが用いられ、
前記処理部は、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合いに応じて前記推論結果データを生成する
、画像認識装置。
【請求項2】
前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し、
各物体検出処理は、単一種類の物体を前記認識対象物体とするシングルクラスの物体検出処理であって、前記複数の物体検出処理における前記認識対象物体の種類は互いに同じであり、
前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度を特定し、
前記重なり度合いが所定の重なり閾値以上であるとき、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する
、請求項1に係る画像認識装置。
【請求項3】
前記重なり度合いが前記重なり閾値以上であるとき又は前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が所定の基準信頼度以上であるとき、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する
、請求項2に係る画像認識装置。
【請求項4】
前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が前記基準信頼度未満であるとき、前記処理部は、特定データを前記推論結果データに設定する
、請求項3に係る画像認識装置。
【請求項5】
前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し、
各物体検出処理は、複数種類の物体を前記認識対象物体とするマルチクラスの物体検出処理であり、
前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度を特定し、
前記複数の物体検出処理により同一種類の物体が存在すると判断された複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが所定の重なり閾値以上であるとき、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する
、請求項1に係る画像認識装置。
【請求項6】
前記複数の物体検出処理により前記同一種類の物体が存在すると判断された前記複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値以上であるとき又は前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が所定の基準信頼度以上であるとき、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する
、請求項5に係る画像認識装置。
【請求項7】
前記複数の物体検出処理により前記同一種類の物体が存在すると判断された前記複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が前記基準信頼度未満であるとき、前記処理部は、特定データを前記推論結果データに設定する
、請求項6に係る画像認識装置。
【請求項8】
前記複数の画像認識モデル間において前記認識対象物体を検出するためのアルゴリズムが互いに異なる、
各画像認識モデルはニューラルネットワークにより形成され、前記複数の画像認識モデル間において前記ニューラルネットワークの構成が互いに異なる、又は、
互いに異なる環境の機械学習により前記複数の画像認識モデルが形成される
、請求項1~7の何れかに係る画像認識装置。
【請求項9】
請求項1~8の何れかに記載の画像認識装置を備え、
複数の入力画像と各入力画像に対する前記推論結果データを用いて学習用データセットを生成する
、学習用データセット生成装置。
【請求項10】
入力画像における認識対象物体を認識するための推論を行う画像認識方法であって、
前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し、
複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し、
前記複数の物体検出処理において互いに異なる複数の画像認識モデルが用いられ、
当該画像認識方法では、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合いに応じて前記推論結果データを生成する
、画像認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像認識装置及び方法並びに学習用データセット生成装置に関する。
【背景技術】
【0002】
入力画像内の認識対象物体を認識する画像認識技術が実用化されている(例えば特許文献1参照)。画像認識技術では、入力画像に基づき、画像認識モデルを用いて認識対象物体を認識するための推論が行われる。画像認識技術の1つとして画像認識モデルを用いた物体検出がある。物体検出により、入力画像において認識対象物体の存在領域を検出することができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2019-61505号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
画像認識モデルを用いた物体検出の結果は常に正しいとは限らないため、物体検出に基づく推論結果に誤りが含まれることがある。良好な推論結果を得るための技術の開発が期待される。
【0005】
本発明は、良好な推論結果の導出に寄与する画像認識装置及び方法、並びに、それを利用した学習用データセット生成装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る画像認識装置は、入力画像における認識対象物体を認識するための推論を行う処理部を有する画像認識装置であって、前記処理部は、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し、前記複数の物体検出処理において互いに異なる複数の画像認識モデルが用いられ、前記処理部は、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合いに応じて前記推論結果データを生成する。
【発明の効果】
【0007】
本発明によれば、良好な推論結果の導出に寄与する画像認識装置及び方法、並びに、それを利用した学習用データセット生成装置を提供することが可能となる。
【図面の簡単な説明】
【0008】
図1】本発明の基本実施形態に係るデータ処理装置の機能ブロック図である。
図2】本発明の基本実施形態に係り、入力画像とXY座標面との関係を示す図である。
図3】本発明の基本実施形態に係り、入力画像に設定された物体検出領域の位置及び形状を特定するデータ(位置形状データ)の説明図である。
図4】本発明の基本実施形態に係り、物体検出器の入出力情報を示す図である。
図5】本発明の基本実施形態に係り、入力画像の例を示す図である。
図6】本発明の基本実施形態に係り、複数の物体検出器と統合部との関係を説明するための図である。
図7】本発明の基本実施形態に係り、複数の物体検出領域とそれらに基づく統合推論領域との関係を説明するための図である。
図8】本発明の基本実施形態に係り、データ処理装置の動作フローチャートである。
図9】本発明の基本実施形態に係り、入力画像の例を示す図である。
図10】本発明の基本実施形態に係るデータ処理装置の構成図である。
図11】本発明の基本実施形態に係り、2つの領域間におけるIoUの説明図である。
図12】本発明の第1実施形態に属する実施例EX1_1に係り、データ処理装置の要部の機能ブロック図である。
図13】本発明の第1実施形態に属する実施例EX1_1に係り、入力画像の例を示す図である。
図14】本発明の第1実施形態に属する実施例EX1_1に係り、入力画像に対して複数の物体検出領域が設定される様子を示す図である。
図15】本発明の第1実施形態に属する実施例EX1_1に係り、推論結果データを生成に関わるデータ処理装置の動作フローチャートである。
図16】本発明の第1実施形態に属する実施例EX1_1に係り、推論結果データを生成に関わるデータ処理装置の変形動作フローチャートである。
図17】本発明の第1実施形態に属する実施例EX1_2に係り、推論結果データを生成に関わるデータ処理装置の動作フローチャートである。
図18】本発明の第1実施形態に属する実施例EX1_2に係り、推論結果データを生成に関わるデータ処理装置の変形動作フローチャートである。
図19】本発明の第1実施形態に属する実施例EX1_3に係り、推論結果データを生成に関わるデータ処理装置の動作フローチャートである。
図20】本発明の第1実施形態に属する実施例EX1_3に係り、推論結果データを生成に関わるデータ処理装置の変形動作フローチャートである。
図21】本発明の第1実施形態に属する実施例EX1_4に係り、学習用データセットが更新される様子を示す図である。
図22】本発明の第1実施形態に属する実施例EX1_4に係り、データ処理装置の機能ブロック図である。
図23】本発明の第1実施形態に属する実施例EX1_5に係り、入力画像に対して複数の物体検出領域が設定される様子を示す図である。
図24】本発明の第2実施形態に係るデータ処理装置の機能ブロック図である。
図25】本発明の第2実施形態に係り、1つの推論ブロックの機能ブロック図である。
図26】本発明の第2実施形態に係り、データベースに格納されるアテンションデータ群の構成図である。
図27】本発明の第2実施形態に属する実施例EX2_1に係り、1つの推論ブロックの機能ブロック図である。
図28】本発明の第2実施形態に属する実施例EX2_1に係り、複数の入力画像の例を示す図である。
図29】本発明の第2実施形態に属する実施例EX2_1に係り、或る1枚の入力画像に対する推論ブロックの動作を説明するための図である。
図30】本発明の第2実施形態に属する実施例EX2_1に係り、他の1枚の入力画像に対する推論ブロックの動作を説明するための図である。
図31】本発明の第2実施形態に属する実施例EX2_1に係り、アテンション情報の付与に対応する表示装置の表示内容例を示す図である。
図32】本発明の第2実施形態に属する実施例EX2_2に係り、推論結果データの生成及び学習用データセットの更新に関わるデータ処理装置の動作フローチャートである。
図33】本発明の第2実施形態に属する実施例EX2_2に係り、推論結果データの生成及び学習用データセットの更新に関わるデータ処理装置の変形動作フローチャートである。
図34】本発明の第2実施形態に属する実施例EX2_3に係り、推論結果データの生成及び学習用データセットの更新に関わるデータ処理装置の動作フローチャートである。
図35】本発明の第2実施形態に属する実施例EX2_3に係り、推論結果データの生成及び学習用データセットの更新に関わるデータ処理装置の変形動作フローチャートである。
図36】本発明の第2実施形態に属する実施例EX2_4に係り、データ処理装置の機能ブロック図である。
図37】本発明の第2実施形態に属する実施例EX2_6に係り、クラス照合処理の説明図である。
図38】本発明の第3実施形態に係り、機械学習により複数の画像認識モデルを形成する方法の説明図である。
図39】本発明の第3実施形態に係り、画像サイズに関する複数の範囲を定義する図である。
図40】本発明の第3実施形態に属する実施例EX3_1に係り、データ処理装置の要部の機能ブロック図である。
図41】本発明の第3実施形態に属する実施例EX3_2に係り、推論結果データを生成に関わるデータ処理装置の動作フローチャートである。
図42】本発明の第3実施形態に属する実施例EX3_2に係り、推論結果データを生成に関わるデータ処理装置の変形動作フローチャートである。
図43】本発明の第3実施形態に属する実施例EX3_3に係り、機械学習により複数の画像認識モデルを形成する方法の説明図である。
図44】本発明の第3実施形態に属する実施例EX3_3に係り、推論結果データを生成に関わるデータ処理装置の動作フローチャートである。
図45】本発明の第3実施形態に属する実施例EX3_3に係り、推論結果データを生成に関わるデータ処理装置の変形動作フローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態の例を、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。尚、本明細書では、記述の簡略化上、情報、信号、物理量又は部材等を参照する記号又は符号を記すことによって、該記号又は符号に対応する情報、信号、物理量又は部材等の名称を省略又は略記することがある。尚、本明細書において用語“情報”と用語“データ”は互いに同義であり、互いに読み替えることも可能である。
【0010】
<<基本実施形態>>
本発明に係る基本実施形態を説明する。図1は基本実施形態に係るデータ処理装置1の機能ブロック図である。データ処理装置1は、教師あり機械学習の実行に必要な学習用データセットDSを生成する学習用データセット生成装置として機能する。符号10、20、30、40及び50により参照されるブロックは、データ処理装置1に設けられる機能ブロックである。即ち、データ処理装置1は、画像取得部10と、1以上の推論ブロック20と、データ格納部50と、を備え、各推論ブロック20は2以上の物体検出器30と統合部40を備える。データ処理装置1は更にデータベースDBを備える。但し、データベースDBはデータ処理装置1の外部に設けられるものであっても良い。画像取得部10、推論ブロック20及びデータ格納部50の動作を通じて、学習用データセットDSが生成され且つデータベースDBに格納される。
【0011】
データ処理装置1に対し入力画像INが供給される。画像取得部10は入力画像INの供給を受けて入力画像INを取得する。入力画像INの供給、取得とは、詳細には入力画像INを表す画像データ(以下、入力画像INの画像データと称する)の供給、取得を指す。画像取得部10は入力画像INを各推論ブロック20に供給する。
【0012】
図2を参照し入力画像INは二次元の静止画像である。ここで、入力画像INが定義される二次元平面を想定し、当該二次元平面に平行な2つの軸をX軸及びY軸と定義する。X軸及びY軸は互いに直交する。X軸は入力画像INの水平方向に平行であり、Y軸は入力画像INの垂直方向に平行である。以下では、X軸及びY軸に平行な二次元平面をXY座標面と称する。入力画像INは、XY座標面上においてマトリクス状に配列された(X軸及びY軸方向の夫々に配列された)複数の画素から成る。
【0013】
データ処理装置1には計m個の推論ブロック20が設けられる。ここで、mは2以上の任意の整数であるが、“m=1”であり得る。計m個の推論ブロック20は第1~第mの推論ブロック20から成り、第1~第mの推論ブロック20を互いに区別する必要がある場合、第jの推論ブロック20を特に推論ブロック20[j]と称する。ここにおけるjはm以下の任意の自然数である。以下の説明では、主として“m≧2”であることが想定される。
【0014】
各推論ブロック20には計n個の物体検出器30と1つの統合部40が設けられる。ここで、nは2以上の任意の整数である。各推論ブロック20において、計n個の物体検出器30は第1~第nの物体検出器30から成り、第1~第nの物体検出器30を互いに区別する必要がある場合、第iの物体検出器30を特に物体検出器30[i]と称する。ここにおけるiはn以下の任意の自然数である。尚、互いに異なる任意の2つの推論ブロック20間において、nの値は一致しても良いし、不一致でも良い。即ち例えば、推論ブロック20[1]に設けられる物体検出器30の個数及び推論ブロック20[2]に設けられる物体検出器30の個数は共に2でも良い。或いは例えば、推論ブロック20[1]に設けられる物体検出器30の個数及び推論ブロック20[2]に設けられる物体検出器30の個数は、夫々、2、3でも良い。
【0015】
各推論ブロック20では、物体検出器30を用いて、入力画像IN内に存在する特定種類の物体を認識(換言すれば検出)することができる。各推論ブロック20において、認識の対象となる物体を認識対象物体と称する。
【0016】
各物体検出器30に対して画像取得部10から入力画像INが供給される(即ち入力画像INの画像データが供給される)。各物体検出器30は入力画像INに基づき物体検出処理を実行する。物体検出処理は単に物体検出とも称され得る。入力画像INに基づく物体検出処理とは、詳細には入力画像INの画像データに基づく物体検出処理である。各物体検出器30において、物体検出処理では入力画像INにおける認識対象物体が検出される。即ち、各物体検出器30において、物体検出処理では入力画像IN内において認識対象物体が存在すると判断される領域が物体検出領域として設定される。尚、本明細書において、物体検出領域の設定と物体検出領域の検出とは互いに同義であり、それらを互いに読み替えても良い。
【0017】
各物体検出器30は、物体検出処理が可能に形成された画像認識モデルを有し、画像認識モデルを用いて物体検出処理を行う。画像認識モデルそのものが物体検出器30に相当する、と解するようにしても良い。画像認識モデルは、例えば、物体検出用の機械学習を経て得られる学習済みモデル(人工知能による学習済みモデル)である。
【0018】
図3及び図4を参照して物体検出処理にて導出される情報を説明する。図3において、符号“DR”が付された破線矩形領域が物体検出領域に相当する。物体検出領域は一般的にバウンディングボックスと称される。説明の具体化のため、ここでは物体検出領域を物体検出領域DRと表記して物体検出領域の位置及び形状を特定する情報を説明するが、物体検出領域DRについて説明した事項は任意の物体検出領域に当てはまる。
【0019】
物体検出領域DRは入力画像INの全画像領域の一部であり、物体検出領域DRの位置及び形状は、原点座標PDR、幅WDR及び高さHDRにより定められる。物体検出領域DRは長方形の外形を有する。当該長方形の4辺はX軸又はY軸に平行であり、当該長方形の辺の内、X軸方向に平行な辺の長さが幅WDRであり、Y軸方向に平行な辺の長さが高さHDRである。尚、ここでは、X軸方向を幅方向と捉え、Y軸方向を高さ方向と捉えている。即ち、物体検出領域DRにおけるX軸方向の長さは幅WDRであり、物体検出領域DRにおけるY軸方向の長さは高さHDRである。物体検出領域DRの外形としての長方形の頂点の内、X軸の負側且つY軸の負側に位置する頂点の座標(XY座標面上の座標)が原点座標PDRである。物体検出領域DRは、原点座標PDRから見てX軸の正側及びY軸の正側に広がる矩形領域である。
【0020】
図4には、1つの物体検出器30の入出力情報が示される。任意の物体検出器30は、入力画像INに対して物体検出処理を行い、物体検出処理の結果を表す情報として物体検出データを生成及び出力する。物体検出処理において入力画像INから認識対象物体が検出されたとき、検出された認識対象物体の種類を示すクラスデータCLSと、検出された認識対象物体についての位置形状データPPと、物体検出処理の結果の確からしさを表す信頼度SCRとが、物体検出器30にて導出される。即ち、物体検出処理により入力画像INから認識対象物体が検出されたときに生成及び出力される物体検出データは、クラスデータCLSと、位置形状データPPと、信頼度SCRと、を含む。信頼度SCRは、物体検出領域DR内の物体がクラスデータCLSにて示される物体である旨の検出結果の確からしさを表し、一般に“confidence score”と称される。当該確からしさが高いほど信頼度SCRが大きくなる。信頼度SCRは0以上且つ1以下の値を持つ。信頼度SCRは、検出されたクラスデータCLS及び物体検出領域DRの確からしさであるとも言える。
【0021】
認識対象物体の種類は複数であり得る。例えば、認識対象物体の種類に第1種類~第3種類が含まれる場合において、第1種類、第2種類、第3種類の認識対象物体は、夫々、「車両」、「人物」、「信号機」である。車両として、主に自動車などの路面を走行する車両が想定され、人物として、主に道路等に位置する歩行者が想定される。信号機は交通信号機である。1つの推論ブロック20内における物体検出器30[1]~30[n]の認識対象物体は互いに同じであるが、複数の推論ブロック20間で認識対象物体は互いに異なる。この点については後にも詳説される。一例として、推論ブロック20[1]における物体検出器30[1]~30[n]の認識対象物体が「車両」である場合において、推論ブロック20[2]における物体検出器30[1]~30[n]の認識対象物体は「人物」であって良い。
【0022】
以下、注目された任意の物体検出器30を注目物体検出器30と称する。注目物体検出器30の物体検出処理により導出されるクラスデータCLSは、注目物体検出器30が入力画像INから検出した認識対象物体の種類を表す。この種のクラスデータは、一般にラベルデータ又は単にラベルとも称される。注目物体検出器30の物体検出処理により導出される位置形状データPPは、注目物体検出器30が入力画像INから検出した認識対象物体についての物体検出領域DRの位置及び形状を特定する情報であり、原点座標PDR、幅WDR及び高さHDRにて表現される。
【0023】
図5の画像610は入力画像INの一例である。入力画像610には車両612の像が含まれている。注目物体検出器30の認識対象物体に車両が含まれている場合において、注目物体検出器30が入力画像610に対して物体検出処理を実行することにより、物体検出領域613が物体検出領域DRとして設定された場合を考える。物体検出領域613は、入力画像610において車両612の像が存在する領域である。この場合、注目物体検出器30は、入力画像610に対応付けて、検出された物体が「車両」であることを示すクラスデータCLSと、物体検出領域613の位置形状データPPと、物体検出領域613の検出に関わる信頼度SCRと、を含む物体検出データを生成及び出力する。
【0024】
入力画像IN内に認識対象物体の画像データが存在していないとき、注目物体検出器30による物体検出処理において入力画像INから認識対象物体が検出されない(但し誤検出はあり得る)。入力画像IN内に認識対象物体の画像データが存在している場合、注目物体検出器30による物体検出処理において入力画像INから認識対象物体が検出されると期待される。但し、入力画像IN内に認識対象物体の画像データが存在している場合でも、注目物体検出器30による物体検出処理において入力画像INから認識対象物体が検出されないことがある。注目物体検出器30による物体検出処理において入力画像INから認識対象物体が検出されなかったとき、注目物体検出器30にて物体検出領域が設定されず、注目物体検出器30は“0”の物体検出データを生成及び出力する。“0”の物体検出データは、クラスデータCLS、位置形状データPP及び信頼度SCRを含まないデータであって、且つ、認識対象物体が検出されなかった旨を示すデータである。
【0025】
図6を参照して推論ブロック20[j]の動作を説明する。推論ブロック20[j]に対する説明は、推論ブロック20[1]~20[m]の夫々に対して適用されて良い。各々の物体検出器30にて物体検出処理が行われるのであるが、その検出結果は常に正しいとは限らない。そこで、推論ブロック20[j]において、統合部40は、物体検出器30[1]~30[n]から出力される計n個の物体検出データを統合する統合処理を実行し、統合処理の結果を推論結果データとして生成及び出力する。統合処理の詳細は後に説明されるが、典型的に例えば、物体検出器30[1]~30[n]から出力される計n個の物体検出データの内、最大の信頼度SCRに対応する物体検出データを推論結果データにて採用することができる。
【0026】
各々の推論ブロック20は入力画像INに対して推論処理を行う。入力画像INに対する推論処理では、入力画像INにおける認識対象物体を認識するための推論が行われる。当該推論の結果を表すデータが推論結果データである。推論とは、機械学習を経て得られた物体検出用の学習済みモデル(即ち各物体検出器30の画像認識モデル)に入力画像INを入力することで、入力画像IN内の認識対象物体を検出及び推定することを指す。
【0027】
1つの推論ブロック20[j]にて実行される推論処理は、推論ブロック20[j]内の物体検出器30[1]~30[n]による物体検出処理(n回分の物体検出処理)と、推論ブロック20[j]内の統合部40による統合処理と、を含む。即ち、データ処理装置1では推論ブロック20[1]~20[m]の夫々で推論処理が実行される。そして、推論処理ごとに、物体検出器30[1]~30[n]による物体検出処理(n回分の物体検出処理)と、推論結果データを生成する統合処理と、が実行される。推論結果データを生成する統合処理は、物体検出器30[1]~30[n]による物体検出処理の結果(即ち物体検出器30[1]~30[n]の夫々にて生成される物体検出データ)に基づいて実行される。
【0028】
推論ブロック20[j]において、推論結果データは、統合推論領域内の物体の種類を示すクラスデータと、統合推論領域の位置及び形状を特定する位置形状データと、を含む(図6参照)。統合推論領域は入力画像IN内の領域である。推論ブロック20[j]において、推論処理により認識対象物体が存在する領域が特定され、特定された領域が統合推論領域に相当する。統合部40が統合処理の中で統合推論領域を設定する。
【0029】
図7を参照し、物体検出器30にて設定される物体検出領域と統合部40により設定される統合推論領域との関係を説明する。推論ブロック20[j]において、1枚の入力画像INにおける任意の1つの物体OBJに対し物体検出器30[1]~30[n]により最大で計n個の物体検出領域が設定される。但し、物体OBJは推論ブロック20[j]における認識対象物体であるとする。図7の例では2つの領域621及び622が物体OBJに対する物体検出領域として設定される。設定された各物体検出領域は統合推論領域の候補として機能し、統合部40は何れかの候補を統合推論領域として採用することができる。図7の例では、物体検出領域621が統合推論領域626として採用されている。
【0030】
推論ブロック20[j]において物体検出領域621が統合推論領域626として採用されたとき、物体検出領域621を設定した物体検出器30からの物体検出データに基づき推論結果データが生成される。即ち例えば、推論ブロック20[j]において、物体検出器30[1]が物体検出領域621を設定した場合、物体検出器30[1]からの物体検出データ中のクラスデータCLS及び位置形状データPP(図4参照)が、統合部40からの推論結果データ中のクラスデータ及び位置形状データとなる。この際、物体検出器30[1]からの物体検出データ中の信頼度SCRも推論結果データに含まれるようにして良い。
【0031】
データ格納部50に対して推論ブロック20[1]~20[m]からの推論結果データが入力される(図1参照)。推論ブロック20[1]~20[m]からの推論結果データは、詳細には、推論ブロック20[1]~20[m]における統合部40からの推論結果データである。データ格納部50は、推論ブロック20[1]~20[m]からの推論結果データに基づき学習用データセットDSを生成し、学習用データセットDSをデータベースDBに格納させる。
【0032】
大量枚数の入力画像IN(例えば10万枚の入力画像IN)が用意され、各入力画像INに基づく推論結果データを入力画像INに対応付けてデータベースDBに次々と追加してゆくことにより、学習用データセットDSが生成される。
【0033】
図8にデータ処理装置1の動作フローチャートを示す。まずステップS1において、データ処理装置1(後述の演算処理部2;図10参照)にて管理される変数pに“1”が代入される。その後、ステップS2、S3、S4、S5の処理が、この順番で順次実行される。ステップS2において、画像取得部10にて入力画像INが取得される。第p番目に取得される入力画像INを入力画像IN[p]と称する。ステップS3において、データ処理装置1内の各物体検出器30にて入力画像IN[p]に対する物体検出処理が実行されて物体検出データが生成される。ステップS4において、推論ブロック20ごとに統合部40による統合処理が実行される。これにより、推論ブロック20ごとに、物体検出器30[1]~30[n]から出力される計n個の物体検出データが統合されて推論結果データが生成される。
【0034】
ステップS5において、データ格納部50は、入力画像IN[p]と各推論結果データとに基づく単位データセットを生成する。入力画像IN[p]に基づく単位データセットを単位データセットU_DS[p]と称する。ステップS5において、データ格納部50は、単位データセットU_DS[p]をデータベースDBに格納することにより、単位データセットU_DS[p]を学習用データセットDSの一部として学習用データセットDSに追加する。任意の単位データセットを学習用データセットDSに追加することにより、学習用データセットDSの情報量が増加する態様で、学習用データセットDSが更新される。
【0035】
単位データセットU_DS[p]は、入力画像IN[p]の画像データと、入力画像IN[p]に対するアノテーション情報と、を含んだデータセットである。入力画像IN[p]に対するアノテーション情報は、入力画像IN[p]に基づいて生成された各推論結果データに応じた情報である。入力画像IN[p]に対するアノテーション情報は、入力画像IN[p]内に存在する認識対象物体ごとに、当該認識対象物体の種類を示すクラスアノテーション情報と、入力画像IN[p]において認識対象物体が存在する領域の位置及び形状を特定する領域アノテーション情報と、を含む。推論結果データにおけるクラスデータがクラスアノテーション情報として用いられ、推論結果データにおける位置形状データが領域アノテーション情報として用いられる。
【0036】
図9に入力画像IN[p]の例として入力画像630を示す。入力画像630には車両632の像、人物634の像及び信号機636の像が含まれている。1又は複数の物体検出器30の認識対象物体に車両、人物及び信号機が含まれているものとする。この場合、入力画像630に対するアノテーション情報は、第1物体のアノテーション情報と、第2物体のアノテーション情報と、第3物体のアノテーション情報とを含む。入力画像630に関する第1物体、第2物体、第3物体は、夫々、車両632、人物634、信号機636である。
【0037】
入力画像630に関し、第1物体のアノテーション情報は、第1物体の種類が車両であること示すクラスアノテーション情報と、入力画像630において第1物体(即ち車両632)が存在する領域633の位置及び形状を特定する領域アノテーション情報と、を含む。領域633は、何れかの推論ブロック20により設定された、第1物体(即ち車両632)の統合推論領域である。入力画像630に関し、第2物体のアノテーション情報は、第2物体の種類が人物であること示すクラスアノテーション情報と、入力画像630において第2物体(即ち人物634)が存在する領域635の位置及び形状を特定する領域アノテーション情報と、を含む。領域635は、何れかの推論ブロック20により設定された、第2物体(即ち人物634)の統合推論領域である。入力画像630に関し、第3物体のアノテーション情報は、第3物体の種類が信号機であること示すクラスアノテーション情報と、入力画像630において第3物体(即ち信号機636)が存在する領域637の位置及び形状を特定する領域アノテーション情報と、を含む。領域637は、何れかの推論ブロック20により設定された、第3物体(即ち信号機636)の統合推論領域である。
【0038】
ステップS5に続くステップS6において、データ処理装置1(後述の演算処理部2)は所定の終了条件の成否を判断する。例えば、変数pが所定値(例えば100000)に達することで終了条件が成立する。或いは例えば、後述のインターフェース4(図9参照)を通じてデータ処理装置1に対し所定の終了指示信号が入力されたときに終了条件が成立する。終了条件が成立している場合(ステップS6のY)、図8の動作が終了する。終了条件が不成立の場合(ステップS6のN)、ステップS7にて変数pに1が加算されてからステップS2に戻り、ステップS2及びそれ以降の各ステップの処理が繰り返される。
【0039】
例えば、“p=100000”の成立によって終了条件が成立する場合には、入力画像IN[1]~IN[100000]に対応する単位データセットU_DS[1]~U_DS[100000]が学習用データセットDSに含められた状態で、図8の動作が終了する。
【0040】
図8の動作を経て得られる学習用データセットDSは、機械学習により物体検出用の推論モデルを構築するためのデータセットである。ここにおける推論モデルは、各物体検出器30における画像認識モデルとは別のモデルである。ディープニューラルネットワークを、学習用データセットDSを用いた教師あり機械学習にて学習させることで、物体検出が可能な推論モデルが構築される。
【0041】
尚、推論ブロック20[j]において特定データが推論結果データに設定されて、特定データが推論結果データとして出力されることがある。特定データは各物体検出器30からの物体検出データに依存しない固定データであって、予め定められる。以下では、特定データを有する推論結果データ(即ち、特定データに設定された推論結果データ)を、“0”の推論結果データと称する。“0”の推論結果データは、統合推論領域のクラスデータ及び位置形状データを含まないデータであって、且つ、推論処理により認識対象物体が検出されなかった旨を示すデータである。“0”の推論結果データは有意なデータではない。入力画像IN[p]について推論ブロック20[j]から“0”の推論結果データが出力されたとき、“0”の推論結果データは単位データセットU_DS[p]に含められず、結果、推論ブロック20[j]の推論結果は学習用データセットDSに反映されない。
【0042】
図10はデータ処理装置1の構成ブロック図である。データ処理装置1は、ハードウェア資源として、演算処理部2、メモリ3、インターフェース4及びデータベースDBを備える。但し、上述したように、データベースDBはデータ処理装置1の外部に設けられるものであっても良い。データ処理装置1は1又は複数のコンピュータ装置にて構成される。クラウトコンピューティングを用いてデータ処理装置1を実現しても良い。
【0043】
演算処理部2は、MPU(Micro Processing Unit)及びGPU(Graphics Processing Unit)等を含み、所望の演算を実行する。メモリ3は、ROM(Read only memory)及びフラッシュメモリ等の不揮発性記録媒体、及び、RAM等の揮発性記録媒体を含む。上述の各推論ブロック20の機能及びデータ格納部50の機能は、演算処理部2により実現される機能である。換言すれば、各推論ブロック20及びデータ格納部50は演算処理部2に設けられる機能ブロックである。演算処理部2においてメモリ3に格納されたプログラムを実行することで、推論ブロック20及びデータ格納部50が構成されても良い。メモリ3の一部又は全部は演算処理部2に設けられると解しても良い。
【0044】
インターフェース4は、データ処理装置1とは異なる装置である外部装置(不図示)と、データ処理装置1とのインターフェースを含む。データ処理装置1はインターフェース4を通じて外部装置との双方向通信を実現する。外部装置及びデータ処理装置1は所定の通信網を介して互いに接続されるものであっても良く、この場合、インターフェース4を通じて通信網との接続が確立される。ここにおける通信網は、インターネット、無線LAN(Local Area Network)及び近距離無線通信回線の内、全部又は一部を含む。無線LANは、例えばWi-Fi(登録商標)に準拠したものであって良い。近距離無線通信回線は、例えばBluetooth(登録商標)に準拠したものであって良い。上述の入力画像INはインターフェース4を通じて外部装置からデータ処理装置1に供給されるものであって良い。
【0045】
インターフェース4は、更に、データ処理装置1の操作者とデータ処理装置1とのマンマシンインターフェースを含む。マンマシンインターフェースは、スピーカ及び表示装置を含むと共に、操作者からの操作を受け付ける操作部(キーボード及びポインティングデバイス等)を含む。
【0046】
データ処理装置1に設けられる物体検出器30は、全てシングルクラスの物体検出器であるか、或いは、全てマルチクラスの物体検出器である。但し、データ処理装置1に設けられる物体検出器30の中に、シングルクラスの物体検出器とマルチクラスの物体検出器とが混在していても良い。
【0047】
シングルクラスの物体検出器とは、単一種類の物体を認識対象物体として物体検出処理を行う物体検出器である。即ち、シングルクラスの物体検出器における認識対象物体は1つの種類の物体のみを含み、シングルクラスの物体検出器は1つの種類の物体のみの認識及び検出が可能である。用語“シングルクラス”は、物体検出処理及び画像認識モデルにも適用される。即ち、シングルクラスの物体検出器による物体検出処理はシングルクラスの物体検出処理であり、シングルクラスの物体検出処理は単一種類の物体を認識対象物体とする物体検出処理である。同様に、シングルクラスの物体検出器における画像認識モデルはシングルクラスの画像認識モデルであり、シングルクラスの画像認識モデルでは単一種類の物体を認識対象物体として画像認識(物体検出)を行う。
【0048】
例えば、注目物体検出器30が車両を認識対象物体とするシングルクラスの物体検出器である場合において、注目物体検出器30が図9の入力画像630に対して物体検出処理を行うことを想定する。この場合には、注目物体検出器30により、入力画像630において車両632のみが認識及び検出されて、車両632についての物体検出データのみが注目物体検出器30から出力される。或いは例えば、注目物体検出器30が人物を認識対象物体とするシングルクラスの物体検出器である場合において、注目物体検出器30が図9の入力画像630に対して物体検出処理を行うことを想定する。この場合には、注目物体検出器30により、入力画像630において人物634のみが認識及び検出されて、人物634についての物体検出データのみが注目物体検出器30から出力される。
【0049】
マルチクラスの物体検出器とは、複数種類の物体を認識対象物体として物体検出処理を行う物体検出器である。即ち、マルチクラスの物体検出器における認識対象物体は複数種類の物体を含み、マルチクラスの物体検出器は複数種類の物体の認識及び検出が可能である。用語“マルチクラス”は、物体検出処理及び画像認識モデルにも適用される。即ち、マルチクラスの物体検出器による物体検出処理はマルチクラスの物体検出処理であり、マルチクラスの物体検出処理は複数種類の物体を認識対象物体とする物体検出処理である。同様に、マルチクラスの物体検出器における画像認識モデルはマルチクラスの画像認識モデルであり、マルチクラスの画像認識モデルでは複数種類の物体を認識対象物体として画像認識(物体検出)を行う。
【0050】
例えば、注目物体検出器30がマルチクラスの物体検出器であって且つ注目物体検出器30の認識対象物体に車両及び人物が含まれる場合において、注目物体検出器30が図9の入力画像630に対して物体検出処理を行うことを想定する。この場合には、注目物体検出器30により、入力画像630において車両632及び人物634が認識及び検出されて、車両632についての物体検出データと人物634についての物体検出データとが注目物体検出器30から出力される。注目物体検出器30がマルチクラスの物体検出器であって且つ注目物体検出器30の認識対象物体に3種類以上の物体(例えば車両、人物及び信号機)が含まれる場合も同様である。
【0051】
[シングルクラス構成]
データ処理装置1に設けられる物体検出器30が全てシングルクラスの物体検出器である構成を、便宜上、シングルクラス構成と称する。即ち、シングルクラス構成では、データ処理装置1内の物体検出器30にて実行される物体検出処理が全てシングルクラスの物体検出処理である。
【0052】
シングルクラス構成では、推論ブロック20ごとに認識対象物体の種類が設定され、任意の2つの推論ブロック20間において認識対象物体の種類は互いに異なる。シングルクラス構成において、1つの推論ブロック20に含まれる全物体検出器30の認識対象物体の種類は互いに同じである(即ち、1つの推論ブロック20で実行される全物体検出処理の認識対象物体の種類は互いに同じである)。例えば、シングルクラス構成において“m=3”である場合、推論ブロック20[1]における全物体検出器30の認識対象物体は車両であり、推論ブロック20[2]における全物体検出器30の認識対象物体は人物であり、推論ブロック20[3]における全物体検出器30の認識対象物体は信号機である。
【0053】
[マルチクラス構成]
データ処理装置1に設けられる物体検出器30が全てマルチクラスの物体検出器である構成を、便宜上、マルチクラス構成と称する。即ち、マルチクラス構成では、データ処理装置1内の物体検出器30にて実行される物体検出処理が全てマルチクラスの物体検出処理である。
【0054】
マルチクラス構成では、推論ブロック20ごとに認識対象物体の種類が複数設定される。マルチクラス構成においては特に“m=1”であっても良い。マルチクラス構成において、1つの推論ブロック20に含まれる全物体検出器30の認識対象物体は互いに同じである(即ち、1つの推論ブロック20で実行される全物体検出処理の認識対象物体の種類は互いに同じである)。例えば、マルチクラス構成において、推論ブロック20[1]内における物体検出器30[1]の認識対象物体の種類が車両及び人物の2種類であるとき、推論ブロック20[1]内における他の物体検出器30(30[2]~30[n])の認識対象物体の種類も車両及び人物の2種類である。マルチクラス構成において“m≧2”である場合には、任意の2つの推論ブロック20間において認識対象物体の種類は互いに異なっていて良い。
【0055】
[画像認識モデルの相違]
各推論ブロック20において、物体検出器30[1]~30[n]における画像認識モデルを、夫々、第1~第n画像認識モデルと称する。各推論ブロック20において、第1~第n画像認識モデルは互いに異なる画像認識モデルである。その結果、第1~第n画像認識モデル間で認識対象物体に対する認識性能等が異なり、故に、同一の入力画像INに対する物体検出処理の結果は物体検出器30[1]~30[n]間で異なり得る。
【0056】
例えば、第1~第n画像認識モデル間において認識対象物体を検出(認識)するためのアルゴリズムが互いに異なる。より具体的には例えば、第1画像認識モデルは1ステージ型の検出アルゴリズムを採用し、第2画像認識モデルは2ステージ型の検出アルゴリズムを採用する。2ステージ型の検出アルゴリズムでは、物体検出処理が第1段階処理と第2段階処理とで構成され、第1段階処理を経てから第2段階処理を行うことで物体検出データを導出する。第1段階処理では、入力画像IN内で何らかの物体が存在していると推定される領域の候補を1以上抽出する。その後、第2段階処理において、抽出された候補の領域に認識対象物体が存在しているかを判断することで物体検出データを生成する。1ステージ型の検出アルゴリズムでは、第1及び第2段階処理を包含する処理を一度に実行することで物体検出データを生成する。但し、ここで述べた第1及び第2段階処理の内容は例に過ぎない。2ステージ型の検出アルゴリズムは、R-CNN(Regions with Convolutional Neural Networks)における2段階検出アルゴリズムに相当していて良い。
【0057】
各画像認識モデルはニューラルネットワークにより形成される。ニューラルネットワークはディープニューラルネットワークに分類されるものであって良い。例えば、第1~第n画像認識モデル間においてニューラルネットワークの構成が互いに相違していても良い。より具体的には例えば、第1画像認識モデルにおけるニューラルネットワークと第2画像認識モデルにおけるニューラルネットワークとで、ニューラルネットワークに含まれる層の数及びノードの数が、互いに相違していても良い。第1及び第2画像認識モデルの組み合わせ以外の、任意の組み合わせについても同様である。
【0058】
第1~第n画像認識モデルは互いに異なる環境の機械学習により形成された画像認識モデルであって良い。例えば、第1画像認識モデルは、既存の第1学習用データセットを用いた第1機械学習(教師あり機械学習)により形成された学習済みモデルであって良い。この場合、第2画像認識モデルは、既存の第2学習用データセットを用いた第2機械学習(教師あり機械学習)により形成された学習済みモデルであって良い。ここで、第1学習用データセットと第2学習用データセットは互いに異なり、学習用データセットDSの作成前から存在する学習用データセットである。第3~第n画像認識モデルも同様である。
【0059】
第1及び第2学習用データセットは、夫々に、複数の学習用画像(即ち複数の学習用画像の画像データ)と各学習用画像に対するアノテーション情報を含む。アノテーション情報は教師データに相当する。教師データは機械学習の中で参照される正解データを示す。
【0060】
具体例として、既存の第1学習用データセットにおける各学習用画像は昼間において認識対象物体を撮影した画像であって、既存の第2学習用データセットにおける各学習用画像は夜間において認識対象物体を撮影した画像であって良い。この場合、第1学習用データセットに基づく第1画像認識モデルは、入力画像INが認識対象物体を昼間に撮影した画像であるときに高い認識性能を発揮すると期待される。一方で、第2学習用データセットに基づく第2画像認識モデルは、入力画像INが認識対象物体を夜間に撮影した画像であるときに高い認識性能を発揮すると期待される。認識対象物体が車両である場合において、昼間の車両の見え方(画像データ)と夜間の車両の見え方(画像データ)とは、周囲の明るさの相違及びヘッドライトの点灯有無の相違等により、大きく異なる。
【0061】
[重なり度合い(IoU)]
各推論ブロック20において、1枚の入力画像INに対し複数の物体検出器30の夫々にて物体検出領域が設定されたとき、統合部40は、それら複数の物体検出器30にて設定された複数の物体検出領域の重なり度合いを導出できる。具体的には、統合部40は、複数の物体検出領域の重なり度合いを表す指標としてIoU(Intersection over Union)を導出する。但し、指標IoUは、複数の物体検出領域間でクラスデータが一致している場合のみ導出される。尚、本明細書において、表現“複数の物体検出領域の指標IoU”と表現“複数の物体検出領域間の指標IoU”は同義である。
【0062】
図11を参照して指標IoUを説明する。図11において符号“640”は1枚の入力画像INを表す。任意の1つの推論ブロック20[j]において、物体検出器30[1]により入力画像640に対して物体検出領域641が設定され、且つ、物体検出器30[2]により入力画像640に対して物体検出領域642が設定された場合を考える。物体検出領域641及び642は単一の物体に対する物体検出領域であり、物体検出領域641及び642間でクラスデータは一致しているものとする。
【0063】
この際、物体検出領域641及び642の指標IoUは“IoU=S[641:642]/S[641:642]”で表される。ここで、S[641:642]は物体検出領域641及び642の積集合の面積を表す。即ち、S[641:642]は物体検出領域641及び642が重なり合う領域(図11の斜線領域に相当)の面積を表す。S[641:642]は物体検出領域641及び642の和集合の面積を表す。即ち、S[641:642]は、物体検出領域641及び642が重なり合う領域(図11の斜線領域に相当)の面積と、物体検出領域641のみに内包される領域の面積と、物体検出領域642のみに内包される領域の面積と、の総和を表す。画像上における任意の領域の面積は、当該領域に属する画素の総数で表される。尚、画像における物体の画像サイズも、当該物体の像が存在する領域の面積で表される。
【0064】
3以上の物体検出領域に対しても指標IoUを導出できる。今、任意の1つの推論ブロック20[j]における任意の2以上の物体検出器30を第1~第n物体検出器30と称する。そして、1枚の入力画像INである注目入力画像に対し第1~第n物体検出器30が夫々に物体検出処理を行うことにより、第1~第n物体検出器30にて夫々第1~第n物体検出領域が設定されたとする。nは2以上且つn以下の任意の整数である。推論ブロック20[j]において、統合部40は、第1~第n物体検出領域間でクラスデータが一致している場合にのみ第1~第n物体検出領域の重なり度合いとして、第1~第n物体検出領域の指標IoUを導出する。
【0065】
第1~第n物体検出領域間でクラスデータが一致しているとは、第1物体検出器30が第1物体検出領域内に存在していると判断した物体の種類と、第2物体検出器30が第2物体検出領域内に存在していると判断した物体の種類と、・・・、第n物体検出器30が第n物体検出領域内に存在していると判断した物体の種類と、が全て一致していることを意味する。以下では、第1~第n物体検出領域間でクラスデータが一致していることを、第1~第n物体検出領域に対するクラスデータの一致、若しくは、第1~第n物体検出領域についてのクラスデータの一致、又は、それに類する記載で表現することがある。
【0066】
また、第1物体検出器30が第1物体検出領域内に存在していると判断した物体の種類と、第2物体検出器30が第2物体検出領域内に存在していると判断した物体の種類と、・・・、第n物体検出器30が第n物体検出領域内に存在していると判断した物体の種類と、が2以上の種類を含んでいるとき、第1~第n物体検出領域間でクラスデータが不一致であると表現する。第1~第n物体検出領域間でクラスデータが不一致であることを、第1~第n物体検出領域に対するクラスデータの不一致、若しくは、第1~第n物体検出領域についてのクラスデータの不一致、又は、それに類する記載で表現することがある。
【0067】
シングルクラス構成では、1つの推論ブロック20[j]に含まれる全物体検出器30の認識対象物体の種類は互いに同じである。従って、1つの推論ブロック20[j]における複数の物体検出器30の夫々で物体検出領域が設定されたとき、複数の物体検出器30により設定された複数の物体検出領域間でクラスデータは常に一致する。マルチクラス構成では、1つの推論ブロック20[j]における複数の物体検出器30の夫々で物体検出領域が設定されたとき、複数の物体検出器30により設定された複数の物体検出領域間でクラスデータは一致するときもあるし、不一致となることもある。
【0068】
第1~第n物体検出領域の指標IoUは“IoU=S/S”で表される。ここで、Sは第1~第n物体検出領域の積集合の面積を表す。即ち、Sは第1~第n物体検出領域が全て重なり合う部分の面積を表す。Sは第1~第n物体検出領域の和集合の面積を表す。即ち、Sは 第1~第n物体検出領域の内、少なくとも1つの物体検出領域に内包される領域の面積の総和を表す。
【0069】
[参考方法]
アノテーション情報を有する学習用データセットを用いて機械学習を行う方法がある。アノテーション情報は所謂教師データに相当する。教師データは機械学習の中で参照される正解データを示す。
【0070】
学習用データセットにおいてはデータの量と質が重要となる。第1参考方法では、人手による作業で大量の入力画像に対する教師データを作成し、これによって学習用データセットを作成する。但し、第1参考方法では多くの人の作業と時間を要する。
【0071】
高い検出能力を持つ大規模且つ高性能AI(人工知能)の推論結果を用いて教師データを作成する第2参考方法もある。但し、大規模且つ高性能AIでも誤検出又は未検出が発生し、その結果を利用すると、誤りのある学習用データセット(換言すれば、誤りのある教師データ)が生成されることになる。
【0072】
尚、AIは、破壊的忘却の仕組みの下、機械学習を経て生成される。このため、基本的には検出の対象ごとにAIを作り直す必要がある。即ち例えば、車両と人物を物体検出の対象とする第1AIが既にある場合、第1AIを用いれば、車両と人物の画像認識が可能となると共に、車両と人物の物体検出用の教師データを作成できる。この場合において、車両と人物に加えて、信号機の認識が必要になった場合、破壊的忘却の仕組みの下、車両と人物と信号機を物体検出の対象とする第2AIを改めて作成する必要がある(第1AIを基礎に第1AIを拡張して第2AIを作成するといったことはできない)。
【0073】
以下、データ処理装置1に関わる詳細な実施形態として第1~第4実施形態を説明する。第1~第4実施形態は上述の基本実施形態を基礎とする実施形態であり、第1~第4実施形態において特に述べない事項に関しては、矛盾の無い限り、基本実施形態の記載(即ち上述された各事項)が第1~第4実施形態にも適用される。但し、第1実施形態の記載を解釈するにあたり、基本実施形態及び第1実施形態間で矛盾する事項については第1実施形態の記載が優先されて良い(後述の第2~第4実施形態についても同様)。矛盾の無い限り、第1~第4実施形態の内、任意の複数の実施形態を組み合わせても良い。
【0074】
<<第1実施形態>>
本発明の第1実施形態を説明する。第1実施形態では、基本実施形態にて上述したデータ処理装置1の構成をそのまま利用できる。第1実施形態では、同一の物体に対して検出アルゴリズム等が異なる複数の画像認識モデルを適用し、それらの結果を統合する。
【0075】
第1実施形態は、以下の実施例EX1_1~EX1_5を含む。実施例EX1_1~EX1_5にて第1実施形態に関わる具体的な動作等を説明する。矛盾無き限り、実施例EX1_1~EX1_5の内、任意の実施例に記載した事項を、他の任意の実施例に適用することもできる(即ち複数の実施例の内の任意の2以上の実施例を組み合わせることも可能である)。
【0076】
[実施例EX1_1]
実施例EX1_1を説明する。実施例EX1_1は、第1実施形態に関わる技術を具体化した典型的な実施例に相当する。図12に、実施例EX1_1に係るデータ処理装置1の要部の機能ブロック図を示す。実施例EX1_1では、“m=2”であって、且つ、各推論ブロック20において“n=2”であるとする(図1及び図12参照)。また、実施例EX1_1では、シングルクラス構成が採用される。
【0077】
実施例EX1_1に係る推論ブロック20[1]において、物体検出器30[1]における画像認識モデルは車両用モデル131[1,1]であり、物体検出器30[2]における画像認識モデルは車両用モデル131[1,2]である。実施例EX1_1に係る推論ブロック20[2]において、物体検出器30[1]における画像認識モデルは人物用モデル131[2,1]であり、物体検出器30[2]における画像認識モデルは人物用モデル131[2,2]である。
【0078】
車両用モデル(ここでは、131[1,1]、131[1,2])とは、車両のみを認識対象物体とするシングルクラスの画像認識モデルを指す。故に、実施例EX1_1に係る推論ブロック20[1]において、物体検出器30[1]及び30[2]は、車両のみを認識対象物体とするシングルクラスの物体検出器である。人物用モデル(ここでは、131[2,1]、131[2,2])とは、人物のみを認識対象物体とするシングルクラスの画像認識モデルを指す。故に、実施例EX1_1に係る推論ブロック20[2]において、物体検出器30[1]及び30[2]は、人物のみを認識対象物体とするシングルクラスの物体検出器である。
【0079】
図13に1枚の入力画像IN[p]の例である入力画像1110を示す。入力画像1110には車両1112の像と人物1114の像が含まれている。入力画像1110に対する図12の各部の動作を説明する。
【0080】
推論ブロック20[1]において、物体検出器30[1]は入力画像1110に対し車両用モデル131[1,1]を用いた物体検出処理を行うことにより物体検出データ132[1,1]を生成及び出力する。
推論ブロック20[1]において、物体検出器30[2]は入力画像1110に対し車両用モデル131[1,2]を用いた物体検出処理を行うことにより物体検出データ132[1,2]を生成及び出力する。
推論ブロック20[2]において、物体検出器30[1]は入力画像1110に対し人物用モデル131[2,1]を用いた物体検出処理を行うことにより物体検出データ132[2,1]を生成及び出力する。
推論ブロック20[2]において、物体検出器30[2]は入力画像1110に対し人物用モデル131[2,2]を用いた物体検出処理を行うことにより物体検出データ132[2,2]を生成及び出力する。
【0081】
推論ブロック20[1]において、統合部40は、物体検出データ132[1,1]及び132[1,2]に基づいて推論結果データ133[1]を生成及び出力する。
推論ブロック20[2]において、統合部40は、物体検出データ132[2,1]及び132[2,2]に基づいて推論結果データ133[2]を生成及び出力する。
【0082】
データ格納部50は、入力画像710と推論結果データ133[1]及び133[2]とに基づく単位データセット134を生成する。データ格納部50は、単位データセット134をデータベースDBに格納することにより、単位データセット134を学習用データセットDSの一部として学習用データセットDSに追加する。
【0083】
図14を参照し、符号1113_1が付された破線矩形内領域は、推論ブロック20[1]の物体検出器30[1]により設定された(即ち車両用モデル131[1,1]により設定された)物体検出領域である。符号1113_2が付された破線矩形内領域は、推論ブロック20[1]の物体検出器30[2]により設定された(即ち車両用モデル131[1,2]により設定された)物体検出領域である。符号1115_1が付された破線矩形内領域は、推論ブロック20[2]の物体検出器30[1]により設定された(即ち人物用モデル131[2,1]により設定された)物体検出領域である。符号1115_2が付された破線矩形内領域は、推論ブロック20[2]の物体検出器30[2]により設定された(即ち人物用モデル131[2,2]により設定された)物体検出領域である。上述の如く、各推論ブロック20では、2つの物体検出器30により2つの物体検出領域が設定されるが、各物体検出領域は統合推論領域の候補として機能する(図7参照)。
【0084】
推論ブロック20[1]において、統合部40は物体検出領域1113_1及び1113_2間の指標IoUを指標IoUA_1として導出し、指標IoUA_1に応じた推論結果データ133[1]を生成する。推論ブロック20[2]において、統合部40は物体検出領域1115_1及び1115_2間の指標IoUを指標IoUA_2として導出し、指標IoUA_2に応じた推論結果データ133[2]を生成する。
【0085】
指標IoUA_1に基づく推論結果データ133[1]の生成方法及び推論結果データ133[1]と学習用データセットDSとの関係を説明する。推論ブロック20[1]において、統合部40は、物体検出データ132[1,1]における信頼度SCR及び物体検出データ132[1,2]における信頼度SCRの内、高い方の信頼度SCRを特定し、高い方の信頼度SCRに対応する物体検出器30を基準物体検出器30に設定する。物体検出データ132[1,1]及び132[1,2]における信頼度SCRが一致している場合には、物体検出器30[1]及び30[2]の内、任意の一方又は予め定められた一方を基準物体検出器30に設定する。
【0086】
推論ブロック20[1]において、統合部40は、指標IoUA_1を所定の重なり閾値IoUREFと比較する。重なり閾値IoUREFは0より大きく且つ1未満の値(例えば0.8)を持つ。指標IoUA_1が重なり閾値IoUREF以上であるケースを、便宜上、ケースCSA11と称する。ケースCSA11において、統合部40は、基準物体検出器30から出力される物体検出データを推論結果データ133[1]にて採用する。
【0087】
或る物体検出データを或る推論結果データに採用するとは、当該物体検出データ中のクラスデータCLS及び位置形状データPPを当該推論結果データ中のクラスデータ及び位置形状データに設定することを指す。従って、ケースCSA11において、統合部40は、基準物体検出器30からの物体検出データ中のクラスデータCLS及び位置形状データPPを、推論結果データ133[1]中のクラスデータ及び位置形状データに設定する。
【0088】
推論ブロック20[1]において、統合部40は、指標IoUA_1が重なり閾値IoUREF未満である場合、基準物体検出器30の物体検出データ中の信頼度SCRを所定の基準信頼度SCRREFと比較する。基準信頼度SCRREFは0より大きく且つ1未満の値(例えば0.6)を持つ。指標IoUA_1が重なり閾値IoUREF未満であって且つ基準物体検出器30の物体検出データ中の信頼度SCRが基準信頼度SCRREF以上であるケースを、便宜上、ケースCSA12と称する。ケースCSA12において、統合部40は、基準物体検出器30から出力される物体検出データを推論結果データ133[1]にて採用する。即ち、基準物体検出器30からの物体検出データ中のクラスデータCLS及び位置形状データPPを、推論結果データ133[1]中のクラスデータ及び位置形状データに設定する。
【0089】
従って例えば、ケースCSA11又はCSA12において、推論ブロック20[1]における物体検出器30[1]が基準物体検出器30に設定されたならば、物体検出データ132[1,1]中のクラスデータCLS及び位置形状データPPが、推論結果データ133[1]中のクラスデータ及び位置形状データに設定される。この場合、物体検出領域1113_1が統合推論領域に設定される。そして、推論結果データ133[1]中のクラスデータは、統合推論領域(1113_1)内の物体が車両であることを示すクラスアノテーション情報として入力画像1110に関する単位データセットに含められる。加えて、推論結果データ133[1]中の位置形状データは、統合推論領域(1113_1)の位置及び形状を示す領域アノテーション情報として、入力画像1110に関する単位データセットに含められる(結果、学習用データセットDSに含められる)。
【0090】
逆に例えば、ケースCSA11又はCSA12において、推論ブロック20[1]における物体検出器30[2]が基準物体検出器30に設定されたならば、物体検出データ132[1,2]中のクラスデータCLS及び位置形状データPPが、推論結果データ133[1]中のクラスデータ及び位置形状データに設定される。この場合、物体検出領域1113_2が統合推論領域に設定される。そして、推論結果データ133[1]中のクラスデータは、統合推論領域(1113_2)内の物体が車両であることを示すクラスアノテーション情報として入力画像1110に関する単位データセットに含められる。加えて、推論結果データ133[1]中の位置形状データは、統合推論領域(1113_2)の位置及び形状を示す領域アノテーション情報として、入力画像1110に関する単位データセットに含められる(結果、学習用データセットDSに含められる)。
【0091】
指標IoUA_1が重なり閾値IoUREF未満であって且つ基準物体検出器30の物体検出データ中の信頼度SCRが基準信頼度SCRREF未満であるケースを、便宜上、ケースCSA13と称する。ケースCSA13では、“0”の推論結果データ133[1]が統合部40から出力される。ケースCSA13において、推論結果データ133[1]は入力画像1110に関する単位データセットに含められず(換言すれば入力画像1110に関する単位データセットから除外され)、結果、推論結果データ133[1]は学習用データセットDSに反映されない。
【0092】
尚、ケースCSA12において、ケースCSA13と同様に、推論ブロック20[1]の統合部40から“0”の推論結果データ133[1]が出力されるようにする変形も可能である。
【0093】
指標IoUA_1に基づく推論結果データ133[1]の生成方法及び推論結果データ133[1]と学習用データセットDSとの関係を説明したが、指標IoUA_2に基づく推論結果データ133[2]の生成方法及び推論結果データ133[2]と学習用データセットDSとの関係も同様である。
【0094】
図15に、実施例EX1_1に係るデータ処理装置1の動作フローチャートを示す。但し、図15のステップS111~S117から成る単位処理は1つの推論ブロック20[j]において1枚の入力画像IN[p]に対して実行される処理である(図8参照)。ステップS111~S117から成る単位処理は、データ処理装置1内の各推論ブロック20にて実行され、且つ、入力画像INごとに実行される。
【0095】
まずステップS111において、推論ブロック20[j]内に物体検出器30[1]及び30[2]にて入力画像IN[p]に対する物体検出処理が実行されることで2組分の物体検出データが生成される。ここでは、1枚の入力画像IN[p]に対し各物体検出器30にて1つずつ物体検出領域が設定されたと想定する。尚、推論ブロック20[j]において入力画像IN[p]に対し一切の物体検出領域が設定されなかった場合には、以降の処理を行うことなく、入力画像IN[p]に対する推論ブロック20[j]の動作を終える。
【0096】
ステップS111に続くステップS112では、推論ブロック20[j]において、統合部40が、物体検出器30[1]及び30[2]にて導出(生成)された信頼度SCRに基づき、物体検出器30[1]及び30[2]の一方を基準物体検出器30に設定する。基準物体検出器30の設定方法は上述した通りであり、物体検出器30[1]及び30[2]の内、より大きな信頼度SCRを導出した物体検出器30が基準物体検出器30に設定される。基準物体検出器30が導出した信頼度SCR(即ち基準物体検出器30から出力される物体検出データ中の信頼度SCR)を記号“SCRMAX”にて参照する。
【0097】
ステップS112に続くステップS113では、推論ブロック20[j]において、統合部40が、物体検出器30[1]及び30[2]にて設定された2つの物体検出領域の指標IoUを導出する。続くステップS114において、推論ブロック20[j]の統合部40は、導出した指標IoUが重なり閾値IoUREF以上であるかを判断する。 そして、“IoU≧IoUREF”が成立すれば(ステップS114のY)、ステップS115に進む一方、“IoU≧IoUREF”が不成立ならば(ステップS114のN)、ステップS116に進む。
【0098】
ステップS115では、推論ブロック20[j]において、統合部40が、基準物体検出器30から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器30からの物体検出データ中のクラスデータCLS及び位置形状データPPを、統合部40からの推論結果データ中のクラスデータ及び位置形状データに設定する。図15では特に示されないが、ステップS115の後は、推論ブロック20[j]の統合部40からの推論結果データに基づくアノテーション情報が入力画像IN[p]に対するアノテーション情報として単位データセットU_DS[p]に含められた上で、当該単位データセットU_DS[p]が学習用データセットDSに追加される(図8参照)。
【0099】
ステップS116において、推論ブロック20[j]の統合部40は、信頼度SCRMAXが基準信頼度SCRREF以上であるかを判断する。そして、“SCRMAX≧SCRREF”が成立すれば(ステップS116のY)、ステップS115に移行して上述のステップS115の処理が行われる。“SCRMAX≧SCRREF”が不成立ならば(ステップS116のN)、ステップS117に進む。
【0100】
ステップS117では、推論ブロック20[j]において、統合部40が “0”の推論結果データを出力する。ステップS117に至るケースでは、推論ブロック20[j]の統合部40からの推論結果データが入力画像IN[p]に関する単位データセットU_DS[p]に含められず(換言すれば単位データセットU_DS[p]から除外され)、結果、学習用データセットDSに反映されない。即ち、ステップS117の処理は、ステップS111で生成した物体検出データを学習用データセットDSに反映させることなく、破棄することに相当する。
【0101】
“IoU≧IoUREF”の成立によってステップS115に至るケースは、上述のケースCSA11に相当する。“IoU<IoUREF”且つ“SCRMAX≧SCRREF”の成立によってステップS115に至るケースは、上述のケースCSA12に相当する。“IoU<IoUREF”且つ“SCRMAX<SCRREF”の成立によってステップS117に至るケースは、上述のケースCSA13に相当する。
【0102】
尚、図15の動作フローチャートからステップS116の処理を削除する変形を施しても良い。図16に、当該変形が施された動作フローチャートを示す。当該変形が行われたとき、“IoU≧IoUREF”が不成立の場合には、ステップS114から常にステップS117に進む。
【0103】
このように、同一の物体に対して検出アルゴリズム等が異なる複数の画像認識モデルを適用し、それらの結果を統合する。この際、複数の画像認識モデルにて得られた複数の物体検出領域間の重なり度合いが高ければ、それらの画像認識モデルの認識結果(換言すれば物体検出処理の検出結果)は正しい可能性が相対的に高い。逆に、重なり度合いが低ければ、それらの画像認識モデルの認識結果(換言すれば物体検出処理の検出結果)に誤りが含まれる可能性が相対的に高い。これらを考慮し、重なり度合いを表す指標IoUを導出し、重なり度合い(IoU)に応じて推論結果データを生成する。これにより、誤りの少ない推論結果データを生成することが可能となる。誤りの少ない推論結果データを用いて学習用データセットDSを生成することで、質の高い学習用データセットDSを得ることが可能となる。
【0104】
[実施例EX1_2]
実施例EX1_2を説明する。実施例EX1_1では“n=2”が想定されているが、上述したようにnの値は2以上であれば任意である。実施例EX1_2では、実施例EX1_1にて示した技術を一般化する。実施例EX1_2ではシングルクラス構成が採用される。
【0105】
図17に、実施例EX1_2に係るデータ処理装置1の動作フローチャートを示す。但し、図17のステップS121~S127から成る単位処理は1つの推論ブロック20[j]において1枚の入力画像IN[p]に対して実行される処理である(図8参照)。ステップS121~S127から成る単位処理は、データ処理装置1内の各推論ブロック20にて実行され、且つ、入力画像INごとに実行される。
【0106】
まずステップS121において、推論ブロック20[j]内に物体検出器30[1]~30[n]にて入力画像IN[p]に対する物体検出処理が実行されることでn組分の物体検出データが生成される。ここでは、1枚の入力画像IN[p]に対し各物体検出器30にて1つずつ物体検出領域が設定されたと想定する。尚、推論ブロック20[j]において入力画像IN[p]に対し一切の物体検出領域が設定されなかった場合には、以降の処理を行うことなく、入力画像IN[p]に対する推論ブロック20[j]の動作を終える。
【0107】
ステップS121に続くステップS122では、推論ブロック20[j]において、統合部40が、物体検出器30[1]~30[n]にて導出(生成)された信頼度SCRに基づき、物体検出器30[1]~30[n]の内の1つを基準物体検出器30に設定する。基準物体検出器30の設定方法は上述した通りである。即ち、物体検出器30[1]~30[n]の内、最大の信頼度SCRを導出した物体検出器30が基準物体検出器30に設定される。基準物体検出器30が導出した信頼度SCR(即ち基準物体検出器30から出力される物体検出データ中の信頼度SCR)を記号“SCRMAX”にて参照する。
【0108】
ステップS122に続くステップS123では、推論ブロック20[j]において、統合部40が、物体検出器30[1]~30[n]にて設定された計n個の物体検出領域の指標IoUを導出する。続くステップS124において、推論ブロック20[j]の統合部40は、導出した指標IoUが重なり閾値IoUREF以上であるかを判断する。 そして、“IoU≧IoUREF”が成立すれば(ステップS124のY)、ステップS125に進む一方、“IoU≧IoUREF”が不成立ならば(ステップS124のN)、ステップS126に進む。
【0109】
ステップS125では、推論ブロック20[j]において、統合部40が、基準物体検出器30から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器30からの物体検出データ中のクラスデータCLS及び位置形状データPPを、統合部40からの推論結果データ中のクラスデータ及び位置形状データに設定する。図17では特に示されないが、ステップS125の後は、推論ブロック20[j]の統合部40からの推論結果データに基づくアノテーション情報が入力画像IN[p]に対するアノテーション情報として単位データセットU_DS[p]に含められた上で、当該単位データセットU_DS[p]が学習用データセットDSに追加される(図8参照)。
【0110】
ステップS126において、推論ブロック20[j]の統合部40は、信頼度SCRMAXが基準信頼度SCRREF以上であるかを判断する。そして、“SCRMAX≧SCRREF”が成立すれば(ステップS126のY)、ステップS125に移行して上述のステップS125の処理が行われる。“SCRMAX≧SCRREF”が不成立ならば(ステップS126のN)、ステップS127に進む。
【0111】
ステップS127では、推論ブロック20[j]において、統合部40が “0”の推論結果データを出力する。ステップS127に至るケースでは、推論ブロック20[j]の統合部40からの推論結果データが入力画像IN[p]に関する単位データセットU_DS[p]に含められず(換言すれば単位データセットU_DS[p]から除外され)、結果、学習用データセットDSに反映されない。即ち、ステップS127の処理は、ステップS121で生成した物体検出データを学習用データセットDSに反映させることなく、破棄することに相当する。
【0112】
このように、推論ブロック20[j](統合部40)は、物体検出器30[1]~30[n]での複数の物体検出処理にて導出される複数の信頼度SCR(n個の信頼度SCR)の内、最大の信頼度SCRMAXを特定できる(ステップS122)。物体検出器30[1]~30[n]にて設定される複数の物体検出領域は統合推論領域の候補に相当し、各物体検出領域を候補領域と称することができる(図7参照)。ステップS121~S123の処理を経てステップS124にて複数の候補領域の重なり度合い(IoU)が評価される。そして、“IoU≧IoUREF”が成立するときに、推論ブロック20[j](統合部40)は、最大の信頼度SCRMAXに対応する物体検出データ(最大の信頼度SCRMAXを導出した基準物体検出器30からの物体検出データ)に基づき推論結果データを生成する(ステップS125)。
【0113】
尚、図17の動作フローチャートからステップS126の処理を削除する変形を施しても良い。図18に、当該変形が施された動作フローチャートを示す。当該変形が行われたとき、“IoU≧IoUREF”が不成立の場合には、ステップS124から常にステップS127に進む。
【0114】
また、推論ブロック20[j]において、入力画像IN[p]に対する物体検出処理により、物体検出器30[1]~30[n]の内、一部の物体検出器30のみにて物体検出領域が設定されるケース(以下、便宜上、ケースCSA21と称する)もあり得る。ケースケースCSA21では、物体検出器30[1]~30[n]の内、一部の物体検出器30のみからクラスデータCLS、位置形状データPP及び信頼度SCRを含む物体検出データが出力され、残部の物体検出器30から“0”の物体検出データが出力される。ケースCSA21においては、入力画像IN[p]に関して常にステップS127に進むようにして良い。ケースCSA21においては、物体検出器30[1]~30[n]の内、少なくとも1つの物体検出処理の結果に誤り(未検出を含む)があるからである。
【0115】
但し、ケースCSA21において、推論ブロック20[j]内の2以上の物体検出器30にて物体検出領域が設定された場合にあっては、ステップS122にて当該2以上の物体検出器30の中から上述の方法にて基準物体検出器30を選択及び設定するようにしても良い。この場合、ステップS123にて、当該2以上の物体検出器30にて設定された2以上の物体検出領域のIoUを導出し、以後は図17又は図18のステップS124の処理及びそれ以降の処理を行うようにしても良い。
【0116】
[実施例EX1_3]
実施例EX1_3を説明する。実施例EX1_3ではマルチクラス構成が採用される。実施例EX1_1及びEX1_2に示した技術はマルチクラス構成に対しても適用でき、当該技術をマルチクラス構成に適用した実施例を実施例EX1_3として説明する。
【0117】
図19に、実施例EX1_3に係るデータ処理装置1の動作フローチャートを示す。但し、図19のステップS130~S137から成る単位処理は1つの推論ブロック20[j]において1枚の入力画像IN[p]に対して実行される処理である(図8参照)。ステップS130~S137から成る単位処理は、データ処理装置1内の各推論ブロック20にて実行され、且つ、入力画像INごとに実行される。
【0118】
まずステップS130において、推論ブロック20[j]内に物体検出器30[1]~30[n]にて入力画像IN[p]に対する物体検出処理が実行されることでn組分の物体検出データが生成される。ステップS130の後、ステップS131に進む。ここでは、1枚の入力画像IN[p]に対し各物体検出器30にて1つずつ物体検出領域が設定されたと想定する。当該想定の下、入力画像IN[p]に対して物体検出器30[1]~30[n]により計n個の物体検出領域が設定される。尚、推論ブロック20[j]において入力画像IN[p]に対し一切の物体検出領域が設定されなかった場合には、以降の処理を行うことなく、入力画像IN[p]に対する推論ブロック20[j]の動作を終える。
【0119】
ステップS131では、推論ブロック20[j]内において、統合部40が、物体検出器30[1]~30[n]にて設定された計n個の物体検出領域についてのクラスデータCLSが一致しているかを判断する。計n個の物体検出領域についてのクラスデータCLSが一致している場合には(ステップS131のY)ステップS132に進み、そうでない場合(ステップS131のN)にはステップS137に進む。
【0120】
例えば“n=2”である場合において、物体検出器30[1]及び30[2]にて設定された2つの物体検出領域についてのクラスデータCLSが共に車両を表しているときにはステップS132に進む。これは、物体検出器30[1]及び30[2]が共通して物体検出領域内の物体が車両であると認識したことに相当する。一方、例えば“n=2”である場合において、物体検出器30[1]にて設定された物体検出領域についてのクラスデータCLSが車両を表す一方、物体検出器30[2]にて設定された物体検出領域についてのクラスデータCLSが人物を表すときにはステップS137に進む。これは、共通の物体を、物体検出器30[1]、30[2]が、夫々車両、人物であると認識したことに相当する。この場合には、物体検出器30[1]及び30[2]の内、少なくとも一方の物体検出処理の結果に誤りがある。誤りのある物体検出処理の結果を学習用データセットDSに混入させることは望ましくないため、ステップS137にて物体検出データを破棄する。
【0121】
ステップS132では、推論ブロック20[j]において、統合部40が、物体検出器30[1]~30[n]にて導出(生成)された信頼度SCRに基づき、物体検出器30[1]~30[n]の内の1つを基準物体検出器30に設定する。基準物体検出器30の設定方法は上述した通りである。即ち、物体検出器30[1]~30[n]の内、最大の信頼度SCRを導出した物体検出器30が基準物体検出器30に設定される。基準物体検出器30が導出した信頼度SCR(即ち基準物体検出器30から出力される物体検出データ中の信頼度SCR)を記号“SCRMAX”にて参照する。
【0122】
ステップS132に続くステップS133では、推論ブロック20[j]において、統合部40が、物体検出器30[1]~30[n]にて設定された計n個の物体検出領域の指標IoUを導出する。続くステップS134において、推論ブロック20[j]の統合部40は、導出した指標IoUが重なり閾値IoUREF以上であるかを判断する。 そして、“IoU≧IoUREF”が成立すれば(ステップS134のY)、ステップS135に進む一方、“IoU≧IoUREF”が不成立ならば(ステップS134のN)、ステップS136に進む。
【0123】
ステップS135では、推論ブロック20[j]において、統合部40が、基準物体検出器30から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器30からの物体検出データ中のクラスデータCLS及び位置形状データPPを、統合部40からの推論結果データ中のクラスデータ及び位置形状データに設定する。図19では特に示されないが、ステップS135の後は、推論ブロック20[j]の統合部40からの推論結果データに基づくアノテーション情報が入力画像IN[p]に対するアノテーション情報として単位データセットU_DS[p]に含められた上で、当該単位データセットU_DS[p]が学習用データセットDSに追加される(図8参照)。
【0124】
ステップS136において、推論ブロック20[j]の統合部40は、信頼度SCRMAXが基準信頼度SCRREF以上であるかを判断する。そして、“SCRMAX≧SCRREF”が成立すれば(ステップS136のY)、ステップS135に移行して上述のステップS135の処理が行われる。“SCRMAX≧SCRREF”が不成立ならば(ステップS136のN)、ステップS137に進む。
【0125】
ステップS137では、推論ブロック20[j]において、統合部40が “0”の推論結果データを出力する。ステップS137に至るケースでは、推論ブロック20[j]の統合部40からの推論結果データが入力画像IN[p]に関する単位データセットU_DS[p]に含められず(換言すれば単位データセットU_DS[p]から除外され)、結果、学習用データセットDSに反映されない。即ち、ステップS137の処理は、ステップS130で生成した物体検出データを学習用データセットDSに反映させることなく、破棄することに相当する。
【0126】
このように、推論ブロック20[j](統合部40)は、物体検出器30[1]~30[n]での複数の物体検出処理にて導出される複数の信頼度SCR(n個の信頼度SCR)の内、最大の信頼度SCRMAXを特定できる(ステップS132)。複数の物体検出処理により同一種類の物体が存在すると判断された複数の物体検出領域(ステップS132に進む場合の複数の物体検出領域)は統合推論領域の候補に相当し、各物体検出領域を候補領域と称することができる(図7参照)。当該複数の物体検出領域のクラスデータが一致することは、同一種類の物体が存在すると判断された複数の物体検出領域が複数の候補領域となることに相当し、当該複数の物体検出領域のクラスデータが一致するときにステップS131以降の処理が実行される。ステップS132及びS133の処理を経てステップS134にて複数の候補領域の重なり度合い(IoU)が評価される。そして、“IoU≧IoUREF”が成立するときに、推論ブロック20[j](統合部40)は、最大の信頼度SCRMAXに対応する物体検出データ(最大の信頼度SCRMAXを導出した基準物体検出器30からの物体検出データ)に基づき推論結果データを生成する(ステップS135)。
【0127】
尚、図19の動作フローチャートからステップS136の処理を削除する変形を施しても良い。図20に、当該変形が施された動作フローチャートを示す。当該変形が行われたとき、“IoU≧IoUREF”が不成立の場合には、ステップS134から常にステップS137に進む。
【0128】
また、推論ブロック20[j]において、入力画像IN[p]に対する物体検出処理により、物体検出器30[1]~30[n]の内、一部の物体検出器30のみにて物体検出領域が設定されるケース(以下、便宜上、ケースCSA31と称する)もあり得る。ケースCSA31では、物体検出器30[1]~30[n]の内、一部の物体検出器30のみからクラスデータCLS、位置形状データPP及び信頼度SCRを含む物体検出データが出力され、残部の物体検出器30から“0”の物体検出データが出力される。ケースCSA31においては、入力画像IN[p]に関して常にステップS137に進むようにして良い。ケースCSA31においては、物体検出器30[1]~30[n]の内、少なくとも1つの物体検出処理の結果に誤り(未検出を含む)があるからである。
【0129】
但し、ケースCSA31において、推論ブロック20[j]内の2以上の物体検出器30にて物体検出領域が設定され且つ2以上の物体検出器30から出力される2以上のクラスデータCLSが互いに一致している場合には、ステップS132に進むようにしても良い。この場合にあっては、ステップS132にて当該2以上の物体検出器30の中から上述の方法にて基準物体検出器30を選択及び設定することができる。そして、ステップS133にて、当該2以上の物体検出器30にて設定された2以上の物体検出領域のIoUを導出し、以後は図19又は図20のステップS134の処理及びそれ以降の処理を行うようにしても良い。
【0130】
[実施例EX1_4]
実施例EX1_4を説明する。実施例EX1_4では主としてシングルクラス構成が採用されることを想定する(但しマルチクラス構成が採用されても良い)。データ処理装置1ではモデルの機能拡張が容易である。即ち例えば、車両を認識対象物体とする推論ブロック20[1]と人物を認識対象物体とする推論ブロック20[2]とがある場合において、信号機を新たに認識対象物体に含めることを想定する。この場合には、信号機を認識対象物体とする推論ブロック20[3]を推論ブロック20[1]及び20[2]に対して並列的に追加すれば足る(即ちモデルの機能拡張が容易である)。既に存在する推論ブロック20[1]及び20[2]に対して推論ブロック20[3]を追加すれば済むので、機能拡張に際し、データ処理装置1における画像認識動作の停止時間は短くて済む。
【0131】
また、これに関連して、データ処理装置1には、新規種類の物体についての教師データを容易に学習用データセットDSに追加できるというメリットがある。即ち例えば、図21に示す如く、車両及び人物のアノテーション情報(教師データ)を含んだ学習用データセットDSが学習用データセットDS1として既に存在している場合を想定する。学習用データセットDS1には信号機のアノテーション情報が含まれていない。学習用データセットDS1は車両及び人物を認識対象物体とする推論モデルの構築に供される。即ち、学習用データセットDS1を用いた機械学習を行うことで車両及び人物を認識できる推論モデルを構築できる。この場合において、車両、人物及び信号機を認識できる他の推論モデルの構築が要望されたとき、学習用データセットDS1に対して信号機のアノテーション情報(教師データ)を追加することで当該要望に応えることができる。
【0132】
具体例として、実施例EX1_4では、以下、シングルクラス構成のデータ処理装置1において、“m≧3”であって、且つ、推論ブロック20[1]、20[2]、20[3]の認識対象物体が夫々車両、人物及び信号機である場合を想定する。この場合、学習用データセットDSが学習用データセットDS1である状態を起点に、上記要望に応えるべく、推論ブロック20[1]~20[3]の内、推論ブロック20[3]のみを動作させた状態で図8の処理を実行すれば良い(但し、変形として推論ブロック20[1]及び20[2]も併せて動作させるようにしても良い)。
【0133】
これにより、学習用データセットDS1に対し、入力画像INと推論ブロック20[3]の推論結果データに基づくアノテーション情報(信号機のアノテーション情報)とを含んだ単位データセットが次々と追加されてゆく。この追加後の学習用データセットDS1を学習用データセットDS2と称する。学習用データセットDS2を用いた機械学習を行うことで車両、人物及び信号機を認識できる推論モデルを構築できる(即ち上記要望に応えることができる)。
【0134】
推論ブロック20[1]~20[3]の内、推論ブロック20[3]のみを動作させれば済むため、少ない計算コスト及び短時間で学習用データセットDS2を生成できる。
【0135】
具体的には、図22に示す如く、データ処理装置1に動作制御部60を追加することができる。動作制御部60は演算処理部2(図10)に設けられる機能ブロックであって良い。演算処理部2においてメモリ3に格納されたプログラムを実行することで動作制御部60が構成されても良い。
【0136】
動作制御部60はブロック選択処理(換言すればブロック選択制御)を実行できる。ブロック選択処理において動作制御部60は、推論ブロック20[1]~20[n]の動作の有無を個別に制御できる。即ち、ブロック選択処理において動作制御部60は、推論ブロック20[1]での推論処理の実行有無、推論ブロック20[2]での推論処理の実行有無、・・・、及び、推論ブロック20[n]での推論処理の実行有無を、個別に制御できる。ブロック選択処理は、推論ブロック20[1]~20[n]の各々で実行可能な推論処理の内、一部の推論処理を選択的に動作させる処理であると言える。
【0137】
ブロック選択処理が実行されないとき、推論ブロック20[1]~20[n]の全てで推論処理が行われる。演算処理部2では、推論ブロック20[1]~20[n]の全てで推論処理を行わせる動作と、ブロック選択処理を通じ推論ブロック20[1]~20[n]の一部で推論処理を行わせる動作と、が可能となっている、と言える。
【0138】
データ処理装置1の操作者はインターフェース4を通じてデータ処理装置1に選択指示情報61を入力することができ、動作制御部60は選択指示情報61の内容に基づきブロック選択処理の内容を決定する。例えば、データ処理装置1の操作者が学習用データセットDS1を基準に学習用データセットDS2の作成を要望するのであれば、操作者は、推論ブロック20[1]~20[3]の内、推論ブロック20[3]のみを動作させることを指示する情報を選択指示情報61としてデータ処理装置1に入力すれば良い。選択指示情報61に従うブロック選択処理が動作制御部60にて実行される。
【0139】
画像取得部10と推論ブロック20[1]~20[n]の夫々との間に切替スイッチ(不図示)を設けおき、選択指示情報61に基づき、切替スイッチをオン又はオフすることでブロック選択処理を実現するようにしても良い。尚、マルチクラス構成が採用される場合においても動作制御部60によるブロック選択処理が実行可能であって良い。
【0140】
[実施例EX1_5]
実施例EX1_5を説明する。上述の実施例EX1_1~EX1_3では、1枚の入力画像IN[p]に対し各物体検出器30にて1つずつ物体検出領域が設定されることが主として想定されている。但し、実際には、1枚の入力画像IN[p]に認識対象物体の像が複数含まれることもあり、結果、各物体検出器30において1枚の入力画像IN[p]に対し複数の物体検出領域が設定されることもある。この場合には、XY座標面上における物体検出領域間の距離に基づいてIoUが導出されるべき組み合わせを決定した上で、組み合わせごとに実施例EX1_1~EX1_3に示した方法を適用すれば良い。
【0141】
具体例を挙げる。図23に1枚の入力画像IN[p]の例である入力画像1510を示す。入力画像1510に対する図12の各部の動作を説明する。入力画像1510には車両1512の像と他の車両1514の像が含まれている。推論ブロック20[j]の各物体検出器30の認識対象物体に車両が含まれ、且つ、“n=2”であることを想定する。
【0142】
推論ブロック20[j]において物体検出器30[1]により車両1512及び1514が検出される。結果、物体検出器30[1]において、車両1512に対する物体検出領域1513_1と車両1514に対する物体検出領域1515_1とが入力画像1510に設定される。推論ブロック20[j]において、物体検出器30[1]からは、物体検出領域1513_1及び1515_1の夫々についての物体検出データが出力される。
【0143】
推論ブロック20[j]において物体検出器30[2]により車両1512及び1514が検出される。結果、物体検出器30[2]において、車両1512に対する物体検出領域1513_2と車両1514に対する物体検出領域1515_2とが入力画像1510に設定される。推論ブロック20[j]において、物体検出器30[2]からは、物体検出領域1513_2及び1515_2の夫々についての物体検出データが出力される。
【0144】
推論ブロック20[j]における統合部40は、物体検出領域1513_1及び1515_1の夫々と物体検出領域1513_2及び1515_2の夫々との距離を導出する。導出される距離はXY座標面上の距離である。物体検出領域1513_1及び1513_2間の距離は、物体検出領域1513_1の原点座標(PDR)と物体検出領域1513_2の原点座標(PDR)との距離であっても良いし、物体検出領域1513_1の中心座標と物体検出領域1513_2の中心座標との距離であっても良い。他の組み合わせに係る距離についても同様である。
【0145】
推論ブロック20[j]における統合部40は、導出した距離に基づき、物体検出領域1513_1を物体検出領域1513_2及び1515_2の一方に対応付け、物体検出領域1515_1を物体検出領域1513_2及び1515_2の他方に対応付ける。例えば、対応付けられた物体検出領域間の距離の二乗平均平方根が最小化されるように、対応付けを行えば良い。図23の例であれば、物体検出領域1513_1及び1513_2間の距離は物体検出領域1513_1及び1515_2間の距離より短く、且つ、物体検出領域1515_1及び1515_2間の距離は物体検出領域1515_1及び1513_2間の距離より短い。このため、物体検出領域1513_1及び1513_2が互いに対応付けられ、且つ、物体検出領域1515_1及び1515_2が互いに対応付けられる。
【0146】
そして、互いに対応付けられた物体検出領域の組み合わせごとに実施例EX1_1~EX1_3に示した方法を適用すれば良い。即ち例えば、互いに対応付けられた物体検出領域の組み合わせごとに、図15若しくは図16のステップS111より後の処理、図17若しくは図18のステップS121より後の処理、又は、図19若しくは図20のステップS130より後の処理を実行すれば良い。
【0147】
<<第2実施形態>>
本発明の第2実施形態を説明する。第1実施形態と同様に、第2実施形態においても、同一の物体に対して検出アルゴリズム等が異なる複数の画像認識モデルを適用し、それらの結果を統合する。但し、第2実施形態では、複数の画像認識モデルによる認識結果に差(比較的大きな差)が生じる場合に、人手による確認を求める仕組みを導入することで学習用データセットDSの質を向上させる。全入力画像INに対して人手による確認が必要になるわけではないので、人手による作業負担はそれほど大きくならない。
【0148】
第2実施形態に係るデータ処理装置1は特にデータ処理装置1Aと称される。図24にデータ処理装置1Aの機能ブロック図を示す。特記なき限り、データ処理装置1Aは基本実施形態におけるデータ処理装置1と同様の構成を有する。データ処理装置1Aにおける各推論ブロック20は、物体検出器30[1]~30[n]及び統合部40に加えてアテンション付与部70を有する。また、データ処理装置1Aには回答要求部72及び回答取得部74も設けられる。即ち、データ処理装置1Aは、基本実施形態におけるデータ処理装置1に対して、回答要求部72及び回答取得部74を追加し、且つ、推論ブロック20ごとにアテンション付与部70を追加した構成を有する。
【0149】
アテンション付与部70及び回答要求部72は演算処理部2(図10)に設けられる機能ブロックであって良い。演算処理部2においてメモリ3に格納されたプログラムを実行することでアテンション付与部70及び回答要求部72が構成されても良い。回答取得部74は人間から回答データ75を取得するブロックであり、インターフェース4(図10)にて構成される。
【0150】
図25を参照してアテンション付与部70の機能を説明する。任意の1つの推論ブロック20[j]に注目する。推論ブロック20[j]において、統合部40は、物体検出器30[1]~30[n]からの物体検出データが所定のアテンション付与条件を満たすときに、アテンション付与指示をアテンション付与部70に対して発行する。アテンション付与条件が不成立であるとき、アテンション付与部70に対してアテンション付与指示は発行されない。推論ブロック20[j]において、アテンション付与指示が発行されると、アテンション付与部70はアテンション付きデータを生成及び出力する。
【0151】
推論ブロック20[j]において、アテンション付与部70から出力されるアテンション付きデータは、アテンション情報と物体検出器30[1]~30[n]からの各物体検出データとを含む。アテンション情報は物体検出器30[1]~30[n]からの各物体検出データに関連づけられる。即ち、アテンション情報は、物体検出器30[1]~30[n]からの各物体検出データに対して(換言すれば、物体検出器30[1]~30[n]による各物体検出処理の結果に対して)付与される。アテンション情報は各物体検出処理の結果に誤りが含まれる可能性を示唆するための目印となる。
【0152】
推論ブロック20[j]において、物体検出器30[1]~30[n]からの物体検出データに基づき統合部40が推論結果データを生成できる点、及び、その生成方法については上述した通りである。統合部40は、アテンション付与条件が不成立であるとき、物体検出器30[1]~30[n]からの物体検出データに基づき、基本実施形態又は第1実施形態に示した方法により、クラスデータ及び統合推論領域の位置形状データを含む推論結果データを生成及び出力できる(図6参照)。
【0153】
統合部40は、アテンション付与条件が成立するときには“0”の推論結果データを出力する。アテンション付与条件の成立時にアテンション付与部70から出力されるアテンション付きデータはデータ格納部50に入力される(図24参照)。データ格納部50は、アテンション付きデータの入力を受けると、アテンション付与指示の発行の元となった入力画像INの画像データとアテンション付きデータとを含むアテンション保持データ(図26参照)を設定し、アテンション保持データをデータベースDBに格納する。
【0154】
図26にはアテンション保持データの構造が示される。1以上のアテンション保持データから成るデータ群をアテンションデータ群ADと称する。アテンションデータ群ADはデータベースDBに格納される(図24参照)。学習用データセットDSが格納されるデータベースと、アテンションデータ群ADが格納されるデータベースは、互いに分離していても良い。
【0155】
アテンション情報は、各物体検出処理の結果の成否を判別者に問い合わせるための情報として機能する。判別者は、機械学習の分野においてオラクルと称される。判別者は、上記問い合わせに対して回答を与える任意の人物であり、インターフェース4を通じて上記問い合わせに対する回答をデータ処理装置1Aに入力する。具体的には、回答要求部72がインターフェース4を通じて判別者に上記問い合わせを行うことで回答を要求する。判別者からの回答は回答データ75として回答取得部74にて取得される。回答データ75が取得されると、データ格納部50はデータ補完処理を実行する。データ補完処理において、データ格納部50は、アテンション保持データ中の入力画像の画像データと回答データ75とに基づく単位データセットを作成し、作成した単位データセットを学習用データセットDSに含める。
【0156】
第2実施形態は以下の実施例EX2_1~EX2_6を含む。実施例EX2_1~EX2_6にて第2実施形態に関わる具体的な動作等を説明する。第2実施形態にて上述した事項は、特に記述無き限り且つ矛盾無き限り、以下の実施例EX2_1~EX2_6に適用される。但し、各実施例において、第2実施形態で上述した事項と矛盾する事項については各実施例での記載が優先されて良い。また矛盾無き限り、実施例EX2_1~EX2_6の内、任意の実施例に記載した事項を、他の任意の実施例に適用することもできる(即ち複数の実施例の内の任意の2以上の実施例を組み合わせることも可能である)。
【0157】
[実施例EX2_1]
実施例EX2_1を説明する。実施例EX2_1では、具体的な入力画像INの例を挙げて第2実施形態の方法を説明する。第2実施形態におけるアテンション情報の付与機能は推論ブロック20ごとに実現されるが、用いられる画像認識モデルの相違を除き、推論ブロック20の動作は複数の推論ブロック20間で同様である。このため、任意の1つの推論ブロック20[j]に注目して、アテンション情報の付与機能、及び、それに関わる機能を説明する。
【0158】
図27に、実施例EX2_1に係るデータ処理装置1Aの要部の機能ブロック図を示す。実施例EX2_1では推論ブロック20[j]において“n=2”であるとする(図24参照)。また、実施例EX2_1ではシングルクラス構成が採用される。
【0159】
実施例EX2_1に係る推論ブロック20[j]において、物体検出器30[1]における画像認識モデルは車両用モデル231[j,1]であり、物体検出器30[2]における画像認識モデルは車両用モデル231[j,2]である。
【0160】
上述したように、車両用モデル(ここでは、231[j,1]、231[j,2])とは、車両のみを認識対象物体とするシングルクラスの画像認識モデルを指す。故に、実施例EX2_1に係る推論ブロック20[j]において、物体検出器30[1]及び30[2]は、車両のみを認識対象物体とするシングルクラスの物体検出器である。
【0161】
学習用データセットDSを作成する過程において各物体検出器30に次々と入力画像INの画像データが供給され、各物体検出器30において入力画像INごとに物体検出処理が実行される。図28に、代表して2枚の入力画像2110及び2160を示す。入力画像2110及び2160は夫々に入力画像INの例である。
【0162】
図29を参照して入力画像2110に対する推論ブロック20[j]の動作を説明する。入力画像2110には車両2112の像が含まれている。
推論ブロック20[j]において、物体検出器30[1]は入力画像2110に対し車両用モデル231[j,1]を用いた物体検出処理を行うことにより物体検出データ2114[1]を生成及び出力する。物体検出器30[1]は入力画像2110に対して物体検出領域2113[1]を設定する。物体検出データ2114[1]におけるクラスデータCLSは車両を表している。即ち、物体検出データ2114[1]では物体検出領域2113[1]に車両が存在することが指し示される。物体検出領域2113[1]は物体検出器30[1]による車両2112の検出領域に相当する。
推論ブロック20[j]において、物体検出器30[2]は入力画像2110に対し車両用モデル231[j,2]を用いた物体検出処理を行うことにより物体検出データ2114[2]を生成及び出力する。物体検出器30[2]は入力画像2110に対して物体検出領域2113[2]を設定する。物体検出データ2114[2]におけるクラスデータCLSは車両を表している。即ち、物体検出データ2114[2]では物体検出領域2113[2]に車両が存在することが指し示される。物体検出領域2113[2]は物体検出器30[2]による車両2112の検出領域に相当する。
物体検出領域2113[1]及び2113[2]は、完全に又は実質的に同じ形状を有して同じ位置に設定された領域である。但し、図28では、物体検出領域2113[1]及び2113[2]を区別して示すために、便宜上、それらを若干ずらして示している。
【0163】
本例において、物体検出データ2114[1]及び2114[2]に対しアテンション付与条件は成立しないものとする。このため、入力画像2110に関して統合部40からはアテンション付与指示が発行されない。入力画像2110に関して統合部40は物体検出データ2114[1]及び2114[2]に基づく推論結果データ2115を生成及び出力する。推論結果データ2115はクラスデータ及び統合推論領域の位置形状データを含む。データ格納部50は、入力画像2110と推論結果データ2115とに基づく単位データセットを生成してデータベースDBに格納することにより、当該単位データセットを学習用データセットDSの一部として学習用データセットDSに追加する。
【0164】
図30を参照して入力画像2160に対する推論ブロック20[j]の動作を説明する。入力画像2160には車両2162の像が含まれている。
推論ブロック20[j]において、物体検出器30[1]は入力画像2160に対し車両用モデル231[j,1]を用いた物体検出処理を行うことにより物体検出データ2164[1]を生成及び出力する。物体検出器30[1]は入力画像2160に対して物体検出領域2163[1]を設定する。物体検出データ2164[1]におけるクラスデータCLSは車両を表している。即ち、物体検出データ2164[1]では物体検出領域2163[1]に車両が存在することが指し示される。物体検出領域2163[1]は物体検出器30[1]による車両2162の検出領域に相当する。
推論ブロック20[j]において、物体検出器30[2]は入力画像2160に対し車両用モデル231[j,2]を用いた物体検出処理を行うことにより物体検出データ2164[2]を生成及び出力する。物体検出器30[2]は入力画像2160に対して物体検出領域2163[2]を設定する。物体検出データ2164[2]におけるクラスデータCLSは車両を表している。即ち、物体検出データ2164[2]では物体検出領域2163[2]に車両が存在することが指し示される。物体検出領域2163[2]は物体検出器30[2]による車両2162の検出領域に相当する。
【0165】
本例において、物体検出データ2164[1]及び2164[2]に対しアテンション付与条件が成立するものとする。このため、入力画像2160に関して統合部40からはアテンション付与指示2166が発行される。アテンション付与部70はアテンション付与指示2166の発行を受けてアテンション付きデータ2167を生成及び出力する。一方、入力画像2160に関して統合部40は物体検出データ2164[1]及び2164[2]に基づく推論結果データ2165を生成及び出力する。但し、アテンション付与条件が成立しているので、生成及び出力される推論結果データ2165は“0”の推論結果データである。
【0166】
“0”の推論結果データは有意なデータではないので、データ格納部50は、入力画像2160と推論結果データ2165とに基づく単位データセットを生成しない。
【0167】
統合部40において指標IoUに基づきアテンション付与条件の成否が判断される。図28には、入力画像2110に対して設定された物体検出領域2113[1]及び2113[2]が示され、入力画像2160に対して設定された物体検出領域2163[1]及び2163[2]が示される。上述したように、各物体検出領域は統合推論領域の候補として機能する(図7参照)。
【0168】
統合部40は、入力画像2110に関して物体検出領域2113[1]及び2113[2]間の指標IoUを指標IoUB_1として導出し、指標IoUB_1に応じて推論結果データ2115(図29参照)を生成する。統合部40は、入力画像2160に関して物体検出領域2163[1]及び2163[2]間の指標IoUを指標IoUB_2として導出し、指標IoUB_2に応じて推論結果データ2165(図30参照)を生成する。
【0169】
指標IoUB_1に基づく推論結果データ2115の生成方法及び推論結果データ2115と学習用データセットDSとの関係を説明する。図29を参照する。推論ブロック20[j]において、統合部40は、物体検出データ2114[1]における信頼度SCR及び物体検出データ2114[2]における信頼度SCRの内、高い方の信頼度SCRを特定し、高い方の信頼度SCRに対応する物体検出器30を基準物体検出器30に設定する。物体検出データ2114[1]及び2114[2]における信頼度SCRが一致している場合には、物体検出器30[1]及び30[2]の内、任意の一方又は予め定められた一方を基準物体検出器30に設定する。
【0170】
入力画像2110に関して、統合部40は、指標IoUB_1図28参照)を所定の重なり閾値IoUREFと比較する。ここでは“IoUB_1≧IoUREF”が成立するものとする。重なり閾値IoUREFと比較される指標(IoU)が重なり閾値IoUREF以上であるときアテンション付与条件は不成立である。このため、入力画像2110に関する物体検出データ2114[1]及び2114[2]はアテンション付与条件を満たさない。上述したように、重なり閾値IoUREFは0より大きく且つ1未満の値(例えば0.8)を持つ。
【0171】
入力画像2110に関して、アテンション付与条件が満たされないとき、統合部40は、基準物体検出器30から出力される物体検出データを推論結果データ2115にて採用する。即ち、基準物体検出器30からの物体検出データ中のクラスデータCLS及び位置形状データPPを、統合部40からの推論結果データ2115中のクラスデータ及び位置形状データに設定する。
【0172】
従って例えば、入力画像2110に関して物体検出器30[1]が基準物体検出器30に設定されたならば、物体検出データ2114[1]中のクラスデータCLS及び位置形状データPPが、推論結果データ2115中のクラスデータ及び位置形状データに設定される。この場合、物体検出領域2113[1]が統合推論領域に設定される。そして、推論結果データ2115中のクラスデータは、統合推論領域(2113[1])内の物体が車両であることを示すクラスアノテーション情報として入力画像2110に関する単位データセットに含められる。加えて、推論結果データ2115中の位置形状データは、統合推論領域(2113[1])の位置及び形状を示す領域アノテーション情報として、入力画像2110に関する単位データセットに含められる(結果、学習用データセットDSに含められる)。
【0173】
逆に例えば、入力画像2110に関して物体検出器30[2]が基準物体検出器30に設定されたならば、物体検出データ2114[2]中のクラスデータCLS及び位置形状データPPが、推論結果データ2115中のクラスデータ及び位置形状データに設定される。この場合、物体検出領域2113[2]が統合推論領域に設定される。そして、推論結果データ2115中のクラスデータは、統合推論領域(2113[2])内の物体が車両であることを示すクラスアノテーション情報として入力画像2110に関する単位データセットに含められる。加えて、推論結果データ2115中の位置形状データは、統合推論領域(2113[2])の位置及び形状を示す領域アノテーション情報として、入力画像2110に関する単位データセットに含められる(結果、学習用データセットDSに含められる)。
【0174】
入力画像2160に関わる動作を説明する。入力画像2160に関して、統合部40は、指標IoUB_2図28参照)を所定の重なり閾値IoUREFと比較する。ここでは“IoUB_2<IoUREF”が成立するものとする。重なり閾値IoUREFと比較される指標(IoU)が重なり閾値IoUREF未満であるとき、アテンション付与条件が成立する。今、入力画像2160について、“IoUB_2<IoUREF”の成立により物体検出データ2164[1]及び2164[2](図30参照)がアテンション付与条件を満たしたとする。
【0175】
そうすると、アテンション情報と物体検出データ2164[1]及び2164[2]とを含んだアテンション付きデータ2167が生成される。そして、当該アテンション付きデータ2167と入力画像2160の画像データを含んだアテンション保持データが設定されてデータベースDBに格納される(図24及び図26参照)。
【0176】
この後、任意のタイミングで、回答要求部72は、アテンション保持データをデータベースDBから読み出し、読み出したデータに用いて、各物体検出器30による入力画像2160に対する物体検出処理の結果の成否を判別者に問い合わせる。例えば、図31に示す如く、インターフェース4に含まれる表示装置DSPに、入力画像2160を表示しつつ、物体検出データ2164[1]及び2164[2]に基づく物体検出領域2163[1]及び2163[2]を入力画像2160上に重畳表示する。また、物体検出データ2164[1]及び2164[2]におけるクラスデータCLSも物体検出領域2163[1]及び2163[2]に対応付けて表示する。これらの表示が行われた状態で、回答要求部72は、物体検出処理の結果の成否を判別者に問い合わせる。即ち、物体検出領域2163[1]及び2163[2]の内、何れが車両の存在する領域として正しいのかを問い合わせる。
【0177】
判別者は、インターフェース4中のポインティングデバイス等を用いて、物体検出領域2163[1]及び2163[2]の何れか一方を正解領域として選択できる。物体検出領域2163[1]が正解領域に設定された場合には、その旨を示す回答データ75が回答取得部74にて得られ、データ格納部50は当該回答データ75に基づくデータ補完処理を実行する。データ補完処理において、データ格納部50は、アテンション保持データ中の入力画像2160の画像データと上記回答データ75とに基づく単位データセットを作成し、作成した単位データセットを学習用データセットDSに含める。当該データ補完処理では、正解領域としての物体検出領域2163[1]内の位置形状データ(物体検出データ2164[1]中の位置形状データ)が領域アノテーション情報として入力画像2160に関する単位データセットに含められる。当該データ補完処理では、正解領域としての物体検出領域2163[1]内の物体が車両であることを示すクラスアノテーション情報も入力画像2160に関する単位データセットに含められる。
【0178】
物体検出領域2163[2]が正解領域として選択された場合も同様の処理が行われる。判別者は、物体検出領域2163[1]及び2163[2]の何れか一方を正解領域として選択する代わりに、正解領域を改めて指定することもできる。この場合には、指定された正解領域の位置形状データが領域アノテーション情報として入力画像2160に関する単位データセットに含められる。また、物体検出データ2164[1]又は2164[2]におけるクラスデータCLSに誤りがある場合には、判別者は、正解領域のクラスデータも指定することができる。この場合には、指定されたクラスデータに基づくクラスアノテーション情報が入力画像2160に関する単位データセットに含められる。
【0179】
重なり閾値IoUREFと比較される指標(IoU)が重なり閾値IoUREF未満であっても、基準物体検出器30により導出された信頼度SCRが所定の基準信頼度SCRREF以上であれば、アテンション付与条件が不成立であると判断する変形(以下、変形MD2と称する)を施して良い。上述したように、基準信頼度SCRREFは0より大きく且つ1未満の値(例えば0.6)を持つ。基準物体検出器30により導出された信頼度SCRを記号“SCRMAX”にて参照する。
【0180】
即ち、変形MD2が適用される場合、入力画像2110については、“IoUB_1≧IoUREF”の成立により物体検出データ2114[1]及び2114[2]がアテンション付与条件を満たさない、或いは、“IoUB_1<IoUREF”且つ“SCRMAX≧SCRREF”の成立により物体検出データ2114[1]及び2114[2]がアテンション付与条件を満たさない。結果、クラスデータ及び統合推論領域の位置形状データを含む推論結果データ2115が生成される一方で、アテンション付与指示が発行されない(図29参照)。変形MD2が適用される場合、入力画像2160については、“IoUB_2<IoUREF”且つ“SCRMAX<SCRREF”の成立により物体検出データ2164[1]及び2164[2]がアテンション付与条件を満たす。結果、“0”の推論結果データ2165が生成される一方で、アテンション付与指示2166が発行されることでアテンション付きデータ2167が生成される(図30参照)。
【0181】
上述の説明から理解されるよう、データ補完処理は、アテンション情報の付与を発生させた入力画像IN(上記の例において入力画像2160)に対してのみ実行される。従って、複数の入力画像INに含まれる特定の入力画像IN(2160)への各物体検出処理の結果に対しアテンション情報が付与された場合には、特定の入力画像IN(2160)に関してデータ補完処理が実行される。当該データ補完処理では、特定の入力画像IN(2160)と回答データ75とに基づく単位データセットが生成されて学習用データセットDSに含められる。
【0182】
このように、同一の物体に対して検出アルゴリズム等が異なる複数の画像認識モデルを適用し、それらの結果を統合する。この際、複数の画像認識モデルにて得られた複数の物体検出領域間の重なり度合いが高ければ、それらの画像認識モデルの認識結果(換言すれば物体検出処理の検出結果)は正しい可能性が相対的に高い。逆に、重なり度合いが低ければ、それらの画像認識モデルの認識結果(換言すれば物体検出処理の検出結果)に誤りが含まれる可能性が相対的に高い。これらを考慮し、重なり度合いを表す指標IoUを導出し、重なり度合い(IoU)に応じて推論結果データを生成する。これにより、誤りの少ない推論結果データを生成することが可能となる。誤りの少ない推論結果データを用いて学習用データセットDSを生成することで、質の高い学習用データセットDSを得ることが可能となる。更に、低い重なり度合いが導出されるなど、画像認識結果に誤りが含まれる可能性が高いような状況では、アテンション情報を付与することで人手による確認を求める仕組みを導入する。これにより、重なり度合いが低い場合でも、人手を介して、質を担保しつつ学習用データセットDSの量を増やすことができる。尚、全入力画像INに対して人手による確認が必要になるわけではないので、人手による作業負担はそれほど大きくならない。
【0183】
[実施例EX2_2]
実施例EX2_2を説明する。実施例EX2_1では“n=2”が想定されているが、上述したようにnの値は2以上であれば任意である。実施例EX2_2では、実施例EX2_1にて示した技術を一般化する。実施例EX2_2ではシングルクラス構成が採用される。
【0184】
図32に、実施例EX2_2に係るデータ処理装置1Aの動作フローチャートを示す。但し、図32のステップS221~S227及びS231~S235から成る単位処理は1枚の入力画像IN[p]に対して実行される処理である(図8参照)。当該単位処理は入力画像INごとに実行される。また、当該単位処理の内、1つの推論ブロック20内で実行される処理は、データ処理装置1A内の推論ブロック20ごとに実行される。
【0185】
まずステップS221において、推論ブロック20[j]内に物体検出器30[1]~30[n]にて入力画像IN[p]に対する物体検出処理が実行されることでn組分の物体検出データが生成される。ここでは、1枚の入力画像IN[p]に対し各物体検出器30にて1つずつ物体検出領域が設定されたと想定する。尚、推論ブロック20[j]において入力画像IN[p]に対し一切の物体検出領域が設定されなかった場合には、以降の処理を行うことなく、入力画像IN[p]に対する推論ブロック20[j]の動作を終える。
【0186】
ステップS221に続くステップS222では、推論ブロック20[j]において、統合部40が、物体検出器30[1]~30[n]にて導出(生成)された信頼度SCRに基づき、物体検出器30[1]~30[n]の内の1つを基準物体検出器30に設定する。基準物体検出器30の設定方法は上述した通りである。即ち、物体検出器30[1]~30[n]の内、最大の信頼度SCRを導出した物体検出器30が基準物体検出器30に設定される。基準物体検出器30が導出した信頼度SCR(即ち基準物体検出器30から出力される物体検出データ中の信頼度SCR)を記号“SCRMAX”にて参照する。
【0187】
ステップS222に続くステップS223では、推論ブロック20[j]において、統合部40が、物体検出器30[1]~30[n]にて設定された計n個の物体検出領域の指標IoUを導出する。続くステップS224において、推論ブロック20[j]の統合部40は、導出した指標IoUが重なり閾値IoUREF以上であるかを判断する。 そして、“IoU≧IoUREF”が成立すれば(ステップS224のY)、ステップS225に進む一方、“IoU≧IoUREF”が不成立ならば(ステップS224のN)、ステップS231に進む。図32の動作フローチャートでは、“IoU≧IoUREF”の成否のみによってアテンション付与条件の成否が決定する。即ち、図32の動作フローチャートでは、“IoU≧IoUREF”が成立するときにアテンション付与条件は不成立であり、“IoU≧IoUREF”が不成立のときにアテンション付与条件が成立する。
【0188】
ステップS225では、推論ブロック20[j]において、統合部40が、基準物体検出器30から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器30からの物体検出データ中のクラスデータCLS及び位置形状データPPを、統合部40からの推論結果データ中のクラスデータ及び位置形状データに設定する。ステップS225の後、ステップS226及びS227の処理が実行される。ステップS226において、推論ブロック20[j]の統合部40からの推論結果データに基づくアノテーション情報が入力画像IN[p]に対するアノテーション情報として単位データセットU_DS[p]に含められる。その後のステップS227において、単位データセットU_DS[p]が学習用データセットDSに追加される。
【0189】
ステップS231では、推論ブロック20[j]において、統合部40が “0”の推論結果データを出力する一方でアテンション付与指示をアテンション付与部70に発行する。ステップS231に至るケースでは、推論ブロック20[j]の統合部40からの推論結果データが入力画像IN[p]に関する単位データセットU_DS[p]に含められず(換言すれば単位データセットU_DS[p]から除外され)、結果、学習用データセットDSに反映されない。但し、後述のステップS232~S235の処理を通じて、人手を介し、正確な又は正確と期待される単位データセットU_DS[p]が生成される。
【0190】
即ち、ステップS231に続くステップS232において、アテンション付与部70によりアテンション付きデータが生成され、そのアテンション付きデータに基づくアテンション保持データがデータ格納部50によりデータベースDBに格納される。入力画像IN[p]についてのアテンション付きデータは、アテンション情報と、入力画像IN[p]に対して推論ブロック20[j]内の各物体検出器30が出力した物体検出データと、を含む(図25参照)。入力画像IN[p]についてのアテンション保持データは、入力画像IN[p]についてのアテンション付きデータと、入力画像IN[p]の画像データと、を含む(図26参照)。ステップS232の後、ステップS233に進む。尚、ステップS233~S235の処理が実行される場合において、ステップS233~S235の処理の実行タイミングは、ステップS232の処理が実行された後であれば任意である。
【0191】
ステップS233において、回答要求部72は、アテンション保持データをデータベースDBから読み出し、読み出したデータに用いて、各物体検出器30による入力画像IN[p]に対する物体検出処理の結果の成否を判別者に問い合わせる。問い合わせの方法は任意であるが、実施例EX2_1で示したような表示を通じて問い合わせることができる。
【0192】
続くステップS234において、判別者は問い合わせ内容に対して回答し、その回答を示すデータが回答データ75として回答取得部74により取得される。例えば、判別者は、インターフェース4中のポインティングデバイス等を用いて、物体検出器30[1]~30[n]が入力画像IN[p]に対して設定した物体検出領域の何れか1つを正解領域として選択できる。
【0193】
回答データ75が取得されると、ステップS235においてデータ格納部50は当該回答データ75に基づくデータ補完処理を実行する。即ち、ステップS235において、データ格納部50は、アテンション保持データ中の入力画像IN[p]の画像データと上記回答データ75とに基づく単位データセットU_DS[p]を作成し、作成した単位データセットU_DS[p]を学習用データセットDSに含める。
【0194】
データ補完処理で作成される単位データセットU_DS[p]には、正解領域としての物体検出領域内の位置形状データが領域アノテーション情報として含められる。データ補完処理で作成される単位データセットU_DS[p]には、正解領域としての物体検出領域内の物体のクラスデータがクラスアノテーション情報として含められる。クラスアノテーション情報は、原則としてアテンション保持データ中のクラスデータに基づき決定されるが、それに誤りがある場合には、回答データ75により決定される。
【0195】
判別者は、正解領域を選択する代わりに正解領域を改めて指定することもできる。この場合には、指定された正解領域の位置形状データが領域アノテーション情報として入力画像IN[p]に関する単位データセットU_DS[p]に含められる。また、物体検出データにおけるクラスデータCLSに誤りがある場合には、判別者は、正解領域のクラスデータも指定することができる。この場合には、指定されたクラスデータに基づくクラスアノテーション情報が入力画像IN[p]に関する単位データセットU_DS[p]に含められる。
【0196】
このように、推論ブロック20[j](統合部40)は、物体検出器30[1]~30[n]での複数の物体検出処理にて導出される複数の信頼度SCR(n個の信頼度SCR)の内、最大の信頼度SCRMAXを特定できる(ステップS222)。物体検出器30[1]~30[n]にて設定される複数の物体検出領域は統合推論領域の候補に相当し、各物体検出領域を候補領域と称することができる(図7参照)。ステップS221~S123の処理を経てステップS224にて複数の候補領域の重なり度合い(IoU)が評価される。そして、“IoU≧IoUREF”が成立するときに、推論ブロック20[j](統合部40)は、最大の信頼度SCRMAXに対応する物体検出データ(最大の信頼度SCRMAXを導出した基準物体検出器30からの物体検出データ)に基づき推論結果データを生成する(ステップS225)。一方、“IoU≧IoUREF”が不成立のとき、推論ブロック20[j](統合部40)は、各物体検出器30による物体検出処理の結果に対して(即ち各物体検出データに対して)アテンション情報を付与する。ステップS232におけるアテンション付きデータの生成は、物体検出処理の結果に対する(即ち各物体検出データに対する)アテンション情報の付与に相当する(図25参照)。
【0197】
尚、図32の動作フローチャートに対して上述の変形MD2を適用しても良い。当該適用により、図32の動作フローチャートは図33の動作フローチャートへと変形される。変形MD2が適用された図33のフローチャートでは、“IoU≧IoUREF”が不成立の場合には(ステップS224のN)、ステップS224からステップS228に進む。
【0198】
ステップS228において、推論ブロック20[j]の統合部40は、信頼度SCRMAXが基準信頼度SCRREF以上であるかを判断する。そして、“SCRMAX≧SCRREF”が成立すれば(ステップS228のY)、ステップS225に移行して上述のステップS225~S227の各処理が行われる。“SCRMAX≧SCRREF”が不成立ならば(ステップS228のN)、ステップS231に進んで上述のステップS231~S235の各処理が行われる。図33の動作フローチャートでは、“IoU≧IoUREF”が成立するときに、又は、“IoU<IoUREF”且つ“SCRMAX≧SCRREF”が成立するときにアテンション付与条件は不成立である。図33の動作フローチャートでは、“IoU<IoUREF”及び“SCRMAX<SCRREF”の双方が成立するときに限りアテンション付与条件が成立する。
【0199】
また、推論ブロック20[j]において、入力画像IN[p]に対する物体検出処理により、物体検出器30[1]~30[n]の内、一部の物体検出器30のみにて物体検出領域が設定されるケース(以下、便宜上、ケースCSB21と称する)もあり得る。ケースCSB21では、物体検出器30[1]~30[n]の内、一部の物体検出器30のみからクラスデータCLS、位置形状データPP及び信頼度SCRを含む物体検出データが出力され、残部の物体検出器30から“0”の物体検出データが出力される。ケースCSB21においては、入力画像IN[p]に関して常にステップS231に進むようにして良い。ケースCSB21においては、物体検出器30[1]~30[n]の内、少なくとも1つの物体検出処理の結果に誤り(未検出を含む)があるからである。
【0200】
但し、ケースCSB21において、推論ブロック20[j]内の2以上の物体検出器30にて物体検出領域が設定された場合にあっては、ステップS222にて当該2以上の物体検出器30の中から上述の方法にて基準物体検出器30を選択及び設定するようにしても良い。この場合、ステップS223にて、当該2以上の物体検出器30にて設定された2以上の物体検出領域のIoUを導出し、以後は図32又は図33のステップS224の処理及びそれ以降の処理を行うようにしても良い。
【0201】
[実施例EX2_3]
実施例EX2_3を説明する。実施例EX2_3ではマルチクラス構成が採用される。実施例EX2_1及びEX2_2に示した技術はマルチクラス構成に対しても適用でき、当該技術をマルチクラス構成に適用した実施例を実施例EX2_3として説明する。
【0202】
図34に、実施例EX2_3に係るデータ処理装置1Aの動作フローチャートを示す。但し、図32のステップS240~S247及びS251~S255から成る単位処理は1枚の入力画像IN[p]に対して実行される処理である(図8参照)。当該単位処理は入力画像INごとに実行される。また、当該単位処理の内、1つの推論ブロック20内で実行される処理は、データ処理装置1A内の推論ブロック20ごとに実行される。
【0203】
まずステップS240において、推論ブロック20[j]内に物体検出器30[1]~30[n]にて入力画像IN[p]に対する物体検出処理が実行されることでn組分の物体検出データが生成される。ステップS240の後、ステップS241に進む。ここでは、1枚の入力画像IN[p]に対し各物体検出器30にて1つずつ物体検出領域が設定されたと想定する。当該想定の下、入力画像IN[p]に対して物体検出器30[1]~30[n]により計n個の物体検出領域が設定される。尚、推論ブロック20[j]において入力画像IN[p]に対し一切の物体検出領域が設定されなかった場合には、以降の処理を行うことなく、入力画像IN[p]に対する推論ブロック20[j]の動作を終える。
【0204】
ステップS241では、推論ブロック20[j]内において、統合部40が、物体検出器30[1]~30[n]にて設定された計n個の物体検出領域についてのクラスデータCLSが一致しているかを判断する。計n個の物体検出領域についてのクラスデータCLSが一致している場合には(ステップS241のY)ステップS242に進み、そうでない場合(ステップS241のN)にはステップS251に進む。
【0205】
例えば“n=2”である場合において、物体検出器30[1]及び30[2]にて設定された2つの物体検出領域についてのクラスデータCLSが共に車両を表しているときにはステップS242に進む。これは、物体検出器30[1]及び30[2]が共通して物体検出領域内の物体が車両であると認識したことに相当する。一方例えば、“n=2”である場合において、物体検出器30[1]にて設定された物体検出領域についてのクラスデータCLSが車両を表す一方、物体検出器30[2]にて設定された物体検出領域についてのクラスデータCLSが人物を表すときにはステップS251に進む。これは、共通の物体を、物体検出器30[1]、30[2]が、夫々車両、人物であると認識したことに相当する。この場合には、物体検出器30[1]及び30[2]の内、少なくとも一方の物体検出処理の結果に誤りがある。誤りのある物体検出処理の結果を学習用データセットDSに混入させることは望ましくないため、ステップS251にてアテンション付与指示を発行する。
【0206】
ステップS242では、推論ブロック20[j]において、統合部40が、物体検出器30[1]~30[n]にて導出(生成)された信頼度SCRに基づき、物体検出器30[1]~30[n]の内の1つを基準物体検出器30に設定する。基準物体検出器30の設定方法は上述した通りである。即ち、物体検出器30[1]~30[n]の内、最大の信頼度SCRを導出した物体検出器30が基準物体検出器30に設定される。基準物体検出器30が導出した信頼度SCR(即ち基準物体検出器30から出力される物体検出データ中の信頼度SCR)を記号“SCRMAX”にて参照する。
【0207】
ステップS242に続くステップS243では、推論ブロック20[j]において、統合部40が、物体検出器30[1]~30[n]にて設定された計n個の物体検出領域の指標IoUを導出する。続くステップS244において、推論ブロック20[j]の統合部40は、導出した指標IoUが重なり閾値IoUREF以上であるかを判断する。 そして、“IoU≧IoUREF”が成立すれば(ステップS244のY)、ステップS245に進む一方、“IoU≧IoUREF”が不成立ならば(ステップS244のN)、ステップS251に進む。
【0208】
ステップS245~S247の処理は実施例EX2_2で示したステップS225~S227(図32又は図33参照)の処理と同じである。即ち、ステップS245では、推論ブロック20[j]において、統合部40が、基準物体検出器30から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器30からの物体検出データ中のクラスデータCLS及び位置形状データPPを、統合部40からの推論結果データ中のクラスデータ及び位置形状データに設定する。ステップS245の後、ステップS246及びS247の処理が実行される。ステップS246において、推論ブロック20[j]の統合部40からの推論結果データに基づくアノテーション情報が入力画像IN[p]に対するアノテーション情報として単位データセットU_DS[p]に含められる。その後のステップS247において、単位データセットU_DS[p]が学習用データセットDSに追加される。
【0209】
ステップS251に進んだ場合、ステップS251~S255の処理が順次実行される。ステップS251~S255の処理は実施例EX2_2で示したステップS231~S235(図32又は図33参照)の処理と同じであり、ステップS231~S235に関して実施例EX2_2にて示した内容が実施例EX2_3にも適用される。
【0210】
即ち、ステップS251では、推論ブロック20[j]において、統合部40が “0”の推論結果データを出力する一方でアテンション付与指示をアテンション付与部70に発行する。ステップS251に至るケースでは、推論ブロック20[j]の統合部40からの推論結果データが入力画像IN[p]に関する単位データセットU_DS[p]に含められず(換言すれば単位データセットU_DS[p]から除外され)、結果、学習用データセットDSに反映されない。続くステップS252において、アテンション付与部70によりアテンション付きデータが生成され、そのアテンション付きデータに基づくアテンション保持データがデータ格納部50によりデータベースDBに格納される(図24図26参照)。
【0211】
その後、ステップS253において、回答要求部72は、アテンション保持データをデータベースDBから読み出し、読み出したデータに用いて、各物体検出器30による入力画像IN[p]に対する物体検出処理の結果の成否を判別者に問い合わせる。続くステップS254において、判別者は問い合わせ内容に対して回答し、その回答を示すデータが回答データ75として回答取得部74により取得される。回答データ75が取得されると、ステップS255においてデータ格納部50は当該回答データ75に基づくデータ補完処理を実行する。即ち、ステップS255において、データ格納部50は、アテンション保持データ中の入力画像IN[p]の画像データと上記回答データ75とに基づく単位データセットU_DS[p]を作成し、作成した単位データセットU_DS[p]を学習用データセットDSに含める。
【0212】
このように、推論ブロック20[j](統合部40)は、物体検出器30[1]~30[n]での複数の物体検出処理にて導出される複数の信頼度SCR(n個の信頼度SCR)の内、最大の信頼度SCRMAXを特定できる(ステップS242)。複数の物体検出処理により同一種類の物体が存在すると判断された複数の物体検出領域(ステップS242に進む場合の複数の物体検出領域)は統合推論領域の候補に相当し、各物体検出領域を候補領域と称することができる(図7参照)。そして、当該複数の物体検出領域のクラスデータが一致することは、同一種類の物体が存在すると判断された複数の物体検出領域が複数の候補領域となることに相当し、当該複数の物体検出領域のクラスデータが一致するときにステップS241からステップS242に移行する。ステップS242及びS243の処理を経てステップS244にて複数の候補領域の重なり度合い(IoU)が評価される。そして、“IoU≧IoUREF”が成立するときに、推論ブロック20[j](統合部40)は、最大の信頼度SCRMAXに対応する物体検出データ(最大の信頼度SCRMAXを導出した基準物体検出器30からの物体検出データ)に基づき推論結果データを生成する(ステップS245)。一方、“IoU≧IoUREF”が不成立のとき、推論ブロック20[j](統合部40)は、各物体検出器30による物体検出処理の結果に対して(即ち各物体検出データに対して)アテンション情報を付与する。ステップS252におけるアテンション付きデータの生成は、物体検出処理の結果に対する(即ち各物体検出データに対する)アテンション情報の付与に相当する(図25参照)。
【0213】
尚、図34の動作フローチャートに対して上述の変形MD2を適用しても良い。当該適用により、図34の動作フローチャートは図35の動作フローチャートへと変形される。変形MD2が適用された図35のフローチャートでは、“IoU≧IoUREF”が不成立の場合には(ステップS244のN)、ステップS244からステップS248に進む。
【0214】
ステップS248において、推論ブロック20[j]の統合部40は、信頼度SCRMAXが基準信頼度SCRREF以上であるかを判断する。そして、“SCRMAX≧SCRREF”が成立すれば(ステップS248のY)、ステップS245に移行して上述のステップS245~S247の各処理が行われる。“SCRMAX≧SCRREF”が不成立ならば(ステップS248のN)、ステップS251に進んで上述のステップS251~S255の各処理が行われる。図35の動作フローチャートでは、“IoU≧IoUREF”が成立するときに、又は、“IoU<IoUREF”且つ“SCRMAX≧SCRREF”が成立するときにアテンション付与条件は不成立である。図35の動作フローチャートでは、“IoU<IoUREF”及び“SCRMAX<SCRREF”の双方が成立するときに限りアテンション付与条件が成立する。
【0215】
また、推論ブロック20[j]において、入力画像IN[p]に対する物体検出処理により、物体検出器30[1]~30[n]の内、一部の物体検出器30のみにて物体検出領域が設定されるケース(以下、便宜上、ケースCSB31と称する)もあり得る。ケースCSB31では、物体検出器30[1]~30[n]の内、一部の物体検出器30のみからクラスデータCLS、位置形状データPP及び信頼度SCRを含む物体検出データが出力され、残部の物体検出器30から“0”の物体検出データが出力される。ケースCSB31においては、入力画像IN[p]に関して常にステップS251に進むようにして良い。ケースCSB31においては、物体検出器30[1]~30[n]の内、少なくとも1つの物体検出処理の結果に誤り(未検出を含む)があるからである。
【0216】
但し、ケースCSB31において、推論ブロック20[j]内の2以上の物体検出器30にて物体検出領域が設定され且つ2以上の物体検出器30から出力される2以上のクラスデータCLSが互いに一致している場合には、ステップS242に進むようにしても良い。この場合にあっては、ステップS242にて当該2以上の物体検出器30の中から上述の方法にて基準物体検出器30を選択及び設定することができる。そして、ステップS243にて、当該2以上の物体検出器30にて設定された2以上の物体検出領域のIoUを導出し、以後は図34又は図35のステップS244の処理及びそれ以降の処理を行うようにしても良い。
【0217】
[実施例EX2_4]
実施例EX2_4を説明する。実施例EX2_4では主としてシングルクラス構成が採用されることを想定する(但しマルチクラス構成が採用されても良い)。データ処理装置1Aでは、モデルの機能拡張が容易であると共に新規種類の物体についての教師データを容易に学習用データセットDSに追加できるというメリットがある。この点は実施例EX1_4に示した通りであり、上述の実施例EX1_4は第2実施形態に係るデータ処理装置1Aに対しても適用される。
【0218】
具体的には、図36に示す如く、データ処理装置1Aに動作制御部60を追加することができる。動作制御部60の構成、動作及び機能については実施例EX1_4で示した通りである。データ処理装置1Aの操作者はインターフェース4を通じてデータ処理装置1Aに選択指示情報61を入力することができ、動作制御部60は選択指示情報61の内容に基づきブロック選択処理を実行する。上述したように、ブロック選択処理において動作制御部60は、推論ブロック20[1]~20[n]の動作の実行有無を個別に制御できる。
【0219】
[実施例EX2_5]
実施例EX2_5を説明する。上述の実施例EX2_1~EX2_3では、1枚の入力画像IN[p]に対し各物体検出器30にて1つずつ物体検出領域が設定されることが主として想定されている。但し、実際には、1枚の入力画像IN[p]に認識対象物体の像が複数含まれることもあり、結果、各物体検出器30において1枚の入力画像IN[p]に対し複数の物体検出領域が設定されることもある。この場合には、XY座標面上における物体検出領域間の距離に基づいて、IoUが導出されるべき組み合わせ(即ち、互いに対応付けられる物体検出領域の組み合わせ)を決定すれば良く、当該決定の方法として実施例EX1_5で示した方法を利用できる。
【0220】
そして、互いに対応付けられた物体検出領域の組み合わせごとに実施例EX2_1~EX2_3に示した方法を適用すれば良い。即ち例えば、互いに対応付けられた物体検出領域の組み合わせごとに、図32若しくは図33のステップS221より後の処理、又は、図34若しくは図35のステップS240より後の処理を実行すれば良い。
【0221】
[実施例EX2_6]
実施例EX2_6を説明する。実施例EX2_6ではマルチクラス構成が採用されることを想定する。実施例EX2_6では実施例EX2_3に対して適用可能な変形技術を説明する。実施例EX2_3に係る図34又は図35を再度参照する。
【0222】
ステップS241では、推論ブロック20[j]内において、統合部40が、物体検出器30[1]~30[n]にて設定された計n個の物体検出領域についてのクラスデータCLSが一致しているかを判断する。ここで、計n個の物体検出領域についてのクラスデータCLSが一致している場合に(ステップS241のY)ステップS242に進む点は実施例EX2_3と同様である。但し、計n個の物体検出領域についてのクラスデータCLSが一致していない場合(ステップS241のN)、実施例EX2_6ではクラス照合部76(図37参照)によりクラス照合処理が実行される。クラス照合部76は演算処理部2に設けられる機能ブロックであって良い。演算処理部2においてメモリ3に格納されたプログラムを実行することでクラス照合部76が構成されても良い。
【0223】
尚、計n個の物体検出領域についてのクラスデータCLSが一致していないとは、n個の物体検出領域についての計n個のクラスデータCLSの中に、複数種類の物体を示すクラスデータCLSが混在していることを指す。
【0224】
図37を参照して、クラス照合処理を説明する。今、“n=2”であって、1枚の入力画像IN[p]内に物体2612の像が含まれており、入力画像IN[p]に対し推論ブロック20[j]内の物体検出器30[1]及び30[2]が物体検出処理を行うことを想定する。これにより、物体検出器30[1]及び30[2]にて夫々物体検出領域2613[1]及び2613[1]が設定されたとする。物体検出領域2613[1]及び2613[1]は、夫々、物体検出器30[1]及び30[2]による物体2612の検出領域に相当する。また、推論ブロック20[j]における各物体検出器30の認識対象物体に車両及び人物が含まれているものとする。そして、物体検出器30[1]は物体検出領域2613[1]内の物体が車両であることを示すクラスデータ2614[1]を出力する一方で、物体検出器30[2]は物体検出領域2613[2]内の物体が人物であることを示すクラスデータ2614[2]を出力したとする。
【0225】
物体検出領域2613[1]を特定する位置形状データ及びクラスデータ2614[1]を含む物体検出データ、並びに、物体検出領域2613[2]を特定する位置形状データ及びクラスデータ2614[2]を含む物体検出データが、ステップS240(図34又は図35)にて生成される。クラスデータ2614[1]及び2614[2]は一致していないため(ステップS241のN)、クラス照合処理が実行される。
【0226】
クラス照合処理において、クラス照合部76は、入力画像IN[p]から物体検出領域2613[1]内の画像を照会画像2623[1]として抽出し、入力画像IN[p]から物体検出領域2613[2]内の画像を照会画像2623[2]として抽出する。そして、クラス照合部76は照会画像2623[1]及び2623[2]の各画像データを外部認識装置DDに送る。外部認識装置DDは、データ処理装置1(第2実施形態ではデータ処理装置1A)とは異なる装置であって、例えば、上記通信網を介してデータ処理装置1(第2実施形態ではデータ処理装置1A)と接続される。
【0227】
外部認識装置DDは画像内の物体の種類を識別する画像分類処理を実行する。クラウドコンピューティングを利用した既存の画像分類器を外部認識装置DDとして用いることができる。従って、外部認識装置DDは、照会画像2623[1]の画像データに基づいて照会画像2623[1]内の物体の種類を識別し、照会画像2624[2]の画像データに基づいて照会画像2623[2]内の物体の種類を識別する。それらの識別結果を示す識別結果データが外部認識装置DDからクラス照合部76に供給される。
【0228】
クラス照合部76は識別結果データに基づいて推論ブロック20[j]内の統合部40を以下のように動作させる。
【0229】
照会画像2623[1]及び2623[2]内の物体が車両であるとの識別結果が識別結果データにて示されるケースを、ケースCSB61と称する。ケースCSB61では、物体検出器30[1]及び30[2]の内、物体検出器30[1]による物体の種類の検出結果が外部認識装置DDの識別結果と一致する。故に、ケースCSB61では、物体検出器30[1]による物体検出処理の結果の方が物体検出器30[2]による物体検出処理の結果よりも確からしい。ケースCSB61においてアテンション付与条件が満たされると判断し、ステップS241からステップS251への移行を発生させる。これにより、アテンション付きデータが生成される。但し、ケースCSB61に係るアテンション付きデータは、物体検出器30[1]からの物体検出データを含むが、物体検出器30[2]からの物体検出データを含まないものであって良い。或いは、ケースCSB61に係るアテンション付きデータは、物体検出器30[1]及び30[2]からの物体検出データを含みつつ、当該アテンション付きデータにおいてクラスデータ2614[2]にて示される物体の種類が人物から車両に修正されていても良い。
【0230】
尚、ケースCSB61において、ステップS241からステップS245へ移行させることも可能である。この場合、物体検出器30[1]が基準物体検出器30として取り扱われる。
【0231】
照会画像2623[1]及び2623[2]内の物体が人物であるとの識別結果が識別結果データにて示されるケースを、ケースCSB62と称する。ケースCSB62では、物体検出器30[1]及び30[2]の内、物体検出器30[2]による物体の種類の検出結果が外部認識装置DDの識別結果と一致する。故に、ケースCSB62では、物体検出器30[2]による物体検出処理の結果の方が物体検出器30[1]による物体検出処理の結果よりも確からしい。ケースCSB62においてアテンション付与条件が満たされると判断し、ステップS241からステップS251への移行を発生させる。これにより、アテンション付きデータが生成される。但し、ケースCSB62に係るアテンション付きデータは、物体検出器30[2]からの物体検出データを含むが、物体検出器30[1]からの物体検出データを含まないものであって良い。或いは、ケースCSB62に係るアテンション付きデータは、物体検出器30[1]及び30[2]からの物体検出データを含みつつ、当該アテンション付きデータにおいてクラスデータ2614[1]にて示される物体の種類が車両から人物に修正されていても良い。
【0232】
尚、ケースCSB62において、ステップS241からステップS245へ移行させることも可能である。この場合、物体検出器30[2]が基準物体検出器30として取り扱われる。
【0233】
外部認識装置DDは物体検出が可能な物体検出器であっても良い。この場合には、クラス照合部76は入力画像IN[p]の画像データ全体を外部認識装置DDに供給しても良い。これにより、外部認識装置DDにて物体2612の種類の検出だけでなく、物体2612についての物体検出領域(バウンディングボックス)も検出され、それらの検出結果が識別結果データに含められる。この際、クラス照合部76又は統合部40は、識別結果データに基づいて物体検出領域2613[1]又は2613[2]を修正しても良い。
【0234】
説明の具体化のため、“n=2”である場合を注目したが、実施例EX2_6に示した方法は“n≧3”であっても同様に実施できる。
【0235】
<<第3実施形態>>
本発明の第3実施形態を説明する。第3実施形態では、基本実施形態にて上述したデータ処理装置1の構成をそのまま利用できる。
【0236】
入力画像INにおける認識対象物体の画像サイズは様々である。例えば、カメラによる車両の撮影画像を入力画像INとして用いる場合、カメラから車両までの距離に応じて入力画像IN上における車両の画像サイズは様々に変化する。あらゆる画像サイズの車両を正確に検出可能な単一の画像認識モデル(物体検出器)を構成することは容易ではない。そこで、第3実施形態では、得意な検出サイズが互いに異なる複数の画像認識モデルを用意し、それらの認識結果を統合することで推論結果データを得る。
【0237】
互いに異なる環境の機械学習により複数の画像認識モデルを形成することで、得意な検出サイズが互いに異なる複数の画像認識モデルを得ることができる。これについて具体例を挙げる。説明の具体化のため、図38を参照し、認識対象物体が車両であるシングルクラスの画像認識モデル331[1]~331[n]の構築方法を説明する。
【0238】
モデル構築工程において、ニューラルネットワークが用意され、機械学習にてニューラルネットワークを学習させることで画像認識モデル(331[1]~331[n])が構築される。画像認識モデル331[i]を形成するニューラルネットワークをNN3120[i]と表記する。ここにおけるiは1以上且つn以下の整数である。NN3120[1]~3120[n]はディープニューラルネットワークに分類される。
【0239】
モデル構築工程では、既存の学習用データセット3110[1]~3110[n]を用いてNN3120[1]~3120[n]の機械学習を実行する。NN3120[i]の機械学習は学習用データセット3110[i]を用いて実行される。学習用データセット3110[1]~3110[n]は、データ処理装置1にて作成されるべき学習用データセットDSとは別の学習用データセットであり、データ処理装置1が構築される前の段階において現存する。
【0240】
学習用データセット3110[1]~3110[n]は、夫々に、複数の学習用画像(即ち複数の学習用画像の画像データ)と、各学習用画像に対するアノテーション情報と、を含む。学習用データセット3110[1]~3110[n]において、各学習用画像は認識対象物体である車両の像を含み、各アノテーション情報は学習用画像内のどの部分に車両の像が存在するのかを特定する。アノテーション情報は教師データに相当する。教師データは機械学習の中で参照される正解データを示す。
【0241】
図示されない機械学習部は、学習用データセット3110[1]を用いてNN3120[1]の機械学習(教師あり機械学習)を実行する。機械学習済みのNN3120[1]である学習済みモデルが画像認識モデル331[1]に相当する。同様に、学習用データセット3110[2]を用いてNN3120[2]の機械学習(教師あり機械学習)を実行する。機械学習済みのNN3120[2]である学習済みモデルが画像認識モデル331[2]に相当する。学習用データセット3110[3]及びNN3120[3]等についても同様である。画像認識モデル331[1]~331[n]を、夫々、1つの推論ブロック20[j]内の物体検出器30[1]~30[n]に組み込むことができる。学習用データセット3110[1]~3110[n]は互いに異なる学習用データセットであり、故に、画像認識モデル331[1]~331[n]は互いに異なる環境の機械学習により形成されることになる。
【0242】
尚、モデル構築工程の各処理の実行主体は任意である。演算処理部2にてモデル構築工程の各処理を実行しても良いし、データ処理装置1と異なる任意の演算処理装置にてモデル構築工程の各処理を実行しても良い。画像認識モデル331[1]~331[n]の内、任意の1以上は、本出願が行われる時点で現存する画像認識モデルであっても良い。
【0243】
学習用データセット3110[i]に含まれる学習用画像を第i学習用画像と称する。学習用データセット3110[i]には大量の第i学習用画像(例えば10万枚の第i学習用画像)が含まれる。各第i学習用画像は認識対象物体としての車両の像を含むが、各第i学習用画像において認識対象物体(ここでは車両)は範囲RR[i]内の画像サイズを有する。図39を参照し、即ち例えば、各第1学習用画像において認識対象物体(ここでは車両)は範囲RR[1]内の画像サイズを有し、各第2学習用画像において認識対象物体(ここでは車両)は範囲RR[2]内の画像サイズを有する。第3学習用画像及び範囲RR[3]についても同様である。ここで、範囲RR[1]~RR[n]は互いに分離した範囲(即ち互いに重なり合わない範囲)である。そして、範囲RR[i]には第i特定画像サイズが内包される。即ち例えば、範囲RR[1]には第1特定画像サイズが内包され、範囲RR[2]には第2特定画像サイズが内包される。範囲RR[3]及び第3特定画像サイズ等についても同様である。
【0244】
特定画像サイズは、学習用画像又は入力画像INにおける認識対象物体の画像サイズの内、特定の画像サイズを表す。第1特定画像サイズ~第n特定画像サイズは互いに異なる。任意の整数iに関して、第i特定画像サイズよりも第(i+1)特定画像サイズの方が大きく、故に、範囲RR[i]に属する各画像サイズよりも範囲RR[i+1]に属する各画像サイズの方が大きい。
【0245】
範囲RR[1]内の画像サイズを有する複数の第1学習用画像を用いた機械学習により画像認識モデル331[1]が形成される。このため、画像認識モデル331[1]は第1特定画像サイズ又は範囲RR[1]内の画像サイズを有する認識対象物体(ここでは車両)を良好に検出可能なモデルとなる。画像認識モデル331[1]は、第1特定画像サイズ又は範囲RR[1]内の画像サイズを有する認識対象物体の検出に適合(対応)する機械学習を経て得られた学習済みモデルであると言える。同様に、範囲RR[2]内の画像サイズを有する複数の第2学習用画像を用いた機械学習により画像認識モデル331[2]が形成される。このため、画像認識モデル331[2]は第2特定画像サイズ又は範囲RR[2]内の画像サイズを有する認識対象物体(ここでは車両)を良好に検出可能なモデルとなる。画像認識モデル331[2]は、第2特定画像サイズ又は範囲RR[2]内の画像サイズを有する認識対象物体の検出に対応(適合)する機械学習を経て得られた学習済みモデルであると言える。画像認識モデル331[3]等も同様である。
【0246】
例えば、“n=3”で考えた場合、第1特定画像サイズは(8×8)画素分の画像サイズであり、第2特定画像サイズは(16×16)画素分の画像サイズであり、第3特定画像サイズは(64×64)画素分の画像サイズである。
【0247】
第1特定画像サイズが(8×8)画素分の画像サイズであって、学習用画像における車両の画像サイズが第1特定画像サイズであるとき又は第1特定画像サイズ近辺であるとき、画像内で車両の構成部品の詳細は現れない。このため、機械学習の段階においてNN3120[1]は車両の細部でなく車両の全体的な形状を元に注目した物体が車両であるかを判断するよう、自身のパラメータ(重み等)を更新してゆく。その結果として得られる画像認識モデル331[1]は、第1特定画像サイズ又は第1特定画像サイズ近辺の画像サイズを持つ車両の検出に対して高い検出精度を持つ。
【0248】
第3特定画像サイズが(64×64)画素分の画像サイズであって、学習用画像における車両の画像サイズが第3特定画像サイズであるとき又は第3特定画像サイズ近辺であるとき、画像内で車両の構成部品の詳細が現れる又は現れやすい。このため、機械学習の段階においてNN3120[3]は車両の全体形状だけではなく車両の細部形状等を元に注目した物体が車両であるかを判断するよう、自身のパラメータ(重み等)を更新してゆく。その結果として得られる画像認識モデル331[3]は、第3特定画像サイズ又は第3特定画像サイズ近辺の画像サイズを持つ車両の検出に対して高い検出精度を持つ。
【0249】
上述の画像認識モデル331[1]~331[n]を1つの推論ブロック20[j]内の物体検出器30[1]~30[n]に組み込み、物体検出器30[1]~30[n]の物体検出処理の結果を統合して推論結果データを生成することができる。これにより、推論ブロック20[j]全体において、様々な画像サイズの認識対象物体を正確に検出(認識)することが可能となる。
【0250】
尚、範囲RR[i]に属さない画像サイズを有する認識対象物体の像を含んだ学習用画像が、学習用データセット3110[i]に含まれることがあっても良い。例えば、範囲RR[2]に属する画像サイズを有する認識対象物体の像を含んだ学習用画像が、学習用データセット3110[1]に含まれることがあっても良い。但し、学習用データセット3110[i]に含まれる学習用画像の大半は、範囲RR[i]に属する画像サイズを有する認識対象物体の像を含んでいることが好ましい。より具体的には例えば、学習用データセット3110[i]に含まれる全学習用画像の枚数をNUMTOTAL1[i]で表したとき、“NUM[i]/NUMTOTAL1[i]≧k”が成立すると良い。ここで、NUM[i]は、学習用データセット3110[i]に含まれる全学習用画像の内、範囲[i]内の画像サイズを有する認識対象物体の像を含んだ学習用画像の枚数を指す。kは0.5以上の所定値である。
【0251】
また、ここでは、車両が認識対象物体である例を挙げたが、認識対象物体の種類が車両以外であっても同様である。
【0252】
第3実施形態は以下の実施例EX3_1~EX3_5を含む。実施例EX3_1~EX3_5にて第3実施形態に関わる具体的な動作等を説明する。第3実施形態にて上述した事項は、特に記述無き限り且つ矛盾無き限り、以下の実施例EX3_1~EX3_5に適用される。但し、各実施例において、第3実施形態で上述した事項と矛盾する事項については各実施例での記載が優先されて良い。また矛盾無き限り、実施例EX3_1~EX3_5の内、任意の実施例に記載した事項を、他の任意の実施例に適用することもできる(即ち複数の実施例の内の任意の2以上の実施例を組み合わせることも可能である)。
【0253】
[実施例EX3_1]
実施例EX3_1を説明する。実施例EX3_1は、第3実施形態に関わる技術を具体化した典型的な実施例に相当する。図40に、実施例EX3_1に係るデータ処理装置1の要部の機能ブロック図を示す。実施例EX3_1では、“m=2”であって、且つ、各推論ブロック20において“n=2”であるとする(図1及び図40参照)。また、実施例EX3_1では、シングルクラス構成が採用される。
【0254】
実施例EX3_1に係る推論ブロック20[1]において、物体検出器30[1]における画像認識モデルは車両用モデル331[1,1]であり、物体検出器30[2]における画像認識モデルは車両用モデル331[1,2]である。実施例EX3_1に係る推論ブロック20[2]において、物体検出器30[1]における画像認識モデルは人物用モデル331[2,1]であり、物体検出器30[2]における画像認識モデルは人物用モデル331[2,2]である。
【0255】
上述したように、車両用モデル(ここでは、331[1,1]、331[1,2])は、車両のみを認識対象物体とするシングルクラスの画像認識モデルである。故に、実施例EX3_1に係る推論ブロック20[1]において、物体検出器30[1]及び30[2]は、車両のみを認識対象物体とするシングルクラスの物体検出器である。
【0256】
車両用モデル331[1,1]は、学習用データセットLDS[1,1]を用いた機械学習L[1,1]を経て構成された学習済みモデルである(図40においてデータセットLDS[1,1]を図示せず)。機械学習L[1,1]における認識対象物体は車両である。学習用データセットLDS[1,1]に含まれる各学習用画像は車両の像を含み、学習用データセットLDS[1,1]に含まれるアノテーション情報(教師データ)は、学習用画像ごとに学習用画像内のどの部分に車両の像が存在するのかを特定する。そして、学習用データセットLDS[1,1]に含まれる各学習用画像中の車両は範囲RR[1]内の画像サイズを有する。このため、機械学習L[1,1]は、学習用画像又は入力画像INにおいて比較的小さな第1特定画像サイズを持つ(又は範囲RR[1]内の画像サイズを持つ)車両の検出に適合する。結果、車両用モデル331[1,1]は、入力画像INにおいて第1特定画像サイズを持つ(又は範囲RR[1]内の画像サイズを持つ)車両を精度良く検出可能である。
【0257】
車両用モデル331[1,2]は、学習用データセットLDS[1,2]を用いた機械学習L[1,2]を経て構成された学習済みモデルである(図40においてデータセットLDS[1,2]を図示せず)。機械学習L[1,2]における認識対象物体は車両である。学習用データセットLDS[1,2]に含まれる各学習用画像は車両の像を含み、学習用データセットLDS[1,2]に含まれるアノテーション情報(教師データ)は、学習用画像ごとに学習用画像内のどの部分に車両の像が存在するのかを特定する。そして、学習用データセットLDS[1,2]に含まれる各学習用画像中の車両は範囲RR[2]内の画像サイズを有する。このため、機械学習L[1,2]は、学習用画像又は入力画像INにおいて比較的大きな第2特定画像サイズを持つ(又は範囲RR[2]内の画像サイズを持つ)車両の検出に適合する。結果、車両用モデル331[1,2]は、入力画像INにおいて第2特定画像サイズを持つ(又は範囲RR[2]内の画像サイズを持つ)車両を精度良く検出可能である。
【0258】
上述したように、人物用モデル(ここでは、331[2,1]、331[2,2])は、人物のみを認識対象物体とするシングルクラスの画像認識モデルである。故に、実施例EX3_1に係る推論ブロック20[2]において、物体検出器30[1]及び30[2]は、人物のみを認識対象物体とするシングルクラスの物体検出器である。
【0259】
人物用モデル331[2,1]は、学習用データセットLDS[2,1]を用いた機械学習L[2,1]を経て構成された学習済みモデルである(図40においてデータセットLDS[2,1]を図示せず)。機械学習L[2,1]における認識対象物体は人物である。学習用データセットLDS[2,1]に含まれる各学習用画像は人物の像を含み、学習用データセットLDS[2,1]に含まれるアノテーション情報(教師データ)は、学習用画像ごとに学習用画像内のどの部分に人物の像が存在するのかを特定する。そして、学習用データセットLDS[2,1]に含まれる各学習用画像中の人物は範囲RR[1]内の画像サイズを有する。このため、機械学習L[2,1]は、学習用画像又は入力画像INにおいて比較的小さな第1特定画像サイズを持つ(又は範囲RR[1]内の画像サイズを持つ)人物の検出に適合する。結果、人物用モデル331[2,1]は、入力画像INにおいて第1特定画像サイズを持つ(又は範囲RR[1]内の画像サイズを持つ)人物を精度良く検出可能である。
【0260】
人物用モデル331[2,2]は、学習用データセットLDS[2,2]を用いた機械学習L[2,2]を経て構成された学習済みモデルである(図40においてデータセットLDS[2,2]を図示せず)。機械学習L[2,2]における認識対象物体は人物である。学習用データセットLDS[2,2]に含まれる各学習用画像は人物の像を含み、学習用データセットLDS[2,2]に含まれるアノテーション情報(教師データ)は、学習用画像ごとに学習用画像内のどの部分に人物の像が存在するのかを特定する。そして、学習用データセットLDS[2,2]に含まれる各学習用画像中の人物は範囲RR[2]内の画像サイズを有する。このため、機械学習L[2,2]は、学習用画像又は入力画像INにおいて比較的大きな第2特定画像サイズを持つ(又は範囲RR[2]内の画像サイズを持つ)人物の検出に適合する。結果、人物用モデル331[2,2]は、入力画像INにおいて第2特定画像サイズを持つ(又は範囲RR[2]内の画像サイズを持つ)人物を精度良く検出可能である。
【0261】
車両用モデル331[1,1]、331[1,2]は、夫々、図38に示した画像認識モデル331[1]、331[2]であって良い。画像認識モデル331[1]及び331[2]を構築するときと同様のモデル構築工程を経て、人物用モデル331[2,1]及び331[2,2]を構築することができる。但し、人物用モデル331[2,1]及び331[2,2]を構築する際の認識対象物体は人物とされる。
【0262】
車両の像及び人物の像を含む入力画像IN(例えば図13の入力画像1110)が各推論ブロック20に入力されたケースCSC11を考える。ケースCSC11において(図40参照)、推論ブロック20[1]の物体検出器30[1]、30[2]から夫々物体検出データ332[1,1]、332[1,2]が出力され、推論ブロック20[2]の物体検出器30[1]、30[2]から夫々物体検出データ332[2,1]、332[2,2]が出力される。ケースCSC11において、推論ブロック20[1]の統合部40から推論結果データ333[1]が出力され、推論ブロック20[2]の統合部40から推論結果データ333[2]が出力される。
【0263】
ケースCSC11では、推論ブロック20[1]の物体検出器30[1]及び30[2]の内、少なくとも一方で入力画像IN内の車両が検出されることが期待される。入力画像IN内の車両の像が比較的小さければ、推論ブロック20[1]の物体検出器30[1]のみにて車両が検出される可能性が高い。逆に、入力画像IN内の車両の像が比較的大きければ、推論ブロック20[1]の物体検出器30[2]のみにて車両が検出される可能性が高い。
【0264】
ケースCSC11において、推論ブロック20[1]の統合部40は、物体検出データ332[1,1]又は332[1,2]に基づき推論結果データ333[1]を生成できる。推論ブロック20[1]において、物体検出器30[1]及び30[2]の内、物体検出器30[1]のみにて車両が検出された場合、統合部40は物体検出データ332[1,1]を推論結果データ333[1]に採用する。推論ブロック20[1]において、物体検出器30[1]及び30[2]の内、物体検出器30[2]のみにて車両が検出された場合、統合部40は物体検出データ332[1,2]を推論結果データ333[1]に採用する。
【0265】
入力画像INにおける車両の画像サイズ等によっては、推論ブロック20[1]における物体検出器30[1]及び30[2]の双方にて車両が検出され得る。推論ブロック20[1]において、物体検出器30[1]及び30[2]の双方にて車両が検出された場合、統合部40は、物体検出データ332[1,1]及び332[1,2]に基づき推論結果データ333[1]を生成できる。この際、推論ブロック20[1]内の物体検出器30[1]及び30[2]にて設定された2つの物体検出領域間のIoU及び各信頼度SCRに基づき推論結果データ333[1]を生成できる。IoU等に基づく推論結果データの生成方法として上述の何れかの実施例(例えば実施例EX1_1又はEX1_2)にて示した方法を採用できる。
【0266】
ケースCSC11では、推論ブロック20[2]の物体検出器30[1]及び30[2]の内、少なくとも一方で入力画像IN内の人物が検出されることが期待される。入力画像IN内の人物の像が比較的小さければ、推論ブロック20[2]の物体検出器30[1]のみにて人物が検出される可能性が高い。逆に、入力画像IN内の人物の像が比較的大きければ、推論ブロック20[2]の物体検出器30[2]のみにて人物が検出される可能性が高い。
【0267】
ケースCSC11において、推論ブロック20[2]の統合部40は、物体検出データ332[2,1]又は332[2,2]に基づき推論結果データ333[2]を生成できる。推論ブロック20[2]において、物体検出器30[1]及び30[2]の内、物体検出器30[1]のみにて人物が検出された場合、統合部40は物体検出データ332[2,1]を推論結果データ333[2]に採用する。推論ブロック20[2]において、物体検出器30[1]及び30[2]の内、物体検出器30[2]のみにて人物が検出された場合、統合部40は物体検出データ332[2,2]を推論結果データ333[2]に採用する。
【0268】
入力画像INにおける人物の画像サイズ等によっては、推論ブロック20[2]における物体検出器30[1]及び30[2]の双方にて人物が検出され得る。推論ブロック20[2]において、物体検出器30[1]及び30[2]の双方にて人物が検出された場合、統合部40は、物体検出データ332[2,1]及び332[2,2]に基づき推論結果データ333[2]を生成できる。この際、推論ブロック20[2]内の物体検出器30[1]及び30[2]にて設定された2つの物体検出領域間のIoU及び各信頼度SCRに基づき推論結果データ333[2]を生成できる。IoU等に基づく推論結果データの生成方法として上述の何れかの実施例(例えば実施例EX1_1又はEX1_2)にて示した方法を採用できる。
【0269】
データ格納部50は、入力画像INと推論結果データ333[1]及び333[2]とに基づく単位データセット334を生成する。データ格納部50は、単位データセット334をデータベースDBに格納することにより、単位データセット334を学習用データセットDSの一部として学習用データセットDSに追加する。
【0270】
このように、同一の物体に対して、検出精度の高まるサイズが相違した複数の画像認識モデルを適用し、それらの結果を統合する。これにより、様々な画像サイズの認識対象物体を正確に検出(認識)することが可能となる。結果、量的にも質的にも良好な学習用データセットDSを得ることが可能となる。
【0271】
[実施例EX3_2]
実施例EX3_2を説明する。実施例EX3_1では“n=2”が想定されているが、上述したようにnの値は2以上であれば任意である。実施例EX3_2では、実施例EX3_1にて示した技術を一般化する。実施例EX3_2ではシングルクラス構成が採用される。
【0272】
図41に、実施例EX3_2に係るデータ処理装置1の動作フローチャートを示す。図41のステップS321~S324及びS331~S336から成る単位処理は1つの推論ブロック20[j]において1枚の入力画像IN[p]に対して実行される処理である(図8参照)。当該単位処理は、データ処理装置1内の各推論ブロック20にて実行され、且つ、入力画像INごとに実行される。また実施例EX3_2では、説明の具体化のため、1枚の入力画像IN[p]に物体OBJ(図7)の像が1つだけ含まれていることを想定し、且つ、物体OBJの種類は推論ブロック20[j]の各物体検出器30における認識対象物体の種類と一致することを想定する。入力画像IN[p]に複数の物体OBJの像が含まれている場合には、物体OBJごとに上記単位処理が実行される。推論ブロック20[j]において、例えば認識対象物体が車両であれば、物体検出器30[1]~30[n]における画像認識モデルは夫々上述の画像認識モデル331[1]~331[n]である(図38参照)。
【0273】
まずステップS321において、推論ブロック20[j]内に物体検出器30[1]~30[n]にて入力画像IN[p]に対する物体検出処理が実行される。続くステップS322では、推論ブロック20[j]において統合部40が物体検出器30[1]~30[n]からの物体検出データに基づき、1つの物体検出器30のみにて物体OBJが検出されたかを確認する。物体OBJを検出した物体検出器30からの物体検出データには、クラスデータCLS、位置形状データPP及び信頼度SCRが含まれる。物体OBJを検出していない物体検出器30からの物体検出データは“0”を表す。故に、統合部40は、物体検出器30[1]~30[n]からの物体検出データに基づき、物体OBJを検出した物体検出器30が何れの物体検出器であるのか、及び、物体OBJを検出した物体検出器30の総数を認知できる。1つの物体検出器30のみにて物体OBJが検出された場合には(ステップS322のY)、ステップS323に進み、そうでない場合には(ステップS322のN)、ステップS331に進む。
【0274】
ステップS323では、推論ブロック20[j]において統合部40が、物体OBJを検出した1つの物体検出器30を基準物体検出器30に設定する。ステップS323の後にはステップS324に進む。
【0275】
ステップS324では、推論ブロック20[j]において、統合部40が、基準物体検出器30から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器30からの物体検出データ中のクラスデータCLS及び位置形状データPPを、統合部40からの推論結果データ中のクラスデータ及び位置形状データに設定する。図41では特に示されないが、ステップS324の後は、推論ブロック20[j]の統合部40からの推論結果データに基づくアノテーション情報が入力画像IN[p]に対するアノテーション情報として単位データセットU_DS[p]に含められた上で、当該単位データセットU_DS[p]が学習用データセットDSに追加される(図8参照)。
【0276】
ステップS331では、推論ブロック20[j]において統合部40が物体検出器30[1]~30[n]からの物体検出データに基づき、2以上の物体検出器30にて物体OBJが検出されたかを確認する。2以上の物体検出器30にて物体OBJが検出された場合には(ステップS331のY)、ステップS332に進み、そうでない場合には(ステップS331のN)、ステップS336に進む。
【0277】
ステップS332では、推論ブロック20[j]において統合部40が、物体OBJを検出した2以上の物体検出器30にて導出(生成)された信頼度SCRに基づき、当該2以上の物体検出器30の何れか1つを基準物体検出器30に設定する。複数の物体検出器30の何れかを基準物体検出器30に設定する方法は上述した通りである。即ち、物体OBJを検出した2以上の物体検出器30の内、最大の信頼度SCRを導出した物体検出器30が基準物体検出器30に設定される。基準物体検出器30が導出した信頼度SCR(即ち基準物体検出器30から出力される物体検出データ中の信頼度SCR)を記号“SCRMAX”にて参照する。
【0278】
ステップS332に続くステップS333では、推論ブロック20[j]において、統合部40が、物体OBJを検出した2以上の物体検出器30にて設定された2以上の物体検出領域の指標IoUを導出する。続くステップS334において、推論ブロック20[j]の統合部40は、導出した指標IoUが重なり閾値IoUREF以上であるかを判断する。 そして、“IoU≧IoUREF”が成立すれば(ステップS334のY)、ステップS324に移行して上述のステップS324の処理が行われる。一方、“IoU≧IoUREF”が不成立ならば(ステップS334のN)、ステップS335に進む。
【0279】
ステップS335において、推論ブロック20[j]の統合部40は、信頼度SCRMAXが基準信頼度SCRREF以上であるかを判断する。そして、“SCRMAX≧SCRREF”が成立すれば(ステップS335のY)、ステップS324に移行して上述のステップS324の処理が行われる。“SCRMAX≧SCRREF”が不成立ならば(ステップS335のN)、ステップS336に進む。
【0280】
ステップS336では、推論ブロック20[j]において、統合部40が “0”の推論結果データを出力する。ステップS336に至るケースでは、推論ブロック20[j]の統合部40からの推論結果データが入力画像IN[p]に関する単位データセットU_DS[p]に含められず(換言すれば単位データセットU_DS[p]から除外され)、結果、学習用データセットDSに反映されない。即ち、ステップS336の処理は、ステップS321で生成した物体検出データを学習用データセットDSに反映させることなく、破棄することに相当する。
【0281】
推論ブロック20[j]において、認識対象物体が車両であって且つ“n=2”であれば、図40の車両用モデル331[1,1]、331[1,2]を、夫々、物体検出器30[1]、30[2]として用いることができる。推論ブロック20[j]において、認識対象物体が人物であって且つ“n=2”であれば、図40の人物用モデル331[2,1]、331[2,2]を、夫々、物体検出器30[1]、30[2]として用いることができる。
【0282】
何れかの物体検出器30にて設定された物体検出領域は統合推論領域の候補(候補領域)として機能する(図7参照)。そして、単一の物体検出器30のみにて物体検出領域が設定(換言すれば候補領域が検出)された場合、統合部40は、単一の物体検出器30による物体検出処理の結果(物体検出データ)に基づき推論結果データを生成する(ステップS322のYを通じてステップS323及びS324)。一方、2以上の物体検出器30にて物体検出領域が設定(換言すれば候補領域が検出)された場合、2以上の物体検出器30による物体検出処理の結果(物体検出データ)に基づき推論結果データを生成する(ステップS331のYを通じ、ステップS332及びS333を経てステップS324又はS336)。この際、IoUに応じて推論結果データが生成される。
【0283】
尚、図41の動作フローチャートからステップS335の処理を削除する変形を施しても良い。図42に、当該変形が施された動作フローチャートを示す。当該変形が行われたとき、ステップS334にて“IoU≧IoUREF”が不成立の場合には、ステップS334から常にステップS336に進む。
【0284】
[実施例EX3_3]
実施例EX3_3を説明する。実施例EX3_3ではマルチクラス構成が採用される。第3実施形態にて上述した技術はマルチクラス構成に対しても適用でき、当該技術をマルチクラス構成に適用した実施例を実施例EX3_3として説明する。
【0285】
まず、マルチクラスの画像認識モデルの例として、図43を参照し、車両及び人物を認識対象物体とするマルチクラスの画像認識モデル3330[1]~3330[n]の構築方法を説明する。
【0286】
モデル構築工程において、ニューラルネットワークが用意され、機械学習にてニューラルネットワークを学習させることで画像認識モデル(3330[1]~3330[n])が構築される。画像認識モデル3330[i]を形成するニューラルネットワークをNN3320[i]と表記する。ここにおけるiは1以上且つn以下の整数である。NN3320[1]~3320[n]はディープニューラルネットワークに分類される。
【0287】
モデル構築工程では、既存の学習用データセット3310[1]~3310[n]を用いてNN3320[1]~3320[n]の機械学習を実行する。NN3320[i]の機械学習は学習用データセット3310[i]を用いて実行される。学習用データセット3310[1]~3310[n]は、データ処理装置1にて作成されるべき学習用データセットDSとは別の学習用データセットであり、データ処理装置1が構築される前の段階において現存する。
【0288】
学習用データセット3310[1]~3310[n]は、夫々に、複数の学習用画像(即ち複数の学習用画像の画像データ)と、各学習用画像に対するアノテーション情報と、を含む。学習用データセット3310[1]~3310[n]において、各学習用画像は認識対象物体である車両の像及び人物の像を含み、各アノテーション情報は学習用画像内のどの部分に車両の像及び人物の像が存在するのかを特定する。アノテーション情報は教師データに相当する。教師データは機械学習の中で参照される正解データを示す。尚、車両の像及び人物の像の内、一方のみを含む学習用画像が、学習用データセット3310[1]~3310[n]の中に含まれることがあっても良い。
【0289】
図示されない機械学習部は、学習用データセット3310[1]を用いてNN3320[1]の機械学習(教師あり機械学習)を実行する。機械学習済みのNN3320[1]である学習済みモデルが画像認識モデル3330[1]に相当する。同様に、学習用データセット3310[2]を用いてNN3320[2]の機械学習(教師あり機械学習)を実行する。機械学習済みのNN3320[2]である学習済みモデルが画像認識モデル3330[2]に相当する。学習用データセット3310[3]及びNN3320[3]等についても同様である。画像認識モデル3330[1]~3330[n]を、夫々、1つの推論ブロック20[j]内の物体検出器30[1]~30[n]に組み込むことができる。学習用データセット3310[1]~3310[n]は互いに異なる学習用データセットであり、故に、画像認識モデル3330[1]~3330[n]は互いに異なる環境の機械学習により形成されることになる。
【0290】
尚、モデル構築工程の各処理の実行主体は任意である。演算処理部2にてモデル構築工程の各処理を実行しても良いし、データ処理装置1と異なる任意の演算処理装置にてモデル構築工程の各処理を実行しても良い。画像認識モデル3330[1]~3330[n]の内、任意の1以上は、本出願が行われる時点で現存する画像認識モデルであっても良い。
【0291】
実施例EX3_3における第i学習用画像は学習用データセット3310[i]に含まれる学習用画像を指す。学習用データセット3310[i]には大量の第i学習用画像(例えば10万枚の第i学習用画像)が含まれる。各第i学習用画像は認識対象物体としての車両の像及び人物の像を含むが、各第i学習用画像において認識対象物体(ここでは車両及び人物)は範囲RR[i]内の画像サイズを有する。図39を参照し、即ち例えば、各第1学習用画像において認識対象物体(ここでは車両及び人物)は範囲RR[1]内の画像サイズを有し、各第2学習用画像において認識対象物体(ここでは車両及び人物)は範囲RR[2]内の画像サイズを有する。第3学習用画像及び範囲RR[3]についても同様である。上述したように、範囲RR[1]~RR[n]は互いに分離した範囲(即ち互いに重なり合わない範囲)である。そして、範囲RR[i]には第i特定画像サイズが内包される。
【0292】
特定画像サイズは、学習用画像又は入力画像INにおける認識対象物体の画像サイズの内、特定の画像サイズを表す。範囲RR[1]~RR[n]及び第1~第n特定画像サイズの関係は上述した通りである。
【0293】
範囲RR[1]内の画像サイズを有する複数の第1学習用画像を用いた機械学習により画像認識モデル3330[1]が形成される。このため、画像認識モデル3330[1]は第1特定画像サイズ又は範囲RR[1]内の画像サイズを有する認識対象物体(ここでは車両及び人物)を良好に検出可能なモデルとなる。画像認識モデル3330[1]は、第1特定画像サイズ又は範囲RR[1]内の画像サイズを有する認識対象物体の検出に適合(対応)する機械学習を経て得られた学習済みモデルであると言える。同様に、範囲RR[2]内の画像サイズを有する複数の第2学習用画像を用いた機械学習により画像認識モデル3330[2]が形成される。このため、画像認識モデル3330[2]は第2特定画像サイズ又は範囲RR[2]内の画像サイズを有する認識対象物体(ここでは車両及び人物)を良好に検出可能なモデルとなる。画像認識モデル3330[2]は、第2特定画像サイズ又は範囲RR[2]内の画像サイズを有する認識対象物体の検出に対応(適合)する機械学習を経て得られた学習済みモデルであると言える。画像認識モデル3330[3]等も同様である。
【0294】
上述の画像認識モデル3330[1]~3330[n]を1つの推論ブロック20[j]内の物体検出器30[1]~30[n]に組み込み、物体検出器30[1]~30[n]の物体検出処理の結果を統合して推論結果データを生成することができる。これにより、推論ブロック20[j]全体において、様々な画像サイズの認識対象物体を正確に検出(認識)することが可能となる。
【0295】
尚、範囲RR[i]に属さない画像サイズを有する認識対象物体の像(ここでは車両又人物の像)を含んだ学習用画像が、学習用データセット3310[i]に含まれることがあっても良い。例えば、範囲RR[2]に属する画像サイズを有する認識対象物体の像(ここでは車両又人物の像)を含んだ学習用画像が、学習用データセット3310[1]に含まれることがあっても良い。但し、学習用データセット3310[i]に含まれる学習用画像の大半は、範囲RR[i]に属する画像サイズを有する認識対象物体の像を含んでいることが好ましい。より具体的には例えば、学習用データセット3310[i]に含まれる全学習用画像の枚数をNUMTOTAL2[i]で表したとき、“NUM[i]/NUMTOTAL2[i]≧k”が成立すると良い。ここで、NUM[i]は、学習用データセット3310[i]に含まれる全学習用画像の内、範囲[i]内の画像サイズを有する認識対象物体(ここでは車両及び人物)の像を含んだ学習用画像の枚数を指す。kは0.5以上の所定値である。
【0296】
図44に、実施例EX3_3に係るデータ処理装置1の動作フローチャートを示す。図44のステップS341~S344及びS350~S356から成る単位処理は1つの推論ブロック20[j]において1枚の入力画像IN[p]に対して実行される処理である(図8参照)。当該単位処理は、データ処理装置1内の各推論ブロック20にて実行され、且つ、入力画像INごとに実行される。また実施例EX3_3では、説明の具体化のため、1枚の入力画像IN[p]に物体OBJ(図7)の像が1つだけ含まれていることを想定し、且つ、物体OBJの種類は推論ブロック20[j]の各物体検出器30における認識対象物体に属することを想定する。入力画像IN[p]に複数の物体OBJの像が含まれている場合には、物体OBJごとに上記単位処理が実行される。推論ブロック20[j]において、認識対象物体が車両及び人物であれば物体検出器30[1]~30[n]における画像認識モデルは、夫々、上述の画像認識モデル3330[1]~3330[n]である(図43参照)。
【0297】
まずステップS341において、推論ブロック20[j]内に物体検出器30[1]~30[n]にて入力画像IN[p]に対する物体検出処理が実行される。続くステップS342では、推論ブロック20[j]において統合部40が物体検出器30[1]~30[n]からの物体検出データに基づき、1つの物体検出器30のみにて物体OBJが検出されたかを確認する。物体OBJを検出した物体検出器30からの物体検出データには、クラスデータCLS、位置形状データPP及び信頼度SCRが含まれる。物体OBJを検出していない物体検出器30からの物体検出データは“0”を表す。故に、統合部40は、物体検出器30[1]~30[n]からの物体検出データに基づき、物体OBJを検出した物体検出器30が何れの物体検出器であるのか、及び、物体OBJを検出した物体検出器30の総数を認知できる。1つの物体検出器30のみにて物体OBJが検出された場合には(ステップS342のY)、ステップS343に進み、そうでない場合には(ステップS342のN)、ステップS350に進む。
【0298】
ステップS343では、推論ブロック20[j]において統合部40が、物体OBJを検出した1つの物体検出器30を基準物体検出器30に設定する。ステップS343の後にはステップS344に進む。
【0299】
ステップS344では、推論ブロック20[j]において、統合部40が、基準物体検出器30から出力される物体検出データを推論結果データに採用する。即ち、基準物体検出器30からの物体検出データ中のクラスデータCLS及び位置形状データPPを、統合部40からの推論結果データ中のクラスデータ及び位置形状データに設定する。図44では特に示されないが、ステップS344の後は、推論ブロック20[j]の統合部40からの推論結果データに基づくアノテーション情報が入力画像IN[p]に対するアノテーション情報として単位データセットU_DS[p]に含められた上で、当該単位データセットU_DS[p]が学習用データセットDSに追加される(図8参照)。
【0300】
ステップS350では、推論ブロック20[j]において統合部40が物体検出器30[1]~30[n]からの物体検出データに基づき、2以上の物体検出器30にて物体OBJが検出されたかを確認する。2以上の物体検出器30にて物体OBJが検出された場合には(ステップS350のY)、ステップS351に進み、そうでない場合には(ステップS350のN)、ステップS356に進む。
【0301】
ステップS351において、推論ブロック20[j]の統合部40は、物体OBJを検出した2以上の物体検出器30により設定された2以上の物体検出領域についてのクラスデータCLSが一致しているかを判断する。2以上の物体検出領域についてのクラスデータCLSが一致している場合には(ステップS351のY)ステップS352に進み、そうでない場合(ステップS351のN)にはステップS356に進む。
【0302】
例えば、物体検出器30[1]及び30[2]にて物体OBJが検出された場合を考える。この際、物体検出器30[3]~30[n]にて物体OBJが検出されない、或いは、“n=2”であるが故に物体検出器30[3]~30[n]が存在しない。この場合において、物体検出器30[1]及び30[2]にて設定された2つの物体検出領域についてのクラスデータCLSが共に車両を表しているときにはステップS352に進む。これは、物体検出器30[1]及び30[2]が共通して物体検出領域内の物体が車両であると認識したことに相当する。一方、例えば、物体検出器30[1]にて設定された物体検出領域についてのクラスデータCLSが車両を表す一方、物体検出器30[2]にて設定された物体検出領域についてのクラスデータCLSが人物を表すときにはステップS356に進む。これは、共通の物体を、物体検出器30[1]、30[2]が、夫々車両、人物であると認識したことに相当する。この場合には、物体検出器30[1]及び30[2]の内、少なくとも一方の物体検出処理の結果に誤りがある。誤りのある物体検出処理の結果を学習用データセットDSに混入させることは望ましくないため、ステップS356にて物体検出データを破棄する。
【0303】
ステップS352では、推論ブロック20[j]において統合部40が、物体OBJを検出した2以上の物体検出器30にて導出(生成)された信頼度SCRに基づき、当該2以上の物体検出器30の何れか1つを基準物体検出器30に設定する。複数の物体検出器30の何れかを基準物体検出器30に設定する方法は上述した通りである。即ち、物体OBJを検出した2以上の物体検出器30の内、最大の信頼度SCRを導出した物体検出器30が基準物体検出器30に設定される。基準物体検出器30が導出した信頼度SCR(即ち基準物体検出器30から出力される物体検出データ中の信頼度SCR)を記号“SCRMAX”にて参照する。
【0304】
ステップS352に続くステップS353では、推論ブロック20[j]において、統合部40が、物体OBJを検出した2以上の物体検出器30にて設定された2以上の物体検出領域の指標IoUを導出する。続くステップS354において、推論ブロック20[j]の統合部40は、導出した指標IoUが重なり閾値IoUREF以上であるかを判断する。 そして、“IoU≧IoUREF”が成立すれば(ステップS354のY)、ステップS344に移行して上述のステップS344の処理が行われる。一方、“IoU≧IoUREF”が不成立ならば(ステップS354のN)、ステップS355に進む。
【0305】
ステップS355において、推論ブロック20[j]の統合部40は、信頼度SCRMAXが基準信頼度SCRREF以上であるかを判断する。そして、“SCRMAX≧SCRREF”が成立すれば(ステップS355のY)、ステップS344に移行して上述のステップS344の処理が行われる。“SCRMAX≧SCRREF”が不成立ならば(ステップS355のN)、ステップS356に進む。
【0306】
ステップS356では、推論ブロック20[j]において、統合部40が “0”の推論結果データを出力する。ステップS356に至るケースでは、推論ブロック20[j]の統合部40からの推論結果データが入力画像IN[p]に関する単位データセットU_DS[p]に含められず(換言すれば単位データセットU_DS[p]から除外され)、結果、学習用データセットDSに反映されない。即ち、ステップS356の処理は、ステップS341で生成した物体検出データを学習用データセットDSに反映させることなく、破棄することに相当する。
【0307】
何れかの物体検出器30にて設定された物体検出領域は統合推論領域の候補(候補領域)として機能する(図7参照)。そして、単一の物体検出器30のみにて物体検出領域が設定(換言すれば候補領域が検出)された場合、統合部40は、単一の物体検出器30による物体検出処理の結果(物体検出データ)に基づき推論結果データを生成する(ステップS342のYを通じてステップS343及びS344)。一方、2以上の物体検出器30にて物体検出領域が設定(換言すれば候補領域が検出)された場合、クラスデータの一致を条件としつつ、2以上の物体検出器30による物体検出処理の結果(物体検出データ)に基づき推論結果データを生成する(ステップS351のYを通じ、ステップS352及びS353を経てステップS344又はS356)。この際、IoUに応じて推論結果データが生成される。
【0308】
尚、図44の動作フローチャートからステップS355の処理を削除する変形を施しても良い。図45に、当該変形が施された動作フローチャートを示す。当該変形が行われたとき、ステップS354にて“IoU≧IoUREF”が不成立の場合には、ステップS354から常にステップS356に進む。
【0309】
[実施例EX3_4]
実施例EX3_4を説明する。実施例EX3_4では主としてシングルクラス構成が採用されることを想定する(但しマルチクラス構成が採用されても良い)。データ処理装置1では、モデルの機能拡張が容易であると共に新規種類の物体についての教師データを容易に学習用データセットDSに追加できるというメリットがある。この点は実施例EX1_4に示した通りであり、上述の実施例EX1_4は第3実施形態に係るデータ処理装置1に対しても適用される。
【0310】
具体的には、図22に示す如く、データ処理装置1に動作制御部60を追加することができる。動作制御部60の構成、動作及び機能については実施例EX1_4で示した通りである。データ処理装置1の操作者はインターフェース4を通じてデータ処理装置1に選択指示情報61を入力することができ、動作制御部60は選択指示情報61の内容に基づきブロック選択処理を実行する。上述したように、ブロック選択処理において動作制御部60は、推論ブロック20[1]~20[n]の動作の実行有無を個別に制御できる。
【0311】
更に、実施例EX3_4に係る動作制御部60は、物体検出器30ごとに動作の実行有無を個別に制御する個別選択処理(換言すれば個別選択制御)を実行可能であって良い。推論ブロック20ごとにn個の物体検出器30が設けられる場合、データ処理装置1内に計(m×n)個の物体検出器30が設けられることになるが、個別選択処理では(m×n)個の物体検出器30の動作の実行有無が個別に制御される。何れの物体検出器30を動作させ、何れの物体検出器30の動作を停止させるかは、データ処理装置1の操作者がインターフェース4を通じてデータ処理装置1に入力した選択指示情報61において指定される。例えば、図40の構成が採用される場合において、比較的小さな画像サイズを持つ車両についての単位データセットを学習用データセットDSに追加したいという要望があるとする。この場合には、選択指示情報61において、車両用モデル331[1,1]を有する物体検出器30のみを動作させることを指定すれ良く、これにより、車両用モデル331[1,1]を有する物体検出器30のみが動作する。
【0312】
個別選択処理はシングルクラス構成が採用されるデータ処理装置1に特に好適であるが、マルチクラス構成が採用されるデータ処理装置1に適用されても良い。
【0313】
1つの推論ブロック20[j]に注目した場合、演算処理部2は、以下の第1選択動作及び第2選択動作を夫々に実行可能であると言える。即ち、演算処理部2は、第1選択動作において、物体検出器30[1]~30[n]におけるn個の画像認識モデルの内、全ての画像認識モデル(例えば図40の車両用モデル331[1,1]及び331[1,2])を用いて物体検出処理を行う。演算処理部2は、第2選択動作において、個別選択処理により、物体検出器30[1]~30[n]におけるn個の画像認識モデルの内、一部の画像認識モデル(例えば図40の車両用モデル331[1,1])を選択的に用いて物体検出処理を行う。個別選択処理を可能としておくことで、必要とされる物体検出器30だけを動作させることが可能となり、演算に関わるコスト(消費電力及び処理時間等)の削減が図られる。
【0314】
[実施例EX3_5]
実施例EX3_5を説明する。上述の実施例EX3_1~EX3_3では、1枚の入力画像IN[p]における1つの物体OBJに注目したが、実際には1枚の入力画像IN[p]に認識対象物体の像が複数含まれることもある。この場合には、認識対象物体ごとに実施例EX3_1~EX3_3に示す方法が実施されて良い。
【0315】
<<第4実施形態>>
本発明の第4実施形態を説明する。第4実施形態では、上述の各実施形態に対する応用技術又は補足事項等を説明する。
【0316】
データ処理装置(1又は1A)には画像認識装置が内包される。画像認識装置は、入力画像INにおける認識対象物体を認識するための推論を行う処理部(以下、便宜上、処理部PRと称する)を有する。処理部PRは演算処理部2の全部又は一部に相当する。処理部PRはクラウドコンピューティングを用いて実現されるものであっても良い。推論ブロック20[1]~20[n]により画像認識装置が構成されると考えることもできるし、1つの推論ブロック20[j]により画像認識装置が構成されると考えることもできる。上述の各実施形態では、学習用データセットDSを生成するために画像認識装置が利用されているが、画像認識装置の用途は学習用データセットDSの生成用途に限定されない。
【0317】
データ処理装置(1又は1A)には学習用データセット生成装置が内包される。データ処理装置(1又は1A)そのものが学習用データセット生成装置として機能しうる。学習用データセット生成装置は、上記画像認識装置を備え、複数の入力画像INと各入力画像INに対する推論結果データを用いて学習用データセットDSを生成する。
【0318】
本発明の各実施形態にて述べた任意の方法をコンピュータに実行させるプログラム、及び、そのプログラムを記録した記録媒体であって且つコンピュータ読み取り可能な不揮発性の記録媒体は、本発明の実施形態の範囲に含まれる。本発明の実施形態における任意の処理は、半導体集積回路等のハードウェア、上記プログラムに相当するソフトウェア、又は、ハードウェアとソフトウェアの組み合わせによって実現されて良い。
【0319】
本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。以上の実施形態は、あくまでも、本発明の実施形態の例であって、本発明ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。上述の説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。
【0320】
<<第1付記>>
上述の実施形態にて具体的構成例が示された本発明について第1付記を設ける。第1付記は特に第1実施形態に対応する。
【0321】
本発明の一側面に係る画像認識装置は(図1及び図17等参照)、入力画像(IN)における認識対象物体を認識するための推論を行う処理部(2)を有する画像認識装置であって、前記処理部は、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し(物体検出器30[1]~30[n]に対応)、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し(統合部40に対応)、前記複数の物体検出処理において互いに異なる複数の画像認識モデルが用いられ、前記処理部は、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合い(IoU)に応じて前記推論結果データを生成する構成(以下、構成WA1と称する)である。
【0322】
互いに異なる複数の画像認識モデルを用いた複数の物体検出処理の結果に基づき推論結果データを生成するようにすることで、複数の物体検出処理の結果が考慮された良好な推論結果(推論結果データ)を得ることが可能となる。この際、上記の重なり度合いを考慮することで推論結果の精度を担保することが可能となる。
【0323】
上記構成WA1に係る画像認識装置において、前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し(図4参照)、各物体検出処理は、単一種類の物体を前記認識対象物体とするシングルクラスの物体検出処理であって、前記複数の物体検出処理における前記認識対象物体の種類は互いに同じであり、前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度(SCRMAX)を特定し、前記重なり度合い(IoU)が所定の重なり閾値(IoUREF)以上であるとき(例えばS124のY;図17又は図18参照)、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する構成(以下、構成WA2と称する)であっても良い。
【0324】
重なり度合いが重なり閾値以上であるとき、各物体検出処理の結果は相応に確からしいと推測される。それらの検出結果の内、最大の信頼度に対応する物体検出データに基づき推論結果データを生成することにより、良好な推論結果(推論結果データ)を得ることが可能となる。
【0325】
上記構成WA2に係る画像認識装置において、前記重なり度合いが前記重なり閾値以上であるとき又は前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が所定の基準信頼度以上であるとき(例えばS124のY、又は、S124のNを介してS126のY;図17参照)、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する構成(以下、構成WA3と称する)であっても良い。
【0326】
重なり度合いが重なり閾値未満であっても、最大の信頼度が基準信頼度以上であれば、最大の信頼度に対応する物体検出処理の結果は相応に確からしいと推測される。故に、最大の信頼度に対応する物体検出データに基づき推論結果データを生成することにより、良好な推論結果(推論結果データ)を得ることが可能となる。
【0327】
上記構成WA3に係る画像認識装置において、前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が前記基準信頼度未満であるとき(例えばS124のNを介してS126のN;図17参照)、前記処理部は、特定データを前記推論結果データに設定する構成(以下、構成WA4と称する)であっても良い。
【0328】
重なり度合いが重なり閾値未満であって且つ最大の信頼度が基準信頼度未満であるときには、各物体検出処理の結果の確からしさは低い(誤りの可能性が高い)と推測される。このときには、最大の信頼度に対応する物体検出データに基づき推論結果データを生成するのではなく、特定データを推論結果データに設定することで、誤りの可能性が高い推論結果データの生成を抑制できる。
【0329】
上記構成WA1に係る画像認識装置において、前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し(図4参照)、各物体検出処理は、複数種類の物体を前記認識対象物体とするマルチクラスの物体検出処理であり、前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度(SCRMAX)を特定し、前記複数の物体検出処理により同一種類の物体が存在すると判断された複数の領域が前記複数の物体検出領域である場合において、前記重なり度合い(IoU)が所定の重なり閾値(IoUREF)以上であるとき(例えばS134のY;図19又は図20参照)、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する構成(以下、構成WA5と称する)であっても良い。
【0330】
複数の物体検出処理により同一種類の物体が存在すると判断された場合において、重なり度合いが重なり閾値以上であるとき、各物体検出処理の結果は相応に確からしいと推測される。それらの検出結果の内、最大の信頼度に対応する物体検出データに基づき推論結果データを生成することにより、良好な推論結果(推論結果データ)を得ることが可能となる。
【0331】
上記構成WA5に係る画像認識装置において、前記複数の物体検出処理により前記同一種類の物体が存在すると判断された前記複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値以上であるとき又は前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が所定の基準信頼度以上であるとき(例えばS134のY、又は、S134のNを介してS136のY;図19参照)、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成する構成(以下、構成WA6と称する)であっても良い。
【0332】
重なり度合いが重なり閾値未満であっても、最大の信頼度が基準信頼度以上であれば、最大の信頼度に対応する物体検出処理の結果は相応に確からしいと推測される。故に、最大の信頼度に対応する物体検出データに基づき推論結果データを生成することにより、良好な推論結果(推論結果データ)を得ることが可能となる。
【0333】
上記構成WA6に係る画像認識装置において、前記複数の物体検出処理により前記同一種類の物体が存在すると判断された前記複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が前記基準信頼度未満であるとき(例えばS134のNを介してS136のN;図19参照)、前記処理部は、特定データを前記推論結果データに設定する構成(以下、構成WA7と称する)であっても良い。
【0334】
重なり度合いが重なり閾値未満であって且つ最大の信頼度が基準信頼度未満であるときには、各物体検出処理の結果の確からしさは低い(誤りの可能性が高い)と推測される。このときには、最大の信頼度に対応する物体検出データに基づき推論結果データを生成するのではなく、特定データを推論結果データに設定することで、誤りの可能性が高い推論結果データの生成を抑制できる。
【0335】
上記構成WA1~WA7の何れかに係る画像認識装置において、前記複数の画像認識モデル間において前記認識対象物体を検出するためのアルゴリズムが互いに異なる、各画像認識モデルはニューラルネットワークにより形成され、前記複数の画像認識モデル間において前記ニューラルネットワークの構成が互いに異なる、又は、互いに異なる環境の機械学習により前記複数の画像認識モデルが形成される構成(以下、構成WA8と称する)であっても良い。
【0336】
これにより、複数の画像認識モデルは検出の特性又は性能等が異なる。
【0337】
本発明の一側面に係る学習用データセット生成装置は、上記構成WA1~WA8の何れかに係る画像認識装置を備え、複数の入力画像と各入力画像に対する前記推論結果データを用いて学習用データセット(DS)を生成する構成(以下、構成WA9と称する)である。
【0338】
良好な推論結果(推論結果データ)を用いて学習用データセットを生成することで、質の高い学習用データセットを得ることが可能となる。
【0339】
本発明の一側面に係る画像認識方法は、入力画像における認識対象物体を認識するための推論を行う画像認識方法であって、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し、前記複数の物体検出処理において互いに異なる複数の画像認識モデルが用いられ、当該画像認識方法では、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合いに応じて前記推論結果データを生成する構成(以下、構成WA10と称する)である。
【0340】
<<第2付記>>
上述の実施形態にて具体的構成例が示された本発明について第2付記を設ける。第2付記は特に第2実施形態に対応する。
【0341】
本発明の一側面に係る画像認識装置は(図24図25及び図32等参照)、入力画像(IN)における認識対象物体を認識するための推論を行う処理部(2)を有する画像認識装置であって、前記処理部は、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し(物体検出器30[1]~30[n]に対応)、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し(統合部40に対応)、前記複数の物体検出処理において互いに異なる複数の画像認識モデルが用いられ、前記処理部は、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合い(IoU)に応じて各物体検出処理の結果に対しアテンション情報を付与可能に構成される構成(以下、構成WB1と称する)である。
【0342】
互いに異なる複数の画像認識モデルを用いた複数の物体検出処理の結果に基づき推論結果データを生成するようにすることで、複数の物体検出処理の結果が考慮された良好な推論結果(推論結果データ)を得ることが可能となる。各物体検出処理の結果には誤りが含まれることもあるが、誤りが含まれるか否かは上記重なり度合いによって推測可能である。そこで、重なり度合いに応じて上記アテンション情報を付与可能とする。アテンション情報は各物体検出処理の結果に誤りが含まれる可能性を示唆するための目印となる。誤りが含まれる可能性が相対的に高いと推測される物体検出処理の結果にアテンション情報を付与することで、後にアテンション情報を頼りに人間による確認作業を行うといったことが可能となる。
【0343】
上記構成WB1に係る画像認識装置において、前記処理部は、前記重なり度合い(IoU)と所定の重なり閾値(IoUREF)との比較結果に応じて、各物体検出処理の結果に対する前記アテンション情報の付与有無を決定する構成(以下、構成WB2と称する)であっても良い。
【0344】
誤りが含まれる可能性は重なり度合いに依存すると考えられるため、重なり度合いと重なり閾値とを比較すれば、誤りが含まれる可能性の高低を推測できる。そこで、重なり度合い及び重なり閾値間の比較結果に基づき、アテンション情報の付与有無を決定する。これにより、誤りが含まれる可能性が相対的に高いと推測される物体検出処理の結果にアテンション情報を付与することができ、後にアテンション情報を頼りに人間による確認作業を行うといったことが可能となる。
【0345】
上記構成WB2に係る画像認識装置において、前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し(図4参照)、各物体検出処理は、単一種類の物体を前記認識対象物体とするシングルクラスの物体検出処理であって、前記複数の物体検出処理における前記認識対象物体の種類は互いに同じであり、前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度(SCRMAX)を特定し、前記重なり度合いが前記重なり閾値以上であるとき(例えばS224のY;図32参照)、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成し、前記重なり度合いが前記重なり閾値未満であるとき(例えばS224のN;図32参照)、前記処理部は、各物体検出処理の結果に対して前記アテンション情報を付与する構成(以下、構成WB3と称する)であっても良い。
【0346】
重なり度合いが重なり閾値以上であるとき、各物体検出処理の結果の確からしさは相対的に高いと推測される。それらの検出結果の内、最大の信頼度に対応する物体検出データに基づき推論結果データを生成することにより、良好な推論結果(推論結果データ)を得ることが可能となる。重なり度合いが重なり閾値未満であるとき、各物体検出処理の結果の確からしさは相対的に低いと推測される。重なり度合いが重なり閾値未満であるときにアテンション情報を付与することで、後にアテンション情報を頼りに人間による確認作業を行うといったことが可能となる。
【0347】
上記構成WB2に係る画像認識装置において、前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し(図4参照)、各物体検出処理は、単一種類の物体を前記認識対象物体とするシングルクラスの物体検出処理であって、前記複数の物体検出処理における前記認識対象物体の種類は互いに同じであり、前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度(SCRMAX)を特定し、前記重なり度合いが前記重なり閾値以上であるとき又は前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が所定の基準信頼度以上であるとき(例えばS224のY、又は、S224のNを介してS228のY;図33参照)、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成し、前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が前記基準信頼度未満であるとき(例えばS224のNを介してS228のN;図33参照)、前記処理部は、各物体検出処理の結果に対して前記アテンション情報を付与する構成(以下、構成WB4と称する)であっても良い。
【0348】
重なり度合いが重なり閾値以上であるとき、各物体検出処理の結果の確からしさは相対的に高いと推測される。また、重なり度合いが重なり閾値未満であっても、最大の信頼度が基準信頼度以上であれば、最大の信頼度に対応する物体検出処理の結果は相応に確からしいと推測される。故に、重なり度合いが重なり閾値以上であるとき又は重なり度合いが重なり閾値未満であって且つ最大の信頼度が所定の基準信頼度以上であるときには、最大の信頼度に対応する物体検出データに基づき推論結果データを生成する。これにより、良好な推論結果(推論結果データ)を得ることが可能となる。一方、重なり度合いが重なり閾値未満であって且つ最大の信頼度が基準信頼度未満であるときには、各物体検出処理の結果の確からしさは相対的に低いと推測される。この際には、アテンション情報を付与することで、後にアテンション情報を頼りに人間による確認作業を行うといったことが可能となる。
【0349】
上記構成WB2に係る画像認識装置において、前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し(図4参照)、各物体検出処理は、複数種類の物体を前記認識対象物体とするマルチクラスの物体検出処理であり、前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度(SCRMAX)を特定し、前記複数の物体検出処理により同一種類の物体が存在すると判断された複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値以上であるとき(例えばS244のY;図34参照)、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成し、前記複数の物体検出処理により前記同一種類の物体が存在すると判断された前記複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値未満であるとき(例えばS244のN;図34参照)、前記処理部は、各物体検出処理の結果に対して前記アテンション情報を付与する構成(以下、構成WB5と称する)であっても良い。
【0350】
複数の物体検出処理により同一種類の物体が存在すると判断された場合において、重なり度合いが重なり閾値以上であるとき、各物体検出処理の結果の確からしさは相対的に高いと推測される。それらの検出結果の内、最大の信頼度に対応する物体検出データに基づき推論結果データを生成することにより、良好な推論結果(推論結果データ)を得ることが可能となる。一方、重なり度合いが重なり閾値未満であるときには、各物体検出処理の結果の確からしさは相対的に低いと推測される。重なり度合いが重なり閾値未満であるときにアテンション情報を付与することで、後にアテンション情報を頼りに人間による確認作業を行うといったことが可能となる。
【0351】
上記構成WB2に係る画像認識装置において、前記処理部は、各物体検出処理において、前記物体検出領域内の物体の種類を示すクラスデータと前記物体検出領域の位置形状データと当該物体検出処理の結果の信頼度とを含む物体検出データを生成し(図4参照)、各物体検出処理は、複数種類の物体を前記認識対象物体とするマルチクラスの物体検出処理であり、前記処理部は、前記複数の物体検出処理にて導出される複数の信頼度の内、最大の信頼度(SCRMAX)を特定し、前記複数の物体検出処理により同一種類の物体が存在すると判断された複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが所定の重なり閾値以上であるとき又は前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が所定の基準信頼度以上であるとき(例えばS244のY、又は、S244のNを介してS248のY;図35参照)、前記処理部は、前記最大の信頼度に対応する前記物体検出データに基づき前記推論結果データを生成し、前記複数の物体検出処理により前記同一種類の物体が存在すると判断された前記複数の領域が前記複数の物体検出領域である場合において、前記重なり度合いが前記重なり閾値未満であって且つ前記最大の信頼度が前記基準信頼度未満であるとき(例えばS244のNを介してS248のN;図35参照)、前記処理部は、各物体検出処理の結果に対して前記アテンション情報を付与する構成(以下、構成WB6と称する)であっても良い。
【0352】
複数の物体検出処理により同一種類の物体が存在すると判断された場合において、重なり度合いが重なり閾値以上であるとき、各物体検出処理の結果の確からしさは相対的に高いと推測される。また、重なり度合いが重なり閾値未満であっても、最大の信頼度が基準信頼度以上であれば、最大の信頼度に対応する物体検出処理の結果は相応に確からしいと推測される。故に、重なり度合いが重なり閾値以上であるとき又は重なり度合いが重なり閾値未満であって且つ最大の信頼度が所定の基準信頼度以上であるときには、最大の信頼度に対応する物体検出データに基づき推論結果データを生成する。これにより、良好な推論結果(推論結果データ)を得ることが可能となる。一方、重なり度合いが重なり閾値未満であって且つ最大の信頼度が基準信頼度未満であるときには、各物体検出処理の結果の確からしさは相対的に低いと推測される。この際には、アテンション情報を付与することで、後にアテンション情報を頼りに人間による確認作業を行うといったことが可能となる。
【0353】
上記構成WB1~WB6の何れかに係る画像認識装置において、前記複数の画像認識モデル間において前記認識対象物体を検出するためのアルゴリズムが互いに異なる、各画像認識モデルはニューラルネットワークにより形成され、前記複数の画像認識モデル間において前記ニューラルネットワークの構成が互いに異なる、又は、互いに異なる環境の機械学習により前記複数の画像認識モデルが形成される構成(以下、構成WB7と称する)であっても良い。
【0354】
これにより、複数の画像認識モデルは検出の特性又は性能等が異なる。
【0355】
本発明の一側面に係る学習用データセット生成装置は、上記構成WB1~WA7の何れかに係る画像認識装置を備え、複数の入力画像と各入力画像に対する前記推論結果データを用いて学習用データセット(DS)を生成する構成(以下、構成WB8と称する)である。
【0356】
良好な推論結果(推論結果データ)を用いて学習用データセットを生成することで、質の高い学習用データセットを得ることが可能となる。
【0357】
上記構成WB8に係る学習用データセット生成装置において、前記アテンション情報は、各物体検出処理の結果の成否を判別者に問い合わせるための情報であり、前記学習用データセット生成装置には、前記アテンション情報による問い合わせ対応して前記判別者から回答データを取得する回答取得部(74)が設けられ、前記複数の入力画像に含まれる特定の入力画像への各物体検出処理の結果に対し前記アテンション情報が付与された場合、前記処理部は、前記特定の入力画像と前記回答データとに基づくデータセットを前記学習用データセットに含める構成(以下、構成WB9と称する)であっても良い。
【0358】
これにより、アテンション情報が付与された各物体検出処理の結果について回答データに基づくデータセットを生成することができ、質的及び量的に良好な学習用データセットを得ることができる。
【0359】
本発明の一側面に係る画像認識方法は、入力画像における認識対象物体を認識するための推論を行う画像認識方法であって、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し、前記複数の物体検出処理において互いに異なる画像認識モデルが用いられ、当該画像認識方法は、前記複数の物体検出処理にて検出された複数の物体検出領域の重なり度合いに応じて各物体検出処理の結果に対しアテンション情報を付与する工程を含む構成(以下、構成WB10と称する)である。
【0360】
<<第3付記>>
上述の実施形態にて具体的構成例が示された本発明について第3付記を設ける。第3付記は特に第3実施形態に対応する。
【0361】
本発明の一側面に係る画像認識装置は(図1図38図41等参照)、入力画像(IN)における認識対象物体を認識するための推論を行う処理部(2)を有する画像認識装置であって、前記処理部は、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し(物体検出器30[1]~30[n]に対応)、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し(統合部40に対応)、前記画像認識モデルは、特定画像サイズを持つ前記認識対象物体を検出可能なモデルであり、複数の物体検出処理で用いられる複数の画像認識モデルにおいて前記特定画像サイズは互いに異なる構成(以下、構成WC1と称する)である。
【0362】
これにより、様々な画像サイズの認識対象物体を良好な精度で認識することが可能となる。
【0363】
上記構成WC1に係る画像認識装置において、前記複数の物体検出処理の内、単一の物体検出処理のみにて前記物体検出領域が検出された場合(例えばS322のY又はS342のY;図41図42図44又は図45参照)、前記処理部は、前記単一の物体検出処理の結果に基づき前記推論結果データを生成する構成(以下、構成WC2と称する)であっても良い。
【0364】
入力画像における認識対象物体の画像サイズに適した物体検出処理(画像認識モデル)にて認識対象物体が検出されることが期待される。このため、単一の物体検出処理のみにて物体検出領域が検出された場合には(即ち単一の物体検出処理のみにて認識対象物体が検出された場合には)、単一の物体検出処理の結果に基づき推論結果データを生成すれば良く、これにより良好な推論結果データを得ることができる。
【0365】
上記構成WC1又はWC2に係る画像認識装置において、前記複数の物体検出処理の内、2以上の物体検出処理にて前記物体検出領域が検出された場合(例えばS331のY又はS350のY;図41図42図44又は図45参照)、前記処理部は、前記2以上の物体検出処理の結果に基づき前記推論結果データを生成する構成(以下、構成WC3と称する)であっても良い。
【0366】
入力画像における認識対象物体の画像サイズ等によっては、2以上の物体検出処理にて物体検出領域が検出される場合もある(即ち、2以上の物体検出処にて認識対象物体が検出されることがある)。この場合には、2以上の物体検出処理の結果に基づき推論結果データを生成することで、2以上の物体検出処理の結果が考慮された良好な推論結果(推論結果データ)を得ることができる。
【0367】
上記構成WC3に係る画像認識装置において、前記2以上の物体検出処理にて前記物体検出領域が検出された場合、前記処理部は、前記2以上の物体検出処理にて検出された2以上の物体検出領域の重なり度合い(IoU)に応じて前記推論結果データを生成する構成(以下、構成WC4と称する)であっても良い。
【0368】
各物体検出処理の結果には誤りが含まれることもあるが、誤りが含まれるか否かは上記重なり度合いによって推測可能である。重なり度合いに応じて推論結果データを生成することで推論結果の精度を担保することが可能となる。
【0369】
上記構成WC1~WC4の何れかに係る画像認識装置において、前記複数の画像認識モデルは、互い異なる環境の機械学習により形成される構成(以下、構成WC5と称する)であっても良い。
【0370】
これにより例えば、得意な検出サイズが異なる複数の画像認識モデルを形成することができる。結果、様々な画像サイズの認識対象物体を良好な精度で認識することが可能となる。
【0371】
上記構成WC1~WC5の何れかに係る画像認識装置において(図38及び図39等参照)、前記複数の画像認識モデルは第1画像認識モデル~第n画像認識モデルから成り(nは2以上の整数)、前記第1画像認識モデル~前記第n画像認識モデルは、夫々、第1特定画像サイズ~第n特定画像サイズを持つ前記認識対象物体の検出に適合する機械学習を経て得られた学習済みモデルである構成(以下、構成WC6と称する)であっても良い。
【0372】
これにより例えば、得意な検出サイズが異なる複数の画像認識モデルを形成することができる。結果、様々な画像サイズの認識対象物体を良好な精度で認識することが可能となる。
【0373】
上記構成WC6に係る画像認識装置において(図38及び図39等参照)、第i画像認識モデルは複数の第i学習用画像を用いた機械学習により得られ(iはn以下の自然数)、各第i学習用画像は前記認識対象物体の像を含み、各第i学習用画像において前記認識対象物体は第i特定画像サイズを内包する第i範囲内の画像サイズを有し、第1範囲~第n範囲は互いに異なる構成(以下、構成WC7と称する)であっても良い。
【0374】
これにより例えば、得意な検出サイズが異なる複数の画像認識モデルを形成することができる。結果、様々な画像サイズの認識対象物体を良好な精度で認識することが可能となる。
【0375】
上記構成WC7に係る画像認識装置において(図39参照)、前記第1範囲~前記第n範囲は、互いに分離した範囲である構成(以下、構成WC8と称する)であっても良い。
【0376】
これにより例えば、得意な検出サイズが異なる複数の画像認識モデルを形成することができる。結果、様々な画像サイズの認識対象物体を良好な精度で認識することが可能となる。
【0377】
本発明の一側面に係る学習用データセット生成装置は、上記構成WC1~WC8の何れかに係る画像認識装置を備え、複数の入力画像と各入力画像に対する前記推論結果データを用いて学習用データセット(DS)を生成する構成(以下、構成WC9と称する)である。
【0378】
良好な推論結果(推論結果データ)を用いて学習用データセットを生成することで、質の高い学習用データセットを得ることが可能となる。
【0379】
上記構成WC9に係る学習用データセット生成装置において(実施例EX3_4参照)、前記処理部は、第1動作及び第2動作の夫々を実行可能であり、前記処理部は、前記第1動作において、前記複数の画像認識モデルの内、全ての画像認識モデルを用いて前記物体検出処理を行い、前記第2動作において、前記複数の画像認識モデルの内、一部の画像認識モデルを選択的に用いて前記物体検出処理を行う構成(以下、構成WC10と称する)であっても良い。
【0380】
これにより、一部の画像認識モデルによる物体検出処理の結果のみを使って学習用データセットを更新するといったことが可能となる。必要な部分だけ動作させることになるため、演算に関わるコストの削減が期待される。
【0381】
本発明の一側面に係る画像認識方法は、入力画像における認識対象物体を認識するための推論を行う画像認識方法であって、前記入力画像に基づき画像認識モデルを用いて、前記入力画像内の前記認識対象物体が存在すると判断される領域を物体検出領域として検出する物体検出処理を複数実行し、複数の物体検出処理の結果に基づき前記推論の結果を表す推論結果データを生成し、前記画像認識モデルは、特定画像サイズを持つ前記認識対象物体を検出可能なモデルであり、複数の物体検出処理で用いられる複数の画像認識モデルにおいて前記特定画像サイズは互いに異なる構成(以下、構成WC11と称する)である。
【符号の説明】
【0382】
1、1A データ処理装置
2 演算処理部
3 メモリ
4 インターフェース
DB データベース
DS 学習用データセット
AD アテンションデータ群
10 画像取得部
20、20[1]~20[m] 推論ブロック
30、30[1]~30[n] 物体検出器
40 統合部
50 データ格納部
60 動作制御部
70 アテンション付与部
72 回答要求部
74 回答取得部
76 クラス照合部
DD 外部認識装置
131[1,1]、131[1,2] 車両用モデル
131[2,1]、131[2,2] 人物用モデル
231[j,1] 車両用モデル
231[j,1] 人物用モデル
3110[1]~3110[n] 学習用データセット
3120[1]~3120[n] ニューラルネットワーク
331[1]~331[n] 画像認識モデル
331[1,1]、331[1,2] 車両用モデル
331[2,1]、331[2,2] 人物用モデル
3310[1]~3310[n] 学習用データセット
3320[1]~3320[n] ニューラルネットワーク
3330[1]~3330[n] 画像認識モデル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33
図34
図35
図36
図37
図38
図39
図40
図41
図42
図43
図44
図45