2022-152023 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2022-152023特徴量データ生成装置及び方法並びに機械学習装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022152023

(43)【公開日】2022-10-12

(54)【発明の名称】特徴量データ生成装置及び方法並びに機械学習装置及び方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20221004BHJP

【ＦＩ】

G06T7/00 350C

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021054630

(22)【出願日】2021-03-29

(71)【出願人】

【識別番号】000237592

【氏名又は名称】株式会社デンソーテン

(74)【代理人】

【識別番号】110001933

【氏名又は名称】特許業務法人佐野特許事務所

(72)【発明者】

【氏名】関竜介

(72)【発明者】

【氏名】岡田康貴

(72)【発明者】

【氏名】片山雄喜

(72)【発明者】

【氏名】広見怜

(72)【発明者】

【氏名】荻島葵

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096CA04

5L096DA02

5L096EA24

5L096EA35

5L096FA16

5L096GA59

5L096HA09

5L096HA11

5L096JA11

5L096KA04

5L096KA15

(57)【要約】（修正有）

【課題】機械学習における学習時間を低減する特徴量データ生成装置及び方法並びに機械学習装置及び方法を提供する。
【解決手段】第１学習データ取得部、第１結合部、第１学習部、第２学習データ取得部、第２結合部及び第２学習部を備えるデータ処理装置において、第２学習部６０は、入力データ（ＩＮ＿Ｂ）として、各々に認識対象物体を含む複数の画像の画像データから構成される第２結合データを取得する。学習済みエンコーダ３２ａで入力データＩＮ＿Ｂを圧縮することで、複数の画像における複数の認識対象物体の各特徴量を含む圧縮データ（Ｅ＿Ｂ）を生成する。第２学習部６０では、圧縮データＥ＿Ｂをニューラルネットワーク（ＮＮ）６１への入力データとして用いてＮＮ６１の機械学習を行う。
【選択図】図９

【特許請求の範囲】

【請求項1】

各々に認識対象物体を含む複数の画像の画像データを取得する画像データ取得部と、
前記複数の画像の画像データを圧縮することで前記複数の画像における複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成部と、を備えた
、特徴量データ生成装置。

【請求項2】

前記複数の画像は、所定カメラにて時間的に連続して撮影された２以上の画像を含む
、請求項１に記載の特徴量データ生成装置。

【請求項3】

複数の第１入力画像の画像データをチャネル方向に結合することで第１結合データを生成する第１結合部と、
前記第１結合データの供給を受け、前記第１結合データを前記チャネル方向に圧縮するエンコーダ及び前記圧縮を復元するデコーダを有するオートエンコーダを学習させる第１学習部と、
複数の第２入力画像の画像データを前記チャネル方向に結合することで第２結合データを生成する第２結合部と、
前記第１学習部による学習後の前記エンコーダに前記第２結合データを入力することで当該エンコーダから出力される圧縮データを、ニューラルネットワークに入力し、これによって前記ニューラルネットワークを学習させる第２学習部と、を備える
、機械学習装置。

【請求項4】

前記第２学習部は、前記複数の第２入力画像に対応付けられた複数のラベルデータを含む教師データを用いて、前記ニューラルネットワークを学習させる
、請求項３に記載の機械学習装置。

【請求項5】

前記第２学習部は、前記ニューラルネットワークを学習させることで物体検出が可能な推論モデルを作成する
、請求項４に記載の機械学習装置。

【請求項6】

各第１入力画像及び各第２入力画像は前記物体検出における認識対象物体を含む
、請求項５に記載の機械学習装置。

【請求項7】

前記第１結合データでは、前記チャネル方向において前記複数の第１入力画像の画像データが配列され、
前記第２結合データでは、前記チャネル方向において前記複数の第２入力画像の画像データが配列され、
前記第１学習部での学習において、前記エンコーダにより、前記第１結合データのチャネル方向の次元数が削減されることで前記第１結合データが圧縮され、
前記第２学習部での学習において、前記第１学習部による学習後の前記エンコーダにより、前記第２結合データのチャネル方向の次元数が削減されることで前記第２結合データが圧縮され、これによって前記圧縮データが得られる
、請求項３～６の何れかに記載の機械学習装置。

【請求項8】

各第１入力画像の画像データ及び各第２入力画像の画像データは、複数色分の画像データを含み、
前記第１結合データでは、前記チャネル方向において各第１入力画像の前記複数色分の画像データが配列され、
前記第２結合データでは、前記チャネル方向において各第２入力画像の前記複数色分の画像データが配列される
、請求項７に記載の機械学習装置。

【請求項9】

各々に認識対象物体を含む複数の画像の画像データを取得する画像データ取得ステップと、
前記複数の画像の画像データを圧縮することで前記複数の画像における複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成ステップと、を備えた
、特徴量データ生成方法。

【請求項10】

複数の第１入力画像の画像データをチャネル方向に結合することで第１結合データを生成する第１結合ステップと、
前記第１結合データの供給を受け、前記第１結合データを前記チャネル方向に圧縮するエンコーダ及び前記圧縮を復元するデコーダを有するオートエンコーダを学習させる第１学習ステップと、
複数の第２入力画像の画像データを前記チャネル方向に結合することで第２結合データを生成する第２結合ステップと、
前記第１学習ステップによる学習後の前記エンコーダに前記第２結合データを入力することで当該エンコーダから出力される圧縮データを、ニューラルネットワークに入力し、これによって前記ニューラルネットワークを学習させる第２学習ステップと、を備える
、機械学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、特徴量データ生成装置及び方法並びに機械学習装置及び方法に関する。

【背景技術】

【0002】

画像認識用の推論モデルを学習させる際、ミニバッチ学習が多く利用される。ミニバッチ学習では、学習データを構成する複数の学習用画像の画像データを所定のミニバッチサイズを有するミニバッチを単位に分割し、ミニバッチごとに学習を行う。例えば、学習用画像の水平方向の画素数Ｗ及び垂直方向の画素数Ｈが共に１００であって且つＲＧＢ形式のカラー画像を学習用画像として用いる場合、１枚の学習用画像のデータサイズは（Ｗ×Ｈ×３）であり、３２枚の学習用画像の画像データをミニバッチのサイズ方向に結合することでミニバッチを形成する。この場合におけるミニバッチサイズは、（Ｗ×Ｈ×３×３２）である。

【0003】

そして例えば、学習データに１０２４０枚分の学習用画像が含まれているのであれば、“１０２４０／３２＝３２０”より、ミニバッチ学習を３２０回実行することで、全学習用画像に対する１回分の学習が完了することになる。即ち、イテレーション数（繰り返し回数）は３２０であり、３２０回分のミニバッチ学習が１エポックに相当する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２０－７１８０８号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

上記の方法において、１つのミニバッチに含まれる学習用画像の枚数を増大させれば、それに比例してミニバッチサイズも増大するが、１エポック当たりのミニバッチ学習の実行回数が減少する。例えば、ミニバッチサイズを（Ｗ×Ｈ×３×３２０）とすれば、ミニバッチ学習を３２回実行することで全学習用画像に対する１回分の学習が完了することになる。即ち３２回分のミニバッチ学習で１エポックが完了する。１エポック当たりのミニバッチ学習の回数を低減させることで、推論モデルの学習時間（例えば損失関数の値が所定の閾値以下になるまでに必要な時間）が短縮される可能性がある。

【0006】

しかしながら、機械学習を行う装置に搭載されるメモリの容量には制限があるため、ミニバッチサイズを無条件に増大させることはできない。１枚当たりの学習用画像のサイズにも依存するが、１ミニバッチ当たりの学習用画像の枚数は現実的には３２枚程度が上限になることが多い。このため、１ミニバッチ当たりの学習用画像の枚数が３２枚を超えて増大するのであれば、必要メモリ容量の増大に伴って装置のコストが増大してしまう。必要メモリ容量を増大させることなく学習時間を低減させることができれば有益である。

【0007】

本発明は、学習時間の低減に寄与する特徴量データ生成装置及び方法並びに機械学習装置及び方法を提供することを目的とする。

【課題を解決するための手段】

【0008】

本発明に係る特徴量データ生成装置は、各々に認識対象物体を含む複数の画像の画像データを取得する画像データ取得部と、前記複数の画像の画像データを圧縮することで前記複数の画像における複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成部と、を備えた構成（第１の構成）である。

【0009】

上記第１の構成に係る特徴量データ生成装置において、前記複数の画像は、所定カメラにて時間的に連続して撮影された２以上の画像を含む構成（第２の構成）であっても良い。

【0010】

本発明に係る機械学習装置は、複数の第１入力画像の画像データをチャネル方向に結合することで第１結合データを生成する第１結合部と、前記第１結合データの供給を受け、前記第１結合データを前記チャネル方向に圧縮するエンコーダ及び前記圧縮を復元するデコーダを有するオートエンコーダを学習させる第１学習部と、複数の第２入力画像の画像データを前記チャネル方向に結合することで第２結合データを生成する第２結合部と、前記第１学習部による学習後の前記エンコーダに前記第２結合データを入力することで当該エンコーダから出力される圧縮データを、ニューラルネットワークに入力し、これによって前記ニューラルネットワークを学習させる第２学習部と、を備える構成（第３の構成）である。

【0011】

上記第３の構成に係る機械学習装置において、前記第２学習部は、前記複数の第２入力画像に対応付けられた複数のラベルデータを含む教師データを用いて、前記ニューラルネットワークを学習させる構成（第４の構成）であっても良い。

【0012】

上記第４の構成に係る機械学習装置において、前記第２学習部は、前記ニューラルネットワークを学習させることで物体検出が可能な推論モデルを作成する構成（第５の構成）であっても良い。

【0013】

上記第５の構成に係る機械学習装置において、各第１入力画像及び各第２入力画像は前記物体検出における認識対象物体を含む構成（第６の構成）であっても良い。

【0014】

上記第３～第６の構成の何れかに係る機械学習装置において、前記第１結合データでは、前記チャネル方向において前記複数の第１入力画像の画像データが配列され、前記第２結合データでは、前記チャネル方向において前記複数の第２入力画像の画像データが配列され、前記第１学習部での学習において、前記エンコーダにより、前記第１結合データのチャネル方向の次元数が削減されることで前記第１結合データが圧縮され、前記第２学習部での学習において、前記第１学習部による学習後の前記エンコーダにより、前記第２結合データのチャネル方向の次元数が削減されることで前記第２結合データが圧縮され、これによって前記圧縮データが得られる構成（第７の構成）であっても良い。

【0015】

上記第７の構成に係る機械学習装置において、各第１入力画像の画像データ及び各第２入力画像の画像データは、複数色分の画像データを含み、前記第１結合データでは、前記チャネル方向において各第１入力画像の前記複数色分の画像データが配列され、前記第２結合データでは、前記チャネル方向において各第２入力画像の前記複数色分の画像データが配列される構成（第８の構成）であっても良い。

【0016】

本発明に係る特徴量データ生成方法は、各々に認識対象物体を含む複数の画像の画像データを取得する画像データ取得ステップと、前記複数の画像の画像データを圧縮することで前記複数の画像における複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成ステップと、を備えた構成（第９の構成）である。

【0017】

本発明に係る機械学習方法は、複数の第１入力画像の画像データをチャネル方向に結合することで第１結合データを生成する第１結合ステップと、前記第１結合データの供給を受け、前記第１結合データを前記チャネル方向に圧縮するエンコーダ及び前記圧縮を復元するデコーダを有するオートエンコーダを学習させる第１学習ステップと、複数の第２入力画像の画像データを前記チャネル方向に結合することで第２結合データを生成する第２結合ステップと、前記第１学習ステップによる学習後の前記エンコーダに前記第２結合データを入力することで当該エンコーダから出力される圧縮データを、ニューラルネットワークに入力し、これによって前記ニューラルネットワークを学習させる第２学習ステップと、を備える構成（第１０の構成）である。

【発明の効果】

【0018】

本発明によれば、データ記録に関わる利便性向上に寄与するデータ記録装置及び方法を提供することが可能となる。

【図面の簡単な説明】

【0019】

【図1】本発明の実施形態に係るデータ処理装置の構成図である。

【図2】本発明の実施形態に係る第１学習データの構成図である。

【図3】本発明の実施形態に係る第２学習データの構成図である。

【図4】本発明の実施形態に係り、１枚の入力画像と、それに対応するラベルデータを示す図である。

【図5】本発明の実施形態に係り、ＲＧＢ形式のカラー画像としての１枚の入力画像の構成図である。

【図6】本発明の実施形態に係り、第１結合データの構成図である。

【図7】本発明の実施形態に係り、オートエンコーダの構成及び動作の説明図である。

【図8】本発明の実施形態に係り、第２結合データの構成図である。

【図9】本発明の実施形態に係り、第２学習部の学習の動作説明図である。

【図10】本発明の実施形態に係り、第２学習部のニューラルネットワークへの入力データの説明図である。

【図11】本発明の実施形態に係り、教師データの内容を説明するための図である。

【図12】本発明の実施形態に係るデータ処理装置の動作フローチャートである。

【図13】本発明の実施形態に係り、データの圧縮による効果を説明するための図である。

【図14】本発明の実施形態に係る特徴量データ生成装置の構成図である。

【発明を実施するための形態】

【0020】

以下、本発明の実施形態の例を、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。尚、本明細書では、記述の簡略化上、情報、信号、物理量又は部材等を参照する記号又は符号を記すことによって、該記号又は符号に対応する情報、信号、物理量又は部材等の名称を省略又は略記することがある。例えば、後述の“４０”によって参照される第２学習データ取得部は（図１参照）、第２学習データ取得部４０と表記されることもあるし、取得部４０と略記されることもあり得るが、それらは全て同じものを指す。

【0021】

詳細は後述するが、本実施形態では、第１学習データを用いて画像に含まれる特徴量を抽出することができる学習済みエンコーダ３２ａを生成する（図９参照）。次に、学習済みエンコーダ３２ａを用いて、第２学習データから認識対象物体の特徴量を抽出したデータ（圧縮データ）を生成する。学習済みエンコーダ３２ａが第２学習データから認識対象物体の特徴量を抽出する際には、いわゆる圧縮という手法を用いる。次に、認識対象物体の特徴量を抽出したデータ（圧縮データ）を用いてＮＮ６１を学習させる。ＮＮ６１は、学習により物体検出用の推論モデルとなる。ＮＮ６１の学習には、認識対象物体の特徴量を抽出したデータ（圧縮データ）を用いるので、ＮＮ６１の学習時間の低減に寄与することができる。以下、詳細に説明する。

【0022】

図１に本実施形態に係るデータ処理装置１の構成図を示す。データ処理装置１は機械学習装置の例である。データ処理装置１は、第１学習データ取得部１０、第１結合部２０、第１学習部３０、第２学習データ取得部４０、第２結合部５０及び第２学習部６０を備える。尚、データ処理装置１は単一のコンピュータ装置にて構成されても良いし、物理的に分離した複数のコンピュータ装置にて構成されても良い。所謂クラウドコンピューティングを利用してデータ処理装置１が構成されても良い。

【0023】

第１学習データ取得部１０は、複数の画像の画像データを含む第１学習データを取得する。第１学習データを構成する各画像の画像データは第１結合部２０に入力されるため、第１学習データを構成する各画像を第１入力画像と称する。図２に示す如く、第１学習データは計Ｐ枚の第１入力画像ＩＡ［１］～ＩＡ［Ｐ］の画像データを含む。Ｐは２以上の任意の整数であり、例えば、数十～数千の値を有する。尚、第１入力画像ＩＡ［ｉ］は単に入力画像ＩＡ［ｉ］と表記されることがある。ｉは任意の整数を表す。

【0024】

第２学習データ取得部４０は、複数の画像の画像データを含む第２学習データを取得する。第２学習データを構成する各画像の画像データは第２結合部５０に入力されるため、第２学習データを構成する各画像を第２入力画像と称する。図３に示す如く、第２学習データは計Ｑ枚の第２入力画像ＩＢ［１］～ＩＢ［Ｑ］の画像データを含む。Ｑは２以上の任意の整数であり、例えば、数千～数万の値を有する。尚、第２入力画像ＩＢ［ｉ］は単に入力画像ＩＢ［ｉ］と表記されることがある。本実施形態では、第１学習データが有する画像の枚数よりも第２学習データが有する画像の枚数の方が大きい。即ち“Ｐ＜Ｑ”が成立する。

【0025】

尚、第１入力画像又は第２入力画像などの任意の画像は、当該画像の画像データと、その他のデータ（以下、付加データと称する）と、を含む。任意の画像はカメラにて撮影された画像であって良く、或る画像についての付加データは、当該画像のうちの、画像データではないデータを含み、更に当該画像の撮影時刻を表す撮影時刻情報を含む。

【0026】

後に述べられるが、データ処理装置１では、第２学習部６０の学習を経て推論モデル（アルゴリズム）が作成され、当該推論モデルは画像認識として物体検出を行うことができる。物体検出では、認識の対象となる画像内の物体の位置を特定する位置特定と、認識の対象となる画像内の物体のクラス（種別）を特定するクラス識別と、が行われる。各第１入力画像及び各第２入力画像は認識の対象となる物体を１以上含む。本実施形態において物体とは、物体検出における画像認識の対象となる認識対象物体を指す。一部の第１入力画像に認識対象物体が含まれないことがあり得る。同様に、一部の第２入力画像に認識対象物体が含まれないことがあり得る。また、１以上の第１入力画像には認識対象物体以外の物が含まれることがある。同様に、１以上の第２入力画像には認識対象物体以外の物が含まれることがある。

【0027】

尚、本実施形態では、或る画像内に物体の画像データが含まれることを、当該画像に当該物体が含まれる又は存在すると表現することがある。同様に、或る画像中の注目した画像領域（例えば後述の物体領域）内に物体の画像データが含まれることを、注目した画像領域に物体が含まれる又は存在すると表現することがある。

【0028】

第２学習データは第２入力画像ごとにラベルデータを含む。第２学習データにおいて、第２入力画像ＩＢ［ｉ］に対応付けられたラベルデータを記号“ＬＢ［ｉ］”にて参照する。ラベルデータＬＢ［ｉ］は、第２入力画像ＩＢ［ｉ］に含まれる物体ごとに、物体の位置を特定する位置情報及び物体のクラスを特定するクラス情報を含む。

【0029】

図４に入力画像６１０を示す。入力画像６１０は第２入力画像ＩＢ［ｉ］の例である。図４の入力画像６１０には３つの物体６１１～６１３が含まれる。物体６１１、６１２、６１３は、夫々、車両、人間、信号機であって、何れも認識対象物体であるとする。ここでは、車両、人間、信号機は、第１、第２、第３クラスに分類されるものとし、推論モデルは、第１～第３クラスを含む複数のクラスの物体に対して物体検出を行うことができるものとする。尚、ここでは、車両として道路上を走行可能な自動車を想定する。

【0030】

図４の入力画像６１０に対し、物体６１１の像を取り囲む物体領域６１１Ｂ、物体６１２の像を取り囲む物体領域６１２Ｂ、及び、物体６１３の像を取り囲む物体領域６１３Ｂが設定される。或る物体の物体領域は、当該物体の像を取り囲む矩形領域（望ましくは最小の矩形領域）であって、バウンディングボックスとも称される。

【0031】

図４の入力画像６１０に対応するラベル情報６２０は、物体６１１についての位置情報ＰＯＳ_６１１及びクラス情報ＣＬＳ_６１１と、物体６１２についての位置情報ＰＯＳ_６１２及びクラス情報ＣＬＳ_６１２と、物体６１３についての位置情報ＰＯＳ_６１３及びクラス情報ＣＬＳ_６１３と、を含む。入力画像６１０が第２入力画像ＩＢ［ｉ］であればラベル情報６２０はラベル情報ＬＢ［ｉ］である。位置情報ＰＯＳ_６１１、ＰＯＳ_６１２、ＰＯＳ_６１３は、夫々、入力画像６１０における物体領域６１１Ｂの位置、物体領域６１２Ｂの位置、物体領域６１３Ｂの位置を表す。詳細には、物体領域６１１Ｂとしての矩形領域における一つの対角線の２端点の座標値（図４の座標値（ｘ_１，ｙ_１）及び（ｘ_２，ｙ_２）に相当）が、位置情報ＰＯＳ_６１１にて規定される。他の位置情報も同様である。クラス情報ＣＬＳ_６１１、ＣＬＳ_６１２、ＣＬＳ_６１３は、夫々、物体６１１が属するクラス、物体６１２が属するクラス、物体６１３が属するクラスを表す。図４の例では、クラス情報ＣＬＳ_６１１、ＣＬＳ_６１２、ＣＬＳ_６１３は、夫々、車両が属する第１クラス、人間が属する第２クラス、信号機が属する第３クラスを表す。

【0032】

例えば、自動車等の車両に搭載されたカメラの撮影画像の中から第１入力画像ＩＡ［１］～ＩＡ［Ｐ］及び第２入力画像ＩＢ［１］～ＩＢ［Ｑ］が選ばれて良い。第１入力画像ＩＡ［１］～ＩＡ［Ｐ］と第２入力画像ＩＢ［１］～ＩＢ［Ｑ］とが部分的に重複することもあり得る。

【0033】

第１学習データ取得部１０は自らが第１学習データを作成する機能ブロックであっても良いし、データ処理装置１と異なる外部装置（不図示）から有線又は無線通信を通じ、予め作成された第１学習データの入力を受けるものであっても良い。同様に、第２学習データ取得部４０は自らが第２学習データを作成する機能ブロックであっても良いし、データ処理装置１と異なる外部装置（不図示）から有線又は無線通信を通じ、予め作成された第２学習データの入力を受けるものであっても良い。

【0034】

各第１入力画像及び各第２入力画像は水平方向及び垂直方向に大きさを持つ二次元の静止画像である。１以上の第１入力画像は動画像のフレームであっても良い。同様に、１以上の第２入力画像は動画像のフレームであっても良い。各第１入力画像及び各第２入力画像における水平方向の画素数をＷで表し、各第１入力画像及び各第２入力画像における垂直方向の画素数をＨで表す。そうすると、各第１入力画像及び各第２入力画像は（Ｗ×Ｈ）個の画素から成る。また、第１入力画像及び第２入力画像はＲＧＢ形式で表現されるカラー画像であるとする。つまり、第１入力画像の各画素及び第２入力画像の各画素は、赤の信号成分を表すＲ信号、緑の信号成分を表すＧ信号及び青の信号成分を表すＢ信号を有するものとする。

【0035】

そうすると、任意の１枚の第１入力画像である又は任意の１枚の第２入力画像である入力画像６５０は、図５に示す如く、（Ｗ×Ｈ）個の画素から成り且つＲ信号のみを色信号として有する赤濃淡画像６５０Ｒと、（Ｗ×Ｈ）個の画素から成り且つＧ信号のみを色信号として有する緑濃淡画像６５０Ｇと、（Ｗ×Ｈ）個の画素から成り且つＢ信号のみを色信号として有する青濃淡画像６５０Ｂと、で構成されると考えることができる、画像６５０Ｒ、６５０Ｇ及び６５０Ｂは、上記水平方向及び垂直方向の何れとも異なるチャネル方向に配列される。入力画像６５０の画像データを構成する色信号の種類数を“Ｃ”で表す。ここでは、“Ｃ＝３”である。

【0036】

図１を再度参照し、第１結合部２０は、第１入力画像ＩＡ［１］～ＩＡ［Ｐ］を、所定のミニバッチサイズを有するミニバッチを単位に分割する。そして、第１結合部２０は、ミニバッチごとに、当該ミニバッチに属する複数の第１入力画像をチャネル方向に結合することで第１結合データを生成する。ここではミニバッチサイズは、第１入力画像のＮ枚分のデータサイズであるとする。Ｎは２以上の任意の整数であり、例えば“Ｎ＝３２”である。第１入力画像ＩＡ［１］～ＩＡ［Ｐ］から（Ｐ／Ｎ）個分の第１結合データが形成される。（Ｐ／Ｎ）は２以上の任意の整数である。

【0037】

図６に、第１結合部２０にて生成される１つの第１結合データ（即ち１つのミニバッチの構造）を示す。図６に示される第１結合データは、入力画像ＩＡ［ｉ］～ＩＡ［ｉ＋Ｎ］の画像データから構成され、チャネル方向において入力画像ＩＡ［ｉ］～ＩＡ［ｉ＋Ｎ］の画像データが配列される。入力画像ＩＡ［ｉ］～ＩＡ［ｉ＋Ｎ］の各々はチャネル方向に配列された赤濃淡画像、緑濃淡画像及び青濃淡画像にて構成される。故に、第１結合データにおいては、チャネル方向に、入力画像ＩＡ［ｉ］の複数色分の画像データ（赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ）、入力画像ＩＡ［ｉ＋１］の複数色分の画像データ（赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ）、・・・、及び、入力画像ＩＡ［ｉ＋Ｎ］の複数色分の画像データ（赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ）が配列される。

【0038】

このため、第１結合データは、各々が（Ｈ×Ｗ）個の単色画素から成る単色の二次元画像を（Ｃ×Ｎ）枚分、チャネル方向に沿って配列したものに相当する。第１結合データは（Ｗ×Ｈ×Ｃ×Ｎ）個の単色画素分のデータ量を持つことになる。第１結合データにおいて、チャネル数は（Ｃ×Ｎ）であり、故にチャネル方向の次元数は（Ｃ×Ｎ）である。

【0039】

図１を再度参照し、第１学習部３０はニューラルネットワーク３１（以下、ＮＮ３１と称する）を有し、第１学習データを用いてＮＮ３１の機械学習を行う。この際、ミニバッチを単位にＮＮ３１の機械学習を行う。即ち、第１学習データに基づく（Ｐ／Ｎ）個の第１結合データを順次ＮＮ３１への入力データとして用いて、ミニバッチを単位にＮＮ３１の機械学習を行う（ミニバッチ学習を行う）。第１学習部３０における機械学習は深層学習に分類されるものであって良く、従ってＮＮ３１はディープニューラルネットワークであって良い。第１学習部３０における機械学習は教師なし学習であり、ＮＮ３１によりオートエンコーダが形成される。即ち、第１学習部３０ではオートエンコーダを学習させる（換言すればＮＮ３１を学習させることでオートエンコーダを作成する）。

【0040】

図７にオートエンコーダの構成を示す。オートエンコーダを形成するＮＮ３１はエンコーダ３２及びデコーダ３３を備える。ここにおけるオートエンコーダの種類は任意であり、例えば、変分オートエンコーダ（ＶＡＥ）又は畳み込みオートエンコーダ（ＣＡＥ）であって良い。第１結合データが入力データＩＮ＿Ａとしてエンコーダ３２に入力され、エンコーダ３２は入力データＩＮ＿Ａを圧縮することで圧縮データＥ＿Ａを生成する。デコーダ３３は圧縮データＥ＿Ａを復元することで（つまり、エンコーダ３２による圧縮を復元することで）出力データＯＵＴ＿Ａを得る。第１学習部３０における機械学習では、出力データＯＵＴ＿Ａが入力データＩＮ＿Ａと一致するように、ＮＮ３１の各パラメータ（バイアス及び重み）を調整する。

【0041】

この際、入力データＩＮ＿Ａ（従って第１結合データ）がチャネル方向に圧縮されるようにエンコーダ３２を設計し、圧縮データＥ＿Ａがチャネル方向に復元されるようにデコーダ３３を設計しておく。つまり、エンコーダ３２による圧縮はチャネル方向の次元削減に相当し、エンコーダ３２にて入力データＩＮ＿Ａ（従って第１結合データ）のチャネル方向の次元数を“（Ｃ×Ｎ）”から“Ｊ”に削減する。換言すれば、入力データＩＮ＿Ａ（従って第１結合データ）のチャネル方向の次元数は“（Ｃ×Ｎ）”であって、エンコーダ３２にて入力データＩＮ＿Ａの次元削減をチャネル方向に行うことで、チャネル方向の次元数が“Ｊ”の圧縮データＥ＿Ａを得る。エンコーダ３２にて、チャネル数が“（Ｃ×Ｎ）”から“Ｊ”に削減されると考えることもできる。

【0042】

“Ｃ×Ｎ＞Ｊ”である。例えば“（Ｃ，Ｎ，Ｊ）＝（３，３２，３）”であれば、エンコーダ３２にて、入力データＩＮ＿Ａ（従って第１結合データ）のチャネル方向の次元数が９６次元から３次元に削減されることになり、この場合、“３／（３×３２）＝１／３２”より、圧縮データＥ＿Ａのデータサイズは入力データＩＮ＿Ａのデータサイズの１／３２となる。

【0043】

オートエンコーダとして機能するＮＮ３１の訓練誤差（損失関数の値）が所定値以下になるまで第１学習部３０はＮＮ３１の機械学習を行う。この機械学習の完了後のエンコーダ３２を、以下、特に学習済みエンコーダ３２ａと称する（図９参照）。

【0044】

図１を再度参照し、第２結合部５０は、第２入力画像ＩＢ［１］～ＩＢ［Ｑ］を、所定のミニバッチサイズを有するミニバッチを単位に分割する。第２結合部５０におけるミニバッチサイズは第１結合部２０におけるミニバッチサイズと同じである。故に、第２結合部５０におけるミニバッチサイズは、第２入力画像のＮ枚分のデータサイズである（例えば“Ｎ＝３２”）。そして、第２結合部５０は、ミニバッチごとに、当該ミニバッチに属する複数の第２入力画像をチャネル方向に結合することで第２結合データを生成する。第２入力画像ＩＢ［１］～ＩＢ［Ｑ］から（Ｑ／Ｎ）個分の第２結合データが形成される。（Ｑ／Ｎ）は２以上の任意の整数であり、例えば、数百～数千の値を持つ。

【0045】

図８に、第２結合部５０にて生成される１つの第２結合データ（即ち１つのミニバッチの構造）を示す。第２結合データの構造は第１結合データの構造と同様である。即ち、図８に示される第２結合データは、入力画像ＩＢ［ｉ］～ＩＢ［ｉ＋Ｎ］の画像データから構成され、チャネル方向において入力画像ＩＢ［ｉ］～ＩＢ［ｉ＋Ｎ］の画像データが配列される。入力画像ＩＢ［ｉ］～ＩＢ［ｉ＋Ｎ］の各々はチャネル方向に配列された赤濃淡画像、緑濃淡画像及び青濃淡画像にて構成される。故に、第２結合データにおいては、チャネル方向に、入力画像ＩＢ［ｉ］の複数色分の画像データ（赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ）、入力画像ＩＢ［ｉ＋１］の複数色分の画像データ（赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ）、・・・、及び、入力画像ＩＢ［ｉ＋Ｎ］の複数色分の画像データ（赤濃淡画像、緑濃淡画像及び青濃淡画像の画像データ）が配列される。

【0046】

このため、第２結合データは、各々が（Ｈ×Ｗ）個の単色画素から成る単色の二次元画像を（Ｃ×Ｎ）枚分、チャネル方向に沿って配列したものに相当する。第２結合データは（Ｗ×Ｈ×Ｃ×Ｎ）個の単色画素分のデータ量を持つことになる。第２結合データにおいて、チャネル数は（Ｃ×Ｎ）であり、故にチャネル方向の次元数は（Ｃ×Ｎ）である。

【0047】

図１を再度参照し、第２学習部６０はニューラルネットワーク６１（以下、ＮＮ６１と称する）を有し、第２学習データを用いてＮＮ６１の機械学習を行う。第２学習部６０における機械学習は深層学習に分類されるものであって良く、従ってＮＮ６１はディープニューラルネットワークであって良い。第２学習部６０における機械学習は教師あり学習であり、ＮＮ６１により物体検出用の推論モデルが形成される。即ち、第２学習部６０では物体検出用の推論モデルを学習させる（換言すればＮＮ６１を学習させることで物体検出が可能な推論モデルを作成する）。

【0048】

図９を参照して第２学習部６０による機械学習を説明する。第２学習部６０による機械学習には上述の学習済みエンコーダ３２ａが利用される。第２結合データが入力データＩＮ＿Ｂとして学習済みエンコーダ３２ａに入力され、学習済みエンコーダ３２ａは入力データＩＮ＿Ｂを圧縮することで圧縮データＥ＿Ｂを生成する。学習済みエンコーダ３２ａによる圧縮では、入力データＩＮ＿Ｂ（従って第２結合データ）のチャネル方向の次元数を“（Ｃ×Ｎ）”から“Ｊ”に削減する。換言すれば、入力データＩＮ＿Ｂ（従って第２結合データ）のチャネル方向の次元数は“（Ｃ×Ｎ）”であって、学習済みエンコーダ３２ａにて入力データＩＮ＿Ｂの次元削減をチャネル方向に行うことで、チャネル方向の次元数が“Ｊ”の圧縮データＥ＿Ｂを得る。学習済みエンコーダ３２ａにて、チャネル数が“（Ｃ×Ｎ）”から“Ｊ”に削減されると考えることもできる。

【0049】

第２入力画像ＩＢ［１］～ＩＢ［Ｑ］に基づく複数の第２結合データを順次、入力データＩＮ＿Ｂとして学習済みエンコーダ３２ａに入力することで、当該複数の第２結合データに基づく複数の圧縮データＥ＿Ｂが得られる。

【0050】

第２学習部６０では、圧縮データＥ＿ＢをＮＮ６１への入力データとして用いてＮＮ６１の機械学習を行う。この際、ミニバッチを単位にＮＮ６１の機械学習を行う（即ちミニバッチ学習を行う）。ＮＮ６１の機械学習におけるミニバッチサイズと、ＮＮ３１の機械学習におけるミニバッチサイズとが異なっていても良いが、ここでは、それらが同じであるとする。そうすると、ＮＮ６１の機械学習におけるミニバッチサイズは第２入力画像のＮ枚分のデータサイズであり、第２入力画像のＮ枚分のデータサイズは（Ｗ×Ｈ×Ｃ×Ｎ）である。

【0051】

図１０に、ＮＮ６１への入力データが生成されるまでの流れの概要を示す。図１０において、データＤＴａは、Ｎ枚の第２入力画像の画像データの組を“（Ｃ×Ｎ）／Ｊ”組分含む。データＤＴｂは、“（Ｃ×Ｎ）／Ｊ”個の入力データＩＮ＿Ｂ、即ち“（Ｃ×Ｎ）／Ｊ”個の第２結合データから成る。データＤＴｃは、データＤＴｂに基づく“（Ｃ×Ｎ）／Ｊ”個の圧縮データＥ＿Ｂから成る。

【0052】

データＤＴａが第２結合部５０に入力されることでデータＤＴｂが得られる。即ち、Ｎ枚の第２入力画像の画像データの組が、“（Ｃ×Ｎ）／Ｊ”組分、順次、第２結合部５０に入力されることで、第２結合部５０から“（Ｃ×Ｎ）／Ｊ”個の第２結合データが出力される。各々の第２結合データのデータサイズは（Ｗ×Ｈ×Ｃ×Ｎ）である。故に、データＤＴｂのデータサイズは“（Ｗ×Ｈ×Ｃ×Ｎ）×（Ｃ×Ｎ）／Ｊ”である。データＤＴａのデータサイズも同様である。

【0053】

各々の第２結合データが入力データＩＮ＿Ｂとして学習済みエンコーダ３２ａに入力されることで第２結合データごとに圧縮データＥ＿Ｂが生成され、結果、“（Ｃ×Ｎ）／Ｊ”個の圧縮データＥ＿Ｂから成るデータＤＴｃが得られる。学習済みエンコーダ３２ａにおいてチャネル方向の次元数が“（Ｃ×Ｎ）”から“Ｊ”に削減されるので、１つの圧縮データＥ＿Ｂのデータサイズは（Ｗ×Ｈ×Ｊ）である。故に、データＤＴｃのデータサイズ）は、（Ｗ×Ｈ×Ｃ×Ｎ）である。

【0054】

（Ｗ×Ｈ×Ｃ×Ｎ）のデータサイズ分の圧縮データＥ＿Ｂを、１回あたりのミニバッチ学習のデータとしてＮＮ６１に入力する。これは、ＮＮ６１の１回あたりのミニバッチ学習において、“Ｎ×（Ｃ×Ｎ）／Ｊ”枚分の入力画像の情報をＮＮ６１に入力することに相当する。例えば、“（Ｃ，Ｎ，Ｊ）＝（３，３２，３）”且つ“Ｑ＝１０２４０”が成立する数値例では、１回のミニバッチ学習において、３２^２枚分の入力画像の情報がＮＮ６１に入力されることになる。そうすると、“１０２４０／３２^２＝１０”より、ＮＮ６１のミニバッチ学習を１０回行うことで、第２学習データを構成する全ての第２入力画像を利用した１回分の学習が完了することになる（即ちイテレーション数は１０となる）。

【0055】

Ｎ枚の第２入力画像の画像データそのものをＮＮ６１に入力する仮想ケースでは、第２学習データを構成する全ての第２入力画像を利用した１回分の学習を完了させるために、上記数値例においてＮＮ６１のミニバッチ学習を３２０回行う必要があり、データ処理装置１との比較において学習時間が長くなる。

【0056】

第２学習部６０におけるＮＮ６１の機械学習において、ＮＮ６１はミニバッチサイズを有する圧縮データＥ＿Ｂに基づき出力データＯＵＴ＿Ｂを生成する（図９参照）。第２学習部６０は、ミニバッチごとに（ミニバッチ学習ごとに）出力データＯＵＴ＿Ｂと教師データとの誤差に相当する損失関数の値を導出し、損失関数の値が低減されるよう、誤差逆伝搬法を用いてＮＮ６１のパラメータ（重み及びバイアス）を調整する。損失関数の値が所定の閾値以下になるまでＮＮ６１の機械学習（即ち物体検出用の推論モデルの機械学習）が行われる。

【0057】

ＮＮ６１のミニバッチ学習において、教師データは、当該ミニバッチ学習に用いる全ての第２入力画像に対するラベルデータにより構成される。例えば、或るミニバッチ学習において、上記データＤＴａ（図１０参照）が第２入力画像ＩＢ［１］～ＩＢ［１０２４］の画像データにて構成されるのでれば、当該ミニバッチ学習における教師データはラベルデータＬＢ［１］～ＬＢ［１０２４］により構成される。即ち例えば、データＤＴａに第２入力画像ＩＢ［１］及びＩＢ［２］の画像データが含まれているのであれば、図１１に示す如く、それらに対応するラベルデータＬＢ［１］及びＬＢ［２］の和が、データＤＴａに対応する教師データに含められる（図１１ではラベルデータＬＢ［１］及びＬＢ［２］の情報のみ図示）。

【0058】

推論モデルとして機能すべきＮＮ６１は、データＤＴａを用いた機械学習の中で、データＤＴａを構成する各入力画像中の物体の位置特定及びクラス識別を行い、位置特定及びクラス識別の結果を出力データＯＵＴ＿Ｂとして出力する。この出力データＯＵＴ＿ＢがデータＤＴａに対応する教師データと比較されることで損失関数の値が導出される。

【0059】

図１２にデータ処理装置１の動作フローチャートを示す。まずステップＳ１において、第１学習データ取得部１０により第１学習データが取得される。次にステップＳ２において、第１結合部２０により第１学習データに基づき第１結合データが生成される。次にステップＳ３において、第１学習部３０により第１結合データに基づいてオートエンコーダを学習させ（即ちＮＮ３１を学習させ）、これによって学習済みエンコーダ３２ａを作成する。次にステップＳ４において第２学習データ取得部４０により第２学習データが取得される。尚、第２学習データの取得のタイミングはステップＳ５よりも前であれば任意である。

【0060】

第２学習データの取得後、ステップＳ５において、第２結合部５０により第２学習データに基づき第２結合データが生成される。この際、上述の教師データも作成される。教師データの作成主体は第２結合部５０であっても良いし、第２学習部６０であっても良い。その後、ステップＳ６において、第２結合データを学習済みエンコーダ３２ａに入力することで圧縮データ（Ｅ＿Ｂ）を生成し、生成した圧縮データ（Ｅ＿Ｂ）に基づき第２学習部６０にて物体検出用の推論モデルを学習させる（換言すればＮＮ６１を学習させることで物体検出用の推論モデルを作成する）。

【0061】

本実施形態では、上述の如く学習データ（第２学習データ）を圧縮することで第２学習部６０における１ミニバッチ当たりのデータの情報量を増やすことができる。即ち、Ｎ枚の第２入力画像の画像データそのものをＮＮ６１に入力する仮想ケースと比べて、第２学習部６０における１ミニバッチ当たりのデータの情報量が“（Ｃ×Ｎ）／Ｊ”倍に増大する（例えば３２倍に増大する）。このため、仮想ケースとの比較において、第２学習部６０における学習時間（例えばＮＮ６１による推論モデルの損失関数の値が所定の閾値以下になるまでに必要な時間）を短縮することが可能となる。見方を変えて、学習時間を一定とみなした場合には、必要メモリ容量を小さくすることもできる。

【0062】

図１３に“（Ｃ×Ｎ）／Ｊ＝３×３２／３＝３２”である場合におけるデータサイズの圧縮効果等を示す。図１３の数値例では、学習済みエンコーダ３２ａを用いることで入力データＩＮ＿Ｂのデータサイズ（データ量）が１／３２に圧縮されて圧縮データＥ＿Ｂが得られる。このため、ＮＮ６１へ入力されるデータの単位データ量あたりの学習時間が一定であるとみなしたならば、ＮＮ６１の学習時間は仮想ケースと比べて１／３２に短縮される。また、ＮＮ６１の学習におけるイテレーション数も、仮想ケースで必要なイテレーション数の１／３２に低減する。他方、本実施形態に係るＮＮ６１の学習時間を仮想ケースに係る学習時間と同じにする場合にあっては必要メモリ容量を仮想ケースの１／３２にまで縮小することが可能である。

【0063】

各第１入力画像には推論モデルの認識対象物体が含まれるため、オートエンコーダでは、第１結合データ（ＩＮ＿Ａ）から各第１入力画像の認識対象物体の特徴量が抽出されて圧縮データＥ＿Ａに含められる。つまり、認識対象物体を含む入力画像から認識対象物体の特徴量が抽出されるようオートエンコーダの学習が進んで学習済みエンコーダ３２ａが構成される。故に、認識対象物体を含む第２入力画像に基づく第２結合データ（ＩＮ＿Ｂ）を学習済みエンコーダ３２ａに入力すれば、学習済みエンコーダ３２ａにて各第２入力画像中の認識対象物体の特徴量が抽出されて圧縮データＥ＿Ｂに含められる。この圧縮データＥ＿Ｂを推論モデル（ＮＮ６１）に入力することで、学習時間の短縮化に寄与する効率的な学習が可能となる。

【0064】

認識対象物体の特徴量の観点からデータ処理装置１の機能を検討したとき、データ処理装置１は、図１４の特徴量データ生成装置２として機能する又は特徴量データ生成装置２を含む、と考えることができる。特徴量データ生成装置２は、各々に認識対象物体を含む複数の画像ＩＩを取得する画像データ取得部２Ａと、複数の画像ＩＩの画像データを圧縮することで複数の画像ＩＩにおける複数の認識対象物体の各特徴量を含む特徴量データを生成する特徴量データ生成部２Ｂと、を備えている。取得部２Ａ及び２Ｂに関わる複数の画像ＩＩは複数の第２入力画像に相当する。取得部２Ａは図１の取得部４０に相当し、生成部２Ｂは図１の結合部５０と図９の学習済みエンコーダ３２ａを含む機能ブロックに相当する。生成部２Ｂにて生成される特徴量データは圧縮データＥ＿Ｂに相当する。

【0065】

つまり、特徴量データ生成装置２は、各々に認識対象物体を含む複数の第２入力画像を取得し、複数の第２入力画像における複数の認識対象物体の各特徴量を含む特徴量データ（ＥＮ＿Ｂ）を生成する。この特徴量データを用いて物体検出用の推論モデル（ＮＮ６１）を学習させれば、学習時間の短縮化に寄与する効率的な学習が可能となる。

【0066】

ここで、上記の複数の画像ＩＩは、所定カメラ（不図示）にて時間的に連続して撮影された２以上の画像を含んでいると良い。即ち、第２入力画像ＩＢ［１］～ＩＢ［Ｑ］の内、少なくとも一部は、所定カメラにて時間的に連続して撮影された２以上の画像であって良い。所定カメラは、自身の撮影領域内の様子（被写体）を撮影し、撮影された画像であるカメラ画像の画像データを生成する。この際、所定カメラは所定のフレームレートで周期的に撮影を行う。そうすると、所定カメラにより、フレームレートの逆数の間隔で時系列上に並ぶ複数のカメラ画像が取得される。この時系列上に並ぶ複数のカメラ画像（以下、カメラ画像列と称する）が、所定カメラにて時間的に連続して撮影された２以上の画像に相当する。

【0067】

所定カメラは一定の場所に固定された定点カメラであって良い。この場合、カメラ画像列においてカメラ画像中の風景（認識対象物体以外の部分）は殆ど変化せず、認識対象物体としての車両や人間のみがカメラ画像列の中で動くと期待される。そうすると、エンコーダ３２（学習済みエンコーダ３２ａ）による圧縮作用が高まって、認識対象物体の特徴量を効率的に抽出することが可能となり、ひいては推論モデル（ＮＮ６１）の効率的な学習が促進される。所定カメラは車両等の移動体に搭載されたカメラであっても良い。

【0068】

画像データ取得部２Ａは、所定カメラにて撮影された画像の集まりの中から、所定カメラにて撮影された各画像の付加データに含まれる撮影時刻情報に基づいて、上記時間的に連続して撮影された２以上の画像を抽出して良い。例えば、所定カメラにて撮影された画像に第１撮影画像及び第２撮影画像が含まれている場合において、第１撮影画像の撮影時刻及び第２撮影画像の撮影時刻間の時間差が所定時間以下であるとき、第１及び第２撮影画像は時間的に連続して撮影された２枚の画像として抽出されて良い。

【0069】

上述の構成に対する補足事項、応用技術又は変形技術等を以下に示す。

【0070】

各第１入力画像及び各第２入力画像はモノクロ画像（色情報を持たない濃淡画像）であっても構わない。この場合には“Ｃ＝１”となる。

【0071】

エンコーダ３２（学習済みエンコーダ３２ａを含む）は、入力データ（ＩＮ＿Ａ又はＩＮ＿Ｂ）をチャネル方向に圧縮するが、この際、入力画像の水平方向又は垂直方向に入力データが圧縮されることがあっても良い。

【0072】

データ処理装置１は、ハードウェアとして、演算処理装置であるＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＲＯＭ（Read only memory）及びＲＡＭ（Random access memory）等を備える。データ処理装置１は、ＲＯＭに格納されたプログラム又は他の装置から通信を通じて取得されたプログラムをＣＰＵにて実行することにより、図１に示す各部位の機能を実現して良く、故に図１２のステップＳ１～Ｓ６の各処理を実現して良い。

【0073】

データ処理装置１にて作成された推論モデルを車載装置（不図示）に適用しても良い。車載装置は自動車等の車両に搭載される電子機器の一種である。この場合、第２学習部６０によるＮＮ６１の機械学習を経てＮＮ６１により形成される推論モデルを車載装置に適用すると良い。そして、車載装置にて推論モデルによる物体検出を行わせ、推論結果を車両で実施され得る自動運転又は運転支援等に利用して良い。

【0074】

尚、データ処理装置１自体が車載装置であっても構わない。車両（例えば放送中継車）によっては、豊富な計算資源を有する車載装置が設置されることもあり、この場合においては特にデータ処理装置１自体を車載装置とすることも可能である。

【0075】

また、データ処理装置１により実行される処理の一部又は全部は、ソフトウェアおよびハードウェアの混在処理により実現しても良い。前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本実施形態の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体は、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリである。

【0076】

本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。以上の実施形態は、あくまでも、本発明の実施形態の例であって、本発明ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。上述の説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。

【符号の説明】

【0077】

１データ処理装置
２特徴量データ生成装置
２Ａ画像データ取得部
２Ｂ特徴量データ生成部
１０第１学習データ取得部
２０第１結合部
３０第１学習部
３１ニューラルネットワーク（オートエンコーダ）
３２エンコーダ
３３デコーダ
４０第２学習データ取得部
５０第２結合部
６０第２学習部
６１ニューラルネットワーク（推論モデル）

【図1】