特許7416284 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7416284学習装置、学習方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-09

(45)【発行日】2024-01-17

(54)【発明の名称】学習装置、学習方法、及び、プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240110BHJP

G06V 10/774 20220101ALI20240110BHJP

【ＦＩ】

G06T7/00 350B

G06V10/774

【請求項の数】 12

(21)【出願番号】P 2022570816

(86)(22)【出願日】2020-12-22

(86)【国際出願番号】 JP2020047928

(87)【国際公開番号】W WO2022137337

(87)【国際公開日】2022-06-30

【審査請求日】2023-06-12

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】並木重哲

(72)【発明者】

【氏名】谷内田尚司

(72)【発明者】

【氏名】細井利憲

【審査官】真木健彦

(56)【参考文献】

【文献】国際公開第２０１９／１０２９６２（ＷＯ，Ａ１）

【文献】特開２０１６－１１０６３５（ＪＰ，Ａ）

【文献】石井雅人，特徴変換と重み付けを併用したドメイン適応，人工知能学会第３０回（２０１６）全国大会論文集，日本，一般社団法人人工知能学会，2016年06月06日，P.1-4，特に「１．はじめに」、「２．提案手法」、図１～３

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｔ１／００

Ｇ０６Ｖ１０／７７４

Ｇ０６Ｎ３／００

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

ソースドメインデータ及びターゲットドメインデータを取得するデータ取得手段と、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行う位置合わせ手段と、
前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出する特徴抽出手段と、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類する分類手段と、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う学習手段と、
を備える学習装置。

【請求項2】

前記位置合わせ手段は、入力された画像データを前記基準角度の画像データに変換するための変換パラメータを推定する変換パラメータ推定手段と、
前記変換パラメータを用いて前記入力された画像データを変換する変換手段と、
を備える請求項１に記載の学習装置。

【請求項3】

前記変換パラメータ推定手段は、特定クラスのソースドメインデータを異なる条件でレンダリングして生成した画像群と、前記特定クラスのソースドメインデータを前記基準角度でレンダリングして生成した基準画像とを用いて学習済みである請求項２に記載の学習装置。

【請求項4】

前記変換パラメータ推定手段は、前記変換パラメータを用いて変換された前記画像群と、前記基準画像との誤差を最小化するように学習済みである請求項３に記載の学習装置。

【請求項5】

前記位置合わせ手段は、入力された画像特徴を前記基準角度の画像に由来する画像特徴に変換するための変換パラメータを推定する変換パラメータ推定手段と、
前記変換パラメータを用いて前記入力された画像特徴を変換する変換手段と、
を備える請求項１に記載の学習装置。

【請求項6】

前記変換パラメータ推定手段は、特定クラスのソースドメインデータを異なる条件でレンダリングして生成した画像群に由来する画像特徴と、前記特定クラスのソースドメインデータを前記基準角度でレンダリングして生成した基準画像に由来する画像特徴とを用いて学習済みである請求項５に記載の学習装置。

【請求項7】

前記変換パラメータ推定手段は、前記変換パラメータを用いて変換された前記画像群に由来する画像特徴と、前記基準画像に由来する画像特徴との誤差を最小化するように学習される請求項６に記載の学習装置。

【請求項8】

前記画像群を生成するレンダリングは、画像中の物体に対する視線の角度の変更、前記画像中の前記物体の奥行方向の距離の変更、前記物体の平行移動、前記物体の色の付加又は変更、前記物体の模様の付加又は変更、前記物体に対する照明の付加、前記物体の背景の付加、及び、ノイズの付加のうちの少なくとも１つを含む請求項３、４、６又は７に記載の学習装置。

【請求項9】

前記特徴抽出手段は、入力された画像データから複数の画像特徴を抽出し、前記複数の画像特徴の相関を前記局所特徴として出力する請求項１乃至８のいずれか一項に記載の学習装置。

【請求項10】

前記学習手段は、前記クラスの分類結果と正解ラベルとの誤差を最小化し、かつ、同一クラスの前記ソースドメインデータの局所特徴と前記ターゲットドメインデータの局所特徴とが近くなり、異なるクラスの前記ソースドメインデータの局所特徴と前記ターゲットドメインデータの局所特徴とが遠くなるように前記特徴抽出手段の学習を行う請求項１乃至９のいずれか一項に記載の学習装置。

【請求項11】

コンピュータにより実行される学習方法であって、
ソースドメインデータ及びターゲットドメインデータを取得し、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行い、
特徴抽出手段を用いて、前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う学習方法。

【請求項12】

ソースドメインデータ及びターゲットドメインデータを取得し、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行い、
特徴抽出手段を用いて、前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う処理をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習を用いた画像分類の技術に関する。

【背景技術】

【0002】

画像認識などに用いる機械学習のモデルを学習する際、十分な数の教師データが得られない場合、データ拡張により教師データを増量することが行われる。特許文献１、２は、データ拡張方法の例を記載している。また、特許文献３は、認識の対象となる特定のクラスの学習データが他のクラスと比べて少ない場合に、そのクラスの学習データを複製する手法を記載している。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－０２８８７６号公報

【文献】特開２０１８－１０６２１６号公報

【文献】特開２０１３－１６１２９８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

画像分類において、対象物の種類などを分類する問題として詳細分類問題がある。詳細分類問題は、もともと似たカテゴリを分類する問題であり、例えば、犬の画像から犬種を判定したり、花の画像から花の種類を判定したり、車の画像から車種を判定する問題である。詳細分類問題においては、カテゴリ内の分散が大きく、かつ、カテゴリ間の分散が小さい場合、分類が非常に難しくなる。このため、画像全体から局所特徴を抽出し、局所特徴に着目して分類を行う手法が提案されている。しかし、詳細分類問題においては、局所特徴を用いて分類を行うため、単純にデータ拡張により学習データを増量することができないという課題がある。

【0005】

本発明の１つの目的は、詳細分類を行うモデルの精度を向上させることが可能な学習装置を提供することにある。

【課題を解決するための手段】

【0006】

本発明の一つの観点では、学習装置は、
ソースドメインデータ及びターゲットドメインデータを取得するデータ取得手段と、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行う位置合わせ手段と、
前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出する特徴抽出手段と、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類する分類手段と、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う学習手段と、を備える。

【0007】

本発明の他の観点では、コンピュータにより実行される学習方法は、
ソースドメインデータ及びターゲットドメインデータを取得し、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行い、
特徴抽出手段を用いて、前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う。

【0008】

本発明のさらに他の観点では、プログラムは、
ソースドメインデータ及びターゲットドメインデータを取得し、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行い、
特徴抽出手段を用いて、前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う処理をコンピュータに実行させる。

【発明の効果】

【0009】

本発明によれば、詳細分類を行うモデルの精度を向上させることが可能な学習装置を提供することが可能となる。

【図面の簡単な説明】

【0010】

【図1】第１実施形態に係る学習装置の概略構成を示す。

【図2】第１実施形態に係る学習装置のハードウェア構成を示すブロック図である。

【図3】第１実施形態に係る学習装置の機能構成を示すブロック図である。

【図4】位置合わせ部の学習時の構成を示すブロック図である。

【図5】変換パラメータ推定部の学習処理のフローチャートである。

【図6】詳細分類モデルの学習処理のフローチャートである。

【図7】第１実施形態に係る分類器の機能構成を示すブロック図である。

【図8】第２実施形態に係る学習装置の機能構成を示すブロック図である。

【図9】位置合わせ部の学習時の構成を示すブロック図である。

【図10】変換パラメータ推定部の学習処理のフローチャートである。

【図11】詳細分類モデルの学習処理のフローチャートである。

【図12】第２実施形態に係る分類器の機能構成を示すブロック図である。

【図13】第３実施形態に係る学習装置の機能構成を示すブロック図である。

【図14】第３実施形態による学習処理のフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本発明の好適な実施形態について説明する。
＜原理説明＞
ある領域（ドメイン）において機械学習モデルの学習に使用する教師データが不足する場合にモデルの性能を向上させる手法としてドメイン適応が用いられる。ドメイン適応とは、豊富なデータが得られるソースドメインのデータを利用して、データが不足しているターゲットドメインにおけるモデルを学習する手法である。ドメイン適応では、ターゲットドメインとソースドメインの特徴量のデータ分布をなるべく一致させるように近づけることにより、ソースドメインのデータやラベル情報を利用して、ターゲットドメインで使用するモデルを学習する。これにより、ターゲットドメインの教師データ数が十分でない場合でも、ターゲットドメインで使用するモデルの性能を向上させることができる。

【0012】

詳細分類を行う場合にも、基本的に上記のドメイン適応を利用して、ターゲットドメインにおけるデータ不足を補うことができる。しかし、詳細分類においては前述のように画像から抽出した局所特徴を用いて分類を行うため、ソースドメインとソースドメインとの間で局所特徴の対応付けを行う必要がある。

【0013】

具体例として、車について実写画像は得られにくいが、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）画像は豊富に得られる場合、ＣＧドメインをソースドメインとし、実写ドメインをターゲットドメインとしてドメイン適応を行う。この際、実写ドメインで得られた局所特徴とＣＧドメインで得られた局所特徴の対応付けが必要となる。例えば、車種に関する詳細分類を行う場合、画像からは各車種における特徴的な箇所が局所特徴として抽出される。仮に、局所特徴として、「ヘッドランプ」、「サイドミラー」などが抽出されたとする。この場合、ドメイン適応を行うにあたっては、実写ドメインで得られた局所特徴とＣＧドメインで得られた局所特徴を対応付けして学習を行う必要がある。より具体的には、実写ドメインで得られたヘッドランプの局所特徴とＣＧドメインで得られたヘッドランプの局所特徴を用いてドメイン適応による学習を行い、同様に実写ドメインで得られたサイドミラーの局所特徴とＣＧドメインで得られたサイドミラーの局所特徴を用いてドメイン適応による学習を行う必要がある。このため、各ドメインで得られた局所特徴同士を対応付けする必要がある。

【0014】

また、各ドメインにおいて得られる画像においては、撮影の角度や方向などが一致していないことが多い。例えば、車の画像の場合、車の前方部分の画像、後方部分の画像、側方部分の画像などが混ざっていることがある。また、同じ車の前方部分の画像においても、撮影の角度はまちまちであることが多い。よって、実写ドメインで得られた局所特徴とＣＧドメインで得られた局所特徴を対応付けする場合に、撮影の角度や方向などを合わせる必要がある。

【0015】

以上の観点より、本実施形態では、異なるドメイン、即ち、実写ドメインとＣＧドメインで得られた局所特徴が示す対象物や位置、その撮影角度などを一致させるための位置合わせを行った上で、ドメイン適応を利用した学習を行う。これにより、局所特徴の位置が規格化され、データ拡張及びドメイン適応が可能となる。

【0016】

＜第１実施形態＞
［学習装置］
次に、第１実施形態の学習装置について説明する。
（全体構成）
図１は、第１実施形態の学習装置の概略構成を示す。学習装置１００は、詳細分類を行う詳細分類モデルを学習する装置であり、ターゲットドメインデータベース（以下、「データベース」を「ＤＢ」と記す。）２と、ソースドメインＤＢ３とに接続される。ターゲットドメインＤＢ２は、ターゲットドメインの教師データであるターゲットドメインデータを記憶している。ソースドメインＤＢ３は、ソースドメインの教師データであるソースドメインデータを記憶している。本実施形態では、ターゲットドメインデータ及びソースドメインデータは画像データとする。なお、教師データは、画像認識などを行う機械学習モデルの学習に使用されるデータであり、学習用画像データと、その学習用画像データに対する正解ラベル（教師ラベル）とを含む。

【0017】

学習装置１００は、ターゲットドメインの画像データの詳細分類を行う詳細分類モデルを学習する。具体的に、学習装置１００は、ターゲットドメインデータとソースドメインデータに対して位置合わせを行い、位置合わせ後のデータから抽出された局所特徴を用いて詳細分類モデルを学習する。

【0018】

（ハードウェア構成）
図２は、学習装置１００のハードウェア構成を示すブロック図である。図示のように、学習装置１００は、インタフェース（以下、「ＩＦ」と記す。）１１と、プロセッサ１２と、メモリ１３と、記録媒体１４と、データベース（ＤＢ）１５とを備える。

【0019】

ＩＦ１１は、外部装置との間でデータの入出力を行う。具体的に、ターゲットドメインＤＢ２及びソースドメインＤＢ３に記憶されている教師データは、ＩＦ１１を介して学習装置１００に入力される。

【0020】

プロセッサ１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、学習装置１００の全体を制御する。具体的に、プロセッサ１２は、後述する学習処理を実行する。

【0021】

メモリ１３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１３は、プロセッサ１２による各種の処理の実行中に作業メモリとしても使用される。

【0022】

記録媒体１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習装置１００に対して着脱可能に構成される。記録媒体１４は、プロセッサ１２が実行する各種のプログラムを記録している。学習装置１００が各種の処理を実行する際には、記録媒体１４に記録されているプログラムがメモリ１３にロードされ、プロセッサ１２により実行される。

【0023】

データベース１５は、ＩＦ１１を通じてターゲットドメインＤＢ２やソースドメインＤＢ３から入力されたデータを一時的に記憶する。なお、学習装置１００は、使用者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。

【0024】

（機能構成）
図３は、第１実施形態に係る学習装置１００の機能構成を示すブロック図である。図示のように、学習装置１００は、ターゲットドメインデータ取得部１１１と、ソースドメインデータ取得部１２１と、位置合わせ部１１２、１２２と、特徴抽出部１１３、１１４、１２３、１２４と、局所特徴抽出部１１５、１２５と、特徴識別部１３１と、ドメイン適応部１３２とを備える。

【0025】

ターゲットドメインデータ取得部１１１は、ターゲットドメインＤＢ２からターゲットドメインの画像データを取得し、位置合わせ部１１２へ出力する。位置合わせ部１１２は、入力されたターゲットドメインの画像データの位置合わせを行う。ここで、「位置合わせ」とは、画像データに含まれる物体に対する撮影の視線の角度又は方向を所定の基準角度又は基準方向に一致させるように画像データを変換することをいう。例えば、基準角度を物体の正面角度とすると、位置合わせ部１１２は、入力された画像データを正面角度から見た画像データに変換する。斜め上方、斜め下方、左右方向などの様々な方向から物体を写した画像データが入力された場合でも、位置合わせ部１１２はそれらの画像を正面角度の画像データに変換する。なお、位置合わせ部１１２については後に詳しく説明する。位置合わせ部１１２は、変換後のターゲットドメインの画像データを特徴抽出部１１３、１１４に出力する。

【0026】

特徴抽出部１１３、１１４は、入力されたターゲットドメインの画像データからそれぞれ特徴抽出を行い、抽出した特徴を局所特徴抽出部１１５へ出力する。特徴抽出部１１３、１１４は、例えばＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などのニューラルネットワークにより構成される。特徴抽出部１１３、１１４を構成するＣＮＮにはそれぞれ異なるパラメータが設定され、個々のパラメータに基づいて入力画像から特徴を抽出する。特徴抽出部１１３、１１４を構成するＣＮＮは、ＢｉｌｉｎｅａｒＣＮＮを構成している。

【0027】

局所特徴抽出部１１５は、特徴抽出部１１３、１１４から出力された特徴同士の相関を算出し、局所特徴として特徴識別部１３１及びドメイン適応部１３２へ出力する。

【0028】

一方、ソースドメインＤＢ３から取得されたソースドメインデータについても、基本的に上記のターゲットドメインデータに対する処理と同様の処理が行われる。即ち、ソースドメインデータ取得部１２１は、ソースドメインＤＢ３からソースドメインの画像データを取得し、位置合わせ部１２２へ出力する。位置合わせ部１２２は、入力された画像データを基準角度の画像データに変換する位置合わせを行い、特徴抽出部１２３、１２４へ出力する。

【0029】

特徴抽出部１２３、１２４は、特徴抽出部１１３、１１４と同一構成のニューラルネットワークにより構成され、パラメータを共有している。具体的には、特徴抽出部１１３と１２３を構成するニューラルネットワークには同一のパラメータが設定されており、特徴抽出部１１４と１２４を構成するニューラルネットワークには同一のパラメータが設定されている。特徴抽出部１２３、１２４は、位置合わせ後の画像データからそれぞれ特徴抽出を行い、局所特徴抽出部１２５へ出力する。局所特徴抽出部１２５は、各特徴抽出部１２３、１２４が抽出した特徴の相関を算出して局所特徴を生成し、特徴識別部１３１及びドメイン適応部１３２へ出力する。

【0030】

特徴識別部１３１は、各ターゲットドメインデータについて、抽出された局所特徴量に基づいてクラス分類を行い、識別結果をそのデータに対応する正解ラベルと比較して誤差を算出する。そして、特徴識別部１１６は、算出された誤差を最小化するように、特徴抽出部１１３、１１４を構成するニューラルネットワークのパラメータを最適化する。最適化されたパラメータは、特徴抽出部１２３、１２４と共有される。なお、局所特徴抽出部１１５がニューラルネットワークなどにより構成されている場合には、特徴識別部１１６は、同時に局所特徴抽出部１１５を構成するニューラルネットワークのパラメータも最適化する。

【0031】

ドメイン適応部１３２は、局所特徴抽出部１１５、１２５から入力された各ドメインの画像データの局所特徴に基づき、２つのドメイン由来のデータの特徴量データ分布を近づけるように、特徴抽出部１２３、１２４を構成するニューラルネットワークのパラメータを最適化する。最適化されたパラメータは、特徴抽出部１１３、１１４と共有される。なお、局所特徴抽出部１２５がニューラルネットワークなどにより構成されている場合には、ドメイン適応部１３２は、同時に局所特徴抽出部１２５を構成するニューラルネットワークのパラメータも最適化する。こうして、特徴抽出部１１３、１１４、１２３、１２４のパラメータは、特徴識別部１３１によるクラス分類が正しく行われ、かつ、２つのドメインのデータの特徴量データ分布が近づくように最適化される。

【0032】

そして、所定の学習終了条件が満たされたときに学習装置１００による学習は終了し、そのときの特徴抽出部１１３、１１４のパラメータが、学習済みの詳細分類モデルのパラメータとして得られる。

【0033】

（位置合わせ部）
次に、位置合わせ部について詳しく説明する。図４は、位置合わせ部１１２の学習時の構成を示すブロック図である。位置合わせ部１１２は、変換パラメータ推定部１４３と、変換器１４４とを備える。位置合わせ部１１２は、ソースドメインデータを用いて学習される。前述の車種分類の例では、豊富な画像を用意できるＣＧドメインがソースドメインとして使用される。

【0034】

まず、ＣＧドメインであるソースドメインの画像データに基づいて、ある特定クラスについて様々な条件でレンダリングされた画像群（以下、「特定クラス画像群」とも呼ぶ。）１４１が生成される。特定クラスは、前述の車種分類の例では、ある特定の車種である。特定クラス画像群１４１としては、特定クラスの元画像において物体を視認する角度、即ち、視点から物体を見る視線の角度（以下、「視線角度」とも呼ぶ。）又は物体を見る方向（以下、「視線方向」とも呼ぶ。）を様々に変化させた画像が生成される。本実施形態では、ＣＧドメインをソースドメインとしているので、ＧＣ画像のレンダリングにより任意の視線角度の画像を生成することができる。

【0035】

また、特定クラス画像群１４１としては、元画像において視点と物体との距離、即ち、画像中の物体の奥行方向の距離を変化させた画像を生成してもよい。また、元画像における物体の位置を画像の領域内で上下左右、斜め方向などに平行移動した画像を生成してもよい。さらには、元画像に対して様々な摂動を加えた画像を生成してもよい。この場合の摂動としては、例えば、画像中の物体の色の付加又は変更、物体の模様の付加又は変更、物体に対する照明の付加、画像中の物体の背景の付加、ノイズの付加などのうちの１つ又は複数を用いることができる。

【0036】

また、ソースドメインの画像データに基づいて、特定クラスの基準画像（以下、「特定クラス基準画像」と呼ぶ。）１４２が生成される。特定クラス基準画像は、特定クラス、即ち、特定クラス画像群１４１と同一のクラスの物体についての、予め決められた基準となる視線角度（以下、「基準角度」と呼ぶ。）又は基準となる視線方向（以下、「基準方向」と呼ぶ。）の画像である。前述の車種分類の例において、基準角度を車両の正面角度と仮定すると、特定クラス基準画像は、特定クラスに対応する車種の車両の正面角度の画像となる。なお、基準角度は、詳細分類を行う際に着目すべき物体の位置や部分に基づいて決定される。例えば、詳細分類の対象となる物体の特徴が側部や後部にある場合には、特定クラス基準画像はその物体を側方や後方から見た画像となる。こうして得られた特定クラス画像群１４１及び特定クラス基準画像１４２は、教師データとして変換パラメータ推定部１４３の学習に用いられる。

【0037】

変換パラメータ推定部１４３は、様々な視線角度の画像を基準角度の画像に変換するためのパラメータを推定する。変換パラメータ推定部１４３は、例えば、様々な角度の画像を正面角度などの基準角度の画像に射影するアフィン変換などを行うニューラルネットワークにより構成することができる。変換パラメータ推定部１４３は、上記の特定クラス画像群１４１を入力データとして用い、特定クラス基準画像１４２を正解ラベルとして用いて学習される。こうして学習された変換パラメータ推定部１４３は、様々な角度から撮影され、かつ、物体が様々な色や模様を有し、様々な背景やノイズが含まれる画像を、基準角度の画像に変換するための変換パラメータを出力可能となる。

【0038】

変換パラメータ推定部１４３により推定された変換パラメータは、射影変換器などの変換器１４４に設定される。これにより、様々な視線角度の画像を基準角度の画像に変換することが可能な位置合わせ部１１２が得られる。

【0039】

実際の動作時には、位置合わせ部１１２に画像データが入力されると、変換パラメータ推定部１４３は、入力画像を基準角度の画像に変換するための変換パラメータを算出し、変換器１４４に設定する。変換器１４４は、設定された変換パラメータに基づいて、入力画像を射影変換し、変換後の画像を位置合わせ後の画像として特徴抽出部１１３、１１４へ出力する。即ち、変換パラメータ推定部１４３は、入力画像毎に変換パラメータの推定を行い、得られた変換パラメータを変換器１４４に設定する。

【0040】

位置合わせ部１２２は、位置合わせ部１１２と同様に構成される。即ち、上記の学習方法で学習された変換パラメータ推定部１４３及び変換器１４４を、位置合わせ部１１２及び１２２として使用することができる。

【0041】

位置合わせ部１１２を実写ドメインであるターゲットドメインに適用することで、実写ドメインにおいても基準角度に変換した画像を得ることができる。特に上記のようにＣＧドメインの画像データに対して様々な摂動を加えて特定クラス画像群１４１を生成し、変換パラメータ推定部１４３の学習を行うことで一定のドメイン適応効果が得られるので、位置合わせ部１１２を実写ドメインに適用した場合でも、クラス分類を行うのに十分な性能の変換器１４４を得ることができる。

【0042】

なお、画像の位置合わせは、本来は物体の３次元構造を推定し、３次元の剛体変換（回転・並進変換）を行った上で、２次元画像に戻すという処理が必要である。しかし、車両のフロント画像など、角度の変動が一定以下という前提があれば、３次元の剛体変換の代わりに、近似的に上記のように射影変換を用いることができる。これにより、変換パラメータ推定部１４３の学習を単純化することができる。特にＣＮＮはある程度の位置不変性があるので、厳密な変換をしなくてもよいと考えられる。

【0043】

次に、変換パラメータ推定部１４３の学習処理について説明する。図５は、変換パラメータ推定部１４３の学習処理のフローチャートである。まず、教師データの準備として、ＣＧドメインであるソースドメインの画像データを用いて、特定クラス基準画像１４２が用意され（ステップＳ１１１）、さらに特定クラス画像群１４１が用意される（ステップＳ１１２）。次に、変換パラメータ推定部１４３は、特定クラス画像群１４１を射影変換する（ステップＳ１１３）。次に、射影変換後の特定クラス画像群１４１と、特定クラス基準画像１４２との誤差を最小化するように、変換パラメータ推定部１４３の学習が行われる（ステップＳ１１４）。具体的には、上記の誤差を最小化するように、変換パラメータ推定部１４３を構成するニューラルネットワークのパラメータが更新される。そして、所定の終了条件が具備されたとき、変換パラメータ推定部１４３の学習処理は終了する。こうして、変換パラメータ推定部１４３は、様々な視線角度の入力画像を基準角度の画像に変換するためのパラメータを推定できるようになる。

【0044】

なお、図４の例では、位置合わせ部１１２、１２２を変換パラメータ推定部１４３と変換器１４４により構成しているが、その代わりに、射影変換を行う１つのニューラルネットワークとして構成してもよい。この場合には、その１つのニューラルネットワークが入力画像に対して適切な変換パラメータを算出し、その変換パラメータを用いて射影変換した後の画像を生成して出力する。

【0045】

（詳細分類モデルの学習処理）
次に、学習装置１００による詳細分類モデルの学習処理について説明する。図６は、詳細分類モデルの学習処理のフローチャートである。この処理は、図２に示すプロセッサ１２が予め用意されたプログラムを実行し、図３に示す各要素として動作することにより実現される。

【0046】

まず、ターゲットドメインデータ取得部１１１はターゲットドメインＤＢ２からターゲットドメインの画像データを取得し（ステップＳ１２０）、位置合わせ部１１２は入力された画像データを基準角度に位置合わせする（ステップＳ１２１）。具体的には、位置合わせ部１１２は、入力された画像データを基準角度の画像データに変換し、特徴抽出部１１３、１１４に出力する。

【0047】

次に、各特徴抽出部１１３、１１４は、入力された画像データから特徴を抽出し、局所特徴抽出部１１５へ出力する（ステップＳ１２２）。局所特徴抽出部１１５は、各特徴抽出部１１３、１１４から入力された特徴同士の相関を算出し、局所特徴として特徴識別部１３１及びドメイン適応部１３２へ出力する（ステップＳ１２３）。

【0048】

同様に、ソースドメインデータ取得部１２１はソースドメインＤＢ３からソースドメインの画像データを取得し（ステップＳ１２４）、位置合わせ部１２２は入力された画像データを基準角度に位置合わせする（ステップＳ１２５）。具体的には、位置合わせ部１２２は、入力された画像データを基準角度の画像データに変換し、特徴抽出部１２３、１２４に出力する。

【0049】

次に、各特徴抽出部１２３、１２４は、入力されたソースドメインの画像データから特徴を抽出し、局所特徴抽出部１２５へ出力する（ステップＳ１２６）。局所特徴抽出部１２５は、各特徴抽出部１２３、１２４から入力された特徴同士の相関を算出し、局所特徴として特徴識別部１３１及びドメイン適応部１３２へ出力する（ステップＳ１２７）。

【0050】

次に、特徴識別部１３１は、局所特徴抽出部１１５、１２５から入力された局所特徴に基づいて画像データのクラス分類を行い、分類結果と正解ラベルとの誤差に基づいて特徴抽出部１１３、１１４の学習を行う（ステップＳ１２８）。具体的には、特徴識別部１３１は、分類結果と正解ラベルとの誤差を最小化するように、特徴抽出部１１３、１１４を構成するニューラルネットワークのパラメータを更新する。

【0051】

また、ドメイン適応部１３２は、局所特徴抽出部１１５、１２５から入力された局所特徴に基づいてドメイン適応を行う（ステップＳ１２９）。具体的には、ドメイン適応部１３２は、同一クラスについてはターゲットドメインデータとソースドメインデータから抽出された局所特徴が近づき、異なるクラスについてはターゲットドメインデータとソースドメインデータから抽出された局所特徴が遠ざかるように、特徴抽出部１２３、１２４を構成するニューラルネットワークのパラメータを更新する。そして、所定の学習終了条件が具備されたときに学習処理は終了する。

【0052】

［推論装置］
次に、学習済みの詳細分類モデルを用いた推論装置である分類器について説明する。図７は、第１実施形態に係る分類器の機能構成を示すブロック図である。なお、分類器のハードウェア構成は、図２と同様である。

【0053】

分類器１００ｘは、ターゲットドメインデータ取得部１１１と、位置合わせ部１１２と、特徴抽出部１１３、１１４と、局所特徴抽出部１１５と、特徴識別部１３１とを備える。これらの各構成要素は、基本的に図３と同様に構成される。但し、特徴抽出部１１３、１１４は、上述の学習処理により学習済みのニューラルネットワークを使用する。

【0054】

分類器１００ｘは、ターゲットドメインの画像データを取得し、詳細分類を行う。具体的に、ターゲットドメインデータ取得部１１は、ターゲットドメインＤＢ２から画像データを取得し、位置合わせ部１１２へ出力する。位置合わせ部１１２は、入力された画像データの位置合わせを行い、基準角度の画像データを特徴抽出部１１３、１１４へ出力する。特徴抽出部１１３、１１４は、入力された画像データから特徴を抽出し、局所特徴抽出部１１５へ出力する。局所特徴抽出部１１５は、特徴抽出部１１３、１１４から入力された特徴の相関を算出して局所特徴を生成し、特徴識別部１３１へ出力する。特徴識別部１３１は、入力された局所特徴に基づいて、画像データのクラス分類を行い、クラス分類結果を出力する。

【0055】

＜第２実施形態＞
上記の第１実施形態では、位置合わせ部１１２、１２２は、画像データに対して位置合わせを行っている。これに対し、第２実施形態では、位置合わせ部は画像データから抽出された局所特徴に対して位置合わせを行う。なお、第２実施形態に係る学習装置２００の全体構成及びハードウェア構成は、図１及び図２に示す第１実施形態の全体構成及びハードウェア構成と同様であるので、説明を省略する。

【0056】

（機能構成）
図８は、第２実施形態に係る学習装置２００の機能構成を示すブロック図である。図示のように、学習装置２００は、ターゲットドメインデータ取得部２１１と、ソースドメインデータ取得部２２１と、特徴抽出部２１３、２１４、２２３、２２４と、局所特徴抽出部２１５、２２５と、位置合わせ部２１２、２２２と、特徴識別部２３１と、ドメイン適応部２３２とを備える。

【0057】

図３と比較すると理解されるように、第２実施形態では、位置合わせ部２１２、２２２が、局所特徴抽出部２１５、２２５の後段に配置されている。よって、学習装置２００では、位置合わせ部２１２は、局所特徴抽出部２１５が抽出した局所特徴を基準角度の局所特徴に変換する位置合わせを行う。同様に、位置合わせ部２２２は、局所特徴抽出部２２５が抽出した局所特徴を基準角度の局所特徴に変換する位置合わせを行う。この点以外は、第２実施形態の学習装置２００の各構成要素は、第１実施形態の学習装置１００の対応する構成要素と同様である。

【0058】

（位置合わせ部）
次に、位置合わせ部について詳しく説明する。図９は、位置合わせ部２１２の学習時の構成を示すブロック図である。位置合わせ部２１２は、変換パラメータ推定部２４３と、変換器２４４とを備える。位置合わせ部２１２は、ソースドメインデータを用いて学習される。

【0059】

図４と比較すると理解されるように、第２実施形態の位置合わせ部２１２の学習時の構成は、第１実施形態の位置合わせ部１１２の学習時の構成に加えて、特徴抽出部２４５、２４６を備える。特徴抽出部２４５、２４６は、例えばＢｉｌｉｎｅａｒＣＮＮなどにより構成され、ソースドメインであるＣＧドメインのデータを用いて予め学習される。これにより、特徴抽出部２４５、２４６は、ＣＧドメインにおいて局所特徴に着目してクラス分類を行うための特徴抽出を行うネットワークとして構成される。

【0060】

第２実施形態においても、位置合わせ部２１２を構成する変換パラメータ推定部２４３の学習のために、教師データとして特定クラス画像群１４１と特定クラス基準画像１４２とが用意される。特定クラス画像群１４１は特徴抽出部２４５へ入力され、特定クラス基準画像１４２は特徴抽出部２４６へ入力される。特徴抽出部２４５は、入力された特定クラス画像群１４１の各々から特徴抽出を行い、抽出した特徴を変換パラメータ推定部２４３へ出力する。特徴抽出部２４６は、入力された特定クラス基準画像１４２から特徴抽出を行い、抽出した特徴を変換パラメータ推定部２４３へ出力する。

【0061】

変換パラメータ推定部２４３は、様々な視線角度の画像を基準角度の画像に変換するためのパラメータを推定する。変換パラメータ推定部２４３は、例えば、様々な角度の画像の特徴を正面角度などの基準角度の画像の特徴に射影するアフィン変換などを行うニューラルネットワークにより構成することができる。ここで、第２実施形態では、変換パラメータ推定部２４３は、上記の特定クラス画像群１４１から抽出された特徴を入力データとして用い、特定クラス基準画像１４２から抽出された特徴を正解ラベルとして用いて学習される。こうして学習された変換パラメータ推定部２４３は、様々なレンダリングにより得られた画像に由来する特徴を、基準角度の画像に由来する特徴に変換するための変換パラメータを出力できるようになる。

【0062】

変換パラメータ推定部２４３により推定された変換パラメータは、射影変換器などの変換器２４４に設定される。こうして、様々な画像から抽出された特徴を、基準角度の画像に由来する特徴に変換することが可能な位置合わせ部２１２が得られる。なお、位置合わせ部２２２としては、位置合わせ部２１２と同一のものが使用される。

【0063】

なお、実際の動作時には、位置合わせ部２１２に局所特徴抽出部２１５から局所特徴が入力されると、変換パラメータ推定部２４３は、入力された局所特徴を基準角度の画像に由来する特徴に変換するための変換パラメータを算出し、変換器２４４に設定する。変換器２４４は、設定された変換パラメータに基づいて入力された局所特徴を射影変換し、変換後の局所特徴を特徴識別部２３１及びドメイン適応部２３２へ出力する。即ち、変換パラメータ推定部２４３は、入力された局所特徴毎に変換パラメータの推定を行い、得られた変換パラメータを変換器２４４に設定する。なお、位置合わせ部２２２も同様に動作する。

【0064】

次に、変換パラメータ推定部２４３の学習処理について説明する。図１０は、変換パラメータ推定部の学習処理のフローチャートである。まず、教師データの準備として、ＣＧドメインであるソースドメインの画像データを用いて、特定クラス基準画像１４２が用意される（ステップＳ２１１）。特徴抽出部２４６は、特定クラス基準画像１４２から特徴を抽出し、変換パラメータ推定部２４３へ出力する（ステップＳ２１２）。また、ソースドメインの画像データを用いて特定クラス画像群１４１が用意される（ステップＳ２１３）。特徴抽出部２４６は、特定クラス画像群１４１から特徴を抽出し、変換パラメータ推定部２４３へ出力する（ステップＳ２１４）。

【0065】

次に、変換パラメータ推定部２４３は、特定クラス画像群１４１に由来する特徴を射影変換する（ステップＳ２１５）。次に、射影変換後の特定クラス画像群１４１に由来する特徴と、特定クラス基準画像１４２に由来する特徴との誤差を最小化するように、変換パラメータ推定部２４３の学習が行われる（ステップＳ２１６）。具体的には、上記の誤差を最小化するように、変換パラメータ推定部２４３を構成するニューラルネットワークのパラメータが更新される。そして、所定の終了条件が具備されたとき、変換パラメータ推定部２４３の学習処理は終了する。こうして、変換パラメータ推定部２４３は、様々な視線角度の入力画像に由来する特徴を、基準角度の画像に由来する特徴に変換するためのパラメータを推定できるようになる。

【0066】

なお、図９の例では、位置合わせ部２１２、２２２を変換パラメータ推定部２４３と変換器２４４により構成しているが、その代わりに、射影変換を行う１つのニューラルネットワークとして構成してもよい。この場合には、その１つのニューラルネットワークが入力された局所特徴に対して適切な変換パラメータを算出し、その変換パラメータを用いて射影変換した後の局所特徴を生成して出力する。

【0067】

（詳細分類モデルの学習処理）
次に、詳細分類モデルの学習装置２００による学習処理について説明する。図１１は、詳細分類モデルの学習処理のフローチャートである。この処理は、図２に示すプロセッサ１２が予め用意されたプログラムを実行し、図８に示す各要素として動作することにより実現される。

【0068】

まず、ターゲットドメインデータ取得部２１１はターゲットドメインＤＢ２からターゲットドメインの画像データを取得し、特徴抽出部２１３、２１３へ出力する（ステップＳ２２０）。各特徴抽出部２１３、２１４は、入力されたターゲットドメインの画像データから特徴を抽出し、局所特徴抽出部２１５へ出力する（ステップＳ２２１）。局所特徴抽出部２１５は、各特徴抽出部２１３、２１４から入力された特徴同士の相関を算出し、局所特徴として位置合わせ部２１２へ出力する（ステップＳ２２２）。位置合わせ部２１２は、入力された局所特徴を基準角度に位置合わせする（ステップＳ２２３）。具体的には、位置合わせ部２１２は、入力された局所特徴を基準角度の画像に由来する局所特徴に変換し、特徴識別部２３１及びドメイン適応部２３２に出力する。

【0069】

同様に、ソースドメインデータ取得部２２１はソースドメインＤＢ３からソースドメインの画像データを取得し、特徴抽出部２２３、２２３へ出力する（ステップＳ２２４）。各特徴抽出部２２３、２２４は、入力されたソースドメインの画像データから特徴を抽出し、局所特徴抽出部２２５へ出力する（ステップＳ２２５）。局所特徴抽出部２２５は、各特徴抽出部２２３、２２４から入力された特徴同士の相関を算出し、局所特徴として位置合わせ部２２２へ出力する（ステップＳ２２６）。位置合わせ部２２２は、入力された局所特徴を基準角度に位置合わせする（ステップＳ２２７）。具体的には、位置合わせ部２２２は、入力された局所特徴を基準角度の画像に由来する局所特徴に変換し、特徴識別部２３１及びドメイン適応部２３２に出力する。

【0070】

次に、特徴識別部２３１は、位置合わせ部２１２、２２２から入力された局所特徴に基づいて画像データのクラス分類を行い、分類結果と正解ラベルとの誤差に基づいて特徴抽出部２１３、２１４の学習を行う（ステップＳ２２８）。具体的には、特徴識別部２３１は、分類結果と正解ラベルとの誤差を最小化するように、特徴抽出部２１３、２１４を構成するニューラルネットワークのパラメータを更新する。

【0071】

また、ドメイン適応部２３２は、位置合わせ部２１２、２２２から入力された局所特徴に基づいてドメイン適応を行う（ステップＳ２２９）。具体的には、ドメイン適応部２３２は、同一クラスについてはターゲットドメインデータとソースドメインデータから抽出された局所特徴が近づき、異なるクラスについてはターゲットドメインデータとソースドメインデータから抽出された局所特徴が遠ざかるように、特徴抽出部２２３、２２４を構成するニューラルネットワークのパラメータを更新する。そして、所定の学習終了条件が具備されたときに学習処理は終了する。

【0072】

［推論装置］
次に、学習済みの詳細分類モデルを用いた推論装置である分類器について説明する。図１２は、第２実施形態に係る分類器の機能構成を示すブロック図である。なお、分類器のハードウェア構成は、図２と同様である。

【0073】

分類器２００ｘは、ターゲットドメインデータ取得部２１１と、特徴抽出部２１３、２１４と、局所特徴抽出部２１５と、位置合わせ部２１２と、特徴識別部２３１とを備える。これらの各構成要素は、基本的に図８と同様に構成される。但し、特徴抽出部２１３、２１４は、上述の学習処理により学習済みのニューラルネットワークを使用する。

【0074】

分類器２００ｘは、ターゲットドメインの画像データを取得し、詳細分類を行う。具体的に、ターゲットドメインデータ取得部２１１は、ターゲットドメインＤＢ２から画像データを取得し、特徴抽出部２１３、２１４に出力する。特徴抽出部２１３、２１４は、入力された画像データから特徴を抽出し、局所特徴抽出部２１５へ出力する。局所特徴抽出部２１５は、特徴抽出部２１３、２１４から入力された特徴の相関を算出して局所特徴を生成し、位置合わせ部２１２へ出力する。位置合わせ部２１２は、入力された局所特徴を、基準角度の画像に由来する局所特徴に変換し、特徴識別部２３１へ出力する。特徴識別部２３１は、入力された局所特徴に基づいて、画像データのクラス分類を行い、クラス分類結果を出力する。

【0075】

＜第３実施形態＞
次に、本発明の第３実施形態について説明する。図１３は、第３実施形態に係る学習装置７０の機能構成を示すブロック図である。学習装置７０は、データ取得手段７１と、位置合わせ手段７２と、特徴抽出手段７３と、分類手段７４と、学習手段７５とを備える。

【0076】

データ取得手段７１は、ソースドメインデータ及びターゲットドメインデータを取得する。位置合わせ手段７２は、ソースドメインデータ及びターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行う。特徴抽出手段７３は、ソースドメインデータ及びターゲットドメインデータの局所特徴を抽出する。なお、位置合わせ手段７２による位置合わせと、特徴抽出手段７３による局所特徴の抽出は、どちらが先でも良い。即ち、位置合わせ手段７２が位置合わせしたデータから特徴抽出手段７３が局所特徴を抽出してもよく、特徴抽出手段７３が抽出した局所特徴に対して位置合わせ手段７２が位置合わせを行ってもよい。

【0077】

分類手段７４は、位置合わせ後のソースドメインデータ及びターゲットドメインデータの局所特徴に基づいて、クラスを分類する。学習手段７５は、位置合わせ後のソースドメインデータ及びターゲットドメインデータの局所特徴、並びに、クラスの分類結果に基づいて、特徴抽出手段の学習を行う。

【0078】

図１４は、第３実施形態による学習処理のフローチャートである。この学習処理は、図１３に示す学習装置７０により実行される。具体的に、データ取得手段７１は、ソースドメインデータ及びターゲットドメインデータを取得する（ステップＳ１１）。位置合わせ手段７２は、ソースドメインデータ及びターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行う（ステップＳ１２）。特徴抽出手段７３は、ソースドメインデータ及びターゲットドメインデータの局所特徴を抽出する（ステップＳ１３）。なお、ステップＳ１２とＳ１３の順序は逆でもよい。分類手段７４は、位置合わせ後のソースドメインデータ及びターゲットドメインデータの局所特徴に基づいて、クラスを分類する（ステップＳ１４）。学習手段７５は、位置合わせ後のソースドメインデータ及びターゲットドメインデータの局所特徴、並びに、クラスの分類結果に基づいて、特徴抽出手段の学習を行う（ステップＳ１５）。

【0079】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0080】

（付記１）
ソースドメインデータ及びターゲットドメインデータを取得するデータ取得手段と、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行う位置合わせ手段と、
前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出する特徴抽出手段と、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類する分類手段と、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う学習手段と、
を備える学習装置。

【0081】

（付記２）
前記位置合わせ手段は、入力された画像データを前記基準角度の画像データに変換するための変換パラメータを推定する変換パラメータ推定手段と、
前記変換パラメータを用いて前記入力された画像データを変換する変換手段と、
を備える付記１に記載の学習装置。

【0082】

（付記３）
前記変換パラメータ推定手段は、特定クラスのソースドメインデータを異なる条件でレンダリングして生成した画像群と、前記特定クラスのソースドメインデータを前記基準角度でレンダリングして生成した基準画像とを用いて学習済みである付記２に記載の学習装置。

【0083】

（付記４）
前記変換パラメータ推定手段は、前記変換パラメータを用いて変換された前記画像群と、前記基準画像との誤差を最小化するように学習済みである付記３に記載の学習装置。

【0084】

（付記５）
前記位置合わせ手段は、入力された画像特徴を前記基準角度の画像に由来する画像特徴に変換するための変換パラメータを推定する変換パラメータ推定手段と、
前記変換パラメータを用いて前記入力された画像特徴を変換する変換手段と、
を備える付記１に記載の学習装置。

【0085】

（付記６）
前記変換パラメータ推定手段は、特定クラスのソースドメインデータを異なる条件でレンダリングして生成した画像群に由来する画像特徴と、前記特定クラスのソースドメインデータを前記基準角度でレンダリングして生成した基準画像に由来する画像特徴とを用いて学習済みである付記５に記載の学習装置。

【0086】

（付記７）
前記変換パラメータ推定手段は、前記変換パラメータを用いて変換された前記画像群に由来する画像特徴と、前記基準画像に由来する画像特徴との誤差を最小化するように学習される付記６に記載の学習装置。

【0087】

（付記８）
前記画像群を生成するレンダリングは、画像中の物体に対する視線の角度の変更、前記画像中の前記物体の奥行方向の距離の変更、前記物体の平行移動、前記物体の色の付加又は変更、前記物体の模様の付加又は変更、前記物体に対する照明の付加、前記物体の背景の付加、及び、ノイズの付加のうちの少なくとも１つを含む付記３、４、６又は７に記載の学習装置。

【0088】

（付記９）
前記特徴抽出手段は、入力された画像データから複数の画像特徴を抽出し、前記複数の画像特徴の相関を前記局所特徴として出力する付記１乃至８のいずれか一項に記載の学習装置。

【0089】

（付記１０）
前記学習手段は、前記クラスの分類結果と正解ラベルとの誤差を最小化し、かつ、同一クラスの前記ソースドメインデータの局所特徴と前記ターゲットドメインデータの局所特徴とが近くなり、異なるクラスの前記ソースドメインデータの局所特徴と前記ターゲットドメインデータの局所特徴とが遠くなるように前記特徴抽出手段の学習を行う付記１乃至９のいずれか一項に記載の学習装置。

【0090】

（付記１１）
ソースドメインデータ及びターゲットドメインデータを取得し、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行い、
前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う学習方法。

【0091】

（付記１２）
ソースドメインデータ及びターゲットドメインデータを取得し、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行い、
前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う処理をコンピュータに実行させるプログラムを記録した記録媒体。

【0092】

以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【符号の説明】

【0093】

２ターゲットドメインデータベース
３ソースドメインデータベース
１２プロセッサ
１１２、１２２、２１２、２２２位置合わせ部
１１３、１１４、１２３、１２４、２１３、２１４、２２３、２２４特徴抽出部
１１５、１２５、２１５、２２５局所特徴抽出部
１３１、２３１特徴識別部
１３２、２３２ドメイン適応部
１４３、２４３変換パラメータ推定部
１４４、２４４変換器
１００、２００学習装置
１００ｘ、２００ｘ分類器

【図1】