IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

<>
  • 特許-学習装置、学習方法、及び、プログラム 図1
  • 特許-学習装置、学習方法、及び、プログラム 図2
  • 特許-学習装置、学習方法、及び、プログラム 図3
  • 特許-学習装置、学習方法、及び、プログラム 図4
  • 特許-学習装置、学習方法、及び、プログラム 図5
  • 特許-学習装置、学習方法、及び、プログラム 図6
  • 特許-学習装置、学習方法、及び、プログラム 図7
  • 特許-学習装置、学習方法、及び、プログラム 図8
  • 特許-学習装置、学習方法、及び、プログラム 図9
  • 特許-学習装置、学習方法、及び、プログラム 図10
  • 特許-学習装置、学習方法、及び、プログラム 図11
  • 特許-学習装置、学習方法、及び、プログラム 図12
  • 特許-学習装置、学習方法、及び、プログラム 図13
  • 特許-学習装置、学習方法、及び、プログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-09
(45)【発行日】2024-01-17
(54)【発明の名称】学習装置、学習方法、及び、プログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240110BHJP
   G06V 10/774 20220101ALI20240110BHJP
【FI】
G06T7/00 350B
G06V10/774
【請求項の数】 12
(21)【出願番号】P 2022570816
(86)(22)【出願日】2020-12-22
(86)【国際出願番号】 JP2020047928
(87)【国際公開番号】W WO2022137337
(87)【国際公開日】2022-06-30
【審査請求日】2023-06-12
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【弁理士】
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【弁理士】
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】並木 重哲
(72)【発明者】
【氏名】谷内田 尚司
(72)【発明者】
【氏名】細井 利憲
【審査官】真木 健彦
(56)【参考文献】
【文献】国際公開第2019/102962(WO,A1)
【文献】特開2016-110635(JP,A)
【文献】石井雅人,特徴変換と重み付けを併用したドメイン適応,人工知能学会 第30回(2016)全国大会論文集,日本,一般社団法人 人工知能学会,2016年06月06日,P.1-4,特に「1.はじめに」、「2.提案手法」、図1~3
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 1/00
G06V 10/774
G06N 3/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
ソースドメインデータ及びターゲットドメインデータを取得するデータ取得手段と、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行う位置合わせ手段と、
前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出する特徴抽出手段と、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類する分類手段と、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う学習手段と、
を備える学習装置。
【請求項2】
前記位置合わせ手段は、入力された画像データを前記基準角度の画像データに変換するための変換パラメータを推定する変換パラメータ推定手段と、
前記変換パラメータを用いて前記入力された画像データを変換する変換手段と、
を備える請求項1に記載の学習装置。
【請求項3】
前記変換パラメータ推定手段は、特定クラスのソースドメインデータを異なる条件でレンダリングして生成した画像群と、前記特定クラスのソースドメインデータを前記基準角度でレンダリングして生成した基準画像とを用いて学習済みである請求項2に記載の学習装置。
【請求項4】
前記変換パラメータ推定手段は、前記変換パラメータを用いて変換された前記画像群と、前記基準画像との誤差を最小化するように学習済みである請求項3に記載の学習装置。
【請求項5】
前記位置合わせ手段は、入力された画像特徴を前記基準角度の画像に由来する画像特徴に変換するための変換パラメータを推定する変換パラメータ推定手段と、
前記変換パラメータを用いて前記入力された画像特徴を変換する変換手段と、
を備える請求項1に記載の学習装置。
【請求項6】
前記変換パラメータ推定手段は、特定クラスのソースドメインデータを異なる条件でレンダリングして生成した画像群に由来する画像特徴と、前記特定クラスのソースドメインデータを前記基準角度でレンダリングして生成した基準画像に由来する画像特徴とを用いて学習済みである請求項5に記載の学習装置。
【請求項7】
前記変換パラメータ推定手段は、前記変換パラメータを用いて変換された前記画像群に由来する画像特徴と、前記基準画像に由来する画像特徴との誤差を最小化するように学習される請求項6に記載の学習装置。
【請求項8】
前記画像群を生成するレンダリングは、画像中の物体に対する視線の角度の変更、前記画像中の前記物体の奥行方向の距離の変更、前記物体の平行移動、前記物体の色の付加又は変更、前記物体の模様の付加又は変更、前記物体に対する照明の付加、前記物体の背景の付加、及び、ノイズの付加のうちの少なくとも1つを含む請求項3、4、6又は7に記載の学習装置。
【請求項9】
前記特徴抽出手段は、入力された画像データから複数の画像特徴を抽出し、前記複数の画像特徴の相関を前記局所特徴として出力する請求項1乃至8のいずれか一項に記載の学習装置。
【請求項10】
前記学習手段は、前記クラスの分類結果と正解ラベルとの誤差を最小化し、かつ、同一クラスの前記ソースドメインデータの局所特徴と前記ターゲットドメインデータの局所特徴とが近くなり、異なるクラスの前記ソースドメインデータの局所特徴と前記ターゲットドメインデータの局所特徴とが遠くなるように前記特徴抽出手段の学習を行う請求項1乃至9のいずれか一項に記載の学習装置。
【請求項11】
コンピュータにより実行される学習方法であって、
ソースドメインデータ及びターゲットドメインデータを取得し、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行い、
特徴抽出手段を用いて、前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う学習方法。
【請求項12】
ソースドメインデータ及びターゲットドメインデータを取得し、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行い、
特徴抽出手段を用いて、前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習を用いた画像分類の技術に関する。
【背景技術】
【0002】
画像認識などに用いる機械学習のモデルを学習する際、十分な数の教師データが得られない場合、データ拡張により教師データを増量することが行われる。特許文献1、2は、データ拡張方法の例を記載している。また、特許文献3は、認識の対象となる特定のクラスの学習データが他のクラスと比べて少ない場合に、そのクラスの学習データを複製する手法を記載している。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2019-028876号公報
【文献】特開2018-106216号公報
【文献】特開2013-161298号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
画像分類において、対象物の種類などを分類する問題として詳細分類問題がある。詳細分類問題は、もともと似たカテゴリを分類する問題であり、例えば、犬の画像から犬種を判定したり、花の画像から花の種類を判定したり、車の画像から車種を判定する問題である。詳細分類問題においては、カテゴリ内の分散が大きく、かつ、カテゴリ間の分散が小さい場合、分類が非常に難しくなる。このため、画像全体から局所特徴を抽出し、局所特徴に着目して分類を行う手法が提案されている。しかし、詳細分類問題においては、局所特徴を用いて分類を行うため、単純にデータ拡張により学習データを増量することができないという課題がある。
【0005】
本発明の1つの目的は、詳細分類を行うモデルの精度を向上させることが可能な学習装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明の一つの観点では、学習装置は、
ソースドメインデータ及びターゲットドメインデータを取得するデータ取得手段と、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行う位置合わせ手段と、
前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出する特徴抽出手段と、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類する分類手段と、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う学習手段と、を備える。
【0007】
本発明の他の観点では、コンピュータにより実行される学習方法は、
ソースドメインデータ及びターゲットドメインデータを取得し、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行い、
特徴抽出手段を用いて、前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う。
【0008】
本発明のさらに他の観点では、プログラムは、
ソースドメインデータ及びターゲットドメインデータを取得し、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行い、
特徴抽出手段を用いて、前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う処理をコンピュータに実行させる。
【発明の効果】
【0009】
本発明によれば、詳細分類を行うモデルの精度を向上させることが可能な学習装置を提供することが可能となる。
【図面の簡単な説明】
【0010】
図1】第1実施形態に係る学習装置の概略構成を示す。
図2】第1実施形態に係る学習装置のハードウェア構成を示すブロック図である。
図3】第1実施形態に係る学習装置の機能構成を示すブロック図である。
図4】位置合わせ部の学習時の構成を示すブロック図である。
図5】変換パラメータ推定部の学習処理のフローチャートである。
図6】詳細分類モデルの学習処理のフローチャートである。
図7】第1実施形態に係る分類器の機能構成を示すブロック図である。
図8】第2実施形態に係る学習装置の機能構成を示すブロック図である。
図9】位置合わせ部の学習時の構成を示すブロック図である。
図10】変換パラメータ推定部の学習処理のフローチャートである。
図11】詳細分類モデルの学習処理のフローチャートである。
図12】第2実施形態に係る分類器の機能構成を示すブロック図である。
図13】第3実施形態に係る学習装置の機能構成を示すブロック図である。
図14】第3実施形態による学習処理のフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の好適な実施形態について説明する。
<原理説明>
ある領域(ドメイン)において機械学習モデルの学習に使用する教師データが不足する場合にモデルの性能を向上させる手法としてドメイン適応が用いられる。ドメイン適応とは、豊富なデータが得られるソースドメインのデータを利用して、データが不足しているターゲットドメインにおけるモデルを学習する手法である。ドメイン適応では、ターゲットドメインとソースドメインの特徴量のデータ分布をなるべく一致させるように近づけることにより、ソースドメインのデータやラベル情報を利用して、ターゲットドメインで使用するモデルを学習する。これにより、ターゲットドメインの教師データ数が十分でない場合でも、ターゲットドメインで使用するモデルの性能を向上させることができる。
【0012】
詳細分類を行う場合にも、基本的に上記のドメイン適応を利用して、ターゲットドメインにおけるデータ不足を補うことができる。しかし、詳細分類においては前述のように画像から抽出した局所特徴を用いて分類を行うため、ソースドメインとソースドメインとの間で局所特徴の対応付けを行う必要がある。
【0013】
具体例として、車について実写画像は得られにくいが、CG(Computer Graphics)画像は豊富に得られる場合、CGドメインをソースドメインとし、実写ドメインをターゲットドメインとしてドメイン適応を行う。この際、実写ドメインで得られた局所特徴とCGドメインで得られた局所特徴の対応付けが必要となる。例えば、車種に関する詳細分類を行う場合、画像からは各車種における特徴的な箇所が局所特徴として抽出される。仮に、局所特徴として、「ヘッドランプ」、「サイドミラー」などが抽出されたとする。この場合、ドメイン適応を行うにあたっては、実写ドメインで得られた局所特徴とCGドメインで得られた局所特徴を対応付けして学習を行う必要がある。より具体的には、実写ドメインで得られたヘッドランプの局所特徴とCGドメインで得られたヘッドランプの局所特徴を用いてドメイン適応による学習を行い、同様に実写ドメインで得られたサイドミラーの局所特徴とCGドメインで得られたサイドミラーの局所特徴を用いてドメイン適応による学習を行う必要がある。このため、各ドメインで得られた局所特徴同士を対応付けする必要がある。
【0014】
また、各ドメインにおいて得られる画像においては、撮影の角度や方向などが一致していないことが多い。例えば、車の画像の場合、車の前方部分の画像、後方部分の画像、側方部分の画像などが混ざっていることがある。また、同じ車の前方部分の画像においても、撮影の角度はまちまちであることが多い。よって、実写ドメインで得られた局所特徴とCGドメインで得られた局所特徴を対応付けする場合に、撮影の角度や方向などを合わせる必要がある。
【0015】
以上の観点より、本実施形態では、異なるドメイン、即ち、実写ドメインとCGドメインで得られた局所特徴が示す対象物や位置、その撮影角度などを一致させるための位置合わせを行った上で、ドメイン適応を利用した学習を行う。これにより、局所特徴の位置が規格化され、データ拡張及びドメイン適応が可能となる。
【0016】
<第1実施形態>
[学習装置]
次に、第1実施形態の学習装置について説明する。
(全体構成)
図1は、第1実施形態の学習装置の概略構成を示す。学習装置100は、詳細分類を行う詳細分類モデルを学習する装置であり、ターゲットドメインデータベース(以下、「データベース」を「DB」と記す。)2と、ソースドメインDB3とに接続される。ターゲットドメインDB2は、ターゲットドメインの教師データであるターゲットドメインデータを記憶している。ソースドメインDB3は、ソースドメインの教師データであるソースドメインデータを記憶している。本実施形態では、ターゲットドメインデータ及びソースドメインデータは画像データとする。なお、教師データは、画像認識などを行う機械学習モデルの学習に使用されるデータであり、学習用画像データと、その学習用画像データに対する正解ラベル(教師ラベル)とを含む。
【0017】
学習装置100は、ターゲットドメインの画像データの詳細分類を行う詳細分類モデルを学習する。具体的に、学習装置100は、ターゲットドメインデータとソースドメインデータに対して位置合わせを行い、位置合わせ後のデータから抽出された局所特徴を用いて詳細分類モデルを学習する。
【0018】
(ハードウェア構成)
図2は、学習装置100のハードウェア構成を示すブロック図である。図示のように、学習装置100は、インタフェース(以下、「IF」と記す。)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15とを備える。
【0019】
IF11は、外部装置との間でデータの入出力を行う。具体的に、ターゲットドメインDB2及びソースドメインDB3に記憶されている教師データは、IF11を介して学習装置100に入力される。
【0020】
プロセッサ12は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、学習装置100の全体を制御する。具体的に、プロセッサ12は、後述する学習処理を実行する。
【0021】
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
【0022】
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。学習装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
【0023】
データベース15は、IF11を通じてターゲットドメインDB2やソースドメインDB3から入力されたデータを一時的に記憶する。なお、学習装置100は、使用者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。
【0024】
(機能構成)
図3は、第1実施形態に係る学習装置100の機能構成を示すブロック図である。図示のように、学習装置100は、ターゲットドメインデータ取得部111と、ソースドメインデータ取得部121と、位置合わせ部112、122と、特徴抽出部113、114、123、124と、局所特徴抽出部115、125と、特徴識別部131と、ドメイン適応部132とを備える。
【0025】
ターゲットドメインデータ取得部111は、ターゲットドメインDB2からターゲットドメインの画像データを取得し、位置合わせ部112へ出力する。位置合わせ部112は、入力されたターゲットドメインの画像データの位置合わせを行う。ここで、「位置合わせ」とは、画像データに含まれる物体に対する撮影の視線の角度又は方向を所定の基準角度又は基準方向に一致させるように画像データを変換することをいう。例えば、基準角度を物体の正面角度とすると、位置合わせ部112は、入力された画像データを正面角度から見た画像データに変換する。斜め上方、斜め下方、左右方向などの様々な方向から物体を写した画像データが入力された場合でも、位置合わせ部112はそれらの画像を正面角度の画像データに変換する。なお、位置合わせ部112については後に詳しく説明する。位置合わせ部112は、変換後のターゲットドメインの画像データを特徴抽出部113、114に出力する。
【0026】
特徴抽出部113、114は、入力されたターゲットドメインの画像データからそれぞれ特徴抽出を行い、抽出した特徴を局所特徴抽出部115へ出力する。特徴抽出部113、114は、例えばCNN(Convolutional Neural Network)などのニューラルネットワークにより構成される。特徴抽出部113、114を構成するCNNにはそれぞれ異なるパラメータが設定され、個々のパラメータに基づいて入力画像から特徴を抽出する。特徴抽出部113、114を構成するCNNは、Bilinear CNNを構成している。
【0027】
局所特徴抽出部115は、特徴抽出部113、114から出力された特徴同士の相関を算出し、局所特徴として特徴識別部131及びドメイン適応部132へ出力する。
【0028】
一方、ソースドメインDB3から取得されたソースドメインデータについても、基本的に上記のターゲットドメインデータに対する処理と同様の処理が行われる。即ち、ソースドメインデータ取得部121は、ソースドメインDB3からソースドメインの画像データを取得し、位置合わせ部122へ出力する。位置合わせ部122は、入力された画像データを基準角度の画像データに変換する位置合わせを行い、特徴抽出部123、124へ出力する。
【0029】
特徴抽出部123、124は、特徴抽出部113、114と同一構成のニューラルネットワークにより構成され、パラメータを共有している。具体的には、特徴抽出部113と123を構成するニューラルネットワークには同一のパラメータが設定されており、特徴抽出部114と124を構成するニューラルネットワークには同一のパラメータが設定されている。特徴抽出部123、124は、位置合わせ後の画像データからそれぞれ特徴抽出を行い、局所特徴抽出部125へ出力する。局所特徴抽出部125は、各特徴抽出部123、124が抽出した特徴の相関を算出して局所特徴を生成し、特徴識別部131及びドメイン適応部132へ出力する。
【0030】
特徴識別部131は、各ターゲットドメインデータについて、抽出された局所特徴量に基づいてクラス分類を行い、識別結果をそのデータに対応する正解ラベルと比較して誤差を算出する。そして、特徴識別部116は、算出された誤差を最小化するように、特徴抽出部113、114を構成するニューラルネットワークのパラメータを最適化する。最適化されたパラメータは、特徴抽出部123、124と共有される。なお、局所特徴抽出部115がニューラルネットワークなどにより構成されている場合には、特徴識別部116は、同時に局所特徴抽出部115を構成するニューラルネットワークのパラメータも最適化する。
【0031】
ドメイン適応部132は、局所特徴抽出部115、125から入力された各ドメインの画像データの局所特徴に基づき、2つのドメイン由来のデータの特徴量データ分布を近づけるように、特徴抽出部123、124を構成するニューラルネットワークのパラメータを最適化する。最適化されたパラメータは、特徴抽出部113、114と共有される。なお、局所特徴抽出部125がニューラルネットワークなどにより構成されている場合には、ドメイン適応部132は、同時に局所特徴抽出部125を構成するニューラルネットワークのパラメータも最適化する。こうして、特徴抽出部113、114、123、124のパラメータは、特徴識別部131によるクラス分類が正しく行われ、かつ、2つのドメインのデータの特徴量データ分布が近づくように最適化される。
【0032】
そして、所定の学習終了条件が満たされたときに学習装置100による学習は終了し、そのときの特徴抽出部113、114のパラメータが、学習済みの詳細分類モデルのパラメータとして得られる。
【0033】
(位置合わせ部)
次に、位置合わせ部について詳しく説明する。図4は、位置合わせ部112の学習時の構成を示すブロック図である。位置合わせ部112は、変換パラメータ推定部143と、変換器144とを備える。位置合わせ部112は、ソースドメインデータを用いて学習される。前述の車種分類の例では、豊富な画像を用意できるCGドメインがソースドメインとして使用される。
【0034】
まず、CGドメインであるソースドメインの画像データに基づいて、ある特定クラスについて様々な条件でレンダリングされた画像群(以下、「特定クラス画像群」とも呼ぶ。)141が生成される。特定クラスは、前述の車種分類の例では、ある特定の車種である。特定クラス画像群141としては、特定クラスの元画像において物体を視認する角度、即ち、視点から物体を見る視線の角度(以下、「視線角度」とも呼ぶ。)又は物体を見る方向(以下、「視線方向」とも呼ぶ。)を様々に変化させた画像が生成される。本実施形態では、CGドメインをソースドメインとしているので、GC画像のレンダリングにより任意の視線角度の画像を生成することができる。
【0035】
また、特定クラス画像群141としては、元画像において視点と物体との距離、即ち、画像中の物体の奥行方向の距離を変化させた画像を生成してもよい。また、元画像における物体の位置を画像の領域内で上下左右、斜め方向などに平行移動した画像を生成してもよい。さらには、元画像に対して様々な摂動を加えた画像を生成してもよい。この場合の摂動としては、例えば、画像中の物体の色の付加又は変更、物体の模様の付加又は変更、物体に対する照明の付加、画像中の物体の背景の付加、ノイズの付加などのうちの1つ又は複数を用いることができる。
【0036】
また、ソースドメインの画像データに基づいて、特定クラスの基準画像(以下、「特定クラス基準画像」と呼ぶ。)142が生成される。特定クラス基準画像は、特定クラス、即ち、特定クラス画像群141と同一のクラスの物体についての、予め決められた基準となる視線角度(以下、「基準角度」と呼ぶ。)又は基準となる視線方向(以下、「基準方向」と呼ぶ。)の画像である。前述の車種分類の例において、基準角度を車両の正面角度と仮定すると、特定クラス基準画像は、特定クラスに対応する車種の車両の正面角度の画像となる。なお、基準角度は、詳細分類を行う際に着目すべき物体の位置や部分に基づいて決定される。例えば、詳細分類の対象となる物体の特徴が側部や後部にある場合には、特定クラス基準画像はその物体を側方や後方から見た画像となる。こうして得られた特定クラス画像群141及び特定クラス基準画像142は、教師データとして変換パラメータ推定部143の学習に用いられる。
【0037】
変換パラメータ推定部143は、様々な視線角度の画像を基準角度の画像に変換するためのパラメータを推定する。変換パラメータ推定部143は、例えば、様々な角度の画像を正面角度などの基準角度の画像に射影するアフィン変換などを行うニューラルネットワークにより構成することができる。変換パラメータ推定部143は、上記の特定クラス画像群141を入力データとして用い、特定クラス基準画像142を正解ラベルとして用いて学習される。こうして学習された変換パラメータ推定部143は、様々な角度から撮影され、かつ、物体が様々な色や模様を有し、様々な背景やノイズが含まれる画像を、基準角度の画像に変換するための変換パラメータを出力可能となる。
【0038】
変換パラメータ推定部143により推定された変換パラメータは、射影変換器などの変換器144に設定される。これにより、様々な視線角度の画像を基準角度の画像に変換することが可能な位置合わせ部112が得られる。
【0039】
実際の動作時には、位置合わせ部112に画像データが入力されると、変換パラメータ推定部143は、入力画像を基準角度の画像に変換するための変換パラメータを算出し、変換器144に設定する。変換器144は、設定された変換パラメータに基づいて、入力画像を射影変換し、変換後の画像を位置合わせ後の画像として特徴抽出部113、114へ出力する。即ち、変換パラメータ推定部143は、入力画像毎に変換パラメータの推定を行い、得られた変換パラメータを変換器144に設定する。
【0040】
位置合わせ部122は、位置合わせ部112と同様に構成される。即ち、上記の学習方法で学習された変換パラメータ推定部143及び変換器144を、位置合わせ部112及び122として使用することができる。
【0041】
位置合わせ部112を実写ドメインであるターゲットドメインに適用することで、実写ドメインにおいても基準角度に変換した画像を得ることができる。特に上記のようにCGドメインの画像データに対して様々な摂動を加えて特定クラス画像群141を生成し、変換パラメータ推定部143の学習を行うことで一定のドメイン適応効果が得られるので、位置合わせ部112を実写ドメインに適用した場合でも、クラス分類を行うのに十分な性能の変換器144を得ることができる。
【0042】
なお、画像の位置合わせは、本来は物体の3次元構造を推定し、3次元の剛体変換(回転・並進変換)を行った上で、2次元画像に戻すという処理が必要である。しかし、車両のフロント画像など、角度の変動が一定以下という前提があれば、3次元の剛体変換の代わりに、近似的に上記のように射影変換を用いることができる。これにより、変換パラメータ推定部143の学習を単純化することができる。特にCNNはある程度の位置不変性があるので、厳密な変換をしなくてもよいと考えられる。
【0043】
次に、変換パラメータ推定部143の学習処理について説明する。図5は、変換パラメータ推定部143の学習処理のフローチャートである。まず、教師データの準備として、CGドメインであるソースドメインの画像データを用いて、特定クラス基準画像142が用意され(ステップS111)、さらに特定クラス画像群141が用意される(ステップS112)。次に、変換パラメータ推定部143は、特定クラス画像群141を射影変換する(ステップS113)。次に、射影変換後の特定クラス画像群141と、特定クラス基準画像142との誤差を最小化するように、変換パラメータ推定部143の学習が行われる(ステップS114)。具体的には、上記の誤差を最小化するように、変換パラメータ推定部143を構成するニューラルネットワークのパラメータが更新される。そして、所定の終了条件が具備されたとき、変換パラメータ推定部143の学習処理は終了する。こうして、変換パラメータ推定部143は、様々な視線角度の入力画像を基準角度の画像に変換するためのパラメータを推定できるようになる。
【0044】
なお、図4の例では、位置合わせ部112、122を変換パラメータ推定部143と変換器144により構成しているが、その代わりに、射影変換を行う1つのニューラルネットワークとして構成してもよい。この場合には、その1つのニューラルネットワークが入力画像に対して適切な変換パラメータを算出し、その変換パラメータを用いて射影変換した後の画像を生成して出力する。
【0045】
(詳細分類モデルの学習処理)
次に、学習装置100による詳細分類モデルの学習処理について説明する。図6は、詳細分類モデルの学習処理のフローチャートである。この処理は、図2に示すプロセッサ12が予め用意されたプログラムを実行し、図3に示す各要素として動作することにより実現される。
【0046】
まず、ターゲットドメインデータ取得部111はターゲットドメインDB2からターゲットドメインの画像データを取得し(ステップS120)、位置合わせ部112は入力された画像データを基準角度に位置合わせする(ステップS121)。具体的には、位置合わせ部112は、入力された画像データを基準角度の画像データに変換し、特徴抽出部113、114に出力する。
【0047】
次に、各特徴抽出部113、114は、入力された画像データから特徴を抽出し、局所特徴抽出部115へ出力する(ステップS122)。局所特徴抽出部115は、各特徴抽出部113、114から入力された特徴同士の相関を算出し、局所特徴として特徴識別部131及びドメイン適応部132へ出力する(ステップS123)。
【0048】
同様に、ソースドメインデータ取得部121はソースドメインDB3からソースドメインの画像データを取得し(ステップS124)、位置合わせ部122は入力された画像データを基準角度に位置合わせする(ステップS125)。具体的には、位置合わせ部122は、入力された画像データを基準角度の画像データに変換し、特徴抽出部123、124に出力する。
【0049】
次に、各特徴抽出部123、124は、入力されたソースドメインの画像データから特徴を抽出し、局所特徴抽出部125へ出力する(ステップS126)。局所特徴抽出部125は、各特徴抽出部123、124から入力された特徴同士の相関を算出し、局所特徴として特徴識別部131及びドメイン適応部132へ出力する(ステップS127)。
【0050】
次に、特徴識別部131は、局所特徴抽出部115、125から入力された局所特徴に基づいて画像データのクラス分類を行い、分類結果と正解ラベルとの誤差に基づいて特徴抽出部113、114の学習を行う(ステップS128)。具体的には、特徴識別部131は、分類結果と正解ラベルとの誤差を最小化するように、特徴抽出部113、114を構成するニューラルネットワークのパラメータを更新する。
【0051】
また、ドメイン適応部132は、局所特徴抽出部115、125から入力された局所特徴に基づいてドメイン適応を行う(ステップS129)。具体的には、ドメイン適応部132は、同一クラスについてはターゲットドメインデータとソースドメインデータから抽出された局所特徴が近づき、異なるクラスについてはターゲットドメインデータとソースドメインデータから抽出された局所特徴が遠ざかるように、特徴抽出部123、124を構成するニューラルネットワークのパラメータを更新する。そして、所定の学習終了条件が具備されたときに学習処理は終了する。
【0052】
[推論装置]
次に、学習済みの詳細分類モデルを用いた推論装置である分類器について説明する。図7は、第1実施形態に係る分類器の機能構成を示すブロック図である。なお、分類器のハードウェア構成は、図2と同様である。
【0053】
分類器100xは、ターゲットドメインデータ取得部111と、位置合わせ部112と、特徴抽出部113、114と、局所特徴抽出部115と、特徴識別部131とを備える。これらの各構成要素は、基本的に図3と同様に構成される。但し、特徴抽出部113、114は、上述の学習処理により学習済みのニューラルネットワークを使用する。
【0054】
分類器100xは、ターゲットドメインの画像データを取得し、詳細分類を行う。具体的に、ターゲットドメインデータ取得部11は、ターゲットドメインDB2から画像データを取得し、位置合わせ部112へ出力する。位置合わせ部112は、入力された画像データの位置合わせを行い、基準角度の画像データを特徴抽出部113、114へ出力する。特徴抽出部113、114は、入力された画像データから特徴を抽出し、局所特徴抽出部115へ出力する。局所特徴抽出部115は、特徴抽出部113、114から入力された特徴の相関を算出して局所特徴を生成し、特徴識別部131へ出力する。特徴識別部131は、入力された局所特徴に基づいて、画像データのクラス分類を行い、クラス分類結果を出力する。
【0055】
<第2実施形態>
上記の第1実施形態では、位置合わせ部112、122は、画像データに対して位置合わせを行っている。これに対し、第2実施形態では、位置合わせ部は画像データから抽出された局所特徴に対して位置合わせを行う。なお、第2実施形態に係る学習装置200の全体構成及びハードウェア構成は、図1及び図2に示す第1実施形態の全体構成及びハードウェア構成と同様であるので、説明を省略する。
【0056】
(機能構成)
図8は、第2実施形態に係る学習装置200の機能構成を示すブロック図である。図示のように、学習装置200は、ターゲットドメインデータ取得部211と、ソースドメインデータ取得部221と、特徴抽出部213、214、223、224と、局所特徴抽出部215、225と、位置合わせ部212、222と、特徴識別部231と、ドメイン適応部232とを備える。
【0057】
図3と比較すると理解されるように、第2実施形態では、位置合わせ部212、222が、局所特徴抽出部215、225の後段に配置されている。よって、学習装置200では、位置合わせ部212は、局所特徴抽出部215が抽出した局所特徴を基準角度の局所特徴に変換する位置合わせを行う。同様に、位置合わせ部222は、局所特徴抽出部225が抽出した局所特徴を基準角度の局所特徴に変換する位置合わせを行う。この点以外は、第2実施形態の学習装置200の各構成要素は、第1実施形態の学習装置100の対応する構成要素と同様である。
【0058】
(位置合わせ部)
次に、位置合わせ部について詳しく説明する。図9は、位置合わせ部212の学習時の構成を示すブロック図である。位置合わせ部212は、変換パラメータ推定部243と、変換器244とを備える。位置合わせ部212は、ソースドメインデータを用いて学習される。
【0059】
図4と比較すると理解されるように、第2実施形態の位置合わせ部212の学習時の構成は、第1実施形態の位置合わせ部112の学習時の構成に加えて、特徴抽出部245、246を備える。特徴抽出部245、246は、例えばBilinear CNNなどにより構成され、ソースドメインであるCGドメインのデータを用いて予め学習される。これにより、特徴抽出部245、246は、CGドメインにおいて局所特徴に着目してクラス分類を行うための特徴抽出を行うネットワークとして構成される。
【0060】
第2実施形態においても、位置合わせ部212を構成する変換パラメータ推定部243の学習のために、教師データとして特定クラス画像群141と特定クラス基準画像142とが用意される。特定クラス画像群141は特徴抽出部245へ入力され、特定クラス基準画像142は特徴抽出部246へ入力される。特徴抽出部245は、入力された特定クラス画像群141の各々から特徴抽出を行い、抽出した特徴を変換パラメータ推定部243へ出力する。特徴抽出部246は、入力された特定クラス基準画像142から特徴抽出を行い、抽出した特徴を変換パラメータ推定部243へ出力する。
【0061】
変換パラメータ推定部243は、様々な視線角度の画像を基準角度の画像に変換するためのパラメータを推定する。変換パラメータ推定部243は、例えば、様々な角度の画像の特徴を正面角度などの基準角度の画像の特徴に射影するアフィン変換などを行うニューラルネットワークにより構成することができる。ここで、第2実施形態では、変換パラメータ推定部243は、上記の特定クラス画像群141から抽出された特徴を入力データとして用い、特定クラス基準画像142から抽出された特徴を正解ラベルとして用いて学習される。こうして学習された変換パラメータ推定部243は、様々なレンダリングにより得られた画像に由来する特徴を、基準角度の画像に由来する特徴に変換するための変換パラメータを出力できるようになる。
【0062】
変換パラメータ推定部243により推定された変換パラメータは、射影変換器などの変換器244に設定される。こうして、様々な画像から抽出された特徴を、基準角度の画像に由来する特徴に変換することが可能な位置合わせ部212が得られる。なお、位置合わせ部222としては、位置合わせ部212と同一のものが使用される。
【0063】
なお、実際の動作時には、位置合わせ部212に局所特徴抽出部215から局所特徴が入力されると、変換パラメータ推定部243は、入力された局所特徴を基準角度の画像に由来する特徴に変換するための変換パラメータを算出し、変換器244に設定する。変換器244は、設定された変換パラメータに基づいて入力された局所特徴を射影変換し、変換後の局所特徴を特徴識別部231及びドメイン適応部232へ出力する。即ち、変換パラメータ推定部243は、入力された局所特徴毎に変換パラメータの推定を行い、得られた変換パラメータを変換器244に設定する。なお、位置合わせ部222も同様に動作する。
【0064】
次に、変換パラメータ推定部243の学習処理について説明する。図10は、変換パラメータ推定部の学習処理のフローチャートである。まず、教師データの準備として、CGドメインであるソースドメインの画像データを用いて、特定クラス基準画像142が用意される(ステップS211)。特徴抽出部246は、特定クラス基準画像142から特徴を抽出し、変換パラメータ推定部243へ出力する(ステップS212)。また、ソースドメインの画像データを用いて特定クラス画像群141が用意される(ステップS213)。特徴抽出部246は、特定クラス画像群141から特徴を抽出し、変換パラメータ推定部243へ出力する(ステップS214)。
【0065】
次に、変換パラメータ推定部243は、特定クラス画像群141に由来する特徴を射影変換する(ステップS215)。次に、射影変換後の特定クラス画像群141に由来する特徴と、特定クラス基準画像142に由来する特徴との誤差を最小化するように、変換パラメータ推定部243の学習が行われる(ステップS216)。具体的には、上記の誤差を最小化するように、変換パラメータ推定部243を構成するニューラルネットワークのパラメータが更新される。そして、所定の終了条件が具備されたとき、変換パラメータ推定部243の学習処理は終了する。こうして、変換パラメータ推定部243は、様々な視線角度の入力画像に由来する特徴を、基準角度の画像に由来する特徴に変換するためのパラメータを推定できるようになる。
【0066】
なお、図9の例では、位置合わせ部212、222を変換パラメータ推定部243と変換器244により構成しているが、その代わりに、射影変換を行う1つのニューラルネットワークとして構成してもよい。この場合には、その1つのニューラルネットワークが入力された局所特徴に対して適切な変換パラメータを算出し、その変換パラメータを用いて射影変換した後の局所特徴を生成して出力する。
【0067】
(詳細分類モデルの学習処理)
次に、詳細分類モデルの学習装置200による学習処理について説明する。図11は、詳細分類モデルの学習処理のフローチャートである。この処理は、図2に示すプロセッサ12が予め用意されたプログラムを実行し、図8に示す各要素として動作することにより実現される。
【0068】
まず、ターゲットドメインデータ取得部211はターゲットドメインDB2からターゲットドメインの画像データを取得し、特徴抽出部213、213へ出力する(ステップS220)。各特徴抽出部213、214は、入力されたターゲットドメインの画像データから特徴を抽出し、局所特徴抽出部215へ出力する(ステップS221)。局所特徴抽出部215は、各特徴抽出部213、214から入力された特徴同士の相関を算出し、局所特徴として位置合わせ部212へ出力する(ステップS222)。位置合わせ部212は、入力された局所特徴を基準角度に位置合わせする(ステップS223)。具体的には、位置合わせ部212は、入力された局所特徴を基準角度の画像に由来する局所特徴に変換し、特徴識別部231及びドメイン適応部232に出力する。
【0069】
同様に、ソースドメインデータ取得部221はソースドメインDB3からソースドメインの画像データを取得し、特徴抽出部223、223へ出力する(ステップS224)。各特徴抽出部223、224は、入力されたソースドメインの画像データから特徴を抽出し、局所特徴抽出部225へ出力する(ステップS225)。局所特徴抽出部225は、各特徴抽出部223、224から入力された特徴同士の相関を算出し、局所特徴として位置合わせ部222へ出力する(ステップS226)。位置合わせ部222は、入力された局所特徴を基準角度に位置合わせする(ステップS227)。具体的には、位置合わせ部222は、入力された局所特徴を基準角度の画像に由来する局所特徴に変換し、特徴識別部231及びドメイン適応部232に出力する。
【0070】
次に、特徴識別部231は、位置合わせ部212、222から入力された局所特徴に基づいて画像データのクラス分類を行い、分類結果と正解ラベルとの誤差に基づいて特徴抽出部213、214の学習を行う(ステップS228)。具体的には、特徴識別部231は、分類結果と正解ラベルとの誤差を最小化するように、特徴抽出部213、214を構成するニューラルネットワークのパラメータを更新する。
【0071】
また、ドメイン適応部232は、位置合わせ部212、222から入力された局所特徴に基づいてドメイン適応を行う(ステップS229)。具体的には、ドメイン適応部232は、同一クラスについてはターゲットドメインデータとソースドメインデータから抽出された局所特徴が近づき、異なるクラスについてはターゲットドメインデータとソースドメインデータから抽出された局所特徴が遠ざかるように、特徴抽出部223、224を構成するニューラルネットワークのパラメータを更新する。そして、所定の学習終了条件が具備されたときに学習処理は終了する。
【0072】
[推論装置]
次に、学習済みの詳細分類モデルを用いた推論装置である分類器について説明する。図12は、第2実施形態に係る分類器の機能構成を示すブロック図である。なお、分類器のハードウェア構成は、図2と同様である。
【0073】
分類器200xは、ターゲットドメインデータ取得部211と、特徴抽出部213、214と、局所特徴抽出部215と、位置合わせ部212と、特徴識別部231とを備える。これらの各構成要素は、基本的に図8と同様に構成される。但し、特徴抽出部213、214は、上述の学習処理により学習済みのニューラルネットワークを使用する。
【0074】
分類器200xは、ターゲットドメインの画像データを取得し、詳細分類を行う。具体的に、ターゲットドメインデータ取得部211は、ターゲットドメインDB2から画像データを取得し、特徴抽出部213、214に出力する。特徴抽出部213、214は、入力された画像データから特徴を抽出し、局所特徴抽出部215へ出力する。局所特徴抽出部215は、特徴抽出部213、214から入力された特徴の相関を算出して局所特徴を生成し、位置合わせ部212へ出力する。位置合わせ部212は、入力された局所特徴を、基準角度の画像に由来する局所特徴に変換し、特徴識別部231へ出力する。特徴識別部231は、入力された局所特徴に基づいて、画像データのクラス分類を行い、クラス分類結果を出力する。
【0075】
<第3実施形態>
次に、本発明の第3実施形態について説明する。図13は、第3実施形態に係る学習装置70の機能構成を示すブロック図である。学習装置70は、データ取得手段71と、位置合わせ手段72と、特徴抽出手段73と、分類手段74と、学習手段75とを備える。
【0076】
データ取得手段71は、ソースドメインデータ及びターゲットドメインデータを取得する。位置合わせ手段72は、ソースドメインデータ及びターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行う。特徴抽出手段73は、ソースドメインデータ及びターゲットドメインデータの局所特徴を抽出する。なお、位置合わせ手段72による位置合わせと、特徴抽出手段73による局所特徴の抽出は、どちらが先でも良い。即ち、位置合わせ手段72が位置合わせしたデータから特徴抽出手段73が局所特徴を抽出してもよく、特徴抽出手段73が抽出した局所特徴に対して位置合わせ手段72が位置合わせを行ってもよい。
【0077】
分類手段74は、位置合わせ後のソースドメインデータ及びターゲットドメインデータの局所特徴に基づいて、クラスを分類する。学習手段75は、位置合わせ後のソースドメインデータ及びターゲットドメインデータの局所特徴、並びに、クラスの分類結果に基づいて、特徴抽出手段の学習を行う。
【0078】
図14は、第3実施形態による学習処理のフローチャートである。この学習処理は、図13に示す学習装置70により実行される。具体的に、データ取得手段71は、ソースドメインデータ及びターゲットドメインデータを取得する(ステップS11)。位置合わせ手段72は、ソースドメインデータ及びターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行う(ステップS12)。特徴抽出手段73は、ソースドメインデータ及びターゲットドメインデータの局所特徴を抽出する(ステップS13)。なお、ステップS12とS13の順序は逆でもよい。分類手段74は、位置合わせ後のソースドメインデータ及びターゲットドメインデータの局所特徴に基づいて、クラスを分類する(ステップS14)。学習手段75は、位置合わせ後のソースドメインデータ及びターゲットドメインデータの局所特徴、並びに、クラスの分類結果に基づいて、特徴抽出手段の学習を行う(ステップS15)。
【0079】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0080】
(付記1)
ソースドメインデータ及びターゲットドメインデータを取得するデータ取得手段と、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行う位置合わせ手段と、
前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出する特徴抽出手段と、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類する分類手段と、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う学習手段と、
を備える学習装置。
【0081】
(付記2)
前記位置合わせ手段は、入力された画像データを前記基準角度の画像データに変換するための変換パラメータを推定する変換パラメータ推定手段と、
前記変換パラメータを用いて前記入力された画像データを変換する変換手段と、
を備える付記1に記載の学習装置。
【0082】
(付記3)
前記変換パラメータ推定手段は、特定クラスのソースドメインデータを異なる条件でレンダリングして生成した画像群と、前記特定クラスのソースドメインデータを前記基準角度でレンダリングして生成した基準画像とを用いて学習済みである付記2に記載の学習装置。
【0083】
(付記4)
前記変換パラメータ推定手段は、前記変換パラメータを用いて変換された前記画像群と、前記基準画像との誤差を最小化するように学習済みである付記3に記載の学習装置。
【0084】
(付記5)
前記位置合わせ手段は、入力された画像特徴を前記基準角度の画像に由来する画像特徴に変換するための変換パラメータを推定する変換パラメータ推定手段と、
前記変換パラメータを用いて前記入力された画像特徴を変換する変換手段と、
を備える付記1に記載の学習装置。
【0085】
(付記6)
前記変換パラメータ推定手段は、特定クラスのソースドメインデータを異なる条件でレンダリングして生成した画像群に由来する画像特徴と、前記特定クラスのソースドメインデータを前記基準角度でレンダリングして生成した基準画像に由来する画像特徴とを用いて学習済みである付記5に記載の学習装置。
【0086】
(付記7)
前記変換パラメータ推定手段は、前記変換パラメータを用いて変換された前記画像群に由来する画像特徴と、前記基準画像に由来する画像特徴との誤差を最小化するように学習される付記6に記載の学習装置。
【0087】
(付記8)
前記画像群を生成するレンダリングは、画像中の物体に対する視線の角度の変更、前記画像中の前記物体の奥行方向の距離の変更、前記物体の平行移動、前記物体の色の付加又は変更、前記物体の模様の付加又は変更、前記物体に対する照明の付加、前記物体の背景の付加、及び、ノイズの付加のうちの少なくとも1つを含む付記3、4、6又は7に記載の学習装置。
【0088】
(付記9)
前記特徴抽出手段は、入力された画像データから複数の画像特徴を抽出し、前記複数の画像特徴の相関を前記局所特徴として出力する付記1乃至8のいずれか一項に記載の学習装置。
【0089】
(付記10)
前記学習手段は、前記クラスの分類結果と正解ラベルとの誤差を最小化し、かつ、同一クラスの前記ソースドメインデータの局所特徴と前記ターゲットドメインデータの局所特徴とが近くなり、異なるクラスの前記ソースドメインデータの局所特徴と前記ターゲットドメインデータの局所特徴とが遠くなるように前記特徴抽出手段の学習を行う付記1乃至9のいずれか一項に記載の学習装置。
【0090】
(付記11)
ソースドメインデータ及びターゲットドメインデータを取得し、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行い、
前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う学習方法。
【0091】
(付記12)
ソースドメインデータ及びターゲットドメインデータを取得し、
前記ソースドメインデータ及び前記ターゲットドメインデータを、所定の基準角度の画像に変換する位置合わせを行い、
前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴を抽出し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴に基づいて、クラスを分類し、
前記位置合わせ後の前記ソースドメインデータ及び前記ターゲットドメインデータの局所特徴、並びに、前記クラスの分類結果に基づいて、前記特徴抽出手段の学習を行う処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0092】
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0093】
2 ターゲットドメインデータベース
3 ソースドメインデータベース
12 プロセッサ
112、122、212、222 位置合わせ部
113、114、123、124、213、214、223、224 特徴抽出部
115、125、215、225 局所特徴抽出部
131、231 特徴識別部
132、232 ドメイン適応部
143、243 変換パラメータ推定部
144、244 変換器
100、200 学習装置
100x、200x 分類器
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14