【文献】
桑原 周太郎 他 ,形の詳細を考慮した,手描きスケッチによる3Dモデル検索,Visual Computing/グラフィクスとCAD合同シンポジウム2017 予稿集 [DVD−ROM],日本,2017年06月24日,pp.8-15
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0022】
実施形態1.
[構成の説明]
以下、本発明の実施形態を、図面を参照して説明する。
図1は、本発明による画像解析装置の第1の実施形態の構成例を示すブロック図である。
図1に示す画像解析装置100は、特徴量学習技術を提供する装置である。
【0023】
なお、
図1は、第1の実施形態の画像解析装置の構成の理解を容易にすることを目的とする図である。第1の実施形態の画像解析装置の構成は、
図1に示す構成に限定されない。
【0024】
図1に示す画像解析装置100は、学習データ保持手段110と、第1特徴量抽出手段120と、類似度判定手段130と、類似組生成手段140と、類似組学習データ保持手段150と、第2特徴量学習手段160とを備えている。
【0025】
学習データ保持手段110は、認識モデルの学習に使用されるデータである学習データを保持する機能を有する。学習データ保持手段110は、例えば、画像と画像に表示されている対象物体が属するカテゴリを示すラベルとの組を学習データとして保持する。
【0026】
学習データ保持手段110が保持する画像は、例えば、RGB画像、グレースケール画像、または赤外線画像である。また、学習データ保持手段110は、他の種類の画像を保持してもよい。
【0027】
また、学習データ保持手段110は、上記の組の代わりに数値と数値が示す対象物体が属するカテゴリを示すラベルとの組を学習データとして保持してもよい。本実施形態では、学習データ保持手段110が画像を保持する場合を例に説明する。
【0028】
第1特徴量抽出手段120は、学習データ保持手段110が保持する画像から特徴量(以下、第1特徴量という。)を抽出する機能を有する。例えば、第1特徴量抽出手段120は、非特許文献1に記載されている方法と同様に、対象物体の外観を表す特徴量を第1特徴量として抽出してもよい。また、第1特徴量抽出手段120は、非特許文献2に記載されている特徴点マッチングを用いて第1特徴量を抽出してもよい。
【0029】
類似度判定手段130は、第1特徴量抽出手段120により抽出された学習データ保持手段110が保持する画像ごとの第1特徴量に基づいて、学習データ保持手段110が保持する画像間の類似度を判定する機能を有する。
【0030】
学習データ保持手段110が保持する画像間の類似度を判定するために、類似度判定手段130は、例えば、第1特徴量から求められる特徴空間内の距離に基づいて類似度を判定する方法を用いる。
【0031】
また、類似度判定手段130は、学習データ保持手段110が保持する画像に表示されている対象物体が属するカテゴリ間の類似度を判定する機能を有する。例えば、類似度判定手段130は、第1特徴量抽出手段120が抽出した第1特徴量に基づいて、学習データ保持手段110が保持する画像に対して識別処理を実行する。識別処理の実行結果に基づいて、類似度判定手段130は、カテゴリ間の類似度を判定する。
【0032】
また、類似度判定手段130による画像に表示されている対象物体が属するカテゴリ間の類似度の判定には、例えば、以下の方法が用いられてもよい。
【0033】
<第1カテゴリ間類似度判定方法>
表示されている対象物体が、M 種類のカテゴリのうち、i 番目のカテゴリC
iに属する学習データ保持手段110が保持する画像をx ∈C
iとする。
【0034】
また、画像x から第1特徴量抽出手段120により抽出された第1特徴量と予め学習された識別器とに基づいて得られるカテゴリC
j(j=1, ・・・,M) らしさをp
cj(x)とすると、以下の要素を(i,j) 要素とするM ×M の行列S が求められる。
【0035】
S
i,j = Σ
x ∈Ci{p
cj(x)} ・・・式(1)
【0036】
なお、行列S が求められる際に使用される識別器は、例えば、ロジスティック回帰識別器である。上記の行列S を用いて、以下の行列D が求められる。
【0037】
D = (S+S
T)/2 ・・・式(2)
【0038】
式(2)における行列D の(i,j) 要素は、カテゴリC
iとカテゴリC
jの類似度を表す。上記の方法で求められる行列D の例を
図2に示す。
図2は、第1の実施形態におけるカテゴリ間の類似度を表す行列の例を示す説明図である。
【0039】
図2に示す行列D は、M=3 の時の行列である。また、
図2に示すA 〜C は、カテゴリの種類を表す。
図2に示すように、例えば、カテゴリA とカテゴリB の類似度は、「0.3 」である。以上の方法で、類似度判定手段130は、カテゴリ間の類似度を判定できる。
【0040】
<第2カテゴリ間類似度判定方法>
類似度判定手段130は、例えば非特許文献2に記載されている特徴点マッチングを用いて、表示されている対象物体が所定のカテゴリに属する画像と、表示されている対象物体が所定のカテゴリ以外の別のカテゴリに属する画像とのマッチングを行う。
【0041】
マッチングの度合いが所定の閾値以上となる特徴点が得られた場合、類似度判定手段130は、所定のカテゴリに対して、上記の別のカテゴリが類似すると判定できる。
【0042】
類似組生成手段140は、学習データ保持手段110が保持する組に対して類似組を生成する機能を有する。例えば、類似組生成手段140は、類似度判定手段130で得られた画像間の類似度に基づいて画像の類似組を生成する。
【0043】
画像の類似組の生成には、例えば、学習データ保持手段110が保持する所定の画像から第1特徴量抽出手段120により抽出された第1特徴量と、学習データ保持手段110が保持する所定の画像以外の別の画像から第1特徴量抽出手段120により抽出された第1特徴量との距離が用いられる。類似組生成手段140は、上記の距離が閾値未満である画像同士の組を、画像の類似組として生成する。
【0044】
また、類似組生成手段140は、例えば、学習データ保持手段110が保持する各画像に対して、第1特徴量抽出手段120により抽出された第1特徴量と、学習データ保持手段110が保持する所定の画像から第1特徴量抽出手段120により抽出された第1特徴量との距離をそれぞれ算出する。
【0045】
次いで、類似組生成手段140は、算出された距離が短い順に1つ以上の任意の数の画像を選択する。類似組生成手段140は、所定の画像と、選択された各画像とを含む組を画像の類似組として生成してもよい。
【0046】
また、類似組生成手段140は、類似度判定手段130で得られた、表示されている対象物体が属するカテゴリ間の類似度に基づいてカテゴリの類似組を生成する。類似組生成手段140は、例えば、上記のいずれかのカテゴリ間類似度判定方法に基づいてカテゴリ間の類似度を判定する。
【0047】
次いで、類似組生成手段140は、判定されたカテゴリ間の類似度に基づいてカテゴリの類似組を生成する。なお、カテゴリの類似組は、以下の方法で生成されてもよい。
【0048】
<カテゴリの類似組の生成方法>
類似組生成手段140は、全M 種類のカテゴリ間の類似度を表すM ×M の行列D に対して、非特許文献3に記載されているスペクトラルクラスタリングを適用することによって、M 種類のカテゴリをK 個の組に分ける(K はクラスタ数)。
【0049】
類似組生成手段140は、分けられた組に含まれるカテゴリ同士を類似するカテゴリとみなし、分けられた組をカテゴリの類似組として生成する。
【0050】
また、類似組生成手段140は、K
1,K
2,・・・,K
u のようにu 個のクラスタ数を使用してクラスタリングを適用してもよい。u 個のクラスタ数が使用されると、M 種類のカテゴリが、カテゴリの類似組に階層的に分けられる。
【0051】
類似組学習データ保持手段150は、学習データ保持手段110が保持する学習データと、類似度判定手段130が判定した類似度と、類似組生成手段140が生成した類似組とに基づいて、類似組学習データを保持する機能を有する。
【0052】
類似組学習データは、例えば、類似組生成手段140が生成した類似組に基づいた、学習データ保持手段110が保持する学習データの組である。また、類似組学習データには、類似度判定手段130が判定した類似度が含まれてもよい。
【0053】
また、類似組学習データは、類似組生成手段140が生成したカテゴリの類似組に基づいた、学習データ保持手段110が保持する画像と、正解カテゴリを示すラベルと、正解カテゴリに類似するカテゴリを示すラベルとを含む組でもよい。なお、正解カテゴリは、画像に表示されている対象物体が属するカテゴリである。
【0054】
第2特徴量学習手段160は、類似組学習データ保持手段150が保持する類似組学習データに基づいて、第2特徴量を学習する機能を有する。第2特徴量は、類似する各画像または類似する各カテゴリを高い精度で認識するために求められる特徴量である。
【0055】
第2特徴量は、例えば多層ニューラルネットワーク等の認識モデルのパラメータである。第2特徴量学習手段160は、例えば、以下の方法で第2特徴量を学習する。
【0056】
<第2特徴量学習方法1>
第2特徴量学習手段160は、例えば、多層ニューラルネットワークを用いる。また、類似組学習データ保持手段150は、類似組生成手段140が生成した画像の類似組を保持しているとする。
【0057】
第2特徴量学習手段160は、多層ニューラルネットワークの重みを更新する。第2特徴量学習手段160は、例えば多層ニューラルネットワークに入力された、類似組学習データ保持手段150が保持する画像の類似組に含まれ、かつ異なるカテゴリに関する画像の対から得られるそれぞれの第1特徴量間の距離が長くなるように重みを更新する。
【0058】
また、第2特徴量学習手段160は、多層ニューラルネットワークに入力された、類似組学習データ保持手段150が保持する画像の類似組に含まれ、かつ同一のカテゴリに関する画像の対から得られるそれぞれの第1特徴量間の距離が短くなるように重みを更新する。
【0059】
第2特徴量学習手段160は、上記のように重みを更新することによって得られる多層ニューラルネットワークが有する中間層の値を第2特徴量とする学習を行う。
【0060】
<第2特徴量学習方法2>
また、第2特徴量学習手段160は、例えば、類似組学習データ保持手段150が画像ごとにカテゴリの類似組を保持する場合、以下の学習を行ってもよい。
【0061】
全M カテゴリの識別を目的とした学習を行う場合、非特許文献1に記載されている多層ニューラルネットワークに対して、第2特徴量学習手段160は、表示されている対象物体がカテゴリC
iに属する画像x を入力する。画像x を入力することによって、第2特徴量学習手段160は、各カテゴリに対するスコアy(x)=[y
1(x),y
2(x),・・・,y
M(x)] をそれぞれ得る。
【0062】
次いで、第2特徴量学習手段160は、重みw=[s
Ci(C
1),s
Ci(C
2), ・・・,s
Ci(C
M)] を用いて、以下のようにy
w(x) を求める。
【0063】
y
w(x) = y(x) * w ・・・式(3)
【0064】
なお、式(3)における「* 」は、要素ごとの積を意味する。また、s
Ci(C
j) は、カテゴリC
iに対するカテゴリC
jの類似具合を示すスカラー値である。例えば、s
Ci(C
j) は、以下のように表記される。
【0066】
すなわち、s
Ci(C
j) は、カテゴリ間の類似度を表す。
【0067】
第2特徴量学習手段160は、y
w(x) を用いてsoftmax cross entropy 損失を求め、損失が小さくなるようにパラメータを更新することによって、多層ニューラルネットワークのパラメータを学習する。
【0068】
また、第2特徴量学習手段160は、y(x)およびw を用いて、以下のようにweighted_softmaxを求める。
【0069】
weighted_softmax(y(x)) = w * exp(y(x)) ・・・式(5)
【0070】
さらに、第2特徴量学習手段160は、画像x の表示されている対象物体が属するカテゴリC
jに対応するi 番目の要素が1 で、i 番目の要素以外の要素が0 となるようなラベルベクトルをt として、以下のLossを計算する。
【0072】
第2特徴量学習手段160は、式(6)で計算される損失Lossに基づいてパラメータを更新することによってパラメータを学習してもよい。また、カテゴリの類似組の生成時にu 個の階層的な類似組が生成されていた場合、多層ニューラルネットワークに対して、第2特徴量学習手段160は、それぞれの階層に対応するu 個の多層ニューラルネットワークのパラメータを学習してもよい。
【0073】
<第2特徴量学習方法3>
また、第2特徴量学習手段160は、例えば、以下のような学習を行ってもよい。
【0074】
まず、第2特徴量学習手段160は、同一の類似組学習データに含まれる学習データ、または同一の類似組学習データに含まれるカテゴリに属する学習データからZ 枚の画像x
1,x
2,・・・,x
z およびZ 個のラベルベクトルl
1,l
2,・・・,l
z を選択する。
【0075】
次に、第2特徴量学習手段160は、比率r
1,r
2,・・・,r
z を用いて、画像とラベルベクトルを以下のように新たに生成する。
【0077】
なお、使用される比率はランダムに選択されてもよい。第2特徴量学習手段160は、画像とラベルベクトルの生成を複数回行う。第2特徴量学習手段160は、生成された画像とラベルベクトルを含む新たな学習データを学習時の入力データとラベルデータとして用いることによって、多層ニューラルネットワークのパラメータを学習してもよい。
【0078】
次に、本実施形態の画像解析装置100が学習した第2特徴量を用いて対象物体を識別する装置を
図3に示す。
図3は、対象識別装置300の構成例を示すブロック図である。
図3に示す対象識別装置300は、本実施形態の画像解析装置100が学習した第2特徴量を用いて対象物体を識別する。
【0079】
図3に示す対象識別装置300は、取得手段310と、第1特徴量抽出手段320と、第2特徴量抽出手段330と、統合判定手段340とを備えている。
【0080】
取得手段310は、対象物体を示す認識対象の画像情報または音情報を取得する機能を有する。取得手段310は、RGBカメラ、デプスカメラ、赤外線カメラ、またはマイクロフォン等のセンサから、認識対象の情報を取得する。取得手段310は、取得された認識対象の情報を第1特徴量抽出手段320に入力する。
【0081】
また、取得手段310は、学習された第2特徴量を画像解析装置100から取得する機能を有する。取得手段310は、取得された第2特徴量を第2特徴量抽出手段330に入力する。
【0082】
第1特徴量抽出手段320は、本実施形態の第1特徴量抽出手段120と同様の機能を有する。すなわち、第1特徴量抽出手段320は、取得手段310により取得された認識対象の情報から第1特徴量を抽出する。第1特徴量抽出手段320は、抽出された第1特徴量を統合判定手段340に入力する。
【0083】
第2特徴量抽出手段330は、入力された第2特徴量を用いて認識モデル(例えば、識別器)を生成する機能を有する。第2特徴量抽出手段330は、生成された認識モデルを統合判定手段340に入力する。
【0084】
統合判定手段340は、入力された第1特徴量と認識モデルとに基づいて、認識対象の情報に対して認識を行う機能を有する。
【0085】
統合判定手段340は、例えば第2特徴量に基づいて予め生成された識別器から、対象物体が各カテゴリに属する確率をそれぞれ得る。次いで、統合判定手段340は、識別器から得られた確率に基づいて、対象物体の認識を行う。
【0086】
また、第2特徴量抽出手段330は、特徴量A(例えば、[aaaa])と特徴量B(例えば、[bbbb])とが結合された第2特徴量(例えば、[aaaabbbb])を用いて予め識別器を生成する。統合判定手段340は、生成された識別器を用いて、対象物体の認識を行ってもよい。認識を行った後、統合判定手段340は、認識結果を出力する。
【0087】
[動作の説明]
以下、本実施形態の画像解析装置100の特徴量を学習する動作を
図4を参照して説明する。
図4は、第1の実施形態の画像解析装置100による特徴量学習処理の動作を示すフローチャートである。
【0088】
第1特徴量抽出手段120は、学習データ保持手段110が保持する学習データから第1特徴量を抽出する(ステップS101)。第1特徴量抽出手段120は、抽出された第1特徴量を類似度判定手段130に入力する。
【0089】
次いで、類似度判定手段130は、カテゴリ間の類似度を判定するか否かを判断する(ステップS102)。カテゴリ間の類似度を判定する場合(ステップS102におけるYes )、類似度判定手段130は、入力された第1特徴量に基づいて、予め学習された識別器を用いて各学習データを識別する(ステップS103)。
【0090】
次いで、類似度判定手段130は、ステップS103で得られた各学習データの識別結果に基づいて、各学習データに含まれるカテゴリ間の類似度を判定する(ステップS104)。なお、各学習データの識別結果は、識別器が出力する。類似度判定手段130は、判定された類似度を類似組生成手段140に入力する。
【0091】
次いで、類似組生成手段140は、入力されたカテゴリ間の類似度に基づいて、類似度が高いカテゴリ同士を1つの組にまとめることによって、カテゴリの類似組を生成する(ステップS105)。カテゴリの類似組を生成した後、画像解析装置100は、ステップS108の処理を行う。
【0092】
カテゴリ間の類似度を判定しない場合(ステップS102におけるNo)、類似度判定手段130は、各学習データ(例えば、画像)間の類似度を判定する方法を選択する。
【0093】
類似度判定手段130は、ステップS101で取得された第1特徴量間の距離に基づいて、学習データ保持手段110が保持する学習データ間の類似度を判定する(ステップS106)。類似度判定手段130は、判定された学習データ間の類似度を類似組生成手段140に入力する。
【0094】
次いで、類似組生成手段140は、入力された学習データ間の類似度に基づいて、類似度が高い学習データ同士を1つの組にまとめることによって、学習データの類似組を生成する(ステップS107)。学習データの類似組を生成した後、画像解析装置100は、ステップS108の処理を行う。
【0095】
次いで、類似組学習データ保持手段150は、学習データ保持手段110が保持する学習データと、ステップS105またはステップS107で得られた類似組の情報に基づいて、類似組学習データを生成する(ステップS108)。類似組学習データ保持手段150は、生成された類似組学習データを保持する。
【0096】
次いで、第2特徴量学習手段160は、類似組学習データ保持手段150が保持する類似組学習データに基づいて、第2特徴量を学習する(ステップS109)。第2特徴量を学習した後、画像解析装置100は、特徴量学習処理を終了する。
【0097】
[効果の説明]
本実施形態の画像解析装置100は、学習データを保持する学習データ保持手段110と、学習データから第1特徴量を抽出する第1特徴量抽出手段120と、抽出された第1特徴量に基づいて誤認識されやすい複数のデータの類似度を判定する類似度判定手段130とを備える。
【0098】
また、本実施形態の画像解析装置100は、類似度判定手段130が判定した類似度に基づいて類似組を生成する類似組生成手段140と、学習データと類似組とに基づいて生成される類似組学習データを保持する類似組学習データ保持手段150とを備える。また、本実施形態の画像解析装置100は、類似組学習データに基づいて、第2特徴量を学習する第2特徴量学習手段160を備える。
【0099】
本実施形態の画像解析装置100の類似組生成手段140は、類似性が高く誤認識されやすい画像の組およびカテゴリの組を生成するため、類似する各画像または類似する各カテゴリを高い精度で認識するために求められる特徴量を学習できる。
【0100】
実施形態2.
[構成の説明]
次に、本発明の第2の実施形態を、図面を参照して説明する。
図5は、本発明による画像解析装置の第2の実施形態の構成例を示す説明図である。
図5に示す画像解析装置200は、特徴量学習技術を提供する装置である。
【0101】
なお、
図5は、第2の実施形態の画像解析装置の構成の理解を容易にすることを目的とする図である。第2の実施形態の画像解析装置の構成は、
図5に示す構成に限定されない。
【0102】
図5に示す画像解析装置200は、学習データ保持手段210と、第1特徴量抽出手段220と、類似度判定手段230と、類似組生成手段240と、類似組学習データ保持手段250と、第2特徴量学習手段260と、注目領域特定手段270とを備えている。
【0103】
学習データ保持手段210、第1特徴量抽出手段220、類似度判定手段230、類似組生成手段240、および類似組学習データ保持手段250が有する各機能は、第1の実施形態の学習データ保持手段110、第1特徴量抽出手段120、類似度判定手段130、類似組生成手段140、および類似組学習データ保持手段150が有する各機能とそれぞれ同様である。
【0104】
注目領域特定手段270は、識別器が各画像に表示されている対象物体が属する各カテゴリを識別するために重視する画像内の領域である注目領域を特定する機能を有する。注目領域特定手段270は、学習データ保持手段210が保持する画像に対して第1特徴量抽出手段220により抽出された第1特徴量に基づいた識別が行われる際に、注目領域を特定する。
【0105】
図6は、第2の実施形態の注目領域特定手段270が特定する注目領域の例を示す説明図である。
図6における上段には、人間、犬、花の各サンプル画像が示されている。すなわち、
図6に示す例では、注目領域特定手段270は、人間、犬、花の3カテゴリを識別先の対象とする。
【0106】
また、
図6に示す識別対象画像には、人間が表示されている。
図6における下段の2列目に示すように、注目領域特定手段270は、識別対象画像に人間が表示されていると認識されるための注目領域を、顔、手、足に特定する。なお、
図6に示す白色の円が、注目領域を表す。また、注目領域は、顔、手、足以外の部位に特定されてもよい。
【0107】
また、注目領域特定手段270は、
図6における下段の3列目に示すように、人間が表示されている識別対象画像に犬が表示されていると認識されるための注目領域を、顔に特定する。その理由は、人間の顔と犬の顔が両者の中で比較的類似する部位であるためである。よって、注目領域は、顔以外の犬と類似する部位に特定されてもよい。
【0108】
また、注目領域特定手段270は、
図6における下段の4列目に示すように、人間が表示されている識別対象画像に花が表示されていると認識されるための注目領域を、服の中の花柄の部分に特定する。また、注目領域は、花柄の部分以外の部分に特定されてもよい。注目領域特定手段270は、特定されたカテゴリごとの注目領域を示す情報を保持する。
【0109】
注目領域を特定するために、注目領域特定手段270は、例えば特徴点マッチングによる識別において、各カテゴリとマッチングが成功した特徴点の周辺のみを抽出する。
【0110】
また、多層ニューラルネットワークが識別器として使用される場合、注目領域特定手段270は、識別器が重視する領域を判定する手法に、例えば非特許文献4に記載されている手法を用いる。非特許文献4に記載されている手法が用いられると、多層ニューラルネットワークは、各カテゴリの出力に寄与している画像の位置を識別時に特定できる。
【0111】
第2特徴量学習手段260は、類似組学習データ保持手段250と注目領域特定手段270とを用いて第2特徴量を学習する機能を有する。例えば、第2特徴量学習手段260は、類似組学習データ保持手段250が保持するカテゴリの類似組と、注目領域特定手段270が有するカテゴリごとの注目領域を示す情報とに基づいて、第2特徴量を学習できる。
【0112】
具体的には、第2特徴量学習手段260は、カテゴリの類似組に含まれる各カテゴリの注目領域から、類似組に含まれる各カテゴリで共通する注目領域を除外した上で学習を行う。
【0113】
図7は、第2の実施形態の第2特徴量学習手段260による注目領域が用いられた学習の例を示す説明図である。
図7に示す例でも、第2特徴量学習手段260は、人間、犬、花の3カテゴリを識別先の対象とする。
【0114】
類似組生成手段240が、予め人間と犬の2カテゴリが属する類似組を生成したとする。
図7に示す人間が表示されている識別対象画像に対して、第2特徴量学習手段260は、識別対象画像に人間が表示されていると認識されるための注目領域と、犬が表示されていると認識されるための注目領域のうち、重複している領域であるAND 領域を得る。
【0115】
図7に示す例であれば、得られるAND 領域は、例えば人間と犬の中で比較的類似している部位である顔の領域である。AND 領域を得た後、第2特徴量学習手段260は、
図7に示す加工後識別対象画像のように、AND 領域を所定の模様で塗り潰す。所定の模様で塗り潰すことによって、第2特徴量学習手段260は、AND 領域を学習の対象から除外する。
【0116】
または、第2特徴量学習手段260は、AND 領域を所定の模様で塗り潰す代わりにAND 領域から得られる第2特徴量を強制的に0にする。または、第2特徴量学習手段260は、AND 領域から得られる注目度の大きさに応じた確率を0にする。
【0117】
以上の処理を実行した後、第2特徴量学習手段260は、加工後識別対象画像における他の領域(例えば、体の部分)を用いて、第1の実施形態と同様に学習を行う。AND 領域が学習の対象から除外されているため、第2特徴量学習手段260は、表示されている対象物体が属するカテゴリがより高精度に識別されるために求められる第2特徴量を学習できる。
【0118】
また、本実施形態で学習された第2特徴量も、
図3に示す対象識別装置300で使用されてよい。対象識別装置300は、第1の実施形態における識別方法と同様の方法で対象物体を識別できる。
【0119】
[動作の説明]
以下、本実施形態の画像解析装置200の特徴量を学習する動作を
図8を参照して説明する。
図8は、第2の実施形態の画像解析装置200による特徴量学習処理の動作を示すフローチャートである。
【0120】
第1特徴量抽出手段220は、学習データ保持手段210が保持する学習データから第1特徴量を抽出する(ステップS201)。第1特徴量抽出手段220は、抽出された第1特徴量を類似度判定手段230に入力する。
【0121】
次いで、類似度判定手段230は、入力された第1特徴量に基づいて、予め学習された識別器を用いて各学習データを識別する(ステップS202)。
【0122】
次いで、類似度判定手段230は、ステップS202で得られた各学習データの識別結果に基づいて、各学習データに含まれるカテゴリ間の類似度を判定する(ステップS203)。なお、各学習データの識別結果は、識別器が出力する。類似度判定手段230は、判定された類似度を類似組生成手段240に入力する。
【0123】
次いで、類似組生成手段240は、入力されたカテゴリ間の類似度に基づいて、類似度が高いカテゴリ同士を1つの組にまとめることによって、カテゴリの類似組を生成する(ステップS204)。
【0124】
次いで、注目領域特定手段270は、識別器が識別時に重視する領域である注目領域を、各学習データに含まれるカテゴリごとに特定する(ステップS205)。注目領域特定手段270は、特定されたカテゴリごとの注目領域を示す情報を保持する。
【0125】
次いで、類似組学習データ保持手段250は、学習データ保持手段210が保持する学習データと、ステップS204で類似組生成手段240が生成した類似組の情報に基づいて、類似組学習データを生成する(ステップS206)。類似組学習データ保持手段250は、生成された類似組学習データを保持する。
【0126】
次いで、第2特徴量学習手段260は、類似組学習データ保持手段250が保持する類似組学習データと、注目領域特定手段270が保持する注目領域を示す情報とに基づいて、第2特徴量を学習する(ステップS207)。第2特徴量を学習した後、画像解析装置200は、特徴量学習処理を終了する。
【0127】
[効果の説明]
本実施形態の画像解析装置200の注目領域特定手段270は、類似するカテゴリに表示されている対象物体がそれぞれ属する各画像における注目領域を特定する。次いで、第2特徴量学習手段260がカテゴリ間で共通の注目領域を除外することによって、より違いの大きい部分が優先して学習される。すなわち、本実施形態の画像解析装置200は、類似するカテゴリにそれぞれ属する画像に表示されている対象物体の認識に有効な特徴量を学習できる。
【0128】
以下、各実施形態の画像解析装置100、および画像解析装置200のハードウェア構成の具体例を説明する。
図9は、本発明による画像解析装置のハードウェア構成例を示す説明図である。
【0129】
図9に示す画像解析装置は、CPU(Central Processing Unit)101と、主記憶部102と、通信部103と、補助記憶部104とを備える。また、ユーザが操作するための入力部105や、ユーザに処理結果または処理内容の経過を提示するための出力部106を備えてもよい。
【0130】
主記憶部102は、データの作業領域やデータの一時退避領域として用いられる。主記憶部102は、例えばRAM(Random Access Memory)である。
【0131】
通信部103は、有線のネットワークまたは無線のネットワーク(情報通信ネットワーク)を介して、周辺機器との間でデータを入力および出力する機能を有する。
【0132】
補助記憶部104は、一時的でない有形の記憶媒体である。一時的でない有形の記憶媒体として、例えば磁気ディスク、光磁気ディスク、CD−ROM(Compact Disk Read Only Memory)、DVD−ROM(Digital Versatile Disk Read Only Memory)、半導体メモリが挙げられる。
【0133】
入力部105は、データや処理命令を入力する機能を有する。入力部105は、例えばキーボードやマウス等の入力デバイスである。
【0134】
出力部106は、データを出力する機能を有する。出力部106は、例えば液晶ディスプレイ装置等の表示装置、またはプリンタ等の印刷装置である。
【0135】
また、
図9に示すように、画像解析装置において、各構成要素は、システムバス107に接続されている。
【0136】
補助記憶部104は、例えば、第1特徴量抽出手段120、類似度判定手段130、類似組生成手段140、第2特徴量学習手段160、第1特徴量抽出手段220、類似度判定手段230、類似組生成手段240、第2特徴量学習手段260、および注目領域特定手段270を実現するためのプログラムを記憶している。
【0137】
また、主記憶部102は、例えば、学習データ保持手段110、類似組学習データ保持手段150、学習データ保持手段210、および類似組学習データ保持手段250の記憶領域として利用される。
【0138】
なお、画像解析装置100、および画像解析装置200は、ハードウェアにより実現されてもよい。例えば、画像解析装置100は、内部に
図1に示すような機能、または
図5に示すような機能を実現するプログラムが組み込まれたLSI(Large Scale Integration)等のハードウェア部品が含まれる回路が実装されてもよい。
【0139】
また、画像解析装置100、および画像解析装置200は、
図9に示すCPU101が
図1に示す各構成要素が有する機能、または
図5に示す各構成要素が有する機能を提供するプログラムを実行することによって、ソフトウェアにより実現されてもよい。
【0140】
ソフトウェアにより実現される場合、CPU101が補助記憶部104に格納されているプログラムを、主記憶部102にロードして実行し、画像解析装置100、または画像解析装置200の動作を制御することによって、各機能がソフトウェアにより実現される。
【0141】
また、
図3に示す対象識別装置300は、ハードウェアにより実現されてもよい。また、対象識別装置300は、
図9に示すCPU101が
図3に示す各構成要素が有する機能を提供するプログラムを実行することによって、ソフトウェアにより実現されてもよい。
【0142】
また、各構成要素の一部または全部は、汎用の回路(circuitry)または専用の回路、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
【0143】
各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
【0144】
次に、本発明の概要を説明する。
図10は、本発明による画像解析装置の概要を示すブロック図である。本発明による画像解析装置10は、画像と画像に表示されている認識対象の物体を示す情報とを含む複数の学習データのうち類似する学習データ同士の組である類似組を生成する生成部11(例えば、類似組生成手段240、および類似組学習データ保持手段250)と、生成された類似組を用いて所定の認識モデルが生成された類似組に含まれる各画像に表示されている認識対象の物体をそれぞれ認識可能な所定の認識モデルのパラメータ(例えば、第2特徴量)を学習する学習部12(例えば、第2特徴量学習手段260)とを備える。
【0145】
そのような構成により、画像解析装置は、画像に表示されている認識対象の物体を高い精度でより容易に認識できる。
【0146】
また、画像解析装置10は、学習データに含まれる画像内の認識に使用される領域を認識領域として特定する特定部(例えば、注目領域特定手段270)を備え、学習部12は、生成された類似組に含まれる各画像内の特定された認識領域を用いて学習してもよい。
【0147】
そのような構成により、画像解析装置は、画像に表示されている認識対象の物体をより高い精度で認識できる。
【0148】
また、学習部12は、生成された類似組に含まれる各画像内の特定された認識領域のうち画像間で重複する認識領域を除いて所定の認識モデルのパラメータを学習してもよい。
【0149】
そのような構成により、画像解析装置は、画像に表示されている認識対象の物体をより高い精度で認識できる。
【0150】
また、画像解析装置10は、複数の学習データの類似度を判定する判定部(例えば、類似度判定手段130、または類似度判定手段230)を備え、生成部11は、判定された類似度に基づいて類似組を生成してもよい。
【0151】
そのような構成により、画像解析装置は、類似度が指定された値よりも高い複数の学習データを入力として学習を実行できる。
【0152】
また、画像解析装置10は、学習データに含まれる画像の特徴量を抽出する抽出部(例えば、第1特徴量抽出手段120、または第1特徴量抽出手段220)を備え、判定部は、複数の学習データからそれぞれ抽出された特徴量間の距離に基づいて複数の学習データの類似度を判定してもよい。
【0153】
そのような構成により、画像解析装置は、画像の特徴量に基づいて複数の学習データの類似度を判定できる。
【0154】
また、学習データは、学習データに含まれる画像に表示されている認識対象の物体が属するカテゴリを示す情報を含み、判定部は、複数の学習データからそれぞれ抽出された特徴量に基づいて複数の学習データがそれぞれ示す認識対象の物体がそれぞれ属する複数のカテゴリの類似度を判定してもよい。
【0155】
そのような構成により、画像解析装置は、認識対象の各物体がそれぞれ属するカテゴリが類似する複数の学習データを入力として学習を実行できる。
【0156】
また、生成部11は、各画像に表示されている認識対象の物体が属するカテゴリが類似する学習データ同士の組を類似組として生成し、学習部12は、所定の認識モデルが生成された類似組に含まれる各認識対象の物体がそれぞれ属するカテゴリをそれぞれ認識可能な所定の認識モデルのパラメータを学習してもよい。
【0157】
そのような構成により、画像解析装置は、類似する画像に表示されている認識対象の各物体がそれぞれ属するカテゴリを高い精度で認識できる。
【0158】
また、学習部12は、学習時に類似するカテゴリ間のみの誤りに対する損失を強調するように重みづけを行ってもよい。また、判定部は、カテゴリ識別における各カテゴリらしさの積算値に基づいて複数のカテゴリの類似度を判定してもよい。
【0159】
また、画像解析装置10は、学習データを保持する学習データ保持部(例えば、学習データ保持手段110、または学習データ保持手段210)を備えてもよい。また、画像解析装置10は、学習データ保持部が保持する学習データと、生成部11が生成する類似組に基づいて生成される、類似組を示す情報を有する学習データを保持する類似組学習データ保持部(例えば、類似組学習データ保持手段150、または類似組学習データ保持手段250)を備えてもよい。
【0160】
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。