(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-01
(45)【発行日】2023-02-09
(54)【発明の名称】学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20230202BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2018223405
(22)【出願日】2018-11-29
【審査請求日】2021-08-10
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100121083
【氏名又は名称】青木 宏義
(74)【代理人】
【識別番号】100138391
【氏名又は名称】天田 昌行
(74)【代理人】
【識別番号】100074099
【氏名又は名称】大菅 義之
(74)【代理人】
【識別番号】100133570
【氏名又は名称】▲徳▼永 民雄
(72)【発明者】
【氏名】樋田 祐輔
【審査官】新井 則和
(56)【参考文献】
【文献】特開2018-185724(JP,A)
【文献】特開2018-181157(JP,A)
【文献】特開2018-173814(JP,A)
【文献】特開2016-045538(JP,A)
【文献】My人工知能の育て方 第4章 いい人工知能作り成功のカギ 学習データ作りの基本,Interface 2018年12月号,2018年10月30日
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
機械学習における学習対象物に関連する複数の画像各々と、前記複数の画像のうち他の画像との間の画像マッチングの結果に基づいて、各画像
に写っている対象物の形状を表す注目領域を特定し、
前記複数の画像それぞれについて、前記注目領域以外の
背景領域に対して不鮮明化処理を適用し、
前記不鮮明化処理が適用された複数の画像を含む学習データを生成する、
処理をコンピュータに実行させるための学習データ生成プログラム。
【請求項2】
前記複数の画像各々は、前記学習対象物と同じ種類の対象物が写っている画像であることを特徴とする請求項1記載の学習データ生成プログラム。
【請求項3】
前記コンピュータは、前記複数の画像各々と前記他の画像との間の画像マッチングを行って、各画像内における特徴点の頻度分布を求め、求めた頻度分布に基づいて、前記注目領域を特定することを特徴とする請求項1又は2記載の学習データ生成プログラム。
【請求項4】
前記コンピュータは、前記
背景領域内の各特徴点の頻度値に応じて、各特徴点を含む所定領域を決定し、決定した所定領域に対して前記不鮮明化処理を適用することを特徴とする請求項3記載の学習データ生成プログラム。
【請求項5】
前記不鮮明化処理は、ぼかし処理、コントラスト変更処理、グレースケール化処理、セピア化処理、膨張処理、収縮処理、又はジッター処理であることを特徴とする請求項1乃至4のいずれか1項に記載の学習データ生成プログラム。
【請求項6】
機械学習における学習対象物に関連する複数の画像を記憶する記憶部と、
前記複数の画像各々と、前記複数の画像のうち他の画像との間の画像マッチングの結果に基づいて、各画像
に写っている対象物の形状を表す注目領域を特定する特定部と、
前記複数の画像それぞれについて、前記注目領域以外の
背景領域に対して不鮮明化処理を適用する不鮮明化部と、
前記不鮮明化処理が適用された複数の画像を含む学習データを生成する生成部と、
を備えることを特徴とする学習データ生成装置。
【請求項7】
コンピュータにより実行される学習データ生成方法であって、前記コンピュータが、
機械学習における学習対象物に関連する複数の画像各々と、前記複数の画像のうち他の画像との間の画像マッチングの結果に基づいて、各画像
に写っている対象物の形状を表す注目領域を特定し、
前記複数の画像それぞれについて、前記注目領域以外の
背景領域に対して不鮮明化処理を適用し、
前記不鮮明化処理が適用された複数の画像を含む学習データを生成する、
ことを特徴とする学習データ生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法に関する。
【背景技術】
【0002】
近年、様々な物体が写っている画像を自動的に分類する人工知能の分野において、分類の正解率を向上させる取り組みが行われている。例えば、人工知能のモデルとして、畳み込みニューラルネットワーク(Convolutional Neural Network,CNN)が知られている(例えば、非特許文献1を参照)。
【0003】
CNNを用いた分類処理では、入力された画像に対して畳み込み演算を行うことで、その画像から特徴量が抽出され、抽出された特徴量に基づいて、画像がいずれかのクラスに分類される。この場合、深層学習の層数又はネットワーク構造を変化させることで、特徴量の抽出精度を向上させ、分類の正解率を高めることができる。画像から抽出される特徴量としては、様々なものが知られている(例えば、非特許文献2~非特許文献5を参照)。
【0004】
クエリ画像に類似した画像を検索する画像検索方法、3次元形状モデルから特徴点を選択する特徴点選択システム、及び観察対象の三次元座標とカメラ画像の二次元座標とを対応付ける画像処理装置も知られている(例えば、特許文献1~特許文献3を参照)。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2011-008507号公報
【文献】特開2010-218051号公報
【文献】特開2014-038566号公報
【非特許文献】
【0006】
【文献】A. Krizhevsky et al.,“ImageNet Classification with Deep Convolutional Neural Networks”, NIPS'12 Proceedings of the 25th International Conference on Neural Information Processing Systems, Volume 1, Pages 1097-1105, December 2012.
【文献】E. Rublee et al.,“ORB: an efficient alternative to SIFT or SURF”, ICCV '11 Proceedings of the 2011 International Conference on Computer Vision, Pages 2564-2571, November 2011.
【文献】P. F. Alcantarilla et al.,“KAZE Features”, Computer Vision - ECCV 2012, Pages 214-227, 2012.
【文献】D. G. Lowe,“Distinctive Image Features from Scale-Invariant Keypoints”, International Journal of Computer Vision, Volume 60 Issue 2, Pages 91-110, November 2004.
【文献】H. Bay et al.,“Speeded-Up Robust Features (SURF)”, Computer Vision and Image Understanding, Volume 110 Issue 3, Pages 346-359, June 2008.
【発明の概要】
【発明が解決しようとする課題】
【0007】
画像分類の正解率を向上させるためには、画像に写っている人間等の分類対象物と、背景等の分類非対象物とから、分類精度を向上させる特徴量を抽出することが有効である。
【0008】
しかしながら、CNNを用いて画像分類を行う場合、CNNの学習データとして与えられる画像の枚数によって、分類対象物の特徴量の抽出精度が低下することがある。
【0009】
なお、かかる問題は、CNNを用いた画像分類に限らず、機械学習に基づく他のモデルを用いた画像処理においても生ずるものである。
【0010】
1つの側面において、本発明は、機械学習を用いた画像処理において、画像に写っている物体の判別精度を向上させることを目的とする。
【課題を解決するための手段】
【0011】
1つの案では、学習データ生成プログラムは、以下の処理をコンピュータに実行させる。
(1)コンピュータは、機械学習における学習対象物に関連する複数の画像各々と他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定する。
(2)コンピュータは、複数の画像それぞれについて、注目領域以外の領域に対して不鮮明化処理を適用する。
(3)コンピュータは、不鮮明化処理が適用された複数の画像を含む学習データを生成する。
【発明の効果】
【0012】
実施形態によれば、機械学習を用いた画像処理において、画像に写っている物体の判別精度を向上させることができる。
【図面の簡単な説明】
【0013】
【
図2】学習データ生成処理のフローチャートである。
【
図6】頻度値とフィルタ領域の関係を示す図である。
【
図9】学習データ生成処理の具体例を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら、実施形態を詳細に説明する。
CNNを用いて分類を行う場合、大量の画像を学習データとして与えれば、それらの画像から分類対象物の特徴量のみを抽出するように、CNNに対する学習が行われる。大量の画像としては、例えば、数万枚以上の画像が想定される。
【0015】
しかしながら、学習データとして少量の画像しか与えられない場合、学習結果に対する1枚の画像の影響が大きくなるため、分類に不要な分類非対象物の特徴量も抽出する学習が行われる可能性が高くなる。少量の画像としては、例えば、数十枚~数百枚の画像が想定される。
【0016】
一方、セグメンテーションによって、画像から分類対象物が写っている領域を切り出せば、分類非対象物の特徴量が抽出されることを防止できる。しかし、セグメンテーションを行うためには、教師あり学習のための正解データを作成する作業が発生する。
【0017】
図1は、実施形態の学習データ生成装置の機能的構成例を示している。
図1の学習データ生成装置101は、記憶部111、特定部112、不鮮明化部113、及び生成部114を含む。記憶部111は、機械学習における学習対象物に関連する複数の画像を記憶する。特定部112、不鮮明化部113、及び生成部114は、記憶部111が記憶する複数の画像を用いて、学習データ生成処理を行う。
【0018】
図2は、
図1の学習データ生成装置101が行う学習データ生成処理の例を示すフローチャートである。まず、特定部112は、記憶部111が記憶する各画像と他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定する(ステップ201)。
【0019】
次に、不鮮明化部113は、記憶部111が記憶する複数の画像それぞれについて、注目領域以外の領域に対して不鮮明化処理を適用する(ステップ202)。そして、生成部114は、不鮮明化処理が適用された複数の画像を含む学習データを生成する(ステップ203)。
【0020】
このような学習データ生成装置101によれば、機械学習を用いた画像処理において、画像に写っている物体の判別精度を向上させることができる。
【0021】
図3は、
図1の学習データ生成装置101を含む画像分類システムの機能的構成例を示している。
図3の画像分類システムは、学習データ生成装置101及び画像分類装置301を含む。
【0022】
学習データ生成装置101は、記憶部111、特定部112、不鮮明化部113、生成部114、及び通信部311を含む。記憶部111は、機械学習における学習対象物と同じ種類の分類対象物が写っている複数の画像321を記憶する。例えば、学習対象物が人間である場合、各画像321は人間が写っている画像であり、学習対象物が自動車である場合、各画像321は自動車が写っている画像であり、学習対象物が船である場合、各画像321は船が写っている画像である。
【0023】
画像321に写っている分類対象物の種類は、ユーザが目視によって判定してもよく、学習データ生成装置101が、画像321に付加されたタグに基づいて判定してもよい。
【0024】
図4は、画像321の例を示している。この例では、学習対象物は船であり、
図4の画像には、分類対象物である船とともに、分類非対象物である背景が写っている。例えば、領域402及び領域403内には山が含まれており、領域404内には建物が含まれており、領域405内には海が含まれている。
【0025】
背景の影響を低減するために、船が写っている矩形領域401を境界ボックスによって切り取る処理を行っても、矩形領域401内には背景の一部が含まれる。このため、CNNに対する学習では、分類対象物の情報を学習する際に、その周辺に写っている分類非対象物の情報も含めて学習してしまう。
【0026】
そこで、特定部112は、各画像321と他の画像321との間の画像マッチングを行って、各画像321内における特徴点の頻度分布322を求め、求めた頻度分布322を記憶部111に格納する。そして、特定部112は、頻度分布322に基づいて、各画像321内における注目領域を特定する。
【0027】
学習対象物と同じ種類の対象物が写っている画像321を用いることで、画像間における画像マッチングを行うことが可能になり、画像間で特徴点同士を対応付けることができる。例えば、特定部112は、以下のような特徴量を用いて画像マッチングを行うことができる。
(F1)非特許文献2に記載されたORB(Oriented FAST and Rotated BRIEF)
(F2)非特許文献3に記載されたKAZE特徴量
(F3)Accelerated-KAZE特徴量
(F4)非特許文献4に記載されたSIFT(Scale-Invariant Feature Transform)特徴量
(F5)非特許文献5に記載されたSURF(Speeded-Up Robust Features)
頻度分布322は、処理対象の画像321内の複数の特徴点それぞれに対する頻度値を含み、各特徴点に対する頻度値は、その特徴点に対応付けられた、他のすべての画像321内の特徴点の個数を表す。特定部112は、他のすべての画像321内の特徴点を処理対象の画像321上に写像することで、頻度分布322を生成する。
【0028】
図5は、船が写っている矩形領域の画像と頻度分布322の例を示している。
図5(a)は、矩形領域の画像の例を示しており、
図5(b)は、
図5(a)の矩形領域に対する頻度分布322の例を示している。
図5(b)の頻度分布322において、
図5(a)の矩形領域から抽出された各特徴点の頻度値に応じて、その特徴点に対応する画素の色を変更することで、矩形領域内における頻度値の分布を表すことができる。
【0029】
例えば、特定部112は、頻度分布322において、所定の閾値よりも大きな頻度値を有する特徴点の集合を、注目領域として抽出する。これにより、矩形領域内の分類対象物の形状を表す特徴点のみを注目領域として抽出することが可能になる。
【0030】
不鮮明化部113は、各画像321の頻度分布322を参照して、注目領域以外の領域に含まれる複数の特徴点それぞれの頻度値を取得し、各特徴点の頻度値に応じて、その特徴点を含む所定領域を決定する。そして、不鮮明化部113は、決定した所定領域に対して不鮮明化処理を適用することで、注目領域以外の領域の画像を不鮮明化する。例えば、不鮮明化部113は、以下のような不鮮明化処理を適用することができる。
(P1)ぼかし処理
(P2)コントラスト変更処理
(P3)グレースケール化処理
(P4)セピア化処理
(P5)膨張処理
(P6)収縮処理
(P7)ジッター処理
【0031】
ぼかし処理は、所定領域内の画素に対して、ぼかしフィルタによるフィルタ処理を適用して、それらの画素の画素値を統計値に置き換える処理である。例えば、ぼかしフィルタとしては、Blur_filter、Gaussian_blur、median_blur等を用いることができ、統計値としては、所定領域内の画素の画素値の平均値、中央値、最大値、最小値等を用いることができる。
【0032】
コントラスト変更処理は、所定領域内の画素の明度、色相、輝度、彩度等を増減することで、情報量を低下させる処理であり、グレースケール化処理及びセピア化処理は、所定領域内の画素のRGB値の分散を狭めることで、情報量を低下させる処理である。
【0033】
膨張処理は、特徴点の明度を、その特徴点を含む所定領域内における明度の最大値に置き換える処理であり、収縮処理は、特徴点の明度を、その特徴点を含む所定領域内における明度の最小値に置き換える処理である。膨張処理又は収縮処理によれば、特徴点の情報量を、周辺の状況に合わせて低下させることができる。ジッター処理は、所定領域内の画素の画素値をランダム化してノイズに変換することで、特徴量が抽出されにくくする処理である。
【0034】
不鮮明化部113は、画像321に写っている分類非対象物に応じて、異なる不鮮明化処理を適用することもできる。例えば、背景に海面が含まれる場合、コントラストを低減する処理を適用することで、海面による光の反射を表す特徴量が抽出されにくくなる。背景に波が含まれる場合、膨張処理又は収縮処理を適用することで、波を表す特徴量が抽出されにくくなる。背景に山、建物等の物体が含まれる場合、ジッター処理を適用することで、物体の輪郭線がノイズに変換され、その物体を表す特徴量が抽出されにくくなる。
【0035】
各画像321に対して適用される不鮮明化処理の種類は、ユーザが指定してもよく、不鮮明化部113が所定のアルゴリズムを用いて分類非対象物を特定し、特定した分類非対象物に応じて不鮮明化処理の種類を決定してもよい。
【0036】
図6は、不鮮明化処理としてぼかし処理を用いた場合の各特徴点に対する頻度値とフィルタ領域の関係の例を示している。
図6の横軸は、各特徴点の頻度値を表し、縦軸は、各特徴点を含む所定領域であるフィルタ領域の面積を表す。この例では、閾値T以下の頻度値を有する特徴点に対するフィルタ領域の面積は、頻度値が増加するにつれて段階的に減少している。なお、閾値Tよりも大きな頻度値を有する特徴点は注目領域として抽出されるため、その特徴点に対してフィルタ領域が設定されることはない。
【0037】
頻度値が増加するにつれてフィルタ領域を狭くすることで、他の画像321とマッチした回数が多い特徴点ほど、不鮮明化される画像領域を限定することが可能になる。これにより、特徴点が分類対象物の形状を表す可能性が低いほど、不鮮明化の度合いを大きくし、特徴点が分類対象物の形状を表す可能性が高いほど、不鮮明化の度合いを小さくすることができる。
【0038】
図7は、特徴点に対して設定された2段階のフィルタ領域の例を示している。特徴点701の頻度値が所定値以下である場合、特徴点701を中心とする5×5のフィルタ領域703が設定され、特徴点701の頻度値が所定値よりも大きい場合、特徴点701を中心とする3×3のフィルタ領域702が設定される。
【0039】
図8は、
図5(a)の矩形領域内の注目領域以外の領域に対してぼかし処理を適用することで不鮮明化された画像の例を示している。この場合、分類対象物である船の形状を表す特徴点以外の特徴点に対してフィルタ領域が設定され、そのフィルタ領域に対して、ぼかしフィルタによるフィルタ処理が適用される。これにより、船の背景が不鮮明化される。
【0040】
このように、分類対象物の形状を表す特徴点のみからなる注目領域を特定して、それ以外の領域の画像を不鮮明化することで、分類非対象物の特徴量の影響を低下させることができる。したがって、不鮮明化された画像321を用いた学習処理において、分類非対象物が不活性化され、その特徴量が抽出されにくくなる。
【0041】
生成部114は、不鮮明化処理が適用された複数の画像321を含む学習データ323を生成して、記憶部111に格納し、通信部311は、通信ネットワーク302を介して、学習データ323を画像分類装置301へ送信する。
【0042】
画像分類装置301は、通信部331、CNN332、及び記憶部333を含む。通信部331は、学習データ生成装置101から学習データ323を受信し、受信した学習データ323を記憶部333に格納する。
【0043】
CNN332は、画像を分類する分類器であり、入力された画像に写っている分類対象物の特徴に応じて、その画像を複数のクラスのいずれかに分類する。まず、CNN332は、学習データ323を用いて学習処理を行うことで、ニューラルネットワークの各層におけるパラメータを決定する。
【0044】
次に、CNN332は、分類対象の画像341を入力データとして用いて分類処理を行い、画像341をいずれかのクラスに分類する。そして、CNN332は、分類したクラスを示す分類結果342を生成して、記憶部333に格納する。
【0045】
図3の画像分類システムによれば、学習データ323が少量の画像321しか含んでいない場合であっても、CNN332は、それらの画像321に写っている分類対象物の特徴を効率よく学習することができる。したがって、画像341に写っている分類対象物の判別精度が向上し、分類の正解率を高めることが可能になる。
【0046】
図9は、
図3の学習データ生成装置101が行う学習データ生成処理の具体例を示すフローチャートである。この例では、記憶部111は、複数の画像321として、画像X1~画像Xn(nは2以上の整数)を記憶する。
【0047】
まず、特定部112は、処理対象の画像Xi(i=1~n)を示す制御変数iに1を設定し、比較対象の画像Xj(j=1~n)を示す制御変数jに1を設定して、iとjを比較する(ステップ901)。i=jである場合(ステップ901,YES)、特定部112は、jを1だけインクリメントして、ステップ901の処理を繰り返す。
【0048】
一方、i≠jである場合(ステップ901,NO)、特定部112は、画像Xiと画像Xjとの画像マッチングを行って(ステップ902)、画像Xi内における頻度分布Yiを計算する(ステップ903)。そして、特定部112は、jを1だけインクリメントして、ステップ901の処理を繰り返す。
【0049】
jがnに達した場合、特定部112は、頻度分布Yiに基づいて、画像Xi内における注目領域を特定する。次に、不鮮明化部113は、画像Xiの注目領域以外の領域に含まれる各特徴点に対して所定領域を設定し、設定した所定領域に対して不鮮明化処理を適用する(ステップ904)。そして、学習データ生成装置101は、iを1だけインクリメントし、jに1を設定して、ステップ901の処理を繰り返す。
【0050】
iがnに達した場合、生成部114は、不鮮明化処理が適用された画像X1~画像Xnを含む学習データ323を生成する。
【0051】
図10は、画像分類処理の例を示すフローチャートである。まず、CNN332は、学習データ323を用いて学習処理を行う(ステップ1001)。次に、CNN332は、分類処理を行って画像341をいずれかのクラスに分類し、分類したクラスを示す分類結果342を生成する(ステップ1002)。
【0052】
図11は、画像X1~画像Xnに対する分類結果の例を示している。この例では、n=528であり、528枚の画像がクラス0~クラス13のいずれかのクラスに分類される。
【0053】
図11(a)は、画像X1~画像Xnに対して不鮮明化処理を適用しない場合の分類結果の例を示している。
図11(a)のテーブルの14個の列は、CNN332によって各画像が分類されたクラスを表し、14個の行は、各画像に対する正解のクラスを表す。したがって、k行m列(k=0~13,m=0~13)の数字は、クラスkを正解とする画像のうち、クラスmに分類された画像の枚数を表す。
【0054】
例えば、クラス0を正解とする画像は35枚であり、このうち20枚の画像がクラス0に分類され、残りの15枚の画像が他のクラスに分類されている。したがって、クラス0を正解とする画像の正解率は、20/35である。また、クラス1を正解とする画像は40枚であり、このうち23枚の画像がクラス1に分類され、残りの17枚の画像が他のクラスに分類されている。したがって、クラス1を正解とする画像の正解率は、23/40である。そして、528枚の画像全体の正解率は、437/528=82.7652%である。
【0055】
図11(b)は、クラス0又はクラス1を正解とする75枚の画像に対してぼかし処理を適用した場合の分類結果の例を示している。この場合、クラス0を正解とする画像の正解率は26/35であり、クラス1を正解とする画像の正解率は33/40である。そして、528枚の画像全体の正解率は、453/528=85.7955%である。したがって、一部の画像に対してぼかし処理を適用することで、正解率が向上することが分かる。すべての画像に対してぼかし処理を適用すれば、正解率はさらに向上する。
【0056】
図1の学習データ生成装置101の構成は一例に過ぎず、学習データ生成装置101の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。
【0057】
図3の画像分類システムの構成は一例に過ぎず、学習データ生成装置101の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、学習データ生成装置101内にCNN332が設けられる場合は、通信部311及び画像分類装置301を省略することができる。
【0058】
CNN332の代わりに、順伝播型ニューラルネットワーク、再帰型ニューラルネットワーク等の他のニューラルネットワークを用いてもよく、機械学習に基づく他のモデルを用いてもよい。例えば、CNN332の代わりに、決定木、相関ルール、遺伝的プログラミング、クラスタリング等のモデルを用いてもよい。
【0059】
図2、
図9、及び
図10のフローチャートは一例に過ぎず、学習データ生成装置101の構成又は条件に応じて一部の処理を省略又は変更してもよい。
【0060】
図4及び
図5(a)に示した画像321は一例に過ぎず、画像321は、学習対象物に応じて変化する。
図5(b)に示した頻度分布322は一例に過ぎず、頻度分布322は、画像321に応じて変化する。
【0061】
図6及び
図7に示したフィルタ領域は一例に過ぎず、別の大きさ及び別の形状のフィルタ領域を用いてもよい。
図8に示した画像は一例に過ぎず、不鮮明化された画像は、不鮮明化処理の種類に応じて変化する。
図11に示した分類結果は一例に過ぎず、分類結果は、分類対象の画像と不鮮明化処理の種類に応じて変化する。
【0062】
図12は、
図1及び
図3の学習データ生成装置101、及び
図3の画像分類装置301として用いられる情報処理装置(コンピュータ)の構成例を示している。
図12の情報処理装置は、CPU(Central Processing Unit)1201、メモリ1202、入力装置1203、出力装置1204、補助記憶装置1205、媒体駆動装置1206、及びネットワーク接続装置1207を含む。これらの構成要素はバス1208により互いに接続されている。
【0063】
メモリ1202は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。メモリ1202は、
図1及び3の記憶部111、及び
図3の記憶部333として用いることができる。
【0064】
CPU1201(プロセッサ)は、例えば、メモリ1202を利用してプログラムを実行することにより、
図1及び
図3の特定部112、不鮮明化部113、及び生成部114として動作する。CPU1201は、メモリ1202を利用してプログラムを実行することにより、
図3のCNN332としても動作する。
【0065】
入力装置1203は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置1204は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。
【0066】
補助記憶装置1205は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置1205は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置1205にプログラム及びデータを格納しておき、それらをメモリ1202にロードして使用することができる。補助記憶装置1205は、
図1及び3の記憶部111、及び
図3の記憶部333として用いることができる。
【0067】
媒体駆動装置1206は、可搬型記録媒体1209を駆動し、その記録内容にアクセスする。可搬型記録媒体1209は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体1209は、CD-ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体1209にプログラム及びデータを格納しておき、それらをメモリ1202にロードして使用することができる。
【0068】
このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ1202、補助記憶装置1205、又は可搬型記録媒体1209のような、物理的な(非一時的な)記録媒体である。
【0069】
ネットワーク接続装置1207は、
図3の通信ネットワーク302に接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置1207を介して受信し、それらをメモリ1202にロードして使用することができる。ネットワーク接続装置1207は、
図3の通信部311又は通信部331として用いることができる。
【0070】
なお、情報処理装置が
図12のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、オペレータ又はユーザと対話する必要がない場合は、入力装置1203及び出力装置1204を省略してもよい。可搬型記録媒体1209又は通信ネットワーク302を使用しない場合は、媒体駆動装置1206又はネットワーク接続装置1207を省略してもよい。
【0071】
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
【0072】
図1乃至
図12を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
機械学習における学習対象物に関連する複数の画像各々と、前記複数の画像のうち他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定し、
前記複数の画像それぞれについて、前記注目領域以外の領域に対して不鮮明化処理を適用し、
前記不鮮明化処理が適用された複数の画像を含む学習データを生成する、
処理をコンピュータに実行させるための学習データ生成プログラム。
(付記2)
前記複数の画像各々は、前記学習対象物と同じ種類の対象物が写っている画像であることを特徴とする付記1記載の学習データ生成プログラム。
(付記3)
前記コンピュータは、前記複数の画像各々と前記他の画像との間の画像マッチングを行って、各画像内における特徴点の頻度分布を求め、求めた頻度分布に基づいて、前記注目領域を特定することを特徴とする付記1又は2記載の学習データ生成プログラム。
(付記4)
前記コンピュータは、前記注目領域以外の領域内の各特徴点の頻度値に応じて、各特徴点を含む所定領域を決定し、決定した所定領域に対して前記不鮮明化処理を適用することを特徴とする付記3記載の学習データ生成プログラム。
(付記5)
前記不鮮明化処理は、ぼかし処理、コントラスト変更処理、グレースケール化処理、セピア化処理、膨張処理、収縮処理、又はジッター処理であることを特徴とする付記1乃至4のいずれか1項に記載の学習データ生成プログラム。
(付記6)
機械学習における学習対象物に関連する複数の画像を記憶する記憶部と、
前記複数の画像各々と、前記複数の画像のうち他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定する特定部と、
前記複数の画像それぞれについて、前記注目領域以外の領域に対して不鮮明化処理を適用する不鮮明化部と、
前記不鮮明化処理が適用された複数の画像を含む学習データを生成する生成部と、
を備えることを特徴とする学習データ生成装置。
(付記7)
前記複数の画像各々は、前記学習対象物と同じ種類の対象物が写っている画像であることを特徴とする付記6記載の学習データ生成装置。
(付記8)
前記特定部は、前記複数の画像各々と前記他の画像との間の画像マッチングを行って、各画像内における特徴点の頻度分布を求め、求めた頻度分布に基づいて、前記注目領域を特定することを特徴とする付記6又は7記載の学習データ生成装置。
(付記9)
前記不鮮明化部は、前記注目領域以外の領域内の各特徴点の頻度値に応じて、各特徴点を含む所定領域を決定し、決定した所定領域に対して前記不鮮明化処理を適用することを特徴とする付記8記載の学習データ生成装置。
(付記10)
前記不鮮明化処理は、ぼかし処理、コントラスト変更処理、グレースケール化処理、セピア化処理、膨張処理、収縮処理、又はジッター処理であることを特徴とする付記6乃至9のいずれか1項に記載の学習データ生成装置。
(付記11)
コンピュータにより実行される学習データ生成方法であって、前記コンピュータが、
機械学習における学習対象物に関連する複数の画像各々と、前記複数の画像のうち他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定し、
前記複数の画像それぞれについて、前記注目領域以外の領域に対して不鮮明化処理を適用し、
前記不鮮明化処理が適用された複数の画像を含む学習データを生成する、
ことを特徴とする学習データ生成方法。
(付記12)
前記複数の画像各々は、前記学習対象物と同じ種類の対象物が写っている画像であることを特徴とする付記11記載の学習データ生成方法。
(付記13)
前記コンピュータは、前記複数の画像各々と前記他の画像との間の画像マッチングを行って、各画像内における特徴点の頻度分布を求め、求めた頻度分布に基づいて、前記注目領域を特定することを特徴とする付記11又は12記載の学習データ生成方法。
(付記14)
前記コンピュータは、前記注目領域以外の領域内の各特徴点の頻度値に応じて、各特徴点を含む所定領域を決定し、決定した所定領域に対して前記不鮮明化処理を適用することを特徴とする付記13記載の学習データ生成方法。
(付記15)
前記不鮮明化処理は、ぼかし処理、コントラスト変更処理、グレースケール化処理、セピア化処理、膨張処理、収縮処理、又はジッター処理であることを特徴とする付記11乃至14のいずれか1項に記載の学習データ生成方法。
【符号の説明】
【0073】
101 学習データ生成装置
111、333 記憶部
112 特定部
113 不鮮明化部
114 生成部
301 画像分類装置
302 通信ネットワーク
311、331 通信部
321、341 画像
322 頻度分布
323 学習データ
342 分類結果
401 矩形領域
402~405 領域
701 特徴点
702、703 フィルタ領域
1201 CPU
1202 メモリ
1203 入力装置
1204 出力装置
1205 補助記憶装置
1206 媒体駆動装置
1207 ネットワーク接続装置
1208 バス
1209 可搬型記録媒体