IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人 東京大学の特許一覧

特開2023-22485学習装置、推定装置、学習方法、推定方法、およびプログラム
<>
  • 特開-学習装置、推定装置、学習方法、推定方法、およびプログラム 図1
  • 特開-学習装置、推定装置、学習方法、推定方法、およびプログラム 図2
  • 特開-学習装置、推定装置、学習方法、推定方法、およびプログラム 図3
  • 特開-学習装置、推定装置、学習方法、推定方法、およびプログラム 図4
  • 特開-学習装置、推定装置、学習方法、推定方法、およびプログラム 図5
  • 特開-学習装置、推定装置、学習方法、推定方法、およびプログラム 図6
  • 特開-学習装置、推定装置、学習方法、推定方法、およびプログラム 図7
  • 特開-学習装置、推定装置、学習方法、推定方法、およびプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023022485
(43)【公開日】2023-02-15
(54)【発明の名称】学習装置、推定装置、学習方法、推定方法、およびプログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20230208BHJP
【FI】
G06N20/00 130
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021127382
(22)【出願日】2021-08-03
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】入江 豪
(72)【発明者】
【氏名】伊神 大貴
(72)【発明者】
【氏名】相澤 清晴
(57)【要約】
【課題】学習用データ群に誤った教師ラベルが含まれている場合であっても、精度の高い有効な特徴を学習することを可能にする技術を提供すること。
【解決手段】実施形態の学習装置は、学習対象のデータと、前記学習対象のデータと他のデータとの類似性を示す教師ラベルとの組を含む学習用データの集合として与えられる学習用データ群に関し、前記学習用データ群に含まれる学習対象のデータの特徴を、予め生成されている特徴抽出器を用いて抽出する特徴抽出部と、前記学習対象のデータの特徴と、前記特徴に係る教師ラベルとに基づいて損失関数の値を求め、前記損失関数の値に基づく評価値が小さくなるように前記特徴抽出器のパラメータを更新する更新部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
学習対象のデータと、前記学習対象のデータと他のデータとの類似性を示す教師ラベルとの組を含む学習用データの集合として与えられる学習用データ群に関し、前記学習用データ群に含まれる学習対象のデータの特徴を、予め生成されている特徴抽出器を用いて抽出する特徴抽出部と、
前記学習対象のデータの特徴と、前記特徴に係る教師ラベルとに基づいて損失関数の値を求め、前記損失関数の値に基づく評価値が小さくなるように前記特徴抽出器のパラメータを更新する更新部と、
を備える学習装置。
【請求項2】
前記パラメータが更新された特徴抽出器に基づいて、前記学習用データ群から前記教師ラベルに誤りがある学習用データ群を誤ラベルデータとして検出する検出部と、
前記誤ラベルデータについて、前記損失関数の値が小さくなるように前記誤ラベルデータの教師ラベルを補正する補正部と、
をさらに備える請求項1に記載の学習装置。
【請求項3】
前記検出部は、前記パラメータが更新された特徴抽出器によって抽出された特徴に基づく損失関数の値が所定の閾値以上である学習用データ群を前記誤ラベルデータとして検出する、
請求項2に記載の学習装置。
【請求項4】
請求項1から3のいずれか一項に記載の学習装置によって生成された特徴抽出器に基づいて対象データの特徴を抽出する特徴抽出部と、
前記特徴抽出部によって抽出された前記対象データの特徴に基づいて、前記対象データに関する情報を推定する推定部と、
を備える推定装置。
【請求項5】
学習対象のデータと、前記学習対象のデータと他のデータとの類似性を示す教師ラベルとの組を含む学習用データの集合として与えられる学習用データ群に関し、前記学習用データ群に含まれる学習対象のデータの特徴を、予め生成されている特徴抽出器を用いて取得する特徴抽出ステップと、
前記学習対象のデータの特徴と、前記特徴に係る教師ラベルとに基づいて損失関数の値を求め、前記損失関数の値に基づく評価値が小さくなるように前記特徴抽出器のパラメータを更新する更新ステップと、
を有する学習方法。
【請求項6】
請求項5に記載の学習方法によって生成された特徴抽出器に基づいて対象データの特徴を抽出する第2の特徴抽出ステップと、
前記第2の特徴抽出ステップにおいて抽出された前記対象データの特徴に基づいて、前記対象データに関する情報を推定する推定ステップと、
を有する推定方法。
【請求項7】
コンピュータを請求項1から3のいずれか一項に記載の学習装置として機能させるためのプログラム。
【請求項8】
コンピュータを請求項4に記載の推定装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習により情報を学習する技術およびその学習済みモデルに基づいて情報を推定する技術に関する。
【背景技術】
【0002】
近年、AI(Artificial Intelligence)技術の進展が目覚ましい。画像認識分野では、既に人間の精度を上回る画像認識技術が開発された。音声認識分野では、自然雑音環境下でも安定した音声認識を実現する技術が多く実用化され、今やスマートフォンのような小型端末から気軽に利用できるようになっている。機械翻訳も日常生活でオンライン利用可能になり、国際コミュニケーションの障壁が飛躍的に低下した。
【0003】
近年のこのようなAI技術の進展を支えているのは、深層学習と呼ばれる深いニューラルネットワーク(深層ニューラルネットワーク)を学習する技術であることは言うまでもない。深層学習の特筆すべき点は、画像や音、言語など、多様なデータの意味や内容を的確に表現する特徴表現(特徴、特徴量、特徴ベクトルなどとも呼ばれる)を、元データから直接的に学習することが可能な高い特徴学習能力である。
【0004】
深層学習の隆盛以前から、特徴表現は多くの情報処理において中心的な役割を担ってきた。例えば、画像認識は、画像から抽出した特徴を元に識別器を学習し、画像を意味カテゴリに分類することによってなされてきた。画像検索においても、特徴を基に内容の類似性を判断している。音声認識も同様に、音声波形から特徴を抽出し、これを音素クラスに分類する音響モデルを学習することによってなされている。深層学習以前では、このような特徴、または特徴抽出器を人手により設計していたため、いかに低容量かつ適切な特徴を抽出できるかが性能を決定づける重要な要素の一つであった。この特徴、または特徴抽出器の設計は、設計者にとってしばしば困難なものであったが、深層学習によって入出力の関係性をデータから直接的に学習することができるようになったことにより、学習の精度が飛躍的に向上するというブレークスルーがもたらされた。
【0005】
しかしながら、たとえ深層学習を用いる場合であっても、特徴、または特徴抽出器を精度良く学習するためには、効果的な学習手段の設計が不可欠である。特に、情報処理においては、互いにデータの内容が近しいものほど特徴の類似度が高くなり、反対に、内容が異なるものほど特徴の類似度が低くなることが好ましい場合が多い。
【0006】
例えば、画像認識や音声認識のような分類問題においては、同一クラス内のデータの特徴は特徴空間上近くに配置され、反対に、異なるクラスの特徴は離れて配置される方が分類しやすい。また、画像検索、つまり、クエリ画像として与えたデータに内容が近いものを大量の画像の中から探すような処理においても、互いに内容が近しいデータ同士の特徴は特徴空間上近くに配置され、そうでないものは遠くに配置される方が都合がよい。従来、このような要件を満たす特徴の学習を可能にする学習技術の実現に向けて、さまざまな技術が開発されてきた。
【0007】
例えば、非特許文献1では、上記の要件を満たす特徴を学習するための損失関数として、Contrastive Lossと呼ばれる関数が提案されている。Contrastive Lossは、二つのデータの組について、内容が近しいものの特徴は近くに位置づけ、そうでないものの特徴は遠くに位置付けることを要請する損失関数である。より具体的には、Contrastive Lossは、二つのデータIiおよびIj(i≠j)の組に対して、これらの内容が近しいか否かを表す関連性ラベルyijが付与するものであり、近しい場合にはyij=1とし、そうでない場合はyij=0とする。このようなContrastive Lossは、例えば(1)式のように定義される。
【0008】
【数1】
【0009】
ここで、xiはIiの特徴である。mはマージンと呼ばれるパラメータであり、例えば0.2などの値に事前に設定される。d(xi,xj)はxiとxjの距離を表す距離関数である。d(xi,xj)には、任意の距離関数を用いることができるが、例えばユークリッド距離とすればよい。
【0010】
非特許文献2には、Contrastive Lossによく似た着想に基づく損失関数としてTriplet Lossが提案されている。Contrastive Lossとの違いは、Contrastive Lossが二つのデータの組について比較を行うのに対し、Triplet Lossは三つのデータの組について比較を行う点である。より具体的には、Triplet Lossでは、あるデータIaについて、これと内容の近しいデータIpと、内容の遠いデータIn(Ia≠Ip≠In)との三つのデータを一組にする。このとき、Triplet Lossは、例えば(2)式のように定義される。
【0011】
【数2】
【0012】
なお、Triplet Lossにおいて、xa/Iaをアンカーといい、xp/Ipをポジティブといい、xn/Inをネガティブという場合がある。
【0013】
特許文献1には、Triplet Lossを用いることで、画像の一部の領域にしかラベルが与えられていないような場合であっても、その一部の領域に対する分類を正確に実行することが可能な学習法が提案されている。
【0014】
また、非特許文献3には、Triplet Lossを用いることで、物体の姿勢に対する正解データが無い場合でも、画像中に写る物体の姿勢を推定する推定器を学習可能にする技術が提案されている。具体的には、基準となる姿勢である物体を撮影した画像であるアンカー画像があるとする。任意の姿勢で物体が写った画像が入力された場合、当該入力画像に対して、非特許文献4に記載のSTN(Spatial Transformer Network)を導入した幾何変換層を用い、入力画像がアンカー画像に一致するように幾何変換(位置合わせ)を施す。この幾何変換に用いられた姿勢パラメータを用いて、当該入力画像のアンカー画像からのずれを推定する。
【先行技術文献】
【特許文献】
【0015】
【特許文献1】特開2020-047055号公報
【非特許文献】
【0016】
【非特許文献1】Sumit Chopra, Raia Hadsell, Yann LeCun, “Learning a Similarity Metric Discriminatively, with Application to Face Verification”, in Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pp.539-546, 2005.
【非特許文献2】Florian Schroff, Dmitry Kalenichenko, James Philbin. “FaceNet: A Unified Embedding for Face Recognition and Clustering”, in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 815-823, 2015.
【非特許文献3】Koki Ueno, Go Irie, Masashi Nishiyama, Yoshio Iwai. Weakly Supervised Triplet Learning of Canonical Plane Transformation for Joint Object Recognition and Pose Estimation, Proceedings of 2019 IEEE International Conference on Image Processing (ICIP), 2019.
【非特許文献4】Max Jaderberg, Karen Simonyan, Andrew Zisserman, and Koray Kavukcuoglu. Spatial Transformer Networks. Proceedings of Neural Information Processing Systems, 2015.
【発明の概要】
【発明が解決しようとする課題】
【0017】
大局的にみれば、上記の従来技術はいずれも、いくつかのデータの関連性(内容が近いか遠いか)を表すラベルが教師データとして与えられた下で、教師データにより関連性が近いと指示されたデータ同士は互いに特徴が近くなるように学習し、遠いと指示されたデータ同士は互いに特徴が遠くなるように学習する技術である。
【0018】
当然ながら、これらの技術は、教師データとして与えられるラベルは正確であることを前提としている。しかしながら現実的には、多くの場合、誤りの無い学習用データ群を想定することは難しい。誤りが無いことを保証するためには、正確性を多重にチェックするなど十分な注意を払う必要があり、非常にコストがかかる。さらに、データ間の関連性は、それ自体が曖昧性を含む基準である場合が多く、これに起因するラベルの揺らぎなどにより、十分に注意を払ったとしても正確な教師ラベルが得られないようなケースも数多く存在する。
【0019】
このような、ラベルに誤りを含むような学習用データ群を用いた場合、上記のいずれの従来技術も誤った関連性を基に学習を行ってしまう。すなわち、本来近づける/遠ざけるべきデータ同士の特徴を遠ざける/近づけて学習することになり、精度の高い有効な特徴を学習することができないという問題があった。
【0020】
以上のような背景により、データの内容が近いか遠いかを表す正確な教師ラベルが得られないような場合においても、精度の高い有効な特徴を学習することが可能な学習技術の実現が望まれている。
【0021】
上記事情に鑑み、本発明は、学習用データ群に誤った教師ラベルが含まれている場合であっても、精度の高い有効な特徴を学習することを可能にする技術を提供することを目的としている。
【課題を解決するための手段】
【0022】
本発明の一態様は、学習対象のデータと、前記学習対象のデータと他のデータとの類似性を示す教師ラベルとの組を含む学習用データの集合として与えられる学習用データ群に関し、前記学習用データ群に含まれる学習対象のデータの特徴を、予め生成されている特徴抽出器を用いて抽出する特徴抽出部と、前記学習対象のデータの特徴と、前記特徴に係る教師ラベルとに基づいて損失関数の値を求め、前記損失関数の値に基づく評価値が小さくなるように前記特徴抽出器のパラメータを更新する更新部と、を備える学習装置である。
【0023】
本発明の一態様は、上記の学習装置によって生成された特徴抽出器に基づいて対象データの特徴を抽出する特徴抽出部と、前記特徴抽出部によって抽出された前記対象データの特徴に基づいて、前記対象データに関する情報を推定する推定部と、を備える推定装置である。
【0024】
本発明の一態様は、学習対象のデータと、前記学習対象のデータと他のデータとの類似性を示す教師ラベルとの組を含む学習用データの集合として与えられる学習用データ群に関し、前記学習用データ群に含まれる学習対象のデータの特徴を、予め生成されている特徴抽出器を用いて取得する特徴抽出ステップと、前記学習対象のデータの特徴と、前記特徴に係る教師ラベルとに基づいて損失関数の値を求め、前記損失関数の値に基づく評価値が小さくなるように前記特徴抽出器のパラメータを更新する更新ステップと、を有する学習方法である。
【0025】
本発明の一態様は、上記の学習方法によって生成された特徴抽出器に基づいて対象データの特徴を抽出する第2の特徴抽出ステップと、前記第2の特徴抽出ステップにおいて抽出された前記対象データの特徴に基づいて、前記対象データに関する情報を推定する推定ステップと、を有する推定方法である。
【0026】
本発明の一態様は、コンピュータを上記の学習装置として機能させるためのプログラムである。
【0027】
本発明の一態様は、コンピュータを上記の推定装置として機能させるためのプログラムである。
【発明の効果】
【0028】
本発明により、学習用データ群に誤った教師ラベルが含まれている場合であっても、精度の高い有効な特徴を学習することが可能となる。
【図面の簡単な説明】
【0029】
図1】実施形態の学習装置の構成例を示す図である。
図2】実施形態において学習の対象となる特徴抽出器の構成の一例を示す図である。
図3】学習装置が実行する学習処理の流れの一例を示すフローチャートである。
図4】実施例に係る画像認識システムの構成例を示す概略図である。
図5】実施例に係る画像認識装置の構成例を示す図である。
図6】学習装置が実行する学習処理の流れの一例を示すフローチャートである。
図7】画像認識装置が実行する画像認識処理の流れの一例を示すフローチャートである。
図8】実施形態の学習装置および画像認識装置のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0030】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0031】
図1は、実施形態の学習装置の構成例を示す図である。学習装置10は、学習用データ群に基づく機械学習により学習済みモデルとして特徴抽出器を学習する装置である。特徴抽出器は、処理対象のデータ(以下「対象データ」という。)の入力に対し、対象データの特徴を抽出して出力するものである。学習装置10は、例えば、学習用データ入力部11と、学習用データ記憶部12と、学習部13と、学習済みモデル記憶部14とを備える。
【0032】
学習用データ入力部11は、学習用データ群を入力するとともに、入力した学習用データ群を学習用データ記憶部12に格納する。学習部13は、学習用データ記憶部12に格納された学習用データ群に基づいて特徴抽出器20を生成し、生成した特徴抽出器20を学習済みモデルとして学習済みモデル記憶部14に格納する。また、学習部13は、学習済みモデル記憶部14に格納された特徴抽出器20と、学習用データ記憶部12に格納された学習用データ群とに基づいて、特徴抽出器20の更新および学習用データ群の補正を行う。具体的には、学習部13は、例えば、特徴抽出部131と、更新部132と、検出部133と、補正部134とを備える。以下、各機能部の詳細について説明するが、まず学習対象である特徴抽出器20の構成について説明する。
【0033】
<特徴抽出器の構成>
特徴抽出器20は、対象データを入力し、対象データの特徴を出力する関数である。特徴抽出器20は、このような入出力関係を表現できるものであれば任意の関数として構成されてよいが、ここでは対象データとして主に画像を想定した場合における特徴抽出器20の構成の一例を説明する。なお、画像は対象データの一例である。対象データは、上記の入出力関係を表現する特徴抽出器を構成できるものであればよく、画像のほか、音や言語などの任意のデータが対象データとされてよい。以下、対象データとしての画像を「対象画像」という。
【0034】
図2は、本実施形態において学習の対象となる特徴抽出器20の構成の一例を示す図である。この構成は畳み込みニューラルネットワーク(Convolutional Neural Network)に基づく構成であり、入力層、畳み込み層、プーリング層、全結合層、幾何変換層の4種類の層の組み合わせで構成されている。例えば、特徴抽出器20は、入力層21、第1の畳み込み層22、第1のプーリング層23、第2の畳み込み層24、第2のプーリング層25、第1の全結合層26、第2の全結合層27、および出力層28を結合して構成される。なお、畳み込み層、プーリング層、全結合層は公知のものであり、例えば参考文献1に記載の技術に基づいて構成することができる。
【0035】
[参考文献1]Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks. Proceedings of Neural Information Processing Systems, 2012.
【0036】
このように構成された特徴抽出器20は、入力された対象画像から、固定長のベクトルとして特徴を出力することができる。なお、本実施形態において特徴抽出器20のニューラルネットワークは、この構成に限られるものではなく、上述の入出力要件を満たす限りどのような構成が採用されてもよい。例えば、最終層(出力層の前段)にL2正規化層が加えられてもよい。こうすることによって、特徴を頑健化できるため、好適である。
【0037】
また、例えば、図2に示した構成は、畳み込み層及びプーリング層の組み合わせを2回繰り返し、その後全結合層を二層接続した構造であるが、この二層の全結合層の代わりに下記の参考文献2や参考文献3などに開示されている大域的プーリング層を接続する構成であってもよい。
【0038】
[参考文献2]Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep Residual Learning for Image Recognition,Proceedings of Conference on Computer Vision and Pattern Recognition, 2016.
[参考文献3]Giorgos Tolias, Ronan Sicre, and Herve Jegou. Particular Object Retrieval with Integral Max-pooling of CNN Activations. ArXiv Preprint: https://arxiv.org/abs/1511.05879, 2015.
【0039】
このように、全結合層が無い構成にすることにより、入力される対象画像のサイズに依らず、常に同じ次元数の特徴を求めることができるため好適である。以降では、特に断りのない限り、学習用データとして画像を想定し、特徴抽出器20として図2に示す構成のものを用いた場合を例に説明する。
【0040】
<特徴抽出器の学習処理>
続いて、特徴抽出器20の学習処理について説明する。上述のとおり、本実施形態の学習装置10が学習する特徴抽出器20は、対象画像の特徴を抽出する処理に用いられるものである。そのため、学習処理は、対象画像の特徴を抽出する処理を行う前に、少なくとも一度実施される必要がある。より具体的には、学習処理は、特徴抽出器20のパラメータであるニューラルネットワークの重みを学習用データ群に基づいて決定する処理である。学習処理の実行には、学習用データ群を予め準備しておく必要がある。
【0041】
学習用データ群は、データ間の関連性を表す教師ラベルがどのように与えられるかによっていくつかの構成を取り得る。ここで、例えば、学習用データ群がm個のデータの集合I={I1,I2,・・・,Im}を含むとする。この場合、第1の構成例として、あるデータIi、Ij(i≠j)について、これらが互いに関連する場合には1が、そうでない場合には0を取るラベルyijが教師ラベルとして与えられる構成が挙げられる。この場合、学習用データ群は(Ii、Ij、yij)の組を一纏まりとした学習用データの集合として構成される。
【0042】
また、第2の構成例として、Iiと異なる二つのデータIj、Ikについて、Iiとの関連性が高いデータ(ポジティブデータ)をIjとし、Iiとの関連性が低いデータ(ネガティブデータ)をIkとして、(Ii,Ij,Ik)を一纏まりとした学習用データの集合を学習用データ群とする構成が挙げられる。
【0043】
上記の例以外にも、データ集合Iのうち少なくとも一つのデータに対して、それとは異なる少なくとも一つのデータとの関連性が与えられるものであれば、学習用データは任意の態様で構成されてよい。
【0044】
また、学習用データ群について上記条件が満たされる限り、学習用データ群を生成する手段には、どのような手段が用いられてもよい。例えば、学習用データ群の生成は、人手によって実施されてもよいし、一部または全部の工程がコンピュータによって自動的に行われてもよい。
【0045】
上記のように構成された学習用データ群の教師ラベルに誤りが無ければ、例えば非特許文献1~3の方法を用いて、精度の高い有効な特徴を学習することができる。しかしながら、上述のとおり、現実的には、誤りの無い学習用データ群を想定することは難しい。
【0046】
例えば、第1の構成例のように、三つのデータ(Ii,Ij,yij)の組によって学習用データが構成され、互いに関連しているデータIi、Ijがある場合に、本来は教師ラベルとしてyij=1が付与されるべきところ、誤ってyij=0が付与されている場合(あるいはその逆)が、教師ラベルに誤りがある場合の一例として考えられる。
【0047】
あるいは、第2の構成例のように(Ii,Ij,Ik)の組によって学習用データが構成されている場合であれば、ポジティブデータとネガティブデータとが入れ替わってしまっている場合、すなわち、IiとIkとの関連性が高く、IiとIjとの関連性が低いにもかかわらず、(Ii,Ij,Ik)となっている学習用データが学習用データ群に含まれているような場合も一例として考えられる。
【0048】
本実施形態の学習処理は、学習用データ群に誤った教師ラベルが含まれている可能性がある場合において、誤った教師ラベルが付加された可能性が高い学習用データ(以下「誤ラベルデータ」という。)を検出する検出処理と、検出された誤ラベルデータに含まれる教師ラベルを補正する補正処理とによって学習用データ群の精度を高めることにより、誤った教師ラベルを含む学習用データ群を用いた場合であっても、精度の高い有効な特徴を学習することを可能にするものである。以下では、この検出処理および補正処理についてより詳細に説明する。
【0049】
<検出処理>
ここでは、学習用データ群が、三つのデータの組(Ii,Ij,yij)によって構成されている場合であって、IiおよびIjに対して誤った教師ラベルが与えられた場合について説明する。例えば、IiおよびIjが関連性の高いデータであるにもかかわらず誤った教師ラベルyij=0が与えられている場合を想定する。この場合、もし仮に、正しく学習された特徴抽出器20が得られているとしてIiおよびIjの特徴xiおよびxjを抽出したとすると、特徴xiと xjの類似度は大きく(距離は小さく)なりやすい。つまり、この場合、(1)式の損失関数の値を計算すると、大きな値が得られることになる。
【0050】
また、この逆の場合、すなわち、IiおよびIjが関連性の低いデータであるにもかかわらず誤った教師ラベルyij=1が与えられている場合においても、同様に損失関数の値は大きくなる。
【0051】
このような性質によれば、正しく学習された特徴抽出器20が得られている前提では、損失関数の値が大きい学習用データは教師ラベルに誤りがある可能性が高いと考えらえる。そのため、損失関数の値の大きい学習用データを誤ラベルデータとみなして損失関数の値を評価することにより、高い確率で誤ラベルデータを検出することができる。
【0052】
しかしながら、実際には、学習処理の実行中においては特徴抽出器20の学習が完了しておらず、学習済みの特徴抽出器20が得られないため、上記の方法によって誤ラベルデータを検出することはできない。
【0053】
一方で、学習用データ群において、誤ラベルデータの数は、正しい教師ラベルが付与されたデータの数に比べてごく少数である場合が多く、仮に誤った教師ラベルを含む学習用データ群で学習を行ったとしても、「誤ラベルデータは損失関数の値が大きくなる傾向にある」ということには変わりはないと考えられる。そこで、本実施形態では、このような損失関数の性質を利用し、学習途中の特徴抽出器20を用いて損失関数の値を求め、この値が大きいものを誤ラベルデータであるとみなして検出する。
【0054】
例えば、全ての学習用データについて、学習途中の特徴抽出器20を適用して特徴を抽出し、抽出した特徴について(1)式で損失関数の値を求めたのち、損失関数の値が大きいものから順に上位g個を、誤ラベルデータとして検出する。gは、例えば学習用データ群のデータ数に対する一定の割合、例えば全体の10%に相当する数などとして定められてもよいし、学習の進行と共に変更されてもよい。あるいは、損失関数の値に閾値tを定め、t以上の値を持つデータを、誤ラベルデータとして検出してもよい。これらのほか、誤ラベルデータの検出方法には、求めた損失関数の値の大きさに基づいてデータを選別するものであれば、任意の方法を用いることができる。
【0055】
以上、学習用データが三つのデータの組(Ii,Ij,yij)によって構成される場合を例に、誤ラベルデータを(1)式の損失関数を用いて検出する方法について説明したが、学習用データの構成は必ずしも(Ii,Ij,yij)の組によるものである必要はなく、また、用いる損失関数も必ずしも(1)式によるものである必要はない。例えば、学習用データが三つのデータの組(Ii,Ij,Ik)によって構成され、(2)式の損失関数を用いる場合であっても、同様に、損失関数の値の大きさに基づいて誤ラベルデータを検出することができる。
【0056】
<補正処理>
上述のとおり、誤ラベルデータは損失関数の値が大きくなる傾向にある。裏を返せば、仮に教師ラベルを変更した場合に損失関数の値が低下するならば、変更後の教師ラベルが正しいラベルである可能性が高いと言える。例えば、(Ii,Ij,yij=0)が誤ラベルデータであると検出されたとして、(Ii,Ij,yij=0)と、教師ラベルの値を変更した(Ii,Ij,yij=1)との双方について(1)式の損失関数の値を計算し、(Ii,Ij,yij=1)の方が損失関数の値が小さくなった場合には、教師ラベルの変更によって学習用データが正しく補正されたということができる。そのため、この場合には、変更前の学習用データを、変更後の学習用データに置き換える。この操作は、yij=1をyij=0に変更する場合も同様である。
【0057】
また、三つのデータの組(Ii,Ij,Ik)によって構成された学習用データが誤ラベルデータとして検出された場合についても同様に、(Ii,Ij,Ik)および(Ii,Ik,Ij)について(2)式の損失関数の値を計算し、(Ii,Ik,Ij)の方が損失関数の値が小さくなった場合には、(Ii,Ij,Ik)を(Ii,Ik,Ij)に置き換えればよい。
【0058】
なお、補正処理の趣旨は、損失関数の値が小さくなるように教師ラベルを変更することにあり、この趣旨に沿う限りにおいて、補正方法は上記の例に限定されない。
【0059】
以上、補正処理の典型的な例について説明したが、さらなる工夫を施すことにより補正処理の精度を改善することができる。
【0060】
例えば、学習用データが三つのデータの組(Ii,Ij,yij)によって構成されている場合を考える。一般に、自然かつ無作為に収集されたデータ群の場合、互いに関連のないデータの組(つまりyij=0とされるべきもの)の数の方が、関連のあるデータ(つまりyij=1とされるべきもの)の数よりもはるかに多い。このように収集される学習用データ群に対して、上記の補正処理をそのまま施した場合、本来期待される量を超えて、過剰に関連性のあるデータへと補正されてしまう可能性がある。
【0061】
そこで、上記の損失関数に値を補正する正則化項を加えることにより、yij=1と補正される頻度を抑制する。この目的を実現可能であれば、正則化項には任意の関数を用いられてよい。例えば、(3)式のように定義した正則化項を導入し、損失関数を(4)式のように定義することができる。
【0062】
【数3】
【0063】
【数4】
【0064】
pは、yij=1となる確率を表すパラメータであり、0<p<1を満たす実数値である。pが小さいほどyij=1になりにくい。λは元の損失関数と正則化項との間のバランスを調整するためのパラメータである。λは任意の実数値であってよいが、例えば、xiとxjの間の距離の中央値の半分の値などとしてもよい。
【0065】
図3は、学習装置10が実行する学習処理の流れの一例を示すフローチャートである。ここでは、各処理の内容について、学習用データが(Ii,Ij,yij)の態様で構成される場合を適宜例にとりながら説明する。まず、学習部13は、特徴抽出器20を生成する(ステップS201)。
【0066】
なお、ステップS201は、後続のステップS202の初回実行時において少なくとも必要となる特徴抽出器20を生成するためのものである。ここで生成される特徴抽出器20は、いわば初期状態の特徴抽出器20であり、本実施形態の学習処理は、この初期状態の特徴抽出器20の精度を、後続の検出処理および補正処理によって高めていくことにより、学習済みの特徴抽出器20を得るものである。そのため、ここでの特徴抽出器20の生成方法は特定のものに限定されないし、初期状態の特徴抽出器20が予め生成されており、学習済みモデル記憶部14に格納されている場合には、ステップS201は省略されてもよい。
【0067】
例えば、典型的には、初期状態の特徴抽出器20は、ニューラルネットワークの重みをランダムに決定することによって生成されてもよい。また、例えば、事前に何らかのデータと方法によって学習済みのニューラルネットワークがある場合には、初期状態の特徴抽出器20は、その学習済みのニューラルネットワークのパラメータをコピーすることによって生成されてもよい。以下では、図3の処理フローにおいて、最終的に学習済みの特徴抽出器20が得られるまでの特徴抽出器20を学習途中の特徴抽出器20という。
【0068】
続いて、特徴抽出部131が、学習用データ群I={I1,I2,・・・,Im}に含まれる全てのデータに対して学習途中の特徴抽出器20を適用することにより、データ群Iに含まれる全データの特徴の集合X={x1,x2,…,xm}を生成する(ステップS202)。
【0069】
続いて、更新部132が、各学習用データ(Ii,Ij,yij)に対応する特徴xiおよびxjと、教師ラベルyijとに基づいて損失関数の値を求める(ステップS203)。次に、更新部132は、損失関数の値を小さくするように学習途中の特徴抽出器20のパラメータを更新する(ステップS204)。例えば、更新部132は、以下のような方法で、パラメータを更新することができる。
【0070】
(1)式や(2)式からも明らかなように、損失関数は、特徴抽出器20のパラメータに対して区分的に微分可能である。このことに鑑みれば、更新部132は、勾配法により、損失関数Lの値が小さくなるようにパラメータを更新可能である。例えば、確率的勾配降下法に基づいてパラメータを更新する場合、特徴抽出器20のあるパラメータをwとおくと、1ステップあたり、(6)式に基づいてパラメータwを更新していけばよい。
【0071】
【数5】
【0072】
通常のニューラルネットワークの構成層については、任意のパラメータwに対する損失関数Lの微分値を、誤差逆伝搬法により計算することが可能である。このような構成により、更新部132は、任意のパラメータwに対する損失関数Lの微分値を(5)式により計算することができる。なお、更新部132には、モーメンタム項を利用したり、重み減衰を利用したりといった、確率的勾配降下法に対して一般的に行われている改善法が導入されてもよいし、あるいは別の勾配降下法が適用されてもよい。
【0073】
なお、更新部132は、全ての学習用画像データのうちいずれか1つについて損失関数の値が小さくなるようにパラメータを更新してもよいし、複数の学習用画像データについて損失関数の値が小さくなるようにパラメータを更新してもよい。複数の学習用画像データについて損失関数の値が小さくなるようにパラメータを更新する場合、更新部132は、複数の学習用画像データの損失関数の値に基づく評価値(例えば総和)が小さくなるようにパラメータを更新してもよい。
【0074】
続いて、検出部133が、補正処理の実行条件が満たされたか否かを判定する(ステップS205)。例えば、ステップS204で更新された特徴抽出器20について、更新前後におけるパラメータの変更の大きさが閾値よりも大きい場合には、学習用データ群の精度向上が必要であると考えられるので、この場合、検出部133は補正処理を実行すると判定してもよい。また、例えば、特徴抽出器20を更新する際にステップS203で求めた損失関数の値が閾値よりも小さい場合には、学習用データ群の精度が十分高いと考えられるので、この場合、検出部133は補正処理を実行しないと判定してもよい。このほか、補正処理の実行条件は、任意に設定されてよい。補正処理について、このような実行条件が判定されることにより、学習装置10は、特定の状況での補正処理の実行を省略し、処理時間を短縮したり、処理負荷を軽減したりすることができる。なお、補正処理の実行条件の判定は、必須ではない。学習装置10は、補正処理の実行条件を判定することなく、繰り返し処理の都度補正処理を実行するように構成されてもよい。
【0075】
ステップS205において、補正処理の実行条件が満たされたと判定した場合(ステップS205)、検出部133は、ステップS204においてパラメータの更新を行った学習途中の特徴抽出器20を用いて検出処理を行い、誤ラベルデータを検出する(ステップS206)。次に、補正部134が、検出した誤ラベルデータについて補正処理を行い、損失関数の値が小さくなるように教師ラベルを変更する(ステップS207)。一方、ステップS205において、補正処理の実行条件が満たされていないと判定した場合(ステップS205-NO)、検出部133は、ステップS206およびS207をスキップしてステップS208に処理を進める。
【0076】
続いて、学習部13は、学習処理の終了条件が満たされたか否かを判定する(ステップS208)。学習部13は、学習処理の終了条件が満たされたと判定した場合(ステップS208-YES)には学習処理を終了し、終了条件が満たされていないと判定した場合(ステップS208-NO)にはステップS202に処理を戻し、終了条件が満たされるまでステップS202~S207を繰り返し実行する。なお、学習処理の終了条件は、任意に設定されてよい。例えば、終了条件は、「所定の回数(例えば100回など)繰り返したら終了」とする条件であってもよいし、「誤差の減少が一定の繰り返し回数の間一定の範囲内に収まっていたら終了」とする条件であってもよい。
【0077】
また、図3のフローにおいて、検出処理(ステップS206)および補正処理(S207)の実行頻度は任意の頻度に調整されてよい。好ましくは、パラメータ更新処理(ステップS202~S204)の複数回の実行に対して検出処理および補正処理を一回実行し、検出処理および補正処理を一定回数実行した後は、それ以上検出処理および補正処理を実行しないようにするとよい。例えば、ステップS202~S204を1000回繰り返すごとにステップS206およびS207を1回実行し、ステップS206およびS207を3回実行した後は、それ以上ステップSS206およびS207を実行しないようにすればよい。
【0078】
以上、実施形態における特徴抽出器20の学習方法について説明した。以下では、画像に基づいて当該画像の被写体の名称を推定する場合を例にとり、実施形態の学習方法の実施例を説明する。
【0079】
図4は、実施例に係る画像認識システム100の構成例を示す概略図である。画像認識システム100は、例えば、学習装置10Aと、画像認識装置30とを備える。画像認識装置30は、対象データとしての画像データ(以下「対象画像」という。)の入力に対して、対象画像の被写体の名称を推定して出力する装置である。具体的には、画像認識装置30は、対象画像の特徴を特徴抽出器20によって抽出し、抽出した特徴に基づいて予め用意された参照用画像との類似性を評価することにより、対象画像の被写体の名称を推定する。画像認識装置30は「推定装置」の一例である。
【0080】
学習装置10Aは、画像認識装置30が対象画像の特徴を抽出する際に使用する特徴抽出器20を実施形態の学習方法によって生成する装置である。学習装置10Aの構成は、基本的には、図1図3で説明した学習装置10と同様であるため、ここでは詳細な説明を省略する。学習装置10Aでは、学習用データ入力部11が画像データと教師ラベルの組によって表されたデータの集合を学習用データ群として入力し、学習部13が入力された学習用データ群に基づいて画像から被写体に関する特徴を抽出する特徴抽出器20を生成して学習済みモデル記憶部14に格納する。学習済みモデル記憶部14に格納された特徴抽出器20は、対象画像についての画像認識処理に先立って画像認識装置30に供給される。
【0081】
以下では、学習用データが、ある被写体を写した画像Iiと、画像Iiと同一の被写体を写した画像Ijと、画像Iiとは異なる被写体を写した画像Ikとの三つのデータの組によって表されるデータ(Ii,Ij,Ik)の集合として構成される場合について説明する。以下、学習用データとして与えられる画像データを学習用画像データという。このような構成の学習用画像データ群の生成は、人手によって実施されてもよいし、一部または全部の工程がコンピュータによって自動的に行われてもよい。例えば、次の(a)~(c)の要件を満たす画像集合が得られていれば、コンピュータ処理によって自動的に学習用画像データ群を構成することが可能である。
【0082】
(a)画像集合は1枚以上の画像を含み、画像集合の各画像は少なくとも一つの物体を写したものであること。
(b)学習用画像データ群の全体では、画像に写された物体の種類は2種類以上であり、同一種類の物体を写した画像が少なくとも2枚以上存在すること。
(c)同一種類の物体を写した画像同士が互いに識別可能であること。
【0083】
そして、上記(a)~(c)の要件を満たす画像集合に対して、例えば、以下の(1)~(3)の処理を所望の組数が揃うまで繰り返し実施することにより、学習用画像データ群を構成することができる。
【0084】
(1)画像集合から1枚の画像をランダムに選択し、これを画像Iiとする。
(2)画像Iiと同一の物体を写した画像をランダムに1枚選択し、これを画像Ijとする。
(3)画像Iiと異なる物体を写した画像をランダムに1枚選択し、これを画像Ikとする。
【0085】
図5は、実施例に係る画像認識装置30の構成例を示す図である。画像認識装置30は、例えば、対象画像入力部31と、学習済みモデル記憶部32と、特徴抽出部33と、画像認識部34と、参照用画像データ記憶部35と、出力部36とを備える。対象画像入力部31は、対象画像を入力して特徴抽出部33に出力する。学習済みモデル記憶部32は、学習装置10Aによって生成された特徴抽出器20を学習済みモデルとして予め記憶している。特徴抽出部33は、学習済みモデル記憶部32に記憶されている特徴抽出器20を用いて対象画像から特徴を抽出する。参照用画像データ記憶部35は、参照用画像データ群を予め記憶している。ここで参照用画像は、対象画像の被写体を識別するために参照される画像であり、名称が既知である物体が写された画像である。また、参照用画像データは、各参照用画像に対し、それぞれに写された既知の物体の名称が付与されたデータである。
【0086】
画像認識部34は、特徴抽出部33によって抽出された対象画像の特徴と、参照用画像データ記憶部35に記憶されている参照用画像データとに基づいて対象画像の被写体を認識する。被写体の認識方法については後述する。画像認識部34は「推定部」の一例である。出力部36は、画像認識部34による被写体の認識結果を出力する。例えば、出力部36は、認識結果を表示する表示部であってもよいし、認識結果を示す情報を他の装置に送信する送信部であってもよいし、認識結果を示す情報を記録媒体に記録する記録部であってもよい。
【0087】
図6は、学習装置10Aが実行する学習処理の流れの一例を示すフローチャートである。ここでは、学習用画像データが上述の三つの画像の組(Ii、Ij、Ik)によって構成される場合を例にとり説明する。
【0088】
まず、学習部13は、初期状態の特徴抽出器20を生成する(ステップS301)。
【0089】
続いて、特徴抽出部131は、学習用画像データ群に含まれる全ての画像データI={I1,I2,・・・,Im}に対し学習途中の特徴抽出器20を適用して各画像の特徴を抽出することにより、学習用画像データ群に含まれる全ての画像の特徴の集合データX={x1,x2,…,xm}を生成する(ステップS302)。
【0090】
続いて、更新部132は、学習用画像データ(Ii,Ij,Ik)に対応する特徴xi,xj,xkに基づいて損失関数の値を求める(ステップS303)。更新部132は、損失関数の値を小さくするように学習途中の特徴抽出器20のパラメータを更新する(ステップS304)。
【0091】
続いて、検出部133は、補正処理の実行条件が満たされたか否かを判定する(ステップS305)。補正処理の実行条件が満たされたと判定した場合(ステップS305)、検出部133は、ステップS304においてパラメータの更新を行った学習途中の特徴抽出器20を用いて検出処理を行い、誤ラベルデータを検出する(ステップS306)。
【0092】
なお、学習用画像データ(Ii,Ij,Ik)における教師ラベルとは、画像Iiに対してポジティブデータとして与えられた画像Ij、および画像Iiに対してネガティブデータとして与えられた画像Ikである。上述のとおり、この場合、画像Ijと画像Ikが入れ替わってしまっているような学習用画像データが誤ラベルデータとして検出される。
【0093】
補正部134は、検出された誤ラベルデータについて補正処理を行い、損失関数の値が小さくなるように教師ラベルを変更する(ステップS307)。一方、ステップS305において、補正処理の実行条件が満たされていないと判定した場合(ステップS305-NO)、検出部133は、ステップS306およびS307をスキップしてステップS308に処理を進める。
【0094】
例えば、補正部134は、検出された学習用画像データ(Ii,Ij,Ik)について、ポジティブデータとネガティブデータとを入れ替えたデータの組(Ii,Ik,Ij)を新たな学習用画像データとすることにより学習用画像データ群を更新する。
【0095】
続いて、学習部13は、学習処理の終了条件が満たされたか否かを判定する(ステップS308)。学習部13は、学習処理の終了条件が満たされたと判定した場合(ステップS308-YES)には学習処理を終了し、終了条件が満たされていないと判定した場合(ステップS308-NO)にはステップS302に処理を戻し、終了条件が満たされるまでステップS302~S307を繰り返し実行する。
【0096】
以上説明した実施例に係る学習処理の流れは、基本的に図3に示したものと同様である。そのため、図3で補足した具体例や変形例等は、図6のフローチャートにも適用可能なものである。
【0097】
<画像認識処理>
図7は、画像認識装置30が実行する画像認識処理の流れの一例を示すフローチャートである。ここでは、参照用画像データ群R={R1,R2,…,Rn}が参照用画像データ記憶部35に予め記憶されているものとする。ここでは、画像認識装置30が、参照用画像データ群Rと、学習装置10Aによって生成された特徴抽出器20とを用いて対象画像Qに写る物体の名称を識別する場合について説明する。
【0098】
まず、対象画像入力部31が、対象データとして、識別対象の物体が写された画像Q(以下「対象画像」という。)を入力する(ステップS401)。
【0099】
続いて、特徴抽出部33が、学習済みモデル記憶部32に予め記憶されている学習済みの特徴抽出器20を用いて、対象画像Qの特徴xqを抽出する(ステップS402)。ここで、学習済みモデル記憶部32に予め記憶されている特徴抽出器20は、学習装置10Aが学習用画像データ群を学習することによって予め生成されたものである。また、同様にして、特徴抽出部33は、参照用画像データ群Rに含まれる全ての参照用画像の特徴XR={xr1,xr2,・・・,xrn}を抽出する(ステップS403)。具体的には、特徴抽出部33は、対象画像Qおよび全ての参照用画像を特徴抽出器20に入力し、その出力として各画像の特徴量を得る。
【0100】
続いて、画像認識部34が、対象画像および全ての参照用画像について取得された各特徴量に基づいて、全ての参照用画像の中から、対象画像の特徴に最も近い特徴を有する参照用画像(以下「類似画像」という。)を決定する(ステップS404)。具体的には、画像認識部34は、参照用画像データ群Rについて取得された特徴群XRから、対象画像の特徴xqに最も近い特徴を特定し、特定した特徴が抽出された参照用画像を類似画像として決定する。そして、画像認識部34は、決定した類似画像Rqに係る参照用画像データに基づき、類似画像Rqに付与された物体の名称を対象画像Qに写る物体の名称として出力する(ステップS405)。
【0101】
なお、参照用画像の特徴群XR={xr1,xr2,・・・,xrn}は、画像認識装置30による画像認識処理に先立って予め生成されていてもよく、この場合、ステップS403は省略されてもよい。この場合、対象画像入力部31は、対象画像に加えて、参照用画像の特徴群XR={xr1,xr2,・・・,xrn}を入力するように構成されてもよい。
【0102】
<装置構成>
図8は、実施形態の学習装置10および画像認識装置30のハードウェア構成の一例を示す図である。例えば、学習装置10および画像認識装置30は、図8に例示する情報処理装置40のハードウェア構成によって実現することができる。例えば、情報処理装置40は、バス41で接続されたCPU(Central Processing Unit)42やメモリ43、記憶部44、入力部45、表示部46を備える。情報処理装置40は、CPU42およびメモリ43により記憶部44に記憶されたプログラムを実行することにより、上述の学習装置10または画像認識装置30として機能する。具体的には、学習装置10は、プログラムの実行により学習部13を構成し、画像認識装置30は、プログラムの実行により特徴抽出部33および画像認識部34を構成する。
【0103】
ここで、記憶部44は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。記憶部44は、上記のプログラムのほか、学習用データ群や参照用画像データ群、学習済みモデル(本実施形態では特徴抽出器20)など、情報処理装置40が学習装置10または画像認識装置30として機能するための各種情報を記憶する。
【0104】
入力部45は、マウスやキーボード、トラックボール、スイッチ、ボタン、ジョイスティック、タッチパネル等の入力装置を備えることにより、学習用データ入力部11または対象画像入力部31として機能する。入力部45は、情報処理装置40の利用者による各種操作の入力を受け付けるとともに、入力された操作を電気信号に変換してCPU42に出力する。なお、入力部45は、マイク等の音声入力装置を備え、入力される音声によって操作の入力を受け付けるように構成されてもよい。また、入力部45がタッチパネルを備える場合、入力部45は、表示部46と一体に構成されてもよい。また、入力部45は、情報処理装置40の一部として構成される入力装置に限定されない。例えば、入力部45は、情報処理装置40とは別体に構成された外部の装置から情報処理装置40に対する操作を示す電気信号を入力する入力インターフェースとして構成されてもよい。
【0105】
表示部46は、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を用いて構成される。又は、表示部46は、これらの表示装置を自装置に接続するインターフェースとして構成されてもよい。表示部46は、出力部36として機能する。
【0106】
なお、情報処理装置40の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
【0107】
以上のように構成された実施形態の学習装置10によれば、学習用データ群に誤った教師ラベルが含まれている場合であっても、精度の高い有効な特徴を学習することが可能になるとともに、そのように学習された特徴抽出器によって抽出された特徴を用いることにより、より精度良く対象データを識別することが可能となる。
【0108】
<変形例>
上記実施形態では、学習装置10と画像認識装置30とを別々の装置として構成する場合を例に説明したが、これらの装置は一つの装置として構成されてもよい。また、実施形態の学習装置10または画像認識装置30の機能の一部または全部は、ネットワークを介して通信可能な複数の装置に分散して構成されてもよい。
【0109】
上述した実施形態における学習装置10または画像認識装置30の一部または全部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0110】
以上、学習用データ群が画像である場合における学習方法および推定方法について説明したが、その技術的思想の適用先は画像認識に限らず、教師データに基づく任意の機械学習およびその学習結果に基づく任意の推定処理に適用可能である。例えば、本実施形態の学習方法および推定方法は、テキスト解析、自然言語処理、音声認識、時系列データ解析などにも適用可能である。
【0111】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0112】
10…学習装置、11…学習用データ入力部、12…学習用データ記憶部、13…学習部、131…特徴抽出部、132…更新部、133…検出部、134…補正部、14…学習済みモデル記憶部、20…特徴抽出器、21…入力層、22…第1の畳み込み層、23…第1のプーリング層、24…第2の畳み込み層、25…第2のプーリング層、26…第1の全結合層、27…第2の全結合層、28…出力層、30…画像認識装置、31…対象画像入力部、32…学習済みモデル記憶部、33…特徴抽出部、34…画像認識部、35…参照用画像データ記憶部、36…出力部、40…情報処理装置、41…バス、42…CPU、43…メモリ、44…記憶部、45…入力部、46…表示部、100…画像認識システム
図1
図2
図3
図4
図5
図6
図7
図8