特開2023-22485 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人　東京大学の特許一覧

特開2023-22485学習装置、推定装置、学習方法、推定方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023022485

(43)【公開日】2023-02-15

(54)【発明の名称】学習装置、推定装置、学習方法、推定方法、およびプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20230208BHJP

【ＦＩ】

G06N20/00 130

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021127382

(22)【出願日】2021-08-03

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504137912

【氏名又は名称】国立大学法人東京大学

(74)【代理人】

【識別番号】110001634

【氏名又は名称】弁理士法人志賀国際特許事務所

(72)【発明者】

【氏名】入江豪

(72)【発明者】

【氏名】伊神大貴

(72)【発明者】

【氏名】相澤清晴

(57)【要約】

【課題】学習用データ群に誤った教師ラベルが含まれている場合であっても、精度の高い有効な特徴を学習することを可能にする技術を提供すること。
【解決手段】実施形態の学習装置は、学習対象のデータと、前記学習対象のデータと他のデータとの類似性を示す教師ラベルとの組を含む学習用データの集合として与えられる学習用データ群に関し、前記学習用データ群に含まれる学習対象のデータの特徴を、予め生成されている特徴抽出器を用いて抽出する特徴抽出部と、前記学習対象のデータの特徴と、前記特徴に係る教師ラベルとに基づいて損失関数の値を求め、前記損失関数の値に基づく評価値が小さくなるように前記特徴抽出器のパラメータを更新する更新部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

学習対象のデータと、前記学習対象のデータと他のデータとの類似性を示す教師ラベルとの組を含む学習用データの集合として与えられる学習用データ群に関し、前記学習用データ群に含まれる学習対象のデータの特徴を、予め生成されている特徴抽出器を用いて抽出する特徴抽出部と、
前記学習対象のデータの特徴と、前記特徴に係る教師ラベルとに基づいて損失関数の値を求め、前記損失関数の値に基づく評価値が小さくなるように前記特徴抽出器のパラメータを更新する更新部と、
を備える学習装置。

【請求項2】

前記パラメータが更新された特徴抽出器に基づいて、前記学習用データ群から前記教師ラベルに誤りがある学習用データ群を誤ラベルデータとして検出する検出部と、
前記誤ラベルデータについて、前記損失関数の値が小さくなるように前記誤ラベルデータの教師ラベルを補正する補正部と、
をさらに備える請求項１に記載の学習装置。

【請求項3】

前記検出部は、前記パラメータが更新された特徴抽出器によって抽出された特徴に基づく損失関数の値が所定の閾値以上である学習用データ群を前記誤ラベルデータとして検出する、
請求項２に記載の学習装置。

【請求項4】

請求項１から３のいずれか一項に記載の学習装置によって生成された特徴抽出器に基づいて対象データの特徴を抽出する特徴抽出部と、
前記特徴抽出部によって抽出された前記対象データの特徴に基づいて、前記対象データに関する情報を推定する推定部と、
を備える推定装置。

【請求項5】

学習対象のデータと、前記学習対象のデータと他のデータとの類似性を示す教師ラベルとの組を含む学習用データの集合として与えられる学習用データ群に関し、前記学習用データ群に含まれる学習対象のデータの特徴を、予め生成されている特徴抽出器を用いて取得する特徴抽出ステップと、
前記学習対象のデータの特徴と、前記特徴に係る教師ラベルとに基づいて損失関数の値を求め、前記損失関数の値に基づく評価値が小さくなるように前記特徴抽出器のパラメータを更新する更新ステップと、
を有する学習方法。

【請求項6】

請求項５に記載の学習方法によって生成された特徴抽出器に基づいて対象データの特徴を抽出する第２の特徴抽出ステップと、
前記第２の特徴抽出ステップにおいて抽出された前記対象データの特徴に基づいて、前記対象データに関する情報を推定する推定ステップと、
を有する推定方法。

【請求項7】

コンピュータを請求項１から３のいずれか一項に記載の学習装置として機能させるためのプログラム。

【請求項8】

コンピュータを請求項４に記載の推定装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習により情報を学習する技術およびその学習済みモデルに基づいて情報を推定する技術に関する。

【背景技術】

【0002】

近年、ＡＩ（Artificial Intelligence）技術の進展が目覚ましい。画像認識分野では、既に人間の精度を上回る画像認識技術が開発された。音声認識分野では、自然雑音環境下でも安定した音声認識を実現する技術が多く実用化され、今やスマートフォンのような小型端末から気軽に利用できるようになっている。機械翻訳も日常生活でオンライン利用可能になり、国際コミュニケーションの障壁が飛躍的に低下した。

【0003】

近年のこのようなＡＩ技術の進展を支えているのは、深層学習と呼ばれる深いニューラルネットワーク（深層ニューラルネットワーク）を学習する技術であることは言うまでもない。深層学習の特筆すべき点は、画像や音、言語など、多様なデータの意味や内容を的確に表現する特徴表現（特徴、特徴量、特徴ベクトルなどとも呼ばれる）を、元データから直接的に学習することが可能な高い特徴学習能力である。

【0004】

深層学習の隆盛以前から、特徴表現は多くの情報処理において中心的な役割を担ってきた。例えば、画像認識は、画像から抽出した特徴を元に識別器を学習し、画像を意味カテゴリに分類することによってなされてきた。画像検索においても、特徴を基に内容の類似性を判断している。音声認識も同様に、音声波形から特徴を抽出し、これを音素クラスに分類する音響モデルを学習することによってなされている。深層学習以前では、このような特徴、または特徴抽出器を人手により設計していたため、いかに低容量かつ適切な特徴を抽出できるかが性能を決定づける重要な要素の一つであった。この特徴、または特徴抽出器の設計は、設計者にとってしばしば困難なものであったが、深層学習によって入出力の関係性をデータから直接的に学習することができるようになったことにより、学習の精度が飛躍的に向上するというブレークスルーがもたらされた。

【0005】

しかしながら、たとえ深層学習を用いる場合であっても、特徴、または特徴抽出器を精度良く学習するためには、効果的な学習手段の設計が不可欠である。特に、情報処理においては、互いにデータの内容が近しいものほど特徴の類似度が高くなり、反対に、内容が異なるものほど特徴の類似度が低くなることが好ましい場合が多い。

【0006】

例えば、画像認識や音声認識のような分類問題においては、同一クラス内のデータの特徴は特徴空間上近くに配置され、反対に、異なるクラスの特徴は離れて配置される方が分類しやすい。また、画像検索、つまり、クエリ画像として与えたデータに内容が近いものを大量の画像の中から探すような処理においても、互いに内容が近しいデータ同士の特徴は特徴空間上近くに配置され、そうでないものは遠くに配置される方が都合がよい。従来、このような要件を満たす特徴の学習を可能にする学習技術の実現に向けて、さまざまな技術が開発されてきた。

【0007】

例えば、非特許文献１では、上記の要件を満たす特徴を学習するための損失関数として、Contrastive Lossと呼ばれる関数が提案されている。Contrastive Lossは、二つのデータの組について、内容が近しいものの特徴は近くに位置づけ、そうでないものの特徴は遠くに位置付けることを要請する損失関数である。より具体的には、Contrastive Lossは、二つのデータＩｉおよびＩｊ（ｉ≠ｊ）の組に対して、これらの内容が近しいか否かを表す関連性ラベルｙｉｊが付与するものであり、近しい場合にはｙｉｊ＝１とし、そうでない場合はｙｉｊ＝０とする。このようなContrastive Lossは、例えば（１）式のように定義される。

【0008】

【数1】

【0009】

ここで、ｘｉはＩｉの特徴である。ｍはマージンと呼ばれるパラメータであり、例えば０．２などの値に事前に設定される。ｄ（ｘｉ,ｘｊ）はｘｉとｘｊの距離を表す距離関数である。ｄ（ｘｉ,ｘｊ）には、任意の距離関数を用いることができるが、例えばユークリッド距離とすればよい。

【0010】

非特許文献２には、Contrastive Lossによく似た着想に基づく損失関数としてTriplet Lossが提案されている。Contrastive Lossとの違いは、Contrastive Lossが二つのデータの組について比較を行うのに対し、Triplet Lossは三つのデータの組について比較を行う点である。より具体的には、Triplet Lossでは、あるデータＩａについて、これと内容の近しいデータＩｐと、内容の遠いデータＩｎ（Ｉａ≠Ｉｐ≠Ｉｎ）との三つのデータを一組にする。このとき、Triplet Lossは、例えば（２）式のように定義される。

【0011】

【数2】

【0012】

なお、Triplet Lossにおいて、ｘａ／Ｉａをアンカーといい、ｘｐ／Ｉｐをポジティブといい、ｘｎ／Ｉｎをネガティブという場合がある。

【0013】

特許文献１には、Triplet Lossを用いることで、画像の一部の領域にしかラベルが与えられていないような場合であっても、その一部の領域に対する分類を正確に実行することが可能な学習法が提案されている。

【0014】

また、非特許文献３には、Triplet Lossを用いることで、物体の姿勢に対する正解データが無い場合でも、画像中に写る物体の姿勢を推定する推定器を学習可能にする技術が提案されている。具体的には、基準となる姿勢である物体を撮影した画像であるアンカー画像があるとする。任意の姿勢で物体が写った画像が入力された場合、当該入力画像に対して、非特許文献４に記載のＳＴＮ（Spatial Transformer Network）を導入した幾何変換層を用い、入力画像がアンカー画像に一致するように幾何変換（位置合わせ）を施す。この幾何変換に用いられた姿勢パラメータを用いて、当該入力画像のアンカー画像からのずれを推定する。

【先行技術文献】

【特許文献】

【0015】

【特許文献1】特開２０２０－０４７０５５号公報

【非特許文献】

【0016】

【非特許文献1】Sumit Chopra, Raia Hadsell, Yann LeCun, “Learning a Similarity Metric Discriminatively, with Application to Face Verification”, in Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pp.539-546, 2005.

【非特許文献2】Florian Schroff, Dmitry Kalenichenko, James Philbin. “FaceNet: A Unified Embedding for Face Recognition and Clustering”, in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 815-823, 2015.

【非特許文献3】Koki Ueno, Go Irie, Masashi Nishiyama, Yoshio Iwai. Weakly Supervised Triplet Learning of Canonical Plane Transformation for Joint Object Recognition and Pose Estimation, Proceedings of 2019 IEEE International Conference on Image Processing (ICIP), 2019.

【非特許文献4】Max Jaderberg, Karen Simonyan, Andrew Zisserman, and Koray Kavukcuoglu. Spatial Transformer Networks. Proceedings of Neural Information Processing Systems, 2015.

【発明の概要】

【発明が解決しようとする課題】

【0017】

大局的にみれば、上記の従来技術はいずれも、いくつかのデータの関連性（内容が近いか遠いか）を表すラベルが教師データとして与えられた下で、教師データにより関連性が近いと指示されたデータ同士は互いに特徴が近くなるように学習し、遠いと指示されたデータ同士は互いに特徴が遠くなるように学習する技術である。

【0018】

当然ながら、これらの技術は、教師データとして与えられるラベルは正確であることを前提としている。しかしながら現実的には、多くの場合、誤りの無い学習用データ群を想定することは難しい。誤りが無いことを保証するためには、正確性を多重にチェックするなど十分な注意を払う必要があり、非常にコストがかかる。さらに、データ間の関連性は、それ自体が曖昧性を含む基準である場合が多く、これに起因するラベルの揺らぎなどにより、十分に注意を払ったとしても正確な教師ラベルが得られないようなケースも数多く存在する。

【0019】

このような、ラベルに誤りを含むような学習用データ群を用いた場合、上記のいずれの従来技術も誤った関連性を基に学習を行ってしまう。すなわち、本来近づける／遠ざけるべきデータ同士の特徴を遠ざける／近づけて学習することになり、精度の高い有効な特徴を学習することができないという問題があった。

【0020】

以上のような背景により、データの内容が近いか遠いかを表す正確な教師ラベルが得られないような場合においても、精度の高い有効な特徴を学習することが可能な学習技術の実現が望まれている。

【0021】

上記事情に鑑み、本発明は、学習用データ群に誤った教師ラベルが含まれている場合であっても、精度の高い有効な特徴を学習することを可能にする技術を提供することを目的としている。

【課題を解決するための手段】

【0022】

本発明の一態様は、学習対象のデータと、前記学習対象のデータと他のデータとの類似性を示す教師ラベルとの組を含む学習用データの集合として与えられる学習用データ群に関し、前記学習用データ群に含まれる学習対象のデータの特徴を、予め生成されている特徴抽出器を用いて抽出する特徴抽出部と、前記学習対象のデータの特徴と、前記特徴に係る教師ラベルとに基づいて損失関数の値を求め、前記損失関数の値に基づく評価値が小さくなるように前記特徴抽出器のパラメータを更新する更新部と、を備える学習装置である。

【0023】

本発明の一態様は、上記の学習装置によって生成された特徴抽出器に基づいて対象データの特徴を抽出する特徴抽出部と、前記特徴抽出部によって抽出された前記対象データの特徴に基づいて、前記対象データに関する情報を推定する推定部と、を備える推定装置である。

【0024】

本発明の一態様は、学習対象のデータと、前記学習対象のデータと他のデータとの類似性を示す教師ラベルとの組を含む学習用データの集合として与えられる学習用データ群に関し、前記学習用データ群に含まれる学習対象のデータの特徴を、予め生成されている特徴抽出器を用いて取得する特徴抽出ステップと、前記学習対象のデータの特徴と、前記特徴に係る教師ラベルとに基づいて損失関数の値を求め、前記損失関数の値に基づく評価値が小さくなるように前記特徴抽出器のパラメータを更新する更新ステップと、を有する学習方法である。

【0025】

本発明の一態様は、上記の学習方法によって生成された特徴抽出器に基づいて対象データの特徴を抽出する第２の特徴抽出ステップと、前記第２の特徴抽出ステップにおいて抽出された前記対象データの特徴に基づいて、前記対象データに関する情報を推定する推定ステップと、を有する推定方法である。

【0026】

本発明の一態様は、コンピュータを上記の学習装置として機能させるためのプログラムである。

【0027】

本発明の一態様は、コンピュータを上記の推定装置として機能させるためのプログラムである。

【発明の効果】

【0028】

本発明により、学習用データ群に誤った教師ラベルが含まれている場合であっても、精度の高い有効な特徴を学習することが可能となる。

【図面の簡単な説明】

【0029】

【図1】実施形態の学習装置の構成例を示す図である。

【図2】実施形態において学習の対象となる特徴抽出器の構成の一例を示す図である。

【図3】学習装置が実行する学習処理の流れの一例を示すフローチャートである。

【図4】実施例に係る画像認識システムの構成例を示す概略図である。

【図5】実施例に係る画像認識装置の構成例を示す図である。

【図6】学習装置が実行する学習処理の流れの一例を示すフローチャートである。

【図7】画像認識装置が実行する画像認識処理の流れの一例を示すフローチャートである。

【図8】実施形態の学習装置および画像認識装置のハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0030】

以下、図面を参照して本発明の実施の形態を詳細に説明する。

【0031】

図１は、実施形態の学習装置の構成例を示す図である。学習装置１０は、学習用データ群に基づく機械学習により学習済みモデルとして特徴抽出器を学習する装置である。特徴抽出器は、処理対象のデータ（以下「対象データ」という。）の入力に対し、対象データの特徴を抽出して出力するものである。学習装置１０は、例えば、学習用データ入力部１１と、学習用データ記憶部１２と、学習部１３と、学習済みモデル記憶部１４とを備える。

【0032】

学習用データ入力部１１は、学習用データ群を入力するとともに、入力した学習用データ群を学習用データ記憶部１２に格納する。学習部１３は、学習用データ記憶部１２に格納された学習用データ群に基づいて特徴抽出器２０を生成し、生成した特徴抽出器２０を学習済みモデルとして学習済みモデル記憶部１４に格納する。また、学習部１３は、学習済みモデル記憶部１４に格納された特徴抽出器２０と、学習用データ記憶部１２に格納された学習用データ群とに基づいて、特徴抽出器２０の更新および学習用データ群の補正を行う。具体的には、学習部１３は、例えば、特徴抽出部１３１と、更新部１３２と、検出部１３３と、補正部１３４とを備える。以下、各機能部の詳細について説明するが、まず学習対象である特徴抽出器２０の構成について説明する。

【0033】

＜特徴抽出器の構成＞
特徴抽出器２０は、対象データを入力し、対象データの特徴を出力する関数である。特徴抽出器２０は、このような入出力関係を表現できるものであれば任意の関数として構成されてよいが、ここでは対象データとして主に画像を想定した場合における特徴抽出器２０の構成の一例を説明する。なお、画像は対象データの一例である。対象データは、上記の入出力関係を表現する特徴抽出器を構成できるものであればよく、画像のほか、音や言語などの任意のデータが対象データとされてよい。以下、対象データとしての画像を「対象画像」という。

【0034】

図２は、本実施形態において学習の対象となる特徴抽出器２０の構成の一例を示す図である。この構成は畳み込みニューラルネットワーク（Convolutional Neural Network）に基づく構成であり、入力層、畳み込み層、プーリング層、全結合層、幾何変換層の４種類の層の組み合わせで構成されている。例えば、特徴抽出器２０は、入力層２１、第１の畳み込み層２２、第１のプーリング層２３、第２の畳み込み層２４、第２のプーリング層２５、第１の全結合層２６、第２の全結合層２７、および出力層２８を結合して構成される。なお、畳み込み層、プーリング層、全結合層は公知のものであり、例えば参考文献１に記載の技術に基づいて構成することができる。

【0035】

［参考文献１］Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks. Proceedings of Neural Information Processing Systems, 2012.

【0036】

このように構成された特徴抽出器２０は、入力された対象画像から、固定長のベクトルとして特徴を出力することができる。なお、本実施形態において特徴抽出器２０のニューラルネットワークは、この構成に限られるものではなく、上述の入出力要件を満たす限りどのような構成が採用されてもよい。例えば、最終層（出力層の前段）にＬ２正規化層が加えられてもよい。こうすることによって、特徴を頑健化できるため、好適である。

【0037】

また、例えば、図２に示した構成は、畳み込み層及びプーリング層の組み合わせを２回繰り返し、その後全結合層を二層接続した構造であるが、この二層の全結合層の代わりに下記の参考文献２や参考文献３などに開示されている大域的プーリング層を接続する構成であってもよい。

【0038】

［参考文献２］Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep Residual Learning for Image Recognition,Proceedings of Conference on Computer Vision and Pattern Recognition, 2016.
［参考文献３］Giorgos Tolias, Ronan Sicre, and Herve Jegou. Particular Object Retrieval with Integral Max-pooling of CNN Activations. ArXiv Preprint: https://arxiv.org/abs/1511.05879, 2015.

【0039】

このように、全結合層が無い構成にすることにより、入力される対象画像のサイズに依らず、常に同じ次元数の特徴を求めることができるため好適である。以降では、特に断りのない限り、学習用データとして画像を想定し、特徴抽出器２０として図２に示す構成のものを用いた場合を例に説明する。

【0040】

＜特徴抽出器の学習処理＞
続いて、特徴抽出器２０の学習処理について説明する。上述のとおり、本実施形態の学習装置１０が学習する特徴抽出器２０は、対象画像の特徴を抽出する処理に用いられるものである。そのため、学習処理は、対象画像の特徴を抽出する処理を行う前に、少なくとも一度実施される必要がある。より具体的には、学習処理は、特徴抽出器２０のパラメータであるニューラルネットワークの重みを学習用データ群に基づいて決定する処理である。学習処理の実行には、学習用データ群を予め準備しておく必要がある。

【0041】

学習用データ群は、データ間の関連性を表す教師ラベルがどのように与えられるかによっていくつかの構成を取り得る。ここで、例えば、学習用データ群がｍ個のデータの集合Ｉ＝｛Ｉ１,Ｉ２,・・・,Ｉｍ｝を含むとする。この場合、第１の構成例として、あるデータＩｉ、Ｉｊ（ｉ≠ｊ）について、これらが互いに関連する場合には１が、そうでない場合には０を取るラベルｙｉｊが教師ラベルとして与えられる構成が挙げられる。この場合、学習用データ群は（Ｉｉ、Ｉｊ、ｙｉｊ）の組を一纏まりとした学習用データの集合として構成される。

【0042】

また、第２の構成例として、Ｉｉと異なる二つのデータＩｊ、Ｉｋについて、Ｉｉとの関連性が高いデータ（ポジティブデータ）をＩｊとし、Ｉｉとの関連性が低いデータ（ネガティブデータ）をＩｋとして、（Ｉｉ,Ｉｊ,Ｉｋ）を一纏まりとした学習用データの集合を学習用データ群とする構成が挙げられる。

【0043】

上記の例以外にも、データ集合Ｉのうち少なくとも一つのデータに対して、それとは異なる少なくとも一つのデータとの関連性が与えられるものであれば、学習用データは任意の態様で構成されてよい。

【0044】

また、学習用データ群について上記条件が満たされる限り、学習用データ群を生成する手段には、どのような手段が用いられてもよい。例えば、学習用データ群の生成は、人手によって実施されてもよいし、一部または全部の工程がコンピュータによって自動的に行われてもよい。

【0045】

上記のように構成された学習用データ群の教師ラベルに誤りが無ければ、例えば非特許文献１～３の方法を用いて、精度の高い有効な特徴を学習することができる。しかしながら、上述のとおり、現実的には、誤りの無い学習用データ群を想定することは難しい。

【0046】

例えば、第１の構成例のように、三つのデータ（Ｉｉ,Ｉｊ,ｙｉｊ）の組によって学習用データが構成され、互いに関連しているデータＩｉ、Ｉｊがある場合に、本来は教師ラベルとしてｙｉｊ＝１が付与されるべきところ、誤ってｙｉｊ＝０が付与されている場合（あるいはその逆）が、教師ラベルに誤りがある場合の一例として考えられる。

【0047】

あるいは、第２の構成例のように（Ｉｉ,Ｉｊ,Ｉｋ）の組によって学習用データが構成されている場合であれば、ポジティブデータとネガティブデータとが入れ替わってしまっている場合、すなわち、ＩｉとＩｋとの関連性が高く、ＩｉとＩｊとの関連性が低いにもかかわらず、（Ｉｉ,Ｉｊ,Ｉｋ）となっている学習用データが学習用データ群に含まれているような場合も一例として考えられる。

【0048】

本実施形態の学習処理は、学習用データ群に誤った教師ラベルが含まれている可能性がある場合において、誤った教師ラベルが付加された可能性が高い学習用データ（以下「誤ラベルデータ」という。）を検出する検出処理と、検出された誤ラベルデータに含まれる教師ラベルを補正する補正処理とによって学習用データ群の精度を高めることにより、誤った教師ラベルを含む学習用データ群を用いた場合であっても、精度の高い有効な特徴を学習することを可能にするものである。以下では、この検出処理および補正処理についてより詳細に説明する。

【0049】

＜検出処理＞
ここでは、学習用データ群が、三つのデータの組（Ｉｉ,Ｉｊ,ｙｉｊ）によって構成されている場合であって、ＩｉおよびＩｊに対して誤った教師ラベルが与えられた場合について説明する。例えば、ＩｉおよびＩｊが関連性の高いデータであるにもかかわらず誤った教師ラベルｙｉｊ＝０が与えられている場合を想定する。この場合、もし仮に、正しく学習された特徴抽出器２０が得られているとしてＩｉおよびＩｊの特徴ｘｉおよびｘｊを抽出したとすると、特徴ｘｉとｘｊの類似度は大きく（距離は小さく）なりやすい。つまり、この場合、（１）式の損失関数の値を計算すると、大きな値が得られることになる。

【0050】

また、この逆の場合、すなわち、ＩｉおよびＩｊが関連性の低いデータであるにもかかわらず誤った教師ラベルｙｉｊ＝１が与えられている場合においても、同様に損失関数の値は大きくなる。

【0051】

このような性質によれば、正しく学習された特徴抽出器２０が得られている前提では、損失関数の値が大きい学習用データは教師ラベルに誤りがある可能性が高いと考えらえる。そのため、損失関数の値の大きい学習用データを誤ラベルデータとみなして損失関数の値を評価することにより、高い確率で誤ラベルデータを検出することができる。

【0052】

しかしながら、実際には、学習処理の実行中においては特徴抽出器２０の学習が完了しておらず、学習済みの特徴抽出器２０が得られないため、上記の方法によって誤ラベルデータを検出することはできない。

【0053】

一方で、学習用データ群において、誤ラベルデータの数は、正しい教師ラベルが付与されたデータの数に比べてごく少数である場合が多く、仮に誤った教師ラベルを含む学習用データ群で学習を行ったとしても、「誤ラベルデータは損失関数の値が大きくなる傾向にある」ということには変わりはないと考えられる。そこで、本実施形態では、このような損失関数の性質を利用し、学習途中の特徴抽出器２０を用いて損失関数の値を求め、この値が大きいものを誤ラベルデータであるとみなして検出する。

【0054】

例えば、全ての学習用データについて、学習途中の特徴抽出器２０を適用して特徴を抽出し、抽出した特徴について（１）式で損失関数の値を求めたのち、損失関数の値が大きいものから順に上位ｇ個を、誤ラベルデータとして検出する。ｇは、例えば学習用データ群のデータ数に対する一定の割合、例えば全体の１０％に相当する数などとして定められてもよいし、学習の進行と共に変更されてもよい。あるいは、損失関数の値に閾値ｔを定め、ｔ以上の値を持つデータを、誤ラベルデータとして検出してもよい。これらのほか、誤ラベルデータの検出方法には、求めた損失関数の値の大きさに基づいてデータを選別するものであれば、任意の方法を用いることができる。

【0055】

以上、学習用データが三つのデータの組（Ｉｉ,Ｉｊ,ｙｉｊ）によって構成される場合を例に、誤ラベルデータを（１）式の損失関数を用いて検出する方法について説明したが、学習用データの構成は必ずしも（Ｉｉ,Ｉｊ,ｙｉｊ）の組によるものである必要はなく、また、用いる損失関数も必ずしも（１）式によるものである必要はない。例えば、学習用データが三つのデータの組（Ｉｉ，Ｉｊ，Ｉｋ）によって構成され、（２）式の損失関数を用いる場合であっても、同様に、損失関数の値の大きさに基づいて誤ラベルデータを検出することができる。

【0056】

＜補正処理＞
上述のとおり、誤ラベルデータは損失関数の値が大きくなる傾向にある。裏を返せば、仮に教師ラベルを変更した場合に損失関数の値が低下するならば、変更後の教師ラベルが正しいラベルである可能性が高いと言える。例えば、（Ｉｉ，Ｉｊ，ｙｉｊ＝０）が誤ラベルデータであると検出されたとして、（Ｉｉ,Ｉｊ,ｙｉｊ＝０）と、教師ラベルの値を変更した（Ｉｉ,Ｉｊ,ｙｉｊ＝１）との双方について（１）式の損失関数の値を計算し、（Ｉｉ,Ｉｊ,ｙｉｊ＝１）の方が損失関数の値が小さくなった場合には、教師ラベルの変更によって学習用データが正しく補正されたということができる。そのため、この場合には、変更前の学習用データを、変更後の学習用データに置き換える。この操作は、ｙｉｊ＝１をｙｉｊ＝０に変更する場合も同様である。

【0057】

また、三つのデータの組（Ｉｉ，Ｉｊ，Ｉｋ）によって構成された学習用データが誤ラベルデータとして検出された場合についても同様に、（Ｉｉ，Ｉｊ，Ｉｋ）および（Ｉｉ,Ｉｋ,Ｉｊ）について（２）式の損失関数の値を計算し、（Ｉｉ,Ｉｋ,Ｉｊ）の方が損失関数の値が小さくなった場合には、（Ｉｉ,Ｉｊ,Ｉｋ）を（Ｉｉ,Ｉｋ,Ｉｊ）に置き換えればよい。

【0058】

なお、補正処理の趣旨は、損失関数の値が小さくなるように教師ラベルを変更することにあり、この趣旨に沿う限りにおいて、補正方法は上記の例に限定されない。

【0059】

以上、補正処理の典型的な例について説明したが、さらなる工夫を施すことにより補正処理の精度を改善することができる。

【0060】

例えば、学習用データが三つのデータの組（Ｉｉ,Ｉｊ,ｙｉｊ）によって構成されている場合を考える。一般に、自然かつ無作為に収集されたデータ群の場合、互いに関連のないデータの組（つまりｙｉｊ＝０とされるべきもの）の数の方が、関連のあるデータ（つまりｙｉｊ＝１とされるべきもの）の数よりもはるかに多い。このように収集される学習用データ群に対して、上記の補正処理をそのまま施した場合、本来期待される量を超えて、過剰に関連性のあるデータへと補正されてしまう可能性がある。

【0061】

そこで、上記の損失関数に値を補正する正則化項を加えることにより、ｙｉｊ＝１と補正される頻度を抑制する。この目的を実現可能であれば、正則化項には任意の関数を用いられてよい。例えば、（３）式のように定義した正則化項を導入し、損失関数を（４）式のように定義することができる。

【0062】

【数3】

【0063】

【数4】

【0064】

ｐは、ｙｉｊ＝１となる確率を表すパラメータであり、０＜ｐ＜１を満たす実数値である。ｐが小さいほどｙｉｊ＝１になりにくい。λは元の損失関数と正則化項との間のバランスを調整するためのパラメータである。λは任意の実数値であってよいが、例えば、ｘｉとｘｊの間の距離の中央値の半分の値などとしてもよい。

【0065】

図３は、学習装置１０が実行する学習処理の流れの一例を示すフローチャートである。ここでは、各処理の内容について、学習用データが（Ｉｉ,Ｉｊ,ｙｉｊ）の態様で構成される場合を適宜例にとりながら説明する。まず、学習部１３は、特徴抽出器２０を生成する（ステップＳ２０１）。

【0066】

なお、ステップＳ２０１は、後続のステップＳ２０２の初回実行時において少なくとも必要となる特徴抽出器２０を生成するためのものである。ここで生成される特徴抽出器２０は、いわば初期状態の特徴抽出器２０であり、本実施形態の学習処理は、この初期状態の特徴抽出器２０の精度を、後続の検出処理および補正処理によって高めていくことにより、学習済みの特徴抽出器２０を得るものである。そのため、ここでの特徴抽出器２０の生成方法は特定のものに限定されないし、初期状態の特徴抽出器２０が予め生成されており、学習済みモデル記憶部１４に格納されている場合には、ステップＳ２０１は省略されてもよい。

【0067】

例えば、典型的には、初期状態の特徴抽出器２０は、ニューラルネットワークの重みをランダムに決定することによって生成されてもよい。また、例えば、事前に何らかのデータと方法によって学習済みのニューラルネットワークがある場合には、初期状態の特徴抽出器２０は、その学習済みのニューラルネットワークのパラメータをコピーすることによって生成されてもよい。以下では、図３の処理フローにおいて、最終的に学習済みの特徴抽出器２０が得られるまでの特徴抽出器２０を学習途中の特徴抽出器２０という。

【0068】

続いて、特徴抽出部１３１が、学習用データ群Ｉ＝｛Ｉ１，Ｉ２，・・・，Ｉｍ｝に含まれる全てのデータに対して学習途中の特徴抽出器２０を適用することにより、データ群Ｉに含まれる全データの特徴の集合Ｘ＝｛ｘ１,ｘ２,…,ｘｍ｝を生成する（ステップＳ２０２）。

【0069】

続いて、更新部１３２が、各学習用データ（Ｉｉ,Ｉｊ,ｙｉｊ）に対応する特徴ｘｉおよびｘｊと、教師ラベルｙｉｊとに基づいて損失関数の値を求める（ステップＳ２０３）。次に、更新部１３２は、損失関数の値を小さくするように学習途中の特徴抽出器２０のパラメータを更新する（ステップＳ２０４）。例えば、更新部１３２は、以下のような方法で、パラメータを更新することができる。

【0070】

（１）式や（２）式からも明らかなように、損失関数は、特徴抽出器２０のパラメータに対して区分的に微分可能である。このことに鑑みれば、更新部１３２は、勾配法により、損失関数Ｌの値が小さくなるようにパラメータを更新可能である。例えば、確率的勾配降下法に基づいてパラメータを更新する場合、特徴抽出器２０のあるパラメータをｗとおくと、１ステップあたり、（６）式に基づいてパラメータｗを更新していけばよい。

【0071】

【数5】

【0072】

通常のニューラルネットワークの構成層については、任意のパラメータｗに対する損失関数Ｌの微分値を、誤差逆伝搬法により計算することが可能である。このような構成により、更新部１３２は、任意のパラメータｗに対する損失関数Ｌの微分値を（５）式により計算することができる。なお、更新部１３２には、モーメンタム項を利用したり、重み減衰を利用したりといった、確率的勾配降下法に対して一般的に行われている改善法が導入されてもよいし、あるいは別の勾配降下法が適用されてもよい。

【0073】

なお、更新部１３２は、全ての学習用画像データのうちいずれか１つについて損失関数の値が小さくなるようにパラメータを更新してもよいし、複数の学習用画像データについて損失関数の値が小さくなるようにパラメータを更新してもよい。複数の学習用画像データについて損失関数の値が小さくなるようにパラメータを更新する場合、更新部１３２は、複数の学習用画像データの損失関数の値に基づく評価値（例えば総和）が小さくなるようにパラメータを更新してもよい。

【0074】

続いて、検出部１３３が、補正処理の実行条件が満たされたか否かを判定する（ステップＳ２０５）。例えば、ステップＳ２０４で更新された特徴抽出器２０について、更新前後におけるパラメータの変更の大きさが閾値よりも大きい場合には、学習用データ群の精度向上が必要であると考えられるので、この場合、検出部１３３は補正処理を実行すると判定してもよい。また、例えば、特徴抽出器２０を更新する際にステップＳ２０３で求めた損失関数の値が閾値よりも小さい場合には、学習用データ群の精度が十分高いと考えられるので、この場合、検出部１３３は補正処理を実行しないと判定してもよい。このほか、補正処理の実行条件は、任意に設定されてよい。補正処理について、このような実行条件が判定されることにより、学習装置１０は、特定の状況での補正処理の実行を省略し、処理時間を短縮したり、処理負荷を軽減したりすることができる。なお、補正処理の実行条件の判定は、必須ではない。学習装置１０は、補正処理の実行条件を判定することなく、繰り返し処理の都度補正処理を実行するように構成されてもよい。

【0075】

ステップＳ２０５において、補正処理の実行条件が満たされたと判定した場合（ステップＳ２０５）、検出部１３３は、ステップＳ２０４においてパラメータの更新を行った学習途中の特徴抽出器２０を用いて検出処理を行い、誤ラベルデータを検出する（ステップＳ２０６）。次に、補正部１３４が、検出した誤ラベルデータについて補正処理を行い、損失関数の値が小さくなるように教師ラベルを変更する（ステップＳ２０７）。一方、ステップＳ２０５において、補正処理の実行条件が満たされていないと判定した場合（ステップＳ２０５－ＮＯ）、検出部１３３は、ステップＳ２０６およびＳ２０７をスキップしてステップＳ２０８に処理を進める。

【0076】

続いて、学習部１３は、学習処理の終了条件が満たされたか否かを判定する（ステップＳ２０８）。学習部１３は、学習処理の終了条件が満たされたと判定した場合（ステップＳ２０８－ＹＥＳ）には学習処理を終了し、終了条件が満たされていないと判定した場合（ステップＳ２０８－ＮＯ）にはステップＳ２０２に処理を戻し、終了条件が満たされるまでステップＳ２０２～Ｓ２０７を繰り返し実行する。なお、学習処理の終了条件は、任意に設定されてよい。例えば、終了条件は、「所定の回数（例えば１００回など）繰り返したら終了」とする条件であってもよいし、「誤差の減少が一定の繰り返し回数の間一定の範囲内に収まっていたら終了」とする条件であってもよい。

【0077】

また、図３のフローにおいて、検出処理（ステップＳ２０６）および補正処理（Ｓ２０７）の実行頻度は任意の頻度に調整されてよい。好ましくは、パラメータ更新処理（ステップＳ２０２～Ｓ２０４）の複数回の実行に対して検出処理および補正処理を一回実行し、検出処理および補正処理を一定回数実行した後は、それ以上検出処理および補正処理を実行しないようにするとよい。例えば、ステップＳ２０２～Ｓ２０４を１０００回繰り返すごとにステップＳ２０６およびＳ２０７を１回実行し、ステップＳ２０６およびＳ２０７を３回実行した後は、それ以上ステップＳＳ２０６およびＳ２０７を実行しないようにすればよい。

【0078】

以上、実施形態における特徴抽出器２０の学習方法について説明した。以下では、画像に基づいて当該画像の被写体の名称を推定する場合を例にとり、実施形態の学習方法の実施例を説明する。

【0079】

図４は、実施例に係る画像認識システム１００の構成例を示す概略図である。画像認識システム１００は、例えば、学習装置１０Ａと、画像認識装置３０とを備える。画像認識装置３０は、対象データとしての画像データ（以下「対象画像」という。）の入力に対して、対象画像の被写体の名称を推定して出力する装置である。具体的には、画像認識装置３０は、対象画像の特徴を特徴抽出器２０によって抽出し、抽出した特徴に基づいて予め用意された参照用画像との類似性を評価することにより、対象画像の被写体の名称を推定する。画像認識装置３０は「推定装置」の一例である。

【0080】

学習装置１０Ａは、画像認識装置３０が対象画像の特徴を抽出する際に使用する特徴抽出器２０を実施形態の学習方法によって生成する装置である。学習装置１０Ａの構成は、基本的には、図１～図３で説明した学習装置１０と同様であるため、ここでは詳細な説明を省略する。学習装置１０Ａでは、学習用データ入力部１１が画像データと教師ラベルの組によって表されたデータの集合を学習用データ群として入力し、学習部１３が入力された学習用データ群に基づいて画像から被写体に関する特徴を抽出する特徴抽出器２０を生成して学習済みモデル記憶部１４に格納する。学習済みモデル記憶部１４に格納された特徴抽出器２０は、対象画像についての画像認識処理に先立って画像認識装置３０に供給される。

【0081】

以下では、学習用データが、ある被写体を写した画像Ｉｉと、画像Ｉｉと同一の被写体を写した画像Ｉｊと、画像Ｉｉとは異なる被写体を写した画像Ｉｋとの三つのデータの組によって表されるデータ（Ｉｉ，Ｉｊ，Ｉｋ）の集合として構成される場合について説明する。以下、学習用データとして与えられる画像データを学習用画像データという。このような構成の学習用画像データ群の生成は、人手によって実施されてもよいし、一部または全部の工程がコンピュータによって自動的に行われてもよい。例えば、次の（ａ）～（ｃ）の要件を満たす画像集合が得られていれば、コンピュータ処理によって自動的に学習用画像データ群を構成することが可能である。

【0082】

（ａ）画像集合は１枚以上の画像を含み、画像集合の各画像は少なくとも一つの物体を写したものであること。
（ｂ）学習用画像データ群の全体では、画像に写された物体の種類は２種類以上であり、同一種類の物体を写した画像が少なくとも２枚以上存在すること。
（ｃ）同一種類の物体を写した画像同士が互いに識別可能であること。

【0083】

そして、上記（ａ）～（ｃ）の要件を満たす画像集合に対して、例えば、以下の（１）～（３）の処理を所望の組数が揃うまで繰り返し実施することにより、学習用画像データ群を構成することができる。

【0084】

（１）画像集合から１枚の画像をランダムに選択し、これを画像Ｉｉとする。
（２）画像Ｉｉと同一の物体を写した画像をランダムに１枚選択し、これを画像Ｉｊとする。
（３）画像Ｉｉと異なる物体を写した画像をランダムに１枚選択し、これを画像Ｉｋとする。

【0085】

図５は、実施例に係る画像認識装置３０の構成例を示す図である。画像認識装置３０は、例えば、対象画像入力部３１と、学習済みモデル記憶部３２と、特徴抽出部３３と、画像認識部３４と、参照用画像データ記憶部３５と、出力部３６とを備える。対象画像入力部３１は、対象画像を入力して特徴抽出部３３に出力する。学習済みモデル記憶部３２は、学習装置１０Ａによって生成された特徴抽出器２０を学習済みモデルとして予め記憶している。特徴抽出部３３は、学習済みモデル記憶部３２に記憶されている特徴抽出器２０を用いて対象画像から特徴を抽出する。参照用画像データ記憶部３５は、参照用画像データ群を予め記憶している。ここで参照用画像は、対象画像の被写体を識別するために参照される画像であり、名称が既知である物体が写された画像である。また、参照用画像データは、各参照用画像に対し、それぞれに写された既知の物体の名称が付与されたデータである。

【0086】

画像認識部３４は、特徴抽出部３３によって抽出された対象画像の特徴と、参照用画像データ記憶部３５に記憶されている参照用画像データとに基づいて対象画像の被写体を認識する。被写体の認識方法については後述する。画像認識部３４は「推定部」の一例である。出力部３６は、画像認識部３４による被写体の認識結果を出力する。例えば、出力部３６は、認識結果を表示する表示部であってもよいし、認識結果を示す情報を他の装置に送信する送信部であってもよいし、認識結果を示す情報を記録媒体に記録する記録部であってもよい。

【0087】

図６は、学習装置１０Ａが実行する学習処理の流れの一例を示すフローチャートである。ここでは、学習用画像データが上述の三つの画像の組（Ｉｉ、Ｉｊ、Ｉｋ）によって構成される場合を例にとり説明する。

【0088】

まず、学習部１３は、初期状態の特徴抽出器２０を生成する（ステップＳ３０１）。

【0089】

続いて、特徴抽出部１３１は、学習用画像データ群に含まれる全ての画像データＩ＝｛Ｉ１，Ｉ２，・・・，Ｉｍ｝に対し学習途中の特徴抽出器２０を適用して各画像の特徴を抽出することにより、学習用画像データ群に含まれる全ての画像の特徴の集合データＸ＝｛ｘ１,ｘ２,…,ｘｍ｝を生成する（ステップＳ３０２）。

【0090】

続いて、更新部１３２は、学習用画像データ（Ｉｉ，Ｉｊ，Ｉｋ）に対応する特徴ｘｉ,ｘｊ,ｘｋに基づいて損失関数の値を求める（ステップＳ３０３）。更新部１３２は、損失関数の値を小さくするように学習途中の特徴抽出器２０のパラメータを更新する（ステップＳ３０４）。

【0091】

続いて、検出部１３３は、補正処理の実行条件が満たされたか否かを判定する（ステップＳ３０５）。補正処理の実行条件が満たされたと判定した場合（ステップＳ３０５）、検出部１３３は、ステップＳ３０４においてパラメータの更新を行った学習途中の特徴抽出器２０を用いて検出処理を行い、誤ラベルデータを検出する（ステップＳ３０６）。

【0092】

なお、学習用画像データ（Ｉｉ，Ｉｊ，Ｉｋ）における教師ラベルとは、画像Ｉｉに対してポジティブデータとして与えられた画像Ｉｊ、および画像Ｉｉに対してネガティブデータとして与えられた画像Ｉｋである。上述のとおり、この場合、画像Ｉｊと画像Ｉｋが入れ替わってしまっているような学習用画像データが誤ラベルデータとして検出される。

【0093】

補正部１３４は、検出された誤ラベルデータについて補正処理を行い、損失関数の値が小さくなるように教師ラベルを変更する（ステップＳ３０７）。一方、ステップＳ３０５において、補正処理の実行条件が満たされていないと判定した場合（ステップＳ３０５－ＮＯ）、検出部１３３は、ステップＳ３０６およびＳ３０７をスキップしてステップＳ３０８に処理を進める。

【0094】

例えば、補正部１３４は、検出された学習用画像データ（Ｉｉ，Ｉｊ，Ｉｋ）について、ポジティブデータとネガティブデータとを入れ替えたデータの組（Ｉｉ，Ｉｋ，Ｉｊ）を新たな学習用画像データとすることにより学習用画像データ群を更新する。

【0095】

続いて、学習部１３は、学習処理の終了条件が満たされたか否かを判定する（ステップＳ３０８）。学習部１３は、学習処理の終了条件が満たされたと判定した場合（ステップＳ３０８－ＹＥＳ）には学習処理を終了し、終了条件が満たされていないと判定した場合（ステップＳ３０８－ＮＯ）にはステップＳ３０２に処理を戻し、終了条件が満たされるまでステップＳ３０２～Ｓ３０７を繰り返し実行する。

【0096】

以上説明した実施例に係る学習処理の流れは、基本的に図３に示したものと同様である。そのため、図３で補足した具体例や変形例等は、図６のフローチャートにも適用可能なものである。

【0097】

＜画像認識処理＞
図７は、画像認識装置３０が実行する画像認識処理の流れの一例を示すフローチャートである。ここでは、参照用画像データ群Ｒ＝｛Ｒ１，Ｒ２，…，Ｒｎ｝が参照用画像データ記憶部３５に予め記憶されているものとする。ここでは、画像認識装置３０が、参照用画像データ群Ｒと、学習装置１０Ａによって生成された特徴抽出器２０とを用いて対象画像Ｑに写る物体の名称を識別する場合について説明する。

【0098】

まず、対象画像入力部３１が、対象データとして、識別対象の物体が写された画像Ｑ（以下「対象画像」という。）を入力する（ステップＳ４０１）。

【0099】

続いて、特徴抽出部３３が、学習済みモデル記憶部３２に予め記憶されている学習済みの特徴抽出器２０を用いて、対象画像Ｑの特徴ｘｑを抽出する（ステップＳ４０２）。ここで、学習済みモデル記憶部３２に予め記憶されている特徴抽出器２０は、学習装置１０Ａが学習用画像データ群を学習することによって予め生成されたものである。また、同様にして、特徴抽出部３３は、参照用画像データ群Ｒに含まれる全ての参照用画像の特徴ＸＲ＝｛ｘｒ１，ｘｒ２，・・・，ｘｒｎ｝を抽出する（ステップＳ４０３）。具体的には、特徴抽出部３３は、対象画像Ｑおよび全ての参照用画像を特徴抽出器２０に入力し、その出力として各画像の特徴量を得る。

【0100】

続いて、画像認識部３４が、対象画像および全ての参照用画像について取得された各特徴量に基づいて、全ての参照用画像の中から、対象画像の特徴に最も近い特徴を有する参照用画像（以下「類似画像」という。）を決定する（ステップＳ４０４）。具体的には、画像認識部３４は、参照用画像データ群Ｒについて取得された特徴群ＸＲから、対象画像の特徴ｘｑに最も近い特徴を特定し、特定した特徴が抽出された参照用画像を類似画像として決定する。そして、画像認識部３４は、決定した類似画像Ｒｑに係る参照用画像データに基づき、類似画像Ｒｑに付与された物体の名称を対象画像Ｑに写る物体の名称として出力する（ステップＳ４０５）。

【0101】

なお、参照用画像の特徴群ＸＲ＝｛ｘｒ１，ｘｒ２，・・・，ｘｒｎ｝は、画像認識装置３０による画像認識処理に先立って予め生成されていてもよく、この場合、ステップＳ４０３は省略されてもよい。この場合、対象画像入力部３１は、対象画像に加えて、参照用画像の特徴群ＸＲ＝｛ｘｒ１，ｘｒ２，・・・，ｘｒｎ｝を入力するように構成されてもよい。

【0102】

＜装置構成＞
図８は、実施形態の学習装置１０および画像認識装置３０のハードウェア構成の一例を示す図である。例えば、学習装置１０および画像認識装置３０は、図８に例示する情報処理装置４０のハードウェア構成によって実現することができる。例えば、情報処理装置４０は、バス４１で接続されたＣＰＵ（Central Processing Unit）４２やメモリ４３、記憶部４４、入力部４５、表示部４６を備える。情報処理装置４０は、ＣＰＵ４２およびメモリ４３により記憶部４４に記憶されたプログラムを実行することにより、上述の学習装置１０または画像認識装置３０として機能する。具体的には、学習装置１０は、プログラムの実行により学習部１３を構成し、画像認識装置３０は、プログラムの実行により特徴抽出部３３および画像認識部３４を構成する。

【0103】

ここで、記憶部４４は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。記憶部４４は、上記のプログラムのほか、学習用データ群や参照用画像データ群、学習済みモデル（本実施形態では特徴抽出器２０）など、情報処理装置４０が学習装置１０または画像認識装置３０として機能するための各種情報を記憶する。

【0104】

入力部４５は、マウスやキーボード、トラックボール、スイッチ、ボタン、ジョイスティック、タッチパネル等の入力装置を備えることにより、学習用データ入力部１１または対象画像入力部３１として機能する。入力部４５は、情報処理装置４０の利用者による各種操作の入力を受け付けるとともに、入力された操作を電気信号に変換してＣＰＵ４２に出力する。なお、入力部４５は、マイク等の音声入力装置を備え、入力される音声によって操作の入力を受け付けるように構成されてもよい。また、入力部４５がタッチパネルを備える場合、入力部４５は、表示部４６と一体に構成されてもよい。また、入力部４５は、情報処理装置４０の一部として構成される入力装置に限定されない。例えば、入力部４５は、情報処理装置４０とは別体に構成された外部の装置から情報処理装置４０に対する操作を示す電気信号を入力する入力インターフェースとして構成されてもよい。

【0105】

表示部４６は、ＣＲＴ（Cathode Ray Tube）ディスプレイや液晶ディスプレイ、有機ＥＬ（Electro-Luminescence）ディスプレイ等の表示装置を用いて構成される。又は、表示部４６は、これらの表示装置を自装置に接続するインターフェースとして構成されてもよい。表示部４６は、出力部３６として機能する。

【0106】

なお、情報処理装置４０の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

【0107】

以上のように構成された実施形態の学習装置１０によれば、学習用データ群に誤った教師ラベルが含まれている場合であっても、精度の高い有効な特徴を学習することが可能になるとともに、そのように学習された特徴抽出器によって抽出された特徴を用いることにより、より精度良く対象データを識別することが可能となる。

【0108】

＜変形例＞
上記実施形態では、学習装置１０と画像認識装置３０とを別々の装置として構成する場合を例に説明したが、これらの装置は一つの装置として構成されてもよい。また、実施形態の学習装置１０または画像認識装置３０の機能の一部または全部は、ネットワークを介して通信可能な複数の装置に分散して構成されてもよい。

【0109】

上述した実施形態における学習装置１０または画像認識装置３０の一部または全部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

【0110】

以上、学習用データ群が画像である場合における学習方法および推定方法について説明したが、その技術的思想の適用先は画像認識に限らず、教師データに基づく任意の機械学習およびその学習結果に基づく任意の推定処理に適用可能である。例えば、本実施形態の学習方法および推定方法は、テキスト解析、自然言語処理、音声認識、時系列データ解析などにも適用可能である。

【0111】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【符号の説明】

【0112】

１０…学習装置、１１…学習用データ入力部、１２…学習用データ記憶部、１３…学習部、１３１…特徴抽出部、１３２…更新部、１３３…検出部、１３４…補正部、１４…学習済みモデル記憶部、２０…特徴抽出器、２１…入力層、２２…第１の畳み込み層、２３…第１のプーリング層、２４…第２の畳み込み層、２５…第２のプーリング層、２６…第１の全結合層、２７…第２の全結合層、２８…出力層、３０…画像認識装置、３１…対象画像入力部、３２…学習済みモデル記憶部、３３…特徴抽出部、３４…画像認識部、３５…参照用画像データ記憶部、３６…出力部、４０…情報処理装置、４１…バス、４２…ＣＰＵ、４３…メモリ、４４…記憶部、４５…入力部、４６…表示部、１００…画像認識システム

【図1】