(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-18
(45)【発行日】2023-12-26
(54)【発明の名称】学習装置、学習方法、及び、プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20231219BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2022505696
(86)(22)【出願日】2020-03-13
(86)【国際出願番号】 JP2020011157
(87)【国際公開番号】W WO2021181668
(87)【国際公開日】2021-09-16
【審査請求日】2022-09-01
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100106909
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100134544
【氏名又は名称】森 隆一郎
(74)【代理人】
【識別番号】100149548
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100162868
【氏名又は名称】伊藤 英輔
(72)【発明者】
【氏名】吉田 周平
(72)【発明者】
【氏名】寺尾 真
【審査官】土谷 慎吾
(56)【参考文献】
【文献】CID-SUEIRO, Jesus,"Proper losses for learning from partial labels",Advances in Neural Information Processing Systems 25 (NIPS 2012),[オンライン],2012年12月08日,pp.1-9,[検索日 令和5年8月31日], <URL: https://proceedings.neurips.cc/paper_files/paper/2012/file/217eedd1ba8c592db97d0dbe54c7adfc-Paper.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
認識対象データと弱ラベルとの組の集合である学習用データセット中の前記認識対象データに対する認識結果、前記学習用データセットに基づいて算出された交差行列、及び、前記認識対象データに付与されている前記弱ラベルを用いて認識損失を算出する認識損失算出手段、
を備え、
前記学習用データセットは弱観測確率分布を備えたものであり、
前記弱観測確率分布は、前記認識対象データが属する真の正解クラスで条件づけた前記弱ラベルが従う確率分布であって、弱ラベルを行添え字、真の正解クラスを列添え字とする行列と見なしたときに左逆行列を持つものであり、
前記認識損失算出手段は、
クラスおよび前記認識対象データにおける前記弱ラベルから定まる、前記交差行列
の成分と前記認識結果
の成分との差分を計算する差分計算手段と、
前記差分の二乗和を計算し前記認識損失を計算する二乗和計算手段と、
を備える、学習装置。
【請求項2】
前記学習用データセット中の前記認識対象データに対する前記認識結果を出力する認識手段と、
前記学習用データセットに基づいて前記交差行列を算出する交差行列算出手段と、
をさらに備える請求項1に記載の学習装置。
【請求項3】
前記認識損失に基づいて前記認識手段のパラメータを更新する更新手段、
をさらに備える請求項2に記載の学習装置。
【請求項4】
前記学習用データセットを供給する弱ラベルデータセット供給手段、
をさらに備える請求項1から請求項3のいずれか1項に記載の学習装置。
【請求項5】
前記学習用データセットは、エキスパートデータセットまたはPUデータセットのいずれかである
請求項1から請求項4のいずれか1項に記載の学習装置。
【請求項6】
認識対象データと弱ラベルとの組の集合である学習用データセット中の前記認識対象データに対する認識結果、前記学習用データセットに基づいて算出された交差行列、及び、前記認識対象データに付与されている前記弱ラベルを用いて認識損失を算出する認識損失算出ステップ、
を含み、
前記学習用データセットは弱観測確率分布を備えたものであり、
前記弱観測確率分布は、前記認識対象データが属する真の正解クラスで条件づけた前記弱ラベルが従う確率分布であって、弱ラベルを行添え字、真の正解クラスを列添え字とする行列と見なしたときに左逆行列を持つものであり、
前記認識損失算出ステップは、
クラスおよび前記認識対象データにおける前記弱ラベルから定まる、前記交差行列
の成分と前記認識結果
の成分との差分を計算する差分計算ステップと、
前記差分の二乗和を計算し前記認識損失を計算する二乗和計算ステップと、
を含む、コンピュータによる学習方法。
【請求項7】
認識対象データと弱ラベルとの組の集合である学習用データセット中の前記認識対象データに対する認識結果、前記学習用データセットに基づいて算出された交差行列、及び、前記認識対象データに付与されている前記弱ラベルを用いて認識損失を算出する認識損失算出ステップ、
を含み、
前記学習用データセットは弱観測確率分布を備えたものであり、
前記弱観測確率分布は、前記認識対象データが属する真の正解クラスで条件づけた前記弱ラベルが従う確率分布であって、弱ラベルを行添え字、真の正解クラスを列添え字とする行列と見なしたときに左逆行列を持つものであり、
前記認識損失算出ステップは、
クラスおよび前記認識対象データにおける前記弱ラベルから定まる、前記交差行列
の成分と前記認識結果
の成分との差分を計算する差分計算ステップと、
前記差分の二乗和を計算し前記認識損失を計算する二乗和計算ステップと、
を含む、学習方法をコンピュータに実行させるため
のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、学習方法、及び、プログラムに関する。
【背景技術】
【0002】
近年、機械学習を用いた認識技術は、画像認識の分野を中心に極めて高い性能を示すようになっている。機械学習に基づく認識技術の高い精度は、大量の正解付き学習データに支えられている。しかし、データの収集と正解付けにかかるコストは高く、特に多クラス分類の正解付けにかかるコストは、クラス数が増えるごとに増大する。
【0003】
多クラス分類において、全ての認識対象に対してそれが属するクラスを示す真の正解ラベルを付与する代わりに、真の正解ラベルから確率的に定まる弱ラベルを付与したデータセットを用いる手法が非特許文献1に提案されている。しかし、非特許文献1は、負の成分を含む交差行列を重みとして半正定値関数を足し上げて計算される損失関数を学習に使用しており、損失関数に負の寄与をもたらすデータに対して過適合を生ずる。
【先行技術文献】
【非特許文献】
【0004】
【文献】Cid-Sueiro,J.,Garcia-Garcia,D.、and Santos-Rodoriguez、R., ”Consistency of losses for learning from weak labels”, In ECML-PKDD,2014.
【発明の概要】
【発明が解決しようとする課題】
【0005】
この開示は、上記関連する技術を改善する学習装置、学習方法、及び、プログラムを提供することを目的としている。
【課題を解決するための手段】
【0006】
本開示の一実施形態による学習装置は、認識対象データと弱ラベルとの組の集合である学習用データセット中の前記認識対象データに対する認識結果、前記学習用データセットに基づいて算出された交差行列、及び、前記認識対象データに付与されている前記弱ラベルを用いて認識損失を算出する認識損失算出手段、を備え、前記学習用データセットは弱観測確率分布を備えたものであり、前記弱観測確率分布は、前記認識対象データが属する真の正解クラスで条件づけた前記弱ラベルが従う確率分布であって、弱ラベルを行添え字、真の正解クラスを列添え字とする行列と見なしたときに左逆行列を持つものであり、前記認識損失算出手段は、前記交差行列と前記認識結果との差分を計算する差分計算手段と、前記差分の二乗和を計算し前記認識損失を計算する二乗和計算手段と、を備える。
【0007】
本開示の一実施形態によるコンピュータによる学習方法は、認識対象データと弱ラベルとの組の集合である学習用データセット中の前記認識対象データに対する認識結果、前記学習用データセットに基づいて算出された交差行列、及び、前記認識対象データに付与されている前記弱ラベルを用いて認識損失を算出する認識損失算出ステップ、を含み、前記学習用データセットは弱観測確率分布を備えたものであり、前記弱観測確率分布は、前記認識対象データが属する真の正解クラスで条件づけた前記弱ラベルが従う確率分布であって、弱ラベルを行添え字、真の正解クラスを列添え字とする行列と見なしたときに左逆行列を持つものであり、前記認識損失算出ステップは、前記交差行列と前記認識結果との差分を計算する差分計算ステップと、前記差分の二乗和を計算し前記認識損失を計算する二乗和計算ステップと、を含む。
【0008】
本開示の一実施形態による学習装置用記録媒体は、認識対象データと弱ラベルとの組の集合である学習用データセット中の前記認識対象データに対する認識結果、前記学習用データセットに基づいて算出された交差行列、及び、前記認識対象データに付与されている前記弱ラベルを用いて認識損失を算出する認識損失算出ステップ、を含み、前記学習用データセットは弱観測確率分布を備えたものであり、前記弱観測確率分布は、前記認識対象データが属する真の正解クラスで条件づけた前記弱ラベルが従う確率分布であって、弱ラベルを行添え字、真の正解クラスを列添え字とする行列と見なしたときに左逆行列を持つものであり、前記認識損失算出ステップは、前記交差行列と前記認識結果との差分を計算する差分計算ステップと、前記差分の二乗和を計算し前記認識損失を計算する二乗和計算ステップと、を含む、学習方法をコンピュータに実行させるためプログラムを記録する。
【図面の簡単な説明】
【0009】
【
図1A】多クラス分類問題の場合の通常のデータセットの例を示す。
【
図1B】多クラス分類問題の場合の弱ラベルデータセット(エキスパートデータセット)の例を示す。
【
図2】学習装置の機能構成を示すブロック図である。
【
図3】認識損失算出部の詳細な機能構成を示すブロック図である。
【
図4】学習装置の動作を示すフローチャートである。
【
図5】認識損失算出部の動作を示すフローチャートである。
【
図6】学習装置のハードウェア構成の一例を示すブロック図である。
【
図8】学習装置の最小構成における動作を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、図面を参照して、本発明の好適な実施形態について説明する。
【0011】
[弱ラベルデータセット]
まず、本発明の実施形態において使用する弱ラベルを付与されたデータセット(以下、「弱ラベルデータセット」と呼ぶ)について説明する。
【0012】
本実施形態では、データ空間Xの要素xを正解候補集合Yの要素である正解クラスyに分類する多クラス分類について考える。
【0013】
多クラス分類問題における通常の学習用データセットは、データ空間Xの要素であるデータxと、正解候補集合Yの要素である正解クラスyとの組(x,y)の集合D
【0014】
【0015】
である。
【0016】
弱ラベルデータセットは、データ空間Xの要素であるデータxと、弱ラベル集合Zの要素である弱ラベルzとの組(x,z)の集合Dw
【0017】
【0018】
であり、弱観測確率分布
【0019】
【0020】
を備えている。弱観測確率分布としては、
【0021】
【0022】
を満たす交差行列Hを持つものに限定する。ここでは、yとy’が等しい時に1の値を、異なる時に0の値を取る。データ空間Xの要素であるデータxに対して、それに付与される弱ラベルzは、弱ラベル集合Zの要素であり、データxが属する真の正解クラスyから弱観測確率分布に従って定まる。すなわち、データxiが属する真のクラスがyiである時、データxiに弱ラベルziが付与される確率は、式(3)の弱観測確率分布を用いて
【0023】
【0024】
で与えられる。実際に付与される弱ラベルziは、式(5)に従ってサンプルされる弱ラベルziの実現値である。
【0025】
次に、弱ラベルデータセットの具体例としてエキスパートデータセットとPUデータセットを説明する。これらの具体例に対しては、式(4)を満たす交差行列が存在する。但し、本発明の実施形態において使用する弱ラベルデータセットはエキスパートデータセットとPUデータセットに限らない。
【0026】
[1]エキスパートデータセット
「エキスパートデータセット」とは、多クラス分類のモデルを学習する際に使用できる学習用データセットであり、複数の部分データセットにより構成されるものである。具体的に、エキスパートデータセットは、以下の条件を具備するように構成される。
(A)複数の部分データセットの各々には、正解候補集合Yに含まれるクラスの少なくとも一部が責任範囲として割り当てられている。
(B)正解候補集合Yに含まれる全てのクラスが、複数の部分データセットのいずれかに割り当てられている。
(C)部分データセットに含まれる各データには、当該部分データセットに割り当てられた責任範囲に属するクラスのいずれか、又は、当該認識対象のクラスが当該部分データセットの責任範囲に属さないことを示す弱ラベルが付与されている。
【0027】
条件(C)から、エキスパートデータセットにおける弱ラベル集合Zは、正解候補集合Yに含まれる各クラスと、各部分データセットの責任範囲外にあることを示すラベルとを含む。データ空間Xの要素であるデータxが正解候補集合Yの要素である真のクラスyに属するとき、このデータxがどの部分データセットに含まれるかによってデータxに付与される弱ラベルが決定される。データxを含む部分データセットの責任範囲が真のクラスyを含む場合、データxに付与される弱ラベルzは真のクラスyを示す。他方、データxを含む部分データセットの責任範囲が真のクラスyを含まない場合、データxには「真のクラスが当該部分データセットの責任範囲外である」ことを示す弱ラベルzが付与される。このように、同じクラスyに属するデータxであっても、付与される弱ラベルzが何であるかはどの部分データセットに含まれるかという確率的な要素によって定まる。また、条件(B)により、弱ラベルを決定する確率分布に対して交差行列Hが存在することが保証される。以上より、エキスパートデータセットは本発明で使用する「弱ラベルを付与されたデータセット」の要件を満たしている。
【0028】
図1Bは、エキスパートデータセットの例を示す。いま、画像データに基づいて100クラスの多クラス分類を行う物体認識モデルを学習するものとする。エキスパートデータセットでは、複数の部分データセットを用意する。
図1Bの例では、「水生哺乳類」、「人」などの複数の部分データセットが用意される。そして、各部分データセットには、それぞれ責任範囲が設定される。「水生哺乳類」の部分データセットには、5種類の水生哺乳類、「ビーバー」、「イルカ」、「カワウソ」、「アザラシ」、「クジラ」が責任範囲として割り当てられる。「人」の部分データセットには、5種類の人、「赤ん坊」、「男の子」、「女の子」、「男性」、「女性」が責任範囲として割り当てられる。ここで、責任範囲は、正解候補集合Yに含まれる全てのクラスが、少なくとも一つの部分データセットの責任範囲に含まれるように決定されている。即ち、いずれの部分データセットにも割り当てられていないクラスが存在しないように、100クラスが複数の部分データセットに割り当てられている。言い換えると、複数の部分データセットにより、100クラスの認識対象全てが網羅されるように責任範囲が決定されている。これにより、エキスパートデータセットによっても、100クラスの多クラス分類の学習が可能となる。
【0029】
エキスパートデータセットでは、各部分データセットに含まれる各画像データに対しては、その責任範囲に属するカテゴリーのいずれかを示す正解ラベル、又は、その画像データのカテゴリーがその部分データセットの責任範囲に属さないことを示すラベルが用意される。
図1Bの例では、「水生哺乳類」の部分データセットに含まれる画像データに対しては、「ビーバー」、「イルカ」、「カワウソ」、「アザラシ」、「クジラ」のいずれかを示す正解ラベル、又は、その画像データのカテゴリーがその部分データセットの責任範囲に属さないことを示す「水生哺乳類でない」というラベルが用意される。例えば、「赤ん坊」の画像が「水生哺乳類」の部分データセットに含まれる場合、この画像に対しては「水生哺乳類でない」というラベルが付与される。
【0030】
このようなエキスパートデータセットを用いると、学習データに対する正解付けの作業負荷が大幅に軽減される。
図1Aに示す通常のデータセットの場合、用意された全ての画像データに対して100カテゴリーのいずれかを正解ラベルとして付与する必要がある。例えば、学習データとして6万枚の画像データが用意された場合、それら全てに対して100カテゴリーのいずれかを正解ラベルとして割り当てる必要がある。これに対して、
図1Bに示すエキスパートデータセットの場合には、6万枚の画像データを例えば20の集合に分け、20個の部分データセットを用意する。また、認識対象となる100カテゴリーを20の集合に分け、各部分データセットに責任範囲として5カテゴリーを割り当てる。こうすると、
図1Bに示すように、各部分データセットに属する画像データに対しては、その部分データセットに属する5カテゴリーのいずれかの正解ラベル、又は、その部分データセットの責任範囲に属さないことを示す正解ラベルの合計6個の正解ラベルのいずれかを付与すればよい。即ち、各部分データセットに対して、6個の正解ラベルのいずれかを付与すればよい。
【0031】
[2]PUデータセット
この他の弱ラベルを付与されたデータセットの例として、PUデータセットを説明する。
【0032】
PUデータセットは、データ空間Xの要素であるデータxを正クラス(Pと表記する)と負クラス(Nと表記する)に分類する2クラス分類問題のデータセットである。2クラス分類問題のデータセットでは、データxに対してそれがPに属するかNに属するかを示すラベルが付与されている。すなわち、データセットに含まれる全てのデータに真の正解ラベルが付与されている。他方、PUデータセットのデータxには、データxがPに属することを示すラベルか、真の正解が未知であることを示すラベル(Uと表記する)が付与されている。すなわち、PUデータセットは弱ラベル集合Zを持ち、ZにはPに属することを示すラベルと真の正解が未知であることを示すラベルが含まれている。
【0033】
データ空間Xの要素であるデータxが真の正解クラスPに属する場合、データxに対して弱ラベル集合Zの要素であるPとUのいずれが付与されるかは確率的に定まる。他方、データxが真の正解クラスNに属する場合、データxに対して付与される弱ラベルは確率1でUである。
【0034】
真の正解クラスを見分けることに高度な専門知識やコストが必要な場合、PUデータセットを用いることで学習データに対する正解付けの作業負荷が大幅に軽減される。このことを入力画像に対してそれが病変を含む(正クラス・P)か、正常か(負クラス・N)を識別する医療画像識別を例に説明する。画像を見てそれが病変を含むか否かを判断するためには、医師の高度な専門知識を必要とする。そのため、2クラス分類問題を学習するための通常のデータセットを作成するためには、全ての画像を医師が確認し正解ラベルを付与する必要がある。他方、PUデータセットを作成するためには、全ての画像に対して診断をつける必要はなく、病変が含まれる(すなわちPである)画像が一定量収集された段階で、残りの画像のすべてに弱ラベルUを付与して学習データの作成を完了できる。
【0035】
次に、エキスパートデータセットを用いた学習装置の実施形態について説明する。
図2は、実施形態に係る学習装置の機能構成を示すブロック図である。なお、この学習装置100は、多クラス分類モデルを学習するものとする。学習装置100は、弱ラベルデータセット供給部111と、認識部112と、認識損失算出部113と、更新部114と、認識部パラメータ記憶部115と、交差行列算出部116と、交差行列記憶部117と、を備える。また、学習装置100は、記憶装置200に記憶される学習用データセットであるエキスパートデータセットを用いた学習処理を行う。
【0036】
弱ラベルデータセット供給部111は、記憶装置200に記憶されるエキスパートデータセットを用いて、前述した弱ラベルデータセットの入力データを認識部112及び認識損失算出部113に供給する。具体的には、弱ラベルデータセット供給部111は、データxiと、弱ラベルziとの組{xi,zi}(以下、これを「入力データの組」と呼ぶ)を認識部112及び認識損失算出部113に供給する。認識部112は、内部にニューラルネットワークなどにより構成される認識モデルを有する。認識部112は、画像データである入力xiに対する認識モデルを用いた認識処理を行って認識結果f(xi)を認識損失算出部113に出力する。認識結果f(xi)は、正解候補集合Yの要素数と同じ次元を持つベクトルであり、その各成分は各クラスの相対的な尤もらしさを表す実数値である。一般に、認識結果f(xi)の各成分は任意の実数値を取ってよいが、必要に応じて非負値で各成分の総和が1となるように正規化されていてもよい。なお、正規化はsoftmax関数を用いる方法が一般的であるが、この方法に限るものではない。
【0037】
一方、交差行列算出部116は、弱ラベルデータセットの属性値に基づいて、交差行列Hを算出し、交差行列記憶部117に供給する。なお、交差行列については後に詳しく説明する。交差行列記憶部117は、供給された交差行列Hを記憶し、認識損失算出部113に供給する。
【0038】
認識損失算出部113は、弱ラベルデータセット供給部111から供給される入力データの組{xi,zi}と、認識部112から供給される認識結果f(xi)と、交差行列Hとを用いて認識損失Lを算出し、更新部114へ供給する。認識損失Lについては後に詳しく説明する。更新部114は、認識損失Lに基づいて、認識部112の認識モデルを構成するパラメータを更新し、更新後のパラメータを認識部パラメータ記憶部115に供給する。認識部パラメータ記憶部115は、更新部114から供給された更新後のパラメータを記憶する。認識部112は、パラメータを更新するタイミングで認識部パラメータ記憶部115に記憶されるパラメータを読み出し、認識処理の際のパラメータとして設定する。こうして、弱ラベルデータセットを学習用データとして用いて、認識部112の学習が行われる。
【0039】
図3は認識損失算出部113の詳細な機能構成を示すブロック図である。認識損失算出部113は、差分計算部118と、二乗和計算部119とを備える。差分計算部118は認識部112から供給される認識結果と、交差行列記憶部117から供給される交差行列Hから、その差分Δ
iを計算する。二乗和計算部119は、差分計算部118から供給される差分Δ
iの二乗和を算出し、損失関数Lとして更新部114へ供給する。
【0040】
(交差行列)
まず、交差行列Hについて詳しく説明する。交差行列Hは、正解候補集合Yの要素数と同じ数の行を持ち、弱ラベル集合Zの要素数と同じ数の列を持つ長方形行列である。この形状を持った行列のうち、式(4)を満たすものを交差行列Hとして採用する。すなわち、行列Mを、弱ラベル集合Zの要素数と同じ数の行を持ち、正解候補集合Yの要素数と同じ数の列を持つ行列であり、その第z行、第y列成分が
【0041】
【0042】
であるものとすると、交差行列Hはその左逆行列M+である。
【0043】
【0044】
交差行列算出部116は、式(7)に従い、式(6)で与えられる行列Mの左逆行列M+を計算することで交差行列Hを算出する。正解候補集合Yの要素数と弱ラベル集合Zの要素数が異なる場合、行列Mの左逆行列は無数に存在するが、そのいずれを用いても良い。
【0045】
(認識損失)
次に、認識損失算出部113において算出される認識損失について詳しく説明する。弱ラベルデータセットを用いて学習を行う場合、交差行列Hを用いて損失関数が定義される。しかしながら、従来は交差行列を半正定値関数の重み付き和の重みとして使用しており、交差行列の要素が負の値を持つために、結果として得られる損失関数は負の値を取りうる。損失関数が負の値を取りうる時、学習を実行すると負の重みが掛かった項が際限なく増大し、学習の妨げとなる。そこで、本実施形態では、交差行列Hを重み付き和の重みとして使う代わりに、目的関数の値として使用し、認識結果と目的関数の二乗誤差を損失関数Lとすることで、前述の問題を解消する。
【0046】
従来は、入力データxiとそれに付与された弱ラベルziの組 ( xi, zi ) の集合 {( xi, zi )} に対して、次の2段階によって損失関数Lを計算する。第1の段階では、半正定値の関数lを用いて、認識結果f(xi)と、正解候補集合Yの各要素yとの損失l(f(xi),y)を計算する。第2の段階では、第1の段階で計算された損失を交差行列Hにより重みづけして学習データに渡って足し上げる。結果、以下のように損失関数Lが定義される。
【0047】
【0048】
これに対し、本実施形態においては、第1の段階で認識結果f(xi)と交差行列Hとの差分Δiを計算する。差分Δiは正解候補集合Yの要素数と同じ次元を持つベクトルであり、その第y成分は次の式に基づいて計算される。
【0049】
【0050】
そして、第2の段階では、第1の段階で計算したΔiの各成分を二乗しその総和を学習データに渡って足し上げる。結果、以下のように損失関数が計算される。
【0051】
【0052】
式(10)が示すように、二乗和を取る前に交差行列Hとの差分を取ることで、損失Lは全体として半正定値関数となっている。その結果、弱ラベルデータセットからでも半正定値の損失関数に基づいた学習を実行することが可能となる。
【0053】
(学習装置による学習処理)
図4は、学習装置100による学習処理のフローチャートである。まず、交差行列算出部116は、上述の方法により、弱ラベルデータセットが備える弱観測確率分布を用いて交差行列Hを算出する(ステップS11)。交差行列算出部116は算出した交差行列Hを交差行列記憶部117に出力し、交差行列記憶部117は、入力された交差行列Hを記憶する。
【0054】
次に、学習装置100は学習を継続するか否かを判定する(ステップS12)。この判定は、予め決められた終了条件が具備されたか否かに基づいて行われる。終了条件としては、例えば、用意した学習用データを全て使用したか、パラメータの更新回数が所定回数に到達したか、などが挙げられる。
【0055】
学習を継続すると判定した場合(ステップS12:Yes)、弱ラベルデータセット供給部111は、入力データの組を認識部112と認識損失算出部113とに入力する(ステップS13)。認識部112は、入力されたデータに基づいて認識処理を行い、認識結果を認識損失算出部113に出力する(ステップS14)。
【0056】
次に、認識損失算出部113は、入力データと、認識結果と、交差行列とを用いて、前述の式(8)により認識損失Lを算出する(ステップS15)。そして、更新部114は、算出された認識損失Lが小さくなるように、認識部112のパラメータを更新する(ステップS16)。即ち、認識部パラメータ記憶部115は更新後のパラメータを記憶し、認識部112は学習処理のために認識部パラメータ記憶部115に記憶される更新後のパラメータを学習するモデルのために設定する。こうして、学習装置100は、ステップS12~S16を繰り返し、ステップS12で学習を継続しないと判定した場合(ステップS12:No)、処理を終了する。
【0057】
図5は、認識損失算出部113の動作を処理詳細に示すフローチャートである。
差分計算部118は認識部112から供給される認識結果と、交差行列記憶部117から供給される交差行列Hから、式(9)に基づきその差分Δ
iを計算する(ステップS15a)。差分計算部118は、算出した差分Δ
iを二乗和計算部119に出力する。
【0058】
二乗和計算部119は、式(10)に基づき差分計算部118から供給される差分Δiの二乗和を算出する(ステップS15b)。二乗和計算部119は、算出した差分Δiの二乗和を認識損失Lとして更新部114へ供給する。
【0059】
次に、学習装置100におけるハードウェアの構成例について述べる。
図6は学習装置100のハードウェア構成を例示する図である。
図6では、学習装置100を実現するための装置としての計算機10を示す。計算機10は任意の計算機である。例えば計算機10は、Personal Computer(PC)、サーバマシン、タブレット端末、又はスマートフォンなどである。また、計算機10は、学習装置100を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。
【0060】
計算機10は、インタフェース102と、プロセッサ103と、メモリ104と、記録媒体105と、データベース(DB)106と、を備える。
【0061】
インタフェース102は、外部装置との間でデータの入出力を行う。具体的には、計算機10にて実現される学習装置100の学習に用いられる弱ラベルデータセットがインタフェース102を通じて入力される。
【0062】
プロセッサ103は、CPU(Central Processing Unit)、又はCPUとGPU(Graphics Processing Uit)などのコンピュータであり、予め用意されたプログラムを実行することにより、計算機10(学習装置100)の全体を制御する。具体的には、プロセッサ103は、前述の学習処理を実行する。
【0063】
メモリ104は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ104は、計算機10(学習装置100)が学習するモデルを記憶する。また、メモリ104は、プロセッサ103による各種の処理の実行中に作業メモリとしても使用される。
【0064】
記録媒体105は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、計算機10(学習装置100)に対して着脱可能に構成される。記録媒体105は、プロセッサ103が実行する各種のプログラムを記録している。計算機10(学習装置100)が各種の処理を実行する際には、記録媒体105に記録されているプログラムがメモリ104にロードされ、プロセッサ103により実行される。
【0065】
データベース106は、学習に使用される弱ラベルデータセットを記憶する。上記に加えて、計算機10(学習装置100)は、ユーザが指示や入力を行うためのキーボード、マウスなどの入力機器や表示部を備えていても良い。
【0066】
図7は、学習装置100の最小構成図を示す図である。
図8は、
図7に示す最小構成における学習装置100の処理フロー図を示す図である。
【0067】
学習装置100は、認識損失算出部113を備える。認識損失算出部113は、認識対象データと弱ラベルとの組の集合である学習用データセット中の認識対象データに対する認識結果、学習用データセットに基づいて算出された交差行列、及び、認識対象データに付与されている弱ラベルを用いて認識損失を算出する(ステップS15)。
【0068】
学習用データセットは弱観測確率分布を備えたものであり、弱観測確率分布は、認識対象データが属する真の正解クラスで条件づけた弱ラベルが従う確率分布であって、弱ラベルを行添え字、真の正解クラスを列添え字とする行列と見なしたときに左逆行列を持つものである。
【0069】
認識損失算出部113は、差分計算部118と二乗和計算部119を備える。
差分計算部118は、交差行列と認識結果との差分を計算する(ステップS15a)。
二乗和計算部119は、差分の二乗和を計算し認識損失を計算する(ステップS15b)。
【0070】
以上のように、学習装置100は、弱ラベルを付与された学習用データセットであって、先に規定した学習用データセットを用いる場合に、弱ラベルを付与された学習データから半正定値の損失関数を算出することができる。これにより、学習装置100は、過適合を回避しつつ認識モデルの学習を行うことができようになる。
【0071】
以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示の範囲内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0072】
100 学習装置
111 弱ラベルデータセット供給部
112 認識部
113 認識損失算出部
114 更新部
115 認識部パラメータ記憶部
116 交差行列算出部
117 交差行列記憶部
118 差分計算部
119 二乗和計算部