(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-18
(45)【発行日】2023-12-26
(54)【発明の名称】モデル生成装置、モデル生成方法、及び、プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20231219BHJP
G06N 3/096 20230101ALI20231219BHJP
G06V 10/778 20220101ALI20231219BHJP
G06V 10/80 20220101ALI20231219BHJP
【FI】
G06T7/00 350B
G06N3/096
G06V10/778
G06V10/80
(21)【出願番号】P 2021543900
(86)(22)【出願日】2019-09-05
(86)【国際出願番号】 JP2019035014
(87)【国際公開番号】W WO2021044591
(87)【国際公開日】2021-03-11
【審査請求日】2022-01-12
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】井下 哲夫
【審査官】久保 光宏
(56)【参考文献】
【文献】特表2022-524662(JP,A)
【文献】中国特許出願公開第109783824(CN,A)
【文献】国際公開第2018/126213(WO,A1)
【文献】特表2017-531255(JP,A)
【文献】米国特許出願公開第2019/0034764(US,A1)
【文献】米国特許出願公開第2019/0205748(US,A1)
【文献】Jayakorn Vongkulbhisal, et al.,"Unifying Heterogeneous Classifiers with Distillation",Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),IEEE,2019年06月20日,Pages 3170-3179,ISBN: 978-1-7281-3293-8, <DOI: 10.1109/CVPR.2019.00329>.
【文献】Yevgen Chebotar, et al.,"Distilling knowledge from ensembles of neural networks for speech recognition",Proceedings of Interspeech 2016,[online], ISCA,2016年,Pages 3439-3443,[令和5年1月10日検索], インターネット, <URL: https://www.isca-speech.org/archive/interspeech_2016/chebotar16_interspeech.html> and <URL: https://www.isca-speech.org/archive/pdfs/interspeech_2016/chebotar16_interspeech.pdf>,<DOI: 10.21437/Interspeech.2016-1190>.
(58)【調査した分野】(Int.Cl.,DB名)
G06T7/00
G06N3/00-99/00
G06V10/00-40/70
CSDB(日本国特許庁)
学術文献等データベース(日本国特許庁)
IEEEXplore(IEEE)
(57)【特許請求の範囲】
【請求項1】
学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する複数の認識手段と、
前記複数の認識手段が出力
したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の信頼度を生成する信頼度生成手段と、
ターゲットモデルを用いて前記画像データを認識し
、前記ターゲットクラス毎の信頼度を出力するターゲットモデル認識手段と、
前記信頼度生成手段が生成した前記ターゲットクラス毎の信頼度と、前記ターゲットモデル認識手段が出力した前記ターゲットクラス毎の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するパラメータ調整手段と、
を備えるモデル生成装置。
【請求項2】
前記複数の認識手段の各々は、前記画像データが認識対象を含むことを示す肯定クラス、及び、前記画像データが認識対象を含まないことを示す否定クラスについて信頼度を出力する2クラス認識手段である請求項1に記載のモデル生成装置。
【請求項3】
前記信頼度生成手段は、前記複数の認識手段の各々が、前記肯定クラスについて出力した信頼度を用いて、前記ターゲットクラス毎の信頼度を生成する請求項2に記載のモデル生成装置。
【請求項4】
前記信頼度生成手段は、前記複数の認識手段が出力した肯定クラスの信頼度の合計に対する各肯定クラスの信頼度の割合に基づいて、前記ターゲットクラス毎の信頼度を生成する請求項3に記載のモデル生成装置。
【請求項5】
前記信頼度生成手段は、前記割合を正規化した値を、前記ターゲットクラス毎の信頼度とする請求項4に記載のモデル生成装置。
【請求項6】
前記複数の認識手段の各々は、異なる認識対象を認識する請求項2乃至5のいずれか一項に記載のモデル生成装置。
【請求項7】
前記複数の認識手段の各々は、前記複数のターゲットクラスのうちの1つのクラスの認識対象を認識する請求項6に記載のモデル生成装置。
【請求項8】
前記複数の認識手段の各々は、異なる複数の認識対象の認識を行う請求項1に記載のモデル生成装置。
【請求項9】
前記複数の認識手段の各々は、少なくとも前記複数のターゲットクラスのうちの1つのクラスを認識対象として含む請求項8に記載のモデル生成装置。
【請求項10】
学習済みモデルを用いる複数の認識手段により画像データを認識し、前記複数の認識手段の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識手段が出力
したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の第1の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し
、前記ターゲットクラス毎の
第2の信頼度を出力し、
前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するモデル生成方法。
【請求項11】
学習済みモデルを用いる複数の認識手段により画像データを認識し、前記複数の認識手段の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識手段が出力
したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の第1の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し
、前記ターゲットクラス毎の
第2の信頼度を出力し、
前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の学習済みモデルを用いて新たなモデルを生成する技術に関する。
【背景技術】
【0002】
大規模なネットワークを用いて学習した教師モデルを、小規模な生徒モデルに転移する技術が知られている。例えば、特許文献1は、生徒DNNモデルを、それよりも大きく精度が高い教師DNNモデルによって学習することにより、DNNクラシファイアを作成する手法を記載している。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記の手法のように教師モデルを用いて生徒モデルを生成する場合、教師モデルと生徒モデルの認識対象クラスが一致している必要がある。よって、既存の教師モデルと異なる新たなクラスを有する生徒モデルを生成する場合には、新たなクラスに対応するように教師モデルを再学習する必要がある。しかし、教師モデルは大規模ネットワークで構成されるため、教師モデルの再学習には時間がかかるという問題がある。
【0005】
本発明の1つの目的は、大規模かつ高精度の教師モデルを用いて、様々な認識対象クラスを有する生徒モデルを迅速かつ簡便に生成することにある。
【課題を解決するための手段】
【0006】
上記の課題を解決するため、本発明の一つの観点では、モデル生成装置は、
学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する複数の認識手段と、
前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の信頼度を生成する信頼度生成手段と、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の信頼度を出力するターゲットモデル認識手段と、
前記信頼度生成手段が生成した前記ターゲットクラス毎の信頼度と、前記ターゲットモデル認識手段が出力した前記ターゲットクラス毎の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するパラメータ調整手段と、
を備える。
【0007】
本発明の他の観点では、モデル生成方法は、
学習済みモデルを用いる複数の認識手段により画像データを認識し、前記複数の認識手段の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の第1の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第2の信頼度を出力し、
前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する。
【0008】
本発明のさらに他の観点では、プログラムは、
学習済みモデルを用いる複数の認識手段により画像データを認識し、前記複数の認識手段の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の第1の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第2の信頼度を出力し、
前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する処理をコンピュータに実行させる。
【発明の効果】
【0009】
本発明によれば、大規模かつ高精度の教師モデルを用いて、様々な認識対象クラスを有する生徒モデルを迅速かつ簡便に生成することが可能となる。
【図面の簡単な説明】
【0010】
【
図2】実施形態に係るモデル生成装置のハードウェア構成を示すブロック図である。
【
図3】第1実施形態に係るモデル生成装置の機能構成を示すブロック図である。
【
図6】第2実施形態に係るモデル生成装置の機能構成を示すブロック図である。
【
図7】第2実施形態の認識部による認識結果の例を示す。
【
図8】第3実施形態に係るモデル生成装置の機能構成を示すブロック図である。
【発明を実施するための形態】
【0011】
[原理説明]
まず、本発明の実施形態の基本原理について説明する。本実施形態では、学習済みの大規模ネットワークにより構成される教師モデルを用いて、蒸留により新たな生徒モデルを生成する。「蒸留」とは、学習済みの教師モデルから未学習の生徒モデルに知識を伝達する手法である。
【0012】
図1は、本実施形態の基本原理を示す概念図である。いま、例えば交通監視システムに利用される画像認識処理のニーズに基づき、新たなモデルを生成するものとする。認識対象クラスは、「人」、「車」、「信号」であるものとする。この場合、交通監視の現場などに設置可能な比較的小規模のネットワークを用いて、生徒モデル(以下、「ターゲットモデル」とも呼ぶ。)が用意される。生徒モデルの認識対象クラス(以下、「ターゲットクラス」とも呼ぶ。)は、「人」、「車」、「信号」の3つとなる。
【0013】
次に、予め大規模ネットワークを用いて学習済みの教師モデルA~Cが用意される。各教師モデルA~Cは、入力される画像データの認識を行う。ここで、生徒モデルのターゲットクラスが「人」、「車」、「信号」であるため、教師モデルA~Cとして、それぞれ「人」、「車」、「信号」を認識するモデルが用意される。具体的に、教師モデルAは、認識対象が「人」であり、画像データが「人」か「人でない」(以下、「Not」を用いて示す。)かを認識する。そして、教師モデルAは、認識結果として、クラス「人」及びクラス「Not人」のそれぞれについて認識の確からしさを示す信頼度を出力する。同様に、教師モデルBは、認識対象が「車」であり、画像データが「車」か「車でない」かを認識する。そして、教師モデルBは、認識結果として、クラス「車」及びクラス「Not車」のそれぞれについて認識の確からしさを示す信頼度を出力する。教師モデルCは、認識対象が「信号」であり、画像データが「信号」か「信号でない」かを認識する。そして、教師モデルCは、認識結果として、クラス「信号」及びクラス「Not信号」のそれぞれについて認識の確からしさを示す信頼度を出力する。
【0014】
なお、教師モデルA~Cは、画像データがある認識対象(本例では「人」など)であることを示すクラス(以下「肯定クラス」とも呼ぶ。)と、画像データがその認識対象でないことを示すクラス(「Not」で示されるクラスであり、以下「否定クラス」とも呼ぶ。)との2つのクラスを認識する2クラス認識モデルである。このように、ある認識対象の有無を示す2つのクラスを、本明細書では「否定型2クラス」とも呼ぶ。
【0015】
教師モデルA~C及び生徒モデルには、蒸留用の画像データが入力される。蒸留用の画像データとしては、生徒モデルが配置される場所で収集された画像データが使用される。教師モデルA~Cは、それぞれ入力された画像データの認識を行う。教師モデルAは、入力された画像データが「人」であるか否かの認識を行い、「人」である信頼度と「人でない」信頼度とを出力する。教師モデルBは、入力された画像データが「車」であるか否かの認識を行い、「車」である信頼度と「車でない」信頼度とを出力する。教師モデルCは、入力された画像データが「信号」であるか否かの認識を行い、「信号」である信頼度と「信号でない」信頼度とを出力する。
【0016】
教師モデルA~Cによる認識結果は統合され、教師モデル信頼度が生成される。「教師モデル信頼度」は、入力された画像データに対して教師モデル側で総合的に生成された信頼度であり、教師モデルA~Cによる認識結果に基づいて生成される、ターゲットクラス毎の信頼度である。具体的には、ある画像データXについて、教師モデルAが出力した「人」である信頼度と、教師モデルBが出力した「車」である信頼度と、教師モデルCが出力した「信号」である信頼度を統合し、教師モデル信頼度が生成される。
図1の例では、ある画像データXを教師モデルA~Cに入力したところ、教師モデルAは「人」である信頼度72%を出力し、教師モデルBは「車」である信頼度2%を出力し、教師モデルCは「信号」である信頼度1%を出力した。よって、これらを統合して生成される教師モデル信頼度は、車が人72%、車が2%、信号が1%という比率となる。なお、実際には、これらの比率は、合計が100%になるように正規化されて使用される。
【0017】
一方、生徒モデルは、同一の画像データXの認識を行い、3つのターゲットクラス(人、車、信号)についてそれぞれ信頼度を出力する。ここで、生徒モデルは、初期値のパラメータが設定されている内部のネットワークにより画像データの認識を行うため、基本的にその認識結果は教師モデルA~Cとは異なる。そこで、生徒モデルは、教師モデルA~Cの出力に基づいて生成された教師モデル信頼度と同一の信頼度を出力するように学習が行われる。具体的には、生徒モデルが出力する各ターゲットクラスの信頼度が教師モデル信頼度と一致するように、生徒モデルを構成するネットワークの内部パラメータが修正される。
図1の例では、画像データXが入力されたときに、生徒モデルの出力が「人」である信頼度が72%、「車」である信頼度が2%、「信号」である信頼度が1%の比率となるように、生徒モデルのパラメータが修正される。こうして、いわゆる蒸留という手法により、学習済みの教師モデルの出力をまねるように生徒モデルが構成される。
【0018】
この手法では、教師モデルとして様々な認識対象について否定型2クラスのモデルを用意しておけば、あらゆる生徒モデルのターゲットクラスに適応することが可能となる。例えば、教師モデルとして、さらに認識対象クラス「自転車」、「歩道橋」などを用意しておけば、「人」、「車」、「信号」、「自転車」をターゲットクラスとする新たな生徒モデルや、「人」、「車」、「信号」、「歩道橋」をターゲットクラスとする新たな生徒モデルを生成することができる。よって、様々なニーズに応じて、高精度の教師モデルを組み合わせて新たなターゲットモデルを生成することが可能となる。
【0019】
[第1実施形態]
次に、本発明の第1実施形態について説明する。
(ハードウェア構成)
図2は、第1実施形態に係るモデル生成装置のハードウェア構成を示すブロック図である。図示のように、モデル生成装置10は、インタフェース(IF)12と、プロセッサ13と、メモリ14と、記録媒体15と、データベース(DB)16と、を備える。
【0020】
インタフェース12は、外部装置との通信を行う。具体的に、インタフェース12は、蒸留用の画像データを外部から入力したり、最終的に決定された生徒モデルのパラメータを外部装置へ出力したりする際に使用される。
【0021】
プロセッサ13は、CPU(Central Processing Unit)、又はCPUとGPU(Graphics Processing Uit)などのコンピュータであり、予め用意されたプログラムを実行することにより、モデル生成装置10の全体を制御する。メモリ14は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ14は、プロセッサ13により実行される各種のプログラムを記憶する。また、メモリ14は、プロセッサ13による各種の処理の実行中に作業メモリとしても使用される。
【0022】
記録媒体15は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、モデル生成装置10に対して着脱可能に構成される。記録媒体15は、プロセッサ13が実行する各種のプログラムを記録している。モデル生成装置10がモデル生成処理を実行する際には、記録媒体15に記録されているプログラムがメモリ14にロードされ、プロセッサ13により実行される。
【0023】
データベース16は、モデル生成処理において使用される、蒸留用の画像データを記憶する。なお、上記に加えて、モデル生成装置10は、キーボード、マウスなどの入力機器や、表示装置などを備えていても良い。
【0024】
(機能構成)
次に、モデル生成装置10の機能構成について説明する。
図3は、モデル生成装置10の機能構成を示すブロック図である。モデル生成装置10は、大別して、教師モデル部20と、生徒モデル部30とを備える。教師モデル部20は、画像入力部21と、2クラス認識部22a~22cと、信頼度生成部23とを備える。また、生徒モデル部30は、生徒モデル認識部32と、ロス算出部33と、パラメータ修正部34とを備える。
【0025】
画像入力部21には、蒸留用の画像データが入力される。蒸留用の画像データは、通常、生徒モデルを用いた画像認識装置が使用される現場で撮影されたものである。画像入力部21は、2クラス認識部22a~22cと、生徒モデル認識部32に同一の画像データを供給する。
【0026】
2クラス認識部22a~22cは、予め学習済みの教師モデルを使用する認識部であり、それぞれが否定型2クラスの認識、即ち認識対象の有無の認識を行う。具体的に、2クラス認識部22aは画像データが「人」か「人でない」かの認識を行い、2クラス認識部22bは画像データが「車」か「車でない」かの認識を行い、2クラス認識部22cは画像データが「信号」か「信号でない」かの認識を行う。2クラス認識部22a~22cは、画像入力部21から供給された蒸留用の画像データに対して認識を行い、認識結果として、それぞれの肯定クラス及び否定クラスの信頼度を出力する。例えば、2クラス認識部22aは、肯定クラス「人」の信頼度と、否定クラス「人でない」の信頼度とを出力する。同様に、2クラス認識部22bは、肯定クラス「車」の信頼度と否定クラス「車でない」の信頼度を出力し、2クラス認識部22cは、肯定クラス「信号」の信頼度と否定クラス「信号でない」の信頼度を出力する。
【0027】
信頼度生成部23は、2クラス認識部22a~22cから出力された認識結果に基づいて、教師モデル信頼度を生成する。具体的には、信頼度生成部23は、2クラス認識部22a~22cが出力した各肯定クラスの信頼度を統合する。いま、
図4に示すように、2クラス認識部22aが出力した肯定クラス「人」の信頼度を「p
a」、2クラス認識部22bが出力した肯定クラス「車」の信頼度を「p
b」、2クラス認識部22cが出力した肯定クラス「信号」の信頼度を「p
c」とすると、信頼度生成部23は、クラス「人」の信頼度p
person、クラス「車」の信頼度p
car、クラス「信号」の信頼度p
signalを以下のように算出する。
【0028】
【0029】
なお、仮に
図1の例と同様に、2クラス認識部22aが出力した肯定クラス「人」の信頼度が72%、2クラス認識部22bが出力した肯定クラス「車」の信頼度が2%、2クラス認識部22cが出力した肯定クラス「信号」の信頼度が1%であるとすると、クラス人の信頼度p
personは以下のようになる。
【0030】
【0031】
なお、実際には、信頼度生成部23は、こうして得られた各クラスの信頼度を、合計が100%となるように正規化して使用する。なお、上記の例を正規化すると、各クラスの信頼度Pperson、Pcar、Psignalは以下のようになる。
Pperson=96%、Pcar=3%、Psignal=1%
信頼度生成部23は、生成した教師モデル信頼度をロス算出部33に供給する。
【0032】
生徒モデル認識部32は、新たに作成するターゲットモデルに相当し、内部にディープニューラルネットワーク(DNN)などを備える。生徒モデル認識部32は、2クラス認識部22a~22cが認識したのと同一の画像データの認識を行い、認識結果をロス算出部33に出力する。本実施形態では、生徒モデル認識部32は「人」、「車」、「信号」をターゲットクラスとするため、認識結果として、クラス「人」の信頼度、クラス「車」の信頼度、クラス「信号」の信頼度を出力する。生徒モデル認識部32が出力するこれらの信頼度を「生徒モデル信頼度」とも呼ぶ。なお、生徒モデル認識部32は、これら3つのクラスの信頼度の合計が100%となるように信頼度を出力する。
【0033】
ロス算出部33は、信頼度生成部23から出力された教師モデル信頼度と、生徒モデル認識部32から出力された生徒モデル信頼度とを比較し、ロス(差分)を算出してパラメータ修正部34に供給する。パラメータ修正部34は、ロス算出部33が算出したロスが小さくなるように、最適には0になるように、生徒モデル認識部32の内部ネットワークのパラメータを修正する。教師モデル信頼度と生徒モデル信頼度のロスが0になるということは、同一の画像データに対する教師モデル部20の認識結果(信頼度)と、生徒モデル認識部32の認識結果(信頼度)とが一致するということである。こうして、生徒モデル認識部32に教師モデルの知識を伝達し、高精度なターゲットモデルを生成することが可能となる。
【0034】
(モデル生成処理)
次に、モデル生成処理について説明する。
図4は、モデル生成装置10によるモデル生成処理のフローチャートである。この処理は、
図2に示すプロセッサ13が予め用意されたプログラムを実行することにより実現される。
【0035】
まず、画像入力部21から2クラス認識部22a~22c及び生徒モデル認識部32に蒸留用の画像データが入力される(ステップS11)。2クラス認識部22a~22cは、画像データの認識を行い、それぞれ信頼度を算出して信頼度生成部23に出力する(ステップS12)。信頼度生成部23は、2クラス認識部22a~22cから入力された信頼度に基づいて、教師モデル信頼度を生成する(ステップS13)。
【0036】
一方、生徒モデル認識部32は、同一の画像データの認識を行い(ステップS14)、認識結果として生徒モデル信頼度を生成する(ステップS15)。ロス算出部33は、信頼度算出部23が生成した教師モデル信頼度と、生徒モデル認識部32が生成した生徒モデル信頼度のロスを算出する(ステップS16)。パラメータ修正部34は、ロス算出部33が算出したロスが小さくなるように、生徒モデル認識部の内部パラメータを修正する(ステップS17)。
【0037】
次に、モデル生成装置10は、所定の終了条件が具備されたか否かを判定する(ステップS18)。モデル生成装置10は、終了条件が具備されるまでステップS11~S17を繰返し、終了条件が具備されると(ステップS18:Yes)、処理を終了する。なお、「所定の終了条件」とは、繰返しの回数やロスの値の変化度合いなどに関する条件であり、多くのディープラーニングの学習手順として採用されている方法のいずれかを使用することができる。モデル生成装置10は、予め用意された全ての蒸留用の画像データについて上記のモデル生成処理を行う。こうして生成された生徒モデル認識部32は、学習済みの認識部として画像認識装置に使用される。
【0038】
(変形例)
上記の実施形態では、信頼度生成部23は、上記の式(1)~(3)に示すように、2クラス認識部22a~22cが出力した信頼度の値そのものを用いて教師モデル信頼度を生成している。その代わりに、信頼度生成部23は、2クラス認識部22a~22cが出力した信頼度の値に対して重み付けを行って教師モデル信頼度を生成してもよい。例えば、2クラス認識部22a~22cが出力した信頼度に対する重みを「α」、「β」、「γ」とすると、信頼度生成部23は、クラス「人」の信頼度pperson、クラス「車」の信頼度pcar、クラス「信号」の信頼度psignalを以下のように算出する。
【0039】
【0040】
この場合、2クラス認識部22a~22cが出力した信頼度のうち、特に小さい値の信頼度に対しては、大きな重み付けを行うことが好ましい。例えば、各2クラス認識部22a~22cが出力した信頼度に差がある場合には、信頼度の小さい「車(2%)」や「信号(1%)」の信頼度に対して、信頼度の大きい「人(72%)」よりも大きい重みを与えることが好ましい。上記の例では、重み「β」、「γ」を重み「α」よりも大きい値とする。これにより、教師モデルから生徒モデル認識部32に伝達される認識のための知識が特定のクラスに偏りすぎることを防止でき、様々な認識対象を適切に認識可能なターゲットモデルを生成することが可能となる。
【0041】
[第2実施形態]
次に、本発明の第2実施形態について説明する。上述の第1実施形態では、教師モデル部20に使用される2クラス認識部22a~22cは、それぞれ1つの認識対象の有無、即ち、1つの認識対象について肯定クラスと否定クラスを認識するものであった。これに対し、第2実施形態では、複数の認識対象を認識する認識部を用いる点が第1実施形態と異なる。なお、第2実施形態に係るモデル生成装置のハードウェア構成は、
図2に示す第1実施形態のものと同様である。
【0042】
図6は、第2実施形態に係るモデル生成装置10xの機能構成を示すブロック図である。
図3と比較すると理解されるように、モデル生成装置10xは、2クラス認識部22a~22cの代わりに認識部22e~22gを有する点が第1実施形態のモデル生成装置10と異なるが、それ以外はモデル生成装置10と同様であり、同様に動作する。
【0043】
例えば、
図7に示すように、認識部22eは「人」と「車」を認識対象クラスとし、認識部22fは「人」と「自転車」を認識対象クラスとし、認識部22gは「信号」と「建物」を認識対象クラスとする。一方、生徒モデル認識部32は、第1実施形態と同様に、「人」、「車」、「信号」を認識対象クラスとするものとする。この場合、信頼度算出部23は、認識部22eから出力される「人」及び「車」の信頼度と、認識部22fから出力される「車」の信頼度と、認識部22gから出力される「信号」の信頼度を統合して、教師モデル信頼度を生成する。そして、パラメータ修正部34は、教師モデル信頼度と生徒モデル信頼度とが一致するように、生徒モデル認識部32のパラメータを調整する。
【0044】
このように、教師モデル部20で使用される認識部が複数の認識対象クラスを有するモデルである場合でも、第1実施形態と同様に、教師モデルの知識を利用してターゲットモデルを生成することができる。
【0045】
[第3実施形態]
次に、本発明の第3実施形態について説明する。
図8は、第3実施形態によるモデル生成装置40の機能構成を示す。なお、モデル生成装置40は、
図2に示すハードウェア構成により実現される。
【0046】
図示のように、モデル生成装置40は、複数の認識部41と、信頼度生成部42と、ターゲットモデル認識部43と、パラメータ調整部44とを備える。複数の認識部41の各々は、学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する。信頼度生成部42は、複数の認識部41が出力する信頼度に基づいて、複数のターゲットクラス毎の信頼度を生成する。なお、「ターゲットモデル」とは、モデル生成装置40が生成しようとするモデルであり、「ターゲットクラス」とは、ターゲットモデルの認識対象クラスである。
【0047】
ターゲットモデル認識部43は、ターゲットモデルを用いて、複数の認識部41が認識したのと同一の画像データを認識し、ターゲットクラス毎の信頼度を出力する。パラメータ調整部44は、信頼度生成部42が生成したターゲットクラス毎の信頼度と、ターゲットモデル認識部43が出力したターゲットクラス毎の信頼度とが一致するように、ターゲットモデルのパラメータを調整する。こうして、学習済みの複数の認識部41を用いて、ターゲットモデルを生成することができる。
【0048】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0049】
(付記1)
学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する複数の認識部と、
前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の信頼度を生成する信頼度生成部と、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の信頼度を出力するターゲットモデル認識部と、
前記信頼度生成部が生成した前記ターゲットクラス毎の信頼度と、前記ターゲットモデル認識部が出力した前記ターゲットクラス毎の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するパラメータ調整部と、
を備えるモデル生成装置。
【0050】
(付記2)
前記信頼度生成部は、前記複数の認識部が出力したクラス毎の信頼度のうち、前記ターゲットクラスに含まれるクラスの信頼度を統合して、前記ターゲットクラス毎の信頼度を生成する付記1に記載のモデル生成装置。
【0051】
(付記3)
前記複数の認識部の各々は、前記画像データが認識対象を含むことを示す肯定クラス、及び、前記画像データが認識対象を含まないことを示す否定クラスについて信頼度を出力する2クラス認識部である付記1又は2に記載のモデル生成装置。
【0052】
(付記4)
前記信頼度生成部は、前記複数の認識部の各々が、前記肯定クラスについて出力した信頼度を用いて、前記ターゲットクラス毎の信頼度を生成する付記3又は4に記載のモデル生成装置。
【0053】
(付記5)
前記信頼度生成部は、前記複数の認識部が出力した肯定クラスの信頼度の合計に対する各肯定クラスの信頼度の割合に基づいて、前記ターゲットクラス毎の信頼度を生成する付記4に記載のモデル生成装置。
【0054】
(付記6)
前記信頼度生成部は、前記割合を正規化した値を、前記ターゲットクラス毎の信頼度とする付記5に記載のモデル生成装置。
【0055】
(付記7)
前記複数の認識部の各々は、異なる認識対象を認識する付記3乃至6のいずれか一項に記載のモデル生成装置。
【0056】
(付記8)
前記複数の認識部の各々は、前記複数のターゲットクラスのうちの1つのクラスの認識対象を認識する付記7に記載のモデル生成装置。
【0057】
(付記9)
前記複数の認識部の各々は、異なる複数の認識対象の認識を行う付記1又は2に記載のモデル生成装置。
【0058】
(付記10)
前記複数の認識部の各々は、少なくとも前記複数のターゲットクラスのうちの1つのクラスを認識対象として含む付記9に記載のモデル生成装置。
【0059】
(付記11)
学習済みモデルを用いる複数の認識部により画像データを認識し、前記複数の認識部の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の第1の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第2の信頼度を出力し、
前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するモデル生成方法。
【0060】
(付記12)
学習済みモデルを用いる複数の認識部により画像データを認識し、前記複数の認識部の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の第1の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第2の信頼度を出力し、
前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0061】
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0062】
10、10x、40 モデル生成装置
22a~22c 2クラス認識部
22e~22g 認識部
23 信頼度生成部
32 生徒モデル認識部
33 ロス算出部
34 パラメータ修正部