特許7405145 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7405145モデル生成装置、モデル生成方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-18

(45)【発行日】2023-12-26

(54)【発明の名称】モデル生成装置、モデル生成方法、及び、プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20231219BHJP

G06N 3/096 20230101ALI20231219BHJP

G06V 10/778 20220101ALI20231219BHJP

G06V 10/80 20220101ALI20231219BHJP

【ＦＩ】

G06T7/00 350B

G06N3/096

G06V10/778

G06V10/80

【請求項の数】 11

(21)【出願番号】P 2021543900

(86)(22)【出願日】2019-09-05

(86)【国際出願番号】 JP2019035014

(87)【国際公開番号】W WO2021044591

(87)【国際公開日】2021-03-11

【審査請求日】2022-01-12

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】井下哲夫

【審査官】久保光宏

(56)【参考文献】

【文献】特表２０２２－５２４６６２（ＪＰ，Ａ）

【文献】中国特許出願公開第１０９７８３８２４（ＣＮ，Ａ）

【文献】国際公開第２０１８／１２６２１３（ＷＯ，Ａ１）

【文献】特表２０１７－５３１２５５（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１９／００３４７６４（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／０２０５７４８（ＵＳ，Ａ１）

【文献】Jayakorn Vongkulbhisal, et al.，"Unifying Heterogeneous Classifiers with Distillation"，Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)，IEEE，2019年06月20日，Pages 3170-3179，ISBN: 978-1-7281-3293-8, <DOI: 10.1109/CVPR.2019.00329>.

【文献】Yevgen Chebotar, et al.，"Distilling knowledge from ensembles of neural networks for speech recognition"，Proceedings of Interspeech 2016，[online], ISCA，2016年，Pages 3439-3443，[令和5年1月10日検索], インターネット, <URL: https://www.isca-speech.org/archive/interspeech_2016/chebotar16_interspeech.html> and <URL: https://www.isca-speech.org/archive/pdfs/interspeech_2016/chebotar16_interspeech.pdf>，<DOI: 10.21437/Interspeech.2016-1190>.

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｖ１０／００－４０／７０

ＣＳＤＢ（日本国特許庁）

学術文献等データベース（日本国特許庁）

ＩＥＥＥＸｐｌｏｒｅ（ＩＥＥＥ）

(57)【特許請求の範囲】

【請求項1】

学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する複数の認識手段と、
前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の信頼度を生成する信頼度生成手段と、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の信頼度を出力するターゲットモデル認識手段と、
前記信頼度生成手段が生成した前記ターゲットクラス毎の信頼度と、前記ターゲットモデル認識手段が出力した前記ターゲットクラス毎の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するパラメータ調整手段と、
を備えるモデル生成装置。

【請求項2】

前記複数の認識手段の各々は、前記画像データが認識対象を含むことを示す肯定クラス、及び、前記画像データが認識対象を含まないことを示す否定クラスについて信頼度を出力する２クラス認識手段である請求項１に記載のモデル生成装置。

【請求項3】

前記信頼度生成手段は、前記複数の認識手段の各々が、前記肯定クラスについて出力した信頼度を用いて、前記ターゲットクラス毎の信頼度を生成する請求項２に記載のモデル生成装置。

【請求項4】

前記信頼度生成手段は、前記複数の認識手段が出力した肯定クラスの信頼度の合計に対する各肯定クラスの信頼度の割合に基づいて、前記ターゲットクラス毎の信頼度を生成する請求項３に記載のモデル生成装置。

【請求項5】

前記信頼度生成手段は、前記割合を正規化した値を、前記ターゲットクラス毎の信頼度とする請求項４に記載のモデル生成装置。

【請求項6】

前記複数の認識手段の各々は、異なる認識対象を認識する請求項２乃至５のいずれか一項に記載のモデル生成装置。

【請求項7】

前記複数の認識手段の各々は、前記複数のターゲットクラスのうちの１つのクラスの認識対象を認識する請求項６に記載のモデル生成装置。

【請求項8】

前記複数の認識手段の各々は、異なる複数の認識対象の認識を行う請求項１に記載のモデル生成装置。

【請求項9】

前記複数の認識手段の各々は、少なくとも前記複数のターゲットクラスのうちの１つのクラスを認識対象として含む請求項８に記載のモデル生成装置。

【請求項10】

学習済みモデルを用いる複数の認識手段により画像データを認識し、前記複数の認識手段の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の第１の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第２の信頼度を出力し、
前記第１の信頼度と、前記第２の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するモデル生成方法。

【請求項11】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、複数の学習済みモデルを用いて新たなモデルを生成する技術に関する。

【背景技術】

【0002】

大規模なネットワークを用いて学習した教師モデルを、小規模な生徒モデルに転移する技術が知られている。例えば、特許文献１は、生徒ＤＮＮモデルを、それよりも大きく精度が高い教師ＤＮＮモデルによって学習することにより、ＤＮＮクラシファイアを作成する手法を記載している。

【先行技術文献】

【特許文献】

【0003】

【文献】特表２０１７－５３１２５５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記の手法のように教師モデルを用いて生徒モデルを生成する場合、教師モデルと生徒モデルの認識対象クラスが一致している必要がある。よって、既存の教師モデルと異なる新たなクラスを有する生徒モデルを生成する場合には、新たなクラスに対応するように教師モデルを再学習する必要がある。しかし、教師モデルは大規模ネットワークで構成されるため、教師モデルの再学習には時間がかかるという問題がある。

【0005】

本発明の１つの目的は、大規模かつ高精度の教師モデルを用いて、様々な認識対象クラスを有する生徒モデルを迅速かつ簡便に生成することにある。

【課題を解決するための手段】

【0006】

上記の課題を解決するため、本発明の一つの観点では、モデル生成装置は、
学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する複数の認識手段と、
前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の信頼度を生成する信頼度生成手段と、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の信頼度を出力するターゲットモデル認識手段と、
前記信頼度生成手段が生成した前記ターゲットクラス毎の信頼度と、前記ターゲットモデル認識手段が出力した前記ターゲットクラス毎の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するパラメータ調整手段と、
を備える。

【0007】

本発明の他の観点では、モデル生成方法は、
学習済みモデルを用いる複数の認識手段により画像データを認識し、前記複数の認識手段の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の第１の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第２の信頼度を出力し、
前記第１の信頼度と、前記第２の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する。

【0008】

本発明のさらに他の観点では、プログラムは、
学習済みモデルを用いる複数の認識手段により画像データを認識し、前記複数の認識手段の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の第１の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第２の信頼度を出力し、
前記第１の信頼度と、前記第２の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する処理をコンピュータに実行させる。

【発明の効果】

【0009】

本発明によれば、大規模かつ高精度の教師モデルを用いて、様々な認識対象クラスを有する生徒モデルを迅速かつ簡便に生成することが可能となる。

【図面の簡単な説明】

【0010】

【図1】本実施形態の基本原理を示す概念図である。

【図2】実施形態に係るモデル生成装置のハードウェア構成を示すブロック図である。

【図3】第１実施形態に係るモデル生成装置の機能構成を示すブロック図である。

【図4】教師モデル信頼度を生成する例を示す。

【図5】モデル生成処理のフローチャートである。

【図6】第２実施形態に係るモデル生成装置の機能構成を示すブロック図である。

【図7】第２実施形態の認識部による認識結果の例を示す。

【図8】第３実施形態に係るモデル生成装置の機能構成を示すブロック図である。

【発明を実施するための形態】

【0011】

［原理説明］
まず、本発明の実施形態の基本原理について説明する。本実施形態では、学習済みの大規模ネットワークにより構成される教師モデルを用いて、蒸留により新たな生徒モデルを生成する。「蒸留」とは、学習済みの教師モデルから未学習の生徒モデルに知識を伝達する手法である。

【0012】

図１は、本実施形態の基本原理を示す概念図である。いま、例えば交通監視システムに利用される画像認識処理のニーズに基づき、新たなモデルを生成するものとする。認識対象クラスは、「人」、「車」、「信号」であるものとする。この場合、交通監視の現場などに設置可能な比較的小規模のネットワークを用いて、生徒モデル（以下、「ターゲットモデル」とも呼ぶ。）が用意される。生徒モデルの認識対象クラス（以下、「ターゲットクラス」とも呼ぶ。）は、「人」、「車」、「信号」の３つとなる。

【0013】

次に、予め大規模ネットワークを用いて学習済みの教師モデルＡ～Ｃが用意される。各教師モデルＡ～Ｃは、入力される画像データの認識を行う。ここで、生徒モデルのターゲットクラスが「人」、「車」、「信号」であるため、教師モデルＡ～Ｃとして、それぞれ「人」、「車」、「信号」を認識するモデルが用意される。具体的に、教師モデルＡは、認識対象が「人」であり、画像データが「人」か「人でない」（以下、「Ｎｏｔ」を用いて示す。）かを認識する。そして、教師モデルＡは、認識結果として、クラス「人」及びクラス「Ｎｏｔ人」のそれぞれについて認識の確からしさを示す信頼度を出力する。同様に、教師モデルＢは、認識対象が「車」であり、画像データが「車」か「車でない」かを認識する。そして、教師モデルＢは、認識結果として、クラス「車」及びクラス「Ｎｏｔ車」のそれぞれについて認識の確からしさを示す信頼度を出力する。教師モデルＣは、認識対象が「信号」であり、画像データが「信号」か「信号でない」かを認識する。そして、教師モデルＣは、認識結果として、クラス「信号」及びクラス「Ｎｏｔ信号」のそれぞれについて認識の確からしさを示す信頼度を出力する。

【0014】

なお、教師モデルＡ～Ｃは、画像データがある認識対象（本例では「人」など）であることを示すクラス（以下「肯定クラス」とも呼ぶ。）と、画像データがその認識対象でないことを示すクラス（「Ｎｏｔ」で示されるクラスであり、以下「否定クラス」とも呼ぶ。）との２つのクラスを認識する２クラス認識モデルである。このように、ある認識対象の有無を示す２つのクラスを、本明細書では「否定型２クラス」とも呼ぶ。

【0015】

教師モデルＡ～Ｃ及び生徒モデルには、蒸留用の画像データが入力される。蒸留用の画像データとしては、生徒モデルが配置される場所で収集された画像データが使用される。教師モデルＡ～Ｃは、それぞれ入力された画像データの認識を行う。教師モデルＡは、入力された画像データが「人」であるか否かの認識を行い、「人」である信頼度と「人でない」信頼度とを出力する。教師モデルＢは、入力された画像データが「車」であるか否かの認識を行い、「車」である信頼度と「車でない」信頼度とを出力する。教師モデルＣは、入力された画像データが「信号」であるか否かの認識を行い、「信号」である信頼度と「信号でない」信頼度とを出力する。

【0016】

教師モデルＡ～Ｃによる認識結果は統合され、教師モデル信頼度が生成される。「教師モデル信頼度」は、入力された画像データに対して教師モデル側で総合的に生成された信頼度であり、教師モデルＡ～Ｃによる認識結果に基づいて生成される、ターゲットクラス毎の信頼度である。具体的には、ある画像データＸについて、教師モデルＡが出力した「人」である信頼度と、教師モデルＢが出力した「車」である信頼度と、教師モデルＣが出力した「信号」である信頼度を統合し、教師モデル信頼度が生成される。図１の例では、ある画像データＸを教師モデルＡ～Ｃに入力したところ、教師モデルＡは「人」である信頼度７２％を出力し、教師モデルＢは「車」である信頼度２％を出力し、教師モデルＣは「信号」である信頼度１％を出力した。よって、これらを統合して生成される教師モデル信頼度は、車が人７２％、車が２％、信号が１％という比率となる。なお、実際には、これらの比率は、合計が１００％になるように正規化されて使用される。

【0017】

一方、生徒モデルは、同一の画像データＸの認識を行い、３つのターゲットクラス（人、車、信号）についてそれぞれ信頼度を出力する。ここで、生徒モデルは、初期値のパラメータが設定されている内部のネットワークにより画像データの認識を行うため、基本的にその認識結果は教師モデルＡ～Ｃとは異なる。そこで、生徒モデルは、教師モデルＡ～Ｃの出力に基づいて生成された教師モデル信頼度と同一の信頼度を出力するように学習が行われる。具体的には、生徒モデルが出力する各ターゲットクラスの信頼度が教師モデル信頼度と一致するように、生徒モデルを構成するネットワークの内部パラメータが修正される。図１の例では、画像データＸが入力されたときに、生徒モデルの出力が「人」である信頼度が７２％、「車」である信頼度が２％、「信号」である信頼度が１％の比率となるように、生徒モデルのパラメータが修正される。こうして、いわゆる蒸留という手法により、学習済みの教師モデルの出力をまねるように生徒モデルが構成される。

【0018】

この手法では、教師モデルとして様々な認識対象について否定型２クラスのモデルを用意しておけば、あらゆる生徒モデルのターゲットクラスに適応することが可能となる。例えば、教師モデルとして、さらに認識対象クラス「自転車」、「歩道橋」などを用意しておけば、「人」、「車」、「信号」、「自転車」をターゲットクラスとする新たな生徒モデルや、「人」、「車」、「信号」、「歩道橋」をターゲットクラスとする新たな生徒モデルを生成することができる。よって、様々なニーズに応じて、高精度の教師モデルを組み合わせて新たなターゲットモデルを生成することが可能となる。

【0019】

［第１実施形態］
次に、本発明の第１実施形態について説明する。
（ハードウェア構成）
図２は、第１実施形態に係るモデル生成装置のハードウェア構成を示すブロック図である。図示のように、モデル生成装置１０は、インタフェース（ＩＦ）１２と、プロセッサ１３と、メモリ１４と、記録媒体１５と、データベース（ＤＢ）１６と、を備える。

【0020】

インタフェース１２は、外部装置との通信を行う。具体的に、インタフェース１２は、蒸留用の画像データを外部から入力したり、最終的に決定された生徒モデルのパラメータを外部装置へ出力したりする際に使用される。

【0021】

プロセッサ１３は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、又はＣＰＵとＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、モデル生成装置１０の全体を制御する。メモリ１４は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１４は、プロセッサ１３により実行される各種のプログラムを記憶する。また、メモリ１４は、プロセッサ１３による各種の処理の実行中に作業メモリとしても使用される。

【0022】

記録媒体１５は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、モデル生成装置１０に対して着脱可能に構成される。記録媒体１５は、プロセッサ１３が実行する各種のプログラムを記録している。モデル生成装置１０がモデル生成処理を実行する際には、記録媒体１５に記録されているプログラムがメモリ１４にロードされ、プロセッサ１３により実行される。

【0023】

データベース１６は、モデル生成処理において使用される、蒸留用の画像データを記憶する。なお、上記に加えて、モデル生成装置１０は、キーボード、マウスなどの入力機器や、表示装置などを備えていても良い。

【0024】

（機能構成）
次に、モデル生成装置１０の機能構成について説明する。図３は、モデル生成装置１０の機能構成を示すブロック図である。モデル生成装置１０は、大別して、教師モデル部２０と、生徒モデル部３０とを備える。教師モデル部２０は、画像入力部２１と、２クラス認識部２２ａ～２２ｃと、信頼度生成部２３とを備える。また、生徒モデル部３０は、生徒モデル認識部３２と、ロス算出部３３と、パラメータ修正部３４とを備える。

【0025】

画像入力部２１には、蒸留用の画像データが入力される。蒸留用の画像データは、通常、生徒モデルを用いた画像認識装置が使用される現場で撮影されたものである。画像入力部２１は、２クラス認識部２２ａ～２２ｃと、生徒モデル認識部３２に同一の画像データを供給する。

【0026】

２クラス認識部２２ａ～２２ｃは、予め学習済みの教師モデルを使用する認識部であり、それぞれが否定型２クラスの認識、即ち認識対象の有無の認識を行う。具体的に、２クラス認識部２２ａは画像データが「人」か「人でない」かの認識を行い、２クラス認識部２２ｂは画像データが「車」か「車でない」かの認識を行い、２クラス認識部２２ｃは画像データが「信号」か「信号でない」かの認識を行う。２クラス認識部２２ａ～２２ｃは、画像入力部２１から供給された蒸留用の画像データに対して認識を行い、認識結果として、それぞれの肯定クラス及び否定クラスの信頼度を出力する。例えば、２クラス認識部２２ａは、肯定クラス「人」の信頼度と、否定クラス「人でない」の信頼度とを出力する。同様に、２クラス認識部２２ｂは、肯定クラス「車」の信頼度と否定クラス「車でない」の信頼度を出力し、２クラス認識部２２ｃは、肯定クラス「信号」の信頼度と否定クラス「信号でない」の信頼度を出力する。

【0027】

信頼度生成部２３は、２クラス認識部２２ａ～２２ｃから出力された認識結果に基づいて、教師モデル信頼度を生成する。具体的には、信頼度生成部２３は、２クラス認識部２２ａ～２２ｃが出力した各肯定クラスの信頼度を統合する。いま、図４に示すように、２クラス認識部２２ａが出力した肯定クラス「人」の信頼度を「ｐ_ａ」、２クラス認識部２２ｂが出力した肯定クラス「車」の信頼度を「ｐ_ｂ」、２クラス認識部２２ｃが出力した肯定クラス「信号」の信頼度を「ｐ_ｃ」とすると、信頼度生成部２３は、クラス「人」の信頼度ｐ_{ｐｅｒｓｏｎ}、クラス「車」の信頼度ｐ_ｃａｒ、クラス「信号」の信頼度ｐ_{ｓｉｇｎａｌ}を以下のように算出する。

【0028】

【数1】

【0029】

なお、仮に図１の例と同様に、２クラス認識部２２ａが出力した肯定クラス「人」の信頼度が７２％、２クラス認識部２２ｂが出力した肯定クラス「車」の信頼度が２％、２クラス認識部２２ｃが出力した肯定クラス「信号」の信頼度が１％であるとすると、クラス人の信頼度ｐ_{ｐｅｒｓｏｎ}は以下のようになる。

【0030】

【数2】

【0031】

なお、実際には、信頼度生成部２３は、こうして得られた各クラスの信頼度を、合計が１００％となるように正規化して使用する。なお、上記の例を正規化すると、各クラスの信頼度Ｐ_{ｐｅｒｓｏｎ}、Ｐ_ｃａｒ、Ｐ_{ｓｉｇｎａｌ}は以下のようになる。
Ｐ_{ｐｅｒｓｏｎ}＝９６％、Ｐ_ｃａｒ＝３％、Ｐ_{ｓｉｇｎａｌ}＝１％
信頼度生成部２３は、生成した教師モデル信頼度をロス算出部３３に供給する。

【0032】

生徒モデル認識部３２は、新たに作成するターゲットモデルに相当し、内部にディープニューラルネットワーク（ＤＮＮ）などを備える。生徒モデル認識部３２は、２クラス認識部２２ａ～２２ｃが認識したのと同一の画像データの認識を行い、認識結果をロス算出部３３に出力する。本実施形態では、生徒モデル認識部３２は「人」、「車」、「信号」をターゲットクラスとするため、認識結果として、クラス「人」の信頼度、クラス「車」の信頼度、クラス「信号」の信頼度を出力する。生徒モデル認識部３２が出力するこれらの信頼度を「生徒モデル信頼度」とも呼ぶ。なお、生徒モデル認識部３２は、これら３つのクラスの信頼度の合計が１００％となるように信頼度を出力する。

【0033】

ロス算出部３３は、信頼度生成部２３から出力された教師モデル信頼度と、生徒モデル認識部３２から出力された生徒モデル信頼度とを比較し、ロス（差分）を算出してパラメータ修正部３４に供給する。パラメータ修正部３４は、ロス算出部３３が算出したロスが小さくなるように、最適には０になるように、生徒モデル認識部３２の内部ネットワークのパラメータを修正する。教師モデル信頼度と生徒モデル信頼度のロスが０になるということは、同一の画像データに対する教師モデル部２０の認識結果（信頼度）と、生徒モデル認識部３２の認識結果（信頼度）とが一致するということである。こうして、生徒モデル認識部３２に教師モデルの知識を伝達し、高精度なターゲットモデルを生成することが可能となる。

【0034】

（モデル生成処理）
次に、モデル生成処理について説明する。図４は、モデル生成装置１０によるモデル生成処理のフローチャートである。この処理は、図２に示すプロセッサ１３が予め用意されたプログラムを実行することにより実現される。

【0035】

まず、画像入力部２１から２クラス認識部２２ａ～２２ｃ及び生徒モデル認識部３２に蒸留用の画像データが入力される（ステップＳ１１）。２クラス認識部２２ａ～２２ｃは、画像データの認識を行い、それぞれ信頼度を算出して信頼度生成部２３に出力する（ステップＳ１２）。信頼度生成部２３は、２クラス認識部２２ａ～２２ｃから入力された信頼度に基づいて、教師モデル信頼度を生成する（ステップＳ１３）。

【0036】

一方、生徒モデル認識部３２は、同一の画像データの認識を行い（ステップＳ１４）、認識結果として生徒モデル信頼度を生成する（ステップＳ１５）。ロス算出部３３は、信頼度算出部２３が生成した教師モデル信頼度と、生徒モデル認識部３２が生成した生徒モデル信頼度のロスを算出する（ステップＳ１６）。パラメータ修正部３４は、ロス算出部３３が算出したロスが小さくなるように、生徒モデル認識部の内部パラメータを修正する（ステップＳ１７）。

【0037】

次に、モデル生成装置１０は、所定の終了条件が具備されたか否かを判定する（ステップＳ１８）。モデル生成装置１０は、終了条件が具備されるまでステップＳ１１～Ｓ１７を繰返し、終了条件が具備されると（ステップＳ１８：Ｙｅｓ）、処理を終了する。なお、「所定の終了条件」とは、繰返しの回数やロスの値の変化度合いなどに関する条件であり、多くのディープラーニングの学習手順として採用されている方法のいずれかを使用することができる。モデル生成装置１０は、予め用意された全ての蒸留用の画像データについて上記のモデル生成処理を行う。こうして生成された生徒モデル認識部３２は、学習済みの認識部として画像認識装置に使用される。

【0038】

（変形例）
上記の実施形態では、信頼度生成部２３は、上記の式（１）～（３）に示すように、２クラス認識部２２ａ～２２ｃが出力した信頼度の値そのものを用いて教師モデル信頼度を生成している。その代わりに、信頼度生成部２３は、２クラス認識部２２ａ～２２ｃが出力した信頼度の値に対して重み付けを行って教師モデル信頼度を生成してもよい。例えば、２クラス認識部２２ａ～２２ｃが出力した信頼度に対する重みを「α」、「β」、「γ」とすると、信頼度生成部２３は、クラス「人」の信頼度ｐ_{ｐｅｒｓｏｎ}、クラス「車」の信頼度ｐ_ｃａｒ、クラス「信号」の信頼度ｐ_{ｓｉｇｎａｌ}を以下のように算出する。

【0039】

【数3】

【0040】

この場合、２クラス認識部２２ａ～２２ｃが出力した信頼度のうち、特に小さい値の信頼度に対しては、大きな重み付けを行うことが好ましい。例えば、各２クラス認識部２２ａ～２２ｃが出力した信頼度に差がある場合には、信頼度の小さい「車（２％）」や「信号（１％）」の信頼度に対して、信頼度の大きい「人（７２％）」よりも大きい重みを与えることが好ましい。上記の例では、重み「β」、「γ」を重み「α」よりも大きい値とする。これにより、教師モデルから生徒モデル認識部３２に伝達される認識のための知識が特定のクラスに偏りすぎることを防止でき、様々な認識対象を適切に認識可能なターゲットモデルを生成することが可能となる。

【0041】

［第２実施形態］
次に、本発明の第２実施形態について説明する。上述の第１実施形態では、教師モデル部２０に使用される２クラス認識部２２ａ～２２ｃは、それぞれ１つの認識対象の有無、即ち、１つの認識対象について肯定クラスと否定クラスを認識するものであった。これに対し、第２実施形態では、複数の認識対象を認識する認識部を用いる点が第１実施形態と異なる。なお、第２実施形態に係るモデル生成装置のハードウェア構成は、図２に示す第１実施形態のものと同様である。

【0042】

図６は、第２実施形態に係るモデル生成装置１０ｘの機能構成を示すブロック図である。図３と比較すると理解されるように、モデル生成装置１０ｘは、２クラス認識部２２ａ～２２ｃの代わりに認識部２２ｅ～２２ｇを有する点が第１実施形態のモデル生成装置１０と異なるが、それ以外はモデル生成装置１０と同様であり、同様に動作する。

【0043】

例えば、図７に示すように、認識部２２ｅは「人」と「車」を認識対象クラスとし、認識部２２ｆは「人」と「自転車」を認識対象クラスとし、認識部２２ｇは「信号」と「建物」を認識対象クラスとする。一方、生徒モデル認識部３２は、第１実施形態と同様に、「人」、「車」、「信号」を認識対象クラスとするものとする。この場合、信頼度算出部２３は、認識部２２ｅから出力される「人」及び「車」の信頼度と、認識部２２ｆから出力される「車」の信頼度と、認識部２２ｇから出力される「信号」の信頼度を統合して、教師モデル信頼度を生成する。そして、パラメータ修正部３４は、教師モデル信頼度と生徒モデル信頼度とが一致するように、生徒モデル認識部３２のパラメータを調整する。

【0044】

このように、教師モデル部２０で使用される認識部が複数の認識対象クラスを有するモデルである場合でも、第１実施形態と同様に、教師モデルの知識を利用してターゲットモデルを生成することができる。

【0045】

［第３実施形態］
次に、本発明の第３実施形態について説明する。図８は、第３実施形態によるモデル生成装置４０の機能構成を示す。なお、モデル生成装置４０は、図２に示すハードウェア構成により実現される。

【0046】

図示のように、モデル生成装置４０は、複数の認識部４１と、信頼度生成部４２と、ターゲットモデル認識部４３と、パラメータ調整部４４とを備える。複数の認識部４１の各々は、学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する。信頼度生成部４２は、複数の認識部４１が出力する信頼度に基づいて、複数のターゲットクラス毎の信頼度を生成する。なお、「ターゲットモデル」とは、モデル生成装置４０が生成しようとするモデルであり、「ターゲットクラス」とは、ターゲットモデルの認識対象クラスである。

【0047】

ターゲットモデル認識部４３は、ターゲットモデルを用いて、複数の認識部４１が認識したのと同一の画像データを認識し、ターゲットクラス毎の信頼度を出力する。パラメータ調整部４４は、信頼度生成部４２が生成したターゲットクラス毎の信頼度と、ターゲットモデル認識部４３が出力したターゲットクラス毎の信頼度とが一致するように、ターゲットモデルのパラメータを調整する。こうして、学習済みの複数の認識部４１を用いて、ターゲットモデルを生成することができる。

【0048】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0049】

（付記１）
学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する複数の認識部と、
前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の信頼度を生成する信頼度生成部と、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の信頼度を出力するターゲットモデル認識部と、
前記信頼度生成部が生成した前記ターゲットクラス毎の信頼度と、前記ターゲットモデル認識部が出力した前記ターゲットクラス毎の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するパラメータ調整部と、
を備えるモデル生成装置。

【0050】

（付記２）
前記信頼度生成部は、前記複数の認識部が出力したクラス毎の信頼度のうち、前記ターゲットクラスに含まれるクラスの信頼度を統合して、前記ターゲットクラス毎の信頼度を生成する付記１に記載のモデル生成装置。

【0051】

（付記３）
前記複数の認識部の各々は、前記画像データが認識対象を含むことを示す肯定クラス、及び、前記画像データが認識対象を含まないことを示す否定クラスについて信頼度を出力する２クラス認識部である付記１又は２に記載のモデル生成装置。

【0052】

（付記４）
前記信頼度生成部は、前記複数の認識部の各々が、前記肯定クラスについて出力した信頼度を用いて、前記ターゲットクラス毎の信頼度を生成する付記３又は４に記載のモデル生成装置。

【0053】

（付記５）
前記信頼度生成部は、前記複数の認識部が出力した肯定クラスの信頼度の合計に対する各肯定クラスの信頼度の割合に基づいて、前記ターゲットクラス毎の信頼度を生成する付記４に記載のモデル生成装置。

【0054】

（付記６）
前記信頼度生成部は、前記割合を正規化した値を、前記ターゲットクラス毎の信頼度とする付記５に記載のモデル生成装置。

【0055】

（付記７）
前記複数の認識部の各々は、異なる認識対象を認識する付記３乃至６のいずれか一項に記載のモデル生成装置。

【0056】

（付記８）
前記複数の認識部の各々は、前記複数のターゲットクラスのうちの１つのクラスの認識対象を認識する付記７に記載のモデル生成装置。

【0057】

（付記９）
前記複数の認識部の各々は、異なる複数の認識対象の認識を行う付記１又は２に記載のモデル生成装置。

【0058】

（付記１０）
前記複数の認識部の各々は、少なくとも前記複数のターゲットクラスのうちの１つのクラスを認識対象として含む付記９に記載のモデル生成装置。

【0059】

（付記１１）
学習済みモデルを用いる複数の認識部により画像データを認識し、前記複数の認識部の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の第１の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第２の信頼度を出力し、
前記第１の信頼度と、前記第２の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するモデル生成方法。

【0060】

（付記１２）
学習済みモデルを用いる複数の認識部により画像データを認識し、前記複数の認識部の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の第１の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第２の信頼度を出力し、
前記第１の信頼度と、前記第２の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する処理をコンピュータに実行させるプログラムを記録した記録媒体。

【0061】

以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【符号の説明】

【0062】

１０、１０ｘ、４０モデル生成装置
２２ａ～２２ｃ２クラス認識部
２２ｅ～２２ｇ認識部
２３信頼度生成部
３２生徒モデル認識部
３３ロス算出部
３４パラメータ修正部

【図1】