IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7405148情報処理装置、学習方法、及び、プログラム
<>
  • 特許-情報処理装置、学習方法、及び、プログラム 図1
  • 特許-情報処理装置、学習方法、及び、プログラム 図2
  • 特許-情報処理装置、学習方法、及び、プログラム 図3
  • 特許-情報処理装置、学習方法、及び、プログラム 図4
  • 特許-情報処理装置、学習方法、及び、プログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-18
(45)【発行日】2023-12-26
(54)【発明の名称】情報処理装置、学習方法、及び、プログラム
(51)【国際特許分類】
   G06N 3/096 20230101AFI20231219BHJP
   G06N 20/00 20190101ALI20231219BHJP
【FI】
G06N3/096
G06N20/00
【請求項の数】 9
(21)【出願番号】P 2021555691
(86)(22)【出願日】2019-11-13
(86)【国際出願番号】 JP2019044527
(87)【国際公開番号】W WO2021095160
(87)【国際公開日】2021-05-20
【審査請求日】2022-05-02
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【弁理士】
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【弁理士】
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】中野 学
(72)【発明者】
【氏名】中谷 裕一
(72)【発明者】
【氏名】井下 哲夫
(72)【発明者】
【氏名】高橋 勝彦
(72)【発明者】
【氏名】石井 遊哉
【審査官】多賀 実
(56)【参考文献】
【文献】米国特許出願公開第2013/0097103(US,A1)
【文献】NAYAK, Gaurav Kumar et al.,"Zero-Shot Knowledge Distillation in Deep Networks",arXiv.org [online],arXiv:1905.08114v1,米国,Cornell University,2019年05月20日,[検索日 2020.01.31], インターネット:<URL: https://arxiv.org/pdf/1905.08114v1.pdf>
【文献】CHEN, Hanting et al.,Data-Free Learning of Student Networks,arXiv.org [online],arXiv:1904.01186v3,米国,Cornell University,2019年09月05日,[検索日 2020.01.31], インターネット:<https://arxiv.org/pdf/1904.01186v3.pdf>
【文献】河野 晋策 ほか,「モデル圧縮におけるクラス不均衡に着目した疑似データ生成手法の提案」,情報処理学会論文誌データベース(TOD) [online],情報処理学会,2018年07月11日,第11巻, 第2号,pp.7-15,[検索日 2018.07.18], インターネット:<URL: https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=190375&file_id=1&file_no=1>,ISSN:1882-7799
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06N 3/00-99/00
G06T 7/00- 7/90
G06V 10/70-10/86
(57)【特許請求の範囲】
【請求項1】
未知データに対する任意ラベルを出力するラベル分布決定手段と、
前記任意ラベルと前記未知データとを入力として、新たな生成データを出力するデータ生成手段と、
前記生成データを入力とし、教師モデルを用いて生徒モデルの蒸留学習を行う蒸留学習手段と、
を備え、
前記未知データは、前記教師モデルの学習に利用したデータとは異なるデータである情報処理装置。
【請求項2】
前記ラベル分布決定手段は、前記未知データに対する前記教師モデルの予測ラベルの累積確率密度を求め、当該累積確率密度に基づいて前記任意ラベルを決定する請求項1に記載の情報処理装置。
【請求項3】
前記ラベル分布決定手段は、前記教師モデルの予測ラベルの各クラスの累積確率密度が均等になるように前記任意ラベルを決定する請求項2に記載の情報処理装置。
【請求項4】
前記ラベル分布決定手段は、前記教師モデルの予測ラベルの各クラスの累積確率密度が均等になるように各クラスに対する重みを算出し、当該重みを前記教師モデルの予測ラベルに乗算して前記任意ラベルを決定する請求項3に記載の情報処理装置。
【請求項5】
前記データ生成手段は、前記未知データを前記生成データの初期値として使用し、前記生成データを前記教師モデルに入力して得られる予測ラベルと前記任意ラベルとの誤差を最小化する新たな生成データを生成する請求項1乃至4のいずれか一項に記載の情報処理装置。
【請求項6】
前記データ生成手段は、ランダムノイズを前記生成データの初期値として使用し、前記生成データを前記教師モデルに入力して得られる予測ラベルと前記任意ラベルとの誤差を最小化する新たな生成データを生成する請求項1乃至4のいずれか一項に記載の情報処理装置。
【請求項7】
前記未知データの情報量は、前記教師モデルの学習に利用したデータの情報量よりも少ない請求項1乃至のいずれか一項に記載の情報処理装置。
【請求項8】
未知データに対する任意ラベルを出力し、
前記任意ラベルと前記未知データとを入力として、新たな生成データを出力し、
前記生成データを入力とし、教師モデルを用いて生徒モデルの蒸留学習を行い、
前記未知データは、前記教師モデルの学習に利用したデータとは異なるデータである学習方法。
【請求項9】
未知データに対する任意ラベルを出力し、
前記任意ラベルと前記未知データとを入力として、新たな生成データを出力し、
前記生成データを入力とし、教師モデルを用いて生徒モデルの蒸留学習を行う処理をコンピュータに実行させ
前記未知データは、前記教師モデルの学習に利用したデータとは異なるデータであるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、蒸留を利用したニューラルネットワークの学習方法に関する。
【背景技術】
【0002】
機械学習においては、層の深いニューラルネットワークを組むことで高精度な学習モデルを構成することができる。このような学習モデルはディープラーニングや深層学習と呼ばれ、数百万から数億個ものニューラルネットからなる。ディープラーニングにおいては、学習モデルが複雑で層が深いほど、つまり、ニューラルネットの個数が多いほど高精度になることが知られている。一方で、モデルの肥大化はより多くの計算機のメモリを要するため、巨大なモデルの性能を維持したまま、より小さいモデルを構築する方法が提案されている。
【0003】
非特許文献1及び特許文献1には、学習済みの巨大なモデル(以下、「教師モデル」と呼ぶ。)を小規模なモデル(以下、「生徒モデル」と呼ぶ。)で模倣するKnowledge Distillation(以下、「蒸留」と呼ぶ。)という学習方法が記載されている。この方法は、教師モデルの学習時に利用したデータを教師モデルと生徒モデルへの入力とし、教師モデルが出力する予測ラベルと学習データで与えられる真のラベルとの加重平均に近づくように生徒モデルの学習を行う。非特許文献1に記載された学習方法は、加重平均ラベルを用いるため、生徒モデルの学習の際に教師モデルの学習に用いたのと同一のデータが必要である。しかしながら、ディープラーニングには多量の学習データが必要なため、記憶媒体の容量制限や、データに含まれるプライバシー情報の保護や、データの著作権などの観点から、学習データそのものを残しておくことが困難なことがある。
【0004】
非特許文献2には、教師モデルの学習時に利用したデータを用いずに、教師モデルにとって未知のデータ、つまり入力データに対応付けられた真のラベルが不明なデータを用いる蒸留学習が記載されている。この学習方法は、未知データに対する教師モデルの予測ラベルに近づくように、生徒モデルの学習を行う。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2019-046380号公報
【非特許文献】
【0006】
【文献】Hinton et al.,”Distilling the Knowledge in a Neural Network”,NIPS 2014 workshop
【文献】Kulkami et al.,”Knowledge distillation using unlabeled mismatched images”,arXiv:1703.07131.
【発明の概要】
【発明が解決しようとする課題】
【0007】
非特許文献2に記載の学習方法は、非特許文献1に記載された方法とは異なり真のラベルが存在しないため、加重平均ではなく、教師モデルの予測ラベルのみを用いる。しかし、未知データが学習データに近しいものでないと、教師モデルの予測ラベルの分布に偏りが生じる可能性がある。例えば、教師モデルが画像を入力とするひらがなの多クラス分類器について、未知データとしてアルファベットの画像しか準備できない場合には、その多クラス分類器はどんなアルファベットに対しても一部のひらがなに偏って分類してしまう可能性がある(例えば、ほとんど「あ」と分類してしまう)。このような場合、生徒モデルは「あ」とそれ以外の2クラス分類の学習しか行えず、教師モデルが持つ本来の識別能力を継承できない。このように、非特許文献2の手法では、未知データを集めても正しい蒸留学習が行えない可能性がある。その理由は、未知データに対する教師モデルの予測ラベルの偏り(以下、「クラスインバランス」と呼ぶ。)が考慮されていないためである。
【0008】
本発明の1つの目的は、教師モデルの学習データが利用できない状況下で、さらに未知データと学習データの分布が異なっていても、未知データを用いて蒸留学習を実現することにある。
【課題を解決するための手段】
【0009】
上記の課題を解決するため、本発明の1つの観点では、情報処理装置は、
未知データに対する任意ラベルを出力するラベル分布決定手段と、
前記任意ラベルと前記未知データとを入力として、新たな生成データを出力するデータ
生成手段と、
前記生成データを入力とし、教師モデルを用いて生徒モデルの蒸留学習を行う蒸留学習
手段と、
を備え
前記未知データは、前記教師モデルの学習に利用したデータとは異なるデータである。
【0010】
本発明の他の観点では、学習方法は、
未知データに対する任意ラベルを出力し、
前記任意ラベルと前記未知データとを入力として、新たな生成データを出力し、
前記生成データを入力とし、教師モデルを用いて生徒モデルの蒸留学習を行い、
前記未知データは、前記教師モデルの学習に利用したデータとは異なるデータである。
【0011】
本発明のさらに他の観点では、プログラムは、
未知データに対する任意ラベルを出力し、
前記任意ラベルと前記未知データとを入力として、新たな生成データを出力し、
前記生成データを入力とし、教師モデルを用いて生徒モデルの蒸留学習を行う処理をコンピュータに実行させ
前記未知データは、前記教師モデルの学習に利用したデータとは異なるデータである。
【発明の効果】
【0012】
本発明によれば、教師モデルの学習データが利用できない状況下で、さらに未知データと学習データの分布が異なっていても、未知データを用いて蒸留学習を実現することができる。
【図面の簡単な説明】
【0013】
図1】第1実施形態に係る学習装置のハードウェア構成を示す。
図2】第1実施形態に係る学習装置の機能構成を示す。
図3】学習処理のフローチャートである。
図4】実施例に係る学習装置の機能構成を示す。
図5】第2実施形態に係る情報処理装置の機能構成を示す。
【発明を実施するための形態】
【0014】
以下、図面を参照して、本発明の好適な実施形態について説明する。
(ハードウェア構成)
図1は、本発明の情報処理装置の実施形態に係る学習装置のハードウェア構成を示すブロック図である。図示のように、学習装置10は、インタフェース(I/F)12と、プロセッサ13と、メモリ14と、記録媒体15と、データベース(DB)16と、を備える。
【0015】
インタフェース12は、外部装置との間でデータの入出力を行う。具体的に、インタフェース12は、学習装置10が使用する未知データを外部装置から取得する。
【0016】
プロセッサ13は、CPU(Central Processing Unit)、又はCPUとGPU(Graphics Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、学習装置10を制御する。具体的に、プロセッサ13は後述する学習処理を実行する。
【0017】
メモリ14は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ14は、学習装置10が使用するニューラルネットワークのモデル、具体的には教師モデル及び生徒モデルを記憶する。また、メモリ14は、プロセッサ13による各種の処理の実行中に作業メモリとしても使用される。
【0018】
記録媒体15は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習装置10に対して着脱可能に構成される。記録媒体15は、プロセッサ13が実行する各種のプログラムを記録している。学習装置10が各種の処理を実行する際には、記録媒体15に記録されているプログラムがメモリ14にロードされ、プロセッサ13により実行される。データベース16は、インタフェース12を介して入力されたデータを記憶する。
【0019】
(機能構成)
次に、学習装置10の機能構成について説明する。図2は、第1実施形態に係る学習装置10の機能構成を示すブロック図である。図示のように、学習装置10は、データ生成部20と、ラベル分布決定部30と、蒸留学習部40と、を備える。蒸留学習部40は、教師モデル41と、生徒モデル42とを備える。
【0020】
教師モデル41は、十分な量の学習データに基づいて既に学習済みのモデルである。一方、生徒モデル42は、学習装置10が学習の対象とするモデルである。教師モデル41及び生徒モデル42は、いずれもニューラルネットワークを用いたモデルである。蒸留学習部40は、蒸留による学習を行う部分であり、教師モデル41の出力を用いて、生徒モデル42を学習する。
【0021】
教師モデル41を用いて生徒モデル42を学習する際、教師モデル41の学習に使用した学習データがあれば、生徒モデル42の学習にそれを利用することができる。しかし、現実には生徒モデル42の学習時に、教師モデル41の学習に使用したデータを使用できない場合がある。その場合、教師モデル41の学習に使用したデータと異なるデータ(以下、「未知データ」と呼ぶ。)を使用することになるが、未知データの分布は未知であるため、未知データに対して教師モデル41が予測するラベルにはクラス間の偏りが生じる場合がある(これを「クラスインバランス」と呼ぶ。)。クラスインバランスがあると、教師モデル41が持つ識別能力を生徒モデル42にうまく継承することができない。
【0022】
そこで、本実施形態の学習装置10では、データ生成部20とラベル分布決定部30を設け、未知データを利用してクラスインバランスの無いデータを生成し、これを教師モデル41及び生徒モデル42に入力して蒸留による学習を行う。
【0023】
具体的には、まず、教師モデル41に対して未知データを入力し、未知データに対する教師モデル41の予測ラベルを出力する。以下、教師モデル41が予測したラベルを「教師予測ラベル」と呼ぶ。未知データに対する教師予測ラベルは、データ生成部20とラベル分布決定部30に入力される。
【0024】
前述のように、未知データに対する教師予測ラベルは、クラスインバランスを有する可能性がある。そこで、ラベル分布決定部30は、未知データに対する教師予測ラベルに基づいてクラスインバランスが生じないようなラベル分布を決定し、そのラベル分布に従って任意ラベルを決定してデータ生成部20に出力する。
【0025】
データ生成部20には、未知データと、未知データに対する教師予測ラベルと、任意ラベルとが入力される。データ生成部20は、未知データに基づいて、教師モデルの予測ラベルが任意ラベルに近づくような新たなデータ(以下、「生成データ」と呼ぶ。)を生成する。これにより、生成データは、クラスインバランスが生じないラベル分布に従うデータとなるので、これを教師モデル41及び生徒モデル42に入力し、蒸留学習部40における学習データとして使用する。
【0026】
蒸留学習部40では、教師モデル41が生成データに対する教師予測ラベルを生成し、生徒モデル42が生成データに対する予測ラベル(以下、「生徒予測ラベル」と呼ぶ。)を生成する。そして、生徒予測モデルが教師予測モデルに近づくように、生徒モデル42の学習を行う。
【0027】
(学習処理)
次に、学習処理について説明する。図3は、学習装置10による学習処理のフローチャートである。この処理は、図1に示すプロセッサ13が、予め用意されたプログラムを実行し、図2に示す要素として機能することにより実現される。
【0028】
まず、未知データが教師モデル41に入力され、教師モデル41は未知データに対する教師予測ラベルを出力する(ステップS11)。ラベル分布決定部30は、教師予測ラベルが入力されると、入力された全予測ラベルの確率分布を解析し、クラス間の確率分布が均等になるようなラベル分布を決定し、各未知データに対する任意ラベルを決定する(ステップS12)。
【0029】
次に、データ生成部20は、未知データとそれに対応する任意ラベルが入力されると、未知データに対する教師予測ラベルが任意ラベルに近づくような生成データを生成する(ステップS13)。学習装置10は、生成データに対する教師予測ラベルが任意ラベルに十分近しくなったかを判定し(ステップS14)、十分近しくなるまでステップS11~S13を反復する。
【0030】
生成データに対する教師予測ラベルが任意ラベルに十分近しくなると(ステップS14:Yes)、蒸留学習部40は、教師モデル41と生徒モデル42のそれぞれに生成データを入力し、生成データに対する教師予測ラベルと生徒予測ラベルを得る(ステップS15)。そして、蒸留学習部40は、教師予測ラベルと生徒予測ラベルが近しくなるように生徒モデル42を学習し、処理を終了する(ステップS16)。
【0031】
以上のように、本実施形態では、教師モデルの学習に使用したデータが利用できず、かつ、教師モデルの学習に使用した学習データと未知データとの分布が異なっている場合でも、未知データに基づいてクラスインバランスの無い生成データを生成することにより、蒸留学習を行うことができる。
【0032】
(実施例)
次に、本実施形態の実施例について説明する。以下の実施例では、教師モデルは画像を入力とし、画像内の物体を100種類のクラスに分類するディープニューラルネットワークとする。また、教師モデルは100クラスに分類された画像群を用いて事前に学習済みとする。学習対象である生徒モデルは、教師モデルと同様に100クラスの分類を行うディープニューラルネットワークであるが、ニューロンの数は教師モデルと同等または少ないものとする。未知データは、教師モデルの学習に用いた画像群とは異なり、写っている対象も異なる10クラスに分類された画像群とする。つまり、未知データの各々は、10クラスのいずれかを示す番号を真のラベルとしてもつが、そのラベルは教師モデルが対象とする100クラスのラベルとは一致していない。未知データの枚数は100クラスの画像群と同等以上でもよいし、それより少量でもよい。
【0033】
図4は、本実施形態の実施例に係る学習装置10xの機能構成を示すブロック図である。実施例に係る学習装置10xの基本的な構成は図2に示す学習装置10と同様である。但し、図示のように、ラベル分布決定部30は、累積確率密度算出部31と、重み算出部32と、乗算器33を備える。また、蒸留学習部40は、教師モデル41と、生徒モデル42と、誤差算出部43と、最適化部44を備える。
【0034】
まず、教師モデル41は1つの未知データに対し、100クラスのそれぞれの確率分布を計算し、教師予測ラベルである100次元ベクトルを出力する。ベクトルの各次元が、各クラスの確率を表している。未知データがN枚の画像群とすると、教師予測ラベルはN個の100次元ベクトルとなる。得られた教師予測ラベルは、ラベル分布決定部30に入力される。
【0035】
ラベル分布決定部30では、累積確率密度算出部31は、教師予測ラベルとして入力されたN個の100次元ベクトルから、各クラスの累積確率分布を計算し、累積確率密度を求めて重み算出部32に入力する。重み算出部32は、各クラスの累積確率密度が均等になるように、各クラスに対する重みを計算する。例えば、重み算出部32は累積確率密度の逆数を重みとしてもよいし、一部のクラスへの重みをユーザが任意に決定してもよい。そして、乗算器33は、教師予測ラベルに重みを乗算し、個々の未知データに対する任意ラベルを決定する。
【0036】
なお、ラベル分布決定部30は、入力された1つの教師予測ラベル、即ち、1つの100次元ベクトルに対して、複数の任意ラベルを与えてもよい。つまり、ラベル分布決定部30は、1つの未知データに対して複数の任意の100次元ベクトルを出力してもよい。この場合は、ラベル分布決定部30から出力される任意ラベルの数はN個以上となる。
【0037】
データ生成部20は、未知データと、それに対応する任意ラベルとが入力されると、教師予測ラベルが任意ラベルに近しくなるような生成データを生成する。具体的には、データ生成部20は、教師予測ラベルと任意ラベルの誤差を目的関数とし、未知データを変数とする最適化を行う。なお、前述したように、1つの未知データに複数の任意ラベルが与えられた場合には、それぞれの任意ラベルについて同様の最適化を行えばよい。
【0038】
こうして、データ生成部20とラベル分布決定部30は、生成データに対する教師予測ラベルと任意ラベルの誤差が十分に小さくなるまで、任意ラベルの生成と生成データの生成を繰り返す。これにより、生成データに対する教師予測ラベルの各クラスの累積確率密度を均等に近づけることができる。
【0039】
こうして、生成データが得られると、蒸留学習部40は、生成データを用いて蒸留による学習を行う。具体的には、生成データが教師モデル41と生徒モデル42に入力される。教師モデル41は生成データに対する教師予測ラベルを出力し、生徒モデル42は生成データに対する生徒予測モデルを出力する。誤差算出部43は、教師予測ラベルと生徒予測ラベルの誤差を算出し、最適化部44に入力する。最適化部44は、教師予測ラベルと生徒予測ラベルの誤差を目的関数とし、誤差が小さくなるように生徒モデル42のニューロンの最適化を行う。
【0040】
(実施形態による効果)
以上の通り、本実施形態によれば、教師モデルの学習データが利用できない状況下で、さらに未知データと学習データの分布が異なっていても、未知データを用いて生徒モデルの蒸留学習を実現できる。その理由は、以下の通りである。
【0041】
1つ目の理由は、ラベル分布決定部30において、未知データに対する教師予測ラベルの累積確率密度を均等化することでクラスインバランスが解消されるためである。2つ目の理由は、データ生成部20において、任意ラベルと教師予測ラベルの誤差を最小化するデータを生成することで、教師モデルの学習データの分布を擬似的に再現できるためである。3つ目の理由は、蒸留学習部40において、生徒モデルの蒸留学習が収束するまで、ラベル分布決定部30とデータ生成部20は理論的に無限個の任意ラベルと生成データを計算できるためである。
【0042】
(変形例)
本実施形態は、上述した例に限定されるものではない。本実施形態は、上述した例に対して、いわゆる当業者が理解し得る多様な変更を適用することが可能である。例えば、本実施の形態は、以下の変形例に示す形態によっても実施可能である。
【0043】
(1)ラベル分布決定部30は、必ずしもラベルの累積確率密度を均等化しなくともよい。例えば、あるクラスの識別性能を優先的に行う場合、均等ではなく、当該クラスの確率分布を相対的に高くすればよい。また、ラベル分布決定部30は、ユーザから任意のクラス分布を受け付けるための入力インタフェースを備えていてもよい。
【0044】
(2)上記の実施形態では、データ生成部20は、未知データを生成データの初期値として使用し、生成データを教師モデルに入力して得られる予測ラベルと任意ラベルとの誤差を最小化する新たな生成データを生成している。その代わりに、データ生成部20は、ランダムノイズを生成データの初期値として使用し、生成データを教師モデルに入力して得られる予測ラベルと任意ラベルとの誤差を最小化する新たな生成データを生成してもよい。
【0045】
(3)データ生成部20におけるデータ生成方法は、上記の方法には限らない。例えば、GAN(Generative Adversarial Network)やVAE(Variatonal Auto-Encoder)と呼ばれるデータ生成方法を利用してもよい。
【0046】
(4)生徒モデルの数は、1つに限らない。例えば、予測ラベルの次元数が大きい場合には、予測ラベルを複数のベクトルへ分割し、それぞれに対応する複数の生徒モデルを学習してもよい。
【0047】
[第2実施形態]
次に、本発明の第2実施形態について説明する。図5は、第2実施形態に係る情報処理装置50の機能構成を示す。なお、情報処理装置50のハードウェア構成は、図1に示すものと同様である。
【0048】
情報処理装置50は、教師モデルが学習していない未知データを用いて蒸留学習を行うものであり、図示のように、ラベル分布決定部51と、データ生成部52と、蒸留学習部53と、を備える。ラベル分布決定部51は、未知データに対する任意ラベルを出力する。データ生成部52は、任意ラベルと未知データとを入力として、新たな生成データを出力する。蒸留学習部53は、生成データを入力とし、教師モデルを用いて生徒モデルの蒸留学習を行う。こうして、未知データを用いて、蒸留学習を行うことができる。
【0049】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0050】
(付記1)
未知データに対する任意ラベルを出力するラベル分布決定部と、
前記任意ラベルと前記未知データとを入力として、新たな生成データを出力するデータ生成部と、
前記生成データを入力として、教師モデルを用いて生徒モデルの蒸留学習を行う蒸留学習部と、
を備える情報処理装置。
【0051】
(付記2)
前記ラベル分布決定部は、前記未知データに対する前記教師モデルの予測ラベルの累積確率密度を求め、当該累積確率密度に基づいて前記任意ラベルを決定する付記1に記載の情報処理装置。
【0052】
(付記3)
前記ラベル分布決定部は、前記教師モデルの予測ラベルの各クラスの累積確率密度が均等になるように前記任意ラベルを決定する付記2に記載の情報処理装置。
【0053】
(付記4)
前記ラベル分布決定部は、前記教師モデルの予測ラベルの各クラスの累積確率密度が均等になるように各クラスに対する重みを算出し、当該重みを前記教師モデルの予測ラベルに乗算して前記任意ラベルを決定する付記3に記載の情報処理装置。
【0054】
(付記5)
前記データ生成部は、前記未知データを前記生成データの初期値として使用し、前記生成データを前記教師モデルに入力して得られる予測ラベルと前記任意ラベルとの誤差を最小化する新たな生成データを生成する付記1乃至4のいずれか一項に記載の情報処理装置。
【0055】
(付記6)
前記データ生成部は、ランダムノイズを前記生成データの初期値として使用し、前記生成データを前記教師モデルに入力して得られる予測ラベルと前記任意ラベルとの誤差を最小化する新たな生成データを生成する付記1乃至4のいずれか一項に記載の情報処理装置。
【0056】
(付記7)
前記未知データは、前記教師モデルの学習に利用したデータとは異なるデータである付記1乃至6のいずれか一項に記載の情報処理装置。
【0057】
(付記8)
前記未知データの情報量は、前記教師モデルの学習に利用したデータの情報量よりも少ない付記1乃至7のいずれか一項に記載の情報処理装置。
【0058】
(付記9)
未知データに対する任意ラベルを出力し、
前記任意ラベルと前記未知データとを入力として、新たな生成データを出力し、
前記生成データを入力とし、教師モデルを用いて生徒モデルの蒸留学習を行う学習方法。
【0059】
(付記10)
未知データに対する任意ラベルを出力し、
前記任意ラベルと前記未知データとを入力として、新たな生成データを出力し、
前記生成データを入力とし、教師モデルを用いて生徒モデルの蒸留学習を行う処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0060】
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0061】
10、10x 学習装置
20 データ生成部
30 ラベル分布決定部
40 蒸留学習部
41 教師モデル
42 生徒モデル
50 情報処理装置
図1
図2
図3
図4
図5