(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-13
(45)【発行日】2024-05-21
(54)【発明の名称】モデル生成プログラム、モデル生成装置、及びモデル生成方法
(51)【国際特許分類】
G06N 3/08 20230101AFI20240514BHJP
G06N 20/00 20190101ALI20240514BHJP
【FI】
G06N3/08
G06N20/00
(21)【出願番号】P 2020090065
(22)【出願日】2020-05-22
【審査請求日】2023-02-09
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110004185
【氏名又は名称】インフォート弁理士法人
(74)【代理人】
【識別番号】100121083
【氏名又は名称】青木 宏義
(74)【代理人】
【識別番号】100138391
【氏名又は名称】天田 昌行
(74)【代理人】
【識別番号】100074099
【氏名又は名称】大菅 義之
(72)【発明者】
【氏名】梁 俊
(72)【発明者】
【氏名】森田 一
【審査官】北川 純次
(56)【参考文献】
【文献】特開2018-022473(JP,A)
【文献】米国特許出願公開第2018/0336482(US,A1)
【文献】PIOTROWSKI, P. Adam et al.,A comparison of methods to avoid overfitting in neural networks training in the case of catchment runoff modelling,Journal of Hydrology [online],Volume 476,2013年,pp. 97-111,[検索日:2023.11.27],インターネット:<URL:https://www.sciencedirect.com/science/article/abs/pii/S0022169412008931>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/02-3/10
G06N 20/00-20/20
(57)【特許請求の範囲】
【請求項1】
複数の訓練データを利用した第1機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、前記学習モデルのパラメータを更新し、
前記第2機械学習が開始される前における前記パラメータの値と、前記第2機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第2機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる、
処理をコンピュータに実行させ
、
前記影響の度合いを減少させる処理は、前記第2機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第2機械学習における前記パラメータの更新量を計算する処理を含み、
前記学習モデルのパラメータを更新する処理は、前記更新量を用いて前記更新後の値をさらに更新する処理を含むことを特徴とするモデル生成プログラム。
【請求項2】
前記学習モデルはニューラルネットワークであり、前記ニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられることを特徴とする請求項
1記載のモデル生成プログラム。
【請求項3】
複数の訓練データを利用した第1機械学習により生成された学習モデルを記憶する記憶部と、
前記学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、前記学習モデルのパラメータを更新し、前記第2機械学習が開始される前における前記パラメータの値と、前記第2機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第2機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる更新部と、
を備え
、
前記更新部は、前記第2機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第2機械学習における前記パラメータの更新量を計算し、前記更新量を用いて前記更新後の値をさらに更新することを特徴とするモデル生成装置。
【請求項4】
複数の訓練データを利用した第1機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、前記学習モデルのパラメータを更新し、
前記第2機械学習が開始される前における前記パラメータの値と、前記第2機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第2機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる、
処理をコンピュータが実行
し、
前記影響の度合いを減少させる処理は、前記第2機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第2機械学習における前記パラメータの更新量を計算する処理を含み、
前記学習モデルのパラメータを更新する処理は、前記更新量を用いて前記更新後の値をさらに更新する処理を含むことを特徴とするモデル生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、モデル生成技術に関する。
【背景技術】
【0002】
近年、自然言語処理を利用した文書分類、感情分析、固有表現抽出等の様々なタスクにおいて、単語埋め込み技術が用いられている。単語埋め込み技術は、複数の単語それぞれを単語ベクトルに対応付ける技術である。
【0003】
ニューラルネットワークを用いた単語埋め込み技術として、Word2vec、ELMo(Embeddings from Language Models)、BERT(Bidirectional Encoder Representations from Transformers)、Flair等が知られている。このうち、ELMo、BERT、及びFlairでは、テキスト中の文脈を用いて単語埋め込みが行われる(例えば、非特許文献1~非特許文献3を参照)
【0004】
ELMo、BERT、Flair等の単語埋め込みモデルを生成する学習処理では、Webデータ等の大量のテキストデータに対する機械学習により、学習済みの言語モデル(Language Model,LM)が生成され、生成されたLMから単語埋め込みモデルが生成される。学習済みのLMは、pre-trained modelと呼ばれることがある。この場合、大量のテキストデータが訓練データとして使用されるため、Word2vecよりも学習処理に時間がかかる。
【0005】
単語埋め込みに関連して、学習データに存在しない単語のWord Embeddingを、クラスに係る情報を推定可能なWord Embeddingに変換する、情報処理システムが知られている(例えば、特許文献1を参照)。オンライン学習及び確率的最適化のための適応勾配アルゴリズムも知られている(例えば、非特許文献4を参照)。再帰型ニューラルネットワークの一種であるLSTM(Long Short Term Memory)ネットワークも知られている(例えば、非特許文献5を参照)。
【先行技術文献】
【特許文献】
【0006】
【非特許文献】
【0007】
【文献】M. E. Peters et al., “Deep contextualized word representations”, Cornell University, arXiv:1802.05365v2, 2018.
【文献】J. Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, Cornell University, arXiv:1810.04805v2, 2019.
【文献】“flairNLP/flair”、[online]、GitHub、[令和2年2月14日検索]、インターネット<URL:https://github.com/zalandoresearch/flair>
【文献】J. Duchi et al., “Adaptive Subgradient Methods for Online Learning and Stochastic Optimization”, The Journal of Machine Learning Research, volume 12, pages 2121-2159, 2011.
【文献】“Understanding LSTM Networks”、[online]、August 27, 2015、[令和2年4月14日検索]、インターネット<URL:https://colah.github.io/posts/2015-08-Understanding-LSTMs/>
【発明の概要】
【発明が解決しようとする課題】
【0008】
大量のテキストデータAに対する機械学習により得られた、ELMo、BERT、Flair等の学習済みの言語モデルLMAに、新たなドメインの少量のテキストデータBを学習させることで、言語モデルLMAが更新されることがある。テキストデータAとしては、例えば、ニュース記事、インターネット百科事典等から抽出された数百万個程度の文が用いられ、テキストデータBとしては、例えば、特定分野の学術論文、社内データ等から抽出された十万個程度の文が用いられる。
【0009】
更新後の言語モデルLMBから新たな単語埋め込みモデルを生成することで、新たなドメインのテキストデータBに適合した単語埋め込みモデルを生成することができる。
【0010】
しかしながら、新たなドメインのテキストデータBには、更新前の言語モデルLMAにより認識されない専門用語、社内用語等が多く含まれている場合がある。この場合、言語モデルLMAのパラメータを初期値として用いて、テキストデータBに対する機械学習を行うことで、テキストデータBに適合するようにパラメータが更新される。
【0011】
しかし、訓練データとしてテキストデータBのみを用いた場合、テキストデータBに対する過剰適合が発生することが多く、パラメータが元のテキストデータAに適合していることが保障されない。このため、テキストデータAに対する機械学習の効果が減殺されて、更新後の言語モデルLMBの汎化性能が損なわれるため、言語モデルLMBから生成される単語埋め込みモデルの精度が低下する。
【0012】
なお、かかる問題は、ニューラルネットワークを用いて単語埋め込みモデルを生成する機械学習に限らず、様々な学習モデルを生成する機械学習において生ずるものである。
【0013】
1つの側面において、本発明は、学習済みの学習モデルに対して、特定の条件を満たす訓練データをさらに学習させる機械学習において、学習モデルの過剰適合を抑制することを目的とする。
【課題を解決するための手段】
【0014】
1つの案では、モデル生成プログラムは、以下の処理をコンピュータに実行させる。
【0015】
コンピュータは、複数の訓練データを利用した第1機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、学習モデルのパラメータを更新する。コンピュータは、第2機械学習が開始される前におけるパラメータの値と、第2機械学習により更新されたパラメータの更新後の値との差分が増加するほど、特定の条件を満たす訓練データの影響の度合いを減少させる。特定の条件を満たす訓練データの影響の度合いは、第2機械学習における特定の条件を満たす訓練データのパラメータの更新に対する影響の度合いを表す。
【発明の効果】
【0016】
1つの側面によれば、学習済みの学習モデルに対して、特定の条件を満たす訓練データをさらに学習させる機械学習において、学習モデルの過剰適合を抑制することができる。
【図面の簡単な説明】
【0017】
【
図3】モデル生成装置の具体例を示す機能的構成図である。
【
図5】モデル生成処理の具体例を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、図面を参照しながら、実施形態を詳細に説明する。
【0019】
図1は、実施形態のモデル生成装置の機能的構成例を示している。
図1のモデル生成装置101は、記憶部111及び更新部112を含む。記憶部111は、複数の訓練データを利用した第1機械学習により生成された学習モデル121を記憶する。更新部112は、記憶部111が記憶する学習モデル121を用いて、モデル生成処理を行う。
【0020】
図2は、
図1のモデル生成装置101が行うモデル生成処理の例を示すフローチャートである。まず、更新部112は、学習モデル121に対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、学習モデル121のパラメータを更新する(ステップ201)。
【0021】
次に、更新部112は、第2機械学習が開始される前におけるパラメータの値と、第2機械学習により更新されたパラメータの更新後の値との差分が増加するほど、特定の条件を満たす訓練データの影響の度合いを減少させる(ステップ202)。特定の条件を満たす訓練データの影響の度合いは、第2機械学習における特定の条件を満たす訓練データのパラメータの更新に対する影響の度合いを表す。
【0022】
図1のモデル生成装置101によれば、学習済みの学習モデルに対して、特定の条件を満たす訓練データをさらに学習させる機械学習において、学習モデルの過剰適合を抑制することができる。
【0023】
図3は、
図1のモデル生成装置101の具体例を示している。
図3のモデル生成装置301は、記憶部311、学習部312、更新部313、生成部314、及び出力部315を含む。記憶部311及び更新部313は、
図1の記憶部111及び更新部112にそれぞれ対応する。
【0024】
記憶部311は、第1データ集合321及び第2データ集合322を記憶する。第1データ集合321は、第1機械学習の訓練データとして用いられる大量のテキストデータを含む。第1データ集合321としては、例えば、ニュース記事、インターネット百科事典等から抽出された数百万個程度の文が用いられる。
【0025】
第2データ集合322は、第2機械学習の訓練データとして用いられる少量のテキストデータを含む。第2データ集合322としては、例えば、特定分野の学術論文、社内データ等から抽出された十万個程度の文が用いられる。第2データ集合322のテキストデータは、特定の条件を満たす訓練データの一例である。
【0026】
学習部312は、学習前の学習モデルに対して、第1データ集合321を利用した第1機械学習を実行することで、第1学習モデル323を生成して、記憶部311に格納する。学習前の学習モデルとしては、例えば、ELMo、BERT、Flair等のLMが用いられる。このLMは、ニューラルネットワークである。
【0027】
第1学習モデル323は、学習済みの学習モデルであり、
図1の学習モデル121に対応する。第1学習モデル323に対応するニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられる。
【0028】
更新部313は、第1学習モデル323に対して、第2データ集合322を利用した第2機械学習を実行することで、第1学習モデル323のパラメータの値を更新して第2学習モデル324を生成し、記憶部311に格納する。第1学習モデル323のパラメータの値は、第2学習モデル324のパラメータの初期値として用いられる。第2機械学習において、更新部313は、パラメータの初期値と更新後の値との差分が増加するほど、第2データ集合322の影響の度合いを減少させる制御を行う。
【0029】
生成部314は、第2学習モデル324に対応するニューラルネットワークの中間層の出力を用いて、単語埋め込みモデル325を生成し、記憶部311に格納する。単語埋め込みモデル325は、複数の単語それぞれを単語ベクトルに対応付けるモデルである。出力部315は、生成された単語埋め込みモデル325を出力する。
【0030】
図4は、単語埋め込みモデル325の例を示している。
図4の単語埋め込みモデル325では、“Flowers”、“Chocolate”、“Grass”、及び“Tree”が、実数を成分とする単語ベクトルに対応付けられている。
【0031】
非特許文献1に記載されたELMoのLMは、順方向LMと逆方向LMとを組み合わせた双方向LMである。順方向LMは、テキストデータ中に出現するある単語と、その単語よりも前に出現する複数の単語との間の文脈依存関係を表す。逆方向LMは、テキストデータ中に出現するある単語と、その単語よりも後に出現する複数の単語との間の文脈依存関係を表す。順方向LMと逆方向LMとを組み合わることで、テキストデータ中に出現する単語の意味を正しく捉えることが可能になる。
【0032】
ELMoのLMは複数の層からなり、各層は複数のLSTMを含む。このうち、中間層のLSTMから出力される値を用いて、単語埋め込みモデル325の各単語に対応する単語ベクトルが生成される。
【0033】
例えば、非特許文献5に記載されたLSTMは、入力ゲート、忘却ゲート、及び出力ゲート(tanh)を含み、これらのゲートの出力を用いてLSTMの出力が生成される。各ゲートのパラメータは重み係数及びバイアスであり、重み係数及びバイアスは、テキストデータに対する機械学習により更新される。
【0034】
LSTMの各パラメータを更新するための最適化アルゴリズムとしては、例えば、非特許文献4に記載された、AdaGradと呼ばれる適応勾配アルゴリズムを用いることができる。AdaGradを用いた場合、パラメータθは、例えば、次式により更新される。
【0035】
v=v+g(θ)2 (1)
θ=θ-(α/(v1/2+ε))g(θ) (2)
【0036】
式(1)のvはスカラである。g(θ)は、パラメータθに対する目的関数の勾配を表し、訓練データを用いて計算される。vは、更新される度に大きくなる。式(2)のεは、更新処理を安定化するための定数であり、αは学習率である。εは10^(-8)程度の値であってもよく、αは10^(-2)程度の値であってもよい。(α/(v1/2+ε))g(θ)は、パラメータθの更新量を表す。
【0037】
学習前の学習モデルとしてELMoのLMを用いた場合、LMに含まれる各LSTMの入力ゲート、忘却ゲート、及び出力ゲートの重み係数及びバイアスが、パラメータθとして用いられる。学習部312は、第1機械学習において、式(1)及び式(2)により、各LSTMの入力ゲート、忘却ゲート、及び出力ゲートの重み係数及びバイアスを更新する。重み係数及びバイアスの更新処理を複数回繰り返すことで、第1学習モデル323に対応するLM1が生成される。
【0038】
更新部313は、第2機械学習において、次式により、LM1に含まれる各LSTMの入力ゲート、忘却ゲート、及び出力ゲートの重み係数及びバイアスを更新する。
【0039】
v=exp(λ|θ1-θ|) (3)
θ=θ-(α/(v1/2+ε))g(θ) (4)
【0040】
式(3)のexp()は指数関数であり、λは所定の定数である。θ1は、LM1に含まれるパラメータθの値を表し、第2機械学習におけるパラメータθの初期値として用いられる。|θ1-θ|は、θ1と、最後に更新されたパラメータθの更新後の値との差分を表す。vは、更新される度に大きくなる。
【0041】
式(4)は、式(2)と同じである。この場合、第2データ集合322を用いてg(θ)が計算され、g(θ)と|θ1-θ|とを用いて、パラメータθの更新量が計算される。そして、計算された更新量を用いて、パラメータθの更新後の値がさらに更新される。|θ1-θ|を用いて更新量を計算することで、パラメータθの初期値と更新後の値との差分を、次の更新量に反映させることができる。そして、重み係数及びバイアスの更新処理を複数回繰り返すことで、第2学習モデル324に対応するLM2が生成される。
【0042】
式(3)及び式(4)から、|θ1-θ|が増加するほどvが大きくなり、式(4)の右辺のα/(v1/2+ε)が減少することが分かる。α/(v1/2+ε)は、パラメータθの更新に対するg(θ)の影響の度合いを表す。g(θ)は第2データ集合322を用いて計算されるため、g(θ)の影響の度合いは、第2データ集合322の影響の度合いを表している。θの値がθ1に近い間はvが小さいため、パラメータθの更新に対する第2データ集合322の影響が大きくなる。一方、θの値がθ1から遠ざかるとvが大きくなり、パラメータθの更新に対する第2データ集合322の影響が小さくなる。
【0043】
したがって、第2データ集合322のみを用いた第2機械学習において、第2データ集合322に対する過剰適合が抑制され、第1データ集合321及び第2データ集合322の両方に適合した第2学習モデル324を生成することができる。これにより、第2学習モデル324の汎化性能が確保され、第2学習モデル324から生成される単語埋め込みモデル325の精度が向上する。
【0044】
更新部313は、第2機械学習において、式(3)及び式(4)の代わりに次式を用いて、パラメータθを更新してもよい。
【0045】
v1=v1+g(θ)2 (5)
v2=exp(λ|θ1-θ|) (6)
θ=θ-(α/(v11/2+v21/2+ε))g(θ) (7)
【0046】
式(5)のv1は、式(1)のvに対応し、式(6)のv2は、式(3)のvに対応する。式(7)の(α/(v11/2+v21/2+ε))g(θ)は、パラメータθの更新量を表す。λの値を変更することで、v1とv2の大小関係を調整することができる。式(3)及び式(6)のexp()の代わりに、正の値を生成する別の増加関数を用いてもよい。
【0047】
図5は、
図3のモデル生成装置301が行うモデル生成処理の具体例を示すフローチャートである。このモデル生成処理では、学習前の学習モデルとしてELMoのLMが用いられる。
【0048】
まず、学習部312は、学習前の学習モデルに対して、第1データ集合321を利用した第1機械学習を実行することで、第1学習モデル323を生成する(ステップ501)。次に、更新部313は、第1学習モデル323に対して、第2データ集合322を利用した第2機械学習を実行することで、第2学習モデル324を生成する(ステップ502)。
【0049】
次に、生成部314は、第2学習モデル324に対応するニューラルネットワークの中間層の出力を用いて、単語埋め込みモデル325を生成し(ステップ503)、出力部315は、単語埋め込みモデル325を出力する(ステップ504)。
【0050】
図6は、
図5のステップ502における第2機械学習の例を示すフローチャートである。まず、更新部313は、第2データ集合322を用いて、第1学習モデル323に含まれる各LSTMの各パラメータの値を更新する(ステップ601)。更新部313は、式(3)及び式(4)により各パラメータの値を更新してもよく、式(5)~式(7)により各パラメータの値を更新してもよい。
【0051】
次に、更新部313は、更新処理が収束したか否かをチェックする(ステップ602)。例えば、各パラメータの更新量が閾値よりも小さくなった場合、更新処理が収束したと判定され、更新量が閾値以上である場合、更新処理が収束していないと判定される。
【0052】
更新部313は、更新処理が収束していない場合(ステップ602,NO)、ステップ601以降の処理を繰り返し、更新処理が収束した場合(ステップ602,YES)、処理を終了する。
【0053】
ところで、第1学習モデル323及び第2学習モデル324は、単語埋め込みモデル325を生成するためのLMに限られるわけではなく、自然言語処理、画像処理、金融処理、需要予測等の他の情報処理を行う学習モデルであってもよい。第1学習モデル323及び第2学習モデル324としては、ニューラルネットワーク以外に、サポートベクタマシン、ロジスティック回帰等の他の学習モデルを用いることもできる。
【0054】
図1のモデル生成装置101及び
図3のモデル生成装置301の構成は一例に過ぎず、モデル生成装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、
図3のモデル生成装置301において、事前に第1学習モデル323が記憶部311に格納されている場合は、学習部312を省略することができる。単語埋め込みモデル325を生成する必要がない場合は、生成部314及び出力部315を省略することができる。
【0055】
図2、
図5、及び
図6のフローチャートは一例に過ぎず、モデル生成装置の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、
図5のモデル生成処理において、事前に第1学習モデル323が記憶部311に格納されている場合は、ステップ501の処理を省略することができる。単語埋め込みモデル325を生成する必要がない場合は、ステップ503及びステップ504の処理を省略することができる。
【0056】
図4に示した単語埋め込みモデル325は一例に過ぎず、単語埋め込みモデル325は、第1データ集合321及び第2データ集合322に応じて変化する。
【0057】
式(1)~式(7)は一例にすぎず、モデル生成装置は、別の計算式を用いて更新処理を行ってもよい。
【0058】
図7は、
図1のモデル生成装置101及び
図3のモデル生成装置301として用いられる情報処理装置(コンピュータ)のハードウェア構成例を示している。
図7の情報処理装置は、CPU(Central Processing Unit)701、メモリ702、入力装置703、出力装置704、補助記憶装置705、媒体駆動装置706、及びネットワーク接続装置707を含む。これらの構成要素はハードウェアであり、バス708により互いに接続されている。
【0059】
メモリ702は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。メモリ702は、
図1の記憶部111又は
図3の記憶部311として動作してもよい。
【0060】
CPU701(プロセッサ)は、例えば、メモリ702を利用してプログラムを実行することにより、
図1の更新部112として動作する。CPU701は、メモリ702を利用してプログラムを実行することにより、
図3の学習部312、更新部313、及び生成部314としても動作する。
【0061】
入力装置703は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置704は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。処理結果は、第2学習モデル324又は単語埋め込みモデル325であってもよい。出力装置704は、
図3の出力部315として動作してもよい。
【0062】
補助記憶装置705は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置705は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置705にプログラム及びデータを格納しておき、それらをメモリ702にロードして使用することができる。補助記憶装置705は、
図1の記憶部111又は
図3の記憶部311として動作してもよい。
【0063】
媒体駆動装置706は、可搬型記録媒体709を駆動し、その記録内容にアクセスする。可搬型記録媒体709は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体709は、CD-ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体709にプログラム及びデータを格納しておき、それらをメモリ702にロードして使用することができる。
【0064】
このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ702、補助記憶装置705、又は可搬型記録媒体709のような、物理的な(非一時的な)記録媒体である。
【0065】
ネットワーク接続装置707は、LAN(Local Area Network)、WAN(Wide Area Network)等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置707を介して受信し、それらをメモリ702にロードして使用することができる。ネットワーク接続装置707は、
図3の出力部315として動作してもよい。
【0066】
なお、情報処理装置が
図7のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、オペレータ又はユーザとのインタフェースが不要な場合は、入力装置703及び出力装置704を省略してもよい。可搬型記録媒体709又は通信ネットワークを使用しない場合は、媒体駆動装置706又はネットワーク接続装置707を省略してもよい。
【0067】
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
【0068】
図1乃至
図7を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の訓練データを利用した第1機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、前記学習モデルのパラメータを更新し、
前記第2機械学習が開始される前における前記パラメータの値と、前記第2機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第2機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる、
処理をコンピュータに実行させるためのモデル生成プログラム。
(付記2)
前記影響の度合いを減少させる処理は、前記第2機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第2機械学習における前記パラメータの更新量を計算する処理を含み、
前記学習モデルのパラメータを更新する処理は、前記更新量を用いて前記更新後の値をさらに更新する処理を含む、
ことを特徴とする付記1記載のモデル生成プログラム。
(付記3)
前記学習モデルはニューラルネットワークであり、前記ニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられることを特徴とする付記1又は2記載のモデル生成プログラム。
(付記4)
複数の訓練データを利用した第1機械学習により生成された学習モデルを記憶する記憶部と、
前記学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、前記学習モデルのパラメータを更新し、前記第2機械学習が開始される前における前記パラメータの値と、前記第2機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第2機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる更新部と、
を備えることを特徴とするモデル生成装置。
(付記5)
前記更新部は、前記第2機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第2機械学習における前記パラメータの更新量を計算し、前記更新量を用いて前記更新後の値をさらに更新することを特徴とする付記4記載のモデル生成装置。
(付記6)
前記学習モデルはニューラルネットワークであり、前記ニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられることを特徴とする付記4又は5記載のモデル生成装置。
(付記7)
複数の訓練データを利用した第1機械学習により生成された学習モデルに対して、特定の条件を満たす訓練データを利用した第2機械学習を実行することで、前記学習モデルのパラメータを更新し、
前記第2機械学習が開始される前における前記パラメータの値と、前記第2機械学習により更新された前記パラメータの更新後の値との差分が増加するほど、前記第2機械学習における前記特定の条件を満たす訓練データの前記パラメータの更新に対する影響の度合いを減少させる、
処理をコンピュータが実行することを特徴とするモデル生成方法。
(付記8)
前記影響の度合いを減少させる処理は、前記第2機械学習が開始される前における前記パラメータの値と、前記更新後の値との差分を用いて、前記第2機械学習における前記パラメータの更新量を計算する処理を含み、
前記学習モデルのパラメータを更新する処理は、前記更新量を用いて前記更新後の値をさらに更新する処理を含む、
ことを特徴とする付記7記載のモデル生成方法。
(付記9)
前記学習モデルはニューラルネットワークであり、前記ニューラルネットワークの中間層の出力は、単語埋め込みにおける単語ベクトルの生成に用いられることを特徴とする付記7又は8記載のモデル生成方法。
【符号の説明】
【0069】
101、301 モデル生成装置
111、311 記憶部
112、313 更新部
121 学習モデル
312 学習部
314 生成部
315 出力部
321 第1データ集合
322 第2データ集合
323 第1学習モデル
324 第2学習モデル
325 単語埋め込みモデル
701 CPU
702 メモリ
703 入力装置
704 出力装置
705 補助記憶装置
706 媒体駆動装置
707 ネットワーク接続装置
708 バス
709 可搬型記録媒体