特許7586335 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7586335学習装置、学習方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-11

(45)【発行日】2024-11-19

(54)【発明の名称】学習装置、学習方法、及び、プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20241112BHJP

【ＦＩ】

G06N20/00

【請求項の数】 8

(21)【出願番号】P 2023549281

(86)(22)【出願日】2021-09-27

(86)【国際出願番号】 JP2021035277

(87)【国際公開番号】W WO2023047562

(87)【国際公開日】2023-03-30

【審査請求日】2024-03-01

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】吉田周平

【審査官】今城朋彬

(56)【参考文献】

【文献】国際公開第２０２１／１４４９４３（ＷＯ，Ａ１）

【文献】特表２０２１－５０２６２６（ＪＰ，Ａ）

【文献】MEISTER, Clara et al.，Generalized Entropy Regularization or: There's Nothing Special about Label Smoothing，arXiv [online]，2020年05月12日，インターネット<URL：https://arxiv.org/pdf/2005.00820.pdf>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

推論モデルを用いて訓練データに対する推論を行い、クラススコアを出力する推論手段と、
出力された前記クラススコアから、当該クラススコアが過大又は過少なときに線形より急速に増大する重み関数を用いて重みを計算する重み計算手段と、
所定数の訓練データを含むミニバッチにわたって前記重みの総和を計算する重み総和計算手段と、
線形より緩やかに増大する単調増加関数であるリスケール関数を前記総和に適用して、正則化項を計算する正則化項計算手段と、
前記正則化項を含む総損失を用いて、前記推論モデルを最適化する最適化手段と、
を備える学習装置。

【請求項2】

前記正則化項計算手段は、前記クラススコアが高い場合に前記正則化項の値を大きくし、前記クラススコアが低い場合に前記正則化項の値を小さくする請求項１に記載の学習装置。

【請求項3】

前記クラススコアと、前記訓練データに対応する正解クラスとに基づいて損失を計算する損失計算手段を備え、
前記総損失は、前記損失と、前記正則化項との和である請求項１又は２に記載の学習装置。

【請求項4】

前記クラススコアは、１つの訓練データに対する各クラスの信頼度スコアを含み、
前記重み関数は、前記各クラスの信頼度スコアの２乗を全クラスにわたり合計する関数であり、
前記リスケール関数は、前記総和の平方根を計算する関数である請求項１乃至３のいずれか一項に記載の学習装置。

【請求項5】

前記クラススコアは、１つの訓練データに対する各クラスの信頼度スコアを含み、
前記重み関数は、前記各クラスの信頼度スコアの２乗の自然対数を全クラスにわたり合計する関数であり、
前記リスケール関数は、前記総和の対数を計算する関数である請求項１乃至３のいずれか一項に記載の学習装置。

【請求項6】

前記クラススコアは、１つの訓練データに対する各クラスの信頼度スコアを含み、
前記重み関数は、前記各クラスの信頼度スコアの自然対数を全クラスにわたり合計する関数であり、
前記リスケール関数は、前記総和の対数を計算する関数である請求項１乃至３のいずれか一項に記載の学習装置。

【請求項7】

コンピュータが、
推論モデルを用いて訓練データに対する推論を行い、クラススコアを出力し、
出力された前記クラススコアから、当該クラススコアが過大又は過少なときに線形より急速に増大する重み関数を用いて重みを計算し、
所定数の訓練データを含むミニバッチにわたって前記重みの総和を計算し、
線形より緩やかに増大する単調増加関数であるリスケール関数を前記総和に適用して、正則化項を計算し、
前記正則化項を含む総損失を用いて、前記推論モデルを最適化する学習方法。

【請求項8】

推論モデルを用いて訓練データに対する推論を行い、クラススコアを出力し、
出力された前記クラススコアから、当該クラススコアが過大又は過少なときに線形より急速に増大する重み関数を用いて重みを計算し、
所定数の訓練データを含むミニバッチにわたって前記重みの総和を計算し、
線形より緩やかに増大する単調増加関数であるリスケール関数を前記総和に適用して、正則化項を計算し、
前記正則化項を含む総損失を用いて、前記推論モデルを最適化する処理をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、機械学習モデルの学習方法に関する。

【背景技術】

【0002】

深層学習などの大規模な機械学習モデルを学習する際、過学習を抑制するために正則化を行うことが知られている。例えば、特許文献１は、誤差関数に正則化項を加えたコスト関数を用いて、ニューラルネットワークの重みパラメータを更新する手法を開示している。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０２１－４３５９６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

従来の手法では、全ての訓練データに対して一様に正則化を行っていた。このため、予測の簡単な訓練データに対して正則化が弱くなって過適合が生じたり、予測の難しい訓練データに対して正則化が強くなって学習の効率が低下したりすることがあった。

【0005】

本開示の１つの目的は、深層学習において、訓練データに応じて正則化の強度を適応的に制御することにある。

【課題を解決するための手段】

【0006】

本開示の一つの観点では、学習装置は、
推論モデルを用いて訓練データに対する推論を行い、クラススコアを出力する推論手段と、
出力された前記クラススコアから、当該クラススコアが過大又は過少なときに線形より急速に増大する重み関数を用いて重みを計算する重み計算手段と、
所定数の訓練データを含むミニバッチにわたって前記重みの総和を計算する重み総和計算手段と、
線形より緩やかに増大する単調増加関数であるリスケール関数を前記総和に適用して、正則化項を計算する正則化項計算手段と、
前記正則化項を含む総損失を用いて、前記推論モデルを最適化する最適化手段と、
を備える。

【0007】

本開示の他の観点では、学習方法は、
推論モデルを用いて訓練データに対する推論を行い、クラススコアを出力し、
出力された前記クラススコアから、当該クラススコアが過大又は過少なときに線形より急速に増大する重み関数を用いて重みを計算し、
所定数の訓練データを含むミニバッチにわたって前記重みの総和を計算し、
線形より緩やかに増大する単調増加関数であるリスケール関数を前記総和に適用して、正則化項を計算し、
前記正則化項を含む総損失を用いて、前記推論モデルを最適化する。

【0008】

本開示のさらに他の観点では、プログラムは、
推論モデルを用いて訓練データに対する推論を行い、クラススコアを出力し、
出力された前記クラススコアから、当該クラススコアが過大又は過少なときに線形より急速に増大する重み関数を用いて重みを計算し、
所定数の訓練データを含むミニバッチにわたって前記重みの総和を計算し、
線形より緩やかに増大する単調増加関数であるリスケール関数を前記総和に適用して、正則化項を計算し、
前記正則化項を含む総損失を用いて、前記推論モデルを最適化する処理をコンピュータに実行させる。

【発明の効果】

【0009】

本開示によれば、深層学習において、訓練データに応じて正則化の強度を適応的に制御することが可能となる。

【図面の簡単な説明】

【0010】

【図1】第１実施形態の学習装置のハードウェア構成を示すブロック図である。

【図2】第１実施形態の学習装置の機能構成を示すブロック図である。

【図3】重み関数とリスケール関数の例を示す。

【図4】第１実施形態の学習装置による学習処理のフローチャートである。

【図5】第２実施形態の学習装置の機能構成を示すブロック図である。

【図6】第２実施形態の学習装置による学習処理のフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本開示の好適な実施形態について説明する。
＜第１実施形態＞
［学習装置］
（ハードウェア構成）
図１は、第１実施形態の学習装置１００のハードウェア構成を示すブロック図である。図示のように、学習装置１００は、インタフェース（Ｉ／Ｆ）１１と、プロセッサ１２と、メモリ１３と、記録媒体１４と、データベース（ＤＢ）１５と、を備える。

【0012】

インタフェース１１は、外部装置との間でデータの入出力を行う。具体的に、学習に使用される訓練データセットは、インタフェース１１を通じて学習装置１００に入力される。

【0013】

プロセッサ１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより学習装置１００の全体を制御する。なお、プロセッサ１２は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）であってもよい。プロセッサ１２は、後述する学習処理を実行する。

【0014】

メモリ１３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１３は、プロセッサ１２による各種の処理の実行中に作業メモリとしても使用される。

【0015】

記録媒体１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習装置１００に対して着脱可能に構成される。記録媒体１４は、プロセッサ１２が実行する各種のプログラムを記録している。学習装置１００が各種の処理を実行する際には、記録媒体１４に記録されているプログラムがメモリ１３にロードされ、プロセッサ１２により実行される。ＤＢ１５は、必要に応じて、Ｉ／Ｆ１１を通じて入力された訓練データセットを記憶する。

【0016】

（機能構成）
図２は、第１実施形態の学習装置１００の機能構成を示すブロック図である。学習装置１００は、推論部２１と、損失関数計算部２２と、総和計算部２３と、重み関数計算部２４と、重み総和計算部２５と、リスケール関数計算部２６と、パラメータ更新部２７と、を備える。

【0017】

学習装置１００には、訓練データセットが入力される。訓練データセットは、複数の訓練データｘ_ｉと、各訓練データｘ_ｉに対応する正解クラスｙ_ｉとを含む。訓練データｘ_ｉは推論部２１に入力され、正解クラスｙ_ｉは損失関数計算部２２へ入力される。

【0018】

推論部２１は、学習装置１００による学習の対象となる深層学習モデルを用いて推論を行う。具体的には、推論部２１は、学習の対象となる深層学習モデルを構成するニューラルネットワークを備える。推論部２１は、入力された訓練データｘ_ｉに対する推論を行い、推論結果としてクラススコアｖ^→ _ｉを出力する。詳細には、推論部２１は、訓練データｘ_ｉに対するクラス分類を行い、クラス毎の信頼度スコアを示すベクトルであるクラススコアｖ^→ _ｉを出力する。なお、本明細書では、便宜上ベクトルを示す「→」を、「ｖ」の右側に上付きで表記する。クラススコアｖ^→ _ｉは、損失関数計算部２２及び重み関数計算部２４へ入力される。

【0019】

損失関数計算部２２は、予め用意された損失関数を用いて、クラススコアｖ^→ _ｉに対する損失ｌ_cls,iを計算する。具体的に、損失関数計算部２２は、ある訓練データｘ_ｉに対するクラススコアｖ^→ _ｉと、その訓練データｘ_ｉに対する正解クラスｙ_ｉとを用いて、式（１）に示すように損失ｌ_cls,iを計算する。計算された損失ｌ_cls,iは、総和計算部２３へ入力される。

【0020】

【数1】

【0021】

一方、重み関数計算部２４は、推論部２１が生成したクラススコアｖ^→ _ｉに基づいて、訓練データｘ_ｉに対する重みを計算する。具体的に、重み関数計算部２４は、訓練データｘ_ｉに対する推論結果であるクラススコアｖ^→ _ｉから、以下の式（２）により、単一の実数値である重みｗ_ｉを決定する。

【0022】

【数2】

【0023】

重み関数としては、クラススコアｖ^→ _ｉに含まれる各クラスの信頼度スコアが過大または過少なときに急速に増大する関数が選ばれる。「急速に」とは、線形より早く、という意味である。重み関数の増大が急速であるという条件は、クラススコアｖ^→ _ｉに含まれる過大または過小な信頼度スコアを強調するために必要となる。即ち、急速に増大する関数を用いて重みを計算することにより、クラススコアｖ^→ _ｉが過大または過小な信頼度スコアの値を含む場合、それら過大または過小な値が強調され、重みｗ_ｉはより大きな値となる。これにより、重み関数の選択が、後述する正則化項の勾配に対する各訓練データの重みの寄与度を決定することになる。なお、重み関数計算部２４は、単にクラススコアｖ^→ _ｉに含まれる各クラスの信頼度スコアを重み関数に入力した結果を出力するため、出力される重みｗ_ｉの値は特に正規化された値ではない。重み関数計算部２４は、計算した重みｗ_ｉを重み総和計算部２５へ出力する。

【0024】

重み総和計算部２５は、重みｗ_ｉのミニバッチ分の総和を計算する。ミニバッチとは、所定数（例えばＮ個）の訓練データの集合である。具体的に、重み総和計算部２５は、下記の式（３）により、Ｎ個の訓練データｘ_ｉに対応するＮ個の重みｗ_ｉの総和Ｓを計算する。

【0025】

【数3】

【0026】

重み総和計算部２５は、計算した総和Ｓをリスケール関数計算部２６へ出力する。

【0027】

リスケール関数計算部２６は、入力された総和Ｓに基づき、リスケール関数の計算を行って正規化項Ｌ_regを生成する。具体的に、リスケール関数計算部２６は、以下の式（４）により、正規化項Ｌ_regを生成する。

【0028】

【数4】

【0029】

式（４）において、「ｇ（Ｓ）」はリスケール関数である。リスケール関数ｇ（Ｓ）としては、緩やかに増大する単調増加関数が選ばれる。なお、この緩やかに増大する単調増加関数は、数学的な「緩増加関数」とは異なる。

【0030】

ここで、「緩やかに」とは、線形より遅く、という意味である。リスケール関数ｇ（Ｓ）が緩やかであるという条件は、急速に増大する重み関数によって正則化項の勾配が増大し、その結果、学習が不安定になることを抑制するために必要となる。言い換えると、重み関数により過大または過小な信頼度スコアが強調された重みｗ_ｉをそのまま使うと正則化が強すぎてしまう恐れがあるため、リスケール関数ｇ（Ｓ）を用いて、重みｗ_ｉの全体のスケールを調整している。この点、リスケール関数ｇ（Ｓ）は、重みｗ_ｉを正規化し、全体の正則化の強さを調整していると捉えることもできる。リスケール関数計算部２６は、こうして得られた正規化項Ｌ_regを総和計算部２３へ出力する。

【0031】

総和計算部２３は、損失関数計算部２２から入力される損失ｌ_cls,iと、リスケール関数計算部２６から入力される正規化項Ｌ_regとの総和（以下、「総損失Ｌ」とも呼ぶ。）を計算する。具体的に、総和計算部２３は、下記の式（５）により、損失ｌ_cls,iと正規化項Ｌ_regの和を訓練データ数ｉ個分加算した値を、ミニバッチに含まれる訓練データ数Ｎで除して総損失Ｌを計算する。

【0032】

【数5】

【0033】

そして、総和計算部２３は、得られた総損失Ｌをパラメータ更新部２７へ出力する。

【0034】

パラメータ更新部２７は、入力された総損失Ｌに基づいて推論部２１を最適化する。具体的には、パラメータ更新部２７は、総損失Ｌに基づいて、推論部２１を構成するニューラルネットワークのパラメータを更新する。こうして、推論部２１を構成する深層学習モデルの学習が行われる。

【0035】

以上のように、第１実施形態の学習装置１００によれば、正則化項をミニバッチの単位で計算することにより、各訓練データの正則化項に対する寄与度を適応的に決定することができる。また、学習装置１００は、推論部２１が出力する過大または過小な推論結果を重み関数を用いて強調することで、簡単な訓練データに対しては正則化を強めることで過適合を防ぎ、難しい訓練データに対しては正則化を弱めることで学習の効率を上げることができる。さらに、学習装置１００は、リスケール関数を用いて重みの全体のスケールを調整することで、重み関数を用いて部分的に強調された重みを正規化し、全体の正則化の強さを調整することができる。その結果、訓練データに応じて正則化の強度を適応的に決定し、より高い汎化性能、即ち分類精度を得ることが可能となる。

【0036】

上記の構成において、推論部２１は推論手段の一例であり、損失関数計算部２２は損失計算手段の一例であり、重み関数計算部２４は重み計算手段の一例であり、重み総和計算部２５は重み計算手段の一例であり、リスケール関数計算部２６は正則化項計算手段の一例であり、パラメータ更新部２７は最適化手段の一例である。

【0037】

（関数の例）
図３は、重み関数とリスケール関数の例を示す。第１の例では、重み関数は、クラススコアｖ^→ _ｉに含まれる各クラスの信頼度スコアｖ_icの２乗を、全クラス数ｃにわたり合計する関数である。また、リスケール関数は、重み総和計算部２５が出力する総和Ｓの平方根を計算する関数である。

【0038】

第２の例では、重み関数は、クラススコアｖ^→ _ｉに含まれる各クラスの信頼度スコアｖ_icの２乗の自然対数を全クラス数ｃにわたり合計する関数である。また、リスケール関数は、重み総和計算部２５が出力する総和Ｓの対数を計算する関数である。

【0039】

第３の例では、重み関数は、クラススコアｖ^→ _ｉに含まれる各クラスの正負の信頼度スコアｖ_icの自然対数を、全クラス数ｃにわたり合計する関数である。また、リスケール関数は、重み総和計算部２５が出力する総和Ｓの対数を計算する関数である。

【0040】

（学習処理）
図４は、学習装置１００による学習処理のフローチャートである。この処理は、図１に示すプロセッサ１２が予め用意されたプログラムを実行し、図２に示す各要素として動作することにより実現される。

【0041】

まず、推論部２１は、入力された訓練データｘ_ｉに対する推論を行う（ステップＳ１１）。推論部２１は、推論により得られたクラススコアｖ^→ _ｉを、損失関数計算部２２及び重み関数計算部２４に出力する。損失関数計算部２２は、クラススコアｖ^→ _ｉに基づき、式（１）を用いて損失ｌ_cls,iを計算し、総和計算部２３へ出力する（ステップＳ１２）。

【0042】

次に、重み関数計算部２４は、クラススコアｖ^→ _ｉに基づき、式（２）を用いて重みｗ_ｉを計算し、重み総和計算部２５へ出力する（ステップＳ１３）。次に、重み総和計算部２５は、式（３）によりミニバッチ毎に重みｗ_ｉの総和Ｓを計算し、リスケール関数計算部２６へ出力する（ステップＳ１４）。次に、リスケール関数計算部２６は、リスケール関数を用いて、入力された総和Ｓから正規化項Ｌ_regを計算し、総和計算部２３へ出力する（ステップＳ１５）。なお、ステップＳ１２と、ステップＳ１３～Ｓ１５の処理は、逆の順序で行われてもよく、時間的に並行して行われてもよい。

【0043】

次に、総和計算部２３は、損失関数計算部２２から入力される損失ｌ_cls,iと、リスケール関数計算部２６から入力される正規化項Ｌ_regとに基づき、式（５）を用いて損失の総和（総損失Ｌ）を計算し、パラメータ更新部２７へ出力する（ステップＳ１６）。次に、パラメータ更新部２７は、損失の総和（総損失Ｌ）に基づいて、推論部２１を構成するニューラルネットワークのパラメータを更新する（ステップＳ１７）。

【0044】

次に、学習の終了条件が具備されたか否かが判定される（ステップＳ１８）。終了要件としては、例えば、全ての訓練データが使用されたこと、または、推論部２１の精度が所定の精度に達したこと、などを用いることができる。終了条件が具備されていない場合（ステップＳ１８：Ｎｏ）、処理はステップＳ１１へ戻り、次の訓練データを用いてステップＳ１１～Ｓ１７の処理が行われる。一方、終了条件が具備された場合（ステップＳ１８：Ｙｅｓ）、学習処理は終了する。

【0045】

＜第２実施形態＞
図５は、第２実施形態の学習装置の機能構成を示すブロック図である。学習装置２００は、推論手段２０１と、重み計算手段２０２と、重み総和計算手段２０３と、正則化項計算手段２０４と、最適化手段２０５と、を備える。

【0046】

図６は、第２実施形態の学習装置２００による学習処理のフローチャートである。まず、推論手段２０１は、訓練データに対する推論を行い、クラススコアを出力する（ステップＳ２１）。次に、重み計算手段２０２は、推論手段２０１が出力したクラススコアから、当該クラススコアが過大又は過少なときに線形より急速に増大する重み関数を用いて重みを計算する（ステップＳ２２）。次に、重み総和計算手段２０３は、所定数の訓練データを含むミニバッチにわたって、重みの総和を計算する（ステップＳ２３）。次に、正則化項計算手段２０４は、線形より緩やかに増大する単調増加関数であるリスケール関数を総和に適用し、正則化項を計算する（ステップＳ２４）。そして、最適化手段２０５は、正則化項を含む損失を用いて、推論手段を最適化する（ステップＳ２５）。

【0047】

第２実施形態の学習装置２００によれば、深層学習において、訓練データに応じて正則化の強度を適応的に制御することが可能となる。

【0048】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0049】

（付記１）
推論モデルを用いて訓練データに対する推論を行い、クラススコアを出力する推論手段と、
出力された前記クラススコアから、当該クラススコアが過大又は過少なときに線形より急速に増大する重み関数を用いて重みを計算する重み計算手段と、
所定数の訓練データを含むミニバッチにわたって前記重みの総和を計算する重み総和計算手段と、
線形より緩やかに増大する単調増加関数であるリスケール関数を前記総和に適用して、正則化項を計算する正則化項計算手段と、
前記正則化項を含む総損失を用いて、前記推論モデルを最適化する最適化手段と、
を備える学習装置。

【0050】

（付記２）
前記正則化項計算手段は、前記クラススコアが高い場合に前記正則化項の値を大きくし、前記クラススコアが低い場合に前記正則化項の値を小さくする付記１に記載の学習装置。

【0051】

（付記３）
前記クラススコアと、前記訓練データに対応する正解クラスとに基づいて損失を計算する損失計算手段を備え、
前記総損失は、前記損失と、前記正則化項との和である付記１又は２に記載の学習装置。

【0052】

（付記４）
前記クラススコアは、１つの訓練データに対する各クラスの信頼度スコアを含み、
前記重み関数は、前記各クラスの信頼度スコアの２乗を全クラスにわたり合計する関数であり、
前記リスケール関数は、前記総和の平方根を計算する関数である付記１乃至３のいずれか一項に記載の学習装置。

【0053】

（付記５）
前記クラススコアは、１つの訓練データに対する各クラスの信頼度スコアを含み、
前記重み関数は、前記各クラスの信頼度スコアの２乗の自然対数を全クラスにわたり合計する関数であり、
前記リスケール関数は、前記総和の対数を計算する関数である付記１乃至３のいずれか一項に記載の学習装置。

【0054】

（付記６）
前記クラススコアは、１つの訓練データに対する各クラスの信頼度スコアを含み、
前記重み関数は、前記各クラスの信頼度スコアの自然対数を全クラスにわたり合計する関数であり、
前記リスケール関数は、前記総和の対数を計算する関数である付記１乃至３のいずれか一項に記載の学習装置。

【0055】

（付記７）
推論モデルを用いて訓練データに対する推論を行い、クラススコアを出力し、
出力された前記クラススコアから、当該クラススコアが過大又は過少なときに線形より急速に増大する重み関数を用いて重みを計算し、
所定数の訓練データを含むミニバッチにわたって前記重みの総和を計算し、
線形より緩やかに増大する単調増加関数であるリスケール関数を前記総和に適用して、正則化項を計算し、
前記正則化項を含む総損失を用いて、前記推論モデルを最適化する学習方法。

【0056】

（付記８）
推論モデルを用いて訓練データに対する推論を行い、クラススコアを出力し、
出力された前記クラススコアから、当該クラススコアが過大又は過少なときに線形より急速に増大する重み関数を用いて重みを計算し、
所定数の訓練データを含むミニバッチにわたって前記重みの総和を計算し、
線形より緩やかに増大する単調増加関数であるリスケール関数を前記総和に適用して、正則化項を計算し、
前記正則化項を含む総損失を用いて、前記推論モデルを最適化する処理をコンピュータに実行させるプログラムを記録した記録媒体。

【0057】

以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

【符号の説明】

【0058】

１２プロセッサ
２１推論部
２２損失関数計算部
２３総和計算部
２４重み関数計算部
２５重み総和計算部
２６リスケール関数計算部
２７パラメータ更新部
１００、２００学習装置

【図1】