特許7552401 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7552401機械学習プログラム、装置、及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-09

(45)【発行日】2024-09-18

(54)【発明の名称】機械学習プログラム、装置、及び方法

(51)【国際特許分類】

G06N 3/08 20230101AFI20240910BHJP

【ＦＩ】

G06N3/08

【請求項の数】 8

(21)【出願番号】P 2021017689

(22)【出願日】2021-02-05

(65)【公開番号】P2022120651

(43)【公開日】2022-08-18

【審査請求日】2023-10-12

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】原靖

【審査官】北川純次

(56)【参考文献】

【文献】特開２０１９－０７０９５０（ＪＰ，Ａ）

【文献】特開２０２０－１９１０１７（ＪＰ，Ａ）

【文献】特開２０１９－０７４９４７（ＪＰ，Ａ）

【文献】中国特許出願公開第１１２０１６６６９（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０２－３／１０

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

入力層及び出力層を含む複数の層を含むモデルの深層学習において、学習処理の繰り返し処理毎に、学習の状況を示す情報を取得し、
前記学習の状況を示す情報に基づいて各層の学習の進度を判定し、前記学習の進度が所定の条件を満たす前記入力層から特定の層までの第１の層群に含まれる各層の学習処理の一部をスキップし、
前記第１の層群に含まれる各層の学習処理の一部をスキップしている場合に、前記特定の層の前記出力層側の次の層から前記出力層までの第２の層群に含まれるいずれかの層の前記学習の状況を示す情報に基づく評価値の変化量が所定の閾値範囲を超える場合に、前記第１の層群に含まれる各層においてスキップしている学習処理の一部を再開させる
ことを含む処理をコンピュータに実行させるための機械学習プログラム。

【請求項2】

前記学習処理は、前記入力層から訓練データを入力して前記出力層から出力される出力値と、前記訓練データに対する正解との誤差を算出する第１の処理と、前記誤差の情報を前記出力層から前記入力層に向かって逆伝播して、層間の重みに対する誤差勾配を算出する第２の処理と、算出された前記誤差勾配を用いて、前記層間の重みを更新する第３の処理とを含み、
前記学習処理の一部をスキップする場合は、前記第２の処理及び前記第３の処理をスキップする
請求項１に記載の機械学習プログラム。

【請求項3】

前記学習処理を複数の演算器で処理させる場合、前記複数の演算器の各々で異なる訓練データを用いて前記第１の処理及び前記第２の処理を実行して算出された前記誤差勾配の各々を統合して、前記第３の処理で用いる誤差勾配とする請求項２に記載の機械学習プログラム。

【請求項4】

前記評価値は、層間の重み、誤差勾配、及びモーメンタムの少なくとも１つを用いて表される値である請求項１～請求項３のいずれか１項に記載の機械学習プログラム。

【請求項5】

前記評価値として、前記誤差勾配と前記モーメンタムとの内積を用いる請求項４に記載の機械学習プログラム。

【請求項6】

前記学習の状況を示す情報を取得する処理は、前記学習の繰り返し処理の最小単位である１イタレーション毎に前記学習の状況を示す情報を取得することを含み、
前記評価値の変化量は、現イタレーションで取得された前記学習の状況を示す情報に基づく評価値と１つ前のイタレーションで取得された前記学習の状況を示す情報に基づく評価値との変化量、又は、現イタレーションを含む第１の期間の所定回数分のイタレーションで取得された前記学習の状況を示す情報に基づく評価値の統計値と、前記第１の期間より前の第２の期間の所定回数分のイタレーションで取得された前記学習の状況を示す情報に基づく評価値の統計値との変化量である
請求項１～請求項５のいずれか１項に記載の機械学習プログラム。

【請求項7】

入力層及び出力層を含む複数の層を含むモデルの深層学習において、学習処理の繰り返し処理毎に、学習の状況を示す情報を取得する取得部と、
前記学習の状況を示す情報に基づいて各層の学習の進度を判定し、前記学習の進度が所定の条件を満たす前記入力層から特定の層までの第１の層群に含まれる各層の学習処理の一部をスキップするように設定するスキップ設定部と、
前記第１の層群に含まれる各層の学習処理の一部をスキップしている場合に、前記特定の層の前記出力層側の次の層から前記出力層までの第２の層群に含まれるいずれかの層の前記学習の状況を示す情報に基づく評価値の変化量が所定の閾値範囲を超える場合に、前記第１の層群に含まれる各層においてスキップしている学習処理の一部を再開させるように設定する再開設定部と、
を含む機械学習装置。

【請求項8】

【発明の詳細な説明】

【技術分野】

【0001】

開示の技術は、機械学習プログラム、機械学習装置、及び機械学習方法に関する。

【背景技術】

【0002】

ディープラーニングによって機械学習された多層ニューラルネットワーク等のモデルを使用して、画像認識、音声認識、自然言語処理等の様々な認識処理が行われる。ニューラルネットワークの層数が増えるほど、モデルによる認識精度が向上するため、モデルの大規模化が進む傾向がある。大規模なモデルでは、認識処理等の計算時間が増大する。また、大規模なモデルでは、最適化するパラメータも膨大であるため、機械学習の計算時間も増大する。このような計算時間の削減に関する技術が提案されている。

【0003】

例えば、ニューラルネットワークを使った推定装置において、膨大な回数の計算処理を行うことなく、推定結果の不確かさを表す分散値の計算を高速に行う情報推定装置が提案されている。この装置は、入力データの一部を欠損させるドロップアウト層と、重みの計算を行うＦＣ層又はコンボリューション層との組み合わせからなる一体化層を持つニューラルネットワークに関する。また、このニューラルネットワークは、一体化層の前及び後の少なくとも一方に非線形関数を用いた計算を行う活性化層を持つ。この装置は、このニューラルネットワークにおいて、活性化層に入力される多変量分布に係るデータを参照して、活性化層における計算を経て活性化層から出力される多変量分布の分散値をゼロに設定することができるか否かを判断する。また、この装置は、一体化層で計算を行う際に、データ解析部で分散値をゼロに設定することができると判断された多変量分布に関連した計算をスキップする。

【0004】

また、例えば、1つ以上のスキップ領域を使用して、機械学習モデルにラベルを付けたり、トレーニングしたり、評価したりするための機械学習方法が提案されている。この方法は、機械学習モデルをラベル付け、トレーニング、及び評価するために１つ以上のスキップ領域を使用し、画像に関して１つ以上のスキップ領域を指定することを含む。ここで画像の非スキップ領域は１つ以上のスキップ領域にない画像の一部である。この方法は、さらに、プロセッサによって、画像の非スキップ領域にある１つ以上の特徴のラベリングを開始し、ラベリングから１つ以上のスキップ領域を除外して、部分的にラベル付けされた画像を作成することを含む。ここで、部分的にラベル付けされた画像は、機械学習モデルをトレーニングするためのトレーニングデータセットに含まれている。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１９－７０９５０号公報

【文献】米国特許出願公開第２０１９／０１８８５３８号明細書

【発明の概要】

【発明が解決しようとする課題】

【0006】

モデルの機械学習の計算時間を削減するために、一部の処理をスキップさせた場合、機械学習終了時に到達するモデルの予測精度が低下したり、所望の予測精度を得るために、学習時間が増加したりする場合がある。

【0007】

一つの側面として、開示の技術は、予測精度の低下や学習時間の増加を招く不適切な学習処理のスキップを回避することを目的とする。

【課題を解決するための手段】

【0008】

一つの態様として、開示の技術は、学習処理の繰り返し処理毎に、学習の状況を示す情報を取得する。また、開示の技術は、前記学習の状況を示す情報に基づいて各層の学習の進度を判定し、前記学習の進度が所定の条件を満たす前記入力層から特定の層までの第１の層群に含まれる各層の学習処理の一部をスキップする。そして、開示の技術は、前記第１の層群に含まれる各層の学習処理の一部をスキップしている場合に、以下の処理を実行する。まず、開示の技術は、前記特定の層の前記出力層側の次の層から前記出力層までの第２の層群に含まれるいずれかの層の前記学習の状況を示す情報に基づく評価値の変化量が所定の閾値範囲を超えているか否かを判定する。そして、開示の技術は、評価値の変化量が閾値範囲を超えている場合に、前記第１の層群に含まれる各層においてスキップしている学習処理の一部を再開させる。

【発明の効果】

【0009】

一つの側面として、予測精度の低下や学習時間の増加を招く不適切な学習処理のスキップを回避することができる、という効果を有する。

【図面の簡単な説明】

【0010】

【図1】機械学習装置の機能ブロック図である。

【図2】モデルの一例を示す概略図である。

【図3】学習処理を説明するための図である。

【図4】評価値ＤＢの一例を示す図である。

【図5】学習の進度に応じた学習処理のスキップを説明するための図である。

【図6】学習処理のスキップを説明するための図である。

【図7】学習処理のスキップなしの場合、及びスキップありの場合の、所定の層におけるエポック毎の評価値を示す概略図である。

【図8】評価値の変化量の算出を説明するための図ある。

【図9】評価値の変化量と比較する閾値範囲を説明するための図である。

【図10】評価値の変化量と比較する閾値範囲を説明するための図である。

【図11】評価値の変化量が閾値範囲を超えているか否かの判定の他の方法について説明するための図である。

【図12】機械学習装置として機能するコンピュータの概略構成を示すブロック図である。

【図13】学習処理の一例を示すフローチャートである。

【図14】スキップ設定処理の一例を示すフローチャートである。

【図15】再開設定処理の一例を示すフローチャートである。

【図16】再開設定処理の概略を説明するための図である。

【図17】本手法についての誤差勾配の一例を示す図である。

【図18】本手法と、スキップなし及び再開なしの比較手法との精度評価の比較結果の一例を示す図である。

【図19】機械学習装置のハードウェア構成の他の例を示すブロック図である。

【発明を実施するための形態】

【0011】

以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。

【0012】

図１に示すように、機械学習装置１０は、機能的には、学習処理部１２と、取得部１４と、スキップ設定部１６と、再開設定部１８とを含む。また、機械学習装置１０の所定の記憶領域には、モデル２２と、訓練データＤＢ（Database）２４と、評価値ＤＢ２６とが記憶される。

【0013】

モデル２２は、機械学習の対象のモデルであり、ここでは、図２に概略的に示すように、入力層、隠れ層、及び出力層を含むニューラルネットワークである。モデル２２の各層には、１以上のニューロン（図２中の丸）が含まれる。隠れ層及び出力層のニューロンは、内部に活性化関数を持つ。また、層間で接続されたニューロン間には、接続の強さを示す重みが設定されている。

【0014】

訓練データＤＢ２４には、モデル２２の機械学習に用いられる複数の訓練データが記憶されている。訓練データは、モデル２２に入力されるデータであり、その訓練データに対するモデル２２の出力値の正解を示すラベルが付与されたデータである。

【0015】

学習処理部１２は、訓練データを用いてモデル２２の機械学習を実行し、モデル２２に含まれる重みを最適化する。学習処理部１２は、第１の処理、第２の処理、及び第３の処理を含む学習処理を実行する。具体的には、図３に示すように、学習処理部１２は、第１の処理として、入力層から訓練データを入力して出力層から出力される出力値と、訓練データに付与されたラベルが示す正解との誤差を算出する処理を実行する（図３中の「Forward Propagation」）。より具体的には、入力層の各ニューロンに入力された訓練データの値に、次の層のニューロンとの間の重みが乗算された値が、次の層のニューロンに入力される。次の層のニューロンからは、入力された値に活性化関数を適用した値が出力され、次の層のニューロンへの入力となる。このように値が順伝播され、最終的に出力層の各ニューロンから出力値が出力される。学習処理部１２は、誤差として、例えば、この出力値とラベルが示す値との二乗和誤差を算出する。

【0016】

また、学習処理部１２は、第２の処理として、第１の処理で算出した誤差の情報を出力層から入力層に向かって逆伝播して、各重みに対する誤差勾配を算出する処理を実行する（図３中の「Backward Propagation」及び「誤差勾配算出」）。誤差勾配は、重みを単位量だけ更新した場合の誤差の変化量の推定値である。また、学習処理部１２は、第３の処理として、第２の処理で算出した誤差勾配を用いて、層間の重みを更新する処理を実行する（図３中の「重み更新」）。

【0017】

取得部１４は、学習処理部１２による学習処理の繰り返し処理毎に、学習の状況を示す情報を取得する。具体的には、取得部１４は、学習処理部１２による学習処理の過程で得られる重み、誤差勾配、及びモーメンタムを、学習処理の繰り返し処理の最小単位である１イタレーション毎に取得し、評価値ＤＢ２６に記憶する。モーメンタムは、モーメンタム法を用いた勾配降下法で用いられる係数であり、誤差勾配の移動平均である。図４に、評価値ＤＢ２６の一例を示す。図４の例では、「ｗ」は重み、「ｇ」は誤差勾配、「ｍ」はモーメンタムである。また、「層」は、重みがどの層間の重みであるかを識別するための情報であり、ここでは、入力層とその次の層との間を１とし、以降２、３、・・・としている。

【0018】

ここで、学習処理は繰り返し実行されることで、重みの最適化、すなわち学習が進む。学習の進度は、例えば、イタレーション間での重みの差分や誤差勾配の大きさで表すことができる。この場合、重みの差分や誤差勾配が小さいほど、学習が進んでいることを表す。図５に示すように、学習処理の初期の段階では、各層の重みの学習はまだ進んでいない状態である。学習処理のイタレーションが進むに従い、学習も進む。そして、図５の一点鎖線で示す層のように、一部の層では、重みの差分や誤差勾配が小さく、さらなる学習の必要がない場合もあり得る。

【0019】

そこで、スキップ設定部１６は、評価値ＤＢ２６に記憶された情報に基づいて各層の学習の進度を判定し、学習の進度が所定の条件を満たす、入力層から特定の層までの第１の層群に含まれる各層の学習処理の一部をスキップするように設定する。ここでは、学習の進度として、イタレーション間での重みの差分を用いる場合について説明する。具体的には、スキップ設定部１６は、評価値ＤＢ２６から、現イタレーションでの重みと、直前のイタレーションでの重みとを取得し、両重みの差分を算出する。スキップ設定部１６は、入力層から順に連続して、算出した重みの差分が所定の閾値以下となる層のうち、最も出力層側の層を特定の層として決定する。そして、スキップ設定部１６は、入力層から特定の層までの第１の層群に含まれる各層に、例えば、学習処理の一部をスキップすることを示すフラグを立てるなどして、第１の層群に含まれる各層に対して、学習処理の一部をスキップするように設定する。

【0020】

スキップが設定された層は、学習処理部１２による学習処理において、第２の処理がスキップされる。第２の処理がスキップされることにより、各層の誤差勾配が算出されないため、第３の処理もスキップされることになる。すなわち、第１の層群に含まれる各層については、学習処理の第１の処理のみが実行され、特定の層の出力層側の次の層から出力層までの第２の層群に含まれる各層については、第１の処理、第２の処理、及び第３の処理が実行される。

【0021】

具体的には、図６に示す例において、スキップ設定部１６は、入力層側から３番目の層を特定の層（図６中のＬｎ）として決定したとする。この場合、Ｌｎ－２、Ｌｎ－１、及びＬｎが第１の層群、Ｌｎ＋１、Ｌｎ＋２、Ｌｎ＋３、及びＬｎ＋４が第２の層群となる。この場合、全層に対してForward Propagationが実行され、誤差が算出される。そして、Backward Propagationによる誤差の逆伝播は、Ｌｎ＋１までしか実行されない。したがって、第２の層群に含まれる各層については、誤差勾配が算出され、重みが更新される。一方、第１の層群については、誤差勾配の算出及び重みの更新は実行されない。

【0022】

これにより、図５に示すように、各イタレーションで、第１の層群に含まれる各層の第２の処理及び第３の処理分の計算量が削減される。そして、１エポック分では、スキップが設定されて以降のイタレーションにおける削減分の積み重ね分が削減される。

【0023】

上記のように、一部の層について、学習処理の一部をスキップするように設定した場合、機械学習終了時に到達するモデルの予測精度が低下したり、所望の予測精度を得るために、学習時間が増加したりする場合がある。具体的には、スキップが適切なタイミングで設定され、かつスキップを設定する層として適切な層が選択されている場合には、早く目的の精度に到達することが可能になる。一方、スキップを設定するタイミング及び層の選択が適切ではない場合には、スキップを設定した層より後の層、すなわち第２の層群の学習処理に影響が発生する場合がある。そして、その影響の度合いが大きい場合には、最終到達精度の低下や計算時間が増加してしまう問題がある。

【0024】

図７を参照して、より具体的な例で説明する。図７は、モデル２２としてＲｅｓＮｅｔ（Residual Network）５０を用いた場合の、所定の層におけるエポック毎の評価値（詳細は後述）を示す概略図である。上段は、スキップを設定しない場合であり、下段は、１０エポック目に入力層から３３層目までにスキップを設定した場合である。また、上段及び下段とも、左図は、４２層目（Convolution層）についての評価値、右図は、３４層目（Bach Normalization層）についての評価値である。なお、詳細は後述するが、４２層目については、評価値として、誤差勾配ｇとモーメンタムｍとの内積（以下、「内積（ｇ×ｍ）」と表記する）を用い、３４層目については、誤差勾配ｇのＬ２ノルム（以下、「ｇ＿ノルム」と表記する）を用いた例を示している。

【0025】

図７に示すように、スキップを設定した３３層目の直後の３４層目、及び３３層目からは離れた４２層目のいずれの場合も、スキップを設定した１０エポック目の直後に評価値の大きな変動がみられる。このように、評価値の変化量が大きい場合には、スキップを設定しない場合に比べて、最終到達精度が低下したり、計算時間が増加したりする場合がある。

【0026】

そこで、再開設定部１８は、第１の層群に含まれる各層の学習処理の一部をスキップしている場合に、第２の層群に含まれるいずれかの層の評価値の変化量が所定の閾値範囲を超えているか否かを判定する。そして、再開設定部１８は、いずれかの層の評価値の変化量が所定の閾値範囲を超えている場合に、第１の層群に含まれる各層においてスキップしている学習処理の一部を再開させる。

【0027】

具体的には、再開設定部１８は、評価値ＤＢ２６に記憶された情報に基づいて、イタレーション毎に、各層についての評価値を算出する。評価値は、機械学習されたモデル２２の最終到達精度や、所望の精度を得るために要する学習時間を推定可能な値とする。具体的には、再開設定部１８は、重みｗ、誤差勾配ｇ、及びモーメンタムｍの各々をそのまま評価値として用いてもよいし、重みｗ、誤差勾配ｇ、及びモーメンタムｍの少なくとも１つを用いて評価値を算出してもよい。例えば、再開設定部１８は、内積（ｇ×ｍ）、ｇ＿ノルム等を評価値として算出してよい。

【0028】

また、再開設定部１８は、学習処理の経過に伴う評価値の変化量を算出する。具体的には、再開設定部１８は、現イタレーションを含む第１の期間の所定回数分のイタレーションについて算出した評価値の統計値と、第１の期間より前の第２の期間の所定回数分のイタレーションについて算出された評価値の統計値との変化量を算出する。すなわち、再開設定部１８は、イタレーションの所定回数毎に、層毎の評価値の変化量を算出する。所定回数は、例えば、１００イタレーション、１エポック分のイタレーション数等としてよい。なお、所定回数を１回とした場合は、再開設定部１８は、現イタレーションについての評価値と１つ前のイタレーションについての評価値との変化量を算出することになる。また、統計値は、平均、最大値、最小値、中央値等である。以下では、統計値として平均を用いる場合について説明する。

【0029】

図８を参照して、１０エポック目でスキップを設定し、評価値として内積（ｇ×ｍ）を用い、１エポック毎に評価値の変化量を算出する場合について説明する。例えば、再開設定部１８は、各エポックの終了時点で、そのエポックに含まれる各イタレーションについて算出した評価値を平均した平均評価値を算出する。そして、再開設定部１８は、例えば、ｎ（例えば、１２）エポック目に算出した平均評価値と、ｎ－１（例えば、１１）エポック目に算出した平均評価値との差を、評価値の変化量として算出する。図８のＰに示す部分が、ｎエポック目の評価値の変化量に相当する。再開設定部１８は、いずれかの層において、上記のように算出した評価値の変化量が、予め定めた閾値範囲を超える場合に、スキップの設定を解除し、第１の層群の学習処理を再開させるように設定する。例えば、再開設定部１８は、スキップ設定部１６により立てられた、学習処理の一部をスキップすることを示すフラグをおろすことにより、スキップの設定を解除する。

【0030】

ここで、評価値の変化量と比較する閾値範囲の適切な設定方法について、具体的な値を使った一例を示して説明する。図９を参照して、評価値として内積（ｇ×ｍ）を用い、１００イタレーション毎に評価値の変化量を算出する場合について説明する。すなわち、図９に示す内積（ｇ×ｍ）は、１００イタレーション分の内積（ｇ×ｍ）を平均した値である。図９下図は、図９上図の破線の丸で示す部分を含む一部拡大図である。図１０に、図９に示すＰｏｉｎｔ１～４の各々における評価値、及び評価値の変化量を示す。例えば、Ｐｏｉｎｔ１からＰｏｉｎｔ２への内積（ｇ×ｍ）の変化は、その後の学習処理の精度悪化や学習時間の増加等の影響を与えるものとする。一方、Ｐｏｉｎｔ３からＰｏｉｎｔ４への内積（ｇ×ｍ）の変化は、そのような影響を与えないものとする。この場合、Ｐｏｉｎｔ２の場合、評価値の変化量が閾値範囲を超えたと判定され、Ｐｏｉｎｔ４の場合、評価値の変化量が閾値範囲内であると判定されることが望ましい。したがって、閾値範囲としては、例えば、０．１５～０．２の値に設定してよい。

【0031】

図１１を参照して、評価値の変化量が閾値範囲を超えているか否かの判定の他の方法について説明する。図１１の例では、１０エポック目でスキップを設定し、評価値としてｇ＿ノルムを用い、１エポック毎に評価値の変化量が閾値範囲を超えているか否かを判定する場合について説明する。再開設定部１８は、例えば、ｎエポック目に算出した平均評価値の微分値の符号が、ｎ－１エポック目に算出した平均評価値の微分値の符号から反転している場合に、評価値の変化量が閾値範囲を超えたと判定してよい。図１１の例では、１０エポック目の平均評価値の微分値の符号はマイナスであり、１１エポック目の平均評価値の微分値の符号はプラスであることを表している。この場合、再開設定部１８は、１１エポック目において、評価値の変化量が閾値範囲を超えたと判定する。

【0032】

また、再開設定部１８は、各層について、複数種類の評価値を算出し、それぞれの評価値について、評価値の変化量が閾値範囲を超えるか否かを判定し、少なくとも１種類の評価値の変化量が閾値を超えている場合に、学習処理の再開を設定するようにしてもよい。なお、内積（ｇ×ｍ）は、学習処理に問題が生じていない場合には、学習が進むにつれて単純減少すると共に、学習処理に問題が生じた場合の変化量が捉え易い指標であるため、本実施形態の評価値として有用である。

【0033】

機械学習装置１０は、例えば図１２に示すコンピュータ４０で実現することができる。コンピュータ４０は、ＣＰＵ（Central Processing Unit）４１と、一時記憶領域としてのメモリ４２と、不揮発性の記憶部４３とを備える。また、コンピュータ４０は、入力部、表示部等の入出力装置４４と、記憶媒体４９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）部４５とを備える。また、コンピュータ４０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）４６を備える。ＣＰＵ４１、メモリ４２、記憶部４３、入出力装置４４、Ｒ／Ｗ部４５、及び通信Ｉ／Ｆ４６は、バス４７を介して互いに接続される。

【0034】

記憶部４３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部４３には、コンピュータ４０を、機械学習装置１０として機能させるための機械学習プログラム５０が記憶される。機械学習プログラム５０は、学習処理プロセス５２と、取得プロセス５４と、スキップ設定プロセス５６と、再開設定プロセス５８とを有する。また、記憶部４３は、訓練データＤＢ２４、モデル２２、及び評価値ＤＢ２６の各々を構成する情報が記憶される情報記憶領域６０を有する。

【0035】

ＣＰＵ４１は、機械学習プログラム５０を記憶部４３から読み出してメモリ４２に展開し、機械学習プログラム５０が有するプロセスを順次実行する。ＣＰＵ４１は、学習処理プロセス５２を実行することで、図１に示す学習処理部１２として動作する。また、ＣＰＵ４１は、取得プロセス５４を実行することで、図１に示す取得部１４として動作する。また、ＣＰＵ４１は、スキップ設定プロセス５６を実行することで、図１に示すスキップ設定部１６として動作する。また、ＣＰＵ４１は、再開設定プロセス５８を実行することで、図１に示す再開設定部１８として動作する。また、ＣＰＵ４１は、情報記憶領域６０から情報を読み出して、訓練データＤＢ２４、モデル２２、及び評価値ＤＢ２６の各々をメモリ４２に展開する。これにより、機械学習プログラム５０を実行したコンピュータ４０が、機械学習装置１０として機能することになる。なお、プログラムを実行するＣＰＵ４１はハードウェアである。

【0036】

なお、機械学習プログラム５０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）等で実現することも可能である。

【0037】

次に、本実施形態に係る機械学習装置１０の作用について説明する。モデル２２の機械学習が指示されると、機械学習装置１０が、図１３に示す学習処理、及び図１４に示すスキップ設定処理を実行する。また、いずれかの層にスキップが設定されると、機械学習装置１０が、図１５に示す再開設定処理を実行する。なお、学習処理、スキップ設定処理、及び再開設定処理は、開示の技術の機械学習方法の一例である。以下、学習処理、スキップ設定処理、及び再開設定処理の各々について詳述する。

【0038】

まず、図１３に示す学習処理について説明する。

【0039】

ステップＳ１２で、学習処理部１２が、イタレーションの回数を示す変数ｉに１を設定する。次に、ステップＳ１４で、学習処理部１２が、ｉイタレーション目の学習処理を開始する。

【0040】

次に、ステップＳ１６で、学習処理部１２が、モデル２２に含まれる各層のうち、スキップが設定されている層が存在するか否かを判定する。スキップが設定されている層が存在する場合には、処理はステップＳ１８へ移行し、いずれの層にもスキップが設定されていない場合には、処理はステップＳ２０へ移行する。ステップＳ１８では、学習処理部１２が、スキップが設定されている第１の層群（図６の例では、Ｌｎより入力側）についての、第２の処理及び第３の処理をスキップして、学習処理を実行する。すなわち、第１の層群については、Forward Propagationによる誤差の算出処理が実行され、Backward Propagationによる誤差勾配の算出処理、及び重みの更新がスキップされる。また、第２の層群（図６の例では、Ｌｎ＋１より出力側）については、全ての学習処理が実行される一方、ステップＳ２０では、学習処理部１２が、全ての層について、全ての学習処理を実行する。

【0041】

次に、ステップＳ２２で、取得部１４が、上記ステップＳ１８又はＳ２０の処理過程で得られる各層の重みｗ、誤差勾配ｇ、及びモーメンタムｍを取得し、評価値ＤＢ２６に記憶する。

【0042】

次に、ステップＳ２４で、学習処理部１２が、ｉを１インクリメントする。次に、ステップＳ２６で、学習処理部１２が、ｉが、イタレーション回数の上限値ｉｍａｘを超えたか否かを判定する。ｉ≦ｉｍａｘの場合には、処理はステップＳ１４に戻り、ｉ＞ｉｍａｘの場合には、学習処理は終了する。

【0043】

次に、図１４に示すスキップ設定処理について説明する。

【0044】

ステップＳ３２で、スキップ設定部１６が、イタレーションの回数を示す変数ｉに１を設定する。次に、ステップＳ３４で、スキップ設定部１６が、ｉが１を超えているか否かを判定する。ｉ＞１の場合には、処理はステップＳ３６へ移行し、ｉ≦１の場合には、処理はステップＳ４２へ移行する。

【0045】

ステップＳ３６では、スキップ設定部１６が、評価値ＤＢ２６から、各層についての、ｉイタレーション目及びｉ－１イタレーション目の重みｗを取得し、学習の進度を示す指標として、重みの差分を算出する。

【0046】

次に、ステップＳ３８で、スキップ設定部１６が、上記ステップＳ３６で算出した重みの差分が閾値ＴＨ１以上の層が存在するか否かを判定する。重みの差分が閾値ＴＨ１以上の層が存在する場合には、処理はステップＳ４０へ移行し、存在しない場合には、処理はステップＳ４２へ移行する。ステップＳ４０では、スキップ設定部１６が、入力層から順に連続して、算出した重みの差分が閾値ＴＨ１以下となる層のうち、最も出力層側の層を特定の層Ｌｎとして決定する。そして、スキップ設定部１６が、入力層から特定の層までの第１の層群に含まれる各層に対して、学習処理の一部をスキップするように設定する。

【0047】

次に、ステップＳ４２で、スキップ設定部１６が、ｉを１インクリメントする。次に、ステップＳ４４で、スキップ設定部１６が、ｉが、イタレーション回数の上限値ｉｍａｘを超えたか否かを判定する。ｉ≦ｉｍａｘの場合には、処理はステップＳ３４に戻り、ｉ＞ｉｍａｘの場合には、スキップ設定処理は終了する。

【0048】

次に、図１５に示す再開設定処理について説明する。

【0049】

ステップＳ５２で、再開設定部１８が、評価値の変化量が閾値範囲ＴＨ２を超えているか否かを判定するポイントを示す変数ｎにＮを設定する。このポイントは、所定回数ｋ（ｋは、例えば、１００回、１エポック分のイタレーション数等）回分のイタレーション毎に設定される。Ｎは、スキップが設定された時点で終了しているポイント数である。例えば、１００イタレーション毎に判定を行う場合で、５００イタレーション目でスキップが設定されている場合、ｋ＝１００、Ｎ＝５である。

【0050】

次に、ステップＳ５４で、再開設定部１８が、評価値ＤＢ２６に、ｉ＝ｎ×ｋとなるｉイタレーション目の重みｗ、誤差勾配ｇ、及びモーメンタムｍが記憶されているか否かを判定する。すなわち、再開設定部１８は、ｎポイント目の平均評価値を算出可能なｋ回分のイタレーションについて、重みｗ、誤差勾配ｇ、及びモーメンタムｍが記憶されているか否かを判定する。各情報が評価値ＤＢ２６に記憶されている場合には、処理はステップＳ５６へ移行し、記憶されていない場合には、本ステップの判定を繰り返す。

【0051】

ステップＳ５６では、再開設定部１８が、（ｎ－１）×ｋイタレーションからｎ×ｋイタレーションまでの各イタレーションについて評価値を算出し、算出した評価値を平均した平均評価値をｎポイント目の評価値として算出する。そして、再開設定部１８が、ｎポイント目に算出した評価値と、ｎ－１ポイント目に算出した評価値との差を、評価値の変化量として算出する。

【0052】

次に、ステップＳ５８で、再開設定部１８が、上記ステップＳ５６で算出した評価値の変化量が、予め定めた閾値範囲Ｔ２を超えているか否かを判定する。評価値の変化量が閾値範囲ＴＨ２を超えている場合には、処理はステップＳ６０へ移行し、閾値範囲ＴＨ２内の場合には、処理はステップＳ６２へ移行する。ステップＳ６０では、再開設定部１８が、スキップの設定を解除し、第１の層群の学習処理を再開させるように設定する。

【0053】

ステップＳ６２では、再開設定部１８が、ｎを１インクリメントする。次に、ステップＳ６４で、再開設定部１８が、ｎが、ポイントの上限値ｎｍａｘ（ｎｍａｘ＝ｉｍａｘ／ｋ）を超えたか否かを判定する。ｎ≦ｎｍａｘの場合には、処理はステップＳ５４に戻り、ｎ＞ｎｍａｘの場合には、再開設定処理は終了する。

【0054】

図１６に示すように、モデル２２の第１の層群において、学習処理の一部がスキップされている場合に、上記再開設定処理が実行されることにより、第２の層群のいずれかの層で、評価値の変化量Ｐが閾値範囲ＴＨ２を超えているか否かが判定される。そして、Ｐ＞ＴＨ２の場合には、第１の層群でスキップされていた学習処理の一部が再開される。

【0055】

以上説明したように、本実施形態に係る機械学習装置は、入力層及び出力層を含む複数の層を含むモデルの深層学習において、学習処理の繰り返し処理毎に、例えば、重み、誤差勾配、モーメンタム等の、学習の状況を示す情報を取得する。また、機械学習装置は、学習の状況を示す情報に基づいて各層の学習の進度を判定し、学習の進度が所定の条件を満たす入力層から特定の層までの第１の層群に含まれる各層の学習処理の一部をスキップするように設定する。具体的には、Backward Propagationによる誤差勾配の算出及び重みの更新がスキップされる。そして、学習処理部は、第１の層群に含まれる各層の学習処理の一部をスキップしている場合に、特定の層の出力層側の次の層から出力層までの第２の層群に含まれるいずれかの層の評価値の変化量が所定の閾値範囲を超えているか否かを判定する。評価値は、学習の状況を示す情報に基づいて算出される。機械学習装置は、評価値の変化量が所定の閾値範囲を超える場合に、第１の層群に含まれる各層においてスキップしている学習処理の一部を再開させる。

【0056】

このように、本実施形態に係る機械学習装置は、評価値の変化量に基づいて、スキップが設定された層より出力側の層の学習処理において、予測精度の低下や学習時間の増加を招く状況が発生しているか否かを判定する。これにより、本実施形態に係る機械学習装置は、予測精度の低下や学習時間の増加を招く不適切な学習処理のスキップを回避することができる。

【0057】

ここで、本実施形態における手法（以下、「本手法」という）と、２つの比較例とで、精度評価を比較した結果について説明する。１つ目の比較例は、スキップの設定を行わない手法（以下、「スキップなし」という）であり、２つ目の比較例は、スキップの設定は行うが、再開の設定は行わない手法（以下、「再開なし」という）である。いずれの手法も、モデルとしてＲｅｓＮｅｔ５０を用い、１エポック毎に評価値の変化量の判定を行った。また、本手法及び再開なしについては、４０エポック目で３３層目までの各層にスキップを設定した。また、本手法では、スキップを設定した１エポック後に、学習処理を再開した。図１７に、本手法についての、エポック毎のｇ＿ノルムを示す。

【0058】

図１８に示すように、本手法（破線）は、スキップなし（一点鎖線）の場合には及ばないまでも、再開なし（実線）の場合に比べ、精度評価が大きく上回っている。これは、本手法が、不適切なステップを回避できたことを表す。

【0059】

なお、上記実施形態において、学習処理を複数の演算器で処理させてもよい。この場合、機械学習装置は、図１９に示すようなハードウェア構成のコンピュータ２１０で実現することができる。コンピュータ２１０は、ＣＰＵ４１、メモリ４２、記憶部４３、入出力装置４４、Ｒ／Ｗ部４５、通信Ｉ／Ｆ４６に加え、複数（図１９の例では４個）のＧＰＵ（Graphics Processing Unit）７１Ａ、７１Ｂ、７１Ｃ、７１Ｄ、及びＧＰＵメモリ７２を含む。上記各要素は、バス４７を介して互いに接続される。以下、ＧＰＵ７１Ａ、７１Ｂ、７１Ｃ、７１Ｄを区別なく説明する場合には、単に「ＧＰＵ７１」と表記する。

【0060】

この場合、ＣＰＵ４１は、ＧＰＵメモリ７２にモデル２２を記憶し、各ＧＰＵ７１に各々異なる訓練データを入力する。各ＧＰＵ７１は、入力された訓練データを用いて、第１の処理（Forward Propagationによる誤差の算出）及び第２の処理（Backward Propagationによる誤差勾配の算出）を実行する。そして、各ＧＰＵ７１で算出された誤差勾配の各々を、例えば、ＡｌｌＲｅｄｕｃｅ等によりＧＰＵ７１間で通信を行うことにより統合して、各ＧＰＵ７１が第３の処理（重みの更新）を実行する際に用いる共通の誤差勾配を演算する。

【0061】

この構成によれば、学習処理をスキップした第１の層群に含まれる各層についての、各ＧＰＵ７１での誤差勾配の算出及び重みの更新に関する計算量を削減することができる。また、各ＧＰＵ７１で計算された誤差勾配を統合するための、ＧＰＵ７１間の通信量を削減することができる。

【0062】

また、上記実施形態では、機械学習プログラムが記憶部に予め記憶（インストール）されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供することも可能である。

【0063】

以上の実施形態に関し、さらに以下の付記を開示する。

【0064】

（付記１）
入力層及び出力層を含む複数の層を含むモデルの深層学習において、学習処理の繰り返し処理毎に、学習の状況を示す情報を取得し、
前記学習の状況を示す情報に基づいて各層の学習の進度を判定し、前記学習の進度が所定の条件を満たす前記入力層から特定の層までの第１の層群に含まれる各層の学習処理の一部をスキップし、
前記第１の層群に含まれる各層の学習処理の一部をスキップしている場合に、前記特定の層の前記出力層側の次の層から前記出力層までの第２の層群に含まれるいずれかの層の前記学習の状況を示す情報に基づく評価値の変化量が所定の閾値範囲を超える場合に、前記第１の層群に含まれる各層においてスキップしている学習処理の一部を再開させる
ことを含む処理をコンピュータに実行させるための機械学習プログラム。

【0065】

（付記２）
前記学習処理は、前記入力層から訓練データを入力して前記出力層から出力される出力値と、前記訓練データに対する正解との誤差を算出する第１の処理と、前記誤差の情報を前記出力層から前記入力層に向かって逆伝播して、層間の重みに対する誤差勾配を算出する第２の処理と、算出された前記誤差勾配を用いて、前記層間の重みを更新する第３の処理とを含み、
前記学習処理の一部をスキップする場合は、前記第２の処理及び前記第３の処理をスキップする
付記１に記載の機械学習プログラム。

【0066】

（付記３）
前記学習処理を複数の演算器で処理させる場合、前記複数の演算器の各々で異なる訓練データを用いて前記第１の処理及び前記第２の処理を実行して算出された前記誤差勾配の各々を統合して、前記第３の処理で用いる誤差勾配とする付記２に記載の機械学習プログラム。

【0067】

（付記４）
前記評価値は、層間の重み、誤差勾配、及びモーメンタムの少なくとも１つを用いて表される値である付記１～付記３のいずれか１項に記載の機械学習プログラム。

【0068】

（付記５）
前記評価値として、前記誤差勾配と前記モーメンタムとの内積を用いる付記４に記載の機械学習プログラム。

【0069】

（付記６）
前記学習の状況を示す情報を取得する処理は、前記学習の繰り返し処理の最小単位である１イタレーション毎に前記学習の状況を示す情報を取得することを含み、
前記評価値の変化量は、現イタレーションで取得された前記学習の状況を示す情報に基づく評価値と１つ前のイタレーションで取得された前記学習の状況を示す情報に基づく評価値との変化量、又は、現イタレーションを含む第１の期間の所定回数分のイタレーションで取得された前記学習の状況を示す情報に基づく評価値の統計値と、前記第１の期間より前の第２の期間の所定回数分のイタレーションで取得された前記学習の状況を示す情報に基づく評価値の統計値との変化量である
付記１～付記５のいずれか１項に記載の機械学習プログラム。

【0070】

（付記７）
入力層及び出力層を含む複数の層を含むモデルの深層学習において、学習処理の繰り返し処理毎に、学習の状況を示す情報を取得する取得部と、
前記学習の状況を示す情報に基づいて各層の学習の進度を判定し、前記学習の進度が所定の条件を満たす前記入力層から特定の層までの第１の層群に含まれる各層の学習処理の一部をスキップするように設定するスキップ設定部と、
前記第１の層群に含まれる各層の学習処理の一部をスキップしている場合に、前記特定の層の前記出力層側の次の層から前記出力層までの第２の層群に含まれるいずれかの層の前記学習の状況を示す情報に基づく評価値の変化量が所定の閾値範囲を超える場合に、前記第１の層群に含まれる各層においてスキップしている学習処理の一部を再開させるように設定する再開設定部と、
を含む機械学習装置。

【0071】

（付記８）
前記学習処理は、前記入力層から訓練データを入力して前記出力層から出力される出力値と、前記訓練データに対する正解との誤差を算出する第１の処理と、前記誤差の情報を前記出力層から前記入力層に向かって逆伝播して、層間の重みに対する誤差勾配を算出する第２の処理と、算出された前記誤差勾配を用いて、前記層間の重みを更新する第３の処理とを含み、
前記スキップ設定部は、前記第２の処理及び前記第３の処理をスキップするように設定する
付記７に記載の機械学習装置。

【0072】

（付記９）
前記学習処理を複数の演算器で処理させる場合、前記複数の演算器の各々で異なる訓練データを用いて前記第１の処理及び前記第２の処理を実行して算出された前記誤差勾配の各々を統合して、前記第３の処理で用いる誤差勾配とする付記８に記載の機械学習装置。

【0073】

（付記１０）
前記評価値は、層間の重み、誤差勾配、及びモーメンタムの少なくとも１つを用いて表される値である付記７～付記９のいずれか１項に記載の機械学習装置。

【0074】

（付記１１）
前記再開設定部は、前記評価値として、前記誤差勾配と前記モーメンタムとの内積を用いる付記１０に記載の機械学習装置。

【0075】

（付記１２）
前記取得部は、前記学習の繰り返し処理の最小単位である１イタレーション毎に前記学習の状況を示す情報を取得し、
前記再開設定部は、前記評価値の変化量として、現イタレーションで取得された前記学習の状況を示す情報に基づく評価値と１つ前のイタレーションで取得された前記学習の状況を示す情報に基づく評価値との変化量、又は、現イタレーションを含む第１の期間の所定回数分のイタレーションで取得された前記学習の状況を示す情報に基づく評価値の統計値と、前記第１の期間より前の第２の期間の所定回数分のイタレーションで取得された前記学習の状況を示す情報に基づく評価値の統計値との変化量を算出する
付記７～付記１１のいずれか１項に記載の機械学習装置。

【0076】

（付記１３）
入力層及び出力層を含む複数の層を含むモデルの深層学習において、学習処理の繰り返し処理毎に、学習の状況を示す情報を取得し、
前記学習の状況を示す情報に基づいて各層の学習の進度を判定し、前記学習の進度が所定の条件を満たす前記入力層から特定の層までの第１の層群に含まれる各層の学習処理の一部をスキップし、
前記第１の層群に含まれる各層の学習処理の一部をスキップしている場合に、前記特定の層の前記出力層側の次の層から前記出力層までの第２の層群に含まれるいずれかの層の前記学習の状況を示す情報に基づく評価値の変化量が所定の閾値範囲を超える場合に、前記第１の層群に含まれる各層においてスキップしている学習処理の一部を再開させる
ことを含む処理をコンピュータが実行する機械学習方法。

【0077】

（付記１４）
前記学習処理は、前記入力層から訓練データを入力して前記出力層から出力される出力値と、前記訓練データに対する正解との誤差を算出する第１の処理と、前記誤差の情報を前記出力層から前記入力層に向かって逆伝播して、層間の重みに対する誤差勾配を算出する第２の処理と、算出された前記誤差勾配を用いて、前記層間の重みを更新する第３の処理とを含み、
前記学習処理の一部をスキップする場合は、前記第２の処理及び前記第３の処理をスキップする
付記１３に記載の機械学習方法。

【0078】

（付記１５）
前記学習処理を複数の演算器で処理させる場合、前記複数の演算器の各々で異なる訓練データを用いて前記第１の処理及び前記第２の処理を実行して算出された前記誤差勾配の各々を統合して、前記第３の処理で用いる誤差勾配とする付記１４に記載の機械学習方法。

【0079】

（付記１６）
前記評価値は、層間の重み、誤差勾配、及びモーメンタムの少なくとも１つを用いて表される値である付記１３～付記１５のいずれか１項に記載の機械学習方法。

【0080】

（付記１７）
前記評価値として、前記誤差勾配と前記モーメンタムとの内積を用いる付記１６に記載の機械学習方法。

【0081】

（付記１８）
前記学習の状況を示す情報を取得する処理は、前記学習の繰り返し処理の最小単位である１イタレーション毎に前記学習の状況を示す情報を取得することを含み、
前記評価値の変化量は、現イタレーションで取得された前記学習の状況を示す情報に基づく評価値と１つ前のイタレーションで取得された前記学習の状況を示す情報に基づく評価値との変化量、又は、現イタレーションを含む第１の期間の所定回数分のイタレーションで取得された前記学習の状況を示す情報に基づく評価値の統計値と、前記第１の期間より前の第２の期間の所定回数分のイタレーションで取得された前記学習の状況を示す情報に基づく評価値の統計値との変化量である
付記１３～付記１７のいずれか１項に記載の機械学習方法。

【0082】

（付記１９）
入力層及び出力層を含む複数の層を含むモデルの深層学習において、学習処理の繰り返し処理毎に、学習の状況を示す情報を取得し、
前記学習の状況を示す情報に基づいて各層の学習の進度を判定し、前記学習の進度が所定の条件を満たす前記入力層から特定の層までの第１の層群に含まれる各層の学習処理の一部をスキップし、
前記第１の層群に含まれる各層の学習処理の一部をスキップしている場合に、前記特定の層の前記出力層側の次の層から前記出力層までの第２の層群に含まれるいずれかの層の前記学習の状況を示す情報に基づく評価値の変化量が所定の閾値範囲を超える場合に、前記第１の層群に含まれる各層においてスキップしている学習処理の一部を再開させる
ことを含む処理をコンピュータに実行させるための機械学習プログラムを記憶した記憶媒体。

【符号の説明】

【0083】

１０機械学習装置
１２学習処理部
１４取得部
１６スキップ設定部
１８再開設定部
２２モデル
２４訓練データＤＢ
２６評価値ＤＢ
４０コンピュータ
４１ＣＰＵ
４２メモリ
４３記憶部
４９記憶媒体
５０機械学習プログラム
７１Ａ、７１Ｂ、７１Ｃ、７１ＤＧＰＵ
７２ＧＰＵメモリ
２１０コンピュータ

【図1】