特開2024-116727 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-116727分散学習プログラム、方法、及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024116727

(43)【公開日】2024-08-28

(54)【発明の名称】分散学習プログラム、方法、及び装置

(51)【国際特許分類】

G06N 3/098 20230101AFI20240821BHJP

G06F 11/07 20060101ALI20240821BHJP

G06F 11/20 20060101ALI20240821BHJP

G06N 20/20 20190101ALI20240821BHJP

G06N 3/045 20230101ALI20240821BHJP

G06F 9/50 20060101ALI20240821BHJP

【ＦＩ】

G06N3/098

G06F11/07 196

G06F11/07 140A

G06F11/20 620

G06N20/20

G06N3/045

G06F9/50 150E

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023022504

(22)【出願日】2023-02-16

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】奥野伸吾

【テーマコード（参考）】

5B034

5B042

【Ｆターム（参考）】

5B034BB17

5B042GA12

5B042KK04

5B042KK20

(57)【要約】

【課題】分散学習を実行するワーカに障害が発生した場合でも、機械学習モデルの学習時間の増大を抑制する。
【解決手段】複数のニューラルネットワークの推論結果を統合して最終的な推論結果を出力するマルチプルニューラルネットワークの複数のニューラルネットワークの各々の学習処理を複数のワーカで担当する分散学習において、検知部が、複数のワーカの各々に障害が発生したか否かを検知し、判定部が、複数のワーカのうち、１以上のワーカに障害の発生が検知された場合に、複数のワーカのうち、残存ワーカ群に分散学習を継続させるか否かを判定し、分散学習を継続させる場合、制御部が、離脱ワーカが担当する学習処理を、残存ワーカ群に分配して、分散学習を継続させる。
【選択図】図８

【特許請求の範囲】

【請求項1】

複数のニューラルネットワークの推論結果を統合して最終的な推論結果を出力するマルチプルニューラルネットワークの前記複数のニューラルネットワークの各々の学習処理を複数のワーカで担当する分散学習において、
前記複数のワーカの各々に障害が発生したか否かを検知し、
前記複数のワーカのうち、１以上の第１のワーカに障害の発生が検知された場合に、前記複数のワーカのうち、前記第１のワーカ以外の第２のワーカに前記分散学習を継続させるか否かを判定し、
前記分散学習を継続させる場合、前記第１のワーカが担当する学習処理を、前記第２のワーカに分配して、前記分散学習を継続させる
ことを含む処理をコンピュータに実行させるための分散学習プログラム。

【請求項2】

前記分散学習を継続させるか否かを判定する処理は、前記第１のワーカの代理となる前記複数のワーカ以外の第３のワーカの確保までに要する時間が閾値以上の場合に、前記分散学習を継続させると判定することを含む請求項１に記載の分散学習プログラム。

【請求項3】

前記閾値は、前記第２のワーカに前記分散学習を継続させた場合に増加する学習時間の推定値である請求項２に記載の分散学習プログラム。

【請求項4】

前記第２のワーカに分配する処理は、前記第１のワーカ当たりのバッチサイズを、前記第２のワーカの数で除算した値を、前記第２のワーカそれぞれに分配された、前記第１のワーカが担当する学習処理についてのバッチサイズとして設定することを含む請求項１～請求項３のいずれか１項に記載の分散学習プログラム。

【請求項5】

前記分散学習を継続させないと判定された場合に、前記第１のワーカの代理となる前記複数のワーカ以外の第３のワーカの確保を依頼し、
前記第３のワーカが確保された場合に、前記第２のワーカと、確保された前記第３のワーカとを用いて、前記分散学習を再開させる、
ことを含む処理を前記コンピュータに実行させるための請求項１～請求項３のいずれか１項に記載の分散学習プログラム。

【請求項6】

前記第２のワーカに前記分散学習を継続させると共に、前記第１のワーカの代理となる前記複数のワーカ以外の第３のワーカの確保を依頼し、
前記第３のワーカが確保された場合に、前記第２のワーカに分配していた前記第１のワーカの学習処理を、確保された前記第３のワーカに割り当て直して、前記分散学習を再開させる、
ことを含む処理を前記コンピュータに実行させるための請求項１～請求項３のいずれか１項に記載の分散学習プログラム。

【請求項7】

【請求項8】

複数のニューラルネットワークの推論結果を統合して最終的な推論結果を出力するマルチプルニューラルネットワークの前記複数のニューラルネットワークの各々の学習処理を複数のワーカで担当する分散学習において、
前記複数のワーカの各々に障害が発生したか否かを検知する検知部と、
前記複数のワーカのうち、１以上の第１のワーカに障害の発生が検知された場合に、前記複数のワーカのうち、前記第１のワーカ以外の第２のワーカに前記分散学習を継続させるか否かを判定する判定部と、
前記分散学習を継続させる場合、前記第１のワーカが担当する学習処理を、前記第２のワーカに分配して、前記分散学習を継続させる制御部と、
を含む分散学習装置。

【発明の詳細な説明】

【技術分野】

【0001】

開示の技術は、分散学習プログラム、分散学習方法、及び分散学習装置に関する。

【背景技術】

【0002】

従来、ニューラルネットワーク等の機械学習モデルの機械学習を複数のノードで実行する分散学習に関する技術が提案されている。例えば、１つ以上のプロセッサによる、コンピューティング環境における非集中的な分散型深層学習の方法が提案されている。この方法は、複数のノードの中の各ノードについて近傍ノードのリストを生成して、重み管理動作に従った連続通信のための第１のスレッド及び各ノードの勾配の連続計算のための第２のスレッドを作成する。この方法は、１つ以上の機械学習モデルの非同期分散型訓練を実行するステップであって、１つ以上の変数が、第１のスレッドと第２のスレッドとの間で共有されるステップを含む。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特表２０２２－５１１７１６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

複数のワーカで同じ機械学習モデルを使用し、データ並列により分散学習を行う場合、１つのワーカに障害が発生しても、学習精度の低下の恐れはあるものの、残りのワーカで学習を継続することは可能である。

【0005】

しかし、複数のニューラルネットワークの推論結果を統合して最終的な推論結果を出力するマルチプルニューラルネットワークの分散学習の場合、いずれかのワーカに障害が発生した場合には、学習が継続できないという問題がある。学習を継続するためには、障害により離脱したワーカに代わる新たなワーカを確保したうえで、分散学習を再開させる必要がある。すなわち、新たなワーカの準備が整うまでの待ち時間が発生するため、特に、新たなワーカの確保に時間を要する場合などには、学習時間の増大を招くことになる。

【0006】

一つの側面として、開示の技術は、分散学習を実行するワーカに障害が発生した場合でも、機械学習モデルの学習時間の増大を抑制することを目的とする。

【課題を解決するための手段】

【0007】

一つの態様として、開示の技術は、複数のニューラルネットワークの推論結果を統合して最終的な推論結果を出力するマルチプルニューラルネットワークの前記複数のニューラルネットワークの各々の学習処理を複数のワーカで担当する分散学習に関する。開示の技術は、前記複数のワーカの各々に障害が発生したか否かを検知する。また、開示の技術は、前記複数のワーカのうち、１以上の第１のワーカに障害の発生が検知された場合に、前記複数のワーカのうち、前記第１のワーカ以外の第２のワーカに前記分散学習を継続させるか否かを判定する。そして、開示の技術は、前記分散学習を継続させる場合、前記第１のワーカが担当する学習処理を、前記第２のワーカに分配して、前記分散学習を継続させる。

【発明の効果】

【0008】

一つの側面として、分散学習を実行するワーカに障害が発生した場合でも、機械学習モデルの学習時間の増大を抑制することができる、という効果を有する。

【図面の簡単な説明】

【0009】

【図1】本実施形態に係る情報処理システムの概略構成を示すブロック図である。

【図2】マルチプルニューラルネットワークの具体例を説明するための図である。

【図3】マルチプルニューラルネットワークの出力を説明するための図である。

【図4】データ並列による分散学習を説明するための図である。

【図5】マルチプルニューラルネットワークの分散学習でワーカに障害が発生した場合の問題点を説明するための図である。

【図6】マルチプルニューラルネットワークの分散学習でワーカに障害が発生した場合の問題点を説明するための図である。

【図7】管理ワーカの機能ブロック図である。

【図8】残存ワーカ群での分散学習の継続を説明するための図である。

【図9】残存ワーカ群への学習データの分配を説明するための図である。

【図10】データ並列での分散学習時におけるワーカ当たりのバッチサイズを説明するための図である。

【図11】継続モデルに対するバッチサイズの計算を説明するための図である。

【図12】コンピュータシステムとして機能するコンピュータの概略構成を示すブロック図である。

【図13】分散学習処理の一例を示すフローチャートである。

【図14】分配処理の一例を示すフローチャートである。

【図15】代理ワーカ処理の一例を示すフローチャートである。

【図16】分散学習処理の他の例を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。

【0011】

図１に示すように、本実施形態に係る情報処理システム１００は、コンピュータシステム１０と、複数の利用者端末５０とを含む。コンピュータシステム１０と利用者端末５０の各々とは、ネットワークを介して相互に通信可能に接続される。情報処理システム１００は、利用者端末５０を介して利用者から投入されたジョブに対して、コンピュータシステム１０が有するリソースを割り当て、割り当てたリソースでジョブを実行するシステムである。

【0012】

利用者端末５０は、情報処理システム１００の利用者が利用する情報処理端末であり、例えば、パーソナルコンピュータ、タブレット端末、スマートフォン等で実現される。利用者端末５０は、利用者から入力されるジョブを受け付け、コンピュータシステム１０へ送信する。また、利用者端末５０は、コンピュータシステム１０から送信されるジョブの実行結果を受信し、実行結果を表示装置に表示するなどして、利用者に提示する。

【0013】

本実施形態では、ジョブは、機械学習モデルの機械学習である。特に、本実施形態では、複数のニューラルネットワークの推論結果を統合して最終的な推論結果を出力するマルチプルニューラルネットワークの分散学習を対象とする。

【0014】

コンピュータシステム１０は、１以上のコンピュータを含み、これらのコンピュータが、管理部２０及びワーカ群として機能する。また、コンピュータシステム１０は、記憶装置を含み、記憶装置には、機械学習モデルの学習に用いられる複数の学習データである学習データセット５２と、学習実行時の最新状態の機械学習モデルの情報であるチェックポイント５４とが記憶される。コンピュータシステム１０は、例えば、ハイパフォーマンスコンピュータとしてよい。

【0015】

管理部２０は、キュー２２と、ジョブ配備部２４と、ジョブ管理部２６とを含む。キュー２２は、利用者端末５０から送信されたジョブが順次格納される記憶領域である。ジョブ配備部２４は、キュー２２から１つずつジョブを取り出し、取り出したジョブを実行するワーカを割り当て、ワーカにジョブを実行させる。ジョブ管理部２６は、ワーカによるジョブの実行結果を取得し、取得した実行結果を、ネットワークを介して利用者端末５０へ送信する。

【0016】

ワーカ群は、複数のワーカを含む。ここで、ワーカとは、割り当てられたジョブ又はジョブの一部を実行する一単位であり、例えば、１又は複数のコンピュータであってもよいし、１又は複数のプロセッサであってもよい。本実施形態では、説明の都合上、分散学習を実行するワーカを実行ワーカ３０とし、実行ワーカ３０によるジョブの実行を管理するワーカを管理ワーカ４０として説明する。また、以下では、１つのジョブを分散して実行する実行ワーカ群の各実行ワーカ３０を「ワーカｋ」とも表記する。ｋは実行ワーカ群に含まれる実行ワーカ３０の識別番号であり、本実施形態では、ｋ＝０，１，２，・・・とする。

【0017】

ここで、図２を参照して、マルチプルニューラルネットワークの具体例について説明する。図２は、ＨＤＮＮＰ（High-Dimensional Neural Network Potential）の例であり、原子（分子）系全体のポテンシャルエネルギーを機械学習により計算するマルチプルニューラルネットワークの例である。図２上図に示すように、原子系が、原子ｉ（ｉ＝ａ，ｂ，ｃ）を含む場合、図２下図に示すような、原子ｉに関するニューラルネットワーク（ＮＮ：Neural Network）_ｉに、それぞれデータＧ_ｉを入力し、原子ｉのポテンシャルエネルギーＥ_ｉを計算する。そして、Ｅ_ｉの総和を、原子系全体のポテンシャルエネルギーＥとして計算する。

【0018】

マルチプルニューラルネットワークの学習の並列化、すなわち分散学習では、図３に示すように、各ニューラルネットワークＮＮ_ｉに対して実行ワーカ３０（図３の例では、ワーカｋ、ｋ＝０，１，２）を割り当てる。そして、各ワーカｋが、オールリデュース通信により他のワーカｋから計算結果を取得し、自身の計算結果と、取得した他のワーカｋの計算結果との総和を計算する。

【0019】

次に、マルチプルニューラルネットワークの分散学習において、ワーカに障害が発生した場合の問題を説明するために、まず、マルチプルニューラルネットワーク以外の場合について説明する。例えば、図４に示すように、各ワーカｋで同じ機械学習モデルを使用し、学習データセットをワーカ間で分割し、データ並列による分散学習を行う場合を考える。データ並列による分散学習では、例えば、学習データをミニバッチの単位に分割し、各ワーカが、各ミニバッチについて、ニューラルネットワークの損失を小さくするための勾配を計算する。そして、ワーカ間で同期をとった上で通信を行うことにより、各ワーカｋで計算された勾配の平均を計算し、ニューラルネットワークの重みを更新する。この場合、例えばワーカ２に障害が発生すると、障害が発生したワーカ２は分散学習から離脱し、ワーカ２の計算結果が反映されなくなるため、学習精度が低下する恐れはある。ただし、ワーカ０及びワーカ１による学習の継続は可能である。

【0020】

しかし、マルチプルニューラルネットワークの場合、図５に示すように、教師値（正解データ）は、各ニューラルネットワークの出力の総和に対して存在するため、障害発生時に損失の計算が不可能になる。具体的には、通常時には、ワーカ間の通信により計算した予測値Ｅ＝Σ_ｉＥ_ｉと教師値Ｅ_ｔｒｕｅとを比較して損失を算出する。しかし、例えば、ワーカ２に障害が発生した場合、ＮＮ_ａの予測値Ｅ_ａ及びＮＮ_ｂの予測値Ｅ_ｂから計算された予測値Ｅ’には、ＮＮ_ｃの予測値Ｅ_ｃが含まれていないため、教師値Ｅ_ｔｒｕｅとの適切な比較が行えず、損失を算出することができない。

【0021】

この場合、分散学習を継続させるためには、分散学習から離脱したワーカ（以下、「離脱ワーカ」という）の代理となる新しいワーカ（以下、「代理ワーカ」という）を確保する。そして、代理ワーカを、障害が発生していない残りのワーカ（以下、「残存ワーカ」という）に加えて、分散学習を再開させることが考えられる。例えば、図６に示すように、ワーカ２が離脱した場合、ワーカ２’を代理ワーカとして確保し、ワーカ２’が使用するモデルとして、チェックポイント５４からＮＮ_ｃの最新の状態を復元する。そして、ワーカ２’が、ＮＮ_ｃを使用して勾配を計算する。以降は、ワーカ０及びワーカ１にワーカ２’を加えた実行ワーカ群で分散学習が実行される。

【0022】

このように、離脱ワーカを代理ワーカに入れ替える場合、代理ワーカの準備が整うまで、分散学習に待ち時間が発生する。特に、代理ワーカを確保し難い環境、例えば、コンピュータシステム１０でのジョブが混雑しており、空きの実行ワーカ３０がない場合等には、待ち時間が増大することになる。

【0023】

そこで、本実施形態では、残存ワーカ群で離脱ワーカの学習処理を分担することにより、残存ワーカ群で分散学習を継続させる。以下、この処理を実現するための管理ワーカ４０の機能について詳述する。なお、管理ワーカ４０は、開示の技術の分散学習装置の一例である。

【0024】

管理ワーカ４０は、１つのジョブを実行する実行ワーカ群に対して１つ設けられる。図７に示すように、管理ワーカ４０は、機能的には、検知部４２と、判定部４４と、制御部４６とを含む。

【0025】

検知部４２は、実行ワーカ３０の各々に障害が発生したか否かを検知する。例えば、検知部４２は、各実行ワーカ３０から定期的にキープアライブを受信することにより、各実行ワーカ３０の死活監視を行う。検知部４２は、一定時間以上キープアライブが受信されない実行ワーカ３０について、障害の発生を検知する。検知部４２は、障害の発生を検知すると、障害が発生した実行ワーカ３０の識別番号を判定部４４へ通知する。

【0026】

判定部４４は、１つのジョブを実行する実行ワーカ群のうち、１以上の実行ワーカ３０に障害の発生が検知された場合に、実行ワーカ群のうち、障害の発生が検知されていない実行ワーカ３０、すなわち残存ワーカ群に分散学習を継続させるか否かを判定する。具体的には、判定部４４は、障害が検知された実行ワーカ３０、すなわち離脱ワーカの代理となる代理ワーカの確保までに要する時間が閾値以上の場合に、残存ワーカ群による分散学習を継続させると判定する。

【0027】

具体的には、判定部４４は、例えば、コンピュータシステム１０におけるジョブの混雑度を取得するコマンドを実行して混雑度を取得し、取得した混雑度に基づいて、代理ワーカを要求してから確保までに要する時間を推定する。また、代理ワーカの要求に対して、代理ワーカが確保される予測時刻を返すシステムの場合、判定部４４は、この予測時刻から、代理ワーカを要求してから確保までに要する時間を推定してもよい。また、判定部４４は、閾値を、予め定めた時間としてもよいし、残存ワーカ群に分散学習を継続させた場合に増加する学習時間の推定値としてもよい。判定部４４は、例えば、実行ワーカ３０の処理能力、対象の機械学習モデルのサイズ、学習データのサイズ等に基づいて、増加する学習時間の推定値を算出する。判定部４４は、残存ワーカ群に分散学習を継続させるか否かの判定結果を制御部４６へ通知する。

【0028】

制御部４６は、実行ワーカ３０の各々が、担当する学習処理を実行するように制御する。また、制御部４６は、残存ワーカ群に分散学習を継続させることを示す判定結果を判定部４４から通知されると、離脱ワーカが担当する学習処理を、残存ワーカの各々に分配して、残存ワーカに分散学習を継続させるように設定する。具体的には、制御部４６は、図８に示すように、ワーカ２が離脱した場合、ワーカ０及びワーカ１が使用するモデルとして、チェックポイント５４からＮＮ_ｃの最新の状態を復元する。以下、残存ワーカが使用するために復元した、離脱ワーカが使用していたＮＮを「継続モデル」ともいう。そして、制御部４６は、ワーカ０及びワーカ１に、復元したＮＮ_ｃを使用して勾配を計算させる。また、制御部４６は、以降のオールリデュース通信は、ワーカ０とワーカ１間で行うように設定すると共に、ワーカ０には、ＮＮ_ａの計算及びＮＮ_ｃの計算を実行させ、ワーカ１には、ＮＮ_ｂの計算及びＮＮ_ｃの計算を実行させるように設定する。なお、ワーカ２が第１のワーカの一例であり、ワーカ０及びワーカ１が第２のワーカの一例である。

【0029】

また、制御部４６は、図９に示すように、学習データセット５２のうち、離脱ワーカに割り当てられていた部分を、残存ワーカ間で分割する。図９の例では、離脱ワーカに割り当てられていたデータ２をデータ２_ａとデータ２_ｂとに分割し、データ２_ａをワーカ０に、データ２_ｂをワーカ１に分配している。制御部４６は、離脱ワーカから残存ワーカへ分配したデータは、復元したＮＮ_ｃへ入力して勾配を計算するように設定する。すなわち、制御部４６は、ワーカ０では、データ０を所定のバッチサイズに分割した各ミニバッチをＮＮ_ａへ入力して計算を行うと共に、データ２_ａを所定のバッチサイズに分割した各ミニバッチをＮＮ_ｃへ入力して計算を行うように設定する。同様に、制御部４６は、ワーカ１では、データ１を所定のバッチサイズに分割した各ミニバッチをＮＮ_ｂへ入力して計算を行うと共に、データ２_ｂを所定のバッチサイズに分割した各ミニバッチをＮＮ_ｃへ入力して計算を行うように設定する。

【0030】

これにより、図８に示すように、離脱ワーカが担当していた学習処理（図８の例では、破線部で示すＮＮ_ｃの計算）を、残存ワーカで分担して並列に実行することで、学習時間の増加を最小化することができる。

【0031】

ここで、図１０に示すように、データ並列での分散学習時における、ワーカ当たりのバッチサイズがｓの場合、各ワーカｋはミニバッチ単位（データ数ｓ）で勾配を計算する（図１０中の（１））。そして、オールリデュース通信により、ワーカ間で勾配の平均値を計算し（図１０中の（２））、計算した勾配の平均値を用いて、各ワーカはモデルを更新する（図１０中の（３））。このように、計算される勾配はワーカ間での平均値であるため、分散学習全体でのバッチサイズは、分散学習を実行するワーカ数に比例する。

【0032】

そこで、制御部４６は、継続モデルに対する、残存ワーカ全体でのバッチサイズが、離脱ワーカ当たりのバッチサイズと同じになるように設定する。例えば、図１１に示すように、ワーカ当たりのバッチサイズがｓ＝６４、残存ワーカの台数がｎ＝２の場合、制御部４６は、継続モデルに対する残存ワーカ当たりのバッチサイズを、ｓ／ｎ＝３２と設定する。これにより、ワーカ０とワーカ１とのオールリデュース通信による勾配の平均化により、継続モデルに対する、残存ワーカ全体での実質的なバッチサイズはｓ＝６４となる。

【0033】

また、制御部４６は、残存ワーカ群での分散学習を継続しないことを示す判定結果を判定部４４から通知されると、いったん分散学習を中断させ、代理ワーカの確保をジョブ配備部２４へ依頼する。制御部４６は、代理ワーカが確保されると、図６で説明したように、離脱ワーカと代理ワーカとを入れ替えて、すなわち、残存ワーカと代理ワーカとを用いて、分散学習を再開させる。なお、代理ワーカは第３のワーカの一例である。

【0034】

コンピュータシステム１０は、例えば図１２に示すようなコンピュータ６０で実現される。コンピュータ６０は、ＣＰＵ（Central Processing Unit）６１と、ＧＰＵ（Graphics Processing Unit）６２と、一時記憶領域としてのメモリ６３と、不揮発性の記憶装置６４とを備える。また、コンピュータ６０は、入力装置、表示装置等の入出力装置６５と、記憶媒体６９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）装置６６とを備える。また、コンピュータ６０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）６７を備える。ＣＰＵ６１、ＧＰＵ６２、メモリ６３、記憶装置６４、入出力装置６５、Ｒ／Ｗ装置６６、及び通信Ｉ／Ｆ６７は、バス６８を介して互いに接続される。

【0035】

記憶装置６４は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等である。記憶媒体としての記憶装置６４には、コンピュータ６０を、コンピュータシステム１０の管理ワーカ４０として機能させるための分散学習プログラム７０が記憶される。なお、記憶装置６４には、分散学習プログラム７０以外にも、管理部２０及び実行ワーカ３０の各々の機能を実現するためのプログラムも含まれるが、本実施形態では詳細な説明を省略する。分散学習プログラム７０は、検知プロセス制御命令７２と、判定プロセス制御命令７４と、制御プロセス制御命令７６とを有する。

【0036】

ＣＰＵ６１は、分散学習プログラム７０を記憶装置６４から読み出してメモリ６３に展開し、分散学習プログラム７０が有する制御命令を順次実行する。ＣＰＵ６１は、検知プロセス制御命令７２を実行することで、図７に示す検知部４２として動作する。また、ＣＰＵ６１は、判定プロセス制御命令７４を実行することで、図７に示す判定部４４として動作する。また、ＣＰＵ６１は、制御プロセス制御命令７６を実行することで、図７に示す制御部４６として動作する。これにより、分散学習プログラム７０を実行したコンピュータ６０が、コンピュータシステム１０の管理ワーカ４０として機能することになる。なお、プログラムを実行するＣＰＵ６１はハードウェアである。また、プログラムの一部は、ＧＰＵ６２により実行されてもよい。

【0037】

なお、分散学習プログラム７０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等で実現されてもよい。

【0038】

次に、本実施形態に係る情報処理システム１００の動作について説明する。利用者端末５０からコンピュータシステム１０へ、マルチプルニューラルネットワークの分散学習の実行を指示するジョブが投入されると、ジョブ配備部２４が、そのジョブを実行するための実行ワーカ３０及び管理ワーカ４０を配備する。そして、管理ワーカ４０が、図１３に示す分散学習処理を実行する。なお、分散学習処理は、開示の技術の分散学習方法の一例である。

【0039】

ステップＳ１０で、制御部４６が、分散学習を担当する実行ワーカ群に、マルチプルニューラルネットワークの分散学習を開始させる。次に、ステップＳ１２で、制御部４６が学習を続行するか否かを判定する。学習の繰り返し回数が所定数に到達した場合、損失が所定値以下になった場合、損失が収束した場合等の所定の終了条件を満たさない場合には、学習を続行すると判定し、ステップＳ１４へ移行する。

【0040】

ステップＳ１４では、検知部４２が、分散学習を実行する実行ワーカ３０のいずれかに障害が発生したか否かを判定する。いずれかの実行ワーカ３０に障害が発生している場合には、ステップＳ１６へ移行し、いずれの実行ワーカ３０にも障害が発生していない場合には、ステップＳ１２に戻る。ステップＳ１６では、制御部４６が、障害の発生が検知された実行ワーカ３０を、分散学習を実行する実行ワーカ群から離脱させる。

【0041】

次に、ステップＳ１８で、判定部４４が、残存ワーカ群に分散学習を継続させるか否かを判定する。例えば、代理ワーカの確保までに要する時間が閾値以上の場合には、残存ワーカ群による分散学習を継続させると判定し、ステップＳ２０へ移行し、分配処理が実行される。一方、代理ワーカの確保までに要する時間が閾値未満の場合には、残存ワーカ群による分散学習を継続しないと判定し、ステップＳ４０へ移行し、代理ワーカ処理が実行される。

【0042】

ここで、図１４を参照して、分配処理について説明する。

【0043】

ステップＳ２２で、制御部４６が、各残存ワーカが使用する継続モデルとして、チェックポイント５４から、離脱ワーカが使用していたモデル（ニューラルネットワーク）の最新の状態を復元する。次に、ステップＳ２４で、制御部４６が、学習データセット５２のうち、離脱ワーカに割り当てられていた部分を、各残存ワーカに分配する。

【0044】

次に、ステップＳ２６で、制御部４６は、継続モデルに対する、残存ワーカ全体でのバッチサイズが、離脱ワーカ当たりのバッチサイズと同じになるように、継続モデルに対する各残存ワーカでのバッチサイズを計算する。次に、ステップＳ２８で、制御部４６が、各残存ワーカに、上記ステップＳ２４で分配されたデータを、上記ステップＳ２６で計算したバッチサイズで分割したミニバッチを継続モデルに適用して学習処理を実行するように設定する。そして、分配処理は終了し、分散学習処理（図１３）へリターンし、ステップＳ１２に戻る。これにより、残存ワーカ群による分散学習が継続される。

【0045】

次に、図１５を参照して、代理ワーカ処理について説明する。

【0046】

ステップＳ４２で、制御部４６が、いったん分散学習を中断させる。次に、ステップＳ４４で、制御部４６が、代理ワーカの確保をジョブ配備部２４へ依頼する。次に、ステップＳ４６で、制御部４６が、代理ワーカを確保できたか否かを判定する。代理ワーカを確保できた場合には、ステップＳ４８へ移行し、確保できていない場合には、確保できるまで待機する。

【0047】

ステップＳ４８では、制御部４６は、代理ワーカが確保されると、図６で説明したように、離脱ワーカと代理ワーカとを入れ替えて、すなわち、残存ワーカと代理ワーカとを用いて、分散学習を再開させる。そして、代理ワーカ処理は終了し、分散学習処理（図１３）へリターンし、ステップＳ１２に戻る。ステップＳ１２で、制御部４６が、所定の終了条件を満たし、学習を終了すると判定すると、分散学習処理は終了する。

【0048】

以上説明したように、本実施形態は、複数のニューラルネットワークの推論結果を統合して最終的な推論結果を出力するマルチプルニューラルネットワークの複数のニューラルネットワークの各々の学習処理を複数のワーカで担当する分散学習に関する。本実施形態において、管理ワーカは、複数のワーカの各々に障害が発生したか否かを検知する。また、管理ワーカは、複数のワーカのうち、１以上のワーカに障害の発生が検知された場合に、複数のワーカのうち、障害の発生が検知されていないワーカに分散学習を継続させるか否かを判定する。そして、管理ワーカは、分散学習を継続させる場合、障害が検知されたワーカが担当する学習処理を、障害の発生が検知されていないワーカに分配して、分散学習を継続させる。これにより、分散学習を実行するワーカに障害が発生した場合でも、機械学習モデルの学習時間の増大を抑制することができる。

【0049】

なお、上記実施形態では、残存ワーカ群で離脱ワーカの学習処理を分担して分散学習を継続する場合と、代理ワーカを確保して分散学習を継続する場合とを択一的に実行する場合について説明したが、これに限定されない。例えば、残存ワーカ群に分散学習を継続させると共に、代理ワーカの確保を依頼するようにしてもよい。この場合、代理ワーカが確保されるまでは、残存ワーカ群による分散学習を継続させる。そして、代理ワーカが確保された場合に、残存ワーカ群に代理ワーカを追加し、残存ワーカ群で分担していた離脱ワーカの学習処理を、代理ワーカに割り当て直して、すなわち、元の状態を復元して、分散学習を再開させればよい。

【0050】

より具体的に、この場合の分散学習処理を、図１６に示すフローチャートを参照して説明する。なお、図１６に示す分散学習処理において、上記実施形態の分散学習処理（図１３～図１５）と同一の処理については、同一ステップ番号を付して詳細な説明を省略する。

【0051】

ステップＳ１０～Ｓ１６を経て、次のステップＳ６０で、判定部４４が、残存ワーカ群に分散学習を継続させるか否かを判定する。残存ワーカ群による分散学習を継続させる場合は、ステップＳ２０へ移行し、分配処理を実行したうえで、ステップＳ４４へ移行する。一方、残存ワーカ群による分散学習を継続しない場合は、そのままステップＳ４４へ移行する。ステップＳ４４で、制御部４６が、代理ワーカの確保を依頼する。次に、ステップＳ６２で、制御部４６が、代理ワーカを確保できたか否かを判定し、確保できた場合には、ステップＳ６４へ移行し、確保できていない場合には、ステップＳ１２に戻る。

【0052】

ステップＳ６４では、制御部４６が、残存ワーカ群で分散学習を継続中か、すなわち、残存ワーカ群が離脱ワーカの学習処理を分担して分散学習を実行中か否かを判定する。残存ワーカ群での分散学習を継続中の場合には、ステップＳ６６へ移行し、継続中ではない場合、すなわち、当初のワーカ群、又は代理ワーカが追加されたワーカ群による分散学習が実行されている場合には、ステップＳ６８へ移行する。

【0053】

ステップＳ６６では、制御部４６が、残存ワーカ群で継続されている分散学習を終了させる。次に、ステップＳ６８で、制御部４６が、残存ワーカ群に代理ワーカを追加し、状態を復元して、分散学習を再開させて、ステップＳ１２に戻る。

【0054】

このように、代理ワーカが確保できるまでは、残存ワーカ群による分散学習を継続させ、代理ワーカが確保できた場合に、元の状態を復元して分散学習を再開させることで、ワーカに障害が発生した場合でも、学習時間の増加を最小限に抑制することができる。

【0055】

また、上記実施形態では、分散学習プログラムが記憶装置に予め記憶（インストール）されているが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供されてもよい。

【0056】

以上の実施形態に関し、さらに以下の付記を開示する。

【0057】

（付記１）
複数のニューラルネットワークの推論結果を統合して最終的な推論結果を出力するマルチプルニューラルネットワークの前記複数のニューラルネットワークの各々の学習処理を複数のワーカで担当する分散学習において、
前記複数のワーカの各々に障害が発生したか否かを検知し、
前記複数のワーカのうち、１以上の第１のワーカに障害の発生が検知された場合に、前記複数のワーカのうち、前記第１のワーカ以外の第２のワーカに前記分散学習を継続させるか否かを判定し、
前記分散学習を継続させる場合、前記第１のワーカが担当する学習処理を、前記第２のワーカに分配して、前記分散学習を継続させる
ことを含む処理をコンピュータに実行させるための分散学習プログラム。

【0058】

（付記２）
前記分散学習を継続させるか否かを判定する処理は、前記第１のワーカの代理となる前記複数のワーカ以外の第３のワーカの確保までに要する時間が閾値以上の場合に、前記分散学習を継続させると判定することを含む付記１に記載の分散学習プログラム。

【0059】

（付記３）
前記閾値は、前記第２のワーカに前記分散学習を継続させた場合に増加する学習時間の推定値である付記２に記載の分散学習プログラム。

【0060】

（付記４）
前記第２のワーカに分配する処理は、前記第１のワーカ当たりのバッチサイズを、前記第２のワーカの数で除算した値を、前記第２のワーカそれぞれに分配された、前記第１のワーカが担当する学習処理についてのバッチサイズとして設定することを含む付記１～付記３のいずれか１項に記載の分散学習プログラム。

【0061】

（付記５）
前記分散学習を継続させないと判定された場合に、前記第１のワーカの代理となる前記複数のワーカ以外の第３のワーカの確保を依頼し、
前記第３のワーカが確保された場合に、前記第２のワーカと、確保された前記第３のワーカとを用いて、前記分散学習を再開させる、
ことを含む処理を前記コンピュータに実行させるための付記１～付記４のいずれか１項に記載の分散学習プログラム。

【0062】

（付記６）
前記第２のワーカに前記分散学習を継続させると共に、前記第１のワーカの前記複数のワーカ以外の第３のワーカの確保を依頼し、
前記第３のワーカが確保された場合に、前記第２のワーカに分配していた前記第１のワーカの学習処理を、確保された前記第３のワーカに割り当て直して、前記分散学習を再開させる、
ことを含む処理を前記コンピュータに実行させるための付記１～付記４のいずれか１項に記載の分散学習プログラム。

【0063】

（付記７）
複数のニューラルネットワークの推論結果を統合して最終的な推論結果を出力するマルチプルニューラルネットワークの前記複数のニューラルネットワークの各々の学習処理を複数のワーカで担当する分散学習において、
前記複数のワーカの各々に障害が発生したか否かを検知し、
前記複数のワーカのうち、１以上の第１のワーカに障害の発生が検知された場合に、前記複数のワーカのうち、前記第１のワーカ以外の第２のワーカに前記分散学習を継続させるか否かを判定し、
前記分散学習を継続させる場合、前記第１のワーカが担当する学習処理を、前記第２のワーカに分配して、前記分散学習を継続させる
ことを含む処理をコンピュータが実行する分散学習方法。

【0064】

（付記８）
前記分散学習を継続させるか否かを判定する処理は、前記第１のワーカの代理となる前記複数のワーカ以外の第３のワーカの確保までに要する時間が閾値以上の場合に、前記分散学習を継続させると判定することを含む付記７に記載の分散学習方法。

【0065】

（付記９）
前記閾値は、前記第２のワーカに前記分散学習を継続させた場合に増加する学習時間の推定値である付記８に記載の分散学習方法。

【0066】

（付記１０）
前記第２のワーカに分配する処理は、前記第１のワーカ当たりのバッチサイズを、前記第２のワーカの数で除算した値を、前記第２のワーカそれぞれに分配された、前記第１のワーカが担当する学習処理についてのバッチサイズとして設定することを含む付記７～付記９のいずれか１項に記載の分散学習方法。

【0067】

（付記１１）
前記分散学習を継続させないと判定された場合に、前記第１のワーカの代理となる前記複数のワーカ以外の第３のワーカの確保を依頼し、
前記第３のワーカが確保された場合に、前記第２のワーカと、確保された前記第３のワーカとを用いて、前記分散学習を再開させる、
ことを含む処理を前記コンピュータに実行させるための付記７～付記１０のいずれか１項に記載の分散学習方法。

【0068】

（付記１２）
前記第２のワーカに前記分散学習を継続させると共に、前記第１のワーカの代理となる前記複数のワーカ以外の第３のワーカの確保を依頼し、
前記第３のワーカが確保された場合に、前記第２のワーカに分配していた前記第１のワーカの学習処理を、確保された前記第３のワーカに割り当て直して、前記分散学習を再開させる、
ことを含む処理を前記コンピュータに実行させるための付記７～付記１０のいずれか１項に記載の分散学習方法。

【0069】

（付記１３）
複数のニューラルネットワークの推論結果を統合して最終的な推論結果を出力するマルチプルニューラルネットワークの前記複数のニューラルネットワークの各々の学習処理を複数のワーカで担当する分散学習において、
前記複数のワーカの各々に障害が発生したか否かを検知する検知部と、
前記複数のワーカのうち、１以上の第１のワーカに障害の発生が検知された場合に、前記複数のワーカのうち、前記第１のワーカ以外の第２のワーカに前記分散学習を継続させるか否かを判定する判定部と、
前記分散学習を継続させる場合、前記第１のワーカが担当する学習処理を、前記第２のワーカに分配して、前記分散学習を継続させる制御部と、
を含む分散学習装置。

【0070】

（付記１４）
前記判定部は、前記第１のワーカの代理となる前記複数のワーカ以外の第３のワーカの確保までに要する時間が閾値以上の場合に、前記分散学習を継続させると判定する付記１３に記載の分散学習装置。

【0071】

（付記１５）
前記閾値は、前記第２のワーカに前記分散学習を継続させた場合に増加する学習時間の推定値である付記１４に記載の分散学習装置。

【0072】

（付記１６）
前記制御部は、前記第１のワーカ当たりのバッチサイズを、前記第２のワーカの数で除算した値を、前記第２のワーカそれぞれに分配された、前記第１のワーカが担当する学習処理についてのバッチサイズとして設定する付記１３～付記１５のいずれか１項に記載の分散学習装置。

【0073】

（付記１７）
前記制御部は、
前記分散学習を継続させないと判定された場合に、前記第１のワーカの代理となる前記複数のワーカ以外の第３のワーカの確保を依頼し、
前記第３のワーカが確保された場合に、前記第２のワーカと、確保された前記第３のワーカとを用いて、前記分散学習を再開させる、
付記１３～付記１６のいずれか１項に記載の分散学習装置。

【0074】

（付記１８）
前記制御部は、
前記第２のワーカに前記分散学習を継続させると共に、前記第１のワーカの代理となる前記複数のワーカ以外の第３のワーカの確保を依頼し、
前記第３のワーカが確保された場合に、前記第２のワーカに分配していた前記第１のワーカの学習処理を、確保され前記第３のたワーカに割り当て直して、前記分散学習を再開させる、
付記１３～付記１６のいずれか１項に記載の分散学習装置。

【符号の説明】

【0075】

１００情報処理システム
１０コンピュータシステム
２０管理部
２２キュー
２４ジョブ配備部
２６ジョブ管理部
３０実行ワーカ
４０管理ワーカ
４２検知部
４４判定部
４６制御部
５０利用者端末
５２学習データセット
５４チェックポイント
６０コンピュータ
６１ＣＰＵ
６２ＧＰＵ
６３メモリ
６４記憶装置
６５入出力装置
６６Ｒ／Ｗ装置
６７通信Ｉ／Ｆ
６８バス
６９記憶媒体
７０分散学習プログラム
７２検知プロセス制御命令
７４判定プロセス制御命令
７６制御プロセス制御命令

【図1】