特開2023-169550 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-169550並列機械学習プログラム、並列機械学習方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023169550

(43)【公開日】2023-11-30

(54)【発明の名称】並列機械学習プログラム、並列機械学習方法および情報処理装置

(51)【国際特許分類】

G06F 9/52 20060101AFI20231122BHJP

G06N 20/00 20190101ALI20231122BHJP

G06N 3/08 20230101ALN20231122BHJP

【ＦＩ】

G06F9/52 150Z

G06N20/00

G06N3/08

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022080723

(22)【出願日】2022-05-17

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】バイダマリナ

(72)【発明者】

【氏名】大辻弘貴

(57)【要約】

【課題】並列機械学習において訓練データの先読み遅延に起因して発生する待ち時間を削減する。
【解決手段】コンピュータは、バッファ領域から訓練データを読み出して機械学習モデルのパラメータ値を更新する学習処理と、バッファ領域に記憶される訓練データが特定のデータ量になるように、他のコンピュータと共通に使用されるストレージ装置に訓練データを要求する先読み処理とをそれぞれ含み、他のコンピュータと同期して実行される複数のイテレーションのうちの第１のイテレーションにおいて、バッファ領域から訓練データを読み出す第１の読み出し時間を測定する。コンピュータは、第１の読み出し時間が、第１のイテレーションにおいて他のコンピュータで測定される第２の読み出し時間より大きいことを含む第１の遅延条件を満たす場合、第１のイテレーションよりも後の第２のイテレーションにおいて使用される特定のデータ量を増加させる。
【選択図】図９

【特許請求の範囲】

【請求項1】

バッファ領域から訓練データを読み出して機械学習モデルのパラメータ値を更新する学習処理と、前記バッファ領域に記憶される訓練データが特定のデータ量になるように、他のコンピュータと共通に使用されるストレージ装置に訓練データを要求する先読み処理とをそれぞれ含み、前記他のコンピュータと同期して実行される複数のイテレーションのうちの第１のイテレーションにおいて、前記バッファ領域から訓練データを読み出す第１の読み出し時間を測定し、
前記第１の読み出し時間が、前記第１のイテレーションにおいて前記他のコンピュータで測定される第２の読み出し時間より大きいことを含む第１の遅延条件を満たす場合、前記第１のイテレーションよりも後の第２のイテレーションにおいて使用される前記特定のデータ量を増加させる、
処理をコンピュータに実行させる並列機械学習プログラム。

【請求項2】

前記第１の遅延条件は、前記第２の読み出し時間に対する前記第１の読み出し時間の比が、１より大きい第１の閾値を超えることである、
請求項１記載の並列機械学習プログラム。

【請求項3】

前記第１のイテレーションにおいて、前記ストレージ装置から訓練データを先読みして前記バッファ領域に記憶する第１の先読み時間を測定し、
前記第１の先読み時間が、前記第１のイテレーションより前の第３のイテレーションにおいて前記コンピュータで測定される第２の先読み時間より大きいことを含む第２の遅延条件を満たす場合、前記第２のイテレーションにおいて使用される前記特定のデータ量を減少させる、
処理を前記コンピュータに更に実行させる請求項１記載の並列機械学習プログラム。

【請求項4】

前記第２の遅延条件は、前記第２の先読み時間に対する前記第１の先読み時間の比が、１より大きい第２の閾値を超えることである、
請求項３記載の並列機械学習プログラム。

【請求項5】

前記特定のデータ量の増加は、増加された前記特定のデータ量を前記他のコンピュータにも適用させる処理を含む、
請求項１記載の並列機械学習プログラム。

【請求項6】

【請求項7】

他の情報処理装置と共通に使用されるストレージ装置から受信される訓練データを記憶するバッファ領域を含む記憶部と、
前記バッファ領域から訓練データを読み出して機械学習モデルのパラメータ値を更新する学習処理と、前記バッファ領域に記憶される訓練データが特定のデータ量になるように前記ストレージ装置に訓練データを要求する先読み処理とをそれぞれ含み、前記他の情報処理装置と同期して実行される複数のイテレーションのうちの第１のイテレーションにおいて、前記バッファ領域から訓練データを読み出す第１の読み出し時間を測定し、前記第１の読み出し時間が、前記第１のイテレーションにおいて前記他の情報処理装置で測定される第２の読み出し時間より大きいことを含む第１の遅延条件を満たす場合、前記第１のイテレーションよりも後の第２のイテレーションにおいて使用される前記特定のデータ量を増加させる処理部と、
を有する情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は並列機械学習プログラム、並列機械学習方法および情報処理装置に関する。

【背景技術】

【0002】

複数の情報処理装置が協調して同一の機械学習モデルを訓練することで、機械学習時間を短縮する並列機械学習がある。並列機械学習では、複数の情報処理装置が、異なる訓練データから並列に、機械学習モデルのパラメータ値を更新するための断片的情報を生成する。複数の情報処理装置は、これら断片的情報を集計してパラメータ値を更新する。通常、更新後のパラメータ値は複数の情報処理装置の間で同一である。複数の情報処理装置は、パラメータ値を更新するイテレーションを同期しながら繰り返す。

【0003】

例えば、複数の情報処理装置はそれぞれ、ミニバッチと呼ばれる一定量の訓練データからニューラルネットワークの出力の誤差を算出し、誤差逆伝播法によってパラメータ値の誤差勾配を算出する。複数の情報処理装置は、異なる訓練データから算出された誤差勾配を集計し、集計した誤差勾配を用いてパラメータ値を更新する。複数の情報処理装置は、訓練データを変えながら上記のイテレーションを繰り返す。

【0004】

なお、複数の計算ノードを用いてニューラルネットワークを訓練する並列機械学習の際に、キャッシュメモリのライン衝突を検出し、キャッシュウェイを変更することでライン衝突を解消するキャッシュ最適化方法が提案されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】米国特許出願公開第２０２１／０３４９８３５号明細書

【発明の概要】

【発明が解決しようとする課題】

【0006】

複数の情報処理装置が使用する訓練データは、共通のストレージ装置に記憶されていることがある。複数の情報処理装置は、イテレーションを進めながらストレージ装置から訓練データを適宜読み込むことがある。その際、ストレージ装置から１つの情報処理装置への訓練データの読み込みは、２以上の情報処理装置からの要求が衝突するなどの偶発的理由によって一時的に遅延することがある。訓練データの受信待ちによって１つの情報処理装置でイテレーションの処理開始が遅れると、イテレーションの同期を通じてその影響が他の情報処理装置に及び、他の情報処理装置で待ち時間が発生することがある。

【0007】

そこで、複数の情報処理装置はそれぞれ、あるイテレーションで使用する訓練データを、当該イテレーションの前にストレージ装置に要求しておく先読み処理を行うことが考えられる。先読み処理によって受信される訓練データは、バッファ領域に記憶される。しかし、バッファ領域のデータ量を固定にすると、設定されたデータ量が不適切であることがあり、訓練データの先読み遅延に起因して待ち時間が発生することがある。

【0008】

例えば、バッファ領域のデータ量が過小であると、一時的な先読み遅延がバッファリングによってカバーされない可能性があり、イテレーションの開始時点で、使用する訓練データがバッファ領域に揃っていない可能性がある。一方、バッファ領域のデータ量が過大であると、複数の情報処理装置が一斉に多量の訓練データを先読みしようとすることがある。その結果、ストレージ装置の負荷が高くなってスループットが低下し、かえって複数の情報処理装置で先読み遅延が発生する可能性がある。

【0009】

そこで、１つの側面では、本発明は、並列機械学習において訓練データの先読み遅延に起因して発生する待ち時間を削減することを目的とする。

【課題を解決するための手段】

【0010】

１つの態様では、以下の処理をコンピュータに実行させる並列機械学習プログラムが提供される。バッファ領域から訓練データを読み出して機械学習モデルのパラメータ値を更新する学習処理と、バッファ領域に記憶される訓練データが特定のデータ量になるように、他のコンピュータと共通に使用されるストレージ装置に訓練データを要求する先読み処理とをそれぞれ含み、他のコンピュータと同期して実行される複数のイテレーションのうちの第１のイテレーションにおいて、バッファ領域から訓練データを読み出す第１の読み出し時間を測定する。第１の読み出し時間が、第１のイテレーションにおいて他のコンピュータで測定される第２の読み出し時間より大きいことを含む第１の遅延条件を満たす場合、第１のイテレーションよりも後の第２のイテレーションにおいて使用される特定のデータ量を増加させる。

【0011】

また、１つの態様では、並列機械学習方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

【発明の効果】

【0012】

１つの側面では、並列機械学習において訓練データの先読み遅延に起因して発生する待ち時間が削減される。

【図面の簡単な説明】

【0013】

【図1】第１の実施の形態の情報処理装置を説明するための図である。

【図2】第２の実施の形態の情報処理システムの例を示す図である。

【図3】計算ノードのハードウェア例を示すブロック図である。

【図4】ニューラルネットワークの構造例を示す図である。

【図5】複数の計算ノードによる並列機械学習の例を示す図である。

【図6】ストレージサーバに記憶される訓練データの例を示す図である。

【図7】ストレージ先読みの一時的遅延の例を示す図である。

【図8】ストレージサーバのスループット低下の例を示す図である。

【図9】バッファサイズの変更例を示す図である。

【図10】バッファサイズの変更例を示す図（続き）である。

【図11】計算ノードのソフトウェア階層の例を示すブロック図である。

【図12】計算ノードの機能例を示すブロック図である。

【図13】機械学習の手順例を示すフローチャートである。

【図14】イテレーション実行の手順例を示すフローチャートである。

【図15】イテレーション実行の手順例を示すフローチャート（続き）である。

【発明を実施するための形態】

【0014】

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

【0015】

図１は、第１の実施の形態の情報処理装置を説明するための図である。
第１の実施の形態の情報処理装置１０は、情報処理装置２２などの他の情報処理装置と協調して並列機械学習を実行する。情報処理装置１０，２２は、機械学習モデル１５に含まれるパラメータ値を更新するイテレーションを同期して繰り返す。情報処理装置１０，２２は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０，２２が、コンピュータ、ノードまたは機械学習装置と呼ばれてもよい。

【0016】

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２が、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの電子回路を含んでもよい。プロセッサは、例えば、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

【0017】

記憶部１１は、バッファ領域１３を含む。バッファ領域１３は、ストレージ装置２１から受信される訓練データを記憶する。ストレージ装置２１は、情報処理装置１０，２２が機械学習に使用する訓練データを記憶しており、情報処理装置１０，２２から共通にアクセスされる。ストレージ装置２１は、ＨＤＤやフラッシュメモリなどの不揮発性記憶デバイスに訓練データを格納している。ストレージ装置２１は、サーバ装置であってもよい。ストレージ装置２１は、情報処理装置１０，２２からの要求に応じて訓練データを読み出し、読み出した訓練データを送信する。

【0018】

情報処理装置１０，２２とストレージ装置２１とは、ＬＡＮ（Local Area Network）などのネットワークを介して通信してもよい。例えば、情報処理装置１０，２２およびストレージ装置２１は、ネットワークスイッチに接続されている。訓練データは、機械学習モデル１５に入力される入力データと、機械学習モデル１５の出力の正解を示す教師データとを対応付けた複数のレコードを含む。機械学習モデル１５が画像認識モデルである場合、例えば、入力データが画像データを含み、教師データが正解クラスを含む。機械学習モデル１５は、１以上のパラメータ値を含む。機械学習モデル１５はニューラルネットワークであってもよく、エッジの重みを示すパラメータ値を含んでもよい。

【0019】

処理部１２は、情報処理装置２２と同期して複数のイテレーションを実行する。あるイテレーションから次のイテレーションに進むタイミングが、情報処理装置１０，２２の間で同期する。よって、あるイテレーションにおいて情報処理装置１０が一定の処理を完了しても、情報処理装置２２が一定の処理を完了するまで次のイテレーションに進まずに待機する場合がある。各イテレーションは、学習処理および先読み処理を含む。

【0020】

学習処理は、バッファ領域１３から一定量の訓練データを読み出して機械学習モデル１５のパラメータ値を更新する。一定量の訓練データは、例えば、一定個数の訓練データレコードである。一定量の訓練データはバッチまたはミニバッチと呼ばれることがあり、一定量はバッチサイズまたはミニバッチサイズと呼ばれることがある。一定量の訓練データは、例えば、クラスラベルがそれぞれ付された一定枚数の画像データである。

【0021】

例えば、学習処理は、機械学習モデル１５に入力データを入力し、機械学習モデル１５の出力と教師データとの間の誤差を算出する。学習処理は、一定量の訓練データの中で平均誤差を算出する。学習処理は、誤差逆伝播法によってパラメータ値に対する誤差勾配を算出する。学習処理は、算出された誤差勾配を示す誤差情報を情報処理装置１０，２２の間で交換して、誤差勾配の合計または平均を算出する。学習処理は、集計された誤差勾配に学習率を乗じた分だけパラメータ値を変動させる。

【0022】

先読み処理は、バッファ領域１３に記憶される訓練データがデータ量１４になるように、ストレージ装置２１に訓練データを要求する。データ量１４が、先読み量またはバッファサイズと呼ばれてもよい。先読み処理は、あるイテレーションで使用される訓練データを、当該イテレーションより前にストレージ装置２１に要求する。先読み処理は、ストレージ装置２１から受信された訓練データをバッファ領域１３に格納する。例えば、先読み処理は、次のイテレーションの開始時点でバッファ領域１３の訓練データがデータ量１４に到達するように、不足分だけストレージ装置２１に訓練データを要求する。データ量１４の初期値は、例えば、ミニバッチサイズである。その場合、先読み処理は、あるイテレーションで使用される訓練データを、当該イテレーションの１つ前のイテレーションでストレージ装置２１に要求する。学習処理と先読み処理とは並行に実行される。

【0023】

理想的には、あるイテレーションで使用される訓練データが、当該イテレーションの開始時点でバッファ領域１３に揃っていることが好ましい。しかし、先読み処理の遅延によって、あるイテレーションで使用される訓練データが、当該イテレーションの開始時点でバッファ領域１３に揃っていない可能性がある。その場合、学習処理は、使用する訓練データが揃うまでバッファ領域１３を監視し続けることになり、訓練データの読み出しを開始してから終了するまでの読み出し時間が長くなることがある。その結果、当該イテレーションの実行時間が長くなることがある。

【0024】

先読み処理の遅延は、２以上の情報処理装置からの要求が偶発的に衝突することによって発生する一時的遅延であることがある。一時的遅延は、予期しない遅延または偶発的遅延と呼ばれてもよい。一時的遅延は、ストレージ装置２１の負荷の一時的上昇や、ストレージ装置２１に接続された通信装置の負荷の一時的上昇などによって発生し得る。一時的遅延は、２以上の情報処理装置のうちの一部の情報処理装置についてのみ発生することがある。よって、情報処理装置１０がストレージ装置２１に訓練データを要求してから訓練データを受信するまでの応答時間が変動するという遅延揺れが発生し得る。情報処理装置１０で先読み処理の遅延があると、情報処理装置１０，２２がイテレーションを同期させるため、情報処理装置２２で待ち時間が生じる可能性がある。

【0025】

そこで、処理部１２は、待ち時間が削減されるようにデータ量１４を動的に調整する。処理部１２は、第１のイテレーションにおいて、バッファ領域１３から訓練データを読み出すために要した読み出し時間１６を測定する。読み出し時間１６は、第１のイテレーションで使用する訓練データの読み出しを開始してから、一定量の訓練データの読み出しが完了するまでの経過時間である。第１のイテレーションの開始時点でバッファ領域１３の訓練データが一定量に満たない場合、読み出し時間１６が長くなることがある。

【0026】

情報処理装置２２も、第１のイテレーションにおいて、情報処理装置２２がもつバッファ領域から訓練データを読み出すために要した読み出し時間２３を測定する。処理部１２は、読み出し時間１６が読み出し時間２３より大きいことを含む遅延条件を満たす場合、第１のイテレーションよりも後の第２のイテレーションの先読み処理で使用されるデータ量１４を増加させる。例えば、処理部１２は、情報処理装置２２から読み出し時間２３を受信し、読み出し時間１６が遅延条件を満たすか判定する。

【0027】

遅延条件は、例えば、読み出し時間２３に対する読み出し時間１６の比が、１より大きい閾値を超えることである。第２のイテレーションは、例えば、第１のイテレーションの１つ後のイテレーションである。先読み処理のデータ量１４が増加することで、一時的遅延によってイテレーションの開始時点でバッファ領域１３の訓練データが不足しているリスクが低下する。なお、情報処理装置１０がデータ量１４を増加させた際、情報処理装置２２もバッファ領域のデータ量を増加させてもよい。また、情報処理装置２２はバッファ領域のデータ量を、情報処理装置１０のデータ量１４と一致させてもよい。

【0028】

以上説明したように、第１の実施の形態の情報処理装置１０は、第１のイテレーションにおいて、バッファ領域１３から訓練データを読み出す読み出し時間１６を測定する。情報処理装置１０は、読み出し時間１６が、情報処理装置２２の読み出し時間２３より大きいことを含む遅延条件を満たす場合、第１のイテレーションよりも後の第２のイテレーションにおいて使用されるデータ量１４を増加させる。

【0029】

これにより、情報処理装置１０は、現在の先読みデータ量のもとでカバーされない訓練データの受信遅延を検出することができ、検出された受信遅延がカバーされるように先読みデータ量を調整することができる。よって、並列機械学習において訓練データの受信遅延に起因して発生する待ち時間が削減される。また、適切なデータ量１４をユーザが指定しなくてもよく、情報処理装置の台数や訓練データの総量やストレージ装置２１のハードウェア性能などのシステム要件に適合するように、データ量１４が自動的に調整される。

【0030】

なお、遅延条件は、読み出し時間２３に対する読み出し時間１６の比が閾値を超えることであってもよい。これにより、情報処理装置１０は、読み出し時間１６，２３のスケールに依存せずに閾値を設定することができ、データ量１４の調整を様々な機械学習タスクに適用することができる。また、情報処理装置１０は、データ量１４の増加を情報処理装置２２に適用させてもよい。情報処理装置１０で発生した一時的遅延は情報処理装置２２でも発生する可能性があるため、これにより待ち時間が削減される。

【0031】

また、情報処理装置１０は、第１のイテレーションにおいて、ストレージ装置２１から訓練データを先読みしてバッファ領域１３に記憶するための第１の先読み時間を測定してもよい。情報処理装置１０は、第１の先読み時間が、第１のイテレーションより前の第３のイテレーションで情報処理装置１０によって測定された第２の先読み時間より大きいことを含む遅延条件を満たす場合、データ量１４を減少させてもよい。この遅延条件は、第２の先読み時間に対する第１の先読み時間の比が閾値を超えることであってもよい。

【0032】

複数の情報処理装置の先読みデータ量が増加すると、これら複数の情報処理装置がストレージ装置２１に対して一斉に多量の訓練データを要求する可能性がある。これにより、ストレージ装置２１の負荷が増大し、スループットが低下して応答時間が長くなる可能性がある。これにより、かえって複数の情報処理装置の全体で先読み処理が遅延する可能性がある。これに対して、上記の処理によって、情報処理装置１０は、ストレージ装置２１のスループットの低下を検出することができ、ストレージ装置２１のハードウェア性能に対して先読みデータ量が過大になることを抑制できる。

【0033】

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態の情報処理システムの例を示す図である。

【0034】

第２の実施の形態の情報処理システムは、ネットワークスイッチ３１と、ストレージサーバ３２と、計算ノード３３，３４，３５を含む複数の計算ノードとを有する。計算ノードの台数は、例えば、１０００台である。ストレージサーバ３２および計算ノード３３，３４，３５は、ネットワークスイッチ３１に接続されている。

【0035】

ネットワークスイッチ３１は、ストレージサーバ３２と計算ノード３３，３４，３５との間の通信を中継する通信装置である。ただし、ストレージサーバ３２と計算ノード３３，３４，３５とを接続するネットワークが、複数台のネットワークスイッチを含んでもよく、ルータなどの他の種類の通信装置を含んでもよい。

【0036】

ストレージサーバ３２は、機械学習に使用される訓練データを記憶するサーバコンピュータである。ストレージサーバ３２は、ＨＤＤやフラッシュメモリなどの不揮発性記憶デバイスに訓練データを記憶している。ストレージサーバ３２は、計算ノード３３，３４，３５から要求を受信し、要求された訓練データを読み出して返信する。第２の実施の形態で訓練される機械学習モデルは画像認識モデルであり、第２の実施の形態の訓練データはクラスラベルが付与された画像データである。ストレージサーバ３２は、例えば、１枚当たり１メガバイトの画像データを１００万枚分記憶している。

【0037】

計算ノード３３，３４，３５は、並列機械学習に使用されるクライアントコンピュータまたはサーバコンピュータである。計算ノード３３，３４，３５は、協調して単一の機械学習モデルを訓練する。計算ノード３３，３４，３５は、機械学習モデルのパラメータ値として同一の初期値をもつ。計算ノード３３，３４，３５は、互いに異なる訓練データをストレージサーバ３２から読み込み、機械学習モデルのパラメータ値を更新するための断片的情報をそれぞれ生成する。計算ノード３３，３４，３５は、異なる断片的情報を通信によって集計し、機械学習モデルのパラメータ値をそれぞれ更新する。その結果、計算ノード３３，３４，３５は、同一の更新されたパラメータ値をもつ。計算ノード３３，３４，３５は、上記のイテレーションを同期しながら繰り返す。

【0038】

なお、ストレージサーバ３２は、第１の実施の形態のストレージ装置２１に対応する。計算ノード３３は、第１の実施の形態の情報処理装置１０に対応する。計算ノード３４は、第１の実施の形態の情報処理装置２２に対応する。

【0039】

図３は、計算ノードのハードウェア例を示すブロック図である。
計算ノード３３は、バスに接続されたＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。ストレージサーバ３２や計算ノード３４，３５が、計算ノード３３と同様のハードウェアを有してもよい。

【0040】

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムおよびデータをＲＡＭ１０２にロードし、プログラムを実行する。計算ノード３３は、複数のプロセッサを有してもよい。

【0041】

ＲＡＭ１０２は、ＣＰＵ１０１で実行されるプログラムおよびＣＰＵ１０１で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。計算ノード３３は、ＲＡＭ以外の種類の揮発性メモリを有してもよい。

【0042】

ＨＤＤ１０３は、オペレーティングシステム（ＯＳ：Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラムと、データとを記憶する不揮発性ストレージである。計算ノード３３は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の不揮発性ストレージを有してもよい。

【0043】

ＧＰＵ１０４は、ＣＰＵ１０１と連携して画像処理を行い、計算ノード３３に接続された表示装置１１１に画像を出力する。表示装置１１１は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイまたはプロジェクタである。計算ノード３３に、プリンタなどの他の種類の出力デバイスが接続されてもよい。また、ＧＰＵ１０４は、ＧＰＧＰＵ（General Purpose Computing on Graphics Processing Unit）として使用されてもよい。ＧＰＵ１０４は、ＣＰＵ１０１からの指示に応じてプログラムを実行し得る。計算ノード３３は、ＲＡＭ１０２以外の揮発性半導体メモリをＧＰＵメモリとして有してもよい。

【0044】

入力インタフェース１０５は、計算ノード３３に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２は、例えば、マウス、タッチパネルまたはキーボードである。計算ノード３３に複数の入力デバイスが接続されてもよい。

【0045】

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムおよびデータを読み取る読み取り装置である。記録媒体１１３は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）およびＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）およびＤＶＤ（Digital Versatile Disc）が含まれる。媒体リーダ１０６は、記録媒体１１３から読み取られたプログラムおよびデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１によって実行されることがある。

【0046】

記録媒体１１３は、可搬型記録媒体であってもよい。記録媒体１１３は、プログラムおよびデータの配布に用いられることがある。また、記録媒体１１３およびＨＤＤ１０３が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

【0047】

通信インタフェース１０７は、ケーブルによってネットワークスイッチ３１と接続される。通信インタフェース１０７は、ネットワークスイッチ３１を介して、ストレージサーバ３２や計算ノード３４，３５と通信する。ただし、計算ノード３３が、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースを有してもよい。

【0048】

次に、並列機械学習について説明する。
図４は、ニューラルネットワークの構造例を示す図である。
ニューラルネットワーク１４０は、第２の実施の形態の機械学習モデルの例である。ニューラルネットワーク１４０は、画像データの入力を受け付け、画像データに写った物体のクラスを推定する。ニューラルネットワーク１４０は、層１４１，１４２，１４３，１４４などの複数の層を含む。層１４１は、画像データを示すテンソルを受け付ける入力層である。層１４２は、層１４１の１つ後の中間層である。層１４３は、層１４４の１つ前の中間層である。層１４４は、クラス推定結果を出力する出力層である。

【0049】

各層は１以上のノード（通常は複数のノード）を含む。層１４１以外の各層に含まれるノードは、１つ前の層に含まれるノードとの間にエッジをもつ。層１４４以外の各層に含まれるノードは、１つ後の層に含まれるノードとの間にエッジをもつ。各エッジは、機械学習を通じて最適化されるパラメータ値として重みをもつ。ニューラルネットワーク１４０は、畳み込みニューラルネットワークであってもよい。畳み込みニューラルネットワークは、畳み込み層、プーリング層および全結合層を含んでもよい。畳み込み層は、テンソル中の要素の値を当該要素の周囲にある他の要素の値を用いて更新する畳み込み演算を行う。プーリング層は、テンソル中で隣接する数個の要素を１つの要素に変換する。変換後の要素の値は、例えば、変換前の要素の値の平均値または最大値である。

【0050】

ニューラルネットワーク１４０を訓練する機械学習は、エッジの重みを更新するイテレーションを反復的に実行する。機械学習は、層１４１に画像データを入力する。機械学習は、ある層に含まれるノードの値にエッジの重みを乗じた積を、次段の層に含まれるノードに渡す。機械学習は、前段の層に含まれるノードから渡された値を合計し、活性化関数を用いて合計値を一定の値域（例えば、０以上１以下）をもつ値に変換する。機械学習は、上記の計算を層１４１から層１４４に向かって連続的に実行し、層１４４からクラス推定結果を抽出する。上記の処理は順方向処理（フォワード処理）と呼ばれることがある。

【0051】

機械学習は、入力した画像データに対応するクラスラベルとクラス推定結果とを比較して誤差を算出する。誤差は、例えば、平均二乗誤差（ＭＳＥ：Mean Squared Error）である。機械学習は、一定量の画像データについてフォワード処理を行って、平均誤差を算出する。１つのイテレーションで使用される画像データの量は、バッチサイズまたはミニバッチサイズと呼ばれることがある。ミニバッチサイズは、例えば、画像１０枚である。

【0052】

機械学習は、誤差情報を層１４４から層１４１に向かって伝播することで、各エッジの重みに対する誤差勾配を算出する。誤差勾配は、エッジの重みを微少量だけ変化させた場合の誤差の変化量を示す。上記の処理は、逆方向処理（バックワード処理）と呼ばれることがある。機械学習は、誤差勾配と学習率とを用いてエッジの重みを更新する。学習率は、ユーザから指定されるハイパーパラメータ値である。例えば、機械学習は、誤差勾配に学習率を乗じた積だけエッジの重みを減少させる。エッジの重みの更新は、更新処理（アップデート処理）と呼ばれることがある。

【0053】

機械学習は、ニューラルネットワーク１４０に入力する画像データを変えながら上記のイテレーションを繰り返す。イテレーション回数は、数十回から数千回程度である。また、機械学習は、異なる画像データを用いた複数のイテレーションを１セットとして、前のセットと同じ画像データを用いてイテレーションのセットを繰り返す。イテレーションのセットはエポックと呼ばれることがある。エポック数は、数十回程度である。上記のようなエッジの重みの更新方法は、誤差逆伝播法と呼ばれることがある。第２の実施の形態では、フォワード処理とバックワード処理とを合わせて「誤差逆伝播」と呼ぶことがある。

【0054】

並列機械学習の場合、計算ノード３３，３４，３５は、ニューラルネットワーク１４０に対して異なる画像データを用いて異なる誤差勾配を並列に算出する。計算ノード３３，３４，３５は、相互に通信して、算出された誤差勾配を集計する。例えば、計算ノード３３，３４，３５は、算出された誤差勾配の平均または合計を算出する。誤差勾配の集計は、通信処理（コミュニケート処理）と呼ばれることがある。並列機械学習は、集計された誤差勾配を用いてエッジの重みを更新する。

【0055】

よって、並列機械学習では、バックワード処理とアップデート処理との間にコミュニケート処理が挿入される。第２の実施の形態では、コミュニケート処理とアップデート処理とを合わせて「重み共有」と呼ぶことがある。

【0056】

図５は、複数の計算ノードによる並列機械学習の例を示す図である。
計算ノード３３は、画像１０枚分の画像データを用いて誤差逆伝播１５１ａを実行する。計算ノード３４は、誤差逆伝播１５１ａと並列に、誤差逆伝播１５１ａと異なる画像１０枚分の画像データを用いて誤差逆伝播１５１ｂを実行する。計算ノード３５は、誤差逆伝播１５１ａ，１５１ｂと並列に、誤差逆伝播１５１ａ，１５１ｂと異なる画像１０枚分の画像データを用いて誤差逆伝播１５１ｃを実行する。誤差逆伝播１５１ａ，１５１ｂ，１５１ｃの全てが完了すると、計算ノード３３，３４，３５は重み共有１５２を実行する。これによって１つのイテレーションが終了する。

【0057】

次に、計算ノード３３は、誤差逆伝播１５１ａ，１５１ｂ，１５１ｃと異なる画像１０枚分の画像データを用いて誤差逆伝播１５３ａを実行する。計算ノード３４は、誤差逆伝播１５３ａと並列に、誤差逆伝播１５１ａ，１５１ｂ，１５１ｃ，１５３ａと異なる画像１０枚分の画像データを用いて誤差逆伝播１５３ｂを実行する。計算ノード３５は、誤差逆伝播１５３ａ，１５３ｂと並列に、誤差逆伝播１５１ａ，１５１ｂ，１５１ｃ，１５３ａ，１５３ｂと異なる画像１０枚分の画像データを用いて誤差逆伝播１５３ｃを実行する。誤差逆伝播１５３ａ，１５３ｂ，１５３ｃの全てが完了すると、計算ノード３３，３４，３５は重み共有１５４を実行する。これによって１つのイテレーションが終了する。

【0058】

図６は、ストレージサーバに記憶される訓練データの例を示す図である。
ストレージサーバ３２は、クラスラベルが付与された画像データを記憶する。例えば、ストレージサーバ３２は、画像１００万枚分の画像データを記憶する。ストレージサーバ３２に記憶された画像データは、計算ノード３３，３４，３５を含む複数の計算ノードによって使用される。例えば、あるイテレーションにおいて、画像データ＃１～＃１０が計算ノード３３によって使用され、画像データ＃１１～＃２０が計算ノード３４によって使用され、画像データ＃２１～＃３０が計算ノード３５によって使用される。

【0059】

各計算ノードが使用する画像データは、その計算ノードのノード番号と現在のイテレーション番号とから特定され得る。例えば、計算ノード３３，３４，３５はそれぞれ、ノード番号とイテレーション番号とから、他の計算ノードと重複しないように画像データ番号を算出し、画像データ番号を指定してストレージサーバ３２に画像データを要求する。

【0060】

並列機械学習では、計算ノード３３，３４，３５は多量の画像データを使用する。そこで、計算ノード３３，３４，３５は、イテレーションを進めながら、ストレージサーバ３２から画像データを継続的に読み込む。計算ノード３３，３４，３５は、あるイテレーションで使用する画像データを当該イテレーションより前のイテレーションにおいてストレージサーバ３２に要求する先読み処理を行う。計算ノード３３，３４，３５はそれぞれ、先読みされた画像データを記憶するバッファ領域をもつ。バッファ領域は、例えば、計算ノード３３，３４，３５が有するＲＡＭに含まれる。

【0061】

第２の実施の形態では、イテレーションの開始時点でバッファ領域に記憶されている画像データの枚数の最大値を、バッファサイズと呼ぶことがある。バッファサイズは、ミニバッチサイズの定数倍である。例えば、バッファサイズは、ミニバッチサイズの１倍、２倍、３倍、４倍または５倍である。よって、例えば、バッファサイズは、画像１０枚、画像２０枚、画像３０枚、画像４０枚または画像５０枚である。バッファ領域の物理的記憶容量は、例えば、５０メガバイトである。バッファサイズがミニバッチサイズの１倍である場合、計算ノード３３，３４，３５は、各イテレーションにおいて次のイテレーションで使用する画像データをストレージサーバ３２に要求する。

【0062】

ただし、ストレージサーバ３２からバッファ領域への画像データの先読みは遅延することがある。先読みの遅延には、一時的遅延とスループット低下とがある。一時的遅延は、２以上の計算ノードからストレージサーバ３２への要求が偶然衝突することによって発生する偶発的事象である。一時的遅延は、ストレージサーバ３２から計算ノード３３，３４，３５への応答時間の揺れに起因する。一時的遅延は、同一イテレーションにおいて複数の計算ノードのうちの一部の計算ノードについてのみ発生する。

【0063】

スループット低下は、同一イテレーションにおいて全ての計算ノードがストレージサーバ３２に多量の画像データを要求し、ストレージサーバ３２の負荷が上昇することによって発生する。スループット低下によって、ストレージサーバ３２から全ての計算ノードへの応答時間が長くなる。よって、全ての計算ノードで画像データの先読みが遅延する。

【0064】

応答時間の揺れが比較的大きい情報処理システムにおいて、バッファサイズが過小に設定された場合、あるイテレーションで使用する画像データが当該イテレーションの開示時点でバッファ領域に揃っていないことが起こり得る。その場合、一部の計算ノードで誤差逆伝播の開始が遅延し、重み共有の開始までに他の計算ノードで待ち時間が発生する。一方、バッファサイズが過大に設定された場合、スループット低下が発生し得る。その場合、全ての計算ノードで誤差逆伝播の開始が遅延することがある。

【0065】

図７は、ストレージ先読みの一時的遅延の例を示す図である。
計算ノード３３は、ストレージサーバ３２に画像データを要求して計算ノード３３のバッファ領域に画像データを記憶するストレージ先読み１６１ａを開始する。計算ノード３３は、ストレージ先読み１６１ａの完了の少し前（例えば、画像１０枚中７枚分の画像データがバッファ領域に書き込まれた時）に、バッファ領域からミニバッチサイズの画像データを読み出すバッファ読み出し１６２ａを開始する。計算ノード３３は、ストレージ先読み１６１ａが完了すると、バッファ読み出し１６２ａによって読み出される画像データを用いて誤差勾配を算出する誤差逆伝播１６３ａを開始する。

【0066】

また、計算ノード３３は、誤差逆伝播１６３ａと並行して、次以降のイテレーションのための画像データをストレージサーバ３２から先読みするストレージ先読み１６４ａを開始する。ストレージ先読み１６４ａは、バッファ読み出し１６２ａによって不足する分だけ画像データを補充する。画像データの要求量は、バッファサイズから、イテレーション開始時のバッファ済み画像データ量を引いて、ミニバッチサイズを足した量である。

【0067】

計算ノード３４は、計算ノード３３と並列に、ストレージ先読み１６１ｂを開始する。計算ノード３４は、ストレージ先読み１６１ｂの完了の少し前にバッファ読み出し１６２ｂを開始する。計算ノード３４は、ストレージ先読み１６１ｂが完了すると、誤差逆伝播１６３ｂおよびストレージ先読み１６４ｂを開始する。

【0068】

計算ノード３５は、計算ノード３３，３４と並列に、ストレージ先読み１６１ｃを開始する。計算ノード３５は、ストレージ先読み１６１ｃの完了の少し前にバッファ読み出し１６２ｃを開始する。計算ノード３５は、ストレージ先読み１６１ｃが完了すると、誤差逆伝播１６３ｃおよびストレージ先読み１６４ｃを開始する。誤差逆伝播１６３ａ，１６３ｂ，１６３ｃが完了すると、計算ノード３３，３４，３５は、誤差勾配を集計して重みを更新する重み共有１６５を実行する。これにより、１つのイテレーションが終了する。

【0069】

計算ノード３３は、重み共有１６５の完了の少し前にバッファ読み出し１６６ａを開始する。ただし、一時的遅延によってストレージ先読み１６４ａの所要時間が長くなっている。ここではバッファサイズが小さいため、バッファ読み出し１６６ａの開始時点でバッファ領域にはミニバッチサイズの画像データが揃っていない。そのため、バッファ読み出し１６６ａはバッファ領域にミニバッチサイズの画像データが揃うのを待つことになり、バッファ読み出し１６６ａの所要時間が長くなる。

【0070】

計算ノード３３は、ストレージ先読み１６４ａが完了すると、誤差逆伝播１６７ａおよび次のストレージ先読みを開始する。ストレージ先読み１６４ａの遅延によって、重み共有１６５と誤差逆伝播１６７ａとの間に待ち時間が発生している。

【0071】

計算ノード３４は、重み共有１６５の完了の少し前にバッファ読み出し１６６ｂを開始する。計算ノード３４は、ストレージ先読み１６４ｂおよび重み共有１６５が完了すると、誤差逆伝播１６７ｂおよび次のストレージ先読みを開始する。計算ノード３３と異なり、ストレージ先読み１６４ｂには一時的遅延が発生していない。このため、重み共有１６５と誤差逆伝播１６７ｂとの間に待ち時間は発生しない。

【0072】

計算ノード３５は、重み共有１６５の完了の少し前にバッファ読み出し１６６ｃを開始する。計算ノード３５は、ストレージ先読み１６４ｃおよび重み共有１６５が完了すると、誤差逆伝播１６７ｃおよび次のストレージ先読みを開始する。計算ノード３３と異なり、ストレージ先読み１６４ｃには一時的遅延が発生していない。このため、重み共有１６５と誤差逆伝播１６７ｃとの間に待ち時間は発生しない。

【0073】

誤差逆伝播１６７ａ，１６７ｂ，１６７ｃが完了すると、計算ノード３３，３４，３５は、重み共有１６８を実行する。このとき、計算ノード３３における一時的遅延の影響で、誤差逆伝播１６７ｂ，１６７ｃの完了時点で誤差逆伝播１６７ａはまだ完了していない。このため、誤差逆伝播１６７ｂと重み共有１６８との間に待ち時間が発生し、誤差逆伝播１６７ｃと重み共有１６８との間に待ち時間が発生している。このように、バッファサイズが過小であると、ストレージサーバ３２の応答遅延がバッファリングによってカバーされないことがあり、予期しない待ち時間が発生することがある。

【0074】

図８は、ストレージサーバのスループット低下の例を示す図である。
計算ノード３３は、ストレージ先読み１７１ａを開始する。計算ノード３４は、ストレージ先読み１７１ｂを開始する。計算ノード３５は、ストレージ先読み１７１ｃを開始する。ストレージ先読み１７１ａ，１７１ｂ，１７１ｃは、最初のイテレーションを早期に開始するために、ミニバッチサイズの画像データをストレージサーバ３２に要求する。

【0075】

その後、計算ノード３３は、バッファ読み出し１７２ａを開始する。計算ノード３３は、ストレージ先読み１７１ａが完了すると、誤差逆伝播１７３ａおよびストレージ先読み１７４ａを開始する。計算ノード３４は、バッファ読み出し１７２ｂを開始する。計算ノード３４は、ストレージ先読み１７１ｂが完了すると、誤差逆伝播１７３ｂおよびストレージ先読み１７４ｂを開始する。計算ノード３５は、バッファ読み出し１７２ｃを開始する。計算ノード３５は、ストレージ先読み１７１ｃが完了すると、誤差逆伝播１７３ｃおよびストレージ先読み１７４ｃを開始する。

【0076】

ここではバッファサイズが大きいため、ストレージ先読み１７４ａ，１７４ｂ，１７４ｃは、ストレージ先読み１７１ａ，１７１ｂ，１７１ｃよりも多い画像データをストレージサーバ３２に要求する。計算ノード３３，３４，３５から多量の画像データが要求されるため、ストレージサーバ３２では、スループットが低下して応答時間が長くなる。よって、ストレージ先読み１７４ａ，１７４ｂ，１７４ｃの所要時間が長くなる。

【0077】

誤差逆伝播１７３ａ，１７３ｂ，１７３ｃが完了すると、計算ノード３３，３４，３５は、重み共有１７５を実行する。しかし、重み共有１７５が完了した時点で、計算ノード３３，３４，３５のバッファ領域には十分な画像データが記憶されていない。

【0078】

計算ノード３３は、ストレージ先読み１７４ａの完了の少し前にバッファ読み出し１７６ａを開始する。計算ノード３３は、ストレージ先読み１７４ａが完了すると、誤差逆伝播１７７ａおよび次のストレージ先読みを開始する。計算ノード３４は、ストレージ先読み１７４ｂの完了の少し前にバッファ読み出し１７６ｂを開始する。計算ノード３４は、ストレージ先読み１７４ｂが完了すると、誤差逆伝播１７７ｂおよび次のストレージ先読みを開始する。計算ノード３５は、ストレージ先読み１７４ｃの完了の少し前にバッファ読み出し１７６ｃを開始する。計算ノード３５は、ストレージ先読み１７４ｃが完了すると、誤差逆伝播１７７ｃおよび次のストレージ先読みを開始する。

【0079】

ストレージ先読み１７４ａの遅延によって、重み共有１７５と誤差逆伝播１７７ａとの間に待ち時間が発生している。また、ストレージ先読み１７４ｂの遅延によって、重み共有１７５と誤差逆伝播１７７ｂとの間に待ち時間が発生している。また、ストレージ先読み１７４ｃの遅延によって、重み共有１７５と誤差逆伝播１７７ｃとの間に待ち時間が発生している。誤差逆伝播１７７ａ，１７７ｂ，１７７ｃが完了すると、計算ノード３３，３４，３５は、重み共有１７８を実行する。

【0080】

このように、バッファサイズが過大であると、ストレージサーバ３２のスループットが低下し、かえって先読み処理が遅延して待ち時間が発生することがある。そこで、第２の実施の形態の情報処理システムは、バッファサイズを自動的に調整する。

【0081】

図９は、バッファサイズの変更例を示す図である。
ここでは、ミニバッチサイズが画像１０枚であり、バッファサイズの初期値が画像１０枚である場合を想定する。計算ノード３３は、１０枚の画像データを要求するストレージ先読み１８１ａを開始する。計算ノード３４は、１０枚の画像データを要求するストレージ先読み１８１ｂを開始する。計算ノード３５は、１０枚の画像データを要求するストレージ先読み１８１ｃを開始する。これにより、計算ノード３３，３４，３５のバッファ領域には、それぞれ１０枚の画像データが蓄積される。

【0082】

計算ノード３３は、１０枚の画像データを読み出すバッファ読み出し１８２ａを開始する。そして、計算ノード３３は、誤差逆伝播１８３ａと、１０枚の画像データを要求するストレージ先読み１８４ａとを開始する。ここでは、一時的遅延によってストレージ先読み１８４ａの所要時間が長くなっている。計算ノード３４は、１０枚の画像データを読み出すバッファ読み出し１８２ｂを開始する。そして、計算ノード３４は、誤差逆伝播１８３ｂと、１０枚の画像データを要求するストレージ先読み１８４ｂとを開始する。

【0083】

計算ノード３５は、１０枚の画像データを読み出すバッファ読み出し１８２ｃを開始する。そして、計算ノード３５は、誤差逆伝播１８３ｃと、１０枚の画像データを要求するストレージ先読み１８４ｃとを開始する。これにより、計算ノード３３，３４，３５のバッファ領域には、それぞれ１０枚の画像データが蓄積される。計算ノード３３，３４，３５は、誤差逆伝播１８３ａ，１８３ｂ，１８３ｃが完了すると、重み共有１８５を実行する。これにより、１つのイテレーションが終了する。

【0084】

計算ノード３３は、１０枚の画像データを読み出すバッファ読み出し１８６ａを開始する。そして、計算ノード３３は、誤差逆伝播１８７ａと、１０枚の画像データを要求するストレージ先読み１８８ａとを開始する。ここでは、ストレージ先読み１８４ａの遅延によってバッファ読み出し１８６ａの所要時間が長くなっている。計算ノード３３は、バッファ読み出し１８６ａに要したバッファ読み出し時間ｔ１を測定する。バッファ読み出し時間は、画像データの読み出しのためにバッファ領域にアクセスし始めてから、ミニバッチサイズの画像データの読み出しが完了するまでの時間である。

【0085】

計算ノード３４は、１０枚の画像データを読み出すバッファ読み出し１８６ｂを開始する。そして、計算ノード３４は、誤差逆伝播１８７ｂと、１０枚の画像データを要求するストレージ先読み１８８ｂとを開始する。計算ノード３４は、バッファ読み出し１８６ｂに要したバッファ読み出し時間ｔ２を測定する。また、計算ノード３４は、ストレージ先読み１８８ｂに要したストレージ先読み時間ｔ３を測定する。ストレージ先読み時間は、ストレージサーバ３２に画像データを要求し始めてから、要求した全ての画像データのバッファ領域への書き込みが完了するまでの時間である。

【0086】

計算ノード３５は、１０枚の画像データを読み出すバッファ読み出し１８６ｃを開始する。そして、計算ノード３５は、誤差逆伝播１８７ｃと、１０枚の画像データを要求するストレージ先読み１８８ｂｃとを開始する。これにより、計算ノード３３，３４，３５のバッファ領域には、それぞれ１０枚の画像データが蓄積される。計算ノード３３，３４，３５は、誤差逆伝播１８７ａ，１８７ｂ，１８７ｃが完了すると、重み共有１８９を実行する。これにより、１つのイテレーションが終了する。

【0087】

ここで、計算ノード３３は、計算ノード３４からバッファ読み出し時間ｔ２を取得する。計算ノード３３は、計算ノード３３のバッファ読み出し時間ｔ１を計算ノード３４のバッファ読み出し時間ｔ２で割ったノード間比率ｔ１／ｔ２を算出し、事前に設定された閾値Ｔｈ１と比較する。閾値Ｔｈ１は、１より大きい数値である。ノード間比率ｔ１／ｔ２が閾値Ｔｈ１より大きい場合、計算ノード３３は、次のイテレーションからバッファサイズを増加することを決定する。計算ノード３４，３５も、計算ノード３３と同様の判定を行う。少なくとも１つの計算ノードがバッファサイズの増加を決定すると、計算ノード３３，３４，３５の全てがバッファサイズを増加させる。よって、計算ノード３３，３４，３５のバッファサイズは統一される。ここでは、計算ノード３３，３４，３５のバッファサイズが画像５０枚に増加する場合を想定する。

【0088】

図１０は、バッファサイズの変更例を示す図（続き）である。
計算ノード３３は、１０枚の画像データを読み出すバッファ読み出し１９１ａを開始する。そして、計算ノード３３は、誤差逆伝播１９２ａと、５０枚の画像データを要求するストレージ先読み１９３ａとを開始する。計算ノード３４は、１０枚の画像データを読み出すバッファ読み出し１９１ｂを開始する。そして、計算ノード３４は、誤差逆伝播１９２ｂと、５０枚の画像データを要求するストレージ先読み１９３ｂとを開始する。

【0089】

計算ノード３５は、１０枚の画像データを読み出すバッファ読み出し１９１ｃを開始する。そして、計算ノード３５は、誤差逆伝播１９２ｃと、５０枚の画像データを要求するストレージ先読み１９３ｃとを開始する。これにより、計算ノード３３，３４，３５のバッファ領域には、それぞれ５０枚の画像データが蓄積される。計算ノード３３，３４，３５は、誤差逆伝播１９２ａ，１９２ｂ，１９２ｃが完了すると、重み共有１９４を実行する。これにより、１つのイテレーションが終了する。

【0090】

バッファサイズが急増したため、ストレージ先読み１９３ａ，１９３ｂ，１９３ｃは、一斉に多量の画像データをストレージサーバ３２に要求している。ここでは、ストレージサーバ３２の負荷が増大し、スループット低下によってストレージ先読み１９３ａ，１９３ｂ，１９３ｃの所要時間が長くなっている。計算ノード３４は、ストレージ先読み１９３ｂに要したストレージ先読み時間ｔ４を算出する。

【0091】

ここで、計算ノード３４は、ストレージ先読み時間ｔ４を、１つ前のイテレーションのストレージ先読み時間ｔ３で割ったイテレーション間比率ｔ４／ｔ３を算出し、事前に設定された閾値Ｔｈ２と比較する。閾値Ｔｈ２は、１より大きい数値である。イテレーション間比率ｔ４／ｔ３が閾値Ｔｈ２より大きい場合、計算ノード３４は、次のイテレーションからバッファサイズを減少させることを決定する。計算ノード３３，３５も、計算ノード３４と同様の判定を行う。ここでは、計算ノード３３，３４，３５のバッファサイズが画像４０枚に減少する場合を想定する。

【0092】

計算ノード３３は、１０枚の画像データを読み出すバッファ読み出し１９５ａを開始し、誤差逆伝播１９６ａを開始する。このイテレーションでは、ストレージサーバ３２に画像データを要求しなくても、バッファ領域にはバッファサイズ相当の画像データが確保される。よって、計算ノード３３は、ストレージ先読みを実行しない。

【0093】

計算ノード３４は、１０枚の画像データを読み出すバッファ読み出し１９５ｂを開始し、誤差逆伝播１９６ｂを開始する。計算ノード３５は、１０枚の画像データを読み出すバッファ読み出し１９５ｃを開始し、誤差逆伝播１９６ｃを開始する。これにより、計算ノード３３，３４，３５のバッファ領域には、それぞれ４０枚の画像データが蓄積される。計算ノード３３，３４，３５は、誤差逆伝播１９６ａ，１９６ｂ，１９６ｃが完了すると、重み共有１９７を実行する。これにより、１つのイテレーションが終了する。

【0094】

次のイテレーションでは、計算ノード３３は、１０枚の画像データを要求するストレージ先読み１９８ａを開始する。計算ノード３４は、１０枚の画像データを要求するストレージ先読み１９８ｂを開始する。計算ノード３５は、１０枚の画像データを要求するストレージ先読み１９８ｃを開始する。これにより、計算ノード３３，３４，３５のバッファ領域には、それぞれ４０枚の画像データが蓄積される。

【0095】

このように、計算ノード３３，３４，３５は、ノード間比率が閾値Ｔｈ１を超える場合、バッファリングでカバーされない一時的遅延が発生したと判定し、バッファサイズを増加させる。一方、計算ノード３３，３４，３５は、イテレーション間比率が閾値Ｔｈ２を超える場合、ストレージサーバ３２のスループット低下が発生したと判定し、バッファサイズを減少させる。これにより、システム環境に合わせてバッファサイズが適切に調整される。収束後のバッファサイズは、ストレージサーバ３２の応答時間の揺れをカバーでき、かつ、ストレージサーバ３２のキャパシティを超えないようなバッファサイズである。

【0096】

ここで、並列機械学習の延べ学習時間について説明する。Ｔを延べ学習時間、Ｎを計算ノード数、Ｉをイテレーション数とする。また、ｘを遅延なし時の１イテレーション当たりの実行時間、ｘ_ｄを一時的遅延による平均遅延時間、ｘ_ｃをスループット低下による平均遅延時間、ｐ_ｄを一時的遅延の発生確率、ｐ_ｃをスループット低下の発生確率とする。

【0097】

バッファサイズを過小な固定値に設定する場合、Ｔ＝Ｉ×Ｎ×（ｘ＋ｐ_ｄ×ｘ_ｄ）である。バッファサイズを過大な固定値に設定する場合、Ｔ＝Ｉ×Ｎ×（ｘ＋ｐ_ｃ×ｘ_ｃ）である。一方、第２の実施の形態の方法でバッファサイズを自動調整する場合、Ｔ＝Ｉ×Ｎ×ｘである。バッファサイズを過大な固定値に設定する場合と比べた第２の実施の形態の改善率は、（ｘ＋ｐ_ｃ×ｘ_ｃ）／ｘである。

【0098】

次に、計算ノード３３，３４，３５の機能および処理手順について説明する。
図１１は、計算ノードのソフトウェア階層の例を示すブロック図である。
計算ノード３３は、ＯＳ１２１、フレームワーク低レベル部１２２、フレームワーク高レベル部１２３およびニューラルネットワーク１２４を有する。計算ノード３４，３５が、計算ノード３３と同様のソフトウェア階層を有してもよい。

【0099】

ＯＳ１２１は、計算ノード３３が有するＣＰＵ１０１、ＲＡＭ１０２、ＧＰＵ１０４などの計算リソースを管理する。機械学習にＧＰＵ１０４が使用されてもよい。フレームワーク低レベル部１２２は、機械学習用ライブラリプログラムを含む機械学習フレームワークのうち、計算ノード間通信やバッファ領域の確保などの低レベル制御を行うモジュールである。フレームワーク低レベル部１２２は、前述の方法によってバッファサイズを自動的に調整するバッファサイズ制御部１３３を有する。

【0100】

フレームワーク高レベル部１２３は、機械学習フレームワークのうち、訓練データの読み込みや機械学習モデルのパラメータ更新などの高レベル制御を行うモジュールである。フレームワーク高レベル部１２３は、画像データをストレージサーバ３２からバッファ領域に読み込むデータロード部１３４を有する。ニューラルネットワーク１２４は、並列機械学習によって訓練されるパラメータ値を含む機械学習モデルである。

【0101】

図１２は、計算ノードの機能例を示すブロック図である。
計算ノード３３は、訓練データ記憶部１３１、モデル記憶部１３２、バッファサイズ制御部１３３、データロード部１３４および重み更新部１３５を有する。訓練データ記憶部１３１およびモデル記憶部１３２は、例えば、ＲＡＭ１０２またはＨＤＤ１０３を用いて実装される。バッファサイズ制御部１３３、データロード部１３４および重み更新部１３５は、例えば、ＣＰＵ１０１またはＧＰＵ１０４とプログラムとを用いて実装される。

【0102】

訓練データ記憶部１３１は、バッファ領域を含む。バッファ領域には、データロード部１３４によって画像データが書き込まれる。また、バッファ領域からは、重み更新部１３５によって画像データが読み出される。画像データには、クラスラベルが付与されている。モデル記憶部１３２は、機械学習モデルとしてニューラルネットワークを記憶する。ニューラルネットワークは、エッジの重みを示すパラメータ値を含む。

【0103】

バッファサイズ制御部１３３は、バッファ領域のバッファサイズを制御する。バッファサイズ制御部１３３は、イテレーション毎にバッファ読み出し時間およびストレージ先読み時間を測定する。バッファサイズ制御部１３３は、ノード番号が１つ大きい隣接の計算ノードに計算ノード３３のバッファ読み出し時間を送信し、ノード番号が１つ小さい隣接の計算ノードから当該計算ノードのバッファ読み出し時間を受信する。

【0104】

バッファサイズ制御部１３３は、バッファ読み出し時間からノード間比率を算出し、ストレージ先読み時間からイテレーション間比率を算出する。バッファサイズ制御部１３３は、ノード間比率およびイテレーション間比率に基づいて、次イテレーションのバッファサイズを選択する。バッファサイズ制御部１３３は、選択したバッファサイズを他の全ての計算ノードに送信し、複数の計算ノードの間で統一されたバッファサイズを決定する。バッファサイズ制御部１３３は、バッファサイズをデータロード部１３４に通知する。

【0105】

データロード部１３４は、イテレーション毎に、訓練データ記憶部１３１に記憶された画像データの現在のデータ量とミニバッチサイズとバッファサイズとから、先読みデータ量を算出する。データロード部１３４は、先読みデータ量に相当する画像データをストレージサーバ３２に要求し、受信された画像データを訓練データ記憶部１３１に書き込む。時間測定のため、データロード部１３４は、ストレージ先読みの開始および終了をバッファサイズ制御部１３３に通知する。また、データロード部１３４は、バッファ読み出しの開始および終了をバッファサイズ制御部１３３に通知する。

【0106】

重み更新部１３５は、並列機械学習のイテレーションを実行する。重み更新部１３５は、イテレーション毎に、訓練データ記憶部１３１からミニバッチサイズの画像データを読み出す。重み更新部１３５によるバッファ読み出しは、データロード部１３４によって監視される。重み更新部１３５は、読み出された画像データを用いて誤差逆伝播を実行する。重み更新部１３５は、他の計算ノードと通信することで全ての計算ノードで誤差逆伝播が完了したことを検出し、重み共有を実行する。これにより、重み更新部１３５は、モデル記憶部１３２に記憶されたパラメータ値を更新する。

【0107】

なお、バッファサイズ制御部１３３は、隣接の１つの計算ノードとのみバッファ読み出し時間を比較すればよい。バッファサイズは、最終的に複数の計算ノードの中で最大のものに統一されるため、他の全ての計算ノードとバッファ読み出し時間を比較する場合と同様のバッファサイズが得られる。また、他の全ての計算ノードとバッファ読み出し時間を比較する場合と比べて、通信量や計算時間が削減される。

【0108】

図１３は、機械学習の手順例を示すフローチャートである。
ここでは、計算ノード３３の処理について説明する。計算ノード３４，３５においても、計算ノード３３と同様の処理が実行され得る。

【0109】

（Ｓ１０）バッファサイズ制御部１３３は、バッファサイズ倍率ｂｕｆを１に初期化する。バッファサイズ倍率は、バッファサイズがミニバッチサイズ（イテレーション１つ当たりの訓練データ使用量）の何倍に相当するかを示す。バッファサイズ倍率の候補は、１，２，３，４，５である。重み更新部１３５は、エポック数を０に初期化する。

【0110】

（Ｓ１１）重み更新部１３５は、エポック数が、事前に設定された最大エポック数未満であるか判断する。エポック数が最大エポック数未満である場合、ステップＳ１２に処理が進む。エポック数が最大エポック数に達した場合、ステップＳ１７に処理が進む。

【0111】

（Ｓ１２）重み更新部１３５は、イテレーション数ｉを０に初期化する。
（Ｓ１３）重み更新部１３５は、イテレーション数が、事前に設定された最大イテレーション数未満であるか判断する。イテレーション数が最大イテレーション数未満である場合、ステップＳ１４に処理が進む。イテレーション数が最大イテレーション数に達した場合、ステップＳ１６に処理が進む。

【0112】

（Ｓ１４）計算ノード３３は、後述するイテレーション実行を行う。
（Ｓ１５）重み更新部１３５は、イテレーション数を１つ増加させる。そして、ステップＳ１３に処理が戻る。

【0113】

（Ｓ１６）重み更新部１３５は、エポック数を１つ増加させる。そして、ステップＳ１１に処理が戻る。
（Ｓ１７）重み更新部１３５は、訓練されたニューラルネットワークを出力する。重み更新部１３５は、ニューラルネットワークを不揮発性ストレージに保存してもよいし、表示装置１１１に表示してもよいし、他の情報処理装置に送信してもよい。

【0114】

図１４は、イテレーション実行の手順例を示すフローチャートである。
（Ｓ２０）データロード部１３４は、バッファサイズに応じたデータ量の画像データをストレージサーバ３２に要求して、ストレージサーバ３２からバッファ領域に画像データを読み込むストレージ先読みを開始する。

【0115】

（Ｓ２１）バッファサイズ制御部１３３は、ステップＳ２０で開始されたストレージ先読みについて、ストレージ先読み時間ｔ４の測定を開始する。
（Ｓ２２）重み更新部１３５は、バッファ領域から１イテレーション分の画像データ、すなわち、ミニバッチサイズの画像データを読み出すバッファ読み出しを開始する。

【0116】

（Ｓ２３）バッファサイズ制御部１３３は、ステップＳ２２で開始されたバッファデータ読み出しについて、バッファ読み出し時間ｔ１の測定を開始する。
（Ｓ２４）重み更新部１３５は、ステップＳ２２のバッファ読み出しによって読み出された画像データを用いて、重みに対する誤差勾配を算出する誤差逆伝播を実行する。

【0117】

（Ｓ２５）バッファサイズ制御部１３３は、ノード番号が１つ大きい次の計算ノードにバッファ読み出し時間ｔ１を送信する。また、バッファサイズ制御部１３３は、ノード番号が１つ小さい前の計算ノードからバッファ読み出し時間ｔ２を受信する。

【0118】

（Ｓ２６）重み更新部１３５は、誤差勾配を複数の計算ノードの間で集計して、集計された誤差勾配を用いて重みを更新する重み共有を実行する。
（Ｓ２７）バッファサイズ制御部１３３は、ステップＳ２３，Ｓ２５によって取得されるバッファ読み出し時間ｔ１，ｔ２を用いて、ノード間比率ｔ１／ｔ２を算出する。

【0119】

（Ｓ２８）バッファサイズ制御部１３３は、ステップＳ２７によって算出されるノード間比率が、事前に設定された閾値Ｔｈ１より大きいか判断する。ノード間比率が閾値Ｔｈ１より大きい場合、ステップＳ２９に処理が進む。ノード間比率が閾値Ｔｈ１以下である場合、後述するステップＳ３０に処理が進む。

【0120】

（Ｓ２９）バッファサイズ制御部１３３は、バッファサイズ倍率を増加させる。例えば、バッファサイズ制御部１３３は、バッファサイズ倍率を１だけ増やす。ただし、バッファサイズ倍率が既に最大値（例えば、５）である場合、バッファサイズ制御部１３３は、現在のバッファサイズ倍率を維持する。そして、ステップＳ３５に処理が進む。

【0121】

図１５は、イテレーション実行の手順例を示すフローチャート（続き）である。
（Ｓ３０）バッファサイズ制御部１３３は、イテレーション数が０であるか判断する。イテレーション数が０である場合、ステップＳ３１に処理が進む。イテレーション数が１以上である場合、ステップＳ３２に処理が進む。

【0122】

（Ｓ３１）バッファサイズ制御部１３３は、イテレーション間比率を１とみなす。そして、ステップＳ３３に処理が進む。
（Ｓ３２）バッファサイズ制御部１３３は、１つ前のイテレーションで測定されたストレージ先読み時間ｔ３とステップＳ２１によって取得されるストレージ先読み時間ｔ４とを用いて、イテレーション間比率ｔ４／ｔ３を算出する。なお、バッファサイズ制御部１３３は、次のイテレーションのためにストレージ先読み時間ｔ４を保存しておく。

【0123】

（Ｓ３３）バッファサイズ制御部１３３は、ステップＳ３１，Ｓ３２によって算出されるイテレーション間比率が、事前に設定された閾値Ｔｈ２より大きいか判断する。閾値Ｔｈ２は、閾値Ｔｈ１と同じでもよいし異なってもよい。イテレーション間比率が閾値Ｔｈ２より大きい場合、ステップＳ３４に処理が進む。イテレーション間比率が閾値Ｔｈ２以下である場合、ステップＳ３５に処理が進む。

【0124】

（Ｓ３４）バッファサイズ制御部１３３は、バッファサイズ倍率を減少させる。例えば、バッファサイズ制御部１３３は、バッファサイズ倍率を１だけ減らす。ただし、バッファサイズ倍率が既に最小値（例えば、１）である場合、バッファサイズ制御部１３３は、現在のバッファサイズ倍率を維持する。

【0125】

（Ｓ３５）バッファサイズ制御部１３３は、計算ノード３３が算出したバッファサイズの情報を、他の全ての計算ノードに送信する。また、バッファサイズ制御部１３３は、他の計算ノードが算出したバッファサイズの情報を、他の計算ノードから受信する。バッファサイズの情報は、バッファサイズ倍率でもよいし、バッファサイズ倍率にミニバッチサイズを乗じたバッファサイズ自体でもよい。

【0126】

（Ｓ３６）バッファサイズ制御部１３３は、計算ノード３３よりも大きいバッファサイズを算出した他の計算ノードがあるか判断する。該当する他の計算ノードがある場合、ステップＳ３７に処理が進む。それ以外の場合、イテレーション実行が終了する。

【0127】

（Ｓ３７）バッファサイズ制御部１３３は、他の計算ノードが算出したバッファサイズのうち最大のバッファサイズを特定する。バッファサイズ制御部１３３は、計算ノード３３のバッファサイズを、特定した最大のバッファサイズに変更する。

【0128】

以上説明したように、第２の実施の形態の情報処理システムは、計算ノード３３，３４，３５を用いて、異なる訓練データに対応する異なる誤差情報を並列に算出し、誤差情報を集計してニューラルネットワークの重みを更新する。これにより、ニューラルネットワークを訓練する機械学習の学習時間が短縮される。また、情報処理システムは、計算ノード３３，３４，３５にバッファ領域を設定し、ストレージサーバ３２から計算ノード３３，３４，３５に訓練データを先読みする。これにより、ストレージサーバ３２の応答遅延の影響が軽減され、イテレーションの実行時間が短縮される。

【0129】

また、情報処理システムは、各計算ノードのバッファ読み出し時間を測定し、異なる計算ノードの間でバッファ読み出し時間を比較する。情報処理システムは、バッファ読み出し時間から算出されるノード間比率が閾値を超える場合、全ての計算ノードのバッファサイズを増加させる。これにより、現在のバッファリングによってカバーされない大きな一時的遅延が検出され、この一時的遅延がカバーされるようにバッファサイズが調整される。また、ノード間比率は、ノード番号が連続する隣接する計算ノードの間でのみ行われる。これにより、通信量や計算時間が抑制される。また、比率と閾値とが比較されるため、バッファ読み出し時間のスケールに依存せずに判定が行われる。

【0130】

また、情報処理システムは、各計算ノードのストレージ先読み時間を測定し、イテレーション間でストレージ先読み時間を比較する。情報処理システムは、ストレージ先読み時間から算出されるイテレーション間比率が閾値を超える場合、その計算ノードのバッファサイズを減少させる。これにより、ストレージサーバ３２の過負荷によるスループット低下が検出され、スループットが改善するようにバッファサイズが調整される。その結果、バッファサイズが、システム環境に適合した適切なサイズに収束する。また、バッファサイズは自動的に調整され、ユーザが調整する負担が軽減される。また、比率と閾値とが比較されるため、ストレージ先読み時間のスケールに依存せずに判定が行われる。

【符号の説明】

【0131】

１０，２２情報処理装置
１１記憶部
１２処理部
１３バッファ領域
１４データ量
１５機械学習モデル
１６，２３読み出し時間
２１ストレージ装置

【図1】