特開2024-106288 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-106288計算処理管理装置、計算処理管理システム、および計算処理管理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024106288

(43)【公開日】2024-08-07

(54)【発明の名称】計算処理管理装置、計算処理管理システム、および計算処理管理方法

(51)【国際特許分類】

G06F 9/50 20060101AFI20240731BHJP

G06N 20/00 20190101ALI20240731BHJP

G06N 3/063 20230101ALI20240731BHJP

G06N 3/08 20230101ALI20240731BHJP

【ＦＩ】

G06F9/50 150A

G06N20/00

G06N3/063

G06N3/08

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023010564

(22)【出願日】2023-01-26

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100104190

【弁理士】

【氏名又は名称】酒井昭徳

(72)【発明者】

【氏名】山口久勝

(57)【要約】

【課題】計算処理を効率よく並列処理すること。
【解決手段】情報処理装置１００は、複数の演算部１０１を制御可能である。情報処理装置１００は、複数の演算部１０１のうち、処理速度が一定以上である演算部１０１が分類された１以上のグループと、処理速度が一定未満である演算部１０１が分類された１以上のグループとを含む複数のグループを特定する。情報処理装置１００は、特定した複数のグループのそれぞれのグループにおいて、所定のステップを繰り返し実施するよう、複数のグループを制御する。情報処理装置１００は、所定の条件を満たした場合、それぞれのグループにおいて、所定のステップを繰り返し実施することを停止するよう、複数のグループを制御する。
【選択図】図１

【特許請求の範囲】

【請求項1】

単位処理を複数回実施する計算処理を並列処理する複数の演算部のうち、処理速度が一定以上である演算部が分類された１以上のグループと、処理速度が前記一定未満である演算部が分類された１以上のグループとを含む複数のグループを特定し、
特定した前記複数のグループのそれぞれのグループにおいて、当該グループに属するそれぞれの演算部が、前記単位処理を１回ずつ実施する第１動作と、当該グループに属するそれぞれの演算部が、他のグループが実施した前記単位処理の結果を集約して得られる最新の情報を参照して、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、前記第１動作の後の第２動作とを含むステップを繰り返し実施するよう、前記複数のグループを制御する、
制御部を有することを特徴とする計算処理管理装置。

【請求項2】

前記制御部は、
特定した前記複数のグループのうちいずれかのグループにおいて、前記ステップを繰り返し実施した回数が閾値以上である場合、前記それぞれのグループにおいて、以降、前記ステップを繰り返し実施しないよう、前記複数のグループを制御する、ことを特徴とする請求項１に記載の計算処理管理装置。

【請求項3】

前記制御部は、
前記複数の演算部のそれぞれの演算部が、テスト学習処理を１回以上実施するよう、前記複数の演算部を制御することにより、前記複数の演算部のそれぞれの演算部の処理速度に関する指標値を取得し、
取得した前記指標値に基づいて、前記複数の演算部のうち、処理速度が一定以上である演算部が分類された１以上のグループと、処理速度が一定未満である演算部が分類された１以上のグループとを含む複数のグループを特定する、ことを特徴とする請求項１または２に記載の計算処理管理装置。

【請求項4】

前記制御部は、
前記それぞれのグループに属する演算部のうち、処理速度が最も遅い演算部に、他のグループが実施した前記単位処理の結果を集約して得られる最新の情報を参照して、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、第１プロセスを配備し、
特定した前記複数のグループのいずれかのグループに属する演算部のうち、処理速度が最も遅い演算部に、当該いずれかのグループにおいて、前記ステップを繰り返し実施した回数が閾値以上であるか否かを判定する第２プロセスを配備し、
配備した前記第１プロセス、および、前記第２プロセスを用いて、前記それぞれのグループにおいて、前記ステップを繰り返し実施するよう、前記複数のグループを制御する、ことを特徴とする請求項２に記載の計算処理管理装置。

【請求項5】

前記複数のグループのそれぞれのグループは、前記第１動作を他のグループと同期せずに実施するグループであって、
前記複数のグループのそれぞれのグループに属するいずれかの演算部は、
当該グループにおいて、前記ステップのうち前記第２動作を開始した際に、他のグループが実施した前記単位処理の結果を集約して得られた最新の情報が存在すれば、当該最新の情報と、当該グループに属する他の演算部が実施した前記単位処理の結果とを取得し、取得した当該最新の情報を参照して、当該いずれかの演算部が実施した前記単位処理の結果と、取得した当該グループに属する他の演算部が実施した前記単位処理の結果とに基づいて、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、ことを特徴とする請求項１または２に記載の計算処理管理装置。

【請求項6】

前記複数のグループのそれぞれのグループに属するいずれかの演算部は、
当該グループにおいて、前記ステップのうち前記第２動作を開始した際に、他のグループが実施した前記単位処理の結果を集約して得られた最新の情報が存在しなければ、当該グループに属する他の演算部が実施した前記単位処理の結果を取得し、当該いずれかの演算部が実施した前記単位処理の結果と、取得した当該グループに属する他の演算部が実施した前記単位処理の結果とに基づいて、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、ことを特徴とする請求項５に記載の計算処理管理装置。

【請求項7】

単位処理を複数回実施する計算処理を並列処理する複数の演算部と、前記複数の演算部を制御する制御部とを含む計算処理管理システムであって、
前記制御部は、
複数の演算部のうち、処理速度が一定以上である演算部が分類された１以上のグループと、処理速度が前記一定未満である演算部が分類された１以上のグループとを含む複数のグループを特定し、
特定した前記複数のグループのそれぞれのグループにおいて、当該グループに属するそれぞれの演算部が、前記単位処理を１回ずつ実施する第１動作と、当該グループに属するそれぞれの演算部が、他のグループが実施した前記単位処理の結果を集約して得られる最新の情報を参照して、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、前記第１動作の後の第２動作とを含むステップを繰り返し実施するよう、前記複数のグループを制御する、
ことを特徴とする計算処理管理システム。

【請求項8】

単位処理を複数回実施する計算処理を並列処理する複数の演算部のうち、処理速度が一定以上である演算部が分類された１以上のグループと、処理速度が前記一定未満である演算部が分類された１以上のグループとを含む複数のグループを特定し、
特定した前記複数のグループのそれぞれのグループにおいて、当該グループに属するそれぞれの演算部が、前記単位処理を１回ずつ実施する第１動作と、当該グループに属するそれぞれの演算部が、他のグループが実施した前記単位処理の結果を集約して得られる最新の情報を参照して、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、前記第１動作の後の第２動作とを含むステップを繰り返し実施するよう、前記複数のグループを制御する、
処理をコンピュータが実行することを特徴とする計算処理管理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、計算処理管理装置、計算処理管理システム、および計算処理管理方法に関する。

【背景技術】

【0002】

従来、深層学習にかかる計算処理を、複数のＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）において並列処理することにより、深層学習の高速化を図ることがある。計算処理は、例えば、所定の処理を繰り返し実施することを含む。例えば、それぞれのＧＰＵにおいて、所定の処理を１回ずつ実施した後、複数のＧＰＵにおいて、それぞれの所定の処理を実施した結果を集約して共有する、というステップを繰り返し実施することにより、計算処理を並列処理することがある。

【0003】

先行技術としては、例えば、学習データに基づく順伝搬計算および逆伝搬計算を反復的に実施し、逆伝搬計算の計算結果を通信ネットワークに送出する複数の計算機から受信した計算結果を処理して送信元に返送するＡｌｌｒｅｄｕｃｅ処理装置がある。また、例えば、学習対象のニューラルネットワークの重みごとの分散データを、重みの番号の順にパケット化して送信し、集計データを順番に取得し、ニューラルネットワークの重みを更新する技術がある。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２０－７７３００号公報

【特許文献2】特開２０１９－２１９７１４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来技術では、計算処理を効率よく並列処理することが難しい場合がある。例えば、複数のＧＰＵのいずれかのＧＰＵの処理速度が、他のＧＰＵに比べて遅い場合が考えられる。この場合、あるステップにおいて、処理速度が比較的速いＧＰＵは、所定の処理を１回完了した後、処理速度が比較的遅いＧＰＵが所定の処理を１回完了するまで待機しなければならず、計算処理を並列処理する効率の低下を招いてしまう。

【0006】

１つの側面では、本発明は、計算処理を効率よく並列処理することを目的とする。

【課題を解決するための手段】

【0007】

１つの実施態様によれば、単位処理を複数回実施する計算処理を並列処理する複数の演算部のうち、処理速度が一定以上である演算部が分類された１以上のグループと、処理速度が前記一定未満である演算部が分類された１以上のグループとを含む複数のグループを特定し、特定した前記複数のグループのそれぞれのグループにおいて、当該グループに属するそれぞれの演算部が、前記単位処理を１回ずつ実施する第１動作と、当該グループに属するそれぞれの演算部が、他のグループが実施した前記単位処理の結果を集約して得られる最新の情報を参照して、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、前記第１動作の後の第２動作とを含むステップを繰り返し実施するよう、前記複数のグループを制御する計算処理管理装置、計算処理管理システム、および計算処理管理方法が提案される。

【発明の効果】

【0008】

一態様によれば、計算処理を効率よく並列処理することが可能になる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施の形態にかかる計算処理管理方法の一実施例を示す説明図である。

【図2】図２は、計算処理管理システム２００の一例を示す説明図である。

【図3】図３は、情報処理装置１００のハードウェア構成例を示すブロック図である。

【図4】図４は、情報処理装置１００の機能的構成例を示すブロック図である。

【図5】図５は、情報処理装置１００の動作の流れを示す説明図（その１）である。

【図6】図６は、情報処理装置１００の動作の流れを示す説明図（その２）である。

【図7】図７は、情報処理装置１００の動作例１を示す説明図（その１）である。

【図8】図８は、情報処理装置１００の動作例１を示す説明図（その２）である。

【図9】図９は、情報処理装置１００の動作例１を示す説明図（その３）である。

【図10】図１０は、情報処理装置１００の動作例１を示す説明図（その４）である。

【図11】図１１は、動作例１における第１データ制御処理手順の一例を示すフローチャートである。

【図12】図１２は、動作例１における第２データ制御処理手順の一例を示すフローチャートである。

【図13】図１３は、動作例１における終了制御処理手順の一例を示すフローチャートである。

【図14】図１４は、情報処理装置１００の動作例２を示す説明図（その１）である。

【図15】図１５は、情報処理装置１００の動作例２を示す説明図（その２）である。

【図16】図１６は、情報処理装置１００の動作例２を示す説明図（その３）である。

【図17】図１７は、情報処理装置１００の動作例２を示す説明図（その４）である。

【図18】図１８は、動作例２における第１データ制御処理手順の一例を示すフローチャートである。

【図19】図１９は、動作例２における第２データ制御処理手順の一例を示すフローチャートである。

【図20】図２０は、動作例２における終了制御処理手順の一例を示すフローチャートである。

【図21】図２１は、情報処理装置１００の動作例３を示す説明図（その１）である。

【図22】図２２は、情報処理装置１００の動作例３を示す説明図（その２）である。

【図23】図２３は、情報処理装置１００の動作例３を示す説明図（その３）である。

【図24】図２４は、情報処理装置１００の動作例３を示す説明図（その４）である。

【図25】図２５は、動作例３における第１データ制御処理手順の一例を示すフローチャートである。

【図26】図２６は、動作例３における第２データ制御処理手順の一例を示すフローチャートである。

【図27】図２７は、動作例３における第３データ制御処理手順の一例を示すフローチャートである。

【図28】図２８は、動作例３における終了制御処理手順の一例を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下に、図面を参照して、本発明にかかる計算処理管理装置、計算処理管理システム、および計算処理管理方法の実施の形態を詳細に説明する。

【0011】

（実施の形態にかかる計算処理管理方法の一実施例）
図１は、実施の形態にかかる計算処理管理方法の一実施例を示す説明図である。情報処理装置１００は、所定の計算処理を管理する計算処理管理装置となるコンピュータである。情報処理装置１００は、例えば、サーバ、または、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などである。

【0012】

所定の計算処理は、例えば、深層学習にかかる計算処理などである。所定の計算処理は、例えば、所定の処理を繰り返し実施することを含む。所定の処理は、例えば、モデルの学習処理である。学習処理は、例えば、モデルのパラメータの推定値または補正値を算出する算出処理である。モデルは、例えば、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）である。

【0013】

ここで、所定の計算処理の高速化を図り、所定の計算処理にかかる処理時間の低減化を図ることが望まれる場合がある。

【0014】

これに対し、所定の計算処理を、複数のＧＰＵにおいて並列処理することにより、所定の計算処理の高速化を図り、所定の計算処理にかかる処理時間の低減化を図ることが考えられる。ここで、理想的には、ＧＰＵがＭ個存在すれば、Ｍ個のＧＰＵによる所定の計算処理にかかる処理時間は、１個のＧＰＵによる所定の計算処理にかかる処理時間の１／Ｍになることが期待される。

【0015】

例えば、それぞれのＧＰＵにおいて、所定の処理を１回ずつ実施した後、複数のＧＰＵにおいて、それぞれの所定の処理を実施した結果を集約して共有する、というステップを繰り返し実施することにより、所定の計算処理を並列処理することが考えられる。ステップは、具体的には、それぞれのＧＰＵにおいて、モデルのパラメータの推定値または補正値を算出する学習処理を１回ずつ実施した後、複数のＧＰＵにおいて、それぞれの学習処理によって算出した推定値または補正値を集約して共有することである。

【0016】

しかしながら、従来では、所定の計算処理を効率よく並列処理することが難しい場合がある。例えば、複数のＧＰＵは、それぞれ異なる処理速度である２以上のＧＰＵを含む。従って、例えば、複数のＧＰＵのいずれかのＧＰＵの処理速度が、他のＧＰＵに比べて遅い場合が考えられる。

【0017】

この場合、あるステップにおいて、処理速度が比較的速いＧＰＵは、所定の処理を１回完了した後、処理速度が比較的遅いＧＰＵが所定の処理を１回完了するまで待機しなければならない。このように、所定の計算処理にかかる処理時間は、処理速度が比較的遅いＧＰＵに律速されることになり、所定の計算処理を並列処理する効率の低下を招いてしまうという問題がある。

【0018】

そこで、本実施の形態では、所定の計算処理を効率よく並列処理することができる計算処理管理方法について説明する。

【0019】

図１において、情報処理装置１００は、複数の演算部１０１を制御可能である。演算部１０１は、例えば、ＧＰＵである。情報処理装置１００は、例えば、複数の演算部１０１を含む。複数の演算部１０１は、所定の計算処理を並列処理するグループである。所定の計算処理は、単位処理を複数回実施することを含む。単位処理は、例えば、学習処理である。学習処理は、例えば、モデルのパラメータの補正値を算出する算出処理である。例えば、それぞれの演算部１０１が、単位処理を繰り返し実施することにより、所定の計算処理が並列処理されることになる。

【0020】

（１－１）情報処理装置１００は、複数の演算部１０１のうち、処理速度が一定以上である演算部１０１が分類された１以上のグループと、処理速度が一定未満である演算部１０１が分類された１以上のグループとを含む複数のグループを特定する。図１の例では、情報処理装置１００は、処理速度が一定以上である演算部１０１－１および演算部１０１－２を含むグループ１１０と、処理速度が一定未満である演算部１０１－３を含むグループ１２０とを含む複数のグループを特定する。これにより、情報処理装置１００は、演算部１０１を、処理速度に応じたグループ単位で取り扱うことができる。

【0021】

（１－２）情報処理装置１００は、特定した複数のグループのそれぞれのグループにおいて、所定のステップを繰り返し実施するよう、複数のグループを制御する。ステップは、第１動作１３１と、第１動作１３１の後の第２動作１３２とを含む。第１動作１３１は、グループに属するそれぞれの演算部１０１が、単位処理を１回ずつ実施することである。第１動作１３１は、例えば、それぞれのグループにおいて独立して実施される。

【0022】

第２動作１３２は、グループに属するそれぞれの演算部１０１が、他のグループが実施した単位処理の結果を集約して得られる最新の情報があれば、当該情報を参照して、当該グループが実施した単位処理の結果を集約して得られる情報を生成することである。第２動作１３２は、グループに属するそれぞれの演算部１０１が、他のグループが実施した単位処理の結果を集約して得られる最新の情報がなければ、当該情報を参照せずに、当該グループが実施した単位処理の結果を集約して得られる情報を生成することである。

【0023】

（１－３）情報処理装置１００は、所定の条件を満たした場合、それぞれのグループにおいて、所定のステップを繰り返し実施することを停止するよう、複数のグループを制御する。所定の条件は、例えば、いずれかのグループにおいて、所定のステップを所定の回数繰り返し実施したことである。所定の条件は、例えば、複数のグループ全体において、所定のステップを所定の回数繰り返し実施したことであってもよい。

【0024】

これにより、情報処理装置１００は、処理速度が一定以上である演算部１０１が分類された１以上のグループにおいて、処理速度が一定未満である演算部１０１に律速されずに、ステップを繰り返し実施可能にすることができる。従って、情報処理装置１００は、ステップを高速に繰り返し易くすることができ、所定の計算処理を完了し易くすることができる。情報処理装置１００は、グループ間で、当該グループが実施した単位処理の結果を集約して得られる情報を参照し合うよう、複数のグループを制御することができ、所定の計算処理の精度低下を抑制することができる。このように、情報処理装置１００は、所定の計算処理を効率よく並列処理することができる。

【0025】

ここでは、情報処理装置１００が単独で動作する場合について説明したが、これに限らない。例えば、情報処理装置１００が、他のコンピュータと協働する場合があってもよい。具体的には、情報処理装置１００が、複数の演算部１０１を含まない場合があってもよい。この場合、情報処理装置１００は、それぞれ異なる演算部１０１を含む複数の他のコンピュータと通信することにより、複数の演算部１０１を制御することがある。この場合の具体例については、例えば、図２を用いて後述する。また、例えば、複数のコンピュータが、情報処理装置１００としての機能を実現する場合があってもよい。具体的には、クラウド上に、情報処理装置１００としての機能が実現される場合があってもよい。

【0026】

（計算処理管理システム２００の一例）
次に、図２を用いて、図１に示した情報処理装置１００を適用した、計算処理管理システム２００の一例について説明する。

【0027】

図２は、計算処理管理システム２００の一例を示す説明図である。図２において、計算処理管理システム２００は、情報処理装置１００と、複数の演算処理装置２０１と、クライアント装置２０２とを含む。

【0028】

計算処理管理システム２００において、情報処理装置１００と演算処理装置２０１とは、有線または無線のネットワーク２１０を介して接続される。ネットワーク２１０は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどである。

【0029】

情報処理装置１００は、演算処理装置２０１を制御し、所定の計算処理を並列処理するためのコンピュータである。所定の計算処理は、例えば、深層学習に関する計算処理である。所定の計算処理は、具体的には、モデルのパラメータの補正値を算出する学習処理を繰り返し実施することを含む。所定の計算処理は、具体的には、モデルのパラメータの補正値を集約していくことを含む。モデルは、例えば、ＤＮＮである。

【0030】

情報処理装置１００は、例えば、複数の演算処理装置２０１のうち、処理速度が一定以上である演算処理装置２０１が分類された１以上のグループと、処理速度が一定未満である演算処理装置２０１が分類された１以上のグループとを含む複数のグループを特定する。

【0031】

情報処理装置１００は、具体的には、複数の演算処理装置２０１のそれぞれの演算処理装置２０１が、テスト学習処理を実施するよう、複数の演算処理装置２０１を制御し、それぞれの演算処理装置２０１の計算速度に関する指標値を取得する。テスト学習処理は、例えば、所定の計算処理における学習処理に対応する。テスト学習処理は、具体的には、モデルのパラメータの補正値を算出することである。テスト学習処理は、所定の計算処理の一部であってもよい。

【0032】

情報処理装置１００は、具体的には、取得した指標値に基づいて、複数の演算処理装置２０１のそれぞれの演算処理装置２０１の処理速度が一定以上であるか否かを判定する。情報処理装置１００は、具体的には、処理速度が一定以上である演算処理装置２０１を、１以上のグループに分類し、処理速度が一定未満である演算処理装置２０１を、１以上のグループに分類することにより、複数のグループを特定する。

【0033】

また、情報処理装置１００は、具体的には、予め利用者によって設定された複数のグループを取得することにより、複数のグループを特定してもよい。

【0034】

情報処理装置１００は、例えば、所定の計算処理を実施することを要求するリクエストを受け付ける。情報処理装置１００は、例えば、所定の計算処理を実施することを要求するリクエストを、クライアント装置２０２から受信することにより、リクエストを受け付ける。情報処理装置１００は、具体的には、利用者の操作入力に基づき、所定の計算処理を実施することを要求するリクエストの入力を受け付けることにより、リクエストを受け付けてもよい。

【0035】

情報処理装置１００は、リクエストに応じて、特定した複数のグループのそれぞれのグループにおいて、所定のステップを繰り返し実施するよう、複数のグループを制御する。所定のステップは、所定の計算処理を形成する。所定のステップは、第１動作と、第１動作の後に実施する第２動作とを含む。第１動作は、グループに属するそれぞれの演算処理装置２０１が、単位処理を１回ずつ実施することである。単位処理は、例えば、モデルのパラメータの補正値を算出する学習処理である。第１動作は、例えば、それぞれのグループにおいて独立して実施される。

【0036】

第２動作は、グループに属するそれぞれの演算処理装置２０１が、他のグループが実施した単位処理の結果を集約して得られる最新の情報がなければ、当該情報を参照せずに、当該グループが実施した単位処理の結果を集約して得られる情報を生成することである。第２動作は、例えば、グループにおいて算出された、モデルのパラメータのそれぞれの補正値を集約することにより、集約補正値を算出することである。

【0037】

第２動作は、グループに属するそれぞれの演算処理装置２０１が、他のグループが実施した単位処理の結果を集約して得られる最新の情報があれば、当該情報を参照して、当該グループが実施した単位処理の結果を集約して得られる情報を生成することである。第２動作は、例えば、当該グループにおいて算出された、モデルのパラメータのそれぞれの補正値と、他のグループにおいて生成された集約補正値とを集約することにより、新たな集約補正値を算出することである。

【0038】

情報処理装置１００は、所定の条件を満たした場合、それぞれのグループにおいて、所定のステップを繰り返し実施することを停止するよう、複数のグループを制御する。所定の条件は、例えば、いずれかのグループにおいて、所定のステップを所定の回数繰り返し実施したことである。所定の条件は、例えば、複数のグループ全体において、所定のステップを所定の回数繰り返し実施したことであってもよい。

【0039】

情報処理装置１００は、所定の条件を満たした場合、所定の計算処理の実施結果を出力する。所定の計算処理の実施結果は、例えば、モデルである。情報処理装置１００は、例えば、所定の計算処理の実施結果を、クライアント装置２０２に送信する。情報処理装置１００は、例えば、所定の計算処理の実施結果を、利用者が参照可能に出力してもよい。情報処理装置１００は、例えば、サーバ、または、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などである。

【0040】

演算処理装置２０１は、所定の計算処理を並列処理するためのコンピュータである。演算処理装置２０１は、例えば、図１に示した演算部１０１に対応する。演算処理装置２０１は、例えば、情報処理装置１００の制御に従って、テスト学習処理を実施する。演算処理装置２０１は、例えば、情報処理装置１００の制御に従って、所定の計算処理を形成する学習処理などの部分処理を実施する。演算処理装置２０１は、例えば、サーバ、または、ＰＣなどである。

【0041】

クライアント装置２０２は、所定の計算処理の実施結果を利用するクライアントが利用するコンピュータである。クライアント装置２０２は、所定の計算処理の実施結果を、情報処理装置１００から受信する。クライアント装置２０２は、所定の計算処理の実施結果を、クライアントが参照可能に出力する。クライアント装置２０２は、例えば、ＰＣ、タブレット端末、または、スマートフォンなどである。

【0042】

ここでは、情報処理装置１００が、演算処理装置２０１とは異なる装置である場合について説明したが、これに限らない。例えば、情報処理装置１００が、演算処理装置２０１としての機能を有し、演算処理装置２０１としても動作する場合があってもよい。

【0043】

ここでは、情報処理装置１００が、クライアント装置２０２とは異なる装置である場合について説明したが、これに限らない。例えば、情報処理装置１００が、クライアント装置２０２としての機能を有し、クライアント装置２０２としても動作する場合があってもよい。

【0044】

（情報処理装置１００のハードウェア構成例）
次に、図３を用いて、情報処理装置１００のハードウェア構成例について説明する。

【0045】

図３は、情報処理装置１００のハードウェア構成例を示すブロック図である。図３において、情報処理装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１と、メモリ３０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）３０３と、記録媒体Ｉ／Ｆ３０４と、記録媒体３０５とを有する。情報処理装置１００は、さらに、スイッチ３０６と、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）３０７と、複数のＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０８とを有する。また、各構成部は、バス３００によってそれぞれ接続される。

【0046】

ここで、ＣＰＵ３０１は、情報処理装置１００の全体の制御を司る。メモリ３０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ３０１のワークエリアとして使用される。メモリ３０２に記憶されるプログラムは、ＣＰＵ３０１にロードされることにより、コーディングされている処理をＣＰＵ３０１に実行させる。

【0047】

ネットワークＩ／Ｆ３０３は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ３０３は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ３０３は、例えば、モデムやＬＡＮアダプタなどである。

【0048】

記録媒体Ｉ／Ｆ３０４は、ＣＰＵ３０１の制御に従って記録媒体３０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ３０４は、例えば、ディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポートなどである。記録媒体３０５は、記録媒体Ｉ／Ｆ３０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体３０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体３０５は、情報処理装置１００から着脱可能であってもよい。

【0049】

スイッチ３０６は、例えば、ＣＰＵ３０１と、ＦＰＧＡ３０７との通信経路、または、ＣＰＵ３０１と、ＧＰＵ３０８との通信経路を制御し、ＣＰＵ３０１と、ＦＰＧＡ３０７とを通信可能、または、ＣＰＵ３０１と、ＧＰＵ３０８とを通信可能にする。スイッチ３０６は、例えば、ＦＰＧＡ３０７と、ＧＰＵ３０８との通信経路を制御し、ＦＰＧＡ３０７と、ＧＰＵ３０８とを通信可能にする。ＦＰＧＡ３０７は、例えば、論理回路の構成を変更可能な集積回路である。ＧＰＵ３０８は、例えば、数値計算を実施するプロセッサである。ＧＰＵ３０８は、例えば、並列処理に適する。ＧＰＵ３０８は、例えば、レジスタを有する。

【0050】

情報処理装置１００は、上述した構成部の他、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、情報処理装置１００は、記録媒体Ｉ／Ｆ３０４や記録媒体３０５を複数有していてもよい。また、情報処理装置１００は、記録媒体Ｉ／Ｆ３０４や記録媒体３０５を有していなくてもよい。また、情報処理装置１００は、スイッチ３０６、ＦＰＧＡ３０７、または、ＧＰＵ３０８を有していなくてもよい。

【0051】

（演算処理装置２０１のハードウェア構成例）
演算処理装置２０１のハードウェア構成例は、具体的には、図３に示した情報処理装置１００のハードウェア構成例と同様であるため、説明を省略する。

【0052】

（クライアント装置２０２のハードウェア構成例）
クライアント装置２０２のハードウェア構成例は、具体的には、図３に示した情報処理装置１００のハードウェア構成例と同様であるため、説明を省略する。

【0053】

以下の説明では、主に、情報処理装置１００が単独で動作する場合について説明する。

【0054】

（情報処理装置１００の機能的構成例）
次に、図４を用いて、情報処理装置１００の機能的構成例について説明する。

【0055】

図４は、情報処理装置１００の機能的構成例を示すブロック図である。情報処理装置１００は、第１記憶部４００と、第１取得部４０１と、特定部４０２と、配備部４０３と、第１出力部４０４とを含む。第１取得部４０１～第１出力部４０４は、制御部４２０の一例として機能する。情報処理装置１００は、第２記憶部４１０と、第２取得部４１１と、実行部４１２と、集約部４１３と、判定部４１４と、第２出力部４１５とを含む。第２取得部４１１～第２出力部４１５は、演算部４３０の一例として機能する。

【0056】

第１記憶部４００は、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域によって実現される。以下では、第１記憶部４００が、情報処理装置１００に含まれる場合について説明するが、これに限らない。例えば、第１記憶部４００が、情報処理装置１００とは異なる装置に含まれ、第１記憶部４００の記憶内容が情報処理装置１００から参照可能である場合があってもよい。

【0057】

第１取得部４０１～第１出力部４０４は、具体的には、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶されたプログラムをＣＰＵ３０１に実行させることにより、その機能を実現する。また、第１取得部４０１～第１出力部４０４は、具体的には、例えば、ネットワークＩ／Ｆ３０３、または、スイッチ３０６により、その機能を実現する。各機能部の処理結果は、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶される。

【0058】

第１記憶部４００は、各機能部の処理において参照され、または更新される各種情報を記憶する。第１記憶部４００は、複数の演算部４３０のそれぞれの演算部４３０の処理速度に関する指標値を記憶する。指標値は、例えば、テスト学習処理にかかる処理時間の統計値である。統計値は、例えば、平均値、最大値、最小値、最頻値、または、中央値などである。

【0059】

テスト学習処理は、例えば、モデルのパラメータの補正値を算出する学習処理である。モデルは、例えば、ＤＮＮである。テスト学習処理は、具体的には、ランダムな入力データに基づいて、モデルのパラメータの補正値を算出する学習処理である。テスト学習処理は、例えば、所定の計算処理を形成する単位処理に対応する。テスト学習処理は、例えば、所定の計算処理の一部であってもよい。指標値は、例えば、特定部４０２によって取得される。指標値は、例えば、第１取得部４０１によって取得されてもよい。

【0060】

複数の演算部４３０は、単位処理を複数回実施する所定の計算処理を並列処理する全体グループである。所定の計算処理は、例えば、深層学習に関する計算処理である。所定の計算処理は、具体的には、深層学習に関し、モデルのパラメータを決定する計算処理である。モデルは、例えば、ＤＮＮである。単位処理は、例えば、モデルのパラメータの補正値を算出する学習処理である。単位処理は、具体的には、ランダムな入力データに基づいて、モデルのパラメータの補正値を算出する学習処理である。

【0061】

第１記憶部４００は、複数の演算部４３０を分類した複数のグループを記憶する。複数のグループは、複数の演算部４３０のうち、処理速度が一定以上である演算部４３０が分類された１以上のグループと、処理速度が一定未満である演算部４３０が分類された１以上のグループとを含む。

【0062】

それぞれのグループは、第１動作と、第１動作の後の第２動作とを含む所定のステップを繰り返し実施する。所定の計算処理は、例えば、複数のグループが、所定のステップを繰り返し実施することによって実現される。第１動作は、グループに属するそれぞれの演算部４３０が、単位処理を１回ずつ実施することである。それぞれのグループは、第１動作を他のグループと同期せずに実施することが好ましい。第２動作は、グループに属するそれぞれの演算部４３０が、当該グループが実施した単位処理の結果を集約して得られる情報を取得することである。

【0063】

第２動作は、例えば、グループに属する各演算部４３０が、他のグループが実施した単位処理の結果を集約して得られる最新の情報が存在すれば、当該情報を参照して、当該グループが実施した単位処理の結果を集約して得られる情報を取得することである。第２動作は、例えば、グループに属する各演算部４３０が、他のグループが実施した単位処理の結果を集約して得られる最新の情報が存在しなければ、当該情報を参照せずに、当該グループが実施した単位処理の結果を集約して得られる情報を取得することである。

【0064】

第１取得部４０１は、各機能部の処理に用いられる各種情報を取得する。第１取得部４０１は、取得した各種情報を、第１記憶部４００に記憶し、または、各機能部に出力する。また、第１取得部４０１は、第１記憶部４００に記憶しておいた各種情報を、各機能部に出力してもよい。第１取得部４０１は、例えば、利用者の操作入力に基づき、各種情報を取得する。第１取得部４０１は、例えば、情報処理装置１００とは異なる装置から、各種情報を受信してもよい。

【0065】

第１取得部４０１は、所定の計算処理の実行要求を取得する。第１取得部４０１は、例えば、利用者の操作入力に基づき、実行要求の入力を受け付けることにより、実行要求を取得する。第１取得部４０１は、実行要求を、他のコンピュータから受信することにより取得してもよい。

【0066】

第１取得部４０１は、複数のグループを特定可能に示す情報を取得してもよい。複数のグループを特定可能に示す情報は、例えば、複数のグループのそれぞれのグループに属する１以上の演算部４３０を示す情報である。複数のグループを特定可能に示す情報は、例えば、複数のグループを特定するために用いられる、複数の演算部４３０のそれぞれの演算部４３０の処理速度に関する指標値であってもよい。第１取得部４０１は、例えば、利用者の操作入力に基づき、複数のグループを特定可能に示す情報の入力を受け付けることにより、複数のグループを特定可能に示す情報を取得する。第１取得部４０１は、例えば、複数のグループを特定可能に示す情報を、他のコンピュータから受信することにより取得してもよい。

【0067】

第１取得部４０１は、いずれかの機能部の処理を開始する開始トリガーを受け付けてもよい。開始トリガーは、例えば、利用者による所定の操作入力があったことである。開始トリガーは、例えば、他のコンピュータから、所定の情報を受信したことであってもよい。開始トリガーは、例えば、いずれかの機能部が所定の情報を出力したことであってもよい。

【0068】

第１取得部４０１は、実行要求を取得したことを、特定部４０２と、配備部４０３との処理を開始する開始トリガーとして受け付ける。第１取得部４０１は、複数のグループを特定可能に示す情報を取得したことを、特定部４０２の処理を開始する開始トリガーとして受け付けてもよい。

【0069】

特定部４０２は、複数のグループを特定する。特定部４０２は、例えば、第１取得部４０１で複数のグループを特定可能に示す情報を取得した場合、当該情報に基づいて、複数のグループを特定する。特定部４０２は、具体的には、第１取得部４０１で複数のグループのそれぞれのグループに属する１以上の演算部４３０を示す情報を取得した場合、当該情報に基づいて、複数の演算部４３０を複数のグループに分類することにより、複数のグループを特定する。これにより、特定部４０２は、演算部４３０を、処理速度に応じたグループ単位で取り扱い可能にすることができる。

【0070】

特定部４０２は、具体的には、第１取得部４０１で複数の演算部４３０のそれぞれの演算部４３０の処理速度に関する指標値を取得した場合、当該指標値に基づいて、それぞれの演算部４３０の処理速度が、一定以上であるか否かを判定する。特定部４０２は、具体的には、判定した結果に基づいて、複数の演算部４３０を、処理速度が一定以上の演算部４３０が分類される１以上のグループと、処理速度が一定未満の演算部４３０が分類される１以上のグループとに分類する。特定部４０２は、複数の演算部４３０を、複数のグループに分類することにより、複数のグループを特定する。これにより、特定部４０２は、演算部４３０を、処理速度に応じたグループ単位で取り扱い可能にすることができる。

【0071】

特定部４０２は、例えば、第１取得部４０１で複数のグループを特定可能に示す情報を取得していない場合、複数の演算部４３０のそれぞれの演算部４３０の処理速度に関する指標値を取得する。特定部４０２は、具体的には、それぞれの演算部４３０が、テスト学習処理を１回以上実施するよう、複数の演算部４３０を制御することにより、複数の演算部４３０のそれぞれの演算部４３０の処理速度に関する指標値を取得する。これにより、特定部４０２は、複数の演算部４３０のそれぞれの演算部４３０の処理速度を特定可能にすることができ、それぞれの演算部４３０の処理速度に応じて、複数の演算部４３０を複数のグループに分類可能にすることができる。

【0072】

特定部４０２は、具体的には、取得した指標値に基づいて、複数のグループを特定する。特定部４０２は、より具体的には、指標値に基づいて、それぞれの演算部４３０の処理速度が、一定以上であるか否かを判定する。特定部４０２は、より具体的には、判定した結果に基づいて、複数の演算部４３０を、処理速度が一定以上の演算部４３０が分類される１以上のグループと、処理速度が一定未満の演算部４３０が分類される１以上のグループとに分類する。特定部４０２は、複数の演算部４３０を、複数のグループに分類することにより、複数のグループを特定する。これにより、特定部４０２は、演算部４３０を、処理速度に応じたグループ単位で取り扱い可能にすることができる。

【0073】

特定部４０２は、具体的には、複数の演算部４３０のうち、処理速度が一定以上である演算部４３０が分類された１つのグループと、処理速度が一定未満である演算部４３０が分類された１つのグループとを含む複数のグループを特定してもよい。これにより、特定部４０２は、演算部４３０を、処理速度に応じたグループ単位で取り扱い可能にすることができる。

【0074】

配備部４０３は、特定部４０２で特定した複数のグループのそれぞれのグループにおいて、所定のステップを繰り返し実施するよう、複数のグループを制御する。配備部４０３は、例えば、それぞれのグループに属する演算部４３０に、学習プロセスを配備する。学習プロセスは、単位処理を繰り返し実施する機能を有する。配備部４０３は、例えば、それぞれのグループに属する演算部４３０が、学習プロセスを有していれば、当該学習プロセスを起動することにより、当該学習プロセスを配備してもよい。配備部４０３は、具体的には、それぞれのグループに属する演算部４３０に、学習プロセスを起動する起動指示を送信する。

【0075】

配備部４０３は、例えば、それぞれのグループに属する演算部４３０のうち、処理速度が最も遅い演算部４３０に、集約プロセスを配備する。集約プロセスは、グループが実施した単位処理の結果を集約して得られる情報を生成する機能を有する。集約プロセスは、生成した情報を、グループ内で共有する機能を有する。学習プロセスは、単位処理を１回実施する都度、グループ内で情報を共有するまで待機してから、次の単位処理を実施する。

【0076】

あるグループに配備した集約プロセスは、他のグループが実施した単位処理の結果を集約して得られる最新の情報があれば、当該最新の情報を参照して、当該グループが実施した単位処理の結果を集約して得られる情報を生成する。あるグループに配備した集約プロセスは、他のグループが実施した単位処理の結果を集約して得られる最新の情報がなければ、当該最新の情報を参照せずに、当該グループが実施した単位処理の結果を集約して得られる情報を生成する。

【0077】

配備部４０３は、例えば、それぞれのグループに属する演算部４３０のうち、処理速度が最も遅い演算部４３０が、集約プロセスを有していれば、当該集約プロセスを起動することにより、当該集約プロセスを配備してもよい。配備部４０３は、具体的には、それぞれのグループに属する演算部４３０のうち、処理速度が最も遅い演算部４３０に、集約プロセスを起動する起動指示を送信する。

【0078】

配備部４０３は、特定した複数のグループのいずれかのグループに属する演算部４３０のうち、処理速度が最も遅い演算部４３０に、判定プロセスを配備する。判定プロセスは、所定のステップを繰り返し実施することを停止するトリガーとなる所定の条件を満たすか否かを判定する機能を有する。所定の条件は、例えば、いずれかのグループにおいて、所定のステップを繰り返し実施した回数が閾値以上であることである。所定の条件は、例えば、複数のグループ全体において、所定のステップを繰り返し実施した回数が閾値以上であることであってもよい。

【0079】

判定プロセスは、例えば、いずれかのグループにおいて、所定のステップを繰り返し実施した回数が閾値以上であるか否かを判定する。判定プロセスは、所定の条件を満たす場合、それぞれのグループにおいて、以降、所定のステップを繰り返し実施しないよう、複数のグループを制御する機能を有する。

【0080】

配備部４０３は、例えば、特定した複数のグループのいずれかのグループに属する演算部４３０のうち、処理速度が最も遅い演算部４３０が、判定プロセスを有していれば、当該判定プロセスを起動することにより、当該判定プロセスを配備してもよい。配備部４０３は、具体的には、特定した複数のグループのいずれかのグループに属する演算部４３０のうち、処理速度が最も遅い演算部４３０に、判定プロセスを起動する起動指示を送信する。これにより、配備部４０３は、所定の計算処理を実施する際にかかる処理負担および処理時間の増大化を抑制することができる。配備部４０３は、所定の計算処理の精度低下を抑制することができる。

【0081】

第１出力部４０４は、少なくともいずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ３０３による外部装置への送信、または、メモリ３０２や記録媒体３０５などの記憶領域への記憶である。これにより、第１出力部４０４は、少なくともいずれかの機能部の処理結果を利用者に通知可能にし、情報処理装置１００の利便性の向上を図ることができる。

【0082】

第１出力部４０４は、例えば、所定の計算処理の実施結果を出力する。第１出力部４０４は、具体的には、所定の計算処理の実施結果を、利用者が参照可能に出力する。第１出力部４０４は、具体的には、所定の計算処理の実施結果を、他のコンピュータに送信してもよい。他のコンピュータは、例えば、クライアント装置２０２などである。

【0083】

第２記憶部４１０は、例えば、図３に示したＦＰＧＡ３０７が有するレジスタ、または、図３に示したＧＰＵ３０８が有するレジスタなどによって実現される。以下では、第２記憶部４１０が、情報処理装置１００に含まれる場合について説明するが、これに限らない。例えば、第２記憶部４１０が、情報処理装置１００とは異なる装置に含まれ、第２記憶部４１０の記憶内容が情報処理装置１００から参照可能である場合があってもよい。

【0084】

第２取得部４１１～第２出力部４１５は、具体的には、例えば、図３に示したＦＰＧＡ３０７により、または、スイッチ３０６により、その機能を実現する。第２取得部４１１～第２出力部４１５は、具体的には、例えば、図３に示したＧＰＵ３０８により、または、スイッチ３０６により、その機能を実現する。各機能部の処理結果は、例えば、図３に示したＦＰＧＡ３０７が有するレジスタ、または、図３に示したＧＰＵ３０８が有するレジスタなどに記憶される。

【0085】

第２記憶部４１０は、各機能部の処理において参照され、または更新される各種情報を記憶する。第２記憶部４１０は、例えば、学習プロセスを記憶する。学習プロセスは、例えば、予め設定される。学習プロセスは、例えば、第２取得部４１１によって取得されてもよい。

【0086】

第２記憶部４１０は、例えば、集約プロセスを記憶する。集約プロセスは、例えば、予め設定される。集約プロセスは、例えば、第２取得部４１１によって取得されてもよい。

【0087】

第２記憶部４１０は、例えば、判定プロセスを記憶する。判定プロセスは、例えば、予め設定される。判定プロセスは、例えば、第２取得部４１１によって取得されてもよい。

【0088】

第２記憶部４１０は、例えば、グループが実施した単位処理の結果を集約して得られた最新の情報を記憶する。最新の情報は、例えば、集約部４１３によって生成される。

【0089】

第２取得部４１１は、各機能部の処理に用いられる各種情報を取得する。第２取得部４１１は、取得した各種情報を、第２記憶部４１０に記憶し、または、各機能部に出力する。また、第２取得部４１１は、第２記憶部４１０に記憶しておいた各種情報を、各機能部に出力してもよい。第２取得部４１１は、例えば、利用者の操作入力に基づき、各種情報を取得する。第２取得部４１１は、例えば、情報処理装置１００とは異なる装置から、各種情報を受信してもよい。

【0090】

第２取得部４１１は、例えば、学習プロセスを取得する。第２取得部４１１は、例えば、学習プロセスを起動する起動指示を取得してもよい。第２取得部４１１は、例えば、集約プロセスを取得する。第２取得部４１１は、例えば、集約プロセスを起動する起動指示を取得してもよい。第２取得部４１１は、例えば、判定プロセスを取得する。第２取得部４１１は、例えば、判定プロセスを起動する起動指示を取得してもよい。

【0091】

第２取得部４１１は、いずれかの機能部の処理を開始する開始トリガーを受け付けてもよい。開始トリガーは、例えば、利用者による所定の操作入力があったことである。開始トリガーは、例えば、他のコンピュータから、所定の情報を受信したことであってもよい。開始トリガーは、例えば、いずれかの機能部が所定の情報を出力したことであってもよい。

【0092】

第２取得部４１１は、学習プロセスを取得したこと、または、学習プロセスを起動する起動指示を取得したことを、実行部４１２の処理を開始する開始トリガーとして受け付けてもよい。第２取得部４１１は、例えば、集約プロセスを取得したこと、または、集約プロセスを起動する起動指示を取得したことを、集約部４１３の処理を開始する開始トリガーとして受け付けてもよい。第２取得部４１１は、例えば、判定プロセスを取得したこと、または、判定プロセスを起動する起動指示を取得したことを、判定部４１４の処理を開始する開始トリガーとして受け付けてもよい。

【0093】

実行部４１２は、単位処理を繰り返し実施する。実行部４１２は、例えば、学習プロセスによって、単位処理を繰り返し実施する。実行部４１２は、具体的には、学習プロセスによって、単位処理を実施した後、集約部４１３で情報が生成されるまで待機してから、次の単位処理を実施するよう、単位処理を繰り返し実施する。これにより、実行部４１２は、所定のステップごとに、単位処理を実施することができる。

【0094】

集約部４１３は、自演算部４３０が属するグループが実施した単位処理の結果を集約して得られる情報を生成する。集約部４１３は、例えば、集約プロセスによって、自演算部４３０が属するグループが実施した単位処理の結果を集約して得られる情報を生成する。集約部４１３は、具体的には、自演算部４３０が属するグループにおける１以上の演算部４３０すべてが単位処理を１回実施する都度、当該グループが実施した単位処理の結果を集約して得られる情報を生成する。

【0095】

集約部４１３は、具体的には、他のグループが実施した単位処理の結果を集約して得られた最新の情報が存在すれば、当該最新の情報を参照して、自演算部４３０が属するグループが実施した単位処理の結果を集約して得られる情報を生成する。集約部４１３は、具体的には、他のグループが実施した単位処理の結果を集約して得られた最新の情報がまだ存在しなければ、当該最新の情報を参照せずに、自演算部４３０が属するグループが実施した単位処理の結果を集約して得られる情報を生成する。

【0096】

これにより、集約部４１３は、所定のステップごとに、自演算部４３０が属するグループが実施した単位処理の結果を集約して得られる情報を生成することができる。このため、実行部４１２と、集約部４１３とは、所定のステップを繰り返し実施することができる。

【0097】

判定部４１４は、所定のステップを繰り返し実施することを停止するトリガーとなる所定の条件を満たすか否かを判定する。判定部４１４は、例えば、いずれかのグループにおいて、所定のステップを繰り返し実施した回数が閾値以上であるか否かを判定する。いずれかのグループは、例えば、自演算部４３０が属するグループである。

【0098】

判定部４１４は、具体的には、判定プロセスによって、自演算部４３０が属するグループにおいて、所定のステップを繰り返し実施した回数を計数する。判定部４１４は、具体的には、判定プロセスによって、計数した回数が閾値以上であるか否かを判定する。判定部４１４は、具体的には、判定プロセスによって、計数した回数が閾値以上であれば、所定のステップを繰り返し実施することを停止すると判定する。

【0099】

判定部４１４は、所定の条件を満たすと判定した場合、所定のステップを繰り返し実施するよう、複数のグループを制御する。判定部４１４は、例えば、判定プロセスによって、所定のステップを繰り返し実施した回数が閾値以上であると判定した場合、所定のステップを繰り返し実施するよう、複数のグループを制御する。これにより、判定部４１４は、所定の計算処理を実施する際にかかる処理負担および処理時間の増大化を抑制することができる。

【0100】

第２出力部４１５は、少なくともいずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ３０３による外部装置への送信、または、メモリ３０２や記録媒体３０５などの記憶領域への記憶である。これにより、第２出力部４１５は、少なくともいずれかの機能部の処理結果を利用者に通知可能にし、情報処理装置１００の利便性の向上を図ることができる。

【0101】

第２出力部４１５は、例えば、集約部４１３で生成した、自演算部４３０が属するグループが実施した単位処理の結果を集約して得られる情報を、自演算部４３０が属するグループにおける他演算部４３０に送信する。これにより、第２出力部４１５は、自演算部４３０が属するグループにおいて、自演算部４３０が属するグループが実施した単位処理の結果を集約して得られる情報を共有することができる。このため、第２出力部４１５は、所定の計算処理の精度低下を抑制することができる。

【0102】

（情報処理装置１００の動作の流れ）
次に、図５および図６を用いて、情報処理装置１００の動作の流れについて説明する。

【0103】

図５および図６は、情報処理装置１００の動作の流れを示す説明図である。図５および図６において、情報処理装置１００は、４つのＧＰＵ３０８を含むとする。４つのＧＰＵ３０８は、具体的には、ＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２と、ＧＰＵ３とであるとする。ＧＰＵ３の処理速度は、ＧＰＵ０の処理速度、ＧＰＵ１の処理速度、および、ＧＰＵ２の処理速度に比べて遅いとする。

【0104】

ここで、４つのＧＰＵ３０８を同期することにより、深層学習に関する計算処理を並列処理する従来の手法が考えられる。従来の手法では、４つのＧＰＵ３０８が１回ずつ学習処理を実施した後に、４つのＧＰＵ３０８において集約処理を実施するというステップを繰り返すことになる。学習処理は、モデルのパラメータの補正値を算出することである。集約処理は、モデルのパラメータの補正値の統計値を算出し、４つのＧＰＵ３０８において共有することである。

【0105】

図５および図６に示すタイミングチャート５００は、従来の手法に関し、ＧＰＵ０に関するチャート５１０と、ＧＰＵ１に関するチャート５１１と、ＧＰＵ２に関するチャート５１２と、ＧＰＵ３に関するチャート５１３とを含む。

【0106】

チャート５１０は、従来の手法を実施した場合における、ＧＰＵ０の処理内容の時間変化を示す。具体的には、図５は、チャート５１０の前半を示す。図６は、チャート５１０の後半を示す。図５および図６に示すチャート５１１は、従来の手法を実施した場合における、ＧＰＵ１の処理内容の時間変化を示す。具体的には、図５は、チャート５１１の前半を示す。図６は、チャート５１１の後半を示す。

【0107】

図５および図６に示すチャート５１２は、従来の手法を実施した場合における、ＧＰＵ２の処理内容の時間変化を示す。具体的には、図５は、チャート５１２の前半を示す。図６は、チャート５１２の後半を示す。図５および図６に示すチャート５１３は、従来の手法を実施した場合における、ＧＰＵ３の処理内容の時間変化を示す。具体的には、図５は、チャート５１３の前半を示す。図６は、チャート５１３の後半を示す。

【0108】

チャート５１０～５１３に示すように、従来の手法では、ＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２とは、学習処理を１回終了した後、ＧＰＵ３が学習処理を１回終了するまで待機することになる。このため、従来の手法では、ＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２との計算リソースが効率的に活用されず、深層学習に関する計算処理にかかる処理時間は、ＧＰＵ３に律速され、深層学習に関する計算処理の効率低下を招くことになる。

【0109】

これに対し、情報処理装置１００は、４つのＧＰＵ３０８を処理速度に応じて分類したグループ単位で、当該グループに属する１以上のＧＰＵ３０８を同期することにより、深層学習に関する計算処理を並列処理する。

【0110】

情報処理装置１００は、例えば、処理速度が比較的速いＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２とを分類したグループ単位で、３つのＧＰＵ３０８が１回ずつ学習処理を実施した後に、３つのＧＰＵ３０８において集約処理を実施するというステップを繰り返す。情報処理装置１００は、ＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２とを分類したグループにおける集約処理の際、ＧＰＵ３を分類した他のグループにおける直前の集約処理の実施結果が存在すれば、当該実施結果を参照しながら、集約処理を実施することにする。

【0111】

また、情報処理装置１００は、処理速度が比較的遅いＧＰＵ３を分類したグループ単位で、ＧＰＵ３が１回学習処理を実施した後に、ＧＰＵ３において集約処理を実施するというステップを繰り返す。情報処理装置１００は、ＧＰＵ３における集約処理の際、ＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２とを分類した他のグループにおける直前の集約処理の実施結果が存在すれば、当該実施結果を参照しながら、集約処理を実施することにする。

【0112】

情報処理装置１００は、処理速度が比較的速いＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２とを分類したグループ単位で、ステップを繰り返し実施した回数が、閾値以上になった場合、所定の計算処理を完了してもよい。情報処理装置１００は、例えば、ステップを繰り返し実施した回数が、閾値以上になった場合、処理速度が比較的速いＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２とを分類したグループにおいて、以降、ステップを繰り返し実施することを中止する。

【0113】

同様に、情報処理装置１００は、例えば、ステップを繰り返し実施した回数が、閾値以上になった場合、処理速度が比較的遅いＧＰＵ３を分類したグループにおいて、以降、ステップを繰り返し実施することを中止する。情報処理装置１００は、処理速度が比較的遅いＧＰＵ３を分類したグループにおいて、以降、ステップを繰り返し実施することを中止する際、ステップを既に実施中であれば、実施中のステップを強制終了してもよい。

【0114】

また、情報処理装置１００は、処理速度が比較的遅いＧＰＵ３を分類したグループにおいて、以降、ステップを繰り返し実施することを中止する際、ステップを既に実施中であれば、実施中のステップを正常終了するまで待機してもよい。

【0115】

図５および図６に示すタイミングチャート５０１は、情報処理装置１００に関し、ＧＰＵ０に関するチャート５２０と、ＧＰＵ１に関するチャート５２１と、ＧＰＵ２に関するチャート５２２と、ＧＰＵ３に関するチャート５２３とを含む。

【0116】

チャート５２０は、情報処理装置１００による、ＧＰＵ０の処理内容の時間変化を示す。具体的には、図５は、チャート５２０の前半を示す。図６は、チャート５２０の後半を示す。図５および図６に示すチャート５２１は、情報処理装置１００による、ＧＰＵ１の処理内容の時間変化を示す。具体的には、図５は、チャート５２１の前半を示す。図６は、チャート５２１の後半を示す。

【0117】

図５および図６に示すチャート５２２は、情報処理装置１００による、ＧＰＵ２の処理内容の時間変化を示す。具体的には、図５は、チャート５２２の前半を示す。図６は、チャート５２２の後半を示す。図５および図６に示すチャート５２３は、情報処理装置１００による、ＧＰＵ３の処理内容の時間変化を示す。具体的には、図５は、チャート５２３の前半を示す。図６は、チャート５２３の後半を示す。

【0118】

チャート５２０～５２３に示すように、情報処理装置１００は、ＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２とが、学習処理を１回終了した後、ＧＰＵ３が学習処理を１回終了するまで待機せずに済ませることができる。このため、情報処理装置１００は、ＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２との計算リソースを効率的に活用し易くすることができる。

【0119】

情報処理装置１００は、深層学習に関する計算処理の高速化を図ることができ、深層学習に関する計算処理にかかる処理負担および処理時間の低減化を図ることができる。情報処理装置１００は、深層学習に関する計算処理にかかる処理時間が、ＧＰＵ３に律速され難くすることができ、深層学習に関する計算処理の効率低下を抑制することができる。

【0120】

（情報処理装置１００の動作例１）
次に、図７～図１０を用いて、情報処理装置１００の動作例１について説明する。

【0121】

図７～図１０は、情報処理装置１００の動作例１を示す説明図である。図７～図１０において、情報処理装置１００は、４つのＧＰＵ３０８を含むとする。４つのＧＰＵ３０８は、具体的には、ＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２と、ＧＰＵ３とであるとする。ＧＰＵ３の処理速度は、ＧＰＵ０の処理速度、ＧＰＵ１の処理速度、および、ＧＰＵ２の処理速度に比べて遅いとする。

【0122】

情報処理装置１００は、４つのＧＰＵ３０８を用いて、深層学習に関する所定の計算処理を並列処理することが望まれるとする。所定の計算処理は、例えば、学習処理を繰り返し実施することにより、モデルのパラメータを決定することである。モデルは、例えば、ＤＮＮである。学習処理は、例えば、モデルのパラメータの補正値を算出することである。

【0123】

ここで、情報処理装置１００は、ＣＰＵ３０１によって、それぞれのＧＰＵ３０８が、Ｎ回のテスト学習処理を実施するよう、４つのＧＰＵ３０８を制御する。それぞれのＧＰＵ３０８は、情報処理装置１００の制御に従って、Ｎ回のテスト学習処理を実施する。それぞれのＧＰＵ３０８は、Ｎ回のテスト学習処理を実施した後、テスト学習処理を実施する際にかかった所要時間の統計値を、学習処理時間として算出し、情報処理装置１００に送信する。

【0124】

情報処理装置１００は、それぞれのＧＰＵ３０８が算出した学習処理時間を、それぞれのＧＰＵ３０８から受信する。情報処理装置１００は、具体的には、ＧＰＵ０の処理時間ｔ_GPU0と、ＧＰＵ１の処理時間ｔ_GPU1と、ＧＰＵ２の処理時間ｔ_GPU2と、ＧＰＵ３の処理時間ｔ_GPU3とを受信したとする。ここで、ｔ_GPU3＞ｔ_GPU2＞ｔ_GPU1＞ｔ_GPU0である。これにより、情報処理装置１００は、４つのＧＰＵ３０８を、複数のグループに分類する指針を得ることができる。

【0125】

情報処理装置１００は、４つのＧＰＵ３０８を、複数のグループに分類するために用いられる閾値ｔ_THを有する。閾値ｔ_THは、例えば、予め利用者によって設定される。具体的には、ｔ_TH＝１．２である。情報処理装置１００は、最小の処理時間ｔ_GPU0に対するそれぞれのＧＰＵ３０８の処理時間の比率を、当該ＧＰＵ３０８の処理速度を表す指標値として算出する。ここで、ｔ_GPU3／ｔ_GPU0＞ｔ_TH＞ｔ_GPU2／ｔ_GPU0，ｔ_GPU1／ｔ_GPU0，ｔ_GPU0／ｔ_GPU0であるとする。

【0126】

情報処理装置１００は、いずれのＧＰＵ３０８の処理速度の指標値も、閾値ｔ_TH未満である場合、処理速度が比較的遅いＧＰＵ３０８が存在しても、所定の計算処理を効率よく並列処理可能であると判断する。このため、情報処理装置１００は、４つのＧＰＵ３０８を単一のグループに分類し、単一のグループにおいて所定の計算処理を並列処理することにする。

【0127】

一方で、情報処理装置１００は、少なくともいずれかのＧＰＵ３０８の処理速度の指標値が、閾値ｔ_TH以上である場合、４つのＧＰＵ３０８を、複数のグループに分類する。ここでは、情報処理装置１００は、ＧＰＵ３の処理速度の指標値が、閾値ｔ_TH以上であるため、４つのＧＰＵ３０８を、複数のグループに分類することになる。情報処理装置１００は、具体的には、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２とを、グループａに分類し、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ３を、グループｂに分類する。次に、図７の説明に移行する。

【0128】

図７の例では、情報処理装置１００が、ＦＰＧＡ３０７を含むとする。情報処理装置１００は、ＦＰＧＡ３０７を含む場合、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ２を介して、グループａを制御する「データ制御１」のプロセスを用意する。

【0129】

また、情報処理装置１００は、ＦＰＧＡ３０７を含む場合、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ３０８を分類したグループｂのうち、処理時間が最大であるＧＰＵ３を介して、グループｂを制御する「データ制御２」のプロセスを用意する。

【0130】

また、情報処理装置１００は、ＦＰＧＡ３０７を含む場合、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ２を介して、所定の計算処理の終了条件を制御する「終了制御」のプロセスを用意する。

【0131】

情報処理装置１００は、ＦＰＧＡ３０７を含む場合、「データ制御１」のプロセスと、「データ制御２」のプロセスと、「終了制御」のプロセスとを、ＦＰＧＡ３０７に配備する。

【0132】

これにより、情報処理装置１００は、各種プロセスによって、グループ単位で学習処理を繰り返し実施するよう、４つのＧＰＵ３０８を制御することができ、所定の計算処理を並列処理することができる。情報処理装置１００が、所定の計算処理を実施する具体例については、例えば、図９および図１０を用いて後述する。次に、図８の説明に移行する。

【0133】

図８の例では、情報処理装置１００が、ＦＰＧＡ３０７を含まないとする。情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ２を介して、グループａを制御する「データ制御１」のプロセスを用意する。

【0134】

情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ３０８を分類したグループｂのうち、処理時間が最大であるＧＰＵ３を介して、グループｂを制御する「データ制御２」のプロセスを用意する。

【0135】

情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ２を介して、所定の計算処理の終了条件を制御する「終了制御」のプロセスを用意する。

【0136】

情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、「データ制御１」のプロセスを、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ２に配備する。

【0137】

情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、「データ制御２」のプロセスを、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ３０８を分類したグループｂのうち、処理時間が最大であるＧＰＵ３に配備する。

【0138】

情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、「終了制御」のプロセスを、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ２に配備する。

【0139】

これにより、情報処理装置１００は、各種プロセスによって、グループ単位で学習処理を繰り返し実施するよう、４つのＧＰＵ３０８を制御することができ、所定の計算処理を並列処理することができる。情報処理装置１００が、所定の計算処理を実施する具体例については、例えば、図９および図１０を用いて後述する。

【0140】

次に、図９および図１０の説明に移行し、情報処理装置１００が、ＦＰＧＡ３０７を含まない場合を一例として、情報処理装置１００が、各種プロセスによって、所定の計算処理を実施する具体例について説明する。

【0141】

図９および図１０において、情報処理装置１００は、４つのＧＰＵ３０８を処理速度に応じて分類したグループ単位で、当該グループに属する１以上のＧＰＵ３０８を同期することにより、深層学習に関する所定の計算処理を並列処理する。

【0142】

情報処理装置１００は、例えば、グループａに属するそれぞれのＧＰＵ３０８が１回ずつ学習処理を実施した後に、グループａに属するそれぞれのＧＰＵ３０８において集約処理を実施するというステップを繰り返し実施するよう、グループａを制御する。集約処理は、それぞれのＧＰＵ３０８が学習処理を実施して得た補正値Δｗを統計処理することにより、集約補正値Δｗ_aを算出し、グループａで共有することである。

【0143】

情報処理装置１００は、例えば、グループｂに属するそれぞれのＧＰＵ３０８が１回ずつ学習処理を実施した後に、グループｂに属するそれぞれのＧＰＵ３０８において集約処理を実施するというステップを繰り返し実施するよう、グループｂを制御する。集約処理は、それぞれのＧＰＵ３０８が学習処理を実施して得た補正値Δｗを統計処理することにより、集約補正値Δｗ_bを算出し、グループｂで共有することである。

【0144】

情報処理装置１００は、グループａにおける集約処理の際、グループｂが算出した集約補正値Δｗ_bが存在すれば、集約補正値Δｗ_bを、グループａにおける集約処理に反映する。情報処理装置１００は、例えば、グループａに属するそれぞれのＧＰＵ３０８が学習処理を実施して得た補正値Δｗと、集約補正値Δｗ_bとを統計処理することにより、集約補正値Δｗ_aを算出し、グループａで共有することにする。

【0145】

情報処理装置１００は、グループｂにおける集約処理の際、グループａが算出した集約補正値Δｗ_aが存在すれば、集約補正値Δｗ_aを、グループｂにおける集約処理に反映する。情報処理装置１００は、例えば、グループｂに属するそれぞれのＧＰＵ３０８が学習処理を実施して得た補正値Δｗと、集約補正値Δｗ_aとを統計処理することにより、集約補正値Δｗ_bを算出し、グループｂで共有することにする。

【0146】

図９および図１０に示すように、情報処理装置１００は、具体的には、グループａにおける最新の集約補正値Δｗ_aを記憶するＧＰＵ０－２学習結果レジスタを有する。情報処理装置１００は、具体的には、グループａにおける最新の集約補正値Δｗ_aを、グループｂにおける集約処理に反映したか否かを管理するＧＰＵ０－２学習結果有効フラグを有する。

【0147】

情報処理装置１００は、具体的には、グループｂにおける最新の集約補正値Δｗ_bを記憶するＧＰＵ３学習結果レジスタを有する。情報処理装置１００は、具体的には、グループｂにおける最新の集約補正値Δｗ_bを、グループａにおける集約処理に反映したか否かを管理するＧＰＵ３学習結果有効フラグを有する。

【0148】

情報処理装置１００は、グループａにおいて集約処理を実施した回数を表す学習回数を有する。情報処理装置１００は、所定の計算処理を終了するか否かを管理する終了フラグを有する。

【0149】

「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_aが算出された場合、算出された最新の集約補正値Δｗ_aを、ＧＰＵ０－２学習結果レジスタに格納する。「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_aが算出されたことに応じて、ＧＰＵ０－２学習結果有効フラグを１に更新する。「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_aが、グループｂにおける集約処理に反映されたことに応じて、ＧＰＵ０－２学習結果有効フラグを０に更新する。

【0150】

これにより、「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_aを管理することができる。「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_aを、グループｂにおける集約処理に反映するか否かを適切に判定可能にすることができる。

【0151】

「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bが算出された場合、算出された最新の集約補正値Δｗ_bを、ＧＰＵ０－２学習結果レジスタに格納する。「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bが算出されたことに応じて、ＧＰＵ０－２学習結果有効フラグを１に更新する。「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bが、グループａにおける集約処理に反映されたことに応じて、ＧＰＵ０－２学習結果有効フラグを０に更新する。

【0152】

これにより、「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bを管理することができる。「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bを、グループａにおける集約処理に反映するか否かを適切に判定可能にすることができる。

【0153】

「終了制御」のプロセスは、学習回数が指定回数Ｐ以上になった場合、終了フラグを１に更新し、所定の計算処理を終了するよう、グループａと、グループｂとを制御する。

【0154】

図９および図１０に示すタイミングチャートは、ＧＰＵ０に関するチャート９００と、ＧＰＵ１に関するチャート９０１と、ＧＰＵ２に関するチャート９０２と、ＧＰＵ３に関するチャート９０３とを含む。

【0155】

図９および図１０に示すチャート９００は、ＧＰＵ０の処理内容の時間変化を示す。Ｆｏｒｗａｒｄ＋Ｂａｃｋｗａｒｄは、学習処理である。Ｗａｉｔは、待機状態である。Ａｌｌｒｅｄｕｃｅは、集約処理である。具体的には、図９は、チャート９００の前半を示す。図１０は、チャート９００の後半を示す。

【0156】

図９および図１０に示すチャート９０１は、ＧＰＵ０の処理内容の時間変化を示す。具体的には、図９は、チャート９０１の前半を示す。図１０は、チャート９０１の後半を示す。図９および図１０に示すチャート９０２は、ＧＰＵ０の処理内容の時間変化を示す。具体的には、図９は、チャート９０２の前半を示す。図１０は、チャート９０２の後半を示す。図９および図１０に示すチャート９０３は、ＧＰＵ０の処理内容の時間変化を示す。具体的には、図９は、チャート９０３の前半を示す。図１０は、チャート９０３の後半を示す。

【0157】

図９および図１０に示すタイミングチャートは、「データ制御１」のプロセスに関し、ＧＰＵ０－２Ａｌｌｒｅｄｕｃｅ期間のチャート９１１と、ＧＰＵ０－２学習結果有効フラグのチャート９１２と、ＧＰＵ０－２学習結果レジスタのチャート９１３とを含む。

【0158】

図９および図１０に示すチャート９１１は、グループａにおける集約処理の実施期間を示す。チャート９１１は、具体的には、グループａにおける集約処理の開始に応じて立ち上がり、グループａにおける集約処理の終了に応じて立ち下がる。図９および図１０に示すチャート９１２は、ＧＰＵ０－２学習結果有効フラグが０であるか１であるかを示す。図９および図１０に示すチャート９１２は、ＧＰＵ０－２学習結果レジスタの記憶内容の時間変化を示す。Δｗ_iaは、ｉ回目に算出した集約補正値Δｗ_aを示す。

【0159】

図９および図１０に示すタイミングチャートは、「データ制御２」のプロセスに関し、ＧＰＵ３Ａｌｌｒｅｄｕｃｅ期間のチャート９１４と、ＧＰＵ３学習結果有効フラグのチャート９１５と、ＧＰＵ３学習結果レジスタのチャート９１６とを含む。

【0160】

図９および図１０に示すチャート９１４は、グループｂにおける集約処理の実施期間を示す。チャート９１４は、具体的には、グループｂにおける集約処理の開始に応じて立ち上がり、グループｂにおける集約処理の終了に応じて立ち下がる。図９および図１０に示すチャート９１５は、ＧＰＵ３学習結果有効フラグが０であるか１であるかを示す。図９および図１０に示すチャート９１６は、ＧＰＵ３学習結果レジスタの記憶内容の時間変化を示す。Δｗ_ibは、ｉ回目に算出した集約補正値Δｗ_bを示す。

【0161】

図９および図１０に示すタイミングチャートは、「終了制御」のプロセスに関し、学習回数のチャート９１７と、終了フラグのチャート９１８とを含む。図９および図１０に示すチャート９１７は、学習回数の時間変化を示す。図９および図１０に示すチャート９１８は、終了フラグが０であるか１であるかを示す。ここで、図９の説明に移行する。

【0162】

グループａに属するそれぞれのＧＰＵ３０８は、１回目のステップを開始する。グループａにおいて、１回目のステップを開始すると、グループａに属するそれぞれのＧＰＵ３０８は、学習処理を１回実施し、補正値Δｗを算出する。グループａにおいて、１回目のステップを開始する際、ＧＰＵ２において、「データ制御１」のプロセスは、学習回数を１に更新する。

【0163】

（９－１）グループａにおいて、１回目のステップの集約処理を実施する際、ＧＰＵ２において、「データ制御１」のプロセスは、グループａに属する他のＧＰＵ３０８から、当該ＧＰＵ３０８が学習処理を実施して得られた補正値Δｗを収集する。

【0164】

ＧＰＵ２において、「データ制御１」のプロセスは、ＧＰＵ２が学習処理を実施して得られた補正値Δｗと、他のＧＰＵ３０８が学習処理を実施して得られた補正値Δｗとに基づいて、最新の集約補正値Δｗ_1aを算出する。ＧＰＵ２において、「データ制御１」のプロセスは、最新の集約補正値Δｗ_1aを、他のＧＰＵ３０８に共有する。

【0165】

図９の各種チャートに示すように、「データ制御１」のプロセスは、最新の集約補正値Δｗ_1aを算出したことに応じて、最新の集約補正値Δｗ_1aを、ＧＰＵ０－２学習結果レジスタに格納する。「データ制御１」のプロセスは、最新の集約補正値Δｗ_1aを、ＧＰＵ０－２学習結果レジスタに格納すると、ＧＰＵ０－２学習結果有効フラグを１に更新する。

【0166】

グループｂに属するそれぞれのＧＰＵ３０８は、１回目のステップを開始する。グループｂにおいて、１回目のステップを開始すると、グループｂに属するそれぞれのＧＰＵ３０８は、学習処理を１回実施し、補正値Δｗを算出する。

【0167】

（９－２）グループｂにおいて、１回目のステップの集約処理を実施する際、ＧＰＵ３において、「データ制御２」のプロセスは、ＧＰＵ０－２学習結果有効フラグが１であるか否かを判定する。ＧＰＵ３において、「データ制御２」のプロセスは、ＧＰＵ０－２学習結果有効フラグが１であれば、最新の集約補正値Δｗ_1aを、ＧＰＵ０－２学習結果レジスタから読み出す。

【0168】

ＧＰＵ３において、「データ制御２」のプロセスは、ＧＰＵ３が学習処理を実施して得られた補正値Δｗと、読み出した最新の集約補正値Δｗ_1aとに基づいて、最新の集約補正値Δｗ_1bを算出する。

【0169】

これにより、ＧＰＵ３において、「データ制御２」のプロセスは、グループａにおける最新の集約補正値Δｗ_1aを、グループｂにおける１回目のステップの集約処理に反映することができる。

【0170】

（９－３）図９の各種チャートに示すように、「データ制御２」のプロセスは、最新の集約補正値Δｗ_1bを算出したことに応じて、最新の集約補正値Δｗ_1bを、ＧＰＵ３学習結果レジスタに格納する。「データ制御２」のプロセスは、最新の集約補正値Δｗ_1bを、ＧＰＵ３学習結果レジスタに格納すると、ＧＰＵ３学習結果有効フラグを１に更新する。

【0171】

「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_1aが、グループｂにおける１回目のステップの集約処理に反映されたことに応じて、ＧＰＵ０－２学習結果有効フラグを０に更新する。

【0172】

これにより、「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_1aが、グループｂにおける集約処理に繰り返し反映されてしまうことを防止することができる。このため、「データ制御１」のプロセスは、所定の計算処理の精度低下を抑制することができる。

【0173】

グループａに属するそれぞれのＧＰＵ３０８は、１回目のステップを終了すると、２回目のステップを開始する。グループａにおいて、２回目のステップを開始すると、グループａに属するそれぞれのＧＰＵ３０８は、学習処理を１回実施し、補正値Δｗを算出する。グループａにおいて、２回目のステップを開始する際、ＧＰＵ２において、「データ制御１」のプロセスは、学習回数を２に更新する。

【0174】

（９－４）グループａにおいて、２回目のステップの集約処理を実施する際、ＧＰＵ２において、「データ制御１」のプロセスは、グループａに属する他のＧＰＵ３０８から、当該ＧＰＵ３０８が学習処理を実施して得られた補正値Δｗを収集する。

【0175】

ＧＰＵ２において、「データ制御１」のプロセスは、ＧＰＵ３学習結果有効フラグが１であるか否かを判定する。ＧＰＵ２において、「データ制御１」のプロセスは、ＧＰＵ３学習結果有効フラグが１であれば、最新の集約補正値Δｗ_1bを、ＧＰＵ３学習結果レジスタから読み出す。

【0176】

ＧＰＵ２において、「データ制御１」のプロセスは、ＧＰＵ２が学習処理を実施して得られた補正値Δｗと、他のＧＰＵ３０８が学習処理を実施して得られた補正値Δｗと、読み出した最新の集約補正値Δｗ_1bとに基づいて、最新の集約補正値Δｗ_2aを算出する。ＧＰＵ２において、「データ制御１」のプロセスは、最新の集約補正値Δｗ_2aを、他のＧＰＵ３０８に共有する。

【0177】

これにより、ＧＰＵ２において、「データ制御１」のプロセスは、グループｂにおける最新の集約補正値Δｗ_1bを、グループａにおける２回目のステップの集約処理に反映することができる。

【0178】

（９－５）図９の各種チャートに示すように、「データ制御１」のプロセスは、最新の集約補正値Δｗ_2aを算出したことに応じて、最新の集約補正値Δｗ_2aを、ＧＰＵ０－２学習結果レジスタに格納する。「データ制御１」のプロセスは、最新の集約補正値Δｗ_2aを、ＧＰＵ０－２学習結果レジスタに格納すると、ＧＰＵ０－２学習結果有効フラグを１に更新する。

【0179】

「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_1bが、グループａにおける２回目のステップの集約処理に反映されたことに応じて、ＧＰＵ３学習結果有効フラグを０に更新する。

【0180】

これにより、「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_1bが、グループａにおける集約処理に繰り返し反映されてしまうことを防止することができる。このため、「データ制御２」のプロセスは、所定の計算処理の精度低下を抑制することができる。ここで、図１０の説明に移行する。

【0181】

グループｂに属するそれぞれのＧＰＵ３０８は、Ｐ－Ｘ－１回目のステップを終了すると、Ｐ－Ｘ回目のステップを開始する。Ｘは、１以上の整数である。グループｂにおいて、Ｐ－Ｘ回目のステップを開始すると、グループｂに属するそれぞれのＧＰＵ３０８は、学習処理を１回実施し、補正値Δｗを算出する。

【0182】

（１０－１）グループｂにおいて、Ｐ－Ｘ回目のステップの集約処理を実施する際、ＧＰＵ３において、「データ制御２」のプロセスは、ＧＰＵ０－２学習結果有効フラグが１であるか否かを判定する。ＧＰＵ３において、「データ制御２」のプロセスは、ＧＰＵ０－２学習結果有効フラグが１であれば、最新の集約補正値Δｗ_(P-1)aを、ＧＰＵ０－２学習結果レジスタから読み出す。

【0183】

ＧＰＵ３において、「データ制御２」のプロセスは、ＧＰＵ３が学習処理を実施して得られた補正値Δｗと、読み出した最新の集約補正値Δｗ_(P-1)aとに基づいて、最新の集約補正値Δｗ_(P-X)bを算出する。

【0184】

これにより、ＧＰＵ３において、「データ制御２」のプロセスは、グループａにおける最新の集約補正値Δｗ_(P-1)aを、グループｂにおけるＰ－Ｘ回目のステップの集約処理に反映することができる。

【0185】

（１０－２）図９の各種チャートに示すように、「データ制御２」のプロセスは、最新の集約補正値Δｗ_(P-X)bを算出したことに応じて、最新の集約補正値Δｗ_(P-X)bを、ＧＰＵ３学習結果レジスタに格納する。「データ制御２」のプロセスは、最新の集約補正値Δｗ_(P-X)bを、ＧＰＵ３学習結果レジスタに格納すると、ＧＰＵ３学習結果有効フラグを１に更新する。

【0186】

「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_(P-1)aが、グループｂにおけるＰ－Ｘ回目のステップの集約処理に反映されたことに応じて、ＧＰＵ０－２学習結果有効フラグを０に更新する。

【0187】

これにより、「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_(P-1)aが、グループｂにおける集約処理に繰り返し反映されてしまうことを防止することができる。このため、「データ制御１」のプロセスは、所定の計算処理の精度低下を抑制することができる。

【0188】

グループａに属するそれぞれのＧＰＵ３０８は、Ｐ－１回目のステップを終了すると、Ｐ回目のステップを開始する。グループａにおいて、Ｐ回目のステップを開始すると、グループａに属するそれぞれのＧＰＵ３０８は、学習処理を１回実施し、補正値Δｗを算出する。グループａにおいて、Ｐ回目のステップを開始する際、ＧＰＵ２において、「データ制御１」のプロセスは、学習回数をＰに更新する。

【0189】

（１０－３）グループａにおいて、Ｐ回目のステップの集約処理を実施する際、ＧＰＵ２において、「データ制御１」のプロセスは、グループａに属する他のＧＰＵ３０８から、当該ＧＰＵ３０８が学習処理を実施して得られた補正値Δｗを収集する。

【0190】

ＧＰＵ２において、「データ制御１」のプロセスは、ＧＰＵ３学習結果有効フラグが１であるか否かを判定する。ＧＰＵ２において、「データ制御１」のプロセスは、ＧＰＵ３学習結果有効フラグが１であれば、最新の集約補正値Δｗ_(P-X)bを、ＧＰＵ３学習結果レジスタから読み出す。

【0191】

ＧＰＵ２において、「データ制御１」のプロセスは、ＧＰＵ２が学習処理を実施して得られた補正値Δｗと、収集した補正値Δｗと、読み出した最新の集約補正値Δｗ_(P-X)bとに基づいて、最新の集約補正値Δｗ_Paを算出する。ＧＰＵ２において、「データ制御１」のプロセスは、最新の集約補正値Δｗ_Paを、他のＧＰＵ３０８に共有する。

【0192】

これにより、ＧＰＵ２において、「データ制御１」のプロセスは、グループｂにおける最新の集約補正値Δｗ_(P-X)bを、グループａにおけるＰ回目のステップの集約処理に反映することができる。

【0193】

（１０－４）図９の各種チャートに示すように、「データ制御１」のプロセスは、最新の集約補正値Δｗ_Paを算出したことに応じて、最新の集約補正値Δｗ_Paを、ＧＰＵ０－２学習結果レジスタに格納する。「データ制御１」のプロセスは、最新の集約補正値Δｗ_Paを、ＧＰＵ０－２学習結果レジスタに格納すると、ＧＰＵ０－２学習結果有効フラグを１に更新する。

【0194】

「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_(P-X)bが、グループａにおけるＰ回目のステップの集約処理に反映されたことに応じて、ＧＰＵ３学習結果有効フラグを０に更新する。

【0195】

これにより、「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_(P-X)bが、グループａにおける集約処理に繰り返し反映されてしまうことを防止することができる。このため、「データ制御２」のプロセスは、所定の計算処理の精度低下を抑制することができる。

【0196】

（１０－５）ＧＰＵ２において、「終了制御」のプロセスは、学習回数≧Ｐであることを検出すると、グループａにおけるステップの繰り返しを停止するよう、グループａを制御する。同様に、ＧＰＵ２において、「終了制御」のプロセスは、学習回数≧Ｐであることを検出すると、グループｂにおけるステップの繰り返しを停止するよう、グループｂを制御する。ＧＰＵ２において、「終了制御」のプロセスは、グループｂにおいて、ステップが実施中であれば、ステップを強制終了するよう、グループｂを制御してもよい。

【0197】

これにより、「終了制御」のプロセスは、所定の計算処理を適切に終了することができる。「終了制御」のプロセスは、少なくとも、グループａにおいて学習処理がＰ回実施されることを保証することができ、所定の計算処理の精度を確保することができる。

【0198】

例えば、ＧＰＵ３の処理性能が、他のＧＰＵ３０８に比べて２０％低い場合、情報処理装置１００は、４つのＧＰＵ３０８を単一のグループとして扱う場合における５％分の学習結果に相当する情報を失うことになる。しかしながら、情報処理装置１００は、少なくとも、グループａにおいて学習処理がＰ回実施されることを保証することができるため、失われる情報の量を抑制することができ、所定の計算処理の精度低下を抑制することができる。

【0199】

情報処理装置１００は、所定の計算処理の精度低下を抑制しつつ、所定の計算処理が、処理速度が比較的遅いＧＰＵ３に律速されることを回避することができ、所定の計算処理にかかる処理負担および処理時間の増大化を抑制することができる。

【0200】

（動作例１における第１データ制御処理手順）
次に、図１１を用いて、動作例１において情報処理装置１００が実行する、第１データ制御処理手順の一例について説明する。第１データ制御処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

【0201】

図１１は、動作例１における第１データ制御処理手順の一例を示すフローチャートである。図１１において、情報処理装置１００は、ｉ回目の学習処理を実行する（ステップＳ１１０１）。次に、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算処理を開始する（ステップＳ１１０２）。

【0202】

そして、情報処理装置１００は、ＧＰＵ３学習結果有効フラグ＝１であるか否かを判定する（ステップＳ１１０３）。ここで、ＧＰＵ３学習結果有効フラグ＝１ではない場合（ステップＳ１１０３：Ｎｏ）、情報処理装置１００は、ステップＳ１１０６の処理に移行する。一方で、ＧＰＵ３学習結果有効フラグ＝１である場合（ステップＳ１１０３：Ｙｅｓ）、情報処理装置１００は、ステップＳ１１０４の処理に移行する。

【0203】

ステップＳ１１０４では、情報処理装置１００は、ＧＰＵ３学習結果レジスタの内容を読み出す（ステップＳ１１０４）。次に、情報処理装置１００は、ＧＰＵ３学習結果有効フラグ＝０に設定する（ステップＳ１１０５）。そして、情報処理装置１００は、ステップＳ１１０６の処理に移行する。

【0204】

ステップＳ１１０６では、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算結果を生成する（ステップＳ１１０６）。次に、情報処理装置１００は、ＧＰＵ０－２学習結果有効フラグ＝１に設定する（ステップＳ１１０７）。そして、情報処理装置１００は、ＧＰＵ０－２学習結果レジスタに、Ａｌｌｒｅｄｕｃｅ演算結果を書き込む（ステップＳ１１０８）。

【0205】

次に、情報処理装置１００は、学習回数ｉ＝Ｐであるか否かを判定する（ステップＳ１１０９）。ここで、学習回数ｉ＝Ｐではない場合（ステップＳ１１０９：Ｎｏ）、情報処理装置１００は、ステップＳ１１１０の処理に移行する。一方で、学習回数ｉ＝Ｐである場合（ステップＳ１１０９：Ｙｅｓ）、情報処理装置１００は、ステップＳ１１１１の処理に移行する。

【0206】

ステップＳ１１１０では、情報処理装置１００は、ｉをインクリメントする（ステップＳ１１１０）。そして、情報処理装置１００は、ステップＳ１１０１の処理に戻る。

【0207】

ステップＳ１１１１では、情報処理装置１００は、図１３に後述する終了制御処理を実行する（ステップＳ１１１１）。そして、情報処理装置１００は、第１データ制御処理を終了する。

【0208】

（動作例１における第２データ制御処理手順）
次に、図１２を用いて、動作例１において情報処理装置１００が実行する、第２データ制御処理手順の一例について説明する。第２データ制御処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

【0209】

図１２は、動作例１における第２データ制御処理手順の一例を示すフローチャートである。図１２において、情報処理装置１００は、ｊ回目の学習処理を実行する（ステップＳ１２０１）。次に、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算処理を開始する（ステップＳ１２０２）。

【0210】

そして、情報処理装置１００は、ＧＰＵ０－２学習結果有効フラグ＝１であるか否かを判定する（ステップＳ１２０３）。ここで、ＧＰＵ０－２学習結果有効フラグ＝１ではない場合（ステップＳ１２０３：Ｎｏ）、情報処理装置１００は、ステップＳ１２０６の処理に移行する。一方で、ＧＰＵ０－２学習結果有効フラグ＝１である場合（ステップＳ１２０３：Ｙｅｓ）、情報処理装置１００は、ステップＳ１２０４の処理に移行する。

【0211】

ステップＳ１２０４では、情報処理装置１００は、ＧＰＵ０－２学習結果レジスタの内容を読み出す（ステップＳ１２０４）。次に、情報処理装置１００は、ＧＰＵ０－２学習結果有効フラグ＝０に設定する（ステップＳ１２０５）。そして、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算結果を生成する（ステップＳ１２０６）。

【0212】

次に、情報処理装置１００は、ＧＰＵ３学習結果有効フラグ＝１に設定する（ステップＳ１２０７）。そして、情報処理装置１００は、ＧＰＵ３学習結果レジスタに、Ａｌｌｒｅｄｕｃｅ演算結果を書き込む（ステップＳ１２０８）。次に、情報処理装置１００は、ｊをインクリメントする（ステップＳ１２０９）。そして、情報処理装置１００は、ステップＳ１２０１の処理に戻る。

【0213】

（動作例１における終了制御処理手順）
次に、図１３を用いて、動作例１において情報処理装置１００が実行する、終了制御処理手順の一例について説明する。終了制御処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

【0214】

図１３は、動作例１における終了制御処理手順の一例を示すフローチャートである。図１３において、情報処理装置１００は、第１データ制御処理を終了する（ステップＳ１３０１）。次に、情報処理装置１００は、第２データ制御処理を強制終了する（ステップＳ１３０２）。そして、情報処理装置１００は、終了制御処理を終了する。

【0215】

（情報処理装置１００の動作例２）
次に、図１４～図１７を用いて、情報処理装置１００の動作例２について説明する。上述した動作例１は、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループが、１つのＧＰＵ３０８のみを含む場合に関する動作例である。これに対し、動作例２は、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループが、２以上のＧＰＵ３０８を含む場合に関する動作例である。

【0216】

図１４～図１７は、情報処理装置１００の動作例２を示す説明図である。図１４～図１７において、情報処理装置１００は、４つのＧＰＵ３０８を含むとする。４つのＧＰＵ３０８は、具体的には、ＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２と、ＧＰＵ３とであるとする。ＧＰＵ２の処理速度と、ＧＰＵ３の処理速度とは、ＧＰＵ０の処理速度と、ＧＰＵ１の処理速度とに比べて遅いとする。

【0217】

【0218】

【0219】

【0220】

情報処理装置１００は、４つのＧＰＵ３０８を、複数のグループに分類するために用いられる閾値ｔ_THを有する。閾値ｔ_THは、例えば、予め利用者によって設定される。具体的には、ｔ_TH＝１．２である。情報処理装置１００は、最小の処理時間ｔ_GPU0に対するそれぞれのＧＰＵ３０８の処理時間の比率を、当該ＧＰＵ３０８の処理速度を表す指標値として算出する。ここで、ｔ_GPU3／ｔ_GPU0，ｔ_GPU2／ｔ_GPU0＞ｔ_TH＞ｔ_GPU1／ｔ_GPU0，ｔ_GPU0／ｔ_GPU0であるとする。

【0221】

【0222】

一方で、情報処理装置１００は、少なくともいずれかのＧＰＵ３０８の処理速度の指標値が、閾値ｔ_TH以上である場合、４つのＧＰＵ３０８を、複数のグループに分類する。ここでは、情報処理装置１００は、ＧＰＵ２の処理速度の指標値と、ＧＰＵ３の処理速度の指標値とが、閾値ｔ_TH以上であるため、４つのＧＰＵ３０８を、複数のグループに分類することになる。情報処理装置１００は、具体的には、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ０と、ＧＰＵ１とを、グループａに分類し、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ２と、ＧＰＵ３とを、グループｂに分類する。次に、図１４の説明に移行する。

【0223】

図１４の例では、情報処理装置１００が、ＦＰＧＡ３０７を含むとする。情報処理装置１００は、ＦＰＧＡ３０７を含む場合、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ１を介して、グループａを制御する「データ制御１」のプロセスを用意する。

【0224】

【0225】

また、情報処理装置１００は、ＦＰＧＡ３０７を含む場合、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ１を介して、所定の計算処理の終了条件を制御する「終了制御」のプロセスを用意する。

【0226】

【0227】

これにより、情報処理装置１００は、各種プロセスによって、グループ単位で学習処理を繰り返し実施するよう、４つのＧＰＵ３０８を制御することができ、所定の計算処理を並列処理することができる。情報処理装置１００が、所定の計算処理を実施する具体例については、例えば、図１６および図１７を用いて後述する。次に、図１５の説明に移行する。

【0228】

図１５の例では、情報処理装置１００が、ＦＰＧＡ３０７を含まないとする。情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ１を介して、グループａを制御する「データ制御１」のプロセスを用意する。

【0229】

【0230】

情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ１を介して、所定の計算処理の終了条件を制御する「終了制御」のプロセスを用意する。

【0231】

情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、「データ制御１」のプロセスを、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ１に配備する。

【0232】

【0233】

情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、「終了制御」のプロセスを、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ１に配備する。

【0234】

これにより、情報処理装置１００は、各種プロセスによって、グループ単位で学習処理を繰り返し実施するよう、４つのＧＰＵ３０８を制御することができ、所定の計算処理を並列処理することができる。情報処理装置１００が、所定の計算処理を実施する具体例については、例えば、図１６および図１７を用いて後述する。

【0235】

次に、図１６および図１７の説明に移行し、情報処理装置１００が、ＦＰＧＡ３０７を含まない場合を一例として、情報処理装置１００が、各種プロセスによって、所定の計算処理を実施する具体例について説明する。

【0236】

図１６および図１７において、情報処理装置１００は、４つのＧＰＵ３０８を処理速度に応じて分類したグループ単位で、当該グループに属する１以上のＧＰＵ３０８を同期することにより、深層学習に関する所定の計算処理を並列処理する。

【0237】

【0238】

情報処理装置１００は、グループｂにおける最新の集約補正値Δｗ_bがあれば、最新の集約補正値Δｗ_bを、集約処理に反映する。情報処理装置１００は、例えば、最新の集約補正値Δｗ_bと、グループａに属するそれぞれのＧＰＵ３０８が学習処理を実施して得た補正値Δｗとを統計処理することにより、集約補正値Δｗ_aを算出する。

【0239】

【0240】

情報処理装置１００は、グループａにおける最新の集約補正値Δｗ_aがあれば、最新の集約補正値Δｗ_aを、集約処理に反映する。情報処理装置１００は、例えば、最新の集約補正値Δｗ_aと、グループｂに属するそれぞれのＧＰＵ３０８が学習処理を実施して得た補正値Δｗとを統計処理することにより、集約補正値Δｗ_bを算出する。

【0241】

図１６および図１７に示すように、情報処理装置１００は、具体的には、グループａにおける最新の集約補正値Δｗ_aを記憶するＧＰＵ０－１学習結果レジスタを有する。情報処理装置１００は、具体的には、グループａにおける最新の集約補正値Δｗ_aを、グループｂにおける集約処理に反映したか否かを管理するＧＰＵ０－１学習結果有効フラグを有する。

【0242】

情報処理装置１００は、具体的には、グループｂにおける最新の集約補正値Δｗ_bを記憶するＧＰＵ２－３学習結果レジスタを有する。情報処理装置１００は、具体的には、グループｂにおける最新の集約補正値Δｗ_bを、グループａにおける集約処理に反映したか否かを管理するＧＰＵ２－３学習結果有効フラグを有する。

【0243】

【0244】

「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_aが算出された場合、算出された最新の集約補正値Δｗ_aを、ＧＰＵ０－１学習結果レジスタに格納する。「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_aが算出されたことに応じて、ＧＰＵ０－１学習結果有効フラグを１に更新する。「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_aが、グループｂにおける集約処理に反映されたことに応じて、ＧＰＵ０－１学習結果有効フラグを０に更新する。「データ制御１」のプロセスは、グループａにおいて、ステップを開始する都度、学習回数をインクリメントする。

【0245】

【0246】

「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bが算出された場合、算出された最新の集約補正値Δｗ_bを、ＧＰＵ２－３学習結果レジスタに格納する。「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bが算出されたことに応じて、ＧＰＵ２－３学習結果有効フラグを１に更新する。「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bが、グループａにおける集約処理に反映されたことに応じて、ＧＰＵ２－３学習結果有効フラグを０に更新する。

【0247】

【0248】

【0249】

図１６および図１７に示すタイミングチャートは、ＧＰＵ０に関するチャート１６００と、ＧＰＵ１に関するチャート１６０１と、ＧＰＵ２に関するチャート１６０２と、ＧＰＵ３に関するチャート１６０３とを含む。

【0250】

図１６および図１７に示すチャート１６００は、ＧＰＵ０の処理内容の時間変化を示す。Ｆｏｒｗａｒｄ＋Ｂａｃｋｗａｒｄは、学習処理である。Ｗａｉｔは、待機状態である。Ａｌｌｒｅｄｕｃｅは、集約処理である。具体的には、図１６は、チャート１６００の前半を示す。図１７は、チャート１６００の後半を示す。

【0251】

図１６および図１７に示すチャート１６０１は、ＧＰＵ１の処理内容の時間変化を示す。具体的には、図１６は、チャート１６０１の前半を示す。図１７は、チャート１６０１の後半を示す。図１６および図１７に示すチャート１６０２は、ＧＰＵ２の処理内容の時間変化を示す。具体的には、図１６は、チャート１６０２の前半を示す。図１７は、チャート１６０２の後半を示す。図１６および図１７に示すチャート１６０３は、ＧＰＵ３の処理内容の時間変化を示す。具体的には、図１６は、チャート１６０３の前半を示す。図１７は、チャート１６０３の後半を示す。

【0252】

図１６および図１７に示すタイミングチャートは、「データ制御１」のプロセスに関し、ＧＰＵ０－１Ａｌｌｒｅｄｕｃｅ期間のチャート１６１１を含む。図１６および図１７に示すタイミングチャートは、「データ制御１」のプロセスに関し、ＧＰＵ０－１学習結果有効フラグのチャート１６１２と、ＧＰＵ０－１学習結果レジスタのチャート１６１３とを含む。

【0253】

図１６および図１７に示すチャート１６１１は、グループａにおける集約処理の実施期間を示す。チャート１６１１は、具体的には、グループａにおける集約処理の開始に応じて立ち上がり、グループａにおける集約処理の終了に応じて立ち下がる。図１６および図１７に示すチャート１６１２は、ＧＰＵ０－１学習結果有効フラグが０であるか１であるかを示す。図１６および図１７に示すチャート１６１２は、ＧＰＵ０－１学習結果レジスタの記憶内容の時間変化を示す。Δｗ_iaは、ｉ回目に算出した集約補正値Δｗ_aを示す。

【0254】

図１６および図１７に示すタイミングチャートは、「データ制御２」のプロセスに関し、ＧＰＵ３Ａｌｌｒｅｄｕｃｅ期間のチャート１６１４と、ＧＰＵ２－３学習結果有効フラグのチャート１６１５と、ＧＰＵ２－３学習結果レジスタのチャート１６１６とを含む。

【0255】

図１６および図１７に示すチャート１６１４は、グループｂにおける集約処理の実施期間を示す。チャート１６１４は、具体的には、グループｂにおける集約処理の開始に応じて立ち上がり、グループｂにおける集約処理の終了に応じて立ち下がる。図１６および図１７に示すチャート１６１５は、ＧＰＵ２－３学習結果有効フラグが０であるか１であるかを示す。図１６および図１７に示すチャート１６１６は、ＧＰＵ２－３学習結果レジスタの記憶内容の時間変化を示す。Δｗ_ibは、ｉ回目に算出した集約補正値Δｗ_bを示す。

【0256】

図１６および図１７に示すタイミングチャートは、「終了制御」のプロセスに関し、学習回数のチャート１６１７と、終了フラグのチャート１６１８とを含む。図１６および図１７に示すチャート１６１７は、学習回数の時間変化を示す。図１６および図１７に示すチャート１６１８は、終了フラグが０であるか１であるかを示す。ここで、図１６の説明に移行する。

【0257】

グループａに属するそれぞれのＧＰＵ３０８は、１回目のステップを開始する。グループａにおいて、１回目のステップを開始すると、グループａに属するそれぞれのＧＰＵ３０８は、学習処理を１回実施し、補正値Δｗを算出する。グループａにおいて、１回目のステップを開始する際、ＧＰＵ１において、「データ制御１」のプロセスは、学習回数を１に更新する。

【0258】

（１６－１）グループａにおいて、１回目のステップの集約処理を実施する際、ＧＰＵ１において、「データ制御１」のプロセスは、グループａに属する他のＧＰＵ３０８から、当該ＧＰＵ３０８が学習処理を実施して得られた補正値Δｗを収集する。

【0259】

ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ１が学習処理を実施して得られた補正値Δｗと、他のＧＰＵ３０８が学習処理を実施して得られた補正値Δｗとに基づいて、最新の集約補正値Δｗ_1aを算出する。ＧＰＵ１において、「データ制御１」のプロセスは、最新の集約補正値Δｗ_1aを、他のＧＰＵ３０８に共有する。

【0260】

図１６の各種チャートに示すように、「データ制御１」のプロセスは、最新の集約補正値Δｗ_1aを算出したことに応じて、最新の集約補正値Δｗ_1aを、ＧＰＵ０－１学習結果レジスタに格納する。「データ制御１」のプロセスは、最新の集約補正値Δｗ_1aを、ＧＰＵ０－１学習結果レジスタに格納すると、ＧＰＵ０－１学習結果有効フラグを１に更新する。

【0261】

【0262】

（１６－２）グループｂにおいて、１回目のステップの集約処理を実施する際、ＧＰＵ３において、「データ制御２」のプロセスは、グループｂに属する他のＧＰＵ３０８から、当該ＧＰＵ３０８が学習処理を実施して得られた補正値Δｗを収集する。

【0263】

ＧＰＵ３において、「データ制御２」のプロセスは、ＧＰＵ０－１学習結果有効フラグが１であるか否かを判定する。ＧＰＵ３において、「データ制御２」のプロセスは、ＧＰＵ０－１学習結果有効フラグが１であれば、最新の集約補正値Δｗ_1aを、ＧＰＵ０－１学習結果レジスタから読み出す。

【0264】

ＧＰＵ３において、「データ制御２」のプロセスは、ＧＰＵ３が学習処理を実施して得られた補正値Δｗと、他のＧＰＵ３０８が学習処理を実施して得られた補正値Δｗと、読み出した最新の集約補正値Δｗ_1aとに基づいて、最新の集約補正値Δｗ_1bを算出する。ＧＰＵ３において、「データ制御２」のプロセスは、最新の集約補正値Δｗ_1bを、他のＧＰＵ３０８に共有する。

【0265】

【0266】

（１６－３）図１６の各種チャートに示すように、「データ制御２」のプロセスは、最新の集約補正値Δｗ_1bを算出したことに応じて、最新の集約補正値Δｗ_1bを、ＧＰＵ２－３学習結果レジスタに格納する。「データ制御２」のプロセスは、最新の集約補正値Δｗ_1bを、ＧＰＵ２－３学習結果レジスタに格納すると、ＧＰＵ２－３学習結果有効フラグを１に更新する。

【0267】

「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_1aが、グループｂにおける１回目のステップの集約処理に反映されたことに応じて、ＧＰＵ０－１学習結果有効フラグを０に更新する。

【0268】

【0269】

グループａに属するそれぞれのＧＰＵ３０８は、１回目のステップを終了すると、２回目のステップを開始する。グループａにおいて、２回目のステップを開始すると、グループａに属するそれぞれのＧＰＵ３０８は、学習処理を１回実施し、補正値Δｗを算出する。グループａにおいて、２回目のステップを開始する際、ＧＰＵ１において、「データ制御１」のプロセスは、学習回数を２に更新する。

【0270】

（１６－４）グループａにおいて、２回目のステップの集約処理を実施する際、ＧＰＵ１において、「データ制御１」のプロセスは、グループａに属する他のＧＰＵ３０８から、当該ＧＰＵ３０８が学習処理を実施して得られた補正値Δｗを収集する。

【0271】

ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ２－３学習結果有効フラグが１であるか否かを判定する。ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ２－３学習結果有効フラグが１であれば、最新の集約補正値Δｗ_1bを、ＧＰＵ２－３学習結果レジスタから読み出す。

【0272】

ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ１が学習処理を実施して得られた補正値Δｗと、他のＧＰＵ３０８が学習処理を実施して得られた補正値Δｗと、読み出した最新の集約補正値Δｗ_1bとに基づいて、最新の集約補正値Δｗ_2aを算出する。ＧＰＵ１において、「データ制御１」のプロセスは、最新の集約補正値Δｗ_2aを、他のＧＰＵ３０８に共有する。

【0273】

これにより、ＧＰＵ１において、「データ制御１」のプロセスは、グループｂにおける最新の集約補正値Δｗ_1bを、グループａにおける２回目のステップの集約処理に反映することができる。

【0274】

（１６－５）図１６の各種チャートに示すように、「データ制御１」のプロセスは、最新の集約補正値Δｗ_2aを算出したことに応じて、最新の集約補正値Δｗ_2aを、ＧＰＵ０－１学習結果レジスタに格納する。「データ制御１」のプロセスは、最新の集約補正値Δｗ_2aを、ＧＰＵ０－１学習結果レジスタに格納すると、ＧＰＵ０－１学習結果有効フラグを１に更新する。

【0275】

「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_1bが、グループａにおける２回目のステップの集約処理に反映されたことに応じて、ＧＰＵ２－３学習結果有効フラグを０に更新する。

【0276】

これにより、「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_1bが、グループａにおける集約処理に繰り返し反映されてしまうことを防止することができる。このため、「データ制御２」のプロセスは、所定の計算処理の精度低下を抑制することができる。ここで、図１７の説明に移行する。

【0277】

グループｂに属するそれぞれのＧＰＵ３０８は、Ｐ－Ｘ－１回目のステップを終了すると、Ｐ－Ｘ回目のステップを開始する。グループｂにおいて、Ｐ－Ｘ回目のステップを開始すると、グループｂに属するそれぞれのＧＰＵ３０８は、学習処理を１回実施し、補正値Δｗを算出する。

【0278】

（１７－１）グループｂにおいて、Ｐ－Ｘ回目のステップの集約処理を実施する際、ＧＰＵ３において、「データ制御２」のプロセスは、グループｂに属する他のＧＰＵ３０８から、当該ＧＰＵ３０８が学習処理を実施して得られた補正値Δｗを収集する。

【0279】

ＧＰＵ３において、「データ制御２」のプロセスは、ＧＰＵ０－１学習結果有効フラグが１であるか否かを判定する。ＧＰＵ３において、「データ制御２」のプロセスは、ＧＰＵ０－１学習結果有効フラグが１であれば、最新の集約補正値Δｗ_(P-1)aを、ＧＰＵ０－１学習結果レジスタから読み出す。

【0280】

ＧＰＵ３において、「データ制御２」のプロセスは、ＧＰＵ３が学習処理を実施して得られた補正値Δｗと、収集した補正値Δｗと、読み出した最新の集約補正値Δｗ_(P-1)aとに基づいて、最新の集約補正値Δｗ_(P-X)bを算出する。ＧＰＵ３において、「データ制御２」のプロセスは、最新の集約補正値Δｗ_(P-X)bを、他のＧＰＵ３０８に共有する。

【0281】

【0282】

（１７－２）図１６の各種チャートに示すように、「データ制御２」のプロセスは、最新の集約補正値Δｗ_(P-X)bを算出したことに応じて、最新の集約補正値Δｗ_(P-X)bを、ＧＰＵ２－３学習結果レジスタに格納する。「データ制御２」のプロセスは、最新の集約補正値Δｗ_(P-X)bを、ＧＰＵ２－３学習結果レジスタに格納すると、ＧＰＵ２－３学習結果有効フラグを１に更新する。

【0283】

「データ制御１」のプロセスは、グループａにおける最新の集約補正値Δｗ_(P-1)aが、グループｂにおけるＰ－Ｘ回目のステップの集約処理に反映されたことに応じて、ＧＰＵ０－１学習結果有効フラグを０に更新する。

【0284】

【0285】

【0286】

（１７－３）グループａにおいて、Ｐ回目のステップの集約処理を実施する際、ＧＰＵ１において、「データ制御１」のプロセスは、グループａに属する他のＧＰＵ３０８から、当該ＧＰＵ３０８が学習処理を実施して得られた補正値Δｗを収集する。

【0287】

ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ２－３学習結果有効フラグが１であるか否かを判定する。ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ２－３学習結果有効フラグが１であれば、最新の集約補正値Δｗ_(P-X)bを、ＧＰＵ２－３学習結果レジスタから読み出す。

【0288】

ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ１が学習処理を実施して得られた補正値Δｗと、収集した補正値Δｗと、読み出した最新の集約補正値Δｗ_(P-X)bとに基づいて、最新の集約補正値Δｗ_Paを算出する。ＧＰＵ１において、「データ制御１」のプロセスは、最新の集約補正値Δｗ_Paを、他のＧＰＵ３０８に共有する。

【0289】

これにより、ＧＰＵ１において、「データ制御１」のプロセスは、グループｂにおける最新の集約補正値Δｗ_(P-X)bを、グループａにおけるＰ回目のステップの集約処理に反映することができる。

【0290】

（１７－４）図１６の各種チャートに示すように、「データ制御１」のプロセスは、最新の集約補正値Δｗ_Paを算出したことに応じて、最新の集約補正値Δｗ_Paを、ＧＰＵ０－１学習結果レジスタに格納する。「データ制御１」のプロセスは、最新の集約補正値Δｗ_Paを、ＧＰＵ０－１学習結果レジスタに格納すると、ＧＰＵ０－１学習結果有効フラグを１に更新する。

【0291】

「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_(P-X)bが、グループａにおけるＰ回目のステップの集約処理に反映されたことに応じて、ＧＰＵ２－３学習結果有効フラグを０に更新する。

【0292】

【0293】

（１７－５）ＧＰＵ１において、「終了制御」のプロセスは、学習回数≧Ｐであることを検出すると、グループａにおけるステップの繰り返しを停止するよう、グループａを制御する。同様に、ＧＰＵ１において、「終了制御」のプロセスは、学習回数≧Ｐであることを検出すると、グループｂにおけるステップの繰り返しを停止するよう、グループｂを制御する。ＧＰＵ１において、「終了制御」のプロセスは、グループｂにおいて、ステップが実施中であれば、ステップを強制終了するよう、グループｂを制御してもよい。

【0294】

【0295】

情報処理装置１００は、少なくとも、グループａにおいて学習処理がＰ回実施されることを保証することができるため、失われる情報の量を抑制することができ、所定の計算処理の精度低下を抑制することができる。

【0296】

【0297】

ここでは、テスト学習処理と、所定の計算処理とが異なる場合について説明したが、これに限らない。例えば、情報処理装置１００が、所定の計算処理の一部を、テスト学習処理として利用する場合があってもよい。

【0298】

具体的には、情報処理装置１００は、所定の計算処理の前半部分として、４つのＧＰＵ３０８を単一のグループとして、学習処理を１回以上実施した後、集約処理を実施することにより、それぞれのＧＰＵ３０８の処理速度の指標値を算出する。具体的には、情報処理装置１００は、４つのＧＰＵ３０８を、処理速度の指標値に応じた２つのグループに分類する。具体的には、情報処理装置１００は、所定の計算処理の後半部分として、動作例１と同様に、２つのグループのそれぞれのグループにおいて、ステップを繰り返すよう、２つのグループを制御する。

【0299】

（動作例２における第１データ制御処理手順）
次に、図１８を用いて、動作例２において情報処理装置１００が実行する、第１データ制御処理手順の一例について説明する。第１データ制御処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

【0300】

図１８は、動作例２における第１データ制御処理手順の一例を示すフローチャートである。図１８において、情報処理装置１００は、ｉ回目の学習処理を実行する（ステップＳ１８０１）。次に、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算処理を開始する（ステップＳ１８０２）。

【0301】

そして、情報処理装置１００は、ＧＰＵ２－３学習結果有効フラグ＝１であるか否かを判定する（ステップＳ１８０３）。ここで、ＧＰＵ２－３学習結果有効フラグ＝１ではない場合（ステップＳ１８０３：Ｎｏ）、情報処理装置１００は、ステップＳ１８０６の処理に移行する。一方で、ＧＰＵ２－３学習結果有効フラグ＝１である場合（ステップＳ１８０３：Ｙｅｓ）、情報処理装置１００は、ステップＳ１８０４の処理に移行する。

【0302】

ステップＳ１８０４では、情報処理装置１００は、ＧＰＵ２－３学習結果レジスタの内容を読み出す（ステップＳ１８０４）。次に、情報処理装置１００は、ＧＰＵ２－３学習結果有効フラグ＝０に設定する（ステップＳ１８０５）。そして、情報処理装置１００は、ステップＳ１８０６の処理に移行する。

【0303】

ステップＳ１８０６では、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算結果を生成する（ステップＳ１８０６）。次に、情報処理装置１００は、ＧＰＵ０－１学習結果有効フラグ＝１に設定する（ステップＳ１８０７）。そして、情報処理装置１００は、ＧＰＵ０－１学習結果レジスタに、Ａｌｌｒｅｄｕｃｅ演算結果を書き込む（ステップＳ１８０８）。

【0304】

次に、情報処理装置１００は、学習回数ｉ＝Ｐであるか否かを判定する（ステップＳ１８０９）。ここで、学習回数ｉ＝Ｐではない場合（ステップＳ１８０９：Ｎｏ）、情報処理装置１００は、ステップＳ１８１０の処理に移行する。一方で、学習回数ｉ＝Ｐである場合（ステップＳ１８０９：Ｙｅｓ）、情報処理装置１００は、ステップＳ１８１１の処理に移行する。

【0305】

ステップＳ１８１０では、情報処理装置１００は、ｉをインクリメントする（ステップＳ１８１０）。そして、情報処理装置１００は、ステップＳ１８０１の処理に戻る。

【0306】

ステップＳ１８１１では、情報処理装置１００は、図２０に後述する終了制御処理を実行する（ステップＳ１８１１）。そして、情報処理装置１００は、第１データ制御処理を終了する。

【0307】

（動作例２における第２データ制御処理手順）
次に、図１９を用いて、動作例２において情報処理装置１００が実行する、第２データ制御処理手順の一例について説明する。第２データ制御処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

【0308】

図１９は、動作例２における第２データ制御処理手順の一例を示すフローチャートである。図１９において、情報処理装置１００は、ｊ回目の学習処理を実行する（ステップＳ１９０１）。次に、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算処理を開始する（ステップＳ１９０２）。

【0309】

そして、情報処理装置１００は、ＧＰＵ０－１学習結果有効フラグ＝１であるか否かを判定する（ステップＳ１９０３）。ここで、ＧＰＵ０－１学習結果有効フラグ＝１ではない場合（ステップＳ１９０３：Ｎｏ）、情報処理装置１００は、ステップＳ１９０６の処理に移行する。一方で、ＧＰＵ０－１学習結果有効フラグ＝１である場合（ステップＳ１９０３：Ｙｅｓ）、情報処理装置１００は、ステップＳ１９０４の処理に移行する。

【0310】

ステップＳ１９０４では、情報処理装置１００は、ＧＰＵ０－１学習結果レジスタの内容を読み出す（ステップＳ１９０４）。次に、情報処理装置１００は、ＧＰＵ０－１学習結果有効フラグ＝０に設定する（ステップＳ１９０５）。そして、情報処理装置１００は、ステップＳ１９０６の処理に移行する。

【0311】

ステップＳ１９０６では、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算結果を生成する（ステップＳ１９０６）。次に、情報処理装置１００は、ＧＰＵ２－３学習結果有効フラグ＝１に設定する（ステップＳ１９０７）。そして、情報処理装置１００は、ＧＰＵ２－３学習結果レジスタに、Ａｌｌｒｅｄｕｃｅ演算結果を書き込む（ステップＳ１９０８）。

【0312】

次に、情報処理装置１００は、ｊをインクリメントする（ステップＳ１９０９）。そして、情報処理装置１００は、ステップＳ１９０１の処理に戻る。

【0313】

（動作例２における終了制御処理手順）
次に、図２０を用いて、動作例２において情報処理装置１００が実行する、終了制御処理手順の一例について説明する。終了制御処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

【0314】

図２０は、動作例２における終了制御処理手順の一例を示すフローチャートである。図２０において、情報処理装置１００は、第１データ制御処理を終了する（ステップＳ２００１）。次に、情報処理装置１００は、第２データ制御処理を強制終了する（ステップＳ２００２）。そして、情報処理装置１００は、終了制御処理を終了する。

【0315】

（情報処理装置１００の動作例３）
次に、図２１～図２４を用いて、情報処理装置１００の動作例３について説明する。上述した動作例２は、情報処理装置１００が、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を、単一のグループに分類する場合に関する動作例である。これに対し、動作例３は、情報処理装置１００が、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を、２以上のグループに分類する場合に関する動作例である。

【0316】

図２１～図２４は、情報処理装置１００の動作例３を示す説明図である。図２１～図２４において、情報処理装置１００は、４つのＧＰＵ３０８を含むとする。４つのＧＰＵ３０８は、具体的には、ＧＰＵ０と、ＧＰＵ１と、ＧＰＵ２と、ＧＰＵ３とであるとする。ＧＰＵ２の処理速度と、ＧＰＵ３の処理速度とは、ＧＰＵ０の処理速度と、ＧＰＵ１の処理速度とに比べて遅いとする。

【0317】

【0318】

【0319】

【0320】

情報処理装置１００は、４つのＧＰＵ３０８を、複数のグループに分類するために用いられる閾値ｔ_THを有する。閾値ｔ_THは、例えば、予め利用者によって設定される。具体的には、ｔ_TH＝１．２である。情報処理装置１００は、最小の処理時間ｔ_GPU0に対するそれぞれのＧＰＵ３０８の処理時間の比率を、当該ＧＰＵ３０８の処理速度を表す指標値として算出する。ここで、ｔ_GPU3／ｔ_GPU0，ｔ_GPU2／ｔ_GPU0＞ｔ_TH＞ｔ_GPU1／ｔ_GPU0，ｔ_GPU0／ｔ_GPU0であるとする。

【0321】

【0322】

【0323】

情報処理装置１００は、具体的には、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ０と、ＧＰＵ１とを、グループａに分類する。情報処理装置１００は、具体的には、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ２を、グループｂに分類し、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ３を、グループｃに分類する。次に、図２１の説明に移行する。

【0324】

図２１の例では、情報処理装置１００が、ＦＰＧＡ３０７を含むとする。情報処理装置１００は、ＦＰＧＡ３０７を含む場合、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ１を介して、グループａを制御する「データ制御１」のプロセスを用意する。

【0325】

また、情報処理装置１００は、ＦＰＧＡ３０７を含む場合、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ３０８を分類したグループｂのうち、処理時間が最大であるＧＰＵ２を介して、グループｂを制御する「データ制御２」のプロセスを用意する。

【0326】

また、情報処理装置１００は、ＦＰＧＡ３０７を含む場合、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ３０８を分類したグループｃのうち、処理時間が最大であるＧＰＵ３を介して、グループｃを制御する「データ制御３」のプロセスを用意する。

【0327】

【0328】

情報処理装置１００は、ＦＰＧＡ３０７を含む場合、「データ制御１」のプロセスと、「データ制御２」のプロセスと、「データ制御３」のプロセスと、「終了制御」のプロセスとを、ＦＰＧＡ３０７に配備する。

【0329】

これにより、情報処理装置１００は、各種プロセスによって、グループ単位で学習処理を繰り返し実施するよう、４つのＧＰＵ３０８を制御することができ、所定の計算処理を並列処理することができる。情報処理装置１００が、所定の計算処理を実施する具体例については、例えば、図２３および図２４を用いて後述する。次に、図２２の説明に移行する。

【0330】

図２２の例では、情報処理装置１００が、ＦＰＧＡ３０７を含まないとする。情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、処理速度の指標値が閾値ｔ_TH未満であるＧＰＵ３０８を分類したグループａのうち、処理時間が最大であるＧＰＵ１を介して、グループａを制御する「データ制御１」のプロセスを用意する。

【0331】

情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ３０８を分類したグループｂのうち、処理時間が最大であるＧＰＵ２を介して、グループｂを制御する「データ制御２」のプロセスを用意する。

【0332】

情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ３０８を分類したグループｃのうち、処理時間が最大であるＧＰＵ３を介して、グループｃを制御する「データ制御３」のプロセスを用意する。

【0333】

【0334】

【0335】

情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、「データ制御２」のプロセスを、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ３０８を分類したグループｂのうち、処理時間が最大であるＧＰＵ２に配備する。

【0336】

情報処理装置１００は、ＦＰＧＡ３０７を含まない場合、「データ制御３」のプロセスを、処理速度の指標値が閾値ｔ_TH以上であるＧＰＵ３０８を分類したグループｃのうち、処理時間が最大であるＧＰＵ３に配備する。

【0337】

【0338】

これにより、情報処理装置１００は、各種プロセスによって、グループ単位で学習処理を繰り返し実施するよう、４つのＧＰＵ３０８を制御することができ、所定の計算処理を並列処理することができる。情報処理装置１００が、所定の計算処理を実施する具体例については、例えば、図２３および図２４を用いて後述する。

【0339】

次に、図２３および図２４の説明に移行し、情報処理装置１００が、ＦＰＧＡ３０７を含まない場合を一例として、情報処理装置１００が、各種プロセスによって、所定の計算処理を実施する具体例について説明する。

【0340】

図２３および図２４において、情報処理装置１００は、４つのＧＰＵ３０８を処理速度に応じて分類したグループ単位で、当該グループに属する１以上のＧＰＵ３０８を同期することにより、深層学習に関する所定の計算処理を並列処理する。

【0341】

【0342】

情報処理装置１００は、グループｃにおける最新の集約補正値Δｗ_cがあれば、最新の集約補正値Δｗ_cを、集約処理に反映する。情報処理装置１００は、例えば、最新の集約補正値Δｗ_cと、グループａに属するそれぞれのＧＰＵ３０８が学習処理を実施して得た補正値Δｗとを統計処理することにより、集約補正値Δｗ_aを算出する。

【0343】

【0344】

【0345】

情報処理装置１００は、例えば、グループｃに属するそれぞれのＧＰＵ３０８が１回ずつ学習処理を実施した後に、グループｃに属するそれぞれのＧＰＵ３０８において集約処理を実施するというステップを繰り返し実施するよう、グループｃを制御する。集約処理は、それぞれのＧＰＵ３０８が学習処理を実施して得た補正値Δｗを統計処理することにより、集約補正値Δｗ_cを算出し、グループｂで共有することである。

【0346】

情報処理装置１００は、グループｂにおける最新の集約補正値Δｗ_bがあれば、最新の集約補正値Δｗ_bを、集約処理に反映する。情報処理装置１００は、例えば、最新の集約補正値Δｗ_bと、グループｃに属するそれぞれのＧＰＵ３０８が学習処理を実施して得た補正値Δｗとを統計処理することにより、集約補正値Δｗ_cを算出する。

【0347】

図２３および図２４に示すように、情報処理装置１００は、具体的には、グループａにおける最新の集約補正値Δｗ_aを記憶するＧＰＵ０－１学習結果レジスタを有する。情報処理装置１００は、具体的には、グループａにおける最新の集約補正値Δｗ_aを、グループｂにおける集約処理に反映したか否かを管理するＧＰＵ０－１学習結果有効フラグを有する。

【0348】

情報処理装置１００は、具体的には、グループｂにおける最新の集約補正値Δｗ_bを記憶するＧＰＵ２学習結果レジスタを有する。情報処理装置１００は、具体的には、グループｂにおける最新の集約補正値Δｗ_bを、グループｃにおける集約処理に反映したか否かを管理するＧＰＵ２学習結果有効フラグを有する。

【0349】

情報処理装置１００は、具体的には、グループｃにおける最新の集約補正値Δｗ_cを記憶するＧＰＵ２学習結果レジスタを有する。情報処理装置１００は、具体的には、グループｃにおける最新の集約補正値Δｗ_cを、グループａにおける集約処理に反映したか否かを管理するＧＰＵ２学習結果有効フラグを有する。

【0350】

【0351】

【0352】

【0353】

「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bが算出された場合、算出された最新の集約補正値Δｗ_bを、ＧＰＵ２学習結果レジスタに格納する。「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bが算出されたことに応じて、ＧＰＵ２学習結果有効フラグを１に更新する。「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bが、グループｃにおける集約処理に反映されたことに応じて、ＧＰＵ２学習結果有効フラグを０に更新する。

【0354】

これにより、「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bを管理することができる。「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_bを、グループｃにおける集約処理に反映するか否かを適切に判定可能にすることができる。

【0355】

「データ制御３」のプロセスは、グループｃにおける最新の集約補正値Δｗ_cが算出された場合、算出された最新の集約補正値Δｗ_cを、ＧＰＵ３学習結果レジスタに格納する。「データ制御３」のプロセスは、グループｃにおける最新の集約補正値Δｗ_cが算出されたことに応じて、ＧＰＵ３学習結果有効フラグを１に更新する。「データ制御３」のプロセスは、グループｃにおける最新の集約補正値Δｗ_cが、グループａにおける集約処理に反映されたことに応じて、ＧＰＵ３学習結果有効フラグを０に更新する。

【0356】

これにより、「データ制御３」のプロセスは、グループｃにおける最新の集約補正値Δｗ_cを管理することができる。「データ制御３」のプロセスは、グループｃにおける最新の集約補正値Δｗ_cを、グループａにおける集約処理に反映するか否かを適切に判定可能にすることができる。

【0357】

「終了制御」のプロセスは、学習回数が指定回数Ｐ以上になった場合、終了フラグを１に更新し、所定の計算処理を終了するよう、グループａと、グループｂと、グループｃとを制御する。

【0358】

図２３および図２４に示すタイミングチャートは、ＧＰＵ０に関するチャート２３００と、ＧＰＵ１に関するチャート２３０１と、ＧＰＵ２に関するチャート２３０２と、ＧＰＵ３に関するチャート２３０３とを含む。

【0359】

図２３および図２４に示すチャート２３００は、ＧＰＵ０の処理内容の時間変化を示す。Ｆｏｒｗａｒｄ＋Ｂａｃｋｗａｒｄは、学習処理である。Ｗａｉｔは、待機状態である。Ａｌｌｒｅｄｕｃｅは、集約処理である。具体的には、図２３は、チャート２３００の前半を示す。図２４は、チャート２３００の後半を示す。

【0360】

図２３および図２４に示すチャート２３０１は、ＧＰＵ１の処理内容の時間変化を示す。具体的には、図２３は、チャート２３０１の前半を示す。図２４は、チャート２３０１の後半を示す。図２３および図２４に示すチャート２３０２は、ＧＰＵ２の処理内容の時間変化を示す。具体的には、図２３は、チャート２３０２の前半を示す。図２４は、チャート２３０２の後半を示す。図２３および図２４に示すチャート２３０３は、ＧＰＵ３の処理内容の時間変化を示す。具体的には、図２３は、チャート２３０３の前半を示す。図２４は、チャート２３０３の後半を示す。

【0361】

図２３および図２４に示すタイミングチャートは、「データ制御１」のプロセスに関し、ＧＰＵ０－１Ａｌｌｒｅｄｕｃｅ期間のチャート２３１１を含む。図２３および図２４に示すタイミングチャートは、「データ制御１」のプロセスに関し、ＧＰＵ０－１学習結果有効フラグのチャート２３１２と、ＧＰＵ０－１学習結果レジスタのチャート２３１３とを含む。

【0362】

図２３および図２４に示すチャート２３１１は、グループａにおける集約処理の実施期間を示す。チャート２３１１は、具体的には、グループａにおける集約処理の開始に応じて立ち上がり、グループａにおける集約処理の終了に応じて立ち下がる。図２３および図２４に示すチャート２３１２は、ＧＰＵ０－１学習結果有効フラグが０であるか１であるかを示す。図２３および図２４に示すチャート２３１２は、ＧＰＵ０－１学習結果レジスタの記憶内容の時間変化を示す。Δｗ_iaは、ｉ回目に算出した集約補正値Δｗ_aを示す。

【0363】

図２３および図２４に示すタイミングチャートは、「データ制御２」のプロセスに関し、ＧＰＵ２Ａｌｌｒｅｄｕｃｅ期間のチャート２３１４と、ＧＰＵ２学習結果有効フラグのチャート２３１５と、ＧＰＵ２学習結果レジスタのチャート２３１６とを含む。

【0364】

図２３および図２４に示すチャート２３１４は、グループｂにおける集約処理の実施期間を示す。チャート２３１４は、具体的には、グループｂにおける集約処理の開始に応じて立ち上がり、グループｂにおける集約処理の終了に応じて立ち下がる。図２３および図２４に示すチャート２３１５は、ＧＰＵ２学習結果有効フラグが０であるか１であるかを示す。図２３および図２４に示すチャート２３１６は、ＧＰＵ２学習結果レジスタの記憶内容の時間変化を示す。Δｗ_ibは、ｉ回目に算出した集約補正値Δｗ_bを示す。

【0365】

図２３および図２４に示すタイミングチャートは、「データ制御３」のプロセスに関し、ＧＰＵ３Ａｌｌｒｅｄｕｃｅ期間のチャート２３１７と、ＧＰＵ３学習結果有効フラグのチャート２３１８と、ＧＰＵ３学習結果レジスタのチャート２３１９とを含む。

【0366】

図２３および図２４に示すチャート２３１７は、グループｃにおける集約処理の実施期間を示す。チャート２３１７は、具体的には、グループｃにおける集約処理の開始に応じて立ち上がり、グループｃにおける集約処理の終了に応じて立ち下がる。図２３および図２４に示すチャート２３１８は、ＧＰＵ３学習結果有効フラグが０であるか１であるかを示す。図２３および図２４に示すチャート２３１９は、ＧＰＵ３学習結果レジスタの記憶内容の時間変化を示す。Δｗ_icは、ｉ回目に算出した集約補正値Δｗ_cを示す。

【0367】

図２３および図２４に示すタイミングチャートは、「終了制御」のプロセスに関し、学習回数のチャート２３２０と、終了フラグのチャート２３２１とを含む。図２３および図２４に示すチャート２３２０は、学習回数の時間変化を示す。図２３および図２４に示すチャート２３２１は、終了フラグが０であるか１であるかを示す。ここで、図２３の説明に移行する。

【0368】

【0369】

（２３－１）グループａにおいて、１回目のステップの集約処理を実施する際、ＧＰＵ１において、「データ制御１」のプロセスは、グループａに属する他のＧＰＵ３０８から、当該ＧＰＵ３０８が学習処理を実施して得られた補正値Δｗを収集する。

【0370】

【0371】

図２３の各種チャートに示すように、「データ制御１」のプロセスは、最新の集約補正値Δｗ_1aを算出したことに応じて、最新の集約補正値Δｗ_1aを、ＧＰＵ０－１学習結果レジスタに格納する。「データ制御１」のプロセスは、最新の集約補正値Δｗ_1aを、ＧＰＵ０－１学習結果レジスタに格納すると、ＧＰＵ０－１学習結果有効フラグを１に更新する。

【0372】

【0373】

（２３－２）グループｂにおいて、１回目のステップの集約処理を実施する際、ＧＰＵ２において、「データ制御２」のプロセスは、ＧＰＵ０－１学習結果有効フラグが１であるか否かを判定する。ＧＰＵ２において、「データ制御２」のプロセスは、ＧＰＵ０－１学習結果有効フラグが１であれば、最新の集約補正値Δｗ_1aを、ＧＰＵ０－１学習結果レジスタから読み出す。

【0374】

ＧＰＵ２において、「データ制御２」のプロセスは、ＧＰＵ２が学習処理を実施して得られた補正値Δｗと、読み出した最新の集約補正値Δｗ_1aとに基づいて、最新の集約補正値Δｗ_1bを算出する。これにより、ＧＰＵ２において、「データ制御２」のプロセスは、グループａにおける最新の集約補正値Δｗ_1aを、グループｂにおける１回目のステップの集約処理に反映することができる。

【0375】

（２３－３）図２３の各種チャートに示すように、「データ制御２」のプロセスは、最新の集約補正値Δｗ_1bを算出したことに応じて、最新の集約補正値Δｗ_1bを、ＧＰＵ２学習結果レジスタに格納する。「データ制御２」のプロセスは、最新の集約補正値Δｗ_1bを、ＧＰＵ２学習結果レジスタに格納すると、ＧＰＵ２学習結果有効フラグを１に更新する。

【0376】

【0377】

【0378】

グループｃに属するそれぞれのＧＰＵ３０８は、１回目のステップを開始する。グループｃにおいて、１回目のステップを開始すると、グループｃに属するそれぞれのＧＰＵ３０８は、学習処理を１回実施し、補正値Δｗを算出する。

【0379】

（２３－４）グループｃにおいて、１回目のステップの集約処理を実施する際、ＧＰＵ３において、「データ制御３」のプロセスは、ＧＰＵ２学習結果有効フラグが１であるか否かを判定する。ＧＰＵ３において、「データ制御３」のプロセスは、ＧＰＵ２学習結果有効フラグが１であれば、最新の集約補正値Δｗ_1bを、ＧＰＵ２学習結果レジスタから読み出す。

【0380】

ＧＰＵ３において、「データ制御３」のプロセスは、ＧＰＵ３が学習処理を実施して得られた補正値Δｗと、読み出した最新の集約補正値Δｗ_1bとに基づいて、最新の集約補正値Δｗ_1cを算出する。これにより、ＧＰＵ３において、「データ制御３」のプロセスは、グループｂにおける最新の集約補正値Δｗ_1bを、グループｃにおける１回目のステップの集約処理に反映することができる。

【0381】

（２３－５）図２３の各種チャートに示すように、「データ制御３」のプロセスは、最新の集約補正値Δｗ_1cを算出したことに応じて、最新の集約補正値Δｗ_1cを、ＧＰＵ３学習結果レジスタに格納する。「データ制御３」のプロセスは、最新の集約補正値Δｗ_1cを、ＧＰＵ３学習結果レジスタに格納すると、ＧＰＵ３学習結果有効フラグを１に更新する。

【0382】

「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_1bが、グループｃにおける１回目のステップの集約処理に反映されたことに応じて、ＧＰＵ２学習結果有効フラグを０に更新する。

【0383】

これにより、「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_1bが、グループｃにおける集約処理に繰り返し反映されてしまうことを防止することができる。このため、「データ制御２」のプロセスは、所定の計算処理の精度低下を抑制することができる。

【0384】

【0385】

（２３－６）グループａにおいて、２回目のステップの集約処理を実施する際、ＧＰＵ１において、「データ制御１」のプロセスは、グループａに属する他のＧＰＵ３０８から、当該ＧＰＵ３０８が学習処理を実施して得られた補正値Δｗを収集する。

【0386】

ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ３学習結果有効フラグが１であるか否かを判定する。ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ３学習結果有効フラグが１であれば、最新の集約補正値Δｗ_1cを、ＧＰＵ３学習結果レジスタから読み出す。

【0387】

ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ１が学習処理を実施して得られた補正値Δｗと、他のＧＰＵ３０８が学習処理を実施して得られた補正値Δｗと、読み出した最新の集約補正値Δｗ_1cとに基づいて、最新の集約補正値Δｗ_2aを算出する。ＧＰＵ１において、「データ制御１」のプロセスは、最新の集約補正値Δｗ_2aを、他のＧＰＵ３０８に共有する。

【0388】

これにより、ＧＰＵ１において、「データ制御１」のプロセスは、グループｃにおける最新の集約補正値Δｗ_1cを、グループａにおける２回目のステップの集約処理に反映することができる。

【0389】

（２３－７）図２３の各種チャートに示すように、「データ制御１」のプロセスは、最新の集約補正値Δｗ_2aを算出したことに応じて、最新の集約補正値Δｗ_2aを、ＧＰＵ０－１学習結果レジスタに格納する。「データ制御１」のプロセスは、最新の集約補正値Δｗ_2aを、ＧＰＵ０－１学習結果レジスタに格納すると、ＧＰＵ０－１学習結果有効フラグを１に更新する。

【0390】

「データ制御３」のプロセスは、グループｃにおける最新の集約補正値Δｗ_1cが、グループａにおける２回目のステップの集約処理に反映されたことに応じて、ＧＰＵ３学習結果有効フラグを０に更新する。

【0391】

これにより、「データ制御３」のプロセスは、グループｃにおける最新の集約補正値Δｗ_1cが、グループａにおける集約処理に繰り返し反映されてしまうことを防止することができる。このため、「データ制御３」のプロセスは、所定の計算処理の精度低下を抑制することができる。ここで、図２４の説明に移行する。

【0392】

【0393】

（２４－１）グループｂにおいて、Ｐ－Ｘ回目のステップの集約処理を実施する際、ＧＰＵ２において、「データ制御２」のプロセスは、ＧＰＵ０－１学習結果有効フラグが１であるか否かを判定する。ＧＰＵ２において、「データ制御２」のプロセスは、ＧＰＵ０－１学習結果有効フラグが１であれば、最新の集約補正値Δｗ_(P-1)aを、ＧＰＵ０－１学習結果レジスタから読み出す。

【0394】

ＧＰＵ２において、「データ制御２」のプロセスは、ＧＰＵ２が学習処理を実施して得られた補正値Δｗと、読み出した最新の集約補正値Δｗ_(P-1)aとに基づいて、最新の集約補正値Δｗ_(P-X)bを算出する。

【0395】

これにより、ＧＰＵ２において、「データ制御２」のプロセスは、グループａにおける最新の集約補正値Δｗ_(P-1)aを、グループｂにおけるＰ－Ｘ回目のステップの集約処理に反映することができる。

【0396】

（２４－２）図２３の各種チャートに示すように、「データ制御２」のプロセスは、最新の集約補正値Δｗ_(P-X)bを算出したことに応じて、最新の集約補正値Δｗ_(P-X)bを、ＧＰＵ２学習結果レジスタに格納する。「データ制御２」のプロセスは、最新の集約補正値Δｗ_(P-X)bを、ＧＰＵ２学習結果レジスタに格納すると、ＧＰＵ２学習結果有効フラグを１に更新する。

【0397】

【0398】

【0399】

グループｃに属するそれぞれのＧＰＵ３０８は、Ｐ－Ｙ－１回目のステップを終了すると、Ｐ－Ｙ回目のステップを開始する。グループｃにおいて、Ｐ－Ｙ回目のステップを開始すると、グループｃに属するそれぞれのＧＰＵ３０８は、学習処理を１回実施し、補正値Δｗを算出する。

【0400】

（２４－１）グループｃにおいて、Ｐ－Ｙ回目のステップの集約処理を実施する際、ＧＰＵ３において、「データ制御３」のプロセスは、ＧＰＵ２学習結果有効フラグが１であるか否かを判定する。ＧＰＵ３において、「データ制御３」のプロセスは、ＧＰＵ２学習結果有効フラグが１であれば、最新の集約補正値Δｗ_(P-X)bを、ＧＰＵ２学習結果レジスタから読み出す。

【0401】

ＧＰＵ３において、「データ制御３」のプロセスは、ＧＰＵ３が学習処理を実施して得られた補正値Δｗと、読み出した最新の集約補正値Δｗ_(P-X)bとに基づいて、最新の集約補正値Δｗ_(P-Y)cを算出する。

【0402】

これにより、ＧＰＵ３において、「データ制御３」のプロセスは、グループｂにおける最新の集約補正値Δｗ_(P-X)bを、グループｃにおけるＰ－Ｙ回目のステップの集約処理に反映することができる。

【0403】

（２４－２）図２３の各種チャートに示すように、「データ制御３」のプロセスは、最新の集約補正値Δｗ_(P-Y)cを算出したことに応じて、最新の集約補正値Δｗ_(P-Y)cを、ＧＰＵ３学習結果レジスタに格納する。「データ制御３」のプロセスは、最新の集約補正値Δｗ_(P-Y)cを、ＧＰＵ３学習結果レジスタに格納すると、ＧＰＵ３学習結果有効フラグを１に更新する。

【0404】

「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_(P-X)bが、グループｃにおけるＰ－Ｙ回目のステップの集約処理に反映されたことに応じて、ＧＰＵ２学習結果有効フラグを０に更新する。

【0405】

これにより、「データ制御２」のプロセスは、グループｂにおける最新の集約補正値Δｗ_(P-X)bが、グループｃにおける集約処理に繰り返し反映されてしまうことを防止することができる。このため、「データ制御２」のプロセスは、所定の計算処理の精度低下を抑制することができる。

【0406】

【0407】

（２４－３）グループａにおいて、Ｐ回目のステップの集約処理を実施する際、ＧＰＵ１において、「データ制御１」のプロセスは、グループａに属する他のＧＰＵ３０８から、当該ＧＰＵ３０８が学習処理を実施して得られた補正値Δｗを収集する。

【0408】

ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ３学習結果有効フラグが１であるか否かを判定する。ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ３学習結果有効フラグが１であれば、最新の集約補正値Δｗ_(P-Y)cを、ＧＰＵ３学習結果レジスタから読み出す。

【0409】

ＧＰＵ１において、「データ制御１」のプロセスは、ＧＰＵ１が学習処理を実施して得られた補正値Δｗと、収集した補正値Δｗと、読み出した最新の集約補正値Δｗ_(P-Y)cとに基づいて、最新の集約補正値Δｗ_Paを算出する。ＧＰＵ１において、「データ制御１」のプロセスは、最新の集約補正値Δｗ_Paを、他のＧＰＵ３０８に共有する。

【0410】

これにより、ＧＰＵ１において、「データ制御１」のプロセスは、グループｃにおける最新の集約補正値Δｗ_(P-Y)cを、グループａにおけるＰ回目のステップの集約処理に反映することができる。

【0411】

（２４－４）図２３の各種チャートに示すように、「データ制御１」のプロセスは、最新の集約補正値Δｗ_Paを算出したことに応じて、最新の集約補正値Δｗ_Paを、ＧＰＵ０－１学習結果レジスタに格納する。「データ制御１」のプロセスは、最新の集約補正値Δｗ_Paを、ＧＰＵ０－１学習結果レジスタに格納すると、ＧＰＵ０－１学習結果有効フラグを１に更新する。

【0412】

「データ制御３」のプロセスは、グループｃにおける最新の集約補正値Δｗ_(P-Y)cが、グループａにおけるＰ回目のステップの集約処理に反映されたことに応じて、ＧＰＵ３学習結果有効フラグを０に更新する。

【0413】

これにより、「データ制御３」のプロセスは、グループｃにおける最新の集約補正値Δｗ_(P-Y)cが、グループａにおける集約処理に繰り返し反映されてしまうことを防止することができる。このため、「データ制御３」のプロセスは、所定の計算処理の精度低下を抑制することができる。

【0414】

（２４－５）ＧＰＵ１において、「終了制御」のプロセスは、学習回数≧Ｐであることを検出すると、グループａにおけるステップの繰り返しを停止するよう、グループａを制御する。

【0415】

同様に、ＧＰＵ１において、「終了制御」のプロセスは、学習回数≧Ｐであることを検出すると、グループｂにおけるステップの繰り返しを停止するよう、グループｂを制御する。ＧＰＵ１において、「終了制御」のプロセスは、グループｂにおいて、ステップが実施中であれば、ステップを強制終了するよう、グループｂを制御してもよい。

【0416】

同様に、ＧＰＵ１において、「終了制御」のプロセスは、学習回数≧Ｐであることを検出すると、グループｃにおけるステップの繰り返しを停止するよう、グループｃを制御する。ＧＰＵ１において、「終了制御」のプロセスは、グループｃにおいて、ステップが実施中であれば、ステップを強制終了するよう、グループｃを制御してもよい。

【0417】

【0418】

【0419】

情報処理装置１００は、所定の計算処理の精度低下を抑制しつつ、所定の計算処理が、処理速度が比較的遅いＧＰＵ２に律速されることを回避することができ、所定の計算処理にかかる処理負担および処理時間の増大化を抑制することができる。

【0420】

（動作例３における第１データ制御処理手順）
次に、図２５を用いて、動作例３において情報処理装置１００が実行する、第１データ制御処理手順の一例について説明する。第１データ制御処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

【0421】

図２５は、動作例３における第１データ制御処理手順の一例を示すフローチャートである。図２５において、情報処理装置１００は、ｉ回目の学習処理を実行する（ステップＳ２５０１）。次に、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算処理を開始する（ステップＳ２５０２）。

【0422】

そして、情報処理装置１００は、ＧＰＵ２学習結果有効フラグ＝１であるか否かを判定する（ステップＳ２５０３）。ここで、ＧＰＵ２学習結果有効フラグ＝１ではない場合（ステップＳ２５０３：Ｎｏ）、情報処理装置１００は、ステップＳ２５０６の処理に移行する。一方で、ＧＰＵ２学習結果有効フラグ＝１である場合（ステップＳ２５０３：Ｙｅｓ）、情報処理装置１００は、ステップＳ２５０４の処理に移行する。

【0423】

ステップＳ２５０４では、情報処理装置１００は、ＧＰＵ２学習結果レジスタの内容を読み出す（ステップＳ２５０４）。次に、情報処理装置１００は、ＧＰＵ２学習結果有効フラグ＝０に設定する（ステップＳ２５０５）。そして、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算結果を生成する（ステップＳ２５０６）。

【0424】

次に、情報処理装置１００は、ＧＰＵ０－１学習結果有効フラグ＝１に設定する（ステップＳ２５０７）。そして、情報処理装置１００は、ＧＰＵ０－１学習結果レジスタに、Ａｌｌｒｅｄｕｃｅ演算結果を書き込む（ステップＳ２５０８）。

【0425】

次に、情報処理装置１００は、学習回数ｉ＝Ｐであるか否かを判定する（ステップＳ２５０９）。ここで、学習回数ｉ＝Ｐではない場合（ステップＳ２５０９：Ｎｏ）、情報処理装置１００は、ステップＳ２５１０の処理に移行する。一方で、学習回数ｉ＝Ｐである場合（ステップＳ２５０９：Ｙｅｓ）、情報処理装置１００は、ステップＳ２５１１の処理に移行する。

【0426】

ステップＳ２５１０では、情報処理装置１００は、ｉをインクリメントする（ステップＳ２５１０）。そして、情報処理装置１００は、ステップＳ２５０１の処理に戻る。

【0427】

ステップＳ２５１１では、情報処理装置１００は、図２８に後述する終了制御処理を実行する（ステップＳ２５１１）。そして、情報処理装置１００は、第１データ制御処理を終了する。

【0428】

（動作例３における第２データ制御処理手順）
次に、図２６を用いて、動作例３において情報処理装置１００が実行する、第２データ制御処理手順の一例について説明する。第２データ制御処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

【0429】

図２６は、動作例３における第２データ制御処理手順の一例を示すフローチャートである。図２６において、情報処理装置１００は、ｊ回目の学習処理を実行する（ステップＳ２６０１）。次に、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算処理を開始する（ステップＳ２６０２）。

【0430】

そして、情報処理装置１００は、ＧＰＵ３学習結果有効フラグ＝１であるか否かを判定する（ステップＳ２６０３）。ここで、ＧＰＵ３学習結果有効フラグ＝１ではない場合（ステップＳ２６０３：Ｎｏ）、情報処理装置１００は、ステップＳ２６０６の処理に移行する。一方で、ＧＰＵ３学習結果有効フラグ＝１である場合（ステップＳ２６０３：Ｙｅｓ）、情報処理装置１００は、ステップＳ２６０４の処理に移行する。

【0431】

ステップＳ２６０４では、情報処理装置１００は、ＧＰＵ３学習結果レジスタの内容を読み出す（ステップＳ２６０４）。次に、情報処理装置１００は、ＧＰＵ３学習結果有効フラグ＝０に設定する（ステップＳ２６０５）。そして、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算結果を生成する（ステップＳ２６０６）。

【0432】

次に、情報処理装置１００は、ＧＰＵ２学習結果有効フラグ＝１に設定する（ステップＳ２６０７）。そして、情報処理装置１００は、ＧＰＵ２学習結果レジスタに、Ａｌｌｒｅｄｕｃｅ演算結果を書き込む（ステップＳ２６０８）。

【0433】

次に、情報処理装置１００は、ｊをインクリメントする（ステップＳ２６０９）。そして、情報処理装置１００は、ステップＳ２６０１の処理に戻る。

【0434】

（動作例３における第３データ制御処理手順）
次に、図２７を用いて、動作例３において情報処理装置１００が実行する、第３データ制御処理手順の一例について説明する。第３データ制御処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

【0435】

図２７は、動作例３における第３データ制御処理手順の一例を示すフローチャートである。図２７において、情報処理装置１００は、ｋ回目の学習処理を実行する（ステップＳ２７０１）。次に、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算処理を開始する（ステップＳ２７０２）。

【0436】

そして、情報処理装置１００は、ＧＰＵ０－１学習結果有効フラグ＝１であるか否かを判定する（ステップＳ２７０３）。ここで、ＧＰＵ０－１学習結果有効フラグ＝１ではない場合（ステップＳ２７０３：Ｎｏ）、情報処理装置１００は、ステップＳ２７０６の処理に移行する。一方で、ＧＰＵ０－１学習結果有効フラグ＝１である場合（ステップＳ２７０３：Ｙｅｓ）、情報処理装置１００は、ステップＳ２７０４の処理に移行する。

【0437】

ステップＳ２７０４では、情報処理装置１００は、ＧＰＵ０－１学習結果レジスタの内容を読み出す（ステップＳ２７０４）。次に、情報処理装置１００は、ＧＰＵ０－１学習結果有効フラグ＝０に設定する（ステップＳ２７０５）。そして、情報処理装置１００は、Ａｌｌｒｅｄｕｃｅ演算結果を生成する（ステップＳ２７０６）。

【0438】

次に、情報処理装置１００は、ＧＰＵ３学習結果有効フラグ＝１に設定する（ステップＳ２７０７）。そして、情報処理装置１００は、ＧＰＵ３学習結果レジスタに、Ａｌｌｒｅｄｕｃｅ演算結果を書き込む（ステップＳ２７０８）。

【0439】

次に、情報処理装置１００は、ｋをインクリメントする（ステップＳ２７０９）。そして、情報処理装置１００は、ステップＳ２７０１の処理に戻る。

【0440】

（動作例３における終了制御処理手順）
次に、図２８を用いて、動作例３において情報処理装置１００が実行する、終了制御処理手順の一例について説明する。終了制御処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

【0441】

図２８は、動作例３における終了制御処理手順の一例を示すフローチャートである。図２８において、情報処理装置１００は、第１データ制御処理を終了する（ステップＳ２８０１）。次に、情報処理装置１００は、第２データ制御処理を強制終了する（ステップＳ２８０２）。そして、情報処理装置１００は、第３データ制御処理を強制終了する（ステップＳ２８０３）。その後、情報処理装置１００は、終了制御処理を終了する。

【0442】

上述した動作例１、動作例２、および、動作例３では、情報処理装置１００が、４つのＧＰＵ３０８を含む場合について説明したが、これに限らない。例えば、情報処理装置１００が、３つ以下のＧＰＵ３０８を含む場合があってもよい。例えば、情報処理装置１００が、５つ以上のＧＰＵ３０８を含む場合があってもよい。ここで、情報処理装置１００が、Ｎ個のＧＰＵ３０８を含む場合について説明する。

【0443】

この場合、まず、情報処理装置１００は、Ｎ個のＧＰＵ３０８のそれぞれのＧＰＵ３０８の処理速度の指標値を算出する。情報処理装置１００は、Ｎ個のＧＰＵ３０８を、指標値が小さい順にソートする。情報処理装置１００は、ソートしたＮ個のＧＰＵ３０８のうち、算出した指標値が、閾値ｔ_TH以上であるＧＰＵ３０８の数を特定する。

【0444】

情報処理装置１００は、特定したＧＰＵ３０８の数が０であれば、Ｎ個のＧＰＵ３０８の処理速度のばらつきが比較的小さいと判断する。このため、情報処理装置１００は、Ｎ個のＧＰＵ３０８を単一のグループとして、所定の計算処理を並列処理する。

【0445】

情報処理装置１００は、特定したＧＰＵ３０８の数が、Ｎ×Ｎ_ratio以下である場合、指標値が閾値ｔ_TH未満であるＧＰＵ３０８をグループａに分類し、指標値が閾値ｔ_TH以上であるＧＰＵ３０８をグループｂに分類する。そして、情報処理装置１００は、動作例１と同様に、所定の計算処理を並列処理する。

【0446】

情報処理装置１００は、特定したＧＰＵ３０８の数が、Ｎ×Ｎ_ratioを超える場合、Ｎ個のＧＰＵ３０８のうち、処理速度が比較的遅いＧＰＵ３０８が多すぎると判断する。このため、情報処理装置１００は、精度低下を回避するために、Ｎ個のＧＰＵ３０８を単一のグループとして、所定の計算処理を並列処理する。

【0447】

（情報処理装置１００の適用例）
次に、情報処理装置１００の適用例について説明する。情報処理装置１００は、例えば、ＤＮＮを学習する場合に適用することができる。情報処理装置１００は、画像認識、音声認識、言語処理などに関するＤＮＮを学習する場合に適用することができる。情報処理装置１００は、画像認識、音声認識、言語処理などに関するＤＮＮを、学習精度の低下を抑制しつつ、比較的高速に学習することができる。このため、情報処理装置１００は、利用者が、画像認識、音声認識、言語処理などに関するＤＮＮを利用し易くすることができる。情報処理装置１００は、例えば、画像認識、音声認識、言語処理などに関するＤＮＮを活用するサービスを実現し易くすることができる。

【0448】

以上説明したように、情報処理装置１００によれば、複数の演算部のうち、処理速度が一定以上である演算部が分類された１以上のグループと、処理速度が一定未満である演算部が分類された１以上のグループとを含む複数のグループを特定することができる。情報処理装置１００によれば、特定した複数のグループのそれぞれのグループにおいて、当該グループに属するそれぞれの演算部が、第１動作と、第２動作とを含むステップを繰り返し実施するよう、複数のグループを制御することができる。これにより、情報処理装置１００は、計算処理にかかる処理負担および処理時間の低減化を図ることができる。

【0449】

情報処理装置１００によれば、特定した複数のグループのうちいずれかのグループにおいて、ステップを繰り返し実施した回数が閾値以上であるか否かを判定することができる。情報処理装置１００によれば、閾値以上である場合、それぞれのグループにおいて、以降、ステップを繰り返し実施しないよう、複数のグループを制御することができる。これにより、情報処理装置１００は、計算処理にかかる処理負担および処理時間の低減化を図ることができる。

【0450】

情報処理装置１００によれば、複数の演算部のそれぞれの演算部が、テスト学習処理を１回以上実施するよう、複数の演算部を制御することにより、複数の演算部のそれぞれの演算部の処理速度に関する指標値を取得することができる。情報処理装置１００によれば、取得した指標値に基づいて、複数の演算部のうち、処理速度が一定以上である演算部が分類された１以上のグループと、処理速度が一定未満である演算部が分類された１以上のグループとを含む複数のグループを特定することができる。これにより、情報処理装置１００は、複数の演算部を、処理速度に応じて複数のグループに適切に分類することができる。

【0451】

情報処理装置１００によれば、他のグループが実施した単位処理の結果を集約して得られる最新の情報を参照して、いずれかのグループが実施した単位処理の結果を集約して得られる情報を生成する、第１プロセスを用意することができる。情報処理装置１００によれば、それぞれのグループに属する演算部のうち、処理速度が最も遅い演算部に、第１プロセスを配備することができる。情報処理装置１００によれば、いずれかのグループにおいて、ステップを繰り返し実施した回数が閾値以上であるか否かを判定する第２プロセスを用意することができる。情報処理装置１００によれば、特定した複数のグループのいずれかのグループに属する演算部のうち、処理速度が最も遅い演算部に、第２プロセスを配備することができる。情報処理装置１００によれば、配備した第１プロセス、および、第２プロセスを用いて、それぞれのグループにおいて、ステップを繰り返し実施するよう、複数のグループを制御することができる。これにより、情報処理装置１００は、複数のグループを制御し易くすることができる。

【0452】

情報処理装置１００によれば、いずれかのグループに属するいずれかの演算部により、他のグループが実施した単位処理の結果を集約して得られた最新の情報を取得することができる。情報処理装置１００によれば、当該いずれかの演算部により、当該いずれかのグループに属する他の演算部が実施した単位処理の結果を取得することができる。情報処理装置１００によれば、最新の情報と、当該いずれかの演算部が実施した単位処理の結果と、取得した結果とに基づいて、当該グループが実施した単位処理の結果を集約して得られる情報を生成することができる。これにより、情報処理装置１００は、いずれかのグループが実施した単位処理の結果を集約して得られる情報を精度よく生成することができる。

【0453】

情報処理装置１００によれば、いずれかのグループに属するいずれかの演算部により、当該いずれかのグループに属する他の演算部が実施した単位処理の結果を取得することができる。情報処理装置１００によれば、当該いずれかの演算部が実施した単位処理の結果と、取得した結果とに基づいて、当該グループが実施した単位処理の結果を集約して得られる情報を生成することができる。これにより、情報処理装置１００は、いずれかのグループが実施した単位処理の結果を集約して得られる情報を精度よく生成することができる。

【0454】

情報処理装置１００によれば、複数の演算部のうち、処理速度が一定以上である演算部が分類された１つのグループと、処理速度が一定未満である演算部が分類された１つのグループとを含む複数のグループを特定することができる。これにより、情報処理装置１００は、複数の演算部を２分して計算処理を並列処理することができる。

【0455】

情報処理装置１００によれば、深層学習を実現する計算処理を並列処理することができる。これにより、情報処理装置１００は、ランダムな入力データに基づいて実施可能である深層学習を実現する計算処理を並列処理することができる。情報処理装置１００は、入力データのランダム性を保証することができ、深層学習を実現する計算処理を並列処理する際の精度低下を抑制しつつ、深層学習を実現する計算処理を並列処理する際にかかる処理負担および処理時間の低減化を図ることができる。

【0456】

なお、本実施の形態で説明した計算処理管理方法は、予め用意されたプログラムをＰＣやワークステーションなどのコンピュータで実行することにより実現することができる。本実施の形態で説明した計算処理管理プログラムは、コンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。記録媒体は、ハードディスク、フレキシブルディスク、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ、ＭＯ（ＭａｇｎｅｔｏＯｐｔｉｃａｌｄｉｓｃ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）などである。また、本実施の形態で説明した計算処理管理プログラムは、インターネットなどのネットワークを介して配布してもよい。

【0457】

上述した実施の形態に関し、さらに以下の付記を開示する。

【0458】

（付記１）単位処理を複数回実施する計算処理を並列処理する複数の演算部のうち、処理速度が一定以上である演算部が分類された１以上のグループと、処理速度が前記一定未満である演算部が分類された１以上のグループとを含む複数のグループを特定し、
特定した前記複数のグループのそれぞれのグループにおいて、当該グループに属するそれぞれの演算部が、前記単位処理を１回ずつ実施する第１動作と、当該グループに属するそれぞれの演算部が、他のグループが実施した前記単位処理の結果を集約して得られる最新の情報を参照して、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、前記第１動作の後の第２動作とを含むステップを繰り返し実施するよう、前記複数のグループを制御する、
制御部を有することを特徴とする計算処理管理装置。

【0459】

（付記２）前記制御部は、
特定した前記複数のグループのうちいずれかのグループにおいて、前記ステップを繰り返し実施した回数が閾値以上である場合、前記それぞれのグループにおいて、以降、前記ステップを繰り返し実施しないよう、前記複数のグループを制御する、ことを特徴とする付記１に記載の計算処理管理装置。

【0460】

（付記３）前記制御部は、
前記複数の演算部のそれぞれの演算部が、テスト学習処理を１回以上実施するよう、前記複数の演算部を制御することにより、前記複数の演算部のそれぞれの演算部の処理速度に関する指標値を取得し、
取得した前記指標値に基づいて、前記複数の演算部のうち、処理速度が一定以上である演算部が分類された１以上のグループと、処理速度が一定未満である演算部が分類された１以上のグループとを含む複数のグループを特定する、ことを特徴とする付記１または２に記載の計算処理管理装置。

【0461】

（付記４）前記制御部は、
前記それぞれのグループに属する演算部のうち、処理速度が最も遅い演算部に、他のグループが実施した前記単位処理の結果を集約して得られる最新の情報を参照して、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、第１プロセスを配備し、
特定した前記複数のグループのいずれかのグループに属する演算部のうち、処理速度が最も遅い演算部に、当該いずれかのグループにおいて、前記ステップを繰り返し実施した回数が閾値以上であるか否かを判定する第２プロセスを配備し、
配備した前記第１プロセス、および、前記第２プロセスを用いて、前記それぞれのグループにおいて、前記ステップを繰り返し実施するよう、前記複数のグループを制御する、ことを特徴とする付記２に記載の計算処理管理装置。

【0462】

（付記５）前記複数のグループのそれぞれのグループは、前記第１動作を他のグループと同期せずに実施するグループであって、
前記複数のグループのそれぞれのグループに属するいずれかの演算部は、
当該グループにおいて、前記ステップのうち前記第２動作を開始した際に、他のグループが実施した前記単位処理の結果を集約して得られた最新の情報が存在すれば、当該最新の情報と、当該グループに属する他の演算部が実施した前記単位処理の結果とを取得し、取得した当該最新の情報を参照して、当該いずれかの演算部が実施した前記単位処理の結果と、取得した当該グループに属する他の演算部が実施した前記単位処理の結果とに基づいて、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、ことを特徴とする付記１または２に記載の計算処理管理装置。

【0463】

（付記６）前記複数のグループのそれぞれのグループに属するいずれかの演算部は、
当該グループにおいて、前記ステップのうち前記第２動作を開始した際に、他のグループが実施した前記単位処理の結果を集約して得られた最新の情報が存在しなければ、当該グループに属する他の演算部が実施した前記単位処理の結果を取得し、当該いずれかの演算部が実施した前記単位処理の結果と、取得した当該グループに属する他の演算部が実施した前記単位処理の結果とに基づいて、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、ことを特徴とする付記５に記載の計算処理管理装置。

【0464】

（付記７）前記制御部は、
前記複数の演算部のうち、処理速度が一定以上である演算部が分類された１つのグループと、処理速度が前記一定未満である演算部が分類された１つのグループとを含む複数のグループを特定する、ことを特徴とする付記１または２に記載の計算処理管理装置。

【0465】

（付記８）前記計算処理は、深層学習を実現する計算処理である、ことを特徴とする付記１または２に記載の計算処理管理装置。

【0466】

（付記９）単位処理を複数回実施する計算処理を並列処理する複数の演算部と、前記複数の演算部を制御する制御部とを含む計算処理管理システムであって、
前記制御部は、
複数の演算部のうち、処理速度が一定以上である演算部が分類された１以上のグループと、処理速度が前記一定未満である演算部が分類された１以上のグループとを含む複数のグループを特定し、
特定した前記複数のグループのそれぞれのグループにおいて、当該グループに属するそれぞれの演算部が、前記単位処理を１回ずつ実施する第１動作と、当該グループに属するそれぞれの演算部が、他のグループが実施した前記単位処理の結果を集約して得られる最新の情報を参照して、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、前記第１動作の後の第２動作とを含むステップを繰り返し実施するよう、前記複数のグループを制御する、
ことを特徴とする計算処理管理システム。

【0467】

（付記１０）単位処理を複数回実施する計算処理を並列処理する複数の演算部のうち、処理速度が一定以上である演算部が分類された１以上のグループと、処理速度が前記一定未満である演算部が分類された１以上のグループとを含む複数のグループを特定し、
特定した前記複数のグループのそれぞれのグループにおいて、当該グループに属するそれぞれの演算部が、前記単位処理を１回ずつ実施する第１動作と、当該グループに属するそれぞれの演算部が、他のグループが実施した前記単位処理の結果を集約して得られる最新の情報を参照して、当該グループが実施した前記単位処理の結果を集約して得られる情報を生成する、前記第１動作の後の第２動作とを含むステップを繰り返し実施するよう、前記複数のグループを制御する、
処理をコンピュータが実行することを特徴とする計算処理管理方法。

【符号の説明】

【0468】

１００情報処理装置
１０１，４３０演算部
１１０，１２０グループ
１３１第１動作
１３２第２動作
２００計算処理管理システム
２０１演算処理装置
２０２クライアント装置
２１０ネットワーク
３００バス
３０１ＣＰＵ
３０２メモリ
３０３ネットワークＩ／Ｆ
３０４記録媒体Ｉ／Ｆ
３０５記録媒体
３０６スイッチ
３０７ＦＰＧＡ
３０８ＧＰＵ
４００第１記憶部
４０１第１取得部
４０２特定部
４０３配備部
４０４第１出力部
４１０第２記憶部
４１１第２取得部
４１２実行部
４１３集約部
４１４判定部
４１５第２出力部
４２０制御部
５００，５０１タイミングチャート
５１０～５１３，５２０～５２３，９００～９０３，９１１～９１８，１６００～１６０３，１６１１～１６１８，２３００～２３０３，２３１１～２３２１チャート

【図1】