特開2024-160818 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本電信電話株式会社の特許一覧

特開2024-160818情報処理装置、分散学習システム、学習方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024160818

(43)【公開日】2024-11-15

(54)【発明の名称】情報処理装置、分散学習システム、学習方法、及びプログラム

(51)【国際特許分類】

G06N 3/098 20230101AFI20241108BHJP

【ＦＩ】

G06N3/098

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023076220

(22)【出願日】2023-05-02

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り２０２２年５月８日にａｒＸｉｖウェブサイトにて公開

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】丹羽健太

(72)【発明者】

【氏名】竹澤祐貴

(72)【発明者】

【氏名】山田誠

(57)【要約】

【課題】分散学習において通信コストを下げることを可能とする技術を提供する。
【解決手段】複数のノードにおけるノード間での情報交換によりモデルの学習を行う分散学習システムにおいて、前記複数のノードの中のあるノードとして使用される情報処理装置であって、圧縮演算子を用いて圧縮した双対変数である圧縮双対変数を隣接ノードから受信する受信部と、前記圧縮双対変数を用いて、前記モデルのモデルパラメータを更新する更新部とを備える。
【選択図】図３

【特許請求の範囲】

【請求項1】

複数のノードにおけるノード間での情報交換によりモデルの学習を行う分散学習システムにおいて、前記複数のノードの中のあるノードとして使用される情報処理装置であって、
圧縮演算子を用いて圧縮した双対変数である圧縮双対変数を隣接ノードから受信する受信部と、
前記圧縮双対変数を用いて、前記モデルのモデルパラメータを更新する更新部と
を備える情報処理装置。

【請求項2】

前記更新部は、前記圧縮演算子を用いて、前記隣接ノードへ送るべき双対変数を圧縮し、
前記更新部により圧縮された双対変数を前記隣接ノードへ送信する送信部
を更に備える請求項１に記載の情報処理装置。

【請求項3】

前記圧縮演算子は、圧縮対象の双対変数を表すベクトルと、各要素がある確率で１となるスパースベクトルとのアダマール積をとる演算子である
請求項１に記載の情報処理装置。

【請求項4】

前記圧縮演算子をｃｏｍｐとし、ｘ及びｙをそれぞれベクトルとし、τとωをそれぞれパラメータとしたときに、ｃｏｍｐは、
Ｅ_ω｜｜ｃｏｍｐ（ｘ；ω）－ｘ｜｜^２≦（１－τ）｜｜ｘ｜｜^２、
ｃｏｍｐ（ｘ＋ｙ；ω）＝ｃｏｍｐ（ｘ；ω）＋ｃｏｍｐ（ｙ；ω）、及び
ｃｏｍｐ（－ｘ；ω）＝－ｃｏｍｐ（ｘ；ω）
を満たす
請求項１に記載の情報処理装置。

【請求項5】

請求項１ないし４のうちいずれか１項に記載の情報処理装置を複数台備える分散学習システム。

【請求項6】

複数のノードにおけるノード間での情報交換によりモデルの学習を行う分散学習システムにおいて、前記複数のノードの中のあるノードとして使用される情報処理装置が実行する学習方法であって、
圧縮演算子を用いて圧縮した双対変数である圧縮双対変数を隣接ノードから受信する受信ステップと、
前記圧縮双対変数を用いて、前記モデルのモデルパラメータを更新する更新ステップと
を備える学習方法。

【請求項7】

コンピュータを、請求項１ないし４のうちいずれか１項に記載の情報処理装置における各部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、分散学習に関連するものである。

【背景技術】

【0002】

近年、ニューラルネットワーク等のモデルは画像処理や自然言語処理など様々な分野で大きな注目を集めている。モデルを学習するためには、通常、大量の学習データを収集する必要がある。

【0003】

しかし、プライバシーの問題等のために、個人情報を含む学習データを単一のサーバ（ノード）上に収集することは困難である。このようなケースを考慮して、任意にネットワーク接続できる複数のノードにデータを分散させて蓄積し、全データを高い認識率で識別できるようなモデル（例えばニューラルネットワークのモデル）の学習を実現することが検討されている（例えば非特許文献１）。上記の学習は分散学習（Decentralized learning）と呼ばれる。

【0004】

分散学習においては、複数のノード間でどのような合意形成をしながら学習をしたらよいかのアルゴリズムを構築することが研究の主題となっている。合意形成に至るまでに、ノード間の通信回数や通信する情報量が少ないほど、分散学習のアルゴリズムとして性能が良いと言える。

【0005】

非特許文献１には、エッジコンセンサス学習（ECL：Edge-consensus learning）と呼ばれる分散学習の技術が開示されている。

【0006】

ECLのメリットは、ノードに蓄積されるデータサブセットの統計的な偏り（heterogeneity）に対してロバストに学習できる点である。これは、ノード間のモデルが一致するという合意形成型の制約下でコスト最小化問題を解いていることに起因する。

【先行技術文献】

【非特許文献】

【0007】

【非特許文献1】Niwa, K., Harada, N., Zhang, G., and Kleijn, W. B. Edge-consensus learning: Deep learning on P2P networks with nonhomogeneous data. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 668-678, 2020.

【発明の概要】

【発明が解決しようとする課題】

【0008】

非特許文献１に開示されたECLは一次収束のアルゴリズムである。そのため、合意形成に至り、モデルの学習が完了するまでにノード間の通信回数が大きくなる。またＥＣＬでは、１回あたりの通信で、モデルのサイズとおおよそ同等のサイズの情報（具体的には双対変数）をノード間で交換する必要があり、通信量が大きい。分散学習における通信コストが計算量や実行時間の大半を占めており、実用的な分散学習のために、この通信コストを下げる必要がある。なお、このような課題はＥＣＬに限らずに、他の分散学習においても生じ得る課題である。

【0009】

本発明は上記の点に鑑みてなされたものであり、分散学習において通信コストを下げることを可能とする技術を提供することを目的とする。

【課題を解決するための手段】

【0010】

開示の技術によれば、複数のノードにおけるノード間での情報交換によりモデルの学習を行う分散学習システムにおいて、前記複数のノードの中のあるノードとして使用される情報処理装置であって、
圧縮演算子を用いて圧縮した双対変数である圧縮双対変数を隣接ノードから受信する受信部と、
前記圧縮双対変数を用いて、前記モデルのモデルパラメータを更新する更新部と
を備える情報処理装置が提供される。

【発明の効果】

【0011】

開示の技術によれば、分散学習において通信コストを下げることが可能となる。

【図面の簡単な説明】

【0012】

【図1】分散学習システムの全体構成例を示す図である。

【図2】ネットワークトポロジの例を示す図である。

【図3】ノードｉにおける更新手順を示す図である。

【図4】実験結果を示す図である。

【図5】実験結果を示す図である。

【図6】実験結果を示す図である。

【図7】実験結果を示す図である。

【図8】実験結果を示す図である。

【図9】実験結果を示す図である。

【図10】実験結果を示す図である。

【図11】ノード（情報処理装置）の構成図である。

【図12】情報処理装置のハードウェア構成例を示す図である。

【発明を実施するための形態】

【0013】

以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

【0014】

以下では、分散学習における通信量圧縮のために、非特許文献１に開示されたECLをベースとした新しい分散学習技術であるC-ECL（Communication Compressed ECL）について説明する。C-ECLでは、ECLにおいてノード間で交換する双対変数を、圧縮演算子（例えばランダムプロジェクション）を用いて効率的に圧縮することとしている。

【0015】

なお、以下の本実施の形態では、ECLをベースとしたC-ECLについて説明するが、本発明に係る技術は、ECLをベースとした分散学習に限らず、その他の分散学習にも適用可能である。

【0016】

（システム全体構成例）
図１に、本実施の形態における分散学習システムの全体構成例を示す。図１に示すように、本システムは、複数のノード１００がネットワーク２００に接続された構成を備える。ノード間では、ネットワーク２００を介して通信が可能となっている。ネットワーク２００はどのようなネットワークでもよいが、例えばインターネット等のＩＰネットワークである。

【0017】

各ノード１００は、通信機能を持つコンピュータ（情報処理装置と呼んでもよい）である。当該コンピュータは、物理マシンでもよいし、クラウド上に構築した仮想マシンでもよい。また、複数のノード１００のうちのいずれか又は全部が、エッジコンピューティングにおけるエッジ装置であってもよい。また、複数のノード１００のうちのいずれか又は全部が、ＩｏＴ機器であってもよい。

【0018】

各ノード１００が、他のノード１００との間で情報（例えば圧縮された双対変数）を送受信（交換）することで、モデルの学習がなされる。当該モデルの種類には限定はなく、ニューラルネットワークでもよいし、ニューラルネットワーク以外のモデルでもよい。ただし、本実施の形態では、ニューラルネットワークのモデルを使用することを想定している。

【0019】

複数のノード１００はどのようなトポロジで接続されてもよい。当該トポロジは、例えば、図２に示すような、（ａ）チェイン、（ｂ）リング、（ｃ）多重リング、（ｄ）完全連結グラフのうちのいずれの形であってもよい。また、当該トポロジは、これら以外の形であってもよい。

【0020】

以下、各ノード１００が、モデル学習のために実行する処理（アルゴリズム）を説明する。以下では、まず、関連技術について説明し、その後に、本実施の形態に係る技術（つまり、C-ECL）を説明する。

【0021】

以下、｜｜・｜｜はＬ２ノルムを表し、０はすべてゼロのベクトルを表し、Ｉは単位行列を表す。

【0022】

なお、記載の便宜上、本明細書のテキスト（画像イメージではないテキスト）において、一般的には太字で示されるベクトルや行列の文字を、通常の字体で示している。通常の字体でも、文脈から、それがベクトルや行列を示す文字であることは明らかである。その他、集合（例えば、実数の集合、ノードの集合等）を表す文字についても、明細書のテキストにおいては通常の字体を使用する。

【0023】

（１．関連技術）
ここでは、分散学習の問題設定を示し、その後に、Gossipベースのアルゴリズムの概要とECLの概要を説明する。なお、Gossipベースのアルゴリズムは、分散学習のアルゴリズムとして、広く使用されているアルゴリズムの一つである。

【0024】

＜Ａ．分散学習＞
Ｇ＝（Ｖ，Ｅ）を、ネットワークトポロジを表す無向連結グラフ（undirected connected graph）とする。ここで、Ｖはノードの集合を示し、Ｅはエッジの集合を示す。簡単のために、Ｖを整数の集合｛１，２，...，｜Ｖ｜｝として表す。

【0025】

ノードｉの隣接ノードの集合をＮ_ｉ＝｛ｊ∈Ｖ｜（ｉ，ｊ）∈Ｅ｝と表す。分散学習の目標は、下記の式（１）に示すように定式化することができる。

【0026】

【数1】

ここで、ｗ_ｉ∈Ｒ^ｄはノードｉが持つモデルパラメータであり、Ｆは損失関数であり、Ｄ_ｉは、ノードｉが持つデータを表す。ζ_ｉは、Ｄ_ｉからのデータサンプルであり、ｆ_ｉはノードｉの損失関数である。

【0027】

式（１）は、各ノードにおける損失をノード全体で加算し、その値を最小にするパラメータｗを求めることを意味する。

【0028】

＜Ｂ．Gossipベースのアルゴリズム＞
分散学習のために広く用いられているアプローチとして、Gossipベースのアルゴリズム(例えばD-PSGD)が知られている。Gossipベースのアルゴリズムでは、各ノードｉは当該ノードにおける勾配∇ｆ_ｉを計算し、隣接ノードとパラメータを交換し、次にそれらの平均を取得する。Gossipベースのアルゴリズムは単純で効果的なアプローチであるが、２つの主要な問題がある。それらは、通信コストが高いことと、データの不均一性に対して敏感であることである。

【0029】

Gossipベースのアルゴリズムでは、ノードは隣接ノードからモデルパラメータを受け取る必要がある。ニューラルネットワークではモデルパラメータの数が多いため、モデルパラメータの交換には莫大な通信コストがかかる。これが第１の問題である。Gossipベースアルゴリズムの通信コストを削減するために、スパース化、量子化、低ランク近似等を使用して、交換するパラメータの量を圧縮する多くの方法が提案されている。これらの圧縮方法により、より少ない量のパラメータ交換で非圧縮Gossipベースのアルゴリズムとほぼ同じ精度を達成できることが知られている。

【0030】

第２の問題は、Gossipベースのアルゴリズムがデータ分布の不均一性（偏り）に敏感であることである。各ノードのデータ分布が統計的に不均一である場合、損失関数Σ_ｉｆ_ｉの最適解と各ノードの損失関数ｆ_ｉの最適解は大きく異なるので、Gossipベースのアルゴリズムはうまく機能しない。Gossipベースのアルゴリズムにおけるこの第２の問題に対しても、種々の手法が提案されている。

【0031】

＜Ｃ．ECL＞
続いて、非特許文献１に開示されているECLについて説明する。ECL自体は公知技術なので、ここではその概要を説明する。式（１）を再定式化することで、主問題（primal problem）を次の式（２）に示すように定義することができる。

【0032】

【数2】

上記の式（２）において、ｊ∈Ｎ_ｉかつｉ＜ｊのときにＡ_ｉ｜ｊ＝Ｉである。ｊ∈Ｎ_ｉかつｉ＞ｊのときにＡ_ｉ｜ｊ＝－Ｉである。Gossipベースのアルゴリズムでは各ラウンド（各回）で平均を明示的に計算するのに対し、式（２）に示す主問題は、線形制約に基づく合意形成（コンセンサス）を表す。Douglas-Rachford splitting（Douglas, J. and Rachford, H. H. (1956). On the numerical solution of heat conduction problems in two and three space variables. In Transactions of the American mathematical Society.）を使用して、式（２）の双対問題を解くことで、更新式を下記のとおりに導出することができる。

【0033】

【数3】

【0034】

【数4】

【0035】

【数5】

上記におけるθ∈（０，１］とα＞０はハイパーパラメータであり、ｙ_ｉ｜ｊ，ｚ_ｉ｜ｊ∈Ｒｄは、双対変数である。

【0036】

上記の式（３）～式（５）がECLの基本的な更新則であり、（３）及び（４）式を各ノードで計算する。ｗ_ｉはモデルパラメータ（モデル変数）であり、ｙ_ｉ｜ｊはｉ番目のノードからｊ番目のノードに送信する双対変数を表している。モデルパラメータと双対変数の次元は同じである。（５）式ではｉ，ｊ番目のノードが双対変数ｙ_ｉ｜ｊとｙ_ｊ｜ｉを交換し（同期してｓｗａｐ）、受信した情報を使って双対変数ｚ_ｉ｜ｊを更新する。後述のとおり、通信で交換するｙ_ｉ｜ｊをいかに効率よく（学習を阻害しないで）圧縮するかが課題となっており、C-ECLではこの課題を解決している。

【0037】

なお、ｆ_ｉが非凸（例えば、ニューラルネットワークの損失関数）である場合、式（３）は一般的には解くことができない。そこで、ECL（及びC-ECL）では、式（３）を次のように近似的に解くこととしている。

【0038】

【数6】

上記の式（６）において、η＞０は、学習率に対応する。ECLはGossipベースのアルゴリズムよりも不均一（heterogeneous）データに対してよりロバストである。しかし、上記のとおり、ECLでは、式（５）に示すように、ノードｉは隣接ノードｊから双対変数ｙ_ｊ｜ｉを受け取る必要がある。そのため、Gossipベースのアルゴリズムと同様に、ECLにおいて、学習中に大きな通信コストが発生する。

【0039】

以下、上記の課題を解決する提案方式であるC-ECLを説明する。C-ECLは、ECLよりも少ない量のパラメータの交換でモデルを学習でき、不均一データに対してロバストである。C-ECLはECLをベースとしており、以下では主に、C-ECLにおいて、ECLと異なる点について説明する。

【0040】

（２．C-ECL）
C‐ECLを説明するにあたり、まず、C‐ECLにおいて使用される圧縮演算子（compression operator）について説明する。

【0041】

仮定（Assumption）１（圧縮演算子）：
あるτ∈（０，１］について、圧縮演算子ｃｏｍｐ：Ｒ^ｄ→Ｒ^ｄは、全てのｘ，ｙ∈Ｒ^ｄ及びωに対して、下記を満たすものとする。

【0042】

【数7】

【0043】

【数8】

【0044】

【数9】

ここでωは圧縮演算子のパラメータ（ハイパーパラメータ）を表す。Ｅ_ω（ｆ（ω））は、関数ｆ（ω）のωについての期待値であり、ωについての平均値で置き換えてもよい。圧縮演算子は、ｃｏｍｐ（・；ω）と記載される。ωを省略してｃｏｍｐ（ｘ）と記載してもよい。下記のｒａｎｄ_ｋ％は、圧縮演算子ｃｏｍｐの一例である（例１）。

【0045】

例１．あるｋ∈（０，１００］に対して、演算子ｒａｎｄ_ｋ％：Ｒ^ｄ→Ｒ^ｄは次のように定義される。下記の演算を、ランダムプロジェクションマッピングと呼ぶ。

【0046】

【数10】

上記の式（１０）において、〇はアダマール積を示し、ｓ∈｛０，１｝^ｄは、各要素が確率ｋ％で１である、一様にサンプリングされたスパースベクトルである。例えば、ｓとしてベクトル＝（ａ，ｂ，ｃ）を考えた場合、ａは、ｋ％の確率で１、（１００－ｋ）％の確率で０になり、ｂは、ｋ％の確率で１、（１００－ｋ）％の確率で０になり、ｃは、ｋ％の確率で１、（１００－ｋ）％の確率で０になる。

【0047】

ここで、圧縮演算子のパラメータωはランダムにサンプリングされたベクトルｓに対応する。ｒａｎｄ_ｋ％は仮定１を満たす。

【0048】

＜Ｂ．C-ECLの詳細＞
以下、上述した圧縮演算子を使用して、ノード間で交換される双対変数を圧縮する方法であるC-ECLを詳細に説明する。

【0049】

非特許文献１に開示されたECLでは、式（５）のｚ_ｉ｜ｊを更新するために、ノードｉはノードｊからｙ_ｊ｜ｉを受け取る必要がある。ｙ_ｊ｜ｉの要素数はモデルパラメータｗ_ｊの要素数と同じであるため、この交換には大きな通信コストがかかる。この通信コストを削減するための直接的なアプローチとして、下記のように、ｃｏｍｐを用いて式（５）におけるｙ_ｊ｜ｉを圧縮することが考えられる。

【0050】

【数11】

しかし、上記のようにｙ_ｊ｜ｉの圧縮を行っても課題解決にならないことが実験的にわかっている。

【0051】

また、Gossipベースのアルゴリズムに対する圧縮方法では、モデルパラメータが圧縮に対してロバストでないことが知られている。これは、モデルパラメータの最適解が一般的に０ではなく、モデルパラメータが最適解に近い場合でも、圧縮によって生じるエラーが０に近づかないためである。

【0052】

そこで、本実施の形態では、式（５）を下記の式（１２）に再定式化し、モデルパラメータが最適解に近いときにゼロに近づくパラメータを圧縮できるようにした。

【0053】

【数12】

Douglas-Rachford splittingでは、モデルパラメータが最適解に近づくときに、ｚ_ｉ｜ｊは固定点に近づく（すなわち、ｚ^（ｒ） _ｉ｜ｊ＝ｚ^{（ｒ＋１）} _ｉ｜ｊとなる）。

【0054】

そして、モデルパラメータが最適解に近づくと、式（１２）における（ｙ_ｊ｜ｉ－ｚ_ｉ｜ｊ）は０に近づく。そこで、本実施の形態では、式（１１）におけるｙ_ｊ｜ｉを圧縮する代わりに、下記のように（ｙ_ｊ｜ｉ－ｚ_ｉ｜ｊ）を圧縮することとしている。

【0055】

【数13】

上記の最後の式に仮定１を使用している。なお、圧縮演算子としてｒａｎｄ_ｋ％を使用する場合、仮定１を使用するために、ｙ_ｊ｜ｉとｚ_ｉ｜ｊに対して、式（１０）における同じスパースベクトルｓを使用して圧縮を行う必要がある。

【0056】

図３に、ノードｉにおけるC-ECLの処理動作を表すAlgorithm1を示す。分散学習システムを構成する各ノードが当該処理を実行する。

【0057】

Algorithm1は、ノードｉで実行されるプログラムの疑似コードに相当する。以下、図３の行番号を「ステップ」と呼ぶ。

【0058】

図３のステップ１～ステップ１１が、ｒ＝０から開始して、ｒを１ずつ増加させながら、ｒ＝Ｒまで、繰り返し実行される。

【0059】

ステップ２において、ノードｉは、現時点での各パラメータ／変数から、ｗ^{（ｒ＋１）} _ｉを計算する。ノードｉは、ステップ３～ステップ１０を、各ｊ（ノードｉの隣接ノードｊ）に対して実行する。

【0060】

ステップ４において、ノードｉは、「ｚ^（ｒ） _ｉ｜ｊ－２αＡ_ｉ｜ｊｗ^{（ｒ＋１）} _ｉ」を計算して、それをｙ^{（ｒ＋１）} _ｉ｜ｊとする。ステップ５において、ノードｉは隣接ノードｊからω^{（ｒ＋１）} _ｉ｜ｊを受信する。ステップ６において、ノードｉは、隣接ノードｊにω^{（ｒ＋１）} _ｊ｜ｉを送信する。

【0061】

ステップ７において、ノードｉは、隣接ノードｊからｃｏｍｐ（ｙ^{（ｒ＋１）} _ｊ｜ｉ；ω^{（ｒ＋１）} _ｉ｜ｊ）を受信する。ステップ８において、ノードｉは、隣接ノードｊへｃｏｍｐ（ｙ^{（ｒ＋１）} _ｉ｜ｊ；ω^{（ｒ＋１）} _ｊ｜ｉ）を送信する。

【0062】

ステップ９において、ノードｉは、「ｚ^（ｒ） _ｉ｜ｊ＋θｃｏｍｐ（ｙ^{（ｒ＋１）} _ｊ｜ｉ－ｚ^（ｒ） _ｉ｜ｊ；ω^{（ｒ＋１）} _ｉ｜ｊ）」を計算し、これをｚ^{（ｒ＋１）} _ｉ｜ｊとする。

【0063】

図３に示すAlgorithm1では、処理をシンプルにするために、ステップ５、６において、ノードｉとノードｊは、ω_ｉ｜ｊとω_ｊ｜ｉを交換することとしている。ただし、この処理は一例である。学習を開始する前に、ノードｉとノードｊとで同じシード値を共有して、それぞれω_ｉ｜ｊとω_ｊ｜ｉを生成することで、ノードｉとノードｊはωの交換をすることなく、ω_ｉ｜ｊとω_ｊ｜ｉを得ることができる。

【0064】

さらに、圧縮演算子としてｒａｎｄ_ｋ％を使用する場合、ノードｉは受信値ｃｏｍｐ（ｙ_ｊ｜ｉ；ω_ｉ｜ｊ）からω_ｉ｜ｊを得ることができる。これは、ｃｏｍｐ（ｙ_ｊ｜ｉ；ω_ｉ｜ｊ）が疎行列形式で格納されているためである。したがって、これらのω_ｉ｜ｊとω_ｊ｜ｉの交換は実際には省略することができる。したがって、C-ECLにおいて、各ノードｉはｙ_ｊ｜ｉ／ｙ_ｉ｜ｊの圧縮値を受信／送信するだけでよい。そのため、C-ECLでは、ECLよりも少ない量の情報の交換でモデルの学習を行うことができる。

【0065】

なお、図３に示すAlgorithm1では、学習ラウンドごとに１度のモデル変数更新と１度の通信を交互に行っているが、学習ラウンドごとにモデル変数更新を複数回にしてもよい。また、ノードごとに非同期に通信するようにしてもよい。

【0066】

（３．収束解析）
次に、C-ECLにおける圧縮がECLの収束速度にどのように影響するかについて説明する。なお、当該収束解析は、Douglas-Rachford splittingにおける解析（Giselsson, P. and Boyd, S. P. (2017). Linear convergence and metric selection for Douglas-Rachford splitting and ADMM. In IEEE Transactions on Automatic Control.）に基づくものである。

【0067】

＜Ａ．前提条件＞
ここでは、収束解析のために追加の表記法と仮定を導入する。Ｎ：＝｜Ｖ｜，Ｎ_ｍｉｎ：＝ｍｉｎ_ｉ｛｜Ｎ_ｉ｜｝，Ｎ_ｍａｘ：＝ｍａｘ_ｉ｛｜Ｎ_ｉ｜｝と定義する。ここで、Ｎ_ｉは、ノードｉの隣接ノードの集合である、
Ｎ_ｉ（ｊ）を、Ｎ_ｉにおけるｊ番目に小さいノードのインデックスとする。ｗ∈Ｒ^ｄＮ，ｚ_ｉ∈Ｒ^{ｄ｜Ｎ＿ｉ｜}，及びｚ∈Ｒ^{２ｄ｜Ｅ｜}を次のように定義する。

【0068】

【数14】

【0069】

【数15】

【0070】

【数16】

説明を簡単にするために、ラウンドｒの値を示す上付き文字を省略する。｛ｗ^＊ _ｉ｝_ｉを式（２）の最適解とする。また、式（１４）におけるｗの定義と同じ方法でｗ^＊∈Ｒ^ｄＮを定義し、損失関数をｆ（ｗ）：＝Σ_ｉ∈Ｖｆ_ｉ（ｗ_ｉ）と定義する。次に、収束解析で使用される仮定を示す。

【0071】

仮定２．ここではｆがプロパーで、閉じており、凸であると仮定する。

【0072】

仮定３．Ｌ＞０，μ＞０として、ｆは、Ｌ－平滑かつμ－強凸であると仮定する。

【0073】

仮定４．グラフＧに孤立ノードがないと仮定する（すなわち、Ｎ_ｍｉｎ＞０である）。

【0074】

仮定２と仮定３は、演算子分割法の収束解析に使用される標準的な仮定である。仮定３は、分散学習で一般的に使用される、すべてのｉ∈Ｖに対するｆ_ｉの平滑性と強凸性の仮定よりも弱い。分散学習では、グラフＧが連結であると仮定されるため、一般に仮定４が成り立つ。さらに、δ∈Ｒを次のように定義する。

【0075】

【数17】

仮定２，３，４が成立し、α∈（０，∞）が成立すると仮定すると、Ｌ≧μ＞０かつＮ_ｍａｘ≧Ｎ_ｍｉｎ＞０であるため、δ∈［０，１）が成立する。

【0076】

＜Ｂ．収束速度（Convergence Rates）＞
定理１．^－ｚ∈Ｒ２^ｄ｜Ｅ｜をDouglas-Rachford splittingの定常点とする。また、仮定１，２，３，４が成り立つとする。なお、「^－ｚ」は、ｚの頭の上に「^－」を置くことを意図している。

【0077】

下記が成り立ち、

【0078】

【数18】

θが下記の式（１７）を満たす場合、

【0079】

【数19】

Algorithm1によって生成されたｗ^{（ｒ＋１）}は、下記のとおり、式（２）の最適解ｗ^＊に線形に収束する。

【0080】

【数20】

系（Corollary）１．^－ｚ∈Ｒ２^ｄ｜Ｅ｜をDouglas-Rachford splittingの定常点とする。仮定１，２，３，４のもと、τ＝１かつθ∈（０，２／（１＋δ））のとき、Algorithm1によって生成されたｗ^{（ｒ＋１）}は次にようにして、式（２）の最適解ｗ^＊に線形に収束する。

【0081】

【数21】

τ＝１はC-ECLにおいてｃｏｍｐ（ｘ）＝ｘであることを意味するので、系１は仮定１，２，３，４におけるECLの収束速度を示し、これはDouglas-Rachford splittingの収束速度とほぼ同じ速度である。

【0082】

ECLとC-ECLにおいて収束するためのθのドメイン（値域）を比較すると、τが減少するにつれて、式（１７）のドメインが小さくなる。また、式（１７）のドメインが空でないようにするために、τは（１－（１－δ）^２／（１＋δ）^２）以上である必要がある。

【0083】

次に、ECLとC-ECLの収束速度を比較すると、C-ECLでは圧縮によって、ECLにおける収束速度が下記の項だけ低下する。

【0084】

【数22】

さらに、Douglas-Rachford splittingの収束解析と同様に、定理１と系１は、θの最適パラメータが次のようにして決定できることを意味する。

【0085】

系２．仮定１，２，３，４が成り立ち、下記が成り立つとすると、C-ECLにおける式（１８）の最適収束速度は、θ＝１のときに達成される。

【0086】

【数23】

系３．仮定１，２，３，４が成り立ち、τ＝１であるとすると、式（１９）の最適収束速度は、θ＝１のときに達成される。

【0087】

なお、θは一般にθ∈（０，１］として設定されるが、定理１と系１は、あるδについては、θが１より大きい場合でもECLとC-ECLが収束することを示している。

【0088】

（４．効果について）
次に、C-ECLがECLよりも少ない量の情報の交換で、ECLとほぼ同じ性能を達成できるという効果について、実験結果を用いて説明する。さらに、C-ECLはGossipベースのアルゴリズムよりも不均一データに対してよりロバストであることを説明する。

【0089】

＜Ａ．実験設定＞
まず、実験設定を説明する。

【0090】

データセットに関して、１０クラスの画像分類タスクのデータセットであるFashionMNISTとCIFAR 10を使用してC-ECLを評価した。両方のデータセットに対するモデルとして、グループ正規化を適用した５層畳み込みニューラルネットワークを使用した。

【0091】

非特許文献１に開示されているECLと同様に、均一（homogeneous）設定と不均一（heterogeneous）設定の２つの設定でノードにデータを配分した。均一設定では、各ノードが１０クラスすべてのデータを持ち、各クラスのデータ数がほぼ同じになるようにデータを配分した。不均一設定では、各ノードがランダムに選択された８クラスのデータを持つようにデータを配分した。どちらの設定でも、各ノードが同じ数のデータを持つようにデータを配分した。

【0092】

ネットワークトポロジに関して、後述する「Ｂ．実験結果」のところでは、８つのノードからなるリングのネットワークで、すべての手法を評価した。また、後述する「Ｃ．種々のネットワークトポロジでの実験結果」のところでは、８つのノードからなる４つのネットワークトポロジ（図２に示したチェイン、リング、多重リング、及び完全連結グラフ）で、すべての手法を評価した。各ノードは、５回のローカルでの更新ごとに隣接するノードとパラメータ／変数を交換することとした。

【0093】

評価の対象（C-ECLと、C-ECLに対する比較対象）とした手法は下記のとおりである。

【0094】

（１）D-PSGD：非圧縮Gossipベースのアルゴリズム。

【0095】

（２）PowerGossip：低ランク近似を使用して交換するパラメータを圧縮するGossipベースのアルゴリズム。なお、PowerGossipは追加のハイパーパラメータチューニングなしで他の既存の圧縮方法とほぼ同じパフォーマンスを達成することが知られているため、圧縮Gossipベースのアルゴリズムの手法としてPowerGossipを使用した。

【0096】

（３）ECL：非特許文献１に開示されている主双対アルゴリズム。ECLについて、θ＝１のときには、θ＝０．５のときよりも速く収束することが知られているので、θ＝１とした。

【0097】

（４）C-ECL：提案手法。圧縮演算子としてｒａｎｄ_ｋ％を使用した。系２に従って、θ＝１とした。ｚ_ｉ｜ｊとｙ_ｉ｜ｊを０に初期化した。ただし、ｒａｎｄ_ｋ％を使用してｚ_ｉ｜ｊの更新値を圧縮すると、ｚ_ｉ｜ｊが初期訓練段階でスパースのままであるため、収束が遅くなることがわかった。そこで、ｒａｎｄ_ｋ％のｋ％を最初のエポックの間だけ１００％に設定した。

【0098】

また、参考のために、すべての学習データを持つ単一のノードでモデルを学習する確率的勾配降下法（ＳＧＤ）の結果も示した。実験では、すべての手法に同じ学習率、エポック数、およびバッチサイズを設定した。

【0099】

＜Ｂ．実験結果＞
ネットワークトポロジをリングに設定した場合における精度と通信コストの評価結果を説明する。

【0100】

均一設定：
まず、均一設定での結果について説明する。図４に、均一設定での精度と通信コストを示す。図４において、C-ECLの場合、括弧内の数字はｒａｎｄ_ｋ％のｋを示す。PowerGossipの場合、括弧内の数字はパワー反復ステップの数を示す。通信コストとして、１エポックあたりの平均送信パラメータ量（データ量）が示されている。

【0101】

図４に示すように、D-PSGDとECLに関して、いずれのデータセットでもほぼ同じ精度を達成している。C-ECLとPowerGossipは同等であり、ｒａｎｄ_ｋ％のｋ％を１％に設定し、パワー反復ステップ数を１に設定しても、ECL及びD-PSGDとほぼ同じ精度を達成している。すなわち、C-ECLは、均一設定において、ECL及びD-PSGDよりも約５０倍少ない量のパラメータ交換で同等の精度を達成できている。

【0102】

不均一設定：
次に、不均一設定の場合の結果について説明する。図５に、不均一設定での精度と通信コストを示す。図５においても、、C-ECLの場合、括弧内の数字はｒａｎｄｋ％のｋを示す。PowerGossipの場合、括弧内の数字はパワー反復ステップの数を示す。通信コストとして、１エポックあたりの平均送信パラメータ量（データ量）が示されている。

【0103】

図５に示すように、D-PSGDでは、不均一設定での精度は、均一設定と比較して約３％低下する。PowerGossipでは、パワー反復ステップ数を増やしても、D-PSGD及びECLの精度には近づかない。一方、ECLの精度は、均一設定と不均一設定の両方でほぼ同じであり、結果は、ECLがD-PSGDよりも不均一データに対してよりロバストであることを示す。C-ECLでは、ｒａｎｄ_ｋ％のｋ％を１％に設定すると、ECLの精度と比較して、不均一設定の精度は約１０％低下する。

【0104】

ただし、ｒａｎｄ_ｋ％のｋ％を増やすと、C-ECLはECLに近くなり、D-PSGD及びPowerGossipよりも良い性能が得られる。具体的には、FashionMNISTでｋ％を１０％に設定すると、C-ECLはECLと同等であり、D-PSGD及びPowerGossipよりも性能が良い。CIFAR 10でｋ％を２０％に設定すると、C-ECLはECLと同等であり、D-PSGD及びPowerGossipよりも性能が良い。

【0105】

すなわち、均一設定では、C-ECLは、ECL及びD-PSGDとほぼ同じ精度を約５０倍少ないパラメータ交換で実現できる。不均一設定では、C-ECLは、ECLとほぼ同じ精度を約４倍少ないパラメータ交換で実現でき、PowerGossipを上回るパフォーマンスを実現できる。さらに、その結果は、C-ECLが精度と通信コストの両方の面で、非圧縮のGossipベースのアルゴリズムであるD-PSGDよりも優れていることを示している。

【0106】

＜Ｃ．種々のネットワークトポロジでの実験結果＞
ここでは、ネットワークトポロジを変化させた場合の精度と通信コストについて説明する。図６～図１０は、ネットワークトポロジを、チェイン、リング、多重リング、及び完全連結グラフに変化させた場合のFashionMNISTでの通信コストと精度を示す。

【0107】

図６、図７が均一設定であり、図８、図９が不均一設定である。図１０は、エポックごとに送信されるパラメータの量の、均一設定と不均一設定で平均を示す。

【0108】

図６、図７に示すとおり、均一設定では、すべての手法の精度がほぼ同じであり、すべてのネットワークトポロジでSGDの精度に達することが示されている。

【0109】

図８、図９に示すとおり、不均一設定では、D-PSGDとPowerGossipの精度が均一設定と比較して低下していることがわかる。一方、ECLの精度は、すべてのネットワークトポロジで均一設定とほぼ同じである。そして、すべてのネットワークトポロジで、C-ECLは、より少ないパラメータ交換でECLとほぼ同じ精度を実現し、一貫してPowerGossipを上回っていることがわかる。また、不均一設定において、C-ECLが全てのネットワークトポロジにおいて、精度と通信コストの両面で、非圧縮のGossipベースのアルゴリズムであるD-PSGDを上回ることがわかる。

【0110】

（装置構成例）
図１１に、C-ECLを実行する分散学習システムにおいて、ノードとして使用される情報処理装置１００の構成例を示す。

【0111】

図１１に示すように、情報処理装置１００は、送信部１１０、受信部１２０、更新部１３０、及び記憶部１４０を含む。

【0112】

当該情報処理装置１００は、複数のノードにおけるノード間での情報交換によりモデルの学習を行う分散学習システムにおいて、前記複数のノードの中のあるノードとして使用される情報処理装置である。本分散学習システムは、C-ECLにより分散学習を行う。

【0113】

受信部１２０は、圧縮演算子を用いて圧縮した双対変数である圧縮双対変数を隣接ノードから受信する。更新部１３０は、受信した圧縮双対変数を用いて、モデルパラメータを更新する。

【0114】

また、送信部１１０は、更新部１３０により、圧縮演算子を用いて圧縮された双対変数を隣接ノードへ送信する。記憶部１４０は、受信したデータ、更新部３０により演算されたデータ、送信するべきデータが格納されている。

【0115】

（ハードウェア構成例）
本実施の形態で説明した情報処理装置１００は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。

【0116】

すなわち、当該装置は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

【0117】

図１２は、上記コンピュータのハードウェア構成例を示す図である。図１２のコンピュータは、それぞれバスＢで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。なお、当該コンピュータは、更にＧＰＵを備えてもよい。

【0118】

当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0119】

メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、情報処理装置１００に係る機能を実現する。インタフェース装置１００５は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

【0120】

以上の実施形態に関し、更に以下の付記を開示する。

【0121】

＜付記＞
（付記項１）
複数のノードにおけるノード間での情報交換によりモデルの学習を行う分散学習システムにおいて、前記複数のノードの中のあるノードとして使用される情報処理装置であって、
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、
前記プロセッサは、
圧縮演算子を用いて圧縮した双対変数である圧縮双対変数を隣接ノードから受信し、
前記圧縮双対変数を用いて、前記モデルのモデルパラメータを更新する
情報処理装置。
（付記項２）
前記プロセッサは、前記圧縮演算子を用いて、前記隣接ノードへ送るべき双対変数を圧縮し、圧縮された双対変数を前記隣接ノードへ送信する
付記項１に記載の情報処理装置。
（付記項３）
前記圧縮演算子は、圧縮対象の双対変数を表すベクトルと、各要素がある確率で１となるスパースベクトルとのアダマール積をとる演算子である
付記項１又は２に記載の情報処理装置。
（付記項４）
前記圧縮演算子をｃｏｍｐとし、ｘ及びｙをそれぞれベクトルとし、τとωをそれぞれパラメータとしたときに、ｃｏｍｐは、
Ｅω｜｜ｃｏｍｐ（ｘ；ω）－ｘ｜｜２≦（１－τ）｜｜ｘ｜｜２、
ｃｏｍｐ（ｘ＋ｙ；ω）＝ｃｏｍｐ（ｘ；ω）＋ｃｏｍｐ（ｙ；ω）、及び
ｃｏｍｐ（－ｘ；ω）＝－ｃｏｍｐ（ｘ；ω）
を満たす
付記項１ないし３のうちいずれか１項に記載の情報処理装置。
（付記項５）
付記項１ないし４のうちいずれか１項に記載の情報処理装置を複数台備える分散学習システム。
（付記項６）
複数のノードにおけるノード間での情報交換によりモデルの学習を行う分散学習システムにおいて、前記複数のノードの中のあるノードとして使用される情報処理装置が実行する学習方法であって、
圧縮演算子を用いて圧縮した双対変数である圧縮双対変数を隣接ノードから受信する受信ステップと、
前記圧縮双対変数を用いて、前記モデルのモデルパラメータを更新する更新ステップと
を備える学習方法。
（付記項７）
コンピュータを、付記項１ないし４のうちいずれか１項に記載の情報処理装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。

【0122】

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0123】

１００情報処理装置
１１０送信部
１２０受信部
１３０更新部
１４０記憶部
２００ネットワーク
１０００ドライブ装置
１００１記録媒体
１００２補助記憶装置
１００３メモリ装置
１００４ＣＰＵ
１００５インタフェース装置
１００６表示装置
１００７入力装置
１００８出力装置

【図1】