(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-06
(45)【発行日】2024-02-15
(54)【発明の名称】ニューロン-レベル塑性制御を通じて破局的忘却を克服するための方法およびこれを行うコンピューティングシステム
(51)【国際特許分類】
G06N 3/08 20230101AFI20240207BHJP
【FI】
G06N3/08
(21)【出願番号】P 2022542682
(86)(22)【出願日】2020-07-24
(86)【国際出願番号】 KR2020009823
(87)【国際公開番号】W WO2021153864
(87)【国際公開日】2021-08-05
【審査請求日】2022-08-26
(31)【優先権主張番号】10-2020-0009615
(32)【優先日】2020-01-28
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】519208133
【氏名又は名称】ディープ バイオ インク
(74)【代理人】
【識別番号】100120008
【氏名又は名称】山田 くみ子
(72)【発明者】
【氏名】ペク イニョン
(72)【発明者】
【氏名】オ サンジュン
(72)【発明者】
【氏名】カク テヨン
【審査官】渡辺 順哉
(56)【参考文献】
【文献】特表2019-525329(JP,A)
【文献】特表2018-513507(JP,A)
【文献】欧州特許出願公開第03477591(EP,A1)
【文献】PAIK, Inyoung ほか,Overcoming Catastrophic Forgetting by Neuron-level Plasticity Control,arXiv[online],2019年07月31日,[retrieved on 2023.07.18], Retrieved from the Internet: <URL:https://arxiv.org/pdf/1907.13322.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
第1のニューロン乃至第Nのニューロン(ここで、Nは2以上の整数)から構成される人工ニューラルネットワークモデルに対するニューロン-レベル塑性の制御方法であって、
コンピューティングシステムが、継続学習(continual learning)の対象となる複数の作業のそれぞれに見合うトレーニングデータセットを取得するステップと、
前記コンピューティングシステムが、前記複数の作業のそれぞれに対して、前記作業に見合う学習プロセスを行うステップと、
を含むが、
前記作業に見合う学習プロセスを行うステップは、
前記コンピューティングシステムが、
前記作業に見合うトレーニングデータセットに含まれている複数の個別データのそれぞれに対して(ここで、前記複数の個別データのそれぞれには、それに見合う正解ラベルが与えられる)、前記個別データに基づいて重み調節プロセスを行うステップと、
前記コンピューティングシステムが、前記人工ニューラルネットワークを構成する複数のレイヤーのそれぞれに対して、前記レイヤーに含まれている自由ニューロンのうち、重要度が最も大きな一部である重要ニューロンを選択するステップと、
前記人工ニューラルネットワーク内の自由ニューロンから前記重要ニューロンへと向かうすべての接続の重みを0に固定するステップと、
前記コンピューティングシステムが、前記作業に見合うトレーニングデータセットにて、前記重み調節プロセスを行うステップを2以上のエポック(epoch)に見合う分だけ繰り返し行うステップと、
前記重要ニューロンを入力ノードとするすべての接続の重みを固定するステップと、を含み、
前
記重み調節プロセスを行うステップは、
前記人工ニューラルネットワークモデルに前記個別データを入力して、前記個別データに見合う予測値を取得するステップと、
前記予測値および前記個別データに与えられた正解ラベルに基づいて、交差エントロピー(Cross Entropy)を算出するステップと、
前記人工ニューラルネットワークモデルに含まれているそれぞれのニューロンniに対して(ここで、iは1≦i≦Nの整数)、前記ニューロンniを入力ノードとするすべての接続の重みを調節するステップと、
を含み、
前記ニューロンniを入力ノードとするすべての接続の重みを調節するステップは、
正規化済みのテイラー基準の移動平均であるニューロンniの重要度Ciを算出するステップと、
下記の数1に基づいて、ニューロンniの学習率ηiを算出するステップと、
【数1】
(ここで、αおよびβは、予め定義された前記人工ニューラルネットワークモデルのハイパーパラメーターであり、ηmaxは、予め定義された学習率の上限であり、tは、前記トレーニングデータセット内における前記個別データの順番である。)
算出された前記学習率ηiを適用した勾配降下法(gradient descent)を通じて、前記ニューロンniを入力ノードとするすべての接続の重みを更新するステップと、
を含むニューロン-レベル塑性の制御方法。
【請求項2】
データ処理装置にインストールされ、請求項
1に記載の方法を行うために記録媒体に格納されたコンピュータープログラム。
【請求項3】
コンピューティングシステムであって、
プロセッサーと、
前記プロセッサーにより起動されるコンピュータープログラムを格納するメモリと、
を備え、
前記コンピュータープログラムは、前記プロセッサーにより起動される場合、前記コンピューティングシステムが、請求項
1に記載の方法を行うようにするコンピューティングシステム。
【発明の詳細な説明】
【技術分野】
【0001】
人工ニューラルネットワークにおいて破局的忘却(catastrophic forgetting)の問題を解決するために、ニューロン-レベル塑性制御(neuron-level plasticity control;NPC)と呼ばれる簡単かつ効果的であり、しかも、新規なソリューションが提案される。
【背景技術】
【0002】
深層ニューラルネットワークで人工一般知能を実現する過程において、破局的忘却(catastrophic forgetting)は、依然として最も根本的な挑戦の一つである。最も頻繁に用いられる学習アルゴリズムである勾配降下法(gradient descent)は、色々な作業に対するニューラルネットワークを順次に訓練させるために適用されるときに問題を引き起こしてしまう。勾配降下法(gradient descent)が現在の作業に対するニューラルネットワークを最適化させるとき、以前の作業に関する知識は、新たな知識により破局的に(catastrophically)上書きされてしまう。
【0003】
問題の最初の発見[McCloskey Cohen(1989) McCloskey and Cohen]以来、人工ニューラルネットワークにおいて破局的忘却を緩和させるための様々な接近法が提案された。このような接近方式の一つは、すべてのミニバッチに色々な作業のデータを含めることである。このような方法は、以前の作業の性能を保持する上で効果的であるかもしれないが、以前の作業に関するトレーニングデータを保持しなければならないというオーバーヘッドが生じる。以前のデータの限られた一部のみを用いるか[Gepperth Karaoguz(2016)Gepperth and Karaoguz, Lopez-Paz(2017)]、あるいは、以前のデータを用いずに[Li Hoiem(2018)Li and Hoiem, Shin et~al.(2017)Shin, Lee, Kim, and Kim, Kamra et~al.(2017)Kamra, Gupta, and Liu, Zacarias Alexandre(2018)Zacarias and Alexandre, Kim et~al.(2018)Kim, Kim, and Lee]類似の効果を成し遂げようとするいくつかの試みがあった。
【0004】
別の方法は、以前の知識が含まれているニューラルネットワークの一部を分離し、ネットワークの他の部分を用いて新たな作業を学ぶことである。ここには、ネットワークの他の部分を新たな作業に割り当てて新たな作業を学習できるニューラルネットワークのための動的アーキテクチャー設計が含まれる[Fernando et~al.(2017)Fernando, Banarse, Blundell, Zwols, Ha, Rusu, Pritzel, and Wierstra, Aljundi et~al.(2017)Aljundi, Chakravarty, and Tuytelaars, Lee et~al.(2017)Lee, Yun, Hwang, and Yang]。提案されたアルゴリズムは、ネットワークの他の部分を用いて色々な作業を学習するため、我々の作業は、このような接近と密接に関連している。ここで、部分の単位は、個別ニューロンである。
【0005】
弾性的重み統合(Elastic weight consolidation;EWC)[Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al.]は、この分野において成し遂げられた注目すべき発展である。Fisher情報マトリックスの対角線を用いて、EWCは、以前の作業に重要なニューラルネットワークの接続重み(接続重み付け)に相当する媒介変数を識別しかつ統合する。このような方式で、ネットワークは、以前に学んだ知識を保持しながら、より重要度の低い媒介変数を用いて新たな作業を学習することができる。EWCは、多大な関心を引き寄せたため、多くの研究において採択された[Lee et al. (2017) Lee, Kim, Jun, Ha, Zhang, Nguyen et al. (2017) Nguyen, Li, Bui, and Turner, Liu et al. (2018) Liu, Masana, Herranz, Van~ de Weijer, Lopez and Bagdanov, Zenke etal. (2017) Zenke, Poole, Ganguli]。EWC単独の性能は、かなりの改善の余地がある[Parisi et al. (2018) Parisi, Kemker, Part, Kanan, Wermter]。最近の研究においては、EWCを正規化の手段として、別の方法を結合して用いられた[Kim et~al.(2018)Kim, Kim, and Lee, Lee et~al.(2017)Lee, Yun, Hwang, and Yang]。
【先行技術文献】
【非特許文献】
【0006】
References
【文献】[Aljundi et~al.(2017)Aljundi, Chakravarty, and Tuytelaars] Aljundi, R., Chakravarty, P., and Tuytelaars, T. ExperTgate: Lifelong learning with a network of experts. pp. 3366-3375, 2017.
【文献】[De~Vries et~al.(2017)De~Vries, Strub, Mary, Larochelle, Pietquin, and Courville] De Vries, H., Strub, F., Mary, J., Larochelle, H., Pietquin, O., and Courville, A. C. Modulating early visual processing by language. pp. 6594-6604, 2017.
【文献】[Fernando et~al.(2017)Fernando, Banarse, Blundell, Zwols, Ha, Rusu, Pritzel, and Wierstra] Fernando, C., Banarse, D., Blundell, C., Zwols, Y., Ha, D., Rusu, A. A., Pritzel, A., and Wierstra, D. PathNet: Evolutionchannels gradient descent in super neural networks. arXiv preprint arXiv:1701.08734, 2017.
【文献】[Gepperth Karaoguz(2016)Gepperth and Karaoguz] Gepperth, A. and Karaoguz, C. A bio-inspired incremental learning architecture for applied perceptual problems. Cognitive Computation, 80 (5):0 924-934, 2016.
【文献】[He et~al.(2016)He, Zhang, Ren, and Sun] He, K., Zhang, X., Ren, S., and Sun, J. Deep residual learning for image recognition. pp. 770-778, 2016.
【文献】[Ioffe Szegedy(2015)Ioffe and Szegedy] Ioffe, S. and Szegedy, C. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015.
【文献】[Kamra et~al.(2017)Kamra, Gupta, and Liu] Kamra, N., Gupta, U., and Liu, Y. Deep generative dual memory network for continual learning. arXiv preprint arXiv:1710.10368, 2017.
【文献】[Kim et~al.(2018)Kim, Kim, and Lee] Kim, H.-E., Kim, S., and Lee, J. Keep and learn: Continual learning by constraining the latent space for knowledge preservation in neural networks. arXiv preprint arXiv:1805.10784, 2018.
【文献】[Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al.] Kirkpatrick, J., Pascanu, R., Rabinowitz, N., Veness, J., Desjardins, G., Rusu, A. A., Milan, K., Quan, J., Ramalho, T., Grabska-Barwinska, A., et al. Overcoming catastrophic forgetting in neural networks. Proceedings of the national academy of sciences, pp. 201611835, 2017.
【文献】[Krizhevsky Hinton(2009)Krizhevsky and Hinton] Krizhevsky, A. and Hinton, G. Learning multiple layers of features from tiny images. 2009.
【文献】[LeCun et~al.(1998)LeCun, Bottou, Bengio, and Haffner] LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 860 (11):0 2278-2324, 1998.
【文献】[Lee et~al.(2017)Lee, Yun, Hwang, and Yang] Lee, J., Yun, J., Hwang, S., and Yang, E. Lifelong learning with dynamically expandable networks. arXiv preprint arXiv:1708.01547, 2017 a .
【文献】[Lee et~al.(2017)Lee, Kim, Jun, Ha, and Zhang] Lee, S.-W., Kim, J.-H., Jun, J., Ha, J.-W., and Zhang, B.-T. Overcoming catastrophic forgetting by incremental moment matching. pp. 4652-4662, 2017 b .
【文献】[Liu et~al.(2018)Liu, Masana, Herranz, Van~de Weijer, Lopez, and Bagdanov] Liu, X., Masana, M., Herranz, L., Van de Weijer, J., Lopez, A. M., and Bagdanov, A. D. Rotate your networks: Better weight consolidation and less catastrophic forgetting. arXiv preprint arXiv:1802.02950, 2018.
【文献】[Li Hoiem(2018)Li and Hoiem] Li, Z. and Hoiem, D. Learning without forgetting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 400 (12):0 2935-2947, 2018.
【文献】[Lopez-Paz(2017)] Lopez-Paz, D. Gradient episodic memory for continual learning. Advances in Neural Information Processing Systems, pp. 6467-6476, 2017.
【文献】[Luo Wu(2017)Luo and Wu] Luo, J.-H. and Wu, J. An entropy-based pruning method for cnn compression. arXiv preprint arXiv:1706.05791, 2017.
【文献】[Luo et~al.(2017)Luo, Wu, and Lin] Luo, J.-H., Wu, J., and Lin, W. Thinet: A filter level pruning method for deep neural network compression. pp. 5068-5076, 2017.
【文献】[McCloskey Cohen(1989)McCloskey and Cohen] McCloskey, M. and Cohen, N. J. Catastrophic interference in connectionist networks: The sequential learning problem. 24:0 109-165, 1989.
【文献】[Mermillod et~al.(2013)Mermillod, Bugaiska, and Bonin] Mermillod, M., Bugaiska, A., and Bonin, P. The stability-plasticity dilemma: Investigating the continuum from catastrophic forgetting to age-limited learning effects. Frontiers in psychology, 4:0 504, 2013.
【文献】[Molchanov et~al.(2016)Molchanov, Tyree, Karras, Aila, and Kautz] Molchanov, P., Tyree, S., Karras, T., Aila, T., and Kautz, J. Pruning convolutional neural networks for resource efficient inference. arXiv preprint arXiv:1611.06440, 2016.
【文献】[Nguyen et~al.(2017)Nguyen, Li, Bui, and Turner] Nguyen, C. V., Li, Y., Bui, T. D., and Turner, R. E. Variational continual learning. arXiv preprint arXiv:1710.10628, 2017.
【文献】[Parisi et~al.(2018)Parisi, Kemker, Part, Kanan, and Wermter] Parisi, G. I., Kemker, R., Part, J. L., Kanan, C., and Wermter, S. Continual lifelong learning with neural networks: A review. arXiv preprint arXiv:1802.07569, 2018.
【文献】[Real et~al.(2018)Real, Aggarwal, Huang, and Le] Real, E., Aggarwal, A., Huang, Y., and Le, Q. V. Regularized evolution for image classifier architecture search. arXiv preprint arXiv:1802.01548, 2018.
【文献】[Salimans et~al.(2016)Salimans, Goodfellow, Zaremba, Cheung, Radford, and Chen] Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., and Chen, X. Improved techniques for training GANs. pp. 2234-2242, 2016.
【文献】[Shin et~al.(2017)Shin, Lee, Kim, and Kim] Shin, H., Lee, J. K., Kim, J., and Kim, J. Continual learning with deep generative replay. pp. 2990-2999, 2017.
【文献】[Simonyan Zisserman(2014)Simonyan and Zisserman] Simonyan, K. and Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
【文献】[Ulyanov et~al.(2016)Ulyanov, Vedaldi, and Lempitsky] Ulyanov, D., Vedaldi, A., and Lempitsky, V. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016.
【文献】[Wikipedia contributors(2018)] Wikipedia contributors. Error function― Wikipedia, the free encyclopedia, 2018. URL https://en.wikipedia.org/wiki/Error_function. [Online; accessed 23-Jan-2019].
【文献】[Yu et~al.(2018)Yu, Li, Chen, Lai, Morariu, Han, Gao, Lin, and Davis] Yu, R., Li, A., Chen, C.-F., Lai, J.-H., Morariu, V. I., Han, X., Gao, M., Lin, C.-Y., and Davis, L. S. NISP: Pruning networks using neuron importance score propagation. pp. 9194-9203, 2018.
【文献】[Zacarias Alexandre(2018)Zacarias and Alexandre] Zacarias, A. S. and Alexandre, L. A. Overcoming catastrophic forgetting in convolutional neural networks by selective network augmentation. arXiv preprint arXiv:1802.08250, 2018.
【文献】[Zenke et~al.(2017)Zenke, Poole, and Ganguli] Zenke, F., Poole, B., and Ganguli, S. Continual learning through synaptic intelligence. arXiv preprint arXiv:1703.04200, 2017.
【発明の概要】
【発明が解決しようとする課題】
【0007】
この研究において、我々は、EWCの限界を明らかにし、ニューロン-レベルの塑性制御(NPC)といった改善されたアルゴリズムを提案する。その名から明らかなように、NPCは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)において各ニューロンまたは各フィルターの塑性を制御して既存の知識を保持する。これは、個別的な接続重みを統合して作動するEWCとは対照的である。NPCの別の主な特徴は、重要な媒介変数を特定の値に近いように保持する代わりに、学習率(learning rate)を調整して重要なニューロンを安定化させることである。このような特性は、NPCの効率性を高めることの他にも、作業数とは無関係にメモリ効率性を高めることができる。すなわち、NPCは、作業ごとの媒介変数値の集まりの代わりに、一つのニューロン当たりに単一の重要度値さえ格納すれば済むことから、作業数とは無関係にメモリの使用量が一貫して保持されることが可能である。
【0008】
以前の研究においては、一般に、作業の切り換えの正確なタイミングが知られていると仮定していた。したがって、学習アルゴリズムは、作業が変更される度に色々なパラメーター(媒介変数)値セットといったコンテキストを明示的に保持し、コンテキストに切り換えることができた。これに対し、NPCは、情報を保持することなく、各ニューロンの重要性を評価し続け、重要度の移動平均に応じて学習率を簡単に調整してニューロンの塑性を制御する。したがって、NPCは、分類損失(classification loss)を計算する上で欠かせない現在の作業の識別子(ID)を除いて、学習スケジュールに関する情報を求めない。一方、予め定められた学習スケジュールがあれば、NPCをさらに向上させることができる。このために、スケジュールされたNPC(SNPC)と呼ばれるNPCの拡張を提案して、学習スケジュールに従って重要なニューロンをさらに明確に保存する。各作業に対して、SNPCは、重要なニューロンを識別し、他の作業を訓練する間にこれを統合する。実験結果は、NPCとSNPCが接続レベル統合接近方式よりも致命的な忘却を減らす上で実質的にさらに効果的であるということを示す。特に、iMNISTデータセットに対するSNPC評価において、破局的忘却の影響はほとんど消えていた。
【課題を解決するための手段】
【0009】
ニューロン-レベル塑性制御(neuron-level plasticity control;NPC)を通じた破局的忘却を克服するための方法が提供される。
【0010】
ニューロン-レベル塑性制御(neuron-level plasticity control;NPC)を通じた破局的忘却を克服するための方法を行うコンピューティングシステムが提供される。
【発明の効果】
【0011】
インクリメンタルMNIST(incremental MNIST;iMNIST)およびインクリメンタルCIFAR100(incremental CIFAR100)データセットに関する実験結果は、NPCおよびSNPCが接続レベル統合接近方式に比べて遥かに効果的であるということを示し、特に、SNPCは、二つのデータセットにおいて卓越した性能を示す。
【図面の簡単な説明】
【0012】
【
図1】接続-レベルとニューロン-レベル統合とを比較するための図である。
図1(a)は、Task 1に重要なニューロンおよび接続を示す。
図1(b)は、接続-レベル統合である。重要な接続が統合されているものの、ニューロンは、Task 2を学習する間に変更され得る他の入接続(入ってくる接続)により影響を受ける虞がある。
図1(c)は、ニューロン-レベル統合である。NPCは、重要ニューロンのすべての入接続を統合し、これは、ニューロンの知識を保存する上でより一層効果的である。
【
図2】重要度値C
iのヒストグラムの例を示す。
図2(a)は、均等化前の元の分布であり、
図2(b)は、均等化済みの分布である。
【
図3】iMNISTデータセットにおいて継続的な学習アルゴリズムの検証正確度を示す。
図3(a)は、各瞬間まで訓練された作業の平均検証正確性を示し、
図3(b)は、学習アルゴリズムに応じた5種類の作業の訓練曲線を示す。SNPCとNPCは、継続的な学習アルゴリズムの中で、それぞれ最高の性能を示す。
【
図4】iCIFAR100データセットにおいて継続的な学習アルゴリズムの有効性検証正確度を示す。
図4(a)は、各瞬間まで訓練された作業の平均検証正確性を示し、
図3(b)は、学習アルゴリズムに応じた5種類の課題の訓練曲線を示す。SNPCとNPCは、継続的な学習アルゴリズムの中で、それぞれ最高の性能を示す。訓練曲線間の差は、iMNISTよりもiCIFAR100の方においてより一層際立つ。
【
図5】互いに異なる設定下における5番目のiCIFAR100作業の訓練曲線を示す。
図5の線(a)は、T
1からT
4まで学習した後のSNPC学習T
5の訓練曲線であり、
図5の点線(b)は、ランダムに初期化されたパラメーターからニューロンの14.33%(=r
5)のみが変化するように許容された完全VGGネット(full VGG net)の部分訓練の訓練曲線であり、
図5の点線(c)は、ランダムに初期化されたパラメーターから始まって、オリジナルモデルの14.33%のみを備えるように縮小された部分VGGネットの訓練の訓練曲線である。
【
図6】本発明の一実施形態に係るコンピューティングシステムの概略構成を示すブロック図である。
【
図7】本発明の一実施形態に係るコンピューティングシステムが行うニューロン-レベル塑性の制御方法を示すフローチャートである。
【
図8】本発明の一実施形態に係るコンピューティングシステムが行うスケジュールされたニューロン-レベル塑性の制御方法を示すフローチャートである。
【発明を実施するための形態】
【0013】
I.理論的な背景となる研究
本発明の理解への一助となるために、以下では、まず、本発明の理論的な背景となる研究について紹介する。
【0014】
要約Abstract
人工ニューラルネットワークにおいて破局的忘却の問題(issue of catastrophic forgetting)を解決するために、ニューロン-レベル塑性制御(neuron-level plasticity control;NPC)と呼ばれる簡単かつ効果的であり、しかも、新規なソリューションが提案される。提案された方法は、新たなタスクを学習する間に接続レベルではなく、神経レベルにおいてネットワークの塑性を制御して既存の知識を保存する。ニューロン-レベル塑性制御は、各ニューロンが重要性を評価し、低い学習速度を適用して重要なニューロンを統合する。
【0015】
また、スケジュールされたNPC(scheduled NPC;SNPC)と呼ばれるNPCの拡張が提案される。この拡張は、学習スケジュール情報を用いて重要なニューロンをより明確に保護する。インクリメンタルMNIST(incremental MNIST;iMNIST)およびインクリメンタルCIFAR100(incremental CIFAR100)データセットに対する実験結果は、NPCおよびSNPCが接続レベル統合接近方式に比べて遥かに効果的であるということを示し、特に、SNPCは、二つのデータセットにおいて卓越した性能を示す。
【0016】
1.概要(Introduction)
深層ニューラルネットワークにて人工一般知能を実現する過程において、破局的忘却(catastrophic forgetting)は、依然として最も根本的な挑戦の一つである。最も頻繁に用いられる学習アルゴリズムである勾配降下法(gradient descent)は、色々な作業に対するニューラルネットワークを順次に訓練させるために適用されるときに問題を引き起こしてしまう。勾配降下法(gradient descent)が現在の作業に対するニューラルネットワークを最適化させるとき、以前の作業に関する知識は、新たな知識により破局的に(catastrophically)上書きされてしまう。
【0017】
問題の初期の発見[McCloskey Cohen(1989) McCloskey and Cohen]以来、人工ニューラルネットワークにおいて破局的忘却を緩和させるための様々な接近法が提案された。このような接近方式の一つは、すべてのミニバッチに色々な作業のデータを含めることである。このような方法は、以前の作業の性能を保持する上で効果的であるかもしれないが、以前の作業に関するトレーニングデータを保持しなければならないというオーバーヘッドが生じる。以前のデータの限られた一部のみを用いるか[Gepperth Karaoguz(2016)Gepperth and Karaoguz, Lopez-Paz(2017)]、あるいは、以前のデータを用いずに[Li Hoiem(2018)Li and Hoiem, Shin et~al.(2017)Shin, Lee, Kim, and Kim, Kamra et~al.(2017)Kamra, Gupta, and Liu, Zacarias Alexandre(2018)Zacarias and Alexandre, Kim et~al.(2018)Kim, Kim, and Lee]類似の効果を成し遂げようとするいくつかの試みがあった。
【0018】
別の方法は、以前の知識が含まれているニューラルネットワークの一部を分離し、ネットワークの他の部分を用いて新たな作業を学ぶことである。ここには、ネットワークの他の部分を新たな作業に割り当てて新たな作業を学習できるニューラルネットワークのための動的アーキテクチャー設計が含まれる[Fernando et~al.(2017)Fernando, Banarse, Blundell, Zwols, Ha, Rusu, Pritzel, and Wierstra, Aljundi et~al.(2017)Aljundi, Chakravarty, and Tuytelaars, Lee et~al.(2017)Lee, Yun, Hwang, and Yang]。提案されたアルゴリズムは、ネットワークの他の部分を用いて色々な作業を学習するため、我々の作業は、このような接近と密接に関連している。ここで、部分の単位は、個別ニューロンである。
【0019】
弾性的重み統合(Elastic weight consolidation;EWC)[Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al.]は、この分野において成し遂げられた注目すべき発展である。Fisher情報マトリックスの対角線を用いて、EWCは、以前の作業に重要なニューラルネットワークの接続重みに相当する媒介変数を識別しかつ統合する。このような方式で、ネットワークは、以前に学んだ知識を保持しながら、より重要度の低い媒介変数を用いて新たな作業を学習することができる。EWCは、多大な関心を引き寄せたため、多くの研究において採択された[Lee et al. (2017) Lee, Kim, Jun, Ha, Zhang, Nguyenet al. (2017) Nguyen, Li, Bui, and Turner, Liu et al. (2018) Liu, Masana, Herranz, Van~ de Weijer, Lopez and Bagdanov, Zenke et al. (2017) Zenke, Poole, Ganguli]。EWC単独の性能は、かなりの改善の余地がある[Parisi et al. (2018) Parisi, Kemker, Part, Kanan, Wermter]。最近の研究においては、EWCを正規化の手段として、別の方法を結合して用いられた[Kim et~al.(2018)Kim, Kim, and Lee, Lee et~al.(2017)Lee, Yun, Hwang, and Yang]。
【0020】
この研究において、我々は、EWCの限界を明らかにし、ニューロン-レベルの塑性制御(NPC)といった改善されたアルゴリズムを提案する。その名から明らかなように、NPCは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)において各ニューロンまたは各フィルターの塑性を制御して既存の知識を保持する。これは、個別的な接続重みを統合して作動するEWCとは対照的である。NPCの別の主な特徴は、重要な媒介変数を特定の値に近いように保持する代わりに、学習率(learning rate)を調整して重要なニューロンを安定化させることである。このような特性は、NPCの効率性を高めることの他にも、作業数とは無関係にメモリ効率性を高めることができる。すなわち、NPCは、作業ごとの媒介変数値の集まりの代わりに、一つのニューロン当たりに単一の重要度値さえ格納すれば済むことから、作業数とは無関係にメモリの使用量が一貫して保持されることが可能である。
【0021】
以前の研究においては、一般に、作業の切り換えの正確なタイミングが知られていると仮定していた。したがって、学習アルゴリズムは、作業が変更される度に色々なパラメーター(媒介変数)値セットといったコンテキストを明示的に保持し、コンテキストに切り換えることができた。これに対し、NPCは、情報を保持することなく、各ニューロンの重要性を評価し続け、重要度の移動平均に応じて学習率を簡単に調整してニューロンの塑性を制御する。したがって、NPCは、分類損失(classification loss)を計算する上で欠かせない現在の作業の識別子(ID)を除いて、学習スケジュールに関する情報を求めない。一方、予め定められた学習スケジュールがあれば、NPCをさらに向上させることができる。このために、スケジュールされたNPC(SNPC)と呼ばれるNPCの拡張を提案して、学習スケジュールに従って重要なニューロンをさらに明確に保存する。各作業に対して、SNPCは、重要なニューロンを識別し、他の作業を訓練する間にこれを統合する。実験結果は、NPCとSNPCが接続レベル統合接近方式よりも致命的な忘却を減らす上で実質的にさらに効果的であるということを示す。特に、iMNISTデータセットに対するSNPC評価において、破局的忘却の影響はほとんど消えていた。
【0022】
2.ニューロン-レベル対接続-レベル統合(Neuron-level Versus Connection-level Consolidation)
EWCとその後続研究[Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al., Lee et~al.(2017)Lee, Kim, Jun, Ha, and Zhang, Nguyen et~al.(2017)Nguyen, Li, Bui, and Turner, Liu et~al.(2018)Liu, Masana, Herranz, Van~de Weijer, Lopez, and Bagdanov, Zenke et~al.(2017)Zenke, Poole, and Ganguli]は、ニューラルネットワークの接続重みに知識が格納されるという考え方に重点を置くものの、このような接続間の相関関係は強調されない。EWCの損失関数は、下記の数1のように定義される。ここで、Tnは、n番目の作業を示す。
【0023】
【0024】
ニューラルネットワークの重みは、概ね独立的であり、ニューラルネットワークは、その重みにより線形的に近似可能であるという示唆的な仮定がある。しかしながら、深層ニューラルネットワークの構造は、本質的に階層的であり、媒介変数の間には強い相関関係がある。したがって、媒介変数値が他の値の重要性に影響を与える虞があるため、接続重みを独立的に考慮することは適切ではない。
【0025】
我々は、ニューロンまたはCNNフィルターが人工ニューラルネットワークの統合に関する知識の基本単位に対する個別接続よりもさらに適切であると主張する。既存の接続-レベルアルゴリズムは、ニューロンにより表わされる重要な知識の保存を保証しない。たとえ学習アルゴリズムが重要なニューロンに対する接続の一部を統合するとしても、ニューロンは自由な受信接続を保持した可能性があり、この接続の変更は、ニューロンにより伝達される知識に深刻な影響を与える虞がある。
【0026】
図1は、深層ニューラルネットワークの接続レベル統合の限界をより明確に示している。
図1において、接続重みθ
1とθ
2の値は0に近く、これは、学習アルゴリズムがそれらの重要度を最小限に評価するようにする。すなわち、θ
1とθ
2の値を個別的に変更した方が、Task 1の出力に重要な影響を及ぼさない。このような状況下で、最小限の重要性により、接続レベルアルゴリズムは、二つの接続パラメーターを統合しない。しかしながら、後続学習の最中に二つのパラメーターが両方とも高速にて増加すれば、Task 1に深刻な影響を及ぼす虞がある。これらが互いに密接に連関しているからである。この問題点は、同一のフィルターが異なる位置の色々な出力ノードの間に共有される畳み込みレイヤーにおいて特に深刻になる虞がある。したがって、たとえ接続レベル統合という考え方を完璧に実現できたとしても、破局的忘却を完全に除去することはできない。
【0027】
この問題を克服するために、
図1(c)に示すように、接続-レベルではなく、ニューロン-レベルにおいて塑性を制御することを提案する。提案されたアルゴリズムであるNPCは、個別的には重要に評価されない可能性がある接続を含んでいる重要なニューロンのすべての入接続を統合する。結果的に、NPCは、接続-レベル統合アルゴリズムよりもさらに効果的に、重要ではないニューロンの変更からさらに重要なニューロンを保護する。
【0028】
重要ではないニューロンYから重要なニューロンXへの接続は小さいことがある。そうではなければ、評価アルゴリズムがYを重要なニューロンと決定するからである。
図1の例において、NPCは、Xのすべての入接続を統合するため、結果的にθ
1の値が小さく保持されてθ
2の変更がXに深刻な影響を及ぼさない。これに対し、NPCは、たとえ個別的に重要であるとしても、目的地ニューロン(destination neuron)が重要ではない接続は統合しない。したがって、全体的に、統合された接続の総数は許容可能である。
【0029】
3.ニューロン-レベル塑性制御(Neuron-level Plasticity Control)
3.1 重要度評価(Importance Evaluation)
各ニューロンの重要性を評価するためにネットワークプルーニング分野において用いられるテイラー(Taylor)拡張に基づいて基準(criterion)を調整する[Molchanov et al. (2016) Molchanov, Tyree, Karras, Aila and Kautz]。ネットワーク定理において性能がさらに優秀であると主張する別の方法があるとはいえ[Yu eT~ al. (2018) Yu, Li, Chen, Lai, Morariu, Han, Gao, Lin, Davis, Luo Wu (2017) Luo and Wu Luo et al. (2017) Luo, Wu, Lin]、計算の効率性によりテイラー基準を選択した。テイラー基準(Taylor criterion)は、逆伝播(back-propagation)の間に計算されるニューロンに対する損失関数の勾配度(gradient)から計算される。したがって、これは、最小限の追加計算により訓練過程に容易に統合されることが可能である。
【0030】
この研究において、我々は、下記の数4で表わされた正規化済みのテイラー基準の移動平均にて時間tにi番目のニューロンniの重要度Ci
(t)を定義する。ここで、Nlayerは、レイヤーのノード数である。
【0031】
【0032】
【0033】
【0034】
もし、ノードが色々な位置(例えば、CNNの畳み込みフィルター)において共有されるのであれば、我々は、本来の論文[Molchanov et al. (2016) Molchanov, Tyree, Karras, Aila and Kautz]に従って、絶対値を考慮する前にすべての位置の重要度値を平均する。しかしながら、我々は、異なる数のニューロンから構成された層の間においてさらに厳しい釣り合いを保つために、L2-normの代わりに、数3のような平方平均(quadratic mean)を用いる。
【0035】
我々の初期の実験において、我々は、
図2(a)のように、分布が概ねガウシアンであることを見出した。我々は、相対的な重要性をさらに上手く区別するために、下記の数5を用いて分布を均一分布に均等化した。ここで、
は、相補誤差関数(complementary error function)[Wikipedia contributors (2018)]である。
図2(b)は、イークワラゼイション後の重要度の分布を示す。
【0036】
【0037】
3.2 塑性制御(Plasticity Control)
安定性-塑性ジレンマ(stability-plasticity dilemma)は、人工および生物学的な神経システムの両方ともにおいてよく知られている制約である[Mermillod et al. (2013) Mermillod, Bugaiska, Bonin]。破局的忘却(catastrophic forgetting)は、同一のトレード-オフの問題(すなわち、多重作業のためのニューラルネットワークの性能を最大化させる最適な個所を決定するために試みること)の結果であるとみなすことができる。我々は、各ニューロンniに対して異なる学習率(learning rate)ηiを適用して各ニューロンの塑性を制御する。もし、ηiが高ければ、ニューロンは、既存の知識を速やかに失う代わりに、新たな知識を積極的に学ぶことになる。これに対し、ηiが低ければ、既存の知識(knowledge)をさらに上手く保存することができる。しかしながら、そのニューロンは、新たな知識を学ぶことをはばかる筈である。
【0038】
ニューラルネットワークが良好な安定性-塑性の釣り合いを見出すことを励ますために、我々は、反対の役割を果たすηiの関数にて二つの損失を定義し、その後、我々は、それらを結合する。第一番目の関数は、既存の知識の忘れを最小化させるための安定性側面の損失である。それは、ηi=0から始まる単調増加関数であり、現在の知識の量により制限されなければならない。我々は、a1tCiを用いて現在の知識の上限をヒューリスティックに近似する(ここで、a1はスケーリング定数であり、t>=1は、現在のトレーニング段階である)。ここで、我々の実験においては、一定の速度(rate)にて新たな作業(task)を提供するため、知識の総量がトレーニング時間に正比例すると仮定する。ηiの単調増加関数を作るために、tanh(b1η)を上限(upper bound)と結合する。ここで、b1は、tanh関数の勾配(傾斜)を制御するための別の定数である。結果的に、安定性損失(stability-loss)は、a1tCitanh(b1ηi)と定義される。
【0039】
第二番目の関数は、新たな知識に対する嫌気(reluctance)を減らすための塑性側面の損失である。上限ηi=0から始まって0まで単調に減少するηiの減少関数である。この場合、上限は、既存の知識を考慮せず、したがって、Ciもしくはtとは関連性がない。したがって、塑性損失(plasticity-wise loss)は、a2(1-tanh(b2ηi))と定義される。ここで、a2とb2は、スケールと勾配を制御するための定数である。
【0040】
安定性と塑性との釣り合いを見出すために、下記の数6の結合損失関数を最小化させるηiを選択する。
【0041】
【0042】
df/dη
i=0にセットして、我々は、下記の数7を得る。ここで、
である。
【0043】
【0044】
関数cosh(b2η)/cosh(b1η)の性質は、b1>=b2 であるか、もしくは、b1<b2であるかに応じて大きく左右される。もし、b1>=b2であれば、最適なηiは、単純階段関数(simple step function)となる。したがって、我々は、b1<b2を制約条件として設定する。
【0045】
もし、tCi>βであれば、f(ηi)は、ηiに対して厳格に増加し、最適なηiは、最小値、すなわち、ηi=0である。tCi>=βである場合に対して、我々は、上記の数7を解くためにテイラー近似を適用する。cosh(b2η)/cosh(b1η)の閉じた形態の逆関数が存在しないからである。coshが偶関数(even function)であれば、下記の数9から明らかなように、偶数次数(even degree term)のみが残ることになる。
【0046】
【0047】
小さなη
iに対して
であると仮定すれば、数9の解き方は、下記の数10の通りである。このとき、
である。
【0048】
【0049】
上記の数10において、tCi=βであるとき、ηi=0であり、これは、二つの関数が連続して接続されるようにする。それぞれtCi>βであり、かつ、tCi<=βであるとき、二つのケースを結合すれば、数7のソリューションは、下記の数11のように与えられる。このとき、α,β>0は、ハイパーパラメーターである。
【0050】
【0051】
数11において、Ciが大きければ大きいほど、ηiが小さくなるため、その次の学習において重要なニューロンが統合(consolidating)される。しかしながら、もし、Ci=0であれば、ηiは発散(diverge)する。これは、塑性-安定性ジレンマの視点から説明することができる。もし、ニューロンが全く知識がなければ、既存の知識の損失を考慮せず、できる限り新たな知識を学ぶことが好ましい。しかしながら、たとえニューロンが失う知識がないとしても、学習速度が高くはないものの、学習効率を高める適切な学習率であるため、これは、実際に誤ったことである。したがって、大きな学習率により問題が生じないように学習率の上限を設定した。数7の最終解は、下記の数(12)である。
【0052】
【0053】
下記のAlgorithm 1は、NPCアルゴリズムを示す。NPCは、予め定められた学習スケジュールなしに起動されるように設計されたものの、現在のトレーニングサンプルが属している作業に関する知識が必要であるため、各作業の損失を計算することが避けられない。しかしながら、各作業に最適化された最新のパラメーターセットのような追加的な作業-特化(task-specific)情報が必要ではない。逆伝搬アルゴリズムにより計算される活性化および勾配度から簡単に計算されることを考慮すれば、NPCを実現するオーバーヘッドは最小となる。
【0054】
【0055】
3.3 インスタンス正規化(Instance Normalization)
バッチ正規化(Batch Normalization;BN)は、深層ニューラルネットワーク(deep neural network)訓練に重要な役割を果たす[Ioffe Szegedy (2015) Ioffe and Szegedy]。しかしながら、平均および分散が作業の切り換えに大きく影響を受けるため、継続的な学習環境においてはバニラ―バッチ正規化が正常に作動しない。この場合、条件付き一括処理正規化[De ~ Vries et al. (2017) De ~ Vries, Strub, Mary, Larochelle, Pietquin and Courville]および仮想一括正規化[Salimans et al. (2016) Salimans, Goodfellow, Zaremba, Cheung, Radford and Chen]などのいくつかの代案がある。しかしながら、これらの二種類の方法は、SNPCに適用することができるものの、作業-特化情報を保持・管理するため、NPCには向いていない。したがって、アフィン変換(affine transform)と移動平均が除去されるインスタンス正規化の単純化されたバージョン[Ulyanov et al. (2016) Ulyanov, Vedaldi and Lempitsky]を適用する。インスタンス正規化が各サンプルに独立的に適用できるということに鑑みると、トレーニング時間だけではなく、テスト時間にもモデルパラメーターを特別な操作なしに作動させる。
【0056】
4.スケジュールされたNPC(Scheduled NPC)
4.1 学習スケジュールを用いるNPC(NPC Using Learning Schedule)
NPCは、予め定められた学習スケジュールに依存しない。しかしながら、作業切り換えスケジュールが利用可能であるとき、性能を改善するためにその情報を積極的利用することが好ましい。学習スケジュールが実際に予め定められたわけではないものの、最近、継続的な学習に関する研究は、これと類似する状況において評価されたことがある。[Li Hoiem(2018)Li and Hoiem, Shin et~al.(2017)Shin, Lee, Kim, and Kim, Kamra et~al.(2017)Kamra, Gupta, and Liu, Gepperth Karaoguz(2016)Gepperth and Karaoguz, Lopez-Paz(2017), Fernando et~al.(2017)Fernando, Banarse, Blundell, Zwols, Ha, Rusu, Pritzel, and Wierstra, Lee et~al.(2017)Lee, Yun, Hwang, and Yang, Aljundi et~al.(2017)Aljundi, Chakravarty, and Tuytelaars, Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al., Lee et~al.(2017)Lee, Kim, Jun, Ha, and Zhang, Nguyen et~al.(2017)Nguyen, Li, Bui, and Turner, Liu et~al.(2018)Liu, Masana, Herranz, Van~de Weijer, Lopez, and Bagdanov, Zenke et~al.(2017)Zenke, Poole, and Ganguli, Zacarias Alexandre(2018)Zacarias and Alexandre, Kim et~al.(2018)Kim, Kim, and Lee]
【0057】
下記のAlgorithm 2は、作業切り換えスケジュールに関する知識をより積極的に活用するように設計されたNPCの拡張であるスケジュールされたニューロン-レベル塑性制御(Scheduled Neuron-level Plasticity Control;SNPC)アルゴリズムを提示する。
【0058】
【0059】
学習が始まると、特定の作業に割り当てられたニューロンがないため、すべてのニューロンは自由である(すなわち、いかなる作業であろうとも、学習することができる)。スケジュールが与えられれば、SNPCは、各作業に最も重要な自由ニューロンの部分集合を選択して当該作業に割り当てる。しかる後、他の作業を学びながら予測できない方式により修正され得る自由ニューロンの影響から選択済みのニューロンを保護する。これは、自由ニューロンから選択済みのニューロンへの接続重みを0に凍結することにより成し遂げられる。しかしながら、このような方式により自由ニューロンから選択済みのニューロンへの接続を除去すれば、潜在的な問題が生じることが懸念される。第一に、ニューラルネットワークの容量が減ることが懸念される。第二に、新たな知識が以前の作業に対するネットワーク性能を向上させる上で邪魔になることが懸念される。第一番目の問題は、すべての作業の総和に対してモデル容量が十分ではないときに性能に深刻な影響を及ぼすことが懸念されるものの、より大きなニューラルネットワークにおいては比較的に容易に緩和させることができる。第二番目の問題は、遠隔可能性があるものの、実際にこのような現象はほとんど予想することができない。以前の作業に関する知識がいかなる方式によろうとも保持されない限り、統合されていないニューロンの変更によりほとんど常に破局的忘却を引き起こす虞がある。
【0060】
4.2 作業ごとのニューロン割り当て(Per-task Neuron Allocation)
SNPCは、r
k×N
layerにより各作業に割り当てるべきニューロンの数を決定する(ここで、r
kは、T
kに割り当てられるニューロンの割合であり、
である)。SNPCは、すべての階層において同一の値を共有して作業間の釣り合いと単純性を向上させる。
【0061】
しかしながら、以前に統合されたニューロンからの接続の有用性が当該作業に直接的に割り当てられたニューロンに匹敵しないという点を考慮するとき、作業ごとにrkを均等に振り分け(r1=r2=...=rk)てはいけない。前者が後者よりもμ<1倍に見合う分だけ有用であるとすれば、作業Tkに使用可能な接続の総有用性は、下記の数13によるVkに比例することになる。ここで、第一番目の項は、Tkに割り当てられたニューロン間の接続の総有用性を示し、第二番目の項は、以前に統合されたニューロンからTkに対するニューロンへの接続の総有用性を示す。
【0062】
【0063】
したがって、公正な振り分けのためには、すべてのVkがすべての作業に対して同一ではなければならない。この制約条件は、一般に、閉じた形態のソリューションがない非線形関係を示すため、我々は、数値的に解を見出した。5つの作業を学習するとき(k=5)、μ=0.5であり、rkの値がそれぞれ0.2862、0.2235、0.1859、0.1610および0.1433である場合、ニューラルネットワークは、釣り合いのとれた結果を示す。最適な分布は、作業のしにくさもしくは作業間の類似性といった他の要因により影響を受ける可能性がある。しかしながら、この研究においては、このような作業-特化要素を考慮しない。
【0064】
5.実験(Experiments)
5.1 データセットおよび実現詳細(Datasets and Implementation Detail)
我々は、MNIST[LeCun et~al.(1998)LeCun, Bottou, Bengio, and Haffner]およびCIFAR100[Krizhevsky Hinton(2009)Krizhevsky and Hinton]データセットの増分バージョンを実験した。ここで、Lクラスを含むデータセットは、L/KクラスのKサブセットに分けられ、それぞれは、k番目の作業に分類される。MNISTおよびCIFAR100の場合、Kを5に設定した。事前処理のために、二つのデータセットの両方ともにパディングの大きさが4であるランダム切り抜き(random cropping)を適用し、増分CIFAR100(iCIFAR100)データセットに対する追加的な任意の水平反転(random horizontal flip)を適用した。また、一貫性を保つために、すべての実験において、一つのエポック(epoch)単位を総トレーニングデータ数が表示される周期と再定義した。例えば、元々MNISTデータセットに60,000個のトレーニングサンプルがあるため、12,000個のサンプルを5回処理することとiMNISTデータセットの一つのエポックを定義した。このようなエポックの新たな定義とともに、我々は、iMNISTの各作業に対する下位集合においては10エポックに見合う分だけモデルを学習し、iCIFAR100の各下位集合においては30エポックに見合う分だけモデルを学習した。我々は、実験において、iCIFAR100の最初の5個の部分集合を用いた。我々は、すべての作業にミニバッチサイズ256を用いた。
【0065】
我々は、VGG-16[Simonyan Zisserman(2014)Simonyanand Zisserman]ネットワークを僅かに修正して用いた。上述したように、すべてのバッチ正規化レイヤーをインスタンス正規化レイヤーに取り替えた。最終分類階層(final classification layer)の場合、各対象作業に対して完全接続階層(fully-connected layer)を配置した。各作業に対する交差エントロピー損失(cross-entropy loss)は、現在の作業に属する出力ノードにおいてのみ計算された。
【0066】
我々は、すべての実験において、α=0.1、ηmax=0.1に設定した。NPCの場合、βを200に設定した。しかしながら、SNPCにおいては、重要なノードの学習率を0に完全に落とす必要がなかったため、SNPCに対してはさらに大きな値である500を設定した。すべての実験において、ミニバッチサイズが256であるプレーンSGDオプティマイザー(plain SGD optimizer)を用いた。
【0067】
比較のために、EWC、L2正規化および基準線SGDという3種類の既存の学習アルゴリズムを実現した。EWCの場合、λ=1000に設定して実験環境において最高の性能を示すようにした。NPCアルゴリズムを用いなかった場合、学習率を0.01に設定した。
【0068】
5.2 実験結果(Experimental Results)
図3および
図4は、それぞれiMNISTとiCIFAR100において5種類の継続学習アルゴリズム(NPC、SNPC、EWC、L2正規化およびSGD)の性能を示す。
図3において、NPCおよびSNPCは、平均正確度(accuracy)の側面からみて、EWCおよびL2regよりも優れた性能を示す。それらの訓練曲線は、ネットワークがNPCまたはSNPCにより訓練されるときに、先行して学習した知識が後続して学習した知識によりはるかに影響を少なく受けたということを示す。特に、SNPCの場合、第一番目の作業の性能は、後続学習の影響をほとんど受けない。その結果は、SNPCがその影響が消える時点までiMNISTに対して破局的忘却を緩和させるということを示す。
【0069】
我々は、iMNISTデータセットに対する追加構成をテストした。媒介変数ごとの塑性制御(parameter-wise plasticity control;PPC)は、ニューロンレベルではなく、接続レベルにおいて塑性を制御する。NPCと同様に、我々は、テイラー基準を用いて重要性を評価した。我々は、β=300を用いたが、これは、PPCがiMNISTアルゴリズムの最後の作業を十分に学べるようにするβの最小値である。PPCの性能はNPCよりも悪かった。これは、ニューロンが、ニューラルネットワーク統合の単位として、接続よりもさらに適切であるということを確認してくれる。
【0070】
図4は、NPCおよびSNPCがiCIFAR100において他のアルゴリズムよりも高い平均正確度を提供し、iMNISTよりもさらに成し遂げ難いということを示す。しかしながら、NPCは、以前の作業よりも最後の作業の方の正確度が低い。他のアルゴリズムにおいても同じ問題が観察されたが、NPCにおいてはより一層深刻である。我々は、主な理由が、ニューラルネットワークの部分的な統合がモデルの学習能力(learning capacity)を費やすからであると仮定する。このような問題は、iMNISTにおいて明確に観察されなかった。その単純性のおかげで、VGGネットワークが残りのニューロンが提供する最小容量にて以降の作業をマスターすることができたからである。NPCとSNPCとのこのような違いは、NPCが既存の知識をより一層上手く保存するものの、モデルの学習能力をさらに早く費やすということを示す。すなわち、NPCは、一つの作業当たりに割り当てられたニューロン数に対する制限や正規化がないため、モデルは、一般に、以前の作業にほとんどのニューロンを用いる傾向にある。したがって、NPCは、以前の作業に関する知識を致命的な忘却から保護するためにニューロンのかなりの部分を統合し、その結果、
図4に示すように、最後の作業において性能が低下する。しかしながら、SNPCは、各作業に対してr
k×N
layer個のニューロンのみを統合し、以降の作業が特定の数のニューロンを活用することを保証するため、容量の枯渇の問題により困難さが低い。
【0071】
また、我々は、ニューラルネットワークが継続的な学習のための以前の作業よりも以降の作業の方をさらに速く学習するということを観察した。その理由は、ニューラルネットワークが以前の作業において学んだ知識を活用するため、以降の作業が伝達された知識から利益を得ることができるからである。これを明らかにするために、我々は、SNPCが最後の作業を学びながら以前の作業において予め訓練された知識を再使用するか否かをテストするための簡単な実験を行った。我々は、他の設定において、ニューロンの14.33%(r
5と同じ割合)のみを用いてiCIFAR100において3つのVGGネットワークインスタンスを訓練した。
図5において、線(a)は、4種類の先行作業後のSNPC訓練T
5の学習曲線を示す。点線(b)は、ランダムに初期化されかつ固定された他のニューロンに接続されたニューロンの14.33%のみを学習したことを示す。最後に、点線(c)は、ネットワークがランダムに初期化された媒介変数から始まってニューロンの14.33%のみを学習するときの学習曲線である。
図5は、SNPCが他の二つの設定よりもはるかに速く作業を学習するということを示す。これは、SNPCが以前の作業において得た知識を積極的に再使用するということを確認してくれる。
【0072】
6 結論(Conclusion)
この研究においては、ニューロンレベルにおいてニューラルネットワークの塑性を制御するNPCおよびSNPCという二つの継続的な学習アルゴリズムを提案した。NPCは、各作業に最適化された最新の媒介変数セットのような情報を保持しない。したがって、予め定義された学習スケジュールなしに実行することができない。これに対し、SNPCは、学習スケジュールが予め定義されており、重要なニューロンをより明示的に保護するために積極的に活用する。iMNISTおよびiCIFAR100データセットの実験結果によれば、NPCおよびSNPCは、接続間の関係を考慮しない既存の接続レベル統合アルゴリズムよりもはるかに効果的である。特に、iMNISTデータセットに対するSNPCの結果においては、破局的忘却がほとんど消えていた。
【0073】
NPCとSNPCは、継続的な学習において著しく改善されたものの、依然として課題が残っている。情報に対するNPCの従属性は最小であるものの、分類損失を計算するためには、作業を識別しなければならないという事実により依然として制限される。なお、NPCは、塑性を制御する単位と方法を定義するものの、各ニューロンの重要性を評価しかつ管理するための戦略は探索してみる余地がある。
【0074】
実験する間に、我々は、分類において最高の性能を示すわけではなく、持続的な学習環境において概念を認証するのにさらに集中した。例えば、[Real et~al.(2018)Real, Aggarwal, Huang, and Le]のような最新の分類モデルは、単一の作業環境においてVGGよりもはるかに高い容量を示す。単純性を好む別の選択は、インスタンス正規化であるが、これは、性能のための最善の選択ではない可能性がある。
【0075】
より多様性に富んだアーキテクチャーにNPCを適用するために、残留接続(residual connection)[He et~al.(2016)He, Zhang, Ren, and Sun]は、解決すべき邪魔物の一つである。色々なニューロン出力の合算を解析し、いかなるニューロンを保存すべきであるかを決定することは特に重要であり、重要ではないニューロンが追加されるときに、明らかではない問題である。
【0076】
iCIFAR100などの一般的なオンライン学習ベンチマークは、同じ作業を再び訪れないため、モデルが一節(passage)を単にブロックして破局的忘却を引き起こす虞がある。しかしながら、作業を2回以上訓練することができる状況においては、今後作業を学習する間に取得した知識を統合してモデルをさらに向上させることが好ましい。これは、NPCには問題にならないものの、SNPCにとっては以降の作業に対するニューロンが以前の作業に対するニューロンに依存して大きくなる虞があるという点を考慮すれば、問題になる可能性がある。十分に低い学習速度を用いることの他に、簡単な解決策の一つは、見直された作業をまるで新たな作業であるかのように取り扱うことである。しかしながら、これは、破局的忘却の影響を緩和させることができるものの、モデルの容量がはるかに大きくなければならないため、長期的な観点からみて、実際的な問題を引き起こす虞がある。
【0077】
重要度の評価に用いたテイラー基準とほぼ同様に、ネットワーク定理に関する研究は、ディープラーニング(深層学習)モデルが驚くべきことに小さな大きさにて複雑な知識を学べる方法を示す。しかしながら、明らかな介入がなければ、深層ニューラルネットワークは、実際に必要な容量よりもさらに多い容量を費やす傾向にある。SNPCは、作業ごとのニューロンの割り当てによりこの問題を避けるが、作業が累積されるときにモデル容量が枯渇されるため、NPCは、この問題から除外されない。モデルの大きさとは無関係に、最初のいくつかの作業がほとんどのモデルを占める傾向にあるということを観察した。我々は、モデルが一つの作業当たりに最小容量を用いるように強制する方法があるのであれば、NPCが大きな利益を得る筈であると考える。
【0078】
II.本発明において提案する方法およびシステム
上述した以上の研究によるニューロン-レベル塑性制御(NPC)またはスケジュールされたNPC(SNPC)を通じて破局的忘却を克服するための方法は、コンピューティングシステムにより行われることができる。
【0079】
上述のコンピューティングシステムとは、本発明の技術的な思想を実現するための演算能力をもったデータ処理装置のことをいい、一般に、ネットワークを介してクライアントが接続可能なサーバーなどのデータ処理装置だけではなく、パソコン、携帯端末のように特定のサービスが行えるいかなる装置もコンピューティングと定義可能であるということを本発明の技術分野における平均的な専門家は容易に推論できる筈である。
【0080】
一方、上述のコンピューティングシステムは、本発明の技術的な思想を実現するために必要なハードウェアリソース(resource)及び/又はソフトウェアを備えることができ、必ずしも一つの物理的な構成要素を意味したり、一台の装置を意味したりするとは限らない。すなわち、上述のコンピューティングシステムは、本発明の技術的な思想を実現するために備えられるハードウェア及び/又はソフトウェアの論理的な結合を意味することもあり、必要に応じては、互いに離れている装置に設けられてそれぞれの機能を行うことにより本発明の技術的な思想を実現するための論理的な構成の集合により実現されてもよい。なお、上述のコンピューティングシステムは、本発明の技術的な思想を実現するためのそれぞれの機能または役割ごとに別途に実現される構成の集合を意味することもある。 上述のコンピューティングシステムは、多数のモジュールの形態として実現されることが可能である。
【0081】
この明細書において、モジュールとは、本発明の技術的な思想を行うためのハードウェアおよびハードウェアを駆動するためのソフトウェアの機能的、構造的な結合を意味することがある。例えば、モジュールは、所定のコードと所定のコードが実行されるためのハードウェアリソースの論理的な単位を意味することがあり、必ずしも物理的に接続されたコードを意味したり、一種類のハードウェアを意味したりするとは限らないということは、本発明の技術分野における平均的な専門家にとっては容易に推論されることが可能である。
【0082】
図6は、本発明の一実施形態に係るコンピューティングシステムの構成を示す図である。
【0083】
図6を参照すると、コンピューティングシステム100は、入力モジュール110と、出力モジュール120と、格納モジュール130と、制御モジュール140と、を備えていてもよい。
【0084】
入力モジュール110は、本発明の技術的な思想を実現する上で必要とされる各種のデータをコンピューティング装置110の外部から入力されることができる。例えば、入力モジュール110は、トレーニングデータセット、各種のパラメーター及び/又はハイパーパラメーターを入力されることができる。
【0085】
出力モジュール120は、コンピューティングシステム100に格納されていたり、コンピューティングシステム100が生成したりしたデータを外部に出力することができる。
【0086】
格納モジュール130は、本発明の技術的な思想を実現する上で必要とされる各種の情報及び/又はデータを格納することができる。例えば、格納モジュール130は、ニューラルネットワークモデル(neural network model)、トレーニングデータ、各種のパラメーター及び/又はハイパーパラメーターを格納することができる。格納モジュール130は、ランダムアクセスメモリ(RAM:Ramdom Access Memory)などの揮発性メモリやハードディスクドライブ(HDD:Hard Disk Drive)やソリッドステートディスク(SSD:Solid State Disk)などの不揮発性メモリを備えていてもよい。
【0087】
制御モジュール140は、コンピューティングシステム100に備えられている他の構成要素(例えば、入力モジュール110、出力モジュール120及び/又は格納モジュール130)を制御することができる。制御モジュール140は、シングルコアCPUやマルチコアCPU、GPUなどのプロセッサーを備えていてもよい。
【0088】
また、制御モジュール140は、上述した研究によるニューロン-レベル塑性制御(NPC)またはスケジュールされたNPC(SNPC)を行うことができる。例えば、制御モジュール140は、格納モジュール130に格納されたニューラルネットワークモデルおよびトレーニングデータを上述したNPCアルゴリズムまたはSNPCアルゴリズムに適用することができる。
【0089】
図7は、制御モジュール140が行うニューロン-レベル塑性の制御方法を示すフローチャートである。
【0090】
図8は、制御モジュール140が行うスケジュールされたニューロン-レベル塑性の制御方法を示すフローチャートである。
【0091】
一方、実現例に応じて、コンピューティングシステム100は、少なくとも一つのプロセッサーおよびプロセッサーにより起動されるプログラムを格納するメモリを備えていてもよい。プロセッサーは、シングルコアCPUもしくはマルチコアCPUを備えていてもよい。メモリは、高速ランダムアクセスメモリを備えていてもよく、一台以上の磁気ディスク記憶装置、フラッシュメモリ装置、またはその他の不揮発性ソリッドステートメモリ装置などの不揮発性メモリを備えていてもよい。プロセッサーおよびその他の構成要素によるメモリへのアクセスは、メモリコントローラーにより制御されることが可能である。
【0092】
一方、本発明の実施形態に係る方法は、コンピューターにて読み取り可能なプログラム指令の形態として実現されてコンピューターにて読み取り可能なメモリもしくは記録媒体に格納されてもよい。コンピューターにて読み取り可能な記録媒体は、コンピューターシステムにより読み取られ得るデータが記憶されるあらゆる種類の記録装置を網羅する。
【0093】
記録媒体に書き込まれるプログラム指令は、本発明のために特別に設計されかつ構成されたものであってもよく、ソフトウェア分野における当業者に公知となって使用可能なものであってもよい。
【0094】
コンピューターにて読取り可能な記録媒体の例としては、ハードディスク、フロッピーディスクおよび磁気テープなどの磁気媒体(magnetic media)、CD-ROM、DVDなどの光記録媒体(optical media)、フロプティカルディスク(floptical disk)などの磁気-光媒体(magneto-optical media)および読み取り専用のメモリ(ROM)、ランダムアクセスメモリ(RAM)、フラッシュメモリなどのようにプログラム指令を記憶しかつ実行するように特別に構成されたハードウェア装置が挙げられる。なお、コンピューターにて読取り可能な記録媒体は、ネットワークにより結ばれたコンピューターに分散されて、分散方式によりコンピューターにて読取り可能なコードが記憶されかつ起動されてもよい。
【0095】
プログラム指令の例としては、コンパイラーにより作成されるもののような機械語コードだけではなく、インタープリターなどを用いて電子的に情報を処理する装置、例えば、コンピューターにより実行可能な高級言語コードが挙げられる。
【0096】
上述したハードウェア装置は、本発明の動作を行うために一つ以上のソフトウェアモジュールとして作動するように構成されてもよく、その逆もまた同様である。
【0097】
上述した本発明の説明は、単なる例示のためのものであり、本発明が属する技術分野における通常の知識を有する者は、本発明の技術的な思想や必須的な特徴を変更することなく、他の具体的な形態へと容易に変形できるということが理解できる筈である。よって、上述した実施形態は、あらゆる面において例示的なものに過ぎず、限定的なものではないものと理解すべきである。例えば、単一型であると説明されている各構成要素は、分散されて実施されてもよく、同様に、分散されていると説明されている構成要素も、組み合わせられた形態に実施されてもよい。
【0098】
本発明の範囲は、上記の詳細な説明よりは特許請求の範囲によって表わされ、特許請求の範囲の意味及び範囲、並びにその均等概念から導き出されるあらゆる変更または変形された形態もまた本発明の範囲に含まれるものと解釈されるべきである。
【産業上の利用可能性】
【0099】
本発明は、ニューロン-レベル塑性制御を通じて破局的忘却を克服するための方法およびこれを行うコンピューティングシステムに利用可能である。