特開2022-174422 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2022-174422情報処理プログラム、情報処理方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022174422

(43)【公開日】2022-11-24

(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置

(51)【国際特許分類】

G06N 3/08 20060101AFI20221116BHJP

【ＦＩ】

G06N3/08 140

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2021080210

(22)【出願日】2021-05-11

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】原靖

(57)【要約】

【課題】計算コストを削減すること。
【解決手段】情報処理装置は、機械学習モデルに対する学習を実行する場合に、機械学習モデルに含まれる複数の層のうち、入力側の一つの層を対象として学習の進捗状況を示す値を算出する。情報処理装置は、値が閾値に達した場合に、値が閾値に達した層に続く、複数の層を対象として学習の進捗状況を示す値を算出する処理を繰り返し実行する。
【選択図】図２

【特許請求の範囲】

【請求項1】

機械学習モデルに対する学習を実行する場合に、前記機械学習モデルに含まれる複数の層のうち、入力側の一つの層を対象として学習の進捗状況を示す値を算出し、
前記値が閾値に達した場合に、前記値が閾値に達した層に続く、複数の層を対象として学習の進捗状況を示す値を算出する処理を繰り返し実行する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。

【請求項2】

前記学習の進捗情報を示す値が閾値に達した層に対する前記値の算出を停止する処理を更にコンピュータに実行させることを特徴とする請求項１に記載の情報処理プログラム。

【請求項3】

前記停止する処理は、前記複数の層のうち、第１層および前記第１層よりも出力側の第２層の値が閾値に達した場合、または、前記第１層に対する値の算出を停止し、かつ、前記第２層の値が閾値に達した場合には、前記第２層に対する値の算出を停止することを特徴とする請求項２に記載の情報処理プログラム。

【請求項4】

前記停止する処理は、前記第２層の値が閾値に達し、かつ、前記第１層の値が閾値に達していない場合には、前記第１層の値が閾値に達するまで、前記第２層に対する値の算出を継続させることを特徴とする請求項３に記載の情報処理プログラム。

【請求項5】

前記学習の進捗状況を示す値としてノルムを算出することを特徴とする請求項１～４のいずれか一つに記載の情報処理プログラム。

【請求項6】

コンピュータが実行する情報処理方法であって、
機械学習モデルに対する学習を実行する場合に、前記機械学習モデルに含まれる複数の層のうち、入力側の一つの層を対象として学習の進捗状況を示す値を算出し、
前記値が閾値に達した場合に、前記値が閾値に達した層に続く、複数の層を対象として学習の進捗状況を示す値を算出する処理を繰り返し実行する
処理を実行することを特徴とする情報処理方法。

【請求項7】

機械学習モデルに対する学習を実行する場合に、前記機械学習モデルに含まれる複数の層のうち、入力側の一つの層を対象として学習の進捗状況を示す値を算出し、
前記値が閾値に達した場合に、前記値が閾値に達した層に続く、複数の層を対象として学習の進捗状況を示す値を算出する処理を繰り返し実行する
処理を実行する制御部を有する情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理プログラム等に関する。

【背景技術】

【0002】

機械学習モデルに対する様々な学習手法が研究されている。たとえば、機械学習モデルの学習（Training）がある程度進んだ層（layer）から重み情報の更新を停止させていくという技術がある。以下の説明では、この技術を「従来技術」と表記する。また、対象となる重み情報の更新を停止することを「スキップ」と表記する。

【0003】

図９及び図１０は、従来技術を説明するための図である。図９について説明する。従来の機械学習モデルでは、１６０層程度の層数となるが、図９では説明の便宜上、層１－０，１－１，１－２，１－３，１－４，１－５，１－６を用いて説明を行う。入力側の層を層１－０とし、出力側の層を層１－６とする。

【0004】

従来技術では、機械学習モデルに対する学習の開始時から学習がある程度進む前の段階において、全層１－０～１－６に対して「Forward Propagation」および「Backward Propagation」を実行し、全層１－０～１－６に対する重み情報を更新する。

【0005】

従来技術では、機械学習モデルに対する学習がある程度進んだ段階では、学習の進んだ層に対する重み情報の更新を入力側の層から順にスキップさせていく。出力側の層からスキップすると学習精度が目標精度に達成しないが、入力側の層からスキップすることで、学習精度を向上させることができる。図９に示す例では、層１－０，１－１，１－２に対する重み情報の更新を停止させている。

【0006】

Forward Propagation全体の処理量を「１」とすると、Backward Propagationの処理量は「２」となる。たとえば、Backward Propagationを一切しない状態では、処理速度は３倍となり、高速化の限界となる。

【0007】

図１０について説明する。機械学習モデルに対する学習はepochを単位として行われ、たとえば、１epochには、７７０Iterationが含まれる。機械学習モデルに対して、「Forward Propagation」および「Backward Propagation」を１回ずつ実行し、重み情報を更新する処理が、１Iterationに対応する。

【0008】

図１０のグラフＧ１，Ｇ２は、異なる段階のIterationにおける各層と重み差分との関係を示す。グラフＧ１は、初回のIterationを実行した場合の各層の重み差分を示す。グラフＧ２は、初回から数百回後のIterationを実行した場合の各層の重み差分を示す。Ｇ１，Ｇ２の縦軸は重み差分に対応する軸であり、横軸は層に対応する軸である。

【0009】

重み差分は、ｎ－１回目のIterationを実行した場合の重み情報と、ｎ回目のIterationを実行した場合の重み情報との差分を示す。重み差分が大きい層は、学習されていることを示す。重み差分が閾値未満となる層は、学習されていないことを示す。

【0010】

グラフＧ１に示す例では、全層（たとえば、０層から１５８層）において、重み差分が閾値Ｔｈ以上となっており、全層について学習されている。グラフＧ２に示す例では、入力側の各層Ｌｓ１－１の重み差分が閾値未満となっており、学習されていない。一方、出力側の各層Ｌｓ１－２の重み差分が閾値以上となっており、学習されている。

【0011】

従来技術では、入力側の各層Ｌｓ１－１の重み情報を更新する処理をスキップすることで、誤差勾配算出分の計算量と通信量を削減する。たとえば、グラフＧ２´に示すように、通常の１Iterationに要する処理量２－１が、処理量２－２となり、処理量２－３が削減される。すなわち、１epoch当たりの削減効果も、処理量２－３となる。なお、後述するように、機械学習モデルの各層の学習の進み具合を特定するためには、各層の重みのノルム（norm）計算を行うことになる。

【先行技術文献】

【特許文献】

【0012】

【特許文献1】米国特許出願公開第２０２０／０３８０３６５号明細書

【特許文献2】米国特許出願公開第２０２０／０２８５９９２号明細書

【発明の概要】

【発明が解決しようとする課題】

【0013】

しかしながら、上述した従来技術では、計算コストが大きいという問題がある。

【0014】

従来技術では、機械学習モデルの各層の学習の進み具合を特定するために、各層の重みのノルム計算を行うことになる。一方、機械学習モデルに対する学習の進み具合に限らず、全層の重み情報の更新を行う場合には、各層の重みのノルムの計算は不要となる。

【0015】

ここでは、機械学習モデルに対する学習の進み具合に限らず、常に、全層の重み情報の更新を行う技術を、従来技術（Gradient Skip技術）区別するために、「他の従来技術」と表記する。

【0016】

図１１は、従来技術の問題を説明するための図である。図１１の縦軸は、単位時間（sec）当たりの画像（samples）の処理量に対応する軸であり、横軸は、epochに対応する軸である。単位時間当たりの画像の処理量を、単に「処理量」と表記する。

【0017】

線５ａは、他の従来技術の処理量とepochとの関係を示す。線５ｂは、従来技術の処理量とepochとの関係を示す。図１１では、機械学習モデルの１５０層の中で、入力側の０層～３０層を、ある閾値でスキップする場合の例である。

【0018】

従来技術では、約０～４０epochの期間において、５０層のConvolutional層（以下、Conv層）で、１Iteration毎に各層１５０の重みのノルムを計算する。このため、図１１の（１）に示すように、従来技術は、他の従来技術よりも処理量が５００samples/secだけ、処理量が少なくなっている。

【0019】

続いて、従来技術では、約４０～５０epochの期間において、３０層（Conv層は１０層）のConv層の重み差分が徐々に閾値に達し、徐々にスキップされる層が増加し、ノルム計算がスキップされる。このように、ノルムの計算量が減ることで、図１１の（２）に示すように、従来技術では、徐々に処理量が増加する。

【0020】

続いて、従来技術では、５０epoch移行の期間において、３０層分のスキップが可能となり、計算量削減となるが、次のスキップのための残りのConv層４０層分のノルム計算が残っており、処理量は、９２００samples/sec程度となる。図１１の（３）に示すように、他の従来技術と比較して１００samples/sec程度の向上にとどまる。

【0021】

図１１で説明したように、従来技術では、層のスキップが可能かを判定するために、学習の進み具合を判定するノルム計算が発生し、総合的には、他の従来技術よりも計算コストが大きくなり、処理量が低下してしまう場合があり得る。

【0022】

１つの側面では、本発明は、計算コストを削減することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0023】

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、機械学習モデルに対する学習を実行する場合に、機械学習モデルに含まれる複数の層のうち、入力側の一つの層を対象として学習の進捗状況を示す値を算出する。コンピュータは、値が閾値に達した場合に、値が閾値に達した層に続く、複数の層を対象として学習の進捗状況を示す値を算出する処理を繰り返し実行する。

【発明の効果】

【0024】

計算コストを削減することができる。

【図面の簡単な説明】

【0025】

【図1】図１は、評価指標の傾向を示す図である。

【図2】図２は、本実施例に係る情報処理装置の処理を説明するための図である。

【図3】図３は、epochと各層の学習状況との関係を説明するための図である。

【図4】図４は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。

【図5】図５は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。

【図6】図６は、本実施例に係る情報処理装置の効果を示す図である。

【図7】図７は、情報処理装置のその他の処理を説明するための図である。

【図8】図８は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【図9】図９は、従来技術を説明するための図（１）である。

【図10】図１０は、従来技術を説明するための図（２）である。

【図11】図１１は、従来技術の問題を説明するための図である。

【発明を実施するための形態】

【0026】

以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

【実施例0027】

本実施例に係る情報処理装置は、重み差分を算出し、機械学習モデルの対象の層の学習が進んだか否かを特定する。以下の説明では、機械学習モデルに含まれる複数の層のうち、重み差分の算出対象となる層を、適宜、「対象の層」と表記する。

【0028】

重み差分は、式（１）によって定義される。式（１）の添え字「ｌ」は、Iterationの回数に対応する。たとえば、「Ｗ_ｌ＋１－Ｗ_ｌ」は、ｌ＋１回目のIterationの重みの情報と、ｌ回目のIterationの重みの情報との重み差分を示す。式（１）において、「ＬＲ」、「Ｄｅｃａｙ」、「ｍｏｍ」には、定数が予め設定される。

【0029】

【数1】

【0030】

式（１）のΔＷ_ｌは、対象の層において、前回のIterationの重みと、今回のIterationの重みとの差分をテンソルで示したものである。式（１）のＷ_ｌは、対象の層において、今回のIterationによって更新された重みをテンソルで示したものある。Ｖ_ｌ－１は、momentumを示すテンソルであり、たとえば、式（２）によって、Ｖ_ｌとＶ_ｌ－１との関係が定義される。

【0031】

【数2】

【0032】

情報処理装置は、式（１）の値を、閾値と比較可能なスカラー値に変換するため、ΔＷ_ｌのノルム（g_weight_norm）、Ｗ_ｌのノルム（weight_norm）、Ｖ_ｌのノルム（momentum_norm）をそれぞれ算出する。ΔＷ_ｌのノルム（g_weight_norm）は、式（３）によって算出される。Ｗ_ｌのノルムは、式（４）によって算出される。Ｖ_ｌのノルムは、式（５）によって算出される。

【0033】

【数3】

【数4】

【数5】

【0034】

図１は、評価指標の傾向を示す図である。図１のグラフＧ１０の縦軸は重み差分に対応する軸であり、横軸はepochに対応する軸である。図１０の線１０ａは、機械学習モデルの第６層（Ｌ６）を対象の層とした場合の、重み差分とepochとの関係を示す。線１０ｂは、第３６層（Ｌ３６）を対象の層とした場合の、重み差分とepochとの関係を示す。線１０ｃは、第７５層（Ｌ７５）を対象の層とした場合の、重み差分とepochとの関係を示す。線１０ｄは、第１３２層（Ｌ１３２）を対象の層とした場合の、重み差分とepochとの関係を示す。各層を機械学習モデルの入力側から出力側に並べると、Ｌ６，Ｌ３６，Ｌ７５，Ｌ１３２の順となる。

【0035】

各層には、閾値が設定され、重み差分が閾値に達した場合に、対象の層の重み差分の計算がスキップされる。たとえば、Ｌ６では、１０epochにおいて、重み差分が閾値Ｔｈ_６に達する。Ｌ３６では、２２epochにおいて、重み差分が閾値Ｔｈ_３６に達する。Ｌ７５では、３５epochにおいて、重み差分が閾値Ｔｈ_７５に達する。Ｌ１３２では、４６epochにおいて、重み差分が閾値Ｔｈ_７５に達する。すなわち、入力側の層から、重み差分が閾値に達する。

【0036】

続いて、本実施例に係る情報処理装置の処理の一例について説明する。本実施例に係る情報処理装置は、初期における対象の層を、１層のみとする。続いて、情報処理装置は、対象の層の重み差分が閾値に達した後に、重み差分が閾値に達した層に続く、複数の層を対象の層として、重み差分を算出する処理を繰り返し実行する。本実施例では、重み差分の値が閾値未満となったことを、重み差分が閾値に達したと表記する。

【0037】

図２は、本実施例に係る情報処理装置の処理を説明するための図である。図２では、機械学習モデルに含まれる複数の層のうち、第０層（Ｌ０）、第３層（Ｌ３）、第６層（Ｌ６）、第９層（Ｌ９）、第１２層（Ｌ１２）を用いて説明する。また、機械学習モデルに含まれる複数の層のうち、第１５層（Ｌ１５）、第１８層（Ｌ１８）、第２１層（Ｌ２１）、第２４層（Ｌ２４）、第２７層（Ｌ２７）を用いて説明する。たとえば、各層（Ｌ０，３，６，９，１２，１５，１８，２１，２４，２７）は、Conv層に対応する。図２の説明では、重み差分を算出することを「ノルム計算」と表記する。

【0038】

情報処理装置は、訓練データを機械学習モデルに入力し、Forward PropagationおよびBackward Propagationを実行して、機械学習モデルの訓練を開始する。情報処理装置は、図２に示すように、epoch毎に、対象の層のノルム計算を実行する。

【0039】

１epochにおけるノルム計算（初期のノルム計算）について説明する。情報処理装置は、Ｌ０を対象の層として、ノルム計算を開始する。

【0040】

２epoch～ｎ－１epochにおけるノルム計算について説明する。情報処理装置は、Ｌ０を対象の層として、ノルム計算を継続する。

【0041】

ｎepochにおけるノルム計算について説明する。ｎをある自然数とする。情報処理装置は、Ｌ０の重み差分が閾値に到達したことを特定すると、閾値に達した層よりも出力側の、３つの層「Ｌ３，Ｌ６，Ｌ９」に対して、ノルム計算を開始する。ｎepochの段階において、各層の学習は、ある程度進んでいる。

【0042】

図３は、epochと各層の学習状況との関係を説明するための図である。図３では、Ｌ０，Ｌ３，Ｌ６，Ｌ９の重さ差分を用いて説明する。なお、Ｌ３，Ｌ６，Ｌ９の重さ差分は、説明のために示すものであり、ｎ－１epoch以前において、Ｌ３，Ｌ６，Ｌ９に対するノルム計算は行われていないものとする。

【0043】

図３に示す例では、３７epochにおいて、Ｌ０の重み差分が閾値に達している。また、３７epochにおいて、Ｌ３，Ｌ６，Ｌ９の学習も進んでおり、図３の例では、Ｌ３，Ｌ６，Ｌ９の重み差分も、閾値に達している。このため、Ｌ０のノルム計算から、Ｌ３，Ｌ６，Ｌ９のノルム計算に移行した場合、Ｌ３，Ｌ６，Ｌ９の重み差分もすぐに閾値に達することになる。

【0044】

図２の説明に戻る。ｎ＋１epochにおけるノルム計算について説明する。情報処理装置は、Ｌ０のノルム計算をスキップする。情報処理装置は、Ｌ３，Ｌ６の重み差分が閾値に達したことを特定すると、閾値に達した層よりも出力側の層「Ｌ１２，Ｌ１５」に対して、ノルム計算を開始する。情報処理装置は、Ｌ９に対するノルム計算を継続する。

【0045】

ｎ＋２epochにおけるノルム計算について説明する。情報処理装置は、Ｌ０，Ｌ３，Ｌ６のノルム計算をスキップする。情報処理装置は、Ｌ９の重み差分が閾値に達したことを特定すると、閾値に達した層よりも出力側の層「Ｌ１８」に対して、ノルム計算を開始する。情報処理装置は、Ｌ１２，Ｌ１５に対するノルム計算を継続する。

【0046】

ｎ＋３epochにおけるノルム計算について説明する。情報処理装置は、Ｌ０，Ｌ３，Ｌ６，Ｌ９のノルム計算をスキップする。情報処理装置は、Ｌ１８の重み差分が閾値に達したことを特定すると、閾値に達した層よりも出力側の層「Ｌ２１」に対して、ノルム計算を開始する。

【0047】

ｎ＋４epochにおけるノルム計算について説明する。情報処理装置は、Ｌ０，Ｌ３，Ｌ６，Ｌ９のノルム計算をスキップする。情報処理装置は、重み差分が閾値に達したＬ１８よりも、入力側の層Ｌ１２，１５のノルム計算がスキップされていないため、Ｌ１８のノルム計算を停止することを待機させる。情報処理装置は、Ｌ１２，Ｌ１５の重み差分が閾値に達したことを特定すると、閾値に達した層よりも出力側の層「Ｌ２４，Ｌ２７」に対して、ノルム計算を開始する。情報処理装置は、Ｌ２１に対するノルム計算を継続する。

【0048】

ｎ＋５epochにおけるノルム計算について説明する。情報処理装置は、Ｌ０，Ｌ３，Ｌ６，Ｌ９，Ｌ１２，Ｌ１５，Ｌ１８のノルム計算をスキップする。情報処理装置は、Ｌ２１，Ｌ２４，Ｌ２７に対するノルム計算を継続する。ｎ＋６epochにおけるノルム計算の説明を省略する。

【0049】

上記のように、本実施例に係る情報処理装置は、機械学習モデルの訓練する場合に、ノルム計算を実行する対象の層を絞り込み、計算コストを削減することができる。

【0050】

次に、本実施例に係る情報処理装置の構成の一例について説明する。図４は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図４に示すように、この情報処理装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

【0051】

通信部１１０は、ネットワークを介して外部装置から各種のデータを受信する。通信部１１０は、通信装置の一例である。たとえば、通信部１１０は、後述する訓練データ１４１等を、外部装置から受信してもよい。

【0052】

入力部１２０は、情報処理装置１００の制御部１５０に各種の情報を入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

【0053】

表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。

【0054】

記憶部１４０は、訓練データ１４１、機械学習モデル１４２を有する。記憶部１４０は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

【0055】

訓練データ１４１は、機械学習モデル１４２の学習を実行する場合に使用されるデータである。たとえば、訓練データ１４１は、入力データと、正解データとの組を複数有する。

【0056】

機械学習モデル１４２は、複数の層を有するニューラルネットワーク（Neural Network）に対応するモデルデータである。

【0057】

制御部１５０は、ＦＰ処理部１５１と、ＢＰ処理部１５２と、選択部１５３とを有する。制御部１５０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジック等によって実現される。

【0058】

ＦＰ処理部１５１は、機械学習モデル１４２に対してForward Propagationを実行する。たとえば、ＦＰ処理部１５１は、機械学習モデル１４２の入力層に、訓練データ１４１の入力データを入力して、機械学習モデル１４２の出力値を算出する。ＦＰ処理部１５１は、出力値の情報を、ＢＰ処理部１５２に出力する。

【0059】

ＢＰ処理部１５２は、機械学習モデル１４２に対してBackward Propagationを実行する。たとえば、ＢＰ処理部１５２は、機械学習モデル１４２の出力層から出力される出力値と、訓練データ１４１の正解データとの誤差を算出し、誤差逆伝播によって、誤差が小さくなるように、機械学習モデル１４２の各層の重み情報を更新する。

【0060】

また、ＢＰ処理部１５２は、後述する選択部１５３から対象の層の通知を受け付けると、機械学習モデル１４２に含まれる全層のうち、対象の層について、ノルム計算を実行する。たとえば、ＢＰ処理部１５２は、上述した式（３）、式（４）、式（５）を基にして、ΔＷ_ｌのノルム、Ｗ_ｌのノルム、Ｖ_ｌのノルムのノルムを計算し、対象の層毎の計算結果を、選択部１５３に出力する。

【0061】

ＢＰ処理部１５２は、選択部１５３から、ノルム計算をスキップする層の選択を受け付けると、選択を受け付けた対象の層に関して、ノルム計算をスキップする。また、ＢＰ処理部１５２は、ノルム計算のスキップの対象となった層と、この層より入力側の層に対する誤差伝播を停止する。

【0062】

選択部１５３は、ＢＰ処理部１５２から出力されるノルム計算の結果を基にして、ノルム計算を実行する対象の層を選択し、選択した対象の層を、ＢＰ処理部１５２に通知する。選択部１５３は、初期における対象の層を、１層のみとする。たとえば、選択部１５３は、初期において、Ｌ０を対象の層として選択し、ＢＰ処理部１５２に出力する。

【0063】

選択部１５３は、対象の層のノルム計算の計算結果をＢＰ処理部１５２から取得すると、式（１）を基にして、対象の層の重み差分を算出し、閾値に達したか否かを特定する。選択部１５３は、対象の層の重み差分が閾値に達した場合には、重み差分が閾値に達した対象の層に対するノルム計算をスキップすることを、ＢＰ処理部１５２に通知する。

【0064】

選択部１５３は、初期に選択したＬ０の重み差分が閾値に達した場合には、図２で説明したように、Ｌ０よりも出力側の複数の層（Ｌ３，Ｌ６，Ｌ９）を対象の層として選択し、対象の層を、ＢＰ処理部１５２に出力する。選択部１５３は、初期における対象の層の重み差分が閾値に達した後は、対象の層が「Ｍ個（たとえば、３個）」となるように、対象の層を選択する。選択部１５３は、対象の層を選択する場合、重み差分が閾値に達していない層であって、より入力側に近い層を優先して選択する。

【0065】

ところで、選択部１５３は、図２のｎ＋３epochで説明したように、ノルム計算を行っている複数の層のうち、Ｌ１８の重み差分が閾値に達し、Ｌ１２，Ｌ１５の重み差分が閾値に達していない場合には、Ｌ１８をスキップすることを待機する。選択部１５３は、Ｌ１２，Ｌ１５の重み差分が閾値に達した後に、Ｌ１８をスキップすることを、ＢＰ処理部１５２に出力する。

【0066】

次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図５は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図５に示すように、情報処理装置１００のＦＰ処理部１５１、ＢＰ処理部１５２は、機械学習モデル１４２に対する訓練（Forward PropagationおよびBackward Propagation）を開始する（ステップＳ１０１）。

【0067】

情報処理装置１００の選択部１５３は、機械学習モデル１４２の入力側の１層を、対象の層として選択する（ステップＳ１０２）。ＢＰ処理部１５２は、対象の層のノルム計算を実行する（ステップＳ１０３）。

【0068】

選択部１５３は、ノルム計算の結果を基にして、重み差分が閾値に達したか否かを特定する（ステップＳ１０４）。選択部１５３は、閾値に達した対象の層が存在する場合には（ステップＳ１０５，Ｙｅｓ）、ステップＳ１０６に移行する。一方、選択部１５３は、閾値に達した対象の層が存在しない場合には（ステップＳ１０５，Ｎｏ）、ステップＳ１０８に移行する。

【0069】

ＢＰ処理部１５２は、重み差分が閾値に達した対象の層のノルム計算をスキップする（ステップＳ１０６）。選択部１５３は、ノルム計算を実行する層がＭ（たとえば、３層）層となるように、対象の層を選択する（ステップＳ１０７）。

【0070】

情報処理装置１００は、訓練を終了する場合には（ステップＳ１０８，Ｙｅｓ）、処理を終了する。一方、情報処理装置１００は、訓練を終了しない場合には（ステップＳ１０８，Ｎｏ）、次のepochの訓練に移行し（ステップＳ１０９）、ステップＳ１０３に移行する。

【0071】

次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、初期における対象の層を、１層のみとしてノルム計算を実行する。続いて、情報処理装置１００は、対象の層の重み差分が閾値に達した後に、重み差分が閾値に達した層に続く、複数の層を対象の層として、重み差分を算出する処理を繰り返し実行する。このように、情報処理装置１００は、ノルム計算を実行する対象の層を絞り込むことで、計算コストを削減することができる。

【0072】

情報処理装置１００は、重み差分が閾値に達した対象の層に対するノルム計算をスキップすることで、計算コストを更に削減することができる。

【0073】

情報処理装置１００は、複数の層のうち、第１層および第１層よりも出力側の第２層の値が閾値に達した場合、または、第１層に対する値の算出をスキップ（停止）し、かつ、第２層の値が閾値に達した場合には、第２層に対する値の算出をスキップする。また、情報処理装置１００は、第２層の値が閾値に達し、かつ、第１層の値が閾値に達していない場合には、第１層の値が閾値に達するまで、第２層に対する値の算出を継続（スキップを待機）させる。これによって、入力側の層から順に、スキップすることができ、機械学習モデル１４２の学習精度を向上させることができる。

【0074】

図６は、本実施例に係る情報処理装置の効果を示す図である。図６のグラフＧ２０の縦軸は、単位時間（sec）当たりの画像（samples）の処理量に対応する軸であり、横軸は、epochに対応する軸である。単位時間当たりの画像の処理量を、単に「処理量」と表記する。グラフＧ２０の線５ａは、他の従来技術の処理量とepochとの関係を示す。線５ｂは、従来技術の処理量とepochとの関係を示す。線５ｃは、本実施例に係る情報処理装置の処理量と、epochとの関係を示す。

【0075】

図６のグラフＧ３０の縦軸は、ノルム計算の対象となる層の数に対応する軸であり、横軸は、epochに対応する軸である。ノルム計算の対象となる層の数を、単に、「対象層数」と表記する。グラフＧ３０の線６ａは、他の従来技術の対象層数とepochとの関係を示す。線６ｂは、従来技術の対象層数とepochとの関係を示す。線６ｃは、本実施例に係る情報処理装置の対象層数と、epochとの関係を示す。

【0076】

０～５０epoch付近までについて検討する。従来技術（線６ｂ）と比較して、情報処理装置１００の対象層数（線６ｃ）が、１／５０になっている。これにより、情報処理装置１００の処理量（線５ｃ）が、他の従来技術の処理量（線５ａ）と同等となっている。

【0077】

５０epoch以降について検討する。情報処理装置１００では、順次各層の重み差分が閾値に達し、スキップが開始されるため、誤差勾配算出分の計算量、逆伝播の停止により、処理量（線５ｃ）が増加する。スキップした後も、ノルム計算の総数を３にしているため、３７階層分の処理により速度低下とならず、処理量が向上する。

【0078】

図６に示す例では、３０層でスキップを停止したが、後の層もスキップすることで、更に処理量が増加する。

【0079】

ところで、機械学習モデル１４２では、各層の要素数の塊が４段階（４種類）に分かれているため、各塊について、任意の層（各段階の最後の層Ｌ３６、Ｌ７５、Ｌ１３２）を選択して、ノルム計算を行ってもよい。

【0080】

図７は、情報処理装置のその他の処理を説明するための図である。図７に示す例では、機械学習モデル１４２が、複数のブロックに分割されている。各ブロックには、Batch Norm、ReLU、convolution等が含まれる。情報処理装置は、層ｌｂ１，ｌｂ２，ｌｂ３，ｌｂ４，ｌｂ５，ｌｂ６を、対象の層として選択している。情報処理装置１００は、Conv層の代わりに、Batch Norm等を対象の層として選択し、ノルム計算を実行してもよい。

【0081】

次に、上記実施例に示した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図８は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【0082】

図８に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、外部装置からデータを受信する通信装置２０４と、各種の装置と接続するインタフェース装置２０５とを有する。コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

【0083】

ハードディスク装置２０７は、ＦＰ処理プログラム２０７ａ、ＢＰ処理プログラム２０７ｂ、選択プログラム２０７ｃを有する。ＣＰＵ２０１は、ＦＰ処理プログラム２０７ａ、ＢＰ処理プログラム２０７ｂ、選択プログラム２０７ｃを読み出してＲＡＭ２０６に展開する。

【0084】

ＦＰ処理プログラム２０７ａは、ＦＰ処理プロセス２０６ａとして機能する。ＢＰ処理プログラム２０７ｂは、ＢＰ処理プロセス２０６ｂとして機能する。選択プログラム２０７ｃは、選択プロセス２０６ｃとして機能する。

【0085】

ＦＰ処理プロセス２０６ａの処理は、ＦＰ処理部１５１の処理に対応する。ＢＰ処理プロセス２０６ｂの処理は、ＢＰ処理部１５２の処理に対応する。選択プロセス２０６ｃの処理は、選択部１５３の処理に対応する。

【0086】

なお、各プログラム２０７ａ～２０７ｃについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくてもよい。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｃを読み出して実行するようにしてもよい。

【0087】

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

【0088】

（付記１）機械学習モデルに対する学習を実行する場合に、前記機械学習モデルに含まれる複数の層のうち、入力側の一つの層を対象として学習の進捗状況を示す値を算出し、
前記値が閾値に達した場合に、前記値が閾値に達した層に続く、複数の層を対象として学習の進捗状況を示す値を算出する処理を繰り返し実行する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。

【0089】

（付記２）前記学習の進捗情報を示す値が閾値に達した層に対する前記値の算出を停止する処理を更にコンピュータに実行させることを特徴とする付記１に記載の情報処理プログラム。

【0090】

（付記３）前記停止する処理は、前記複数の層のうち、第１層および前記第１層よりも出力側の第２層の値が閾値に達した場合、または、前記第１層に対する値の算出を停止し、かつ、前記第２層の値が閾値に達した場合には、前記第２層に対する値の算出を停止することを特徴とする付記２に記載の情報処理プログラム。

【0091】

（付記４）前記停止する処理は、前記第２層の値が閾値に達し、かつ、前記第１層の値が閾値に達していない場合には、前記第１層の値が閾値に達するまで、前記第２層に対する値の算出を継続させることを特徴とする付記３に記載の情報処理プログラム。

【0092】

（付記５）前記学習の進捗状況を示す値としてノルムを算出することを特徴とする付記１～４のいずれか一つに記載の情報処理プログラム。

【0093】

（付記６）コンピュータが実行する情報処理方法であって、
機械学習モデルに対する学習を実行する場合に、前記機械学習モデルに含まれる複数の層のうち、入力側の一つの層を対象として学習の進捗状況を示す値を算出し、
前記値が閾値に達した場合に、前記値が閾値に達した層に続く、複数の層を対象として学習の進捗状況を示す値を算出する処理を繰り返し実行する
処理を実行することを特徴とする情報処理方法。

【0094】

（付記７）前記学習の進捗情報を示す値が閾値に達した層に対する前記値の算出を停止する処理を更に実行することを特徴とする付記６に記載の情報処理方法。

【0095】

（付記８）前記停止する処理は、前記複数の層のうち、第１層および前記第１層よりも出力側の第２層の値が閾値に達した場合、または、前記第１層に対する値の算出を停止し、かつ、前記第２層の値が閾値に達した場合には、前記第２層に対する値の算出を停止することを特徴とする付記７に記載の情報処理方法。

【0096】

（付記９）前記停止する処理は、前記第２層の値が閾値に達し、かつ、前記第１層の値が閾値に達していない場合には、前記第１層の値が閾値に達するまで、前記第２層に対する値の算出を継続させることを特徴とする付記８に記載の情報処理方法。

【0097】

（付記１０）前記学習の進捗状況を示す値としてノルムを算出することを特徴とする付記６～９のいずれか一つに記載の情報処理方法。

【0098】

（付記１１）機械学習モデルに対する学習を実行する場合に、前記機械学習モデルに含まれる複数の層のうち、入力側の一つの層を対象として学習の進捗状況を示す値を算出し、
前記値が閾値に達した場合に、前記値が閾値に達した層に続く、複数の層を対象として学習の進捗状況を示す値を算出する処理を繰り返し実行する
処理を実行する制御部を有する情報処理装置。

【0099】

（付記１２）前記制御部は、前記学習の進捗情報を示す値が閾値に達した層に対する前記値の算出を停止する処理を更に実行することを特徴とする付記１１に記載の情報処理装置。

【0100】

（付記１３）前記制御部は、前記複数の層のうち、第１層および前記第１層よりも出力側の第２層の値が閾値に達した場合、または、前記第１層に対する値の算出を停止し、かつ、前記第２層の値が閾値に達した場合には、前記第２層に対する値の算出を停止することを特徴とする付記１２に記載の情報処理装置。

【0101】

（付記１４）前記制御部は、前記第２層の値が閾値に達し、かつ、前記第１層の値が閾値に達していない場合には、前記第１層の値が閾値に達するまで、前記第２層に対する値の算出を継続させることを特徴とする付記１３に記載の情報処理装置。

【0102】

（付記１５）前記制御部は、前記学習の進捗状況を示す値としてノルムを算出することを特徴とする付記１１～１４のいずれか一つに記載の情報処理装置。

【符号の説明】

【0103】

１００情報処理装置
１１０通信部
１２０入力部
１３０表示部
１４０記憶部
１４１訓練データ
１４２機械学習モデル
１５０制御部
１５１ＦＰ処理部
１５２ＢＰ処理部
１５３選択部

【図1】