特許7555429 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特許7555429学習率がニアゼロである場合の勾配降下法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-12

(45)【発行日】2024-09-24

(54)【発明の名称】学習率がニアゼロである場合の勾配降下法

(51)【国際特許分類】

G06N 3/084 20230101AFI20240913BHJP

【ＦＩ】

G06N3/084

【請求項の数】 27

(21)【出願番号】P 2022571300

(86)(22)【出願日】2021-09-13

(65)【公表番号】

(43)【公表日】2023-09-28

(86)【国際出願番号】 US2021049995

(87)【国際公開番号】W WO2022056348

(87)【国際公開日】2022-03-17

【審査請求日】2023-04-06

(31)【優先権主張番号】63/077,868

(32)【優先日】2020-09-14

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/069,227

(32)【優先日】2020-10-13

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】ウィルコック，ジェレマイア

【審査官】多賀実

(56)【参考文献】

【文献】Lili Jiang，"A Visual Explanation of Gradient Descent Methods (Momentum, AdaGrad, RMSProp, Adam)"，Towards Data Science [online]，2020年06月07日，[2024年4月10日検索], インターネット:<URL: https://towardsdatascience.com/a-visual-explanation-of-gradient-descent-methods-momentum-adagrad-rmsprop-adam-f898b102325c>

【文献】McMahan, H. Brendan et al.，"Ad click prediction: a view from the trenches"，Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining [online]，Association for Computing Machinery，2013年08月11日，pp.1222-1230，[2024年4月10日検索], インターネット:<URL: https: https://dl.acm.org/doi/abs/10.1145/2487575.2488200>，DOI:10.1145/2487575.2488200

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｆ１７／１０－１７／１８

(57)【特許請求の範囲】

【請求項1】

勾配降下アルゴリズムに従ってパラメータを反復的に更新するための方法であって、
ｎ回目のイテレーションでは、
１つ以上のプロセッサが、第１次元の前記パラメータの勾配ベクトルの勾配値を決定するステップと、
前記１つ以上のプロセッサが、積の値を、（１）ｎ－１回目のイテレーションで決定される前記積の値と、（２）決定した前記勾配値と前記勾配降下アルゴリズムの学習率との積、の和に少なくとも一部に基づいて決定するステップと、
前記１つ以上のプロセッサが、前記積の値を含む関数に従って更新パラメータ値を決定するステップと、
前記１つ以上のプロセッサが、前記パラメータを前記更新パラメータ値に等しくなるように更新するステップとを含み、
前記積の値は、（１）累積線形勾配値と前記学習率との積および（２）前記ｎ－１回目のイテレーションで決定される前記パラメータ値に少なくとも一部に基づく、方法。

【請求項2】

前記積の値は、（１）前記累積線形勾配値と前記学習率との前記積と（２）スケーリング値に従ってスケーリングされた前記ｎ－１回目のイテレーションで決定される前記パラメータ値との差に等しい、請求項１に記載の方法。

【請求項3】

前記１つ以上のプロセッサが、前記勾配値の二乗および前記ｎ－１回目のイテレーションの累積二乗勾配値に基づいて、累積二乗勾配値を決定するステップをさらに含み、前記スケーリング値は、前記累積二乗勾配値および前記ｎ－１回目のイテレーションの前記累積二乗勾配値の各々に基づく、請求項２に記載の方法。

【請求項4】

【数4】

ここで、ｎｉは、前記累積二乗勾配値であり、ｎｉ－１は、前記ｎ－１回目のイテレーションの前記累積二乗勾配値であり、ｌｒ＿ｐｏｗｅｒは、所定のパラメータである、請求項３に記載の方法。

【請求項5】

前記積の値を含む前記関数は、前記パラメータ値を、
前記積の値の絶対値と前記学習率との割合が所定の固定値よりも大きい場合、ゼロに等しくなるように決定し、
前記積の値の前記絶対値と前記学習率との前記割合が前記所定の固定値以下である場合、非ゼロ値に等しくなるように決定する、請求項４に記載の方法。

【請求項6】

パラメータ関数に従って前記非ゼロ値を決定するステップをさらに含み、前記パラメータ関数の分母は、前記累積二乗勾配値、第１の所定の固定値、および第２の所定の固定値の各々を含み、前記累積二乗勾配値、前記第１の所定の固定値、および前記第２の所定の固定値の各々がゼロであった場合のみ、前記パラメータ関数は、ゼロ除算エラーを返す、請求項５に記載の方法。

【請求項7】

【数5】

ここで、λ２およびβは、前記第１の所定の固定値および前記第２の所定の固定値であり、λ１は、第３の所定の固定値であり、ηは、前記学習率であり、ｐｉは、前記積の値であり、ｎｉは、前記累積二乗勾配値である、請求項６に記載の方法。

【請求項8】

前記学習率は、ゼロから始まって時間の経過とともに大きくなるように予め定義される、請求項１～７のいずれか１項に記載の方法。

【請求項9】

前記学習率は、ゼロに近い値から始まって時間の経過とともに大きくなるように予め定義される、請求項１～７のいずれか１項に記載の方法。

【請求項10】

前記パラメータの前記勾配ベクトルは、複数の次元を含み、前記方法は、前記勾配ベクトルの各次元ごとに独立して実行される、請求項１～９のいずれか１項に記載の方法。

【請求項11】

前記パラメータは、ニューラルネットワークのパラメータである、請求項１～１０のいずれか１項に記載の方法。

【請求項12】

前記勾配降下アルゴリズムは、確率的勾配降下アルゴリズム、ＦＴＲＬ（Ｆｏｌｌｏｗ
ｔｈｅＲｅｇｕｌａｒｉｚｅｄＬｅａｄｅｒ）学習アルゴリズム、Ａｄａｇｒａｄ、Ａｄａｍ、またはＲＭＳＰｒｏｐのうち、いずれかである、請求項１～１１のいずれか１項に記載の方法。

【請求項13】

前記学習率は、時間の経過とともに変化するように予め定義されており、前記方法を実行するために割り当てられる前記１つ以上のプロセッサに含まれるコアの数は、前記学習率が時間の経過とともに変化しても一定のままである、請求項１～１２のいずれか１項に記載の方法。

【請求項14】

システムであって、
命令を格納するためのメモリと、
前記メモリに連結された１つ以上のプロセッサとを備え、前記１つ以上のプロセッサは、格納された前記命令を実行して、勾配降下アルゴリズムに従ってパラメータを反復的に更新するように構成され、前記勾配降下アルゴリズムのｎ回目のイテレーションでは、前記１つ以上のプロセッサは、
第１次元の前記パラメータの勾配ベクトルの勾配値を決定し、
積の値を、（１）ｎ－１回目のイテレーションで決定される前記積の値と、（２）決定した前記勾配値と前記勾配降下アルゴリズムの学習率との積、の和に少なくとも一部に基づいて決定し、
前記積の値を含む関数に従って更新パラメータ値を決定し、
前記パラメータを前記更新パラメータ値に等しくなるように更新するように構成され、前記積の値は、（１）累積線形勾配値と前記学習率との積および（２）前記ｎ－１回目のイテレーションで決定される前記パラメータ値に少なくとも一部に基づく、システム。

【請求項15】

前記積の値は、（１）前記累積線形勾配値と前記学習率との前記積と（２）スケーリング値に従ってスケーリングされた前記ｎ－１回目のイテレーションで決定される前記パラメータ値との差に等しい、請求項１４に記載のシステム。

【請求項16】

前記１つ以上のプロセッサは、前記勾配値の二乗および前記ｎ－１回目のイテレーションの累積二乗勾配値に基づいて、累積二乗勾配値を決定するように構成され、前記スケーリング値は、前記累積二乗勾配値および前記ｎ－１回目のイテレーションの前記累積二乗勾配値の各々に基づく、請求項１５に記載のシステム。

【請求項17】

【数6】

ここで、ｎｉは、前記累積二乗勾配値であり、ｎｉ－１は、前記ｎ－１回目のイテレーションの前記累積二乗勾配値であり、ｌｒ＿ｐｏｗｅｒは、所定のパラメータである、請求項１６に記載のシステム。

【請求項18】

前記積の値を含む前記関数は、前記パラメータ値を、
前記積の値の絶対値と前記学習率との割合が所定の固定値よりも大きい場合、ゼロに等しくなるように決定し、
前記積の値の前記絶対値と前記学習率との前記割合が前記所定の固定値以下である場合、非ゼロ値に等しくなるように決定する、請求項１７に記載のシステム。

【請求項19】

前記１つ以上のプロセッサは、パラメータ関数に従って前記非ゼロ値を決定するように構成され、前記パラメータ関数の分母は、前記累積二乗勾配値、第１の所定の固定値、および第２の所定の固定値の各々を含み、前記累積二乗勾配値、前記第１の所定の固定値、および前記第２の所定の固定値の各々がゼロであった場合のみ、前記パラメータ関数は、ゼロ除算エラーを返す、請求項１８に記載のシステム。

【請求項20】

【数7】

ここで、λ２およびβは、前記第１の所定の固定値および前記第２の所定の固定値であり、λ１は、第３の所定の固定値であり、ηは、前記学習率であり、ｐｉは、前記積の値であり、ｎｉは、前記累積二乗勾配値である、請求項１９に記載のシステム。

【請求項21】

前記学習率は、ゼロから始まって時間の経過とともに大きくなるように予め定義される、請求項１４～２０のいずれか１項に記載のシステム。

【請求項22】

前記学習率は、ゼロに近い値から始まって時間の経過とともに大きくなるように予め定義される、請求項１４～２０のいずれか１項に記載のシステム。

【請求項23】

前記パラメータの前記勾配ベクトルは、複数の次元を含み、前記１つ以上のプロセッサは、前記勾配ベクトルの各次元のパラメータを互いに独立して更新するように構成される、請求項１４～２２のいずれか１項に記載のシステム。

【請求項24】

前記パラメータは、ニューラルネットワークのパラメータである、請求項１４～２３のいずれか１項に記載のシステム。

【請求項25】

前記勾配降下アルゴリズムは、確率的勾配降下アルゴリズム、ＦＴＲＬ（Ｆｏｌｌｏｗ
ｔｈｅＲｅｇｕｌａｒｉｚｅｄＬｅａｄｅｒ）学習アルゴリズム、Ａｄａｇｒａｄ、Ａｄａｍ、またはＲＭＳＰｒｏｐのうち、いずれかである、請求項１４～２４のいずれか１項に記載のシステム。

【請求項26】

前記１つ以上のプロセッサは、前記勾配降下アルゴリズムに従って前記パラメータを反復的に更新するために割り当てられる一定数のコアを含む、請求項１４～２５のいずれか１項に記載のシステム。

【請求項27】

コンピュータに請求項１～１３のいずれか１項に記載された方法を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本願は、２０２０年９月１４日に出願された米国仮出願第６３／０７７，８６８号の出願日の利益を主張する２０２０年１０月１３日に出願された米国特許出願第１７／０６９，２２７号の継続出願であり、その開示内容を引用により本明細書に援用する。

【背景技術】

【0002】

背景
機械学習アルゴリズムのパラメータを更新するために勾配降下アルゴリズムが用いられる。これにより、いくつかのイテレーションの間にパラメータは改善し、機械学習アルゴリズムの正解率を改善させる値まで収束する。各イテレーションでは、パラメータは、パラメータの不正解の程度を示すコスト関数に応じた特定量だけ、調整され得る。この調整は、学習率に従ってさらにスケーリングされ得る。これにより、小さい学習率では調整が少しであり、高い学習率では、調整が大きくなる。

【発明の概要】

【発明が解決しようとする課題】

【0003】

通常、最適解へのパスが見つかる前にパラメータを最初に大きく調整してしまうのを回避するために、学習率は、小さい値、それどころかゼロ値から始まる。しかしながら、いくつかの勾配降下アルゴリズムは、小さい値または０の学習率をアルゴリズムに入力することによってゼロ除算エラーなどのエラーが生じるので、このような値をサポートできない。学習率の値が非常に小さいと、０になり得る１つの理由、および／または、その後、分母として用いられた場合や分母の計算に用いられた場合にゼロ除算エラーを生じさせる１つの理由に、浮遊小数点の値の形で示される有理数の機械表現およびコンピュータ演算があり、浮動小数点演算は正解さに欠け、非常に小さい値は０にされてしまうためである。同様に、０に近い有理数が浮遊小数点の値で表現されて除算または乗算において用いられた場合、計算の答えは、浮動小数点表現で示される０となり得る。

【課題を解決するための手段】

【0004】

概要
この技術は、概して、学習率の値がゼロおよびニアゼロであることをサポートする勾配降下アルゴリズムに従って機械学習アルゴリズムにおけるパラメータを反復的に更新するための方法およびシステムに関する。勾配降下アルゴリズムは、少なくとも一部が累積線形勾配値と学習率との積である積の値を使用して、パラメータを反復的に更新する。累積線形勾配値を使用するではなく、積の値を使用することにより、更新パラメータを決定するための関数の分母に学習率が現れることを回避することができ、これにより、学習率の値がゼロおよびニアゼロである場合にゼロ除算エラーまたは同様のエラーを回避することができるようになる。

【0005】

本開示の一態様は、勾配降下アルゴリズムに従ってパラメータを反復的に更新するための方法を対象とする。この方法は、勾配降下アルゴリズムのｎ回目のイテレーションでは、１つ以上のプロセッサが、第１次元のパラメータの勾配ベクトルの勾配値を決定するステップと、１つ以上のプロセッサが、積の値を、（１）ｎ－１回目のイテレーションで決定される積の値と、（２）決定した勾配値と勾配降下アルゴリズムの学習率との積、の和に少なくとも一部基づいて決定するステップと、１つ以上のプロセッサが、積の値を含む関数に従って更新パラメータ値を決定するステップと、１つ以上のプロセッサが、パラメータを更新パラメータ値に等しくなるように更新するステップとを含んでもよい。

【0006】

いくつかの例では積の値は、（１）累積線形勾配値と学習率との積および（２）ｎ－１回目のイテレーションで決定されるパラメータ値に少なくとも一部基づいてもよい。

【0007】

いくつかの例では、積の値は、（１）累積線形勾配値と学習率との積と（２）スケーリング値に従ってスケーリングされたｎ－１回目のイテレーションで決定されるパラメータ値との差に等しくてもよい。

【0008】

いくつかの例では、方法は、１つ以上のプロセッサが、勾配値の二乗およびｎ－１回目のイテレーションの累積二乗勾配値に基づいて、累積二乗勾配値を決定するステップをさらに含んでもよい。スケーリング値は、累積二乗勾配値およびｎ－１回目のイテレーションの累積二乗勾配値の各々に基づいてもよい。

【0009】

【数1】

【0010】

ここで、ｎ_ｉは、累積二乗勾配値であり、ｎ_ｉ－１は、ｎ－１回目のイテレーションの累積二乗勾配値であり、ｌｒ＿ｐｏｗｅｒは、所定のパラメータである。

【0011】

いくつかの例では、積の値を含む関数は、パラメータ値を、積の値の絶対値と学習率との割合が所定の固定値よりも大きい場合、ゼロに等しくなるように決定し、積の値の絶対値と学習率との割合が所定の固定値以下である場合、非ゼロ値に等しくなるように決定してもよい。

【0012】

いくつかの例では、方法は、パラメータ関数に従って非ゼロ値を決定するステップを含んでもよい。パラメータ関数の分母は、累積二乗勾配値、第１の所定の固定値、および第２の所定の固定値の各々を含んでもよく、これにより、累積二乗勾配値、第１の所定の固定値、および第２の所定の固定値の各々がゼロであった場合のみ、パラメータ関数は、ゼロ除算エラーを返す。

【0013】

【数2】

【0014】

ここで、λ_２およびβは、第１の所定の固定値および第２の所定の固定値であり、λ_１は、第３の所定の固定値であり、ηは、学習率であり、ｐ_ｉは、積の値であり、ｎ_ｉは、累積二乗勾配値である。

【0015】

いくつかの例では、学習率は、ゼロから始まって時間の経過とともに大きくなるように予め定義されてもよい。

【0016】

いくつかの例では、学習率は、ゼロに近い値から始まって時間の経過とともに大きくなるように予め定義されてもよい。

【0017】

いくつかの例では、パラメータの勾配ベクトルは、複数の次元を含んでもよい。方法は、勾配ベクトルの各次元ごとに独立して実行されてもよい。

【0018】

いくつかの例では、パラメータは、ニューラルネットワークのパラメータであってもよい。

【0019】

いくつかの例では、勾配降下アルゴリズムは、確率的勾配降下アルゴリズム、ＦＴＲＬ（ＦｏｌｌｏｗｔｈｅＲｅｇｕｌａｒｉｚｅｄＬｅａｄｅｒ）学習アルゴリズム、Ａｄａｇｒａｄ、Ａｄａｍ、またはＲＭＳＰｒｏｐのうち、いずれかであってもよい。

【0020】

いくつかの例では、学習率は、時間の経過とともに変化するように予め定義されてもよく、方法を実行するために割り当てられる１つ以上のプロセッサに含まれるコアの数は、学習率が時間の経過とともに変化しても一定のままであってもよい。

【0021】

本開示の別の態様は、命令を格納するためのメモリと、当該メモリに連結された１つ以上のプロセッサとを備えるシステムを対象とし、当該１つ以上のプロセッサは、格納された命令を実行して、勾配降下アルゴリズムに従ってパラメータを反復的に更新し、本明細書に開示の方法を実行するように構成される。いくつかの例では、１つ以上のプロセッサは、勾配降下アルゴリズムに従ってパラメータを反復的に更新するために割り当てられる一定数のコアを含んでもよい。

【図面の簡単な説明】

【0022】

【図1】本開示の態様に係る例示的なシステムを示すブロック図である。

【図2】本開示の態様に係る例示的なルーチンを示すフロー図である。

【図3】図２のルーチンの例示的なサブルーチンを示すフロー図である。

【図4】図２のルーチンの例示的なサブルーチンを示すフロー図である。

【図5】本開示の態様に係る、勾配降下アルゴリズムの学習率と処理との関係を示すフロー図である。

【発明を実施するための形態】

【0023】

詳細な説明
図１は、クエリを処理するためのコンピューティング環境を含む例示的なシステム１００を示すブロック図である。システム１００は、１つ以上のプロセッサ１１０と、１つ以上のプロセッサと通信するメモリ１２０とを備え得る。プロセッサ１１０は、周知のプロセッサ、または、その他のそれほど周知ではない種類のプロセッサを含み得る。これに代えて、プロセッサ１１０は、ＡＳＩＣ（特定用途向け集積回路）、ＧＰＵ（グラフィックスプロセッシングユニット）、またはＴＰＵ（テンソルプロセッシングユニット）など、専用コントローラであり得る。メモリ１２０は、ハードドライブ、ソリッドステートドライブ、テープドライブ、光記憶装置、メモリカード、ＲＯＭ、ＲＡＭ、ＤＶＤ、ＣＤ－ＲＯＭ、書き込み可能メモリ、および読取り専用メモリなど、プロセッサ１１０がアクセス可能な情報を格納できる一種の非一時的なコンピュータ読み取り可能な媒体を含み得る。システム１００は、ＤＡＳ（ダイレクトアタッチトストレージ）、ＮＡＳ（ネットワーク接続型記憶装置）、ＳＡＮ（ストレージエリアネットワーク）、ＦＣ（ファイバーチャネル）、ＦＣｏＥ（ファイバーチャネルオーバーイーサネット（登録商標））、混合アーキテクチャネットワークなど、複数のアーキテクチャおよび技術のいずれも実装し得るが、これらに限定されない。データセンターは、記憶装置に加えて、ケーブル、ルータなど、その他のデバイスを備え得る。

【0024】

メモリ１２０は、プロセッサ１１０において受信または生成されるデータ、および１つ以上のプロセッサ１１０が実行できる命令を含む、１つ以上のプロセッサ１１０がアクセスできる情報を格納できる。当該データは、命令に従ってプロセッサ１１０によって検索されたり、格納されたり、または修正されたりし得る。たとえば、当該システムおよび方法は特定のデータ構造によって限定されないが、データは、複数の異なるフィールドおよびレコードを有する構造、または文書、またはバッファとして、コンピュータレジスタ、データストアに格納され得る。また、データは、バイナリ値、ＡＳＣＩＩ、またはＵｎｉｃｏｄｅなど、コンピュータスが読み取り可能な形式にフォーマットされ得るが、これらに限定されない。また、データは、数字、説明文、プロプライエタリコード、ポインタ、その他のネットワークの場所などその他のメモリに格納されているデータへのリファレンスなど、関連性のある情報を特定するのに十分な情報、または、関連性のあるデータを計算するための関数が用いる情報を含み得る。命令は、動作を実行するようプロセッサ１１０に指示するための様々なアルゴリズムを含み得る。命令は、プロセッサ１１０によって直接処理されるオブジェクトコードのフォーマットで格納された機械コードなど、直接実行される一連の命令、または、スクリプト、要求に基づいて解釈されたり予めコンパイルされたりする独立したソースコードモジュールから構成されるスクリプトまたはコレクションなど、間接的に実行される一連の命令を含み得る。その点では、「命令」、「ステップ」、「ルーチン」、および「プログラム」という用語は、本明細書において同義で用いられ得る。

【0025】

命令は、訓練データ１４０を受信するよう１つ以上のプロセッサ１１０に指示する、勾配降下アルゴリズム１３０の１つ以上の指定目標に従って訓練データ１４０を処理するよう１つ以上のプロセッサ１１０に指示する、および将来新しいデータを処理する際に指定目標をより適切に実現できるようにするために、処理結果が成功であったか失敗であったかに基づいて勾配降下アルゴリズム１３０を漸進的に調整するよう１つ以上のプロセッサ１１０に指示するようプログラムされた勾配降下アルゴリズム１３０を含み得る。勾配降下アルゴリズム１３０は、教師あり学習アルゴリズムにおいて用いられ得る。これにより、訓練データ１４０の既知のプロパティに従って、処理結果が成功であったか失敗であったかが判断され得る。これに代えて、勾配降下アルゴリズム１３０は、完全または部分教師なし学習アルゴリズムにおいて用いられ得る。これにより、処理結果が成功であったか失敗であったかについての少なくとも一部が、クラスタリングアルゴリズムまたは連想アルゴリズムなどを通して、処理結果自体から導出され得る。完全または部分教師なし学習アルゴリズムの場合、訓練データ１４０の少なくとも一部は、勾配降下アルゴリズムによって今後処理される新しいデータのように、未知のプロパティを有している。

【0026】

勾配降下アルゴリズム１３０は、システムの機械学習構造の１つ以上のパラメータ１３２に作用し得る。機械学習構造は、構造の出力が、入力および１つ以上の変数もしくは１つ以上のパラメータの関数である機械学習アルゴリズムまたはその他のアルゴリズムであり得る。パラメータ１３２を調整することによって機械学習構造を変更して、出力の正解率を改善し得る。一例として、ニューラルネットワークでは、パラメータは、ネットワークのノードと層との間の重みまたは埋め込みを含んでもよく、全結合層を含んでもよく、または、任意のそれらの組合せを含んでもよい。また、機械学習構造は、複数の層など１つ以上の超パラメータに従って動作し得る、または、学習率１３４に従って動作し得る。学習率１３４は、勾配降下アルゴリズムの所与のイテレーションに対する機械学習構造への調整の大きさを定め得る。異なる機械学習構造は、異なるパラメータおよび異なる超パラメータを含み得ることを理解されたい。

【0027】

いくつかの例では、勾配降下アルゴリズム１３０は、機械学習構造の１つ以上の超パラメータに作用し得る。一例として、学習率１３４は、勾配降下アルゴリズム１３０の出力に従って調整されてもよい。たとえば、勾配降下アルゴリズム１３０によってパラメータ１３２が大きく変更された場合、勾配降下アルゴリズム１３０のイテレーション当たりのパラメータ１３２の変化率を減速させるために、学習率１３４を上げると判断し得る。反対に、勾配降下アルゴリズム１３０によってパラメータ１３２が少し変更された場合、学習率１３４を維持するまたは下げると判断し得る。これに代えて、学習率などの超パラメータは、予め定められてもよい。たとえば、学習率１３４は、ステップ関数など、所定の関数に従って時間の経過とともに変化してもよく、または、一定のままであってもよい。学習率がステップ関数である場合、学習率は、０または０に近い値から始まってもよく、時間の経過とともに大きくなってもよい。「０に近い」値は、勾配降下アルゴリズム１３０を用いて更新パラメータを決定する関数を学習率で除算した場合にエラーまたは不正確な計算の答えを返す値を含む。

【0028】

図１では、プロセッサ１１０およびメモリ１２０の各々が１つのブロックとして機能的に示されているが、プロセッサ１１０およびメモリ１２０は、実際には、複数のプロセッサおよび複数のメモリを含んでもよく、これらは同じ物理的な筐体に格納されてもよく、同じ物理的な筐体に格納されなくてもよい。たとえば、メモリに格納されているデータおよび命令の一部をリムーバブルＣＤ－ＲＯＭに格納し、その他を読取り専用コンピュータチップ内に格納できる。命令およびデータの一部またはすべては、プロセッサ１１０から物理的に離れた場所ではあるがプロセッサ１１０がアクセスできる場所に格納できる。

【0029】

図２は、勾配降下アルゴリズムのパラメータ「ｗ」を更新するための例示的なルーチン２００を示すフロー図である。例示的なルーチン２００は、勾配降下アルゴリズムの１回のイテレーション「ｉ」に含まれるステップを示しており、これにより、勾配降下アルゴリズムの前回のイテレーションは、「ｉ－１」として定義されている。ｉ－１回目のイテレーションで決定されるパラメータは、本明細書において、ｗ_ｉ－１と称され、ｉ回目のイテレーションで決定されるパラメータは、ｗ_ｉと称される。ルーチンは、図１に示すプロセッサ１１０など、１つ以上のプロセッサによって実行され得る。

【0030】

ブロック２１０では、１つ以上のプロセッサがパラメータｗの勾配値ｇ_ｉを決定する。勾配値ｇ_ｉは、コスト関数に従って算出され得る。このコスト関数は、たとえば、勾配降下アルゴリズムによって出力される実際のパラメータを、予測したパラメータの出力と比較することによって、直近に決定されたパラメータ値ｗ_ｉ－１に関する処理結果の成功または失敗の程度を特徴付ける。

【0031】

勾配降下アルゴリズムのｉ回目のイテレーションの勾配値ｇ_－ｉを利用して、累積線形勾配値ｍ_ｉおよび累積二乗勾配値ｎ_ｉのうち一方または両方を算出することができる。累積線形勾配値ｍ_ｉは、勾配降下アルゴリズムの各イテレーションにおいて算出される勾配を合計することによって導出され得る。同様に、累積二乗勾配値ｎ_ｉは、勾配降下アルゴリズムの各イテレーションにおいて算出される勾配の二乗を合計することによって導出され得る。

【0032】

ブロック２２０では、１つ以上のプロセッサは、積の値ｐ_ｉを決定する。積の値ｐ_ｉは、アルゴリズムｐ_ｉ－１の前回のイテレーションにおける積の値と、勾配降下アルゴリズムの学習率ηとｇ_ｉとの積、との和に基づき得る。たとえば、積の値ｐ_ｉは、累積線形勾配値と学習率との積に等しくてもよい。さらに例えると、ｐ_ｉは、スケーリングされたｐ_ｉ－１をさらに減算することによって導出されてもよい。ｐ_ｉ－１をスケーリングするために用いられるスケーリング値は、累積二乗勾配値ｎ_ｉに基づいてもよい。スケーリング値は、前回のイテレーションｎ_ｉ－１の累積二乗勾配値に基づいてもよい。

【0033】

ｐ_ｉの例示的な算出を、図３のサブルーチン３００に示す。ブロック３１０では、累積線形勾配値ｍ_ｉを決定する。値ｍ_ｉは、ｍ_ｉ－１とｇ_ｉとの和であってもよい。ブロック３２０では、累積二乗勾配値ｎ_ｉを決定する。値ｎ_ｉは、ｎ_ｉ－１とｇ_ｉ ^２との和であってもよい。ブロック３３０では、下記のスケーリング値関数に従ってスケーリング値ｓ_ｉを算出する。

【0034】

（１）ｓ_ｉ＝ｎ_ｉ ^{－ｌｒ＿ｐｏｗｅｒ}－ｎ_ｉ－１ ^{－ｌｒ＿ｐｏｗｅｒ}
ここで、「ｌｒ＿ｐｏｗｅｒ」は、所定のパラメータである。ブロック３４０では、ｐ_ｉを、下記の積の値の関数に等しいと判断する。

【0035】

（２）ｐｉ＝（η×ｍ_ｉ）－（ｓ_ｉ×ｗ_ｉ－１）
図２に戻ると、ブロック２３０では、積の値ｐ_ｉを含む関数に従って更新パラメータ値ｗ_ｉを決定する。

【0036】

ｗ_ｉの例示的な算出を、図４のサブルーチン４００に示す。ブロック４１０では、積の値の絶対値｜ｐ_ｉ｜と学習率ηとの割合が所定の固定値λ_１を超えるかどうかを判断する。この判断によって、この判断によって、前回のイテレーション以降の最近の累積二乗勾配値ｎ_ｉに対する変更を考慮しつつ、累積線形勾配値ｍ_ｉが大きいか小さいかを評価する。これにより、所定の固定値λ_１は、しきい値として機能する。割合がしきい値よりも大きい場合、動作はブロック４２０に続き得る。ブロック４２０では、更新パラメータ値を、０に等しいと決定する。そうで無い場合、割合がしきい値以下である場合、動作は、ブロック４３０に続き得る。ブロック４３０では、更新パラメータ値を、下記のパラメータ値関数に従って決定する。

【0037】

【数3】

【0038】

ここで、λ_２およびβは、両方とも所定の固定値であり、「ｓｇｎ」は、符号関数である。パラメータ値関数（３）の分母は、累積二乗勾配値ｎ_ｉならびに２つの別個の所定の固定値λ_２およびβの各々を含む。さらには、パラメータ値関数は、累積二乗勾配値ｎ_ｉならびに所定の固定値λ_２およびβの両方の各々が０に等しい場合のみ、ゼロ除算エラーを返す。ｎ_ｉの初期値は、通常、０以外の値（非ゼロ）に設定され、さらには、ｎ_ｉ、λ_２、およびβのすべてが０に等しくなるのは有効な構成ではない。そのため、パラメータ値関数（３）は、ゼロ除算エラーになることを回避する。

【0039】

再び図２に戻ると、ブロック２４０において、機械学習構造のパラメータｗを更新して、決定したｉ回目のイテレーションのパラメータ値ｗ_ｉと等しくする。パラメータｗを更新することで、機械学習構造に、所与の入力に対して異なる結果を出力させ得る。これにより、勾配降下アルゴリズムのいくつかのイテレーションの間に、機械学習構造のコスト関数が反復的に小さくなるまたは最適化される。このように、機械学習構造は、コスト関数を最小限に抑えるまたは比較的小さくする最適な、または比較的最適な一連のパラメータに向かって収束し得、将来のデータ入力に対する機械学習構造による決定が、より正確な決定になる。

【0040】

上記例示的なルーチンでは、機械学習プロセスの１回のイテレーションが示されている。これにより、機械学習構造の１つのパラメータｗが、漸進的に移動されて最適解に近づく。ルーチンは、反復的に実行されてもよく、これにより、イテレーションごとに、イテレーションとイテレーションとの間にシステムに入力される訓練データに基づいて、パラメータが引き続き移動して最適解に近づくことを理解されたい。イテレーションとイテレーションとの間の時間は、学習率によって定められる。当該時間は、固定された時間であってもよく、時間の経過とともに変化してもよく、所定のスケジュールに従って定められてもよく、または、機械学習プロセスに応じて定められてもよい。これに加えて、システムはいくつかのパラメータを含み得ること、および、ルーチンはパラメータの各々について独立して実行され得ることを理解されたい。これにより、各パラメータは、勾配ベクトルの異なる次元を表す。イテレーションごとに、一連のパラメータは、イテレーションとイテレーションとの間にシステムの機械学習構造に提供される訓練データに基づいて、移動して最適解に近づき得る。

【0041】

図２の例示的なルーチン２００の利点は、学習率の値がゼロまたはニアゼロである場合にゼロ除算エラーが回避できることである。これは、パラメータ値関数の分母が、学習率によって除算されないためである。

【0042】

学習率の値がゼロまたはニアゼロである場合にゼロ除算エラーを回避することのメリットは、学習率に反比例する別のパラメータ値関数について考えた場合にわかる。学習率が０または０に近い場合、当該別の関数は、ゼロ除算エラーを返す。このようなパラメータ値関数における学習率がニアゼロであることの影響を回避するために、学習率をニアゼロ値よりも大きな値で始めることが必要である。しかしながら、比較的大きな学習率で機械学習プロセスを開始してしまうと、機械学習アルゴリズムが良好な解に収束する、すなわち、コスト関数を最小限に抑える一連のパラメータ値に収束することができなくなる。よって、勾配降下アルゴリズムが良好な解に向かって収束することを確実にするためには、機械学習構造のパラメータに対する調整を縮小させるための別の方法が必要になる。１つの方法は、勾配降下アルゴリズムの各イテレーションの間で考慮されるデータが少なくなるよう、訓練データの処理を遅くすることである。これは、機械学習構造を用いて訓練データを処理するために割り当てられるプロセッサコアの数を限定することによって達成されてもよい。処理を減らすことで、各イテレーションにおけるパラメータに対する調整が確実に小さくなる。最終的に、勾配降下アルゴリズムが良好な解に向かって移動を開始した後に、処理速度を速くしてもよいが、これは、勾配降下アルゴリズムのイテレーションがいくつか終わるまでは起こらない。

【0043】

図５は、本願の勾配降下アルゴリズムの訓練データの処理速度を、学習率がゼロまたはニアゼロである場合にゼロ除算エラーになりやすい架空の別の勾配降下アルゴリズム（以下、「Ａｌｔ＿ＧＤ」と称す）と比較した場合の違いを示す図である。第１曲線５０１は、割り当てられるプロセッサコアの数など、学習率に対してプロットされたＡｌｔ＿ＧＤの処理量を示す。第２曲線５０２は、割り当てられるプロセッサコアの数など、学習率に対してプロットされた本開示の勾配降下アルゴリズムの処理量を示す。

【0044】

曲線５０１と５０２との第１の違いは、曲線５０１がゼロ以外の学習率から始まる一方で、曲線５０２は、より低い学習率から始められることである。これは、Ａｌｔ＿ＧＤが、動作の開始時に、本開示の勾配降下アルゴリズムがパラメータに対して行う変更よりも大きな変更を行っていることを意味する。これは、最適に満たない解に向かって急速に移動してしまうリスクを生じさせてしまう。

【0045】

曲線５０１と５０２との第２の違いは、曲線５０１が低い処理速度から始まって時間の経過とともに処理を増やす一方で、曲線５０２は、フル処理能力から開始してそれを維持することである。これは、Ａｌｔ＿ＧＤの初期のイテレーションが、比較的少ない訓練データを受信した機械学習構造に作用する一方で、本開示の勾配降下アルゴリズムの初期のイテレーションは、比較的多くの訓練データを受信した機械学習構造に作用することを意味する。このように、本開示の勾配降下アルゴリズムは、解に向かってＡｌｔ＿ＧＤよりも早く収束する。

【0046】

改善された本開示の勾配降下アルゴリズムの処理を説明するために、図５は、それぞれの勾配降下アルゴリズムの４回のイテレーションの後に完了した処理量を比較する網掛け領域を含む。Ａｌｔ＿ＧＤの場合、時刻Ｔ_１において（曲線５０１に沿った４つ目の点で示されるＡｌｔ＿ＧＤの４回のイテレーションにおいて）、実行された処理のトータルは、曲線５０１の下にある網掛け領域で示されている。本開示の勾配降下アルゴリズムの場合、時刻Ｔ_１’において（曲線５０２に沿った４つ目の点で示されているＡｌｔ＿ＧＤの４回のイテレーションにおいて）、実行された処理のトータルは、曲線５０２の下にある網掛け領域で示されている。見て分かるとおり、曲線５０１の下の領域は、曲線５０２の下の領域よりもはるかに小さい。これは、曲線５０２の場合の方が全体的な処理が速いことを示している。これは、Ａｌｔ＿ＧＤの場合よりも、本開示の勾配降下アルゴリズムの場合の方が、時間Ｔ_１およびＴ_１’においてそれぞれ得られる結果など、暫定結果が正確であることも示している。別の言い方をすると、本開示の勾配降下アルゴリズムのほうが、正確な暫定結果がより早く得られる。

【0047】

図２の上記例示的なルーチン２００は、ＦＴＲＬ（ＦｏｌｌｏｗｔｈｅＲｅｇｕｌａｒｉｚｅｄＬｅａｄｅｒ）学習アルゴリズムを用いてパラメータを更新する方法を示している。よって、例示的なルーチン２００は、学習率で除算する他のＦＴＲＬアルゴリズムよりも有利であり得る。確率的勾配降下アルゴリズム、Ａｄａｇｒａｄ、Ａｄａｍ、ＲＭＳＰｒｏｐなど、その他のアルゴリズムにも同じ基本原理を適用してもよいことを理解されたい。別の言い方をすると、学習率で除算するその他の勾配降下アルゴリズムの場合、積の値を決定すること、および積の値に基づいて更新パラメータ値を決定することなどの本開示の原理を適用して、学習率で除算することを回避してもよい。

【0048】

本明細書の技術について、特定の実施の形態を参照しながら説明したが、これらの実施の形態は、本技術の原理および適用の一例に過ぎないと理解されたい。そのため、当該例示的な実施の形態に対して多くの変更が加えられてもよく、添付の特許請求の範囲で示されている本技術の趣旨および範囲から逸脱することなく、その他の配置が考案されてもよいことを理解されたい。

【0049】

上記のその他の実施例のほとんどは、相互に排他的ではない。しかし、様々な組合せで実装してユニークな利点を実現してもよい。上述した機能のこれらのおよびその他の変形例および組合せは、添付の特許請求の範囲によって示される発明の主題を逸脱しない範囲で利用することができるため、上記実施の形態の説明は、添付の特許請求の範囲によって示される発明の主題を限定するものではなく、一例としてとらえるべきである。例として、前述の動作は、上述した順番に厳密に実行されなくてもよい。むしろ、逆の順序や、同時になど、様々なステップを異なる順序で処理できる。また、特段の記載がない限り、ステップを省略できる。これに加えて、本明細書に記載した実施例の提供、および「ｓｕｃｈａｓ」、「ｉｎｃｌｕｄｉｎｇ」などの言葉で表現された節の提供は、添付の特許請求の範囲の発明の主題を具体例に限定すると解釈されるべきではない。むしろ、これらの実施例は、多くの可能な実施の形態のうちの１つを例示しているにすぎない。さらには、異なる図面における同一の参照番号は、同一または同様の要素を識別し得る。

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版