IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特開2023-172230情報処理装置、情報処理方法、及び情報処理プログラム
<>
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図1
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図2
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図3
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図4
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図5
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図6
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図7
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図8
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図9
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023172230
(43)【公開日】2023-12-06
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20231129BHJP
   G06N 3/08 20230101ALI20231129BHJP
【FI】
G06N20/00 130
G06N3/08
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022083887
(22)【出願日】2022-05-23
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】鈴木 佳祐
(72)【発明者】
【氏名】辻川 剛範
(57)【要約】
【課題】勾配降下法による学習に用いる超パラメータの範囲をより適切に決定する。
【解決手段】情報処理装置(1)は、損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得する取得部(11)と、勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、取得部(11)が取得した情報に応じて定まる範囲を決定する決定部(12)とを備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得する取得手段と、
勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、前記取得手段が取得した情報に応じて定まる範囲を決定する決定手段と
を備えている情報処理装置。
【請求項2】
前記決定手段が決定した範囲に収まるように、前記少なくとも何れかの超パラメータの値を設定する設定手段
を更に備えている請求項1に記載の情報処理装置。
【請求項3】
前記決定手段が決定した範囲を提示する提示手段を更に備えている
請求項1に記載の情報処理装置。
【請求項4】
前記複数の超パラメータには、
訓練データのサンプルサイズ、
学習率、及び、
パラメータ更新回数
の少なくとも何れかが含まれる
請求項1から3の何れか1項に記載の情報処理装置。
【請求項5】
前記複数の超パラメータには、
逆温度
が含まれる
請求項4に記載の情報処理装置。
【請求項6】
前記損失関数が満たすべき条件には、
損失関数の勾配の原点でのノルムの上界を表す定数、
損失関数の勾配のリプシッツ定数を表す定数、及び、
損失関数の散逸性を表す定数
の少なくとも何れかが含まれる
請求項1から3の何れか1項に記載の情報処理装置。
【請求項7】
前記勾配降下法の初期値に関する条件には、
初期分布の2次モーメントの上界を表す定数、及び、
初期分布の4次モーメントの上界を表す定数
の少なくとも何れかが含まれる
請求項1から3の何れか1項に記載の情報処理装置。
【請求項8】
少なくとも1つのプロセッサが、
損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得することと、
勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、前記取得する工程において取得された情報に応じて定まる範囲を決定することと、を含む情報処理方法。
【請求項9】
コンピュータを、
損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得する取得手段、及び
勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、前記取得手段が取得した情報に応じて定まる範囲を決定する決定手段、として機能させる情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、勾配降下法による学習のための技術に関する。
【背景技術】
【0002】
勾配降下法による学習には超パラメータ(逆温度、学習率、パラメータ更新回数、サンプルサイズ、等)の設定が必要である。超パラメータの設定方法として、従来では例えばグリッドサーチ又はランダムサーチ等の手法が用いられていた。すなわち、様々なパターンを試行し、結果が最もよいものを選択することが行われていた。また、特許文献1には、確率的勾配降下法において、損失関数の勾配の情報を基に学習率を調整することが記載されている。また、非特許文献1には、確率的勾配降下法の一般的なバリエーションであるStochastic Gradient Langevin Dynamics(SGLD)による非凸学習について記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2017/183587号
【非特許文献】
【0004】
【非特許文献1】M. Raginsky, A. Rakhlin, and M. Telgarsky, Non-Convex Learning via Stochastic Gradient Langevin Dynamics: A Nonasymptotic Analysis, In Proceedings of the 2017 Conference on Learning Theory, volume 65, pp. 1674-1703, 2017.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、グリッドサーチ又はランダムサーチ等の手法を用いる場合、様々なパターンの試行に時間を要するという問題があった。また、特許文献1に記載の技術においては、損失関数の勾配を加味して学習率を調整できるものの、勾配降下法による学習に用いる超パラメータをより適切に決定するという観点において改善の余地がある。
【0006】
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、勾配降下法による学習に用いる超パラメータの範囲をより適切に決定できる技術を提供することである。
【課題を解決するための手段】
【0007】
本発明の一態様に係る情報処理装置は、損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得する取得手段と、勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、前記取得手段が取得した情報に応じて定まる範囲を決定する決定手段とを備える。
【0008】
本発明の一態様に係る情報処理方法は、少なくとも1つのプロセッサが、損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得することと、勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、前記取得する工程において取得された情報に応じて定まる範囲を決定することと、を含む。
【0009】
本発明の一態様に係る情報処理プログラムは、コンピュータを、損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得する取得手段、及び勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、前記取得手段が取得した情報に応じて定まる範囲を決定する決定手段、として機能させる。
【発明の効果】
【0010】
本発明の一態様によれば、勾配降下法による学習に用いる超パラメータの範囲をより適切に決定することができる。
【図面の簡単な説明】
【0011】
図1】例示的実施形態1に係る情報処理装置の構成を示すブロック図である。
図2】例示的実施形態1に係る情報処理方法の流れを示すフロー図である。
図3】例示的実施形態2に係る情報処理装置の構成を示すブロック図である。
図4】例示的実施形態2に係る手順1を示す図である。
図5】例示的実施形態2に係る手順2を示す図である。
図6】例示的実施形態2に係る手順3を示す図である。
図7】例示的実施形態2に係る情報処理方法の流れを示すフロー図である。
図8】表示パネルに表示される表示データを示す図である。
図9】表示パネルに表示される表示データを示す図である。
図10】本発明の各例示的実施形態に係る各装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0012】
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
【0013】
(情報処理装置の構成)
本例示的実施形態に係る情報処理装置1の構成について、図1を参照して説明する。図1は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、取得部11及び決定部12を備える。
【0014】
取得部11は、損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得する。ここで、損失関数が満たすべき条件には、一例として、
(i)損失関数の勾配の原点でのノルムの上界を表す定数、
(ii)損失関数の勾配のリプシッツ定数を表す定数、及び、
(iii)損失関数の散逸性を表す定数、
の少なくとも何れかが含まれる。
【0015】
また、上記勾配降下法の初期値に関する条件には、一例として、
(iv)初期分布の2次モーメントの上界を表す定数、及び、
(v)初期分布の4次モーメントの上界を表す定数、
の少なくとも何れかが含まれる。
【0016】
決定部12は、勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、取得部11が取得した情報に応じて定まる範囲を決定する。ここで、上記複数の超パラメータには、一例として、訓練データのサンプルサイズ、学習率、及び、パラメータ更新回数の少なくとも何れかが含まれる。また、上記複数の超パラメータには、逆温度が含まれていてもよい。
【0017】
ただし、上記超パラメータにおいて、逆温度以外の超パラメータを決めるためには、逆温度が確定していなければならない。また、パラメータ更新回数を決めるためには、学習率が確定していなければならない。つまり、逆温度と学習率とを決定部12が決定せずに何らかの固定値を逆温度と学習率として用いる場合、これら固定値も入力される必要がある。よって、逆温度と学習率とを決定部12が決定しない場合、これらを入力に含める。
【0018】
以上のように、本例示的実施形態に係る情報処理装置1においては、損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得する取得部11と、勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、取得部11が取得した情報に応じて定まる範囲を決定する決定部12とを備える、という構成が採用されている。このため、本例示的実施形態に係る情報処理装置1によれば、勾配降下法による学習に用いる超パラメータの範囲をより適切に決定することができるという効果が得られる。
【0019】
(情報処理プログラム)
上述の情報処理装置1の機能は、プログラムによって実現することもできる。本例示的実施形態に係る情報処理プログラムは、コンピュータを取得部11及び決定部12として機能させる。この情報処理プログラムによれば、勾配降下法による学習に用いる超パラメータの範囲をより適切に決定することができるという効果が得られる。
【0020】
(情報処理方法の流れ)
本例示的実施形態に係る情報処理方法S1の流れについて、図2を参照して説明する。図2は、情報処理方法S1の流れを示すフロー図である。なお、この情報処理方法における各ステップの実行主体は、情報処理装置1が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。
【0021】
S11では、少なくとも1つのプロセッサが、損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得する。ステップS12では、少なくとも1つのプロセッサが、勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、ステップS11で取得された情報に応じて定まる範囲を決定する。
【0022】
以上のように、本例示的実施形態に係る情報処理方法S1は、少なくとも1つのプロセッサが、損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得することと、勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、上記取得することにおいて取得された情報に応じて定まる範囲を決定することと、を含む。このため、本例示的実施形態に係る情報処理方法S1によれば、勾配降下法による学習に用いる超パラメータの範囲をより適切に決定することができるという効果が得られる。
【0023】
〔例示的実施形態2〕
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
【0024】
<情報処理装置1Aの構成>
図3は情報処理装置1Aの構成を示すブロック図である。情報処理装置1Aは、制御部10A、記憶部20A、入出力部30A及び通信部40Aを備える。
【0025】
(入出力部30A)
入出力部30Aは、表示パネル、スピーカ、キーボード、マウス、タッチパネル等を備える。入出力部30Aは、情報処理装置1Aに対する各種の情報の入力を受け付ける。また、入出力部30Aは、制御部10Aの制御の下、各種の情報を出力する。入出力部30Aに、表示パネル、スピーカ、キーボード、マウス、タッチパネル等の入出力機器が接続されてもよい。入出力部30Aとしては、例えばUSB(Universal Serial Bus)などのインタフェースが挙げられる。
【0026】
(通信部40A)
通信部40Aは、情報処理装置1Aの外部の装置と通信回線を介して通信する。通信回線の具体的構成は本例示的実施形態を限定するものではないが、通信回線は一例として、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、公衆回線網、モバイルデータ通信網、又は、これらの組み合わせである。通信部40Aは、制御部10Aから供給されたデータを他の装置に送信したり、他の装置から受信したデータを制御部10Aに供給したりする。
【0027】
(制御部10A)
制御部10Aは、取得部11、決定部12、設定部13、及び提示部14を備える。
【0028】
(取得部)
取得部11は、
(a)損失関数が満たすべき条件、
(b)目標誤差、
(c)勾配降下法の初期値に関する条件、及び、
(d)モデルパラメータの次元、
の少なくとも何れかを取得する。ここで、(a)損失関数が満たすべき条件、及び、(c)勾配降下法の初期値に関する条件は、上述した例示的実施形態1において説明した通りである。モデルパラメータは、勾配降下法により学習されるモデルのパラメータである。
【0029】
(決定部)
決定部12は、勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、取得部11が取得した情報に応じて定まる範囲を決定する。ここで、超パラメータは、上述した例示的実施形態において説明した通りである。
【0030】
(設定部・提示部)
設定部13は、決定部12が決定した範囲に収まるように、上記少なくとも何れかの超パラメータの値を設定する。提示部14は、決定部12が決定した範囲を提示する。
【0031】
(記憶部)
記憶部20Aは、情報処理装置1Aが使用する各種データを記憶する。記憶部20Aは例えば、入力情報IMF、範囲情報RI、超パラメータ値HPV、表示用データDIを記憶する。
【0032】
(入力情報)
入力情報IMFは、取得部11が取得した(a)損失関数が満たすべき条件、(b)目標誤差、(c)勾配降下法の初期値に関する条件、及び(d)モデルパラメータの次元、の総称である。また、入力情報IMFは、逆温度を含んでいてもよい。
【0033】
(範囲情報・超パラメータ値・表示用データ)
範囲情報RIは、決定部12が決定した範囲を示す情報である。超パラメータ値HPVは、設定部13が設定した値を示す情報である。表示用データDIは、提示部14が提示する提示情報の一例である。
【0034】
<手順の概要>
ここで、本例示的実施形態に係る超パラメータが満たすべき範囲を決定する具体的な手順の一例について、図4図6を参照しつつ説明する。この例で、超パラメータが満たすべき範囲を決定する手順は、手順1~手順3に大別される。ただし、手順1~3は、情報処理装置1Aが実行する各処理であるが、必ずしも各処理の手順を限定するものではない。
【0035】
この例では、勾配降下法Xkη (n,η)による学習に用いる超パラメータが満たすべき範囲を決定する手順を説明する。勾配降下法Xkη (n,η)による学習に用いられる超パラメータは、一例として、
・訓練データのサンプルサイズn、
・学習率η、
・パラメータ更新回数k、
・逆温度β、
を含む。ここで、訓練データのサンプルサイズn∈Nは、勾配降下法Xkη (n,η)による学習に用いる訓練データz∈Zのサンプルサイズである。学習率ηは、勾配降下法Xkη (n,η)による学習の学習率である。パラメータ更新回数k∈Nは、勾配降下法Xkη (n,η)により更新されるモデルパラメータw∈Rの更新回数である。
【0036】
また、この例で、訓練データz∈Zにおけるモデルパラメータw∈Rでの損失関数をl(w;z)とし、損失関数l(w;z)の期待値である期待損失を、
【数1】
とする。
【0037】
また、Dにしたがう独立サンプルz,…,zに対し経験損失を、
【数2】
とする。
【0038】
また、学習率η>0、逆温度β>0を持つ勾配降下法Xkη (n,η)を、
【数3】
と定義する。ただし、Nはz,…zと独立な、d次元標準正規分布の独立列である。
【0039】
(手順1)
図4は、手順1を説明するための図である。手順1では、入力情報IMFが情報処理装置1Aに入力される。図4において、入力情報IMFは、
(i)損失関数l(w;z)の勾配の原点でのノルムの上界を表す定数A、
(ii)損失関数l(w;z)の勾配のリプシッツ定数を表す定数M、
(iii)損失関数l(w;z)の散逸性を表す定数m、b、
(iv)初期分布の2次モーメントの上界を表す定数Q
(v)初期分布の4次モーメントの上界を表す定数Q
(vi)目標誤差ε、ε、ε、ε、及び、
(vii)モデルパラメータw∈Rの次元d、
を含む。上記(i)~(vii)の情報の条件は、図4に示すとおりである。
【0040】
ここで、上記(i)~(vii)の情報の設定方法の一例について説明する。ここでは、説明の理解を容易にするため、1層のニューラルネットワークによる回帰問題で説明するが、層を増やした場合の扱いも同様である。d次元の入力変数x=(x,…x)、1次元の出力変数yの組をz=(x,y)で表す。また、d次元のモデルパラメータwをw=(w,…w)で表す。そして、活性化関数をσ:R→R(すなわち、σは実数値を実数値に写す写像)で表す。このとき、正規化パラメータλ>0に対し、
【数4】
とおく。ここで、
【数5】
である。
【0041】
ここで、σの1階、2階の微分をσ´、σ´´で表し、それぞれの絶対値の上限を、
||σ||、||σ´||、||σ´´||、で表す。
【0042】
(定数A>0の設定)
損失関数l(w;z)の定義より、その勾配は、
【数6】
で与えられる。ここで、σ´はσの微分である。よって、
【数7】
である。したがって、定数A>0は、データ点z=(x,y)を動かしたときの、
【数8】
の上界ととればよい。
【0043】
(定数M>0の設定)
また、上記(数式1)より、
【数9】
が成り立つ。したがって、定数M>0は、データ点z=(x,y)を動かしたときの、
【数10】
の上界ととればよい。
【0044】
(定数m、b>0の設定)
定数A>0は、データ点z=(x,y)を動かしたときの、
【数11】
の上界に設定していた。よって、上記(数式1)より、
【数12】
が成り立つ。したがって、m=λ、
【数13】
ととればよい。
【0045】
(定数Q、Qの設定)
例えば、初期値を原点に設定することで、Q2=Q4=0ととればよい。
【0046】
(次元dの設定)
入力変数x=(x1,…xd)の次元として決定すればよい。
【0047】
(目標誤差ε、ε、ε、ε>0の設定)
目標誤差ε、ε、ε、εは、ユーザが任意に設定すればよい。
【0048】
(手順2)
図5は、手順2を説明するための図である。手順2において、逆温度βが決定された場合、入力情報IMF及び逆温度βを用いて、図5に示す定数C、R、κ、Kρ、η、Uconti, 2、Udisc, 4、ζ、c、Kdisc, approx、Ugen、Udisc, approx、Uinv、が計算可能である。各定数の計算式は一例として、図5に示すとおりである。
【0049】
手順2に記載された各パラメータに関する演算は、決定部12が実行する。ただし、これらのパラメータの一部に関する演算は、予め人間によって実行される構成としてもよい。
【0050】
(手順3)
図6は、手順3を説明するための図である。逆温度β≧2/mであれば、任意のk∈Nに対し、
【数14】
である。よって、超パラメータの範囲を図6に示す条件を満たす範囲に決定すれば、勾配降下法Xkη (n,η)は、
【数15】
を満たす。
【0051】
この場合、決定部12が決定する範囲は、
【数16】
を満たす逆温度βの範囲、
【数17】
を満たすサンプルサイズnの範囲、
【数18】
を満たす学習率ηの範囲、及び、
【数19】
を満たすパラメータ更新回数kの範囲、である。
【0052】
(情報処理方法の流れ)
図7は、情報処理装置1Aが実行する情報処理方法の一例である情報処理方法S1Aの流れを示すフロー図である。
【0053】
(ステップS101)
ステップS101において、取得部11は、損失関数l(w;z)が満たすべき条件、目標誤差、勾配降下法Xkη (n,η)の初期値に関する条件、及びモデルパラメータの次元を取得する。より具体的には、取得部11は、(i)定数A、(ii)定数M、(iii)定数m、b、(iv)定数Q、(v)定数Q、(vi)目標誤差ε、ε、ε、ε、及び、(vii)モデルパラメータの次元d、を含む入力情報IMFを取得する。
【0054】
取得部11は、入力情報IMFを通信部40Aを介して他の装置から受信してもよく、また、入出力部30Aに入力される入力情報IMFを取得してもよい。また、取得部11は、記憶部20A又は他の外部記憶装置から入力情報IMFを読み出すことにより入力情報IMFを取得してもよい。
【0055】
(ステップS102)
ステップS102において、決定部12は、逆温度βを決定する。逆温度βの決定方法としては、例えば非特許文献1に開示された手法が挙げられるが、逆温度βの決定方法は上述した例に限られず、逆温度βは他の手法により決定されてもよい。
【0056】
(ステップS103)
ステップS103において、決定部12は、超パラメータの範囲の決定に用いる定数を算出する。決定部12は、一例として、上述の手順2で示した定数C、R、κ、Kρ、η、Uconti, 2、Udisc, 4、ζ、c、Kdisc, approx、Ugen、Udisc, approx、Uinvを、入力情報IMFに含まれる上記(i)~(vii)の情報を用いて算出する。
【0057】
(ステップS104)
ステップS104において、決定部12及び設定部13は、入力情報IMFに含まれる上記(i)~(vii)の情報と、目標誤差εとにより、訓練データセットのサンプルサイズnを決定する。より具体的には、決定部12は一例として、サンプルサイズnが満たすべき範囲として、上記(数式2)を満たす範囲を決定する。また、設定部13は、決定部12が決定した範囲に収まるように、サンプルサイズnの値を設定する。
【0058】
(ステップS105)
ステップS105において、決定部12及び設定部13は、入力情報IMFに含まれる上記(i)~(vii)の情報と、目標誤差εとにより、学習率ηを決定する。より具体的には、決定部12は一例として、学習率η(0<η≦η)が満たすべき範囲として、上記(数式3)を満たす範囲を決定する。また、設定部13は、決定部12が決定した範囲に収まるように、学習率ηの値を設定する。
【0059】
(ステップS106)
ステップS106において、決定部12及び設定部13は、入力情報IMFに含まれる上記(i)~(vii)の情報と、目標誤差εとにより、パラメータ更新回数kを決定する。より具体的には、決定部12は一例として、パラメータ更新回数kが満たすべき範囲として、上記(数式4)を満たす範囲を決定する。また、設定部13は、決定部12が決定した範囲に収まるように、パラメータ更新回数kを設定する。
【0060】
情報処理方法S1Aにおいて、情報処理装置1Aは、ステップS105及び/又はステップS106を、ステップS104の前に実行してもよい。
【0061】
提示部14は、決定部12が決定した超パラメータが満たすべき範囲、及び、設定部13が設定した超パラメータの値、の少なくともいずれか一方を示す情報を出力する。提示部14は一例として、上記情報を入出力部30Aの表示パネル等に出力してもよく、また、通信部40Aを介して接続された他の装置に、上記情報を送信することにより出力してもよい。また、提示部14は、記憶部20A又は他の外部記憶装置に、上記情報を書き込むことにより上記情報を出力してもよい。
【0062】
図8は、入出力部30Aが備える表示パネルに表示される表示データDDを示す図である。図8において、表示データDDは、逆温度βの推奨範囲、訓練データのサンプルサイズnの推奨範囲、学習率ηの推奨範囲、及び、パラメータ更新回数kの推奨範囲、を含む。
【0063】
<情報処理装置の効果>
以上のように、本例示的実施形態に係る情報処理装置1Aにおいては、決定部12が決定した範囲に収まるように、上記少なくとも何れかの超パラメータの値を設定する設定部13を更に備えている、構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Aによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、勾配降下法による学習に用いる超パラメータをより適切に決定できるという効果が得られる。また、設定部13が設定した超パラメータを提示部14が提示することで、情報処理装置1Aのユーザ等は、学習に有効な超パラメータの値を事前に把握可能である。特に、本例示的実施形態によれば、ユーザは、目標誤差以内の汎化性能の達成に必要な訓練データセットのサイズを事前に把握できる。
【0064】
また、本例示的実施形態に係る情報処理装置1Aにおいては、決定部12が決定した範囲を提示する提示部14を更に備えている、という構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Aによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、勾配降下法による学習に用いる超パラメータの好適な範囲をユーザが把握できるという効果が得られる。また、超パラメータの範囲を提示することで、パラメータの設定に関する理由をユーザが把握できる。また、提示された範囲を参照してユーザが超パラメータを設定することができる。
【0065】
また、本例示的実施形態に係る情報処理装置1Aにおいては、上記複数の超パラメータには、訓練データのサンプルサイズ、学習率、及び、パラメータ更新回数の少なくとも何れかが含まれる、構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Aによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、勾配降下法による学習に用いる超パラメータである、訓練データのサンプルサイズ、学習率、及び、パラメータ更新回数、の少なくともいずれかの範囲をより適切に決定できる、という効果が得られる。
【0066】
また、本例示的実施形態に係る情報処理装置1Aにおいては、上記複数の超パラメータには、逆温度が含まれるという構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Aによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、勾配降下法による学習に用いる超パラメータである逆温度の範囲をより適切に決定できるという効果が得られる。
【0067】
また、本例示的実施形態に係る情報処理装置1Aにおいては、上記損失関数が満たすべき条件には、損失関数の勾配の原点でのノルムの上界を表す定数、損失関数の勾配のリプシッツ定数を表す定数、及び、損失関数の散逸性を表す定数の少なくとも何れかが含まれる構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Aによれば、勾配降下法による学習に用いる超パラメータを適切に決定できるという効果が得られる。
【0068】
また、本例示的実施形態に係る情報処理装置1Aにおいては、上記勾配降下法の初期値に関する条件には、初期分布の2次モーメントの上界を表す定数、及び、初期分布の4次モーメントの上界を表す定数の少なくとも何れかが含まれる構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Aによれば、勾配降下法による学習に用いる超パラメータを適切に決定できるという効果が得られる。
【0069】
<変形例>
(変形例1)
上述の例示的実施形態において、訓練データzのサンプルサイズnを増やすことができない場合、情報処理装置1Aは、サンプルサイズnの範囲を決定する処理を行わず、他の超パラメータの範囲を決定してもよい。この場合、情報処理装置1Aは、サンプルサイズnについてのユーザ入力を受け付け、入力されたサンプルサイズnを固定する。このとき、期待損失Eを目標誤差内で最小化する条件は、以下のように表現される。そのため、この条件を満たすように、期待損失Eを目標誤差内で最小化することになる。
【数20】
【0070】
提示部14は、表示用データDDに、入力された特定のサンプルサイズの値に対応する誤差(Ugen n-1)について具体的な値を含める。図9は、入出力部30Aが備える表示パネルに表示される表示データDDを示す図である。図9において、表示データDDは、逆温度βの推奨範囲、パラメータ更新回数kの推奨範囲、訓練データのサンプルサイズnに対応する誤差、を含む。
【0071】
この態様によれば、利用するデータセットの与える汎化性能の限界を知ることで、勾配降下法Xkη (n,η)により構築したモデルについて、テストデータに対する結果の妥当性を判断することができる。
【0072】
(変形例2)
また、上述の例示的実施形態において、情報処理装置1Aは、決定された超パラメータを用いて、勾配降下法による学習を実施する学習部(図示略)を備えていてもよい。
【0073】
〔ソフトウェアによる実現例〕
情報処理装置1、1Aの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
【0074】
後者の場合、情報処理装置1、1Aは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図10に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1、1Aとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1、1Aの各機能が実現される。
【0075】
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
【0076】
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
【0077】
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
【0078】
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
【0079】
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
【0080】
(付記1)
損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得する取得手段と、勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、前記取得手段が取得した情報に応じて定まる範囲を決定する決定手段とを備えている情報処理装置。
【0081】
(付記2)
前記決定手段が決定した範囲に収まるように、前記少なくとも何れかの超パラメータの値を設定する設定手段を更に備えている付記1に記載の情報処理装置。
【0082】
(付記3)
前記決定手段が決定した範囲を提示する提示手段を更に備えている付記1に記載の情報処理装置。
【0083】
(付記4)
前記複数の超パラメータには、訓練データのサンプルサイズ、学習率、及び、パラメータ更新回数の少なくとも何れかが含まれる付記1から3の何れか1つに記載の情報処理装置。
【0084】
(付記5)
前記複数の超パラメータには、逆温度が含まれる付記4に記載の情報処理装置。
【0085】
(付記6)
前記損失関数が満たすべき条件には、損失関数の勾配の原点でのノルムの上界を表す定数、損失関数の勾配のリプシッツ定数を表す定数、及び、損失関数の散逸性を表す定数の少なくとも何れかが含まれる付記1から5の何れか1つに記載の情報処理装置。
【0086】
(付記7)
前記勾配降下法の初期値に関する条件には、初期分布の2次モーメントの上界を表す定数、及び、初期分布の4次モーメントの上界を表す定数の少なくとも何れかが含まれる付記1から6の何れか1つに記載の情報処理装置。
【0087】
(付記8)
少なくとも1つのプロセッサが、
損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得することと、
勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、前記取得する工程において取得された情報に応じて定まる範囲を決定することと、を含む情報処理方法。
【0088】
(付記9)
コンピュータを、損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得する取得手段、及び 勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、前記取得手段が取得した情報に応じて定まる範囲を決定する決定手段、として機能させる情報処理プログラム。
【0089】
(付記10)
少なくとも1つのプロセッサを備え、前記プロセッサは、損失関数が満たすべき条件、目標誤差、勾配降下法の初期値に関する条件、及びモデルパラメータの次元の少なくとも何れかを取得する取得処理と、勾配降下法による学習に用いる複数の超パラメータの少なくとも何れかの超パラメータが満たすべき範囲であって、前記取得処理において取得した情報に応じて定まる範囲を決定する決定処理とを実行する情報処理装置。
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記決定処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【符号の説明】
【0090】
1、1A 情報処理装置
11 取得部
12 決定部
13 設定部
14 提示部
S1、S1A 情報処理方法
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10