特許7551577 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許7551577学習装置、方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-06

(45)【発行日】2024-09-17

(54)【発明の名称】学習装置、方法及びプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240909BHJP

【ＦＩ】

G06N20/00

【請求項の数】 17

(21)【出願番号】P 2021133392

(22)【出願日】2021-08-18

(65)【公開番号】P2023027983

(43)【公開日】2023-03-03

【審査請求日】2023-03-15

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110003708

【氏名又は名称】弁理士法人鈴榮特許綜合事務所

(72)【発明者】

【氏名】新田修平

(72)【発明者】

【氏名】古庄泰隆

(72)【発明者】

【氏名】ロドリゲスムレーアルベール

(72)【発明者】

【氏名】谷口敦司

(72)【発明者】

【氏名】谷沢昭行

【審査官】青木重徳

(56)【参考文献】

【文献】特開２０２１－０３９６４０（ＪＰ，Ａ）

【文献】特開２０２０－１０７０４２（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／０３５９０７８（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１７／０１６１６４０（ＵＳ，Ａ１）

【文献】Atsuhi Yaguchi et al.，Adm Induces Implicit Weight Sparsity in Rectifier Neural Networks，arXiv:1812.08119，［オンライン］，2018年12月19日，v1，<URL: https://arxiv.org/pdf/1812.08119v1.pdf>，（２０２４年３月１５日検索）、インターネット

【文献】今井拓司，Sexy Technology，ＮＩＫＫＥＩＲｏｂｏｔｉｃｓ，日本，日経ＢＰ社，2019年04月10日，第４６号，ｐ．１６－２０

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

ＩＥＥＥＸｐｌｏｒｅ

ＴＨＥＡＣＭＤＩＧＩＴＡＬＬＩＢＲＡＲＹ

(57)【特許請求の範囲】

【請求項1】

第１の学習条件と前記第１の学習条件に従い学習された第１の機械学習モデルとを取得する取得部と、
前記第１の学習条件とは異なり、前記第１の機械学習モデルのモデルサイズを縮小化するための第２の学習条件を設定する設定部と、
前記第２の学習条件に従い、前記第１の機械学習モデルに基づいて、前記第１の機械学習モデルに比してモデルサイズの小さい第２の機械学習モデルを学習する学習部と、
前記第２の学習条件と同一ではなく且つ前記第１の学習条件に応じた第３の学習条件に従い、学習済みの第２の機械学習モデルに基づいて、第３の機械学習モデルを学習する再学習部と、
を具備する学習装置。

【請求項2】

前記第１の機械学習モデルに関する推論の精度を表す第１の推論精度と前記学習済みの第２の機械学習モデルに関する推論の精度を表す第２の推論精度との比較に基づいて、前記第３の機械学習モデルの学習の要否を判定する判定部を更に備え、
前記再学習部は、前記第３の機械学習モデルの学習が必要であると判定された場合、前記第３の機械学習モデルを学習する、
請求項１記載の学習装置。

【請求項3】

前記設定部は、互いに異なる複数の前記第２の学習条件を設定し、
前記学習部は、前記複数の第２の学習条件に従い複数の前記第２の機械学習モデルを学習して複数の学習済みの第２の機械学習モデルを生成し、
前記判定部は、前記複数の学習済みの第２の機械学習モデルのうちのモデルサイズが基準値以下の学習済みの第２の機械学習モデルに対応する前記第２の推論精度のうちの最良値と、前記第１の推論精度に基づく基準値との比較に基づいて、前記第３の機械学習モデルの学習の要否を判定する、
請求項２記載の学習装置。

【請求項4】

前記再学習部は、前記第３の機械学習モデルを、前記学習済みの第２の機械学習モデルのノード数、チャネル数、層数、カーネルサイズ及び／又は入力解像度の線形変換、又は、前記学習済みの第２の機械学習モデルのノード数、チャネル数、層数、カーネルサイズ及び／又は入力解像度の所定の自然数の倍数又は乗数の端数処理、に従い設定する、請求項１記載の学習装置。

【請求項5】

前記再学習部は、前記第３の機械学習モデルの学習パラメータを、所定の乱数に従い初期化する、又は前記学習済みの第２の機械学習モデルの学習済みの重み係数の一部をコピーして初期化する、請求項１記載の学習装置。

【請求項6】

前記設定部は、前記第２の学習条件として、前記第１の学習条件とは異なり、最適化手法をAdamに設定し、Ｌ２正則化を導入し、活性化関数を飽和非線形関数に設定する、請求項１記載の学習装置。

【請求項7】

前記設定部は、前記第２の学習条件として、前記第１の学習条件とは異なり、ＢＮ層を追加し、前記ＢＮ層にＬ１正則化を導入する、請求項１記載の学習装置。

【請求項8】

前記第１の機械学習モデル、前記学習済みの第２の機械学習モデル及び／又は学習済みの第３の機械学習モデルの構造を表示する表示部を更に備える、請求項１記載の学習装置。

【請求項9】

前記第１の機械学習モデル、前記学習済みの第２の機械学習モデル及び／又は学習済みの第３の機械学習モデルのモデルサイズを表示する表示部を更に備える、請求項１記載の学習装置。

【請求項10】

前記第１の機械学習モデル、前記学習済みの第２の機械学習モデル及び／又は学習済みの第３の機械学習モデルの性能を表示する表示部を更に備える、請求項１記載の学習装置。

【請求項11】

前記複数の学習済みの第２の機械学習モデルの推論精度及びモデルサイズを表す複数の点をプロットしたグラフを表示する表示部を更に備える、請求項３記載の学習装置。

【請求項12】

前記表示部は、前記グラフにおいて、前記基準値と前記最良値とに対応する点及び／又は前記基準値と前記最良値とを満たす領域を表示する、請求項１１記載の学習装置。

【請求項13】

前記表示部は、前記複数の点のうちの前記領域に含まれる点と前記領域に含まれない点とを異なる色で表示する、請求項１２記載の学習装置。

【請求項14】

前記表示部は、前記グラフにおいて、学習済みの第３の機械学習モデルの推論精度及びモデルサイズを表す点をプロットする、請求項１１記載の学習装置。

【請求項15】

前記表示部は、前記複数の学習済みの第２の機械学習モデルにそれぞれ対応する複数の点と、前記学習済みの第３の機械学習モデルに対応する点とを異なる形状、大きさ及び／又は色で表示する、請求項１４記載の学習装置。

【請求項16】

プロセッサが、
記憶装置に記憶されたプログラムを前記記憶装置から読み出して実行することにより、
第１の学習条件と前記第１の学習条件に従い学習された第１の機械学習モデルとを取得し、
前記第１の学習条件とは異なり、前記第１の機械学習モデルのモデルサイズを縮小化するための第２の学習条件を設定し、
前記第２の学習条件に従い、前記第１の機械学習モデルに基づいて、前記第１の機械学習モデルに比してモデルサイズの小さい第２の機械学習モデルを学習し、
前記第２の学習条件と同一ではなく且つ前記第１の学習条件に応じた第３の学習条件に従い、学習済みの第２の機械学習モデルに基づいて、第３の機械学習モデルを学習する、
ことを具備する学習方法。

【請求項17】

コンピュータに、
第１の学習条件と前記第１の学習条件に従い学習された第１の機械学習モデルとを取得させる機能と、
前記第１の学習条件とは異なり、前記第１の機械学習モデルのモデルサイズを縮小化するための第２の学習条件を設定させる機能と、
前記第２の学習条件に従い、前記第１の機械学習モデルに基づいて、前記第１の機械学習モデルに比してモデルサイズの小さい第２の機械学習モデルを学習させる機能と、
前記第２の学習条件と同一ではなく且つ前記第１の学習条件に応じた第３の学習条件に従い、学習済みの第２の機械学習モデルに基づいて、第３の機械学習モデルを学習させる機能と、
を実現させる学習プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、学習装置、方法及びプログラムに関する。

【背景技術】

【0002】

特許文献１に記載の技術は、複数の学習条件で学習したニューラルネットワークの推論精度とモデルサイズとをグラフで表示することにより、推論精度とモデルサイズとのトレードオフの確認を容易にする。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－１６４８３９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１に係る技術では、推論精度とモデルサイズのトレードオフにより、所望の性能（推論精度Ａ以上かつモデルサイズＢ以下など）を満たさない場合がある。その場合、さらに学習条件を調整して再学習を実行するには高い専門スキルや経験が必要であり、また、そのための確認や操作の作業は煩雑である。

【0005】

本発明が解決しようとする課題は、機械学習モデルに関する所望の性能を簡易に得ることが可能な学習装置、方法及びプログラムを提供することである。

【課題を解決するための手段】

【0006】

実施形態に係る学習装置は、取得部、設定部、学習部及び再学習部を有する。取得部は、第１の学習条件と前記第１の学習条件に従い学習された第１の機械学習モデルとを取得する。設定部は、前記第１の学習条件とは異なり、前記第１の機械学習モデルのモデルサイズを縮小化するための第２の学習条件を設定する。学習部は、前記第２の学習条件に従い、前記第１の機械学習モデルに基づいて、前記第１の機械学習モデルに比してモデルサイズの小さい第２の機械学習モデルを学習する。再学習部は、前記第２の学習条件と同一ではなく且つ前記第１の学習条件に応じた第３の学習条件に従い、前記第２の機械学習モデルに基づいて、第３の機械学習モデルを学習する。

【図面の簡単な説明】

【0007】

【図1】本実施形態に係る学習装置の構成例を示す図

【図2】本実施形態に係る学習装置による学習処理例の流れを示す図

【図3】第１の機械学習モデルの構成例を模式的に示す図

【図4】コンパクト化前後の第２の機械学習モデルを模式的に示す図

【図5】図２のステップＳ４において再学習が不要であると判定されたときの学習結果の表示画面の一例を示す図

【図6】図２のステップＳ４において再学習が必要であると判定されたときの学習結果の表示画面の一例を示す図

【図7】機械学習モデルの構造の表示画面の一例を示す図

【発明を実施するための形態】

【0008】

以下、図面を参照しながら本実施形態に係わる学習装置、方法及びプログラムを説明する。

【0009】

図１は、本実施形態に係る学習装置１００の構成例を示す図である。図１に示すように、学習装置１００は、処理回路１、記憶装置２、入力機器３、通信機器４及び表示機器５を有するコンピュータである。処理回路１、記憶装置２、入力機器３、通信機器４及び表示機器５間のデータ通信はバスを介して行われる。

【0010】

処理回路１は、ＣＰＵ（Central Processing Unit）等のプロセッサとＲＡＭ（Random Access Memory）等のメモリとを有する。処理回路１は、取得部１１、設定部１２、学習部１３、判定部１４、再学習部１５及び表示制御部１６を有する。処理回路１は、機械学習モデルの学習プログラムを実行することにより、上記各部１１～１６の各機能を実現する。学習プログラムは、記憶装置２等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。学習プログラムは、上記各部１１～１６の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部１１～１６は特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されてもよい。

【0011】

取得部１１は、種々のデータを取得する。例えば、取得部１１は、第１の学習条件と第１の機械学習モデルとを取得する。第１の学習条件は、第１の機械学習モデルに関する学習条件であり、推論の精度を重視した学習条件であるとする。第１の機械学習モデルは、第１の学習条件に従い学習された機械学習モデルである。機械学習モデルとしては、ニューラルネットワークが用いられる。また、取得部１１は、学習データや第１の推論精度を取得する。学習データは、第１の機械学習モデルの学習に使用した学習データである。第１の推論精度は、第１の機械学習モデルの推論の精度を表す値である。

【0012】

設定部１２は、第１の学習条件とは異なる学習条件であって、第１の機械学習モデルのモデルサイズを縮小化（コンパクト化）するための第２の学習条件を設定する。設定部１２は、第１の学習条件に基づいて第２の学習条件を設定してもよいし、第１の学習条件とは独立して第２の学習条件を設定してもよい。

【0013】

学習部１３は、第２の学習条件に従い、第１の機械学習モデルに基づいて、第１の機械学習モデルに比してモデルサイズの小さい第２の機械学習モデルを学習する。また、学習部１３は、第２の機械学習モデルに関する推論の精度を表す第２の推論精度を算出する。

【0014】

判定部１４は、第１の機械学習モデルに関する推論の精度を表す第１の推論精度と第２の機械学習モデルに関する推論の精度を表す第２の推論精度との比較に基づいて、第３の機械学習モデルの学習の要否を判定する。

【0015】

再学習部１５は、第２の学習条件と同一ではなく且つ第１の学習条件に応じた第３の学習条件に従い、第２の機械学習モデルに基づいて、第３の機械学習モデルを学習する。また、再学習部１５は、学習済みの第３の機械学習モデルに関する推論の精度を表す第３の推論精度を算出する。第３の学習条件は、第２の学習条件よりも推論の精度を重視した学習条件である。第３の機械学習モデルは、第２の機械学習モデルと同一又は第２の機械学習モデルを変形したモデル構造を有する。一例として、第３の機械学習モデルは、第１の学習条件と同一の第３の学習条件に従い学習され、第２の機械学習モデルに比して推論の精度が高い。

【0016】

表示制御部１６は、学習結果等の種々の情報を表示機器５に表示する。一例として、表示制御部１６は、第１の機械学習モデル、第２の機械学習モデル及び／又は第３の機械学習モデルの構造を表示する。他の例として、表示制御部１６は、第１の機械学習モデル、第２の機械学習モデル及び／又は第３の機械学習モデルのモデルサイズを表示する。他の例として、表示制御部１６は、第１の機械学習モデル、第２の機械学習モデル及び／又は第３の機械学習モデルの性能を表示する。

【0017】

記憶装置２は、ＲＯＭ（Read Only Memory）やＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、集積回路記憶装置等により構成される。記憶装置２は、学習プログラムや種々のデータ等を記憶する。

【0018】

入力機器３は、操作者からの各種指令を入力する。入力機器３としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器３からの出力信号は処理回路１に供給される。なお、入力機器３としては、処理回路１に有線又は無線を介して接続されたコンピュータの入力機器であってもよい。

【0019】

通信機器４は、学習装置１００にネットワークを介して接続された外部機器との間でデータ通信を行うためのインタフェースである。

【0020】

表示機器５は、表示制御部１６による制御に従い、種々の情報を表示する。表示機器５としては、ＣＲＴ（Cathode-Ray Tube）ディスプレイや液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、ＬＥＤ（Light-Emitting Diode）ディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。また、表示機器５は、プロジェクタでもよい。

【0021】

以下、学習装置１００の動作例について具体的に説明する。

【0022】

以下の実施例において、学習データを画像とし、機械学習モデルは、画像に描画された対象に応じて画像を分類する画像分類タスクを実行するニューラルネットワークであるとする。以下の実施例に係る画像分類タスクは、一例として、「犬」又は「猫」の何れかに分類する２クラスの画像分類であるとする。

【0023】

図２は、本実施形態に係る学習装置１００による学習処理例の流れを示す図である。処理回路１は、記憶装置２から学習プログラムを読み出して当該学習プログラムに従い動作することにより図２に例示する学習処理を実行する。当該学習処理は、所望の性能を簡易に得ることが可能な機械学習モデルの学習処理である。

【0024】

本実施例において機械学習モデルは、モデル構造と学習パラメータとを含むものとする。モデル構造は、ニューラルネットワークの種類や層数、ノード数、チャネル数等のハイパーパラメータにより決定される因子である。ノードはニューラルネットワークが多層パーセプトロン（ＭＬＰ：Multilayer Perceptron）であるときに観念され、チャネルはニューラルネットワークが畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）であるときに観念される。本実施形態に係るニューラルネットワークは何れの構造にも適用可能であるが、以下、多層パーセプトロンであるとする。学習パラメータは、機械学習モデルに設定されるパラメータであり、特に、学習の対象であるパラメータである。具体的には、学習パラメータは、重みパラメータやバイアス等のパラメータである。

【0025】

本実施形態に係る機械学習モデルの性能は、推論精度とモデルサイズとの組合せにより規定されるものとする。推論精度は、上記の通り、機械学習モデルの推論の精度であり、機械学習モデルのタスクが画像分類である場合、例えば、認識率が用いられる。モデルサイズは、機械学習モデルのサイズや計算負荷に関する指標である。モデルサイズの因子としては、学習パラメータの個数や隠れ層の層数、隠れ層のノード数又はチャネル数、推論乗算数、消費電力等がある。

【0026】

図２に示すように、まず取得部１１は、学習データ、第１の機械学習モデル、第１の学習条件及び第１の推論精度を取得する（ステップＳ１）。取得部１１は、これらデータを、他のコンピュータから通信機器４を介して取得してもよいし、記憶装置２から取得してもよい。

【0027】

学習データは、機械学習モデルの学習に用いるデータであり、複数の学習サンプルを有する。各学習サンプルは、入力画像ｘ_ｉと当該入力画像ｘ_ｉに対応する教示ラベルｔ_ｉとを有する。「ｉ」は、１、２、・・・、Ｎの値をとり、学習サンプルの通し番号を表す。「Ｎ」は、学習サンプルの個数を表す。入力画像ｘ_ｉは、横幅Ｈ、縦幅Ｖの画素集合であり、Ｈ×Ｖ次元のベクトルで表すことが可能である。教示ラベルｔ_ｉは、クラス数に対応する次元数のベクトルである。本実施例において教示ラベルｔ_ｉは、クラス「犬」に対応する要素とクラス「猫」に対応する要素とを有する２次元ベクトルである。各要素は、入力画像ｘ_ｉに当該要素に対応する対象が描画されている場合、「１」をとり、それ以外の対象が描画されている場合、「０」をとる。例えば、入力画像ｘ_ｉに「犬」が描画されている場合、教示ラベルｔ_ｉは（１，０）^Ｔで表される。

【0028】

本実施形態に係る機械学習モデルは、モデル構造と学習パラメータとにより規定されるものとする。モデル構造は、ニューラルネットワークの種類や層の種類、層間の接続関係、層数、ノード数等のハイパーパラメータにより決定される因子である。学習パラメータは、学習の対象であり、重みパラメータやバイアス等のパラメータである。

【0029】

第１の機械学習モデルは、コンパクト化前の機械学習モデルである。第１の機械学習モデルは、学習装置１００や他のコンピュータにより学習済みの機械学習モデルである。

【0030】

図３は、第１の機械学習モデル３０の構成例を模式的に示す図である。図３に示すように、第１の機械学習モデル３０は、第１のモデル構造３１と第１の学習パラメータ３２とにより構成される。第１のモデル構造３１は、入力層３３、隠れ層３４及び出力層３５を有する。入力層３３は、Ｈ＝２、Ｖ＝２の４次元ベクトルの入力画像を入力する。隠れ層３４は、ノード数＝８、層数＝３の全結合であるとする。出力層３５は、犬と猫各々の推定確率値を出力する。第１の学習パラメータ３２は、層間の変換に係る重みパラメータとバイアスとを有する。図３では簡単化のためにバイアスに関する表記は省略している。重みパラメータは、行列Ｗ＝｛Ｗ^（ｌ）｝（ｌ＝１，２，３，４＝Ｌ）で表される。本実施例の場合、各行列Ｗ^（ｌ）のサイズ（重みパラメータの個数）は３２、６４、６４、１６であり、重みパラメータの合計数は１７６となる。図３では各重みパラメータを白い四角で表している。

【0031】

第１の学習条件は、コンパクト化前の機械学習モデルのための学習条件であり、推論精度を重視した学習条件である。学習条件としては、一例として、活性化関数の種類やオプティマイザ（最適化手法）の種類、Ｌ２正則化強度、エポック数、ミニバッチサイズが設定される。第１の学習条件は、一例として、活性化関数の種類「Leaky ReLU」、オプティマイザの種類「Momentum SGD（学習率α＝０．１）」、Ｌ２正則化強度「λ＝０」、エポック数「１００」、ミニバッチサイズ「１２８」に設定されているものとする。なお、学習条件の種類は上記種類に限定されない。

【0032】

第１の推論精度は、第１の機械学習モデルを第１の学習条件に従い訓練して得られた学習済みの第１の機械学習モデルの推論精度を意味する。本実施例では、学習データとは異なる評価用データで、学習済みの第１の機械学習モデルにより推論したときの認識率である。一例として、第１の推論精度は９５％であるとする。

【0033】

ステップＳ１が行われると設定部１２は、第２の学習条件を設定する（ステップＳ２）。第２の学習条件は、第１の学習条件とは異なり、コンパクト化学習のための学習条件である。設定部１２は、第２の学習条件として、第１の学習条件から、オプティマイザの種類、正則化の種類及び正則化の強度の少なくとも一方を変更する。本実施例では、コンパクト化学習手法として、米国特許出願公開第US2020/0012945号明細書に記載の技術を用いる。当該技術では、オプティマイザをAdam、活性化関数をReLUのような飽和非線形関数とし、Weight decayありで学習することで自動的に一部のノードにつながる重みパラメータがゼロとなるように学習され、結果、ニューラルネットワークのモデルサイズを小さくすることができる。

【0034】

本実施例に係る設定部１２は、第１の学習条件から、コンパクト化手法を適用するために必要な項目を変更して第２の学習条件を設定する。第２の学習条件の具体的な設定内容は以下の通りである。活性化関数の種類「ReLU」、オプティマイザの種類「Adam（学習率α＝０．０１）」、Ｌ２正則化強度「λ（Weight decay）＝１ｅ－６，１ｅ－５，１ｅ－４，１ｅ－３，１ｅ－２」、エポック数「１００」、ミニバッチサイズ「１２８」に設定されているものとする。Weight decayの強度は、推論精度（認識率）とモデルサイズとのトレードオフを調整するハイパーパラメータであり、本実施例では上述の５バリエーションを第２の学習条件として設定する。計算機リソースが潤沢にある場合、ミニバッチにおける学習サンプルを、複数個の乱数シードに基づいて選択してもよい。

【0035】

ステップＳ２が行われると学習部１３は、第２の機械学習モデルを学習する（ステップＳ３）。ステップＳ３において学習部１３は、ステップＳ２において設定された第２の学習条件に従い、ステップＳ１において取得された学習データに基づいて、ステップＳ１において取得された第１の機械学習モデルのモデル構造に割り当てられた学習パラメータを訓練（反復的に学習）する。訓練済みの学習パラメータを第２の学習パラメータと呼ぶ。第２の学習パラメータが割り当てられた機械学習モデルを第２の機械学習モデルと呼ぶ。より詳細には、第２の機械学習モデルのモデル構造（第２のモデル構造）は、第２の学習パラメータの値に応じて第１のモデル構造を最適化（コンパクト化）したモデル構造である。更に学習部１３は、第２の機械学習モデルに評価用データを適用して第２の推論精度を算出する。

【0036】

ステップＳ３においては、１個以上の第２の学習条件に従い１個以上の第２の機械学習モデルが学習される。本実施例の場合、複数個の第２の学習条件に従い複数個の第２の機械学習モデルが学習されるものとする。

【0037】

機械学習モデルの学習は、下記（１）式及び（２）式で表される。

【0038】

yｉ＝ｆ（Ｗ, ｘｉ）・・・（１）
Ｌｉ＝－ｔｉ^Ｔｌｎ（yｉ）・・・（２）

【0039】

式（１）は、学習サンプルｘｉを入力としたときの機械学習モデルの出力ｙｉを表す。ここで、ｆは、パラメータ集合Ｗを保持する機械学習モデルの関数であり、全結合層と活性化関数との演算を繰り返し、２次元ベクトルを出力する。なお、本実施例では、関数ｆはソフトマックス処理後の出力とし、出力ベクトルは全て非負の要素かつ、要素の総和が１に正規化されているものとする。式（２）は、学習サンプルｘｉの学習誤差Ｌｉの計算式を表す。本実施例に係る学習誤差Ｌｉは、教示ラベルｔｉと機械学習モデルの出力ｙｉとのクロスエントロピーにより規定される。

【0040】

本実施例に係る学習部１３は、一部の学習サンプル集合の学習誤差の平均で算出される学習誤差を最小化するように、誤差逆伝播法と確率的勾配降下法とを繰り返し、機械学習モデルのパラメータ集合Ｗの値を訓練する。ステップＳ３において学習部１３は、学習誤差を最小化するように、誤差逆伝播法と確率的勾配降下法とを繰り返し、第２の学習パラメータを訓練する。学習部１３は、訓練済みの第２の学習パラメータに従い第１のモデル構造（コンパクト化前の第２のモデル構造）をコンパクト化して第２のモデル構造（コンパクト化後の第２のモデル構造）を算出する。

【0041】

図４は、コンパクト化前後の第２の機械学習モデル４１１，４２１を模式的に示す図である。図４の左図は、コンパクト化前の第２の機械学習モデル４１１を示し、図４の右図は、コンパクト化後の第２の機械学習モデル４２１を示す。コンパクト化前の第２の機械学習モデル４１１は、コンパクト化前の第２のモデル構造４１２及び学習パラメータ４１３を有する。第２のモデル構造４１２は、第１の機械学習モデルのモデル構造（第１のモデル構造）に等しいものとする。図４において第２の学習パラメータ４１３は、図３と同様、重みパラメータを有するパラメータ集合Ｗ＝｛Ｗ^（ｌ）｝（ｌ＝１，２，３，４＝Ｌ）のみを図示している。第２の学習条件で学習が行われた場合、図４の左図に示すように、一部のノードに接続する重みパラメータは、微小な閾値以下に収束することとなる。この微小な閾値は、例えば、１ｅ－６に設定される。なお、図４において、第２の重みパラメータを表す四角のうち白い四角は閾値以上の値を有する重みパラメータを表し、グレーの四角は閾値以下の値を有する重みパラメータを表す。

【0042】

学習部１３は、学習済みの重みパラメータの値に応じて第２のモデル構造４１２をコンパクト化する。コンパクト化は米国特許出願公開第US2020/0012945号明細書に記載の技術により実行される。例えば、学習部１３は、コンパクト化前の第２のモデル構造４１２に含まれるノードの中から、閾値以下の重みパラメータに接続するノード４５を削除し、閾値以上の重みパラメータに接続するノード４６を残す。これによりコンパクト化後の第２のモデル構造４２２が生成される。コンパクト化後の第２の学習パラメータ４２３の重みパラメータは全て閾値以上の値を有することとなる。コンパクト化後の第２の学習パラメータ４２３が割り当てられた第２のモデル構造４２２は、コンパクト化後の第２の機械学習モデル４２１を構成する。

【0043】

第２の機械学習モデル４２１は、第１の機械学習モデルと等価の計算をするコンパクト化された機械学習モデルである。第２の学習条件のWeight decayの強度が大きいほど第２のモデル構造４２２は、第１のモデル構造に比して、モデルサイズが小さく、推論精度が低下（認識率が下がる）する傾向にある。

【0044】

ステップＳ３が行われると判定部１４は、再学習を行うか否かを判定する（ステップＳ４）。ステップＳ４において判定部１４は、第１の推論精度と第２の推論精度との比較に基づいて再学習を行うか否かを判定する。一例として、ステップＳ３において複数個の第２の機械学習モデルが学習された場合、判定部１４は、所定のモデルサイズ（以下、サイズ基準値）以下となる複数個の第２の推論精度のうちの最良値と、第１の推論精度に基づく基準値（以下、精度基準値）との比較に基づいて再学習を行うか否かを判定する。換言すれば、判定部１４は、第２の推論精度が、サイズ基準値と精度基準値とに基づく判断基準に応じて、再学習の要否を判定する。サイズ基準値と精度基準値とは、機械学習モデルを搭載する計算機のスペックや性能の要求仕様に基づいて定められる。より詳細には、サイズ基準値は、第１の機械学習モデルのモデルサイズを基準に設定され、典型的には、第１の機械学習モデルのモデルサイズよりも低く且つ需要者が妥協する最大限の値に設定されるとよい。あるいは、サイズ基準値は、第１の機械学習モデルのモデルサイズに対する所定の比率又は当該モデルサイズを所定値で減算した値に設定されてもよい。同様に、精度基準値は、第１の推論精度を基準に設定され、典型的には、第１の推論精度よりも低く且つ需要者の満足する最低限の値に設定されるとよい。あるいは、精度基準値は、第１の推論精度に対する所定の比率又は第１の推論精度を所定値で減算した値に設定されてもよい。

【0045】

具体的には、Ｌ２正則化強度λ（Weight decay）＝｛１ｅ－６，１ｅ－５，１ｅ－４，１ｅ－３，１ｅ－２｝に対応するコンパクト化後の第２のモデル構造のパラメータ数が｛１２２，１１０，１００，８２，５８｝であり、第２の推論精度が｛９０％，８８％，８７％，８０％，６０％｝であったとする。また、サイズ基準値が１００、精度基準値が８５％であるとする。

【0046】

この場合、第２のモデル構造のパラメータ数が１００以下となる第２の機械学習モデルの推論精度は、｛８７％，８０％，６０％｝である。そのうちの最良値は、最も数値が高い８７％である。最良値＝８７％は精度基準値＝８５％よりも大きい（優れる）ため、判断基準が充足される。そのため再学習を行わないと判定される（ステップＳ４：ＮＯ）。

【0047】

他の例として、サイズ基準値が８０、精度基準値が８５％とする。この場合、上述の判断基準により、再学習を行うと判定される（ステップＳ４：ＹＥＳ）。なお、上記例においては、サイズ基準値以下となる複数個の第２の推論精度のうちの最良値と、精度基準値との比較に基づいて再学習を行うか否かを判定するものとした。しかしながら、本実施形態はこれに限定されない。例えば、単純に、第１の推論精度と最良値との差分値と、閾値との大小関係に基づいて再学習を行うか否かを判定してもよい。

【0048】

再学習を行うと判定された場合（ステップＳ４：ＹＥＳ）、再学習部１５は、第３の機械学習モデルを学習する（ステップＳ５）。ステップＳ５において再学習部１５は、第３の学習条件、第３のモデル構造及び第３の学習条件に基づいて第３の機械学習モデルを学習する。

【0049】

ステップＳ５において再学習部１５は、第３の機械学習モデルのモデル構造（第３のモデル構造）を、第２の機械学習モデルのモデル構造（第２のモデル構造）に基づいて設定する。より詳細には、再学習部１５は、第３のモデル構造も、第２のモデル構造のノード数、チャネル数、層数、カーネルサイズ及び／又は入力解像度の線形変換、又は、第２のモデル構造のノード数、チャネル数、層数、カーネルサイズ及び／又は入力解像度の所定の自然数の倍数又は乗数の端数処理、に従い設定する。例えば、参考技術１（Ariel Gordon et al., " MorphNet: Fast & Simple Resource-Constrained Structure Learning of Deep Networks", in CVPR2018）に従い、サイズ基準値以下の範囲で第２のモデル構造を変形したモデル構造を第３のモデル構造として用いる。ここで「変形」とは、サイズ基準値以下の第２のモデル構造のノード数やチャネル数等を微少量だけ増減させることを指す。また、サイズ基準値よりも微少量だけ大きいモデルサイズを有する第２のモデル構造に等しい又は変形したモデル構造を、第３のモデル構造として用いてもよい。なお、第３のモデル構造は、コンパクト化後の第２のモデル構造と同一でもよい。

【0050】

ステップＳ５において再学習部１５は、第３の学習条件を、第１の学習条件に基づいて算出する。第１の学習条件は、コンパクト化前に検討した有効な学習条件であり、コンパクト化のために変更した第２の学習条件よりも性能面では優れている可能性が高い。そのため、第３の学習条件は、第２の学習条件とは同一でなく、且つ第１の学習条件と同一に設定されるとよい。より高度な設定としては、例えば、モデルサイズの削減量（削減割合）に応じたテーブルや計算式を用いて、第１の学習条件の学習率やエポック数を減らした学習条件を第３の学習条件に設定してもよい。

【0051】

ステップＳ５において再学習部１５は、上記の通り設定された第３の学習条件に従い、ステップＳ１において取得された学習データに基づいて、第３の機械学習モデルのモデル構造に割り当てられた第３の学習パラメータを訓練（反復的に学習）し、学習済みの第３の機械学習モデルを生成する。第３の機械学習モデルの学習は、ファイン（Fine）学習又はスクラッチ（Scratch）学習で行われるとよい。ファイン学習は、学習済みの第２の機械学習モデルの学習パラメータの一部又は全部を初期値として、全ての学習パラメータを訓練し直す方法である。スクラッチ学習は、所定の乱数で初期化した学習パラメータを初期値として、全ての学習パラメータを訓練し直す方法である。ファイン学習とスクラッチ学習とを混合した方法により学習パラメータの初期値が設定されてもよい。これら初期値の設定方法に応じて、第３の学習条件のうち、特に学習率を変更してもよい。再学習後、再学習部１５は、学習済みの第３の機械学習モデルに評価用データを適用して第３の推論精度を算出する。

【0052】

ステップＳ４において再学習が不要であると判定された場合（ステップＳ４：ＮＯ）又はステップＳ５が行われた場合、表示制御部１６は、学習結果を表示する（ステップＳ６）。学習結果としては、各機械学習モデルのモデル構造やモデルサイズ、推論精度を含む。学習結果は、所定のレイアウトで表示機器５に表示される。

【0053】

図５は、ステップＳ４において再学習が不要であると判定されたときの学習結果の表示画面Ｉ１の一例を示す図である。図５に示すように、表示画面Ｉ１には、学習結果として、縦軸が認識率[％]で表され、横軸がパラメータ数で表されたグラフＩ１１が表示される。なお、認識率は推論精度の一例であり、パラメータ数はモデルサイズの一例である。グラフＩ１１には、ステップＳ３において学習された複数の第２の機械学習モデルにそれぞれ対応する複数の点がプロットされている。また、グラフＩ１１には、第１の機械学習モデルに対応する点もプロットされるとよい。各点は、各機械学習モデルの推論精度及びモデルサイズを表している。第２の機械学習モデルに対応する点と、第１の機械学習モデルに対応する点とは、異なる形状、大きさ及び／又は色で表示されるとよい。例えば、図５において第２の機械学習モデルに対応する５個の点は黒丸で描かれ、第１の機械学習モデルに対応する点は×印で描かれている。また、当該点に交差するように第１の機械学習モデルの推論精度を示す太線とモデルサイズを示す太線とがグラフＩ１１に重畳される。このように第１の機械学習モデル及び第２の機械学習モデルの推論精度及びモデルサイズをグラフで表示することにより、これらの関係性を視覚的に明瞭に把握することができ、ひいては、所望の推論精度及びモデルサイズを有する機械学習モデルを容易に特定することが可能になる。

【0054】

グラフＩ１１には、ステップＳ４における再学習の判断基準Ｒ０に対応する点が表示される。当該点は図５において三角で表示されている。図５においては、判断基準Ｒ０は、上述の例と同様、サイズ基準値＝１００且つ認識率＝８５％である。また、グラフＩ１１には、当該判断基準Ｒ０を満たす領域Ｉ１２が赤色等で視覚的に強調して表示されるとよい。第２の機械学習モデルに対応する複数の点のうち領域Ｉ１２に含まれる点、すなわち、再学習の判断基準を満たす点は、満たさない点とは、異なる形状、大きさ及び／又は色で表示されるとよい。一例として、領域Ｉ１２に含まれる点は赤色で表示され、領域Ｉ１２に含まれない点は黒色で表示されるとよい。このように判断基準に対応する点や判断基準を満たす領域をグラフＩ１１に表示することにより、各機械学習モデルが判断基準を満たしているか否かを視覚的に容易に判断することが可能になる。

【0055】

図５に示すように、各機械学習モデルに対応する点について、当該点に対応する機械学習モデルの推論精度及びモデルサイズを記述する数値が当該点に視覚的に関連付けて表示されるとよい。第２の機械学習モデルＲ２に対応する点については、判断基準Ｒ０を満たす点に限定して推論精度とパラメータ数との数値が表示されてもよい。例えば、図５に示すように、領域Ｉ１２に含まれる第２の機械学習モデルＲ２の点に関連付けて「Ｒ２：８７％，１００_{ｐａｒａｍｓ}」が表示される。もちろん、第２の機械学習モデルＲ２に対応する全ての点について数値が表示されてもよいし、入力機器３等を介して指定された点のみについて数値が表示されてもよい。また、判断基準Ｒ０に対応する点に関連付けて「Ｒ０：８５％，１００_{ｐａｒａｍｓ}」が表示され、第１の機械学習モデルＲ１に対応する点に関連付けて「Ｒ１：９５％，１７６_{ｐａｒａｍｓ}」が表示されてもよい。

【0056】

図６は、ステップＳ４において再学習が必要であると判定されたときの学習結果の表示画面Ｉ２の一例を示す図である。図６に示すように、表示画面Ｉ２には、学習結果として、図５と同様、縦軸が認識率[％]で表され、横軸がパラメータ数で表されたグラフＩ２１が表示される。グラフＩ２１には、ステップＳ３において学習された複数の第２の機械学習モデルＲ２にそれぞれ対応する複数の点、第１の機械学習モデルＲ１に対応する点、更に第３の機械学習モデルＲ３に対応する点がプロットされている。各点は、各機械学習モデルの推論精度及びモデルサイズを表している。また、グラフＩ２１には、グラフＩ１１と同様、判断基準Ｒ０に対応する点及び判断基準を満たす領域Ｉ２２が表示される。第２の機械学習モデルＲ２に対応する点と第１の機械学習モデルＲ１に対応する点と第３の機械学習モデルＲ３に対応する点とは、異なる形状、大きさ及び／又は色で表示されるとよい。このように第１の機械学習モデル、第２の機械学習モデルＲ２及び第３の機械学習モデルＲ３の推論精度及びモデルサイズをグラフで表示することにより、これらの関係性を視覚的に明瞭に把握することができ、ひいては、所望の推論精度及びモデルサイズを有する機械学習モデルを容易に特定することが可能になる。例えば、図６によれば、再学習により、第２の機械学習モデルＲ２の最良値に比して、第３の機械学習モデルＲ３の推論精度（認識率）が向上していること、更には向上の程度を容易に把握することが可能になる。

【0057】

図６に示すように、第２の機械学習モデルＲ２に対応する複数の点のうちの、モデルサイズの基準を満たし且つ推論精度が最良値をとる点が青色等で視覚的に強調されるとよい。図５と同様、各機械学習モデルに対応する各点について、当該点に対応する機械学習モデルの推論精度及びモデルサイズを記述する数値が、当該点に視覚的に関連付けて表示されるとよい。この際、推論精度及びモデルサイズを記述する数値は、判断基準Ｒ０を満たしたものと満たさないものとで視覚的に区別して表示するとよい。例えば、判断基準Ｒ０を満たした推論精度及びモデルサイズを表す数値を赤色で表示し、満たさない数値を青色で表示するとよい。

【0058】

表示制御部１６は、第１の機械学習モデル、第２の機械学習モデル及び／又は第３の機械学習モデルの構造を表示機器５に表示してもよい。一例として、表示制御部１６は、図５や図６においてグラフＩ１１，Ｉ２１に表示されている第１の機械学習モデル、第２の機械学習モデル及び／又は第３の機械学習モデルに対応する点が入力機器３を介して指定された場合、指定された点に対応する機械学習モデルの構造を表示する。

【0059】

図７は、機械学習モデルの構造の表示画面Ｉ３の一例を示す図である。図７に示すように、第２の機械学習モデルＲ２に対応する点が入力機器３を介して指定された場合、表示制御部１６は、第２の機械学習モデルＲ２の構造を表示する。具体的には、第２の機械学習モデルに対応する点が入力機器３を介して指定された場合、表示制御部１６は、表示ウィンドウＩ３１を表示する。表示ウィンドウＩ３１は、指定された第２の機械学習モデルＲ２のモデル構造の模式図Ｉ３２と重みパラメータの模式図Ｉ３３とを表示する。模式図Ｉ３２には、第２の機械学習モデルＲ２の層数とノード数とを視認可能なように、各層と当該各層に含まれるノードとが描画されている。模式図Ｉ３３には、層間のパラメータ集合Ｗ’^（ｌ）の重みパラメータの個数を視認可能なように、重みパラメータを表す四角が描画されている。コンパクト化前の重みパラメータの要素数を表す点線等が描画されてもよい。

【0060】

操作者は、図５～図７等に例示する学習結果を確認し、所望の性能を有する第２の機械学習モデル又は第３の機械学習モデルを選択する。例えば、再学習が不要であると判定された場合、判断基準を満たす第２の機械学習モデルが選択され、再学習が実施された場合、第３の機械学習モデルが選択されることとなる。選択された第２の機械学習モデル又は第３の機械学習モデルは、記憶装置２や可搬型の記録媒体に保存されたり、通信機器４を介して需要者のコンピュータに転送されたりするとよい。

【0061】

ステップＳ６が行われると図２に例示する学習処理が終了する。

【0062】

上記の学習処理によれば、コンパクト化前後の性能を比較し、自動的に再学習の要否が判定される。コンパクト化後に性能が低下しておらず判定基準を満たす場合、コンパクト化により生成された第２の機械学習モデルが採用され、性能が判定基準に達していない場合、再学習を実施し、再学習により生成された第３の機械学習モデルが採用されることとなる。このような学習工程によれば、モデルサイズと推論精度とのバランスのとれた良好な性能を有する機械学習モデルを効率的に探索することが可能になる。

【0063】

なお、本実施形態は、上述した実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で変更することができる。

【0064】

（変形例１）
上記実施例において機械学習モデルのタスクは画像分類であるとした。しかしながら、本実施形態はこれに限定されない。一例として、本実施形態に係るタスクはセマンティックセグメンテーションや物体検出、生成モデル等にも適用可能である。また、機械学習モデルへの入力は画像データに限定されず、例えば、入力が文章データである場合、タスクは機械翻訳でもよい、他の例として、機械学習モデルの入力が音声データである場合、タスクは音声認識でもよい。

【0065】

（変形例２）
上記実施例において機械学習モデルのモデル構造は多層パーセプトロン（ＭＬＰ）であるとした。しかしながら、本実施形態はこれに限定されない。本実施形態に係るモデル構造は、ＣＮＮやＲＮＮ（Recurrent Neural Network）、ＬＳＴＭ（Long Short-Term Memory）等の如何なるモデル構造にも適用可能である。

【0066】

（変形例３）
上記実施例において取得部１１は、既に計算された第１の機械学習モデル及び第１の推論精度を、他のコンピュータ等から取得するものとした。しかしながら、本実施形態はこれに限定されない。一例として、処理回路１は、学習データ、第１の機械学習モデルのモデル構造及び第１の学習条件に基づいて第１の機械学習モデルを学習してもよい。この場合、処理回路１は、学習済みの第１の機械学習モデルに評価用データを適用して第１の推論精度を算出するとよい。

【0067】

（変形例４）
変形例４に係る設定部１２は、第２の学習条件として、第１の学習条件とは異なり、最適化手法をAdamに設定し、Ｌ２正則化を導入し、活性化関数を飽和非線形関数に設定する。例えば、上記米国特許出願公開第US2020/0012945号明細書に記載の技術を用いてコンパクト化を実行する場合、活性化関数がReLU以外の飽和非線形関数に設定されるとよい。設定部１２は、第２の学習条件に関する活性化関数を、第１の学習条件で定める活性化関数に挙動が最も近い飽和非線形関数をテーブル（ＬＵＴ：Look Up Table）から選択してもよい。一例として、第１の学習条件に関する活性化関数がシグモイドである場合、第２の学習条件に関する活性化関数として、ハードシグモイドが選択されるとよい。

【0068】

上記米国特許出願公開第US2020/0012945号明細書に記載の技術以外の技術を用いてコンパクト化を実行する場合、設定部１２は、第２の学習条件を、コンパクト化手法の特性に応じて設定するとよい。一例として、コンパクト化手法として参考技術２（Jianhui Yu et al., “Slimmable Neural Networks”, ICLR2019）では、バッチノーマライゼーション（ＢＮ：Batch Normalization）層にＬ１正則化を導入することで、学習後、不要な隠れ層のチャネルを枝刈りすることが可能である。この場合、設定部１２は、第２の学習条件に関し、ＢＮ層を追加し、当該ＢＮ層にＬ１正則化を導入する。Ｌ１正則化強度は、複数個設定されるとよい。

【0069】

（変形例５）
上記実施例において再学習部１５は、機械学習モデルの学習の効率化の観点から、サイズ基準値と精度基準値とに基づいて選択された１個の第２の機械学習モデルに対してのみ再学習を実行した。しかしながら、潤沢な計算機リソースを活用できる場合、再学習部１５は、全ての第２の機械学習モデルに対して再学習を実行してもよい。この場合、複数の第３の機械学習モデルの中から、サイズ基準値と精度基準値とに基づき最終的な第３の機械学習モデルが選択されるとよい。変形例５においては、全ての第２の機械学習モデルに対して再学習が行われるので、判定部１４は不要である。

【0070】

（変形例６）
上記図２の実施例において表示制御部１６は、ステップＳ４において再学習が行われないと判定された場合（ステップＳ４：ＮＯ）又はステップＳ５が行われた場合に、ステップＳ６において学習結果を表示するものとした。しかしながら、本実施形態はこれに限定されない。一例として、ステップＳ４の実行時において表示制御部１６は、第１の推論精度、第２の推論精度、サイズ基準値及び精度基準値を表示してもよい。その後、再学習部１５は、サイズ基準値及び精度基準値により規定される判断基準を修正し、その後の第３の機械学習モデルの学習及び第３の推論精度の算出（ステップＳ５）を実施し、表示制御部１６は、学習結果を表示（ステップＳ６）してもよい。

【0071】

（付言）
上記の幾つかの実施例によれば、学習装置１００は、取得部１１、設定部１２、学習部１３及び再学習部１５を有する。取得部１１は、第１の学習条件と前記第１の学習条件に従い学習された第１の機械学習モデルとを取得する。設定部１２は、第１の学習条件とは異なり、第１の機械学習モデルのモデルサイズを縮小化するための第２の学習条件を設定する。学習部１３は、第２の学習条件に従い、第１の機械学習モデルに基づいて、第１の機械学習モデルに比してモデルサイズの小さい第２の機械学習モデルを学習する。再学習部１５は、第２の学習条件と同一ではなく且つ第１の学習条件に応じた第３の学習条件に従い、第２の機械学習モデルに基づいて、第３の機械学習モデルを学習する。

【0072】

かくして、本実施形態によれば、機械学習モデルに関する所望の性能を簡易に得ることが可能になる。

【0073】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0074】

１…処理回路、２…記憶装置、３…入力機器、４…通信機器、５…表示機器、１１…取得部、１２…設定部、１３…学習部、１４…判定部、１５…再学習部、１６…表示制御部、１００…学習装置。

【図1】