特許7404404 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ハイテクノロジーズの特許一覧

特許7404404学習処理装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-15

(45)【発行日】2023-12-25

(54)【発明の名称】学習処理装置及び方法

(51)【国際特許分類】

G06N 3/082 20230101AFI20231218BHJP

G06N 3/096 20230101ALI20231218BHJP

G06N 3/0495 20230101ALI20231218BHJP

【ＦＩ】

G06N3/082

G06N3/096

G06N3/0495

【請求項の数】 9

(21)【出願番号】P 2021575563

(86)(22)【出願日】2020-02-07

(86)【国際出願番号】 JP2020004878

(87)【国際公開番号】W WO2021157067

(87)【国際公開日】2021-08-12

【審査請求日】2022-06-17

(73)【特許権者】

【識別番号】501387839

【氏名又は名称】株式会社日立ハイテク

(74)【代理人】

【識別番号】110000350

【氏名又は名称】ポレール弁理士法人

(72)【発明者】

【氏名】石川昌義

(72)【発明者】

【氏名】大内将記

(72)【発明者】

【氏名】新藤博之

(72)【発明者】

【氏名】豊田康隆

(72)【発明者】

【氏名】篠田伸一

【審査官】多賀実

(56)【参考文献】

【文献】米国特許出願公開第２０１８／０１１４１１４（ＵＳ，Ａ１）

【文献】HAN, Song et al.，"DSD: Dense-Sparse-Dense Training for Deep Neural Networks"，arXiv.org [online]，米国，Cornell University，2017年，arXiv:1607.04381v2，pp.1-13，[検索日 2020.03.30], インターネット:<URL: https://arxiv.org/pdf/1607.04381v2.pdf>

【文献】JANG, Eric et al.，"Categorical Reparameterization with Gumbel-Softmax"，arXiv.org [online]，米国，Cornell University，2017年，arXiv:1611.01144v5，pp.1-13，[検索日 2020.03.30], インターネット:<URL: https://arxiv.org/pdf/1611.01144v5.pdf>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

既存の第1の学習モデルから新たな第２の学習モデルを得る学習処理装置であって、
第１の学習データセットを学習して事前生成された第１の学習モデルと枝刈りされていないニューラルネットワークを得る入力部と、前記第１の学習モデルと前記ニューラルネットワークを用いて学習対象の前記ニューラルネットワークを初期化し、第２の学習データセットと初期化された前記ニューラルネットワークを用いて、初期化された前記ニューラルネットワークの認識処理におけるパラメータの重要度を特定する重要パラメータ特定部と、前記パラメータの重要度を用いて、初期化された前記ニューラルネットワークから重要でないパラメータを削除する枝刈り処理を行い第２のニューラルネットワークを生成する新モデル生成部と、前記第２の学習データセットを用いて前記第２のニューラルネットワークを学習する学習部と、学習後の前記第２のニューラルネットワークを第２の学習モデルとして出力する出力部とを備え、
複数の前記第１の学習モデルについて、前記重要パラメータ特定部で求めたパラメータの重要度をそれぞれ求めて、前記第１の学習モデルの種別とともに記憶し、重要度情報として提示する表示部を備えることを特徴とする学習処理装置。

【請求項2】

請求項１に記載の学習処理装置であって、
前記重要度は、重要度総和と枝刈り後重要度総和を含むことを特徴とする学習処理装置。

【請求項3】

既存の第1の学習モデルから新たな第２の学習モデルを得る学習処理装置であって、
第１の学習データセットを学習して事前生成された第１の学習モデルと枝刈りされていないニューラルネットワークを得る入力部と、前記第１の学習モデルと前記ニューラルネットワークを用いて学習対象の前記ニューラルネットワークを初期化し、第２の学習データセットと初期化された前記ニューラルネットワークを用いて、初期化された前記ニューラルネットワークの認識処理におけるパラメータの重要度を特定する重要パラメータ特定部と、前記パラメータの重要度を用いて、初期化された前記ニューラルネットワークから重要でないパラメータを削除する枝刈り処理を行い第２のニューラルネットワークを生成する新モデル生成部と、前記第２の学習データセットを用いて前記第２のニューラルネットワークを学習する学習部と、学習後の前記第２のニューラルネットワークを第２の学習モデルとして出力する出力部とを備え、
前記重要パラメータ特定部が与える重要度について、学習対象の認識処理に重要な特徴を、前記第１の学習モデルが学習できていない場合に、枝刈りされるパラメータを部分的に再度初期化する部分的再初期化部を備え、部分的再初期化後に前記新モデル生成部の処理を行うことを特徴とする学習処理装置。

【請求項4】

既存の第1の学習モデルから新たな第２の学習モデルを得る学習処理装置であって、
第１の学習データセットを学習して事前生成された第１の学習モデルと枝刈りされていないニューラルネットワークを得る入力部と、前記第１の学習モデルと前記ニューラルネットワークを用いて学習対象の前記ニューラルネットワークを初期化し、第２の学習データセットと初期化された前記ニューラルネットワークを用いて、初期化された前記ニューラルネットワークの認識処理におけるパラメータの重要度を特定する重要パラメータ特定部と、前記パラメータの重要度を用いて、初期化された前記ニューラルネットワークから重要でないパラメータを削除する枝刈り処理を行い第２のニューラルネットワークを生成する新モデル生成部と、前記第２の学習データセットを用いて前記第２のニューラルネットワークを学習する学習部と、学習後の前記第２のニューラルネットワークを第２の学習モデルとして出力する出力部とを備え、
ニューラルネットワークは畳み込みニューラルネットワークであって、
畳み込みニューラルネットワークに含まれる畳み込み層の一部もしくは全部に畳み込み層の出力の特徴チャンネルを認識に利用するか否かを緩和ベルヌーイ分布によって学習することを特徴とする学習処理装置。

【請求項5】

請求項４に記載の学習処理装置であって、
前記緩和ベルヌーイ分布の学習時に特徴チャンネルを認識に利用する量を学習中に徐々に大きくすることを特徴とする学習処理装置。

【請求項6】

請求項５に記載の学習処理装置であって、
前記重要度の評価は、損失関数の前記ニューラルネットワークのパラメータに関する１次ないしは２次の微分情報と前記ニューラルネットワークのパラメータから求められる量もしくは前記緩和ベルヌーイ分布のパラメータによって求められることを特徴とする学習処理装置。

【請求項7】

請求項６に記載の学習処理装置であって、
前記第1の学習モデルのパラメータによって初期化されなかったネットワーク構造の部分を初期化する際には枝刈りしやすい値となるように初期化することを特徴とする学習処理装置。

【請求項8】

既存の第1の学習モデルから新たな第２の学習モデルを得る学習処理方法であって、
第１の学習データセットを学習して事前生成された第１の学習モデルと枝刈りされていないニューラルネットワークを得、前記第１の学習モデルと前記ニューラルネットワークを用いて学習対象の前記ニューラルネットワークを初期化し、第２の学習データセットと初期化された前記ニューラルネットワークを用いて、初期化された前記ニューラルネットワークの認識処理におけるパラメータの重要度を特定し、前記パラメータの重要度を用いて、初期化された前記ニューラルネットワークから重要でないパラメータを削除する枝刈り処理を行い第２のニューラルネットワークを生成し、前記第２の学習データセットを用いて前記第２のニューラルネットワークを学習し、学習後の前記第２のニューラルネットワークを第２の学習モデルとすることを備えるとともに、
ニューラルネットワークは畳み込みニューラルネットワークであって、
畳み込みニューラルネットワークに含まれる畳み込み層の一部もしくは全部に畳み込み層の出力の特徴チャンネルを認識に利用するか否かを緩和ベルヌーイ分布によって学習することを特徴とする学習処理方法。

【請求項9】

既存の第1の学習モデルから新たな第２の学習モデルを得る学習処理方法であって、
枝刈りしていないニューラルネットワークと第1の学習モデルを用いて学習対象の前記枝刈りしていないニューラルネットワークを初期化し、第２の学習データセットと初期化された前記ニューラルネットワークを用いて、初期化された前記ニューラルネットワークの認識処理におけるパラメータの重要度を求め、重要度に応じた枝刈り処理を行い、前記第２の学習データセットを用いた枝刈り後の前記ニューラルネットワークの学習により第２の学習モデルを得るとともに、
ニューラルネットワークは畳み込みニューラルネットワークであって、
畳み込みニューラルネットワークに含まれる畳み込み層の一部もしくは全部に畳み込み層の出力の特徴チャンネルを認識に利用するか否かを緩和ベルヌーイ分布によって学習することを特徴とする学習処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラルネットワークを利用する学習処理装置及び方法に関する。

【背景技術】

【0002】

画像処理や自然言語処理、音声認識をはじめとする信号処理の分野において、多層のニューラルネットワークを利用する学習処理装置を用いて、認識処理を行うことがある。近年のニューラルネットワークは認識性能を向上させるために多数のパラメータを持ち、膨大な演算量を必要とする。しかしながら、学習後に行う認識処理時には大量の画像などのデータを処理するため、少ないパラメータと少ない演算量で処理することが望ましい。本発明では少ないパラメータと演算量で処理可能なニューラルネットワークを軽量モデルと呼ぶ。

【0003】

学習後に多層のニューラルネットワークのパラメータ及び演算量を削減する技術として枝刈りがある。枝刈りは学習後のニューラルネットワークにおいて不要なパラメータや不要な演算を特定し、削除することでニューラルネットワークの認識処理に必要とするパラメータと演算量を削減する技術である。

【0004】

例えば特許文献１では学習後のニューラルネットワークのユニットをランダムに削除し、再学習後にコスト関数の評価を行い、最もコスト関数が良い構造をニューラルネットワークの最適構造として出力する仕組みが検討されている。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１５－１１５１０号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

一般に枝刈りによるニューラルネットワークの軽量化は長い学習期間を必要とする。これはニューラルネットワークの軽量化の際に認識精度への悪影響を最小化するために、パラメータの削除を少しずつ行うためである。一度に大量のパラメータを削除すると認識精度が大きく落ちてしまうため、通常は少量のパラメータの削除と再学習を複数回繰り返すことで認識精度の劣化の少ない軽量なモデルを学習する。

【0007】

そのため軽量なニューラルネットワークの学習は通常のニューラルネットワークの学習の数倍の学習回数が必要になるため学習期間が長期化する。特に実行する認識処理の種類が多い場合や実行環境において利用するニューラルネットワークのモデルを切り替える場合では、複数の軽量モデルを用意する必要があるため、学習期間の長期化は認識処理機能の展開、更新の遅延要因となる。

【0008】

そのため、軽量モデルの学習を短期間で完了させるための構成が必要となるが、特許文献１では軽量モデルの学習の短期化に対する検討は行われていない。

【課題を解決するための手段】

【0009】

以上のことから、本発明においては、「既存の第1の学習モデルから新たな第２の学習モデルを得る学習処理装置であって、第１の学習データセットを学習して事前生成された第１の学習モデルと枝刈りされていないニューラルネットワークを得る入力部と、第１の学習モデルとニューラルネットワークを用いて学習対象のニューラルネットワークを初期化し、第２の学習データセットと初期化されたニューラルネットワークを用いて、初期化されたニューラルネットワークの認識処理におけるパラメータの重要度を特定する重要パラメータ特定部と、パラメータの重要度を用いて、初期化されたニューラルネットワークから重要でないパラメータを削除する枝刈り処理を行い第２のニューラルネットワークを生成する新モデル生成部と、第２の学習データセットを用いて第２のニューラルネットワークを学習する学習部と、学習後の前記第２のニューラルネットワークを第２の学習モデルとして出力する出力部とを備えることを特徴とする学習処理装置」としたものである。

【0010】

また本発明においては、「既存の第1の学習モデルから新たな第２の学習モデルを得る学習処理方法であって、第１の学習データセットを学習して事前生成された第１の学習モデルと枝刈りされていないニューラルネットワークを得、第１の学習モデルとニューラルネットワークを用いて学習対象のニューラルネットワークを初期化し、第２の学習データセットと初期化されたニューラルネットワークを用いて、初期化されたニューラルネットワークの認識処理におけるパラメータの重要度を特定し、パラメータの重要度を用いて、初期化されたニューラルネットワークから重要でないパラメータを削除する枝刈り処理を行い第２のニューラルネットワークを生成し、第２の学習データセットを用いて第２のニューラルネットワークを学習し、学習後の第２のニューラルネットワークを第２の学習モデルとすることを備えることを特徴とする学習処理方法」としたものである。

【0011】

また本発明においては、「既存の第1の学習モデルから新たな第２の学習モデルを得る学習処理方法であって、枝刈りしていないニューラルネットワークと第1の学習モデルを用いて学習対象の枝刈りしていないニューラルネットワークを初期化し、第２の学習データセットと初期化されたニューラルネットワークを用いて、初期化されたニューラルネットワークの認識処理におけるパラメータの重要度を求め、重要度に応じた枝刈り処理を行い、第２の学習データセットを用いた枝刈り後のニューラルネットワークの学習により第２の学習モデルを得ることを特徴とする学習処理方法」としたものである。

【発明の効果】

【0012】

本発明によれば、実行する認識処理が多種であったり、実行環境によって利用するニューラルネットワークのモデルを切り替える場合であったりしても、軽量モデルの学習にかかる時間を短期化し、迅速な認識処理機能の提供が可能となる。

【図面の簡単な説明】

【0013】

【図1】本発明の学習処理装置が想定するニューラルネットワークの利用形態の一例を示した図。

【図2】本発明の学習処理装置が想定するニューラルネットワークの利用形態の一例を示した図。

【図3】従来法による枝刈りの概要を示した図。

【図4】本発明に係る学習処理装置の処理概要を示した図。

【図5】本発明と従来法による効果を比較して示した図。

【図6】本発明の学習処理装置の機能構成例を示した図。

【図7】本発明の学習処理方法の処理フロー例を示した図。

【図8】複数の事前学習モデル３０２の候補に対する重要度評価を操作者が行う際の判断材料情報をテーブル形式にして示した図。

【図9】本発明の実施例２に係る学習処理装置の機能構成例を示した図。

【図10】本発明の実施例２に係る学習処理方法の処理フロー例を示した図。

【図11】部分的再初期化処理の概要を示した図。

【図12】本発明の実施例３に係る学習処理装置の機能構成例を示した図。

【図13】本発明の実施例２に係る学習処理方法の処理フロー例を示した図。

【図14】マスク層による枝刈りの概要を示した図。

【図15】複雑なネットワーク構造を持つニューラルネットワークに対するマスク層の適用方法について示した図。

【図16】畳み込み層１４０２－ａ～ｄが４つのチャンネルを共有する状況を表形式で示した図。

【図17】本発明の学習処理装置に好適なモニタ画面の構成例を示した図。

【図18】複数の事前学習モデルの候補に対する重要度評価を実施するための画面の構成例を示した図。

【発明を実施するための形態】

【0014】

以下、図面を用いて本発明の実施例について説明する。

【実施例1】

【0015】

図１、図２は本発明の学習処理装置が想定するニューラルネットワークの利用形態の一例を示した図である。これらの事例では、学習処理装置１００が画像処理を行う事例について例示しているが、処理の対象は自然言語処理、音声認識、その他の信号処理であっても適用が可能である。

【0016】

図１の場合に、学習処理装置１００は、入力画像１０１を入力して複数の画像処理部１０２（１０２－１，１０２－２，１０２－３）に与え、画像処理部１０２は入力画像１０１に対する認識処理を実行する。

【0017】

画像処理部１０２での処理は、例えば画像分類、物体検出、セマンティックセグメンテーション、キャプショニングといった画像処理であり、画像処理部１０２－１，１０２－２，１０２－３はそれぞれ異なる認識処理を行う。例えば、製品の画像検査の例では与えられた画像に対して画像処理部１０２－１は良品，不良品など製品の品質を分類する画像処理１を実行し、画像処理部１０２－２は製品に混入した遺物を検出する画像処理２を実行し、画像処理部１０２－３は製品の形状を認識するセグメンテーションを行う画像処理３を実行する。この結果として処理結果部１０３（１０３－１，１０３－２，１０３－３）には、各部位における処理結果を得る。

【0018】

画像処理部１０２－１，１０２－２，１０２－３は、それぞれの認識処理に特化された構成のニューラルネットワークを含む学習モデルである。このように一つの入力画像１０１に対して複数の画像処理を適用する場合であって、それぞれの画像処理毎に異なるニューラルネットワークを用いる場合などでは、複数のニューラルネットワークに対して軽量モデルを学習する必要がある。

【0019】

本発明における図１の構成の学習処理装置１００では、新たな検査項目が発生した際に追加される画像処理結果４を得る画像処理部１０２－４(軽量モデル)と、処理結果部１０３－４を新たに追加することを想定する。

【0020】

また、同一の認識処理であっても複数の軽量モデルを学習する必要がある場合がある。図２は、図１の画像処理部１０２－１，１０２－２，１０２－３における各学習モデルが例えば画像計測上の環境の変化に応じて、最適化された学習モデルとされる場合を例示している。画像処理部１０２´（１０２－１，１０２´－２，１０２´－３）は、環境変化に応じて最適化された学習モデル（環境モデル）を用いた構成である。本発明では、図１の構成から、新たに図２の環境モデルを追加構成することを想定する。

【0021】

例えば異なる倍率のレンズを介して画像入手した場合における処理を行うための学習モデルは、通常倍率での学習モデルとは相違することから、異なる倍率のレンズを介して入手した画像に特化した新たなニューラルネットワークを構成する必要があり、図２の構成を新たに得る必要がある。

【0022】

このように、図２の環境別モデル１０２´（１０２－１，１０２´－２，１０２´－３）は、図１の学習モデル１０２（１０２－１，１０２－２，１０２－３）と同一の画像処理をおこなうものであるが、入力画像１０１に関する環境に応じて実行するモデルが変化する例である。ここで環境とは、入力画像１０１が取得された場所や状況に関するものであったり、認識処理を実行する場所や状況であったりする。例えば屋外の画像データである場合には昼間、夜間といった状況で実行するモデルを変更したり、画像検査システムであれば検査対象の種類ごとにモデルを変更することになる。

【0023】

なお処理結果部１０３´（１０３´－１，１０３´－２，１０３´－３）は環境別モデル１０２´（１０２－１，１０２´－２，１０２´－３）による出力である。処理結果１´、２´，３´は実行されるニューラルネットワークが異なるため、図１とは異なる結果を出力することとなる。

【0024】

このように環境別モデル１０２´（１０２－１，１０２´－２，１０２´－３）を利用する場合でも複数の軽量モデルを学習する必要がある。特に画像検査システムの場合では検査対象の物体種別や検査工程の種別の組み合わせは無数にあるため、環境別モデルと画像処理の組み合わせは膨大になる。そのため軽量なモデルの取得の効率化が必須となる。

【0025】

なお、本実施例では画像処理、環境別モデルのいずれも３つずつの例を示したが、１つ以上の場合であってもよい。

【0026】

軽量モデルを学習し、作成する場合の手法として枝刈りの手法が知られている。図３は従来法による枝刈りの概要を示した図である。枝刈りを行うことにより、学習モデルを軽量化することができる。

【0027】

通常、枝刈りでは最初に学習処理２０１－０によって枝刈りしていないニューラルネットワーク２０４－０について学習データセット３０１を用いて学習する。その後枝刈り処理２０２－１によって学習後の前記枝刈りしていないニューラルネットワーク２０４－０における不要なパラメータを特定し、パラメータの削除を行い枝刈り後のニューラルネットワーク２０４－１を出力する。ここで枝刈りによって特定される不要なパラメータとはパラメータの絶対値が小さいもの等が選ばれる。

【0028】

枝刈りによってパラメータを削除されたニューラルネットワーク２０４－１は枝刈りしていないニューラルネットワーク２０４－０と比較して認識精度が低下することがあるため、再学習処理２０３－１によって枝刈り後のニューラルネットワーク２０４－１の枝ありされていないパラメータを更新し、低下した認識精度を枝刈りしていないニューラルネットワーク２０４－０と近い値になるようにする。その後、枝刈り量が不十分である場合や複数回の枝刈り処理が設定されている場合には、枝刈り処理２０２－２及び再学習処理２０３－２によって更に枝刈りしたニューラルネットワーク２０４－２を得る。この枝刈り処理と再学習処理は２回以上繰り返し適用してもよい。なお再学習処理２０３－１、２０３－２では、学習の時に最初の学習処理２０１－０で使用したと同じ内容の学習データセット３０１を用いて学習する。

【0029】

このように従来法による枝刈りでは、学習後に不要なパラメータを特定し、不要なパラメータの削除後に再学習を行うことを繰りかえす。これは枝刈りによる軽量化時に認識性能へ悪影響を与えないように徐々にパラメータを削除する必要があるためである。この手順による処理では、繰り返し学習処理が複数回存在するため、軽量モデルの学習に必要な時間が長くなる。そのため、特に図１、図２に記載したような複数の軽量モデルを整備する必要があるような場合では準備期間が長期化し、認識機能の提供の遅延要因となる。

【0030】

図４は本発明に係る学習処理装置の処理概要を示した図である。この処理では、事前に準備した第１のモデル（ネットワーク）から、別処理に適した第２のモデル（ネットワーク）を生成する。この関係は、例えば図１において画像処理部１０２（１０２－１，１０２－２，１０２－３）のいずれかのモデル（ネットワーク）を第１のモデルとして、新たに画像処理部１０２－４を第２のモデルとして生成することであり、あるいは画像処理部１０２（１０２－１，１０２－２，１０２－３）のいずれかのモデル（ネットワーク）を第１のモデルとして、新たに図２における環境モデル１０２´を第２のモデルとして生成することである。

【0031】

従って、新モデル作成の基礎となる第１のモデルは、事前に準備した事前学習モデル３０２であり、事前学習モデル３０２は事前学習モデル３０２に特化された学習対象である第１の学習データセット３０１Ａを使用して生成されている。またこの図において、３０３は、操作者により提示された枝刈りしていないニューラルネットワークである。

【0032】

重要パラメータ特定部３０４では、第１のモデルである事前学習モデル３０２に対して、新たに作成したい第２のモデルに特化された学習対象である第２の学習データセット３０１Ｂを適用する。これにより第２の学習データセット３０１Ｂにおいて重要なパラメータを事前学習モデル３０２から特定し、重要なパラメータのみを抽出する。ここでの重要パラメータは、第２の学習データセット３０１Ｂの認識に重要な第２のモデルのパラメータを特定することを意味する。

【0033】

その後、新モデル生成部３０６において、枝刈りしていないニューラルネット３０３から、第２の学習データセット３０１Ｂの認識に重要な第２のモデルのパラメータのみを抽出したニューラルネットワーク３０５を生成する。このニューラルネットワーク３０５を学習処理３０７によって学習することで、短期で軽量モデルを取得することを可能とする。この学習処理３０７では、第２の学習データセット３０１Ｂを使用している。

【0034】

枝刈りを適用しない場合、つまり異なるデータセット（学習データセット３０１Ａ）で学習したモデルを初期値として学習する方法を転移学習という。本発明では転移時に枝刈りを適用することで従来必要であった学習処理２０１－０を不要とできるため学習回数を減らし、軽量モデルの学習を短期化することが可能となる。

【0035】

本発明は、基本的に上記のような手順での処理を行うものであるが、この実現にあたり、いくつか工夫すべき事項がある。

【0036】

工夫、改善すべき事項の第１点は、従来手法では転移学習時に枝刈りを適用することは困難であったということにある。一般に図３の学習処理２０１－０では枝刈り処理２０２を実行した際の精度低下が少なくなるように、枝刈り処理２０２に合わせた正則化が適用される。例えば枝刈り処理２０２でパラメータの絶対値が小さいものを削除する場合には、学習処理２０１－０でＷｅｉｇｈｔｄｅｃａｙと呼ばれるニューラルネットワークのパラメータの絶対値が小さくなる正則化を適用する。Ｗｅｉｇｈｔｄｅｃａｙを含むニューラルネットワークの損失関数を（１）式に示す。

【0037】

【数1】

（１）式において、ニューラルネットワークの損失関数Ｌを構成する右辺第一項は認識処理の学習毎に定義された損失関数Ｌｒであり、第２項がＷｅｉｇｈｔｄｅｃａｙの項である。λはＷｅｉｇｈｔｄｅｃａｙの係数でありθはニューラルネットワークのパラメータである。より多くのパラメータを削除するためには、Ｗｅｉｇｈｔｄｅｃａｙの係数λを比較的大きく設定する必要がある。

【0038】

しかしながら、Ｗｅｉｇｈｔｄｅｃａｙの係数λを大きくするとパラメータの多くが微小な値となる。そのため、学習したデータセットのみで認識性能が発揮でき、転移学習には不向きとなる。そのため、事前学習済みモデル３０２は特定の学習データセット３０２に対して強いＷｅｉｇｅｔｄｅｃａｙを適用したモデルではなく、多くのパラメータが非ゼロの値を持つニューラルネットワークであることが望ましい。

【0039】

このような場合では重要パラメータ特定部３０４はパラメータの絶対値によって重要なパラメータを特定できない。

【0040】

この点の改善に関して、本発明の実施例では、さらに以下のように対応するのがよい。

【0041】

図４において、一般に学習データセット３０１Ｂとは異なる学習データセット３０１Ａで学習した事前学習モデル３０２には学習データセット３０１Ｂの認識に有効なパラメータと不要なパラメータが存在する。重要パラメータ特定部３０４はヘッセ行列を分析することで学習データセット３０１Ｂの認識に有効なパラメータを抽出する。ヘッセ行列は損失関数Ｌのパラメータに対する二次微分である。そのため、例えば各パラメータの値の二乗とヘッセ行列の対角成分の積により各パラメータを削除した際に損失関数に与える影響を算出できる。

【0042】

（２）式に算出式を示す。下添え字のｑはｑ番目のパラメータに関する値であることを示す。Ｈはヘッセ行列であり、下添え字ｑｑはｑ行ｑ列目の値であることを示す。この値が小さいものから所望の枝刈り量となるまでパラメータを削除することで事前学習モデル３０２から学習データセット３０１Ｂの認識に有効なパラメータのみを抽出することが可能となる。

【0043】

【数2】

このように本発明ではあるパラメータを削除した際にニューラルネットワークの挙動に与える影響を評価し各パラメータの重要度とする。この重要度の大きなパラメータ程、削除した際にニューラルネットワークの認識性能を低下させる。そのため重要度の低いパラメータから枝刈りを行うことでニューラルネットワークの認識性能の低下を抑え多くのパラメータを削除することができる。

【0044】

またこの点に関連して工夫、改善すべき事項の第２点は、一般に多層のニューラルネットワークはパラメータ数が膨大となるためヘッセ行列を直接計算することは困難である場合があるということである。

【0045】

そのような場合では、損失関数Ｌの一次微分の二次モーメントであるフィッシャー情報行列や、フィッシャー情報行列の近似であるＫｒｏｎｅｃｋｅｒ－ＦａｃｔｏｒｅｄＡｐｐｒｏｘｉｍａｔｅｄＣｕｒｖａｔｕｒｅにより各パラメータを削除した際の影響を算出してもよい。また、損失関数Ｌの一次微分の統計量や一次微分とパラメータの積の統計量を用いて影響を算出してもよい。この場合には例えば勾配の期待値とパラメータの値の積の絶対値を各パラメータを削除した際に損失関数に与える影響として算出できる。

【0046】

また、畳み込みニューラルネットワークの場合はパラメータ単位で求めた重要度をチャンネルもしくはフィルタと呼ばれる次元毎に集約しチャンネルもしくはフィルタ毎の重要度としてもよい。

【0047】

また、実施例４に示す緩和ベルヌーイ分布を利用し各パラメータの重要度を評価してもよい。

【0048】

図５は、本発明と従来法による効果を比較して示した図である。本発明による学習曲線４０１、従来法による学習曲線４０２はいずれも横軸に学習時のパラメータ更新回数、縦軸に認識性能をとった図である。

【0049】

図５左の本発明によれば、事前学習モデル３０２から学習データセット３０１Ｂにおいて重要なパラメータのみを特定し直接軽量モデル３０６を学習するため、学習曲線４０１のように一度の学習曲線のみを描く。

【0050】

これに対し、従来法では学習処理２０１－０や１回以上の再学習処理２０３を必要とするため、学習曲線４０２のように２度以上の学習曲線を示す。ここで学習曲線４０２の中央付近にある破線は枝刈りによる精度低下の影響を示す。このように本発明によれば一度の学習で軽量モデルを取得できるため一つの軽量モデルの獲得に必要な時間を大幅に短縮できる。

【0051】

図６に本発明の学習処理装置の機能構成例を、図７に本発明の学習処理方法の処理フロー例を示す。これらの図では学習データセット３０１と事前学習済みモデル３０２を用いて軽量モデルを学習するまでの構成とフローを示す。

【0052】

まず図６に示す本発明の学習処理装置の機能構成例図は、本発明の処理を計算機により実現するときの演算部における処理内容を主要な処理機能として表記したものである。ここでは、学習データセット３０１Ａで学習した事前学習モデル３０２と、枝刈りしていないニューラルネットワーク３０３を対象とする。

【0053】

重要パラメータ特定部３０４では、事前学習モデル３０２と枝刈りしていないニューラルネットワーク３０３を用いて、まず学習対象のニューラルネットワーク３０３を初期化する。この初期化により、事前学習モデル３０２のパラメータは芝刈りしていない形式のニューラルネットワーク３０３に反映されるため、初期化後のニューラルネットワーク３０３は事前学習モデル３０２と等価のものということができる。重要パラメータ特定部３０４では、次に初期化後のニューラルネットワーク３０３と新たに作成したい第２のモデル３０５に特化された学習対象である第２の学習データセット３０１Ｂを用いて、初期化後のニューラルネットワーク３０３の認識処理において重要なパラメータを特定する。

【0054】

枝刈り部３０６は、図４の新モデル生成部３０６に対応する処理であり、枝刈りしていないニューラルネット３０３から、第２の学習データセット３０１Ｂの認識に重要な第２のモデルのパラメータのみを抽出した枝刈り後形式のニューラルネットワーク３０５を生成する。

【0055】

学習処理部３０７では、第２の学習データセット３０１Ｂを使用してニューラルネットワーク３０５を学習する。

【0056】

モデル評価部５０３では、ニューラルネットワーク３０５（第２のモデル）に対して、評価データセット５０４を用いて、その演算精度を評価する。評価データセット５０４の基準を満たす性能を発揮するニューラルネットワーク３０５が最終的に第２のモデル（計量モデル）とされる。

【0057】

図７に示す本発明の学習処理方法の処理フロー例では、まずステップＳ６０１で学習フローを開始する。これは操作者などによって軽量モデルの学習に必要な事項が設定された後に、操作者によって学習を実行された際に開始する。

【0058】

ステップＳ６０２は、図６の重要パラメータ特定部３０４の一部に対応しており、ここでは操作者によって入力された枝刈りしていないネットワーク構造３０３と事前学習モデル３０２を用いて学習対象のニューラルネットワークを初期化する。ここで枝刈りしていないネットワーク構造３０３は、軽量モデルを学習する対象の画像処理を実行するために操作者によって与えられるネットワーク構造である。またここで、学習対象のニューラルネットワークの初期化とは、与えられたネットワーク構造３０３のパラメータの初期値を決定することであり、前記学習対象のニューラルネットワークの一部または全部は事前学習モデル３０２のパラメータをコピーすることで初期化される。前記学習対象のニューラルネットワークのうち、事前学習モデル３０２のパラメータをコピーされなかったパラメータは操作者によって設定された乱数、または定数によって値が決定される。

【0059】

このように事前学習モデル３０２のパラメータを利用してニューラルネットワークの初期化を行うことを一般に転移学習と呼ぶ。なお初期化されたネットワーク構造３０３は、枝刈りしていないニューラルネットワーク構成のものであり、このネットワーク構造３０３は事前学習モデル３０２のパラメータを反映している。従って、初期化されたネットワーク構造３０３は、軽量化された形式の事前学習モデル３０２を、枝刈りしていないネットワーク原形式のネットワーク構造に反映させたものということができる。

【0060】

ここで前記学習対象のニューラルネットワークの中からいずれのパラメータを事前学習モデル３０２からコピーするかは操作者によって決定される。前記学習対象のニューラルネットワークの一部のみ事前学習モデル３０２からパラメータをコピーする操作は、学習対象の画像処理機能と事前学習モデルの画像処理機能が異なる際等に行われる。例えば学習対象は物体検出機能で、事前学習モデル３０２が画像分類機能の際は、入力画像から画像特徴を抽出する特徴抽出器と呼ばれるニューラルネットワークの部分のみ物体検出用のニューラルネットワークにパラメータがコピーされる。また、両者が同じ画像分類機能であっても特徴抽出器と呼ばれるニューラルネットワークの一部のみパラメータをコピーし、分類結果を予測する後段の層は他の方法によって初期化することもある。

【0061】

ステップＳ６０３は図６の重要パラメータ特定部３０４の一部に対応しており、ここではステップＳ６０２で初期化したニューラルネットワークと学習データセット３０１Ｂを用いてステップＳ６０２で初期化したニューラルネットワークの各パラメータの重要度を評価する。ここで重要度の評価は図４の説明で記載した通りである。

【0062】

ステップＳ６０４は、図６の枝刈部（図４の新モデル生成部）３０６に対応しており、ここではステップＳ６０２で初期化したニューラルネットワークからステップＳ６０３で評価した各パラメータの重要度に応じて、重要度の低いパラメータを削除する。ここで削除するパラメータの決定方法は操作者によって選択され、重要度が上位何割かのパラメータ以外を削除する方法や、重要度がある閾値以下のパラメータを削除するなどの方法がある。

【0063】

ステップＳ６０５は、図６の学習部３０７に対応しており、ここでは学習データセット３０１Ｂを用いてステップＳ６０４で得られた軽量化済みのニューラルネットワークのパラメータを学習する。これはニューラルネットワークの学習に通常用いられる確率勾配降下法などで行われる。

【0064】

ステップＳ６０６は、図６のモデル評価部５０３に対応しており、ここでは評価データセット５０４を用いてステップＳ６０５で学習したニューラルネットワークの性能を評価する。このニューラルネットワークの性能評価は得られた軽量モデル５０５が認識対象の画像処理でどの程度の性能を達成可能か評価する。

【0065】

ステップＳ６０７では、ステップＳ６０５で学習したニューラルネットワークを軽量モデル５０５として出力する。この際に、ステップＳ６０６で評価した認識性能や認識処理の実行時間と併せて出力するのがよい。

【0066】

ステップＳ６０８で学習フローを終了する。

【0067】

このように本発明では事前学習モデル３０２から学習データセット３０１Ｂ、評価データセット５０４の認識に重要なパラメータを特定し、重要なパラメータのみ転移することで初期化時に軽量なモデルを構成することができるため、一度の学習によって認識精度の良い軽量モデル５０５を獲得することができる。

【実施例2】

【0068】

実施例２では、事前学習モデルが複数存在する場合に、所望の軽量モデルを生成する上で、どの事前学習モデルを利用するのが適切であるのか、その判断材料を事前に作成し、実運用上の参考に供することに関する。

【0069】

本発明の実施例１によれば、長時間の学習を行わずとも事前学習モデル３０２が学習データセット３０１Ｂ、評価データセット５０４に対して重要なパラメータをどの程度保持しているか評価できる。複数の学習モデルを用意するケースでは事前学習モデル３０２として利用するモデルの候補も複数存在する。一般に事前学習モデル３０２として利用するモデルによって学習するニューラルネットワークの性能は変化する。そのため、短期間で軽量なモデルを学習するには適切な事前学習モデル３０２を選択することが重要である。

【0070】

しかしながら従来手法では、実際に学習データセット３０１Ｂと学習部３０６でニューラルネットワークを学習し評価データセット５０４とモデル評価部５０３で認識性能を評価しなければ各事前学習モデルの善し悪しを判別することができなかった。

【0071】

そのため、複数の事前学習モデル３０２の候補がある場合には、最も良いモデルを事前学習モデル３０２として選択するには全ての候補に対して学習、評価を行う必要がある。このような場合には軽量モデル３０５の学習に必要な時間が膨大となってしまう。そのため、学習をせずに複数の事前学習モデル３０２の候補の中から適切なモデルを一つ選択することは高精度な軽量モデルを短期間で学習するために重要となる。

【0072】

ここで枝刈りしていない非軽量モデルは対象のニューラルネットワークが到達可能な認識性能の指標となるため、前記非軽量モデルを学習、保持することはモデルの管理上、必要となる。

【0073】

本発明の実施例２では、図６に示す学習処理装置１００の一部機能である重要パラメータ特定部３０４を利用して、図８の重要度評価テーブル７００を事前作成しておき、事前作成の重要度評価テーブル７００を参照して実運用上の適切な事前学習モデルの選択の参考に供する。重要度評価テーブル７００を事前作成するための装置構成並びに処理フローは、図９、図１０を参照して後述する。

【0074】

図８は、複数の事前学習モデル３０２の候補に対する重要度評価テーブルの一例を示した図である。このテーブルは、学習データセット３０１Ｂとネットワーク構造３０３、枝刈りに関する設定が操作者によって選択された際に、転移学習が可能な事前学習候補を抽出するための判断材料情報として操作者に提示される。具体的な判断材料情報は、複数の事前学習モデルのネットワーク構造及び事前学習モデルの学習に用いたデータセット毎に準備された各事前学習モデルの重要度総和及び枝刈り後の重要度総和の情報である。

【0075】

図８の重要度評価テーブル７００において、事前学習モデル種別７０１は、各事前学習モデルのネットワーク種別である。例えば学習対象の認識処理が物体検出の場合では、事前学習モデル３０２として画像分類器を用いる場合は特徴抽出器と呼ばれるニューラルネットワークの部分のみ転移し、事前学習モデル３０２として同じ物体検出器を用いる場合には特徴抽出器に加え物体検出用のニューラルネットワークの部分も転移する。そのためネットワーク構造３０３が与えられたとしても事前学習モデルの種別は複数存在する。また、特徴抽出器のみ転移するとしても層数や各層のパラメータ数などによって事前学習モデルの種別は複数存在しうる。このため、ここでは事前学習モデルの種別７０１を明確にしておく。

【0076】

事前学習データセット７０２は、事前学習モデルの学習に用いたデータセット（図４の学習データセット３０１Ａ）に対応）を示す。転移学習を行う際には、転移元が学習した特徴と学習対象のデータセット３０１Ａが持つ特徴が一致することがニューラルネットワークの高精度化に重要となる。

【0077】

重要度総和７０３は、各事前学習モデル３０２の重要度の総和である。これは学習データセット３０１Ａと重要パラメータ特定部３０４によって評価された各パラメータの重要度の総和である。また、事前学習モデル３０２によってはパラメータ数が異なるため単なる総和ではパラメータ数が多いモデルの方が重要度総和は大きくなりやすい。そのため、事前学習モデルの重要度総和を各事前学習モデルのパラメータ数で割った重要度平均を用いてもよい。

【0078】

枝刈り後重要度総和７０４は、操作者によって与えられた枝刈りに関する設定を用いて枝刈りをした際に残るパラメータの重要度の総和である。これは重要度総和７０３と同様に重要度平均でもよい。

【0079】

重要度はあるパラメータを削除した際に認識性能へ与える悪影響を評価した値であるため、重要度総和７０３が大きい程、学習対象の認識処理に重要なパラメータを多く含んでいると考えることができる。

【0080】

そのため重要度総和７０３が大きいモデルを事前学習モデル３０２として選択すると高精度なモデルを学習しやすくなる。また、軽量モデルの学習時には枝刈りによって複数のパラメータが削除される。そのため枝刈り後重要度総和７０４を評価することで枝刈り後に残ったパラメータがどの程度学習データセット３０１Ｂの認識に重要か評価できる。そのため、枝刈り後重要度総和７０４が大きいモデルが軽量モデル５０５を学習した際に軽量で高精度なモデルを学習できる。操作者はこのような表を確認し、重要度総和７０３と枝刈り後重要度総和７０４の両方が大きいモデルを選択することで、軽量かつ高精度なモデルを学習することが可能となる。

【0081】

図９及び図１０に、図８で示した複数の事前学習モデル３０２の候補に対する重要度評価テーブル７００を作成する装置構成及び処理フロー例を示す。

【0082】

まず図９に示す本発明の実施例２に係る学習処理装置の機能構成例図は、図６の学習処理装置１００に、学習済みモデル記憶部８０１、事前学習モデル候補抽出部８０２、事前学習モデル選択部８０３、重要度評価結果記憶部８０４の各機能を追加したものである。このうち学習済みモデル記憶部８０１と重要度評価結果記憶部８０４は、計算機のデータベースなどの記憶部であり、学習済みモデル記憶部８０１には例えば図１のモデル（ネットワーク）１０２－１，１０２－２，１０２－３の情報が事前学習モデルとして記憶され、また重要度評価結果記憶部８０４には図６の重要パラメータ特定部（枝刈り部）３０４で抽出した重要パラメータについての評価結果が記憶されている。また、図８の重要度評価データも最終的には重要度評価結果記憶部８０４に蓄積記憶される。なお事前学習モデル候補抽出部８０２、事前学習モデル選択部８０３は、操作者による処理、判断内容を表している。

【0083】

図１０のフロー図は、図９に示すハード資源、ソフト資源などを用いて以下に示す処理を逐次実行する。まず、図１０の最初のステップＳ９０１では、複数の事前学習モデル３０２の候補に対する重要度評価フローを開始する。これは操作者によって実行が指示されたタイミングで開始する。

【0084】

ステップＳ９０２（事前学習モデル候補抽出部８０２の処理に対応）では、操作者によって与えられたネットワーク構造３０３を用いて学習モデル記憶部８０１から事前学習モデル３０２の候補を抽出する。学習モデル記憶部８０１は、モデル毎に設定されたモデルＩＤ、モデルの名称、モデルのネットワーク構造、学習に用いたデータセット３０１Ａ、および到達した認識性能が紐づけられ格納されている。またステップＳ９０２（事前学習モデル候補抽出部８０２の処理に対応）では、与えられたネットワーク構造３０３に転移が可能なネットワーク構造を含むモデルを学習済みモデル記憶部８０１から抽出し事前学習モデル候補として事前学習モデル選択部８０３に出力する。

【0085】

ステップＳ９０３（事前学習モデル選択部８０３の処理に対応）では、事前学習モデル候補抽出部８０２が抽出した事前学習モデル候補の中から、重要度評価を行っていないモデルを一つ選択し事前学習モデル３０２とする。

【0086】

ステップＳ９０４（重要パラメータ特定部３０４の処理に対応）では、操作者によって与えられたネットワーク構造３０３、事前学習モデル３０２を用いて学習対象のニューラルネットワークの初期化を行う。これは図７記載のステップＳ６０２と同様の方法で行う。

【0087】

ステップＳ９０５（重要パラメータ特定部３０４の処理に対応）では、学習データセット３０１Ｂを用いてステップＳ９０４で初期化されたニューラルネットワークの各パラメータの重要度を評価する。これは図７記載のステップＳ６０３と同様の方法で行う。

【0088】

ステップＳ９０６（重要パラメータ特定部３０４の処理に対応）では、ステップＳ９０４、ステップＳ９０５による評価が操作者によって設定された回数に達したか確認する。設定された回数に達していればステップＳ９０７に進み、達していなければステップＳ９０４に戻り、設定された回数に達するまで繰り返す。ここで設定される回数は１回以上であれば何回でもよい。これはステップＳ９０４で行うニューラルネットワークの初期化時に乱数を利用するため、複数回評価することで乱数の影響を抑えるために行ってもよい。

【0089】

例えば物体検出用のニューラルネットワークを学習する際に画像分類で事前学習されたモデルを転移する場合には、一般に特徴抽出器の部分のみパラメータがコピーされ他の部分に関しては乱数で初期化される。重要度評価時に用いる特徴抽出器の１次ないしは２次の勾配情報は特徴抽出器の後段にある他のニューラルネットワークの初期化によって影響を受ける。そのため、このようなケースでは、特徴抽出器に含まれる各パラメータの重要度を正しく評価するために、乱数による初期化を複数回行い、重要度評価を複数回行ってもよい。実際には複数回評価した重要度からステップＳ９０７で統計情報を用いて算出した重要度を各事前モデルの重要度として用いるのがよい。

【0090】

ステップＳ９０７（重要パラメータ特定部３０４の処理に対応）では、ステップＳ９０４、Ｓ９０５、Ｓ９０６で評価した重要度から、各パラメータの重要度を算出する。これは重要度総和が最も大きい回次の結果を用いることや各評価の平均値を用いることができる。重要度総和が最も大きい回次を利用することは最もよい初期値を得た回の評価値を利用することに相当する。この場合は各パラメータの初期値を記憶しておき、実際に学習する際に利用してもよい。また、各回の平均を重要度として利用する場合は、乱数の影響を受けづらいパラメータを重視して利用することに相当する。

【0091】

ステップＳ９０８（重要パラメータ特定部３０４の処理に対応）では、利用した評価条件とステップＳ９０７で評価した重要度を関連付けて重要度評価結果記憶部８０４に格納する。ここで利用した評価条件は事前学習モデル３０２に関する情報や重要度の評価を行った回数やステップＳ９０７で重要度の評価に利用した方法などに関するものである。重要度評価結果記憶部８０４には各評価で利用した学習データセット３０１Ｂの情報や評価した重要度に関する情報、事前学習モデルとして利用したモデルのモデルＩＤ、名称、ネットワーク構造、事前学習に用いられたデータセット、事前学習時の認識性能が格納される。ここで重要度に関する情報は各パラメータに関する重要度を全て保存してもよいし、統計化した情報を保存してもよい。ステップＳ９０８の処理により、図８の重要度評価テーブル７００に、着目した事前学習モデル候補についての重要度総和７０３、枝刈り後重要度総和７０４のデータが追記されることになる。

【0092】

ステップＳ９０９（重要パラメータ特定部３０４の処理に対応）では、ステップＳ９０２で抽出した全ての事前学習モデル候補に対しての評価が完了したか確認し、完了していればステップＳ９１０に進み、完了していなければ完了するまでステップＳ９０３から繰り返す。

【0093】

ステップＳ９１０で重要度評価フローを終了する。必要なすべての事前準備モデルに対する処理完了後には、重要度評価結果記憶部８０４には図８のデータが整備されたことになる。

【0094】

以上のように本発明によれば転移学習時に事前学習モデル３０２から重要なパラメータのみ特定し学習を行うことで一度の学習で軽量モデル３０６を獲得することができ、軽量モデル３０６の学習を短期間で行うことが可能となる。

【0095】

また、図８、図９、図１０で示したように事前学習モデル３０２に対して重要度の評価のみを行うことで実際の学習を行うことなく各事前学習モデルの善し悪しを評価することが可能となり、軽量モデル３０５の学習を短期間化できる。

【実施例3】

【0096】

実施例３では、転移学習時に、学習対象の認識処理に重要な特徴を事前学習モデル３０２が学習できていない場合について、対応する。

【0097】

本発明の実施例１では、転移学習時に学習対象の認識処理において重要なパラメータのみ転移することで軽量モデル５０５の学習に必要な時間を短縮した。しかしながら、転移学習時には学習対象の認識処理に重要な特徴を、事前学習モデル３０２が学習できていない場合があり得る。このような場合には事前学習モデル３０２から重要なパラメータを転移するのみでは高精度な軽量モデル５０５を学習することが難しい。

【0098】

図１１はこのような課題を解決するために導入する部分的再初期化処理について示した図である。図１１は、図４に対応する処理の流れを示したものであり、図４の手順に部分的再初期化処理１００１と枝刈り処理１００３の処理を新規に追加したものである。

【0099】

これらの一連の処理では、すでに説明したように重要パラメータ特定部３０４が重要パラメータを特定しており、その時のネットワーク３０５が想定されているが、転移学習時には学習対象の認識処理に重要な特徴を、事前学習モデル３０２が学習できていなかった、従ってネットワーク３０５は不十分なものであったという前提である。ここで不十分とは、ネットワークが簡素化されすぎてしまっている、あるいは必要なルートが形成されていないなどを意味している。

【0100】

このことから、部分的再初期化処理１００１では、重要パラメータ特定部３０４が重要パラメータを特定した後に、枝刈りされるパラメータのみを再度初期化する。これにより重要度の高いパラメータのみを残したニューラルネットワーク３０５に部分的再初期化処理１００１を適用すると、ニューラルネットワーク１００２に示すように、破線で示したニューロンのように再初期化される。この再初期化は枝刈りがしやすい形で実施され、モデル生成処理部３０６で学習された後に枝刈り処理１００３で精度への影響少なく枝刈り可能なようにする。この枝がりしやすい再初期化とは、例えば各パラメータをゼロで初期化することなどになる。また、とりうる値の絶対値が小さな乱数を用いてもよい。

【0101】

図１２及び図１３は、図１１の部分的再初期化を含めた本発明の学習処理装置の機能構成例及び学習処理方法の処理フロー例を示した図である。これらは図６及び図７で示した本発明の機能構成例及び処理フロー例に部分的再初期化処理を加えた構成及びフローであるため、差分のみ記載する。

【0102】

図１３のフローにおいて、ステップＳ１２０１ではステップＳ６０４で枝刈り部５０２がステップＳ６０３で評価した重要度に応じてステップＳ６０２で初期化したニューラルネットワークから重要度の低いパラメータを削除したパラメータを部分的再初期化部１１０１が再初期化する。これは前述の通り、ゼロや絶対値の小さな乱数などで行うことで枝刈りしやすい再初期化を実施する。

【0103】

ステップＳ１２０２で枝刈り部５０２がステップＳ６０５で学習したニューラルネットワークから不要なパラメータを削除する。ステップＳ１２０１で行う再初期化処理は枝刈りしやすいように実施するために精度への影響を小さくとどめることができる。

【0104】

このように部分再初期化処理を組み合わせることによって事前学習モデル３０２が学習データセット３０１Ｂの認識に重要なパラメータを持っている場合は転移したパラメータが学習され、持っていない場合では部分的再初期化されたニューロンが学習される。また学習データセット３０１Ｂの認識に重要な特徴が全て事前学習モデル３０２によって学習されている場合には部分的再初期化されたニューロンは容易に枝刈りすることが可能となる。また、ステップＳ１２０２の枝刈り後に再度ステップＳ６０５でニューラルネットワークを学習してもよい。

【実施例4】

【0105】

実施例３では、部分的再初期化処理１００１において小さな値でパラメータを再初期化することを記載したが、通常の学習と同様の方法で初期化し異なる方法で枝刈りする領域を求めてもよい。本発明の実施例４では、マスク層による枝刈りについて記載する。

【0106】

マスク層による枝刈りの概念を図１４に示す。図１４は画像処理でよく用いられる畳み込みニューラルネットワークに対してマスク層理１３０４を適用した際の構成を示す。通常畳み込みニューラルネットワークでは複数の畳み込み層１３０２が適用されるが、図１４は一つの畳み込み層１３０２に注目した際の構成である。通常の畳み込みニューラルネットワークでは入力１３０１に対して畳み込み層１３０２、正規化層１３０３、活性化層１３０５を適用し出力１３０６を得る。

【0107】

畳み込み層１３０２の処理及びパラメータをｆ、ｗ、正規化層１３０３の処理及びパラメータをｇ、θ、活性化層１３０５の処理をａ、入力をｘ、出力をｙとすると、畳み込み層１３０２の一連の処理は（３）式で表される。

【0108】

【数3】

ここで入出力ｘ、ｙはそれぞれ３次テンソルであり、画像特徴の幅、高さ、特徴チャンネルの次元を持つ。一般に畳み込み層１３０２を高速化する場合には特徴チャンネル単位で演算を削除することが効果的である。例えば元々の畳み込み層１３０２が１２８チャンネル有する場合には認識性能に影響しない１０チャンネルを削除し、１１８チャンネルを出力することを行う。

【0109】

本発明の実施例４では、このチャンネルの削除をマスク層１３０４によって行う。マスク層１３０４の処理とパラメータをｍ，νとすると（３）式で示した畳み込み層１３０２の一連の処理は（４）式のようになる。

【0110】

【数4】

畳み込み層１３０２の特徴チャンネル単位の削除を行うためにマスク層１３０４はパラメータνを学習する。パラメータνは０もしくは１の値を取る特徴チャンネルと同じ次元を持つベクトルであり、マスク層１３０４の処理ｍはパラメータνが１の部分は入力された特徴マップをそのまま出力し、パラメータνが０の部分は全ての幅、高さの値を０として出力する。このようなパラメータνを学習できれば、認識性能への影響なしに学習後にパラメータνが０の部分の計算を削除できる。すなわち、畳み込み層１３０２及び正規化層１３０３を入力に適用した隠れ変数をｈとし、隠れ変数ｈに対してマスク層を適用した隠れ変数をｈ´とした場合には、ｈ´の各要素は（５）式で与えられる。

【0111】

【数5】

また（５）式において、マスク層１３０４を適用した隠れ変数ｈ´は、畳み込み層処理１３０２及び正規化層１３０３を入力に適用した隠れ変数ｈで表記できることから、３次テンソルである隠れ変数の幅ｉ、高さｊ、特徴チャンネルの位置ｋを可変とする（６）式で表すことができる。

【0112】

【数6】

ここでさらに、パラメータνは０もしくは１の値を取るものであり、（７）式で表すことができる。

【0113】

【数7】

しかしながら（７）式に示すところの０もしくは１の値を取る離散的なパラメータνは、ニューラルネットワークの学習に通常用いられる確率勾配法では学習することができない。これは離散的なパラメータνは勾配が伝播しないためである。そのためパラメータνのいずれの特徴チャンネルを有効にすればよいか学習することは難しい。

【0114】

この課題を解決するために、本発明の実施例４では、さらに緩和ベルヌーイ分布からパラメータνを学習中にサンプリングする。緩和ベルヌーイ分布は離散分布であるベルヌーイ分布を連続分布に緩和したものであり確率勾配降下法で学習が可能になる。また、Ｇｕｍｂｅｌ－ｓｏｆｔｍａｘという名称でも知られている。緩和ベルヌーイ分布を利用した際にはパラメータνは０．１や０．５など０から１の値を取る連続値がサンプリングされる。マスク層１３０４はサンプリングされたパラメータνを入力された特徴マップの対応するチャンネル全体に対して積を計算し出力する。そのため、学習中には認識に不要なチャンネルはパラメータνが確率勾配降下法によって徐々に小さい値になり、認識に重要なチャンネルはパラメータνが徐々に大きい値になる。マスク層１３０４はパラメータνをサンプリングするために緩和ベルヌーイ分布のロジットを学習する。このロジットはベルヌーイ分布のロジットと同様のパラメータである。ロジットが大きい値の場合にはベルヌーイ分布では１が生成される確率が高くなるが、緩和ベルヌーイ分布では１に近い値が生成される確率が高くなる。学習終了後の推論時には緩和ベルヌーイ分布のロジットが所定の値より大きい特徴チャンネルのみ用いることで少ない演算量で認識精度を落とさず認識処理を行うことができる。すなわちマスク層１３０４の出力は（８）式のようになる。

【0115】

【数8】

ここでν´は（９）式の通りロジットｌと温度ｔをパラメータに持つ緩和ベルヌーイ分布ＲＢからサンプリングされた値で０から１の間の連続的な変数となる。このようにすればロジットlを確率勾配降下法で学習することが可能となり、枝刈りを行う特徴チャンネル単位でのマスクを学習できる。

【0116】

【数9】

緩和ベルヌーイ分布の内、有効なチャンネル数が所定の値以下になるように学習することで重要な特徴チャンネルのみロジットが大きくなり、認識に寄与しないパラメータはロジットが小さくなるように学習できる。これにより学習終盤では少ない特徴チャンネルで学習している状態になるため、図２で示した枝刈り後の再学習と同様の状況となる。そのため再学習不要でロジットの大きい特徴チャンネルのみ利用することで認識精度を落とすことなく枝刈りを実施することが可能となる。ここで有効なチャンネル数が所定の値以下になるような学習とは、ニューラルネットワーク全体が持つ緩和ベルヌーイ分布の上位何割かのロジットはロジットが大きくなるように、残りのチャンネルはロジットが小さくなるように学習する方法であり、例えばロジットの上位何割かに対応する特徴チャンネルでは１の生成確率が高い値に設定されたベルヌーイ分布とのカルバック・ライブラ情報量を最小化することなどで行われる。すなわち（１０）式のように学習時の損失関数にロジットに関する項を加える。

【0117】

【数10】

ここで（１０）式の第３項は緩和ベルヌーイ分布ＲＢ（ｌ、ｔ）と同じロジットを持つベルヌーイ分布Ｂ（ｌ）とロジットの上位何割かと対応する要素が大きな値となるｙｌをロジットとするＢ（ｙｌ）とのカルバック・ライブラ情報量である。

【0118】

またマスク層１３０４による枝刈り処理は重要パラメータ特定部と組み合わせず単独で適用してもよい。

【0119】

またマスク層の追加によって得られる緩和ベルヌーイ分布のロジットの値を、重要パラメータ特定部３０４で評価する重要度として用いて図６に示した構成による学習処理を行ってもよい。この場合もロジットの値が大きい特徴チャンネル程、チャンネル単位で削除した際にニューラルネットワークの認識性能に与える影響が大きいとみなすことができる。

【0120】

また実施例３に示した構成にマスク層を適用する場合は、部分的再初期化部１１０１の再初期化を行う際にニューラルネットワークに関する重みは通常と同様の初期化方法を用いて初期化し、マスク層のロジットを通常より小さい値で初期化する。これにより再初期化されたパラメータに関しては他のネットワークより枝刈りしやすい形で初期化ができる。

【実施例5】

【0121】

実施例５では、複雑なネットワーク構造を持つニューラルネットワークに対するマスク層の適用方法について説明する。

【0122】

図１５は複雑なネットワーク構造を持つニューラルネットワークに対するマスク層の適用方法について示した図である。

【0123】

ＲｅｓｉｄｕａｌＳｈｏｒｔｃｕｔやＲｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎと呼ばれる構造を持つニューラルネットワークでは、図１５に示したように複数の畳み込み層が同じ特徴マップを共有する。例えば入力１４０１は畳み込み層１４０２－ａ及び１４０２－ｂが適用され同じ次元の３次テンソルとなり和がとられる。この二つの畳み込み層の出力の和は畳み込み層１４０２－ｃが適用され、自身との和が計算される。さらに畳み込み層１４０２－ｄが適用され自身との和が計算され、出力１４０３となる。ここでは簡単のため畳み込み層以外の正規化層、マスク層、活性化層は省略したが、各畳み込み層に付随して適用してもよい。このように複数の畳み込み層１４０２－ａ～ｄが同じ特徴マップを共有する場合、枝刈りを効率的に行えない場合がある。

【0124】

これに対し図１６は、図１５に示した複雑なネットワーク構造を持つニューラルネットワークにおいて共有される畳み込み層１４０２－ａ～ｄの４つの層で共有される４つのチャンネルの認識における有効度合いと実際に枝刈り可能なチャンネルの関係を示した図である。
表の１段目チャンネル番号１４０４は各畳み込み層１４０２－ａ～ｄの４特徴チャンネルの番号を示している。有効特徴チャンネル１４０５－ａ～ｄは各畳み込み層１４０２－ａ～ｄで有効とされた特徴チャンネルを示す。ここで有効とされた特徴チャンネルとはマスク層１３０４の持つロジットが閾値以上の特徴チャンネルである。有効特徴チャンネル１４０５－ａ～ｄは該当するチャンネル番号のロジットが閾値以上の場合、有効な特徴チャンネルとして対応するマスに１が、有効な特徴チャンネルでない場合は０が記載されている。例えば有効特徴チャンネル１４０５－ａはチャンネル番号１および４と対応するマスク層１３０４のロジットの１番目と４番目の要素が閾値以上であり、認識処理に重要な特徴チャンネルである。

【0125】

論理和１４０６は特徴マップを共有する畳み込み層の有効特徴チャンネル１４０５－ａ～ｄの論理和である。チャンネル番号３のみが全ての畳み込み層１４０２－ａ～ｄで有効でないので０となり、他のチャンネル番号では畳み込み層１４０２－ａ～ｄのいずれかで有効な特徴チャンネルとなっているため１が記載されている。このようなケースでは、いずれの特徴チャンネルもいずれかの畳み込み層では有効でない場合が存在するが、チャンネル番号３のように共有される畳み込み層１４０２－ａ～ｄの全てで有効でないチャンネルしか演算処理を削除することができない。そのため、多くの演算を削除することが難しい。

【0126】

従来の枝刈り手法は畳み込み層のパラメータの値や各パラメータの重要度で枝刈りするパラメータを評価していたため、特徴マップを共有する複数の畳み込み層で枝刈りする特徴チャンネルを一致させることが難しかった。

【0127】

マスク層１４０３は複雑なネットワークを持つ層に対しても効率的に枝刈りを行う特徴チャンネルを決定できる。これは特徴マップを共有する畳み込み層に付随するマスク層１３０４の緩和ベルヌーイ分布のロジットが同一の値をとるようにすることで行われる。これは例えば、畳み込み層１４０２－ａ～ｄに付随するマスク層のロジットを同じパラメータを利用することや、各ロジット間のカルバックライブラ情報量が小さくなるように学習することで行う。これ以外にも複数のロジットの平均や最大値などの統計量とのカルバックライブラ情報量が小さくなるようにしてもよいし、論理和１４０６のように複数のロジットの示す有効特徴チャンネルの論理和をパラメータνが１をとる確率とみなしたベルヌーイ分布とのカルバックライブラ情報量が小さくなるようにしてもよい。

【実施例6】

【0128】

実施例６では、本発明の学習処理装置に好適なモニタ画面の構成例について説明する。図１７は軽量モデルの学習を実施するための画面の構成を示した図である。図１７の画面構成例では、各種の設定部と実行部と結果表示部により構成される。各種の設定部は、１５０１から１５０７の設定要因で構成されている。

【0129】

設定部のうち、学習データセット設定部１５０１は学習データセット３０１Bに関する設定を行う領域である。ここでは所定のフォーマットで格納された記憶領域を指定することでデータを読み込む。評価データセット設定部１５０２は評価データセット５０４に関する設定を行う領域である。ここでは学習データセット設定部１５０１と同様の設定を行う。学習条件設定部１５０３は学習部(新モデル生成部)３０６がニューラルネットワークを学習する際の条件を設定する領域である。これは例えば学習時のパラメータ更新回数に関するものであったり、学習率スケジュール、ｗｅｉｇｈｔｄｅｃａｙの係数、各種損失関数の係数であったりする。

【0130】

ネットワーク構造設定部１５０４は学習するネットワーク構造３０３に関する設定を行う領域である。ここで学習対象の認識処理に応じて適切なネットワーク構造３０３を操作者が選択する。事前学習モデル設定部１５０５は事前学習モデル３０２Aを設定する領域である。ここでは操作者が事前学習モデルを一つ選択、もしくは指定する。

【0131】

枝刈りパラメータ設定部１５０６は枝刈りに関するパラメータを設定する領域である。マスク層１３０４を用いた枝刈りの場合では緩和ベルヌーイ分布のロジットの初期値やロジットを決定するマスク確率の初期値、マスク層１３０４に関する損失関数の係数などを設定する。また、一般にニューラルネットワークの学習において、初期ではエッジや曲線などの原始的な画像特徴が学習され、徐々に認識性能を向上させるために重要な複雑な特徴が学習されていく。そのため、学習初期からマスク層に関する損失関数を強く設定したり、多くの特徴チャンネルが有効にならないような設定では学習が難しい場合がある。そのため、学習初期ではマスクの損失関数の係数を極小さな値にしてもよいし、マスク層１３０４のロジットの内上位何割が有効となることを許容するかを決定するマスク目標値は学習が進むにつれて徐々に緩和してもよい。例えば、学習の初期３０％はマスク損失関数の係数をゼロにしたり、学習の初期５０％ではネットワーク全体の特徴チャンネルの内１０％のみ有効、学習の進捗７５％までは２０％までの特徴チャンネルが有効、学習終了までは３０％の特徴チャンネルが有効となるように学習してもよい。

【0132】

重要パラメータ特定条件設定部１５０７は重要パラメータ特定部３０４の処理条件に関する設定を行う領域である。ここでは例えば重要度の評価関数として、ヘッセ行列とパラメータの行列積、ヘッセ行列の対角成分とパラメータベクトルの要素積、勾配情報とパラメータベクトルの要素積の絶対値、ヘッセ行列の代替としてＫ－ＦＡＣをもちいる、マスク層を用いるなどの条件を設定する。また転移を行うパラメータの割合や部分的再初期化の実行有無、実行手法を設定する。

【0133】

次に、実行部は、重要度評価実行部１５０８と学習結果表示部１５１０により構成されている。ここでは、重要度評価実行部１５０８が操作者によって選択されると重要パラメータ特定部３０４が動作し、設定された事前学習モデル３０２の各パラメータの重要度評価を行う。軽量モデル作成実行部１５０９が操作者によって選択されると学習部３０６が動作し、設定された条件に従ってステップＳ６０４から学習フローを開始する。

【0134】

学習結果表示部１５１０は学習結果に関する情報を表示する領域である。ここでは例えば達成した認識性能や得られた軽量モデルの推論に必要な時間、学習時間に対する認識性能及び有効特徴チャンネル数の変化を表示する。また重要度評価実行部１５０８が選択され評価が完了した時点で、重要度のヒストグラムを表示してもよい。

【0135】

操作者はこれらの情報を用いて所望の認識性能、推論速度を達するまで各パラメータを調整する。

【0136】

図１８は、複数の事前学習モデルの候補に対する重要度評価を実施するための画面の構成を示した図である。この場合にも画面は、設定部と実行部と結果表示部により構成される。

【0137】

操作者はこの画面を用いて図１７で示した軽量モデル５０５の学習に用いる事前学習モデルを決定する。学習データセット設定部１５０１、ネットワーク構造設定部１５０４、重要パラメータ特定条件設定部１５０７は図１７と同様である。

【0138】

評価事前学習モデル設定部１６０１は重要度を評価する事前学習モデルを設定する。図８及び図９では事前学習モデル候補抽出部８０２が抽出した事前学習モデルの候補を全て評価する例で記載したが、評価時間の短縮のため操作者が評価事前学習モデル設定部１６０１で重要度評価を行うモデルを選択してもよい。また、ここでは事前学習モデル候補抽出部８０２が抽出した事前学習モデルをユーザに提示してもよい。

【0139】

重要度評価一括実行部１６０２が操作者によって選択されると、図１０記載の重要度評価フローのステップＳ９０３から処理を開始する。

【0140】

事前学習モデル評価結果表示部１６０３は各事前学習モデルの評価結果を表示する。ここでは図８で示した表と選択された事前学習モデルの重要度のヒストグラムを表示する例を記載した。

【0141】

以上の画面構成を採用した本発明によれば軽量モデル５０５を効率的に学習することが可能となる。

【0142】

本発明は上記実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換える事が可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について他の構成の追加・削除・置換をすることができる。

【符号の説明】

【0143】

１０１：入力画像、１０２（１０２－１，１０２－２，１０２－３，１０２－４）：画像処理部(学習モデル)、１０３（１０３－１，１０３－２，１０３－３，１０３－４）：処理結果部、１０２´（１０２－１，１０２´－２，１０２´－３）：画像処理部（環境別モデル）、１０３´（１０３´－１，１０３´－２，１０３´－３）：処理結果部、２０１：従来の枝刈りにおける学習処理、２０２：従来の枝刈りにおける枝刈り処理、２０３：従来の枝刈りにおける再学習処理、２０４：従来の枝刈りによるニューラルネットワークの構成例、３０１（３０１Ａ，３０１Ｂ）：学習データセット、３０２：事前学習済みモデル、３０３：枝刈りしていないニューラルネットワーク、３０４：重要パラメータ特定部、３０５：抽出された重要パラメータによって構成されるニューラルネットワーク、３０６：新モデル生成部、３０７：学習処理、４０１、４０２：学習曲線、５０３：モデル評価部、５０４：評価データセット、７００：重要度評価テーブル、７０１：事前学習モデル種別、７０２：事前学習データセット、７０３：重要度総和、７０４：枝刈り後重要度総和、８０１：学習済みモデル記憶部、８０２：事前学習モデル候補抽出部、８０３：事前学習モデル選択部、８０４：重要度評価結果記憶部、１００１：部分的再初期化処理部、１００２：部分的再初期化されたニューラルネットワーク、１００３：枝刈り処理部、１００４：枝刈りされたニューラルネットワーク、１３０１：畳み込み層への入力、１３０２：畳み込み層、１３０３：正規化層、１３０４：マスク層、１３０５：活性化層、１３０６：一連の畳み込み層の出力、１４０１：複雑なネットワーク構造を持つニューラルネットワークへの入力、１４０２－ａ～ｄ：複雑なネットワーク構造を持つニューラルネットワークにおける複数の畳み込み層、１４０３：複雑なネットワーク構造を持つニューラルネットワークの出力

【図1】