特許7600768 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特許7600768機械学習装置、推論装置、機械学習方法、および機械学習プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-09

(45)【発行日】2024-12-17

(54)【発明の名称】機械学習装置、推論装置、機械学習方法、および機械学習プログラム

(51)【国際特許分類】

G06N 3/08 20230101AFI20241210BHJP

【ＦＩ】

G06N3/08

【請求項の数】 6

(21)【出願番号】P 2021032801

(22)【出願日】2021-03-02

(65)【公開番号】P2022133872

(43)【公開日】2022-09-14

【審査請求日】2023-12-28

(73)【特許権者】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】100105924

【弁理士】

【氏名又は名称】森下賢樹

(72)【発明者】

【氏名】竹原英樹

(72)【発明者】

【氏名】木田晋吾

(72)【発明者】

【氏名】楊尹誠

【審査官】北川純次

(56)【参考文献】

【文献】特開２０１７－２１１７９９（ＪＰ，Ａ）

【文献】特開２０１９－１９２００９（ＪＰ，Ａ）

【文献】MALLYA, Arun, et al.，PackNet: Adding Multiple Tasks to a Single Network by Iterative Pruning，arXiv.org [online]，2018年05月13日，[検索日 2022.02.21], インターネット：<URL:https://arxiv.org/pdf/1711.05769.pdf>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０２－３／１０

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

ニューラルネットワークモデルの層の深さに応じて第１タスクのニューラルネットワークモデルの重みを初期化する第１初期化率を決定する初期化率決定部と、
前記第１タスクを機械学習して第１タスクの学習済みニューラルネットワークモデルを生成する機械学習実行部と、
前記第１タスクの学習済みニューラルネットワークモデルの重みを前記第１初期化率に基づいて初期化して、第２タスクで用いるための前記第１タスクの初期化学習済みニューラルネットワークモデルを生成する初期化部とを含むことを特徴とする機械学習装置。

【請求項2】

前記初期化率決定部は、ニューラルネットワークモデルの入力層に近い畳み込み層の前記第１初期化率を出力層に近い畳み込み層の前記第１初期化率よりも小さく設定することを特徴とする請求項１に記載の機械学習装置。

【請求項3】

第１タスクと第２タスクのタスク類似度を導出するタスク類似度導出部をさらに含み、
前記初期化率決定部は、ニューラルネットワークモデルの層の深さおよび前記タスク類似度に応じて前記第２タスクのニューラルネットワークモデルの重みを初期化する第２初期化率を決定し、
前記機械学習実行部は、前記第１タスクの初期化学習済みニューラルネットワークモデルを前記第２タスクについて転移学習して第２タスクの学習済みニューラルネットワークモデルを生成し、
前記初期化部は、前記第２タスクの学習済みニューラルネットワークモデルの重みを前記第２初期化率に基づいて初期化して、第３タスクで用いるための前記第２タスクの初期化学習済みニューラルネットワークモデルを生成することを特徴とする請求項１または２に記載の機械学習装置。

【請求項4】

前記初期化率決定部は、前記タスク類似度が大きいほど前記第２初期化率を大きくすることを特徴とする請求項３に記載の機械学習装置。

【請求項5】

ニューラルネットワークモデルの層の深さに応じて第１タスクのニューラルネットワークモデルの重みを初期化する第１初期化率を決定する初期化率決定ステップと、
前記第１タスクを機械学習して第１タスクの学習済みニューラルネットワークモデルを生成する機械学習実行ステップと、
前記第１タスクの学習済みニューラルネットワークモデルの重みを前記第１初期化率に基づいて初期化して、第２タスクで用いるための前記第１タスクの初期化学習済みニューラルネットワークモデルを生成する初期化ステップとを含むことを特徴とする機械学習方法。

【請求項6】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習技術に関する。

【背景技術】

【0002】

人間は長期にわたる経験を通して新しい知識を学習することができ、昔の知識を忘れないように維持することができる。一方、畳み込みニューラルネットワーク（Convolutional Neural Network(CNN)）の知識は学習に使用したデータセットに依存しており、データ分布の変化に適応するためにはデータセット全体に対してＣＮＮのパラメータの再学習が必要となる。ＣＮＮでは、新しいタスクについて学習していくにつれて、昔のタスクに対する推定精度は低下していく。このようにＣＮＮでは連続学習を行うと新しいタスクの学習中に昔のタスクの学習結果を忘れてしまう致命的忘却(catastrophic forgetting)が避けられない。

【0003】

致命的忘却を回避する手法として、継続学習（incremental learningまたはcontinual learning）が提案されている。継続学習とは、新しいタスクや新しいデータが発生した時に、最初からモデルを学習するのではなく、現在の学習済みのモデルを改善して学習する学習方法である。継続学習の一つの手法としてＰａｃｋＮｅｔがある（非特許文献１）。ＰａｃｋＮｅｔによる継続学習では、追加するタスクの順序において利用する重みを変更している。

【先行技術文献】

【非特許文献】

【0004】

【文献】Mallya, Arun, and Svetlana Lazebnik. “Packnet: Adding multiple tasks to a single network by iterative pruning.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

【発明の概要】

【発明が解決しようとする課題】

【0005】

ＰａｃｋＮｅｔでは、追加で学習できるタスク数と追加したタスクの精度が目標タスクに対して向上されないという課題があった。

【0006】

本発明はこうした状況に鑑みてなされたものであり、その目的は、追加で学習できるタスク数と追加したタスクの精度を目標タスクに対して最適にすることができる機械学習技術を提供することにある。

【課題を解決するための手段】

【0007】

上記課題を解決するために、本発明のある態様の機械学習装置は、ニューラルネットワークモデルの層の深さに応じて第１タスクのニューラルネットワークモデルの重みを初期化する第１初期化率を決定する初期化率決定部と、前記第１タスクを機械学習して第１タスクの学習済みニューラルネットワークモデルを生成する機械学習実行部と、前記第１タスクの学習済みニューラルネットワークモデルの重みを前記第１初期化率に基づいて初期化して、第２タスクで用いるための前記第１タスクの初期化学習済みニューラルネットワークモデルを生成する初期化部とを含む。

【0008】

本発明の別の態様は、推論装置である。この装置は、複数のタスクから１つのタスクを選択するタスク入力部と、前記複数のタスクを学習済みであるニューラルネットワークモデルの重みを前記選択されたタスクで利用される重み以外の重みを０に設定した新たなニューラルネットワークモデルを生成する推論モデル生成部と、前記選択されたタスクを前記新たなニューラルネットワークモデルにもとづいて推論する推論部とを含む。

【0009】

本発明のさらに別の態様は、機械学習方法である。この方法は、ニューラルネットワークモデルの層の深さに応じて第１タスクのニューラルネットワークモデルの重みを初期化する第１初期化率を決定する初期化率決定ステップと、前記第１タスクを機械学習して第１タスクの学習済みニューラルネットワークモデルを生成する機械学習実行ステップと、前記第１タスクの学習済みニューラルネットワークモデルの重みを前記第１初期化率に基づいて初期化して、第２タスクで用いるための前記第１タスクの初期化学習済みニューラルネットワークモデルを生成する初期化ステップとを含む。

【0010】

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

【発明の効果】

【0011】

本発明によれば、追加で学習できるタスク数と追加したタスクの精度を目標タスクに対して最適にすることができる機械学習技術を提供することができる。

【図面の簡単な説明】

【0012】

【図1】実施の形態に係る機械学習装置および推論装置の構成図である。

【図2】図１の機械学習装置の継続学習部の詳細な構成図である。

【図3】タスク１に対する図２の継続学習部の動作を説明するフローチャートである。

【図4】図２の機械学習実行部において用いられるニューラルネットワークモデルの構造を示す図である。

【図5】図５（ａ）および図５（ｂ）は、タスク１に関するニューラルネットワークモデルの初期化率の所定値を説明する図である。

【図6】ニューラルネットワークモデルの各層の入出力チャネル数、入出力チャネル間の重み数、各層の総重み数、パラメータ数を説明する図である。

【図7】タスク２に対する図２の継続学習部の動作を説明するフローチャートである。

【図8】タスク３に関するニューラルネットワークモデルの初期化率の所定値を説明する図である。

【図9】タスクＮに対する図１の推論装置の動作を説明するフローチャートである。

【発明を実施するための形態】

【0013】

図１は、実施の形態に係る機械学習装置１００および推論装置２００の構成図である。機械学習装置１００は、タスク入力部１０、継続学習部２０、および記憶部３０を含む。推論装置２００は、タスク入力部４０、タスク判定部５０、推論モデル生成部６０、推論部７０、および推論結果出力部８０を含む。

【0014】

継続学習では、致命的忘却なく新たなタスクを学習することが求められる。本実施の形態の機械学習装置１００は、継続学習の中で特に新しいタスクを学習済みモデルに追加で学習させることを目的とする。

【0015】

機械学習装置１００は、複数のタスクから継続学習によりターゲットモデルと有効パラメータ情報を生成する装置である。ここでは説明を簡単にするため、タスクとして以下の３つがあるとして説明するが、タスクの数や種類は任意である。

【0016】

タスク１は、第１のデータセットであるＩｍａｇｅＮｅｔデータセットを用いた画像認識タスクである。タスク２は、第２のデータセットであるＰｌａｃｅｓ３６５データセットを用いた画像認識タスクである。タスク３は、第３のデータセットであるＣＵＢＳＢｉｒｄｓデータセットを用いた画像認識タスクである。推論装置２００に入力されるタスクＮは、ターゲットモデルが学習済みのタスクであるタスク１からタスク３のいずれかのタスクである。ここでは、各タスクに異なるデータセットをそれぞれ割り当てたが、各タスクが異なる認識タスクであればこれに限定されない。１つのデータセットを複数のタスクに分割してもよい。例えば、ＩｍａｇｅＮｅｔデータセットの中の異なる１０クラスをタスク１、タスク２、タスク３にそれぞれ割り当ててもよい。また、各タスクの画像は図示しないカメラ等の画像取得部からタスク入力部１０へ入力される画像であってもよい。例えば、タスク１を既存画像のデータセットとし、タスク２以降を図示しないカメラ等からタスク入力部１０へ入力される画像のデータセットとしてもよい。

【0017】

タスク入力部１０は、複数のタスク（ここではタスク１、タスク２、タスク３）を継続学習部２０に順次供給する。

【0018】

継続学習部２０は、複数のタスク（ここではタスク１、タスク２、タスク３）を順次用いてニューラルネットワークモデルを継続学習してターゲットモデルと有効パラメータ情報を生成する。

【0019】

ターゲットモデルは、継続学習部２０で生成される学習済みニューラルネットワークモデルである。ターゲットモデルは、継続学習によって最終的に複数のタスク（ここではタスク１、タスク２、タスク３）の学習済みニューラルネットワークとなる。有効パラメータ情報は、継続学習部２０で生成される学習済みニューラルネットワークモデルに対して、タスク毎に有効にする学習済みニューラルネットワークモデルの重み等のパラメータを特定する情報である。有効パラメータ情報の詳細は後述する。

【0020】

記憶部３０は、ターゲットモデルと有効パラメータ情報を記憶する。

【0021】

推論装置２００は、機械学習装置１００で生成されたターゲットモデルと有効パラメータ情報を用いて、複数のタスクについて推論結果を生成する装置である。

【0022】

タスク入力部４０は、タスクＮを推論部７０に供給する。タスク判定部５０は、推論部７０に供給されるタスクＮが学習済みのいずれのタスクであるか（ここではタスク１、タスク２、タスク３のいずれか）を判定し、判定結果を推論モデル生成部６０に供給する。本実施の形態ではユーザがタスク１からタスク３のいずれであるかを指定するものとするが、何らかの方法で自動判定してもよい。

【0023】

推論モデル生成部６０は、機械学習装置１００の記憶部３０から取得したターゲットモデルと有効パラメータ情報を記憶し、ターゲットモデルと有効パラメータ情報に基づいて推論モデルを生成し、推論部７０に供給する。

【0024】

推論部７０は、推論モデル生成部６０により生成された推論モデルにもとづいてタスクＮを推論し、推論結果を推論結果出力部８０に供給する。推論結果出力部９０は、推論結果を出力する。

【0025】

図２は、機械学習装置１００の継続学習部２０の詳細な構成図である。継続学習部２０は、タスク類似度導出部２１、初期化率決定部２２、機械学習実行部２４、初期化部２６、およびファインチューニング部２８を含む。

【0026】

図３は、タスク１に対する継続学習部２０の動作を説明するフローチャートである。図２および図３を参照して、タスク１に対する継続学習部２０の構成と動作を説明する。

【0027】

タスク類似度導出部２１は、タスク１に対しては最初のタスクであるからタスク類似度は算出しない。

【0028】

初期化率決定部２２は、ニューラルネットワークの層の深さに応じてニューラルネットワークモデルの初期化率を所定値に決定する（Ｓ１０）。タスク１ではニューラルネットワークモデルの全ての重みを初期化の対象とする。所定値については後述する。

【0029】

機械学習実行部２４は、タスク１についてニューラルネットワークモデルを機械学習して学習済みニューラルネットワークモデルを生成する（Ｓ２０）。

【0030】

図４は、機械学習実行部２４において用いられるニューラルネットワークモデルの構造を示す図である。

【0031】

本実施の形態では、ニューラルネットワークモデルはディープニューラルネットワークであるＶＧＧ１６とする。ＶＧＧ１６は畳み込み層（ＣＯＮＶ）が１３層、全結合層（Ｄｅｎｓｅ）が３層、プーリング層が５層で構成される。学習対象となる層は畳み込み層と全結合層である。プーリング層は畳み込み層の出力である特徴マップをサブサンプルする層である。入力に近い層を浅い層、出力に近い層を深い層と呼ぶ。ニューラルネットワークモデルはＶＧＧ１６に限らず、各層の数も本実施の形態に限らない。

【0032】

図５（ａ）および図５（ｂ）は、タスク１に関するニューラルネットワークモデルの初期化率の所定値を説明する図である。

【0033】

ニューラルネットワークの層毎に初期化率は所定値に設定される。図５（ａ）では、ＣＯＮＶ１－１、ＣＯＮＶ１－２、ＣＯＮＶ２－１、ＣＯＮＶ２－２、ＣＯＮＶ３－１、ＣＯＮＶ３－２、ＣＯＮＶ３－３については初期化率が０％に設定され、ＣＯＮＶ４－１、ＣＯＮＶ４－２、ＣＯＮＶ４－３、ＣＯＮＶ５－１、ＣＯＮＶ５－２、ＣＯＮＶ５－３、Ｄｅｎｓｅ６、Ｄｅｎｓｅ７、Ｄｅｎｓｅ８については初期化率が５０％に設定される。

【0034】

図５（ｂ）では、ＣＯＮＶ１－１、ＣＯＮＶ１－２については初期化率が１０％に設定され、ＣＯＮＶ２－１、ＣＯＮＶ２－２については初期化率が２０％に設定され、ＣＯＮＶ３－１、ＣＯＮＶ３－２、ＣＯＮＶ３－３については初期化率が３０％に設定され、ＣＯＮＶ４－１、ＣＯＮＶ４－２、ＣＯＮＶ４－３については初期化率が４０％に設定され、ＣＯＮＶ５－１、ＣＯＮＶ５－２、ＣＯＮＶ５－３、Ｄｅｎｓｅ６、Ｄｅｎｓｅ７、Ｄｅｎｓｅ８については初期化率が５０％に設定される。

【0035】

ニューラルネットワークモデルの階層について、浅い層よりも深い層の初期化率が大きくなるように設定することが好ましい。初期化率が大きいほどタスク２以降で利用可能な重みが増加する。以下ではタスク１に関するニューラルネットワークモデルの初期化率の所定値は図５（ａ）の例であるとして説明する。

【0036】

再び図２および図３を参照する。初期化部２６は、学習済みニューラルネットワークモデルの重みを各層の初期化率に基づいて初期化する（Ｓ３０）。ここで、初期化するとはニューラルネットワークの重みを０（ゼロ）にすることである。学習済みニューラルネットワークモデルの層毎に、各層の重みの中で０に近い重みから順に初期化率に相当する割合の重みを０に初期化する。

【0037】

初期化対象外となった重みはタスク１で利用される重みとなり、初期化対象となった重みはタスク２以降で利用される重みとなる。

【0038】

タスク１の有効パラメータ情報は、タスク１で利用される重み、すなわちタスク１の学習後に初期化されていない重みを特定する情報である。初期化部２６は、タスク１の有効パラメータ情報を記憶部３０に記憶させる。

【0039】

有効パラメータ情報は、ニューラルネットワークモデルの全ての重みにそれぞれ１ビットずつ割り当てられる２値の情報である。初期化部２６は、ニューラルネットワークモデルの全ての重みについて、重みが０であれば符号「０」を、重みが０以外であれば符号「１」を割り当てて符号列として記憶部３０に記憶させてもよい。

【0040】

図６は、ニューラルネットワークモデルの各層の入出力チャネル数、入出力チャネル間の重み数、各層の総重み数、パラメータ数を説明する図である。

【0041】

初期化率が５０％である場合、例えば、ＣＯＮＶ４－１であれば、１１７９６４８個の重みの内の５０％である５８９８２４個の重みを初期化する。

【0042】

再び図２および図３を参照する。ファインチューニング部２８は、初期化した重みを変更しないようにしてタスク１について学習済みニューラルネットワークモデルをファインチューニングしてターゲットモデルを生成する（Ｓ４０）。ファインチューニングの対象とする重みはタスク１で利用される初期化されていない重みである。

【0043】

次にタスク２に対する継続学習部２０の動作を説明する。

【0044】

図７は、タスク２に対する継続学習部２０の動作を説明するフローチャートである。図２および図７を参照して、タスク２に対する継続学習部２０の構成と動作を説明する。

【0045】

タスク類似度導出部２１は、学習済みタスクであるタスク１とターゲットタスクであるタスク２のデータ分布の確率密度関数の距離をタスク類似度として導出する（Ｓ５０）。ここでは、２つの確率密度関数の距離としてＪｅｎｓｅｎ－Ｓｈａｎｎｏｎダイバージェンス（ＪＳダイバージェンス）を用いる。ＪＳダイバージェンスは０から１までの値をとる。ＪＳダイバージェンスが小さいほど２つの確率密度関数の距離は近く、ＪＳダイバージェンスが大きいほど２つの確率密度関数の距離は大きくなる。よって、ＪＳダイバージェンスが小さいほどタスク類似度が大きくなるように設定し、ＪＳダイバージェンスが大きいほどタスク類似度が小さくなるように設定する。

【0046】

ここでは、タスク類似度を導出するために、ＪＳダイバージェンスを用いたが、カルバック・ライブラー・ダイバージェンス（ＫＬＤ）など２つの確率密度関数の距離を評価できる尺度であれば任意の尺度を用いてもよい。

【0047】

初期化率決定部２２は、ニューラルネットワークの層の深さとタスク類似度に応じてターゲットモデルの初期化率を所定値に決定する（Ｓ６０）。所定値については後述する。

【0048】

初期化率が適用される対象となる重みはどのタスクにも割り当てられていない重みである。いずれかのタスクに割り当てられている重みは初期化対象外である。

【0049】

図８は、タスク２に関するニューラルネットワークモデルの初期化率の所定値を説明する図である。

【0050】

ニューラルネットワークの層の深さとタスク類似度に基づいて以下のように初期化率を所定値に設定する。

【0051】

学習済みタスクであるタスク１で初期化されないＣＯＮＶ１－１からＣＯＮＶ３－３の重みは初期化対象とする重みはないため、初期化率は０である。

【0052】

タスク類似度が大きいすなわちＪＳダイバージェンス（ＪＳＤ）が小さい場合、階層が浅い方の初期化率を大きく、階層が深い方の初期化率を小さく設定する。

【0053】

タスク類似度が大きいすなわちＪＳＤが小さい場合、タスク類似度が小さいすなわちＪＳＤが大きい場合と比較して初期化率を大きく設定する。

【0054】

タスク類似度が大きいすなわちＪＳＤが小さい場合、ＣＯＮＶ４－Ｘ（Ｘ＝１，２，３）の重みは更新しない。

【0055】

より具体的には、一例であるが、図８に示すように、ＪＳＤ＜０．１の場合、ＣＯＮＶ４－１、ＣＯＮＶ４－２、ＣＯＮＶ４－３については初期化率が１００％に設定され、ＣＯＮＶ５－１、ＣＯＮＶ５－２、ＣＯＮＶ５－３については初期化率が９５％に設定され、Ｄｅｎｓｅ６、Ｄｅｎｓｅ７、Ｄｅｎｓｅ８については初期化率が８０％に設定される。

【0056】

０．１≦ＪＳＤ＜０．５の場合、ＣＯＮＶ４－１、ＣＯＮＶ４－２、ＣＯＮＶ４－３、ＣＯＮＶ５－１、ＣＯＮＶ５－２、ＣＯＮＶ５－３については初期化率が９０％に設定され、Ｄｅｎｓｅ６、Ｄｅｎｓｅ７、Ｄｅｎｓｅ８については初期化率が７５％に設定される。

【0057】

０．５≦ＪＳＤ＜０．９の場合、ＣＯＮＶ４－１、ＣＯＮＶ４－２、ＣＯＮＶ４－３、ＣＯＮＶ５－１、ＣＯＮＶ５－２、ＣＯＮＶ５－３、Ｄｅｎｓｅ６、Ｄｅｎｓｅ７、Ｄｅｎｓｅ８については初期化率が７５％に設定される。

【0058】

０．９≦ＪＳＤの場合、ＣＯＮＶ４－１、ＣＯＮＶ４－２、ＣＯＮＶ４－３、ＣＯＮＶ５－１、ＣＯＮＶ５－２、ＣＯＮＶ５－３、Ｄｅｎｓｅ６、Ｄｅｎｓｅ７、Ｄｅｎｓｅ８については初期化率が５０％に設定される。

【0059】

以上により、類似度が大きいタスクの場合、より上位の特徴が学習済みタスクと似ているため、より上位の特徴量を学ぶ層は初期化率を大きくして、これ以降に追加されるタスクのために初期化された重みを残しておくことができる。

【0060】

タスク１とタスク２の類似度が高い場合、タスク１に割り当てられた重みをタスク２の推論のために共用することができる確率が高くなるため、タスク２に割り当てるために新たに初期化する重みの数を減らすことができる。逆に、タスク１とタスク２の類似度が低い場合、タスク１に割り当てられた重みをタスク２の推論のために共用することができる確率が低くなるため、タスク２に割り当てるために新たに初期化する重みの数を増やす必要がある。

【0061】

再び図２および図７を参照する。機械学習実行部２４はターゲットタスクであるタスク２を用いて、学習済みタスクの重みを変更しないようにしてターゲットモデルを転移学習して学習済みニューラルネットワークモデルを生成する（Ｓ７０）。ここで学習済みタスクの重みはタスク１で利用される重みである。転移学習の前後で学習済みタスクに割り当てられた重みは変化しない。なお、ここでは学習済みタスクの重みを変更しないようにしてターゲットモデルを学習することを、学習済みタスクの重みを別のタスクに転移するものとして転移学習と称したが、単純に学習と称してもよい。

【0062】

初期化部２６は、学習済みニューラルネットワークモデルの重みを初期化率に基づいて初期化してターゲットモデルの第１候補を生成する（Ｓ８０）。

【0063】

学習済みタスクの重みを含む初期化対象外の重みはタスク２で利用される重みとして割り当てられる。

【0064】

タスク２の有効パラメータ情報はタスク２で利用される重みであり、初期化されていない重みを特定する情報である。初期化部２６は、タスク２の有効パラメータ情報を記憶部３０に記憶する。

【0065】

ファインチューニング部２８は、学習済みタスクの重みと初期化した重みを変更しないようにしてタスク２についてターゲットモデルの第１候補をファインチューニングしてターゲットモデルの第２候補を生成する（Ｓ９０）。

【0066】

ファインチューニング部２８は、ターゲットモデルの第１候補とターゲットモデルの第２候補の内、より精度の高い方の候補を最終的なターゲットモデルとして決定する（Ｓ１００）。基本的にはターゲットモデルの第２候補を最終的なターゲットモデルとして選択すればよいが、ターゲットモデルの汎化性能を高めるためにターゲットモデルの重みの学習に利用する訓練用データとは異なる評価用データを用いて学習終了時のターゲットモデルの第１候補と第２候補の推論精度を評価して、より精度の高い方の候補を最終的なターゲットモデルとして決定することがより好ましい。

【0067】

このように、ニューラルネットワークモデルの層の深さとタスク間の類似度に基づいて学習済みニューラルネットワークモデルの初期化率を設定して新たなタスクを学習させることにより、タスクの特性に合わせて新たなタスクを学習させる継続学習が可能となる。これにより、無駄に重みを利用することが低減されて、追加で学習できるタスク数を増加させることができる。また、有用な重みを初期化することが低減されて、追加したタスクの推論精度を高く維持することができる。

【0068】

タスク３についてはタスク２の場合と同様の処理になるが、タスク類似度の導出方法のみが異なる。

【0069】

タスク類似度導出部２１は、タスク３とタスク１のタスク類似度３１と、タスク３とタスク２のタスク類似度３２を導出する。タスク類似度３１とタスク類似度３２のうち、タスク類似度の大きい方のタスクを学習済みタスクとする。

【0070】

一般に、タスク類似度導出部２１は、複数の学習済みタスクの中からターゲットタスクとの類似度が最も大きい１つの学習済みタスクを学習済みタスクとして選択する。

【0071】

ただし、タスクの数が増加した場合、全てのタスクに対してタスク類似度を導出するのは効率的ではない。そのため、タスク類似度を導出する対象を下記のように選定することもできる。
（１）新しいタスクを優先的に導出対象として選定する。例えば、新しく入力されたタスクの順に所定数のタスクを導出対象として残す。
（２）初期化率の小さいタスク（類似していないタスク）を優先的に導出対象として選定する。例えば、初期化率の小さいタスクの順に所定数のタスクを導出対象として残す。
（３）初期化率が所定値より小さいタスク（類似していないタスク）を導出対象として選定する。例えば、初期化率が所定値より小さい所定数のタスクを導出対象として残す。
（４）上記の（１）と（２）の組み合わせ
（５）上記の（１）と（３）の組み合わせ

【0072】

このように、複数の学習済みタスクの中でターゲットタスクとの類似度が最も大きいまたは比較的大きいタスクを学習済みタスクとすることにより、ターゲットタスクに要する重みを少なくすることができる。

【0073】

次に、推論装置２００と動作を説明する。図９は、タスクＮに対する推論装置２００の動作を説明するフローチャートである。

【0074】

タスク判定部５０は、推論部７０に入力されるタスクＮがタスク１からタスク３のいずれであるかを判定する（Ｓ２００）。本実施の形態ではユーザーがいずれのタスクであるかを指定する。

【0075】

推論モデル生成部６０は、学習済みターゲットモデルと有効パラメータ情報に基づいて推論用ニューラルネットワークモデル（以下、「推論モデル」と呼ぶ）を生成する（Ｓ２１０）。ターゲットモデルはタスク１からタスク３について学習済みのニューラルネットワークモデルである。タスクＮがタスクｉ（ｉは１～３のいずれか）であると判定された場合、推論モデル生成部６０は、タスクｉの有効パラメータ情報に基づいてターゲットモデルにおいてタスクｉで利用する重み以外の重みは０に設定した推論モデルを生成する。具体的には、推論モデル生成部６０は、有効パラメータ情報の符号列を読み出して、符号が「１」であればその符号に対応する重みはそのまま変更せず、一方、符号が「０」であればその符号に該当する重みは０に変更するようにしてもよい。

【0076】

推論部７０は、タスクｉについて生成した推論モデルで入力されたタスクＮの推論結果を生成する（Ｓ２２０）。

【0077】

本実施の形態では、初期化部２６は学習済みニューラルネットワークモデルの重みを初期化率に基づいて重み単位で初期化したが、初期化部２６は学習済みニューラルネットワークモデルの重みを初期化率に基づいてフィルタ単位で初期化してもよい。

【0078】

以上説明した機械学習装置１００および推論装置２００の各種の処理は、ＣＰＵやメモリ等のハードウェアを用いた装置として実現することができるのは勿論のこと、ＲＯＭ（リード・オンリ・メモリ）やフラッシュメモリ等に記憶されているファームウェアや、コンピュータ等のソフトウェアによっても実現することができる。そのファームウェアプログラム、ソフトウェアプログラムをコンピュータ等で読み取り可能な記録媒体に記録して提供することも、有線あるいは無線のネットワークを通してサーバと送受信することも、地上波あるいは衛星ディジタル放送のデータ放送として送受信することも可能である。

【0079】

以上述べたように、本実施の形態の機械学習装置１００によれば、学習済みタスクと目標タスクの類似度あるいは相関度に応じて継続学習するターゲットモデルの重みの利用率を変更することにより、追加で学習できるタスク数と追加したタスクの精度を目標タスクに対して最適にすることができる。

【0080】

以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

【符号の説明】

【0081】

１０タスク入力部、２０継続学習部、２１タスク類似度導出部、２２初期化率決定部、２４機械学習実行部、２６初期化部、２８ファインチューニング部、３０記憶部、４０タスク入力部、５０タスク判定部、６０推論モデル生成部、７０推論部、８０推論結果出力部、１００機械学習装置、２００推論装置。

【図1】