IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカミノルタ株式会社の特許一覧

<>
  • 特許-学習装置、プログラムおよび学習方法 図1
  • 特許-学習装置、プログラムおよび学習方法 図2
  • 特許-学習装置、プログラムおよび学習方法 図3
  • 特許-学習装置、プログラムおよび学習方法 図4
  • 特許-学習装置、プログラムおよび学習方法 図5
  • 特許-学習装置、プログラムおよび学習方法 図6
  • 特許-学習装置、プログラムおよび学習方法 図7
  • 特許-学習装置、プログラムおよび学習方法 図8
  • 特許-学習装置、プログラムおよび学習方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-09-08
(45)【発行日】2025-09-17
(54)【発明の名称】学習装置、プログラムおよび学習方法
(51)【国際特許分類】
   G06N 3/08 20230101AFI20250909BHJP
【FI】
G06N3/08
【請求項の数】 26
(21)【出願番号】P 2024540063
(86)(22)【出願日】2023-10-12
(86)【国際出願番号】 JP2023037096
(87)【国際公開番号】W WO2024150487
(87)【国際公開日】2024-07-18
【審査請求日】2024-07-02
(31)【優先権主張番号】P 2023004145
(32)【優先日】2023-01-13
(33)【優先権主張国・地域又は機関】JP
【早期審査対象出願】
【前置審査】
(73)【特許権者】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】指田 岳彦
【審査官】渡辺 順哉
(56)【参考文献】
【文献】米国特許出願公開第2021/0117778(US,A1)
【文献】国際公開第2022/113534(WO,A1)
【文献】国際公開第2022/172569(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、
入力されるドメインデータによる前記深層学習モデルの前記所定の層に含まれるノードの前記活性化度に関する情報としての特徴量活性度分布を算出する特徴量活性度分布算出部と、を備え、
前記学習対象層決定部は、
前記第1ドメインデータを入力したときの特徴量活性度分布と、前記第2ドメインデータを入力したときの特徴量活性度分布との差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、
前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する
習装置。
【請求項2】
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、
入力されるドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの集合である前記活性化度に関する情報としての活性化特徴量を算出する活性特徴量算出部と、を備え、
前記学習対象層決定部は、
前記第1ドメインデータを入力したときの活性化特徴量と、前記第2ドメインデータを入力したときの活性化特徴量との差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、
前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する
習装置。
【請求項3】
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、
入力されるドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを前記活性化度に関する情報として算出する活性特徴量カバレッジ算出部と、を備え、
前記学習対象層決定部は、
前記第1ドメインデータを入力したときのカバレッジと、前記第2ドメインデータを入力したときのカバレッジとの差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、
前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する
習装置。
【請求項4】
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、
前記第2ドメインデータによる前記深層学習モデルの前記所定の層に含まれるノードの前記活性化度に関する情報としての特徴量活性度分布を算出する特徴量活性度分布算出部と、を備え、
前記学習対象層決定部は、
前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記特徴量活性度分布の変化量が所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、
前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する
習装置。
【請求項5】
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、
前記第2ドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの集合である前記活性化度に関する情報としての活性化特徴量を算出する活性特徴量算出部と、を備え、
前記学習対象層決定部は、
前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記活性化特徴量の変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、
前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する
習装置。
【請求項6】
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、
前記第2ドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを前記活性化度に関する情報として算出する活性特徴量カバレッジ算出部と、を備え、
前記学習対象層決定部は、
前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記カバレッジの変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、
前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する
習装置。
【請求項7】
前記学習対象層決定部は、
前記差異が前記所定範囲から外れる度合いが大きいほど、前記深層学習モデルの前記識別層を含め、出力層に近い多くの層を前記再学習の対象となる層と決定する
請求項の何れか1項に記載の学習装置。
【請求項8】
前記差異および前記再学習の対象となる層の数を記す再学習条件確認画面を表示する表示制御部を備える
請求項の何れか1項に記載の学習装置。
【請求項9】
前記学習対象層決定部は、
前記変化量が前記所定範囲内でない場合に、当該変化量が前記所定範囲から外れる度合いが大きいほど、前記深層学習モデルの前記識別層より入力側に近い層であって、出力層に近い多くの層を前記再学習の対象となる層と決定する
請求項の何れか1項に記載の学習装置。
【請求項10】
前記第2ドメインデータのデータ量が、前記第1ドメインデータのデータ量の100分の1以下である
請求項1~6の何れか1項に記載の学習装置。
【請求項11】
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、
前記第2ドメインデータにより活性化される前記深層学習モデルの層に含まれるノードに基づいて前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、
前記再学習後の深層学習モデルの前記第2ドメインデータについての推論精度を算出する推論精度算出部と、を備え、
前記学習対象層決定部は、
前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記推論精度の変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、
前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する、
学習装置。
【請求項12】
前記学習対象層決定部は、
前記変化量が前記所定範囲内でない場合に、当該変化量が前記所定範囲から外れる度合いが大きいほど、前記深層学習モデルの前記識別層より入力側に近い層であって、出力層に近い多くの層を前記再学習の対象となる層と決定する
請求項11に記載の学習装置。
【請求項13】
コンピュータに、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、
入力されるドメインデータによる前記深層学習モデルの前記所定の層に含まれるノードの前記活性化度に関する情報としての特徴量活性度分布を算出するステップと、を実行させ、
前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、
前記第1ドメインデータを入力したときの特徴量活性度分布と、前記第2ドメインデータを入力したときの特徴量活性度分布との差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、
前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行させるための
プログラム。
【請求項14】
コンピュータに、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、
入力されるドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの集合である前記活性化度に関する情報としての活性化特徴量を算出するステップと、を実行させ、
前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、
前記第1ドメインデータを入力したときの活性化特徴量と、前記第2ドメインデータを入力したときの活性化特徴量との差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、
前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行させるための
プログラム。
【請求項15】
コンピュータに、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、
入力されるドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを前記活性化度に関する情報として算出するステップと、を実行させ、
前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、
前記第1ドメインデータを入力したときのカバレッジと、前記第2ドメインデータを入力したときのカバレッジとの差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、
前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行させるための
プログラム。
【請求項16】
コンピュータに、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、
前記第2ドメインデータによる前記深層学習モデルの前記所定の層に含まれるノードの前記活性化度に関する情報としての特徴量活性度分布を算出するステップと、を実行させ、
前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、
前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記特徴量活性度分布の変化量が所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、
前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行させるための
プログラム。
【請求項17】
コンピュータに、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、
前記第2ドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの集合である前記活性化度に関する情報としての活性化特徴量を算出するステップと、を実行させ、
前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、
前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記活性化特徴量の変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、
前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行させるための
プログラム。
【請求項18】
コンピュータに、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、
前記第2ドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを前記活性化度に関する情報として算出するステップと、を実行させ、
前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、
前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記カバレッジの変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、
前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行させるための
プログラム。
【請求項19】
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記第2ドメインデータにより活性化される前記深層学習モデルの層に含まれるノードに基づいて前記再学習の対象となる前記深層学習モデルの層を決定するステップと、
前記再学習後の深層学習モデルの前記第2ドメインデータについての推論精度を算出するステップと、をコンピュータに実行させるプログラムであって、
前記再学習の対象となる前記深層学習モデルの層を決定するステップは、
前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記推論精度の変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、
前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する、
プログラム。
【請求項20】
学習装置が、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと
入力されるドメインデータによる前記深層学習モデルの前記所定の層に含まれるノードの前記活性化度に関する情報としての特徴量活性度分布を算出するステップと、を実行し、
前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、
前記第1ドメインデータを入力したときの特徴量活性度分布と、前記第2ドメインデータを入力したときの特徴量活性度分布との差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、
前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行する
学習方法。
【請求項21】
学習装置が、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと
入力されるドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの集合である前記活性化度に関する情報としての活性化特徴量を算出するステップと、を実行し、
前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、
前記第1ドメインデータを入力したときの活性化特徴量と、前記第2ドメインデータを入力したときの活性化特徴量との差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、
前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行する
学習方法。
【請求項22】
学習装置が、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと
入力されるドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを前記活性化度に関する情報として算出するステップと、を実行し、
前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、
前記第1ドメインデータを入力したときのカバレッジと、前記第2ドメインデータを入力したときのカバレッジとの差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、
前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行する
学習方法。
【請求項23】
学習装置が、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと
前記第2ドメインデータによる前記深層学習モデルの前記所定の層に含まれるノードの前記活性化度に関する情報としての特徴量活性度分布を算出するステップと、を実行し、
前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、
前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記特徴量活性度分布の変化量が所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、
前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行する
学習方法。
【請求項24】
学習装置が、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと
前記第2ドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの集合である前記活性化度に関する情報としての活性化特徴量を算出するステップと、を実行し、
前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、
前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記活性化特徴量の変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、
前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行する
学習方法。
【請求項25】
学習装置が、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと
前記第2ドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを前記活性化度に関する情報として算出するステップと、を実行し、
前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、
前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記カバレッジの変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、
前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行する
学習方法。
【請求項26】
学習装置が、
第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、
前記第2ドメインデータにより活性化される前記深層学習モデルの層に含まれるノードに基づいて前記再学習の対象となる前記深層学習モデルの層を決定するステップと、
前記再学習後の深層学習モデルの前記第2ドメインデータについての推論精度を算出するステップと、を実行する学習方法であって、
前記再学習の対象となる前記深層学習モデルの層を決定するステップは、
前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記推論精度の変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、
前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する、
学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、深層学習モデルの再学習に係る学習装置、プログラムおよび学習方法に関する。
【背景技術】
【0002】
ある領域(データ領域、ドメイン)で学習済みの深層学習モデルを別の領域へ適応する再学習(転移学習)として、特許文献1,2に記載の技術がある。なお学習済みの元の領域はソースドメイン、適応先の領域はターゲットドメインとも呼ばれる。
特許文献1に記載の機械学習装置は、第1ドメインの画像を教師データとして用いて学習されたニューラルネットワークの第1モデルを用いて第2ドメインの画像を推論する際の推論精度にもとづいてドメイン適応度を決定するドメイン適応度決定部と、前記ドメイン適応度にもとづいて、第1モデルを複製した第2モデルの学習対象の層を決定する学習層決定部と、前記第2ドメインの画像を教師データとして用いて前記第2モデルの学習対象の層を転移学習する転移学習部とを含む。
【0003】
特許文献2に記載の機械学習装置は、第1ドメインの教師データを用いて学習されたニューラルネットワークの第1モデルを第2ドメインの教師データによって転移学習する際、第2ドメインの教師データ数にもとづいてドメイン適応データ充実度を決定するドメイン適応データ充実度決定部と、前記ドメイン適応データ充実度にもとづいて、第1モデルを複製した第2モデルの学習対象の層を決定する学習層決定部と、前記第2ドメインの教師データを用いて前記第2モデルの学習対象の層を転移学習する転移学習部とを含む。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2022-085356号公報
【文献】特開2022-122326号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載の機械学習装置では、推論精度に基づいてドメイン適応度を決定し、学習対象とする層を決定しているが、ソースドメインとターゲットドメインとが重なっている(同じ種別の画像を含んでいる)ことが前提となっている。特許文献2に記載の機械学習装置は、教師データ数に基づいてドメイン適応データ充実度を決定し、学習対象とする層を決定しているが、ドメインの差の大小が十分に考慮されておらず、十分な精度が得られない可能性がある。
【0006】
深層学習モデルにおいて、ソースドメインとターゲットドメインとの差が大きい場合には、ターゲットドメインのある程度のデータが集まった段階で識別層だけではなく、特徴抽出層も含めて再学習を行った方が、精度が向上すると考えられる。しかしながら、適切な学習条件の設定は、熟練者の勘と経験に頼らざるを得ないという問題がある。
【0007】
本発明は、このような背景に鑑みてなされたものであり、深層学習モデルの効果的な再学習を可能とする学習装置、プログラムおよび学習方法を提供することを課題とする。
【課題を解決するための手段】
【0008】
本発明の上記目的は、下記の手段によって達成される。
【0009】
(1)第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、入力されるドメインデータによる前記深層学習モデルの前記所定の層に含まれるノードの前記活性化度に関する情報としての特徴量活性度分布を算出する特徴量活性度分布算出部と、を備え、前記学習対象層決定部は、前記第1ドメインデータを入力したときの特徴量活性度分布と、前記第2ドメインデータを入力したときの特徴量活性度分布との差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する学習装置。
(2)第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、入力されるドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの集合である前記活性化度に関する情報としての活性化特徴量を算出する活性特徴量算出部と、を備え、前記学習対象層決定部は、前記第1ドメインデータを入力したときの活性化特徴量と、前記第2ドメインデータを入力したときの活性化特徴量との差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する学習装置。
(3)第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、入力されるドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを前記活性化度に関する情報として算出する活性特徴量カバレッジ算出部と、を備え、前記学習対象層決定部は、前記第1ドメインデータを入力したときのカバレッジと、前記第2ドメインデータを入力したときのカバレッジとの差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する学習装置。
(4)第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、前記第2ドメインデータによる前記深層学習モデルの前記所定の層に含まれるノードの前記活性化度に関する情報としての特徴量活性度分布を算出する特徴量活性度分布算出部と、を備え、前記学習対象層決定部は、前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記特徴量活性度分布の変化量が所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する学習装置。
(5)第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、前記第2ドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの集合である前記活性化度に関する情報としての活性化特徴量を算出する活性特徴量算出部と、を備え、前記学習対象層決定部は、前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記活性化特徴量の変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する学習装置。
(6)第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、前記第2ドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを前記活性化度に関する情報として算出する活性特徴量カバレッジ算出部と、を備え、前記学習対象層決定部は、前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記カバレッジの変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する学習装置。
【0013】
)前記学習対象層決定部は、前記差異が前記所定範囲から外れる度合いが大きいほど、前記深層学習モデルの前記識別層を含め、出力層に近い多くの層を前記再学習の対象となる層と決定する()~()の何れか1つに記載の学習装置。
【0014】
)前記差異および前記再学習の対象となる層の数を記す再学習条件確認画面を表示する表示制御部を備える()~()の何れか1つに記載の学習装置。
【0019】
)前記学習対象層決定部は、前記変化量が前記所定範囲内でない場合に、当該変化量が前記所定範囲から外れる度合いが大きいほど、前記深層学習モデルの前記識別層より入力側に近い層であって、出力層に近い多くの層を前記再学習の対象となる層と決定する()~()の何れか1つに記載の学習装置。
【0020】
(1)前記第2ドメインデータのデータ量が、前記第1ドメインデータのデータ量の100分の1以下である(1)~(6)の何れか1つに記載の学習装置。
(1)第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせる再学習部と、前記第2ドメインデータにより活性化される前記深層学習モデルの層に含まれるノードに基づいて前記再学習の対象となる前記深層学習モデルの層を決定する学習対象層決定部と、前記再学習後の深層学習モデルの前記第2ドメインデータについての推論精度を算出する推論精度算出部と、を備え、前記学習対象層決定部は、前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記推論精度の変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する、学習装置。
(1)前記学習対象層決定部は、前記変化量が前記所定範囲内でない場合に、当該変化量が前記所定範囲から外れる度合いが大きいほど、前記深層学習モデルの前記識別層より入力側に近い層であって、出力層に近い多くの層を前記再学習の対象となる層と決定する(11)に記載の学習装置。
【0021】
(13)コンピュータに、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、入力されるドメインデータによる前記深層学習モデルの前記所定の層に含まれるノードの前記活性化度に関する情報としての特徴量活性度分布を算出するステップと、を実行させ、前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、前記第1ドメインデータを入力したときの特徴量活性度分布と、前記第2ドメインデータを入力したときの特徴量活性度分布との差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行させるためのプログラム。
(14)コンピュータに、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、入力されるドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの集合である前記活性化度に関する情報としての活性化特徴量を算出するステップと、を実行させ、前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、前記第1ドメインデータを入力したときの活性化特徴量と、前記第2ドメインデータを入力したときの活性化特徴量との差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行させるためのプログラム。
(15)コンピュータに、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、入力されるドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを前記活性化度に関する情報として算出するステップと、を実行させ、前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、前記第1ドメインデータを入力したときのカバレッジと、前記第2ドメインデータを入力したときのカバレッジとの差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行させるためのプログラム。
(16)コンピュータに、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、前記第2ドメインデータによる前記深層学習モデルの前記所定の層に含まれるノードの前記活性化度に関する情報としての特徴量活性度分布を算出するステップと、を実行させ、前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記特徴量活性度分布の変化量が所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行させるためのプログラム。
(17)コンピュータに、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、前記第2ドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの集合である前記活性化度に関する情報としての活性化特徴量を算出するステップと、を実行させ、前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記活性化特徴量の変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行させるためのプログラム。
(18)コンピュータに、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、前記第2ドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを前記活性化度に関する情報として算出するステップと、を実行させ、前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記カバレッジの変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行させるためのプログラム。
19)第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記第2ドメインデータにより活性化される前記深層学習モデルの層に含まれるノードに基づいて前記再学習の対象となる前記深層学習モデルの層を決定するステップと、前記再学習後の深層学習モデルの前記第2ドメインデータについての推論精度を算出するステップと、をコンピュータに実行させるプログラムであって、前記再学習の対象となる前記深層学習モデルの層を決定するステップは、前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記推論精度の変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する、プログラム。
【0022】
(20)学習装置が、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、入力されるドメインデータによる前記深層学習モデルの前記所定の層に含まれるノードの前記活性化度に関する情報としての特徴量活性度分布を算出するステップと、を実行し、前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、前記第1ドメインデータを入力したときの特徴量活性度分布と、前記第2ドメインデータを入力したときの特徴量活性度分布との差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行する学習方法。
(21)学習装置が、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、入力されるドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの集合である前記活性化度に関する情報としての活性化特徴量を算出するステップと、を実行し、前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、前記第1ドメインデータを入力したときの活性化特徴量と、前記第2ドメインデータを入力したときの活性化特徴量との差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行する学習方法。
(22)学習装置が、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、入力されるドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを前記活性化度に関する情報として算出するステップと、を実行し、前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、前記第1ドメインデータを入力したときのカバレッジと、前記第2ドメインデータを入力したときのカバレッジとの差異が、所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、前記差異が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行する学習方法。
(23)学習装置が、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、前記第2ドメインデータによる前記深層学習モデルの前記所定の層に含まれるノードの前記活性化度に関する情報としての特徴量活性度分布を算出するステップと、を実行し、前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記特徴量活性度分布の変化量が所定範囲内であれば、前記深層学習モデルの識別層のみを前記再学習の対象となる層と決定し、前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行する学習方法。
(24)学習装置が、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、前記第2ドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの集合である前記活性化度に関する情報としての活性化特徴量を算出するステップと、を実行し、前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記活性化特徴量の変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行する学習方法。
(25)学習装置が、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記深層学習モデルの所定の層に含まれるノードについて、前記第1ドメインデータによる活性化度に関する情報と前記第2ドメインデータによる活性化度に関する情報との比較、または前記第2ドメインデータによる活性化度に関する情報の変化に基づいて、前記再学習の対象となる前記深層学習モデルの層を決定するステップと、前記第2ドメインデータによる活性化度が所定値以上となる前記深層学習モデルの前記所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを前記活性化度に関する情報として算出するステップと、を実行し、前記再学習の対象となる前記深層学習モデルの層を決定するステップにおいて、前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記カバレッジの変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定するステップを実行する学習方法。
26)学習装置が、第1ドメインデータを用いて学習させた深層学習モデルに、第2ドメインデータを用いて再学習を行わせるステップと、前記第2ドメインデータにより活性化される前記深層学習モデルの層に含まれるノードに基づいて前記再学習の対象となる前記深層学習モデルの層を決定するステップと、前記再学習後の深層学習モデルの前記第2ドメインデータについての推論精度を算出するステップと、を実行する学習方法であって、前記再学習の対象となる前記深層学習モデルの層を決定するステップは、前記深層学習モデルの識別層の再学習に用いる前記第2ドメインデータのデータ量の増加にともなう、前記推論精度の変化量が所定範囲内であれば、前記深層学習モデルの前記識別層のみを前記再学習の対象となる層と決定し、前記変化量が前記所定範囲内でなければ、前記深層学習モデルの前記識別層および当該識別層より入力側に近い層を前記再学習の対象となる層と決定する、学習方法。
【発明の効果】
【0023】
本発明によれば、深層学習モデルの効果的な再学習を可能とする学習装置、プログラムおよび学習方法を提供することができる。
【図面の簡単な説明】
【0024】
図1】第1実施形態に係る学習装置の機能ブロック図である。
図2】第1実施形態に係る深層学習モデルの構成を説明するための図である。
図3】第1実施形態に係る再学習条件確認画面の構成図である。
図4】第1実施形態に係る再学習処理のフローチャートである。
図5】第2実施形態に係る学習装置の機能ブロック図である。
図6】第3実施形態に係る学習装置の機能ブロック図である。
図7】第3実施形態に係る再学習条件確認画面の構成図である。
図8】第3実施形態に係る再学習処理のフローチャートである。
図9】第4実施形態に係る学習装置の機能ブロック図である。
【発明を実施するための形態】
【0025】
≪学習装置の概要≫
以下に本発明を実施するための形態(実施形態)における学習装置について説明する。学習装置は、ソースドメインのデータを入力したときの深層学習モデルに含まれるノード(ニューロン)の活性度である特徴量活性度分布と、ターゲットドメインのデータを入力したときの特徴量活性度分布とを算出して、差異を取得する。この差異が小さい場合に学習装置は、深層学習モデルの識別層のみを再学習の対象とする。差異が大きい場合に学習装置は、識別層および特徴抽出層(識別層より入力側に近い層)を再学習の対象とする。差異が大きいほど、特徴抽出層の識別層に近い方から多くの層を再学習の対象とする。
【0026】
このような学習装置によれば、ソースドメインとターゲットドメインとが類似していて入力データの特徴量が十分に抽出されている場合には、ターゲットドメインのデータ量が少なくても再学習の結果として高い識別精度(分類精度、推定精度)を有する深層学習モデルが得られる。ソースドメインとターゲットドメインとが類似しておらず入力データの特徴量の抽出が不十分な場合には、入力データの特徴量抽出を改善することで、再学習後の深層学習モデルにおける識別精度の改善が見込める。
【0027】
≪学習装置の構成≫
図1は、第1実施形態に係る学習装置100の機能ブロック図である。学習装置100はコンピュータであり、制御部110、記憶部130、および入出力部180を備える。入出力部180には、ディスプレイやキーボード、マウスなどのユーザインターフェイス機器が接続される。入出力部180が通信デバイスを備え、他の装置とのデータ送受信が可能であってもよい。また入出力部180にメディアドライブが接続され、記録媒体を用いたデータのやり取りが可能であってもよい。
【0028】
≪学習装置:記憶部≫
記憶部130は、ROM(Read Only Memory)やRAM(Random Access Memory)、SSD(Solid State Drive)などの記憶機器を含んで構成される。記憶部130には、ソースドメインデータ140、ターゲットドメインデータ150、学習モデルデータベース160、およびプログラム138が記憶される。プログラム138は、後記する再学習処理(図4参照)の手順の記述を含む。
【0029】
ソースドメインデータ140(第1ドメインデータ)には、後記する学習モデルデータベース160に記憶される再学習前の深層学習モデルの生成(学習、訓練)に使われた学習データが記憶される。学習データは、深層学習モデルの入力データ(例えば画像)と出力データ(正解レベル)とを含む。
【0030】
ターゲットドメインデータ150(第2ドメインデータ)には、深層学習モデルの適用先となるデータ領域の学習データ(入力データと出力データ)を含む。再学習前の入力データを含むデータ領域(ソースドメイン)として例えば、動物や家具、機器を含む一般物体の画像がある。適用先の入力データを含むデータ領域(ターゲットドメイン)として例えば、衛星画像、医療画像、顕微鏡写真などがある。
【0031】
このようにソースドメインとターゲットドメインとは異なったドメインである。画像のドメインにおいて異なるドメインの他の例として、ソースドメインが一般的な風景画像であるのに対して、ターゲットドメインがX線CT画像の例がある。言語のドメインの場合は、ソースドメインが一般的な文章であるのに対して、ターゲットドメインが法律文書の例がある。音声のドメインの場合、ソースドメインとターゲットドメインとで言語が異なる例がある。
【0032】
学習モデルデータベース160には、ソースドメインデータ140にある学習データを用いて生成された(訓練された)再学習前の深層学習モデルが記憶される。また学習モデルデータベース160には、当該深層学習モデルを、ターゲットドメインデータ150にある学習データを用いて再学習された(再訓練された)結果の深層学習モデルが記憶される。
【0033】
≪深層学習モデルの構成≫
図2は、第1実施形態に係る深層学習モデル510の構成を説明するための図である。深層学習モデル510は、ニューラルネットワークの1つであって、特徴抽出層520、および識別層530を含んで構成される。特徴抽出層520、および識別層530の各層はノード(ニューロン)を含む。入力データが与えられると、深層学習モデル510に含まれる左側の層から右側の層に向かって順次データが処理され、最後の層である出力層531に含まれるノードの活性度が出力データ(識別結果)となる。
【0034】
特徴抽出層520は入力に近く、畳み込み層などを用いて特徴を生成する機能ブロックである。識別層530は出力に近く、全結合層などを用いて特徴抽出層520が生成した特徴から問題を解く(例えば分類や推論をする)機能ブロックである。
なお深層学習モデル510自体は、パラメータの集合であってデータを処理する主体ではないが、パラメータに従って処理が実行されるので、深層学習モデル510自体がデータを処理するように記載する場合がある。例えば、深層学習モデル510は入力された画像に写る物体を検出して識別結果として出力する、などと記す。
【0035】
深層学習モデル510の一例として、画像識別に用いられるVGG16が知られている。VGG16の特徴抽出層520は13の畳み込み層を含み、識別層530は3層の全結合層を含む。深層学習モデル510が特徴抽出層520、および識別層530から構成されるのは一例であって、識別層とその他の層(識別層より入力側(図2の左側)に近い層)から構成されてもよい。
【0036】
≪学習装置:制御部≫
図1に戻って制御部110を説明する。制御部110は、CPU(Central Processing Unit)を含んで構成され、特徴量活性度分布算出部111、学習対象層決定部112、再学習部113、および表示制御部114が備わる。制御部110は、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などを用いて構成されてもよい。
【0037】
≪制御部:特徴量活性度分布算出部≫
特徴量活性度分布算出部111は、ソースドメインデータ140、およびターゲットドメインデータ150にある入力データ(例えば画像データ)の特徴量活性度分布を算出する。入力データの特徴量活性度分布は、当該入力データが入力されたときの、深層学習モデル510の特徴量算出対象層に含まれるノードの活性度の分布である。特徴量算出対象層は、例えば出力層531(図2参照)の1つ手前の(入力側に近い)層541である。また特徴量算出対象層は、さらに層541の1つ手前の層542を含む層541,542であってもよいし、さらに所定数の出力層531の手前にある層543であってもよい。
【0038】
入力データや特徴量算出対象層に含まれるノード数は大きく、特徴量活性度分布は大きな次数の多次元空間における分布となる。このため、t-SNEなどの手法を用いて低次元空間に埋め込まれた分布であってもよい。例えば特徴量活性度分布算出部111は、ソースドメインデータ140、およびターゲットドメインデータ150にある入力データの特徴量活性度分布を低次元空間に埋め込み、ソースドメインデータ140、およびターゲットドメインデータ150にある入力データそれぞれの特徴量活性度分布を算出する。なお特徴量活性度分布算出部111は、ソースドメインデータ140、およびターゲットドメインデータ150にある全ての入力データの特徴量活性度分布を算出するのではなく、一部のデータの特徴量活性度分布を算出してもよい。この一部のデータとは例えば、全入力データのうち所定比率または所定数のランダムに選択された入力データである。
【0039】
以下の説明では、ソースドメインデータ140にある入力データの特徴量活性度分布を、単にソースドメインデータ140の特徴量活性度分布とも記す。また、ターゲットドメインデータ150にある入力データの特徴量活性度分布を、ターゲットドメインデータ150の特徴量活性度分布とも記す。
【0040】
以上に説明したように学習装置100は、入力されるドメインデータによる深層学習モデル510の所定の層に含まれるノードの活性度である特徴量活性度分布を算出する特徴量活性度分布算出部111を備える。
【0041】
≪制御部:学習対象層決定部≫
学習対象層決定部112は、ソースドメインデータ140の特徴量活性度分布とターゲットドメインデータ150の特徴量活性度分布とに基づいて、再学習の対象となる深層学習モデル510(図2参照)の層を決定する。詳しく説明すると学習対象層決定部112は、2つの特徴量活性度分布の差異が所定の範囲(所定範囲)内であれば、識別層530に含まれる層のみを再学習の対象とする。差異が所定範囲外であれば、学習対象層決定部112は、出力層531から始めて入力側(図2の左側)に向かってより多くの層を再学習の対象とする。この再学習の対象となる層は、識別層530のより多くの層であってもよいし、特徴抽出層520まで含んでもよい。2つの特徴量活性度分布の差異が所定範囲内とは、例えば差異の大きさが所定値以下であるとしてもよいし、所定値以上であるとしてもよい。
ソースドメインデータ140の特徴量活性度分布とターゲットドメインデータ150の特徴量活性度分布との差異は、例えば特徴量活性度分布の中心(重心)間の距離であってもよいし、特徴量活性度分布が重なる割合であってもよいし、その他の尺度であってもよい。
【0042】
以上に説明したように学習装置100は、第1ドメインデータ(ソースドメインデータ140)を入力したときの特徴量活性度分布と、第2ドメインデータ(ターゲットドメインデータ150)を入力したときの特徴量活性度分布との差異が、所定範囲内であれば、深層学習モデル510の識別層530のみを再学習の対象となる層と決定し、差異が所定範囲内でなければ、深層学習モデル510の識別層530および当該識別層530より入力側に近い層を再学習の対象となる層と決定する学習対象層決定部112を備える。
学習対象層決定部112は、差異が所定範囲から外れる度合いが大きいほど、深層学習モデル510の識別層530を含め、出力層531に近い多くの層を再学習の対象となる層と決定する。
【0043】
≪制御部:再学習部≫
再学習部113は、ターゲットドメインデータ150にある学習データを用いて、深層学習モデル510に含まれる再学習対象となる層の再学習を行う。詳しく説明すると再学習部113は、深層学習モデル510に含まれる再学習対象となる層に係るパラメータを調整する(識別精度が高くなるように最適化する)。
【0044】
以上に説明したように学習装置100は、第1ドメインデータ(ソースドメインデータ140)を用いて学習させた深層学習モデル510に、第2ドメインデータ(ターゲットドメインデータ150)を用いて再学習を行わせる再学習部113を備える。
【0045】
≪制御部:表示制御部≫
表示制御部114は、再学習条件確認画面310(後記する図3参照)を入出力部180に接続されるディスプレイに表示する。図3は、第1実施形態に係る再学習条件確認画面310の構成図である。領域311には、ソースドメインデータ140の特徴量活性度分布、ターゲットドメインデータ150の特徴量活性度分布、および2つの分布の差異(分布差)が表示される。領域312には、再学習条件が表示される。図3での再学習条件は、出力層531を含む3つの層(図2では出力層531と層541,542)を再学習対象層として再学習を実行するである。学習装置100の利用者は、この条件のまま再学習する場合には、このまま「再学習実行」ボタンを押下する。利用者は、再学習対象層数を変更して「再学習実行」ボタンを押下してもよい。
【0046】
≪再学習処理≫
図4は、第1実施形態に係る再学習処理のフローチャートである。図4を参照して再学習処理を説明する。
ステップS11において特徴量活性度分布算出部111は、ソースドメインデータ140、およびターゲットドメインデータ150の特徴量活性度分布を算出する。
ステップS12において学習対象層決定部112は、ステップS11で算出された2つの特徴量活性度分布に基づいて、再学習の対象となる深層学習モデル510の層を決定する。
ステップS13において表示制御部114は、再学習条件確認画面310(図3参照)を表示する。
ステップS14において再学習部113は、再学習条件(図3記載の領域312参照)に基づいて深層学習モデル510を再学習して、学習モデルデータベース160に格納する。
【0047】
≪学習装置の特徴≫
学習装置100は、ソースドメインデータ140、およびターゲットドメインデータ150の特徴量活性度分布の差異に基づいて、再学習対象となる深層学習モデル510に含まれる層を決定する。次に学習装置100は、ターゲットドメインデータ150にある学習データを用いて、再学習対象層の再学習(パラメータの調整/最適化)を行う。このような学習装置100を利用することで熟練者ではない利用者であっても、深層学習モデル510のターゲットドメインデータ150に適応した再学習を効率的に行うことができる。
【0048】
学習装置100の利用なしに、識別層のみ、または全ての層を再学習するのに比べて、学習装置100を利用した再学習後における深層学習モデル510の識別精度の改善効果が大きい。ソースドメインデータ140の学習データに比べてターゲットドメインデータ150の学習データが少なく、データ量の比が1/100、特に1/1000以下の場合に、学習装置100を利用した再学習後における深層学習モデル510の識別精度の改善効果が大きくなる。
【0049】
≪第2実施形態≫
第1実施形態では、ソースドメインデータ140、およびターゲットドメインデータ150の(入力データによる)特徴量活性度分布に差異に基づいて、再学習対象層が決定している。ソースドメインデータ140、およびターゲットドメインデータ150の入力データによって活性度が所定値以上となる特徴量(深層学習モデル510のノード)の差異や、活性度が所定値以上となる特徴量の割合の差異に基づいて、再学習対象層が決定されてもよい。
【0050】
図5は、第2実施形態に係る学習装置100Aの機能ブロック図である。第1実施形態に係る学習装置100(図1参照)と比較して学習装置100Aの制御部110は、特徴量活性度分布算出部111、学習対象層決定部112、および表示制御部114に替わり、活性特徴量算出部115、活性特徴量カバレッジ算出部116、学習対象層決定部112A、および表示制御部114Aを備える。
【0051】
≪第2実施形態:活性特徴量算出部≫
活性特徴量算出部115は、ソースドメインデータ140、およびターゲットドメインデータ150にあるそれぞれの入力データによって活性度が所定値以上となる深層学習モデル510の特徴量算出対象層に含まれるノードの集合(活性化特徴量とも記す)を算出する。活性特徴量算出部115は例えば、ソースドメインデータ140の何れかの入力データを入力したときに所定値以上に活性化したノードの集合を算出する。なお特徴量算出対象層は、第1実施形態に係る特徴量活性度分布算出部111に係る特徴量算出対象層と同様である。
【0052】
以上に説明したように学習装置100Aは、入力されるドメインデータ(ソースドメインデータ140、ターゲットドメインデータ150)による活性化度が所定値以上となる深層学習モデル510の所定の層に含まれるノードの集合である活性化特徴量を算出する活性特徴量算出部115を備える。
【0053】
≪第2実施形態:活性特徴量カバレッジ算出部≫
活性特徴量カバレッジ算出部116は、ソースドメインデータ140、およびターゲットドメインデータ150にあるそれぞれの入力データによって活性度が所定値以上となる深層学習モデル510の特徴量算出対象層に含まれるノードの、当該特徴量算出対象層に含まれる全ノードに対する割合(カバレッジとも記す)を算出する。活性特徴量カバレッジ算出部116は例えば、ソースドメインデータ140の何れかの入力データを入力したときに所定値以上に活性化したノードの集合の割合を算出する。なお特徴量算出対象層は、第1実施形態に係る特徴量活性度分布算出部111に係る特徴量算出対象層と同様である。
【0054】
以上に説明したように学習装置100Aは、入力されるドメインデータ(ソースドメインデータ140、ターゲットドメインデータ150)による活性化度が所定値以上となる深層学習モデル510の所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを算出する活性特徴量カバレッジ算出部116を備える。
【0055】
≪第2実施形態:学習対象層決定部、表示制御部≫
学習対象層決定部112Aは、ソースドメインデータ140の(入力データによる)活性化特徴量とターゲットドメインデータ150の活性化特徴量とに基づいて、再学習の対象となる深層学習モデル510(図2参照)の層を決定する。詳しく説明すると学習対象層決定部112Aは、2つの活性化特徴量の差異が所定の範囲(所定範囲)内であれば、識別層530に含まれる層のみを再学習の対象とする。差異が所定範囲外であれば、学習対象層決定部112Aは、層541から始めて入力側に向かってより多くの層を再学習の対象とする。この再学習の対象となる層は、識別層530のより多くの層であってもよいし、特徴抽出層520まで含んでもよい。2つの活性化特徴量の差異が所定範囲内とは、例えば差異の大きさが所定値以下であるとしてもよいし、所定値以上であるとしてもよい。
【0056】
また学習対象層決定部112Aは、ソースドメインデータ140の(入力データによる)カバレッジとターゲットドメインデータ150のカバレッジとに基づいて、再学習の対象となる深層学習モデル510の層を決定してもよい。詳しく説明すると学習対象層決定部112Aは、2つのカバレッジの差異が所定の範囲(所定範囲)内であれば、識別層530に含まれる層のみを再学習の対象とする。差異が所定範囲外であれば、学習対象層決定部112は、出力層531から始めて入力側に向かってより多くの層を再学習の対象とする。この再学習の対象となる層は、識別層530のより多くの層であってもよいし、特徴抽出層520まで含んでもよい。2つのカバレッジの差異が所定範囲内とは、例えば差異の大きさが所定値以下であるとしてもよいし、所定値以上であるとしてもよい。
【0057】
以上に説明したように学習対象層決定部112Aは、第1ドメインデータ(ソースドメインデータ140)を入力したときの活性化特徴量と、第2ドメインデータ(ターゲットドメインデータ150)を入力したときの活性化特徴量との差異が、所定範囲内であれば、深層学習モデル510の識別層のみを再学習の対象となる層と決定し、差異が所定範囲内でなければ、深層学習モデル510の識別層および当該識別層より入力側に近い層を再学習の対象となる層と決定する。
【0058】
また学習対象層決定部112Aは、第1ドメインデータを入力したときのカバレッジと、第2ドメインデータを入力したときのカバレッジとの差異が、所定範囲内であれば、深層学習モデル510の識別層のみを再学習の対象となる層と決定し、差異が所定範囲内でなければ、深層学習モデル510の識別層および当該識別層より入力側に近い層を再学習の対象となる層と決定する。
学習対象層決定部112Aは、差異が所定範囲から外れる度合いが大きいほど、深層学習モデル510の識別層530を含め、出力層531に近い多くの層を再学習の対象となる層と決定する。
【0059】
他に学習対象層決定部112Aは、活性化特徴量およびカバレッジの双方に基づいて、再学習の対象となる深層学習モデル510の層を決定してもよい。
表示制御部114Aは、領域311(図3参照)に特徴量活性度分布に替わり、活性化特徴量やカバレッジの差異を表示する。
【0060】
≪第2実施形態:学習装置の特徴≫
学習装置100Aは、ソースドメインデータ140、およびターゲットドメインデータ150の活性化特徴量やカバレッジの差異に基づいて、再学習対象となる深層学習モデル510に含まれる層を決定する。特徴量活性度分布に限らず、活性化特徴量やカバレッジの差異に基づいて再学習対象層を決定しても、効率的な再学習が可能となる。
【0061】
≪第3実施形態≫
学習データ量に増加にともなう再学習後の深層学習モデル510の変化に応じて、再学習対象層が決定されてもよい。第3実施形態における学習対象層を決めるために事前に行う再学習は、ターゲットドメインデータ150にある学習データを用いた、出力層531または識別層530を対象とした再学習である。再学習部113は学習データ量を、例えば10、20、30などと変えながら、複数回再学習を行い、複数の再学習後の深層学習モデル510を生成する。第3実施形態に係る学習装置100B(後記する図6参照)は、この複数の深層学習モデル510を用いて学習対象層を決める。
【0062】
図6は、第3実施形態に係る学習装置100Bの機能ブロック図である。第1実施形態に係る学習装置100と比較して学習装置100Bの制御部110は、特徴量活性度分布算出部111、学習対象層決定部112、および表示制御部114に替わり、特徴量活性度分布算出部111B、推論精度算出部117、活性特徴量算出部115B、活性特徴量カバレッジ算出部116B、学習対象層決定部112B、および表示制御部114Bを備える。
【0063】
≪第3実施形態:特徴量活性度分布算出部、推論精度算出部、活性特徴量算出部、活性特徴量カバレッジ算出部≫
特徴量活性度分布算出部111Bは、再学習後の深層学習モデル510におけるターゲットドメインデータ150の特徴量活性度分布を算出する。
推論精度算出部117は、再学習後の深層学習モデル510のターゲットドメインデータ150における推論精度を算出する。
活性特徴量算出部115Bは、再学習後の深層学習モデル510におけるターゲットドメインデータ150の活性化特徴量を算出する。
活性特徴量カバレッジ算出部116Bは、再学習後の深層学習モデル510におけるターゲットドメインデータ150のカバレッジを算出する。
【0064】
以上に説明したように学習装置100Bは、第2ドメインデータ(ターゲットドメインデータ150)による深層学習モデル510の所定の層に含まれるノードの活性度である特徴量活性度分布を算出する特徴量活性度分布算出部111Bを備える。
学習装置100Bは、再学習後の深層学習モデル510の第2ドメインデータについての推論精度を算出する推論精度算出部117を備える。
学習装置100Bは、第2ドメインデータによる活性化度が所定値以上となる深層学習モデル510の所定の層に含まれるノードの集合である活性化特徴量を算出する活性特徴量算出部115Bを備える。
学習装置100Bは、第2ドメインデータによる活性化度が所定値以上となる深層学習モデル510の所定の層に含まれるノードの、当該所定の層に含まれるノードに対する割合であるカバレッジを算出する活性特徴量カバレッジ算出部116Bを備える。
【0065】
≪第3実施形態:学習対象層決定部≫
学習対象層決定部112Bは、学習データ量の増加にともなう事前の再学習後の深層学習モデル510における特徴量活性度分布や推論精度、活性特徴量、カバレッジの変化量に基づいて、再学習の対象となる深層学習モデル510の層を決定する。詳しく説明すると学習対象層決定部112Bは、学習データ量の増加にともなう変化量が所定の範囲(所定範囲)内であれば、識別層530に含まれる層のみを再学習の対象とする。変化量が所定範囲外であれば、学習対象層決定部112Bは、出力層531から始めて入力側に向かってより多くの層を再学習の対象とする。この再学習の対象となる層は、識別層530のより多くの層であってもよいし、特徴抽出層520まで含んでもよい。変化量が所定範囲内とは、例えば変化量が所定値以上であるとしてもよいし、所定値以下であるとしてもよい。
なお特徴量活性度分布や推論精度、活性特徴量、カバレッジの変化量が算出される際の深層学習モデル510の再学習は、出力層531または識別層530を対象とした再学習である。
【0066】
以上に説明したように学習対象層決定部112Bは、深層学習モデル510の識別層530の再学習に用いる第2ドメインデータ(ターゲットドメインデータ150)のデータ量の増加にともなう、特徴量活性度分布や推論精度、活性特徴量、カバレッジの変化量が所定範囲内にあれば、深層学習モデル510の識別層のみを再学習の対象となる層と決定し、所定範囲外にあれば、深層学習モデル510の識別層および当該識別層より入力側に近い層を再学習の対象となる層と決定する。
また学習対象層決定部112Bは、変化量が所定範囲外にある場合に、当該変化量が所定範囲から外れる度合い(所定範囲からの距離)が大きいほど、深層学習モデル510の識別層より入力側に近い層であって、出力層531に近い多くの層を再学習の対象となる層と決定する。
【0067】
≪第3実施形態:表示制御部≫
表示制御部114Bは、再学習条件確認画面320(後記する図7参照)を入出力部180に接続されるディスプレイに表示する。図7は、第3実施形態に係る再学習条件確認画面320の構成図である。領域321には、ターゲットドメインデータ150にある学習データ量と、当該学習データ量の学習データを用いた再学習後の深層学習モデル510の特徴量活性度分布、推論精度、カバレッジ(図7では活性特徴量カバレッジと記載)、活性特徴量の変化を示すグラフが表示される。領域322には、再学習条件が表示される。利用者は、領域321に表示されたグラフを参照して再学習条件を設定し、再学習を指示する。
【0068】
≪再学習処理≫
図8は、第3実施形態に係る再学習処理のフローチャートである。図8を参照して再学習処理を説明する。
ステップS21において再学習部113は、ターゲットドメインデータ150にある学習データから複数の所定数の学習データを選択して、選択した学習データごとにステップS22~S23を繰り返す処理を開始する。複数の所定数は、例えば10、20、30である。
【0069】
ステップS22において再学習部113は、所定数の学習データを用いて深層学習モデル510の(事前の)再学習を実行する。再学習後の深層学習モデル510は、学習モデルデータベース160に格納される。
ステップS23において特徴量活性度分布算出部111B、推論精度算出部117、活性特徴量算出部115B、および活性特徴量カバレッジ算出部116Bは、ステップS22の再学習後の深層学習モデル510におけるターゲットドメインデータ150の特徴量活性度分布、推論精度、活性特徴量、およびカバレッジをそれぞれ算出する。
【0070】
ステップS24において学習対象層決定部112Bは、学習データ量(例えば10、20、30)の増加にともなう、ステップS23で算出された特徴量活性度分布、推論精度、活性特徴量、およびカバレッジの変化量に基づいて、再学習の対象となる深層学習モデル510の層を決定する。
ステップS25において表示制御部114は、再学習条件確認画面320(図7参照)を表示する。
ステップS26において再学習部113は、再学習条件(図7記載の領域322参照)に基づいて深層学習モデル510を再学習して、学習モデルデータベース160に格納する。
【0071】
≪第3実施形態:学習装置の特徴≫
学習装置100Bは、ターゲットドメインデータ150にある学習データを用いた深層学習モデル510の再学習について、再学習に用いる学習データ量の増加にともなう特徴量活性度分布や推論精度、活性特徴量、カバレッジの変化量に基づいて、再学習の対象となる深層学習モデル510の層を決定する。特徴量活性度分布に限らず、学習データ量の増加にともなう推論精度などの変化量に基づいて再学習対象層を決定しても、効率的な再学習が可能となる。
【0072】
例えば、ターゲットドメインデータ150にある学習データを10、20、30と増やしながら事前の再学習である識別層530のみの再学習で、深層学習モデル510の推論精度や活性特徴量の変化量が大きいとする。すると、その後に学習データが増えたときに学習装置100Bは、この増えた学習データを用いて識別層530のみの再学習を続けることになる。変化量が小さければ学習装置100Bは、より多くの層、例えば特徴抽出層520を含めて再学習をやり直すことになる。
【0073】
≪第4実施形態≫
上記した実施形態では再学習部113は、ターゲットドメインデータ150にある学習データを用いて、深層学習モデル510に含まれる再学習対象となる層の再学習を行っている。これに対して条件によっては再学習ではなく、新規に深層学習モデルを生成するようにしてもよい。例えば、ターゲットドメインデータ150にある学習データが所定数以上あれば、当該学習データを用いて新規に深層学習モデルを生成してもよい。
【0074】
図9は、第4実施形態に係る学習装置100Cの機能ブロック図である。学習装置100(図1参照)と比較して、モデル切替え部118をさらに備え、特徴量活性度分布算出部111C、および再学習部113Cが異なる。
モデル切替え部118は、ターゲットドメインデータ150にある学習データの数が所定数以上であれば、新規の深層学習モデルの生成(新規モデル生成)を再学習部113Cに指示する。所定数は、例えば1万であり、10万が好ましく、100万がさらに好ましい。
再学習部113Cはモデル切替え部118の指示を受けて、ターゲットドメインデータ150にある学習データを用いて新規に深層学習モデルを生成する。
【0075】
≪第4実施形態:変形例≫
上記した第4実施形態においてモデル切替え部118は、ターゲットドメインデータ150にある学習データの数が所定数以上であるときに新規の深層学習モデルの生成を再学習部113Cに指示している。再学習前後における深層学習モデル510の特徴量活性度分布の差が小さい場合に、新規の深層学習モデルの生成を指示するようにしてもよい。
【0076】
詳しく説明すると特徴量活性度分布算出部111は、ソースドメインデータ140、およびターゲットドメインデータ150にある入力データが入力されたときの、再学習前および再学習後の深層学習モデル510の特徴量算出対象層に含まれるノードの活性度の分布である特徴量活性度分布を算出する。モデル切替え部118は、ターゲットドメインデータ150にある入力データを入力したときの再学習前後における特徴量活性度分布の差異が小さい(所定範囲内にある)ときには、新規の深層学習モデルの生成を再学習部113Cに指示する。
【0077】
また活性化特徴量についても同様である。活性特徴量算出部115は、ソースドメインデータ140、およびターゲットドメインデータ150にあるそれぞれの入力データによって活性度が所定値以上となる再学習前と再学習後の深層学習モデル510の特徴量算出対象層に含まれるノードの集合である活性化特徴量を算出する。モデル切替え部118は、ターゲットドメインデータ150にある入力データを入力したときの再学習前後における活性特徴量の差異が小さい(所定範囲内にある)ときには、新規の深層学習モデルの生成を再学習部113Cに指示する。
【0078】
さらに活性化特徴量カバレッジについても同様である。活性特徴量カバレッジ算出部116は、ソースドメインデータ140、およびターゲットドメインデータ150にあるそれぞれの入力データによって活性度が所定値以上となる再学習前と再学習後の深層学習モデル510の特徴量算出対象層に含まれるノードの、当該特徴量算出対象層に含まれる全ノードに対する割合であるカバレッジを算出する。モデル切替え部118は、ターゲットドメインデータ150にある入力データを入力したときの再学習前後におけるカバレッジの差異が小さい(所定範囲内にある)ときには、新規の深層学習モデルの生成を再学習部113Cに指示する。
他に再学習前後における特徴量活性度分布や活性特徴量、カバレッジの差異の加重平均が小さい(所定範囲内にある)ときには、新規の深層学習モデルの生成を再学習部113Cに指示するようにしてもよい。
【0079】
≪第4実施形態:学習装置の特徴≫
第4実施形態やその変形例に係る学習装置100Cは、ターゲットドメインデータ150の学習データ数が所定数以上あるときや、再学習前後における特徴量活性度分布、活性化特徴量、カバレッジの差異が小さいときには、新規の深層学習モデルを生成する。ターゲットドメインデータ150の学習データ数が十分にある場合には、最初から新規に深層学習モデルを生成することで、再学習するよりもターゲットドメインデータ150に適した深層学習モデルを取得できると期待される。また、再学習前後の深層学習モデルにおける特徴量活性度分布、活性化特徴量、およびカバレッジの差異が小さい場合には、再学習の効果が低く、再学習は放棄して新規に深層学習モデルを生成した方がターゲットドメインデータ150に適した深層学習モデルを取得できると期待される。
【0080】
≪変形例≫
以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。上記した説明ではソースドメインデータ140、およびターゲットドメインデータ150のデータ領域として画像を例にあげたが、画像に限らずテキスト、動画、音声などであってもよい。
ソースドメインデータ140には、深層学習モデル510の生成に使われた学習データを含むが、使われた学習データ全てとは限らず、ソースドメインデータ140の特徴量活性度分布、活性特徴量、カバレッジの算出に必要な一部のデータであってもよい。
【0081】
学習対象層決定部112,112Aは、ソースドメインデータ140、およびターゲットドメインデータ150の特徴量活性度分布、活性特徴量、カバレッジに基づいて再学習の対象となる層を決めている。特徴量活性度分布、活性特徴量、カバレッジに限らず、ソースドメインデータ140、およびターゲットドメインデータ150の入力データによって活性化される深層学習モデル510のノード(特徴量)に基づいて再学習の対象となる層を決めてもよい。
【0082】
以上に説明したように学習対象層決定部112,112Aは、第1ドメインデータ(ソースドメインデータ140)により活性化される深層学習モデル510の層に含まれるノード、および、第2ドメインデータ(ターゲットドメインデータ150)により活性化される深層学習モデル510の層に含まれるノードのうち何れかに基づいて再学習の対象となる深層学習モデル510の層を決定する。
【0083】
本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0084】
100,100A,100B 学習装置
111,111B,111C 特徴量活性度分布算出部
112,112A,112B 学習対象層決定部
113,113C 再学習部
114,114A,114B 表示制御部
115,115B 活性特徴量算出部
116,116B 活性特徴量カバレッジ算出部
117 推論精度算出部
118 モデル切替え部
140 ソースドメインデータ
150 ターゲットドメインデータ
160 学習モデルデータベース
138 プログラム
310,320 再学習条件確認画面
510 深層学習モデル
520 特徴抽出層
530 識別層
531 出力層
図1
図2
図3
図4
図5
図6
図7
図8
図9