IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 之江実験室の特許一覧

特許7283836マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム
<>
  • 特許-マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム 図1
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-22
(45)【発行日】2023-05-30
(54)【発明の名称】マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム
(51)【国際特許分類】
   G06N 3/096 20230101AFI20230523BHJP
   G06N 3/0495 20230101ALI20230523BHJP
   G06F 40/20 20200101ALI20230523BHJP
【FI】
G06N3/096
G06N3/0495
G06F40/20
【請求項の数】 2
(21)【出願番号】P 2022567027
(86)(22)【出願日】2020-12-21
(65)【公表番号】
(43)【公表日】2023-04-14
(86)【国際出願番号】 CN2020138014
(87)【国際公開番号】W WO2022088444
(87)【国際公開日】2022-05-05
【審査請求日】2022-11-01
(31)【優先権主張番号】202011202867.7
(32)【優先日】2020-11-02
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】110000729
【氏名又は名称】弁理士法人ユニアス国際特許事務所
(72)【発明者】
【氏名】王 宏升
(72)【発明者】
【氏名】▲陳▼ 光
【審査官】加藤 優一
(56)【参考文献】
【文献】中国特許出願公開第111767711(CN,A)
【文献】中国特許出願公開第107767954(CN,A)
【文献】中国特許出願公開第111832282(CN,A)
【文献】米国特許出願公開第2020/0320982(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00 -99/00
G06F 18/00 -18/40
G06F 40/00 -40/58
(57)【特許請求の範囲】
【請求項1】
マルチタスク言語モデル向けのメタ知識微調整方法であって、
同一クラスのタスクのクロスドメインデータセットのクラスプロトタイプを計算する第1の段階であって、同一クラスのタスクの異なるドメインにおけるデータセットから、当該クラスのタスクに対応するドメインのプロトタイプの入力テキストの埋め込み特徴を集中学習し、同一クラスのタスクの異なるドメインにおけるすべての入力テキストの平均埋め込み特徴を、対応する同一クラスのタスクのマルチドメインにおけるクラスプロトタイプとする第1の段階と、
インスタンスの典型的なスコアを計算する第2の段階であって、インスタンスは入力テキストとクラスラベルで構成され、マルチクラスのタスクに対応するすべてのドメインに対して、selfで各インスタンスの入力テキストの埋め込み特徴と自己ドメインプロトタイプとの距離を表し、dothersで各インスタンスの入力テキストの埋め込み特徴と他のドメインプロトタイプとの距離を表し、各インスタンスの典型的なスコアはdselfとdothersとの線形結合と定義される第2の段階と、
典型的なスコアに基づくメタ知識微調整ネットワークである第3の段階であって、第2の段階で得られた典型的なスコアをメタ知識微調整ネットワークの重み係数とし、マルチタスクの典型的な機密ラベル分類損失関数を設計してメタ知識微調整の学習目的関数とし、当該損失関数を用いて訓練し、マルチタスク言語モデルを取得する第3の段階と、を含
前記第1の段階において、
【数1】
でデータセットのk番目のドメインDにおけるクラスラベルがmの入力テキスト
【数2】
の集合を表し、
【数3】
となり、
ここで、m∈Mとし、Mはデータセットにおけるすべてのクラスラベルの集合であり、
【数4】
はk番目のドメインにおけるi番目のインスタンスであり、
クラスプロトタイプ
【数5】
はk番目のドメインにおけるクラスラベルがmのすべての入力テキストの平均埋め込み特徴であり、
【数6】
となり、
ここで、
【数7】
はBERTモデルから出力された
【数8】
の埋め込み表現を表し、BERTモデルに対し、平均埋め込み特徴は入力される
【数9】
に対応する最終層のTransformerエンコーダの平均プーリングであ
前記第2の段階において、インスタンス
【数10】
の典型的なスコア
【数11】
は、
【数12】
となり、
ここで、αは所定のバランスファクターであり、0<α<1とし、
【数13】
はコサイン類似度測定関数であり、Kはドメインの個数であり、k=1~Kとなり、
【数14】
は指示関数であり、
【数15】
であれば、1に戻り、
【数16】
であれば、0に戻り、βm>0は
【数17】
の重みであり、同一クラスの
【数18】
の重みが同じであ
前記第3の段階において、マルチタスクの典型的な機密ラベル分類損失関数L
【数19】
となり、
ここで、Dはすべてのドメインの集合を表し、
【数20】
は指示関数であり、
【数21】
であれば、1に戻り、
【数22】
であれば、0に戻り、
【数23】

【数24】
のクラスラベルがmであると予測する確率を表し、
【数25】
はBERTモデルの最終層が出力しtokenの埋め込み層特徴を表す、
ことを特徴とするマルチタスク言語モデル向けのメタ知識微調整方法。
【請求項2】
マルチタスク向けの事前訓練言語モデルの訓練サンプルを取得するためのデータ読み込みコンポーネントであって、前記訓練サンプルは教師あり学習タスクを満たすラベル付きのテキストサンプルであるデータ読み込みコンポーネントと、
マルチタスク向けの事前訓練言語モデルを自動的に圧縮するための自動圧縮コンポーネントであって、事前訓練言語モデルと、自動圧縮コンポーネントにより生成された事前訓練言語モデルにおいて下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデル出力し、圧縮モデルを、ログインユーザがダウンロードできるように指定された容器に出力し、圧縮前後のモデルの大きさの比較情報を表示するためのメタ知識微調整モジュールと、を含む自動圧縮コンポーネントと、
ログインユーザがプラットフォームから取得可能な事前訓練言語モデルの圧縮モデルを提供し、前記自動圧縮コンポーネントから出力された圧縮モデルを用いて実際のシーンのデータセットにおいてログインユーザがアップロードした自然言語処理の下流タスクの新しいデータを推論し、圧縮前後の推論速度の比較情報を表示するための推理コンポーネントと、を含む、
ことを特徴とする請求項に記載のマルチタスク言語モデル向けのメタ知識微調整方法に基づくプラットフォーム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は言語モデル圧縮分野に属し、特にマルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォームに関する。
【背景技術】
【0002】
大規模な事前訓練言語モデルの自動圧縮技術は自然言語理解及び生成タスクの適用分野において顕著な役割を果たすが、スマート都市分野の下流タスクに向ける場合に、特定のデータセットに基づいて大モデルを再微調整することは依然としてモデルの圧縮効果を向上させるキーステップであり、既存の下流タスク言語モデル向けの微調整方法は、下流タスクの特定のデータセットにおいて微調整を行い、訓練して得られた圧縮モデルの効果は当該クラスのタスクの特定のデータセットによって制限される。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明の目的は従来技術の不足に対し、マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォームを提供することである。本発明はクロスドメインの典型的なスコア学習を提案し、この方法により同一クラスのタスクの異なるデータセットにおける高度に移行可能な共有知識を取得し、「メタ知識」を導入して、異なるデータセットに対応する異なるドメインにおける同一クラスのタスクの学習プロセスを相互に関連付け且つ相互に強化し、スマート都市分野における言語モデルの適用において同一クラスの下流タスクの異なるドメインデータセットにおける微調整効果を向上させ、同一クラスのタスクの汎用言語モデルのパラメータ初期化能力及び汎化能力を向上させる。
【課題を解決するための手段】
【0004】
本発明の目的は以下の技術的解決手段によって実現され、マルチタスク言語モデル向けのメタ知識微調整方法であって、
同一クラスのタスクのクロスドメインデータセットのクラスプロトタイプを計算する第1の段階であって、同一クラスのタスクの異なるドメインにおけるデータセットから、当該クラスのタスクに対応するドメインのプロトタイプの埋め込み特徴を集中学習し、同一クラスのタスクの異なるドメインにおけるすべての入力テキストの平均埋め込み特徴を、対応する同一クラスのタスクのマルチドメインにおけるクラスプロトタイプとする第1の段階と、
インスタンスの典型的なスコアを計算する第2の段階であって、dselfで各インスタンスの埋め込み特徴と自己ドメインプロトタイプとの距離を表し、dothersで各インスタンスの埋め込み特徴と他のドメインプロトタイプとの距離を表し、各インスタンスの典型的なスコアはdselfとdothersとの線形結合と定義される第2の段階と、
典型的なスコアに基づくメタ知識微調整ネットワークである第3の段階であって、第2の段階で得られた典型的なスコアをメタ知識微調整ネットワークの重み係数とし、マルチタスクの典型的な機密ラベル分類損失関数を設計してメタ知識微調整の学習目的関数とし、当該損失関数はテキスト分類器が誤って予測したすべてのドメインにおけるインスタンスのラベルに対して罰則を与える第3の段階と、を含む。
【0005】
さらに、前記第1の段階において、
【数1】
でデータセットのk番目のドメインDにおけるクラスラベルがmの入力テキスト
【数2】
の集合を表し、
【数3】
となる。
【0006】
ここで、m∈Mとし、Mはデータセットにおけるすべてのクラスラベルの集合であり、
【数4】
はk番目のドメインにおけるi番目のインスタンスである。
【0007】
クラスプロトタイプ
【数5】
はk番目のドメインにおけるクラスラベルがmのすべての入力テキストの平均埋め込み特徴であり、
【数6】
となる。
【0008】
ここで、
【数7】
はBERTモデルから出力された
【数8】
の埋め込み表現を表し、BERTモデルに対し、平均埋め込み特徴は入力される
【数9】
に対応する最終層のTransformerエンコーダの平均プーリングである。
【0009】
さらに、前記第2の段階において、インスタンス
【数10】
の典型的なスコア
【数11】
【0010】
【数12】
となる。
【0011】
ここで、αは所定のバランスファクターであり、0<α<1とし、
【数13】
はコサイン類似度測定関数であり、Kはドメインの数であり、
【数14】
は指示関数であり、
【数15】
であれば、1に戻り、
【数16】
であれば、0に戻り、インデックス
【数17】
は総和を求めるために用いられ、βm>0は
【数18】
の重みであり、同一クラスの
【数19】
の重みが同じである。
【0012】
さらに、前記第3の段階において、マルチタスクの典型的な機密ラベル分類損失関数Lは、
【数20】
となる。
【0013】
ここで、Dはすべてのドメインの集合を表し、
【数21】
は指示関数であり、
【数22】
であれば、1に戻り、
【数23】
であれば、0に戻り、
【数24】

【数25】
のクラスラベルがmであると予測した確率を表し、
【数26】
はBERTモデルの最終層が出力した「[CLS]」のtokenの埋め込み層特徴を表す。
【0014】
マルチタスク言語モデル向けのメタ知識微調整プラットフォームであって、
マルチタスク向けの事前訓練言語モデルの訓練サンプルを取得するためのデータ読み込みコンポーネントであって、前記訓練サンプルは教師あり学習タスクを満たすラベル付きのテキストサンプルであるデータ読み込みコンポーネントと、
マルチタスク向けの事前訓練言語モデルを自動的に圧縮するための自動圧縮コンポーネントであって、事前訓練言語モデルと、自動圧縮コンポーネントにより生成された事前訓練言語モデルにおいて下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデル、すなわちログインユーザが要求する下流タスクを含む事前訓練言語モデルの圧縮モデルを出力し、圧縮モデルを、ログインユーザがダウンロードできるように指定された容器に出力し、圧縮前後のモデルの大きさの比較情報を表示するためのメタ知識微調整モジュールと、を含む自動圧縮コンポーネントと、
ログインユーザがプラットフォームから取得可能な事前訓練言語モデルの圧縮モデルを提供し、前記自動圧縮コンポーネントから出力された圧縮モデルを用いて実際のシーンのデータセットにおいてログインユーザがアップロードした自然言語処理の下流タスクの新しいデータを推論し、圧縮前後の推論速度の比較情報を表示するための推論コンポーネントと、を含む。
【発明の効果】
【0015】
本発明の有益な効果は以下のとおりである。
【0016】
(1)本発明はクロスドメインの典型的なスコア学習に基づいてマルチタスク言語モデル向けのメタ知識微調整方法を検討し、当該下流タスク向けの事前訓練言語モデルの微調整方法は、下流タスクのクロスドメインデータセットにおいて微調整を行い、微調整により得られた圧縮モデルの効果は当該クラスのタスクの特定のデータセットに制限されず、事前訓練言語モデルを基に、メタ知識微調整ネットワークにより下流タスクに対して微調整を行うことで、データセットと無関係な同一クラスの下流タスク言語モデルを得る。
【0017】
(2)本発明は同一クラスのタスクの異なるデータセットにおける高度に移行可能な共有知識であるメタ知識を学習することを提案し、メタ知識を導入し、メタ知識微調整ネットワークにより同一クラスのタスクの異なるデータセットに対応する異なるドメインにおける学習プロセスを相互に関連付け且つ相互に強化し、スマート都市分野の言語モデルの適用において同一クラスの下流タスクの異なるドメインデータセットにおける微調整効果を向上させ、同一クラスのタスクの汎用言語モデルのパラメータ初期化能力及び汎化能力を向上させ、最終的に、同一クラスの下流タスクの言語モデルを取得する。
【0018】
(3)本発明のマルチタスク言語モデル向けのメタ知識微調整プラットフォームは、同一クラスのタスクの言語モデル向けの汎用アーキテクチャを生成し、微調整されたモデルアーキテクチャを十分に利用して下流の同一クラスのタスクの圧縮効率を向上させ、大規模な自然言語処理モデルをメモリが小さく、リソースが限られる端末機器に配置することができ、業界で汎用深度言語モデルの実装を促進した。
【図面の簡単な説明】
【0019】
図1】本発明のメタ知識微調整方法の全体アーキテクチャ図である。
【発明を実施するための形態】
【0020】
図1に示すように、本発明のマルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォームは、事前訓練言語モデルの下流タスクのマルチドメインデータセットにおいて、クロスドメインの典型的なスコア学習に基づいて、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整することで、メタ学習者は任意のドメインに微調整しやすく、学習して得られた知識はある特定のドメインに制限されなく、高度な汎化及び移植性を有し、得られた圧縮モデルの効果は同一クラスのタスクの異なるドメインにおけるデータシーンに適応する。
【0021】
本発明のマルチタスク言語モデル向けのメタ知識微調整方法は、具体的には、以下のステップを含む。
【0022】
ステップ1、同一クラスのタスクのクロスドメインデータセットのクラスプロトタイプを計算する。マルチドメインのクラスプロトタイプは対応する訓練データセットのキーセマンティック特徴をまとめることができると考えられるため、異なるドメインのデータセットから、当該クラスのタスクに対応するドメインのプロトタイプの埋め込み特徴を集中学習し、同一クラスのタスクのマルチドメインのクラスプロトタイプを生成し、具体的には、BERT言語モデルに対し、同一クラスのタスクの異なるドメインにおけるすべての入力テキストの平均埋め込み特徴を当該クラスのタスクに対応するクラスプロトタイプとし、ただし、平均埋め込み特徴は、現在の入力インスタンスに対応する最終層のTransformerエンコーダの平均プーリング層の出力を採用する。
【0023】
ステップ(1.1)、クロスドメインデータセットを定義する。入力インスタンスのクラス集合をMと定義し、k番目のドメインにおけるm番目のクラスラベルのすべての入力テキスト
【数27】
インスタンスの集合を
【数28】
と定義し、ここでm∈Mとする。
【0024】
ステップ(1.2)、クラスプロトタイプを定義する。k番目のドメインDのすべての入力テキストの平均埋め込み特徴を当該ドメインに対応するクラスプロトタイプとする。
【0025】
ステップ(1.3)、クラスプロトタイプを計算する。クラスプロトタイプ
【数29】
は、BERTモデルに入力される
【数30】
に対応する最終層のTransformerエンコーダの平均プーリングを採用し、計算は、
【数31】
となる。
【0026】
ここで、
【数32】

【数33】
をd次元にマッピングする埋め込み特徴を表す。
【0027】
ステップ2、訓練インスタンスの典型的なスコアを計算する。訓練インスタンスがセマンティック上、自己ドメインのクラスプロトタイプから近く、他のドメインで生成されたクラスプロトタイプからもあまり遠くない場合、このインスタンスは典型的であり、高い移植性を有すると考えられる。訓練インスタンスのセマンティックには、自己ドメインとの関連特徴と、他のドメインとの関連特徴の両方が含まれる必要があり、典型的な訓練インスタンスを上記2つの関連特徴の線形結合と定義する。具体的には、dselfで各訓練インスタンスの埋め込み特徴と自己ドメインプロトタイプとの距離を表し、dothersで各訓練インスタンスの埋め込み特徴と他のドメインプロトタイプとの距離を表し、各インスタンスの典型的なスコアをdselfとdothersとの線形結合と定義する。
【0028】
1つのプロトタイプだけであるクラスの複雑なセマンティック情報を表すには十分でない可能性があるため、上記単一のクラスプロトタイプをさらに、複数のプロトタイプに基づいてクラスタリングすることで生成されたあるクラスのクラスプロトタイプに拡張する。具体的には、例えば、自然言語感情の極性分類問題において、すなわちある文の感情極性の判別には、可能な極性はポジティブ(positive)、ネガティブ(negative)、ニュートラル(neutral)及びコンフリクト(conflict)を含み、すべての感情に向ける極性分類タスクにおいては、ポジティブクラスのクラスプロトタイプの計算方法について、複数の異なるデータセットにおいてクラスタリングすることによって当該クラスに対応する汎用クラスプロトタイプを生成することができる。
【0029】
ステップ(2.1)、訓練インスタンスと自己ドメインとの関連特徴を計算する。各訓練インスタンスと自己ドメインとの関連特徴は、各訓練インスタンス
【数34】
とその自己ドメインプロトタイプ
【数35】
とのコサイン類似度測定距離であり、すなわち、
【数36】
である。
【0030】
ステップ(2.2)、訓練インスタンスと他のドメインとの関連特徴を計算する。各訓練インスタンスと他のドメインとの関連特徴は、各訓練インスタンス
【数37】
と他のドメインに生成されるクラスプロトタイプとのコサイン類似度測定距離であり、すなわち、
【数38】
である。
【0031】
ステップ(2.3)、典型的な訓練インスタンスの特徴スコアを計算する。典型的な訓練インスタンス
【数39】
の特徴スコアは
【0032】
【数40】
となる。
【0033】
ここで、αは所定のバランスファクターであり、0<α<1とし、
【数41】
はコサイン類似度測定関数であり、
【数42】
は指示関数であり、入力されたブール関数がtrueであれば、1に戻り、そうでなければ、0に戻る。
【0034】
ステップ(2.4)、複数のプロトタイプに基づいて典型的な訓練インスタンスの特徴スコアを計算する。1つのプロトタイプだけであるクラスの複雑なセマンティック情報を表すには十分でない可能性があると考えられるため、クラスタリングによって複数のプロトタイプを生成し、同一クラスの複数のプロトタイプに基づいて当該クラスのクラスプロトタイプを計算する。したがって、インスタンス
【数43】
の特徴スコア
【数44】
【0035】
【数45】
となるように拡張する。
【0036】
ここで、βm>0はインスタンス
【数46】
のクラスタメンバーの重みであり、各クラスラベルm∈Mとする。
【0037】
ステップ3、典型的なスコアに基づくメタ知識微調整ネットワークである。次に、以上算出された典型的な特徴スコアに基づいて、メタ知識微調整の学習目的関数をどのように設計するかを検討する。本発明はクロスドメインの典型的なインスタンス特徴に基づいてマルチタスクの典型的な機密ラベル分類損失関数を設計することを提案する。当該損失関数はテキスト分類器が誤って予測したすべてのK個のドメインにおける典型的なインスタンスのラベルに対して罰則を与える。具体的には、ステップ2で得られた典型的なスコアをメタ知識微調整ネットワークの重み係数とする。メタ知識微調整ネットワークの学習目的関数は、
【数47】
となるように定義される。
【0038】
ここで、Lはマルチタスクの典型的な機密ラベル分類損失関数であり、当該損失関数はテキスト分類器が誤って予測したすべてのK個のドメインの典型的なインスタンスのラベルに対して罰則を与える。
【数48】
は各訓練インスタンスの重みである。
【数49】
はインスタンス
【数50】
のクラスラベルがm∈Mであると予測する確率であり、BERT最終層のd次元の「[CLS]」のtokenの埋め込み層を採用して特徴とし、
【数51】
で表す。
【0039】
本発明のマルチタスク言語モデル向けのメタ知識微調整プラットフォームは、以下のコンポーネントを含む。
【0040】
データ読み込みコンポーネント:マルチタスク向けの事前訓練言語モデルの訓練サンプルを取得するために用いられ、前記訓練サンプルは教師あり学習タスクを満たすラベル付きのテキストサンプルである。
【0041】
自動圧縮コンポーネントは、マルチタスク向けの事前訓練言語モデルを自動的に圧縮するために用いられ、事前訓練言語モデルとメタ知識微調整モジュールとを含む。
【0042】
メタ知識微調整モジュールは前記自動圧縮コンポーネントにより生成された事前訓練言語モデルにおいて下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデル、すなわちログインユーザが要求する下流タスクを含む事前訓練言語モデルの圧縮モデルを出力し、前記圧縮モデルを、前記ログインユーザがダウンロードできるように指定された容器に出力し、圧縮前後のモデルの大きさの比較情報を前記プラットフォームの圧縮モデル出力ページで表示する。
【0043】
推論コンポーネントは、ログインユーザが前記プラットフォームから取得可能な事前訓練言語モデルの圧縮モデルを提供し、前記自動圧縮コンポーネントから出力された圧縮モデルを用いて実際のシーンのデータセットにおいてログインユーザがアップロードした自然言語処理の下流タスクの新しいデータを推論し、圧縮前後の推論速度の比較情報を前記プラットフォームの圧縮モデル推論ページで表示する。
【0044】
以下、インテリジェントな質問応答、インテリジェントな顧客サービス、複数ラウンドの対話の適用シーンにおける自然言語推定タスクにより本発明の技術的解決手段についてさらに詳細に説明する。
【0045】
自然言語推定タスクとは、1ペアの文に対して、2つの文のセマンティックが近いか、矛盾であるか、又は中立であるかを判断することである。分類問題でもあるため、文ペアの分類問題とも呼ばれる。MNLIデータセットは複数の分野からの訓練例を提供し、その目的は2つの文が意味的に近いか、矛盾であるか、又は無関係であるかを推定することである。前記プラットフォームのデータ読み込みコンポーネントによりログインユーザがアップロードした自然言語推定タスクのBERTモデル及びMNLIデータセットを取得し、前記プラットフォームの自動圧縮コンポーネントにより、マルチタスク向けのBERT事前訓練言語モデルを生成し、前記プラットフォームにより、自動圧縮コンポーネントにより生成されたBERT事前訓練モデルを読み込み、前記生成された事前訓練モデルにおいて自然言語推定タスクのモデルを構築し、前記自動圧縮コンポーネントのメタ知識微調整モジュールにより得られた圧縮モデルに基づいて微調整を行い、事前訓練言語モデルを基に、下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデル、すなわちログインユーザが要求する自然言語推定タスクを含む事前訓練言語モデルの圧縮モデルを出力し、前記圧縮モデルを、前記ログインユーザがダウンロードできるように指定された容器に出力し、訓練データから各分野のデータの5%、10%、20%のデータをランダムにサンプリングしてメタ知識微調整を行う。微調整前後のモデルの精度の比較情報を前記プラットフォームの圧縮モデル出力ページで表示し、以下の表1に示す。
【0046】
【表1】
【0047】
表1からさらに分かるように、前記プラットフォームの推論コンポーネントにより、前記プラットフォームから出力された圧縮モデルを用いてログインユーザがアップロードしたMNLIテストセットデータを推論し、前記プラットフォームの圧縮モデル推論ページで、メタ知識微調整前よりメタ知識微調整後の動物、植物、車両分野における推論精度がそれぞれ0.9%、0.5%、6.0%向上したことを、表示する。
図1