特許7283836 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 之江実験室の特許一覧

特許7283836マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-05-22

(45)【発行日】2023-05-30

(54)【発明の名称】マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム

(51)【国際特許分類】

G06N 3/096 20230101AFI20230523BHJP

G06N 3/0495 20230101ALI20230523BHJP

G06F 40/20 20200101ALI20230523BHJP

【ＦＩ】

G06N3/096

G06N3/0495

G06F40/20

【請求項の数】 2

(21)【出願番号】P 2022567027

(86)(22)【出願日】2020-12-21

(65)【公表番号】

(43)【公表日】2023-04-14

(86)【国際出願番号】 CN2020138014

(87)【国際公開番号】W WO2022088444

(87)【国際公開日】2022-05-05

【審査請求日】2022-11-01

(31)【優先権主張番号】202011202867.7

(32)【優先日】2020-11-02

(33)【優先権主張国・地域又は機関】CN

【早期審査対象出願】

(73)【特許権者】

【識別番号】521162399

【氏名又は名称】之江実験室

(74)【代理人】

【識別番号】110000729

【氏名又は名称】弁理士法人ユニアス国際特許事務所

(72)【発明者】

【氏名】王宏升

(72)【発明者】

【氏名】▲陳▼ 光

【審査官】加藤優一

(56)【参考文献】

【文献】中国特許出願公開第１１１７６７７１１（ＣＮ，Ａ）

【文献】中国特許出願公開第１０７７６７９５４（ＣＮ，Ａ）

【文献】中国特許出願公開第１１１８３２２８２（ＣＮ，Ａ）

【文献】米国特許出願公開第２０２０／０３２０９８２（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｆ１８／００－１８／４０

Ｇ０６Ｆ４０／００－４０／５８

(57)【特許請求の範囲】

【請求項1】

マルチタスク言語モデル向けのメタ知識微調整方法であって、
同一クラスのタスクのクロスドメインデータセットのクラスプロトタイプを計算する第１の段階であって、同一クラスのタスクの異なるドメインにおけるデータセットから、当該クラスのタスクに対応するドメインのプロトタイプの入力テキストの埋め込み特徴を集中学習し、同一クラスのタスクの異なるドメインにおけるすべての入力テキストの平均埋め込み特徴を、対応する同一クラスのタスクのマルチドメインにおけるクラスプロトタイプとする第１の段階と、
インスタンスの典型的なスコアを計算する第２の段階であって、インスタンスは入力テキストとクラスラベルで構成され、マルチクラスのタスクに対応するすべてのドメインに対して、ｄ_ｓｅｌｆで各インスタンスの入力テキストの埋め込み特徴と自己ドメインプロトタイプとの距離を表し、ｄ_{ｏｔｈｅｒｓ}で各インスタンスの入力テキストの埋め込み特徴と他のドメインプロトタイプとの距離を表し、各インスタンスの典型的なスコアはｄ_ｓｅｌｆとｄ_{ｏｔｈｅｒｓ}との線形結合と定義される第２の段階と、
典型的なスコアに基づくメタ知識微調整ネットワークである第３の段階であって、第２の段階で得られた典型的なスコアをメタ知識微調整ネットワークの重み係数とし、マルチタスクの典型的な機密ラベル分類損失関数を設計してメタ知識微調整の学習目的関数とし、当該損失関数を用いて訓練し、マルチタスク言語モデルを取得する第３の段階と、を含み、
前記第１の段階において、

【数1】

でデータセットのｋ番目のドメインＤ^ｋにおけるクラスラベルがｍの入力テキスト

【数2】

の集合を表し、

【数3】

となり、
ここで、ｍ∈Ｍとし、Ｍはデータセットにおけるすべてのクラスラベルの集合であり、

【数4】

はｋ番目のドメインにおけるｉ番目のインスタンスであり、
クラスプロトタイプ

【数5】

はｋ番目のドメインにおけるクラスラベルがｍのすべての入力テキストの平均埋め込み特徴であり、

【数6】

となり、
ここで、

【数7】

はＢＥＲＴモデルから出力された

【数8】

の埋め込み表現を表し、ＢＥＲＴモデルに対し、平均埋め込み特徴は入力される

【数9】

に対応する最終層のＴｒａｎｓｆｏｒｍｅｒエンコーダの平均プーリングであり、
前記第２の段階において、インスタンス

【数10】

の典型的なスコア

【数11】

は、

【数12】

となり、
ここで、αは所定のバランスファクターであり、０＜α＜１とし、

【数13】

はコサイン類似度測定関数であり、Ｋはドメインの個数であり、ｋ＝１～Ｋとなり、

【数14】

は指示関数であり、

【数15】

であれば、１に戻り、

【数16】

であれば、０に戻り、βｍ＞０は

【数17】

の重みであり、同一クラスの

【数18】

の重みが同じであり、
前記第３の段階において、マルチタスクの典型的な機密ラベル分類損失関数Ｌ_Ｔは

【数19】

となり、
ここで、Ｄはすべてのドメインの集合を表し、

【数20】

は指示関数であり、

【数21】

であれば、１に戻り、

【数22】

であれば、０に戻り、

【数23】

は

【数24】

のクラスラベルがｍであると予測する確率を表し、

【数25】

はＢＥＲＴモデルの最終層が出力したｔｏｋｅｎの埋め込み層特徴を表す、
ことを特徴とするマルチタスク言語モデル向けのメタ知識微調整方法。

【請求項2】

マルチタスク向けの事前訓練言語モデルの訓練サンプルを取得するためのデータ読み込みコンポーネントであって、前記訓練サンプルは教師あり学習タスクを満たすラベル付きのテキストサンプルであるデータ読み込みコンポーネントと、
マルチタスク向けの事前訓練言語モデルを自動的に圧縮するための自動圧縮コンポーネントであって、事前訓練言語モデルと、自動圧縮コンポーネントにより生成された事前訓練言語モデルにおいて下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデルを出力し、圧縮モデルを、ログインユーザがダウンロードできるように指定された容器に出力し、圧縮前後のモデルの大きさの比較情報を表示するためのメタ知識微調整モジュールと、を含む自動圧縮コンポーネントと、
ログインユーザがプラットフォームから取得可能な事前訓練言語モデルの圧縮モデルを提供し、前記自動圧縮コンポーネントから出力された圧縮モデルを用いて実際のシーンのデータセットにおいてログインユーザがアップロードした自然言語処理の下流タスクの新しいデータを推論し、圧縮前後の推論速度の比較情報を表示するための推理コンポーネントと、を含む、
ことを特徴とする請求項１に記載のマルチタスク言語モデル向けのメタ知識微調整方法に基づくプラットフォーム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は言語モデル圧縮分野に属し、特にマルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォームに関する。

【背景技術】

【0002】

大規模な事前訓練言語モデルの自動圧縮技術は自然言語理解及び生成タスクの適用分野において顕著な役割を果たすが、スマート都市分野の下流タスクに向ける場合に、特定のデータセットに基づいて大モデルを再微調整することは依然としてモデルの圧縮効果を向上させるキーステップであり、既存の下流タスク言語モデル向けの微調整方法は、下流タスクの特定のデータセットにおいて微調整を行い、訓練して得られた圧縮モデルの効果は当該クラスのタスクの特定のデータセットによって制限される。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本発明の目的は従来技術の不足に対し、マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォームを提供することである。本発明はクロスドメインの典型的なスコア学習を提案し、この方法により同一クラスのタスクの異なるデータセットにおける高度に移行可能な共有知識を取得し、「メタ知識」を導入して、異なるデータセットに対応する異なるドメインにおける同一クラスのタスクの学習プロセスを相互に関連付け且つ相互に強化し、スマート都市分野における言語モデルの適用において同一クラスの下流タスクの異なるドメインデータセットにおける微調整効果を向上させ、同一クラスのタスクの汎用言語モデルのパラメータ初期化能力及び汎化能力を向上させる。

【課題を解決するための手段】

【0004】

本発明の目的は以下の技術的解決手段によって実現され、マルチタスク言語モデル向けのメタ知識微調整方法であって、
同一クラスのタスクのクロスドメインデータセットのクラスプロトタイプを計算する第１の段階であって、同一クラスのタスクの異なるドメインにおけるデータセットから、当該クラスのタスクに対応するドメインのプロトタイプの埋め込み特徴を集中学習し、同一クラスのタスクの異なるドメインにおけるすべての入力テキストの平均埋め込み特徴を、対応する同一クラスのタスクのマルチドメインにおけるクラスプロトタイプとする第１の段階と、
インスタンスの典型的なスコアを計算する第２の段階であって、ｄ_ｓｅｌｆで各インスタンスの埋め込み特徴と自己ドメインプロトタイプとの距離を表し、ｄ_{ｏｔｈｅｒｓ}で各インスタンスの埋め込み特徴と他のドメインプロトタイプとの距離を表し、各インスタンスの典型的なスコアはｄ_ｓｅｌｆとｄ_{ｏｔｈｅｒｓ}との線形結合と定義される第２の段階と、
典型的なスコアに基づくメタ知識微調整ネットワークである第３の段階であって、第２の段階で得られた典型的なスコアをメタ知識微調整ネットワークの重み係数とし、マルチタスクの典型的な機密ラベル分類損失関数を設計してメタ知識微調整の学習目的関数とし、当該損失関数はテキスト分類器が誤って予測したすべてのドメインにおけるインスタンスのラベルに対して罰則を与える第３の段階と、を含む。

【0005】

さらに、前記第１の段階において、

【数1】

でデータセットのｋ番目のドメインＤ^ｋにおけるクラスラベルがｍの入力テキスト

【数2】

の集合を表し、

【数3】

となる。

【0006】

ここで、ｍ∈Ｍとし、Ｍはデータセットにおけるすべてのクラスラベルの集合であり、

【数4】

はｋ番目のドメインにおけるｉ番目のインスタンスである。

【0007】

クラスプロトタイプ

【数5】

はｋ番目のドメインにおけるクラスラベルがｍのすべての入力テキストの平均埋め込み特徴であり、

【数6】

となる。

【0008】

ここで、

【数7】

はＢＥＲＴモデルから出力された

【数8】

の埋め込み表現を表し、ＢＥＲＴモデルに対し、平均埋め込み特徴は入力される

【数9】

に対応する最終層のＴｒａｎｓｆｏｒｍｅｒエンコーダの平均プーリングである。

【0009】

さらに、前記第２の段階において、インスタンス

【数10】

の典型的なスコア

【数11】

は

【0010】

【数12】

となる。

【0011】

ここで、αは所定のバランスファクターであり、０＜α＜１とし、

【数13】

はコサイン類似度測定関数であり、Ｋはドメインの数であり、

【数14】

は指示関数であり、

【数15】

であれば、１に戻り、

【数16】

であれば、０に戻り、インデックス

【数17】

は総和を求めるために用いられ、βｍ＞０は

【数18】

の重みであり、同一クラスの

【数19】

の重みが同じである。

【0012】

さらに、前記第３の段階において、マルチタスクの典型的な機密ラベル分類損失関数Ｌ_Ｔは、

【数20】

となる。

【0013】

ここで、Ｄはすべてのドメインの集合を表し、

【数21】

は指示関数であり、

【数22】

であれば、１に戻り、

【数23】

であれば、０に戻り、

【数24】

は

【数25】

のクラスラベルがｍであると予測した確率を表し、

【数26】

はＢＥＲＴモデルの最終層が出力した「［ＣＬＳ］」のｔｏｋｅｎの埋め込み層特徴を表す。

【0014】

マルチタスク言語モデル向けのメタ知識微調整プラットフォームであって、
マルチタスク向けの事前訓練言語モデルの訓練サンプルを取得するためのデータ読み込みコンポーネントであって、前記訓練サンプルは教師あり学習タスクを満たすラベル付きのテキストサンプルであるデータ読み込みコンポーネントと、
マルチタスク向けの事前訓練言語モデルを自動的に圧縮するための自動圧縮コンポーネントであって、事前訓練言語モデルと、自動圧縮コンポーネントにより生成された事前訓練言語モデルにおいて下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデル、すなわちログインユーザが要求する下流タスクを含む事前訓練言語モデルの圧縮モデルを出力し、圧縮モデルを、ログインユーザがダウンロードできるように指定された容器に出力し、圧縮前後のモデルの大きさの比較情報を表示するためのメタ知識微調整モジュールと、を含む自動圧縮コンポーネントと、
ログインユーザがプラットフォームから取得可能な事前訓練言語モデルの圧縮モデルを提供し、前記自動圧縮コンポーネントから出力された圧縮モデルを用いて実際のシーンのデータセットにおいてログインユーザがアップロードした自然言語処理の下流タスクの新しいデータを推論し、圧縮前後の推論速度の比較情報を表示するための推論コンポーネントと、を含む。

【発明の効果】

【0015】

本発明の有益な効果は以下のとおりである。

【0016】

（１）本発明はクロスドメインの典型的なスコア学習に基づいてマルチタスク言語モデル向けのメタ知識微調整方法を検討し、当該下流タスク向けの事前訓練言語モデルの微調整方法は、下流タスクのクロスドメインデータセットにおいて微調整を行い、微調整により得られた圧縮モデルの効果は当該クラスのタスクの特定のデータセットに制限されず、事前訓練言語モデルを基に、メタ知識微調整ネットワークにより下流タスクに対して微調整を行うことで、データセットと無関係な同一クラスの下流タスク言語モデルを得る。

【0017】

（２）本発明は同一クラスのタスクの異なるデータセットにおける高度に移行可能な共有知識であるメタ知識を学習することを提案し、メタ知識を導入し、メタ知識微調整ネットワークにより同一クラスのタスクの異なるデータセットに対応する異なるドメインにおける学習プロセスを相互に関連付け且つ相互に強化し、スマート都市分野の言語モデルの適用において同一クラスの下流タスクの異なるドメインデータセットにおける微調整効果を向上させ、同一クラスのタスクの汎用言語モデルのパラメータ初期化能力及び汎化能力を向上させ、最終的に、同一クラスの下流タスクの言語モデルを取得する。

【0018】

（３）本発明のマルチタスク言語モデル向けのメタ知識微調整プラットフォームは、同一クラスのタスクの言語モデル向けの汎用アーキテクチャを生成し、微調整されたモデルアーキテクチャを十分に利用して下流の同一クラスのタスクの圧縮効率を向上させ、大規模な自然言語処理モデルをメモリが小さく、リソースが限られる端末機器に配置することができ、業界で汎用深度言語モデルの実装を促進した。

【図面の簡単な説明】

【0019】

【図1】本発明のメタ知識微調整方法の全体アーキテクチャ図である。

【発明を実施するための形態】

【0020】

図１に示すように、本発明のマルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォームは、事前訓練言語モデルの下流タスクのマルチドメインデータセットにおいて、クロスドメインの典型的なスコア学習に基づいて、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整することで、メタ学習者は任意のドメインに微調整しやすく、学習して得られた知識はある特定のドメインに制限されなく、高度な汎化及び移植性を有し、得られた圧縮モデルの効果は同一クラスのタスクの異なるドメインにおけるデータシーンに適応する。

【0021】

本発明のマルチタスク言語モデル向けのメタ知識微調整方法は、具体的には、以下のステップを含む。

【0022】

ステップ１、同一クラスのタスクのクロスドメインデータセットのクラスプロトタイプを計算する。マルチドメインのクラスプロトタイプは対応する訓練データセットのキーセマンティック特徴をまとめることができると考えられるため、異なるドメインのデータセットから、当該クラスのタスクに対応するドメインのプロトタイプの埋め込み特徴を集中学習し、同一クラスのタスクのマルチドメインのクラスプロトタイプを生成し、具体的には、ＢＥＲＴ言語モデルに対し、同一クラスのタスクの異なるドメインにおけるすべての入力テキストの平均埋め込み特徴を当該クラスのタスクに対応するクラスプロトタイプとし、ただし、平均埋め込み特徴は、現在の入力インスタンスに対応する最終層のＴｒａｎｓｆｏｒｍｅｒエンコーダの平均プーリング層の出力を採用する。

【0023】

ステップ（１．１）、クロスドメインデータセットを定義する。入力インスタンスのクラス集合をＭと定義し、ｋ番目のドメインにおけるｍ番目のクラスラベルのすべての入力テキスト

【数27】

インスタンスの集合を

【数28】

と定義し、ここでｍ∈Ｍとする。

【0024】

ステップ（１．２）、クラスプロトタイプを定義する。ｋ番目のドメインＤ^ｋのすべての入力テキストの平均埋め込み特徴を当該ドメインに対応するクラスプロトタイプとする。

【0025】

ステップ（１．３）、クラスプロトタイプを計算する。クラスプロトタイプ

【数29】

は、ＢＥＲＴモデルに入力される

【数30】

に対応する最終層のＴｒａｎｓｆｏｒｍｅｒエンコーダの平均プーリングを採用し、計算は、

【数31】

となる。

【0026】

ここで、

【数32】

は

【数33】

をｄ次元にマッピングする埋め込み特徴を表す。

【0027】

ステップ２、訓練インスタンスの典型的なスコアを計算する。訓練インスタンスがセマンティック上、自己ドメインのクラスプロトタイプから近く、他のドメインで生成されたクラスプロトタイプからもあまり遠くない場合、このインスタンスは典型的であり、高い移植性を有すると考えられる。訓練インスタンスのセマンティックには、自己ドメインとの関連特徴と、他のドメインとの関連特徴の両方が含まれる必要があり、典型的な訓練インスタンスを上記２つの関連特徴の線形結合と定義する。具体的には、ｄ_ｓｅｌｆで各訓練インスタンスの埋め込み特徴と自己ドメインプロトタイプとの距離を表し、ｄ_{ｏｔｈｅｒｓ}で各訓練インスタンスの埋め込み特徴と他のドメインプロトタイプとの距離を表し、各インスタンスの典型的なスコアをｄ_ｓｅｌｆとｄ_{ｏｔｈｅｒｓ}との線形結合と定義する。

【0028】

１つのプロトタイプだけであるクラスの複雑なセマンティック情報を表すには十分でない可能性があるため、上記単一のクラスプロトタイプをさらに、複数のプロトタイプに基づいてクラスタリングすることで生成されたあるクラスのクラスプロトタイプに拡張する。具体的には、例えば、自然言語感情の極性分類問題において、すなわちある文の感情極性の判別には、可能な極性はポジティブ（ｐｏｓｉｔｉｖｅ）、ネガティブ（ｎｅｇａｔｉｖｅ）、ニュートラル（ｎｅｕｔｒａｌ）及びコンフリクト（ｃｏｎｆｌｉｃｔ）を含み、すべての感情に向ける極性分類タスクにおいては、ポジティブクラスのクラスプロトタイプの計算方法について、複数の異なるデータセットにおいてクラスタリングすることによって当該クラスに対応する汎用クラスプロトタイプを生成することができる。

【0029】

ステップ（２．１）、訓練インスタンスと自己ドメインとの関連特徴を計算する。各訓練インスタンスと自己ドメインとの関連特徴は、各訓練インスタンス

【数34】

とその自己ドメインプロトタイプ

【数35】

とのコサイン類似度測定距離であり、すなわち、

【数36】

である。

【0030】

ステップ（２．２）、訓練インスタンスと他のドメインとの関連特徴を計算する。各訓練インスタンスと他のドメインとの関連特徴は、各訓練インスタンス

【数37】

と他のドメインに生成されるクラスプロトタイプとのコサイン類似度測定距離であり、すなわち、

【数38】

である。

【0031】

ステップ（２．３）、典型的な訓練インスタンスの特徴スコアを計算する。典型的な訓練インスタンス

【数39】

の特徴スコアは

【0032】

【数40】

となる。

【0033】

ここで、αは所定のバランスファクターであり、０＜α＜１とし、

【数41】

はコサイン類似度測定関数であり、

【数42】

は指示関数であり、入力されたブール関数がｔｒｕｅであれば、１に戻り、そうでなければ、０に戻る。

【0034】

ステップ（２．４）、複数のプロトタイプに基づいて典型的な訓練インスタンスの特徴スコアを計算する。１つのプロトタイプだけであるクラスの複雑なセマンティック情報を表すには十分でない可能性があると考えられるため、クラスタリングによって複数のプロトタイプを生成し、同一クラスの複数のプロトタイプに基づいて当該クラスのクラスプロトタイプを計算する。したがって、インスタンス

【数43】

の特徴スコア

【数44】

【0035】

【数45】

となるように拡張する。

【0036】

ここで、βｍ＞０はインスタンス

【数46】

のクラスタメンバーの重みであり、各クラスラベルｍ∈Ｍとする。

【0037】

ステップ３、典型的なスコアに基づくメタ知識微調整ネットワークである。次に、以上算出された典型的な特徴スコアに基づいて、メタ知識微調整の学習目的関数をどのように設計するかを検討する。本発明はクロスドメインの典型的なインスタンス特徴に基づいてマルチタスクの典型的な機密ラベル分類損失関数を設計することを提案する。当該損失関数はテキスト分類器が誤って予測したすべてのＫ個のドメインにおける典型的なインスタンスのラベルに対して罰則を与える。具体的には、ステップ２で得られた典型的なスコアをメタ知識微調整ネットワークの重み係数とする。メタ知識微調整ネットワークの学習目的関数は、

【数47】

となるように定義される。

【0038】

ここで、Ｌ_Ｔはマルチタスクの典型的な機密ラベル分類損失関数であり、当該損失関数はテキスト分類器が誤って予測したすべてのＫ個のドメインの典型的なインスタンスのラベルに対して罰則を与える。

【数48】

は各訓練インスタンスの重みである。

【数49】

はインスタンス

【数50】

のクラスラベルがｍ∈Ｍであると予測する確率であり、ＢＥＲＴ最終層のｄ次元の「［ＣＬＳ］」のｔｏｋｅｎの埋め込み層を採用して特徴とし、

【数51】

で表す。

【0039】

本発明のマルチタスク言語モデル向けのメタ知識微調整プラットフォームは、以下のコンポーネントを含む。

【0040】

データ読み込みコンポーネント：マルチタスク向けの事前訓練言語モデルの訓練サンプルを取得するために用いられ、前記訓練サンプルは教師あり学習タスクを満たすラベル付きのテキストサンプルである。

【0041】

自動圧縮コンポーネントは、マルチタスク向けの事前訓練言語モデルを自動的に圧縮するために用いられ、事前訓練言語モデルとメタ知識微調整モジュールとを含む。

【0042】

メタ知識微調整モジュールは前記自動圧縮コンポーネントにより生成された事前訓練言語モデルにおいて下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデル、すなわちログインユーザが要求する下流タスクを含む事前訓練言語モデルの圧縮モデルを出力し、前記圧縮モデルを、前記ログインユーザがダウンロードできるように指定された容器に出力し、圧縮前後のモデルの大きさの比較情報を前記プラットフォームの圧縮モデル出力ページで表示する。

【0043】

推論コンポーネントは、ログインユーザが前記プラットフォームから取得可能な事前訓練言語モデルの圧縮モデルを提供し、前記自動圧縮コンポーネントから出力された圧縮モデルを用いて実際のシーンのデータセットにおいてログインユーザがアップロードした自然言語処理の下流タスクの新しいデータを推論し、圧縮前後の推論速度の比較情報を前記プラットフォームの圧縮モデル推論ページで表示する。

【0044】

以下、インテリジェントな質問応答、インテリジェントな顧客サービス、複数ラウンドの対話の適用シーンにおける自然言語推定タスクにより本発明の技術的解決手段についてさらに詳細に説明する。

【0045】

自然言語推定タスクとは、１ペアの文に対して、２つの文のセマンティックが近いか、矛盾であるか、又は中立であるかを判断することである。分類問題でもあるため、文ペアの分類問題とも呼ばれる。ＭＮＬＩデータセットは複数の分野からの訓練例を提供し、その目的は２つの文が意味的に近いか、矛盾であるか、又は無関係であるかを推定することである。前記プラットフォームのデータ読み込みコンポーネントによりログインユーザがアップロードした自然言語推定タスクのＢＥＲＴモデル及びＭＮＬＩデータセットを取得し、前記プラットフォームの自動圧縮コンポーネントにより、マルチタスク向けのＢＥＲＴ事前訓練言語モデルを生成し、前記プラットフォームにより、自動圧縮コンポーネントにより生成されたＢＥＲＴ事前訓練モデルを読み込み、前記生成された事前訓練モデルにおいて自然言語推定タスクのモデルを構築し、前記自動圧縮コンポーネントのメタ知識微調整モジュールにより得られた圧縮モデルに基づいて微調整を行い、事前訓練言語モデルを基に、下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデル、すなわちログインユーザが要求する自然言語推定タスクを含む事前訓練言語モデルの圧縮モデルを出力し、前記圧縮モデルを、前記ログインユーザがダウンロードできるように指定された容器に出力し、訓練データから各分野のデータの５％、１０％、２０％のデータをランダムにサンプリングしてメタ知識微調整を行う。微調整前後のモデルの精度の比較情報を前記プラットフォームの圧縮モデル出力ページで表示し、以下の表１に示す。

【0046】

【表1】

【0047】

表１からさらに分かるように、前記プラットフォームの推論コンポーネントにより、前記プラットフォームから出力された圧縮モデルを用いてログインユーザがアップロードしたＭＮＬＩテストセットデータを推論し、前記プラットフォームの圧縮モデル推論ページで、メタ知識微調整前よりメタ知識微調整後の動物、植物、車両分野における推論精度がそれぞれ０．９％、０．５％、６．０％向上したことを、表示する。

【図1】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版