(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023007378
(43)【公開日】2023-01-18
(54)【発明の名称】事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体
(51)【国際特許分類】
G06N 3/08 20230101AFI20230111BHJP
G06F 16/38 20190101ALI20230111BHJP
G06N 20/00 20190101ALI20230111BHJP
【FI】
G06N3/08
G06F16/38
G06N20/00
【審査請求】有
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022038312
(22)【出願日】2022-03-11
(31)【優先権主張番号】202110734498.4
(32)【優先日】2021-06-30
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ワン、リジエ
(72)【発明者】
【氏名】ジャン、シュアイ
(72)【発明者】
【氏名】シャオ、シンヤン
(72)【発明者】
【氏名】チャン、ユエ
(72)【発明者】
【氏名】リ、ティンティン
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FB03
5B175HB03
5B175KA11
(57)【要約】 (修正有)
【課題】事前訓練モデルの性能を向上させると共に、計算リソースの消費などを低減する事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体を提供する。
【解決手段】事前訓練モデル取得方法は、訓練文を用いて事前訓練モデルを訓練する過程において、その中のセルフアテンションモジュールに対して構文情報に対応する学習目標を定義し、定義した学習目標に従って事前訓練モデルの訓練を行う。
【選択図】
図1
【特許請求の範囲】
【請求項1】
事前訓練モデル取得方法であって、
訓練文を用いて事前訓練モデルを訓練する過程において、その中のセルフアテンションモジュールに対して、構文情報に対応する学習目標を加え、
前記学習目標に応じて前記事前訓練モデルの訓練を行う、
ことを含む方法。
【請求項2】
前記学習目標は、第1学習目標と、第2学習目標とのうちの1つ又はすべてを含む、
請求項1に記載の事前訓練モデル取得方法。
【請求項3】
前記第1学習目標は、
前記訓練文におけるいずれかの単語xについて、前記単語xに対応する第1重みが第2重みよりも大きいことを要求することを含み、
前記第1重みは、前記訓練文に対応する依存木において前記単語xと直接経路で関連付けるいずれかの単語yと前記単語xとの間のアテンション重みであり、前記第2重みは、前記依存木において前記単語xと弱経路で関連付けるか、又は経路関連がないいずれかの単語zと前記単語xとの間のアテンション重みである、
請求項2に記載の事前訓練モデル取得方法。
【請求項4】
直接経路で関連付けることは、前記単語xと同一の経路上にあり且つ前記単語xの下流にあり、前記単語xと1つの辺を介して直接接続し、或いは、前記単語xと同一の経路上にあり且つ前記単語xと1つの辺を介して直接接続することを含み、
弱経路で関連付けることは、前記単語xと同一の経路上にあり且つ前記単語xの下流にあり、前記単語xと少なくとも2つの辺を介して間接的に接続し、或いは、前記単語xと同一の経路上にあり且つ前記単語xと少なくとも2つの辺を介して間接的に接続することを含み、
経路関連がないことは、前記単語xと同一の経路ではないことを含む、
請求項3に記載の事前訓練モデル取得方法。
【請求項5】
前記第2学習目標は、
前記訓練文に対応する依存木におけるいずれかの部分木について、前記部分木におけるいずれかのコア単語に対応する第1類似度が第2類似度よりも大きく、かつ、前記部分木に対応する第3類似度が第4類似度よりも大きいことを要求することを含み、
前記コア単語は、前記部分木における非リーフノードに対応する単語であり、
前記第1類似度は、前記コア単語と前記部分木におけるいずれかの単語のアテンション分布の間の類似度であり、前記第2類似度は、前記コア単語と前記部分木外のいずれかの単語のアテンション分布の間の類似度であり、前記第3類似度は、前記部分木における左右の境界に位置するリーフノードに対応する単語のアテンション分布の間の類似度であり、前記第4類似度は、前記部分木におけるいずれかの単語と前記部分木外のいずれかの単語のアテンション分布の間の類似度である、
請求項2に記載の事前訓練モデル取得方法。
【請求項6】
前記学習目標及び前記事前訓練モデルの元の学習目標に基づいて前記事前訓練モデルの訓練を行う、
ことを更に含む請求項1~5のいずれか1項に記載の事前訓練モデル取得方法。
【請求項7】
第1訓練モジュールと第2訓練モジュールとを備える事前訓練モデル取得装置であって、
前記第1訓練モジュールは、訓練文を用いて事前訓練モデルを訓練する過程において、その中のセルフアテンションモジュールに対して構文情報に対応する学習目標を加え、
前記第2訓練モジュールは、前記学習目標に応じて前記事前訓練モデルの訓練を行う、
事前訓練モデル取得装置。
【請求項8】
前記学習目標は、第1学習目標と第2学習目標とのうちの1つ又はすべてを含む、
請求項7に記載の事前訓練モデル取得装置。
【請求項9】
前記第1学習目標は、
前記訓練文におけるいずれかの単語xについて、前記単語xに対応する第1重みが第2重みよりも大きいことを要求することを含み、
前記第1重みは、前記訓練文に対応する依存木において前記単語xと直接経路で関連付けるいずれかの単語yと前記単語xとの間のアテンション重みであり、前記第2重みは、前記依存木において前記単語xと弱経路で関連付けるか、又は経路関連がないいずれかの単語zと前記単語xとの間のアテンション重みである、
請求項8に記載の事前訓練モデル取得装置。
【請求項10】
直接経路で関連付けることは、前記単語xと同一の経路上にあり且つ前記単語xの下流にあり、前記単語xと1つの辺を介して直接接続し、或いは、前記単語xと同一の経路上にあり且つ前記単語xと1つの辺を介して直接接続することを含み、
弱経路で関連付けることは、前記単語xと同一の経路上にあり且つ前記単語xの下流にあり、前記単語xと少なくとも2つの辺を介して間接的に接続し、或いは、前記単語xと同一の経路上にあり且つ前記単語xと少なくとも2つの辺を介して間接的に接続することを含み、
経路関連がないことは、前記単語xと同一の経路ではないことを含む、
請求項9に記載の事前訓練モデル取得装置。
【請求項11】
前記第2学習目標は、
前記訓練文に対応する依存木におけるいずれかの部分木について、前記部分木におけるいずれかのコア単語に対応する第1類似度が第2類似度よりも大きく、かつ、前記部分木に対応する第3類似度が第4類似度よりも大きいことを要求することを含み、
前記コア単語は、前記部分木における非リーフノードに対応する単語であり、
前記第1類似度は、前記コア単語と前記部分木におけるいずれかの単語のアテンション分布の間の類似度であり、前記第2類似度は、前記コア単語と前記部分木外のいずれかの単語のアテンション分布の間の類似度であり、前記第3類似度は、前記部分木における左右の境界に位置するリーフノードに対応する単語のアテンション分布の間の類似度であり、前記第4類似度は、前記部分木におけるいずれかの単語と前記部分木外のいずれかの単語のアテンション分布の間の類似度である、
請求項8に記載の事前訓練モデル取得装置。
【請求項12】
前記第2訓練モジュールは、さらに、前記学習目標及び前記事前訓練モデルの元の学習目標に基づいて前記事前訓練モデルの訓練を行う、
請求項7~11のいずれか1項に記載の事前訓練モデル取得装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~6のいずれか1項に記載の事前訓練モデル取得方法を実行させる電子デバイス。
【請求項14】
コンピュータに請求項1~6のいずれか1項に記載の事前訓練モデル取得方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体。
【請求項15】
プロセッサにより実行されると、請求項1~6のいずれか1項に記載の事前訓練モデル取得方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の技術分野に関し、特に自然言語処理及びディープラーニング等の分野における事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体に関する。
【背景技術】
【0002】
大規模な構造化されていないテキストデータに基づいて訓練した事前訓練モデルは、下流のタスクに大きな効果向上をもたらした。
【0003】
現在、いくつかの研究では、下流のタスクでの効果をさらに高めるために、事前訓練モデルに構文情報を学習させようと試みている。たとえば、構文言語モデルを用いて、事前訓練過程で構文木全体を直接に予測して出力するが、この方式では膨大な計算資源を必要とする。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体を提供する。
【課題を解決するための手段】
【0005】
訓練文を用いて事前訓練モデルを訓練する過程において、セルフアテンションモジュールに対して、構文情報に対応する学習目標を加え、前記学習目標に応じて前記事前訓練モデルの訓練を行うことを含む事前訓練モデル取得方法を提供する。
【0006】
第1訓練モジュール及び第2訓練モジュールを備え、前記第1訓練モジュールは、訓練文を用いて事前訓練モデルを訓練する過程において、セルフアテンションモジュールに対して構文情報に対応する学習目標を加え、前記第2訓練モジュールは、前記学習目標に応じて前記事前訓練モデルの訓練を行う事前訓練モデル取得装置を提供する。
【0007】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上記方法を実行させる電子デバイスを提供する。
【0008】
コンピュータに上記方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体を提供する。
【0009】
プロセッサにより実行されると、上記方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0010】
上記開示の一実施形態は、構文情報を用いて事前訓練モデルの訓練を指導することにより、構文情報を学習させることができるため、事前訓練モデルの性能を向上させ、計算資源の消費を減少させることができるなどの利点又は有益な効果を有する。
【0011】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図面は、本技術案をより良く理解するためのものであり、本願を制限するものではない。図面において、
【
図1】本開示に記載の事前訓練モデル取得方法の実施形態のフローチャートである。
【
図3】本開示に記載のアテンション重み行列の概略図である。
【
図4】本開示に記載の事前訓練モデル取得装置の実施形態400の構成図である。
【
図5】本開示の実施形態を実施するために使用され得る例示的な電子デバイス500の概略ブロック図を示す。
【発明を実施するための形態】
【0013】
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0014】
さらに、本明細書における用語「及び/又は」は、単に関連オブジェクトを記述する関連関係であり、3つの関係が存在し得ると意味する。例えば、A及び/又はBは、Aが単独で存在し、AとBが同時に存在し、Bが単独で存在するという三つの状況を意味することができる。また、本明細書における文字「/」は、一般的に前後の関連オブジェクトが「又は」の関係にあることを意味する。
【0015】
図1は、本開示に記載の事前訓練モデル取得方法の実施形態のフローチャートである。
図1に示すように、以下の具体的な実現形態を含む。
【0016】
ステップ101では、訓練文を用いて事前訓練モデルを訓練する過程において、その中のセルフアテンションモジュール(セルフアテンションメカニズム)に対して、構文情報に対応する学習目標を加える。
【0017】
ステップ102では、前記学習目標に従って事前訓練モデルの訓練を行う。
【0018】
以上のことからわかるように、上記の方法の実施形態に記載の方法では、構文情報を利用して事前訓練モデルの訓練を指導し、構文情報を学習させることができるため、事前訓練モデルの性能が向上し、計算資源の消費などを低減することができる。
【0019】
前記事前訓練モデルは、典型的にはトランスレータ(transformer)アーキテクチャに基づく事前訓練モデルである。そのうち、セルフアテンション(self-attention)モジュールは非常に重要なモジュールの1つである。
【0020】
本開示に記載の方式では、セルフアテンションモジュールの学習を正規化するために追加のサブタスク学習が導入される。前記正規化の設計は構文情報を参照するため、事前訓練モデルが構文情報を学習することができるようになる。
【0021】
すなわち、訓練文を用いて事前訓練モデルを訓練する過程において、その中のセルフアテンションモジュールに対して、構文情報に対応する学習目標を定義することができる。
【0022】
前記学習目標は、第1学習目標、第2学習目標のうちの1つ又はすべてを含むことができる。すなわち、第1学習目標のみを定義してもよく、第2学習目標のみを定義してもよく、第1学習目標と第2学習目標とを同時に定義してもよいため、実際のニーズに応じて決定可能であり、非常に柔軟で便利である。
【0023】
以下、第1学習目標と第2学習目標についてそれぞれ具体的に述べる。
【0024】
1)第1学習目標
訓練文におけるいずれかの単語(term)xに対して、単語xに対応する第1重みが第2重みよりも大きいことを要求する。第1重みは、この訓練文に対応する依存木において単語xと直接経路で関連付けるいずれかの単語yと単語xとの間のアテンション重みである。第2重みは、依存木において単語xと弱経路で関連付けるか経路関連がないいずれかの単語zと単語xとの間のアテンション重みである。
【0025】
ここで、直接経路で関連付けることは、単語xと同じ経路上にあり且つ単語xの下流にあること、単語xと1つの辺を介して直接接続すること、或いは、単語xと同じ経路上にあり且つ単語xと1つの辺を介して直接接続することを含んで良い。
【0026】
弱経路で関連付けることは、単語xと同じ経路上にあり且つ単語xの下流にあること、少なくとも2つの辺を介して単語xと間接接続すること、或いは、単語xと同じ経路上にあり且つ少なくとも2つの辺を介して単語xと間接接続することを含んで良い。
【0027】
経路関連がないことは、単語xと同じ経路ではないことを含む。
【0028】
記述/区別を容易にするために、上記の異なる単語をそれぞれ単語x、単語y、単語zと呼ぶ。
【0029】
構文情報は単語間の文法構造情報を与えるものであり、構文経路が短い単語ほど単語間の依存度が高く、すなわち親は直接の子により表現される傾向がある。これに基づいて、与えられたいずれかの単語xに対して、依存木において単語xと直接経路で関連付けるいずれかの単語yと単語xとの間のアテンション重みは、依存木において単語xと弱経路で関連付けるか、又は経路関連がないいずれかの単語zと単語xとの間のアテンション重みよりも大きいと仮定することができる。
【0030】
訓練文は何れも複数の単語を含めることができる。たとえば、「百*(企業名を表す)
【数1】
一家高科技公司」という訓練文には、「百*」、「
【数2】
」、「一家」、「高科技」、「公司」などの単語を含めることができる。また、この訓練文に対応する依存木は、本開示に記載の依存木の概略図である
図2に示すように、既存の方式で構築することができる。依存木は、その訓練文における各単語間の依存関係を表すことができる。
【0031】
単語xが
図2に示す「公司」であることを例にすると、単語yは「一家」又は「高科技」であって良い。「一家」又は「高科技」は「公司」と同じ経路上にあり、且つ「公司」の下流に位置し、すなわち「公司」の子ノードであり且つ「公司」と一つの辺で直接に接続することが分かった。単語zは「百*」であって良い。「百*」と「公司」は同じ経路ではないことが分かった。
【0032】
以上は辺の方向を考慮した処理方式であるが、辺の方向を考慮せずに単語xが
図2に示す「公司」であることを例にすると、単語yは「一家」、「高科技」、「
【数3】
」であって良く、すなわち「公司」と同一経路上にあり、且つ「公司」と一つの辺で直接に接続されることになる。
【0033】
図2に示す「一家」の下にさらに1つの子ノードが含まれると仮定すると、そのノードに対応する単語は、「公司」と弱経路で関連付けた単語zとしてもよい。
【0034】
前述したように、単語xについては、第1重み及び第2重みをそれぞれ取得して良い。ここで、第1重みは、単語yと単語xとの間のアテンション重み、第2重みは、単語zと単語xとの間のアテンション重みであってよい。
【0035】
実際の応用では、セルフアテンションメカニズムは、複数の層を含み、マルチヘッド(head)セルフアテンションメカニズムであって良い。同一の訓練文における各単語について、各層の各ヘッドの下で、各単語は、他の各単語(自身を含んで良い)に対してそれぞれ1つのアテンション重みを有する。前記アテンション重みをどのように得られるかは従来技術である。現在の層が層jであり、1≦j≦L、Lは層の数を示し、ヘッド数が8であると仮定すると、単語x及び単語yを例にする場合に、それぞれ8つのヘッドに対応する8つのアテンション重みが単語yと単語xとの間に存在する。それに応じて、これら8つのアテンション重みの平均値を計算し、得られた平均値を所望の第1重みとすることができる。同様にして、所望の第2重みを得ることができる。
【0036】
上記のアテンション重みを用いて、
図3に示すように、アテンション重み行列をさらに得ることができる。
図3は、本開示に記載のアテンション重み行列の概略図である。ここで、方眼の数は、訓練文に含まれる単語数に等しい。各方眼は、それぞれ2つの単語間のアテンション重みを表し、方眼の色は、異なるアテンション重みの大きさを表す。
【0037】
単語xについて、第1重みが第2重みよりも大きいことが要求される。一般的に、前記大きいとは、はるかに大きい(>>)ことであり、具体的な値は、実際の必要性に応じて決定され得る。
【0038】
2)第2学習目標
訓練文が対応する依存木のうちのいずれかの部分木について、当該部分木におけるいずれかのコア単語が対応する第1類似度が第2類似度よりも大きく、かつ、当該部分木が対応する第3類似度が第4類似度よりも大きいことが要求される。コア単語は、その部分木における非リーフノードに対応する単語である。
【0039】
ここで、第1類似度は、当該コア単語と部分木におけるいずれかの単語のアテンション分布の間の類似度であって良い。第2類似度は、当該コア単語と部分木外のいずれかの単語のアテンション分布の間の類似度であって良い。第3類似度は、当該部分木における左右2つの境界に位置するリーフノードに対応する単語のアテンション分布の類似度であって良い。第4類似度は、当該部分木におけるいずれかの単語と当該部分木外のいずれかの単語のアテンション分布の類似度であってよい。
【0040】
構文情報はチャンク情報を与え、すなわち、1つの部分木は一つのチャンクと考えて良い。一つのチャンクは完全で独立した語義を表現する。これに基づいて、同一チャンク内の単語間のアテンション分布は比較的に一致しており、それに応じて同一チャンク内の単語のアテンション分布の間の類似度は異なるチャンク内の単語のアテンション分布の間の類似度よりも高いと仮定することができる。
【0041】
単語のアテンション分布の間の類似度をどのように得られるかは制限されない。たとえば、次のような計算方法を用いてよい。
【数4】
;(1)
【数5】
;(2)
【数6】
;(3)
【0042】
ここで、P及びQは、それぞれ2つの単語のアテンション分布を表し、JSD(P,Q)は2つの単語のアテンション分布の類似度を表す。
【0043】
いずれの単語についても、そのアテンション分布はベクトルの形であってよい。ベクトルの次元はその単語が属する訓練文に含まれる単語の数に等しく、ベクトルにおける各値は、その単語と他の単語との間のアテンション重みをそれぞれ表す。それに応じて、上記sはベクトルの次元を表し、xはその各次元を表す。
【0044】
実際の応用では、セルフアテンションメカニズムは、複数の層を含み、マルチヘッドセルフアテンションメカニズムであって良い。同一の訓練文における各単語について、各層の各ヘッドの下で対応するアテンション分布が存在する。現在の層が層jであり、1≦j≦L、Lは層の数を示し、ヘッド数が8であると仮定すると、いずれの単語についても、それぞれ8つのヘッドに対応する8つの対応するアテンション分布が得られる。それに応じて、8つのアテンション分布の平均値を計算し、得られた平均値を所望の当該単語のアテンション分布とすることができる。
【0045】
いずれかの部分木におけるいずれかのコア単語について、当該部分木におけるいずれかの単語とのアテンション分布の間の類似性は、当該コア単語と当該部分木外のいずれかの単語のアテンション分布の間の類似性よりも大きい必要がある。そして、当該部分木における左右の境界に位置するリーフノードに対応する単語のアテンション分布の間の類似度は、当該部分木におけるいずれかの単語と部分木外のいずれかの単語のアテンション分布の間の類似度よりも大きい必要がある。一般的に、前記大きいとは、はるかに大きいことである。
【0046】
図2に示されたことを例にすると、「公司」をコア単語として良い。「公司」が所在する部分木を例にすると、「公司」と「一家」のアテンション分布の間の類似度は、「公司」と「百*」(この部分木外の単語)のアテンション分布の間の類似度よりも大きい必要がある。そして、「一家」と「高科技」(この部分木における左右の境界に位置するリーフノードに対応する単語)のアテンション分布の間の類似度は、「一家」と「百*」のようなアテンション分布の間の類似度よりも大きい必要がある。
【0047】
定義された上記の学習目標に基づいて事前訓練モデルの訓練を行うことができる。好ましくは、定義された学習目標と、マスク言語モデル損失(Masked language model loss)のような事前訓練モデルの元の学習目標とに基づいて事前訓練モデルの訓練を行うことができる。
【0048】
つまり、本開示に記載の方式によれば、従来の事前訓練モデルの訓練に影響を与えることなく、事前訓練モデルの性能等を向上させるために、それを基礎として1つ又は複数の学習目標を追加するだけである。
【0049】
第1学習目標により、単語の表現計算をその子ノード(又は子孫ノードと呼ぶ)により依存させることができ、第2学習目標により、チャンク内の情報の語義をより一致させることができる。学習により、事前訓練モデルの性能を向上させ、さらに下流のタスクにさらなる効果向上などをもたらすことができる。
【0050】
前述したように、実際の応用において、セルフアテンションメカニズムは、複数の層を含むことができる。各層について本開示に記載の方法でそれぞれ処理したり、その中の特定の層について本開示に記載の方法で処理したりすることができるが、具体的な実現方式に限定されない。
【0051】
なお、前述の方法の実施形態について、説明の簡素化のため、実施例を一連の動作の組み合わせとして表現したが、当業者であればわかるように、本開示による幾らかのステップは他の順序に従って又は同時に実行することができるため、本開示は記述された動作の順序に制限されない。次に、当業者は、明細書に記述された実施例はいずれも好ましい実施例に該当し、関連する動作及びモジュールは必ずしも本開示によって必要とされないことを理解すべきである。
【0052】
以上は、方法の実施形態に関する説明であり、以下で装置の実施形態により本開示に記載された態様をさらに説明する。
【0053】
図4は、本開示に記載の事前訓練モデル取得装置の実施形態400の構成図である。
図4に示すように、第1訓練モジュール401及び第2訓練モジュール402を備える。
【0054】
第1訓練モジュール401は、訓練文を用いて事前訓練モデルを訓練する過程において、その中のセルフアテンションモジュールに対して構文情報に対応する学習目標を加える。
【0055】
第2訓練モジュール402は、前記学習目標に従って事前訓練モデルの訓練を行う。
【0056】
前記事前訓練モデルは、一般的にtransformerアーキテクチャに基づく事前訓練モデルである。その中、セルフアテンションモジュールは、非常に重要なモジュールの1つである。
【0057】
訓練文を用いて事前訓練モデルを訓練する過程において、その中のセルフアテンションモジュールに対して、構文情報に対応する学習目標を定義することができる。前記学習目標は、第1学習目標と第2学習目標のうちの1つ又はすべてを含むことができる。すなわち、第1学習目標のみを定義してもよく、第2学習目標のみを定義してもよく、第1学習目標と第2学習目標とを同時に定義してもよい。
【0058】
ここで、第1学習目標は、訓練文におけるいずれかの単語xに対して、単語xに対応する第1重みが第2重みよりも大きいことを要求することを含んでよい。第1重みは、訓練文に対応する依存木において単語xと直接経路で関連付けるいずれかの単語yと単語xとの間のアテンション重みである。第2重みは、依存木において単語xと弱経路で関連付けるか、経路関連がないいずれかの単語zと単語xとの間のアテンション重みである。
【0059】
直接経路で関連付けることは、単語xと同じ経路上にあり且つ単語xの下流にあり、単語xと一つの辺を介して直接接続すること、或いは、単語xと同じ経路上にあり且つ単語xと一つの辺を介して直接接続することを含んでよい。
【0060】
弱経路で関連付けることは、単語xと同じ経路上にあり且つ単語xの下流にあり、単語xと少なくとも2つの辺を介して間接的に接続すること、或いは、単語xと同じ経路上にあり且つ単語xと少なくとも2つの辺を介して間接的に接続することを含んでよい。
【0061】
経路関連がないことは、単語xと同じ経路ではないことが含まれる。
【0062】
第2学習目標は、訓練文に対応する依存木のいずれかの部分木について、その部分木のいずれかのコア単語に対応する第1類似度が第2類似度よりも大きいことを要求し、かつ、その部分木に対応する第3類似度が第4類似度よりも大きいことを要求することを含んでよい。コア単語は、その部分木における非リーフノードに対応する単語である。
【0063】
ここで、第1類似度は、当該コア単語と部分木におけるいずれかの単語のアテンション分布の間の類似度であり得り、第2類似度は、当該コア単語と、部分木外のいずれかの単語のアテンション分布の間の類似度であり得り、第3類似度は、当該部分木における左右2つの境界に位置するリーフノードに対応する単語のアテンション分布の類似度であり得り、第4類似度は、当該部分木におけるいずれかの単語と当該部分木外のいずれかの単語のアテンション分布の類似度であり得る。
【0064】
上記の学習目標に基づいて、事前訓練モデルの訓練を行うことができる。好ましくは、第2訓練モジュール402は、上述の学習目標と、事前訓練モデルの元の学習目標とに基づいて、事前訓練モデルの訓練を行うことができる。
【0065】
図4に示される装置の実施形態の具体的なワークフローは、前述の方法の実施形態における関連説明を参照でき、ここでは言及しない。
【0066】
要約すると、本開示の装置の実施形態に記載された方法を採用することにより、構文情報を学習させるために構文情報を用いて事前訓練モデルの訓練を指導することができるため、事前訓練モデルの性能を向上させ、計算資源の消費等を低減することができる。
【0067】
本開示に記載の技術案は、人工知能の分野、特に自然言単語処理及びディープラーニングのような分野に適用することができる。
【0068】
人工知能は、コンピュータが人間の思考過程と知能行為(例えば学習、推理、思考、計画など)をシミュレートすることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術の両方がある。人工知能のハードウェア技術には、一般的に、例えばセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理等の技術が含まれる。人工知能のソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/ディープラーニング、ビッグデータ処理技術、知識マップ技術等のいくつかの方向を含む。
【0069】
本開示の実施形態によれば、本開示は更に電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0070】
図5は、本開示の実施形態を実施するために使用され得る例示的な電子デバイス500の模式的なブロック図である。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
【0071】
図5に示すように、デバイス500は、読み取り専用メモリ(ROM)502に記憶されたコンピュータプログラム、又は記憶手段508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段501を含む。RAM503には、デバイス500の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段501、ROM502及びRAM503は、バス504を介して接続されている。入出力(I/O)インターフェース505もバス504に接続されている。
【0072】
例えばキーボード、マウス等の入力手段506と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段507と、例えば磁気ディスク、光ディスク等の記憶手段508と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段509を含むデバイス500の複数の構成要素は、I/Oインターフェース505に接続される。通信手段509は、デバイス500が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0073】
演算手段501は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段501のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段501は、上述した様々な方法及び処理、例えば本開示に記載の方法を実行する。例えば、幾つかの実施形態では、本開示に記載の方法は、例えば記憶手段508のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM502及び/又は通信手段509を介してデバイス500にロード及び/又はインストールすることができる。コンピュータプログラムがRAM503にロードされ、演算手段501により実行されると、本開示に記載の方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段501は、本開示に記載の方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0074】
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
【0075】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
【0076】
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0077】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音入力、音声入力、又は触覚入力を含む)で受信して良い。
【0078】
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0079】
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストと仮想専用サーバ(VPS)において管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。クラウドコンピューティングとは、ネットワークを介して拡張可能な共有物理又は仮想リソースプールにアクセスするものであって、資源にサーバ、OS、ネットワーク、ソフトウェア、アプリケーション、記憶装置などが含まれ、オンデマンド、セルフサービス方式で資源を配備、管理できる技術システムである。クラウドコンピューティング技術により、人工知能、ブロックチェーンなどの技術応用、モデル訓練に効率的で強力なデータ処理能力を提供できる。
【0080】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0081】
上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。