(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-07
(45)【発行日】2024-11-15
(54)【発明の名称】自己適応閾値及びローカルコンテキストプーリングを用いて関係抽出を行うシステム及び方法
(51)【国際特許分類】
G06F 40/279 20200101AFI20241108BHJP
G06F 40/216 20200101ALI20241108BHJP
G06N 3/0455 20230101ALI20241108BHJP
G06N 3/0475 20230101ALI20241108BHJP
G06N 3/04 20230101ALI20241108BHJP
G06N 3/09 20230101ALI20241108BHJP
G06F 18/214 20230101ALI20241108BHJP
【FI】
G06F40/279
G06F40/216
G06N3/0455
G06N3/0475
G06N3/04 100
G06N3/09
G06F18/214
(21)【出願番号】P 2023521628
(86)(22)【出願日】2021-09-27
(86)【国際出願番号】 CN2021121006
(87)【国際公開番号】W WO2022083423
(87)【国際公開日】2022-04-28
【審査請求日】2023-04-20
(32)【優先日】2020-10-21
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】522380893
【氏名又は名称】北京沃▲東▼天▲駿▼信息技▲術▼有限公司
【氏名又は名称原語表記】Beijing Wodong Tianjun Information Technology Co.,Ltd.
【住所又は居所原語表記】Room A402,4/f,No.2 Building,No.18 Kechuang 11th Street,Economic and Technological Development Zone,Beijing 100176,China
(73)【特許権者】
【識別番号】521108663
【氏名又は名称】ジェイ・ディー・ドット・コム アメリカン テクノロジーズ コーポレーション
【氏名又は名称原語表記】JD.com American Technologies Corporation
【住所又は居所原語表記】675 E Middlefield Rd, Mountain View, CA 94043, USA
(74)【代理人】
【識別番号】110001771
【氏名又は名称】弁理士法人虎ノ門知的財産事務所
(72)【発明者】
【氏名】ジョウ ウェンシュエン
(72)【発明者】
【氏名】ホアン ケビン
(72)【発明者】
【氏名】ホアン ジン
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】中国特許出願公開第110059320(CN,A)
【文献】特開2018-060364(JP,A)
【文献】米国特許出願公開第2018/0157643(US,A1)
【文献】肥合 智史、外4名,複数の事前学習モデルを併用した化学分野の関係抽出,言語処理学会第26回年次大会 発表論文集 [online],日本,言語処理学会,2020年05月18日,p.1049-1052
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06N 3/00- 3/126
G06F 18/00-18/40
(57)【特許請求の範囲】
【請求項1】
計算機器を含み、前記計算機器は、プロセッサ及びコンピュータ実行可能なコードを記憶する記憶機器を含み、ここで、前記コンピュータ実行可能なコードは、前記プロセッサで実行される時に、
ドキュメントを提供し、
前記ドキュメントにおける複数のエンティティを複数の埋め込みベクトルに埋め込み、
第一埋め込みベクトルと第二埋め込みベクトルに基づいて前記ドキュメントにおける第一エンティティと前記ドキュメントにおける第二エンティティとの間の複数の関係のうちの一つの関係を予測し、前記複数の埋め込みベクトルにおける前記第一埋め込みベクトルは前記第一エンティティを表し、前記複数の埋め込みベクトルにおける前記第二埋め込みベクトルは前記第二エンティティを表すように構成され、
ここで、前記コンピュータ実行可能なコードは、前記計算機器に記憶された言語モデルを用いて埋め込み及び予測を行うように構成され、前記複数の関係における各関係はいずれも自己適応閾値を有し、前記複数の関係のうちの前記一つの関係に対して、前記関係のlogitが前記複数の関係の前記自己適応閾値のうちの対応する一つの自己適応閾値のlogit関数より大きい場合、前記関係が存在すると決定する
システム。
【請求項2】
前記コンピュータ実行可能なコードは、LogSumExp LSEを用いて前記複数のエンティティのうちの各エンティティの少なくとも一回の言及された少なくとも一つの隠れ表示をまとめて前記複数のエンティティのうちの各エンティティを埋め込むように構成される
請求項1に記載のシステム。
【請求項3】
前記コンピュータ実行可能なコードは、以下の式を用いて前記複数のエンティティから選択された一つのエンティティペアのローカルコンテキストプーリングを計算することにより複数の関係のうちの一つの関係を予測するように構成され、
【数1】
請求項1に記載のシステム。
【請求項4】
前記サブジェクトエンティティ及び前記オブジェクトエンティティの隠れ状態は
【数2】
請求項3に記載のシステム。
【請求項5】
コンピュータ実行可能なコードは、以下の式を用いて前記サブジェクトエンティティと前記オブジェクトエンティティとの間の関係を予測するように構成され、
【数3】
請求項4に記載のシステム。
【請求項6】
【数4】
請求項5に記載のシステム。
【請求項7】
前記言語モデルは、変換器からの双方向エンコーダ表示BERT、ロバスト最適化BERT方法roBERTa、SciBERT、生成事前トレーニングモデルGPT、GPT-2、及び再パラメトリック変換器XLネットワークXLnetの少なくとも一つを含む
請求項1に記載のシステム。
【請求項8】
前記言語モデルをトレーニングするための損失関数は以下の式で決定される:
【数5】
請求項7に記載のシステム。
【請求項9】
前記コンピュータ実行可能なコードは、さらに前記第一エンティティ、前記第二エンティティ及び前記第一エンティティと前記第二エンティティとの間の前記複数の関係における予測された関係を用いて知識グラフを構築するように構成される
請求項1に記載のシステム。
【請求項10】
問題が前記第一エンティティ及び前記第二エンティティを含み、かつ前記ドキュメントが前記問題による答案を含むと予定される場合、前記コンピュータ実行可能なコードは、さらに、前記複数の関係における予測された関係を用いて前記答案を形成するように構成される
請求項1に記載のシステム。
【請求項11】
プロセッサによって実行される方法であって、
計算機器によりドキュメントを提供することと、
前記計算機器により前記ドキュメントにおける複数のエンティティを複数の埋め込みベクトルに埋め込むことと、
前記計算機器により第一埋め込みベクトルと第二埋め込みベクトルに基づいて前記ドキュメントにおける第一エンティティと前記ドキュメントにおける第二エンティティとの間の複数の関係のうちの一つの関係を予測し、前記複数の埋め込みベクトルにおける前記第一埋め込みベクトルは前記第一エンティティを表し、前記複数の埋め込みベクトルにおける前記第二埋め込みベクトルは前記第二エンティティを表すことと、を含み、
ここで、前記計算機器に記憶された言語モデルにより前記埋め込み及び予測ステップを実行し、前記複数の関係のうちの各関係はいずれも自己適応閾値を有し、前記複数の関係のうちの前記一つの関係に対して、前記関係のlogitが前記複数の関係の前記自己適応閾値のうちの対応する一つの自己適応閾値のlogit関数より大きい場合、前記関係が存在すると決定する
方法。
【請求項12】
LogSumExp LSEを用いて前記複数のエンティティのうちの各エンティティの少なくとも一回の言及された少なくとも一つの隠れ表示をまとめて前記複数のエンティティのうちの各エンティティを埋め込むステップを実行する
請求項11に記載の方法。
【請求項13】
前記予測ステップは、以下の式を用いて前記複数のエンティティから選択された一つのエンティティペアのローカルコンテキストプーリングを計算することを含み、
【数6】
請求項11に記載の方法。
【請求項14】
前記サブジェクトエンティティ及び前記オブジェクトエンティティの隠れ状態は以下の式で決定され、
【数7】
請求項13に記載の方法。
【請求項15】
以下の式を用いて前記サブジェクトエンティティと前記オブジェクトエンティティとの間の関係を予測するステップを実行し、
【数8】
請求項14に記載の方法。
【請求項16】
前記言語モデルは変換器からの双方向エンコーダ表示BERT又はSciBERTを含み、前記言語
モデルをトレーニングするための損失関数は以下の式で決定され、
【数9】
請求項15に記載の方法。
【請求項17】
前記第一エンティティ、前記第二エンティティ及び前記第一エンティティと前記第二エンティティとの間の前記複数の関係における予測された関係を用いて知識グラフを構築すること、又は
問題が前記第一エンティティ及び前記第二エンティティを含み、かつ前記ドキュメントが前記問題による答案を含むと予定される場合、前記複数の関係における予測された関係を用いて前記答案を形成することをさらに含む
請求項11に記載の方法。
【請求項18】
コンピュータ実行可能なコードを記憶する非一時的なコンピュータ可読媒体であって、前記コンピュータ実行可能なコードは、アクティブ計算機器のプロセッサで実行される時に、
ドキュメントを提供し、
前記ドキュメントにおける複数のエンティティを複数の埋め込みベクトルに埋め込み、
第一埋め込みベクトルと第二埋め込みベクトルに基づいて前記ドキュメントにおける第一エンティティと前記ドキュメントにおける第二エンティティとの間の複数の関係のうちの一つの関係を予測し、前記複数の埋め込みベクトルにおける前記第一埋め込みベクトルは前記第一エンティティを表し、前記複数の埋め込みベクトルにおける前記第二埋め込みベクトルは前記第二エンティティを表すように構成され、
ここで、前記コンピュータ実行可能なコードは、前記非一時的なコンピュータ可読媒体に記憶された言語モデルを用いて埋め込み及び予測を行うように構成され、前記複数の関係における各関係はいずれも自己適応閾値を有し、前記複数の関係のうちの前記一つの関係に対して、前記関係のlogitが前記複数の関係の前記自己適応閾値のうちの対応する一つの自己適応閾値のlogit関数より大きい場合、前記関係が存在すると決定する
非一時的なコンピュータ可読媒体。
【請求項19】
前記コンピュータ実行可能なコードは、以下の式を用いて前記複数のエンティティから選択された一つのエンティティペアのローカルコンテキストプーリングを計算することにより前記複数の関係のうちの一つの関係を予測するように構成され、
【数10】
ここで、前記サブジェクトエンティティ及び前記オブジェクトエンティティの隠れ状態は以下の式で決定され、
【数11】
ここで、前記コンピュータ実行可能なコードは、以下の式を用いて前記サブジェクトエンティティと前記オブジェクトエンティティとの間の関係を予測するように構成され、
【数12】
請求項18に記載の非一時的なコンピュータ可読媒体。
【請求項20】
前記言語モデルは変換器からの双方向エンコーダ表示BERTを含み、前記言語
モデルをトレーニングするための損失関数は、
【数13】
請求項18に記載の非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[クロス引用]
本願は、2020年10月21日に提出された米国特許出願第17/076014号の優先権を要求し、その引用方式は全て本明細書に組み込まれる。
本開示の説明において、いくつかの参照文献を引用して説明し、特許、特許出願及び様々な排版物を含む可能性がある。このような参照文献の引用及び/又は検討は、本開示を説明するだけに用いられており、いかなるこのような参照文献が本明細書に開示された「従来の技術」であると認められない。本明細書において引用及び検討された全ての参照文献は全体を引用して本明細書に組み込まれ、かつ各参照文献が引用することにより単独に組み込まれた程度と同じである。
【0002】
本開示は全体的に関係抽出に関し、具体的には、自己適応閾値及びローカルコンテキストプーリングを用いる関係抽出に関する。
【背景技術】
【0003】
本明細書が提供する背景説明は、本開示のコンテキストを全体的に示すためである。本背景技術の説明範囲内に、現在の署名の発明者の仕事、及び出願時に従来技術に適合しない説明ことは、いずれも本開示に対する従来の技術であると明示的又は暗示的に認められない。
【0004】
関係抽出(Relation Extraction、RE)は、自然言語処理(Natural Language Processing、NLP)のうちの一つの重要なタスクであり、純粋なテキストにおけるエンティティペアの間の関係を抽出する。関係は、センテンス又はドキュメントから抽出することができる。センテンスレベルREと比較して、ドキュメントレベルREは、新たな挑戦を提供し、一つのドキュメントは一般的に複数のエンティティペアを含み、かつ一つのエンティティペアは複数の可能な関係又は複数のラベルに関連するドキュメントに複数回出現する可能性がある。
【0005】
該マルチエンティティの問題を解決するために、現在の大部分の方法はいずれも依存構造、ヒューリスティック又は構造化アテンションを用いてドキュメントグラフを構築し、次にグラフニューラルモデルを使用して推論する。構築されたグラフはドキュメントにおける遠いエンティティを接続し、それによりRNNに基づくエンコーダが遠隔情報をキャプチャするときの不足を解決する。しかしながら、変換器に基づくモデルは遠隔依存関係を暗示的にモデル化することができるため、グラフ構造がまだ事前トレーニングの言語モデル、例えばBERTに寄与するか否かを明らかにしない。また、グラフ構造を導入せず、事前トレーニングの言語モデルをそのまま適用する方法もある。それらはエンティティトークンの埋め込みを簡単に平均してエンティティ埋め込みを取得し、かつそれを分類器に入力して関係ラベルを取得する。しかしながら、各エンティティは異なるエンティティペアにおいて同じ表示を有し、これはコンテキストに関連しないノイズをもたらす可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
したがって、本分野においてドキュメントレベル関係抽出におけるマルチエンティティ、マルチラベル問題を解決する必要がある。
【課題を解決するための手段】
【0007】
いくつかの態様において、本開示は、自己適応閾値及びローカルコンテキストプーリングという二種類の新規な技術を提供し、マルチラベル及びマルチエンティティの問題を解決する。自己適応閾値は、学習可能なエンティティに依存する閾値で従来の動作におけるマルチラベル分類に用いられるグローバル閾値に代わる。ローカルコンテキストプーリングは事前トレーニングされた言語モデルからアテンションを移転して関係を確定することに役立つ関連するコンテキストを位置決めする。
【0008】
具体的には、本開示は、グラフ構造を導入するものではなく、ローカルコンテキストプーリングプーリング技術を提供する。ローカルコンテキストプーリングは全てのエンティティペアが同じエンティティ埋め込みを使用する問題を解決する。それは、現在のエンティティペアに関連する付加的なコンテキストを使用してエンティティ埋め込みを強化する。本開示は、最初から新たなコンテキストアテンション層をトレーニングする必要がなく、直接的に事前トレーニングされた言語モデルからアテンションヘッドを移転してエンティティレベルアテンションを取得する。次に、一のペアの二つのエンティティについて、本開示は乗算によりそれらのアテンションを統合することにより、双方に重要なコンテキストを見つける。
【0009】
マルチラベル問題に対して、従来の方法は、それをバイナリ分類問題に簡略化する。トレーニングした後、グローバル閾値をクラス確率に適用して関係ラベルを取得する。該方法は、ヒューリスティック閾値の調整に関し、かつ開発データにおいて調整された閾値が全ての実例の最適閾値ではない場合に決定エラーを導入する。これに対して、本開示は自己適応閾値技術を提供し、該技術は、学習可能な閾値クラスでグローバル閾値に代わる。閾値クラスは、自己適応閾値損失により学習される。該自己適応閾値損失は、ランキングに基づく損失であり、それはモデルトレーニングにおいて正クラスのlogit(ロジスティック回帰)を閾値の上に押し、負クラスのlogitを閾値の下に引く。テストする時に、本開示は、閾値クラスより高いlogitのクラスを予測ラベルとして返し、又は該クラスが存在しなければNAを返す。該技術は、閾値調整の需要を除去し、かつ異なるエンティティに基づいて閾値を調整することができ、それによりより良好な結果を得る。
【0010】
自己適応閾値とローカルコンテキストプーリングを結合することにより、本開示は、簡単かつ新規かつ効果的な関係抽出モデルを提供し、事前トレーニングされた言語モデルの能力を十分に利用するようにATLOP(Adaptive Thresholding and Localized cOntext Pooling、自己適応閾値及びローカルコンテキストプーリング)と呼ばれる。該モデルは、ドキュメントレベルRE中のマルチラベル及びマルチエンティティ問題を解決する。DocRED、CDR及びGDAの三つのドキュメントレベル関係に対してデータセットを抽出する実験により、ATLOPモデルが最も先進的な方法より顕著に優れる。DocREDはWikipadia及びWikipadiaデータで構築された大規模ドキュメントレベル関係抽出データセットであり、CDRは化学疾患関係のデータセットであり、GDAは遺伝子疾患に関連するデータセットである。
【0011】
いくつかの態様において、本開示はシステムに関する。いくつかの実施例において、該システムは計算機器を含み、前記計算機器は、プロセッサ及びコンピュータ実行可能なコードを記憶する記憶機器を含む。前記コンピュータ実行可能なコードは、前記プロセッサで実行される時に、
ドキュメントを提供し、
前記ドキュメントにおける複数のエンティティを複数の埋め込みベクトルに埋め込み、
第一埋め込みベクトルと第二埋め込みベクトルに基づいて前記ドキュメントにおける第一エンティティと前記ドキュメントにおける第二エンティティとの間の複数の関係のうちの一つの関係を予測し、前記複数の埋め込みベクトルにおける前記第一埋め込みベクトルは前記第一エンティティを表し、前記複数の埋め込みベクトルにおける前記第二埋め込みベクトルは前記第二エンティティを表すように構成され、
ここで、前記コンピュータ実行可能なコードは、前記計算機器に記憶された言語モデルを用いて埋め込み及び予測を行うように構成され、前記複数の関係における各関係はいずれも自己適応閾値を有し、前記複数の関係のうちの前記一つの関係に対して、前記関係のlogitが前記複数の関係の前記自己適応閾値のうちの対応する一つの自己適応閾値のlogit関数より大きい場合、前記関係が存在すると決定する。
【0012】
いくつかの実施例において、前記コンピュータ実行可能なコードは、LogSumExp LSEを用いて前記複数のエンティティのうちの各エンティティの少なくとも一回の言及された少なくとも一つの隠れ表示をまとめて前記複数のエンティティのうちの各エンティティを埋め込むように構成される。
【0013】
いくつかの実施例において、前記コンピュータ実行可能なコードは、以下の式を用いて前記複数のエンティティから選択された一つのエンティティペアのローカルコンテキストプーリングを計算することにより複数の関係のうちの一つの関係を予測するように構成され、
【数1】
【0014】
いくつかの実施例において、前記サブジェクトエンティティ及び前記オブジェクトエンティティの隠れ状態は以下の式で決定され、
【数2】
【0015】
いくつかの実施例において、コンピュータ実行可能なコードは、以下の式を用いて前記サブジェクトエンティティと前記オブジェクトエンティティとの間の関係を予測するように構成され、
【数3】
【0016】
【0017】
いくつかの実施例において、前記言語モデルは、変換器からの双方向エンコーダ表示BERT、ロバスト最適化BERT方法roBERTa、SciBERT、生成事前トレーニングモデルGPT、GPT-2、及び再パラメトリック変換器XLネットワークXLnetの少なくとも一つを含む。
【0018】
いくつかの実施例において、前記言語モデルは、BERTに基づく構造を有し、前記言語モデルをトレーニングするための損失関数は以下の式で決定される。
【数5】
【0019】
【0020】
いくつかの実施例において、前記コンピュータ実行可能なコードはさらに前記第一エンティティ、前記第二エンティティ及び前記第一エンティティと前記第二エンティティとの間の前記複数の関係における予測された関係を用いて知識グラフを構築するように構成される。知識グラフは、例えば、人間の知識を含む一般的な知識グラフ、ファッション製品の特徴を含むファッショングラフ、人間の遺伝子とその遺伝子に関連する人間の疾患との関係を含む遺伝子疾患グラフ、または化学物質と疾患との関係を含む化学的な疾患図であってもよい。
【0021】
いくつかの実施例において、問題が前記第一エンティティ及び前記第二エンティティを含み、かつ前記ドキュメントが前記問題による答案を含むと予定される場合、前記コンピュータ実行可能なコードは、さらに、前記複数の関係における予測された関係を用いて前記答案を形成するように構成される。
【0022】
いくつかの態様において、本開示は方法に関する。いくつかの実施例において、該方法は、
計算機器によりドキュメントを提供することと、
前記計算機器により前記ドキュメントにおける複数のエンティティを複数の埋め込みベクトルに埋め込むことと、
前記計算機器により第一埋め込みベクトルと第二埋め込みベクトルに基づいて前記ドキュメントにおける第一エンティティと前記ドキュメントにおける第二エンティティとの間の複数の関係のうちの一つの関係を予測し、前記複数の埋め込みベクトルにおける前記第一埋め込みベクトルは前記第一エンティティを表し、前記複数の埋め込みベクトルにおける前記第二埋め込みベクトルは前記第二エンティティを表すことと、を含み、
ここで、前記計算機器に記憶された言語モデルにより前記埋め込み及び予測ステップを実行し、前記複数の関係のうちの各関係はいずれも自己適応閾値を有し、前記複数の関係のうちの前記一つの関係に対して、前記関係のlogitが前記複数の関係の前記自己適応閾値のうちの対応する一つの自己適応閾値のlogit関数より大きい場合、前記関係が存在すると決定する。
【0023】
いくつかの実施例において、LogSumExp LSEを用いて前記複数のエンティティのうちの各エンティティの少なくとも一回の言及された少なくとも一つの隠れ表示をまとめて前記複数のエンティティのうちの各エンティティを埋め込むステップを実行する。
【0024】
いくつかの実施例において、前記予測ステップは、以下の式を用いて前記複数のエンティティから選択された一つのエンティティペアのローカルコンテキストプーリングを計算することを含み、
【数7】
【0025】
いくつかの実施例において、前記サブジェクトエンティティ及び前記オブジェクトエンティティの隠れ状態は以下の式で決定され、
【数8】
【0026】
いくつかの実施例において、以下の式を用いて前記サブジェクトエンティティと前記オブジェクトエンティティとの間の関係を予測するステップを実行し、
【数9】
【0027】
いくつかの実施例において、前記言語モデルは変換器からの双方向エンコーダ表示BERT又はSciBERTを含み、前記言語モジュールをトレーニングするための損失関数は以下の式で決定され、
【数10】
【0028】
いくつかの実施例において、前記第一エンティティ、前記第二エンティティ及び前記第一エンティティと前記第二エンティティとの間の前記複数の関係における予測された関係を用いて知識グラフを構築することをさらに含む。
【0029】
いくつかの実施例において、問題が前記第一エンティティ及び前記第二エンティティを含み、かつ前記ドキュメントが前記問題による答案を含むと予定される場合、この方法は、さらに前記複数の関係における予測された関係を用いて前記答案を形成することを含む。
【0030】
いくつかの態様において、本開示はコンピュータ実行可能なコードを記憶する非一時的なコンピュータ可読媒体に関する。前記コンピュータ実行可能なコードは、計算機器のプロセッサで実行される場合に、上述した方法を実行するように構成されている。
【0031】
以下の図面及びその説明から好ましい実施例に対する説明において、本開示のこれら及び他の態様は明らかになり、そのうちの変化及び修正は本開示の新規な概念の精神及び範囲から逸脱しない場合に影響を受ける。
【図面の簡単な説明】
【0032】
添付図面は、本開示の一つ又は複数の実施例を示し、かつ書面の説明と共に本開示の原理を説明する。可能な場合に、図面全体において同じ参照符号を使用して実施例の同一又は類似の要素を示す。
【
図1】
図1は、本開示のいくつかの実施例に係る自己適応閾値及びローカルコンテキストプーリング(ATLOP)システムを概略的に示す。
【
図2】
図2は、DocREDデータセットからの例を概略的に示す。
【
図3】
図3は、本開示のいくつかの実施例に係る自己適応閾値損失を概略的に示す。
【
図4】
図4は、本開示のいくつかの実施例に係るローカルコンテキストプーリングを概略的に示す。
【
図5】
図5は、本開示のいくつかの実施例に係るATLOP関係抽出アプリケーションのトレーニング過程を概略的に示す。
【
図6】
図6は、本開示のいくつかの実施例に係るATLOP関係抽出アプリケーションの推定過程を概略的に示す。
【
図7】
図7において、表1は、実験におけるデータセットの統計を示し、ここでEnt.、Ment.及びDoc.はそれぞれエンティティ、言及及びドキュメントの略語である。
【
図8】
図8において、表2は、本開示のいくつかの実施例に係るATLOPアプリケーションのハイパーパラメータを示す。
【
図9】
図9において、表3は、DocREDの開発とテストセットの結果を示す。この表は、異なるランダムシードを用いて5回のトレーニングを行って開発セットにおけるF
1の平均値及び標準偏差を報告する。この表は、開発セットにおける最適なチェックポイントのオフィシャルテストスコアを報告する。
【
図10】
図10において、表4は、CDRとGDAデータセットにおけるテストF
1スコア(%で計算)を示す。この表は、異なるランダムシードを用いて5回のトレーニングを行ってテストセットにおけるF
1の平均値および標準偏差を報告する。
【
図11】
図11において、表5は、DocREDにおけるATLOPのアブレーション(ablation)検討を示す。われわれは、1つのモデルの異なるコンポーネントを一回に閉じる。我々は、異なるシードを用いて5回のトレーニングを行って平均devF
1スコアを報告する。
【
図12】
図12において、表6は、DocREDにおける異なる閾値ポリシーの結果を示す。我々の自己適応閾値は、テストセットにおいて常に他のポリシーより優れる。
【
図13】
図13は、DocREDにおける異なる数のエンティティを有するドキュメントのdevF
1スコアを示す。エンティティの数が5より大きい場合、我々のローカルセキュリティコンテキストは、より良好な結果を得ることができる。エンティティの数が増加する場合、このような改善はより顕著である。
【
図14】
図14は、本開示のいくつかの実施例に係るローカルコンテキストプーリングを用いた
図2における例示のコンテキスト重みを示す。
【発明を実施するための形態】
【0033】
本開示は、以下の実施例においてより具体的に説明され、これらの例は単に説明するために用いられ、そのうちの多くの修正及び変更は当業者にとって自明である。以下、本開示の書く実施例を詳細に説明する。図面を参照して、全ての図面において、同じ数字は同じ部材を示す。本明細書の説明及びその後の特許請求の範囲に使用されるように、コンテキストが明確に規定されない限り、「一」、「一つ」及び「前記」の記載は複数個を含む。また、本明細書の説明及びその後の請求項に使用されるように、コンテキストが明確に規定されない限り、「…中」の意味は「…中」及び「…上」を含む。また、読者の便宜上、明細書にタイトル又はサブタイトルを使用することができ、これは本開示の範囲に影響を与えない。また、本明細書で使用されるいくつかの用語は、以下により具体的な定義を有する。
【0034】
本開示のコンテキスト及び各用語を使用する特定のコンテキストにおいて、本明細書で使用される用語は、一般的にそれらの本分野における一般的な意味を有する。本開示のいくつかの用語の以下又は明細書における他の部分の議論を説明することにより、事業者へ本開示の説明に関連する付加的な指導を提供する。理解できるように、同様のことは、一つ以上の方式で表現することができる。したがって、代替言語及び同義語は、本明細書に記載されたいずれか一つ又は複数の用語に用いることができ、用語が本明細書に詳細に説明されるか又は議論されるか否かはいかなる特殊な意味もない。本明細書における任意の箇所の例示的な使用は、本明細書に記載されたいかなる用語の例示を含み、説明的なものだけであり、本開示又はいかなる例示的用語の範囲及び意味を限定するものではない。同様に、本開示は本明細書に示された様々な実施例に限定されない。
【0035】
本明細書に記載のように、用語「モジュール」は、専用集積回路(ASIC、Application Specific Integrated Circuit)、電子線路、組み合わせ論理回路、フィールドプログラマブルゲートアレイ(FPGA、Field Programmable Gate Array)、コードを実行するプロセッサ(共有、専用、又はグループ)、説明機能を提供する他の適切なハードウェアコンポーネント、又は例えばオンチップシステムという上記一部又は全ての組み合わせに属するか又は含むことを示すことができる。用語モジュールはプロセッサにより実行されたコードを記憶するメモリ(共有、専用又はグループ)を含むことができる。
【0036】
本明細書に記載のように、用語「コード」は、ソフトウェア、ファームウェア及び/又はマイクロコードを含むことができ、かつプログラム、ルーチン、関数、クラス及び/又はオブジェクトを指すことができる。上記に使用された用語「共有」とは、複数のモジュールからの一部又は全部のコードを単一(共有)のプロセッサを用いて実行することができることを意味する。また、複数のモジュールからの一部又は全てのコードを単一(共有)のメモリに記憶することができる。上記のような用語のグループとは、一組のプロセッサを用いて単一のモジュールからの一部又は全部のコードを実行することができることを意味する。また、一組のメモリを使用して単一のモジュールからの一部又は全てのコードを記憶することができる。
【0037】
本明細書に記載のように、用語「インタフェース」は一般的にはコンポーネントの間の対話ポイントでコンポーネントの間のデータ通信を実行するための通信ツール又は装置である。一般的には、インタフェースは、ハードウェアとソフトウェアレベルにいずれも適用することができ、単方向又は双方向インタフェースであってもよい。物理的なハードウェアインタフェースとしては、例えば、電気コネクタ、バス、ポート、ケーブル、端子、その他のI/O機器又はコンポーネント等が挙げられる。インタフェースと通信するコンポーネントは、例えばコンピュータシステムの複数のコンポーネントや周辺機器であってもよい。
【0038】
本開示は、コンピュータシステムに関する。図面に示すように、コンピュータコンポーネントは、実線ブロックとして表示される物理的ハードウェアコンポーネントと、破線ブロックとして表示される仮想ソフトウェアコンポーネントと、を含むことができる。当業者であれば理解されるように、特に説明しない限り、これらのコンピュータコンポーネントは、ソフトウェア、ファームウェア又はハードウェアコンポーネント又はそれらの組み合わせの形式で実現することができるが、これらの形式に限定されない。
【0039】
本明細書に記載の装置、システム及び方法は、一つ又は複数のプロセッサにより実行される一つ又は複数のコンピュータプログラムにより実現することができる。コンピュータプログラムは、非一時的な有形のコンピュータ可読媒体に格納されたプロセッサ実行可能な命令を含む。コンピュータプログラムは、記憶されたデータをさらに含んでもよい。非一時的な有形のコンピュータ可読媒体の非限定的な例示は、不揮発性メモリ、磁気メモリ及び光メモリである。
【0040】
以下、図面を参照しながら本開示をより全面的に説明し、ここで本開示の実施例を示す。しかしながら、本開示は、多くの異なる形態で体現することができかつ本明細書に説明された実施例に限定して解釈されるべきではない。逆に、これらの実施例を提供することは、本開示を徹底且つ完全にし、かつ本開示の範囲を当業者に十分に伝えるためである。
【0041】
図1は、本開示のいくつかの実施例に係る自己適応閾値及びローカルコンテキストプーリング(ATLOP)システムを概略的に示す。
図1に示すように、システム100は、計算機器110を含む。いくつかの実施例において、計算機器110は、関係予測及び証拠予測を提供するサーバコンピュータ、クラスタ、クラウドコンピュータ、汎用コンピュータ、ヘッドなしコンピュータ又は専用コンピュータであってもよい。計算機器110は、プロセッサ112、メモリ114及び記憶機器116を含むがそれらに限定されない。いくつかの実施例において、計算機器110は、他のハードウェアコンポーネント及びソフトウェアコンポーネント(図示せず)を含むことによりそれに対応するタスクを実行することができる。これらのハードウェア及びソフトウェアコンポーネントの例示としては、例えば、他に必要なメモリ、インタフェース、バス、入出力(I/O)モジュール又は機器、ネットワークインタフェース、周辺機器等を含むがこれらに限らない。
【0042】
プロセッサ112は、中央処理ユニット(CPU、Central Processing Unit)であってもよく、それは計算機器110の操作を制御するように構成される。プロセッサ112は、計算機器110のオペレーティングシステム(OS、Operating System)又は他のアプリケーションを実行することができる。いくつかの実施例において、計算機器110は、例えば二つのCPU、四つのCPU、八つのCPU又は任意の適切な数のCPUなどの複数のCPUをプロセッサとして有してもよい。
【0043】
メモリ114は、揮発性メモリであってもよく、例えばランダムアクセスメモリ(RAM、Random-Access Memory)であり、それは計算機器210の操作期間にデータ及び情報を記憶するために用いられる。いくつかの実施例において、メモリ114は、揮発性メモリアレイであってもよい。いくつかの実施例において、計算機器110は、複数のメモリ114上で動作することができる。
【0044】
記憶機器116は、演算装置110のOS(図示せず)やその他のアプリケーションを記憶する不揮発性のデータ記憶媒体である。記憶機器116の例示は、例えばフラッシュメモリ、メモリカード、USBドライブ、ハードディスクドライブ、フレキシブルディスク、光ディスクドライブ、ソリッドステートドライブ又は任意の他のタイプのデータ記憶機器という不揮発性メモリを含むことができる。いくつかの実施例において、計算機器110は、複数の記憶機器116を有してもよく、それらは同じ記憶機器又は異なるタイプの記憶機器であってもよく、計算機器110のアプリケーションは、計算機器110内の一つ以上の記憶機器116に記憶されてもよい。
【0045】
該実施例において、プロセッサ112、メモリ114及び記憶機器116は、計算機器110(例えばサーバ計算機器)のコンポーネントである。他の実施例において、計算機器110は配布式の計算機器であってもよく、プロセッサ112、メモリ114及び記憶機器116は予め定義された領域内の複数の計算機器からの共有リソースである。
【0046】
その他に、記憶機器116は、ATLOP関係抽出アプリケーション118、トレーニングデータ130及び予測データ132を含む。ATLOP関係抽出アプリケーション118は、トレーニングデータ130を用いてそのモデル構造をトレーニングし、かつ予測データ132に基づいて予測するように構成される。トレーニングデータ130及び予測データ132は、計算機器110に対して選択可能であり、ATLOP関係抽出アプリケーション118は、他の機器に記憶されたトレーニング及び予測データにアクセスすればよい。
【0047】
図1に示すように、ATLOP関係抽出アプリケーション118は、ドキュメント準備モジュール120、エンコーダ122、分類器124、機能モジュール126及びインタフェース128を含む。いくつかの実施例において、ATLOP関係抽出アプリケーション118は、ATLOP関連抽出アプリケーション118の操作に必要な他のアプリケーション又はモジュールを含むことができる。注意すべきこととして、各モジュール120~128は、コンピュータ実行可能なコード又は命令、又はデータテーブル又はデータベース、又はハードウェアとソフトウェアの組み合わせで実現され、それらは共同で一つのアプリケーションを形成する。いくつかの実施例において、各モジュールはさらにサブモジュールを含むことができる。又は、いくつかのモジュールを一つのスタックに組み合わせることができる。他の実施例において、いくつかのモジュールは、実行可能なコードではなく回路として実現されてもよい。いくつかの実施例において、モジュールは、モデルと総称されてもよく、トレーニングデータを用いてそれをトレーニングすることができ、かつトレーニングされた後に、予測に用いることができる。
【0048】
【0049】
【0050】
図2は、DocREDデータセットからの例を模式的に示す図である。
図2に示すように、サブジェクトエンティティは、「ジョン・ステーニストリート」であり、オブジェクトエンティティは「ベンディゴ」であり、関係は「出身地」及び「死亡地」である。「出身地」関係は、前の二つの文に体現され、「死亡地」関係は、最後の文に体現される。ドキュメントにおける他のエンティティも強調表示されるが、「ジョン・ステーニストリート-ベンディゴ」のエンティティタプルと無関係である。
【0051】
【0052】
【0053】
【0054】
一つのエンティティの表現は異なるエンティティペアにおいて同じである。双線形分類器におけるパラメータの数を減少させるために、分類器124は、グループ双線形性を使用するように配置され、それは埋め込み次元をk個の大きさが等しいグループに分割し、かつグループ内で双線形性を適用する。
【数17】
【0055】
【0056】
【0057】
【0058】
【0059】
エンティティペアの分類が正確であれば、正ラベルのlogit関数(又は対数確率)は閾値より大きいべきであり、負ラベルのlogit関数は閾値より小さいべきである。分類器124は、閾値クラスTHを導入するように構成され、他のクラスと同様な方式で自動的に学習する(式(5)参照)。テスト時に、分類器124は、THクラスより高いlogitを有するクラスを正ラベルとして返し、又はこれらの種類が存在しなければ、NAを返す。この閾値クラス学習は、エンティティの閾値に依存する。それはグローバル閾値の代替品であるため、開発セットに閾値を調整する必要がない。いくつかの実施例において、前述のように、分類器124は、確率ではなく、logitrを計算するように構成され、かつlogitrとTHのlogitとを比較して関係rが存在するか否かを決定する。
【0060】
新しいモデルを学習するために、分類器124は、THクラスを考慮した特殊な損失関数を定義するように配置される。具体的には、分類器は、標準クラス交差エントロピー損失に基づいて自己適応閾値損失を設計するように配置される。損失関数は二つの部分に分割され、以下に示すとおりである。
【数22】
【0061】
第一部分L1は、正ラベル及びTHクラスに関する。複数の正ラベルが存在する可能性があるため、総損失を全ての正ラベルでのクラス交差エントロピー損失の総和として計算する。L1は全ての正ラベルのlogitをTHクラスより大きくする。正ラベルが存在しなければ、使用しない。第二部分L2は、負クラス及び閾値クラスに関する。それはクラス交差エントロピー損失であり、そのTHクラスは実ラベルである。これにより負ラベルのlogitはTHクラスより小さい。これらの二つの部分が加算は合計損失である。
【0062】
【0063】
エンティティと密接に関連するコンテキストを正確に位置決めするために、本開示はさらにエンコーダ122におけるプーリングを改善し、それにより分類器124により分類における隠れ状態に影響を与える。具体的には、式(2)に示されたlogsumexpプーリングは、ドキュメント全体にエンティティの全ての言及の埋め込みを累積し、かつ該エンティティに一つの埋め込みを生成する。次に全てのエンティティペアの分類に該エンティティ埋め込みを用いる。しかしながら、いくつかのコンテキストはエンティティペアと関係がない関係を示す可能性があるため、好ましくは一つは、ドキュメントにおける関連コンテキストのローカル表示のみに注目し、これはエンティティペアの関係を決定することに役立つ。
【0064】
したがって、本開示はローカルコンテキストプーリングを提供し、それは二つのエンティティに関連する付加的なコンテキストを埋め込むことによりエンティティペアへの埋め込みを強化する。いくつかの実施例において、本開示は事前トレーニングされた変換器に基づくモデルをエンコーダ122として使用し、エンコーダ122は既にマルチヘッド自己アテンションによりトークンレベル依存関係を学習し、したがって、本開示はそれらのアテンションヘッドを直接使用してローカルコンテキストプーリングを行うことを考慮する。該方法は、事前トレーニングされた言語モデルから学習済みの依存関係を移転し、初めから新たなアテンション層を学習する必要がない。
【0065】
【0066】
【0067】
【0068】
図1に戻り、ドキュメント準備モジュール120、エンコーダ122及び分類器124が関係予測を行う場合、機能モジュール126は、予測の関係を用いて機能を実行するように構成される。いくつかの実施例において、該機能は構造知識グラフであり、機能モジュール126は、エンティティペアとエンティティペアの予測との関係を知識グラフに統合するように構成される。各エンティティは、知識グラフにおけるノードであってもよく、かつ関係は、対応するエンティティをリンクするエッジであってもよい。いくつかの実施例において、該機能は、データベースから情報を検索し、機能モジュール126は、データベースのトレーニングデータセットを用いてエンコーダ122及び分類器124をトレーニングし、トレーニングした後にデータベースから関係を推定し、かつユーザにエンティティペア及びその関係を提供するように構成される。いくつかの実施例において、該機能は、質問応答システムであり、機能モジュール126は、問題からエンティティを抽出し、答案データベース又はコメントデータベースからエンティティ関係を推定し、問題から抽出されたエンティティ及び推定の関係を用いて該問題の答案を形成し、かつ該問題を提出したユーザに答案を提供する。
【0069】
インタフェース128は、ATLOP関係抽出アプリケーション118の管理者にインタフェースを提供してエンコーダ122及び分類器124をトレーニングし、かつモデルパラメータを調整し、又はユーザにインタフェースを提供してATLOP関係抽出アプリケーション118を使用して問題の答案を取得し、ドキュメントを使用して知識グラフを構築するか又は完了するように構成される。
【0070】
図5は、本開示のいくつかの実施例に係るATLOP関係抽出アプリケーションのトレーニング過程を模式的に示す図である。いくつかの実施例において、トレーニング過程は、
図1に示す計算機器110により実現される。特に注意すべきこととして、本開示において他の説明がない限り、トレーニング過程又は方法のステップは異なる順序で配列されてもよく、したがって、
図5に示す順序に限定されない。
【0071】
図5に示すように、ステップ502において、ドキュメント準備モジュール120はトレーニングデータ130を検索し、かつトレーニングデータ130をエンコーダ122に提供する。トレーニングデータは、ラベル付きのエンティティと関係のドキュメントである。
【0072】
ステップ504において、各ドキュメントに対して、エンコーダ122は、エンティティの言及の開始及び終了に符号「*」を添加し、つまり、エンティティの言及の前及び後に符号「*」を添加する。
【0073】
ステップ506において、エンコーダ122は、言及開始での符号「*」を、該言及を示すトークンとして、logsumexpを用いてエンティティ埋め込みを計算し、かつ該エンティティ埋め込みを分類器124に送信する。具体的には、エンコーダ122は、BERT等の言語モデルの基本的なエンコーダ構造を有し、かつトレーニングドキュメント中の各トークンの埋め込みを取得し、即ち、
【数29】
【0074】
各トークンの埋め込みはベクトルで表される。次にエンコーダ122はエンティティの言及に対応するトークンの埋め込みを用いてlogsumexpによりエンティティの埋め込みを取得し、すなわち、
【数30】
【0075】
ステップ508において、エンコーダ122からエンティティの埋め込みを受信する場合、分類器124は以下の式によりエンティティペアのローカルコンテキストプーリング(ローカルコンテキスト埋め込み)を計算する。
【数31】
【0076】
ステップ510において、分類器124は、エンティティ埋め込み及びローカルコンテキストプーリングを用いてエンティティの隠れ状態を計算する。具体的には、サブジェクトエンティティ及びオブジェクトエンティティを含むエンティティペアの関係予測について、エンティティの隠れ状態は以下の式により計算される。
【数32】
【0077】
ステップ512において、エンティティペアにおけるエンティティの隠れ状態を取得した後に、分類器124はグループ双線形を用いてエンティティの間のlogitを決定する。
【数33】
【0078】
ステップ514において、各関係に対応するエンティティペアの間のlogitに対して、分類器124は、決定されたlogitと該関係に対応する自己適応閾値(THクラス)のlogitとを比較し、該logitが閾値のlogit関数以上であれば、該関係が存在すると決定する。確率が閾値より小さい場合、該関係が存在しないと決定する。ドキュメントはエンティティペアの複数の言及及び複数の関係を含むことができるため、エンティティペアは一つ又は複数の決定の関係を有することができる。
【0079】
ステップ516において、分類器124は以下の式を使用して自己適応閾値に基づいて損失関数を計算する。
【数34】
【0080】
ステップ518において、損失関数をモデルにフィードバックしてエンコーダ122及び分類器124のパラメータを調整し、かつ他の回の予測を実行してモデルを最適化する。
【0081】
したがって、損失Lが小さい値に収束するまで、又は所定の反復回数に達するまで、同一のドキュメントに対してステップ506~518を反復実行する。次に、トレーニングデータ中の他のドキュメントに対してステップ502~518を実行する。いくつかの実施例において、各回のトレーニングはバッチで実行され、かつ各パッチは複数のドキュメント、例えば4つのドキュメントを含む。
【0082】
図6は、ATLOP関係抽出アプリケーションがトレーニングされた後、本開示のいくつかの実施例に係るATLOP関連抽出アプリケーションの推定過程を概略的に示す。いくつかの実施例において、推定過程は、
図1に示す計算機器110により実現される。特に注意すべきこととして、本開示において他の説明がない限り、トレーニング過程又は方法のステップは異なる順序で配列されてもよく、
図6に示すような順序に限定されない。注意すべきこととして、ATLOPのトレーニングデータとATLOPを使用して予測を行うドキュメントは同分野にあるべきである。例えば、Wikipadiaデータを使用するATLOPに対するトレーニングは文章から常識を推定することができ、生物医学データを使用するATLOPに対するトレーニングは、生物医学論文から遺伝子と疾患との関係を推定することができる。
【0083】
図6に示すように、ステップ602において、ドキュメント準備モジュール120は、予測データ132を検索し、かつ予測データ132をエンコーダ122に提供する。予測データは、ドキュメントであり、ドキュメント中のエンティティは提供されてもよく、提供されなくてもよく、かつ関係ラベルが存在しない。
【0084】
ステップ604において、各ドキュメントに対して、エンコーダ122は、例えばspaCy又はStanzaというネーミングエンティティ識別によりドキュメントからエンティティを識別し、かつドキュメントに識別されたエンティティの言及の開始及び終了に符号「*」を添加する。好ましくはエンティティ及びラベルのリストを提供し、ネーミングエンティティ識別は、必要がない。
【0085】
ステップ606において、エンコーダ122は、言及開始での符号「*」を使用して該言及を示すトークンを表し、logsumexpを用いてエンティティ埋め込みを算出し、かつ該エンティティ埋め込みを分類器124に送信する。具体的には、エンコーダ122は、BERT等の言語モデルの基本的なエンコーダ構造を有し、かつトレーニングドキュメント中の各トークンの埋め込みを取得し、即ち、
【数35】
【0086】
各トークンの埋め込みはベクトルで表される。次にエンコーダ122はエンティティの言及に対応するトークンの埋め込みを用いてlogsumexpによりエンティティの埋め込みを取得し、すなわち
【数36】
【0087】
ステップ608において、エンコーダ122からエンティティの埋め込みを受信する場合、分類器124は以下の式によりエンティティペアのローカルコンテキストプーリング(ローカルコンテキスト埋め込み)を計算する。
【数37】
【0088】
ステップ610において、分類器124は、エンティティ埋め込み及びローカルコンテキストプーリングを用いてエンティティの隠れ状態を計算する。具体的には、サブジェクトエンティティ及びオブジェクトエンティティを含むエンティティペアの関係について予測し、エンティティの隠れ状態は以下の式により計算される:
【数38】
【0089】
ステップ612において、エンティティペアにおけるエンティティの隠れ状態を取得した後に、分類器124はグループ双線形を用いてエンティティの間のlogitを決定する。
【数39】
【0090】
【0091】
ステップ616において、エンティティペアと対応関係を受信した後、機能モジュール126は機能を実行する。該機能は、例えばエンティティをノードとし、関係をエッジとして、知識グラフを構築するか又は完了する。又は問題の答案を提供し、ここで問題からエンティティを抽出しかつ該問題に関連するデータベースからエンティティペア関係を抽出する。
【0092】
いくつかの態様において、本開示は、コンピュータ実行可能なコードを記憶する非一時的なコンピュータ可読媒体に関する。いくつかの実施例において、コンピュータ実行可能なコードは上記のように記憶機器116に記憶されたソフトウェアであってもよい。コンピュータ実行可能なコードは、実行された場合に、上述した方法のいずれかを実行することができる。
【0093】
実験
データセット:行われた実験は、本開示のATLOPアプリケーションのいくつかの実施例の利点を証明する。実験に使用されたデータセットは、DocRED、CDR及びGDAを含み、
図7に表1に示すとおりである。DocRED(Yao等 2019)は、Wikipadia文章で構築された、ドキュメントレベルREのための大規模な汎用データセットである。それは、3053個の人工注釈のトレーニングドキュメントで構成される。関係を表すエンティティペアに対して、約7%のエンティティペアは、複数の関係ラベルを有する。CDR(Li等 2016)は、生物医学分野における人工的な注釈のデータセットである。それは500個のトレーニングドキュメントで構成される。タスクは、化学的及び疾患の概念の間のバイナリ相互作用を予測することである。GDA(Wu等 2019b)は、生物医学分野の大規模データセットである。それは29192編のトレーニング文章で構成される。タスクは、遺伝子と疾患の概念との間のバイナリ相互作用を予測することである。実験は、Christopoulou、Miwa及びAnaniadou(2019)に従ってトレーニングセットを80/20に分割し、それぞれトレーニングセット及び開発セットとする。
【0094】
【0095】
グローバル閾値を使用するモデルに対して、我々は{0.1、0.2、…、0.9}から閾値を検索し、かつ最大化devF1の値を選択する。全てのモデルは、いずれも1台のテスラV 100 GPUを使用してトレーニングを行う。DocREDデータセットに対して、BERT-baseエンコーダのトレーニングは約1時間45分間を必要とし、RoBERTa-largeエンコーダのトレーニングは約3時間30分間を必要とする。CDR及びGDAデータセットに対して、SciBERT-baseエンコーダのトレーニングはそれぞれ20分間及び3時間30分間を必要とする。
【0096】
主な結果:我々は、DocREDデータセットにおいてATLOPとシーケンスによるモデル、グラフに基づくモデルと変換器に基づくモデルを比較する。実験結果を
図9の表3に示す。Yao等(2019)に基づいて、我々はF
1及びIgn F
1を用いて評価する。Ign F
1はF
1スコアを表し、それはトレーニング及び開発/テストセット共有の関係事実を含まない。
【0097】
シーケンスに基づくモデルである。これらのモデルはCNN(Goodfellow、Bengio及びCourville 2015)及び双方向LSTM(Schuster及びPaliwal 1997)などのニューラルアーキテクチャを用いてドキュメント全体を符号化し、その後にエンティティ埋め込みを取得し、かつ双線形関数を用いて各エンティティペアの関係を予測する。
【0098】
グラフに基づくモデルである。これらのモデルはドキュメントの潜在的なグラフ構造を学習することによりドキュメントグラフを構築し、かつグラフ畳み込みネットワークを用いて推論(Kipf及びWelling 2017)を行う。我々は二つの最も先進的なグラフに基づくモデル、すなわちAGGCN(Guo、Zhang及びLu 2019)及びLSR(Nan等 2020)を組み込み、比較に用いられる。AGGCNの結果は、Nan等(2020)の再実施により得られる。
【0099】
変換器に基づくモデルである。これらのモデルはグラフ構造を使用しない場合に事前トレーニングされた言語モデルをドキュメントレベルREに適応することができる。これらは、さらに、パイプラインモデル(BERT-TS(Wang等 2019a))、階層モデル(HIN-BERT(Tang等 20a))及び事前トレーニング方法(Coref BERT及びCorefRoBERTa(Ye等 2020))に分けることができる。我々はさらに比較においてBERTベースライン(Wang等 2019a)を組み込む。
【0100】
我々は、我々が改めて実施するBERTベースラインで得られた結果はWangら(2019a)より明らかに優れ、かつ最も先進的なRNNに基づくモデルBiLSTM LSRよりも1.2%高い。これは、事前トレーニングされた言語モデルがグラフ構造を明示的に使用しない場合にエンティティ間の遠隔依存関係をキャプチャすることができることを示す。他の技術を統合した後、我々の強化型ベースラインBERT-EBASEは58.52%のF1スコアを取得し、それは現在最も先進的なモデルBERT-LSRBASEに近い。我々のBERT-ATLOPBASEモデルはさらにBERT-EBASEの表現を2.6%向上させ、提案された二種の新しい技術の有効性を証明する。RoBERTa-largeをエンコーダとし、我々のALTOPモデルは63.40%のF1スコアを取得し、これはDocRED上の新たな最も先進的な結果である。2020年9月9日までに、我々はColabランキングリスト5に第一順位付けを行う。
【0101】
生物医学データセットの結果:二つの生物医学データセットの実験結果は
図10の表4に示すとおりである。Verga、Strubell及びMcCallum(2018)及びNguyen及びVerspoll(2018)はいずれもシーケンスに基づくモデルであり、それはそれぞれ自己アテンションネットワーク及びCNNをエンコーダとして使用する。Christopoulou、Miwa及びAnaniadou(2019)及びNanら(2020)はグラフに基づくモデルを使用し、ヒューリスティック又は構造化アテンションによりドキュメントグラフを構築し、かつグラフニューラルネットワークを用いて推論する。知られているように、変換器に基づく事前トレーニングの言語モデルは生物医学分野のドキュメントレベルREデータセットに適用されていない。実験において、我々はSciBERT
BASEでエンコーダを代替し、SciBERT
BASEは科学的な出版物の多分野コーパスで事前トレーニングされる。SciBERT
BASEのベースラインは既に全ての従来の方法より優れる。我々のSciBERTATLOP
BASEモデルはさらにCDR及びGDAのF
1スコアをそれぞれ4.3%及び1.4%向上させ、かつこの二つのデータセットに新たな最も先進的な結果を生成する。
【0102】
アブレーション研究:我々が提供する技術の有効性を証明するために、我々はコンポーネントを一つずつオフにすることにより、ATLOP及び強化ベースラインに対して二組のアブレーション研究を行う。
図11中の表5に示すように、我々は、全てのコンポーネントがモデル表現に役立つことを観察する。自己適応閾値及びローカルコンテキストプーリングはモデル表現に対して同様に重要であり、ATLOPから取り除く時、devF
1スコアをそれぞれ0.89%及び0.97%低下させる。注意すべきこととして、自己適応閾値は、自己適応閾値損失最適化モデルを使用する時のみに効果的である。自己適応閾値をバイナリ交差エントロピートレーニングのモデルに適用し、得られたdevF
1は41.74%である。
【0103】
我々の強化ベースラインモデルBERT-EBASEに対して、グループ双線形及びlogsumexpプーリングはいずれもdevF1が約1%増加することをもたらす。我々はエンティティマークの改善が小さい(devF1では0.24%である)ことを発見するが、依然としてモデルに該技術を使用し、それにより言及埋め込み及び言及レベルアテンションの導出がより容易になるからである。
【0104】
閾値分析:グローバル閾値は、モデル信頼度の異なる種類又は実例における変化を考慮せず、それにより準最適な表現を生成する。面白い問題は、我々が異なる種類の異なる閾値を調整することによりグローバル閾値を改善することができるか否かを判断することである。したがって、我々は循環最適化アルゴリズム(Fan及びLin 2007)を用いてクラスに依存する閾値を調整してDocRED開発セットのF
1スコアを最大化することを試みる。結果を
図12の表6に示す。我々は、各クラスの閾値を使用してdevF
1スコアを61.73%に向上させ、さらに自己適応閾値の結果より大きいことを発見する。しかしながら、該ゲインはテストセットに移行しない。各クラスの閾値の結果は、さらに、グローバル閾値の結果よりも悪い。我々の自己適応閾値技術はテストセットに自動的に普及できる学習可能な閾値を使用した。
【0105】
コンテキストプーリング分析:我々のローカルコンテキストプーリング(LOP)技術がマルチエンティティ問題を解決することを表明するために、我々はDocRED開発セットにおけるドキュメントをエンティティの数に応じて異なるグループに分割し、かつ各グループでローカルコンテキストプーリングを使用して又はローカルコンテキストプーリングを使用せずにトレーニングされたモデルを評価する。実験結果を
図13に示す。我々が観察されるように、二つのモデルに対して、ドキュメントがより多くエンティティを含む場合、それらの表現がより悪くなる。ドキュメントが少ないエンティティ(1-5個)を含む限り、そうでなければLOP付きのモデルは常にLOPのないモデルより優れ、エンティティの数が増加する場合、このような改善はますます大きくなる。しかしながら、1-5個のエンティティのみを含むドキュメントの数が非常に少なく(開発セットに4つあり)、DocRED中のドキュメント平均は19個のエンティティを含む。したがって、我々のローカルコンテキストプーリングは依然としてF
1の総合的なスコアを顕著に向上させる。これにより、ローカルコンテキストプーリング技術はエンティティペアの関連コンテキストをキャプチャすることができ、それによりマルチエンティティ問題を解決する。
【0106】
我々はさらに
図2に例示したコンテキスト重みを可視化する。
図14に示すように、我々のローカルコンテキストプーリングは出生及び死亡に高い重みを付与し、これは二つのエンティティ(ジョン・ステーニストリート、ベンディゴ)に最も関連する。この二つのトークンもそれぞれ出生地と死亡地の二つの基準関係の証拠である。政治家を選挙することのようなトークンの重みは非常に小さく、それらはサブジェクトエンティティであるジョン・ステーニストリートのみに関連するためである。可視化は、ローカルコンテキストがこの二つのエンティティに関連するコンテキストを位置決めすることができることを示す。
【0107】
要するに、本開示のいくつかの実施例は、ドキュメントレベル関係抽出のためのATLOPモデルを提供し、該モデルは、少なくとも、自己適応閾値及びローカルコンテキストプーリングという二種の新規な技術を有する。自己適応閾値技術は、マルチラベル分類におけるグローバル閾値を学習可能な閾値クラスに置き換え、該学習可能な閾値クラスは、各エンティティペアの最適な閾値を決定することができる。ローカルコンテキストプーリングは、事前トレーニングのアテンションヘッドを利用してエンティティペアの関連コンテキストを位置決めし、それによりマルチエンティティ問題を解決することに役立つ。三つの共通ドキュメントレベル関係からデータセットを抽出する実験により、我々のATLOPモデルは従来のモデルより顕著に優れ、かつ全てのデータセットに新たな最も先進的な結果を生成する。
【0108】
ATLOPモデルは、例えば知識グラフ構築、情報照会、質問応答及び対話システムという多くの他のNLPタスクの下流アプリケーションを有する。
【0109】
本開示の例示的な実施例の前述の記述は、説明及び記述の目的のみで示され、網羅的であるか又は本開示を開示された正確な形式に限定するものではない。上記教示によれば、多くの修正及び変更を行うことができる。
【0110】
実施例を選択して説明することは、本開示の原理及びその実際の応用を説明するためのものであり、当業者が本開示及び様々な実施例を利用し、かつ想定される特定の用途に応じて様々な修正を行うことができることである。本開示の精神及び範囲から逸脱することなく、代替実施例が当業者にとって明らかになる。したがって、本開示の範囲は上記説明及び説明した例示的な実施例によって限定されるものではなく、添付の特許請求の範囲によって限定される。