特許7584642 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京沃▲東▼天▲駿▼信息技▲術▼有限公司の特許一覧 ▶ 京東美国科技公司の特許一覧

特許7584642自己適応閾値及びローカルコンテキストプーリングを用いて関係抽出を行うシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-07

(45)【発行日】2024-11-15

(54)【発明の名称】自己適応閾値及びローカルコンテキストプーリングを用いて関係抽出を行うシステム及び方法

(51)【国際特許分類】

G06F 40/279 20200101AFI20241108BHJP

G06F 40/216 20200101ALI20241108BHJP

G06N 3/0455 20230101ALI20241108BHJP

G06N 3/0475 20230101ALI20241108BHJP

G06N 3/04 20230101ALI20241108BHJP

G06N 3/09 20230101ALI20241108BHJP

G06F 18/214 20230101ALI20241108BHJP

【ＦＩ】

G06F40/279

G06F40/216

G06N3/0455

G06N3/0475

G06N3/04 100

G06N3/09

G06F18/214

【請求項の数】 20

(21)【出願番号】P 2023521628

(86)(22)【出願日】2021-09-27

(65)【公表番号】

(43)【公表日】2023-11-08

(86)【国際出願番号】 CN2021121006

(87)【国際公開番号】W WO2022083423

(87)【国際公開日】2022-04-28

【審査請求日】2023-04-20

(31)【優先権主張番号】17/076,014

(32)【優先日】2020-10-21

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】522380893

【氏名又は名称】北京沃▲東▼天▲駿▼信息技▲術▼有限公司

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＷｏｄｏｎｇＴｉａｎｊｕｎＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】ＲｏｏｍＡ４０２，４／ｆ，Ｎｏ．２Ｂｕｉｌｄｉｎｇ，Ｎｏ．１８Ｋｅｃｈｕａｎｇ１１ｔｈＳｔｒｅｅｔ，ＥｃｏｎｏｍｉｃａｎｄＴｅｃｈｎｏｌｏｇｉｃａｌＤｅｖｅｌｏｐｍｅｎｔＺｏｎｅ，Ｂｅｉｊｉｎｇ１００１７６，Ｃｈｉｎａ

(73)【特許権者】

【識別番号】521108663

【氏名又は名称】ジェイ・ディー・ドット・コムアメリカンテクノロジーズコーポレーション

【氏名又は名称原語表記】ＪＤ．ｃｏｍＡｍｅｒｉｃａｎＴｅｃｈｎｏｌｏｇｉｅｓＣｏｒｐｏｒａｔｉｏｎ

【住所又は居所原語表記】６７５ＥＭｉｄｄｌｅｆｉｅｌｄＲｄ，ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡ９４０４３，ＵＳＡ

(74)【代理人】

【識別番号】110001771

【氏名又は名称】弁理士法人虎ノ門知的財産事務所

(72)【発明者】

【氏名】ジョウウェンシュエン

(72)【発明者】

【氏名】ホアンケビン

(72)【発明者】

【氏名】ホアンジン

【審査官】齊藤貴孝

(56)【参考文献】

【文献】中国特許出願公開第１１００５９３２０（ＣＮ，Ａ）

【文献】特開２０１８－０６０３６４（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／０１５７６４３（ＵＳ，Ａ１）

【文献】肥合智史、外４名，複数の事前学習モデルを併用した化学分野の関係抽出，言語処理学会第２６回年次大会発表論文集［ｏｎｌｉｎｅ］，日本，言語処理学会，2020年05月18日，ｐ．１０４９－１０５２

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／００－４０／５８

Ｇ０６Ｎ３／００－３／１２６

Ｇ０６Ｆ１８／００－１８／４０

(57)【特許請求の範囲】

【請求項1】

計算機器を含み、前記計算機器は、プロセッサ及びコンピュータ実行可能なコードを記憶する記憶機器を含み、ここで、前記コンピュータ実行可能なコードは、前記プロセッサで実行される時に、
ドキュメントを提供し、
前記ドキュメントにおける複数のエンティティを複数の埋め込みベクトルに埋め込み、
第一埋め込みベクトルと第二埋め込みベクトルに基づいて前記ドキュメントにおける第一エンティティと前記ドキュメントにおける第二エンティティとの間の複数の関係のうちの一つの関係を予測し、前記複数の埋め込みベクトルにおける前記第一埋め込みベクトルは前記第一エンティティを表し、前記複数の埋め込みベクトルにおける前記第二埋め込みベクトルは前記第二エンティティを表すように構成され、
ここで、前記コンピュータ実行可能なコードは、前記計算機器に記憶された言語モデルを用いて埋め込み及び予測を行うように構成され、前記複数の関係における各関係はいずれも自己適応閾値を有し、前記複数の関係のうちの前記一つの関係に対して、前記関係のｌｏｇｉｔが前記複数の関係の前記自己適応閾値のうちの対応する一つの自己適応閾値のｌｏｇｉｔ関数より大きい場合、前記関係が存在すると決定する
システム。

【請求項2】

前記コンピュータ実行可能なコードは、ＬｏｇＳｕｍＥｘｐＬＳＥを用いて前記複数のエンティティのうちの各エンティティの少なくとも一回の言及された少なくとも一つの隠れ表示をまとめて前記複数のエンティティのうちの各エンティティを埋め込むように構成される
請求項１に記載のシステム。

【請求項3】

前記コンピュータ実行可能なコードは、以下の式を用いて前記複数のエンティティから選択された一つのエンティティペアのローカルコンテキストプーリングを計算することにより複数の関係のうちの一つの関係を予測するように構成され、

【数1】

請求項１に記載のシステム。

【請求項4】

前記サブジェクトエンティティ及び前記オブジェクトエンティティの隠れ状態は

【数2】

請求項３に記載のシステム。

【請求項5】

コンピュータ実行可能なコードは、以下の式を用いて前記サブジェクトエンティティと前記オブジェクトエンティティとの間の関係を予測するように構成され、

【数3】

請求項４に記載のシステム。

【請求項6】

【数4】

請求項５に記載のシステム。

【請求項7】

前記言語モデルは、変換器からの双方向エンコーダ表示ＢＥＲＴ、ロバスト最適化ＢＥＲＴ方法ｒｏＢＥＲＴａ、ＳｃｉＢＥＲＴ、生成事前トレーニングモデルＧＰＴ、ＧＰＴ－２、及び再パラメトリック変換器ＸＬネットワークＸＬｎｅｔの少なくとも一つを含む
請求項１に記載のシステム。

【請求項8】

前記言語モデルをトレーニングするための損失関数は以下の式で決定される：

【数5】

請求項７に記載のシステム。

【請求項9】

前記コンピュータ実行可能なコードは、さらに前記第一エンティティ、前記第二エンティティ及び前記第一エンティティと前記第二エンティティとの間の前記複数の関係における予測された関係を用いて知識グラフを構築するように構成される
請求項１に記載のシステム。

【請求項10】

問題が前記第一エンティティ及び前記第二エンティティを含み、かつ前記ドキュメントが前記問題による答案を含むと予定される場合、前記コンピュータ実行可能なコードは、さらに、前記複数の関係における予測された関係を用いて前記答案を形成するように構成される
請求項１に記載のシステム。

【請求項11】

プロセッサによって実行される方法であって、
計算機器によりドキュメントを提供することと、
前記計算機器により前記ドキュメントにおける複数のエンティティを複数の埋め込みベクトルに埋め込むことと、
前記計算機器により第一埋め込みベクトルと第二埋め込みベクトルに基づいて前記ドキュメントにおける第一エンティティと前記ドキュメントにおける第二エンティティとの間の複数の関係のうちの一つの関係を予測し、前記複数の埋め込みベクトルにおける前記第一埋め込みベクトルは前記第一エンティティを表し、前記複数の埋め込みベクトルにおける前記第二埋め込みベクトルは前記第二エンティティを表すことと、を含み、
ここで、前記計算機器に記憶された言語モデルにより前記埋め込み及び予測ステップを実行し、前記複数の関係のうちの各関係はいずれも自己適応閾値を有し、前記複数の関係のうちの前記一つの関係に対して、前記関係のｌｏｇｉｔが前記複数の関係の前記自己適応閾値のうちの対応する一つの自己適応閾値のｌｏｇｉｔ関数より大きい場合、前記関係が存在すると決定する
方法。

【請求項12】

ＬｏｇＳｕｍＥｘｐＬＳＥを用いて前記複数のエンティティのうちの各エンティティの少なくとも一回の言及された少なくとも一つの隠れ表示をまとめて前記複数のエンティティのうちの各エンティティを埋め込むステップを実行する
請求項１１に記載の方法。

【請求項13】

前記予測ステップは、以下の式を用いて前記複数のエンティティから選択された一つのエンティティペアのローカルコンテキストプーリングを計算することを含み、

【数6】

請求項１１に記載の方法。

【請求項14】

前記サブジェクトエンティティ及び前記オブジェクトエンティティの隠れ状態は以下の式で決定され、

【数7】

請求項１３に記載の方法。

【請求項15】

以下の式を用いて前記サブジェクトエンティティと前記オブジェクトエンティティとの間の関係を予測するステップを実行し、

【数8】

請求項１４に記載の方法。

【請求項16】

前記言語モデルは変換器からの双方向エンコーダ表示ＢＥＲＴ又はＳｃｉＢＥＲＴを含み、前記言語モデルをトレーニングするための損失関数は以下の式で決定され、

【数9】

請求項１５に記載の方法。

【請求項17】

前記第一エンティティ、前記第二エンティティ及び前記第一エンティティと前記第二エンティティとの間の前記複数の関係における予測された関係を用いて知識グラフを構築すること、又は
問題が前記第一エンティティ及び前記第二エンティティを含み、かつ前記ドキュメントが前記問題による答案を含むと予定される場合、前記複数の関係における予測された関係を用いて前記答案を形成することをさらに含む
請求項１１に記載の方法。

【請求項18】

コンピュータ実行可能なコードを記憶する非一時的なコンピュータ可読媒体であって、前記コンピュータ実行可能なコードは、アクティブ計算機器のプロセッサで実行される時に、
ドキュメントを提供し、
前記ドキュメントにおける複数のエンティティを複数の埋め込みベクトルに埋め込み、
第一埋め込みベクトルと第二埋め込みベクトルに基づいて前記ドキュメントにおける第一エンティティと前記ドキュメントにおける第二エンティティとの間の複数の関係のうちの一つの関係を予測し、前記複数の埋め込みベクトルにおける前記第一埋め込みベクトルは前記第一エンティティを表し、前記複数の埋め込みベクトルにおける前記第二埋め込みベクトルは前記第二エンティティを表すように構成され、
ここで、前記コンピュータ実行可能なコードは、前記非一時的なコンピュータ可読媒体に記憶された言語モデルを用いて埋め込み及び予測を行うように構成され、前記複数の関係における各関係はいずれも自己適応閾値を有し、前記複数の関係のうちの前記一つの関係に対して、前記関係のｌｏｇｉｔが前記複数の関係の前記自己適応閾値のうちの対応する一つの自己適応閾値のｌｏｇｉｔ関数より大きい場合、前記関係が存在すると決定する
非一時的なコンピュータ可読媒体。

【請求項19】

前記コンピュータ実行可能なコードは、以下の式を用いて前記複数のエンティティから選択された一つのエンティティペアのローカルコンテキストプーリングを計算することにより前記複数の関係のうちの一つの関係を予測するように構成され、

【数10】

ここで、前記サブジェクトエンティティ及び前記オブジェクトエンティティの隠れ状態は以下の式で決定され、

【数11】

ここで、前記コンピュータ実行可能なコードは、以下の式を用いて前記サブジェクトエンティティと前記オブジェクトエンティティとの間の関係を予測するように構成され、

【数12】

請求項１８に記載の非一時的なコンピュータ可読媒体。

【請求項20】

前記言語モデルは変換器からの双方向エンコーダ表示ＢＥＲＴを含み、前記言語モデルをトレーニングするための損失関数は、

【数13】

請求項１８に記載の非一時的なコンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

［クロス引用］
本願は、２０２０年１０月２１日に提出された米国特許出願第１７／０７６０１４号の優先権を要求し、その引用方式は全て本明細書に組み込まれる。
本開示の説明において、いくつかの参照文献を引用して説明し、特許、特許出願及び様々な排版物を含む可能性がある。このような参照文献の引用及び／又は検討は、本開示を説明するだけに用いられており、いかなるこのような参照文献が本明細書に開示された「従来の技術」であると認められない。本明細書において引用及び検討された全ての参照文献は全体を引用して本明細書に組み込まれ、かつ各参照文献が引用することにより単独に組み込まれた程度と同じである。

【0002】

本開示は全体的に関係抽出に関し、具体的には、自己適応閾値及びローカルコンテキストプーリングを用いる関係抽出に関する。

【背景技術】

【0003】

本明細書が提供する背景説明は、本開示のコンテキストを全体的に示すためである。本背景技術の説明範囲内に、現在の署名の発明者の仕事、及び出願時に従来技術に適合しない説明ことは、いずれも本開示に対する従来の技術であると明示的又は暗示的に認められない。

【0004】

関係抽出（ＲｅｌａｔｉｏｎＥｘｔｒａｃｔｉｏｎ、ＲＥ）は、自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）のうちの一つの重要なタスクであり、純粋なテキストにおけるエンティティペアの間の関係を抽出する。関係は、センテンス又はドキュメントから抽出することができる。センテンスレベルＲＥと比較して、ドキュメントレベルＲＥは、新たな挑戦を提供し、一つのドキュメントは一般的に複数のエンティティペアを含み、かつ一つのエンティティペアは複数の可能な関係又は複数のラベルに関連するドキュメントに複数回出現する可能性がある。

【0005】

該マルチエンティティの問題を解決するために、現在の大部分の方法はいずれも依存構造、ヒューリスティック又は構造化アテンションを用いてドキュメントグラフを構築し、次にグラフニューラルモデルを使用して推論する。構築されたグラフはドキュメントにおける遠いエンティティを接続し、それによりＲＮＮに基づくエンコーダが遠隔情報をキャプチャするときの不足を解決する。しかしながら、変換器に基づくモデルは遠隔依存関係を暗示的にモデル化することができるため、グラフ構造がまだ事前トレーニングの言語モデル、例えばＢＥＲＴに寄与するか否かを明らかにしない。また、グラフ構造を導入せず、事前トレーニングの言語モデルをそのまま適用する方法もある。それらはエンティティトークンの埋め込みを簡単に平均してエンティティ埋め込みを取得し、かつそれを分類器に入力して関係ラベルを取得する。しかしながら、各エンティティは異なるエンティティペアにおいて同じ表示を有し、これはコンテキストに関連しないノイズをもたらす可能性がある。

【発明の概要】

【発明が解決しようとする課題】

【0006】

したがって、本分野においてドキュメントレベル関係抽出におけるマルチエンティティ、マルチラベル問題を解決する必要がある。

【課題を解決するための手段】

【0007】

いくつかの態様において、本開示は、自己適応閾値及びローカルコンテキストプーリングという二種類の新規な技術を提供し、マルチラベル及びマルチエンティティの問題を解決する。自己適応閾値は、学習可能なエンティティに依存する閾値で従来の動作におけるマルチラベル分類に用いられるグローバル閾値に代わる。ローカルコンテキストプーリングは事前トレーニングされた言語モデルからアテンションを移転して関係を確定することに役立つ関連するコンテキストを位置決めする。

【0008】

具体的には、本開示は、グラフ構造を導入するものではなく、ローカルコンテキストプーリングプーリング技術を提供する。ローカルコンテキストプーリングは全てのエンティティペアが同じエンティティ埋め込みを使用する問題を解決する。それは、現在のエンティティペアに関連する付加的なコンテキストを使用してエンティティ埋め込みを強化する。本開示は、最初から新たなコンテキストアテンション層をトレーニングする必要がなく、直接的に事前トレーニングされた言語モデルからアテンションヘッドを移転してエンティティレベルアテンションを取得する。次に、一のペアの二つのエンティティについて、本開示は乗算によりそれらのアテンションを統合することにより、双方に重要なコンテキストを見つける。

【0009】

マルチラベル問題に対して、従来の方法は、それをバイナリ分類問題に簡略化する。トレーニングした後、グローバル閾値をクラス確率に適用して関係ラベルを取得する。該方法は、ヒューリスティック閾値の調整に関し、かつ開発データにおいて調整された閾値が全ての実例の最適閾値ではない場合に決定エラーを導入する。これに対して、本開示は自己適応閾値技術を提供し、該技術は、学習可能な閾値クラスでグローバル閾値に代わる。閾値クラスは、自己適応閾値損失により学習される。該自己適応閾値損失は、ランキングに基づく損失であり、それはモデルトレーニングにおいて正クラスのｌｏｇｉｔ（ロジスティック回帰）を閾値の上に押し、負クラスのｌｏｇｉｔを閾値の下に引く。テストする時に、本開示は、閾値クラスより高いｌｏｇｉｔのクラスを予測ラベルとして返し、又は該クラスが存在しなければＮＡを返す。該技術は、閾値調整の需要を除去し、かつ異なるエンティティに基づいて閾値を調整することができ、それによりより良好な結果を得る。

【0010】

自己適応閾値とローカルコンテキストプーリングを結合することにより、本開示は、簡単かつ新規かつ効果的な関係抽出モデルを提供し、事前トレーニングされた言語モデルの能力を十分に利用するようにＡＴＬＯＰ（ＡｄａｐｔｉｖｅＴｈｒｅｓｈｏｌｄｉｎｇａｎｄＬｏｃａｌｉｚｅｄｃＯｎｔｅｘｔＰｏｏｌｉｎg、自己適応閾値及びローカルコンテキストプーリング）と呼ばれる。該モデルは、ドキュメントレベルＲＥ中のマルチラベル及びマルチエンティティ問題を解決する。ＤｏｃＲＥＤ、ＣＤＲ及びＧＤＡの三つのドキュメントレベル関係に対してデータセットを抽出する実験により、ＡＴＬＯＰモデルが最も先進的な方法より顕著に優れる。ＤｏｃＲＥＤはＷｉｋｉｐａｄｉａ及びＷｉｋｉｐａｄｉａデータで構築された大規模ドキュメントレベル関係抽出データセットであり、ＣＤＲは化学疾患関係のデータセットであり、ＧＤＡは遺伝子疾患に関連するデータセットである。

【0011】

いくつかの態様において、本開示はシステムに関する。いくつかの実施例において、該システムは計算機器を含み、前記計算機器は、プロセッサ及びコンピュータ実行可能なコードを記憶する記憶機器を含む。前記コンピュータ実行可能なコードは、前記プロセッサで実行される時に、
ドキュメントを提供し、
前記ドキュメントにおける複数のエンティティを複数の埋め込みベクトルに埋め込み、
第一埋め込みベクトルと第二埋め込みベクトルに基づいて前記ドキュメントにおける第一エンティティと前記ドキュメントにおける第二エンティティとの間の複数の関係のうちの一つの関係を予測し、前記複数の埋め込みベクトルにおける前記第一埋め込みベクトルは前記第一エンティティを表し、前記複数の埋め込みベクトルにおける前記第二埋め込みベクトルは前記第二エンティティを表すように構成され、
ここで、前記コンピュータ実行可能なコードは、前記計算機器に記憶された言語モデルを用いて埋め込み及び予測を行うように構成され、前記複数の関係における各関係はいずれも自己適応閾値を有し、前記複数の関係のうちの前記一つの関係に対して、前記関係のｌｏｇｉｔが前記複数の関係の前記自己適応閾値のうちの対応する一つの自己適応閾値のｌｏｇｉｔ関数より大きい場合、前記関係が存在すると決定する。

【0012】

いくつかの実施例において、前記コンピュータ実行可能なコードは、ＬｏｇＳｕｍＥｘｐＬＳＥを用いて前記複数のエンティティのうちの各エンティティの少なくとも一回の言及された少なくとも一つの隠れ表示をまとめて前記複数のエンティティのうちの各エンティティを埋め込むように構成される。

【0013】

いくつかの実施例において、前記コンピュータ実行可能なコードは、以下の式を用いて前記複数のエンティティから選択された一つのエンティティペアのローカルコンテキストプーリングを計算することにより複数の関係のうちの一つの関係を予測するように構成され、

【数1】

【0014】

いくつかの実施例において、前記サブジェクトエンティティ及び前記オブジェクトエンティティの隠れ状態は以下の式で決定され、

【数2】

【0015】

いくつかの実施例において、コンピュータ実行可能なコードは、以下の式を用いて前記サブジェクトエンティティと前記オブジェクトエンティティとの間の関係を予測するように構成され、

【数3】

【0016】

【数4】

【0017】

いくつかの実施例において、前記言語モデルは、変換器からの双方向エンコーダ表示ＢＥＲＴ、ロバスト最適化ＢＥＲＴ方法ｒｏＢＥＲＴａ、ＳｃｉＢＥＲＴ、生成事前トレーニングモデルＧＰＴ、ＧＰＴ－２、及び再パラメトリック変換器ＸＬネットワークＸＬｎｅｔの少なくとも一つを含む。

【0018】

いくつかの実施例において、前記言語モデルは、ＢＥＲＴに基づく構造を有し、前記言語モデルをトレーニングするための損失関数は以下の式で決定される。

【数5】

【0019】

【数6】

【0020】

いくつかの実施例において、前記コンピュータ実行可能なコードはさらに前記第一エンティティ、前記第二エンティティ及び前記第一エンティティと前記第二エンティティとの間の前記複数の関係における予測された関係を用いて知識グラフを構築するように構成される。知識グラフは、例えば、人間の知識を含む一般的な知識グラフ、ファッション製品の特徴を含むファッショングラフ、人間の遺伝子とその遺伝子に関連する人間の疾患との関係を含む遺伝子疾患グラフ、または化学物質と疾患との関係を含む化学的な疾患図であってもよい。

【0021】

いくつかの実施例において、問題が前記第一エンティティ及び前記第二エンティティを含み、かつ前記ドキュメントが前記問題による答案を含むと予定される場合、前記コンピュータ実行可能なコードは、さらに、前記複数の関係における予測された関係を用いて前記答案を形成するように構成される。

【0022】

いくつかの態様において、本開示は方法に関する。いくつかの実施例において、該方法は、
計算機器によりドキュメントを提供することと、
前記計算機器により前記ドキュメントにおける複数のエンティティを複数の埋め込みベクトルに埋め込むことと、
前記計算機器により第一埋め込みベクトルと第二埋め込みベクトルに基づいて前記ドキュメントにおける第一エンティティと前記ドキュメントにおける第二エンティティとの間の複数の関係のうちの一つの関係を予測し、前記複数の埋め込みベクトルにおける前記第一埋め込みベクトルは前記第一エンティティを表し、前記複数の埋め込みベクトルにおける前記第二埋め込みベクトルは前記第二エンティティを表すことと、を含み、
ここで、前記計算機器に記憶された言語モデルにより前記埋め込み及び予測ステップを実行し、前記複数の関係のうちの各関係はいずれも自己適応閾値を有し、前記複数の関係のうちの前記一つの関係に対して、前記関係のｌｏｇｉｔが前記複数の関係の前記自己適応閾値のうちの対応する一つの自己適応閾値のｌｏｇｉｔ関数より大きい場合、前記関係が存在すると決定する。

【0023】

いくつかの実施例において、ＬｏｇＳｕｍＥｘｐＬＳＥを用いて前記複数のエンティティのうちの各エンティティの少なくとも一回の言及された少なくとも一つの隠れ表示をまとめて前記複数のエンティティのうちの各エンティティを埋め込むステップを実行する。

【0024】

いくつかの実施例において、前記予測ステップは、以下の式を用いて前記複数のエンティティから選択された一つのエンティティペアのローカルコンテキストプーリングを計算することを含み、

【数7】

【0025】

いくつかの実施例において、前記サブジェクトエンティティ及び前記オブジェクトエンティティの隠れ状態は以下の式で決定され、

【数8】

【0026】

いくつかの実施例において、以下の式を用いて前記サブジェクトエンティティと前記オブジェクトエンティティとの間の関係を予測するステップを実行し、

【数9】

【0027】

いくつかの実施例において、前記言語モデルは変換器からの双方向エンコーダ表示ＢＥＲＴ又はＳｃｉＢＥＲＴを含み、前記言語モジュールをトレーニングするための損失関数は以下の式で決定され、

【数10】

【0028】

いくつかの実施例において、前記第一エンティティ、前記第二エンティティ及び前記第一エンティティと前記第二エンティティとの間の前記複数の関係における予測された関係を用いて知識グラフを構築することをさらに含む。

【0029】

いくつかの実施例において、問題が前記第一エンティティ及び前記第二エンティティを含み、かつ前記ドキュメントが前記問題による答案を含むと予定される場合、この方法は、さらに前記複数の関係における予測された関係を用いて前記答案を形成することを含む。

【0030】

いくつかの態様において、本開示はコンピュータ実行可能なコードを記憶する非一時的なコンピュータ可読媒体に関する。前記コンピュータ実行可能なコードは、計算機器のプロセッサで実行される場合に、上述した方法を実行するように構成されている。

【0031】

以下の図面及びその説明から好ましい実施例に対する説明において、本開示のこれら及び他の態様は明らかになり、そのうちの変化及び修正は本開示の新規な概念の精神及び範囲から逸脱しない場合に影響を受ける。

【図面の簡単な説明】

【0032】

添付図面は、本開示の一つ又は複数の実施例を示し、かつ書面の説明と共に本開示の原理を説明する。可能な場合に、図面全体において同じ参照符号を使用して実施例の同一又は類似の要素を示す。

【図1】図１は、本開示のいくつかの実施例に係る自己適応閾値及びローカルコンテキストプーリング（ＡＴＬＯＰ）システムを概略的に示す。

【図2】図２は、ＤｏｃＲＥＤデータセットからの例を概略的に示す。

【図3】図３は、本開示のいくつかの実施例に係る自己適応閾値損失を概略的に示す。

【図4】図４は、本開示のいくつかの実施例に係るローカルコンテキストプーリングを概略的に示す。

【図5】図５は、本開示のいくつかの実施例に係るＡＴＬＯＰ関係抽出アプリケーションのトレーニング過程を概略的に示す。

【図6】図６は、本開示のいくつかの実施例に係るＡＴＬＯＰ関係抽出アプリケーションの推定過程を概略的に示す。

【図7】図７において、表１は、実験におけるデータセットの統計を示し、ここでＥｎｔ．、Ｍｅｎｔ．及びＤｏｃ．はそれぞれエンティティ、言及及びドキュメントの略語である。

【図8】図８において、表２は、本開示のいくつかの実施例に係るＡＴＬＯＰアプリケーションのハイパーパラメータを示す。

【図9】図９において、表３は、ＤｏｃＲＥＤの開発とテストセットの結果を示す。この表は、異なるランダムシードを用いて５回のトレーニングを行って開発セットにおけるＦ_１の平均値及び標準偏差を報告する。この表は、開発セットにおける最適なチェックポイントのオフィシャルテストスコアを報告する。

【図10】図１０において、表４は、ＣＤＲとＧＤＡデータセットにおけるテストＦ_１スコア（％で計算）を示す。この表は、異なるランダムシードを用いて５回のトレーニングを行ってテストセットにおけるＦ_１の平均値および標準偏差を報告する。

【図11】図１１において、表５は、ＤｏｃＲＥＤにおけるＡＴＬＯＰのアブレーション（ablation）検討を示す。われわれは、１つのモデルの異なるコンポーネントを一回に閉じる。我々は、異なるシードを用いて５回のトレーニングを行って平均ｄｅｖＦ_１スコアを報告する。

【図12】図１２において、表６は、ＤｏｃＲＥＤにおける異なる閾値ポリシーの結果を示す。我々の自己適応閾値は、テストセットにおいて常に他のポリシーより優れる。

【図13】図１３は、ＤｏｃＲＥＤにおける異なる数のエンティティを有するドキュメントのｄｅｖＦ_１スコアを示す。エンティティの数が５より大きい場合、我々のローカルセキュリティコンテキストは、より良好な結果を得ることができる。エンティティの数が増加する場合、このような改善はより顕著である。

【図14】図１４は、本開示のいくつかの実施例に係るローカルコンテキストプーリングを用いた図２における例示のコンテキスト重みを示す。

【発明を実施するための形態】

【0033】

本開示は、以下の実施例においてより具体的に説明され、これらの例は単に説明するために用いられ、そのうちの多くの修正及び変更は当業者にとって自明である。以下、本開示の書く実施例を詳細に説明する。図面を参照して、全ての図面において、同じ数字は同じ部材を示す。本明細書の説明及びその後の特許請求の範囲に使用されるように、コンテキストが明確に規定されない限り、「一」、「一つ」及び「前記」の記載は複数個を含む。また、本明細書の説明及びその後の請求項に使用されるように、コンテキストが明確に規定されない限り、「…中」の意味は「…中」及び「…上」を含む。また、読者の便宜上、明細書にタイトル又はサブタイトルを使用することができ、これは本開示の範囲に影響を与えない。また、本明細書で使用されるいくつかの用語は、以下により具体的な定義を有する。

【0034】

本開示のコンテキスト及び各用語を使用する特定のコンテキストにおいて、本明細書で使用される用語は、一般的にそれらの本分野における一般的な意味を有する。本開示のいくつかの用語の以下又は明細書における他の部分の議論を説明することにより、事業者へ本開示の説明に関連する付加的な指導を提供する。理解できるように、同様のことは、一つ以上の方式で表現することができる。したがって、代替言語及び同義語は、本明細書に記載されたいずれか一つ又は複数の用語に用いることができ、用語が本明細書に詳細に説明されるか又は議論されるか否かはいかなる特殊な意味もない。本明細書における任意の箇所の例示的な使用は、本明細書に記載されたいかなる用語の例示を含み、説明的なものだけであり、本開示又はいかなる例示的用語の範囲及び意味を限定するものではない。同様に、本開示は本明細書に示された様々な実施例に限定されない。

【0035】

本明細書に記載のように、用語「モジュール」は、専用集積回路（ＡＳＩＣ、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、電子線路、組み合わせ論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、コードを実行するプロセッサ（共有、専用、又はグループ）、説明機能を提供する他の適切なハードウェアコンポーネント、又は例えばオンチップシステムという上記一部又は全ての組み合わせに属するか又は含むことを示すことができる。用語モジュールはプロセッサにより実行されたコードを記憶するメモリ（共有、専用又はグループ）を含むことができる。

【0036】

本明細書に記載のように、用語「コード」は、ソフトウェア、ファームウェア及び／又はマイクロコードを含むことができ、かつプログラム、ルーチン、関数、クラス及び／又はオブジェクトを指すことができる。上記に使用された用語「共有」とは、複数のモジュールからの一部又は全部のコードを単一（共有）のプロセッサを用いて実行することができることを意味する。また、複数のモジュールからの一部又は全てのコードを単一（共有）のメモリに記憶することができる。上記のような用語のグループとは、一組のプロセッサを用いて単一のモジュールからの一部又は全部のコードを実行することができることを意味する。また、一組のメモリを使用して単一のモジュールからの一部又は全てのコードを記憶することができる。

【0037】

本明細書に記載のように、用語「インタフェース」は一般的にはコンポーネントの間の対話ポイントでコンポーネントの間のデータ通信を実行するための通信ツール又は装置である。一般的には、インタフェースは、ハードウェアとソフトウェアレベルにいずれも適用することができ、単方向又は双方向インタフェースであってもよい。物理的なハードウェアインタフェースとしては、例えば、電気コネクタ、バス、ポート、ケーブル、端子、その他のI／Ｏ機器又はコンポーネント等が挙げられる。インタフェースと通信するコンポーネントは、例えばコンピュータシステムの複数のコンポーネントや周辺機器であってもよい。

【0038】

本開示は、コンピュータシステムに関する。図面に示すように、コンピュータコンポーネントは、実線ブロックとして表示される物理的ハードウェアコンポーネントと、破線ブロックとして表示される仮想ソフトウェアコンポーネントと、を含むことができる。当業者であれば理解されるように、特に説明しない限り、これらのコンピュータコンポーネントは、ソフトウェア、ファームウェア又はハードウェアコンポーネント又はそれらの組み合わせの形式で実現することができるが、これらの形式に限定されない。

【0039】

本明細書に記載の装置、システム及び方法は、一つ又は複数のプロセッサにより実行される一つ又は複数のコンピュータプログラムにより実現することができる。コンピュータプログラムは、非一時的な有形のコンピュータ可読媒体に格納されたプロセッサ実行可能な命令を含む。コンピュータプログラムは、記憶されたデータをさらに含んでもよい。非一時的な有形のコンピュータ可読媒体の非限定的な例示は、不揮発性メモリ、磁気メモリ及び光メモリである。

【0040】

以下、図面を参照しながら本開示をより全面的に説明し、ここで本開示の実施例を示す。しかしながら、本開示は、多くの異なる形態で体現することができかつ本明細書に説明された実施例に限定して解釈されるべきではない。逆に、これらの実施例を提供することは、本開示を徹底且つ完全にし、かつ本開示の範囲を当業者に十分に伝えるためである。

【0041】

図１は、本開示のいくつかの実施例に係る自己適応閾値及びローカルコンテキストプーリング（ＡＴＬＯＰ）システムを概略的に示す。図１に示すように、システム１００は、計算機器１１０を含む。いくつかの実施例において、計算機器１１０は、関係予測及び証拠予測を提供するサーバコンピュータ、クラスタ、クラウドコンピュータ、汎用コンピュータ、ヘッドなしコンピュータ又は専用コンピュータであってもよい。計算機器１１０は、プロセッサ１１２、メモリ１１４及び記憶機器１１６を含むがそれらに限定されない。いくつかの実施例において、計算機器１１０は、他のハードウェアコンポーネント及びソフトウェアコンポーネント（図示せず）を含むことによりそれに対応するタスクを実行することができる。これらのハードウェア及びソフトウェアコンポーネントの例示としては、例えば、他に必要なメモリ、インタフェース、バス、入出力（I／Ｏ）モジュール又は機器、ネットワークインタフェース、周辺機器等を含むがこれらに限らない。

【0042】

プロセッサ１１２は、中央処理ユニット（ＣＰＵ、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってもよく、それは計算機器１１０の操作を制御するように構成される。プロセッサ１１２は、計算機器１１０のオペレーティングシステム（ＯＳ、ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）又は他のアプリケーションを実行することができる。いくつかの実施例において、計算機器１１０は、例えば二つのＣＰＵ、四つのＣＰＵ、八つのＣＰＵ又は任意の適切な数のＣＰＵなどの複数のＣＰＵをプロセッサとして有してもよい。

【0043】

メモリ１１４は、揮発性メモリであってもよく、例えばランダムアクセスメモリ（ＲＡＭ、Ｒａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ）であり、それは計算機器２１０の操作期間にデータ及び情報を記憶するために用いられる。いくつかの実施例において、メモリ１１４は、揮発性メモリアレイであってもよい。いくつかの実施例において、計算機器１１０は、複数のメモリ１１４上で動作することができる。

【0044】

記憶機器１１６は、演算装置１１０のＯＳ（図示せず）やその他のアプリケーションを記憶する不揮発性のデータ記憶媒体である。記憶機器１１６の例示は、例えばフラッシュメモリ、メモリカード、ＵＳＢドライブ、ハードディスクドライブ、フレキシブルディスク、光ディスクドライブ、ソリッドステートドライブ又は任意の他のタイプのデータ記憶機器という不揮発性メモリを含むことができる。いくつかの実施例において、計算機器１１０は、複数の記憶機器１１６を有してもよく、それらは同じ記憶機器又は異なるタイプの記憶機器であってもよく、計算機器１１０のアプリケーションは、計算機器１１０内の一つ以上の記憶機器１１６に記憶されてもよい。

【0045】

該実施例において、プロセッサ１１２、メモリ１１４及び記憶機器１１６は、計算機器１１０（例えばサーバ計算機器）のコンポーネントである。他の実施例において、計算機器１１０は配布式の計算機器であってもよく、プロセッサ１１２、メモリ１１４及び記憶機器１１６は予め定義された領域内の複数の計算機器からの共有リソースである。

【0046】

その他に、記憶機器１１６は、ＡＴＬＯＰ関係抽出アプリケーション１１８、トレーニングデータ１３０及び予測データ１３２を含む。ＡＴＬＯＰ関係抽出アプリケーション１１８は、トレーニングデータ１３０を用いてそのモデル構造をトレーニングし、かつ予測データ１３２に基づいて予測するように構成される。トレーニングデータ１３０及び予測データ１３２は、計算機器１１０に対して選択可能であり、ＡＴＬＯＰ関係抽出アプリケーション１１８は、他の機器に記憶されたトレーニング及び予測データにアクセスすればよい。

【0047】

図１に示すように、ＡＴＬＯＰ関係抽出アプリケーション１１８は、ドキュメント準備モジュール１２０、エンコーダ１２２、分類器１２４、機能モジュール１２６及びインタフェース１２８を含む。いくつかの実施例において、ＡＴＬＯＰ関係抽出アプリケーション１１８は、ＡＴＬＯＰ関連抽出アプリケーション１１８の操作に必要な他のアプリケーション又はモジュールを含むことができる。注意すべきこととして、各モジュール１２０～１２８は、コンピュータ実行可能なコード又は命令、又はデータテーブル又はデータベース、又はハードウェアとソフトウェアの組み合わせで実現され、それらは共同で一つのアプリケーションを形成する。いくつかの実施例において、各モジュールはさらにサブモジュールを含むことができる。又は、いくつかのモジュールを一つのスタックに組み合わせることができる。他の実施例において、いくつかのモジュールは、実行可能なコードではなく回路として実現されてもよい。いくつかの実施例において、モジュールは、モデルと総称されてもよく、トレーニングデータを用いてそれをトレーニングすることができ、かつトレーニングされた後に、予測に用いることができる。

【0048】

【数11】

【0049】

【数12】

【0050】

図２は、ＤｏｃＲＥＤデータセットからの例を模式的に示す図である。図２に示すように、サブジェクトエンティティは、「ジョン・ステーニストリート」であり、オブジェクトエンティティは「ベンディゴ」であり、関係は「出身地」及び「死亡地」である。「出身地」関係は、前の二つの文に体現され、「死亡地」関係は、最後の文に体現される。ドキュメントにおける他のエンティティも強調表示されるが、「ジョン・ステーニストリート-ベンディゴ」のエンティティタプルと無関係である。

【0051】

【数13】

【0052】

【数14】

【数15】

【0053】

【数16】

【0054】

一つのエンティティの表現は異なるエンティティペアにおいて同じである。双線形分類器におけるパラメータの数を減少させるために、分類器１２４は、グループ双線形性を使用するように配置され、それは埋め込み次元をｋ個の大きさが等しいグループに分割し、かつグループ内で双線形性を適用する。

【数17】

【0055】

【数18】

【0056】

【数19】

【0057】

【数20】

【0058】

【数21】

【0059】

エンティティペアの分類が正確であれば、正ラベルのｌｏｇｉｔ関数（又は対数確率）は閾値より大きいべきであり、負ラベルのｌｏｇｉｔ関数は閾値より小さいべきである。分類器１２４は、閾値クラスＴＨを導入するように構成され、他のクラスと同様な方式で自動的に学習する（式（５）参照）。テスト時に、分類器１２４は、ＴＨクラスより高いｌｏｇｉｔを有するクラスを正ラベルとして返し、又はこれらの種類が存在しなければ、ＮＡを返す。この閾値クラス学習は、エンティティの閾値に依存する。それはグローバル閾値の代替品であるため、開発セットに閾値を調整する必要がない。いくつかの実施例において、前述のように、分類器１２４は、確率ではなく、ｌｏｇｉｔ_ｒを計算するように構成され、かつｌｏｇｉｔ_ｒとＴＨのｌｏｇｉｔとを比較して関係ｒが存在するか否かを決定する。

【0060】

新しいモデルを学習するために、分類器１２４は、ＴＨクラスを考慮した特殊な損失関数を定義するように配置される。具体的には、分類器は、標準クラス交差エントロピー損失に基づいて自己適応閾値損失を設計するように配置される。損失関数は二つの部分に分割され、以下に示すとおりである。

【数22】

【0061】

第一部分Ｌ_１は、正ラベル及びＴＨクラスに関する。複数の正ラベルが存在する可能性があるため、総損失を全ての正ラベルでのクラス交差エントロピー損失の総和として計算する。Ｌ_１は全ての正ラベルのｌｏｇｉｔをＴＨクラスより大きくする。正ラベルが存在しなければ、使用しない。第二部分Ｌ_２は、負クラス及び閾値クラスに関する。それはクラス交差エントロピー損失であり、そのＴＨクラスは実ラベルである。これにより負ラベルのｌｏｇｉｔはＴＨクラスより小さい。これらの二つの部分が加算は合計損失である。

【0062】

【数23】

【0063】

エンティティと密接に関連するコンテキストを正確に位置決めするために、本開示はさらにエンコーダ１２２におけるプーリングを改善し、それにより分類器１２４により分類における隠れ状態に影響を与える。具体的には、式（２）に示されたｌｏｇｓｕｍｅｘｐプーリングは、ドキュメント全体にエンティティの全ての言及の埋め込みを累積し、かつ該エンティティに一つの埋め込みを生成する。次に全てのエンティティペアの分類に該エンティティ埋め込みを用いる。しかしながら、いくつかのコンテキストはエンティティペアと関係がない関係を示す可能性があるため、好ましくは一つは、ドキュメントにおける関連コンテキストのローカル表示のみに注目し、これはエンティティペアの関係を決定することに役立つ。

【0064】

したがって、本開示はローカルコンテキストプーリングを提供し、それは二つのエンティティに関連する付加的なコンテキストを埋め込むことによりエンティティペアへの埋め込みを強化する。いくつかの実施例において、本開示は事前トレーニングされた変換器に基づくモデルをエンコーダ１２２として使用し、エンコーダ１２２は既にマルチヘッド自己アテンションによりトークンレベル依存関係を学習し、したがって、本開示はそれらのアテンションヘッドを直接使用してローカルコンテキストプーリングを行うことを考慮する。該方法は、事前トレーニングされた言語モデルから学習済みの依存関係を移転し、初めから新たなアテンション層を学習する必要がない。

【0065】

【数24】

【数25】

【数26】

【0066】

【数27】

【0067】

【数28】

【0068】

図１に戻り、ドキュメント準備モジュール１２０、エンコーダ１２２及び分類器１２４が関係予測を行う場合、機能モジュール１２６は、予測の関係を用いて機能を実行するように構成される。いくつかの実施例において、該機能は構造知識グラフであり、機能モジュール１２６は、エンティティペアとエンティティペアの予測との関係を知識グラフに統合するように構成される。各エンティティは、知識グラフにおけるノードであってもよく、かつ関係は、対応するエンティティをリンクするエッジであってもよい。いくつかの実施例において、該機能は、データベースから情報を検索し、機能モジュール１２６は、データベースのトレーニングデータセットを用いてエンコーダ１２２及び分類器１２４をトレーニングし、トレーニングした後にデータベースから関係を推定し、かつユーザにエンティティペア及びその関係を提供するように構成される。いくつかの実施例において、該機能は、質問応答システムであり、機能モジュール１２６は、問題からエンティティを抽出し、答案データベース又はコメントデータベースからエンティティ関係を推定し、問題から抽出されたエンティティ及び推定の関係を用いて該問題の答案を形成し、かつ該問題を提出したユーザに答案を提供する。

【0069】

インタフェース１２８は、ＡＴＬＯＰ関係抽出アプリケーション１１８の管理者にインタフェースを提供してエンコーダ１２２及び分類器１２４をトレーニングし、かつモデルパラメータを調整し、又はユーザにインタフェースを提供してＡＴＬＯＰ関係抽出アプリケーション１１８を使用して問題の答案を取得し、ドキュメントを使用して知識グラフを構築するか又は完了するように構成される。

【0070】

図５は、本開示のいくつかの実施例に係るＡＴＬＯＰ関係抽出アプリケーションのトレーニング過程を模式的に示す図である。いくつかの実施例において、トレーニング過程は、図１に示す計算機器１１０により実現される。特に注意すべきこととして、本開示において他の説明がない限り、トレーニング過程又は方法のステップは異なる順序で配列されてもよく、したがって、図５に示す順序に限定されない。

【0071】

図５に示すように、ステップ５０２において、ドキュメント準備モジュール１２０はトレーニングデータ１３０を検索し、かつトレーニングデータ１３０をエンコーダ１２２に提供する。トレーニングデータは、ラベル付きのエンティティと関係のドキュメントである。

【0072】

ステップ５０４において、各ドキュメントに対して、エンコーダ１２２は、エンティティの言及の開始及び終了に符号「*」を添加し、つまり、エンティティの言及の前及び後に符号「*」を添加する。

【0073】

ステップ５０６において、エンコーダ１２２は、言及開始での符号「*」を、該言及を示すトークンとして、ｌｏｇｓｕｍｅｘｐを用いてエンティティ埋め込みを計算し、かつ該エンティティ埋め込みを分類器１２４に送信する。具体的には、エンコーダ１２２は、ＢＥＲＴ等の言語モデルの基本的なエンコーダ構造を有し、かつトレーニングドキュメント中の各トークンの埋め込みを取得し、即ち、

【数29】

【0074】

各トークンの埋め込みはベクトルで表される。次にエンコーダ１２２はエンティティの言及に対応するトークンの埋め込みを用いてｌｏｇｓｕｍｅｘｐによりエンティティの埋め込みを取得し、すなわち、

【数30】

【0075】

ステップ５０８において、エンコーダ１２２からエンティティの埋め込みを受信する場合、分類器１２４は以下の式によりエンティティペアのローカルコンテキストプーリング（ローカルコンテキスト埋め込み）を計算する。

【数31】

【0076】

ステップ５１０において、分類器１２４は、エンティティ埋め込み及びローカルコンテキストプーリングを用いてエンティティの隠れ状態を計算する。具体的には、サブジェクトエンティティ及びオブジェクトエンティティを含むエンティティペアの関係予測について、エンティティの隠れ状態は以下の式により計算される。

【数32】

【0077】

ステップ５１２において、エンティティペアにおけるエンティティの隠れ状態を取得した後に、分類器１２４はグループ双線形を用いてエンティティの間のｌｏｇｉｔを決定する。

【数33】

【0078】

ステップ５１４において、各関係に対応するエンティティペアの間のｌｏｇｉｔに対して、分類器１２４は、決定されたｌｏｇｉｔと該関係に対応する自己適応閾値（ＴＨクラス）のｌｏｇｉｔとを比較し、該ｌｏｇｉｔが閾値のｌｏｇｉｔ関数以上であれば、該関係が存在すると決定する。確率が閾値より小さい場合、該関係が存在しないと決定する。ドキュメントはエンティティペアの複数の言及及び複数の関係を含むことができるため、エンティティペアは一つ又は複数の決定の関係を有することができる。

【0079】

ステップ５１６において、分類器１２４は以下の式を使用して自己適応閾値に基づいて損失関数を計算する。

【数34】

【0080】

ステップ５１８において、損失関数をモデルにフィードバックしてエンコーダ１２２及び分類器１２４のパラメータを調整し、かつ他の回の予測を実行してモデルを最適化する。

【0081】

したがって、損失Ｌが小さい値に収束するまで、又は所定の反復回数に達するまで、同一のドキュメントに対してステップ５０６～５１８を反復実行する。次に、トレーニングデータ中の他のドキュメントに対してステップ５０２～５１８を実行する。いくつかの実施例において、各回のトレーニングはバッチで実行され、かつ各パッチは複数のドキュメント、例えば４つのドキュメントを含む。

【0082】

図６は、ＡＴＬＯＰ関係抽出アプリケーションがトレーニングされた後、本開示のいくつかの実施例に係るＡＴＬＯＰ関連抽出アプリケーションの推定過程を概略的に示す。いくつかの実施例において、推定過程は、図１に示す計算機器１１０により実現される。特に注意すべきこととして、本開示において他の説明がない限り、トレーニング過程又は方法のステップは異なる順序で配列されてもよく、図６に示すような順序に限定されない。注意すべきこととして、ＡＴＬＯＰのトレーニングデータとＡＴＬＯＰを使用して予測を行うドキュメントは同分野にあるべきである。例えば、Ｗｉｋｉｐａｄｉａデータを使用するＡＴＬＯＰに対するトレーニングは文章から常識を推定することができ、生物医学データを使用するＡＴＬＯＰに対するトレーニングは、生物医学論文から遺伝子と疾患との関係を推定することができる。

【0083】

図６に示すように、ステップ６０２において、ドキュメント準備モジュール１２０は、予測データ１３２を検索し、かつ予測データ１３２をエンコーダ１２２に提供する。予測データは、ドキュメントであり、ドキュメント中のエンティティは提供されてもよく、提供されなくてもよく、かつ関係ラベルが存在しない。

【0084】

ステップ６０４において、各ドキュメントに対して、エンコーダ１２２は、例えばｓｐａＣｙ又はＳｔａｎｚａというネーミングエンティティ識別によりドキュメントからエンティティを識別し、かつドキュメントに識別されたエンティティの言及の開始及び終了に符号「*」を添加する。好ましくはエンティティ及びラベルのリストを提供し、ネーミングエンティティ識別は、必要がない。

【0085】

ステップ６０６において、エンコーダ１２２は、言及開始での符号「*」を使用して該言及を示すトークンを表し、ｌｏｇｓｕｍｅｘｐを用いてエンティティ埋め込みを算出し、かつ該エンティティ埋め込みを分類器１２４に送信する。具体的には、エンコーダ１２２は、ＢＥＲＴ等の言語モデルの基本的なエンコーダ構造を有し、かつトレーニングドキュメント中の各トークンの埋め込みを取得し、即ち、

【数35】

【0086】

各トークンの埋め込みはベクトルで表される。次にエンコーダ１２２はエンティティの言及に対応するトークンの埋め込みを用いてｌｏｇｓｕｍｅｘｐによりエンティティの埋め込みを取得し、すなわち

【数36】

【0087】

ステップ６０８において、エンコーダ１２２からエンティティの埋め込みを受信する場合、分類器１２４は以下の式によりエンティティペアのローカルコンテキストプーリング（ローカルコンテキスト埋め込み）を計算する。

【数37】

【0088】

ステップ６１０において、分類器１２４は、エンティティ埋め込み及びローカルコンテキストプーリングを用いてエンティティの隠れ状態を計算する。具体的には、サブジェクトエンティティ及びオブジェクトエンティティを含むエンティティペアの関係について予測し、エンティティの隠れ状態は以下の式により計算される：

【数38】

【0089】

ステップ６１２において、エンティティペアにおけるエンティティの隠れ状態を取得した後に、分類器１２４はグループ双線形を用いてエンティティの間のｌｏｇｉｔを決定する。

【数39】

【0090】

【数40】

【0091】

ステップ６１６において、エンティティペアと対応関係を受信した後、機能モジュール１２６は機能を実行する。該機能は、例えばエンティティをノードとし、関係をエッジとして、知識グラフを構築するか又は完了する。又は問題の答案を提供し、ここで問題からエンティティを抽出しかつ該問題に関連するデータベースからエンティティペア関係を抽出する。

【0092】

いくつかの態様において、本開示は、コンピュータ実行可能なコードを記憶する非一時的なコンピュータ可読媒体に関する。いくつかの実施例において、コンピュータ実行可能なコードは上記のように記憶機器１１６に記憶されたソフトウェアであってもよい。コンピュータ実行可能なコードは、実行された場合に、上述した方法のいずれかを実行することができる。

【0093】

実験
データセット：行われた実験は、本開示のＡＴＬＯＰアプリケーションのいくつかの実施例の利点を証明する。実験に使用されたデータセットは、ＤｏｃＲＥＤ、ＣＤＲ及びＧＤＡを含み、図７に表１に示すとおりである。ＤｏｃＲＥＤ（Ｙａｏ等２０１９）は、Ｗｉｋｉｐａｄｉａ文章で構築された、ドキュメントレベルＲＥのための大規模な汎用データセットである。それは、３０５３個の人工注釈のトレーニングドキュメントで構成される。関係を表すエンティティペアに対して、約７％のエンティティペアは、複数の関係ラベルを有する。ＣＤＲ（Ｌｉ等２０１６）は、生物医学分野における人工的な注釈のデータセットである。それは５００個のトレーニングドキュメントで構成される。タスクは、化学的及び疾患の概念の間のバイナリ相互作用を予測することである。ＧＤＡ（Ｗｕ等２０１９b）は、生物医学分野の大規模データセットである。それは２９１９２編のトレーニング文章で構成される。タスクは、遺伝子と疾患の概念との間のバイナリ相互作用を予測することである。実験は、Ｃｈｒｉｓｔｏｐｏｕｌｏｕ、Ｍｉｗａ及びＡｎａｎｉａｄｏｕ（２０１９）に従ってトレーニングセットを８０／２０に分割し、それぞれトレーニングセット及び開発セットとする。

【0094】

【数41】

【0095】

グローバル閾値を使用するモデルに対して、我々は｛０．１、０．２、…、０．９｝から閾値を検索し、かつ最大化ｄｅｖＦ_１の値を選択する。全てのモデルは、いずれも１台のテスラＶ１００ＧＰＵを使用してトレーニングを行う。ＤｏｃＲＥＤデータセットに対して、ＢＥＲＴ-baseエンコーダのトレーニングは約１時間４５分間を必要とし、ＲｏＢＥＲＴａ－ｌａｒｇｅエンコーダのトレーニングは約３時間３０分間を必要とする。ＣＤＲ及びＧＤＡデータセットに対して、ＳｃｉＢＥＲＴ－ｂａｓｅエンコーダのトレーニングはそれぞれ２０分間及び３時間３０分間を必要とする。

【0096】

主な結果：我々は、ＤｏｃＲＥＤデータセットにおいてＡＴＬＯＰとシーケンスによるモデル、グラフに基づくモデルと変換器に基づくモデルを比較する。実験結果を図９の表３に示す。Ｙａｏ等（２０１９）に基づいて、我々はＦ_１及びＩｇｎＦ_１を用いて評価する。ＩｇｎＦ_１はＦ_１スコアを表し、それはトレーニング及び開発／テストセット共有の関係事実を含まない。

【0097】

シーケンスに基づくモデルである。これらのモデルはＣＮＮ（Ｇｏｏｄｆｅｌｌｏｗ、Ｂｅｎｇｉｏ及びＣｏｕｒｖｉｌｌｅ２０１５）及び双方向ＬＳＴＭ（Ｓｃｈｕｓｔｅｒ及びＰａｌｉｗａｌ１９９７）などのニューラルアーキテクチャを用いてドキュメント全体を符号化し、その後にエンティティ埋め込みを取得し、かつ双線形関数を用いて各エンティティペアの関係を予測する。

【0098】

グラフに基づくモデルである。これらのモデルはドキュメントの潜在的なグラフ構造を学習することによりドキュメントグラフを構築し、かつグラフ畳み込みネットワークを用いて推論（Ｋｉｐｆ及びＷｅｌｌｉｎｇ２０１７）を行う。我々は二つの最も先進的なグラフに基づくモデル、すなわちＡＧＧＣＮ（Ｇｕｏ、Ｚｈａｎｇ及びＬｕ２０１９）及びＬＳＲ（Ｎａｎ等２０２０）を組み込み、比較に用いられる。ＡＧＧＣＮの結果は、Ｎａｎ等（２０２０）の再実施により得られる。

【0099】

変換器に基づくモデルである。これらのモデルはグラフ構造を使用しない場合に事前トレーニングされた言語モデルをドキュメントレベルＲＥに適応することができる。これらは、さらに、パイプラインモデル（ＢＥＲＴ-ＴＳ（Ｗａｎｇ等２０１９ａ））、階層モデル（ＨＩＮ－ＢＥＲＴ（Ｔａｎｇ等２０a））及び事前トレーニング方法（ＣｏｒｅｆＢＥＲＴ及びＣｏｒｅｆＲｏＢＥＲＴａ（Ｙｅ等２０２０））に分けることができる。我々はさらに比較においてＢＥＲＴベースライン（Ｗａｎｇ等２０１９ａ）を組み込む。

【0100】

我々は、我々が改めて実施するＢＥＲＴベースラインで得られた結果はＷａｎｇら（２０１９a）より明らかに優れ、かつ最も先進的なＲＮＮに基づくモデルＢｉＬＳＴＭＬＳＲよりも１.２％高い。これは、事前トレーニングされた言語モデルがグラフ構造を明示的に使用しない場合にエンティティ間の遠隔依存関係をキャプチャすることができることを示す。他の技術を統合した後、我々の強化型ベースラインＢＥＲＴ-ＥＢＡＳＥは５８.５２％のＦ_１スコアを取得し、それは現在最も先進的なモデルＢＥＲＴ-ＬＳＲＢＡＳＥに近い。我々のＢＥＲＴ-ＡＴＬＯＰＢＡＳＥモデルはさらにＢＥＲＴ-ＥＢＡＳＥの表現を２.６％向上させ、提案された二種の新しい技術の有効性を証明する。ＲｏＢＥＲＴａ－ｌａｒｇｅをエンコーダとし、我々のＡＬＴＯＰモデルは６３.４０％のＦ_１スコアを取得し、これはＤｏｃＲＥＤ上の新たな最も先進的な結果である。２０２０年９月９日までに、我々はＣｏｌａｂランキングリスト５に第一順位付けを行う。

【0101】

生物医学データセットの結果：二つの生物医学データセットの実験結果は図１０の表４に示すとおりである。Ｖｅｒｇａ、Ｓｔｒｕｂｅｌｌ及びＭｃＣａｌｌｕｍ（２０１８）及びＮｇｕｙｅｎ及びＶｅｒｓｐｏｌｌ（２０１８）はいずれもシーケンスに基づくモデルであり、それはそれぞれ自己アテンションネットワーク及びＣＮＮをエンコーダとして使用する。Ｃｈｒｉｓｔｏｐｏｕｌｏｕ、Ｍｉｗａ及びＡｎａｎｉａｄｏｕ（２０１９）及びＮａｎら（２０２０）はグラフに基づくモデルを使用し、ヒューリスティック又は構造化アテンションによりドキュメントグラフを構築し、かつグラフニューラルネットワークを用いて推論する。知られているように、変換器に基づく事前トレーニングの言語モデルは生物医学分野のドキュメントレベルＲＥデータセットに適用されていない。実験において、我々はＳｃｉＢＥＲＴ_ＢＡＳＥでエンコーダを代替し、ＳｃｉＢＥＲＴ_ＢＡＳＥは科学的な出版物の多分野コーパスで事前トレーニングされる。ＳｃｉＢＥＲＴ_ＢＡＳＥのベースラインは既に全ての従来の方法より優れる。我々のＳｃｉＢＥＲＴＡＴＬＯＰ_ＢＡＳＥモデルはさらにＣＤＲ及びＧＤＡのＦ_１スコアをそれぞれ４.３％及び１.４％向上させ、かつこの二つのデータセットに新たな最も先進的な結果を生成する。

【0102】

アブレーション研究：我々が提供する技術の有効性を証明するために、我々はコンポーネントを一つずつオフにすることにより、ＡＴＬＯＰ及び強化ベースラインに対して二組のアブレーション研究を行う。図１１中の表５に示すように、我々は、全てのコンポーネントがモデル表現に役立つことを観察する。自己適応閾値及びローカルコンテキストプーリングはモデル表現に対して同様に重要であり、ＡＴＬＯＰから取り除く時、ｄｅｖＦ_１スコアをそれぞれ０.８９％及び０.９７％低下させる。注意すべきこととして、自己適応閾値は、自己適応閾値損失最適化モデルを使用する時のみに効果的である。自己適応閾値をバイナリ交差エントロピートレーニングのモデルに適用し、得られたｄｅｖＦ_１は４１.７４％である。

【0103】

我々の強化ベースラインモデルＢＥＲＴ-Ｅ_ＢＡＳＥに対して、グループ双線形及びｌｏｇｓｕｍｅｘｐプーリングはいずれもｄｅｖＦ_１が約１％増加することをもたらす。我々はエンティティマークの改善が小さい（ｄｅｖＦ_１では０.２４％である）ことを発見するが、依然としてモデルに該技術を使用し、それにより言及埋め込み及び言及レベルアテンションの導出がより容易になるからである。

【0104】

閾値分析：グローバル閾値は、モデル信頼度の異なる種類又は実例における変化を考慮せず、それにより準最適な表現を生成する。面白い問題は、我々が異なる種類の異なる閾値を調整することによりグローバル閾値を改善することができるか否かを判断することである。したがって、我々は循環最適化アルゴリズム（Ｆａｎ及びＬｉｎ２００７）を用いてクラスに依存する閾値を調整してＤｏｃＲＥＤ開発セットのＦ_１スコアを最大化することを試みる。結果を図１２の表６に示す。我々は、各クラスの閾値を使用してｄｅｖＦ_１スコアを６１.７３％に向上させ、さらに自己適応閾値の結果より大きいことを発見する。しかしながら、該ゲインはテストセットに移行しない。各クラスの閾値の結果は、さらに、グローバル閾値の結果よりも悪い。我々の自己適応閾値技術はテストセットに自動的に普及できる学習可能な閾値を使用した。

【0105】

コンテキストプーリング分析：我々のローカルコンテキストプーリング（ＬＯＰ）技術がマルチエンティティ問題を解決することを表明するために、我々はＤｏｃＲＥＤ開発セットにおけるドキュメントをエンティティの数に応じて異なるグループに分割し、かつ各グループでローカルコンテキストプーリングを使用して又はローカルコンテキストプーリングを使用せずにトレーニングされたモデルを評価する。実験結果を図１３に示す。我々が観察されるように、二つのモデルに対して、ドキュメントがより多くエンティティを含む場合、それらの表現がより悪くなる。ドキュメントが少ないエンティティ（１-５個）を含む限り、そうでなければＬＯＰ付きのモデルは常にＬＯＰのないモデルより優れ、エンティティの数が増加する場合、このような改善はますます大きくなる。しかしながら、１-５個のエンティティのみを含むドキュメントの数が非常に少なく（開発セットに４つあり）、ＤｏｃＲＥＤ中のドキュメント平均は１９個のエンティティを含む。したがって、我々のローカルコンテキストプーリングは依然としてＦ_１の総合的なスコアを顕著に向上させる。これにより、ローカルコンテキストプーリング技術はエンティティペアの関連コンテキストをキャプチャすることができ、それによりマルチエンティティ問題を解決する。

【0106】

我々はさらに図２に例示したコンテキスト重みを可視化する。図１４に示すように、我々のローカルコンテキストプーリングは出生及び死亡に高い重みを付与し、これは二つのエンティティ（ジョン・ステーニストリート、ベンディゴ）に最も関連する。この二つのトークンもそれぞれ出生地と死亡地の二つの基準関係の証拠である。政治家を選挙することのようなトークンの重みは非常に小さく、それらはサブジェクトエンティティであるジョン・ステーニストリートのみに関連するためである。可視化は、ローカルコンテキストがこの二つのエンティティに関連するコンテキストを位置決めすることができることを示す。

【0107】

要するに、本開示のいくつかの実施例は、ドキュメントレベル関係抽出のためのＡＴＬＯＰモデルを提供し、該モデルは、少なくとも、自己適応閾値及びローカルコンテキストプーリングという二種の新規な技術を有する。自己適応閾値技術は、マルチラベル分類におけるグローバル閾値を学習可能な閾値クラスに置き換え、該学習可能な閾値クラスは、各エンティティペアの最適な閾値を決定することができる。ローカルコンテキストプーリングは、事前トレーニングのアテンションヘッドを利用してエンティティペアの関連コンテキストを位置決めし、それによりマルチエンティティ問題を解決することに役立つ。三つの共通ドキュメントレベル関係からデータセットを抽出する実験により、我々のＡＴＬＯＰモデルは従来のモデルより顕著に優れ、かつ全てのデータセットに新たな最も先進的な結果を生成する。

【0108】

ＡＴＬＯＰモデルは、例えば知識グラフ構築、情報照会、質問応答及び対話システムという多くの他のＮＬＰタスクの下流アプリケーションを有する。

【0109】

本開示の例示的な実施例の前述の記述は、説明及び記述の目的のみで示され、網羅的であるか又は本開示を開示された正確な形式に限定するものではない。上記教示によれば、多くの修正及び変更を行うことができる。

【0110】

実施例を選択して説明することは、本開示の原理及びその実際の応用を説明するためのものであり、当業者が本開示及び様々な実施例を利用し、かつ想定される特定の用途に応じて様々な修正を行うことができることである。本開示の精神及び範囲から逸脱することなく、代替実施例が当業者にとって明らかになる。したがって、本開示の範囲は上記説明及び説明した例示的な実施例によって限定されるものではなく、添付の特許請求の範囲によって限定される。

【図1】