特許7412382 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン　バイドゥ　ネットコム　サイエンス　アンド　テクノロジー　カンパニー　リミテッドの特許一覧

特許7412382イベント抽出方法、イベント抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-28

(45)【発行日】2024-01-12

(54)【発明の名称】イベント抽出方法、イベント抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品

(51)【国際特許分類】

G06F 40/279 20200101AFI20240104BHJP

G06F 40/216 20200101ALI20240104BHJP

【ＦＩ】

G06F40/279

G06F40/216

【請求項の数】 13

(21)【出願番号】P 2021044655

(22)【出願日】2021-03-18

(65)【公開番号】P2021099883

(43)【公開日】2021-07-01

【審査請求日】2021-03-18

【審判番号】

【審判請求日】2023-03-20

(31)【優先権主張番号】202010195577.8

(32)【優先日】2020-03-19

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】100118913

【弁理士】

【氏名又は名称】上田邦生

(72)【発明者】

【氏名】潘禄

(72)【発明者】

【氏名】陳玉光

(72)【発明者】

【氏名】李法遠

(72)【発明者】

【氏名】韓翠雲

(72)【発明者】

【氏名】劉遠▲セン▼

(72)【発明者】

【氏名】黄佳艶

【合議体】

【審判長】渡邊聡

【審判官】松田直也

【審判官】相崎裕恒

(56)【参考文献】

【文献】特開２００６－８５３８１（ＪＰ，Ａ）

【文献】特開２０１６－２４５４５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

G06F 40/20 - 40/58

(57)【特許請求の範囲】

【請求項1】

テキスト情報を取得することと、
前記テキスト情報に基づいて、前記テキスト情報におけるイベントトリガーを決定することと、
前記イベントトリガーによりイベントタイプを決定することと、
前記イベントタイプに基づいて、固定の優先順番を有する複数のイベント引数役割を決定することと、
前記複数のイベント引数役割の各イベント引数役割に基づいて、それぞれ一つの質問情報を決定することと、
前記イベント引数役割の優先順番に基づいて、複数の質問情報の質問情報毎の優先順位を決定することと、
前記複数の質問情報の質問情報毎の優先順番に従って、複数の前記質問情報のベクトル情報を抽出モデルに順次入力し、各前記質問情報の抽出情報を取得し、前記質問情報が正解マークベクトルを含み、１回に1つの質問情報のベクトル情報が抽出モデルに入力され、抽出モデルが当該質問情報の抽出情報を出力することを１ラウンドの抽出として見なすことと、
各前記質問情報の前記抽出情報に基づいて、前記各質問に対する正解の前記テキスト情報のイベント抽出結果を決定することとを含み、
前記抽出情報に前記質問情報に対する正解の前記テキスト情報における開始位置と終了位置が含まれ、前記抽出情報に基づいて前記テキスト情報における具体的位置を決定して抽出内容である前記質問情報の正解を決定し、
本ラウンドで、前記テキスト情報における一つ前のラウンドで抽出した前記抽出情報のマークを１とし、前記テキスト情報における一つ前のラウンドで抽出した前記抽出情報の以外のもののマークを０とするように、前記テキスト情報において一つ前のラウンドの抽出で取得した正解をマークし、マークした後の抽出情報で本ランドの質問情報の正解マークベクトルを取得する、電子デバイスのイベント抽出方法。

【請求項2】

前記質問情報の正解マークベクトルは、当該質問情報の前に並べ替えられた他の質問情報の抽出情報に基づいて決定され、複数の前記質問情報のうち１番目に並べ替えられた第１質問情報について、該第１質問情報の正解マークベクトルは、前記テキスト情報の文字の０とした前記マークに基づいて決定され、
複数の前記質問情報のうち前記第１質問情報の後に並べ替えられた第２質問情報について、該第２質問情報の正解マークベクトルは、前記第２質問情報の前に並べ替えられた少なくとも１つの前記質問情報の前記抽出情報の文字の前記マークに基づいて決定される請求項１に記載のイベント抽出方法。

【請求項3】

前記ベクトル情報は、位置ベクトルをさらに含み、
前記テキスト情報に基づいて、前記優先順番を有する複数の前記質問情報を決定した後であって、前記優先順番に従って、複数の前記質問情報のそれぞれの前記ベクトル情報を前記抽出モデルに順次入力し、複数の前記抽出情報を取得する前に、
複数の前記質問情報のそれぞれについて、前記質問情報に対して単語分割処理を行い、少なくとも１つの対象単語を取得することと、
少なくとも１つの前記対象単語のそれぞれの位置ベクトルを取得し、前記位置ベクトルが対象単語と、人物、組織、場所又は機関のような単語を含む実体及び動詞の間の距離に基づいて決定されることと、
少なくとも１つの前記対象単語のそれぞれの前記位置ベクトルに基づいて、前記質問情報の位置ベクトルを決定し、前記質問情報の位置ベクトルに質問情報の対象単語のそれぞれと質問情報の実体及び動詞との相対的位置が含まれることとをさらに含み、
少なくとも１つの前記対象単語のそれぞれの前記位置ベクトルを取得することは、
前記質問情報に含まれる実体の個数がＭ（Ｍは正の整数である）以上であり、且つ前記質問情報に含まれる動詞の個数がＮ（Ｎは正の整数である）以上である場合、前記質問情報におけるＭ個の実体及びＮ個の動詞を取得することと、
少なくとも１つの前記対象単語のそれぞれについて、前記対象単語から前記Ｍ個の実体までのＭ個の第１相対的位置、及び前記対象単語から前記Ｎ個の動詞までのＮ個の第２相対的位置をそれぞれ計算することと、
前記Ｍ個の第１相対的位置、前記Ｎ個の第２相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、Ｍ個の第１位置ベクトル及びＮ個の第２位置ベクトルを取得することと、
前記Ｍ個の第１位置ベクトルの首尾を前記質問情報における前記Ｍ個の実体の優先順番に従ってスプライシングし、第１スプライスベクトルを取得することと、
前記Ｎ個の第２位置ベクトルの首尾を前記質問情報における前記Ｎ個の動詞の優先順番に従ってスプライシングし、第２スプライスベクトルを取得することと、
前記第１スプライスベクトル及び前記第２スプライスベクトルの首尾をスプライシングし、スプライシング結果を前記対象単語の位置ベクトルとすることとを含み、
前記スプライシングは、キャラクター列のようにベクトルの首尾をそれぞれスプライシングする請求項１に記載のイベント抽出方法。

【請求項4】

前記質問情報に含まれる前記実体の個数が前記Ｍ以上であり、且つ前記質問情報に含まれる前記動詞の個数が前記Ｎ以上である場合、前記質問情報における前記Ｍ個の実体及び前記Ｎ個の動詞を取得することは、
前記質問情報に含まれる実体の個数が前記Ｍより大きく、且つ前記質問情報に含まれる動詞の個数が前記Ｎ以上であり、或いは、前記質問情報に含まれる動詞の個数が前記Ｎより大きく、且つ前記質問情報に含まれる実体の個数が前記Ｍ以上である場合、前記質問情報に対して実体と動詞との関係に基づく文法依存分析を行い、複数の依存ペアを取得することと、
複数の前記依存ペアのうちの同一依存ペアに含まれる実体及び動詞を選択し、ｍ個（ｍは正の整数である）の実体及びｎ個（ｎは正の整数である）の動詞を取得することと、
前記ｍが前記Ｍより小さい場合、前記質問情報の前記ｍ個の実体以外の実体から、ｉ個（ｉは前記Ｍと前記ｍとの差分である）の実体を選択し、ｉ個の実体を取得することと、
前記ｎが前記Ｎより小さい場合、前記質問情報の前記ｎ個の動詞以外の動詞から、ｊ個（ｊは前記Ｎと前記ｎとの差分である）の動詞を選択し、ｊ個の動詞を取得することとを含む請求項３に記載のイベント抽出方法。

【請求項5】

前記イベントタイプを複数の前記イベント引数役割のそれぞれとスプライシングし、複数の質問を決定することと、
複数の前記質問のそれぞれを前記テキスト情報とスプライシングし、複数の前記質問情報を取得することと、
前記イベントタイプにおける各前記イベント引数役割の順番に従って、各前記イベント引数役割に対応する前記質問情報を並べ替え、前記優先順番を有する複数の前記質問情報を決定することとをさらに含む請求項１に記載のイベント抽出方法。

【請求項6】

テキスト情報を取得する第１取得モジュールと、
前記テキスト情報に基づいて、前記テキスト情報におけるイベントトリガーを決定し、前記イベントトリガーによりイベントタイプを決定する第１決定サブモジュールと、前記イベントタイプに基づいて、固定の優先順番を有する複数のイベント引数役割を決定し、前記複数のイベント引数役割の各イベント引数役割に基づいて、それぞれ一つの質問情報を決定し、前記イベント引数役割の優先順番に基づいて、複数の質問情報の質問情報毎の優先順位を決定する２決定サブモジュールを備える第１決定モジュールと、
前記複数の質問情報の質問情報毎の優先順番に従って、正解マークベクトルを含む複数の前記質問情報のベクトル情報を抽出モデルに順次入力し、各前記質問情報の抽出情報を取得する第２取得モジュールであって、前記質問情報が正解マークベクトルを含み、１回に1つの質問情報のベクトル情報が抽出モデルに入力され、抽出モデルが当該質問情報の抽出情報を出力することを１ラウンドの抽出として見なす第２取得モジュールと、
各前記質問情報の前記抽出情報に基づいて、前記各質問に対する正解の前記テキスト情報のイベント抽出結果を決定する第２決定モジュールとを備え、
前記抽出情報に前記質問情報に対する正解の前記テキスト情報における開始位置と終了位置が含まれ、前記抽出情報に基づいて前記テキスト情報における具体的位置を決定して抽出内容である前記質問情報の正解を決定し、
本ラウンドで、前記テキスト情報における一つ前のラウンドで抽出した前記抽出情報のマークを１とし、前記テキスト情報における一つ前のラウンドで抽出した前記抽出情報の以外のもののマークを０とするように、前記テキスト情報において一つ前のラウンドの抽出で取得した正解をマークし、マークした後の抽出情報で本ランドの質問情報の正解マークベクトルを取得するイベント抽出装置。

【請求項7】

前記質問情報の正解マークベクトルは、当該質問情報の前に並べ替えられた他の質問情報の抽出情報に基づいて決定され、複数の前記質問情報のうち１番目に並べ替えられた第１質問情報について、該第１質問情報の正解マークベクトルは前記テキスト情報の文字の０とする前記マークに基づいて決定され、
複数の前記質問情報のうち前記第１質問情報の後に並べ替えられた第２質問情報について、該第２質問情報の正解マークベクトルは、前記第２質問情報の前に並べ替えられた少なくとも１つの前記質問情報の前記抽出情報の文字の前記マークに基づいて決定される請求項６に記載のイベント抽出装置。

【請求項8】

前記ベクトル情報は、位置ベクトルをさらに含み、
複数の前記質問情報のそれぞれについて、前記質問情報に対して単語分割処理を行い、少なくとも１つの対象単語を取得する単語分割モジュールと、
少なくとも１つの前記対象単語のそれぞれの位置ベクトルを取得し、前記位置ベクトルが対象単語と、人物、組織、場所又は機関のような単語を含む実体及び動詞の間の距離について決定される第３取得モジュールと、
少なくとも１つの前記対象単語のそれぞれの前記位置ベクトルに基づいて、前記質問情報の位置ベクトルを決定し、前記質問情報の位置ベクトルに質問情報の対象単語のそれぞれと質問情報の実体及び動詞との相対的位置が含まれる第３決定モジュールとをさらに備え、
前記第３取得モジュールは、
前記質問情報に含まれる実体の個数がＭ（Ｍは正の整数である）以上であり、且つ前記質問情報に含まれる動詞の個数がＮ（Ｎは正の整数である）以上である場合、前記質問情報におけるＭ個の実体及びＮ個の動詞を取得する第１取得サブモジュールと、
少なくとも１つの前記対象単語のそれぞれについて、前記対象単語から前記Ｍ個の実体までのＭ個の第１相対的位置、及び前記対象単語から前記Ｎ個の動詞までのＮ個の第２相対的位置をそれぞれ計算する計算サブモジュールと、
前記Ｍ個の第１相対的位置、前記Ｎ個の第２相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、Ｍ個の第１位置ベクトル及びＮ個の第２位置ベクトルを取得するマッピングサブモジュールと、
前記Ｍ個の第１位置ベクトルを前記質問情報における前記Ｍ個の実体の優先順番に従ってスプライシングし、第１スプライスベクトルを取得する第２取得サブモジュールと、
前記Ｎ個の第２位置ベクトルを前記質問情報における前記Ｎ個の動詞の優先順番に従ってスプライシングし、第２スプライスベクトルを取得する第３取得サブモジュールと、
前記第１スプライスベクトル及び前記第２スプライスベクトルをスプライシングし、スプライシング結果を前記対象単語の位置ベクトルとする第４取得サブモジュールとを備え、
前記スプライシングは、キャラクター列のようにベクトルの首尾をそれぞれスプライシングする請求項６に記載のイベント抽出装置。

【請求項9】

前記第１取得サブモジュールは、
前記質問情報に含まれる前記実体の個数が前記Ｍより大きく、且つ前記質問情報に含まれる前記動詞の個数が前記Ｎ以上であり、或いは、前記質問情報に含まれる前記動詞の個数が前記Ｎより大きく、且つ前記質問情報に含まれる前記実体の個数が前記Ｍ以上である場合、前記質問情報に対して実体と動詞との関係に基づく文法依存分析を行い、複数の依存ペアを取得する第１取得ユニットと、
複数の前記依存ペアのうちの同一依存ペアに含まれる実体及び動詞を選択し、ｍ個（ｍは正の整数である）の実体及びｎ個（ｎは正の整数である）の動詞を取得する第２取得ユニットと、
前記ｍが前記Ｍより小さい場合、前記質問情報の前記ｍ個の実体以外の実体から、ｉ個（ｉは前記Ｍと前記ｍとの差分である）の実体を選択し、ｉ個の実体を取得する第３取得ユニットと、
前記ｎが前記Ｎより小さい場合、前記質問情報の前記ｎ個の動詞以外の動詞から、ｊ個（ｊは前記Ｎと前記ｎとの差分である）の動詞を選択し、ｊ個の動詞を取得する第４取得ユニットとを備える請求項８に記載のイベント抽出装置。

【請求項10】

前記第１決定モジュールは、
前記テキスト情報に基づいて、前記テキスト情報におけるイベントトリガーを決定し、
前記イベントタイプを複数の前記イベント引数役割のそれぞれとスプライシングし、複数の質問を決定する第３決定サブモジュールと、
複数の前記質問のそれぞれを前記テキスト情報とスプライシングし、複数の前記質問情報を取得するスプライスサブモジュールと、
前記イベントタイプにおける各前記イベント引数役割の順番に従って、各前記イベント引数役割に対応する前記質問情報を並べ替え、前記優先順番を有する複数の前記質問情報を決定する第４決定サブモジュールとをさらに備える請求項６に記載のイベント抽出装置。

【請求項11】

少なくとも１つのプロセッサと、
少なくとも１つの該プロセッサに通信可能に接続されたメモリとを備え、
少なくとも１つの前記プロセッサにより実行されると、請求項１から請求項５のいずれかに記載のイベント抽出方法を少なくとも１つの前記プロセッサに実行させる、少なくとも１つの前記プロセッサによって実行可能な命令が前記メモリに記憶されている電子デバイス。

【請求項12】

コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、請求項１から請求項５のいずれかに記載のイベント抽出方法をコンピュータに実行させる非一時的なコンピュータ読み取り可能な記憶媒体。

【請求項13】

プロセッサによって実行されると、請求項１から請求項５のいずれかに記載のイベント抽出方法が実現されるコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、コンピュータ技術分野におけるデータ処理技術に関し、特にイベント抽出方法、イベント抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品に関する。

【背景技術】

【0002】

情報抽出は、大量のデータ処理において非常に有用な役割を果たし、そのうち、イベント抽出は、情報抽出分野の重要な研究方向であり、イベント抽出タスクは、テキストからイベントのタイプ、イベントトリガー、イベントの引数役割を含む構造化されたイベント情報を抽出することである。イベント抽出は幅広く応用されており、金融金野では、さまざまな金融活動の位置づけ、定量、定性的分析を行い、人的資源の問題を大幅に解決することができ、医療分野では、診断取扱書及び患者による症状の説明によって、患者の病状を素早く把握し、患者の病状への理解をより明確にすることができる。

【0003】

しかし、現在のイベント抽出方法は、抽出効果が悪く、イベント抽出によって得られる構造化された情報の精度が低い。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本願は、イベント抽出によって得られる情報の精度が低いという問題を解決するために、イベント抽出方法、イベント抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品を提供する。

【課題を解決するための手段】

【0005】

上記の技術的課題を解決するために、本願は以下の通り実現する。

【0006】

本願の第１態様は、テキスト情報を取得することと、前記テキスト情報に基づいて、優先順番を有する複数の質問情報を決定することと、前記優先順番に従って、正解マークベクトルを含む複数の前記質問情報のベクトル情報を抽出モデルに順次入力し、各前記質問情報の抽出情報を取得することと、各前記質問情報の前記抽出情報に基づいて、前記テキスト情報のイベント抽出結果を決定することとを含むイベント抽出方法を提供する。

【0007】

上記態様においては、複数の前記質問情報のうち１番目に並べ替えられた第１質問情報について、該第１質問情報の正解マークベクトルは、前記テキスト情報の初期マークに基づいて決定され、複数の前記質問情報のうち前記第１質問情報の後に並べ替えられた第２質問情報について、該第２質問情報の正解マークベクトルは、前記第２質問情報の前に並べ替えられた少なくとも１つの前記質問情報の前記抽出情報に基づいて決定されてもよい。

【0008】

また、上記態様においては、前記ベクトル情報は、位置ベクトルをさらに含み、前記テキスト情報に基づいて、前記優先順番を有する複数の前記質問情報を決定した後であって、前記優先順番に従って、複数の前記質問情報のそれぞれの前記ベクトル情報を前記抽出モデルに順次入力し、複数の前記抽出情報を取得する前に、複数の前記質問情報のそれぞれについて、前記質問情報に対して単語分割処理を行い、少なくとも１つの対象単語を取得することと、少なくとも１つの前記対象単語のそれぞれの位置ベクトルを取得することと、少なくとも１つの前記対象単語のそれぞれの前記位置ベクトルに基づいて、前記質問情報の位置ベクトルを決定することとをさらに含んでいてもよい。

【0009】

また、上記態様においては、少なくとも１つの前記対象単語のそれぞれの前記位置ベクトルを取得することは、前記質問情報に含まれる実体の個数がＭ（Ｍは正の整数である）以上であり、且つ前記質問情報に含まれる動詞の個数がＮ（Ｎは正の整数である）以上である場合、前記質問情報におけるＭ個の実体及びＮ個の動詞を取得することと、少なくとも１つの前記対象単語のそれぞれについて、前記対象単語から前記Ｍ個の実体までのＭ個の第１相対的位置、及び前記対象単語から前記Ｎ個の動詞までのＮ個の第２相対的位置をそれぞれ計算することと、前記Ｍ個の第１相対的位置、前記Ｎ個の第２相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、Ｍ個の第１位置ベクトル及びＮ個の第２位置ベクトルを取得することと、前記Ｍ個の第１位置ベクトルを前記質問情報における前記Ｍ個の実体の優先順番に従ってスプライシングし、第１スプライスベクトルを取得することと、前記Ｎ個の第２位置ベクトルを前記質問情報における前記Ｎ個の動詞の優先順番に従ってスプライシングし、第２スプライスベクトルを取得することと、前記第１スプライスベクトル及び前記第２スプライスベクトルをスプライシングし、スプライシング結果を前記対象単語の位置ベクトルとすることとを含んでいてもよい。

【0010】

また、上記態様においては、前記質問情報に含まれる前記実体の個数が前記Ｍ以上であり、且つ前記質問情報に含まれる前記動詞の個数が前記Ｎ以上である場合、前記質問情報における前記Ｍ個の実体及び前記Ｎ個の動詞を取得することは、前記質問情報に含まれる実体の個数が前記Ｍより大きく、且つ前記質問情報に含まれる動詞の個数が前記Ｎ以上であり、或いは、前記質問情報に含まれる動詞の個数が前記Ｎより大きく、且つ前記質問情報に含まれる実体の個数が前記Ｍ以上である場合、前記質問情報に対して文法依存分析を行い、複数の依存ペアを取得することと、複数の前記依存ペアのうちの同一依存ペアに含まれる実体及び動詞を選択し、ｍ個（ｍは正の整数である）の実体及びｎ個（ｎは正の整数である）の動詞を取得することと、前記ｍが前記Ｍより小さい場合、前記質問情報の前記ｍ個の実体以外の実体から、ｉ個（ｉは前記Ｍと前記ｍとの差分である）の実体を選択し、ｉ個の実体を取得することと、前記ｎが前記Ｎより小さい場合、前記質問情報の前記ｎ個の動詞以外の動詞から、ｊ個（ｊは前記Ｎと前記ｎとの差分である）の動詞を選択し、ｊ個の動詞を取得することとを含んでいてもよい。

【0011】

また、上記態様においては、前記テキスト情報に基づいて、前記優先順番を有する複数の前記質問情報を決定することは、前記テキスト情報に基づいて、前記テキスト情報のイベントタイプを決定することと、該イベントタイプに基づいて、複数のイベント引数役割を決定することと、前記イベントタイプを複数の前記イベント引数役割のそれぞれとスプライシングし、複数の質問を決定することと、複数の前記質問のそれぞれを前記テキスト情報とスプライシングし、複数の前記質問情報を取得することと、前記イベントタイプにおける各前記イベント引数役割の順番に従って、各前記イベント引数役割に対応する前記質問情報を並べ替え、前記優先順番を有する複数の前記質問情報を決定することとを含んでいてもよい。

【0012】

本願の第２態様は、テキスト情報を取得する第１取得モジュールと、前記テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する第１決定モジュールと、前記優先順番に従って、正解マークベクトルを含む複数の前記質問情報のベクトル情報を抽出モデルに順次入力し、各前記質問情報の抽出情報を取得する第２取得モジュールと、各前記質問情報の前記抽出情報に基づいて、前記テキスト情報のイベント抽出結果を決定する第２決定モジュールとを備えるイベント抽出装置を提供する。

【0013】

上記態様においては、複数の前記質問情報のうち１番目に並べ替えられた第１質問情報について、該第１質問情報の正解マークベクトルは前記テキスト情報の初期マークに基づいて決定され、複数の前記質問情報のうち前記第１質問情報の後に並べ替えられた第２質問情報について、該第２質問情報の正解マークベクトルは、前記第２質問情報の前に並べ替えられた少なくとも１つの前記質問情報の前記抽出情報に基づいて決定されてもよい。

【0014】

また、上記態様においては、前記ベクトル情報は、位置ベクトルをさらに含み、複数の前記質問情報のそれぞれについて、前記質問情報に対して単語分割処理を行い、少なくとも１つの対象単語を取得する単語分割モジュールと、少なくとも１つの前記対象単語のそれぞれの位置ベクトルを取得する第３取得モジュールと、少なくとも１つの前記対象単語のそれぞれの前記位置ベクトルに基づいて、前記質問情報の位置ベクトルを決定する第３決定モジュールとをさらに備えていてもよい。

【0015】

また、上記態様においては、前記第３取得モジュールは、前記質問情報に含まれる実体の個数がＭ（Ｍは正の整数である）以上であり、且つ前記質問情報に含まれる動詞の個数がＮ（Ｎは正の整数である）以上である場合、前記質問情報におけるＭ個の実体及びＮ個の動詞を取得する第１取得サブモジュールと、少なくとも１つの前記対象単語のそれぞれについて、前記対象単語から前記Ｍ個の実体までのＭ個の第１相対的位置、及び前記対象単語から前記Ｎ個の動詞までのＮ個の第２相対的位置をそれぞれ計算する計算サブモジュールと、前記Ｍ個の第１相対的位置、前記Ｎ個の第２相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、Ｍ個の第１位置ベクトル及びＮ個の第２位置ベクトルを取得するマッピングサブモジュールと、前記Ｍ個の第１位置ベクトルを前記質問情報における前記Ｍ個の実体の優先順番に従ってスプライシングし、第１スプライスベクトルを取得する第２取得サブモジュールと、前記Ｎ個の第２位置ベクトルを前記質問情報における前記Ｎ個の動詞の優先順番に従ってスプライシングし、第２スプライスベクトルを取得する第３取得サブモジュールと、前記第１スプライスベクトル及び前記第２スプライスベクトルをスプライシングし、スプライシング結果を前記対象単語の位置ベクトルとする第４取得サブモジュールとを備えていてもよい。

【0016】

また、上記態様においては、前記第１取得サブモジュールは、前記質問情報に含まれる前記実体の個数が前記Ｍより大きく、且つ前記質問情報に含まれる前記動詞の個数が前記Ｎ以上であり、或いは、前記質問情報に含まれる前記動詞の個数が前記Ｎより大きく、且つ前記質問情報に含まれる前記実体の個数が前記Ｍ以上である場合、前記質問情報に対して文法依存分析を行い、複数の依存ペアを取得する第１取得ユニットと、複数の前記依存ペアのうちの同一依存ペアに含まれる実体及び動詞を選択し、ｍ個（ｍは正の整数である）の実体及びｎ個（ｎは正の整数である）の動詞を取得する第２取得ユニットと、前記ｍが前記Ｍより小さい場合、前記質問情報の前記ｍ個の実体以外の実体から、ｉ個（ｉは前記Ｍと前記ｍとの差分である）の実体を選択し、ｉ個の実体を取得する第３取得ユニットと、前記ｎが前記Ｎより小さい場合、前記質問情報の前記ｎ個の動詞以外の動詞から、ｊ個（ｊは前記Ｎと前記ｎとの差分である）の動詞を選択し、ｊ個の動詞を取得する第４取得ユニットとを備えていてもよい。

【0017】

また、上記態様においては、前記第１決定モジュールは、前記テキスト情報に基づいて、前記テキスト情報のイベントタイプを決定する第１決定サブモジュールと、前記イベントタイプに基づいて、複数のイベント引数役割を決定する第２決定サブモジュールと、前記イベントタイプを複数の前記イベント引数役割のそれぞれとスプライシングし、複数の質問を決定する第３決定サブモジュールと、複数の前記質問のそれぞれを前記テキスト情報とスプライシングし、複数の前記質問情報を取得するスプライスサブモジュールと、前記イベントタイプにおける各前記イベント引数役割の順番に従って、各前記イベント引数役割に対応する前記質問情報を並べ替え、前記優先順番を有する複数の前記質問情報を決定する第４決定サブモジュールとを備えていてもよい。

【0018】

本願の第３態様は、少なくとも１つのプロセッサと、少なくとも１つの該プロセッサに通信可能に接続されたメモリとを備え、少なくとも１つの前記プロセッサにより実行されると、上記のイベント抽出方法を少なくとも１つの前記プロセッサに実行させる、少なくとも１つの前記プロセッサによって実行可能な命令が前記メモリに記憶されている電子デバイスを提供する。

【0019】

本願の第４態様は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、上記のイベント抽出方法をコンピュータに実行させる非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
本願の第５態様は、プロセッサによって実行されると、上記のイベント抽出方法が実現されるコンピュータプログラムを含むコンピュータプログラム製品を提供する。

【発明の効果】

【0020】

本出願の一実施例は、以下のような利点及び有益な効果を有する。
抽出モデルによりテキスト情報を抽出する際に、複数の質問情報を順次抽出し、各質問情報に対応する正解が異なるため、先に抽出される質問情報の正解に基づいて後に抽出される質問情報の正解を決定する時に、先に抽出される質問情報の正解を除外し、後に抽出される質問情報の抽出情報の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させる。

【0021】

また、抽出モデルによりテキスト情報を抽出する際に、第２質問情報の抽出情報を取得する時に、第２質問情報の前に並べ替えられた少なくとも１つの質問情報の抽出情報が考慮され、各質問情報に対応するが正解が異なるため、他の質問情報の正解に基づいて第２質問情報を決定する時に、他の質問情報の正解を除外し、第２質問情報の抽出情報を決定する時の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させる。

【0022】

また、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する時に、テキスト情報のイベントタイプに含まれる複数のイベント引数役割に基づいて、複数の質問情報を構成し、イベントタイプにおける複数のイベント引数役割の順番に従って、複数の質問情報の順番を決定することで、後で複数の質問情報の順番に従って、質問情報の正解を順次決定することを容易にする。そして、現在の質問情報の正解を決定する時に、質問情報の前に並べ替えられた他の質問情報の正解を除外し、現在の質問情報の正解の検索範囲を絞り込み、それにより、効率及び精度を向上させる。

【0023】

また、ベクトル情報は、質問情報の位置ベクトルをさらに含み、複数の質問情報のそれぞれについて、質問情報に対して単語分割処理を行い、少なくとも１つの対象単語を取得し、少なくとも１つの対象単語のそれぞれの位置ベクトルを取得し、少なくとも１つの対象単語のそれぞれの位置ベクトルに基づいて、質問情報の位置ベクトルを決定する。質問情報の位置ベクトルには、質問情報の各対象単語のそれぞれと質問情報の実体及び動詞との相対的位置が含まれており、このように、対象単語のそれぞれと実体及び動詞との関係が十分に利用され、それにより、情報抽出の精度をさらに向上させることができる。

【0024】

また、対象単語の位置ベクトルには、対象単語のそれぞれと質問情報の実体及び動詞との相対的位置が含まれており、このように、質問情報の位置ベクトルが対象単語のそれぞれと実体及び動詞との関係を十分に利用し、それにより、情報抽出の精度をさらに向上させることができる。

【0025】

また、質問情報に含まれる実体の個数がＭより大きく、且つ質問情報に含まれる動詞の個数がＮ以上であり、或いは、質問情報に含まれる動詞の個数がＮより大きく、且つ質問情報に含まれる実体の個数がＭ以上である場合、質問情報に対して文法依存分析を行い、複数の依存ペアを取得し、複数の依存ペアのうちの同一依存ペアに含まれる実体及び動詞を優先的に選択し、後続の情報抽出の精度を向上させる。

【0026】

上記の選択可能な形態が有する他の効果は、以下具体的な実施例を参照しながら説明される。

【図面の簡単な説明】

【0027】

図面は、本技術案をより理解易くするためであり、本願を制限するものではない。

【図1】本願の一実施例に係るイベント抽出方法のフローチャートである。

【図2】本願の一実施例に係る抽出モデルの各層の構造概略図である。

【図3】本願におけるイベント引数役割に基づいて決定される複数の質問情報の処理順番の概略図である。

【図4】本願の一実施例に係るイベント抽出装置の構造図である。

【図5】本願の一実施例のイベント抽出方法を実現するための電子デバイスのブロック図である。

【発明を実施するための形態】

【0028】

以下では、図面を参照しながら本願の例示的な実施例を説明するが、この説明には、理解を容易にするために本願の実施例の様々な詳細が含まれるが、これらは単に例示的なものであると考えるべきである。したがって、当業者が理解できるように、本願の範囲及び精神を逸脱することなく、ここで記載される実施例に様々な変更及び修正を加えることができる。同様に、以下の説明では、周知の機能及び構造については、明確化及び簡明化のために説明を省略する。

【0029】

図１を参照すると、図１は、本願の一実施例に係るイベント抽出方法のフローチャートであり、図１に示されるように、本実施例は、電子デバイスに適用されるイベント抽出方法を提供する。イベント抽出方法は、ステップ１０１～ステップ１０４を含む。

【0030】

ステップ１０１において、テキスト情報を取得する。

【0031】

テキスト情報は、ユーザが入力した情報でもよく、検索エンジンがユーザにより入力されたクエリ情報に基づいてクエリを行って取得した検索結果情報であってもよい。テキスト情報は、文字の段落であってもよい。

【0032】

ステップ１０２において、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する。

【0033】

イベント抽出は、一般的に、イベントトリガー（ｅｖｅｎｔｔｒｉｇｇｅｒ）に対する抽出及びイベント引数（ｅｖｅｎｔａｒｇｕｍｅｎｔ）に対する抽出を含む。テキスト情報のイベントトリガーにより、イベントタイプを定義することができる。各イベントタイプには、それに対応する役割（ｒｏｌｅ）、即ちイベント引数役割がある。

【0034】

テキスト情報に基づいて複数の質問情報を決定し、たとえば、テキスト情報のイベントタイプにおけるイベント引数役割に基づいて質問情報を決定し、イベント引数役割ごとに、１つの質問情報が決定され、イベントタイプにおける各イベント引数役割の順番に従って、各質問情報の順番が決定される。

【0035】

ステップ１０３において、優先順番に従って、正解マークベクトルを含む複数の質問情報のベクトル情報を抽出モデルに順次入力し、各質問情報の抽出情報を取得する。

【0036】

複数の質問情報のうち１番目に並べ替えられた第１質問情報について、第１質問情報の正解マークベクトルは、テキスト情報の初期マークに基づいて決定される。複数の質問情報のうち第１質問情報の後に並べ替えられた第２質問情報について、第２質問情報の正解マークベクトルは、第２質問情報の前に並べ替えられた少なくとも１つの質問情報の抽出情報に基づいて決定される。このように、第２質問情報の抽出情報を取得する時に、第２質問情報の前に並べ替えられた少なくとも１つの質問情報の抽出情報が考慮され、各質問情報に対応する正解が異なるため、他の質問情報の正解に基づいて第２質問情報を決定する時に、他の質問情報の正解を除外し、第２質問情報の抽出情報を決定する時の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させることができる。

【0037】

質問情報の正解マークベクトルは、質問情報の前に並べ替えられた他の質問情報の抽出情報に基づいて決定される。質問情報に対応する抽出情報に基づいて、質問情報に対応する正解を決定することができ、当該正解はテキスト情報における文字である。

【0038】

複数の質問情報は優先順番を有するため、ランキングにおける２番目以降の正解マークベクトルは、質問情報の前に並べ替えられた他の質問情報の抽出情報により決定され得る。たとえば、複数の質問情報は、順次並べ替えられた第１質問情報、第２質問情報及び第３質問情報である。第２質問情報の正解マークベクトルは第１質問情報の抽出情報に基づいて決定され、第３質問情報の正解マークベクトルは第１質問情報及び第２質問情報の抽出情報に基づいて決定される。

【0039】

１番目に並べ替えられた質問情報の正解マークベクトルについて、テキスト情報の初期マークに基づいて決定することができ、たとえば、テキスト情報における各文字の初期マークが０であれば、テキスト情報の初期マークに基づいて第１質問情報の正解マークベクトルを決定することができる。ある文字が第２質問情報の前に並べ替えられた質問情報の正解である場合、テキスト情報における当該文字マークは１（第２質問情報の前に並べ替えられた質問情報の正解以外の部分は依然として０とマークされる）とマークされ、その後、第２質問情報の正解マークベクトルはマークに基づいて決定される。即ち、複数の質問情報のベクトル情報は抽出モデルに順次入力され、１回に１つの質問情報のベクトル情報は抽出モデルに入力され、抽出モデルは質問情報の抽出情報を出力し、これは１ラウンドの抽出として見なすことができる。抽出情報は、テキスト情報における正解の開始位置及び終了位置を含むことができ、テキスト情報の具体的な位置が抽出情報に基づいて特定され、抽出内容（文字、フレーズ等）が取得され、抽出内容は質問情報の正解として見なすことができる。

【0040】

テキスト情報において１つ前のラウンドの抽出で取得した正解をマークし、たとえば、テキスト情報における１つ前のラウンドの質問情報の正解に属する単語（たとえば、単語の下にマークする）を１とマークし、１つ前のラウンドの質問情報の正解以外のものを０とマークする。このように、マークした後のテキスト情報に基づいて元の質問の新しい正解マークベクトルを取得し、抽出情報は、テキスト情報における質問情報の正解の開始位置及び終了位置あってもよく、テキスト情報における具体的な位置が抽出情報に基づいて決定され、さらに質問情報の正解が決定される。

【0041】

ステップ１０４として、各質問情報の抽出情報に基づいて、テキスト情報のイベント抽出結果を決定する。

【0042】

各質問情報の抽出情報に基づいて、テキスト情報のイベント抽出結果である質問情報の正解を取得する。

【0043】

抽出モデルの訓練サンプルは、訓練コーパスに基づいて取得したベクトル情報であってもよく、訓練コーパスに基づいて取得したベクトル情報を用いてニューラルネットワークモデルを訓練し、抽出モデルを取得する。訓練コーパスに基づいてベクトル情報を取得する方法は、本願においてテキスト情報に基づいてベクトル情報を取得する方法と一致するため、説明を省略する。

【0044】

本実施例において、テキスト情報を取得し、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定し、優先順番に従って、正解マークベクトルを含む複数の質問情報のベクトル情報を抽出モデルに順次入力し、各質問情報の抽出情報を取得し、各質問情報の抽出情報に基づいて、テキスト情報のイベント抽出結果を決定し、抽出モデルによりテキスト情報を抽出し、複数の質問情報を順次抽出する。各質問情報に対応する正解が異なるため、先に抽出される質問情報の正解に基づいて、後に抽出される質問情報正解を決定する時に、先に抽出される質問情報の正解を除外し、後に抽出される質問情報の抽出情報の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させる。

【0045】

本願の一実施例において、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定することは、テキスト情報に基づいて、テキスト情報のイベントタイプを決定することと、イベントタイプに基づいて、複数のイベント引数役割を決定することと、イベントタイプを複数のイベント引数役割のそれぞれとスプライシングし、複数の質問を決定することと、複数の質問のそれぞれをテキスト情報とスプライシングし、複数の質問情報を決定することと、イベントタイプにおける各イベント引数役割の順番に従って、各イベント引数役割に対応する質問情報を並べ替え、優先順番を有する複数の質問情報を決定することとを含む。

【0046】

本実施例は、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する実施形態を提供する。

【0047】

先ず、テキスト情報に基づいて、テキスト情報のイベントタイプを決定し、テキスト情報のイベントトリガーにより、イベントタイプを定義することができる。ＡＣＥでは、大体７個のメインイベントタイプ及び３０個のイベントサブタイプ（ｓｕｂｔｙｐｅ）が定義されており、ＴＡＣでは、８個のメインイベントタイプ及び１５個のイベントサブタイプ（ｓｕｂｔｙｐｅ）が定義されている。各種のイベントタイプには、対応する役割（ｒｏｌｅ）、即ちイベント引数役割がある。

【0048】

各イベント引数役割により１つの質問を決定することができ、たとえば、イベントタイプをそれぞれ各イベント引数役割とスプライシングし、複数の質問を取得する。スプライシングする際に、イベントタイプの名称を１つのイベント引数役割の名称とスプライシングし、１つの質問を取得することができる。さらに、各質問をそれぞれテキスト情報とスプライシングし、複数の質問情報を取得する。各質問情報において、質問の末端及びテキスト情報の末端の両方ともに予め設定されたキャラクターで標識することができ、たとえば、所定のキャラクター（ＳＥＰ）で末端位置をマークしてもよい。質問情報は、テキストの段落として見なされてもよい。

【0049】

イベントタイプに基づいて決定された複数のイベント引数役割同士は優先順番を有し、これにより、イベントタイプにおける各イベント引数役割の順番に従って、各イベント引数役割に対応する質問情報を並べ替え、優先順番を有する複数の質問情報を決定する。たとえば、イベントタイプがＡであり、Ａが３つのイベント引数役割を有し、これらの順番はイベント引数役割１、イベント引数役割２及びイベント引数役割３であり、イベント引数役割１、イベント引数役割２及びイベント引数役割３のそれぞれにより、質問情報１、質問情報２、質問情報３という３つの質問情報が構成可能であり、そうすると、この３つの質問情報の順番はそれぞれ質問情報１、質問情報２、質問情報３となる。

【0050】

本実施例において、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する際に、テキスト情報のイベントタイプに含まれる複数のイベント引数役割に基づいて、複数の質問情報を構成し、イベントタイプにおける複数のイベント引数役割の順番に従って、複数の質問情報の順番を決定することで、後続で複数の質問情報の順番に従って質問情報の正解を順次決定することを容易にし、且つ現在の質問情報の正解を決定する際に、質問情報の前に並べ替えられた他の質問情報の正解を除外し、現在の質問情報の正解の検索範囲を絞り込み、それにより、効率及び精度を向上させる。

【0051】

本願の一実施例において、ベクトル情報は位置ベクトルをさらに含み、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定した後であって、優先順番に従って、複数の質問情報における各質問情報のベクトル情報を抽出モデルに順次入力し、複数の抽出情報を取得する前に、複数の質問情報のそれぞれについて、質問情報に対して単語分割処理を行い、少なくとも１つの対象単語を取得することと、少なくとも１つの対象単語のそれぞれの位置ベクトルを取得することと、少なくとも１つの対象単語のそれぞれの位置ベクトルに基づいて、質問情報の位置ベクトルを決定することとをさらに含む。

【0052】

質問情報をテキストの段落と見なすことができ、質問情報のいずれについてもその位置ベクトルを取得することができ、取得方法として、先ず、質問情報に対して単語分割を行い、少なくとも１つの単語を取得し、単語分割処理を行って取得した各単語のいずれも対象単語としてもよい。たとえば、質問情報が「小明が中華街に来た」である場合、単語分割処理により「小明が」、「中華街に」、「来た」との３つの単語が取得され、この３つの単語は３つの対象単語となる。その後、対象単語ごとに位置ベクトルを取得し、対象単語ごとに１つの位置ベクトルを取得する。対象単語の位置ベクトルは、対象単語のそれぞれと質問情報における実体及び動詞との間の距離に基づいて決定され、たとえば、質問情報における、対象単語と実体との間の距離、対象単語と動詞との間の距離に基づいて決定される。質問情報において人物、組織、場所又は機関等を示す単語は実体として見なされてもよい。最後に、各対象単語の位置ベクトルをスプライシングし、１つの質問情報の位置ベクトルを取得する。たとえば、位置ベクトルがそれぞれＡ及びＢである２つの対象単語が質問情報に含まれている場合、Ａ及びＢに対してキャラクターのスプライシングを行い、質問情報の位置ベクトルを取得することができる。ここで、符号Ａ及びＢを用いて２つの位置ベクトルを表すが、Ａ及びＢが位置ベクトルの表示式であることに限定するわけではない。各質問情報について、取得過程を繰り返すことで、各質問情報に対応する位置ベクトルを取得することができる。

【0053】

質問情報のベクトル情報は、単語ベクトル及び品詞性ベクトルをさらに含んでもよい。単語ベクトルの取得過程は、訓練サンプルにニュースタイトル及び本文を含む教師なしモデルに対象単語を入力して対象単語の単語ベクトルを取得し、その後、各対象単語の単語ベクトルをスプライシングし、質問情報の単語ベクトルを取得することを含む。品詞性ベクトル（ＰＯＳＥｍｂｅｄｄｉｎｇ）は、対象単語の品詞性を多次元ベクトルにマッピングしたものを指し、同じ品詞性は同じベクトルを用いて初期化し、認識モデルの訓練において、訓練コーパス及び対象に応じて品詞性ベクトルの値を最適化し、その後、各対象単語の品詞性ベクトルをスプライシングし、質問情報の品詞性ベクトルを取得する。

【0054】

さらに、質問情報のベクトル情報は、名詞ベクトル及び指示語ベクトルをさらに含んでいてもよい。名詞は、言語ツールにより抽出され、たとえば人物、機関、地方等の実体名詞であってもよく、たとえば彼、彼女、あいつなどの指示語は、規則に従って取得する。

【0055】

本実施例において、ベクトル情報は、質問情報の位置ベクトルをさらに含み、複数の質問情報のそれぞれについて、質問情報に対して単語分割処理を行い、少なくとも１つの対象単語を取得し、少なくとも１つの対象単語のそれぞれの位置ベクトルを取得し、少なくとも１つの対象単語のそれぞれの位置ベクトルに基づいて、質問情報の位置ベクトルを決定する。質問情報の位置ベクトルには、質問情報の対象単語のそれぞれと質問情報の実体及び動詞との相対的位置が含まれており、このように、対象単語のそれぞれと実体及び動詞との関係が十分に利用され、それにより、情報抽出の精度をさらに向上させることができる。

【0056】

本願の一実施例において、少なくとも１つの対象単語のそれぞれの位置ベクトルを取得することは、質問情報に含まれる実体の個数がＭ（Ｍは正の整数である）以上であり、且つ質問情報に含まれる動詞の個数がＮ（Ｎは正の整数である）以上である場合、質問情報におけるＭ個の実体及びＮ個の動詞を取得することと、少なくとも１つの対象単語のそれぞれについて、対象単語からＭ個の実体までのＭ個の第１相対的位置、及び対象単語からＮ個の動詞までのＮ個の第２相対的位置をそれぞれ計算することと、Ｍ個の第１相対的位置、Ｎ個の第２相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、Ｍ個の第１位置ベクトル及びＮ個の第２位置ベクトルを取得することと、Ｍ個の第１位置ベクトルを質問情報におけるＭ個の実体の優先順番に従ってスプライシングし、第１スプライスベクトルを取得することと、Ｎ個の第２位置ベクトルを質問情報におけるＮ個の動詞の優先順番に従ってスプライシングし、第２スプライスベクトルを取得することと、第１スプライスベクトル及び第２スプライスベクトルをスプライシングし、スプライシング結果を対象単語の位置ベクトルとすることとを含む。

【0057】

本実施例において、Ｍ及びＮは、予め設定された値であり、予め設定することができ、たとえば、Ｍを２に設定し、Ｎを１に設定する。好ましくは、Ｍは３であり、Ｎは２である。質問情報に含まれる実体の個数がＭ以上であり、且つ質問情報に含まれる動詞の個数がＮ以上である場合、即ち、質問情報に含まれる実体の個数及び動詞の個数がいずれもそれぞれの予め設定された値以上である場合、質問情報からＭ個の実体及びＮ個の動詞を取得することができる。

【0058】

少なくとも１つの対象単語のそれぞれについて、対象単語からＭ個の実体までのＭ個の第１相対的位置、及び対象単語からＮ個の動詞までのＮ個の第２相対的位置をそれぞれ計算する。たとえば、少なくとも１つの対象単語が第１対象単語及び第２対象単語を含み、実体が第１実体及び第２実体を含み、動詞が第１動詞を含む場合、第１対象単語と第１実体との間の第１相対的位置、及び第１対象単語と第２実体との間の第２相対的位置を計算し、２つの第１相対的位置を取得し、第１対象単語と第１動詞との間の第２相対的位置を計算し、１つの第２相対的位置を取得する。

【0059】

同様に、第２対象単語について、第２対象単語と第１実体との間の第１相対的位置、及び第２対象単語と第２実体との間の第２相対的位置を計算し、２つの第１相対的位置を取得し、第２対象単語と第１動詞との間の第２相対的位置を計算し、１つの第２相対的位置を取得する。

【0060】

次に、各対象単語について、対象単語に対応するＭ個の第１相対的位置、Ｎ個の第２相対的位置を予め設定された次元の正規分布ベクトルにマッピングし、Ｍ個の第１位置ベクトル及びＮ個の第２位置ベクトルを取得する。予め設定された次元は、実際の状況に応じて設定することができ、ここで限定されない。

【0061】

さらに、対象単語に対応するＭ個の第１位置ベクトルを、質問情報におけるＭ個の実体の優先順番に従ってスプライシングし、第１スプライスベクトルを取得し、対象単語に対応するＮ個の第２位置ベクトルを質問情報におけるＮ個の動詞の優先順番に従ってスプライシングし、第２スプライスベクトルを取得する。スプライシングは、キャラクター列に対するスプライシングとして理解でき、即ち、キャラクター列のようにＭ個の第１位置ベクトルの首尾をそれぞれスプライシングする。

【0062】

その後、対象単語に対応する第１スプライスベクトル及び第２スプライスベクトルをスプライシングし、スプライシング結果を対象単語の位置ベクトルとする。本願において、スプライシングは、キャラクター列の形で第１スプライスベクトル及び第２スプライスベクトルの首尾をそれぞれスプライシングするものとして理解してもよい。

【0063】

本実施例において、質問情報からＭ個の実体及びＮ個の動詞を選択し、その後少なくとも１つの対象単語のそれぞれついて、対象単語からＭ個の実体までのＭ個の第１相対的位置、及び対象単語からＮ個の動詞までのＮ個の第２相対的位置をそれぞれ計算し、その後、Ｍ個の第１相対的位置、Ｎ個の第２相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、Ｍ個の第１位置ベクトル及びＮ個の第２位置ベクトルを取得し、さらにＭ個の第１位置ベクトルを質問情報におけるＭ個の実体の優先順番に従ってスプライシングし、第１スプライスベクトルを取得し、Ｎ個の第２位置ベクトルを質問情報におけるＮ個の動詞の優先順番に従ってスプライシングし、第２スプライスベクトルを取得し、最後に、第１スプライスベクトル及び第２スプライスベクトルをスプライシングし、スプライシング結果を対象単語の位置ベクトルとする。このように、対象単語の位置ベクトルには、対象単語のそれぞれと質問情報の実体及び動詞との間の相対的位置が含まれており、このように、質問情報の位置ベクトルは、対象単語のそれぞれと実体及び動詞との関係を十分に利用することができ、それによって、情報抽出の精度さらに向上させることができる。

【0064】

本願の一実施例において、質問情報に含まれる実体の個数がＭ以上であり、且つ質問情報に含まれる動詞の個数がＮ以上である場合、質問情報におけるＭ個の実体及びＮ個の動詞を取得することは、質問情報に含まれる実体の個数がＭより大きく、且つ質問情報に含まれる動詞の個数がＮ以上であり、或いは、質問情報に含まれる動詞の個数がＮより大きく、且つ質問情報に含まれる実体の個数がＭ以上である場合、質問情報に対して文法依存（Ｓｙｎｔａｃｔｉｃｄｅｐｅｎｄｅｎｃｙ）分析を行い、複数の依存ペアを取得することと、複数の依存ペアのうちの同一依存ペアに含まれる実体及び動詞を選択し、ｍ個（ｍは正の整数である）の実体及びｎ個（ｎは正の整数である）の動詞を取得することと、ｍがＭより小さい場合、質問情報のｍ個の実体以外の実体からｉ個（ｉはＭとｍとの差分である）の実体を選択し、ｉ個の実体を取得することと、ｎがＮより小さい場合、質問情報のｎ個の動詞以外の動詞からｊ個（ｊはＮとｎとの差分であるの動詞を選択し、ｊ個）の動詞を取得することとを含む。

【0065】

本実施例において、質問情報の実体の個数がＭより大きく、且つ動詞の個数がＮ以上であり、或いは、質問情報の動詞の個数がＮより大きく、且つ実体の個数がＭ以上である場合、質問情報の実体及び動詞からＭ個の実体及びＮ個の動詞を選択する。

【0066】

選択する際に、同一依存ペアにおける実体及び動詞を優先的に選択し、即ち実体と動詞との間に依存関係が直接発生し、１つの依存ペアが構成される。たとえば、張三が王五を呼んでくれるように李四を呼ぶ場合、「張三」と「呼んでくれる」との間には直接関係があり、同一依存ペアにおいて、「張三」と「呼んでくれる」との間には直接関係がなく、この場合、同一依存ペアにおける実体「張三」及び動詞「呼ぶ」が優先的に選択される。

【0067】

同一依存ペアにおける全ての実体及び動詞を選択した後、実体の個数がＭより少ない場合、最終的に選択した実体の総数がＭ個となるように、質問情報の残りの実体からｉ個の実体を選択する。質問情報の残りの実体からｉ個の実体を選択する場合、残りの実体の重要性に基づいて選択してもよく、又は質問情報における残りの実体の優先順番に従って選択してもよく、ここで限定しない。

【0068】

動詞の個数がＮより少ない場合、最終的に選択した動詞の総数がＮ個となるように、質問情報の残りの動詞からｊ個の動詞を選択する。質問情報の残りの動詞からｊ個の動詞を選択する場合、残りの動詞の重要性の得点数に基づいて選択してもよく、又は質問情報における残りの動詞の優先順番に従って選択してもよく、ここで限定しない。

【0069】

本実施例において、質問情報に含まれる実体の個数がＭより大きく、且つ質問情報に含まれる動詞の個数がＮ以上であり、或いは、質問情報に含まれる動詞の個数がＮより大きく、且つ質問情報に含まれる実体の個数がＭ以上である場合、質問情報に対して文法依存分析を行い、複数の依存ペアを取得し、複数の依存ペアのうちの同一依存ペアに含まれる実体及び動詞を優先的に選択し、それにより、後続の情報抽出の精度を向上させる。

【0070】

本願の一実施例において、少なくとも１つの対象単語のそれぞれの位置情報を取得することは、少なくとも１つの対象単語のそれぞれについて、質問情報に含まれる実体の個数Ｕ（Ｕは正の整数である）がＭ（Ｍは正の整数である）より少ない場合、対象単語からＵ個の実体までのＵ個の第１相対的位置を取得することと、０ベクトルを用いてＵ個の第１相対的位置を初期化し、Ｍ個の第１相対的位置を取得することと、質問情報に含まれる動詞の個数Ｖ（Ｖは正の整数である）がＮ（Ｎは正の整数である）より少ない場合、対象単語からＶ個の動詞までのＶ個の第２相対的位置を取得することと、０ベクトルを用いてＶ個の第２相対的位置を初期化し、Ｎ個の第２相対的位置を取得することと、Ｍ個の第１相対的位置、Ｎ個の第２相対的位置をそれぞれ正規分布ベクトルにマッピングし、Ｍ個の第１位置ベクトル及びＮ個の第２位置ベクトルを取得することと、Ｍ個の第１位置ベクトルを質問情報におけるＭ個の実体の優先順番に従ってスプライシングし、第１スプライスベクトルを取得することと、Ｎ個の第２位置ベクトルを質問情報におけるＮ個の動詞の優先順番に従ってスプライシングし、第２スプライスベクトルを取得することと、第１スプライスベクトル及び第２スプライスベクトルをスプライシングし、スプライシング結果を対象単語の位置ベクトルとすることとを含む。

【0071】

本実施例は、質問情報に含まれる実体の個数又は動詞の個数が予め設定された値より少ない場合である。Ｍ及びＮは予め設定された値であり、予め設定することができ、好ましくは、Ｍは３であり、Ｎは２である。

【0072】

質問情報に含まれる実体の個数ＵがＭより少ない場合、対象単語からＵ個の実体までのＵ個の第１相対的位置を取得し、その後、０ベクトルを用いてＵ個の第１相対的位置を初期化し、Ｍ個の第１相対的位置を取得し、初期化する際に、少なくとも１つの０ベクトルを用いてＵ個の第１相対的位置に対して充填を行い、Ｍ個の第１相対的位置を取得することができる。１つの０ベクトルの長さ及び１つの位置ベクトルの長さは同じである。質問情報に含まれる実体の個数ＶがＮより少ない場合、対象単語からＶ個の実体までのＶ個の第２相対的位置を取得し、その後、０ベクトルを用いてＶ個の第２相対的位置を初期化し、Ｎ個の第２相対的位置を取得し、初期化する際に、少なくとも１つの０ベクトルを用いてＶ個の第２相対的位置に対して充填を行い、Ｎ個の第２相対的位置を取得することができる。１つの０ベクトルの長さ及び１つの位置ベクトルの長さは同じである。最後に、Ｍ個の第１相対的位置、Ｎ個の第２相対位置をそれぞれ正規分布ベクトルにマッピングし、Ｍ個の第１位置ベクトル及びＮ個の第２位置ベクトルを取得する。Ｍ個の第１位置ベクトルを質問情報におけるＭ個の実体の優先順番に従ってスプライシングし、第１スプライスベクトルを取得し、Ｎ個の第２位置ベクトルを質問情報におけるＮ個の動詞の優先順番に従ってスプライシングし、第２スプライスベクトルを取得し、第１スプライスベクトル及びスプライスベクトルをスプライシングし、スプライシング結果を対象単語の位置ベクトルとする。質問情報における全ての対象単語について、いずれも上記の方式で処理し、各対象単語に対応する位置ベクトルを取得することができる。

【0073】

本実施例において、質問情報に含まれる実体の個数又は動詞の個数が予め設定された値より少ない場合、０ベクトルを用いてＵ個の第１相対的位置又はＶ個の第２相対的位置を初期化し、Ｍ個の第１相対的位置及びＮ個の第２相対的位置を取得し、最終的に対象単語に対応する位置ベクトルを取得する。質問情報の位置ベクトルには、質問情報の各対象単語のそれぞれと質問情報の実体及び動詞との間の相対的位置が含まれており、このように、対象単語のそれぞれと実体及び動詞との関係が十分に利用され、それにより、情報抽出の精度をさらに向上させることができる。

【0074】

本実施例において、質問情報に基づいて取得した単語ベクトル、位置ベクトル及び正解マークベクトルは、抽出モデルの訓練段階に適用することができる。図２は、抽出モデルの各層の構造概略図であり、図２に示されるように、入力層：構築された質問－ドキュメントペア＜質問，ドキュメント＞に基づいて取得した単語ベクトル、位置ベクトル及び正解マークベクトルを入力する。ここで、質問は、訓練コーパスのイベントタイプ及び１つのイベント引数役割の名称をスプライシングしたものであり、ドキュメント（即ち訓練コーパス）は、イベント引数の正解を潜在的に含む内容である。１つの質問及びドキュメントがスプライシングされて１つの文（即ち質問情報）となり、質問及びドキュメントの末端位置が（ＳＥＰ）で標識される。スプライシングにより得られた文について単語分割処理を行い、それぞれいずれも単語ベクトル及び位置ベクトルを有する対象単語を取得し、各対象単語の単語ベクトル及び位置ベクトルのそれぞれに基づいて、文の単語ベクトル及び位置ベクトルを取得することができる。また、文の正解マークベクトル、即ちドキュメントにおける１つ前のラウンドの質問に対する正解の位置をさらに取得し、回答済みの位置に１をマークし、回答していない位置に０をマークし、その後、マークした後のドキュメントをベクトルに変換して正解マークベクトルとする。モデルネットワーク：基本的なニューラルネットワークモデルを用いることができる。
出力層：本ラウンドの質問情報の正解のドキュメントにおける開始位置及び終了位置である。

【0075】

図３は、イベントタイプにおいてイベント引数役割に基づいて決定される複数の質問情報の処理の概略図であり、図３に示すように、質問を問い合わせる順番は、先ず、イベントのイベントトリガーを問い合わせ、次に、イベントの全てのイベント引数役割を問い合わせ、役割の順番は固定であるものであり、本回の問い合わせにおいて、以前問い合わせて出力した正解を統合し、現在の問い合わせ条件下での履歴回答のマークを生成し、訓練コーパス（又はテキスト情報）におけるあるキャラクターが以前の問い合わせ過程での正解である場合、キャラクター位置に１をマークし、それ以外の場合は０をマークする。

【0076】

図３から分かるように、前に並べ替えられたイベント引数役割（具体的には、イベント引数役割に基づいて決定された質問情報）の出力結果（即ち抽出情報）は、後に並べ替えられたイベント引数役割の出力結果に影響する。

【0077】

本願は、イベント引数役割を基礎とする質問を構築することにより、読解術を利用して対象正解を学習し、また、同じ正解に複数の役割が割り当てられないため、異なる役割の正解を取得すると、回答済みの正解を特徴の一部とし、それにより、抽出モデルの候補項を減らし、モデル効果をさらに向上させることができる。テキスト情報に対してイベント抽出を行って構造化情報を得ることで、テキスト内容に対する電子デバイスの理解能力を向上させ、大量の情報を減らし、作業效率をさらに向上させることができる。

【0078】

図４を参照すると、図４は、本願の一実施例に係るイベント抽出装置の構造図であり、図４に示されるように、本実施例に係るイベント抽出装置４００は、テキスト情報を取得する第１取得モジュール４０１と、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する第１決定モジュール４０２と、優先順番に従って、正解マークベクトルを含む複数の質問情報のベクトル情報を抽出モデルに順次入力し、各質問情報の抽出情報を取得する第２取得モジュール４０３と、各質問情報の抽出情報に基づいて、テキスト情報のイベント抽出結果を決定する第２決定モジュール４０４とを備える。

【0079】

本願の一実施例において、複数の質問情報のうち１番目に並べ替えられた第１質問情報について、第１質問情報の正解マークベクトルはテキスト情報の初期マークに基づいて決定され、複数の質問情報のうち第１質問情報の後に並べ替えられた第２質問情報について、第２質問情報の正解マークベクトルは、第２質問情報の前に並べ替えられた少なくとも１つの質問情報の抽出情報に基づいて決定される。

【0080】

本願の一実施例において、ベクトル情報は、位置ベクトルをさらに含み、イベント抽出装置は、複数の質問情報のそれぞれについて、質問情報に対して単語分割処理を行い、少なくとも１つの対象単語を取得する単語分割モジュールと、少なくとも１つの対象単語のそれぞれの位置ベクトルを取得する第３取得モジュールと、少なくとも１つの対象単語のそれぞれの位置ベクトルに基づいて、質問情報の位置ベクトルを決定する第３決定モジュールとをさらに備える。

【0081】

本願の一実施例において、第３取得モジュールは、質問情報に含まれる実体の個数がＭ（Ｍは正の整数である）以上であり、且つ質問情報に含まれる動詞の個数がＮ（Ｎは正の整数である）以上である場合、質問情報におけるＭ個の実体及びＮ個の動詞を取得する第１取得サブモジュールと、少なくとも１つの対象単語のそれぞれについて、対象単語からＭ個の実体までのＭ個の第１相対的位置、対象単語からＮ個の動詞までのＮ個の第２相対的位置をそれぞれ計算する計算サブモジュールと、Ｍ個の第１相対的位置、Ｎ個の第２相対的位置をそれぞれ予め設定された次元の正規分布ベクトルにマッピングし、Ｍ個の第１位置ベクトル及びＮ個の第２位置ベクトルをそれぞれ取得するマッピングサブモジュールと、Ｍ個の第１位置ベクトルを質問情報におけるＭ個の実体の優先順番に従ってスプライシングし、第１スプライスベクトルを取得する第２取得サブモジュールと、Ｎ個の第２位置ベクトルを質問情報におけるＮ個の動詞の優先順番に従ってスプライシングし、第２スプライスベクトルを取得する第３取得サブモジュールと、第１スプライスベクトル及び第２スプライスベクトルをスプライシングし、スプライシング結果を対象単語の位置ベクトルとする第４取得サブモジュールとを備える。

【0082】

本願の一実施例において、第１取得サブモジュールは、質問情報に含まれる実体の個数がＭより大きく、且つ質問情報に含まれる動詞の個数がＮ以上であり、或いは、質問情報に含まれる動詞の個数がＮより大きく、且つ質問情報に含まれる実体の個数がＭ以上である場合、質問情報に対して文法依存分析を行い、複数の依存ペアを取得する第１取得ユニットと、複数の依存ペアのうちの同一依存ペアに含まれる実体及び動詞を選択し、ｍ個（ｍは正の整数である）の実体及びｎ個（ｎは正の整数である）の動詞を取得する第２取得ユニット、ｍがＭより小さい場合、質問情報のｍ個の実体以外の実体から、ｉ個（ｉはＭとｍとの差分である）の実体を選択し、ｉ個の実体を取得する第３取得ユニットと、ｎがＮより小さい場合、質問情報のｎ個の動詞以外の動詞から、ｊ個（ｊはＮとｎとの差分である）の動詞を選択し、ｊ個の動詞を取得する第４取得ユニットとを備える。

【0083】

本願の一実施例において、第１決定モジュールは、テキスト情報に基づいて、テキスト情報のイベントタイプを決定する第１決定サブモジュールと、イベントタイプに基づいて、複数のイベント引数役割を決定する第２決定サブモジュールと、イベントタイプを複数のイベント引数役割のそれぞれとスプライシングし、複数の質問を決定する第３決定サブモジュールと、複数の質問のそれぞれをテキスト情報とスプライシングし、複数の質問情報を取得するスプライスサブモジュールと、イベントタイプにおける各イベント引数役割の順番に従って、各イベント引数役割に対応する質問情報を並べ替え、優先順番を有する複数の質問情報を決定する第４決定サブモジュールとを備える。

【0084】

イベント抽出装置４００は、図１に示すイベント抽出方法の実施例における電子デバイスが実現する各過程を実現することができ、重複を回避するために、ここでは、説明を省略する。

【0085】

本願の実施例のイベント抽出装置４００は、テキスト情報を取得し、テキスト情報に基づいて、優先順番を有する複数の質問情報を決定し、優先順番に従って、正解マークベクトルを含む複数の質問情報のベクトル情報を抽出モデルに順次入力し、各質問情報の抽出情報を取得し、各質問情報の抽出情報に基づいて、テキスト情報のイベント抽出結果を決定する。抽出モデルによりテキスト情報を抽出する際に、複数の質問情報を順次抽出し、各質問情報に対応する正解が異なるため、先に抽出される質問情報の正解に基づいて後に抽出される質問情報の正解を決定する時に、先に抽出される質問情報の正解を排除し、後に抽出される質問情報の抽出情報の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させる。

【0086】

本願の一実施例において、本願は、電子デバイス及び読み取り可能な記憶媒体をさらに提供する。

【0087】

図５には、本願の一実施例に係るイベント抽出方法の電子デバイスのブロック図が示されている。電子デバイスは、たとえば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを指すことを意図している。
電子デバイスは、たとえば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及びその他の類似のコンピューティング装置など、様々な形式の移動装置を示してもよい。本明細書に示されているコンポーネント、それらの接続と関係、及びそれらの機能は単なる一例であるが、本明細書の説明及び／又は要求される本願の実現を制限する意図はしない。

【0088】

図５に示されるように、この電子デバイスは、少なくとも１つのプロセッサ５０１、メモリ５０２、及び高速インターフェースと低速インターフェースを含む、様々なコンポーネントを接続するためのインターフェースを含む。各コンポーネントは、異なるバスを介して互いに接続され、共通のマザーボードに取り付けられ、又は必要に応じて他の方式で取り付けられ得る。プロセッサは電子デバイス内で実行される命令を処理でき、この命令には、メモリ内に格納される又はメモリ上に格納されて外部入力／出力装置（たとえば、インターフェースに結合された表示デバイスなど）にＧＵＩのグラフィック情報を表示する命令が含まれる。他の実施形態では、複数のプロセッサ及び／又は複数のバスを、必要に応じて、複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続することができ、各デバイスは必要な操作の一部（たとえば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして）を提供する。図５では、１つのプロセッサ５０１の場合が例示されている。

【0089】

メモリ５０２は、本願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。メモリは、本願の一実施例に係るイベント抽出方法を少なくとも１つのプロセッサに実行させるように、少なくとも１つのプロセッサによって実行可能な命令を格納している。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願の一実施例に係るイベント抽出方法をコンピュータに実行させるためのコンピュータ命令を格納している。

【0090】

非一時的なコンピュータ読み取り可能な記憶媒体としてのメモリ５０２は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、たとえば、本願の一実施例に係るイベント抽出方法に対応するプログラム命令／モジュール（たとえば、図４に示す第１取得モジュール４０１、第１決定モジュール４０２、第２取得モジュール４０５及び第２決定モジュール４０４）を格納することができる。プロセッサ５０１は、メモリ５０２に格納された非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記実施例におけるイベント抽出方法を実現する。

【0091】

メモリ５０２は、プログラム記憶領域及びデータ記憶領域を含むことができ、プログラム記憶領域は、オペレーティングシステム、及び少なくとも１つの機能に必要なアプリケーションプログラムを格納し、データ記憶領域は、イベント抽出方法を実現する電子デバイスの使用に従って作成されたデータなどを格納する。さらに、メモリ５０２は、高速ランダムアクセスメモリを含み、さらに、たとえば、少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよい。他の実施例として、メモリ５０２は、プロセッサ５０１に対して遠隔的に設置されるメモリを選択的に含んでいてもよく、これらの遠隔メモリは、ネットワークを介してイベント抽出方法を実現する電子デバイスに接続され得る。上記ネットワークの一例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

【0092】

イベント抽出方法を実現する電子デバイスは、入力装置５０３及び出力装置５０４をさらに含んでいてもよい。プロセッサ５０１、メモリ５０２、入力装置５０３及び出力装置５０４はバス又はその他の方式で接続してもよく、図５には、バスによる接続が例示されている。

【0093】

入力装置５０３は、入力される数字又はキャラクター情報を受信すること、イベント抽出方法を実現する電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成することができる。入力装置としては、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ以上のマウスボタン、トラックボール、ジョイスティック等の入力装置がある。出力装置５０４は、表示デバイス、補助照明装置（たとえば、ＬＥＤ）、触覚フィードバック装置（たとえば、振動モータ）などを含む。この表示デバイスは、液晶ディスプレイ（ＬＤＣ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。いくつかの実施形態では、表示デバイスはタッチスクリーンであり得る。

【0094】

ここで説明するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＭＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、少なくとも１つのコンピュータプログラムは、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び／又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置に送信することができる。

【0095】

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）には、プログラム可能なプロセッサの機械命令が含まれ、高度なプロセス及び／又はオブジェクト指向のプログラミング言語、及び／又はアセンブリ／機械語を用いてこれらのコンピューティングプログラムを実施できる。たとえば、本明細書で使用される「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラム可能なプロセッサの任意のコンピュータプログラム製品、デバイス、及び／又は装置（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））に提供するものを指し、機械読み取り可能な信号としての機械命令を受信するための機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラム可能なプロセッサに機械命令及び／又はデータを提供するために使用される任意の信号を指す。

【0096】

ユーザと対話できるように、ここで説明するシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置（たとえば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニター）、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置（たとえば、マウスやトラックボール）を有する。他の種類の装置も、ユーザとの対話を提供することができ、たとえば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック（たとえば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック）であってもよく、そして、ユーザからの入力は、任意の形式（音響入力、音声入力、又は触覚入力を含む）で受信できる。

【0097】

ここで説明するシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（たとえば、データサーバとして）、又はミドルウェアコンポーネントを含むコンピューティングシステム（たとえば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（たとえば、グラフィカルユーザインターフェース又はＷＥＢブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのＷＥＢブラウザーを介してここで説明するシステム及び技術の実施形態と対話できる）、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントを含む任意の組み合わせコンピューティングシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信（たとえば、通信ネットワーク）を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットが含まれる。

【0098】

コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介して互いに会話するのが一般的である。クライアントとサーバの関係は、対応するコンピュータで実行され、互いにクライアント－サーバの関係を持つコンピュータプログラムによって生成される。

【0099】

本願の一実施例の技術案によれば、以下の有益な効果を含む。
抽出モデルによりテキスト情報を抽出する際に、複数の質問情報を順次抽出し、各質問情報に対応する正解が異なるため、先に抽出される質問情報の正解に基づいて後に抽出される質問情報の正解を決定する時に、先に抽出される質問情報の正解を除外し、後に抽出される質問情報の抽出情報の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させる。

【0100】

抽出モデルによりテキスト情報を抽出する際に、第２質問情報の抽出情報を取得する時に、第２質問情報の前に並べ替えられた少なくとも１つの質問情報の抽出情報が考慮され、各質問情報に対応するが正解が異なるため、他の質問情報の正解に基づいて第２質問情報を決定する時に、他の質問情報の正解を除外し、第２質問情報の抽出情報を決定する時の範囲を絞り込むことができ、それにより、情報抽出の速度及び精度を向上させる。

【0101】

テキスト情報に基づいて、優先順番を有する複数の質問情報を決定する時に、テキスト情報のイベントタイプに含まれる複数のイベント引数役割に基づいて、複数の質問情報を構成し、イベントタイプにおける複数のイベント引数役割の順番に従って、複数の質問情報の順番を決定することで、後で複数の質問情報の順番に従って、質問情報の正解を順次決定することを容易にし、現在の質問情報の正解を決定する時に、質問情報の前に並べ替えられた他の質問情報の正解を除外し、現在の質問情報の正解の検索範囲を絞り込み、それにより、効率及び精度を向上させる。

【0102】

ベクトル情報は、質問情報の位置ベクトルをさらに含み、複数の質問情報のそれぞれについて、質問情報に対して単語分割処理を行い、少なくとも１つの対象単語を取得し、少なくとも１つの対象単語のそれぞれの位置ベクトルを取得し、少なくとも１つの対象単語のそれぞれの位置ベクトルに基づいて、質問情報の位置ベクトルを決定する。質問情報の位置ベクトルには、質問情報の各対象単語のそれぞれと質問情報の実体及び動詞との相対的位置が含まれており、このように、対象単語のそれぞれと実体及び動詞との関係が十分に利用され、それにより、情報抽出の精度をさらに向上させることができる。

【0103】

対象単語の位置ベクトルには、対象単語のそれぞれと質問情報の実体及び動詞との相対的位置が含まれており、このように、質問情報の位置ベクトルが対象単語のそれぞれと実体及び動詞との関係を十分に利用し、それにより、情報抽出の精度をさらに向上させることができる。

【0104】

質問情報に含まれる実体の個数がＭより大きく、且つ質問情報に含まれる動詞の個数がＮ以上であり、或いは、質問情報に含まれる動詞の個数がＮより大きく、且つ質問情報に含まれる実体の個数がＭ以上である場合、質問情報に対して文法依存分析を行い、複数の依存ペアを取得し、複数の依存ペアのうちの同一依存ペアに含まれる実体及び動詞を優先的に選択することで、後続の情報抽出の精度を向上させる。

【0105】

なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。たとえば、本願に記載の各ステップは、本願開示の技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順序で実施してもよく、本明細書では、それについて限定しない。

【0106】

上記の特定実施形態は、本願の特許範囲に対する制限を構成するものではない。当業者にとって明らかなように、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができる。本願の精神及び原則の範囲内で行われた修正、同等の置換、及び改良であれば、本願の特許範囲に含まれるものとする。

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版