IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7481251テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体
<>
  • 特許-テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 図1
  • 特許-テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 図2
  • 特許-テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 図3
  • 特許-テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 図4
  • 特許-テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 図5
  • 特許-テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 図6
  • 特許-テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 図7
  • 特許-テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 図8
  • 特許-テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 図9
  • 特許-テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-30
(45)【発行日】2024-05-10
(54)【発明の名称】テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
   G06F 40/279 20200101AFI20240501BHJP
   G06F 16/30 20190101ALI20240501BHJP
【FI】
G06F40/279
G06F16/30
【請求項の数】 11
(21)【出願番号】P 2020217680
(22)【出願日】2020-12-25
(65)【公開番号】P2022013602
(43)【公開日】2022-01-18
【審査請求日】2020-12-25
【審判番号】
【審判請求日】2023-01-13
(31)【優先権主張番号】202010608577.6
(32)【優先日】2020-06-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】パン ルウ
(72)【発明者】
【氏名】チェン ユーグアン
(72)【発明者】
【氏名】リ ファーユアン
【合議体】
【審判長】佐藤 智康
【審判官】渡邊 聡
【審判官】古川 哲也
(56)【参考文献】
【文献】特開2018-197953(JP,A)
【文献】特開2018-206263(JP,A)
【文献】特許第5389273(JP,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F16/30
G06F40/279
(57)【特許請求の範囲】
【請求項1】
テキスト中のイベント抽出方法であって、
取得モジュールが入力テキストを取得するステップと、
述語抽出モジュールが前記入力テキストを述語抽出モデルに入力して、前記入力テキストの述語抽出結果を取得するステップと、
項抽出モジュールが前記入力テキスト及び前記述語抽出結果を項抽出モデルに入力して、前記入力テキストの項抽出結果を取得するステップと、
決定モジュールが前記述語抽出結果及び前記項抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するステップと、
を含み、イベントは述語が示すイベントであり、
前記述語抽出モデルは、第1の予めトレーニングされた言語モデルと、第1のシーケンスラベリングネットワークと、を含み、前記述語抽出モデルが前記入力テキストを述語抽出モデルに入力して、前記入力テキストの述語抽出結果を取得するステップは、
第1の字分割サブモジュールが前記入力テキストを字分割して、前記入力テキストの字シーケンスを取得するステップと、
第1の意味特徴表現サブモジュールが前記字シーケンスを第1の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第1の意味特徴ベクトルシーケンスを取得するステップと、
第1のラベリングサブモジュールが前記第1の意味特徴ベクトルシーケンスを前記第1のシーケンスラベリングネットワークに入力して、前記字シーケンスの述語ラベリングシーケンスを取得するステップと、
第6の結果サブモジュールが前記述語ラベリングシーケンスに基づいて、前記入力テキストの述語抽出結果を決定するステップと、
を含み、
前記第1のシーケンスラベリングネットワークは、第1の条件ランダムフィールドレイヤを含み、第1のラベリングサブモジュールが前記第1の意味特徴ベクトルシーケンスを前記第1のシーケンスラベリングネットワークに入力して、前記字シーケンスの述語ラベリングシーケンスを取得するステップは、
第1の決定ユニットが前記第1の意味特徴ベクトルシーケンスに基づいて、前記各述語ラベリングラベルで字シーケンスにおける各字の確率値を決定するステップと、
第1の取得ユニットが前記第1の条件ランダムフィールドレイヤに対応する第1のラベル遷移確率行列を取得するステップと、
第2の決定ユニットが前記第1のラベル遷移確率行列及び各述語ラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補述語抽出結果の確率値を決定するステップと、
第2の取得ユニットが複数の候補述語シーケンスから確率値が最も大きい候補述語ラベリングシーケンスを前記字シーケンスの述語ラベリングシーケンスとして取得するステップと、
を含む、
ことを特徴とするテキスト中のイベント抽出方法。
【請求項2】
決定モジュールが前記述語抽出結果及び前記項抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するステップは、
第1の決定サブモジュールが前記述語抽出結果に基づいて、前記入力テキスト中の述語を決定するステップと、
第2の決定サブモジュールが前記述語に基づいて、前記述語が属するイベントタイプを決定するステップと、
第3の決定サブモジュールが前記項抽出結果に基づいて、前記入力テキスト中の項を決定するステップと、
第4の決定サブモジュールが前記イベントタイプと前記項に基づいて、前記項が前記イベントタイプで属する項役割を決定するステップと、
第5の決定サブモジュールが前記述語、前記イベントタイプ、前記項及び前記項役割に基づいて、前記入力テキストのイベント抽出結果を決定するステップと、
を含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記項抽出モデルは、第2の予めトレーニングされた言語モデルと、第2のシーケンスラベリングネットワークと、を含み、項抽出モジュールが前記入力テキスト及び前記述語抽出結果を項抽出モデルに入力して、前記入力テキストの項抽出結果を取得するステップは、
第2の字分割サブモジュールが前記入力テキストを字分割して、前記入力テキストの字シーケンスを取得するステップと、
第7の決定サブモジュールが入力テキストにおける各字の述語抽出結果に基づいて、前記字シーケンスの述語特徴ベクトルシーケンスを決定するステップであって、述語抽出結果は、入力テキストにおける各字の述語識別結果を含むステップと、
第8の決定サブモジュールが前記字シーケンスに基づいて、前記字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定するステップであって、テキスト特徴ベクトルは、字シーケンスの字特徴ベクトルと、位置特徴ベクトルと、コンテキスト特徴ベクトルと、を含むステップと、
融合サブモジュールが前記字シーケンスの字特徴ベクトルと、位置特徴ベクトルと、コンテキスト特徴ベクトルと、前記述語特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得するステップと、
第2の意味特徴表現サブモジュールが前記融合特徴ベクトルシーケンスを前記第2の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第2の意味特徴ベクトルシーケンスを取得するステップと、
第2のラベリングサブモジュールが前記第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、前記字シーケンスの項ラベリングシーケンスを取得するステップと、
第9の決定サブモジュールが前記項ラベリングシーケンスに基づいて、前記入力テキストの項を決定するステップと、
を含む、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記第2のシーケンスラベリングネットワークは、第2の条件ランダムフィールドレイヤを含み、第2のラベリングサブモジュールが前記第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、前記字シーケンスの項ラベリングシーケンスを取得するステップは、
第3の決定ユニットが前記第2の意味特徴ベクトルシーケンスに基づいて、前記各項ラベリングラベルで字シーケンスにおける各字の確率値を決定するステップと、
第3の取得ユニットが前記第2の条件ランダムフィールドレイヤに対応する第2のラベル遷移確率行列を取得するステップと、
第4の決定ユニットが前記第2のラベル遷移確率行列及び各項ラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補項ラベリングシーケンスの確率値を決定するステップと、
第4の取得モジュールが前記複数の候補項シーケンスから確率値が最も大きい候補項ラベリングシーケンスを前記字シーケンスの項ラベリングシーケンスとして取得するステップと、
を含む、
ことを特徴とする請求項3に記載の方法。
【請求項5】
テキスト中のイベント抽出装置であって、
入力テキストを取得するための取得モジュールと、
前記入力テキストを述語抽出モデルに入力して、前記入力テキストの述語抽出結果を取得するための述語抽出モジュールと、
前記入力テキスト及び前記述語抽出結果を項抽出モデルに入力して、前記入力テキストの項抽出結果を取得するための項抽出モジュールと、
前記述語抽出結果及び前記項抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するための決定モジュールと、
を含み、イベントは述語が示すイベントであり、
前記述語抽出モデルは、第1の予めトレーニングされた言語モデルと、第1のシーケンスラベリングネットワークと、を含み、前記述語抽出モジュールは、
前記入力テキストを字分割して、前記入力テキストの字シーケンスを取得するための第1の字分割サブモジュールと、
前記字シーケンスを第1の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第1の意味特徴ベクトルシーケンスを取得するための第1の意味特徴表現サブモジュールと、
前記第1の意味特徴ベクトルシーケンスを前記第1のシーケンスラベリングネットワークに入力して、前記字シーケンスの述語ラベリングシーケンスを取得するための第1のラベリングサブモジュールと、
前記述語ラベリングシーケンスに基づいて、前記入力テキストの述語抽出結果を決定するための第6の結果サブモジュールと、
を含み、
前記第1のシーケンスラベリングネットワークは、第1の条件ランダムフィールドレイヤを含み、前記第1のラベリングサブモジュールは、
前記第1の意味特徴ベクトルシーケンスに基づいて、前記各述語ラベリングラベルで字シーケンスにおける各字の確率値を決定するための第1の決定ユニットと、
前記第1の条件ランダムフィールドレイヤに対応する第1のラベル遷移確率行列を取得するための第1の取得ユニットと、
前記第1のラベル遷移確率行列及び各述語ラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補述語抽出結果の確率値を決定するための第2の決定ユニットと
数の候補述語シーケンスから確率値が最も大きい候補述語ラベリングシーケンスを前記字シーケンスの述語ラベリングシーケンスとして取得するための第2の取得ユニットと、
を含む、
ことを特徴とするテキスト中のイベント抽出装置。
【請求項6】
前記決定モジュールは、
前記述語抽出結果に基づいて、前記入力テキスト中の述語を決定するための第1の決定サブモジュールと、
前記述語に基づいて、前記述語が属するイベントタイプを決定するための第2の決定サブモジュールと、
前記項抽出結果に基づいて、前記入力テキスト中の項を決定するための第3の決定サブモジュールと、
前記イベントタイプと前記項に基づいて、前記項が前記イベントタイプで属する項役割を決定するための第4の決定サブモジュールと、
前記述語、前記イベントタイプ、前記項及び前記項役割に基づいて、前記入力テキストのイベント抽出結果を決定するための第5の決定サブモジュールと、
を含む、
ことを特徴とする請求項5に記載の装置。
【請求項7】
前記項抽出モデルは、第2の予めトレーニングされた言語モデルと、第2のシーケンスラベリングネットワークと、を含み、前記項抽出モジュールは、
前記入力テキストを字分割して、前記入力テキストの字シーケンスを取得するための第2の字分割サブモジュールと、
入力テキストにおける各字の述語抽出結果に基づいて、前記字シーケンスの述語特徴ベクトルシーケンスを決定するための第7の決定サブモジュールであって、述語抽出結果は、入力テキストにおける各字の述語識別結果を含む第7の決定サブモジュールと、
前記字シーケンスに基づいて、前記字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定するための第8の決定サブモジュールであって、テキスト特徴ベクトルは、字シーケンスの字特徴ベクトルと、位置特徴ベクトルと、コンテキスト特徴ベクトルと、を含む第8の決定サブモジュールと、
前記字シーケンスの字特徴ベクトルと、位置特徴ベクトルと、コンテキスト特徴ベクトルと、前記述語特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得するための融合サブモジュールと、
前記融合特徴ベクトルシーケンスを前記第2の予めトレーニングされた言語モデルに入力して、前記字シーケンスの第2の意味特徴ベクトルシーケンスを取得するための第2の意味特徴表現サブモジュールと、
前記第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、前記字シーケンスの項ラベリングシーケンスを取得するための第2のラベリングサブモジュールと、
前記項ラベリングシーケンスに基づいて、前記入力テキストの項を決定するための第9の決定サブモジュールと、
を含む、
ことを特徴とする請求項5に記載の装置。
【請求項8】
前記第2のシーケンスラベリングネットワークは、第2の条件ランダムフィールドレイヤを含み、前記第2のラベリングサブモジュールは、
前記第2の意味特徴ベクトルシーケンスに基づいて、前記各項ラベリングラベルで字シーケンスにおける各字の確率値を決定するための第3の決定ユニットと、
前記第2の条件ランダムフィールドレイヤに対応する第2のラベル遷移確率行列を取得するための第3の取得ユニットと、
前記第2のラベル遷移確率行列及び各項ラベリングラベルで各字の確率値に基づいて、前記字シーケンスの複数の候補項ラベリングシーケンスの確率値を決定するための第4の決定ユニットと、
前記複数の候補項シーケンスから確率値が最も大きい候補項ラベリングシーケンスを前記字シーケンスの項ラベリングシーケンスとして取得するための第4の取得モジュールと、
を含む、
ことを特徴とする請求項7に記載の装置。
【請求項9】
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが請求項1~4のいずれかに記載の方法を実行する、
ことを特徴とする電子機器。
【請求項10】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~4のいずれかに記載の方法を実行させる、
ことを特徴とするコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項11】
コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項1~4のいずれかに記載の方法が実行される、
ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、人工知能技術分野に関し、具体的に知識グラフ、深層学習、自然言語処理技術分野に関し、特にテキスト中のイベント抽出方法、装置、電子機器及び記憶媒体に関する。
【背景技術】
【0002】
インターネットの普及と発展に伴い、ネットワーク中の情報規模は爆発的に増加しており、大量の自然言語文書から必要な情報をタイムリかつ正確に見つけることがますます差し迫っている。情報抽出技術(Information Extraction、IE)は、ルーズで構造化されていない通常のテキストから、指定されたタイプのエンティティ、関係、イベントなどの事実情報を抽出し、構造化データを出力する。ここで、イベント抽出(Event Extraction)は、情報抽出研究で最も困難なタスクの1つであり、主に、構造化されていない自然言語テキストから、イベントの種類、イベントの参加者、発生時間と場所などのイベントの基本情報を抽出し、構造化された形式で提示する方法を研究する。したがって、どのようにテキストからイベントを正確かつ迅速に抽出を行うかは、緊急に解決する必要がある技術的な問題である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本出願の実施例は、テキスト中のイベント抽出のための方法、装置、電子機器及び記憶媒体を提供する。
【課題を解決するための手段】
【0004】
本出願の一態様によれば、テキスト中のイベント抽出方法を提供し、
入力テキストを取得するステップと、前記入力テキストを述語抽出モデルに入力して、前記入力テキストの述語抽出結果を取得するステップと、前記入力テキスト及び前記述語抽出結果を抽出モデルに入力して、前記入力テキストの抽出結果を取得するステップと、前記述語抽出結果及び前記抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するステップと、を含む。
【0005】
本出願の別の態様によれば、テキスト中のイベント抽出装置を提供し、
入力テキストを取得するための取得モジュールと、前記入力テキストを述語抽出モデルに入力して、前記入力テキストの述語抽出結果を取得するための述語抽出モジュールと、前記入力テキスト及び前記述語抽出結果を抽出モデルに入力して、前記入力テキストの抽出結果を取得するための抽出モジュールと、前記述語抽出結果及び前記抽出結果に基づいて、前記入力テキストのイベント抽出結果を決定するための決定モジュールと、を含む。
【0006】
本出願の別の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが本出願のテキスト中のイベント抽出方法を実行する。
【0007】
本出願の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、前記コンピュータに本出願の実施例により開示された電子機器のテキスト中のイベント抽出方法を実行させる。
本出願の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、第1の態様の実施例に記載のテキスト中のイベント抽出方法が実行される。
【発明の効果】
【0008】
上記出願における一つの実施例は、以下のような利点または有益な効果を有する。入力テキストのイベント抽出を行う場合、述語抽出モジュールによって入力テキストに対して述語抽出を行って、当該入力テキストの述語抽出結果を取得し、入力テキスト及び述語抽出結果を抽出モデルに入力して、入力テキストの抽出結果を取得し、述語抽出結果と抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、述語抽出結果と抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
【0009】
なお、発明の概要に記載された内容は、本出願の実施例の肝心または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定することを意図するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されやすくなる。
【図面の簡単な説明】
【0010】
図面は、本技術案をよりよく理解するために使用されており、本出願の限定を構造するものではない。
図1】本出願の第1の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。
図2】本出願の第2の実施例に係るテキスト中のイベント抽出方法のフローチャートである。
図3】本出願の第3の実施例に係るテキスト中のイベント抽出方法のフローチャートである。
図4】本出願の第4の実施例に係るテキスト中のイベント抽出方法のフローチャートである。
図5】本出願の第5の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。
図6】本出願の第6の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。
図7】本出願の第7の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。
図8】本出願の第8の実施例により提供されるテキスト中のイベント抽出装置の概略構造図である。
図9】本出願の第9の実施例により提供されるテキスト中のイベント抽出装置の概略構造図である。
図10】本出願の実施例のテキスト中のイベント抽出方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0011】
以下、図面を組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構造の説明を省略する。
【0012】
以下、図面を参照して本出願の実施例のテキスト中のイベント抽出方法、装置、電子機器及び記憶媒体を説明する。
【0013】
図1は本出願の第1の実施例により提供されるテキスト中のイベント抽出方法のフローチャートである。
【0014】
図1に示すように、当該テキスト中のイベント抽出方法は、以下のようなステップを含むことができる。
ステップ101:入力テキストを取得する。
【0015】
ここで、なお、本実施例のテキスト中のイベント抽出方法の実行主体は、キスト中のイベント抽出装置であり、当該キスト中のイベント抽出装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現することができ、当該実施例におけるキスト中のイベント抽出装置は、電子機器に配置されることができ、本実施例における電子機器は、端末デバイスおよびサーバなどを含むことができ、当該実施例は、電子機器に限定されない。
【0016】
ここで、本実施例における入力テキストの言語は、中国語、英語、またはその他の言語タイプであってもよく、本実施例は、入力テキストの言語タイプに具体的に限定されない。ここで、なお、本実施例は、入力テキストが中国語である入力テキストを例として説明する。
【0017】
ここで、本実施例における入力テキストは、イベント抽出待ちテキストを指し、当該入力テキストは任意の領域のテキストであってもよく、例えば、入力テキストは「モモ会社が杭州に科学研究センターを設立した」であってもよいし、または、入力テキストは「グランドキャニオンコーポレーションは本日破産を宣言しました」であってもよいし、当該実施例は、入力テキストに具体的に限定されない。
【0018】
ステップ102:入力テキストを述語抽出モデルに入力して、入力テキストの述語抽出結果を取得する。
【0019】
本実施例において、入力テキストを述語抽出モデルに入力した後、述語抽出モデルは、当該入力テキスト中の文字によってコンテキスト特徴及び意味分析を行い、当該入力テキストの分析結果に基づいて、当該入力テキストから述語抽出結果を抽出する。
【0020】
ここで、なお、本実施例における述語抽出モデルは、トレーニングデータに基づいて予め取得される。一つの可能的な実現方式をとして、述語抽出モデルをトレーニングするプロセスは、トレーニングデータを取得し、ここで、トレーニングデータはサンプルテキストとサンプルテキストの述語ラベリング結果とを含み、サンプルテキストとサンプルテキストの述語ラベリング結果に基づいて、初期の述語抽出モデルをトレーニングして、述語抽出モデルを取得する。
【0021】
ここで、本実施例における述語抽出モデルは、入力レイヤ、ネットワークレイヤ、ラベリングレイヤ、および出力レイヤを含むことができ、本実施例のネットワークレイヤのネットワークは、ディープニューラルネットワークであってもよく、本実施例におけるラベリングレイヤは、ランダム条件付きフィールド(Conditional Random Field、CRF)ネットワークを含むことができる。
【0022】
ステップ103:入力テキスト及び述語抽出結果を抽出モデルに入力して、入力テキストの抽出結果を取得する。
【0023】
ここで、なお、本実施例における抽出モデルは、予めトレーニングされたものであり、抽出モデルをトレーニングする一つの可能的な実現方式は、トレーニングデータを取得し、ここで、トレーニングデータはサンプルテキストとサンプルテキストの述語ラベリング結果と、サンプルテキストのラベリング結果と、を含み、サンプルテキストとサンプルテキストの述語ラベリング結果を初期の抽出モデルの入力として、サンプルテキストのラベリング結果を初期の抽出モデルの出力として、初期の抽出モデルをトレーニングして、抽出モデルを取得する。
【0024】
本実施例において、抽出モデルが入力テキスト及び述語抽出結果を取得した後、抽出モデル内の一つの可能的な処理方式は、入力テキストを字分割し、当該入力テキストの字シーケンスを取得し、当該字シーケンスのテキスト特徴ベクトルシーケンスを決定し、述語抽出結果に基づいて、当該字シーケンスの述語特徴ベクトルシーケンスを決定し、そして、テキスト特徴ベクトルシーケンス及び述語特徴ベクトルシーケンスに基づいて、融合特徴ベクトルシーケンスを決定し、そして、抽出モデルにおけるネットワークレイヤは融合特徴ベクトルシーケンスに基づいて、当該字シーケンスの意味表現ベクトルシーケンスを決定し、そして、抽出モデルにおけるラベリングネットワークは、意味表現ベクトルシーケンスに基づいて、当該字シーケンスのラベリング結果を決定し、字シーケンスのラベリング結果に基づいて、当該入力テキストの述語抽出結果を取得する。
【0025】
ステップ104:述語抽出結果及び抽出結果に基づいて、入力テキストのイベント抽出結果を決定する。
【0026】
なお、関連技術でテキストからイベント抽出を行う際に、人工的に構築された特徴(例えば、人工的に構築されたルール及びテンプレート)に基づいてイベント抽出を行う方式と比較して、本実施例は、述語抽出モデル及び抽出モデルによって、入力テキストのイベント抽出を実現することができ、イベント抽出のパフォーマンスを効果的に向上させるだけでなく、イベント抽出の構築コストを低減し、人工的な特徴の構築は必要がない。
【0027】
本出願の実施例のテキスト中のイベント抽出方法は、入力テキストのイベント抽出を行う場合、述語抽出モジュールによって入力テキストに対して述語抽出を行って、当該入力テキストの述語抽出結果を取得し、入力テキスト及び述語抽出結果を抽出モデルに入力して、入力テキストの抽出結果を取得し、述語抽出結果と抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、述語抽出結果と抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
【0028】
ここで、なお、本実施例のイベント抽出方法の応用シーンはたくさんあり、例えば、イベント抽出結果を取得した後、構造化された形式でイベントを表示および表現することができ、大捜索およびFeedストリームのイベントコンテキストでイベントを表示して、ユーザがイベントをすばやく理解できるようにする。また例えば、本実施例のイベント抽出は、金融分野のシーンに適用することができ、会社のイベントを抽出することにより、効果的なリスクコントロールを行い、本実施例の応用シーンは上記の例の2つの応用シーンを限定しなく、当該実施例は、イベント抽出の応用シーンに限定されない。
【0029】
本出願の一つの実施例において、入力テキスト中のイベント抽出結果を正確に決定するために、図2に示すように、本実施例の述語抽出結果及び抽出結果に基づいて、入力テキストのイベント抽出結果を決定するステップは、以下のステップを含む。
ステップ201:述語抽出結果に基づいて、入力テキスト中の述語を決定する。
【0030】
本実施例における述語抽出結果は、各字の述語識別結果を含むことができる。対応的に、各字の述語識別結果に基づいて、入力テキスト中の述語を決定する。
【0031】
例えば、入力テキストは「張三三は楊依依に求婚した」、張三三と楊依依は共に公の人物であると仮定して、述語抽出結果によって、当該入力テキスト中の述語は、「求」は述語の冒頭として識別され、「婚」は述語の中間ワードとして識別されることを決定する。述語抽出結果に基づいて、「求婚」を入力テキスト中の述語として決定する。
【0032】
ステップ202:述語に基づいて、述語が属するイベントタイプを決定する。
【0033】
具体的に、予め保存された各サンプル述語とイベントタイプの間の対応関係に基づいて、当該述語が属するイベントタイプを決定することができる。
【0034】
ここで、なお、本実施例における入力テキスト中の述語は、1つまたは複数を含むことができる。
【0035】
いくつかの実施例において、本実施例の複数の述語は、同じイベントタイプに対応してもよいし、または各述語はそれぞれ1つのイベントタイプに対応してもよいし、当該実施例はこれに限定されない。例えば、入力テキストに存在する2つの述語は「車の事故」、「追突」であり、述語とイベントタイプの対応関係に基づいて、この2つの述語に対応するイベントタイプは「交通事故」であることを決定することができる。例えば、入力テキストは2つの述語を含み、述語1は「暴露」であり、述語2は「離婚」であり、述語1に対応するイベントタイプは暴露イベントであり、述語2に対応するイベントタイプは離婚イベントであることを決定することができる。
【0036】
また例えば、入力テキストは「張三三は楊依依に求婚した」、張三三と楊依依は共に公の人物であると仮定して、述語抽出結果によって、当該入力テキスト中の述語は「求婚」であることを決定し、述語「求婚」に基づいて、当該述語「求婚」が属するイベントタイプは「求婚イベント」であることを決定する。
【0037】
ステップ203:抽出結果に基づいて、入力テキスト中のを決定する。
【0038】
例えば、入力テキストは「張三三は楊依依に求婚した」、張三三と楊依依は共に公の人物であると仮定して、抽出結果は各字の識別結果を含むことができ、抽出結果は当該字がであり、または、当該字がではないということであり、抽出結果に基づいて、入力テキスト中の(argument)は「張三三」及び「楊依依」であることを決定することができる。
【0039】
ステップ204:イベントタイプに基づいて、がイベントタイプで属する役割を決定する。
【0040】
上記の例に続いて、当該入力テキストのイベントタイプは「求婚イベント」であり、「張三三」が「求婚イベント」で属する役割は求婚者であることを決定し、「楊依依」が「求婚イベント」で属する役割は求婚相手であることを決定する。
【0041】
ステップ205:述語、イベントタイプ、及び役割に基づいて、入力テキストのイベント抽出結果を決定する。
【0042】
本実施例において、述語、イベントタイプ、及び役割を取得した後、述語、イベントタイプ、及び役割に基づいて、完全なイベント構造を取得することができ、入力テキストのイベント抽出結果を正確に決定することができ、さらに当該入力テキストのイベント抽出結果を正確に出力することができる。
【0043】
本出願の一つの実施例において、入力テキストから述語を正確に抽出するために、本実施例における述語抽出モデルは、第1の予めトレーニングされた言語モデルと、第1のシーケンスラベリングネットワークと、を含むことができ、図3に示すように、本実施例のステップ102は、以下のステップを含むことができる。
ステップ301:入力テキストを字分割して、入力テキストの字シーケンスを取得する。
【0044】
ステップ302:字シーケンスを第1の予めトレーニングされた言語モデルに入力して、字シーケンスの第1の意味特徴ベクトルシーケンスを取得する。
【0045】
具体的に、字シーケンスのテキスト特徴ベクトルシーケンスを第1の予めトレーニングされた言語モデルに入力して、字シーケンスの第1の意味特徴ベクトルシーケンスを取得する。
【0046】
ここで、本実施例におけるテキスト特徴ベクトルは、字シーケンスの字特徴ベクトルと、位置特徴ベクトルと、コンテキスト特徴ベクトルと、を含むことができる。
【0047】
具体的に、字シーケンスの字特徴ベクトルシーケンスと、位置特徴ベクトルシーケンスと、コンテキスト特徴ベクトルシーケンスとを加算して、字シーケンスの融合特徴ベクトルシーケンスを取得し、融合特徴ベクトルシーケンスを第1の予めトレーニングされた言語モデルに入力して、字シーケンスの第1の意味特徴ベクトルシーケンスを取得する。
【0048】
ここで、本実施例における第1の予めトレーニングされた言語モデル及び後続実施例における第2の予めトレーニングされた言語モデルは、BERT(Bidirectional Encoder Representantions from Transformers、変圧器に基づく双方向コーディング表現)モデル、ERNIE(Enhanced Representation from kNowledge IntEgration、知識増強意味表現モデル)などであり、当該実施例はこれに限定されない。
【0049】
ステップ303:第1の意味特徴ベクトルシーケンスを第1のシーケンスラベリングネットワークに入力して、字シーケンスの述語ラベリングシーケンスを取得する。
【0050】
ステップ304:述語ラベリングシーケンスに基づいて、入力テキストの述語抽出結果を決定する。
【0051】
ここで、本実施例におけるラベリングモードは、任意のタイプのラベリングモードであってもよく、例えば、ラベリングモードはBI0モードである。BI0モードはテキストにおける各字をラベリングする。Bーtypeは現在の字が述語の1番目の字であり、述語でトリガーされたイベントタイプがtypeであることを示し、Iーtypeは現在の字が述語に位置し、述語でトリガーされたイベントタイプがtypeであることを示し、0は現在の字が述語にないことを示す。例えば、入力テキスト「張三三は楊依依に求婚した」に対応する述語ラベリングシーケンスは、張/0、三/0、三/0、は/0、楊/0、依/0、依/0、に/0、求/B、婚/I、し/0、た/0であり、当該述語ラベリングシーケンスに基づいて、入力テキストにおける「求婚」は入力テキスト中の述語であることを決定することができる。
【0052】
本実施例は、字シーケンスを第1の予めトレーニングされた言語モデルに入力して、字シーケンスの意味表現ベクトルシーケンスを取得し、シーケンスラベリングネットワークを組み合わせて意味表現ベクトルシーケンスを正確にラベリングして、字シーケンスの述語ラベリングシーケンスを取得し、述語ラベリングシーケンスを組み合わせて、入力テキストの述語抽出結果を正確に決定する。
【0053】
本出願の一つの実施例において、抽出された述語の正確性をさらに向上させるために、本実施例における第1のシーケンスラベリングネットワークは、第1の条件ランダムフィールドレイヤを含むことができ、図4に示すように、上記ステップ303は以下のステップを含むことができる。
ステップ401:第1の意味特徴ベクトルシーケンスに基づいて、各述語ラベリングラベルで字シーケンスにおける各字の確率値を決定する。
【0054】
ステップ402:第1の条件ランダムフィールドレイヤに対応する第1のラベル遷移確率行列を取得する。
【0055】
ここで、第1のラベル遷移確率行列は、ある述語ラベリングラベルが別の述語ラベリングラベルに転送される確率を含む。
【0056】
ステップ403:第1のラベル遷移確率行列及び各述語ラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補述語抽出結果の確率値を決定する。
【0057】
ステップ404:複数の候補述語シーケンスから確率値が最も大きい候補述語ラベリングシーケンスを字シーケンスの述語ラベリングシーケンスとして取得する。
【0058】
本出願の一つの実施例において、入力テキストからを抽出する正確性を向上させるために、本実施例における抽出モデルは、第2の予めトレーニングされた言語モデルと、第2のシーケンスラベリングネットワークと、を含むことができ、具体的に、第2の予めトレーニングされた言語モデルで出力された意味表現ベクトルシーケンスを組み合わせて、第2のシーケンスラベリングネットワークにより意味表現ベクトルシーケンスをラベルラベリングして、ラベルラベリング結果に基づいて、入力テキストにおけるを正確に決定する。以下、図5を組み合わせて上記ステップ103の一つの可能的な実現方式を説明する。
【0059】
図5に示すように、上記ステップ103は、以下のステップを含むことができる。
ステップ501:入力テキストを字分割して、入力テキストの字シーケンスを取得する。
【0060】
ステップ502:述語抽出結果に基づいて、字シーケンスの述語特徴ベクトルシーケンスを決定する。
【0061】
本実施例における述語抽出結果は、入力テキストにおける各字の述語識別結果を含み、述語抽出結果に基づいて、字シーケンスの述語特徴ベクトルシーケンスを決定する一つの可能的な実現方式は、各字の述語識別結果に基づいて、字シーケンスの述語特徴ベクトルシーケンスを決定する。これにより、字シーケンスの述語特徴ベクトルシーケンスを正確に取得する。
【0062】
具体的に、字シーケンスにおける各字に対して、各字の述語識別結果に基づいて、各字に対応する述語特徴ベクトルを決定し、各字に対応する述語特徴ベクトルに基づいて、当該字シーケンスの述語特徴ベクトルシーケンスを形成する。
【0063】
ステップ503:字シーケンスに基づいて、字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定する。
【0064】
ステップ504:テキスト特徴ベクトルシーケンスと述語特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得する。
【0065】
ここで、本実施例におけるテキスト特徴ベクトルは、字シーケンスの字特徴ベクトルと、位置特徴ベクトルと、コンテキスト特徴ベクトルと、を含むことができる。
【0066】
具体的に、字シーケンスの字特徴ベクトルシーケンスと、位置特徴ベクトルシーケンスと、コンテキスト特徴ベクトルシーケンスと、述語特徴ベクトルシーケンスと、を加算して、字シーケンスの融合特徴ベクトルシーケンスを取得する。
【0067】
ステップ505:融合特徴ベクトルシーケンスを第2の予めトレーニングされた言語モデルに入力して、字シーケンスの第2の意味特徴ベクトルシーケンスを取得する。
【0068】
例えば、字シーケンスの融合特徴ベクトルシーケンスを第2のERNIEモデルに入力して、当該字シーケンスの第2の意味特徴ベクトルシーケンスを取得する。
【0069】
ステップ506:第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、字シーケンスのラベリングシーケンスを取得する。
【0070】
ステップ507:ラベリングシーケンスに基づいて、入力テキストのを決定する。
【0071】
例えば、入力テキストは「張三三は楊依依に求婚した」であり、述語が「求婚」であると仮定し、対応するラベリングシーケンスは、張/B、三/I、三/I、は/0、楊/B、依/I、依/I、に/0、求/0、婚/0、し/0、た/0であり、ここで、Bは現在の字のの1番目の字を示し、Iは現在の字がに位置することを示し、0は現在の字がにないことを示し、当該ラベリングシーケンスに基づいて、入力テキストにおける「張三三」及び「楊依依」は入力テキスト中のであることを決定することができる。
【0072】
本実施例は、字シーケンス及び述語抽出結果を第2の予めトレーニングされた言語モデルに入力して、字シーケンスの意味表現ベクトルシーケンスを取得し、第2のシーケンスラベリングネットワークを組み合わせて意味表現ベクトルシーケンスのを正確にラベリングして、字シーケンスのラベリングシーケンスを取得し、ラベリング結果を組み合わせて、入力テキストのを正確に決定する。
【0073】
本出願の一つの実施例において、抽出されたの正確性をさらに向上させるために、本実施例における第2のシーケンスラベリングネットワークは、第2の条件ランダムフィールドレイヤを含むことができ、図6に示すように、上記ステップ507は以下のステップを含むことができる。
ステップ601:第2の意味特徴ベクトルシーケンスに基づいて、各ラベリングラベルで字シーケンスにおける各字の確率値を決定する。
【0074】
ステップ602:第2の条件ランダムフィールドレイヤに対応する第2のラベル遷移確率行列を取得する。
【0075】
ここで、第2のラベル遷移確率行列は、あるラベリングラベルが別のラベリングラベルに転送される確率を含む。例えば、BI0モードをラベリングラベルとして、ここで、第2の遷移確率行列は、Bラベリングラベルと、Iラベリングラベルと、0ラベリングラベルとの三者の間の遷移確率を含む。
【0076】
ステップ603:第2のラベル遷移確率行列及び各ラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補ラベリングシーケンスの確率値を決定する。
【0077】
ステップ604:複数の候補シーケンスから確率値が最も大きい候補ラベリングシーケンスを字シーケンスのラベリングシーケンスとして取得する。
【0078】
当業者に本出願を明確に理解させるために、以下は図7を組み合わせて本実施例におけるテキスト中のイベント抽出方法を説明する。
【0079】
ここで、図7では第1の予めトレーニングされた言語モデル及び第2の予めトレーニングされた言語モデルはERNIEモデルであることを例として説明し、入力テキストは「李栄浩は楊丞琳に求婚した」であることを例として説明する。
【0080】
入力テキストをシーケンスラベリングに基づく述語抽出モデルに入力し、対応的に、シーケンスラベリングに基づく述語抽出モデルの例示的な実現プロセスは、
まず、述語抽出モデルの入力レイヤは、入力テキストの語彙特徴ベクトル(Token Embedding)、上下文の特徴ベクトル(Segment Embedding)及び位置特徴ベクトル(Position Embedding)を構築し、入力テキストの語彙特徴ベクトル、上下文の特徴ベクトル及び位置特徴ベクトルを加算処理し、取得された融合特徴ベクトルを加算処理する。
次いで、融合特徴ベクトルを第1のERNIEモデルに入力して、予めトレーニングされた出力層ベクトルを計算して取得する。
そして、第1のERNIEモデルにおける出力層ベクトルを第1のCRFネットワークに入力して、述語ラベリングシーケンスを取得する。
ここで、図7でAとラベリングされた部分は、入力テキスト「李栄浩は楊丞琳に求婚した」に対応する述語ラベリング結果である。
最後に、述語ラベリングシーケンスに基づいて、入力テキストにおける述語は「求婚」であることを決定することができる。
【0081】
シーケンスラベリングに基づく抽出モデル:
まず、センテンス入力モデルは、語彙特徴(Token Embedding)、上下文の特徴(Segment Embedding)、位置特徴(Position Embedding)及び述語特徴が含まれる特徴を構築し、シーケンスラベリングに基づく述語抽出モデルで予測して取得された述語を特徴として追加し、追加方式は、当該位置の語彙は述語として識別される場合、1に設定し、識別されない場合、0に設定してから、ベクトルembeddingの形式に変換する。
次いで、上記4種類の特徴ベクトルをベクトル加算処理して、融合特徴ベクトルを取得し、融合特徴ベクトルを第2のERNIEモデルに入力して、予めトレーニングされた出力層ベクトルを計算して取得する。
そして、第2のERNIEモデルの出力層ベクトルを第2のcrfネットワークに入力して、ラベリング結果を取得する。
最後に、ラベリング結果に基づいて、入力テキストにおけるを決定する。
【0082】
ここで、図7から見ることができ、本実施例における述語抽出モデル及び抽出モデルで採用されたラベリングモードは、すべてBI0形式のラベリングモードである。
【0083】
本例示において、図7でBとラベリングされた部分は、入力テキスト「李栄浩は楊丞琳に求婚した」に対応するラベリング結果であり、ラベリング結果に基づいて、入力テキスト「李栄浩は楊丞琳に求婚した」におけるは「李栄浩」及び「楊丞琳」であることを決定することができる。
【0084】
シーケンスラベリングに基づく述語抽出モデルとシーケンスラベリングに基づく抽出モデルの結果は、イベント構造schemaに基づいて結果の関連付けを行い、入力テキストのイベント抽出結果を産出する。
【0085】
具体的に、述語に基づいて、述語が属するイベントタイプは「求婚イベント」であることを決定し、対応的に、求婚イベントにおける「李栄浩」の役割は「求婚者」であることを決定し、対応的に、求婚イベントにおける「楊丞琳」の役割は「被求婚者」または「求婚相手」であることを決定する。
【0086】
本出願の実施例のテキスト中のイベント抽出方法は、シーケンスをラベリングする述語抽出モデルによって、入力テキストに対して述語抽出を行って、入力テキストにおける述語抽出結果を取得し、入力テキスト及び述語抽出結果をラベリングシーケンスに基づく抽出モデルに入力して、当該入力テキストの抽出結果を取得し、対応的に、抽出結果及び述語抽出結果に基づいて、イベント構造に基づいて結果の関連付けを行い、当該入力テキストのイベント抽出結果を産出する。
これにより、深層学習のイベント抽出方式に完全に基づいて、イベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
【0087】
上記実施例を実現するために、本出願の実施例は、テキスト中のイベント抽出装置をさらに提供する。
【0088】
図8は本出願の第8の実施例により提供されるテキスト中のイベント抽出装置である。
【0089】
図8に示すように、当該テキスト中のイベント抽出装置10は、取得モジュール110と、述語抽出モジュール120と、抽出モジュール130と、決定モジュール140と、を含むことができる。
取得モジュール110は、入力テキストを取得することに用いられる。
述語抽出モジュール120は、入力テキストを述語抽出モデルに入力して、入力テキストの述語抽出結果を取得することに用いられる。
抽出モジュール130は、入力テキスト及び述語抽出結果を抽出モデルに入力して、入力テキストの抽出結果を取得することに用いられる。
決定モジュール140は、述語抽出結果及び抽出結果に基づいて、入力テキストのイベント抽出結果を決定することに用いられる。
【0090】
ここで、なお、上記のテキスト中のイベント抽出方法の実施例の説明は、本実施例のテキスト中のイベント抽出装置にも適用され、ここでは説明を省略する。
【0091】
本出願の実施例のテキスト中のイベント抽出装置は、入力テキストのイベント抽出を行う場合、述語抽出モジュールによって入力テキストに対して述語抽出を行って、当該入力テキストの述語抽出結果を取得し、入力テキスト及び述語抽出結果を抽出モデルに入力して、入力テキストの抽出結果を取得し、述語抽出結果と抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、述語抽出結果と抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
【0092】
本出願の一つの実施例において、図8に示す装置の実施例に基づいて、図9に示すように、決定モジュール140は、
述語抽出結果に基づいて、入力テキスト中の述語を決定するための第1の決定サブモジュール141と、
述語に基づいて、述語が属するイベントタイプを決定するための第2の決定サブモジュール142と、
抽出結果に基づいて、入力テキスト中のを決定するための第3の決定サブモジュール143と、
イベントタイプに基づいて、がイベントタイプで属する役割を決定するための第4の決定サブモジュール144と、
述語、イベントタイプ、及び役割に基づいて、入力テキストのイベント抽出結果を決定するための第5の決定サブモジュール145と、を含むことができる。
【0093】
本出願の一つの実施例において、述語抽出モデルは、第1の予めトレーニングされた言語モデルと、第1のシーケンスラベリングネットワークと、を含み、述語抽出モジュール120は、
入力テキストを字分割して、入力テキストの字シーケンスを取得するための第1の字分割サブモジュール121と、
字シーケンスを第1の予めトレーニングされた言語モデルに入力して、字シーケンスの第1の意味特徴ベクトルシーケンスを取得するための第1の意味特徴表現サブモジュール122と、
第1の意味特徴ベクトルシーケンスを第1のシーケンスラベリングネットワークに入力して、字シーケンスの述語ラベリングシーケンスを取得するための第1のラベリングサブモジュール123と、
述語ラベリングシーケンスに基づいて、入力テキストの述語抽出結果を決定するための第6の結果サブモジュール124と、を含む。
【0094】
本出願の一つの実施例において、第1のシーケンスラベリングネットワークは、第1の条件ランダムフィールドレイヤを含み、第1のラベリングサブモジュール123は、
第1の意味特徴ベクトルシーケンスに基づいて、各述語ラベリングラベルで字シーケンスにおける各字の確率値を決定するための第1の決定ユニット1231と、
第1の条件ランダムフィールドレイヤに対応する第1のラベル遷移確率行列を取得するための第1の取得ユニット1232と、
第1のラベル遷移確率行列及び各述語ラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補述語抽出結果の確率値を決定するための第2の決定ユニット1233と、
複数の候補述語シーケンスから確率値が最も大きい候補述語ラベリングシーケンスを字シーケンスの述語ラベリングシーケンスとして取得するための第2の取得ユニット1234と、を含む。
【0095】
本出願の一つの実施例において、抽出モデルは、第2の予めトレーニングされた言語モデルと、第2のシーケンスラベリングネットワークと、を含み、抽出モジュール130は、
入力テキストを字分割して、入力テキストの字シーケンスを取得するための第2の字分割サブモジュール131と、
述語抽出結果に基づいて、字シーケンスの述語特徴ベクトルシーケンスを決定するための第7の決定サブモジュール132と、
字シーケンスに基づいて、字シーケンスに対応するテキスト特徴ベクトルシーケンスを決定するための第8の決定サブモジュール133と、
テキスト特徴ベクトルシーケンスと述語特徴ベクトルシーケンスを加算して、融合特徴ベクトルシーケンスを取得するための融合サブモジュール134と、
融合特徴ベクトルシーケンスを第2の予めトレーニングされた言語モデルに入力して、字シーケンスの第2の意味特徴ベクトルシーケンスを取得するための第2の意味特徴表現サブモジュール135と、
第2の意味特徴ベクトルシーケンスを第2のシーケンスラベリングネットワークに入力して、字シーケンスのラベリングシーケンスを取得するための第2のラベリングサブモジュール136と、
ラベリングシーケンスに基づいて、入力テキストのを決定するための第9の決定サブモジュール137と、を含む。
【0096】
本出願の一つの実施例において、述語抽出結果は、入力テキストにおける各字の述語識別結果を含み、第7の決定サブモジュール132は、具体的に、各字の述語識別結果に基づいて、字シーケンスの述語特徴ベクトルシーケンスを決定することに用いられる。
【0097】
具体的に、字シーケンスにおける各字に対して、第7の決定サブモジュール132は、各字の述語識別結果に基づいて、各字に対応する述語特徴ベクトルを決定し、各字に対応する述語特徴ベクトルに基づいて、当該字シーケンスの述語特徴ベクトルシーケンスを形成する。
【0098】
本出願の一つの実施例において、第2のシーケンスラベリングネットワークは、第2の条件ランダムフィールドレイヤを含み、第2のラベリングサブモジュール136は、
第2の意味特徴ベクトルシーケンスに基づいて、各ラベリングラベルで字シーケンスにおける各字の確率値を決定するための第3の決定ユニット1361と、
第2の条件ランダムフィールドレイヤに対応する第2のラベル遷移確率行列を取得するための第3の取得ユニット1362と、
第2のラベル遷移確率行列及び各ラベリングラベルで各字の確率値に基づいて、字シーケンスの複数の候補ラベリングシーケンスの確率値を決定するための第4の決定ユニット1363と、
複数の候補シーケンスから確率値が最も大きい候補ラベリングシーケンスを字シーケンスのラベリングシーケンスとして取得するための第4の取得モジュール1364と、を含むことができる。
【0099】
本出願の実施例のテキスト中のイベント抽出装置は、入力テキストのイベント抽出を行う場合、述語抽出モジュールによって入力テキストに対して述語抽出を行って、当該入力テキストの述語抽出結果を取得し、入力テキスト及び述語抽出結果を抽出モデルに入力して、入力テキストの抽出結果を取得し、述語抽出結果と抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、述語抽出結果と抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
【0100】
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記テキスト中のイベント抽出方法が実行される。
【0101】
図10に示すように、それは本出願の実施例に係るテキスト中のイベント抽出方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
【0102】
図10に示すように、当該電子機器は、一つ又は複数のプロセッサ1001と、メモリ1002と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に基づいて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施方式では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図10では、一つのプロセッサ1001を例とする。
【0103】
メモリ1002は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中、前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶して、前記少なくとも一つのプロセッサが本出願により提供されるテキスト中のイベント抽出方法を実行することができるようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供されるテキスト中のイベント抽出方法を実行するためのコンピュータ命令を記憶する。
【0104】
メモリ1002は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるテキスト中のイベント抽出方法に対応するプログラム命令/モジュール(例えば、図8に示す取得モジュール110、述語抽出モジュール120、抽出モジュール130、及び決定モジュール140)ように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ1001は、メモリ1002に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるテキスト中のイベント抽出方法を実現する。
【0105】
メモリ1002は、ストレージプログラム領域とストレージデータ領域とを含むことができ、その中、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、テキスト中のイベント抽出方法に基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ1002は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ1002は、プロセッサ1001に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してテキスト中のイベント抽出方法の電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定しない。
【0106】
テキスト中のイベント抽出方法の電子機器は、入力装置1003と出力装置1004とをさらに含むことができる。プロセッサ1001、メモリ1002、入力装置1003、及び出力装置1004は、バス又は他の方式を介して接続することができ、図10では、バスを介して接続することを例とする。
【0107】
入力装置1003は、入力された数字又は文字情報を受信することができ、及びテキスト中のイベント抽出方法の電子機器のユーザ設置及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置1004は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施方式では、ディスプレイデバイスは、タッチスクリーンであってもよい。
【0108】
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
【0109】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0110】
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0111】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
【0112】
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
【0113】
本出願の実施例の発明によれば、入力テキストのイベント抽出を行う場合、述語抽出モジュールによって入力テキストに対して述語抽出を行って、当該入力テキストの述語抽出結果を取得し、入力テキスト及び述語抽出結果を抽出モデルに入力して、入力テキストの抽出結果を取得し、述語抽出結果と抽出結果を組み合わせて、入力テキストのイベント抽出結果を決定する。これにより、述語抽出結果と抽出結果の組み合わせにより、入力テキストのイベント抽出を実現し、入力テキストのイベント抽出の精度を向上させ、イベント抽出の構築コストを低減し、人工的な特徴は必要がない。
【0114】
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
【0115】
上記の具体的な実施方式は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10