IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2023-7376情報抽出方法、装置、電子デバイス及び可読記憶媒体
<>
  • 特開-情報抽出方法、装置、電子デバイス及び可読記憶媒体 図1
  • 特開-情報抽出方法、装置、電子デバイス及び可読記憶媒体 図2
  • 特開-情報抽出方法、装置、電子デバイス及び可読記憶媒体 図3
  • 特開-情報抽出方法、装置、電子デバイス及び可読記憶媒体 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023007376
(43)【公開日】2023-01-18
(54)【発明の名称】情報抽出方法、装置、電子デバイス及び可読記憶媒体
(51)【国際特許分類】
   G06F 16/38 20190101AFI20230111BHJP
【FI】
G06F16/38
【審査請求】有
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022037612
(22)【出願日】2022-03-10
(31)【優先権主張番号】202110733719.6
(32)【優先日】2021-06-30
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】リウ、ハン
(72)【発明者】
【氏名】フ、テン
(72)【発明者】
【氏名】チェン、ヨンフェン
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FB03
5B175GC03
5B175HB03
(57)【要約】      (修正有)
【課題】抽出すべきテキストから予め設定された条件を満たす文字を抽出することを含む情報抽出方法、装置、電子デバイス及び可読記憶媒体を提供する。
【解決手段】情報抽出方法は、抽出すべきテキストを取得し、複数のサンプルテキストと、複数のサンプルテキストにおける各サンプル文字のラベルとを含むサンプルセットを取得し、抽出すべきテキストにおける各文字の語義特徴ベクトルと、サンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、抽出すべきテキストにおける各文字の予測ラベルを決定し、各文字の予測ラベルに基づいて、抽出すべきテキストの抽出結果として、抽出すべきテキストから予め設定された条件を満たす文字を抽出することを含む。
【効果】情報抽出の手順を簡略化し、情報抽出のコストを低減し、情報抽出の柔軟性と正確性を向上させることができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
情報抽出方法であって、
抽出すべきテキストを取得し、
複数のサンプルテキストと、複数のサンプルテキストにおける各サンプル文字のラベルとを含むサンプルセットを取得し、
前記抽出すべきテキストにおける各文字の語義特徴ベクトルと、前記サンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、前記抽出すべきテキストにおける各文字の予測ラベルを決定し、
各文字の予測ラベルに基づいて、前記抽出すべきテキストの抽出結果として、前記抽出すべきテキストから予め設定された条件を満たす文字を抽出する、
ことを含む方法。
【請求項2】
サンプルセットを取得することは、
予め構築されたサンプルセットを取得する
ことを含む請求項1に記載の情報抽出方法。
【請求項3】
前記抽出すべきテキストにおける各文字の語義特徴ベクトルと前記サンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、前記抽出すべきテキストにおける各文字の予測ラベルを決定することは、
前記抽出すべきテキストにおける各文字について、当該文字の語義特徴ベクトルと前記サンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、当該文字と前記サンプルセットにおける各サンプル文字との間の類似度を計算し、
当該文字と最も類似度の高いサンプル文字のラベルを当該文字の予測ラベルとする、
ことを含む請求項1または2に記載の情報抽出方法。
【請求項4】
前記抽出すべきテキストにおける各文字の語義特徴ベクトルを生成することは、
抽出すべきフィールド名を取得し、
前記抽出すべきテキストと前記抽出すべきフィールド名とをスティッチングした後、スティッチング結果における各文字の単語ベクトル、文ペアベクトル及び位置ベクトルを取得し、
各文字の単語ベクトル、文ペアベクトル及び位置ベクトルに基づいて前記抽出すべきテキストにおける各文字の語義特徴ベクトルを生成する、
ことを含む請求項1から3のいずれか一項に記載の情報抽出方法。
【請求項5】
前記サンプルセットにおける各サンプル文字の語義特徴ベクトルを生成することは、
抽出すべきフィールド名を取得し、
前記サンプルセットにおける各サンプルテキストについて、当該サンプルテキストと前記抽出すべきフィールド名とをスティッチングした後、スティッチング結果における各サンプル文字の単語ベクトル、文ペアベクトル及び位置ベクトルを取得し、
各サンプル文字の単語ベクトル、文ペアベクトル、位置ベクトルに基づいて、前記各サンプルテキストにおける各サンプル文字の語義特徴ベクトルを生成する、
ことを含む請求項1から4のいずれか一項に記載の情報抽出方法。
【請求項6】
各文字の予測ラベルに基づいて、前記抽出すべきテキストの抽出結果として、前記抽出すべきテキストから予め設定された条件を満たす文字を抽出することは、
各文字の予測ラベルに基づいて、前記抽出すべきテキストの予測ラベルシーケンスを生成し、
前記予測ラベルシーケンスから予め設定されたラベルシーケンス条件を満たすラベルシーケンスを決定し、
前記抽出すべきテキストの抽出結果として、前記抽出すべきテキストから決定されたラベルシーケンスに対応する複数の文字を抽出する、
ことを含む請求項1から5のいずれか一項に記載の情報抽出方法。
【請求項7】
情報抽出装置であって、
抽出すべきテキストを取得する第1取得部と、
複数のサンプルテキストと、複数のサンプルテキストにおける各サンプル文字のラベルとを含むサンプルセットを取得する第2取得部と、
前記抽出すべきテキストにおける各文字の語義特徴ベクトルと前記サンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、前記抽出すべきテキストにおける各文字の予測ラベルを決定する処理部と、
各文字の予測ラベルに基づいて、前記抽出すべきテキストの抽出結果として、前記抽出すべきテキストから予め設定された条件を満たす文字を抽出する抽出部と、
を備える情報抽出装置。
【請求項8】
前記第2取得部は、サンプルセットを取得する際に、
事前に構築されたサンプルセットを取得する
請求項7に記載の情報抽出装置。
【請求項9】
前記処理部は、前記抽出すべきテキストにおける各文字の語義特徴ベクトルと前記サンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、前記抽出すべきテキストにおける各文字の予測ラベルを決定する際に、
前記抽出すべきテキストにおける各文字について、当該文字の語義特徴ベクトルと前記サンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、当該文字と前記サンプルセットにおける各サンプル文字との間の類似度を計算し、
当該文字と最も類似度の高いサンプル文字のラベルを当該文字の予測ラベルとする、
請求項7または8に記載の情報抽出装置。
【請求項10】
前記処理部は、前記抽出すべきテキストにおける各文字の語義特徴ベクトルを生成する際に、
抽出すべきフィールド名を取得し、
前記抽出すべきテキストと前記抽出すべきフィールド名とをスティッチングした後、スティッチング結果における各文字の単語ベクトル、文ペアベクトル、位置ベクトルを取得し、
各文字の単語ベクトル、文ペアベクトル、位置ベクトルに基づいて、前記抽出すべきテキストにおける各文字の語義特徴ベクトルを生成する、
請求項7から9のいずれか一項に記載の情報抽出装置。
【請求項11】
前記処理部は、前記サンプルセットにおける各サンプル文字の語義特徴ベクトルを生成する際に、
抽出すべきフィールド名を取得し、
前記サンプルセットにおける各サンプルテキストについて、当該サンプルテキストと前記抽出すべきフィールド名とをスティッチングした後、スティッチング結果における各サンプル文字の単語ベクトル、文ペアベクトル、及び位置ベクトルを取得し、
各サンプル文字の単語ベクトル、文ペアベクトル、位置ベクトルに基づいて、前記各サンプルテキストにおける各サンプル文字の語義特徴ベクトルを生成する、
請求項7から10のいずれか一項に記載の情報抽出装置。
【請求項12】
前記抽出部は、各文字の予測ラベルに基づいて、前記抽出すべきテキストの抽出結果として、前記抽出すべきテキストから予め設定された条件を満たす文字を抽出する際に、具体的に、
各文字の予測ラベルに基づいて、前記抽出すべきテキストの予測ラベルシーケンスを生成し、
前記予測ラベルシーケンスから予め設定されたラベルシーケンス条件を満たすラベルシーケンスを決定し、
前記抽出すべきテキストの抽出結果として、前記抽出すべきテキストから決定されたラベルシーケンスに対応する複数の文字を抽出する、
請求項7から11のいずれか一項に記載の情報抽出装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~6のいずれか1項に記載の情報抽出方法を実行させる電子デバイス。
【請求項14】
コンピュータに請求項1~6のいずれか1項に記載の情報抽出方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体。
【請求項15】
プロセッサにより実行されると、請求項1~6のいずれか1項に記載の情報抽出方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術の分野に関し、特に自然言語処理技術の分野に関し、情報抽出方法、装置、電子デバイス及び可読記憶媒体を提供する。
【背景技術】
【0002】
日常的に文書を処理する作業中で情報を抽出する需要が普遍的に存在しており、例えば契約を処理する場合に、文書における「甲」、「乙」、「契約金額」などの情報を知る必要があり、法律の判決文を扱う場合に、文書にある「被告人」、「起訴者」、「罪名の疑い」などの情報を知る必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
従来技術では一般的に情報抽出モデルを用いて情報を抽出しているが、情報抽出モデルはその訓練分野に関連する言語材料のみを抽出するのが効果的であり、訓練分野外の言語材料については、対応する訓練データが不足しているため、正確に抽出することができない。異なる分野における情報抽出モデルの抽出能力を向上させるためには、大量の標識データを取得して訓練することが最も直接であるが、大量の標識データは多大な人件費を必要とし、取得が困難である。
【課題を解決するための手段】
【0004】
本開示の第1態様によれば、抽出すべきテキストを取得し、複数のサンプルテキストと、複数のサンプルテキストにおける各サンプル文字のラベルとを含むサンプルセットを取得し、前記抽出すべきテキストにおける各文字の語義特徴ベクトルと、前記サンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、前記抽出すべきテキストにおける各文字の予測ラベルを決定し、各文字の予測ラベルに基づいて、前記抽出すべきテキストの抽出結果として、前記抽出すべきテキストから予め設定された条件を満たす文字を抽出することを含む情報抽出方法を提供する。
【0005】
本開示の第2態様によれば、抽出すべきテキストを取得する第1取得部と、複数のサンプルテキストと、複数のサンプルテキストにおける各サンプル文字のラベルとを含むサンプルセットを取得する第2取得部と、前記抽出すべきテキストにおける各文字の語義特徴ベクトルと前記サンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、前記抽出すべきテキストにおける各文字の予測ラベルを決定する処理部と、各文字の予測ラベルに基づいて、前記抽出すべきテキストの抽出結果として、前記抽出すべきテキストから予め設定された条件を満たす文字を抽出する抽出部と、を備える情報抽出装置を提供する。
【0006】
本開示の第3態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに前記方法を実行させる電子デバイスを提供する。
【0007】
本開示の第4態様によれば、コンピュータに前記方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体を提供する。
【0008】
本開示の第5態様によれば、プロセッサにより実行されると、前記方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0009】
以上の技術方案からわかるように、得られたサンプルセットにより、抽出すべきテキストにおける各文字の予測ラベルを決定し、さらに、抽出すべきテキストから予め設定された条件を満たす文字を抽出すべきテキストの抽出結果として抽出するため、情報抽出モデルの訓練を必要とせず、情報抽出の手順を簡略化し、情報抽出のコストを低減し、抽出すべきテキストが属する分野を制限することなく、抽出すべきテキストから任意のフィールド名に対応する情報を抽出することができ、情報抽出の柔軟性と正確性を大幅に向上させた。
【0010】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0011】
図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において、
図1】本開示の第1実施形態に係る概略図である。
図2】本開示の第2実施形態に係る概略図である。
図3】本開示の第3実施形態に係る概略図である。
図4】本開示の実施形態に係る情報抽出方法を実現するための電子デバイスのブロック図である。
【発明を実施するための形態】
【0012】
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識できるはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0013】
図1は、本開示の第1実施形態に係る概略図である。図1に示すように、本実施形態の情報抽出方法は、具体的に以下のステップを含むことができる。
【0014】
S101において、抽出すべきテキストを取得する。
【0015】
S102において、複数のサンプルテキストと、複数のサンプルテキストにおける各サンプル文字のラベルとを含むサンプルセットを取得する。
【0016】
S103において、前記抽出すべきテキストにおける各文字の語義特徴ベクトルと前記サンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、前記抽出すべきテキストにおける各文字の予測ラベルを決定する。
【0017】
S104において、各文字の予測ラベルに基づいて、前記抽出すべきテキストの抽出結果として、前記抽出すべきテキストから予め設定された条件を満たす文字を抽出する。
【0018】
本実施形態の情報抽出方法は、得られたサンプルセットにより、抽出すべきテキストにおける各文字の予測ラベルを決定し、さらに、抽出すべきテキストから予め設定された条件を満たす文字を抽出すべきテキストの抽出結果として抽出するため、情報抽出モデルの訓練を必要とせず、情報抽出の手順を簡略化し、情報抽出のコストを低減し、抽出すべきテキストが属する分野を制限することなく、抽出すべきテキストから任意のフィールド名に対応する情報を抽出することができ、情報抽出の柔軟性と正確性を大幅に向上させた。
【0019】
本実施形態でS101を実行して取得された抽出すべきテキストは、複数の文字で構成されており、抽出すべきテキストが属する分野は、任意の分野であってもよい。
【0020】
本実施形態でS101を実行して抽出すべきテキストを取得した後に、更に、少なくとも1文字のテキストを含む抽出すべきフィールド名を取得して良い。抽出すべきテキストから抽出された抽出結果は、抽出すべきテキストにおける抽出すべきフィールド名に対応するフィールド値である。
【0021】
例えば、抽出すべきテキストが「甲:張三」であり、抽出すべきフィールド名が「甲」である場合、本実施形態では、抽出すべきテキストから「甲」に対応するフィールド値「張三」を抽出する必要がある。
【0022】
本実施形態では、S101を実行して抽出すべきテキストを取得した後に、S102を実行して、複数のサンプルテキストと、複数のサンプルテキストにおける各サンプル文字のラベルとを含むサンプルセットを取得する。
【0023】
本実施形態では、S102を実行してサンプルセットを取得する際に、事前に構築されたサンプルセットを取得しても良く、リアルタイムに構築されたサンプルセットを取得してもよい。好ましくは、情報抽出の効率を向上させるために、本実施形態でS102を実行して取得されたサンプルセットは、事前に構築されたサンプルセットである。
【0024】
理解すべきなのは、本実施形態でS102を実行して得られたサンプルセットは、少量のサンプルテキスト、例えば予め設定された数以内の複数のサンプルテキストを含む。当該予め設定された数は小さい数値であってもよい。例えば、本実施形態で取得されたサンプルセットは、5つのサンプルテキストのみを含む。
【0025】
本実施形態でS102を実行して得られたサンプルセットにおいて、抽出すべきフィールド名に異なるサンプル文字のラベルが対応する。サンプル文字のラベルは、そのサンプル文字がフィールド値の先頭であるか、フィールド値の中間であるか、又は非フィールド値であるかを示す。
【0026】
本実施形態でS102を実行して得られたサンプルセットにおいて、各サンプル文字のラベルは、B、I、及びOのうちの1つであってもよい。ここで、ラベルBのサンプル文字は、そのサンプル文字がフィールド値の先頭であることを示し、ラベルIのサンプル文字は、そのサンプル文字がフィールド値の中間であることを示し、ラベルOのサンプル文字は、そのサンプル文字が非フィールド値であることを示す。
【0027】
例えば、本実施形態のサンプルセットに含まれる1つのサンプル本文が「甲:李四」であり、本実施形態における抽出すべきフィールド名が「甲」である場合、当該サンプルテキストにおける各サンプル文字のラベルは、それぞれ「O、O、O、B、I」であってよい。
【0028】
本実施形態では、S102を実行してサンプルセットを取得した後、S103を実行して、抽出すべきテキストにおける各文字の語義特徴ベクトルとサンプルセットにおける各サンプル文字の語義特徴ベクトルとから、抽出すべきテキストにおける各文字の予測ラベルを決定する。
【0029】
具体的には、本実施形態では、S103を実行して、抽出すべきテキストにおける各文字の語義特徴ベクトルとサンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、抽出されるテキストにおける各文字の予測ラベルを決定する際には、以下のようなオプション実現方式を採用して良い。つまり、抽出されるテキストにおける各文字について、その文字の語義特徴ベクトルとサンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、その文字とサンプルセットにおける各サンプル文字との間の類似度を計算し、その文字と最も類似度の高いサンプル文字のラベルをその文字の予測ラベルとする。
【0030】
つまり、本実施形態では、抽出すべきテキストにおける文字とサンプルセットにおけるサンプル文字との類似度を語義特徴ベクトルにより計算することにより、抽出すべきテキストにおける文字と最も類似度の高いサンプル文字のラベルを抽出すべきテキストにおける文字の予測ラベルとするため、決定された予測ラベルの精度を向上させた。
【0031】
オプションとして、本実施形態では、S103を実行して文字とサンプル文字との類似度を算出する際に、以下の計算式を用いてよい。
【数1】
【0032】
計算式では、sim はi番目の文字とj番目のサンプル文字の間の類似度を示し、Sはi番目の文字の語義特徴ベクトルを示し、Tは転置を示し、Vはj番目のサンプル文字の語義特徴ベクトルを示す。
【0033】
本実施形態では、S103を実行する場合に、抽出すべきテキスト自体又はサンプルテキスト自体から、抽出すべきテキストにおける各文字の語義特徴ベクトル、又はサンプルテキストにおける各サンプル文字の語義特徴ベクトルをそれぞれ生成してよい。
【0034】
生成された抽出すべきテキストにおける各文字の語義特徴ベクトルの精度を向上させるために、本実施形態では、S103を実行して抽出すべきテキストにおける各文字の語義特徴ベクトルを生成する際に、以下のようなオプション実現方式を採用して良い。つまり、抽出すべきフィールド名を取得し、抽出すべきテキストと抽出すべきフィールド名とをスティッチングした後、スティッチング結果における各文字の単語ベクトル(token embedding)、文ペアベクトル(segment embedding)、位置ベクトル(position embedding)を取得し、例えば、スティッチング結果をERNIEモデルに入力し、ERNIEモデルにより各文字ごとに出力される3種類のベクトルを取得し、各文字の単語ベクトル、文ペアベクトル、及び位置ベクトルに基づいて抽出すべきテキストにおける各文字の語義特徴ベクトルを生成し、例えば、各文字の単語ベクトル、文ペアベクトル、及び位置ベクトルを加算してERNIEモデルに入力し、ERNIEモデルの出力結果を各文字の語義的特徴ベクトルとする。
【0035】
生成されたサンプルテキストにおける各サンプル文字の語義特徴ベクトルの精度を向上させるために、本実施形態では、S103を実行してサンプルセットにおける各サンプル文字の語義特徴ベクトルを生成する際に、以下のようなオプション実現方式を採用して良い。つまり、抽出すべきフィールド名を取得し、サンプルセットにおける各サンプルテキストに対して、そのサンプルテキストと抽出すべきフィールド名をスティッチングした後、スティッチング結果における各サンプル文字の単語ベクトル、文ペアベクトルと位置ベクトルを取得し、各サンプル文字の単語ベクトル、文ペアベクトル、位置ベクトルに基づいて、そのサンプルテキストにおける各サンプル文字の語義特徴ベクトルを生成する。ここで、本実施形態では、サンプルテキストにおける各サンプル文字の3種類のベクトルと語義特徴ベクトルとを取得する場合の方法は、抽出すべきテキストにおける各文字の3種類のベクトルと語義特徴ベクトルとを取得する場合の方法と類似である。
【0036】
なお、本実施形態では、S103を実行して抽出すべきテキストと抽出すべきフィールド名とをスティッチングする場合や、サンプルテキストと抽出すべきフィールド名とをスティッチングする場合に、予め設定されたスティッチングルールに従ってスティッチングを行うことができる。好ましくは、本実施形態のスティッチングルールは、「[CLS]抽出すべきフィールド名[SEP]抽出すべきテキスト又はサンプルテキスト[SEP]」であり、[CLS]と[SEP]は特殊文字である。
【0037】
例えば、本実施形態における抽出すべきフィールド名が「甲」であり、サンプルテキストが「甲:李四」であり、抽出すべきテキストが「甲:張三」であれば、取得されるスティッチング結果は、「[CLS]甲[SEP]甲:李四[SEP]」と「[CLS]甲[SEP]甲:李四[SEP]」とすることができる。
【0038】
本実施形態では、S103を実行して抽出すべきテキストにおける各文字の予測ラベルを決定した後、S104を実行して、各文字の予測ラベルに基づいて、抽出すべきテキストの抽出結果として、抽出すべきテキストから予め設定された条件を満たす文字を抽出する。なお、本実施形態における予め設定された条件は、抽出すべきフィールド名に対応する、予め設定されたラベル条件又は予め設定されたラベルシーケンス条件のいずれかであってよい。
【0039】
本実施形態では、S104を実行して、各文字の予測ラベルに基づいて、抽出すべきテキストの抽出結果として、抽出すべきテキストから予め設定された条件を満たす文字を抽出する際に、抽出すべきテキストの中で予め設定されたラベル条件を満たす文字を文字の順に決定し、決定された文字を抽出して抽出結果を構成することができる。
【0040】
なお、本実施形態では、S104を実行して、各文字の予測ラベルに基づいて、抽出すべきテキストの抽出結果として、抽出すべきテキストから予め設定された条件を満たす文字を抽出する際に、以下のようなオプション実現方式を採用して良い。つまり、各文字の予測ラベルに基づいて抽出すべきテキストの予測ラベルシーケンスを生成し、生成された予測ラベルシーケンスにおける予め設定されたラベルシーケンス条件を満たすラベルシーケンスを決定し、抽出すべきテキストから決定されたラベルシーケンスに対応する複数の文字を抽出結果として抽出する。
【0041】
例えば、本実施形態における抽出すべきフィールド名が「甲」であり、抽出すべきテキストが「甲:張三」であり、生成された予測ラベルシーケンスが「OOOBI」であり、抽出すべきフィールド名「甲」に対応するラベルシーケンス条件が「BI」である場合、抽出結果として、抽出すべきテキストから決定されたラベルシーケンス「BI」に対応する「張三」が抽出される。
【0042】
すなわち、本実施形態では、予測ラベルシーケンスを生成することにより、抽出すべきテキストにおける抽出すべきフィールド名に対応するフィールド値を迅速に決定し、さらに、決定されたフィールド値を抽出結果として抽出することが可能となり、情報抽出の効率をさらに向上させることができる。
【0043】
図2は、本開示の第2実施形態に係る概略図である。図3に示すように、本実施形態では、抽出すべきテキスト、抽出すべきフィールド名、サンプルセットを取得した後、抽出すべきフィールド名に基づいて特徴抽出を行い、抽出すべきテキストにおける各文字の語義特徴ベクトルとサンプルセットにおける各サンプル文字の語義特徴ベクトルとをそれぞれ取得し、得られた語義特徴ベクトルに基づいて類似度計算を行うことにより、抽出すべきテキストにおける各文字の予測ラベルを決定し、各文字の予測ラベルに基づいて出力復号化を行い、さらに復号化結果を抽出すべきテキストの抽出結果とする、という情報抽出のフローチャートを示している。
【0044】
図3は、本開示の第3実施形態に係る概略図である。図3に示すように、本実施形態の情報抽出装置300は、抽出すべきテキストを取得する第1取得部301と、複数のサンプルテキストと、複数のサンプルテキストにおける各サンプル文字のラベルとを含むサンプルセットを取得する第2取得部302と、前記抽出すべきテキストにおける各文字の語義特徴ベクトルと前記サンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、前記抽出すべきテキストにおける各文字の予測ラベルを決定する処理部303と、各文字の予測ラベルに基づいて、前記抽出すべきテキストの抽出結果として、前記抽出すべきテキストから予め設定された条件を満たす文字を抽出する抽出部304と、を備えて良い。
【0045】
第1取得部301が取得した抽出すべきテキストは、複数の文字からなり、抽出すべきテキストが属する分野は任意の分野であってよい。
【0046】
第1取得部301は、抽出すべきテキストを取得した後、更に、少なくとも1つの文字のテキストを含む抽出すべきフィールド名を取得してよい。抽出すべきテキストから抽出した抽出結果は、抽出すべきテキストにおける抽出すべきフィールド名に対応するフィールド値である。
【0047】
本実施形態では、第1取得部301により抽出すべきテキストを取得した後、第2取得部302により、複数のサンプルテキストと、複数のサンプルテキストにおける各サンプル文字のラベルとを含むサンプルセットを取得する。
【0048】
第2取得部302は、サンプルセットを取得する際に、事前に構築されたサンプルセットを取得してもよく、リアルタイムに構築されたサンプルセットを取得してもよい。好ましくは、情報抽出の効率を向上させるために、第2取得部302により取得されるサンプルセットは、事前に構築されたサンプルセットである。
【0049】
第2取得部302により取得されたサンプルセットにおいて、少量のサンプルテキストが含まれ、例えば予め設定された数以内の複数のサンプルテキストが含まれる。当該予め設定された数は、小さい数値であってよく、例えば、第2取得部302により取得されたサンプルセットに5個のサンプルテキストのみが含まれている。
【0050】
第2取得部302により取得されたサンプルセットにおいて、抽出すべきフィールド名に異なるサンプル文字のラベルが対応する。サンプル文字のラベルは、当該サンプル文字がフィールド値の先頭であるか、フィールド値の中間であるか、非フィールド値であるかを示すものである。
【0051】
第2取得部302により取得されたサンプルセットにおいて、各サンプル文字のラベルがB、I及びOのうちの1つであってよい。ここで、ラベルBのサンプル文字は、そのサンプル文字がフィールド値の先頭であることを示し、ラベルIのサンプル文字は、そのサンプル文字がフィールド値の中間であることを示し、ラベルOのサンプル文字は、そのサンプル文字が非フィールド値であることを示す。
【0052】
本実施形態では、第2取得部302によりサンプルセットが取得された後、処理部303により、抽出すべきテキストにおける各文字の語義特徴ベクトルとサンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、抽出すべきテキストにおける各文字の予測ラベルを決定する。
【0053】
具体的には、処理部303は、抽出すべきテキストにおける各文字の語義特徴ベクトルとサンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、抽出すべきテキストにおける各文字の予測ラベルを決定する際には、以下のようなオプション実現方式を採用して良い。つまり、抽出すべきテキストにおける各文字について、その文字の語義特徴ベクトルとサンプルセットにおける各サンプル文字の語義特徴ベクトルとに基づいて、その文字とサンプルセットにおける各サンプル文字との間の類似度を計算し、その文字と最も類似度の高いサンプル文字のラベルをその文字の予測ラベルとする。
【0054】
つまり、本実施形態では、語義特徴ベクトルにより抽出すべきテキストにおける文字とサンプルセットにおけるサンプル文字との類似度を計算することにより、抽出すべきテキストにおける文字と最も類似度の高いサンプル文字のラベルを抽出すべきテキストにおける文字の予測ラベルとするため、決定された予測ラベルの精度を向上させた。
【0055】
処理部303は、直接に抽出すべきテキスト自体又はサンプルテキスト自体に基づいて、抽出すべきテキストにおける各文字の語義特徴ベクトル、又はサンプルテキストにおける各サンプル文字の語義特徴ベクトルをそれぞれ生成してよい。
【0056】
生成された抽出すべきテキストにおける各文字の語義特徴ベクトルの精度を向上させるために、処理部303は、抽出すべきテキストにおける各文字の語義特徴ベクトルを生成する際に、以下のようなオプション実現方式を採用して良い。つまり、抽出すべきフィールド名を取得し、抽出すべきテキストと抽出すべきフィールド名をスティッチングした後、スティッチング結果における各文字の単語ベクトル、文ペアベクトル、位置ベクトルを取得し、各文字の単語ベクトル、文ペアベクトル、位置ベクトルに基づいて、抽出すべきテキストにおける各文字の語義特徴ベクトルを生成する。
【0057】
生成されたサンプルテキストにおける各サンプル文字の語義特徴ベクトルの精度を向上させるために、処理部303は、サンプルセットにおける各サンプル文字の語義特徴ベクトルを生成する際に、以下のようなオプション実現方式を採用して良い。つまり、抽出すべきフィールド名を取得し、サンプルセットにおける各サンプルテキストに対して、そのサンプルテキストと抽出すべきフィールド名をスティッチングした後、スティッチング結果における各サンプル文字の単語ベクトル、文ペアベクトルと位置ベクトルを取得し、各サンプル文字の単語ベクトル、文ペアベクトル、位置ベクトルに基づいて、そのサンプルテキストにおける各サンプル文字の語義特徴ベクトルを生成する。ここで、処理部303は、サンプルテキストにおける各サンプル文字の3種類のベクトルと語義特徴ベクトルとを取得する場合の方法は、抽出すべきテキストにおける各文字の3種類のベクトルと語義特徴ベクトルとを取得する場合の方法と類似である。
【0058】
なお、処理部303は、抽出すべきテキストと抽出すべきフィールド名とをスティッチングする場合、又はサンプルテキストと抽出すべきフィールド名とをスティッチングする場合に、予め設定されたスティッチングルールに従ってスティッチングを行うことができる。好ましくは、処理部303におけるスティッチングルールは、「[CLS]抽出すべきフィールド名[SEP]抽出すべきテキスト又はサンプルテキスト[SEP]」であり、[CLS]と[SEP]は特殊文字である。
【0059】
本実施形態では、処理部303により抽出すべきテキストにおける各文字の予測ラベルが決定された後、抽出部304により、各文字の予測ラベルに基づいて、抽出すべきテキストから予め設定された条件を満たす文字を抽出すべきテキストの抽出結果として抽出する。ここで、抽出部304における予め設定された条件は、抽出すべきフィールド名に対応する、予め設定されたラベル条件及び予め設定されたラベルシーケンス条件のいずれかであってよい。
【0060】
抽出部304は、各文字の予測ラベルに基づいて、抽出すべきテキストの抽出結果として、抽出すべきテキストから予め設定された条件を満たす文字を抽出する際に、抽出すべきテキストにおける予め設定されたラベル条件を満たす文字を、文字の順に順次決定し、更に決定された文字を抽出して抽出結果を構成することができる。
【0061】
また、抽出部304は、各文字の予測ラベルに基づいて、抽出すべきテキストの抽出結果として、抽出すべきテキストから予め設定された条件を満たす文字を抽出する場合に、以下のようなオプション実現方式を採用して良い。つまり、各文字の予測ラベルに基づいて、抽出すべきテキストの予測ラベルシーケンスを生成し、生成された予測ラベルシーケンスのうち、予め設定されたラベルシーケンス条件を満たすラベルシーケンスを決定し、決定されたラベルシーケンスに対応する複数の文字を抽出すべきテキストから抽出結果として抽出する。
【0062】
すなわち、本実施形態では、予測ラベルシーケンスを生成することにより、抽出すべきテキストにおける抽出すべきフィールド名に対応するフィールド値を迅速に特定し、更に決定されたフィールド値を抽出結果として抽出するため、情報抽出の効率をさらに向上させることができる。
【0063】
本開示の技術案において、関わるユーザの個人情報の取得、記憶及び応用等は、いずれも関連法律法規の規定に適合しており、公序良俗に反するものではない。
【0064】
本開示の実施形態によれば、本開示は更に、電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0065】
図4は、本開示の実施形態の情報抽出方法に係る電子デバイスのブロック図である。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
【0066】
図4に示すように、デバイス400は、読み取り専用メモリ(ROM)402に記憶されたコンピュータプログラム、又は記憶手段408からランダムアクセスメモリ(RAM)403にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段401を含む。RAM403には、デバイス400の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段401、ROM402及びRAM403は、バス404を介して接続されている。入出力(I/O)インターフェース405もバス404に接続されている。
【0067】
例えばキーボード、マウス等の入力手段406と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段407と、例えば磁気ディスク、光ディスク等の記憶手段408と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段409を含むデバイス400の複数の構成要素は、I/Oインターフェース405に接続される。通信手段409は、デバイス400が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0068】
演算手段401は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段401のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段401は、上述した様々な方法及び処理、例えば情報抽出方法を実行する。例えば、幾つかの実施形態では、情報抽出方法は、例えば記憶手段408のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。
【0069】
幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM402及び/又は通信手段409を介してデバイス400にロード及び/又はインストールすることができる。コンピュータプログラムがRAM403にロードされ、演算手段401により実行されると、本開示に記載の情報抽出方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段401は、情報抽出方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0070】
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
【0071】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
【0072】
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0073】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音入力、音声入力、又は触覚入力を含む)で受信して良い。
【0074】
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0075】
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストとVPSサービス(「Virtual Private Server」、或いは「VPS」と略称される)において管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
【0076】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0077】
上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4