(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023015215
(43)【公開日】2023-01-31
(54)【発明の名称】テキスト情報の抽出方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
G06F 16/33 20190101AFI20230124BHJP
【FI】
G06F16/33
【審査請求】有
【請求項の数】13
【出願形態】OL
【公開請求】
(21)【出願番号】P 2022178520
(22)【出願日】2022-11-08
(31)【優先権主張番号】202111625127.9
(32)【優先日】2021-12-28
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【弁理士】
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【弁理士】
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100201466
【弁理士】
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】リュウ, ハン
(72)【発明者】
【氏名】フー, テン
(72)【発明者】
【氏名】フェン, シクン
(72)【発明者】
【氏名】チェン, ヨンフェン
(57)【要約】 (修正有)
【課題】テキスト情報抽出の精度を向上させる抽出方法、装置、電子機器及び記憶媒体を提供する。
【解決手段】方法は、抽出対象のテキスト及びターゲットフィールド名を取得し、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出し、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報の融合意味に基づいて、候補テキスト情報をフィルタリングして、融合意味にマッチングするターゲットテキスト情報を取得する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
抽出対象のテキスト及びターゲットフィールド名を取得するステップと、
前記抽出対象のテキスト及び前記ターゲットフィールド名に基づいて、前記抽出対象のテキストから前記ターゲットフィールド名にマッチングする候補テキスト情報を抽出するステップと、
前記抽出対象のテキスト、前記ターゲットフィールド名及び前記候補テキスト情報の融合意味に基づいて、前記候補テキスト情報をフィルタリングして、前記融合意味にマッチングするターゲットテキスト情報を取得するステップと、
を含む、テキスト情報の抽出方法。
【請求項2】
前記抽出対象のテキスト、前記ターゲットフィールド名及び前記候補テキスト情報の融合意味に基づいて、前記候補テキスト情報をフィルタリングして、前記融合意味にマッチングするターゲットテキスト情報を取得するステップが、
前記抽出対象のテキスト、前記ターゲットフィールド名及び前記候補テキスト情報をスプライスし、第1のスプライス結果を取得するステップと、
前記第1のスプライス結果に対応する第1の意味ベクトルを取得するステップであって、前記第1の意味ベクトルが前記融合意味を特徴づけるステップと、
前記第1の意味ベクトルに基づいて、前記第1のスプライス結果に対して二項分類を行って、前記第1のスプライス結果の中の前記候補テキスト情報が前記融合意味にマッチングする第1の予測スコア、及び前記第1のスプライス結果の中の前記候補テキスト情報が前記融合意味にマッチングしない第2の予測スコアを取得するステップと、
前記第1の予測スコアが前記第2の予測スコアより大きい場合、前記候補テキスト情報を前記ターゲットテキスト情報として決定するステップと、
を含む請求項1に記載の方法。
【請求項3】
前記第1のスプライス結果に対応する第1の意味ベクトルを取得するステップが、
前記第1のスプライス結果の中の複数の文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを取得するステップと、
複数の前記文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを加算し、複数の前記文字のそれぞれに対応する入力ベクトルを取得するステップと、
複数の前記文字のそれぞれに対応する入力ベクトルをスプライスし、特徴抽出モデルに入力して、前記第1のスプライス結果に対応する前記第1の意味ベクトルを取得するステップと、
を含む請求項2に記載の方法。
【請求項4】
前記第1の意味ベクトルに基づいて、前記第1のスプライス結果に対して二項分類を行って、前記第1のスプライス結果の中の前記候補テキスト情報が前記融合意味にマッチングする第1の予測スコア、及び前記第1のスプライス結果の中の前記候補テキスト情報が前記融合意味にマッチングしない第2の予測スコアを取得するステップが、
前記第1の意味ベクトルを分類器に入力して、前記候補テキスト情報が前記融合意味にマッチングする第1の確率、及び前記候補テキスト情報が前記融合意味にマッチングしない第2の確率を取得するステップと、
前記第1の確率を前記第1の予測スコアとし、前記第2の確率を前記第2の予測スコアとするステップと、
を含む請求項2に記載の方法。
【請求項5】
前記抽出対象のテキスト及び前記ターゲットフィールド名に基づいて、前記抽出対象のテキストから前記ターゲットフィールド名にマッチングする候補テキスト情報を抽出するステップが、
前記抽出対象のテキストと前記ターゲットフィールド名をスプライスし、第2のスプライス結果を取得するステップと、
前記第2のスプライス結果の中の複数の文字のそれぞれに対応する第2の意味ベクトルを取得するステップと、
複数の前記文字のそれぞれに対応する第2の意味ベクトルに基づいて、複数の前記文字に対して二項分類を行って、複数の前記文字が前記ターゲットフィールド名にマッチングする第3の予測スコア、及び複数の前記文字が前記ターゲットフィールド名にマッチングしない第4の予測スコアを取得するステップと、
複数の前記文字中のターゲット文字に基づいてスプライスして、前記候補テキスト情報を取得するステップであって、前記ターゲット文字が、対応する前記第3の予測スコアが前記第4の予測スコアより大きい文字であるステップと、
を含む請求項1に記載の方法。
【請求項6】
抽出対象のテキスト及びターゲットフィールド名を取得する取得モジュールと、
前記抽出対象のテキスト及び前記ターゲットフィールド名に基づいて、前記抽出対象のテキストから前記ターゲットフィールド名にマッチングする候補テキスト情報を抽出する抽出モジュールと、
前記抽出対象のテキスト、前記ターゲットフィールド名及び前記候補テキスト情報の融合意味に基づいて、前記候補テキスト情報をフィルタリングして、前記融合意味にマッチングするターゲットテキスト情報を取得するフィルタリングモジュールと、
を備える、テキスト情報の抽出装置。
【請求項7】
前記フィルタリングモジュールが、
前記抽出対象のテキスト、前記ターゲットフィールド名及び前記候補テキスト情報をスプライスし、第1のスプライス結果を取得する第1のスプライスユニットと、
前記第1のスプライス結果に対応する第1の意味ベクトルを取得する第1の取得ユニットであって、前記第1の意味ベクトルが前記融合意味を特徴づける第1の取得ユニットと、
前記第1の意味ベクトルに基づいて、前記第1のスプライス結果に対して二項分類を行って、前記第1のスプライス結果の中の前記候補テキスト情報が前記融合意味にマッチングする第1の予測スコア、及び前記第1のスプライス結果の中の前記候補テキスト情報が前記融合意味にマッチングしない第2の予測スコアを取得する第1の分類ユニットと、
前記第1の予測スコアが前記第2の予測スコアより大きい場合、前記候補テキスト情報を前記ターゲットテキスト情報として決定する決定ユニットと、
を含む請求項6に記載の装置。
【請求項8】
前記第1の取得ユニットが、
前記第1のスプライス結果の中の複数の文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを取得する第1の取得サブユニットと、
複数の前記文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを加算し、複数の前記文字のそれぞれに対応する入力ベクトルを取得する第1の処理サブユニットと、
複数の前記文字のそれぞれに対応する入力ベクトルをスプライスし、特徴抽出モデルに入力して、前記第1のスプライス結果に対応する前記第1の意味ベクトルを取得する第2の処理サブユニットと、
を含む請求項7に記載の装置。
【請求項9】
前記第1の分類ユニットが、
前記第1の意味ベクトルを分類器に入力して、前記候補テキスト情報が前記融合意味にマッチングする第1の確率、及び前記候補テキスト情報が前記融合意味にマッチングしない第2の確率を取得する第2の取得サブユニットと、
前記第1の確率を前記第1の予測スコアとし、前記第2の確率を前記第2の予測スコアとする第3の処理サブユニットと、
を含む請求項7に記載の装置。
【請求項10】
前記抽出モジュールが、
前記抽出対象のテキストと前記ターゲットフィールド名をスプライスし、第2のスプライス結果を取得する第2のスプライスユニットと、
前記第2のスプライス結果の中の複数の文字のそれぞれに対応する第2の意味ベクトルを取得する第2の取得ユニットと、
複数の前記文字のそれぞれに対応する第2の意味ベクトルに基づいて、複数の前記文字に対して二項分類を行って、複数の前記文字が前記ターゲットフィールド名にマッチングする第3の予測スコア、及び複数の前記文字が前記ターゲットフィールド名にマッチングしない第4の予測スコアを取得する第2の分類ユニットと、
複数の前記文字中のターゲット文字に基づいてスプライスして、前記候補テキスト情報を取得する第3のスプライスユニットであって、前記ターゲット文字が、対応する前記第3の予測スコアが前記第4の予測スコアより大きい文字である第3のスプライスユニットと、
を含む請求項6から9のいずれか一項に記載の装置。
【請求項11】
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されおり、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが、請求項1から5のいずれか一項に記載の方法を実行することができる電子機器。
【請求項12】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項1から5のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項13】
プロセッサによって実行される場合、請求項1から5のいずれか一項に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術の分野】
【0001】
本開示は人工智能技術の分野に関し、具体的に、深層学習、自然言語処理技術の分野であり、特にテキスト情報の抽出方法、装置、電子機器及び記憶媒体に関する。
【背景技術】
【0002】
日々の書類処理の中で重要な情報を抽出する需要がよくあり、例えば契約書を処理する際、文書中の「A社」、「B社」、「契約価値」などの情報を知る必要がある。法律判決書を処理する際、文書中の「被告人」、「起訴者」、「犯罪容疑」などの情報を知る必要がある。
【0003】
文書から重要な情報を正確に抽出する方法は、実際の適用シーンにおけるダウンストリームタスクの精度の向上に対して重要な意義がある。
【発明の概要】
【0004】
本開示は、テキスト情報の抽出方法、装置、電子機器及び記憶媒体を提供する。
【0005】
本開示の第1の態様によれば、テキスト情報の抽出方法を提供し、前記方法は、抽出対象のテキスト及びターゲットフィールド名を取得するステップと、前記抽出対象のテキスト及び前記ターゲットフィールド名に基づいて、前記抽出対象のテキストから前記ターゲットフィールド名にマッチングする候補テキスト情報を抽出するステップと、前記抽出対象のテキスト、前記ターゲットフィールド名及び前記候補テキスト情報の融合意味に基づいて、前記候補テキスト情報をフィルタリングして、前記融合意味にマッチングするターゲットテキスト情報を取得するステップと、を含む。
【0006】
本開示の別の態様によれば、テキスト情報の抽出装置を提供し、前記装置は、抽出対象のテキスト及びターゲットフィールド名を取得する取得モジュールと、前記抽出対象のテキスト及び前記ターゲットフィールド名に基づいて、前記抽出対象のテキストから前記ターゲットフィールド名にマッチングする候補テキスト情報を抽出する抽出モジュールと、前記抽出対象のテキスト、前記ターゲットフィールド名及び前記候補テキスト情報の融合意味に基づいて、前記候補テキスト情報をフィルタリングして、前記融合意味にマッチングするターゲットテキスト情報を取得するフィルタリングモジュールと、を備える。
【0007】
本開示の別の態様によれば、電子機器を提供し、前記電子機器は少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが本開示のテキスト情報の抽出方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
【0008】
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本開示の実施例によって開示されたテキスト情報の抽出方法を実行させる。
【0009】
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、本開示のテキスト情報の抽出方法を実現する。
【0010】
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
【図面の簡単な説明】
【0011】
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
【
図1】本開示の第1の実施例に係るテキスト情報の抽出方法の概略フローチャートである。
【
図2】本開示の第2の実施例に係るテキスト情報の抽出方法の概略フローチャートである。
【
図3】本開示の第3の実施例に係るテキスト情報の抽出装置の概略構成図である。
【
図4】本開示の第4の実施例に係るテキスト情報の抽出装置の概略構成図である。
【
図5】本開示の実施例のテキスト情報の抽出方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0013】
日々の書類処理の中で重要な情報を抽出する需要がよくあり、例えば契約書を処理する際、文書中の「A社」、「B社」、「契約価値」などの情報を知る必要がある。法律判決書を処理する際、文書中の「被告人」、「起訴者」、「犯罪容疑」などの情報を知る必要がある。文書から重要な情報を正確に抽出する方法は、実際の適用シーンにおけるダウンストリームタスクの精度の向上に対して重要な意義がある。
【0014】
本開示はテキスト情報の抽出方法、装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体及びコンピュータプログラムを提供し、抽出対象のテキスト及びターゲットフィールド名を取得した後、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出し、さらに抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報の融合意味に基づいて、候補テキスト情報をフィルタリングして、融合意味にマッチングするターゲットテキスト情報を取得することにより、テキスト情報抽出の精度を向上させる。
【0015】
本開示によって提供されるテキスト情報の抽出方法、装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体及びコンピュータプログラムは、人工知能技術の分野に関し、具体的には、深層学習、自然言語処理技術の分野である。
【0016】
人工知能はコンピュータに人間のある思惟過程と知能行為(学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術ともある。人工知能ハードウェア技術は一般にセンサ、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。
【0017】
以下、図面を参照しながら、本開示の実施例のテキスト情報の抽出方法、装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体及びコンピュータプログラムを説明する。
【0018】
図1は、本開示の第1の実施例に係るテキスト情報の抽出方法の概略フローチャートである。なお、本実施例のテキスト情報の抽出方法の実行主体は、テキスト情報の抽出装置であり、当該テキスト情報の抽出装置は、ソフトウェア及び/又はハードウェアによって実現されることができ、当該テキスト情報の抽出装置は、電子機器に構成されることができ、当該電子機器は、スマートフォン、コンピュータなどの端末装置、サーバなどを含むが、これらに限定されない、この実施例は電子機器に対して具体的に限定しない。
【0019】
図1に示すように、当該テキスト情報の抽出方法は、以下のステップ101~103を含むことができる。
【0020】
ステップ101、抽出対象のテキスト及びターゲットフィールド名を取得する。
【0021】
抽出対象のテキストは、その中から重要な情報を抽出すべきテキストである。抽出対象のテキストは、契約内のテキスト、法律判決書のテキストなど、任意の分野のテキストであってもよく、本開示はこれに対して限定しない。
【0022】
ターゲットフィールド名は、予め指定された抽出すべきテキスト情報に対応するフィールド名である。例えば、ターゲットフィールド名は、契約分野の「甲」と「乙」、または、法律分野の「被告」と「起訴者」などであってもよい。
【0023】
なお、本開示の実施例のターゲットフィールド名は、1つのフィールド名であってもよく、複数のフィールド名であってもよく、本開示はこれに対して限定しない。
【0024】
例えば、抽出対象のテキストが「甲:張三、乙:李四」、ターゲットフィールド名が「甲」と「乙」であると仮定すると、本開示の実施例では、抽出対象のテキストからターゲットフィールド名「甲」にマッチングする「張三」、およびターゲットフィールド名「乙」にマッチングする「李四」を正確に抽出する必要がある。
【0025】
ステップ102、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出する。
【0026】
候補テキスト情報は、本開示の実施例のテキスト情報抽出の中間結果である。
【0027】
例えば、抽出対象のテキストが「甲:張三、乙:李四」であり、ターゲットフィールド名が「甲」と「乙」であると仮定すると、本開示の実施例では、抽出対象のテキストから抽出されたターゲットフィールド名「甲」にマッチングする候補テキスト情報は「張三」である可能性があり、「李四」である可能性もあり、ターゲットフィールド名「乙」にマッチングする候補テキスト情報は「張三」である可能性があり、「李四」である可能性もある。
【0028】
なお、本開示の実施例では、関連技術における任意のテキスト情報抽出方式で、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出することを実現することができ、本開示の実施例は、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出する方式を限定しない。
【0029】
ステップ103、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報の融合意味に基づいて、候補テキスト情報をフィルタリングして、融合意味にマッチングするターゲットテキスト情報を取得する。
【0030】
なお、本開示の実施例では、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストから抽出されたターゲットフィールド名にマッチングする候補テキスト情報は、不合理的な抽出結果である可能性があり、テキスト情報抽出結果の精度を確保するために、本開示の実施例では、抽出された候補テキスト情報をフィルタリングし、より正確な抽出結果を取得することができる。
【0031】
具体的に、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報の融合意味に基づいて、候補テキスト情報が合理的であるか否かを判断することができ、合理的ではない場合、当該候補テキスト情報をフィルタリングする必要があると決定し、合理的である場合、当該候補テキスト情報をフィルタリングする必要がないと決定し、さらにフィルタリングされたターゲットテキスト情報を取得することができる。ターゲットテキスト情報は、最終的に得られた正確なテキスト情報抽出結果である。融合意味は、抽出対象のテキストの意味情報、ターゲットフィールドの意味情報、及び候補テキスト情報の意味情報を融合した。
【0032】
候補テキスト情報と融合意味とがマッチングする場合、候補テキスト情報が合理的であると決定することができ、候補テキスト情報と融合意味とがマッチングしない場合、候補テキスト情報が不合理であると決定することができる。
【0033】
本開示の実施例のテキスト情報の抽出方法は、抽出対象のテキスト及びターゲットフィールド名を取得し、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出した後、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報の融合意味に基づいて、候補テキスト情報をフィルタリングして、融合意味にマッチングするターゲットテキスト情報を取得することにより、テキスト情報抽出の精度を向上させる。
【0034】
なお、1つの可能な実現形態では、本開示実施例のテキスト情報の抽出方法は、テキスト情報の抽出装置に嵌入されたテキスト情報抽出モデルによって実現することができ、当該テキスト情報抽出モデルはエンドツーエンドのニューラルネットワークモデルであり、テキスト情報の抽出を行う際、抽出対象のテキストとターゲットフィールド名をテキスト情報抽出モデルに入力することができ、テキスト情報抽出モデルは、抽出対象のテキストとターゲットフィールド名に基づいて、ターゲットテキスト情報を取得することができる。
【0035】
当該テキスト情報抽出モデルは、抽出モジュールとフィルタリングモジュールを備えることができ、抽出モジュールの入力は抽出対象のテキストとターゲットフィールド名であり、抽出モジュールは、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出して出力することができ、フィルタリングモジュールの入力は、抽出対象のテキスト、ターゲットフィールド名及び抽出モジュールから出力された候補テキスト情報であってもよく、フィルタリングモジュールは、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報の融合意味に基づいて、候補テキスト情報をフィルタリングして、融合意味にマッチングするターゲットテキスト情報を取得することができる。
【0036】
抽出モジュールは、関連技術における任意のテキスト重要な情報抽出を実現できるモデルを用いて実現することができ、本開示はこれに対して限定しない。
【0037】
フィルタリングモジュールは、実際のデータをトレーニングデータとして、深層学習によってトレーニングして得られることができる。トレーニングデータには複数組のトレーニングサンプルが含まれ、各組のトレーニングサンプルは、サンプルテキスト、サンプルフィールド名及びサンプルテキスト中のサンプルテキスト情報を含み、例えば、サンプルテキスト「甲:張三」、サンプルフィールド名「甲」及びサンプルテキスト情報「張三」を含み、または、サンプルテキスト「甲:張三」、サンプルフィールド名「乙」及びサンプルテキスト情報「張三」などを含み、各組のトレーニングサンプルはその中のサンプルテキスト情報がサンプルフィールド名にマッチングするか否かで表記する。
【0038】
フィルタリングモジュールをトレーニングする際、フィルタリングモジュールは、各組のトレーニングサンプル中のサンプルテキスト、サンプルフィールド名及びサンプルテキスト情報の融合意味を取得し、融合意味に基づいて、この組のトレーニングサンプル中のサンプルテキスト情報と融合意味とがマッチングするか否かという予測結果を出力することができ、さらに、サンプルテキスト情報とサンプルフィールド名とがマッチングするか否かの表記と、当該サンプルテキスト情報に対応する予測結果の差異を決定し、この差異に基づいてフィルタリングモジュールのモデルパラメータを調整して、フィルタリングモジュールの予測精度が予め設定された精度閾値より大きくなると、トレーニングが終了し、トレーニングされたフィルタリングモジュールを取得する。トレーニングを経た後、フィルタリングモジュールは抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報の融合意味に基づいて、候補テキスト情報と融合意味とがマッチングするか否かを予測し、さらに予測結果に基づいて、候補テキスト情報をフィルタリングすることができる。
【0039】
なお、抽出モジュールフィルタリングモジュールを同時にトレーニングすることができ、個別にトレーニングすることもでき、本開示はこれに対して限定しない。
【0040】
抽出モジュールのダウンストリームにのみフィルタリングモジュールを追加し、フィルタリングモジュールが抽出モジュールによって抽出された候補テキスト情報のみをフィルタリングするため、テキスト情報抽出の精度を向上させるために、より大きくより深い抽出モデルを用いてテキスト情報の抽出を行うよりも、本開示の実施例によって提供されるテキスト情報の抽出方法は、同じ効果を実現するための時間の消費が少ない。
【0041】
以下、
図2と併せて、本開示によって提供されるテキスト情報の抽出方法において、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報の融合意味に基づいて、候補テキスト情報をフィルタリングして、融合意味にマッチングするターゲットテキスト情報を取得するプロセスをさらに説明する。
【0042】
図2は、本開示の第2の実施例に係るテキスト情報の抽出方法の概略フローチャートである。
図2に示すように、テキスト情報の抽出方法は、以下のステップ201~205を含むことができる。
【0043】
ステップ201、抽出対象のテキスト及びターゲットフィールド名を取得する。
【0044】
ステップ202、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出する。
【0045】
候補テキスト情報は、本開示の実施例のテキスト情報抽出の中間結果である。
【0046】
なお、本開示の実施例では、関連技術における任意のテキスト情報抽出方式で、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出することを実現することができ、本開示の実施例は、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出する方式を限定しない。
【0047】
以下、ステップ202の1つの可能な実施形態を説明する。
【0048】
本開示の実施例では、ステップ202は、抽出対象のテキスト及びターゲットフィールド名をスプライスし、第2のスプライス結果を得て、第2のスプライス結果の中の複数の文字のそれぞれに対応する第2の意味ベクトルを取得し、複数の文字のそれぞれに対応する第2の意味ベクトルに基づいて、複数の文字に対して二項分類を行って、複数の文字ターゲットフィールド名にマッチングする第3の予測スコア、及び複数の文字とターゲットフィールド名とがマッチングしない第4の予測スコアを取得し、複数の文字のうちのターゲット文字に基づいてスプライスして、候補テキスト情報を得て、ターゲット文字が、対応する第3の予測スコアが第4の予測スコアより大きい文字であることによって実現することができる。
【0049】
予め設定されたスプライスルールに従って、抽出対象のテキスト及びターゲットフィールド名をスプライスすることができる。例えば、「[CLS]抽出対象のテキスト[SEP]ターゲットフィールド名[SEP]」というルールに従って、抽出対象のテキストとターゲットフィールド名をスプライスすることができ、第2のスプライス結果を取得する。[CLS]と[SEP]は、自然言語処理の分野の特殊文字である。
【0050】
例えば、抽出対象のテキストが「甲:張三」であり、ターゲットフィールド名が「甲」であると仮定すると、第2のスプライス結果は「[CLS]甲:張三[SEP]甲[SEP]」であってもよい。
【0051】
第2のスプライス結果の中の複数の文字は、抽出対象のテキストに対してワード分割を行って得られた少なくとも1つの文字、及びターゲットフィールド名に対してワード分割を行って得られた少なくとも1つの文字を含む。抽出対象のテキストとターゲットフィールド名は、例えば、それぞれERNIE(Enhanced Representation through Knowledge Integration、知識拡張の意味表現)ワードリストに従ってワード分割を行って少なくとも1つの文字を取得することができる。
【0052】
本開示の実施例では、第2のスプライス結果を得た後、第2のスプライス結果の中の複数の文字のそれぞれに対応する単語ベクトル(token embedding)、文ペアベクトル(segment embedding)及び位置ベクトル(position embedding)を取得し、複数の文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを加算し、複数の文字のそれぞれに対応する入力ベクトルを取得することができ、さらに複数の文字のそれぞれに対応する入力ベクトルスを特徴行列にスプライスし、特徴抽出モデルに入力し、特徴抽出モデルを経て十分に特徴を抽出した後、特徴抽出モデルから出力された複数の文字のそれぞれに対応する深層意味ベクトルを、複数の文字のそれぞれに対応する第2の意味ベクトルとする。
【0053】
特徴抽出モジュールは、ERNIE(Enhanced Representation through Knowledge Integration、知識拡張の意味表現)モデルなどの任意の特徴抽出を実現できるモデルであってもよく、本開示はこれに対して限定しない。
【0054】
文ペアベクトルは、文を区別するために使用される。例えば、1番目の文の文字に対して、文字に対応する文ペアベクトルは0であり、2番目の文の文字に対して、文字に対応する文ペアベクトルは1である。本開示の実施例では、第2のスプライス結果の中の抽出対象のテキスト中の各文字に対応する文ペアベクトルは同じであり、いずれも文ペアベクトル0あり、ターゲットフィールド名中の各文字に対応する文ペアベクトルは同じであり、いずれも文ペアベクトル1である。
【0055】
各文字に対応する位置ベクトルは、第2のスプライス結果の中のこの文字の位置を特徴付ける。例えば、ある文字が第2のスプライス結果の中の1番目の文字である場合、この文字に対応する位置ベクトルは0であり、ある文字が第2のスプライス結果の中の2番目の文字である場合、この文字に対応する位置ベクトルは1である。
【0056】
複数の文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを加算し、複数の文字のそれぞれに対応する入力ベクトルを得た後、複数の文字のそれぞれに対応する入力ベクトルをスプライスし、特徴抽出モデルに入力して、第2のスプライス結果の中の複数の文字のそれぞれに対応する第2の意味ベクトルを取得することにより、取得された第2のスプライス結果の中の複数の文字のそれぞれに対応する第2の意味ベクトルの精度を向上させる。
【0057】
さらに、第2のスプライス結果の中の複数の文字のそれぞれに対応する第2の意味ベクトルを取得した後、複数の文字のそれぞれに対応する第2の意味ベクトルを分類器に入力することができ、分類器を使用して、複数の文字のそれぞれに対応する第2の意味ベクトルを2値空間にマッピングして、複数の文字ターゲットフィールド名にマッチングする第3の予測スコア、及び複数の文字とターゲットフィールド名とがマッチングしない第4の予測スコアを取得する。マッピングプロセスは以下の式(1)で表すことができる。
Ci=EiW+b (1)
【0058】
Ei∈R1*dはi番目の文字に対応する第2の意味ベクトルを表す。W∈Rd*2,b∈R1*2は分類器の学習可能なパラメータである。Ci∈R1*2は分類器の二項分類出力である。Rはベクトル空間を表し、dは次元を表す。
【0059】
分類器は、任意の分類を実現することができる二項分類器または多分類器であってもよく、本開示はこれに対して限定しない。
【0060】
分類器が第2の意味ベクトルを1にマッピングする場合、文字とターゲットフィールド名とがマッチングすることを表し、第2の意味ベクトルを0にマッピングする場合、文字とターゲットフィールド名とがマッチングしないことを表す。
【0061】
本開示の実施例では、分類器の出力に基づいて、複数の文字ターゲットフィールド名にマッチングする第3の予測スコア、及び複数の文字とターゲットフィールド名とがマッチングしない第4の予測スコアを取得することができ、さらに複数の文字のうちの対応する第3の予測スコアが第4の予測スコアより大きい文字をI、複数の文字のうちの対応する第3の予測スコアが第4の予測スコア以下である文字をOとマークすることができる。Iとマークされた文字がターゲット文字である。さらにIとマークされた文字に基づいてスプライスし、候補テキスト情報を取得することができる。連続してIである文字をスプライスし、候補テキスト情報を取得することができる。
【0062】
文字はIとマークされると、この文字がターゲットフィールド名にマッチングする候補テキスト情報の中間であることを表し、文字はOとマークされると、この文字がターゲットフィールド名にマッチングする候補テキスト情報ではないことを表す。
【0063】
複数の文字のそれぞれに対応する第2の意味ベクトルに基づいて、複数の文字に対して二項分類を行って、複数の文字ターゲットフィールド名にマッチングする第3の予測スコア、及び複数の文字とターゲットフィールド名とがマッチングしない第4の予測スコアを取得し、さらに複数の文字のうちのターゲット文字に基づいてスプライスして、候補テキスト情報を取得することにより、取得された候補テキスト情報の精度を向上させる。
【0064】
ステップ203、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報をスプライスし、第1のスプライス結果を取得する。
【0065】
予め設定されたスプライスルールに従って、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報をスプライスすることができ、例えば、「[CLS]抽出対象のテキスト[SEP]ターゲットフィールド名[SEP]候補テキスト情報[SEP]」というルールに従って、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報をスプライスし、第1のスプライス結果を取得することができる。
【0066】
例えば、抽出対象のテキストが「甲:張三」、ターゲットフィールド名が「甲」、候補テキスト情報が「張三」であると仮定すると、第1のスプライス結果は「[CLS]甲:張三[SEP]甲[SEP]張三[SEP]」であってもよい。
【0067】
ステップ204、第1のスプライス結果に対応する第1の意味ベクトルを取得し、第1の意味ベクトルが融合意味を特徴付ける。
【0068】
本開示の実施例では、ステップ204は、第1のスプライス結果の中の複数の文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを取得し、複数の文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを加算し、複数の文字のそれぞれに対応する入力ベクトルを得て、複数の文字のそれぞれに対応する入力ベクトルをスプライスし、特徴抽出モデルに入力して、第1のスプライス結果に対応する第1の意味ベクトルを取得することによって実現することができる。
【0069】
第1のスプライス結果の中の複数の文字は、抽出対象のテキストに対してワード分割を行って得られた少なくとも1つの文字、ターゲットフィールド名に対してワード分割を行って得られた少なくとも1つの文字、及び候補テキスト情報に対してワード分割を行って得られた少なくとも1つの文字を含む。抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報は、例えば、それぞれERNIEワードリストに従ってワード分割を行って少なくとも1つの文字を取得することができる。
【0070】
本開示の実施例では、第1のスプライス結果の中の複数の文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを取得し、複数の文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを加算し、複数の文字のそれぞれに対応する入力ベクトルを取得することができ、さらに複数の文字のそれぞれに対応する入力ベクトルを特徴行列にスプライスし、特徴抽出モデルに入力し、特徴抽出モデルを経て十分に特徴を抽出した後、特徴抽出モデルから出力された[CLS]に対応する特徴ベクトルを第1のスプライス結果に対応する第1の意味ベクトルとする。特徴抽出モデルを経て特徴抽出を行った後、[CLS]に対応する特徴ベクトルと抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報中の各文字のそれぞれに対応する入力ベクトルが十分に相互作用しているため、[CLS]に対応する特徴ベクトルを第1のスプライス結果全体の融合意味を特徴付ける第1の意味ベクトルとすることができる。
【0071】
なお、本開示の実施例では、第1のスプライス結果に対応する第1の意味ベクトルを取得し、第2のスプライス結果の中の複数の文字のそれぞれに対応する第2の意味ベクトルを取得する際、使用される特徴抽出モデルのパラメータは共有されない。
【0072】
本開示の実施例では、第1のスプライス結果の中の抽出対象のテキスト中の各文字に対応する文ペアベクトルは同じであり、いずれも文ペアベクトル0であり、ターゲットフィールド名中の各文字に対応する文ペアベクトルは同じであり、いずれも文ペアベクトル1であり、候補テキスト情報中の各文字に対応する文ペアベクトルは同じであり、いずれも文ペアベクトル2である。
【0073】
複数の文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを加算し、複数の文字のそれぞれに対応する入力ベクトルを得た後、複数の文字のそれぞれに対応する入力ベクトルをスプライスし、特徴抽出モデルに入力して、第1のスプライス結果に対応する第1の意味ベクトルを取得し、特徴抽出モデルで抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報の特徴を十分に抽出することを実現し、第1のスプライス結果に対応する第1の意味ベクトルを取得することにより、取得された第1のスプライス結果に対応する第1の意味ベクトルの精度を向上させる。
【0074】
ステップ205、第1の意味ベクトルに基づいて、第1のスプライス結果に対して二項分類を行って、第1のスプライス結果の中の候補テキスト情報と融合意味とがマッチングする第1の予測スコア、及び第1のスプライス結果の中の候補テキスト情報と融合意味とがマッチングしない第2の予測スコアを取得する。
【0075】
本開示の実施例では、ステップ205は、第1の意味ベクトルを分類器に入力して、候補テキスト情報融合意味にマッチングする第1の確率、及び候補テキスト情報と融合意味とがマッチングしない第2の確率を取得し、第1の確率を第1の予測スコアとし、第2の確率を第2の予測スコアとすることによって実現することができる。
【0076】
分類器は、任意の分類を実現することができる二項分類器または多分類器であってもよく、本開示はこれに対して限定しない。
【0077】
具体的に、第1の意味ベクトルを分類器に入力し、分類器を使用して、第1の意味ベクトルを2値空間にマッピングして、候補テキスト情報融合意味にマッチングする第1の確率及候補テキスト情報と融合意味とがマッチングしない第2の確率を取得することができる。マッピングプロセスは、以下の式(2)で表すことができる。
Out=VW’+b’ (2)
【0078】
V∈R1*dは第1のスプライス結果に対応する第1の意味ベクトルを表す。W’∈Rd*2,b’∈R1*2は分類器の学習可能なパラメータである。Out∈R1*2は分類器の二項分類出力である。Rはベクトル空間を表し、dは次元を表す。
【0079】
分類器は第1の意味ベクトルを1にマッピングする場合、第1のスプライス結果の中の候補テキスト情報と融合意味とがマッチングすることを表し、第1の意味ベクトルを0にマッピングする場合、第1のスプライス結果の中の候補テキスト情報と融合意味とがマッチングしないことを表す。
【0080】
本開示の実施例では、分類器の出力に基づいて、候補テキスト情報融合意味にマッチングする第1の確率、及び候補テキスト情報と融合意味とがマッチングしない第2の確率を取得し、第1の確率を第1の予測スコアとし、第2の確率を第2の予測スコアとすることができる。これにより、第1のスプライス結果の中の候補テキスト情報融合意味にマッチングする第1の予測スコア、及び第1のスプライス結果の中の候補テキスト情報と融合意味とがマッチングしない第2の予測スコアを正確に決定することができる。
【0081】
ステップ206、第1の予測スコアが第2の予測スコアより大きい場合、候補テキスト情報をターゲットテキスト情報として決定する。
【0082】
本開示の実施例では、第1の予測スコアが第2の予測スコアより大きい場合、第1のスプライス結果の中の候補テキスト情報と融合意味とがマッチングすると決定することができ、これによって候補テキスト情報をフィルタリングする必要がないと決定することができ、すなわち候補テキスト情報をターゲットテキスト情報として決定することができる。第1の予測スコアが第2の予測スコア以下である場合、第1のスプライス結果の中の候補テキスト情報と融合意味とがマッチングしないと決定することができ、これによって候補テキスト情報をフィルタリングする必要があると決定することができ、さらに当該候補テキスト情報を削除することができる。
【0083】
本開示の実施例のテキスト情報の抽出方法は、抽出対象のテキスト及びターゲットフィールド名を取得し、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出し、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報をスプライスし、第1のスプライス結果を得て、第1のスプライス結果に対応する第1の意味ベクトルを取得し、第1の意味ベクトルが融合意味を特徴付け、第1の意味ベクトルに基づいて、第1のスプライス結果に対して二項分類を行って、第1のスプライス結果の中の候補テキスト情報と融合意味とがマッチングする第1の予測スコア、及び第1のスプライス結果の中の候補テキスト情報と融合意味とがマッチングしない第2の予測スコアを取得し、第1の予測スコアが第2の予測スコアより大きい場合、候補テキスト情報をターゲットテキスト情報として決定することにより、候補テキスト情報の正確なフィルタリングを実現し、さらにテキスト情報から抽出されたターゲットテキスト情報の精度を向上させる。
【0084】
以下、
図3と併せて、本開示によって提供されるテキスト情報の抽出装置を説明する。
【0085】
図3は、本開示の第3の実施例に係るテキスト情報の抽出装置の概略構成図である。
【0086】
図3に示すように、本開示によって提供されるテキスト情報の抽出装置は、取得モジュール301、抽出モジュール302及びフィルタリングモジュール303を備える。
【0087】
取得モジュール301は、抽出対象のテキスト及びターゲットフィールド名を取得する。
【0088】
抽出モジュール302は、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出する。
【0089】
フィルタリングモジュール303は、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報の融合意味に基づいて、候補テキスト情報をフィルタリングして、融合意味にマッチングするターゲットテキスト情報を取得する。
【0090】
テキスト情報の抽出装置300は、ソフトウェア及び/又はハードウェアによって実現されることができ、当該テキスト情報の抽出装置300は、電子機器に構成されることができ、当該電子機器は、スマートフォン、コンピュータなどの端末装置、サーバなどを含むが、これらに限定されない、この実施例は電子機器に対して具体的に限定しない。
【0091】
なお、前記テキスト情報の抽出方法の実施例の説明は、本開示によって提供されるテキスト情報の抽出装置にも適用され、ここでは説明を省略する。
【0092】
本開示の実施例によって提供されるテキスト情報の抽出装置は、抽出対象のテキスト及びターゲットフィールド名を取得し、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出した後、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報の融合意味に基づいて、候補テキスト情報をフィルタリングして、融合意味にマッチングするターゲットテキスト情報を取得することにより、テキスト情報抽出の精度を向上させる。
【0093】
以下、
図4と併せて、本開示によって提供されるテキスト情報の抽出装置をさらに説明する。
【0094】
図4は、本開示の第4の実施例に係るテキスト情報の抽出装置の概略構成図である。
【0095】
図4に示すように、テキスト情報の抽出装置400は、具体的に、取得モジュール401、抽出モジュール402及びフィルタリングモジュール403を備えることができる。
図4の取得モジュール401、抽出モジュール402及びフィルタリングモジュール403は
図3の取得モジュール301、抽出モジュール302及びフィルタリングモジュール303と同じ機能と構造を有する。
【0096】
本開示の実施例では、フィルタリングモジュール403は、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報をスプライスし、第1のスプライス結果を取得する第1のスプライスユニット4031と、第1のスプライス結果に対応する第1の意味ベクトルを取得し、第1の意味ベクトルが融合意味を特徴付ける第1の取得ユニット4032と、第1の意味ベクトルに基づいて、第1のスプライス結果に対して二項分類を行って、第1のスプライス結果の中の候補テキスト情報と融合意味とがマッチングする第1の予測スコア、及び第1のスプライス結果の中の候補テキスト情報と融合意味とがマッチングしない第2の予測スコアを取得する第1の分類ユニット4033と、第1の予測スコアが第2の予測スコアより大きい場合、候補テキスト情報をターゲットテキスト情報として決定する決定ユニット4034と、を備える。
【0097】
本開示の実施例では、第1の取得ユニット4032は、第1のスプライス結果の中の複数の文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを取得する第1の取得サブユニットと、複数の文字のそれぞれに対応する単語ベクトル、文ペアベクトル及び位置ベクトルを加算し、複数の文字のそれぞれに対応する入力ベクトルを取得する第1の処理サブユニットと、複数の文字のそれぞれに対応する入力ベクトルをスプライスし、特徴抽出モデルに入力して、第1のスプライス結果に対応する第1の意味ベクトルを取得する第2の処理サブユニットと、を備える。
【0098】
本開示の実施例では、第1の分類ユニット4033は、第1の意味ベクトルを分類器に入力して、候補テキスト情報融合意味にマッチングする第1の確率、及び候補テキスト情報と融合意味とがマッチングしない第2の確率を取得する第2の取得サブユニットと、第1の確率を第1の予測スコアとし、第2の確率を第2の予測スコアとする第3の処理サブユニットと、を備える。
【0099】
本開示の実施例では、抽出モジュール402は、抽出対象のテキスト及びターゲットフィールド名をスプライスし、第2のスプライス結果を取得する第2のスプライスユニットと、第2のスプライス結果の中の複数の文字のそれぞれに対応する第2の意味ベクトルを取得する第2の取得ユニットと、複数の文字のそれぞれに対応する第2の意味ベクトルに基づいて、複数の文字に対して二項分類を行って、複数の文字ターゲットフィールド名にマッチングする第3の予測スコア、及び複数の文字とターゲットフィールド名とがマッチングしない第4の予測スコアを取得する第2の分類ユニットと、複数の文字のうちのターゲット文字に基づいてスプライスして、候補テキスト情報を取得する第3のスプライスユニットであって、ターゲット文字が、対応する第3の予測スコアが第4の予測スコアより大きい文字である第3のスプライスユニットと、を備える。
【0100】
なお、前記テキスト情報の抽出方法の実施例の説明は、本開示によって提供されるテキスト情報の抽出装置にも適用され、ここでは説明を省略する。
【0101】
本開示の実施例によって提供されるテキスト情報の抽出装置は、抽出対象のテキスト及びターゲットフィールド名を取得し、抽出対象のテキスト及びターゲットフィールド名に基づいて、抽出対象のテキストからターゲットフィールド名にマッチングする候補テキスト情報を抽出した後、抽出対象のテキスト、ターゲットフィールド名及び候補テキスト情報の融合意味に基づいて、候補テキスト情報をフィルタリングして、融合意味にマッチングするターゲットテキスト情報を取得することにより、テキスト情報抽出の精度を向上させる。
【0102】
上記の実施例に基づいて、本開示は、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが本開示のテキスト情報の抽出方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
【0103】
上記の実施例に基づいて、本開示は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、前記コンピュータに本開示の実施例によって開示されたテキスト情報の抽出方法を実行させる。
【0104】
上記の実施例に基づいて、本開示は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムはプロセッサによって実行される場合、本開示のテキスト情報の抽出方法を実現する。
【0105】
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
【0106】
図5は、本開示の実施例を実行するための例示的な電子機器500の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および/または求められる本開示の実現を制限することを意図したものではない。
【0107】
図5に示すように、当該電子機器500は、読み取り専用メモリ(ROM)502に記憶されているコンピュータプログラムまたは記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット501を備えることができる。RAM 503には、電子機器500の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット501、ROM 502、及びRAM 503は、バス504を介して互いに接続されている。バス504には、入力/出力(I/O)インターフェース505も接続されている。
【0108】
電子機器500の複数のコンポーネントはI/Oインターフェース505に接続され、キーボード、マウスなどの入力ユニット506、各タイプのディスプレイ、スピーカなどの出力ユニット507、磁気ディスク、光ディスクなどの記憶ユニット508、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット509を備える。通信ユニット509は、電子機器500が、インターネットなどのコンピュータネットワークおよび/または各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0109】
計算ユニット501は、処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット501のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット501は、上記に記載された各方法及び処理、例えば、テキスト情報の抽出方法を実行する。例えば、いくつかの実施例では、テキスト情報の抽出方法を、記憶ユニット508などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM 502及び/又は通信ユニット509を介して電子機器500にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM 503にロードされ、計算ユニット501によって実行される場合、前文に記載のテキスト情報の抽出方法の1つのまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット501はテキスト情報の抽出方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
【0110】
本明細書で上記記載のシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行および/または解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送することができる。
【0111】
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび/またはブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
【0112】
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記コンテンツの任意の適切な組み合わせを含む。
【0113】
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
【0114】
ここで説明されるシステムおよび技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを備えるコンピューティングシステムで実行することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含む。
【0115】
コンピュータシステムは、クライアントとサーバを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」,または「VPS」と省略する)に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。
【0116】
なお、人工知能はコンピュータに人間のある思惟過程と知能行為(学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術ともある。人工知能ハードウェア技術は一般にセンサ、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。
【0117】
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができると理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
【0118】
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができると理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。