IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許7593725非構造化文書から構造化文書を生成する方法、システム、プログラム
<>
  • 特許-非構造化文書から構造化文書を生成する方法、システム、プログラム 図1
  • 特許-非構造化文書から構造化文書を生成する方法、システム、プログラム 図2
  • 特許-非構造化文書から構造化文書を生成する方法、システム、プログラム 図3
  • 特許-非構造化文書から構造化文書を生成する方法、システム、プログラム 図4
  • 特許-非構造化文書から構造化文書を生成する方法、システム、プログラム 図5
  • 特許-非構造化文書から構造化文書を生成する方法、システム、プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-25
(45)【発行日】2024-12-03
(54)【発明の名称】非構造化文書から構造化文書を生成する方法、システム、プログラム
(51)【国際特許分類】
   G06F 16/383 20190101AFI20241126BHJP
   G06F 16/36 20190101ALI20241126BHJP
【FI】
G06F16/383
G06F16/36
【請求項の数】 11
(21)【出願番号】P 2022546714
(86)(22)【出願日】2021-01-08
(65)【公表番号】
(43)【公表日】2023-04-04
(86)【国際出願番号】 IB2021050116
(87)【国際公開番号】W WO2021156684
(87)【国際公開日】2021-08-12
【審査請求日】2023-06-22
(31)【優先権主張番号】16/785,329
(32)【優先日】2020-02-07
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(72)【発明者】
【氏名】シランジムーシー、ジョシラクシュミ
(72)【発明者】
【氏名】リッティク、レイ
(72)【発明者】
【氏名】ワン、フイ
(72)【発明者】
【氏名】ランド、ジョナサン
(72)【発明者】
【氏名】キャリア、スコット
【審査官】松尾 真人
(56)【参考文献】
【文献】米国特許出願公開第2009/0030671(US,A1)
【文献】特開平11-250041(JP,A)
【文献】米国特許出願公開第2011/0113069(US,A1)
【文献】米国特許第05963966(US,A)
【文献】特開2013-037645(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/10-40/58
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータの情報処理により、非構造化文書から情報を抽出するための方法であって、前記方法が、
情報が抽出される元になるソース文書を受信することと、
前記ソース文書をテキスト文書ファイルに変換することと、
領域固有の自然言語処理エンジンおよび領域固有のオントロジーに基づいて、前記テキスト文書ファイルから情報を抽出することと、
前記抽出された情報を前記ソース文書内の位置情報にリンクすることと、
前記抽出された情報および前記リンクされた位置情報を含んでいる構造化文書を生成することとを含む、方法。
【請求項2】
前記ソース文書が複数のテキスト要素を含み、
前記ソース文書をテキスト文書ファイルに変換することが、前記ソース文書内の複数のテキスト要素の位置インジケータを生成することを含み
前記複数のテキスト要素の各々の内容および前記複数のテキスト要素の各々の関連付けられた位置インジケータを含んでいる第1の中間テキスト文書を生成することとを含む、請求項1に記載の方法。
【請求項3】
前記生成された第1の中間テキスト文書が、事前に定義されたスキーマに従って書式設定された構造化文書を含む、請求項2に記載の方法。
【請求項4】
前記複数のテキスト要素が表内のセルを含み、
前記第1の中間テキスト文書が、前記表を構造化された表現に置き換え、前記表内の各セルが、前記構造化された表現内の要素の分離したセットによって表され、前記ソース文書内の位置インジケータに関連付けられる、請求項2に記載の方法。
【請求項5】
前記表に含まれていないテキスト・コンテンツを1つまたは複数の平坦なテキスト要素に連結することによって前記第1の中間テキスト文書から第2の中間テキスト文書を生成することをさらに含み、前記1つまたは複数の平坦なテキスト要素の各々が前記ソース文書内の各平坦なテキスト要素の位置を表す位置の配列を含む、請求項4に記載の方法。
【請求項6】
1つまたは複数の平坦なテキスト要素が、前記ソース文書内の非表形式の要素の構造化された表現を含む、請求項4に記載の方法。
【請求項7】
表のヘッダーおよび表のセルの内容を平坦なテキスト要素に連結することをさらに含み、前記平坦なテキスト要素が、前記ソース文書内の前記表のセルの位置を定義する境界ボックスならびに前記平坦なテキスト要素内の開始オフセットおよび終了オフセットを含む、請求項4に記載の方法。
【請求項8】
前記ソース文書から情報を抽出することが、
前記テキスト文書ファイル内の関連テキスト情報および前記関連テキスト情報に関連付けられた位置オフセット情報を識別することと、
前記位置オフセット情報に基づいて前記ソース文書内の境界ボックスを生成することとを含む、請求項4に記載の方法。
【請求項9】
請求項1~8の何れか1項に記載の方法を、コンピュータ・ハードウェアによって実行する、システム。
【請求項10】
請求項1~8の何れか1項に記載の方法を、コンピュータに実行させる、コンピュータ・プログラム。
【請求項11】
請求項10に記載の前記コンピュータ・プログラムを、コンピュータ可読ストレージ媒体に記憶した、ストレージ媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の態様は、自然言語処理技術を使用して非構造化文書から内容を抽出することに関連しており、より詳細には、非構造化文書から構造化文書を生成し、自然言語処理技術を使用して構造化文書を処理するための技術に関連している。
【背景技術】
【0002】
多くの現実世界の動作は、複雑な非常に長い文書または文書のセットに関して定義される。これらの文書は、一般に、構造化されていないか、または半構造化されていることがあり、関連情報が、テキスト・コンテンツの段落、あるいは類似する情報を一緒にグループ化する表またはその他の組織的構成に含まれる。例えば、医療の状況では、雇用者がさまざまな健康保険制度を従業員に提供することがあり、さまざまな健康保険制度が、表またはその他の組織的構成で、従業員に提供される健康保険制度のさまざまな特徴を識別する制度要約文書(summary plan document)に要約されることがある。この制度要約文書は、従業員に提供されるすべての制度または従業員に提供される特定の制度に適用可能であってよい追加情報をさらに含むことがあり、この追加情報は、構造化されていないテキスト(例えば、段落、箇条書きのリストなど)で維持されることがある。別の例では、退職金制度が、表形式のテキストおよび構造化されていないテキストの組み合わせで、従業員に提供される種々の退職金制度に関する関連情報の概要を説明する制度要約文書に要約されることもある。さらなる例では、産業環境内のさまざまな文書が、サイズ、材料、許容誤差などに加えて、構造化されていないテキストに含まれるさらに詳細な情報などの、製造される物理的商品に関する要件の要約を含むことがある。
【0003】
一般に、前述の文書は、かなりの量の領域固有の情報を含むことがある。例えば、医療制度要約文書は、自己負担金情報、ネットワーク内/ネットワーク外の定義などの、健康保険制度の領域に固有の情報を含むことがある。退職金制度要約文書は、参加の最低年齢要件、受給権情報などの、退職金制度の領域に固有の情報を含むことがある。これらの文書はかなりの量の領域固有の情報を含むが、これらの文書は、解釈して情報を抽出するのが困難であることがある。
【発明の概要】
【0004】
本開示の1つの態様は、非構造化文書から情報を抽出するための方法を提供する。この方法は、通常、情報が抽出される元になるソース文書を受信することを含む。ソース文書が、テキスト文書ファイルに変換される。領域固有の自然言語処理エンジンおよび領域固有のオントロジーに基づいて、テキスト文書ファイルから情報が抽出される。抽出された情報が、ソース文書内の位置情報にリンクされ、構造化文書が生成される。構造化文書は、通常、抽出された情報およびリンクされた位置情報を含む。
【0005】
本開示の別の態様は、非構造化文書から情報を抽出するためのシステムを提供する。このシステムは、通常、プロセッサおよび命令を含んでいるメモリを含み、これらの命令は、プロセッサによって実行された場合、非構造化文書から情報を抽出するための動作を実行する。この動作は、通常、情報が抽出される元になるソース文書を受信することを含む。ソース文書が、テキスト文書ファイルに変換される。領域固有の自然言語処理エンジンおよび領域固有のオントロジーに基づいて、テキスト文書ファイルから情報が抽出される。抽出された情報が、ソース文書内の位置情報にリンクされ、構造化文書が生成される。構造化文書は、通常、抽出された情報およびリンクされた位置情報を含む。
【0006】
本開示のさらに別の態様は、命令が格納されているコンピュータ可読媒体を提供し、これらの命令は、プロセッサによって実行された場合、非構造化文書から情報を抽出するための動作を実行する。この動作は、通常、情報が抽出される元になるソース文書を受信することを含む。ソース文書が、テキスト文書ファイルに変換される。領域固有の自然言語処理エンジンおよび領域固有のオントロジーに基づいて、テキスト文書ファイルから情報が抽出される。抽出された情報が、ソース文書内の位置情報にリンクされ、構造化文書が生成される。構造化文書は、通常、抽出された情報およびリンクされた位置情報を含む。
【0007】
本開示の1つの態様は、非構造化文書から抽出された情報をグラフィカル・ユーザ・インターフェイスに提示するための方法を提供する。この方法は、通常、非構造化文書と、非構造化文書から抽出された情報および抽出された情報に関連付けられた位置情報を含んでいる構造化文書とを受信することを含む。非構造化文書が第1のペインに描画され、構造化文書のグラフィカルな描画が第2のペインに描画される。グラフィカルな描画は、通常、構造化文書からの内容が階層的形式で表示される構造であってよい。構造化文書内の各要素は、構造化文書に含まれている位置情報に基づいて、描画された非構造化文書にリンクされる。
【0008】
本開示の別の態様は、システムを提供する。このシステムは、通常、プロセッサおよび命令が格納されているメモリを含み、これらの命令は、プロセッサによって実行された場合、非構造化文書から抽出された情報をグラフィカル・ユーザ・インターフェイスに提示するための動作を実行する。この方法は、通常、非構造化文書と、非構造化文書から抽出された情報および抽出された情報に関連付けられた位置情報を含んでいる構造化文書とを受信することを含む。非構造化文書が第1のペインに描画され、構造化文書のグラフィカルな描画が第2のペインに描画される。グラフィカルな描画は、通常、構造化文書からの内容が階層的形式で表示される構造であってよい。構造化文書内の各要素は、構造化文書に含まれている位置情報に基づいて、描画された非構造化文書にリンクされる。
【0009】
本開示のさらに別の態様は、命令が格納されているコンピュータ可読媒体を提供し、これらの命令は、プロセッサによって実行された場合、非構造化文書から抽出された情報をグラフィカル・ユーザ・インターフェイスに提示するための動作を実行する。この動作は、通常、非構造化文書と、非構造化文書から抽出された情報および抽出された情報に関連付けられた位置情報を含んでいる構造化文書とを受信することを含む。非構造化文書が第1のペインに描画され、構造化文書のグラフィカルな描画が第2のペインに描画される。グラフィカルな描画は、通常、構造化文書からの内容が階層的形式で表示される構造であってよい。構造化文書内の各要素は、構造化文書に含まれている位置情報に基づいて、描画された非構造化文書にリンクされる。
【図面の簡単な説明】
【0010】
図1】1つの実施形態に従って、非構造化文書から生成された構造化文書、ならびに非構造化文書および構造化文書に対する自然言語処理を使用して、非構造化文書から情報が抽出される、例示的なネットワーク・コンピューティング環境を示す図である。
図2】1つの実施形態に従って、構造化文書および自然言語処理を使用して非構造化文書から情報を抽出するための例示的な動作を示す図である。
図3】1つの実施形態に従って、非構造化文書から抽出された情報をグラフィカル・ユーザ・インターフェイスに提示するための例示的な動作を示す図である。
図4】1つの実施形態に従って、非構造化文書および非構造化文書から抽出された情報を含んでいる構造化文書が表示される例示的なグラフィカル・ユーザ・インターフェイスを示す図である。
図5】1つの実施形態に従って、非構造化文書から抽出された情報に関して視覚効果が描画される例示的なグラフィカル・ユーザ・インターフェイスを示す図である。
図6】本開示の態様が実行される例示的なシステムを示す図である。
【発明を実施するための形態】
【0011】
非構造化文書は、通常、情報が、基礎になる構造または文書に格納された情報間の関係によって決定されない自由形式の方法で格納される文書である。制度要約説明書、技術仕様書などの構造化されていない領域固有の文書は、通常、理解することが困難であり、かなりの量の領域固有の情報を含んでいる大量の文書である。これらの領域固有の文書から情報を抽出するために、文書が、画像に基づく形式(例えば、ポータブル・ドキュメント・フォーマット)からプレーンテキスト・ファイルに変換されることがあり、文書から関連情報を抽出するために、自然言語処理エンジンまたはその他の分析エンジンあるいはその両方によってプレーンテキスト・ファイルが処理されることがある。しかし、プレーンテキスト・ファイルへの文書の変換は、一部の情報の損失をもたらすことがある。例えば、表内のセルおよび各セル内の関連付けられたテキストの位置などの、文書内の内容に関連することがある位置情報は、画像に基づく形式の文書のプレーンテキスト・ファイルへの変換において、失われることがある。位置情報およびその他の関連情報が、画像に基づく形式からプレーンテキスト・ファイルへの文書の変換において失われることがあるため、プレーンテキスト・ファイルから抽出された情報を元の文書に戻るようにマッピングすること、および文書をトラバースするために使用されることができるナビゲート可能な構造を生成することが困難であることがある。
【0012】
本開示の態様は、関連情報を抽出するために自然言語処理エンジンおよびその他の分析サービスによって分析される構造化文書を生成することによって、非構造化文書から情報を抽出するための技術を提供する。下でさらに詳細に説明されるように、非構造化文書は、非構造化文書内のテキスト・コンテンツに関連付けられたコンテキスト情報を維持する構造化文書に変換されてよい。コンテキスト情報は、抽出された関連するテキストを非構造化文書内のそのようなテキストの位置にリンクする構造化文書を生成するために、関連するテキストの識別情報と共に、自然言語処理またはその他の分析エンジンあるいはその両方によって使用されることができる。本開示の態様は、構造化文書および構造化文書から抽出された情報を使用して、非構造化文書を描画してナビゲートするための技術をさらに提供する。非構造化文書は、構造化文書から抽出された情報から生成されたナビゲーション構造の横に描画されてよく、ナビゲーション構造のユーザの操作は、非構造化文書内のさまざまな要素の位置へのナビゲーションを可能にしてよい。ユーザは、そのように実行することによって、文書内の関連情報の位置に素早くナビゲートすることができ、非構造化文書から情報が正しく抽出されたということを検証することができる。
【0013】
図1は、本開示の実施形態に従って、非構造化文書から生成された構造化文書を使用して、非構造化文書から情報が抽出される、例示的なネットワーク・コンピューティング環境を示している。図に示されているように、コンピューティング環境100は、クライアント・デバイス120、アプリケーション・サーバ130、文書アナライザ140、トレーニング・データ・ストア150、およびオントロジー・データ・ストア160を含んでいる。
【0014】
クライアント・デバイス120は、通常、コンピューティング・デバイスを代表しており、このコンピューティング・デバイス上で、ユーザは、アプリケーション・サーバ130上で実行されているサービスにアクセスし、非構造化文書を表示してナビゲートすることができ、文書アナライザ140上で実行されているサービスにアクセスし、非構造化文書からの情報の抽出を開始することができる。図に示されているように、クライアント・デバイスは、ソフトウェア・アプリケーション122を含んでいる。
【0015】
ソフトウェア・アプリケーション122は、通常、インターフェイスを提供し、このインターフェイスを介してユーザは、文書アナライザ140での情報抽出動作を呼び出し、アプリケーション・サーバ130上で実行されているサービスを介して非構造化文書を表示することができる。一部の実施形態では、ソフトウェア・アプリケーション122は、ユーザがアプリケーション・サーバ130上でリモートにホストされているアプリケーションと情報をやりとりできるようにする、Webブラウザまたはその他のアプリケーションであってよい。通常、文書アナライザ140での情報抽出動作を呼び出すために、ソフトウェア・アプリケーション122は、非構造化文書から構造化文書を生成するプロセスを開始し、構造化文書から情報を抽出するためのコマンドを、文書アナライザ140に送信することができる。通常、コマンドは、分析される文書、または分析される文書が格納されている位置を識別する情報を含んでよく、文書は、情報が抽出される元になる非構造化文書(例えば、画像に基づく形式の文書)であってよい。
【0016】
ソフトウェア・アプリケーション122は、インターフェイスをさらに提供してよく、このインターフェイスを介して、非構造化文書および非構造化文書の分析から生成されたナビゲーション・ペインが表示されてよい。ナビゲーション・ペインの内容は、非構造化文書内の抽出された情報の位置への1つまたは複数のリンクを含んでよく、ユーザがナビゲーション・ペイン内のリンクを選択したときに、選択されたリンクに関連付けられた位置にある非構造化文書の部分が、第1のペインに表示されてよい。ソフトウェア・アプリケーション122は、メカニズムを提供してもよく、このメカニズムを介してユーザは、ナビゲーション・ペインに表示された抽出された情報を修正し、ナビゲーション・ペインに含まれる追加の関連情報を識別することができる。抽出された情報および抽出された情報の位置を指定して、修正された情報および識別された追加情報が、(例えば、文書データ・ストア150に格納された)構造化文書に追加されてよく、更新済みの構造化文書が、情報が抽出される元になった構造化されていないソース文書の将来の表示において使用されてよい。
【0017】
アプリケーション・サーバ130は、通常、文書ビューア132を含んでいる。文書ビューア132は、通常、インターフェイスを提供し、このインターフェイスを介してユーザは、非構造化文書を表示し、非構造化文書をナビゲートすることができる。このインターフェイスは、非構造化文書が描画される第1のペイン、およびナビゲーション構造が描画される第2のペインを含んでよい。第1のペインは文書ビューアを統合してもよく、文書ビューアは、文書の指定された部分にナビゲートするためのコマンドに応答して、非構造化文書の指定された部分にスクロールする。文書の指定された部分にナビゲートするためのコマンドは、例えば、非構造化文書内の指定されたアンカー(例えば、アンカー・タグを含んでいるユニフォーム・リソース・ロケータ(URL:uniform resource locator))にナビゲートするためのコマンド、非構造化文書の特定のページまたはセクションにナビゲートするためのコマンドなどを含んでよい。
【0018】
第2のペインに描画されたナビゲーション構造は、例えば、ナビゲーション・ツリーまたはその他の階層構造であってよく、ナビゲーション構造は、ナビゲーション・ツリーに表示されたリンクに関連付けられた情報を含んでいる非構造化文書の指定された部分にリンクしている。下でさらに詳細に説明されるように、ナビゲーション構造内の各リンクは、リンクに関連付けられた情報が見つかる、非構造化文書内の位置を示す境界ボックスに関連付けられてよい。境界ボックスは、例えば、非構造化文書から生成された1つまたは複数の中間文書から、非構造化文書自体に向かって、後方に機能することによって決定され得る。例えば、境界ボックスは、非構造化文書から情報を抽出するために文書アナライザ140によって使用されたプレーンテキストの中間文書内の文字のセットを最初に識別することによって、生成され得る。文字のセットは、例えば、中間文書内のテキスト要素(例えば、段落、表内のセルなど)の開始文字からのオフセットとして定義されてよく、1つの中間文書内の識別されたオフセット情報が、非構造化文書から生成された他の中間文書内の位置情報にリンクされてよい。この位置情報は、例えば、表内のセルの名前、文書内の名前付きアンカー、非構造化文書のページ上の絶対位置情報または相対位置情報(例えば、文書内のページの仮定された解像度を前提とする絶対ピクセル位置、または文書内のページの高さおよび幅のパーセンテージとして相対ピクセル位置)などを含んでよい。構造化文書および1つまたは複数の中間文書内の位置情報に基づいて、抽出された情報の位置が、非構造化文書内で識別されてよく、抽出された情報の位置に関して、1つまたは複数の視覚効果が描画されてよい。例えば、ナビゲーション構造内のリンクの選択時に、リンクに関連付けられた内容が、リンクに関連付けられた内容に固有の色を使用して強調表示されてよい。別の例では、色付きのボックスが、リンクに関連付けられた内容の周囲に描画されてよい。
【0019】
一部の実施形態では、ナビゲーション構造は、非構造化文書から抽出された内容を修正するためのメカニズムをユーザに提供してよい。テキスト認識システム(例えば、光学式文字認識システム)は、種々の理由(例えば、画質、文書の解像度など)のために、画像内のテキストを正しいテキスト・コンテンツに常に正確に変換するとは限らないため、文書から抽出されたテキストは、正確でないことがある。したがって、検証プロセスでは、ユーザは、抽出された情報がリンクされている位置で文書を調べることを許可されてよく、抽出された情報が不正確である場合、ユーザは手動で、マシンによって抽出された情報を正確なデータで上書きすることができる。正確なデータは、将来使用するために、非構造化文書から抽出されたデータを格納している構造化文書に書き込まれてよい。
【0020】
一部の実施形態では、文書アナライザ140は、非構造化文書から、関連するデータのすべてを抽出しないことがある。例えば、文書アナライザ140は、非構造化文書の全体を分析する前にタイムアウトすることがあり、または分析中に、文書の内容が単に見落とされることがある。ユーザが非構造化文書を表示している間に、ユーザは、非構造化文書内の関連する内容を選択してよい。文書ビューア132は、非構造化文書の選択された部分を構文解析し、選択されたテキスト・コンテンツおよび選択された部分の位置を識別してよい。非構造化文書の識別された部分に基づいて、文書ビューア132は、文書ビューア132のユーザによって関連すると見なされた指定された情報への1つまたは複数の参照を、1つまたは複数の構造化テキスト要素に含めるように、情報を構造化文書に追加することができる。一部の実施形態では、文書ビューア132は、1つまたは複数の中間文書を検索し、非構造化文書の識別された部分およびそこから抽出されたテキストに関連付けるための中間文書内の他の位置ポインタを識別し、識別された位置ポインタを、識別された位置ポインタに関連付けられた中間文書の識別情報と共に、構造化文書に書き込んでよい。
【0021】
文書アナライザ140は、通常、分析用の非構造化文書を受信し、自然言語処理エンジンおよび領域固有のオントロジー(例えば、オントロジー162~162のうちの1つまたは複数)を使用して、非構造化文書から構造化文書に情報を抽出する。領域固有のオントロジーは、文書アナライザ140によって分析される文書の種類に基づいて、先験的に定義されてよい。文書アナライザ140が、特定の領域内の文書(例えば、医療制度要約文書、退職金制度の文書など)から情報を抽出するように構成される場合、領域固有のオントロジーは、文書アナライザ140内にハードコードされてよい。文書アナライザ140が、さまざまな領域からの非構造化文書を分析するために使用されることができる汎用文書アナライザである場合、文書アナライザ140は、ユーザ入力(例えば、文書アナライザ140に提供される文書の種類の明示的な指示)に基づいて、または文書内の主要語に基づいて文書の領域を識別するための非構造化文書の自然言語分析に基づいて、使用する領域固有のオントロジーを決定することができる(例えば、「入院」または「医学」のような単語は、医療の文書領域に関連付けられてよく、一方、「退職金」または「最低分配金」のような単語は、退職の文書領域に関連付けられてよい)。図に示されているように、文書アナライザ140は、文書コンバータ142および構造化文書生成器144を含んでいる。
【0022】
文書コンバータ142は、分析のために受信された非構造化文書から1つまたは複数の中間文書を生成する。非構造化文書から1つまたは複数の中間文書を生成するために、文書コンバータ142は、光学式文字認識エンジンまたはその他のテキスト認識エンジンを使用して、最初に非構造化文書をプレーンテキスト・ファイルに変換することができる。光学式文字認識エンジンは、文書コンバータ142と一体であるか、または入力文書からプレーンテキスト・ファイルを生成するための要求に応答してプレーンテキスト・ファイルを返すリモート・サービスと一体であってよい。プレーンテキスト・ファイルは、非構造化文書から情報を抽出することにおいて使用するために文書コンバータ142によって生成される複数の中間文書のうちの1番目であってよい。光学式文字認識エンジンの出力は、テキスト・コンテンツが非構造化文書内にある位置を示す1つまたは複数の注釈を含んでいるプレーンテキスト・ファイルであってよい。例えば、光学式文字認識エンジンは、1つまたは複数のテキスト要素を含むプレーンテキスト・ファイルを生成してよく、プレーンテキスト・ファイル内の各テキスト要素は、各テキスト要素が非構造化文書内のどこにあるかを識別する情報を含んでよい。一部の実施形態では、テキスト要素に関連付けられた非構造化文書内の位置を識別する情報は、例えば、非構造化文書内の書式設定情報に基づいて、光学式文字認識エンジンによって生成された一意の識別子であってよい。例えば、活字書体または活字の書式設定がセクションの区切りを示す位置、文書内のページの区切りが存在する位置などの、位置マーカーを生成する既定のルールに基づいて、新しい位置インジケータが追加されてよい。
【0023】
光学式文字認識エンジンによって非構造化文書を処理することから得られるプレーンテキスト・ファイルは、非構造化文書のハイパーテキスト・マークアップ言語(HTML:Hypertext Markup Language)表現であってよい。HTML表現内の各テキスト要素は、非構造化文書のテキスト要素の位置に関連付けられた位置情報を含んでよい。この位置情報は、例えば、非構造化文書から抽出されるテキストが抽出された、非構造化文書の座標系内の領域であってよい。一般に、プレーンテキスト・ファイルは、非構造化文書から構文解析された、表またはその他の組織的構造からのテキスト・コンテンツを含んでいる構造化テキストを含んでよい。JSON(Java(R)script Object Notation)形式で書式設定される構造化テキストは、表の列ヘッダー、行ヘッダー、およびセルの内容を格納することによって、表から抽出されたテキストの表形式を維持してよい。HTML表現内の位置情報は、HTML文字列内の抽出されたテキストの開始オフセットおよび終了オフセットによって表され得る。例えば、インデックス0~(i-1)を有するi個の文字の配列として表されるHTML文字列を前提として、文字列は、文字列内の開始文字からの正のオフセットとして、または文字列内のi-1番目の文字からの負のオフセットとして、配列内の開始インデックスおよび終了インデックスによって表され得る。
【0024】
プレーンテキスト・ファイルは、1つまたは複数のテキスト要素を構造化形式で中間文書に追加するために、第1の中間文書にさらに処理されてよい。これらのテキスト要素は、例えば、プレーンテキスト文書内の表にまだ含まれていないテキスト要素を含んでよい。テキストは、一連の平坦なテキスト要素に連結されてよく、各テキスト要素は、プレーンテキスト・ファイル内の内容に関するテキスト位置の配列内の位置に関連付けられてよい。通常、位置情報は、非構造化文書内の境界ボックスの座標およびプレーンテキスト・ファイル内の文字列の文字のオフセットを含んでよい。
【0025】
第1の中間文書は、構造化テキスト構成に格納された表形式の内容を再編成するために、処理されてよい。一般に、構造化テキストは、文書の一部に含まれる内容に関する情報を示す、文書に含まれている行ヘッダー、セクション・ヘッダー、およびその他の情報ヘッダーの情報を追加するように再編成されてよい。
【0026】
最後に、第1の中間文書が、平坦なテキスト要素を、表の内容を含んでいる構造化テキスト構成の本体のセルに追加する第2の中間文書に処理されてよい。セクション・ヘッダー、行ヘッダー、列ヘッダー、および本体のセルのテキストが、一連の平坦なテキスト要素に連結されてよい。セクション・ヘッダー、行ヘッダー、列ヘッダー、および本体のセルのテキストを平坦なテキスト要素に連結することによって生成された平坦なテキスト要素ごとに、位置データが格納されてよい。前述したように、位置情報は、非構造化文書内の境界ボックスの座標およびプレーンテキスト・ファイル内の文字列の文字のオフセットを含んでよい。
【0027】
構造化文書生成器144は、文書コンバータ142によって生成された中間文書を使用して、非構造化文書内の関連情報を含んでいる構造化文書を生成する。通常、非構造化文書内の関連情報を識別するために、構造化文書生成器144は、領域固有の情報のコーパスに対してトレーニングされた自然言語処理エンジンを使用して、文書コンバータ142によって生成された中間文書を処理することができる。例えば、医療制度要約文書から情報を抽出するために使用される構造化文書生成器144は、他の医療制度説明書からの関連情報を認識するようにトレーニングされた自然言語処理エンジンを使用することができ、退職金制度の文書から情報を抽出するために使用される構造化文書生成器144は、他の退職金制度の文書からの関連情報を認識するようにトレーニングされた自然言語処理エンジンを使用することができる、などである。自然言語処理エンジンは、文書内の特定の領域固有の概念間の関係を識別する領域固有のオントロジーに関連付けられてよい。例えば、医療制度要約説明に関するオントロジーは、例えばネットワーク内とネットワーク外の保証、控除免責金額、自己負担金などの、医療に固有の構成間の関係を含んでよい。
【0028】
抽出プロセス中に、構造化文書生成器144は、中間文書内の平坦なテキスト要素に関連付けられた位置情報を記録し、抽出されたテキストおよび関連付けられた位置情報を構造化文書に保存することができる。一部の実施形態では、構造化文書は、非構造化文書内のテキストの原点に関連付けられた境界ボックスを含んでもよい。領域固有のオントロジーに従って構造化文書生成器144が構造化文書を生成した後に、構造化文書生成器144は、構造化文書を文書データ・ストア150にコミットすることができる。一部の実施形態では、構造化文書生成器144は、構造化文書を構文解析可能なテキスト・ファイルとして(例えば、JSON形式で)生成することができる。一部の実施形態では、構造化文書生成器144は、構造化文書を、1つまたは複数のデータベース・レコードとして生成することができ、これらのデータベース・レコードは、組み合わせられた場合、非構造化文書から抽出された関連情報および識別された関連情報に関連付けられた位置情報(例えば、非構造化文書のグラフィカルな描画におけるテキストの文字のオフセットおよび境界ボックス)を識別する構造化文書を形成する。
【0029】
文書データ・ストア150は、通常、データ・リポジトリを代表しており、このデータ・リポジトリ内に、非構造化文書、非構造化文書から抽出された情報を含んでいる構造化文書、および自然言語処理エンジンをトレーニングするために使用されるその他のテキスト・コンテンツが格納されてよい。文書データ・ストア150は、非構造化文書および構造化文書が格納される複数の分離したリポジトリを含んでよい。これらのリポジトリは、例えば、技術的要件の文書、医療診断の文書、および文書アナライザ140を使用して分析されるその他のクラスの文書などの、さまざまな領域の文書のためのリポジトリであってよい。文書データ・ストア150は、リレーショナル・データベースまたは非リレーショナル・データベース、平坦なファイル・ストア、階層的ファイル・ストア、あるいは関連性および知識グラフ・モデルをトレーニングするために使用される文書が格納される任意のその他のストレージ・システムとして、構造化されてよい。
【0030】
オントロジー・データ・ストア160は、通常、データ・リポジトリを代表しており、このデータ・リポジトリ内に、非構造化文書から関連するデータを抽出することにおいて文書アナライザ140によって使用するための領域固有のオントロジーが格納されてよい。図に示されているように、オントロジー・データ・ストア160は、複数のオントロジー162~162を格納してよい。各オントロジー162は、文書アナライザ140によって分析される特定の領域の文書に対応してよい。例えば、1つのオントロジー162は、医療制度要約文書に関連付けられてよく、別のオントロジー162は、退職金制度要約文書に関連付けられてよい、などである。
【0031】
図2は、抽出された情報に関連付けられた位置情報を維持する自然言語処理技術を使用して非構造化文書から情報を抽出するためにシステムによって実行される例示的な動作200を示している。述べたように、抽出された情報に関連付けられた位置情報の維持は、抽出された情報が格納されている非構造化文書内の位置にユーザがジャンプできるようにするナビゲーション構造と共に、非構造化文書を描画することにおいて使用され得る。
【0032】
図に示されているように、ブロック210で動作200が開始し、ブロック210では、システムが、情報が抽出される元になるソース文書を受信する。ソース文書は、例えば、文書処理プログラムによって使用されるファイル形式(例えば、OpenDocument Formatファイル、Office Open XMLファイルなど)、画像に基づくファイル形式(例えば、ポータブル・ドキュメント・フォーマット・ファイル)などでの文書であってよい。通常、ソース文書は、その文書に関連し得る情報の種類(または文書の種類)を示す特定の領域の知識に関連付けられてよい。
【0033】
ブロック220で、システムは、ソース文書をテキスト文書ファイルに変換する。ソース文書をテキスト文書ファイルに変換するために、非構造化ソース文書を光学式文字認識エンジンに渡すことによって第1の中間ファイルが生成され得る。光学式文字認識エンジンは、ソース文書から抽出されたテキスト・コンテンツおよびソース文書に含まれている表形式データの特徴を定義する構造を含んでいるプレーンテキスト・ファイルを生成してよい。第1の中間ファイルは、システムがソース文書内の関連するテキストの位置を識別するために使用できる位置情報(例えば、ソース文書の座標系を使用する垂直/水平位置情報)を含んでよい。非構造化テキスト・コンテンツを、テキスト文書から情報を抽出するために自然言語処理エンジンによって分析されることができる構造化テキスト・コンテンツに変換するために、1つまたは複数のその他の中間ファイルが生成され得る。結果として得られるファイルは、ソース文書に含まれているテキスト要素ごとに位置情報を含む非構造化ソース文書を表す構造化テキスト文書であってよい。
【0034】
ブロック230で、システムは、領域固有の自然言語処理エンジンおよび領域固有のオントロジーに基づいて、テキスト文書ファイルから情報を抽出する。領域固有の自然言語処理エンジンは、特定の種類の文書(例えば、医療制度要約説明、退職金制度要約説明、産業用の仕様書など)における関連性の情報を認識するようにトレーニングされてよく、領域固有のオントロジーは、特定の種類の文書内のさまざまな単語または概念間の関係を指定してよい。
【0035】
ブロック240で、システムは、抽出された情報をソース文書内の位置情報にリンクする。述べたように、抽出された情報は、ソース文書から生成されたテキスト文書ファイルまたは1つまたは複数の中間文書あるいはその両方に含まれる文字の特定のセットに関連付けられてよい。文書内の文字のオフセットまたは文字のインデックスによって識別される文字のセットは、1つまたは複数の中間文書に含まれている位置情報(例えば、表のセル識別子)を介して、非構造化文書内の座標位置情報にリンクされ得る。
【0036】
ブロック250で、システムは、抽出された情報およびリンクされた位置情報を含んでいる構造化文書を生成する。述べたように、構造化文書は、文書から抽出された情報が格納される階層的スキーマに従って記述された文書であってよい。一部の実施形態では、構造化文書は、一連のデータベース・レコードとしてデータ・リポジトリに格納されてよく、これらのデータベース・レコードは、集約された場合、文書のナビゲーション構造を生成するために使用される単一の構造化文書を構成してよい。
【0037】
図3は、非構造化文書と、非構造化文書から抽出された情報を含んでいる構造化文書から生成されたナビゲーション構造とを描画するために実行される例示的な動作300を示している。
【0038】
ブロック310で動作300が開始し、ブロック310では、システムが、非構造化文書と、非構造化文書から抽出された情報および抽出された情報に関連付けられた位置情報を含んでいる関連付けられた構造化文書とを受信する。構造化文書は、階層的ナビゲーション構造に変換されることができる階層的スキーマを使用して書式設定されてよい。通常、階層的スキーマは、他の要素内の要素のネストが、構造化文書から抽出されたさまざまなデータ間の親子関係を示すように、構造化されてよい。
【0039】
ブロック320で、システムは、非構造化文書をグラフィカル・ユーザ・インターフェイスの第1のペインに描画する。第1のペインは、一般的に非構造化文書に使用される一連の文書ファイル形式で文書をサポートする文書ビューアを含んでよい。例えば、文書ビューアは、HTMLファイル形式で文書を表示するために使用されるHTML描画エンジン、PDF描画エンジンなどであってよい。場合によっては、文書ビューアは、ユーザが文書内の情報を選択することを許可してよいが、ユーザが非構造化文書の内容を変更することを許可する編集機能を含まなくてよい。
【0040】
ブロック330で、システムは、構造化文書のグラフィカルな描画をグラフィカル・ユーザ・インターフェイスの第2のペインに生成する。構造化文書のグラフィカルな描画は、例えば、構造化文書内の階層的データを(例えば、データのネストされたリストとして)表すために使用されることができるナビゲーション・ツリーまたはその他の階層構造であってよい。述べたように、構造化文書は、抽出された情報を構造化文書内のテキスト要素の階層に含んでよく、異なるレベルの情報は、より高いレベルの情報とより低いレベルの情報の間の親子関係を表す。
【0041】
ブロック340で、システムは、構造化文書に含まれている位置情報に基づいて、構造化文書のグラフィカルな描画内の各要素を非構造化文書にリンクする。構造化文書のグラフィカルな描画内の要素を非構造化文書にリンクすることによって、システムは、構造化文書のグラフィカルな描画内の要素の操作に基づく非構造化文書のナビゲーションを可能にすることができる。述べたように、構造化文書から生成された1つまたは複数の中間文書に含まれている位置情報に基づいて位置情報が決定されてよく、位置情報は、中間文書内の文字列と相対的な文字のオフセットであってよい。これらの文字のオフセットは、非構造化文書内の座標位置情報に戻るようにマッピングされてよい。したがって、構造化文書のグラフィカルな描画内の各要素は、抽出されたテキストがある非構造化文書内の座標にリンクされてよく、構造化文書のグラフィカルな描画内の要素のユーザ選択は、文書ビューアが選択された要素に関連付けられた座標位置で非構造化文書を描画することを引き起こしてよい。
【0042】
図4は、非構造化文書と、非構造化文書から抽出された情報を含んでいる構造化文書に基づいて入力された、非構造化文書に関するナビゲーション・ペインとを表示するグラフィカル・ユーザ・インターフェイスを示している。図に示されているように、グラフィカル・ユーザ・インターフェイス400は、第1のペイン410および第2のペイン420を含んでいる。
【0043】
第1のペイン410は、通常、ユーザが非構造化文書を表示できるようにする文書ビューアを含み、第2のペイン420は、通常、構造化文書が描画される階層構造ビューアを含む。第2のペイン420の階層構造ビューアに表示された構造化文書からの各要素は、ユーザ選択可能であってよい。ユーザが、第1のペイン410に描画された非構造化文書から抽出された要素に対応する第2のペイン420内の要素422を選択した場合、システムは、選択された要素に関する追加情報を第2のペイン420内の情報ビューア424に表示することができる。そのように実行するために、システムは、選択された要素に関連付けられた構造化文書から情報を取り出すことができる。取り出された情報は、例えば、選択された要素に関連付けられた位置情報および選択された要素に関連付けられたその他の関連情報を含んでよい。例えば、図に示されているように、選択された要素422は、第1のペイン410に表示された非構造化文書の11ページにある情報に関連付けられており、非構造化文書において説明されている制度の「個人の生涯給付の上限」プロパティを参照しており、「2,500ドル」の値を有している。この情報は、第2のペイン420内のユーザ選択に基づいて、読み取り専用の形式で、または編集可能な形式で、情報ビューア424に表示されてよい。
【0044】
システムは、第1のペイン410に、選択された要素がある非構造化文書の部分をさらに表示してよい。一部の実施形態では、システムは、選択された要素がある文書の部分に関して、1つまたは複数の視覚効果をさらに描画することができる。例えば、境界ボックス412が、第1のペイン410内の選択された要素422がある文書の部分の周囲に描画されることができる、選択された要素がある文書の部分に含まれているテキストが強調表示される、などである。これらの視覚効果は、第1のペイン410に表示された非構造化文書から生成された構造化文書内の選択された要素422に関連付けられた位置情報に基づいて描画されてよい。述べたように、この位置情報は、1つまたは複数の中間文書内のテキストのオフセットおよび第1のペイン410に表示された非構造化文書内の座標を含んでよい。
【0045】
第2のペイン420は、通常、ユーザが非構造化文書から構造化文書に抽出された既存の情報を編集もしくは削除すること、または非構造化文書から構造化文書に情報を追加すること、あるいはその両方を可能にする、1つまたは複数の選択可能なアイコンまたはボタンも含む。例えば、構造化された文書に含まれている、非構造化文書から抽出された各項目は、編集ボタン426および削除ボタン428に関連付けられてよい。ユーザが構造化文書内の項目に関連付けられた編集ボタン426を選択した場合、システムは、情報ビューア424に、構造化文書内の項目に関連付けられた情報を入力し、情報ビューア424内の1つまたは複数のユーザ・インターフェイス要素を編集可能にすることができる。ユーザが、編集が完了したことを示した場合、システムは、編集された情報を構造化文書に戻るように書き込むことができる。ユーザが構造化文書内の項目に関連付けられた削除ボタン428を選択した場合、システムは、構造化文書から項目を除去し、第2のペイン420に表示された階層構造を再描画することができる。
【0046】
値を追加するために、ユーザは、第2のペイン420に表示された値の追加ボタン430を操作することによってプロセスを開始することができる。プロセスを開始した後に、ユーザは、第1のペイン410内の非構造化文書の一部を選択することができる。システムは、非構造化文書の選択された部分の位置に基づいて、情報を追加する構造化文書の部分を識別することができる。構造化文書の識別された部分で、システムは、第2のペイン420に描画された場合に、文書の選択された部分が第1のペイン410に表示されることができるように、非構造化文書の選択された部分を表す1つまたは複数のテキスト要素および非構造化文書内の位置情報を追加することができる。
【0047】
図5は、非構造化文書および非構造化文書に関するナビゲーション・ペインを表示しているグラフィカル・ユーザ・インターフェイスを示している。図4と同様に、グラフィカル・ユーザ・インターフェイス500は、第1のペイン410および第2のペイン420を含んでいる。
【0048】
図に示されているように、抽出されたテキスト528は、抽出されたテキスト528に関する拡張された情報(例えば、位置情報および関係情報)を表示するために第2のペイン420に備えられたボタンをクリックすることによって、分析のためにユーザによって選択され得る。一部の実施形態では、抽出されたテキスト528を選択することによって、システムは、選択済みの抽出されたテキスト528の親要素に対応する構造化文書内の要素について、1つまたは複数の視覚効果を描画することができる。この例では、抽出されたテキスト528は抽出されたテキスト526の直下の子であってよく、抽出されたテキスト526は抽出されたテキスト524の直下の子であってよく、抽出されたテキスト524は抽出されたテキスト522の直下の子であってよい。抽出されたテキスト522は、抽出されたテキスト528の階層的ナビゲーション構造内の最終的な親テキスト・オブジェクトを表してよい。この例では、ユーザは、第1のペイン410に描画された非構造化文書内の救急外来受診に関連し、次に、ユーザが責任を負担する自己負担金額に関連し、最終的に、「低控除免責金額PPO」に関する情報に関連する金額を選択した。
【0049】
抽出されたテキスト528のユーザ選択に基づいて、システムは、第1のペイン410に描画された非構造化文書から生成された構造化文書内の位置情報を調べ、非構造化文書内の抽出されたテキスト522、524、526、および528の各々の位置を識別することができる。述べたように、抽出されたテキストの各々の識別された位置は、文字列内のテキストのオフセットおよび非構造化文書内の抽出されたテキストの座標位置を含んでよい。抽出されたテキストの識別された位置に基づいて、システムは、第1のペイン410に描画された非構造化文書内の関連するテキストの周囲の1つまたは複数の視覚効果、および第2のペイン420内の抽出されたテキストの周囲の対応する視覚効果を描画することができる。例えば、ユーザによる選択済みの抽出されたテキストに関連する(すなわち、抽出されたテキスト528に関連する)抽出されたテキストごとに、異なる色付きの境界ボックスが第1のペイン410および第2のペイン420に描画されてよい。図に示されているように、境界ボックス512は抽出されたテキスト522に対応してよく、境界ボックス514は抽出されたテキスト524に対応してよく、境界ボックス516は抽出されたテキスト526に対応してよく、境界ボックス518は抽出されたテキスト528に対応してよい。第2のペイン420内の抽出されたテキスト要素および第1のペイン410に描画された非構造化文書内の対応する関連するテキストの素早い認識を可能にするために、システムは、第1のペイン410内の境界ボックスおよび第2のペイン420内の関連付けられた関連するテキストと同じまたは類似する視覚効果を描画することができる。この例では、境界ボックス512および関連付けられた抽出されたテキスト522の周囲に描画されたボックスは、第1の色の境界線を含んでよく、境界ボックス512および関連付けられた抽出されたテキスト524の周囲に描画されたボックスは、第2の色の境界線を含んでよく、境界ボックス516および関連付けられた抽出されたテキスト526の周囲に描画されたボックスは、第3の色の境界線を含んでよく、境界ボックス518および関連付けられた抽出されたテキスト528の周囲に描画されたボックスは、第4の色の境界線を含んでよい。他の例では、抽出されたテキスト522、524、526、および528の各々について、異なる視覚効果が、第1のペイン410に表示された非構造化文書に描画されてよい。例えば、前述した境界ボックスの座標に基づいて、異なる色の強調表示が第1のペイン410に表示された非構造化文書内の関連するテキストに適用されてよい、第1のペイン410に表示された非構造化文書内の関連するテキストの色が変更される、などである。
【0050】
図6は、実施形態に従って、自然言語処理技術および非構造化文書の種類に関連付けられたオントロジーを使用して、非構造化文書から、非構造化文書をナビゲートするために使用されることができる構造化文書に情報を抽出する例示的なシステム600を示している。図に示されているように、システム600は、中央処理装置602、システム600へのさまざまなI/Oデバイス614(例えば、キーボード、ディスプレイ、マウス・デバイス、ペン入力など)の接続を可能にし得る1つまたは複数のI/Oデバイス・インターフェイス604、ネットワーク・インターフェイス606、メモリ608、ストレージ610、および相互接続612を含むが、これらに限定されない。
【0051】
CPU602は、メモリ608に格納されたプログラミング命令を取り出して実行してよい。同様に、CPU602は、メモリ608に存在するアプリケーションを取り出して格納してよい。相互接続612は、プログラミング命令およびアプリケーション・データを、CPU602、I/Oデバイス・インターフェイス604、ネットワーク・インターフェイス606、メモリ608、およびストレージ610の間で送信する。CPU602は、単一のCPU、複数のCPU、複数のプロセッシング・コアを含んでいる単一のCPUなどを代表するために含まれている。さらに、メモリ608は、ランダム・アクセス・メモリを代表するために含まれている。さらに、ストレージ610は、ディスク・ドライブ、半導体ドライブ、相変化メモリ・デバイスなどであってよい。ストレージ610は、単一のユニットとして示されているが、固定されたディスク・ドライブ、半導体ドライブ、取り外し可能なメモリ・カードまたは光ストレージ、ネットワーク接続ストレージ(NAS:network attached storage)、あるいはストレージ領域ネットワーク(SAN:storage area network)などの、固定されたストレージ・デバイスまたは取り外し可能なストレージ・デバイスあるいはその両方の組み合わせであってよい。
【0052】
図に示されているように、メモリ608は、文書コンバータ620、構造化文書生成器630、および文書ビューア640を含んでいる。文書コンバータ620は、通常、分析用の文書を受信し、構造化文書生成器630が構造化文書を生成するために使用できる1つまたは複数の中間プレーンテキスト文書を生成する。受信された文書は、例えば、画像に基づくファイル形式(例えば、ポータブル・ドキュメント・フォーマット)または画面上に描画されるその他の文書ファイル形式であってよい。文書コンバータ620は、光学式文字認識エンジンを使用して、非構造化文書を、構造化文書を生成するために使用される複数の中間文書のうちの1番目として機能し得るプレーンテキスト文書に変換することができる。表内のテキスト・コンテンツは、表内の各セルに関する情報を維持する方法で、第1の中間文書内で書式設定されてよく、それに続く中間文書は、非構造化文書内の表に含まれていない非構造化文書内のテキスト要素の周囲の構造を追加することができる。各テキスト要素は、文字のオフセットおよび非構造化文書内の境界ボックスの座標などの位置情報を含んでもよく、この位置情報は、非構造化文書を描画すること、および視覚効果を非構造化文書の部分に適用することにおいて文書ビューア640によって使用され得る。
【0053】
構造化文書生成器630は、通常、中間文書を使用して、非構造化文書から抽出された関連情報を含んでいる構造化文書を生成する。構造化文書を生成するために、構造化文書生成器630は、文書のクラスにとって特に重要である単語または語句を認識するようにトレーニングされた領域固有の自然言語処理エンジンおよび領域固有のオントロジーを使用する。構造化文書生成器630によって生成された構造化文書は階層的文書であってよく、文書ビューア640は、この階層的文書を、文書から抽出されたデータ間の階層および関係を維持するナビゲーション構造を描画することにおいて使用することができる。
【0054】
文書ビューア640は、通常、グラフィカル・ユーザ・インターフェイスを提供し、このグラフィカル・ユーザ・インターフェイス内で、非構造化文書がグラフィカル・ユーザ・インターフェイスの第1のペインに描画され、非構造化文書から抽出された情報を含んでいる構造化文書から生成されたナビゲーション構造が第2のペインに表示される。通常、ユーザがナビゲーション構造内の要素を操作するときに、文書ビューア640は、選択されたテキスト要素を含んでいる非構造化文書の部分にジャンプし、1つまたは複数の視覚効果を、選択されたテキスト要素を含んでいる非構造化文書の部分に適用することができる。文書ビューア640はさらに、ユーザが第1のペインに表示された非構造化文書に関連付けられた構造化文書からの既存の内容を編集すること、および除去すること、ならびに非構造化文書からの情報を構造化文書に追加することを、許可してよい。
【0055】
ストレージ610は、図に示されているように、文書データ・ストア650およびオントロジー・データ・ストア660を含んでいる。文書データ・ストア650は、通常、1つまたは複数の非構造化文書から抽出された情報を含んでいる構造化文書が格納されるリポジトリとして機能する。オントロジー・データ・ストア660は、通常、システム600によって処理されるさまざまな領域の文書内のデータ間の先験的に定義された関係を含む。文書データ・ストア650およびオントロジー・データ・ストア660は、リレーショナル・データベース、非リレーショナル・データベース、平坦なファイル・ストア、または暗号化されたデータが格納され、取り出される任意のその他のデータ・リポジトリであってよい。
【0056】
本発明のさまざまな実施形態の説明は、例示の目的で提示されているが、網羅的であること、または開示された実施形態に制限されることは意図されていない。説明された実施形態の範囲および思想から逸脱しない多くの変更および変形が、当業者にとって明らかであろう。本明細書で使用された用語は、実施形態の原理、実際の適用、または市場で見られる技術を超える技術的改良を最も良く説明するため、または他の当業者が本明細書で開示された実施形態を理解できるようにするために選択されている。
【0057】
以下では、本開示で提示された実施形態への参照が行われる。しかし、本開示の範囲は、特定の説明された実施形態に限定されない。代わりに、以下の特徴および要素の任意の組み合わせが、異なる実施形態に関連しているかどうかに関わらず、企図された実施形態を実施および実践するよう企図される。さらに、本明細書で開示された実施形態は、他の可能な解決策を上回る利点または従来技術を上回る利点を実現することができるが、特定の実施形態によって特定の利点が実現されるかどうかは、本開示の範囲の制限ではない。したがって、以下の態様、特徴、実施形態、および利点は、単に例示であり、請求項において明示的に示されている場合を除き、添付の特許請求の範囲の要素または制限とは見なされない。同様に、「本発明」への参照は、請求項において明示的に示されている場合を除き、本明細書で開示されたいずれかの発明の対象の一般化と解釈されてはならず、添付の特許請求の範囲の要素または制限と見なされてはならない。
【0058】
本発明の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、またはソフトウェアの態様とハードウェアの態様を組み合わせる実施形態の形態を取ってよく、これらはすべて、本明細書では、一般に「回路」、「モジュール」、または「システム」と呼ばれてよい。
【0059】
本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組み合わせであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体を含んでよい。
【0060】
コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持および格納できる有形のデバイスであることができる。コンピュータ可読ストレージ媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組み合わせであってよいが、これらに限定されない。コンピュータ可読ストレージ媒体のさらに具体的な例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM:random access memory)、読み取り専用メモリ(ROM:read-onlymemory)、消去可能プログラマブル読み取り専用メモリ(EPROM:erasableprogrammable read-only memoryまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM:static random access memory)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM:compact disc read-only memory)、デジタル・バーサタイル・ディスク(DVD:digital versatile disk)、メモリ・スティック、フロッピー(R)・ディスク、命令が記録されているパンチカードまたは溝の中の隆起構造などの機械的にエンコードされるデバイス、およびこれらの任意の適切な組み合わせを含む。本明細書において使用されるとき、コンピュータ可読ストレージ媒体は、それ自体が、電波またはその他の自由に伝搬する電磁波、導波管またはその他の送信媒体を伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、あるいはワイヤを介して送信される電気信号などの一過性の信号であると解釈されるべきではない。
【0061】
本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体から各コンピューティング・デバイス/処理デバイスへ、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、または無線ネットワーク、あるいはその組み合わせを介して外部コンピュータまたは外部ストレージ・デバイスへダウンロードされることができる。このネットワークは、銅伝送ケーブル、光伝送ファイバ、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組み合わせを備えてよい。各コンピューティング・デバイス/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェイスは、コンピュータ可読プログラム命令をネットワークから受信し、それらのコンピュータ可読プログラム命令を各コンピューティング・デバイス/処理デバイス内のコンピュータ可読ストレージ媒体に格納するために転送する。
【0062】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA:instruction-set-architecture)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいは、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組み合わせで記述されたソース・コードまたはオブジェクト・コードであってよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に実行すること、ユーザのコンピュータ上でスタンドアロン・ソフトウェア・パッケージとして部分的に実行すること、ユーザのコンピュータ上およびリモート・コンピュータ上でそれぞれ部分的に実行すること、あるいはリモート・コンピュータ上またはサーバ上で全体的に実行することができる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN:local area network)または広域ネットワーク(WAN:wide areanetwork)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてよく、または接続は、(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに対して行われてよい。一部の実施形態では、本発明の態様を実行するために、例えばプログラマブル・ロジック回路、フィールドプログラマブル・ゲート・アレイ(FPGA:field-programmable gate arrays)、またはプログラマブル・ロジック・アレイ(PLA:programmable logic arrays)を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用することによって、電子回路を個人向けにするためのコンピュータ可読プログラム命令を実行してよい。
【0063】
本発明の態様は、本明細書において、本発明の実施形態に従って、方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、ならびにフローチャート図またはブロック図あるいはその両方に含まれるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装されるということが理解されるであろう。
【0064】
これらのコンピュータ可読プログラム命令は、コンピュータまたはその他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、命令が格納されたコンピュータ可読ストレージ媒体がフローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作の態様を実施する命令を含んでいる製品を備えるように、コンピュータ可読ストレージ媒体に格納され、コンピュータ、プログラム可能なデータ処理装置、または他のデバイス、あるいはその組み合わせに特定の方式で機能するように指示できるものであってもよい。
【0065】
コンピュータ可読プログラム命令は、コンピュータ上、その他のプログラム可能な装置上、またはその他のデバイス上で実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作を実施するように、コンピュータ実装プロセスを生成するべく、コンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイスにロードされ、一連の動作ステップを、コンピュータ上、その他のプログラム可能な装置上、またはその他のデバイス上で実行させるものであってもよい。
【0066】
図内のフローチャートおよびブロック図は、本発明のさまざまな実施形態に従って、システム、方法、およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。これに関連して、フローチャートまたはブロック図内の各ブロックは、規定された論理機能を実装するための1つまたは複数の実行可能な命令を備える、命令のモジュール、セグメント、または部分を表してよい。一部の代替の実装では、ブロックに示された機能は、図に示された順序とは異なる順序で発生してよい。例えば、連続して示された2つのブロックは、実際には、含まれている機能に応じて、実質的に同時に実行されてよく、または場合によっては逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、ならびにブロック図またはフローチャート図あるいはその両方に含まれるブロックの組み合わせは、規定された機能または動作を実行するか、または専用ハードウェアとコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムによって実装されるということにも注意する。
【0067】
前述の内容は本発明の実施形態を対象にしているが、本発明のその他のさらなる実施形態が、本発明の基本的な範囲から逸脱することなく考案されてよく、本発明の範囲は以下の特許請求の範囲によって決定される。
図1
図2
図3
図4
図5
図6