IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドキュガミ インコーポレイテッドの特許一覧

特開2025-23185クロスドキュメントインテリジェントオーサリングおよび処理アシスタント
<>
  • 特開-クロスドキュメントインテリジェントオーサリングおよび処理アシスタント 図1
  • 特開-クロスドキュメントインテリジェントオーサリングおよび処理アシスタント 図2
  • 特開-クロスドキュメントインテリジェントオーサリングおよび処理アシスタント 図3
  • 特開-クロスドキュメントインテリジェントオーサリングおよび処理アシスタント 図4
  • 特開-クロスドキュメントインテリジェントオーサリングおよび処理アシスタント 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025023185
(43)【公開日】2025-02-14
(54)【発明の名称】クロスドキュメントインテリジェントオーサリングおよび処理アシスタント
(51)【国際特許分類】
   G06F 40/289 20200101AFI20250206BHJP
【FI】
G06F40/289
【審査請求】有
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2024209611
(22)【出願日】2024-12-02
(62)【分割の表示】P 2022542307の分割
【原出願日】2020-07-24
(31)【優先権主張番号】62/900,793
(32)【優先日】2019-09-16
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】522105458
【氏名又は名称】ドキュガミ インコーポレイテッド
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】アンドリュー ビガン
(72)【発明者】
【氏名】スティーブン デローズ
(72)【発明者】
【氏名】タキ ジャフリ
(72)【発明者】
【氏名】ルイス マーティ
(72)【発明者】
【氏名】マイケル パルマー
(72)【発明者】
【氏名】ジーン パオリ
(72)【発明者】
【氏名】クリスティーナ パブロポウロウ
(72)【発明者】
【氏名】エレナ プリコイウ
(72)【発明者】
【氏名】スワガティカ サーランギ
(72)【発明者】
【氏名】マーシン サウィッキ
(72)【発明者】
【氏名】マナル シェハデ
(72)【発明者】
【氏名】マイケル タロン
(72)【発明者】
【氏名】バーヴェン トプラニ
(72)【発明者】
【氏名】ズビン ルストム ワディア
(72)【発明者】
【氏名】デイビッド ワトソン
(72)【発明者】
【氏名】エリック ホワイト
(72)【発明者】
【氏名】ジョシュア ヨンシン ファン
(72)【発明者】
【氏名】クシュ グプタ
(72)【発明者】
【氏名】アンドリュー ミン ホアン
(72)【発明者】
【氏名】ジャンリン リウ
(72)【発明者】
【氏名】ジェローム ジョージ パリアッカラ
(72)【発明者】
【氏名】ジャオフェン ウー
(72)【発明者】
【氏名】ユエ ジャン
(72)【発明者】
【氏名】シャオチュエン ジョウ
(57)【要約】
【課題】ドキュメントを分析し、注釈を付ける。
【解決手段】機械学習、人工知能及び他のコンピュータ実行方法を使用してドキュメント内の意味的に重要なチャンクを識別し、それらを適切なデータタイプおよびセマンティックロールで自動的にラベル付けし、この強化された情報を使用して、著者を支援し、ダウンストリームプロセスをサポートする。チャンクの場所、データタイプ及びセマンティックロールは、「コンテキスト」と呼ばれるもの、すなわち、それらのフォーマット、構造及びコンテンツの組み合わせ、隣接または近くのコンテンツのもの、ドキュメント内の全体的な発生のパターン及び全体にわたる全てのこれらの事柄の類似性から、自動的に決定できる。類似性は、自然言語文法構造の類似性、単語、チャンク及び他の埋め込みの類似性を測定するような機械学習技術、並びに以前に識別されたチャンクのデータタイプおよびセマンティックロールを含み得る。
【選択図】図1
【特許請求の範囲】
【請求項1】
ドキュメントを分析し、および注釈を付ける命令を実行するコンピュータシステムによって実行されるコンピュータ実行方法であって、
ドキュメントセットのドキュメントをインポートすることと、
ドキュメント部分の署名を生成することを含む、前記インポートされたドキュメントのビジュアル抽出を実行することと、
(a)個々のドキュメントのビジュアル抽出、コンテンツ、およびコンテキストに基づいて、および(b)前記ドキュメントセットのドキュメント全体のビジュアル抽出およびコンテンツのパターンに基づいて、前記ドキュメントセットの個々のドキュメント内のチャンクの階層構造を自動的に識別することであって、前記階層構造は、個々のセンテンス内の一連の単語を含む小さなチャンクを含む、ことと、
前記小さなチャンクの少なくともいくつかについては、前記小さなチャンクを識別することとは別のプロセスで、個々のドキュメントによって記述されるトランザクションにおける前記小さなチャンクによって果たされるセマンティックロールのラベルとして、前記小さなチャンクを囲む文からテキストを自動的に選択することと、
前記ドキュメントセットのドキュメント全体にわたってセマンティックロールのラベルを標準化することと、
前記ドキュメントセットのドキュメントに注釈を付けることであって、前記注釈は、前記識別された小さなチャンクの位置と、それらの位置にて識別された小さなチャンクによって果たされる前記セマンティックロールの標準化されたラベルとを含む、ことと、
を含むコンピュータ実行方法。
【請求項2】
コンテンツおよび/または幾何学的レイアウトの類似性に基づいてドキュメントをドキュメントセットにクラスタリングすることによって前記ドキュメントセットを組み立てることをさらに含む、請求項1のコンピュータ実行方法。
【請求項3】
前記ドキュメントセットの個々のドキュメント内のチャンクの前記階層構造を自動的に識別することは、(c)前記ドキュメントセットの異なるドキュメントにおけるカウンターパートチャンクを識別することにさらに基づいており、前記カウンターパートチャンクは、それぞれのドキュメント内で同じセマンティックロールを果たす、異なるドキュメントにおける異なるチャンクである、請求項1のコンピュータ実行方法。
【請求項4】
異なるドキュメントにおけるカウンターパートチャンクを識別することは、異なるドキュメントでは異なるが、異なるドキュメント内の実質的に類似のコンテキスト内で発生するコンテンツを識別することを含む、請求項3のコンピュータ実行方法。
【請求項5】
異なるドキュメントにおけるカウンターパートチャンクを識別することは、異なるドキュメントにおける実質的に同じコンテンツを識別することを含む、請求項3のコンピュータ実行方法。
【請求項6】
前記識別されたチャンクのいくつかに前記チャンクを説明するメタデータで注釈を付けることであって、異なるドキュメントにおけるカウンターパートチャンクを識別することは、前記メタデータの類似性に基づく、請求項1のコンピュータ実行方法。
【請求項7】
前記ドキュメントセットの前記ドキュメント全体のパターンに基づいてチャンクを識別することは、
個々のドキュメントにおいて、前記ドキュメントセットのドキュメントでは一般的に出現するが、前記個々のドキュメントでは出現しないチャンクを識別することを含む、請求項1のコンピュータ実行方法。
【請求項8】
前記識別されたチャンクは、
ドキュメントテンプレートのフィールドとして使用するのに適したドキュメント内のコンテンツを含むフィールドチャンクと、
前記ドキュメントの幾何学的レイアウト内の構造を含むコンテンツを含む構造チャンクと、
を含む、請求項1のコンピュータ実行方法。
【請求項9】
前記フィールドチャンクのいくつかは、階層化されており、サブチャンクとして他のチャンクを含む、請求項8のコンピュータ実行方法。
【請求項10】
前記識別されたチャンクのいくつかは、他のチャンクによって果たされるセマンティックロールを記述するコンテンツを含む、請求項1のコンピュータ実行方法。
【請求項11】
前記注釈は、前記識別されたチャンクのデータタイプをさらに含む、請求項1のコンピュータ実行方法。
【請求項12】
ビジュアル抽出に基づいてチャンクを識別することは、ページ画像のタイルでトレーニングされた機械学習推論を使用して構造チャンクの空間境界を識別することを含む、請求項1のコンピュータ実行方法。
【請求項13】
ビジュアル抽出に基づいてチャンクを識別することは、前記ビジュアル抽出の幾何学的パターンの人工知能ベースの視覚認識を使用して、構造チャンクの空間境界を識別することを含む、請求項1のコンピュータ実行方法。
【請求項14】
ビジュアル抽出に基づいてチャンクを識別することは、非テキスト構造特徴のビジュアル抽出に基づいて構造チャンクを識別することであって、前記非テキスト構造特徴は、図、テーブル、サイドバー、脚注、およびページヘッダまたはフッタの少なくとも1つを含む、ことを含む、請求項1のコンピュータ実行方法。
【請求項15】
コンテンツに基づいてチャンクを識別することは、トピック推定のためのAI技術を使用してチャンクを識別することを含む、請求項1のコンピュータ実行方法。
【請求項16】
コンテンツに基づいてチャンクを識別することは、少ショットの名前付きエンティティ認識技術を使用して、ドキュメントセット内のチャンクを識別することを含む、請求項1のコンピュータ実行方法。
【請求項17】
誤って識別されたチャンクに対するユーザ修正を受信することと、
前記ユーザ修正に応答してチャンクの階層構造を自動的に識別することを改善することと、
をさらに含む、請求項1のコンピュータ実行方法。
【請求項18】
ドキュメントを分析し、および改善するための実行可能なコンピュータプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、コンピュータシステムによって実行可能であり、前記コンピュータシステムに、
複数のドキュメントを含むドキュメントセットをインポートすることと、
ドキュメント部分の署名を生成することを含む、前記インポートされたドキュメントのビジュアル抽出を実行することと、
(a)個々のドキュメントのビジュアル抽出、コンテンツ、およびコンテキストに基づいて、および(b)前記ドキュメントセットのドキュメント全体のビジュアル抽出およびコンテンツのパターンに基づいて、前記ドキュメントセットの個々のドキュメント内のチャンクの階層構造を自動的に識別することであって、前記階層構造は、個々のセンテンス内の一連の単語を含む小さなチャンクを含む、ことと、
前記小さなチャンクの少なくともいくつかについては、前記小さなチャンクを識別することとは別のプロセスで、個々のドキュメントによって記述されるトランザクションにおける前記小さなチャンクによって果たされるセマンティックロールのラベルとして、前記小さなチャンクを囲む文からテキストを自動的に選択することと、
前記ドキュメントセットのドキュメント全体にわたってセマンティックロールのラベルを標準化することと、
前記ドキュメントセットのドキュメントに注釈を付けることであって、前記注釈は、前記識別された小さなチャンクの位置と、それらの位置にて識別された小さなチャンクによって果たされる前記セマンティックロールの標準化されたラベルとを含む、ことと、
を含む方法を実行させる、非一時的コンピュータ可読記憶媒体。
【請求項19】
ドキュメントを分析し、および改善するためのコンピュータシステムであって、前記コンピュータシステムは、
複数のドキュメントを含むドキュメントセットを受信し、格納する記憶媒体と、
前記記憶媒体にアクセスし、並びにドキュメントを分析し、および注釈を付けるアプリケーションプログラムを実行するプロセッサシステムと、
を備え、
前記アプリケーションプログラムを実行する前記プロセッサシステムは、
ドキュメントセットのドキュメントをインポートすることと、
ドキュメント部分の署名を生成することを含む、前記インポートされたドキュメントのビジュアル抽出を実行することと、
(a)個々のドキュメントのビジュアル抽出、コンテンツ、およびコンテキストに基づいて、および(b)前記ドキュメントセットのドキュメント全体のビジュアル抽出およびコンテンツのパターンに基づいて、前記ドキュメントセットの個々のドキュメント内のチャンクの階層構造を自動的に識別することであって、前記階層構造は、個々のセンテンス内の一連の単語を含む小さなチャンクを含む、ことと、
前記小さなチャンクの少なくともいくつかについては、前記小さなチャンクを識別することとは別のプロセスで、個々のドキュメントによって記述されるトランザクションにおける前記小さなチャンクによって果たされるセマンティックロールのラベルとして、前記小さなチャンクを囲む文からテキストを自動的に選択することと、
前記ドキュメントセットのドキュメント全体にわたってセマンティックロールのラベルを標準化することと、
前記ドキュメントセットのドキュメントに注釈を付けることであって、前記注釈は、前記識別された小さなチャンクの位置と、それらの位置にて識別された小さなチャンクによって果たされる前記セマンティックロールの標準化されたラベルとを含む、ことと、
を実行する、コンピュータシステム。
【請求項20】
前記ドキュメントをインポートすることは、ワードプロセッサドキュメントをインポートすること、およびページレイアウトドキュメントをインポートすることを含む、請求項1のコンピュータ実行方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、階層的に意味的にラベル付けされたドキュメントのAI自己管理作成のための、および/またはそのようなドキュメントの支援されたオーサリングおよび処理のための方法および装置に関する。
【0002】
関連出願の相互参照
本出願は、2019年9月16日に出願された米国仮特許出願第62/900,793号「Cross-Document Intelligent Authoring and Processing Assistant」に対する35USC§119(e)の優先権を主張する。前述の全ての主題は、参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0003】
関係技術の説明
多くの企業は、毎回カスタマイズされているにもかかわらず、非常に類似した複数のドキュメントを作成している。例えば、保険事務所は特定の種類の保険について多くの提案をし得るが、それぞれを特定の顧客のニーズに合わせて調整しなければならない。これらのドキュメントは、類似のテキスト(場合によっては画像)コンテンツ(類似の目的およびトピックを反映する)、セクションなどの大単位の類似の選択および配置、および多くの場合、類似の幾何学的レイアウトおよびフォーマット特性を有するため、同じ「タイプ」であると見なすことができる。
【0004】
いくつかのタイプのドキュメントは広く知られ使用されているが、多くはそうではない。多くは特定のビジネス、マーケット、またはアプリケーションに固有のものであり、新しい状況に合わせて新しいものが作成される。「著者」または「編集者」と呼ばれ得るユーザは、一般的に、特定のタイプの新しいドキュメント(時に「ターゲットドキュメント」と呼ばれる)を、同じタイプの以前のドキュメントをコピーし、必要に応じて変更すること、例えば、特定のコンテンツのチャンクを手動で編集または置き換えること、によって作成する。
【0005】
現在の慣行では、ワードプロセッシングは、通常、フォーマットを達成するために必要な場合にのみチャンクを識別し、例えば、見出し、脚注、および図は、特別なフォーマットを取得するために明示的にマークされ得るが、名前、アドレス、または日付は明示的にマークされることはほとんどない。識別された場合でさえ、チャンクは一般的に、有用な情報であるフォーマット効果(マージン、フォントなど)にのみ関連付けられるが、これらのデータタイプまたはセマンティックロールのいずれかの表示は直接提供されない。同様に、ワードプロセッサは、多くの場合、階層的な格納を視覚的にのみ表現し、多くの場合、ネストされたセクション自体の明示的な表現はなく、異なるフォーマットの見出しのみである。
【0006】
以前のドキュメントと同じ一般的な種類の新しいドキュメントを作成する場合、多くのケースで、作業の大部分は特定のチャンクのテキスト編集、置き換え、削除、または挿入であり、異なるセマンティックロール(買い手および売り手のアドレスの入れ替えなど)を持つものを混同しないように注意される。これは典型的には、オーサリングシステムは通常、これらのチャンク、特にデータタイプまたはセマンティックロールを何も知らず、非常に効果的に役立つことができないため、人間の介入を必要とする。
【0007】
いくつかの単純なケースでは、特定のチャンクのコンテンツを埋めるための明示的な位置を提供する、「フォーム」および「テンプレート」が使用され得る。しかし、フォームは、典型的には、実質的にすべての必要なチャンクが事前に列挙することができ、大規模な、反復可能な、または高度に構造化されたチャンクがほとんど存在しない、単純なケースにのみ対処する。また、フォームの作成には熟練した努力が必要であり、状況の変化に適応することは困難であり、ライターを積極的に支援しない。
【図面の簡単な説明】
【0008】
本特許または出願ファイルは、カラーで作成された少なくとも1つの図面を含む。この特許または特許出願の出版物とカラー図面のコピーは、要求と必要な料金の支払いに応じて、官庁から提供される。
【0009】
本開示の実施形態は、添付の図面の実施例と併せると、以下の詳細な説明および添付の特許請求の範囲からより容易に明らかになる他の利点および特徴を有する。
【0010】
図1図1は、機械学習および人工知能を使用して階層的に意味的にラベル付けされたドキュメントを作成するためのシステムおよびプロセスの1つの実装のブロック図である。
図2図2は、図1のシステムを通じて異なるドキュメントセットの処理を追跡するダッシュボードを示すスクリーンショットである。
図3図3は、ユーザからのフィードバックを受信するためのユーザインターフェースのスクリーンショットである。
図4図4は、他のソフトウェアアプリケーションとの統合のスクリーンショットである。
図5図5は、本発明と共に使用され得るコンピュータシステムの一実施形態のブロック図である。
【発明を実施するための形態】
【0011】
好適な実施形態の詳細な説明
概要
同じタイプであると決定されたドキュメントのグループは、「ドキュメントセット」または「ドキュメントクラスタ」を構成する。例えば、保険会社の特定のクラスの顧客への特定の種類の保険の提案は、同じタイプと見なされ、ドキュメントセットを形成し得る。同じ会社の異なる種類の保険の提案、または彼らが異なると考える顧客への提案は、異なるドキュメントセットに属する異なるタイプと見なされ得る。レンタル契約書、特定の種類の患者の臨床メモ、販売提案書、スケジュール書、会議議事録などは、コンテンツ、構造、および/またはレイアウトの特徴的なパターンを共有するサブタイプと同様に、他の潜在的なタイプのドキュメントである。
【0012】
ドキュメントセット内の新しいターゲットドキュメントの作成および編集は、非常に多くの場合、「意味的に重要」である「チャンク」の編集または置き換えを伴い、そのようなチャンクは、典型的には、必ずしも連続したテキストのスパンではなく、特定のデータタイプおよびセマンティックロールを有し、ビジネスまたは他のプロセスにとって意味および意義を有するドキュメントの特定の部分である。
【0013】
これらのチャンクはさまざまなデータタイプであり、多くのコンピュータシステムにおいて極小のデータタイプよりも細かい。例えば、所与のチャンクは、単に文字列だけでなく、個人または組織名、日付、期間(日付と全く同じものではない)、通貨額を表し得る。より大きなチャンクは、薬物または他の物質のリスト、旅程表、従うべき手順、医療処方などの情報のバンドル、および無数のものを含むことができる。
【0014】
さらに、チャンクは、それらが発生するドキュメントに関連してセマンティックロールを有し得る。例えば、個人名は、賃貸借契約書の「テナント」、もしくは販売提案書の「売り手」、または別の人の「代理人」とすることができる。日付は、一部の責任または活動の開始または終了を表すことができる。ドルの金額は、定期的な支払い金額、または特定の条件に関連するペナルティまたはボーナスなどとすることができる。このようなセマンティックロールは、チャンク内の情報の適切な使用を実行するのに重要である。セマンティックロールの名前は、「セマンティックロールラベル」または単に「ラベル」と呼ばれる。
【0015】
チャンクは、典型的には、その位置、データタイプ、セマンティックロール、および/または他のデータ/メタデータを含むバンドルとして表される。位置は、一般に開始および終了点として表され、挿入されたマーカまたはバイト、文字、またはトークンオフセット(ドキュメントに対してグローバルである、または確立されたID、マーカ、または他のオブジェクトに対して相対的であるかのいずれか)など、いくつかの方法で表すことができる。セマンティックロールは、ラベルまたはその他の識別子で表される。チャンクは、任意のサイズとすることができ、一部は、「サブチャンク」として他のチャンクを含むことができる。チャンクは、テキストだけでなく、画像または他のメディアなどの非テキストデータ、および表、リスト、セクションなどの「構造」も含むことができる。
【0016】
本明細書に開示される技術は、機械学習、人工知能、および他のコンピュータ実装方法を使用して、ドキュメント内の様々な意味的に重要なチャンクを識別し、それらに適切なデータタイプおよびセマンティックロールを自動的に提供し、この強化された情報を使用して、著者を支援し、ダウンストリームプロセスをサポートする。チャンクの位置、データタイプ、およびセマンティックロールは、しばしば、「コンテキスト」と呼ばれる、すなわち、それらのフォーマット、構造、およびコンテンツの組み合わせ、隣接または近くのコンテンツのもの、ドキュメント内の全体的な発生のパターンおよびドキュメント全体にわたるすべてのこれらの事柄の類似性(主に、しかし排他的ではない、同じドキュメントセット内のドキュメント間で)から、自動的に決定できる。「近くのコンテンツ」は、テキストの読み取りシーケンスにおける先行および後続などの水平に近いコンテンツを含むが、また、それらのそれぞれのマーカ、見出し、レベルなどと共に、リストおよびセクションのような同じコンテナ構造内のような垂直に近いコンテンツを含む。類似性は、正確または曖昧な文字列または特性の比較に限定されないが、自然言語文法構造の類似性、単語、チャンク、および他の埋め込みの類似性を測定するようなML(機械学習)技術、ならびに以前に識別されたチャンクのデータタイプおよびセマンティックロールを含み得る。
【0017】
例えば、個人または組織名は、ドキュメントがそう述べているため、「売り手」などのセマンティックロールを有すように一般的に識別でき、いくつかの人間の言語においてセンテンスを使用することが非常に多いが、しばしばより大きなコンテキストも含んでいる。別の例では、1つまたは複数の単語を、多くの場合、「薬剤名」などのデータタイプを表すものとして容易に識別できるが、コンテキストは、それが処方ではなくアレルギーのセマンティックロールを担うことを決定するために必要である。多くの場合、セマンティックロールの重要な証拠は同じセンテンスではなく、より大きなチャンク(「既知のアレルギー」セクションなど)で発生するチャンクなどの様々な他の方法において表現される。文法のおよびドキュメント構造の構成の柔軟性および多様性(誤字脱字、転写エラーなどは言うまでもなく)は、データタイプの識別のより難しくしないが、セマンティックロール、特に単一のセンテンスよりも大きな範囲を持つもの、を識別することは非常に難しくなる。
【0018】
所与のセマンティックロールはチャンクを、ドキュメント全体、または他のチャンクに関係させ得る。例えば、飛行機の出発時間は、旅程内の特定の「脚(leg)」に結び付けられ、他には間接的にのみ関連する。一般的に、チャンクの階層構造は、セクション内の併設、テーブルパーツなど、そのような項目を適切にグループ化する。
【0019】
より詳細には、意味的に重要なチャンクの例は、契約の特定の当事者の名前、住所、および他の特徴、処方された薬物および医療記録における禁止された手順、不動産提案における要件(または除外)、旅程における日付およびフライト番号などを含む。これらはすべて、チャンクのセマンティックロールとみなすことができる。また、セクション全体およびサブセクションなど、さまざまなタイプおよび役割を持つより大きなチャンクがある。これらはしばしば全体として挿入または除去され、おそらく内部のより小さなチャンクの変化も伴う。チャンクは階層的であり得、すなわち、より大きな「含有する」チャンクは、任意の数のレベルまで他の「サブチャンク」を含み得る。
【0020】
チャンクとは、一般に、「ジョン・ドゥ」などのドキュメント内の連続した一連の単語である。しかし、チャンクは部分的な単語を含み得る。「ジョン・ドゥの家」は名前を含むが、名前はアポストロフィの前(単語の途中)で終わる。チャンクは不連続であることさえでき、例えば、「ジョン(「ビル」とも呼ばれる)ドゥ」の同じ名前である。レイアウトはまた、チャンクを不連続とさせることができ、例えば、チャンクの途中(おそらく、ページヘッダ、フッタ、または脚注があり、目的によっては無視され得る)でページ分割が発生でき、介在する図、テーブル、チャート、サイドバー、またはその他の表示など。
【0021】
チャンクの実際の位置およびコンテキストはまた重要であり得、チャンクは単なる孤立した文字列ではなく、異なるインスタンスに対して異なる(または全くない)セマンティックロールで何度も発生し得る。より現代的なシステムは通常、様々なラベルおよび他の情報をチャンクに持続的に関連付けることができる、「注釈」と呼ばれることもある、インラインまたはスタンドオフマークアップをサポートする。例えば、HTMLは、一般的な構造チャンク(「div」、「ol」など)の境界を手動でラベル付けするためのタグ、および(典型的に)より小さいチャンク(「頭文字」、「kbd」、「dfn」、「cite」など)のいくつかの広範なタイプまたは役割を提供する。他のXMLスキーマは、多くの他のラベルを提供し、ワードプロセッサは、「スタイル」を介してある程度類似したラベル付けを可能にする。
【0022】
いくつかのチャンクは、一般に「フィールド」と呼ばれるものを表し得る。これらはしばしば小さなチャンクであり、しばしば所与のセット内の多くのまたはすべてのドキュメント内の同様のコンテキストおよびレイアウトにおいて発生するが、通常はそれぞれに異なるテキストコンテンツである。これは、また、同じまたは非常に類似したコンテンツを持つ単一のドキュメントにおいて、複数回発生し得る。そのようなチャンクは「フィールドチャンク」と呼ばれ得る。これらはしばしば手動で発見され、テンプレートベースのシステムで「フィールド」として扱われるが、ここでは、これらはドキュメント内およびわたってコンテキストおよび発生のパターンによって発見され、他のチャンクとほぼ同じやり方でデータタイプおよびセマンティックロールが割り当てられる。これらは、個人名、住所、日付などの名前付きエンティティを表してもよく、そうでなくてもよい。
【0023】
別の一般的なタイプのチャンクは、「構造」または「構造的」チャンクと呼ばれ得る。そのようなチャンクは、典型的には、より大きく、しばしば多くの他のチャンク(その一部は構造チャンクでもあり得る)を含む。それらは、頻繁に、名前、番号、説明、および/または構造チャンクに関する他の情報を提供する「タイトル」または「見出し」を有する。構造チャンクの例は、チャプター、セクション、テーブル、図、サイドバー、およびより多くのものを含む。構造チャンクのタイプおよびセマンティックロールは、しばしば、近くのまたは含まれるチャンクのタイプおよびセマンティックロールを決定するために重要である。
【0024】
データタイプだけでなく、特定のセマンティックロールもドキュメントを適切に作成して活用するために重要である。特定の名前が売り手に対して買い手を、または医師に対して患者を表すかどうか、所与の日付が要件の開始日または終了日であるかどうか、またはフライトの出発対到着時刻であるかどうか、数値が元本、利息、投薬量、温度、ペナルティ、またはその他の何かを指定するかどうか、は非常に重要である。より大きなチャンクの場合、役割は、「責任の制限」ステートメント対「準拠法」仕様対「定義」、そして無数の他のものを含む。チャンクのセマンティックロールは、しばしば特定のドメインまたはトランザクションに固有であり、おそらくドキュメントの最も重要な機能の一つである。多くの種類のドキュメントでは、特定のデータタイプとセマンティックロールを持つチャンクが必要である、または少なくとも非常に一般的であり、チャンクはドキュメント全体に対応するときに「カウンターパート」と呼ばれる。カウンターパートチャンクは、特に同じ著者または組織によるドキュメント、および通常は同じドキュメントセットに対して、同様の順序およびパターンで発生し得る。カウンターパートチャンクは、同じまたは非常に類似した役割を有し、一般に、類似したコンテキストおよび/またはフォーマットを有する。したがって、チャンクのデータタイプおよびセマンティックロールの分布は、ドキュメントのタイプを区別するための貴重な情報を提供し、ならびに、他のドキュメントのカウンターパートチャンクを識別するのに役立つ。
【0025】
多くのカウンターパートチャンクは同様のコンテンツを有するが、そうではない他のものもある。例えば、異なるドキュメント内の同じ当事者(セマンティックロール)は、通常は別の個人であるが、非常に似たコンテキストおよび使用のパターン内に現れる。これは、「フィールドチャンク」で特に一般的であり得るが、これに限定されない。
【0026】
発見されると、ビジネスドキュメント内のデータタイプおよびセマンティックロールを有する階層的セマンティックチャンクが、ダウンストリームビジネスプロセスにおいて使用され得る。例えば、バックオフィスデータベースは、特定の当事者の名前、特定の日付、期間および金利レートなどの数値が与えられた場合、新しい住宅ローンを適切に記録できる。特にこのような用途では、セマンティックロールが非常に重要であり、間違ったデータベースフィールド内へ適切なデータタイプ(売り手と買い手の名前または住所の入れ替えなど)を入力することは、特にダウンストリームのデータベース、プロセス、またはレポートに情報を移動する場合に大きな問題となる。
【0027】
いくつかの特徴および利点
本明細書に記載の技術は、以下のいずれかを含む様々な特徴および利点を有し得る。
【0028】
いくつかの実装形態は、ビジネスプロセスに有用なセマンティックラベリングを有する階層的に編成されたチャンクを備えたドキュメントを生成するための、より簡単で、より効率的で、より正確な方法を提供し得る。これは、様々なサイズのそのようなチャンクを識別し、それらがドキュメント内で果たすデータタイプおよびセマンティックロールを発見し、それらの使用のパターン、特徴的なコンテキストなどを学習するために様々な技術を使用して達成され得る。学習は、現在および以前のドキュメントのコンテンツ、構造、およびフォーマットの分析、著者および編集者からのフィードバック、ならびに複数のドキュメント、特に同じドキュメントセット内のものの比較から得られ得る。この知識により、システムは、例えば、より高品質の新しいドキュメントの作成を容易にし、他のソフトウェアアプリケーションで、バックオフィスデータベース内で、派生レポート、コンプライアンスチェックなどのダウンストリームでの使用の所望の情報を抽出するなどの、貴重な支援をユーザに提供できる。そのような学習は、教師なしおよび自己管理学習技術を用いて実行し得、それは、大量の事前ラベル付けされたまたは事前分析されたデータを必要とせず、代わりに、ラベル付けされていないまたは最小限にラベル付けされたデータからパターンを推論する。
【0029】
いくつかの実装形態は、コンピュータが、ビジネスのドキュメント内でおよびわたってパターンを発見および使用して、これらのエラーの多くをライターが回避するのを支援し、したがって、所与のレベルの品質を達成するために必要な時間を削減する、ことによって、書き込みプロセスを支援することを可能にし得る。
【0030】
今日、典型的なドキュメントシステムは、チャンク、または特にそのデータタイプもしくはセマンティックロールを識別していない。これは、著者および編集者のための、およびドキュメントからデータを、バックエンドのデータベース、ダッシュボード、またはその他のダウンストリームのビジネスプロセスにインポートするための、時間および費用を追加する。例えば、契約から手動で(チャンクごとに)データを検索し、スプレッドシートまたはデータ入力フォーム内にコピーするのが一般的である。
【0031】
いくつかの実装形態は、オーサリングプロセス中にそのような階層的なセマンティックチャンクをラベル付けし、それらを明示的に表現するのに役立ち得、したがって、それらを人々および/またはコンピュータが抽出し、様々な種類の他のビジネスプロセスに接続する時間および費用を節約することを容易にする。
【0032】
現在の技術は典型的には、同じライターまたはグループによって作成された、および/または同じタイプ(ここでは、特定のドキュメントセットのメンバーシップによって示されている)の複数のドキュメント間の類似性を十分に活用して、新しいドキュメントのチャンクをより確実に識別する、または重要と思われる差に注意を向けることはしない。「可分性」という見出しのセクションを要求するなどの明示的なルールは、アナリストがすぐに気づき説明する類似点のみをカバーし、静的でしばしば制約があり(例えば、言い換えまたは再編成を伴う欠落のケース、または対抗する条件への対応の失敗)、すぐに時代遅れになる。小規模企業はしばしばより応答性の高い技術を開発するために必要なリソースが不足しており、しばしば費用を正当化するためのドキュメントが少なすぎる。一方、より小規模な企業はしばしば、多様性の少ない範囲のドキュメントを有し、本明細書に記載されているような自動化された分析により適している。
【0033】
いくつかの実装形態は、チャンクに関する抽出された情報と、それらのコンテンツ、コンテキスト、レイアウト、およびドキュメントにわたる使用のパターンを用いて、ライターが新しいドキュメントを作成するのを支援し得る。例には、少なくとも、変更、再フォーマット、または移動する特定のコンテンツ、同様のドキュメントに一般的に存在するものの、新しいドキュメントに欠落している句(「欠落している」または「省略されている可能性がある」チャンクまたはコンテンツと呼ばれる)、同様のドキュメントには一般的に存在しないものの存在する句(「普通ではない」チャンクまたはコンテンツと呼ばれる)、特定の場所での異なる当事者の名前または役割の交換などの変更などの提案が含まれる。
【0034】
いくつかの実装形態は、ユーザが、チャンクが誤った範囲、データタイプ、またはセマンティックロールでラベル付けされていること、それらに関心がないこと、またはラベル付けに全く失敗していることを示す場合などに、ユーザフィードバックを受け入れ、保持し得る。いくつかの実装形態では、特定のユーザ補正を使用して機械学習およびニューラルモデルを改善し、ならびにユーザがそれらを拒否したケースにおいて、以前の提案を繰り返さないことを思い出し得る(追加の学習が特定の間違いのインスタンスを防ぐことに失敗する場合でさえ)。特に、いくつかの実装形態は、必要とされるユーザアクションの量を最小限に抑えるために、少ショット学習技術および要求するフィードバックの慎重な選択を有利にするために、大量のレビューステップまたは補正を必要とすることを回避し得る。いくつかの現在の技術は、例えば、ユーザが辞書に単語を追加するようスペルチェッカーに指示する場合、非常に具体的なことを学習する。しかし、これは、洗練された後の行動を決定するために使用されるモデルの反復トレーニングまたは微調整ではなく、単なる繰り返しのリスト(rote list)を含み、したがって、本明細書に記載されるような能力を完全には利用していない。
【0035】
いくつかの実装形態は、改善されたが依然として不完全なモデルを再び適用するときに、繰り返し提案されることでユーザに不快にさせることを避けながら、少量のユーザ補正を使用して、それらの行動を学習および改善し得る。
【0036】
多くの企業は、ドキュメントから得られた特定の情報を、そのプロセスをサポートするさまざまな種類のデータベースに記録している。例えば、多くの賃貸物件を所有している会社は、通常、借り手の支払いだけでなく、承認されたペット、借り手が責任を負わない事前の損害、またはその他の情報など、それらの賃貸契約に由来する特定の情報の管理を助けるためにバックエンドシステムを使用する。自動車または工具賃借人、住宅ローン会社、健康管理提供者、地方自治体、および他の組織は、他の情報を使用する。多くの商品およびサービスには多数のミックスアンドマッチオプションがあり、監督者はそれらの承諾、組み合わせ、価格設定、およびその他の要因に関する統計をレビューする。ビジネス情報システムは、一般に、分析を提供し、一貫性またはコンプライアンスを確認し、レポートを導き出し、および/または他のビジネスプロセスをサポートし、これらのすべては、本明細書に記載されているチャンク情報の使用によって促進できる。
【0037】
一般的に、チャンクおよびそれらが提供する情報は散文テキスト全体に散在し、手動で抽出され、スプレッドシート、データベース、または他のシステムに手動で入力される。以前は、契約書、電子メールなどに書かれている自然な人間の言語の柔軟性、および同様に可変のレイアウトおよび表現規則を理由に、重要なチャンクを無数の様々な方法で表現できるため、手動作業が必要である。このようなドキュメントの基礎となる交渉はまた、多くの場合、電子メール、会話からのメモ、スライドプレゼンテーションなどを含む、複数の種類のドキュメントにわたって散在する。その情報はまた有用であり得るが、通常は手動で対処される。いくつかのシステムは、そのような情報ソースをドキュメントとして扱い、既に説明されている同じ利点を獲得し得る。
【0038】
いくつかの実装形態は、本明細書に記載されるように変換されて階層的に意味的にラベル付けされたドキュメントになると、特定のドキュメントの実行をコンピュータが開始する手段を提供し得る。ドキュメントの階層的にラベル付けされた構造を、テキストのベクトル-セマンティック表現を提供するツールと組み合わせることにより、特定のチャンクを特定のアクションが必要であると識別できる。例えば、契約は、送金、通知、または他のアクション、およびそれらを有効にするまたはトリガする条件を指定し得る。これらは特定され、契約の実行を開始するために使用できる。
【0039】
いくつかの実装形態は、「ダッシュボード」などのインターフェース内のドキュメントセットからの情報をレビューおよび要約し、識別された情報を顧客のバックエンドデータベースまたは同様のシステムに移動し、より効率的でより低い価格のビジネスデータの流れを可能にし、品質保証、一貫性、およびレポートを強化するための簡単な方法を提供し得る。チャンクが意味的にラベル付けされると、カウンターパートチャンクを含むドキュメントのセットにわたってサマリーレポートを生成することが容易になる。いくつかの実装形態は、ユーザがそのようなレポートを作成するための非常に簡単な方法を、含まれるべきチャンクの1つまたは複数の例を単にクリックすることによって提供し得る。これは、次いで、セット内のすべてのドキュメントにわたって役割またはコンテキストによって位置付けられるおよび抽出される。いくつかの実装形態はまた、予期されるカウンターパートチャンクを欠くドキュメントを発見し、そのようなチャンクを含むまたは識別するようにそれらを修正するか、またはそれらが正しくそれらを含まないことを確認する際に、ユーザを支援し得る。
【0040】
別の様態では、企業または部門などの所与のグループのパフォーマンスは、チャンクのセマンティックロール、発生のパターン、ならびにそれらのドキュメントの他の特性およびそれらのユーザのフィードバックなどの情報を、システムの学習プロセスに組み込み、結果として得られた改善されたモデルを使用して、将来のドキュメントを強化および/または確認することによって、強化されることができる。しかし、多くの顧客はそのような情報を他の顧客と共有することを望んでおらず、多くは拘束力のある機密保持要件を有している。一方、公的な非機密ソースから導出された一般的な情報および学習は、自由に使用および共有できる。
【0041】
いくつかの実装形態は、各顧客のデータおよびそれから導出された任意のモデル情報を各顧客に対して別個かつプライベートに保持しながら、秘密でない公開データに基づく一般的な学習を依然として共有しながら、フィードバックおよび学習の利益を提供し得る。これらのデータプロセスを個別に保持することは、統計的にも、情報がある顧客から別の顧客へ「漏れる」可能性が無いことを確実にする。
【0042】
例示的な実施形態の紹介
以下は、例示的なシステムの説明である。図1を参照する。このシステムは、概して、階層的に意味的にラベル付けされたドキュメントのAI自己管理作成のための、および/またはそのようなドキュメントの支援されたオーサリングおよび処理のための方法および装置に関する。これは、構成、構造化、注釈付け、変更、レビュー、ドキュメントからデータを抽出、および/またはダウンストリームビジネスプロセスにおいてそのようなデータを使用するなどのプロセスを含む。より具体的には、比較的小さなセットを含むドキュメントのセットにわたって、主に教師なしおよび自己管理機械学習技術を使用して、それらの役割に関連付けられた、多くの意味的に意味のあるチャンクで構成されるドキュメントの詳細な階層構造を発見することにより、以前のドキュメントと同様のドキュメントに、およびビジネスプロセスにおけるそのような高度に強化されたドキュメントの使用に、焦点を当てている。
【0043】
この例示的なシステムの動作は、以下のプロセスを使用し、これらは以下のセクションでより詳細に説明される。これは単なる例に過ぎない。他の実施態様は、ステップを省略すること、他のステップを追加すること、およびいくつかのステップの順序を変更することを含む、ステップの異なる組み合わせを使用し得る。これらはまた、各ステップの下に記載される技術の異なる組み合わせを含む、以下に列挙されるステップの異なる実装形態を使用し得る。図1において、ステップの前に「S」があり、以下のステップ1は「S01」とラベル付けされている。
1)インポート:ユーザのドキュメントのグループをデータストア110にもたらす。
2)編成:ドキュメントを、レンタル対販売契約書、または医療履歴対現在の臨床ノートのような、タイプ別にドキュメントセットに分ける。
3)ビジュアル抽出:そのコンテンツおよびビジュアルレイアウトに少なくとも基づいて、各ドキュメントから線状のテキストストリームを抽出し、これは、個別のテキストおよび他のエリア、その開始および終了の位置、フォーマット、およびコンテンツに関する限られた情報を含む。抽出されたデータは、幾何学的レイアウトによって区別されるパラグラフなどの、「ビジュアルライン」として、または「ビジュアルブロック」(「ハイパーライン」または「ビジュアル」チャンクとも呼ばれる)として編成され得る。
4)構造:ドキュメント内の見出し、リストアイテム、および他の構造チャンクの大まかなクラスを識別する。
5)再ネスト:セクションおよびリストのネスト関係、およびそれぞれのテキストの範囲を決定する。
6)トピックチャンキング:各ドキュメントのトピックコンテンツを分析し、同様のトピックのエリアを囲むチャンク(トピックレベルのチャンク)を作成する。
7)トピックラベリング:
i)埋め込みおよびクラスタリングを使用して、コーパスの各見出しに対する候補データタイプおよびセマンティックロールラベルを作成する。
ii)キーフレーズ抽出技術を使用して、チャンクに対する候補データタイプおよびセマンティックロールラベルを作成する。
8)チャンクラベリング:複数の方法、例えば、ニューラルネットワーク、単語および文字の埋め込み、文法分析およびパターンマッチング、正規表現、類似性メトリクス、および/または他の方法を使用して、ドキュメント全体を通して他のチャンクにデータタイプおよびセマンティックロール候補を識別し、割り当てる(おそらく複数)。特定の実施形態に対して特に興味深いのは、以下のことである。
i)結果の構造上の文法解析およびパターンマッチング
ii)小さなチャンクをドキュメントでそれらが果たす特定のセマンティックロールと結びつけるための質問応答技術の使用
iii)XPathツリーマッチングと単語埋め込み技術を組み合わせて、言い回しおよび単語の選択が大きく異なる可能性があるにもかかわらず、構造および文法ツリーのパターンをマッチさせる。
9)名前付きエンティティ認識(NER):ドキュメント全体にわたって名前付きエンティティとして検出されるデータタイプを識別し、チャンクに割り当てる。
10)役割ラベリング、抽出ラベリング:名前が契約の「売り手」当事者を構成していること、または薬物がアレルギー対処方箋として言及されていることを表すような、セマンティックロールラベルをチャンクに割り当てる。
11)異常:検討中のドキュメントセットのドキュメントに通常存在する、または存在しないが、現在のドキュメントにはない(またはその逆)、セマンティックロールを特定する。
12)調停(Arbitration):チャンクの代替スコープ、データタイプ、およびセマンティックロールラベルを調整および/または選択し、XMLなどのフォーマットにおいて容易に表現可能な整形された構造を生成する。
13)DGML:ドキュメントの強化されたバージョンを作成し、これは、チャンクの位置、データタイプ、およびセマンティックロールラベルの明示的な識別情報、ならびに、場合によっては、それぞれの識別されたチャンクの信頼レベル、類似のチャンクにおいて期待されるデータタイプ(日付、日付範囲、個人名など)などの追加情報も含む。強化されたバージョンは、DGMLと呼ばれるXMLベースのマークアップ言語を使用して作成される。
14)フィードバック:強化されたバージョンをユーザに表示し、チャンク(およびおそらく省略されたチャンクの潜在的な位置)を選択してユーザを表示し、確認、拒否、または他の変更を行うためのユーザの選択を収集する。ユーザはまた、それらの独自の読み取りおよびレビューの順序を自由に選択できる。フィードバックはまた、ステップ(2)で説明されているように、ドキュメントをドキュメントセットの編成など、システムが行った任意の他の解釈に適用できる。
i)おそらく省略されたチャンクのケースでは、他のドキュメントから優先順位付けされた例を提供され、これは、必要に応じて現在のドキュメントを検査および/またはコピーし、より小さなネストされたチャンクにターゲットドキュメント値を適用することによって自動的にカスタマイズできる。
15)フィードバック応答:これらのインタラクションに対するユーザの応答を追跡し、その情報を使用してモデル120を微調整し、ならびに後に同じまたは同様のエラーを繰り返すことを防ぐ。
16)ダウンストリーム通信、送信:タイプおよび/またはロールごとにチャンクを選択し、それらを使用してドキュメントセットを介してレポートを生成し、および/またはバックエンド契約データベース、規制コンプライアンスチェッカー、管理レポートジェネレーターなどの機能を追加するダウンストリームシステムにそれらをエクスポートする。
【0044】
図2は、上記のプロセスを通じて、異なるドキュメントセット1から7の処理を追跡するダッシュボードを示すスクリーンショットである。このダッシュボードでは、プロセスは次のステージに分けられる。
・アップロード(Uploading)
・前処理(Preprocessing)
・大きなチャンクをレビュー(Review Large Chunks)
・小さなチャンクをレビュー(Review Small Chunks)
・使用する準備ができている(Ready to Use)
カラーコーディングは完了の度合いを示す。緑のステージは完了であり、赤のステージは処理中であり、黒のステージはまだ開始されていない。
【0045】
上に列挙されたステップのそれぞれは、以下により詳細に説明される。
【0046】
例示的な実装のさらなる説明
ここでの番号付けは、この特定の例の分析の一般的な順序を反映している。しかし、すべてのステップがすべての前のステップに依存するわけではなく、結果として、多くの要素は、他の実装形態において並べ替えまたは並列化できる。要素はまた、シフトする、または繰り返して、追加情報を他の要素と交換できる、または要素は、別々のプロセスまたはマシンなどで独立して実行できる。
【0047】
1)インポート
システムは、典型的なワードプロセッサドキュメント(MS Wordなど)およびページレイアウトドキュメント(PDFまたはpngファイルなど)を受け入れる。それぞれのケースにおいて、見出し、段落、テーブルセル、テーブル、画像などの視覚的に隣接する領域は、それらの相対位置、周囲の空白、フォントおよびレイアウトの特徴などの組み合わせを使用して、チャンクとして識別され、表現される。これらの特徴は、デザイナーによって部分的に選択され、多数のドキュメントの画像およびパターン分析によって部分的に学習される。機械で読み取り可能なテキストコンテンツがすでにない入力ドキュメントについては、OCRも適用される。
【0048】
これらのチャンクは、選択されたレイアウト情報とともに、システム内の後のモジュールに提示される。
【0049】
2)編成
ユーザは、彼らがシステムにチェックインするドキュメントを編成する必要は無い。システムは、テキストコンテンツ、レイアウト情報、および既に検出された構造情報(いくつかの見出しの識別など)で動作するクラスタリング方法を使用して、ドキュメントを特定のタイプのドキュメントの「セット」、例えば、レンタル契約対リース対販売、にグループ化する。見つかった特定のドキュメントセットは、ユーザに確認されることができ、自動的にまたはユーザによってのいずれかで名前が付けられる。確立されると、これらのドキュメントセットは、フォーマット、コンテンツ、セマンティックロール、およびそれらの差についての後の機械学習および推論を容易にする。例えば、システムは、所与のセット内のほとんどすべてのドキュメントが、特定の役割の3つの特定のサブチャンクおよび個人名のデータタイプを有する特定のセクションを有し、そのうちの1つが5つの異なるセクションで再現されることを発見し得る。そのようなパターンを使用して、他のドキュメントの類似(および類似しない)部分を識別するのを支援し、ユーザにレビューまたは変更を提案し、同じ(またはおそらく異なる)セット内の他のドキュメントにおいて再利用するテキストの例を提供する。
【0050】
ドキュメントをドキュメントセットにクラスタリングすることは、ドキュメントの構造(さまざまなサイズ、データタイプ、および役割のチャンク間の順序および包含の関係)およびレイアウト、ならびにテキストコンテンツからの特徴を使用できる。いくつかのチャンクおよび/または役割が少なくともいくつかのドキュメントで識別されると、その情報を使用して、完全に再クラスタリングすることによって、またはより小さな調整によってのいずれかで、クラスタリングを改善することもできる。例えば、売り手および買い手の名前、住所など、同じ役割を持つチャンクの特定のコンテンツを無視すると、または、異なるチャンクの出現パターンが同じである、例えば、ある名前(例えば、売り手の名前)が特定の場所に表示され、一方で、別の名前(例えば、買い手の名前)が特定の他の場所に表示されることを確認すると、類似したドキュメントがほぼまたは完全に同一にさえなり得る。
【0051】
システムは、ディレクトリ(もしあれば)へのアップロードされたファイルの元の編成と、セットへのそれらの独自の編成の両方を、維持する。したがって、ユーザは両方の編成を観ることができ、学習アルゴリズムは両方を情報として使用できる。例えば、一部のユーザは、様々な規則に従ってドキュメントに名前を付ける、および/または顧客、ドキュメントの種類、または他の特徴によってドキュメントを編成し、これは、ほぼ常に類似のパターン(共通のチャンクの位置および役割を有するような)およびドキュメント間の関係を理解するのに有用である。
【0052】
3)ビジュアル抽出
i)エリア検出
このシステムは、ヒューリスティックおよび機械学習を使用して、幾何学的パターンに基づいてドキュメント内の領域を識別する。例えば、多くのドキュメントにおいて、意味のあるチャンクは、署名ブロック、抽象、定義のリスト、テーブルなどのような特別なレイアウトを有する。そのようなパターンを、幾何学的および/またはレイアウトの特徴、一意性または希少性、および/または同じドキュメント内またはドキュメント間のいずれか、特に同じドキュメントセット内での対応を考慮することによって、自動的に学習できる。
【0053】
アプローチは、入力ドキュメントのフォーマットに応じて選択される。例えば、ワードプロセッサドキュメントは一般的に段落の境界に関する明示的な情報を提供するが、PDFまたはスキャンされたページは、システムがそれらをビジュアルラインから組み立てること、または空白の寸法を分析して、ビジュアルラインに文字(複数列のドキュメントなど)を割り当てることさえ要求する。
【0054】
ii)署名の検出
システムは、ドキュメントパーツの署名(「ダイジェスト」としても知られている)を作成し、これらを使用して「興味深い」追加のチャンクを識別および分類し、その境界を検出する。署名は、単にテキストコンテンツにだけでなく、コンテキストの様々な態様にも基づいており、より小さな含まれるチャンク(例えば、カウンターパート内のコンテンツが変化するフィールドチャンク)のコンテンツを無視し得る。
【0055】
署名は、チャンクのピクセル表現さえ使用し得る。テキストレイアウトのビットマップイメージは、タイル、好ましくは24ピクセル四方の(スキャン解像度の調整された)オーダー上のサイズ、に分割され、タイルはクラスタ化さている。オートエンコーダおよびその隣接関係を含むこれらのニューラルネットワーク処理は、テキストとルール、テキストブロックのエッジとコーナー、さらにはインデントの変更と実質的なフォント/スタイルの変更、との間の境界などの同様の視覚的イベントを明らかにする。さらなるニューラルネットワークは、次いで、このクラスタリングを使用して、類似のレイアウトオブジェクトを共同識別し、これは、重要なチャンクを頻繁に示すまたは特徴付ける。
【0056】
ここでのアプローチは、ドキュメントチャンク内のピクセルならびに文字、チャンクのサイズ、ドキュメント内のその位置などに基づいてドキュメントチャンク埋め込みを生成するために教師なしアプローチを使用し得る(注記されるように、画像はチャンクであることもできる)。次いで、クラスタリングおよび比較の技術は、多くのダウンストリームタスクのためにこれらの埋め込みに対して使用できる。
【0057】
iii)抽出
この態様は、レイアウト後のドキュメント(例えば、PDFまたはスキャンされた印刷ページ)を取り、ドキュメント内の認識された文字画像(「グリフ」)を、グリフの正しいドキュメント順序を表すテキストストリームに変換する(ストリームは、適切な場合、図または画像オブジェクトをも含み得、読み取り順序において、典型的な場所を有さない脚注またはページヘッダなどの複数のストリームが存在できる)。一部のドキュメントでは、読み取り順序の不完全な明示的な表現がある。よく知られている例は、通常、任意の所与の点において複数列レイアウトが有効であるという表示がなく、したがって、第1の「線」は、全体ではなく、半分(またはそれ未満)にわたってのみ延在するというものである。しかし、テキストの順序が複雑または不明確であり得る多くの追加の例がある。例えば、いくつかのレイアウトプログラムは各文字を個別に描画し、単語の境界は不明確となる。テーブルセル、サイドバー、図、脚注、および他の表示は、テキストの順序に明確な位置を有し得ない。ページヘッダおよびフッタ(ならびに行の終わりのハイフン)におけるようないくつかのテキストは、テキスト順序における場所を全く必要とし得ない。多くのフォーマットは、何かがそのような特別なカテゴリーにあるという明確な表示を提供しない。
【0058】
システムは、グリフの視覚情報(位置、スタイルなど)を、テキストストリームを構築するためにドキュメント内で使用される書かれた言語の特性を理解するディープニューラルネットワークと組み合わせることによって、このタスクに対処する。さらに、これは、行、ブロック、列、画像、インラインフォント変更、およびヘッダ/フッタオブジェクトなどの多くの基本的なテキスト境界を検出する。
【0059】
iv)表現
テキストシーケンスおよびいくつかの仮定された構造チャンクを抽出すると、システムは、それらならびに視覚的特徴(フォント、色、サイズなど)に関する情報を含むドキュメントの表現(一例では「DGML」として知られている)を作成する。その位置、タイプ、役割などの情報を含むチャンクの表現は、「注釈」と呼ばれる。組み合わされたデータは、次いで、自然言語処理(NLP)およびディープニューラルネットワーク(DNN)によって使用できる。ディープニューラルネットワークはこの視覚情報を組み込み、ヘッダ/ボディ、リスト/リストアイテムなどのチャンクを含むドキュメント構造を表す階層にドキュメントを構造化するのを支援する。
【0060】
後の態様が元のソースによく似た編集可能なワードプロセッサドキュメントを構築できるように、十分な情報を含むことができる。これを、他の構造、コンテンツ、およびチャンク情報とともに、DGMLまたは同様の表現に含むことができる。多くのケースで、明確なフォーマットおよびレイアウトを持つドキュメントの部分はまた有用なチャンクである。しかし、別様に必要とされるチャンクと一致しない(およびその逆)フォーマット特性は、依然として、特別なタイプのチャンクを介して、スタンドオフ注釈を介して、または他の方法を介して表現できる。
【0061】
4)構造
構造パイプラインは、平坦なテキストファイルを階層構造に変換し、セクション、サブセクション、およびドキュメントの他の部分は、当業者に知られている構造であるコンテンツベースオブジェクトの順序付けられた階層を形成する。この変換は、教師なし機械学習技術を使用して行われる。この方法はいくつかのステージを有する。
【0062】
i)ハイパーライニング
これは、テキストを「ハイパーライン」にセグメント化することを含み、これは、ビジュアルラインよりも大きなグループであり、段落、見出し、または同様のものなどのより意味のある論理的な(ビジュアルとは対照的に)単位を備える。これは、トークン(特に先頭および末尾のトークン)の「単語形状」などの特徴、フォントおよびスペーシング特性などのレイアウト情報、ならびに類似の特徴を考慮する事前にトレーニングされたニューラルネットワークを使用して達成されることが好ましい。いくつかのハイパーラインは、以前のステップでも提供され得る(入力ドキュメントのフォーマット応じて)。
【0063】
ii)ドキュメント言語モデル
これは、単にテキストに基づく言語モデルの代わりに、テキストコンテンツ、フォーマッティング、およびこれまでに発見された構造に対する情報をも含むドキュメント言語モデルを使用することが好ましい。これは、フォーマットされたページから意味のあるチャンクおよびそれらの発生のパターンを認識するための学習により、チャンクおよびそれらの階層(ヘッダ/ボディ、リスト/リストアイテムなど)のより良好な検出を可能にする。
【0064】
これは、テキストコンテンツおよび視覚的特徴(ジオメトリ、フォント、色、サイズなど)の両方を含むドキュメントの表現を作成する。次いで、ディープニューラルネットワークおよびNLPプロセスは、ドキュメント構造を表す様々なサイズのチャンクの範囲および/または境界を検出することによって、データタイプおよびセマンティカルロールラベルを有するチャンクの階層内にドキュメントを構造化するタスクにおいてそのような情報を利用する。このステージでは、発見されたチャンクは、主に見出し、セクション、リストおよびアイテム、テーブル、図、および他の比較的大きな単位である。
【0065】
iii)ハイパーラインクラスタリング
これは、単語形状構造に基づいてドキュメントセットにわたってハイパーラインをクラスタ化するためにオートエンコーダを使用し、各ハイパーラインを、レイアウト、開始および終了コンテンツ、ならびに他の特性に関して類似するハイパーラインのクラスタに割り当て、各クラスタは「クラスタID」によって識別される(これは、ドキュメントセットの作成または識別と混同されるべきではない)。
【0066】
iv)インライン見出し
特に興味深い特別なケースは、「インライン見出し」であり、チャンクの見出し(チャンクのセマンティックロールを提供することがある)は、それ自体が別々の視覚的行にあるのではなく、以下のテキストの開始と同じ行にある。一般的に、インライン見出しは、太字、下線、異なるフォント、後続のコロン、またはその他の効果などによってタイポグラフィ的に区別される。別個のヒューリスティックおよびニューラルアルゴリズムは、これらのチャンクを識別する。
【0067】
v)少ショット構造学習
上記の高度な構造化方法にもかかわらず、生成される構造は、特定の不完全性を有する、またはユーザの先行的な期待を満たさないことが予想できる。少ショット構造学習は、ステップ(14)乃至(15)で説明したように、ユーザによって提供されるフィードバックに依存して機械学習モデルを作成することに対処する。次いで、このモデルを使用して、構造に関するユーザフィードバックと、システムによって既に生成されているものとを組み合わせた構造を生成する(おそらく、以前のフィードバックによって反復的に強化される)。
【0068】
このケースに適用される主な原理は、シーケンスが別のシーケンスに変換される機械翻訳(MT)方法から導出される。このケースでは、ハイパーラインを記述する1つのシーケンスは、階層をエンコードする開始/終了マーカも含む別のシーケンスに変換される。
【0069】
このプロセスは、さまざまなフェーズまたはステップで行われる。
(a)最初に、機械翻訳モデルが、公的に利用可能なデータセットを使用して事前にトレーニングされる。
(b)「ディスパッチャ」(説明については「フィードバック応答」のセクションを参照)は、ユーザフィードバックをフィルタリングする。
(c)新しい構造ファイルがユーザフィードバックから生成され、微調整機械翻訳データセットが生成される。
(d)事前にトレーニングされたモデルはさらに、少ショット学習原理を使用してトレーニングされる。
【0070】
5)再ネスト
この態様は、好ましくはハイパーラインクラスタリングステップからのクラスタIDのフラットリストが与えられると、プッシュダウンオートマトンを使用してネストされた構造を反復的に作成する「コーパス再ネスト」アルゴリズムを使用する。隣接するハイパーラインの署名を比較することによって、システムは、所与の見出しまたはリストアイテムが、より多く、等しく、またはより少ないネストされたレベルに属するかどうかを決定できる。これは、多くのドキュメント(チャプター、セクション、サブセクション、句、リストなど)の多重ネスト階層構造を再構築することを可能にする。
【0071】
再ネストで考慮される特徴は、特に最初および最後を考慮した、ハイパーライン内のトークンの「形状」(NLP技術で知られている)、前の行を終了する句読点の特定のクラス(存在する場合)、キャピタライゼーション、先頭の空白、インデント、太字、下線などのフォーマット情報、行の先頭にある列挙文字列(例えば、「IV(A)(1)」または「iv)」などのパターン)、または特定の弾丸やその他の絵文字の存在および形式、その列挙子の値、同じ種類の先行する列挙子の存在、レベル、および値など、を含む。
【0072】
6)トピックチャンキング
この態様は、ドキュメントの連続したチャンクにわたって語彙統計および他の学習技術を使用して、トピックがどこでシフトするかを検出する。これは、所与のトピックに関するセクション全体などの大きなチャンクの境界の識別を強化し、その理由は、セクション(どのようなレベルであっても)は、一般に、隣接するセクションよりも、その中でトピック、語彙、およびスタイルの均一性が高いからである。
【0073】
7)トピックのラベリング
i)見出しラベラー
図1に示すように、コーパス内の各ヘッダについて、このステップは
・各見出しの「埋め込み」として知られる数値表現を作成し、
・それらの埋め込みに少なくとも基づいて見出しをクラスタ化し、
・密度、アーティリティ、類似性のレベルなどの尺度に少なくとも基づいて、「悪い」クラスタを除外し、
・それぞれの残りのクラスタ内の最も一般的なセマンティックロールラベルを、前記クラスタ内のすべての見出しに伝搬する。
【0074】
ii)キーフレーズラベラー
各チャンクについて、このステップは、キーフレーズ抽出技術(ルールベース言語技術、ML、統計、ベイジアン、および/またはその他など)のアンサンブルを使用して、テキストの候補セマンティックロールラベルを生成する。
【0075】
8)チャンクラベリング
i)文法
システムのこの態様は、スピーチタグ付けの一部、依存関係解析、構成要素解析、および他を含む自然言語処理タスクなどのテキストの言語学的分析から始まる。次いで、このシステムは、別のドメインからのツリーマッチング機構を適用して、NLPを介して発見されたツリーまたはツリー状構造内の文法的なおよび他の構造を位置付ける。これらは、XPath、GATE、および他のツールによって例示されるように、ツリー文法およびツリーパターンマッチングなどのドキュメント構造化方法を含む。
【0076】
そのようなパターンを使用してセンテンスにおける文法上の現象を識別することは、システムがテキスト自体からセマンティックロールラベルを抽出することを可能にし、これは次に近くのチャンクに注釈を付けるために使用される。例えば、センテンスの構成要素構造に基づいて、センテンス「以下は、我々の合意の用語である」(および類似の文法構造を有する他のセンテンス)と一致する検索パターンを構築し、次いで、名詞句(この例では「用語」)を抽出し、それを、このセンテンスに続き、そのような「用語」を含むコンテンツ内の1つまたは複数のチャンクのセマンティックロールラベルとして使用できる。
【0077】
ii)質問応答
質問応答のためのBERTを含む質問応答技術は、候補チャンクのセマンティックロールラベル(例えば、日付、人名、ドル額)を識別するように特別に調整される。対照的に、ほとんどの従来の質問応答モデルは、「有効日は何か?」のような質問に応答することを目的とする。このシステムは、代わりに、「2018年7月8日は何か?」のような質問に答えるようにモデルをトレーニングし、「有効日」または「Xの有効日」を予測することを目的とし、Xは、テキスト中の別のチャンクを表す(単なる「日付」ではなく、これは、セマンティックロールではなくデータタイプである)。
【0078】
このシステムはまた、回答されたときにテキスト中の関連情報を指し示すことができる総合的な質問を発見する。これは、質問応答によって使用されるべき質問を自動的に提示する能力を提供する。
【0079】
iii)埋め込みと統合されたXPathのようなルール
ここで、「文法」の下で説明されているドメイン内のツールは、word 2 vec、char 2 vec、および多くの関連する方法などのテキストのベクトル-セマンティック表現を提供するツールと統合されている。このシステムは、アナリストが、XPathおよび類似のツールによってうまく処理される構造情報(XMLまたはDOM互換形式で表現されるチャンクのデータを含むことができる)と、ベクトルモデルによってうまく処理されるファジーまたは「意味論的」類似性情報との両方を含む、パターンを表現およびクエリすることを可能にする。
【0080】
9)NER(ラベル付けされていない小さなチャンク)
技術は、個人または企業名、住所などのデータタイプによっていくつかのチャンクを識別できる(これは「名前付きエンティティ認識」または「NER」として知られている)。しかし、NERはドキュメント内のこれらのエンティティのセマンティックロールを識別するのにかなり不足している。現在の技術はまた、句またはセクション全体などのより大きなチャンク、または意味のあるまたは有用なより大きなチャンクを含むチャンクのグループを識別することに失敗する。
【0081】
システムのこの態様は、必ずしもそれらに役割を割り当てることなく、興味深い小さなチャンクを検出する。テキスト内のNERを識別するための多くの方法およびツールが存在する。このシステムは複数の方法を使用し、その例を以下に列挙する。これらの発明は主に教師なしである。
【0082】
i)確立されたNER法
ii)予想される単語
ウィキペディアなどの広範な一般的なテキストを使用してnグラムの言語モデルをトレーニングすることによって、「通常の英語に対してコンテキストにおいて予想される単語」のモデルを構築する。特定のドキュメントを見るとき、システムは、その一般的なモデルに適合せず、したがって、処理されているドキュメントに特有である傾向があるnグラムを識別するための手段を提供する。
【0083】
iv)TF-IDF
これは、TF-IDFベースのアプローチ(「用語頻度対逆ドキュメント頻度」)であり、ラベル伝播およびコンテキストセマンティックラベリングと併せて使用される。
【0084】
v)シーケンスクラスタリング
nグラムなどの小さな単語または文字シーケンスを抽出し、それらをコンテキスト埋め込み(例えば、BERTのもの)を使用してクラスタ化する。予想される結果は、意味論的意味を共有するnグラムが一緒にクラスタリングを開始することである。組み合わせエクスプロージョンのコストは、ヒューリスティック(構文ツリー上を含む)を使用して、クラスタリングの前にいくつかのnグラムをフィルタで除外することによって対処される。多種多様なクラスタリングアルゴリズムが適用され得る。この例では、hdbscanアルゴリズムは、「none」クラスタにランダムノイズを割り当てながら効果的なクラスタリングを達成する。
【0085】
vi)少ショットNER
システムは少ショット学習技術を使用して、少数のラベル付けされたインスタンス(例えば、選択的なユーザフィードバック)から、学習されたパラメータのより広く適用可能なルールまたは調整までを一般化する。これは、ユーザにフィードバックを求めなければならない回数を大幅に削減し、システムのパフォーマンスをより迅速に向上する。
【0086】
10)抽出ラベリング
システムのこの側面は、チャンクを囲むセンテンスに直接現れる小さなチャンクのセマンティックロールラベルを検出する。意味のあるチャンクは、しばしば、コンテキストによって何らかの形で指定された役割を有する。例えば、以下である。
ジョン・ドゥ(「売り手」)は、…に住んでいる。
毎月の終わりまでに999ドルの賃料を支払わなければならない。
【0087】
i)コンテキストセマンティックラベリング(CSL)
このプロセスは、センテンスの解析を含む以前に構築された構造上で動作するニューラルネットワークを使用して、テキストのどの部分が様々なチャンクのセマンティックロールラベルである可能性があるかを学習する。多くのチャンクは、さまざまなソースおよび信頼レベルを備えた、そのようなラベルを既に有し得るが、これは、それらについてのまたは対する追加の証拠、ならびに新しいラベルを提供する。ここでのパターンのいくつかは文法を伴う。例えば、「ドゥは、毎月の最終営業日までに$1000の賃料を支払うものとする」において、主要動詞は、通貨額の役割が何であるか、すなわち、それが支払われるべき賃料であること、を明らかにする。他のパターンは、構造、チャンキング、ラベリング、およびコンテキスト内で利用可能なコンテンツの特徴を使用して、教師ありおよび/または教師なしの方法によって自動的に学習される。括弧、テーブルレイアウト、キーフレーズおよび単語、ならびに他の特徴などのフォーマットはまた、ニューラルネットワークの特徴を提供する。
【0088】
有用な情報は、多くの場合、セクションまたはサブセクション、またはその見出しなどを含んでいるチャンクに存在する。例えば、所与の薬が処方箋としてか、アレルギーとして関連しているかどうかは、含まれるセクションの見出しを見ることによってのみ検出可能であり得る(これは、セクションの正しい階層ネスティングを検出することが重要である理由の別の例である)。機械学習技術によって学習され、様々なチャンクに適用可能な役割を発見するために適用されることができる他の多くの手がかりが存在する。クロスドキュメントの類似性を使用して、特に同じドキュメントセット内のドキュメントに、同様のコンテキストで発見されたが、孤立したドキュメントでは発見可能ではあり得ないセマンティックロールを関連付けることもできる。
【0089】
ii)ラベル伝播
このプロセスは、ドキュメントのコーパス内のテキストの類似チャンクにわたってラベルを標準化する。これは、コンテキストから抽出されたラベルと、前のステップから利用可能なラベルとの両方に適用される。アルゴリズムは、凝集クラスタリングを使用してチャンクをそれらの埋め込みに基づいてクラスタリングし、重み付きページランクアルゴリズム(初期ノード重みとしてラベルの頻度/信頼度を使用する)を使用してチャンクの各クラスタについて候補ラベルをランク付けし、同時発生および埋め込み類似性を使用してラベルが互いにどのくらい類似しているかを決定する。次に、それらのクラスタレベルのスコアおよび我々がラベル付けしているチャンクが、ラベルの元のチャンクとどのくらい類似しているか(コンテンツ、埋め込み、構造、データタイプ、セマンティックロール、および/またはコンテキストの観点から)に基づいて、チャンクにラベルを割り当てる。凝集クラスタリングおよびページランクアルゴリズムを適用して、類似のコンテキストにわたってラベルを伝播させ、ドキュメントのセットにわたってラベルをより一貫性のあるようにする。
【0090】
11)異常
システムのこの態様は、ステップ(2)で生成されたようなドキュメントセット内の複数のドキュメントを検査し、現在のドキュメントで発生するが、一般に同じセットの他のドキュメントにカウンターパートチャンクを有していないチャンクを識別し、またはその逆も同様である。カウンターパートチャンクは、同一のコンテンツ、構造、フォーマット、コンテキスト、データタイプ、およびセマンティックロールを有する必要はないが、ひとつのドキュメントから別のドキュメントへのバリエーションを有し得る。それにもかかわらず、それらを、他の識別されたチャンクとそれらの方法において実質的に同様であると認識できる。
【0091】
新しいドキュメントが、同じセットの他のドキュメントに典型的には存在しないチャンクを含む場合、ユーザは、それらが実際に意図されていたことを確認するために、それらのいくつかまたはすべてについてクエリされ得る。この例示的なシステムでは、そのようなクエリは、問題のチャンクが新しいドキュメントとそれが基づいていたもの(もしあれば)とに共通であるが、他のものにはほとんど共通でない場合に、より一般的になる。
【0092】
新しいドキュメントが、同じセットの他のドキュメント、または特に関連する外部ソース(例えば、ハウススタイルのマニュアル、コンプライアンス要件など)においてさえ、通常存在するカウンターパートチャンクを欠いている場合、そのようなチャンクの一部またはすべての例が、他のドキュメントから引き出されたコンテンツとともに、ユーザに提案される。提案は、使用頻度、利用可能な代替案の最も典型的な(重心)、または新しいドキュメントに存在する他のチャンクとの共起の高い可能性を有するような、要因に応じて、ユーザに対してランク付けされ得る。チャンクの提案は、例えば、例が引き出されたドキュメントに固有の名前、日付、および他のサブチャンクを、新しいドキュメントから引き出された値と置き換えるために、自動的に更新され得る。
【0093】
さらに、追加または削除のために提案されるべきチャンクの選択は、異なる著者、編集者、または他のスタッフの実践に有用に依存できる。例えば、現在の著者のドキュメントが特定の手段で別の著者のものと頻繁に異なる場合、その差は考慮された選択であり、エラーではないことを示し得る。一方、同じ監督者の下で働いているすべての著者が何らかの方法を行うが、現在の著者がそれとは異なる場合、それは、少なくとも最初に気付いたときに、レビューの必要性がより高いことを示し得る。
【0094】
異常のモデリングは、構造およびチャンクのデータタイプおよびセマンティックロールならびにコンテキスト、コンテンツ、およびフォーマットを考慮する。例えば、どんなチャンクのデータタイプおよびセマンティックロールが、他の内部、隣接、または近くで発生するかのパターンをモデル化する。十分に確立されたパターンの違反は、異常として分類され、任意の他の異常と同様にユーザフィードバックのために提示され得る。
【0095】
12)調停(Arbitration)
多くの前のステップは、ステップ(3)で生成された線形シーケンス内の文字、トークン、および/または非テキストオブジェクトの範囲として定義された(典型的には、必ずしも連続ではないが)ドキュメントのチャンクを作成および/または動作させる。
【0096】
任意の時点で検討されているチャンクを、マークアップなどの「インライン」メタ情報、または様々な種類のポインタによってテキスト内の位置を指す「スタンドオフ」表現のいずれかによって表現できる。この例では、スタンドオフ表現は、ほとんどの処理に使用されるが、インライン表現は、しばしばそれを好む外部ツールとの通信などのいくつかの目的に使用される。これらのおよび他の表現は機能的に交換可能であり、それらの間の選択を、パフォーマンス、利便性などの関係によって管理できる。
【0097】
チャンクの表現は、それらを作成したステップまたは実装、それらがどのように確実であるか(「信頼レベル」)、ならびにそれらの特定のデータタイプおよび/またはセマンティックロールラベルに関する情報を含む。冗長、不確実、競合、または部分的に重複するチャンクが頻繁に生じ得、これをここでは「非最適」と呼ぶ。例えば、2つまたは複数の異なるプロセスは、セマンティックロールラベルをテキストの同じスパン(またはほぼ同じスパン、例えば、名前の前に「博士(Dr.)」を含むもの、およびそうでないもの)に張り付けさせ得る。チャンクは、時には深く、ネストされ得るが、任意に重複もし得る(すなわち、重複するチャンクの各々が、他方にもあるいくつかのコンテンツ、およびそうではないいくつかを含む)。上記のステップを通じて、システムは、重複または同じ場所にあるものを含む、多数の注釈を表すことができる表現を維持し得る。
【0098】
そのような非最適なチャンクは、通常、少なくともドキュメントがユーザに提示されるときには望ましくない。さらに、多くの最先端のNLPツールには、XML、JSON、SQL、および他の表現システムなどの当業者によく知られている多くのドキュメントツールおよび方法と同様に、重複しない構造が好ましい。より制限された構造が通常好ましく、しばしば「階層的」または「よく形成された」と呼ばれ、部分的に重複するチャンクを回避する。
【0099】
システムのこの態様は、チャンクの集合を厳密に階層化する、および非最適なチャンクを回避するように修正する。これは、複数の手法で達成できる。第1に、チャンクを完全に削除できる(つまり、チャンク自体、それらが識別したドキュメントコンテンツは削除されない)。第2に、チャンクスコープを変更して(例えば、いずれかの端から1つまたは複数の文字またはトークンを含むまたは除外することによって)、別のチャンクとの重複を防ぎ得る。第3に、チャンクは、冗長であると決定され、マージされ得る。第4に、チャンクが矛盾していることが検出され(例えば、1つのツールが「エセックス」を場所、1つを人と考えた場合)、選択が行われ得る。
【0100】
このプロセスは、部分的および/または完全な重複のケースを迅速に検出し、タイプ、役割、および信頼性によるチャンクを比較し、およびチャンクおよびそれらの関連データを修正することによって非最適なケースを解決する手段を含む。どのチャンクを修正、マージ、または削除するかを選択することは、信頼レベル、所与のチャンクのデータタイプ、セマンティックロール、およびコンテンツの事前確率、セマンティックロールラベル間の下位語、所与のコンテキストにおける条件付き発生確率、現在のおよび他の類似のドキュメントにおける他のチャンクの数、役割、および分布、その時のプロセスの優先度、類似ケースについての顧客フィードバック、および/または他の方法などの、いくつかの因子を考慮する。
【0101】
修正は、チャンクの信頼レベルも変更し得る。例えば、システムのいくつかの態様は、類似または同一のセマンティックロールラベルを、ドキュメントの同じまたはほぼ同じ部分に適用し得る。そのケースでは、ラベルは典型的にはマージされ、結果として生じるチャンクは、それが包含する個々のチャンクよりも高い信頼性が割り当てられる。他のケースでは、矛盾したチャンク割り当ての間で選択が行われるが、選択されたチャンクは、あるレベルの反証があったことを反映する低下した信頼性で終了し得る。
【0102】
このプロセスは、チャンクの識別とラベル付けの品質と一貫性を向上させ、情報が幅広いツールと相互運用することを可能にし、結果をより簡単におよび信頼性高く分析することを可能にする。先に説明した動作を、終了時だけでなく、いつでも適用できる。例えば、前のステップが何らかのサブタスクのために外部ツールを使用する場合、それは、整形性(well-formedness)への縮小を要求し得る。削除または修正されたチャンクは、代わりに「一時停止」することができ、これは、それらがもはや処理に影響を及ぼさないが、要求に応じて再導入され得ることを意味し、これは、後に最初から前の作業を再現する必要なく、非重複支持ツールのそのような使用を可能にし、処理の柔軟性および速度を増加させる。
【0103】
1つのアプローチでは、すべての重複および/またはすべての非最適なチャンクは、ユーザに示されるドキュメントを生成する前に解決され、それにより、結果は、多くの最新のワードプロセッサおよび他のツールによって使用されるXMLフォーマットなどの階層フォーマット内で容易にエンコードできる。しかし、ユーザフィードバックまたは改善されたアルゴリズム学習などによって、潜在的な後の解決のために特定の場所で複数の重複する可能性のある代替案を維持することも可能である(XMLにおいてさえ)。
【0104】
13)DGML(DocuGami Markup Language)
ドキュメントの強化バージョンは、ドキュメント構造、フォーマット、コンテンツ、および識別されたチャンクを表し、プロセスのどのステップでどのチャンクがどのレベルの信頼度で識別されたかを識別し得る。いくつかの実施形態は、この表現の構文としてXMLを使用するが、幅広い表現は、他のXMLスキーマ、JSON、様々なデータベース、カスタムテキストまたはバイナリフォーマットなどの実質的に同じ情報を含むことができる。
【0105】
このステップでは、ドキュメントおよび検出されたチャンクに関する情報がXML形式に変換され(または「シリアル化」)、他のプロセス、特にフィードバック、編集、レビューに使用されるフロントエンドユーザインターフェースに、およびグループマネージャー、品質管理スタッフなどの他のユーザに概要、統計、およびコンプライアンス情報を提供する「ダッシュボード」アプリケーションに役立つフォーマットに、より簡単に渡すことができる。
【0106】
DGML(Docugami Markup Language)はこの使用のための特定のXMLスキーマであり、これは説明されている情報のすべてを1つのパッケージに収容する。ほとんどの以前のスキーマは、構造、コンテンツ、時には、レイアウトを扱い得るが、ここで説明されているように抽象的に「チャンク」に注釈を付けることはない。多くの以前のスキーマはまた、特に信頼レベルおよび由来情報(provenance information)と共に、チャンクを自動的に検出し、オンザフライで表すことができる一般化されたメカニズムを提供しない。
【0107】
また、一部のワードプロセッサおよび他のツールのファイルフォーマットを用いて、同じ情報をそのフォーマットに対して透明なフォーマットで表現することによって、それを「トンネル」することも可能である。例えば、ツールが、埋め込まれたコメントまたはメタデータ、「見えない」テキスト、無視可能な属性、または他の同様の特徴をサポートする場合、本明細書に記載される情報をそれらの中に隠し、結果として生じるドキュメントをそのツールで使用する、場合によっては変更する、ことを可能にし、トンネルされた情報がまだ利用可能である状態でシステムに戻されることができる。
【0108】
14)フィードバックモードフロントエンド
すでに説明した方法でドキュメントおよびその検出されたチャンクに添付された広範な注釈および分析は、サンプル、テンプレート、または以前のドキュメントの編集を通じてユーザを誘導し、現在のニーズに合わせてカスタマイズされた類似しているが新しいドキュメントを作成することを実現可能にする。例えば、このシステムは、通常、契約の対象となる当事者および財産、病歴、現在の所見、および臨床ノートの他の特定のセクションに記載されている薬または状態、関連する日付などを識別する。同じドキュメントセットの他のドキュメントも検査することによって、このシステムは、どの事柄が共通でないか、共通であるか、または必要であるかを学習し、したがって、何をレビューおよび/または更新すべきかについてユーザに対して、より有用な推奨を行うことができる。例えば、有効日は、ドキュメントセット内のほぼ全ての契約に存在し得るが、その値はそれぞれ異なり得る。同様に、当事者も変化するが、当事者の種類ははるかに一貫している。
【0109】
i)無誘導フィードバック
ユーザとの相互作用では、システムは第1に、いくつかのドキュメントで検出された(または検出されなかった可能性がある)チャンクに関するフィードバックを要求する。フィードバックのために提示される最初のいくつかのドキュメントは、ドキュメントセットの「クラスタ重心(cluster centroids)」になる。最後のいくつかは、ドキュメントセットの「外れ値」になる。
【0110】
ii)誘導フィードバック
この後、システムは、ドキュメントの選択された部分をユーザに示し、それらに対する現在のまたは潜在的なラベル、それらの範囲などについて尋ねることによってフィードバックを提供するようにユーザを誘導する。
a.「興味深いラベル」は、ページランクベースのアルゴリズムおよび文法および構造モデルによって決定される。これらのラベルのうち、信頼性の低いインスタンスのセットがレビューのために選択される。
b.現在のドキュメントに低信頼度ラベルがもはや存在しない場合、追加のドキュメントに対して同じプロセスを繰り返し得る。いくつかの実施形態では、モデルは、ユーザが提供しているフィードバックに基づいて継続的に更新される。しかし、代わりに、フィードバックを蓄積し、後で、バッチで、および/またはオフラインで適用できる。モデルに対する調整は、次いで、フィードバックのためにその後に提示されるチャンクおよびラベルの選択に影響を与えることができ、いくつかのドキュメントの再分析をトリガし得る。
c.このシステムは、実質的に同じメカニズムを使用して、フィールドおよび構造チャンクについてのフィードバックを求める。1つのアプローチでは、すべてのチャンク検出器は信頼性の推定値を提供し、これを、フィードバックの候補を選択するために他の情報と共に使用できる。
【0111】
フィードバックは、小さい対大きいチャンク、フィールド対構造チャンク、または他の順序で異なるパスで要求され得る。ユーザフィードバック用のユーザインターフェースの例については、図3を参照する。一部またはすべてのチャンクを表示し、ユーザが特定のものを選択して検査し、割り当てられたタイプおよび/または役割、ならびにオプション的に代替を確認することを可能にする。ユーザは、チャンクの境界を移動する、ラベルを選択する、または編集するなどができる。好ましくは、ユーザはまた、特定の変更(ラベルなどへの)がすべての対応するまたは同一タイプのチャンクに適用されることを要求できる。
15)フィードバック応答
i)フリートクエリは、システムが、典型的には複数のユーザからのユーザフィードバックに基づいてプライベートおよびパブリックデータの両方をクエリすることを可能にする方法である。選択された例は、意味的におよび構文的に以前の障害ケースに類似しており、これはフィードバックの値を増加する。
ii)ディスパッチャ。ディスパッチャは、フィードバックから学習できる特定の学習モデル120に戻るいくつかのMLモデルおよび非MLアルゴリズムの組み合わされた出力に関するユーザフィードバックを接続するための方法論である。
【0112】
このシステムは、その出力に対するユーザフィードバックから、および他の学習および非学習モデルの出力に対するユーザフィードバックからモデルを改善することを可能にする。これは、フィードバックを、説明されたいくつかの数値およびニューラルモデルのための増分(「微調整」とも呼ばれる)トレーニングデータとして使用することによって達成される。フィードバックを使用してモデルを改善した後、特定のドキュメントだけでなく、セット内のすべてのドキュメント、またはユーザのすべてのドキュメントさえもが再評価される。したがって、各ドキュメントに対するフィードバックは、すべてのドキュメントについて、チャンク識別、役割の割り当て、構造の発見、およびしたがってユーザ支援を改善できる。この再トレーニングは、図1のステップ(15)からステップ(3)までの点線コネクタによって表される。
【0113】
ドキュメントおよびすべての関連付けられた情報は、ドキュメントのセットの学習および分析(特に、排他的にではないが、特定のドキュメントセット内での)に貢献し、したがって、将来のドキュメントのパフォーマンスを向上せる。例えば、新しいチャンクがセット内の1つまたは複数のドキュメントに追加されると、それは将来のドキュメントで使用(または古いものの改訂)することが可能となり、将来のドキュメントに提案できる。ある時点で、最近導入されたチャンク役割の不在、または最近あまり使用されていないチャンク役割の存在は、異常になり得る。このポイントは、自発的に、またはフィードバック質問に応答してユーザによって、または経時的なカウンターパートチャンクの使用曲線に基づいて自動的に選択できる。例えば、特定の時間より前に作成された1つのセット内のドキュメントには、所与の役割および/またはコンテキストのチャンク(例えば、「除外」セクション)が含まれているものはほとんどないが、後に作成されたそれの大部分またはすべてがそれを有する場合、カウンターパートチャンクの欠如は、新しいドキュメントにおいて異常である可能性が高く、そのようにユーザに有用に提示され得る。
【0114】
16)ダウンストリームコミュニケーション
説明されたようなチャンク情報を有するドキュメントに注釈を付けた後、選択された情報は、データベース、分析ツールなどの外部ビジネス情報システムによって必要とされる特定のフォーマットに変換され、それらのシステムに、直接または自動および/または手動のレビューステップを通じて、渡される。例えば、特定の当事者の名前および住所をデータベース内の正しいフィールドにコピーすることができ、これは、それらが「名前」および「住所」自体としてのみ識別された場合には自動的に行うことができない。ダウンストリームソフトウェアアプリケーションとの統合例については、図4を参照する。この例では、当事者が同意すると予想される用語を表すチャンクが抽出されており、それらは、Docusignと同様のダウンストリームアプリケーションに渡されて、記入され署名される。
【0115】
図5は、本発明と共に使用され得るコンピュータシステム510の一実施形態のブロック図である。上述のステップは、そのようなコンピュータシステム上で実行するソフトウェアによって実装され得る。コンピュータシステム510は、典型的には、バスサブシステム512を介して周辺デバイスと通信する少なくとも1つのコンピュータまたはプロセッサ514を含む。典型的には、コンピュータは、マイクロプロセッサ、グラフィックス処理ユニット、またはデジタル信号プロセッサ、および特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)などのそれらの電子処理等価物のいずれかを含むことができ、またはプロセッサはそれらのいずれかであることができる。これらの周辺デバイスは、メモリサブシステム526およびファイルストレージサブシステム528を備えるストレージサブシステム524と、ユーザインターフェース入力デバイス522と、ユーザインターフェース出力デバイス520と、ネットワークインターフェースサブシステム516とを含み得る。入力および出力デバイスは、コンピュータシステム510とのユーザインタラクションを可能にする。
【0116】
コンピュータシステムは、サーバコンピュータ、クライアントコンピュータ、ワークステーション、メインフレーム、パーソナルコンピュータ(PC)、タブレットPC、ラックマウントされた「ブレード」、またはその機械によって取られるべきアクションを指定する命令(順次的またはそうでなければ他の)を実行することが可能な任意のデータ処理マシンであり得る。
【0117】
コンピュータシステムは、典型的には、MicrosoftのWindows(登録商標)、Sun MicrosystemsのSolaris(登録商標)、Apple ComputerのMacOs(登録商標)、Linux(登録商標)、またはUnix(登録商標)などのオペレーティングシステムを含む。コンピュータシステムはまた、典型的には、基本入力/出力システム(BIOS)およびプロセッサファームウェアを含むことができる。オペレーティングシステム、BIOSおよびファームウェアはプロセッサによって使用され、プロセッサに接続されたサブシステムおよびインターフェースを制御する。これらのオペレーティングシステムと互換性のある典型的なプロセッサには、IntelのPentium(登録商標)およびItanium(登録商標)、Advanced Micro DevicesのOpteron(登録商標)およびAthlon(登録商標)、ならびにARM HoldingsのARM(登録商標)プロセッサが含まれる。
【0118】
特許請求される発明の発明、実施形態、および/または例は、従来のコンピュータアプリケーションにも、それらを実行するプログラム可能な装置にも限定されない。例えば、特許請求されるものの発明、実施形態、および/または例は、光コンピュータ、量子コンピュータ、アナログコンピュータなどを含むことができる。コンピュータシステムは、マルチプロセッサまたはマルチコアシステムであり得、分散またはリモートシステムにおいて使用または実装され得る。ここで「プロセッサ」という用語は、グラフィックプロセッシングユニット、デジタル信号プロセッサ、デジタルプロセッサ、およびこれらのデバイスの組み合わせを含む、単一のプロセッサおよびマルチコアまたはマルチプロセッサアレイを含むように最も広い意味で使用される。さらに、単一のコンピュータシステムまたは単一のマシンのみが例示され得るが、そのような用語の単数形の使用はまた、本明細書で論じられる動作の任意の1つまたは複数を実行する命令を個別にまたは共同で実行するコンピュータシステムまたはマシンの任意の集合を意味するものとする。コンピュータおよびネットワークの絶えず変化する性質に起因して、図5に示されるコンピュータシステム510の説明は、好ましい実施形態を例示する目的のための一例としてのみ意図される。コンピュータシステム510の多くの他の構成は、図5に示されるコンピュータシステムよりも多いまたは少ないコンポーネントを有することが可能である。
【0119】
ネットワークインターフェースサブシステム516は、通信ネットワーク518へのインターフェースを含む外部ネットワークへのインターフェースを提供し、通信ネットワーク518を介して他のコンピュータシステムまたはマシン内の対応するインターフェースデバイスに結合される。通信ネットワーク518は、多くの相互接続されたコンピュータシステム、マシン、および通信リンクを含み得る。これらの通信リンクは、有線リンク、光学リンク、無線リンク、または情報の通信のための任意の他のデバイスであり得る。通信ネットワーク518は、任意の好適なコンピュータネットワーク、例えば、インターネットなどの広域ネットワーク、および/またはイーサネットなどのローカルエリアネットワークとすることができる。通信ネットワークは有線および/または無線とすることができ、通信ネットワークは、仮想プライベートネットワークで利用可能であるような、暗号化および復号化方法を使用できる。通信ネットワークは、他のシステムからデータを受信するおよび他のシステムにデータを送信することができる1つまたは複数の通信インターフェースを使用する。通信インターフェースの実施形態は、典型的には、イーサネットカード、モデム(例えば、電話、衛星、ケーブル、またはISDN)、(非同期)デジタル加入者線(DSL)ユニット、ファイアワイヤインターフェース、USBインターフェースなどを含む。HTTP、TCP/IP、RTP/RTSP、IPXおよび/またはUDP等の1つまたは複数の通信プロトコルを使用できる。
【0120】
ユーザインターフェース入力デバイス522は、英数字キーボード、キーパッド、マウス、トラックボール、タッチパッド、スタイラス、またはグラフィックタブレット等のポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システムまたはマイクロフォン等のオーディオ入力デバイス、目線認識、脳波パターン認識、および他のタイプの入力デバイスを含み得る。そのようなデバイスは、有線または無線でコンピュータシステムに接続できる。一般に、「入力デバイス」という用語の使用は、コンピュータシステム510内へまたは通信ネットワーク518上に情報を入力するためのすべての可能なタイプのデバイスおよび手段を含むことが意図される。ユーザインターフェース入力デバイスは、典型的には、ユーザが、いくつかのタイプのユーザインターフェース出力デバイス、例えば、ディスプレイサブシステム、上に表示されるオブジェクト、アイコン、テキスト等を選択することを可能にする。
【0121】
ユーザインターフェース出力デバイス520は、ディスプレイサブシステム、プリンタ、またはオーディオ出力デバイスなどの非ビジュアルディスプレイを含み得る。ディスプレイサブシステムは、液晶ディスプレイ(LCD)などのフラットパネルデバイス、投影デバイス、または仮想現実システムなどの可視画像を作成するためのいくつかの他のデバイスを含み得る。ディスプレイサブシステムはまた、オーディオ出力または触覚出力(例えば、振動)デバイスを介するような非ビジュアルディスプレイを提供し得る。一般に、「出力デバイス」という用語の使用は、コンピュータシステム510からユーザに、または別の機械もしくはコンピュータシステムに、情報を出力するすべての可能なタイプのデバイスおよび手段を含むことが意図される。
【0122】
メモリサブシステム526は、典型的には、プログラム実行中に命令およびデータを格納するためのメインランダムアクセスメモリ(RAM)530(または他の揮発性記憶装置)と、固定命令が記憶されるリードオンリメモリ(ROM)532とを含むいくつかのメモリを含む。ファイルストレージサブシステム528は、プログラムおよびデータファイルのための永続的ストレージを提供し、ハードディスクドライブ、関連付けられたリムーバブルメディアと共にフロッピーディスクドライブ、CD-ROMドライブ、光学ドライブ、フラッシュメモリ、またはリムーバブルメディアカートリッジを含み得る。特定の実施形態の機能性を実装するデータベースおよびモジュールは、ファイルストレージサブシステム528によって格納され得る。
【0123】
バスサブシステム512は、コンピュータシステム510の様々なコンポーネントおよびサブシステムが、意図されるように互いに通信させるようにするためのデバイスを提供する。バスサブシステム512は、単一のバスとして概略的に示されるが、バスサブシステムの代替的な実施形態は、複数のバスを使用し得る。例えば、RAMベースのメインメモリは、ダイレクトメモリアクセス(DMA)システムを使用してファイルストレージシステムと直接通信できる。
【0124】
詳細な説明は多くの詳細を含むが、これらは本発明の範囲を限定するものとしてではなく、単に異なる例を示すものとして解釈されるべきである。本開示の範囲は、上記で詳細に説明されていない他の実施形態を含むことを理解されたい。当業者には明らかである様々な他の修正、変更、および変形は、添付の特許請求の範囲で定義されるように、精神および範囲から逸脱することなく、本明細書に開示される方法および装置の配置、操作、および詳細においてなされ得る。したがって、本発明の範囲は、添付の特許請求の範囲およびそれらの法的同等物によって決定されるべきである。
図1
図2
図3
図4
図5