(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-30
(54)【発明の名称】インテリジェント文書システム
(51)【国際特許分類】
G06F 16/90 20190101AFI20230323BHJP
G06F 16/903 20190101ALI20230323BHJP
【FI】
G06F16/90 100
G06F16/903
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022550020
(86)(22)【出願日】2020-02-18
(85)【翻訳文提出日】2022-08-18
(86)【国際出願番号】 US2020018624
(87)【国際公開番号】W WO2020172155
(87)【国際公開日】2020-08-27
(32)【優先日】2019-02-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522330038
【氏名又は名称】ナハムー, デイビッド
(71)【出願人】
【識別番号】522330049
【氏名又は名称】ヤブロコフ, イゴル
(71)【出願人】
【識別番号】522330050
【氏名又は名称】ピックオーバー, クリフォード, エー
(74)【代理人】
【識別番号】100117606
【氏名又は名称】安部 誠
(74)【代理人】
【識別番号】100121186
【氏名又は名称】山根 広昭
(74)【代理人】
【識別番号】100136423
【氏名又は名称】大井 道子
(74)【代理人】
【識別番号】100154449
【氏名又は名称】谷 征史
(74)【代理人】
【識別番号】100218084
【氏名又は名称】高橋 俊光
(72)【発明者】
【氏名】ナハムー, デイビッド
(72)【発明者】
【氏名】ヤブロコフ, イゴル
(72)【発明者】
【氏名】ピックオーバー, クリフォード, エー
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175EA01
5B175GC03
(57)【要約】
インテリジェント文書システムは、文書の受信者である1つ以上のユーザを、文書の内容を理解する目的で文書と"相互作用"する方法で提供し、文書の受信に応答して適切なアクションをとる。1つ以上の文書と対話することは、文書の意味内容によって案内された文書をナビゲートすること、文書の内容に基づいて回答される質問を質問することを含むことができる。いくつかの例では、文書は、ユーザが複数の異なるビューまたは分析のために文書中のデータを操作することができる"動的"である。いくつかの例では、文書は、ユーザが文書を正確にナビゲートし、それらが希望する自然なインタフェースを達成することを可能にする拡張セマンティクスおよびオントロジーである。
【特許請求の範囲】
【請求項1】
より多くの拡張されたドキュメント(132A~Z)のうちの1つを維持するステップであって、ここで、各拡張ドキュメントは、レンダリング可能なドキュメントコンテンツ(134A~Z)を有し、メタデータ(136A~Z)を有するステップと;
文書インタフェース(140)をユーザに提供するステップであって、文書インタフェースは、(1)レンダリング可能なドキュメントを提示するディスプレイと;(2)ユーザからの入力を受け付け、ディスプレイ上のレンダリング可能なドキュメントから情報を返す自然言語インタフェースとを提供するステップと;
ここで、前記文書インタフェースは、質問回答部と、前記ユーザからの入力を受け付け、前記拡張文書から前記メタデータを用いて前記ディスプレイに提示するための情報を決定するインテリジェント検索機能とのうちの少なくとも1つを実行する、
文書処理方法。
【請求項2】
請求項1に記載の方法であって、前記文書インタフェースは、さらに、拡張文書に関連して署名を記録する署名機能を実行し、前記署名を前記拡張文書に関連付けられた文書ソースに送信することを特徴とする方法。
【請求項3】
請求項1に記載の方法であって、前記文書インタフェースは、前記ユーザから自然言語質問を処理する質問回答部を実行し、前記質問に対する回答を含むものとして前記再生可能文書の1以上の部分を特定し、それらの部分の情報を前記ディスプレイ内の前記ユーザに提示することを特徴とする方法。
【請求項4】
前記文書インタフェースは、前記ユーザから自然言語質問を処理する質問回答部を実現し、前記拡張文書の複数からの情報を結合して前記質問に対する回答を形成し、前記回答を前記ディスプレイに提示する、請求項1に記載の方法。
【請求項5】
請求項1に記載の方法であって、さらに:
前記拡張されたドキュメントの少なくとも一部を、対応する文書ソースから受け取るステップと、を含む、方法。
【請求項6】
請求項1に記載の方法であって、さらに:
対応する文書ソースからのレンダリング可能なドキュメントの少なくともいくつかを受け入れるステップと、
処理可能な文書の少なくとも一部を処理して、対応するメタデータを形成することを特徴とする方法。
【請求項7】
前記文書の処理は、前記文書に基づいて、少なくとも1つの名前付きエンティティ認識および質問生成を含む、請求項6に記載の方法。
【請求項8】
請求項1に記載の方法であって、前記少なくともいくつかの拡張されたドキュメントのメタデータは、前記レンダリング可能なドキュメントで表される情報を符号化するデータ構造を含むことを特徴とする方法。
【請求項9】
請求項8に記載の方法であって、前記データ構造が、前記文書に表された情報に関連する少なくとも1つの自然言語シーケンスの関連付けを含むことを特徴とする方法。
【請求項10】
前記文書インタフェースは、前記ユーザが外部情報源にアクセスするためのインタフェースを提供し、関連する情報源を表示された文書に識別する、請求項1に記載の方法。
【請求項11】
インテリジェント文書システムであって:
インテリジェント文書内の文書テキストに基づいて、必要なユーザ対話を含むインテリジェント文書を生成するステップと;
自然言語処理を含む人工知能(AI)インタプリタ
前記インテリジェント文書内の対話層を利用して文書関連応答を識別するように構成されたサービスと、前記インテリジェント文書をナビゲートし、前記自然言語クエリを受信することに応答して対話層から文書関連応答を提供するように構成されたAI支援ユーザインタフェースと、を含む、システム。
【請求項12】
インテリジェント文書システムを動作させる方法であって:
自然言語クエリを処理し、インテリジェント文書内の対話層を利用して文書関連応答を識別するように構成された自然言語処理サービスを含む人工知能(AI)インタプリタを操作するステップと、インテリジェント文書に関連付けられたAI支援ユーザインタフェースを介してユーザ対話を受信するステップと、
前記AIインタプリタの前の動作の一部に基づいて、前記AIユーザインタフェースを介して文書関連応答を通信するステップと、を含むことを特徴とする方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連するアプリケーションへの相互参照
この出願は、2019年2月18日に出願された米国仮出願第62/807,182号の利益を主張しており、これは参照により本明細書に組み込まれる。
【背景技術】
【0002】
本発明は、インテリジェント文書システムに関する。
【0003】
ドキュメントは今日の世界では多くの理由で重要である。文書は携帯可能であり、しばしば、ワークフローに関連する電子メールに添付され、議論グループまたはチームルームにアップロードされ、ダウンロードされ、印刷される。また、文書は一般に永続的であり、トランザクションのレコードとして機能する場合がある。それらは、多くの情報を統合し、それらを単一の読み取り可能なアイテムで一緒にすることができる。
【0004】
現在、ユーザはしばしば、しばしばスキミングされるか又は完全に無視される用語および条件のページを有するドキュメントに遭遇する。ユーザが質問を有する場合には、そのような文書に理解可能でかつアクション可能な洞察を得ることは困難であるかもしれない。従って、文書の理解を容易にするために、ユーザ対話要素に対するニーズが存在する。
【0005】
マンマシンインターフェースのために現在存在する多数の配信リンク機構は、(1)ウェブベースのアプリケーション、(2)ネイティブアプリケーション、ユーザのコンピュータ上で実行するネイティブアプリケーション、および((3)標準フォーマットファイル(例えば、ポータブル・ドキュメント・フォーマット、PDF)を含む。歴史的には、ドミナント配信メカニズムは、PDF、Word文書、HTMLブラウザなどの特定のフォーマットで利用可能なローカル。リーダ/エディタ(プログラム)でファイル転送を介して行われてきた。ファイル配送は、少なくとも部分的には、法定目的のための署名要件のために、少なくとも部分的には、インタフェースとして用紙を使用することの可搬性および不自然さと、(コンピュータシステムがクラッシュした場合であっても、用紙の可読性と用紙の持続性とに沿った)インタフェースとしての用紙の使用の不自然さと、およびレガシー技術の採用とのために、重要な送達機構を残していた。
【0006】
ユーティリティ(例えば、電気料金)のような多くのユースケースでは、ファイル方法論は、長時間の分析を可能にすることができず、そのような場合には、ネイティブアプリ及びWebアプリの豊富さを提供することができない。従来の紙署名からディジタル署名への移行は非常に遅く、標準になるまでに何年もかかる。このように、問題に対する別の解決策が必要である。
【0007】
ファイルに構造化されて構造化されていないデータが存在するファイル中心処理に関する一般的な問題は、ユーザがそれらのニーズおよび要望に応じて文書をナビゲートするために豊富な自然言語インタフェースが存在しないことである。このように、例えば、多くの文書は、小さいフォントである長いページを有しており、必要とされる場合には、必要とされる場合には、ユーザが必要とするキー情報を見つけるために、用語および条件を含むことがある。ユーザがこれらの用語および条件を読むために時間を持っていたとしても、ユーザは、これらの用語のすべての態様を理解することができ、それらは、それらが一致するか、または制約されることを理解するであろう。
【発明の概要】
【0008】
一般的な態様では、インテリジェント文書システムは、文書の受信者である1つ以上のユーザを提供し、文書の内容を理解し、文書の受信に応答して適切なアクションをとるために、文書と対話する方法を提供する。1つ以上の文書と対話することは、文書の意味内容によって案内された文書をナビゲートすること、文書の内容に基づいて回答される質問を求めることを含むことができる。いくつかの例では、文書は、ユーザが複数の異なるビューまたは分析のために文書中のデータを操作することができるという点で、動的な状態である。いくつかの例では、文書は、ユーザが文書を正確にナビゲートし、それらが希望する自然なインタフェースを達成することを可能にする拡張セマンティクスおよびオントロジーである。
【0009】
一態様では、一般に、文書処理のための方法は、記憶装置または1つ以上の拡張文書132A~Zを維持することを含み、各拡張文書は、復元可能な文書コンテンツ134A~Zを有し、メタデータ136A~Zを有する。ユーザには、文書インタフェース140が設けられている。文書インタフェースは、(1)レンダリング可能なドキュメントを提示するためのディスプレイ、および(2)ユーザからの入力を受け取り、レンダリング可能なドキュメントからの情報をディスプレイ上に提示するための自然言語インタフェースを提供する。文書インタフェースは、質問回答部と、ユーザからの入力を受け入れ、拡張ドキュメントからのメタデータを使用してディスプレイに表示する情報を決定するインテリジェント検索機能の少なくとも1つを実行する。いくつかの例では、文書インタフェースは、拡張文書に関連して署名を記録し、拡張文書に関連する文書ソースに署名を送信するための署名機能をさらに実行する。いくつかの例では、文書インタフェースは、ユーザからの自然言語の質問を処理し、質問に対する回答を含むレンダリング可能なドキュメントの1つ以上の部分を特定し、それらの部分の情報をディスプレイでユーザに提示する質問応答機能を実行する。
【0010】
態様は、以下の特徴のうちの1つ以上を含んでいてもよい。
【0011】
文書インタフェースは、拡張文書に関連する署名を記録し、拡張文書に関連する文書ソースに署名を送信するための署名機能をさらに実装する。
【0012】
文書インタフェースは、ユーザから自然言語質問を処理する質問回答部を実現し、質問に対する回答を含むものとしてレンダリング可能なドキュメントの1つ以上の部分を特定し、それらの部分の情報をディスプレイ内のユーザに提示する。
【0013】
文書インタフェースは、ユーザから自然言語質問を処理する質問回答部を実現し、複数の拡張文書からの情報を結合して質問に対する回答を形成し、ディスプレイ内のユーザに回答を提示する。
【0014】
拡張されたドキュメントの少なくともいくつかは、対応する文書ソースから受け入れられる。
【0015】
再生可能なドキュメントの少なくともいくつかは、対応する文書ソースから受け入れられ、受け付けられたレンダリング可能なドキュメントの少なくともいくつかは、対応するメタデータを形成するように処理される。例えば、文書の処理は、文書に基づいて、少なくとも1つの名前付きエンティティ認識および質問生成を含む。
【0016】
少なくともいくつかの拡張されたドキュメントに対するメタデータは、レンダリング可能なドキュメントで表される情報を符号化するデータ構造を含む。例えば、データ構造は、文書に表された情報に関連する少なくとも1つの自然言語シーケンスの関連付けを含む。
【0017】
文書インタフェースは、ユーザが外部情報源にアクセスする方法を提供し、表示された文書に関連する情報源を識別する。
【0018】
別の態様では、一般に、インテリジェント文書システムは、インテリジェント文書内の文書テキストに基づいて必要なユーザ対話を含むインテリジェント文書を含む。このシステムは、自然言語照会を処理し、インテリジェント文書内の相互作用層を利用して文書関連応答を識別するように構成された自然言語処理サービスを含む人工知能(AI)インタプリタを含む。AI支援ユーザインタフェースは、インテリジェント文書をナビゲートし、自然言語クエリを受信することに応答して対話層から文書関連応答を提供するように構成される。
【0019】
別の態様では、一般に、インテリジェント文書システムを操作する方法は、自然言語照会を処理し、インテリジェント文書内の相互作用層を利用して文書関連応答を識別するように構成された自然言語処理サービスを含む人工知能(AI)インタプリタを操作することを含む。ユーザ対話は、インテリジェント文書に関連付けられたAI支援ユーザインタフェースを介して受信される。AIユーザインタフェースを介したドキュメントに関連する応答は、対話レイヤを有するAIインタプリタの以前の動作の一部に基づいてもよい。
【0020】
別の態様では、一般に、AI手段は、文書との読取り、解釈、および会話のために使用される。このAI手段は、トリガに基づいて、ユーザに解釈インタフェースを自動的に供給する。
【0021】
態様は、以下の特徴のうちの1つ以上を含むことができる。
【0022】
文書は、署名(または、同意する)のようなアクションを必要とする場合がある。
【0023】
トリガは、文書を開くこと、ウェブページにアクセスし、過去に署名された1つの文書に類似する文書を開くこと、などのうちの1つとすることができる。
【0024】
アクションは、手書きサイン、ドキュメントGUI内のチェックボックスのチェック、CAPTCHAテストの通過(例えば、ユーザが人間であることを証明するため)のうちの1つとすることができる。
【0025】
解釈インタフェースは、ユーザの理解、ユーザの追跡、ユーザへのアドバイス、または異なる会社からの1つ以上のドキュメントへのアクセスを有するトランスベンダサービスによる追跡を容易にする。
【0026】
AIは、ユーザがドキュメントに関するクエリを有しているときに呼び出され、またはドキュメントとのアクションを実行しなければならない。
【0027】
AIサービスは、ユーザが文書をナビゲートするのを助ける(例えば、カーソルまたはアイコンを強調し、移動させ、ページをスクロールし、ユーザがあるセクションまたはセンテンスを読んでいるときに拡声する)、図を提供し、ポップアップコメントバブル等を生成する)
【0028】
文書のナビゲーションは、アプリケーションのインタフェースにタイプ入力され、その結果と、文書からの応答とのいずれかである自然言語照会を介して行われ、文書の既存の視覚的レンダリングによって提供される。
【0029】
応答は、追加的に、アプリケーションの別個のジェネリックダイアログボックスに発話および/または表示することができる。
【0030】
結果および/または応答は、文書の内容から計算できる。(例えば、2か月間のポートフォリオの変更に対して事前定義されたビジュアルは存在せず、文書は、変更を計算し、一般的なビジュアルおよび/または音声ダイアログボックスを通じて回答を提供する関数にアクセスする。)
【0031】
自然言語照会は、文書の非構造部分(例えば、用語および条件)上で動作し、一般的なダイアログボックス内で応答テキストおよび/または音声が提供される。
【0032】
アプリケーションは、統合/クラウドへの接続性を提供し、自然言語クエリは、企業のプライベートクラウドにおいて利用可能な膨大な知識および/またはパブリッククラウドにおいて利用可能な公開/公開知識に適用される。
【0033】
AI技術および文書に関する関連するAIモデルはクラウドに常駐し、自然言語照会は、理解および会話対話のためにクラウドに送られる。
【0034】
AI関連AIモデルは、文書に含まれているか、または処理のためにAI技術サイトに関連するモデルをロードすることを可能にする文書中に特殊なURLが存在するかのいずれかである。
【0035】
AI技術および関連するAIモデルは、エンドユーザのコンピューティング装置に局所的に存在する。
【0036】
ユーザは、ドキュメントおよびその関連するクラウド知識に利用できないサービスを解決する技術的サポートおよび顧客ケア問題を必要とすることができ、ユーザは、顧客の問題/問題、例えば、ステートメントにおける知覚されたミスを解決するために、顧客サポートエージェントおよび/または自動化AIサービスに自動的に接続される。
【0037】
人間のエージェントまたは自動化されたエージェントは、例えば、ページ3、表2、行6、列4の問題を言語的に指示することによって、2つの当事者間の通信を単純化するために文書へのアクセスを有する。
【0038】
トランス-ベンダーサービス(例えば、1以上の企業からの1つ以上のドキュメントへのアクセス)は、チップ、ヘルプ、警告、ユーザの理解を容易にするための手段などを提供する。
【0039】
例えば、トランス-ベンダーサービスは、ユーザの最近の請求書、電子メールサービス、ソーシャルメディアサービス、サブスクリプションウェブページ、APPウェブページなどの用語および条件にアクセスすることができる。
【0040】
ドキュメントに対する署名(例えば、契約契約)は、他のドキュメントプロバイダから関連する用語および条件を追跡し共有するために、トランス-ベンダーサービスの引き金となり、類似または相補的なサービスまたは特徴を提供する他のサービス(例えば、他のベンダから)に関する提案を行う。
【0041】
認知的側面は、ユーザが文書に署名するとき、または署名しようとしているときに注目される(例えば、ユーザの注意散漫のレベル)。
【0042】
AIサービスは、ユーザに次の時間を警告し、関連する文書を符号化するか、関連する文書項と一致するかを警告する。
【0043】
AIサービスは、過去の用語および条件(例えば、保険の用語、クレジットカードの用語、書籍の契約項)に関する用語および条件の変化を監視する。
【0044】
AIサービスは、例えば、ユーザが趣味、会社代表等のような自分のバージョンを記述している文書に対する署名の「レベル」(または「タイプ」)に関する情報を受信する。
【0045】
文書の署名は、様々な会社や"AI"のような他のエンティティが、例えば、類似または相補的なサービス、契約、用語および条件などを提供するために、現在の文書にアクセスすることができるように、リンクを提供する。
【0046】
AIサービスは、文書の範囲を追跡する(例えば、電気請求書のようないくつかの制限された範囲、またはユーザがいくつかのアクションを実行すること、または5年の期間の間サービスを提供することを制限する合意のような、より広い範囲を参照する)。
【0047】
AIサービスは、それらの契約情報のサブセットを、それらのソーシャルネットワークなどの1つ以上の人々と共有することを希望するかもしれない、他の契約オファーからの条件の情報を有する。
【0048】
本発明の他の特徴および利点は、以下の説明および請求の範囲から明らかである。
【図面の簡単な説明】
【0049】
【
図1】
図1は、インテリジェント文書システムの図である。
【0050】
【
図2】
図2は、文書インタフェースの構成を示す図である。
【発明を実施するための形態】
【0051】
図1を参照すると、人工知能(AI)サービスと呼ばれるインテリジェント文書システム100は、いくつかの文書ソース110A~Cによって提供される文書と対話するために、ユーザ150または1つ以上の役割におけるユーザ150のセットのための方法を提供する。
【0052】
文書と対話するユーザは、様々な行為を含むことができる。一例として、文書は、例えば、ユーザが文書中で指定された用語と一致することを意味する肯定的なステートメント(例えば、「同意する」)を必要とする場合、ユーザによって合意を誘発することができ、別の例として、ユーザは、例えば、文書中のコンテンツを検索するか、または文書の内容に基づいて回答され得る質問を求めることによって、文書を探索することができる。別の例として、対話は、システムによって開始されてもよく、例えば、受信された文書の特定の部分を指摘するか、または文書の内容に基づくアサーション、例えば、警告または警告の形態でユーザに警告することができる。これらは、ユーザが文書と対話することができる方法の例にすぎない。
【0053】
好ましくは、ユーザは、自然言語インタフェースを用いて文書と対話し、例えば、自然言語テキストを入力するか、または類似の発話を発話することによって行われる。代替的に、またはこのような自然言語入力のためのこのような手段に加えて、スタイラス(例えば、署名のための)を介して、グラフィカルユーザインターフェース(GUI)を介してのような他の入力モードを使用することができる。出力と同様に、システムは、一般に、例えば表またはグラフの形で、文書の現在の部分、または文書から導出された対称サイズの要約情報を含む、書込まれたまたは合成的に話された自然言語出力を提供することが好ましい。
【0054】
図1を参照すると、文書インタフェース140は、上述したユーザ対話のタイプをサポートするのに必要な人工知能および自然言語処理能力を実現する。例えば、文書インタフェース140は、自動音声認識装置(ASR:automatic speech recognizer)、自然言語処理(NLP:natural language processing)システム、および質問応答(QA:question answering)システムを含むことができる。
【0055】
システム100は、ユーザ150が相互作用した文書の履歴を保持する文書ライブラリ(130)を含むことができる。文書インタフェース140は、ユーザがユーザにアクセスすることを可能にする。
【0056】
ライブラリに格納された文書と対話し、文書インタフェースは、複数の文書内の情報を結合して、ユーザとの対話をサポートすることができる。一例として、ライブラリ内のドキュメントは、1つの文書ソースからのドキュメントの異なるバージョンの履歴を含むことができ、ドキュメントインタフェースは、ユーザからの質問に対する回答の一部として、1つのバージョンから別のバージョンへの変更を決定することができ、またはユーザが気付かない可能性がある変更を実行することができる。
【0057】
ここで、文書ソース110A~Cを参照すると、異なる文書ソースは、異なるタイプのドキュメントを提供することができ、すべてのタイプのドキュメントは、展開されるシステム100のあらゆる例でサポートされるわけではない。第1の例示的な文書ソース110Aは、例えば、ポータブル・ドキュメント・フォーマット(PDF)標準に従って電子的に記憶されたテキスト形式で印刷された文書または印刷可能な文書を表す文書114Aを生成する。このような文書114Aは、単に文書ページのスキャンまたは他の印刷可能な画像を含むか、または文書のセクションを識別するブックマークを有する最小量の文書構造情報を有することができる。このような文書114Aは、受信者ユーザ150との対話に適した少なくともいくつかの前処理を必要とする。
【0058】
第2の例示的な文書ソース110Bは、ソース110Aから印刷可能な文書114Aのような印刷可能なコンテンツ114Bを含むが、追加的に少なくともいくつかのメタデータ116Bを含む文書112Bを提供することができる。多種多様なタイプのメタデータが存在してもよい。例えば、いくつかのメタデータは、例えば、コンテンツのテーブルに対応する、印刷可能な文書114Bの構造に関するものであってもよい。署名される必要がある文書の場合、メタデータは、要求された署名、または合意されている用語に関連し得る。より複雑なメタデータは、例えば、文書ソースに手動で"オーサリング"された知識マップまたは他の機械解釈可能な形式の形で文書内容の意味表現を含むソースに組み込まれてもよく、または文書内容から自動的に生成された全体的または部分的に"部分的"であってもよい。例えば、文書が商業的な請求書である場合、メタデータは、送り状量、項目記述、日付等のXMLまたはJSONに基づく表現を含むことができる。
【0059】
第3の例示的な文書ソース110Cは、構造化文書112Cを、例えば、文書全体112Cを形成するために一緒にリンクされた別個の文書部分118Cを有するリンクされたハイパーテキストの形式で提供する。このような構造化文書の一つの一般的な例は、リンクを介してアクセス可能なリンクされたウェブページのセット(例えば、アドレスまたはユニフォームリソースロケータURL)をルート文書部分118Cに備える。このようなウェブ。ベースの文書は、見出し等の構造要素を有することができる。マークアップ言語(例えば、HTLM,hyper-text markup language)で示されるが、典型的には、少なくとも今日では意味構造を含む。
【0060】
一般に、文書ソース、ドキュメント(例えば、(114A、112B、112C)は、ドキュメントを処理し、ドキュメントが受信されたことに基づいてドキュメントのメタデータを決定する文書摂取プロセッサ120によって受信される。例えば、オリジナル文書(例えば、(114A)は、システムにコピーされ、拡張文書133の一部を形成し、拡張文書133の一部は、受信文書135のコピーと、派生または提供されたメタデータ137とを含む。事前に計算することは必須ではないが、メタデータ137は文書インタフェース140が文書上のインテリジェント探索および質問応答のようなタスクを実行するのを助ける。文書摂取プロセッサ120による処理は、例えば、名前付きエンティティ(例えば、個人名および会社名)記録、拡張、表などの構造化データを同等のテキストなどの検索可能な形式に変換する、ドキュメントのテキスト内の語彙項目 (単語など)を BERT(Bidirectional Encoder Representations from Transformers) などの手法を使用して前処理する、構文解析木または他の構文または意味構造を形成するための構文解析、および事前定義されたフレーム構造のような知識表現への情報抽出を含む。いくつかの例では、ドキュメントの拡張は、これらの生成された質問がドキュメント内の特定の場所に、または特定の情報フィールドに割り当てられ、ユーザからの質問を処理するとき、ユーザの質問と自動的に生成された質問との間の類似性が、自動的に生成された質問に関連する情報を返すことによってユーザの質問に応答するために使用されるように、自動的質問生成を含むことができる。拡張された文書133は、文書インタフェース140への摂取後に提供される。
【0061】
ユーザが文書ライブラリ130を有する実施形態では、拡張文書133もまた、対応する受信文書134A~Zおよび派生メタデータ136A~Zをそれぞれ含む以前に受信された文書132A~Zを含む文書ライブラリに保存される。
【0062】
図2を参照すると、再び文書インタフェース140を参照すると、インタフェースで実行される機能の1つは質問回答部210である。質問応答の一つの実装は、テキストベースの質問(例えば、システムに話しかけるタイプ)を、回答を含む文書内の位置にマッピングするために、ライブラリ内の文書を表すテキスト上で訓練される。動作時には、質問回答部への入力として、文書のテキストベースの質問および部分、またはそれらの前処理されたフォームが提供され、質問回答部の出力は、質問に対する回答が文書の部分の位置に位置しているかどうかの指示である。
【0063】
いくつかの実施形態では、質問回答部210は、文書内の回答の位置を特定することによって質問応答を超えて行く人工知能能力を含む。構築され得るこのような能力の一つは、類似の文書にわたる情報の集約に関連している。例えば、ライブラリが毎月の一連のインボイスを含む場合、人工知能能力は、例えば、量(例えば、請求)、傾向、平均等の合計の要求に応答するために、複数のドキュメントにわたってデータの削減を必要とする質問をサポートすることができる。
【0064】
インタフェースで実現される別の機能は、検索コンポーネント220であ。このコンポーネントは、テキストベースの検索クエリを入力し、ライブラリ内のドキュメントの潜在的に関連する通路を識別するように構成され、これらの通路は、例えば、ドキュメント内のそれらのコンテキストに表示された強調された部分としてユーザに提示される。
【0065】
さらに別の構成要素は、文書署名部230に関するものである。上述したように、少なくともいくつかの文書は、ユーザが署名または他の合意の指標による一致をレビューし、表示するためにユーザに提供される。
図1に示されるように、ユーザが文書インタフェース140を指示すると、一致が文書ソースに戻されるべきであることを示すと、適切な合意データ144(例えば、ウェブベースの形式応答)が文書ソースに戻される。
【0066】
ライブラリ130は、ユーザが対応するドキュメントのためのメタデータを作成してもよい合意の記録を含むことに留意されたい。したがって、文書インタフェースは、過去にユーザが行った合意の状態に関連する質問または他の対話に応答することができる。この能力によって、ユーザは、文書ライブラリと対話することができ、例えば、ユーザが以前に一致しているか否かの質問が特定のものであるかどうかという問題がある。例えば、ユーザが、ウェブをベースとしたフォームで「同意する」のチェックボックスを選択すると、ライブラリは、ユーザが実際に合意した内容を記録し、ユーザがユーザの既存の合意をレビューまたは照会する方法を提供する。さらに、文書署名部230は、ユーザが作成することを提案した合意と以前に作成された合意との間の可能性のある競合を決定する競合チェックを実施することができる。
【0067】
文書インタフェース240の他の構成要素は、外部(or "グローバル")情報インタフェース240を含む。このインタフェースは、ユーザの質問を解決するために必要とされる情報源にアクセスするために使用され、ユーザに幾分かのコンシェルジュ機能を提供する。例えば、ドメイン固有の定義、法的要件などがある。例えば合意を実行する前に、外部情報を再検討すべきであることをユーザに能動的に通知または警告するために、ユーザの質問に応答するために、またはインタフェースをアクセスすることができる。いくつかの例では、外部情報インタフェースは、文書インタフェースにおいて利用可能にされる前に構成され、例えば、類似または広範囲のドメインに対して文書上で訓練される機械学習コンポーネントを含む。いくつかの例では、トレーニングは、ユーザが注目すべきドキュメントの特に重要な部分を識別するために使用され、ユーザがセクションを解釈するのを助けることができる外部情報のソースを識別するように訓練され得る。例えば、外部情報源は、参照物品、人間のコンサルタントの識別子(例えば、ドメイン内の専門知識を有する芝刈機)、またはユーザがアクセスすることができる外部人工知能システムを含むことができる。
【0068】
上述したように、文書インタフェースの多くの機能は、積極的であり、プロアクティブであり、ユーザが特定の出力を要求することを必要としない。例えば、文書ソースからのみ摂取された文書のような文書にアクセスする場合、プレゼンテーションは、様々なまたはプロアクティブなプレゼンテーションを有することができる。例えば、コンテンツの合成されたテーブルの形態であってもよいナビゲーションマップは、文書の別個のセクションを識別し、文書のグローバルセットの機械学習に基づいて、どのセクションが重要であるとして積極的に識別されているかを潜在的に示すことができる。特定のセクションを提示する場合、特定のドキュメントに対するサイドバーは、表示されているものに関連するドキュメントの他のドキュメントおよびセクションを識別することができる。同様に、特に重要なセクションは、機械学習訓練に基づいて強調表示されてもよく、強調表示の理由(例えば、特定のコンテキストにおける重要性のため)がサイドバーに示されてもよい。例えば、用語またはサービス合意の特に重要な部分は、ユーザに強調表示されてもよい。このようにして、ユーザは、文書の重要な部分と、他の文書の部分に関連する部分とを迅速にレビューすることができる。重要度強調は、ライブラリ内の以前の文書の以前に識別された重要なセクションを有するユーザに基づいてもよく、強調表示は、以前に識別されたセクションとの類似性に基づいてもよい。重要度の強調は、現在の文書とライブラリ内の先行する文書との間の差に基づいてもよい。例えば、文書ソースがユーザに周期的な用語を送信する場合、前のバージョンから次のバージョンへの変更は、システムのいくつかのバージョンが変更されたものを見逃すことがないように、ユーザに強調表示されることができ、ドキュメントが積極的に注釈付けされる可能性がある(すなわち、強調表示、サイドバーコメントなど)可能性がある)およびユーザは、特定の状況において実際に使用する方法のサブセットを選択することができる。
【0069】
図1を参照すると、文書摂取機能120は、ユーザに関連付けられて示されている。しかしながら、いくつかの文書ソースは、摂取関数の機能のいくつかを含んでいてもよく、本質的に事前に分析された文書を送信してもよい。例えば、文書ソース110Bは、そのようなソースの一例であってもよく、データ116Bは、文書インタフェースに有用な形式のものであってもよく、それによって、文書摂取120が実行しなければならない作業を減少させることは、文書ソース110Aからの文書114Aのような注釈を持たない文書から容易に抽出することができるよりも多くの情報を潜在的に提供することができる。
【0070】
ユーザに送信される前の文書の事前分析の一例として、利用ケースの一例は、金融機関が定期的に顧客に金融ステートメントを送信することである。事前分析の一つの形式は、明示的な文書構造を提供することができ、例えば、セクションおよびサブセクション、テーブル、グラフなどの階層的な構造を提供する。このような構造はJSONファイルの形態で提供することができ、このファイルはその構造内に直接コンテンツを含むか、または文書の印刷可能な表現へのポインタを含む。事前分析の別の形態は、例えば、JSONファイル内の名前が付けられたマシン解釈可能な形式で文書の内容を含むことであってもよく、例えば、JSONファイル内の名前が付けられているか、または重要な関心のある収益フィールドを有することであってもよい。いくつかのバージョンでは、単に"口座残高"のような識別子を含む代わりに、JSONは、ステートメント期間の終わりにおける合計アカウント値のようなフィールド内の値に対応する1つ以上の質問を有することができる。このようにして、文書インタフェースの質問応答機能は、ユーザの質問に応答して関連するデータをより容易に見つけることができる。この形式の質問応答を実現する一つの方法は、ユーザの入力テキストと文書中に提供された質問とを自動的に比較し、類似している場合には、文書中の情報がユーザに提供される。一例として、ユーザが「自身のアカウントバランスがどうであるか」を尋ねる場合、このワードシーケンスは、ステートメント期間の終了時の合計アカウント値と同様に見つけられ、その質問によって指示された値は、ユーザに応答して提供される。
【0071】
金融機関は、全ての期間に何千もの金融ステートメントを送信することができ、全てが同じ一般構造を有することに留意されたい。従って、文書の構造を助けるオーサリングコンポーネントは、従来の印刷されたレンダリングまたはオンラインのハイパーリンク形式の両方を含むことができ、JSONまたは他の形式は、一般的な文書を形成することができ、その特定の情報をユーザごとに構成することができる。同様に、文書のデータに含まれる文書インタフェースに有用であることが知られているコンテキスト情報が存在してもよい。例えば、金融ステートメントの場合、ユーザが所有する株式の列挙は、そのリストがレンダリングされたドキュメント内の特定の場所に局在化されていなくても、データ表現のフィールドとして追加され得る。この方法では、ユーザは、"マイストック"を参照することができ、文書インタフェースは、参照を解決することができる。また、精度は、分析(例えば、音声認識)を制限して、そのユーザに関連してリストされたストック名のみを許可することによって改善され得る。許可コンポーネントは、以下のようにしてもよい。
【0072】
様々な方法、例えば、文書ソースのサイトで実行されるソフトウェアアプリケーション、または1つ以上の文書ソースにアクセス可能なサーバ上で実行される共有サービスとして展開される。いくつかの例では、ドキュメント自体の文書ソースによってオーサリングされたドキュメントタイプのための全ての一般的なデータを含むのではなく、この一般的なデータは、共有ロケーション(例えば、サーバ上)に格納され、ドキュメントに含まれるデータを参照することができる。そして、文書インタフェースは、共有場所から汎用情報をアクセスし、文書自体との文書固有情報と合成する。
【0073】
文書分析が実行される他の構成を使用することができる。例えば、文書ソースは、ドキュメントをユーザに送る前に少なくともいくつかの解析を実行するサービスを介してドキュメントを送ることができ、サービスは、セットとしてドキュメントを解析することができる利点を有し、ユーザ特有の部品と比較して共通部分を識別することができ、それによって、ユーザがドキュメントのレビューに注意を払うべきかの強調表示を支援することができるという利点がある。
【0074】
いくつかの実施形態では、複数のユーザのためのドキュメントライブラリ、およびおそらくそれらのユーザのためのドキュメントインタフェースは、共有サービスとして維持される。例えば、各ユーザは、他のユーザがそれらのドキュメントにアクセスすることを防止するように、ユーザのライブラリに対するプライバシー制御を有してもよい。上述したような機能のいくつかの実施形態は、多くの計算面がホストされている場合の1つである。いくつかの実施形態では、ユーザ間で制御可能な量の共有が存在する。例えば、ユーザは、重要なことが発見されたドキュメントのセクションの強調表示を共有することを可能にし、その後、同じまたは類似のドキュメントに他のユーザが遭遇した場合、対応するセクションが他のユーザに対して強調表示される。したがって、特定のコンテンツは共有されず、プライバシーが維持されるが、文書区間の重要性は共有される。このようにして、文書の分析のために"群衆供給"アプローチを使用することができる。いくつかの実施形態では、組織は、複数のユーザのためのライブラリを維持することができ、それによって、ユーザ間の情報の共有から利益が得られる。いくつかのそのような実施形態では、異なるユーザが異なるアクション(例えば、組織を代表して署名すること)を取ることを許可される必要があり、システムは、そのような異なるユーザに対して適切な能力を提供する。
【0075】
文書インタフェースの別の態様は、異なるユーザが、特定のドメインにおける高度のレベルのような異なる特性を有することができ、文書インタフェースは、ユーザに積極的に存在するものを決定する際に、およびユーザクエリに基づいてユーザに対する質問またはコンテンツを検索する際に、このコンテキストを使用することである。このようなユーザの特性またはユーザコンテキストは、機械学習コンポーネントへの補助入力として使用されてもよく、またはある特性を有するユーザへのそれらの関連性に基づいて出力をフィルタリングするために使用されてもよい。
【0076】
上記の説明は、伝統的なファイル中心処理を強調することができるが、記述されたアプローチは、ウェブサイト、モバイルapps、デスクトップappsなどからのコンテンツの処理、および特定の合意を必要とする可能性のあるコンテンツの処理、例えば、用語&条件一致、エンドユーザライセンス契約(EULA:End-User License Agreement)、またはプライバシーポリシー合意に等しく適用可能である。これらの合法的な契約は、用語、ポリシー、および許容可能な使用を定義する。それらはまた「同意する」のチェックボックスが付随していてもよい。ユーザは、ユーザによって制御されるデバイスの間で共有ライブラリを維持し、応答が異なるデバイスで受信されたドキュメントに依存するクエリを作成することができる。
【0077】
上記の全体的な機能を提供するために、多くの人工知能、自然言語処理、および音声認識技術を組み込むことができる。これらのコンポーネント技術の少なくともいくつかの実装は十分に理解されているため、この文書では詳細に説明されていないことを認識してください。例えば、Yu、Dong、および Li Deng で説明されているように、ニューラル ネットワーク技術を使用して音声認識を実装することができる。 Automatic Speech Recognition、Springer London Limited、2016 年。質問応答、質問/テキストの類似性、および質問生成処理を含む自然言語処理では、ニューラル ネットワーク技術を使用できる。たとえば、Devlin、Jacob、Ming-Wei Chang、Kenton Lee、そしてクリスティーナ・トゥタノワ「BERT: Pre-training of deep bidirectional transformers for language understanding.」 arXiv プレプリント arXiv:1810.04805 (2018)、Chan、Ying-Hong、Yao-Chung Fan「BERT for Question Generation.」自然言語生成に関する第12回国際会議の議事録、pp. 173-177.2019年、代表刊行物として。
【0078】
上述の実施形態は、機械可読媒体(例えば、ディスク)に記憶されたコンピュータ命令を使用して、データプロセッサによって実行または解釈されると、システムに上述した機能を実行させるソフトウェアで実施することができる。いくつかの実施形態では、いくつかの機能は、例えば、フィールドプログラマブルゲートアレイ(FPGAs)またはアプリケーション特定集積回路(ASICs)を使用して、ハードウェアで実現され得る。例えば、ニューラルネットワーク処理のいくつかは、このような特殊目的ハードウェアによって実行されてもよい。データ処理は、例えば、文書を摂取する際に機能を実行する1つのコンピュータと共に複数のコンピュータに分散されてもよく、他のコンピュータは、ユーザインタフェースおよび質問応答機能を実行してもよいことを理解されたい。
【0079】
本発明のいくつかの実施形態について説明した。それにもかかわらず、前述の説明は、本発明の範囲を説明することを意図し、以下の請求の範囲によって規定される本発明の範囲を限定するものではないことを理解すべきである。従って、他の実施例も特許請求の範囲の範囲内である。例えば、本発明の範囲から逸脱することなく種々の変更が可能である。また、上述した各ステップは、独立した順序であってもよく、説明した順序とは異なる順序で実行することも可能である。
【国際調査報告】