(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025019233
(43)【公開日】2025-02-06
(54)【発明の名称】文書処理プログラム、情報処理装置及び文書処理方法
(51)【国際特許分類】
G06F 40/279 20200101AFI20250130BHJP
【FI】
G06F40/279
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2024204912
(22)【出願日】2024-11-25
(62)【分割の表示】P 2022541356の分割
【原出願日】2020-08-04
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和2年5月18日にhttps://legalforce-cloud.com/marshall/index.htmlにて公開 令和2年5月18日にhttps://jp.techcrunch.com/2020/05/18/legalforcemarshall/にて公開
(71)【出願人】
【識別番号】717005132
【氏名又は名称】株式会社LegalOn Technologies
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】川戸 崇志
(72)【発明者】
【氏名】舟木 類佳
(57)【要約】
【課題】文書情報から文書の内容を示す文字列が抽出され、当該抽出された文字列に表記上のゆれがある場合であっても、該当箇所を一元して管理する文書処理プログラム、情報処理装置及び文書処理方法を提供する。
【解決手段】文書処理サーバ装置1は、文書の内容を示す文字列を文書情報111から当該文書情報111中の位置情報とともに抽出して抽出情報113とする情報抽出手段102と、抽出情報113の各項目の内容を正規化して正規化抽出情報114とする正規化手段103と、正規化抽出情報114の内容を、前記抽出情報113の位置情報に基づいて文書情報111の該当位置を示して表示する表示制御手段104とを有する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
コンピュータを、
文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出手段と、
前記抽出手段によって抽出された前記文字列を正規化して正規化抽出情報とする正規化手段と、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御手段として機能させるための文書処理プログラム。
【請求項2】
文書情報を予め定めた単位で分割して単位情報とする分割手段としてさらに機能させ、
前記抽出手段は、前記文書の内容を示す文字列を前記単位情報の位置情報とともに抽出し、
前記表示制御手段は、前記正規化抽出情報の内容を、前記単位情報の位置情報に基づいて前記単位情報の該当位置を示して表示する請求項1に記載の文書処理プログラム。
【請求項3】
前記抽出手段は、前記文書情報中の指定された文字列を抽出情報として登録する請求項1又は2に記載の文書処理プログラム。
【請求項4】
前記表示制御手段は、前記正規化抽出情報と、前記単位情報と、前記文書情報とを関連付けて表示する請求項1から3のいずれか1項に記載の文書処理プログラム。
【請求項5】
前記コンピュータは、ネットワークを通じて通信可能に1又は複数の端末と接続される、請求項1から4のいずれか1項に記載の文書処理プログラム。
【請求項6】
前記コンピュータは、無線通信ネットワークを通じて1又は複数の端末と接続される、請求項1から5のいずれか1項に記載の文書処理プログラム。
【請求項7】
文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出手段と、
前記抽出手段によって抽出された前記文字列を正規化して正規化抽出情報とする正規化手段と、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御手段とを有する情報処理装置。
【請求項8】
所定の指示命令に加えて、文書情報を記憶するように構成されたメモリと、
前記メモリに記憶された指示命令に基づいて、
前記文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出し、
抽出された前記文字列を正規化して正規化抽出情報とし、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する、
ための処理を実行するように構成されたプロセッサと、
を含む情報処理装置。
【請求項9】
文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出ステップと、
抽出された前記抽文字列を正規化して正規化抽出情報とする正規化ステップと、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御ステップとを有する文書処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、文書処理プログラム、情報処理装置及び文書処理方法に関する。
【背景技術】
【0002】
従来の技術として、契約書からキーワードを検出して契約者にリスクを事前に知らせる情報処理装置が提案されている(例えば、特許文献1参照)。
【0003】
特許文献1に開示された情報処理装置は、契約書の文書中から所定のキーワードを検出し、検出されたキーワードの中から契約する利用者にとっての重要箇所を認識して、重要箇所をリスクとともに提示して締結するか否かを利用者に判断させる。また、情報処理装置は、契約書の文書中から契約の更新期限等を検出すると、更新の設定画面を提示し、更新を通知するか否かを利用者に判断させる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際公開第2018/042548号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、上記した特許文献1に開示された情報処理装置によると、契約書からキーワードを検出して契約者にリスクを事前に知らせるとともに、契約書の更新通知の要否を判断させるものの、検出されるキーワードに表記上のゆれがある場合には対応できない、という問題があった。また、検出されたキーワードから対応する契約書内の記載が知りたい場合に、検出されたキーワードに表記上のゆれがある場合、すべての該当箇所を一元して管理することができない、という問題があった。
【0006】
本開示の目的は、上記従来技術を踏まえ、より使い勝手のよい文書処理プログラム、情報処理装置及び文書処理方法を提供することにある。
【課題を解決するための手段】
【0007】
本開示に係る発明の一態様は、上記目的を達成するため、以下の文書処理プログラム、情報処理装置及び文書処理方法を提供する。
【0008】
[1]コンピュータを、
文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出手段と、
前記抽出手段によって抽出された前記文字列を正規化して正規化抽出情報とする正規化手段と、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御手段として機能させるための文書処理プログラム。
[2]文書情報を予め定めた単位で分割して単位情報とする分割手段としてさらに機能させ、
前記抽出手段は、前記文書の内容を示す文字列を前記単位情報の位置情報とともに抽出し、
前記表示制御手段は、前記正規化抽出情報の内容を、前記単位情報の位置情報に基づいて前記単位情報の該当位置を示して表示する前記[1]に記載の文書処理プログラム。
[3]前記抽出手段は、前記文書情報中の指定された文字列を抽出情報として登録する請求項1又は2に記載の文書処理プログラム。
[4]前記表示制御手段は、前記正規化抽出情報と、前記単位情報と、前記文書情報とを関連付けて表示する前記[1]から[3]のいずれかに記載の文書処理プログラム。
[5]前記コンピュータは、ネットワークを通じて通信可能に1又は複数の端末と接続される、前記[1]から[4]のいずれかに記載の文書処理プログラム。
[6]前記コンピュータは、無線通信ネットワークを通じて1又は複数の端末と接続される、前記[1]から[5]のいずれかに記載の文書処理プログラム。
[7]文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出手段と、
前記抽出手段によって抽出された前記文字列を正規化して正規化抽出情報とする正規化手段と、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御手段とを有する情報処理装置。
[8]所定の指示命令に加えて、文書情報を記憶するように構成されたメモリと、
前記メモリに記憶された指示命令に基づいて、
前記文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出し、
抽出された前記文字列を正規化して正規化抽出情報とし、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する、
ための処理を実行するように構成されたプロセッサと、
を含む情報処理装置。
[9]文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出ステップと、
抽出された前記文字列を正規化して正規化抽出情報とする正規化ステップと、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御ステップとを有する文書処理方法。
【発明の効果】
【0009】
本開示の様々な実施形態によれば、より使い勝手のよい文書処理プログラム、情報処理装置及び文書処理方法を提供することが可能となる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、実施の形態に係る文書処理システムの構成の一例を示す概略図である。
【
図2】
図2は、実施の形態に係る文書処理サーバ装置の構成例を示すブロック図である。
【
図3】
図3は、文書情報の構成例を示す概略図である。
【
図4】
図4は、抽出情報の構成例を示す概略図である。
【
図5】
図5は、正規化抽出情報の構成例を示す概略図である。
【
図6】
図6は、情報抽出動作の処理の一例を説明するための概略図である。
【
図7】
図7は、正規化手段の動作例を説明するための概略図である。
【
図8】
図8は、表示制御手段の表示例を示す概略図である。
【
図9】
図9は、操作に応じて抽出情報を登録する場合に表示される画面の表示例を示す概略図である。
【
図10】
図10は、文書処理サーバ装置の情報抽出動作を示すフローチャートである。
【
図11】
図11は、表示処理動作を説明するためのフローチャートである。
【発明を実施するための形態】
【0011】
[実施の形態]
(文書処理システムの構成)
図1は、実施の形態に係る文書処理システムの構成の一例を示す概略図である。
【0012】
この文書処理システム5は、文書処理サーバ装置1と、端末2と、端末3とをネットワーク4によって互いに通信可能に接続することで構成される。端末2は、例えば、文書管理、文書作成、文書内容確認及び/又は文書レビューを希望する利用者によって操作され、端末3は他の利用者によって操作されるが、これに限られるものではない。端末2の利用者と、端末3の利用者とは文書情報として、例えば、契約書を扱うものであり、主に、一方又は双方の利用者の作成した文書情報を管理するとともに、締結後の文書情報を管理し、当該文書情報の内容を確認、把握するために文書処理システム5を利用する。
【0013】
文書処理サーバ装置1は、サーバ型の情報処理装置であり、端末2及び端末3の要求に応じて動作するものであって、本体内に情報を処理するための機能を有するCPU(Central Processing Unit)やHDD(Hard Disk Drive)、フラッシュメモリ等の電子部品を備える。なお、文書処理サーバ装置1は、必ずしも単体の情報処理装置で構成される必要はなく、複数の情報処理装置が協働して動作するものであってもよいし、任意のクラウドサービスによって動作するものであってもよい。また、文書処理サーバ装置1の機能を端末2及び/又は端末3内で実現するものであってもよい。
【0014】
端末2及び端末3は、PC(Personal Computer)やタブレット端末等の情報処理装置であって、本体内に情報を処理するための機能を有するCPUやフラッシュメモリ等の電子部品を備える。
【0015】
ネットワーク4は、高速通信が可能な通信ネットワークであり、例えば、インターネット、イントラネットやLAN(Local Area Network)等の有線又は無線の通信網である。
【0016】
上記構成において、一例として、文書処理サーバ装置1が処理する文書は契約書等の法律分野の文書であり、利用者の一方又は双方は法律の専門家ではないが契約書の作成を必要とする人物、又は弁護士等の法律の専門家であって契約書の作成の知識を有する人物である。また、例えば、一方又は双方の利用者は社内の営業部の社員、又は社内法務部の社員である。
【0017】
基本動作としては、端末2又は端末3から文書情報を文書処理サーバ装置1にアップロードした後、文書処理サーバ装置1において文書情報を管理し、端末2又は端末3から文書処理サーバ装置1にアクセスすることで文書情報の内容の確認等を行うが、その際に利用者の確認作業負担を減らすべく、又は利用者の契約書の作成を支援するべく、文書処理サーバ装置1は、文書情報から情報を抽出し、抽出した情報を内容の把握を助ける形式で表示する。表示方法の具体例については後述する。
【0018】
本実施の形態では主に、文書処理サーバ装置1は、文書情報中の契約状況を示す情報を抽出し、抽出した情報を一方又は双方の利用者に提示する。なお、以下において、条項のことを「条文」と言うことがある。実施の形態を以下で説明する。
【0019】
また、端末2及び端末3はそれぞれ単数を図示しているが、複数台がネットワーク4に接続されるものであってもよく、同様にこれらを操作する利用者は複数人であってもよい。
【0020】
(文書処理サーバ装置の構成)
図2は、実施の形態に係る文書処理サーバ装置1の構成例を示すブロック図である。
【0021】
文書処理サーバ装置1は、CPU等から構成され、各部を制御するとともに、各種のプログラムを実行する制御部10と、フラッシュメモリ等の記憶媒体から構成され情報を記憶する記憶部11と、ネットワーク4を介して外部と通信するための通信インターフェイスとして機能する通信部12とを備える。
【0022】
制御部10は、CPU等のプロセッサから構成され、メモリから構成される記憶部11及び通信インターフェイスとして機能する通信部12に電気的に接続される。当該制御部10は、後述する文書処理プログラム110を実行することで、契約書受付手段100、契約書分割手段101、情報抽出手段102、正規化手段103及び表示制御手段104等として機能する。
【0023】
契約書受付手段100は、端末2又は端末3から契約書を文書情報111として受け付けて記憶部11に格納する。文書情報111は、文章がレイアウトされたPDF等の画像情報であってもよいし、テキストデータを含むテキストファイル、ワードファイル等の情報であってもよい。
【0024】
契約書分割手段101は、文書情報111がテキスト以外の情報の場合はOCR(Optical Character Recognition)等を行ってテキスト化した後、文書情報111をタイトル、序文、条文単位等の契約書の構成要素毎に分割し、単位情報112として記憶部11に格納する。なお、条文単位は、分割の単位が条文に限定されるものではなく、項、号であってもよいし、意味のまとまりのある複数の条、項、号のまとまりであってもよい。また、異なる条、項に渡って意味のまとまりのある項、号であってもよい。
【0025】
情報抽出手段102は、単位情報112から契約内容を表す情報を抽出して抽出情報113として記憶部11に格納する。
【0026】
正規化手段103は、情報抽出手段102が抽出した抽出情報113の内容を、それぞれキーワードの統一、記載形式の統一、他の情報の参照による補足、他の情報に基づく推論、名寄せ処理等を行うことで正規化して正規化抽出情報114として記憶部11に格納する。なお、他の情報の参照による補足については、契約開始日と有効期限から契約終了日を算出する。また、他の情報に基づく推論については、例えば、社名、日付、住所等に基づき法人番号を推定する。また、名寄せ処理は、レーベンシュタイン距離やキーワード類似度を用いて辞書(キーワードリスト)のキーワードを比較し、近いものを正規化文字列とすることで行う。
【0027】
表示制御手段104は、記憶部11の文書情報111、単位情報112、抽出情報113及び正規化抽出情報114並びに各手段100‐103の出力結果を予め定めた方法で端末2及び端末3の表示部に表示制御する。なお、表示方法の詳細は後述する。
【0028】
記憶部11は、フラッシュメモリ等のメモリから構成され、プロセッサ等から構成される制御部10及通信インターフェイスとして機能する通信部12に電気的に接続される。当該記憶部11は、制御部10を上述した各手段100‐104として動作させる文書処理プログラム110、文書情報111、単位情報112、抽出情報113及び正規化抽出情報114等を記憶する。
【0029】
図3は、文書情報111の構成例を示す概略図である。
【0030】
文書情報111aは、一例として、契約書であり、契約書分割手段101によって分割される単位情報112として、契約書のタイトル112a1と、序文112a2と、これらに続く複数の条文(条文単位)112a3、112a4、112a5…とを有する。また、条文(条文単位)112a4は、複数の項(条文単位)112a41、112a42を含むものとする。
【0031】
図4は、抽出情報113の構成例を示す概略図である。
【0032】
抽出情報113は、情報抽出手段102により抽出された情報であり、抽出情報を識別するための抽出IDと、単位情報112から抽出された抽出情報と、抽出された情報の属する項目である抽出項目と、単位情報112中の位置情報である参照先位置とを有する。
【0033】
図5は、正規化抽出情報114の構成例を示す概略図である。
【0034】
正規化抽出情報114は、正規化手段103により抽出情報113を正規化した情報であり、抽出IDと、抽出情報と、当該抽出情報を正規化した正規化抽出情報とを有する。
【0035】
(文書処理システムの動作)
次に、第1の実施の形態の作用を、(1)基本動作、(2)情報抽出動作、(3)抽出情報表示動作に分けて説明する。以降、端末2を操作対象として動作を説明するが、端末3に置き換えた場合も同様の動作となる場合は説明を省略する。
【0036】
(1)基本動作
まず、利用者は、文書処理サーバ装置1の提供するサービスへログインを行うため端末2を操作する。端末2は、利用者から利用者ID及びパスワード等の情報の入力を受け付けると、当該情報とともに認証要求を文書処理サーバ装置1に送信する。
【0037】
文書処理サーバ装置1は、端末2から利用者ID及びパスワード等の情報とともに認証要求を受信すると、予め登録された利用者ID及びパスワード等を含む図示しない利用者情報を参照し、利用者としての依頼者の認証を行う。
【0038】
次に、利用者は、サービスへのログインが完了すると、契約書の文書情報を文書処理サーバ装置1へアップロードするため端末2を操作する。端末2は、当該文書情報を文書処理サーバ装置1へアップロードする。
【0039】
(2)情報抽出動作
図10は、文書処理サーバ装置1の情報抽出動作を示すフローチャートである。
図6は、情報抽出動作の処理の一例を説明するための概略図である。
【0040】
文書処理サーバ装置1の契約書受付手段100は、依頼者の操作する端末2から文書情報111を受け付けて記憶部11に格納する(S1)。
【0041】
次に、文書処理サーバ装置1の契約書分割手段101は、
図3に示すように文書情報111aを、契約書の構成要素毎に分割して単位情報112aとし、構造化する(S2)。一例として、文書情報111aは、契約書原本をスキャンしたものであってPDF(Portable Document Format)ファイル等の画像情報であり、契約書分割手段101は、まず、文書情報111aをOCR(Optical Character Reader)等の方法を用いてテキスト化する。契約書分割手段101は、テキスト化された情報を、タイトル112a1、序文112a2、条文単位112a3~112a7…、項単位112a41、112a42…のように分割する。なお、契約書分割手段101は、対象とする文書情報111aをさらに号の単位で分割するものであってもよく、文書情報111aの構造に適した単位を用いて単位情報112aとする。なお、上記の分割は機械学習、正規表現等の技術を用いて行う。また、分割は、必須の動作項目ではなく、分割を行わずに以降の動作を行うものであってもよい。
【0042】
次に、情報抽出手段102は、構造化された文書である単位情報112aから契約内容を表す情報を単位情報112aの参照先の位置情報とともに抽出情報113a1~113a5…(抽出情報113a)として抽出して記憶部11に格納する(S3)。なお、上記の情報の抽出は条件付き確率場(Conditional Random Field)による固有表現認識(Named Entity Recognition)等の技術を用いて行う。
【0043】
次に、正規化手段103は、情報抽出手段102が抽出した抽出情報113aの内容を、それぞれキーワードの統一、他の情報の参照による補足等及び以下の
図7に示すような処理を行うことで正規化して正規化抽出情報114a1~114a5…(正規化抽出情報114a)として記憶部11に格納する(S4)。なお、正規化抽出情報114aは、タイトル、当事者1、当事者2、締結日、開始日、終了日、全文等の項目で管理される。また、上記の情報の正規化はレーベンシュタイン距離やキーワード類似度等の技術を用いて辞書(キーワードリスト)のキーワードを比較することで行う。
【0044】
図7は、正規化手段103の動作例を説明するための概略図である。
【0045】
正規化手段103は、抽出情報113として日付に関する抽出項目において「平成29年7月1日」のように和暦で記載された日付を受け付けた場合、正規化抽出情報114として「2017年7月1日」のように西暦で記載された日付に正規化する。なお、抽出情報113が西暦で記載されていても「2017/7/1」や「7/1/2017」、「July 1,2017」のように記載順が異なる場合にも同様に正規化する。
【0046】
また、正規化手段103は、抽出情報113として日付に関する抽出項目において「平成29年7月1日から1年間」のように期間を伴う記載を受け付けた場合、正規化抽出情報114として「2018年6月30日」のように終了日に該当する日付に正規化する。
【0047】
また、正規化手段103は、抽出情報113として更新に関する抽出項目において「…本契約は同条件で更新されるものとし、以降も同様とする。」のように具体的な記載を受け付けた場合、正規化抽出情報114として「自動更新アリ」のように端的な内容の記載に正規化する。
【0048】
また、正規化手段103は、抽出情報113として当事者に関する抽出項目において「甲(借主)株式会社LegalForce」のように当事者立場と当事者名を受け付けた場合、正規化抽出情報114として「株式会社LegalForce」のように当事者に正規化する。
【0049】
また、正規化手段103は、抽出情報113として当事者に関する抽出項目において「本契約書の末尾に記載される者(中略)株式会社LegalForce」のように記載位置とその記載位置に記載された当事者名を受け付けた場合、正規化抽出情報114として「株式会社LegalForce」のように当事者名に正規化する。
【0050】
また、正規化手段103は、抽出情報113として当事者に関する抽出項目において「株式会社LegalForce(以下、「甲」という。)と弁護士 角田望(以下、「乙」という。)は、以下のとおり、顧問契約(以下、「本契約」という。)を締結する。」のように当事者の対を受け付けた場合、正規化抽出情報114として「株式会社LegalForce/角田望」のように当事者の対に正規化する。
【0051】
また、正規化手段103は、抽出情報113として期間に関する抽出項目において「本契約の有効期限は、本契約の締結日より1年間とする。…締結日:2020年1月1日」のように有効期限の開始日と期間を受け付けた場合、正規化抽出情報114として「2020年1月1日」のように締結開始日に正規化する。
【0052】
また、情報抽出手段102及び正規化手段103は、上記したように自動で抽出と正規化を行うが、下記の
図9に示すように、固有名詞の他、日付、期間等については利用者の操作に応じて抽出と正規化を行うものであってもよい。
【0053】
図9は、操作に応じて抽出情報を登録する場合に表示される画面の表示例を示す概略図である。
【0054】
画面103bは、利用者が検索を所望する文字列を入力する入力欄103b1と、すべての検索結果を登録対象とするためのチェック欄103b2と、検索結果毎に登録対象とするためのチェック欄103b24、103b25、103b26…と、チェック欄でチェックした検索結果を登録するための登録ボタン103b3と、検索結果103b4、103b5、103b6…とを有する。各検索結果103b4、103b5、103b6…は同様の構成を有するため検索結果103b4の構成について代表して説明する。検索結果103b4は、契約書のタイトルとして検索結果を登録するためのボタン103b41と、当事者名として検索結果を登録するためのボタン103b42と、開始日として検索結果を登録するためのボタン103b43と、終了日として検索結果を登録するためのボタン103b44と、検索結果の文字列を表示する表示欄103b45とを有する。
【0055】
利用者は、画面103bにおいて検索を所望する文字列を入力欄103b1に入力して検索された検索結果103b4、103b5、103b6…の内容を確認し、登録を所望する検査結果についてチェック欄103b2、103b24、103b25、103b26…にチェックして、ボタン103b41~103b44を適宜選択状態とし、登録ボタン103b3を押下操作することで登録操作を行う。
【0056】
情報抽出手段102及び正規化手段103は、チェックされた文字列を抽出情報113及び正規化抽出情報114に登録する。
【0057】
(3)抽出情報表示動作
次に、利用者は、所望の契約書の内容参照を文書処理サーバ装置1へ要求するため端末2を操作して契約書を選択する。端末2は、契約書の選択及び選択した契約書の内容参照を文書処理サーバ装置1へ要求する。
【0058】
文書処理サーバ装置1の表示制御手段104は、契約書の選択及び契約書の内容参照の要求を受け付けると、正規化抽出情報114aを文書情報111a及び単位情報112aとともに表示処理する。
【0059】
図8は、表示制御手段104の表示例を示す概略図である。
【0060】
画面104aは、表示制御手段104により表示される画面であり、契約書原本である文書情報111aを表示する文書情報表示欄104a1と、構造化された文書である単位情報112aを表示する構造化文書表示欄104a2と、正規化された抽出情報である正規化抽出情報114aを項目毎に表示する正規化抽出情報表示欄104a3とを有する。
【0061】
次に、利用者は、正規化抽出情報表示欄104a3のうち所望の項目を選択するため端末2を操作する。端末2は、正規化抽出情報114aの項目の選択を文書処理サーバ装置1へ要求する。
【0062】
図11は、表示処理動作を説明するためのフローチャートである。
【0063】
表示制御手段104は、正規化抽出情報114aの項目選択を受け付けると(S10)、選択された項目である正規化抽出情報104a32を選択状態とし、抽出情報113aの参照先位置を参照して位置情報を取得し(S11)、構造化された文書である構造化文書表示欄104a2の単位情報104a22のうち該当位置の文字列104b2を指示して表示する(S12)。
【0064】
利用者は、該当位置の文字列104b2を確認し、該当位置の単位情報112a中の位置、文書情報111aにおける位置等を確認する。
【0065】
(実施の形態の効果)
上記した実施の形態によれば、文書情報111をテキスト化して構造化し、構造化した単位情報112から文書の内容を示す文字列を抽出して抽出情報113とした後、抽出情報113の各文字列を正規化して正規化抽出情報114とするとともに、正規化抽出情報114の内容を単位情報112の該当位置とともに表示するようにしたため、当該抽出された文字列に表記上のゆれがある場合であっても、該当箇所を一元して管理することができる。
【0066】
また、文書情報111、単位情報112、正規化抽出情報114を関連付けて表示制御するようにしたため、抽出された文字列の単位情報112中の位置情報を確認させることができるとともに、原本である文書情報111で確実に記載されていることを確認させることができる。
【0067】
[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で種々な変形が可能である。
【0068】
例えば、文書情報111は契約書に限らず、情報が抽出できるものであれば、法律そのものの文書や取り扱い説明書等の法律以外の分野の文書であってよいし、同様に本発明を適用可能である。また、構成要素は、条文、項、号に限らず、単語や文字・記号であってもよいし、段落、文章であってもよい。また、文書情報111の言語は日本語、英語に限らず、情報を抽出可能な文を構成できる言語であれば他の言語にも適用可能である。
【0069】
上記実施の形態では制御部10の各手段100‐104の機能をプログラムで実現したが、各手段の全て又は一部をASIC等のハードウエアによって実現してもよい。また、上記実施の形態で用いたプログラムをCD‐ROM等の記録媒体に記憶して提供することもできる。また、上記実施の形態で説明した上記ステップの入れ替え、削除、追加等は本発明の要旨を変更しない範囲内で可能である。
【産業上の利用可能性】
【0070】
文書情報から文書の内容を示す文字列が抽出され、当該抽出された文字列に表記上のゆれがある場合であっても、該当箇所を一元して管理する文書処理プログラム、情報処理装置及び文書処理方法を提供する。
【符号の説明】
【0071】
1 :文書処理サーバ装置
2、3 :端末
4 :ネットワーク
5 :文書処理システム
10 :制御部
11 :記憶部
12 :通信部
100 :契約書受付手段
101 :契約書分割手段
102 :情報抽出手段
103 :正規化手段
104 :表示制御手段
110 :文書処理プログラム
111 :文書情報
112 :単位情報
113 :抽出情報
114 :正規化抽出情報