(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024098244
(43)【公開日】2024-07-23
(54)【発明の名称】文書処理支援装置および文書処理支援方法
(51)【国際特許分類】
G06F 16/34 20190101AFI20240716BHJP
G06Q 50/18 20120101ALI20240716BHJP
【FI】
G06F16/34
G06Q50/18
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023001622
(22)【出願日】2023-01-10
(71)【出願人】
【識別番号】000233055
【氏名又は名称】株式会社日立ソリューションズ
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】石田 修一
(72)【発明者】
【氏名】井奥 章
(72)【発明者】
【氏名】水上 友宏
(72)【発明者】
【氏名】斉藤 隆
【テーマコード(参考)】
5B175
5L049
5L050
【Fターム(参考)】
5B175DA01
5B175FA01
5B175HB03
5L049CC32
5L050CC32
(57)【要約】
【課題】法令チェックを行うときのチェックリスト作成や確認において、チェックリストと法令の比較の精度を向上させ、法令の内容の確認を容易にする。
【解決手段】文書処理支援装置は、チェックリストの比較単位を選択の入力を受付け、比較単位ごとに比較単位項目として分割し、比較単位項目のテキストの平均サイズを算出する。また、法令を複数の分割単位ごとに分割項目として分割し、その分割項目の平均サイズを算出し、チェックリストの比較単位項目のテキストの平均サイズと、法令の分割項目の平均サイズが最も近い法令に対する分割単位を選択し、チェックリストの分割されたテキストと、選択された分割単位の分割項目のテキストの類似度を各々算出し、両者の類似度が大きいチェックリストの比較単位項目のテキストと、法令に対する分割項目のテキストのペアを関連付けて出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の文書間の関連を出力する文書処理支援装置であって、
第一の文書の比較単位を選択の入力を受付け、入力された比較単位ごとに第一の文書を比較単位項目として分割し、
第二の文書に対する複数の分割単位に関する情報を保持し、
前記第一の文書の前記比較単位項目ごとのテキストの平均サイズを算出し、
前記第二の文書に対する複数の分割単位ごとに、前記第二の文書を複数の分割単位ごとに分割し、前記第二の文書をその分割単位に分割された分割項目の平均サイズを算出し、
前記第一の文書の前記比較単位項目ごとのテキストの平均サイズと、前記第二の文書を分割単位ごとに分割された分割項目の平均サイズが最も近い前記第二の文書に対する分割単位を選択し、
前記第一の文書の前記比較単位項目のテキストと、選択された前記第二の文書に対する分割単位に分割された分割項目の類似度を各々算出し、
両者の類似度が大きい前記第一の文書の前記比較単位項目のテキストと、前記第二の文書に対する分割単位に分割された分割項目のペアを関連付けて出力することを特徴とする文書処理支援装置。
【請求項2】
前記第一の文書は、チェックリストであることを特徴とする請求項1記載の文書処理支援装置。
【請求項3】
前記第二の文書は、法令であることを特徴とする請求項1記載の文書処理支援装置。
【請求項4】
前記類似度は、前記第一の文書の語に関するtf-idf(term frequency - inverse document frequency)値のベクトルと、前記第二の文書の語に関するtf-idf値のベクトルとのコサイン類似度により算出することを特徴とする請求項1記載の文書処理支援装置。
【請求項5】
前記法令の参照条文があるときに、参照している箇所の条文を参上されている箇所の条文のテキストに置き換えて、新たな文書を生成して、前記第二の文書に対する複数の分割単位ごとに、前記第二の文書を複数の分割単位ごとに分割し、前記第二の文書をその分割単位に分割された分割項目の平均サイズを算出することを特徴とする請求項3記載の文書処理支援装置。
【請求項6】
複数の文書間の関連を出力する文書処理支援装置による文書処理支援であって、
チェックリストの比較単位を選択の入力を受付け、入力された比較単位ごとにチェックリストを分割するステップと、
法令に対する複数の分割単位に関する情報を保持するステップと、
前記チェックリストの前記比較単位項目のごとのテキストの平均サイズを算出するステップと、
前記法令に対する複数の分割単位ごとに、前記法令を複数の分割単位ごとに分割し、前記法令をその分割単位に分割された分割項目の平均サイズを算出するステップと、
前記第一の文書の前記比較単位項目ごとのテキストの平均サイズと、前記第二の文書を分割単位ごとに分割された分割項目の平均サイズが最も近い前記第二の文書に対する分割単位を選択するステップと、
前記第一の文書の前記比較単位項目のテキストと、選択された前記第二の文書に対する分割単位に分割された分割項目の類似度を各々算出するステップと、
両者の類似度が大きい前記第一の文書の前記比較単位項目のテキストと、前記第二の文書に対する分割単位に分割された分割項目のペアを関連付けて出力するステップを有することを特徴とする文書処理支援方法。
【請求項7】
前記類似度を算出するステップにおいて、
前記類似度は、前記第一の文書の語に関するtf-idf(term frequency - inverse document frequency)値のベクトルと、前記第二の文書の語に関するtf-idf値のベクトルとのコサイン類似度により算出することを特徴とする請求項6記載の文書処理支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書処理支援装置および文書処理支援方法に係り、特に、企業などが業務においてチェックリストにより法令遵守のチェックを行うときのチェックリスト作成やチェックリストによる法令の内容の確認を行うのに好適な文書処理支援装置および文書処理支援方法に関する。
【背景技術】
【0002】
近年、企業におけるコンプライアンスの重要性が広く認識されてきている。コンプライアンスとは、「法令遵守」を意味する言葉であり、コンプライアンス違反は、企業に多大な損害を与え、最悪の場合、廃業に追い込まれるケースもあり、そのため企業経営において欠くことのできない極めて重要なものとされる。
【0003】
このように企業が事業内容と関連する法令などの規範に対して、法令遵守の確認用にチェックリストを作成して運用しているケースがある。従来では、チェックリストなどを人手で作成、確認しているため、チェックリストの作成者にとっては、チェックリストの項目に法令と照らし合わせると抜け漏れなどのエラーが発生したり、チェックリストを確認する場合も、チェックする者が関連する法令を参照する場合に手間がかかっている。このように、チェックリストの作成に当たっては、チェックリストが法令の内容を確実に網羅し、内容を性格に把握する必要があり、チェックリストの作成者にとっても、チェックリストにより項目をチェックする者にとってもこれが課題になっていた。
【0004】
このような課題を解決するために、チェックリストと関連ある法令の条文に対して対応付ける必要がある。
【0005】
これに関連する文書処理技術については、特許文献1に開示がある。特許文献1の文書処理方法では、例えば、二つの契約文書間において、単位(条毎)に関連度を算出し、その関連度に基づいて、両契約書を表示する技術が開示されている(
図12A、段落[0066]~[0068])。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】国際公開第2021/214963号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1に記載された技術は、検討中の契約文書と比較対照の契約文書に関して、単位毎に文書間の関係性を把握できるようにするものであった。
【0008】
しかしながら、特許文献1に記載された文書処理方法では、関連度を計算する項目の単位が予め定められている。この技術を、チェックリストと法令の比較に適用し、チェックリストと関連する法令を表示しようとすると、例えば比較対象とするチェックリストの項目に含まれる内容によって、対応する項目の大きさ(例えば条、項、号)などが変化する可能性があり、このような場合に対応できない。そのため、チェックリストと法令の比較の精度が低下してしまい、チェックリスト作成者にとって、抜け漏れなどのエラーが発生する可能性が高まり、チェックリストによりチェックする者にとっても、参照しにくい比較になってしまうという課題がある。
【0009】
本発明の目的は、企業などが業務においてチェックリストにより法令遵守のチェックを行うときのチェックリスト作成やチェックリストによる法令の内容の確認を行うときに、チェックリストの内容に即して、チェックリストと法令の比較単位を柔軟に変更し、チェックリスト作成者にとって、チェックリストと法令の比較の精度を向上させ、チェックする者にとって、理解しやすいチェックリストと法令の関連性を提示することのできる文書処理支援装置および文書処理支援方法を提供することにある。
【課題を解決するための手段】
【0010】
本発明の文書処理支援装置の構成は、好ましくは、複数の文書間の関連を出力する文書処理支援装置であって、第一の文書の比較単位を選択の入力を受付け、入力された比較単位ごとに第一の文書を比較単位項目として分割し、第二の文書に対する複数の分割単位に関する情報を保持し、第一の文書の比較単位項目ごとのテキストの平均サイズを算出し、第二の文書に対する複数の分割単位ごとに、第二の文書を複数の分割単位ごとに分割し、第二の文書をその分割単位に分割された分割項目の平均サイズを算出し、第一の文書の比較単位項目ごとのテキストの平均サイズと、第二の文書を分割単位ごとに分割された分割項目の平均サイズが最も近い第二の文書に対する分割単位を選択し、第一の文書の比較単位項目のテキストと、選択された第二の文書に対する分割単位に分割された分割項目の類似度を各々算出し、両者の類似度が大きい第一の文書の比較単位項目のテキストと、第二の文書に対する分割単位に分割された分割項目のペアを関連付けて出力するようにしたものである。
【発明の効果】
【0011】
本発明によれば、企業などが業務においてチェックリストにより法令遵守のチェックを行うときのチェックリスト作成やチェックリストによる法令の内容の確認を行うときに、チェックリストの内容に即して、チェックリストと法令の比較単位を柔軟に変更し、チェックリスト作成者にとって、チェックリストと法令の比較の精度を向上させ、チェックする者にとって、理解しやすいチェックリストと法令の関連性を提示することのできる文書処理支援装置および文書処理支援方法を提供することができる。
【図面の簡単な説明】
【0012】
【
図2】文書処理支援装置のハードウェア・ソフトウェア構成図である。
【
図3B】建築基準法施行令の一部の条文を示す図である。
【
図4A】分割項目を条ごとの単位にしたときの具体例を示す図である。
【
図4B】分割項目を項ごとの単位にしたときの具体例を示す図である。
【
図4C】分割項目を号ごとの単位にしたときの具体例を示す図である。
【
図5】建築基準法施行令の一部を形態素解析した結果を示す図である。
【
図6】文書全体(チェックリストと建築基準法施行令第二十四条第2項、第二十五条第1項)の形態素ベクトルを示す図である。
【
図7A】チェックリストのチェック項目のテキストの語の出現頻度ベクトルを示す図である。
【
図7B】法令チェックリストのチェック項目のテキストの語の出現頻度ベクトルを示す図である。
【
図8】語を含む文書数を要素とする文書数ベクトルを示す図である。
【
図9】実施形態1に係る文書処理支援装置によるチェックリストとそれと関連する法令を関連付けて表示する処理の詳細を示すフローチャートである。
【
図10】法令分割処理の詳細を示すフローチャートである。
【
図11】チェックリスト-法令関連付け処理の詳細を示すフローチャートである。
【
図12】チェックリスト-法令関連付け画面の一例を示す図である。
【
図13】実施形態2に係る文書処理支援装置によるチェックリストとそれと関連する法令を関連付けて表示する処理の詳細を示すフローチャートである。
【
図14】実施形態3に係る文書処理支援システムの構成図である。
【発明を実施するための形態】
【0013】
以下、本発明に係る一実施形態を、
図1ないし
図14を用いて説明する。
【0014】
〔実施形態1〕
以下、本発明に係る第一の実施形態を、
図1ないし
図12を用いて説明する。
【0015】
(I)文書処理支援装置の構成
実施形態1に係る文書処理支援装置は、スタンドアロン型で動作する形態である。
【0016】
先ず、
図1を用いて文書処理支援装置の機能構成について説明する。
文書処理支援装置100は、ユーザに対して法令をチェックするチェックリストの作成と、チェックリストと法令を関連付けるためのユーティリティ機能を提供する装置であり、
図1に示されるように、チェックリスト入力部201、法令入力部202、チェックリスト分割部203、法令分割単位選択部204、法令分割部205、類似度算出部206、類似項目取得部207、チェックリスト-法令関連表示部210、記憶部220を有する。
【0017】
チェックリスト入力部201は、外部の装置または文書処理支援装置の入力装置から、チェックリストを入力して、チェックリストデータ221として記憶部220に取り込む機能部である。
【0018】
法令入力部202は、外部の装置または文書処理支援装置の入力装置から、法令の文書を入力して、法令データ222として記憶部220に取り込む機能部である。
【0019】
チェックリスト分割部203は、ユーザの選択により、チェックリストの比較単位を選択し、選択した比較単位に応じたチェックリストデータ221のテキストを比較単位項目(詳細は、後述)に分割する機能部である。
【0020】
法令分割単位選択部204は、チェックリストの比較単位に対応した法令分割単位(詳細は、後述)を選択する機能部である。
【0021】
法令分割部205は、法令分割単位選択部で選択された法令分割単位に基づき、法令のテキストを分割項目(詳細は、後述)として分割する機能部である。
【0022】
類似度算出部206は、チェックリスト分割部203により分割されたチェックリストの比較単位項目のテキストと法令の分割項目のテキストとの類似度を算出する機能部である。
【0023】
類似項目取得部207は、分割されたチェックリストの比較単位項目のテキストと、分割された法令の分割項目のテキストの組み合わせごとに、類似度算出部206を呼び出し、その結果に従って、法令の分割項目を取得する機能部である。
【0024】
チェックリスト-法令関連表示部210は、類似度により対応付けられたチェックリストの比較単位と法令の分割項目をチェックリスト-法令関連画面に表示する機能部である。
【0025】
記憶部220は、文書処理支援装置100に必要なデータやプログラムを記憶する機能部である。
【0026】
記憶部220には、チェックリストデータ221、法令データ222、チェックリスト-法令関連付けデータ223、その他、図示しなかったがワークデータなどが保持される。
【0027】
チェックリスト-法令関連付けデータ223は、分割されたチェックリストの比較単位項目のテキストと、分割された法令の分割項目のテキストを関連付けるデータである。図示しなかったが、チェックリスト-法令関連付けデータ223として、例えば、分割されたチェックリストの比較単位項目と分割された法令の分割項目のテキストに対してそれぞれ番号付けを行い、各々の番号のペアとして保持する。
【0028】
次に、
図2を用いて文書処理支援装置100のハードウェア・ソフトウェア構成を説明する。
文書処理支援装置100のハードウェア構成としては、例えば、
図2に示されるパーソナルコンピュータのような一般的な情報処理装置で実現される。
【0029】
文書処理支援装置100は、CPU(Central Processing Unit)301、主記憶装置302、ネットワークI/F(InterFace)303、表示装置304、入出力装置305、補助記憶装置310が、バスにより結合された形態になっている。
【0030】
CPU301は、文書処理支援装置100の各部を制御し、主記憶装置302に必要なプログラムをロードして実行する。
【0031】
主記憶装置302は、通常、RAMなどの揮発メモリで構成され、CPU301が実行するプログラム、参照するデータが記憶される。
【0032】
ネットワークI/F306は、ネットワークと接続するためのインタフェースである。
【0033】
表示装置304は、LCD(Liquid Crystal Display)などの情報をユーザに視認可能な形態で表示する装置である。
【0034】
入出力装置305は、キーボードやポインティングデバイスのマウスなどのような入力装置とプリンタなどの出力装置である。
【0035】
補助記憶装置310は、磁気記憶媒体に情報を保持するHDD(Hard Disk Drive)や半導体記憶媒体に情報を保持するSSD(Solid State Drive)などの主記憶装置302と比較すると大容量の記憶装置である。
【0036】
本実施形態の補助記憶装置310は、本実施形態の文書処理支援の処理を実行するためのプログラムが格納されている。文書処理支援装置100には、チェックリスト入力プログラム311、法令入力プログラム312、チェックリスト分割プログラム313、法令分割単位選択プログラム314、法令分割プログラム315、類似度算出プログラム316、類似項目取得プログラム317、チェックリスト-法令関連表示プログラム320がインストールされている。
【0037】
チェックリスト入力プログラム311、法令入力プログラム312、チェックリスト分割プログラム313、法令分割単位選択プログラム314、法令分割プログラム315、類似度算出プログラム316、類似項目取得プログラム317、チェックリスト-法令関連表示プログラム320は、それぞれチェックリスト入力部201、法令入力部202、チェックリスト分割部203、法令分割単位選択部204、法令分割部205、類似度算出部206、類似項目取得部207、チェックリスト-法令関連表示部210の機能を実行するためのプログラムである。
【0038】
また、補助記憶装置310は、チェックリストデータ221、法令データ222、チェックリスト-法令関連付けデータ223を格納している。
【0039】
(II)文書処理支援装置の処理の概要とチェックリストと法令の具体例
次に、
図3Aおよび
図3Bを用いて本実施形態の文書処理支援装置の処理の概要とチェックリストと法令の具体例について説明する。
【0040】
本実施形態の文書処理支援装置の処理は、ユーザが与えられたチェックリストに対して、所望の比較単位(1行、2行、チェック項目など)を指定し、その比較単位に対応したサイズの分割単位(条、項、号)に法令を分割して、各々のチェックリストの比較単位項目のテキストに対して関連する法令の分割項目のテキストを表示するものである。
【0041】
その際に、指定された比較単位に適切な法令の分割単位を定めるときには、比較単位に分割したチェックリストの比較単位項目の平均サイズに対して、法令の分割項目の平均サイズが最も近い分割単位を選択する。
【0042】
そして、分割したチェックリストの比較単位項目のテキストに対して、法令の分割項目のテキストの類似度を算出し(類似度の算出の詳細は、後述)、類似度が最も大きくなった、あるいは、所定の閾値より大きくなった法令の分割項目を、チェックリストと関連する分割項目であるとして表示する。
【0043】
また、分割したチェックリストの比較単位項目のテキストに対して、類似度が大きい所定数の法令の分割項目を関連するものとして表示するようにしてもよい。
【0044】
本実施形態では、法令が建築基準法施行令(昭和二十五年政令第三百三十八号:建築基準法(昭和二十五年法律第二百一号)の規定に基づく政令)であり、例えば、建築業者が、それに対応する建築設計をする場合に用いられるチェックリストを作成する場合を例に採って説明する。
【0045】
建築業者は、
図3Aに示されるように、踊場と階段に関するチェックリスト600を作成し、建築基準法施行令の関連あるテキストを表示したい希望しているとする。
【0046】
図3Bは、建築基準法施行令の一部として、踊場と階段に関するチェックリスト600と関連する可能性のある建築基準法施行令の第二十四条ないし第二十六条700を示したものである。
【0047】
(III)法令の分割項目
次に、
図3B、
図4Aないし
図4Cを用いて、上記のように、対象とする法令が建築基準法施行令であるときの法令の分割項目の具体例について説明する。
【0048】
一般に、法令の実務として、法令文は条、項、号で見出しがつけられており、条番号は第X号(Xは漢数字、うしろに「のY」(Yは漢数字)が付く場合もある)、項番号は単独のアラビア数字、号番号は単独の漢数字で表記されている。また、法令文では第1項には見出しがつけられないのが通例になっている。
【0049】
なお、法令の分割単位の情報に関しては、図示しなかったが、予めシステムが記憶装置のテーブルなどに保持しているものとする。
【0050】
図4Aは、分割項目を条ごとの単位にしたときの例であり、この例では、法令文が条ごとに分割され、リストとなっている。
【0051】
図4Bは、分割項目を項ごとの単位にしたときの例であり、この例では、法令文が項ごとに分割され、リストとなっている。
【0052】
法令の分割単位として、対象となる分割単位(この例は項)より上位の分割単位が(この例では条)、下位の分割単位(項)を有しないときには、それより上位の分割単位(条)の分割項目は、一つの分割単位で分割するものとする。
【0053】
図4Cは、分割項目を号ごとの単位にしたときの例であり、この例では、法令文が号ごとに分割され、リストとなっている。
【0054】
法令の分割単位として、対象となる分割単位(この例は号)より上位の分割単位が(この例では条または項)、下位の分割単位(号)を有しないときには、それより上位の分割単位(条または項)の分割項目は、一つの分割単位で分割するものとする。
【0055】
(IV)チェックリストのテキストと法令のテキストの類似度算出
次に、既出の
図3A、
図3B、
図5ないし
図8を用いて上記のチェックリストの分割された比較単位項目のテキストと法令の分割項目のテキストの類似度を算出する処理の詳細について説明する。
【0056】
文書(Document)の類似度を計算する方法としては、自然言語処理によるものや、機械学習を用いるものなど、既存の方法として様々なものが存在するが、本実施形態では、tf-idfを用いた方法を説明する。
【0057】
tf-idf(term frequency - inverse document frequency)とは、各文書中に含まれる各単語(term)が「その文書内でどれくらい重要か」を表す統計的尺度の一つであり、具体的には「ある文書内」で「ある単語」が「どれくらい多い頻度で出現するか」を表すtf(term frequency:単語頻度)値と、「全文書中」で「ある単語を含む文書」が「(逆に)どれくらい少ない頻度で存在するか」を表すidf(inverse document frequency:逆文書頻度)値を掛け合わせた値となる。
【0058】
本実施形態の文書の類似度の算出においては、tf-idf値により、複数の文書間の全単語に対して行うことで、各文章を構成する単語群を数値群によるベクトルに置き換える(vectorize:ベクトル化)。そして、このように数値化された文書ごとのベクトルは「各文書の特徴」を表現している(feature vector:特徴ベクトル)とみなして、互いの特徴ベクトルのコサイン類似度を算出し、算出されたコサイン類似度より互いの文書の類似性を判定する。
【0059】
対象とする文書としては、
図3Aに示したチェック項目1のテキスト601、チェック項目2のテキスト602、法令の分割項目のテキストとしては、
図3Bに示した第二十四条第2項のテキスト701、第二十五条第1項のテキスト702を例にとり説明する。
【0060】
先ず、チェック項目1のテキスト601、チェック項目2のテキスト602を、例えば、MeCabなどの形態素解析ツールにより、形態素分析すると、
図5に示されるように、チェック項目1のテキスト601の形態素解析結果611、チェック項目2のテキスト602は、それぞれ、[‘踊場’, ‘の’, ‘踏幅’, ‘は’, ‘、’, ‘一’, ‘・’, ‘二’, ‘メートル’, ‘以上’, ‘で’, ‘ある’, ‘こと’]、[‘階段’, ‘に’, ‘は’, ‘手すり’, ‘を’, ‘設置’, ‘する’, ‘こと']となる。
【0061】
同様に、第二十四条第2項のテキスト701の形態素解析結果711、第二十五条第1項のテキスト702の形態素解析結果712は、それぞれ、[‘前項’, ’の’, ‘規定’, ‘に’, ‘よ’, ‘つて’, ‘設ける’, ‘直’, ‘階段’, ‘の’, ‘踊場’, ‘の’, ‘踏幅’, ‘は’, ‘、’, ‘一’, ‘・’, ‘二’, ‘メートル’, ‘以上’, ‘と’, ‘し’, ‘なけれ’, ‘ば’, ‘なら’, ‘ない’]、[‘階段’, ‘に’, ‘は’, ‘、’, ‘手すり’, ‘を’, ‘設け’, ‘なけれ’, ‘ば’, ‘なら’, ‘ない’]となる。なお「チェック項目1」や「第二十四条」などの見出し文字や、空白は除去している。
【0062】
ここで、MeCab(Yet Another Part-of-Speech and Morphological Analyzer)とは、京都大学情報学研究科-日本電信電話株式会社コミュニケーション科学基礎研究所の共同研究ユニットプロジェクトを通じて開発されたオープンソースの形態素解析エンジンである。
【0063】
次に、文書全体(チェックリストと建築基準法施行令第二十四条第2項、第二十五条第1項)で出現するすべての形態素を洗い出し、
図5に示されるようなそれぞれの要素が一つの形態素(語)に対応する形態素ベクトル800を扱うこととする。本例では、それぞれの要素が[‘踊場’, ‘の’, ‘踏幅’, ‘は’, ‘、’, ‘一’, ‘・’, ‘二’, ‘メートル’, ‘以上’, ‘で’, ‘ある’, ‘こと’, ‘階段’, ‘に’, ‘手すり’, ‘を’, ‘設置’, ‘する’, ‘前項’, ‘規定’, ‘よ’, ‘つて’, ‘設ける’, ‘直’, ‘と’, ‘し’, ‘なけれ’, ‘ば’, ‘なら’, ‘ない’, ‘設け’]に対応する32個の要素を有するベクトルになる。
【0064】
次に、比較対象となるチェック項目1のテキスト601、第二十四条第2項のテキスト701のtf値を計算する。tf値は、既に説明したように、「ある文書内」で「ある単語」が「どれくらい多い頻度で出現するか」を表す統計的な値であり、語ti(i=1,…,n)、文書dj(j=1,…,m)の中の語tiのtf値を、tf(ti,dj)とすると、以下の(式1)で表される。
【0065】
【0066】
ここで、mは、文書の数(本例では、4)であり、nは、m個の文書の中の全ての語の数(本例では、32)である。また、f(ti,dj)は、文書djに含まれる語tの出現頻度tiであり、(式1)の分母は、文書djに含まれる全ての語の総数となる。
【0067】
チェック項目1のテキスト601を、ベクトル800の要素に対応した出現頻度ベクトル801として表現すると、
図7Aに示されるように、[1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]となる。
【0068】
同様に、第二十四条第2項のテキスト701を、形態素ベクトル800の要素に対応した出現頻度ベクトル811として表現すると、
図7Bに示されるように、
[1,3,1,1,1,1,1,1,1,1,0,0,0,1,1,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,0]となる。
【0069】
一方、(式1)の分母は、それぞれの文書内に出現する全ての語の総回数となるため、チェック項目1のテキスト601の場合は、13、第二十四条第2項のテキスト701の場合は、26となる。
【0070】
よって、形態素ベクトル800の要素に対応したチェック項目1のテキスト601、第二十四条第2項のテキスト701のtf値のベクトルは、それぞれ、[1/13,1/13,1/13,1/13,1/13,1/13,1/13,1/13,1/13,1/13,1/13,1/13,1/13,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]、
[1/26,3/26,1/26,1/26,1/26,1/26,1/26,1/26,1/26,1/26,0,0,0,1/26,1/26,0,0,0,0,1/26,1/26,1/26,1/26,1/26,1/26,1/26,1/26,1/26,1/26,1/26,1/26,0]となる。
【0071】
次に、比較対象となるチェック項目1のテキスト601、第二十四条第2項のテキスト701のidf値を計算する。idf値は、既に説明したように、「全文書中」で「ある単語を含む文書」が「(逆に)どれくらい少ない頻度で存在するか」を表す統計的な値であり、語ti(i=1,…,n)、文書dj(j=1,…,m)の中の語tiのidf値を、idf(ti,{dj})とすると、以下の(式2)で表される。
【0072】
【0073】
ここで、Count(ti,{dj})は、文書全体の集合{dj}の中で、語tiを含む文書の個数である。
【0074】
mは、本例では4、語t
iを含む文書の数を各単語に対応するベクトルを、文書数ベクトル900で表現すると、
図8に示されるように、
[2,2,2,4,2,2,2,2,2,2,1,1,2,3,3,2,2,1,1,1,1,1,1,2,1,1,1,2,2,2,2,1]
となるので、
各語に対応するidf値のベクトルは、
[2/log4,2/log4,2/log4,4/log4,2/log4,2/log4,2/log4,2/log4,2/log4,2/log4,1/log4,1/log4,2/log4,3/log4,3/log4,2/log4,2/log4,1/log4,1/log4,1/log4,1/log4,1/log4,1/log4,2/log4,1/log4,1/log4,1/log4,2/log4,2/log4,2/log4,2/log4,1/log4]となる。
【0075】
次に、tf-idf値を計算する。文書dj(j=1,…,m)の中の語tiのtf-idf値を、tf-idf(ti,dj)とすると、以下の(式3)で表される。
【0076】
【0077】
これにより、チェック項目1のテキスト601の各語に対応するtf-idf値のベクトルは、
[2/13log4,2/13log4,2/13log4,4/13log4,2/13log4,2/13log4,2/13log4,2/13log4,2/13log4,2/13log4,1/13log4,1/13log4,2/13log4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]となり、
また、第二十四条第2項のテキスト701の各語に対応するtf-idf値のベクトルは、
[1/13log4,3/13log4,1/13log4,2/13log4,1/13log4,1/13log4,1/13log4,1/13log4,1/13log4,1/13log4,0,0,0,3/26log4,3/26log4,0,0,0,0,1/26log4,1/26log4,1/26log4,1/26log4,1/13log4,1/26log4,1/26log4,1/26log4,1/13log4,1/13log4,1/13log4,1/13log4,0]となる。
【0078】
次に、チェック項目1のテキスト601と第二十四条第2項のテキスト701の類似度を各々のtf-idf値のベクトルを特徴ベクトルとしたときのコサイン類似度を用いて計算するtf-idf値のベクトルの要素は、各々の要素が0以上なので、コサイン類似度は、0以上、1以下となり、1に近いほど、各々の特徴ベクトルは、類似すると解釈できる。
【0079】
一般に、N次元ベクトルv=(x1,x2,…,xN)と、w=(y1,y2,…, yN)のコサイン類似度CosSim(v,w)は、以下の(式4)で表される。
【0080】
【0081】
ここで、(v,w)は、ベクトルvとベクトルwの内積である。
【0082】
vに、上記のチェック項目1のテキスト601の各語に対応するtf-idf値のベクトルを代入し、wに、第二十四条第2項のテキスト701の各語に対応するtf-idf値のベクトルを(式4)に代入すると、それらのコサイン類似度は、
0.705(少数点4桁以下を四捨五入)と計算できる。
【0083】
また、同様にして、第二十五条第1項のテキスト702の各語に対応するtf値のベクトルは、
[0,0,0,1/11,0,0,0,0,0,0,0,0,0,1/11,1/11,1/11,1/11,0,0,0,0,0,0,1/11,0,0,0,1/11,1/11,1/11,1/11,1/11]であり、
tf-idf値のベクトルは、
[0,0,0,2/11log4,0,0,0,0,0,0,0,0,0,2/11log4,2/11log4,2/11log4,2/11log4,0,0,0,0,0,0,2/11log4,0,0,0,2/11log4,2/11log4,2/11log4,2/11log4,2/11log4]となる。
【0084】
vに、上記のチェック項目1のテキスト601の各語に対応するtf-idf値のベクトルを代入し、第二十五条第1項のテキスト702の各語に対応するtf-idf値のベクトルを(式4)に代入すると、それらのコサイン類似度は、0.0386(少数点4桁以下を四捨五入)と計算できる。
【0085】
したがって、チェック項目1のテキスト601と第二十四条第2項のテキスト701のコサイン類似度の方が、チェック項目1のテキスト601と第二十五条第1項のテキスト702のコサイン類似度よりも1に近く、第二十四条第2項のテキスト701が、第二十五条第1項のテキスト702よりも、チェック項目1のテキスト601に類似していると判定することができる。
【0086】
なお、本実施形態では、チェックリストと法令から分割して抽出したすべての形態素に対してtf-idf値のベクトルのコサイン類似度により、文書の類似度を判定する例を説明したが、予め、法制度上重要な単語(Keyword)をリストとして用意しておき、リストに含まれる語のみを抽出して類似度計算を行う方法や、語の品詞に着目して、特定の品詞の語のみを類似度計算に用いる方法など、類似度計算の方法にはいくつかのバリエーションが考えられ、それらの方法を用いてもよい。
【0087】
(V)文書処理支援装置の処理の詳細
次に、
図9および
図11を用いて文書処理支援装置によるチェックリストとそれと関連する法令を関連付けて表示する処理の詳細について説明する。
【0088】
先ず、ユーザは、チェックリストデータ221の中の比較対象とするチェックリストを選択する(S101)。例えば、
図3Aに示されるような踊場と階段に関するチェックリスト600である。
【0089】
次に、ユーザは、法令データ222の中から、S101で選択したチェックリストと関連する法令を選択する(S102)。例えば、
図3Bに示されるような踊場と階段に関する建築基準法施行令である。これは、ユーザが明示的に指定してもよいし、システム側で、チェックリストとそれと関連する法令データのリストデータを保持し、それから文書処理支援装置が自動的に選択するようにしてもよい。ここで、法令を複数選択、あるいは、複数の法令を含む法令群を選択できるようにしてもよい。
【0090】
次に、ユーザは、選択したチェックリストの比較単位(1行、2行、チェック項目など)を選択する(S103)。
【0091】
次に、文書処理支援装置100は、S103で選択されたチェックリストの比較単位により、チェックリストを比較単位項目に分割する(S104)。
【0092】
次に、文書処理支援装置100は、選択されたチェックリストと関連する法令に対して、法令分割処理を行う(S105)。法令分割処理の詳細は、後に、
図10を用いて説明する。
【0093】
次に、文書処理支援装置100は、S105の法令分割処理の結果に基づいて、チェックリストの比較単位項目とテキストと法令の分割項目ごとに、チェックリスト-法令関係付け処理を行う(S106)。チェックリスト-法令関連付け処理の詳細は、
図11を用いて説明する。
【0094】
次に、文書処理支援装置100は、S106の結果に基づいて、チェックリスト-法令関連付け画面の表示を行う(S107)。チェックリスト-法令関連付け画面の具体的なユーザインタフェースは、後に説明する。
【0095】
次に、
図10を用いて法令分割処理の詳細について説明する。
この処理は、
図9のS105に該当する処理であり、チェックリストの比較単位項目のテキストのリストと、そのチェックリストに関連する法令のテキストを入力して、分割項目のリストとして返す処理である。
【0096】
先ず、文書処理支援装置100は、比較単位に、チェックリストの比較単位項目のテキストのサイズを取得し、平均値を計算する(S201)。
【0097】
ここでは、テキストのサイズというのは、例えば、テキストの文字数とする。また、例えば、上述のMeCabなどの形態素解析ツールにより解析された形態素の数など、他の基準であってもよい。
【0098】
次に、文書処理支援装置100は、システムで定義されている全ての法令の分割単位に対して、S203、S204の処理を繰り返す(S202-S205)。
【0099】
S202-S205のループでは、文書処理支援装置100は、一つの法令の分割単位を選択し(S202)、選択した法令の分割単位で法令を分割する(S203)。
【0100】
次に、文書処理支援装置100は、分割した法令の分割項目の平均サイズを計算し、記憶する(S204)。
【0101】
S202-S205のループを抜けて、文書処理支援装置100は、S201で計算した分割したチェックリストのテキストの平均サイズと、法令の分割項目の平均サイズが最も近くなるような分割単位を選択する(S206)。
【0102】
次に、文書処理支援装置100は、S206で選択された分割単位の分割項目のリストを返す(S207)。分割項目のリストの戻り値としては、例えば、String型の配列として、Call側に返せばよい。
【0103】
次に、
図11を用いてチェックリスト-法令関連付け処理の詳細について説明する。
先ず、文書処理支援装置100は、分割したチェックリストのテキストの全てに対して、分割したチェックリストのテキストの一つを選択し、S302-S307の処理を繰り返す(S301-S308)。
【0104】
S301-S308のループでは、文書処理支援装置100は、法令の分割項目の全てに対して、法令の分割項目の一つを選択し、S303-S306の処理を繰り返す(S302-S307)。
【0105】
S302-S307のループでは、文書処理支援装置100は、選択された分割したチェックリストのテキスト、選択された法令の分割項目に対して形態素解析を行う(S303)。
【0106】
次に、文書処理支援装置100は、S303の形態素解析に基づき、選択された分割したチェックリストのテキスト、選択された法令の分割項目の各々の語のtf-idf値のベクトルを算出する(S304、(式1)~(式3))。
【0107】
次に、S304で算出された各々の語のtf-idf値のベクトルを特徴ベクトルとして、それらのコサイン類似度を計算する(S305)。
【0108】
次に、文書処理支援装置100は、S305で算出されたコサイン類似度が一定の閾値以上(例えば、0.7以上)の分割したチェックリストのテキストと法令の分割項目のペアを、チェックリスト-法令関連付けデータ223に関連するものとして設定する(S306)。
【0109】
なお、S306の代わりに、分割したチェックリストのテキストと法令の分割項目のペアのコサイン類似度を記憶しておき、その中で一番大きいもの(1に近いもの)を、S307とS308の間で選択し、該当するチェックリストのテキストと法令の分割項目のペアを、関連するものとしてチェックリスト-法令関連付けデータ223に関連するものとして設定するようにしてもよい。
【0110】
(VI)文書処理支援装置の提供するユーザインタフェース
次に、
図12を用いて文書処理支援装置のユーザユーザインターフェイスについて説明する。
チェックリスト-法令関連付け画面は、ユーザに対して、チェックリストの選択、法令の選択、チェックリストの比較単位の選択、チェックリスト-法令関連付けの指示を行えるようにし、選択されたチェックリストのテキストの表示、選択された法令の表示、チェックリスト-法令関連付けの結果の表示を行うユーティリティ画面である。
【0111】
チェックリスト-法令関連付け画面1000は、
図12に示されるように、チェックリスト選択リスト1001と、チェックリスト表示エリア1002と、チェックリスト比較単位選択リスト1003と、法令選択リスト1004と、法令表示エリア1005と、関連付け開始ボタン1006と、関連付け結果表示エリア1007を有する。
【0112】
チェックリスト選択リスト1001は、文書処理支援装置が有するチェックリストデータ221に保持されたチェックリストをドロップダウンリストなどで表示して、ユーザが選択することができるようにするアイテムである。ドロップダウンリストの代わりに、ファイル選択ウインドウを表示するなどの方法も考えられる。また、ユーザが外部からデータを取得して設定可能としてもよい。
【0113】
チェックリスト表示エリア1002は、チェックリスト選択リスト1001で選択したチェックリストの内容を表示するエリアである。
図12に示される例では、
図3Aに示した踊場と階段に関するチェックリスト600のテキストが表示されている。
【0114】
チェックリスト比較単位選択リスト1003は、設定されている比較単位(1行、2行、チェック項目など)をドロップダウンリストなどで表示して、ユーザが選択することができるようにするアイテムである。ユーザが選択したチェックリストの比較単位に応じて、チェックリスト表示エリアの表示テキストを区切って表示してもよい。
【0115】
法令選択リスト1004は、法令データ222に保持された法令をドロップダウンリストなどで表示して、ユーザが選択することができるようにするアイテムである。ドロップダウンリストの代わりに、ファイル選択ウインドウを表示するなどの方法も考えられる。また、ユーザが外部からデータを取得して設定可能としてもよい。比較対象とする法令の複数選択に対応するように、チェックボックスのようなアイテムで選択できるようにしてもよい。
【0116】
法令表示エリア1005は、法令選択リスト1004で選択した法令の内容を表示するエリアである。
図12では、建築基準法施行令の第二十四条ないし第二十六条700の一部が示されている。
【0117】
関連付け開始ボタン1006は、チェックリスト選択エリア1002で選択されたチェックリストの内容をチェックリストと比較単位選択エリアで選択したチェックリストの比較単位で分割したテキストのリストと、法令選択リスト1004で選択された法令の内容を入力として、ユーザに各々の関連付けの表示の指示をさせるボタンである。
【0118】
関連付け結果表示エリア1007は、関連付け開始ボタン1006のクリックをしたときに実行したチェックリストと法令の関連結果を表示するエリアである。また、結果の表示方法として、チェックリスト表示エリア1002内のチェックリストの項目をクリックすると、法令表示エリア1005にクリックしたチェックリストの項目に類似する法令文の項目を表示するインタフェースを提供してもよい。
【0119】
以上のように、本実施形態の文書処理支援装置は、チェックリストを指定された比較単位で分割した各テキストのサイズに応じて、比較対象となる法令の分割方法を適切に選択し、分割したチェックリストと法令文の各項目の類似度を、自然言語処理などを用いて計算し、チェックリストと類似する法令の箇所をユーザに提示することにより、ユーザはチェックリストの法令への対応具合や抜け漏れなどを効率的に確認することができる。これにより、チェックリストの作成者にとっても、法令に準じた抜け漏れのない精度の高いチェックリストを作成することができ、チェックリストによりチェックを行うものにとっても法令の参照条文を効率よく参照して確認することができる。
【0120】
また、本実施形態では、比較する文書をチェックリストと法令として説明したが、文書は別のテキストでもよい。例えば、業務などの会社マニュアルに対する業務従事者のチェックリストであってもよいし、製造業における製品組み立ての際の品質確認のマニュアルに対する作業従事者のチェックリストであってもよい。
【0121】
本実施形態では、法令に対する分割単位として、条、項、号で説明したが、テキストの特性に応じた文書の分割単位を用いる形態も考えられる。例えば、章(Chapter)、節(Section)、項(Item)などであってもよい。
【0122】
〔実施形態2〕
以下、本発明に係る第二の実施形態を、
図3Bおよび
図13を用いて説明する。
【0123】
実施形態1の文書処理支援装置では、法令の内容をそのまま分割して、チェックリストの分割したテキストと類似度を見ることにより、チェックリストと法令の関連を判定してきた。
【0124】
しかしながら、法令の記述形式としては、他の条文を参照して記述する書法が一般的である。本実施形態では、そのような他の条文する記述形式に対応するものである。
【0125】
本実施形態では、ある条文がその法令の他の条文、また、他の法令の条文を参照するときに、参照する条文のテキストを挿入して、内容的に等価な法令のテキストを生成することを可能にするものである。本実施形態の説明では、実施形態1の文書処理支援装置の構成と処理をベースにして、異なったところを説明する。
【0126】
例えば、
図3Bに示したように、建築基準法施行令第二十五条第4項は、「前三項の規定は、高さ一メートル以下の階段の部分には、適用しない。」となっている。ここで、『前三項』が参照部分である。したがって、本実施形態の文書処理支援装置では、第二十五条第1項~第3項のテキストを挿入して、建築基準法施行令第二十五条第4項のテキストとしては、「『階段には、手すりを設けなければならない。』、『階段及びその踊場の両側(手すりが設けられた側を除く。)には、側壁又はこれに代わるものを設けなければならない。』、『階段の幅が三メートルをこえる場合においては、中間に手すりを設けなければならない。ただし、けあげが十五センチメートル以下で、かつ、踏面が三十センチメートル以上のものにあっては、この限りでない。』の規定は、高さ一メートル以下の階段の部分には、適用しない。」が生成される。
【0127】
また、建築基準法施行令第二十六条第2項は、「前三条の規定(けあげ及び踏面に関する部分を除く。)は、前項の傾斜路に準用する。」となっているので、参照部分は『前三条』、『前項』となる。したがって、建築基準法施行令第二十六条の前三条に該当する建築基準法施行令第二十三条(図示せず)(および第二十三条がさらに、参照する条文も含む)、第二十四条、第二十五条と、建築基準法施行令第二十六条第2項の前項に該当する建築基準法施行令第二十六条第1項のテキストが挿入されたテキストを生成する。
【0128】
本実施形態の文書処理支援装置によるチェックリストとそれと関連する法令を関連付けて表示する処理では、
図13に示したように、実施形態1の
図9に示した処理のS102とS103の間に、法令の参照テキスト挿入処理が行われ(S110)、以降のテキスト処理では、S110で生成された法令のテキストが対象となる。
【0129】
本実施形態によれば、法令の参照記述形式を考慮して、チェックリストと法令のテキストを関連付けすることができる。
【0130】
〔実施形態3〕
以下、本発明に係る実施形態3を、
図14を用いて説明する。
【0131】
実施形態1の文書処理支援装置では、PCなどのように、スタンドアロン型の情報処理装置により、チェックリストと法令の関連付けをする例を示した。
【0132】
本実施形態では、チェックリストと法令の関連付けの方法は、同じであるがシステムの構成を異ならせて、クラウドシステム(文書処理支援システム)により行うものである。
【0133】
本実施形態の文書処理支援システムは、
図14に示されるように、文書処理支援装置100、類似度算出装置110、インターネット10、イントラネット20、ファイアウォール15、ユーザ端末5からなる。
【0134】
文書処理支援装置100は、実施形態1と同様に、ユーザに対して法令をチェックするチェックリストの作成と、チェックリストと法令を関連付けるためのユーティリティ機能を提供する装置である。
【0135】
本実施形態の文書処理支援装置100では、外部の類似度算出装置110の機能を利用して、文書の類似度を算出することにしている。もとより、文書処理支援装置100は、実施形態1と同様、文書の類似度を算出する機能を含んでいてもよい。
【0136】
ユーザ端末5は、ユーザがチェックリストの作成やチェックリストと法令比較のためのコマンドやデータを入力するためのスマートフォン、タブレット、ラップトップPC、デスクトップPCなどの端末である。ユーザ端末は一般的なWebブラウザが動作することを想定している。なお、ユーザ端末5は、ユーザごとに異なる端末を利用するなど、複数台存在してもよい。
【0137】
図14に示した例は、文書処理支援装置100と類似度算出装置110ユーザ端末5がイントラネット20で接続された例を示している。イントラネット20の接続は、有線でもWifiなどの無線のいずれでもよい。
【0138】
イントラネット20は文書処理支援装置100、類似度計算装置102、そしてファイアウォール15を介してインターネット10を接続し、機器間のデータ通信を可能とするネットワークである。
【0139】
また、イントラネット20は、ファイアウォール15を介して、外部のインターネット10と接続されている。ここで、ファイアウォール15は、インターネット10とイントラネット20間を接続し、通信内容に応じて適切な機器当てにメッセージを転送したり、不適切な通信を遮断したりする装置またはソフトウェアである。
【0140】
本実施形態の文書処理支援システムによれば、ユーザは、クラウドのサービスを利用することにより、チェックリストと法令の関連を確認することができる。
【符号の説明】
【0141】
5…ユーザ端末、15…ファイアウォール、10…インターネット、20…イントラネット、100…文書処理支援装置、110…類似度算出装置、
201…チェックリスト入力部、202…法令入力部、203…チェックリスト分割部、204…法令分割単位選択部、205…法令分割部、206…類似度算出部、207…類似項目取得部、210…チェックリスト-法令関連表示部、220…記憶部、
221…チェックリストデータ、222…法令データ、223…チェックリスト-法令関連付けデータ