IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 前田建設工業株式会社の特許一覧

特開2024-110534類似度算出システム、類似度算出方法、プログラム
<>
  • 特開-類似度算出システム、類似度算出方法、プログラム 図1
  • 特開-類似度算出システム、類似度算出方法、プログラム 図2
  • 特開-類似度算出システム、類似度算出方法、プログラム 図3
  • 特開-類似度算出システム、類似度算出方法、プログラム 図4
  • 特開-類似度算出システム、類似度算出方法、プログラム 図5
  • 特開-類似度算出システム、類似度算出方法、プログラム 図6
  • 特開-類似度算出システム、類似度算出方法、プログラム 図7A
  • 特開-類似度算出システム、類似度算出方法、プログラム 図7B
  • 特開-類似度算出システム、類似度算出方法、プログラム 図7C
  • 特開-類似度算出システム、類似度算出方法、プログラム 図7D
  • 特開-類似度算出システム、類似度算出方法、プログラム 図7E
  • 特開-類似度算出システム、類似度算出方法、プログラム 図8
  • 特開-類似度算出システム、類似度算出方法、プログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024110534
(43)【公開日】2024-08-16
(54)【発明の名称】類似度算出システム、類似度算出方法、プログラム
(51)【国際特許分類】
   G06F 16/38 20190101AFI20240808BHJP
【FI】
G06F16/38
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023015155
(22)【出願日】2023-02-03
(71)【出願人】
【識別番号】000201478
【氏名又は名称】前田建設工業株式会社
(74)【代理人】
【識別番号】110000154
【氏名又は名称】弁理士法人はるか国際特許事務所
(72)【発明者】
【氏名】遠藤 正史
(72)【発明者】
【氏名】伊藤 竜馬
(72)【発明者】
【氏名】▲崎▼浦 大樹
(72)【発明者】
【氏名】荒木 広夢
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175HB03
5B175JC05
(57)【要約】
【課題】類似度を精度良く算出可能な類似度算出システム100を提供する。
【解決手段】類似度算出システム100は、対象文書データに含まれる複数の用語のうち少なくともいずれか1つと共通の用語を含む複数の類似文書データを取得する取得部23と、複数の類似文書データそれぞれに含まれる共通の用語の数に基づいて、共通の用語を評価する評価部25と、評価部25による、複数の類似文書データそれぞれに含まれる1又は複数の共通の用語の評価結果に基づいて、対象文書データに対する複数の類似文書データそれぞれの類似度を算出する類似度算出部26と、を含む。
【選択図】図4

【特許請求の範囲】
【請求項1】
対象文書データに含まれる複数の用語のうち少なくともいずれか1つと共通の用語を含む複数の類似文書データを取得する取得部と、
前記複数の類似文書データそれぞれに含まれる前記共通の用語の数に基づいて、前記共通の用語を評価する評価部と、
前記評価部による、前記複数の類似文書データそれぞれに含まれる1又は複数の前記共通の用語の評価結果に基づいて、前記対象文書データに対する前記複数の類似文書データそれぞれの類似度を算出する類似度算出部と、
を含む類似度算出システム。
【請求項2】
前記評価部は、少なくとも第1の共通の用語を含む1又は複数の前記類似文書データに含まれる前記共通の用語の数に基づいて、当該第1の共通の用語を評価する、
請求項1に記載の類似度算出システム。
【請求項3】
前記評価部は、少なくとも第2の共通の用語を含む1又は複数の前記類似文書データに含まれる前記共通の用語の数に基づいて、当該第2の共通の用語を評価し、
前記類似度算出部は、少なくとも前記第1の共通の用語の評価結果と前記第2の共通の用語の評価結果を合算することで、少なくとも前記第1の共通の用語及び第2の共通の用語を含む1又は複数の前記類似文書データの前記類似度を算出する、
請求項2に記載の類似度算出システム。
【請求項4】
前記類似度が高い順に前記複数の類似文書データを並び替えて、前記複数の類似文書データに関する情報を表示させる表示制御部を含む、
請求項1に記載の類似度算出システム。
【請求項5】
前記複数の類似文書データそれぞれを、それらに含まれる複数の用語と紐づけて記憶する類似文書データ記憶部を含む、
請求項1に記載の類似度算出システム。
【請求項6】
対象文書データに含まれる複数の用語のうち少なくともいずれか1つと共通の用語を含む複数の類似文書データを取得する手順と、
前記複数の類似文書データそれぞれに含まれる前記共通の用語の数に基づいて、前記共通の用語を評価する手順と、
前記評価する手順における前記複数の類似文書データそれぞれに含まれる1又は複数の前記共通の用語の評価結果に基づいて、前記対象文書データに対する前記複数の類似文書データそれぞれの類似度を算出する手順と、
を含む類似度算出方法。
【請求項7】
対象文書データに含まれる複数の用語のうち少なくともいずれか1つと共通の用語を含む複数の類似文書データを取得する手順と、
前記複数の類似文書データそれぞれに含まれる前記共通の用語の数に基づいて、前記共通の用語を評価する手順と、
前記評価する手順における前記複数の類似文書データそれぞれに含まれる1又は複数の前記共通の用語の評価結果に基づいて、前記対象文書データに対する前記複数の類似文書データそれぞれの類似度を算出する手順と、
をコンピュータに実行させるプログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、類似度算出システム、類似度算出方法、及びプログラムに関する。
【背景技術】
【0002】
従来、特許文献1に開示されるように、類似する文書を検索する技術が用いられている。また、例えば、ある事業計画書と類似する事業計画書を検索したい場合、それら文書に共通で用いられる用語に基づいて検索を行うとよい。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005-43977号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の手法においては、対象の事業計画書の特徴を表すような用語が共通する文書のみならず、一般的な用語が多く共通する事業計画書が検索結果として取得されることとなってしまう。すなわち、類似度が低い文書データが検索結果として取得されることとなってしまう。
【0005】
本発明の目的は、類似度を精度良く算出可能な類似度算出システム、類似度算出方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決すべく本出願において開示される発明は種々の側面を有しており、それら側面の代表的なものの概要は以下のとおりである。
【0007】
(1)対象文書データに含まれる複数の用語のうち少なくともいずれか1つと共通の用語を含む複数の類似文書データを取得する取得部と、前記複数の類似文書データそれぞれに含まれる前記共通の用語の数に基づいて、前記共通の用語を評価する評価部と、前記評価部による、前記複数の類似文書データそれぞれに含まれる1又は複数の前記共通の用語の評価結果に基づいて、前記対象文書データに対する前記複数の類似文書データそれぞれの類似度を算出する類似度算出部と、を含む類似度算出システム。
【0008】
(2)(1)において、前記評価部は、少なくとも第1の共通の用語を含む1又は複数の前記類似文書データに含まれる前記共通の用語の数に基づいて、当該第1の共通の用語を評価する、類似度算出システム。
【0009】
(3)(2)において、前記評価部は、少なくとも第2の共通の用語を含む1又は複数の前記類似文書データに含まれる前記共通の用語の数に基づいて、当該第2の共通の用語を評価し、前記類似度算出部は、少なくとも前記第1の共通の用語の評価結果と前記第2の共通の用語の評価結果を合算することで、少なくとも前記第1の共通の用語及び第2の共通の用語を含む1又は複数の前記類似文書データの前記類似度を算出する、類似度算出システム。
【0010】
(4)(1)~(3)のいずれかにおいて、前記類似度が高い順に前記複数の類似文書データを並び替えて、前記複数の類似文書データに関する情報を表示させる表示制御部を含む、類似度算出システム。
【0011】
(5)(1)~(4)のいずれかにおいて、前記複数の類似文書データそれぞれを、それらに含まれる複数の用語と紐づけて記憶する類似文書データ記憶部を含む、類似度算出システム。
【0012】
(6)対象文書データに含まれる複数の用語のうち少なくともいずれか1つと共通の用語を含む複数の類似文書データを取得する手順と、前記複数の類似文書データそれぞれに含まれる前記共通の用語の数に基づいて、前記共通の用語を評価する手順と、前記評価する手順における前記複数の類似文書データそれぞれに含まれる1又は複数の前記共通の用語の評価結果に基づいて、前記対象文書データに対する前記複数の類似文書データそれぞれの類似度を算出する手順と、を含む類似度算出方法。
【0013】
(7)対象文書データに含まれる複数の用語のうち少なくともいずれか1つと共通の用語を含む複数の類似文書データを取得する手順と、前記複数の類似文書データそれぞれに含まれる前記共通の用語の数に基づいて、前記共通の用語を評価する手順と、前記評価する手順における前記複数の類似文書データそれぞれに含まれる1又は複数の前記共通の用語の評価結果に基づいて、前記対象文書データに対する前記複数の類似文書データそれぞれの類似度を算出する手順と、をコンピュータに実行させるプログラム。
【発明の効果】
【0014】
本発明によれば、類似度を精度良く算出可能な類似度算出システム、類似度算出方法、及びプログラムを提供することができる。
【図面の簡単な説明】
【0015】
図1】本実施形態における対象プロジェクトの一例が表示部の表示画面に表示された様子を示す図である。
図2】本実施形態における検索結果の一例が表示部の表示画面に表示された様子を示す図である。
図3】本実施形態に係る類似度算出システムの物理構成の一例を示す図である。
図4】本実施形態に係る類似度算出システムで実現される機能の一例を示す機能ブロック図である。
図5】複数の共通用語と、それらを含む類似文書データに対応する類似プロジェクトの一例を示す図である。
図6】各類似プロジェクトに対応する類似文書データにおける共通用語の数の一例を示す図である。
図7A】共通用語を含む類似文書データに対応する類似プロジェクトの一例を示す図である。
図7B】共通用語を含む類似文書データに対応する類似プロジェクトの一例を示す図である。
図7C】共通用語を含む類似文書データに対応する類似プロジェクトの一例を示す図である。
図7D】共通用語を含む類似文書データに対応する類似プロジェクトの一例を示す図である。
図7E】共通用語を含む類似文書データに対応する類似プロジェクトの一例を示す図である。
図8】各共通用語の評価値の一例を示す図である。
図9】本実施形態に係る類似度算出システムにおける処理フローを示すフローチャートである。
【発明を実施するための形態】
【0016】
以下、本発明に係る実施形態(以下、本実施形態という)について、図面を参照しつつ説明する。
【0017】
まず、本実施形態で用いる言葉の定義について説明する。
【0018】
対象プロジェクトとは、検索対象であるプロジェクトである。類似プロジェクトとは、検索結果として取得されるプロジェクトであって、対象プロジェクトと類似するプロジェクトである。本実施形態においては、対象プロジェクトをPJ1とし、類似プロジェクトをPJ2~PJ8として説明を行う。
【0019】
対象文書データとは、対象プロジェクトの内容を電子化したデータであり、複数の用語を含む文書データである。類似文書データとは、類似プロジェクトの内容を電子化したデータであり、対象文書データに含まれる用語と共通の用語を少なくとも1つ以上含む文書データである。対象文書データ及び類似文書データは、電子データであればよく、そのデータ形式は特に限定されるものではない。なお、対象文書データに含まれる複数の用語は、1又は複数の文字、記号、数字などから構成されるものであるとよい。また、対象文書データに含まれる複数の用語が文字である場合、それら文字は名詞であってもよいし、動詞や形容詞などであっても構わない。
【0020】
重み付け値とは、下記評価値を算出する際に用いる値であって、各類似プロジェクトに対応する各類似文書データの重みを示す値である。具体的には、重み付け値は、各類似文書データに含まれる、対象文書データと共通する用語(以下、共通用語とも呼ぶ)の数である。
【0021】
評価値とは、対象文書データに含まれる共通用語の評価を示す値である。具体的には、評価値は、共通用語において、重み付け値の合算を、その共通用語を含む類似文書データの数で割った値である。
【0022】
類似度とは、対象文書データに対する類似文書データの類似性の度合いである。具体的には、類似度は、各類似文書データにおいて評価値を合算した値である。類似度は、対象文書データと共通する用語の数が多いほど高くなり、また、共通する用語の評価値が高いほど高くなる。例えば、対象文書データと共通する用語の数が多い類似文書データであっても、共通する用語の評価値が低い場合、類似度は比較的低くなる。一方、対象文書データと共通する用語の数が少ない類似文書データであっても、共通する用語の評価値が高い場合、類似度は比較的高くなる。
【0023】
図1は、本実施形態における対象プロジェクトの一例が表示部の表示画面に表示された様子を示す図である。本実施形態においては、検索対象である対象プロジェクトとして、建設事業における施工計画を例に挙げて説明する。
【0024】
図2は、本実施形態における検索結果の一例が表示部の表示画面に表示された様子を示す図である。図2においては、上から順に類似度の高い類似文書データに対応する類似プロジェクトに関する情報が並べられている様子を示している。
【0025】
図3は、本実施形態に係る類似度算出システムの物理構成の一例を示す図である。
【0026】
本実施形態に係る類似度算出システム100には、例えば図3に示すように、制御部11、通信部12、記憶部13、操作部14、及び表示部15が含まれるとよい。類似度算出システム100は、少なくとも一つのコンピュータを含んでいればよい。類似度算出システム100が複数のコンピュータを含む場合、それらはネットワークを介して接続されているとよい。
【0027】
制御部11は、少なくとも1つのプロセッサを含む。制御部11は、例えば、類似度算出システム100にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスであるとよい。通信部12は、例えば無線LANモジュールなどの通信インタフェースなどであるとよい。記憶部13は、RAM等の揮発性メモリと、ハードディスク等の不揮発性メモリと、を含むとよい。記憶部13には、プロセッサによって実行されるプログラムなどが記憶されるとよい。操作部14は、マウス、キーボード、又はタッチパネル等の入力デバイスであるとよい。表示部15は、液晶ディスプレイ又は有機ELディスプレイであるとよい。
【0028】
図4は、本実施形態に係る類似度算出システムで実現される機能の一例を示す機能ブロック図である。図4で示される各機能は、記憶部13に記憶されるプログラムをコンピュータが実行することで実現される。プログラムはコンピュータに読み取り可能な情報記憶媒体に格納されていてもよい。
【0029】
類似度算出システム100では、類似文書データ記憶部21、抽出部22、取得部23、重み付け部24、評価部25、類似度算出部26、及び表示制御部27が実現される。類似文書データ記憶部21は記憶部13を主として実現される。抽出部22、取得部23、重み付け部24、評価部25、及び類似度算出部26は制御部11を主として実現される。表示制御部27は制御部11及び表示部15を主として実現される。
【0030】
類似文書データ記憶部21は、過去に実施されたプロジェクトである類似プロジェクトに対応する類似文書データに関する情報を、当該類似文書データに含まれる1又は複数の用語と紐づけて記憶している。なお、類似文書データに関する情報は、類似文書データそのものに加えて、類似文書データのファイル名や、類似文書データを識別するIDなどを含む情報であるとよい。
【0031】
抽出部22は、対象文書データに含まれる複数の用語を抽出する。なお、抽出部22は、OCR(Optical Character Recognition)等の技術を用いて、対象文書データに含まれる複数の用語を文字情報等として識別し、抽出してもよい。
【0032】
取得部23は、対象文書データに含まれる複数の用語のうち少なくともいずれか1つと共通の用語を含む複数の類似文書データを取得する。
【0033】
重み付け部24は、取得部23により取得された複数の類似文書データそれぞれに重み付けをする。具体的には、重み付け部24は、複数の類似文書データそれぞれに含まれる共通用語の数に基づいて、複数の類似文書データそれぞれに重み付けをする。本実施形態においては、共通の用語の数が重み付け値に対応する。
【0034】
評価部25は、複数の共通用語それぞれを評価する。具体的には、評価部25は、少なくとも第1の共通の用語を含む複数の類似文書データに含まれる共通の用語の数を合算した合算値を、第1の共通の用語を含む類似文書データの数で割ることで、第1の共通用語の評価結果(評価値)を算出する。
【0035】
類似度算出部26は、評価部25による複数の用語それぞれの評価結果に基づいて、対象文書データに対する複数の類似文書データそれぞれの類似度を算出する。具体的には、類似度算出部26は、類似文書データに含まれる共通用語の評価値を合算することで類似文書データの類似度を算出する。
【0036】
表示制御部27は、類似度に応じて表示順に並び替えて複数の類似文書データに関する情報を表示部15の表示画面に表示させる。具体的には、表示制御部27は、図2に示すように、類似度が高い順に複数の類似文書データに関する情報を表示部15の表示画面に表示させるとよい。
【0037】
次に、図1図2図5図8を参照して、本実施形態における類似度算出の具体例を説明する。図5は、複数の共通用語と、それらを含む類似文書データに対応する類似プロジェクトの一例を示す図である。図6は、各類似プロジェクトに対応する類似文書データにおける共通用語の数の一例を示す図である。図7A~7Eはそれぞれ、共通用語を含む類似文書データに対応する類似プロジェクトの一例を示す図である。図8は、各共通用語の評価値の一例を示す図である。
【0038】
ここでは、ユーザが図1に示す対象プロジェクトと類似する類似プロジェクトを検索する場合の例を説明する。まず、ユーザが操作部14を操作することにより、図2に示す画面に表示される「ファイル選択」ボタンをクリックし、図1に示す対象プロジェクトに対応する対象文書データを選択する。そして、ユーザが操作部14を操作することにより、図2に示す画面に表示される「検索」ボタンをクリックする。
【0039】
抽出部22は、対象文書データに含まれる複数の用語を抽出する。取得部23は、対象文書データに含まれる複数の用語のうち少なくともいずれか1つと共通する用語を含む複数の類似文書データに関する情報を、類似文書データ記憶部21から読みだして取得する。
【0040】
図5においては、共通用語が「コンクリート」、「ニューマチックケーソン」、「クレーン」、「ハイドキャリア」、「ホスピタルロック」、「植生工」、「軽量盛土工」、「品川区」の8つである例を示している。また、図5においては、これら共通用語の少なくともいずれか1つを含む類似文書データとして、類似プロジェクトPJ2~PJ9それぞれに対応する類似文書データが取得された例を示している。
【0041】
次に、重み付け部24が、取得部23により取得された複数の類似文書データそれぞれに重み付けをする。図6に示すように、類似プロジェクトPJ2に対応する類似文書データに含まれる共通用語は3つである。そのため、類似プロジェクトPJ2に対応する類似文書データの重み付け値を3とする。同様に、類似プロジェクトPJ3~PJ9に対応する類似文書データに含まれる共通用語の数に応じて、それらの重み付け値をそれぞれ、5、5、3、3、3、4、2とする。
【0042】
次に、評価部25が、複数の類似文書データそれぞれの重み付け値に基づいて、複数の共通用語それぞれを評価する。具体的には、評価部25は、各共通用語において、その共通用語を含む類似文書データの重み付け値の合算値を、その共通用語を含む類似文書データの数で割った値を評価値とする。以下、評価値の算出をさらに具体的に説明する。
【0043】
図7Aに示すように、共通用語「コンクリート」は、類似プロジェクトPJ2~PJ9それぞれに対応する類似文書データに含まれている用語である。そのため、共通用語「コンクリート」の評価値は、(3+5+5+3+3+3+4+2)/8=3.5となる。「コンクリート」のように多くの類似文書データに含まれる用語の評価値は比較的低くなる。すなわち、「コンクリート」の類似度への寄与は小さい。
【0044】
図7Bに示すように、共通用語「ニューマチックケーソン」は、類似プロジェクトPJ2~PJ4、PJ7それぞれに対応する類似文書データに含まれている用語である。そのため、共通用語「ニューマチックケーソン」の評価値は、(3+5+5+3)/4=4となる。
【0045】
図7Cに示すように、共通用語「ハイドキャリア」は、類似プロジェクトPJ3、PJ4それぞれに対応する類似文書データに含まれている用語である。そのため、共通用語「ハイドキャリア」の評価値は、(5+5)/2=5となる。「ハイドキャリア」を含む類似文書データは多くの共通用語を含むため、「ハイドキャリア」の評価値は比較的高くなる。すなわち、「ハイドキャリア」の類似度への寄与は大きい。
【0046】
図7Dに示すように、共通用語「ホスピタルロック」は、類似プロジェクトPJ3、PJ4それぞれに対応する類似文書データに含まれている用語である。そのため、共通用語「ホスピタルロック」の評価値は、(5+5)/2=5となる。「ホスピタルロック」を含む類似文書データは多くの共通用語を含むため、「ホスピタルロック」の評価値は比較的高くなる。すなわち、「ホスピタルロック」の類似度への寄与は大きい。
【0047】
図7Eに示すように、共通用語「植生工」は、類似プロジェクトPJ5、PJ6それぞれに対応する類似文書データに含まれている用語である。そのため、共通用語「植生工」の評価値は、(3+3)/2=3となる。「植生工」を含む類似文書データは少ない共通用語を含むため、「植生工」の評価値は比較的低くなる。すなわち、「植生工」の類似度への寄与は小さい。
【0048】
図示は省略するが、同様の計算により、共通用語「クレーン」の評価値は3.5となり、共通用語「軽量盛土工」の評価値は3.7となり、共通用語「品川区」の評価値は4となる。
【0049】
以上のように、本実施形態においては、多くの共通用語を含む類似プロジェクトPJ3とPJ4に含まれる共通用語の評価値が高くなる。ただし、多くの類似プロジェクトに含まれる共通用語「コンクリート」の評価値は比較的低くなる。
【0050】
次に、類似度算出部26は、評価部25による複数の共通用語それぞれの評価値(評価結果)に基づいて、対象文書データに対する複数の類似文書データそれぞれの類似度を算出する。具体的には、類似度算出部26は、各類似文書データにおいて、その類似文書データに含まれる共通用語の評価値を合算することにより類似度を算出する。
【0051】
具体的には、類似プロジェクトPJ2に対応する類似文書データにおいては、共通用語「コンクリート」、「ニューマチックケーソン」、「クレーン」の評価値を合算して、3.5+4+3.5=11が類似度として算出される。
【0052】
同様の計算により、図2に示すように、類似プロジェクトPJ3に対応する類似文書データにおいては類似度が21となり、類似プロジェクトPJ4に対応する類似文書データにおいては類似度が21.2となり、類似プロジェクトPJ5に対応する類似文書データにおいては類似度が10となり、類似プロジェクトPJ6に対応する類似文書データにおいては類似度が10となり、類似プロジェクトPJ7に対応する類似文書データにおいては類似度が11となり、類似プロジェクトPJ8に対応する類似文書データにおいては類似度が14.7となり、類似プロジェクトPJ9に対応する類似文書データにおいては類似度が7.2となる。
【0053】
このように、対象文書データと多くの用語が共通する類似文書データの類似度は高くなる。また、含まれる共通用語の評価値が高いほど、その類似文書データの類似度は高くなる。本実施形態においては、評価値の高い「ハイドキャリア」、「ホスピタルロック」を含み、かつ多くの共通用語を含む類似プロジェクトPJ3及びPJ4の類似度が高くなっている。
【0054】
次に、表示制御部27が、類似度の算出結果を表示部15の表示画面に表示させる。具体的には、表示制御部27は、類似度が高い順に複数の類似文書データに関する情報を表示部15の表示画面に表示させる。本実施形態においては、図2に示すように、類似度が最も高い類似プロジェクトPJ4に関する情報が最も上に表示され、次に類似度が高い類似プロジェクトPJ3に関する情報が表示される。以下、類似度が高い順に並んでいる。
【0055】
また、図2に示すように、表示制御部27は、類似プロジェクトに関する情報を、その類似度の値と併せて表示させるとよい。これにより、ユーザは各類似プロジェクトに関する情報にアクセスするか否かを容易に判断することができる。例えば、図2に示す例においては、類似度が2番目と3番目の類似プロジェクトでは類似度の差が大きいため、ユーザは類似度が3番目以降の類似プロジェクトにはアクセスしないという判断をすることができる。また、類似度が高いPJ4、3にアクセスした上で、類似度が比較的近いPJ8、PJ2、PJ7、PJ5、PJ6にはアクセスし、それらよりも類似度が小さく、かつ類似度の差が大きいPJ9にはアクセスしないという判断をすることができる。
【0056】
また、図2に示すように、表示制御部27は、各類似文書データに含まれる共通用語を評価値順に表示部15の表示画面に表示させるとよい。表示される共通用語は、その類似文書データに含まれる全ての共通用語であってもよいし、評価値が上位の共通用語のみであってもよい。これにより、ユーザは、類似文書データの類似度がどのような共通用語により構成されていたのかを把握でき、共通用語の種類に応じて当該類似文書データにアクセスするか否かの判断をすることができる。
【0057】
次に、図9を参照して、本実施形態に係る類似度算出システムにおける処理フローを説明する。図9は、本実施形態に係る類似度算出システムにおける処理フローを示すフローチャートである。
【0058】
まず、ユーザが選択した対象文書データの入力を受け付け、抽出部22により対象文書データに含まれる複数の用語を抽出する(ステップS1)。次に、取得部23により、対象文書データに含まれる複数の用語のうち少なくともいずれか1つと共通の用語を含む複数の類似文書データを取得する(ステップS2)。次に、評価部25により、複数の類似文書データそれぞれに含まれる共通の用語の数に基づいて、共通の用語を評価する(ステップS3)。次に、評価部25による複数の類似文書データそれぞれに含まれる1又は複数の共通の用語の評価値に基づいて、対象文書データに対する複数の類似文書データそれぞれの類似度を算出する(ステップS4)。そして、表示制御部27により、類似度が高い順に複数の類似文書データを並び替えて、複数の類似文書データに関する情報を表示する(ステップS5)。
【0059】
以上説明した本実施形態においては、精度良く類似度を算出することができる。その結果、ユーザは検索したい文書データに容易にアクセスすることが可能となる。
【0060】
なお、共通用語の評価や、類似文書データの類似度の計算手法は本実施形態で説明したものに限られるものではない。例えば、図7Aで示した「コンクリート」のように多くの文書データで共通する用語については、含まれる類似文書データの数に応じて更に評価値を下げる又は評価値を0にする処理を行ってもよい。また、例えば、類似度は、共通用語の評価値に所定の重み付けをして、重み付けがされた評価値を合算して算出されるものであってもよい。所定の重みは、例えば、用語のカテゴリーに応じたものであるとよい。具体的には、例えば、施工内容を示す用語については重み付けを高くし、施工日時を示す用語については重み付けを低く設定するとよい。
【0061】
なお、本実施形態においては、建設事業における施工計画に関して類似度の高い文書を検索する例を説明したが、適用分野はこれに限られるものではない。
【符号の説明】
【0062】
11 制御部、12 通信部、13 記憶部、14 操作部、15 表示部、21 類似文書データ記憶部、22 抽出部、23 取得部、24 重み付け部、25 評価部、26 類似度算出部、27 表示制御部、100 類似度算出システム。
図1
図2
図3
図4
図5
図6
図7A
図7B
図7C
図7D
図7E
図8
図9